CN105095516A - 基于谱聚类集成的广播电视用户分群系统及方法 - Google Patents
基于谱聚类集成的广播电视用户分群系统及方法 Download PDFInfo
- Publication number
- CN105095516A CN105095516A CN201510590463.2A CN201510590463A CN105095516A CN 105095516 A CN105095516 A CN 105095516A CN 201510590463 A CN201510590463 A CN 201510590463A CN 105095516 A CN105095516 A CN 105095516A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- program
- clustering
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000003595 spectral effect Effects 0.000 title claims abstract description 65
- 230000010354 integration Effects 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 203
- 238000010276 construction Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 43
- 238000010606 normalization Methods 0.000 claims description 38
- 230000009466 transformation Effects 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims description 2
- 230000002093 peripheral effect Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 35
- 230000006870 function Effects 0.000 description 19
- 230000000694 effects Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 101150011264 setB gene Proteins 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供一种基于谱聚类集成的广播电视用户分群系统及方法,包括:输入单元,输入收视偏好的参数;节目数据库,存储节目播放信息;收视数据库,采集用户对节目的收看信息;收视偏好空间构建单元,根据输入单元输入的属性特征指标,从节目数据库和收视数据库调取数据源,得到各用户对各节目类型的属性特征指标数据,形成收视偏好矩阵;第一分群单元,基于收视偏好空间对用户进行多次分群;匹配单元,采用一致性函数对分群集合中的簇进行共识匹配,构建簇关系图;第二分群单元,将簇关系图转换为簇关系度矩阵,其作为相似度矩阵,采用谱聚类方法对簇进行分组;集成单元,将数据点在不同簇中出现次数最多的簇所在的组作为该数据点最终所在组。
Description
技术领域
本发明涉及广播电视领域,更为具体地,涉及一种基于谱聚类集成的广播电视用户分群系统及方法。
背景技术
随着广播电视行业的发展以及电视资源的不断丰富,用户在收视过程中形成了不同的节目类型偏好。通过对用户收视行为进行分析,对用户进行分群,找到具有不同收视习惯的用户群体,进行个性节目推荐,成为了广电行业研究焦点。
聚类分析,就是把对象按照性质上的亲疏程度分成多个类或簇,使得类或簇内的数据具有较高相似度,类或簇间的数据具有较高的相异程度,目前聚类分析已成功应用到信息检索、数据挖掘等多个领域。聚类集成利用集成学习技术,通过学习合并数据集的多个聚类结果,得到一个新的聚类结果。与单一聚类算法相比,聚类集成通过处理分布式数据源,不仅可以提高聚类结果的准确性和鲁棒性,而且还可以检测和处理孤立点以及噪音情况。
在聚类集成算法中,传统一致性函数是通过将聚类集体中的多个聚类结果进行结合(或称为集成),以生成一个统一的聚类结果。传统聚类集成算法主要采用基于互联合矩阵、基于图形划分或基于最大似然估计的一致性函数对聚类成员进行匹配,具有很大的局限性。采用基于传统一致性函数的聚类集成方法对用户进行分群,并不能得到很好的效果。
发明内容
鉴于上述问题,本发明的目的是提供一种能够对广播电视用户进行准确分群的基于谱聚类集成的广播电视用户分群方法及系统。
根据本发明的一个方面,提供一种基于谱聚类的集成广播电视用户分群系统,包括:输入单元,用于输入确定广播电视用户收视偏好所需的参数,其中,所述参数至少包括:节目类型、属性特征指标、空间区域、时间区域、簇个数和组个数,其中,所述属性特征指标是与收视时长成正比的一个或多个广播电视参数;节目数据库,用于将各节目类型的节目播放信息存储为数据源或者从网站上采集各节目的节目标签,将各节目的节目标签与各节目的播放信息存储为数据源,其中,节目标签是对电视节目内容的多角度概括;收视数据库,通过用户机顶盒的收视信号采集用户对各节目类型的节目的收看信息,并存储为数据源;收视偏好空间构建单元,根据输入单元输入的属性特征指标,从节目数据库和收视数据库调取计算节目类型或节目标签的属性特征指标所需的数据源,并进行计算得到各用户对各节目类型或各节目标签的属性特征指标数据,构成收视偏好矩阵,即,收视偏好空间;第一分群单元,基于收视偏好空间对广播电视用户进行多次分群,包括第一相似度空间构建单元,利用高斯函数构建基于收视偏好矩阵的相似度矩阵,即相似度空间;第一特征向量空间构建单元,构建相似度矩阵的对角矩阵,将对角矩阵进行拉普拉斯变换,得到前k个最大的特征值对应的特征向量构成特征向量空间,其中,k为簇个数,为自然数,同时也是特征向量空间的列数;第一谱聚类分群单元,将特征向量空间中每一行作为一个数据点,每一次采用k个数据点作为k个簇的初始聚类中心对广播电视用户进行分群,直到特征向量空间中每一个数据点均作为初始聚类中心进行分群,多次分群结束,多次分群结果构成分群集合,其中,每一次分群结果称为一个谱聚类成员,每一次分群结果形成k个簇;匹配单元,采用基于谱聚类的一致性函数对第一分群单元形成的分群集合中的簇进行共识匹配,找到不同簇之间的对应关系,构建簇关系图;第二分群单元,将匹配单元形成的簇关系图转换为簇关系度矩阵,其作为相似度矩阵,采用谱聚类方法对簇进行分组;集成单元,集成第一分群单元和第二分群单元的分群结果,将数据点在不同簇中出现次数最多的簇所在的组作为该数据点最终所在组,从而确定每一组用户的收视偏好。
根据本发明的另一个方面,提供一种基于谱聚类集成的广播电视用户分群方法,包括:通过输入单元输入确定广播电视用户收视偏好所需的参数,其中,所述参数至少包括:节目类型、属性特征指标、空间区域、时间区域、簇个数和组个数;构建收视偏好空间,具体地,根据输入单元输入的属性特征指标,分别从节目数据库和收视数据库调取上述时间区域和空间区域范围内计算各用户对节目类型的属性特征指标数据所需的数据源,并计算得到各用户对各节目类型或各节目标签的属性特征指标数据,组合形成收视偏好矩阵;基于收视偏好空间对广播电视用户进行多次分群,具体地,采用高斯函数构建基于收视偏好矩阵的相似度矩阵,构建相似度矩阵的对角矩阵,将对角矩阵进行拉普拉斯变换,得到前k个最大的特征值对应的特征向量构成特征向量空间,其中,k为簇个数,为自然数,也是特征向量空间中的列数,将特征向量空间中每一行作为一个数据点,每一行的元素作为数据点,每一次采用k个数据点作为k个簇的初始聚类中心对广播电视用户进行分群,直到特征向量空间中每一个数据点均作为初始聚类中心进行分群,多次分群结束,多次分群结果组成分群集合,其中,每一次分群结果称为一个谱聚类成员,每一次分群结果形成k个簇;构建簇关系图,具体地,采用基于谱聚类的一致性函数对上述分群集合中的簇进行共识匹配,找到不同簇之间的对应关系,构建簇关系图;基于簇关系图采用谱聚类算法对不同分群结果中的簇进行分组,具体地,将簇关系图转换为簇关系度矩阵,其作为相似度矩阵,采用谱聚类方法对簇进行分组;集成基于收视偏好空间对广播电视用户进行多次分群和基于簇关系图对簇进行分组的分群结果,将数据点在不同簇中出现次数最多的簇所在的组作为该数据点最终所在组,从而确定每一组用户的收视偏好。
本发明所述基于谱聚类集成的广播电视用户分群系统及方法通过构建节目类型或节目标签的收视偏好空间,基于所述收视偏好空间采用谱聚类方法将广播电视用户分成多个簇,根据多个簇之间的关系构建簇关系图,基于簇关系图采用谱聚类方法再对簇进行分组,最后集成用户在不同簇中出现的次数作为其所属组,对广播电视用户进行了多次分群,提高了分群的准确性,并且将基于谱聚类的一致性函数应用到广播电视领域,提高了分群的集成性,可以产生更加准确的聚类集成效果。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1是本发明基于谱聚类集成的广播电视用户分群系统;
图2是现有技术电视节目分类体系的示意图;
图3是本发明节目标签的示意图;
图4是本发明基于谱聚类集成的广播电视用户分群方法的流程图;
图5是本发明构建收视偏好空间一个实施例的流程图;
图6是本发明构建收视偏好空间另一个实施例的流程图;
图7是本发明基于收视偏好空间对广播电视用户进行多次分群的一个实施例的流程图;
图8是本发明基于收视偏好空间对广播电视用户进行多次分群的另一个实施例的流程图;
图9是本发明采用k-means算法基于特征向量归一化矩阵对广播电视用户进行多次分群的一个实施例的流程图;
图10是本发明采用k-means算法基于特征向量归一化矩阵对广播电视用户进行多次分群的另一个实施例的流程图;
图11是本发明对基于收视偏好空间对广播电视用户分群形成分群集合构建簇关系图的流程图;
图12是本发明簇关系图的示意图;
图13是本发明基于簇关系图采用谱聚类算法对不同分群结果中的簇进行分组的流程图;
图14是本发明采用k-means算法基于特征向量归一化矩阵对簇进行分组的流程图;
图15是本发明采用聚类方法对簇进行分组的示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。
以下将结合附图对本发明的具体实施例进行详细描述。
图1是本发明基于谱聚类集成的广播电视用户分群系统,如图1所示,所述广播电视用户分群系统,包括:
输入单元110,用于输入确定广播电视用户收视偏好所需的各种参数,其中,所述参数至少包括:节目类型、属性特征指标、空间区域、时间区域、簇个数和组个数,其中,所述属性特征指标是与收视时长成正比的一个或多个广播电视参数,输入单元110可以是触摸屏、键盘、手写板、鼠标等,其中,所述节目类型包括节目分类体系(图2示出)中的一种或者多种类型,例如,可以为电视剧、电影、新闻、综艺、广告中的一种或多种;所述属性特征指标是与收视时长成正比的一个或多个广播电视参数,例如,收视时长、收视占比、忠诚指数等,其中,收视占比是指某类节目单位播出时间内,用户的收视时长,反映了用户对节目类型的偏爱程度,忠诚指数是指用户对某类节目单位视频次内的收视时长,反映了用户对该节目的忠诚程度;所述空间区域可以是省、市、区等,例如北京市;所述时间区域为选定各节目类型的计算时间段,例如,时间区域为2003年1月1日至2014年1月1日;
节目数据库120,用于将各节目类型的节目播放信息存储为数据源或者从网站上采集各节目的节目标签,将各节目的节目标签与各节目的播放信息存储为数据源,其中,节目标签是对电视节目内容的多角度概括,每一个节目标签体现电视节目一个方面的特性,如图3所示,节目标签包括节目类型标签、年代标签、参加人员标签等,其中节目类型标签可以是新闻类、电视剧类、动漫类等;年代标签可以是古代、现代、抗日年代等;参加人员标签可以是演员、导演、编剧等;
收视数据库130,通过用户机顶盒的收视信号采集用户对各节目类型的节目的收看信息,并存储为数据源;
收视偏好空间构建单元140,根据输入单元110输入的属性特征指标,从节目数据库120和收视数据库130调取计算节目类型或节目标签的属性特征指标所需的数据源,并进行计算得到各用户对各节目类型或各节目标签的属性特征指标数据,组合形成收视偏好矩阵,即,收视偏好空间,具体地,将在图5至6中进行详细描述;
第一分群单元150,基于收视偏好空间构建单元140构建的收视偏好空间对广播电视用户进行多次分群,包括:
第一相似度空间构建单元151,利用高斯函数构建基于收视偏好矩阵的相似度矩阵,即相似度空间;
第一特征向量空间构建单元152,构建相似度矩阵的对角矩阵,将对角矩阵进行拉普拉斯变换,得到前K个最大的特征值对应的特征向量构成特征向量空间,其中,k为簇个数,为自然数,同时也是特征向量空间的列数;
第一谱聚类单元153,将特征向量空间中每一行作为一个数据点,每一次采用k个数据点作为k个簇的初始聚类中心对广播电视用户进行分群,直到特征向量空间中每一个数据点均作为初始聚类中心进行分群,多次分群结束,多次分群结果组成分群集合,其中,每一次分群结果称为一个谱聚类成员,每一次分群结果形成k个簇,具体地,将在图7至10中进行详细描述;
匹配单元160,采用基于谱聚类的一致性函数对第一分群单元150形成的分群集合中的簇进行共识匹配,找到不同簇之间的对应关系,构建簇关系图,具体地,将在图11和12中进行描述;
第二分群单元170,将匹配单元160形成的簇关系图转换为簇关系度矩阵,其作为相似度矩阵,采用谱聚类方法对对簇进行分组,具体地,将在表1以及图13至15的描述中进行详细说明;
集成单元180,集成第一分群单元150和第二分群单元170的分群结果,将数据点在不同簇中出现次数最多的簇所在的组作为该数据点最终所在组,从而确定每一组用户的收视偏好。
优选地,第二分群单元170包括:第二相似度空间构建单元171,将簇关系图转换为簇关系度矩阵,其作为相似度矩阵;第二特征向量空间构造单元172,构建相似度矩阵的对角矩阵,将对角矩阵进行拉普拉斯变换,得到前a个最大的特征值对应的特征向量构成特征向量空间,其中,a为设定值,为输入单元110输入的组个数,为自然数;第二谱聚类单元173,将上述特征向量空间中每一行作为新数据点,以原点作为初始聚类中心,利用K-means方法对簇进行分组。
图4是本发明基于谱聚类的广播电视用户分群方法的流程图,如图3所示,所述广播电视用户分群方法包括:
首先,在步骤S410中,通过输入单元110输入确定广播电视用户收视偏好所需的各种参数,其中,所述参数至少包括:节目类型、属性特征指标、空间区域、时间区域、簇个数和组个数;
确定了收视偏好的参数以后,在步骤S420中,构建收视偏好空间,具体地,根据输入单元110输入的属性特征指标,分别从节目数据库和收视数据库调取上述时间区域和空间区域范围内计算各用户对节目类型或节目标签的属性特征指标数据所需的数据源,并计算得到各用户对各节目类型或各节目标签的属性特征指标数据,组合形成收视偏好矩阵,即,收视偏好空间,具体地,将在图5至6中进行详细描述;
构建了收视偏好空间以后,在步骤S430中,基于收视偏好空间采用谱聚类算法对广播电视用户进行多次分群,具体地,采用高斯函数构建基于收视偏好矩阵的相似度矩阵,将同一用户所有节目的相似度相加构建相似度矩阵的对角矩阵,将对角矩阵进行拉普拉斯变换,得到前k个最大的特征值对应的特征向量构成特征向量空间,其中,k为簇个数,为自然数,也是特征向量空间中的列数,将特征向量空间中每一行作为一个数据点,每一行的元素作为数据点,每一次采用k个数据点作为k个簇的初始聚类中心对广播电视用户进行分群,直到特征向量空间中每一个数据点均作为初始聚类中心进行分群,多次分群结束,多次分群结果组成分群集合,其中,每一次分群结果称为一个谱聚类成员,每一次分群结果形成k个簇,具体地,将在图7至10中进行详细描述。
基于收视偏好空间对广播电视用户进行分群得到分群集合后,在步骤S440中,构建上述分群结果构成的分群集合的簇关系图,具体地,采用基于谱聚类的一致性函数对上述分群集合中的簇进行共识匹配,找到不同簇之间的对应关系,构建簇关系图,具体地,将在图11和12中进行描述;
得到表示分群集合中不同簇之间的对应关系的簇关系图后,在步骤S450中,基于谱关系图采用谱聚类算法对不同分群结果中的簇进行分组,具体地,将簇关系图转换为簇关系度矩阵,其作为相似度矩阵,采用谱聚类方法对簇进行分组,具体地,将在表1以及图13至15的描述中进行详细说明。
在步骤S460中,集成基于收视偏好空间对广播电视用户进行多次分群和基于簇关系图对簇进行分组的分群结果,将数据点在不同簇中出现次数最多的簇所在的组作为该数据点最终所在组,从而确定每一组用户的收视偏好。
图5是本发明构建收视偏好空间一个实施例的流程图,如图5所示,所述构建收视偏好空间的方法包括:
首先,在步骤S510中,确定节目类型的属性特征指标的计算方法,即选取节目类型中一个节目的属性特征指标作为节目类型的属性特征指标或者选取各用户对节目类型中多个甚至所有节目的属性特征指标的平均值作为各用户对该节目类型的属性特征指标,例如,输入单元110输入节目属性特征指标为收视占比,空间区域为北京市,时间区域为2003年1月1日至2014年1月1日,节目类型集合S={S1,...,Sm},m为节目类型总数,所述时间区域和空间区域内广播电视用户集合U={u1,…,un},n为用户总数,以节目类型S1=电视剧为例,电视剧类型的节目集合为S1={sd1,...,sdt},其中,t为电视剧节目总数,可以选取各用户对一个电视剧节目(例如节目sd1)的收视占比作为各用户对电视剧节目类型的收视占比,也可以选取各用户对多个甚至所有电视剧节目的收视占比的平均值作为各用户电视机节目类型的收视占比。
确定各节目类型的节目属性特征指标的计算方法后,在步骤S520中,从节目数据库和收视数据库调用计算各节目类型的属性特征指标所需的数据源,如上例中,节目属性特征指标为收视占比,节目类型为电视剧,采用各用户对节目sd1的收视占比作为各用户对电视剧类型的收视占比,则分别从节目数据库和收视数据库调用节目sd1的播出总时长数据源和收视总时长数据源其中,表示节目sd1在所述时间区域内的播出总时长,表示用户ui在所述时间区域内对节目sd1的收视总时长,1≤i≤n。
从节目数据库和收视数据库调用了各节目类型属性特征指标计算方法所需的数据源后,在步骤S530中,计算各节目类型属性特征指标,例如,采用各用户对节目sd1的收视占比作为各用户对电视剧类型的收视占比,其中,表示用户ui对节目sd1的收视占比,表示用户ui对节目类型S1的收视占比,又如,采用各用户对所有电视剧节目的收视占比的平均值作为各用户对电视剧类型的收视占比,其中,表示用户ui对节目sdj的收视占比,表示用户ui在时间区域内收看电视剧节目的收视占比总值;
得到各节目类型的属性特征指标以后,在步骤S540中,将各节目类型的属性特征组合形成收视偏好矩阵,即收视偏好空间P,其中,,其中,表示用户ui对节目类型Sj的偏好值,值越大表明用户对该节目类型的兴趣度越高,1≤i≤n,1≤j≤m,
优选地,采用各用户对各节目类型的收视指数作为各用户对各节目类型的的属性特征指标,其中,收视指数是指用户ui对节目类型Sj的收视占比与用户ui对所有节目类型的收视占比均值的比值做反正切运算后,乘以圆周率倒数的2倍,数值在在0到1范围内,值越大表明用户对该节目兴趣越高,反之则越小。
另外,优选地,收视偏好矩阵为各用户对各节目类型的收视指数作为各用户对各节目类型的的属性特征指标组成的矩阵,即
图6是本发明构建收视偏好空间另一个实施例的流程图,如图6所示,所述构建收视偏好空间方法包括:
首先,在步骤S610中,从节目数据库调出各节目类型中节目组成的节目集合,例如,节目类型集合S={S1,...,Sm},各节目类型中各节目组成的节目集合X=[x1...xZ],其中,x1...xZ为节目标号,z为节目总数。
得到各节目类型中各节目组成的节目集合之后,在步骤S620中,通过爬行技术从网络上采集各节目的特征词作为各节目的节目标签,其中,节目标签是对电视节目内容的多角度概括,每一个节目标签体现电视节目一个方面的特性,节目标签组成的集合为节目标签集合B=[b1...bg],其中,Tag表示节目标签集合,[tagz,1,…tagz,f]表示节目xz的1至f个节目标签,f表示节目标签的个数,当节目标签不足f个时,为0;为节目标签集合Tag中所有非零和非重叠节目标签的集合,g表示节目x1至xz的节目标签的非零和非重叠个数,0<g≤zf。
得到各节目的节目标签组成的节目标签集合后,在步骤S630中,计算各节目标签对于各节目的标注频次,即词频,例如,词频tfxi,bj表示标签bj对于节目xi标注的频次,nxi,bj表示采用标签bj对节目xi标注的网站个数,表示节目xi所有标签在不同网站出现的个数之和,1≤i≤z,1≤j≤g。
得到各节目标签对于各节目的标注频次后,在步骤S640中,计算各节目标签对于各节目的逆向节目频率 表示逆向节目频率,表征标签bj的普遍重要程度,由节目总数z除以包含该标签的节目数量再将得到的商取对数得到。
得到各节目标签对于各节目的标注频次和逆向节目频率后,在步骤S650中,采用词频和逆向节目频率构建节目标签权重矩阵W,即采用词频-逆向节目频率算法(TF-IPF,termfrequency–inverseprogramfrequency)构建节目标签权重矩阵W
其中,W表示节目类型标签权重矩阵,为节目类型标签权重矩阵中元素,表示标签bj对于节目xi的重要程度。
得到各节目的节目标签权重矩阵W之后,在步骤S660中,通过计算各节目的收视占比或者收视指数构建各节目的收视占比矩阵R或者收视指数矩阵F,
其中,表示用户un对节目xz的收视占比;表示用户un对节目xz的收视指数。
得到各节目的收视占比矩阵R或者收视指数矩阵F后,在步骤S670中,根据各节目的节目标签权重矩阵W以及各节目的收视占比矩阵R或者收视指数矩阵F构建收视偏好矩阵P,
P=RW或
P=FW
其中,或表示用户对un节目标签目bg的偏好程度,值越大表明用户对该节目的兴趣度越高。
图7是本发明基于收视偏好空间对广播电视用户进行多次分群的一个实施例的流程图,如图7所示,所述基于收视偏好空间对广播电视用户进行多次分群的方法包括:
首先,在步骤S710中,采用高斯函数构建基于收视偏好矩阵的相似度空间A,其中, d(ui,uj)表示用户ui与用户uj之间的基于节目类型收视偏好的欧氏距离,σ为尺度参数,优选地,采用收视偏好空间中不同用户之间基于节目标签收视偏好的欧式距离,通过高斯函数构建基于收视偏好矩阵的相似度,即,d(ui,uj)表示用户ui与用户uj之间的基于节目标签收视偏好的欧式距离。
采用高斯函数构建了相似度空间以后,在步骤S720中,构建基于相似度矩阵的对角矩阵D,
其中:D表示基于相似度矩阵的对角矩阵,Dij表示对角矩阵D的元素;
表示矩阵A中用户ui与其他用户间高斯核相似度的和。
构建了基于相似度矩阵的对角矩阵D后,在步骤S730中,根据对角矩阵D构建拉普拉斯矩阵L。
对相似度矩阵进行了对角变换和拉普拉斯变化以后,在步骤S740中,找出拉普拉斯矩阵L的前k个最大的特征值对应的特征向量Vk构成特征向量空间。
L*V=λ*V
其中:
L表示拉普拉斯矩阵;V表示矩阵L的特征向量;λ表示矩阵L的特征值;
Vk表示矩阵L的前k个最大特征值对应的特征向量,即特征向量空间,k为特征向量空间的列数也是簇个数,是自然数;
Vij表示矩阵Vk的元素;
构建了特征向量空间以后,在步骤S750中,对特征向量空间进行归一化处理,得到特征向量归一化矩阵Y
得到特征向量归一化矩阵以后,在步骤S760中,采用k-means算法基于特征向量归一化矩阵对广播电视用户进行多次分群,具体地,将在图9中进行详细描述。
图8是本发明基于收视偏好空间对广播电视用户进行多次分群的另一个实施例的方法流程图,如图8所示,所述对收视偏好空间的广播电视用户进行分群的方法包括:
首先,在步骤S810中,采用高斯函数构建基于收视偏好矩阵的不同高斯核的相似度空间A,
其中:
d(ui,uj)表示用户ui与用户uj之间的基于节目类型收视偏好或者基于节目标签收视偏好的欧式距离;
A表示Ⅰ型、Ⅱ型、Ⅲ型、Ⅳ型高斯核相似度矩阵的统一标识;
Aij表示矩阵A中的元素,可以采用Ⅰ型、Ⅱ型、Ⅲ型、Ⅳ型高斯核参数予以计算,即代表了A'ij、A”ij、A”'ij、A””ij;
A'ij表示Ⅰ型高斯核相似度矩阵中元素,σ'i表示Ⅰ型高斯核参数,dmax-dmin表示用户间基于节目类型收视偏好或者基于节目标签收视偏好的最大变化范围;
A”ij表示Ⅱ型高斯核相似度矩阵中元素,σ”i表示Ⅱ型高斯核参数,dmax表示用户间基于节目类型收视偏好或者基于节目标签收视偏好的最大欧氏距离。
A”'ij表示Ⅲ型高斯核相似度矩阵中元素,σ”'i、σ”'j表示Ⅲ型高斯核参数,h表示设定的用户周围的用户数目,uh表示用户ui或uj周围的第h个用户;
A””ij表示Ⅳ型高斯核相似度矩阵,σ””i、σ””j表示Ⅳ型高斯核参数,uv表示用户ui周围的第v个用户,1≤v≤h,uw表示用户uj周围的第w个用户,1≤w≤h。
在步骤S820中,对具有不同高斯核的相似度空间进行对角变换和拉普拉斯变换。
在步骤S830中,找到经过对角变换和拉普拉斯变换后的不同高斯核的相似度空间内的前k个最大的特征值对应的特征向量构成具有不同高斯核的多个特征向量空间,并对所述特征向量空间进行归一化处理,形成多个特征向量归一化矩阵,其中,k为每一个特征向量归一化矩阵的列数,也是输入单元输入的簇个数,是自然数;
在步骤S840中,采用k-means算法基于特征向量归一化矩阵对广播电视用户进行多次分群,具体地,将在图10中进行详细描述。
图9是本发明采用k-means算法基于特征向量归一化矩阵对广播电视用户进行多次分群的一个实施例的流程图,如图9所示,所述采用k-means算法基于特征向量归一化矩阵对广播电视用户进行多次分群的方法包括:
首先,在步骤S910中,将特征向量归一化矩阵中的每一行作为一个数据点,随机选取k个数据点,作为k个簇的初始聚类中心。
在步骤S920中,计算数据点与初始聚类中心的欧式距离,并将各数据点指派到与其距离最近的初始聚类中心代表的簇;
在步骤S930中,计算用户分群均方误差E:
其中:
yi表示数据点;
Ci表示簇;
mi表示组Ci的聚类中心(数值为簇Ci中数据点的属性均值);
|yi-mi|表示数据点yi与簇yi聚类中心mi的欧式距离。
在步骤S940中,判断数据点所属簇是否发生变化或用户分群均方误差E收敛是否收敛;
如果数据点所属簇发生变化或用户分群均方误差E未收敛,在步骤S950中,取簇内所有数据点的属性均值作为初始聚类中心,返回步骤S920,直到数据点所属簇不发生变化且用户分群均方误差E收敛。
如果数据点所属簇没有发生变化且用户分群均方误差E收敛,则在步骤S960中,采用不同初始聚类中心,即,从特征向量归一化矩阵中选取不同的数据点作为初始聚类中心,重复上述过程完成广播电视用户的多次分群。
在步骤S970中,广播电视用户多次分群的分群结果组合构成分群集合C,
其中:C=[C1,…,CM]表示对用户集体U={u1,…,un}进行M次分群构成的分群集合,C1,…,CM为M个谱聚类成员;表示对用户集体U={u1,…,un}的第1次分群结果,其中表示第1次分群结果中属于第k个簇的用户群体,例如,M次分群中属于第k个簇的用户群体为u1和un,则
图10采用k-means算法基于特征向量归一化矩阵对广播电视用户进行多次分群的另一个实施例的流程图,如图10所示,所述采用k-means算法基于特征向量归一化矩阵对广播电视用户进行多次分群的方法包括:
首先,在步骤S1010中,将基于不同高斯核相似度矩阵形成的四个特征向量归一化矩阵中的一个的每一行作为一个数据点,随机选取k个数据点,作为k个簇的初始聚类中心;
在步骤S1020中,计算该特征向量归一化矩阵中数据点与初始聚类中心的欧式距离,并将各数据点指派到与其距离最近的初始聚类中心代表的簇;
在步骤S1030中,计算用户分群均方误差E:
其中:
yi表示数据点;
Ci表示簇;
mi表示组Ci的聚类中心(数值为簇Ci中数据点的属性均值);
|yi-mi|表示数据点yi与簇yi聚类中心mi的欧式距离。
在步骤S1040中,判断数据点所属簇是否发生变化或用户分群均方误差E收敛;
如果数据点所属簇发生变化或用户分群均方误差E未收敛,则,在步骤S1050中,取簇内所有数据点的属性均值作为初始聚类中心,返回步骤S1020,直到数据点所属簇不发生变化且用户分群均方误差E收敛。
如果数据点所属簇没有发生变化且用户分群均方误差E收敛,在步骤S1060中,采用上述方法对其他特征向量归一化矩阵对广播电视用户进行分群,得到四次分群结果;
在步骤S1070中,将四次分群的分群结果组合成分群集合C,
其中:C=[C1,…,C4]表示对用户集体U={u1,…,un}进行4次分群构成的分群集合,C1,…,C4为4个谱聚类成员;表示对用户集体U={u1,…,un}的第1次分群结果,其中表示第1次分群结果中属于第k个簇的用户群体。
优选地,上述分群方法还包括:基于不同的高斯核相似度矩阵形成的多个特征向量归一化矩阵并采用不同初始聚类中心对广播电视用户进行多次分群,形成分群集合C,
图11是本发明对基于收视偏好空间对广播电视用户分群形成分群集合构建簇关系图的流程图,如图11所示,所述构建簇关系图的方法为采用基于谱聚类的一致性函数对第一分群单元形成的分群集合中的簇进行共识匹配,找到不同簇之间的对应关系,构建簇关系图,具体地,
首先,在步骤S1110中,将分群集合中的一列(谱聚类成员)作为簇关系图的一行,以每一个谱聚类成员中的簇为每一行中的节点,如图12所示,其中簇i_j代表第i次用户分群结果中第j个用户群体,是簇关系图中第i行第j个节点,例如簇2_3表示第2次分群结果中的第3个用户群体,为簇关系图中第二行的第三个节点,用户群体可以包括用户为u1、u3和un。
构建了簇关系图的行列和节点之后,在步骤S1120中,以簇之间拥有的相同用户占所有用户的比例作为节点间的边权重,通过与边权重对应的加权边连接所有节点,构建簇关系图,如图12中加权边表示各簇之间的关系,簇1_1与簇2_1、簇2_2、簇3_1之间的连线代表有用户同时归属于这些簇类,加权边的长度与边权重相对应,例如,簇1_3的用户群体为簇1_3的用户群体为u1、u2和u4,簇2_3用户群体为u1、u3和un,则簇1_3和簇2_3的边权重为1/n,簇3_1的用户群体为u3、u5和un,则簇1_3和簇2_3的边权重为2/n,簇1_3和簇2_3加权边的长度是簇1_3和簇2_3加权边长度的2倍。
图13是本发明基于簇关系图采用谱聚类算法对不同分群结果中的簇进行分组的流程图,如图13所示,所述基于簇关系图采用谱聚类算法对不同分群结果中的簇进行分组的方法包括:
在步骤S1310中,将簇关系图转换为簇关系度矩阵Ac,其作为相似度矩阵,图10的簇关系图对应的簇关系度矩阵Ac的簇关系度矩阵表如表1所示,
表1
Ac | 簇1-1 | 簇1-2 | 簇1-3 | 簇2-1 | 簇2-2 | 簇2-3 | 簇3-1 | 簇3-2 | 簇3-3 |
簇1-1 | 1 | 0 | 0 | a1 | a2 | a3 | a4 | a5 | a6 |
簇1-2 | 0 | 1 | 0 | a7 | a8 | a9 | a10 | a11 | a12 |
簇1-3 | 0 | 0 | 1 | a13 | a14 | a15 | a16 | a17 | a18 |
簇2-1 | a1 | a7 | a13 | 1 | 0 | 0 | a19 | a20 | a21 |
簇2-2 | a2 | a8 | a14 | 0 | 1 | 0 | a22 | a23 | a24 |
簇2-3 | a3 | a9 | a15 | 0 | 0 | 1 | a25 | a29 | a27 |
簇3-1 | a4 | a10 | a16 | a19 | a22 | a25 | 1 | 0 | 0 |
簇3-2 | a5 | a11 | a17 | a20 | a23 | a26 | 0 | 1 | 0 |
簇3-3 | a6 | a12 | a18 | a21 | a24 | a27 | 0 | 0 | 1 |
其中,a1至a27代表边权重,从表1可以看出簇关系度矩阵Ac为对称矩阵,包含M*k个元素。Ac矩阵对角线上元素为1,其余元素为簇之间的边权重;
在步骤S1320中,构建相似度矩阵的对角矩阵Dc。
其中:
Dc表示相似度矩阵的对角矩阵;
Dcii表示对角矩阵Dc的元素,1≤i≤n,1≤j≤n,n表示对角矩阵Dc的行数或列数(数值等于Ac矩阵中的用户群体数目);
表示矩阵Ac中群体Ci与其他群体间簇关系度的和
在步骤S1330中,将对角矩阵Dc进行拉普拉斯变换,构建拉普拉斯矩阵Lc。
其中:
Lc表示拉普拉斯矩阵;
Ac表示关系度矩阵;
Dc表示对角矩阵;
Lcij表示拉普拉斯矩阵Lc的元素,1≤i≤n,1≤j≤n,n表示拉普拉斯矩阵L的行数或列数(数值等于簇对角矩阵Dc的行数或列数)。
在步骤S1340中,找出拉普拉斯矩阵Lc的前a个最大的特征值对应的特征向量Vca
Lc*Vc=λc*Vc
其中:
Lc表示簇Laplacian矩阵;Vc表示矩阵Lc的特征向量;λc表示矩阵Lc的特征值;
Vca表示矩阵Lc的前a个最大特征值对应的特征向量构成的矩阵,即,特征向量空间,a值等于组个数;
Vcij表示矩阵Vca的元素,1≤i≤n,1≤j≤a,n、a分别表示矩阵Vca的行数和列数;
在步骤S1350中,对特征向量Vca进行行归一化处理,得到特征向量矩阵归一化Yc
其中:
Yc表示特征向量Vca的归一化处理结果;
Ycij表示矩阵Yc中的元素;1≤i≤n,1≤j≤a,n、a分别表示矩阵Yc的行数和列数;
表示对特征向量Vca中的每行元素求和后开平方。
在步骤S1360中,采用k-means算法基于特征向量归一化矩阵对簇进行分组,具体地,将在图14中进行详细描述。
图14是本发明采用k-means算法基于特征向量归一化矩阵随簇进行分组的流程图,如图14所示,所述采用k-means算法基于特征向量归一化矩阵随簇进行分组的方法包括:
在步骤S1410中,将特征向量矩阵归一化Yc中元素转化为非负值,具体地,如果矩阵中元素全部为非负值,则不做转化,执行步骤S1420,否则,将矩阵中元素减去数值最小的元素;
在步骤S1420中,将经过非负值转化的特征向量归一化矩阵Yc的每一行作为一个新数据点,计算每一个新数据点到原点的欧式距离,并按照所述欧式距离进行升序或者降序排列,其中,原点为经过非负值转化的归一化特征向量矩阵中元素数值为零的一行,优选地,按照降序排列;
在步骤S1430中,将排好序的新数据点平均分成a组,选择每组的中间那个新数据点作为该组的初始聚类中心点;
在步骤S1440中,计算每个新数据点到每个初始聚类中心的欧式距离,并将每个新数据点分配给离它最近的初始聚类中心所代表的组,形成a个新组;
在步骤S1450中,将每个新组中所有数据点的平均值作为每个新组的聚类中心,计算簇分组均方误差Ec
其中,Gi表示组,1≤i≤a;yci表示组Gi中的数据点;mi表示组Gi的中心,其数值为组Gi中各数据点的均值;|yci-mi|表示数据点yci与组Gi聚类中心的欧式距离
在步骤S1460中,判断簇分组均方误差是否收敛或新数据点所属组否变化;
若簇分组均方误差收敛且新数据点所属组无变化,则说明簇分组完成;
若簇分组均方误差不收敛或新数据点所属组变化,则在步骤S1470中,取簇内所有新数据点的属性均值作为初始聚类中心,返回步骤S1440,直到新数据点所属组不发生变化且簇分组均方误差收敛。
图15是本发明采用聚类方法对簇进行分组的示意图,如图15所示,基于偏好矩阵采用谱聚类方法对广播电视用户进行分群形成的分群集合经一致性函数共识匹配后,形成图12所示的簇关系图,采用聚类方法基于簇关系图对簇进行分组后分成3组,如图15所示,第一组中包括簇1_1、簇2_1和簇3_3,第二组包括簇1_2、簇2_3和簇3_2,第三组包括簇1_3、簇2_2和簇3_1,根据数据点(基于收视偏好的特征向量归一化矩阵Y中的一行)在不同簇中出现的系数来选择其所在的组,例如,基于节目类型收视偏好矩阵构建的特征向量归一化矩阵Y中的第一行元素作为一个数据点出现在簇1_1、簇2_1和和簇3_2中,由于簇1_1、簇2_1属于第一组,所以该数据点属于第一组,又如,Y中的第一行元素通过用户u2对节目类型的偏好值得到,则用户u2属于第一组,如果该节目类型为电视剧,则第一组的用户对节目类型的偏好为电视剧,同理可以判断用户对节目标签的偏好。
采用本发明所述的基于谱聚类广播电视用户分群系统和方法可以确定用户对节目类型的偏好,也可以确定用户对节目标签的偏好,也可以确定用户对同一节目类型的不同节目标签的偏好,确定用户对节目类型的偏好有利于不同厂商将不同类型的节目提供给对该节目类型偏好的用户,确定用户对节目标签的偏好,有利于同一厂商提供不同节目标签的节目给用户,例如,电影厂可以将电影提供给对电影有偏好的用户,电视台可以将新闻提供给对新闻有偏好的用户,电影厂可以将古装电影提供给对古装电影有偏好的用户,也可以经搞笑电影提供给对搞笑电影有偏好的用户。
综上所述,参照附图以示例的方式描述了根据本发明提出的节目单制定系统及方法。但是,本领域技术人员应当理解,对于上述本发明所提出的系统及方法,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。
Claims (10)
1.一种基于谱聚类的集成广播电视用户分群系统,包括:
输入单元,用于输入确定广播电视用户收视偏好所需的参数,其中,所述参数至少包括:节目类型、属性特征指标、空间区域、时间区域、簇个数和组个数,其中,所述属性特征指标是与收视时长成正比的一个或多个广播电视参数;
节目数据库,用于将各节目类型的节目播放信息存储为数据源或者从网站上采集各节目的节目标签,将各节目的节目标签与各节目的播放信息存储为数据源,其中,节目标签是对电视节目内容的多角度概括;
收视数据库,通过用户机顶盒的收视信号采集用户对各节目类型的节目的收看信息,并存储为数据源;
收视偏好空间构建单元,根据输入单元输入的属性特征指标,从节目数据库和收视数据库调取计算节目类型或节目标签的属性特征指标所需的数据源,并进行计算得到各用户对各节目类型或各节目标签的属性特征指标数据,构成收视偏好矩阵,即,收视偏好空间;
第一分群单元,基于收视偏好空间对广播电视用户进行多次分群,包括第一相似度空间构建单元,利用高斯函数构建基于收视偏好矩阵的相似度矩阵,即相似度空间;第一特征向量空间构建单元,构建相似度矩阵的对角矩阵,将对角矩阵进行拉普拉斯变换,得到前k个最大的特征值对应的特征向量构成特征向量空间,其中,k为簇个数,为自然数,同时也是特征向量空间的列数;第一谱聚类分群单元,将特征向量空间中每一行作为一个数据点,每一次采用k个数据点作为k个簇的初始聚类中心对广播电视用户进行分群,直到特征向量空间中每一个数据点均作为初始聚类中心进行分群,多次分群结束,多次分群结果构成分群集合,其中,每一次分群结果称为一个谱聚类成员,每一次分群结果形成k个簇;
匹配单元,采用基于谱聚类的一致性函数对第一分群单元形成的分群集合中的簇进行共识匹配,找到不同簇之间的对应关系,构建簇关系图;
第二分群单元,将匹配单元形成的簇关系图转换为簇关系度矩阵,其作为相似度矩阵,采用谱聚类方法对簇进行分组;
集成单元,集成第一分群单元和第二分群单元的分群结果,将数据点在不同簇中出现次数最多的簇所在的组作为该数据点最终所在组,从而确定每一组用户的收视偏好。
2.根据权利要求1所述的基于谱聚类集成的广播电视用户分群系统,其中,所述第二分群单元包括:
第二相似度空间构建单元,将簇关系图转换为簇关系度矩阵,其作为相似度矩阵;
第二特征向量空间构造单元,构建相似度矩阵的对角矩阵,将对角矩阵进行拉普拉斯变换,得到前a个最大的特征值对应的特征向量构成特征向量空间,其中,a为组个数,是自然数,为设定值;
第二谱聚类单元,将上述特征向量空间中每一行作为新数据点,以原点作为初始聚类中心,利用K-means方法对簇进行分组。
3.一种基于谱聚类集成的广播电视用户分群方法,包括:
通过输入单元输入确定广播电视用户收视偏好所需的参数,其中,所述参数至少包括:节目类型、属性特征指标、空间区域、时间区域、簇个数和组个数;
构建收视偏好空间,具体地,根据输入单元输入的属性特征指标,分别从节目数据库和收视数据库调取上述时间区域和空间区域范围内计算各用户对节目类型的属性特征指标数据所需的数据源,并计算得到各用户对各节目类型或各节目标签的属性特征指标数据,组合形成收视偏好矩阵;
基于收视偏好空间对广播电视用户进行多次分群,具体地,采用高斯函数构建基于收视偏好矩阵的相似度矩阵,构建相似度矩阵的对角矩阵,将对角矩阵进行拉普拉斯变换,得到前k个最大的特征值对应的特征向量构成特征向量空间,其中,k为簇个数,为自然数,也是特征向量空间中的列数,将特征向量空间中每一行作为一个数据点,每一行的元素作为数据点,每一次采用k个数据点作为k个簇的初始聚类中心对广播电视用户进行分群,直到特征向量空间中每一个数据点均作为初始聚类中心进行分群,多次分群结束,多次分群结果组成分群集合,其中,每一次分群结果称为一个谱聚类成员,每一次分群结果形成k个簇;
构建簇关系图,具体地,采用基于谱聚类的一致性函数对上述分群集合中的簇进行共识匹配,找到不同簇之间的对应关系,构建簇关系图;
基于簇关系图采用谱聚类算法对不同分群结果中的簇进行分组,具体地,将簇关系图转换为簇关系度矩阵,其作为相似度矩阵,采用谱聚类方法对簇进行分组;
集成基于收视偏好空间对广播电视用户进行多次分群和基于簇关系图对簇进行分组的分群结果,将数据点在不同簇中出现次数最多的簇所在的组作为该数据点最终所在组,从而确定每一组用户的收视偏好。
4.根据权利要求3所述的基于谱聚类集成的广播电视用户分群方法,其中,所述构建收视偏好空间的方法包括:
确定节目类型的属性特征指标的计算方法,即选取节目类型中一个节目的属性特征指标作为节目类型的属性特征指标或者选取各用户对节目类型中多个甚至所有节目的属性特征指标的平均值作为各用户对该节目类型的属性特征指标;
从节目数据库和收视数据库调用计算各用户对各节目类型的属性特征指标所需的数据源;
计算各用户对各节目类型的属性特征指标,构成收视偏好矩阵P,即收视偏好空间P,
其中,ui表示广播电视用户,ui∈U,U为广播电视用户集合,U={u1,...,un},n为用户总数,1≤i≤n;Sj表示节目类型,Sj∈S,S为节目类型集合S={S1,...,Sm},m为节目类型总数,1≤j≤m;表示用户ui对节目类型Sj的偏好值,值越大表明用户对该节目类型的兴趣度越高。
5.根据权利要求3所述的基于谱聚类集成的广播电视用户分群方法,其中,所述构建收视偏好空间的方法包括:
从节目数据库调出各节目类型中节目组成的节目集合X,其中,X=[x1...xZ],x1...xZ为节目标号,z为节目总数;
通过爬行技术从网络上采集各节目的特征词作为各节目的节目标签,构成节目标签集合Tag,
B=[b1...bg]
其中,[tagz,1,…tagz,f]表示节目xz的1至f个节目标签,f表示节目标签的个数,当节目标签不足f个时,为0;为节目标签集合Tag中所有非零和非重叠节目标签的集合,g表示节目x1至xz的节目标签的非零和非重叠个数,0<g≤zf;
计算各节目标签对于各节目的标注频次,即词频其中,词频表示标签bj对于节目xi标注的频次, 表示采用标签bj对节目xi标注的网站个数,表示节目xi所有标签在不同网站出现的个数之和,1≤i≤z,1≤j≤g;
计算各节目标签对于各节目的逆向节目频率其中,逆向节目频率表示逆向节目频率,表征标签bj的普遍重要程度,即,由节目总数z除以包含标签bj的节目数量再将得到的商取对数得到逆向节目频率
采用词频和逆向节目频率构建节目标签权重矩阵W,
其中,W表示节目标签权重矩阵,为节目标签权重矩阵中元素,表示标签bj对于节目xi的重要程度;
通过计算各节目的收视占比或者收视指数构建各节目的收视占比矩阵R或者收视指数矩阵F,
其中,表示用户un对节目xz的收视占比;表示用户un对节目xz的收视指数;
根据各节目的节目标签权重矩阵W以及各节目的收视占比矩阵R或者收视指数矩阵F构建收视偏好矩阵P,
P=RW或
P=FW
其中,或表示用户un对节目标签目bg的偏好程度,值越大表明用户对该节目的兴趣度越高。
6.根据权利要求3所述的基于谱聚类集成的广播电视用户分群方法,其中,所述基于收视偏好空间对广播电视用户进行多次分群的方法包括:
采用高斯函数构建基于收视偏好矩阵的相似度空间;
对相似度空间进行对角变换和拉普拉斯变换;
找到经过对角变换和拉普拉斯变换后的相似度空间内的前k个最大的特征值对应的特征向量构成特征向量空间,并对所述特征向量空间进行归一化处理,得到特征向量归一化矩阵,其中,k为特征向量归一化矩阵的列数也是簇个数,是自然数;
将特征向量归一化矩阵中的每一行作为一个数据点,随机选取k个数据点,作为k个簇的初始聚类中心;
计算数据点与初始聚类中心的欧式距离,并将各数据点指派到与其距离最近的初始聚类中心代表的簇;
计算用户分群均方误差E:
其中:
yi表示数据点;
Ci表示簇;
mi表示组Ci的聚类中心,数值为簇Ci中数据点的属性均值;
|yi-mi|表示数据点yi与簇yi聚类中心mi的欧式距离。
判断数据点所属簇是否发生变化或用户分群均方误差E收敛;
如果数据点所属簇发生变化或用户分群均方误差E未收敛,则取簇内数据点的属性均值作为初始聚类中心,计算数据点到初始聚类中心的欧式距离,将数据点指派到与其距离最近的初始聚类中心代表的簇,计算用户分群均方误差,直到数据点所属簇不发生变化且用户分群均方误差E收敛;
如果数据点所属簇没有发生变化且用户分群均方误差E收敛,本次广播电视用户分群结束,采用不同初始聚类中心,即,从特征向量归一化矩阵中选取不同的数据点作为初始聚类中心,重复上述过程完成广播电视用户的多次分群;
广播电视用户多次分群的分群结果组合成分群集合C,
其中:C=[C1,...,CM]表示对用户集体U={u1,...,un}进行M次分群构成的分群集合,C1,...,CM为M个谱聚类成员;表示对用户集体U={u1,...,un}的第1次分群结果,其中表示第1次分群结果中属于第k个簇的用户群体。
7.根据权利要求3所述的基于谱聚类集成的广播电视用户分群方法,其中,所述基于收视偏好空间对广播电视用户进行多次分群的方法包括:
采用高斯函数构建基于收视偏好矩阵的不同高斯核的相似度空间A,
其中:
d(ui,uj)表示用户ui与用户uj之间的基于节目类型收视偏好或者基于节目标签收视偏好的欧式距离;
A表示Ⅰ型、Ⅱ型、Ⅲ型、Ⅳ型高斯核相似度矩阵的统一标识;
Aij表示矩阵A中的元素,可以采用Ⅰ型、Ⅱ型、Ⅲ型、Ⅳ型高斯核参数予以计算,即代表了A'ij、A”ij、A”'ij、A””ij;
A'ij表示Ⅰ型高斯核相似度矩阵中元素,σ'i表示Ⅰ型高斯核参数,dmax-dmin表示用户间基于节目类型收视偏好或者基于节目标签收视偏好的最大变化范围;
A”ij表示Ⅱ型高斯核相似度矩阵中元素,σ”i表示Ⅱ型高斯核参数,dmax表示用户间基于节目类型收视偏好或者基于节目标签收视偏好的最大欧氏距离。
A”'ij表示Ⅲ型高斯核相似度矩阵中元素,σ”'i、σ”'j表示Ⅲ型高斯核参数,h表示设定的用户周围的用户数目,uh表示用户ui或uj周围的第h个用户;
A””ij表示Ⅳ型高斯核相似度矩阵,σ””i、σ””j表示Ⅳ型高斯核参数,uv表示用户ui周围的第v个用户,1≤v≤h,uw表示用户uj周围的第w个用户,1≤w≤h;
对具有不同高斯核的相似度空间进行对角变换和拉普拉斯变换;
找到经过对角变换和拉普拉斯变换后的不同高斯核的相似度空间内的前k个最大的特征值对应的特征向量构成具有不同高斯核的多个特征向量空间,并对所述特征向量空间进行归一化处理,形成多个特征向量归一化矩阵,其中,k为每一个特征向量归一化矩阵的列数,也是输入单元输入的簇个数,是自然数;
将一个特征向量归一化矩阵中的每一行作为一个数据点,随机选取k个数据点,作为k个簇的初始聚类中心;
计算该特征向量归一化矩阵中数据点与初始聚类中心的欧式距离,并将各数据点指派到与其距离最近的初始聚类中心代表的簇;
计算用户分群均方误差E:
其中:
yi表示数据点;
Ci表示簇;
mi表示组Ci的聚类中心(数值为簇Ci中数据点的属性均值);
|yi-mi|表示数据点yi与簇yi聚类中心mi的欧式距离。
判断数据点所属簇是否发生变化或用户分群均方误差E收敛;
如果数据点所属簇发生变化或用户分群均方误差E未收敛,则取簇内数据点的属性均值作为初始聚类中心,计算数据点到初始聚类中心的欧式距离,将数据点指派到与其距离最近的初始聚类中心代表的簇,计算用户分群均方误差,直到数据点所属簇不发生变化且用户分群均方误差E收敛;
如果数据点所属簇没有发生变化或用户分群均方误差E收敛,则采用上述方法对其他特征向量归一化矩阵对广播电视用户进行分群,得到四次分群结果;
将四次分群的分群结果组合成分群集合C,
其中:C=[C1,...,C4]表示对用户集体U={u1,...,un}进行4次分群构成的分群集合,C1,...,C4为4个谱聚类成员;表示对用户集体U={u1,...,un}的第1次分群结果,其中表示第1次分群结果中属于第k个簇的用户群体。
8.根据权利要求7所述的基于谱聚类集成的广播电视用户分群方法,其中,所述基于收视偏好空间对广播电视用户进行分群的方法还包括:基于不同的高斯核相似度矩阵形成的多个特征向量归一化矩阵并采用不同初始聚类中心对广播电视用户进行多次分群。
9.根据权利要求6或7所述的基于谱聚类集成的广播电视用户分群方法,其中,所述构建簇关系图的方法包括:
以谱聚类成员作为簇关系图的行;
以每一个谱聚类成员中的簇为簇关系图每一行中的节点;
以簇之间拥有的相同用户数占所有用户数的比例作为节点间的边权重;
以加权边连接所有节点,构建簇关系图,其中,加权边表示各簇之间的关系,其长度与边权重对应。
10.根据权利要求6或7所述的基于谱聚类集成的广播电视用户分群方法,其中,所述基于簇关系图对广播电视用户进行分群的方法包括:
将簇关系图转换为簇关系度矩阵,其中,簇关系度矩阵为对称矩阵,包括M*k个元素,矩阵对角线上元素为1,其余元素为簇之间的边权重;
将簇关系度矩阵作为相似度矩阵,对其进行对角变换和拉普拉斯变换,找到拉普拉斯变换后矩阵的前a个最大的特征值对应的特征向量构成特征向量矩阵,其中,a为特征向量空间的列个数,也是输入单元输入的组个数;
将特征向量矩阵进行归一化处理形成特征向量归一化矩阵;
将特征向量归一化矩阵中的元素转化为非负值,具体地,如果矩阵中元素全部为非负值,则不做转化,否则,将矩阵中元素减去数值最小的元素;
将经过非负值转化的特征向量归一化矩阵的每一行作为一个新数据点,计算每一个新数据点到原点的欧式距离,并按照所述欧式距离进行升序或者降序排列,其中,原点为经过非负值转化的归一化特征向量矩阵中元素数值为零的一行;
将排好序的新数据点平均分成a组,选择每组的中间那个新数据点作为该组的初始聚类中心点;
计算每个新数据点到每个初始聚类中心的欧式距离,并将每个新数据点分配与其距离最近的初始聚类中心所代表的组,形成a个新组;
将每个新组中所有数据点的平均值作为每个新组的聚类中心,计算簇分组均方误差Ec
其中,Gi表示组,1≤i≤a;yci表示组Gi中的数据点;mi表示组Gi的中心,其数值为组Gi中各数据点的均值;|yci-mi|表示数据点yci与组Gi聚类中心的欧式距离;
判断簇分组均方误差是否收敛或新数据点所属组否变化;
若簇分组均方误差收敛且新数据点所属组无变化,则说明簇分组完成;
若簇分组均方误差不收敛或新数据点所属组变化,则取簇内新数据点的属性均值作为初始聚类中心,计算新数据点到初始聚类中心的欧式距离,将新数据点指派到与其距离最近的初始聚类中心代表的组,计算簇分组均方误差误差,直到数据点所属组不发生变化且簇分组均方误差收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510590463.2A CN105095516B (zh) | 2015-09-16 | 2015-09-16 | 基于谱聚类集成的广播电视用户分群系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510590463.2A CN105095516B (zh) | 2015-09-16 | 2015-09-16 | 基于谱聚类集成的广播电视用户分群系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095516A true CN105095516A (zh) | 2015-11-25 |
CN105095516B CN105095516B (zh) | 2019-02-15 |
Family
ID=54575951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510590463.2A Active CN105095516B (zh) | 2015-09-16 | 2015-09-16 | 基于谱聚类集成的广播电视用户分群系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095516B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786622A (zh) * | 2016-03-01 | 2016-07-20 | 国网安徽省电力公司 | 一种云环境下用于实时协同计算的节点选择方法 |
CN106649540A (zh) * | 2016-10-26 | 2017-05-10 | Tcl集团股份有限公司 | 一种视频推荐方法及系统 |
CN106886213A (zh) * | 2017-03-13 | 2017-06-23 | 北京化工大学 | 一种基于核相似度支持向量数据描述的间歇过程故障检测方法 |
CN107347163A (zh) * | 2017-06-13 | 2017-11-14 | 中国传媒大学 | 一种电视剧内容特征获取系统及标签库 |
CN107368529A (zh) * | 2017-06-13 | 2017-11-21 | 中国传媒大学 | 专题片数据内容特征获取系统及标签库 |
CN107404671A (zh) * | 2017-06-13 | 2017-11-28 | 中国传媒大学 | 电影内容特征获取系统及应用系统 |
CN108288076A (zh) * | 2018-02-12 | 2018-07-17 | 深圳开思时代科技有限公司 | 汽车配件聚类方法、装置、电子设备及存储介质 |
CN108366276A (zh) * | 2018-03-16 | 2018-08-03 | 中国传媒大学 | 收视偏好分析方法及系统 |
CN108495155A (zh) * | 2018-03-16 | 2018-09-04 | 中国传媒大学 | 收视习惯分析方法及系统 |
CN109429104A (zh) * | 2017-09-04 | 2019-03-05 | 北京国双科技有限公司 | 家庭成员的分析方法及相关装置 |
CN109561350A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 用户兴趣度的评价方法和系统 |
CN110502521A (zh) * | 2019-08-28 | 2019-11-26 | 上海寰创通信科技股份有限公司 | 一种档案库的建立方法 |
CN111062407A (zh) * | 2019-10-15 | 2020-04-24 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111081095A (zh) * | 2018-10-18 | 2020-04-28 | 泛学优有限公司 | 影音教学平台、分析子系统及方法、推荐子系统及方法 |
CN111191687A (zh) * | 2019-12-14 | 2020-05-22 | 贵州电网有限责任公司 | 基于改进K-means算法的电力通信数据聚类方法 |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013120780A2 (en) * | 2012-02-15 | 2013-08-22 | Thomson Licensing | Method of creating content recommendations based on user ratings of content with improved user privacy |
CN103714130A (zh) * | 2013-12-12 | 2014-04-09 | 深圳先进技术研究院 | 视频推荐系统及方法 |
CN104333777A (zh) * | 2014-11-28 | 2015-02-04 | 中国传媒大学 | 一种广播电视节目单制定系统及方法 |
CN104731887A (zh) * | 2015-03-13 | 2015-06-24 | 东南大学 | 一种协同过滤中的用户相似度度量方法 |
CN104853248A (zh) * | 2015-05-07 | 2015-08-19 | 海信集团有限公司 | 一种视频推荐方法及装置 |
-
2015
- 2015-09-16 CN CN201510590463.2A patent/CN105095516B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013120780A2 (en) * | 2012-02-15 | 2013-08-22 | Thomson Licensing | Method of creating content recommendations based on user ratings of content with improved user privacy |
CN103714130A (zh) * | 2013-12-12 | 2014-04-09 | 深圳先进技术研究院 | 视频推荐系统及方法 |
CN104333777A (zh) * | 2014-11-28 | 2015-02-04 | 中国传媒大学 | 一种广播电视节目单制定系统及方法 |
CN104731887A (zh) * | 2015-03-13 | 2015-06-24 | 东南大学 | 一种协同过滤中的用户相似度度量方法 |
CN104853248A (zh) * | 2015-05-07 | 2015-08-19 | 海信集团有限公司 | 一种视频推荐方法及装置 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786622A (zh) * | 2016-03-01 | 2016-07-20 | 国网安徽省电力公司 | 一种云环境下用于实时协同计算的节点选择方法 |
CN105786622B (zh) * | 2016-03-01 | 2018-12-28 | 国网安徽省电力公司 | 一种云环境下用于实时协同计算的节点选择方法 |
CN106649540A (zh) * | 2016-10-26 | 2017-05-10 | Tcl集团股份有限公司 | 一种视频推荐方法及系统 |
CN106886213A (zh) * | 2017-03-13 | 2017-06-23 | 北京化工大学 | 一种基于核相似度支持向量数据描述的间歇过程故障检测方法 |
CN107347163A (zh) * | 2017-06-13 | 2017-11-14 | 中国传媒大学 | 一种电视剧内容特征获取系统及标签库 |
CN107368529A (zh) * | 2017-06-13 | 2017-11-21 | 中国传媒大学 | 专题片数据内容特征获取系统及标签库 |
CN107404671A (zh) * | 2017-06-13 | 2017-11-28 | 中国传媒大学 | 电影内容特征获取系统及应用系统 |
CN109429104B (zh) * | 2017-09-04 | 2021-01-26 | 北京国双科技有限公司 | 家庭成员的分析方法及相关装置 |
CN109429104A (zh) * | 2017-09-04 | 2019-03-05 | 北京国双科技有限公司 | 家庭成员的分析方法及相关装置 |
CN109561350A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 用户兴趣度的评价方法和系统 |
CN109561350B (zh) * | 2017-09-27 | 2021-06-29 | 北京国双科技有限公司 | 用户兴趣度的评价方法和系统 |
CN108288076A (zh) * | 2018-02-12 | 2018-07-17 | 深圳开思时代科技有限公司 | 汽车配件聚类方法、装置、电子设备及存储介质 |
CN108366276A (zh) * | 2018-03-16 | 2018-08-03 | 中国传媒大学 | 收视偏好分析方法及系统 |
CN108366276B (zh) * | 2018-03-16 | 2020-05-01 | 中国传媒大学 | 收视偏好分析方法及系统 |
CN108495155A (zh) * | 2018-03-16 | 2018-09-04 | 中国传媒大学 | 收视习惯分析方法及系统 |
CN108495155B (zh) * | 2018-03-16 | 2021-07-13 | 中国传媒大学 | 收视习惯分析方法及系统 |
CN111081095A (zh) * | 2018-10-18 | 2020-04-28 | 泛学优有限公司 | 影音教学平台、分析子系统及方法、推荐子系统及方法 |
CN110502521A (zh) * | 2019-08-28 | 2019-11-26 | 上海寰创通信科技股份有限公司 | 一种档案库的建立方法 |
CN110502521B (zh) * | 2019-08-28 | 2023-05-09 | 上海寰创通信科技股份有限公司 | 一种档案库的建立方法 |
CN111062407A (zh) * | 2019-10-15 | 2020-04-24 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111062407B (zh) * | 2019-10-15 | 2023-12-19 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111191687A (zh) * | 2019-12-14 | 2020-05-22 | 贵州电网有限责任公司 | 基于改进K-means算法的电力通信数据聚类方法 |
CN111191687B (zh) * | 2019-12-14 | 2023-02-10 | 贵州电网有限责任公司 | 基于改进K-means算法的电力通信数据聚类方法 |
CN113379176A (zh) * | 2020-03-09 | 2021-09-10 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
CN113379176B (zh) * | 2020-03-09 | 2023-12-19 | 中国移动通信集团设计院有限公司 | 电信网络异常数据检测方法、装置、设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105095516B (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095516B (zh) | 基于谱聚类集成的广播电视用户分群系统及方法 | |
US7953735B2 (en) | Information processing apparatus, method and program | |
US8220023B2 (en) | Method for content presentation | |
CA2817103C (en) | Learning tags for video annotation using latent subtags | |
CN113468227B (zh) | 基于图神经网络的信息推荐方法、系统、设备和存储介质 | |
Ghazanfar et al. | The advantage of careful imputation sources in sparse data-environment of recommender systems: Generating improved svd-based recommendations | |
CN105677715A (zh) | 一种基于多用户的视频推荐方法及装置 | |
CN106407420B (zh) | 一种多媒体资源的推荐方法及系统 | |
US20130283303A1 (en) | Apparatus and method for recommending content based on user's emotion | |
JP2006506886A (ja) | プログラムの特性に基づいたクラスタリングを介したステレオタイプのプロファイルの作成 | |
Himel et al. | Weight based movie recommendation system using K-means algorithm | |
CN106791964B (zh) | 广播电视节目推荐系统及方法 | |
JP4976641B2 (ja) | 第3者のステレオタイプ選好に基づいて対象品目を推奨する方法及び装置 | |
Levinas | An analysis of memory based collaborative filtering recommender systems with improvement proposals | |
CN105681910A (zh) | 一种基于多用户的视频推荐方法及装置 | |
CN111858972A (zh) | 一种基于家庭知识图谱的电影推荐方法 | |
CN113613081B (zh) | 一种基于目标节目推荐模型的节目推荐方法与装置 | |
Wang et al. | Time series clustering based on sparse subspace clustering algorithm and its application to daily box-office data analysis | |
KR101738809B1 (ko) | IoT 기반 스마트 홈 커뮤니티에서 소셜 매칭 및 소통 서비스를 위한 다차원매트릭스 지역화 방법 및 시스템 | |
Puthiya Parambath et al. | Simple and effective neural-free soft-cluster embeddings for item cold-start recommendations | |
Feng et al. | Tags and titles of videos you watched tell your gender | |
CN114461879A (zh) | 基于文本特征整合的语义社交网络多视角社区发现方法 | |
De Castro et al. | Evaluating the performance of a biclustering algorithm applied to collaborative filtering-a comparative analysis | |
Lestari et al. | WP-Rank: Rank aggregation based collaborative filtering method in recommender system | |
Hidayati et al. | The Influence of User Profile and Post Metadata on the Popularity of Image-Based Social Media: A Data Perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |