CN104933135A - 一种多媒体数据的聚类方法及装置 - Google Patents

一种多媒体数据的聚类方法及装置 Download PDF

Info

Publication number
CN104933135A
CN104933135A CN201510326047.1A CN201510326047A CN104933135A CN 104933135 A CN104933135 A CN 104933135A CN 201510326047 A CN201510326047 A CN 201510326047A CN 104933135 A CN104933135 A CN 104933135A
Authority
CN
China
Prior art keywords
matrix
medium data
mark
targeted customer
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510326047.1A
Other languages
English (en)
Inventor
胡娟娟
黄山山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201510326047.1A priority Critical patent/CN104933135A/zh
Publication of CN104933135A publication Critical patent/CN104933135A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供一种多媒体数据的聚类方法及装置,涉及软件技术领域,解决了现有技术中的终端无法对用户与视频进行准确聚类的问题。该方法包括:获取多媒体数据的属性信息;根据多媒体数据的属性信息矩阵R和矩阵S,该矩阵R的元素Rij表示用户i是否观看多媒体数据j,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度,然后,根据矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y,该矩阵F的元素Fxy表示用户x与用户y间是否为好友关系,该矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值。

Description

一种多媒体数据的聚类方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种多媒体数据的聚类方法及装置。
背景技术
现今,在这个互联网高速发展的时代,人们对于视听方面的需求越来越高,而视频关联推荐业务可以为用户推荐视频,有效地帮助用户发现需求,推进用户对于视听业务的点播。在现有技术中,通常使用协同过滤推荐(Collaborative Filtering,,简称CF)算法来为用户推荐视频。
在现有技术中,终端(以智能电视为例)根据传统的CF算法为用户推荐视频时,通常会利用聚类算法按照视频所属类别,分别将终端后台服务器的数据库中存储的电视视频以及观看这些视频的用户进行聚类,然后根据聚类后的用户所属视频类别以及视频所属类别,来为用户推荐视频。但是,由于在终端后台服务器的数据库中通常会有几十万部的电视视频源,而每个用户所观看的视频数量仅仅为百部或更少,使得两两用户间所观看的视频相似度很低,从而造成了数据库中用户与视频间关系的稀疏性问题。例如,当服务器将邻居用户喜欢观看的视频推荐给用户时,由于用户与用户之间共同观看的视频集合很少,从而导致终端不能准确找到有相似兴趣的邻居用户。这样由于上述的数据稀疏性问题,即用户与视频间的稀疏关系,从而导致终端对用户和视频进行聚类时,聚类出的评分矩阵不准确,无法正确的为用户推荐用户感兴趣的视频。
发明内容
本发明的实施例提供一种多媒体数据的聚类方法及装置,解决了现有技术中的终端无法对用户与视频进行准确聚类的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种多媒体数据的聚类方法,包括:
获取多媒体数据的属性信息;所述属性信息包括用户的标识,以及用户观看的多媒体数据的标识;
根据所述多媒体数据的属性信息生成矩阵R和矩阵S;其中,所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识,所述矩阵R的元素Rij表示用户i是否观看多媒体数据j;所述矩阵S的行和列均为多媒体数据的标识,所述矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度;
根据所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y;所述矩阵F的行和列均为用户的标识,所述矩阵F的元素Fxy表示用户x与用户y间是否为好友关系;所述矩阵Y的行为组标识,所述矩阵Y的列包括用户的标识和多媒体矩阵的标识,所述矩阵Y的元素Yfl表示用户f属于组l的权重值,所述矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值;
其中,所述i,x,y,f∈1,2,……,n;j,a,b,g,∈1,2,……,m;l∈1,2,……,k;所述n为用户个数,所述m为多媒体数据个数,所述k为组个数。
第二方面,提供一种多媒体数据的聚类装置,包括:
获取模块,用于获取多媒体数据的属性信息;所述属性信息包括用户的标识,以及用户观看的多媒体数据的标识;
生成模块,用于根据所述获取模块获取的所述多媒体数据的属性信息生成矩阵R和矩阵S;其中,所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识,所述矩阵R的元素Rij表示用户i是否观看多媒体数据j;所述矩阵S的行和列均为多媒体数据的标识,所述矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度;
聚类模块,用于根据所述生成模块生成的所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y;所述矩阵F的行和列均为用户的标识,所述矩阵F的元素Fxy表示用户x与用户y间是否为好友关系;所述矩阵Y的行为组标识,所述矩阵Y的列包括用户的标识和多媒体矩阵的标识,所述矩阵Y的元素Yfl表示用户f属于组l的权重值,所述矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值;
其中,所述i,x,y,f∈1,2,……,n;j,a,b,g,∈1,2,……,m;l∈1,2,……,k;所述n为用户个数,所述m为多媒体数据个数,所述k为组个数。
本发明的实施例提供的多媒体数据的聚类方法及装置,根据获取到的多媒体数据的属性信息矩阵R和矩阵S,该矩阵R的元素Rij表示用户i是否观看多媒体数据j,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度,然后,根据矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y,该矩阵F的元素Fxy表示用户x与用户y间是否为好友关系,该矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性,对用户与多媒体数据间进行更精细化的聚类,从而提高了终端对用户与多媒体数据聚类的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的实施例提供的一种多媒体数据的聚类方法的流程示意图;
图2为本发明的实施例提供的一种多媒体数据的推荐方法的流程示意图;
图3为本发明的实施例提供的一种多媒体数据的聚类装置的结构示意图;
图4为本发明的实施例提供的一种多媒体数据的聚类装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供一种多媒体数据的聚类方法,如图1所示,该方法具体包括如下步骤:
101、多媒体数据的聚类装置获取多媒体数据的属性信息。
示例性的,本发明中的多媒体数据为视频、音乐、文本文档等多媒体文件数据。上述的多媒体数据的属性信息包括用户的标识以及用户观看的多媒体数据的标识。其中,该属性信息还包括多媒体数据的参数信息包括文件属性信息,例如,当该多媒体数据为视频时,该多媒体数据的参数信息包括:视频演员名称、导演名称、视频类型等。
其中,上述的用户的标识可以为该用户的登陆账号或者其他可唯一表示该用户的标识,本实施例中采用U1、U2、U3……Un形式表示不同用户的标识;多媒体数据的标识可以为该多媒体数据的名称或其他可唯一表示该多媒体数据的标识,本实施例中采用B1、B2、B3……Bn表示不同多媒体数据的标识;用户观看多媒体数据的记录表示用户与观看的多媒体数据间的关系。
优选的,在步骤101中,可以设置一个更新周期,更新周期的长短可以根据多媒体数据数据库更新情况进行设定,例如,可以设为一个月,一周或一天,本发明对此不进行限制,在每个更新周期内获取所述每个更新周期内的多媒体数据的属性信息并进行更新。本实施例下述各步骤均以当前周期为例进行说明。
102、多媒体数据的聚类装置根据多媒体数据的属性信息生成矩阵R和矩阵S。
其中,上述的矩阵R的行和列分别表示用户的标识和多媒体数据的标识,该矩阵R的元素Rij表示用户i是否观看多媒体数据j;上述的矩阵S的行和列均为多媒体数据的标识,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度。上述的i∈1,2,……,n;j,a,b∈1,2,……,m;上述的n为用户个数,上述的m为记录中n个用户所观看的不重复的多媒体数据总和。
示例性的,若以多媒体数据为视频为例,假设用户和视频的集合分别为U={U1,U2,...,Un}和B={B1,B2,...,Bm},若将用户标识作为矩阵行,将多媒体数据标识作为矩阵列,则定义用户与视频间的关系矩阵为矩阵Rij表示用户ui是否观看过视频Bj的信息。若在智能电视上Rij表示用户ui观看过视频Bj,则Rij=1,否则为Rij=0。这里以表1来说明对矩阵R的含义,需要说明的是,真实的矩阵R具有百万级的维度,下述的表1仅仅是对矩阵R的含义进行说明,仅仅是一种示例。
表1
示例性的,假设视频的集合为和B={B1,B2,...,Bm},若要计算B1与B2间的相似度时,可以根据视频B1与B2的各项参数信息间的相似程度以及现有的相似度计算公式来计算两者的相似度,这里以表2来说明对矩阵S的含义,需要说明的是,真实的矩阵S具有百万级的维度,下述的表2仅仅是对矩阵S的含义进行说明,仅仅是一种示例。
表2
103、多媒体数据的聚类装置根据矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y。
其中,上述的矩阵F的行和列均为用户的标识,该矩阵F的元素Fxy表示用户x与用户y间是否为好友关系;上述的矩阵Y的行为组标识,该矩阵Y的列包括用户的标识和多媒体矩阵的标识,该矩阵Y的元素Yfl表示用户f属于组l的权重值,该矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值。本实施例中的i,x,y,f∈1,2,……,n;j,a,b,g,∈1,2,……,m;l∈1,2,……,k;上述的n为用户个数,上述的m为记录中n个用户所观看的不重复的多媒体数据总和;上述的k为组个数。
示例性的,随着社交网络的流行,每个人都维持着自己的社交关系。社交关系已经成为一种发掘用户可能邻居的潜在价值信息。假设用户的集合为U={U1,U2,...,Un},则定义用户与用户间的社会关系矩阵为矩阵其中Fxy表示好友关系,若Ux与Uy是好友关系则Fxy=1,否则为Fxy=0。这里以表3来说明矩阵F的含义,需要说明的是,真实的矩阵F具有百万级的维度,下述的表3仅仅是对矩阵F的含义进行说明,仅仅是一种示例。
U1 U2 U3 U4
U1 1 0 1
U2 1 1 0
U3 0 1 1
U4 1 0 1
表3
基于表3可知,假设用户U1与U4由于没有共同观看的视频认为其不为相似的用户,但是U1与U4是好友关系,补充了R矩阵由于数据稀疏导致的判断不准确。
可选的,步骤103具体包括如下步骤:
103a、多媒体数据的聚类装置根据聚类公式、矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y。
其中,上述的聚类公式为:
Y ( P , Q ) = Σ i = 1 m Σ j = 1 n ( | | P i D i i r o w - Q j D j j c o l | | 2 R i j ) + α Σ x = 1 m Σ y = 1 m ( | | P x D x x F - P y D y y F | | 2 F x y ) + β Σ a = 1 n Σ b = 1 n ( | | Q a D a a S - Q b D b b S | | 2 S a b )
(公式一);其中, D i i r o w = Σ j = 1 n R i j , D j j c o l = Σ i = 1 m R i j , D x x F = Σ y = 1 n F x y , D y y F = Σ x = 1 n F x y , 上述的α为控制矩阵F权重,上述的β为控制矩阵S的权重。
示例性的是,在具体计算矩阵Y时,可以按照以下计算过程进行计算。但是需要说明的是,下述的计算过程仅是为一种示例,在实际应用中只要能够计算出矩阵Y的计算方法均为本发明保护的范围,再次不再赘述。
首先,可以将公式一转化为公式二:
L ( P , Q ) = T r ( Y T I m + 2 α ( I m - B ) - A - A T I n + 2 β ( I n - C ) Y ) = T r ( Y T M Y ) (公式二)
其中,上述的 A = ( D r o w ) - 1 2 R ( D c o l ) - 1 2 ; B = ( D F ) - 1 2 F ( D F ) - 1 2 : C = ( D S ) - 1 2 S ( D S ) - 1 2 : M = I m + 2 α ( I m - B ) - A - A T I n + 2 β ( I n - C ) .
其次,由于公式一为损失函数,当求损失函数的最小值时所对应的极值点就是P、Q的值或是Y的值,因此,可以将公式二中的Tr(YTMY),转换成(公式三)。
其次,由于公式三为非凸函数,很难求取极值,因此,这里可以根据谱聚类的方式将用户和多媒体数据转换到低维的空间中,然后再同时聚类根据瑞利熵理论将公式三转换成公式四:
(公式四);其中,ZTZ=I,Z=[z1,z2,...zr]。Z的列向量为M的最小的r个特征值对应的特征向量。
最后,再利用模糊c-means聚类方法将用户和视频聚类成组L,得到矩阵Y。
本发明的实施例提供的多媒体数据的聚类方法,根据获取到的多媒体数据的属性信息矩阵R和矩阵S,该矩阵R的元素Rij表示用户i是否观看多媒体数据j,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度,然后,根据矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y,该矩阵F的元素Fxy表示用户x与用户y间是否为好友关系,该矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性,对用户与多媒体数据间进行更精细化的聚类,从而提高了终端对用户与多媒体数据聚类的准确性。
基于图1对应的实施例提供的一种多媒体聚类方法,本实施例提供一种多媒体数据的推荐方法,如图2所示,该多媒体数据的推荐方法具体包括如下步骤:
201、多媒体数据的聚类装置获取多媒体数据的属性信息。
202、多媒体数据的聚类装置根据多媒体数据的属性信息生成矩阵R和矩阵S。
其中,上述的矩阵R的行和列分别表示用户的标识和多媒体数据的标识,该矩阵R的元素Rij表示用户i是否观看多媒体数据j;上述的矩阵S的行和列均为多媒体数据的标识,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度。上述的i,b∈1,2,……,n;j,a∈1,2,……,m;上述的n为用户个数,上述的m为多媒体数据个数。
203、多媒体数据的聚类装置根据所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y。
其中,上述的矩阵F的行和列均为用户的标识,该矩阵F的元素Fxy表示用户x与用户y间是否为好友关系;上述的矩阵Y的行为组标识,该矩阵Y的列包括用户的标识和多媒体矩阵的标识,该矩阵Y的元素Yfl表示用户f属于组l的权重值,该矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值。本实施例中的i,x,y,f∈1,2,……,n;j,a,b,g,∈1,2,……,m;l∈1,2,……,k;上述的n为用户个数,上述的m为多媒体数据个数,上述的k为组个数。
需要说明的是,本实施例中的步骤201至203的详细过程以及具体参数的介绍,可以直接参照上一实施例中步骤101至103中的详细描述,这里不再赘述。
204、多媒体数据的聚类装置根据目标用户的标识从矩阵Y中确定出目标用户未观看的目标多媒体数据的标识。
205、多媒体数据的聚类装置根据矩阵Y、目标用户的标识以及目标多媒体数据的标识,预测出目标用户对每个目标多媒体数据的评分。
可选的,步骤205中目标用户对任一多媒体数据的评分过程具体包括如下步骤:
205a、多媒体数据的聚类装置从目标用户未观看的多媒体数据中选择任一多媒体数据。
205b、多媒体数据的聚类装置根据目标用户的标识和任一多媒体数据的标识,从矩阵Y中获取目标组的标识。
其中,上述的目标组为目标用户与任一多媒体数据同属一组时对应的组标识。
205c1、若在矩阵Y中确定出目标组,则多媒体数据的聚类装置在目标组中预测目标用户对任一多媒体数据的评分;根据评分以及目标用户属于目标组的权重值,计算出目标用户对任一多媒体数据的评分。
205c2、若在矩阵Y中未确定出目标组,则多媒体数据的聚类装置直接将目标用户对任一多媒体数据的评分设置为0。
示例性的,若多媒体数据以电影为例,假设为目标用户U1推荐视频,若计算目标用户U1对目标电影B1的评分时,从矩阵Y中查找出目标用户U1对目标电影B1属于的共同组为组1(k1)和组2(k2)时,则利用CF算法预测出来目标用户U1对目标电影B1的预测评分分别为s1和s2,而目标用户U1属于k1和k2的权重分别为w1和w2,则目标用户U1对目标电影B1的最终评分为W=s1·w1+s2·w2。若目标用户U1对目标电影B1间没有共同所属的组则W=0。
206、多媒体数据的聚类装置对目标用户对每个目标多媒体数据的评分进行排序,并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。
可选的,步骤206具体包括如下内容:
206a、多媒体数据的聚类装置将目标用户对每个目标多媒体数据的评分按照评分值的大小顺序,降序插入到预设链表中。
其中,上述的预设链表包含的最大元素个数与目标用户需要推荐的多媒体数据的个数相同。
本发明的实施例提供的多媒体数据的聚类方法,根据获取到的多媒体数据的属性信息矩阵R和矩阵S,该矩阵R的元素Rij表示用户i是否观看多媒体数据j,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度,然后,根据矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y,该矩阵F的元素Fxy表示用户x与用户y间是否为好友关系,该矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性,对用户与多媒体数据间进行更精细化的聚类,从而提高了终端对用户与多媒体数据聚类的准确性。此外,本发明根据目标用户的标识从矩阵Y中确定出目标用户未观看的目标多媒体数据的标识,然后根据矩阵Y、目标用户的标识以及目标多媒体数据的标识,预测出目标用户对每个目标多媒体数据的评分,最后对目标用户对每个目标多媒体数据的评分进行排序,并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。这样在给目标用户推荐多媒体数据时只需要寻找与目标用户属于共同组的用户和视频,大大提高了算法的速度,增加了推荐的实时性,使用户能在较短的时间内快速观看到为其推荐的结果。
本实施例提供一种多媒体数据的聚类装置,如图3所示,该装置用于实现上述实施例提供的多媒体数据的聚类方法,该装置应用于智能终端,该智能终端可以为云端服务器、智能电视、智能手机、平板电脑以及个人数字助理(英文:Personal Digital Assistant,简称PDA)等。该多媒体数据的聚类装置2包括:获取模块21、生成模块22以及聚类模块23,其中:
获取模块21,用于获取多媒体数据的属性信息。
其中,上述的属性信息包括用户的标识,以及用户观看的多媒体数据的标识。
生成模块22,用于根据获取模块21获取的多媒体数据的属性信息生成矩阵R和矩阵S。
其中,上述的矩阵R的行和列分别表示用户的标识和多媒体数据的标识,该矩阵R的元素Rij表示用户i是否观看多媒体数据j;上述的矩阵S的行和列均为多媒体数据的标识,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度。
聚类模块23,用于根据生成模块22生成的矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y。
其中,上述的矩阵F的行和列均为用户的标识,该矩阵F的元素Fxy表示用户x与用户y间是否为好友关系;该矩阵Y的行为组标识,该矩阵Y的列包括用户的标识和多媒体矩阵的标识,该矩阵Y的元素Yfl表示用户f属于组l的权重值,该矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值。
需要说明的是,上述的i,x,y,f∈1,2,……,n;j,a,b,g,∈1,2,……,m;l∈1,2,……,k;n为用户个数,m为多媒体数据个数,k为组个数。
本发明的实施例提供的多媒体数据的聚类装置,根据获取到的多媒体数据的属性信息矩阵R和矩阵S,该矩阵R的元素Rij表示用户i是否观看多媒体数据j,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度,然后,根据矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y,该矩阵F的元素Fxy表示用户x与用户y间是否为好友关系,该矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性,对用户与多媒体数据间进行更精细化的聚类,从而提高了终端对用户与多媒体数据聚类的准确性。
可选的,如图4所示,该装置2还包括:确定模块24、评分模块25以及排序模块26,其中:
确定模块24,用于根据目标用户的标识在矩阵Y中确定出目标用户未观看的目标多媒体数据的标识。
评分模块25,根据聚类模块23聚类出的矩阵Y、确定模块24确定的目标用户的标识以及目标多媒体数据的标识,预测出目标用户对每个目标多媒体数据的评分。
排序模块26,用于对评分模块25得出的目标用户对每个目标多媒体数据的评分进行排序,并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。
可选的,评分模块25具体用于:从目标用户未观看的多媒体数据中选择任一多媒体数据;根据目标用户的标识和任一多媒体数据的标识,从矩阵Y中获取目标组的标识;目标组为目标用户与任一多媒体数据同属一组时对应的组标识。
若在矩阵Y中确定出目标组,则在目标组中预测目标用户对所述任一多媒体数据的评分;根据评分以及目标用户属于目标组的权重值,计算出目标用户对任一多媒体数据的评分;若在矩阵Y中未确定出目标组,则直接将目标用户对任一多媒体数据的评分设置为0。
可选的,排序模块26具体用于:将目标用户对每个目标多媒体数据的评分按照评分值的大小顺序,降序插入到预设链表中。
其中,上述的预设链表包含的最大元素个数与目标用户需要推荐的多媒体数据的个数相同。
可选的,该聚类模块23在根据矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y时具体包括:
根据聚类公式、矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y;
其中,上述的聚类公式为:
Y ( P , Q ) = Σ i = 1 m Σ j = 1 n ( | | P i D i i r o w - Q j D j j c o l | | 2 R i j ) + α Σ x = 1 m Σ y = 1 m ( | | P x D x x F - P y D y y F | | 2 F x y ) + β Σ a = 1 n Σ b = 1 n ( | | Q a D a a S - Q b D b b S | | 2 S a b )
其中, D i i r o w = Σ j = 1 n R i j , D j j c o l = Σ i = 1 m R i j , D x x F = Σ y = 1 n F x y , D y y F = Σ x = 1 n F x y , D a a S + Σ b = 1 n S a b , α为控制矩阵F权重,β为控制矩阵S的权重。
可选的,如图3所示,该装置2还包括:设置模块27,其中:
设置模块27,用于设置更新周期。
获取模块21具体用于:根据设置单元27设置的更新周期,在每个更新周期内,获取每个更新周期内的多媒体数据的属性信息。
本发明的实施例提供的多媒体数据的聚类装置,根据获取到的多媒体数据的属性信息矩阵R和矩阵S,该矩阵R的元素Rij表示用户i是否观看多媒体数据j,该矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度,然后,根据矩阵R、矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y,该矩阵F的元素Fxy表示用户x与用户y间是否为好友关系,该矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性,对用户与多媒体数据间进行更精细化的聚类,从而提高了终端对用户与多媒体数据聚类的准确性。此外,本发明根据目标用户的标识从矩阵Y中确定出目标用户未观看的目标多媒体数据的标识,然后根据矩阵Y、目标用户的标识以及目标多媒体数据的标识,预测出目标用户对每个目标多媒体数据的评分,最后对目标用户对每个目标多媒体数据的评分进行排序,并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。这样在给目标用户推荐多媒体数据时只需要寻找与目标用户属于共同组的用户和视频,大大提高了算法的速度,增加了推荐的实时性,使用户能在较短的时间内快速观看到为其推荐的结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (12)

1.一种多媒体数据的聚类方法,其特征在于,包括:
获取多媒体数据的属性信息,所述属性信息包括用户的标识,以及用户观看的多媒体数据的标识;
根据所述多媒体数据的属性信息生成矩阵R和矩阵S;其中,所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识,所述矩阵R的元素Rij表示用户i是否观看多媒体数据j;所述矩阵S的行和列均为多媒体数据的标识,所述矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度;
根据所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y;所述矩阵F的行和列均为用户的标识,所述矩阵F的元素Fxy表示用户x与用户y间是否为好友关系;所述矩阵Y的行为组标识,所述矩阵Y的列包括用户的标识和多媒体矩阵的标识,所述矩阵Y的元素Yfl表示用户f属于组l的权重值,所述矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值;
其中,所述i,x,y,f∈1,2,……,n;j,a,b,g,∈1,2,……,m;l∈1,2,……,k;所述n为用户个数,所述m为多媒体数据个数,所述k为组个数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y之后,所述方法还包括:
根据目标用户的标识从所述矩阵Y中确定出所述目标用户未观看的目标多媒体数据的标识;
根据所述矩阵Y、所述目标用户的标识以及所述目标多媒体数据的标识,预测出所述目标用户对每个目标多媒体数据的评分;
对所述目标用户对每个目标多媒体数据的评分进行排序,并根据所述目标用户需要推荐的多媒体数据的个数确定对所述目标用户推荐的多媒体数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述矩阵Y、所述目标用户的标识以及所述目标多媒体数据的标识,预测出所述目标用户对每个目标多媒体数据的评分具体包括:
从所述目标用户未观看的多媒体数据中选择任一多媒体数据;
根据所述目标用户的标识和所述任一多媒体数据的标识,从所述矩阵Y中获取目标组的标识;所述目标组为所述目标用户与所述任一多媒体数据同属一组时对应的组标识;
若在所述矩阵Y中确定出目标组,则在所述目标组中预测所述目标用户对所述任一多媒体数据的评分;根据所述评分以及所述目标用户属于所述目标组的权重值,计算出所述目标用户对所述任一多媒体数据的评分;
若在所述矩阵Y中未确定出目标组,则直接将所述目标用户对所述任一多媒体数据的评分设置为0。
4.根据权利要求2所述的方法,其特征在于,所述对所述目标用户对每个目标多媒体数据的评分进行排序,并根据所述目标用户需要推荐的多媒体数据的个数确定对所述目标用户推荐的多媒体数据具体包括:
将所述目标用户对每个目标多媒体数据的评分按照评分值的大小顺序,降序插入到预设链表中,其中,所述预设链表包含的最大元素个数与所述目标用户需要推荐的多媒体数据的个数相同。
5.根据权利要求1所述的方法,其特征在于,所述根据所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y具体包括:
根据聚类公式、所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y;
其中,所述聚类公式为:
Y ( P , Q ) = Σ i = 1 m Σ j = 1 n ( | | P i D i i r o w - Q j D j j c o l | | 2 R i j ) + α Σ x = 1 m Σ y = 1 n ( | | P x D x x F - P y D y y F | | 2 F x y ) + β Σ a = 1 n Σ b = 1 n ( | | Q a D a a S - Q b D b b S | | 2 S a b )
其中, R i i r o w = Σ j = 1 n R i j , D j j c o l = Σ i = 1 m R i j , D x x F = Σ y = 1 n F x y , D y y F = Σ x = 1 n F x y , D a a S = Σ b = 1 n S a b , 所述α为控制所述矩阵F权重,所述β为控制所述矩阵S的权重。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括,设置更新周期;
所述获取多媒体数据的属性信息具体包括:根据所述设置的更新周期,在每个更新周期内,获取所述每个更新周期内的多媒体数据的属性信息。
7.一种多媒体数据的聚类装置,其特征在于,包括:
获取模块,用于获取多媒体数据的属性信息;所述属性信息包括用户的标识,以及用户观看的多媒体数据的标识;
生成模块,用于根据所述获取模块获取的所述多媒体数据的属性信息生成矩阵R和矩阵S;其中,所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识,所述矩阵R的元素Rij表示用户i是否观看多媒体数据j;所述矩阵S的行和列均为多媒体数据的标识,所述矩阵S的元素Sab表示多媒体数据a与多媒体数据b间的相似度;
聚类模块,用于根据所述生成模块生成的所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y;所述矩阵F的行和列均为用户的标识,所述矩阵F的元素Fxy表示用户x与用户y间是否为好友关系;所述矩阵Y的行为组标识,所述矩阵Y的列包括用户的标识和多媒体矩阵的标识,所述矩阵Y的元素Yfl表示用户f属于组l的权重值,所述矩阵Y的元素Ygl表示多媒体数据g属于组l的权重值;
其中,所述i,x,y,f∈1,2,……,n;j,a,b,g,∈1,2,……,m;l∈1,2,……,k;所述n为用户个数,所述m为多媒体数据个数,所述k为组个数。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
确定模块,用于根据所述目标用户的标识从所述矩阵Y中确定出所述目标用户未观看的目标多媒体数据的标识;
评分模块,根据所述聚类模块聚类出的所述矩阵Y、所述确定模块确定的所述目标用户的标识以及所述目标多媒体数据的标识,预测出所述目标用户对每个目标多媒体数据的评分;
排序模块,用于对所述评分模块得出的所述目标用户对每个目标多媒体数据的评分进行排序,并根据所述目标用户需要推荐的多媒体数据的个数确定对所述目标用户推荐的多媒体数据。
9.根据权利要求8所述的装置,其特征在于,所述评分模块具体用于:从所述目标用户未观看的多媒体数据中选择任一多媒体数据;根据所述目标用户的标识和所述任一多媒体数据的标识,从所述矩阵Y中获取目标组的标识;所述目标组为所述目标用户与所述任一多媒体数据同属一组时对应的组标识;
若在所述矩阵Y中确定出目标组,则在所述目标组中预测所述目标用户对所述任一多媒体数据的评分;根据所述评分以及所述目标用户属于所述目标组的权重值,计算出所述目标用户对所述任一多媒体数据的评分;若在所述矩阵Y中未确定出目标组,则直接将所述目标用户对所述任一多媒体数据的评分设置为0。
10.根据权利要求8所述的装置,其特征在于,所述排序模块具体用于:将所述目标用户对每个目标多媒体数据的评分按照评分值的大小顺序,降序插入到预设链表中,其中,所述预设链表包含的最大元素个数与所述目标用户需要推荐的多媒体数据的个数相同。
11.根据权利要求7所述的装置,其特征在于,所述聚类模块在根据所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y时具体包括:
根据聚类公式、所述矩阵R、所述矩阵S以及矩阵F,将所有用户与所有多媒体数据进行聚类,得到矩阵Y;
其中,所述聚类公式为:
Y ( P , Q ) = Σ i = 1 m Σ j = 1 n ( | | P i D i i r o w - Q j D j j c o l | | 2 R i j ) + α Σ x = 1 m Σ y = 1 n ( | | P x D x x F - P y D y y F | | 2 F x y ) + β Σ a = 1 n Σ b = 1 n ( | | Q a D a a S - Q b D b b S | | 2 S a b )
其中, R i i r o w = Σ j = 1 n R i j , D j j c o l = Σ i = 1 m R i j , D x x F = Σ y = 1 n F x y , D y y F = Σ x = 1 n F x y , D a a S = Σ b = 1 n S a b , 所述α为控制所述矩阵F权重,所述β为控制所述矩阵S的权重。
12.根据权利要求7至11任一项所述的装置,其特征在于,所述装置还包括:
设置模块,用于设置更新周期;
所述获取模块具体用于:根据所述设置单元设置的更新周期,在每个更新周期内,获取所述每个更新周期内的多媒体数据的属性信息。
CN201510326047.1A 2015-06-12 2015-06-12 一种多媒体数据的聚类方法及装置 Pending CN104933135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510326047.1A CN104933135A (zh) 2015-06-12 2015-06-12 一种多媒体数据的聚类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510326047.1A CN104933135A (zh) 2015-06-12 2015-06-12 一种多媒体数据的聚类方法及装置

Publications (1)

Publication Number Publication Date
CN104933135A true CN104933135A (zh) 2015-09-23

Family

ID=54120302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510326047.1A Pending CN104933135A (zh) 2015-06-12 2015-06-12 一种多媒体数据的聚类方法及装置

Country Status (1)

Country Link
CN (1) CN104933135A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512252A (zh) * 2015-12-01 2016-04-20 海信集团有限公司 一种获取多媒体数据间相关性的方法及装置
CN105574198A (zh) * 2015-12-28 2016-05-11 海信集团有限公司 一种栏目推荐方法及装置
CN105812834A (zh) * 2016-05-10 2016-07-27 南京大学 基于聚类信息的视频推荐服务器、推荐方法和预缓存方法
CN105898433A (zh) * 2016-05-27 2016-08-24 青岛海信电器股份有限公司 电视节目推荐方法及装置
CN107292646A (zh) * 2016-04-01 2017-10-24 中国移动通信集团河北有限公司 一种生成业务的方法和装置
CN108780462A (zh) * 2016-03-13 2018-11-09 科尔蒂卡有限公司 用于对多媒体内容元素进行聚类的系统和方法
CN109284417A (zh) * 2018-08-27 2019-01-29 广州飞磨科技有限公司 视频推送方法、装置、计算机设备和存储介质
CN110069663A (zh) * 2019-04-29 2019-07-30 厦门美图之家科技有限公司 视频推荐方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271559A (zh) * 2008-05-16 2008-09-24 华东师范大学 一种基于用户局部兴趣挖掘的协作推荐系统
US20140214821A1 (en) * 2000-11-27 2014-07-31 Sonicwall, Inc. System and method for adaptive text recommendation
CN104035934A (zh) * 2013-03-06 2014-09-10 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法及装置
CN104052714A (zh) * 2013-03-12 2014-09-17 腾讯科技(深圳)有限公司 多媒体信息的推送方法及服务器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140214821A1 (en) * 2000-11-27 2014-07-31 Sonicwall, Inc. System and method for adaptive text recommendation
CN101271559A (zh) * 2008-05-16 2008-09-24 华东师范大学 一种基于用户局部兴趣挖掘的协作推荐系统
CN104035934A (zh) * 2013-03-06 2014-09-10 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法及装置
CN104052714A (zh) * 2013-03-12 2014-09-17 腾讯科技(深圳)有限公司 多媒体信息的推送方法及服务器

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512252A (zh) * 2015-12-01 2016-04-20 海信集团有限公司 一种获取多媒体数据间相关性的方法及装置
CN105512252B (zh) * 2015-12-01 2019-03-05 海信集团有限公司 一种获取多媒体数据间相关性的方法及装置
CN105574198B (zh) * 2015-12-28 2019-12-06 海信集团有限公司 一种栏目推荐方法及装置
CN105574198A (zh) * 2015-12-28 2016-05-11 海信集团有限公司 一种栏目推荐方法及装置
CN108780462A (zh) * 2016-03-13 2018-11-09 科尔蒂卡有限公司 用于对多媒体内容元素进行聚类的系统和方法
CN108780462B (zh) * 2016-03-13 2022-11-22 科尔蒂卡有限公司 用于对多媒体内容元素进行聚类的系统和方法
CN107292646A (zh) * 2016-04-01 2017-10-24 中国移动通信集团河北有限公司 一种生成业务的方法和装置
CN105812834A (zh) * 2016-05-10 2016-07-27 南京大学 基于聚类信息的视频推荐服务器、推荐方法和预缓存方法
CN105812834B (zh) * 2016-05-10 2019-03-12 南京大学 基于聚类信息的视频推荐服务器、推荐方法和预缓存方法
CN105898433A (zh) * 2016-05-27 2016-08-24 青岛海信电器股份有限公司 电视节目推荐方法及装置
CN105898433B (zh) * 2016-05-27 2019-08-06 青岛海信电器股份有限公司 电视节目推荐方法及装置
CN109284417A (zh) * 2018-08-27 2019-01-29 广州飞磨科技有限公司 视频推送方法、装置、计算机设备和存储介质
CN109284417B (zh) * 2018-08-27 2022-11-22 广州飞磨科技有限公司 视频推送方法、装置、计算机设备和存储介质
CN110069663B (zh) * 2019-04-29 2021-06-04 厦门美图之家科技有限公司 视频推荐方法及装置
CN110069663A (zh) * 2019-04-29 2019-07-30 厦门美图之家科技有限公司 视频推荐方法及装置

Similar Documents

Publication Publication Date Title
CN104933135A (zh) 一种多媒体数据的聚类方法及装置
US11601703B2 (en) Video recommendation based on video co-occurrence statistics
US8589434B2 (en) Recommendations based on topic clusters
CN103209342B (zh) 一种引入视频流行度和用户兴趣变化的协作过滤推荐方法
CN105930425A (zh) 个性化视频推荐方法及装置
Parra et al. Walk the talk: Analyzing the relation between implicit and explicit feedback for preference elicitation
CN105095442A (zh) 一种多媒体数据的推荐方法及装置
Pyo et al. LDA-based unified topic modeling for similar TV user grouping and TV program recommendation
CN105095431A (zh) 根据用户的行为信息推送视频的方法和装置
CN105677715A (zh) 一种基于多用户的视频推荐方法及装置
CN103559622A (zh) 基于特征的协同过滤推荐方法
CN104517216A (zh) 增强推荐系统和方法
CN102207972A (zh) 一种数字电视的影视节目推荐方法及其装置
CN106202475A (zh) 一种视频推荐列表的推送方法及装置
CN103136683A (zh) 计算产品参考价格的方法、装置及产品搜索方法、系统
CN104391925A (zh) 一种基于tv用户协同预测的视频推荐方法及系统
CN112508256A (zh) 一种基于众包的用户需求主动预测方法及系统
Dhawan et al. High rating recent preferences based recommendation system
CN105681910A (zh) 一种基于多用户的视频推荐方法及装置
Gu Research on precision marketing strategy and personalized recommendation method based on big data drive
CN104408189A (zh) 关键词排名的展示方法和装置
Gan et al. Design of personalized recommendation system for online learning resources based on improved collaborative filtering algorithm
US8745074B1 (en) Method and system for evaluating content via a computer network
Han et al. Developing smart service concepts: morphological analysis using a Novelty-Quality map
Peng et al. Improved collaborative filtering algorithm in the research and application of personalized movie recommendations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150923