CN104933135A

CN104933135A - 一种多媒体数据的聚类方法及装置

Info

Publication number: CN104933135A
Application number: CN201510326047.1A
Authority: CN
Inventors: 胡娟娟; 黄山山
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2015-06-12
Filing date: 2015-06-12
Publication date: 2015-09-23

Abstract

本发明的实施例提供一种多媒体数据的聚类方法及装置，涉及软件技术领域，解决了现有技术中的终端无法对用户与视频进行准确聚类的问题。该方法包括：获取多媒体数据的属性信息；根据多媒体数据的属性信息矩阵R和矩阵S，该矩阵R的元素R_ij表示用户i是否观看多媒体数据j，该矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度，然后，根据矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y，该矩阵F的元素F_xy表示用户x与用户y间是否为好友关系，该矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值。

Description

一种多媒体数据的聚类方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种多媒体数据的聚类方法及装置。

背景技术

现今，在这个互联网高速发展的时代，人们对于视听方面的需求越来越高，而视频关联推荐业务可以为用户推荐视频，有效地帮助用户发现需求，推进用户对于视听业务的点播。在现有技术中，通常使用协同过滤推荐(Collaborative Filtering,，简称CF)算法来为用户推荐视频。

在现有技术中，终端(以智能电视为例)根据传统的CF算法为用户推荐视频时，通常会利用聚类算法按照视频所属类别，分别将终端后台服务器的数据库中存储的电视视频以及观看这些视频的用户进行聚类，然后根据聚类后的用户所属视频类别以及视频所属类别，来为用户推荐视频。但是，由于在终端后台服务器的数据库中通常会有几十万部的电视视频源，而每个用户所观看的视频数量仅仅为百部或更少，使得两两用户间所观看的视频相似度很低，从而造成了数据库中用户与视频间关系的稀疏性问题。例如，当服务器将邻居用户喜欢观看的视频推荐给用户时，由于用户与用户之间共同观看的视频集合很少，从而导致终端不能准确找到有相似兴趣的邻居用户。这样由于上述的数据稀疏性问题，即用户与视频间的稀疏关系，从而导致终端对用户和视频进行聚类时，聚类出的评分矩阵不准确，无法正确的为用户推荐用户感兴趣的视频。

发明内容

本发明的实施例提供一种多媒体数据的聚类方法及装置，解决了现有技术中的终端无法对用户与视频进行准确聚类的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种多媒体数据的聚类方法，包括：

获取多媒体数据的属性信息；所述属性信息包括用户的标识，以及用户观看的多媒体数据的标识；

根据所述多媒体数据的属性信息生成矩阵R和矩阵S；其中，所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识，所述矩阵R的元素R_ij表示用户i是否观看多媒体数据j；所述矩阵S的行和列均为多媒体数据的标识，所述矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度；

根据所述矩阵R、所述矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y；所述矩阵F的行和列均为用户的标识，所述矩阵F的元素F_xy表示用户x与用户y间是否为好友关系；所述矩阵Y的行为组标识，所述矩阵Y的列包括用户的标识和多媒体矩阵的标识，所述矩阵Y的元素Y_fl表示用户f属于组l的权重值，所述矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值；

其中，所述i,x,y,f∈1,2,……，n；j,a,b,g,∈1,2,……，m；l∈1,2,……，k；所述n为用户个数，所述m为多媒体数据个数，所述k为组个数。

第二方面，提供一种多媒体数据的聚类装置，包括：

获取模块，用于获取多媒体数据的属性信息；所述属性信息包括用户的标识，以及用户观看的多媒体数据的标识；

生成模块，用于根据所述获取模块获取的所述多媒体数据的属性信息生成矩阵R和矩阵S；其中，所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识，所述矩阵R的元素R_ij表示用户i是否观看多媒体数据j；所述矩阵S的行和列均为多媒体数据的标识，所述矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度；

聚类模块，用于根据所述生成模块生成的所述矩阵R、所述矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y；所述矩阵F的行和列均为用户的标识，所述矩阵F的元素F_xy表示用户x与用户y间是否为好友关系；所述矩阵Y的行为组标识，所述矩阵Y的列包括用户的标识和多媒体矩阵的标识，所述矩阵Y的元素Y_fl表示用户f属于组l的权重值，所述矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值；

本发明的实施例提供的多媒体数据的聚类方法及装置，根据获取到的多媒体数据的属性信息矩阵R和矩阵S，该矩阵R的元素R_ij表示用户i是否观看多媒体数据j，该矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度，然后，根据矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y，该矩阵F的元素F_xy表示用户x与用户y间是否为好友关系，该矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性，对用户与多媒体数据间进行更精细化的聚类，从而提高了终端对用户与多媒体数据聚类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例提供的一种多媒体数据的聚类方法的流程示意图；

图2为本发明的实施例提供的一种多媒体数据的推荐方法的流程示意图；

图3为本发明的实施例提供的一种多媒体数据的聚类装置的结构示意图；

图4为本发明的实施例提供的一种多媒体数据的聚类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供一种多媒体数据的聚类方法，如图1所示，该方法具体包括如下步骤：

101、多媒体数据的聚类装置获取多媒体数据的属性信息。

示例性的，本发明中的多媒体数据为视频、音乐、文本文档等多媒体文件数据。上述的多媒体数据的属性信息包括用户的标识以及用户观看的多媒体数据的标识。其中，该属性信息还包括多媒体数据的参数信息包括文件属性信息，例如，当该多媒体数据为视频时，该多媒体数据的参数信息包括：视频演员名称、导演名称、视频类型等。

其中，上述的用户的标识可以为该用户的登陆账号或者其他可唯一表示该用户的标识，本实施例中采用U₁、U₂、U₃……U_n形式表示不同用户的标识；多媒体数据的标识可以为该多媒体数据的名称或其他可唯一表示该多媒体数据的标识，本实施例中采用B₁、B₂、B₃……B_n表示不同多媒体数据的标识；用户观看多媒体数据的记录表示用户与观看的多媒体数据间的关系。

优选的，在步骤101中，可以设置一个更新周期，更新周期的长短可以根据多媒体数据数据库更新情况进行设定，例如，可以设为一个月，一周或一天，本发明对此不进行限制，在每个更新周期内获取所述每个更新周期内的多媒体数据的属性信息并进行更新。本实施例下述各步骤均以当前周期为例进行说明。

102、多媒体数据的聚类装置根据多媒体数据的属性信息生成矩阵R和矩阵S。

其中，上述的矩阵R的行和列分别表示用户的标识和多媒体数据的标识，该矩阵R的元素R_ij表示用户i是否观看多媒体数据j；上述的矩阵S的行和列均为多媒体数据的标识，该矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度。上述的i∈1,2,……，n；j,a,b∈1,2,……，m；上述的n为用户个数，上述的m为记录中n个用户所观看的不重复的多媒体数据总和。

示例性的，若以多媒体数据为视频为例，假设用户和视频的集合分别为U＝{U₁,U₂,...,U_n}和B＝{B₁,B₂,...,B_m}，若将用户标识作为矩阵行，将多媒体数据标识作为矩阵列，则定义用户与视频间的关系矩阵为矩阵R_ij表示用户u_i是否观看过视频B_j的信息。若在智能电视上R_ij表示用户u_i观看过视频B_j，则R_ij＝1，否则为R_ij＝0。这里以表1来说明对矩阵R的含义，需要说明的是，真实的矩阵R具有百万级的维度，下述的表1仅仅是对矩阵R的含义进行说明，仅仅是一种示例。

表1

示例性的，假设视频的集合为和B＝{B₁,B₂,...,B_m}，若要计算B₁与B₂间的相似度时，可以根据视频B₁与B₂的各项参数信息间的相似程度以及现有的相似度计算公式来计算两者的相似度，这里以表2来说明对矩阵S的含义，需要说明的是，真实的矩阵S具有百万级的维度，下述的表2仅仅是对矩阵S的含义进行说明，仅仅是一种示例。

表2

103、多媒体数据的聚类装置根据矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y。

其中，上述的矩阵F的行和列均为用户的标识，该矩阵F的元素F_xy表示用户x与用户y间是否为好友关系；上述的矩阵Y的行为组标识，该矩阵Y的列包括用户的标识和多媒体矩阵的标识，该矩阵Y的元素Y_fl表示用户f属于组l的权重值，该矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值。本实施例中的i,x,y,f∈1,2,……，n；j,a,b,g,∈1,2,……，m；l∈1,2,……，k；上述的n为用户个数，上述的m为记录中n个用户所观看的不重复的多媒体数据总和；上述的k为组个数。

示例性的，随着社交网络的流行，每个人都维持着自己的社交关系。社交关系已经成为一种发掘用户可能邻居的潜在价值信息。假设用户的集合为U＝{U₁,U₂,...,U_n}，则定义用户与用户间的社会关系矩阵为矩阵其中F_xy表示好友关系，若U_x与U_y是好友关系则F_xy＝1，否则为F_xy＝0。这里以表3来说明矩阵F的含义，需要说明的是，真实的矩阵F具有百万级的维度，下述的表3仅仅是对矩阵F的含义进行说明，仅仅是一种示例。

	U₁	U₂	U₃	U₄
					U₁		1	0	1
U₂	1		1	0
					U₃	0	1		1
U₄	1	0	1

表3

基于表3可知，假设用户U₁与U₄由于没有共同观看的视频认为其不为相似的用户，但是U₁与U₄是好友关系，补充了R矩阵由于数据稀疏导致的判断不准确。

可选的，步骤103具体包括如下步骤：

103a、多媒体数据的聚类装置根据聚类公式、矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y。

其中，上述的聚类公式为：

Y (P, Q) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} (| | \frac{P_{i}}{\sqrt{D_{i i}^{r o w}}} - \frac{Q_{j}}{\sqrt{D_{j j}^{c o l}}} | |^{2} R_{i j}) + α Σ_{x = 1}^{m} Σ_{y = 1}^{m} (| | \frac{P_{x}}{\sqrt{D_{x x}^{F}}} - \frac{P_{y}}{\sqrt{D_{y y}^{F}}} | |^{2} F_{x y}) + β Σ_{a = 1}^{n} Σ_{b = 1}^{n} (| | \frac{Q_{a}}{\sqrt{D_{a a}^{S}}} - \frac{Q_{b}}{\sqrt{D_{b b}^{S}}} | |^{2} S_{a b})

(公式一)；其中，

D_{i i}^{r o w} = Σ_{j = 1}^{n} R_{i j}, D_{j j}^{c o l} = Σ_{i = 1}^{m} R_{i j}, D_{x x}^{F} = Σ_{y = 1}^{n} F_{x y}, D_{y y}^{F} = Σ_{x = 1}^{n} F_{x y},

上述的α为控制矩阵F权重，上述的β为控制矩阵S的权重。

示例性的是，在具体计算矩阵Y时，可以按照以下计算过程进行计算。但是需要说明的是，下述的计算过程仅是为一种示例，在实际应用中只要能够计算出矩阵Y的计算方法均为本发明保护的范围，再次不再赘述。

首先，可以将公式一转化为公式二：

L (P, Q) = T r (Y^{T} [\begin{matrix} I_{m} + 2 α (I_{m} - B) & - A \\ - A^{T} & I_{n} + 2 β (I_{n} - C) \end{matrix}] Y) = T r (Y^{T} M Y)

(公式二)

其中，上述的

A = {(D^{r o w})}^{- \frac{1}{2}} R {(D^{c o l})}^{- \frac{1}{2}}; B = {(D^{F})}^{- \frac{1}{2}} F {(D^{F})}^{- \frac{1}{2}} : C = {(D^{S})}^{- \frac{1}{2}} S {(D^{S})}^{- \frac{1}{2}} :

M = [\begin{matrix} I_{m} + 2 α (I_{m} - B) & - A \\ - A^{T} & I_{n} + 2 β (I_{n} - C) \end{matrix}] .

其次，由于公式一为损失函数，当求损失函数的最小值时所对应的极值点就是P、Q的值或是Y的值，因此，可以将公式二中的Tr(Y^TMY)，转换成(公式三)。

其次，由于公式三为非凸函数，很难求取极值，因此，这里可以根据谱聚类的方式将用户和多媒体数据转换到低维的空间中，然后再同时聚类根据瑞利熵理论将公式三转换成公式四：

(公式四)；其中，Z^TZ＝I，Z＝[z₁,z₂,...z_r]。Z的列向量为M的最小的r个特征值对应的特征向量。

最后，再利用模糊c-means聚类方法将用户和视频聚类成组L，得到矩阵Y。

本发明的实施例提供的多媒体数据的聚类方法，根据获取到的多媒体数据的属性信息矩阵R和矩阵S，该矩阵R的元素R_ij表示用户i是否观看多媒体数据j，该矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度，然后，根据矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y，该矩阵F的元素F_xy表示用户x与用户y间是否为好友关系，该矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性，对用户与多媒体数据间进行更精细化的聚类，从而提高了终端对用户与多媒体数据聚类的准确性。

基于图1对应的实施例提供的一种多媒体聚类方法，本实施例提供一种多媒体数据的推荐方法，如图2所示，该多媒体数据的推荐方法具体包括如下步骤：

201、多媒体数据的聚类装置获取多媒体数据的属性信息。

202、多媒体数据的聚类装置根据多媒体数据的属性信息生成矩阵R和矩阵S。

其中，上述的矩阵R的行和列分别表示用户的标识和多媒体数据的标识，该矩阵R的元素R_ij表示用户i是否观看多媒体数据j；上述的矩阵S的行和列均为多媒体数据的标识，该矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度。上述的i,b∈1,2,……，n；j,a∈1,2,……，m；上述的n为用户个数，上述的m为多媒体数据个数。

203、多媒体数据的聚类装置根据所述矩阵R、所述矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y。

其中，上述的矩阵F的行和列均为用户的标识，该矩阵F的元素F_xy表示用户x与用户y间是否为好友关系；上述的矩阵Y的行为组标识，该矩阵Y的列包括用户的标识和多媒体矩阵的标识，该矩阵Y的元素Y_fl表示用户f属于组l的权重值，该矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值。本实施例中的i,x,y,f∈1,2,……，n；j,a,b,g,∈1,2,……，m；l∈1,2,……，k；上述的n为用户个数，上述的m为多媒体数据个数，上述的k为组个数。

需要说明的是，本实施例中的步骤201至203的详细过程以及具体参数的介绍，可以直接参照上一实施例中步骤101至103中的详细描述，这里不再赘述。

204、多媒体数据的聚类装置根据目标用户的标识从矩阵Y中确定出目标用户未观看的目标多媒体数据的标识。

205、多媒体数据的聚类装置根据矩阵Y、目标用户的标识以及目标多媒体数据的标识，预测出目标用户对每个目标多媒体数据的评分。

可选的，步骤205中目标用户对任一多媒体数据的评分过程具体包括如下步骤：

205a、多媒体数据的聚类装置从目标用户未观看的多媒体数据中选择任一多媒体数据。

205b、多媒体数据的聚类装置根据目标用户的标识和任一多媒体数据的标识，从矩阵Y中获取目标组的标识。

其中，上述的目标组为目标用户与任一多媒体数据同属一组时对应的组标识。

205c1、若在矩阵Y中确定出目标组，则多媒体数据的聚类装置在目标组中预测目标用户对任一多媒体数据的评分；根据评分以及目标用户属于目标组的权重值，计算出目标用户对任一多媒体数据的评分。

205c2、若在矩阵Y中未确定出目标组，则多媒体数据的聚类装置直接将目标用户对任一多媒体数据的评分设置为0。

示例性的，若多媒体数据以电影为例，假设为目标用户U1推荐视频，若计算目标用户U1对目标电影B₁的评分时，从矩阵Y中查找出目标用户U1对目标电影B₁属于的共同组为组1(k₁)和组2(k₂)时，则利用CF算法预测出来目标用户U1对目标电影B₁的预测评分分别为s₁和s₂，而目标用户U1属于k₁和k₂的权重分别为w₁和w₂，则目标用户U1对目标电影B₁的最终评分为W＝s₁·w₁+s₂·w₂。若目标用户U1对目标电影B₁间没有共同所属的组则W＝0。

206、多媒体数据的聚类装置对目标用户对每个目标多媒体数据的评分进行排序，并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。

可选的，步骤206具体包括如下内容：

206a、多媒体数据的聚类装置将目标用户对每个目标多媒体数据的评分按照评分值的大小顺序，降序插入到预设链表中。

其中，上述的预设链表包含的最大元素个数与目标用户需要推荐的多媒体数据的个数相同。

本发明的实施例提供的多媒体数据的聚类方法，根据获取到的多媒体数据的属性信息矩阵R和矩阵S，该矩阵R的元素R_ij表示用户i是否观看多媒体数据j，该矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度，然后，根据矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y，该矩阵F的元素F_xy表示用户x与用户y间是否为好友关系，该矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性，对用户与多媒体数据间进行更精细化的聚类，从而提高了终端对用户与多媒体数据聚类的准确性。此外，本发明根据目标用户的标识从矩阵Y中确定出目标用户未观看的目标多媒体数据的标识，然后根据矩阵Y、目标用户的标识以及目标多媒体数据的标识，预测出目标用户对每个目标多媒体数据的评分，最后对目标用户对每个目标多媒体数据的评分进行排序，并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。这样在给目标用户推荐多媒体数据时只需要寻找与目标用户属于共同组的用户和视频，大大提高了算法的速度，增加了推荐的实时性，使用户能在较短的时间内快速观看到为其推荐的结果。

本实施例提供一种多媒体数据的聚类装置，如图3所示，该装置用于实现上述实施例提供的多媒体数据的聚类方法，该装置应用于智能终端，该智能终端可以为云端服务器、智能电视、智能手机、平板电脑以及个人数字助理(英文：Personal Digital Assistant，简称PDA)等。该多媒体数据的聚类装置2包括：获取模块21、生成模块22以及聚类模块23，其中：

获取模块21，用于获取多媒体数据的属性信息。

其中，上述的属性信息包括用户的标识，以及用户观看的多媒体数据的标识。

生成模块22，用于根据获取模块21获取的多媒体数据的属性信息生成矩阵R和矩阵S。

其中，上述的矩阵R的行和列分别表示用户的标识和多媒体数据的标识，该矩阵R的元素R_ij表示用户i是否观看多媒体数据j；上述的矩阵S的行和列均为多媒体数据的标识，该矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度。

聚类模块23，用于根据生成模块22生成的矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y。

其中，上述的矩阵F的行和列均为用户的标识，该矩阵F的元素F_xy表示用户x与用户y间是否为好友关系；该矩阵Y的行为组标识，该矩阵Y的列包括用户的标识和多媒体矩阵的标识，该矩阵Y的元素Y_fl表示用户f属于组l的权重值，该矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值。

需要说明的是，上述的i,x,y,f∈1,2,……，n；j,a,b,g,∈1,2,……，m；l∈1,2,……，k；n为用户个数，m为多媒体数据个数，k为组个数。

本发明的实施例提供的多媒体数据的聚类装置，根据获取到的多媒体数据的属性信息矩阵R和矩阵S，该矩阵R的元素R_ij表示用户i是否观看多媒体数据j，该矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度，然后，根据矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y，该矩阵F的元素F_xy表示用户x与用户y间是否为好友关系，该矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性，对用户与多媒体数据间进行更精细化的聚类，从而提高了终端对用户与多媒体数据聚类的准确性。

可选的，如图4所示，该装置2还包括：确定模块24、评分模块25以及排序模块26，其中：

确定模块24，用于根据目标用户的标识在矩阵Y中确定出目标用户未观看的目标多媒体数据的标识。

评分模块25，根据聚类模块23聚类出的矩阵Y、确定模块24确定的目标用户的标识以及目标多媒体数据的标识，预测出目标用户对每个目标多媒体数据的评分。

排序模块26，用于对评分模块25得出的目标用户对每个目标多媒体数据的评分进行排序，并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。

可选的，评分模块25具体用于：从目标用户未观看的多媒体数据中选择任一多媒体数据；根据目标用户的标识和任一多媒体数据的标识，从矩阵Y中获取目标组的标识；目标组为目标用户与任一多媒体数据同属一组时对应的组标识。

若在矩阵Y中确定出目标组，则在目标组中预测目标用户对所述任一多媒体数据的评分；根据评分以及目标用户属于目标组的权重值，计算出目标用户对任一多媒体数据的评分；若在矩阵Y中未确定出目标组，则直接将目标用户对任一多媒体数据的评分设置为0。

可选的，排序模块26具体用于：将目标用户对每个目标多媒体数据的评分按照评分值的大小顺序，降序插入到预设链表中。

可选的，该聚类模块23在根据矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y时具体包括：

根据聚类公式、矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y；

其中，上述的聚类公式为：

Y (P, Q) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} (| | \frac{P_{i}}{\sqrt{D_{i i}^{r o w}}} - \frac{Q_{j}}{\sqrt{D_{j j}^{c o l}}} | |^{2} R_{i j}) + α Σ_{x = 1}^{m} Σ_{y = 1}^{m} (| | \frac{P_{x}}{\sqrt{D_{x x}^{F}}} - \frac{P_{y}}{\sqrt{D_{y y}^{F}}} | |^{2} F_{x y}) + β Σ_{a = 1}^{n} Σ_{b = 1}^{n} (| | \frac{Q_{a}}{\sqrt{D_{a a}^{S}}} - \frac{Q_{b}}{\sqrt{D_{b b}^{S}}} | |^{2} S_{a b})

其中，

D_{i i}^{r o w} = Σ_{j = 1}^{n} R_{i j}, D_{j j}^{c o l} = Σ_{i = 1}^{m} R_{i j}, D_{x x}^{F} = Σ_{y = 1}^{n} F_{x y}, D_{y y}^{F} = Σ_{x = 1}^{n} F_{x y}, D_{a a}^{S} + Σ_{b = 1}^{n} S_{a b},

α为控制矩阵F权重，β为控制矩阵S的权重。

可选的，如图3所示，该装置2还包括：设置模块27，其中：

设置模块27，用于设置更新周期。

获取模块21具体用于：根据设置单元27设置的更新周期，在每个更新周期内，获取每个更新周期内的多媒体数据的属性信息。

本发明的实施例提供的多媒体数据的聚类装置，根据获取到的多媒体数据的属性信息矩阵R和矩阵S，该矩阵R的元素R_ij表示用户i是否观看多媒体数据j，该矩阵S的元素S_ab表示多媒体数据a与多媒体数据b间的相似度，然后，根据矩阵R、矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y，该矩阵F的元素F_xy表示用户x与用户y间是否为好友关系，该矩阵Y的元素Y_gl表示多媒体数据g属于组l的权重值。这样通过矩阵F、矩阵R以及矩阵S中分别体现出的用户与用户之间、用户与多媒体数据之间以及多媒体数据与多媒体数据间的关联性，对用户与多媒体数据间进行更精细化的聚类，从而提高了终端对用户与多媒体数据聚类的准确性。此外，本发明根据目标用户的标识从矩阵Y中确定出目标用户未观看的目标多媒体数据的标识，然后根据矩阵Y、目标用户的标识以及目标多媒体数据的标识，预测出目标用户对每个目标多媒体数据的评分，最后对目标用户对每个目标多媒体数据的评分进行排序，并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。这样在给目标用户推荐多媒体数据时只需要寻找与目标用户属于共同组的用户和视频，大大提高了算法的速度，增加了推荐的实时性，使用户能在较短的时间内快速观看到为其推荐的结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多媒体数据的聚类方法，其特征在于，包括：

获取多媒体数据的属性信息，所述属性信息包括用户的标识，以及用户观看的多媒体数据的标识；

2.根据权利要求1所述的方法，其特征在于，所述根据所述矩阵R、所述矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y之后，所述方法还包括：

根据目标用户的标识从所述矩阵Y中确定出所述目标用户未观看的目标多媒体数据的标识；

根据所述矩阵Y、所述目标用户的标识以及所述目标多媒体数据的标识，预测出所述目标用户对每个目标多媒体数据的评分；

对所述目标用户对每个目标多媒体数据的评分进行排序，并根据所述目标用户需要推荐的多媒体数据的个数确定对所述目标用户推荐的多媒体数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述矩阵Y、所述目标用户的标识以及所述目标多媒体数据的标识，预测出所述目标用户对每个目标多媒体数据的评分具体包括：

从所述目标用户未观看的多媒体数据中选择任一多媒体数据；

根据所述目标用户的标识和所述任一多媒体数据的标识，从所述矩阵Y中获取目标组的标识；所述目标组为所述目标用户与所述任一多媒体数据同属一组时对应的组标识；

若在所述矩阵Y中确定出目标组，则在所述目标组中预测所述目标用户对所述任一多媒体数据的评分；根据所述评分以及所述目标用户属于所述目标组的权重值，计算出所述目标用户对所述任一多媒体数据的评分；

若在所述矩阵Y中未确定出目标组，则直接将所述目标用户对所述任一多媒体数据的评分设置为0。

4.根据权利要求2所述的方法，其特征在于，所述对所述目标用户对每个目标多媒体数据的评分进行排序，并根据所述目标用户需要推荐的多媒体数据的个数确定对所述目标用户推荐的多媒体数据具体包括：

将所述目标用户对每个目标多媒体数据的评分按照评分值的大小顺序，降序插入到预设链表中，其中，所述预设链表包含的最大元素个数与所述目标用户需要推荐的多媒体数据的个数相同。

5.根据权利要求1所述的方法，其特征在于，所述根据所述矩阵R、所述矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y具体包括：

根据聚类公式、所述矩阵R、所述矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y；

其中，所述聚类公式为：

Y (P, Q) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} (| | \frac{P_{i}}{\sqrt{D_{i i}^{r o w}}} - \frac{Q_{j}}{\sqrt{D_{j j}^{c o l}}} | |^{2} R_{i j}) + α Σ_{x = 1}^{m} Σ_{y = 1}^{n} (| | \frac{P_{x}}{\sqrt{D_{x x}^{F}}} - \frac{P_{y}}{\sqrt{D_{y y}^{F}}} | |^{2} F_{x y}) + β Σ_{a = 1}^{n} Σ_{b = 1}^{n} (| | \frac{Q_{a}}{\sqrt{D_{a a}^{S}}} - \frac{Q_{b}}{\sqrt{D_{b b}^{S}}} | |^{2} S_{a b})

其中，

R_{i i}^{r o w} = Σ_{j = 1}^{n} R_{i j}, D_{j j}^{c o l} = Σ_{i = 1}^{m} R_{i j}, D_{x x}^{F} = Σ_{y = 1}^{n} F_{x y}, D_{y y}^{F} = Σ_{x = 1}^{n} F_{x y}, D_{a a}^{S} = Σ_{b = 1}^{n} S_{a b},

所述α为控制所述矩阵F权重，所述β为控制所述矩阵S的权重。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括，设置更新周期；

所述获取多媒体数据的属性信息具体包括：根据所述设置的更新周期，在每个更新周期内，获取所述每个更新周期内的多媒体数据的属性信息。

7.一种多媒体数据的聚类装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

确定模块，用于根据所述目标用户的标识从所述矩阵Y中确定出所述目标用户未观看的目标多媒体数据的标识；

评分模块，根据所述聚类模块聚类出的所述矩阵Y、所述确定模块确定的所述目标用户的标识以及所述目标多媒体数据的标识，预测出所述目标用户对每个目标多媒体数据的评分；

排序模块，用于对所述评分模块得出的所述目标用户对每个目标多媒体数据的评分进行排序，并根据所述目标用户需要推荐的多媒体数据的个数确定对所述目标用户推荐的多媒体数据。

9.根据权利要求8所述的装置，其特征在于，所述评分模块具体用于：从所述目标用户未观看的多媒体数据中选择任一多媒体数据；根据所述目标用户的标识和所述任一多媒体数据的标识，从所述矩阵Y中获取目标组的标识；所述目标组为所述目标用户与所述任一多媒体数据同属一组时对应的组标识；

若在所述矩阵Y中确定出目标组，则在所述目标组中预测所述目标用户对所述任一多媒体数据的评分；根据所述评分以及所述目标用户属于所述目标组的权重值，计算出所述目标用户对所述任一多媒体数据的评分；若在所述矩阵Y中未确定出目标组，则直接将所述目标用户对所述任一多媒体数据的评分设置为0。

10.根据权利要求8所述的装置，其特征在于，所述排序模块具体用于：将所述目标用户对每个目标多媒体数据的评分按照评分值的大小顺序，降序插入到预设链表中，其中，所述预设链表包含的最大元素个数与所述目标用户需要推荐的多媒体数据的个数相同。

11.根据权利要求7所述的装置，其特征在于，所述聚类模块在根据所述矩阵R、所述矩阵S以及矩阵F，将所有用户与所有多媒体数据进行聚类，得到矩阵Y时具体包括：

其中，所述聚类公式为：

Y (P, Q) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} (| | \frac{P_{i}}{\sqrt{D_{i i}^{r o w}}} - \frac{Q_{j}}{\sqrt{D_{j j}^{c o l}}} | |^{2} R_{i j}) + α Σ_{x = 1}^{m} Σ_{y = 1}^{n} (| | \frac{P_{x}}{\sqrt{D_{x x}^{F}}} - \frac{P_{y}}{\sqrt{D_{y y}^{F}}} | |^{2} F_{x y}) + β Σ_{a = 1}^{n} Σ_{b = 1}^{n} (| | \frac{Q_{a}}{\sqrt{D_{a a}^{S}}} - \frac{Q_{b}}{\sqrt{D_{b b}^{S}}} | |^{2} S_{a b})

其中，

R_{i i}^{r o w} = Σ_{j = 1}^{n} R_{i j}, D_{j j}^{c o l} = Σ_{i = 1}^{m} R_{i j}, D_{x x}^{F} = Σ_{y = 1}^{n} F_{x y}, D_{y y}^{F} = Σ_{x = 1}^{n} F_{x y}, D_{a a}^{S} = Σ_{b = 1}^{n} S_{a b},

12.根据权利要求7至11任一项所述的装置，其特征在于，所述装置还包括：

设置模块，用于设置更新周期；

所述获取模块具体用于：根据所述设置单元设置的更新周期，在每个更新周期内，获取所述每个更新周期内的多媒体数据的属性信息。