CN105512252B - 一种获取多媒体数据间相关性的方法及装置 - Google Patents
一种获取多媒体数据间相关性的方法及装置 Download PDFInfo
- Publication number
- CN105512252B CN105512252B CN201510867820.5A CN201510867820A CN105512252B CN 105512252 B CN105512252 B CN 105512252B CN 201510867820 A CN201510867820 A CN 201510867820A CN 105512252 B CN105512252 B CN 105512252B
- Authority
- CN
- China
- Prior art keywords
- matrix
- medium data
- user
- correlation
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施例提供一种获取多媒体数据间相关性的方法及装置,涉及计算机技术领域,解决了现有的终端在计算音频间的相关性时由于未考虑用户的操作行为和具体的应用场景,而导致的为智能推荐系统提供并不全面的音频内容间的关联性数据的问题。该方法包括:根据多媒体数据的属性信息以及预设用户操作集中每个用户操作的数字标识得到矩阵R;对矩阵R进行聚类,得到所有矩阵R’,该矩阵R’为矩阵R的子矩阵;依次对每个矩阵R’进行分解,得到每个矩阵R’的矩阵S,矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值;基于所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S计算出两者间的第一相关度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种获取多媒体数据间相关性的方法及装置。
背景技术
现今,在这个互联网高速发展的时代,人们对于视听方面的需求越来越高,而音频关联推荐业务可以根据用户的个性化偏好为用户推荐其他该用户可能喜欢的曲目,有效地帮助用户发现需求,推进用户对于视听业务的点播。
目前,终端在对音频进行关联时,通常采用基于内容的方式来对音频进行关联:即终端根据各个音频的固有标签直接计算音频间的音频相关度。但是,这种关联方式仅仅是对音频的音频内容进行关联,并未考虑用户的操作行为和具体的应用场景,从而导致最终关联出的音频间的相关性为音频内容间的相关度,并未对音频间的相关性进行全面的挖掘,进而为智能推荐系统或其他智能系统(例如,音频数据库建立系统)提供并不全面的音频间的关联性数据,使得该智能推荐系统或其他智能系统不能更好的为用户提供服务。例如,智能推荐系统基于该音频内容间的相关度为用户推荐音频时,便很可能为用户推荐其不感兴趣的音频。
发明内容
本发明的实施例提供一种获取多媒体数据间相关性的方法及装置,解决了现有的终端在计算音频间的相关性时由于未考虑用户的操作行为和具体的应用场景,而导致的为智能推荐系统及其他智能系统提供并不全面的音频内容间的关联性数据的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种获取多媒体数据间相关性的方法,包括:
获取多媒体数据的属性信息,所述属性信息包括用户的标识、用户所操作的多媒体数据的标识以及用户对多媒体数据的历史操作信息;
根据所述多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R,所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识,所述用户操作的数字标识用于表示用户喜好度;
对所述矩阵R进行聚类,得到所有矩阵R’,所述矩阵R’为所述矩阵R的子矩阵;
依次对每个矩阵R’进行分解,得到每个矩阵R’对应的矩阵S,所述矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值,v∈1,2,……,m,u∈1,2,……,k,m为多媒体数据个数,k为多媒体数据类型个数;
根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出所述第一多媒体数据与所述第二多媒体数据间的第一相关度。
第二方面,提供一种获取多媒体数据间相关性的装置,包括:
获取模块,用于获取多媒体数据的属性信息,所述属性信息包括用户的标识、用户所操作的多媒体数据的标识以及用户对多媒体数据的历史操作信息;
生成模块,用于根据所述获取模块得到的所述多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R,所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识,所述用户操作的数字标识用于表示用户喜好度;
聚类模块,用于对所述生成模块生成的所述矩阵R进行聚类,得到所有矩阵R’,所述矩阵R’为所述矩阵R的子矩阵;
分解模块,用于依次对每个所述聚类模块得到的矩阵R’进行分解,得到每个矩阵R’对应的矩阵S,所述矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值,v∈1,2,……,m,u∈1,2,……,k,m为多媒体数据个数,k为多媒体数据类型个数;
第一计算模块,用于根据所有包含第一多媒体数据标识以及第二多媒体数据标识的所述分解模块分解出的矩阵S,计算出所述第一多媒体数据与所述第二多媒体数据间的第一相关度。
本发明实施例提供的获取多媒体数据间相关性的方法及装置,根据多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R,该矩阵R的行和列分别表示用户的标识和多媒体数据的标识,用户操作的数字标识用于表示用户喜好度,然后对矩阵R进行聚类,得到所有矩阵R’,依次对每个矩阵R’进行分解,得到每个矩阵R’的矩阵S,该矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值,最后,根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出第一多媒体数据与第二多媒体数据间的第一相关度。
相比于现有技术仅根据音频的固有标签来确定的音频相关度,本申请提供的方案中的矩阵R是根据预设用户操作集中每个用户操作的数字标识以及用户对多媒体数据的历史操作信息得到的,由于用户对多媒体数据所执行的用户操作是多媒体数据在实际应用场景中场景特性的直接体现,因此,上述过程所得到的矩阵R能够充分的展现多媒体数据间在实际的应用场景中的关联度,这样在采用聚类方法对矩阵R进行聚类时,便可将大量的多媒体数据划分为多个具有场景关联聚集效果的用户群体矩阵R’,然后,对每个用户群体矩阵R’进行分解,得到每个用户群体内每个多媒体数据属于各个多媒体数据类型的权重值,最后,再利用上述的每个用户群体内的每个多媒体数据属于各个多媒体数据类型的权重值来计算多媒体数据间的相关度,由于本申请在计算多媒体数据间的相关度时预先将现实场景中用户对多媒体数据的用户操作进行了聚类,使得具有场景关联性的多媒体数据聚集在一起,充分考虑了多媒体数据在实际应用场景中的场景特性,从而为智能推荐系统及其他智能系统提供了结合用户行为和应用场景的音频间的关联性数据。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种获取多媒体数据间相关性的方法流程图;
图2为本发明实施例提供的另一种获取多媒体数据间相关性的方法流程图;
图3为本发明实施例提供的一种获取多媒体数据间相关性的装置的结构示意图;
图4为本发明实施例提供的另一种获取多媒体数据间相关性的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供一种获取多媒体数据间相关性的方法,如图1所示,该方法具体包括如下步骤:
101、获取多媒体数据间相关性的装置获取多媒体数据的属性信息。
示例性的,本发明中的多媒体数据为视频、音频、文本文档等多媒体文件数据。上述的多媒体数据的属性信息包括用户的标识、用户观看的多媒体数据的标识、用户所操作的多媒体数据的标识、用户对多媒体数据的历史操作信息以及多媒体数据所属的多媒体数据类型。此外,该属性信息还包括文件属性信息,例如,当该多媒体数据为音频时,该多媒体数据的参数信息包括:音频名称、作曲人、作词人、文件大小等。其中,上述的用户的标识可以为该用户的登陆账号或者其他可唯一表示该用户的标识,本实施例中采用U1、U2、U3……Un形式表示不同用户的标识;多媒体数据的标识可以为该多媒体数据的名称或其他可唯一表示该多媒体数据的标识,本实施例中采用B1、B2、B3、……、Bm表示不同多媒体数据的标识。
本实施例中的每个多媒体数据可以属于一个多媒体数据类型也可以同时属于多个多媒体数据类型,例如,某一音频即属于小清新类型又属于大陆类型。本实施例中的多媒体数据类型的种类可以由技术人员预先进行设定,并确定出每个多媒体数据所属的多媒体数据类型。
示例性的,获取多媒体数据间相关性的装置会获取预定时间范围内所有用户的操作数据,然后,对这个用户的操作数据进行预处理,提取出用户对多媒体数据所执行的特定用户操作的数据,然后将用户对多媒体数据所执行的特定用户操作的数据作为多媒体数据的历史操作信息。例如,对于音频来说,该特定用户操作包括:搜索、单曲循环、分享、播放、收藏、切歌、删除歌曲等,对于视频来说,该特定用户操作包括:搜索、分享、播放、收藏、删除等。需要说明的是,上述的具体用户操作仅仅是一种示例,仅仅是将可以代表用户喜好的用户操作筛选出来,然后,为其赋不同的值来表示用户不同的用户喜好度。例如,{搜索5、单曲循环4、分享3、收藏2、播放1、切歌-1、删除歌曲-2}。
优选的,在步骤101中,可以设置一个更新周期,更新周期的长短可以根据多媒体数据数据库更新情况进行设定,例如,可以设为一个月,一周或一天,本发明对此不进行限制,在每个更新周期内获取所述每个更新周期内的多媒体数据的属性信息并进行更新。本实施例下述各步骤均以当前周期为例进行说明。
102、获取多媒体数据间相关性的装置根据多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R。
示例性的,上述的用户操作集中的用户操作的数字标识用于表示用户喜好度,上述的矩阵R的行和列分别表示用户的标识和多媒体数据的标识,矩阵R的元素Rij表示用户i对多媒体数据j的喜好度。具体的,该矩阵R的元素Rij可以为用户i在预定时间内对多媒体数据j执行最多的用户操作的数字标识,i∈1,2,……,n;j∈1,2,……,m;上述的n为用户个数,上述的m为记录中n个用户所观看的不重复的多媒体数据总和。
示例性的,上述的矩阵R的每个多媒体类型所在列中所有元素累计后的数值从左至右依次递减且所述矩阵R中每个用户标识所在行中所有元素累计后的数值由上至下依次递减;或者,上述的矩阵R的每个多媒体类型所在列中所有元素累计后的数值从左至右依次递增且所述矩阵R中每个用户标识所在行中所有元素累计后的数值由上至下依次递增。具体的,获取多媒体数据间相关性的装置根据多媒体数据的属性信息得到矩阵R前,首先会获取一个矩阵A,该矩阵A的行和列分别表示用户的标识和多媒体数据的标识,该矩阵A的元素Aij表示用户i在预定时间内对多媒体数据j执行最多的用户操作对应的标识。然后,根据矩阵A的每个多媒体类型所在列中所有元素累计后的数值以及矩阵A中每个用户标识所在行中所有元素累计后的数值,按照行从左至右,列从上至下对该矩阵A先列后行依次递减或递增分别排序得到矩阵R。
示例性的,若以多媒体数据为音频为例,假设用户和音频的集合分别为U={U1,U2,...,Un}和B={B1,B2,...,Bm},若将用户标识作为矩阵行,将多媒体数据标识作为矩阵列,则定义用户与视频间的关系矩阵为矩阵R(R表示n行m列的矩阵),Rij表示用户ui在预定时间内对音频Bj执行最多的用户操作对应的数字标识。若搜索为5、单曲循环为4、分享为3、收藏为2、播放为1、切歌为-1、删除歌曲为-2时,这里以表1来说明对矩阵A的含义,用表2来说明矩阵R的含义,需要说明的是,真实的矩阵A以及矩阵R具有百万级的维度,下述的表1以及表2仅仅是对矩阵A以及矩阵R的含义进行说明,仅仅是一种示例。
表1
基于表1可知,该矩阵A的每行的元素累加值从上至下分别为:{7,9,-4,9,2,-3},矩阵A的每列的元素累加值从左至右分别为:{9,7,3,4,-3,0}。示例性的,这里以将矩阵A的行从左至右,列从上至下对该矩阵A先列后行依次递减的排列策略为例,根据上述的矩阵A的各行的累加值以及各列的累加对矩阵A重新排序后,可以将表1所示的矩阵A重新排序得到表2所示的矩阵R。
表2
103、获取多媒体数据间相关性的装置对矩阵R进行聚类,得到所有矩阵R’。
其中,上述的矩阵R’为矩阵R’的子矩阵,该矩阵R’中所有元素之和与矩阵R’中所有元素的个数之间的比值满足聚类条件。
实施例一:
示例性的,当步骤102中的矩阵R的每个多媒体类型所在列中所有元素累计后的数值从左至右依次递减且该矩阵R中每个用户标识所在行中所有元素累计后的数值由上至下依次递减时,步骤103中获取多媒体数据间相关性的装置对矩阵R进行聚类,得到一个矩阵R’的具体聚类过程可以通过如下两种实现方式来实现:
第一种实现方式,按照先行后列向矩阵R的右下角扩充的扩充方式,该步骤103的任一次聚类过程包括如下步骤:
103a1、获取多媒体数据间相关性的装置从矩阵R中获取子矩阵R1,将矩阵R1中所有元素之和与矩阵R1中元素个数相除,得到矩阵R1的用户对多媒体数据的用户操作密度ρ1。
103a2、获取多媒体数据间相关性的装置根据矩阵R将矩阵R1的列向右扩充一列得到矩阵R2,计算矩阵R2的用户对多媒体数据的用户操作密度ρ2。
若ρ2<ρ1,则转向步骤103a3,若ρ2≥ρ1,则转向步骤103a4。
103a3,若ρ2<ρ1,则获取多媒体数据间相关性的装置保持矩阵R1,根据矩阵R将矩阵R1的行向下扩充一行得到矩阵R3,计算矩阵R3的用户对多媒体数据的用户操作密度ρ3,若ρ3<ρ1,则将矩阵R1作为矩阵R’,若ρ3≥ρ1,则继续对矩阵R3的行进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将所述扩充前的矩阵作为矩阵R’。
103a4、若ρ2≥ρ1,则获取多媒体数据间相关性的装置根据所述矩阵R将矩阵R2的行向下扩充一行得到矩阵R4,计算矩阵R4的用户对多媒体数据的用户操作密度ρ4;
若ρ4<ρ2,则步骤103a4还包括步骤a1,若ρ4≥ρ2,则步骤103a4还包括步骤a2,其中:
a1、若ρ4<ρ2,则获取多媒体数据间相关性的装置保持矩阵R2,根据所述矩阵R将所述矩阵R2的列向右扩充一列得到矩阵R5,计算所述矩阵R5的用户对多媒体数据的用户操作密度ρ5,若ρ5<ρ2,则将所述矩阵R2作为矩阵R’,若ρ5≥ρ2,则继续对所述矩阵R5的列进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将所述扩充前的矩阵作为矩阵R’。
a2、若ρ4≥ρ2,则获取多媒体数据间相关性的装置将矩阵R4作为子矩阵R1,重复上述过程,即步骤103a1-10a4。
第二种实现方式,按照先列后行向矩阵R的右下角扩充的扩充方式,该步骤103的任一次聚类过程包括如下步骤:
103b1、获取多媒体数据间相关性的装置从矩阵R中获取子矩阵R1,将矩阵R1中所有元素之和与矩阵R1中元素个数相除,得到矩阵R1的用户对多媒体数据的用户操作密度ρ1。
103b2、获取多媒体数据间相关性的装置根据矩阵R将矩阵R1的行向下扩充一行得到矩阵R2,计算矩阵R2的用户对多媒体数据的用户操作密度ρ2。
若ρ2<ρ1,则转向步骤103b3,若ρ2≥ρ1,则转向步骤103b4。
103b3,若ρ2<ρ1,则获取多媒体数据间相关性的装置保持矩阵R1,根据矩阵R将矩阵R1的列向右扩充一列得到矩阵R3,计算矩阵R3的用户对多媒体数据的用户操作密度ρ3,若ρ3<ρ1,则将矩阵R1作为矩阵R’,若ρ3≥ρ1,则继续对矩阵R3的列进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将该扩充前的矩阵作为矩阵R’。
103b4、若ρ2≥ρ1,则获取多媒体数据间相关性的装置根据矩阵R将矩阵R2的列向右扩充一列得到矩阵R4,计算矩阵R4的用户对多媒体数据的用户操作密度ρ4;
若ρ4<ρ2,则步骤103b4还包括步骤b1,若ρ4≥ρ2,则步骤103b4还包括步骤b2,其中:
b1、若ρ4<ρ2,则获取多媒体数据间相关性的装置保持矩阵R2,根据矩阵R将矩阵R2的行向下扩充一行得到矩阵R5,计算矩阵R5的用户对多媒体数据的用户操作密度ρ5,若ρ5<ρ2,则将矩阵R2作为矩阵R’,若ρ5≥ρ2,则继续对矩阵R5的行进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将该扩充前的矩阵作为矩阵R’。
b2、若ρ4≥ρ2,则获取多媒体数据间相关性的装置将矩阵R4作为子矩阵R1,重复上述过程,即步骤103b1-10b4。
需要说明书的是,上述第一以及第二种实现方式中的计算矩阵的用户对多媒体数据的用户操作密度时,可以通过以下用户操作密度公式来计算:
该用户操作密度公式为:该公式中的集合W为当前矩阵中的用户集合,集合L为当前矩阵中的音频集合。len(W)表示当前矩阵中所有用户的个数,len(L)表示当前矩阵中所有多媒体数据的个数,该∑wcld表示当前矩阵中所有元素之和。
实施例二:
示例性的,当步骤102中的矩阵R的每个多媒体类型所在列中所有元素累计后的数值从左至右依次递增且该矩阵R中每个用户标识所在行中所有元素累计后的数值由上至下依次递增时,步骤103中获取多媒体数据间相关性的装置对矩阵R进行聚类,得到一个矩阵R’的具体聚类过程可以通过如下两种实现方式来实现:
第一种实现方式,按照先行后列向矩阵R的右上角扩充的扩充方式,该步骤103的任一次聚类过程包括如下步骤:
103c1、获取多媒体数据间相关性的装置从矩阵R中获取子矩阵R1’,将矩阵R1’中所有元素之和与矩阵R1’中元素个数相除,得到矩阵R1’的用户对多媒体数据的用户操作密度ρ1’。
103c2、获取多媒体数据间相关性的装置根据矩阵R将矩阵R1’的列向右扩充一列得到矩阵R2’,计算矩阵R2’的用户对多媒体数据的用户操作密度ρ2’。
若ρ2’<ρ1’,则转向步骤103c3,若ρ2'≥ρ1',则转向步骤103c4。
103c3,若ρ2’<ρ1’,则获取多媒体数据间相关性的装置保持矩阵R1’,根据矩阵R将矩阵R1’的行向上扩充一行得到矩阵R3’,计算矩阵R3’的用户对多媒体数据的用户操作密度ρ3’,若ρ3’<ρ1’,则将矩阵R1’作为矩阵R’,若ρ3'≥ρ1',则继续对矩阵R3’的行进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将扩充前的矩阵作为矩阵R’。
103c4、若ρ2’>ρ1’,则获取多媒体数据间相关性的装置根据矩阵R将矩阵R2’的行向上扩充一行得到矩阵R4’,计算矩阵R4’的用户对多媒体数据的用户操作密度ρ4’;
若ρ4’<ρ2’,则步骤103c4还包括步骤c1,若ρ4≥ρ2,则步骤103c4还包括步骤c2,其中:
c1、若ρ4’<ρ2’,则获取多媒体数据间相关性的装置保持矩阵R2’,根据矩阵R将所述矩阵R2’的列向右扩充一列得到矩阵R5’,计算矩阵R5’的用户对多媒体数据的用户操作密度ρ5’,若ρ5’<ρ2’,则将矩阵R2作为矩阵R’,若ρ5'≥ρ2',则继续对矩阵R5’的列进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将扩充前的矩阵作为矩阵R’。
c2、若ρ4'≥ρ2',则获取多媒体数据间相关性的装置将矩阵R4’作为子矩阵R1’,重复上述过程,即步骤103c1-10c4。
第二种实现方式,按照先列后行向矩阵R的右上角扩充的扩充方式,可以参照实施例一的第二种实现方式,这里不再赘述。
实施例三:
示例性的,这里以表2所示的矩阵R为例,当对矩阵R进行聚类时,若按照先行后列的向矩阵R的右下角扩充的扩充方式进行聚类时,则该聚类过程如下所示:
首先,从矩阵R中选择任一元素为第一次聚类的初始元素,示例性的,若以第一行第一列的U2B1为初始点时,则该矩阵R的第一次聚类过程如下所示:
第一、从U2B1开始,基于用户操作密度公式计算单一U2对B1的操作密度值,该密度值为2/(1)=2;
第二,由于聚类的过程是对属于同一类的媒体数据类型进行聚类的过程,所以开始聚类时用户个数以及多媒体数据类型的个数需大于1,所以此时直接添加第二列的B2以及第二行的U2,因此,U2,与U4在B1、B2上的操作密度为(2+4+3+2)/(2*2)=11/4>2;
第三,添加第三行的用户U1,U2、U4与U1在B1、B2上的操作密度为(2+4+3+2+5+1)/(3*2)=17/6>11/4;
第四,添加第三列的B4,U2、U4与U1在B1、B2、B4上的操作密度为(2+4+4+3+2+5+1)/(3*3)=21/9<11/4,停止向右添加。
第五,添加第四行的用户U5,U5、U2、U4与U1在B1、B2上的操作密度为(2+4+3+2+5+1)/(4*2)=17/8<11/4,停止向下添加。
此时,形成第一个矩阵R’,如表3所示:
表3
聚类出一个矩阵R’,再进行第二次聚类。
第二次聚类:在进行第二次聚类时,该装置可以选择除U2B1以外的其他元素作为第二次聚类的初始元素,也可以按照预先设定的遍历顺序(例如先列后行先左后右,或先行后列先左后右)选择与该U2B1相邻的元素作为第二次聚类的初始元素,若该遍历顺序以先行后列先左后右为例时,则从U2B2开始,重复上述操作,依次扩充用户直接无法扩充时获取本次聚类出的矩阵R’。
第二次聚类完成后,再进行下一次聚类,直到该矩阵R中的所有元素全部作为初始元素聚类完成为止,则获取到该矩阵R的所有矩阵R’。
104、获取多媒体数据间相关性的装置依次对每个矩阵R’进行分解,得到每个矩阵R’对应的矩阵S。
其中,上述的矩阵S的行和列分别表示多媒体数据的标识和多媒体数据类型,上述的矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值。v∈1,2,……,m,u∈1,2,……,k;k为多媒体数据类型个数。
具体的,由于矩阵R’的行和列分别表示多媒体数据的标识和多媒体数据标识,即矩阵R’为用户-多媒体数据矩阵,因此,该装置可以将矩阵R’分解为用户-多媒体数据类型矩阵与多媒体数据-多媒体数据类型矩阵相乘的形式,并根据多媒体数据-多媒体数据类型矩阵来计算多媒体数据间相关度。
105、获取多媒体数据间相关性的装置根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出第一多媒体数据与第二多媒体数据间的第一相关度。
示例性的,该装置根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S以及相关度计算公式,计算出第一多媒体数据与所述第二多媒体数据间的相关度。
其中,上述的相关度计算公式为:h为包含所述第一多媒体数据标识以及第二多媒体数据标识的矩阵S的个数,a为第一多媒体数据标识,b为第二多媒体数据标识,x∈1,2,……,h;y∈1,2,……,k。
可选的,为了更加细致全面的挖掘音频信息的关联度,本发明实施例还可以通过以下两者实现方式计算出相关度,具体的:
第一种实现方式,在步骤105之后,还包括:
105a、获取多媒体数据间相关性的装置根据基于第一多媒体数据所属多媒体数据类型集合以及第二多媒体数据所属多媒体数据类型集合确定出的第一多媒体数据与第二多媒体数据间的第二相关度,以及第一多媒体数据与第二多媒体数据间的第一相关度,计算第一多媒体数据与第二多媒体数据间的相关度。
示例性的,若fab为多媒体数据a与多媒体数据b的第一相关度,pab为多媒体数据a与多媒体数据b的第二相关度,则第一多媒体数据与第二多媒体数据间的相关度Sab可以通过以下公式来计算:Sab=λ(fab)2+(1-λ)(pab)2,其中,上述的fab为多媒体数据a与多媒体数据b的第一相关度,pab为多媒体数据a与多媒体数据b的第二相关度,而上述的λ参数的选择可以根据pab与fab的比值与具体的运营措施来进行选定。
第二种实现方式,在步骤105之后,还包括:
105b1、获取多媒体数据间相关性的装置根据基于第一多媒体数据所属多媒体数据类型集合以及第二多媒体数据所属多媒体数据类型集合确定出的第一多媒体数据与第二多媒体数据间的第二相关度,以及第一多媒体数据与第二多媒体数据间的第一相关度和可信度计算公式,计算第一多媒体数据与第二多媒体数据间的第一相关度的可信度。
其中,上述的可信度计算公式为:a为第一多媒体数据标识,b为第二多媒体数据标识。该公式中的fab为多媒体数据a与多媒体数据b的第一相关度,该公式中的pab为多媒体数据a与多媒体数据b的第二相关度。具体的,上述的可信度confab代表多媒体数据a和b的基于多媒体数据类型与基于用户群体响应一致性的关系,取值范围为(0,1),两者越一致,置信度量越接近1,反之越接近0。
105b2、多媒体数据间相关度的装置基于可信度、第一相关度以及第二相关度,计算出第一多媒体数据与第二多媒体数据间的相关度。
示例性的,该装置在计算第一多媒体数据与第二多媒体数据间的相关度Sab时,可以基于以下公式来计算:
例如:Sab=confab((fab)2+(pab)2),或者,Sab=confab((fab)2*(pab)2),或者,Sab=confab(fab*pab)。需要说明的是,上述的三个公式在这里仅仅是一种示例,其他只要基于第一多媒体数据与第二多媒体数据间的第一相关度以及第二相关度计算出第一多媒体数据与第二多媒体数据间的相关度的公式都属于本发明所保护的范围。此外,上述的Sab体现的是多媒体数据a和b的基于多媒体数据类型与基于用户群体响应一致性的相关性,即多媒体数据a和b间的多媒体数据类型与多媒体数据a和b间所属的用户群体的相关性越一致,Sab的值越大。
本实施例中的每个多媒体数据的多媒体数据类型可以分为多级多媒体数据类型,例如,对于音频来讲,一级多媒体数据类型可以为语言,二级多媒体数据类型可以为地区,三级多媒体数据类型可以为歌曲风格,其中,本实施例中的各多媒体数据每级多媒体数据类型不仅限于一类,每类不限于一个多媒体数据类型。示例性的,假设某一歌曲i的一级多媒体数据类型集合为Mione=[O1,O2,……],二级多媒体数据类型集合为Mitwo=[T1,T2,……],三级多媒体数据类型集合为Mithree=[W1,W2,……],对应的,总的多媒体数据类型集合为:Mi=[O1,O2,……T1,T2,……W1,W2,……]。基于第二相关度计算公式:Pab=α(Maone∩Mbone)+β(Matwo∩Mbtwo)+γ(Mathree∩Mbthree),其中,α,β,γ为常数,Maone∩Mbone是指多媒体数据a与多媒体数据b中相同的一级多媒体数据类型个数,同理Matwo∩Mbtwo是指多媒体数据a与多媒体数据b中相同的二级多媒体数据类型个数,Mathree∩Mbthree是指多媒体数据a与多媒体数据b中相同的三级多媒体数据类型个数。基于上述内容可知,两个多媒体数据间的第二相关度是基于这两个多媒体数据本身固有的多级多媒体数据类型,即从两个多媒体数据本身所属的多媒体数据类型间的相似程度来确定出的,这样将两个通过不同层面计算出相似度进行结合,从而对音频内容的相关性挖掘更细致。
进一步的,通过本发明所提供的获取多媒体数据间相关性的方法所计算出的多媒体数据间的相关性,不仅可以应用于智能推荐系统,使得该智能推荐系统可以基于该结合有用户行为和应用场景特性的多媒体数据间的相关度为用户推荐其喜欢的多媒体数据;也可以应用于其他智能系统,为其他智能系统提供数据服务,使其可以根据该结合有用户行为和应用场景特性的多媒体数据间的相关度进行数据整合或数据处理。
本发明实施例提供的获取多媒体数据间相关性的方法,根据多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R,该矩阵R的行和列分别表示用户的标识和多媒体数据的标识,用户操作的数字标识用于表示用户喜好度,然后对矩阵R进行聚类,得到所有矩阵R’,依次对每个矩阵R’进行分解,得到每个矩阵R’的矩阵S,该矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值,最后,根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出第一多媒体数据与第二多媒体数据间的第一相关度。
相比于现有技术仅根据音频的固有标签来确定的音频相关度,本申请提供的方案中的矩阵R是根据预设用户操作集中所有用户操作的数字标识以及用户对多媒体数据的历史操作信息得到的,由于用户对多媒体数据所执行的用户操作是多媒体数据在实际应用场景中场景特性的直接体现,因此,上述过程所得到的矩阵R能够充分的展现多媒体数据间在实际的应用场景中的关联度,这样在采用聚类方法对矩阵R进行聚类时,便可将大量的多媒体数据划分为多个具有场景关联聚集效果的用户群体矩阵R’,然后,对每个用户群体矩阵R’进行分解,得到每个用户群体内每个多媒体数据属于各个多媒体数据类型的权重值,最后,再利用上述的每个用户群体内的每个多媒体数据属于各个多媒体数据类型的权重值来计算多媒体数据间的相关度,由于本申请在计算多媒体数据间的相关度时预先将现实场景中用户对多媒体数据的用户操作进行了聚类,使得具有场景关联性的多媒体数据聚集在一起,充分考虑了多媒体数据在实际应用场景中的场景特性,从而为智能推荐系统及其他智能系统提供了结合用户行为和应用场景的音频间的关联性数据。此外,为了提高第一多媒体数据与所述第二多媒体数据间的相关度的准确度,本实施例两个多媒体数据间的第二相关度是基于这两个多媒体数据本身固有的多级多媒体数据类型(即从两个多媒体数据本身所属的多媒体数据类型间的相似程度)来确定出的两个多媒体数据间的第二相关度,这样将计算出的第二相关度与之前基于用户对多媒体数据所执行的用户操作的历史记录所计算出的第一相关度进行结合,来对第一相关度进行进一步的加成。
本发明实施例提供另一种获取多媒体数据间相关性的方法,具体的,如图2所示,该方法具体包括如下步骤:
201、获取多媒体数据间相关性的装置获取所有与目标多媒体数据间的相关度大于预定阈值的待推荐多媒体数据标识。
示例性的,上述的所有与目标多媒体数据间的相关度可以为上一实施例步骤105中描述的两多媒体数据间的第一相关度,也可以是步骤105a或者步骤105b2中描述的两多媒体数据间的相关度。具体的,多媒体数据间相关度的装置首先会确定出目标多媒体数据,该目标多媒体数据可以是用户感兴趣的多媒体数据,也可以是该多媒体数据间相关度的装置根据目标用户的标识从矩阵R中确定出目标用户对应的目标多媒体数据的标识。示例性的,该目标用户对应的目标多媒体数据为用户观看过的多媒体数据,同时该目标用户对该目标多媒体数据所执行的用户操作为能够反映该用户喜爱该多媒体数据的用户操作,例如,点播,分享等操作。
202、多媒体数据间相关度的装置对每个待推荐多媒体数据与目标多媒体数据间的第一相关度进行排序,并根据所述目标用户需要推荐的多媒体数据的个数确定对所述目标用户推荐的多媒体数据。
示例性的,多媒体数据间相关度的装置将所有待推荐多媒体数据与目标多媒体数据间的第一相关度进行排序,降序插入到预设链表中,该预设链表包含的最大元素个数与预设相似用户个数相同。
本发明实施例提供的获取多媒体数据间相关性的方法,根据多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R,该矩阵R的行和列分别表示用户的标识和多媒体数据的标识,用户操作的数字标识用于表示用户喜好度,然后对矩阵R进行聚类,得到所有矩阵R’,依次对每个矩阵R’进行分解,得到每个矩阵R’的矩阵S,该矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值,最后,根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出第一多媒体数据与第二多媒体数据间的第一相关度。
相比于现有技术仅根据音频的固有标签来确定的音频相关度,本申请提供的方案中的矩阵R是根据预设用户操作集中每个用户操作的数字标识以及用户对多媒体数据的历史操作信息得到的,由于用户对多媒体数据所执行的用户操作是多媒体数据在实际应用场景中场景特性的直接体现,因此,上述过程所得到的矩阵R能够充分的展现多媒体数据间在实际的应用场景中的关联度,这样在采用聚类方法对矩阵R进行聚类时,便可将大量的多媒体数据划分为多个具有场景关联聚集效果的用户群体矩阵R’,然后,对每个用户群体矩阵R’进行分解,得到每个用户群体内每个多媒体数据属于各个多媒体数据类型的权重值,最后,再利用上述的每个用户群体内的每个多媒体数据属于各个多媒体数据类型的权重值来计算多媒体数据间的相关度,由于本申请在计算多媒体数据间的相关度时预先将现实场景中用户对多媒体数据的用户操作进行了聚类,使得具有场景关联性的多媒体数据聚集在一起,充分考虑了多媒体数据在实际应用场景中的场景特性,从而为智能推荐系统提供结合用户行为和应用场景的音频间的关联性数据,使其可以更准确的为用户推荐感兴趣的多媒体数据。
本发明的实施例提供一种获取多媒体数据间相关性的装置,该装置用于实现上述的获取多媒体数据间相关性的方法,如图3所示,该装置3包括:获取模块31、生成模块32、聚类模块33、分解模块34以及第一计算模块35,其中:
获取模块31,用于获取多媒体数据的属性信息,属性信息包括用户的标识、用户所操作的多媒体数据的标识以及用户对多媒体数据的历史操作信息。
生成模块32,用于根据获取模块31得到的多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R,该矩阵R的行和列分别表示用户的标识和多媒体数据的标识,该用户操作的数字标识用于表示用户喜好度。
聚类模块33,用于对生成模块32生成的矩阵R进行聚类,得到所有矩阵R’,矩阵R’为矩阵R’的子矩阵。
分解模块34,用于依次对每个聚类模块33得到的矩阵R’进行分解,得到每个矩阵R’对应的矩阵S,矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值;v∈1,2,……,m,u∈1,2,……,k,m为多媒体数据个数,k为多媒体数据类型个数。
第一计算模块35,用于根据所有包含第一多媒体数据标识以及第二多媒体数据标识的分解模块34分解出的矩阵S,计算出第一多媒体数据与第二多媒体数据间的第一相关度。
示例性的,上述的矩阵R的元素Rij为用户i在预定时间内对多媒体数据j执行最多的用户操作的数字标识;其中,i∈1,2,……,n;j∈1,2,……,m;n为用户个数;矩阵R的每列中所有元素累计后的数值从左至右依次递减且矩阵R中每行中所有元素累计后的数值由上至下依次递减,或者,矩阵R的每列中所有元素累计后的数值从左至右依次递加且矩阵R中每行中所有元素累计后的数值由上至下依次递加;矩阵R’中所有元素之和与矩阵R’中所有元素的个数之间的比值满足聚类条件。
可选的,如图4所示,该装置还包括:第二计算模块36、第三计算模块37,其中:
第二计算模块36,用于根据基于第一多媒体数据所属多媒体数据类型集合以及第二多媒体数据所属多媒体数据类型集合确定出的第一多媒体数据与第二多媒体数据间的第二相关度,以及第一计算模块35计算出的第一多媒体数据与第二多媒体数据间的第一相关度和可信度计算公式,计算第一多媒体数据与第二多媒体数据间的第一相关度的可信度。
第三计算模块37,用于基于第二计算模块36计算出的可信度、第一相关度以及第二相关度,计算出第一多媒体数据与第二多媒体数据间的相关度。
其中,可信度计算公式为:fab为第一相关度,pab为第二相关度,a为第一多媒体数据标识,b为第二多媒体数据标识。
可选的,如图4所示,当第一多媒体数据为目标用户对应的目标多媒体数据时,该装置3还包括:确定模块38、推荐模块39,其中:
确定模块38,用于获取所有与目标多媒体数据间的第一相关度大于预定阈值的待推荐多媒体数据标识。
推荐模块39,用于对每个确定模块38确定出的待推荐多媒体数据与目标多媒体数据间的第一相关度进行排序,并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。
或者,若确定模块38是根据第三计算模块37得出的所有与目标多媒体数据间的相关度,来确定待推荐多媒体数据标识时,该推荐模块39,还用于对每个确定模块38确定出的待推荐多媒体数据与目标多媒体数据间的相关度进行排序,并根据目标用户需要推荐的多媒体数据的个数确定对目标用户推荐的多媒体数据。
可选的,第一计算模块35具体用于:
根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S以及相关度计算公式,计算出第一多媒体数据与第二多媒体数据间的相关度;
其中,相关度计算公式为:h为包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S的个数,a为第一多媒体数据标识,b为第二多媒体数据标识,ay表示多媒体数据a属于多媒体数据类型y的权重值,by表示多媒体数据b属于多媒体数据类型y的权重值,x∈1,2,……,h;y∈1,2,……,k,k≥h。
可选的,聚类模块33具体用于:
从矩阵R中获取子矩阵R1,将矩阵R1中所有元素之和与矩阵R1中元素个数相除,计算出矩阵R1的用户对多媒体数据的用户操作密度ρ1;
根据矩阵R将矩阵R1的列向右扩充一列得到矩阵R2,计算矩阵R2的用户对多媒体数据的用户操作密度ρ2;
若ρ2<ρ1,保持矩阵R1,根据矩阵R将矩阵R1的行向下扩充一行得到矩阵R3,计算矩阵R3的用户对多媒体数据的用户操作密度ρ3,若ρ3<ρ1,则将矩阵R1作为矩阵R’,若ρ3≥ρ1,则继续对矩阵R3的行进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将扩充前的矩阵作为矩阵R’;
若ρ2≥ρ1,则根据矩阵R将矩阵R2的行向下扩充一行得到矩阵R4,计算矩阵R4的用户对多媒体数据的用户操作密度ρ4;
若ρ4<ρ2,则保持矩阵R2,根据矩阵R将矩阵R2的列向右扩充一列得到矩阵R5,计算矩阵R5的用户对多媒体数据的用户操作密度ρ5,若ρ5<ρ2,则将矩阵R2作为矩阵R’,若ρ5≥ρ2,则继续对矩阵R5的列进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将所述扩充前的矩阵作为矩阵R’;
若ρ4≥ρ2,则将矩阵R4作为子矩阵R1,重复上述过程。
可选的,聚类模块33具体用于:
从矩阵R中获取子矩阵R1,将矩阵R1中所有元素之和与矩阵R1中元素个数相除,计算出矩阵R1的用户对多媒体数据的用户操作密度ρ1;
根据矩阵R将矩阵R1的列扩充一行得到矩阵R2,计算矩阵R2的用户对多媒体数据的用户操作密度ρ2;
若ρ2<ρ1,保持矩阵R1,根据矩阵R将矩阵R1的列向右扩充一列得到矩阵R3,计算矩阵R3的用户对多媒体数据的用户操作密度ρ3,若ρ3<ρ1,则将矩阵R1作为矩阵R’,若ρ3≥ρ1,则继续对矩阵R3的行进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将该扩充前的矩阵作为矩阵R’;
若ρ2≥ρ1,则根据矩阵R将矩阵R2的列向右扩充一列得到矩阵R4,计算矩阵R4的用户对多媒体数据的用户操作密度ρ4;
若ρ4<ρ2,则保持矩阵R2,根据矩阵R将矩阵R2的行向下扩充一行得到矩阵R5,计算矩阵R5的用户对多媒体数据的用户操作密度ρ5,若ρ5<ρ2,则将矩阵R2作为矩阵R’,若ρ5≥ρ2,则继续对矩阵R5的行进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将该扩充前的矩阵作为矩阵R’;
若ρ4≥ρ2,则将矩阵R4作为子矩阵R1,重复上述过程。
本发明实施例提供的获取多媒体数据间相关性的方法,根据多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R,该矩阵R的行和列分别表示用户的标识和多媒体数据的标识,用户操作的数字标识用于表示用户喜好度,然后对矩阵R进行聚类,得到所有矩阵R’,依次对每个矩阵R’进行分解,得到每个矩阵R’的矩阵S,该矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值,最后,根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出第一多媒体数据与第二多媒体数据间的第一相关度。
相比于现有技术仅根据音频的固有标签来确定的音频相关度,本申请提供的方案中的矩阵R是根据预设用户操作集中所有用户操作的数字标识以及用户对多媒体数据的历史操作信息得到的,由于用户对多媒体数据所执行的用户操作是多媒体数据在实际应用场景中场景特性的直接体现,因此,上述过程所得到的矩阵R能够充分的展现多媒体数据间在实际的应用场景中的关联度,这样在采用聚类方法对矩阵R进行聚类时,便可将大量的多媒体数据划分为多个具有场景关联聚集效果的用户群体矩阵R’,然后,对每个用户群体矩阵R’进行分解,得到每个用户群体内每个多媒体数据属于各个多媒体数据类型的权重值,最后,再利用上述的每个用户群体内的每个多媒体数据属于各个多媒体数据类型的权重值来计算多媒体数据间的相关度,由于本申请在计算多媒体数据间的相关度时预先将现实场景中用户对多媒体数据的用户操作进行了聚类,使得具有场景关联性的多媒体数据聚集在一起,充分考虑了多媒体数据在实际应用场景中的场景特性,从而为智能推荐系统提供结合用户行为和应用场景的音频间的关联性数据,使其可以更准确的为用户推荐感兴趣的多媒体数据。
此外,为了提高第一多媒体数据与所述第二多媒体数据间的相关度的准确度,本实施例两个多媒体数据间的第二相关度是基于这两个多媒体数据本身固有的多级多媒体数据类型(即从两个多媒体数据本身所属的多媒体数据类型间的相似程度)来确定出的两个多媒体数据间的第二相关度,这样将计算出的第二相关度与之前基于用户对多媒体数据所执行的用户操作的历史记录所计算出的第一相关度进行结合,来对第一相关度进行进一步的加成。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (11)
1.一种获取多媒体数据间相关性的方法,其特征在于,包括:
获取多媒体数据的属性信息,所述属性信息包括用户的标识、用户所操作的多媒体数据的标识以及用户对多媒体数据的历史操作信息;
根据所述多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R,所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识,所述用户操作的数字标识用于表示用户喜好度;
对所述矩阵R进行聚类,得到所有矩阵R’,所述矩阵R’为所述矩阵R的子矩阵;
依次对每个矩阵R’进行分解,得到每个矩阵R’对应的矩阵S,所述矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值,v∈1,2,……,m,u∈1,2,……,k,m为多媒体数据个数,k为多媒体数据类型个数;
根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出所述第一多媒体数据与所述第二多媒体数据间的第一相关度。
2.根据权利要求1所述的方法,其特征在于,所述矩阵R的元素Rij为用户i在预定时间内对多媒体数据j执行最多的用户操作的数字标识,i∈1,2,……,n,j∈1,2,……,m,n为用户个数;所述矩阵R的每列中所有元素累计后的数值从左至右依次递减且所述矩阵R中每行中所有元素累计后的数值由上至下依次递减,或者,所述矩阵R的每列中所有元素累计后的数值从左至右依次递加且所述矩阵R中每行中所有元素累计后的数值由上至下依次递加;所述矩阵R’中所有元素之和与所述矩阵R’中所有元素的个数之间的比值满足聚类条件。
3.根据权利要求1所述的方法,其特征在于,所述根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出所述第一多媒体数据与所述第二多媒体数据间的第一相关度之后,所述方法还包括:
根据基于所述第一多媒体数据所属多媒体数据类型集合以及所述第二多媒体数据所属多媒体数据类型集合确定出的所述第一多媒体数据与所述第二多媒体数据间的第二相关度,以及所述第一多媒体数据与所述第二多媒体数据间的第一相关度和可信度计算公式,计算所述第一多媒体数据与所述第二多媒体数据间的第一相关度的可信度;
基于所述可信度、所述第一相关度以及所述第二相关度,计算出所述第一多媒体数据与所述第二多媒体数据间的相关度;
其中,所述可信度计算公式为:所述fab为第一相关度,所述pab为第二相关度,a为第一多媒体数据标识,b为第二多媒体数据标识。
4.根据权利要求1所述的方法,其特征在于,当所述第一多媒体数据为目标用户对应的目标多媒体数据时,所述根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出所述第一多媒体数据与所述第二多媒体数据间的第一相关度之后,所述方法还包括:
获取所有与所述目标多媒体数据间的第一相关度大于预定阈值的待推荐多媒体数据标识;
对每个待推荐多媒体数据与所述目标多媒体数据间的第一相关度进行排序,并根据所述目标用户需要推荐的多媒体数据的个数确定对所述目标用户推荐的多媒体数据。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所有包含第一多媒体数据标识以及第二多媒体数据标识的矩阵S,计算出所述第一多媒体数据与所述第二多媒体数据间的第一相关度具体包括:
根据所有包含所述第一多媒体数据标识以及第二多媒体数据标识的矩阵S以及相关度计算公式,计算出所述第一多媒体数据与所述第二多媒体数据间的相关度;
其中,所述相关度计算公式为:所述h为包含所述第一多媒体数据标识以及第二多媒体数据标识的矩阵S的个数,a为第一多媒体数据标识,b为第二多媒体数据标识,ay表示多媒体数据a属于多媒体数据类型y的权重值,by表示多媒体数据b属于多媒体数据类型y的权重值,x∈1,2,……,h;y∈1,2,……,k,k≥h。
6.根据权利要求2所述的方法,其特征在于,当所述矩阵R的每列中所有元素累计后的数值从左至右依次递减且所述矩阵R中每行中所有元素累计后的数值由上至下依次递减时,所述对所述矩阵R进行聚类,得到所有矩阵R’具体包括:
从所述矩阵R中获取子矩阵R1,将所述矩阵R1中所有元素之和与所述矩阵R1中元素个数相除,计算出所述矩阵R1的用户对多媒体数据的用户操作密度ρ1;
根据所述矩阵R将所述矩阵R1的列向右扩充一列得到矩阵R2,计算所述矩阵R2的用户对多媒体数据的用户操作密度ρ2;
若ρ2<ρ1,保持矩阵R1,根据所述矩阵R将所述矩阵R1的行向下扩充一行得到矩阵R3,计算所述矩阵R3的用户对多媒体数据的用户操作密度ρ3,若ρ3<ρ1,则将所述矩阵R1作为矩阵R’,若ρ3≥ρ1,则继续对所述矩阵R3的行进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将所述扩充前的矩阵作为矩阵R’;
若ρ2≥ρ1,则根据所述矩阵R将所述矩阵R2的行向下扩充一行得到矩阵R4,计算所述矩阵R4的用户对多媒体数据的用户操作密度ρ4;
若ρ4<ρ2,则保持矩阵R2,根据所述矩阵R将所述矩阵R2的列向右扩充一列得到矩阵R5,计算所述矩阵R5的用户对多媒体数据的用户操作密度ρ5,若ρ5<ρ2,则将所述矩阵R2作为矩阵R’,若ρ5≥ρ2,则继续对所述矩阵R5的列进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将所述扩充前的矩阵作为矩阵R’;
若ρ4≥ρ2,则将所述矩阵R4作为所述子矩阵R1,重复上述过程。
7.根据权利要求2所述的方法,其特征在于,当所述矩阵R的每列中所有元素累计后的数值从左至右依次递减且所述矩阵R中每行中所有元素累计后的数值由上至下依次递减时,所述对所述矩阵R进行聚类,得到所有矩阵R’具体包括:
从所述矩阵R中获取子矩阵R1,将所述矩阵R1中所有元素之和与所述矩阵R1中元素个数相除,计算出所述矩阵R1的用户对多媒体数据的用户操作密度ρ1;
根据所述矩阵R将所述矩阵R1的行向下扩充一行得到矩阵R2,计算所述矩阵R2的用户对多媒体数据的用户操作密度ρ2;
若ρ2<ρ1,保持矩阵R1,根据所述矩阵R将所述矩阵R1的列向右扩充一列得到矩阵R3,计算所述矩阵R3的用户对多媒体数据的用户操作密度ρ3,若ρ3<ρ1,则将所述矩阵R1作为矩阵R’,若ρ3≥ρ1,则继续对所述矩阵R3的行进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将所述扩充前的矩阵作为矩阵R’;
若ρ2≥ρ1,则根据所述矩阵R将所述矩阵R2的列向右扩充一列得到矩阵R4,计算所述矩阵R4的用户对多媒体数据的用户操作密度ρ4;
若ρ4<ρ2,则保持矩阵R2,根据所述矩阵R将所述矩阵R2的行向下扩充一行得到矩阵R5,计算所述矩阵R5的用户对多媒体数据的用户操作密度ρ5,若ρ5<ρ2,则将所述矩阵R2作为矩阵R’,若ρ5≥ρ2,则继续对所述矩阵R5的行进行扩充,直到扩充后的矩阵的用户对多媒体数据的用户操作密度小于扩充前的矩阵的用户对多媒体数据的用户操作密度为止,并将所述扩充前的矩阵作为矩阵R’;
若ρ4≥ρ2,则将所述矩阵R4作为所述子矩阵R1,重复上述过程。
8.一种获取多媒体数据间相关性的装置,其特征在于,包括:
获取模块,用于获取多媒体数据的属性信息,所述属性信息包括用户的标识、用户所操作的多媒体数据的标识以及用户对多媒体数据的历史操作信息;
生成模块,用于根据所述获取模块得到的所述多媒体数据的属性信息以及预设用户操作集中所有用户操作的数字标识得到矩阵R,所述矩阵R的行和列分别表示用户的标识和多媒体数据的标识,所述用户操作的数字标识用于表示用户喜好度;
聚类模块,用于对所述生成模块生成的所述矩阵R进行聚类,得到所有矩阵R’,所述矩阵R’为所述矩阵R的子矩阵;
分解模块,用于依次对每个所述聚类模块得到的矩阵R’进行分解,得到每个矩阵R’对应的矩阵S,所述矩阵S的元素Svu表示多媒体数据v属于多媒体数据类型u的权重值,u,v∈1,2,……,k,所述k为多媒体数据类型个数;
第一计算模块,用于根据所有包含第一多媒体数据标识以及第二多媒体数据标识的所述分解模块分解出的矩阵S,计算出所述第一多媒体数据与所述第二多媒体数据间的第一相关度。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二计算模块,用于根据基于所述第一多媒体数据所属多媒体数据类型集合以及所述第二多媒体数据所属多媒体数据类型集合确定出的所述第一多媒体数据与所述第二多媒体数据间的第二相关度,以及所述第一计算模块计算出的所述第一多媒体数据与所述第二多媒体数据间的第一相关度和可信度计算公式,计算所述第一多媒体数据与所述第二多媒体数据间的第一相关度的可信度;
第三计算模块,用于基于所述第二计算模块计算出的所述可信度、所述第一相关度以及所述第二相关度,计算出所述第一多媒体数据与所述第二多媒体数据间的相关度;
其中,所述可信度计算公式为:所述fab为第一相关度,所述pab为第二相关度,a为第一多媒体数据标识,b为第二多媒体数据标识。
10.根据权利要求8所述的装置,其特征在于,当所述第一多媒体数据为目标用户对应的目标多媒体数据时,所述装置还包括:
确定模块,用于获取所有与所述目标多媒体数据间的第一相关度大于预定阈值的待推荐多媒体数据标识;
推荐模块,用于对每个所述确定模块确定出的所述待推荐多媒体数据与所述目标多媒体数据间的第一相关度进行排序,并根据所述目标用户需要推荐的多媒体数据的个数确定对所述目标用户推荐的多媒体数据。
11.根据权利要求8至10任一项所述的装置,其特征在于,所述第一计算模块具体用于:
根据所有包含所述第一多媒体数据标识以及第二多媒体数据标识的矩阵S以及相关度计算公式,计算出所述第一多媒体数据与所述第二多媒体数据间的相关度;
其中,所述相关度计算公式为:所述h为包含所述第一多媒体数据标识以及第二多媒体数据标识的矩阵S的个数,a为第一多媒体数据标识,b为第二多媒体数据标识,ay表示多媒体数据a属于多媒体数据类型y的权重值,by表示多媒体数据b属于多媒体数据类型y的权重值,x∈1,2,……,h;y∈1,2,……,k,k≥h。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510867820.5A CN105512252B (zh) | 2015-12-01 | 2015-12-01 | 一种获取多媒体数据间相关性的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510867820.5A CN105512252B (zh) | 2015-12-01 | 2015-12-01 | 一种获取多媒体数据间相关性的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105512252A CN105512252A (zh) | 2016-04-20 |
CN105512252B true CN105512252B (zh) | 2019-03-05 |
Family
ID=55720234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510867820.5A Active CN105512252B (zh) | 2015-12-01 | 2015-12-01 | 一种获取多媒体数据间相关性的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105512252B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804492B (zh) * | 2018-03-27 | 2022-04-29 | 阿里巴巴(中国)有限公司 | 用于多媒体对象推荐的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559197A (zh) * | 2013-09-23 | 2014-02-05 | 浙江大学 | 基于上下文预过滤的实时音乐推荐方法 |
CN104794635A (zh) * | 2015-04-17 | 2015-07-22 | 南京大学 | 基于协同过滤推荐算法的机型推荐系统 |
CN104933135A (zh) * | 2015-06-12 | 2015-09-23 | 海信集团有限公司 | 一种多媒体数据的聚类方法及装置 |
CN105095442A (zh) * | 2015-07-23 | 2015-11-25 | 海信集团有限公司 | 一种多媒体数据的推荐方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8484226B2 (en) * | 2011-07-09 | 2013-07-09 | Yahoo! Inc. | Media recommendations for a social-software website |
US8799296B2 (en) * | 2012-02-23 | 2014-08-05 | Borislav Agapiev | Eigenvalue ranking of social offerings using social network information |
-
2015
- 2015-12-01 CN CN201510867820.5A patent/CN105512252B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559197A (zh) * | 2013-09-23 | 2014-02-05 | 浙江大学 | 基于上下文预过滤的实时音乐推荐方法 |
CN104794635A (zh) * | 2015-04-17 | 2015-07-22 | 南京大学 | 基于协同过滤推荐算法的机型推荐系统 |
CN104933135A (zh) * | 2015-06-12 | 2015-09-23 | 海信集团有限公司 | 一种多媒体数据的聚类方法及装置 |
CN105095442A (zh) * | 2015-07-23 | 2015-11-25 | 海信集团有限公司 | 一种多媒体数据的推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105512252A (zh) | 2016-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106155522B (zh) | 会话数据处理、知识库建立、优化、交互方法及装置 | |
CN104484431B (zh) | 一种基于领域本体的多源个性化新闻网页推荐方法 | |
CN107220365A (zh) | 基于协同过滤与关联规则并行处理的精准推荐系统及方法 | |
Kagita et al. | Virtual user approach for group recommender systems using precedence relations | |
CN103338403B (zh) | 广播电视系统及该系统中的个性节目推荐方法 | |
US9152709B2 (en) | Cross-domain topic space | |
CN104199875A (zh) | 一种搜索推荐方法及装置 | |
CN106131703A (zh) | 一种视频推荐的方法和终端 | |
CN106682213A (zh) | 基于Hadoop平台的物联网任务订制方法及系统 | |
WO2009082046A1 (en) | System and method for analysis of information | |
CN104111941A (zh) | 信息展示的方法及设备 | |
CN103455487A (zh) | 一种搜索词的提取方法及装置 | |
CN112446727B (zh) | 广告触发的方法、装置、设备及计算机可读存储介质 | |
CN110008397A (zh) | 一种推荐模型训练方法及装置 | |
CN105426550A (zh) | 一种基于用户质量模型的协同过滤标签推荐方法及系统 | |
EP2831771A1 (en) | Data processing, apparatus and methods | |
CN109597899A (zh) | 媒体个性化推荐系统的优化方法 | |
CN110032678A (zh) | 业务资源推送方法和装置、存储介质和电子装置 | |
Mythily et al. | Clustering models for data stream mining | |
CN112015908A (zh) | 知识图谱的构建方法及系统、查询方法及系统 | |
CN104008204A (zh) | 一种动态的多维情境感知电影推荐系统及其实现方法 | |
CN106156351A (zh) | 多媒体资源推荐信息生成方法及装置 | |
CN106156113A (zh) | 一种视频推荐的方法、系统及电子设备 | |
CN110275744B (zh) | 一种用于制作可缩放用户界面的方法及系统 | |
CN105608118B (zh) | 基于用户交互信息的结果推送方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |