CN107341242A - 一种标签推荐方法及系统 - Google Patents

一种标签推荐方法及系统 Download PDF

Info

Publication number
CN107341242A
CN107341242A CN201710544732.0A CN201710544732A CN107341242A CN 107341242 A CN107341242 A CN 107341242A CN 201710544732 A CN201710544732 A CN 201710544732A CN 107341242 A CN107341242 A CN 107341242A
Authority
CN
China
Prior art keywords
label
matrix
item
user
item collections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710544732.0A
Other languages
English (en)
Inventor
李凤莲
张雪英
李彦民
焦江丽
田玉楚
王燕
黄丽霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201710544732.0A priority Critical patent/CN107341242A/zh
Publication of CN107341242A publication Critical patent/CN107341242A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种标签推荐方法及系统。该方法包括:获取所有用户对所有项目标注的标签总集合;利用Apriori算法寻找系统标签总集合中的最大频繁项集;将系统最大频繁项集设定为新的标识;将系统第一标签集合中最大频繁项集替换为系统新的标识,形成第二标签集合;将用户、项目、第二标签集合相互对应,生成用户‑项目‑标签的三维张量数据,并将三者的关联权重设为1;利用HOSVD算法对系统三维张量数据进行分解,得到每个用户对每个项目标注的标签的权重值;向第一用户推荐权重值高的标签,供该用户对项目标注标签使用,该用户为第一次对该项目标注标签的用户。采用本发明的方法或系统,可以使标签分类更加细致,使推荐系统准确性获得提高,命中率逐渐增大。

Description

一种标签推荐方法及系统
技术领域
本发明涉及个性化推荐领域,特别是涉及一种标签推荐方法及系统。
背景技术
现如今,Web技术的发展突飞猛进,用户可以在多种多样的网络平台上对一个项目标注多个不同的标签,尤其是在各个平台的推荐系统应用方面,系统通过标签来探索每个用户的喜好特征,当用户对未标注过标签的项目标注标签时,可以更有效地向用户推荐合适的标签供用户标注,帮助用户快速找到自己满意的标签。项目是指用户标注标签的对象,例如电影、视频、文章等。以往的推荐算法大多针对的是基于二元关系的用户-项目的评分矩阵数据进行研究,随着标签数据的加入,由用户、项目和标签组成的三元关系数据处理成为了近年来推荐算法研究的重点。
由于推荐系统中用户、项目和标签数量的与日俱增,三者组成的权值数据规模呈指数速度增长,数据稀疏性逐渐变大,由此用于处理该数据的推荐算法的推荐准确性降低,成为推荐技术需解决的最主要的问题。
发明内容
本发明的目的是提供一种标签推荐方法及系统,以解决现有技术中推荐算法推荐准确性低的问题。
为实现上述目的,本发明提供了如下方案:
一种标签推荐方法,所述方法包括:
依次获取所有用户对所有项目标注的标签总集合,所述标签总集合包括所有的第一标签集合,所述第一标签集合为一个用户对一个项目标注的标签的集合,所述第一标签集合包括M个标签,M为大于0的整数;
利用Apriori算法寻找所述标签总集合中的最大频繁项集;
将所述最大频繁项集设定为新的标识;
将所述第一标签集合中所述最大频繁项集替换为所述新的标识,形成第二标签集合;
将用户、项目、第二标签集合相互对应,生成用户-项目-标签的三维张量数据,并将三者的关联权重设为1;
利用HOSVD算法对所述三维张量数据进行分解,得到每个用户对每个项目标注的标签的权重值;
根据所述标签权重值,向第一用户推荐标签,供所述第一用户对项目标注标签使用,所述第一用户为第一次对所述第一项目标注标签的用户,所述第一项目为所有项目中的任意一个项目。
可选的,所述利用Apriori算法寻找所述标签总集合中的最大频繁项集之前,还包括:
将标签数据转换成适用于Apriori算法计算的格式。
可选的,所述利用Apriori算法寻找所述标签总集合中的最大频繁项集,具体包括:
设定最小支持度,所述最小支持度为标签出现的频率的设定阈值;
将所有第一标签集合中出现频率大于所述最小支持度的标签生成频繁一项集,所述频繁一项集中每个元素为一个标签;
将两个不同的频繁一项集合并为一个二项集,遍历所有的频繁一项集,生成所有的二项集,所述二项集中包括两个标签,将所有二项集中两个标签同时出现的频率大于所述最小支持度的二项集生成频繁二项集;所述频繁二项集中每个元素为二项集中的两个标签;
将频繁k项集中的任意两个元素连接,形成k+1项集,所述频繁k项集中每个元素包括k个不同的标签,所述k+1项集中包括k+1个不同的标签;遍历所述频繁k项集中的所有元素,生成所有的k+1项集;其中k为大于1的整数;
判断是否所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度,得到第一判断结果;
当所述第一判断结果表示所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度时,确定所述频繁k项集为最大频繁项集;
当所述第一判断结果表示所有的k+1项集出现的频率不全小于所述最小支持度时,将所有k+1项集中的k+1个标签同时出现频率大于所述最小支持度的k+1项集生成频繁k+1项集,所述频繁k+1项集中每个元素包括k+1项集中的k+1个不同的标签。
可选的,所述利用HOSVD算法对所述三维张量数据进行分解,具体包括:
将所述三维张量数据利用公式沿着三个模方向进行分解,其中所述三维张量表示为A1为所述三维张量A的1-模的矩阵展开形式;A2为所述三维张量A的2-模的矩阵展开形式;A3为所述三维张量A的3-模的矩阵展开形式;
利用奇异值分解算法对所述A1、A2、A3进行分解,得到
其中U(1)表示矩阵A1的左奇异特征矩阵,V1 T表示矩阵A1的右奇异特征矩阵的转置矩阵,S1表示由矩阵A1奇异值组成的对角矩阵;U(2)表示矩阵A2的左奇异特征矩阵,V2 T表示矩阵A2的右奇异特征矩阵的转置矩阵,S2表示由矩阵A2奇异值组成的对角矩阵;U(3)表示矩阵A3的左奇异特征矩阵,V3 T表示矩阵A3的右奇异特征矩阵的转置矩阵,S3表示由矩阵A3奇异值组成的对角矩阵;
利用所述奇异值分解算法对所述左奇异特征矩阵U(1)、U(2)、U(3)降维,对应得到其中的维度为c1;的维度为c2;的维度为c3;
利用公式得到近似核心张量
利用HOSVD算法得到三维张量A降维后的近似张量
根据所述近似张量得到每个用户对每个项目标注的标签权重值。
可选的,所述根据所述标签权重值,向第一用户推荐标签,具体包括:
根据所述标签权重值,利用Top-N算法得到高于其他权重值的N个权重值;
将所述N个权重值对应的标签推荐给所述第一用户。
一种标签推荐系统,所述系统包括:
标签总集合获取模块,用于依次获取所有用户对所有项目标注的标签总集合,所述标签总集合包括所有的第一标签集合,所述第一标签集合为一个用户对一个项目标注的标签集合,所述第一标签集包括M个标签,M为大于0的整数;
最大频繁项集获取模块,用于利用Apriori算法获取所述标签总集合中的最大频繁项集;
新的标识设定模块,用于将所述最大频繁项集设定为新的标识;
第二标签集合形成模块,用于将所述第一标签集合中所述最大频繁项集替换为所述新的标识,形成第二标签集合;
三维张量数据生成模块,用于将用户、项目、第二标签集合相互对应,生成用户-项目-标签的三维张量数据,并将三者的关联权重设为1;
三维张量数据分解模块,用于利用HOSVD算法对所述三维张量数据进行分解,得到每个用户对每个项目标注的标签的权重值;
标签推荐模块,用于根据所述标签权重值,向第一用户推荐标签,供所述第一用户对第一项目标注标签使用,所述第一用户为第一次对所述第一项目标注标签的用户,所述第一项目为所有项目中的任意一个项目。
可选的,所述系统还包括:
标签转换模块,用于利用Apriori算法获取所述标签总集合中的最大频繁项集之前,将所有的第一标签集合中的所有标签均放于标签计算的位置,将标签数据转换成适用于Apriori算法计算的格式。
可选的,所述最大频繁项集获取模块,具体包括:
最小支持度设定单元,用于设定最小支持度,所述最小支持度为标签出现的频率的设定阈值;
频繁一项集生成单元,用于将所有第一标签集合中出现频率大于所述最小支持度的标签生成频繁一项集,所述频繁一项集中每个元素为一个标签;
频繁二项集生成单元,用于将两个不同的频繁一项集合并为一个二项集,遍历所有的频繁一项集,生成所有的二项集,所述二项集中包括两个标签,将所有二项集中两个标签同时出现的频率大于所述最小支持度的二项集生成频繁二项集;所述频繁二项集中每个元素为二项集中的两个标签;
k+1项集生成单元,用于将频繁k项集中的任意两个元素连接,形成k+1项集,所述频繁k项集中每个元素包括k个不同的标签,所述k+1项集中包括k+1个不同的标签;遍历所述频繁k项集中的所有元素,生成所有的k+1项集;其中k为大于1的整数;
频率判断单元,用于判断是否所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度,得到第一判断结果;
最大频繁项集确定单元,用于当所述第一判断结果表示所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度时,确定所述频繁k项集为最大频繁项集;
频繁k+1项集生成单元,用于当所述第一判断结果表示所有的k+1项集出现的频率不全小于所述最小支持度时,将所有k+1项集中的k+1个标签同时出现频率大于所述最小支持度的k+1项集生成频繁k+1项集,所述频繁k+1项集中每个元素包括k+1项集中的k+1个不同的标签。
可选的,所述三维张量数据分解模块,具体包括:
第一分解单元,用于将所述三维张量数据利用公式沿着三个模方向进行分解,其中所述三维张量表示为A1为所述三维张量A的1-模的矩阵展开形式;A2为所述三维张量A的2-模的矩阵展开形式;A3为所述三维张量A的3-模的矩阵展开形式;
第二分解单元,用于利用奇异值分解算法对所述A1、A2、A3进行分解,得到其中U(1)表示矩阵A1的左奇异特征矩阵,V1 T表示矩阵A1的右奇异特征矩阵的转置矩阵,S1表示由矩阵A1奇异值组成的对角矩阵;U(2)表示矩阵A2的左奇异特征矩阵,V2 T表示矩阵A2的右奇异特征矩阵的转置矩阵,S2表示由矩阵A2奇异值组成的对角矩阵;U(3)表示矩阵A3的左奇异特征矩阵,V3 T表示矩阵A3的右奇异特征矩阵的转置矩阵,S3表示由矩阵A3奇异值组成的对角矩阵;
降维单元,用于利用所述奇异值分解算法对所述左奇异特征矩阵U(1)、U(2)、U(3)降维,对应得到其中的维度为c1;的维度为c2;的维度为c3;
近似核心张量计算单元,用于利用公式得到近似核心张量
三维张量的近似张量获取单元,用于利用HOSVD算法得到三维张量A降维后的近似张量
根据所述近似张量得到每个用户对每个项目标注的标签权重值。
可选的,所述标签推荐模块,具体包括:
标签权重筛选单元,用于根据所述标签权重值,利用Top-N算法得到高于其他权重值的N个权重值;
标签推荐单元,用于将所述N个权重值对应的标签推荐给所述第一用户。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明充分利用频繁出现的标签信息,寻找标签与标签之间的关联性,使标签分类更加细致,以使推荐系统准确性获得提高。并且随着推荐列表数量的增大,命中率逐渐增大,能够有效提高推荐准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明标签推荐方法的流程图;
图2为本发明标签推荐方法中SVD分解示意图;
图3为本发明标签推荐方法中降维后SVD分解示意图;
图4为本发明标签推荐系统的结构图;
图5为本发明标签推荐方法中将张量A沿着三个模方向进行分解的示意图;
图6为本发明标签推荐方法中利用HOSVD算法得到近似张量的示意图;
图7为本发明标签推荐方法中推荐标签后命中率比较图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明标签推荐方法的流程图。如图1所示,所述方法包括:
步骤101:获取用户标注的标签总集合。标签总集合包括所有用户对所有项目标注的标签,一个用户对一个项目标注的标签集合定义为第一标签集合,由于一个用户对一个项目标注的标签可能为多个,因此所述第一标签集合包括M个标签,M为大于0的整数,因此所述标签总集合包括所有的第一标签集合。例如,在一个电影推荐平台上,用户1对电影1标注的标签为“喜剧”、“动作”、“爱情”,得到的第一标签集合为{喜剧,动作,爱情};用户1对电影2标注的标签为“喜剧”、“惊悚”、“动作”,得到的第一标签集合为{喜剧,惊悚,动作};用户2对电影1所打的标签为“爱情”、“伦理”,得到的第一标签集合为{爱情,伦理};用户2对电影3标注的标签为“恐怖”、“动作”、“惊悚”,得到的第一标签集合为{恐怖,动作,惊悚};……;那么得到的标签总集合为{{喜剧,动作,爱情},{喜剧,惊悚,动作},{爱情,伦理},{恐怖,动作,惊悚},……}。
步骤102:寻找标签总集合的最大频繁项集。将所有的第一标签集合中的所有标签均放于标签计算的位置,将标签数据转换成适用于Apriori算法计算的格式,然后利用Apriori算法寻找所述标签总集合中的最大频繁项集。假设最大频繁项集包括n个标签,那么最大频繁项集是指满足以下两个条件的n项集:首先,n个标签同时被标注出现的频率大于最小支持度(设定阈值);其次,在最大频繁项集中添加任一元素构成n+1项集后,任一n+1项集中n+1个标签同时被标注出现的频率小于最小支持度。具体的寻找标签总集合的最大频繁项集的过程为:
设定最小支持度,所述最小支持度即为标签出现的频率的设定阈值;
将所有第一标签集合中出现频率大于所述最小支持度的标签生成频繁一项集,所述频繁一项集中每个元素为一个标签;也就是标签总集合中所有出现频率大于最小支持度的标签,即归为频繁一项集中的元素,以此形成频繁一项集;
将两个不同的频繁一项集合并为一个二项集,遍历所有的频繁一项集,生成所有的二项集,所述二项集中包括两个标签,将所有二项集中两个标签同时出现的频率大于所述最小支持度的二项集生成频繁二项集;所述频繁二项集中每个元素为二项集中的两个标签;此步骤即为寻找两个标签同时出现频率大于最小支持度的标签组合,将满足条件的标签组合归为频繁二项集的元素,以此形成频繁二项集;
将频繁k项集中的任意两个元素连接,形成k+1项集,所述频繁k项集中每个元素包括k个不同的标签,所述k+1项集中包括k+1个不同的标签;遍历所述频繁k项集中的所有元素,生成所有的k+1项集;其中k为大于1的整数;此步骤即为形成k+1项集的过程,通过向频繁k项集中加入其它频繁k项集中的一个元素,构成k+1项集,直至遍历所有的k项集,形成所有的k+1项集;
判断是否所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度,得到第一判断结果;
当所述第一判断结果表示所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度时,确定所述频繁k项集为最大频繁项集;
当所述第一判断结果表示所有的k+1项集出现的频率不全小于所述最小支持度时,将所有k+1项集中的k+1个标签同时出现频率大于所述最小支持度的k+1项集生成频繁k+1项集,所述频繁k+1项集中每个元素包括k+1项集中的k+1个不同的标签。此时需要进一步形成k+2项集,判断k+2项集中的k+2个标签同时出现的频率是否均大于最小支持度,以此判断k+1项集是否为最大频繁项集。
步骤103:将最大频繁项集设定为新的标识。也就是将最大频繁项集用新的代号代替。
步骤104:将第一标签集合中最大频繁项集替换为新的标识,对应得到第二标签集合。例如第一标签集合为{喜剧,爱情,动作,伦理,惊悚},最大频繁项集为{喜剧,爱情,伦理},最大频繁项集设定的新的标识可以为“M”,那么将第一标签集合中最大频繁项集替换为新的标识,得到的第二标签集合为{M,动作,惊悚},此时只包括三个元素。
步骤105:生成用户-项目-标签的三维张量。根据得到的第二标签集合与用户和项目相互对应,以此得到用户-项目-标签的三维张量数据,并将三者的关联权重设为1。
步骤106:利用HOSVD算法对所述三维张量数据进行分解,得到每个用户对每个项目标注的标签的权重值。具体包括:
(1)将所述三维张量数据利用公式沿着三个模方向进行分解,其中所述三维张量表示为A1为所述三维张量A的1-模的矩阵展开形式;A2为所述三维张量A的2-模的矩阵展开形式;A3为所述三维张量A的3-模的矩阵展开形式;
(2)利用奇异值分解(SingularValue Decomposition,SVD)算法对所述A1、A2、A3进行分解,得到其中U(1)表示矩阵A1的左奇异特征矩阵,V1 T表示矩阵A1的右奇异特征矩阵的转置矩阵,S1表示由矩阵A1奇异值组成的对角矩阵;U(2)表示矩阵A2的左奇异特征矩阵,V2 T表示矩阵A2的右奇异特征矩阵的转置矩阵,S2表示由矩阵A2奇异值组成的对角矩阵;U(3)表示矩阵A3的左奇异特征矩阵,V3 T表示矩阵A3的右奇异特征矩阵的转置矩阵,S3表示由矩阵A3奇异值组成的对角矩阵;
(3)利用SVD算法对所述左奇异特征矩阵U(1)、U(2)、U(3)降维,对应得到其中的维度为c1;的维度为c2;的维度为c3;
(4)利用公式得到近似核心张量
(5)利用HOSVD算法得到三维张量A降维后的近似张量 根据所述近似张量得到每个用户对每个项目标注的标签权重值。
SVD的基本原理:
首先,在采用SVD技术开始对矩阵进行分解之前,需要对该矩阵的空白项进行填充,填充值一般采用项目的评分均值,以得到一个稠密矩阵。假设未填充前的矩阵为R∈Rm ×n,填充后为R′,则R′的SVD公式为:R′=USVT其中,U∈Rm×m和VT∈Rn×n都是正交矩阵,分别代表矩阵R′的左奇异特征矩阵和右奇异特征矩阵;S∈Rm×n是一个对角矩阵,且矩阵R′的所有奇异值均分布在该对角矩阵的对角线上,并且它们都按照从大到小的顺序进行排列,而且所有的奇异值体现着矩阵R′总的信息量。图2为本发明标签推荐方法中SVD分解示意图;SVD分解示意图如图2所示。
采用SVD对矩阵R′进行降维,最主要的是需要保证降维后的矩阵与原始矩阵的信息量相差不大。由于矩阵S中的所有的奇异值体现着原始矩阵中包含的总的信息量,因此可以采用奇异值平方和来对信息量进行定义,并通过设定阈值来保证有效信息量。假设所有的奇异值的平方和为P,前f(f为整数)个奇异值的平方和为Pf,则信息量的阈值σ=Pf/P,通常要求σ≥99%,以此来确定f的值。然后对角矩阵S就成为仅保留前f个奇异值的新对角矩阵Sf,再分别从U和V中选取前f个左右奇异值向量,构成新的Uk和Vk,此时,通过Uf、Vf和Sf就可以构成降维后的矩阵Rf,即:
Rf近似于原始矩阵R′,用户u对项目i的预测评分就可以通过公式上述来计算,降维后的矩阵SVD示意图如图3所示;图3为本发明标签推荐方法中降维后SVD分解示意图;
SVD降维的基本步骤为:
采用SVD对R′进行分解后得到U、S和V;
保留对角矩阵S的前f个奇异值,得到新的矩阵Sf
将U和V的前f个特征向量保留,得到Uf和Vf
采用公式来计算用户u对项目i的预测评分。
将SVD应用于推荐算法中的优点是:可有效降低数据维度,简化评分矩阵,使算法预测准确性提升。缺点是:随着用户和项目的数量与日俱增,并且数据稀疏性非常大时,已经填充好的评分矩阵占用的存储内存非常大,使得算法的计算速度变得非常缓慢,实际应用中难以接受。
高阶奇异值分解(High Order SingularValue Decomposition,HOSVD)是由SVD演变而来的,SVD针对的是二阶矩阵数据的降维分解,而HOSVD是对高阶张量数据进行降维分解的一种关键算法,并可应用于多个应用领域。
HOSVD算法对张量分解后得到一个核心张量和N个矩阵的乘积形式。以三阶张量A为例,进行HOSVD算法分解后得到:A=S×U(1)×U(2)×U(3)
其中,U(1)、U(2)、U(3)均是正交矩阵,为核心张量,它的维数与张量A是相同的。
步骤107:向第一用户推荐标签。根据步骤106得到的标签权重值,利用Top-N算法得到高于其他权重值的N个权重值;TOP-N算法即从研究对象中得到所需的数据,对其进行排序,从排序列表中选取最大或最小的N个数据,这就是一个TOP-N算法。例如当N=5时,筛选权重最高的前5个权重值,将所述5个权重值对应的标签推荐给所述第一用户。第一用户是指第一次对某个项目标注标签的用户。例如筛选出的权重最高的5个标签为:喜剧,(爱情,伦理),(惊悚,恐怖),动作,感人,则当第一用户对未标注过标签的项目标注标签时,将上述五个标签推荐给用户,供用户选择。
对于此推荐方法的评价指标可以采用命中率来进行评价。当用户对项目进行标签标注时,选择了推荐列表中的标签,则为命中;客户未选择推荐列表中的标签,自己定义新的标签对项目进行标注,则为未命中。通过计算命中率来评价此推荐方法的准确度。
图4为本发明标签推荐系统的结构图。如图4所示,所述结构包括:
标签总集合获取模块401,用于依次获取所有用户对所有项目标注的标签总集合,所述标签总集合包括所有的第一标签集合,所述第一标签集合为一个用户对一个项目标注的标签结合,所述第一标签集合包括M个标签,M为大于0的整数;
最大频繁项集获取模块402,用于利用Apriori算法获取所述标签总集合中的最大频繁项集;
新的标识设定模块403,用于将所述最大频繁项集设定为新的标识;
第二标签集合形成模块404,用于将所述第一标签集合中所述最大频繁项集替换为所述新的标识,形成第二标签集合;
三维张量数据生成模块405,用于将用户、项目、第二标签集合相互对应,生成用户-项目-标签的三维张量数据,并将三者的关联权重设为1;
三维张量数据分解模块406,用于利用HOSVD算法对所述三维张量数据进行分解,得到每个用户对每个项目标注的标签的权重值;
标签推荐模块407,用于根据所述标签权重值,向第一用户推荐标签,供所述第一用户对第一项目标注标签使用。
图5为本发明标签推荐方法中将张量A沿着三个模方向进行分解的示意图。如图5所示,将三维张量数据利用公式沿着三个模方向进行分解,A1为所述三维张量A的1-模的矩阵展开形式;A2为所述三维张量A的2-模的矩阵展开形式;A3为所述三维张量A的3-模的矩阵展开形式。
图6为本发明标签推荐方法中利用HOSVD算法得到近似张量的示意图;利用HOSVD算法近似张量
图7为本发明标签推荐方法中推荐标签后命中率比较图。
实验采用的数据集为MovieLens网站上的ml-20M数据集,此数据集是在15年5月产生的,记录的是1995年到2015年期间用户对电影进行的评分及标签的行为数据,从中抽取了671个用户、915部电影、460个标签及1296条用户对项目进行标签标注的信息作为实验数据,本章主要针对预测准确性进行研究。为了验证结果的准确性,对数据进行了训练测试,本文随机分了5份数据集,分别是D1,D2,D3,D4和D5,并将每份均分割为训练集和测试集,分割比例是9:1。
采用的评价指标为命中率。命中率(HitRatio)是推荐系统中用于评估推荐准确性的一个指标。命中率为推荐后的推荐列表中被命中的项目在所有被标注过标签的项目中占有的比例。其定义公式如下:
推荐列表由Top-N算法方法产生,若测试集中项目则视为Im命中。
采用Apriori算法对数据集进行分析后的用户、项目和标签数如表1所示。可以看出,采用本发明方法对标签分析后,元组数目得到了明显降低。因为原来经常重复出现的多个标签被定义成一个新标签,那么原数据中的多个用户-项目-标签就可以构成一个用户-项目-新标签,从而降低了三元组数目。
表1用户、项目和标签数
采用HOSVD算法分别对上述计算前后的用户-项目-标签张量数据进行计算,得到了命中率随推荐列表长度的变化结果如附图7所示,该结果是在5个数据集上分别计算后求平均值所得。
从图7可以看出,预处理前后,随着推荐列表数量的增大,命中率HitRatio均逐渐增大。而在对应的推荐列表上,预处理后的命中率较预处理前有明显提高。当Top-N到达70时,预处理后得到的命中率的增长速度逐渐增大。该结果表明,本发明的方法能够有效提高推荐准确性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种标签推荐方法,其特征在于,所述方法包括:
依次获取所有用户对所有项目标注的标签总集合,所述标签总集合包括所有的第一标签集合,所述第一标签集合为一个用户对一个项目标注的标签的集合,所述第一标签集合包括M个标签,M为大于0的整数;
利用Apriori算法寻找所述标签总集合中的最大频繁项集;
将所述最大频繁项集设定为新的标识;
将所述第一标签集合中所述最大频繁项集替换为所述新的标识,形成第二标签集合;
将用户、项目、第二标签集合相互对应,生成用户-项目-标签的三维张量数据,并将三者的关联权重设为1;
利用HOSVD算法对所述三维张量数据进行分解,得到每个用户对每个项目标注的标签的权重值;
根据所述标签权重值,向第一用户推荐标签,供所述第一用户对第一项目标注标签使用,所述第一用户为第一次对所述第一项目标注标签的用户,所述第一项目为所有项目中的任意一个项目。
2.根据权利要求1所述的方法,其特征在于,所述利用Apriori算法寻找所述标签总集合中的最大频繁项集之前,还包括:
将标签数据转换成适用于Apriori算法计算的格式。
3.根据权利要求1所述的方法,其特征在于,所述利用Apriori算法寻找所述标签总集合中的最大频繁项集,具体包括:
设定最小支持度,所述最小支持度为标签出现的频率的设定阈值;
将所有第一标签集合中出现频率大于所述最小支持度的标签生成频繁一项集,所述频繁一项集中每个元素为一个标签;
将两个不同的频繁一项集合并为一个二项集,遍历所有的频繁一项集,生成所有的二项集,所述二项集中包括两个标签,将所有二项集中两个标签同时出现的频率大于所述最小支持度的二项集生成频繁二项集;所述频繁二项集中每个元素为二项集中的两个标签;
将频繁k项集中的任意两个元素连接,形成k+1项集,所述频繁k项集中每个元素包括k个不同的标签,所述k+1项集中包括k+1个不同的标签;遍历所述频繁k项集中的所有元素,生成所有的k+1项集;其中k为大于1的整数;
判断是否所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度,得到第一判断结果;
当所述第一判断结果表示所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度时,确定所述频繁k项集为最大频繁项集;
当所述第一判断结果表示所有的k+1项集出现的频率不全小于所述最小支持度时,将所有k+1项集中的k+1个标签同时出现频率大于所述最小支持度的k+1项集生成频繁k+1项集,所述频繁k+1项集中每个元素包括k+1项集中的k+1个不同的标签。
4.根据权利要求1所述的方法,其特征在于,所述利用HOSVD算法对所述三维张量数据进行分解,具体包括:
将所述三维张量数据利用公式沿着三个模方向进行分解,其中所述三维张量表示为A1为所述三维张量A的1-模的矩阵展开形式;A2为所述三维张量A的2-模的矩阵展开形式;A3为所述三维张量A的3-模的矩阵展开形式;
利用奇异值分解算法对所述A1、A2、A3进行分解,得到
其中U(1)表示矩阵A1的左奇异特征矩阵,V1 T表示矩阵A1的右奇异特征矩阵的转置矩阵,S1表示由矩阵A1奇异值组成的对角矩阵;U(2)表示矩阵A2的左奇异特征矩阵,V2 T表示矩阵A2的右奇异特征矩阵的转置矩阵,S2表示由矩阵A2奇异值组成的对角矩阵;U(3)表示矩阵A3的左奇异特征矩阵,V3 T表示矩阵A3的右奇异特征矩阵的转置矩阵,S3表示由矩阵A3奇异值组成的对角矩阵;
利用所述奇异值分解算法对所述左奇异特征矩阵U(1)、U(2)、U(3)降维,对应得到其中的维度为c1;的维度为c2;的维度为c3;
利用公式得到近似核心张量
利用HOSVD算法得到三维张量A降维后的近似张量
根据所述近似张量得到每个用户对每个项目标注的标签权重值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述标签权重值,向第一用户推荐标签,具体包括:
根据所述标签权重值,利用Top-N算法得到高于其他权重值的N个权重值;
将所述N个权重值对应的标签推荐给所述第一用户。
6.一种标签推荐系统,其特征在于,所述系统包括:
标签总集合获取模块,用于依次获取所有用户对所有项目标注的标签总集合,所述标签总集合包括所有的第一标签集合,所述第一标签集合为一个用户对一个项目标注的标签集合,所述第一标签集包括M个标签,M为大于0的整数;
最大频繁项集获取模块,用于利用Apriori算法获取所述标签总集合中的最大频繁项集;
新的标识设定模块,用于将所述最大频繁项集设定为新的标识;
第二标签集合形成模块,用于将所述第一标签集合中所述最大频繁项集替换为所述新的标识,形成第二标签集合;
三维张量数据生成模块,用于将用户、项目、第二标签集合相互对应,生成用户-项目-标签的三维张量数据,并将三者的关联权重设为1;
三维张量数据分解模块,用于利用HOSVD算法对所述三维张量数据进行分解,得到每个用户对每个项目标注的标签的权重值;
标签推荐模块,用于根据所述标签权重值,向第一用户推荐标签,供所述第一用户对第一项目标注标签使用,所述第一用户为第一次对所述第一项目标注标签的用户,所述第一项目为所有项目中的任意一个项目。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:
标签转换模块,用于利用Apriori算法获取所述标签总集合中的最大频繁项集之前,将标签数据转换成适用于Apriori算法计算的格式。
8.根据权利要求6所述的系统,其特征在于,所述最大频繁项集获取模块,具体包括:
最小支持度设定单元,用于设定最小支持度,所述最小支持度为标签出现的频率的设定阈值;
频繁一项集生成单元,用于将所有第一标签集合中出现频率大于所述最小支持度的标签生成频繁一项集,所述频繁一项集中每个元素为一个标签;
频繁二项集生成单元,用于将两个不同的频繁一项集合并为一个二项集,遍历所有的频繁一项集,生成所有的二项集,所述二项集中包括两个标签,将所有二项集中两个标签同时出现的频率大于所述最小支持度的二项集生成频繁二项集;所述频繁二项集中每个元素为二项集中的两个标签;
k+1项集生成单元,用于将频繁k项集中的任意两个元素连接,形成k+1项集,所述频繁k项集中每个元素包括k个不同的标签,所述k+1项集中包括k+1个不同的标签;遍历所述频繁k项集中的所有元素,生成所有的k+1项集;其中k为大于1的整数;
频率判断单元,用于判断是否所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度,得到第一判断结果;
最大频繁项集确定单元,用于当所述第一判断结果表示所有的k+1项集中的k+1个标签同时出现的频率均小于所述最小支持度时,确定所述频繁k项集为最大频繁项集;
频繁k+1项集生成单元,用于当所述第一判断结果表示所有的k+1项集出现的频率不全小于所述最小支持度时,将所有k+1项集中的k+1个标签同时出现频率大于所述最小支持度的k+1项集生成频繁k+1项集,所述频繁k+1项集中每个元素包括k+1项集中的k+1个不同的标签。
9.根据权利要求6所述的系统,其特征在于,所述三维张量数据分解模块,具体包括:
第一分解单元,用于将所述三维张量数据利用公式沿着三个模方向进行分解,其中所述三维张量表示为A1为所述三维张量A的1-模的矩阵展开形式;A2为所述三维张量A的2-模的矩阵展开形式;A3为所述三维张量A的3-模的矩阵展开形式;
第二分解单元,用于利用奇异值分解算法对所述A1、A2、A3进行分解,得到其中U(1)表示矩阵A1的左奇异特征矩阵,V1 T表示矩阵A1的右奇异特征矩阵的转置矩阵,S1表示由矩阵A1奇异值组成的对角矩阵;U(2)表示矩阵A2的左奇异特征矩阵,V2 T表示矩阵A2的右奇异特征矩阵的转置矩阵,S2表示由矩阵A2奇异值组成的对角矩阵;U(3)表示矩阵A3的左奇异特征矩阵,V3 T表示矩阵A3的右奇异特征矩阵的转置矩阵,S3表示由矩阵A3奇异值组成的对角矩阵;
降维单元,用于利用所述奇异值分解算法对所述左奇异特征矩阵U(1)、U(2)、U(3)降维,对应得到其中的维度为c1;的维度为c2;的维度为c3;
近似核心张量计算单元,用于利用公式得到近似核心张量
三维张量的近似张量获取单元,用于利用HOSVD算法得到三维张量A降维后的近似张量
根据所述近似张量得到每个用户对每个项目标注的标签权重值。
10.根据权利要求6所述的系统,其特征在于,所述标签推荐模块,具体包括:
标签权重筛选单元,用于根据所述标签权重值,利用Top-N算法得到高于其他权重值的N个权重值;
标签推荐单元,用于将所述N个权重值对应的标签推荐给所述第一用户。
CN201710544732.0A 2017-07-06 2017-07-06 一种标签推荐方法及系统 Pending CN107341242A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710544732.0A CN107341242A (zh) 2017-07-06 2017-07-06 一种标签推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710544732.0A CN107341242A (zh) 2017-07-06 2017-07-06 一种标签推荐方法及系统

Publications (1)

Publication Number Publication Date
CN107341242A true CN107341242A (zh) 2017-11-10

Family

ID=60218015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710544732.0A Pending CN107341242A (zh) 2017-07-06 2017-07-06 一种标签推荐方法及系统

Country Status (1)

Country Link
CN (1) CN107341242A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717442A (zh) * 2018-05-16 2018-10-30 成都市极米科技有限公司 基于机器学习的相似影视推荐方法
CN109753579A (zh) * 2018-12-12 2019-05-14 河海大学 一种基于频繁项目集的图片标注推荐方法
CN110288484A (zh) * 2019-04-02 2019-09-27 上海瀚之友信息技术服务有限公司 一种基于大数据平台的保险分类的用户推荐方法及系统
CN114039744A (zh) * 2021-09-29 2022-02-11 中孚信息股份有限公司 一种基于用户特征标签的异常行为预测方法及系统
US11734362B2 (en) 2018-12-20 2023-08-22 Tencent Technology (Shenzhen) Company Limited Tag recommending method and apparatus, computer device, and readable medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262653A (zh) * 2011-06-09 2011-11-30 华中科技大学 一种基于用户动机倾向性的标签推荐方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262653A (zh) * 2011-06-09 2011-11-30 华中科技大学 一种基于用户动机倾向性的标签推荐方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PANAGIOTIS SYMEONIDIS: "ClustHOSVD:Item Recommendation by Combining Semantically Enhanced Tag Clustering With Tensor HOSVD", 《IEEE TRANSACTIONS ON SYSTEMS,MAN,AND CYBERNETICS:SYSTEMS》 *
朱颢东 等: "关于Top-N最频繁项集挖掘的研究", 《电子科技大学学报》 *
王燕: "基于SVD的推荐系统研究及其应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717442A (zh) * 2018-05-16 2018-10-30 成都市极米科技有限公司 基于机器学习的相似影视推荐方法
CN108717442B (zh) * 2018-05-16 2021-12-03 成都极米科技股份有限公司 基于机器学习的相似影视推荐方法
CN109753579A (zh) * 2018-12-12 2019-05-14 河海大学 一种基于频繁项目集的图片标注推荐方法
US11734362B2 (en) 2018-12-20 2023-08-22 Tencent Technology (Shenzhen) Company Limited Tag recommending method and apparatus, computer device, and readable medium
CN110288484A (zh) * 2019-04-02 2019-09-27 上海瀚之友信息技术服务有限公司 一种基于大数据平台的保险分类的用户推荐方法及系统
CN110288484B (zh) * 2019-04-02 2022-12-13 上海瀚之友信息技术服务有限公司 一种基于大数据平台的保险分类的用户推荐方法及系统
CN114039744A (zh) * 2021-09-29 2022-02-11 中孚信息股份有限公司 一种基于用户特征标签的异常行为预测方法及系统
CN114039744B (zh) * 2021-09-29 2024-02-27 中孚信息股份有限公司 一种基于用户特征标签的异常行为预测方法及系统

Similar Documents

Publication Publication Date Title
CN107341242A (zh) 一种标签推荐方法及系统
US20210271975A1 (en) User tag generation method and apparatus, storage medium, and computer device
CN106651519B (zh) 基于标签信息的个性化推荐方法和系统
CN110674407B (zh) 基于图卷积神经网络的混合推荐方法
CN103729432B (zh) 一种引文数据库中主题文献学术影响力的分析与排序方法
CN105589971B (zh) 训练推荐模型的方法、装置及推荐系统
CN103970850B (zh) 网站信息推荐方法和系统
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN104063481A (zh) 一种基于用户实时兴趣向量的电影个性化推荐方法
CN107563841A (zh) 一种基于用户评分分解的推荐系统
CN101944218A (zh) 社会网络下的基于图的个性化推荐方法及其系统
CN107229666B (zh) 一种基于推荐系统的兴趣探索方法及装置
CN106504011A (zh) 一种业务对象的展示方法和装置
CN105913296A (zh) 一种基于图的个性化推荐方法
CN107122411A (zh) 一种基于离散多视图哈希的协同过滤推荐方法
CN106897914A (zh) 一种基于主题模型的商品推荐方法及系统
CN108415913A (zh) 基于不确定邻居的人群定向方法
CN109582876A (zh) 旅游行业用户画像构造方法、装置和计算机设备
CN103324690A (zh) 基于因子化条件受限玻尔兹曼机的混合推荐方法
CN110941762B (zh) 一种个性化推荐系统排序结果的改进方法
CN109711883A (zh) 基于U-Net网络的互联网广告点击率预估方法
CN106934035A (zh) 一种基于类与特征分布的多标签数据流中概念漂移检测方法
CN110490686A (zh) 一种基于时间感知的商品评分模型构建、推荐方法及系统
CN106127506A (zh) 一种基于主动学习解决商品冷启动问题的推荐方法
CN110727813A (zh) 一种商品图片的自适应热门指数排序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171110

RJ01 Rejection of invention patent application after publication