CN113032675A

CN113032675A - 个性化推荐中的用户相似性多因素评定方法

Info

Publication number: CN113032675A
Application number: CN202110328684.8A
Authority: CN
Inventors: 李蕊男; 王辉
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-25

Abstract

本发明提出的个性化推荐中的用户相似性多因素评定方法，对协同过滤推荐方法中的用户相似性计算评定进行改进，使其更加适合标签体系，将推荐算法中原本只考量用户‑资源二维信息改为考量用户‑标签‑资源三维信息，并采用改进物质扩散法得到标签体系中用户间相似性值，综合考量用户‑标签‑资源之间的各种联系，对物质扩散法进行改进，同时综合考量上下文时间信息、标签的使用频率以及标签和商品的流行度等影响用户相似性的因素，对用户相似性计算评定做进一步的改进，使用改进后的用户相似性多因素评定方法具有更高的准确率、精确度和召回率，覆盖商品更多，推荐结果的多样性也更好。

Description

个性化推荐中的用户相似性多因素评定方法

技术领域

本发明涉及一种用户相似性多因素评定方法，特别涉及一种个性化推荐中的用户相似性多因素评定方法，属于用户相似性评定技术领域。

背景技术

随着移动网络特别是5G技术的飞速发展，呈现在用户面前的各类信息越来越多。面对如此多的信息和数据，用户想要找到自己感兴趣的信息非常困难，带来了严重的信息过载问题。针对信息严重过载问题，产生了二种解决方法，一种是根据商品的不同分类建立目录，另一种是在系统应用中添加搜索功能。对目录进行分类由于展示空间十分有限，列出的信息不全面，如果目录中没有用户感兴趣的资源，则用户还需浏览系统中所有资源进行查找。搜索引擎能根据用户提供的关键字词在系统中进行模糊匹配，但搜索结果与用户对资源的文字描述有很大的关系，如果表述不是很准确，则得到的检索结果也会相去甚远。因此这两种方式都无法满足用户的很多个性化需求，且存在诸多的局限性和缺点。

个性化推荐系统是针对信息过载问题提出来的，且在解决信息过载问题方面效果好、优势明显。推荐系统涉及到很多学科知识和技术，如信息检索、数据挖掘、信息预测、认知科学等，通过应用这些不同的学科知识，解决推荐系统中的各种问题。推荐系统是根据用户在系统中过去发生行为的信息数据，推测用户在系统中以后可能发生的行为。通过收集并存储系统日志、用户个人资料、用户购买收藏等历史数据信息，对这些数据信息进行解析处理，得到基于用户过去数据集的兴趣模型，从而向用户推荐他可能喜爱的系统内容。

个性化推荐系统自产生起就受到了普遍关注，特别是Netflix平台对其进一步推动使得对它的研发应用进入了高潮，Netflix举办推荐系统研究大赛，并向研究者提供包含时间信息的用户电影评分数据集。针对Netflix数据集，很多参赛人员都提出了改进的推荐算法，使得推荐系统的研发取得了很大的进展，当前很多Web网站中都包含了个性化推荐模块，如亚马逊、携程、京东、天猫等电子商务中的商品推荐，抖音的标签和商品推荐，QQ的好友推荐等。各大网站对推荐系统的应用，在一定程度上也使得推荐系统的优点被更多用户熟知，促进了推荐系统的普及与发展。个性化推荐系统发展至今，在各个领域都有广泛的应用，特别是在电子商务领域，电商系统中加入个性化推荐模块能够刺激用户消费，提高利润效益和消费体验。据统计，亚马逊网站大约41％的交易由个性化推荐产生。在新闻、短视频、微博等网站每天都有大量的新消息，用户要在短时间浏览这数以万计的消息非常困难。个性化推荐算法可以依据用户的喜好向其推荐资源，使得用户能够在短时间内获取自己喜爱的内容。在定制化广告领域，通过向不同类型用户投放不一样的广告，能有效增加广告的投入效益。

现有技术依然没有从根本上解决推荐系统中的用户相似性评定问题，现有技术的难点和本发明解决的问题主要集中在以下方面：

第一，基于用户的推荐首先要找到用户的相似用户集合，因此需要计算评定用户之间的相似性。通过对标签体系进行分析发现，现有技术的标签体系中都存在数据稀疏问题，相似性计算评定是根据用户标注体系进行的，当用户的商品的标注存在数据稀疏性问题时，依据标注体系进行的相似性计算评定结果也会不准确。同时，相较于现有技术的用户-商品二元关系，基于用户-商品-标签三元关系进行相似性计算评定要复杂很多，元素之间的关系更加错综复杂，导致相似性计算评定更加困难，现有技术还没有一种个性化推荐中的用户相似性评定解决方法；

第二，现有技术分别给基于用户-资源和用户-标签的物质扩散计算得到的用户相似性分配不同的权重值，然后进行线性结合得到用户之间的相似性，这种做法显然是不合适的，还有许多额外的信息对个性化推荐结果产生影响，采用物质扩散方法进行相似性计算评定时，还有很多的处理因素未考虑到，例如用户的上下文时间信息、标签的使用频率、热门标签和商品对用户的相似性评定都至关重要，现有技术缺少一种综合各因素的基于用户-资源-标签关系的用户相似性多因素评定方法，由于没有综合考量推荐系统中的元素关系以及时间、标签频率、商品和标签的热门程度，现有技术的推荐算法相关性能较差，算法的准确率低，无法达到理论效果；

第三，针对信息严重过载问题，现有技术产生了二种解决方法，一种是根据商品的不同分类建立目录，另一种是在系统应用中添加搜索功能。对目录进行分类由于展示空间十分有限，列出的信息不全面，如果目录中没有用户感兴趣的资源，则用户还需浏览系统中所有资源进行查找。搜索引擎能根据用户提供的关键字词在系统中进行模糊匹配，但搜索结果与用户对资源的文字描述有很大的关系，如果表述不是很准确，则得到的检索结果也会相去甚远。因此现有技术这两种方式都无法满足用户的很多个性化需求，且存在诸多的局限性和缺点；

第四，现有技术推荐系统采用协同过滤技术最多，以其为基础的推荐能够给出很好的推荐解释，虽然标签体系已经产生，但是以标签为基础进行推荐的系统相对而言还是较少，比较成功的应用就更少了，同时也未能做到基于标签进行商品推荐，现有技术的协同过滤推荐方法不适合标签体系，将推荐算法中只考量用户-资源二维信息，没有采用改进物质扩散法得到标签体系中用户间相似性值，也没有综合考量上下文时间信息、标签的使用频率以及标签和商品的流行度等影响用户相似性的因素，用户相似性评定准确率、精确度和召回率较低，覆盖商品少，推荐结果的多样性较差。

发明内容

针对现有技术的不足，本发明对基于标签体系元数据关系图的物质扩散方法进行改进，充分考虑用户-资源关系，用户-标签关系以及用户三元标注体系，在此基础上考虑用户的兴趣随时间迁移问题、用户对标签的使用频率和热门物品标签对相似性评定计算结果的处理，将这些因素加入到算法中，得到考虑更加全面的用户相似性评定计算方法，计算用户之间的相似度，把用户们感兴趣的资源推荐给目标用户，提高推荐算法的准确率，本发明对额外资源的依赖较少，在实际应用中可行性更强，是一种简洁高效、实用性强的个性化推荐的用户相似性多因素评定方法。

为达到以上技术效果，本发明所采用的技术方案如下：

个性化推荐中的用户相似性多因素评定方法，综合考量用户-商品-标签之间的各种关系改进物质扩散法，基于数据模型中，上下文时间信息、标签频率、商品和标签的流行度因素也会影响相似性计算评定结果，将这些因素全部融入用户相似性评定算法中，根据标注体系的用户相似性计算评定方法，综合考量标签体系中元素之间的各种关系，并进行加权，得到更加适合的用户相似性计算评定方法；

本发明基于兴趣模型构建方法改进物质扩散法，并综合考虑上下文时间信息、标签频率信息和商品和标签流行度，提出在标签推荐系统中提高相似性结果准确度和商品推荐结果准确度，考量推荐系统中的元素关系以及时间、标签频率、商品和标签的热门程度，提高推荐算法的相关性能和准确率；

用户相似性计算评定得到其相邻用户集合，依据相似用户的商品对其进行个性化推荐，在标签体系中，用户v、标签r和资源j三者之间存在多种形式的关系，包括存在vj收藏、vr使用、vjr注释三种关联，对于元素计算相似性，将元素表示为空间向量，采用改进物质扩散法计算获取最近相邻集，物质扩散法利用用户、标签、商品关系图中值的传递计算相似性，对于vjr三元注释关系，本发明采用如下方式计算相似性：

第一，用户v把它的初始值均匀传递给连接它的每个资源，资源j得到的传递值与vj关系计算结果相同，采用基于vj物质扩散法计算得到用户v、u之间的相似性C1_vu(vj)；

第二，针对用户v标注的资源j，对vjr三元注释关系进行处理，得到对资源j打过标签的用户集合v1和资源j上所打的标签集合r1之间的vr关系图，用户的启动值在所构成的vr关系中传播，每个资源对应的vr关系图中用户u得到的传递值，为用户v所有资源对应的vr关系图中算得的传递给用户u的能量的平均值，此时是针对特定资源的vr关系图，用户v的初始启动值为资源j所获取的传递值，用户u从用户-标签关系图中获取的传递值为C2_vu(vj)，其计算如式5所示，

式中v(j)为用户v标注的资源的集合，C_vu(vr)(j)为根据资源j的vr关系计算得到的用户v、u间的相似性，vjr三元注释关系是对vj关系的扩展，得到基于三元用户注释关系的用户相似性C_vu(vjr)，其计算式如式6所示，

C_vu(vjr)＝c1_vu(vj)+C2_vu(vr) 式6

改进的vjr三元关系的物质扩散方法适用于用户对商品的vj两部关系，针对三元注释关系，当用户对商品并未进行标签标注时，C2_vu(vj)的值为0，则得到的C2_vu(vj)计算相似性方法与根据vj关系计算方式相同，因此根据vjr关系的相似性计算评定算法同样适用于vj关系下的用户相似性计算评定，标签体系中包括用户-资源的收藏关系，用户-标签的使用关系和用户-资源-标签间的标注体系，综合考量这三种关系，vjr关系相似性计算评定方法同样适用于vj关系，对用户-标签使用关系算法和vjr标注体系算法分配不同的权重值，得到基于标签体系物质扩散方法的用户相似性计算评定如式7所示，

C_vu＝kC_vu(vj)+(1-k)C_vu(vjr) 式7

其中k为用户-标签关系下用户相似性的权重值，(1-k)为三元注释算法得到的用户相似性权重值，k为未知变量且其值属于(0,1)，通过给k分配合适的值，得到最优的用户相似性值。

个性化推荐中的用户相似性多因素评定方法，进一步的，用户-资源vj间物质扩散：协同过滤中若两个用户曾经关注过同一资源，那么他们是相似的，物质扩散与其相似，只是没有资源评分，而是资源自身和用户在资源上使用的标签，首先分析vj网址收藏关系，如果两个用户都收藏过同一个网址，得到他们之间具有相似关系，对于vj关系图，给用户设定一个初始值，对该值在图中以用户-资源-用户途径进行传播，即用户v将它的初始设定值传递给对应的资源，资源再将得到的能量传递给资源对应的所有其他用户，具体过程为：

第一步，对于要对其进行资源推荐的用户v，设定它的传递启动值S_v；

第二步，用户v把它的启动值平均传递到每个在vj图中与它相连的资源，由于是均匀分配，每个资源得到的传递值相同，因此资源j得到的传递值计算如式1所示，

式1中，d_v,j表示v是否对资源j有过历史行为，如果有则d_v,j的值为1，如果没有则d_v,j的值为0，w(v)表示用户v的度，即用户v连接到他所收藏网址资源的边的个数；

第三步，资源获取传递值之后，将其再进行反向传递，传递给其他连接到该资源的所有用户，资源将获取的初始值进行传递时也是均匀的，假设资源j得到的v的传递值是n，则的j传递给用户v的值的计算如式2所示，

式2中如果用户u收藏了网址资源j，则d_u,j等于1，如果没有收藏，则其值是0，w(j)表示资源j所连接的用户的边数，即所有收藏了网址资源j的系统用户数；

第四步，每个用户得到的v的传递值为其所获取的资源传递过来的值的总和，用户u得到的用户v的传递值即为二者之间的相似性值，其计算如式3所示，

C_vu(vj)＝∑_j∈Jt_j，vt_u，j 式3

其中J为用户v所购买的商品集合，值从资源向用户传递。

个性化推荐中的用户相似性多因素评定方法，进一步的，用户-标签vr间物质扩散：如果两个用户使用相同的标签，则两者之间也有相似性，通过物质扩散法，用户-标签关系图也能用来获取最近相邻用户，用户将自己的初始启动值传递给标签，标签再将其得到的值传递给连接该标签的用户，传递值在用户-标签-用户之间扩散，具体过程与值在vj关系图中传递方式相同，得到用户v和用户u经过vr关系图计算的相似性C_vu，其计算如式4所示，

C_vu(vr)＝∑_r∈Rt_r，vt_u，r 式4

其中R为标签集合，理解为用户v所打的标签集合。

个性化推荐中的用户相似性多因素评定方法，进一步的，上下文信息包括时间、季节、地点、用户心情，利用这些信息改进推荐结果的准确率，用户所处上下文信息不同，则用户的兴趣也不同，上下文信息对用户在特定环境的兴趣有很大影响；

用户的兴趣爱好是会改变的，对一个商品的兴趣会随着时间逐渐消减或增加，用户的喜好随着时间变化，而每个商品都有其生存周期，体现为用户兴趣随时间转移的特性；

用户对某个商品的兴趣值通常随时间递减，用户越早关注过的商品，当前对其喜欢的可能性越小，因此对vjr中的物质扩散模型进行改进，用户-商品二元关系图中，用户v的启动传递值为1，用户将其分配给连接该用户的商品，但不是平均分配，用户的购买行为发生的越早，则其对商品的兴趣将越小，以e^-βr表示兴趣随时间的衰减公式，其中β为衰减因子，r表示用户购买商品的时间与当前系统时间的天数差距。

个性化推荐中的用户相似性多因素评定方法，进一步的，标签使用频率：用户使用某个标签，则说明其对该标签比较喜欢且对该标签所标注的商品也较喜欢，用户对标签的使用频率也会对用户的相似性产生影响，用户越是经常使用某个标签，则说明其对该标签越感喜欢，同时对该标签所表示的内容也越喜欢，此标签所得到的用户传递的传递值也应该越大，针对vr二元关系图，用户v对标签r使用了S_v,r次，用户v总共使用标签S(v)次，则标签r得到的用户v的传递值t的计算公式如式8所示，

d_v,r表示v是否对标签r有过历史行为，如果有则d_v,r的值为1，如果没有则d_v,r的值为0，标签r获取用户v的传递值之后，再将其传递到用户v，若v使用标签t的次数为S_v,r，标签r被所有用户使用的总次数为S(r)，假设r的初始值为n，则用户u获取的标签r的传递值的计算如式9所示，

d_u,r表示u是否对标签r有过历史行为，如果有则d_u,r的值为1，如果没有则d_u,r的值为0。

个性化推荐中的用户相似性多因素评定方法，进一步的，热门商品和热门标签的处理：热门商品和热门标签影响系统的推荐准确度，热门商品和热门标签不能很好的反映出用户的兴趣爱好，对热门商品和标签进行惩罚，使其对相似性计算评定结果的处理较小；

针对热门商品，根据它的热门程度对其进行惩罚，用户-商品vj关系图中，对于用户v发生过历史行为的商品，先不考虑时间和频率关系，商品平分用户v的传递值，考虑商品的流行度，假设其中有商品比较热门，对其进行惩罚，其获取的传递值应该比其它商品要少，计算如式10所示，

用

对商品j的流行度进行处罚，其中M(j)为购买商品j的用户个数，d_v,j表示v是否对资源j有过历史行为，如果有则d_v,j的值为1，如果没有则d_v,j的值为0，w(v)表示用户v的度，即用户v连接到他所收藏网址资源的边的个数。

个性化推荐中的用户相似性多因素评定方法，进一步的，针对热门标签，当一个标签的热门程度越高，标签所携带的用户个人信息也会越少，对用户相似性的处理也就越小，根据标签热门程度对其进行相应的惩罚，针对vr用户使用标签关系图，得到惩罚过后的标签所获取的传递值计算如式11所示，

其中M(r)为使用该标签的用户数，d_v,r表示v是否对标签r有过历史行为，如果有则d_v,r的值为1，如果没有则d_v,r的值为0，w(r)表示标签r所连接的用户的边数。

个性化推荐中的用户相似性多因素评定方法，进一步的，用户相似性多因素改进评定方法：加入时间因子和热门商品的惩罚因子对基于vj关系的相似性算法C_vu(vj)进行改进，得到改进的相似性计算评定算法如式12所示，

其中e^-βa(j)为时间衰减函数，β为衰减因子，a(j)表示用户对资源商品j发生历史行为的时间与现在时间天数差，M(j)为对物品j发生过历史行为的用户个数。

个性化推荐中的用户相似性多因素评定方法，进一步的，加入时间因子、标签使用频率因子、热门标签惩罚因子对基于用户-标签的二元关系图的相似度算法C_vu(vr)进行改进，得到改进的算法如式13所示，

式6中C_vu(vjr)是由C1_vu(vj)和C2_vu(vr)组成，C1_vu(vj)与C2_vu(vr)计算过程相同，只是采用的是用户的三元标注体系中的用户-商品二维图，C2_vu(vr)是对三元关系进行特殊处理后得到基于单个物品的用户-标签二维图，得到图后的计算过程与C_vu(vr)相同，依据式12和式13对基于标签体系的用户相似性评定计算式C_vu(vjr)进行改进，得到改进后的算法式，然后进行归一化处理，得到改进后的基于标注体系的算法

因此得到改进的基于标签体系的用户相似性评定计算如式14所示，

相似性评定计算式中存在k、β两个变量，本发明通过离线实验对两个变量进行取值，使得推荐算法的准确率更高。

与现有技术相比，本发明的贡献和创新点在于：

第一，提出协同过滤中用户相似性评定方法的改进方法，找到目标用户的最近相邻用户，首先计算两两用户间的相似性，分析当前已有的各种相似性算法，本发明选择比较适合标签体系的物质扩散法，通过分析物质扩散法在解决本发明实际问题时存在的不足，对其进行改进，同时考量上下文时间信息、流行度和标签使用频率等因素，得到更好的相似性计算评定算法，本发明的推荐结果得到更高的准确率、召回率、覆盖率指标，推荐商品的流行度有所降低，说明推荐列表在结果表现的更多样性，能覆盖用户更多种类的可能感兴趣的资源，四个主要的评测指标均表明，本发明方法具有更好的性能。

第二，本发明的创新点之一是对协同过滤推荐方法中的用户相似性计算评定进行改进，使其更加适合标签体系，将推荐算法中原本只考量用户-资源二维信息改为考量用户-标签-资源三维信息，并采用改进物质扩散法得到标签体系中用户间相似性值，综合考量用户-标签-资源之间的各种联系，对物质扩散法进行改进，同时综合考量上下文时间信息、标签的使用频率以及标签和商品的流行度等影响用户相似性的因素，对用户相似性计算评定做进一步的改进，使用改进后的用户相似性多因素评定方法具有更高的准确率、精确度和召回率，覆盖商品更多，推荐结果的多样性也更好；

第三，本发明针对标签体系使用协同过滤算法，将用户、商品二维信息扩展成用户、标签、商品三维信息，能够解决系统冷启动问题和提高推荐结果的准确度，针对其他影响推荐结果的因素，如上下文时间信息、资源热门程度、标签使用频率等，将这些综合考量进用户兴趣建模中，能够获取更好的推荐结果；

第四，相似性评定计算是推荐算法中很重要的一步，本发明对基于标签体系元数据关系图的物质扩散方法进行改进，充分考虑用户-资源关系，用户-标签关系以及用户三元标注体系，在此基础上考虑用户的兴趣随时间迁移问题、用户对标签的使用频率和热门物品标签对相似性评定计算结果的处理，将这些因素加入到算法中，得到考虑更加全面的用户相似性评定计算方法，计算用户之间的相似度，把用户们感兴趣的资源推荐给目标用户，提高推荐算法的准确率，本发明对额外资源的依赖较少，在实际应用中可行性更强，是一种简洁高效、实用性强的个性化推荐的用户相似性多因素评定方法；

第五，本发明的改进的用户相似性多因素评定方法，基于还有许多额外的信息对个性化推荐结果产生影响，采用物质扩散方法进行相似性计算评定时，还有很多的处理因素未考虑到。用户的上下文时间信息、标签的使用频率、热门标签和商品对用户的相似性评定都至关重要，综合各因素，得到用户相似性多因素评定改进算法，提出改进的基于用户-资源-标签关系的用户相似性多因素评定方法，采用离线对比实验验证表明，综合考量推荐系统中的元素关系以及时间、标签频率、商品和标签的热门程度得到的推荐算法能够提高推荐算法的相关性能，提高算法的准确率。

附图说明

图1是本发明的用户-商品值传递示意图。

图2是本发明的改进的用户相似性多因素评定方法结构图。

图3是本发明的用户-商品与用户-标签二部图。

图4是本发明的vjr注解关系值传递示意图。

图5是本发明的用户-商品二元关系图中加入时间因子示意图。

图6是本发明收藏特定数目网址的用户数目分布示意图。

图7是本发明推荐列表各种长度时对应的结果准确率示意图。

具体实施方式

下面结合附图，对本发明提供的个性化推荐中的用户相似性多因素评定方法的技术方案进行进一步的描述，使本领域的技术人员能够更好的理解本发明并能予以实施。

用户相似性计算评定是个性化推荐协同过滤中的重要环节，针对用户相似性问题，本发明综合考量用户-商品-标签之间的各种关系改进物质扩散法，数据模型中，上下文时间信息、标签频率、商品和标签的流行度因素也会影响相似性计算评定结果，因此将这些因素全部融入用户相似性评定算法中，本发明的实验部分，在真实数据集上进行实验，得到相关评测指标，并与现有技术的推荐算法进行对比，实验结果表明：针对标签体系，使用改进后的用户相似性多因素评定方法具有更高的准确率、精确度和召回率，覆盖商品更多，推荐结果的多样性也更好。

一、相似性计算评定

基于用户的推荐首先要找到用户的相似用户集合，因此需要计算评定用户之间的相似性。通过对标签体系进行分析发现，很多的标签体系中都存在数据稀疏问题，相似性计算评定是根据用户标注体系进行的，当用户的商品的标注存在数据稀疏性问题时，依据标注体系进行的相似性计算评定结果也会不准确。同时，相较于现有技术的用户-商品二元关系，基于用户-商品-标签三元关系进行相似性计算评定要复杂很多，元素之间的关系更加错综复杂，导致相似性计算评定更加困难。

针对这些存在的问题，本发明提出改进思想，首先根据标注体系的用户相似性计算评定，基于兴趣模型构建方法，改进物质扩散法，综合考量标签体系中元素之间的各种关系，并进行加权，得到更加适合的用户相似性计算评定方法。

二、物质扩散法计算评定用户相似性

用户相似性计算评定得到其相邻用户集合，进而依据相似用户的商品对其进行个性化推荐。在标签体系中，用户v、标签r和资源j三者之间存在多种形式的关系，包括存在vj收藏、vr使用、vjr注释三种关联，对于元素计算相似性，将元素表示为空间向量，既能看出元素之间的关系，又方便计算，但对于vjr三元注释关系，三者的数据量都很大，计算过程会变得极为费力，且矩阵稀疏的情况下计算结果准确度也不高。现有技术存在一些降维方法处理矩阵，虽然有一定的效果，但是计算量和计算准确性都有待提高。因此，本发明采用物质扩散法计算获取最近相邻集。物质扩散法利用用户、标签、商品关系图中值的传递计算相似性。

(一)用户-资源vj间物质扩散

协同过滤中若两个用户曾经关注过同一资源，那么他们是相似的，物质扩散与其相似，只是没有资源评分，而是资源自身和用户在资源上使用的标签，首先分析vj网址收藏关系，如果两个用户都收藏过同一个网址，得到他们之间具有相似关系，对于vj关系图，给用户设定一个初始值，对该值在图中以用户-资源-用户途径进行传播，即用户v将它的初始设定值传递给对应的资源，资源再将得到的能量传递给资源对应的所有其他用户，具体过程为：

式1中，d_v,j表示v是否对资源j有过历史行为，如果有则d_v,j的值为1，如果没有则d_v,j的值为0，w(v)表示用户v的度，即用户v连接到他所收藏网址资源的边的个数，具体的值递过程如图1(一)所示；

C_vu(vj)＝∑_j∈Jt_j，vt_u，j 式3

其中J为用户v所购买的商品集合，值从资源向用户传递方式如图1(二)所示。

(二)用户-标签vr间物质扩散

如果两个用户使用相同的标签，则两者之间也有相似性，通过物质扩散法，用户-标签关系图也能用来获取最近相邻用户，用户将自己的初始启动值传递给标签，标签再将其得到的值传递给连接该标签的用户，传递值在用户-标签-用户之间扩散，具体过程与值在vj关系图中传递方式相同，得到用户v和用户u经过vr关系图计算的相似性C_vu，其计算如式4所示，

C_vu(vr)＝∑_r∈Rt_r，vt_u，r 式4

其中R为标签集合，理解为用户v所打的标签集合。

三、改进的用户相似性多因素评定方法

不难发现，还有许多额外的信息对个性化推荐结果产生影响，采用物质扩散方法进行相似性计算评定时，还有很多的处理因素未考虑到。用户的上下文时间信息、标签的使用频率、热门标签和商品对用户的相似性评定都至关重要，综合各因素，得到用户相似性多因素评定改进算法，提出改进的基于用户-资源-标签关系的用户相似性多因素评定方法，其组成如图2所示。

(一)改进的物质扩散法

现有技术分别给基于用户-资源和用户-标签的物质扩散计算得到的用户相似性分配不同的权重值，然后进行线性结合得到用户之间的相似性，这种做法显然是不合适的。例如对于《稻草人手记》和《花田半亩》这两本书，用户X打了标签分别为：{平淡、琐事}{生命、洞察}，用户Y与用户X对两本书打了相同的标签，用户Z对两本书所打的标签跟X相反，画出相应的用户-商品二部图和用户-标签二部图，如图3所示。

采用vj和vr两部图的方法计算得到的用户XY和XZ的相似性一样，但分析三个用户所打的标签，XY的相似性高于XZ，用户-资源关系反映的是用户收藏了商品，用户-标签关系反映的是用户使用的标签情况，但将三元关系这样拆分后，用户所打的标签无法跟特定的资源对应起来，而这在相似性计算评定中具有重要价值。因此本发明对上述算法继续改进，对于用户X，假设其初始启动值是1，对于vj和vr两种关系，采用上面的物质传递方法进行计算，而对于vjr三元注释关系，本发明采用如下方式计算相似性：

第二，针对用户v标注的资源j，对vjr三元注释关系进行处理，得到对资源j打过标签的用户集合v1和资源j上所打的标签集合r1之间的vr关系图，用户的启动值在所构成的vr关系中传播，如图4所示。每个资源对应的vr关系图中用户u得到的传递值，为用户v所有资源对应的vr关系图中算得的传递给用户u的能量的平均值，此时是针对特定资源的vr关系图，用户v的初始启动值为资源j所获取的传递值，用户u从用户-标签关系图中获取的传递值为C2_vu(vj)，其计算如式5所示，

式中v(j)为用户v标注的资源的集合，C_vu(vr)(j)为根据资源j的vr关系计算得到的用户v、u间的相似性，vjr三元注释关系是对vj关系的扩展，对式4和式5线性叠加，得到基于三元用户注释关系的用户相似性C_vu(vjr)，其计算式如式6所示，

C_vu(vjr)＝C1_vu(vj)+C2_vu(vr) 式6

假设用户X的初始启动值为1，根据vj关系，如图4(一)所示，得到XY相似性为1/3，XZ相似性也为1/3，然后针对《稻草人手记》的vr关系，如图4(二)所示，得到XY相似性1/2，XZ相似性0，针对《花田半亩》的vj关系，如图4(三)所示，得到XY相似性1/2，XZ的相似性为0，则基于商品处理后的用户、标签关系图，得到XY相似性为(1/2+1/2)/2＝1/2，XZ相似性为0，因此得到XY相似性1/3+(1/3)*(1/2)＝1/2，XZ相似性1/3。

改进的vjr三元关系的物质扩散方法也适用于用户对商品的vj两部关系，针对三元注释关系，当用户对商品并未进行标签标注时，C2_vu(vj)的值为0，则得到的C2_vu(vj)计算相似性方法与根据vj关系计算方式相同，因此根据vjr关系的相似性计算评定算法同样适用于vj关系下的用户相似性计算评定，标签体系中包括用户-资源的收藏关系，用户-标签的使用关系和用户-资源-标签间的标注体系，综合考量这三种关系，vjr关系相似性计算评定方法同样适用于vj关系，对用户-标签使用关系算法和vjr标注体系算法分配不同的权重值，得到基于标签体系物质扩散方法的用户相似性计算评定如式7所示，

C_vu＝kC_vu(vj)+(1-k)C_vu(vjr) 式7

(二)上下文时间信息

上下文信息包括时间、季节、地点、用户心情，利用这些信息改进推荐结果的准确率，用户所处上下文信息不同，则用户的兴趣也不同，上下文信息对用户在特定环境的兴趣有很大影响。

用户的兴趣爱好是会改变的，对一个商品的兴趣会随着时间逐渐消减或增加，用户的喜好随着时间变化，而每个商品都有其生存周期，体现为用户兴趣随时间转移的特性。

改进物质扩散方法得到的相似性算法中，对几种关系图进行物质扩散时，未考虑用户对商品发生历史行为的时间。用户对某个商品的兴趣值通常随时间递减，用户越早关注过的商品，当前对其喜欢的可能性越小，因此对vjr中的物质扩散模型进行改进，实施例为用户-商品二元关系图，用户v的启动传递值为1，用户将其分配给连接该用户的商品，但不是平均分配，用户的购买行为发生的越早，则其对商品的兴趣将越小，以e^-βr表示兴趣随时间的衰减公式，其中β为衰减因子，r表示用户购买商品的时间与当前系统时间的天数差距，假设用户v浏览过的商品{A，B，C，D}所对应的距离当前系统时间天数为{1,2,3,0}，则各个商品得到的用户v的能量值如图5所示。

(三)标签使用频率

除了时间信息，在考量用户的标签信息时，不仅要考量标签的内容，还应该考量标签的使用频率。如果用户经常使用标签“汽车”，说明用户对汽车类的信息比较感兴趣。用户使用某个标签，则说明其对该标签比较喜欢且对该标签所标注的商品也较喜欢，用户对标签的使用频率也会对用户的相似性产生影响，用户越是经常使用某个标签，则说明其对该标签越感喜欢，同时对该标签所表示的内容也越喜欢。因此，此标签所得到的用户传递的传递值也应该越大，针对vr二元关系图，用户v对标签r使用了S_v,r次，用户v总共使用标签S(v)次，则标签r得到的用户v的传递值t的计算公式如式8所示，

d_v,r表示v是否对标签r有过历史行为，如果有则d_v,r的值为1，如果没有则d_v,r的值为0，标签r获取用户v的传递值之后，再将其传递到用户v，若v使用标签t的次数为S_v,r，标签r被所有用户使用的总次数为S(r)，假设r的初始值为n，则用户v获取的标签r的传递值的计算如式9所示，

用户v使用标签r2共50次，总共使用标签次数190次，故r2获取的v的传递值5/19，用户u使用r2共25次，r2被所有用户使用次数为75次，所以用户v获取的传递值为：(25/75)*(5/19)＝5/57。

(四)热门商品和热门标签的处理

热门商品和热门标签对也会影响系统的推荐准确度，热门商品和热门标签不能很好的反映出用户的兴趣爱好，因此需要对热门商品和标签进行惩罚，使其对相似性计算评定结果的处理较小。

例如两个用户都购买了《现代汉语词典》，如果按照前面的推荐算法，会得到用户之间具有相似性。查看《现代汉语词典》的购买情况，发现系统中80％左右的用户都购买过这本书，它是基本上每个用户都会用到的参考书，而不能反映出用户对这本书感兴趣。因此用户购买了同一本书，并不一定兴趣相似，一个商品被系统中多数用户都购买过，如《现代汉语词典》，不能说明二者之间具有相似性，所以相对于其它不热门商品，热门商品对用户相似性值的处理较大。因此针对热门商品，需要根据它的热门程度对其进行惩罚。

针对用户-商品vj关系图，对于用户v发生过历史行为的商品，先不考虑时间和频率关系，商品平分用户v的传递值，考虑商品的流行度，假设其中有商品比较热门，对其进行惩罚，其获取的传递值应该比其它商品要少，计算如式10所示，

用

热门标签对相似性计算评定计算也有影响，当一个标签的热门程度越高，标签所携带的用户个人信息也会越少，对用户相似性的处理也就越小。因此，根据标签热门程度对其进行相应的惩罚，针对vr用户使用标签关系图，得到惩罚过后的标签所获取的传递值计算如式11所示，

(五)用户相似性多因素改进评定方法

加入时间因子和热门商品的惩罚因子对基于vj关系的相似性算法C_vu(vj)进行改进，得到改进的相似性计算评定算法如式12所示，

其中e^-βa(j)为时间衰减函数，β为衰减因子，a(j)表示用户对资源商品j发生历史行为的时间与现在时间天数差，M(j)为对物品j发生过历史行为的用户个数，加入时间因子、标签使用频率因子、热门标签惩罚因子对基于用户-标签的二元关系图的相似度算法C_vu(vr)进行改进，得到改进的算法如式13所示，

相似性评定计算是推荐算法中很重要的一步，本发明对基于标签体系元数据关系图的物质扩散方法进行改进，充分考虑用户-资源关系，用户-标签关系以及用户三元标注体系，在此基础上考虑用户的兴趣随时间迁移问题、用户对标签的使用频率和热门物品标签对相似性评定计算结果的处理，将这些因素加入到算法中，得到考虑更加全面的用户相似性评定计算方法，计算用户之间的相似度，把用户们感兴趣的资源推荐给目标用户。

四、用户相似性多因素评定方法实验

针对本发明提出的用户相似性多因素评定方法，在对物质扩散法进行改进的同时，综合上下文时间信息、资源流行度和标签使用频率信息，选择delicious数据集，在其基础上分别使用改进的用户相似性多因素评定方法和已有的物质扩散法计算评定用户相似性，利用相似性结果得到推荐商品，最后根据推荐结果计算离线指标，对比分析改进的用户相似性多因素评定方法和基于已有物质扩散法计算得到的离线指标，得到改进的用户相似性多因素评定方法的性能。

(一)数据集的选择与分析

Delicious系统允许用户收藏自己喜欢的链接，并对收藏的网址注释，是一个社会化书签体系网站，这种注释是用户对网址内容的描述，也即标签。Delicious数据集是从Delicious系统获取到的用户对网址的标注数据，数据集以<用户ID，网址，标签，时间>格式存在，本发明采用Delicious数据集2020年六月份的98342条数据进行离线实验，对数据集简单统计，由表中标签平均使用次数较小，得出用户对收藏网址有很多未进行标签注释，数据集有一定的稀疏性。统计每个用户所收藏网址的数目Cou1，对每个Cou1得到收藏网址数目与其相等的用户数目，绘制出Cou1与用户数目之间的关系图，如图6所示，其中横坐标是将收藏网址数目取对数，纵坐标是将对应的用户数目取对数，得出两者之间服从长尾分布，且大部分用户收藏网址数都在20以内，同理得到网址个数n与收藏n个网址的用户个数之间、标签个数n与使用n个标签的用户数目之间都为长尾分布。

本发明改进的用户相似性多因素评定方法考虑时间因素，因此对数据集的划分不按照随机划分方式，而是根据时间以8:2的比例进行划分。将25日之前的记录当成训练集，最后6日的记录当成测试集，在测试集上运行本发明的推荐算法得到预测商品之后，同测试集记录进行对比，计算得到衡量算法性能的准确率、覆盖率、召回率、流行度指标。

(二)通过实验确定变量值

改进的用户相似性多因素评定方法中有两个未知参数，一个是对vr关系和vjr得到的相似性进行加权时的一个权值分配参数k，另一个是商品的时间衰减因子β，首先在不考虑β的前提下计算k值，分别给k赋予不同的值，得到根据该值使用改进的用户相似性多因素评定方法计算得到的商品推荐结果，设定推荐列表长度为10，根据推荐列表与测试集数据得到预测准确率曲线，当k取值为0.77时，准确率最高达到0.086，得到k的取值之后，确定时间衰减因子β的取值，对β取不同值，计算对应的准确率指标，结果绘制成图，随着β值的增加，准确率先增加后减少，在β值为0.19时，准确率值取得最大为0.091，在k值为0.77，β值为0.19时计算得到的用户之间的相似性值最佳。

(三)实验结果对比

通过以上计算分析，得到当vr关系与vjr关系计算相似性算法的权值分配为0.77与0.23，且时间衰减因子为0.19时，即k为0.77，β为0.19，计算得到的推荐结果的准确率最高，将参数值带入本发明改进的用户相似性多因素评定方法中，得到相似用户集合，并根据推荐方法进行商品推荐，得到推荐列表，对推荐列表取变化的长度，计算该长度对应的推荐结果的准确率，并针对各项指标与单独基于vj关系和单独基于vr关系计算相似性得到的结果进行对比，对比结果如图7所示。

分析图7能够得出，在推荐列表长度不断增长的情况下，准确率不断下降，且下降速度逐渐缓慢。本发明方法相较于基于用户-资源关系的vj算法和基于用户-标签关系的vr算法，在推荐列表长度小于16范围内结果准确率有明显的提升。对比实验结果显示，本发明的推荐结果得到更高的准确率、召回率、覆盖率指标，推荐商品的流行度有所降低，说明推荐列表在结果表现的更多样性，能覆盖用户更多种类的可能感兴趣的资源，四个主要的评测指标均表明，本发明方法具有更好的性能。

五、发明点总结

互联网的发展使得用户与网络的交互增强，产生了基于标签体系的个性化推荐。本发明改进物质扩散法，并综合考虑上下文时间信息、标签频率信息和商品和标签流行度，得到更适合标签体系的推荐算法。本发明提出在标签推荐系统中提高相似性结果准确度和商品推荐结果准确度，对物质扩散方法进行分析和改进，得到更加符合现实推荐系统情况的推荐算法，采用离线对比实验验证改进算法的性能。结果表明综合考量推荐系统中的元素关系以及时间、标签频率、商品和标签的热门程度得到的推荐算法能够提高推荐算法的相关性能，提高算法的准确率。

Claims

1.个性化推荐中的用户相似性多因素评定方法，其特征在于，综合考量用户-商品-标签之间的各种关系改进物质扩散法，基于数据模型中，上下文时间信息、标签频率、商品和标签的流行度因素也会影响相似性计算评定结果，将这些因素全部融入用户相似性评定算法中，根据标注体系的用户相似性计算评定方法，综合考量标签体系中元素之间的各种关系，并进行加权，得到更加适合的用户相似性计算评定方法；

C_vu(vjr)＝C1_vu(vj)+C2_vu(vr) 式6

C_vu＝kC_vu(vj)+(1-k)C_vu(vjr) 式7

2.根据权利要求1所述的个性化推荐中的用户相似性多因素评定方法，其特征在于，用户-资源vj间物质扩散：协同过滤中若两个用户曾经关注过同一资源，那么他们是相似的，物质扩散与其相似，只是没有资源评分，而是资源自身和用户在资源上使用的标签，首先分析vj网址收藏关系，如果两个用户都收藏过同一个网址，得到他们之间具有相似关系，对于vj关系图，给用户设定一个初始值，对该值在图中以用户-资源-用户途径进行传播，即用户v将它的初始设定值传递给对应的资源，资源再将得到的能量传递给资源对应的所有其他用户，具体过程为：

C_vu(vr)＝∑_j∈Jt_j，vt_u，j 式3

其中J为用户v所购买的商品集合，值从资源向用户传递。

3.根据权利要求2所述的个性化推荐中的用户相似性多因素评定方法，其特征在于，用户-标签vr间物质扩散：如果两个用户使用相同的标签，则两者之间也有相似性，通过物质扩散法，用户-标签关系图也能用来获取最近相邻用户，用户将自己的初始启动值传递给标签，标签再将其得到的值传递给连接该标签的用户，传递值在用户-标签-用户之间扩散，具体过程与值在vj关系图中传递方式相同，得到用户v和用户u经过vr关系图计算的相似性C_vu，其计算如式4所示，

C_vu(vr)＝∑_r∈Rt_r，vt_u，r 式4

其中R为标签集合，理解为用户v所打的标签集合。

4.根据权利要求1所述的个性化推荐中的用户相似性多因素评定方法，其特征在于，上下文信息包括时间、季节、地点、用户心情，利用这些信息改进推荐结果的准确率，用户所处上下文信息不同，则用户的兴趣也不同，上下文信息对用户在特定环境的兴趣有很大影响；

5.根据权利要求1所述的个性化推荐中的用户相似性多因素评定方法，其特征在于，标签使用频率：用户使用某个标签，则说明其对该标签比较喜欢且对该标签所标注的商品也较喜欢，用户对标签的使用频率也会对用户的相似性产生影响，用户越是经常使用某个标签，则说明其对该标签越感喜欢，同时对该标签所表示的内容也越喜欢，此标签所得到的用户传递的传递值也应该越大，针对vr二元关系图，用户v对标签r使用了S_v,r次，用户v总共使用标签S(v)次，则标签r得到的用户v的传递值t的计算公式如式8所示，

6.根据权利要求1所述的个性化推荐中的用户相似性多因素评定方法，其特征在于，热门商品和热门标签的处理：热门商品和热门标签影响系统的推荐准确度，热门商品和热门标签不能很好的反映出用户的兴趣爱好，对热门商品和标签进行惩罚，使其对相似性计算评定结果的处理较小；

用

7.根据权利要求6所述的个性化推荐中的用户相似性多因素评定方法，其特征在于，针对热门标签，当一个标签的热门程度越高，标签所携带的用户个人信息也会越少，对用户相似性的处理也就越小，根据标签热门程度对其进行相应的惩罚，针对vr用户使用标签关系图，得到惩罚过后的标签所获取的传递值计算如式11所示，

8.根据权利要求7所述的个性化推荐中的用户相似性多因素评定方法，其特征在于，用户相似性多因素改进评定方法：加入时间因子和热门商品的惩罚因子对基于vj关系的相似性算法C_vu(vj)进行改进，得到改进的相似性计算评定算法如式12所示，

9.根据权利要求8所述的个性化推荐中的用户相似性多因素评定方法，其特征在于，加入时间因子、标签使用频率因子、热门标签惩罚因子对基于用户-标签的二元关系图的相似度算法C_vu(vr)进行改进，得到改进的算法如式13所示，