CN113344671A

CN113344671A - 一种融合信任因素的个性化推荐模型及构建方法

Info

Publication number: CN113344671A
Application number: CN202110701057.4A
Authority: CN
Inventors: 龚映梅; 侯玉寒; 王有刚; 刘俊伯
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2021-09-03
Anticipated expiration: 2041-06-23
Also published as: CN113344671B

Abstract

本发明公开一种融合信任因素的个性化推荐模型的构建方法，包括为计算用户相似度，构建用户‑产品评分矩阵，并在此基础上利用Pearson相关系数初步计算评分相似度；运用信任度量模型计算用户之间的信任相似度；设定参数值将两种相似度融合得到最终相似度计算公式；通过模拟退火算法计算最优参数组合；利用融合后的相似度计算公式得出目标用户的近邻用户，然后代入评分计算公式得出目标用户对某项产品的预测评分，根据评分高低进行排序推荐，即实现TOP‑N推荐。通过将信任因素加入到基于用户的推荐算法中，可以提高为用户推荐关联商品的准确度，从而更高效地帮助用户购买到自己所需要的商品或者获得所需要的信息，提高用户满意度，节省用户的时间和精力。

Description

一种融合信任因素的个性化推荐模型及构建方法

技术领域

本发明涉及一种融合信任因素的个性化推荐模型及构建方法，属于互联网个性化推荐算法技术领域。

背景技术

中国互联网络信息中心(CNNIC)于2020年9月公示第46次《中国互联网络发展状况统计报告》，报告显示，截至2020年6月，我国网民规模达9.40亿，较2020年3月增长3625万，互联网普及率达67.0％，较2020年3月提升2.5个百分点。相较于2019年发布的第43次《报告》来看，我国网民规模增加了1.11亿，互联网普及率提升7.4个百分点。

可见互联网和大数据平台的影响力巨大，线上消费经济与实体经济并行已成为大势所趋，在当前竞争激烈的市场环境下，企业如果还是简单依靠传统营销策略进行产品销售，已经很难有立足之地。依靠大数据和个性化推荐系统，企业可以通过历史记录对用户兴趣进行预测，了解用户的需求偏好，在用户购买物品时提供一系列符合偏好的商品，不仅能够节省用户的时间和精力，还能够刺激用户的购买欲望，帮助挖掘用户的潜在购买需求，提高企业供给的精准度，提高销量，从另一角度来说，还能够帮助企业以销定产，避免不必要的库存堆积。计算机产业和信息技术行业的崛起以及云计算的应用提高了各种工具对数据的运算能力，并且扩大了数据存储容量，这都为大数据的继续发展提供了引擎，也为我们利用大数据进行个性化推荐提供了可行工具。目前大多数的电商平台都在陆续采用个性化推荐的营销模式，比如淘宝等平台的“猜你喜欢”以及网易云音乐的“每日推荐”等栏目。由此可见，个性化推荐是一个双赢的选择，既能为广大顾客带来便利，也能为企业带来利润并且帮助企业充分挖掘顾客的潜在需求。

个性化推荐系统是通过推荐算法来进行精准推荐的，目前传统个性化推荐算法主要包括基于内容、二部图、知识、关联规则挖掘、人口统计信息、推荐效用的个性化推荐算法以及协同过滤推荐算法和混合推荐算法^[1]。其中协同过滤推荐算法又包括基于用户和项目的协同过滤推荐两种。由于经济与互联网发展迅速，目前对于传统推荐算法的改进也成为学者的研究热点，比如考虑到用户多兴趣的个性化推荐以及对于“长尾项目”的推荐等。这些算法能够通过关键性的技术和方法将信息进行过滤和筛选，根据用户的偏好预测并推荐有用信息，从而缓解由于信息过载而带来的成本浪费以及其他复杂问题。在对个性化推荐的效果进行检验时，有很多学者利用了仿真技术在真实数据集上对推荐效果做了验证，以便验证所提算法或思路的效果以及保证系统的可行性。

发明内容

本发明的目的在于一种融合信任因素的个性化推荐模型及构建方法，通过将信任因素加入到基于用户的推荐算法中，可以提高为用户推荐关联商品的准确度，从而更快更高效地帮助用户购买到自己所需要的商品或者获得所需要的信息，提高用户满意度，节省用户的时间和精力。

为实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现：

一种融合信任因素的个性化推荐模型的构建方法，包括以下步骤：

S1：为计算用户相似度，构建用户-产品评分矩阵，并在此基础上利用Pearson相关系数初步计算评分相似度；

S2：运用信任度量模型计算用户之间的信任相似度；

S3：设定参数值将两种相似度融合得到最终相似度计算公式；

S4：通过模拟退火算法计算最优参数组合；

S5：利用融合后的相似度计算公式得出目标用户的近邻用户，然后代入评分计算公式得出目标用户对某项产品的预测评分，根据评分高低进行排序推荐，即实现TOP-N推荐。

进一步的，所述S1通过选取相似度计算公式，构建评分相似度矩阵，将选取的Pearson相关系数公式与用户-产品评分矩阵结合，转换得到公示如下：

该公式左边代表两个用户之间的评分相似度，右边分子中的第一个因式代表该用户对某项产品的评分与对所有产品的平均评分差，第二个因式则代表某近邻用户对同一产品的评分与对所有产品的平均分的评分差；

通过该公式计算得到的相似度矩阵。

进一步的，所述S2信任相似度的计算，采用用户评分矩阵的方法，用B_u表示用户u的评分产品集，B_v表示用户v的评分产品集，B_m表示与用户v具有最多共同评分产品的共同评分交集，B_u∩B_v表示用户u和用户v的共同评分农产品的交集；

令T(u，v)表示用户u和用户v之间的信任关系，即用户u信任用户v的程度，信任度表示公式如下：

进一步的，所述S3在计算出评分相似度、信任相似度后，将二者通过设定参数相加得到融合后的用户相似度，令Sim_new(u,v)表示融合后用户U、V的相似度，具体公式见公式：

Sim_new(u,v)＝αSim(u,v)+(1-α)T(u,v)。

进一步的，所述S4通过模拟退火算法计算最优参数组合，融合相似度模型中的模拟退火算法包括步骤：

a、获取数据集，对数据集进行清洗处理；

b、获取客户之间的trust值以及找出对应的Pearson相关系数；

c、写出计算预测评分程序，即利用本章所构建模型计算预测评分与实际评分差值的MAE、MSE；

d、初始化参数，设定最终返回结果为最小MAE值，设定每次降温迭代次数、阶跃因数以及初始温度；

e、运行以及不断迭代，得出使得MAE值最小的α参数的值，即为本模型最优参数。

进一步的，所述S5TOP-N推荐，针对有历史记录的用户，首先通过融合相似度的计算得出近邻用户，再通过公式计算出目标用户对产品的预测评分，根据预测评分排名进行顺序推荐，具体公式见公式如下：

此公式左边代表预测用户U对某项目的评分(即该项目的可推荐度)，公式右边第一部分为用户U对各项目的历史平均评分，第二项为根据邻居用户(数目可调整)对该项目的评分对用户U评分的调整，将评分较高的产品进行推荐，即TOP-N推荐。

本发明的有益效果：

本发明通过将信任因素加入到基于用户的推荐算法中，可以提高为用户推荐关联商品的准确度，从而更快更高效地帮助用户购买到自己所需要的商品或者获得所需要的信息，提高用户满意度，节省用户的时间和精力。因为该算法需要利用用户相似度进行预测评分计算，所以加入信任因素后，本文为评分相似度和信任相似度各赋予了一个不固定权重，该权重需要具体到数据才能确定最佳位置，因此也间接提高了推荐的准确性和思路的严谨性，为了更快更准确地得到最优参数，本文引入了模拟退火算法，该算法可以直接获得参数最优解而避免了逐个组合代入所带来的计算复杂度高等问题，而且模拟退火算法也具有避免局部过早收敛的优点，可靠度较高，本文通过在真实数据集上的仿真实验证明了两个思路的可行性，以期帮助营销领域在个性化推荐方面取得更长远的发展；

本发明通过将信任因素加入到基于用户的推荐算法中，创新了传统基于用户的个性化推荐算法中的相似度计算模型，提出为评分相似度和信任相似度分别赋予权重系数的思路，提高了推荐精度；

本发明提出利用模拟退火算法直接寻找最优权重系数，降低了计算复杂度，同时提高了推荐精度；

本发明针对融合信任因素的个性化推荐算法的推荐效果和模拟退火算法的寻优能力利用仿真技术进行了测试。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

图1为本发明实施例融合信任因素的个性化推荐模型的构建方法流程图；

图2为本发明实施例中不同参数组合下的MSE变动示意图；

图3为本发明实施例中不同参数组合下的MAE变动示意图；

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

实施例1

构建用户-产品评分矩阵

过构建用户-产品评分矩阵可以计算出用户之间的兴趣相似度，用户相似度的计算是基于用户的协同过滤推荐算法的基础，计算出的用户相似度可以衡量与特定用户具有相同偏好的用户群，即称之为近邻用户，可通过近邻用户的兴趣偏好得出目标用户对某产品的预测评分，进而根据预测评分对目标用户进行产品推荐。用户-产品评分列表及矩阵形式见表1、及下式：

表1用户-产品评分列表

	产品1	产品2	产品3	…	产品m
						用户1	R<sub>11</sub>	R<sub>12</sub>	R<sub>13</sub>	R<sub>1m</sub>
用户2	R<sub>21</sub>	R<sub>22</sub>	R<sub>23</sub>		R<sub>2m</sub>
						用户3	R<sub>31</sub>	R<sub>32</sub>	R<sub>33</sub>	R<sub>3m</sub>
用户…				R<sub>ij</sub>
						用户n	R<sub>n1</sub>	R<sub>n2</sub>	R<sub>n3</sub>	R<sub>nm</sub>

选取相似度计算公式

常见的相似性度量方法包括余弦相似性、Pearson相关系数、Jaccard相似度、修正的余弦相似度等，下面列举常见的几个相似性度量公式。

1.余弦相似度

余弦相似度是表示两个向量在空间上的相对差异。

其中T_uv表示用户u和用户v共同的评分集合，r_iu表示用户u对项目i的评分，r_iv则表示用户v对项目i的评分，R_u和R_v分别表示用户u和用户v对所有项目评分的集合。

2.Pearson相关系数

皮尔森相似度是统计学中的概念，是一个无量纲指标，用于衡量两个向量的线性相关性，其取值介于0到l之间，若取值为0，则表示两个向量不相关，若取值为负数，表示两个向量负相关，若取值为正数，表示两个向量正相关。皮尔森相似度作为一种向量之间的相关性度量方法，已经被广泛应用到计算机各个领域中。

Pcc(u，v)表示用户u和用户v之间的皮尔森相似度，I_uv表示用户u和用户v共同的已评分项目集合，R_uj和R_vj分别表示用户u和用户v对于项目j的评分。

3.Jaccard相似度

Jaccard相似度最早由Jaccard和Paul在1901年提出，一般用于比较样本集之间的相似性和差异性，用两集合的交集大小比上两集合的并集大小得到。

鉴于本文选取的矩阵模型表示方法，本文拟采用Pearson相关系数计算初步用户相似度；

构建评分相似度矩阵

首先将选取的Pearson相关系数公式与用户-产品评分矩阵结合，转换得到公示如下。

该公式左边代表两个用户之间的评分相似度，右边分子中的第一个因式代表该用户对某项产品的评分与对所有产品的平均评分差，第二个因式则代表某近邻用户对同一产品的评分与对所有产品的平均分的评分差。

通过该公式计算得到的相似度矩阵见表2。

表2相似度列表

实施例2

在计算机推荐领域中，Golbeck对信任进行解释：若用户u会给v提供积极的建议，那么可以说明u信任v，反之u不信任v。由于本文在计算用户相似度时准备采用用户评分矩阵的方法，所以在加入信任相似度时着重考虑间接信任关系，即通过共同评分产品集计算信任相似度。两个用户共同评分的产品数量越多，间接信任度越大。用B_u表示用户u的评分产品集，B_v表示用户v的评分产品集，B_m表示与用户v具有最多共同评分产品的共同评分交集，B_u∩B_v表示用户u和用户v的共同评分农产品的交集。

令T(u，v)表示用户u和用户v之间的信任关系，即用户u信任用户v的程度。信任度表示公式如。

由于用户少评分或某些“长尾项目”的存在，用户-产品评分矩阵存在数据稀疏问题，相比较于其他情况下的推荐，用户会更偏向考虑信任网络中邻居用户的购买倾向，即社交网络中的信任关系对产品的个性化推荐具有更重要的意义，因此将信任相似度加入用户相似度的计算，可以提高推荐准确性。

实施例3

融合相似度

在计算出评分相似度、信任相似度后，将二者通过设定参数相加得到融合后的用户相似度，令Sim_new(u,v)表示融合后用户U、V的相似度，具体公式见公式。

Sim_new(u,v)＝αSim(u,v)+(1-α)T(u,v)

实施例4

融合相似度模型中的模拟退火算法包括步骤：

f、获取数据集，对数据集进行清洗处理；

g、获取客户之间的trust值以及找出对应的Pearson相关系数；

h、写出计算预测评分程序，即利用本章所构建模型计算预测评分与实际评分差值的MAE、MSE；

i、初始化参数，设定最终返回结果为最小MAE值，设定每次降温迭代次数、阶跃因数以及初始温度；

j、运行以及不断迭代，得出使得MAE值最小的α参数的值，即为本模型最优参数。

实施例5

S5TOP-N推荐，针对有历史记录的用户，首先通过融合相似度的计算得出近邻用户，再通过公式计算出目标用户对产品的预测评分，根据预测评分排名进行顺序推荐，具体公式见公式如下：

实施例6

仿真实验

数据采集与预处理

本文采用Epinions数据集，该数据集包含49289个用户对139738个项目的共664824条评分记录和用户之间487181条信任关系。评分范围为1-5，评分越高则表示用户对项目的喜爱程度越高。通过从数据集中抽取需要的项目评分信息、信任关系列表得到评分相似度、信任相似度以及预测评分计算数据。

得到数据集后发现数据稀疏度很大，即大部分用户只对少部分产品进行了评分，换种说法也可以理解为很多产品缺少用户评分。由于模型需要构建评分矩阵，所以为了避免出现明显近似上下三角矩阵的情况，我们对数据进行了清洗，首先建立了两个列表，一个是user-item-rating(用户对产品的评分)，另一个是user-user-trust(用户之间是否存在信任关系)，抽取了其中9979条评分数据进行仿真实验，再针对这9979条评分中所涉及到的用户从信任列表中截取出信任关系，如表3、表4；

表3整理及清理前的数据及形式

User	Item	Rating
			1	100	4
1	101	5
			1	10	3
……	……	……
			1	99	3
2	235	4
			2	236	5
……	……	……
			49289	62722	4

表4整理及清理后的数据及形式

User	Item	Rating
			1	1	5
1	2	5
			1	3	5
……	……	……
			1	234	2
2	235	4
			2	236	5
……	……	……
			100	9014	4

实验环境与软件

本实验实验平台为机械革命Z2Air，具体配置为i5-10200H/1650Ti，8G/512G PCle高速固态存储。实验软件为Python仿真软件。

基于融合相似度的TOP-N推荐

算法设计

第一步，构建评分矩阵。

利用提前清理好的评分数据列表，针对Epinions数据集中所包含的用户和商品，构建用户-产品二维矩阵，用评分进行填充。

第二步，计算评分相似度。

本文采用Pearson相关系数计算评分相似度，即传统基于用户推荐算法中的用户相似度，在本文中也就是指原相似度公式。将用户两两之间的评分相关系数构建成评分相似度矩阵，便于观察与查找。由于数据量非常大，在此只列举前100位用户与用户1之间存在的非零评分相似度情况，如表5；

表5部分用户评分相似度

第三步，计算新相似度。

首先，根据信任列表找出本实验所涉及用户之间的信任关系，采用二进制进行度量。即如果存在信任关系，那么二者信任值为1，如果不存在信任关系，二者信任值为0。数据形式如下表6。

表6部分用户评分与信任相似度

User	User	Pearson	Trust
				1	2	0.0	1.0
1	3	0.0	1.0
				1	4	0.0	1.0
1	5	0.0	1.0
				1	6	0.0	1.0
1	7	0.8574929257125441	1.0
				1	8	0.0	1.0
1	9	0.0	1.0
				……	……	……	……

其次，将十一组参数值分别代入新相似度计算公式，进行最终相似度的查找与计算。

第四步，预测评分计算。

计算预测评分时又分为以下步骤：

Step1：先找出对应用户之间的Pearson系数。

Step2：计算某一个用户对所涉及产品的平均评分。

Step3：代入公式计算某一用户对某一产品的预测评分值。

第五步，TOP-N推荐。

根据预测评分进行高低排序，挑选前N个产品对特定用户进行推荐。

个性化推荐判断标准选取

随着时代的进步，互联网和大数据发展速度加快，人工智能发展迅速，对于产品的需求也逐渐多元化，因此需要相关领域对个性化推荐系统与时俱进地做出改进，避免供给落后需求的现象出现。对于个性化推荐系统做出的一系列改进，我们也存在一系列的判断指标。

1.分类准确度指标

该指标一般用于二元信息的推荐列表判断，即用户对所推荐的商品喜欢或不喜欢，想要购买或不想要购买(难以量化数据时)。

首先是召回率指标，该指标也称为查全率，顾名思义，是用来检测查找的目标数占总体的比重，在个性化推荐系统中常见于判断TOP-N排序推荐的优劣，在排序推荐中，该指标是指我们得出的可推荐数目与计划推荐数目的比重，用公式表示为：

其中R(u)代表的是根据预测评分所实现的推荐列表，N(u)则是指根据实际评分所得出的用户推荐列表。由此可以看出，召回率结果越高，证明预测推荐列表与实际推荐列表产生的交集数目就越大，因此推荐准确度就越高。

其次是准确率指标，公式如下：

其中，分子代表推荐列表中用户喜欢的商品数，分母代表所有被推荐的商品数，该公式与召回率(Recall)的区别为前者表示一个被推荐产品被用户感兴趣的可能性，后者表示用户感兴趣的某个产品被推荐的可能性。因此二者都能够作为衡量推荐系统性能的指标。

最后是将召回率与准确率结合构成的综合判断指标：F-measure指标。公式如下：

该指标可以在前两个指标的结果发生矛盾时作为最终检测指标，F值在(0,1)区间内，越接近1说明算法越准确。

2.预测准确度指标

评价预测准确度的指标有以下几个：MAE(平均绝对误差指标)、MSE(平均平方误差指标)、NMAE(标准平均平方误差)，公式分别为：

以上公式中，R代表实际评分，P代表预测评分，N代表个数，u代表用户，i代表项目或产品。这些指标都可以用来衡量预测评分与实际评分的偏差大小，因此可以用来判断推荐时的预测准确度。

本实验研究的主要是信任相似度对个性化推荐预测准确度的影响，因此选取MAE和MSE两个标准进行衡量。

各参数下推荐准确度对比

在融合相似度计算公式中，我们设定了α和1-α两个参数，在算法中依次代入可确定最优参数范围，即将有限个参数组合在Python上进行训练，得到每一种情况下的MAE值和MSE值，能够使平均误差最小的即是我们选取的最优参数值。参数组合列表见表7。

表7各参数组合下的推荐误差

平均绝对误差是绝对误差的平均值；MAE能更好地反映预测值误差的实际情况。均方误差是指参数估计值与参数真值之差平方的期望值；MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。

为了便于更直观的观察，将上述实验结果画成折线图展示：如图2、图3：

实验结果可以看出，信任相似度修正了只考虑评分相似度情况下的推荐精确度，且在本数据集下，当α的值为0，1-α为1，即只考虑信任相似度时，推荐精确度最高。

利用模拟退火算法计算参数结果

考虑到实际情况，以及在前人文献中，有学者计算出的最优参数位置不一或者直接设定参数等情况，如果根据实际情况在不同应用中进行推荐时，每次都要利用枚举法或者直接设定默认值法进行算法计算，那么会造成计算复杂度高、运行效率低下以及推荐结果不准确等后果，因此，利用退火算法，直接在推荐过程中筛选出参数最佳位置，可以大大提高算法运行速度和效率，而且同时避免了精确度不准确等问题。

试验运行程序需要在信任相似度推荐算法过程中加入模拟退火过程，即在预测评分之后加入退火程序进行运行，迭代后结果显示：参数α为0时，返回值MAE为最小，结果为0.884241182742854，与算法仿真结果一致，因此该方法是可行的，并且的确提高了推荐效率。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种融合信任因素的个性化推荐模型的构建方法，其特征在于：包括以下步骤：

S2：运用信任度量模型计算用户之间的信任相似度；

S4：通过模拟退火算法计算最优参数组合；

2.如权利要求1所述的融合信任因素的个性化推荐模型的构建方法，其特征在于：所述S1通过选取相似度计算公式，构建评分相似度矩阵，将选取的Pearson相关系数公式与用户-产品评分矩阵结合，转换得到公示如下：

通过该公式计算得到的相似度矩阵。

3.如权利要求1所述的融合信任因素的个性化推荐模型的构建方法，其特征在于：所述S2信任相似度的计算，采用用户评分矩阵的方法，用B_u表示用户u的评分产品集，B_v表示用户v的评分产品集，B_m表示与用户v具有最多共同评分产品的共同评分交集，B_u∩B_v表示用户u和用户v的共同评分农产品的交集；

4.如权利要求1所述的融合信任因素的个性化推荐模型的构建方法，其特征在于：所述S3在计算出评分相似度、信任相似度后，将二者通过设定参数相加得到融合后的用户相似度，令Sim_new(u,v)表示融合后用户U、V的相似度，具体公式见公式：

Sim_new(u,v)＝αSim(u,v)+(1-α)T(u,v)。

5.如权利要求1所述的融合信任因素的个性化推荐模型的构建方法，其特征在于：所述S4通过模拟退火算法计算最优参数组合，融合相似度模型中的模拟退火算法包括步骤：

a、获取数据集，对数据集进行清洗处理；

b、获取客户之间的trust值以及找出对应的Pearson相关系数；

6.如权利要求1所述的融合信任因素的个性化推荐模型的构建方法，其特征在于：所述S5TOP-N推荐，针对有历史记录的用户，首先通过融合相似度的计算得出近邻用户，再通过公式计算出目标用户对产品的预测评分，根据预测评分排名进行顺序推荐，具体公式见公式如下：