CN109241448B

CN109241448B - 一种针对科技情报的个性化推荐方法

Info

Publication number: CN109241448B
Application number: CN201811273982.6A
Authority: CN
Inventors: 马肖攀; 鄂新华
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2021-10-22
Anticipated expiration: 2038-10-30
Also published as: CN109241448A

Abstract

本发明公开一种针对科技情报的个性化推荐方法，所述方法包括以下步骤：(1)利用采集器等工具对系统中使用者、科技情报相关的数据进行采集(2)对采集的数据进行特征处理(3)对特征处理过的数据进行特征计算(4)对数据进行降维处理(5)对降维过后的数据进行聚类(6)同类别里计算使用者之间的相似性(7)对使用者进行个性化推荐。通过对使用者年龄以及动态时间的建模，从而快速有效对使用者进行个性化的推荐。

Description

一种针对科技情报的个性化推荐方法

技术领域

本发明属于计算机信息处理技术领域，具体的，本发明涉及一种针对科技情报的个性化推荐方法。

背景技术

随着互联网的发展以及信息技术的不断完善，人们的日常生活越来越多的参与到互联网当中，例如购物、看电影、听音乐等等，虽然为人们带来了巨大便利，虽然同是也带来了许多难以解决的问题，比如网络上存储着越来越多的数据。这爆炸式的信息量和资源所造成的结果就是信息过载，面对大量无用的信息，信息搜索技术已经难以帮助使用者从中找到需要的信息，在这种背景下，个性化推荐算法的出现正好缓解了此问题，传统的协同过滤算法通过将不同的使用者与不同科技情报联系起来，帮助使用者找到自己感兴趣的科技情报，通过对大量信息进行查找、筛选，协同过滤算法可以把使用者想要得到的信息推送给使用者。传统的协同过滤算法在商业购物网站上的应用已经非常成熟了，但是在科技情报系统中的应用却非常少，科技情报主要是基于各种书籍、论文、专利以及各种知识产权等内容为基础，向大型企业以及个人提供智能化分析的应用需求，以提升企业和个人科技情报的实时感知与智能理解，面对大量的信息，尤其是各种科技情报信息不断的更新，以及系统中大量的使用者，随着时间的推移、使用者年龄的变化，传统的协同过滤算法显然无法对科技情报做出快速准确的建议。特别是在在线系统中，使用者希望他们的请求能够立即得到满足，但是传统的CF却做不到，为了提升传统CF在科技情报系统中推荐的有效性，需要考虑使用者的偏好随着年龄以及时间动态变化的特点。

发明内容

针对上述技术问题，本发明的目的在于，提出了一种针对科技情报的个性化推荐方法，通过对系统中使用者数据的特征处理、特征计算、降维、聚类、相似性计算、推荐结果。可以解决随着使用者年龄以及时间推移所导致的推荐不准确和数据稀疏性等问题。具体技术方案如下：

所述方法包括以下步骤：

获取科技情报系统中使用者的信息以及科技情报的信息，具体为科技情报系统中使用者的信息以及科技情报的信息包括：

使用者在科技情报系统中的编号(Uid)、年龄(Age)、使用者对科技情报的评分(R)、使用者对科技情报的评价时间(Date)、科技情报的编号(Kid)。

对采集的信息进行特征处理，具体为对科技情报系统中使用者的年龄(Age)进行归类，具体归类方法为①18岁及以下对应为类别1,对应权重为w₁。②19-35岁对应为类别2,对应权重为w₂。③36-50岁对应为类别3,对应权重为w₃。④51岁及以上对应为类别4,对应权重为w₄。然后对年龄进行加权处理，使不同类别的年龄乘上对应的权重，得到加权年龄(Age')。评价天数(Day)为使用者对科技情报的评价天数，计算方式为Day＝当前日期-Date。对评价天数(Day)做加权处理，使权重乘以评价天数，得到加权评价天数(Day')。对特征处理过的信息进行特征计算，具体为根据加权年龄(Age')以及加权评价天数(Day')，对使用者给科技情报的评分(R)进行重新评分。评分方式为Ratings＝R/(Age'+Day')，Ratings为使用者对科技情报计算所得评分。

对信息进行降维处理，具体为根据使用者对科技情报的最新评分(Ratings)，得到使用者对科技情报的评分矩阵(R_m×n)，然后使用奇异值分解对评分矩阵进行降维，通过奇异值分解，得到两个正交矩阵以及一个对角矩阵，通过选取奇异值的数量来达到降维的维度，得到稠密矩阵(R'_m×n)。

对降维过后的信息进行聚类，对稠密矩阵(R'_m×n)中的使用者进行聚类，聚类的方法为K-means，使类别相同的使用者到同一集合中。随机选择k个使用者向量作为初始质心，将每个使用者向量指派到最近的质心，形成k个簇，重新计算每个簇的质心，直到簇不发生变化或达到最大迭代次数，得到k个不同的用户集合。

计算使用者之间的相似性，具体为在k个不同的用户集合中分别使用皮尔逊相似性计算使用者之间的相似性，得到使用者之间的相似性sim(U_a,U_b)，其中U_a、U_b分别为使用者a、b。

对使用者进行个性化推荐，具体为根据使用者之间的相似性，把最相似的前N个使用者确定为邻居，然后计算目标使用者对未评价的科技情报的评分(P_a,k)，计算方式为

其中

分别为用户a与用户b对科技情报评价的平均值，R_b,k为使用者b对科技情报k的评分，通过评分P_a,k的高低对使用者进行个性化推荐。

有益效果

传统的基于用户的协同过滤算法法仅仅考虑用户对科技情报的评分来给用户进行推荐，不能根据使用者的年龄以及时间的推移做出有效的变化，通过本技术方案，科技情报系统可以根据用户的年龄以及用户对科技情报的评价时间，动态的对用户提供更加快速、准确的推荐。

附图说明

图1本发明的方法流程图

图2个性化推荐方法网络组织流程图

具体实施方式

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

具体实施步骤如下：

为使本发明的方案便于理解和实现对技术做更为具体的介绍，如附图1所示，为本发明的方法流程图，本发明方法一共包含7个主要的实施阶段，方案实现是一种针对科技情报的个性化推荐方法，包括以下具体的实施步骤

在步骤101中，科技情报系统中使用者的信息以及科技情报的信息包括：

采集的信息用来做特征提取，为个性化推荐做数据支持，需要采集的信息是使用者以及科技情报相关的数据，使用者为科技情报系统中的用户，科技情报相关的数据包括书籍、论文、专利以及各种知识产权，具体需要使用到的信息包括使用者在科技情报系统中的编号(Uid)、年龄(Age)、使用者对科技情报的评分(R)、使用者对科技情报的评价时间(Date)、科技情报的编号(Kid)。

在步骤102中，对采集的信息进行特征处理操作包括：

因为不同年龄段的用户对科技情报使用频率不同，并且更换信息的频率也不相同，所以需要对科技情报系统中使用者的年龄(Age)进行归类，具体归类方法为①18岁及以下对应为类别1,对应权重为w₁。②19-35岁对应为类别2,对应权重为w₂。③36-50岁对应为类别3,对应权重为w₃。④51岁及以上对应为类别4,对应权重为w₄。然后对年龄进行加权处理，使不同类别的年龄乘上对应的权重，得到加权年龄(Age')。评价天数(Day)为使用者对科技情报的评价天数，计算方式为Day＝当前日期-Date。对评价天数(Day)做加权处理，使权重乘以评价天数，得到加权评价天数(Day')。

在步骤103中，对特征处理过的信息进行特征计算操作过程包括：

用户评定的科技情报在系统中时间越长，评价的用户就越多。因此，较旧的科技情报保持较长时间，会被更多用户看到并评级。在推荐系统中，给出评级的日期与评级一样重要。因此，在所提出的推荐系统中，计算使用者的年龄以及使用时间并制定增加较新评级的权重，同时降低较旧评级的权重。根据加权年龄(Age')以及加权评价天数(Day')，对使用者给科技情报的评分(R)进行重新评分。评分方式为Ratings＝R/(Age'+Day')，Ratings为使用者对科技情报计算所得评分。

在步骤104中，对数据的降维操作过程包括：

原始使用者评级矩阵存在着数据稀疏等问题，通过对原始稀疏矩阵的分解，可以舍弃噪声点和其它不相关的信息，得到相对稠密的矩阵，此后再对用户进行推荐，可以得到更为精确的推荐水平根据使用者对科技情报的最新评分(Ratings)，得到使用者对科技情报的评分矩阵(R_m×n)，然后使用奇异值分解对评分矩阵进行降维，通过奇异值分解，得到两个正交矩阵以及一个对角矩阵，通过选取奇异值的数量来达到降维的维度，得到稠密矩阵(R'_m×n)。

在步骤105中，对使用者的聚类操作包括：

对使用者进行聚类的主要目的是减少了用户搜索邻居的范围，使得算法扩展性得到提高，做法为对稠密矩阵(R'_m×n)中的使用者进行聚类，聚类的方法为K-means，使类别相同的使用者到同一集合中。随机选择k个使用者向量作为初始质心，将每个使用者向量指派到最近的质心，形成k个簇，重新计算每个簇的质心，直到簇不发生变化或达到最大迭代次数，得到k个不同的用户集合。

在步骤106中，计算使用者之间的相似性过程包括：

计算使用者之间的相似性主要是用来找到和目标使用者最相似的用户，在k个不同的用户集合中分别使用皮尔逊相似性计算使用者之间的相似性，得到使用者之间的相似性sim(U_a,U_b)，其中U_a、U_b分别为使用者a、b。

在步骤107中，对使用者进行个性化推荐包括：

根据使用者之间的相似性，把最相似的前N个使用者确定为邻居，然后计算目标使用者对未评价的科技情报的评分(P_a,k)，计算方式为

其中

如图2所示，图中的类1、类2、类3为步骤105完成之后的结果，在这时，当系统中进去其他使用者时，通过计算使用者与每一类的欧氏距离，可以快速确定使用者所在的簇，通过步骤106在簇内进行相似性计算与每一个使用者之间的相似性，再通过步骤107可以快速为使用者进行个性化推荐。

如表1所示，通过本技术方案，动态调整选择出最优的Ratings，与传统的基于用户的协同过滤做对比，均方根误差(RMSE)在邻居数(k)达到40时，明显低于传统协同过滤算法，因此，本技术方案可以给科技情报系统提供更加准确的推荐。

K valuse	传统的CF的RMSE	本技术方案的RMSE
			5	1.325	1.118
10	1.163	0.976
			20	0.958	0.865
30	0.903	0.768
			40	0.978	0.732
50	1.026	0.885
			100	1.268	1.012
150	1.539	1.279
			200	1.826	1.559

表1。

Claims

1.一种针对科技情报的个性化推荐方法，其特征在于，包括以下步骤：

(1)获取科技情报系统中使用者的信息以及科技情报的信息，具体包括使用者在科技情报系统中的编号Uid、年龄Age、使用者对科技情报的评分R、使用者对科技情报的评价时间Date、科技情报的编号Kid；

(2)对采集的信息进行特征处理，具体为：对科技情报系统中使用者的年龄Age进行归类，具体归类方法为①18岁及以下对应为类别1,对应权重为w₁；②19-35岁对应为类别2,对应权重为w₂；③36-50岁对应为类别3,对应权重为w₃；④51岁及以上对应为类别4,对应权重为w₄；然后对年龄进行加权处理，使不同类别的年龄乘上对应的权重，得到加权年龄Age'；

评价天数Day为使用者对科技情报的评价天数，计算方式为Day＝当前日期-Date；对评价天数Day做加权处理，使权重乘以评价天数，得到加权评价天数Day'；

(3)对特征处理过的信息进行特征计算，具体为根据加权年龄Age'以及加权评价天数Day'，对使用者给科技情报的评分R进行重新评分，评分方式为Ratings＝R/(Age'+Day')，Ratings为使用者对科技情报计算所得评分；

(4)对信息进行降维处理，具体为根据使用者对科技情报的最新评分Ratings，得到使用者对科技情报的评分矩阵R_m×n，然后使用奇异值分解对评分矩阵进行降维，通过奇异值分解，得到两个正交矩阵以及一个对角矩阵，通过选取奇异值的数量来达到降维的维度，得到稠密矩阵R'_m×n；

(5)对稠密矩阵R'_m×n中的使用者进行聚类，聚类的方法为K-means，使类别相同的使用者到同一集合中；随机选择k个使用者向量作为初始质心，将每个使用者向量指派到最近的质心，形成k个簇，重新计算每个簇的质心，直到簇不发生变化或达到最大迭代次数，得到k个不同的用户集合；

(6)计算使用者之间的相似性，具体为在k个不同的用户集合中分别使用皮尔逊相似性计算使用者之间的相似性，得到使用者之间的相似性sim(U_a,U_b)，其中U_a、U_b分别为使用者a、b；

(7)对使用者进行个性化推荐，具体为，根据使用者之间的相似性，把最相似的前N个使用者确定为邻居，然后计算目标使用者对未评价的科技情报的评分P_a,k，计算方式为

其中