CN109241448B - 一种针对科技情报的个性化推荐方法 - Google Patents

一种针对科技情报的个性化推荐方法 Download PDF

Info

Publication number
CN109241448B
CN109241448B CN201811273982.6A CN201811273982A CN109241448B CN 109241448 B CN109241448 B CN 109241448B CN 201811273982 A CN201811273982 A CN 201811273982A CN 109241448 B CN109241448 B CN 109241448B
Authority
CN
China
Prior art keywords
user
scientific
information
users
age
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811273982.6A
Other languages
English (en)
Other versions
CN109241448A (zh
Inventor
马肖攀
鄂新华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811273982.6A priority Critical patent/CN109241448B/zh
Publication of CN109241448A publication Critical patent/CN109241448A/zh
Application granted granted Critical
Publication of CN109241448B publication Critical patent/CN109241448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种针对科技情报的个性化推荐方法,所述方法包括以下步骤:(1)利用采集器等工具对系统中使用者、科技情报相关的数据进行采集(2)对采集的数据进行特征处理(3)对特征处理过的数据进行特征计算(4)对数据进行降维处理(5)对降维过后的数据进行聚类(6)同类别里计算使用者之间的相似性(7)对使用者进行个性化推荐。通过对使用者年龄以及动态时间的建模,从而快速有效对使用者进行个性化的推荐。

Description

一种针对科技情报的个性化推荐方法
技术领域
本发明属于计算机信息处理技术领域,具体的,本发明涉及一种针对科技情报的个性化推荐方法。
背景技术
随着互联网的发展以及信息技术的不断完善,人们的日常生活越来越多的参与到互联网当中,例如购物、看电影、听音乐等等,虽然为人们带来了巨大便利,虽然同是也带来了许多难以解决的问题,比如网络上存储着越来越多的数据。这爆炸式的信息量和资源所造成的结果就是信息过载,面对大量无用的信息,信息搜索技术已经难以帮助使用者从中找到需要的信息,在这种背景下,个性化推荐算法的出现正好缓解了此问题,传统的协同过滤算法通过将不同的使用者与不同科技情报联系起来,帮助使用者找到自己感兴趣的科技情报,通过对大量信息进行查找、筛选,协同过滤算法可以把使用者想要得到的信息推送给使用者。传统的协同过滤算法在商业购物网站上的应用已经非常成熟了,但是在科技情报系统中的应用却非常少,科技情报主要是基于各种书籍、论文、专利以及各种知识产权等内容为基础,向大型企业以及个人提供智能化分析的应用需求,以提升企业和个人科技情报的实时感知与智能理解,面对大量的信息,尤其是各种科技情报信息不断的更新,以及系统中大量的使用者,随着时间的推移、使用者年龄的变化,传统的协同过滤算法显然无法对科技情报做出快速准确的建议。特别是在在线系统中,使用者希望他们的请求能够立即得到满足,但是传统的CF却做不到,为了提升传统CF在科技情报系统中推荐的有效性,需要考虑使用者的偏好随着年龄以及时间动态变化的特点。
发明内容
针对上述技术问题,本发明的目的在于,提出了一种针对科技情报的个性化推荐方法,通过对系统中使用者数据的特征处理、特征计算、降维、聚类、相似性计算、推荐结果。可以解决随着使用者年龄以及时间推移所导致的推荐不准确和数据稀疏性等问题。具体技术方案如下:
所述方法包括以下步骤:
获取科技情报系统中使用者的信息以及科技情报的信息,具体为科技情报系统中使用者的信息以及科技情报的信息包括:
使用者在科技情报系统中的编号(Uid)、年龄(Age)、使用者对科技情报的评分(R)、使用者对科技情报的评价时间(Date)、科技情报的编号(Kid)。
对采集的信息进行特征处理,具体为对科技情报系统中使用者的年龄(Age)进行归类,具体归类方法为①18岁及以下对应为类别1,对应权重为w1。②19-35岁对应为类别2,对应权重为w2。③36-50岁对应为类别3,对应权重为w3。④51岁及以上对应为类别4,对应权重为w4。然后对年龄进行加权处理,使不同类别的年龄乘上对应的权重,得到加权年龄(Age')。评价天数(Day)为使用者对科技情报的评价天数,计算方式为Day=当前日期-Date。对评价天数(Day)做加权处理,使权重乘以评价天数,得到加权评价天数(Day')。对特征处理过的信息进行特征计算,具体为根据加权年龄(Age')以及加权评价天数(Day'),对使用者给科技情报的评分(R)进行重新评分。评分方式为Ratings=R/(Age'+Day'),Ratings为使用者对科技情报计算所得评分。
对信息进行降维处理,具体为根据使用者对科技情报的最新评分(Ratings),得到使用者对科技情报的评分矩阵(Rm×n),然后使用奇异值分解对评分矩阵进行降维,通过奇异值分解,得到两个正交矩阵以及一个对角矩阵,通过选取奇异值的数量来达到降维的维度,得到稠密矩阵(R'm×n)。
对降维过后的信息进行聚类,对稠密矩阵(R'm×n)中的使用者进行聚类,聚类的方法为K-means,使类别相同的使用者到同一集合中。随机选择k个使用者向量作为初始质心,将每个使用者向量指派到最近的质心,形成k个簇,重新计算每个簇的质心,直到簇不发生变化或达到最大迭代次数,得到k个不同的用户集合。
计算使用者之间的相似性,具体为在k个不同的用户集合中分别使用皮尔逊相似性计算使用者之间的相似性,得到使用者之间的相似性sim(Ua,Ub),其中Ua、Ub分别为使用者a、b。
对使用者进行个性化推荐,具体为根据使用者之间的相似性,把最相似的前N个使用者确定为邻居,然后计算目标使用者对未评价的科技情报的评分(Pa,k),计算方式为
Figure GDA0003050652790000031
其中
Figure GDA0003050652790000032
分别为用户a与用户b对科技情报评价的平均值,Rb,k为使用者b对科技情报k的评分,通过评分Pa,k的高低对使用者进行个性化推荐。
有益效果
传统的基于用户的协同过滤算法法仅仅考虑用户对科技情报的评分来给用户进行推荐,不能根据使用者的年龄以及时间的推移做出有效的变化,通过本技术方案,科技情报系统可以根据用户的年龄以及用户对科技情报的评价时间,动态的对用户提供更加快速、准确的推荐。
附图说明
图1本发明的方法流程图
图2个性化推荐方法网络组织流程图
具体实施方式
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
具体实施步骤如下:
为使本发明的方案便于理解和实现对技术做更为具体的介绍,如附图1所示,为本发明的方法流程图,本发明方法一共包含7个主要的实施阶段,方案实现是一种针对科技情报的个性化推荐方法,包括以下具体的实施步骤
在步骤101中,科技情报系统中使用者的信息以及科技情报的信息包括:
采集的信息用来做特征提取,为个性化推荐做数据支持,需要采集的信息是使用者以及科技情报相关的数据,使用者为科技情报系统中的用户,科技情报相关的数据包括书籍、论文、专利以及各种知识产权,具体需要使用到的信息包括使用者在科技情报系统中的编号(Uid)、年龄(Age)、使用者对科技情报的评分(R)、使用者对科技情报的评价时间(Date)、科技情报的编号(Kid)。
在步骤102中,对采集的信息进行特征处理操作包括:
因为不同年龄段的用户对科技情报使用频率不同,并且更换信息的频率也不相同,所以需要对科技情报系统中使用者的年龄(Age)进行归类,具体归类方法为①18岁及以下对应为类别1,对应权重为w1。②19-35岁对应为类别2,对应权重为w2。③36-50岁对应为类别3,对应权重为w3。④51岁及以上对应为类别4,对应权重为w4。然后对年龄进行加权处理,使不同类别的年龄乘上对应的权重,得到加权年龄(Age')。评价天数(Day)为使用者对科技情报的评价天数,计算方式为Day=当前日期-Date。对评价天数(Day)做加权处理,使权重乘以评价天数,得到加权评价天数(Day')。
在步骤103中,对特征处理过的信息进行特征计算操作过程包括:
用户评定的科技情报在系统中时间越长,评价的用户就越多。因此,较旧的科技情报保持较长时间,会被更多用户看到并评级。在推荐系统中,给出评级的日期与评级一样重要。因此,在所提出的推荐系统中,计算使用者的年龄以及使用时间并制定增加较新评级的权重,同时降低较旧评级的权重。根据加权年龄(Age')以及加权评价天数(Day'),对使用者给科技情报的评分(R)进行重新评分。评分方式为Ratings=R/(Age'+Day'),Ratings为使用者对科技情报计算所得评分。
在步骤104中,对数据的降维操作过程包括:
原始使用者评级矩阵存在着数据稀疏等问题,通过对原始稀疏矩阵的分解,可以舍弃噪声点和其它不相关的信息,得到相对稠密的矩阵,此后再对用户进行推荐,可以得到更为精确的推荐水平根据使用者对科技情报的最新评分(Ratings),得到使用者对科技情报的评分矩阵(Rm×n),然后使用奇异值分解对评分矩阵进行降维,通过奇异值分解,得到两个正交矩阵以及一个对角矩阵,通过选取奇异值的数量来达到降维的维度,得到稠密矩阵(R'm×n)。
在步骤105中,对使用者的聚类操作包括:
对使用者进行聚类的主要目的是减少了用户搜索邻居的范围,使得算法扩展性得到提高,做法为对稠密矩阵(R'm×n)中的使用者进行聚类,聚类的方法为K-means,使类别相同的使用者到同一集合中。随机选择k个使用者向量作为初始质心,将每个使用者向量指派到最近的质心,形成k个簇,重新计算每个簇的质心,直到簇不发生变化或达到最大迭代次数,得到k个不同的用户集合。
在步骤106中,计算使用者之间的相似性过程包括:
计算使用者之间的相似性主要是用来找到和目标使用者最相似的用户,在k个不同的用户集合中分别使用皮尔逊相似性计算使用者之间的相似性,得到使用者之间的相似性sim(Ua,Ub),其中Ua、Ub分别为使用者a、b。
在步骤107中,对使用者进行个性化推荐包括:
根据使用者之间的相似性,把最相似的前N个使用者确定为邻居,然后计算目标使用者对未评价的科技情报的评分(Pa,k),计算方式为
Figure GDA0003050652790000051
其中
Figure GDA0003050652790000052
分别为用户a与用户b对科技情报评价的平均值,Rb,k为使用者b对科技情报k的评分,通过评分Pa,k的高低对使用者进行个性化推荐。
如图2所示,图中的类1、类2、类3为步骤105完成之后的结果,在这时,当系统中进去其他使用者时,通过计算使用者与每一类的欧氏距离,可以快速确定使用者所在的簇,通过步骤106在簇内进行相似性计算与每一个使用者之间的相似性,再通过步骤107可以快速为使用者进行个性化推荐。
如表1所示,通过本技术方案,动态调整选择出最优的Ratings,与传统的基于用户的协同过滤做对比,均方根误差(RMSE)在邻居数(k)达到40时,明显低于传统协同过滤算法,因此,本技术方案可以给科技情报系统提供更加准确的推荐。
K valuse 传统的CF的RMSE 本技术方案的RMSE
5 1.325 1.118
10 1.163 0.976
20 0.958 0.865
30 0.903 0.768
40 0.978 0.732
50 1.026 0.885
100 1.268 1.012
150 1.539 1.279
200 1.826 1.559
表1。

Claims (1)

1.一种针对科技情报的个性化推荐方法,其特征在于,包括以下步骤:
(1)获取科技情报系统中使用者的信息以及科技情报的信息,具体包括使用者在科技情报系统中的编号Uid、年龄Age、使用者对科技情报的评分R、使用者对科技情报的评价时间Date、科技情报的编号Kid;
(2)对采集的信息进行特征处理,具体为:对科技情报系统中使用者的年龄Age进行归类,具体归类方法为①18岁及以下对应为类别1,对应权重为w1;②19-35岁对应为类别2,对应权重为w2;③36-50岁对应为类别3,对应权重为w3;④51岁及以上对应为类别4,对应权重为w4;然后对年龄进行加权处理,使不同类别的年龄乘上对应的权重,得到加权年龄Age';
评价天数Day为使用者对科技情报的评价天数,计算方式为Day=当前日期-Date;对评价天数Day做加权处理,使权重乘以评价天数,得到加权评价天数Day';
(3)对特征处理过的信息进行特征计算,具体为根据加权年龄Age'以及加权评价天数Day',对使用者给科技情报的评分R进行重新评分,评分方式为Ratings=R/(Age'+Day'),Ratings为使用者对科技情报计算所得评分;
(4)对信息进行降维处理,具体为根据使用者对科技情报的最新评分Ratings,得到使用者对科技情报的评分矩阵Rm×n,然后使用奇异值分解对评分矩阵进行降维,通过奇异值分解,得到两个正交矩阵以及一个对角矩阵,通过选取奇异值的数量来达到降维的维度,得到稠密矩阵R'm×n
(5)对稠密矩阵R'm×n中的使用者进行聚类,聚类的方法为K-means,使类别相同的使用者到同一集合中;随机选择k个使用者向量作为初始质心,将每个使用者向量指派到最近的质心,形成k个簇,重新计算每个簇的质心,直到簇不发生变化或达到最大迭代次数,得到k个不同的用户集合;
(6)计算使用者之间的相似性,具体为在k个不同的用户集合中分别使用皮尔逊相似性计算使用者之间的相似性,得到使用者之间的相似性sim(Ua,Ub),其中Ua、Ub分别为使用者a、b;
(7)对使用者进行个性化推荐,具体为,根据使用者之间的相似性,把最相似的前N个使用者确定为邻居,然后计算目标使用者对未评价的科技情报的评分Pa,k,计算方式为
Figure FDA0003050652780000021
其中
Figure FDA0003050652780000022
分别为用户a与用户b对科技情报评价的平均值,Rb,k为使用者b对科技情报k的评分,通过评分Pa,k的高低对使用者进行个性化推荐。
CN201811273982.6A 2018-10-30 2018-10-30 一种针对科技情报的个性化推荐方法 Active CN109241448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811273982.6A CN109241448B (zh) 2018-10-30 2018-10-30 一种针对科技情报的个性化推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811273982.6A CN109241448B (zh) 2018-10-30 2018-10-30 一种针对科技情报的个性化推荐方法

Publications (2)

Publication Number Publication Date
CN109241448A CN109241448A (zh) 2019-01-18
CN109241448B true CN109241448B (zh) 2021-10-22

Family

ID=65079203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811273982.6A Active CN109241448B (zh) 2018-10-30 2018-10-30 一种针对科技情报的个性化推荐方法

Country Status (1)

Country Link
CN (1) CN109241448B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245684B (zh) * 2019-05-14 2023-02-03 杭州米雅信息科技有限公司 数据处理方法、电子设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334558A (zh) * 2018-01-02 2018-07-27 南京师范大学 一种结合标签和时间因素的协同过滤推荐方法
CN108664658A (zh) * 2018-05-21 2018-10-16 南京大学 一种考虑用户偏好动态变化的协同过滤视频推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080077574A1 (en) * 2006-09-22 2008-03-27 John Nicholas Gross Topic Based Recommender System & Methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334558A (zh) * 2018-01-02 2018-07-27 南京师范大学 一种结合标签和时间因素的协同过滤推荐方法
CN108664658A (zh) * 2018-05-21 2018-10-16 南京大学 一种考虑用户偏好动态变化的协同过滤视频推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Pruning and aging for user histories in collaborative filtering;Dionisis Margaris等;《2016 IEEE Symposium Series on Computational Intelligence (SSCI)》;20161209;全文 *
基于SVD和用户聚类的协同过滤算法研究;王冲;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180515(第5期);全文 *

Also Published As

Publication number Publication date
CN109241448A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN106156127B (zh) 选择数据内容向终端推送的方法及装置
CN108830416B (zh) 基于用户行为的广告点击率预测方法
CN107944035B (zh) 一种融合视觉特征和用户评分的图像推荐方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN110674407A (zh) 基于图卷积神经网络的混合推荐方法
CN107633444B (zh) 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法
CN107122352A (zh) 一种基于k‑means、word2vec的抽取关键词的方法
CN109902235B (zh) 基于蝙蝠优化的用户偏好聚类协同过滤推荐算法
CN113807422B (zh) 融合多特征信息的加权图卷积神经网络评分预测模型
CN104268142B (zh) 基于可拒绝策略的元搜索结果排序方法
CN103020111A (zh) 基于词汇树层次语义模型的图像检索方法
CN107577782B (zh) 一种基于异质数据的人物相似度刻画方法
CN108460486A (zh) 一种基于改进聚类算法和神经网络的电压偏差预测方法
WO2020135642A1 (zh) 一种基于生成对抗网络的模型训练方法及设备
CN109034953B (zh) 一种电影推荐方法
CN107248023B (zh) 一种对标企业名单的筛选方法和装置
CN111324816A (zh) 一种基于区域划分和上下文影响的兴趣点推荐方法
CN115905489B (zh) 一种提供招投标信息搜索服务的方法
CN108664653A (zh) 一种基于K-means的医疗消费客户自动分类方法
CN106777359A (zh) 一种基于受限玻尔兹曼机的文本业务推荐方法
CN111611293A (zh) 一种基于特征加权与MapReduce的离群数据挖掘方法
CN109241448B (zh) 一种针对科技情报的个性化推荐方法
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN111259232B (zh) 一种基于个性化召回的推荐系统优化方法
CN116777573A (zh) 租赁房屋推荐方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant