CN105975564B - 基于相对熵相似度的知识推荐方法 - Google Patents

基于相对熵相似度的知识推荐方法 Download PDF

Info

Publication number
CN105975564B
CN105975564B CN201610286410.6A CN201610286410A CN105975564B CN 105975564 B CN105975564 B CN 105975564B CN 201610286410 A CN201610286410 A CN 201610286410A CN 105975564 B CN105975564 B CN 105975564B
Authority
CN
China
Prior art keywords
user
formula
degree
line study
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610286410.6A
Other languages
English (en)
Other versions
CN105975564A (zh
Inventor
于瑞国
刘志强
赵满坤
王建荣
喻梅
蔡智勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201610286410.6A priority Critical patent/CN105975564B/zh
Publication of CN105975564A publication Critical patent/CN105975564A/zh
Application granted granted Critical
Publication of CN105975564B publication Critical patent/CN105975564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于相对熵相似度的知识推荐方法,基于构建的在线学习用户与在线知识资源模型,步骤一:根据在线学习用户在线学习浏览记录,建立在线学习用户与项目关系的评分矩阵,对项目基于内容进行聚类,形成项目聚类集合;步骤二:建立在线学习用户与项目聚类集合之间的典型度关系矩阵;步骤三:训练相对熵相似度计算公式参数α、β,得到其最优值;步骤四:使用相对熵相似度公式计算用户之间的相似度;步骤五:根据相似度计算结果,为用户选取“邻居”,形成邻居用户集合;步骤六、根据邻居用户集合,形成相应在线知识资源推荐列。本发明提高传统推荐算法应用到知识推荐上时相似度计算的效果,从而优化最终推荐效果。

Description

基于相对熵相似度的知识推荐方法
技术领域
本发明属于数据挖掘、人工智能和信息检索领域,涉及推荐算法,尤其是一种基于相对熵相似度的知识推荐算法,用来为用户推荐知识,以方便用户获取所需信息,并提高效率。
背景技术
推荐算法跟推荐技术,核心是预测用户对物品的评分,从而找出其可能感兴趣的部分。目前广泛使用的推荐算法有基于内容的推荐(Content-Based Recommendation),协同过滤推荐(Collaborative Filtering Recommendation)和混合推荐算法(HybridRecommendation)。
推荐系统有三个重要的模块:用户建模模块,推荐对象建模模块,推荐算法模块。其中推荐算法模块是推荐系统的核心。上述三种主要的推荐方法就是根据推荐算法模块进行区分的。
基于内容的推荐算法主要利用推荐项目内容的相关属性进行建模,从而为用户进行推荐。该类型推荐算法需要维护物品的信息,故人工参与较多,工作量大。另外,基于内容的推荐算法主要适用于能以文本描述的物品。
从不同角度出发,协同过滤推荐算法又可以分为基于用户的协同过滤推荐算法和基于项目协同过滤推荐算法。基于用户的协同过滤推荐算法主要是利用系统中用户的历史浏览记录,为推荐用户找到与推荐用户拥有相似行为的用户,组成相似用户集合,进而为推荐用户推荐相似集合用户中关注过,但是推荐用户未曾关注过的项目。而基于项目的协同过滤思想主要是利用所有用户历史浏览记录,寻找与推荐用户关注过的项目“相似的”,但是推荐用户未曾关注的项目,为用户进行推荐。无论是基于项目的协同过滤推荐算法,还是基于用户的协同过滤算法均存在一定的问题,即传统的相似度计算公式,不能很好的表达两个用户或物品间真实的相似程度,另外,当数据比较稀疏时,协调过滤推荐难以预测用户对其评分。
发明内容
基于上述现有技术和存在的问题,本发明提出了本发明提供了一种基于相对熵相似度的推荐方法,引入相对熵,重新定义用户之间的相似度关系,从相似度计算公式方面进行优化。
本发明提出了一种基于相对熵相似度的知识推荐方法,基于构建的在线学习用户与在线知识资源模型,该方法以下步骤:
步骤101、根据在线学习用户在线学习浏览记录,建立在线学习用户与项目关系的评分矩阵,对项目基于内容进行聚类,形成项目聚类集合;
步骤102、建立在线学习用户与项目聚类集合之间的典型度关系矩阵;
步骤103、训练相对熵相似度计算公式参数α、β,得到其最优值;参数α、β的最优值需满足使得损失函数f取最小值。损失函数f定义如公式(1)所示:
其中,yi,j表示为0或1,当Ri,j在训练集中出现,即训练集数据中用户i对项目j有评分的时候,将yi,j表示为1,否则将yi,j表示为0,是用户i对项目j的评分预测值,采用随机梯度下降算法寻找合适参数,该损失函数f关于参数下降的方向导数由公式(2)、公式(3)定义:
其中,▽α表示损失函数沿α的方向导数;▽β表示损失函数沿β的方向导数,故由随机梯度下降规则由公式(4)、公式(5)给出:
αt+1=αt-η·▽α (4)
βt+1=βt-η·▽β (5)
与公式(5)相似,η为常数,表示梯度下降的步长,αt为当前推荐对象t的参数α,αt+1为推荐对象t的下一个推荐对象t+1的参数α,βt为当前推荐对象t的参数β,βt+1为推荐对象t的下一个推荐对象t+1的参数β;
步骤104、通过相似度计算公式得到两个用户之间的相似度,基于典型度相对熵相似度的具体计算方法如下式所示:
其中,Ui代表用户i,Uj代表用户j,vi,t表示用户i与推荐对象t关系评分,在基于典型度推荐算法中,vi,t表示用户i在聚类t典型度关系评分,α、β为步骤103训练得到的结果;
步骤105、根据相似度计算结果,为用户选取“邻居”,形成邻居用户集合;
步骤106、根据邻居用户集合,形成相应在线知识资源推荐列。
与现有技术相比,上述技术方案的优点在于:
本发明针对知识推荐算法中存在的问题,提高传统推荐算法应用到知识推荐上时相似度计算的效果,从而优化最终推荐效果。
附图说明
图1为整体示意图;
图2为使用不同相似度计算公式对推荐算法结果的影响的实验结果示意图。
具体实施方式
以下结合附图及具体实施方式,进一步详述本发明的技术方案。
本发明的基于相对熵相似度的知识推荐方法,基于构建的在线学习用户与在线知识资源模型,执行如图1所示的处理流程:
步骤101:根据在线学习用户在线学习浏览记录,建立在线学习用户与项目关系的评分矩阵R,对项目基于内容进行聚类,形成项目聚类集合N;
步骤102:建立在线学习用户与项目聚类集合N之间的典型度关系矩阵;
步骤103:训练相对熵相似度计算公式参数α、β,得到其最优值,参数α、β的最优值需满足使得损失函数f取最小值。损失函数f定义如公式(1)所示。
其中,yi,j表示为0或1,当Ri,j在训练集中出现,即训练集数据中用户i对项目j有评分的时候,将yi,j表示为1,否则将yi,j表示为0,是用户i对项目j的评分预测值。本发明中采用随机梯度下降算法寻找合适参数,该损失函数f关于参数下降的方向导数由公式(2)、公式(3)定义:
其中,▽α表示损失函数沿α的方向导数;▽β表示损失函数沿β的方向导数,故由随机梯度下降规则由公式(4)、公式(5)给出。
αt+1=αt-η·▽α (4)
βt+1=βt-η·▽β (5)
与公式(5)相似,η为常数,表示梯度下降的步长,αt为当前推荐对象t的参数α,αt+1为推荐对象t的下一个推荐对象t+1的参数α,βt为当前推荐对象t的参数β,βt+1为推荐对象t的下一个推荐对象t+1的参数β。
步骤104:通过相似度计算公式得到两个用户之间的相似度。本发明中,用户之间的相似度采用基于典型度相对熵相似度计算公式计算,具体计算方法如公式(6)所示。
其中,Ui代表用户i,Uj代表用户j,vi,t表示用户i与推荐对象t关系评分。在基于典型度推荐算法中,vi,t表示用户i在聚类t典型度关系评分,α、β为步骤103训练得到的结果。
步骤105:根据相似度计算结果,为用户选取“邻居”,形成邻居用户集合。
步骤106:根据邻居用户集合,形成相应在线知识资源推荐列,步骤105和步骤106为本专业人员所熟知的步骤,此处不再详述。
使用不同相似度计算公式对推荐算法结果的影响的实验以Movielens为数据集,采用平均绝对误差MAE作为算法性能的评价标准。MAE值越小,代表算法的性能越好。MAE评价标准在推荐算法中,从整体上衡量算法预测用户对物品评分的准确度,是一种公认有效的评价标准。
固定项目的聚类数,选取不同的邻居选择阈值,实验结果如图2所示。由图2可知,在较大范围的阈值区间,使用相对熵相似度(the Relative Entropy Similarity)的知识推荐算法跟使用其他相似度计算方法的推荐算法相比,性能更优。“邻居选择”阈值表示两个用户之间的相似度大于该阈值时,认为他们是“邻居”。MAE和阈值均为本行业一般从业人员所熟知的概念,此处不再详述。当阈值选取过大时,所有算法的性能均下降,这是由于邻居选择条件过严,导致邻居数太小导致的。从图1可知,阈值选在0.3-0.6比较合理,并且在这个范围内,基于相对熵相似度的知识推荐算法性能最优。

Claims (1)

1.一种基于相对熵相似度的知识推荐方法,基于构建的在线学习用户与在线知识资源模型,其特征在于,该方法以下步骤:
步骤(101)、根据在线学习用户在线学习浏览记录,建立在线学习用户与项目关系的评分矩阵;对项目基于内容进行聚类,形成项目聚类集合;
步骤(102)、建立在线学习用户与项目聚类集合之间的典型度关系矩阵;
步骤(103)、训练相对熵相似度计算公式参数α、β,得到其最优值;参数α、β的最优值需满足使得损失函数f取最小值,损失函数f定义如公式(1)所示:
其中,yi,j表示为0或1,当Ri,j在训练集中出现,即训练集数据中用户i对项目j有评分的时候,将yi,j表示为1,否则将yi,j表示为0,是用户i对项目j的评分预测值,采用随机梯度下降算法寻找合适参数,该损失函数f关于参数下降的方向导数由公式(2)、公式(3)定义:
其中,表示损失函数沿α的方向导数;表示损失函数沿β的方向导数,故由随机梯度下降规则由公式(4)、公式(5)给出:
与公式(5)相似,η为常数,表示梯度下降的步长,αt为当前推荐对象t的参数α,αt+1为推荐对象t的下一个推荐对象t+1的参数α,βt为当前推荐对象t的参数β,βt+1为推荐对象t的下一个推荐对象t+1的参数β;
步骤(104)、通过相似度计算公式得到两个用户之间的相似度,基于典型度相对熵相似度的具体计算方法如下式所示:
其中,Ui代表用户i,Uj代表用户j,vi,t表示用户i与推荐对象t,关系评分,在基于典型度推荐算法中,vi,t表示用户i在聚类t典型度关系评分,α、β为步骤103训练得到的结果;
步骤(105)、根据相似度计算结果,为用户选取“邻居”,形成邻居用户集合;
步骤(106)、根据邻居用户集合,形成相应在线知识资源推荐列。
CN201610286410.6A 2016-04-29 2016-04-29 基于相对熵相似度的知识推荐方法 Active CN105975564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610286410.6A CN105975564B (zh) 2016-04-29 2016-04-29 基于相对熵相似度的知识推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610286410.6A CN105975564B (zh) 2016-04-29 2016-04-29 基于相对熵相似度的知识推荐方法

Publications (2)

Publication Number Publication Date
CN105975564A CN105975564A (zh) 2016-09-28
CN105975564B true CN105975564B (zh) 2019-07-02

Family

ID=56994451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610286410.6A Active CN105975564B (zh) 2016-04-29 2016-04-29 基于相对熵相似度的知识推荐方法

Country Status (1)

Country Link
CN (1) CN105975564B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132963A (zh) * 2017-11-23 2018-06-08 广州优视网络科技有限公司 资源推荐方法和装置、计算设备和存储介质
CN108898353A (zh) * 2018-05-29 2018-11-27 重庆大学 一种基于相似性的项目推荐方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN105138653A (zh) * 2015-08-28 2015-12-09 天津大学 一种基于典型度和难度的题目推荐方法及其推荐装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899273A (zh) * 2015-05-27 2015-09-09 东南大学 一种基于话题和相对熵的网页个性化推荐方法
CN105138653A (zh) * 2015-08-28 2015-12-09 天津大学 一种基于典型度和难度的题目推荐方法及其推荐装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
" 基于典型度的相对熵相似度知识推荐";蔡智勇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20171115(第11期);I138-396
"Research on Entropy-based Collaborative Filtering Algorithm";Chunhui Piao 等;《IEEE International Conference on e-Business Engineering》;20071231;213=220
"Typicality-Based Collaborative Filtering Recommendation";Yi Cai 等;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20140331;第26卷(第3期);766-779
"一种基于改进信息熵的协同过滤算法";曾建新 等;《微计算机信息》;20121231;第28卷(第8期);181-183

Also Published As

Publication number Publication date
CN105975564A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
Bai An interval‐valued intuitionistic fuzzy TOPSIS method based on an improved score function
CN104462383A (zh) 一种基于用户多种行为反馈的电影推荐方法
CN105808698B (zh) 一种面向物联网用户查询请求的TOP-k位置兴趣点推荐方法
CN103745100A (zh) 一种基于项目的混合显性隐性反馈的协同过滤推荐算法
CN103559622A (zh) 基于特征的协同过滤推荐方法
CN102629275A (zh) 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN102982466A (zh) 一种基于用户活跃度的评分预测方法
Allahviranloo et al. A new distance measure and ranking method for generalized trapezoidal fuzzy numbers
US20140229510A1 (en) Method of temporal bipartite projection
CN101957968A (zh) 基于Hadoop的网上交易服务聚合方法
CN105975564B (zh) 基于相对熵相似度的知识推荐方法
CN102521420A (zh) 基于偏好模型的社会化过滤方法
CN111475724A (zh) 一种基于用户相似度的随机游走社交网络事件推荐方法
CN103955524B (zh) 一种基于超图模型的与事件相关的社会化图像查找算法
Tiwari et al. Amalgamating contextual information into recommender system
CN104899321A (zh) 一种基于项目属性评分均值的协同过滤推荐方法
CN108694234A (zh) 一种基于改进协同过滤算法的服务推荐模型
Devika et al. Book recommendation system
Yang Clothing design style recommendation using decision tree algorithm combined with deep learning
Zhang et al. CRUC: Cold-start recommendations using collaborative filtering in internet of things
CN106599074A (zh) 协同过滤推荐系统中的用户时间相关相似度的计算方法
Brandas et al. Data driven decision support systems: an application case in labour market analysis
CN104462480B (zh) 基于典型性的评论大数据挖掘方法
CN110825971B (zh) 融合关系挖掘与协同过滤的物品冷启动推荐算法
CN103886073B (zh) 基于协同过滤的煤矿信息推荐系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant