CN111310051A - 一种基于知识图谱的冷启动解决方法 - Google Patents

一种基于知识图谱的冷启动解决方法 Download PDF

Info

Publication number
CN111310051A
CN111310051A CN202010125908.0A CN202010125908A CN111310051A CN 111310051 A CN111310051 A CN 111310051A CN 202010125908 A CN202010125908 A CN 202010125908A CN 111310051 A CN111310051 A CN 111310051A
Authority
CN
China
Prior art keywords
user
vector
information
knowledge
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010125908.0A
Other languages
English (en)
Inventor
张兴
岳铭乾
张佳鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Publication of CN111310051A publication Critical patent/CN111310051A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于知识图谱的冷启动解决方法,包括:步骤1:构建专业知识图谱;步骤2:将所述专业知识图谱中的实体和关系信息映射到低维向量空间;步骤3:将新用户加入推荐系统获取所述新用户的属性信息;步骤4:将所述新用户的属性信息整理为实体信息找出对应向量;步骤5:根据所述对应向量及相关关系,反推用户向量;步骤6:将所述用户向量加入到低维向量空间;步骤7:计算所述用户向量与系统中的其他用户向量之间的相似度;步骤8:根据相似度的排序,通过协同过滤算法为所述新用户进行物品推荐。本发明所述解决方法能够应用于新用户/新物品加入推荐系统的阶段,推导其向量表示,从而应用其他推荐算法进行推荐。

Description

一种基于知识图谱的冷启动解决方法
技术领域
本发明属于知识图谱的应用技术领域,具体涉及一种基于知识图谱的冷启动解决方法。
背景技术
针对推荐系统在实际应用场景中经常遇到的用户/物品冷启动问题,如在图书、电影、电商等领域,传统推荐算法会由于新注册用户缺乏与相应物品对应的交互信息而无法进行相关推荐;同理,新物品的加入也存在类似问题;构建专业领域知识图谱,融合多源多方面信息,能够更好地表达用户特征。
现有知识图谱研究主要集中于图谱的构建方法、图谱的知识表示学习,以及知识图谱应用于推荐算法提升推荐性能等,同时也有一些利用知识图谱解决稀疏性(用户物品间的历史交互信息少)和冷启动问题(由于数据稀疏性问题的存在,对于新用户/新物品无法给出推荐)的现有技术。
但这些研究默认于已经获取了所有用户/物品的相关属性信息,并且在知识图谱表示学习训练过程中运用这些信息计算用户/物品向量,换句话说,其冷启动问题是针对数据稀疏性的冷启动问题;但在实际中,真正的冷启动问题是不包含用户/物品的任何信息,在知识图谱中也不包含相应用户/物品向量。
目前现有技术中将知识图谱与推荐相结合的方法,虽然一定程度上解决了稀疏性和针对于稀疏性的冷启动问题,但对于完全缺乏用户/物品信息的冷启动问题,还没有普遍的解决方案。
基于现有技术中存在如上的技术问题,本发明人结合多年的研究经验,提出一种基于知识图谱的冷启动解决方法。
发明内容
本发明提供一种基于知识图谱的冷启动解决方法,本方案能够应用于新用户/新物品加入推荐系统的阶段,推导其向量表示,从而应用推荐算法进行推荐。
为达到上述目的,本发明采用以下技术方案:
一种基于知识图谱的冷启动解决方法,包括:
步骤1:构建专业知识图谱;
步骤2:将所述专业知识图谱中的实体和关系信息映射到低维向量空间;
步骤3:将新用户加入推荐系统,通过要求所述新用户填写或选择相关信息的方式获取所述新用户的属性信息;
步骤4:将所述新用户的属性信息整理为实体信息,将所述实体信息与所述低维向量空间对应,找出对应向量;
步骤5:根据所述对应向量及相关关系,反推用户向量;
步骤6:将所述用户向量加入到低维向量空间,并将所述用户向量注明为推测向量;
步骤7:计算所述用户向量与系统中的其他用户向量之间的相似度;
步骤8:根据相似度的排序,通过协同过滤算法为所述新用户进行物品推荐。
进一步地,步骤1中包括获取应用场景下用户的属性信息和交互信息,过滤无效信息,总结信息的关联关系,总结并抽取实体及对应关系。
进一步地,步骤5中,所述用户向量通过如下公式算得:
Figure BDA0002394371910000021
其中,
Figure BDA0002394371910000022
代表计算得出的用户向量,
Figure BDA0002394371910000023
代表得到的属性信息的实体向量,
Figure BDA0002394371910000024
代表所述属性信息对应的关系向量,n代表用户在注册或加入推荐系统时获取得到的属性数。
进一步地,步骤7中通过所述用户向量与其他系统中的用户向量之间的欧式距离表征相似度:
Figure BDA0002394371910000025
其中,wuv代表所述用户向量与其他系统中的用户向量之间的相似度,
Figure BDA0002394371910000026
代表用户在知识图谱低维向量空间中的向量表示,
Figure BDA0002394371910000027
为用户u的用户向量。
进一步地,步骤8中,根据用户的相似度和用户的历史行为给用户生成推荐列表,通过如下公式计算用户u对一个物品i的兴趣:
Figure BDA0002394371910000031
找出与目标用户u最相似的K个用户,用集合S(u,K)表示,将S中用户喜欢的物品全部提取出来,并去除u已经喜欢的物品,对于每个候选物品i,p(u,i)表示用户u对它感兴趣的程度,wuv表示用户u和用户v的相似度,rvi表示用户v对i的喜欢程度,N(i)表示对物品i有过行为的用户集合。
与现有技术相比,本发明的优越效果在于:
1.本发明所述的基于知识图谱的冷启动解决方法,关注于现有技术忽略的完全缺乏用户相关信息的冷启动问题,为在冷启动条件下表示新用户/物品特征向量,应用传统推荐算法进行推荐提出了解决方案;
2.本发明所述的基于知识图谱的冷启动解决方法,通过知识图谱能够融合多源信息的特点解决冷启动问题,相比于推荐热门物品、基于社交标签的推荐、基于地区的推荐、基于社会面貌的标签推荐等,在推荐系统各指标上有较大提升。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合具体实施方式对本发明进行进一步的详细描述,需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
实施例
一种基于知识图谱的冷启动解决方法,包括:
步骤1:构建专业知识图谱;
步骤2:将所述专业知识图谱中的实体和关系信息映射到低维向量空间,所述低维向量空间通过将实体和关系向量化,一方面更便于推荐算法相似度部分的计算;
步骤3:通过申请或注册的方式将新用户加入推荐系统,通过要求所述新用户填写或选择相关信息的方式,获取所述新用户的属性信息;所述相关信息包括新用户注册时会输入自己的相关信息,如性别、年龄;用户自己对于电影领域的相关喜好,如喜欢的导演、喜欢的电影类型,在实际的应用过程中,这些相关信息通过系统设置来让用户进行选择;同样的,物品加入系统时,可以进行类似操作。
步骤4:将所述新用户的属性信息整理为实体信息,将所述实体信息与所述低维向量空间对应,即从知识图谱实体向量空间中由实体名抽取对应向量,找出对应向量,即关系为一一对应关系实体在图谱中有对应的实体向量,关系在图谱中有对应的关系向量;
步骤5:根据所述对应向量及相关关系,反推用户向量;
步骤6:将所述用户向量加入到低维向量空间,并将所述用户向量注明为推测向量;
步骤7:计算所述用户向量与系统中的其他用户向量之间的相似度;
步骤8:根据相似度的排序,通过协同过滤算法为所述新用户进行物品推荐。
在本实施例的步骤2中,所述推荐系统不局限于某一领域特定的推荐系统,如图书、电影、电子商务等领域的推荐系统都能够适用,以电影推荐系统举例而言,新用户登陆电影推荐系统会输入自己的相关信息如性别、年龄;输入自己对于电影领域的相关喜好,如喜欢的导演,喜欢的电影类型。
在本实施例的步骤1中包括获取应用场景下用户的属性信息和交互信息,过滤无效信息,总结信息的关联关系,总结并抽取实体及对应关系,其中,应用场景包括图书、电影、电商推荐场景;属性信息包括用户的相关信息如性别、年龄;或者标签类的信息如电影领域喜欢的导演,喜欢的电影类型;交互信息包括用户买了哪些书的购买记录,看过哪些电影的观看记录,买过哪些商品的购买记录。
过滤无效信息的过滤具体如下例:
如输入自然语句:“我喜爱的电影类别是:XXX,XXX”切词处理后会得到“我”“喜爱”“的”“电影类别”这些无效信息,此句中我们只需要“XXX”这一电影类别作为属性,无效信息被过滤掉。
在本实施例的步骤4中,对于结构化数据如性别、年龄这样的人口统计数据或院校、政治面貌这样的标签信息与知识图谱中的实体对照,直接提取;对于非结构化数据如服务类别、掌握技能,将输入信息通过切词、去除停用词这样的自然语言处理过程与知识图谱中的实体对照,比对提取。
在本实施例的步骤5中,所述相关关系指实体对应的关系,如(用户A,性别,男)“男”这一属性实体就对应“用户A”的“性别”这一关系,所述用户向量通过如下公式算得:
Figure BDA0002394371910000041
其中,
Figure BDA0002394371910000042
代表计算得出的用户向量,
Figure BDA0002394371910000043
代表得到的属性信息的实体向量,如新用户注册时填入性别男,院校北京邮电大学,喜好读书;则“男”,“北京邮电大学”,“读书”则作为属性实体,对应关系为“性别”,“院校”,“喜好”,
Figure BDA0002394371910000051
代表所述属性信息对应的关系向量,n代表用户在注册或加入推荐系统时获取得到的属性数。
在本实施例的步骤7中通过所述用户向量与其他系统中的用户向量之间的欧式距离表征相似度:
Figure BDA0002394371910000052
其中,wuv代表所述用户向量与其他系统中的用户向量之间的相似度,
Figure BDA0002394371910000053
代表用户在知识图谱低维向量空间中的向量表示,
Figure BDA0002394371910000054
为用户u的用户向量。
在本实施例的步骤8中,根据用户的相似度和用户的历史行为给用户生成推荐列表,根据协同过滤思想,通过如下公式计算用户u对一个物品i的兴趣:
Figure BDA0002394371910000055
找出与目标用户u最相似的K个用户,用集合S(u,K)表示,将S中用户喜欢的物品全部提取出来,并去除u已经喜欢的物品,对于每个候选物品i,p(u,i)表示用户u对它感兴趣的程度,wuv表示用户u和用户v的相似度,rvi表示用户v对i的喜欢程度,N(i)表示对物品i有过行为的用户集合。
以志愿服务领域知识图谱为例对本实施例进行进一步阐述,从志愿服务信息系统获得2018年的数据集,由对志愿服务数据进行数据分析可得,志愿服务数据的特殊性在于若志愿服务招募时间截止,则推荐该项目给志愿者将无意义;且志愿服务都有各自不同的(分布)招募时间长度;因此设计模拟实际逐日测试的实验方法,数据抽取时将数据分类:
(1)在5月21日前招募截止的项目及相关信息,作为完全离线数据,因计算力有限,抽取招募时间在4月30日到5月20日之间三周的项目作为该部分数据。
(2)招募开始在5月21日之前且招募结束在5月28日至30日之间的数据,作为全周在线的数据,设置特殊的截止日期也是出于减小计算量的考量。
(3)在模拟周内每天都有的招募截止的项目,抽取招募开始在21日之前且截止在模拟周之内的项目,每日截止的项目数据集将加入离线数据集,作为后续日期的训练集。
(4)在模拟周内每天都有的招募开始的项目,抽取招募开始在模拟周之内的项目且招募截止在27日之后的项目。
(5)招募开始和截止时间都在模拟周内的项目数据。
根据分类不同的数据划分逐日的训练集和测试集:
(1)完全离线数据将作为模拟周每日的训练集,不做划分。
(2)全周在线数据以2:1划分全周训练集和测试集,并将测试集划分七份作为每日的测试集,且前一日的测试集将作为后几日的训练集。
(3)模拟周内截止的项目数据,以模拟开始到项目截止日的天数d为参数,以
Figure BDA0002394371910000061
划分整体训练集和测试集,并将测试集划分d份作为截止日前每日的测试集,且前一日的测试集将作为后几日的训练集,截止后相关数据存入离线数据集。
(4)模拟周内开始的项目数据,以项目开始日到模拟截止的天数d为参数,抽取
Figure BDA0002394371910000062
的数据作为整体测试集,并将测试集划分d份作为开始日后每日的测试集,且前一日的测试集将作为后几日的训练集。
(5)模拟周内开始并结束的项目数据,以项目开始到项目截止的天数d为参数,在这期间每日抽取
Figure BDA0002394371910000063
作为测试集,且前一日的测试集将作为后几日的训练集,截止后相关数据存入离线数据集。
抽取数据包含志愿者信息表、志愿团体信息表、志愿项目信息表、志愿者团体关系表、志愿者项目关系表,其中志愿者项目关系表是志愿者参与志愿项目的交互行为数据源,即训练/测试集数据源,其他表作为构建志愿领域知识图谱的实体属性关系数据源,数据包含数据表及表主要包含字段信息如表1所示:
Figure BDA0002394371910000064
表1
1、通过分析志愿服务数据,以志愿者、参加及项目构成的三元组总结并抽取实体及对应关系,构建志愿服务领域知识图谱,其中,志愿领域抽取实体如表2所示:
Figure BDA0002394371910000065
Figure BDA0002394371910000071
表2
志愿领域实体关系如表3所示:
Figure BDA0002394371910000072
表3
根据以上三元组实体和关系以及抽取实体及对应关系,构建志愿服务领域知识图谱。
2、将构建的知识图谱三元组信息输入到TransE模型,进行训练,得到实体/关系在同一稠密低维向量空间中的向量表示。
3、筛选测试集中测试志愿者,去除在离线数据或在线数据中已有参与项目信息的志愿者,保留从未参与过志愿项目的作为测试样例,获取其相关属性信息作为注册时信息填入的模拟;筛选过后,模拟周内无参与志愿项目的冷启动志愿者用户逐日占测试集比例为:52.3%、60.1%、62.2%、62.9%、63.3%、68.9%、67.1%,由此得知,冷启动问题突出。
4、在知识图谱低维向量空间中找到测试志愿者对应相关属性向量,根据公式1反推得到志愿者向量。
5、将计算所得志愿者向量加入到志愿服务知识图谱低维向量空间中,并计算其与空间中其他在线志愿者向量的相似度。
6、将相似度排序,剪枝取前3*n个相似志愿者正在参与的项目进行推荐,越多相似志愿者参加某一项目,则其推荐序列越高,其中,此处n代表推荐项目数,且此处剪枝数由实验测试得到最佳参数,非固定值。
本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims (4)

1.一种基于知识图谱的冷启动解决方法,其特征在于,包括:
步骤1:构建专业知识图谱;
步骤2:将所述专业知识图谱中的实体和关系信息映射到低维向量空间;
步骤3:将新用户加入推荐系统,通过要求所述新用户填写或选择相关信息的方式获取所述新用户的属性信息;
步骤4:将所述新用户的属性信息整理为实体信息,将所述实体信息与所述低维向量空间对应,找出对应向量;
步骤5:根据所述对应向量及相关关系,反推用户向量;
步骤6:将所述用户向量加入到低维向量空间,并将所述用户向量注明为推测向量;
步骤7:计算所述用户向量与系统中的其他用户向量之间的相似度;
步骤8:根据相似度的排序,通过协同过滤算法为所述新用户进行物品推荐。
2.根据权利要求1所述的基于知识图谱的冷启动解决方法,其特征在于,步骤1中包括获取应用场景下用户的属性信息和交互信息,过滤无效信息,总结信息的关联关系,总结并抽取实体及对应关系。
3.根据权利要求1所述的基于知识图谱的冷启动解决方法,其特征在于,步骤5中,所述用户向量通过如下公式算得:
Figure FDA0002394371900000011
其中,
Figure FDA0002394371900000012
代表计算得出的用户向量,
Figure FDA0002394371900000013
代表得到的属性信息的实体向量,
Figure FDA0002394371900000014
代表所述属性信息对应的关系向量,n代表用户在注册或加入系统时获取得到的属性数。
4.根据权利要求3所述的基于知识图谱的冷启动解决方法,其特征在于,步骤7中通过所述用户向量与其他系统中的用户向量之间的欧式距离表征相似度:
Figure FDA0002394371900000015
其中,wuv代表所述用户向量与其他系统中的用户向量之间的相似度,
Figure FDA0002394371900000016
代表用户在知识图谱低维向量空间中的向量表示,
Figure FDA0002394371900000017
为用户u的用户向量。
CN202010125908.0A 2019-12-13 2020-02-27 一种基于知识图谱的冷启动解决方法 Pending CN111310051A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911279513X 2019-12-13
CN201911279513 2019-12-13

Publications (1)

Publication Number Publication Date
CN111310051A true CN111310051A (zh) 2020-06-19

Family

ID=71159250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010125908.0A Pending CN111310051A (zh) 2019-12-13 2020-02-27 一种基于知识图谱的冷启动解决方法

Country Status (1)

Country Link
CN (1) CN111310051A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667885A (zh) * 2020-12-04 2021-04-16 四川长虹电器股份有限公司 一种耦合社会信任信息的矩阵分解协同过滤方法和系统
CN112711708A (zh) * 2020-12-30 2021-04-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习的产品方案组合推荐方法
CN113254664A (zh) * 2021-05-14 2021-08-13 震坤行工业超市(上海)有限公司 面向企业的物品推荐方法、装置和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN109903117A (zh) * 2019-01-04 2019-06-18 苏宁易购集团股份有限公司 一种用于商品推荐的知识图谱处理方法及装置
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190122111A1 (en) * 2017-10-24 2019-04-25 Nec Laboratories America, Inc. Adaptive Convolutional Neural Knowledge Graph Learning System Leveraging Entity Descriptions
CN109903117A (zh) * 2019-01-04 2019-06-18 苏宁易购集团股份有限公司 一种用于商品推荐的知识图谱处理方法及装置
CN110188208A (zh) * 2019-06-04 2019-08-30 河海大学 一种基于知识图谱的信息资源查询推荐方法和系统
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667885A (zh) * 2020-12-04 2021-04-16 四川长虹电器股份有限公司 一种耦合社会信任信息的矩阵分解协同过滤方法和系统
CN112667885B (zh) * 2020-12-04 2022-08-16 四川长虹电器股份有限公司 一种耦合社会信任信息的矩阵分解协同过滤方法和系统
CN112711708A (zh) * 2020-12-30 2021-04-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习的产品方案组合推荐方法
CN113254664A (zh) * 2021-05-14 2021-08-13 震坤行工业超市(上海)有限公司 面向企业的物品推荐方法、装置和存储介质
CN113254664B (zh) * 2021-05-14 2022-05-24 震坤行工业超市(上海)有限公司 面向企业的物品推荐方法、装置和存储介质

Similar Documents

Publication Publication Date Title
Jaton We get the algorithms of our ground truths: Designing referential databases in digital image processing
CN111310051A (zh) 一种基于知识图谱的冷启动解决方法
CN110020437A (zh) 一种视频和弹幕相结合的情感分析及可视化方法
CN111061945B (zh) 推荐方法、装置、电子设备,存储介质
CN114896492A (zh) 使用机器学习推荐直播流内容
CN112434151A (zh) 一种专利推荐方法、装置、计算机设备及存储介质
CN109255037B (zh) 用于输出信息的方法和装置
CN103686382A (zh) 一种节目推荐方法
CN111177559B (zh) 文旅服务推荐方法、装置、电子设备及存储介质
CN110083764A (zh) 一种协同过滤算法冷启动问题的解决方法
US20140172501A1 (en) System Apparatus Circuit Method and Associated Computer Executable Code for Hybrid Content Recommendation
CN111291191A (zh) 一种广电知识图谱构建方法及装置
Zhou et al. Marriage in an immigrant society: Education and the transition to first marriage in Hong Kong
US20100332426A1 (en) Method of identifying like-minded users accessing the internet
CN110737845A (zh) 一种实现信息分析的方法、计算机存储介质及系统
Ashraf et al. Personalized news recommendation based on multi-agent framework using social media preferences
CN112732951A (zh) 一种人机交互的方法及装置
CN117312680A (zh) 一种基于用户-实体子图对比学习的资源推荐方法
CN116842478A (zh) 一种基于推特内容的用户属性预测方法
CN110971973A (zh) 一种视频推送方法、装置及电子设备
CN116010711A (zh) 一种融合用户信息及兴趣变化的kgcn模型电影推荐方法
Chen et al. Study on classification of personality-based brand archetype from the perspective of internet
CN112883256B (zh) 多任务处理方法、装置、电子设备及存储介质
Amali et al. Semantic video recommendation system based on video viewers impression from emotion detection
CN113724044A (zh) 基于用户画像的商品推荐、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200619

RJ01 Rejection of invention patent application after publication