CN112765486A - 一种融合知识图谱的注意力机制的电影推荐方法 - Google Patents
一种融合知识图谱的注意力机制的电影推荐方法 Download PDFInfo
- Publication number
- CN112765486A CN112765486A CN202110087376.0A CN202110087376A CN112765486A CN 112765486 A CN112765486 A CN 112765486A CN 202110087376 A CN202110087376 A CN 202110087376A CN 112765486 A CN112765486 A CN 112765486A
- Authority
- CN
- China
- Prior art keywords
- movie
- user
- attention
- recommendation
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明涉及推荐系统技术领域,具体涉及一种融合知识图谱的注意力机制的电影推荐方法,包括:获取用户‑电影交互信息和电影属性信息,通过DAE降噪自动编码器进行数据预处理;将处理的数据集构建知识图谱;对知识图谱进行建模,得到实体向量和关系向量;构建含有记忆组件注意力机制的深度学习混合推荐系统,得到用户向量和物品向量;最后通过联合学习的方式,将知识图谱与混合推荐系统进行结合,通过注意力机制得到用户对候选电影的注意力分值,降序排序得出预测评分值,再进行TOP‑N推荐。
Description
技术领域
本发明涉及推荐系统技术领域,具体涉及一种融合知识图谱的注意力机制的电影推荐方法。
背景技术
随着移动互联网的快速发展以及电子商务的广泛应用,各种娱乐网站平台纷纷崛起,如电影网站、音乐网站、抖音等短视频纷纷崛起。然而随着信息时代的发展,大部分网站都面临着信息过载和信息迷航问题,因此针对这两个问题,推荐系统应运而生。
其中,推荐系统也在各个互联网平台上面扮演者重要的角色,通过推荐系统,用户可以更高效快速地找到自己感兴趣或者存在潜在兴趣的商品或者信息。推荐系统根据用户的历史行为信息,更好的分析用户的历史偏好取向以及潜在兴趣等,可以处理互联网时代由于海量信息数据导致的信息过载问题,以此增强用户体验。但是传统的推荐系统仍然存在一系列问题,比如推荐准确率不高、推荐不具有解释性、数据稀疏问题和冷启动问题等。
针对传统推荐系统的问题,一些专家提出可以加入辅助信息来有效缓解数据稀疏和冷启动等问题,其中知识图谱就是一种典型的辅助信息。知识图谱是一种语义信息网,主要由物理世界的实体及其关系组成,且以三元组的形式呈现,如(头实体、关系、尾实体)或者(实体、属性、属性值)。该语义网蕴含了推荐系统中的物品的大量背景信息和物品之间的关系。并且它可以将用户的用户行为数据构成的用户-物品网络集成起来,从而扩展用户与商品之间的隐藏的关联关系,进一步捕捉用户的潜在兴趣以及用户的深层兴趣。
针对传统推荐算法无法学习到用户或项目的深层次特征,深度学习便具备良好的优势,深度学习擅长于多源异构挖掘和学习,通过与推荐系统结合,可以更加高效地学习用户和项目之间的隐藏特征。
与此同时,对于视频网站领域,普遍存在着推荐准确率不高以及可解释性不够的现象,因此本发明提出一种针对电影网站使用知识图谱和注意力机制的混合推荐系统,其中加入的知识图谱可以有效提高推荐准确率以及具备一定的可解释性作用;深度学习中的具备记忆组件的注意力机制可以更好地捕捉用户兴趣的动态变化,同时提高运行效率,从而适当地提高推荐准确率。
发明内容
为了解决上述问题,本发明提供一种融合知识图谱的注意力机制的电影推荐方法,将知识图谱与具备注意力机制的混合推荐系统结合。
一种融合知识图谱的注意力机制的电影推荐方法,包括以下步骤:
S1、获取电影网站上面的用户-电影交互信息和电影属性信息;
S2、通过DAE降噪自动编码器对获取的用户-电影交互信息和电影属性信息进行预处理,根据预处理之后的用户-电影交互信息和电影属性信息构建知识图谱,知识图谱的形式为三元组形式,由头实体,关系,尾实体构成,构建知识图谱时计算实体之间的相似度,即知识图谱相似度;
S3、使用知识图谱特征学习,对上述构建的知识图谱进行建模,将知识图谱中的每个实体和关系进行学习,得到实体向量和关系向量;
S4、构建含有注意力机制的混合推荐系统,将知识图谱得到的实体向量和关系向量输入含有记忆组件的注意力机制混合推荐系统,通过注意力机制计算出用户对于候选电影的注意力分值,将用户对候选电影的注意力分值降序排列;通过MLP进行评分预测,最终按照评分顺序得到电影TOP-N推荐结果;
S5、将电影TOP-N推荐结果与原始测试集进行对比,通过准确率、召回率、覆盖率等指标对构建的推荐系统进行评估。
进一步的,步骤S2中,知识图谱相似度的计算式如下:
其中,simsg(Ii,Ij)表示电影i与电影j之间的相似度,d(Ii,Ij)表示电影i与电影j之间的欧氏距离,Eki表示实体电影i在向量空间里面的坐标点,Ekj表示实体电影j在向量空间里面的坐标点。
进一步的,所述含有注意力机制的混合推荐系统包括:知识图谱构建模块、基于内容的推荐模块、基于项目的协同过滤推荐模块、融合模块、含有记忆组件的注意力机制模块、softmax模块,所述知识图谱构建模块用于构建知识图谱;所述基于内容的推荐模块用于实现基于内容的电影推荐;所述基于项目的协同过滤推荐模块用于实现基于项目的协同过滤电影推荐;所述融合模块用于将知识图谱模块、基于内容的推荐模块和基于项目的协同过滤推荐模块进行结合,实现混合推荐;所述含有记忆组件的注意力机制模块使用记忆组件捕捉用户的动态变化,得到侯选电影的注意力分值以及用户对侯选电影的注意力分值,将注意力分值降序排序,进行最终的TOP-N推荐。
进一步的,基于内容的推荐模块中采用基于内容的推荐算法进行电影推荐,包括:首先构造电影画像,再通过相似度计算式来寻找最相似的电影,相似度计算公式如下:
将相似度高的电影进行评分预测,评分预测的公式如下:
其中,p(u,i)表示最终预测出的用户u对于电影i的评分值,S(u,K)表示与用户u的兴趣最接近的K个用户,N(i)表示对物品i有过行为的用户集合,wuv表示用户u和用户v的相似程度,rvi表示用户v对物品i的感兴趣程度;
最后将评分高的TOP-N电影进行推荐。
进一步的,在一种优选实施方式中,基于项目的协同过滤推荐模块中采用基于项目的协同过滤的推荐算法进行电影推荐,包括:首先根据修正余弦相似度计算式计算电影之间的相似度,修正余弦相似度计算式如下:
其中,simCF(i,j)表示电影i和电影j的相似度,N(i)表示喜欢电影i的用户数,N(j)表示喜欢电影j的用户数,N(i)∩N(j)表示同时喜欢电影i、j的用户数;
计算了电影之间的相似度之后,使用如下公式计算用户u对电影j的兴趣度:
其中,puj表示用户u对电影j的兴趣度,N(u)表示用户u喜欢的电影集合,S(j,k)表示和电影j最相近的K个电影的集合,simCF(j,i)是电影j和电影i的相似度,rui是用户u对电影i的兴趣度;
根据上述过程计算出用户u对不同电影的兴趣度,将用户u对不同电影的兴趣度进行排序,向用户u推荐前TOP-N的电影。
进一步的,在一种优选实施方式中,含有记忆组件的注意力机制模块为一个含有记忆组件的注意力机制卷积神经网络,包括卷积层、注意力层、池化层和全连接层,卷积层主要是将输入的电影项目表示矩阵压缩成一个向量;注意力层为含有记忆组件的注意力机制,用于捕捉用户的动态兴趣变化;池化层用于将前面注意力层的结果进行池化操作,去除一系列冗余信息,保留电影特征信息;全连接层将经过池化层的信息通过最后的全连接层进行评分预测结果输出。
进一步的,步骤S4中具体包括:将基于内容的推荐算法的相似度、基于项目的协同过滤的推荐算法的相似度和知识图谱相似度进行融合,得到融合后的相似度,相似度融合公式如下:
sim(Ii,Ij)=αsimCB+βsimCF+γsimsg
其中,α、β、γ分别代表基于内容的推荐算法相似度融合因子,基于项目的协同过滤推荐算法的融合因子、基于知识图谱的融合因子;且这三个融合因子应该满足:α+β+γ=1;
将融合后的相似度sim(Ii,Ij)通过含有记忆组件的注意力机制,根据不同电影的重要性高低得到电影词向量的注意力分数a(Ii,Ij),计算表达式如下:
Relu(x)=max(0,x)
接下来再将得到的注意力分数值经过softmax函数进行归一化处理,从而得到每个电影词向量对应的注意力权重aij,计算表达式如下:
其中,aij∈As*d为归一化处理后的电影注意力权重值,n表示电影总数。
将注意力分值aij按照从高到低排序,得到候选电影的重要性排序;
计算目标用户对于已经经过注意力机制的候选电影的注意力分数:
score(u,i)=Relu(wi(u⊙i)+b1)
式中,score(u,i)是目标用户u对于经过注意力机制的目标电影i的注意力分数,wi、b1是需要学习的权重矩阵和偏置项,通过Relu激活函数得到当前用户对于候选电影的注意力分值;
接下来再将用户对于候选电影的注意力分值通过softmax函数进行归一化处理,公式如下:
其中,aui是指用户u对于电影i归一化后的注意力分值,R(u)表示用户u的历史交互电影项目集;
使用了记忆组件来捕捉用户的动态变化,因此最终的用户对于候选电影的结合记忆组件的注意力分值公式如下:
其中,表示结合记忆组件后,用户u对候选电影i归一化后的注意力分值,R(u)表示的是用户u的历史交互电影项目集,是记忆成分,表示给定用户u的内存组件,且随着时间的推移,电影项目集R(u)将会随着时间不断更新;
最后将用户u对于电影的归一化后的注意力分值按照从高到低进行排序,得到最后的TOP-N电影推荐。
进一步的,步骤S5中,得出的电影推荐结果与原始测试集进行比对,评判出该推荐系统的性能,评判指标包括:准确率、召回率、覆盖率,公式如下:
已知对用户u推荐N个物品为R(u),用户u在测试集上喜欢的物品集合T(u),则准确率公式如下:
召回率公式如下:
覆盖率公式如下:
其中,U表示总的用户集合,I表示总的电影集合。
本发明的有益效果:
本发明针对电影领域出现推荐准确率较低以及推荐结果可解释性不高的现象,提出了一种融合知识图谱的注意力机制的电影推荐方法,将知识图谱与具备记忆组件的注意力机制相结合:首先加入的DAE(降噪自带编码器)在进行数据预处理时有效地处理残缺或损坏数据带来的噪声影响;知识图谱可以解决传统推荐系统存在的冷启动和数据稀疏问题;混合推荐系统带来用的可解释性为最终实现电影网站个性化电影推荐;加入深度神经网络,缩短训练时间有利于模型训练,同时也可以捕捉用户的深层潜在兴趣;结合记忆组件的注意力机制,其中记忆组件可以帮助系统捕捉用户的动态兴趣变化,注意力机制便可以帮助推荐系统在最终的评分预测阶段,有针对性的对重要性高的电影分配高的权重值,为最终的推荐准确率做铺垫。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的知识图谱部分框图;
图2为本发明实施例的混合推荐系统示意图;
图3是本发明的含有记忆组件的注意力机制神经网络图;
图4为本发明实施例的系统模型框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的主要思想包括:首先获取用户-电影交互信息和电影属性信息;利用DAE进行降噪处理;处理好的数据集先构建知识图谱;将构建好的知识图谱与含有记忆组件的注意力机制的混合推荐系统进行结合;将70%的数据集通过该模型,进行调参使模型达到最优;将30%数据集通过训练好的模型,首先得出每个候选电影词向量的注意力分值,再得出用户对候选电影的注意力分值,通过softmax函数进行归一化处理;将处理好的用户对电影的注意力分值降序排序,得出最终的TOP-N推荐。
一种融合知识图谱的注意力机制的电影推荐方法,图1为本实施例的知识图谱框图,在一种优选实施方式中,该方法包括但不限于如下步骤:
S1、获取电影网站Movielens上面的用户-电影交互信息,利用爬虫爬取IMDB电影网站上面对应的电影属性信息。
用户-电影交互信息主要包括:用户对于电影的评分和用户对电影的标签等;电影属性信息主要包括:电影编剧、电影导演、电影主演、电影类型等。
在一种优选实施方式中,步骤S1获取相关数据后,在进行知识图谱构造之前,为了提高推荐的精准性,需要首先对该数据进行简单的预处理,例如:将电影与电影属性关系之间的一对多关系处理为一对一关系,删除部分残缺的电影属性信息和用户-电影交互信息等,同时将输入的数据集导入知识图谱和注意力机制的混合推荐系统时,加入自动降噪编码器(DAE),减少输入信息产生的噪声对最终的推荐结果带来的影响。
S2、根据预处理后的电影网站Movielens的用户-电影交互信息以及IMDB网站的电影属性信息,在Neo4j上面构建知识图谱,知识图谱的形式为三元组形式,由头实体、关系、尾实体构成,或者由实体、类型、属性构成。
如图1所示为本实施例的电影领域知识图谱构建过程,主要包括:首先将提取的外部数据进行转化,全部变成可以处理的结构化数据,再通过对齐、建边等方式得到知识库;最后将知识库进行关系挖掘、实体链接、知识推理、知识问答操作,得到最终的知识图谱。
实体链接主要是将相似度高的实体之间建立连接关系,因此在进行实体链接之前,需要计算各个实体之间的相似度(即知识图谱相似度),知识图谱中的实体相似度计算式如下:
其中,simsg(Ii,Ij)表示电影i与电影j之间的相似度,d(Ii,Ij)表示电影i与电影j之间的欧氏距离,Eki表示实体电影i在向量空间里面的坐标点,Ekj表示实体电影j在向量空间里面的坐标点。
S3、使用知识图谱进行特征学习,对上述构建的知识图谱进行建模,将知识图谱中的每个实体和关系进行学习,得到实体向量和关系向量,同时也保持知识图谱中原有的结构或语义信息。
在一种优选实施方式中,知识图谱进行特征学习的方法可以采用基于距离的翻译模型或基于语义的匹配模型中的任意一种,这两种特征学习方式均是将知识图谱中的每个实体和关系学习得到一个低维向量。
具体地,在一种可选的实施方式中,采用基于距离的翻译模型(TransD方法)进行知识图谱特征学习包括:通常,使用三元组(head,relation,tail)来表示知识,TransD方法使用两个向量来表示每个实体和关系,第一个向量表示实体或关系的意义,另一个向量(称为投影向量)用于构造映射矩阵,其中两个矩阵的映射矩阵定义如下:
Mrh=rphp T+I
Mrt=rptp T+I
h⊥=Mrhh,t⊥=Mrtt
其中,Mrh表示头实体向量关系映射矩阵,Mrt表示尾实体向量关系映射矩阵,p表示映射关系,dr(h,t)表示超平面上面的头实体向量、尾实体向量以及关系之间也满足欧氏距离为零的关系,I为单位矩阵,h和t为实体嵌入,r为关系嵌入,使得hr+r≈tr;把每个head向量(h)和tail向量(t)投影到超平面上,得到新的向量(h⊥和t⊥);映射矩阵由实体和关系定义。
上述基于距离的翻译模型的TransD方法可以应用于大规模知识图谱。
具体地,在另一种可选的实施方式中,采用基于语义的匹配模型进行知识图谱特征学习包括:
基于语义的匹配模型使用基于相似度的评分函数评估三元组的概率,将实体和关系映射到隐语义空间中进行相似度度量。主要方法的代表有SME、NTN、MLP、NAM等。
S4、构建含有注意力机制的混合推荐系统,将知识图谱得到的实体向量和关系向量与含有记忆组件的注意力机制混合推荐系统进行结合,通过注意力机制计算出用户对于候选电影的注意力分值,降序排列,最终按照评分顺序得到电影TOP-N推荐结果。
本实施例针对电影网站的个性化电影推荐,并且考虑到传统的推荐算法存在的数据稀疏和冷启动问题,使用结合记忆组件注意力机制的混合推荐的思想,构建一种含有注意力机制的混合推荐系统,该系统包括:知识图谱构建模块、基于内容的推荐模块、基于项目的协同过滤推荐模块、融合模块、含有记忆组件的注意力机制模块、softmax模块,所述知识图谱构建模块用于构建知识图谱;所述基于内容的推荐模块用于实现基于内容的电影推荐;所述基于项目的协同过滤推荐模块用于实现基于项目的协同过滤电影推荐;所述融合模块用于将知识图谱模块、基于内容的推荐模块和基于项目的协同过滤推荐模块进行结合,实现混合推荐;所述含有记忆组件的注意力机制模块使用记忆组件捕捉用户的动态变化,得到侯选电影的注意力分值以及用户对侯选电影的注意力分值。
传统的混合推荐系统模型框架如图2所示,传统的混合推荐系统模型基于内容的算法+协同过滤算法完成推荐功能,但该方法对所有相关特征的处理单一,没有考虑到用户对不同因素的注意力是不同的,因此导致传统的混合推荐系统模型的推荐准确率不高。本发明考虑传统的混合推荐模型基础之上增加含有记忆组件的注意力神经卷积网络,构建一种新的含有注意力机制的混合推荐系统。其中,基于内容的推荐模块中采用基于内容的推荐算法进行电影推荐,基于内容的推荐算法包括:首先构造电影画像,再根据电影画像来寻找最相似的电影。最相似的电影主要通过相似度计算式来计算,相似度计算公式如下:
其中,simCB(i,j)表示电影i与电影j的相似度,Ru,i表示用户u对电影i的评分,Ru,j表示用户u对电影j的评分,表示用户u对所有电影的平均评分。计算电影相似度时利用修正的余弦相似度会将用户对物品的评分减去用户历史评分的均值,从而避免了用户给出评分时评分标准不一致的问题。
将相似度高的电影进行评分预测,评分预测的公式如下:
其中,p(u,i)表示最终预测出的用户u对于电影i的评分值,S(u,K)表示与用户u的兴趣最接近的K个用户,N(i)表示对电影i有过行为的用户集合,simCB(i,j)表示用户u和用户v的相似程度,rvi表示用户v对电影i的感兴趣程度。
在本实施例中,基于项目的协同过滤推荐模块中采用基于项目的协同过滤的推荐算法进行电影推荐。基于项目的协同过滤的推荐算法分为基于用户的协同过滤算法和基于物品的协同过滤算法,其中基于物品的协同过滤算法包括:首先根据修正余弦相似度计算式计算物品之间的相似度,修正余弦相似度计算式如下:
其中,simCF(i,j)表示电影i和电影j的相似度,N(i)表示喜欢电影i的用户数,N(j)表示购买电影i的用户数,N(i)∩N(j)表示同时喜欢或购买电影i、j的用户数。
计算了电影之间的相似度之后,使用如下公式计算用户u对电影j的兴趣度。
其中,puj表示用户u对电影j的兴趣度,N(u)表示用户u喜欢的电影集合,S(j,k)表示和电影j最相近的K个电影的集合,simCF(j,i)是电影j和电影i的相似度,rui是用户u对电影i的兴趣度。
在本实施例中,含有记忆组件的注意力机制模块为一个含有记忆组件的注意力机制卷积神经网络,如图3所示,包括卷积层、注意力层、池化层和全连接层,具体介绍如下:
卷积层:主要是将输入的电影项目表示矩阵压缩成一个向量,,也就是实际中用户表示的特征向量,公式如下:
注意力层:这里使用了含有记忆组件的注意力机制,其中的记忆组件主要是针对用户的偏好并不是一成不变的,加入记忆组件可以更好地捕捉用户的动态兴趣变化,为最终电影推荐准确率的提高做了一定的铺垫。
池化层:选取最大池化操作将前面注意力层的结果进行池化操作,去除一系列冗余信息,保留电影特征信息;
全连接层(输出层):将经过池化层的信息通过最后的全连接层进行评分预测结果输出。在全连接层后加入softmax函数进行归一化处理,得出最终的含有记忆组件的注意力分值,按照降序排序,得出最终的TOP-N电影推荐。
本发明的混合推荐系统里面加入了具有记忆组件的注意力机制卷积神经网络,如图4所示,其中注意力机制(分配机制)目标是协助模型捕捉重要信息,模型在预测的时候,对用户不同行为的注意力是不一样的,“相关”的行为历史看重一些,“不相关”的历史甚至可以忽略。将注意力机制卷积神经网络加入到推荐系统中可以更好的捕捉用户兴趣变化,深度学习(卷积神经网络)加入缩短训练时间,更好的挖掘出用户的潜在兴趣,提高最终的推荐结果准确率和覆盖率。
在本实施例中,将构建好的知识图谱与混合推荐系统进行结合,主要有三种结合方式:依次训练、联合训练、交替训练。
在一个优选实施方式中,知识图谱与混合推荐系统的结合方式采取交替训练的方式,交替训练方式适用于多任务学习,并且可以防止过拟合,具体包括:上述过程中得到了三个相似度,分别是基于内容的推荐算法的相似度simCB(i,j)、基于项目的协同过滤的推荐算法的相似度simCF(i,j)和知识图谱相似度simsg(Ii,Ij),同时将三个部分计算出来的相似度进行融合,相似度融合公式如下所示:
sim(Ii,Ij)=αsimCB+βsimCF+γsimsg
其中,α、β、γ分别代表基于内容的推荐算法相似度融合因子,基于项目的协同过滤推荐算法的融合因子、基于知识图谱的融合因子。且这三个融合因子应该满足:α+β+γ=1。
将融合后的相似度sim(Ii,Ij)通过含有记忆组件的注意力机制,通过重要性高低分别得到不同的注意力分数,公式如下:
这里选取Relu激活函数,主要是因为在神经网络中,它在避免过拟合现象和数据稀疏激活方面具有优势,且Relu公式为:
Relu(x)=max(0,x)
接下来再将得到的注意力分数值经过softmax函数进行归一化处理,从而得到每个电影词向量对应的注意力权重aij:
其中,aij∈As*d为归一化处理后的电影注意力权重值,根据这个注意力分值,按照从高到低排序,得到候选电影的重要性排序。
接下来就是计算目标用户对于已经经过注意力机制的目标电影的注意力分数:
score(u,i)=Relu(wi(u⊙i)+b1)
式中,score(u,i)是目标用户对于经过注意力机制的目标电影的注意力分数,wi、b1是需要学习的权重矩阵和偏置项,⊙是点乘操作,这里通过Relu激活函数得到当前用户对于候选电影的注意力分值。
接下来再将用户对于候选电影的注意力分值通过softmax函数进行归一化处理,公式如下:
其中,aui是指用户u对于电影i归一化后的注意力分值,R(u)表示用户u的历史交互电影项目集。
因为这里使用了记忆组件来捕捉用户的动态变化,因此最终的用户对于候选电影的结合记忆组件的注意力分值公式如下:
其中,表示结合记忆组件后,用户u对候选电影i归一化后的注意力分值,R(u)表示的是用户u的历史交互电影项目集,是记忆成分,表示给定用户u的内存组件,且随着时间的推移,电影项目集R(u)将会随着时间不断更新。
最后将用户u对于电影i的归一化后的注意力分值按照从高到低进行排序,将注意力分值最高的TOP-N进行推荐,即得到TOP-N电影推荐结果。将测试集得出的电影推荐结果与原始测试集进行对比,通过准确率、召回率、覆盖率等指标对构建的推荐系统进行评估,评判指标主要包括:准确率、召回率、覆盖率等,分别介绍如下:
已知对用户u推荐N个物品为R(u),用户u在测试集上喜欢的物品集合T(u),则准确率公式如下:
召回率公式如下:
覆盖率公式如下:
其中,U表示总的用户集合,I表示总的电影集合。
当介绍本申请的各种实施例时,冠词“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的步骤或特征之外,还可以有其它步骤或特征。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种融合知识图谱的注意力机制的电影推荐方法,其特征在于,包括以下步骤:
S1、获取电影网站上面的用户-电影交互信息和电影属性信息;
S2、通过DAE降噪自动编码器对获取的用户-电影交互信息和电影属性信息进行预处理,根据预处理之后的用户-电影交互信息和电影属性信息构建知识图谱,知识图谱的形式为三元组形式,由头实体,关系,尾实体构成,构建知识图谱时计算实体之间的相似度,即知识图谱相似度;
S3、使用知识图谱特征学习,对上述构建的知识图谱进行建模,将知识图谱中的每个实体和关系进行学习,得到实体向量和关系向量;
S4、构建含有注意力机制的混合推荐系统,将知识图谱得到的实体向量和关系向量输入含有记忆组件的注意力机制混合推荐系统,通过注意力机制计算出用户对于候选电影的注意力分值,将用户对候选电影的注意力分值降序排列;通过MLP进行评分预测,最终按照评分顺序得到电影TOP-N推荐结果;
S5、将电影TOP-N推荐结果与原始测试集进行对比,通过准确率、召回率、覆盖率等指标对构建的推荐系统进行评估。
3.根据权利要求1所述的一种融合知识图谱的注意力机制的电影推荐方法,其特征在于,所述含有注意力机制的混合推荐系统包括:知识图谱构建模块、基于内容的推荐模块、基于项目的协同过滤推荐模块、融合模块、含有记忆组件的注意力机制模块、softmax模块,所述知识图谱构建模块用于构建知识图谱;所述基于内容的推荐模块用于实现基于内容的电影推荐;所述基于项目的协同过滤推荐模块用于实现基于项目的协同过滤电影推荐;所述融合模块用于将知识图谱模块、基于内容的推荐模块和基于项目的协同过滤推荐模块进行结合,实现混合推荐;所述含有记忆组件的注意力机制模块使用记忆组件捕捉用户的动态变化,得到侯选电影的注意力分值以及用户对侯选电影的注意力分值,将注意力分值降序排序,进行最终的TOP-N推荐。
4.根据权利要求3所述的一种融合知识图谱的注意力机制的电影推荐方法,其特征在于,基于内容的推荐模块中采用基于内容的推荐算法进行电影推荐,包括:首先构造电影画像,再通过相似度计算式来寻找最相似的电影,相似度计算公式如下:
将相似度高的电影进行评分预测,评分预测的公式如下:
其中,p(u,i)表示最终预测出的用户u对于电影i的评分值,S(u,K)表示与用户u的兴趣最接近的K个用户,N(i)表示对物品i有过行为的用户集合,wuv表示用户u和用户v的相似程度,rvi表示用户v对物品i的感兴趣程度;
最后将评分高的TOP-N电影进行推荐。
5.根据权利要求3所述的一种融合知识图谱的注意力机制的电影推荐方法,其特征在于,基于项目的协同过滤推荐模块中采用基于项目的协同过滤的推荐算法进行电影推荐,包括:首先根据修正余弦相似度计算式计算电影之间的相似度,修正余弦相似度计算式如下:
其中,simCF(i,j)表示电影i和电影j的相似度,N(i)表示喜欢电影i的用户数,N(j)表示喜欢电影j的用户数,N(i)∩N(j)表示同时喜欢电影i、j的用户数;
计算了电影之间的相似度之后,使用如下公式计算用户u对电影j的兴趣度:
其中,puj表示用户u对电影j的兴趣度,N(u)表示用户u喜欢的电影集合,S(j,k)表示和电影j最相近的K个电影的集合,simCF(j,i)是电影j和电影i的相似度,rui是用户u对电影i的兴趣度;
根据上述过程计算出用户u对不同电影的兴趣度,将用户u对不同电影的兴趣度进行排序,向用户u推荐前TOP-N的电影。
6.根据权利要求3所述的一种融合知识图谱的注意力机制的电影推荐方法,其特征在于,含有记忆组件的注意力机制模块为一个含有记忆组件的注意力机制卷积神经网络,包括卷积层、注意力层、池化层和全连接层,
卷积层:主要是将输入的电影项目表示矩阵压缩成一个向量;
注意力层:含有记忆组件的注意力机制,用于捕捉用户的动态兴趣变化;
池化层:将前面注意力层的结果进行池化操作,去除一系列冗余信息,保留电影特征信息;
全连接层:将经过池化层的信息通过最后的全连接层进行评分预测结果输出。
7.根据权利要求1所述的一种融合知识图谱的注意力机制的电影推荐方法,其特征在于,步骤S4中具体包括:将基于内容的推荐算法的相似度、基于项目的协同过滤的推荐算法的相似度和知识图谱相似度进行融合,得到融合后的相似度,相似度融合公式如下:
sim(Ii,Ij)=αsimCB+βsimCF+γsimsg
其中,α、β、γ分别代表基于内容的推荐算法相似度融合因子,基于项目的协同过滤推荐算法的融合因子、基于知识图谱的融合因子;且这三个融合因子应该满足:α+β+γ=1;
将融合后的相似度sim(Ii,Ij)通过含有记忆组件的注意力机制,根据不同电影的重要性高低得到电影词向量的注意力分数a(Ii,Ij),计算表达式如下:
Relu(x)=max(0,x)
接下来再将得到的注意力分数值经过softmax函数进行归一化处理,从而得到每个电影词向量对应的注意力权重aij,计算表达式如下:
其中,aij∈As*d为归一化处理后的电影注意力权重值,n表示电影总数。
将注意力分值aij按照从高到低排序,得到候选电影的重要性排序;
计算目标用户对于已经经过注意力机制的候选电影的注意力分数:
score(u,i)=Relu(wi(u⊙i)+b1)
式中,score(u,i)是目标用户u对于经过注意力机制的目标电影i的注意力分数,wi、b1是需要学习的权重矩阵和偏置项,通过Relu激活函数得到当前用户对于候选电影的注意力分值;
接下来再将用户对于候选电影的注意力分值通过softmax函数进行归一化处理,公式如下:
其中,aui是指用户u对于电影i归一化后的注意力分值,R(u)表示用户u的历史交互电影项目集;
使用了记忆组件来捕捉用户的动态变化,因此最终的用户对于候选电影的结合记忆组件的注意力分值公式如下:
其中,表示结合记忆组件后,用户u对候选电影i归一化后的注意力分值,R(u)表示的是用户u的历史交互电影项目集,是记忆成分,表示给定用户u的内存组件,且随着时间的推移,电影项目集R(u)将会随着时间不断更新;
最后将用户u对于电影的归一化后的注意力分值按照从高到低进行排序,得到最后的TOP-N电影推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110087376.0A CN112765486B (zh) | 2021-01-22 | 2021-01-22 | 一种融合知识图谱的注意力机制的电影推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110087376.0A CN112765486B (zh) | 2021-01-22 | 2021-01-22 | 一种融合知识图谱的注意力机制的电影推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765486A true CN112765486A (zh) | 2021-05-07 |
CN112765486B CN112765486B (zh) | 2022-04-05 |
Family
ID=75705616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110087376.0A Active CN112765486B (zh) | 2021-01-22 | 2021-01-22 | 一种融合知识图谱的注意力机制的电影推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765486B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190593A (zh) * | 2021-05-12 | 2021-07-30 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于数字人文知识图谱的搜索推荐方法 |
CN113393084A (zh) * | 2021-05-13 | 2021-09-14 | 上海湃道智能科技有限公司 | 作业票流程管理系统 |
CN113407834A (zh) * | 2021-06-18 | 2021-09-17 | 北京工业大学 | 一种基于知识图谱辅助的用户多维度兴趣抽取方法 |
CN113420233A (zh) * | 2021-06-23 | 2021-09-21 | 新疆大学 | 协同知识感知增强网络推荐方法 |
CN113468415A (zh) * | 2021-06-11 | 2021-10-01 | 南京邮电大学 | 一种融合电影属性和交互信息的电影推荐系统 |
CN113505215A (zh) * | 2021-06-30 | 2021-10-15 | 北京明略软件系统有限公司 | 产品推荐方法、装置、电子设备和存储介质 |
CN113553444A (zh) * | 2021-07-27 | 2021-10-26 | 之江实验室 | 一种基于超边的审计知识图谱表示模型及关联推理方法 |
CN113626638A (zh) * | 2021-09-06 | 2021-11-09 | 深圳市易平方网络科技有限公司 | 短视频推荐处理方法、装置、智能终端及存储介质 |
CN114579875A (zh) * | 2022-03-03 | 2022-06-03 | 中国科学院大学 | 基于知识图谱的设备故障诊断与维修知识推荐系统 |
CN114780756A (zh) * | 2022-06-07 | 2022-07-22 | 国网浙江省电力有限公司信息通信分公司 | 基于噪音检测和噪音感知的实体对齐方法及装置 |
CN115587875A (zh) * | 2022-11-10 | 2023-01-10 | 广州科拓科技有限公司 | 基于均衡感知注意力网络的纺织品电商推荐方法及装置 |
DE202023104110U1 (de) | 2023-07-23 | 2023-07-28 | Upasana Adhikari | Intelligentes verschlüsselungsbasiertes System für Filmempfehlungen |
CN116910362A (zh) * | 2023-07-18 | 2023-10-20 | 中国电子科技集团公司第五十四研究所 | 一种感知数据智能推荐方法、计算机设备及存储介质 |
CN116990692A (zh) * | 2023-09-28 | 2023-11-03 | 深圳康普盾科技股份有限公司 | 一种锂电池的健康状况评估与剩余寿命预测方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090077027A1 (en) * | 2007-09-18 | 2009-03-19 | Palo Alto Research Center Incorporated | Using a content database to infer context information for activities from messages |
EP2816511A1 (en) * | 2013-06-21 | 2014-12-24 | Thomson Licensing | Method for cold start of a multi-armed bandit in a recommender system |
CN106383865A (zh) * | 2016-09-05 | 2017-02-08 | 北京百度网讯科技有限公司 | 基于人工智能的推荐数据的获取方法及装置 |
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及系统 |
CN108804633A (zh) * | 2018-06-01 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 基于行为语义知识网络的内容推荐方法 |
CN109063188A (zh) * | 2018-08-28 | 2018-12-21 | 国信优易数据有限公司 | 一种实体推荐方法和装置 |
CN109902233A (zh) * | 2019-02-28 | 2019-06-18 | 百度在线网络技术(北京)有限公司 | 智能对象推荐方法、装置、设备和存储介质 |
CN110321482A (zh) * | 2019-06-11 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 一种信息的推荐方法、装置及设备 |
CN110647683A (zh) * | 2019-09-17 | 2020-01-03 | 北京邮电大学 | 一种信息推荐方法、装置 |
CN110851718A (zh) * | 2019-11-11 | 2020-02-28 | 重庆邮电大学 | 一种基于长短时记忆网络以及用户评论的电影推荐方法 |
CN111125540A (zh) * | 2019-11-12 | 2020-05-08 | 华侨大学 | 一种融合知识图谱表示学习和偏置矩阵分解的推荐方法 |
CN112084428A (zh) * | 2020-09-17 | 2020-12-15 | 辽宁工程技术大学 | 一种基于耦合网络嵌入及知识图谱的协同过滤推荐方法 |
-
2021
- 2021-01-22 CN CN202110087376.0A patent/CN112765486B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090077027A1 (en) * | 2007-09-18 | 2009-03-19 | Palo Alto Research Center Incorporated | Using a content database to infer context information for activities from messages |
EP2816511A1 (en) * | 2013-06-21 | 2014-12-24 | Thomson Licensing | Method for cold start of a multi-armed bandit in a recommender system |
CN106383865A (zh) * | 2016-09-05 | 2017-02-08 | 北京百度网讯科技有限公司 | 基于人工智能的推荐数据的获取方法及装置 |
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及系统 |
CN108804633A (zh) * | 2018-06-01 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 基于行为语义知识网络的内容推荐方法 |
CN109063188A (zh) * | 2018-08-28 | 2018-12-21 | 国信优易数据有限公司 | 一种实体推荐方法和装置 |
CN109902233A (zh) * | 2019-02-28 | 2019-06-18 | 百度在线网络技术(北京)有限公司 | 智能对象推荐方法、装置、设备和存储介质 |
CN110321482A (zh) * | 2019-06-11 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 一种信息的推荐方法、装置及设备 |
CN110647683A (zh) * | 2019-09-17 | 2020-01-03 | 北京邮电大学 | 一种信息推荐方法、装置 |
CN110851718A (zh) * | 2019-11-11 | 2020-02-28 | 重庆邮电大学 | 一种基于长短时记忆网络以及用户评论的电影推荐方法 |
CN111125540A (zh) * | 2019-11-12 | 2020-05-08 | 华侨大学 | 一种融合知识图谱表示学习和偏置矩阵分解的推荐方法 |
CN112084428A (zh) * | 2020-09-17 | 2020-12-15 | 辽宁工程技术大学 | 一种基于耦合网络嵌入及知识图谱的协同过滤推荐方法 |
Non-Patent Citations (3)
Title |
---|
ZHANG S W: "Based on noise reduction self-encoding and convolution god Collaborative filtering algorithm for network", 《COMPUTER AND DIGITAL ENGINEERING》 * |
王骏等: "基于改进神经协同过滤模型的电影推荐系统", 《计算机工程与设计》 * |
袁梦祥等: "基于二部网络表示学习的矩阵分解推荐算法", 《计算机集成制造系统》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190593A (zh) * | 2021-05-12 | 2021-07-30 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种基于数字人文知识图谱的搜索推荐方法 |
CN113393084A (zh) * | 2021-05-13 | 2021-09-14 | 上海湃道智能科技有限公司 | 作业票流程管理系统 |
CN113468415B (zh) * | 2021-06-11 | 2024-01-23 | 南京邮电大学 | 一种融合电影属性和交互信息的电影推荐系统 |
CN113468415A (zh) * | 2021-06-11 | 2021-10-01 | 南京邮电大学 | 一种融合电影属性和交互信息的电影推荐系统 |
CN113407834A (zh) * | 2021-06-18 | 2021-09-17 | 北京工业大学 | 一种基于知识图谱辅助的用户多维度兴趣抽取方法 |
CN113420233A (zh) * | 2021-06-23 | 2021-09-21 | 新疆大学 | 协同知识感知增强网络推荐方法 |
CN113505215A (zh) * | 2021-06-30 | 2021-10-15 | 北京明略软件系统有限公司 | 产品推荐方法、装置、电子设备和存储介质 |
CN113553444A (zh) * | 2021-07-27 | 2021-10-26 | 之江实验室 | 一种基于超边的审计知识图谱表示模型及关联推理方法 |
CN113626638A (zh) * | 2021-09-06 | 2021-11-09 | 深圳市易平方网络科技有限公司 | 短视频推荐处理方法、装置、智能终端及存储介质 |
CN114579875A (zh) * | 2022-03-03 | 2022-06-03 | 中国科学院大学 | 基于知识图谱的设备故障诊断与维修知识推荐系统 |
CN114780756B (zh) * | 2022-06-07 | 2022-09-16 | 国网浙江省电力有限公司信息通信分公司 | 基于噪音检测和噪音感知的实体对齐方法及装置 |
CN114780756A (zh) * | 2022-06-07 | 2022-07-22 | 国网浙江省电力有限公司信息通信分公司 | 基于噪音检测和噪音感知的实体对齐方法及装置 |
CN115587875A (zh) * | 2022-11-10 | 2023-01-10 | 广州科拓科技有限公司 | 基于均衡感知注意力网络的纺织品电商推荐方法及装置 |
CN116910362A (zh) * | 2023-07-18 | 2023-10-20 | 中国电子科技集团公司第五十四研究所 | 一种感知数据智能推荐方法、计算机设备及存储介质 |
CN116910362B (zh) * | 2023-07-18 | 2024-04-16 | 中国电子科技集团公司第五十四研究所 | 一种感知数据智能推荐方法、计算机设备及存储介质 |
DE202023104110U1 (de) | 2023-07-23 | 2023-07-28 | Upasana Adhikari | Intelligentes verschlüsselungsbasiertes System für Filmempfehlungen |
CN116990692A (zh) * | 2023-09-28 | 2023-11-03 | 深圳康普盾科技股份有限公司 | 一种锂电池的健康状况评估与剩余寿命预测方法及系统 |
CN116990692B (zh) * | 2023-09-28 | 2023-12-08 | 深圳康普盾科技股份有限公司 | 一种锂电池的健康状况评估与剩余寿命预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112765486B (zh) | 2022-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765486B (zh) | 一种融合知识图谱的注意力机制的电影推荐方法 | |
CN110162706B (zh) | 一种基于交互数据聚类的个性化推荐方法及系统 | |
CN111461841B (zh) | 物品推荐方法、装置、服务器及存储介质 | |
CN112612973B (zh) | 结合知识图谱的个性化智能服装搭配推荐方法 | |
CN111222332A (zh) | 一种结合注意力网络和用户情感的商品推荐方法 | |
CN109947987B (zh) | 一种交叉协同过滤推荐方法 | |
CN104199896A (zh) | 基于特征分类的视频相似度确定及视频推荐方法 | |
CN112417097B (zh) | 一种用于舆情解析的多模态数据特征提取与关联方法 | |
CN112464100B (zh) | 信息推荐模型训练方法、信息推荐方法、装置及设备 | |
CN115964560B (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
Su et al. | Effective social content-based collaborative filtering for music recommendation | |
CN115712780A (zh) | 一种基于云计算和大数据的信息推送方法及装置 | |
Wang et al. | An enhanced multi-modal recommendation based on alternate training with knowledge graph representation | |
CN113761359A (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
CN112380451A (zh) | 一种基于大数据的喜好内容推荐方法 | |
CN113051468B (zh) | 一种基于知识图谱和强化学习的电影推荐方法及系统 | |
CN112364245B (zh) | 基于异构信息网络嵌入的Top-K电影推荐方法 | |
Nazari et al. | Scalable and data-independent multi-agent recommender system using social networks analysis | |
Lin et al. | Association rule mining with a correlation-based interestingness measure for video semantic concept detection | |
CN111723302A (zh) | 一种基于协同双模型深度表示学习的推荐方法 | |
CN116010696A (zh) | 融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质 | |
CN115391555A (zh) | 一种用户感知的知识图谱推荐系统及方法 | |
CN114022233A (zh) | 一种新型的商品推荐方法 | |
Souza Cabral et al. | Combining multiple metadata types in movies recommendation using ensemble algorithms | |
Hipiny et al. | Who danced better? ranked tiktok dance video dataset and pairwise action quality assessment method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |