CN116467513A - 基于注意力机制的多模态知识图谱推荐方法、装置及介质 - Google Patents
基于注意力机制的多模态知识图谱推荐方法、装置及介质 Download PDFInfo
- Publication number
- CN116467513A CN116467513A CN202310320674.9A CN202310320674A CN116467513A CN 116467513 A CN116467513 A CN 116467513A CN 202310320674 A CN202310320674 A CN 202310320674A CN 116467513 A CN116467513 A CN 116467513A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- user
- article
- vector
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 294
- 230000006399 behavior Effects 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 40
- 230000003993 interaction Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000009471 action Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及基于注意力机制的多模态知识图谱推荐方法、装置及介质。所述方法包括:获取用户点击物品的行为数据;将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量;将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量;将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量;基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐。本申请能融合多模态信息及注意力机制,对用户的点击行为推荐精准的物品,从而提升了推荐效率。
Description
技术领域
本申请涉及互联网技术领域,更为具体来说,本申请涉及一种基于注意力机制的多模态知识图谱推荐方法、装置及介质。
背景技术
随着互联网技术的发展,推荐系统作为解决信息过载的方法之一,如今已经成为互联网产品中一种不可或缺的系统。近年来,随着图神经网络的不断发展,将图神经网络技术与知识图谱相结合的推荐算法,在各类公开数据集上取得了非常好的效果。但是现有的将图神经网络与知识图谱相结合的推荐算法大多是单模态的,并没有考虑到物品的多模态信息,造成了信息的损失,从而影响推荐模型的准确性。
人们对于世界的认识是多模式的,包括视觉信息、文本信息、语音信息等,这些多模态信息有利于更加准确地预测用户偏好。比如,在电影的推荐场景中,用户不仅可以从电影的海报封面图中了解电影的信息,还可以从电影的文字简介或电影宣传片的语音解读中知晓电影的大致情节。然而现有技术中的推荐方法大多没有考虑到用户行为序列的影响,难以处理多模态信息。
发明内容
基于上述技术问题,本发明旨在通过融合注意力机制和知识图谱处理多模态信息,根据融合结果给出精准的推荐,以解决推荐方法难以处理多模态信息的问题。
本发明第一方面提供了一种基于注意力机制的多模态知识图谱推荐方法,所述方法包括:
获取用户点击物品的行为数据;
将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量;
将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量;
将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量;
基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐。
在本发明的一些实施例中,所述将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量,包括:
将所述用户特征向量、所述物品特征向量分别输入训练好的基于注意力机制的多模态知识图谱推荐模型,其中,所述基于注意力机制的多模态知识图谱推荐模型包括多模态特征融合模块,所述多模态特征融合模块包括自注意力模块;
通过所述自注意力模块获取所述用户特征向量的注意力系数和所述物品特征向量的注意力系数;
将所述用户特征向量、所述物品特征向量分别与其对应的注意力系数做加权和计算,得到第一用户特征向量和第一物品特征向量;
将第一用户特征向量和第一物品特征向量交叉融合,得到第一候选推荐特征向量。
在本发明的一些实施例中,所述多模态特征融合模块还包括协同注意力模块;所述将第一用户特征向量和第一物品特征向量交叉融合,得到第一候选推荐特征向量,包括:
将第一用户特征向量和第一物品特征向量输入所述协同注意力模块;
所述协同注意力模块分别生成第一用户特征向量和第一物品特征向量的协同注意力得分;
基于所述协同注意力得分交叉融合所述第一用户特征向量和所述第一物品特征向量,得到第一候选推荐特征向量。
在本发明的一些实施例中,所述基于注意力机制的多模态知识图谱推荐模型包括注意力图卷积模块;所述将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量,包括:
将所述第一候选推荐特征向量输入所述注意力图卷积模块;
所述注意力图卷积模块根据所述第一候选推荐特征向量中的物品在知识图谱中邻域实体信息聚合,且将聚合信息与物品特征向量融合;
基于融合后的物品特征向量、第一候选推荐特征向量和所述ID特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量。
在本发明的一些实施例中,所述基于注意力机制的多模态知识图谱推荐模型还包括物品池化层;基于融合后的物品特征向量、第一候选推荐特征向量和所述ID特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量,包括:
将融合后的物品特征向量输入所述物品池化层;
将第一候选推荐特征向量中的用户特征向量输入所述物品池化层;
将所述ID特征向量、所述用户与物品的交互矩阵输入所述物品池化层;
所述物品池化层输出目标物品向量、目标用户向量和目标用户兴趣画像向量,并将所述目标物品向量、目标用户向量和目标用户兴趣画像向量作为第二候选推荐特征向量。
在本发明的一些实施例中,所述基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐,包括:
将所述目标物品向量、目标用户向量和目标用户兴趣画像向量做全连接得到用户对物品点击的概率;
根据所述用户对物品点击的概率从待推荐数据库中获取目标推荐。
在本发明的一些实施例中,所述基于注意力机制的多模态知识图谱推荐模型还包括预训练模块,所述预训练模块包括第一单模模型和第二单模模型;将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量,包括:
提取所述用户点击物品的行为中的用户、物品对应的图片和文本;
通过训练好的第一单模模型处理用户、物品对应的图片,通过训练好的第二单模模型处理用户、物品对应的文本,得到用户特征向量和物品特征向量;
根据用户特征向量和物品特征向量得到用户与物品的交互矩阵向量。
本发明第二方面提供了一种基于注意力机制的多模态知识图谱推荐装置,所述装置包括:
获取模块,被配置为获取用户点击物品的行为数据;
转化模块,被配置为将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量;
第一注意力模块,被配置为将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量;
第二注意力模块,被配置为将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量;
推荐模块,被配置为基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐。
本发明第三方面提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行各实施例中的所述基于注意力机制的多模态知识图谱推荐方法。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现各实施例中的所述基于注意力机制的多模态知识图谱推荐方法。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本申请将图片特征、文本特征、ID特征等单模特征(多个单模即为多模)进行模态内的特征交叉,之后经过协同注意力机制生成对应的融合后的向量表示,利用图卷积网络对用户历史点击的物品、当前预测的物品,在知识图谱中不断聚合邻域信息,生成新的物品向量表示,更能精准地推荐出用户需要的物品,特别是引入用户历史行为数据,利用注意力机制提取出用户特征,该模型对数据没有严格的要求,可以在模态信息缺失情况下进行推荐,进而提升了推荐效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
通过阅读下文优选实施方式的详细描述,各种其它的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请一示例性实施例中的基于注意力机制的多模态知识图谱推荐方法步骤示意图;
图2示出了本申请一示例性实施例中的基于注意力机制的多模态知识图谱推荐模型示意图;
图3示出了本申请一示例性实施例中的Bert模型结构示意图;
图4示出了本申请一示例性实施例中的Bert模型结构示意图;
图5示出了本申请一示例性实施例中的通过采用one-hot的方式编码获取ID特征示意图;
图6示出了本申请一示例性实施例中的多模态特征融合模块结构示意图示意图;
图7示出了本申请一示例性实施例中的基于点乘的注意力机制示意图;
图8示出了本申请一示例性实施例中的吸纳了知识图谱中实体与实体间关系(边信息)的特征示意图;
图9示出了本申请一示例性实施例中的注意力机制与其它方式比较示意图;
图10示出了本申请一示例性实施例中的物品池化层示意图;
图11示出了本申请一示例性实施例中的基于注意力机制的多模态知识图谱推荐装置结构示意图;
图12示出了本申请一示例性实施例所提供的一种计算机设备的结构示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其它的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
下面结合说明书附图1-附图12给出几个实施例来描述根据本申请的示例性实施方式。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
在本申请一些示例性实施例中,提供了一种基于注意力机制的多模态知识图谱推荐方法,如图1所示,所述方法包括:
S1、获取用户点击物品的行为数据;
S2、将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量;
S3、将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量;
S4、将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量;
S5、基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐。
参考图2,基于注意力机制的多模态知识图谱推荐模型包括预训练模块、多模态特征融合模块、注意力图卷积模块和物品池化层。预训练模块包括第一单模模型和第二单模模型;将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量,包括:提取所述用户点击物品的行为中的用户、物品对应的图片和文本;通过训练好的第一单模模型处理用户、物品对应的图片,通过训练好的第二单模模型处理用户、物品对应的文本,得到用户特征向量和物品特征向量;根据用户特征向量和物品特征向量得到用户与物品的交互矩阵向量。这里的第一单模模型为图片处理模型,这里的第二单模模型为文本处理模型。具体地,文本处理模型可以采用Google开源模型Bert模型输出最后一层的向量作为文本的向量表示,其中,Bert模型完整结构如图3所示;第二单模模型为图片处理模型,如图4所示,具体可以采用ResNet-50作为图片的特征抽取器。多个单模态特征构成多模态特征,除了图片和文本外,有时还有ID特征,即第三单模模型,当然根据具体应用场景的需要,还可能有第四单模模型、第五单模型等等。作为可变换的实施方式,ID特征通过采用one-hot的方式编码,从随机初始化的特征矩阵中,根据ID分配对应的特征向量。如图5所示,首先初始化一个向量矩阵W∈Rn×d,其中n为实体数量,d为向量维度。每个物品进行one-hot编码,记为vone_hot,vone_hot∈R1×n,除了物品ID对应索引位置为1,其余位置均为0。物品的ID特征计算表示为v=vone_hot×W,其中,W表示初始化一个向量矩阵。
在一种具体的实现方式中,将用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量,包括:将用户特征向量、物品特征向量分别输入训练好的基于注意力机制的多模态知识图谱推荐模型,其中,基于注意力机制的多模态知识图谱推荐模型包括多模态特征融合模块,多模态特征融合模块结构示意图如图6所示。多模态特征融合模块包括自注意力模块;通过自注意力模块获取用户特征向量的注意力系数和物品特征向量的注意力系数;将用户特征向量、物品特征向量分别与其对应的注意力系数做加权和计算,得到第一用户特征向量和第一物品特征向量;将第一用户特征向量和第一物品特征向量交叉融合,得到第一候选推荐特征向量。注意力机制对单个模态信息进行特征交叉,提取出更加抽象的、更加通用的、语义层的特征。注意力计算还包括点乘,如图7所示,对于图片和文本类型特征,进行模态内的特征交叉,根据模态特征生成对应的query向量、key向量、value向量,三者维度保持一致。注意力变换公式如公式(1)为:
其中,e为变换前特征,为变换后特征,W为学习权重,W∈Ri×d。
计算query向量、key向量的注意力得分,用于评估当前特征与内部特征之间的关联性,注意力计算如公式(2),其中d是为了防止值过大不易于训练:
接着将所有计算的得分进行归一化,公式为公式(3):
最后利用计算的得分对所有的value进行加权和,得到最终的输出,公式为公式(4):
自注意力模块对模态特征进行特征交叉,在经过多层处理后,将输出的模态特征用于协同注意力模块。
在本发明的一些实施例中,多模态特征融合模块还包括协同注意力模块;将第一用户特征向量和第一物品特征向量交叉融合,得到第一候选推荐特征向量,包括:将第一用户特征向量和第一物品特征向量输入协同注意力模块;协同注意力模块分别生成第一用户特征向量和第一物品特征向量的协同注意力得分;基于协同注意力得分交叉融合第一用户特征向量和第一物品特征向量,得到第一候选推荐特征向量。这里的第一候选推荐向量包括物品的图片特征、文本特征、ID特征。图6中只示意出图片和文本,但可以理解ID特征也包含于内。
在本申请的一些实施例中,基于注意力机制的多模态知识图谱推荐模型包括注意力图卷积模块;将知识图谱中的实体信息权重融入第一候选推荐特征向量、用户与物品的交互矩阵,得到第二候选推荐特征向量,包括:将第一候选推荐特征向量输入注意力图卷积模块;注意力图卷积模块根据第一候选推荐特征向量中的物品在知识图谱中邻域实体信息聚合,且将聚合信息与物品特征向量融合;基于融合后的物品特征向量、第一候选推荐特征向量和ID特征向量、用户与物品的交互矩阵,得到第二候选推荐特征向量。关于物品在知识图谱中邻域实体信息聚合示意可参考图2和图8,物品属于实体,用户也属于实体,实体与实体间的关系包括用户点击物品的行为,图8示意出了吸取知识图谱中信息后的用户特征表示,用户与物品的集合定义为U={u1,u2…}与V={v1,v2…},用户与物品的交互矩阵定义为Y={yuv|u∈U,v∈V}。如果用户u与物品v存在点击行为,那么yuv=1,否则为0。为了能够加强物品的特征表示,利用知识图谱与物品图片、文本的特征作为边信息(见图8中的边,即用户历史上点击过的物品信息)。知识图谱G由三元组(实体-关系-实体)构成,即G={(h,r,t)|h,t∈E,r∈R},E与R分别是实体集合与关系集合,h、r、t为三元组的头实体、关系、尾实体。物品v与一个或者多个实体相连接,物品v的邻域实体集合用N(v)表示。物品的实体多模态特征用M表示,M={Mv,Mt,Mi},其中Mv,Mt,Mi分别为实体的图片特征、文本特征、ID特征。任务的定义如下:在给定用户集合U、物品集合V、用户与物品的交互矩阵Y、知识图谱G、物品的多模态信息M下,预测用户u点击物品v的概率 其中Θ为模型参数,F为模型拟合的函数。
需要说明的是,知识图谱中一般存在大量的冗余信息,一个实体拥有很多的邻域节点,而只有少数的节点对推荐任务具有帮助性。本申请为了能解决整个问题,通过对边引入注意力机制,来有选择性地聚合实体信息。用户的表示是由用户点击过的物品形成,物品在知识图谱中拥有大量的实体连接,实体对最终用户表示的贡献是不一样的,为了能过滤掉无关的信息,针对特征传播路径进行了控制。用户对于知识图谱中不同的关系敏感度是不一样的,比如对于某一部电影的喜爱,可能更多是因为电影的导演或者某一个演员,而对于发布日期、音乐制作人等因素并不在意,所以在聚合知识图谱中实体信息时,应该尽可能地将类似“导演”、“演员”的实体信息沿着图节点间的连接进行传播,而类似“发布日期”、“音乐制作人”等在某个用户看来不是很感兴趣的实体信息,尽可能少传递或者不传递。利用公式(5)的得分函数f可以计算用户u与关系r之间的得分权重,刻画了用户对于关系R的重要性。
经过注意力分配后的,如图8中右边部分,信息的聚合更多沿着某条具体的路径的传递,比如图8中的R1,这样聚合的信息更加具有针对性。注意力图卷积模块在具体实现其功能时,我们与其它三种进行了比较,注意力机制效果最佳。如图9所示,分别为求和、拼接、因式分解机(FM)、注意力机制。求和的计算公式如公式(6):
这种方式计算简单,没有增加物品的维度,因此没有引入额外的权重,但是这种方式会对信息造成一定的损失。拼接的方式计算公式如公式(7):
Vb=concate(v1,v2,v3…vn) (7)
拼接的方式增加了原始的向量维度,没有减少信息的损失,但是增加了计算量与模型的参数量。
因式分解机从特征交叉的角度出发,将特征进行两两交叉,典型的FM算法取一阶交叉特征和二阶交叉特征作为模型的输入,直接取二阶交叉特征用于计算,计算公式如公式(8):
由多项式展开公式可以得知,公式的结果等价于所有特征两两乘积求和的结果。
注意力机制中给定当前待测物品的向量ev与用户历史点击的物品向量ev、ev、ev,将ev当作query向量,ev、ev、ev当作key、value向量,计算query与每个value之间的注意力系数有多种方式,探索了两种注意力的计算方式,分别为基于向量内积和基于多种方式融合的注意力的方式,基于向量内积的注意力计算方式如公式(9)所示:
基于多种方式融合的注意力考虑到点积的方式过于简单,尝试了多种方式融合的注意力机制来计算得分,如图10所示,首先计算了两个特征之间的求和与乘积,然后将两个向量与上述结果进行拼接,几个特征向量经过金字塔形状的全连接网络,最后输出得分。
在本申请的一些实施例中,基于注意力机制的多模态知识图谱推荐模型还包括物品池化层(物品池化层同样如图10所示);基于融合后的物品特征向量、第一候选推荐特征向量和ID特征向量用户与物品的交互矩阵,得到第二候选推荐特征向量,包括:将融合后的物品特征向量输入物品池化层;将第一候选推荐特征向量中的用户特征向量输入物品池化层;将用户与物品的交互矩阵输入物品池化层;物品池化层输出目标物品向量、目标用户向量和目标用户兴趣画像向量,并将目标物品向量、目标用户向量和目标用户兴趣画像向量作为第二候选推荐特征向量。
在本申请的其它实施例中,基于第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐,包括:将所述目标物品向量、目标用户向量和目标用户兴趣画像向量做全连接得到用户对物品点击的概率;根据所述用户对物品点击的概率从待推荐数据库中获取目标推荐。这里的目标用户兴趣画像向量也可以表示为用户行为向量,公式见公式(10):
其中,eu为用户向量,ei为物品的向量,eb为用户的行为向量,除了最后一层的全连接使用sigmoid函数外,其它层的激活函数均使用ReLU,mlp为多层全连接网络。
需要说明的是,基于注意力机制的多模态知识图谱推荐模型在训练方式采用现有技术中的惯用训练方式,但采用不同的模型的损失函数。在给定用户与物品的交互矩阵、物品的多模态信息、知识图谱后,通过公式(10)可以计算出用户对物品的点击概率采用用户与物品交互过的行为数据作为训练数据,计算出模型预测概率与真实情况的误差,将误差反向传播,调整模型的参数减小误差,以达到最终的收敛。模型的误差函数如公式(11)所示:
模型时间复杂度主要有三部分构成,分别为多模态特征融合模块、注意力图卷积模块和物品池化层,多模态特征融合模块时间复杂度为O(m2d2),注意力图卷积模块计算时间复杂度为O(Kld2),物品池化层时间复杂度为O(sd2),其中m、d、K、l、s分别为模态信息通道数量、向量维度、邻域采样个数、图卷积的深度与用户行为数据长度,模型整个时间复杂度为O((m2+Kl+s)d2)。
本申请将图片特征、文本特征、ID特征等单模特征(多个单模即为多模)进行模态内的特征交叉,之后经过协同注意力机制生成对应的融合后的向量表示,利用图卷积网络对用户历史点击的物品、当前预测的物品,在知识图谱中不断聚合邻域信息,生成新的物品向量表示,更能精准地推荐出用户需要的物品,特别是引入用户历史行为数据,利用注意力机制提取出用户特征,该模型对数据没有严格的要求,可以在模态信息缺失情况下进行推荐,提升了推荐效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
在本申请一些示例性实施例中,还提供了一种基于注意力机制的多模态知识图谱推荐装置,执行本申请各实施例中所述的基于注意力机制的多模态知识图谱推荐方法,如图11所示,所述装置包括:
获取模块1101,被配置为获取用户点击物品的行为数据;
转化模块1102,被配置为将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量;
第一注意力模块1103,被配置为将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量;
第二注意力模块1104,被配置为将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量;
推荐模块1105,被配置为基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
还需要强调的是,本申请实施例中提供的系统可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下面请参考图12,其示出了本申请的一些实施方式所提供的一种计算机设备的示意图。如图12所示,所述计算机设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的基于注意力机制的多模态知识图谱推荐方法基于注意力机制的多模态知识图谱推荐方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其它网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述基于注意力机制的多模态知识图谱推荐方法基于注意力机制的多模态知识图谱推荐方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施方式还提供一种与前述实施方式所提供的基于注意力机制的多模态知识图谱推荐方法对应的计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的基于注意力机制的多模态知识图谱推荐方法。
另外,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它光学、磁性存储介质,在此不再一一赘述。
本申请实施方式还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任意实施方式所提供的基于注意力机制的多模态知识图谱推荐方法的步骤,所述方法包括:获取用户点击物品的行为数据;将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量;将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量;将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量;基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本领域那些技术人员可以理解,本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于注意力机制的多模态知识图谱推荐方法,其特征在于,所述方法包括:
获取用户点击物品的行为数据;
将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量;
将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量;
将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量;
基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐。
2.根据权利要求1所述的基于注意力机制的多模态知识图谱推荐方法,其特征在于,所述将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量,包括:
将所述用户特征向量、所述物品特征向量分别输入训练好的基于注意力机制的多模态知识图谱推荐模型,其中,所述基于注意力机制的多模态知识图谱推荐模型包括多模态特征融合模块,所述多模态特征融合模块包括自注意力模块;
通过所述自注意力模块获取所述用户特征向量的注意力系数和所述物品特征向量的注意力系数;
将所述用户特征向量、所述物品特征向量分别与其对应的注意力系数做加权和计算,得到第一用户特征向量和第一物品特征向量;
将第一用户特征向量和第一物品特征向量交叉融合,得到第一候选推荐特征向量。
3.根据权利要求2所述的基于注意力机制的多模态知识图谱推荐方法,其特征在于,所述多模态特征融合模块还包括协同注意力模块;所述将第一用户特征向量和第一物品特征向量交叉融合,得到第一候选推荐特征向量,包括:
将第一用户特征向量和第一物品特征向量输入所述协同注意力模块;
所述协同注意力模块分别生成第一用户特征向量和第一物品特征向量的协同注意力得分;
基于所述协同注意力得分交叉融合所述第一用户特征向量和所述第一物品特征向量,得到第一候选推荐特征向量。
4.根据权利要求1所述的基于注意力机制的多模态知识图谱推荐方法,其特征在于,所述基于注意力机制的多模态知识图谱推荐模型包括注意力图卷积模块;所述将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量,包括:
将所述第一候选推荐特征向量输入所述注意力图卷积模块;
所述注意力图卷积模块根据所述第一候选推荐特征向量中的物品在知识图谱中邻域实体信息聚合,且将聚合信息与物品特征向量融合;
基于融合后的物品特征向量、第一候选推荐特征向量和所述ID特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量。
5.根据权利要求4所述的基于注意力机制的多模态知识图谱推荐方法,其特征在于,所述基于注意力机制的多模态知识图谱推荐模型还包括物品池化层;基于融合后的物品特征向量、第一候选推荐特征向量和所述ID特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量,包括:
将融合后的物品特征向量输入所述物品池化层;
将第一候选推荐特征向量中的用户特征向量输入所述物品池化层;
将所述ID特征向量、所述用户与物品的交互矩阵输入所述物品池化层;
所述物品池化层输出目标物品向量、目标用户向量和目标用户兴趣画像向量,并将所述目标物品向量、目标用户向量和目标用户兴趣画像向量作为第二候选推荐特征向量。
6.根据权利要求5所述的基于注意力机制的多模态知识图谱推荐方法,其特征在于,所述基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐,包括:
将所述目标物品向量、目标用户向量和目标用户兴趣画像向量做全连接得到用户对物品点击的概率;
根据所述用户对物品点击的概率从待推荐数据库中获取目标推荐。
7.根据权利要求1-6任一所述的基于注意力机制的多模态知识图谱推荐方法,其特征在于,所述基于注意力机制的多模态知识图谱推荐模型还包括预训练模块,所述预训练模块包括第一单模模型和第二单模模型;将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量,包括:
提取所述用户点击物品的行为中的用户、物品对应的图片和文本;
通过训练好的第一单模模型处理用户、物品对应的图片,通过训练好的第二单模模型处理用户、物品对应的文本,得到用户特征向量和物品特征向量;
根据用户特征向量和物品特征向量得到用户与物品的交互矩阵向量。
8.一种基于注意力机制的多模态知识图谱推荐装置,其特征在于,所述装置包括:
获取模块,被配置为获取用户点击物品的行为数据;
转化模块,被配置为将所述用户点击物品的行为转化为用户特征向量、物品特征向量、ID特征向量及用户与物品的交互矩阵向量;
第一注意力模块,被配置为将所述用户特征向量、物品特征向量进行模内注意力机制处理和模间注意力机制处理,得到第一候选推荐特征向量;
第二注意力模块,被配置为将知识图谱中的实体信息权重融入所述第一候选推荐特征向量、所述用户与物品的交互矩阵,得到第二候选推荐特征向量;
推荐模块,被配置为基于所述第二候选推荐特征向量提取与所述用户点击物品的行为数据对应的预测行为概率,得到目标推荐。
9.一种计算机设备,包括存储器和处理器,其特征在于,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行如权利要求1-7任一所述方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310320674.9A CN116467513A (zh) | 2023-03-23 | 2023-03-23 | 基于注意力机制的多模态知识图谱推荐方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310320674.9A CN116467513A (zh) | 2023-03-23 | 2023-03-23 | 基于注意力机制的多模态知识图谱推荐方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116467513A true CN116467513A (zh) | 2023-07-21 |
Family
ID=87183397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310320674.9A Pending CN116467513A (zh) | 2023-03-23 | 2023-03-23 | 基于注意力机制的多模态知识图谱推荐方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467513A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992099A (zh) * | 2023-09-27 | 2023-11-03 | 湖北工业大学 | 一种基于交互选择的图神经网络推荐方法、系统及终端 |
-
2023
- 2023-03-23 CN CN202310320674.9A patent/CN116467513A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992099A (zh) * | 2023-09-27 | 2023-11-03 | 湖北工业大学 | 一种基于交互选择的图神经网络推荐方法、系统及终端 |
CN116992099B (zh) * | 2023-09-27 | 2024-01-12 | 湖北工业大学 | 一种基于交互选择的图神经网络推荐方法、系统及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
Xie et al. | Point clouds learning with attention-based graph convolution networks | |
JP7167216B2 (ja) | 画像質問応答方法、装置、コンピュータ装置、媒体およびプログラム | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN111461174B (zh) | 多层次注意力机制的多模态标签推荐模型构建方法及装置 | |
CN112883149B (zh) | 一种自然语言处理方法以及装置 | |
CN116720004B (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
CN110659723A (zh) | 基于人工智能的数据处理方法、装置、介质及电子设备 | |
CN115131638B (zh) | 视觉文本预训练模型的训练方法、装置、介质和设备 | |
CN111598183A (zh) | 一种多特征融合图像描述方法 | |
CN116664719B (zh) | 一种图像重绘模型训练方法、图像重绘方法及装置 | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN113722583A (zh) | 推荐方法、推荐模型训练方法及相关产品 | |
Le et al. | An overview of deep learning in industry | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN114282055A (zh) | 视频特征提取方法、装置、设备及计算机存储介质 | |
Li et al. | Multi-view-based siamese convolutional neural network for 3D object retrieval | |
CN116467513A (zh) | 基于注意力机制的多模态知识图谱推荐方法、装置及介质 | |
Xu et al. | Text-guided human image manipulation via image-text shared space | |
JP2023024932A (ja) | マルチモーダルのトランスフォーマベースのアイテム分類システム、データ処理システム、データ処理方法、及びコンピュータ実行方法 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN117197569A (zh) | 图像审核方法、图像审核模型训练方法、装置和设备 | |
Gupta et al. | Development of human motion prediction strategy using inception residual block | |
CN115409107A (zh) | 多模态关联构建模型的训练方法和多模态数据检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |