CN111222049A - 语义增强的异构信息网络上Top-k相似度搜索方法 - Google Patents

语义增强的异构信息网络上Top-k相似度搜索方法 Download PDF

Info

Publication number
CN111222049A
CN111222049A CN202010016654.9A CN202010016654A CN111222049A CN 111222049 A CN111222049 A CN 111222049A CN 202010016654 A CN202010016654 A CN 202010016654A CN 111222049 A CN111222049 A CN 111222049A
Authority
CN
China
Prior art keywords
information
representation
content
node
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010016654.9A
Other languages
English (en)
Other versions
CN111222049B (zh
Inventor
张昀
于明鹤
孙劲桐
于戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202010016654.9A priority Critical patent/CN111222049B/zh
Publication of CN111222049A publication Critical patent/CN111222049A/zh
Application granted granted Critical
Publication of CN111222049B publication Critical patent/CN111222049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明属于大数据信息检索技术领域,涉及语义增强的异构信息网络上Top‑k相似度搜索方法,包括如下步骤:步骤1:节点表示。使用预训练方法生成异构信息网络数据集中所有节点的内容和结构表示。步骤2:路径表示。步骤3:设计注意力层以结合两个卷积神经网络通道训练得到的内容和结构信息,步骤4:通过将以上综合表示CS输入MLP中,步骤5:使用对数损失函数训练模型。本发明模型利用卷积神经网络的两个通道同时分别训练内容信息和结构信息,并且采用了两种注意力机制,用于动态的区分不同元路径的语义差异性以及结合对象的内容和结构信息进行模型的综合训练。

Description

语义增强的异构信息网络上Top-k相似度搜索方法
技术领域
本发明属于大数据信息检索技术领域,涉及语义增强的异构信息网络上 Top-k相似度搜索方法,具体为一种异构信息网络下支持相似性搜索的神经网络 模型设计方法,以应对大数据信息检索的挑战。
背景技术
异构信息网络是包含多种类型节点和节点之间关系边的逻辑网络,定义在 其上的元路径包含了丰富的语义信息。近几年,异构信息网络上的数据挖掘任 务引起了工业界和学术界的广泛关注,其中网络上对象的相似性搜索是一个关 键技术。异构信息网络上的Top-k相似性搜索侧重于通过评估这些节点之间的相 似度来获得一组相关节点。
当前已有大量的相关研究:
在异构信息网络上对对象节点进行表示学习,通过计算向量距离计算节点 相似度。Yuxiao Dong等在KDD 2017发表了论文《metapath2vec:Scalable RepresentationLearning for Heterogeneous Networks》,提出模型对同构网络表示 学习方法DeepWalk改进,通过随机游走实现了异构信息网络上的节点嵌入方 法。王等在WWW 2019发表论文《Heterogeneous Graph Attention Network》,提 出异构图神经网络模型HAN,HAN使用节点级注意力和语义级注意力,通过语 义级注意力来区分元路径来获取语义信息。张等在KDD 2019上发表论文 《Heterogeneous Graph Neural Network》提出的模型HetGNN也使用了注意力机 制,根据节点丰富的内容信息和在异构信息网络中的结构信息对不同类型的节 点进行统一的网络表示学习。
推荐任务以度量对象的相似度实现用户-对象/用户/…的推荐。胡等在KDD 2018发表《Leveraging Meta-path based Context for Top-N Recommendation with ANeural Co-Attention Model》,提出具有共同注意机制的深度神经网络模型 MCRec。利用丰富的基于元路径的上下文捕获用户和商品之间的相似性,实现 对用户进行Top-k相似商品的推荐。
搜索任务中通过对象的相似性度量实现k个最相似对象的搜索。孙等在 VLDBEndowment上发表论文《PathSim:Meta Path Based Top-K Similarity Search inHeterogeneous Information Networks》利用元路径来解决相似性搜索问题,通 过考虑顶点之间的可达性和可见性来定义两个同类型对象之间的相似性。石等 在IEEE TKDE上发表了《HeteSim:A General Framework for Relevance Measure in HeterogeneousNetworks》。HeteSim作为PathSim的扩展,可以度量不同类型对 象的相似性。Pham等的《W-PathSim:Novel Approach of Weighted Similarity Measure in Content-BasedHeterogeneous Information Networks by Applying LDA Topic Modeling》利用主题的加权余弦相似度对PathSim提出了另一种改进。
异构信息网络上的对象节点在不同的元路径语义下有不同的结构特征,同 时对象本身还具有特定的内容信息。以上方法或者使用单一的元路径训练模型, 不能捕获丰富的元路径语义信息,或者虽然结合多条元路径却无法根据训练的 目标动态调整语义结构,上面提出的部分网络表示学习的方法虽然考虑内容和 结构信息,但它们均是首先根据节点的内容信息对节点嵌入,在此基础上,将 内容嵌入结果作为初始值,继续进行结构上的训练。这些方法存在的问题是节 点嵌入向量中的内容信息会随着之后结构嵌入训练而逐渐削弱甚至消失。因此, 如何解决以上问题,提出能够捕获对象的内容信息和结构信息并整合多条元路 径下语义的模型是一个需要解决的巨大挑战。
发明内容
为克服以上提出的问题,本发明设计一种用于在异构信息网络上进行对象 Top-k相似性搜索的双通道卷积神经网络模型。
已知整个异构信息网络的结构和网络中每个节点对应的文本描述信息,模 型输出每个节点与其它节点的相似度。本发明设计的模型基于双通道卷积神经 网络来整合内容信息和结构信息,以下步骤1和步骤2中进行的操作均在内容 信息处理通道和结构信息处理通道中同步进行。
本发明的技术方案如下:
语义增强的异构信息网络上Top-k相似度搜索方法,包括如下步骤:
步骤1:节点表示。使用预训练方法生成异构信息网络数据集中所有节点的 内容和结构表示。由于节点具有内容信息和结构信息,如图1所示,内容信息 指节点的文字描述、图像、标签等信息。结构信息是指网络上节点与他人的连 接关系。
具体操作包括以下两部分:
1-1)使用自然语言处理领域的模型预训练得到节点的内容表示
Figure BDA0002359143720000031
其中A是A类型节点的数目,d1是节点的内容嵌入维度。
1-2)在指定不同语义的r条元路径下分别使用基于异构网络的网络表示学 习训练模型,最后得到节点的结构表示
Figure BDA0002359143720000032
其中d2为节点结构嵌入 维数。
Figure BDA0002359143720000033
是对应元路径pi下的嵌入结果,i∈{1,…,r}。
步骤2:路径表示。为了捕获两个待度量相似度的节点之间的元路径所具有 的丰富语义特性,并且保留节点的结构特征和内容特征,为连接两者的元路径 pi分别生成一个内容表示向量
Figure BDA0002359143720000034
和一个结构表示向量
Figure BDA0002359143720000035
并通过注意力机制 整合多条元路径,具体步骤如下:
2-1)对节点进行内容和结构的集成嵌入。如图2所示的模型架构,将节点 在r条元路径下的嵌入表示输入全连接神经网络层,分别得到节点的结构表示 βs,内容表示βc以及综合表示βs+c
2-2)为了捕获两个节点之间元路径蕴含的丰富的语义信息,模型以路径实 例作为输入。如图3所示,以度量相似度的节点a1和a2为端点,在指定的元路径 上对路径进行采样,得到路径实例pi,j,其中i指元路径编号,j指路径实例编号。 根据相邻节点间边的参数,使用对称随机游走(SRW)来获得路径实例的权重,舍 弃了一些权重较低的路径实例。
2-3)将路径实例pi,j上的节点用αc和αs进行表示,分别通过卷积层进行嵌 入得到路径实例的内容表示
Figure BDA0002359143720000041
和结构表示
Figure BDA0002359143720000042
其中i∈{1,…,r},j∈{1,…,t}代 表元路径和路径实例的编号。之后,通过池化层获得每个元路径的内容表示
Figure BDA0002359143720000043
和 结构表示
Figure BDA0002359143720000044
本部分模型结构见图4。
2-4)为了同时整合多条元路径所蕴含的语义信息并动态调整不同元路径的 重要程度,设计元路径间的注意力机制,如图5所示。对于目标节点am,元路 径pi对于它的重要程度得分为:
Figure BDA0002359143720000045
其中
Figure BDA0002359143720000046
W1,W2是模型参数,
Figure BDA0002359143720000047
是元路径pi的内容表示和结构表 示。
将计算得到的不同元路径对于节点am的重要程度得分score(am,pi)输入 softmax层进行归一化处理,得到元路径pi的注意力权重。计算方法为:
Figure BDA0002359143720000048
其中am和an是待度量相似度的两个对象节点。
根据注意力权重
Figure BDA0002359143720000049
计算两个节点之间的综合语义表示:
Figure BDA0002359143720000051
其中,
Figure BDA0002359143720000052
包含了两个节点间的内容综合表示和结构综合表示。
以上步骤1和步骤2实现了内容信息和结构信息两个通道的训练,每个通 道完整的模型架构见图6。
步骤3:设计注意力层以结合两个卷积神经网络通道训练得到的内容和结构 信息,模型框架如图7所示。具体操作如下:
3-1)计算内容信息的注意力得分:
Figure BDA0002359143720000053
3-2)计算结构信息的注意力得分:
Figure BDA0002359143720000054
以上
Figure BDA0002359143720000055
W3,W4均为模型参数。
3-3)计算内容信息表示的注意力权重:
Figure BDA0002359143720000056
3-4)计算结构信息表示的注意力权重:
Figure BDA0002359143720000057
3-5)计算整合内容信息和结构信息的两个节点间信息综合表示:
Figure BDA0002359143720000058
其中
Figure BDA0002359143720000059
表示连接操作,即连接两个加权后的向量。将内容信息表示和结构 信息表示分别与注意力权重相乘后连接起来,与直接将它们加权求和相比,此 功能可以有效地帮助我们减少信息丢失。
步骤4:通过将以上综合表示CS输入MLP(Multi-Layer Perceptron,多层感 知器)中,输出两个节点间的相似度打分,即:
ym,n=sigmoid[f(CS)]
其中f是具有两个全连接层,激活函数为ReLU的MLP,其输出送入sigmoid 层中以获得最终相似度打分。
以上步骤构成了模型的完整架构,模型由输入到输出的整体架构如图8所 示。
步骤5:使用对数损失函数训练模型。在给定元路径条件下,相似节点之间 应具有更多路径实例,并且它们的相似度得分ym,n大于其他节点。这里使用负采 样,采集没有路径实例相连接的节点对作为负样本。
将相似节点对分数设置为1,将不相似节点对分数设置为0,模型训练目标 函数表述为:
Figure BDA0002359143720000061
其中yi是模型是输出变量,N+是正样本集,N-是负样本集,ρi是预测的输 入实例相似的概率。
本发明的有益效果:
本发明模型利用卷积神经网络的两个通道同时分别训练内容信息和结构信 息,并且采用了两种注意力机制,用于动态的区分不同元路径的语义差异性以 及结合对象的内容和结构信息进行模型的综合训练。
附图说明
图1为本发明技术方案中节点结构信息表示和内容信息表示的说明图。其 中:图1(a)为本发明技术方案中节点结构信息表示的说明图。图1(b)为本 发明技术方案中节点内容信息表示的说明图。
图2为本发明技术方案中对节点集成嵌入的结构图。
图3为本发明技术方案中模型数据输入的设计图。
图4为本发明技术方案中每条通道内每个元路径的表示框架。
图5为本发明技术方案中元路径间的注意力机制。
图6为本发明技术方案中每个通道的模型架构。
图7为本发明技术方案中利用注意机制结合内容和结构信息的结构图。
图8为本发明技术方案设计模型的整体架构图。
图9为本发明实施例中提出的模型与其它模型在不同搜索数量下结果比较 图。
具体实施方式
本发明设计一种用于在异构信息网络上进行对象Top-k相似性搜索的双通 道卷积神经网络模型。为了使本发明的目的、技术方案及优势更加清晰,下面 结合学术社交网络(包含节点类型有作者a,论文p,会议v),设计元路径包括 a-p-v-p-a(两个作者的论文在同一个会议上发表)和a-p-a(两个作者同时参与 撰写一篇论文),度量两个作者之间的相似度,完成为作者搜索与他最相似的k 名作者的任务。
参考附图和具体实施例对本发明做进一步详细说明:
步骤1:节点表示。使用预训练方法生成异构信息网络数据集中所有节点的 内容和结构表示。由于节点具有内容信息和结构信息,内容信息指节点的文字 描述,图像,标签等信息。结构信息是指网络上节点与他人的连接关系。具体 操作包括以下两部分:
1-1)使用Doc2vec(一种用于获取句子的向量表示的非监督式算法,是 word2vec的拓展)训练节点的文本描述信息,得到节点的内容表示
Figure BDA0002359143720000071
其中A是A类型节点的数目,设置节点的内容嵌入维度为128。
1-2)在元路径a-p-v-p-a和a-p-a下分别使metapath2vec++训练学术社交网 络图,得到节点的结构表示
Figure BDA0002359143720000081
这里设置节点结构嵌入维数为128。
Figure BDA0002359143720000082
是对应元路径a-p-a下的嵌入结果,
Figure BDA0002359143720000083
是对应元路径a-p-v-p-a下的嵌入结果。
步骤2:路径表示。为了捕获两个待度量相似度的作者之间的元路径所具有 的丰富语义特性,并且保留节点的结构特征和内容特征,为连接两者的元路径 papa和papvpa分别生成内容表示向量
Figure BDA0002359143720000084
和结构表示向量
Figure BDA0002359143720000085
并通过 注意力机制整合多条元路径,具体步骤如下:
2-1)对节点进行内容和结构的集成嵌入。将
Figure BDA0002359143720000086
Figure BDA0002359143720000087
输入全连接神经网 络层D1,得到节点的结构表示βs。将αc输入全连接神经网络层D2,得到内容表 示βc。将
Figure BDA0002359143720000088
αc输入全连接神经网络层D3,得到βs+c
2-2)模型以路径实例作为输入。以度量相似度的节点a1和a2为端点,在指 定的元路径上对路径进行采样,得到路径实例papa,j和papvpa,j,其中j指路径实例 编号。根据相邻节点间边的参数,使用对称随机游走(SRW)来获得路径实例的权 重,舍弃了一些权重较低的路径实例。
2-3)将路径实例papa,j上的节点用αc
Figure BDA0002359143720000089
进行表示,将路径实例papvpa,j上的 节点用αc
Figure BDA00023591437200000810
进行表示,分别通过卷积层进行嵌入得到路径实例的内容表示
Figure BDA00023591437200000811
和结构表示
Figure BDA00023591437200000812
其中j∈{1,…,t}代表路径实例的编号。之 后,通过池化层获得元路径的内容表示
Figure BDA00023591437200000813
和结构表示
Figure BDA00023591437200000814
2-4)设计元路径间的注意力机制动态调整不同元路径的重要程度。对于目 标节点am,元路径papa对于它的重要程度得分为:
Figure BDA00023591437200000815
元路径papvpa对于它的重要程度得分为:
Figure BDA00023591437200000816
其中
Figure BDA00023591437200000817
W1,W2是模型参数,
Figure BDA00023591437200000818
是元路径的内容表示和结构表示。
将计算得到的不同元路径对于节点am的重要程度得分score(am,papa)和 score(am,papvpa)输入softmax层进行归一化处理,得到元路径的注意力权重。计算 方法为:
Figure BDA0002359143720000091
Figure BDA0002359143720000092
其中am和an是待度量相似度的两个对象节点。
根据注意力权重计算两个节点之间的综合语义表示:
Figure BDA0002359143720000093
其中,
Figure BDA0002359143720000094
包含了两个节点间的内容综合表示和结构综合表示。
步骤3:设计注意力层以结合内容和结构信息。具体操作如下:
3-1)计算内容信息的注意力得分:
Figure BDA0002359143720000095
3-2)计算结构信息的注意力得分:
Figure BDA0002359143720000096
以上
Figure BDA0002359143720000097
W3,W4均为模型参数。
3-3)计算内容信息表示的注意力权重:
Figure BDA0002359143720000098
3-4)计算结构信息表示的注意力权重:
Figure BDA0002359143720000099
3-5)计算整合内容信息和结构信息的两个节点间信息综合表示:
Figure BDA0002359143720000101
其中
Figure BDA0002359143720000102
表示连接操作,即连接两个加权后的向量。将内容信息表示和结构 信息表示分别与注意力权重相乘后连接起来,与直接将它们加权求和相比,此 功能可以有效地帮助我们减少信息丢失。
步骤4:通过将以上综合表示CS输入MLP(Multi-Layer Perceptron,多层感 知器)中,输出两个作者间的相似度打分,即:
ym,n=sigmoid[f(CS)]
其中f是具有两个全连接层,激活函数为ReLU的MLP,其输出送入sigmoid 层中以获得最终相似度打分。
步骤5:使用对数损失函数和负采样,采集在路径a-p-a和a-p-v-p-a上均没 有路径实例相连接的作者节点对作为负样本,每个正样本对应采集5个负样本。
将相似节点对分数设置为1,将不相似节点对分数设置为0,模型训练目标 函数表述为:
Figure BDA0002359143720000103
其中yi是模型是输出变量,N+是正样本集,N-是负样本集,ρi是预测的输 入实例相似的概率。
下面通过实验对本发明的技术效果进行说明:
1.实验条件说明
选取Aminer(由清华大学计算机科学与技术系教授唐杰率领团队建立的科 技情报大数据挖掘与服务系统平台)的学术社交网络数据集作为实验数据,在 Ubuntu 18.04环境下分别测试了本发明提出的模型,该模型的变体以及其它基线 模型。
本发明的变体包括以下3中:
变体1:步骤3中对两个通道训练结果的结合不使用注意力机制,直接将两 个训练结果向量进行连接。
变体2:使用单通道,只对结构信息进行训练。
变体3:使用单通道,只对内容信息进行训练。
与本发明进行对比的基线包括:
Metapath2vec.apvpa:设定元路径a-p-v-p-a,使用异构信息网络表示学习模 型Metapath2vec++对节点进行嵌入,根据向量相似度来度量两个作者类型节点 的相似度,从而进行Top-k相似性搜索。
Metapath2vec.apa:设定元路径a-p-a,使用异构信息网络表示学习模型Metapath2vec++对节点进行嵌入,从而进行Top-k相似性搜索。
Doc2vec:利用对作者的文本描述信息进行节点嵌入,根据向量相似度来度 量两个作者类型节点的相似度,从而进行Top-k相似性搜索。
2.实验结果分析
挑选十名学术社交网络上活跃的权威作者,对其进行相似作者的标注,并 进行这十名作者的Top-10相似度搜索。通过将发明的模型与其变体模型和基线 模型进行比较来进行对发明结果的评估。实验测试了准确率和NDCG (Normalized Discounted cumulativegain,归一化折损累计增益),结果如下表格。
模型准确率和NDCG值的比较:
Figure BDA0002359143720000111
Figure BDA0002359143720000121
根据表中的结果,发明的模型的准确率和NDCG值均由于其他对比模型。
其中发明模型的性能优于变体1,说明在内容和结构之间使用注意力机制有 利于提高模型性能。变体1优于变体2和变体3,表明全面考虑内容信息和结构 信息非常重要。发明的模型及其变体的性能均优于基线,这表明模型考虑多个 元路径以获取丰富的节点间语义信息是非常合理的。此外,Doc2vec性能最差 的主要原因是此数据集中的辅助结构信息丰富,而文本描述信息相对不足。
接下来,我们改变Top-k相似性搜索中k的值,以评估其对模型及对比模型 NDCG的影响,结果如图9所示。
图9的图例中的Model是我们发明的模型,V1(variant1)指变体1,V2 (variant2)指变体2,V3(variant3)指变体3。
实验结果表明,对于所有模型,随着k值增大,NDCG值趋于增加状态, 且发明的模型始终可实现最佳性能。而且在大多数情况下,发明模型及变体1 (考虑内容信息和结构信息)的NDCG准确性比其他仅考虑单节点信息的方法 要高。此外,Doc2vec模型的搜索性能最差,主要是因为我们使用的学术社交网 络中节点的结构信息丰富,而内容信息相对稀缺。因此,不考虑内容信息的变 体2也具有相对较好的性能是非常合理的。由于仅考虑一个元路径,因此 metapath2vec.apvpa和metapath2vec.apa的搜索性能相对较低,仅优于Doc2vec。

Claims (5)

1.语义增强的异构信息网络上Top-k相似度搜索方法,包括如下步骤:
步骤1:使用预训练方法生成异构信息网络数据集中所有节点的内容和结构表示,具体操作包括以下两部分:
1-1)使用自然语言处理领域的模型预训练得到节点的内容表示
Figure FDA0002359143710000011
其中|A|是A类型节点的数目,d1是节点的内容嵌入维度;
1-2)在指定不同语义的r条元路径下分别使用基于异构网络的网络表示学习训练模型,最后得到节点的结构表示
Figure FDA0002359143710000012
其中d2为节点结构嵌入维数;
Figure FDA0002359143710000013
是对应元路径pi下的嵌入结果,i∈{1,…,r};
步骤2:路径表示,具体步骤如下:
2-1)对节点进行内容和结构的集成嵌入;将节点在r条元路径下的嵌入表示输入全连接神经网络层,分别得到节点的结构表示βs,内容表示βc以及综合表示βs+c
2-2)为了捕获两个节点之间元路径蕴含的丰富的语义信息,模型以路径实例作为输入,以度量相似度的节点a1和a2为端点,在指定的元路径上对路径进行采样,得到路径实例pi,j,其中i指元路径编号,j指路径实例编号;
2-3)将路径实例pi,j上的节点用αc和αs进行表示,分别通过卷积层进行嵌入得到路径实例的内容表示
Figure FDA0002359143710000014
和结构表示
Figure FDA0002359143710000015
其中i∈{1,…,r},j∈{1,…,t}代表元路径和路径实例的编号;之后,通过池化层获得每个元路径的内容表示
Figure FDA0002359143710000018
和结构表示
Figure FDA0002359143710000017
2-4)为了同时整合多条元路径所蕴含的语义信息并动态调整不同元路径的重要程度,设计元路径间的注意力机制,对于目标节点am,元路径pi对于它的重要程度得分为:
Figure FDA0002359143710000016
其中
Figure FDA0002359143710000021
W1,W2是模型参数,
Figure FDA00023591437100000210
是元路径pi的内容表示和结构表示;
将计算得到的不同元路径对于节点am的重要程度得分score(am,pi)输入softmax层进行归一化处理,得到元路径pi的注意力权重;计算方法为:
Figure FDA0002359143710000022
其中am和an是待度量相似度的两个对象节点;
根据注意力权重
Figure FDA0002359143710000023
计算两个节点之间的综合语义表示:
Figure FDA0002359143710000024
其中,
Figure FDA0002359143710000025
包含了两个节点间的内容综合表示和结构综合表示;
步骤3:设计注意力层以结合两个卷积神经网络通道训练得到的内容和结构信息,具体操作如下:
3-1)计算内容信息的注意力得分:
Figure FDA0002359143710000026
3-2)计算结构信息的注意力得分:
Figure FDA0002359143710000027
以上
Figure FDA0002359143710000028
W3,W4均为模型参数;
3-3)计算内容信息表示的注意力权重:
Figure FDA0002359143710000029
3-4)计算结构信息表示的注意力权重:
Figure FDA0002359143710000031
3-5)计算整合内容信息和结构信息的两个节点间信息综合表示:
Figure FDA0002359143710000032
其中
Figure FDA0002359143710000033
表示连接操作,即连接两个加权后的向量;将内容信息表示和结构信息表示分别与注意力权重相乘后连接起来,与直接将它们加权求和相比,此功能可以有效地帮助我们减少信息丢失;
步骤4:通过将综合表示CS输入MLP中,输出两个节点间的相似度打分;
步骤5:使用对数损失函数训练模型。
2.如权利要求1所述的语义增强的异构信息网络上Top-k相似度搜索方法,其特征在于,步骤4的具体过程如下:
ym,n=sigmoid[f(CS)]
其中f是具有两个全连接层,激活函数为ReLU的MLP,其输出送入sigmoid层中以获得最终相似度打分。
3.如权利要求1或2所述的语义增强的异构信息网络上Top-k相似度搜索方法,其特征在于,步骤5的具体过程如下:
使用负采样,采集没有路径实例相连接的节点对作为负样本,将相似节点对分数设置为1,将不相似节点对分数设置为0,模型训练目标函数表述为:
Figure FDA0002359143710000034
其中yi是模型是输出变量,N+是正样本集,N-是负样本集,ρi是预测的输入实例相似的概率。
4.如权利要求1或2所述的语义增强的异构信息网络上Top-k相似度搜索方法,其特征在于,所述的步骤1中,内容信息指节点的文字描述、图像和标签信息,结构信息是指网络上节点与他人的连接关系。
5.如权利要求3所述的语义增强的异构信息网络上Top-k相似度搜索方法,其特征在于,所述的步骤1中,内容信息指节点的文字描述、图像和标签信息,结构信息是指网络上节点与他人的连接关系。
CN202010016654.9A 2020-01-08 2020-01-08 语义增强的异构信息网络上Top-k相似度搜索方法 Active CN111222049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010016654.9A CN111222049B (zh) 2020-01-08 2020-01-08 语义增强的异构信息网络上Top-k相似度搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010016654.9A CN111222049B (zh) 2020-01-08 2020-01-08 语义增强的异构信息网络上Top-k相似度搜索方法

Publications (2)

Publication Number Publication Date
CN111222049A true CN111222049A (zh) 2020-06-02
CN111222049B CN111222049B (zh) 2021-10-01

Family

ID=70829345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010016654.9A Active CN111222049B (zh) 2020-01-08 2020-01-08 语义增强的异构信息网络上Top-k相似度搜索方法

Country Status (1)

Country Link
CN (1) CN111222049B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782853A (zh) * 2020-06-23 2020-10-16 西安电子科技大学 基于注意力机制的语义图像检索方法
CN111832724A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于深度神经网络的异构网络推荐算法
CN112183580A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 一种基于动态知识路径学习的小样本分类方法
CN112862092A (zh) * 2021-01-26 2021-05-28 中山大学 一种异构图卷积网络的训练方法、装置、设备和介质
CN112906873A (zh) * 2021-03-26 2021-06-04 北京邮电大学 一种图神经网络训练方法、装置、电子设备及存储介质
CN112949281A (zh) * 2021-01-28 2021-06-11 北京航空航天大学 一种图神经网络的增量社交事件检测方法
CN113554100A (zh) * 2021-07-28 2021-10-26 湖南科技大学 异构图注意力网络增强的Web服务分类方法
CN113572679A (zh) * 2021-06-30 2021-10-29 北京百度网讯科技有限公司 账户亲密度的生成方法、装置、电子设备和存储介质
CN115496174A (zh) * 2021-06-18 2022-12-20 中山大学 优化网络表示学习的方法、模型训练方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332158A1 (en) * 2014-05-16 2015-11-19 International Business Machines Corporation Mining strong relevance between heterogeneous entities from their co-ocurrences
CN109492132A (zh) * 2018-10-26 2019-03-19 广州市香港科大霍英东研究院 异构信息网络嵌入的方法、系统、终端及存储介质
CN110516146A (zh) * 2019-07-15 2019-11-29 中国科学院计算机网络信息中心 一种基于异质图卷积神经网络嵌入的作者名字消歧方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150332158A1 (en) * 2014-05-16 2015-11-19 International Business Machines Corporation Mining strong relevance between heterogeneous entities from their co-ocurrences
CN109492132A (zh) * 2018-10-26 2019-03-19 广州市香港科大霍英东研究院 异构信息网络嵌入的方法、系统、终端及存储介质
CN110516146A (zh) * 2019-07-15 2019-11-29 中国科学院计算机网络信息中心 一种基于异质图卷积神经网络嵌入的作者名字消歧方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAO MA等: "Personalized Scientific Paper Recommendation Based on Heterogeneous Graph Representation", 《IEEE ACCESS》 *
ZEMIN LIU等: "Subgraph-augmented Path Embedding for Semantic User Search on Heterogeneous Social Network", 《PROCEEDINGS OF THE 2018 WORLD WIDE WEB CONFERENCE》 *
步少莉: "异构信息网络Top-k相关性查询方法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782853A (zh) * 2020-06-23 2020-10-16 西安电子科技大学 基于注意力机制的语义图像检索方法
CN111782853B (zh) * 2020-06-23 2022-12-02 西安电子科技大学 基于注意力机制的语义图像检索方法
CN111832724A (zh) * 2020-07-14 2020-10-27 西北工业大学 一种基于深度神经网络的异构网络推荐算法
CN111832724B (zh) * 2020-07-14 2023-03-28 西北工业大学 一种基于深度神经网络的异构网络推荐方法
CN112183580A (zh) * 2020-09-07 2021-01-05 哈尔滨工业大学(深圳) 一种基于动态知识路径学习的小样本分类方法
CN112862092A (zh) * 2021-01-26 2021-05-28 中山大学 一种异构图卷积网络的训练方法、装置、设备和介质
CN112949281A (zh) * 2021-01-28 2021-06-11 北京航空航天大学 一种图神经网络的增量社交事件检测方法
CN112906873A (zh) * 2021-03-26 2021-06-04 北京邮电大学 一种图神经网络训练方法、装置、电子设备及存储介质
CN115496174A (zh) * 2021-06-18 2022-12-20 中山大学 优化网络表示学习的方法、模型训练方法和系统
CN115496174B (zh) * 2021-06-18 2023-09-26 中山大学 优化网络表示学习的方法、模型训练方法和系统
CN113572679A (zh) * 2021-06-30 2021-10-29 北京百度网讯科技有限公司 账户亲密度的生成方法、装置、电子设备和存储介质
CN113554100A (zh) * 2021-07-28 2021-10-26 湖南科技大学 异构图注意力网络增强的Web服务分类方法

Also Published As

Publication number Publication date
CN111222049B (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN111222049B (zh) 语义增强的异构信息网络上Top-k相似度搜索方法
Yang et al. Image-text multimodal emotion classification via multi-view attentional network
Xu et al. Sentiment analysis of social images via hierarchical deep fusion of content and links
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
Zhang et al. Cross-domain recommendation with semantic correlation in tagging systems
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
Wang et al. A multitask deep learning approach for user depression detection on sina weibo
CN113283234B (zh) 一种基于胶囊网络的情感分类方法
Kumar Using cognition to resolve duplicacy issues in socially connected healthcare for smart cities
Wang et al. Many hands make light work: Transferring knowledge from auxiliary tasks for video-text retrieval
CN114428850A (zh) 一种文本检索匹配方法和系统
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN113901228B (zh) 融合领域知识图谱的跨境民族文本分类方法及装置
Chen et al. Incorporating structured emotion commonsense knowledge and interpersonal relation into context-aware emotion recognition
Wei et al. LSTM-SN: complex text classifying with LSTM fusion social network
Abubakar et al. Explainable emotion recognition from tweets using deep learning and word embedding models
Peng et al. MPSC: A multiple-perspective semantics-crossover model for matching sentences
Zeng et al. Collective list-only entity linking: A graph-based approach
Ye et al. Feature extraction of travel destinations from online Chinese-language customer reviews
Ly et al. An End-to-End Local Attention Based Model for Table Recognition
Ayele et al. Multilingual Racial Hate Speech Detection Using Transfer Learning
Li et al. Multi-modal fusion network for rumor detection with texts and images
Thuseethan et al. Multimodal deep learning framework for sentiment analysis from text-image web Data
Lu et al. Fact-sentiment incongruity combination network for multimodal sarcasm detection
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant