CN114942998A - 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 - Google Patents
融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 Download PDFInfo
- Publication number
- CN114942998A CN114942998A CN202210439962.1A CN202210439962A CN114942998A CN 114942998 A CN114942998 A CN 114942998A CN 202210439962 A CN202210439962 A CN 202210439962A CN 114942998 A CN114942998 A CN 114942998A
- Authority
- CN
- China
- Prior art keywords
- entity
- representing
- graph
- representation
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 96
- 230000003993 interaction Effects 0.000 claims abstract description 19
- 230000009977 dual effect Effects 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Algebra (AREA)
- Animal Behavior & Ethology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将原始数据中的关键部分转换为知识图谱中所需的三元组信息;然后构建实体在结构特征上的相似度矩阵;接下来构建实体在语义特征上的相似度矩阵;再构建实体在字符串特征上的相似度矩阵;最终根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果。本发明使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善,使得实体对齐结果更加精准。
Description
技术领域
本发明属于机器学习技术领域,具体涉及一种知识图谱邻域结构稀疏的实体对齐方法。
背景技术
在线社交媒体平台近年来越来越受欢迎,由社交媒体平台上用户的历史行为数据构成的知识图谱通常表示为包含了多种不同时间、地点、人物、事件、内容等信息的异构网络。不同的社交媒体平台可能具有不同的功能,所以同一个用户可以因不同目使用多个不同的社交媒体平台。例如,某用户可以使用Facebook与其朋友分享有趣的帖子,使用Twiteer了解最新的新闻和事件。然而,同一用户在不同社交媒体平台上的拥有的账户以及发表的言论大多数的孤立的,彼此没有任何对应关系。
判断不同社交媒体平台构建的知识图谱中的用户实体是否指向真实世界同一用户的过程称为用户实体对齐,将不同社交媒体平台构建的知识图谱中的用户实体对齐对于许多现实世界的跨平台应用具有很大的价值。例如,在将Facebook和Twitter中的用户实体对齐后,可以对某用户在Facebook上对应的用户实体的社交关系或者个人兴趣信息进行分析,然后根据分析结果在Twitter上向其用户实体推荐新朋友或新话题。
目前的对齐算法的解决方案主要依赖于知识图谱的图结构,它们认为等价实体拥有相似的邻域结构。在从大规模知识图谱中提取的一些合成数据集上这些方法取得了一流的性能,然而合成数据集比现实数据集密度大很多,目前的对齐算法在具有现实分布的数据集上不能产生令人满意的结果。
现实生活中的知识图谱只有很少的实体被频繁的访问,并且具有详细的属性和丰富的联系,而大多数实体并没有被开发利用,并且只有少量的结构信息。
因此,目前的实体对齐算法仅依赖结构信息在现实数据上的表现不好,需要考虑知识图谱上的其他维度的信息。
发明内容
为了克服现有技术的不足,本发明提供了一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将原始数据中的关键部分转换为知识图谱中所需的三元组信息;然后构建实体在结构特征上的相似度矩阵;接下来构建实体在语义特征上的相似度矩阵;再构建实体在字符串特征上的相似度矩阵;最终根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果。本发明使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善,使得实体对齐结果更加精准。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息,分为两个部分:一是在正文数据中话题由“#”号开头,使用正则表达式提取主题实体,构架<用户,评论,主题>的三元组;二是在评论数据中根据依存句法分析的方法抽取出<主题,动词,主题>类型的三元组;按照三元组<h,r,t>的方式构成知识图谱,其中,h表示头实体,r表示关系,t表示尾实体;
步骤2:依据步骤1构建的知识图谱,构建实体在结构特征上的相似度矩阵;
步骤2-1:构造原始图;
将步骤1构建的知识图谱表示为G=(E,R,T),分别代表实体集合、关系集合、三元组集合,令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱;将图谱G1和G2合并为原始图ge=(ve,εe),ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中实体的集合,εe为的集合,表示知识图谱中实体ei与ej之间的关系;
步骤2-2:根据原始图构造对偶关系图;
原始图ge的对偶关系图为gr=(vr,εr),vr=R1∪R2表示对偶关系图gr中顶点的集合为两个知识图谱中所有关系的集合,εr为的集合,表示如果两个关系rj和rj共享相同的头实体或尾实体,则连接 分别表示对偶关系图中的节点;
步骤2-3:根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示;
步骤2-3-1:对偶注意力层;
步骤2-3-1-1:按照计算顶点的初始表示ci,其中Hi表示使用关系连接三元组的头实体集合;Ti表示使用关系连接三元组的尾实体;表示由原始注意力层输出,代表关系连接的第k个头实体表示;表示由原始注意力层输出,代表关系连接的第l个尾实体表示;
步骤2-3-1-2:按照计算顶点与其邻居之间的相关系数其中表示顶点在对偶关系图中的邻居集合;表示共享参数,是对顶点的特征进行增维;[·||·]表示对变换后的顶点特征进行拼接;ar表示全连接层将输入的二维向量映射到一个实数上得到相关系数;
步骤2-3-1-4:按照加权求和得到对偶关系图的顶点表示其中是对偶注意力层的输出,代表对偶关系图中第i个节点的表示;σr表示激活函数;Ej表示对偶关系图gr顶点的对偶表示,第一层的对偶注意力层不存在Ej,所以使用原始图的初始化顶点表示Xe_init,通过步骤2-3-1-1计算顶点的初始表示cj来代表Ej;
步骤2-3-2:原始注意力层;
步骤2-4:使用带有highway gate的双层GCN对原始图的实体结构特征进行量化;
步骤2-4-2:在GCN的第q层输入为实体表示X(q),输出为X(q+1);按照 计算X(q+1),其中,A表示原始图ge的邻接矩阵,I表示单位矩阵,如果直接使用邻接矩阵A,其对角线元素为0,乘以特征矩阵会导致最终结果忽略掉实体本身的特征;表示对邻接矩阵进行归一化,避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题;W(q)表示第q层的可训练权重矩阵;ξ表示激活函数ReLU;
步骤2-4-4:将步骤2-4-1到步骤2-4-3迭代N2轮得到最终的实体结构特征表示X;按照度量ei与ej之间的结构表示距离,其中X(ei)表示实体ei的结构特征表示;最终得到G1和G2之间的结构特征相似度矩阵Sims,矩阵第i行第j列代表来自于G1的实体ei与来自于G2的实体ej之间的相似度;
步骤3:依据步骤1构建的知识图谱,构建实体在语义特征上的相似度矩阵;
步骤3-1:使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove,得到预训练词向量生成模型;以上三种中的每一种预训练词向量生成模型给定一个语义嵌入空间实体名称在中的语义嵌入表示为 表明实体名称是由一系列的单词嵌入序列组合而成;
步骤3-2:按照获得Wi的幂平均词嵌入Hp(Wi),其中,表示单词的个数;d表示单词嵌入的维度;p表示不同的幂值,当p=1表示算术平均值,当p=0表示几何平均值,当p=-1表示调和平均值,当p=+∞表示最大平均值,当p=-∞表示最小平均值;
步骤4:依据步骤1构建的知识图谱,构建实体在字符串特征上的相似度矩阵;
步骤5:根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果;
步骤5-1:构建融合特征矩阵;
步骤5-2:注意力权重计算;
步骤5-2-1:按照计算实体e1与e2的共同注意相似度,其中表示中第i行的向量,表示中第i行的向量,且i=1,2;表示映射函数,w表示可训练的权重矩阵。最终可以得到一个2×N的共同注意相似度矩阵S,第一行表示G1与G2中N个节点的融合度表示的结构特征相似度,第二行表示N个节点融合度表示的语义特征相似度;
步骤5-2-2:使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重,首先按行通过softmax层归一化,再按列通过average层压缩获得最终的结构特征注意力权重atts,之后再将共同注意相似度矩阵按列通过softmax层归一化,再按行通过average层压缩获得最终语义特征注意力权重attt;
步骤5-2-3:按照Sim(e1,e2)=Sims(e1,e2)·atts+Simt(e1,e2)·attt+Simm(e1,e2)·attt得到融合实体结构、语义和字符串特征的相似度矩阵,即为最终实体对齐结果。
优选地,所述N1=200,N2=300。
本发明的有益效果如下:
本发明利用不同维度的实体特征,从结构、语义、字符串三个维度刻画实体,使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善,使得实体对齐结果更加精准。在训练时不需要人工提取特征,模型将不会引进人为偏见,同时减少了人工设计流程。
附图说明
图1为本发明方法的示意图。
图2为本发明方法知识图谱架构图。
图3为本发明的模型框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明针对融合多社交媒体平台数据的知识图谱邻域结构稀疏的实体对齐结果不够精准,提出了一种融合多维度知识图谱信息的模型,在消息传递中加入结构特征、语义特征,除此之外考虑实体的字符串特征。该方法可以充分利用知识图谱各维度的信息,精准的表示节点的特征,提升对齐结果的精准性。
如图1到图3所示,一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,包括如下步骤:
步骤1:根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息,分为两个部分:一是在正文数据中话题由“#”号开头,使用正则表达式提取主题实体,构架<用户,评论,主题>的三元组;二是在评论数据中根据依存句法分析的方法抽取出<主题,动词,主题>类型的三元组;按照三元组<h,r,t>的方式构成知识图谱,其中,h表示头实体,r表示关系,t表示尾实体;
步骤2:依据步骤1构建的知识图谱,构建实体在结构特征上的相似度矩阵;
步骤2-1:构造原始图;
将步骤1构建的知识图谱表示为G=(E,R,T),分别代表实体集合、关系集合、三元组集合,令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱;将图谱G1和G2合并为原始图ge=(ve,εe),ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中实体的集合,εe为的集合,表示知识图谱中实体ei与ej之间的关系;
步骤2-2:根据原始图构造对偶关系图;
步骤2-3:根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示;
步骤2-3-1:对偶注意力层;
步骤2-3-1-1:按照计算顶点的初始表示ci,其中Hi表示使用关系连接三元组的头实体集合;Ti表示使用关系连接三元组的尾实体;表示由原始注意力层输出,代表关系连接的第k个头实体表示;表示由原始注意力层输出,代表关系连接的第l个尾实体表示;
步骤2-3-1-2:按照计算顶点与其邻居之间的相关系数其中表示顶点在对偶关系图中的邻居集合;表示共享参数;[·||·]表示对变换后的顶点特征进行拼接;ar表示全连接层将输入的二维向量映射到一个实数上得到相关系数;
步骤2-3-1-4:按照加权求和得到对偶关系图的顶点表示其中是对偶注意力层的输出,代表对偶关系图中第i个节点的表示;σr表示激活函数;Ej表示对偶关系图gr顶点的对偶表示,第一层的对偶注意力层不存在Ej,所以使用原始图的初始化顶点表示Xe_init通过步骤2-3-1-1计算Ej。
步骤2-3-2:原始注意力层;
步骤2-4:使用带有highway gate的双层GCN对原始图的实体结构特征进行量化;
步骤2-4-2:在GCN的第q层输入为实体表示X(q),输出为X(q+1);按照 计算X(q+1),其中,A表示原始图ge的邻接矩阵,I表示单位矩阵,如果直接使用邻接矩阵A,其对角线元素为0,乘以特征矩阵会导致最终结果忽略掉实体本身的特征;表示对邻接矩阵进行归一化,避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题;W(q)表示第q层的可训练权重矩阵;ξ表示激活函数ReLU;
步骤2-4-4:将步骤2-4-1到步骤2-4-3迭代300轮得到最终的实体结构特征表示X;按照度量ei与ej之间的结构表示距离,其中X(ei)表示实体ei的结构特征表示;最终得到G1和G2之间的结构特征相似度矩阵Sims,矩阵第i行第j列代表来自于G1的实体ei与来自于G2的实体ej之间的相似度;
步骤3:依据步骤1构建的知识图谱,构建实体在语义特征上的相似度矩阵;
步骤3-1:使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove,得到训练好的词向量生成模型;每一种预训练词向量模型给定一个语义嵌入空间实体名称在中的语义嵌入表示为表明实体名称是由一系列的单词嵌入序列组合而成;
步骤3-2:按照获得Wi的幂平均词嵌入Hp(Wi),其中,表示单词的个数;d表示单词嵌入的维度;p表示不同的幂值,当p=1表示算术平均值,当p=0表示几何平均值,当p=-1表示调和平均值,当p=+∞表示最大平均值,当p=-∞表示最小平均值;
步骤4:依据步骤1构建的知识图谱,构建实体在字符串特征上的相似度矩阵;
步骤5:根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果;
步骤5-1:构建融合特征矩阵;
步骤5-2:注意力权重计算;
步骤5-2-1:按照计算实体e1与e2的共同注意相似度,其中表示中第i行的向量,表示中第i行的向量,且i=1,2;表示映射函数,w表示可训练的权重矩阵。最终可以得到一个2×N的共同注意相似度矩阵S,第一行表示G1与G2中N个节点的融合度表示的结构特征相似度,第二行表示N个节点融合度表示的语义特征相似度;
步骤5-2-2:使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重,首先按行通过softmax层归一化,再按列通过average层压缩获得最终的结构特征注意力权重atts,之后再将共同注意相似度矩阵按列通过softmax层归一化,再按行通过average层压缩获得最终语义特征注意力权重attt;
步骤5-2-3:按照Sim(e1,e2)=Sims(e1,e2)·atts+Simt(e1,e2)·attt+Simm(e1,e2)·attt得到融合实体结构、语义和字符串特征的相似度矩阵,即为最终实体对齐结果。
Claims (2)
1.一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,其特征在于,包括如下步骤:
步骤1:根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息,分为两个部分:一是在正文数据中话题由“#”号开头,使用正则表达式提取主题实体,构架<用户,评论,主题>的三元组;二是在评论数据中根据依存句法分析的方法抽取出<主题,动词,主题>类型的三元组;按照三元组<h,r,t>的方式构成知识图谱,其中,h表示头实体,r表示关系,t表示尾实体;
步骤2:依据步骤1构建的知识图谱,构建实体在结构特征上的相似度矩阵;
步骤2-1:构造原始图;
将步骤1构建的知识图谱表示为G=(E,R,T),分别代表实体集合、关系集合、三元组集合,令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱;将图谱G1和G2合并为原始图ge=(ve,εe),ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中实体的集合,εe为的集合,表示知识图谱中实体ei与ej之间的关系;
步骤2-2:根据原始图构造对偶关系图;
原始图ge的对偶关系图为gr=(vr,εr),vr=R1∪R2表示对偶关系图gr中顶点的集合为两个知识图谱中所有关系的集合,εr为的集合,表示如果两个关系ri和rj共享相同的头实体或尾实体,则连接 分别表示对偶关系图中的节点;
步骤2-3:根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示;
步骤2-3-1:对偶注意力层;
步骤2-3-1-1:按照计算顶点的初始表示ci,其中Hi表示使用关系连接三元组的头实体集合;Ti表示使用关系连接三元组的尾实体;表示由原始注意力层输出,代表关系连接的第k个头实体表示;表示由原始注意力层输出,代表关系连接的第l个尾实体表示;
步骤2-3-1-2:按照计算顶点与其邻居之间的相关系数其中表示顶点在对偶关系图中的邻居集合;表示共享参数,是对顶点的特征进行增维;[·||·]表示对变换后的顶点特征进行拼接;ar表示全连接层将输入的二维向量映射到一个实数上得到相关系数;
步骤2-3-1-4:按照加权求和得到对偶关系图的顶点表示其中是对偶注意力层的输出,代表对偶关系图中第i个节点的表示;σr表示激活函数;Ej表示对偶关系图gr顶点的对偶表示,第一层的对偶注意力层不存在Ej,所以使用原始图的初始化顶点表示Xe_init,通过步骤2-3-1-1计算顶点的初始表示cj来代表Ej;
步骤2-3-2:原始注意力层;
步骤2-4:使用带有highway gate的双层GCN对原始图的实体结构特征进行量化;
步骤2-4-2:在GCN的第q层输入为实体表示X(q),输出为X(q+1);按照 计算X(q+1),其中,A表示原始图ge的邻接矩阵,I表示单位矩阵,如果直接使用邻接矩阵A,其对角线元素为0,乘以特征矩阵会导致最终结果忽略掉实体本身的特征;表示对邻接矩阵进行归一化,避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题;W(q)表示第q层的可训练权重矩阵;ξ表示激活函数ReLU;
步骤2-4-4:将步骤2-4-1到步骤2-4-3迭代N2轮得到最终的实体结构特征表示X;按照度量ei与ej之间的结构表示距离,其中X(ei)表示实体ei的结构特征表示;最终得到G1和G2之间的结构特征相似度矩阵Sims,矩阵第i行第j列代表来自于G1的实体ei与来自于G2的实体ej之间的相似度;
步骤3:依据步骤1构建的知识图谱,构建实体在语义特征上的相似度矩阵;
步骤3-1:使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove,得到预训练词向量生成模型;以上三种中的每一种预训练词向量生成模型给定一个语义嵌入空间实体名称在中的语义嵌入表示为 表明实体名称是由一系列的单词嵌入序列组合而成;
步骤3-2:按照获得Wi的幂平均词嵌入Hp(Wi),其中,θ表示单词的个数;d表示单词嵌入的维度;p表示不同的幂值,当p=1表示算术平均值,当p=0表示几何平均值,当p=-1表示调和平均值,当p=+∞表示最大平均值,当p=-∞表示最小平均值;
步骤4:依据步骤1构建的知识图谱,构建实体在字符串特征上的相似度矩阵;
步骤5:根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果;
步骤5-1:构建融合特征矩阵;
步骤5-2:注意力权重计算;
步骤5-2-1:按照计算实体e1与e2的共同注意相似度,其中表示中第i行的向量,表示中第i行的向量,且i=1,2;表示映射函数,w表示可训练的权重矩阵;最终可以得到一个2×N的共同注意相似度矩阵S,第一行表示G1与G2中N个节点的融合度表示的结构特征相似度,第二行表示N个节点融合度表示的语义特征相似度;
步骤5-2-2:使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重,首先按行通过softmax层归一化,再按列通过average层压缩获得最终的结构特征注意力权重atts,之后再将共同注意相似度矩阵按列通过softmax层归一化,再按行通过average层压缩获得最终语义特征注意力权重attt;
步骤5-2-3:按照Sim(e1,e2)=Sims(e1,e2)·atts+Simt(e1,e2)·attt+Simm(e1,e2)·attt得到融合实体结构、语义和字符串特征的相似度矩阵,即为最终实体对齐结果。
2.根据权利要求1所述的一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,其特征在于,所述N1=200,N2=300。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210439962.1A CN114942998B (zh) | 2022-04-25 | 2022-04-25 | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210439962.1A CN114942998B (zh) | 2022-04-25 | 2022-04-25 | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114942998A true CN114942998A (zh) | 2022-08-26 |
CN114942998B CN114942998B (zh) | 2024-02-13 |
Family
ID=82907604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210439962.1A Active CN114942998B (zh) | 2022-04-25 | 2022-04-25 | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114942998B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795061A (zh) * | 2023-02-13 | 2023-03-14 | 京华信息科技股份有限公司 | 一种基于词向量和依存句法的知识图谱构建方法及系统 |
CN115934970A (zh) * | 2023-02-27 | 2023-04-07 | 中南大学 | 一种基于多视图可视化的交互式实体对齐方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287123A (zh) * | 2020-11-19 | 2021-01-29 | 国网湖南省电力有限公司 | 一种基于边类型注意力机制的实体对齐方法及装置 |
CN112784065A (zh) * | 2021-02-01 | 2021-05-11 | 东北大学 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
CN113641826A (zh) * | 2021-06-29 | 2021-11-12 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
WO2022011681A1 (zh) * | 2020-07-17 | 2022-01-20 | 国防科技大学 | 一种基于迭代补全的知识图谱融合方法 |
WO2022041294A1 (zh) * | 2020-08-26 | 2022-03-03 | 华南理工大学 | 一种结合知识库中的三元组和实体类型的生成问题方法 |
-
2022
- 2022-04-25 CN CN202210439962.1A patent/CN114942998B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021212682A1 (zh) * | 2020-04-21 | 2021-10-28 | 平安国际智慧城市科技股份有限公司 | 知识抽取方法、装置、电子设备及存储介质 |
WO2022011681A1 (zh) * | 2020-07-17 | 2022-01-20 | 国防科技大学 | 一种基于迭代补全的知识图谱融合方法 |
WO2022041294A1 (zh) * | 2020-08-26 | 2022-03-03 | 华南理工大学 | 一种结合知识库中的三元组和实体类型的生成问题方法 |
CN112287123A (zh) * | 2020-11-19 | 2021-01-29 | 国网湖南省电力有限公司 | 一种基于边类型注意力机制的实体对齐方法及装置 |
CN112784065A (zh) * | 2021-02-01 | 2021-05-11 | 东北大学 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
CN113641826A (zh) * | 2021-06-29 | 2021-11-12 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
Non-Patent Citations (3)
Title |
---|
唐浩;刘柏嵩;刘晓玲;黄伟明;: "基于协同知识图谱特征学习的论文推荐方法", 计算机工程, no. 09 * |
曾维新;赵翔;唐九阳;谭真;王炜;: "基于重排序的迭代式实体对齐", 计算机研究与发展, no. 07 * |
王红;林海舟;卢林燕;: "基于Att_GCN模型的知识图谱推理算法", 计算机工程与应用, no. 09 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795061A (zh) * | 2023-02-13 | 2023-03-14 | 京华信息科技股份有限公司 | 一种基于词向量和依存句法的知识图谱构建方法及系统 |
CN115795061B (zh) * | 2023-02-13 | 2023-04-07 | 京华信息科技股份有限公司 | 一种基于词向量和依存句法的知识图谱构建方法及系统 |
CN115934970A (zh) * | 2023-02-27 | 2023-04-07 | 中南大学 | 一种基于多视图可视化的交互式实体对齐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114942998B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753024B (zh) | 一种面向公共安全领域的多源异构数据实体对齐方法 | |
CN112633010B (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN111709518A (zh) | 一种基于社区感知和关系注意力的增强网络表示学习的方法 | |
CN114942998B (zh) | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 | |
CN111815468B (zh) | 一种基于用户身份关联的多源社交网络构建方法 | |
CN113486190B (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN112988917B (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN112417063B (zh) | 一种基于异构关系网络的相容功能项推荐方法 | |
CN112084373B (zh) | 一种基于图嵌入的多源异构网络用户对齐方法 | |
CN111753207B (zh) | 一种基于评论的神经图协同过滤方法 | |
CN112559764A (zh) | 一种基于领域知识图谱的内容推荐方法 | |
CN114565053A (zh) | 基于特征融合的深层异质图嵌入模型 | |
CN114254093A (zh) | 多空间知识增强的知识图谱问答方法及系统 | |
CN112487193A (zh) | 一种基于自编码器的零样本图片分类方法 | |
CN113869424A (zh) | 基于双通道图卷积网络的半监督节点分类方法 | |
CN112860904A (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
Lai et al. | Transconv: Relationship embedding in social networks | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN114036298B (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
CN116821291A (zh) | 基于知识图谱嵌入与语言模型交替学习的问答方法及系统 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
CN115188440A (zh) | 一种相似病历智能匹配方法 | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
CN117009547A (zh) | 基于图神经网络与对抗学习的多模态知识图谱补全方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |