CN114942998B - 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 - Google Patents

融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 Download PDF

Info

Publication number
CN114942998B
CN114942998B CN202210439962.1A CN202210439962A CN114942998B CN 114942998 B CN114942998 B CN 114942998B CN 202210439962 A CN202210439962 A CN 202210439962A CN 114942998 B CN114942998 B CN 114942998B
Authority
CN
China
Prior art keywords
entity
representing
graph
representation
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210439962.1A
Other languages
English (en)
Other versions
CN114942998A (zh
Inventor
王柱
刘囡囡
刘慧�
康天雨
郭斌
於志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210439962.1A priority Critical patent/CN114942998B/zh
Publication of CN114942998A publication Critical patent/CN114942998A/zh
Application granted granted Critical
Publication of CN114942998B publication Critical patent/CN114942998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Animal Behavior & Ethology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将原始数据中的关键部分转换为知识图谱中所需的三元组信息;然后构建实体在结构特征上的相似度矩阵;接下来构建实体在语义特征上的相似度矩阵;再构建实体在字符串特征上的相似度矩阵;最终根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果。本发明使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善,使得实体对齐结果更加精准。

Description

融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
技术领域
本发明属于机器学习技术领域,具体涉及一种知识图谱邻域结构稀疏的实体对齐方法。
背景技术
在线社交媒体平台近年来越来越受欢迎,由社交媒体平台上用户的历史行为数据构成的知识图谱通常表示为包含了多种不同时间、地点、人物、事件、内容等信息的异构网络。不同的社交媒体平台可能具有不同的功能,所以同一个用户可以因不同目使用多个不同的社交媒体平台。例如,某用户可以使用Facebook与其朋友分享有趣的帖子,使用Twiteer了解最新的新闻和事件。然而,同一用户在不同社交媒体平台上的拥有的账户以及发表的言论大多数的孤立的,彼此没有任何对应关系。
判断不同社交媒体平台构建的知识图谱中的用户实体是否指向真实世界同一用户的过程称为用户实体对齐,将不同社交媒体平台构建的知识图谱中的用户实体对齐对于许多现实世界的跨平台应用具有很大的价值。例如,在将Facebook和Twitter中的用户实体对齐后,可以对某用户在Facebook上对应的用户实体的社交关系或者个人兴趣信息进行分析,然后根据分析结果在Twitter上向其用户实体推荐新朋友或新话题。
目前的对齐算法的解决方案主要依赖于知识图谱的图结构,它们认为等价实体拥有相似的邻域结构。在从大规模知识图谱中提取的一些合成数据集上这些方法取得了一流的性能,然而合成数据集比现实数据集密度大很多,目前的对齐算法在具有现实分布的数据集上不能产生令人满意的结果。
现实生活中的知识图谱只有很少的实体被频繁的访问,并且具有详细的属性和丰富的联系,而大多数实体并没有被开发利用,并且只有少量的结构信息。
因此,目前的实体对齐算法仅依赖结构信息在现实数据上的表现不好,需要考虑知识图谱上的其他维度的信息。
发明内容
为了克服现有技术的不足,本发明提供了一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将原始数据中的关键部分转换为知识图谱中所需的三元组信息;然后构建实体在结构特征上的相似度矩阵;接下来构建实体在语义特征上的相似度矩阵;再构建实体在字符串特征上的相似度矩阵;最终根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果。本发明使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善,使得实体对齐结果更加精准。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息,分为两个部分:一是在正文数据中话题由“#”号开头,使用正则表达式提取主题实体,构架<用户,评论,主题>的三元组;二是在评论数据中根据依存句法分析的方法抽取出<主题,动词,主题>类型的三元组;按照三元组<h,r,t>的方式构成知识图谱,其中,h表示头实体,r表示关系,t表示尾实体;
步骤2:依据步骤1构建的知识图谱,构建实体在结构特征上的相似度矩阵;
步骤2-1:构造原始图;
将步骤1构建的知识图谱表示为G=(E,R,T),分别代表实体集合、关系集合、三元组集合,令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱;将图谱G1和G2合并为原始图ge=(vee),ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中实体的集合,εe的集合,/>表示知识图谱中实体ei与ej之间的关系;
步骤2-2:根据原始图构造对偶关系图;
原始图ge的对偶关系图为gr=(vrr),vr=R1∪R2表示对偶关系图gr中顶点的集合为两个知识图谱中所有关系的集合,εr的集合,/>表示如果两个关系rj和rj共享相同的头实体或尾实体,则/>连接/> 分别表示对偶关系图中的节点;
步骤2-3:根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示;
定义表示对偶注意力层生成的顶点表示矩阵,其中每行对应对偶关系图gr中的一个顶点;定义Xe表示原始注意力层生成的顶点表示矩阵,其中每行对应原始图ge中的一个顶点;
步骤2-3-1:对偶注意力层;
步骤2-3-1-1:按照计算顶点/>的初始表示ci,其中Hi表示使用关系/>连接三元组的头实体集合;Ti表示使用关系/>连接三元组的尾实体;/>表示由原始注意力层输出,代表关系/>连接的第k个头实体表示;/>表示由原始注意力层输出,代表关系/>连接的第l个尾实体表示;
步骤2-3-1-2:按照计算顶点/>与其邻居/>之间的相关系数/>其中/>表示顶点/>在对偶关系图中的邻居集合;/>表示共享参数,是对顶点的特征进行增维;[·||·]表示对变换后的顶点特征进行拼接;ar表示全连接层将输入的二维向量映射到一个实数上得到相关系数;
步骤2-3-1-3:按照将相关系数/>归一化得到/>LeakyReLU(.)表示LeakyReLU激活函数;
步骤2-3-1-4:按照加权求和得到对偶关系图的顶点表示其中/>是对偶注意力层的输出,代表对偶关系图中第i个节点的表示;σr表示激活函数;Ej表示对偶关系图gr顶点/>的对偶表示,第一层的对偶注意力层不存在Ej,所以使用原始图的初始化顶点表示Xe_init,通过步骤2-3-1-1计算顶点/>的初始表示cj来代表Ej
步骤2-3-2:原始注意力层;
步骤2-3-2-1:将对偶注意力层的输出作为原始图中边的初始特征,记为按照对边特征进行归一化,其中,/>表示原始图中第i个节点和第j个节点之间的边特征向量,Eij表示原始图中归一化后的边特征向量;
步骤2-3-2-2:按照计算原始图中顶点/>与其邻居节点/>的相似系数/>其中L表示LeakyReLU激活函数;ae表示全连接层将输入的二维向量映射到实数;We表示权重矩阵;
步骤2-3-2-3:按照与/>对步骤2-3-2-2得到的/>进行归一化表示得到αe
步骤2-3-2-4:按照将节点特征从输入空间映射到输出空间的变换;
步骤2-3-2-5:根据步骤2-3-2-3得到αe,步骤2-3-2-4得到g(·),按照 获得原始图顶点表示;其中σe表示非线性的激活函数;αe表示原始图注意层的注意力系数;
步骤2-3-3:将步骤2-3迭代N1轮得到了原始图融合边特征的实体表示
步骤2-4:使用带有highway gate的双层GCN对原始图的实体结构特征进行量化;
步骤2-4-1:将步骤2-3得到的作为GCN的初始输入;
步骤2-4-2:在GCN的第q层输入为实体表示X(q),输出为X(q+1);按照 计算X(q+1),其中,/>A表示原始图ge的邻接矩阵,I表示单位矩阵,如果直接使用邻接矩阵A,其对角线元素为0,乘以特征矩阵会导致最终结果忽略掉实体本身的特征;/>表示对邻接矩阵进行归一化,避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题;W(q)表示第q层的可训练权重矩阵;ξ表示激活函数ReLU;
步骤2-4-3:按照X(q+1)=T(X(q))·X(q+1)+(1-T(X(q)))·(X(q))防止噪声在传播过程中累积;其中σ表示sigmoid激活函数;·表示张量之间对应元素逐个相乘;
步骤2-4-4:将步骤2-4-1到步骤2-4-3迭代N2轮得到最终的实体结构特征表示X;按照度量ei与ej之间的结构表示距离,其中X(ei)表示实体ei的结构特征表示;最终得到G1和G2之间的结构特征相似度矩阵Sims,矩阵第i行第j列代表来自于G1的实体ei与来自于G2的实体ej之间的相似度;
步骤3:依据步骤1构建的知识图谱,构建实体在语义特征上的相似度矩阵;
步骤3-1:使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove,得到预训练词向量生成模型;以上三种中的每一种预训练词向量生成模型给定一个语义嵌入空间实体名称在/>中的语义嵌入表示为/> 表明实体名称是由一系列的单词嵌入序列组合而成;
步骤3-2:按照获得Wi的幂平均词嵌入Hp(Wi),其中,/>表示单词的个数;d表示单词嵌入的维度;p表示不同的幂值,当p=1表示算术平均值,当p=0表示几何平均值,当p=-1表示调和平均值,当p=+∞表示最大平均值,当p=-∞表示最小平均值;
步骤3-3:按照将实体名称不同幂平均值连接起来获得实体名称在/>空间下的语义表示/>其中/>表示将不同幂平均值按行连接;p1,..,pk表示K种幂值;
步骤3-4:按照将不同/>空间下的语义表示连接起来,最终获得实体名称语义特征表示/>
步骤3-5:按照度量ei与ej之间的语义表示距离,最终得到G1和G2之间的语义特征相似度矩阵Simt
步骤4:依据步骤1构建的知识图谱,构建实体在字符串特征上的相似度矩阵;
步骤4-1:采用Levenshtein距离得到表示实体ei的名称字符串前m个字符与实体ej的名称字符串前n个字符之间的距离;
步骤4-2:按照度量实体名称字符串的距离,其中|ei|表示实体ei的字符串长度;最终根据实体名称之间的字符串的相似度构成G1和G2之间的字符串特征相似度矩阵Simm
步骤5:根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果;
步骤5-1:构建融合特征矩阵;
步骤5-1-1:按照计算实体的度表示,其中/>表示实体度值的one-hot编码表示;M表示全连接层的权重表示;dg为度表示的维度;
步骤5-1-2:按照和/>将结构表示和语义表示分别与度表示结合,其中X(e1)表示结构特征矩阵、N(e1)表示实体名称语义特征矩阵;⊙表示哈达玛积,在不改变原始维度特征矩阵维度的同时将度表示融入其中;
步骤5-1-3:按照将步骤5-1-2得到的向量/>按列连接起来,使用0填充缺失的值;dm=max{ds,dt},ds,dt分别表示/>与/>的维度;
步骤5-2:注意力权重计算;
步骤5-2-1:按照计算实体e1与e2的共同注意相似度,其中/>表示/>中第i行的向量,/>表示/>中第i行的向量,且i=1,2;/>表示映射函数,w表示可训练的权重矩阵。最终可以得到一个2×N的共同注意相似度矩阵S,第一行表示G1与G2中N个节点的融合度表示的结构特征相似度,第二行表示N个节点融合度表示的语义特征相似度;
步骤5-2-2:使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重,首先按行通过softmax层归一化,再按列通过average层压缩获得最终的结构特征注意力权重atts,之后再将共同注意相似度矩阵按列通过softmax层归一化,再按行通过average层压缩获得最终语义特征注意力权重attt
步骤5-2-3:按照Sim(e1,e2)=Sims(e1,e2)·atts+Simt(e1,e2)·attt+Simm(e1,e2)·attt得到融合实体结构、语义和字符串特征的相似度矩阵,即为最终实体对齐结果。
优选地,所述N1=200,N2=300。
本发明的有益效果如下:
本发明利用不同维度的实体特征,从结构、语义、字符串三个维度刻画实体,使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善,使得实体对齐结果更加精准。在训练时不需要人工提取特征,模型将不会引进人为偏见,同时减少了人工设计流程。
附图说明
图1为本发明方法的示意图。
图2为本发明方法知识图谱架构图。
图3为本发明的模型框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明针对融合多社交媒体平台数据的知识图谱邻域结构稀疏的实体对齐结果不够精准,提出了一种融合多维度知识图谱信息的模型,在消息传递中加入结构特征、语义特征,除此之外考虑实体的字符串特征。该方法可以充分利用知识图谱各维度的信息,精准的表示节点的特征,提升对齐结果的精准性。
如图1到图3所示,一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,包括如下步骤:
步骤1:根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息,分为两个部分:一是在正文数据中话题由“#”号开头,使用正则表达式提取主题实体,构架<用户,评论,主题>的三元组;二是在评论数据中根据依存句法分析的方法抽取出<主题,动词,主题>类型的三元组;按照三元组<h,r,t>的方式构成知识图谱,其中,h表示头实体,r表示关系,t表示尾实体;
步骤2:依据步骤1构建的知识图谱,构建实体在结构特征上的相似度矩阵;
步骤2-1:构造原始图;
将步骤1构建的知识图谱表示为G=(E,R,T),分别代表实体集合、关系集合、三元组集合,令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱;将图谱G1和G2合并为原始图ge=(vee),ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中实体的集合,εe的集合,/>表示知识图谱中实体ei与ej之间的关系;
步骤2-2:根据原始图构造对偶关系图;
原始图ge的对偶关系图为gr=(vrr),vr=R1∪R2表示对偶关系图gr中顶点的集合为两个知识图谱中所有关系的集合,εr的集合,/>表示如果两个关系ri和rj共享相同的头实体或尾实体,则/>连接/>
步骤2-3:根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示;
定义表示对偶注意力层生成的顶点表示矩阵,其中每行对应对偶关系图gr中的一个顶点;定义Xe表示原始注意力层生成的顶点表示矩阵,其中每行对应原始图ge中的一个顶点;
步骤2-3-1:对偶注意力层;
步骤2-3-1-1:按照计算顶点/>的初始表示ci,其中Hi表示使用关系/>连接三元组的头实体集合;Ti表示使用关系/>连接三元组的尾实体;/>表示由原始注意力层输出,代表关系/>连接的第k个头实体表示;/>表示由原始注意力层输出,代表关系/>连接的第l个尾实体表示;
步骤2-3-1-2:按照计算顶点/>与其邻居/>之间的相关系数/>其中/>表示顶点/>在对偶关系图中的邻居集合;/>表示共享参数;[·||·]表示对变换后的顶点特征进行拼接;ar表示全连接层将输入的二维向量映射到一个实数上得到相关系数;
步骤2-3-1-3:按照将相关系数/>归一化得到/>LeakyReLU(.)表示LeakyReLU激活函数;
步骤2-3-1-4:按照加权求和得到对偶关系图的顶点表示其中/>是对偶注意力层的输出,代表对偶关系图中第i个节点的表示;σr表示激活函数;Ej表示对偶关系图gr顶点/>的对偶表示,第一层的对偶注意力层不存在Ej,所以使用原始图的初始化顶点表示Xe_init通过步骤2-3-1-1计算Ej
步骤2-3-2:原始注意力层;
步骤2-3-2-1:将对偶注意力层的输出作为原始图中边的初始特征,记为按照对边特征进行归一化,其中,/>表示原始图中第i个节点和第j个节点之间的边特征向量,Eij表示原始图中归一化后的边特征向量;
步骤2-3-2-2:按照计算原始图中顶点/>与其邻居节点/>的相似系数/>其中L表示LeakyReLU激活函数;ae表示全连接层将输入的二维向量映射到实数;We表示权重矩阵;
步骤2-3-2-3:按照与/>对步骤2-3-2-2得到的/>进行归一化表示;
步骤2-3-2-4:按照将节点特征从输入空间映射到输出空间的变换;
步骤2-3-2-5:根据步骤2-3-2-3得到αe,步骤2-3-2-4得到g(·),按照 获得原始图顶点表示;其中σe表示非线性的激活函数;αe表示原始图注意层的注意力系数;
步骤2-3-3:将上述步骤迭代200轮得到了原始图融合边特征的实体表示
步骤2-4:使用带有highway gate的双层GCN对原始图的实体结构特征进行量化;
步骤2-4-1:将步骤2-3得到的作为GCN的初始输入;
步骤2-4-2:在GCN的第q层输入为实体表示X(q),输出为X(q+1);按照 计算X(q+1),其中,/>A表示原始图ge的邻接矩阵,I表示单位矩阵,如果直接使用邻接矩阵A,其对角线元素为0,乘以特征矩阵会导致最终结果忽略掉实体本身的特征;/>表示对邻接矩阵进行归一化,避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题;W(q)表示第q层的可训练权重矩阵;ξ表示激活函数ReLU;
步骤2-4-3:按照X(q+1)=T(X(q))·X(q+1)+(1-T(X(q)))·(X(q))防止噪声在传播过程中累积;其中σ表示sigmoid激活函数;·表示张量之间对应元素逐个相乘;
步骤2-4-4:将步骤2-4-1到步骤2-4-3迭代300轮得到最终的实体结构特征表示X;按照度量ei与ej之间的结构表示距离,其中X(ei)表示实体ei的结构特征表示;最终得到G1和G2之间的结构特征相似度矩阵Sims,矩阵第i行第j列代表来自于G1的实体ei与来自于G2的实体ej之间的相似度;
步骤3:依据步骤1构建的知识图谱,构建实体在语义特征上的相似度矩阵;
步骤3-1:使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove,得到训练好的词向量生成模型;每一种预训练词向量模型给定一个语义嵌入空间实体名称在/>中的语义嵌入表示为/>表明实体名称是由一系列的单词嵌入序列组合而成;
步骤3-2:按照获得Wi的幂平均词嵌入Hp(Wi),其中,/>表示单词的个数;d表示单词嵌入的维度;p表示不同的幂值,当p=1表示算术平均值,当p=0表示几何平均值,当p=-1表示调和平均值,当p=+∞表示最大平均值,当p=-∞表示最小平均值;
步骤3-3:按照将实体名称不同幂平均值连接起来获得实体名称在/>空间下的语义表示/>其中/>表示将不同幂平均值按行连接;p1,..,pk表示K种幂值;
步骤3-4:按照将不同/>空间下的语义表示连接起来,最终获得实体名称语义特征表示/>
步骤3-5:按照度量ei与ej之间的语义表示距离,最终得到G1和G2之间的语义特征相似度矩阵Simt
步骤4:依据步骤1构建的知识图谱,构建实体在字符串特征上的相似度矩阵;
步骤4-1:采用Levenshtein距离得到表示实体ei的名称字符串前m个字符与实体ej的名称字符串前n个字符之间的距离;
步骤4-2:按照度量实体名称字符串的距离,其中|ei|表示实体ei的字符串长度;最终根据实体名称之间的字符串的相似度构成G1和G2之间的字符串特征相似度矩阵Simm
步骤5:根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果;
步骤5-1:构建融合特征矩阵;
步骤5-1-1:按照计算实体的度表示,其中/>表示实体度值的one-hot编码表示;M表示全连接层的权重表示;dg为度表示的维度;
步骤5-1-2:按照和/>将结构表示和语义表示分别与度表示结合,其中X(e1)表示结构特征矩阵、N(e1)表示实体名称语义特征矩阵;⊙表示哈达玛积;
步骤5-1-3:按照将步骤5-1-2得到的向量/>按列连接起来,使用0填充缺失的值;dm=max{ds,dt};
步骤5-2:注意力权重计算;
步骤5-2-1:按照计算实体e1与e2的共同注意相似度,其中/>表示/>中第i行的向量,/>表示/>中第i行的向量,且i=1,2;/>表示映射函数,w表示可训练的权重矩阵。最终可以得到一个2×N的共同注意相似度矩阵S,第一行表示G1与G2中N个节点的融合度表示的结构特征相似度,第二行表示N个节点融合度表示的语义特征相似度;
步骤5-2-2:使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重,首先按行通过softmax层归一化,再按列通过average层压缩获得最终的结构特征注意力权重atts,之后再将共同注意相似度矩阵按列通过softmax层归一化,再按行通过average层压缩获得最终语义特征注意力权重attt
步骤5-2-3:按照Sim(e1,e2)=Sims(e1,e2)·atts+Simt(e1,e2)·attt+Simm(e1,e2)·attt得到融合实体结构、语义和字符串特征的相似度矩阵,即为最终实体对齐结果。

Claims (2)

1.一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,其特征在于,包括如下步骤:
步骤1:根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息,分为两个部分:一是在正文数据中话题由“#”号开头,使用正则表达式提取主题实体,构架<用户,评论,主题>的三元组;二是在评论数据中根据依存句法分析的方法抽取出<主题,动词,主题>类型的三元组;按照三元组<h,r,t>的方式构成知识图谱,其中,h表示头实体,r表示关系,t表示尾实体;
步骤2:依据步骤1构建的知识图谱,构建实体在结构特征上的相似度矩阵;
步骤2-1:构造原始图;
将步骤1构建的知识图谱表示为G=(E,R,T),分别代表实体集合、关系集合、三元组集合,令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱;将图谱G1和G2合并为原始图ge=(vee),ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中实体的集合,εe的集合,/>表示知识图谱中实体ei与ej之间的关系;
步骤2-2:根据原始图构造对偶关系图;
原始图ge的对偶关系图为gr=(vrr),vr=R1∪R2表示对偶关系图gr中顶点的集合为两个知识图谱中所有关系的集合,εr的集合,/>表示如果两个关系ri和rj共享相同的头实体或尾实体,则/>连接/> 分别表示对偶关系图中的节点;
步骤2-3:根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示;
定义表示对偶注意力层生成的顶点表示矩阵,其中每行对应对偶关系图gr中的一个顶点;定义Xe表示原始注意力层生成的顶点表示矩阵,其中每行对应原始图ge中的一个顶点;
步骤2-3-1:对偶注意力层;
步骤2-3-1-1:按照计算顶点/>的初始表示ci,其中Hi表示使用关系/>连接三元组的头实体集合;Ti表示使用关系/>连接三元组的尾实体;/>表示由原始注意力层输出,代表关系/>连接的第k个头实体表示;/>表示由原始注意力层输出,代表关系/>连接的第l个尾实体表示;
步骤2-3-1-2:按照计算顶点/>与其邻居/>之间的相关系数/>其中/>表示顶点/>在对偶关系图中的邻居集合;/>表示共享参数,是对顶点的特征进行增维;[·||·]表示对变换后的顶点特征进行拼接;ar表示全连接层将输入的二维向量映射到一个实数上得到相关系数;
步骤2-3-1-3:按照将相关系数/>归一化得到/>LeakyReLU(.)表示LeakyReLU激活函数;
步骤2-3-1-4:按照加权求和得到对偶关系图的顶点表示/>其中/>是对偶注意力层的输出,代表对偶关系图中第i个节点的表示;σr表示激活函数;Ej表示对偶关系图gr顶点/>的对偶表示,第一层的对偶注意力层不存在Ej,所以使用原始图的初始化顶点表示Xe_init,通过步骤2-3-1-1计算顶点/>的初始表示cj来代表Ej
步骤2-3-2:原始注意力层;
步骤2-3-2-1:将对偶注意力层的输出作为原始图中边的初始特征,记为按照对边特征进行归一化,其中,/>表示原始图中第i个节点和第j个节点之间的边特征向量,Eij表示原始图中归一化后的边特征向量;
步骤2-3-2-2:按照计算原始图中顶点/>与其邻居节点/>的相似系数/>其中L表示LeakyReLU激活函数;ae表示全连接层将输入的二维向量映射到实数;We表示权重矩阵;
步骤2-3-2-3:按照与/>对步骤2-3-2-2得到的/>进行归一化表示得到αe
步骤2-3-2-4:按照将节点特征从输入空间映射到输出空间的变换;
步骤2-3-2-5:根据步骤2-3-2-3得到αe,步骤2-3-2-4得到g(·),按照 获得原始图顶点表示;其中σe表示非线性的激活函数;αe表示原始图注意层的注意力系数;
步骤2-3-3:将步骤2-3迭代N1轮得到了原始图融合边特征的实体表示
步骤2-4:使用带有highway gate的双层GCN对原始图的实体结构特征进行量化;
步骤2-4-1:将步骤2-3得到的作为GCN的初始输入;
步骤2-4-2:在GCN的第q层输入为实体表示X(q),输出为X(q+1);按照 计算X(q+1),其中,/>A表示原始图ge的邻接矩阵,I表示单位矩阵,如果直接使用邻接矩阵A,其对角线元素为0,乘以特征矩阵会导致最终结果忽略掉实体本身的特征;/>表示对邻接矩阵进行归一化,避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题;W(q)表示第q层的可训练权重矩阵;ξ表示激活函数ReLU;
步骤2-4-3:按照X(q+1)=T(X(q))·X(q+1)+(1-T(X(q)))·(X(q))防止噪声在传播过程中累积;其中σ表示sigmoid激活函数;·表示张量之间对应元素逐个相乘;
步骤2-4-4:将步骤2-4-1到步骤2-4-3迭代N2轮得到最终的实体结构特征表示X;按照度量ei与ej之间的结构表示距离,其中X(ei)表示实体ei的结构特征表示;最终得到G1和G2之间的结构特征相似度矩阵Sims,矩阵第i行第j列代表来自于G1的实体ei与来自于G2的实体ej之间的相似度;
步骤3:依据步骤1构建的知识图谱,构建实体在语义特征上的相似度矩阵;
步骤3-1:使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove,得到预训练词向量生成模型;以上三种中的每一种预训练词向量生成模型给定一个语义嵌入空间实体名称在/>中的语义嵌入表示为/> 表明实体名称是由一系列的单词嵌入序列组合而成;
步骤3-2:按照获得Wi的幂平均词嵌入Hp(Wi),其中,θ表示单词的个数;d表示单词嵌入的维度;p表示不同的幂值,当p=1表示算术平均值,当p=0表示几何平均值,当p=-1表示调和平均值,当p=+∞表示最大平均值,当p=-∞表示最小平均值;
步骤3-3:按照将实体名称不同幂平均值连接起来获得实体名称在/>空间下的语义表示/>其中/>表示将不同幂平均值按行连接;p1,..,pk表示K种幂值;
步骤3-4:按照将不同/>空间下的语义表示连接起来,最终获得实体名称语义特征表示/>
步骤3-5:按照度量ei与ej之间的语义表示距离,最终得到G1和G2之间的语义特征相似度矩阵Simt
步骤4:依据步骤1构建的知识图谱,构建实体在字符串特征上的相似度矩阵;
步骤4-1:采用Levenshtein距离得到表示实体ei的名称字符串前m个字符与实体ej的名称字符串前n个字符之间的距离;
步骤4-2:按照度量实体名称字符串的距离,其中|ei|表示实体ei的字符串长度;最终根据实体名称之间的字符串的相似度构成G1和G2之间的字符串特征相似度矩阵Simm
步骤5:根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果;
步骤5-1:构建融合特征矩阵;
步骤5-1-1:按照计算实体的度表示,其中/>表示实体度值的one-hot编码表示;M表示全连接层的权重表示;dg为度表示的维度;
步骤5-1-2:按照和/>将结构表示和语义表示分别与度表示结合,其中X(e1)表示结构特征矩阵、N(e1)表示实体名称语义特征矩阵;⊙表示哈达玛积,在不改变原始维度特征矩阵维度的同时将度表示融入其中;
步骤5-1-3:按照将步骤5-1-2得到的向量/>按列连接起来,使用0填充缺失的值;dm=max{ds,dt},ds,dt分别表示/>与/>的维度;
步骤5-2:注意力权重计算;
步骤5-2-1:按照计算实体e1与e2的共同注意相似度,其中/>表示/>中第i行的向量,/>表示/>中第i行的向量,且i=1,2;/>表示映射函数,w表示可训练的权重矩阵;最终可以得到一个2×N的共同注意相似度矩阵S,第一行表示G1与G2中N个节点的融合度表示的结构特征相似度,第二行表示N个节点融合度表示的语义特征相似度;
步骤5-2-2:使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重,首先按行通过softmax层归一化,再按列通过average层压缩获得最终的结构特征注意力权重atts,之后再将共同注意相似度矩阵按列通过softmax层归一化,再按行通过average层压缩获得最终语义特征注意力权重attt
步骤5-2-3:按照Sim(e1,e2)=Sims(e1,e2)·atts+Simt(e1,e2)·attt+Simm(e1,e2)·attt得到融合实体结构、语义和字符串特征的相似度矩阵,即为最终实体对齐结果。
2.根据权利要求1所述的一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,其特征在于,所述N1=200,N2=300。
CN202210439962.1A 2022-04-25 2022-04-25 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 Active CN114942998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210439962.1A CN114942998B (zh) 2022-04-25 2022-04-25 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210439962.1A CN114942998B (zh) 2022-04-25 2022-04-25 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法

Publications (2)

Publication Number Publication Date
CN114942998A CN114942998A (zh) 2022-08-26
CN114942998B true CN114942998B (zh) 2024-02-13

Family

ID=82907604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210439962.1A Active CN114942998B (zh) 2022-04-25 2022-04-25 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法

Country Status (1)

Country Link
CN (1) CN114942998B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795061B (zh) * 2023-02-13 2023-04-07 京华信息科技股份有限公司 一种基于词向量和依存句法的知识图谱构建方法及系统
CN115934970B (zh) * 2023-02-27 2023-06-02 中南大学 一种基于多视图可视化的交互式实体对齐方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287123A (zh) * 2020-11-19 2021-01-29 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN113641826A (zh) * 2021-06-29 2021-11-12 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
WO2022011681A1 (zh) * 2020-07-17 2022-01-20 国防科技大学 一种基于迭代补全的知识图谱融合方法
WO2022041294A1 (zh) * 2020-08-26 2022-03-03 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
WO2022011681A1 (zh) * 2020-07-17 2022-01-20 国防科技大学 一种基于迭代补全的知识图谱融合方法
WO2022041294A1 (zh) * 2020-08-26 2022-03-03 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN112287123A (zh) * 2020-11-19 2021-01-29 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN113641826A (zh) * 2021-06-29 2021-11-12 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于Att_GCN模型的知识图谱推理算法;王红;林海舟;卢林燕;;计算机工程与应用(第09期);全文 *
基于协同知识图谱特征学习的论文推荐方法;唐浩;刘柏嵩;刘晓玲;黄伟明;;计算机工程(第09期);全文 *
基于重排序的迭代式实体对齐;曾维新;赵翔;唐九阳;谭真;王炜;;计算机研究与发展(第07期);全文 *

Also Published As

Publication number Publication date
CN114942998A (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN114942998B (zh) 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN112214685A (zh) 一种基于知识图谱的个性化推荐方法
CN111709518A (zh) 一种基于社区感知和关系注意力的增强网络表示学习的方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及系统
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN109460508B (zh) 一种高效的垃圾评论用户群组检测方法
CN111815468B (zh) 一种基于用户身份关联的多源社交网络构建方法
CN112417063B (zh) 一种基于异构关系网络的相容功能项推荐方法
CN112364161B (zh) 基于异构社会媒体用户动态行为的微博主题挖掘方法
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐系统
CN113628059B (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN112559764A (zh) 一种基于领域知识图谱的内容推荐方法
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
CN114742071B (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN112487200A (zh) 一种改进的包含多重边信息与多任务学习的深度推荐方法
CN111340187B (zh) 基于对抗注意力机制的网络表征方法
CN113869424A (zh) 基于双通道图卷积网络的半监督节点分类方法
CN112732932A (zh) 一种基于知识图谱嵌入的用户实体群组推荐方法
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN110321565B (zh) 基于深度学习的实时文本情感分析方法、装置及设备
CN117009547A (zh) 基于图神经网络与对抗学习的多模态知识图谱补全方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant