CN114942998A - 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 - Google Patents

融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 Download PDF

Info

Publication number
CN114942998A
CN114942998A CN202210439962.1A CN202210439962A CN114942998A CN 114942998 A CN114942998 A CN 114942998A CN 202210439962 A CN202210439962 A CN 202210439962A CN 114942998 A CN114942998 A CN 114942998A
Authority
CN
China
Prior art keywords
entity
representing
graph
representation
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210439962.1A
Other languages
English (en)
Other versions
CN114942998B (zh
Inventor
王柱
刘囡囡
刘慧�
康天雨
郭斌
於志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210439962.1A priority Critical patent/CN114942998B/zh
Publication of CN114942998A publication Critical patent/CN114942998A/zh
Application granted granted Critical
Publication of CN114942998B publication Critical patent/CN114942998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Animal Behavior & Ethology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将原始数据中的关键部分转换为知识图谱中所需的三元组信息;然后构建实体在结构特征上的相似度矩阵;接下来构建实体在语义特征上的相似度矩阵;再构建实体在字符串特征上的相似度矩阵;最终根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果。本发明使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善,使得实体对齐结果更加精准。

Description

融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
技术领域
本发明属于机器学习技术领域,具体涉及一种知识图谱邻域结构稀疏的实体对齐方法。
背景技术
在线社交媒体平台近年来越来越受欢迎,由社交媒体平台上用户的历史行为数据构成的知识图谱通常表示为包含了多种不同时间、地点、人物、事件、内容等信息的异构网络。不同的社交媒体平台可能具有不同的功能,所以同一个用户可以因不同目使用多个不同的社交媒体平台。例如,某用户可以使用Facebook与其朋友分享有趣的帖子,使用Twiteer了解最新的新闻和事件。然而,同一用户在不同社交媒体平台上的拥有的账户以及发表的言论大多数的孤立的,彼此没有任何对应关系。
判断不同社交媒体平台构建的知识图谱中的用户实体是否指向真实世界同一用户的过程称为用户实体对齐,将不同社交媒体平台构建的知识图谱中的用户实体对齐对于许多现实世界的跨平台应用具有很大的价值。例如,在将Facebook和Twitter中的用户实体对齐后,可以对某用户在Facebook上对应的用户实体的社交关系或者个人兴趣信息进行分析,然后根据分析结果在Twitter上向其用户实体推荐新朋友或新话题。
目前的对齐算法的解决方案主要依赖于知识图谱的图结构,它们认为等价实体拥有相似的邻域结构。在从大规模知识图谱中提取的一些合成数据集上这些方法取得了一流的性能,然而合成数据集比现实数据集密度大很多,目前的对齐算法在具有现实分布的数据集上不能产生令人满意的结果。
现实生活中的知识图谱只有很少的实体被频繁的访问,并且具有详细的属性和丰富的联系,而大多数实体并没有被开发利用,并且只有少量的结构信息。
因此,目前的实体对齐算法仅依赖结构信息在现实数据上的表现不好,需要考虑知识图谱上的其他维度的信息。
发明内容
为了克服现有技术的不足,本发明提供了一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将原始数据中的关键部分转换为知识图谱中所需的三元组信息;然后构建实体在结构特征上的相似度矩阵;接下来构建实体在语义特征上的相似度矩阵;再构建实体在字符串特征上的相似度矩阵;最终根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果。本发明使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善,使得实体对齐结果更加精准。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息,分为两个部分:一是在正文数据中话题由“#”号开头,使用正则表达式提取主题实体,构架<用户,评论,主题>的三元组;二是在评论数据中根据依存句法分析的方法抽取出<主题,动词,主题>类型的三元组;按照三元组<h,r,t>的方式构成知识图谱,其中,h表示头实体,r表示关系,t表示尾实体;
步骤2:依据步骤1构建的知识图谱,构建实体在结构特征上的相似度矩阵;
步骤2-1:构造原始图;
将步骤1构建的知识图谱表示为G=(E,R,T),分别代表实体集合、关系集合、三元组集合,令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱;将图谱G1和G2合并为原始图ge=(vee),ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中实体的集合,εe
Figure BDA0003613447940000021
的集合,
Figure BDA0003613447940000022
表示知识图谱中实体ei与ej之间的关系;
步骤2-2:根据原始图构造对偶关系图;
原始图ge的对偶关系图为gr=(vrr),vr=R1∪R2表示对偶关系图gr中顶点的集合为两个知识图谱中所有关系的集合,εr
Figure BDA0003613447940000023
的集合,
Figure BDA0003613447940000024
表示如果两个关系rj和rj共享相同的头实体或尾实体,则
Figure BDA0003613447940000025
连接
Figure BDA0003613447940000026
Figure BDA0003613447940000027
分别表示对偶关系图中的节点;
步骤2-3:根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示;
定义
Figure BDA0003613447940000028
表示对偶注意力层生成的顶点表示矩阵,其中每行对应对偶关系图gr中的一个顶点;定义Xe表示原始注意力层生成的顶点表示矩阵,其中每行对应原始图ge中的一个顶点;
步骤2-3-1:对偶注意力层;
步骤2-3-1-1:按照
Figure BDA0003613447940000031
计算顶点
Figure BDA0003613447940000032
的初始表示ci,其中Hi表示使用关系
Figure BDA0003613447940000033
连接三元组的头实体集合;Ti表示使用关系
Figure BDA0003613447940000034
连接三元组的尾实体;
Figure BDA0003613447940000035
表示由原始注意力层输出,代表关系
Figure BDA0003613447940000036
连接的第k个头实体表示;
Figure BDA0003613447940000037
表示由原始注意力层输出,代表关系
Figure BDA0003613447940000038
连接的第l个尾实体表示;
步骤2-3-1-2:按照
Figure BDA0003613447940000039
计算顶点
Figure BDA00036134479400000310
与其邻居
Figure BDA00036134479400000311
之间的相关系数
Figure BDA00036134479400000312
其中
Figure BDA00036134479400000313
表示顶点
Figure BDA00036134479400000314
在对偶关系图中的邻居集合;
Figure BDA00036134479400000315
表示共享参数,是对顶点的特征进行增维;[·||·]表示对变换后的顶点特征进行拼接;ar表示全连接层将输入的二维向量映射到一个实数上得到相关系数;
步骤2-3-1-3:按照
Figure BDA00036134479400000316
将相关系数
Figure BDA00036134479400000317
归一化得到
Figure BDA00036134479400000318
LeakyReLU(.)表示LeakyReLU激活函数;
步骤2-3-1-4:按照
Figure BDA00036134479400000319
加权求和得到对偶关系图的顶点表示
Figure BDA00036134479400000320
其中
Figure BDA00036134479400000321
是对偶注意力层的输出,代表对偶关系图中第i个节点的表示;σr表示激活函数;Ej表示对偶关系图gr顶点
Figure BDA00036134479400000322
的对偶表示,第一层的对偶注意力层不存在Ej,所以使用原始图的初始化顶点表示Xe_init,通过步骤2-3-1-1计算顶点
Figure BDA00036134479400000323
的初始表示cj来代表Ej
步骤2-3-2:原始注意力层;
步骤2-3-2-1:将对偶注意力层的输出作为原始图中边的初始特征,记为
Figure BDA00036134479400000324
按照
Figure BDA00036134479400000325
对边特征进行归一化,其中,
Figure BDA00036134479400000326
表示原始图中第i个节点和第j个节点之间的边特征向量,Eij表示原始图中归一化后的边特征向量;
步骤2-3-2-2:按照
Figure BDA00036134479400000327
计算原始图中顶点
Figure BDA00036134479400000328
与其邻居节点
Figure BDA00036134479400000329
的相似系数
Figure BDA00036134479400000330
其中L表示LeakyReLU激活函数;ae表示全连接层将输入的二维向量映射到实数;We表示权重矩阵;
步骤2-3-2-3:按照
Figure BDA00036134479400000331
Figure BDA00036134479400000332
对步骤2-3-2-2得到的
Figure BDA00036134479400000333
进行归一化表示得到αe
步骤2-3-2-4:按照
Figure BDA00036134479400000334
将节点特征从输入空间映射到输出空间的变换;
步骤2-3-2-5:根据步骤2-3-2-3得到αe,步骤2-3-2-4得到g(·),按照
Figure BDA00036134479400000335
Figure BDA0003613447940000041
获得原始图顶点表示;其中σe表示非线性的激活函数;αe表示原始图注意层的注意力系数;
步骤2-3-3:将步骤2-3迭代N1轮得到了原始图融合边特征的实体表示
Figure BDA0003613447940000042
步骤2-4:使用带有highway gate的双层GCN对原始图的实体结构特征进行量化;
步骤2-4-1:将步骤2-3得到的
Figure BDA0003613447940000043
作为GCN的初始输入;
步骤2-4-2:在GCN的第q层输入为实体表示X(q),输出为X(q+1);按照
Figure BDA0003613447940000044
Figure BDA0003613447940000045
计算X(q+1),其中,
Figure BDA0003613447940000046
A表示原始图ge的邻接矩阵,I表示单位矩阵,如果直接使用邻接矩阵A,其对角线元素为0,乘以特征矩阵会导致最终结果忽略掉实体本身的特征;
Figure BDA0003613447940000047
表示对邻接矩阵进行归一化,避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题;W(q)表示第q层的可训练权重矩阵;ξ表示激活函数ReLU;
步骤2-4-3:按照
Figure BDA0003613447940000048
X(q+1)=T(X(q))·X(q+1)+(1-T(X(q)))·(X(q))防止噪声在传播过程中累积;其中σ表示sigmoid激活函数;·表示张量之间对应元素逐个相乘;
步骤2-4-4:将步骤2-4-1到步骤2-4-3迭代N2轮得到最终的实体结构特征表示X;按照
Figure BDA0003613447940000049
度量ei与ej之间的结构表示距离,其中X(ei)表示实体ei的结构特征表示;最终得到G1和G2之间的结构特征相似度矩阵Sims,矩阵第i行第j列代表来自于G1的实体ei与来自于G2的实体ej之间的相似度;
步骤3:依据步骤1构建的知识图谱,构建实体在语义特征上的相似度矩阵;
步骤3-1:使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove,得到预训练词向量生成模型;以上三种中的每一种预训练词向量生成模型给定一个语义嵌入空间
Figure BDA00036134479400000410
实体名称在
Figure BDA00036134479400000411
中的语义嵌入表示为
Figure BDA00036134479400000412
Figure BDA00036134479400000413
表明实体名称是由一系列的单词嵌入序列组合而成;
步骤3-2:按照
Figure BDA00036134479400000414
获得Wi的幂平均词嵌入Hp(Wi),其中,
Figure BDA00036134479400000415
表示单词的个数;d表示单词嵌入的维度;p表示不同的幂值,当p=1表示算术平均值,当p=0表示几何平均值,当p=-1表示调和平均值,当p=+∞表示最大平均值,当p=-∞表示最小平均值;
步骤3-3:按照
Figure BDA0003613447940000051
将实体名称不同幂平均值连接起来获得实体名称在
Figure BDA0003613447940000052
空间下的语义表示
Figure BDA0003613447940000053
其中
Figure BDA0003613447940000054
表示将不同幂平均值按行连接;p1,..,pk表示K种幂值;
步骤3-4:按照
Figure BDA0003613447940000055
将不同
Figure BDA0003613447940000056
空间下的语义表示连接起来,最终获得实体名称语义特征表示
Figure BDA0003613447940000057
步骤3-5:按照
Figure BDA0003613447940000058
度量ei与ej之间的语义表示距离,最终得到G1和G2之间的语义特征相似度矩阵Simt
步骤4:依据步骤1构建的知识图谱,构建实体在字符串特征上的相似度矩阵;
步骤4-1:采用Levenshtein距离得到
Figure BDA0003613447940000059
表示实体ei的名称字符串前m个字符与实体ej的名称字符串前n个字符之间的距离;
步骤4-2:按照
Figure BDA00036134479400000510
度量实体名称字符串的距离,其中|ei|表示实体ei的字符串长度;最终根据实体名称之间的字符串的相似度构成G1和G2之间的字符串特征相似度矩阵Simm
步骤5:根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果;
步骤5-1:构建融合特征矩阵;
步骤5-1-1:按照
Figure BDA00036134479400000511
计算实体的度表示,其中
Figure BDA00036134479400000512
表示实体度值的one-hot编码表示;M表示全连接层的权重表示;dg为度表示的维度;
步骤5-1-2:按照
Figure BDA00036134479400000513
Figure BDA00036134479400000514
将结构表示和语义表示分别与度表示结合,其中X(e1)表示结构特征矩阵、N(e1)表示实体名称语义特征矩阵;⊙表示哈达玛积,在不改变原始维度特征矩阵维度的同时将度表示融入其中;
步骤5-1-3:按照
Figure BDA00036134479400000515
将步骤5-1-2得到的向量
Figure BDA00036134479400000516
按列连接起来,使用0填充缺失的值;dm=max{ds,dt},ds,dt分别表示
Figure BDA00036134479400000517
Figure BDA00036134479400000518
的维度;
步骤5-2:注意力权重计算;
步骤5-2-1:按照
Figure BDA00036134479400000519
计算实体e1与e2的共同注意相似度,其中
Figure BDA00036134479400000520
表示
Figure BDA00036134479400000521
中第i行的向量,
Figure BDA00036134479400000522
表示
Figure BDA00036134479400000523
中第i行的向量,且i=1,2;
Figure BDA00036134479400000524
表示映射函数,w表示可训练的权重矩阵。最终可以得到一个2×N的共同注意相似度矩阵S,第一行表示G1与G2中N个节点的融合度表示的结构特征相似度,第二行表示N个节点融合度表示的语义特征相似度;
步骤5-2-2:使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重,首先按行通过softmax层归一化,再按列通过average层压缩获得最终的结构特征注意力权重atts,之后再将共同注意相似度矩阵按列通过softmax层归一化,再按行通过average层压缩获得最终语义特征注意力权重attt
步骤5-2-3:按照Sim(e1,e2)=Sims(e1,e2)·atts+Simt(e1,e2)·attt+Simm(e1,e2)·attt得到融合实体结构、语义和字符串特征的相似度矩阵,即为最终实体对齐结果。
优选地,所述N1=200,N2=300。
本发明的有益效果如下:
本发明利用不同维度的实体特征,从结构、语义、字符串三个维度刻画实体,使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善,使得实体对齐结果更加精准。在训练时不需要人工提取特征,模型将不会引进人为偏见,同时减少了人工设计流程。
附图说明
图1为本发明方法的示意图。
图2为本发明方法知识图谱架构图。
图3为本发明的模型框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明针对融合多社交媒体平台数据的知识图谱邻域结构稀疏的实体对齐结果不够精准,提出了一种融合多维度知识图谱信息的模型,在消息传递中加入结构特征、语义特征,除此之外考虑实体的字符串特征。该方法可以充分利用知识图谱各维度的信息,精准的表示节点的特征,提升对齐结果的精准性。
如图1到图3所示,一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,包括如下步骤:
步骤1:根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息,分为两个部分:一是在正文数据中话题由“#”号开头,使用正则表达式提取主题实体,构架<用户,评论,主题>的三元组;二是在评论数据中根据依存句法分析的方法抽取出<主题,动词,主题>类型的三元组;按照三元组<h,r,t>的方式构成知识图谱,其中,h表示头实体,r表示关系,t表示尾实体;
步骤2:依据步骤1构建的知识图谱,构建实体在结构特征上的相似度矩阵;
步骤2-1:构造原始图;
将步骤1构建的知识图谱表示为G=(E,R,T),分别代表实体集合、关系集合、三元组集合,令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱;将图谱G1和G2合并为原始图ge=(vee),ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中实体的集合,εe
Figure BDA0003613447940000071
的集合,
Figure BDA0003613447940000072
表示知识图谱中实体ei与ej之间的关系;
步骤2-2:根据原始图构造对偶关系图;
原始图ge的对偶关系图为gr=(vrr),vr=R1∪R2表示对偶关系图gr中顶点的集合为两个知识图谱中所有关系的集合,εr
Figure BDA0003613447940000073
的集合,
Figure BDA0003613447940000074
表示如果两个关系ri和rj共享相同的头实体或尾实体,则
Figure BDA0003613447940000075
连接
Figure BDA0003613447940000076
步骤2-3:根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示;
定义
Figure BDA0003613447940000077
表示对偶注意力层生成的顶点表示矩阵,其中每行对应对偶关系图gr中的一个顶点;定义Xe表示原始注意力层生成的顶点表示矩阵,其中每行对应原始图ge中的一个顶点;
步骤2-3-1:对偶注意力层;
步骤2-3-1-1:按照
Figure BDA0003613447940000078
计算顶点
Figure BDA0003613447940000079
的初始表示ci,其中Hi表示使用关系
Figure BDA00036134479400000710
连接三元组的头实体集合;Ti表示使用关系
Figure BDA00036134479400000711
连接三元组的尾实体;
Figure BDA00036134479400000712
表示由原始注意力层输出,代表关系
Figure BDA00036134479400000713
连接的第k个头实体表示;
Figure BDA00036134479400000714
表示由原始注意力层输出,代表关系
Figure BDA00036134479400000715
连接的第l个尾实体表示;
步骤2-3-1-2:按照
Figure BDA00036134479400000716
计算顶点
Figure BDA00036134479400000717
与其邻居
Figure BDA00036134479400000718
之间的相关系数
Figure BDA00036134479400000719
其中
Figure BDA00036134479400000720
表示顶点
Figure BDA00036134479400000721
在对偶关系图中的邻居集合;
Figure BDA00036134479400000722
表示共享参数;[·||·]表示对变换后的顶点特征进行拼接;ar表示全连接层将输入的二维向量映射到一个实数上得到相关系数;
步骤2-3-1-3:按照
Figure BDA0003613447940000081
将相关系数
Figure BDA0003613447940000082
归一化得到
Figure BDA0003613447940000083
LeakyReLU(.)表示LeakyReLU激活函数;
步骤2-3-1-4:按照
Figure BDA0003613447940000084
加权求和得到对偶关系图的顶点表示
Figure BDA0003613447940000085
其中
Figure BDA0003613447940000086
是对偶注意力层的输出,代表对偶关系图中第i个节点的表示;σr表示激活函数;Ej表示对偶关系图gr顶点
Figure BDA0003613447940000087
的对偶表示,第一层的对偶注意力层不存在Ej,所以使用原始图的初始化顶点表示Xe_init通过步骤2-3-1-1计算Ej
步骤2-3-2:原始注意力层;
步骤2-3-2-1:将对偶注意力层的输出作为原始图中边的初始特征,记为
Figure BDA0003613447940000088
按照
Figure BDA0003613447940000089
对边特征进行归一化,其中,
Figure BDA00036134479400000810
表示原始图中第i个节点和第j个节点之间的边特征向量,Eij表示原始图中归一化后的边特征向量;
步骤2-3-2-2:按照
Figure BDA00036134479400000811
计算原始图中顶点
Figure BDA00036134479400000812
与其邻居节点
Figure BDA00036134479400000813
的相似系数
Figure BDA00036134479400000814
其中L表示LeakyReLU激活函数;ae表示全连接层将输入的二维向量映射到实数;We表示权重矩阵;
步骤2-3-2-3:按照
Figure BDA00036134479400000815
Figure BDA00036134479400000816
对步骤2-3-2-2得到的
Figure BDA00036134479400000817
进行归一化表示;
步骤2-3-2-4:按照
Figure BDA00036134479400000818
将节点特征从输入空间映射到输出空间的变换;
步骤2-3-2-5:根据步骤2-3-2-3得到αe,步骤2-3-2-4得到g(·),按照
Figure BDA00036134479400000819
Figure BDA00036134479400000820
获得原始图顶点表示;其中σe表示非线性的激活函数;αe表示原始图注意层的注意力系数;
步骤2-3-3:将上述步骤迭代200轮得到了原始图融合边特征的实体表示
Figure BDA00036134479400000821
步骤2-4:使用带有highway gate的双层GCN对原始图的实体结构特征进行量化;
步骤2-4-1:将步骤2-3得到的
Figure BDA00036134479400000822
作为GCN的初始输入;
步骤2-4-2:在GCN的第q层输入为实体表示X(q),输出为X(q+1);按照
Figure BDA00036134479400000823
Figure BDA00036134479400000824
计算X(q+1),其中,
Figure BDA00036134479400000825
A表示原始图ge的邻接矩阵,I表示单位矩阵,如果直接使用邻接矩阵A,其对角线元素为0,乘以特征矩阵会导致最终结果忽略掉实体本身的特征;
Figure BDA0003613447940000091
表示对邻接矩阵进行归一化,避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题;W(q)表示第q层的可训练权重矩阵;ξ表示激活函数ReLU;
步骤2-4-3:按照
Figure BDA0003613447940000092
X(q+1)=T(X(q))·X(q+1)+(1-T(X(q)))·(X(q))防止噪声在传播过程中累积;其中σ表示sigmoid激活函数;·表示张量之间对应元素逐个相乘;
步骤2-4-4:将步骤2-4-1到步骤2-4-3迭代300轮得到最终的实体结构特征表示X;按照
Figure BDA0003613447940000093
度量ei与ej之间的结构表示距离,其中X(ei)表示实体ei的结构特征表示;最终得到G1和G2之间的结构特征相似度矩阵Sims,矩阵第i行第j列代表来自于G1的实体ei与来自于G2的实体ej之间的相似度;
步骤3:依据步骤1构建的知识图谱,构建实体在语义特征上的相似度矩阵;
步骤3-1:使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove,得到训练好的词向量生成模型;每一种预训练词向量模型给定一个语义嵌入空间
Figure BDA0003613447940000094
实体名称在
Figure BDA0003613447940000095
中的语义嵌入表示为
Figure BDA0003613447940000096
表明实体名称是由一系列的单词嵌入序列组合而成;
步骤3-2:按照
Figure BDA0003613447940000097
获得Wi的幂平均词嵌入Hp(Wi),其中,
Figure BDA00036134479400000916
表示单词的个数;d表示单词嵌入的维度;p表示不同的幂值,当p=1表示算术平均值,当p=0表示几何平均值,当p=-1表示调和平均值,当p=+∞表示最大平均值,当p=-∞表示最小平均值;
步骤3-3:按照
Figure BDA0003613447940000098
将实体名称不同幂平均值连接起来获得实体名称在
Figure BDA0003613447940000099
空间下的语义表示
Figure BDA00036134479400000910
其中
Figure BDA00036134479400000911
表示将不同幂平均值按行连接;p1,..,pk表示K种幂值;
步骤3-4:按照
Figure BDA00036134479400000912
将不同
Figure BDA00036134479400000913
空间下的语义表示连接起来,最终获得实体名称语义特征表示
Figure BDA00036134479400000914
步骤3-5:按照
Figure BDA00036134479400000915
度量ei与ej之间的语义表示距离,最终得到G1和G2之间的语义特征相似度矩阵Simt
步骤4:依据步骤1构建的知识图谱,构建实体在字符串特征上的相似度矩阵;
步骤4-1:采用Levenshtein距离得到
Figure BDA0003613447940000101
表示实体ei的名称字符串前m个字符与实体ej的名称字符串前n个字符之间的距离;
步骤4-2:按照
Figure BDA0003613447940000102
度量实体名称字符串的距离,其中|ei|表示实体ei的字符串长度;最终根据实体名称之间的字符串的相似度构成G1和G2之间的字符串特征相似度矩阵Simm
步骤5:根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果;
步骤5-1:构建融合特征矩阵;
步骤5-1-1:按照
Figure BDA0003613447940000103
计算实体的度表示,其中
Figure BDA0003613447940000104
表示实体度值的one-hot编码表示;M表示全连接层的权重表示;dg为度表示的维度;
步骤5-1-2:按照
Figure BDA0003613447940000105
Figure BDA0003613447940000106
将结构表示和语义表示分别与度表示结合,其中X(e1)表示结构特征矩阵、N(e1)表示实体名称语义特征矩阵;⊙表示哈达玛积;
步骤5-1-3:按照
Figure BDA0003613447940000107
将步骤5-1-2得到的向量
Figure BDA0003613447940000108
按列连接起来,使用0填充缺失的值;dm=max{ds,dt};
步骤5-2:注意力权重计算;
步骤5-2-1:按照
Figure BDA0003613447940000109
计算实体e1与e2的共同注意相似度,其中
Figure BDA00036134479400001010
表示
Figure BDA00036134479400001011
中第i行的向量,
Figure BDA00036134479400001012
表示
Figure BDA00036134479400001013
中第i行的向量,且i=1,2;
Figure BDA00036134479400001014
表示映射函数,w表示可训练的权重矩阵。最终可以得到一个2×N的共同注意相似度矩阵S,第一行表示G1与G2中N个节点的融合度表示的结构特征相似度,第二行表示N个节点融合度表示的语义特征相似度;
步骤5-2-2:使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重,首先按行通过softmax层归一化,再按列通过average层压缩获得最终的结构特征注意力权重atts,之后再将共同注意相似度矩阵按列通过softmax层归一化,再按行通过average层压缩获得最终语义特征注意力权重attt
步骤5-2-3:按照Sim(e1,e2)=Sims(e1,e2)·atts+Simt(e1,e2)·attt+Simm(e1,e2)·attt得到融合实体结构、语义和字符串特征的相似度矩阵,即为最终实体对齐结果。

Claims (2)

1.一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,其特征在于,包括如下步骤:
步骤1:根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱,将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息,分为两个部分:一是在正文数据中话题由“#”号开头,使用正则表达式提取主题实体,构架<用户,评论,主题>的三元组;二是在评论数据中根据依存句法分析的方法抽取出<主题,动词,主题>类型的三元组;按照三元组<h,r,t>的方式构成知识图谱,其中,h表示头实体,r表示关系,t表示尾实体;
步骤2:依据步骤1构建的知识图谱,构建实体在结构特征上的相似度矩阵;
步骤2-1:构造原始图;
将步骤1构建的知识图谱表示为G=(E,R,T),分别代表实体集合、关系集合、三元组集合,令G1=(E1,R1,T1)和G2=(E2,R2,T2)分别表示两个将要对齐的异构知识图谱;将图谱G1和G2合并为原始图ge=(vee),ve=E1∪E2表示原始图ge中所有顶点的集合为两个知识图谱中实体的集合,εe
Figure FDA0003613447930000011
的集合,
Figure FDA0003613447930000012
表示知识图谱中实体ei与ej之间的关系;
步骤2-2:根据原始图构造对偶关系图;
原始图ge的对偶关系图为gr=(vrr),vr=R1∪R2表示对偶关系图gr中顶点的集合为两个知识图谱中所有关系的集合,εr
Figure FDA0003613447930000013
的集合,
Figure FDA0003613447930000014
表示如果两个关系ri和rj共享相同的头实体或尾实体,则
Figure FDA0003613447930000015
连接
Figure FDA0003613447930000016
Figure FDA0003613447930000017
分别表示对偶关系图中的节点;
步骤2-3:根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示;
定义
Figure FDA0003613447930000018
表示对偶注意力层生成的顶点表示矩阵,其中每行对应对偶关系图gr中的一个顶点;定义Xe表示原始注意力层生成的顶点表示矩阵,其中每行对应原始图ge中的一个顶点;
步骤2-3-1:对偶注意力层;
步骤2-3-1-1:按照
Figure FDA0003613447930000019
计算顶点
Figure FDA00036134479300000110
的初始表示ci,其中Hi表示使用关系
Figure FDA00036134479300000111
连接三元组的头实体集合;Ti表示使用关系
Figure FDA00036134479300000112
连接三元组的尾实体;
Figure FDA00036134479300000113
表示由原始注意力层输出,代表关系
Figure FDA00036134479300000114
连接的第k个头实体表示;
Figure FDA00036134479300000115
表示由原始注意力层输出,代表关系
Figure FDA00036134479300000116
连接的第l个尾实体表示;
步骤2-3-1-2:按照
Figure FDA0003613447930000021
计算顶点
Figure FDA0003613447930000022
与其邻居
Figure FDA0003613447930000023
之间的相关系数
Figure FDA0003613447930000024
其中
Figure FDA0003613447930000025
表示顶点
Figure FDA0003613447930000026
在对偶关系图中的邻居集合;
Figure FDA0003613447930000027
表示共享参数,是对顶点的特征进行增维;[·||·]表示对变换后的顶点特征进行拼接;ar表示全连接层将输入的二维向量映射到一个实数上得到相关系数;
步骤2-3-1-3:按照
Figure FDA0003613447930000028
将相关系数
Figure FDA0003613447930000029
归一化得到
Figure FDA00036134479300000210
LeakyReLU(.)表示LeakyReLU激活函数;
步骤2-3-1-4:按照
Figure FDA00036134479300000211
加权求和得到对偶关系图的顶点表示
Figure FDA00036134479300000212
其中
Figure FDA00036134479300000213
是对偶注意力层的输出,代表对偶关系图中第i个节点的表示;σr表示激活函数;Ej表示对偶关系图gr顶点
Figure FDA00036134479300000214
的对偶表示,第一层的对偶注意力层不存在Ej,所以使用原始图的初始化顶点表示Xe_init,通过步骤2-3-1-1计算顶点
Figure FDA00036134479300000215
的初始表示cj来代表Ej
步骤2-3-2:原始注意力层;
步骤2-3-2-1:将对偶注意力层的输出作为原始图中边的初始特征,记为
Figure FDA00036134479300000216
按照
Figure FDA00036134479300000217
对边特征进行归一化,其中,
Figure FDA00036134479300000218
表示原始图中第i个节点和第j个节点之间的边特征向量,Eij表示原始图中归一化后的边特征向量;
步骤2-3-2-2:按照
Figure FDA00036134479300000219
计算原始图中顶点
Figure FDA00036134479300000220
与其邻居节点
Figure FDA00036134479300000221
的相似系数
Figure FDA00036134479300000222
其中L表示LeakyReLU激活函数;ae表示全连接层将输入的二维向量映射到实数;We表示权重矩阵;
步骤2-3-2-3:按照
Figure FDA00036134479300000223
Figure FDA00036134479300000224
对步骤2-3-2-2得到的
Figure FDA00036134479300000225
进行归一化表示得到αe
步骤2-3-2-4:按照
Figure FDA00036134479300000226
将节点特征从输入空间映射到输出空间的变换;
步骤2-3-2-5:根据步骤2-3-2-3得到αe,步骤2-3-2-4得到g(·),按照
Figure FDA00036134479300000227
Figure FDA00036134479300000228
获得原始图顶点表示;其中σe表示非线性的激活函数;αe表示原始图注意层的注意力系数;
步骤2-3-3:将步骤2-3迭代N1轮得到了原始图融合边特征的实体表示
Figure FDA00036134479300000229
步骤2-4:使用带有highway gate的双层GCN对原始图的实体结构特征进行量化;
步骤2-4-1:将步骤2-3得到的
Figure FDA00036134479300000230
作为GCN的初始输入;
步骤2-4-2:在GCN的第q层输入为实体表示X(q),输出为X(q+1);按照
Figure FDA0003613447930000031
Figure FDA0003613447930000032
计算X(q+1),其中,
Figure FDA0003613447930000033
A表示原始图ge的邻接矩阵,I表示单位矩阵,如果直接使用邻接矩阵A,其对角线元素为0,乘以特征矩阵会导致最终结果忽略掉实体本身的特征;
Figure FDA0003613447930000034
表示对邻接矩阵进行归一化,避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题;W(q)表示第q层的可训练权重矩阵;ξ表示激活函数ReLU;
步骤2-4-3:按照
Figure FDA0003613447930000035
X(q+1)=T(X(q))·X(q+1)+(1-T(X(q)))·(X(q))防止噪声在传播过程中累积;其中σ表示sigmoid激活函数;·表示张量之间对应元素逐个相乘;
步骤2-4-4:将步骤2-4-1到步骤2-4-3迭代N2轮得到最终的实体结构特征表示X;按照
Figure FDA0003613447930000036
度量ei与ej之间的结构表示距离,其中X(ei)表示实体ei的结构特征表示;最终得到G1和G2之间的结构特征相似度矩阵Sims,矩阵第i行第j列代表来自于G1的实体ei与来自于G2的实体ej之间的相似度;
步骤3:依据步骤1构建的知识图谱,构建实体在语义特征上的相似度矩阵;
步骤3-1:使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove,得到预训练词向量生成模型;以上三种中的每一种预训练词向量生成模型给定一个语义嵌入空间
Figure FDA0003613447930000037
实体名称在
Figure FDA0003613447930000038
中的语义嵌入表示为
Figure FDA0003613447930000039
Figure FDA00036134479300000310
表明实体名称是由一系列的单词嵌入序列组合而成;
步骤3-2:按照
Figure FDA00036134479300000311
获得Wi的幂平均词嵌入Hp(Wi),其中,θ表示单词的个数;d表示单词嵌入的维度;p表示不同的幂值,当p=1表示算术平均值,当p=0表示几何平均值,当p=-1表示调和平均值,当p=+∞表示最大平均值,当p=-∞表示最小平均值;
步骤3-3:按照
Figure FDA00036134479300000312
将实体名称不同幂平均值连接起来获得实体名称在
Figure FDA00036134479300000313
空间下的语义表示
Figure FDA00036134479300000314
其中
Figure FDA00036134479300000315
表示将不同幂平均值按行连接;p1,..,pk表示K种幂值;
步骤3-4:按照
Figure FDA00036134479300000316
将不同
Figure FDA00036134479300000317
空间下的语义表示连接起来,最终获得实体名称语义特征表示
Figure FDA00036134479300000318
步骤3-5:按照
Figure FDA0003613447930000041
度量ei与ej之间的语义表示距离,最终得到G1和G2之间的语义特征相似度矩阵Simt
步骤4:依据步骤1构建的知识图谱,构建实体在字符串特征上的相似度矩阵;
步骤4-1:采用Levenshtein距离得到
Figure FDA0003613447930000042
表示实体ei的名称字符串前m个字符与实体ej的名称字符串前n个字符之间的距离;
步骤4-2:按照
Figure FDA0003613447930000043
度量实体名称字符串的距离,其中|ei|表示实体ei的字符串长度;最终根据实体名称之间的字符串的相似度构成G1和G2之间的字符串特征相似度矩阵Simm
步骤5:根据邻域结构感知的注意力网络动态融合三个维度的特征,融合后的实体相似度矩阵即为实体对齐结果;
步骤5-1:构建融合特征矩阵;
步骤5-1-1:按照
Figure FDA0003613447930000044
计算实体的度表示,其中
Figure FDA0003613447930000045
表示实体度值的one-hot编码表示;M表示全连接层的权重表示;dg为度表示的维度;
步骤5-1-2:按照
Figure FDA0003613447930000046
Figure FDA0003613447930000047
将结构表示和语义表示分别与度表示结合,其中X(e1)表示结构特征矩阵、N(e1)表示实体名称语义特征矩阵;⊙表示哈达玛积,在不改变原始维度特征矩阵维度的同时将度表示融入其中;
步骤5-1-3:按照
Figure FDA0003613447930000048
将步骤5-1-2得到的向量
Figure FDA0003613447930000049
按列连接起来,使用0填充缺失的值;dm=max{ds,dt},ds,dt分别表示
Figure FDA00036134479300000410
Figure FDA00036134479300000411
的维度;
步骤5-2:注意力权重计算;
步骤5-2-1:按照
Figure FDA00036134479300000412
计算实体e1与e2的共同注意相似度,其中
Figure FDA00036134479300000413
表示
Figure FDA00036134479300000414
中第i行的向量,
Figure FDA00036134479300000415
表示
Figure FDA00036134479300000416
中第i行的向量,且i=1,2;
Figure FDA00036134479300000417
表示映射函数,w表示可训练的权重矩阵;最终可以得到一个2×N的共同注意相似度矩阵S,第一行表示G1与G2中N个节点的融合度表示的结构特征相似度,第二行表示N个节点融合度表示的语义特征相似度;
步骤5-2-2:使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重,首先按行通过softmax层归一化,再按列通过average层压缩获得最终的结构特征注意力权重atts,之后再将共同注意相似度矩阵按列通过softmax层归一化,再按行通过average层压缩获得最终语义特征注意力权重attt
步骤5-2-3:按照Sim(e1,e2)=Sims(e1,e2)·atts+Simt(e1,e2)·attt+Simm(e1,e2)·attt得到融合实体结构、语义和字符串特征的相似度矩阵,即为最终实体对齐结果。
2.根据权利要求1所述的一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法,其特征在于,所述N1=200,N2=300。
CN202210439962.1A 2022-04-25 2022-04-25 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 Active CN114942998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210439962.1A CN114942998B (zh) 2022-04-25 2022-04-25 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210439962.1A CN114942998B (zh) 2022-04-25 2022-04-25 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法

Publications (2)

Publication Number Publication Date
CN114942998A true CN114942998A (zh) 2022-08-26
CN114942998B CN114942998B (zh) 2024-02-13

Family

ID=82907604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210439962.1A Active CN114942998B (zh) 2022-04-25 2022-04-25 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法

Country Status (1)

Country Link
CN (1) CN114942998B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795061A (zh) * 2023-02-13 2023-03-14 京华信息科技股份有限公司 一种基于词向量和依存句法的知识图谱构建方法及系统
CN115934970A (zh) * 2023-02-27 2023-04-07 中南大学 一种基于多视图可视化的交互式实体对齐方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287123A (zh) * 2020-11-19 2021-01-29 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
CN113641826A (zh) * 2021-06-29 2021-11-12 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
WO2022011681A1 (zh) * 2020-07-17 2022-01-20 国防科技大学 一种基于迭代补全的知识图谱融合方法
WO2022041294A1 (zh) * 2020-08-26 2022-03-03 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021212682A1 (zh) * 2020-04-21 2021-10-28 平安国际智慧城市科技股份有限公司 知识抽取方法、装置、电子设备及存储介质
WO2022011681A1 (zh) * 2020-07-17 2022-01-20 国防科技大学 一种基于迭代补全的知识图谱融合方法
WO2022041294A1 (zh) * 2020-08-26 2022-03-03 华南理工大学 一种结合知识库中的三元组和实体类型的生成问题方法
CN112287123A (zh) * 2020-11-19 2021-01-29 国网湖南省电力有限公司 一种基于边类型注意力机制的实体对齐方法及装置
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN113641826A (zh) * 2021-06-29 2021-11-12 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐浩;刘柏嵩;刘晓玲;黄伟明;: "基于协同知识图谱特征学习的论文推荐方法", 计算机工程, no. 09 *
曾维新;赵翔;唐九阳;谭真;王炜;: "基于重排序的迭代式实体对齐", 计算机研究与发展, no. 07 *
王红;林海舟;卢林燕;: "基于Att_GCN模型的知识图谱推理算法", 计算机工程与应用, no. 09 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115795061A (zh) * 2023-02-13 2023-03-14 京华信息科技股份有限公司 一种基于词向量和依存句法的知识图谱构建方法及系统
CN115795061B (zh) * 2023-02-13 2023-04-07 京华信息科技股份有限公司 一种基于词向量和依存句法的知识图谱构建方法及系统
CN115934970A (zh) * 2023-02-27 2023-04-07 中南大学 一种基于多视图可视化的交互式实体对齐方法

Also Published As

Publication number Publication date
CN114942998B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN111709518A (zh) 一种基于社区感知和关系注意力的增强网络表示学习的方法
CN114942998B (zh) 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法
CN111815468B (zh) 一种基于用户身份关联的多源社交网络构建方法
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN112988917B (zh) 一种基于多种实体上下文的实体对齐方法
CN112417063B (zh) 一种基于异构关系网络的相容功能项推荐方法
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN112559764A (zh) 一种基于领域知识图谱的内容推荐方法
CN114565053A (zh) 基于特征融合的深层异质图嵌入模型
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
CN112487193A (zh) 一种基于自编码器的零样本图片分类方法
CN113869424A (zh) 基于双通道图卷积网络的半监督节点分类方法
CN112860904A (zh) 一种融入外部知识的生物医疗关系抽取方法
Lai et al. Transconv: Relationship embedding in social networks
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN114036298B (zh) 一种基于图卷积神经网络与词向量的节点分类方法
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及系统
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN115188440A (zh) 一种相似病历智能匹配方法
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
CN117009547A (zh) 基于图神经网络与对抗学习的多模态知识图谱补全方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant