CN112131404B - 一种四险一金领域知识图谱中实体对齐方法 - Google Patents

一种四险一金领域知识图谱中实体对齐方法 Download PDF

Info

Publication number
CN112131404B
CN112131404B CN202010990634.1A CN202010990634A CN112131404B CN 112131404 B CN112131404 B CN 112131404B CN 202010990634 A CN202010990634 A CN 202010990634A CN 112131404 B CN112131404 B CN 112131404B
Authority
CN
China
Prior art keywords
attribute
entity
entities
knowledge graph
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010990634.1A
Other languages
English (en)
Other versions
CN112131404A (zh
Inventor
黄少滨
何荣博
申林山
李熔盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010990634.1A priority Critical patent/CN112131404B/zh
Publication of CN112131404A publication Critical patent/CN112131404A/zh
Application granted granted Critical
Publication of CN112131404B publication Critical patent/CN112131404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1057Benefits or employee welfare, e.g. insurance, holiday or retirement packages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于知识图谱技术领域,具体涉及一种四险一金领域知识图谱中实体对齐方法。本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略,通过增加嵌入层优化不同属性和关系条件下的TransE损失函数,将LSTM网络和Bert对属性值的嵌入结果进行融合,在属性值的嵌入中考虑了属性值的语义信息,并将结构嵌入和属性嵌入联合训练,最终获得知识图谱的联合嵌入表示。本发明将实体嵌入的语义信息与字符信息进行组合,将实体嵌入距离与LCS相似度进行组合,并在考虑两种相似度的条件下选择候选实体对。本发明可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。

Description

一种四险一金领域知识图谱中实体对齐方法
技术领域
本发明属于知识图谱技术领域,具体涉及一种四险一金领域知识图谱中实体对齐方法。
背景技术
自Google在2012年提出知识图谱的概念开始,知识图谱发展迅速,出现了一批以DBpedia,Freebase,Wikidata,YAGO等为代表的大型知识图谱;但知识图谱的数据来源广泛、数据质量参差不齐,导致不同的知识图谱存在着多样性和异构性,不同知识图谱中存在着多个指向同一真实世界对象的不同实体,因此知识融合成为知识图谱研究中的一个重要环节。实体对齐作为知识融合中的关键技术,又被称为实体匹配,是推断来自不同知识图谱中不同实体是否映射到现实世界中同一个对象的技术。
实体对齐主要包含数据预处理、分块、记录链接、结果评估、结果输出几个步骤。早期的实体对齐方法主要通过属性的字符相似度计算实体的属性相似度,并通过机器学习方法判断实体是否相似;属性相似度的计算方法主要包括编辑距离(LevenshteinDistance)、Wagnerand Fisher、Jaccard系数、TF-IDF等。基于字符相似度的实体对齐方法将实体对齐看作二分类问题,即根据属性三元组信息选择一对实体并根据属性相似性判断实体之间是否对齐。
成对实体匹配方法通过实体属性相似性生成属性相似度向量,并通过机器学习方法进行判断;因此实体对齐任务需要标记对齐的实体作为分类器的训练集,实体对齐的性能依赖于对齐种子的数量。为了提高模型在少量对齐种子时的对齐效果,Ursin等人[1]在2019年提出了一种用于非结构化数据匹配的主动学习方法,该方法首先通过SoftTF-IDF算法计算属性之间的相似度,结合非确定性抽样的主动学习(ALWUS),在每个弱分类器上使用独立的训练集进行训练,并将未标记的数据输入到分类器上计算bootstrap方差,根据bootstrap方差每次选出不确定强的少量样本进行标记。在Abt-Buy数据集上的测试结果表明,该方法在支持向量机(SVM)学习器上获得了81.65%的F-值,与传统的方法相比需要的标签数量低1-2个数量级。不过该方法仅利用了属性三元组中的信息,不能对实体间的关系进行捕获,同时需要根据每个批量的预测结果增量的标记数据,操作较为复杂。
近年来知识图谱的向量表示取得了很多进展,知识表示学习的代表模型包括张量模型、翻译模型和神经网络模型。知识表示学习可以捕获实体在知识图谱中的语义信息,将实体和关系映射为稠密向量。在基于翻译的知识表示模型中,Bordes等人[2]在2013年提出了TransE模型,该模型关注关系三元组中实体与实体之间的关系,将尾实体向量t看作是头实体向量h加关系向量r的翻译,并将评分函数定义为||h+r-t||。TransE模型在减小黄金三元组得分的同时增大无效三元组的得分,通过对黄金三元组的头尾实体随机替换的方式生成无效的三元组用于负采样的训练,并使用梯度下降算法进行训练,TransE在FB15k数据集上的链接预测实验中获得了43%的hits@10准确率。TransE模型虽然能够捕获三元组之间的语义关系,但是它不能很好的处理实体之间存在1-N,N-1,N-N等复杂关系,因此Wang等人[3]在2014年提出了TransH模型使每一个实体在不同的关系下拥有不同的表示,该模型为每一个关系引入了一个投影超平面,将头实体h与尾实体t在超平面上的投影与关系向量进行评估,并使用基于距离的函数进行打分,TransH模型在FB15k数据集的链接预测任务中,获得了66.8%的hits@10准确率,TransH模型解决了实体嵌入中一对多关系的问题。类似的,Lin等人[4]在2015年提出了TransR模型,TransR模型假设实体和关系存在于不同的向量空间中,将实体向量映射到对应的关系空间中,再对映射后的向量进行对齐;由于知识图谱中的关系广泛存在多义性,进一步提出了CTransR模型,该模型先通过训练TransE嵌入,从TransE嵌入的头尾实体之差中获取关系的表示向量,再对关系进行聚类,能够很好的解决关系的多义性问题,TransR、CTransR模型在FB15K的链接预测任务中分别达到了76.9%和81.5%的hits@10准确率。不过,TransR/CTransR模型都没有考虑实体的类型信息、并且TransR模型由于引入了映射矩阵存在参数计算复杂的问题。Ji等人[5]在2016年提出TransD模型使用动态映射矩阵可以将不同类型的实体进行区别,TransD与TransH的区别在于,TransH中的投影向量仅由关系确定,而TransD中的投影向量由实体和关系确定,对于TransR/CTransR模型,TransR/CTransR模型直接为每个关系定义了一个映射矩阵,TransD通过为每个实体和关系设置投影向量为每个三元组设置两个映射矩阵,同时由于TransD模型只涉及向量相乘,具有更小的计算复杂度。
在单知识图谱上的嵌入方法在链接预测和知识图谱补全等方面取得了很好的效果,但是这些方法只能在一个知识图谱中进行单独的训练,无法捕获多个知识图谱之间的关联关系,因此不能直接用于实体对齐任务。受到知识表示学习的启发,研究人员提出了一系列基于知识嵌入的实体对齐方法,Hao等人[6]在2016年首先提出了一种联合嵌入知识库的方法JE,该方法同时考虑了实体嵌入损失和对齐向量的损失,实体嵌入的损失采用TransE的损失函数,对齐向量的损失分别采用对齐实体的距离作为对齐的损失函数||ei-e′i||以及通过转换矩阵M进行投影,损失函数为||Mdei-e′i||2,并约束所有嵌入向量的长度为1,基准方法采用预训练TransE向量,并根据TransE嵌入训练转换矩阵,基准方法的hits@1准确率达到了23.96%,,JE模型达到了29.73%的准确率,通过投影矩阵对齐的JEWP方法达到了29.88%。JE模型比较简单,Chen等人[7]在2017年提出了一种用于跨语言整合的知识嵌入模型MTransE,与JE模型相比,MTransE提出了多种知识图谱对准模型:基于距离的轴校准模型和翻译向量模型,基于距离的轴校准模型将损失函数定义为链接实体的对应头实体距离和对应尾实体距离之和,翻译向量模型分别通过翻译矢量和投影转换的方法链接两个知识图谱中的实体,并计算对应头实体距离与尾实体距离之和,最后将对齐损失和嵌入损失同时优化,实现了更好的性能;但是MTransE没有使用负采样三元组进行训练,因此可能导致非等价关系的实体彼此靠近。
然而知识图谱中不仅包含关系三元组,还包含属性三元组;MTransE系列的方法仅利用关系三元组进行对齐的效果有限,同时利用关系三元组和属性三元组对齐是目前的研究热点。Sun等人[8]在2017年提出了一种融合了属性信息的JAPE模型,JAPE模型在处理跨语言实体对齐的任务中不依赖机器翻译,JAPE模型由结构嵌入SE和属性嵌入AE两部分组成,结构嵌入SE专注于对两个知识图谱的关系结构进行建模,属性嵌入AE捕获属性的相关性。JAPE考虑属性的类型而不是具体值,将属性三元组中的信息抽象为数字、浮点数、日期、字符串四种类型。AE借鉴了skip-gram算法,skip-gram通过给定的词语预测下文,而AE通过给定的属性类型预测相关的属性类型,从而为属性值产生向量表示,最后共同优化结构嵌入和属性嵌入的损失。JAPE在处理跨语言实体对齐的研究中提出了一种新的思路,但是在处理同语言多知识图谱对齐的研究中,属性类型的信息有限。Bayu等人[9]在2019年提出了一种使用属性三元组的建模方法AttrE,与JAPE不同的是AttrE不使用属性类型的信息而是直接将属性三元组中的属性值进行编码,AttrE的损失函数由三部分组成:使用TransE损失函数计算的结构嵌入损失JSE,对齐实体的余弦距离作为对齐的损失函数Jsim,属性三元组的嵌入损失JAE,并提出了三种计算属性对齐的方法,分别通过求和、LSTM组合函数和n-gram组合函数的方式根据字符的嵌入生成属性的嵌入,并进行联合学习;同时该论文还提出了一种通过传递规则丰富三元组的方法,进一步丰富知识图谱中的链接数量,与基准模型相比,hits@1准确率提高了50%。
在多语言知识图谱对齐任务中,由于实体的属性信息不能直接用于计算实体相似度,因此多语言实体对齐依赖机器翻译技术。Cai等人[10]在2017年提出了一种引入实体描述信息用于跨语言实体对齐的模型cross-KG,该模型优化嵌入条件下三元组的条件概率,同时约束源KG和目标KG的对应实体的条件概率。cross-KG模型通过Jaro-Winker距离计算对应实体的相似性,对于不同语言的实体,通过Google翻译api将目标知识图谱的语言进行翻译,同时还使用知识图谱结构信息来定义入站相似性和出站相似性,由于大多数知识图谱相对稀疏,因此该模型选择其中较大的作为连接相似性计算实体的相似度。cross-KG在稀疏的知识图谱上可以实现更好的嵌入,但未将属性信息用于知识图谱嵌入优化,同时在处理多语言知识图谱对齐中受翻译质量的影响。2018年Chen等人[11]认为不同语言的实体图谱的质量存在差异,提出了一种基于单词翻译的方法改进多语言实体对齐的模型KDCoE。KDCoE采用TransE方法训练每种语言实体的嵌入,并在跨语言平行语料库上预训练多语言的单词嵌入,并将实体的描述信息通过GRU神经单元进行编码,用于跨语言实体对齐的协同训练。KDCoE模型借助机器翻译技术在多语言实体对齐任务上取得了一定的改进,但该模型不适用于处理单语言多知识图谱对齐问题。
此外,也有一些学者尝试利用实体的属性信息生成对齐种子。He等人[12]在2019年提出了一种交互式无监督实体对齐方法,交互式算法首先通过计算不同实体在相同属性下的属性值相似程度发现对齐实体,再根据对齐实体对的属性值发现等价的属性,迭代此过程生成高质量的实体对用于结构嵌入的训练,最后将实体的属性相似度与结构嵌入相似度进行加权发现更多的对齐实体。该方法有效的解决了基于知识嵌入表示的方法需要对齐种子用于训练的问题,并同时考虑了知识嵌入的语义相似度和字符相似度,但是该模型在迭代初期仅有少量的相同属性,如何利用少量的相同属性寻找对齐实体还存在一定的困难。Guan等人[13]在2019年也提出了一种无监督的自学习的知识图谱对齐方法SEEA,与其他模型不同的是,SEEA中仅定义了等价关系,不包含其他类型的关系。SEEA在属性三元组上直接嵌入,通过相同的属性和属性值建立跨知识图谱的链接,并根据属性三元组的嵌入结果筛选出候选实体对。特别的,SEEA考虑了实体对齐的双向关系,仅在KG1中实体e1在KG2中最近邻实体为e2,且e2在KG1中最近邻实体为e1时判断实体等价,并将对齐的实体用于迭代训练;在初次迭代时,关系三元组集合为空,随着迭代的进行,模型依次优化属性嵌入和关系嵌入。SEEA模型提出的双向匹配和一对一匹配策略是一种更加严格的约束,同时该方法不需要提供对齐种子,但是SEEA模型要求多个知识图谱中存在相同的属性和属性值,因此在使用中具有一定的局限性。
Huang等人[14]认为基于TransE的对齐算法忽略了实体对齐过程中实体属性语义聚合的重要性,在2020年提出了语义聚合的实体对齐算法,对于一个实体h1,计算所有以h1为头实体的三元组中关系与尾实体之和计算语义聚合向量,并约束实体h1的向量与语义聚合向量靠近;该算法还注意到不同的属性在语义聚合中的权重存在差异,引入了权重矩阵用于学习不同属性的权重。与AttrE相比,该算法在Hits@1、Hits@10指标上具有更好的性能,但该方法参数复杂,也不适用处理链接预测问题。
目前也有一些研究通过迭代对齐和参数共享的方法改进少量对齐种子时的对齐效果。Zhu等人[15]在2017年提出基于迭代实体对齐的IPTransE方法,IPTransE认为基于TransE的编码方法在知识图谱中忽略了路径信息,因此考虑了关系路径嵌入以提高嵌入性能,并考虑了基于翻译的对齐模型、线性变换模型和参数共享模型,其中参数共享模型可以用于迭代训练,通过对已知实体种子和训练中发现的等价实体分别采用硬对齐、软对齐的策略解决迭代中的错误传播问题。Sun等人[16]在2018年也提出了基于迭代的方法BootEA,作者认为TransE的损失函数不能保证正三元组的得分降低,因此提出了一个新的目标函数,并结合参数交换测策略将两个知识图谱嵌入到同一空间中,为了解决对齐种子不足的问题,BootEA模型提出迭代学习的策略,从嵌入空间中寻找对齐实体并指导下一轮的训练,该模型遵循一对一约束的目标,以增量的方式加入新对齐的实体,如果对齐过程中产生冲突,则选择似然度更高的实体保留,与MTransE和JAPE方法相比hits@1准确率提高了10%以上。但是迭代算法普遍存在错误传播的问题,IPTransE通过软对齐策略改善此问题,而BootEA通过让已经发现的匹配实体对可编辑缓解了错误传播。
由于实体对齐问题的复杂性,单一的模型嵌入能力往往不足以对齐两个网络,因此从多种视角来处理实体对齐效果会更好。Zhang等人[17]认为现有的方法没有将属性和关系同等对待,而是利用属性嵌入完善基于关系的嵌入,在2019年提出了一种多视图的实体对齐方法MultiKE,该方法将知识图谱表示为由实体、关系、属性、文字、名称视图、关系视图、以及属性视图构成的七元组,MultiKE使用词级别的嵌入生成实体的名称视图嵌入,使用TransE方法生成关系视图嵌入,使用卷积神经网络生成属性视图嵌入,并通过实体和属性的交换对齐进行跨知识图谱的对齐,最后通过视图加权平均、共享空间学习、多视图联合训练对多个实体的嵌入进行组合,该方法表明实体名称嵌入对于捕获实体相似性有很大的潜力。Matthias[18]等人则提出将知识图谱的实体和描述的文本进行对齐,首先将文本和知识图谱都通过表示学习映射到向量空间,学习到文本和实体的向量表示,在学习过程中加入正则约束使表示同一实体的实体向量和描述文本在向量空间中尽可能接近,知识图谱和文本的表示学习模型交替进行训练,从而在不影响文本和知识图谱各自的表示学习的效果的情况下实现对齐,该方法依赖描述实体的文本信息,通用性较差。Fan等人[19]在2017年提出了DKRL模型建模三元组,该模型不仅考虑基于关系表示的能量函数,还考虑基于描述信息的能量函数,提出两种对实体的描述信息进行编码的方法:连续词袋模型将描述信息的前k个关键词进行累加,但是这种方法忽略了词序信息,因此又提出一种通过卷积神经网络进行编码的方法。
在大规模实体匹配的任务中,由于知识图谱数据的不均衡性,自动化的实体对齐方法的实体对齐质量有限,因此Zhuang等人[20]在2017年提出借助众包平台提升对齐的效果,首先对知识图谱进行分区并进行粗略的实体对齐,然后分别将已对齐实体对和未对齐实体对放入众包平台,最后建立实体之间的偏序关系排除潜在的错误,优化了借助众包对齐实体的效果,但该方法仍然需要大量的人工操作。
最近,还有一些研究致力于通过图神经网络节点特征和图特征来学习节点的表示向量,Wang等人[21]提出的GCN-Align模型使用GCN将来自不同语言的实体嵌入到同一的向量空间中,并约束对齐的实体尽可能的接近;Cao等人[22]在2019年提出的MuGNN模型关注结构异构性和有限的对齐种子,通过补全缺失的关系来调和结构差异,并提出KG self-attention和cross-KG attention,将两个知识图谱嵌入到统一的向量空间,与基于翻译模型的方法相比图卷积的实体对齐方法具有更多的运算量。
发明内容
本发明的目的在于提供一种四险一金领域知识图谱中实体对齐方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:输入源知识图谱S的关系三元组集合S1和属性三元组集合S2,输入目标知识图谱T的关系三元组集合T1和属性三元组集合T2
步骤2:标记源知识图谱S和目标知识图谱T间具有等价关系的实体,构建等价实体集合Sγ;所述的等价实体为:若源知识图谱S与目标知识图谱T中含有一对名称相同的实体且两个知识图中均不含有其他名称相同的实体,则将这一对实体视为等价实体;
步骤3:设定属性相似度阈值θ,运行属性筛选算法对源知识图谱S的属性三元组集合S2和目标知识图谱T的属性三元组集合T2进行筛选,得到筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset
步骤4:为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据,得到源知识图谱S的负采样关系三元组集合S′1、源知识图谱S的负采样属性三元组集合S′2、目标知识图谱T的负采样关系三元组集合T1′、目标知识图谱T的负采样属性三元组集合T′2
步骤5:利用TransE模型、LSTM网络、预训练BERT模型训练知识图谱实体的嵌入表示,生成实体嵌入向量;
步骤5.1:字嵌入向量训练;
将原始语料进行分句处理,并将每个句子分成字符序列;通过Word2Vec模型和Skip-Gram算法在四险一金领域语料上训练字符级的Word2Vec嵌入,为每一个字符训练长度为N1维度的向量表示;
步骤5.2:属性值编码生成;
对于属性三元组中的属性值,选取前N2个字符并保留,对于长度不足N2的属性值,使用空格符进行填充。并将属性值中的每个字符替换为该字符的word2vec向量表示,获得属性值的嵌入矩阵,属性嵌入向量形状为N2*N1;
步骤5.3:知识图谱结构嵌入;
结构嵌入在待对齐的两个知识图谱的关系三元组上分别进行训练,结构嵌入中实体的嵌入向量和关系的嵌入向量由Embedding层产生并随机初始化,并通过TransE模型和动态margin调节策略进行训练,模型的目标函数为:
Figure BDA0002690780440000071
f(sr)=||hr+rr-tr||
Sr'={〈hr',rr,tr>|hr'∈Gr}∪{<hr,rr,tr'>|tr'∈Gr}
其中[x]+表示max(0,x),γ为边距超参数,Sr为知识图谱中存在的正例三元组,Sr'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组,Gr为Sr中的实体构成的集合,当输入为源知识图谱S的关系三元组时,Sr=S1,Sr'=S′1;当输入为目标知识图谱T的关系三元组时,Sr=T1,Sr'=T1′。γr为根据负三元组中关系动态学习的margin参数,随着模型的训练,γr将在不同的关系下进行自适应的调节使嵌入模型能够关注不同的关系,从而更好的捕获知识图谱的结构信息;
步骤5.4基于LSTM编码器的知识图谱属性嵌入:
属性嵌入部分由Embedding层和编码器两部分组成;属性值的编码过程为将word2Vec嵌入后的属性值依次输入到LSTM网络中,并将最后一个时刻的隐状态作为属性值的嵌入表示;
步骤5.5:基于预训练BERT模型的知识图谱属性嵌入:
将属性值字符序列依次输入到预训练的BERT模型中,并将‘[CLS]’位置对应的输入作为属性值的嵌入表示,BERT模型作为实体对齐算法的特征提取层;将LSTM的隐状态和BERT嵌入向量进行加和平均,获得实体属性的嵌入表示;目标函数如下:
Figure BDA0002690780440000072
f(sa)=||ha+ra-Mfencoder(ta)||
Sa'={<ha,ra,ta'>|ta'∈Ga}
其中[x]+表示max(0,x),γ为边距超参数,Sa为知识图谱中存在的正例属性三元组,Sa'为通过对三元组的属性值进行随机替换生成用于训练的负三元组,Ga为Sa中的属性值构成的集合,当输入为源知识图谱S的属性三元组时,Sa=S2,Sa'=S2';当输入为目标知识图谱T的属性三元组时,Sr=T2,Sr'=T2'。γa为根据负三元组中属性动态学习的margin参数;fencoder为LSTM隐状态输出和BERT输出向量经加和平均后的向量,M为维度转换矩阵;
步骤5.6:等价关系学习:
通过等价的实体建立跨知识图谱的链接,从而使其他具有相近语义信息的实体在空间中具有相近的向量表示;给定一对具有等价关系的实体
Figure BDA0002690780440000081
等价实体
Figure BDA0002690780440000082
Figure BDA0002690780440000083
具有一种特殊的关系sameas,即(
Figure BDA0002690780440000084
sameas,
Figure BDA0002690780440000085
),
Figure BDA0002690780440000086
Figure BDA0002690780440000087
在两个知识图谱的嵌入的空间中产生相似的向量表示,约束具有等价关系的实体在空间中产生相近的嵌入向量,对齐实体的损失定义为:
Figure BDA0002690780440000088
模型的联合学习目标是JSE、JAE、JSIM三种损失函数的加权组合,总体目标函数为:
J=JSIM+[w]+JSE+[1-w]+JAE
其中,w为结构嵌入和属性嵌入的权重参数,通过模型的输入进行训练;
步骤6:获取源知识图谱S的候选实体集合;
对于源知识图谱S中的一个实体对应的属性三元组
Figure BDA0002690780440000089
计算目标知识图谱T中每一个实体对应的属性三元组
Figure BDA00026907804400000810
与源知识图谱S中该实体对应的属性三元组
Figure BDA00026907804400000811
的空间距离distance及LCS相似度,对空间距离distance及LCS相似度进行加权组合,得到加权相似度;选择对应加权相似度最小的目标知识图谱T中的属性三元组加入到候选实体集合中;
Figure BDA00026907804400000812
Figure BDA00026907804400000813
的LCS相似度为:
Figure BDA00026907804400000814
步骤7:查询目标知识图谱T中是否存在与候选实体同名的实体;若不存在与候选实体同名的实体,则输出候选实体作为对齐实体;若存在与候选实体同名的实体,则获取候选实体及与候选实体具有相同名称的其他实体的描述信息,通过TF-IDF方法对实体的描述信息进行嵌入,生成描述信息表示向量;再将源实体的描述信息进行嵌入,将嵌入向量最为接近的实体作为最终的候选实体输出。
本发明还可以包括:
所述的步骤3中获取筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset的方法具体为:
步骤3.1:初始化源三元组相似度集合
Figure BDA0002690780440000091
和目标三元组相似度集合
Figure BDA0002690780440000092
初始化筛选后的源三元组集合
Figure BDA0002690780440000093
和筛选后的目标三元组集合
Figure BDA0002690780440000094
步骤3.2:从源知识图谱S的属性三元组集合S2中随机抽取一组属性三元组
Figure BDA0002690780440000095
从目标知识图谱T的属性三元组集合T2中随机抽取一组属性三元组
Figure BDA0002690780440000096
计算
Figure BDA0002690780440000097
其中,在三元组(h,r,t)中,h表示头实体,r表示属性,t为属性值;
步骤3.3:若d>θ,则执行步骤3.4;否则,返回步骤3.2,选择下一对属性三元组;
步骤3.4:若
Figure BDA0002690780440000098
不在集合Ssim_set中,则将
Figure BDA0002690780440000099
设为d,
Figure BDA00026907804400000910
设为
Figure BDA00026907804400000911
否则,判断
Figure BDA00026907804400000912
是否小于d;若
Figure BDA00026907804400000913
则将
Figure BDA00026907804400000914
设为d,将
Figure BDA00026907804400000915
设为
Figure BDA00026907804400000916
步骤3.5:若
Figure BDA00026907804400000917
不在集合Tsim_set中,则将
Figure BDA00026907804400000918
设为d,
Figure BDA00026907804400000919
设为
Figure BDA00026907804400000920
否则,判断
Figure BDA00026907804400000921
是否小于d;若
Figure BDA00026907804400000922
则将
Figure BDA00026907804400000923
设为d,将
Figure BDA00026907804400000924
设为
Figure BDA00026907804400000925
步骤3.6:判断是否完成源知识图谱S和目标知识图谱T中所有属性三元组的遍历;若未完成,则返回步骤3.2,选择下一对属性三元组;否则,迭代结束,输出筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset
所述的步骤4中为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据的方法具体为:
对于源知识图谱S的关系三元组集合S1,遍历集合S1中的每一个三元组
Figure BDA00026907804400000926
初始化负采样关系三元组集合
Figure BDA00026907804400000927
随机替换尾实体生成一个负三元组
Figure BDA00026907804400000928
Figure BDA00026907804400000929
不在S中,且S中存在以
Figure BDA00026907804400000930
为关系和尾实体的三元组,则将
Figure BDA00026907804400000931
加入到S′1中;若不满足,则随机替换三元组中的头尾实体加入到S′1中;
对于目标知识图谱T的关系三元组集合T1,遍历集合T1中的每一个三元组
Figure BDA0002690780440000101
初始化负采样关系三元组集合
Figure BDA0002690780440000102
随机替换尾实体生成一个负三元组
Figure BDA0002690780440000103
Figure BDA0002690780440000104
不在T中,且T中存在以
Figure BDA0002690780440000105
为关系和尾实体的三元组,则将
Figure BDA0002690780440000106
加入到T1′中;若不满足,则随机替换三元组中的头尾实体加入到T1′中;
对于源知识图谱S的属性三元组集合S2,遍历集合S2中的每一个三元组
Figure BDA0002690780440000107
初始化负采样属性三元组集合
Figure BDA0002690780440000108
随机替换三元组中的属性值加入到S′2中;
对于目标知识图谱T的属性三元组集合T2,遍历集合T2中的每一个三元组
Figure BDA0002690780440000109
初始化负采样属性三元组集合
Figure BDA00026907804400001010
随机替换三元组中的属性值加入到T′2中;
对于等价实体集合Sγ,遍历等价实体集合Sγ中每一对等价实体
Figure BDA00026907804400001011
初始化负采样等价实体集合
Figure BDA00026907804400001012
将每一对等价实体
Figure BDA00026907804400001013
Figure BDA00026907804400001014
随机替换为目标知识图谱T中的一个实体并加入到中S′γ
本发明的有益效果在于:
本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略,通过增加嵌入层优化不同属性和关系条件下的TransE损失函数,将LSTM网络和Bert对属性值的嵌入结果进行融合,在属性值的嵌入中考虑了属性值的语义信息,并将结构嵌入和属性嵌入联合训练,最终获得知识图谱的联合嵌入表示。本发明将实体嵌入的语义信息与字符信息进行组合,将实体嵌入距离与LCS相似度进行组合,并在考虑两种相似度的条件下选择候选实体对。本发明可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。
附图说明
图1为本发明的整体流程图。
图2为属性三元组嵌入结构示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明涉及一种四险一金领域中知识图谱的实体对齐方法,属于知识图谱技术领域。本发明的可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。
1.一种四险一金领域知识图谱中实体对齐方法,其特征在于,包括以下步骤:
步骤1:输入源知识图谱S的关系三元组集合S1和属性三元组集合S2,输入目标知识图谱T的关系三元组集合T1和属性三元组集合T2
步骤2:标记源知识图谱S和目标知识图谱T间具有等价关系的实体,构建等价实体集合Sγ;所述的等价实体为:若源知识图谱S与目标知识图谱T中含有一对名称相同的实体且两个知识图中均不含有其他名称相同的实体,则将这一对实体视为等价实体;
步骤3:设定属性相似度阈值θ,运行属性筛选算法对源知识图谱S的属性三元组集合S2和目标知识图谱T的属性三元组集合T2进行筛选,得到筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset
步骤3.1:初始化源三元组相似度集合
Figure BDA0002690780440000111
和目标三元组相似度集合
Figure BDA0002690780440000112
初始化筛选后的源三元组集合
Figure BDA0002690780440000113
和筛选后的目标三元组集合
Figure BDA0002690780440000114
步骤3.2:从源知识图谱S的属性三元组集合S2中随机抽取一组属性三元组
Figure BDA0002690780440000115
从目标知识图谱T的属性三元组集合T2中随机抽取一组属性三元组
Figure BDA0002690780440000116
计算
Figure BDA0002690780440000117
其中,在三元组(h,r,t)中,h表示头实体,r表示属性,t为属性值;
步骤3.3:若d>θ,则执行步骤3.4;否则,返回步骤3.2,选择下一对属性三元组;
步骤3.4:若
Figure BDA0002690780440000118
不在集合Ssim_set中,则将
Figure BDA0002690780440000119
设为d,
Figure BDA00026907804400001110
设为
Figure BDA00026907804400001111
否则,判断
Figure BDA00026907804400001112
是否小于d;若
Figure BDA00026907804400001113
则将
Figure BDA00026907804400001114
设为d,将
Figure BDA00026907804400001115
设为
Figure BDA00026907804400001116
步骤3.5:若
Figure BDA00026907804400001117
不在集合Tsim_set中,则将
Figure BDA00026907804400001118
设为d,
Figure BDA00026907804400001119
设为
Figure BDA00026907804400001120
否则,判断
Figure BDA00026907804400001121
是否小于d;若
Figure BDA00026907804400001122
则将
Figure BDA00026907804400001123
设为d,将
Figure BDA00026907804400001124
设为
Figure BDA00026907804400001125
步骤3.6:判断是否完成源知识图谱S和目标知识图谱T中所有属性三元组的遍历;若未完成,则返回步骤3.2,选择下一对属性三元组;否则,迭代结束,输出筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset
步骤4:为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据,得到源知识图谱S的负采样关系三元组集合S′1、源知识图谱S的负采样属性三元组集合S′2、目标知识图谱T的负采样关系三元组集合T1′、目标知识图谱T的负采样属性三元组集合T′2
对于源知识图谱S的关系三元组集合S1,遍历集合S1中的每一个三元组
Figure BDA0002690780440000121
初始化负采样关系三元组集合
Figure BDA0002690780440000122
随机替换尾实体生成一个负三元组
Figure BDA0002690780440000123
Figure BDA0002690780440000124
不在S中,且S中存在以
Figure BDA0002690780440000125
为关系和尾实体的三元组,则将
Figure BDA0002690780440000126
加入到S′1中;若不满足,则随机替换三元组中的头尾实体加入到S′1中;
对于目标知识图谱T的关系三元组集合T1,遍历集合T1中的每一个三元组
Figure BDA0002690780440000127
初始化负采样关系三元组集合
Figure BDA0002690780440000128
随机替换尾实体生成一个负三元组
Figure BDA0002690780440000129
Figure BDA00026907804400001210
不在T中,且T中存在以
Figure BDA00026907804400001211
为关系和尾实体的三元组,则将
Figure BDA00026907804400001212
加入到T1′中;若不满足,则随机替换三元组中的头尾实体加入到T1′中;
对于源知识图谱S的属性三元组集合S2,遍历集合S2中的每一个三元组
Figure BDA00026907804400001213
初始化负采样属性三元组集合
Figure BDA00026907804400001214
随机替换三元组中的属性值加入到S′2中;
对于目标知识图谱T的属性三元组集合T2,遍历集合T2中的每一个三元组
Figure BDA00026907804400001215
初始化负采样属性三元组集合
Figure BDA00026907804400001216
随机替换三元组中的属性值加入到T′2中;
对于等价实体集合Sγ,遍历等价实体集合Sγ中每一对等价实体
Figure BDA00026907804400001217
初始化负采样等价实体集合
Figure BDA00026907804400001218
将每一对等价实体
Figure BDA00026907804400001219
Figure BDA00026907804400001220
随机替换为目标知识图谱T中的一个实体并加入到中S′γ
步骤5:利用TransE模型、LSTM网络、预训练BERT模型训练知识图谱实体的嵌入表示,生成实体嵌入向量;
步骤5.1:字嵌入向量训练;
将原始语料进行分句处理,并将每个句子分成字符序列;通过Word2Vec模型和Skip-Gram算法在四险一金领域语料上训练字符级的Word2Vec嵌入,为每一个字符训练长度为N1维度的向量表示;
步骤5.2:属性值编码生成;
对于属性三元组中的属性值,选取前N2个字符并保留,对于长度不足N2的属性值,使用空格符进行填充。并将属性值中的每个字符替换为该字符的word2vec向量表示,获得属性值的嵌入矩阵,属性嵌入向量形状为N2*N1;
步骤5.3:知识图谱结构嵌入;
结构嵌入在待对齐的两个知识图谱的关系三元组上分别进行训练,结构嵌入中实体的嵌入向量和关系的嵌入向量由Embedding层产生并随机初始化,并通过TransE模型和动态margin调节策略进行训练,模型的目标函数为:
Figure BDA0002690780440000131
f(sr)=||hr+rr-tr||
Sr'={〈hr',rr,tr>|hr'∈Gr}∪{<hr,rr,tr'>|tr'∈Gr}
其中[x]+表示max(0,x),γ为边距超参数,Sr为知识图谱中存在的正例三元组,Sr'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组,Gr为Sr中的实体构成的集合,当输入为源知识图谱S的关系三元组时,Sr=S1,Sr'=S′1;当输入为目标知识图谱T的关系三元组时,Sr=T1,Sr'=T1′。γr为根据负三元组中关系动态学习的margin参数,随着模型的训练,γr将在不同的关系下进行自适应的调节使嵌入模型能够关注不同的关系,从而更好的捕获知识图谱的结构信息;
步骤5.4基于LSTM编码器的知识图谱属性嵌入:
属性嵌入部分由Embedding层和编码器两部分组成;属性值的编码过程为将word2Vec嵌入后的属性值依次输入到LSTM网络中,并将最后一个时刻的隐状态作为属性值的嵌入表示;
步骤5.5:基于预训练BERT模型的知识图谱属性嵌入:
将属性值字符序列依次输入到预训练的BERT模型中,并将‘[CLS]’位置对应的输入作为属性值的嵌入表示,BERT模型作为实体对齐算法的特征提取层;将LSTM的隐状态和BERT嵌入向量进行加和平均,获得实体属性的嵌入表示;目标函数如下:
Figure BDA0002690780440000132
f(sa)=||ha+ra-Mfencoder(ta)||
Sa'={<ha,ra,ta'>|ta'∈Ga}
其中[x]+表示max(0,x),γ为边距超参数,Sa为知识图谱中存在的正例属性三元组,Sa'为通过对三元组的属性值进行随机替换生成用于训练的负三元组,Ga为Sa中的属性值构成的集合,当输入为源知识图谱S的属性三元组时,Sa=S2,Sa'=S2';当输入为目标知识图谱T的属性三元组时,Sr=T2,Sr'=T2'。γa为根据负三元组中属性动态学习的margin参数;fencoder为LSTM隐状态输出和BERT输出向量经加和平均后的向量,M为维度转换矩阵;
步骤5.6:等价关系学习:
通过等价的实体建立跨知识图谱的链接,从而使其他具有相近语义信息的实体在空间中具有相近的向量表示;给定一对具有等价关系的实体
Figure BDA0002690780440000141
等价实体
Figure BDA0002690780440000142
Figure BDA0002690780440000143
具有一种特殊的关系sameas,即
Figure BDA0002690780440000144
Figure BDA0002690780440000145
Figure BDA0002690780440000146
在两个知识图谱的嵌入的空间中产生相似的向量表示,约束具有等价关系的实体在空间中产生相近的嵌入向量,对齐实体的损失定义为:
Figure BDA0002690780440000147
模型的联合学习目标是JSE、JAE、JSIM三种损失函数的加权组合,总体目标函数为:
J=JSIM+[w]+JSE+[1-w]+JAE
其中,w为结构嵌入和属性嵌入的权重参数,通过模型的输入进行训练;
步骤6:获取源知识图谱S的候选实体集合;
对于源知识图谱S中的一个实体对应的属性三元组
Figure BDA0002690780440000148
计算目标知识图谱T中每一个实体对应的属性三元组
Figure BDA0002690780440000149
与源知识图谱S中该实体对应的属性三元组
Figure BDA00026907804400001410
的空间距离distance及LCS相似度,对空间距离distance及LCS相似度进行加权组合,得到加权相似度;选择对应加权相似度最小的目标知识图谱T中的属性三元组加入到候选实体集合中;
Figure BDA00026907804400001411
Figure BDA00026907804400001412
的LCS相似度为:
Figure BDA00026907804400001413
步骤7:查询目标知识图谱T中是否存在与候选实体同名的实体;若不存在与候选实体同名的实体,则输出候选实体作为对齐实体;若存在与候选实体同名的实体,则获取候选实体及与候选实体具有相同名称的其他实体的描述信息,通过TF-IDF方法对实体的描述信息进行嵌入,生成描述信息表示向量;再将源实体的描述信息进行嵌入,将嵌入向量最为接近的实体作为最终的候选实体输出。
实施例1:
本发明提供了一种适用于四险一金领域的知识图谱实体对齐方法,该方法可以有效的解决由于实体名称不一致导致现有方法无法从全称和简称中捕获等价信息的问题。本发明包括(1)构建用于对齐的知识图谱(2)将原始数据分为关系三元组和属性三元组(3)根据实体名称自动标记等价实体用于训练(4)设定属性阈值对属性三元组进行筛选(5)训练知识图谱联合嵌入表示(6)计算实体的LCS相似度(7)选择候选实体对,并对需要消歧的实体对进行消歧;具体包括以下步骤:
步骤1:输入待对齐的知识图谱S和T的关系三元组和属性三元组,将数据转换为n-triple格式;
步骤2:根据名称自动标记部分实体作为训练集;人工标记其余的等价实体,用于模型的验证和测试;
步骤3:设定属性相似度阈值θ,运行属性筛选算法对属性三元组进行筛选;
步骤3.1:源三元组相似度集合Ssim_set={},目标三元组相似度集合Tsim_set={};
步骤3.2:遍历attr_triples_1、attr_triples_2中的每一对属性三元组(h1,r1,t1)和(h2,r2,t2);
步骤3.3:计算sim=edit_distance(t1,t2),若sim大于阈值θ,且相似度集合中不存在相似度更高的key=h1+r1的三元组,则将Ssim_set[key]更新为sim,并保留该属性三元组(h1,r1,t1),若在迭代中发现相似度更高的三元组,则进行替换;
步骤3.4:将相似度最高的属性三元组保存到文件;
步骤4:输入两个知识图谱的关系三元组、筛选后的属性三元组及等价关系集合;
步骤5:为关系三元组、属性三元组、等价实体集合生成负采样数据;
步骤6:利用TransE模型、LSTM网络、预训练Bert模型训练知识图谱实体的嵌入表示,生成实体嵌入向量;
步骤6.1:字嵌入向量训练:
将原始语料进行分句处理,并将每个句子分成字符序列;通过Word2Vec模型和Skip-Gram算法在四险一金期刊论文和政策法规语料上训练字符级的Word2Vec嵌入,为每一个字符训练长度为64维度的向量表示;
步骤6.2:属性值编码生成:
对于属性三元组中的属性值,选取前20个字符保留,对于长度不足20的属性值,使用空格符进行填充。并将属性值中的每个字符替换为该字符的word2vec向量表示,获得属性值的嵌入矩阵;
步骤6.3:知识图谱结构嵌入:
结构嵌入在待对齐两个知识图谱的关系三元组上分别进行训练,结构嵌入中实体的嵌入向量和关系的嵌入向量由Embedding层产生并随机初始化,通过TransE模型和动态margin调节策略进行训练,模型的目标函数为:
Figure BDA0002690780440000161
f(sr)=||h+r-t||
Sr'={<h',r,t>|h'∈G}∪{<h,r,t'>|t'∈G}
其中[x]+表示max(0,x),γ为边距超参数,Sr为知识图谱中存在的正例三元组,Sr'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组。γ为基准边距超参数,γr即为根据负三元组中关系动态学习的参数,随着模型的训练,γr将在不同的关系下学习到不同的结果使嵌入模型能够关注不同的关系,从而更好的捕获知识图谱的结构信息。
步骤6.4:基于LSTM编码器的知识图谱属性嵌入:
构建784个神经元的LSTM网络,将word2Vec嵌入后的属性值依次输入到LSTM网络中,并将最后一个时刻的隐状态作为属性值的嵌入表示。
步骤6.5:基于预训练Bert向量的知识图谱属性嵌入:
将属性值输入到预训练Bert模型提取属性值特征,产生784维的属性值的嵌入向量;
步骤6.6:属性嵌入向量融合:
将LSTM的隐状态和Bert嵌入向量进行加和平均,获得实体属性的嵌入表示,目标函数如下:
Figure BDA0002690780440000162
f(sr)=||h+r-Mrfencoder(t)||
步骤6.7:等价关系学习:
通过等价的实体建立跨知识图谱的链接,从而使其他具有相近语义信息的实体在空间中具有相近的向量表示。给定一对具有等价关系的实体e1和e2,等价实体e1和e2具有一种特殊的关系sameas,即(e1,sameas,e2),e1和e2在两个知识图谱的嵌入空间中产生相似的向量表示,约束具有等价关系的实体在空间中产生相近的嵌入向量,对齐实体的损失定义为:JSIM=d(e1,e2)
模型的联合学习目标是JSE、JAE、JSIM三种损失函数的加权组合,总体目标函数为:
J=JSIM+[w]+JSE+[1-w]+JAE
其中w为结构嵌入和属性嵌入的权重参数,通过输入数据训练;
步骤7:选择源知识图谱中的一个实体e,计算目标知识图谱中所有实体与e的空间距离及名称的LCS相似度;
步骤8:将实体距离及LCS相似度组合成实体相似度向量,将相似度最高的实体作为候选实体;
步骤9:查询目标知识图谱中,是否存在与候选实体同名的实体,若存在则通过TF-IDF方法嵌入实体的描述信息进行消歧,否则输出候选实体作为对齐实体;
实施例2:
本发明是从两个异构的知识图谱中发现等价的实体,具体流程如图1所示,所用的语料为从政策法规文本中应用实体识别和关系分类技术构建的四险一金知识图谱及中文知识图谱cn-dbpedia,本发明将以此为例子,介绍实体对齐的具体实施方式。
步骤1:知识图谱数据获取及规范化:
步骤1.1:输入待对齐的知识图谱S和T的关系三元组和属性三元组,将源数据转换为n-triple格式,其中每行包含一个三元组,头实体、关系、尾实体间使用’\t’符号分隔。保存到rel_triples_1、rel_triples_2、attr_triples_1、attr_triples_2四个文件;
步骤1.2:标记两个知识图谱间具有等价关系的实体,构建训练集、验证集、测试集保存到train_links、valid_links、test_links三个文件,其中训练集可以通过无监督方式构建,即源知识图谱S与目标知识图谱T中若含有一对名称相同的实体且两个知识图中均不含有其他名称相同的实体,则将它们视为等价实体并加入训练集;
步骤2:属性三元组筛选方法
属性筛选方法用于筛选有助于实体对齐的三元组,其基本思想是通过相似的属性产生相似的嵌入表示从而提高模型的性能:
步骤2.1:设定属性相似度阈值θ,初始化源三元组相似度集合
Figure BDA0002690780440000171
和目标三元组相似度集合
Figure BDA0002690780440000172
初始化筛选后的源三元组集合
Figure BDA0002690780440000173
和筛选后的目标三元组集合
Figure BDA0002690780440000174
步骤2.2:遍历attr_triples_1、attr_triples_2中的每一对属性三元组(hS,rS,tS)和(hT,rT,tT);
步骤2.3:计算d=edit_distance(t1,t2),若d大于阈值θ,则继续,否则选择下一对三元组;
步骤2.4:若(hS,rS)不在集合Ssim_set中,将Ssim_set[(hS,rS)]设为d,Sset[(hS,rS)]设为
Figure BDA0002690780440000181
步骤2.5:若Ssim_set[(hS,rS)]<d,将Ssim_set[(hS,rS)]设为d,Sset[(hS,rS)]设为
Figure BDA0002690780440000182
步骤2.6:若(hT,rT)不在集合Tsim_set中,将Tsim_set[(hT,rT)]设为d,Tset[(hT,rT)]设为
Figure BDA0002690780440000183
步骤2.7:若Tsim_set[(hT,rT)]<d,将Tsim_set[(hT,rT)]设为d,Sset[(hT,rT)]设为
Figure BDA0002690780440000184
步骤2.8:迭代结束后将Sset={},Tset={}输入到属性三元组文件;
步骤3:负采样数据生成
该步骤需要生成用于结构嵌入模型训练的负采样关系三元组、用于属性嵌入的负采样属性三元组以及用于对齐关系学习的负采样对齐实体对;
步骤3.1:输入关系三元组、筛选后的属性三元组及等价关系集合;
步骤3.2:负采样三元组生成策略:
若S中存在一组hS',rS,tS',且hS,rS,tS'不在S中,则将hS,rS,tS'加入到S'中,若同时存在多组hS',rS,tS',则随机选择一组hS,rS,tS'加入S'中;若不满足,则随机替换三元组中的头尾实体加入到S'中;
步骤3.3:负采样等价实体生成策略:
对于知识图谱S,T中一对具有等价关系的实体(e1,e2),将e2随机替换为T中的一个实体;
步骤4:属性值编码生成;
步骤4.1:字嵌入向量训练:
将原始语料进行分句处理,通过Word2Vec模型和Skip-Gram算法在四险一金期刊论文和政策法规语料上训练字符级的Word2Vec嵌入,为每一个字符训练长度为100维度的向量表示;窗口大小为10;
步骤4.2:属性值编码生成:
对于属性三元组中的属性值,选取前20个字符并保留,对于长度不足20的属性值,使用空格符进行填充。并将属性值中的每个字符替换为该字符的word2vec向量表示,获得属性值的嵌入矩阵,属性嵌入向量形状为20*100;
步骤5:知识图谱联合嵌入表示:
步骤5.1:知识图谱结构嵌入:
结构嵌入在待对齐的两个知识图谱的关系三元组上分别进行训练,结构嵌入中实体的嵌入向量和关系的嵌入向量由Embedding层产生并随机初始化,并通过TransE模型和动态margin调节策略进行训练,模型的目标函数为:
Figure BDA0002690780440000191
f(sr)=||h+r-t||
Sr'={<h',r,t>|h'∈G}∪{<h,r,t'>|t'∈G}
其中[x]+表示max(0,x),γ为边距超参数,Sr为知识图谱中存在的正例三元组,Sr'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组。γ为边距超参数,γr即为根据负三元组中关系动态学习的参数,随着模型的训练,γr将在不同的关系下学习到不同的结果使嵌入模型能够关注不同的关系,从而更好的捕获知识图谱的结构信息;
步骤5.2基于LSTM编码器的知识图谱属性嵌入:
属性三元组中包含的属性值包含用于实体对齐的信息,但直接使用Embedding层嵌入进行嵌入无法对属性值的信息加以利用,因此属性嵌入部分由Embedding层和编码器两部分组成;属性值的编码过程为将word2Vec嵌入后的属性值依次输入到LSTM网络中,并将最后一个时刻的隐状态作为属性值的嵌入表示;
步骤5.3:基于预训练Bert模型的知识图谱属性嵌入:
属性值编码的最大长度设置为25,将属性值字符序列依次输入到预训练bert模型中,并将‘[CLS]’位置对应的输入作为属性值的嵌入表示,产生长度为784维的向量,bert模型作为实体对齐算法的特征提取层;
将LSTM的隐状态和Bert嵌入向量进行加和平均,获得实体属性的嵌入表示,过程如图2所示,目标函数如下:
Figure BDA0002690780440000192
f(sr)=||h+r-Mrfencoder(t)||
步骤5.4:等价关系学习:
通过等价的实体建立跨知识图谱的链接,从而使其他具有相近语义信息的实体在空间中具有相近的向量表示。给定一对具有等价关系的实体e1和e2,等价实体e1和e2具有一种特殊的关系sameas,即(e1,sameas,e2),e1和e2在两个知识图谱的嵌入的空间中产生相似的向量表示,约束具有等价关系的实体在空间中产生相近的嵌入向量,对齐实体的损失定义为:JSIM=d(e1,e2)
模型的联合学习目标是JSE、JAE、JSIM三种损失函数的加权组合,总体目标函数为:
J=JSIM+[w]+JSE+[1-w]+JAE
其中w为结构嵌入和属性嵌入的权重参数,通过模型的输入进行训练;
步骤6:计算实体的名称的字符相似性:
步骤6.1名称相似度计算:
对于源知识图谱S中的一个实体,选择一个属性三元组(h1,r1,t1),在目标知识图谱T中选择一个属性三元组(h2,r2,t2),LCS相似度得分定义为:
Figure BDA0002690780440000201
相似的实体获得的LCS得分更低;
步骤6.2:实体相似性特征组合:
将实体对的相似度组合成向量d=[distance,sim],其中distance为实体嵌入的空间距离,sim表示实体LCS相似度,对两种相似度进行加权组合,并将距离最近的实体作为候选实体;
步骤7:同名实体消歧:
本方法在进行实体对齐时主要考虑了实体间的关系和实体的名称信息;目标知识图谱中可能存在与候选实体具有相同名称的实体,因此需要进行消歧处理;若目标知识图谱中不含有与候选实体具有相同名称的其他实体,则将候选实体作为对齐实体;
步骤7.1实体消歧的步骤如下:
中文知识图谱通过百度百科构建,因此每个实体都能映射到一个百科网页;获取候选实体及与候选实体具有相同名称的其他实体在百科网站上的描述信息,通过TF-IDF方法对实体的描述信息进行嵌入,生成描述信息表示向量;再将源实体的描述信息进行嵌入,将描述信息最接近的实体作为最终的候选实体;
本发明的有益效果在于:
1、提出了一种属性值嵌入方法,本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略,通过增加嵌入层优化不同属性和关系条件下的TransE损失函数。将LSTM网络和Bert对属性值的嵌入结果进行融合,在属性值的嵌入中考虑了属性值的语义信息,并将结构嵌入和属性嵌入联合训练,最终获得知识图谱的联合嵌入表示。
2、将实体嵌入的语义信息与字符信息进行组合,本发明将实体嵌入距离与LCS相似度进行组合,并在考虑两种相似度的条件下选择候选实体对。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种四险一金领域知识图谱中实体对齐方法,其特征在于,包括以下步骤:
步骤1:输入源知识图谱S的关系三元组集合S1和属性三元组集合S2,输入目标知识图谱T的关系三元组集合T1和属性三元组集合T2
步骤2:标记源知识图谱S和目标知识图谱T间具有等价关系的实体,构建等价实体集合Sγ;所述的等价实体为:若源知识图谱S与目标知识图谱T中含有一对名称相同的实体且两个知识图中均不含有其他名称相同的实体,则将这一对实体视为等价实体;
步骤3:设定属性相似度阈值θ,运行属性筛选算法对源知识图谱S的属性三元组集合S2和目标知识图谱T的属性三元组集合T2进行筛选,得到筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset
步骤4:为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据,得到源知识图谱S的负采样关系三元组集合S′1、源知识图谱S的负采样属性三元组集合S′2、目标知识图谱T的负采样关系三元组集合T1′、目标知识图谱T的负采样属性三元组集合T2′;
步骤5:利用TransE模型、LSTM网络、预训练BERT模型训练知识图谱实体的嵌入表示,生成实体嵌入向量;
步骤5.1:字嵌入向量训练;
将原始语料进行分句处理,并将每个句子分成字符序列;通过Word2Vec模型和Skip-Gram算法在四险一金领域语料上训练字符级的Word2Vec嵌入,为每一个字符训练长度为N1维度的向量表示;
步骤5.2:属性值编码生成;
对于属性三元组中的属性值,选取前N2个字符并保留,对于长度不足N2的属性值,使用空格符进行填充;并将属性值中的每个字符替换为该字符的word2vec向量表示,获得属性值的嵌入矩阵,属性嵌入向量形状为N2*N1;
步骤5.3:知识图谱结构嵌入;
结构嵌入在待对齐的两个知识图谱的关系三元组上分别进行训练,结构嵌入中实体的嵌入向量和关系的嵌入向量由Embedding层产生并随机初始化,并通过TransE模型和动态margin调节策略进行训练,模型的目标函数为:
Figure FDA0003698775530000011
f(sr)=||hr+rr-tr||
Sr'={<hr',rr,tr>|hr'∈Gr}∪{<hr,rr,tr'>|tr'∈Gr}
其中[x]+表示max(0,x),γ为边距超参数,Sr为知识图谱中存在的正例三元组,Sr'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组,Gr为Sr中的实体构成的集合,当输入为源知识图谱S的关系三元组时,Sr=S1,Sr'=S′1;当输入为目标知识图谱T的关系三元组时,Sr=T1,Sr'=T1′;γr为根据负三元组中关系动态学习的margin参数,随着模型的训练,γr将在不同的关系下进行自适应的调节使嵌入模型能够关注不同的关系,从而更好的捕获知识图谱的结构信息;
步骤5.4基于LSTM编码器的知识图谱属性嵌入:
属性嵌入部分由Embedding层和编码器两部分组成;属性值的编码过程为将word2Vec嵌入后的属性值依次输入到LSTM网络中,并将最后一个时刻的隐状态作为属性值的嵌入表示;
步骤5.5:基于预训练BERT模型的知识图谱属性嵌入:
将属性值字符序列依次输入到预训练的BERT模型中,并将‘[CLS]’位置对应的输入作为属性值的嵌入表示,BERT模型作为实体对齐算法的特征提取层;将LSTM的隐状态和BERT嵌入向量进行加和平均,获得实体属性的嵌入表示;目标函数如下:
Figure FDA0003698775530000021
f(sa)=||ha+ra-Mfencoder(ta)||
Sa'={<ha,ra,ta'>|ta'∈Ga}
其中[x]+表示max(0,x),γ为边距超参数,Sa为知识图谱中存在的正例属性三元组,Sa'为通过对三元组的属性值进行随机替换生成用于训练的负三元组,Ga为Sa中的属性值构成的集合,当输入为源知识图谱S的属性三元组时,Sa=S2,Sa'=S2';当输入为目标知识图谱T的属性三元组时,Sr=T2,Sr'=T2';γa为根据负三元组中属性动态学习的margin参数;fencoder为LSTM隐状态输出和BERT输出向量经加和平均后的向量,M为维度转换矩阵;
步骤5.6:等价关系学习:
通过等价的实体建立跨知识图谱的链接,从而使其他具有相近语义信息的实体在空间中具有相近的向量表示;给定一对具有等价关系的实体
Figure FDA0003698775530000031
等价实体
Figure FDA0003698775530000032
Figure FDA0003698775530000033
具有一种特殊的关系sameas,即
Figure FDA0003698775530000034
Figure FDA0003698775530000035
Figure FDA0003698775530000036
在两个知识图谱的嵌入的空间中产生相似的向量表示,约束具有等价关系的实体在空间中产生相近的嵌入向量,对齐实体的损失定义为:
Figure FDA0003698775530000037
模型的联合学习目标是JSE、JAE、JSIM三种损失函数的加权组合,总体目标函数为:
J=JSIM+[w]+JSE+[1-w]+JAE
其中,w为结构嵌入和属性嵌入的权重参数,通过模型的输入进行训练;
步骤6:获取源知识图谱S的候选实体集合;
对于源知识图谱S中的一个实体对应的属性三元组
Figure FDA0003698775530000038
计算目标知识图谱T中每一个实体对应的属性三元组
Figure FDA0003698775530000039
与源知识图谱S中该实体对应的属性三元组
Figure FDA00036987755300000310
的空间距离distance及LCS相似度,对空间距离distance及LCS相似度进行加权组合,得到加权相似度;选择对应加权相似度最小的目标知识图谱T中的属性三元组加入到候选实体集合中;
Figure FDA00036987755300000311
Figure FDA00036987755300000312
的LCS相似度为:
Figure FDA00036987755300000313
步骤7:查询目标知识图谱T中是否存在与候选实体同名的实体;若不存在与候选实体同名的实体,则输出候选实体作为对齐实体;若存在与候选实体同名的实体,则获取候选实体及与候选实体具有相同名称的其他实体的描述信息,通过TF-IDF方法对实体的描述信息进行嵌入,生成描述信息表示向量;再将源实体的描述信息进行嵌入,将嵌入向量最为接近的实体作为最终的候选实体输出。
2.根据权利要求1所述的一种四险一金领域知识图谱中实体对齐方法,其特征在于:所述的步骤3中获取筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset的方法具体为:
步骤3.1:初始化源三元组相似度集合
Figure FDA00036987755300000314
和目标三元组相似度集合
Figure FDA00036987755300000315
初始化筛选后的源三元组集合
Figure FDA00036987755300000316
和筛选后的目标三元组集合
Figure FDA00036987755300000317
步骤3.2:从源知识图谱S的属性三元组集合S2中随机抽取一组属性三元组
Figure FDA00036987755300000318
从目标知识图谱T的属性三元组集合T2中随机抽取一组属性三元组
Figure FDA0003698775530000041
计算
Figure FDA0003698775530000042
其中,在三元组(h,r,t)中,h表示头实体,r表示属性,t为属性值;
步骤3.3:若d>θ,则执行步骤3.4;否则,返回步骤3.2,选择下一对属性三元组;
步骤3.4:若
Figure FDA0003698775530000043
不在集合Ssim_set中,则将
Figure FDA0003698775530000044
设为d,
Figure FDA0003698775530000045
设为
Figure FDA0003698775530000046
否则,判断
Figure FDA0003698775530000047
是否小于d;若
Figure FDA0003698775530000048
则将
Figure FDA0003698775530000049
设为d,将
Figure FDA00036987755300000410
设为
Figure FDA00036987755300000411
步骤3.5:若
Figure FDA00036987755300000412
不在集合Tsim_set中,则将
Figure FDA00036987755300000413
设为d,
Figure FDA00036987755300000414
设为
Figure FDA00036987755300000415
否则,判断
Figure FDA00036987755300000416
是否小于d;若
Figure FDA00036987755300000417
则将
Figure FDA00036987755300000418
设为d,将
Figure FDA00036987755300000419
设为
Figure FDA00036987755300000420
步骤3.6:判断是否完成源知识图谱S和目标知识图谱T中所有属性三元组的遍历;若未完成,则返回步骤3.2,选择下一对属性三元组;否则,迭代结束,输出筛选后的源知识图谱属性三元组集合Sset和目标知识图谱属性三元组集合Tset
3.根据权利要求1或2所述的一种四险一金领域知识图谱中实体对齐方法,其特征在于:所述的步骤4中为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据的方法具体为:
对于源知识图谱S的关系三元组集合S1,遍历集合S1中的每一个三元组
Figure FDA00036987755300000421
初始化负采样关系三元组集合
Figure FDA00036987755300000422
随机替换尾实体生成一个负三元组
Figure FDA00036987755300000423
Figure FDA00036987755300000424
不在S中,且S中存在以
Figure FDA00036987755300000425
为关系和尾实体的三元组,则将
Figure FDA00036987755300000426
加入到S′1中;若不满足,则随机替换三元组中的头尾实体加入到S′1中;
对于目标知识图谱T的关系三元组集合T1,遍历集合T1中的每一个三元组
Figure FDA00036987755300000427
初始化负采样关系三元组集合
Figure FDA00036987755300000428
随机替换尾实体生成一个负三元组
Figure FDA00036987755300000429
Figure FDA00036987755300000430
不在T中,且T中存在以
Figure FDA00036987755300000431
为关系和尾实体的三元组,则将
Figure FDA00036987755300000432
加入到T1′中;若不满足,则随机替换三元组中的头尾实体加入到T1′中;
对于源知识图谱S的属性三元组集合S2,遍历集合S2中的每一个三元组
Figure FDA00036987755300000433
初始化负采样属性三元组集合
Figure FDA00036987755300000434
随机替换三元组中的属性值加入到S′2中;
对于目标知识图谱T的属性三元组集合T2,遍历集合T2中的每一个三元组
Figure FDA0003698775530000051
初始化负采样属性三元组集合
Figure FDA0003698775530000052
随机替换三元组中的属性值加入到T2′中;
对于等价实体集合Sγ,遍历等价实体集合Sγ中每一对等价实体
Figure FDA0003698775530000053
初始化负采样等价实体集合
Figure FDA0003698775530000054
将每一对等价实体
Figure FDA0003698775530000055
Figure FDA0003698775530000056
随机替换为目标知识图谱T中的一个实体并加入到中S′γ
CN202010990634.1A 2020-09-19 2020-09-19 一种四险一金领域知识图谱中实体对齐方法 Active CN112131404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010990634.1A CN112131404B (zh) 2020-09-19 2020-09-19 一种四险一金领域知识图谱中实体对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010990634.1A CN112131404B (zh) 2020-09-19 2020-09-19 一种四险一金领域知识图谱中实体对齐方法

Publications (2)

Publication Number Publication Date
CN112131404A CN112131404A (zh) 2020-12-25
CN112131404B true CN112131404B (zh) 2022-09-27

Family

ID=73841826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010990634.1A Active CN112131404B (zh) 2020-09-19 2020-09-19 一种四险一金领域知识图谱中实体对齐方法

Country Status (1)

Country Link
CN (1) CN112131404B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN112860916B (zh) * 2021-03-09 2022-09-16 齐鲁工业大学 一种面向影视的多层次知识图谱生成方法
CN112905807B (zh) * 2021-03-25 2022-07-08 北京邮电大学 一种多源时空知识融合方法
CN113077526A (zh) * 2021-03-30 2021-07-06 太原理工大学 一种知识图嵌入复合邻居链路预测方法
CN112988917B (zh) * 2021-03-31 2022-11-18 东南大学 一种基于多种实体上下文的实体对齐方法
CN112818137B (zh) * 2021-04-19 2022-04-08 中国科学院自动化研究所 基于实体对齐的多源异构知识图谱协同推理方法及装置
CN113220899A (zh) * 2021-05-10 2021-08-06 上海博亦信息科技有限公司 基于学术人才信息知识图谱的知识产权同一性认定方法
CN113312492A (zh) * 2021-05-24 2021-08-27 哈尔滨理工大学 一种基于动态翻译的知识图谱表示学习方法
CN113535972B (zh) * 2021-06-07 2022-08-23 吉林大学 一种融合上下文语义的知识图谱链路预测模型方法及装置
CN113360286B (zh) * 2021-06-21 2022-04-12 中国人民解放军国防科技大学 一种基于知识图谱嵌入的链接预测方法
CN113505239B (zh) * 2021-07-09 2022-10-28 吉林大学 一种结合图注意力和属性聚类的实体对齐方法
CN113626610A (zh) * 2021-08-10 2021-11-09 南方电网数字电网研究院有限公司 知识图谱嵌入方法、装置、计算机设备和存储介质
CN113987196B (zh) * 2021-09-29 2024-05-24 浙江大学 一种基于知识图谱蒸馏的知识图谱嵌入压缩方法
CN114219089B (zh) * 2021-11-11 2022-07-22 山东人才发展集团信息技术有限公司 一种新一代信息技术产业知识图谱的构建方法及设备
CN114238758B (zh) * 2021-12-14 2023-04-11 杭州电子科技大学 一种基于多源跨界数据融合的用户画像预测方法
CN114239831B (zh) * 2021-12-21 2022-06-10 军事科学院系统工程研究院网络信息研究所 基于跨实体属性关联的卫星频轨资源信息向量表示方法
CN114678060A (zh) * 2022-02-09 2022-06-28 浙江大学杭州国际科创中心 基于氨基酸知识图谱和主动学习的蛋白质改造方法
CN115828882B (zh) * 2022-09-23 2023-06-16 华能澜沧江水电股份有限公司 面向大坝安全知识库风险联动的实体对齐方法和系统
CN116010583B (zh) * 2023-03-17 2023-07-18 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种级联耦合的知识增强对话生成方法
CN116257643B (zh) * 2023-05-09 2023-08-25 鹏城实验室 跨语言实体对齐方法、装置、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
CN111078875A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于机器学习的从半结构化文档中提取问答对的方法
CN111581476A (zh) * 2020-04-28 2020-08-25 深圳合纵数据科技有限公司 基于bert跟lstm的一种智能化网页信息抽取方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10936819B2 (en) * 2019-02-19 2021-03-02 International Business Machines Corporation Query-directed discovery and alignment of collections of document passages for improving named entity disambiguation precision
CN109815345A (zh) * 2019-02-25 2019-05-28 南京大学 一种基于路径的知识图谱嵌入方法
CN111581395B (zh) * 2020-05-06 2023-09-19 西安交通大学 一种基于深度学习的模型融合三元组表示学习系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN110188206A (zh) * 2019-05-08 2019-08-30 北京邮电大学 基于翻译模型的协同迭代联合实体对齐方法及装置
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110941722A (zh) * 2019-10-12 2020-03-31 中国人民解放军国防科技大学 一种基于实体对齐的知识图谱融合方法
CN111078875A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种基于机器学习的从半结构化文档中提取问答对的方法
CN111581476A (zh) * 2020-04-28 2020-08-25 深圳合纵数据科技有限公司 基于bert跟lstm的一种智能化网页信息抽取方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Trans-layer model learning: A hierarchical modeling strategy for real-time reliability evaluation of complex system;Tan,Zhixue等;《Reliability Engineering & System Safety》;20190228;第182卷;第120-132页 *
TransPhrase: A new method for generating phrase embedding from word embedding in Chinese[;Li Rongsheng等;《Expert Systems With Applications》;20211130;第183卷;115440 *
基于深度学习的领域知识对齐模型研究:知识图谱视角;余传明等;《情报学报》;20190624;第38卷(第06期);第641-654页 *
基于联合知识表示学习的多模态实体对齐;王会勇等;《控制与决策》;20190929;第35卷(第12期);第2855-2864页 *
融合实体描述及类型的知识图谱表示学习方法;杜文倩等;《中文信息学报》;20200715;第34卷(第07期);第50-59页 *
面向知识图谱的知识推理研究进展;官赛萍等;《软件学报》;20180208;第29卷(第10期);第2996-2994页 *

Also Published As

Publication number Publication date
CN112131404A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN112131404B (zh) 一种四险一金领域知识图谱中实体对齐方法
CN110334219B (zh) 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN106650789B (zh) 一种基于深度lstm网络的图像描述生成方法
CN111506714A (zh) 基于知识图嵌入的问题回答
CN111753024B (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN110046252B (zh) 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN111310439B (zh) 一种基于深度特征变维机制的智能语义匹配方法和装置
CN109033129A (zh) 基于自适应权重的多源信息融合知识图谱表示学习方法
CN111538848A (zh) 一种融合多源信息的知识表示学习方法
CN110033008B (zh) 一种基于模态变换与文本归纳的图像描述生成方法
CN112395393B (zh) 一种基于多任务多示例的远程监督关系抽取方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN112988917B (zh) 一种基于多种实体上下文的实体对齐方法
CN110647904A (zh) 一种基于无标记数据迁移的跨模态检索方法及系统
CN114090783A (zh) 一种异构知识图谱融合方法及系统
CN111460824A (zh) 一种基于对抗迁移学习的无标注命名实体识别方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
Lai et al. Transconv: Relationship embedding in social networks
CN115438274A (zh) 基于异质图卷积网络的虚假新闻识别方法
Shen et al. Entity alignment with adaptive margin learning knowledge graph embedding
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN112668633A (zh) 一种基于细粒度领域自适应的图迁移学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant