CN112784065B - 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 - Google Patents
基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 Download PDFInfo
- Publication number
- CN112784065B CN112784065B CN202110138232.3A CN202110138232A CN112784065B CN 112784065 B CN112784065 B CN 112784065B CN 202110138232 A CN202110138232 A CN 202110138232A CN 112784065 B CN112784065 B CN 112784065B
- Authority
- CN
- China
- Prior art keywords
- entity
- neighborhood
- alignment
- feature vector
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 14
- 239000013598 vector Substances 0.000 claims abstract description 205
- 239000011159 matrix material Substances 0.000 claims abstract description 57
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 60
- 238000005070 sampling Methods 0.000 claims description 45
- 238000012545 processing Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 15
- 239000003550 marker Substances 0.000 claims description 14
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 claims description 12
- 101150064138 MAP1 gene Proteins 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000003416 augmentation Effects 0.000 claims description 8
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 12
- 230000011218 segmentation Effects 0.000 description 35
- 230000008569 process Effects 0.000 description 10
- 201000005702 Pertussis Diseases 0.000 description 8
- 201000004813 Bronchopneumonia Diseases 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 206010035664 Pneumonia Diseases 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 206010008479 Chest Pain Diseases 0.000 description 1
- 241000931705 Cicada Species 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 208000032923 Lobar pneumonia Diseases 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 206010064097 avian influenza Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Animal Behavior & Ethology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开一种基于多阶邻域注意力网络的无监督知识图谱融合方法及装置,属于知识图谱技术领域。获取待融合两个图谱的数据;计算每个实体的初始特征向量;用余弦相似度算法计算相似度矩阵;找出两个图谱对齐实体对添入对齐实体对集合;计算实体的邻域拓扑结构特征张量;判断实体是否存在综合特征向量,若否,则生成实体的综合特征向量,若是,则对实体的综合特征向量进行更新;利用对齐实体对集合调整实体的综合特征向量;计算综合相似度矩阵;找出新的对齐实体对添入对齐实体对集合;迭代计算,达到迭代停止条件时得到最终对齐实体对集合;融合两个医疗知识图谱。不用人工标注,能捕获语义特征,克服不同语言和知识存储结构图谱对融合的影响。
Description
技术领域
本发明属于知识图谱技术领域,具体涉及一种基于多阶邻域注意力网络的无监督知识图谱融合方法及装置。
背景技术
知识图谱近些年在医疗领域应用广泛。医疗知识图谱中存储的大量医疗相关知识能够为医生诊断患者病情提供有力帮助。医生根据患者出现的症状从医疗知识图谱中匹配代表相同症状的实体。实体之间以关系作为边连接。例如,幼儿患者出现痉挛性咳嗽、胸闷、吸气时有蝉鸣音、低热等症状及体征,在医疗知识图谱中,这些症状对应的疾病实体是百日咳。医疗知识图谱中由(实体,关系,实体)构成实体关系三元组,例如(百日咳,并发症,支气管肺炎)、(支气管肺炎,易感人群,好发于儿童)。根据患者症状和医疗知识图谱中三元组信息,可以挖掘出该患者可能患有百日咳病,但同时有可能还患有支气管肺炎,需要医生做进一步检查。因此,涵盖知识越丰富的医疗知识图谱越能为医生提供有效帮助。
世界上的不同医疗组织基于它们所拥有的医疗知识数据构建了各自的医疗知识图谱。构建这些医疗知识图谱所使用的数据是不尽相同的,并且这些数据无法保证涵盖了绝对完整的医疗知识,所以这些医疗知识图谱之间存在知识相互补充的关系。同时这些医疗知识图谱之间还存在一定程度的重复,即不同医疗知识图谱都对相同的知识进行表示。比如图1示出的两个医疗知识图谱分别把同一种疾病命名为“百日咳”和“顿咳”。医疗知识图谱融合方法就是将作为输入的不同的医疗知识图谱包含的知识进行整合,最终形成的结果医疗知识图谱中包含了输入医疗知识图谱中的全部知识,并且每个知识都只有唯一的表示,进而构建一个大且全的新医疗知识图谱的有效方法。
现有的大量研究工作都集中在有监督学习方法中,有监督的医疗知识图谱融合需要大量具有特定标注的训练数据进行训练。具体来说,现有的医疗知识图谱融合方法都需要医学学者和医疗工作者对不同医疗知识图谱中的对齐实体进行人工标注。一些较先进的实体对齐方法也需在适量人工标注的成果上,通过学习实体携带的信息特征实现对齐实体对的寻找。另外,不同的医疗知识图谱在构建时受到所利用的数据、使用语言、知识结构等因素影响,这导致了表达相同事物的两个实体所携带信息的相似程度较低的现象。比如不同医疗机构对同一种药物使用的名称可能是不同的、中文医疗知识图谱与英文医疗知识图谱受到两种语言的差异影响、不同医疗知识图谱对知识存储的侧重点不同等等。这些现象是实体对齐的最大阻碍,这种现象称为“异质现象”。现有的研究工作采用图卷积神经网络学习来提升结果的准确度。尽管如此,异质现象对实体对齐性能影响仍然很大。总而言之,现有的实体对齐方法不能针对现存的异质现象提供解决办法。
发明内容
现有的医疗知识图谱融合方法都需要先经过人工标注过程,需要消耗极大的人力成本且效率低下,而且人工标注的结果还会受到不同标注人员的差异的影响;现有的医疗知识图谱融合方法通常使用随机初始化的方法来获得实体初始特征向量,这样得到的实体初始特征向量含有非常稀少的实体的语义特征。而实体的语义特征能够为找到对齐的实体对提供重要线索,提取的语义特征越稀少,越不容易在众多拥有相似名称的实体中找到对齐的实体对;此外,现存的医疗知识图谱之间存在很大程度的“异质现象”,极大影响了医疗知识图谱融合的准确度。
针对上述现有技术存在的不足,本发明提供一种基于多阶邻域注意力网络的无监督医疗知识图谱融合方法及装置,旨在捕获每个实体丰富的语义特征和邻域拓扑结构特征,无需人工标注过程,减轻“异质现象”的干扰,从而提高医疗知识图谱融合的准确度。
为了解决上述问题,本发明第一方面提供一种基于多阶邻域注意力网络的无监督医疗知识图谱融合方法,包括以下步骤:
步骤1:获取待融合的两个医疗知识图谱,并从待融合的两个医疗知识图谱中获取所需的数据,包括实体名称信息、实体描述信息和三元组信息;
步骤2:根据获得的实体名称信息和实体描述信息,计算得到每个实体的初始特征向量;
步骤3:根据实体的初始特征向量,通过余弦相似度算法计算待融合的一个医疗知识图谱中各实体与另一个医疗知识图谱中各实体相互之间的相似度,从而得到相似度矩阵;
步骤4:根据相似度矩阵找出待融合的两个医疗知识图谱的对齐实体对,并将对齐实体对添加到对齐实体对集合中;
步骤5:根据实体的初始特征向量和待融合的两个医疗知识图谱的三元组信息,得到实体的邻域拓扑结构特征张量;
步骤6:判断实体是否存在综合特征向量,若否,则根据邻域拓扑结构特征张量生成实体的综合特征向量,若是,则根据实体当前的综合特征向量生成实体新的综合特征向量,对实体的综合特征向量进行更新;
步骤7:利用对齐实体对集合调整实体的综合特征向量;
步骤8:按照与步骤3相同的方法,根据调整后的每个实体的综合特征向量,计算待融合的一个医疗知识图谱中各实体与另一个医疗知识图谱中各实体相互之间的相似度,从而得到综合相似度矩阵;
步骤9:根据综合相似度矩阵找出对齐的实体对,并把新得到的对齐实体对加入对齐实体对集合;
步骤10:返回步骤6,且重复执行步骤6至步骤9进行迭代计算,直至达到迭代停止条件,得到最终的对齐实体对集合;
步骤11:根据最终的对齐实体对集合将两个医疗知识图谱进行融合。
进一步地,根据所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,步骤4中所述的根据相似度矩阵找出待融合的两个医疗知识图谱的对齐实体对的方法为:首先假设相似度矩阵S1中的每一行代表图谱1中的某一实体a与图谱2中的全部实体的相似度,相似度矩阵S2中的每一行代表图谱2中的某一实体b与图谱1中的全部实体的相似度;然后对S1和S2的每一行做归一化处理;再然后根据相似度矩阵归一化处理后的结果,找出待融合的两个医疗知识图谱的对齐实体对:在相似度矩阵归一化处理后的结果中实体a所对应的行里找到数值最大的元素v1,该元素所在列对应的实体b则视为与实体a最相似实体;在相似度矩阵归一化处理后的结果中实体b所对应的行里找到数值最大的元素v2,若该元素所在列对应的实体刚好是实体a,并且v1和v2都大于0.500,则认为实体a与实体b是对齐实体对。
进一步地,根据所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,所述步骤5包括如下具体步骤:
步骤5.1:根据从待融合的两个医疗知识图谱中获取的三元组信息和实体的初始特征向量,生成由每个实体的二阶邻域内全部的其他实体所构成的邻域拓扑结构特征张量;
步骤5.2:将实体的邻域拓扑结构特征张量送入前馈神经网络FNN,得到实体的最终的邻域拓扑结构特征张量。
进一步地,根据所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,所述步骤5.1包括如下具体步骤:
步骤5.1.1:分别从待融合的两个医疗知识图谱的三元组信息中找到每一实体的邻域拓扑结构特征,得到每一实体的邻域集合;
步骤5.1.2:根据每一实体的邻域集合构建每一实体的邻域实体序列Nseq和邻域标记向量Nmark;
步骤5.1.3:利用从步骤2中获得的实体的初始特征向量替换邻域实体序列,再将邻域标记向量嵌入,最终构成实体的邻域拓扑结构特征张量。
进一步地,根据所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,步骤5.1.1中所述的找到每一实体的邻域拓扑结构特征得到每一实体的邻域集合的方法为:在构建任一实体a的二阶邻域时,从三元组信息中找到所有包含当前实体a的三元组,将这些三元组中除了实体a以外的另一个实体加入实体a的一阶邻域集合;
对于得到的实体a的一阶邻域集合,分别在三元组信息中查找所有包含该集合中的所有实体b的三元组,将这些三元组中除了实体a和实体b以外的另一个实体加入实体a的二阶邻域集合。
进一步地,根据所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,所述步骤6包括如下具体步骤:
步骤6.1:判断实体是否存在综合特征向量,若否,则根据邻域拓扑结构特征张量并利用注意力机制求出实体的邻域实体序列内全部实体对实体的影响权重系数,若是,则根据实体当前的综合特征向量利用注意力机制求出实体的邻域实体序列内全部实体对实体的影响权重系数;
步骤6.2:判断实体是否存在综合特征向量,若否,则使用邻域拓扑结构特征张量与权重系数生成实体的综合特征向量,若是,则根据实体当前的综合特征向量与权重系数生成实体新的综合特征向量,对实体的综合特征向量进行更新。
进一步地,根据所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,所述步骤7包括如下步骤:
步骤7.1:为对齐实体对集合中的每组实体对做负采样,得到负采样集合NS;
为对齐实体对集合中的每组实体对进行至少1次的负采样操作;负采样操作是随机用医疗知识图谱中的其他实体替换实体对中的其中一个实体;
步骤7.2:根据负采样集合NS计算实体当前的综合特征向量的准确度Loss;
步骤7.3:反向传播Loss结果。
进一步地,根据所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,步骤7.2中所述的根据负采样集合NS计算实体当前的综合特征向量的准确度Loss的方法为:利用在步骤7.1中得到的负采样集合NS,使用公式(10)计算实体当前的综合特征向量的准确度:
在公式(10)中,(e1,e2)代表的是在对齐实体对集合P中的一个对齐实体对;NS(e1)是对实体对(e1,e2)中e1随机用医疗知识图谱中的其他实体替换的负采样操作之后得到的负采样集合,(e1neg,e2)为该负采样集合中的一个负采样实体对;NS(e2)代表的是随机用医疗知识图谱中的其他实体替换实体对(e1,e2)中e2的负采样操作之后得到的负采样集合,(e1,e2neg)为该负采样集合中的一个负采样实体对;γ是一个预设的正整数;[]+表示中括号内的计算结果若小于0,则结果取0。
本发明第二方面提供一种基于多阶邻域注意力网络的无监督医疗知识图谱融合装置,包括:
数据采集模块,用于获取待融合的两个医疗知识图谱;从待融合的两个医疗知识图谱中获取所需的数据,包括实体名称信息、实体描述信息和三元组信息;将获取的数据均发送给实体对齐模块;
实体对齐模块,用于从数据采集模块获取所需的数据进行实体对齐,并将对齐实体对集合输出给知识融合模块;
知识融合模块,用于接收对齐实体对集合,并按照该对齐实体对集合对两个医疗知识图谱的实体进行融合。
进一步地,根据所述的基于多阶邻域注意力网络的无监督医疗知识图谱融合装置,实体对齐模块进一步包括:
语义嵌入模块,用于接收数据采集模块输入的待融合的两个医疗知识图谱中的实体名称信息和实体描述信息,根据接收的信息数据获取每个实体的含有实体的语义特征的初始特征向量,并将每个实体的初始特征向量同时发送给图注意力嵌入模块和对齐预测模块;
对齐预测模块,用于接收语义嵌入模块输入的全部实体的初始特征向量和逐次接收图注意力嵌入模块多次输入的实体的综合特征向量依次对实体的综合特征向量进行更新;分别通过对比实体的初始特征向量的相似性和对比每次输入的实体的综合特征向量的相似性来预测任一两实体之间是对齐实体对的概率,进而得到相似度矩阵并将其发送给对齐实体对增广模块,矩阵的行列分别为两个医疗知识图谱中的实体,矩阵中每个元素代表了对应行列所代表的实体之间的相似度;
对齐实体对增广模块,用于逐次接收对齐预测模块多次输入的相似度矩阵;根据每次输入的相似度矩阵得到确信是正确的对齐实体对,且把这些对齐实体对加入到对齐实体对集合并将每次更新的对齐实体对集合发送给图注意力嵌入模块,而将最后一次更新的对齐实体对集合发送给知识融合模块;
图注意力嵌入模块,用于接收数据采集模块输入的待融合的两个医疗知识图谱中的三元组信息;接收语义嵌入模块发送的每一实体的初始特征向量;逐次接收对齐实体对增广模块多次输入的对齐实体对集合;在当前实体的初始特征向量的基础上加入当前实体的邻域拓扑结构特征,生成实体当前的综合特征向量;在实体当前的综合特征向量基础上逐次更新实体的综合特征向量;将每次更新的综合特征向量发送给对齐预测模块。
本发明提出的基于多阶邻域注意力网络的无监督医疗知识图谱融合方法及装置,与现有技术相比较具有如下有益效果:
1)不需要人工标注过程,极大节省人力成本的开销。通过语义嵌入模块、对齐预测模块和对齐实体对增广模块,以及用严格的筛选标准得到对齐的实体对集合。用对齐实体对集合辅助图注意力嵌入模块,在每次图注意力嵌入模块运行过程中反过来为对齐实体对集合添加新的对齐实体对。
2)能够捕获实体描述信息的语义信息,使得形成的实体的初始特征向量包含语义和语法方面的丰富信息。由不同语言构成的医疗知识图谱所带来的语言异质现象对获取实体语音信息的影响极大。本发明中语义嵌入模块使用双向注意力机制捕获了实体描述的深层语义信息,即使用不同的语言,语义嵌入模块依然能捕获相似的语义信息。
3)图注意力嵌入模块同时考虑一个实体二阶邻域内的全部相关信息,有效克服了不同知识存储结构构建的医疗知识图谱对融合过程的影响;
4)医疗知识图谱之间由于存储的知识不尽相同,本应对齐的实体对很可能拥有很多不相似的邻域信息。本发明使用注意力机制过滤邻域内影响较大的噪声实体,缓解了噪声问题对医疗知识图谱融合造成的严重影响。
附图说明
图1为按照不同知识结构构建的医疗知识图谱示例图;
图2为本发明基于多阶邻域注意力网络的无监督医疗知识图谱融合装置的结构示意图;
图3为本发明装置中语义嵌入模块的内部结构示意图;
图4为本发明基于多阶邻域注意力网络的无监督医疗知识图谱融合方法流程图;
图5为本发明中步骤2.3生成实体初始特征向量过程示例图。
具体实施方式
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
由于提取实体信息的特征是整个知识图谱融合过程中最重要的内容。因此在本发明提供的基于多阶邻域注意力网络的无监督医疗知识图谱融合方法及装置中,先找到不同医疗知识图谱中对于相同事物的表达即对齐实体对。再利用这些对齐实体对,进一步找到不同医疗知识图谱之间哪些知识的表达是重复的,哪些知识的表达是相互补充的。所以找到对齐实体对是极其必要的,把这个过程叫做实体对齐。判断两个实体是否构成对齐实体对的方法主要依据两实体各自携带的“语义”、“邻域”、“属性”等信息。
本实施方式的基于多阶邻域注意力网络的无监督医疗知识图谱融合装置,如图2所示,包括:
数据采集模块,用于获取待融合的两个医疗知识图谱;从待融合的两个医疗知识图谱中获取所需的数据,包括实体名称信息、实体描述信息和三元组信息;将获取的信息数据均发送给实体对齐模块;
实体对齐模块,用于根据从数据采集模块获取所需的信息数据进行实体对齐,并将对齐实体对集合输出给知识融合模块;
知识融合模块,用于接收对齐实体对集合,并按照该对齐实体对集合对两个医疗知识图谱的实体进行融合,从而实现对两个医疗知识图谱的融合。
本实施方式的实体对齐模块又进一步包括:
语义嵌入模块,用于接收数据采集模块输入的待融合的两个医疗知识图谱中的实体名称信息和实体描述信息,根据接收的信息获取每个实体的含有实体的语义特征的初始特征向量,并将每个实体的初始特征向量同时发送给图注意力嵌入模块和对齐预测模块;
对齐预测模块,用于接收语义嵌入模块输入的全部实体的初始特征向量和逐次接收图注意力嵌入模块多次输入的实体的综合特征向量依次对实体的综合特征向量进行更新;分别通过对比实体的初始特征向量的相似性和对比每次输入的实体的综合特征向量的相似性来预测任一两实体之间是对齐实体对的概率,进而得到两个医疗知识图谱的实体之间的相似度矩阵并将其发送给对齐实体对增广模块,矩阵的行列分别为两个医疗知识图谱中的实体,矩阵中每个元素代表了对应行列所代表的实体之间的相似度;
对齐实体对增广模块,用于逐次接收对齐预测模块多次输入的相似度矩阵;根据每次输入的相似度矩阵得到确信是正确的对齐实体对,且把这些对齐实体对加入到对齐实体对集合并将每次更新的对齐实体对集合发送给图注意力嵌入模块,即对齐实体对集合用来记录确信是正确的对齐实体对,而将最后一次更新的对齐实体对集合发送给知识融合模块。
图注意力嵌入模块,用于接收数据采集模块输入的待融合的两个医疗知识图谱中的三元组信息;接收语义嵌入模块发送的实体的初始特征向量;逐次接收对齐实体对增广模块多次输入的对齐实体对集合;逐次从当前实体的周围相连实体信息入手,在当前实体的初始特征向量的基础上加入当前实体的邻域拓扑结构特征,生成当前的实体的综合特征向量,以及在实体当前的综合特征向量基础上逐次更新实体的综合特征向量;将每次更新的实体综合特征向量发送给对齐预测模块。
本实施方式的图注意力嵌入模块进一步包括:
邻域抽取层,用于从待融合的两个医疗知识图谱中获取三元组信息;接收语义嵌入模块输入的实体的初始特征向量;逐次接收对齐实体对增广模块多次输入的对齐实体对集合;根据三元组信息和实体初始特征向量,生成由每个实体的二阶邻域内全部的其他实体所构成的邻域拓扑结构特征张量并发送给线性层;为对齐实体对集合中的每组实体对做负采样操作,得到负采样集合并发送给线性层;
线性层:用于接收邻域抽取层输入的邻域拓扑结构特征张量和负采样集合;将邻域拓扑结构特征张量送入前馈神经网络FNN(Feedforward Neural Network),得到最终的邻域拓扑结构特征张量并将其发送给自注意力层;根据负采样集合,计算实体当前的综合特征向量的准确度并将其发送给自注意力层;
自注意力层:用于接收线性层输入的最终的邻域拓扑结构特征张量和实体当前的综合特征向量的准确度;根据最终的邻域拓扑结构特征张量,对每个实体生成实体综合特征向量;将实体当前的综合特征向量的准确度值传递回实体当前的综合特征向量,对每个实体更新其综合特征向量;
输出层:将每个实体的最新的综合特征向量输出给对齐预测模块。
如图3所示,本实施方式的语义嵌入模块还进一步包含:
分词器:用于接收数据采集模块输入的待融合的两个医疗知识图谱中的实体名称信息和实体描述信息,按词语对接收的信息文本进行划分,生成分词结果并将分词结果发送给包装器;
包装器:用于接收分词器输入的分词结果;通过首尾标记包装器和填充器,分别对分词结果添加首尾标记和填充占位标记,生成相同规格的分词结果和有效位标记向量;将最终的分词结果和有效位标记向量发送给Bert(Bidirectional EncoderRepresentations from Transformers,双向注意力机制嵌入器);
Bert:用于接收包装器输入的最终的分词结果和有效位标记向量;根据最终分词结果和有效位标记向量获取每个实体的含有实体的语义特征的初始特征向量;将每个实体的初始特征向量同时发送给对齐预测模块和图注意力嵌入模块。
本实施方式的分词器进一步包含jieba中文分词工具包和nltk英文分词工具包,分别用于对中文的文本进行划分和对英文的文本进行划分。
本实施方式的基于多阶邻域注意力网络的无监督知识图谱融合方法,如图4所示,包括以下步骤:
步骤1:获取待融合的两个医疗知识图谱,并从待融合的两个医疗知识图谱中获取所需的数据,包括实体名称信息、实体描述信息和三元组信息。
1)从两个医疗知识图谱中获取实体名称信息和实体描述信息作为语义特征的信息来源。例如,如表1所示的来自中文医疗知识图谱中的实体“支气管肺炎”和来自英文医疗知识图谱中的实体“Bronchopneumonia”在医疗知识图谱中的实体名称信息和实体描述信息。
表1名称信息与描述信息示例
2)从两个医疗知识图谱中获取三元组信息作为邻域拓扑结构特征的信息来源。例如“大叶性肺炎-症状-呼吸困难”。
步骤2:根据获得的实体名称信息和实体描述信息,求解每个实体的初始特征向量。
步骤2.1:对输入的实体名称信息文本和实体描述信息文本进行分词处理。
本实施方式优先使用实体描述信息。这是因为实体的描述中常常包含比名称中更多的特征。但考虑到少部分实体描述信息可能不易获取或者不慎丢失,本实施方式在某个实体缺少实体描述信息时,使用该实体的实体名称信息代替。更具体地讲,输入的实体名称信息和实体描述信息本质上是一段文本。在本实施方式中,对于中文的文本,使用jieba分词工具包对文本进行分词处理。对于英文文本,使用nltk工具包对文本进行分词处理。
表2对描述信息进行分词处理的示例
步骤2.2:为生成的分词结果添加首尾标记符,且生成对应的有效位标记向量。
由于不同的实体的描述信息长短不一,首尾标记包装器约束分词结果最大长度为126个词,超出的部分将被舍弃。在分词结果的前后分别添加首标记和尾标记用来记录描述语句的开始与结束。因此,在添加首尾标记之后,把首尾标记也作为词考虑,分词结果的长度最大为128个词。接着,填充器对不足128个词的分词结果将在末尾添加适量的占位标记来填充至128个词。这样就得到了相同规格的分词结果。同时,填充器对每个得到的128位的分词结果构造相应的128位有效位标记向量,在使用占位标记的位置置0,其他位置置1。由支气管肺炎的实体描述信息得到的最终分词结果和有效位标记向量,如表3所示。
表3最终分词结果和有效标记向量示例表
步骤2.3:根据最终的分词结果和有效位标记向量,利用Bert得到每一实体的含有实体的语义特征的初始特征向量。图5为本步骤具体过程的示例图。
Bert本质上是一个为词语学习语义特征的模型。它将海量的语料作为学习的样本,运行自监督学习方法为词语学习一个语义特征向量。表达相似含义的词语经过Bert之后会得到相似的词特征向量。对于单个实体而言,Bert接收了该实体128位的最终分词结果和有效位标记向量,并据此为128个划分出的词语生成语义特征向量。本实施方式中使用生成的首标记的语义特征向量作为实体初始特征向量。
对首标记的语义特征向量的具体计算方法如下:
步骤2.3.1:本实施方式中通过Word2vec模型获取最终分词结果中词语的词特征向量,它可以捕获单词的句法和语义信息。将输入的最终分词结果中的每个词用该词对应的词特征向量替换,生成每个实体的语义特征张量。
Word2vec是现有的一种获得词特征向量的方法,它被广泛地应用于各种自然语言处理任务中。生成的语义特征张量是一个3阶张量。张量是一种计算机学尝试用的数学量。可以简单理解为3维矩阵。该语义特征张量在3个维度上的大小分别为医疗知识图谱中实体的总个数、每个实体的分词结果大小:128、每个词得到的词特征向量的大小:128。可抽象表示为T={e1,e2,…,en},ex为医疗知识图谱中第x个实体。ex={w1,w2,…,w128},wx为句子中第x个词的特征向量表示,其中x代表1,2,…,128。
以表3中第二行句子为实施例,通过Word2vec模型获取的“支气管肺炎”实体的语义特征张量为:
步骤2.3.2:根据每个实体的语义特征张量和对应的有效位标记向量,利用Bert为每个实体生成语义特征向量。
Bert中含有三个权重矩阵WQ、WK、WV。这三个权重矩阵是在Bert训练过程中得到的固定值的矩阵。获得这三个权重矩阵的训练过程与本实施方式无关,本实施方式中的所有步骤都未进行对Bert的训练。本实施方式直接使用三个权重矩阵WQ、WK、WV,通过如下的公式(1)得到首标记的查询向量:
Q=WQEmb首标记,Ki=WKEmbi,Vi=WVEmbi (1)
其中,Emb首标记表示首标记在Word2vev方法中得到的词特征向量;Embi表示在128位的分词结果中第i位的词语在Word2vec方法中得到的词特征向量;Ki被称为第i位词语的键向量,Vi被称为第i位词语的值向量。因此对于一个实体而言,本实施方式可以得到1个首标记的查询向量、128个键向量、128个值向量。
接下来利用公式(2)计算第i位词语的词特征向量对首标记的词特征向量的影响:
最后通过公式(3)整合全部128个词语对首标记的词特征向量的影响:
其中,Maski表示有效标记位向量中第i位的值;fin首标记代表首标记生成的语义特征向量作为该实体的初始特征向量。
本实施例中将语义特征张量送入Bert,根据公式(1)-(3)获取该实体的初始特征向量h为:
步骤3:根据实体的初始特征向量,通过余弦相似度算法计算待融合的一个医疗知识图谱中各实体与另一个医疗知识图谱中各实体相互之间的相似度,从而得到相似度矩阵。
为了描述方便,在本步骤中将待融合的两医疗知识图谱分别简称为图谱1和图谱2。通过计算图谱1与图谱2中实体的双向匹配的余弦相似度构建相似度矩阵S1和S2。对于图谱1中的每个实体a,都要枚举出图谱2中的全部实体与实体a做相似度计算,得到图谱1向图谱2匹配的相似度矩阵S1。对于图谱2中的每个实体b,都要枚举出图谱1中的全部实体与实体b做相似度计算,得到图谱1向图谱2匹配的相似度矩阵S2。
相似度的计算需要借助公式(4)所示的实体a与实体b的余弦相似度算法。
在公式(4)中,A表示实体a的初始特征向量;B表示实体b的初始特征向量;||A||是对实体a的初始特征向量的取模操作;Ai表示A向量中第i位的元素。最终求得的similarity表示实体a与实体b的余弦相似度。
本实施例中得到的S1为:
本实施例中得到的S2为:
步骤4:根据相似度矩阵找出待融合的两个医疗知识图谱的对齐实体对,并将对齐实体对添加到对齐实体对集合中。
相似度矩阵S1中的每一行代表步骤3提到的图谱1中的某一实体a与图谱2中的全部实体的相似度。相似度矩阵S2中的每一行代表步骤3提到的图谱2中的某一实体b与图谱1中的全部实体的相似度。在该步骤中,首先对S1和S2的每一行做归一化处理,以S1为例:
其中,S1ij为S1中第i行第j列的归一化结果,n为第i行中的元素个数。
S1经过归一化处理之后的结果为:
S2经过归一化处理之后的结果为:
根据相似度矩阵归一化处理后的结果找出待融合的两个医疗知识图谱的对齐实体对。具体方法为:在相似度矩阵归一化处理后的结果中实体a所对应的行里找到数值最大的元素v1,该元素所在列对应的实体b便视为与实体a最相似实体;而且,在相似度矩阵归一化处理后的结果中实体b所对应的行里找到数值最大的元素v2,该元素所在列对应的实体刚好是实体a,并且v1和v2都大于0.500,则认为实体a与实体b是对齐实体对,并将该实体对加入对齐实体对集合P中。本实施方式中要求v1和v2都大于0.500是为了约束实体a和实体b之间的相似度明显大于它们分别与其他实体的相似度。
步骤5:根据实体的实体初始特征向量和待融合的两个医疗知识图谱的三元组信息生成实体的邻域拓扑结构特征张量。
步骤5.1:根据从待融合的两个医疗知识图谱中获取的三元组信息和实体的初始特征向量,生成由每个实体的二阶邻域内全部的其他实体所构成的邻域拓扑结构特征张量。
三元组信息中包含了每个实体的邻域拓扑结构特征。可以通过三元组信息找到某实体a的二阶邻域内的所有其他实体集合E。如果将E中的实体随机地排成一行,则可将实体a的邻域拓扑结构特征表示成一个类似于步骤2中实体描述的分词结果的形式。
步骤5.1.1:分别从待融合的两个医疗知识图谱的三元组信息中找到每一实体的邻域拓扑结构特征,得到每一实体的邻域集合。
在构建任一实体a的二阶邻域时,从三元组信息中找到所有包含当前实体a的三元组。将这些三元组中除了实体a以外的另一个实体加入实体a的一阶邻域集合。
对于得到的实体a的一阶邻域集合,分别在三元组信息中查找所有包含该集合中的所有实体b的三元组。将这些三元组中除了实体a和实体b以外的另一个实体加入实体a的二阶邻域集合。
对得到的实体a的一阶邻域集合、二阶邻域集合和实体a本身做并集处理,得到实体a的邻域集合。
步骤5.1.2:根据每一实体的邻域集合构建每一实体的邻域实体序列Nseq和邻域标记向量Nmark。
将实体a的邻域集合中的全部实体按邻域范围排成序列,实体a本身在最前,一阶邻域在后,二阶邻域在最后,邻域内部无序排列。按照邻域范围对形成的邻域实体序列进行标注,对实体a自身标“1”,对一阶邻域实体标“2”,对二阶邻域实体标“3”。例如本实施例中实体“支气管肺炎”的邻域集合构成的邻域实体序列Nseq和邻域标记向量Nmark为:
表4邻域实体序列和邻域标记向量示例
步骤5.1.3:利用从步骤2中获得的实体的初始特征向量h替换从步骤5.1.2中得到的邻域实体序列Nseq,再将邻域标记向量Nmark嵌入,最终构成实体的邻域拓扑结构特征张量N。
本实施方中构成实体的邻域拓扑结构特征张量N是一个3阶张量,在未嵌入邻域标记向量Nmark之前可抽象表示为Ninit={E1,E2,…,Ex,…,En},Ex为医疗知识图谱中第x个实体。Ex={e1,e2,…,enei_num},ei为实体Ex的邻域实体序列中第i个实体的初始特征向量表示,其中i代表1,2,…,nei_num。nei_num表示实体Ex的邻域实体序列中的实体个数。
以表4中的实体“支气管肺炎”的邻域实体序列为实施例,得到该实体的未嵌入邻域标记向量Nmark之前的邻域拓扑结构特征张量为:
获取的邻域标记向量为:
嵌入邻域标记向量后得到该实体的邻域拓扑结构特征张量N为:
步骤5.2:将实体的邻域拓扑结构特征张量送入前馈神经网络FNN,得到实体的最终的邻域拓扑结构特征张量Ns:
Ns=FNN(N) (6)
为了降低后续计算的复杂度,最终的邻域拓扑结构特征张量维度缩减为32位,同时最终的邻域拓扑结构特征张量融合了实体名称特征、实体描述特征、实体邻域拓扑结构特征等丰富信息。
步骤6:判断实体是否存在综合特征向量,若否,则根据邻域拓扑结构特征张量生成实体的综合特征向量,若是,则根据实体当前的综合特征向量生成实体新的综合特征向量,对实体的综合特征向量进行更新。
本步骤可以接收来自步骤5输入的邻域拓扑结构特征张量或者来自步骤9输入的实体的综合特征向量。两种输入的数据格式是相同的,在本步骤中也进行完全相同的计算过程。接下来以邻域拓扑结构特征张量作为输入为例进行说明。当输入的是实体当前的综合特征向量时,直接用实体当前的综合特征向量替换本步骤流程中使用的邻域拓扑结构特征张量即可。
步骤6.1:利用注意力机制求出实体a的邻域实体序列Nseq内全部实体对实体a的影响权重系数αi。
在本步骤中先判断实体是否存在综合特征向量,若否,则根据邻域拓扑结构特征张量使用注意力机制求出权重系数,若是,则根据实体当前的综合特征向量使用注意力机制求出权重系数。对实体a的邻域实体序列Nseq内的实体赋予不同的权重系数,权重系数高的实体对实体a的最终综合特征向量的正面影响较大,应加以利用。
计算输入的实体a与其邻域实体序列Nseq中全部实体的匹配分数Scorei:
Scorei=ReLU(W[Na;Ni]) (7)
其中W为注意力机制中的权重矩阵;Na为实体a的特征向量;Ni为实体a的邻域实体序列中的第i个实体的特征向量;[Na;Ni]是对两个向量做拼接,这两个特征向量都是在邻域拓扑结构特征张量或者实体当前的综合特征向量中获得的。ReLU为线性整流函数,是注意力机制中对中间结果的非线性变换。
其次,根据Scorei,求得注意力机制下实体a的邻域实体序列Nseq内全部实体对实体a的影响权重系数αi:
其中,n表示实体a的邻域实体序列中实体的总数。
步骤6.2:判断实体是否存在综合特征向量,若否,则使用邻域拓扑结构特征张量与权重系数αi生成实体的综合特征向量,若是,则根据实体当前的综合特征向量与权重系数αi生成实体新的综合特征向量,对实体的综合特征向量进行更新。
实体的综合特征向量hf包含每个实体的综合特征向量,每个实体的综合特征向量按照公式(9)求解:
其中,hfa表示任一实体a的综合特征向量;n表示实体a的邻域实体序列中实体的总数;αi为权重系数;W2是注意力机制中的另一个权重矩阵;Ni来自实体的邻域拓扑结构特征张量N或实体的综合特征向量hf,表示N或hf中实体a的邻域实体序列中的第i个实体所对应的第3阶向量;
步骤7:利用对齐实体对集合P调整实体的综合特征向量hf。
步骤7.1:为对齐实体对集合P中的每组实体对做负采样操作,得到负采样集合NS。
该步骤接收来自步骤4的对齐实体对集合P和来自步骤6的实体的综合特征向量hf。为对齐实体对集合P中的每组实体对pos进行至少1次的负采样操作。负采样操作是随机用医疗知识图谱中的其他实体替换实体对中的其中一个实体。例如对齐实体对(“百日咳”,“顿咳”),会得到一个随机的负采样结果neg(“百日咳”,“鸟疫”)。对于一个实体对pos,本实施方式进行5次负采样,得到5个负采样实体对neg。5个负采样实体对neg构成实体对pos的负采样集合NS。
步骤7.2:根据负采样集合NS,计算当前的实体的综合特征向量hf的准确度Loss。
在该步骤中,利用在步骤7.1中得到的负采样集合NS,使用公式(10)计算当前的实体综合特征向量hf的准确度:
在公式(10)中,(e1,e2)代表的是在对齐实体对集合P中的一个对齐实体对;NS(e1)是对实体对(e1,e2)中e1随机用医疗知识图谱中的其他实体替换的负采样操作之后得到的负采样集合,(e1neg,e2)为该负采样集合中的一个负采样实体对;NS(e2)代表的是随机用医疗知识图谱中的其他实体替换实体对(e1,e2)中e2的负采样操作之后得到的负采样集合,(e1,e2neg)为该负采样集合中的一个负采样实体对;γ是一个预设的正整数,本实施方式中设为1。[]+表示中括号内的计算结果若小于0,则结果取0。公式(9)的目的是使对齐实体对的实体综合特征向量更相似。Loss越大越说明暂时的实体综合特征向量不满足最终的需求。
步骤7.3:反向传播Loss结果。
本方法期待Loss的计算结果接近0。当Loss不等于0时,将Loss的值视为误差。本实施方式利用求导的方法,将Loss的值传递回实体当前的综合特征向量hf和步骤6中的权重矩阵W、W2,进行调整。
步骤8:按照与步骤3相同的方法,根据调整后的每个实体的综合特征向量,计算待融合的一个医疗知识图谱中各实体与另一个医疗知识图谱中各实体相互之间的相似度,从而生成综合相似度矩阵。
使用公式(4)对两个医疗知识图谱中的全部实体计算双向匹配的综合相似度。例如来自医疗知识图谱1和医疗知识图谱2的实体a和实体b。输入公式的B是实体b的综合特征向量。输入公式的A是实体a的综合特征向量。最终求得的similarity表示实体a与实体b的综合相似度。通过计算图谱1与图谱2中实体的双向匹配的余弦相似度构建综合相似度矩阵Sa和Sb。Sa是图谱1向图谱2匹配而得到的相似度矩阵,Sb是图谱2向图谱1匹配而得到的相似度矩阵。本实施例中得到的Sa为:
步骤9:根据综合相似度矩阵找出对齐的实体对,并把新得到的对齐实体对加入对齐实体对集合P。
按照与步骤5相同的规则,得到新的对齐实体对,并把新得到的对齐实体对加入对齐实体对集合P。
步骤10:返回步骤6,且重复执行步骤6至步骤9进行迭代计算,直至达到迭代停止条件,例如,对齐实体对集合P中不再增加新的对齐实体对或者对齐实体对集合P中的对齐实体对的准确率达到预定的要求,则停止迭代,得到最终的对齐实体对集合P。
步骤11:根据最终的对齐实体对集合P将两个医疗知识图谱进行融合。
为了方便描述,本步骤中将两个待融合的医疗知识图谱分别简称为图谱a和图谱b。将图谱b的三元组信息中所有在P中出现的实体用与其对齐的实体代替。例如,对于对齐实体对(“百日咳”,“顿咳”),将图谱b中的实体“顿咳”替换为“百日咳”。此时,两个知识图谱之间已经没有歧义现象,直接将图谱b的全部三元组加入图谱a中,若遇到重复的三元组,则直接跳过加入操作。最终得到的图谱a的三元组信息为两医疗知识图谱的融合结果。
本实例中,通过实验对比验证了本发明基于多阶邻域注意力网络的无监督知识图谱融合方法及装置的有效性和可行性。最终结果的准确率高达97.286%。本发明方法及装置明显优于使用翻译模型的方法和使用图卷积神经网络的方法。本发明方法及装置最大的优势是不需要人工标注过程,极大节省人力成本的开销;其次,能够捕获实体名称信息和实体描述信息的语义特征,使得形成的实体初始特征向量包含语义和语法方面的丰富信息。同时,可以有效克服不同语言构成的医疗知识图谱对融合过程的影响;同时考虑一个实体二阶邻域内的全部相关信息,有效克服了不同知识存储结构构建的医疗知识图谱对融合过程的影响;使用注意力机制过滤影响较大的噪声实体,缓解了噪声问题对医疗知识图谱融合造成的严重影响。
应当理解的是,本领域技术人员在本发明技术构思的启发下,在不脱离本发明内容的基础上,可以根据上述说明做出各种改进或变换,这仍落在本发明的保护范围之内。
Claims (8)
1.一种基于多阶邻域注意力网络的无监督知识图谱融合方法,其特征在于,包括如下步骤:
步骤1:获取待融合的两个医疗知识图谱,并从待融合的两个医疗知识图谱中获取所需的数据,包括实体名称信息、实体描述信息和三元组信息;
步骤2:根据获得的实体名称信息和实体描述信息,计算得到每个实体的初始特征向量;
步骤3:根据实体的初始特征向量,通过余弦相似度算法计算待融合的一个医疗知识图谱中各实体与另一个医疗知识图谱中各实体相互之间的相似度,从而得到相似度矩阵;
步骤4:根据相似度矩阵找出待融合的两个医疗知识图谱的对齐实体对,并将对齐实体对添加到对齐实体对集合中;
步骤5:根据实体的初始特征向量和待融合的两个医疗知识图谱的三元组信息,得到实体的邻域拓扑结构特征张量;
步骤6:判断实体是否存在综合特征向量,若否,则根据邻域拓扑结构特征张量生成实体的综合特征向量,若是,则根据实体当前的综合特征向量生成实体新的综合特征向量,对实体的综合特征向量进行更新;
步骤7:利用对齐实体对集合调整实体的综合特征向量;
步骤8:按照与步骤3相同的方法,根据调整后的每个实体的综合特征向量,计算待融合的一个医疗知识图谱中各实体与另一个医疗知识图谱中各实体相互之间的相似度,从而得到综合相似度矩阵;
步骤9:根据综合相似度矩阵找出对齐的实体对,并把新得到的对齐实体对加入对齐实体对集合;
步骤10:返回步骤6,且重复执行步骤6至步骤9进行迭代计算,直至达到迭代停止条件,得到最终的对齐实体对集合;
步骤11:根据最终的对齐实体对集合将两个医疗知识图谱进行融合;
所述步骤5包括如下具体步骤:
步骤5.1:根据从待融合的两个医疗知识图谱中获取的三元组信息和实体的初始特征向量,生成由每个实体的二阶邻域内全部的其他实体所构成的邻域拓扑结构特征张量;
步骤5.2:将实体的邻域拓扑结构特征张量送入前馈神经网络FNN,得到实体的最终的邻域拓扑结构特征张量。
2.根据权利要求1所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,其特征在于,步骤4中所述的根据相似度矩阵找出待融合的两个医疗知识图谱的对齐实体对的方法为:首先假设相似度矩阵S1中的每一行代表图谱1中的某一实体a与图谱2中的全部实体的相似度,相似度矩阵S2中的每一行代表图谱2中的某一实体b与图谱1中的全部实体的相似度;然后对S1和S2的每一行做归一化处理;再然后根据相似度矩阵归一化处理后的结果,找出待融合的两个医疗知识图谱的对齐实体对:在相似度矩阵归一化处理后的结果中实体a所对应的行里找到数值最大的元素v1,该元素所在列对应的实体b则视为与实体a最相似实体;在相似度矩阵归一化处理后的结果中实体b所对应的行里找到数值最大的元素v2,若该元素所在列对应的实体刚好是实体a,并且v1和v2都大于0.500,则认为实体a与实体b是对齐实体对。
3.根据权利要求1所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,其特征在于,所述步骤5.1包括如下具体步骤:
步骤5.1.1:分别从待融合的两个医疗知识图谱的三元组信息中找到每一实体的邻域拓扑结构特征,得到每一实体的邻域集合;
步骤5.1.2:根据每一实体的邻域集合构建每一实体的邻域实体序列Nseq和邻域标记向量Nmark;
步骤5.1.3:利用从步骤2中获得的实体的初始特征向量替换邻域实体序列,再将邻域标记向量嵌入,最终构成实体的邻域拓扑结构特征张量。
4.根据权利要求3所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,其特征在于,步骤5.1.1中所述的找到每一实体的邻域拓扑结构特征得到每一实体的邻域集合的方法为:在构建任一实体a的二阶邻域时,从三元组信息中找到所有包含当前实体a的三元组,将这些三元组中除了实体a以外的另一个实体加入实体a的一阶邻域集合;
对于得到的实体a的一阶邻域集合,分别在三元组信息中查找所有包含该集合中的所有实体b的三元组,将这些三元组中除了实体a和实体b以外的另一个实体加入实体a的二阶邻域集合。
7.根据权利要求6所述的基于多阶邻域注意力网络的无监督知识图谱融合方法,其特征在于,步骤7.2中所述的根据负采样集合NS计算实体当前的综合特征向量的准确度的方法为:利用在步骤7.1中得到的负采样集合NS,使用公式(10)计算实体当前的综合特征向量的准确度:
8.一种基于多阶邻域注意力网络的无监督医疗知识图谱融合装置,其特征在于,包括:
数据采集模块,用于获取待融合的两个医疗知识图谱;从待融合的两个医疗知识图谱中获取所需的数据,包括实体名称信息、实体描述信息和三元组信息;将获取的数据均发送给实体对齐模块;
实体对齐模块,用于从数据采集模块获取所需的数据进行实体对齐,并将对齐实体对集合输出给知识融合模块;
知识融合模块,用于接收对齐实体对集合,并按照该对齐实体对集合对两个医疗知识图谱的实体进行融合;
所述实体对齐模块进一步包括:
语义嵌入模块,用于接收数据采集模块输入的待融合的两个医疗知识图谱中的实体名称信息和实体描述信息,根据接收的信息数据获取每个实体的含有实体的语义特征的初始特征向量,并将每个实体的初始特征向量同时发送给图注意力嵌入模块和对齐预测模块;
对齐预测模块,用于接收语义嵌入模块输入的全部实体的初始特征向量和逐次接收图注意力嵌入模块多次输入的实体的综合特征向量依次对实体的综合特征向量进行更新;分别通过对比实体的初始特征向量的相似性和对比每次输入的实体的综合特征向量的相似性来预测任一两实体之间是对齐实体对的概率,进而得到相似度矩阵并将其发送给对齐实体对增广模块,矩阵的行列分别为两个医疗知识图谱中的实体,矩阵中每个元素代表了对应行列所代表的实体之间的相似度;
对齐实体对增广模块,用于逐次接收对齐预测模块多次输入的相似度矩阵;根据每次输入的相似度矩阵得到确信是正确的对齐实体对,且把这些对齐实体对加入到对齐实体对集合并将每次更新的对齐实体对集合发送给图注意力嵌入模块,而将最后一次更新的对齐实体对集合发送给知识融合模块;
图注意力嵌入模块,用于接收数据采集模块输入的待融合的两个医疗知识图谱中的三元组信息;接收语义嵌入模块发送的每一实体的初始特征向量;根据从待融合的两个医疗知识图谱中获取的三元组信息和实体的初始特征向量,生成由每个实体的二阶邻域内全部的其他实体所构成的邻域拓扑结构特征张量;逐次接收对齐实体对增广模块多次输入的对齐实体对集合;将实体的邻域拓扑结构特征张量送入前馈神经网络FNN,在当前实体的初始特征向量的基础上加入当前实体的邻域拓扑结构特征,得到实体的最终的邻域拓扑结构特征张量,生成实体当前的综合特征向量;在实体当前的综合特征向量基础上逐次更新实体的综合特征向量;将每次更新的综合特征向量发送给对齐预测模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110138232.3A CN112784065B (zh) | 2021-02-01 | 2021-02-01 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110138232.3A CN112784065B (zh) | 2021-02-01 | 2021-02-01 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112784065A CN112784065A (zh) | 2021-05-11 |
CN112784065B true CN112784065B (zh) | 2023-07-14 |
Family
ID=75760317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110138232.3A Active CN112784065B (zh) | 2021-02-01 | 2021-02-01 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784065B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641826B (zh) * | 2021-06-29 | 2024-03-26 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
CN113626612B (zh) * | 2021-08-13 | 2024-10-18 | 第四范式(北京)技术有限公司 | 一种基于知识图谱推理的预测方法和系统 |
CN114564597B (zh) * | 2022-03-03 | 2024-09-17 | 上海工程技术大学 | 一种融合多维度多信息的实体对齐方法 |
CN114942998B (zh) * | 2022-04-25 | 2024-02-13 | 西北工业大学 | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 |
CN115934970B (zh) * | 2023-02-27 | 2023-06-02 | 中南大学 | 一种基于多视图可视化的交互式实体对齐方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268581A (zh) * | 2017-07-14 | 2018-07-10 | 广东神马搜索科技有限公司 | 知识图谱的构建方法及装置 |
CN110413704A (zh) * | 2019-06-27 | 2019-11-05 | 浙江大学 | 基于加权邻居信息编码的实体对齐方法 |
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
WO2020143184A1 (zh) * | 2019-01-11 | 2020-07-16 | 平安科技(深圳)有限公司 | 知识融合方法、装置、计算机设备和存储介质 |
CN112037920A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗知识图谱构建方法、装置、设备及存储介质 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
-
2021
- 2021-02-01 CN CN202110138232.3A patent/CN112784065B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108268581A (zh) * | 2017-07-14 | 2018-07-10 | 广东神马搜索科技有限公司 | 知识图谱的构建方法及装置 |
WO2020143184A1 (zh) * | 2019-01-11 | 2020-07-16 | 平安科技(深圳)有限公司 | 知识融合方法、装置、计算机设备和存储介质 |
CN110413704A (zh) * | 2019-06-27 | 2019-11-05 | 浙江大学 | 基于加权邻居信息编码的实体对齐方法 |
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112037920A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗知识图谱构建方法、装置、设备及存储介质 |
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
Non-Patent Citations (3)
Title |
---|
Neighborhood-Aware Attentional Representation for Multilingual Knowledge Graphs;Qiannan Zhu 等;Proceedings of the Twenty-Eighth Inter national Joint Conference on Ar tificial Intelligence (IJCAI-19);1943-1949 * |
知识图谱技术综述;徐增林 等;电子科技大学学报;第45卷(第04期);589-606 * |
融合实体描述及类型的知识图谱表示学习方法;杜文倩 等;中文信息学报;第34卷(第07期);50-59 * |
Also Published As
Publication number | Publication date |
---|---|
CN112784065A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784065B (zh) | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 | |
CN110334219B (zh) | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 | |
CN111666427B (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN107833629A (zh) | 基于深度学习的辅助诊断方法及系统 | |
CN113051399B (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN112765370B (zh) | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN110765791A (zh) | 机器翻译自动后编辑方法及装置 | |
CN112579792B (zh) | 一种基于pgat和ftatt的远程监督关系抽取方法 | |
CN111309930B (zh) | 一种基于表示学习的医学知识图谱实体对齐方法 | |
CN113221571B (zh) | 基于实体相关注意力机制的实体关系联合抽取方法 | |
CN110674642B (zh) | 一种用于含噪稀疏文本的语义关系抽取方法 | |
CN113704415B (zh) | 医学文本的向量表示生成方法和装置 | |
CN111767723A (zh) | 一种基于bic的中文电子病历实体标注方法 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
LU503098B1 (en) | A method and system for fused subspace clustering based on graph autoencoder | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN115730585A (zh) | 文本纠错及其模型训练方法、装置、存储介质及设备 | |
CN114282001A (zh) | 基于文本的任务处理方法、装置、计算机设备及存储介质 | |
CN113901813A (zh) | 一种基于主题特征和隐式句子结构的事件抽取方法 | |
CN116562275B (zh) | 一种结合实体属性图的自动文本摘要方法 | |
CN116738992B (zh) | 基于图注意力网络和字词融合的医疗命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |