CN112765370A - 知识图谱的实体对齐方法、装置、计算机设备和存储介质 - Google Patents
知识图谱的实体对齐方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112765370A CN112765370A CN202110333360.3A CN202110333360A CN112765370A CN 112765370 A CN112765370 A CN 112765370A CN 202110333360 A CN202110333360 A CN 202110333360A CN 112765370 A CN112765370 A CN 112765370A
- Authority
- CN
- China
- Prior art keywords
- alignment
- entity
- knowledge
- model
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012545 processing Methods 0.000 claims abstract description 227
- 238000012549 training Methods 0.000 claims abstract description 167
- 238000009795 derivation Methods 0.000 claims description 165
- 239000013598 vector Substances 0.000 claims description 77
- 230000002159 abnormal effect Effects 0.000 claims description 21
- 238000007499 fusion processing Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 19
- 238000005457 optimization Methods 0.000 claims description 19
- 230000005856 abnormality Effects 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 12
- 208000024891 symptom Diseases 0.000 claims description 9
- 230000008439 repair process Effects 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 201000005019 Chlamydia pneumonia Diseases 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 16
- 208000030773 pneumonia caused by chlamydia Diseases 0.000 description 16
- 206010035673 Pneumonia chlamydial Diseases 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 206010026865 Mass Diseases 0.000 description 5
- 206010035664 Pneumonia Diseases 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 206010019233 Headaches Diseases 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 3
- 206010028813 Nausea Diseases 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 231100000869 headache Toxicity 0.000 description 3
- 230000008693 nausea Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000241 respiratory effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000282465 Canis Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 208000037656 Respiratory Sounds Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 206010037833 rales Diseases 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及人工智能领域,具体涉及一种知识图谱的实体对齐方法、装置、计算机设备和存储介质。所述方法包括:获取待处理的至少两个知识图谱,并确定第一对齐子模型和第二对齐子模型;基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型,得到当前轮次成功配对的配对实体对集合;根据配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;通过当前轮次训练得到的第二对齐子模型,对至少两个知识图谱进行多维度图谱嵌入处理,输出当前轮次的对齐处理结果;将下一轮次作为当前轮次进行迭代处理,直至达到第一停止条件时停止,得到与至少两个知识图谱对应的实体对齐结果。采用本方法可以提升知识图谱的对齐效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种知识图谱的实体对齐方法、装置、计算机设备和存储介质。
背景技术
随着科学技术的发展,出现了知识图谱技术,知识图谱是描述实体以及实体之前关系的必要基础,而知识图谱对齐技术则是快速工程化搭建知识图谱的重要利器。知识图谱对齐旨在判断两个或多个不同知识图谱中是否存在指向真实世界中的同一个对象的实体,如果存在,则在这些实体之间构建对齐关系,从而基于对齐关系融合多个知识图谱,形成完整的、知识覆盖更广的知识图谱。
传统技术中,可以通过预训练的神经网络对知识图谱进行实体对齐处理。然而,在基于预训练的神经网络对知识图谱进行实体对齐处理之前,往往需要依赖知识图谱专业人员对至少两个知识图谱中相同的实体进行标注处理,得到包含有标注标签的训练样本,并通过训练样本对待训练的实体对齐模型进行训练。其中,整个标注过程耗时耗力,从而导致知识图谱的对齐效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升知识图谱对齐效率的知识图谱的实体对齐方法、装置、计算机设备和存储介质。
一种知识图谱的实体对齐方法,所述方法包括:
获取待处理的至少两个知识图谱,并确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型;
基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合;
根据所述配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;
通过当前轮次训练得到的第二对齐子模型,对所述至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果;
将所述当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回所述基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与所述至少两个知识图谱对应的实体对齐结果。
在一个实施例中,每个所述知识图谱包括至少一个知识多元组,所述知识多元组包括头实体、尾实体、以及所述头实体和所述尾实体之间的实体参考关系;
所述基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合,包括:
基于所述知识多元组,并通过所述第一对齐子模型确定每个所述实体参考关系各自对应的函数性;所述函数性表征了在头实体已确定的情况下,基于所述实体参考关系确定对应尾实体的概率;
基于所述第二对齐子模型前个轮次输出的对齐处理结果和每个所述实体参考关系各自对应的函数性,通过所述第一对齐子模型对待处理的知识图谱进行至少一次的概率推导,并根据最后一次概率推导所得到的概率推导结果,得到当前轮次成功配对的配对实体对集合。
在一个实施例中,基于所述第二对齐子模型前个轮次输出的对齐处理结果和每个所述实体参考关系各自对应的函数性,通过所述第一对齐子模型对待处理的知识图谱进行至少一次的概率推导,并根据最后一次概率推导所得到的概率推导结果,得到当前轮次成功配对的配对实体对集合,包括:
确定所述第二对齐子模型前个轮次输出的对齐处理结果;
通过所述第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率;其中,所述第一对齐子模型在一个当前轮次中发生多次推导迭代;
根据前个轮次输出的对齐处理结果、所述函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,通过所述第一对齐子模型进行当次的概率推导,输出当次推导迭代所对应的实体对齐概率;其中,每两个实体参考关系和每两个实体分别来源于不同的知识图谱;
通过所述第一对齐子模型,根据所述函数性和所述当次推导迭代所对应的实体对齐概率,确定当次推导迭代所对应的关系对齐概率;
进入所述当前轮次中下次的推导迭代过程,并将所述下次的推导迭代作为当次推导迭代,返回所述通过所述第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率的步骤继续执行,直至达到第二停止条件时停止,得到最后一次概率推导所得到的最终实体对齐概率;
根据所述最终实体对齐概率,确定当前轮次成功配对的配对实体对集合。
在一个实施例中,对于当前轮次的多次推导迭代中的首次推导迭代过程,相应的前次推导迭代所输出的关系对齐概率为所述第一对齐子模型前个轮次输出的最终实体对齐概率,相应的前次推导迭代所输出的实体对齐概率为所述第一对齐子模型前个轮次输出的最终关系对齐概率。
在一个实施例中,所述方法还包括:
对于多个轮次中的首个轮次,基于所述待处理的至少两个知识图谱,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到首个轮次成功配对的配对实体对集合;
通过所述首个轮次成功配对的配对实体对集合对所述第二对齐子模型进行有监督训练,并通过首个轮次训练得到的第二对齐子模型,对所述知识图谱进行多维度图谱嵌入处理,输出首个轮次的对齐处理结果。
一种知识图谱的实体对齐装置,所述装置包括:
图谱获取模块,用于获取待处理的至少两个知识图谱。
模型获取模块,用于确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型。
迭代处理模块,用于基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合;根据所述配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;通过当前轮次训练得到的第二对齐子模型,对所述至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果;将所述当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回所述基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与所述至少两个知识图谱对应的实体对齐结果。
在一个实施例中,每个所述知识图谱包括至少一个知识多元组,所述知识多元组包括头实体、尾实体、以及所述头实体和所述尾实体之间的实体参考关系;所述迭代处理模块还包括第一处理模块,用于基于所述知识多元组,并通过所述第一对齐子模型确定每个所述实体参考关系各自对应的函数性;所述函数性表征了在头实体已确定的情况下,基于所述实体参考关系确定对应尾实体的概率;基于所述第二对齐子模型前个轮次输出的对齐处理结果和每个所述实体参考关系各自对应的函数性,通过所述第一对齐子模型对待处理的知识图谱进行至少一次的概率推导,并根据最后一次概率推导所得到的概率推导结果,得到当前轮次成功配对的配对实体对集合。
在一个实施例中,所述第一处理模块还用于确定所述第二对齐子模型前个轮次输出的对齐处理结果;通过所述第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率;其中,所述第一对齐子模型在一个当前轮次中发生多次推导迭代;根据前个轮次输出的对齐处理结果、所述函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,通过所述第一对齐子模型进行当次的概率推导,输出当次推导迭代所对应的实体对齐概率;其中,每两个实体参考关系和每两个实体分别来源于不同的知识图谱;通过所述第一对齐子模型,根据所述函数性和所述当次推导迭代所对应的实体对齐概率,确定当次推导迭代所对应的关系对齐概率;进入所述当前轮次中下次的推导迭代过程,并将所述下次的推导迭代作为当次推导迭代,返回所述通过所述第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率的步骤继续执行,直至达到第二停止条件时停止,得到最后一次概率推导所得到的最终实体对齐概率;根据所述最终实体对齐概率,确定当前轮次成功配对的配对实体对集合。
在一个实施例中,所述对齐处理结果包括所述知识图谱中的每个实体各自对应的图谱嵌入向量;所述第一处理模块还用于确定前个轮次输出对齐处理结果中的每两个图谱嵌入向量之间的相似度;根据所述每两个图谱嵌入向量之间的相似度、所述函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,输出当次推导迭代所对应的实体对齐概率。
在一个实施例中,所述迭代处理模块还包括第二处理模块,用于对于所述配对实体对集合中的多个配对实体对,均确定每个配对实体对所包括的实体之间的语义相似度;根据每个配对实体对所包括的实体之间的语义相似度,对所述配对实体对集合中的实体对进行一致性筛选,得到相似实体对;通过筛选得到的所述相似实体对,对当前轮次的第二对齐子模型进行有监督训练。
在一个实施例中,所述知识图谱包括至少一个知识多元组;所述知识多元组包括头实体、尾实体、以及所述头实体和所述尾实体之间的实体参考关系;所述实体参考关系包括相关关系和属性关系;所述第二处理模块还用于根据所述知识多元组所包括的实体,对所述第二对齐子模型中的编码结构进行第一训练;根据所述知识多元组中的相关关系,对所述第二对齐子模型中的关系嵌入结构进行第二训练;根据所述知识多元组中的属性关系,对所述第二对齐子模型中的属性嵌入结构进行第三训练;根据所述配对实体对集合,对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练;综合通过第一训练的编码结构、通过优化训练的关系嵌入结构和通过优化训练的属性嵌入结构,得到当前轮次训练好的第二对齐子模型。
在一个实施例中,所述第二处理模块还用于对于知识图谱中的每个知识多元组,在当前知识多元组包括有所述配对实体对集合中的第一目标实体时,根据所述配对实体对集合确定与所述第一目标实体相配对的第二目标实体;将所述第二目标实体替换所述当前知识多元组中的第一目标实体,得到重组知识多元组,并确定所述重组知识多元组为真实的知识多元组的真实概率;当所述当前知识多元组中的实体参考关系为相关关系时,朝着最大化所述真实概率方向,对通过第二训练的关系嵌入结构进行优化训练;当所述当前知识多元组中的实体参考关系为属性关系时,朝着最大化所述真实概率方向,对通过第三训练的属性嵌入结构进行优化训练。
在一个实施例中,当所述知识多元组属于第一类别时,相对应的实体参考关系为相关关系,当所述知识多元组属于第二类别时,相对应的实体参考关系为属性关系;所述第二处理模块还用于通过当前轮次训练得到的第二对齐子模型中的编码结构,对所述知识多元组中的头实体进行编码处理,得到头实体的名称嵌入结果;通过所述当前轮次训练得到的第二对齐子模型中的关系嵌入结构,对属于第一类别的知识多元组中的实体和相关关系进行第一编码融和处理,得到相应头实体的关系嵌入结果;通过所述当前轮次训练得到的第二对齐子模型中的属性嵌入结构,对属于第二类别的知识多元组中的尾实体和属性关系进行第二编码融合处理,得到相应头实体的属性嵌入结果;对于每个知识多元组,将所对应的关系嵌入结果或属性嵌入结果,与相应头实体所对应的名称嵌入结果进行融合,得到相应知识多元组中的头实体所对应的图谱嵌入向量;根据各头实体所对应的图谱嵌入向量,确定每两个头实体之间的相似性,并根据所述每两个头实体之间的相似性,输出当前轮次的对齐处理结果。
在一个实施例中,所述迭代处理模块还用于确定实体对齐结果为通过最后轮次训练得到的第一对齐子模型输出的成功配对的配对实体对集合;或者,确定所述实体对齐结果为通过最后轮次训练得到的第二对齐子模型输出的对齐处理结果中成功配对的相同实体。
在一个实施例中,知识图谱的实体对齐装置还包括融合模块,用于根据与所述至少两个知识图谱对应的实体对齐结果,确定所述至少两个知识图谱中的相同实体;基于所述相同实体,对所述至少两个知识图谱进行图谱融合处理,得到融合知识图谱。
在一个实施例中,知识图谱的实体对齐装置待处理的至少两个知识图谱均属于医疗领域的医学知识图谱;每个所述医学知识图谱均包括至少一个知识多元组,所述知识多元组包括头实体、尾实体、以及所述头实体和所述尾实体之间的相关关系或属性关系,所述相关关系包括检查方式、从属关系、异常修复关系、临床症状、相关异常种类、异常标签和异常部位中的至少一种;所述属性关系包括异常率、异常识别科室中的至少一种。
在一个实施例中,知识图谱的实体对齐装置900待处理的至少两个知识图谱包括通用医学知识图谱和专用医学知识图谱;所述通用医学知识图谱来源于通用医疗领域;所述专用医学知识图谱来源于从属于所述通用医疗领域中的其中一个专用领域。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理的至少两个知识图谱,并确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型;
基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合;
根据所述配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;
通过当前轮次训练得到的第二对齐子模型,对所述至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果;
将所述当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回所述基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与所述至少两个知识图谱对应的实体对齐结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待处理的至少两个知识图谱,并确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型;
基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合;
根据所述配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;
通过当前轮次训练得到的第二对齐子模型,对所述至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果;
将所述当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回所述基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与所述至少两个知识图谱对应的实体对齐结果。
一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上以下步骤:
获取待处理的至少两个知识图谱,并确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型;
基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合;
根据所述配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;
通过当前轮次训练得到的第二对齐子模型,对所述至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果;
将所述当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回所述基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与所述至少两个知识图谱对应的实体对齐结果。
上述知识图谱的实体对齐方法、装置、计算机设备、存储介质和计算机程序,通过获取待处理的至少两个知识图谱和第二对齐子模型前个轮次输出的对齐处理结果,可基于第二对齐子模型前个轮次输出的对齐处理结果启动第一对齐子模型,以基于第一对齐子模型输出当前轮次的配对实体对集合。通过获取当前轮次的配对实体对集合,可基于当前轮次的配对实体对集合对第二对齐子模型进行有监督训练,如此,便能基于当前轮次训练完成的第二对齐子模型输出对齐处理结果。通过交替启动第一对齐子模型和第二对齐子模型,可逐步提升所输出的配对实体对集合和对齐处理结果的准确性,从而得到更为准确的实体对齐结果。由于第一对齐子模型为无监督模型,以及可基于第一对齐子模型输出的配对实体对集合对第二对齐子模型进行有监督训练,因此,本申请无需提前对知识图谱中的对齐的实体进行标注,从而大大提升了实体对齐的效率。
附图说明
图1为一个实施例中知识图谱的实体对齐方法的应用环境图;
图2为一个实施例中知识图谱的实体对齐方法的流程示意图;
图3为一个实施例中第一对齐子模型的结构示意图;
图4为一个实施例中第二对齐子模型的结构示意图;
图5为一个实施例中知识图谱融合的示意图;
图6为一个具体实施例中知识图谱的实体对齐方法的流程图;
图7为另一个具体实施例中知识图谱的实体对齐方法的流程图;
图8为一个实施例中知识图谱的实体对齐的整体框架图;
图9为一个实施例中知识图谱的实体对齐装置的结构框图;
图10为另一个实施例中知识图谱的实体对齐装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中描述知识图谱的实体对齐方法的应用环境图。参照图1,该知识图谱的实体对齐方法应用于知识图谱的实体对齐系统100。该知识图谱的实体对齐系统100包括终端102和服务器104。终端102和服务器104可协同用于执行本申请的知识图谱的实体对齐方法,也可单独用于执行本申请的知识图谱的实体对齐方法。比如,终端102可将待对齐的至少两个知识图谱发送至服务器102,由服务器102执行知识图谱的实体对齐方法,得到与至少两个知识图谱对应的实体对齐结果,再将实体对齐结果返回至终端102,由终端102对应展示。终端102也可在获取待对齐的至少两个知识图谱后,执行知识图谱的实体对齐方法。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
还需要说明的是,本申请涉及人工智能(Artificial Intelligence, AI)技术领域,其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请具体涉及人工智能领域中的自然语言处理(Nature Languageprocessing, NLP)和机器学习技术(Machine Learning, ML)。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请还涉及区块链,计算机设备通过区块链存储实体对齐结果、待处理的至少两个知识图谱、以及基于实体对齐结果进行图谱融合后得到的融合知识图谱中的至少一种。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
应该理解的是,本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。除非上下文另外清楚地指出,否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。
在一个实施例中,如图2所示,提供了一种知识图谱的实体对齐方法,以该方法应用于计算机设备为例进行说明,该计算机设备具体可以为图1中的终端或服务器,包括以下步骤:
步骤S202,获取待处理的至少两个知识图谱,并确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型。
其中,知识图谱指的是一张语义网络图,其旨在描述真实世界中存在的各种实体或概念及其关系。实体指的是现实世界中具有可区别性且独立存在的某种事物,例如,人名、地名游戏名称等。知识图谱可以包括多个节点和边,节点表示实体或概念,连接节点的边则由属性关系或者参考关系构成。
基于知识图谱中节点与边的关系,知识图谱中节点和边的逻辑组织形式可以知识多元组的形式来体现。知识多元组对应知识图谱中的两个节点以及两个节点之间的边,知识多元组的基本形式主要包括(实体1-实体参考关系-实体2)。其中,实体参考关系包括相关关系和属性关系,相关关系指的是实体在一定条件下具有的性质,例如,当知识多元组的基本形式为(实体1-相关关系-实体2)时,对应的知识多元组即可为(衣原体肺炎,临床检查,胸部平片)。属性关系指的是实体本身固有的、不随外部条件变化而变化的特性,例如,当知识多元组的基本形式为(实体1-属性关系-实体2(属性值))时,对应的知识多元组即可为(衣原体肺炎,就诊科室,呼吸内科)。
实体对齐指的是确定不同知识图谱中的指向真实世界中的同一个对象的实体的过程。
具体地,当需要执行知识图谱对齐任务时,计算机设备可获取待处理的至少两个知识图谱,以及确定用以对知识图谱进行处理的第一对齐子模型和第二对齐子模型。其中,第一对齐子模型为概率推理模型,该模型具有强解释性和逻辑性,可通过逻辑推导和概率计算来确定实体间对齐的概率。第二对齐子模型为基于深度学习的神经网络模型,该神经网络模型可通过样本的学习以具备图谱嵌入的能力,从而基于图谱嵌入结果确定知识图谱中对齐的实体。
在一个实施例中,至少两个知识图谱可同属于同一来源或者来源于不同来源。例如,第一知识图谱和第二知识图谱均可来源于A百科,或者,第一知识来源于A百科、第二知识图谱来源于B搜索库。
在一个实施例中,所获取的至少两个知识图谱可为大规模的异构知识图谱。
在一个实施例中,所获取的至少两个知识图谱可为颗粒度不同的知识图谱。示例性的,第一知识图谱可为具有粗颗粒度的来源于通用医学领域的通用医学知识图谱,例如医疗知识图谱;第二知识图谱可为具有细颗粒度的来源于专用医学领域的专用医学知识图谱,例如癌症知识图谱。
在一个实施例中,在医疗领域场景下,计算机设备可以获取待处理医疗文本,进而可对该待处理医疗文本进行分词处理得到医疗分词。其中,该待处理医疗文本可以来自网络爬取或者一些外部知识图谱来源(例如,CN-DBpedia等)。进一步地,计算机设备可对所得到的医疗分词进行解析处理(例如,词性标注、语法解析、依存分析、实体识别、实体连接、关系抽取以及事件抽取等),以确定医疗分词之间的关联关系,并根据关联关系得到相应的医学知识图谱。
步骤S204,基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型,以对至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合。
其中,第一对齐子模型和第二对齐子模型可交替对待处理的至少两个知识图谱进行对齐处理,直至得到最终的实体对齐结果。因此,本申请中的“一个轮次”用于描述一次迭代中第一对齐子模型和第二对齐子模型对知识图谱进行对齐处理的过程,而“多个轮次”则用于描述多次迭代中第一对齐子模型和第二对齐子模型对知识图谱进行对齐处理的过程。
配对实体集合中包括至少一个的配对实体对,一个配对实体对可包括多于一个的实体,同一配对实体对所包含的实体均为指向真实世界中的同一个对象。
具体地,在当前轮次过程中,计算机设备获取第二对齐子模型在前个轮次输出的对齐处理结果,并将该对齐处理结果和待处理的至少两个知识图谱输入至第一对齐子模型,由第一对齐子模型确定知识图谱中的实体,并根据第二对齐子模型在前个轮次输出的对齐处理结果,对知识图谱中的实体进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合,也即得到待处理的至少两个知识图谱中的相同实体。其中,第二对齐子模型在前个轮次输出的对齐处理结果用于辅助第一对齐子模型进行逻辑推导,得到成功配对的配对实体对。
在一个实施例中,每个知识图谱包括至少一个知识多元组,知识多元组包括头实体、尾实体、以及头实体和尾实体之间的实体参考关系;基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型,以对至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合,包括:基于知识多元组,并通过第一对齐子模型确定每个实体参考关系各自对应的函数性;函数性表征了在头实体已确定的情况下,基于实体参考关系确定对应尾实体的概率;基于第二对齐子模型前个轮次输出的对齐处理结果和每个实体参考关系各自对应的函数性,通过第一对齐子模型对待处理的知识图谱进行至少一次的概率推导,并根据最后一次概率推导所得到的概率推导结果,得到当前轮次成功配对的配对实体对集合。
具体地,第一对齐子模型可以为一个基于概率估计和推导的、进行无监督实体对齐的模型。参考图3,第一对齐子模型包括实体对齐结构和关系对齐结构,通过实体对齐结构,可确定知识图谱中的每两个实体之间的实体对齐概率;通过关系对齐结构,可确定知识图谱中的每两个实体参考关系之间的关系对齐概率。第一对齐子模型在一个当前轮次中可发生多次推导迭代。在一个轮次中,第一对齐子模型会先确定知识图谱中的每两个实体之间的实体对齐概率,然后根据每两个实体之间的实体对齐概率,确定每两个实体参考关系之间关系对齐概率,再基于关系对齐概率更新实体对齐概率,基于更新后的实体对齐概率,更新关系对齐概率,如此循环,直至模型收敛,得到当前轮次成功配对的实体对集合。容易理解地,本申请将通过实体对齐结构进行概率推导以得到当次推导迭代所对应的实体对齐概率、和通过关系对齐结构进行概率推导以得到当次推导迭代所对应的实体对齐概率的过程,称作一次推导迭代。图3示出了一个实施例中第一对齐子模型的结构示意图。
在一次推导迭代的过程中,计算机设备通过知识图谱中的节点与边之间的联系,确定对应的知识多元组,并根据知识多元组确定每个实体参考关系各自对应的函数性。其中,函数性描述了给定头实体的情况下,实体参考关系多大程度上能够确定尾实体。进一步地,第一对齐子模型中的实体对齐结构,可根据第二对齐子模型在前个轮次输出的对齐处理结果和每个实体参考关系各自对应的函数性,确定知识图谱中每两个实体之间的实体对齐概率,并将所确定的实体对齐概率输入至关系对齐结构中,由关系对齐结构基于实体对齐概率输出每两个实体参考关系之间的关系对齐概率。
在其中一个实施例中,第一对齐子模型可通过以下公式,确定函数性:
步骤S206,根据配对实体对集合对当前轮次的第二对齐子模型进行有监督训练。
具体地,在当前轮次中,当获取得到第一对齐子模型输出的成功配对的配对实体配对集合时,可将配对实体对集合作为作为知识图谱的标签,并基于标签和对应的知识图谱对第二对齐子模型进行有监督训练,得到当前轮次训练好的第二对齐子模型。
在一个实施例中,第二对齐子模型可对输入的知识图谱进行多维度图谱嵌入处理,得到预测图谱嵌入结果,并基于预测的图谱嵌入结果,输出预测对齐处理结果。进一步地,计算机设备确定配对实体对集合与预测对齐处理结果之间的差异,并朝着最小化差异的方向调整第二对齐子模型,直至第二对齐子模型收敛。
步骤S208,通过当前轮次训练得到的第二对齐子模型,对至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果。
其中,图谱嵌入指的是将实体和实体参考关系同时编码到低维向量空间中。知识图谱的特征有许多,包括结构信息、实体参考关系、实体名称及描述等。目前的实体对齐方法仅仅只利用了其中部分特征,没有将这些特征全部利用起来,而有效利用全部特征能够提高模型的准确率和稳定性,因此,为了全面利用知识图谱中的特征,本实施例对至少两个知识图谱进行多维度的图谱嵌入处理。
其中,多维度图谱嵌入包括在文本维度对知识图谱进行图谱嵌入处理、在关系维度对知识图谱进行图谱嵌入处理、和在属性维度对知识图谱进行图谱嵌入处理。在文本维度对知识图谱进行图谱嵌入处理指的是,将知识图谱中的实体所对应的字符编码到低维向量空间中;在关系维度对知识图谱进行图谱嵌入处理指的是,基于知识多元组中的相关关系将知识图谱中的实体编码到低维向量空间中;在属性维度对知识图谱进行图谱嵌入处理指的是,基于知识多元组中的属性关系将知识图谱中的实体编码到低维向量空间中。
具体地,当获取得到当前轮次训练好的第二对齐子模型时,计算机设备可将待处理的至少两个知识图谱输入至该第二对齐子模型中,通过该第二对齐子模型对知识图谱中的实体进行文本维度的图谱嵌入处理,得到文本维度的名称嵌入结果;对知识图谱中的实体进行关系维度的图谱嵌入处理,得到关系维度的关系嵌入结果;以及对知识图谱中的实体进行属性维度的图谱嵌入处理,得到属性维度的属性嵌入结果。进一步地,第二对齐子模型综合各实体各自对应的名称嵌入结果、关系嵌入结果和属性嵌入结果,得到各实体各自对应的图谱嵌入向量,并根据图谱嵌入向量之间的相似性,得到当前轮次的对齐处理结果。
在一个实施例中,计算机设备可通过以下公式,对知识图谱中的实体进行文本维度的图谱嵌入处理,得到名称嵌入结果:
其中,代表实体h的名称嵌入结果,即实体h在文本维度的向量;为实体h所对应的名称,也即实体h所对应的字符串;表示n个记号(token)的文本,Oi表示的第i个记号;代表对Oi进行文本维度的图谱嵌入处理,当Oi为单词时,可基于词汇嵌入查询函数对Oi进行编码处理,得到对应的词向量,当Oi为字符时可基于字符查询函数对Oi进行编码处理,得到对应的字符向量。
其中,词汇嵌入查询函数和字符查询函数可预先通过知识图谱训练而得,字符查询函数具体可以为Skip-Gram 模型。
在一个实施例中,计算机设备可从知识图谱的结构信息出发,对知识图谱的实体和参考关系进行嵌入。计算机设备假设正常情况下,尾实体的向量等于相关关系的向量加上头实体的向量,因此计算机设备可通过以下公式,对知识图谱中的实体进行关系维度的图谱嵌入处理,得到关系嵌入结果:
其中,表示实体h的关系嵌入结果,即为知识多元组中的实体h在关系维度的向量;表示实体t的关系嵌入结果,即为知识多元组中的实体t在关系维度的向量;r表示相关关系在关系维度的向量;||.||表示曼哈顿距离或欧几里距离。
第二对齐子模型包括TransE结构,第二对齐子模型可将知识多元组输入至TransE结构,通过TransE结构确定头实体的向量、相关关系的向量和尾实体的向量,并基于头实体的向量、相关关系的向量和尾实体的向量,确定头实体的参考维度嵌入结果。
第二对齐子模型分别对属性关系和属性值进行编码处理,得到具有相同长度的属性关系的向量和属性值的向量。第二对齐子模型对属性关系的向量和属性值的向量进行拼接,得到矩阵,并使用卷积神经网络对进行非线性映射,得到实体h在属性维度的属性结果。
在一个实施例中,参考图4,第二对齐子模型包括编码结构、关系嵌入结构和实体嵌入结构,通过编码结构、关系嵌入结构和实体嵌入结构,可输出名称嵌入结果、关系嵌入结果或属性嵌入结果。第二对齐子模型对同一实体的名称嵌入结果、关系嵌入结果或属性嵌入结果进行加权求和处理,得到该实体的图谱嵌入向量,并根据各图谱嵌入向量之间的相似度,确定对齐的实体。图4示出了一个实施例中第二对齐子模型的结构示意图。
步骤S210,将当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与至少两个知识图谱对应的实体对齐结果。
具体地,当获取得到当前轮次第二对齐子模型输出的对齐处理结果时,计算机设备进入下一轮次的实体对齐处理,将当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与至少两个知识图谱对应的实体对齐结果。
在一个实施例中,第一停止条件包括但不限于是:1.产生的配对实体对的数量不再增加;2.第一对齐子模型已收敛无法继续训练,也就是第一对齐子模型在当前轮次输出的实体对齐概率和关系对齐概率与前一轮次输出的实体对齐概率和关系对齐概率相同;3.第二对齐子模型的性能不再提升。
在一个实施例中,实体对齐结果为通过最后轮次训练得到的第一对齐子模型输出的成功配对的配对实体对集合;或者,实体对齐结果为通过最后轮次训练得到的第二对齐子模型输出的对齐处理结果中成功配对的相同实体。
具体地,当达到第一停止条件时,计算机设备获取最终轮次第一对齐子模型输出的成功配对的配对实体对集合,并将配对实体对集合中的配对实体对作为至少两个知识图谱中的指向同一对象的实体,从而得到与至少两个知识图谱对应的实体对齐结果。示例性的,当配对实体对包括“沙眼衣原体肺炎”和“衣原体肺炎”时,计算机设备可确定至少两个知识图谱中的“沙眼衣原体肺炎”和“衣原体肺炎”为对齐的实体。
在其中一个实施例中,第二对齐子模型输出的对齐处理结果包括成功配对的配对实体对。当达到第一停止条件时,计算机设备根据最终轮次第二对齐子模型输出的配对实体对,确定至少两个知识图谱中的指向同一对象的相同实体,并将相同实体作为与至少两个知识图谱对应的实体对齐结果。
在其中一个实施例中,当达到第一停止条件时,计算机设备还可综合第一对齐子模型在当前轮次输出的配对实体对集合、以及第二对齐子模型在当前轮次输出的对齐处理结果,得到与至少两个知识图谱对应的实体对齐结果。当获取得到当前轮次输出的配对实体对集合和当前轮次输出的对齐处理结果时,计算机设备对当前轮次输出的配对实体对集合和当前轮次输出的对齐处理结果进行一致性判断,将第一对齐子模型和第二对齐子模型均输出的配对实体对作为与至少两个知识图谱对应的实体对齐结果。
上述实施例中,由于是将第一对齐子模型输出的成功配对的配对实体对集合作为与至少两个知识图谱对应的实体对齐结果,因此提升了实体对齐结果的确定效率。
通过综合第一对齐子模型输出的配对实体对集合和第二对齐子模型输出的对齐处理结果,来确定对应的实体对齐结果,可提升实体对齐结果的准确性。
基于深度学习的实体对齐方法,往往是采用纯神经网络模型来确定知识图谱中的对齐的实体。由于纯神经网络模型可看作黑盒模型,而黑盒模型一般缺乏很好的可解释性,然而又由于知识图谱有很强的推理能力,一些简单的概率计算无法在神经网络模型中体现,从而造成基于深度学习的方法会输出看起来很简单的错误。并且,基于深度学习的实体对齐方法由于知识图谱不完整、知识颗粒度不一致等问题,会无法学习到准确的图谱嵌入(embedding),因此会造成大量的错误匹配。
基于概率推理的方法虽然有很强的可解释性和逻辑性,但由于其缺少对于知识图谱的图结构信息的建模,导致其很难利用图结构信息进行实体对齐,而图结构信息已经被证明了是有益于实体对齐任务的,因此仅基于概率推理的方法也很难达到令人满意的性能。
本申请将深度学习的方法和概率推理的方法进行深度融合,以共同解决知识图谱对齐任务。本申请中的知识图谱对齐框架可以同时对齐两个大规模异构知识图谱间的实体,同时用图谱嵌入和概率计算交替迭代地计算知识图谱间的等价关系,达到优于两者单独使用的性能。
上述知识图谱的实体对齐方法中,通过获取待处理的至少两个知识图谱和第二对齐子模型前个轮次输出的对齐处理结果,可基于第二对齐子模型前个轮次输出的对齐处理结果启动第一对齐子模型,以基于第一对齐子模型输出当前轮次的配对实体对集合。通过获取当前轮次的配对实体对集合,可基于当前轮次的配对实体对集合对第二对齐子模型进行有监督训练,如此,便能基于当前轮次训练完成的第二对齐子模型输出对齐处理结果。通过交替启动第一对齐子模型和第二对齐子模型,可逐步提升所输出的配对实体对集合和对齐处理结果的准确性,从而得到更为准确的实体对齐结果。由于第一对齐子模型为无监督模型,以及可基于第一对齐子模型输出的配对实体对集合对第二对齐子模型进行有监督训练,因此,本申请无需提前对知识图谱中的对齐的实体进行标注,从而大大提升了实体对齐的效率。
在一个实施例中,基于第二对齐子模型前个轮次输出的对齐处理结果和每个实体参考关系各自对应的函数性,通过第一对齐子模型对待处理的知识图谱进行至少一次的概率推导,并根据最后一次概率推导所得到的概率推导结果,得到当前轮次成功配对的配对实体对集合,包括:确定第二对齐子模型前个轮次输出的对齐处理结果;通过第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率;其中,第一对齐子模型在一个当前轮次中发生多次推导迭代;根据前个轮次输出的对齐处理结果、函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,通过第一对齐子模型进行当次的概率推导,输出当次推导迭代所对应的实体对齐概率;其中,每两个实体参考关系和每两个实体分别来源于不同的知识图谱;通过第一对齐子模型,根据函数性和当次推导迭代所对应的实体对齐概率,确定当次推导迭代所对应的关系对齐概率;进入当前轮次中下次的推导迭代过程,并将下次的推导迭代作为当次推导迭代,返回通过第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率的步骤继续执行,直至达到第二停止条件时停止,得到最后一次概率推导所得到的最终实体对齐概率;根据最终实体对齐概率,确定当前轮次成功配对的配对实体对集合。
具体地,第一对齐子模型在一个当前轮次中可发生多次推导迭代,在一个当次推导迭代中可能对知识图谱中的知识多元组进行实体对齐概率推导和关系对齐概率推导。对于一个轮次的多次推导迭代,第一对齐子模型获取第二对齐子模型在前个轮次输出的对齐处理结果,以及获取自身在当前轮次中进行前次推导迭代所输出的实体对齐概率和关系对齐概率。第一对齐子模型根据前个轮次输出的对齐处理结果、实体参考关系的函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率进行当次的概率推导,输出当次推导迭代所对应的实体对齐概率,和当次推导迭代所对应的关系对齐概率。第一对齐子模型根据当次推导迭代所对应的关系对齐概率,确定下次推导迭代所对应的实体对齐概率,根据下次推导迭代所对应的实体对齐概率,确定下次推导迭代所对应的关系对齐概率。如此迭代循环,直至达到第二停止条件时停止,得到最终次迭代输出的实体对齐概率,也即得到最终实体对齐概率。
进一步地,第一对齐子模型确定最终实体对齐概率大于预设概率阈值的实体对,并将所确定的实体对作为配对实体对。例如,当“沙眼衣原体肺炎”与“衣原体肺炎”之间的实体对齐概率为90%,大于预设概率阈值80%,则第一对齐子模型将沙眼衣原体肺炎”和“衣原体肺炎”作为一对成功配对的配对实体对。
其中,和G分别代表两个不同的知识图谱(由知识多元组构成);e和y代表G中的实体,和代表中的实体,e和y来源于同一知识多元组,对应的,和也来源于同一知识多元组;代表G中的实体参考关系;代表中的实体参考关系;A代表第二对齐子模型在前个轮次对e进行多维度图谱嵌入处理,得到的图谱嵌入向量;B代表第二对齐子模型在前个轮次对进行多维度图谱嵌入处理,得到的图谱嵌入向量;sim()代表相似度计算;代表的逆函数,也可称作逆函数性。
容易理解的,当G知识图谱中的知识多元组为(),知识图谱中的知识多元组为()时,第一对齐子模型中的实体对齐结构可基于上述公式,计算与之间的实体对齐概率。其中,与可认为是知识多元组中的头实体,也可认为是知识多元组中的尾实体。
在其中一个实施例中,在实体参考关系r所对应的知识多元组()和()中,当h与对齐的概率越高、且t与对齐的概率越高时,r为,因此,第一对齐子模型中的关系对齐结构可通过以下公式,确定两个实体参考关系的关系对齐概率:
在其中一个实施例中,第二对齐子模型输出的对齐处理结果可包括配对实体对,对于一个轮次中的首次推导迭代过程,计算机设备可基于对齐处理结果中的配对实体对来确定的概率,例如,当y与为配对实体对时,可将的概率设置为1,反之,则将的概率设置为0。又例如,在两个知识多元组()、()中,由于当y与为配对实体对,与的字符相同时,与对齐的概率较高,因此,可将的概率设置为1,反之则设置为0.1。
在其中一个实施例中,对于当前轮次的多次推导迭代中的首次推导迭代过程,相应的前次推导迭代所输出的关系对齐概率为第一对齐子模型前个轮次输出的最终实体对齐概率,相应的前次推导迭代所输出的实体对齐概率为第一对齐子模型前个轮次输出的最终关系对齐概率。
对于当前轮次的多次推导迭代中的首次推导迭代过程,第一对齐子模型获取自身在前个轮次输出的最终实体对齐概率和最终关系对齐概率,并将最终实体对齐概率作为当前轮次中的前次推导迭代所输出的实体对齐概率,将最终关系对齐概率作为当前轮次中的前次推导迭代所输出的关系对齐概率。
在其中一个实施例中,对于多个轮次中的首个轮次,基于待处理的至少两个知识图谱,启动第一对齐子模型,以对至少两个知识图谱进行对齐概率推导处理,得到首个轮次成功配对的配对实体对集合;通过首个轮次成功配对的实体对集合对第二对齐子模型进行有监督训练,并通过首个轮次训练得到的第二对齐子模型,对知识图谱进行多维度图谱嵌入处理,输出首个轮次的对齐处理结果。
对于多个轮次中的首个轮次,计算机设备基于待处理的知识图谱启动第一对齐子模型。其中,对于首个轮次中的首次推导迭代,在计算实体对齐概率时,第一对齐子模型将每两个实体参数关系之间的关系对齐概率设置为一个预设值,例如为0.1,并根据实体所对应的字符之间的相似性确定对应实体对齐概率,例如,当两个实体的字符一致时,则将这两个实体之间的实体对齐概率设置为1,反之则设置为0。
上述实施例中,通过进行至少一次的概率推导,可逐步提升所输出的实体对齐概率和关系对齐概率的准确性,从而使得最终输出的实体对齐概率和关系对齐概率更为准确。
在一个实施例中,对齐处理结果包括知识图谱中的每个实体各自对应的图谱嵌入向量;根据前个轮次输出的对齐处理结果、函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,通过第一对齐子模型进行当次的概率推导,输出当次推导迭代所对应的实体对齐概率,包括:确定前个轮次输出对齐处理结果中的每两个图谱嵌入向量之间的相似度;根据每两个图谱嵌入向量之间的相似度、函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,输出当次推导迭代所对应的实体对齐概率。
其中,图谱嵌入向量指的是对相应名称嵌入结果、关系嵌入结果或属性嵌入结果进行向量融合处理而得到的向量。
具体地,对齐处理结果包括知识图谱中的每个实体各自对应的图谱嵌入向量。第一对齐子模型可根据每两个图谱嵌入向量之间的相似度、函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,输出当次推导迭代所对应的实体对齐概率。
在其中一个实施例中,第一对齐子模型可通过下述公式确定两个图谱嵌入向量之间的相似度:
上述实施例中,通过确定图谱嵌入向量之间的相似性,可基于相似性辅助实体对齐概率的逻辑推导,从而使得所确定的实体对齐概率更为准确。
在一个实施例中,根据配对实体对集合对当前轮次的第二对齐子模型进行有监督训练,包括:对于配对实体对集合中的多个配对实体对,均确定每个配对实体对所包括的实体之间的语义相似度;根据每个配对实体对所包括的实体之间的语义相似度,对配对实体对集合中的实体对进行一致性筛选,得到相似实体对;通过筛选得到的相似实体对,对当前轮次的第二对齐子模型进行有监督训练。
具体地,当获取得到配对实体对集合时,计算机设备可对配对实体对集合中的配对实体对进行一致性筛选。计算机设备通过预训练的映射矩阵对配对实体对中的集合进行线性映射处理,得到相应的映射向量,并根据所确定的映射向量,确定配对实体对所包括的实体之间的语义相似度。例如,计算机设备可通过CSLS(Word translation withoutparallel data)算法确定实体之间的语义相似度。进一步地,当配对实体对中的实体之间的语义相似度高于相似度阈值时,可认为该配对实体对所包括的实体相同的概率较高,因此,计算机设备可确定语义相似度高于相似度阈值的配对实体对,并将语义相似度高于相似度阈值的配对实体对作为相似实体对,通过相似实体对来对当前轮次的第二对齐子模型进行有监督训练。
举例说明,在双向实体对齐时,可能会出现A对齐到A’,但是A’对齐到B,B对齐到B’这样的情况,因此,计算机设备可以通过一致性算法CSLS筛选保留A对齐到A’和B对齐到B’的情况,得到相似实体对(A,A’)和(B B’)。
本实施例中,通过通过一致性算法对配对实体对集合中的配对实体对进行一致性筛选,可以得到实体对齐概率更高的相似实体对,从而基于相似实体对训练而得的第二对齐子模型可以更为准确。
在一个实施例中,知识图谱包括至少一个知识多元组;知识多元组包括头实体、尾实体、以及头实体和尾实体之间的实体参考关系;实体参考关系包括相关关系和属性关系;根据配对实体对集合对当前轮次的第二对齐子模型进行有监督训练,包括:根据知识多元组所包括的实体,对第二对齐子模型中的编码结构进行第一训练;根据知识多元组中的相关关系,对第二对齐子模型中的关系嵌入结构进行第二训练;根据知识多元组中的属性关系,对第二对齐子模型中的属性嵌入结构进行第三训练;根据配对实体对集合,对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练;综合通过第一训练的编码结构、通过优化训练的关系嵌入结构和通过优化训练的属性嵌入结构,得到当前轮次训练好的第二对齐子模型。
其中,第二对齐子模型可包括有编码结构、关系嵌入结构和属性嵌入结构,通过编码结构,可对知识多元组中的实体进行文本维度的图谱嵌入处理,得到名称嵌入结果;通过关系嵌入结构,可对知识多元组中的实体进行关系维度的图谱嵌入处理,得到关系嵌入结果;通过属性嵌入结构,可对知识多元组中的实体进行属性维度的图谱嵌入,得到属性嵌入结果。
具体地,编码结构可为一个自编码器,计算机设备可通过知识多元组所包括的实体对编码结构进行第一训练,得到当前轮次训练好的编码结构。进一步地,当知识多元组为第一类别时,也即当知识多元组中的实体参考关系为相关关系时,计算机设备通过属于第一类别的知识多元组中的相关关系,对关系嵌入结构进行第二训练,得到当前轮次训练好的关系嵌入结构。当知识多元组为第二类别时,也即当知识多元组中的实体参考关系为属性关系时,计算机设备通过属于第二类别的知识多元组中的属性关系,对属性嵌入结构进行第三训练,得到当前轮次训练好的属性嵌入结构。
进一步地,计算机设备获取当前轮次第一对齐子模型输出的配对实体对集合,并根据配对实体对集合,对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练,将通过第一训练的编码结构、通过优化训练的关系嵌入结构和通过优化训练的属性嵌入结构,作为当前轮次训练好的第二对齐子模型。
在其中一个实施例中,关系嵌入结构具体可以为转换模型(例如,TransEembedding),TransE模型可通过公式对包含有相关关系的知识元组进行建模。应当理解,对于通过相关关系进行建模而得的,该TransE模型的损失函数可对应如下:
在其中一个实施例中,属性嵌入结构具体可以为一个卷积神经网络结构,通过该卷积神经网络结构可从知识多元组中的属性和属性值中提取出实体特征。其中,经卷积神经网络结构所得到的结果可如公式:。从而通过该公式所确定的损失函数可为:
计算机设备根据上述损失函数对第二对齐子模型中的属性嵌入结构进行第三训练,从而得到当前轮次训练好的属性嵌入结构。
上述实施例中,通过分别对编码结构、关系嵌入结构和属性嵌入结构进行训练,以及通过配对实体对集合,对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练,使得训练后的第二对齐子模型输出的对齐处理结果能够更为准确。
在一个实施例中,配对实体对集合中的每个配对实体对包括有配对成功的第一实体和第二实体,根据配对实体对集合,对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练,包括:对于知识图谱中的每个知识多元组,在当前知识多元组包括有配对实体对集合中的第一目标实体时,根据配对实体对集合确定与第一目标实体相配对的第二目标实体;将第二目标实体替换当前知识多元组中的第一目标实体,得到重组知识多元组,并确定重组知识多元组为真实的知识多元组的真实概率;当当前知识多元组中的实体参考关系为相关关系时,朝着最大化真实概率方向,对通过第二训练的关系嵌入结构进行优化训练;当当前知识多元组中的实体参考关系为属性关系时,朝着最大化真实概率方向,对通过第三训练的属性嵌入结构进行优化训练。
具体地,为了描述方便,本申请将配对实体对所包括的其中一个实体称作第一实体,另一个实体称作第二实体。由于对于知识图谱 G 中的知识多元组 (h,r,t),若已知 t与 t' 为配对实体对的,则 (h,r,t') 有极大的概率在知识图谱G' 中出现,因此,计算机设备确定当前知识元组是否包括配对实体对集合中的第一实体,若当前知识元组是否包括配对实体对集合中的第一实体,则将该第一实体称作第一目标实体。计算机设备从配对实体对集合中筛选出与该第一目标实体相配对的第二目标实体,并将第二目标实体替换当前知识元组中的第一目标实体,得到重组知识多元组。例如,在当前知识多元组为 (h,r,t),且t 与 t' 为配对实体对时,计算机设备将t'替换当前知识多元组中的t,得到重组知识多元组(h,r,t')。
进一步地,计算机设备确定重组知识多元组为真实的知识多元组的真实概率,并在当前知识多元组中的实体参考关系为相关关系时,朝着最大化真实概率方向,对通过第二训练的关系嵌入结构进行优化训练;在当前知识多元组中的实体参考关系为属性关系时,朝着最大化真实概率方向,对通过第三训练的属性嵌入结构进行优化训练。
在一个实施例中,计算机设备可以构建如下对齐损失函数,来最大化重组知识多元组成立的概率:
其中,表示实体的关系嵌入结果;表示实体的关系嵌入结果;r表示相关关系的向量;||.||表示曼哈顿距离或欧几里距离。同理,当r为属性关系时,也可通过将上述公式中的更换为,更换为,将更换为,将更换为来构造对属性嵌入结构进行优化训练的损失函数L4。其中,、、和是通过关系嵌入结构对、、和进行编码而得;、、和是通过属性嵌入结构、、和进行编码而得。
计算机设备通过上述损失函数L3和L4对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练,从而得到当前轮次优化训练好的关系嵌入结构和属性嵌入结构。
上述实施例中,通过对关系嵌入结构和属性嵌入结构进行优化训练,使得优化训练后的关系嵌入结构和属性嵌入结构功能能获知实体对齐的特性,从而使得第二对齐子模型输出的对齐处理结果更为准确。此外,通过优化训练,使得第二对齐子模型输出的实体对齐结果能够与第一对齐子模型输出的配对实体对集合相对应。
在一个实施例中,每个知识图谱包括至少一个知识多元组,知识多元组包括头实体、尾实体、以及头实体和尾实体之间的实体参考关系,当知识多元组属于第一类别时,相对应的实体参考关系为相关关系,当知识多元组属于第二类别时,相对应的实体参考关系为属性关系;通过当前轮次训练得到的第二对齐子模型,对至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果,包括:通过当前轮次训练得到的第二对齐子模型中的编码结构,对知识多元组中的头实体进行编码处理,得到头实体的名称嵌入结果;通过当前轮次训练得到的第二对齐子模型中的关系嵌入结构,对属于第一类别的知识多元组中的实体和相关关系进行第一编码融和处理,得到相应头实体的关系嵌入结果;通过当前轮次训练得到的第二对齐子模型中的属性嵌入结构,对属于第二类别的知识多元组中的尾实体和属性关系进行第二编码融合处理,得到相应头实体的属性嵌入结果;对于每个知识多元组,将所对应的关系嵌入结果或属性嵌入结果,与相应头实体所对应的名称嵌入结果进行融合,得到相应知识多元组中的头实体所对应的图谱嵌入向量;根据各头实体所对应的图谱嵌入向量,确定每两个头实体之间的相似性,并根据每两个头实体之间的相似性,输出当前轮次的对齐处理结果。
其中,第一类别的知识元组指的是知识元组中的实体参考关系为相关关系;第二类别的知识元组指的是知识元组中的实体参考关系为属性关系。
具体地,第二对齐子模型可通过编码结构对知识多元组中的头实体进行编码处理,得到头实体的名称嵌入结果;可通过关系嵌入结构对属于第一类别的同一知识多元组中的实体和相关关系进行第一编码融和处理,得到该知识多元组中的头实体的关系嵌入结果。示例性的,第二对齐子模型可通过公式进行第一编码融和处理,以确定关系嵌入结果。
进一步地,第二对齐子模型可通过属性嵌入结构,对属于第二类别的同一知识多元组中的尾实体和属性关系进行第二编码融合处理,得到相应头实体的属性嵌入结果。示例性的,第二对齐子模型可通过公式进行第二编码融合处理,得到属性嵌入结果。
对于每个知识多元组,第二对齐子模型将属于同一头实体的名称嵌入结果、关系嵌入结果进行融和,例如进行加权求和,或者将属于同一头实体的名称嵌入结果、属性嵌入结果进行融和,从而得到头实体所对应的图谱嵌入向量。第二对齐子模型确定每两个头实体之间的相似性,并将相似性大于预设相似性预知的头实体作为配对成功的配对实体对,从而输出当前轮次的对齐处理结果。
本实施例中,通过对实体进行多维度的图谱嵌入,可根据多维度的图谱嵌入结果输出更为准确的对齐处理结果。
在一个实施例中,上述知识图谱中的实体对齐方法还包括:根据与至少两个知识图谱对应的实体对齐结果,确定至少两个知识图谱中的相同实体;基于相同实体,对至少两个知识图谱进行图谱融合处理,得到融合知识图谱。
具体地,计算机设备根据与至少两个知识图谱对应的实体对齐结果,确定来源于不同知识图谱的指向真实世界中的同一对象的头实体,并将所确定的指向真实世界中的同一对象的头实体作为至少两个知识图谱中的相同实体。计算机设备确定至少两个知识图谱中的基准知识图谱,并根据相同实体,将至少两个知识图谱中的其余知识图谱融合至基准知识图谱中,得到融合知识图谱。
示例性的,当A知识图谱与B知识图谱如图5所示,且A知识图谱中的“沙眼衣原体肺炎”与B知识图谱中的“衣原体肺炎”为相同实体时,计算机设备将A知识图谱与B知识图谱进行融合,得到C知识图谱。图5示出了一个实施例中,知识图谱融合的示意图。
上述实施例中,通过对知识图谱进行融合处理,可以得到更为完整、信息量更为丰富的融合知识图谱。
在一个实施例中,计算机设备还可根据与至少两个知识图谱对应的实体对齐结果训练知识图谱表示学习模型。其中,知识图谱表示学习模型用于将知识图谱中离散型数据表示的元素,转化为连续数值型的向量表示。基于转换得到的低维稠密的向量表示并结合深度学习模型等复杂模型,可以解决具体领域的具体问题。例如,在反欺诈应用场景,可基于知识图谱所描绘的医疗社保关系分析和预测用户的欺诈可能性。
在一个实施例中,待处理的至少两个知识图谱均属于医疗领域的医学知识图谱;每个医学知识图谱均包括至少一个知识多元组,知识多元组包括头实体、尾实体、以及头实体和尾实体之间的相关关系或属性关系,相关关系包括检查方式、从属关系、异常修复关系、临床症状、相关异常种类、异常标签和异常部位中的至少一种;所述属性关系包括异常率、异常识别科室中的至少一种。
具体地,待处理的知识图谱可为从医疗文本中提取出的医学知识图谱,每个医学知识图谱中均可包括至少一个的知识多元组。其中,知识多元组包括头实体、尾实体、以及头实体和尾实体之间的相关关系或属性关系。相关关系包括检查方式(例如,(“衣原体肺炎”,“临床检查”,“胸部啰音”)中的临床检查)、从属关系(例如,(“衣原体肺炎”,“下位词,“肺炎性假瘤”)中的下位词)、异常修复关系(例如,(“衣原体肺炎”,“治疗药物”,“肺炎性假瘤”)中的治疗药物)、临床症状(例如,(“衣原体肺炎”,“典型症状”,“肺炎性假瘤”)中的典型症状)、及相关异常种类(例如,(“衣原体肺炎”,“相关疾病”,“肺炎性假瘤”)中的相关疾病)、异常标签(例如,(“衣原体肺炎”,“标签”,“疾病”)中的标签)、异常部位(例如,(“衣原体肺炎”,“发病部位”,“肺炎性假瘤”)中的发病部位)中的至少一种。属性关系包括异常率(例如,(“衣原体肺炎”,“发病率”,“30%”)中的发病率)、异常识别科室(例如,(“衣原体肺炎”,“就诊科室”,“呼吸内科”)中的就诊科室)中的至少一种
本实施例中,通过获取属于医疗领域的医学知识图谱,可基于医学知识图谱中的实体、属性关系和相关关系,确定至少两个医学知识图谱中的相同实体。
在一个实施例中,至少两个医用知识图谱包括通用医学知识图谱和专用医学知识图谱;通用医学知识图谱来源于通用医疗领域;专用医学知识图谱来源于从属于通用医疗领域中的其中一个专用领域。
具体地,至少两个医用知识图谱分别为通用医学知识图谱和专用医学知识图谱。其中,通用医学知识图谱指的是来源于从属于通用医疗领域的医学知识图谱。专用医学知识图谱指的是来源于从属于通用医疗领域中的其中一个专用领域的知识图谱,例如为癌症领域的医学知识图谱。
本实施例中,通用医学知识图谱为粗颗粒度的知识图谱,专用医学知识图谱为细颗粒度的知识图谱。通过获取颗粒度不同的知识图谱,可将颗粒度不同的知识图谱进行对齐处理,从而得到相应的实体对齐结果。
在一个具体的实施例中,如图6所示,本申请提供的知识图谱的实体对齐方法包括以下步骤:
S602,获取待处理的至少两个知识图谱,并确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型;每个知识图谱包括至少一个知识多元组,知识多元组包括头实体、尾实体、以及头实体和尾实体之间的实体参考关系。
S604,基于知识多元组,并通过第一对齐子模型确定每个实体参考关系各自对应的函数性;函数性表征了在头实体已确定的情况下,基于实体参考关系确定对应尾实体的概率。
S606,确定第二对齐子模型前个轮次输出的对齐处理结果,以及获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率。
S608,确定前个轮次输出对齐处理结果中的每两个图谱嵌入向量之间的相似度;根据每两个图谱嵌入向量之间的相似度、函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,输出当次推导迭代所对应的实体对齐概率;并根据函数性和当次推导迭代所对应的实体对齐概率,确定当次推导迭代所对应的关系对齐概率。
S610,进入当前轮次中下次的推导迭代过程,并将下次的推导迭代作为当次推导迭代,返回通过第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率的步骤继续执行,直至达到第二停止条件时停止,得到最后一次概率推导所得到的最终实体对齐概率。
S612,根据最终实体对齐概率,确定当前轮次成功配对的配对实体对集合。
S614,根据配对实体对集合对当前轮次的第二对齐子模型进行有监督训练。
S616,通过当前轮次训练得到的第二对齐子模型中的编码结构,对知识多元组中的头实体进行编码处理,得到头实体的名称嵌入结果。
S618,通过当前轮次训练得到的第二对齐子模型中的关系嵌入结构,对属于第一类别的知识多元组中的实体和相关关系进行第一编码融和处理,得到相应头实体的关系嵌入结果。
S620,通过当前轮次训练得到的第二对齐子模型中的属性嵌入结构,对属于第二类别的知识多元组中的尾实体和属性关系进行第二编码融合处理,得到相应头实体的属性嵌入结果。
S622,对于每个知识多元组,将所对应的关系嵌入结果或属性嵌入结果,与相应头实体所对应的名称嵌入结果进行融合,得到相应知识多元组中的头实体所对应的图谱嵌入向量;根据各头实体所对应的图谱嵌入向量,确定每两个头实体之间的相似性,并根据每两个头实体之间的相似性,输出当前轮次的对齐处理结果。
S624,将当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与至少两个知识图谱对应的实体对齐结果。
上述知识图谱的实体对齐方法中,通过获取待处理的至少两个知识图谱和第二对齐子模型前个轮次输出的对齐处理结果,可基于第二对齐子模型前个轮次输出的对齐处理结果启动第一对齐子模型,以基于第一对齐子模型输出当前轮次的配对实体对集合。通过获取当前轮次的配对实体对集合,可基于当前轮次的配对实体对集合对第二对齐子模型进行有监督训练,如此,便能基于当前轮次训练完成的第二对齐子模型输出对齐处理结果。通过交替启动第一对齐子模型和第二对齐子模型,可逐步提升所输出的配对实体对集合和对齐处理结果的准确性,从而得到更为准确的实体对齐结果。由于第一对齐子模型为无监督模型,以及可基于第一对齐子模型输出的配对实体对集合对第二对齐子模型进行有监督训练,因此,本申请无需提前对知识图谱中的对齐的实体进行标注,从而大大提升了实体对齐的效率。
在另一个具体实施例中,如图7所示,本申请提供的知识图谱的实体对齐方法包括以下步骤:
S702,获取待处理的至少两个知识图谱,并确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型;待处理的至少两个知识图谱均属于医疗领域的医学知识图谱,且至少两个医用知识图谱包括通用医学知识图谱和专用医学知识图谱;通用医学知识图谱来源于通用医疗领域;专用医学知识图谱来源于从属于通用医疗领域中的其中一个专用领域。
S704,基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型,以对至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合。
S706,根据知识多元组所包括的实体,对第二对齐子模型中的编码结构进行第一训练;根据知识多元组中的相关关系,对第二对齐子模型中的关系嵌入结构进行第二训练;根据知识多元组中的属性关系,对第二对齐子模型中的属性嵌入结构进行第三训练。
S708,根据配对实体对集合,对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练。
S710,综合通过第一训练的编码结构、通过优化训练的关系嵌入结构和通过优化训练的属性嵌入结构,得到当前轮次训练好的第二对齐子模型。
S712,通过当前轮次训练得到的第二对齐子模型,对至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果。
S714,将当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与至少两个知识图谱对应的实体对齐结果;实体对齐结果为通过最后轮次训练得到的第一对齐子模型输出的成功配对的配对实体对集合;或者,实体对齐结果为通过最后轮次训练得到的第二对齐子模型输出的对齐处理结果中成功配对的相同实体。
S716,根据与至少两个知识图谱对应的实体对齐结果,确定至少两个知识图谱中的相同实体。
S718,基于相同实体,对至少两个知识图谱进行图谱融合处理,得到融合知识图谱。
本申请还提供一种应用场景,该应用场景应用上述的知识图谱的实体对齐方法。具体地,该知识图谱的实体对齐方法在该应用场景的应用如下:
参考图8,图8示出了一个实施例中知识图谱的实体对齐的整体框架图。如图所示,对于医疗领域,当给定两个医学知识图谱(G和G')时,计算机设备可将这两个医学知识图谱输入至第一对齐子模型中。由于第一对齐子模型可以通过属性值的文本相似性来启动,因而此时无需给定对齐样本。之后,在当前轮次中,第一对齐子模型会交替迭代计算实体对齐概率和关系对齐概率,直至第一对齐子模型收敛并输出当前轮次成功配对的配对实体对集合。
计算机设备将成功配对的配对实体对集合当作深度学习模型的训练集,并对训练集进行一致性筛选,将筛选后的训练集作为第二对齐子模型模型的训练样本。第二对齐子模型模型可利用训练样本进行模型参数的调整,直至第二对齐子模型模型在训练样本上收敛,得到当前轮次训练好的第二对齐子模型。
计算机设备可通过当前轮次训练好的第二对齐子模型对至少两个医学知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果。第二对齐子模型将当前轮次的对齐处理结果返回至第一对齐子模型。以启动下一轮次的对齐处理。在之后轮次中,由于可将第二对齐子模型预测的对齐处理结果补充给第一对齐子模型,然后重新启动第一对齐子模型,因此,第一对齐子模型中的部分概率计算值会被第二对齐子模型的对齐处理结果重置,如此就可以使得第一对齐子模型继续训练而非收敛。
遵循上述步骤,第一对齐子模型和第二对齐子模型会轮流训练,在若干个轮次之后,如果满足第一停止条件则可将第一对齐子模型输出的配对实体对集合作为与至少两个医学知识图谱对应的实体对齐结果输出。
本申请还另外提供一种应用场景,该应用场景应用上述的知识图谱的实体对齐方法。具体地,该知识图谱的实体对齐方法在该应用场景的应用如下:
当获取得到通用医学知识图谱和癌症医学知识图谱时,计算机设备可将通用医学知识图谱和癌症医学知识图谱输入至第一对齐子模型和第二对齐子模型中,通过第一对齐子模型和第二对齐子模型的迭代处理,从而得到通用医学知识图谱和癌症医学知识图谱中的相同的实体。
本申请还另外提供一种应用场景,该应用场景应用上述的知识图谱的实体对齐方法。具体地,该知识图谱的实体对齐方法在该应用场景的应用如下:
当接收到问题时,提取问题中的问题实体,并从实体对齐结果中筛选出包含有问题实体的目标配对实体;在至少两个知识图谱中,查找以目标配对实体对中的实体为头实体的候选知识多元组;基于候选知识多元组和从问题中提取出的问题特征向量,确定与问题相配对的答案。
具体地,当获取得到第一知识图谱和第二知识图谱中的相同的实体时,计算机设备还可通过第一知识图谱和第二知识图谱以及所确定的实体对齐结果,进行更为准确、全面的医学知识问答。例如,在知识问答系统中,当接收到问题时,计算机设备提取问题中的问题实体,并在实体对齐结果中查看是否存在包含有该问题实体的目标配对实体对,若存在,则在医学知识图谱和癌症医学知识图谱中,查找以目标配对实体对中的任一实体为头实体的候选知识多元组。其中,候选知识多元组中的每一个尾实体或者实体参考关系都可以作为候选答案。计算机设备对问题进行信息抽取,得到问题特征向量,并根据问题特征向量对候选答案进行筛选,从而得到最终答案。
示例性的,参考图5,当第一知识图谱为知识图谱A、第二知识图谱为知识图谱B,问题为“沙眼衣原体肺炎的检查方式是什么”时,计算机设备可提取出问题实体“沙眼衣原体肺炎”,并从实体对齐结果中查看对应的目标配对实体对为“沙眼衣原体肺炎,眼衣原体肺炎”。计算机设备从知识图谱A和知识图谱B中查找以“沙眼衣原体肺炎”或者“眼衣原体肺炎”为头实体的候选知识多元组,并从候选知识多元组中查找对应的答案“胸部平片”和“胸部啰音”。
本申请还另外提供一种应用场景,该应用场景应用上述的知识图谱的实体对齐方法。具体地,该知识图谱的实体对齐方法在该应用场景的应用如下:
当获取得到至少两个医学知识图谱的实体对齐结果时,计算机设备可基于实体对齐结果,对至少两个医学知识图谱进行图谱融合处理,得到一个全面的融合医学知识图谱。其中,融合医学知识图谱中的节点包括异常症状和疾病,融合医学知识图谱中连接节点的边包括检查方式、从属关系、异常修复关系、临床症状、相关异常种类、异常标签、异常部位、常率和异常识别科室中的至少一种。
当获取得到患者信息时,计算机设备可从融合医学知识图谱中查找以患者信息为中心的子知识图谱,并根据提取出的子知识图谱确定与患者信息相对应的异常识别结果,通过所确定的异常识别结果进行辅助诊疗。例如,当患者提供了“头痛”与“恶心”两个异常症状时,计算机设备可从融合医学知识图谱中查找以“头痛”为中心的子知识图谱、和以“恶心”为中心的子知识图谱,并通过所确定的子知识图谱,查询可能导致“头痛”和“恶心”的原因,从而可基于查询得到的病因辅助医生进行进一步地诊断。
容易理解地,上述的场景仅用于辅助说明本申请,并不用于限定本申请的具体应用场景。
应该理解的是,虽然图2、6-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、6-7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种知识图谱的实体对齐装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:图谱获取模块902、模型获取模块904和迭代处理模块906,其中:
图谱获取模块902,用于获取待处理的至少两个知识图谱。
模型获取模块904,用于确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型。
迭代处理模块906,用于基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型,以对至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合;根据配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;通过当前轮次训练得到的第二对齐子模型,对至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果;将当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回基于第二对齐子模型前个轮次输出的对齐处理结果,启动第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与至少两个知识图谱对应的实体对齐结果。
在一个实施例中,如图10所示,每个知识图谱包括至少一个知识多元组,知识多元组包括头实体、尾实体、以及头实体和尾实体之间的实体参考关系;迭代处理模块906还包括第一处理模块9061,用于基于知识多元组,并通过第一对齐子模型确定每个实体参考关系各自对应的函数性;函数性表征了在头实体已确定的情况下,基于实体参考关系确定对应尾实体的概率;基于第二对齐子模型前个轮次输出的对齐处理结果和每个实体参考关系各自对应的函数性,通过第一对齐子模型对待处理的知识图谱进行至少一次的概率推导,并根据最后一次概率推导所得到的概率推导结果,得到当前轮次成功配对的配对实体对集合。
在一个实施例中,第一处理模块9061还用于确定第二对齐子模型前个轮次输出的对齐处理结果;通过第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率;其中,第一对齐子模型在一个当前轮次中发生多次推导迭代;根据前个轮次输出的对齐处理结果、函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,通过第一对齐子模型进行当次的概率推导,输出当次推导迭代所对应的实体对齐概率;其中,每两个实体参考关系和每两个实体分别来源于不同的知识图谱;通过第一对齐子模型,根据函数性和当次推导迭代所对应的实体对齐概率,确定当次推导迭代所对应的关系对齐概率;进入当前轮次中下次的推导迭代过程,并将下次的推导迭代作为当次推导迭代,返回通过第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率的步骤继续执行,直至达到第二停止条件时停止,得到最后一次概率推导所得到的最终实体对齐概率;根据最终实体对齐概率,确定当前轮次成功配对的配对实体对集合。
在一个实施例中,对齐处理结果包括知识图谱中的每个实体各自对应的图谱嵌入向量;第一处理模块9061还用于确定前个轮次输出对齐处理结果中的每两个图谱嵌入向量之间的相似度;根据每两个图谱嵌入向量之间的相似度、函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,输出当次推导迭代所对应的实体对齐概率。
在一个实施例中,迭代处理模块906还包括第二处理模块9062,用于对于配对实体对集合中的多个配对实体对,均确定每个配对实体对所包括的实体之间的语义相似度;根据每个配对实体对所包括的实体之间的语义相似度,对配对实体对集合中的实体对进行一致性筛选,得到相似实体对;通过筛选得到的相似实体对,对当前轮次的第二对齐子模型进行有监督训练。
在一个实施例中,知识图谱包括至少一个知识多元组;知识多元组包括头实体、尾实体、以及头实体和尾实体之间的实体参考关系;实体参考关系包括相关关系和属性关系;第二处理模块9062还用于根据知识多元组所包括的实体,对第二对齐子模型中的编码结构进行第一训练;根据知识多元组中的相关关系,对第二对齐子模型中的关系嵌入结构进行第二训练;根据知识多元组中的属性关系,对第二对齐子模型中的属性嵌入结构进行第三训练;根据配对实体对集合,对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练;综合通过第一训练的编码结构、通过优化训练的关系嵌入结构和通过优化训练的属性嵌入结构,得到当前轮次训练好的第二对齐子模型。
在一个实施例中,第二处理模块9062还用于对于知识图谱中的每个知识多元组,在当前知识多元组包括有配对实体对集合中的第一目标实体时,根据配对实体对集合确定与第一目标实体相配对的第二目标实体;将第二目标实体替换当前知识多元组中的第一目标实体,得到重组知识多元组,并确定重组知识多元组为真实的知识多元组的真实概率;当当前知识多元组中的实体参考关系为相关关系时,朝着最大化真实概率方向,对通过第二训练的关系嵌入结构进行优化训练;当当前知识多元组中的实体参考关系为属性关系时,朝着最大化真实概率方向,对通过第三训练的属性嵌入结构进行优化训练。
在一个实施例中,当知识多元组属于第一类别时,相对应的实体参考关系为相关关系,当知识多元组属于第二类别时,相对应的实体参考关系为属性关系;第二处理模块9062还用于通过当前轮次训练得到的第二对齐子模型中的编码结构,对知识多元组中的头实体进行编码处理,得到头实体的名称嵌入结果;通过当前轮次训练得到的第二对齐子模型中的关系嵌入结构,对属于第一类别的知识多元组中的实体和相关关系进行第一编码融和处理,得到相应头实体的关系嵌入结果;通过当前轮次训练得到的第二对齐子模型中的属性嵌入结构,对属于第二类别的知识多元组中的尾实体和属性关系进行第二编码融合处理,得到相应头实体的属性嵌入结果;对于每个知识多元组,将所对应的关系嵌入结果或属性嵌入结果,与相应头实体所对应的名称嵌入结果进行融合,得到相应知识多元组中的头实体所对应的图谱嵌入向量;根据各头实体所对应的图谱嵌入向量,确定每两个头实体之间的相似性,并根据每两个头实体之间的相似性,输出当前轮次的对齐处理结果。
在一个实施例中,迭代处理模块906还用于确定实体对齐结果为通过最后轮次训练得到的第一对齐子模型输出的成功配对的配对实体对集合;或者,确定实体对齐结果为通过最后轮次训练得到的第二对齐子模型输出的对齐处理结果中成功配对的相同实体。
在一个实施例中,知识图谱的实体对齐装置900还包括融合模块908,用于根据与至少两个知识图谱对应的实体对齐结果,确定至少两个知识图谱中的相同实体;基于相同实体,对至少两个知识图谱进行图谱融合处理,得到融合知识图谱。
在一个实施例中,知识图谱的实体对齐装置900待处理的至少两个知识图谱均属于医疗领域的医学知识图谱;每个医学知识图谱均包括至少一个知识多元组,知识多元组包括头实体、尾实体、以及头实体和尾实体之间的相关关系或属性关系,相关关系包括检查方式、从属关系、异常修复关系、临床症状、相关异常种类、异常标签和异常部位中的至少一种;属性关系包括异常率、异常识别科室中的至少一种。
在一个实施例中,知识图谱的实体对齐装置900待处理的至少两个知识图谱包括通用医学知识图谱和专用医学知识图谱;通用医学知识图谱来源于通用医疗领域;专用医学知识图谱来源于从属于通用医疗领域中的其中一个专用领域。
关于知识图谱的实体对齐装置的具体限定可以参见上文中对于知识图谱的实体对齐方法的限定,在此不再赘述。上述知识图谱的实体对齐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储知识图谱的实体对齐数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识图谱的实体对齐方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种知识图谱的实体对齐方法,其特征在于,所述方法包括:
获取待处理的至少两个知识图谱,并确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型;
基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合;
根据所述配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;
通过当前轮次训练得到的第二对齐子模型,对所述至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果;
将所述当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回所述基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与所述至少两个知识图谱对应的实体对齐结果。
2.根据权利要求1所述的方法,其特征在于,每个所述知识图谱包括至少一个知识多元组,所述知识多元组包括头实体、尾实体、以及所述头实体和所述尾实体之间的实体参考关系;
所述基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合,包括:
基于所述知识多元组,并通过所述第一对齐子模型确定每个所述实体参考关系各自对应的函数性;所述函数性表征了在头实体已确定的情况下,基于所述实体参考关系确定对应尾实体的概率;
基于所述第二对齐子模型前个轮次输出的对齐处理结果和每个所述实体参考关系各自对应的函数性,通过所述第一对齐子模型对待处理的知识图谱进行至少一次的概率推导,并根据最后一次概率推导所得到的概率推导结果,得到当前轮次成功配对的配对实体对集合。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第二对齐子模型前个轮次输出的对齐处理结果和每个所述实体参考关系各自对应的函数性,通过所述第一对齐子模型对待处理的知识图谱进行至少一次的概率推导,并根据最后一次概率推导所得到的概率推导结果,得到当前轮次成功配对的配对实体对集合,包括:
确定所述第二对齐子模型前个轮次输出的对齐处理结果;
通过所述第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率;其中,所述第一对齐子模型在一个当前轮次中发生多次推导迭代;
根据前个轮次输出的对齐处理结果、所述函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,通过所述第一对齐子模型进行当次的概率推导,输出当次推导迭代所对应的实体对齐概率;其中,每两个实体参考关系和每两个实体分别来源于不同的知识图谱;
通过所述第一对齐子模型,根据所述函数性和所述当次推导迭代所对应的实体对齐概率,确定当次推导迭代所对应的关系对齐概率;
进入所述当前轮次中下次的推导迭代过程,并将所述下次的推导迭代作为当次推导迭代,返回所述通过所述第一对齐子模型,获取在当前轮次中进行前次推导迭代所输出的每两个实体参考关系之间的关系对齐概率、以及每两个实体之间的实体对齐概率的步骤继续执行,直至达到第二停止条件时停止,得到最后一次概率推导所得到的最终实体对齐概率;
根据所述最终实体对齐概率,确定当前轮次成功配对的配对实体对集合。
4.根据权利要求3所述的方法,其特征在于,所述对齐处理结果包括所述知识图谱中的每个实体各自对应的图谱嵌入向量;
所述根据前个轮次输出的对齐处理结果、所述函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,通过所述第一对齐子模型进行当次的概率推导,输出当次推导迭代所对应的实体对齐概率,包括:
确定前个轮次输出对齐处理结果中的每两个图谱嵌入向量之间的相似度;
根据所述每两个图谱嵌入向量之间的相似度、所述函数性、前次推导迭代所输出的关系对齐概率和实体对齐概率,输出当次推导迭代所对应的实体对齐概率。
5.根据权利要求1所述的方法,其特征在于,所述根据所述配对实体对集合对当前轮次的第二对齐子模型进行有监督训练,包括:
对于所述配对实体对集合中的多个配对实体对,均确定每个配对实体对所包括的实体之间的语义相似度;
根据每个配对实体对所包括的实体之间的语义相似度,对所述配对实体对集合中的实体对进行一致性筛选,得到相似实体对;
通过筛选得到的所述相似实体对,对当前轮次的第二对齐子模型进行有监督训练。
6.根据权利要求1所述的方法,其特征在于,所述知识图谱包括至少一个知识多元组;所述知识多元组包括头实体、尾实体、以及所述头实体和所述尾实体之间的实体参考关系;所述实体参考关系包括相关关系和属性关系;所述根据所述配对实体对集合对当前轮次的第二对齐子模型进行有监督训练,包括:
根据所述知识多元组所包括的实体,对所述第二对齐子模型中的编码结构进行第一训练;
根据所述知识多元组中的相关关系,对所述第二对齐子模型中的关系嵌入结构进行第二训练;
根据所述知识多元组中的属性关系,对所述第二对齐子模型中的属性嵌入结构进行第三训练;
根据所述配对实体对集合,对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练;
综合通过第一训练的编码结构、通过优化训练的关系嵌入结构和通过优化训练的属性嵌入结构,得到当前轮次训练好的第二对齐子模型。
7.根据权利要求6所述的方法,其特征在于,所述配对实体对集合中的每个配对实体对包括有配对成功的第一实体和第二实体,所述根据所述配对实体对集合,对通过第二训练的关系嵌入结构和通过第三训练的属性嵌入结构均进行优化训练,包括:
对于知识图谱中的每个知识多元组,在当前知识多元组包括有所述配对实体对集合中的第一目标实体时,根据所述配对实体对集合确定与所述第一目标实体相配对的第二目标实体;
将所述第二目标实体替换所述当前知识多元组中的第一目标实体,得到重组知识多元组,并确定所述重组知识多元组为真实的知识多元组的真实概率;
当所述当前知识多元组中的实体参考关系为相关关系时,朝着最大化所述真实概率方向,对通过第二训练的关系嵌入结构进行优化训练;
当所述当前知识多元组中的实体参考关系为属性关系时,朝着最大化所述真实概率方向,对通过第三训练的属性嵌入结构进行优化训练。
8.根据权利要求1所述的方法,其特征在于,每个所述知识图谱包括至少一个知识多元组,所述知识多元组包括头实体、尾实体、以及所述头实体和所述尾实体之间的实体参考关系,当所述知识多元组属于第一类别时,相对应的实体参考关系为相关关系,当所述知识多元组属于第二类别时,相对应的实体参考关系为属性关系;
所述通过当前轮次训练得到的第二对齐子模型,对所述至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果,包括:
通过当前轮次训练得到的第二对齐子模型中的编码结构,对所述知识多元组中的头实体进行编码处理,得到头实体的名称嵌入结果;
通过所述当前轮次训练得到的第二对齐子模型中的关系嵌入结构,对属于第一类别的知识多元组中的实体和相关关系进行第一编码融和处理,得到相应头实体的关系嵌入结果;
通过所述当前轮次训练得到的第二对齐子模型中的属性嵌入结构,对属于第二类别的知识多元组中的尾实体和属性关系进行第二编码融合处理,得到相应头实体的属性嵌入结果;
对于每个知识多元组,将所对应的关系嵌入结果或属性嵌入结果,与相应头实体所对应的名称嵌入结果进行融合,得到相应知识多元组中的头实体所对应的图谱嵌入向量;
根据各头实体所对应的图谱嵌入向量,确定每两个头实体之间的相似性,并根据所述每两个头实体之间的相似性,输出当前轮次的对齐处理结果。
9.根据权利要求1所述的方法,其特征在于,所述实体对齐结果为通过最后轮次训练得到的第一对齐子模型输出的成功配对的配对实体对集合;或者,
所述实体对齐结果为通过最后轮次训练得到的第二对齐子模型输出的对齐处理结果中成功配对的相同实体。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据与所述至少两个知识图谱对应的实体对齐结果,确定所述至少两个知识图谱中的相同实体;
基于所述相同实体,对所述至少两个知识图谱进行图谱融合处理,得到融合知识图谱。
11.根据权利要求1至10中任意一项所述的方法,其特征在于,所述待处理的至少两个知识图谱均属于医疗领域的医学知识图谱;每个所述医学知识图谱均包括至少一个知识多元组,所述知识多元组包括头实体、尾实体、以及所述头实体和所述尾实体之间的相关关系或属性关系,所述相关关系包括检查方式、从属关系、异常修复关系、临床症状、相关异常种类、异常标签和异常部位中的至少一种;所述属性关系包括异常率和异常识别科室中的至少一种。
12.根据权利要求11所述的方法,其特征在于,至少两个医用知识图谱包括通用医学知识图谱和专用医学知识图谱;所述通用医学知识图谱来源于通用医疗领域;所述专用医学知识图谱来源于从属于所述通用医疗领域中的其中一个专用领域。
13.一种知识图谱的实体对齐装置,其特征在于,所述装置包括:
图谱获取模块,用于获取待处理的至少两个知识图谱;
模型获取模块,用于确定属于无监督学习类别的第一对齐子模型和属于有监督学习类别的第二对齐子模型;
迭代处理模块,用于基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型,以对所述至少两个知识图谱进行对齐概率推导处理,得到当前轮次成功配对的配对实体对集合;根据所述配对实体对集合对当前轮次的第二对齐子模型进行有监督训练;通过当前轮次训练得到的第二对齐子模型,对所述至少两个知识图谱进行多维度图谱嵌入处理,基于相应的图谱嵌入结果输出当前轮次的对齐处理结果;将所述当前轮次的对齐处理结果作为下个轮次中的前个轮次输出的对齐处理结果,进入下个轮次,并返回所述基于所述第二对齐子模型前个轮次输出的对齐处理结果,启动所述第一对齐子模型的步骤继续执行,直至达到第一停止条件时停止,得到与所述至少两个知识图谱对应的实体对齐结果。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110333360.3A CN112765370B (zh) | 2021-03-29 | 2021-03-29 | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110333360.3A CN112765370B (zh) | 2021-03-29 | 2021-03-29 | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112765370A true CN112765370A (zh) | 2021-05-07 |
CN112765370B CN112765370B (zh) | 2021-07-06 |
Family
ID=75691125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110333360.3A Active CN112765370B (zh) | 2021-03-29 | 2021-03-29 | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765370B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591639A (zh) * | 2021-07-20 | 2021-11-02 | 北京爱笔科技有限公司 | 对齐框架的训练方法、装置、计算机设备以及存储介质 |
CN115269583A (zh) * | 2022-09-29 | 2022-11-01 | 南通君合云起信息科技有限公司 | 一种用于大数据处理的无监督清洗方法 |
WO2022242449A1 (zh) * | 2021-05-18 | 2022-11-24 | 腾讯科技(深圳)有限公司 | 知识图谱对齐模型的训练方法、对齐方法、装置及设备 |
WO2022267976A1 (zh) * | 2021-06-21 | 2022-12-29 | 浙江师范大学 | 多模态知识图谱的实体对齐方法、装置及存储介质 |
CN118193757A (zh) * | 2024-05-17 | 2024-06-14 | 之江实验室 | 一种任务执行方法、装置、存储介质及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190019088A1 (en) * | 2017-07-14 | 2019-01-17 | Guangdong Shenma Search Technology Co., Ltd. | Knowledge graph construction method and device |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN109815345A (zh) * | 2019-02-25 | 2019-05-28 | 南京大学 | 一种基于路径的知识图谱嵌入方法 |
CN110245131A (zh) * | 2019-06-05 | 2019-09-17 | 江苏瑞中数据股份有限公司 | 一种知识图谱中实体对齐方法、系统及其存储介质 |
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN111046186A (zh) * | 2019-10-30 | 2020-04-21 | 平安科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、设备及存储介质 |
CN111191471A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 基于实体序列编码的知识图谱融合方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112199957A (zh) * | 2020-11-03 | 2021-01-08 | 中国人民解放军战略支援部队信息工程大学 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
CN112445876A (zh) * | 2020-11-25 | 2021-03-05 | 中国科学院自动化研究所 | 融合结构、属性和关系信息的实体对齐方法和系统 |
-
2021
- 2021-03-29 CN CN202110333360.3A patent/CN112765370B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190019088A1 (en) * | 2017-07-14 | 2019-01-17 | Guangdong Shenma Search Technology Co., Ltd. | Knowledge graph construction method and device |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
CN109815345A (zh) * | 2019-02-25 | 2019-05-28 | 南京大学 | 一种基于路径的知识图谱嵌入方法 |
CN110245131A (zh) * | 2019-06-05 | 2019-09-17 | 江苏瑞中数据股份有限公司 | 一种知识图谱中实体对齐方法、系统及其存储介质 |
CN110941722A (zh) * | 2019-10-12 | 2020-03-31 | 中国人民解放军国防科技大学 | 一种基于实体对齐的知识图谱融合方法 |
CN111046186A (zh) * | 2019-10-30 | 2020-04-21 | 平安科技(深圳)有限公司 | 知识图谱的实体对齐方法、装置、设备及存储介质 |
CN111191471A (zh) * | 2019-12-30 | 2020-05-22 | 北京航空航天大学 | 基于实体序列编码的知识图谱融合方法 |
CN112131395A (zh) * | 2020-08-26 | 2020-12-25 | 浙江工业大学 | 一种基于动态阈值的迭代式知识图谱实体对齐方法 |
CN112199957A (zh) * | 2020-11-03 | 2021-01-08 | 中国人民解放军战略支援部队信息工程大学 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
CN112445876A (zh) * | 2020-11-25 | 2021-03-05 | 中国科学院自动化研究所 | 融合结构、属性和关系信息的实体对齐方法和系统 |
Non-Patent Citations (2)
Title |
---|
Y. ZHANG ET AL.: ""Entity Alignment Across Knowledge Graphs Based on Representative Relations Selection"", 《2018 5TH INTERNATIONAL CONFERENCE ON SYSTEMS AND INFORMATICS (ICSAI)》 * |
刘家祝 等: ""基于子图相交的社交账号与知识图谱实体对齐"", 《计算机技术与发展》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022242449A1 (zh) * | 2021-05-18 | 2022-11-24 | 腾讯科技(深圳)有限公司 | 知识图谱对齐模型的训练方法、对齐方法、装置及设备 |
WO2022267976A1 (zh) * | 2021-06-21 | 2022-12-29 | 浙江师范大学 | 多模态知识图谱的实体对齐方法、装置及存储介质 |
CN113591639A (zh) * | 2021-07-20 | 2021-11-02 | 北京爱笔科技有限公司 | 对齐框架的训练方法、装置、计算机设备以及存储介质 |
CN115269583A (zh) * | 2022-09-29 | 2022-11-01 | 南通君合云起信息科技有限公司 | 一种用于大数据处理的无监督清洗方法 |
CN115269583B (zh) * | 2022-09-29 | 2022-12-16 | 南通君合云起信息科技有限公司 | 一种用于大数据处理的无监督清洗方法 |
CN118193757A (zh) * | 2024-05-17 | 2024-06-14 | 之江实验室 | 一种任务执行方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112765370B (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112765370B (zh) | 知识图谱的实体对齐方法、装置、计算机设备和存储介质 | |
Yang et al. | Uncertainty-guided transformer reasoning for camouflaged object detection | |
WO2022166361A1 (zh) | 一种基于跨模态融合的深度聚类方法及系统 | |
CN112084331A (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
Zhao et al. | A comparison review of transfer learning and self-supervised learning: Definitions, applications, advantages and limitations | |
CN112200266B (zh) | 基于图结构数据的网络训练方法、装置以及节点分类方法 | |
CN111210382B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN112069825B (zh) | 面向警情笔录数据的实体关系联合抽取方法 | |
CN112380867A (zh) | 文本处理、知识库的构建方法、装置和存储介质 | |
CN115577678B (zh) | 文档级事件因果关系识别方法、系统、介质、设备及终端 | |
CN116403730A (zh) | 一种基于图神经网络的药物相互作用预测方法及系统 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN111241326A (zh) | 基于注意力金字塔图网络的图像视觉关系指代定位方法 | |
CN114065769B (zh) | 情感原因对抽取模型的训练方法、装置、设备及介质 | |
CN114781382A (zh) | 基于rwlstm模型融合的医疗命名实体识别系统及方法 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 | |
CN111191035B (zh) | 一种识别肺癌临床数据库文本实体的方法及装置 | |
CN116595551A (zh) | 银行交易数据管理方法及系统 | |
CN116468043A (zh) | 嵌套实体识别方法、装置、设备及存储介质 | |
CN115910232A (zh) | 多视图的药物对反应预测方法、装置、设备和存储介质 | |
CN114936327A (zh) | 元素识别模型的获取方法、装置、计算机设备和存储介质 | |
CN115132372A (zh) | 术语处理方法、装置、电子设备、存储介质及程序产品 | |
Wang et al. | Boosting the discriminant power of naive Bayes | |
CN114332469A (zh) | 模型训练方法、装置、设备及存储介质 | |
Do et al. | Image and encoded text fusion for deep multi-modal clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40044526 Country of ref document: HK |