CN116561346A - 一种基于图卷积网络和信息融合的实体对齐方法及装置 - Google Patents
一种基于图卷积网络和信息融合的实体对齐方法及装置 Download PDFInfo
- Publication number
- CN116561346A CN116561346A CN202310819919.2A CN202310819919A CN116561346A CN 116561346 A CN116561346 A CN 116561346A CN 202310819919 A CN202310819919 A CN 202310819919A CN 116561346 A CN116561346 A CN 116561346A
- Authority
- CN
- China
- Prior art keywords
- entity
- matrix
- model
- entities
- embedded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 179
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000005096 rolling process Methods 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 description 17
- 238000010276 construction Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于图卷积网络和信息融合的实体对齐方法及装置,所述方法的步骤包括:获取文献基础数据,文献基础数据包括文献中的实体之间的关系、实体对应的属性和实体在文献中的描述语句;基于文献中的实体之间的关系构建第一输入矩阵,将第一输入矩阵输入到预设的第一模型中,第一模型输出第一嵌入矩阵;基于实体对应的属性构建第二输入矩阵,将第二输入矩阵输入到预设的第二模型中,第二模型输出第二嵌入矩阵;将实体在文献中的描述语句输入到第三模型中,第三模型输出第三嵌入矩阵;基于第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵构建联合矩阵;将联合矩阵中的每一行构建为对应一个实体的实体向量,基于实体向量之间的距离进行实体对齐。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于图卷积网络和信息融合的实体对齐方法及装置。
背景技术
科技文献实体对齐是知识图谱构建过程中的关键步骤,科技文献知识图谱中可能包含来自不同数据源、不同领域或不同语言的实体,这些实体可能存在同义词、异名、错误或缺失等问题,导致实体的识别和关联变得困难。科技文献实体对齐旨在解决这些问题,通过将不同数据源、领域或语言中的实体进行匹配、对齐和映射,使它们在知识图谱中成为同一实体的不同属性或描述。消除重复、混淆和错误的实体,并增强知识图谱的准确性、完整性和一致性,对于实现知识的快速响应、推理和挖掘具有重要作用。
实体对齐是指在不同的知识图谱或数据源中,将表示同一实体的不同标识符(如名称、ID等)对齐到一个共同的实体上的过程。实体对齐需要考虑多个问题,包括数据源异构性、实体标识符的多样性和实体语义的不确定性等。实体对齐可以应用于多个场景,例如跨语言实体对齐、跨领域实体对齐、知识图谱构建等。在跨语言实体对齐中,实体对齐需要考虑语言差异性,例如音译、意译等。在跨领域实体对齐中,实体对齐需要考虑不同领域中实体的特点和语义。在知识图谱构建中,实体对齐可以帮助将不同数据源中的实体标识符融合到一个统一的知识图谱中,从而提高知识图谱的完整性和准确性。实体对齐是一个复杂的问题,需要综合考虑多个因素,并且需要不断地迭代和优化。在实际应用中,实体对齐往往需要结合专业领域的知识和经验,才能取得更好的效果。
然而,在现有的实体对齐技术中,通常仅仅应用了实体自身的词汇进行关联,因此,实体对齐效果较差。
发明内容
鉴于此,本发明的实施例提供了一种基于图卷积网络和信息融合的实体对齐方法,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种基于图卷积网络和信息融合的实体对齐方法,所述方法的步骤包括:
获取文献基础数据,所述文献基础数据包括文献中的实体之间的关系、实体对应的属性和实体在文献中的描述语句;
基于文献中的实体之间的关系构建第一输入矩阵,将所述第一输入矩阵输入到预设的第一模型中,所述第一模型输出第一嵌入矩阵;
基于实体对应的属性构建第二输入矩阵,将所述第二输入矩阵输入到预设的第二模型中,所述第二模型输出第二嵌入矩阵;
将实体在文献中的描述语句输入到第三模型中,所述第三模型输出第三嵌入矩阵;
基于所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵构建联合矩阵,所述联合矩阵中的每一行对应一个实体;
将所述联合矩阵中的每一行构建为对应一个实体的实体向量,基于所述实体向量之间的距离进行实体对齐。
采用上述方案,本方案在进行实体对齐的过程中,首先应用了实体自身的词汇构建第一嵌入矩阵,再通过实体对应的属性构建第二嵌入矩阵,通过实体在文献中的描述语句构建第三嵌入矩阵,将所述第二嵌入矩阵和第三嵌入矩阵作为补充,进一步完善每个实体向量,提高实体对齐效果。
在本发明的一些实施方式中,将所述联合矩阵中的每一行构建为对应一个实体的实体向量,基于所述实体向量之间的距离进行实体对齐的步骤包括:
计算每两个实体向量之间的距离;
基于每个实体向量提取与该实体向量较近的预设个数的实体向量,使该实体向量对应的实体与预设个数的实体向量对应的实体完成实体对齐。
在本发明的一些实施方式中,在基于每个实体向量提取与该实体向量较近的预设个数的实体向量的步骤中,将每个实体向量与除本实体向量的其他实体向量的距离从小到大进行排序,得到实体向量队列,获取在所述实体向量队列中前预设个数个实体向量。
在本发明的一些实施方式中,基于所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵构建联合矩阵的步骤包括:
将所述第一嵌入矩阵和第二嵌入矩阵直接进行拼接,得到拼接矩阵;
将所述拼接矩阵与第三嵌入矩阵进行加权拼接,得到所述联合矩阵。
在本发明的一些实施方式中,在将所述第一嵌入矩阵和第二嵌入矩阵直接进行拼接,得到拼接矩阵的步骤中,根据如下公式得到拼接矩阵:
其中,表示第一嵌入矩阵,/>表示第二嵌入矩阵,/>表示拼接矩阵,/>表示拼接操作。
在本发明的一些实施方式中,在将所述拼接矩阵与第三嵌入矩阵进行加权拼接,得到所述联合矩阵,根据如下公式得到所述联合矩阵:
其中,表示联合矩阵,/>表示拼接矩阵,/>表示第三嵌入矩阵,τ表示权重参数,表示拼接操作。
在本发明的一些实施方式中,在将所述第一输入矩阵输入到预设的第一模型中的步骤中,所述第一模型包括顺序设置的多个图卷积网络层。
在本发明的一些实施方式中,在将所述第二输入矩阵输入到预设的第二模型中的步骤中,所述第二模型包括顺序设置的全连接层和图卷积网络层。
在本发明的一些实施方式中,在将实体在文献中的描述语句输入到第三模型中的步骤中,所述第三模型为BERT模型。
本发明的第二方面还提供一种基于图卷积网络和信息融合的实体对齐装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法所实现的步骤。
本发明的第三方面还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述基于图卷积网络和信息融合的实体对齐方法所实现的步骤。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1为本发明基于图卷积网络和信息融合的实体对齐方法第一种实施方式的示意图;
图2为本发明基于图卷积网络和信息融合的实体对齐方法第二种实施方式的示意图;
图3为本发明基于图卷积网络和信息融合的实体对齐方法第三种实施方式的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
为解决以上问题,如图1所示,本发明提出一种基于图卷积网络和信息融合的实体对齐方法,所述方法的步骤包括:
步骤S100,获取文献基础数据,所述文献基础数据包括文献中的实体之间的关系、实体对应的属性和实体在文献中的描述语句;
在具体实施过程中,所述文献基础数据为预先标记的基于一篇文献的实体,该文献中实体的属性和该文献中实体之间的关系;
在具体实施过程中,文献中的实体可以为文献中的名词或者短语等,实体之间的关系可以为同义、反义或者包含等,所述实体的属性可以为实体的词汇的词性。
示例的,若语句“地球的引力会与太空中的其他物体相互作用”包括地球和太空两个实体,地球与太空的关系可以为从属关系,地球的属性可以为名词,太空的属性可以为名词,地球和太空在文献中的描述语句均可以为“地球的引力会与太空中的其他物体相互作用”。
本方案步骤S100,获取文献基础数据的步骤中,获取的文献基础数据可以来自不同的多篇文献,所述多篇文献可以为两篇文献;
所述文献可以为论文或专利等。
步骤S200,基于文献中的实体之间的关系构建第一输入矩阵,将所述第一输入矩阵输入到预设的第一模型中,所述第一模型输出第一嵌入矩阵;
在具体实施过程中,所述第一模型输出的第一嵌入矩阵中的每一行均对应一个实体,第一嵌入矩阵中该行的参数即为改行对应的实体的参数。
在本发明的一些实施方式中,所述第一输入矩阵可以为预先将所述实体和实体之间的关系构建为二维表格,将所述二维表格进行编码得到的矩阵。
在具体实施过程中,对所述二维表格进行编码的方式可以为使用Python的pandas库,将二维表格读取到DataFrame中,然后再进行编码,也可以为使用R语言的dplyr包,将二维表格读取到数据框中,然后再进行编码,还可以为对二维表格中的所述实体和实体之间的关系直接进行编码。
步骤S300,基于实体对应的属性构建第二输入矩阵,将所述第二输入矩阵输入到预设的第二模型中,所述第二模型输出第二嵌入矩阵;
在具体实施过程中,所述第二模型输出的第二嵌入矩阵中的每一行均对应一个实体的属性,第二嵌入矩阵中该行的参数即为改行对应的实体的属性的参数。
在具体实施过程中,在基于实体对应的属性构建第二输入矩阵的步骤中,可以为预先对实体的属性进行编码,每种属性的编码结果即为所述第二输入矩阵的一行,构建所述第二输入矩阵。
步骤S400,将实体在文献中的描述语句输入到第三模型中,所述第三模型输出第三嵌入矩阵;
在具体实施过程中,在将实体在文献中的描述语句输入到第三模型中的步骤中,可以将实体在文献中的描述语句中的字或词编码为向量,将编码后的向量输入到预设的第三模型中。
在具体实施过程中,所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵的行数均相等,且在相同位置的行均对应的同一个实体。
步骤S500,基于所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵构建联合矩阵,所述联合矩阵中的每一行对应一个实体;
在具体实施过程中,将所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵进行拼接,使所述联合矩阵的行数与所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵均相等。
步骤S600,将所述联合矩阵中的每一行构建为对应一个实体的实体向量,基于所述实体向量之间的距离进行实体对齐。
在具体实施过程中,在基于所述实体向量之间的距离进行实体对齐的步骤中,计算每两个实体向量之间的距离,在计算每两个实体向量之间的距离的过程中,可以采用计算欧氏距离、曼哈顿距离和切比雪夫距离等方式确定每两个实体向量之间的距离。
在具体实施过程中,在计算每两个实体向量之间的距离的过程中,还可以采用余弦距离,小距离反映了实体对作为等效实体对齐的高概率,对所有实体向量进行评估。
采用上述方案,本方案在进行实体对齐的过程中,首先应用了实体自身的词汇构建第一嵌入矩阵,再通过实体对应的属性构建第二嵌入矩阵,通过实体在文献中的描述语句构建第三嵌入矩阵,将所述第二嵌入矩阵和第三嵌入矩阵作为补充,进一步完善每个实体向量,提高实体对齐效果。
如图2所示,在本发明的一些实施方式中,将所述联合矩阵中的每一行构建为对应一个实体的实体向量,基于所述实体向量之间的距离进行实体对齐的步骤包括:
步骤S610,计算每两个实体向量之间的距离;
步骤S620,基于每个实体向量提取与该实体向量较近的预设个数的实体向量,使该实体向量对应的实体与预设个数的实体向量对应的实体完成实体对齐。
在本发明的一些实施方式中,在基于每个实体向量提取与该实体向量较近的预设个数的实体向量的步骤中,将每个实体向量与除本实体向量的其他实体向量的距离从小到大进行排序,得到实体向量队列,获取在所述实体向量队列中前预设个数个实体向量。
采用上述方案,通过获取在所述实体向量队列中前预设个数个实体向量,可以构建基于每个实体向量的实体对齐组合,从而精准实现实体对齐。
如图3所示,在本发明的一些实施方式中,基于所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵构建联合矩阵的步骤包括:
步骤S510,将所述第一嵌入矩阵和第二嵌入矩阵直接进行拼接,得到拼接矩阵;
采用上述方案,本方案首先通过实体的属性构成第二嵌入矩阵对通过所述实体之间的关系生成的第一嵌入矩阵进行补充,增加每个实体对应的参数的数量,提高实体参数的全面性,使通过参数词对实体的表达更加精准。
步骤S520,将所述拼接矩阵与第三嵌入矩阵进行加权拼接,得到所述联合矩阵。
采用上述方案,所述第三嵌入矩阵基于实体在文献中的描述语句,能够体现所述实体在文献中的整体表达,将所述拼接矩阵与第三嵌入矩阵进行加权拼接,对两个矩阵分配权重,使所述实体在文献中的整体表达融入到所述拼接矩阵,得到所述联合矩阵,进一步提高所述联合矩阵对实体表达的全面性。
采用上述方案,为了对齐实体,若使用相邻实体的关系和属性可能会引入噪声,只关注当前实体的关系和属性特性是更好的选择,因此,通过混合多方面对齐网络来更好地模拟这些不同的特征。
在本发明的一些实施方式中,在将所述第一嵌入矩阵和第二嵌入矩阵直接进行拼接,得到拼接矩阵的步骤中,根据如下公式得到拼接矩阵:
其中,表示第一嵌入矩阵,/>表示第二嵌入矩阵,/>表示拼接矩阵,/>表示拼接操作。
在本发明的一些实施方式中,在将所述拼接矩阵与第三嵌入矩阵进行加权拼接,得到所述联合矩阵,根据如下公式得到所述联合矩阵:
其中,表示联合矩阵,/>表示拼接矩阵,/>表示第三嵌入矩阵,τ表示权重参数,表示拼接操作。
采用上述方案,使用多方面信息融合进行实体对齐,如实体的标签类别、图形拓扑结构、关系类别、属性构成和文本描述等,在利用图卷积网络嵌入文献结构信息的同时加入多方面信息。将图形拓扑结构,关系类别、属性构成信息同时作为图卷积网络的输入,而不仅仅作为外部辅助信息,将实体的文本描述信息利用BERT嵌入学习,将结构嵌入和文本描述信息融合,为后续的文献的实体对齐做好准备。
所述文献基础数据可以为文献知识图谱,前两个部分分别从知识图谱的实体关系结构与实体的属性文本描述中提取嵌入表示,即图和文本嵌入。信息融合部分将融合两种嵌入,进行实体对齐。在使用多层图卷积网络来获取文献的图结构嵌入之后,使用全连接层来获取实体关系和属性嵌入。通过BERT学习的文献文本嵌入表示和通过图卷积网络的知识图谱图形嵌入表示,基于权重机制进行组合,将两个嵌入表示加权相加作为实体的嵌入。
在本发明的一些实施方式中,在将所述第一输入矩阵输入到预设的第一模型中的步骤中,所述第一模型包括顺序设置的多个图卷积网络层。
在本发明的一些实施方式中,所述第一模型顺序设置有两个图卷积网络层。
在本发明的一些实施方式中,在将所述第二输入矩阵输入到预设的第二模型中的步骤中,所述第二模型包括顺序设置的全连接层和图卷积网络层。
在本发明的一些实施方式中,所述第二模型顺序设置一个全连接层和一个图卷积网络层。
在具体实施过程中,图卷积网络层(Graph Convolutional Network,GCN)能够从所述第一输入矩阵或第二输入矩阵的结构中捕获信息,利用多层图卷积堆叠从多跳邻居收集特征,GCN可以通过传播机制迭代地更新每个实体的表示,实体倾向于通过相同类型的关系与等价实体相邻,并且等效的实体倾向于共享相似或甚至相同的属性。
在本发明的一些实施方式中,在将实体在文献中的描述语句输入到第三模型中的步骤中,所述第三模型为BERT模型。
在本发明的一些实施方式中,由于不同的文献基础数据提供了以不同语言表达的实体的文字描述,所述文献基础数据可以为文献知识图谱,并包含有关实体的详细语义信息。实体对应的属性的关键是是判断等价实体的字面描述在语义上是否接近,然而直接测量两个实体的描述的语义相关性是非常困难的,因为它们是用不同的语言表达的,基于BERT模型,将不同语言的单词或者句子映射到同一语义空间中,用于弥合不同语言描述之间差距,遵循BERT的基本设计,将实体对其任务转换为文本匹配任务,对于不同数据源的两个知识图谱的两个实体,分别由不同语言的单词序列组成,实体对应的属性可以由两部分描述组成作为输入,输入被设计为BERT输入的格式,然后将其馈送到属性语义表示用于上下文编码。
本方案的有益效果包括:
1.针对文献实体采用多层次对齐方法,融合拓扑结构、关系和属性信息作为文献实体的向量表示,提高实体表达的准确性;
2.基于图卷积网络获取图结构嵌入,基于BERT预训练模型获取文本的语义表示,将两者信息融合增强实体的语义区分度,提高跨语言实体对齐的准确率。
本发明实施例还提供一种基于图卷积网络和信息融合的实体对齐系统,所述系统包括:
基础数据获取模块,用于获取文献基础数据,所述文献基础数据包括文献中的实体之间的关系、实体对应的属性和实体在文献中的描述语句;
第一嵌入矩阵构建模块,用于基于文献中的实体之间的关系构建第一输入矩阵,将所述第一输入矩阵输入到预设的第一模型中,所述第一模型输出第一嵌入矩阵;
第二嵌入矩阵构建模块,用于基于实体对应的属性构建第二输入矩阵,将所述第二输入矩阵输入到预设的第二模型中,所述第二模型输出第二嵌入矩阵;
第三嵌入矩阵构建模块,用于将实体在文献中的描述语句输入到第三模型中,所述第三模型输出第三嵌入矩阵;
联合矩阵构建模块,用于基于所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵构建联合矩阵,所述联合矩阵中的每一行对应一个实体;
实体对齐模块,用于将所述联合矩阵中的每一行构建为对应一个实体的实体向量,基于所述实体向量之间的距离进行实体对齐。
在本发明的一些实施方式中,将所述联合矩阵中的每一行构建为对应一个实体的实体向量,基于所述实体向量之间的距离进行实体对齐的步骤包括:
计算每两个实体向量之间的距离;
基于每个实体向量提取与该实体向量较近的预设个数的实体向量,使该实体向量对应的实体与预设个数的实体向量对应的实体完成实体对齐。
在本发明的一些实施方式中,在基于每个实体向量提取与该实体向量较近的预设个数的实体向量的步骤中,将每个实体向量与除本实体向量的其他实体向量的距离从小到大进行排序,得到实体向量队列,获取在所述实体向量队列中前预设个数个实体向量。
在本发明的一些实施方式中,基于所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵构建联合矩阵的步骤包括:
将所述第一嵌入矩阵和第二嵌入矩阵直接进行拼接,得到拼接矩阵;
将所述拼接矩阵与第三嵌入矩阵进行加权拼接,得到所述联合矩阵。
在本发明的一些实施方式中,在将所述第一嵌入矩阵和第二嵌入矩阵直接进行拼接,得到拼接矩阵的步骤中,根据如下公式得到拼接矩阵:
其中,表示第一嵌入矩阵,/>表示第二嵌入矩阵,/>表示拼接矩阵,/>表示拼接操作。
在本发明的一些实施方式中,在将所述拼接矩阵与第三嵌入矩阵进行加权拼接,得到所述联合矩阵,根据如下公式得到所述联合矩阵:
其中,表示联合矩阵,/>表示拼接矩阵,/>表示第三嵌入矩阵,τ表示权重参数,表示拼接操作。
在本发明的一些实施方式中,在将所述第一输入矩阵输入到预设的第一模型中的步骤中,所述第一模型包括顺序设置的多个图卷积网络层。
在本发明的一些实施方式中,在将所述第二输入矩阵输入到预设的第二模型中的步骤中,所述第二模型包括顺序设置的全连接层和图卷积网络层。
在本发明的一些实施方式中,在将实体在文献中的描述语句输入到第三模型中的步骤中,所述第三模型为BERT模型。
本发明实施例还提供一种基于图卷积网络和信息融合的实体对齐装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现上述方法所实现的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述基于图卷积网络和信息融合的实体对齐方法所实现的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图卷积网络和信息融合的实体对齐方法,其特征在于,所述方法的步骤包括:
获取文献基础数据,所述文献基础数据包括文献中的实体之间的关系、实体对应的属性和实体在文献中的描述语句;
基于文献中的实体之间的关系构建第一输入矩阵,将所述第一输入矩阵输入到预设的第一模型中,所述第一模型输出第一嵌入矩阵;
基于实体对应的属性构建第二输入矩阵,将所述第二输入矩阵输入到预设的第二模型中,所述第二模型输出第二嵌入矩阵;
将实体在文献中的描述语句输入到第三模型中,所述第三模型输出第三嵌入矩阵;
基于所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵构建联合矩阵,所述联合矩阵中的每一行对应一个实体;
将所述联合矩阵中的每一行构建为对应一个实体的实体向量,基于所述实体向量之间的距离进行实体对齐。
2.根据权利要求1所述的基于图卷积网络和信息融合的实体对齐方法,其特征在于,将所述联合矩阵中的每一行构建为对应一个实体的实体向量,基于所述实体向量之间的距离进行实体对齐的步骤包括:
计算每两个实体向量之间的距离;
基于每个实体向量提取与该实体向量较近的预设个数的实体向量,使该实体向量对应的实体与预设个数的实体向量对应的实体完成实体对齐。
3.根据权利要求2所述的基于图卷积网络和信息融合的实体对齐方法,其特征在于,在基于每个实体向量提取与该实体向量较近的预设个数的实体向量的步骤中,将每个实体向量与除本实体向量的其他实体向量的距离从小到大进行排序,得到实体向量队列,获取在所述实体向量队列中前预设个数个实体向量。
4.根据权利要求1所述的基于图卷积网络和信息融合的实体对齐方法,其特征在于,基于所述第一嵌入矩阵、第二嵌入矩阵和第三嵌入矩阵构建联合矩阵的步骤包括:
将所述第一嵌入矩阵和第二嵌入矩阵直接进行拼接,得到拼接矩阵;
将所述拼接矩阵与第三嵌入矩阵进行加权拼接,得到所述联合矩阵。
5.根据权利要求4所述的基于图卷积网络和信息融合的实体对齐方法,其特征在于,在将所述第一嵌入矩阵和第二嵌入矩阵直接进行拼接,得到拼接矩阵的步骤中,根据如下公式得到拼接矩阵:
其中,表示第一嵌入矩阵,/>表示第二嵌入矩阵,/>表示拼接矩阵,/>表示拼接操作。
6.根据权利要求4所述的基于图卷积网络和信息融合的实体对齐方法,其特征在于,在将所述拼接矩阵与第三嵌入矩阵进行加权拼接,得到所述联合矩阵,根据如下公式得到所述联合矩阵:
其中,表示联合矩阵,/>表示拼接矩阵,/>表示第三嵌入矩阵,τ表示权重参数,/>表示拼接操作。
7.根据权利要求1所述的基于图卷积网络和信息融合的实体对齐方法,其特征在于,在将所述第一输入矩阵输入到预设的第一模型中的步骤中,所述第一模型包括顺序设置的多个图卷积网络层。
8.根据权利要求1所述的基于图卷积网络和信息融合的实体对齐方法,其特征在于,在将所述第二输入矩阵输入到预设的第二模型中的步骤中,所述第二模型包括顺序设置的全连接层和图卷积网络层。
9.根据权利要求1所述的基于图卷积网络和信息融合的实体对齐方法,其特征在于,在将实体在文献中的描述语句输入到第三模型中的步骤中,所述第三模型为BERT模型。
10.一种基于图卷积网络和信息融合的实体对齐装置,其特征在于,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1~9任一项所述方法所实现的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310819919.2A CN116561346B (zh) | 2023-07-06 | 2023-07-06 | 一种基于图卷积网络和信息融合的实体对齐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310819919.2A CN116561346B (zh) | 2023-07-06 | 2023-07-06 | 一种基于图卷积网络和信息融合的实体对齐方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116561346A true CN116561346A (zh) | 2023-08-08 |
CN116561346B CN116561346B (zh) | 2023-10-31 |
Family
ID=87496790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310819919.2A Active CN116561346B (zh) | 2023-07-06 | 2023-07-06 | 一种基于图卷积网络和信息融合的实体对齐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561346B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445876A (zh) * | 2020-11-25 | 2021-03-05 | 中国科学院自动化研究所 | 融合结构、属性和关系信息的实体对齐方法和系统 |
CN113111657A (zh) * | 2021-03-04 | 2021-07-13 | 浙江工业大学 | 一种跨语言知识图谱对齐与融合方法、装置及存储介质 |
CN114564597A (zh) * | 2022-03-03 | 2022-05-31 | 上海工程技术大学 | 一种融合多维度多信息的实体对齐方法 |
CN115168620A (zh) * | 2022-09-09 | 2022-10-11 | 之江实验室 | 一种面向知识图谱实体对齐的自监督联合学习方法 |
WO2023273182A1 (zh) * | 2021-06-29 | 2023-01-05 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
US20230133717A1 (en) * | 2021-11-04 | 2023-05-04 | Beijing Baidu Netcom Science Technology Co., Ltd. | Information extraction method and apparatus, electronic device and readable storage medium |
-
2023
- 2023-07-06 CN CN202310819919.2A patent/CN116561346B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112445876A (zh) * | 2020-11-25 | 2021-03-05 | 中国科学院自动化研究所 | 融合结构、属性和关系信息的实体对齐方法和系统 |
CN113111657A (zh) * | 2021-03-04 | 2021-07-13 | 浙江工业大学 | 一种跨语言知识图谱对齐与融合方法、装置及存储介质 |
WO2023273182A1 (zh) * | 2021-06-29 | 2023-01-05 | 北京邮电大学 | 面向多源知识图谱融合的实体对齐方法、装置与系统 |
US20230133717A1 (en) * | 2021-11-04 | 2023-05-04 | Beijing Baidu Netcom Science Technology Co., Ltd. | Information extraction method and apparatus, electronic device and readable storage medium |
CN114564597A (zh) * | 2022-03-03 | 2022-05-31 | 上海工程技术大学 | 一种融合多维度多信息的实体对齐方法 |
CN115168620A (zh) * | 2022-09-09 | 2022-10-11 | 之江实验室 | 一种面向知识图谱实体对齐的自监督联合学习方法 |
Non-Patent Citations (6)
Title |
---|
AND LI等: "multi-view scholar clustering with dynamic interest tracking", 《IEEE TRANSACTION ON KNOWLEDGE AND DATA ENGINEERING》 * |
SUYU OUYANG等: "Scientific and technological text knowledge extraction method of based on word mixing and GRU", 《HTTPS://ARXIV.ORG/ABS/2203.17079》 * |
YANG YANG等: "entity alignment algorithm based on dual-attention and incremental learning mechanism》", 《IEEE ACCESS(VOLUME:7)》 * |
苏佳林等: "自适应属性选择的实体对齐方法", 《山东大学学报(工学版)》, no. 01 * |
赵丹等: "基于双重注意力和关系语义建模的实体对齐方法", 《计算机应用研究》, vol. 39, no. 001 * |
黄峻福等: "中文异构百科知识库实体对齐", 《计算机应用》, no. 07 * |
Also Published As
Publication number | Publication date |
---|---|
CN116561346B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309915B (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
CN111274815B (zh) | 用于挖掘文本中的实体关注点的方法和装置 | |
CN111310485B (zh) | 机器翻译方法、装置及存储介质 | |
WO2023201975A1 (zh) | 一种差异描述语句生成方法、装置、设备及介质 | |
CN111507070B (zh) | 自然语言生成方法和装置 | |
US11669679B2 (en) | Text sequence generating method and apparatus, device and medium | |
US20170091162A1 (en) | Annotating embedded tables | |
CN114792089A (zh) | 用于管理计算机系统的方法、设备和程序产品 | |
CN111488742A (zh) | 用于翻译的方法和装置 | |
CN116955644A (zh) | 基于知识图谱的知识融合方法、系统及存储介质 | |
CN111104796B (zh) | 用于翻译的方法和装置 | |
CN113051894A (zh) | 一种文本纠错的方法和装置 | |
Lone et al. | Machine intelligence for language translation from Kashmiri to English | |
CN115114419A (zh) | 问答处理方法、装置、电子设备和计算机可读介质 | |
CN113255353B (zh) | 一种实体标准化方法 | |
CN116561346B (zh) | 一种基于图卷积网络和信息融合的实体对齐方法及装置 | |
CN112507705B (zh) | 一种位置编码的生成方法、装置及电子设备 | |
CN109753563B (zh) | 基于大数据的标签提取方法、装置及计算机可读存储介质 | |
CN112507721A (zh) | 生成文本主题的方法、装置、设备和计算机可读存储介质 | |
CN111708819A (zh) | 用于信息处理的方法、装置、电子设备和存储介质 | |
Nghiem et al. | Using MathML parallel markup corpora for semantic enrichment of mathematical expressions | |
Li et al. | MiSS: An assistant for multi-style simultaneous translation | |
CN113591493B (zh) | 翻译模型的训练方法及翻译模型的装置 | |
CN104679492A (zh) | 计算机实现的提供技术支持的设备和方法 | |
CN112632955B (zh) | 文本集生成方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |