CN112417163B

CN112417163B - 基于实体线索片段的候选实体对齐方法及装置

Info

Publication number: CN112417163B
Application number: CN202011272427.9A
Authority: CN
Inventors: 陈自岩; 程国艮; 傅兴玉; 李欣杰
Original assignee: Glabal Tone Communication Technology Co ltd
Current assignee: Glabal Tone Communication Technology Co ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2024-07-09
Anticipated expiration: 2040-11-13
Also published as: CN112417163A

Abstract

本发明实施例提供一种基于实体线索片段的候选实体对齐方法及装置。其中，方法包括：根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对；对于每一候选实体对，将候选实体对中的两个实体分别输入至预设的主题模型，获取两个实体的主题向量；根据两个实体的主题向量，确定是否合并两个实体；其中，主题模型是根据样本线索数据和预设的主题进行训练后获得的。本发明实施例提供的基于实体线索片段的候选实体对齐方法及装置，通过对比实体之间线索片段的语义来判定两个实体是否为同一实体，确定是否进行融合，能够充分利用大规模的实体线索信息完成实体之间的对齐和消歧，能提高实体对齐的对齐效果，能大大提高知识图谱的构建质量。

Description

基于实体线索片段的候选实体对齐方法及装置

技术领域

本发明实施例涉及计算机技术领域，更具体地，涉及一种基于实体线索片段的候选实体对齐方法及装置。

背景技术

随着文本数据爆炸式的增长，迫切需要通过知识图谱技术从繁杂的自然语言中提炼出关心的目标实体和实体之间存在的潜在关系，并以实体关系为核心溯源分析实体关系的构建过程。但是文本质量不一，存在大量的不规范性，加上实体抽取和实体链接技术存在一定误差，导致构建出的知识图谱的质量较差，对知识图谱的计算推理和应用带来了巨大挑战。

候选实体对齐方法传统上分为基于知识库的候选实体对齐方法和基于算法训练的候选实体对齐方法。其中，基于知识库的候选实体对齐方法需要构建大规模的覆盖率较高的对齐知识库，依赖知识库的规模和质量，构建过程需要专家参与整理，工作量繁重；基于算法训练的实体方法需要大规模的质量较高的语料。综上，现有候选实体对齐方法存在对齐效果较差的不足。

发明内容

本发明实施例提供一种基于实体线索片段的候选实体对齐方法及装置，用以解决或者至少部分地解决现有技术存在的对齐效果较差的缺陷。

第一方面，本发明实施例提供一种基于实体线索片段的候选实体对齐方法，包括：

根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对；

对于每一所述候选实体对，将所述候选实体对中的两个实体分别输入至预设的主题模型，获取所述两个实体的主题向量；

根据所述两个实体的主题向量，确定是否合并所述两个实体；

其中，所述主题模型是根据样本线索数据和预设的主题进行训练后获得的。

优选地，所述根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对的具体步骤包括：

若判断获知所述每两个实体之间汉明距离小于预设的汉明距离阈值，则将所述每两个实体作为所述候选实体对。

优选地，所述根据所述两个实体的主题向量，确定是否合并所述两个实体的具体步骤包括：

根据所述两个实体的主题向量，获取所述两个实体的主题相似度；

根据所述两个实体的主题相似度，确定是否合并所述两个实体。

优选地，所述根据所述两个实体的主题向量，获取所述两个实体的主题相似度的具体步骤包括：

获取所述两个实体的主题向量之间的余弦相似度，作为所述两个实体的主题相似度。

优选地，所述根据所述两个实体的主题相似度，确定是否合并所述两个实体的具体步骤包括：

若判断获知所述两个实体的主题相似度大于预设的相似度阈值，则将所述两个实体作为待合并的实体对。

优选地，所述根据所述两个实体的主题相似度，确定是否合并所述两个实体的具体步骤还包括：

若判断获知所述两个实体的主题相似度不大于预设的相似度阈值，则确定不合并所述两个实体。

第二方面，本发明实施例提供一种基于实体线索片段的候选实体对齐装置，包括：

候选获取模块，用于根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对；

主题获取模块，用于对于每一所述候选实体对，将所述候选实体对中的两个实体分别输入至预设的主题模型，获取所述两个实体的主题向量；

实体对齐模块，用于根据所述两个实体的主题向量，确定是否合并所述两个实体；

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，执行所述程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于实体线索片段的候选实体对齐方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的基于实体线索片段的候选实体对齐方法的步骤。

本发明实施例提供的基于实体线索片段的候选实体对齐方法及装置，通过对比实体之间线索片段的语义来判定两个实体是否为同一实体，确定是否进行融合，能够充分利用大规模的实体线索信息完成实体之间的对齐和消歧，突破传统的基于单片段的实体链接策略，能提高实体对齐的对齐效果，能实现基于实体线索片段的跨句子跨篇章的实体对齐，能大大提高知识图谱的构建质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例提供的基于实体线索片段的候选实体对齐方法的流程示意图；

图2为根据本发明实施例提供的基于实体线索片段的候选实体对齐装置的结构示意图；

图3为根据本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为根据本发明实施例提供的基于实体线索片段的候选实体对齐方法的流程示意图。如图1所示，该方法包括：步骤S101、根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对。

具体地，本发明实施例提供的实体对齐方法，主要从知识图谱库中追溯出实体相关联的大规模线索片段，通过对比实体之间线索片段的语义来判定两个实体是否为同一实体，从而判定是否进行融合。

对于目标知识图谱中提取的每一实体，可以利用汉明距离计算方法，获取从该目标知识图谱中提取的其他实体与该实体之间的汉明距离，匹配计算出该实体的候选实体集合。

该实体，与该实体的候选实体集合中的每一候选实体，构成候选实体对。

通过上述步骤，可以获得若干个候选实体对。

步骤S102、对于每一候选实体对，将候选实体对中的两个实体分别输入至预设的主题模型，获取两个实体的主题向量。

其中，主题模型是根据样本线索数据和预设的主题进行训练后获得的。

具体地，可以从线索库中选择大量(可以超过10万个)实体，选择策略尽量覆盖较广的实体类型，作为样本线索数据。

对于每个实体随机选取不同时间段的文本线索片段，建立实体-实体线索之间的文档关系，形成训练集。

对于每一样本线索数据，可以预先确定该样本线索数据所对应的预设的主题。

可以利用概率主题模型，基于各样本线索数据的词袋模型及每一样本线索数据所对应的预设的主题，进行主题建模迭代训练。

调试主题k等参数，使得模型最优，获得主题模型。

可以获取候选实体对中的每个实体的线索集合，组成实体-文档数据集。

将候选实体对中的每个实体对应的实体-文档数据分别输入主题模型，获取该实体的主题向量。

需要说明的是，主题模型可以为实时实体链接算法提供基础的算法模型服务，提高单实体链接的准确率。

步骤S103、根据两个实体的主题向量，确定是否合并两个实体。

具体地，对于每一候选实体对中的两个实体，根据上述两个实体的主题向量，判断上述两个实体是否为同一实体。

若判断结果为是，则确定合并上述两个实体。

若判断结果为否，则确定不合并上述两个实体。

需要说明的是，在大规模知识图谱构建完成后，知识图谱中实体存在大量的多词同义和一词多义的现象，本发明实施例提供的实体对齐方法充分利用实体的大规模溯源线索，建模实体的主题语义，判别两个实体之间是否存在对齐的可能性，并推荐给用户，用户能够进一步判别，完成两个实体之间的对齐，从而提高知识编辑维护的效率，也极大提高了知识图谱的质量，便于知识图谱的计算推理和行业应用。

本发明实施例通过对比实体之间线索片段的语义来判定两个实体是否为同一实体，确定是否进行融合，能够充分利用大规模的实体线索信息完成实体之间的对齐和消歧，突破传统的基于单片段的实体链接策略，能提高实体对齐的对齐效果，能实现基于实体线索片段的跨句子跨篇章的实体对齐，能大大提高知识图谱的构建质量。

基于上述各实施例的内容，根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对的具体步骤包括：若判断获知每两个实体之间汉明距离小于预设的汉明距离阈值，则将每两个实体作为候选实体对。

具体地，对于目标知识图谱中提取的每一实体，可以利用汉明距离计算方法，获取从该目标知识图谱中提取的其他实体与该实体之间的汉明距离之后，可以判断其他实体与该实体之间的汉明距离是否小于预设的汉明距离阈值。

可以将汉明距离小于预设的汉明距离阈值的其他实体作为候选实体，获取由候选实体构成的候选实体集合。

本发明实施例通过将汉明距离小于预设的汉明距离阈值的两个实体作为候选实体对，对两个实体是否为同一实体进行初步筛选，从而能充分利用大规模的实体线索信息完成实体之间的对齐和消歧，突破传统的基于单片段的实体链接策略，能提高实体对齐的对齐效果，能实现基于实体线索片段的跨句子跨篇章的实体对齐，能大大提高知识图谱的构建质量。

基于上述各实施例的内容，根据两个实体的主题向量，确定是否合并两个实体的具体步骤包括：根据两个实体的主题向量，获取两个实体的主题相似度。

具体地，对于候选实体对中的两个实体，可以根据上述两个实体的主题向量，获取上述两个实体的主题相似度。

主题相似度，可以是两个主题向量之间的余弦相似度、欧氏距离或马氏距离等。

根据两个实体的主题相似度，确定是否合并两个实体。

具体地，两个实体的主题相似度越大，说明上述两个实体是同一实体的可能性越大。

因此，可以根据两个实体的主题相似度，判断上述两个实体是否为同一实体。

若判断结果为是，则确定合并上述两个实体。

若判断结果为否，则确定不合并上述两个实体。

本发明实施例通过根据两个实体的主题向量，获取两个实体的主题相似度，根据两个实体的主题相似度，确定是否合并两个实体，能更准确地判断出两个实体是否为同一实体，能提高实体对齐的对齐效果，能实现基于实体线索片段的跨句子跨篇章的实体对齐，能大大提高知识图谱的构建质量。

基于上述各实施例的内容，根据两个实体的主题向量，获取两个实体的主题相似度的具体步骤包括：获取两个实体的主题向量之间的余弦相似度，作为两个实体的主题相似度。

具体地，可以获取两个实体的主题向量之间的余弦相似度，作为两个实体的主题相似度。

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。

本发明实施例通过获取两个实体的主题向量之间的余弦相似度，作为两个实体的主题相似度，能更准确地判断出两个实体是否为同一实体，能提高实体对齐的对齐效果，能实现基于实体线索片段的跨句子跨篇章的实体对齐，能大大提高知识图谱的构建质量。

基于上述各实施例的内容，根据两个实体的主题相似度，确定是否合并两个实体的具体步骤包括：若判断获知两个实体的主题相似度大于预设的相似度阈值，则将两个实体作为待合并的实体对。

具体地，获取两个实体的主题相似度之后，可以将上述两个实体的主题相似度与预设的相似度阈值进行比较，判断上述两个实体的主题相似度大于预设的相似度阈值。

如果大于，说明上述两个实体很可能是同一实体，可以将上述两个实体作为待合并的实体对。

可以合并该待合并的实体对中的两个实体，实现两个实体信息的融合，还可以将该待合并的实体对推荐给后台管理用户，由后台管理用户进行人工判别，如果确实为同一实体则手动进行实体合并，实现两个实体信息的融合。

本发明实施例通过将主题相似度大于预设的相似度阈值的两个实体作为待合并的实体对，能提高实体对齐的对齐效果，能实现基于实体线索片段的跨句子跨篇章的实体对齐，能大大提高知识图谱的构建质量。

基于上述各实施例的内容，根据两个实体的主题相似度，确定是否合并两个实体的具体步骤还包括：若判断获知两个实体的主题相似度不大于预设的相似度阈值，则确定不合并两个实体。

如果小于，说明上述两个实体不是同一实体，则确定不合并两个实体。

本发明实施例通过确定不合并主题相似度小于预设的相似度阈值的两个实体，能提高实体对齐的对齐效果，能实现基于实体线索片段的跨句子跨篇章的实体对齐，能大大提高知识图谱的构建质量。

图2为根据本发明实施例提供的基于实体线索片段的候选实体对齐装置的结构示意图。基于上述各实施例的内容，如图2所示，该装置包括候选获取模块201、主题获取模块202和实体对齐模块203，其中：

候选获取模块201，用于根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对；

主题获取模块202，用于对于每一候选实体对，将候选实体对中的两个实体分别输入至预设的主题模型，获取两个实体的主题向量；

实体对齐模块203，用于根据两个实体的主题向量，确定是否合并两个实体；

具体地，候选获取模块201、主题获取模块202和实体对齐模块203依次电连接。

候选获取模块201对于目标知识图谱中提取的每一实体，可以利用汉明距离计算方法，获取从该目标知识图谱中提取的其他实体与该实体之间的汉明距离，匹配计算出该实体的候选实体集合。

主题获取模块202将候选实体对中的每个实体对应的实体-文档数据分别输入主题模型，获取该实体的主题向量。

实体对齐模块203对于每一候选实体对中的两个实体，根据上述两个实体的主题向量，判断上述两个实体是否为同一实体。

若判断结果为是，则确定合并上述两个实体。

若判断结果为否，则确定不合并上述两个实体。

本发明实施例提供的基于实体线索片段的候选实体对齐装置，用于执行本发明上述各实施例提供的基于实体线索片段的候选实体对齐方法，该基于实体线索片段的候选实体对齐装置包括的各模块实现相应功能的具体方法和流程详见上述基于实体线索片段的候选实体对齐方法的实施例，此处不再赘述。

该基于实体线索片段的候选实体对齐装置用于前述各实施例的基于实体线索片段的候选实体对齐方法。因此，在前述各实施例中的基于实体线索片段的候选实体对齐方法中的描述和定义，可以用于本发明实施例中各执行模块的理解。

图3为根据本发明实施例提供的电子设备的实体结构示意图。基于上述实施例的内容，如图3所示，该电子设备可以包括：处理器(processor)301、存储器(memory)302和总线303；其中，处理器301和存储器302通过总线303完成相互间的通信；处理器301用于调用存储在存储器302中并可在处理器301上运行的计算机程序指令，以执行上述各方法实施例所提供的基于实体线索片段的候选实体对齐方法，例如包括：根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对；对于每一候选实体对，将候选实体对中的两个实体分别输入至预设的主题模型，获取两个实体的主题向量；根据两个实体的主题向量，确定是否合并两个实体；其中，主题模型是根据样本线索数据和预设的主题进行训练后获得的。

本发明另一实施例公开一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的基于实体线索片段的候选实体对齐方法，例如包括：根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对；对于每一候选实体对，将候选实体对中的两个实体分别输入至预设的主题模型，获取两个实体的主题向量；根据两个实体的主题向量，确定是否合并两个实体；其中，主题模型是根据样本线索数据和预设的主题进行训练后获得的。

此外，上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明另一实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的基于实体线索片段的候选实体对齐方法，例如包括：根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对；对于每一候选实体对，将候选实体对中的两个实体分别输入至预设的主题模型，获取两个实体的主题向量；根据两个实体的主题向量，确定是否合并两个实体；其中，主题模型是根据样本线索数据和预设的主题进行训练后获得的。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行上述各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于实体线索片段的候选实体对齐方法，其特征在于，包括：

根据所述两个实体的主题向量，从知识图谱库中追溯出实体相关联的大规模线索片段，通过对比实体之间线索片段的语义来判定两个实体是否为同一实体，确定是否合并所述两个实体；

其中，所述主题模型是根据样本线索数据和预设的主题进行训练后获得的；

所述根据目标知识图谱中每两个实体之间汉明距离，获取若干个候选实体对的具体步骤包括：

若判断获知所述每两个实体之间汉明距离小于预设的汉明距离阈值，则将所述每两个实体作为所述候选实体对；

所述对于每一所述候选实体对，将所述候选实体对中的两个实体分别输入至预设的主题模型，获取所述两个实体的主题向量，包括：

获取所述候选实体对中的每个实体的线索集合，组成实体-文档数据集；

将所述候选实体对中的每个实体对应的实体-文档数据分别输入所述主题模型，获取所述实体的主题向量。

2.根据权利要求1所述的基于实体线索片段的候选实体对齐方法，其特征在于，所述根据所述两个实体的主题向量，确定是否合并所述两个实体的具体步骤包括：

3.根据权利要求2所述的基于实体线索片段的候选实体对齐方法，其特征在于，所述根据所述两个实体的主题向量，获取所述两个实体的主题相似度的具体步骤包括：

4.根据权利要求2所述的基于实体线索片段的候选实体对齐方法，其特征在于，所述根据所述两个实体的主题相似度，确定是否合并所述两个实体的具体步骤包括：

5.根据权利要求4所述的基于实体线索片段的候选实体对齐方法，其特征在于，所述根据所述两个实体的主题相似度，确定是否合并所述两个实体的具体步骤还包括：

6.一种基于实体线索片段的候选实体对齐装置，其特征在于，包括：

实体对齐模块，用于根据所述两个实体的主题向量，从知识图谱库中追溯出实体相关联的大规模线索片段，通过对比实体之间线索片段的语义来判定两个实体是否为同一实体，确定是否合并所述两个实体；

所述候选获取模块，具体用于若判断获知所述每两个实体之间汉明距离小于预设的汉明距离阈值，则将所述每两个实体作为所述候选实体对；

主题获取模块，具体用于获取所述候选实体对中的每个实体的线索集合，组成实体-文档数据集；将所述候选实体对中的每个实体对应的实体-文档数据分别输入所述主题模型，获取所述实体的主题向量。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述的基于实体线索片段的候选实体对齐方法的步骤。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于实体线索片段的候选实体对齐方法的步骤。