CN111460821A

CN111460821A - 一种实体识别与链接方法及装置

Info

Publication number: CN111460821A
Application number: CN202010177043.2A
Authority: CN
Inventors: 曾祥荣
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-28
Anticipated expiration: 2040-03-13
Also published as: CN111460821B

Abstract

本发明公开了一种实体识别与链接方法及装置，包括：获取当前输入文本的第一字序列；将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量；根据输出向量序列判断当前输入文本属于预设实体的概率；将概率最大的预设实体确定为目标实体；将当前输入文本和目标实体进行链接。通过识别当前输入文本所述预设实体的概率来确定目标实体进而和目标实体实现链接，使得在识别了目标实体的同时又链接了目标实体，避免了误链接情况的发生，解决了现有技术中如果实体识别部分识别出错，必然导致实体链接失败，进而导致出现严重的后果，提高了准确性和安全性。

Description

一种实体识别与链接方法及装置

技术领域

本发明涉及实体链接技术领域，尤其涉及一种实体识别与链接方法及装置。

背景技术

大数据时代的到来，为人工智能的飞速发展带来前所未有的数据红利。在大数据的“喂养”下，人工智能技术获得了前所未有的长足进步。其进展突出体现在以知识图谱为代表的知识工程以及深度学习为代表的机器学习等相关领域。随着深度学习对于大数据的红利消耗殆尽，深度学习模型效果的天花板日益迫近。另一方面大量知识图谱不断涌现，这些蕴含人类大量先验知识的宝库却尚未被深度学习有效利用。融合知识图谱与深度学习，已然成为进一步提升深度学习模型效果的重要思路之一。而在知识图谱技术中，最为基础且重要的是实体的识别与实体链接技术。

现有技术的实体识别和链接的方法通常分成实体识别与实体链接两个独立的步骤。即先使用实体识别模块识别出文本中的潜在实体，再通过实体链接模块将潜在的实体链接到目标实体上。这种方法存在以下缺点：已有的实体识别与链接系统以流水线的方式前进行实体识别，再进行实体链接，因此会受到误差传递的影响。即如果实体识别部分识别出错，必然导致实体链接失败，进而导致出现严重的后果。

发明内容

针对上述所显示出来的问题，本方法基于识别当前输入文本为预设实体的概率，将概率最大得预设实体确定是否为目标实体，然后将当前输入文本和目标实体实现链接。

一种实体识别与链接方法，包括以下步骤：

获取当前输入文本的第一字序列；

将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量；

根据所述输出向量序列判断所述当前输入文本属于所述预设实体的概率；

将所述概率最大的预设实体确定为目标实体；

将所述当前输入文本和所述目标实体进行链接。

优选的，所述获取当前输入文本的第一字序列，包括：

将所述当前输入文本以汉字和标点符号为单位，拆分为第三字序列w＝[w₁,w₂,…,w_n]，其中，n为所述当前输入文本中字符的个数；

在所述第三字序列前增加第一特殊字符“[CLS]”，在所述第三字序列后增加第二特殊字符“[SEP]”；

将增加了特殊字符的所述第三字序列确定为所述第一字序列；

在将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量之前，所述方法还包括：

预先建立一个实体表E＝[e₁,e₂,…,e_m]，其中，所述m为所述实体表中的实体个数。

优选的，所述将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量，包括：

在实体表中抽取实体e_j作为所述预设实体；其中，j∈[1,m]

将所述实体e_j拆分为第二字序列

其中k表示所述实体e_j包含的字符的个数；

在所述第一字序列后拼接所述第二字序列确定最终的第四字序列T＝[t₁,t₂,…,t_n+k+2]，其中，所述t₁对应第一特殊字符“[CLS]”，t₂,…,t_n+1分别对应w₁,w₂,…,w_n，t_n+2对应第二特殊字符“[SEP]”，t_n+2+1,…,t_n+2+k分别对应

获取所述第四字序列的输入向量序列；

将所述输入向量序列输入到所述BERT模型中得到所述输出序列向量。

优选的，所述根据所述输出向量序列判断所述当前输入文本属于所述预设实体的概率，包括：

根据所述输出向量序列设置第一标签和第二标签；

确定所述第一字序列中每个字符的当前标签属于所述第一序列标签的第一概率或者属于所述第二标签的第二概率；

根据所述第一概率确定识别的第一当前实体，根据所述第二概率确定识别的第二当前实体；

利用下列公式计算所述第一当前实体和第二当前实体是否属于实体e_j：

q_j＝sigmoid(u₁×W₂+b₂)

其中，所述W₂、b₂为预设参数，所述q_j为所述第一当前实体或第二当前实体链接到所述实体e_j的概率。

优选的，在将所述概率最大的预设实体确定为目标实体之前，所述方法还包括：

获取所述第一字序列链接到实体表中m个实体的概率q＝[q₁,…,q_j…,q_m]；

所述将所述概率最大的预设实体确定为目标实体，包括：

获取所述概率q中的最大值；

确定所述最大值对应的第一实体，其中，所述第一实体为所述m个实体中的任一实体；

将所述第一实体确定为目标实体。

一种实体识别与链接装置，该装置包括：

第一获取模块，用于获取当前输入文本的第一字序列；

结合模块，用于将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量；

判断模块，用于根据所述输出向量序列判断所述当前输入文本属于所述预设实体的概率；

确定模块，用于将所述概率最大的预设实体确定为目标实体；

链接模块，用于将所述当前输入文本和所述目标实体进行链接。

优选的，所述获取模块，包括：

第一拆分子模块，用于将所述当前输入文本以汉字和标点符号为单位，拆分为第三字序列w＝[w₁,w₂,…,w_n]，其中，n为所述当前输入文本中字符的个数；

增加子模块，用于在所述第三字序列前增加第一特殊字符“[CLS]”，在所述第三字序列后增加第二特殊字符“[SEP]”；

第一确定子模块，用于将增加了特殊字符的所述第三字序列确定为所述第一字序列；

所述装置还包括：

建立模块，用于预先建立一个实体表E＝[e₁,e₂,…,e_m]，其中，所述m为所述实体表中的实体个数。

优选的，所述结合模块，包括：

抽取子模块，用于在实体表中抽取实体e_j作为所述预设实体；其中，j∈[1,m]

第二拆分子模块，用于将所述实体e_j拆分为第二字序列

其中k表示所述实体e_j包含的字符的个数；

第二确定子模块，用于在所述第一字序列后拼接所述第二字序列确定最终的第四字序列T＝[t₁,t₂,…,t_n+k+2]，其中，所述t₁对应第一特殊字符“[CLS]”，t₂,…,t_n+1分别对应w₁,w₂,…,w_n，t_n+2对应第二特殊字符“[SEP]”，t_n+2+1,…,t_n+2+k分别对应

第一获取子模块，用于获取所述第四字序列的输入向量序列；

输入子模块，用于将所述输入向量序列输入到所述BERT模型中得到所述输出序列向量。

优选的，所述判断模块，包括：

设置子模块，用于根据所述输出向量序列设置第一标签和第二标签；

第三确定子模块，用于确定所述第一字序列中每个字符的当前标签属于所述第一序列标签的第一概率或者属于所述第二标签的第二概率；

第四确定子模块，用于根据所述第一概率确定识别的第一当前实体，根据所述第二概率确定识别的第二当前实体；

计算子模块，用于利用下列公式计算所述第一当前实体和第二当前实体是否属于实体e_j：

q_j＝sigmoid(u₁×W₂+b₂)

优选的，所述装置还包括：

第二获取模块，用于获取所述第一字序列链接到实体表中m个实体的概率q＝[q₁,…,q_j…,q_m]；

所述确定模块，包括：

第二获取子模块，用于获取所述概率q中的最大值；

第五确定子模块，用于确定所述最大值对应的第一实体，其中，所述第一实体为所述m个实体中的任一实体；

第六确定子模块，用于将所述第一实体确定为所述目标实体。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种实体识别与链接方法的工作流程图；

图2为本发明所提供的一种实体识别与链接方法的另一工作流程图；

图3为本发明所提供的一种实体识别与链接装置的结构图；

图4为本发明所提供的一种实体识别与链接装置的另一结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

现有技术的实体识别和链接的方法通常分成实体识别与实体链接两个独立的步骤。即先使用实体识别模块识别出文本中的潜在实体，再通过实体链接模块将潜在的实体链接到目标实体上。这种方法存在以下缺点：已有的实体识别与链接系统以流水线的方式前进行实体识别，再进行实体链接，因此会受到误差传递的影响。即如果实体识别部分识别出错，必然导致实体链接失败，进而导致出现严重的后果。为了解决上述问题，本实施例公开了一种基于识别当前输入文本为预设实体的概率，将概率最大得预设实体确定是否为目标实体，然后将当前输入文本和目标实体实现链接的方法。

一种实体识别与链接方法，如图1所示，包括以下步骤：

步骤S101、获取当前输入文本的第一字序列；

步骤S102、将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量；

步骤S103、根据输出向量序列判断当前输入文本属于预设实体的概率；

步骤S104、将概率最大的预设实体确定为目标实体；

步骤S105、将当前输入文本和目标实体进行链接。

上述技术方案的工作原理为：获取当前输入文本的第一字序列，将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量，根据输出向量序列判断当前输入文本属于预设实体的概率，将概率最大的预设实体确定为目标实体，最后将当前输入文本和目标实体进行链接。

上述技术方案的有益效果为：通过识别当前输入文本所述预设实体的概率来确定目标实体进而和目标实体实现链接，使得在识别了目标实体的同时又链接了目标实体，避免了误链接情况的发生，解决了现有技术中如果实体识别部分识别出错，必然导致实体链接失败，进而导致出现严重的后果，提高了准确性和安全性。

在一个实施例中，获取当前输入文本的第一字序列，包括：

将当前输入文本以汉字和标点符号为单位，拆分为第三字序列w＝[w₁,w₂,…,w_n]，其中，n为当前输入文本中字符的个数；

在第三字序列前增加第一特殊字符“[CLS]”，在第三字序列后增加第二特殊字符“[SEP]”；

将增加了特殊字符的第三字序列确定为第一字序列；

在将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量之前，上述方法还包括：

预先建立一个实体表E＝[e₁,e₂,…,e_m]，其中，所述m为实体表中的实体个数。

上述技术方案的有益效果为：通过预先建立实体表来判断当前输入文本的所属实体，相比于现有技术的实时识别，效率更快，准确率更高。

在一个实施例中，将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量，包括：

在实体表中抽取实体e_j作为预设实体；其中，j∈[1,m]

将实体e_j拆分为第二字序列

其中k表示实体e_j包含的字符的个数；

在第一字序列后拼接第二字序列确定最终的第四字序列T＝[t₁,t₂,…,t_n+k+2]，其中，t₁对应第一特殊字符“[CLS]”，t₂,…,t_n+1分别对应w₁,w₂,…,w_n，t_n+2对应第二特殊字符“[SEP]”，t_n+2+1,…,t_n+2+k分别对应

获取第四字序列的输入向量序列；

将输入向量序列输入到BERT模型中得到所述输出序列向量；

在本实施例中，上述获取第四字序列的输入向量序列,将输入向量序列输入到BERT模型中得到所述输出序列向量的步骤为：将第四字序列T中的每个字符转换为其对应的字向量，得到输入向量序列U＝[u₁,u₂,…,u_n+k+2]，其中,u_i是t_i对应的向量,将输入向量序列U输入到BERT模型中得到输出向量序列V＝[v₁,v₂,…,v_n+k+2]。

上述技术方案的有益效果为：通过结合第一字序列和第二字序列使判断是否为预设实体的结果更准确。

在一个实施例中，根据输出向量序列判断当前输入文本属于预设实体的概率，包括：

根据输出向量序列设置第一标签和第二标签；

确定第一字序列中每个字符的当前标签属于第一序列标签的第一概率或者属于第二标签的第二概率；

根据第一概率确定识别的第一当前实体，根据第二概率确定识别的第二当前实体；

利用下列公式计算第一当前实体和第二当前实体是否属于实体e_j：

q_j＝sigmoid(u₁×W₂+b₂)

其中，W₂、b₂为预设参数，q_j为第一当前实体或第二当前实体链接到实体e_j的概率；

在本实施例中，上述第一标签和第二标签我们把他们假设定义为标签Y和标签N，以标签Y为例，如果第一字序列中每个字的子字序列的标签都为标签Y，则将子字序列对应的实体确认为识别的实体，如果第一字序列中的子字序列有多个满足上述条件，则选择子字序列中长度最长的子字序列对应的实体作为识别实体。

上述技术方案的有益效果为：可以准确的确定当前输入文本所识别出来的实体，然后计算识别出的实体是否属于实体e_j,相比于现有技术直接判断实体，本发明可以确定识别的实体，然后再计算是否属于预设实体，一定程度上缩小了实体识别的范围，同时，提高了实时识别的效率和准确性。

在一个实施例中，在将概率最大的预设实体确定为目标实体之前，上述方法还包括：

获取第一字序列链接到实体表中m个实体的概率q＝[q₁,…,q_j…,q_m]；

如图2所示，所述将概率最大的预设实体确定为目标实体，包括：

步骤S201、获取概率q中的最大值；

步骤S202、确定最大值对应的第一实体，其中，第一实体为m个实体中的任一实体；

步骤S203、将第一实体确定为目标实体。

上述技术方案的有益效果为：通过概率更加准确的确定实体表中的哪个实体是目标实体，避免了误识别误链接情况的发生。

本实施例还公开了一种实体识别与链接装置，如图3所示，该装置包括：

第一获取模块301，用于获取当前输入文本的第一字序列；

结合模块302，用于将第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量；

判断模块303，用于根据输出向量序列判断当前输入文本属于预设实体的概率；

确定模块304，用于将概率最大的预设实体确定为目标实体；

链接模块305，用于将当前输入文本和目标实体进行链接。

在一个实施例中，获取模块，包括：

第一拆分子模块，用于将当前输入文本以汉字和标点符号为单位，拆分为第三字序列w＝[w₁,w₂,…,w_n]，其中，n为当前输入文本中字符的个数；

增加子模块，用于在第三字序列前增加第一特殊字符“[CLS]”，在第三字序列后增加第二特殊字符“[SEP]”；

第一确定子模块，用于将增加了特殊字符的第三字序列确定为第一字序列；

上述装置还包括：

建立模块，用于预先建立一个实体表E＝[e₁,e₂,…,e_m]，其中，m为所述实体表中的实体个数。

在一个实施例中，结合模块，包括：

抽取子模块，用于在实体表中抽取实体e_j作为预设实体；其中，j∈[1,m]

第二拆分子模块，用于将实体e_j拆分为第二字序列

其中k表示实体e_j包含的字符的个数；

第二确定子模块，用于在第一字序列后拼接第二字序列确定最终的第四字序列T＝[t₁,t₂,…,t_n+k+2]，其中，t₁对应第一特殊字符“[CLS]”，t₂,…,t_n+1分别对应w₁,w₂,…,w_n，t_n+2对应第二特殊字符“[SEP]”，t_n+2+1,…,t_n+2+k分别对应

第一获取子模块，用于获取第四字序列的输入向量序列；

输入子模块，用于将输入向量序列输入到BERT模型中得到输出序列向量。

在一个实施例中，判断模块，包括：

设置子模块，用于根据输出向量序列设置第一标签和第二标签；

第三确定子模块，用于确定第一字序列中每个字符的当前标签属于第一序列标签的第一概率或者属于第二标签的第二概率；

第四确定子模块，用于根据第一概率确定识别的第一当前实体，根据第二概率确定识别的第二当前实体；

计算子模块，用于利用下列公式计算第一当前实体和第二当前实体是否属于实体e_j：

q_j＝sigmoid(u₁×W₂+b₂)

其中，W₂、b₂为预设参数，q_j为第一当前实体或第二当前实体链接到实体e_j的概率。

在一个实施例中，上述装置还包括：

第二获取模块，用于获取第一字序列链接到实体表中m个实体的概率q＝[q₁,…,q_j…,q_m]；

如图4所示，确定模块，包括：

第二获取子模块3041，用于获取概率q中的最大值；

第五确定子模块3042，用于确定最大值对应的第一实体，其中，第一实体为m个实体中的任一实体；

第六确定子模块3043，用于将第一实体确定为目标实体。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种实体识别与链接方法，其特征在于，包括以下步骤：

获取当前输入文本的第一字序列；

将所述概率最大的预设实体确定为目标实体；

将所述当前输入文本和所述目标实体进行链接。

2.根据权利要求1所述实体识别与链接方法，其特征在于，所述获取当前输入文本的第一字序列，包括：

3.根据权利要求1所述实体识别与链接方法，其特征在于，所述将所述第一字序列和预设实体的第二字序列相结合输入到BERT模型中得到输出序列向量，包括：

在实体表中抽取实体e_j作为所述预设实体；其中，j∈[1,m]

将所述实体e_j拆分为第二字序列

其中k表示所述实体e_j包含的字符的个数；

获取所述第四字序列的输入向量序列；

4.根据权利要求1所述实体识别与链接方法，其特征在于，所述根据所述输出向量序列判断所述当前输入文本属于所述预设实体的概率，包括：

根据所述输出向量序列设置第一标签和第二标签；

q_j＝sigmoid(u₁×W₂+b₂)

5.根据权利要求1所述实体识别与链接方法，其特征在于，在将所述概率最大的预设实体确定为目标实体之前，所述方法还包括：

所述将所述概率最大的预设实体确定为目标实体，包括：

获取所述概率q中的最大值；

将所述第一实体确定为目标实体。

6.一种实体识别与链接装置，其特征在于，该装置包括：

第一获取模块，用于获取当前输入文本的第一字序列；

7.根据权利要求6所述实体识别与链接装置，其特征在于，所述获取模块，包括：

所述装置还包括：

8.根据权利要求6所述实体识别与链接装置，其特征在于，所述结合模块，包括：

第二拆分子模块，用于将所述实体e_j拆分为第二字序列

其中k表示所述实体e_j包含的字符的个数；

9.根据权利要求6所述实体识别与链接装置，其特征在于，所述判断模块，包括：

q_j＝sigmoid(u₁×W₂+b₂)

10.根据权利要求6所述实体识别与链接装置，其特征在于，所述装置还包括：

所述确定模块，包括：

第二获取子模块，用于获取所述概率q中的最大值；