CN113505587B

CN113505587B - 实体抽取方法及相关装置、设备和存储介质

Info

Publication number: CN113505587B
Application number: CN202110700155.6A
Authority: CN
Inventors: 王永康
Original assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Current assignee: Iflytek South China Artificial Intelligence Research Institute Guangzhou Co ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2024-04-09
Anticipated expiration: 2041-06-23
Also published as: CN113505587A

Abstract

本申请公开了一种实体抽取方法及相关装置、设备和存储介质，实体抽取方法包括：从目标文本中获取目标文字片段以及目标文字片段的第一特征表示；在实体知识库中确定目标文字片段的若干候选链接实体，并获取若干候选链接实体的第二特征表示；基于第一特征表示和各候选链接实体的第二特征表示，得到各候选链接实体的第三特征表示；基于第三特征表示，确定目标文字片段是否为实体。通过该方法，可以提高实体抽取的准确度。

Description

实体抽取方法及相关装置、设备和存储介质

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种实体抽取方法及相关装置、设备和存储介质。

背景技术

随着电子技术的发展，文本信息呈现出爆炸式增长的趋势。面对数量庞大的文本信息，如何利用好文本信息显得愈发关键。目前，为了能够有效利用文本信息，通常会使用实体抽取的方法对文本信息进行处理。例如，知识图谱的系统应用中，为了将文本信息和知识图谱联系起来，就需要先进行实体抽取这一步骤。

然而，现有的实体抽取方法，仅利用文本信息来进行实体抽取，这样的抽取方法，导致实体抽取的准确度不高，这也限制了实体抽取技术的进一步发展。

因此，如何提高实体抽取的准确度，具有非常重要的意义。

发明内容

本申请提供一种实体抽取方法及相关装置、设备和存储介质。

本申请第一方面提供了一种实体抽取方法，方法包括：从目标文本中获取目标文字片段以及目标文字片段的第一特征表示；在实体知识库中确定目标文字片段的若干候选链接实体，并获取若干候选链接实体的第二特征表示；基于第一特征表示和各候选链接实体的第二特征表示，得到各候选链接实体的第三特征表示；基于第三特征表示，确定目标文字片段是否为实体。

因此，通过将目标文字片段的第一特征表示和候选链接实体的第二特征表示进行融合得到第三特征表示，并基于融合后的第三特征表示来判断目标文字片段是否为实体，实现了结合实体知识库的特征信息来进行实体抽取，提高了实体抽取的准确度。

本申请第二方面提供了一种实体抽取装置，实体抽取装置包括：第一获取模块、第二获取模块、融合模块和确定模块。第一获取模块用于从目标文本中获取目标文字片段以及目标文字片段的第一特征表示；第二获取模块用于在实体知识库中确定目标文字片段的若干候选链接实体，并获取若干候选链接实体的第二特征表示；融合模块用于基于第一特征表示和各候选链接实体的第二特征表示，得到各候选链接实体的第三特征表示；确定模块用于基于第三特征表示，确定目标文字片段是否为实体。

本申请第三方面提供了一种实体抽取设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面描述的实体抽取方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面描述的实体抽取方法。

上述方案，通过将目标文字片段的第一特征表示和候选链接实体的第二特征表示进行融合得到第三特征表示，并基于融合后的第三特征表示来判断目标文字片段是否为实体，故能够结合实体知识库的特征信息对目标文本进行实体抽取，提高了实体抽取的准确度。

附图说明

图1是本申请实体抽取方法一实施例的第一流程示意图；

图2是本申请实体抽取方法一实施例的第二流程示意图；

图3是本申请实体抽取方法一实施例的第三流程示意图；

图4是本申请实体抽取方法一实施例的第四流程示意图；

图5是本申请实体抽取方法一实施例的第五流程示意图；

图6是本申请实体抽取方法一实施例的第六流程示意图；

图7是本申请实体抽取方法一实施例的第七流程示意图；

图8是本申请实体抽取模型的训练方法一实施例的流程示意图；

图9是本申请实体抽取装置一实施例的框架示意图；

图10是本申请电子设备一实施例的框架示意图；

图11是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

本申请的实体抽取方法可以由实体抽取模型实现。

请参阅图1，图1是本申请实体抽取方法一实施例的第一流程示意图。具体而言，可以包括如下步骤：

步骤S11：从目标文本中获取目标文字片段以及目标文字片段的第一特征表示。

目标文本可以是特定数量的文字。当获取到文本信息以后，可以将该文本进行划分，划分成一段一段的目标文本，若划分到最后，文字的数量不够，可以通过补全的方式，将该部分文字补全为特定数量的目标文本。例如，在获取到文本信息以后，可以将该文本信息划分为包含60个字的目标文本，划分到最后时，若文字的数量不足60，可以通过补0的方式进行补全，使得最后划分出来的目标文本的文字数量为60。

目标文字片段在目标文本中选择出来的包含一定数量文字的文字片段。目标文字片段包含的文字数量不受限制，可以根据需要进行选择。例如，目标文本中包含“今天天气真不错”，则目标文字片段可以是“今天”、“天气”、“不错”、“真不错”以及“天天”等等。在一个实施方式中，可以通过分词器确定目标文字片段，还可以通过排列组合，算法提取等方式获得目标文字片段。

可以通过预先获取目标文字片段包含的每个字的特征表示，并基于目标文字片段包含的字的特征表示，得到目标文字片段的第一特征表示。例如是将目标文字片段包含的字的特征表示进行融合，最后得到目标文字片段的第一特征表示。

在一个实施方式中，在获得目标文本以后，可以对目标文本的每一个字进行编码，以得到每一个字的字特征表示，字特征表示例如是特征向量。对字进行编码的方式例如是one-hot编码，还可以在one-hot编码的基础上，进行再次编码，得到密集向量。

步骤S12：在实体知识库中确定目标文字片段的若干候选链接实体，并获取若干候选链接实体的第二特征表示。

在一个实施方式中，实体知识库是知识图谱。

在一个实施方式中，可以基于得到的每一个目标文字片段，在实体知识库中确定目标文字片段的若干候选链接实体。例如，可以根据目标文字片段包含的字，继而在实体知识库，查找出一定数量的，与目标文字片段包含的字存在对应关系的实体，作为候选链接实体。

在得到候选连接实体以后，可以对这些候选链接实体进行特征提取，以此获得候选链接实体的第二特征表示。若候选链接实体是知识图谱的节点，则可以利用graphembedding算法进行特征提取，以此获得候选链接实体的第二特征表示。graph embedding算法例如是Translating Embedding(transE)算法。

步骤S13：基于第一特征表示和各候选链接实体的第二特征表示，得到各候选链接实体的第三特征表示。

在得到目标文字片段的第一特征表示和候选链接实体的第二特征表示以后，可以将这两种特征进行融合，以此得到候选链接实体的第三特征表示，以此使得候选链接实体的第三特征表示可以包含目标文字片段的特征信息，丰富了候选链接实体的特征信息。

在一个实施方式中，可以是将一个目标文字片段的第一特征表示分别与该目标文字片段对应的每一个候选链接实体的第二特征表示进行融合得到候选链接实体的第三特征表示。

步骤S14：基于第三特征表示，确定目标文字片段是否为实体。

因为每一个候选链接实体的第三特征表示均融合了目标文字片段的特征信息，因此可以基于第三特征表示，确定目标文字片段是否为实体。例如，通过对一个目标文字片段对应的若干候选链接实体的第三特征表示进行计算，当确定出至少存在一个候选链接实体可能是与目标文字片段存在链接关系，即可以认为确定目标文字片段是实体。

在一个实施例中，若确定目标文字片段为实体，则可以在步骤S14之后，继续执行步骤S15，以继续从实体知识库中确定与目标文本的实体链接的实体。当然，可以理解的是，在一些实施例中，在执行步骤S14之后，也可以不再执行步骤S15，即实现目标文本的实体抽取即可。

步骤S15：从候选链接实体中确定与目标文字片段链接的最终链接实体。

若确定目标文字片段为实体，意味着在与目标文字片段对应的候选链接实体中存在与目标文字片段有链接关系的实体，因此可以从候选链接实体中确定与目标文字片段链接的最终链接实体，实现实体链接，建立目标文字片段和实体知识库的实体的映射关系。

在一个实施方式中，可以是计算候选链接实体中与目标文字片段存在链接关系的概率大小，然后将概率最大的候选链接实体作为最终链接实体。

请参阅图2，图2是本申请实体抽取方法一实施例的第二流程示意图。在本实施例中，上述步骤提及的“获取目标文字片段的第一特征表示”，具体可以包括以下步骤S111和步骤S112。

步骤S111：获取目标文字片段中至少部分字的字特征表示。

在获得目标文本以后，可以对目标文本的每一个字进行编码，以得到每一个字的字特征表示，特征表示例如是特征向量。对字进行编码的方式例如是one-hot编码，还可以在one-hot编码的基础上，进行再次编码，得到密集向量。然后，再获取目标文字片段中至少部分字的字特征表示。在一个实施方式中，也可以是先确定目标文字片段中至少部分字，然后再对这些字进行编码，以得到至少部分字的字特征表示。

在一个实施方式中，目标文字片段中至少部分字包括目标文字片段中位于预设位置的字。目标文字片段中位于预设位置的字，可以是目标文字片段的首字和末字，例如目标文字片段为“移动电话”，则位于预设位置的字可以是“移”和“话”。在其他的实施方式中，预设位置的字也可以是整个的目标文字片段的字。可以理解的，预设位置的设置不受限制，可根据需要进行设置。

在一个实施方式中，目标文字片段包括从目标文本中确定的预选词。预选词可以是利用分词器进行分词后得到的。

在一个实施方式中，上述步骤提及的“获取目标文字片段中至少部分字的字特征表示”具体可以包括步骤S1111和步骤S1112。

步骤S1111：基于字的初始字向量与包含字的预选词的词向量，得到字的最终字向量。

字的初始字向量可以是通过对字编码的方式得到的特征想向量，例如是one-hot编码。

得到字的初始字向量以后，可以对预选词包含的字的初始字向量进行特征融合，以此得到预选词的词向量。

在一个实施方式中，在执行步骤S1111之前，还可以执行步骤：基于预选词包含的字的初始字向量，得到预选词的词向量，以此获得预选词的词向量。具体的，可以利用不同尺度的卷积核对每一个字的初始字向量进行卷积，以此，可以得到一个字的多种不同的特征向量。然后，将预选词包含的每一个字的多种不同的特征向量进行融合，例如是利用自注意(Self-Attention)模型来融合不同字的多种不同的特征向量，以此得到预选词的词向量。

基于字的初始字向量与包含字的预选词的词向量，得到字的最终字向量，具体可以是将字的初始字向量与包含字的预选词的词向量进行融合，以得到字的最终字向量。具体的，在得到字的初始字向量和预选词的词向量以后，就可以将预选词的词向量的和该预选词包含的每一个字的初始字向量进行特征融合，以此得到该预选词包含的每一个字的最终字向量，使得字的最终字向量的特征信息中可以包含预选词的特征信息，既利用到了词的信息，也利用到了字对于词的相对影响，有助于提高实体抽取的准确度。

步骤S1112：对字的最终字向量进行语义特征提取，得到字的字特征表示。

得到字的最终字向量以后，就可以对字的最终字向量进行语义特征提取，最后得到字的字特征表示，以此获得每一个字的语义特征，有助于提高实体抽取的准确度。

在一个实施方式中，可以利用双向长短期记忆人工神经网络(Long Short-TermMemory，LSTM)来进行语义特征提取。具体的，可以在双向LSTM网络中，在前向结构和后向结构均有和目标文本包含的字的数量一样多的隐层数，每个隐层包含一定数量的神经元，每个隐层输出一个字的特征向量。以此，双向LSTM网络的前向和后向均输出一定维数的特征向量，然后将前向和后向输出的特征向量进行融合，就可以得到字的最终字向量。融合的具体过程例如是将前向和后向输出的特征向量进行拼接，然后利用自注意模型计算每个隐层(如每个隐层对应处理每个字)对于整个目标文本的影响权重，然后进行全连接变化，以此得到目标文本上的每个字的语义特征向量，即得到字的字特征表示。

在一个例子中，目标文本包含的字的数量为60个，双向LSTM网络的前向和后向均设置有60层的隐层，每个隐层包含100个神经元。以此，将目标文本输入到双向LSTM网络后，前向结构和后向结构均会输出每个字的100维的特征向量，将前向和后向输出的特征向量进行拼接，就可以得到(60，200)维的目标文本的特征向量。然后针对(60，200)维的目标文本的特征向量，利用自注意模型计算每个隐层(每个字)对于整个目标文本的影响权重，然后进行全连接变化，以此就可以目标文本中每个字的200维的语义特征向量。

因此，通过将预选词的词向量的和该预选词包含的每一个字的初始字向量进行特征融合，然后再进行语义特征提取，可以充分利用目标文本的特征信息，有助于实体抽取的准确度。

步骤S112：基于字特征表示，得到目标文字片段的第一特征表示。

在得到目标文本中每一个字的字特征表示以后，可以获取目标文字片段包含的字的字特征表示进行融合，以此获得目标文字片段的第一特征表示。例如，可以获得目标文字片段的首字和末字的字特征表示，然后经过全连接，最后得到目标文字片段的第一特征表示。

在一个例子中，每个字的字特征表示为200维特征向量，目标文字片段为“电风扇”，此时可以“电”和“扇”的字特征表示，然后进行全连接并设置最后输出100维的特征向量，以此就可以得到字“电风扇”的第一特征表示。

因此，通过获取目标文字片段中至少部分字的字特征表示，并利用这些字的字特征表示，可以得到目标文字片段的第一特征表示。

请参阅图3，图3是本申请实体抽取方法一实施例的第三流程示意图。在本实施例中，上述提及的若干候选链接实体包括直接候选链接实体和间接候选链接实体。上述步骤提及的“实体知识库中确定目标文字片段的若干候选链接实体”具体可以包括步骤S121和步骤S122。

步骤S121：在实体知识库中确定与目标文字片段满足匹配要求的实体，作为直接候选链接实体。

在一个实施例中，实体知识库为知识图谱。

在一个实施例中，匹配要求为与目标文字片段的差异度低于预设差异要求的实体。在一个具体实施方式中，差异度是实体知识库的实体与目标文字片段包含的字相差的字数，预设差异度则相差一定数量的字，例如是相差两个字。例如，目标文字片段为“奶茶”，则实体知识库中的“奶茶”、“茶”、“奶”、“冰奶茶”等等，都是与目标文字片段(奶茶)的差异度低于预设差异要求的实体。

步骤S122：在实体知识库中确定与直接候选链接实体满足预设关系要求的实体，作为间接候选链接实体。

在实体确定知识库中确定了直接候选链接实体以后，因为和这些直接候选链接实体具有连接关系的其他实体，也可能是与目标文字片段具有连接关系的实体，为了提高后续实体抽取的准确度，可以在实体知识库中确定与直接候选链接实体满足预设关系要求的实体，作为间接候选链接实体。

在一个实施方式中，预设关系要求为与直接候选链接实体具有链接关系，即可以理解为，在实体知识库中，将与直接候选链接实体直接相连的实体确定为间接候选链接实体。

因此，通过确定直接候选链接实体，以及和直接候选链接实体具有链接关系的间接候选链接实体，后续可以利用这些实体的特征表示进行实体抽取，有助于提高实体抽取的准确度。

请参阅图4，图4是本申请实体抽取方法一实施例的第四流程示意图。本实施例是对上述步骤提及的“获取若干候选链接实体的第二特征表示”进一步扩展，具体可以包括步骤S123和步骤S124。

步骤S123：获取候选链接实体的初始特征表示。

在确定候选链接实体以后，可以对这些候选连接实体进行特征提取，以获得候选链接实体的初始特征表示。

在一个实施例中，获取候选链接实体的初始特征表示具体可以包括以下步骤S1231和步骤S1232。

步骤S1231：将若干候选链接实体组成候选图。

确定候选链接实体(包括直接候选链接实体和间接候选链接实体)以后，可以利用这些实体组成候选图，候选图为图论中的图。具体的，可以设置候选图中的节点为候选链接实体，候选图中节点之间的边表示对应候选链接实体之间的关联关系。

例如，候选链接实体中有直接候选链接实体A和与A具有链接关系B、C和D，其中B、C和D之间各不相连，则在候选图中，A、B、C和D均为一个节点，且B、C和D均和A有边连接，B、C和D相互之间没有边连接。

步骤S1232：对候选图进行向量编码，得到候选链接实体的初始特征表示。

得到候选图以后，可以通过对候选图进行向量编码的方法，以此得到候选图中每一个节点的向量编码，也即是得到每一个候选链接实体的初始特征表示。向量编码方法例如是利用graph embedding算法进行特征提取，以此获得候选链接实体的初始特征表示。graph embedding算法例如是Translating Embedding(transE)算法。在一个实施方式中，在进行graph embedding操作以后，还可以利用Graph Convolutional Network(GCN)进行卷积操作，来得到候选链接实体在候选图的空间特征信息。

通过将候选链接实体组成候选图，并对候选图进行向量编码，可以获得候选链接实体的初始特征表示，该初始特征表示可以包含了候选链接实体的空间信息，方便后续进行实体抽取。

步骤S124：将目标文本中字的字特征表示与候选链接实体的初始特征表示进行融合，以得到候选链接实体的第二特征表示。

得到候选链接实体的初始特征表示后，可以将目标文本中字的字特征表示与候选链接实体的初始特征表示进行融合，以得到候选链接实体的第二特征表示，以此使得候选链接实体的特征表示能够包含目标文本中包含的字的特征信息，有助于提高后续实体抽取的准确度。

在一个实施方式中，上述步骤提及的“将目标文本中字的字特征表示与候选链接实体的初始特征表示进行融合，以得到候选链接实体的第二特征表示”具体可以包括步骤S1241和步骤S1242。

步骤S1241：将目标文本中所有字的字特征表示与候选链接实体的初始特征表示进行融合，得到候选链接实体的中间特征表示。

目标文本中所有字的字特征表示与候选链接实体的初始特征表示进行融合，即是将目标文本中的每一个字的字特征表示与一个候选链接实体的初始特征表示进行融合，以此得到该候选链接实体的中间特征表示。

在一个实施方式中，可以利用以下公式(1)将目标文本中所有字的字特征表示与候选链接实体的初始特征表示进行融合。

其中，H_i为字特征表示；i表示字在目标文本中的位置，例如，i为1则表示是目标文本中第1个字的字特征表示；G_j为候选链接实体的初始特征表示，j表示对候选图进行向量编码后输出的第j个候选链接实体；W_h、W_g、b、v为可调参数，其中，W_h、W_g是矩阵，b、v是向量，v^T表示向量的矩阵运算；tanh表示双曲正切(tanh)激活函数。

在融合的过程，可以固定j，即确定一个候选链接实体，变换i，直至遍历目标文本中的每一个字，以此就可以将目标文本中所有字的字特征表示与候选链接实体的初始特征表示进行融合。对于一个节点而言，可以得到i个特征向量，此时可以进一步将这些特征向量/>再次融合，以得到候选链接实体的中间特征表示。

在一个实施方式中，可以利用公式(2)和公式(3)来进行进一步的融合，得到候选链接实体的中间特征表示。

其中，表示计算每一个/>特征向量的影响权重/>softmax则是softmax激活函数。

其中，H_i为字特征表示；i表示字在目标文本中的位置，为每一个/>特征向量的影响权重，G′_j为候选链接实体的中间特征表示。

通过计算每一个字的加权字特征表示，然后将这些加权字特征表示进行融合，可以得到候选链接实体的中间特征表示G′_J，以此可以得到融合目标文本中的字加权字特征表示的候选链接实体的特征信息。

步骤S1242：将候选链接实体的中间特征表示与初始特征表示进行融合，得到候选链接实体的第二特征表示。

在得到候选链接实体的中间特征表示以后，可以进一步将候选链接实体的中间特征表示与初始特征表示进行融合，以此可以将初始特征表示中关于候选链接实体空间信息和目标文本中的字加权字特征信息进行融合，得到候选链接实体的第二特征表示，以此使得候选链接实体的第二特征表示包含的特征信息既包含了目标文本的特征信息也包含了候选图的特征信息，有助于后续提高实体抽取的准确度。

在一个实施方式中，上述的候选链接实体包括与目标文字片段文字相同的第一候选链接实体，以及与目标文字片段文字不同的第二候选链接实体。例如，目标文字片段为“雪糕”，则与目标文字片段文字相同的候选链接实体也是“雪糕”，该候选链接实体即为第一候选链接实体，其余目标文字片段文字不同的第二候选链接实体。

请参阅图5，图5是本申请实体抽取方法一实施例的第五流程示意图。本实施例是对上述步骤提及的“基于第一特征表示和各候选链接实体的第二特征表示，得到各候选链接实体的第三特征表示”的进一步扩展，具体可以包括步骤S131和步骤S132。

步骤S131：将第一特征表示及第一候选链接实体的第二特征表示进行融合，得到第一候选链接实体的第三特征表示。

将第一特征表示及第一候选链接实体的第二特征表示进行融合，即是将目标文字片段的第一特征表示和与目标文字片段文字相同的第一候选链接实体的第二特征表示进行融合，以此得到的第一候选链接实体的第三特征表示就可以包含目标文字片段的特征信息。

步骤S132：将第二候选链接实体的第二特征表示作为第二候选链接实体的第三特征表示。

因为第二候选链接实体的文字与目标文字片段的文字不相同，因此就可以将第二候选链接实体的第二特征表示作为第二候选链接实体的第三特征表示。

因此，通过将第一特征表示及第一候选链接实体的第二特征表示进行融合，可以使得第一候选链接实体的第三特征表示包含目标文字片段的特征信息，有助于提高后续实体抽取的准确度。

请参阅图6，图6是本申请实体抽取方法一实施例的第六流程示意图。本实施例是对上述步骤提及的“基于第三特征表示，确定目标文字片段是否为实体”进一步扩展，具体可以包括步骤S141和步骤S142。

步骤S141：基于各候选链接实体的第三特征表示，得到目标文字片段属于实体的第一概率。

在得到每一个候选链接实体的第三特征表示以后，就可以基于各候选链接实体的第三特征表示，得到关于与候选链接实体有对应关系的目标文字片段是否属于实体的第一概率。

在一个实施方式中，可以利用以下公式(4)计算第一概率。

P＝sigmoid(W_sN_k)

其中，N_k为一个目标文字片段对应的候选链接实体的第三特征表示；W_s为矩阵可调参数；sigmoid表示sigmoid激活函数；P即为计算出基于一个候选链接实体的第三特征表示得到的目标文字片段是否为实体的第一概率。

步骤S142：基于第一概率确定目标文字片段是否为实体。

在一个实施方式中，可以设定第一概率大于预设阈值时，则对应的候选链接实体可能是与目标文字片段具有链接关系的最终链接实体，而这也同时表明该目标文字片段为实体。因此，只要得到目标文字片段对应的一个候选链接实体的属于实体的第一概率大于预设阈值，即可以确定目标文字片段为实体。

请参阅图7，图7是本申请实体抽取方法一实施例的第七流程示意图。本实施例是对上述步骤提及的“从候选链接实体中确定与目标文字片段链接的最终链接实体”进一步扩展，具体包括步骤S151和步骤S152。

步骤S151：基于候选链接实体的第三特征表示，得到候选链接实体为目标文字片段的链接实体的第二概率。

在确定目标文字片段为实体以后，可以继续基于候选链接实体的第三特征表示，计算候选链接实体为目标文字片段的链接实体的第二概率。

在一个实施方式中，可以是计算步骤S142中第一概率大于预设阈值的候选链接实体的第二概率，以此可以减少计算量，提高实体抽取的速度。

在一个实施方式中，可以利用以下公式(5)计算第一概率。

P＝softmax(W_xN_i)

其中，N_i为目标文字片段对应的候选链接实体的第三特征表示；W_x为矩阵可调参数；softmax表示softmax激活函数；P即为计算得到的候选链接实体为目标文字片段的链接实体的第二概率。

步骤S152：选择第二概率满足预设要求的候选链接实体，作为与目标文字片段链接的最终链接实体。

在一个实施方式中，第二概率满足预设要求可以是在全部候选链接实体对应的第二概率中最大的那个，即在一个目标文字片段对应的全部候选链接实体对应的第二概率中，选择概率值最大的候选链接实体作为最终链接实体。

因此，通过计算每一个候选链接实体为目标文字片段的链接实体的第二概率，可以确定与目标文字片段链接的最终链接实体。

请参阅图8，图8是本申请实体抽取模型的训练方法一实施例的流程示意图。具体的，实体抽取模型的训练方法包括以下步骤：

步骤S21：获取样本文本。

在本实施例中，样本文本标注了实体的位置，以及在实体知识库中与实体对应的样本链接实体。

步骤S22：利用实体抽取模型对样本文本进行实体抽取，以确定样本文本中预测实体的预测位置，以及确定在实体知识库中与预测实体对应的预测链接实体。

本实施例的实体抽取模型可以执行上述实施例描述的实体抽取方法。通过利用实体抽取模型对样本文本进行实体抽取，实体抽取模型能够输出样本文本中预测实体的预测位置，以及确定在实体知识库中与预测实体对应的预测链接实体。预测链接实体为实体知识库中实体。

步骤S23：基于预测实体的预测位置和实体的位置的差异，以及预测链接实体和样本链接实体的差异，调整实体抽取模型网络参数。

在实体抽取模型得到预测结果以后，就可以将预测结果和标注结果进行比较，进而调整实体抽取模型网络参数。

在一个实施方式中，可以基于预测实体的预测位置和实体的位置的差异和预测链接实体和样本链接实体的差异的交叉熵，来调整实体抽取模型网络参数。

因此，通过上述的训练方法，可以训练出符合要求的实体抽取模型。

请参阅图9，图9是本申请实体抽取装置一实施例的框架示意图。实体抽取装置90包括第一获取模块91、第二获取模块92、融合模块93和确定模块94。第一获取模块91用于执行从目标文本中获取目标文字片段以及目标文字片段的第一特征表示；第二获取模块92用于执行在实体知识库中确定目标文字片段的若干候选链接实体，并获取若干候选链接实体的第二特征表示；融合模块93用于执行基于第一特征表示和各候选链接实体的第二特征表示，得到各候选链接实体的第三特征表示；确定模块94用于执行基于第三特征表示，确定目标文字片段是否为实体。

其中，上述的若干候选链接实体包括与目标文字片段文字相同的第一候选链接实体，以及与目标文字片段文字不同的第二候选链接实体。上述的融合模块93用于执行基于第一特征表示和各候选链接实体的第二特征表示，得到各候选链接实体的第三特征表示，具体包括：将第一特征表示及第一候选链接实体的第二特征表示进行融合，得到第一候选链接实体的第三特征表示；以及将第二候选链接实体的第二特征表示作为第二候选链接实体的第三特征表示。

其中，上述的第一获取模块91用于执行获取目标文字片段的第一特征表示，包括：获取目标文字片段中至少部分字的字特征表示；基于字特征表示，得到目标文字片段的第一特征表示。

其中，上述的目标文字片段中至少部分字包括目标文字片段中位于预设位置的字。上述的目标文字片段包括从目标文本中确定的预选词。上述的第一获取模块91用于执行获取目标文字片段中至少部分字的字特征表示，包括：基于字的初始字向量与包含字的预选词的词向量，得到字的最终字向量；对字的最终字向量进行语义特征提取，得到字的字特征表示。

因此，通过将预选词的词向量的和该预选词包含的每一个字的初始字向量进行特征融合，使得字的最终字向量的特征信息中可以包含预选词的特征信息，既利用到了词的信息，也利用到了字对于词的相对影响，有助于提高实体抽取的准确度。

其中，实体抽取装置90还包括第三获取模块，在上述的第一获取模块91用于执行基于字的初始字向量与包含字的预选词的词向量，得到字的最终字向量之前，第三获取模块用于执行基于预选词包含的字的初始字向量，得到预选词的词向量。上述的第一获取模块91用于执行基于字的初始字向量与包含字的预选词的词向量，得到字的最终字向量，包括：对字的初始字向量与包含字的预选词的词向量进行融合，得到字的最终字向量。

因此，通过基于预选词包含的字的初始字向量来得到预选词的词向量，使得预选词的词向量能够包含字的初始字向量的特征信息。

其中，上述的第二获取模块92用于执行获取若干候选链接实体的第二特征表示，具体包括：获取候选链接实体的初始特征表示；将目标文本中字的字特征表示与候选链接实体的初始特征表示进行融合，以得到候选链接实体的第二特征表示。

因此，通过将目标文本中字的字特征表示与候选链接实体的初始特征表示进行融合来得到候选链接实体的第二特征表示，以此使得候选链接实体的特征表示能够包含目标文本中包含的字的特征信息，有助于提高后续实体抽取的准确度。

其中，上述的第二获取模块92用于执行获取候选链接实体的初始特征表示，包括：将若干候选链接实体组成候选图，其中，候选图中的节点为候选链接实体，候选图中节点之间的边表示对应候选链接实体之间的关联关系；对候选图进行向量编码，得到候选链接实体的初始特征表示。上述的第二获取模块92用于执行将目标文本中字的字特征表示与候选链接实体的初始特征表示进行融合，以得到候选链接实体的第二特征表示，包括：将目标文本中所有字的字特征表示与候选链接实体的初始特征表示进行融合，得到候选链接实体的中间特征表示；将候选链接实体的中间特征表示与初始特征表示进行融合，得到候选链接实体的第二特征表示。

因此，在得到候选链接实体的中间特征表示以后，可以进一步将候选链接实体的中间特征表示与初始特征表示进行融合，以此可以将初始特征表示中关于候选链接实体空间信息和目标文本中的字加权字特征信息进行融合，得到候选链接实体的第二特征表示，以此使得候选链接实体的第二特征表示包含的特征信息既包含了目标文本的特征信息也包含了候选图的特征信息，有助于后续提高实体抽取的准确度。

其中，上述的若干候选链接实体包括直接候选链接实体和间接候选链接实体。上述的第二获取模块92用于执行在实体知识库中确定目标文字片段的若干候选链接实体，包括：在实体知识库中确定与目标文字片段满足匹配要求的实体，作为直接候选链接实体；在实体知识库中确定与直接候选链接实体满足预设关系要求的实体，作为间接候选链接实体。

其中，上述的实体知识库为知识图谱。上述的匹配要求为与目标文字片段的差异度低于预设差异要求的实体。上述的预设关系要求为与直接候选链接实体具有链接关系。

通过进一步限定匹配要求和预设关系，可以确定出可能和目标文字片段具有链接关系的链接实体。

其中，实体抽取装置90还包括第二确定模块，在上述的确定模块94用于执行基于第三特征表示，确定目标文字片段是否为实体之后，若确定目标文字片段为实体，则第二确定模块用于执行从候选链接实体中确定与目标文字片段链接的最终链接实体。

因此，通过从候选链接实体中确定与目标文字片段链接的最终链接实体，实现实体链接，建立目标文字片段和实体知识库的实体的映射关系。

其中，上述的定模块用于执行基于第三特征表示，确定目标文字片段是否为实体，具体包括：基于各候选链接实体的第三特征表示，得到目标文字片段属于实体的第一概率；基于第一概率确定述目标文字片段是否为实体。上述的第二确定模块用于执行从候选链接实体中确定与目标文字片段链接的最终链接实体，包括：基于候选链接实体的第三特征表示，得到候选链接实体为目标文字片段的链接实体的第二概率；选择第二概率满足预设要求的候选链接实体，作为与目标文字片段链接的最终链接实体。

因此，通过计算第一概率和第二概率，可以基于第一概率的值和第二概率的值来确定目标文字片段是否为实体，以及候选链接实体是否为目标文字片段的链接实体。

请参阅图10，图10是本申请电子设备一实施例的框架示意图。电子设备100包括相互耦接的存储器101和处理器102，处理器102用于执行存储器101中存储的程序指令，以实现上述任一实体抽取方法实施例的步骤。在一个具体的实施场景中，电子设备100可以包括但不限于：微型计算机、服务器，此外，电子设备100还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器102用于控制其自身以及存储器101以实现上述任一实体抽取方法实施例的步骤。处理器102还可以称为CPU(Central Processing Unit，中央处理单元)。处理器102可能是一种集成电路芯片，具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器102可以由集成电路芯片共同实现。

请参阅图11，图11为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质110存储有能够被处理器运行的程序指令111，程序指令111用于实现上述任一实体抽取方法实施例的步骤。

上述方案，能够提高实体抽取的准确度。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种实体抽取方法，其特征在于，包括：

从目标文本中获取目标文字片段以及所述目标文字片段的第一特征表示；

在实体知识库中确定所述目标文字片段的若干候选链接实体，并获取所述若干候选链接实体的第二特征表示；

基于所述第一特征表示和各所述候选链接实体的第二特征表示，得到各所述候选链接实体的第三特征表示；

基于所述第三特征表示，确定所述目标文字片段是否为实体；

所述获取所述若干候选链接实体的第二特征表示，包括：

获取所述候选链接实体的初始特征表示；

将所述目标文本中字的字特征表示与所述候选链接实体的初始特征表示进行融合，以得到所述候选链接实体的所述第二特征表示；

其中，所述获取所述候选链接实体的初始特征表示，包括：

将所述若干候选链接实体组成候选图，其中，所述候选图中的节点为所述候选链接实体，所述候选图中节点之间的边表示对应所述候选链接实体之间的关联关系；

对所述候选图进行向量编码，得到所述候选链接实体的初始特征表示；

和/或，所述将所述目标文本中字的字特征表示与所述候选链接实体的初始特征表示进行融合，以得到所述候选链接实体的所述第二特征表示，包括：

将所述目标文本中所有字的字特征表示与所述候选链接实体的初始特征表示进行融合，得到所述候选链接实体的中间特征表示；

将所述候选链接实体的中间特征表示与所述初始特征表示进行融合，得到所述候选链接实体的所述第二特征表示。

2.根据权利要求1所述的方法，其特征在于，所述若干候选链接实体包括与所述目标文字片段文字相同的第一候选链接实体，以及与所述目标文字片段文字不同的第二候选链接实体；

所述基于所述第一特征表示和各所述候选链接实体的第二特征表示，得到各所述候选链接实体的第三特征表示，包括：

将所述第一特征表示及所述第一候选链接实体的第二特征表示进行融合，得到所述第一候选链接实体的第三特征表示；以及

将所述第二候选链接实体的第二特征表示作为所述第二候选链接实体的第三特征表示。

3.根据权利要求1所述的方法，其特征在于，获取所述目标文字片段的第一特征表示，包括：

获取所述目标文字片段中至少部分字的字特征表示；

基于所述字特征表示，得到所述目标文字片段的第一特征表示。

4.根据权利要求3所述的方法，其特征在于，所述目标文字片段中至少部分字包括所述目标文字片段中位于预设位置的字；

和/或，所述目标文字片段包括从所述目标文本中确定的预选词，所述获取所述目标文字片段中至少部分字的字特征表示，包括：

基于所述字的初始字向量与包含所述字的所述预选词的词向量，得到所述字的最终字向量；

对所述字的最终字向量进行语义特征提取，得到所述字的字特征表示。

5.根据权利要求4所述的方法，其特征在于，在所述基于所述字的初始字向量与包含所述字的所述预选词的词向量，得到所述字的最终字向量之前，所述方法还包括：基于所述预选词包含的字的初始字向量，得到所述预选词的词向量；

所述基于所述字的初始字向量与包含所述字的所述预选词的词向量，得到所述字的最终字向量，包括：

对所述字的初始字向量与包含所述字的所述预选词的词向量进行融合，得到所述字的最终字向量。

6.根据权利要求1所述的方法，其特征在于，所述若干候选链接实体包括直接候选链接实体和间接候选链接实体；所述在实体知识库中确定所述目标文字片段的若干候选链接实体，包括：

在所述实体知识库中确定与所述目标文字片段满足匹配要求的实体，作为直接候选链接实体；

在所述实体知识库中确定与所述直接候选链接实体满足预设关系要求的实体，作为间接候选链接实体。

7.根据权利要求6所述的方法，其特征在于，所述实体知识库为知识图谱；

所述匹配要求为与所述目标文字片段的差异度低于预设差异要求的实体；

所述预设关系要求为与所述直接候选链接实体具有链接关系。

8.根据权利要求1所述的方法，其特征在于，在所述基于所述第三特征表示，确定所述目标文字片段是否为实体之后，所述方法还包括：

若确定所述目标文字片段为实体，则从所述候选链接实体中确定与所述目标文字片段链接的最终链接实体。

9.根据权利要求8所述的方法，其特征在于，所述基于所述第三特征表示，确定所述目标文字片段是否为实体，包括：

基于各所述候选链接实体的所述第三特征表示，得到所述目标文字片段属于所述实体的第一概率；

基于所述第一概率确定所述目标文字片段是否为实体；

所述从所述候选链接实体中确定与所述目标文字片段链接的最终链接实体，包括：

基于所述候选链接实体的所述第三特征表示，得到所述候选链接实体为所述目标文字片段的链接实体的第二概率；

选择所述第二概率满足预设要求的所述候选链接实体，作为与所述目标文字片段链接的最终链接实体。

10.根据权利要求1所述的方法，其特征在于，所述实体抽取方法是由实体抽取模型实现，所述实体抽取方法还包括以下步骤，以对所述实体抽取模型进行训练；

获取样本文本，其中，所述样本文本标注了实体的位置，以及在实体知识库中与所述实体对应的样本链接实体；

利用所述实体抽取模型对所述样本文本进行实体抽取，以确定所述样本文本中预测实体的预测位置，以及确定在所述实体知识库中与所述预测实体对应的预测链接实体；

基于所述预测实体的预测位置和所述实体的位置的差异，以及所述预测链接实体和所述样本链接实体的差异，调整所述实体抽取模型网络参数。

11.一种实体抽取装置，其特征在于，包括：

第一获取模块，用于从目标文本中获取目标文字片段以及所述目标文字片段的第一特征表示；

第二获取模块，用于在实体知识库中确定所述目标文字片段的若干候选链接实体，并获取所述若干候选链接实体的第二特征表示；

融合模块，用于基于所述第一特征表示和各所述候选链接实体的第二特征表示，得到各所述候选链接实体的第三特征表示；

确定模块，用于基于所述第三特征表示，确定所述目标文字片段是否为实体；

所述获取所述若干候选链接实体的第二特征表示，包括：

获取所述候选链接实体的初始特征表示；

其中，所述获取所述候选链接实体的初始特征表示，包括：

12.一种实体抽取设备，其特征在于，包括相互耦接的处理器和存储器，其中，

所述处理器用于执行所述存储器存储的计算机程序以执行权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的计算机程序，所述计算机程序用于实现如执行权利要求1至10任一项所述的方法。