CN109284361A

CN109284361A - 一种基于深度学习的实体抽取方法及系统

Info

Publication number: CN109284361A
Application number: CN201811147097.3A
Authority: CN
Inventors: 马凯; 徐易楠; 刘云峰; 吴悦; 胡晓; 汶林丁; 杨振宇
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-01-29
Also published as: WO2020063148A1

Abstract

本申请涉及一种基于深度学习的实体抽取方法，包括：对语料进行标注，得到输入序列和所述输入序列对应的标注标签；将输入序列输入神经网络模型，得到第一字向量；将第一字向量输入序列标注模块，输出序列预测标签；将标注标签与预测标签输入得分函数，根据得分函数输出结果更新所述神经网络模型参数，生成训练好的神经网络模型；将未进行标注的语料输入所述训练好的神经网络模型，输出语料标签；将语料标签输入解码模块，输出实体。本申请将深度学习结合了传统的特征抽取方法，将抽取的特征融入到深度学习模型中，将这种先验知识加入到模型中，能够有效的加速学习速度，特别是在训练语料比较少的情况下，也能够达到的很好的效果。

Description

一种基于深度学习的实体抽取方法及系统

技术领域

本申请涉及人工智能技术领域，尤其是一种基于深度学习的实体抽取方法及系统。

背景技术

在智能客服领域，通常采用通过人机交互的方式，逐步解答用户的问题。在一问一答的过程中，机器人需要理解用户问题，从而才能精准回答，这往往涉及到意图识别和要素提取。要素包括一些行业领域的专业词汇以及通用领域的实体要素。只有当意图和实体都抽取出来之后，机器人才能给出正确答案，因此实体抽取在智能客户领域具有重要意义。相关技术中，利用条件随机场(CRF)、最大熵模型(ME)或者隐马尔可夫模型(HMM)将命名实体识别转换成一个序列标注问题进行实体抽取。其做法首先是定义好需要识别的实体类别和序列标注的标签，利用实体字典，对常见的中文命名实体进行特征分析，输入到序列标注模型，在大量的文本语料的训练下，可以获得一个命名实体识别模型。但这种方法存在如下问题：(1)需要手工构造大量的特征，严重依赖实体词典的大小以及提取特征质量的好坏，前期需要投入大量的精力，此外提取的特征并不一定有助于识别准确率的提高，需要不断的尝试，试错成本比较高；(2)人类语言是不断更新变化的，一些新的表达，例如现在有人喜欢取类似西方国家的人名，而之前设计的特征并没有考虑到这种变化，所以后期的维护成本比较高。

发明内容

为至少在一定程度上克服相关技术中需要手工构造大量的特征以及后期的维护成本比较高的问题，本申请提供一种基于深度学习的实体抽取方法及系统。

第一方面，本申请提供一种基于深度学习的实体抽取方法，包括：

对语料进行标注，得到输入序列和所述输入序列对应的标注标签；

将所述输入序列输入神经网络模型，得到第一字向量；

将所述第一字向量输入序列标注模块，输出序列预测标签；

将所述标注标签与所述序列预测标签输入得分函数，根据所述得分函数输出结果更新所述神经网络模型参数，生成训练好的神经网络模型；

将未进行标注的语料输入所述训练好的神经网络模型，输出语料标签；

将所述语料标签输入解码模块，输出实体。

进一步的，所述神经网络模型包括输入模块，所述输入序列通过所述输入模块后得到第二字向量，包括：

确定输入序列(x₁,x₂,...,x_n)，所述x_n为第n个字；

通过字典抽取每个字的技术特征，所述技术特征为0或1；

将所述技术特征拼接到每个第一字向量后面，得到第二字向量(e₁,e₂,...,e_n)。

进一步的，所述神经网络模型还包括：

双向的GRU，将所述第二字向量输入所述双向的GRU，得到一个前向向量和一个后向向量将所述前向向量与后向向量进行拼接得到最终第一字向量

进一步的，所述方法还包括：对最终第一字向量进行自注意力处理，以使神经网络模型专注学习最终第一字向量。

进一步的，所述将所述标注标签与所述序列预测标签输入得分函数，包括：

将所述第一字向量输入序列标注模块，输出序列预测标签(y₁,y₂,...y_n)

定义得分函数为：

其中，P∈R^n*k表示神经网络输出的概率得分，k为所有标签数，表示第i个输入对应标签y_i的概率得分；A∈R^k*k表示状态转移矩阵，则表示从状态y_i转移到状态y_i+1的概率得分；

计算整个句子的序列标注y的概率：

其中y_H表示给定输入H的所有可能标签y的输出，代表其中一个标签序列；

计算概率的对数：

取使得S(H,y)最大的y^*为序列预测标签，即：

进一步的，所述解码模块为“BIEOS”特征命名实体框架。

第二方面，本申请提供一种基于深度学习的实体抽取系统，包括：

输入模块、神经网络模块、序列标注模块以及解码输出模块；

所述输入模块、神经网络模块、序列标注模块以及解码输出模块依次连接。

进一步的，所述输入模块包括手工特征提取单元，所述手工特征提取单元从通过字典抽取每个字的技术特征。

进一步的，所述系统还包括：

语言模型，所述语言模型用于初始化所述神经网络模块中部分参数。

进一步的，所述神经网络模块包括：

双向GRU单元和自注意力权重单元。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请将所述输入序列输入神经网络模型，得到第一字向量；将第一字向量输入序列标注模块，输出序列预测标签；将标注标签与序列预测标签输入得分函数，根据得分函数输出结果更新神经网络模型参数，生成训练好的神经网络模型；将未进行标注的语料输入训练好的神经网络模型，输出语料标签；将语料标签输入解码模块，输出实体。本申请通过神经网络模型从数据中自动学习到序列预测标签，从而减少前期手工构造大量特征工程；将少量手工特征作为辅助特征加入到神经网络模型中，在后期更新数据时只需要添加新的标注数据，从而减少后期更新特征的人力投入。进一步的，通过自注意力机制有利于提高神经网络模型的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的基于深度学习的实体抽取方法的流程图。

图2是本申请另一个实施例提供的基于深度学习的实体抽取方法的流程图。

图3是本申请一个实施例提供的基于深度学习的实体抽取系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

在智能客户使用中文与客户进行交流场景下，目前的中文实体抽取方法很难达到一个较高的实体识别准确率，限制了实体识别在实际工程中的进一步应用。目前主流实体识别方法存在以下几个缺点：(1)需要手工构造大量的特征，严重依赖实体词典的大小以及提取特征质量的好坏，前期需要投入大量的精力，此外提取的特征并不一定有助于识别准确率的提高，需要不断的尝试，试错成本比较高；(2)人类语言是不断更新变化的，一些新的表达，例如现在有人喜欢取类似西方国家的人名，而之前设计的特征并没有考虑到这种变化，所以后期的维护成本比较高。为了解决上述问题，本实施例提供一种基于深度学习的实体抽取系统，该系统包括输入模块、神经网络模块、序列标注模块以及解码输出模块，实现实体自动抽取，并且减少后期维护成本。

如图1所示，本实施例的方法包括：

S11：对语料进行标注，得到输入序列和所述输入序列对应的标注标签。

从客服系统中获取历史对话语料，并人工对语料进行标注，将得到的输入序列作为神经网络模型的训练数据。

S12：将所述输入序列输入神经网络模型，得到第一字向量。

作为本发明可选的一种实现方式，神经网络模型包括输入模块，所述输入序列通过所述输入模块后得到第二字向量，包括：

确定输入序列(x₁,x₂,...,x_n)，所述x_n为第n个字；

通过字典抽取每个字的技术特征，所述技术特征为0或1；

给定一个输入序列(x₁,x₂,...,x_n)，并通过已经训练好的字向量矩阵映射成低维度的向量表示(e₁,e₂,...,e_n)，其中每个向量的大小为d，构成神经网络模型的最基本的输入。然后利用一些字典，抽取每个字的字典特征。具体的，采用常见人名字典、常见地名字典、常见机构名字典以及中华大字典；对于每个字，我们抽取了10种特征，如表1所示，如果该字用于某一种特征，则表示1，否则表示为0，因此，每个字就拥有一个由0和1构成的大小为10的向量；对于第i个特征，用一个2*f的矩阵来表示，f表示特征向量的维度大小，0代表第一行，1代表第二行。最终每个字的向量大小为d+10*f。

需要说明的是，输入模块不限于前述特征，还可包括其他的特征信息，可根据实际情况进行增删。

表1抽取的字特征

将手工特征与神经网络模型相结合，增加了模型的可解释性，丰富了特征表达，提高神经网络模型提取效果。

S13：将所述第一字向量输入序列标注模块，输出序列预测标签。

作为本发明可选的一种实现方式，所述神经网络模型为双向的GRU，包括：

将第二字向量输入所述双向的GRU，得到一个前向向量和一个后向向量将所述前向向量与后向向量进行拼接得到最终第一字向量

GRU(Gated Recurrent Units)是循环神经网络(RNN)中的一种，对于自然语言这种序列输入，能够学习到长距离的语义依赖关系，因此已经广泛应用于自然语言处理中。在时间t中，GRU包含一个更新门(update gate)z_t和一个重置门(reset gate)r_t，具体公式如下：

z_t＝σ(w_zx_t+U_zh_t-1)

r_t＝σ(w_rx_t+U_rh_t-1)

其中，x_t表示在当前时间t的输入，即为拼接的字向量和特征向量，h_t-1表示上一个输入的隐藏状态，W_z、W_r、W、U_z、U_r、U均为学习参数。

双向的GRU能够同时捕获前后词的特征，从而提高提取的特征准确性。

作为本发明可选的一种实现方式，所述方法还包括：对最终第一字向量进行自注意力处理，以使神经网络模型专注学习最终第一字向量。

自注意力是注意力机制中的一种，主要目的是为了让神经网络对重要部分给予更多的关注，具体操作为对上一步双向GRU得到的h_i乘以一个权重α_t。具体公式如下：

z_t＝v^Ttanh(W_αh_i+b)

α_t＝softmax(z_t)

h_t←α_t*h_i

其中，h_i为双向GRU的输出，W_α、b、v是需要学习的注意力网络的参数。

由于双向GRU输出的向量是平权的，采用注意力机制可以使神经网络模型更加注意到需要注重学习的地方，忽略掉冗余数据部分，从而提高学习准确性和学习速度。

S14：将所述标注标签与所述序列预测标签输入得分函数，根据所述得分函数输出结果更新所述神经网络模型参数，生成训练好的神经网络模型：

作为本发明可选的一种实现方式，所述将所述字向量和与字向量对应的标签输入序列标注模块，得到序列预测标签，包括：

作为本发明可选的一种实现方式，将所述标注标签与所述序列预测标签输入得分函数，包括：

由于预测标签具有强烈的前后依赖关系，因此采用CRF(conditional randomfield)条件随机场限制这种前后依赖关系，具体如下：

定义得分函数为：

计算整个句子的序列标注y的概率：

计算概率的对数：

取使得S(H,y)最大的y^*为序列预测标签，即：

S15：将未进行标注的语料输入所述训练好的神经网络模型，输出语料标签；

S16：将所述语料标签输入解码模块，输出实体。

作为本发明可选的一种实现方式，所述解码模块为“BIEOS”特征命名实体框架。

“BIEOS”特征命名实体框架如图2所示，包括：首先是定义好需要识别的实体类别和序列标注的标签，如我们要识别人名(PER)、地名(LOC)和机构名(ORG)三种实体类别，采用“BIEOS”标签，其中“B”代表该字是实体的开头，“I”代表该字为实体的中间字，“E”是实体的结尾字，“O”代表不是实体的字，“S”代表该命名实体只有一个字。然后，利用实体字典，对常见的中文命名实体进行特征分析，如一段文本片段的首字是百家姓里面的字，则该文本片段很有可能是人名，又例如文本片段的末尾是“路”、“村”或“巷”，则有可能是一个地名。通过这种精心构造的手工特征，将其输入到序列标注模型，在大量的文本语料的训练下，可以获得一个命名实体识别模型。

将“BIEOS”特征命名实体框架作为监督学习，改善神经网络模型学习效果，提高神经网络模型输出正确率。

本实施例中，将深度学习结合了传统的特征抽取方法，将抽取的特征融入到深度学习模型中，将这种先验知识加入到模型中，能够有效的加速学习速度，特别是在训练语料比较少的情况下，也能够达到的很好的效果。

如图3所示，所述基于深度学习的实体抽取系统，包括：

输入模块31、神经网络模块32、序列标注模块33以及解码输出模块34；

输入模块31、神经网络模块32、序列标注模块33以及解码输出模块34依次连接。

作为本发明可选的一种实现方式，输入模块31包括手工特征提取单元，手工特征提取单元从通过字典抽取每个字的技术特征。通过手工提取特征与神经网络模型结合，提高模型学习效率，提高预测标签准确性。

作为本发明可选的一种实现方式，所述系统还包括：

语言模型35，语言模型35可以形式化地描述即给定一个字符串，判断所述字符串是自然语言的概率，用于初始化神经网络模块32中部分参数。语言模型35为现有技术，这里不详细叙述。通过语言模型35对神经网络模块中的参数进行初始化，加快神经网络模块学习速度。

作为本发明可选的一种实现方式，神经网络模块32包括：

双向GRU单元和自注意力权重单元。

通过GRU单元和自注意力权重单元结合，避免神经网络学习多余数据，提高学习速度。

本实施例中，通过输入模块、神经网络模块、序列标注模块以及解码输出模块依次连接，自动抽取实体，不需人工大量标注，节省人力，并且，通过语言模型初始化神经网络模型中的参数，提高神经网络模型学习效果与学习速度。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

需要说明的是，本发明不局限于上述最佳实施方式，本领域技术人员在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于深度学习的实体抽取方法，其特征在于，包括：

将所述输入序列输入神经网络模型，得到第一字向量；

将所述第一字向量输入序列标注模块，输出序列预测标签；

将所述语料标签输入解码模块，输出实体。

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括输入模块，所述输入序列通过所述输入模块后得到第二字向量，包括：

确定输入序列(x₁,x₂,...,x_n)，所述x_n为第n个字；

通过字典抽取每个字的技术特征，所述技术特征为0或1；

3.根据权利要求2所述的方法，其特征在于，所述神经网络模型为双向的GRU，包括：

将所述第二字向量输入所述双向的GRU，得到一个前向向量和一个后向向量将所述前向向量与后向向量进行拼接得到最终第一字向量

4.根据权利要求3所述的方法，其特征在于，还包括：对最终第一字向量进行自注意力处理，以使神经网络模型专注学习最终第一字向量。

5.根据权利要求4所述的方法，其特征在于，所述将所述标注标签与所述序列预测标签输入得分函数，包括：

定义得分函数为：

计算整个句子的序列标注y的概率：

计算概率的对数：

取使得S(H,y)最大的y^*为序列预测标签，即：

6.根据权利要求1所述的方法，其特征在于，所述解码模块为“BIEOS”特征命名实体框架。

7.一种基于深度学习的实体抽取系统，其特征在于，包括：

8.根据权利要求7所述的系统，其特征在于，所述输入模块包括手工特征提取单元，所述手工特征提取单元从通过字典抽取每个字的技术特征。

9.根据权利要求7所述的系统，其特征在于，还包括：

10.根据权利要求7所述的系统，其特征在于，所述神经网络模块包括：

双向GRU单元和自注意力权重单元。