CN114510946A

CN114510946A - 基于深度神经网络的中文命名实体识别方法及系统

Info

Publication number: CN114510946A
Application number: CN202210417839.XA
Authority: CN
Inventors: 王鑫; 李瑞琪; 龙开放; 张晓冉; 钟诚; 孙胤泰; 徐卫志; 于惠
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-05-17
Anticipated expiration: 2042-04-21
Also published as: CN114510946B

Abstract

本发明提出了基于深度神经网络的中文命名实体识别方法及系统，通过双向长短词记忆模型BiLSTM网络获取上下文特征，并将上下文特征输入到空洞卷积网络ID‑CNN进一步学习语义信息，将上下文特征与语义信息融合后，基于自注意力机制对其进行依赖关系的计算，得到基于依赖关系的特征向量，并通过条件随机场进行标签预测，有效地提高中文命名实体识别的准确度。

Description

基于深度神经网络的中文命名实体识别方法及系统

技术领域

本发明属于中文语言处理以及自然语言处理技术领域，尤其涉及基于深度神经网络的中文命名实体识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

自然语言处理(Natural Language Processing, NLP)是对人类自然语言的自动或半自动处理，它的研究能实现人与计算机之间用自然语言进行有效沟通。自然语言处理是计算机科学、人工智能和计算语言学的相关领域，解决的是让机器理解自然语言，被誉为“人工智能技术皇冠上的明珠”。

命名实体识别一直是自然语言处理研究的重点，其目的是识别出文本中具有特定意义的实体边界，并归类到预定义类别。命名实体识别是信息抽取、问答系统、句法分析、机器翻译等NLP上层应用的重要基础工具，在自然语言处理技术走向实用化领域中起着重要作用，因此，不断提升命名实体识别任务的性能具有重要的科研和应用意义。

早期命名实体识别的主要方法是基于词典和规则，但随着识别任务的深入，其缺点逐渐暴露，此类方法过于依赖初始数据库的建立。因此，人们提出了基于统计学习的方法，最常用的基于统计学习的方法有条件随机场、最大熵模型和隐马尔可夫模型等，同时，也有将规则和统计结合起来用于命名实体识别的方法。近年来，深度学习逐渐被应用到命名实体识别任务中并成为主要趋势。

对于中文命名实体识别的方法主要包括基于字符的方法和基于词的方法，但和英文相比，中文命名实体识别更加困难且复杂；中文文本一般是连续的，导致实体边界模糊不易识别；而且中文命名实体类型多样，数量众多，难以建立大而全的数据库；中文文本中不同的实体有着不同的结构，存在大量的嵌套、别名、缩略词等问题，以上问题使得中文命名实体识别更具有研究意义。

发明内容

为克服上述现有技术的不足，本发明提供了基于深度神经网络的中文命名实体识别方法及系统，利用正向匹配算法和逆向匹配算法得到全面的单词信息，双向长短词记忆模型BiLSTM获取的上下文特征再输入到空洞卷积网络ID-CNN进一步获取语义特征，最后将上下文特征和语义特征拼接融合后作为自注意力层self-Attention的输入，提高中文命名实体识别的准确性。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于深度神经网络的中文命名实体识别方法；

基于深度神经网络的中文命名实体识别方法，包括：

提取待识别序列中的字符及单词，将字符与单词拼接成字符特征向量；

将字符特征向量输入到双向长短词记忆模型网络中，学习上下文信息，得到上下文特征向量；

空洞卷积网络学习上下文特征向量中的语义信息，得到语义特征向量；

将上下文特征向量和语义特征向量拼接，获得融合后的数据特征，自注意力层对数据特征提取长距离依赖，得到注意力重要度特征向量；

条件随机场解码注意力重要度特征向量，获得识别标签。

进一步的，所述单词的提取，采用前向匹配和后向匹配相结合的方式识别序列中的单词。

进一步的，单词提取时，对待识别序列以序列的长度为最大长度，从左到右或从右到左进行匹配，找出每个字符在序列中的所有单词，如果没有匹配到，就用0去填充。

进一步的，双向长短词记忆模型网络，通过记忆门、遗忘门和输出门学习特征之间的长短期依赖关系，分别采用正向和逆向计算，将得到的正向特征和逆向特征，通过向量拼接的方式得到上下文特征向量。

进一步的，空洞卷积网络，用指数级的扩展宽度进行扩张宽度卷积层，完成四次完整卷积运算，得到语义特征。

进一步的，自注意力层，获取上下文特征向量和语义特征向量拼接后的Value值、Key值以及查询Query权重矩阵，归一化处理后，通过注意力重要函数得到最终的注意力重要度特征向量。

进一步的，得到注意力重要度特征向量之后，与条件随机场设置的状态转移矩阵相加，得到相应的预测分数，通过遍历比较候选集中所有可能的标签的分数，选取最大的分数对应的标签做为最终的识别标签。

本发明第二方面提供了基于深度神经网络的中文命名实体识别系统。

基于深度神经网络的中文命名实体识别系统，包括单词提取模块、上下文特征提取模块、语义特征提取模块、自注意力模块和标签识别模块；

所述单词提取模块，用于提取待识别序列中的字符及单词，将字符与单词拼接成字符特征向量；

所述上下文特征提取模块，用于将拼接后的字符特征向量，输入到双向长短词记忆模型网络中，学习上下文信息，得到上下文特征向量；

所述语义特征提取模块，用于空洞卷积网络学习上下文特征向量中的语义信息，得到语义特征向量；

所述自注意力模块，用于将上下文特征向量和语义特征向量拼接，获得融合后的数据特征，自注意力层对数据特征提取长距离依赖，得到注意力重要度特征向量；

所述标签识别模块，用于条件随机场解码注意力重要度特征向量，获得识别标签。

本发明第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于深度神经网络的中文命名实体识别方法中的步骤。

本发明第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于深度神经网络的中文命名实体识别方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明通过双向长短词记忆模型BiLSTM网络获取上下文特征，并将上下文特征输入到空洞卷积网络ID-CNN进一步学习语义信息，将上下文特征与语义信息融合后，基于自注意力机制对其进行依赖关系的计算，得到基于依赖关系的特征向量，并通过条件随机场进行标签预测，可以有效地提高中文命名实体识别的准确度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第二个实施例的系统结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明提出的总体思路：

利用正向匹配算法和逆向匹配算法得到输入序列中每个字符的单词信息，把每个字符的单词信息与该字符拼接起来送进BiLSTM中进行编码得到隐层输出，然后把BiLSTM的隐层输出送进ID-CNN进一步捕获序列之间的语义信息，得到ID-CNN的隐层输出，然后再把BiLSTM的隐层输入与ID-CNN的隐层输出拼接到一起送到自注意力机制中去，最后再送到CRF中去解码。

实施例一

本实施例公开了基于深度神经网络的中文命名实体识别方法；

如图1所示，基于深度神经网络的中文命名实体识别方法，包括：

S11：提取待识别序列中的字符及单词，将字符与单词拼接成字符特征向量；

采用前向匹配和后向匹配相结合的方法，对于每条输入序列，以序列的长度为最大长度从左到右或从右到左进行匹配，找出每个字符在该序列中的所有单词，如果没有匹配到，就用0去填充。

例如，对于输入序列“南京市长江大桥”，关于字符‘市’，通过前向匹配的方法得知‘市长’是该字符匹配得到的单词，通过后向匹配的算法可知‘南京市’也是该字符所匹配的单词。

S12：将字符特征向量，输入到双向长短词记忆模型BiLSTM网络中，学习上下文信息，得到上下文特征向量；

将待识别序列中每个字符对应的向量与S11步骤中得到的与之对应单词信息的特征向量拼接起来得到字符特征向量x_t，然后送入到双向长短词记忆模型BiLSTM中，经过双向长短词记忆模型BiLSTM处理后得到上下文特征h_i，具体计算公式如下：

其中，W表示连接两层的权重矩阵，b表示偏置向量，s是sigmoid激活函数，*为点成运算，i _t、f _t和o _t分别表示记忆门、遗忘门和输出门,x _t和h _t分别表示t时刻的输入和隐藏层状态，c _t和

分别表示细胞状态和临时细胞状态，tanh（）是激活函数。

对输入的x _t分别采用正向和逆向计算得到

和

，然后通过向量拼接的方式得到上下文特征向量h _i。

S13：空洞卷积网络ID-CNN学习上下文特征向量中的语义信息，得到语义特征向量；

将双向长短词记忆模型BiLSTM得到的上下文特征向量h _i作为空洞卷积网络ID-CNN的输入，通过空洞卷积网络ID-CNN进一步提取语义特征，具体计算公式如下：

其中，e ₀表示第一次的输入，h _i表示双向长短词记忆模型BiLSTM的输出，M _d ^j表示扩展宽度为d的第j个扩张宽度卷积层，例如，M ₁ ⁰表示扩展宽度为1的第1个扩张宽度卷积层，e _t ^j和e _t ^l+1分别表示中间层和最后一层的卷积计算的结果，r表示的是ReLU激活函数，式（7）、（8）、（9）作为一次完整的运算N，n _t ^k-1表示上一次计算的最后一层的输出结果，这个结果将作为下一次计算的输入，经过4次N运算后，得到最终的输出n _t ^ln，从而得到每个字符的最终特征c _t ^ln。

空洞卷积网络ID-CNN，反复应用相同的小堆叠的空洞卷积块，每次迭代将上一个空洞卷积的结果作为输入；扩展宽度随着层数的增加呈现为指数增加，但参数的数量是线性增加的,感受野很快就覆盖到了全部的输入数据；模型是4个大小相同的空洞卷积块叠加在一起，每个空洞卷积块里有不同扩展宽度的三层空洞卷积；把上下文特征输入到ID-CNN层中，经过卷积层，提取语义特征；

S14：将上下文特征向量和语义特征向量拼接，获得融合后的数据特征，自注意力层self-Attention对数据特征提取长距离依赖，得到注意力重要度特征向量；

自注意力层，对双向长短词记忆模型BiLSTM和空洞卷积网络ID-CNN的特征进行整合，来获取句子级别的信息，提取长距离依赖，具体计算公式如下：

其中，h _t是上下文特征，c _t是语义特征，

代表拼接操作，B是拼接融合后的数据特征，W_v、W_k、W_q分别表示融合后的数据特征B的Value值、Key值以及查询Query初始化权重矩阵，V、K、Q分别表示融合后的数据特征的Value值、Key值以及查询Query矩阵，K ^T则表示K矩阵的转置。q _i表示输入序列中特征b_i的查询向量，a_i表示特征b_i的注意力权重，权重越高表示该数据特征越重要，softmax()为归一化指数函数，

表示调节因子。attention()表示注意力得分，v _i表示特征b_i对应的Value向量。

S15：条件随机场CRF解码注意力重要度特征向量，获得识别标签。

在利用自注意力机制捕获到序列中字符之间的长距离依赖关系之后，计算依赖关系之后的数据特征将用于标签预测。

本发明使用条件随机场CRF进行标签预测，在得到最终的特征表示之后，与条件随机场里面设置的状态转移矩阵T相加，得到相应的预测分数，通过遍历比较候选集中所有可能的标签的分数，选取最大的分数对应的标签最为最终的预测的标签。中文命名实体识别和中文分词的标签预测方法是相同的，在这个方法中，每次只对一个任务的标签进行预测。以中文命名实体识别的任务为例，其标签预测的计算过程如公式(18)、(19)、(20)所示：

其中，A _i为每个字符最后的特征表示，W_s和b_s分别代表参数矩阵和偏置项；o_i为维度转换之后的表示，s(x，y)为语句样本x预测为标签序列y的打分，T_yi-1，yi为状态转移矩阵中从标签y_i-1转到标签y_i的概率，Y_x代表所有可能的标签候选集，

为候选集中打分最高的标签序列。

为了说明系统的有效性，本实施例一通过微博数据集验证本方法在中文命名实体识别任务上的性能。微博数据集有1350条训练样本，270条验证样本，270条测试样本。微博数据集一共包含三个数据集，第一个数据集里面的实体类型只有命名实体(namedentities),称为实体名称数据集NE；第二个数据集里面的实体类型只有名义实体(nominalentities),称为实体指称项识别数据集NM；第三个数据集里面的实体类型既有命名实体又有名义实体，称为微博整体数据集Overall。

对比例采用BiLSTM-CRF（2015）、Lattice LSTM (2018)和WC-LSTM（Liu et al.,2019），BiLSTM-CRF（2015）是Huang等人在2015年基于传统的机器学习的不足之处所提出来的方法，相较于传统的方法，BiLSTM-CRF取得了非常不错的效果；Lattice LSTM (2018)是Zhang and Yang在2018年首次提出来的一种基于单词与字符的混合模型，能在字符中整合单词信息，有效的提升了中文命名实体识别的性能；WC-LSTM（Liu et al., 2019）提供了四种策略，可以有效的在字符中整合词汇知识，选择其中使用了自注意力机制(self-attention)的方法作为的对比例。

四种方法在微博数据集上的对比结果如表1所示：

表1

其中，Model为模型方法名称，NE为实体名称数据集，NM为实体指称项识别数据集，Overall为微博整体数据集，是实体名称和实体指称项的合集;F1是综合评价精度和召回率的一个指标，F1越高，代表越好的识别结果。

表1是四种方法在微博数据集上的性能表现，最后一行是本方法在中文命名实体识别任务上的表现效果。从实验结果可以看到，实施例一所述的中文命名实体识别方法在该数据集上的表现超过了已有方法，这个方法被证明是有效的，能够有效的提升命名实体识别的性能。

实施例二

本实施例公开了基于深度神经网络的中文命名实体识别系统；

如图2所示，基于深度神经网络的中文命名实体识别系统，包括单词提取模块、上下文特征提取模块、语义特征提取模块、自注意力模块和标签识别模块；

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例1所述的基于深度神经网络的中文命名实体识别方法中的步骤。

实施例四

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于深度神经网络的中文命名实体识别方法中的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于深度神经网络的中文命名实体识别方法，其特征在于，包括：

将拼接后的字符特征向量，输入到双向长短词记忆模型网络中，学习上下文信息，得到上下文特征向量；

条件随机场解码注意力重要度特征向量，获得识别标签。

2.如权利要求1所述的基于深度神经网络的中文命名实体识别方法，其特征在于，所述单词的提取，采用前向匹配和后向匹配相结合的方式识别序列中的单词。

3.如权利要求2所述的基于深度神经网络的中文命名实体识别方法，其特征在于，单词提取时，对获取的待识别序列，以序列的长度为最大长度，从左到右或从右到左进行匹配，找出每个字符在序列中的所有单词，如果没有匹配到，就用0去填充。

4.如权利要求1所述的基于深度神经网络的中文命名实体识别方法，其特征在于，双向长短词记忆模型网络，通过记忆门、遗忘门和输出门学习特征之间的长短期依赖关系，分别采用正向和逆向计算，将得到的正向特征和逆向特征，通过向量拼接的方式得到上下文特征向量。

5.如权利要求1所述的基于深度神经网络的中文命名实体识别方法，其特征在于，空洞卷积网络，用指数级的扩展宽度进行扩张宽度卷积层，完成四次迭代的完整卷积运算，得到语义特征。

6.如权利要求1所述的基于深度神经网络的中文命名实体识别方法，其特征在于，自注意力层，获取融合后的数据特征的Value值、Key值以及查询Query权重矩阵，归一化处理后，通过注意力重要函数得到最终的注意力重要度特征向量。

7.如权利要求1所述的基于深度神经网络的中文命名实体识别方法，其特征在于，得到注意力重要度特征向量之后，与条件随机场设置的状态转移矩阵相加，得到相应的预测分数，通过遍历比较候选集中所有可能的标签的分数，选取最大的分数对应的标签做为最终的识别标签。

8.基于深度神经网络的中文命名实体识别系统，其特征在于：包括单词提取模块、上下文特征提取模块、语义特征提取模块、自注意力模块和标签识别模块；

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于深度神经网络的中文命名实体识别方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于深度神经网络的中文命名实体识别方法中的步骤。