CN112926323B

CN112926323B - 基于多级残差卷积与注意力机制的中文命名实体识别方法

Info

Publication number: CN112926323B
Application number: CN202110102206.5A
Authority: CN
Inventors: 孔军; 张磊鑫; 蒋敏
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2024-02-02
Anticipated expiration: 2041-01-26
Also published as: CN112926323A

Abstract

基于多级残差卷积与注意力机制的中文命名实体识别方法，属于自然语言处理领域。该方法采用联合注意力机制的多级残差卷积网络。针对传统循环神经网络处理序列信息时模型效率低下的问题，本发明引入多级残差卷积，以获得不同范围内的局部上下文信息，并充分利用硬件的计算能力，显著提高模型效率。此外，循环神经网络由于梯度消失和梯度爆炸问题，无法有效地获取全局上下文信息，极大地影响网络的性能。本发明在网络中引入注意力机制，通过构建每个字符与句子之间的关系，计算出每个字符的重要性权重，从而学习全局信息。最终本发明利用条件随机场对字符标签的转移概率进行计算以获得合理的预测结果，进一步提高了命名实体识别模型的鲁棒性。

Description

基于多级残差卷积与注意力机制的中文命名实体识别方法

技术领域

本发明属于自然语言处理领域，特别涉及一种基于多级残差卷积与注意力机制的中文命名实体识别方法。

背景技术

命名实体识别一直是自然语言处理研究的重点，其主要目标是从文本中识别人名、地名、组织机构名等实体。作为NLP(Natural Language Processing，自然语言处理)中一项基本任务，命名实体识别对自动问答、关系抽取等任务有着重要作用。目前，中文命名实体识别主要分为基于词语和基于字符的两类方法。由于实体大多以词语的形式出现，所以基于词语的方法可以充分利用词语信息进行实体识别，但是词语需由句子经过分词获得，而分词工具的表现参差不齐，很难获得理想的分词效果。相较而言，基于字符的命名实体识别方法以单个字符为单位，不存在分词错误的情况。因此，本发明采用基于字符的方法，针对其效率低下和难以获取上下文信息的问题，提出独特的多级残差卷积和注意力方法来有效提高中文命名实体识别效果。

目前，基于字符的命名实体识别方法主要使用循环神经网络及其变体，例如长短时记忆网络和门控循环单元，并且发展势头十分强劲。虽然循环神经网络可以充分利用历史信息及未来信息处理当前信息，但仍面临以下问题：(1)如何在不引入复杂的外部知识的前提下，使模型获得更多的语义信息。(2)如何克服原有模型的缺陷，有效地获取全局上下文信息。(3)如何在提高模型效率的同时，不降低模型的精度。

基于以上考虑，本发明提出一个基于多级残差卷积与注意力机制的网络用于中文命名实体识别。首先通过数据增强和多模态向量简化语义信息的利用过程；其次，使用多级残差卷积替代循环神经网络，获取不同范围内的局部上下文信息，并降低模型复杂度；然后使用自注意力机制突出重要的字符，获取全局上下文信息；最后使用条件随机场计算字符标签的转移概率，获得合理的预测结果。

发明内容

本发明的主要目的是提出一种基于多级残差卷积与注意力机制(Multi-levelCNN with Residual structure and Attention mechanism,RAMCNN)的中文命名实体识别方法，更好地处理句子序列，获取文本信息，以进行高效的命名实体识别。

为了实现上述目的，本发明提供如下技术方案：

步骤一、扩充训练集：对现有的数据进行增强，获得最终的训练集S_i表示训练集中第i个句子，N为句子数。

步骤二、生成多模态向量：对每个句子c_j表示句子中第j个字符，M是句子中字符数，模型(本文提出的模型)在不同的字符向量查找表中找到c_j对应的向量表示在第k个向量查找表中c_j对应的向量。将c_j在所有向量查找表中对应的向量拼接，作为该字符最终的向量表示，记为/>

步骤三、获取局部上下文信息：使用卷积神经网络对每个句子S_i的原始特征图做卷积，并对卷积后的结果/>做最大池化，得到带有局部上下文信息的特征图/>

步骤四、获取融合的局部上下文信息：多级残差卷积网络使用残差连接将原始特征图与卷积池化后的带有局部上下文信息的特征图/>进行融合，将融合后的特征图/>作为下一层卷积网络的输入特征。将每一层卷积网络的输出特征图按列维度进行拼接，将拼接结果/>作为多级残差卷积网络的最终输出特征图。

步骤五：获取全局上下文信息：首先将步骤四中拼接后的特征图通过按列维度求平均的方式转化为一个句子向量e_se，将e_se与随机初始化的权重矩阵W_Query相乘，计算出句子的查询向量e_sq；其次将拼接后的特征图/>分别与随机初始化的权重矩阵W_Key与W_Value相乘，计算出键特征图/>和值特征图/>k_p和v_p分别表示第p个字符的键向量和值向量，M为字符数；然后通过计算每个字符的键向量与句子的查询向量之间的关系，得到每个字符对句子的重要程度/>s_q表示第q个字符对句子的重要程度，M为字符数；再使用softmax函数对e_score归一化，计算出每个字符的重要性权重向量/>w_i是第i个字符的重要性权重，M为字符数；最终将e_weight与字符的值特征图e_cv相乘，得到带有全局上下文信息的特征图。

步骤六、特征图维度映射：使用全连接层将步骤五中输出的特征图映射为维度与字符标签类别数相同的特征图。

步骤七、条件随机场输出预测序列：使用维特比算法解码出文本序列对应的正确概率最大的标签序列。

与现有的技术相比，本发明具有以下有益效果：

1.步骤一中提出的数据增强算法完全基于现有的训练集扩充数据量，与传统的引入带有大量噪声的外部知识的方法相比，该增强算法无需对数据进行处理即可直接使用，有助于模型充分学习数据之间的联系，减少过拟合，提升识别精度。

2.步骤二中使用的多模态向量由预训练好的字符向量查找表生成，与现有的使用神经网络抽取并增加特征的方法相比，更简单高效地增加了字符特征，便于模型利用更丰富的语义知识进行实体识别。

3.步骤三和步骤四中构建的多级残差卷积网络通过尺度不同的卷积核有效地学习到不同范围内的上下文信息，并通过残差连接对其进行融合以获取更丰富的文本信息。由于卷积网络可以充分利用硬件的计算加速能力，所以该网络比循环神经网络有更高的效率，极大地提高了实体识别速度。

4.步骤五中注意力机制通过计算每个字符与句子之间的关系计算字符对句子的重要程度，学习全局上下文信息。与计算两两字符之间关系的方法相比，该注意力机制有效地减少了计算量并提升了模型识别精度。

附图说明

图1为本发明的算法流程图；

图2为本发明的整体模型图；

图3为多级残差卷积框架图；

图4为注意力机制框架图。

具体实施方式

以下根据实施例和附图对本发明的技术方案进行进一步说明。

图2表示本发明的算法模型图。模型包括数据增强、多模态向量层、多级残差卷积、注意力机制、条件随机场5个关键部分。为了对本发明进行更好的说明，下面以公开的中文命名实体识别数据集Resume为例进行阐述。

上述技术方案中步骤一中数据增强算法为：

把训练集样本中具有相同类型的实体交换位置，生成新的训练集。然后将原始训练集和新生成的训练集合并作为新的训练集，即可达到扩充数据量的目的。例如，训练集中有两个样本分别包含“南京人大代表”和“北京欢迎您”，由于“南京”和“北京”都是被标注为“地点”类型的实体，所以经过数据增强后会生成两个新样本，里面分别包含“北京人大代表”和“南京欢迎您”。因此数据增强可以让相同的实体具有不同的上下文，从而更好地学到语义知识。算法如表1所示。

表1数据增强算法

其中E_type表示存放所有实体类型的列表。A_type表示存放类型为type的实体的列表。B_type表示A_type打乱后形成的列表。A和B分别表示用来存放A_type和B_type的列表。

步骤二中字符向量查找表是由语言模型在大规模语料库上训练而来，查找表以文本文件形式存储，每行是一个字符串，字符串的内容为字符以及字符对应的向量。经多次实验证明，本发明采用两个字符向量查找表生成多模态向量的效果最佳。本示例中用于生成字符向量的模型为skip-gram模型，但本发明并不限于使用该模型生成字符向量。

步骤三和步骤四中多级残差卷积的构建方法为：

首先利用卷积网络对步骤二中由多个字符的多模态向量组成的特征图进行卷积池化操作，使得每个字符向量融合了邻近字符的信息；然后使用残差连接对卷积前后的特征图进行融合，作为下一卷积层的输入，目的在于使模型可以同时利用卷积特征和原始特征；最后将每一卷积层的结果拼接，作为多级残差卷积网络的最终输出。多级残差卷积中卷积核的个数可根据硬件环境和实验效果而定，具体而言，本发明运行在内存为12GB的GTX1080Ti显卡上，经多次实验证明，当卷积核个数为128时，模型取得最高精度。多级残差卷积框架如图3所示。

步骤五中注意力网络的构建方法为：

首先将步骤四中多级残差卷积输出的特征图按列维度求平均，将其转为一个句子向量；然后构建特征图中每个字符向量与句子向量之间的关系，计算出每个字符对于句子的重要程度；最后使用softmax函数对重要程度进行归一化，计算出每个字符的重要性权重。注意力机制框架如图4所示。

步骤六中特征图维度映射的目的是将特征图中每个字符向量映射为维度与标签类型数相同的概率向量。步骤七中使用条件随机场输出预测序列的具体方法如下：

在实体识别任务中，标签之间普遍存在依赖关系。例如人名实体不会以“I-PER”作为起始；多数情况下，“B-PER”后面应该紧接“I-PER”，“I-PER”后面因该紧接“I-PER”或“O”。因此，在做序列标注时需要使用条件随机场构建标签之间的依赖关系，从而得到更合理的预测结果。

假设输入序列S对应输出序列y，其得分可以由下式算出。

其中U是状态转移矩阵，V是概率向量，n是标签类别数。

假设所有输出序列集合为Y_S，所以由输入序列S得到输出序列y的概率P(y|S)计算如下：

其中y′∈Y_S，exp(·)表示以e为底的指数函数。

由于正确序列y^r对应的概率P(y^r|S)最大，所以需要最大化P(y^r|S)以获得模型中的参数。由于公式是指数形式，最大化P(y^r|S)等同于最大化log(P(y^r|S))，而模型一般都是通过最小化损失函数来求出参数，所以本发明使用下式作为损失函数，并使用梯度下降法最小化该式，即可获得模型参数。

-log(P(y^r[S))＝-s(S,y^r)+log(Σ_y′exp(s(S,y′))

求出模型参数后，即可对文本序列进行解码，预测标签序列。最直观的方法是穷举所有可能的标签序列并计算出它们的得分，将得分最高的标签序列作为预测序列。该过程可以用维特比算法进行简化。

维特比算法是一种动态规划算法，其对于每个位置的字符，分别计算出与当前字符的各个标签组合后s(S,y)最大的标签序列y。因为虽然有多个标签序列可以与当前字符的各个标签组成新的标签序列，但只有与各个标签组合后得分最高的标签序列才是最有可能正确的标签序列。然后记录组合后s(S,y)最大的标签序列y以便最后进行回溯。当计算出最后一个字符对应的所有标签的分数后，得分最高的标签序列即为最合理的预测序列。

为验证本发明的准确性和鲁棒性，本发明在公开的Resume数据集和MSRA数据集上进行了实验。Resume数据集由[Zhang Y,Yang J.Chinese NER Using LatticeLSTM.InProceedings of the 56th Annual Meeting of the Association forComputational Linguistics,Vol.1,pp.1554-1564,2018.]发布，其中实体有八种类型，分别是人名、地名、组织机构名、国家名、教育机构名、职业、职称和种族背景。MSRA数据集由[Levow GA.The third international Chinese language processing bakeoff:Wordsegmentation and named entity recognition.InProceedings of the Fifth SIGHANWorkshop on Chinese Language Processing,pp.108-117,2006.]发布，其中实体有三种类型，分别是人名、地名和组织机构名。数据集详细数据统计如表2所示。

表2数据集详细数据统计

Resume数据集的类别是丰富的，并且实体间存在复杂的包含关系，例如职业、职称实体中往往包含组织机构名，因此在该数据集进行命名实体识别是具有挑战性的。MSRA数据集数据量较大，包含最常规的三种类别，且地名和组织机构名之间也存在复杂的包含关系，可以有效地测试模型在常用场景下的效果，具有代表性。

实验参数设置：

表3数据库实验参数设置

数据集	类别数	字符向量维度	学习率	迭代次数
					Resume	8	100	0.00005	400
MSRA	3	100	0.00005	400

表4为本发明提出的方法在Resume数据集和MSRA数据集上的测试结果，本发明在这两个数据集上都取得了较高的识别率，分别是95.01％和93.02％。尽管这两个数据集的实体间存在复杂的包含关系，但本发明提出的方法对该问题具有很好的鲁棒性，因此表现相对较好。

表4在UCF101和Penn Action上的识别率

数据集	Resume	MSRA
			RAMCNN	95.01％	93.02％

本发明提出的模型主要包含两个部分，多级残差卷积和注意力机制。从表5可以看出，针对Resume数据集，单纯使用由全连接层组成的基线网络，精度可达到92.96％。在基线网络中加入多级残差卷积，精度提升至94.30％。在此基础上再加入注意力机制，精度进一步提升至95.01％。实验结果显示，多级残差卷积可以有效地获取并融合不同范围内的局部上下文信息，而注意力机制则进一步获取全局上下文信息。这两种方法对命名实体识别的性能都产生了积极的影响，有效地提升了识别精度。

表5在Resume数据集上的两个方法的影响

上面结合附图对本发明的具体实施方式做了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于多级残差卷积与注意力机制的中文命名实体识别方法，其特征在于，步骤如下：

步骤一、扩充训练集：对现有的数据进行增强，获得最终的训练集S_i表示训练集中第i个句子，N为句子数；

步骤二、生成多模态向量：对每个句子c_j表示句子中第j个字符，M是句子中字符数，模型在不同的字符向量查找表中找到c_j对应的向量/>表示在第k个向量查找表中c_j对应的向量；将c_j在所有向量查找表中对应的向量拼接，作为该字符最终的向量表示，记为/>

步骤三、获取局部上下文信息：使用卷积神经网络对每个句子S_i的原始特征图做卷积，并对卷积后的结果/>做最大池化，得到带有局部上下文信息的特征图

步骤四、获取融合的局部上下文信息：多级残差卷积网络使用残差连接将原始特征图与卷积池化后的带有局部上下文信息的特征图/>进行融合，将融合后的特征图作为下一层卷积网络的输入特征；将每一层卷积网络的输出特征图按列维度进行拼接，将拼接结果/>作为多级残差卷积网络的最终输出特征图；

步骤五：获取全局上下文信息：首先将步骤四中拼接后的特征图通过按列维度求平均的方式转化为一个句子向量e_se，将e_se与随机初始化的权重矩阵W_Query相乘，计算出句子的查询向量e_sq；其次将拼接后的特征图/>分别与随机初始化的权重矩阵W_Key与W_Value相乘，计算出键特征图/>和值特征图/>k_p和v_p分别表示第p个字符的键向量和值向量，M为字符数；然后通过计算每个字符的键向量与句子的查询向量之间的关系，得到每个字符对句子的重要程度/>s_q表示第q个字符对句子的重要程度，M为字符数；再使用softmax函数对e_score归一化，计算出每个字符的重要性权重向量w_i是第i个字符的重要性权重，M为字符数；最终将e_weight与字符的值特征图e_cv相乘，得到带有全局上下文信息的特征图；

步骤六、特征图维度映射：使用全连接层将步骤五中输出的特征图映射为维度与字符标签类别数相同的特征图；

2.根据权利要求1所述的基于多级残差卷积与注意力机制的中文命名实体识别方法，其特征在于，所述的步骤一中，数据增强的具体过程是：对命名实体识别的原始训练集的所有句子中相同类型的实体进行交换，生成新的句子以组成新的训练集；将原始训练集与新的训练集合并作为最终的训练集S_i表示训练集中第i个句子，N为句子数。

3.根据权利要求1所述的基于多级残差卷积与注意力机制的中文命名实体识别方法，其特征在于，所述的步骤二中字符向量查找表是由语言模型在大规模语料库上训练而来，查找表以文本文件形式存储，每行是一个字符串，字符串的内容为字符以及字符对应的向量。

4.根据权利要求1所述的基于多级残差卷积与注意力机制的中文命名实体识别方法，其特征在于，所述的步骤七的具体过程为：

设输入序列S对应输出序列y，其得分由下式算出：

其中U是状态转移矩阵，V是概率向量，n是标签类别数；

设所有输出序列集合为Y_S，所以由输入序列S得到输出序列y的概率P(y|S)计算如下：

其中y′∈Y_S，exp(·)表示以e为底的指数函数；

由于正确序列y^r对应的概率P(y^r|S)最大，所以需要最大化P(y^r|S)以获得模型中的参数；由于公式是指数形式，最大化P(y^r|S)等同于最大化log(P(y^r|S))；

使用下式作为损失函数，并使用梯度下降法最小化该式，即可获得模型参数；

-log(P(y^r|S))＝-s(s，y^r)+log(∑_y′exp(s(s，y′)))

求出模型参数后，即可对文本序列进行解码，预测标签序列；

利用维特比算法穷举所有可能的标签序列并计算出它们的得分，将得分最高的标签序列作为预测序列，维特比算法具体为：

首先对于每个位置的字符，分别计算出与当前字符的各个标签组合后s(S，y)最大的标签序列y；然后记录组合后s(S，y)最大的标签序列y以便最后进行回溯；当计算出最后一个字符对应的所有标签的分数后，得分最高的标签序列即为最合理的预测序列。

5.根据权利要求1所述的基于多级残差卷积与注意力机制的中文命名实体识别方法，其特征在于，所述的步骤四中多级残差卷积由残差结构和多层卷积神经网络组成，除第一层卷积网络之外，每一层卷积网络的输入都是前一层卷积网络的输入和卷积池化后的输出经过残差连接后得到的特征图，最终将所有卷积网络的输出进行拼接，作为多级残差卷积的输出。