CN113971404A

CN113971404A - 一种基于解耦注意力的文物安全命名实体识别方法

Info

Publication number: CN113971404A
Application number: CN202111269131.6A
Authority: CN
Inventors: 王俊; 孙璐冰; 康怡琳; 朱容波
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-25

Abstract

本发明公开了一种基于解耦注意力的文物安全命名实体识别方法，包括以下步骤：将待识别的输入文本序列与词典进行匹配得到潜在单词，将潜在单词和输入文本序列融合得到最终的文本序列，通过预训练词嵌入向量和相对位置编码得到文本嵌入向量和位置嵌入向量；将嵌入层输出的文本嵌入向量和位置嵌入向量进行连接得到总的向量表示，作为编码层的输入，并通过解耦的自注意力机制计算注意力得到注意力矩阵，将经过残差连接和层正则化后得到的结果输入到前馈神经网络得到输出，再次进行残差连接和层正则化得到最终输出；将编码层输出作为解码层的输入，即输入条件随机场，解码预测搜索条件概率最高的标签序列。本发明识别效果好，能大大提高识别的准确性。

Description

一种基于解耦注意力的文物安全命名实体识别方法

技术领域

本发明涉及面向文物安全危险源识别文本信息处理的基础研究领域，尤其涉及一种基于解耦注意力的文物安全命名实体识别方法。

背景技术

面向文物安全危险源识别包含大量非结构化数据，命名实体识别的任务是从一句话中找到实体，并识别出其类型。因为在关系抽取、信息检索和问答系统等自然语言处理任务中存在着潜在帮助，受到了广泛的研究。

针对文物安防问题的复杂性、突发性、不确定性等特点以及文物安全数据的大规模化、多源异构、分散化、动态性等特性，基于知识图谱模型分析随时空变化过程中多区域文物实体之间的语义关系、信息特征等人员行为的动态变化是有必要的。

基于知识图谱的文物安防研究，首先，分析文物安全领域非结构化的数据(文本)结构与特征，研究深度神经网络、自然语言外理语法词法模型等提取文物之间语义关系与信息特征技术，挖掘不同类型文物之间存在的潜在关系与人员的行为特征。其次，构建文物实体与人员之间网络模型，研究关联规则算法、注意力机制、图神经网络等技术在数据关联上的应用优势与不足，制定文物安全数据之间以及人员-文物之间的关联规则，构建基于图注意力网络的非结构化文物安全数据关联分析方法，实现文物与文物、文物与人员之间的深层次动态关联及交互，推动文物安防过程中异常人员事件的检测。最后，构建面向文物安全领域的知识图谱模型,打破多区域文物安全数据之间的共享壁垒，实现文物安全数据之间语义层次的融合与共享。所以在这个过程中，建立一个高效的实体识别模型来实现文物安全领域的数据动态关联是很有必要的。并且在现有研究中，还没有一个与文物相关的数据集，所以标注一个文物数据集能够更好的进行针对性的研究。由于中文命名实体识别比英文发展晚，用于命名实体识别研究的语料较少，语料领域单一，使得通用中文命名实体识别发展受到限制，在英文语料中，单词之间有空格作为分隔，而中文的词语之间没有分割符号，会对实体边界的识别造成困难。所以中文NER相比英文更难一些。

中文命名实体识别(NER)分为基于字符的和基于词的方式，并且由于目前中文分词的性能有限，基于字符的命名实体识别可以优于基于词的命名实体识别。随着深度学习的发展，在各项任务中表现良好，具有时序特征的循环神经网络被广泛应用于自然语言处理领域。为了解决词边界的界定问题，词汇特征已被广泛用于命名实体识别以更好地利用汉语的词汇信息。有人引入了一个点阵，设计将词汇信息融入基于字符的神经命名实体识别模型。对输入句子进行词典匹配，将句子中词典识别的所有字符和潜在单词进行编码，在利用单词信息的同时避免了切分的错误传播。也有人通过卷积神经网络对词典中存在的词进行处理，以不同的窗口大小对字符序列和潜在单词进行编码，通过反思机制解决词汇冲突问题。上边两种模型都存在训练和推理慢的问题，并且难以对长距离依赖进行建模。这些都通过词汇信息构建图网络，将命名实体识别问题转换为图中节点分类任务。但是，模型都离不开RNN模块进行编码。在本发明的方法中，没有根据Lattice设计模型而是提出一种简单有效的位置编码方式来引入词汇信息。

另外，现有模型在不同数据集上得到的效果有好有坏，通过分析可知这些数据集的差异、表现好的数据集通常数据规模大，或者实体类型定义清晰，文本结构严谨。表现差的数据集则数据量小，文本质量低。在实际应用中，标注一个大型且高质量数据集费时费力，如何提高在小样本低质量数据环境下的NER效率值得研究。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于解耦注意力的文物安全命名实体识别方法。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于解耦注意力的文物安全命名实体识别方法，构建基于解耦注意力的文物安全命名实体识别模型，该模型包括嵌入层、编码层、解码层；该方法包括以下步骤：

步骤1、将待识别的输入文本序列(x₁,x₂,…,x_n)与词典进行匹配得到潜在单词，将潜在单词和输入文本序列融合得到最终的文本序列(x₁,x₂,…,x_n,…,x_s)，随后通过预训练词嵌入向量和相对位置编码得到文本嵌入向量H和位置嵌入向量P；

步骤2、将嵌入层输出的文本嵌入向量H和位置嵌入向量P进行连接得到总的向量表示E，作为编码层的输入，并通过解耦的自注意力机制计算注意力得到注意力矩阵A，然后将经过残差连接和层正则化后得到的

输入到前馈神经网络得到输出

再次进行残差连接和层正则化得到最终输出Z；

步骤3、将编码层输出Z作为解码层的输入，即输入条件随机场，解码预测搜索条件概率最高的标签序列(y₁,y₂,…,y_n)。

进一步地，本发明的所述步骤1中得到嵌入向量的方法具体为：

每个字符或单词都有一个位置索引，对于字符，位置索引表示它在字符序列中的位置；对于单词，位置索引表示这个单词的开始字符的位置；根据标记序列中各个字符和单词的位置索引，第t个位置的第k个分量的计算方式为：

当t为偶数时,

当t为奇数时,

其中，d_model表示嵌入向量的维度；

由此能得到其位置嵌入向量P；

文本嵌入向量通过预训练好的词向量求得。

进一步地，本发明的所述步骤1中文本嵌入向量预训练的具体方法为：

通过使用哈工大训练好的词向量，进行字词匹配获得对应的向量表示，最终得到输入的文本嵌入向量H。

进一步地，本发明的所述步骤2中分散注意力机制的方法具体为：

使用向量P和H表示位置嵌入向量和文本嵌入向量，位置t和j处的注意力分数计算分解为：

其中，Q_t表示位置t处文本序列token的查询向量、

表示位置j处文本序列token的键向量得转置、P_t|j表示位置t和j处的相对位置嵌入；相应的，

表示位置j到t的相对位置嵌入向量的转置；

t和j处的注意力分数分解为上式四个注意力得分之和，即内容-内容，内容-位置，位置-内容，位置-位置；仅使用前三项来计算注意力分数，同时，用相对位置编码替换其中的位置嵌入向量P，公式如下：

其中，Q是查询向量，K是键向量，V是值向量，由嵌入层输出E和三个对应的权值矩阵W^Q W^K W^V相乘而得，计算方法为：

Q＝EW^Q，K＝EW^K，V＝EW^V。

进一步地，本发明的所述步骤3中解码的方法具体为：

将编码层输出Z作为解码层的输入，对于输入序列

输出预测标注序列

对于条件随机场CRF训练，使用最大条件似然估计，学习一组条件概率分布模型，即找到一组参数θ使得对数似然最大，计算方式如下：

其中，Score(z,y)是由转移特征概率和状态特征概率两部分组成；转移特征概率：指前一个输出标签不为y的前提下，当前输出标签为y的概率大小；状态特征概率：指当前输入为z的条件下，当前输出标签为y值的概率大小；y'是为了和分号上的y区分开，分号下表示求和，代表的就是不同的标签，zⁱ是输入，yⁱ是对应zⁱ的标注序列，P(yⁱ|zⁱ,θ)表示给定θ当输入为zⁱ输出是yⁱ的概率，argmax表示求函数最大值的参数，即使公式值最大的参数θ值；

解码即搜索条件概率最高的标签序列：

其中，Y(z)指的是所有可能的标签序列集合，要找到使概率最大的序列y^*；

对于序列CRF模型仅考虑两个连续标签之间的相互作用，训练和解码问题我们采用维特比算法来解决，最终得到输出标签序列(y₁,y₂,…,y_n)。

进一步地，本发明的所述文物安全命名实体识别模型具体为：

模型包括嵌入层，编码层和解码层；

嵌入层中：加载数据输入后，先通过词库对每句进行匹配，将匹配得到潜在单词添加到句尾，通过预训练词嵌入向量和相对位置编码得到文本嵌入向量和位置嵌入向量；

编码层中：把得到的文本嵌入向量进行正则化，随后建模进行训练，文本嵌入向量和位置嵌入向量在编码层中进行连接并通过解耦的自注意力机制计算注意力，为了防止网络退化和过拟合进行残差连接和层正则化，随后输入到前馈神经网络，同样再次进行残差连接和层正则化得到输出；

解码层中：编码层的输出会作为条件随机场的输入得到最大概率的标签输出。

进一步地，本发明的所述编码层中的具体方法为：

残差连接指的是将上一次操作的输入和上一次操作的输出相加，即：嵌入层输出E经过解耦注意力计算后得到A，将E和A相加作为下一个操作输入，层正则化就是对同一个样本的所有输入进行缩放，即求出均值和方差，归一化到均值为0，方差为1；两次的残差和正则方法一样。

本发明产生的有益效果是：本发明的基于解耦注意力的文物安全命名实体识别方法，针对文物安全领域实体类型多，实体类型存在定义不清晰情况，本发明采用一种简单有效的相对位置编码方式来编码相对位置信息，解决传统的绝对位置编码无法捕获实体间的距离方向信息，另外采用解耦注意力机制比传统自注意力机制更专注于实体和位置信息，以上两个改进方法有效解决了文物安全领域实体问题。本发明的模型在文物安全数据集上的效果相较于传统BiLSTM-CRF模型性能提升7.95％，比其它五种先进算法识别效率更高。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的模型结构示意图；

图2是本发明实施例的识别文字对象示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例的基于解耦注意力的文物安全命名实体识别方法，构建基于解耦注意力的文物安全命名实体识别模型，该模型包括嵌入层、编码层、解码层；该方法包括以下步骤：

输入到前馈神经网络得到输出

再次进行残差连接和层正则化得到最终输出Z；

该模型包括嵌入层，编码层和解码层；

嵌入层中：加载数据输入后，先通过词库对每句进行匹配，将匹配得到潜在单词添加到句尾，通过预训练词嵌入向量和相对位置编码得到文本嵌入向量(Embedding)和位置嵌入向量(Positionnal Encoding)；

编码层中：把得到的文本嵌入向量(Embedding)进行正则化，随后建模进行训练，文本嵌入向量和位置嵌入向量在编码层中进行连接并通过解耦的自注意力机制(De-Self-Attention)计算注意力，为了防止网络退化和过拟合进行残差连接和层正则化(Add&LN)，随后输入到前馈神经网络，同样再次进行残差连接和层正则化(Add&LN)得到输出；

解码层中：编码层的输出会作为条件随机场(CRF)的输入得到最大概率的标签输出。

(1)文本序列匹配潜在词语得到Embeding；

将输入文本序列和词典进行匹配得到潜在词语，将潜在词语和输入序列融合，同时，对包含潜在单词的序列进行编码，编码方式如图2所示。

每个字符或单词都有一个位置索引，表示它在字符序列中的位置，对于词来说，pos代表这个词的开始字符的字符位置，如“文物局”中的“文”的位置为1，“文物局“的位置就是1。得到相对位置信息后，每个位置的token用两个向量来表示，分别对应其文本和位置进行编码，文本向量通过预训练好的词向量求得，将位置嵌入向量和文本嵌入向量融合作为Encoder的输入。

(2)分散注意力机制De-Self-Attention；

其中，Q_t表示位置t处文本序列token的查询向量、

表示位置j到t的相对位置嵌入向量的转置；

t和j处的注意力分数分解为上式四个注意力得分之和，即内容-内容，内容-位置，位置-内容，位置-位置；认为位置-位置并不会提供太多额外信息，同时，考虑到得到token间相对位置信息的同时更要专注于文本内容本身，所以去除位置-位置这一项，仅使用前三项来计算注意力分数，同时，用相对位置编码替换其中的位置嵌入向量P，公式如下：

Q＝EW^Q，K＝EW^K，V＝EW^V。

(3)CRF解码输出预测标签

将编码层输出Z作为解码层的输入，对于输入序列

输出预测标注序列

解码即搜索条件概率最高的标签序列：

具体实验过程如下：

本发明的目标是识别文物安全领域文本中的实体，然而目前没有该领域的数据集，且文物安防文件中的实体和语言结构与其他公共数据集具有明显领域差异，所以首先标注了一个文物安防领域数据集。其次，用四个公开数据集来验证所提出模型的效果。1)MSRA是微软公开的新闻领域数据集(2)Resume是中文简历数据集(3)Weibo是社交媒体类的数据集(4)E-commerce-NER电子商务类数据集。数据集的详细信息如表所示。

其中MSRA典型特征是数据量大，Resume特点是文本结构清晰具有明显特点，Weibo和E-commerce数据量小且文本质量底，存在实体类型不明确的现象。

和对比模型一样，采用100维预训练字符和二元模型嵌入在中文政策数据集上，在没有使用Bert嵌入的情况下优于基线模型和其他模型，的F1平均得分比BiLSTM-CRF高出7.95％，对于LatticeLSTM，的模型比它平均F1高4.38％，比CAN-NER和WC-LSTM模型分别高出3.54％和1.85％。比SoftLexicon(LSTM)高2.49％，比Muiti-digraph Model高出3.29％。一般方法无法很好识别特定领域的实体，文物安防文本实体类别难以定义，涵盖的范围很广，并且不像别的实体类型有一个明确的实体边界，通过分散注意力让模型学习实体的内容和实体与位置间的关系，从而提高实体识别质量，在数据中存在实体边界不清晰的情况下，的模型能够有更好的效果。

在Weibo和E-commerce数据集上进行了实验，这两个数据集都具有数据量小，文本质量差的特点。实验结果如表所示，的模型表现最好。分析，Weibo与E-commerce-NER数据集数据量小。另外它们文本质量不高，数据集中含有大量无规则文本和噪声，且实体类别不够明确，而的模型在计算注意力时能够更专注于实体本身，所以在Weibo和Resume上效果也能达到最好，证明了所提模型的先进性。

同样在大型数据集MSRA和语言结构规范的Resume数据集上进行了实验，结果如表，可以看出，的模型也能得到很不错的效果。

为了验证所提出相对位置编码的有效性，在五个数据集上和使用绝对位置编码的Transformer编码器进行了对比实验，Transformer直接对不同的位置随机初始化一个postion embedding，加到嵌入上输入模型，作为参数进行训练。结果表明，采用绝对位置编码模型由于不能得到距离和方向信息导致表现不佳，而结合相对位置编码时，比绝对位置编码性能有了大幅提高，证明了所提出的相对位置编码方式的有效性。

采用了2019年哈工大和科大讯飞提出的BERT-WWM模型作为嵌入，对比了使用前后的效果，在四个数据集上进行了实验，结果如下表。整体来看，性能有不同程度的提升。虽然在小型数据集上，效果不是很明显，但在大型数据集上能够有较为明显的提升，证明了Bert作为嵌入的有效性。

改进TransformerEncoder并提出了一个整合词汇信息的Transformer_DSA模型，核心是引入词汇信息，通过简单有效的方式编码位置信息，融合了分散注意力机制。实验结果表明，该模型在小样本低质量数据集上的性能优于其他模型，与此同时，可以和Bert嵌入结合得到更好效果。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。