CN114462406B

CN114462406B - 基于多头自注意力模型获取首次出现的航空关键词方法

Info

Publication number: CN114462406B
Application number: CN202210195696.2A
Authority: CN
Inventors: 高魁; 董洪飞; 刘俊; 陶剑; 高龙; 何柳; 安然; 贺薇; 董世鹏; 武铎
Original assignee: China Aero Polytechnology Establishment
Current assignee: China Aero Polytechnology Establishment
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-08-23
Anticipated expiration: 2042-03-01
Also published as: CN114462406A

Abstract

本发明涉及一种基于多头自注意力模型获取首次出现的航空关键词方法，其包括以下步骤，步骤一：预处理输入文本，获取标准文本；步骤二：使用Bert编码技术获得文本特征向量；步骤三：构建相对位置矩阵，并构建正相对位置编码矩阵和负相对位置编码矩阵；步骤四：将特征向量输入到多头自注意力模型中，获取序列特征矩阵；步骤五：根据序列特征矩阵、正相对位置编码矩阵和负相对位置编码矩阵得到分类矩阵；步骤六：定位首次出现航空关键词区间。本发明对文本序列采用文本特征和位置特征相结合的方式获取序列特征矩阵，然后基于多头自注意力模型机制定位首次出现航空关键词区间，解决了首次出现的航空关键词识别难题，并且能够用于嵌套航空关键词的识别。

Description

基于多头自注意力模型获取首次出现的航空关键词方法

技术领域

本申请涉及人工智能领域，具体地涉及一种基于多头自注意力模型获取首次出现的航空关键词方法。

背景技术

航空领域有大量的专业词汇，而且很多专业词汇并未出现在现有的自然语言处理工具的词表中，通过常用的工具包难以将航空专业词汇进行抽取。而通常的新词发现算法是基于词频和凝固度的，这类算法根据语料用于抽取所有类型的新词，无法具体到航空领域。

基于词频和凝固度的新词发现方法：当片段的凝固度大于一定程度时，片段可能成词，然后计算边界熵来确定是否是词。简易的方法是如果片段的凝固度低于一定程度时，这个片段就不可能成词，然后在原来的语料中把它断开。

基于序列标注的新词发现算法：使用如BIO(B：实体开始位置，I：实体其他位置，O：非实体部分)对新词数据进行标注，使用如卷积神经网络，循环神经网络或者预训练模型对输入序列进行编码，然后使用条件随机场解码，得到序列中每个字所属的类型，然后将符合BI*的部分抽出作为实体。

除此之外，为了能够识别嵌套实体，提出了基于阅读理解的方法以及将实体抽取转为区间跨度分类的算法。基于阅读理解的方法通过查询依次得到实体的起点和终点坐标，而基于区间跨度分类的算法，将输入序列转为n*n矩阵的二分类问题，判断每个区间是否构成实体。

发明内容

为了克服现有技术的不足，本发明通过多头自注意力模型算法中的全连接层、gumble-sigmoid层和softmax函数来定位首次出现航空关键词区间，最终获取航空关键词。

为实现上述目的，本发明所采用的解决方案为：

一种基于多头自注意力模型获取首次出现的航空关键词方法，其包括以下步骤：

步骤1：预处理输入文本，获取标准文本段落；

剔除输入文本中的特殊字符，并截取长度为Q个字符的标准文本；若截取后的标准文本长度大于256个字符，则将文本按照标点符号切分为n个长度均在256个字符以内的标准文本段落，标准文本段落记为X，标准文本段落X包含x₁、x₂、x₃到x_m共m个字符；Q、m和n都为正整数；

步骤2：对标准文本段落X通过微调后的Bert进行编码，得到文本特征向量D；

使用微调后的Bert编码技术对标准文本X进行编码处理，得到文本特征向量D；

步骤3：构建相对位置矩阵，并根据相对位置矩阵构建相对位置编码矩阵和负相对位置编码矩阵；

相对位置矩阵L为m×m矩阵，相对位置编码矩阵M和负相对位置编码矩阵N为m×m×b的矩阵。

步骤4：将特征向量输入到多头自注意力模型中，获取序列特征矩阵；

步骤41：获取步骤2得到的文本特征向量D，通过多头自注意力模型的三个不同的全连接层得到Q，K，V三个不同的特征矩阵；

式中：Q表示第一特征矩阵；K表示第二特征矩阵；V表示第三特征矩阵；FCL₁、FCL₂和FCL₃分别表示第一、第二和第三全连接层处理；D表示文本特征向量；

步骤42：判断矩阵相似度，相似度矩阵S的获取方法如下所示；

S＝Q·K^T

式中：S表示相似度矩阵；

步骤43：将相似度矩阵S与相对位置编码矩阵M相加后输入到多头自注意力模型的gumble-sigmoid层进行可微分的01二值化使用，然后二值化矩阵与相似度矩阵做乘法，将无关特征值由0置为负无穷，获得二值化处理后的相似度矩阵S_c；具体过程如下所示；

S_c＝S·gs(S+M)

式中：M表示相对位置编码矩阵；S_c表示二值化处理后的相似度矩阵；gs表示gumble-sigmoid层；

步骤44：使用多头自注意力模型的softmax函数，计算整个序列的加权特征分布，并与第三特征矩阵V相乘，得到用于区间分类的序列特征矩阵F为m×b；

F＝softmax(S_c)·V

式中：F表示序列特征矩阵；

步骤5：根据序列特征矩阵F、正相对位置编码矩阵M和负相对位置编码矩阵N得到分类矩阵；

分类矩阵E为m×m矩阵；

步骤6：定位首次出现航空关键词区间；

使用多头自注意力模型的Sigmoid函数，将步骤5中的分类矩阵E中的每个值归一化到0-1，其中大于0.5的区间序列标记为首次出现航空关键词；

e_ij＝sigmoid(E_ij)

式中：i和j为分类矩阵的行列编号，0≤i≤m，0≤j≤m；e_ij表示第i行j列的航空新词系数；E_ij表示第i行j列的分类矩阵元素；sigmoid表示多头自注意力模型函数；

获取e_ij大于0.5的区间序列，确定并输出首次出现航空关键词。

可优选的是，所述步骤3具体为：

步骤31：相对位置矩阵L是字符与字符之间相对位置组成的矩阵，是一个m行m列的方阵；针对不同距离的字符，采取不均匀编码的原则；负相对位置矩阵就是相对位置矩阵下三角为负值。

步骤32：将相对位置矩阵每个位置上的数值输入到微调后的Bert进行编码，将每个位置上的数值映射到b个维度，组成一个m×m×b的正相对位置编码矩阵M；同理，将负相对位置矩阵每个位置上的数值映射到b个维度，组成一个m×m×b的负相对位置编码矩阵N。

可优选的是，所述步骤3中的不均匀编码的原则具体为：设置距离dl，当两个字符的距离小于dl时相对位置值按实际距离设置；当两个字符距离大于dl时，采用模糊编码，相对位置值采用等比设计，当两个字符的距离未在相对位置值中时，采用就近原则，使用其值附近的相对位置值。

可优选的是，所述步骤3中的不均匀编码的原则具体为：相对位置值设定为0，1，2，3，4，5，6，8，10，13，16，20，…,256；即相对位置为0-6采取均编码，从6以后以1.3倍等比设计，相对位置值为20个，未涉及的相对位置值使用就近原则；负相对位置值设定为0，-1，-2，-3，-4，-5，-6，-8，-10，-13，-16，-20，…,-256。

可优选的是，所述步骤3中的b个维度与步骤1中的文本特征向量D的维度相同。

可优选的是，所述步骤5：根据序列特征矩阵F、正相对位置编码矩阵M和负相对位置编码矩阵N得到分类矩阵；具体步骤为：

序列特征矩阵F为m×b，将序列特征扩展到m×1×b，再将第二维复制m次，得到维度m×m×b的特征矩阵，将其与正相对位置编码矩阵M按照对应位置拼接组成m×m×2b的正相对位置特征矩阵；全连接最后一维，再拼接为m×m×b的正相对位置特征矩阵；同理，通过上述方法与负相对位置编码矩阵N构建成负相对位置特征矩阵；

分别将正负相对位置特征矩阵的对应位置的特征向量进行内积运算，最终获得得到m×m的分类矩阵E；

可优选的是，所述m为256，b为768。

与现有技术相比，本发明的有益效果在于：

(1)本发明提出了一种航空关键词获取方法，主要基于多头自注意力模型中的全连接层、gumble-sigmoid层和softmax函数来解决首次出现航空关键词区间定位问题，最终确定首次出现的航空关键词；

(2)本发明利用编码器分别得到文字编码和位置编码，并将两者相结合得到区间编码特征用于分类，能够用于嵌套航空关键词的识别。如“空中加油机”，会同时抽取“空中加油机”和“加油机”两个航空关键词。

(3)本发明设计并加入了负相对位置编码矩阵，增加了反向距离差，可以更好的提取区间编码特征。

(4)本方法的应用解决了首次出现的航空关键词识别难题，填补了现有技术的空白，为航空领域文本处理提供了新方法。

附图说明

图1为本发明实施例基于多头自注意力模型获取首次出现的航空关键词方法控制框图；

图2为本发明实施例的算法流程图；

具体实施方式

为更好的理解本发明的技术方案，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

本发明是一种基于多头注意力的首次出现的航空关键词获取方法，如图1所示为实施例基于多头自注意力模型获取首次出现的航空关键词方法控制框图，本发明通过多头自注意力模型算法中的全连接层、gumble-sigmoid层和softmax函数来定位首次出现航空关键词区间，最终获取航空关键词，如图2为本发明实施例的算法流程图。具体实施步骤如下：

步骤1：预处理输入文本，得到标准文本段落；

预处理输入文本包括：首先需要剔除输入文本中的特殊字符，并截取长度为m个字符的标准文本；若截取后的标准文本长度大于256个字符，则将文本按照标点符号切分为n个长度均在256个字符以内的标准文本段落，标准文本段落记为X，标准文本段落X包含x₁、x₂、x₃到x_m共m个字符；M、m和n都为正整数。

此处需要说明，当n大于1时，则会有多个标准文本段落X₁、X₂…X_n，但是对每个标准文本段落都采用相同的后续步骤处理，因此本实施例只以一个标准文本段落X为例。

步骤2：对标准文本段落X通过微调后的Bert(Bidirectional EncoderRepresentation from Transformers基于转换器的双向编码表征)进行编码，得到文本特征向量D；

在本实施例中，微调后的Bert得到的文本特征向量D为768维。

步骤3：确定相对位置矩阵，并根据相对位置矩阵得到正相对位置编码矩阵以及负相对位置编码矩阵；

步骤31：根据标准文本段落得到相对位置矩阵以及负相对位置矩阵；

相对位置矩阵L是字符与字符之间相对位置组成的矩阵，是一个m行m列的方阵。如分别位于i和j位置的两个字符，并且i<j(i，j为自然数)，那么在相对位置矩阵中，位于[i，j]的元素值就为j-i，同样位于[j，i]的元素值也为j-i。

负相对位置矩阵与相对位置矩阵的区别在于，位于[j，i]的元素值为i-j，即为负值。

针对不同距离的字符，采取不均匀编码的原则，相对位置值设定为{0，1，2，…,m}中的一个；生成m×m的相对位置矩阵，位置距离较近的字之间，需要较为精确的位置值，位置较远，只需要粗略的位置值，相对位置值的数量少，更利于模型训练。本实施例中，相对位置值设定为0，1，2，3，4，5，6，8，10，13，16，20，…,256；而且本实施例中，相对位置为0-6采取均编码，从6以后以1.3倍等比设计，因此相对位置值为20个，未涉及的相对位置值使用就近原则。负相对位置值设定为0，-1，-2，-3，-4，-5，-6，-8，-10，-13，-16，-20，…,-256。

如标准文本段落为“日本购买了美国F35B，可以在直航上垂直起降”，表1中展示了相对位置矩阵L的一部分：

表1相对位置矩阵L的一部分

…		美	国	F	3	5	B	，	可	以
												下标	5	6	7	8	9	10	11	12	13
美	5	0	1	2	3	4	5	6	6	8
											国	6	1	0	1	2	3	4	5	6	6
F	7	2	1	0	1	2	3	4	5	6
											3	8	3	2	1	0	1	2	3	4	5
5	9	4	3	2	1	0	1	2	3	4
											B	10	5	4	3	2	1	0	1	2	3
，	11	6	5	4	3	2	1	0	1	2
											可	12	6	6	5	4	3	2	1	0	1
以	13	8	6	6	5	4	3	2	1	0
											在	14	8	8	6	6	5	4	3	2	1
直	15	10	8	8	6	6	5	4	3	2
											航	16	10	10	8	8	6	6	5	4	3
上	17	13	10	10	8	8	6	6	5	4

相对位置矩阵的元素下标表示绝对位置，在相对位置矩阵中元素都为正值，如行7列11的值是3，表示行7列11所对应的字符的相对位置差值为3。而且从上表中可以看出，不在相对位置值集合中的数值，按就近原则分配映射数值，若左右一样取左端。如“美”和“可”之间的相对位置值为7，7不在相对位置值集合中，而且介于相对位置值集合中的6和8数值之间，根据“就近原则分配映射数值，若左右一样取左端”的规则，7被映射到6，因此“美”和“可”之间的相对位置值为6，即相对位置矩阵L中下标为[5，12]的元素值为6。

负相对位置矩阵就是将相对位置矩阵中的下三角的元素值都变为负值。

步骤32：将相对位置矩阵每个位置上的数值也输入到微调后的Bert进行编码，将每个位置上的数值映射到b个维度，组成一个m×m×b的正相对位置编码矩阵M；同理，将负相对位置矩阵每个位置上的数值映射到b个维度，组成一个m×m×b的负相对位置编码矩阵N；

本实施例中涉及到的“微调后的Bert”是指已经训练完成的适用于本发明目的的Bert模型，在对Bert进行微调时，使用文本和相对位置同时进行训练，因此微调后的Bert可对文本和相对位置进行编码。对Bert进行微调是现有技术，在此专利中不进行展开。

本实施例在对Bert进行微调时，为加快训练速度，相对位置编码的初始化方式为：

PE_t，2i＝sin(t/10000^2i/d)

PE_t，2i+1＝cos(t/1000^2i/d)

式中：t表示相对位置值，取{0，1，2，3，4，5，6，8，10，13，...，256}其中之一；d表示特征维度，取768；i取0-383，表示768维特征中是第几维，PE_t，2i表示相对位置编码值为t时在2i维的特征值，PE_t，2i+1表示相对位置编码值为t时在2i+1维的特征值。

负相对位置编码初始化时，输入模型的相对位置值存在负值。本发明设计并加入了负相对位置编码矩阵，增加了反向距离差，是为了后续更好的提取区间特征。

相对位置矩阵每个位置上的数值也是通过微调后的Bert进行编码，因此b的维度与文本特征向量D的维度相同，本实施例中为768维。

在这里，可以将步骤1中微调后的bert理解为一个文字编码器，本步骤中微调后的bert理解为位置编码器，文字编码和位置编码在后续步骤同时使用，就能得到区间编码特征，用于分类。因为在后面是位置编码和文字编码共同用于计算区间编码，因此本实施例中的这些位置编码已经足够。

步骤4：将特征向量输入到多头自注意力模型中，获取序列特征矩阵；所述特征向量包括：文本特征向量D和正相对位置编码矩阵M。

步骤41：使用多头自注意力模型时，文本特征向量通过三个不同的全连接层得到Q，K，V三个不同的特征矩阵；

步骤42：判断矩阵相似度，数值越大，表示相似度越高，相似度矩阵S的获取方法如下所示；

S＝Q·K^T

式中：S表示相似度矩阵；

步骤43：将相似度矩阵S与步骤31中的正相对位置编码矩阵M相加后输入到多头自注意力模型的gumble-sigmoid层进行可微分的01二值化使用，然后二值化矩阵与相似度矩阵做乘法，将无关特征值置为负无穷，使相似度矩阵的注意力凝聚，获得二值化处理后的相似度矩阵S_c；具体过程如下所示；

S_c＝S·gs(S+M)

式中：M表示正相对位置编码矩阵；S_c表示二值化处理后的相似度矩阵；gs表示gumble-sigmoid层；

将无关特征值置为负无穷，在之后使用softamx计算加权特征时无关特征置才真正不会起作用。

F＝softmax(S_c)·V

式中：F表示序列特征矩阵；

本实施例中，相对位置矩阵是256×256，然后得到相对位置编码矩阵(即对相对位置矩阵做位置特征嵌入)就变成了256×256×768，每个相对位置都被映射到了一组向量。相对位置矩阵256×256和相对位置编码矩阵256×256×768之间的关系，同文本原文和文本特征之间的关系一致。softmax包含了加权求和，用于压缩特征，序列特征F就会变成256×768。

序列特征矩阵F为m×b，将序列特征扩展到m×1×b，再将第二维复制m次，得到维度m×m×b的特征矩阵，将其与步骤3获得的正相对位置编码矩阵M按照对应位置拼接组成m×m×2b的正相对位置特征矩阵，全连接最后一维，再拼接为m×m×b的正相对位置特征矩阵；同理，通过上述方法与负相对位置编码矩阵N构建负相对位置特征矩阵；

本实施例中，序列特征矩阵F为256×768，将序列特征扩展到256×1×768，再将第二维复制256次，得到维度256×256×768的特征，并与相对位置编码矩阵拼接后为256×256×(768*2)。相对位置编码矩阵为256×256×768，其中256×256表示了特征区间，768为相对位置编码，体现了位置特征，因此在特征区间相同的情况下，只需要拼接相对位置编码即可，因此与相对位置编码矩阵拼接后为256×256×(768*2)。全连接最后一维到48个(256，256，16)维度的特征，再拼接为256×256×768的正相对位置特征矩阵。此处不使用768->768的全连接，是因为768->768的全连接计算量太大参数太多。划分为48组，每组16维，组的数量越多，计算速度越快，当维度低于16后，特征损失较多，故采用48组16维，48*16＝768，保证前后维度不变。

同理使用负相对位置编号特征矩阵构建负相对位置特征矩阵，负相对位置特征矩阵也是256×256×768的特征矩阵。

将正负相对位置特征矩阵的对应位置的特征向量进行内积运算(即对两矩阵中的每对向量做点积)，最终获得得到m×m的分类矩阵E；

步骤6：定位首次出现航空关键词区间；

e_ij＝sigmoid(E_ij)

式中：i和j为分类矩阵的行列编号，均属于m；e_ij表示第i行j列的航空新词系数；E_ij表示第i行j列的分类矩阵元素；sigmoid表示多头自注意力模型函数；

表2所示列出了本发明方法(our)和序列标注(Bert+crf)、阅读理解(Bert+mrc)、区间分类(Bert+span)三种方法在航空关键词识别的数据集上的应用效果对比情况，从p、r和F1三个性质指标可以看出本方法相对于其他方法具有明显的优势。其中，p为精确率、r为召回率、

为第一技术指标。

表2各模型在航空关键词识别的数据集上的应用效果

	P(精确率)	R(召回率)	F1(第一技术指标)
				Bert+crf(序列标注)	0.752	0.662	0.704
Bert+mrc(阅读理解)	0.713	0.739	0.726
				Bert+span(区间分类)	0.720	0.733	0.726
Our(本发明)	0.801	0.829	0.814

综上，本案例的结果证明了本发明具有很好的效果。

(1)本发明实施例详细介绍了航空关键词获取方法的具体过程，主要基于多头自注意力模型中的全连接层、gumble-sigmoid层和softmax函数来解决首次出现航空关键词区间定位问题，最终确定首次出现的航空关键词；

(3)本发明利用编码器分别得到文字编码和位置编码，并将两者相结合得到区间编码特征用于分类，能够用于嵌套航空关键词的识别，如“空中加油机”，会同时抽取“空中加油机”和“加油机”两个航空关键词，这是由于本发明基于区间定位的方法会对“空中加油机”和“加油机”平等对待，而且在抽取词特征时也会聚焦到局部。

(4)本发明实施例提供的数据，证明本方法相较于其他方法的优越性，本方法的应用可以解决首次出现的航空关键词识别难题，填补了现有技术的空白，为航空领域文本处理提供了新方法，新思路；

以上所述的实施例仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于多头自注意力模型获取首次出现的航空关键词方法，其特征在于，其包括以下步骤：

步骤1：预处理输入文本，获取标准文本段落；

步骤2：使用Bert编码技术获得文本特征向量；

步骤3：构建相对位置矩阵，并根据相对位置矩阵构建正相对位置编码矩阵和负相对位置编码矩阵；

相对位置矩阵L为m×m矩阵，正相对位置编码矩阵M和负相对位置编码矩阵N为m×m×b的矩阵；

S＝Q·K^T

式中：S表示相似度矩阵；

步骤43：将相似度矩阵S与正相对位置编码矩阵M相加后输入到多头自注意力模型的gumble-sigmoid层进行0、1二值化，然后二值化矩阵与相似度矩阵做乘法，将无关特征值由0置为负无穷，获得二值化处理后的相似度矩阵S_c；具体过程如下所示；

S_c＝S·gs(S+M)

步骤44：使用多头自注意力模型的softmax函数，计算整个序列的加权特征分布，并与第三特征矩阵V相乘，得到用于区间分类的序列特征矩阵F，F为m×b矩阵；

F＝softmax(S_c)·V

式中：F表示序列特征矩阵；

分类矩阵E为m×m矩阵；

步骤6：定位首次出现航空关键词区间；

e_ij＝sigmoid(E_ij)

式中：i和j为分类矩阵的行列编号，i、j均属于m；e_ij表示第i行j列的航空新词系数；E_ij表示第i行j列的分类矩阵元素；sigmoid表示多头自注意力模型函数；

获取e_ij大于0.5的区间序列，确定并输出首次出现航空关键词；

所述步骤3具体为：

步骤31：相对位置矩阵L是字符与字符之间相对位置组成的矩阵，是一个m行m列的方阵；针对不同距离的字符，采取不均匀编码的原则；负相对位置矩阵就是相对位置矩阵下三角为负值；

步骤32：将相对位置矩阵每个位置上的数值输入到微调后的Bert进行编码，将每个位置上的数值映射到b个维度，组成一个m×m×b的正相对位置编码矩阵M；同理，将负相对位置矩阵每个位置上的数值映射到b个维度，组成一个m×m×b的负相对位置编码矩阵N；

所述步骤3中的不均匀编码的原则具体为：设置距离dl，当两个字符的距离小于dl时相对位置值按实际距离设置；当两个字符距离大于dl时，采用模糊编码，相对位置值采用等比设计，当两个字符的距离未在相对位置值中时，采用就近原则，使用其值附近的相对位置值。

2.根据权利要求1所述的基于多头自注意力模型获取首次出现的航空关键词方法，其特征在于，所述步骤3中的不均匀编码的原则具体为：相对位置值设定为0，1，2，3，4，5，6，8，10，13，16，20，…,256；即相对位置为0-6采取均编码，从6以后以1.3倍等比设计，相对位置值为20个，未涉及的相对位置值使用就近原则；负相对位置值设定为0，-1，-2，-3，-4，-5，-6，-8，-10，-13，-16，-20，…,-256。

3.根据权利要求1所述的基于多头自注意力模型获取首次出现的航空关键词方法，其特征在于，所述步骤3中的b个维度与步骤1中的文本特征向量D的维度相同。

4.根据权利要求1所述的基于多头自注意力模型获取首次出现的航空关键词方法，其特征在于，所述步骤5：根据序列特征矩阵F、正相对位置编码矩阵M和负相对位置编码矩阵N得到分类矩阵；具体步骤为：

分别将正负相对位置特征矩阵的对应位置的特征向量进行内积运算，最终获得m×m的分类矩阵E。

5.根据权利要求1所述的基于多头自注意力模型获取首次出现的航空关键词方法，其特征在于，所述m为256，b为768。