CN114462406B - 基于多头自注意力模型获取首次出现的航空关键词方法 - Google Patents
基于多头自注意力模型获取首次出现的航空关键词方法 Download PDFInfo
- Publication number
- CN114462406B CN114462406B CN202210195696.2A CN202210195696A CN114462406B CN 114462406 B CN114462406 B CN 114462406B CN 202210195696 A CN202210195696 A CN 202210195696A CN 114462406 B CN114462406 B CN 114462406B
- Authority
- CN
- China
- Prior art keywords
- matrix
- relative position
- feature
- coding
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于多头自注意力模型获取首次出现的航空关键词方法,其包括以下步骤,步骤一:预处理输入文本,获取标准文本;步骤二:使用Bert编码技术获得文本特征向量;步骤三:构建相对位置矩阵,并构建正相对位置编码矩阵和负相对位置编码矩阵;步骤四:将特征向量输入到多头自注意力模型中,获取序列特征矩阵;步骤五:根据序列特征矩阵、正相对位置编码矩阵和负相对位置编码矩阵得到分类矩阵;步骤六:定位首次出现航空关键词区间。本发明对文本序列采用文本特征和位置特征相结合的方式获取序列特征矩阵,然后基于多头自注意力模型机制定位首次出现航空关键词区间,解决了首次出现的航空关键词识别难题,并且能够用于嵌套航空关键词的识别。
Description
技术领域
本申请涉及人工智能领域,具体地涉及一种基于多头自注意力模型获取首次出现的航空关键词方法。
背景技术
航空领域有大量的专业词汇,而且很多专业词汇并未出现在现有的自然语言处理工具的词表中,通过常用的工具包难以将航空专业词汇进行抽取。而通常的新词发现算法是基于词频和凝固度的,这类算法根据语料用于抽取所有类型的新词,无法具体到航空领域。
基于词频和凝固度的新词发现方法:当片段的凝固度大于一定程度时,片段可能成词,然后计算边界熵来确定是否是词。简易的方法是如果片段的凝固度低于一定程度时,这个片段就不可能成词,然后在原来的语料中把它断开。
基于序列标注的新词发现算法:使用如BIO(B:实体开始位置,I:实体其他位置,O:非实体部分)对新词数据进行标注,使用如卷积神经网络,循环神经网络或者预训练模型对输入序列进行编码,然后使用条件随机场解码,得到序列中每个字所属的类型,然后将符合BI*的部分抽出作为实体。
除此之外,为了能够识别嵌套实体,提出了基于阅读理解的方法以及将实体抽取转为区间跨度分类的算法。基于阅读理解的方法通过查询依次得到实体的起点和终点坐标,而基于区间跨度分类的算法,将输入序列转为n*n矩阵的二分类问题,判断每个区间是否构成实体。
发明内容
为了克服现有技术的不足,本发明通过多头自注意力模型算法中的全连接层、gumble-sigmoid层和softmax函数来定位首次出现航空关键词区间,最终获取航空关键词。
为实现上述目的,本发明所采用的解决方案为:
一种基于多头自注意力模型获取首次出现的航空关键词方法,其包括以下步骤:
步骤1:预处理输入文本,获取标准文本段落;
剔除输入文本中的特殊字符,并截取长度为Q个字符的标准文本;若截取后的标准文本长度大于256个字符,则将文本按照标点符号切分为n个长度均在256个字符以内的标准文本段落,标准文本段落记为X,标准文本段落X包含x1、x2、x3到xm共m个字符;Q、m和n都为正整数;
步骤2:对标准文本段落X通过微调后的Bert进行编码,得到文本特征向量D;
使用微调后的Bert编码技术对标准文本X进行编码处理,得到文本特征向量D;
步骤3:构建相对位置矩阵,并根据相对位置矩阵构建相对位置编码矩阵和负相对位置编码矩阵;
相对位置矩阵L为m×m矩阵,相对位置编码矩阵M和负相对位置编码矩阵N为m×m×b的矩阵。
步骤4:将特征向量输入到多头自注意力模型中,获取序列特征矩阵;
步骤41:获取步骤2得到的文本特征向量D,通过多头自注意力模型的三个不同的全连接层得到Q,K,V三个不同的特征矩阵;
式中:Q表示第一特征矩阵;K表示第二特征矩阵;V表示第三特征矩阵;FCL1、FCL2和FCL3分别表示第一、第二和第三全连接层处理;D表示文本特征向量;
步骤42:判断矩阵相似度,相似度矩阵S的获取方法如下所示;
S=Q·KT
式中:S表示相似度矩阵;
步骤43:将相似度矩阵S与相对位置编码矩阵M相加后输入到多头自注意力模型的gumble-sigmoid层进行可微分的01二值化使用,然后二值化矩阵与相似度矩阵做乘法,将无关特征值由0置为负无穷,获得二值化处理后的相似度矩阵Sc;具体过程如下所示;
Sc=S·gs(S+M)
式中:M表示相对位置编码矩阵;Sc表示二值化处理后的相似度矩阵;gs表示gumble-sigmoid层;
步骤44:使用多头自注意力模型的softmax函数,计算整个序列的加权特征分布,并与第三特征矩阵V相乘,得到用于区间分类的序列特征矩阵F为m×b;
F=softmax(Sc)·V
式中:F表示序列特征矩阵;
步骤5:根据序列特征矩阵F、正相对位置编码矩阵M和负相对位置编码矩阵N得到分类矩阵;
分类矩阵E为m×m矩阵;
步骤6:定位首次出现航空关键词区间;
使用多头自注意力模型的Sigmoid函数,将步骤5中的分类矩阵E中的每个值归一化到0-1,其中大于0.5的区间序列标记为首次出现航空关键词;
eij=sigmoid(Eij)
式中:i和j为分类矩阵的行列编号,0≤i≤m,0≤j≤m;eij表示第i行j列的航空新词系数;Eij表示第i行j列的分类矩阵元素;sigmoid表示多头自注意力模型函数;
获取eij大于0.5的区间序列,确定并输出首次出现航空关键词。
可优选的是,所述步骤3具体为:
步骤31:相对位置矩阵L是字符与字符之间相对位置组成的矩阵,是一个m行m列的方阵;针对不同距离的字符,采取不均匀编码的原则;负相对位置矩阵就是相对位置矩阵下三角为负值。
步骤32:将相对位置矩阵每个位置上的数值输入到微调后的Bert进行编码,将每个位置上的数值映射到b个维度,组成一个m×m×b的正相对位置编码矩阵M;同理,将负相对位置矩阵每个位置上的数值映射到b个维度,组成一个m×m×b的负相对位置编码矩阵N。
可优选的是,所述步骤3中的不均匀编码的原则具体为:设置距离dl,当两个字符的距离小于dl时相对位置值按实际距离设置;当两个字符距离大于dl时,采用模糊编码,相对位置值采用等比设计,当两个字符的距离未在相对位置值中时,采用就近原则,使用其值附近的相对位置值。
可优选的是,所述步骤3中的不均匀编码的原则具体为:相对位置值设定为0,1,2,3,4,5,6,8,10,13,16,20,…,256;即相对位置为0-6采取均编码,从6以后以1.3倍等比设计,相对位置值为20个,未涉及的相对位置值使用就近原则;负相对位置值设定为0,-1,-2,-3,-4,-5,-6,-8,-10,-13,-16,-20,…,-256。
可优选的是,所述步骤3中的b个维度与步骤1中的文本特征向量D的维度相同。
可优选的是,所述步骤5:根据序列特征矩阵F、正相对位置编码矩阵M和负相对位置编码矩阵N得到分类矩阵;具体步骤为:
序列特征矩阵F为m×b,将序列特征扩展到m×1×b,再将第二维复制m次,得到维度m×m×b的特征矩阵,将其与正相对位置编码矩阵M按照对应位置拼接组成m×m×2b的正相对位置特征矩阵;全连接最后一维,再拼接为m×m×b的正相对位置特征矩阵;同理,通过上述方法与负相对位置编码矩阵N构建成负相对位置特征矩阵;
分别将正负相对位置特征矩阵的对应位置的特征向量进行内积运算,最终获得得到m×m的分类矩阵E;
可优选的是,所述m为256,b为768。
与现有技术相比,本发明的有益效果在于:
(1)本发明提出了一种航空关键词获取方法,主要基于多头自注意力模型中的全连接层、gumble-sigmoid层和softmax函数来解决首次出现航空关键词区间定位问题,最终确定首次出现的航空关键词;
(2)本发明利用编码器分别得到文字编码和位置编码,并将两者相结合得到区间编码特征用于分类,能够用于嵌套航空关键词的识别。如“空中加油机”,会同时抽取“空中加油机”和“加油机”两个航空关键词。
(3)本发明设计并加入了负相对位置编码矩阵,增加了反向距离差,可以更好的提取区间编码特征。
(4)本方法的应用解决了首次出现的航空关键词识别难题,填补了现有技术的空白,为航空领域文本处理提供了新方法。
附图说明
图1为本发明实施例基于多头自注意力模型获取首次出现的航空关键词方法控制框图;
图2为本发明实施例的算法流程图;
具体实施方式
为更好的理解本发明的技术方案,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明是一种基于多头注意力的首次出现的航空关键词获取方法,如图1所示为实施例基于多头自注意力模型获取首次出现的航空关键词方法控制框图,本发明通过多头自注意力模型算法中的全连接层、gumble-sigmoid层和softmax函数来定位首次出现航空关键词区间,最终获取航空关键词,如图2为本发明实施例的算法流程图。具体实施步骤如下:
步骤1:预处理输入文本,得到标准文本段落;
预处理输入文本包括:首先需要剔除输入文本中的特殊字符,并截取长度为m个字符的标准文本;若截取后的标准文本长度大于256个字符,则将文本按照标点符号切分为n个长度均在256个字符以内的标准文本段落,标准文本段落记为X,标准文本段落X包含x1、x2、x3到xm共m个字符;M、m和n都为正整数。
此处需要说明,当n大于1时,则会有多个标准文本段落X1、X2…Xn,但是对每个标准文本段落都采用相同的后续步骤处理,因此本实施例只以一个标准文本段落X为例。
步骤2:对标准文本段落X通过微调后的Bert(Bidirectional EncoderRepresentation from Transformers基于转换器的双向编码表征)进行编码,得到文本特征向量D;
在本实施例中,微调后的Bert得到的文本特征向量D为768维。
步骤3:确定相对位置矩阵,并根据相对位置矩阵得到正相对位置编码矩阵以及负相对位置编码矩阵;
步骤31:根据标准文本段落得到相对位置矩阵以及负相对位置矩阵;
相对位置矩阵L是字符与字符之间相对位置组成的矩阵,是一个m行m列的方阵。如分别位于i和j位置的两个字符,并且i<j(i,j为自然数),那么在相对位置矩阵中,位于[i,j]的元素值就为j-i,同样位于[j,i]的元素值也为j-i。
负相对位置矩阵与相对位置矩阵的区别在于,位于[j,i]的元素值为i-j,即为负值。
针对不同距离的字符,采取不均匀编码的原则,相对位置值设定为{0,1,2,…,m}中的一个;生成m×m的相对位置矩阵,位置距离较近的字之间,需要较为精确的位置值,位置较远,只需要粗略的位置值,相对位置值的数量少,更利于模型训练。本实施例中,相对位置值设定为0,1,2,3,4,5,6,8,10,13,16,20,…,256;而且本实施例中,相对位置为0-6采取均编码,从6以后以1.3倍等比设计,因此相对位置值为20个,未涉及的相对位置值使用就近原则。负相对位置值设定为0,-1,-2,-3,-4,-5,-6,-8,-10,-13,-16,-20,…,-256。
如标准文本段落为“日本购买了美国F35B,可以在直航上垂直起降”,表1中展示了相对位置矩阵L的一部分:
表1相对位置矩阵L的一部分
… | 美 | 国 | F | 3 | 5 | B | , | 可 | 以 | |
下标 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
美 | 5 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 6 | 8 |
国 | 6 | 1 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 6 |
F | 7 | 2 | 1 | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
3 | 8 | 3 | 2 | 1 | 0 | 1 | 2 | 3 | 4 | 5 |
5 | 9 | 4 | 3 | 2 | 1 | 0 | 1 | 2 | 3 | 4 |
B | 10 | 5 | 4 | 3 | 2 | 1 | 0 | 1 | 2 | 3 |
, | 11 | 6 | 5 | 4 | 3 | 2 | 1 | 0 | 1 | 2 |
可 | 12 | 6 | 6 | 5 | 4 | 3 | 2 | 1 | 0 | 1 |
以 | 13 | 8 | 6 | 6 | 5 | 4 | 3 | 2 | 1 | 0 |
在 | 14 | 8 | 8 | 6 | 6 | 5 | 4 | 3 | 2 | 1 |
直 | 15 | 10 | 8 | 8 | 6 | 6 | 5 | 4 | 3 | 2 |
航 | 16 | 10 | 10 | 8 | 8 | 6 | 6 | 5 | 4 | 3 |
上 | 17 | 13 | 10 | 10 | 8 | 8 | 6 | 6 | 5 | 4 |
相对位置矩阵的元素下标表示绝对位置,在相对位置矩阵中元素都为正值,如行7列11的值是3,表示行7列11所对应的字符的相对位置差值为3。而且从上表中可以看出,不在相对位置值集合中的数值,按就近原则分配映射数值,若左右一样取左端。如“美”和“可”之间的相对位置值为7,7不在相对位置值集合中,而且介于相对位置值集合中的6和8数值之间,根据“就近原则分配映射数值,若左右一样取左端”的规则,7被映射到6,因此“美”和“可”之间的相对位置值为6,即相对位置矩阵L中下标为[5,12]的元素值为6。
负相对位置矩阵就是将相对位置矩阵中的下三角的元素值都变为负值。
步骤32:将相对位置矩阵每个位置上的数值也输入到微调后的Bert进行编码,将每个位置上的数值映射到b个维度,组成一个m×m×b的正相对位置编码矩阵M;同理,将负相对位置矩阵每个位置上的数值映射到b个维度,组成一个m×m×b的负相对位置编码矩阵N;
本实施例中涉及到的“微调后的Bert”是指已经训练完成的适用于本发明目的的Bert模型,在对Bert进行微调时,使用文本和相对位置同时进行训练,因此微调后的Bert可对文本和相对位置进行编码。对Bert进行微调是现有技术,在此专利中不进行展开。
本实施例在对Bert进行微调时,为加快训练速度,相对位置编码的初始化方式为:
PEt,2i=sin(t/100002i/d)
PEt,2i+1=cos(t/10002i/d)
式中:t表示相对位置值,取{0,1,2,3,4,5,6,8,10,13,...,256}其中之一;d表示特征维度,取768;i取0-383,表示768维特征中是第几维,PEt,2i表示相对位置编码值为t时在2i维的特征值,PEt,2i+1表示相对位置编码值为t时在2i+1维的特征值。
负相对位置编码初始化时,输入模型的相对位置值存在负值。本发明设计并加入了负相对位置编码矩阵,增加了反向距离差,是为了后续更好的提取区间特征。
相对位置矩阵每个位置上的数值也是通过微调后的Bert进行编码,因此b的维度与文本特征向量D的维度相同,本实施例中为768维。
在这里,可以将步骤1中微调后的bert理解为一个文字编码器,本步骤中微调后的bert理解为位置编码器,文字编码和位置编码在后续步骤同时使用,就能得到区间编码特征,用于分类。因为在后面是位置编码和文字编码共同用于计算区间编码,因此本实施例中的这些位置编码已经足够。
步骤4:将特征向量输入到多头自注意力模型中,获取序列特征矩阵;所述特征向量包括:文本特征向量D和正相对位置编码矩阵M。
步骤41:使用多头自注意力模型时,文本特征向量通过三个不同的全连接层得到Q,K,V三个不同的特征矩阵;
式中:Q表示第一特征矩阵;K表示第二特征矩阵;V表示第三特征矩阵;FCL1、FCL2和FCL3分别表示第一、第二和第三全连接层处理;D表示文本特征向量;
步骤42:判断矩阵相似度,数值越大,表示相似度越高,相似度矩阵S的获取方法如下所示;
S=Q·KT
式中:S表示相似度矩阵;
步骤43:将相似度矩阵S与步骤31中的正相对位置编码矩阵M相加后输入到多头自注意力模型的gumble-sigmoid层进行可微分的01二值化使用,然后二值化矩阵与相似度矩阵做乘法,将无关特征值置为负无穷,使相似度矩阵的注意力凝聚,获得二值化处理后的相似度矩阵Sc;具体过程如下所示;
Sc=S·gs(S+M)
式中:M表示正相对位置编码矩阵;Sc表示二值化处理后的相似度矩阵;gs表示gumble-sigmoid层;
将无关特征值置为负无穷,在之后使用softamx计算加权特征时无关特征置才真正不会起作用。
步骤44:使用多头自注意力模型的softmax函数,计算整个序列的加权特征分布,并与第三特征矩阵V相乘,得到用于区间分类的序列特征矩阵F为m×b;
F=softmax(Sc)·V
式中:F表示序列特征矩阵;
本实施例中,相对位置矩阵是256×256,然后得到相对位置编码矩阵(即对相对位置矩阵做位置特征嵌入)就变成了256×256×768,每个相对位置都被映射到了一组向量。相对位置矩阵256×256和相对位置编码矩阵256×256×768之间的关系,同文本原文和文本特征之间的关系一致。softmax包含了加权求和,用于压缩特征,序列特征F就会变成256×768。
步骤5:根据序列特征矩阵F、正相对位置编码矩阵M和负相对位置编码矩阵N得到分类矩阵;
序列特征矩阵F为m×b,将序列特征扩展到m×1×b,再将第二维复制m次,得到维度m×m×b的特征矩阵,将其与步骤3获得的正相对位置编码矩阵M按照对应位置拼接组成m×m×2b的正相对位置特征矩阵,全连接最后一维,再拼接为m×m×b的正相对位置特征矩阵;同理,通过上述方法与负相对位置编码矩阵N构建负相对位置特征矩阵;
分别将正负相对位置特征矩阵的对应位置的特征向量进行内积运算,最终获得得到m×m的分类矩阵E;
本实施例中,序列特征矩阵F为256×768,将序列特征扩展到256×1×768,再将第二维复制256次,得到维度256×256×768的特征,并与相对位置编码矩阵拼接后为256×256×(768*2)。相对位置编码矩阵为256×256×768,其中256×256表示了特征区间,768为相对位置编码,体现了位置特征,因此在特征区间相同的情况下,只需要拼接相对位置编码即可,因此与相对位置编码矩阵拼接后为256×256×(768*2)。全连接最后一维到48个(256,256,16)维度的特征,再拼接为256×256×768的正相对位置特征矩阵。此处不使用768->768的全连接,是因为768->768的全连接计算量太大参数太多。划分为48组,每组16维,组的数量越多,计算速度越快,当维度低于16后,特征损失较多,故采用48组16维,48*16=768,保证前后维度不变。
同理使用负相对位置编号特征矩阵构建负相对位置特征矩阵,负相对位置特征矩阵也是256×256×768的特征矩阵。
将正负相对位置特征矩阵的对应位置的特征向量进行内积运算(即对两矩阵中的每对向量做点积),最终获得得到m×m的分类矩阵E;
步骤6:定位首次出现航空关键词区间;
使用多头自注意力模型的Sigmoid函数,将步骤5中的分类矩阵E中的每个值归一化到0-1,其中大于0.5的区间序列标记为首次出现航空关键词;
eij=sigmoid(Eij)
式中:i和j为分类矩阵的行列编号,均属于m;eij表示第i行j列的航空新词系数;Eij表示第i行j列的分类矩阵元素;sigmoid表示多头自注意力模型函数;
获取eij大于0.5的区间序列,确定并输出首次出现航空关键词。
表2所示列出了本发明方法(our)和序列标注(Bert+crf)、阅读理解(Bert+mrc)、区间分类(Bert+span)三种方法在航空关键词识别的数据集上的应用效果对比情况,从p、r和F1三个性质指标可以看出本方法相对于其他方法具有明显的优势。其中,p为精确率、r为召回率、为第一技术指标。
表2各模型在航空关键词识别的数据集上的应用效果
P(精确率) | R(召回率) | F1(第一技术指标) | |
Bert+crf(序列标注) | 0.752 | 0.662 | 0.704 |
Bert+mrc(阅读理解) | 0.713 | 0.739 | 0.726 |
Bert+span(区间分类) | 0.720 | 0.733 | 0.726 |
Our(本发明) | 0.801 | 0.829 | 0.814 |
综上,本案例的结果证明了本发明具有很好的效果。
(1)本发明实施例详细介绍了航空关键词获取方法的具体过程,主要基于多头自注意力模型中的全连接层、gumble-sigmoid层和softmax函数来解决首次出现航空关键词区间定位问题,最终确定首次出现的航空关键词;
(3)本发明利用编码器分别得到文字编码和位置编码,并将两者相结合得到区间编码特征用于分类,能够用于嵌套航空关键词的识别,如“空中加油机”,会同时抽取“空中加油机”和“加油机”两个航空关键词,这是由于本发明基于区间定位的方法会对“空中加油机”和“加油机”平等对待,而且在抽取词特征时也会聚焦到局部。
(3)本发明设计并加入了负相对位置编码矩阵,增加了反向距离差,可以更好的提取区间编码特征。
(4)本发明实施例提供的数据,证明本方法相较于其他方法的优越性,本方法的应用可以解决首次出现的航空关键词识别难题,填补了现有技术的空白,为航空领域文本处理提供了新方法,新思路;
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (5)
1.一种基于多头自注意力模型获取首次出现的航空关键词方法,其特征在于,其包括以下步骤:
步骤1:预处理输入文本,获取标准文本段落;
剔除输入文本中的特殊字符,并截取长度为Q个字符的标准文本;若截取后的标准文本长度大于256个字符,则将文本按照标点符号切分为n个长度均在256个字符以内的标准文本段落,标准文本段落记为X,标准文本段落X包含x1、x2、x3到xm共m个字符;Q、m和n都为正整数;
步骤2:使用Bert编码技术获得文本特征向量;
使用微调后的Bert编码技术对标准文本X进行编码处理,得到文本特征向量D;
步骤3:构建相对位置矩阵,并根据相对位置矩阵构建正相对位置编码矩阵和负相对位置编码矩阵;
相对位置矩阵L为m×m矩阵,正相对位置编码矩阵M和负相对位置编码矩阵N为m×m×b的矩阵;
步骤4:将特征向量输入到多头自注意力模型中,获取序列特征矩阵;
步骤41:获取步骤2得到的文本特征向量D,通过多头自注意力模型的三个不同的全连接层得到Q,K,V三个不同的特征矩阵;
式中:Q表示第一特征矩阵;K表示第二特征矩阵;V表示第三特征矩阵;FCL1、FCL2和FCL3分别表示第一、第二和第三全连接层处理;D表示文本特征向量;
步骤42:判断矩阵相似度,相似度矩阵S的获取方法如下所示;
S=Q·KT
式中:S表示相似度矩阵;
步骤43:将相似度矩阵S与正相对位置编码矩阵M相加后输入到多头自注意力模型的gumble-sigmoid层进行0、1二值化,然后二值化矩阵与相似度矩阵做乘法,将无关特征值由0置为负无穷,获得二值化处理后的相似度矩阵Sc;具体过程如下所示;
Sc=S·gs(S+M)
式中:M表示正相对位置编码矩阵;Sc表示二值化处理后的相似度矩阵;gs表示gumble-sigmoid层;
步骤44:使用多头自注意力模型的softmax函数,计算整个序列的加权特征分布,并与第三特征矩阵V相乘,得到用于区间分类的序列特征矩阵F,F为m×b矩阵;
F=softmax(Sc)·V
式中:F表示序列特征矩阵;
步骤5:根据序列特征矩阵F、正相对位置编码矩阵M和负相对位置编码矩阵N得到分类矩阵;
分类矩阵E为m×m矩阵;
步骤6:定位首次出现航空关键词区间;
使用多头自注意力模型的Sigmoid函数,将步骤5中的分类矩阵E中的每个值归一化到0-1,其中大于0.5的区间序列标记为首次出现航空关键词;
eij=sigmoid(Eij)
式中:i和j为分类矩阵的行列编号,i、j均属于m;eij表示第i行j列的航空新词系数;Eij表示第i行j列的分类矩阵元素;sigmoid表示多头自注意力模型函数;
获取eij大于0.5的区间序列,确定并输出首次出现航空关键词;
所述步骤3具体为:
步骤31:相对位置矩阵L是字符与字符之间相对位置组成的矩阵,是一个m行m列的方阵;针对不同距离的字符,采取不均匀编码的原则;负相对位置矩阵就是相对位置矩阵下三角为负值;
步骤32:将相对位置矩阵每个位置上的数值输入到微调后的Bert进行编码,将每个位置上的数值映射到b个维度,组成一个m×m×b的正相对位置编码矩阵M;同理,将负相对位置矩阵每个位置上的数值映射到b个维度,组成一个m×m×b的负相对位置编码矩阵N;
所述步骤3中的不均匀编码的原则具体为:设置距离dl,当两个字符的距离小于dl时相对位置值按实际距离设置;当两个字符距离大于dl时,采用模糊编码,相对位置值采用等比设计,当两个字符的距离未在相对位置值中时,采用就近原则,使用其值附近的相对位置值。
2.根据权利要求1所述的基于多头自注意力模型获取首次出现的航空关键词方法,其特征在于,所述步骤3中的不均匀编码的原则具体为:相对位置值设定为0,1,2,3,4,5,6,8,10,13,16,20,…,256;即相对位置为0-6采取均编码,从6以后以1.3倍等比设计,相对位置值为20个,未涉及的相对位置值使用就近原则;负相对位置值设定为0,-1,-2,-3,-4,-5,-6,-8,-10,-13,-16,-20,…,-256。
3.根据权利要求1所述的基于多头自注意力模型获取首次出现的航空关键词方法,其特征在于,所述步骤3中的b个维度与步骤1中的文本特征向量D的维度相同。
4.根据权利要求1所述的基于多头自注意力模型获取首次出现的航空关键词方法,其特征在于,所述步骤5:根据序列特征矩阵F、正相对位置编码矩阵M和负相对位置编码矩阵N得到分类矩阵;具体步骤为:
序列特征矩阵F为m×b,将序列特征扩展到m×1×b,再将第二维复制m次,得到维度m×m×b的特征矩阵,将其与正相对位置编码矩阵M按照对应位置拼接组成m×m×2b的正相对位置特征矩阵;全连接最后一维,再拼接为m×m×b的正相对位置特征矩阵;同理,通过上述方法与负相对位置编码矩阵N构建成负相对位置特征矩阵;
分别将正负相对位置特征矩阵的对应位置的特征向量进行内积运算,最终获得m×m的分类矩阵E。
5.根据权利要求1所述的基于多头自注意力模型获取首次出现的航空关键词方法,其特征在于,所述m为256,b为768。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210195696.2A CN114462406B (zh) | 2022-03-01 | 2022-03-01 | 基于多头自注意力模型获取首次出现的航空关键词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210195696.2A CN114462406B (zh) | 2022-03-01 | 2022-03-01 | 基于多头自注意力模型获取首次出现的航空关键词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114462406A CN114462406A (zh) | 2022-05-10 |
CN114462406B true CN114462406B (zh) | 2022-08-23 |
Family
ID=81415431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210195696.2A Active CN114462406B (zh) | 2022-03-01 | 2022-03-01 | 基于多头自注意力模型获取首次出现的航空关键词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114462406B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489635A (zh) * | 2020-12-03 | 2021-03-12 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380863A (zh) * | 2020-10-29 | 2021-02-19 | 国网天津市电力公司 | 一种基于多头自注意力机制的序列标注方法 |
CN112883171B (zh) * | 2021-02-02 | 2023-02-03 | 中国科学院计算技术研究所 | 基于bert模型的文档关键词抽取方法及装置 |
CN113407711B (zh) * | 2021-06-17 | 2023-04-07 | 成都崇瑚信息技术有限公司 | 一种利用预训练模型的吉布斯受限文本摘要生成方法 |
CN113515619B (zh) * | 2021-07-12 | 2024-08-13 | 南京理工大学 | 一种基于显著性信息门控机制的关键词生成方法 |
-
2022
- 2022-03-01 CN CN202210195696.2A patent/CN114462406B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112489635A (zh) * | 2020-12-03 | 2021-03-12 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114462406A (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920720A (zh) | 基于深度哈希和gpu加速的大规模图像检索方法 | |
CN110826335B (zh) | 一种命名实体识别的方法和装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113807422B (zh) | 融合多特征信息的加权图卷积神经网络评分预测模型 | |
CN110428424B (zh) | 基于深度学习的雷达回波图像高压线分割方法 | |
CN112800239B (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN110347857B (zh) | 基于强化学习的遥感影像的语义标注方法 | |
CN110348012B (zh) | 确定目标字符的方法、装置、存储介质及电子装置 | |
CN113190655B (zh) | 一种基于语义依赖的空间关系抽取方法及装置 | |
CN116541607B (zh) | 基于商品检索数据分析的智能推荐方法 | |
CN114444507A (zh) | 基于水环境知识图谱增强关系的上下文参数中文实体预测方法 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
CN110222338A (zh) | 一种机构名实体识别方法 | |
CN114612921A (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN111611413A (zh) | 基于度量学习的深度哈希方法 | |
CN114444613A (zh) | 一种基于3d点云信息的物体分类与物体分割方法 | |
CN114462406B (zh) | 基于多头自注意力模型获取首次出现的航空关键词方法 | |
CN112182337B (zh) | 从海量短新闻中识别相似新闻的方法及相关设备 | |
CN113535975A (zh) | 一种基于汉字知识图谱的多维度智能纠错方法 | |
CN115906845B (zh) | 一种电商商品标题命名实体识别方法 | |
CN116776173A (zh) | 一种基于卷积神经网络的电力量测数据脱敏方法 | |
CN114586038A (zh) | 事件抽取和抽取模型训练的方法和装置、设备、介质 | |
CN112052685B (zh) | 一种基于二维时序网络的端到端文本实体关系识别方法 | |
CN105718950B (zh) | 一种基于结构约束的半监督多视角聚类方法 | |
CN114780720A (zh) | 一种基于小样本学习的文本实体关系分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |