CN117540009B - 一种基于增强预训练文本匹配模型的文本匹配方法 - Google Patents
一种基于增强预训练文本匹配模型的文本匹配方法 Download PDFInfo
- Publication number
- CN117540009B CN117540009B CN202410028251.4A CN202410028251A CN117540009B CN 117540009 B CN117540009 B CN 117540009B CN 202410028251 A CN202410028251 A CN 202410028251A CN 117540009 B CN117540009 B CN 117540009B
- Authority
- CN
- China
- Prior art keywords
- text
- training
- model
- text matching
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 45
- 230000006872 improvement Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000007500 overflow downdraw method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000003999 initiator Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 239000007858 starting material Substances 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于增强预训练文本匹配模型的文本匹配方法,构建增强预训练文本匹配模型对文本进行推断,输出结果;所述增强预训练文本匹配模型在预训练模型的基础上增加对齐掩码矩阵,所述增强预训练文本匹配模型以Align_Transformer为骨架,Align_Transformer是Transformer模型的改进,包括特征提取器和分类器;所述特征提取器使用堆叠的Align_Transformer模块对文本对进行编码得到文本特征。本发明解决了预训练模型在文本匹配任务中由于缺少对齐交互信息导致的短句匹配困难、鲁棒性不强问题。
Description
技术领域
本发明属于自然语言处理和预训练大语言模型技术领域,具体涉及一种基于增强预训练文本匹配模型的文本匹配方法。
背景技术
文本匹配是自然语言处理的基础任务之一,旨在使用更丰富的语义表达形式计算两段文本的相似度,其结果也可应用于更高层次的搜索,问答等任务。当前预训练模型在深度学习领域取得了巨大突破,基于预训练模型的文本匹配方法是利用预训练模型在大规模语料库上学习先验知识,然后在下游文本匹配任务上进行针对性微调。
但预训练模型缺乏文本之间有效的交互匹配对齐信息,这对文本匹配任务是极其重要的;同时预训练模型对于短句的匹配效果不好,鲁棒性不强,这使基于预训练模型的文本匹配方法在实际应用时效果不好。
发明内容
为增强预训练文本匹配模型在文本匹配任务的有效性和实际可用性,提高短文本匹配效果,增强预训练文本匹配模型的鲁棒性,本发明提供了一种基于增强预训练文本匹配模型的文本匹配方法。
本发明是这样来实现的。一种基于增强预训练文本匹配模型的文本匹配方法,包括如下步骤:
步骤1:收集匹配文本对数据,并为每个文本对添加一个标签,包括正类标签和负类标签;
步骤2:构建词表,对匹配文本对数据进行预处理,拼接转化为增强预训练文本匹配模型能够读取的数据格式;
步骤3:构建增强预训练文本匹配模型,所述增强预训练文本匹配模型在预训练模型的基础上增加对齐掩码矩阵,所述增强预训练文本匹配模型以Align_Transformer为骨架,Align_Transformer是Transformer模型的改进,包括特征提取器和分类器;所述特征提取器使用堆叠的Align_Transformer模块对文本对进行编码得到文本特征;
步骤4:使用预训练模型初始化增强预训练文本匹配模型中对应的参数;对增强预训练文本匹配模型中的新增参数进行随机初始化,构造损失函数,使用不同学习率来更新预训练模型参数和新增参数,并且使用学习率预热和衰减策略训练增强预训练文本匹配模型;
步骤5:导出训练后的增强预训练文本匹配模型,设置评估模式,对需要进行预测的文本对进行推断,输出结果。
具体地,所述增强预训练文本匹配模型为Align_BERT模型或Align_RoBERTa模型。
具体地,所述特征提取器包括 12层Align_Transformer模块,每个Align_Transformer模块由对齐多头注意力层、残差连接和层归一化层和前馈神经网络层组成。
具体地,增强预训练文本匹配模型的处理过程如下:
步骤3a:步骤2产生的输入格式被映射成不同的词向量,然后将不同的词向量相加得到最终的输入特征向量;
步骤3b:输入特征向量首先会被投影成三份进入到对齐多头自注意力层模块,进行原始掩码矩阵Mmask计算,得到原始加权特征;进行对齐掩码矩阵Malign_mask计算,得到对齐增强加权特征,使用原始掩码矩阵和对齐掩码矩阵的对比如图4所示;原始加权特征和对齐增强加权特征通过基于门机制的特征融合方法融合到一起,再进行层归一化和残差连接送入到前馈神经网络层;
步骤3c:前馈神经网络层通过两层非线性映射对来自于对齐多头自注意力模块的特征进行信息汇总,将信息汇总后的特征继续送入到下个Align_Transformer模块;
步骤3d:在经过堆叠了12层Align_Transformer模块后,将特征送入到多层感知机进行分类,对样本的各类别进行打分,取最大分值的类别作为增强预训练文本匹配模型的分类结果。
具体地,输入特征提取器的两段文本通过起始符和分隔符拼接在一起,填充到增强预训练文本匹配模型的最大文本长度,然后一起被分词转化为词向量Etext=[CLS,x1,x2,SEP,…,xn-1,xn,SEP],其中CLS为起始符,SEP为分隔符,x1,x2,…,xn-1,xn分别为分词后的第1个到第n个字符的特征向量,然后和位置特征Epos、输入类别特征Esegment拼接在一起输入到Align__Transformer模块中。
具体地,对齐多头注意力层计算过程为:
输入的特征会被投影成为查询向量Q、键向量K和值向量V ,通过自注意力机制计算注意力矩阵A,其计算公式为:
;
其中,KT为键向量K的转置,dk 是缩放因子,用于保证 softmax 函数计算过程中有稳定的梯度;
根据拼接的输入格式,把注意力矩阵A划分成4个部分:第一部分代表第一段文本中的字符和自身的相关度,第二部分代表第一段文本中的字符和第二段文本中的字符的相关程度,第三部分代表第二段文本中的字符和第一段文本中的字符的相关程度,第四部分代表第二段文本中的字符和自身的相关程度;
使用原始掩码矩阵Mmask和对齐掩码矩阵Malign_mask来提供不同的语义信息,得到强调两种不同信息的注意力矩阵:掩码-注意力矩阵A1=A+Mmask, 增强对齐掩码-注意力矩阵A2=A+Malign_mask;
然后分别使用softmax函数归一化,再和值向量V相乘得到加权的特征:
h1=softmax(A1)V;
h2=softmax(A2)V;
其中,h1表示原始加权特征,h2表示对齐增强加权特征;
然后,使用多头操作进行多个自注意力机制结果的拼接,计算公式如下:
;
;
其中,mf表示参与融合的原始特征,ef表示额外的对齐信息特征, k 是自注意力
机制的数量,表示第一个原始加权特征,表示第k个原始加权特征,表示第一个对齐
增强加权特征,表示第k个对齐增强加权特征,concat表示拼接。
具体地,基于门机制的特征融合方法融合的计算过程如下:
;
;
;
;
其中,为拼接后的特征,为线性融合后的特征,为特征选择向量,向量值为
0到1之间的小数,为最终输出的融合特征,W为权重矩阵,b为偏置矩阵,GELU为
Transformer中使用的非线性化激活函数。
具体地,前馈神经网络层对对齐多头注意力层输出的进一步信息汇总,包括两层线性映射和一次通过ReLU激活函数进行非线性化操作。
进一步的,所述分类器为二分类或多分类,将Align_Transformer模块输出的特征最终输出为一个分类标签。
进一步的,所述预训练模型为BERT模型或者RoBERTa模型;
进一步的,所述损失函数构建为交叉熵损失函数。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)设计了一种新的加强匹配对齐信息的掩码矩阵,将其引入到Transformer结构中,加强了预训练模型的匹配对齐能力。
(2)探索了多种特征融合方法,并提出适用于预训练模型的基于门机制的特征融合,将增强对齐信息的特征和原有特征进行融合,取得了更好的文本匹配效果。
(3)进行了大量的实验,在多个基于Transformer的预训练模型和多个数据集上均有准确率和F1值的提升,验证了本发明的有效性。
(4)本发明解决了预训练模型在文本匹配任务中由于缺少对齐交互信息导致的短句匹配困难、鲁棒性不强问题。
(5)本发明应用前景广阔,可以推动自然语言处理和预训练大语言模型在文本分类领域的应用和研究。
附图说明
图1为本发明的方法流程图。
图2为本发明的输入特征向量示意图。
图3为本发明增强预训练文本匹配模型的Align_Transformer模块结构示意图。
图4为原始掩码矩阵和对齐掩码矩阵的对比示意图。
具体实施方式
下面结合附图及实施例对本发明进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在自然语言处理领域,预训练模型可以用于文本匹配、智能问答、序列标注等多个领域的工作。预训练的主要优势是能利用大规模语料库进行外部知识的学习,但是预训练模型并没有针对特定下游任务进行优化,给下游任务留下优化空间。本发明聚焦于预训练模型在文本匹配任务上的应用,有着丰富的应用场景和研究意义。
如图1所示,一种基于增强预训练文本匹配模型的文本匹配方法,包括如下步骤:
步骤1:收集文本对数据,并为每个文本对添加一个标签,包括正类标签和负类标签。收集问答网站的各种问题,将相似的问题作为正例,添加正类标签,并随机采样不相似的问题作为负例,添加负类标签,并保证正负例之间的类别平衡。同时进行问题的过滤,保证问题的主题能覆盖多个方面,而不是单一主题,这样能保证数据集的多样性,有利于模型的泛化;
步骤2:构建词表,对文本对数据进行预处理,拼接转化为增强预训练文本匹配模型能够读取的数据格式。通过一个已经训练好的分词器,将文本划分为各个令牌组成的集合,如“我爱中国”会被分词为集合[“我”,“爱”,“中”,“国”];“我爱北京”会被分词为集合[“我”,“爱”,“北”,“京”]然后将两句话按照如图2所示的输入形式组合在一起构成模型的输入。同时会产生位置编码和文段编码,位置编码为绝对位置编码如[0,1,2,3,4,5,6,7],文段编码为划分两个文段如[1,1,1,1,0,0,0,0];
步骤3:构建增强预训练文本匹配模型(Align_BERT模型或Align_RoBERTa模型),增强预训练文本匹配模型是在预训练模型(BERT模型或RoBERTa模型)的基础上增加对齐掩码矩阵,从而强化匹配对齐信息,提高增强预训练文本匹配模型的文本匹配效果;增强预训练文本匹配模型以Align_Transformer为骨架,Align_Transformer是Transformer模型的改进,包括特征提取器和分类器,结构如图3所示;所述特征提取器使用堆叠的Align_Transformer模块对文本对进行编码得到文本特征;所述分类器由两层全连接网络组成,用于对文本特征进行分类;
步骤4:训练强预训练文本匹配模型。使用预训练模型来初始化增强预训练文本匹配模型中对应的参数,对增强预训练文本匹配模型中的新增参数进行随机初始化,构造损失函数,使用不同学习率来更新增强预训练文本匹配模型中的预训练模型参数和新增参数,并且使用学习率预热和衰减策略训练增强预训练文本匹配模型;构造二分类的交叉熵损失函数,使用批处理技术,通过损失函数和反向传播优化算法更新增强预训练文本匹配模型参数,对于增强预训练文本匹配模型中的预训练模型参数使用2e-5学习率,对于新增参数使用较大的2e-3的学习率,并且在开始的1000步学习率将从0线性增长到目标学习率,随后将线性衰减,直到训练完成;
步骤5:导出训练后的增强预训练文本匹配模型,设置评估模式,对需要进行预测的文本对进行推断,输出结果。本实施例通过准确率、F1值等指标评估模型的表现。然后选取表现最好的增强预训练文本匹配模型部署到线上,进行线上实时的推断。
如图3所示,本实施例的特征提取器包括 12层Align_Transformer模块,每个Align_Transformer模块由对齐多头注意力层、两组残差连接和层归一化层和前馈神经网络层组成,对齐多头注意力层后连接一组残差连接和层归一化层,再连接前馈神经网络层,前馈神经网络层后再连接另一组前馈神经网络层。
本实施例的,增强预训练文本匹配模型的处理过程如下:
步骤3a:步骤2产生的输入格式被映射成不同的词向量,然后将不同的词向量相加得到最终的输入特征向量;如图2所示,输入特征提取器的两段文本通过起始符和分隔符拼接在一起,填充到增强预训练文本匹配模型的最大文本长度,然后一起被分词转化为词向量Etext=[CLS,x1,x2,SEP,…,xn-1,xn,SEP],其中CLS为起始符,SEP为分隔符,x1,x2,…,xn-1,xn分别为分词后的第1个到第n个字符的特征向量,然后和位置特征Epos、输入类别特征Esegment拼接在一起输入到Align_Transformer模块中;
步骤3b:输入特征向量首先会被投影成三份进入到对齐多头自注意力层模块,进行原始掩码矩阵Mmask计算,得到原始加权特征;进行对齐掩码矩阵Malign_mask计算,得到对齐增强加权特征,使用原始掩码矩阵和对齐掩码矩阵的对比如图4所示;原始加权特征和对齐增强加权特征通过基于门机制的特征融合方法融合到一起,再进行层归一化和残差连接送入到前馈神经网络层;
步骤3c:前馈神经网络层通过两层非线性映射对来自于对齐多头自注意力模块的特征进行信息汇总,将信息汇总后的特征继续送入到下个Align_Transformer模块;
步骤3d:在经过堆叠了12层Align_Transformer模块后,将特征送入到多层感知机进行分类,对样本的各类别进行打分,取最大分值的类别作为增强预训练文本匹配模型的分类结果。
本实施例中,对齐多头注意力层计算过程:
首先,输入的特征会被投影成为查询向量Q、键向量K和值向量V ,通过自注意力机制计算注意力矩阵A,其计算公式为:
;
其中,KT为键向量K的转置,dk 是缩放因子,用于保证 softmax 函数计算过程中有稳定的梯度。
根据拼接的输入格式,把注意力矩阵A划分成4个部分:第一部分代表第一段文本中的字符和自身的相关度,第二部分代表第一段文本中的字符和第二段文本中的字符的相关程度,第三部分代表第二段文本中的字符和第一段文本中的字符的相关程度,第四部分代表第二段文本中的字符和自身的相关程度。
使用两种掩码矩阵来提供不同的语义信息,一种是原始掩码矩阵Mmask,和注意力矩阵A具有相同的形状,在填充部分为一个极小值,其余位置为0;一种是对齐掩码矩阵Malign_mask,在第一部分、第四部分和填充部分都为极小值。这样得到强调两种不同信息的注意力矩阵:掩码-注意力矩阵A1=A+Mmask, 增强对齐掩码-注意力矩阵A2=A+Malign_mask;
然后分别使用softmax函数归一化,再和值向量V相乘得到加权的特征:
h1=softmax(A1)V;
h2=softmax(A2)V;
其中,h1表示原始加权特征,h2表示对齐增强加权特征;
然后,使用多头操作进行多个自注意力机制结果的拼接,计算公式如下:
;
;
其中,mf表示参与融合的原始特征,ef表示额外的对齐信息特征, k 是自注意力
机制的数量,表示第一个原始加权特征,表示第k个原始加权特征,表示第一个对齐
增强加权特征,表示第k个对齐增强加权特征,concat表示拼接。
再次,为了融合最终的原始加权特征和对齐增强加权特征,采用的基于门机制的特征融合方法,让增强预训练文本匹配模型能够自适应的选择特征的重要性,融合计算过程如下:
;
;
;
;
其中,为拼接后的特征,为线性融合后的特征,为特征选择向量,向量值为
0到1之间的小数,为最终输出的融合特征,W为权重矩阵,b为偏置矩阵,GELU为
Transformer中使用的非线性化激活函数,计算公式为:
;
其中,x为进行非线性化特征向量中的元素,Sigmoid函数计算公式为:
;
其中,e为自然常数;
最后,进行层归一化(LayNorm)和残差连接。
本实施例通过前馈神经网络层对对齐多头注意力层输出的进一步信息汇总,包括两层线性映射和一次通过ReLU 激活函数进行非线性化操作。 然后,前馈神经网络层也会做层归一化和残差连接的处理。
本实施例步骤3中的分类器为二分类或多分类,将Align_Transformer模块输出的特征最终输出为一个分类标签。
按照上述方案,在QNLI、QQP、MNLI和SciTail数据集上进行实验,表1和表2表明本发明在多个数据集上都取得了比原有方法更好的结果,其中表1的评估指标为准确率,同源是指和训练数据的数据分布一致,异源是指和训练数据分布不一致。
表 1: QNLI、MNLI、QQP 数据集的实验结果
表 2: SciTail 数据集结果
以上所述仅为本发明的具体实施例,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于增强预训练文本匹配模型的文本匹配方法,其特征在于,包括如下步骤:
步骤1:收集匹配文本对数据,并为每个文本对添加一个标签,包括正类标签和负类标签;
步骤2:构建词表,对匹配文本对数据进行预处理,拼接转化为增强预训练文本匹配模型能够读取的数据格式;
步骤3:构建增强预训练文本匹配模型,所述增强预训练文本匹配模型在预训练模型的基础上增加对齐掩码矩阵,所述增强预训练文本匹配模型以Align_Transformer为骨架,Align_Transformer是Transformer模型的改进,包括特征提取器和分类器;所述特征提取器使用堆叠的Align_Transformer模块对文本对进行编码得到文本特征;
步骤4:使用预训练模型初始化增强预训练文本匹配模型中对应的参数;对增强预训练文本匹配模型中的新增参数进行随机初始化,构造损失函数,使用不同学习率来更新预训练模型参数和新增参数,并且使用学习率预热和衰减策略训练增强预训练文本匹配模型;
步骤5:导出训练后的增强预训练文本匹配模型,设置评估模式,对需要进行预测的文本对进行推断,输出结果;
所述特征提取器包括 12层Align_Transformer模块,每个Align_Transformer模块由对齐多头注意力层、残差连接、层归一化层和前馈神经网络层组成;
增强预训练文本匹配模型的处理过程如下:
步骤3a:步骤2产生的输入格式被映射成不同的词向量,然后将不同的词向量相加得到最终的输入特征向量;
步骤3b:输入特征向量首先会被投影成三份进入到对齐多头自注意力层模块,进行原始掩码矩阵Mmask计算,得到原始加权特征;进行对齐掩码矩阵Malign_mask计算,得到对齐增强加权特征;原始加权特征和对齐增强加权特征通过基于门机制的特征融合方法融合到一起,再进行层归一化和残差连接送入到前馈神经网络层;
步骤3c:前馈神经网络层通过两层非线性映射对来自于对齐多头自注意力模块的特征进行信息汇总,将信息汇总后的特征继续送入到下个Align_Transformer模块;
步骤3d:在经过堆叠了12层Align_Transformer模块后,将特征送入到多层感知机进行分类,对样本的各类别进行打分,取最大分值的类别作为增强预训练文本匹配模型的分类结果;
输入特征提取器的两段文本通过起始符和分隔符拼接在一起,填充到增强预训练文本匹配模型的最大文本长度,然后一起被分词转化为词向量Etext=[CLS,x1,x2,SEP,…,xn-1,xn,SEP],其中CLS为起始符,SEP为分隔符,x1,x2,…,xn-1,xn分别为分词后的第1个到第n个字符的特征向量,然后和位置特征Epos、输入类别特征Esegment拼接在一起输入到Align__Transformer模块中;
对齐多头注意力层计算过程为:
输入的特征会被投影成为查询向量Q、键向量K和值向量V ,通过自注意力机制计算注意力矩阵A,其计算公式为:
;
其中,KT为键向量K的转置,dk 是缩放因子,用于保证 softmax 函数计算过程中有稳定的梯度;
根据拼接的输入格式,把注意力矩阵A划分成4个部分:第一部分代表第一段文本中的字符和自身的相关度,第二部分代表第一段文本中的字符和第二段文本中的字符的相关程度,第三部分代表第二段文本中的字符和第一段文本中的字符的相关程度,第四部分代表第二段文本中的字符和自身的相关程度;
使用原始掩码矩阵Mmask和对齐掩码矩阵Malign_mask来提供不同的语义信息,得到强调两种不同信息的注意力矩阵:掩码-注意力矩阵A1=A+Mmask, 增强对齐掩码-注意力矩阵A2=A+Malign_mask;
然后分别使用softmax函数归一化,再和值向量V相乘得到加权的特征:
h1=softmax(A1)V;
h2=softmax(A2)V;
其中,h1表示原始加权特征,h2表示对齐增强加权特征;
然后,使用多头操作进行多个自注意力机制结果的拼接,计算公式如下:
;
;
其中,mf表示参与融合的原始特征,ef表示额外的对齐信息特征, k 是自注意力机制的数量,表示第一个原始加权特征,/>表示第k个原始加权特征,/>表示第一个对齐增强加权特征,/>表示第k个对齐增强加权特征,concat表示拼接;
基于门机制的特征融合方法融合的计算过程如下:
;
;
;
;
其中,为拼接后的特征,/>为线性融合后的特征,/>为特征选择向量,向量值为0到1之间的小数,/>为最终输出的融合特征,W为权重矩阵,b为偏置矩阵,GELU为Transformer中使用的非线性化激活函数。
2.根据权利要求1所述的基于增强预训练文本匹配模型的文本匹配方法,其特征在于,所述增强预训练文本匹配模型为Align_BERT模型或Align_RoBERTa模型。
3.根据权利要求1所述的基于增强预训练文本匹配模型的文本匹配方法,其特征在于,前馈神经网络层对对齐多头注意力层输出的进一步信息汇总,包括两层线性映射和一次通过ReLU 激活函数进行非线性化操作。
4.根据权利要求1所述的基于增强预训练文本匹配模型的文本匹配方法,其特征在于,所述预训练模型为BERT模型或者RoBERTa模型。
5.根据权利要求1所述的基于增强预训练文本匹配模型的文本匹配方法,其特征在于,所述损失函数为交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410028251.4A CN117540009B (zh) | 2024-01-09 | 2024-01-09 | 一种基于增强预训练文本匹配模型的文本匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410028251.4A CN117540009B (zh) | 2024-01-09 | 2024-01-09 | 一种基于增强预训练文本匹配模型的文本匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117540009A CN117540009A (zh) | 2024-02-09 |
CN117540009B true CN117540009B (zh) | 2024-03-26 |
Family
ID=89786559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410028251.4A Active CN117540009B (zh) | 2024-01-09 | 2024-01-09 | 一种基于增强预训练文本匹配模型的文本匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117540009B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN114925157A (zh) * | 2022-03-07 | 2022-08-19 | 武汉理工大学 | 一种基于预训练模型的核电站维修经验文本匹配方法 |
CN115221846A (zh) * | 2022-06-08 | 2022-10-21 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN115687626A (zh) * | 2022-11-18 | 2023-02-03 | 浙江工业大学 | 一种基于提示学习融合关键词的法律文书分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377686B (zh) * | 2019-07-04 | 2021-09-17 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
EP4248441A4 (en) * | 2021-03-25 | 2024-07-10 | Samsung Electronics Co Ltd | SPEECH RECOGNITION METHOD, DEVICE, ELECTRONIC DEVICE AND COMPUTER-READABLE STORAGE MEDIUM |
-
2024
- 2024-01-09 CN CN202410028251.4A patent/CN117540009B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN114925157A (zh) * | 2022-03-07 | 2022-08-19 | 武汉理工大学 | 一种基于预训练模型的核电站维修经验文本匹配方法 |
CN115221846A (zh) * | 2022-06-08 | 2022-10-21 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN115687626A (zh) * | 2022-11-18 | 2023-02-03 | 浙江工业大学 | 一种基于提示学习融合关键词的法律文书分类方法 |
Non-Patent Citations (3)
Title |
---|
基于BERT的语义匹配算法在问答系统中的应用;吴炎;王儒敬;;仪表技术;20200615(06);全文 * |
基于语义对齐的文本蕴含识别研究;吴佳跃;《知网》;20230315;第2023卷(第03期);1-87页 * |
文本词向量与预训练语言模型研究;徐菲菲;冯东升;;上海电力大学学报;20200815(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117540009A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919646B (zh) | 中文文本摘要生成系统及方法 | |
CN110083705A (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
Wu et al. | One teacher is enough? pre-trained language model distillation from multiple teachers | |
CN110866117A (zh) | 一种基于语义增强与多层次标签嵌入的短文本分类方法 | |
Gao et al. | Convolutional neural network based sentiment analysis using Adaboost combination | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN112650886B (zh) | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 | |
CN111581401A (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN113297364A (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN113312483A (zh) | 一种基于自注意力机制和BiGRU的文本分类方法 | |
CN112925904A (zh) | 一种基于Tucker分解的轻量级文本分类方法 | |
CN112015760B (zh) | 基于候选答案集重排序的自动问答方法、装置和存储介质 | |
CN114462420A (zh) | 一种基于特征融合模型的虚假新闻检测方法 | |
Budzianowski et al. | Towards end-to-end multi-domain dialogue modelling | |
CN112163089A (zh) | 一种融合命名实体识别的军事高技术文本分类方法及系统 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
Maslennikova | ELMo Word Representations For News Protection. | |
CN113239678B (zh) | 一种面向答案选择的多角度注意力特征匹配方法及系统 | |
CN117807235A (zh) | 一种基于模型内部特征蒸馏的文本分类方法 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
Jiang et al. | DEIM: An effective deep encoding and interaction model for sentence matching | |
CN112905750A (zh) | 一种优化模型的生成方法和设备 | |
CN117540009B (zh) | 一种基于增强预训练文本匹配模型的文本匹配方法 | |
Yue et al. | Sentiment Analysis using a CNN-BiLSTM Deep Model Based on Attention Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |