CN116303906A - 文本语义匹配长度偏差优化方法、电子设备及存储介质 - Google Patents

文本语义匹配长度偏差优化方法、电子设备及存储介质 Download PDF

Info

Publication number
CN116303906A
CN116303906A CN202310336010.1A CN202310336010A CN116303906A CN 116303906 A CN116303906 A CN 116303906A CN 202310336010 A CN202310336010 A CN 202310336010A CN 116303906 A CN116303906 A CN 116303906A
Authority
CN
China
Prior art keywords
model
sample
text
length difference
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310336010.1A
Other languages
English (en)
Inventor
胡玉鹏
郑澜涛
肖雨婷
李宗营
黄靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202310336010.1A priority Critical patent/CN116303906A/zh
Publication of CN116303906A publication Critical patent/CN116303906A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本语义匹配长度偏差优化方法、电子设备及存储介质,聚焦于解决文本语义匹配任务模型存在的长度差异偏差的问题。本发明中,将主模型与对手模型进行共同对抗训练后,得到的文本匹配模型将难以根据给定样本预测出文本长度差异值,即文本匹配模型无需关注文本长度差异值在语义空间中的表示,因此对正常文本语义匹配任务做出预测时不会过度依赖文本长度差异,从而减少了文本长度差异偏差对模型泛化性的影响。

Description

文本语义匹配长度偏差优化方法、电子设备及存储介质
技术领域
本发明涉及文本匹配技术,特别是一种基于自然语言处理的文本语义匹配长度偏差优化方法、电子设备及存储介质。
背景技术
文本匹配技术在工业生产生活实践等各个领域中的都具有非常重要的意义。文本匹配是指检查文本中单词的特定顺序或结构是否存在一定关系的过程,匹配结果通常是精确的:匹配或者不匹配。
文本匹配包括很多子任务,其中相似性度量被认为是其他各种任务如文本摘要、文本匹配、信息检索、自动论文评分、文档聚类和机器翻译中的一个重要组成部分,通过测量单词、句子、段落和文档之间的相似性来进行度量。
最近的研究表明,深度学习模型可能通过学习数据集中某些启发性的模式或规则来实现虚假的高性能,甚至产生一些列社会问题。研究模型中存在的偏差以及如何去优化相关问题是目前亟待解决的问题。
发明专利申请CN114281931A介绍了一种根据文本匹配中的两个文本在向量空间中的距离来优化文本匹配模型的方法,但该方法并没有考虑到文本匹配中长度差异偏差的问题,该偏差对模型泛化性的影响较大,导致模型准确性有限。
所谓长度差异偏差指的是,给定两个文本,模型更倾向于认为字数相差更小的文本对为相似的,相差更大的文本对为不相似的,而导致这一情况的原因是训练数据集中长度差异越小的样本中正样本比例越大,长度差异越大的样本中负样本比例越大。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种文本语义匹配长度偏差优化方法、电子设备及存储介质,减少文本匹配长度偏差对模型泛化性的影响。
为解决上述技术问题,本发明所采用的技术方案是:一种文本语义匹配长度偏差优化方法,包括以下步骤:
S1、利用每个样本中文本对的长度差异偏差生成对抗测试集;
利用原始训练集训练文本匹配相似度预测模型;
S2、利用文本匹配相似度预测模型输出的词向量训练文本长度差异预测器,所述文本长度差异预测器包括编码器和与所述编码器连接的全连接层;
S3、将所述文本匹配相似度预测模型作为主模型,将经步骤S2训练后的文本长度差异预测器作为对手模型;在主模型的损失函数中加入对手模型的损失函数,通过所述主模型和对手模型的对抗,优化所述主模型,得到第一优化模型;或者,在损失函数中添加扰动,通过所述主模型和对手模型的对抗,优化所述主模型,得到第二优化模型;
S4、重复步骤S2和步骤S3,利用所述对抗测试集测试第一优化模型和第二优化模型;
S5、从第一优化模型和第二优化模型中选择性能更优的模型作为最终的文本匹配模型。
本发明聚焦于解决文本语义匹配任务模型中存在的长度差异偏差影响的问题,在主模型经过与对手模型共同对抗训练后,文本匹配模型(主模型)将难以根据给定样本预测出文本长度差异值,即文本匹配模型无需关注文本长度差异值在语义空间中的表示,因此对正常文本语义匹配任务做出预测时不会过度依赖文本长度差异,从而减少了文本长度差异偏差对模型泛化性的影响。
若模型受到了长度差异偏差的影响,即倾向于预测低LD值的样本为正样本,高LD值的样本为负样本,则使用上述方法生成的对抗测试集将会给模型造成巨大的麻烦,因为低LD值的样本全由负样本组成,高LD值的样本全由正样本组成。本发明为了解决上述问题,提高模型精度和泛化性能,步骤S1中,利用每个样本中文本对的长度差异偏差生成对抗测试集的具体实现过程包括:
计算原始测试集中每个样本S的长度差异值,对所有的长度差异值按照从大到小的顺序排序,得到排序后的测试集Dt est
将测试集Dt est中的数据划分为前后两部分,前部分数据集合为Df ront,后部分数据集合为Db ack,Df ront中的所有样本设定为负样本集合,Db ack中的所有样本设定为正样本集合,所述负样本集合和正样本集合的并集即为对抗测试集。
样本S的长度差异值的计算公式为:
Figure BDA0004156464510000021
其中,/>
Figure BDA0004156464510000022
分别为样本S中两个文本T1、T2的长度,/>
Figure BDA0004156464510000023
为样本S中两个文本T1、T2的长度差异值。
步骤S1中,利用原始训练集训练文本匹配相似度预测模型的具体实现过程包括:
1)使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T1 和T2 加入BERT预训练模型的token中,得到输入input={[CLS],T′1,[SEP],T′2,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束;
2)将input输入文本匹配模型,得到原始训练集中的样本S*的两个文本相似的概率P;计算概率P和样本S*的真实标签的损失,反向传播所述损失,更新文本匹配模型的权重;
3)对原始训练集中的所有样本,重复上述步骤1)和步骤2),并利用所述对抗测试集验证更新权重后的文本匹配模型,得到最终的文本匹配相似度预测模型。步骤S2的具体实现过程包括:
A)计算原始训练集中每个样本的长度差异值,将所有长度差异值的值域分为M个区间,为每个长度差异值分配一[0,M-1]中的整数作为其标签;
B)使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T1 和T2 加入BERT预训练模型的token中,得到输入input={[CLS],T′1,[SEP],T′2,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束;
C)将input作为文本匹配相似度预测模型encoder层Menc的输入,获得样本S*的句子向量表示h;
D)将所述句子向量表示h作为全连接层的输入,得到句子向量表示h对应样本S*关于LD属于[0,M-1]中每个标签的概率C,即C为一个长度为M的向量,C中的第i个值对应长度差异值属于标签i-1的概率,i∈[0,M-1];
E)计算概率C和样本S*的真实标签的损失,反向传播所述损失,更新全连接层的权重;
F)对原始训练集中的所有样本,重复上述步骤D)和步骤E),得到文本长度差异预测器。
步骤S2的具体实现过程包括:
A)计算原始训练集中每个样本的长度差异值,将所有长度差异值的值域分为M个区间,为每个长度差异值分配一[0,M-1]中的整数作为其标签;
B)使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T1 和T2 加入BERT预训练模型的token中,得到输入input={[CLS],T′1,[SEP],T′2,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束;
C)将input作为文本匹配相似度预测模型encoder层Menc的输入,获得样本S*的句子向量表示h;
D)将所述句子向量表示h作为全连接层的输入,得到句子向量表示h对应样本S*关于长度差异值的预测值V;
E)计算预测值V和样本S*的真实标签的损失,反向传播所述损失,更新全连接层的权重;
F)对原始训练集中的所有样本,重复上述步骤D)和步骤E),得到文本长度差异预测器。
步骤S3中,获取第一优化模型的具体实现过程包括:
将原始训练集中第i个样本Si的长度差异值的标签修改为:
Figure BDA0004156464510000041
M为所有长度差异值的值域划分的区间数;
将主模型中的全连接层对应的损失函数Lossmain与对手模型对应的损失函数Lossbias相加,并引入平衡参数β,构建最终的损失函数Loss为:Loss=βLossmain+(1-β)Lossbias
利用最终的损失函数Loss训练所述主模型,得到第一优化模型。
步骤S3中,获取第二优化模型的具体实现过程包括:
使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T′1和T′2加入BERT预训练模型的token中,得到输入input={[CLS],T′1,[SEP],T′2,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束;
将样本S*对应的输入input经过主模型的编码器输入对手模型,得到预测值,计算所述预测值和样本S*的真实标签的损失;
利用所述损失对所述主模型的编码器的输出h求偏导,获得梯度
Figure BDA0004156464510000042
Figure BDA0004156464510000043
为样本S*的长度差异值,V为LD的预测值,Lossbias为V和LD用损失函数计算得到的损失,/>
Figure BDA0004156464510000045
为关于h的偏导;
再次将样本S*对应的输入input输入主模型的编码器,得到句子向量,将句子向量修改为h+δ,并将修改后的句子向量输入至主模型的全连接层,计算文本匹配概率;
Figure BDA0004156464510000044
∈用来控制扰动强度,‖·‖为Frobenius范数;
计算所述文本匹配概率和样本S*的真实标签的损失,反向传播后更新所述主模型的权重,得到第二优化模型。
作为一个发明构思,本发明还提供了一种电子设备,包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明上述方法的步骤。
作为一个发明构思,本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现本发明上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:
1、本发明提出了一种针对长度差异偏差来制作对抗测试集的方法,能帮助发现隐含长度差异偏差会给模型带来的影响;
2、本发明设计了两种长度差异预测器,能将存在于语义空间的句子向量映射到长度差异空间,以便于对长度差异偏差采取优化手段;
3、本发明结合对抗样本以及生成对抗网络,设计了针对两种长度差异预测器各自的关于模型偏差的优化方案,能使模型的鲁棒性与泛化性同时得到提高。
附图说明
图1为本发明实施例多分类长度差异预测及优化模型;
图2为本发明实施例线性回归长度差异预测及优化模型;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例1提供了一种基于自然语言处理的文本匹配长度偏差优化技术,包括以下步骤:
给定一个隐含长度差异偏差的原始文本匹配数据训练集与测试集,其每个样本包含一对文本,文本语义匹配任务需要预测每个样本中文本对是否在语义上相似。
S1、根据每个样本中文本对的长度差异偏差用设计的算法生成对抗测试集;
S2、在原始隐含长度差异偏差的训练数据集上训练出一个带有长度差异偏差的文本匹配相似度预测模型,同时可以测试该模型在S1中生成的对抗测试集上的性能表现以研究长度差异偏差带来的影响;
S3、根据S2步骤中训练好的模型,固定其权重,仅使用所输出的词向量来训练一个由全连接层组成的文本长度差异预测器,由于文本长度差异值域是连续且无限的,该预测器可以采取人为划分区间并赋予标签对标签预测的多分类模型,也可以是直接对值进行预测的线性回归模型;
S4、固定住步骤S3中训练好的预测器的权重,根据步骤S3中选择的预测器类型,多分类模型调整其损失函数后结合到文本匹配模型的损失函数中联合训练,线性回归模型则运用FGSM(Fast Gradient Sign Method)方法生成对抗样本来进行对抗训练;
S5、重复步骤S3和S4,直到文本匹配模型在S1中的对抗测试集中的性能达到一个相对满意的效果,此时根据S3中的两种不同的文本长度差异预测器及其对应的训练过程,本发明实施例能得到两个文本匹配模型,选择综合性能更好的那个即为本发明实施例最终得到的去文本长度差异偏差化后的文本匹配模型。
步骤S1的具体实现过程包括:
本发明实施例以文本匹配中文本相似度的计算为例,当认为给定的两个文本相似时,本发明实施例将其标记为1,反之则标记为0,标签为1的样本又称为正样本,标签为0的样本又称为负样本。为了研究文本的长度差异偏差,同时也为模型优化后的效果提供测试数据集,本发明实施例首先需要在原有测试数据集的基础上生成一个对抗测试数据集Dadv,本发明实施例约定一个样本中文本对长度差异的计算方法如下:
1、对于样本S,包含{T1,T2}两个文本;
2、对于文本T其长度LT为该文本T中所包含的字的数量;
3、则样本S中两个文本{T1,T2}的长度差异
Figure BDA0004156464510000061
计算方式为:
Figure BDA0004156464510000062
其中min(·)为求两者最小值的函数,|·|为绝对值符号。可知LD的值域为[0,∞],且值越大说明样本中的文本对之间字数相差越大。
有了量化文本对长度差异的方法,在此基础上对抗测试集的生成步骤如下:
1、对于原始测试集Dtest,包含{S1,S2,…,Sn}共n个样本;
2、按照上述公式计算得到每个样本S的LD值并由小到大排序,得到排序后的测试集D′test
3、设D′test中前四分之一的数据集合为D′front,D′test后四分之一的数据集合为D′back,集合Neg为D′front中的所有负样本,N={Si|i∈D′front且Si为负样本},集合Pos为D′back中的所有正样本,Pos={Si|Si∈D′back且Si为正样本};
4、则Pos与Neg的并集Dadv=Pos∪Neg即为生成的对抗测试集。
这样做的原因在于,如果模型受到了长度差异偏差的影响,即倾向于预测低LD值的样本为正样本,高LD值的样本为负样本,则使用上述方法生成的对抗测试集将会给模型造成巨大的麻烦,因为低LD值的样本全由负样本组成,高LD值的样本全由正样本组成。
步骤S2的具体实现过程如图1所示,包括:
在这一步中本发明实施例在原始训练集上正常训练一个文本匹配模型,作为本发明实施例待优化的隐含长度差异偏差的模型。模型一般由Encoder层和全连接层组成,分别记为Menc和Mmain。这里本发明实施例以BERT模型作为Encoder为例来说明训练出一个文本匹配模型的完整流程:
1、给定样本S,包含{T1,T2}两个文本;
2、使用BERT预训练模型提供的词表(vocab.txt),将{T1,T2}分词化为对应的token,即T1={w11,w12,…,w1n}转化为T′1={t11,t12,…,t1n},T2以同样的方式转化为T′2,将T′1和T′2组合并加入BERT中特有的token形成最终的输入形式input={[CLS],T′1,[SEP],T′2,[SEP]},[CLS]放在句首训练后的向量可作为整个句子的句向量,[SEP]放在句尾作为句子的结束;
3、将input输入到文本匹配模型得到{T1,T2}为相似的概率P;
4、使用CrossEntropyLoss函数对概率P和样本S的真实标签Y进行损失计算,并反向传播后更新文本匹配模型的权重;
5、对所有训练集Dtrain中的样本Si∈Dtrain循环执行上述2-4的操作,每循环一次在测试集Dtest上测试一次性能直到模型达到一个相对优秀的表现,即为本步骤最终获得的模型。
本发明实施例也同样可以将模型运行在步骤S1中获得的对抗测试集上查看效果,如果发现性能明显下降说明模型确实是受到了长度差异偏差的影响。
步骤S3的具体实现过程包括:
为了减少长度差异偏差对模型的影响,本发明实施例需要知道长度差异在模型中的编码方式,利用步骤S2中获得的原始带有偏差的文本匹配模型的encoder层Menc,本发明实施例可以额外训练一个全连接层Mbias来预测长度差异的值或标签,这里有两种方式来实现这点。首先是多分类的实现方式,如图1所示,具体步骤如下:
1、计算训练数据集Dtrain中每个样本Si∈Dtrain的LDi值,将LD值域分为M个部分,M的值根据具体情况来定,并为每个Si的LDi值分配[0,M-1]中的整数作为其标签Li
2、给定样本S的文本,并对S进行与步骤S2的步骤2中相同的处理后得到模型能识别的输入input,将input输入到模型的Menc部分后,本发明实施例可以获得样本S的句子向量表示h;
3、将该句子向量h作为Mbias的输入,预测h对应样本S关于LD属于[0,M-1]中每个标签的概率C;
4、固定模型Menc部分的权重,使用CrossEntropyLoss函数对概率C和样本S的真实标签L进行损失计算,并反向传播后更新Mbias的权重;
5、对所有训练集Dtrain中的样本Si∈Dtrain循环执行上述3和4的操作,直到模型达到一个相对优秀的表现,即为本步骤最终获得的模型之一。
考虑到对LDi的值域人工划分存在一定成本,也可以用线性回归直接对长度差异的值进行预测的方式来实现,如图2所示:
1、计算训练数据集Dtrain中每个样本Si∈Dtrain的LDi值;
2、给定样本S的文本,对S进行与步骤S2.2中相同的处理后得到模型能识别的输入input,将input输入到模型的Menc部分后本发明实施例可以获得样本S的句子向量表示h;
3、将该句子向量h作为Mbias的输入,获得h对应样本S关于LD的预测值V;
4、固定模型Menc部分的权重,使用MeanSquaredErrorLoss函数对V和样本S的真实LD值进行损失计算,并反向传播后更新Mbias的权重;
5、对所有训练集Dtrain中的样本Si∈Dtrain循环执行上述3和4的操作,直到模型性能不再明显提升,即为本步骤最终获得的模型之一;
该步骤的主要目的是研究样本的句子向量从语义空间到长度差异空间的映射方式,通过上述两种方式获得的Mbias就相当于一种映射方式,本发明实施例便可以在此基础上继续进行优化长度差异偏差的研究。
步骤S4的具体实现过程包括:
该步骤为本发明最核心的部分,也是解决长度差异偏差的关键一步。本发明实施例利用步骤S3中得到的将句子向量从语义空间映射到长度差异空间的工具Mbias来做到这点,由于Mbias有多分类模型和线性回归模型两种实现,针对这两种实现的后续处理方式会有所不同,但其核心思想都是利用形如GAN(Generative Adversarial Networks)式的训练方式,为自己创建一个对手模型,使主模型在与对手模型的对抗中获得对长度差异的鲁棒性,此处对手模型即为Mbias,主模型为Menc+Mmain,同时Mbias也能共享Menc层输出的中间向量。
Mbias实现方式为多分类模型的后续步骤如图1所示:
1、给定样本S,包含{T1,T2}两个文本,其LD值对应的标签L的向量形式为one-hot向量L={0,0,…,1,…,0};
2、将所有样本Si∈Dtrain的LDi标签Li,由Li={0,0,…,1,…,0}改为
Figure BDA0004156464510000091
M为步骤S3中人为划定的标签数量M;
3、将Mmain对应的损失函数Lossmain与Mbias对应的损失函数Lossbias相加,并引入平衡参数β,最终的损失函数形式为:
Loss=βLossmain+(1-β)Lossbias
4、固定住Mbias层的权重,使用新的损失函数Loss对Menc和Mmain进行训练。
因为Mbias是一个训练良好的语义空间到长度差异空间的映射工具,本发明实施例在S4的步骤2中将样本标签由one-hot改为平均分布的形式,在主模型的损失函数中加入对手模型的损失函数,这样主模型的训练过程中不仅仅需要在文本语义匹配任务上不断优化,同时也需要优化句子向量使其在经过Mbias的映射后得到一个概率尽量接近平均分布的结果,固定住Mbias层的权重是为了保持映射的有效性,平衡参数β则是为了控制优化力度。
Mbias实现方式为线性回归模型的后续步骤如图2所示:
1、固定住Mbias层的权重,将样本S对应的input经过Menc层输入对手模型Mbias,得到预测值V,使用MeanSquaredErrorLoss函数对V和样本S的真实LD值计算损失Lossbias
2、用Lossbias对Menc的输出h求偏导,获得其梯度
Figure BDA0004156464510000092
3、制造扰动
Figure BDA0004156464510000093
∈用来控制扰动强度,‖·‖为Frobenius范数;
4、再次将样本S的input输入到Menc层得到句子向量h,将h修改为h′=h+δ后输入到Mmain并计算文本匹配概率P;
5、使用CrossEntropyLoss函数对概率P和样本S的真实标签Y进行损失计算,并反向传播后更新文本匹配模型的权重。
上述步骤2~步骤4即为FGSM(Fast Gradient Sign Method),一种生成对抗样本的方式,它强调通过对输入h添加使Lossbias上升最快的扰动来达到困扰模型的目的,而h梯度的方向即为Lossbias变化速度最快的方向。通过生成h的对抗样本,本发明实施例可以让主模型对LD值的预测边界变得更加模糊,从而达到提高模型对长度差异偏差鲁棒性的目的。
步骤S5的具体实现过程包括:
考虑到模型对长度差异的编码方式不止一种,所以本发明实施例考虑重复进行步骤S3和S4,并且对于第i个步骤S3中本发明实施例重新训练一个
Figure BDA0004156464510000101
并加入候选的对手模型池Pooladv,在步骤S4再训练主模型的每个step,轮流从Pooladv抽选一个/>
Figure BDA0004156464510000102
作为对手模型,对于多分类模型和线性回归模型两种实现本发明实施例可以独立各自训练,具体流程如下:
1、在进入一个新的步骤S3时,设此时为第i次进入步骤S3,重新训练一个长度差异预测器
Figure BDA0004156464510000103
并将其加入对手候选池Pooladv
2、在步骤S4训练主模型进入一个新的step时(对应一个batch),设此时为第j个step,本发明实施例从候选池Pooladv中选取第j′=(j mod size(Pooladv))对手模型
Figure BDA0004156464510000104
3、重复上述1和2直到模型Mmain在本发明实施例在步骤S1中生成的对抗测试集Dadv上的性能达到相对令人满意的效果或整个系统达到了人为设置的训练次数上限。
4、从使用多分类模型和线性回归模型两种预测器实现方法中选出综合性能更好的那边作为最终优化完成的文本匹配模型。
在含有Intel(R)Core(TM)i7-10870H处理器、16G内存、NVIDA3060RTX显卡的笔记本电脑进行实验。实验数据集为Quora Question Pairs(QQP)和Twitter-URL两个公开数据集,其中QQP包含363846条训练数据,14885条测试数据,Twitter-URL包含42200条训练数据,9334条测试数据。以QQP数据集为例,使用本发明实施例的方法前,原始模型在测试集上的精度分别为准确率85.77%,F1分数81.15%,在本发明实施例所介绍的方法生成的对抗测试集上的精度分别为准确率83.05%,F1分数72.56%。使用本发明实施例的方法后,优化后的模型在测试集上的精度分别为准确率86.72%,F1分数81.99%,在对抗测试集上的精度分别为准确率85.14%,F1分数75.10%。
对比结果分析后,首先可以看出本发明实施例中介绍的对抗测试集的生成方法确实能有效地帮助揭开模型中隐含长度差异偏差所带来的影响,具体表现为原始模型在对抗测试集上精度的下降;其次,本发明实施例所介绍的优化技术也确实能帮助模型改善长度差异偏差带来的影响,不仅在对抗测试集上精度大幅提升,增强了模型的鲁棒性,同时也做到了原始测试集上精度的改善,增强了模型的泛化性。
实施例2
本发明实施例2提供一种对应上述实施例1的电子设备,终端设备可以是用于客户端的电子设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述实施例的方法。
本实施例的电子设备包括存储器、处理器及存储在存储器上的计算机程序;处理器执行存储器上的计算机程序,以实现上述实施例1方法的步骤。
在一些实现中,存储器可以是高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
在另一些实现中,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器,在此不做限定。
实施例3
本发明实施例3提供了一种对应上述实施例1的计算机可读存储介质,其上存储有计算机程序/指令。计算机程序/指令被处理器执行时,实现上述实施例1方法的步骤。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种文本语义匹配长度偏差优化方法,其特征在于,包括以下步骤:
S1、利用每个样本中文本对的长度差异偏差生成对抗测试集;
利用原始训练集训练文本匹配相似度预测模型;
S2、利用文本匹配相似度预测模型输出的词向量训练文本长度差异预测器,所述文本长度差异预测器包括编码器和与所述编码器连接的全连接层;
S3、将所述文本匹配相似度预测模型作为主模型,将经步骤S2训练后的文本长度差异预测器作为对手模型;在主模型的损失函数中加入对手模型的损失函数,通过所述主模型和对手模型的对抗,优化所述主模型,得到第一优化模型;或者,在损失函数中添加扰动,通过所述主模型和对手模型的对抗,优化所述主模型,得到第二优化模型;
S4、重复步骤S2和步骤S3,利用所述对抗测试集测试第一优化模型和第二优化模型;
S5、从第一优化模型和第二优化模型中选择性能更优的模型作为最终的文本匹配模型。
2.根据权利要求1所述的文本语义匹配长度偏差优化方法,其特征在于,步骤S1中,利用每个样本中文本对的长度差异偏差生成对抗测试集的具体实现过程包括:
计算原始测试集中每个样本S的长度差异值,对所有的长度差异值按照从大到小的顺序排序,得到排序后的测试集Dt est
将测试集Dt est中的数据划分为前后两部分,前部分数据集合为Df ront,后部分数据集合为Db ack,Df ront中的所有样本设定为负样本集合,Db ack中的所有样本设定为正样本集合,所述负样本集合和正样本集合的并集即为对抗测试集。
3.根据权利要求2所述的文本语义匹配长度偏差优化方法,其特征在于,样本S的长度差异值的计算公式为:
Figure FDA0004156464480000011
其中,/>
Figure FDA0004156464480000012
分别为样本S中两个文本12的长度,/>
Figure FDA0004156464480000013
为样本S中两个文本T12的长度差异值。
4.根据权利要求1所述的文本语义匹配长度偏差优化方法,其特征在于,步骤S1中,利用原始训练集训练文本匹配相似度预测模型的具体实现过程包括:
1)使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T1 和T2 加入BERT预训练模型的token中,得到输入input={[CLS],1 ,[SEP],2 ,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束;
2)将input输入文本匹配模型,得到原始训练集中的样本S*的两个文本相似的概率P;
计算概率P和样本S*的真实标签的损失,反向传播所述损失,更新文本匹配模型的权重;
3)对原始训练集中的所有样本,重复上述步骤1)和步骤2),并利用所述对抗测试集验证更新权重后的文本匹配模型,得到最终的文本匹配相似度预测模型。
5.根据权利要求1所述的文本语义匹配长度偏差优化方法,其特征在于,步骤S2的具体实现过程包括:
A)计算原始训练集中每个样本的长度差异值,将所有长度差异值的值域分为M个区间,为每个长度差异值分配一[0,M-1]中的整数作为其标签;
B)使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T1 和T2 加入BERT预训练模型的token中,得到输入input={[CLS],1 ,[SEP],2 ,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束;
C)将input作为文本匹配相似度预测模型encoder层Menc的输入,获得样本S*的句子向量表示h;
D)将所述句子向量表示h作为全连接层的输入,得到句子向量表示h对应样本S*关于长度差异值属于[0,M-1]中每个标签的概率C;
E)计算概率C和样本S*的真实标签的损失,反向传播所述损失,更新全连接层的权重;
F)对原始训练集中的所有样本,重复上述步骤D)和步骤E),得到文本长度差异预测器。
6.根据权利要求1所述的文本语义匹配长度偏差优化方法,其特征在于,步骤S2的具体实现过程包括:
A)计算原始训练集中每个样本的长度差异值,将所有长度差异值的值域分为M个区间,为每个长度差异值分配一[0,M-1]中的整数作为其标签;
B)使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T1 和T2 加入BERT预训练模型的token中,得到输入input={[CLS],1 ,[SEP],2 ,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束;
C)将input作为文本匹配相似度预测模型encoder层Menc的输入,获得样本S*的句子向量表示h;
D)将所述句子向量表示h作为全连接层的输入,得到句子向量表示h对应样本S*关于长度差异值的预测值V;
E)计算预测值V和样本S*的真实标签的损失,反向传播所述损失,更新全连接层的权重;
F)对原始训练集中的所有样本,重复上述步骤D)和步骤E),得到文本长度差异预测器。
7.根据权利要求1所述的文本语义匹配长度偏差优化方法,其特征在于,步骤S3中,获取第一优化模型的具体实现过程包括:
将原始训练集中第i个样本Si的长度差异值的标签修改为:
Figure FDA0004156464480000031
Figure FDA0004156464480000032
M为所有长度差异值的值域划分的区间数;
将主模型中的全连接层对应的损失函数Lossmain与对手模型对应的损失函数Lossbias相加,并引入平衡参数β,构建最终的损失函数Loss为:
Loss=βLossmain+(1)Lossbias
利用最终的损失函数Loss训练所述主模型,得到第一优化模型。
8.根据权利要求1所述的文本语义匹配长度偏差优化方法,其特征在于,步骤S3中,获取第二优化模型的具体实现过程包括:
使用BERT预训练模型提供的词表,将原始训练集中的样本S*的两个文本分词化,将分词化后的结果T1 和T2 加入BERT预训练模型的token中,
得到输入input={[CLS],1 ,[SEP],2 ,[SEP]},[CLS]放在句首作为整个句子的句向量,[SEP]放在句尾作为句子的结束;
将样本S*对应的输入input经过主模型的编码器输入对手模型,得到预测值,计算所述预测值和样本S*的真实标签的损失;
利用所述损失对所述主模型的编码器的输出h求偏导,获得梯度
Figure FDA0004156464480000041
LD为样本S*的长度差异值,V为LD的预测值,Lossbias为V和LD用损失函数计算得到的损失,/>
Figure FDA0004156464480000042
为关于h的偏导;
再次将样本S*对应的输入input输入主模型的编码器,得到句子向量,将句子向量修改为h+δ,并将修改后的句子向量输入至主模型的全连接层,
计算文本匹配概率;
Figure FDA0004156464480000043
∈用来控制扰动强度,‖·‖为Frobenius范数;
计算所述文本匹配概率和样本S*的真实标签的损失,反向传播后更新所述主模型的权重,得到第二优化模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1~8任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~8任一项所述方法的步骤。
CN202310336010.1A 2023-03-31 2023-03-31 文本语义匹配长度偏差优化方法、电子设备及存储介质 Pending CN116303906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310336010.1A CN116303906A (zh) 2023-03-31 2023-03-31 文本语义匹配长度偏差优化方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310336010.1A CN116303906A (zh) 2023-03-31 2023-03-31 文本语义匹配长度偏差优化方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116303906A true CN116303906A (zh) 2023-06-23

Family

ID=86790411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310336010.1A Pending CN116303906A (zh) 2023-03-31 2023-03-31 文本语义匹配长度偏差优化方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116303906A (zh)

Similar Documents

Publication Publication Date Title
CN110737758B (zh) 用于生成模型的方法和装置
Wang et al. Learning latent opinions for aspect-level sentiment classification
Luan et al. Scientific information extraction with semi-supervised neural tagging
Agrawal et al. Learning emotion-enriched word representations
CN111339255B (zh) 目标情感分析的方法、模型训练方法、介质和设备
CN110489555A (zh) 一种结合类词信息的语言模型预训练方法
CN111708882A (zh) 基于Transformer的中文文本信息缺失的补全方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN111428490B (zh) 一种利用语言模型的指代消解弱监督学习方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
US10963647B2 (en) Predicting probability of occurrence of a string using sequence of vectors
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN115408525B (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
CN113743099A (zh) 基于自注意力机制方面术语提取系统、方法、介质、终端
Deibel et al. Style Change Detection on Real-World Data using an LSTM-powered Attribution Algorithm.
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN111814479A (zh) 一种企业简称生成及其模型的训练方法及装置
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112699685A (zh) 基于标签引导的字词融合的命名实体识别方法
CN113095063A (zh) 一种基于遮蔽语言模型的两阶段情感迁移方法和系统
Visser et al. Sentiment and intent classification of in-text citations using bert
CN113705222B (zh) 槽识别模型训练方法及装置和槽填充方法及装置
CN116049349A (zh) 基于多层次注意力和层次类别特征的小样本意图识别方法
CN115936010A (zh) 文本缩写数据处理方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination