CN117216231A - 基于鹦鹉复述生成器的抽取式问答数据增强方法 - Google Patents

基于鹦鹉复述生成器的抽取式问答数据增强方法 Download PDF

Info

Publication number
CN117216231A
CN117216231A CN202311483800.9A CN202311483800A CN117216231A CN 117216231 A CN117216231 A CN 117216231A CN 202311483800 A CN202311483800 A CN 202311483800A CN 117216231 A CN117216231 A CN 117216231A
Authority
CN
China
Prior art keywords
question
answer
word
original
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311483800.9A
Other languages
English (en)
Other versions
CN117216231B (zh
Inventor
傅涵
张小翠
黄琪
罗文兵
王明文
罗凯威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202311483800.9A priority Critical patent/CN117216231B/zh
Publication of CN117216231A publication Critical patent/CN117216231A/zh
Application granted granted Critical
Publication of CN117216231B publication Critical patent/CN117216231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了基于鹦鹉复述生成器的抽取式问答数据增强方法,从阅读理解问答数据集中选取的八种不同类型的数据集中随机采样获得不同样本数的子数据集,从子数据集中获取原问题,输入鹦鹉复述生成器中生成具有多样性的新问题;将生成的新问题和原问题一起输入充分性过滤器;然后将过滤后的新问题输入流利性过滤器;再将过滤后的新问题和原问题一起输入复述选择器中;最后得到的新问题与对应原问题的文本和答案组合构成增强后的子数据集。将被过滤掉的新问题输入预训练语言模型得到负样本答案,利用对比学习方法计算出目标损失,将增强后的子数据集作为微调的输入,同时将对比学习目标损失加入微调总损失,从而提升微调后预训练语言模型性能。

Description

基于鹦鹉复述生成器的抽取式问答数据增强方法
技术领域
本发明涉及一种深度学习方法领域,具体为基于鹦鹉复述生成器的抽取式问答数据增强方法。
背景技术
抽取式问答系统(EQA)是机器阅读理解中的一项具有挑战性的重要任务。在科技发达和信息爆炸的现代社会中,如何从大规模的信息中准确的提取信息已成为人们研究的目标,抽取式问答系统也成为目前自然语言处理领域的一大方向。在过去的30年内,机器学习方法一直都是自然语言处理和问答系统的主要解决手段。近年来,深度学习方法逐渐成为问答领域前沿的方法,并且刷新了很多科研领域的记录。抽取式问答系统的目标是理解问题和文章,然后从文章中找到相应问题的答案。基于深度学习的问答系统可以帮助问答系统精准且快速的定位相关段落和文本片段。
现有传统的基于深度学习的抽取式问答方法,依赖于大量的标注数据,存在耗时耗力、泛化能力较弱的缺陷。在现实中并不是所有的场景下都拥有大量的标注样本,这就导致了在这些场景下现有方法的性能下滑严重。因此,有必要在更加实用且现实的少样本场景下探究抽取式问答系统。
为了解决在少样本场景下模型性能下降严重的问题,现有的解决方案是通过将下游任务集成到预训练或者调整微调框架来减少预训练目标和微调目标之间的差异,既提示微调方法。例如,提出一种针对问答任务的新的预训练方式,或者是建立一种新的微调框架将微调目标与预训练目标对齐。解决方案的另一个分支更加侧重于利用外部知识库来增加可训练样本数据或者增强提示微调效果。例如,通过传统的自然语言处理流程从传统外部知识库中生成问答对三元组(文章,问题,答案),或者从维基百科段落中选择名词短语和命名实体作为潜在的答案,然后从上下文中遮蔽相应实体以创建伪问题。上述方法都是基于可以访问外部知识或者语言或特定领域的自然语言处理流程的前提下进行的。
然而,上述研究存在三个问题:1)解决问题的过程中,这些外部知识和特定语言或领域的自然语言处理流程并不总是可用的;2)应用自然语言处理流程存在错误累计的问题;3)缺乏针对少样本抽取式问答任务的数据增强方法。
发明内容
为了解决上述技术问题,本发明提出了基于鹦鹉复述生成器的抽取式问答数据增强方法,从全新视角将原问题输入鹦鹉复述生成器生成新问题,避免了外部知识库不可用的问题。在复述生成解码阶段,采用波束搜索的方式进行解码,获得具有多样性的复述文本;并提出充分性和流利性过滤器进行文本筛选,从而提高生成文本的质量。同时,用预训练语言模型回答筛选掉的新问题,得到不合格的新问题对应的新答案,再将新答案和原答案利用对比学习方法联合训练,从而微调出性能更强的下游任务模型。
本发明采用如下的技术方案:基于鹦鹉复述生成器的抽取式问答数据增强方法,方法步骤如下:
步骤S1,数据集构建;在共享数据集获得八组不同的子数据集;
步骤S2,少资源抽取式问答任务形式化定义;给定N条问答对的数据集,/>为第1个问答对,/>为第2个问答对,/>为第N个问答对;/>由三元组组成,/>;C为每个问答对中的文本,Q为每个问答对中的原问题,A为每个问答对中原问题的原答案;
步骤S3,鹦鹉复述生成器为预训练语言模型进行下游任务微调过程的入口,输入步骤S1中的子数据集中的数据;从子数据集中提取出每个问答对中的原问题Q,将每个问答对中的原问题Q输入到鹦鹉复述生成器,生成每个问答对中的原问题对应生成的新问题
步骤S4,将步骤S3获得的每个问答对中的原问题对应生成的新问题和对应的每个问答对中的原问题Q一起输入到充分性过滤器中,保留下来得分高于或等于超参数充分性阈值的经过充分性过滤器筛选后的新问题/>
步骤S5,将步骤S4保留下来的经过充分性过滤器筛选后的新问题输入到流利性过滤器中,保留下来得分高于或等于超参数流利性阈值的经过流利性过滤器筛选后的新问题/>
步骤S6,将步骤S5保留下来的经过流利性过滤器筛选后的新问题和对应的每个问答对中的原问题Q一起输入到复述选择器中,保留下来得分高于或等于超参数相似度阈值的经过复述选择器筛选后的新问题/>
步骤S7,将步骤S4,S5和S6过程中过滤掉的新问题称为负样本问题,将负样本问题输入预训练语言模型中,得到对应的负样本答案/>,并利用对比学习方法计算出该负样本答案的负样本得分/>,同样用对比学习方法计算每个问答对中原问题的原答案A的得分G;
步骤S8,对于每个问答对中的负样本答案,计算其词语级别的对比学习的目标损失/>
步骤S9,将经过复述选择器筛选后的新问题、对应的每个问答对中的原问题Q的问答对中的文本C、对应的每个问答对中的原答案A组合,构成增强后的子数据集,输入到预训练语言模型中进行针对下游任务的微调过程,并且将步骤S8中计算出来的对比学习的目标损失/>加入到预训练语言模型微调过程中的总损失L中。
进一步的,步骤S1中在共享数据集获得八组不同的子数据集,具体为:
使用机器问答阅读理解2019共享数据集中的分割子域一中的六种和子域二中的两种,细分为八类不同的数据集;分别为斯坦福问答数据集、新闻问答数据集、琐事问答数据集、检索问答数据集、多跳问答数据集、自然问题数据集、生物医学语义索引与问答数据集和教科书问答数据集,通过随机采样的方式分别从每类数据集中选取16,32,64,128,256,512,1024个问答对组成少样本场景下的子数据集,最后获得八组不同的子数据集。
进一步的,步骤S2中少资源抽取式问答任务形式化定义,具体为:
,x为每个问答对中文本/>的长度;/>为每个问答对中的文本/>中的第1个字,/>为每个问答对中的文本/>中的第2个字,/>为每个问答对中的文本/>中的第x个字;
,j为每个问答对中原问题/>的长度;/>为每个问答对中的原问题中的第1个字,/>为每个问答对中的原问题/>中的第2个字,/>为每个问答对中的原问题/>中的第j个字;
为每个问答对中的原问题对应生成的新问题,/>,J为每个问答对中的原问题对应生成的新问题/>的长度;/>为每个问答对中的原问题对应生成的新问题中的第1个字,/>为每个问答对中的原问题对应生成的新问题/>中的第2个字,/>为每个问答对中的原问题对应生成的新问题/>中的第J个字;每个问答对中原问题/>对应生成多个新问题/>,既/>,其中/>是每个问答对中原问题/>对应生成的第一个新问题,是每个问答对中原问题/>对应生成的第d个新问题;
为每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题,,/>为经过充分性过滤器筛选后的新问题/>的长度;/>为经过充分性过滤器筛选后的新问题/>中的第1个字,/>为经过充分性过滤器筛选后的新问题/>中的第2个字,/>为经过充分性过滤器筛选后的新问题/>中的第/>个字;
为每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题,,/>为经过流利性过滤器筛选后的新问题/>的长度;/>为经过流利性过滤器筛选后的新问题/>中的第1个字,/>为经过流利性过滤器筛选后的新问题/>中的第2个字,/>为生成的新问题中的第/>个字;
为每个问答对中的原问题对应生成的经过复述选择器筛选后的新问题,,/>为经过复述选择器筛选后的新问题/>的长度;/>为经过复述选择器筛选后的新问题/>中的第1个字,/>为经过复述选择器筛选后的新问题/>中的第2个字,/>为经过复述选择器筛选后的新问题/>中的第/>个字;
为每个问答对中步骤S4,S5和S6过程中过滤掉的新问题,,/>为经过步骤S4,S5和S6过程中过滤掉的新问题/>的长度;/>为经过步骤S4,S5和S6过程中过滤掉的新问题/>中的第1个字,/>为经过步骤S4,S5和S6过程中过滤掉的新问题/>中的第2个字,/>为经过步骤S4,S5和S6过程中过滤掉的新问题/>中的第/>个字;
,M为每个问答对中原问题的原答案的长度,A为问答对中的文本C中截取的一部分,既A∈C;/>为问答对中原问题的原答案中的第1个字,/>为问答对中原问题的原答案中的第2个字,/>为问答对中原问题的原答案中的第M个字;
为每个问答对中步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案;,a为每个问答对中经过步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案的长度,/>为问答对中的文本C中截取的一部分,既/>∈C;/>为每个问答对中经过步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案中的第1个字,/>为每个问答对中经过步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案中的第2个字,/>为每个问答对中经过步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案中的第a个字;
使用预训练语言模型预测问答对中的文本C中的作为每个问答对中原问题Q的原答案A的第一个字s的概率/>,/>作为每个问答对中原问题的原答案A的最后一个字e的概率/>
作为每个问答对中原问题的原答案A的第一个字的概率为:
(1);
作为每个问答对中原问题的原答案A的最后一个字的概率:
(2);
其中,为问答对中的文本C中的第z个字,z是问答对中的文本C长度内的任意数字;/>为问答对中的文本C中的第u个字,u是问答对中的文本C长度内的任意数字,z<u。
进一步的,步骤S4,将步骤S3获得的每个问答对中的原问题对应生成的新问题和每个问答对中的原问题Q一起输入到充分性过滤器中,保留下来得分高于或等于超参数充分性阈值的经过充分性过滤器筛选后的新问题/>
步骤S5,将步骤S4保留下来的经过充分性过滤器筛选后的新问题输入到流利性过滤器中,保留下来得分高于或等于超参数流利性阈值的经过流利性过滤器筛选后的新问题/>
步骤S6,将步骤S5保留下来的经过流利性过滤器筛选后的新问题和每个问答对中的原问题Q一起输入到复述选择器中,保留下来得分高于或等于超参数相似度阈值的经过复述选择器筛选后的新问题/>
步骤S7,将步骤S4,S5和S6过程中过滤掉的新问题称为负样本问题,将负样本问题输入预训练语言模型中,得到对应的负样本答案/>,并利用对比学习方法计算出该负样本答案的负样本得分/>,用同样的方式计算每个问答对中原问题的原答案A的得分G;
进一步的,基于鹦鹉复述生成器的抽取式问答数据增强方法分为鹦鹉复述生成器、充分性过滤器、流利性过滤器、复述选择器四个大模块,四个大模块之间呈串行结构;
其中鹦鹉复述生成器具体内容包括:
基于转换器的T5模型,使用转换器架构中的编码器结构和解码器结构,编码器结构由多层双向编码器组成,解码器结构由多层解码器组成,解码方式采用波束搜索,能够有效生成具有多样性的新句子,获得更多的语义特征;
基于转换器的T5模型进行自回归语言生成任务,一个文本序列的概率分布分解为每个词基于其上文的条件概率的乘积;每个问答对中的原问题Q输入到预训练好的基于转换器的T5模型中,新生成句子中每一个词的概率分布,计算过程如式(3)所示;
(3);
其中,为新生成句子中每一个词的概率分布,/>为生成的新问题从第1个字到第J个字,/>是初始上下文单词序列,生成的新问题的长度J是动态的,/>为当前预测的字的位置,/>为新问题中第l个字,/>为新问题从第1个字到第/>个字,当/>时,/>
进一步的,充分性过滤器由基于转换器的预训练好的双向编码模型BERT和充分性过滤器分类层构成,包括:
基于转换器的预训练好的双向编码模型BERT:使用转换器架构中的编码器模块,编码器模块由多层双向编码器组成,能够有效捕捉句子中的双向关系,强化每个字的语义表示;将每个问答对中的原问题Q和每个问答对中的原问题对应生成的新问题中的字/>和/>输入到基于转换器的预训练好的双向编码模型BERT中,以获取相应的字嵌入特征向量和/>,计算过程如式(4)和式(5)所示;
(4);
(5);
其中,作为输出表示每个问答对中的原问题Q中的第i个字经过基于转换器的预训练好的双向编码模型BERT得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题Q中的第i个字;/>作为输出表示每个问答对中的原问题对应生成的新问题/>中的第i个字经过基于转换器的预训练好的双向编码模型BERT得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题对应生成的新问题/>中的第i个字;/>表示预训练好的双向编码模型BERT编码器;
充分性过滤器分类层:由一个线性层和一个激活层组成,充分性过滤器分类层的分类模式为文本蕴含任务中的三分类任务,标签分别为蕴含,矛盾,中性,分别代表两个句子之间的关系为蕴含、矛盾或者中性;将经过基于转换器的预训练好的双向编码模型BERT得到的字嵌入特征向量输入充分性过滤器分类层,计算其中性标签分数。
进一步的,流利性过滤器由基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa和流利性过滤器分类层构成;具体内容包括:
基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa:使用转换器架构中的编码器模块,编码器模块由多层双向编码器组成,能够有效捕捉句子中的双向关系,强化每个字的语义表示;将每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题中的字/>输入到基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa中,以获取相应的字嵌入特征向量/>,计算过程如式(6)所示:
(6);
其中,作为输出表示每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题/>中的第i个字经过基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题/>中的第i个字;/>表示预训练好的鲁棒优化后的双向编码模型RoBERTa编码器;
流利性过滤器分类层:由一个线性层和激活层组成,流利性过滤器分类层的分类模式为分类任务中的二分类任务,标签分别为标签0和标签1,标签0代表判定句子不流畅的分数,标签1代表判定句子流畅的分数;将经过基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa得到的字嵌入特征向量输入流利性过滤器分类层,计算标签1的分数。
进一步的,复述选择器具体内容包括:
基于转换器的预训练好的深度自注意力蒸馏模型MiniLM:使用转换器架构中的编码器模块,编码器模块由多层双向编码器组成,能够有效捕捉句子中的双向关系,强化每个字的语义表示;将每个问答对中的原问题Q和每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题中的字/>和/>输入到基于转换器的预训练好的深度自注意力蒸馏模型MiniLM中,以获取相应的字嵌入特征向量/>和/>,计算过程如公式(7)和公式(8)所示:
(7);
(8);
其中,作为输出表示每个问答对中的原问题Q中的第i个字经过基于转换器的预训练好的深度自注意力蒸馏模型MiniLM得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题Q中的第i个字;/>作为输出表示每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题/>中的第i个字经过基于转换器的预训练好的深度自注意力蒸馏模型MiniLM得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题/>中的第i个字;/>表示预训练好的深度自注意力蒸馏模型MiniLM编码器;
语义相似度计算:计算每个问答对中原问题的对应的字嵌入特征向量和每个问答对中经过流利性过滤器筛选后的新问题对应的字嵌入特征向量之间的语义相似度;避免经过上述过程后,每个问答对中经过流利性过滤器筛选后的新问题产生大幅度的语义偏离,同时也是保证了和原数据集每个问答对中的文本C和答案A组合时,答案A和每个问答对中经过复述选择器筛选后的新问题能够契合。
进一步的,负样本得分的计算具体内容包括:
将负样本问题输入预训练语言模型中,得到对应的负样本答案/>,并利用对比学习方法计算出该负样本答案的负样本得分/>,计算过程如公式(9)所示:
(9);
其中,是第D个负样本答案/>的负样本得分,Pr是微调所用预训练语言模型的预测函数,/>是负样本答案/>中的最后一个字,a是问答对中的文本C长度内的任意数字,表示预训练语言模型的参数;用同样的方式计算每个问答对中原问题的原答案的得分G。
进一步的,步骤S9中微调过程加入对比学习,具体内容包括:
词语级别的对比学习的目标损失用来表述,计算过程如式(10)所示:
(10);
其中,为词语级的对比学习的目标损失,B为被筛选掉的负样本问题得到的负样本答案的总数量,D为当前负样本答案/>的负样本得分的个数,G表示每个问答对中原问题的原答案A的得分,总的损失L计算过程如式(11)所示:
(11);
其中,表示预训练语言模型的训练目标,/>为平衡超参数,/>为正则化超参数,[0,1]。
本发明的有益效果是:
(1)本发明针对少样本场景而设计,只在微调阶段使用;
(2)本发明从机器问答阅读理解2019共享数据集中的分割子域一和分割子域二中选取的八种不同类型的数据集中随机采样获得不同样本数的子数据集,从子数据集中获取到每个问答对中的原问题Q,输入鹦鹉复述生成器中利用波束搜索的解码方式生成具有多样性的每个问答对中的原问题对应生成的新问题;然后,将每个问答对中的原问题对应生成的新问题/>和每个问答对中的原问题Q一起输入充分性过滤器,再将每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题/>输入流利性过滤器,经过两种不同维度的筛选后,每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题/>的质量得到了保证;最后,将每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题/>和每个问答对中的原问题Q一起输入复述选择器中,计算两者的语义相似度,低于语义相似度阈值的新问题被筛选,最后得到每个问答对中的原问题对应生成的经过复述选择器筛选后的新问题/>与子数据集中每个问答对中的文本C和答案A组合构成增强后的子数据集,增强后的子数据集具有多样性和高质量的特性,并且大致语义与原问题相似的新问题,有了更多的语义特征;将每个问答对中被充分性过滤器,流利性过滤器和复述选择器筛选过滤掉的新问题/>作为负样本问题,输入预训练语言模型中,得到每个问答对中筛选过滤掉的新问题/>的负样本答案/>,利用对比学习方法计算出负样本答案的负样本得分/>用同样的方式计算每个问答对中原问题的原答案A的得分G,最后计算出对比学习的目标损失/>,加入到预训练语言模型微调过程中的总损失L中,从而提升经过微调后的预训练语言模型在抽取式问答任务上的性能;
(3)本发明从新的视角,通过将数据(问题、文本和答案)中的原问题转换为多个新问题,并选择其中高度相似的新问题形成更多的新的问答对,使用数据增强方法极大的提高了微调过程的性能,缓解了先前工作中,训练样本不足带来的性能损失;
(4)本发明采用初始微调数据作为基础的复述生成方法,避免了外部知识库的适用性问题。对于抽取式问答系统,经过大量实验表明,本发明提出的框架可以适配绝大多数现有的模型和框架,并对其性能进行提升。
附图说明
图1为本发明的整体框架流程图。
具体实施方式
如图1所示,图1为整体的框架流程图,展示了具体组成模块、数据传递以及输入输出的可视化结果,并且是一个多模型复合框架。具体流程如下:
(1)采用机器问答阅读理解2019共享数据集中的八种数据集,通过从中随机选择K个样本,构建出在少样本场景下的训练集,其中K∈{16,32,64,128,256,512,1024}。
(2)从少样本训练集中抽取出数据集中每个问答对中的原问题Q,输入到复述生成器中获取特征编码,解码过程采用波束搜索的方式完成,获得多个复述语句,既每个问答对中的原问题对应生成的新问题,/>具有多样性。
(3)将每个问答对中的原问题对应生成的新问题和每个问答对中的原问题Q输入充分性过滤器,对其进行蕴含任务的文本分类判定,最终得到给中性标签的得分,将中性标签得分与充分性阈值进行对比,如果每个问答对中的原问题对应生成的新问题/>的得分低于阈值,那么将被视为不合格问题过滤掉;反之,则保留下来。
(4)接着将过滤后的每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题输入流利性过滤器,对其进行二分类判定,最终得到代表流畅度的标签1得分,将标签一得分与流利性阈值进行对比,如果每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题/>的标签一得分低于阈值,那么将被视为不合格问题过滤掉;反之,则保留下来。
(5)最后将每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题和对应的每个问答对中的原问题Q输入复述选择器,进行语义相似度计算,得到语义相似度得分,与超参数语义相似度阈值进行对比,得分高于阈值的保留,成为最后保留的每个问答对中的原问题对应生成的经过复述选择器筛选后的新问题/>
(6)将被充分性过滤器、流利性过滤器和复述选择器筛选掉的新问题称为负样本问题并输入到预训练语言模型中,得到对应的负样本答案/>,并利用对比学习方法计算出该负样本答案的负样本得分/>,用同样的方式计算每个问答对中原问题的原答案A的得分G。
(7)对于每个问答对中的负样本答案,计算其词语级别的对比学习的目标损失
(8)将每个问答对中经过复述选择器筛选后的新问题和与其对应的原问题Q的问答对中的文本C和原答案A组合,构成增强后的子数据集,输入预训练语言模型中进行针对下游任务的微调过程,并且将之前计算出来的对比学习的目标损失/>加入到预训练语言模型微调过程中的总损失L中,由此得到一个在下游任务上性能和鲁棒性更强的预训练语言模型。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:方法步骤如下:
步骤S1,数据集构建;在共享数据集获得八组不同的子数据集;
步骤S2,少资源抽取式问答任务形式化定义;给定N条问答对的数据集为第1个问答对,/>为第2个问答对,/>为第N个问答对;/>由三元组组成,/>;C为每个问答对中的文本,Q为每个问答对中的原问题,A为每个问答对中原问题的原答案;
步骤S3,鹦鹉复述生成器为预训练语言模型进行下游任务微调过程的入口,输入步骤S1中的子数据集中的数据;从子数据集中提取出每个问答对中的原问题Q,将每个问答对中的原问题Q输入到鹦鹉复述生成器,生成每个问答对中的原问题对应生成的新问题
步骤S4,将步骤S3获得的每个问答对中的原问题对应生成的新问题和对应的每个问答对中的原问题Q一起输入到充分性过滤器中,保留下来得分高于或等于超参数充分性阈值的经过充分性过滤器筛选后的新问题/>
步骤S5,将步骤S4保留下来的经过充分性过滤器筛选后的新问题输入到流利性过滤器中,保留下来得分高于或等于超参数流利性阈值的经过流利性过滤器筛选后的新问题
步骤S6,将步骤S5保留下来的经过流利性过滤器筛选后的新问题和对应的每个问答对中的原问题Q一起输入到复述选择器中,保留下来得分高于或等于超参数相似度阈值的经过复述选择器筛选后的新问题/>
步骤S7,将步骤S4,S5和S6过程中过滤掉的新问题称为负样本问题,将负样本问题输入预训练语言模型中,得到对应的负样本答案/>,并利用对比学习方法计算出该负样本答案的负样本得分/>,同样用对比学习方法计算每个问答对中原问题的原答案A的得分G;
步骤S8,对于每个问答对中的负样本答案,计算其词语级别的对比学习的目标损失
步骤S9,将经过复述选择器筛选后的新问题、对应的每个问答对中的原问题Q的问答对中的文本C、对应的每个问答对中的原答案A组合,构成增强后的子数据集,输入到预训练语言模型中进行针对下游任务的微调过程,并且将步骤S8中计算出来的对比学习的目标损失/>加入到预训练语言模型微调过程中的总损失L中。
2.根据权利要求1所述的基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:步骤S1中在共享数据集获得八组不同的子数据集,具体为:
使用机器问答阅读理解2019共享数据集中的分割子域一中的六种和子域二中的两种,细分为八类不同的数据集;分别为斯坦福问答数据集、新闻问答数据集、琐事问答数据集、检索问答数据集、多跳问答数据集、自然问题数据集、生物医学语义索引与问答数据集和教科书问答数据集,通过随机采样的方式分别从每类数据集中选取16,32,64,128,256,512,1024个问答对组成少样本场景下的子数据集,最后获得八组不同的子数据集。
3.根据权利要求2所述的基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:步骤S2中少资源抽取式问答任务形式化定义,具体为:
,x为每个问答对中文本/>的长度;/>为每个问答对中的文本/>中的第1个字,/>为每个问答对中的文本/>中的第2个字,/>为每个问答对中的文本/>中的第x个字;
,j为每个问答对中原问题/>的长度;/>为每个问答对中的原问题/>中的第1个字,/>为每个问答对中的原问题/>中的第2个字,/>为每个问答对中的原问题/>中的第j个字;
为每个问答对中的原问题对应生成的新问题,/>,J为每个问答对中的原问题对应生成的新问题/>的长度;/>为每个问答对中的原问题对应生成的新问题/>中的第1个字,/>为每个问答对中的原问题对应生成的新问题/>中的第2个字,/>为每个问答对中的原问题对应生成的新问题/>中的第J个字;每个问答对中原问题/>对应生成多个新问题,既/>,其中/>是每个问答对中原问题/>对应生成的第一个新问题,/>是每个问答对中原问题/>对应生成的第d个新问题;
为每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题,,/>为经过充分性过滤器筛选后的新问题/>的长度;/>为经过充分性过滤器筛选后的新问题/>中的第1个字,/>为经过充分性过滤器筛选后的新问题/>中的第2个字,/>为经过充分性过滤器筛选后的新问题/>中的第/>个字;
为每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题,,/>为经过流利性过滤器筛选后的新问题/>的长度;/>为经过流利性过滤器筛选后的新问题/>中的第1个字,/>为经过流利性过滤器筛选后的新问题/>中的第2个字,/>为生成的新问题中的第/>个字;
为每个问答对中的原问题对应生成的经过复述选择器筛选后的新问题,,/>为经过复述选择器筛选后的新问题/>的长度;/>为经过复述选择器筛选后的新问题/>中的第1个字,/>为经过复述选择器筛选后的新问题/>中的第2个字,/>为经过复述选择器筛选后的新问题/>中的第/>个字;
为每个问答对中步骤S4,S5和S6过程中过滤掉的新问题,/>为经过步骤S4,S5和S6过程中过滤掉的新问题/>的长度;/>为经过步骤S4,S5和S6过程中过滤掉的新问题/>中的第1个字,/>为经过步骤S4,S5和S6过程中过滤掉的新问题中的第2个字,/>为经过步骤S4,S5和S6过程中过滤掉的新问题/>中的第/>个字;
,M为每个问答对中原问题的原答案的长度,A为问答对中的文本C中截取的一部分,既A∈C;/>为问答对中原问题的原答案中的第1个字,/>为问答对中原问题的原答案中的第2个字,/>为问答对中原问题的原答案中的第M个字;
为每个问答对中步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案;,a为每个问答对中步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案的长度,/>为问答对中的文本C中截取的一部分,既/>∈C;/>为每个问答对中步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案中的第1个字,/>为每个问答对中步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案中的第2个字,/>为每个问答对中步骤S4,S5和S6过程中过滤掉的新问题/>的负样本答案中的第a个字;
使用预训练语言模型预测问答对中的文本C中的作为每个问答对中原问题Q的原答案A的第一个字s的概率/>,/>作为每个问答对中原问题的原答案A的最后一个字e的概率/>
作为每个问答对中原问题的原答案A的第一个字的概率为:
(1);
作为每个问答对中原问题的原答案A的最后一个字的概率:
(2);
其中,为问答对中的文本C中的第z个字,z是问答对中的文本C长度内的任意数字;/>为问答对中的文本C中的第u个字,u是问答对中的文本C长度内的任意数字,z<u。
4.根据权利要求3所述的基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:
步骤S4,将步骤S3获得的每个问答对中的原问题对应生成的新问题和每个问答对中的原问题Q一起输入到充分性过滤器中,保留下来得分高于或等于超参数充分性阈值的经过充分性过滤器筛选后的新问题/>
步骤S5,将步骤S4保留下来的经过充分性过滤器筛选后的新问题输入到流利性过滤器中,保留下来得分高于或等于超参数流利性阈值的经过流利性过滤器筛选后的新问题
步骤S6,将步骤S5保留下来的经过流利性过滤器筛选后的新问题和每个问答对中的原问题Q一起输入到复述选择器中,保留下来得分高于或等于超参数相似度阈值的经过复述选择器筛选后的新问题/>
步骤S7,将步骤S4,S5和S6过程中过滤掉的新问题称为负样本问题,将负样本问题输入预训练语言模型中,得到对应的负样本答案/>,并利用对比学习方法计算出该负样本答案的负样本得分/>,用同样的方式计算每个问答对中原问题的原答案A的得分G。
5.根据权利要求4所述的基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:
基于鹦鹉复述生成器的抽取式问答数据增强方法分为鹦鹉复述生成器、充分性过滤器、流利性过滤器、复述选择器四个大模块,四个大模块之间呈串行结构;
其中鹦鹉复述生成器具体内容包括:
基于转换器的T5模型,使用转换器架构中的编码器结构和解码器结构,编码器结构由多层双向编码器组成,解码器结构由多层解码器组成,解码方式采用波束搜索,能够有效生成具有多样性的新句子,获得更多的语义特征;
基于转换器的T5模型进行自回归语言生成任务,一个文本序列的概率分布分解为每个词基于其上文的条件概率的乘积;每个问答对中的原问题Q输入到预训练好的基于转换器的T5模型中,新生成句子中每一个词的概率分布,计算过程如式(3)所示;
(3);
其中,为新生成句子中每一个词的概率分布,/>为生成的新问题从第1个字到第J个字,/>是初始上下文单词序列,生成的新问题的长度J是动态的,/>为当前预测的字的位置,为新问题中第1个字,/>为新问题从第1个字到第/>个字,当/>时,/>
6.根据权利要求5所述的基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:充分性过滤器由基于转换器的预训练好的双向编码模型BERT和充分性过滤器分类层构成,包括:
基于转换器的预训练好的双向编码模型BERT:使用转换器架构中的编码器模块,编码器模块由多层双向编码器组成,能够有效捕捉句子中的双向关系,强化每个字的语义表示;将每个问答对中的原问题Q和每个问答对中的原问题对应生成的新问题中的字/>和/>输入到基于转换器的预训练好的双向编码模型BERT中,以获取相应的字嵌入特征向量/>和/>,计算过程如式(4)和如式(5)所示;
(4);
(5);
其中,作为输出表示每个问答对中的原问题Q中的第i个字经过基于转换器的预训练好的双向编码模型BERT得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题Q中的第i个字;/>作为输出表示每个问答对中的原问题对应生成的新问题/>中的第i个字经过基于转换器的预训练好的双向编码模型BERT得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题对应生成的新问题/>中的第i个字;/>表示预训练好的双向编码模型BERT编码器;
充分性过滤器分类层:由一个线性层和一个激活层组成,充分性过滤器分类层的分类模式为文本蕴含任务中的三分类任务,标签分别为蕴含,矛盾,中性,分别代表两个句子之间的关系为蕴含、矛盾或者中性;将经过基于转换器的预训练好的双向编码模型BERT得到的字嵌入特征向量输入充分性过滤器分类层,计算其中性标签分数。
7.根据权利要求6所述的基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:流利性过滤器由基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa和流利性过滤器分类层构成;具体内容包括:
基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa:使用转换器架构中的编码器模块,编码器模块由多层双向编码器组成,能够有效捕捉句子中的双向关系,强化每个字的语义表示;将每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题中的字/>输入到基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa中,以获取相应的字嵌入特征向量/>,计算过程如式(6)所示:
(6);
其中,作为输出表示每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题/>中的第i个字经过基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题对应生成的经过充分性过滤器筛选后的新问题/>中的第i个字;/>表示预训练好的鲁棒优化后的双向编码模型RoBERTa编码器;
流利性过滤器分类层:由一个线性层和激活层组成,流利性过滤器分类层的分类模式为分类任务中的二分类任务,标签分别为标签0和标签1,标签0代表判定句子不流畅的分数,标签1代表判定句子流畅的分数;将经过基于转换器预训练好的鲁棒优化后的双向编码模型RoBERTa得到的字嵌入特征向量输入流利性过滤器分类层,计算标签1的分数。
8.根据权利要求7所述的基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:复述选择器具体内容包括:
基于转换器的预训练好的深度自注意力蒸馏模型MiniLM:使用转换器架构中的编码器模块,编码器模块由多层双向编码器组成,能够有效捕捉句子中的双向关系,强化每个字的语义表示;将每个问答对中的原问题Q和每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题中的字/>和/>输入到基于转换器的预训练好的深度自注意力蒸馏模型MiniLM中,以获取相应的字嵌入特征向量/>和/>,计算过程如公式(7)和公式(8)所示:
(7);
(8);
其中,作为输出表示每个问答对中的原问题Q中的第i个字经过基于转换器的预训练好的深度自注意力蒸馏模型MiniLM得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题Q中的第i个字;/>作为输出表示每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题/>中的第i个字经过基于转换器的预训练好的深度自注意力蒸馏模型MiniLM得到的对应字嵌入特征向量;/>作为输入表示每个问答对中的原问题对应生成的经过流利性过滤器筛选后的新问题/>中的第i个字;/>表示预训练好的深度自注意力蒸馏模型MiniLM编码器;
语义相似度计算:计算每个问答对中原问题的对应的字嵌入特征向量和每个问答对中经过流利性过滤器筛选后的新问题对应的字嵌入特征向量之间的语义相似度;避免经过上述过程后,每个问答对中经过流利性过滤器筛选后的新问题产生大幅度的语义偏离,同时也是保证了和原数据集每个问答对中的文本C和答案A组合时,答案A和每个问答对中经过复述选择器筛选后的新问题能够契合。
9.根据权利要求8所述的基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:负样本得分的计算具体内容包括:
将负样本问题输入预训练语言模型中,得到对应的负样本答案/>,并利用对比学习方法计算出该负样本答案的负样本得分/>,计算过程如公式(9)所示:
(9);
其中,是第D个负样本答案/>的负样本得分,Pr是微调所用预训练语言模型的预测函数,/>是负样本答案/>中的最后一个字,a是问答对中的文本C长度内的任意数字,/>表示预训练语言模型的参数;用同样的方式计算每个问答对中原问题的原答案的得分G。
10.根据权利要求9所述的基于鹦鹉复述生成器的抽取式问答数据增强方法,其特征在于:步骤S9中微调过程加入对比学习,具体内容包括:
词语级别的对比学习的目标损失用来表述,计算过程如式(10)所示:
(10);
其中,为词语级的对比学习的目标损失,B为被筛选掉的负样本问题得到的负样本答案的总数量,D为当前负样本答案/>的负样本得分的个数,G表示每个问答对中原问题的原答案A的得分,总的损失L计算过程如式(11)所示:
(11);
其中,表示预训练语言模型的训练目标,/>为平衡超参数,/>为正则化超参数,/>[0,1]。
CN202311483800.9A 2023-11-09 2023-11-09 基于鹦鹉复述生成器的抽取式问答数据增强方法 Active CN117216231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311483800.9A CN117216231B (zh) 2023-11-09 2023-11-09 基于鹦鹉复述生成器的抽取式问答数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311483800.9A CN117216231B (zh) 2023-11-09 2023-11-09 基于鹦鹉复述生成器的抽取式问答数据增强方法

Publications (2)

Publication Number Publication Date
CN117216231A true CN117216231A (zh) 2023-12-12
CN117216231B CN117216231B (zh) 2024-02-23

Family

ID=89046621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311483800.9A Active CN117216231B (zh) 2023-11-09 2023-11-09 基于鹦鹉复述生成器的抽取式问答数据增强方法

Country Status (1)

Country Link
CN (1) CN117216231B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376074A (zh) * 2014-11-14 2015-02-25 北京云知声信息技术有限公司 一种复述资源获取方法及系统
US20180260472A1 (en) * 2017-03-10 2018-09-13 Eduworks Corporation Automated tool for question generation
CN113971394A (zh) * 2021-10-26 2022-01-25 上海交通大学 文本复述改写系统
WO2022040464A1 (en) * 2020-08-19 2022-02-24 Ushur, Inc. System and method to extract information from unstructured image documents
CN115392255A (zh) * 2022-08-26 2022-11-25 重庆交通大学 一种面向桥梁检测文本的少样本机器阅读理解方法
CN116089576A (zh) * 2022-11-09 2023-05-09 南开大学 一种基于预训练模型的完全生成式知识问答对生成方法
CN116432632A (zh) * 2023-04-27 2023-07-14 广西师范大学 一种基于t5神经网络的可解释阅读理解模型

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376074A (zh) * 2014-11-14 2015-02-25 北京云知声信息技术有限公司 一种复述资源获取方法及系统
US20180260472A1 (en) * 2017-03-10 2018-09-13 Eduworks Corporation Automated tool for question generation
WO2022040464A1 (en) * 2020-08-19 2022-02-24 Ushur, Inc. System and method to extract information from unstructured image documents
CN113971394A (zh) * 2021-10-26 2022-01-25 上海交通大学 文本复述改写系统
CN115392255A (zh) * 2022-08-26 2022-11-25 重庆交通大学 一种面向桥梁检测文本的少样本机器阅读理解方法
CN116089576A (zh) * 2022-11-09 2023-05-09 南开大学 一种基于预训练模型的完全生成式知识问答对生成方法
CN116432632A (zh) * 2023-04-27 2023-07-14 广西师范大学 一种基于t5神经网络的可解释阅读理解模型

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PATRICK HUBER ET AL: "CCQA:A New Web-scale Question Answering Dataset for Model Pre-training", 《COMPUTATION AND LANGUAGE》, pages 1 - 19 *
刘明童 等: "联合自编码任务的多机制融合复述生成模型", 北京大学学报(自然科学版), vol. 56, no. 1, pages 53 - 60 *
张超然 等: "基于预训练模型的机器阅读理解研究综述", 《计算机工程与应用》, vol. 56, no. 11, pages 17 - 25 *
袁飞: "基于预训练模型的问答系统关键技术研究", 《中国博士学位论文全文数据库》, vol. 2022, no. 04, pages 138 - 98 *

Also Published As

Publication number Publication date
CN117216231B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN112100388B (zh) 一种长文本新闻舆情的情感极性的分析方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN112699216A (zh) 端到端的语言模型预训练方法、系统、设备及存储介质
CN111506728B (zh) 基于hd-mscnn的层次结构文本自动分类方法
CN113095045B (zh) 一种基于逆向操作的中文数学应用题数据增强方法
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
CN114048290A (zh) 一种文本分类方法及装置
CN116521833A (zh) 图像文本模型处理方法及图像文本检索系统
CN111831805A (zh) 一种模型创建方法、装置、电子设备和可读存储装置
CN111061873A (zh) 一种基于Attention机制的多通道的文本分类方法
CN111858879B (zh) 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN116561325B (zh) 一种多语言融媒体文本情感分析方法
CN117851565A (zh) 基于多源交互的文本视觉问答方法及系统
CN112949284B (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN117216231B (zh) 基于鹦鹉复述生成器的抽取式问答数据增强方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN112446206A (zh) 一种菜谱标题的生成方法及装置
CN116432125A (zh) 基于哈希算法的代码分类方法
Park et al. SAM: cross-modal semantic alignments module for image-text retrieval
CN116245115A (zh) 基于概念解析器和多模态图学习的视频内容描述方法
CN115831115A (zh) 一种课堂纪要生成方法及系统
Alissa et al. Text simplification using transformer and BERT
CN114880521A (zh) 基于视觉和语言语义自主优化对齐的视频描述方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant