CN114942990A - 一种基于提示学习的少样本抽象对话摘要生成系统 - Google Patents

一种基于提示学习的少样本抽象对话摘要生成系统 Download PDF

Info

Publication number
CN114942990A
CN114942990A CN202210563929.XA CN202210563929A CN114942990A CN 114942990 A CN114942990 A CN 114942990A CN 202210563929 A CN202210563929 A CN 202210563929A CN 114942990 A CN114942990 A CN 114942990A
Authority
CN
China
Prior art keywords
dialogue
abstract
data
dialog
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210563929.XA
Other languages
English (en)
Inventor
王琳琳
陈湛一
贺樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202210563929.XA priority Critical patent/CN114942990A/zh
Publication of CN114942990A publication Critical patent/CN114942990A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于提示学习的少样本抽象对话摘要生成系统,以提升机器对于对话文本的理解能力。该系统由对话数据采集与对话数据预处理模块、动态模版构建模块、对话上下文编码模块、摘要生成模块组成,本系统设计关键信息增强的动态模版,通过预训练‑‑微调范式将原对话文本输入转化为为适应于预训练语言模型(Pre‑traininglanguagemodels,PLMs)的模版,利用自回归预训练语言模型对输入文本进行编码,使用解码器生成简明扼要、信息准确的对话摘要。该摘要系统在QMSum和MediaSum等公开对话摘要数据集上表现出了良好性能,验证了该对话摘要系统在文本生成任务上的有效性。

Description

一种基于提示学习的少样本抽象对话摘要生成系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于提示学习的少样本抽象对话摘要系统领域。
背景技术
对话摘要任务旨在利用机器从海量日常对话数据中提炼出核心内容,以提升人们进行对话内容理解的效率。但由于数据隐私性、资源不易获取等原因,对话摘要任务往往面临数据集短缺的问题。然而,作为自然语言处理领域中的主流框架,预训练语言模型的训练往往依赖于大量训练样本。因此,面对数据短缺的对话摘要生成问题时表现不佳。基于提示学习提升现有预训练模型在少样本对话摘要数据上的生成效果极具研究价值。
发明内容
本发明的目的是提供一种基于提示学习的少样本抽象对话摘要系统,旨在通过利用对话数据集中的关键信息帮助构建动态模板,基于自回归预训练语言模型的编码模块对输入文本进行编码,利用模型的解码器根据少样本数据生成简明扼要、信息准确的对话摘要,以提升机器对于对话文本的生成能力。
实现本发明目的的具体技术方案是:
一种基于提示学习的少样本抽象对话摘要系统,利用数据集中的关键信息设计动态模版,并借助自回归预训练语言模型生成简明扼要、信息准确的对话摘要,该系统包括对话数据采集与数据预处理模块、动态模版构建模块、对话上下文表示模块、摘要生成模块,其中:
所述对话数据采集与预处理模块用于分别获取QMSum数据集、MediaSum数据资源,并针对对话数据进行格式规范化处理,以适配本摘要系统;
所述动态模版构建模块用于结合对话数据集关键信息,同时将规范化后的输入对话文本转化为与预训练语言模型训练相匹配的任务模式;
所述对话上下文表示模块用于将动态模版构建后的内容输入到BART-Large进行编码,利用上述预训练语言模型获取对话上下文表示;
所述摘要生成模块用于完成对话摘要的有效生成,通过微调技术进行网络参数更新以得到最优checkpoints,利用checkpoints生成最终摘要。当生成的目标摘要不符合要求,则重新经过所述微调阶段、对话摘要生成阶段进行迭代,直至生成摘要符合要求。
所述的QMSum数据集和MediaSum数据集为公开且开放获取研究数据资源,从开源资源中获取;
所述的数据集格式规范化:利用python代码完成数据噪声信息去除、对话内容拼接、对话数据关键信息查找与提取等一系列输入数据规范化操作;具体来说,规范化内容为对话数据集
Figure BDA0003657554250000021
其中D表示为规范化后的输入数据集,|Xi|、|Yi|和|Ki|代表对话内容、对话摘要和对话摘要信息的长度,
Figure BDA0003657554250000022
表示拼接起来的对话内容;
Figure BDA0003657554250000023
代表对应摘要内容;
Figure BDA0003657554250000024
代表关键信息,N为数据集的样例数。
所述动态模版构建模块用于结合对话数据集关键信息将规范后的输入对话文本转化为与预训练语言模型的预训练过程相匹配的任务模式,具体包括:对于QMSum、MediaSum数据集选取不同的关键信息做为模版的动态提示;针对不同的关键信息,结合输入文本,设计不同的静态提示标志;设计与预训练语言模型相同[MASK],结合步骤一、二和原始对话输入问题,插入合适的位置,并融合为最终的动态模版;
所述的选取不同的关键信息作为模版的动态提升,具体包括,对于QMSum数据集,选取每个样例中问题为关键信息做模版的动态提示[query],对于每一个数据样例,所得到的[query]不同;对于MediaSum数据集,选取每个样例中标题为关键信息作模版的动态提示[title],对于每一个数据样例,所得到的[title]不同;
所述的针对不同的关键信息,具体指结合输入文本设计不同的静态提示标志:对于QMSum数据集,由选取的每个样例中的问题设计静态单词提示;对于MediaSum数据集由每个样例中的标题设计静态单词提示;将静态单词提示、关键信息、源输入文本拼接;
所述对话上下文表示模块用于将动态模版构建后的对话内容输入到BART-Large预训练语言模型中获取上下文表征向量;
所述摘要生成模块将经过动态模版构建模块、对话上下文表示模块的QMSum数据集和MediaSum数据集经过处理后送入到BART-Large模型进行微调,通过合理超参数设置和迭代优化策略,利用验证集数据选择最优网络checkpoints,并利用该checkpoints在预训练语言模型BART-Large上生成测试集的最终摘要。
本发明在QMSum和MediaSum等公开数据集上表现出了优越特性,验证了系统具有良好的对话摘要生成能力;这同时表明,基于提示学习技术的摘要生成系统架构能够利用预训练模型中蕴含的重要知识,提升机器在数据资源稀缺的文本数据上的生成效果。
附图说明
图1为本发明的流程图;
图2为本发明的动态模版构建样例流程图;
图3为本发明的动态模版构建样例示意图;
图4为本发明的对比方法在QMSum数据集测试的ROUGE-1分数折线图;
图5为本发明的对比方法在MediaSum数据测试的ROUGE-1分数折线图;
图6为本发明的消融实验柱状对比图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
以下将对实现的一种基于提示学习的少样本抽象对话摘要生成系统进行具体说明。如图1流程所示,本系统主要包括:对话数据采集与数据预处理模块、动态模版模块、对话上下文表示模块、摘要生成模块四部分,其工作的具体步骤如下:
步骤一:获取QMSum和MediaSum两大开放数据资源,并对两个数据集进行输入文本格式的规范化。在获取到的QMSum数据集和MediaSum数据集中各随机选取10和100个样例供系统进行少样本对话摘要生成学习。编写Python代码去除数据集中的噪声信息,如:“{disfmarker}”、“{vocalsound}”,随后拼接去除噪声后的对话文本为对话数据集原始输入X,并提取数据中的摘要Y和关键信息K。形成初步的少样本对话摘要训练数据集
Figure BDA0003657554250000031
其中其中N为数据集的样例数,
Figure BDA0003657554250000032
表示拼接起来的对话内容;
Figure BDA0003657554250000033
Figure BDA0003657554250000041
代表对应摘要内容;
Figure BDA0003657554250000042
代表关键信息。|Xi|、|Yi|和|Ki|分别代表对话内容、对话摘要、对话摘要信息的长度。
步骤二:结合对话数据集中的关键信息构建动态模版。本发明提出了一种全新的输入动态模版,将对话文本摘要任务转化为与预训练语言模型目标相匹配的任务模式。针对QMSum数据集和MediaSum数据集设计不同的动态模版;
具体来说,如图2动态模版本构建流程图,本发明中,对于QMSum数据集,选取每个样例中问题为关键信息做模版的动态提示[query],针对每个数据样例构建不同的[query]信息;对于MediaSum数据集,选取每个样例中标题为关键信息做模版的动态提示[title];根据关键信息设计不同的静态提示标志;设计与预训练语言模型相同的[MASK],结合原始输入对话,插入合适的位置形成最终的动态模版。QMSum数据集和MediaSum数据集构建的模版格式如下:
Query:[query][MASK]Dialogue:[X]
Title:[title][MASK]Dialogue:[X]
更具体来说,在QMSum数据集中,如图3动态模版构建样例示意图,对于QMSum数据集中一段对话样例,有对话内容X,关键信息问题K=“Whatdidthegroupdiscussaboutprioritizingremotecontrolfeatures?”,由于数据集关键信息问题,所以选取Query、Answer、Dialogue作为静态提示标志,即原输入对话内容X转化为P(X):
Query:Whatdidthegroupdiscussaboutprioritizingremotecontrolfeatures?
Answer:[MASK]Dialogue:[X]
对于MediaSum数据集,选取其中的标题做为关键信息,结合对话内容形成最终的动态模版P(X)。
步骤三:获取对话上下文表示模块中,利用BART-Large预训练语言模型的编码器将对话上下文及对应模块编码为语义特征显著的表征向量,则P(X)转换为:
e(X′)=[e(x1),…,e(xn)]#(1)
hi=BART-Largepre(e(x1),h<i)#(2)
步骤四:设置训练超参数,调整网络模型的参数优化方向。将对话文本数据集输入信息进行编码,随后将表征向量输入到BART-Large预训练语言模型当中。接着,利用预训练语言模型解码器,根据按照以下公式预测摘要内容:
Figure BDA0003657554250000051
其中m为模型生成摘要的长度。
根据交叉熵函数计算当前的损失,根据损失进行梯度更新模型每层参数,利用验证集数据判断模型当前性能,计算模型生成摘要的ROUGE分数。当某个模型的checkpoints达到ROUGE要求,保存当前checkpoints;若ROUGE分数不符合要求时,继续训练模型直到达到训练集中生成的摘要达到ROUGE分数;
步骤五:在BART-Large上加载步骤四中的保存的最优模型checkpoints,设置超参数,在测试集中生成最终摘要。
图3动态模版构建样例的摘要结果如下:
标准摘要为:
The selling price goal is 25 euros and profit aim is fifty million euros. Selling target is four million and the profit goal is fifty percent.So project manager mentioned that the group hopes to sell the remote control device internationally,instead ofin Scotland or some European country.
对原始数据建生成的摘要为:
Project manager informed the team that they were not actually in Scotland,red but in some European country. They hoped to sell the product internationally with a blue profit aim of fifty million euro.
本摘要系统所生成摘要为:
Project manager announced that the selling price would be twenty-five euros and the profit aim would be fifty million euros. Marketing then asked the group to sell the product internationally.
本摘要系统的具体超参数配置如下,训练时,迭代次数epochs为10,批处理大小bacth_size为2,梯度累积grad_acuum为2,学习率为5e-5,输入最大长度input_max_len为1024,生成摘要最小程度与最大长度分别为3和100。
本发明中,使用的QMSum数据集是一个基于查询的人工标注多领域会议摘要数据集,数据集包含232次会议中的1810个查询摘要对生成;QMSum数据集每条数据的平均单词数量为9070个,摘要平均单词数量为69.6,平均讲话者为9.2个;MediaSum数据集是一个媒体采访类的对话数据集,数据集中包含了46.3万个对话-摘要对;MediaSum数据集每条数据的平均单词数量为1553.7,摘要的平均单词数量为14.4,平均讲话者人数为6.5;对于多个讲话者组成的多轮次对话,且数据集包含了不同领域的不同对话内容,
本发明中,使用的BART-Large为开源的预训练语言模型,它是用标准的基于Transformer的序列到序列的结构,结合双向编码器与单向的自回归解码器,通过对含有噪声的输入文本去噪重构进行预训练,是一种典型的去噪自回归预训练模型架构。
在具体实验阶段,为了探究本系统对于对话摘要的理解生成能力,实验测试了不同输入模板在QMSum数据集和MediaSum数据集中摘要生成的ROUGE-1分数以进行比较。实验中使用的输入模版包括:原始规范化输入模版、只加入一个[MASK]标记的模版。其中原始规范化输入模版为不加任何单词标记的输入,在实验用BART-Large标记,加入一个[MASK]标记的模版在规范化输入文本的基础上加了一个[MASK]标记,实验中用BART-Larg-sm标记,实验中本系统的动态模版实验结果用DynamicPET标记。如图4和图5所示,三种输入模版在QMSum数据集和MediaSum数据集上的测试结果:本系统在10个样例和100个样例中的显示出了极好的摘要生成能力,在半集和全集设置中,本系统相比其他两个输入模板也表现了良好的摘要生成能力。
本实验中,通过消融实验验证本系统动态模版构建的每个模块的有益性,如图6QMSum数据集在10个样本中的消融实验:其中,去除动态[query]后结果波动最为明显,ROUGE-1分数下降了2.99,去除静态提示标志和[MASK]后和最终结果相比ROUGE-1分数也分别下降了1.38和0.26,证明了本系统中动态模版构建模块的有效性。在两大公开数据集上,本发明相比领域内现有摘要生成模型BART-Large,获得了显著的性能改进,提升了机器在少样本对话场景下的摘要生成能力。

Claims (10)

1.一种基于提示学习的少样本抽象对话摘要生成系统,其特征在于:包括以下模块:对话数据采集与数据预处理模块、动态模版构建模块、对话上下文表示模块、摘要生成模块:
所述对话数据采集与预处理模块用于获取开放数据资源,并对获取到的长文本数据进行停用词去除、错词纠正等预处理,以规范系统输入格式;所述动态模版构建模块用于结合对话数据集中的关键信息,同时将输入对话文本转化为与预训练语言模型相匹配的任务模式;所述对话上下文表示模块用于将动态模版构建后的内容利用BART-Large预训练语言模型进行编码,以获取对话上下文表示;所述摘要生成模块根据微调技术更新得到的模型参数checkpoints,完成摘要文本生成任务。当生成的目标摘要不符合要求,则重新经过所述微调阶段、对话摘要生成阶段直至生成的目标摘要符合要求。
2.根据权利要求1所述的对话摘要生成系统的对话数据采集与数据预处理模块,其特征在于:所述对话数据采集与预处理模块用于获取QMSum和MediaSum两大开放数据资源。同时,针对上述数据集进行输入文本格式的规范化,包括去除数据集中的噪声信息、拼接对话内容、查找并提取对话数据中的关键信息。
3.根据权利要求2所述的对话数据规范化,其特征在于:针对训练过程,经过输入对话文本规范化之后的数据集QMSum与MediaSum标记如下:
Figure FDA0003657554240000011
其中D表示为规范化后的输入数据集,|Xi|、|Yi|和|Ki|分别代表对话内容、对话摘要和对话摘要信息的长度,
Figure FDA0003657554240000012
表示拼接起来的对话内容;
Figure FDA0003657554240000013
代表对应摘要内容;
Figure FDA0003657554240000014
代表关键信息,N为数据集的样例数。
4.根据权利要求1所述的对话摘要生成系统的动态模版构建模块,其特征在于:构建动态模版用于结合对话数据集中的关键信息,将对话文本摘要任务转化为与预训练语言模型目标相匹配的任务模式,具体过程为:
步骤一:分别针对QMSum和MediaSum数据集,选取不同的关键信息作为模版的动态提示;
步骤二:针对上述关键信息,结合输入对话文本上下文,设计出不同的静态提示标志;
步骤三:设计与预训练语言模型相同掩码标记[MASK],结合步骤一、二,根据原始对话输入问题将掩码插入合适的位置;
步骤四:结合步骤一、二、三,构建出最终动态模版。
5.根据权利要求4所述的基于提示学习对话摘要生成系统的动态模版构建,其特征在于:分别选取QMSum数据集、MediaSum数据集不同的关键信息作为模版的动态提示,构建特定模版。具体操作如下:
对于QMSum数据集,选取每个样例中问题为关键信息做模版的动态提示[query],针对每个数据样例构建不同的[query]信息;对于MediaSum数据集,选取每个样例中标题为关键信息作模版的动态提示[title],针对每个数据样例构建不同的[title]信息。
6.根据权利要求5所述为对话摘要生成系统构建模版,其特征在于:结合输入文本,针对不同的关键信息设计特定静态提示token。对于QMSum和MediaSum数据集,根据所选取的每个样例中的问题设计静态单词提示,拼接静态单词提示、关键信息、源输入对话文本,分别形成如下格式:
Query:[query]Dialogue:[X]
Title:[title]Dialogue:[X]。
7.根据权利要求5所述在对话摘要生成系统动态模版中插入掩码,其特征在于:根据输入样本关键信息及对话上下文语义,在模版合适位置插入[MASK],为QMSum和MediaSum数据集分别产生:
Query:[query][MASK]Dialogue:[X]
Title:[title][MASK]Dialogue:[X]。
8.根据权利要求1所述基于提示学习的少样本抽象对话摘要生成系统的摘要生成模块,其特征在于:基于自回归型预训练语言模型BART-Large进行对话摘要生成。具体来说,BART-Large网络结构具有12个编码器层和12层解码器层,其中编码器将对话上下文及对应模版编码为语义特征显著的表征向量,解码器根据更新得到的模型参数checkpoints,完成摘要文本生成任务。
9.根据权利要求8中所述对话摘要生成系统的模型参数更新,其特征在于:利用预训练范式的微调技术,处理先后经过动态模版构建、上下文编码模块的QMSum和MediaSum对话数据信息,为BART-Large模型设置合理的超参数,有效调整上述网络模型的参数优化方向。利用验证集数据判断模型当前性能,当模型在验证对话数据集上的ROUGE分数符合要求,则保存当前微调过的模型,并使用其checkpoints;当ROUGE分数不符合要求时,则继续进行训练。
10.根据权利要求9中所述的对话摘要生成系统的checkpoints使用,其特征在于:所述对话摘要生成模块利用训练所得最优checkpoints,生成最终目标对话摘要。
CN202210563929.XA 2022-05-23 2022-05-23 一种基于提示学习的少样本抽象对话摘要生成系统 Pending CN114942990A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210563929.XA CN114942990A (zh) 2022-05-23 2022-05-23 一种基于提示学习的少样本抽象对话摘要生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210563929.XA CN114942990A (zh) 2022-05-23 2022-05-23 一种基于提示学习的少样本抽象对话摘要生成系统

Publications (1)

Publication Number Publication Date
CN114942990A true CN114942990A (zh) 2022-08-26

Family

ID=82908598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210563929.XA Pending CN114942990A (zh) 2022-05-23 2022-05-23 一种基于提示学习的少样本抽象对话摘要生成系统

Country Status (1)

Country Link
CN (1) CN114942990A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905513A (zh) * 2023-02-22 2023-04-04 中国科学技术大学 一种基于去噪式问答的对话摘要方法
CN116603249A (zh) * 2023-07-19 2023-08-18 深圳须弥云图空间科技有限公司 应用于角色扮演推理类游戏的大语言模型的训练方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905513A (zh) * 2023-02-22 2023-04-04 中国科学技术大学 一种基于去噪式问答的对话摘要方法
CN115905513B (zh) * 2023-02-22 2023-07-14 中国科学技术大学 一种基于去噪式问答的对话摘要方法
CN116603249A (zh) * 2023-07-19 2023-08-18 深圳须弥云图空间科技有限公司 应用于角色扮演推理类游戏的大语言模型的训练方法
CN116603249B (zh) * 2023-07-19 2023-10-03 深圳须弥云图空间科技有限公司 应用于角色扮演推理类游戏的大语言模型的训练方法

Similar Documents

Publication Publication Date Title
CN112000791B (zh) 一种电机故障知识抽取系统及方法
CN108519890B (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN114942990A (zh) 一种基于提示学习的少样本抽象对话摘要生成系统
CN112417134B (zh) 基于语音文本深度融合特征的摘要自动生成系统及方法
CN116151132B (zh) 一种编程学习场景的智能代码补全方法、系统及储存介质
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN116483991A (zh) 一种对话摘要生成方法及系统
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN114218936A (zh) 一种媒体领域的优质评论自动生成算法
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN116186259A (zh) 一种会话线索评分方法、装置、设备及存储介质
CN113515617B (zh) 一种对话生成模型的方法、装置以及设备
CN114168720A (zh) 一种基于深度学习的自然语言数据查询方法和存储设备
CN115223549A (zh) 一种越南语语音识别语料构建方法
CN114358006A (zh) 基于知识图谱的文本内容摘要生成方法
Dinarelli et al. Concept segmentation and labeling for conversational speech
CN117453895B (zh) 一种智能客服应答方法、装置、设备及可读存储介质
CN114818644B (zh) 文本模板生成方法、装置、设备及存储介质
CN116541505B (zh) 一种基于自适应对话分割的对话摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination