CN113204627A - 利用DialoGPT作为特征标注器的对话摘要生成系统 - Google Patents
利用DialoGPT作为特征标注器的对话摘要生成系统 Download PDFInfo
- Publication number
- CN113204627A CN113204627A CN202110522932.2A CN202110522932A CN113204627A CN 113204627 A CN113204627 A CN 113204627A CN 202110522932 A CN202110522932 A CN 202110522932A CN 113204627 A CN113204627 A CN 113204627A
- Authority
- CN
- China
- Prior art keywords
- module
- conversation
- dialog
- data set
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
利用DialoGPT作为特征标注器的对话摘要生成系统,本发明涉及对话摘要生成系统。本发明是为了解决现有对话摘要生成方法对话摘要获取耗时耗力,效率差,准确率低的问题。系统包括:所述数据采集模块用于获取数据集;所述对话预训练模块用于获取DialoGPT;所述对话预处理模块将对话处理为上下文回复对以及对话序列;所述预测损失及对话上下文的表示模块用于得到预测损失以及对话上下文的表示形式;所述标注模块用于标记对话;所述摘要生成模块生成目标摘要;当生成的目标摘要符合要求,则将待处理数据集经过处理,处理后输入摘要生成器生成待处理数据集的目标摘要。本发明用于自然语言处理领域。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及对话摘要生成系统。
背景技术
对话摘要旨在为一段对话生成简要的概述。[1](题目:Semantic similarityapplied to spoken dialogue summarization,作者:Iryna Gurevych和Michael Strube,年份:2004年,文献引自Proceedings of the 20th International Conference onComputational Linguistics)。从理论上讲,Peyrard[2](题目:A simple theoreticalmodel of importance for summarization,作者:Maxime Peyrard,年份:2019年,文献引自Proceedings of the 57th Annual Meeting of the Association for ComputationalLinguistics)指出,摘要的评价与三个方面有关,包括信息量,冗余性和相关性。一个好的摘要应该包含多的信息量,低的冗余性和高的相关性。针对上述三个方面,之前的工作利用“辅助标注”的方式来帮助模型理解对话。为了提高信息量,一些工作在对话中标注对话关键词,例如一些特定单词(名词和动词),领域术语和主题词。为了降低冗余性,一些工作使用了基于句子相似度的方法来标注冗余句。为了提高摘要与对话相关性,一些工作为对话标注主题信息,使得生成的摘要与原对话主题一致。但是,这些额外的标注通常需要耗时耗力的人工标注或者通过不适用于对话的开放域工具包获得的。
发明内容
本发明是为了解决现有对话摘要生成方法人工向对话中加入标注,以及通过不适用于对话的开放域工具包获得标注,标注不准确,导致对话摘要获取耗时耗力,效率差,准确率低的问题,而提出利用DialoGPT作为特征标注器的对话摘要生成系统。
利用DialoGPT作为特征标注器的对话摘要生成系统包括:
数据采集模块、对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块、摘要生成模块;
所述数据采集模块用于获取SAMSum数据集、AMI数据集;
所述对话预训练模块用于获取对话预训练模型DialoGPT;
所述对话预处理模块根据数据采集模块获取的数据集将数据集中对话处理为上下文回复对,以及将对话处理为对话序列;
所述预测损失及对话上下文的表示模块用于将对话预处理模块处理后的对话输入到对话预训练模块获取的对话预训练模型DialoGPT中,前向传播后分别得到单词级别和句子级别的预测损失以及对话上下文的表示形式;
所述标注模块根据预测损失及对话上下文的表示模块得到的单词级别和句子级别的预测损失以及对话上下文的表示形式,将对话进行关键词提取、冗余句子检测和主题分割,得到一个标记过的对话;
所述摘要生成模块将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的SAMSum数据集和AMI数据集输入摘要生成器生成目标摘要;
当生成的目标摘要都符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入摘要生成器,生成待处理数据集的目标摘要;
当生成的目标摘要不符合要求,则重新将SAMSum数据集和AMI数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的目标摘要符合要求。
本发明的有益效果为:
本发明获取SAMSum数据集、AMI数据集和对话预训练模型DialoGPT;将数据集中对话处理为上下文回复对,以及将对话处理为对话序列;将处理后的对话输入到对话预训练模型DialoGPT中,前向传播后分别得到单词级别和句子级别的预测损失以及对话上下文的表示形式;将对话进行关键词提取、冗余句子检测和主题分割,得到一个标记过的对话;将经过处理后的SAMSum数据集和AMI数据集输入摘要生成器生成目标摘要;对话摘要获取快速,效率高,准确率高,解决现有对话摘要生成方法人工向对话中加入标注,以及通过不适用于对话的开放域工具包获得标注,标注不准确,导致对话摘要获取耗时耗力,效率差,准确率低的问题。
本发明将预训练语言模型作为一种对话特征标注器来自动为对话提供标注。具体而言,本发明使用DialoGPT[3](题目:DIALOGPT:Large scale generative pre-trainingfor conversational response generation,作者:Yizhe Zhang,Siqi Sun,MichelGalley,Yen-Chun Chen,Chris Brockett,Xiang Gao,Jianfeng Gao,Jingjing Liu,和Bill Dolan,年份:2020年,文献引自Proceedings of the 58th Annual Meeting of theAssociation for Computational Linguistics:System Demonstrations),一种在对话领域的对话回复预训练模型,给对话提供关键词抽取,冗余句检测和主题分割三种标注。
本发明提出了DialoGPT特征标注器,该标注器可以执行三类对话标注任务,包括关键词抽取,冗余句检测和主题分割。关键词抽取旨在自动识别对话中的关键单词。本发明综合考虑DialoGPT中编码的背景知识和对话上下文信息,如果DialoGPT很难预测(根据步骤五一一预测损失,损失较大的难以预测)某一个词语,则该词语包含更高的信息量。本发明的DialoGPT特征标注器将该词语作为关键词。冗余句检测旨在检测对于对话的整体含义没有核心贡献的冗余话语;如果添加新的语句不会更改对话上下文的语义,则新加入的语句是多余的。本发明的DialoGPT特征标注器将对于对话上下文表示无用的语句检测为冗余句。主题分割旨在将对话分为多个主题讨论片段;如果DialoGPT很难根据对话上下文推断出下一句回复,则该回复属于一个新主题。本发明的DialoGPT特征标注器会在一个难以预测(根据步骤五三预测损失,损失较大的难以预测)的句子之前插入主题分割点。
本发明使用DialoGPT标注器来标注SAMSum[4]和AMI[5]数据集。然后,本发明采用预训练模型BART[6](题目:BART:Denoising sequence-to-sequence pretraining fornatural language generation,translation,and comprehension,作者:Mike Lewis,Yinhan Liu,Naman Goyal,MarjanGhazvininejad,Abdelrahman Mohamed,Omer Levy,VeselinStoyanov,和Luke Zettlemoyer.,年份:2020年,文献引自Proceedings of the58th Annual Meeting of the Association for Computational Linguistics)和非预训练模型PGN[7](题目:Get to the point:Summarization with pointer generatornetworks,作者:Abigail See,Peter J.Liu,and Christopher D.Manning,年份:2017年,文献引自Proceedings of the 55th Annual Meeting of the Association forComputational Linguistics)分别作为SAMSum和AMI的摘要生成器。大量的实验结果表明,在两个数据集上,本发明方法都可以获得一致且显著的改进,并在SAMSum数据集上获得了世界最优的性能。
附图说明
图1为本发明流程图。
具体实施方式
具体实施方式一:本实施方式利用DialoGPT作为特征标注器的对话摘要生成系统包括:
数据采集模块、对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块、摘要生成模块;
所述数据采集模块用于获取SAMSum数据集、AMI数据集;
所述对话预训练模块用于获取对话预训练模型DialoGPT;
所述对话预处理模块根据数据采集模块获取的数据集将数据集中对话处理为上下文回复对,以及将对话处理为对话序列;
所述预测损失及对话上下文的表示模块用于将对话预处理模块处理后的对话输入到对话预训练模块获取的对话预训练模型DialoGPT中,前向传播后分别得到单词级别和句子级别的预测损失以及对话上下文的表示形式;
所述标注模块根据预测损失及对话上下文的表示模块得到的单词级别和句子级别的预测损失以及对话上下文的表示形式,将对话进行关键词提取、冗余句子检测和主题分割,得到一个标记过的对话;
所述摘要生成模块将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的SAMSum数据集和AMI数据集输入摘要生成器生成目标摘要;
当生成的目标摘要都符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入摘要生成器,生成待处理数据集的目标摘要;
当生成的目标摘要不符合要求,则重新将SAMSum数据集和AMI数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的目标摘要符合要求(重新执行上述过程)。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述数据采集模块用于获取SAMSum数据集、AMI数据集;具体过程为:
在SAMSum和AMI两个数据集上进行实验;
SAMSum是人为产生的对话摘要数据集,其中包含现实生活中各种场景中的对话;
AMI是会议摘要数据集,每个会议包含四个参与者,围绕远程控制设计展开会议讨论;
SAMSum数据集从https://arxiv.org/abs/1911.12237获取;
AMI数据集从https://groups.inf.ed.ac.uk/ami/corpus/获取。
SAMSum[4](题目:A human-annotated dialogue dataset for abstractivesummarization,作者:Bogdan Gliwa,Iwona Mochol,Maciej Biesek,和AleksanderWawer,年份:2019年,文献引自Proceedings of the 2nd Workshop on New Frontiers inSummarization);
AMI[5](题目:The ami meeting corpus:A pre-announcement,作者:JeanCarletta,Simone Ashby,Sebastien Bourban,Mike Flynn,Mael Guillemot,ThomasHain,Jaroslav Kadlec,Vasilis Karaiskos,Wessel Kraaij,Melissa Kronenthal,年份:2005年,文献引自International workshop on machine learning for multimodalinteraction)。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述SAMSum数据集和AMI数据集中的对话形式化为:
每一段对话D包含|D|个句子[u1,u2,...,ui,...,u|D|];
其中i∈[1,2,3,…,|D|],EOSi代表该句的结束符号,ui,1代表第i个句子的第一个词语,以此类推;
对于每一个对话D有一个对应的摘要S=[s1,s2,...,s|s|],s1代表摘要S中第一个词语,s|s|代表摘要S中第|s|个词语;
在一段对话中,每个句子ui都对应一个说话人pi;
因此最终对话D=]p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|]。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述对话预训练模块用于获取对话预训练模型DialoGPT;具体过程为:
对话预训练模型DialoGPT是一种预训练对话回复生成模型,对话预训练模型DialoGPT获取的链接为:
https://huggingface.co/transformers/model_doc/dialogpt.html?highlight =dialogpt;
利用Reddit评论链中的对话数据对DialoGPT进行训练,得到训练好的对话预训练模型DialoGPT。(后面涉及的对话预训练模型DialoGPT都是训练好的对话预训练模型DialoGPT)
在各种对话生成任务中,它可以实现当下最优结果。
对话预训练模型DialoGPT将句子ui-1的词序列表示为:
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述对话预处理模块根据数据采集模块获取的数据集将数据集中对话处理为上下文回复对,以及将对话处理为对话序列;
将对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|]转换为DialoGPT可以处理的格式;对于给定的对话,本发明将其预处理为两种格式:上下文回复对和对话序列;
具体过程为:
步骤三一、将对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|]处理为上下文回复对;具体为:
给定一个对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|],两个相邻的句子(ui-1,ui)被组合成一个上下文回复对,其中i∈[2,3,…,|D|];
步骤三二、将对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|]处理为对话序列;具体为:
将对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|]中的所有对话都序列化为对话序列D=[u1,1,...,EOS1,...,u|D|,1,...,EOS|D|]。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述预测损失及对话上下文的表示模块用于将对话预处理模块处理后的对话输入到对话预训练模块获取的对话预训练模型DialoGPT中,前向传播后分别得到单词级别和句子级别的预测损失以及对话上下文的表示形式;具体过程为:
步骤四一、对于步骤三一的每个上下文回复对,获得单词级别和句子级别的预测损失;过程为:
其中i∈[2,3,…,|D|];
将句子ui-1输入到对话预训练模块获取的对话预训练模型DialoGPT中,计算DialoGPT模型输出的预测概率分布与给定的标准(SAMSum数据集或AMI数据集中已知的对话输入DialoGPT模型输出给定的标准摘要,这里将SAMSum数据集或AMI数据集中已知的对话中的句子ui-1输入DialoGPT模型输出给定的标准回复)回复ui之间的负对数似然:
lossi,t=-logp(ui,t|ui,<t,ui-1)
其中ui,<t代表已经预测出来的部分词语序列;ui,t代表当前要预测的词语;lossi,t代表每个词语ui,t的预测损失;lossi代表每个句子ui的预测损失;t代表第t个解码步骤;
步骤四二、基于步骤三二的对话序列,获取对话上下文的表示形式;具体过程为:
利用对话预训练模块获取的对话预训练模型DialoGPT模型对对话序列D=[u1,1,...,EOS1,...,u|D|,1,...,EOS|D|]进行一次前向传递之后,获得每个词语的表示形式H;
然后,基于每个词语的表示形式H获取对话上下文的表示形式(提取每个EOS的表示);
对话预训练模型DialoGPT将句子ui-1的词序列表示为:
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述标注模块根据预测损失及对话上下文的表示模块得到的单词级别和句子级别的预测损失以及对话上下文的表示形式,将对话进行关键词提取、冗余句子检测和主题分割,得到一个标记过的对话;具体过程为:
步骤五一、关键词提取:
步骤五一一、给定一个对话D,根据步骤四一每个单词ui,t都有预测损失lossi,t;按照百分比rKE提取lossi,t较高的单词作为关键字;
步骤五一二、将对话中提到的所有说话人P的姓名添加到关键字集中;
步骤五一三、基于步骤五一二,在步骤五一一给定对话D的末尾附加一个特定的标记#KEY#,得到带有关键字注释的新对话DKE;
带有关键字注释的新对话DKE为:
其中Key1为抽取出来的第一个关键词,Key2为抽取出来的第二个关键词,以此类推;
步骤五二、冗余句检测:
DialoGPT继承了一种解码器体系结构,在该体系结构中,一个词语的表示会融合在其之前出现的所有词语的表示。因此,给定每个EOSi的表示将其视为对话上下文[u1,u2,...,ui]的表示;添加新的句子ui+1,如果新的句子表示与以前的相似,本发明认为新的句子ui+1带来的信息很少,并且对预测回复的影响也很小,因此ui+1为冗余句。
在每个冗余的句子之前插入一个特定的标签[RD];
步骤五三、主题分割:
DialoGPT擅长生成上下文一致的回复;因此,如果基于DialoGPT在给定上下文的情况下很难预测下一句回复,则本发明认为在上下文和回复之间存在一个主题分割。
给定一个对话D,根据步骤四一每个句子ui都有预测损失lossi,按照百分比rTS提取lossi较高的句子作为预测的回复,并在选定的句子之前插入主题分割点[TS];
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述步骤五一一中rKE值的确定过程为:本发明使用启发式规则来预先确定rKE的值:
给定SAMSum数据集的训练集或AMI数据集的训练集,计算训练集中删除停用词后所有摘要的长度(摘要中词的个数)除以训练集中所有对话的长度(对话中词的个数),得到rKE。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述步骤五三中rTS值的确定过程为:本发明使用启发式规则来预先确定rTS的值:
给定SAMSum数据集的训练集或AMI数据集的训练集,计算训练集中删除停用词后所有摘要的长度(摘要中词的个数)除以训练集中所有对话的长度(对话中词的个数),得到rTS。
其它步骤及参数与具体实施方式一至八之一相同。
具体实施方式十:本实施方式与具体实施方式一至九之一不同的是,所述摘要生成模块将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的SAMSum数据集和AMI数据集输入摘要生成器生成目标摘要;
当生成的目标摘要都符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入摘要生成器,生成待处理数据集的目标摘要;
当生成的目标摘要不符合要求,则重新将SAMSum数据集和AMI数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的目标摘要符合要求;
具体过程为:
本发明使用两种摘要生成器:
一种是BART[8](题目:BART:Denoising sequence-to-sequence pretraining fornatural language generation,translation,and comprehension,作者:Mike Lewis,Yinhan Liu,Naman Goyal,MarjanGhazvininejad,Abdelrahman Mohamed,Omer Levy,VeselinStoyanov,和Luke Zettlemoyer.,年份:2020年,文献引自Proceedings of the58th Annual Meeting of the Association for Computational Linguistics),这是一种基于Transformer的预训练模型;
另一个是PGN[9](题目:Get to the point:Summarization with pointergenerator networks,作者:Abigail See,Peter J.Liu,and Christopher D.Manning,年份:2017年,文献引自Proceedings of the 55th Annual Meeting of the Associationfor Computational Linguistics),这是一个基于LSTM的模型;
将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的SAMSum数据集输入BART摘要生成器,生成目标摘要;
BART采用了Transformer[10](题目:Attention is all you need,作者:AshishVaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.Gomez,Lukasz Kaiser,和IlliaPolosukhin,年份:2017年,文献引自Advances in NeuralInformation Processing Systems 30:Annual Conference on Neural InformationProcessing Systems 2017)作为基础架构;它首先将对话D映射到分布式表示形式,然后解码器将根据这些表示形式生成目标摘要;
将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的AMI数据集输入PGN摘要生成器,生成目标摘要。
PGN基于序列到序列模型Seq2Seq[11](题目:Abstractive text summarizationusing sequence-to-sequence RNNs and beyond,作者:Ramesh Nallapati,Bowen Zhou,Cicero dos Santos,and Bing Xiang,年份:2016,文献引自Proceedingsof The 20th SIGNLL Conference on Computational Natural Language Learning)和Pointer-Network[12](题目:Pointer networks,作者:Oriol Vinyals,Meire Fortunato,and Navdeep Jaitly,年份:2015年,文献引自Advances in Neural InformationProcessing Systems 28:Annual Conference on Neural Information ProcessingSystems 2015)的混合模型。
当生成的两个目标摘要都符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入BART摘要生成器或PGN摘要生成器,生成待处理数据集的目标摘要。
当生成的两个目标摘要不符合要求,则重新将SAMSum数据集和AMI数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的两个目标摘要都符合要求;
其它步骤及参数与具体实施方式一至九之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本发明对提出的模型进行了实现,同时和目前的基线模型和标准摘要进行了对比。
基线模型一:BART
基线模型二:MV-BART[13](题目:Multi-view sequence-to-sequence modelswith conversational structure for abstractive dialogue summarization,作者:Jiaao Chen和Diyi Yang,年份:2020年,文献引自Proceedings of the 2020Conferenceon Empirical Methods in Natural Language Processing)是一种基于BART的方法,其中包含主题和阶段信息。
(1)基线模型一生成的摘要:
Rob is watching the game.Bob is having a few people over.Jim'sbirthday is next Wednesday.He is going for a skiing trip with his family.Hemight organize a meetup with afew friends at some bar this weekend.Rob willlet Bob know if he can come.Bob hasn't seen Jim in person for a while.
罗布在看比赛。鲍勃有几个人了。吉姆的生日是下个星期三。他准备和家人一起滑雪。这个周末他可能会和一些朋友在一些酒吧举行聚会。Rob将让Bob知道他是否可以来。鲍勃已经有一段时间没有亲自见过吉姆了。
(2)基线模型二生成的摘要:
Bob and Rob are watching the game.Jim is going for a skiing trip withhis family next weekend.He might organize a meetup with a few friends at somebar this weekend.Bob will let him know if he wants to come.Bob hasn't seenJim in person for a while.
鲍勃和罗布正在观看比赛。吉姆下个周末要和家人一起去滑雪。这个周末他可能会和一些朋友在一些酒吧举行聚会。鲍勃会告诉他是否要来。鲍勃已经有一段时间没有亲自见过吉姆了。
(3)本发明模型生成的摘要:
Rob and Bob are watching the game.Jim is going for a skiing trip withhis family next weekend.He might organize a meetup with a few friends at somebar this weekend.Rob will let him know if he can come
罗布和鲍勃正在观看比赛。吉姆下个周末要和家人一起去滑雪。这个周末他可能会和一些朋友在一些酒吧举行聚会。罗布会告诉他是否可以来。
(4)标准摘要:
Rob and Bob are watching the game.Bob will run some errands on theweekend.Jim'sbirthday is next wednesday.He might organize a meetup thisweekend.Bob will see rob on the weekend.
罗布和鲍勃正在观看比赛。鲍勃周末要出差。吉姆的生日是下周三。他可能在这个周末组织一次聚会。鲍勃周末会见罗布。
根据以上实施例可以看出,本发明的模型可以生成与标准摘要更加相似的结果,通过基于预训练模型DialoGPT向对话中加入标注的方法,可以更好的理解对话信息。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述系统包括:
数据采集模块、对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块、摘要生成模块;
所述数据采集模块用于获取SAMSum数据集、AMI数据集;
所述对话预训练模块用于获取对话预训练模型DialoGPT;
所述对话预处理模块根据数据采集模块获取的数据集将数据集中对话处理为上下文回复对,以及将对话处理为对话序列;
所述预测损失及对话上下文的表示模块用于将对话预处理模块处理后的对话输入到对话预训练模块获取的对话预训练模型DialoGPT中,前向传播后分别得到单词级别和句子级别的预测损失以及对话上下文的表示形式;
所述标注模块根据预测损失及对话上下文的表示模块得到的单词级别和句子级别的预测损失以及对话上下文的表示形式,将对话进行关键词提取、冗余句子检测和主题分割,得到一个标记过的对话;
所述摘要生成模块将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的SAMSum数据集和AMI数据集输入摘要生成器生成目标摘要;
当生成的目标摘要符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入摘要生成器,生成待处理数据集的目标摘要;
当生成的目标摘要不符合要求,则重新将SAMSum数据集和AMI数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的目标摘要符合要求。
2.根据权利要求1所述利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述数据采集模块用于获取SAMSum数据集、AMI数据集;具体过程为:
SAMSum数据集从https://arxiv.org/abs/1911.12237获取;
AMI数据集从https://groups.inf.ed.ac.uk/ami/corpus/获取。
3.根据权利要求1或2所述利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述SAMSum数据集和AMI数据集中的对话形式化为:
每一段对话D包含|D|个句子[u1,u2,...,ui,...,u|D|];
其中i∈[1,2,3,…,|D|],EOSi代表该句的结束符号,ui,1代表第i个句子的第一个词语;
对于每一个对话D有一个对应的摘要S=[s1,s2,…,s|s|],s1代表摘要S中第一个词语,s|s|代表摘要S中第|s|个词语;
在一段对话中,每个句子ui都对应一个说话人pi;
因此最终对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|]。
4.根据权利要求3所述利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述对话预训练模块用于获取对话预训练模型DialoGPT;具体过程为:
对话预训练模型DialoGPT是一种预训练对话回复生成模型,对话预训练模型DialoGPT获取的链接为:
https://huggingface.co/transformers/model_doc/dialogpt.html?highlight= dialogpt;
利用Reddit评论链中的对话数据对DialoGPT进行训练,得到训练好的对话预训练模型DialoGPT。
5.根据权利要求4所述利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述对话预处理模块根据数据采集模块获取的数据集将数据集中对话处理为上下文回复对,以及将对话处理为对话序列;具体过程为:
步骤三一、将对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|]处理为上下文回复对;具体为:
给定一个对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|],两个相邻的句子(ui-1,ui)被组合成一个上下文回复对,其中i∈[2,3,…,|D|];
步骤三二、将对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,…,EOS|D|]处理为对话序列;具体为:
将对话D=[p1,u1,1,...,EOS1,...,p|D|,u|D|,1,...,EOS|D|]中的所有对话都序列化为对话序列D=[u1,1,...,EOS1,...,u|D|,1,...,EOS|D|]。
6.根据权利要求5所述利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述预测损失及对话上下文的表示模块用于将对话预处理模块预处理后的对话输入到对话预训练模块获取的对话预训练模型DialoGPT中,前向传播后分别得到单词级别和句子级别的预测损失以及对话上下文的表示形式;具体过程为:
步骤四一、对于步骤三一的每个上下文回复对,获得单词级别和句子级别的预测损失;过程为:
其中i∈[2,3,…,|D|];
将句子ui-1输入到对话预训练模块获取的对话预训练模型DialoGPT中,计算DialoGPT模型输出的预测概率分布与给定的标准回复ui之间的负对数似然:
lossi,t=-log p(ui,t|ui,<t,ui-1)
其中ui,<t代表已经预测出来的部分词语序列;ui,t代表当前要预测的词语;lossi,t代表每个词语ui,t的预测损失;lossi代表每个句子ui的预测损失;t代表第t个解码步骤;
步骤四二、基于步骤三二的对话序列,获取对话上下文的表示形式;具体过程为:
利用对话预训练模块获取的对话预训练模型DialoGPT模型对对话序列D=[u1,1,...,EOS1,...,u|D|,1,...,EOS|D|]进行一次前向传递之后,获得每个词语的表示形式H;
然后,基于每个词语的表示形式H获取对话上下文的表示形式;
7.根据权利要求6所述利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述标注模块根据预测损失及对话上下文的表示模块得到的单词级别和句子级别的预测损失以及对话上下文的表示形式,将对话进行关键词提取、冗余句子检测和主题分割,得到一个标记过的对话;具体过程为:
步骤五一、关键词提取:
步骤五一一、给定一个对话D,根据步骤四一每个单词ui,t都有预测损失lossi,t;按照百分比rKE提取lossi,t较高的单词作为关键字;
步骤五一二、将对话中提到的所有说话人P的姓名添加到关键字集中;
步骤五一三、基于步骤五一二,在步骤五一一给定对话D的末尾附加一个特定的标记#KEY#,得到带有关键字注释的新对话DKE;
带有关键字注释的新对话DKE为:
其中Key1为抽取出来的第一个关键词,Key2为抽取出来的第二个关键词;
步骤五二、冗余句检测:
从最后的两个对话上下文表示开始,即和计算和之间的余弦相似度;如果相似度得分超过一个预先设定的阈值则句子u|D|被检测为冗余;如果相似度得分未超过阈值则向前移动一步计算和之间的相似度,重复该过程直至到达
在每个冗余的句子之前插入一个特定的标签[RD];
步骤五三、主题分割:
给定一个对话D,根据步骤四一每个句子ui都有预测损失lossi,按照百分比rTS提取lossi较高的句子作为预测的回复,并在选定的句子之前插入主题分割点[TS];
8.根据权利要求7所述利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述步骤五一一中rKE值的确定过程为:
给定SAMSum数据集的训练集或AMI数据集的训练集,计算训练集中删除停用词后所有摘要的长度除以训练集中所有对话的长度,得到rKE。
9.根据权利要求8所述利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述步骤五三中rTS值的确定过程为:
给定SAMSum数据集的训练集或AMI数据集的训练集,计算训练集中删除停用词后所有摘要的长度除以训练集中所有对话的长度,得到rTS。
10.根据权利要求9所述利用DialoGPT作为特征标注器的对话摘要生成系统,其特征在于:所述摘要生成模块将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的SAMSum数据集和AMI数据集输入摘要生成器生成目标摘要;
当生成的目标摘要符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入摘要生成器,生成待处理数据集的目标摘要;
当生成的目标摘要不符合要求,则重新将SAMSum数据集和AMI数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的目标摘要符合要求;
具体过程为:
将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的SAMSum数据集输入BART摘要生成器,生成目标摘要;
将经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理后的AMI数据集输入PGN摘要生成器,生成目标摘要;
当生成的两个目标摘要都符合要求,则将待处理数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,处理后输入BART摘要生成器或PGN摘要生成器,生成待处理数据集的目标摘要;
当生成的两个目标摘要不符合要求,则重新将SAMSum数据集和AMI数据集经过对话预训练模块、对话预处理模块、预测损失及对话上下文的表示模块、标注模块处理,直至生成的两个目标摘要都符合要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522932.2A CN113204627B (zh) | 2021-05-13 | 2021-05-13 | 利用DialoGPT作为特征标注器的对话摘要生成系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110522932.2A CN113204627B (zh) | 2021-05-13 | 2021-05-13 | 利用DialoGPT作为特征标注器的对话摘要生成系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113204627A true CN113204627A (zh) | 2021-08-03 |
CN113204627B CN113204627B (zh) | 2022-08-23 |
Family
ID=77030972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110522932.2A Active CN113204627B (zh) | 2021-05-13 | 2021-05-13 | 利用DialoGPT作为特征标注器的对话摘要生成系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204627B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510924A (zh) * | 2022-02-14 | 2022-05-17 | 哈尔滨工业大学 | 一种基于预训练语言模型的文本生成方法 |
CN115905513A (zh) * | 2023-02-22 | 2023-04-04 | 中国科学技术大学 | 一种基于去噪式问答的对话摘要方法 |
WO2023089481A1 (en) * | 2021-11-18 | 2023-05-25 | International Business Machines Corporation | Creation of a minute from a record of a teleconference |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457483A (zh) * | 2019-06-21 | 2019-11-15 | 浙江大学 | 一种基于神经主题模型的长文本生成方法 |
CN111460109A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 摘要及对话摘要生成方法和装置 |
CN112148863A (zh) * | 2020-10-15 | 2020-12-29 | 哈尔滨工业大学 | 一种融入常识知识的生成式对话摘要方法 |
CN112417112A (zh) * | 2020-11-10 | 2021-02-26 | 中山大学 | 一种基于图表征增强的开放域对话系统评估方法 |
US20210103700A1 (en) * | 2018-02-24 | 2021-04-08 | Twenty Lane Media, LLC | Systems and Methods for Generating and Recognizing Jokes |
CN112765345A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种融合预训练模型的文本摘要自动生成方法及系统 |
CN112765344A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨工业大学 | 一种基于会议记录生成会议摘要的方法、装置及存储介质 |
-
2021
- 2021-05-13 CN CN202110522932.2A patent/CN113204627B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210103700A1 (en) * | 2018-02-24 | 2021-04-08 | Twenty Lane Media, LLC | Systems and Methods for Generating and Recognizing Jokes |
CN111460109A (zh) * | 2019-01-22 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 摘要及对话摘要生成方法和装置 |
CN110457483A (zh) * | 2019-06-21 | 2019-11-15 | 浙江大学 | 一种基于神经主题模型的长文本生成方法 |
CN112148863A (zh) * | 2020-10-15 | 2020-12-29 | 哈尔滨工业大学 | 一种融入常识知识的生成式对话摘要方法 |
CN112417112A (zh) * | 2020-11-10 | 2021-02-26 | 中山大学 | 一种基于图表征增强的开放域对话系统评估方法 |
CN112765344A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨工业大学 | 一种基于会议记录生成会议摘要的方法、装置及存储介质 |
CN112765345A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种融合预训练模型的文本摘要自动生成方法及系统 |
Non-Patent Citations (3)
Title |
---|
JINGJING LIU等: "Dialogue-oriented review summary generation for spoken dialogue recommendation systems", 《HLT "10: HUMAN LANGUAGE TECHNOLOGIES: THE 2010 ANNUAL CONFERENCE OF THE NORTH AMERICAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
YIZHE ZHANG等: "DIALOGPT : Large-Scale Generative Pre-training for Conversational Response Generation", 《HTTPS://ARXIV.ORG/ABS/1911.00536》 * |
冯骁骋等: "基于抽取的高考作文生成", 《计算机学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023089481A1 (en) * | 2021-11-18 | 2023-05-25 | International Business Machines Corporation | Creation of a minute from a record of a teleconference |
CN114510924A (zh) * | 2022-02-14 | 2022-05-17 | 哈尔滨工业大学 | 一种基于预训练语言模型的文本生成方法 |
CN115905513A (zh) * | 2023-02-22 | 2023-04-04 | 中国科学技术大学 | 一种基于去噪式问答的对话摘要方法 |
CN115905513B (zh) * | 2023-02-22 | 2023-07-14 | 中国科学技术大学 | 一种基于去噪式问答的对话摘要方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113204627B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chung et al. | Speech2vec: A sequence-to-sequence framework for learning word embeddings from speech | |
CN113204627B (zh) | 利用DialoGPT作为特征标注器的对话摘要生成系统 | |
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
KR102540774B1 (ko) | 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치 | |
US20180329883A1 (en) | Neural paraphrase generator | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
Kang et al. | English-to-Korean transliteration using multiple unbounded overlapping phoneme chunks | |
CN111859940B (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
Gosai et al. | A review on a emotion detection and recognization from text using natural language processing | |
CN107797988A (zh) | 一种基于Bi‑LSTM的混合语料命名实体识别方法 | |
Fu et al. | RepSum: Unsupervised dialogue summarization based on replacement strategy | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
Al-Azzawy et al. | Arabic words clustering by using K-means algorithm | |
Song et al. | Improving embedding-based unsupervised keyphrase extraction by incorporating structural information | |
Sarkar | Part-of-speech tagging for code-mixed indian social media text at icon 2015 | |
Abdolahi et al. | Sentence matrix normalization using most likely n-grams vector | |
Ananth et al. | Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model | |
CN113553853B (zh) | 命名实体识别方法、装置、计算机设备及存储介质 | |
CN109344388A (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
Sinha et al. | Enhancing the Performance of Part of Speech tagging of Nepali language through Hybrid approach | |
Islam et al. | Automatic authorship detection from Bengali text using stylometric approach | |
Mzamo et al. | Towards an unsupervised morphological segmenter for isiXhosa | |
CN111814456A (zh) | 一种基于动词的中文文本相似度计算方法 | |
Le | Sequence labeling approach to the task of sentence boundary detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |