CN116089601A - 对话摘要生成方法、装置、设备及介质 - Google Patents

对话摘要生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN116089601A
CN116089601A CN202310063159.7A CN202310063159A CN116089601A CN 116089601 A CN116089601 A CN 116089601A CN 202310063159 A CN202310063159 A CN 202310063159A CN 116089601 A CN116089601 A CN 116089601A
Authority
CN
China
Prior art keywords
dialogue
model
digest
abstract
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310063159.7A
Other languages
English (en)
Inventor
雷婷睿
唐海峰
张澍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202310063159.7A priority Critical patent/CN116089601A/zh
Publication of CN116089601A publication Critical patent/CN116089601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,公开了一种对话摘要生成方法、装置、设备及介质,其方法包括:获取对话文本,并将所述对话文本划分为对应的对话段落;将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落;将所述重构段落输入摘要生成模型,输出候选摘要;基于后排序模型,根据所述候选摘要,生成目标对话摘要。本发明通过结合抽取模型过程简易、内容可控的优点以及生成模型强大的文本理解能力,改善了生成式摘要的质量,提高了对话摘要内容的可控性并保持了对话摘要主题的一致性,提高了产出摘要的准确性,优化了对话数据的摘要生成效果。

Description

对话摘要生成方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种对话摘要生成方法、装置、设备及介质。
背景技术
随着近年来公司业务复杂程度的增加和服务范围的扩大,通过电话、网络文本实现与客户对话的渠道不断增加,客户服务部门所承接的客服对话数据数量迅速增长,在与用户对话结束后,需要对这些对话数据进行总结,准确概括对话内容并形成摘要,从而方便对话数据的后续使用。
传统的根据对话数据生成摘要的方法是通过人工撰写,人工撰写对话摘要的方式一般存在速度缓慢、周期长,错误率高,准确率低等问题,而对于目前通过应用AI技术根据对话数据生成对话摘要的方式则存在缺少泛化能力,难以对重要信息进行压缩统合,处理速度慢,摘要生成内容不可控,因此,对话数据的摘要生成效果差。
发明内容
本发明的主要目的在于提出一种对话摘要生成方法、装置、设备及介质,旨在优化对话摘要的生成效果。
为实现上述目的,本发明提供一种对话摘要生成方法,所述对话摘要生成方法,包括:
获取对话文本,并将所述对话文本划分为对应的对话段落;
将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落;
将所述重构段落输入摘要生成模型,输出候选摘要;
基于后排序模型,根据所述候选摘要,生成目标对话摘要。
优选地,在所述将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落的步骤之前,所述方法还包括:
获取原始对话语料;
对所述原始对话语料进行角色拼接和语句分段,生成对应的语料段落;
根据所述语料段落构建伪标签,生成对应的标签向量;
将所述标签向量作为抽取模型的训练语料,对预设的抽取基模型进行训练,构建所述对话抽取模型。
优选地,在所述将所述重构段落输入摘要生成模型,输出候选摘要的步骤之前,所述方法还包括:
选择语料样本,并获取生成基模型;
根据所述语料样本,按照多段训练方式对所述生成基模型进行自监督训练和数据精调,构建所述摘要生成模型;
根据所述语料样本对应生成的样本远程监督构造数据集,采用对比学习模型SimCLS对所述样本远程监督构造数据集进行训练,构建所述后排序模型。
优选地,所述根据所述语料样本,按照多段训练方式对所述生成基模型进行自监督训练和数据精调,构建所述摘要生成模型的步骤,包括:
选取所述语料样本中的域外标注数据,并根据所述域外标注数据对所述生成基模型进行有监督训练,得到第一生成模型;
选取所述语料样本中的域内标注数据,并根据所述域内标注数据对所述第一生成模型进行自监督训练,得到第二生成模型;
获取所述语料样本对应的训练语料数据集,并根据所述训练语料数据集对所述第二生成模型精调训练,得到目标的摘要生成模型。
优选地,所述将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落的步骤,包括:
通过所述对话抽取模型,对所述对话段落的重要度进行计算,得到所述对话段落对应的重要度概率;
将所述对话段落对应的重要度概率与所述对话抽取模型中预先设定的重要度阈值进行比对,得到重要度达到重要度阈值的对话段落;
将所述重要度达到重要度阈值的对话段落进行重要文本组合,生成对应的重构段落。
优选地,所述基于后排序模型,根据所述候选摘要,生成目标对话摘要的步骤包括:
将所述候选摘要输入所述后排序模型;
通过所述后排序模型中的排序模型,对所述候选摘要进行分值计算,输出所述候选摘要对应的排序分值;
根据所述候选摘要对应的排序分值,对所述候选摘要进行选取,确定目标对话摘要。
优选地,根据所述候选摘要对应的排序分值,对所述候选摘要进行选取,确定目标对话摘要的步骤之后,所述方法还包括:
获取当前的时效信息;
基于预设的命名实体识别NER模型,根据所述时效信息对所述目标对话摘要进行事实信息校验,获得校验后的目标对话摘要。
此外,为实现上述目的,本发明实施例还提出一种对话摘要生成装置,所述对话摘要生成装置包括:
划分模块,用于获取对话文本,并将所述对话文本划分为对应的对话段落;
抽取模块,用于将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落;
生成模块,用于将所述重构段落输入摘要生成模型,输出候选摘要;
后排序模块,用于基于后排序模型,根据所述候选摘要,生成目标对话摘要。
此外,为实现上述目的,本发明实施例还提出一种设备,所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对话摘要生成程序,所述对话摘要生成程序被所述处理器执行实现如上所述的对话摘要生成方法步骤。
此外,为实现上述目的,本发明还提供一种介质,所述介质为计算机可读存储介质,所述计算机可读存储介质上存储有对话摘要生成程序,所述对话摘要生成程序被处理器执行时实现如上所述的对话摘要生成方法的步骤。
本发明提出一种对话摘要生成方法、装置、设备及介质,所述对话摘要生成方法包括:获取对话文本,并将所述对话文本划分为对应的对话段落;将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落;将所述重构段落输入摘要生成模型,输出候选摘要;基于后排序模型,根据所述候选摘要,生成目标对话摘要。
相比于目前通过简单应用AI技术根据对话数据直接生成对话摘要的方式缺少泛化能力,难以对对话数据中的重要信息进行压缩统合,摘要内容不可控,本发明通过结合抽取模型过程简易、内容可控的优点以及生成模型强大的文本理解能力,改善了生成式摘要的质量,提高了对话摘要内容的可控性并保持了对话摘要主题的一致性,另外,本发明通过后排序模型对摘要生成模型输出的候选摘要进行重排序,进一步筛选了无重复、表述流畅的对话摘要,提升了摘要模型对重要信息压缩统合的能力,提高了产出摘要的准确性,优化了对话数据的摘要生成效果。
附图说明
图1为本发明对话摘要生成方法实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明对话摘要生成方法第一实施例的流程示意图;
图3为本发明对话摘要生成方法第二实施例的流程示意图;
图4为本发明对话摘要生成方法第三实施例的流程示意图;
图5为本发明对话摘要生成方法第三实施例中步骤S402的子流程示意图;
图6为本发明对话摘要生成方法第四实施例的流程示意图;
图7为本发明对话摘要生成方法第四实施例中另一实施方式的具体流程示意图;
图8为本发明对话摘要生成方法的对话摘要生成装置的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明对话摘要生成方法的主要实施方案:
本发明通过将以文本形式存在的对话数据进行格式化划分,得到对应的对话段落,通过将该对话段落输入抽取模型计算得到每段对话段落的重要度概率,根据对话段落对应的重要度概率,对对话段落进行文本重构,并通过将重构的重构段落输入生成模型,生成候选摘要,通过后排序模型从候选摘要中筛选目标对话摘要。
另外,本发明还包含抽取模型、生成模型和后排序模型的开发训练,通过引入大量的领域内相关语料,通过远程监督训练抽取模型,按照多段训练方式精调生成模型,基于SimCLS的重排序能力训练后排序模型,降低了在训练模型过程中需要引入的领域内标注语料数量的要求,增加了通过模型生成摘要的可用性,有效地提升了生成摘要的流畅性和准确性,优化通过模型生成摘要的生成效果,提升对话数据对应摘要的质量。
本发明的专有名词解释:
SimCLS(A Simple Framework for ContrastiveLearning of AbstractiveSummarization,基于对比学习的摘要生成框架)通过将文本生成定义为一个由对比学习辅助的无参考评估问题(即质量评估),可以弥合学习目标与当前主导的序列到序列学习框架产生的评估指标之间的差距,能够大幅度提高现有顶级模型的性能。具体地,在摘要生成模型的基础上增加了一个摘要结果排序模型,用于挑选更加符合人类要求的摘要,在对摘要排序模型的训练时使用了对比学习的思想,从对比损失函数构建了排序损失函数。
现有的对样本数据进行选取的技术手段:
传统的人工撰写方法,通过人工阅读对话数据,对对话数据进行内容理解之后撰写对应的对话摘要;应用AI技术自动进行摘要生成的方法则是通过将对话数据输入复杂模型,选取对话数据中的信息进行组合生成摘要。
采用上述现有技术手段存在以下问题:
1)传统的人工撰写方式速度缓慢、周期长,人工撰写过程中错误率高、准确率低;
2)应用AI技术自动进行摘要生成则是难以针对对话数据中的重要信息进行压缩统合,处理速度慢,处理效果差;
3)在客服应用场景,针对对话内容较长,包含主题多的对话数据,难以生成主题一致的对话摘要,摘要内容难以把控;
4)对话数据通过ASR转译形成对话文本,转译过程中杂音、重复以及关键词错误识别等问题导致摘要错误、不流畅;
5)自动生成摘要是通过获取领域内的标注数据,充分利用领域外和领域内的标注数据以及无标注数据对模型进行训练,构建摘要生成模型,对标注数据的要求高,难以实现。
因此,本发明提出一种对话摘要生成方法,在模型训练阶段,分别训练了抽取模型、生成模型和后排序模型。在抽取模型的训练中,使用远程监督方式构造伪标签,训练BERT+DGCNN模型,设定阈值确保关键句召回率;在生成模型的训练中,使用多段训练方式分别对生成模型进行后训练和精调,后训练过程采用自监督方式,基于大量对话语料训练使模型实现从篇章摘要到对话摘要的迁移,提高生成文本的流畅度和抗噪能力;通过使用对比学习方法训练后排序模型,进一步筛选无重复、表述流畅的对话摘要。通过结合抽取模型过程简易、内容可控的优点以及生成模型强大的文本理解能力,改善了生成式摘要的质量,提高了对话摘要内容的可控性并保持了对话摘要主题的一致性,另外,本发明通过抽取模型获取对话段落对应的重要度概率,并根据对话段落的重要度概率进行文本的重构,提升了摘要模型对重要信息压缩统合的能力,提高了产出摘要的准确性,优化了对话数据的摘要生成效果。
具体地,参照图1,图1为本发明对话摘要生成方法实施例方案涉及的硬件运行环境的设备结构示意图。
参照图1,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
其中,存储器1005中存储有操作系统以及对话摘要生成程序,上述对话摘要生成程序被处理器执行时实现以下步骤:
获取对话文本,并将所述对话文本划分为对应的对话段落;
将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落;
将所述重构段落输入摘要生成模型,输出候选摘要;
基于后排序模型,根据所述候选摘要,生成目标对话摘要。
进一步地,存储器1005中的对话摘要生成程序被处理器执行时还实现以下步骤:
获取原始对话语料;
对所述原始对话语料进行角色拼接和语句分段,生成对应的语料段落;
根据所述语料段落构建伪标签,生成对应的标签向量;
将所述标签向量作为抽取模型的训练语料,对预设的抽取基模型进行训练,构建所述对话抽取模型。
进一步地,存储器1005中的对话摘要生成程序被处理器执行时还实现以下步骤:
选择语料样本,并获取生成基模型;
根据所述语料样本,按照多段训练方式对所述生成基模型进行自监督训练和数据精调,构建所述摘要生成模型;
根据所述语料样本对应生成的样本远程监督构造数据集,采用对比学习模型SimCLS对所述样本远程监督构造数据集进行训练,构建所述后排序模型。
进一步地,存储器1005中的对话摘要生成程序被处理器执行时还实现以下步骤:
选取所述语料样本中的域外标注数据,并根据所述域外标注数据对所述生成基模型进行有监督训练,得到第一生成模型;
选取所述语料样本中的域内标注数据,并根据所述域内标注数据对所述第一生成模型进行自监督训练,得到第二生成模型;
获取所述语料样本对应的训练语料数据集,并根据所述训练语料数据集对所述第二生成模型精调训练,得到目标的摘要生成模型。
进一步地,存储器1005中的对话摘要生成程序被处理器执行时还实现以下步骤:
通过所述对话抽取模型,对所述对话段落的重要度进行计算,得到所述对话段落对应的重要度概率;
将所述对话段落对应的重要度概率与所述对话抽取模型中预先设定的重要度阈值进行比对,得到重要度达到重要度阈值的对话段落;
将所述重要度达到重要度阈值的对话段落进行重要文本组合,生成对应的重构段落。
进一步地,存储器1005中的对话摘要生成程序被处理器执行时还实现以下步骤:
将所述候选摘要输入所述后排序模型;
通过所述后排序模型中的排序模型,对所述候选摘要进行分值计算,输出所述候选摘要对应的排序分值;
根据所述候选摘要对应的排序分值,对所述候选摘要进行选取,确定目标对话摘要。
进一步地,存储器1005中的对话摘要生成程序被处理器执行时还实现以下步骤:
获取当前的时效信息;
基于预设的命名实体识别NER模型,根据所述时效信息对所述目标对话摘要进行事实信息校验,获得校验后的目标对话摘要。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
基于上述终端设备架构但不限于上述架构,提出本发明对话摘要生成方法实施例。
具体地,参照图2,图2为本发明对话摘要生成方法第一实施例的流程示意图,所述对话摘要生成方法包括:
步骤S10,获取对话文本,并将所述对话文本划分为对应的对话段落;
需要说明的是,在本实施例中,对话摘要生成方法可以应用于客户服务对话场景,当通过电话与客户进行对话时,通过语音转写ASR模型获取与当前通话对应的对话文本;当客户服务通过网络文本与客户进行对话时,则直接将对话的网络文本进行整理,获取对话文本。
进一步地,将获取到的对话文本进行角色拼接和语句分段,具体地,根据对话文本中不同的角色对对话文本进行分类,将对话文本中的内容拼接至对话角色后,实现对话文本的格式统一,并将格式统一后的对话文本按照可调整设置的长度阈值进行段落划分,得到对话段落,示例性地,例如,划分拼接后的对话段落格式可以是:role1:text1;role2:text2;role1:text3,其中,role1:text1是对话段落的连接方式。
步骤S20,将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落;
可选地,所述将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落的步骤,包括:
通过所述对话抽取模型,对所述对话段落的重要度进行计算,得到所述对话段落对应的重要度概率;
将所述对话段落对应的重要度概率与所述对话抽取模型中预先设定的重要度阈值进行比对,得到重要度达到重要度阈值的对话段落;
将所述重要度达到重要度阈值的对话段落进行重要文本组合,生成对应的重构段落。
需要说明的是,在本实施例中,通过将格式标准化的对话段落输入至预先构建的对话抽取模型中进行重要信息筛选,对话段落的重要信息筛选的方式可以是通过计算每一对话段落在全文对话段落中相对的重要度概率,根据该对话段落对应的重要度概率,筛选在当前全文对话段落中相对重要的对话段落。
示例性地,本实施例通过将划分好的对话段落{d1,d2,d3...}都输入预先构建的抽取模型M1,基于该抽取模型计算每段对话段落的重要度概率,输出对话段落{d1,d2,d3...}对应的重要度概率{p1,p2,p3...}。其中,对话段落d1的格式可以是:role:text,对应的重要度概率p1是指对话段落d1在当前对话文本中相对的重要度概率。
需要进行具体解释的是,对话段落的重要度概率是指从事故树的结构中分析各事件的重要程度,通过利用顶上事件发生概率Q函数是一个多重线性函数这一性质,对作为自变量的对话段落进行偏导数计算,得到对话段落对应的重要度概率。
进一步地,通过对话抽取模型计算对话段落每一段落的重要度概率,根据对话段落对应的重要度概率筛选出重要度达到预设标准的对话段落,并将重要度达到预设标准的对话段落进行文本重构,实现对对话文本中重要信息的重新组合,构建包含更多关键信息的重构段落,有助于抽取出对话段落中的关键信息,生成更加准确的对话摘要。
需要说明的是,在本实施例中,根据对话段落对应的重要度概率筛选出重要度达到预设标准的对话段落主要是通过将对话段落的重要度概率与预设的重要度阈值进行比对,实现根据重要度概率对对话段落的筛选,确定在当前全文对话段落中相对重要的对话段落,并通过该重要度概率达到预设阈值的对话段落组成包含重要信息的重构段落。
示例性地,在本实施例中,对话摘要生成方法可以应用于客户服务对话场景,将对话段落{d1,d2,d3...}对应的重要度概率{p1,p2,p3...},与预设的重要度阈值px进行比较,筛选出重要度超过预设阈值px的对话段落{dx,dy...},并且根据筛选后的对话段落{dx,dy...}进行文本重构,重构的方式是通过将重要度超过预设阈值的对话段落{dx,dy...}进行组合,构成重构段落“dx+dy+...”。
步骤S30,将所述重构段落输入摘要生成模型,输出候选摘要;
需要说明的是,在本实施例中,通过将文本重构后包含对话段落中重要信息的重构段落输入预先构建的摘要生成模型,通过该摘要生成模型根据重构段落构建若干数量的摘要文本,而该摘要文本是摘要生成模型用于选择目标对话摘要的候选摘要。
示例性地,将重构的重构段落“dx+dy+...”输入预先训练的摘要生成模型T5-4,通过摘要生成算法的文本构建,生成10篇候选摘要{S1,S2,S3...}用于选取目标对话摘要。
步骤S40,基于后排序模型,根据所述候选摘要,生成目标对话摘要。
需要说明的是,在本实施例中,通过在摘要生成模型中加入后排序模型对这些若干数量的候选摘要进行摘要打分,得到每段候选摘要的排序分数后,根据该排序分数对候选摘要进行排序,选取最优的对话摘要作为最终的目标对话摘要。
示例性地,本实施例通过后排序模型M2,使用SimCLS模型的排序规则,将候选对话摘要{S1,S2,S3...}按照顺序排序ROUGE-1算法进行打分,得到每段候选摘要的排序分值,根据排序分值对候选摘要进行选取,具体地,候选摘要的选取方式可以是结合Top_p采样与Beam search,确定最终的目标对话摘要Sx,其中,后排序模型是生成模型生成候选摘要后对候选摘要进行评价的模型,解决了模型训练目标和认为评价指标不一致的问题,根据排序损失函数筛选出分数更高的候选摘要,使得最终选取的目标对话摘要更加符合人类规则,并将分数较高的候选摘要作为目标对话摘要,提升了最终确定的目标对话摘要的质量,提高了对话摘要的总结效果。
本发明通过结合抽取模型过程简易、内容可控的优点以及生成模型强大的文本理解能力,改善了生成式摘要的质量,提高了对话摘要内容的可控性并保持了对话摘要主题的一致性,另外,本发明通过抽取模型获取对话段落对应的重要度概率,并根据对话段落的重要度概率进行文本的重构,提升了摘要模型对重要信息压缩统合的能力,提高了产出摘要的准确性,优化了对话数据的摘要生成效果。
进一步地,基于本申请实施例对话摘要生成方法的第一实施例,提出本申请实施例对话摘要生成方法的第二实施例。
对话摘要生成方法的第二实施例与对话摘要生成方法的第一实施例的区别在于,本实施例在步骤S20,将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落之前,所述方法还包括在训练阶段构建对话抽取模型的方案,参照图3,具体包括:
步骤S201,获取原始对话语料;
需要说明的是,在本实施例中,通过客户服务部门通过电话、网络文本等渠道获取的对话文本作为原始对话语料,可选地,原始对话语料是从不断复杂的业务和承接的业务,根据各个渠道获取的各种对话的对话文本。
步骤S202,对所述原始对话语料进行角色拼接和语句分段,生成对应的语料段落;
需要说明的是,在本实施例中,将获取到的原始对话语料进行格式标准化的处理,通过将对话角色评级到对话文本前,构建语料段落,具体地,格式标准化处理后的对话文本通过人工标注确认原始对话语料的对话内容以及对话标注,示例性地,例如,一段具体应用场景的语料段落在格式标准化处理之后格式如下:客服1:text1;用户2:text2;客服1:text3。
步骤S203,根据所述语料段落构建伪标签,生成对应的标签向量;
在本实施例中,将分段后的语料段落按照文本长度进行分段,分段过程中需要每段语料段落都包含完整的语句,分段后构建分段序列,并分别计算将语料段落与语料序列的分值,生成语料段落对应的标签向量。
示例性地,例如,语料段落文本按长度L分段为{D1,D2 ...},如果语料段落{s1,s2, s3..., sn}句长大于L,则将语料段落截断到sn-1,使其长度不大于L,并进一步地通过人工将完成分段的语料段落进行分句,生成语料序列{S1,S2...}。根据计算得到的语料序列分别计算语料序列Si与语料段落Dn的ROUGE-1标签得分,给得分更高的分段对应的标签设置为1,循环i次,直到语料段落与按L长度分段的语料序列完成对比,得到语料段落{D1,D2,...Dn}对应的标签向量{1,0,1...},并将该语料段落对应的标签向量作为抽取模型的训练语料。
步骤S204,将所述标签向量作为抽取模型的训练语料,对预设的抽取基模型进行训练,构建所述对话抽取模型。
需要说明的是,在本实施例中,选取BERT+DGCNN模型作为抽取基模型,根据构建伪标签生成的标签向量进行模型训练,构建抽取模型M1。其中,标签向量作为根据语料段落构建伪标签生成的标签向量,通过远程监督的方式灵活调节标签向量的比对阈值,提升了当标签向量作为训练语料时,提高了抽取模型的关键句召回率。
需要说明的是,在本实施例中,BERT+DGCNN模型是指中文事件抽取模型,以中文事件抽取模型作为抽取模型的基模型将深度学习方法应用于事件抽取,采用预训练的词向量的同时融入对于单词的语义语法的建模,将不可计算、非结构化的词转化为可计算、结构化的向量,将每个词映射到唯一的向量,从而表示词与词之间的一对一关系。
在本实施例中,通过远程监督训练抽取模型,有效缩短生成模型的输入长度,提高生成摘要的话题相关度,有效地把控对于对话内容长、主题多的对话数据,提升了生成摘要的流畅性和准确性,针对生成摘要存在片段重复以及事实性错误问题。
进一步地,基于本申请实施例对话摘要生成方法的第一、第二实施例,提出本申请实施例对话摘要生成方法的第三实施例。
对话摘要生成方法的第三实施例与对话摘要生成方法的第一、第二实施例的区别在于,本实施例是在步骤S40,基于后排序模型,根据所述候选摘要,生成目标对话摘要之前,所述方法还包括构建生成模型和后排序模型的方案,参照图4,具体包括:
步骤S401,选择语料样本,并获取生成基模型;
需要说明的是,在本实施例中,选择语料样本为包括新闻摘要数据的文本数据集,通过非对话的文本数据对生成基模型进行摘要生成训练,提高生成模型的摘要生成能力,另外,选择生成模型T5作为生成基模型根据语料样本进行训练,示例性地,例如,本实施例选择语料样本包括新闻摘要数据集20W篇。
步骤S402,根据所述语料样本,按照多段训练方式对所述生成基模型进行自监督训练和数据精调,构建所述摘要生成模型;
需要说明的是,本实施例通过将大量的无标注摘要数据对生成模型T5进行训练,并选取少量精度高的域内样本数据对训练后的T5模型进行进一步的数据精调,以提升生成模型在针对对话数据生成摘要时的流畅度和准确度。
进一步地,参照图5,步骤S402,根据所述语料样本,按照多段训练方式对所述生成基模型进行自监督训练和数据精调,构建所述摘要生成模型具体包括:
步骤S4021,选取所述语料样本中的域外标注数据,并根据所述域外标注数据对所述生成基模型进行有监督训练,得到第一生成模型;
需要说明的是,在本实施例中,大量的域外标注数据可以是在本领域外的摘要生成数据以及实际应用场景中的对话摘要数据,根据域外标注数据按照自监督方式对生成基模型T5进行数据训练,构建第一生成模型。
示例性地,通过使用1W篇CSDS数据集和900篇客服投诉数据集进行自监督post-train,具体地,训练方式是对对话数据中的分段文本采用mask掉部分词、随机交换部分词、随机交换相邻句、随机插入部分词语生成新文本,并且将这些整理处理过的新文本作为输入,使生成基模型T5能够预测原文,并通过训练得到第一生成模型T5-2,T5-2具备预测原文的能力。
步骤S4022,选取所述语料样本中的域内标注数据,并根据所述域内标注数据对所述第一生成模型进行自监督训练,得到第二生成模型;
进一步地,需要说明的是,域内标注数据是指在本领域内选取对话的标注数据,并且根据这些本领域内的标注数据对已进行初步训练的第一生成模型进行进一步地领域内数据自监督训练。
示例性地,通过使用CSDS标注数据以及客服域内标注数据对第一生成模型T5-2进行篇章摘要生成的有监督训练,在篇章摘要生成训练后得到第二生成模型T5-3,T5-3具备根据文本数据自动生成篇章摘要的能力。
步骤S4023,获取所述语料样本对应的训练语料数据集,并根据所述训练语料数据集对所述第二生成模型精调训练,得到目标的摘要生成模型。
进一步地,根据领域内的训练语料数据集对第二生成模型T5-3进行进一步地精调训练,得到生成模型T5-4,其中,在本实施例中,训练语料数据集混合了三种训练语料,具体地,采用整篇对话文本生成整篇摘要的标注数据,使用关键信息生成对应段落摘要的标注数据以及使用所有抽取出的关键信息生成整篇摘要的标注数据。
示例性地,通过使用客服人工标注数据对应的三种类型标注数据对第二生成模型T5-3进行精调得到生成模型T5-4。在本实施例中,通过语料样本中的人工标注数据对第二生成模型进行精调训练的训练样本数据分为整通对话和对应的标注数据、对话关键段和对应的标注数据,以及对话段落中抽取的关键信息和对应的标注数据。
步骤S403,根据所述语料样本对应生成的样本远程监督构造数据集,采用对比学习模型SimCLS对所述样本远程监督构造数据集进行训练,构建所述后排序模型。
需要说明的是,在本实施例中,后排序模型的训练过程,通过采用垂直化领域内的标注样本数据对模型进行远程监督的训练,另外,通过引入人工的评价指标,利用对比学习的概念构建排序损失函数,基于该排序损失函数构建后排序模型。其中,远程监督是指对根据样本数据生成的待选摘要进行ROGUE值评分,根据样本数据与标注数据具体的分值进行数据训练,具体地,将待选摘要的ROGUE值与真实标注的参考摘要的ROGUE值进行比对,构造排序模型并且构造数据集,最后根据该排序模型以及数据集实现远程监督训练。
示例性地,选择CSDS客服投诉数据集,使用SimCLS模型的规则输入包括整通对话原文,人工标注摘要的样本数据进行重排序,SimCLS中的对话编码器选择T5编码器端,通过训练得到后排序模型SimCLS模型M2。
本实施例通过自监督学习方法利用大量无标注数据进行训练,再结合少量域内样本进行精调,在域内标注样本量较少的情况下,有效提升生成摘要的流畅性和准确性,针对生成摘要存在片段重复以及事实性错误问题,使用SimCLS结合规则进行重排序,筛选摘要重复、标书部舒畅的对话摘要,优化摘要生成的效果。
进一步地,基于本申请实施例对话摘要生成方法的第一、第二、第三实施例,提出本申请实施例对话摘要生成方法的第四实施例。
对话摘要生成方法的第四实施例与对话摘要生成方法的第一、第二、第三实施例的区别在于,本实施例是对步骤S40,基于后排序模型,根据所述候选摘要,生成目标对话摘要的细化,参照图6,具体包括:
步骤S41,将所述候选摘要输入所述后排序模型;
步骤S42,通过所述后排序模型中的排序模型,对所述候选摘要进行分值计算,输出所述候选摘要对应的排序分值;
步骤S43,根据所述候选摘要对应的排序分值,对所述候选摘要进行选取,确定目标对话摘要。
需要说明的是,在本实施例中,为该通对话生成的10篇候选摘要,选取候选摘要的方式为结合top_p采样与beam search,排序的目标是使用候选摘要与人工摘要的ROUGE-L值顺序,通过根据对比学习概念构建的排序损失函数对候选摘要进行计分与分数排序,从而使得分数最高的摘要最接近参考摘要结果,并筛选出得分最高的候选摘要,使得排序出的最高分的候选摘要是最符合人类评价标准的摘要,该方法使得筛选出的对话摘要更加稳定,质量更高,有效性更强。
进一步地,参照图7,在步骤S40,基于预设的后排序模型,根据所述候选摘要确定目标对话摘要之后,所述方法还包括对对话摘要进行校验的方案,具体包括:
步骤S411,获取当前的时效信息;
步骤S412,基于预设的命名实体识别NER模型,根据所述时效信息对所述目标对话摘要进行事实信息校验,获得校验后的目标对话摘要。
需要说明的是,在本实施例中,基于预设的命名实体识别NER模型根据上述生成的时效信息对对话摘要进行事实信息校验,具体地,主要使用抽取模型中得到的时效信息部分结合NER模型对对话数据的回复时效进行部分校正,获得最终摘要。
本实施例通过对已生成的对话摘要进行校验,得到事实信息校验后的目标对话摘要,提升了对话摘要的准确性和有效性。
此外,本发明实施例还提出一种对话摘要生成装置,参照图8,图8为本发明对话摘要生成方法实施例方案涉及的对话摘要生成装置的功能模块示意图。如图8所示,所述对话摘要生成装置包括:
划分模块10,用于获取对话文本,并将所述对话文本划分为对应的对话段落;
抽取模块20,用于将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落;
生成模块30,用于将所述重构段落输入摘要生成模型,输出候选摘要;
后排序模块40,用于基于后排序模型,根据所述候选摘要,生成目标对话摘要。
本实施例实现对话摘要生成方法的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本发明实施例还提出一种设备,所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对话摘要生成程序,所述对话摘要生成程序被所述处理器执行时实现如上述实施例所述的对话摘要生成方法的步骤。
此外,为实现上述目的,本发明还提供一种介质,所述介质为计算机可读存储介质,所述计算机可读存储介质上存储有对话摘要生成程序,所述对话摘要生成程序被处理器执行时实现如上所述的对话摘要生成方法的步骤。
由于本对话摘要生成程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品储存在如上所述的一个储存介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种对话摘要生成方法,其特征在于,所述对话摘要生成方法,包括:
获取对话文本,并将所述对话文本划分为对应的对话段落;
将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落;
将所述重构段落输入摘要生成模型,输出候选摘要;
基于后排序模型,根据所述候选摘要,生成目标对话摘要。
2.如权利要求1所述的对话摘要生成方法,其特征在于,在所述将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落的步骤之前,所述方法还包括:
获取原始对话语料;
对所述原始对话语料进行角色拼接和语句分段,生成对应的语料段落;
根据所述语料段落构建伪标签,生成对应的标签向量;
将所述标签向量作为抽取模型的训练语料,对预设的抽取基模型进行训练,构建所述对话抽取模型。
3.如权利要求1所述的对话摘要生成方法,其特征在于,在所述将所述重构段落输入摘要生成模型,输出候选摘要基于预设的生成模型,根据所述重构段落生成候选摘要,并基于预设的后排序模型,根据所述候选摘要生成对应的对话摘要的步骤之前,所述方法还包括:
选择语料样本,并获取生成基模型;
根据所述语料样本,按照多段训练方式对所述生成基模型进行自监督训练和数据精调,构建所述摘要生成模型;
根据所述语料样本对应生成的样本远程监督构造数据集,采用对比学习模型SimCLS对所述样本远程监督构造数据集进行训练,构建所述后排序模型。
4.如权利要求3所述的对话摘要生成方法,其特征在于,所述根据所述语料样本,按照多段训练方式对所述生成基模型进行自监督训练和数据精调,构建所述摘要生成模型的步骤,包括:
选取所述语料样本中的域外标注数据,并根据所述域外标注数据对所述生成基模型进行有监督训练,得到第一生成模型;
选取所述语料样本中的域内标注数据,并根据所述域内标注数据对所述第一生成模型进行自监督训练,得到第二生成模型;
获取所述语料样本对应的训练语料数据集,并根据所述训练语料数据集对所述第二生成模型精调训练,得到目标的摘要生成模型。
5.如权利要求1所述的对话摘要生成方法,其特征在于,所述将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落的步骤,包括:
通过所述对话抽取模型,对所述对话段落的重要度进行计算,得到所述对话段落对应的重要度概率;
将所述对话段落对应的重要度概率与所述对话抽取模型中预先设定的重要度阈值进行比对,得到重要度达到重要度阈值的对话段落;
将所述重要度达到重要度阈值的对话段落进行重要文本组合,生成对应的重构段落。
6.如权利要求1所述的对话摘要生成方法,其特征在于,所述基于后排序模型,根据所述候选摘要,生成目标对话摘要的步骤包括:
将所述候选摘要输入所述后排序模型;
通过所述后排序模型中的排序模型,对所述候选摘要进行分值计算,输出所述候选摘要对应的排序分值;
根据所述候选摘要对应的排序分值,对所述候选摘要进行选取,确定目标对话摘要。
7.如权利要求6所述的对话摘要生成方法,其特征在于,在所述根据所述候选摘要对应的排序分值,对所述候选摘要进行选取,确定目标对话摘要的步骤之后,所述方法还包括:
获取当前的时效信息;
基于预设的命名实体识别NER模型,根据所述时效信息对所述目标对话摘要进行事实信息校验,获得校验后的目标对话摘要。
8.一种对话摘要生成装置,其特征在于,所述对话摘要生成装置包括:
划分模块,用于获取对话文本,并将所述对话文本划分为对应的对话段落;
抽取模块,用于将所述对话段落输入对话抽取模型,输出所述对话段落对应的重要度概率,并根据所述重要度概率,生成重构段落;
生成模块,用于将所述重构段落输入摘要生成模型,输出候选摘要;
后排序模块,用于基于后排序模型,根据所述候选摘要,生成目标对话摘要。
9.一种设备,其特征在于,所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的对话摘要生成程序,所述对话摘要生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的对话摘要生成方法。
10.一种介质,所述介质为计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有对话摘要生成程序,所述对话摘要生成程序被处理器执行时实现如权利要求1至7中任一项所述的对话摘要生成方法的步骤。
CN202310063159.7A 2023-01-16 2023-01-16 对话摘要生成方法、装置、设备及介质 Pending CN116089601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310063159.7A CN116089601A (zh) 2023-01-16 2023-01-16 对话摘要生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310063159.7A CN116089601A (zh) 2023-01-16 2023-01-16 对话摘要生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116089601A true CN116089601A (zh) 2023-05-09

Family

ID=86206000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310063159.7A Pending CN116089601A (zh) 2023-01-16 2023-01-16 对话摘要生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116089601A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591666A (zh) * 2024-01-18 2024-02-23 交通运输部公路科学研究所 针对桥梁管养文档的摘要抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591666A (zh) * 2024-01-18 2024-02-23 交通运输部公路科学研究所 针对桥梁管养文档的摘要抽取方法
CN117591666B (zh) * 2024-01-18 2024-05-10 交通运输部公路科学研究所 针对桥梁管养文档的摘要抽取方法

Similar Documents

Publication Publication Date Title
KR102401942B1 (ko) 번역품질 평가 방법 및 장치
CN111651996B (zh) 摘要生成方法、装置、电子设备及存储介质
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
US11907665B2 (en) Method and system for processing user inputs using natural language processing
CN117609444B (zh) 一种基于大模型的搜索问答方法
CN111666764B (zh) 一种基于XLNet的自动摘要方法与装置
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN113035199B (zh) 音频处理方法、装置、设备及可读存储介质
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
WO2020052061A1 (zh) 用于处理信息的方法和装置
US20200394258A1 (en) Generation of edited transcription for speech audio
CN110517668A (zh) 一种中英文混合语音识别系统及方法
CN113343108A (zh) 推荐信息处理方法、装置、设备及存储介质
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
CN116089601A (zh) 对话摘要生成方法、装置、设备及介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN117711376A (zh) 语种识别方法、系统、设备及存储介质
CN116432653A (zh) 一种多语种数据库的构建方法、装置、存储介质及设备
CN111949777A (zh) 一种基于人群分类的智能语音对话方法、装置及电子设备
CN115132182A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
CN113744737B (zh) 语音识别模型的训练、人机交互方法、设备和存储介质
US20220215834A1 (en) System and method for speech to text conversion
Coats Building a searchable online corpus of Australian and New Zealand aligned speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination