CN113626582A - 基于内容选择和融合的两阶段摘要生成方法及系统 - Google Patents

基于内容选择和融合的两阶段摘要生成方法及系统 Download PDF

Info

Publication number
CN113626582A
CN113626582A CN202110775512.5A CN202110775512A CN113626582A CN 113626582 A CN113626582 A CN 113626582A CN 202110775512 A CN202110775512 A CN 202110775512A CN 113626582 A CN113626582 A CN 113626582A
Authority
CN
China
Prior art keywords
abstract
instance
sentence
score
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110775512.5A
Other languages
English (en)
Other versions
CN113626582B (zh
Inventor
周刚
章梦礼
黄宁博
卢记仓
兰明敬
陈烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202110775512.5A priority Critical patent/CN113626582B/zh
Publication of CN113626582A publication Critical patent/CN113626582A/zh
Application granted granted Critical
Publication of CN113626582B publication Critical patent/CN113626582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理技术领域,特别涉及一种基于内容选择和融合的两阶段摘要生成方法及系统,统计文档文本数据集,通过滑动窗口提取单句及相邻句子对,组成实例集合;依据参考摘要,选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型;针对目标文档,通过滑动窗口提取由单句及相邻句子对组成的目标实例集合,并利用训练优化后的编码解码器模型生成目标文档的摘要信息。本发明从输入文本中提取单个句子和相邻若干个句子来组成实例集合,并利用微调的BERT分类器去选择具有高信息性和事实正确性的实例作为摘要候选通过编码解码器模型生成摘要句子,显著提高生成摘要的效率、可读性、简洁性和事实正确性。

Description

基于内容选择和融合的两阶段摘要生成方法及系统
技术领域
本发明属于自然语言处理技术领域,特别涉及一种基于内容选择和融合的两阶段摘要生成方法及系统。
背景技术
随着互联网的普及和发展,网上的文本数据不断累积,信息过载问题变得越来越严重,如何快速,完整和准确地从大规模数据中搜索所需信息,并快速获取信息要点成为一个迫在眉睫的问题。因此,对各类文本数据进行“降维”处理成为必要。在大数据时代,自动摘要系统为大规模文本数据的快速处理提供了有效的解决方案。
自动文本摘要系统的主要目的是在保留原始输入的主旨的同时,生成简洁、可读性强和事实正确的摘要。目前主要存在两种自动文本摘要技术:抽取式和生成式。抽取式文本摘要技术直接从原文中选择重要的句子或者短语来构成摘要,可以看作是对原文的简单压缩。生成式文本摘要技术在充分理解原文的基础上,来进行总结和生成,能够生成原文中不存在的新单词和短语。与抽取式方法相比,生成式方法更接近人类撰写摘要的方式。因此,近年来随着深度学习和神经网络技术的发展,生成式摘要逐渐成为主流。但是,生成式摘要也带来了更多的挑战。它必须首先完全理解输入文本的语义信息,然后裁剪、压缩、修改和融合原始文本中的句子,这对于机器来说仍然是一项非常困难的工作。因此,由机器生成的摘要经常存在与原文事实不一致的内容,并且研究发现由生成式系统生成的摘要中有大约30%的摘要存在事实性错误。事实上,对于自然语言处理领域的下游任务,例如数据挖掘、推荐系统和信息检索等,如果生成的摘要中存在如此多的事实性错误,那么将会是毫无用处的。然而,早先的研究主要专注于从语言学上优化模型,以提高生成的摘要的信息性(包含原文中的主旨),这固然取得了较高的ROUGE得分,但是摘要中的一些事实却与原文相悖,这直接决定了生成的摘要的可用性。
近年来,在自然语言生成领域,基于关键信息提取的内容选择方法和基于强化学习的训练方法取得了很好的效果,得到了广泛关注。前者能够直接从输入文本中选择出包含原文主旨的内容以供下游任务使用,后者通过在损失函数中增加奖励得分来控制模型的生成方向。但是,一方面目前在进行内容选择时仍然没有考虑所选择的内容包含的事实是否是原文所关注的事实,导致引入了冗余事实;另一方面,事实性得分奖励的设计和构造在强化学习中仍然是一个难点。综上所述,如何在生成式摘要模型中融合这两种方法的优点,并且设计一个高效的事实正确性得分函数是未来一个重要的研究方向。
发明内容
为此,本发明提供一种基于内容选择和融合的两阶段摘要生成方法及系统,以提高生成的摘要的可读性、简洁性和事实正确性,便于在大数据、人工智能等领域中数据提炼总结处理。
按照本发明所提供的设计方案,一种基于内容选择和融合的两阶段摘要生成方法,包含:
统计文档文本数据集,通过滑动窗口提取单句及相邻句子对,组成实例集合;
依据参考摘要,选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型;
针对目标文档,通过滑动窗口提取由单句及相邻句子对组成的目标实例集合,并利用训练优化后的编码解码器模型生成目标文档的摘要信息。
作为本发明基于内容选择和融合的两阶段摘要生成方法,进一步地,提取单句及相邻句子对中,通过设定滑动窗口尺寸大小,从目标文档文本数据集中提取多个相邻句子,并通过移动滑动窗口来获取若干相邻句子对;并依次增加单句来提取目标文档文本数据集中所有单句的相邻句子对。
作为本发明基于内容选择和融合的两阶段摘要生成方法,进一步地,选取候选摘要实例中,利用实例集合中实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合,并利用带标签的实例集合优化BERT分类器;利用优化后的BERT分类器从摘要-实例对集合中选取候选摘要实例。
作为本发明基于内容选择和融合的两阶段摘要生成方法,进一步地,利用实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合,依据得分函数从实例集合中选取与参考摘要得分最高的实例,并从参考摘要句子中删除该得分最高的实例中的单词,生成新的参考摘要;基于新的参考摘要和得分情况依次从实例集合中选取下一个实例,最终得到摘要-实例对集合,并依据实例能否生成摘要来获取带标签的实例集合。
作为本发明基于内容选择和融合的两阶段摘要生成方法,进一步地,得分函数表示为:f(Ii,sm)=λ1R(Ii,sm)+λ2E(Ii,sm),其中,R(Ii,sm)表示ROUGE得分,E(Ii,sm)是蕴含得分,λ1∈[0,1]、λ2∈[0,1]表示信息性和事实正确性的平衡因子,并且λ12=1,Ii表示实例集合中选择的序号为i的实例,sm表示参考摘要句子。
作为本发明基于内容选择和融合的两阶段摘要生成方法,进一步地,选取候选摘要实例中,采用最大边缘相关性MMR原则选择得分最高的实例,其中,选择得分计算公式表示为:
Figure BDA0003154646640000021
P(I)表示BERT分类器输出得分,μ表示平衡因子,
Figure BDA0003154646640000022
由事实冗余和n-gram冗余组成的冗余分数,且
Figure BDA0003154646640000023
是候选实例I和部分参考摘要
Figure BDA0003154646640000024
之间的余弦相似性,
Figure BDA0003154646640000025
候选实例I和部分参考摘要
Figure BDA0003154646640000026
之间的事实一致性得分。
作为本发明基于内容选择和融合的两阶段摘要生成方法,进一步地,编码解码器模型训练优化中,利用强化学习策略优化编码解码器模型的混合目标学习函数,其中,混合目标学习函数表示为:
Figure BDA0003154646640000027
λ表示缩放因子且λ∈[0,1],
Figure BDA0003154646640000028
作为条件语言模型来控制生成摘要的可读性,
Figure BDA0003154646640000029
通过奖励函数控制生成摘要的信息性,
Figure BDA00031546466400000210
通过奖励函数控制生成摘要的事实一致性。
进一步地,本发明还提供一种基于内容选择和融合的两阶段摘要生成系统,包含:实例提取模块、模型训练模块及摘要生成模块,其中,
实例提取模块,用于统计文档文本数据集,通过滑动窗口提取单句及相邻句子对,组成实例集合;
模型训练模块,用于依据参考摘要,选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型;
摘要生成模块,用于针对目标文档,通过滑动窗口提取由单句及相邻句子对组成的目标实例集合,并利用训练优化后的编码解码器模型生成目标文档的摘要信息。
本发明的有益效果:
本发明从输入文本中提取单个句子和相邻若干个句子来组成实例集合,并利用微调的BERT分类器去选择具有高信息性和事实正确性的实例作为摘要候选,将选择的实例输入到精心构造的基于Transformer的编码解码器生成式摘要模型中去生成摘要句子,显著提高生成摘要的可读性、简洁性和事实正确性,便于用户直观清楚了解文本信息,提升用户体验度,具有较好的应用前景。
附图说明:
图1为实施例中基于内容选择和融合的两阶段摘要生成流程示意;
图2为实施例中两阶段摘要生成原理示意;
图3为实施例中基于滑动窗口的实例提取示意;
图4为实施例中基于BERT的分类器示意;
图5为实施例中基于Transformer的生成式摘要模型示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
本发明实施例,提供一种基于内容选择和融合的两阶段摘要生成方法,参见图1所示,包含:
S101、统计文档文本数据集,通过滑动窗口提取单句及相邻句子对,组成实例集合;
S102、依据参考摘要,选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型;
S103、针对目标文档,通过滑动窗口提取由单句及相邻句子对组成的目标实例集合,并利用训练优化后的编码解码器模型生成目标文档的摘要信息。
本发明从输入文本中提取单个句子和相邻若干个句子来组成实例集合,并利用微调的BERT分类器去选择具有高信息性和事实正确性的实例作为摘要候选,消除事实冗余,将选择的实例输入到精心构造的基于Transformer的编码解码器生成式摘要模型中去生成摘要句子,显著提高生成摘要的效率、可读性、简洁性和事实正确性,便于用户直观清楚了解文本信息,提升用户体验度,降低设备运行负荷。
在具体实施中,可参见图2所示,内容选择模块用于利用滑动窗口提取由单句和相邻句子对组成的实例集合、利用所提取的实例和参考摘要之间的蕴含得分和ROUGE得分来构造两个ground-truth训练集、利用构造的数据集来训练基于BERT的内容选择器;摘要生成模块用于将从原文中选择的单句和句子对作为输入,利用基于Transformer的生成式摘要模型对输入进行识别和总结,来生成原文的简短摘要;策略学习模块用于通过构造一个混合目标学习函数来采用强化学习的方法联合训练基于Transformer的摘要生成模型,使模型具有感知事实的能力。
作为本发明实施例中基于内容选择和融合的两阶段摘要生成方法,进一步地,提取单句及相邻句子对中,通过设定滑动窗口尺寸大小,从目标文档文本数据集中提取多个相邻句子,并通过移动滑动窗口来获取若干相邻句子对;并依次增加单句来提取目标文档文本数据集中所有单句的相邻句子对。滑动窗口大小根据实际使用情况可设定为3,用来提取原文中的单句和相邻句子对组成实例训练集。
对文本数据集进行统计分析过程中,可发现在同一个文档中相隔较远的句子,它们相关性往往比较低,这意味着在生成摘要时它们不会被合并。因此,本案实施例中,通过对相邻句子的融合和压缩并基于中心句子创建用于训练的实例集合。为了实现这一目标,设定维持一个尺寸为3的滑动窗口,来从输入文档
Figure BDA0003154646640000041
中提取多个相邻句子,如图3所示。通过移动滑动窗口,能够得到N-2个相邻的句子对。最后,通过增加所有单个句子,得到输入文档的完整的实例集合
Figure BDA0003154646640000042
总共包含2N-2个实例。
作为本发明实施例中基于内容选择和融合的两阶段摘要生成方法,进一步地,选取候选摘要实例中,利用实例集合中实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合,并利用带标签的实例集合优化BERT分类器;利用优化后的BERT分类器从摘要-实例对集合中选取候选摘要实例。进一步地,利用实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合,依据得分函数从实例集合中选取与参考摘要得分最高的实例,并从参考摘要句子中删除该得分最高的实例中的单词,生成新的参考摘要;基于新的参考摘要和得分情况依次从实例集合中选取下一个实例,最终得到摘要-实例对集合,并依据实例能否生成摘要来获取带标签的实例集合。
为了进行更加细粒度的内容选择和摘要生成,本案实施例中利用实例和参考摘要之间的蕴含关系和ROUGE-2得分去构造训练集合。目的是找到与每个参考摘要句子sm相关联的原始输入句子,他们可作为实例集合的子集
Figure BDA0003154646640000051
这些实例就是组成摘要句子sm的“原料”。为此,本案实施例中通过构造了一个得分函数,来充分考虑所选实例的信息性和事实一致性,构造的得分函数f(·)表示为:
f(Ii,sm)=λ1R(Ii,sm)+λ2E(Ii,sm)
其中,R(Ii,sm)是ROUGE-2得分,E(Ii,sm)是蕴含得分,通过事实一致性检测模型FactCC计算得到。λ1∈[0,1],λ2∈[0,1]是信息性和事实正确性的平衡因子,并且λ12=1。Ii表示选择的实例,sm表示参考摘要句子。首先,选择具有最高得分的实例
Figure BDA0003154646640000052
为了尽可能避免冗余,从sm中删除所有出现在
Figure BDA0003154646640000053
中的单词,生成一个新的参考摘要句子s′m,从而有效地删除了所有已经被实例捕获的信息。类似地,基于新的参考摘要句子s′m来选择第二个实例
Figure BDA0003154646640000054
然后,得到了一个ground-truth摘要-实例对集合
Figure BDA0003154646640000055
其中
Figure BDA0003154646640000056
为了训练模型,可限制
Figure BDA0003154646640000057
为两个单句或者一个长度为3的相邻句子对,这几乎包含了所有的情况。此外,也移除所有空的ground-truth集合。最终,得到两个训练集:带标签的实例集合,对于所有实例,如果它能够作为生成摘要的“原材料”则标记为1,否则标记为0,这个实例集合被用于微调BERT分类器;摘要-实例对集合,由摘要句子和它对应的原始输入句子组成,被用于训练摘要生成模型。
作为本发明实施例中基于内容选择和融合的两阶段摘要生成方法,进一步地,选取候选摘要实例中,采用最大边缘相关性MMR原则选择得分最高的实例。
利用构造的带标签的ground-truth实例集合去微调BERT分类器,如图4所示。这些实例是输入文档中的单个句子或多个句子,能够表达输入文档的关键信息。在测试时,给定输入文档D,可首先提取它的所有实例集合,然后使用微调好的BERT分类器计算每个实例的得分。在进行实例选择时,采用最大边缘相关性(MMR)原则选择得分最高的实例,能够避免冗余。每一个候选实例的得分计算公式可表示为:
Figure BDA0003154646640000058
其中,P(I)是BERT的输出得分,μ是平衡因子,
Figure BDA0003154646640000059
是由事实冗余和n-gram冗余组成的冗余分数,计算为:
Figure BDA0003154646640000061
其中,
Figure BDA0003154646640000062
是候选实例I和部分参考摘要
Figure BDA0003154646640000063
之间的余弦相似性,
Figure BDA0003154646640000064
它们之间的事实一致性得分。依次重复迭代,直到生成终止令牌或达到最大摘要长度为止。通过这种方式,能够避免摘要系统生成冗余的事实描述和重复的摘要句子。
作为本发明实施例中基于内容选择和融合的两阶段摘要生成方法,进一步地,编码解码器模型训练优化中,利用强化学习策略优化编码解码器模型的混合目标学习函数。
基于Transformer的编解码器模型架构中,利用内容选择模块生成的摘要句子-实例对来训练模型,如图5所示,编解码器模型可采用6层的Transformer块,12个头。
策略学习中,对输入文档进行细粒度的内容选择,用选择的内容来生成更符合人类习惯的摘要。训练时,不对文档-摘要进行训练,仅仅训练通过内容选择模块得到的ground-truth摘要句子-实例对,这些实例是生成摘要句子的原材料。因此,对于每个摘要句子-实例对
Figure BDA0003154646640000065
需要评估生成的摘要句子s′m和参考摘要句子sm之间的事实正确性。本案实施例中可利用事实一致性检测模型FactCC去评估生成的摘要的事实正确性。FactCC模型与其他同类的事实评估模型相比在(文档,句子)和(句子,句子)场景中表现更好,这与本案需求相吻合。在构建ground-truth实例时,去比较句子对和摘要句子,并且在评估事实正确性时,也需要比较两个单独的摘要句子。
进一步地,本案实施例中,尝试从不同的角度来优化基于Transformer的编码解码器摘要生成模型。因此,可采用强化学习策略,共同优化一个混合目标学习函数,提高所产生的摘要的信息性和事实正确性。在图2中,将摘要模型看作一个代理,其接收输入实例
Figure BDA0003154646640000066
然后生成摘要句子s′m。为了全面评估生成的摘要句子s′m的质量,本案实施例可为代理的行为设计不同的奖励函数r(s′m)。在训练时,代理根据奖励来优化模型的参数θ,直到收到最大预期奖励为止。
进一步地,本案实施例可采用self-critical训练策略来训练摘要生成模型。具体地,在完成模型的每个训练迭代后,构建两个独立的输出序列:ys,通过对输出概率分布p(yt|y1,…,yt-1;x,θ)进行采样得到;
Figure BDA0003154646640000067
作为基线输出是一个贪婪的解码序列。因此,得到如下学习策略:
Figure BDA0003154646640000071
其中,r(y)是一个奖励函数,用于计算输出序列的奖励得分。
基于此,可定义一个奖励函数r为:
r=rR+rS
其中,rR∈[0,1]是ROUGE奖励,通过计算生成的摘要句子和参考摘要句子之间的ROUGE-2分数来得到。rS∈[0,1]是事实一致性奖励,通过FactCC模型计算得到。为此,本案实施例中,混合目标学习函数可表示为:
Figure BDA0003154646640000072
其中,λ∈[0,1]是一个缩放因子。本发明的混合目标学习函数能够从以下三个方面共同优化生成的摘要:
Figure BDA0003154646640000073
作为条件语言模型来控制生成的摘要的可读性;
Figure BDA0003154646640000074
通过鼓励模型生成具有高ROUGE得分的句子来优化生成的摘要的信息性;S鼓励模型生成与原文事实一致的句子,来优化摘要的事实正确性。
进一步地,基于上述的方法,本发明实施例还提供一种基于内容选择和融合的两阶段摘要生成系统,包含:实例提取模块、模型训练模块及摘要生成模块,其中,
实例提取模块,用于统计文档文本数据集,通过滑动窗口提取单句及相邻句子对,组成实例集合;
模型训练模块,用于依据参考摘要,选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型;
摘要生成模块,用于针对目标文档,通过滑动窗口提取由单句及相邻句子对组成的目标实例集合,并利用训练优化后的编码解码器模型生成目标文档的摘要信息。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的方法和/或系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的方法。
基于上述的方法和/或系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的方法。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于内容选择和融合的两阶段摘要生成方法,其特征在于,包含如下内容:
统计文档文本数据集,通过滑动窗口提取单句及相邻句子对,组成实例集合;
依据参考摘要,选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型;
针对目标文档,通过滑动窗口提取由单句及相邻句子对组成的目标实例集合,并利用训练优化后的编码解码器模型生成目标文档的摘要信息。
2.根据权利要求1所述的基于内容选择和融合的两阶段摘要生成方法,其特征在于,提取单句及相邻句子对,通过设定滑动窗口尺寸大小,从目标文档文本数据集中提取多个相邻句子,并通过移动滑动窗口来获取若干相邻句子对;并依次增加单句来提取目标文档文本数据集中所有单句的相邻句子对。
3.根据权利要求1或2所述的基于内容选择和融合的两阶段摘要生成方法,其特征在于,选取候选摘要实例中,利用实例集合中实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合,并利用带标签的实例集合优化BERT分类器;利用优化后的BERT分类器从摘要-实例对集合中选取候选摘要实例。
4.根据权利要求3所述的基于内容选择和融合的两阶段摘要生成方法,其特征在于,利用实例与参考摘要之间的蕴含得分和ROUGE得分构造带标签的实例集合及摘要-实例对集合,依据得分函数从实例集合中选取与参考摘要得分最高的实例,并从参考摘要句子中删除该得分最高的实例中的单词,生成新的参考摘要;基于新的参考摘要和得分情况依次从实例集合中选取下一个实例,最终得到摘要-实例对集合,并依据实例能否生成摘要来获取带标签的实例集合。
5.根据权利要求4所述的基于内容选择和融合的两阶段摘要生成方法,其特征在于,得分函数表示为:f(Ii,sm)=λ1R(Ii,sm)+λ2E(Ii,sm),其中,R(Ii,sm)表示ROUGE得分,E(Ii,sm)是蕴含得分,λ1∈[0,1]、λ2∈[0,1]表示信息性和事实正确性的平衡因子,并且λ12=1,Ii表示实例集合中选择的序号为i的实例,sm表示参考摘要句子。
6.根据权利要求3所述的基于内容选择和融合的两阶段摘要生成方法,其特征在于,选取候选摘要实例中,采用最大边缘相关性MMR原则选择得分最高的实例,其中,选择得分计算公式表示为:
Figure FDA0003154646630000011
P(I)表示BERT分类器输出得分,μ表示平衡因子,
Figure FDA0003154646630000012
由事实冗余和n-gram冗余组成的冗余分数,且
Figure FDA0003154646630000013
Figure FDA0003154646630000014
是候选实例I和部分参考摘要
Figure FDA0003154646630000015
之间的余弦相似性,
Figure FDA0003154646630000016
候选实例I和部分参考摘要
Figure FDA0003154646630000017
之间的事实一致性得分。
7.根据权利要求1所述的基于内容选择和融合的两阶段摘要生成方法,其特征在于,编码解码器模型训练优化中,利用强化学习策略优化编码解码器模型的混合目标学习函数,其中,混合目标学习函数表示为:
Figure FDA0003154646630000021
λ表示缩放因子且λ∈[0,1],
Figure FDA0003154646630000022
作为条件语言模型来控制生成摘要的可读性,
Figure FDA0003154646630000023
通过奖励函数控制生成摘要的信息性,
Figure FDA0003154646630000024
通过奖励函数控制生成摘要的事实一致性。
8.一种基于内容选择和融合的两阶段摘要生成系统,其特征在于,包含:实例提取模块、模型训练模块及摘要生成模块,其中,
实例提取模块,用于统计文档文本数据集,通过滑动窗口提取单句及相邻句子对,组成实例集合;
模型训练模块,用于依据参考摘要,选取实例集合中符合信息性和事实正确性要求的候选摘要实例作为样本数据来训练编码解码器模型;
摘要生成模块,用于针对目标文档,通过滑动窗口提取由单句及相邻句子对组成的目标实例集合,并利用训练优化后的编码解码器模型生成目标文档的摘要信息。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器之行时,使得所述处理器执行如权利要求1~7任一项所述地方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~7中任一项所述方法的步骤。
CN202110775512.5A 2021-07-08 2021-07-08 基于内容选择和融合的两阶段摘要生成方法及系统 Active CN113626582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775512.5A CN113626582B (zh) 2021-07-08 2021-07-08 基于内容选择和融合的两阶段摘要生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775512.5A CN113626582B (zh) 2021-07-08 2021-07-08 基于内容选择和融合的两阶段摘要生成方法及系统

Publications (2)

Publication Number Publication Date
CN113626582A true CN113626582A (zh) 2021-11-09
CN113626582B CN113626582B (zh) 2023-07-28

Family

ID=78379567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775512.5A Active CN113626582B (zh) 2021-07-08 2021-07-08 基于内容选择和融合的两阶段摘要生成方法及系统

Country Status (1)

Country Link
CN (1) CN113626582B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111814465A (zh) * 2020-06-17 2020-10-23 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111858912A (zh) * 2020-07-03 2020-10-30 黑龙江阳光惠远知识产权运营有限公司 一种基于单篇长文本的摘要生成方法
CN111966820A (zh) * 2020-07-21 2020-11-20 西北工业大学 一种生成式摘要模型构建、提取生成式摘要方法及系统
US20200372225A1 (en) * 2019-05-22 2020-11-26 Royal Bank Of Canada System and method for controllable machine text generation architecture
CN112417854A (zh) * 2020-12-15 2021-02-26 北京信息科技大学 中文文档抽取式摘要方法
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
WO2021064906A1 (ja) * 2019-10-02 2021-04-08 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム
US20210117617A1 (en) * 2019-10-17 2021-04-22 Amadeus S.A.S. Methods and systems for summarization of multiple documents using a machine learning approach

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885673A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种基于预训练语言模型的自动文本摘要方法
US20200372225A1 (en) * 2019-05-22 2020-11-26 Royal Bank Of Canada System and method for controllable machine text generation architecture
WO2021064906A1 (ja) * 2019-10-02 2021-04-08 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム
US20210117617A1 (en) * 2019-10-17 2021-04-22 Amadeus S.A.S. Methods and systems for summarization of multiple documents using a machine learning approach
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111814465A (zh) * 2020-06-17 2020-10-23 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111858912A (zh) * 2020-07-03 2020-10-30 黑龙江阳光惠远知识产权运营有限公司 一种基于单篇长文本的摘要生成方法
CN111966820A (zh) * 2020-07-21 2020-11-20 西北工业大学 一种生成式摘要模型构建、提取生成式摘要方法及系统
CN112559730A (zh) * 2020-12-08 2021-03-26 北京京航计算通讯研究所 基于全局性特征提取的文本摘要自动生成方法及系统
CN112417854A (zh) * 2020-12-15 2021-02-26 北京信息科技大学 中文文档抽取式摘要方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DIMITRIOS GALANIS等: "A new sentence compression dataset and its use in an abstractive generate-and-rank sentence compressor", 《UCNLG+EVAL \'11: PROCEEDINGS OF THE UCNLG+EVAL: LANGUAGE GENERATION AND EVALUATION WORKSHOP》 *
LOGAN LEBANOFF等: "Scoring Sentence Singletons and Pairs for Abstractive Summarization", 《PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
党宏社等: "基于混合注意力与强化学习的文本摘要生成", 《计算机工程与应用》, vol. 56, no. 1 *

Also Published As

Publication number Publication date
CN113626582B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
Guu et al. Retrieval augmented language model pre-training
CN110135457A (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
CN111914062B (zh) 一种基于关键词的长文本问答对生成系统
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN113032552B (zh) 一种基于文本摘要的政策要点抽取方法与提取系统
CN113065349A (zh) 基于条件随机场的命名实体识别方法
Alsubhi et al. Deep learning-based approach for Arabic open domain question answering
CN114611520A (zh) 一种文本摘要生成方法
Zhang et al. Diverse title generation for Stack Overflow posts with multiple-sampling-enhanced transformer
Ding et al. A knowledge-enriched and span-based network for joint entity and relation extraction
Han et al. Multi-attention network for aspect sentiment analysis
Kumari et al. Context-based question answering system with suggested questions
CN116187317A (zh) 文本生成方法、装置、设备及计算机可读介质
CN113626582B (zh) 基于内容选择和融合的两阶段摘要生成方法及系统
He et al. Distant supervised relation extraction via long short term memory networks with sentence embedding
Drury A Text Mining System for Evaluating the Stock Market's Response To News
Boroujeni et al. Answer selection in community question answering exploiting knowledge graph and context information
Harichandana et al. Adaptive Beam Search to Enhance On-device Abstractive Summarization
Banovic et al. How Soon Can We Detect Depression?
Karlbom Abstractive summarization of podcast transcriptions
Balasundaram Phrase embedding based multi document summarization with reduced redundancy using maximal marginal relevance
Zhang Sentiment analysis and web development of movie reviews using naive bayes and LSTM
CN117874175B (zh) 一种基于信息瓶颈的信息检索方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant