CN114996442A - 一种联合抽象程度判别和摘要优化的文本摘要生成系统 - Google Patents

一种联合抽象程度判别和摘要优化的文本摘要生成系统 Download PDF

Info

Publication number
CN114996442A
CN114996442A CN202210588390.3A CN202210588390A CN114996442A CN 114996442 A CN114996442 A CN 114996442A CN 202210588390 A CN202210588390 A CN 202210588390A CN 114996442 A CN114996442 A CN 114996442A
Authority
CN
China
Prior art keywords
abstract
text
degree
word
abstracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210588390.3A
Other languages
English (en)
Other versions
CN114996442B (zh
Inventor
陈玮
冯少辉
张建业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iplus Teck Co ltd
Original Assignee
Beijing Iplus Teck Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iplus Teck Co ltd filed Critical Beijing Iplus Teck Co ltd
Priority to CN202210588390.3A priority Critical patent/CN114996442B/zh
Publication of CN114996442A publication Critical patent/CN114996442A/zh
Application granted granted Critical
Publication of CN114996442B publication Critical patent/CN114996442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种联合抽象程度判别和摘要优化的文本摘要生成系统,属于自然语言处理技术领域;包括抽象程度判别器、摘要抽取器和选择器;其中,抽象程度判别器用于根据待摘要文本的分词序列,预测得到待摘要文本的抽象程度标签;摘要抽取器用于基于待摘要文本的分句序列,预测得到待摘要文本中每个句子的抽取概率;选择器用于根据文本的抽象程度标签设置文本中句子的抽取概率阈值,并根据抽取概率和抽取概率阈值的比较结果进行摘要抽取,得到待摘要文本的摘要。本发明解决了现有的文本摘要生成系统在生成摘要时没有考虑文本的抽象程度,无差别地进行摘要抽取或生成,导致生成的摘要准确率差、效率低的问题。

Description

一种联合抽象程度判别和摘要优化的文本摘要生成系统
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种联合抽象程度判别和摘要优化的文本摘要生成系统。
背景技术
随着近几年文本信息的爆发式增长,人们会随时接触到海量的文本信息,如新闻、博客、报告等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要系统则提供了一个高效的解决方案;它可以通过一系列算法或训练模型,达到提取文本中的重要信息并自动生成摘要的目的,文本摘要技术大大节省了人们阅读文本花费的时间,极大地提高了阅读效率,在金融、司法、军工、互联网等领域都有着广泛的应用。
现有的文本摘要系统可分为抽取式和生成式两种,抽取式文本摘要生成系统从原文中选取关键句组成摘要,这种自动摘要系统容易导致摘要内容不连贯、存在冗余、提炼总结不足的缺点。而生成式摘要则可以实现句子的自动生成,不完全继承原始语料,允许摘要中包含新的词语或短语,有很高的灵活性,生成式摘要的结果在大量案例中都有着比抽取模型更优的表现,但也会引入未登录词、重复解码等问题。现有的自动文本摘要系统虽然得到快速发展,并取得了不错的成绩,但其效果还有待进一步提升。
发明内容
鉴于上述的分析,本发明旨在提供一种联合抽象程度判别和摘要优化的文本摘要生成系统;解决了现有的文本摘要生成系统没有考虑文本抽象程度,无差别地进行摘要抽取或生成,导致生成的摘要准确率差、效率低的问题。
本发明的目的主要是通过以下技术方案实现的:
本发明公开了一种联合抽象程度判别和摘要优化的文本摘要生成系统,包括:抽象程度判别器、摘要抽取器和选择器;
所述抽象程度判别器,通过训练样本集训练得到,用于根据待摘要文本的分词序列,预测得到所述待摘要文本的抽象程度标签;所述训练样本集带有文本抽象程度标注标签和句子抽取标签;
所述摘要抽取器,通过所述训练样本集训练得到,用于基于所述待摘要文本的分句序列,预测得到待摘要文本中每个句子的抽取概率;
所述选择器,用于根据所述抽象程度标签设置文本中句子的抽取概率阈值,并根据所述抽取概率和抽取概率阈值的比较结果进行摘要抽取,得到所述待摘要文本的摘要。
进一步的,所述文本抽象程度标注标签和句子抽取标签通过对训练样本进行预处理得到;
所述训练样本集包括中文文本和所述文本对应的原摘要;
所述预处理包括数据去噪、数据标注和构建词表;所述数据标注包括:标注所述中文文本的抽象程度标注标签和中文文本中每个句子的抽取或不抽取标签;构建的所述词表作为所述文本摘要系统的分词器词表使用。
进一步的,通过判断所述训练样本集中的摘要是否为与其对应的中文文本的公共子序列,对中文文本标注抽象程度标签:若摘要为其对应文本的公共子序列,判断抽象程度为低,对所述中文文本标注为L0;若摘要为其对应文本的非公共子序列,判断抽象程度为中,标注为L1;若摘要不是其对应文本的公共子序列,判断抽象程度为高,标注为L2;
通过遍历训练样本集中的中文文本中分句之间的所有组合,计算所述组合与对应文本原摘要之间的相似度,将相似度最高的组合中包含的句子标注为抽取标签,其余句子标注为不抽取标签。
进一步的,所述选择器根据下式设置抽取概率阈值:
Figure BDA0003666743140000031
其中,pt为抽取概率阈值,L0、L1和L2为抽象程度标签;
对标注为L0的文本,基于每个句子的抽取概率抽取摘要,直接作为原文的最终摘要;
将标注为L1和L2的文本,基于每个句子的抽取概率抽取摘要,将抽取得到的摘要输入摘要优化器进行优化,得到最终摘要。
进一步的,通过Rouge1指标计算所述组合与对应文本原摘要之间的相似度:
Figure BDA0003666743140000032
其中,目标文本为分句之间进行组合得到的文本。
进一步的,还包括摘要优化器;所述摘要优化器通过包含文本抽象程度标签、抽取摘要和原文摘要的文本摘要数据集训练得到,包括编码器和解码器;
所述编码器用于接收所述待摘要文本的抽取摘要,通过词嵌入和位置编码,得到编码器隐向量;
所述解码器用于根据编码器隐向量,采用自注意力机制,预测目标摘要文本的单词的概率分布;
基于所述概率分布中每个时间步的概率最大的词,得到最终摘要。
进一步的,所述摘要优化器采用下式预测单词的概率分布:
Figure BDA0003666743140000033
Figure BDA0003666743140000041
Figure BDA0003666743140000042
其中,P(w)为t时间步预测单词的概率分布;
pgen为生成新词的概率,(1-pgen)为复制输入序列中单词的概率,当预测的抽象程度标签Lab=L1时,pgen=0,模型仅从原抽取摘要中选择词作为摘要;当预测的抽象程度标签Lab=L2时,pgen通过上式求出,Pvocab(w)为T5预测的词表单词概率分布;
Figure BDA0003666743140000043
为一个词表长度的向量,其中输入序列单词位置的值是每个单词的注意力分布
Figure BDA0003666743140000044
其余位置的值为0;
Figure BDA0003666743140000045
为t时间步编码器的上下文向量,at为t时间步输入词的注意力分布;st为t时间步解码器状态,xt为t时间步解码器输入;
Figure BDA0003666743140000046
wx,bptr,V′,V,b,b′为可学习的参数。
进一步的,所述抽象程度判别器,包括编码器、卷积层、池化层和线性层;
所述编码器根据待摘要文本的分词序列,经过词嵌入和上下文编码,得到具有上下文表示的编码器隐向量;
所述卷积层,用于根据编码器隐向量,学习得到词表长度的词向量集合;
所述池化层,用于将卷积层的词向量集合进行单词维度的数据压缩,得到文档级向量表示;
所述线性层,用于对所述文档级向量表示进行降维;
降维后的输出经过激活函数转换得到抽象程度标签概率分布;将所述概率分布中概率最大的标签置为当前待摘要文本的抽象程度标签。
进一步的,所述摘要抽取器包括编码器、卷积层、池化层和线性层;
所述编码器用于根据所述待摘要文本的分句序列,经过词嵌入和上下文编码,得到词向量集合;所述词向量集合经过池化层的向量压缩,得到句向量集合;所述句向量集合经过卷积层的学习,输出卷积层隐向量;所述卷积层隐向量经过线性层降维和激活函数转换,得到待摘要文本中每个句子的抽取概率。
进一步的,本发明的文本摘要生成系统还包括数据处理器;
所述数据处理器用于对待摘要文本进行数据去噪,包括:删除待摘要文本中的特殊符号,将全角字符转换为半角字符,将繁体字转换为简体字,将大写英文字母转换为小写英文字母;
所述抽象程度判别器,用于预测去噪后的待摘要文本的抽象程度标签。
本技术方案的有益效果:
1、本发明通过抽象程度判别器提取文本特征,预测文本类型,将待摘要文本分为抽象程度高、中和弱三种类型,根据不同类型采用不同的摘要抽取生成方式,即在摘要抽取器和摘要优化器的基础上加入分类器,通过多分类、多通道的方法进行文本摘要,提高了摘要生成效率和准确度。
2、本发明根据待摘要文本的抽象程度等级,分别使用输入文本的词表和完整词表进行摘要生成,充分利用了文本自身的特点,有效降低了资源占用,提高了文本摘要生成效率。
3、本发明的文本摘要方法通过识别文本的行文特点,定位文本抽象程度,根据文本的行文特点进行摘要抽取和优化生成,充分利用了摘要抽取器和摘要优化器的优点,同时解决了摘要出现未登录词、总结不到位的情况,提高了摘要生成效率和准确度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的文本摘要系统结构图;
图2为本发明实施例的抽象程度判别器结构示意图;
图3为本发明实施例的摘要抽取器结构示意图;
图4为本发明实施例的选择器结构示意图;
图5为本发明实施例的摘要优化器结构示意图;
图6为本发明实施例的文本摘要生成流程示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本实施例中的一种联合抽象程度判别和摘要优化的文本摘要生成系统,包括:抽象程度判别器、摘要抽取器和选择器;
其中,抽象程度判别器,通过训练样本集训练得到,用于根据待摘要文本的分词序列,预测得到所述待摘要文本的抽象程度标签;所述训练样本集标注有文本抽象程度标注标签和句子抽取标签;
所述摘要抽取器,通过所述训练样本集训练得到,用于基于所述待摘要文本的分句序列,预测得到待摘要文本中每个句子的抽取概率;
所述选择器,用于根据文本的所述抽象程度标签设置文本中句子的抽取概率阈值,并根据所述抽取概率和抽取概率阈值的比较结果进行摘要抽取,得到所述待摘要文本的摘要。
在实际应用中,根据文本本身的行文特点,可将文本根据抽象性程度划分为三档:1,抽象性弱的文本,即文本中关键句和中心句明确,其摘要可直接从原文中抽取;2,抽象性中档的文本,即文本中存在表示中心思想的句子,但摘要还需进一步提炼;3,抽象性强的文本,即文本中不存在中心句或主旨句,其摘要需要对原文进行理解与总结后生成。
现有技术中使用单一的抽取方式或生成方式的自动摘要方法,及使用抽取和生成混合的方法,都没有兼顾到三种抽象程度的情况,无法很好的同时适用于以上三类文本,导致现有的方法生成的摘要准确性和效率都不高。
本发明公开的文本摘要系统,引入抽象程度判别器,在进行摘要生成之前先通过识别文本的行文特点,定位文本抽象程度,再根据抽象程度有针对地使用不同的方法生成文本摘要。解决了现有方法生成的摘要出现未登录词、总结不到位的情况,提高了摘要生成效率和准确度。
作为一个具体的实施例,抽象程度判别器需要通过训练样本集训练得到,其中,训练样本集包括中文文本和文本对应的原摘要,且中文文本标注有文本抽象程度标注标签和句子抽取标签;
具体的,首先获得中文文本摘要数据集,其中,中文文本摘要数据集包括中文文本和文本所对应的原摘要;示例性地,中文文本摘要数据集可以包括:短文本数据集,如LCSTS、THUCNews等;长文本数据集,如nlpcc2017摘要数据、神策杯2018摘要数据等。
将中文文本摘要数据集中的样本按比例分为训练样本集、测试样本集和验证样本集;
对中文文本摘要数据集进行预处理,包括数据去噪、数据标注和构建词表;其中对中文文本摘要数据集中的所有文本进行数据去噪;而只对训练样本集中的文本进行数据标注,数据标注包括:对训练样本集中的中文文本标注抽象程度标注标签,对中文文本中每个句子标注抽取或不抽取标签;构建的词表作为所述文本摘要系统的分词器词表使用,即文本摘要系统在使用训练样本进行训练和训练完成后的实际应用中均使用数据预处理过程中构建的同一个词表作为分词器词表。
优选的,通过判断训练样本集中的摘要是否为与其对应的中文文本的公共子序列,对中文文本标注抽象程度标签:若摘要为其对应文本的公共子序列,判断抽象程度为低,对中文文本标注为L0;若摘要为其对应文本的非公共子序列,判断抽象程度为中,标注为L1;若摘要不是其对应文本的公共子序列,判断抽象程度为高,标注为L2;
通过遍历训练样本集中中文文本中分句之间的所有组合,计算所述组合与对应文本原摘要之间的相似度,将相似度最高的组合中包含的句子标注为抽取标签,其余句子标注为不抽取标签。
进一步的,可采用下述方式进行数据去噪:对中文文本摘要数据集中的所有文本,删除数据集中内容缺失的数据,删除数据集中的特殊符号和多余的空格,将所有全角字符转换为半角,将所有繁体字转换为简体,将所有大写的英文字母转换为小写。数据去噪后的数据集集记为D。
本实施例通过下述方式构建词表:对中文文本摘要数据集中去噪后的所有文本进行分词,分词后得到的所有单词构成数据集词表;将现有的Bert预训练模型自带的词表和T5预训练模型自带的词表合并到数据集词表,以对数据集词表进行扩充,得到本实施例的词表,记为VLarge
优选的,通过下述方式进行数据标注:首先对训练样本集中的过长文本进行截断,对于字数超过3000字的文本只保留前3000字;然后对训练样本进行标注,分为两部分:
1.针对训练样本中的每篇文本,标注0,1,2,代表抽象程度为弱、中和强的标签,分别用L0,L1,L2表示。
具体的,对任一文本,判断摘要与原文的公共子序列,如果摘要是原文的连续公共子序列,说明文本抽象性弱,文本抽象程度为0档,标注抽象程度标签为L0;如果摘要是原文的非连续公共子序列,说明文本抽象性为中等,抽象程度为1档,抽象程度标签为L1;如果摘要不是原文的子序列,即摘要中的词有部分或全部都未出现在原文中,说明文本抽象性强,抽象程度为2档,抽象程度标签为L2
优选的,本实施例的抽象程度标签使用one-hot的形式作为模型训练的输入,即L0=[1,0,0],L1=[0,1,0],L2=[0,0,1];如表1所示。
表1文本抽象程度判断标准及示例
Figure BDA0003666743140000091
Figure BDA0003666743140000101
2.针对训练样本中的每个句子,标注1或0,代表抽取标签或不抽取标签。
具体的,对训练样本集中的任一文本,首先根据标点符号进行分句,用jieba工具包分词。遍历分句之间的所有组合(包括单句);计算每一种组合与摘要之间的相似度,其中,相似度的计算采用Rouge1指标:
Figure BDA0003666743140000102
其中,目标文本即为分句之间进行组合得到的文本。
将相似度最高的组合中包含的句子标注为1,即抽取标签,其余句子标注为0,即不抽签标签;将句子抽取或不抽取标签按原文出现顺序组成列表,用Lsents表示。
进一步的,如图2所示,抽象程度判别器包括编码器、卷积层、池化层和线性层;所述编码器根据待摘要文本的分词序列,经过词嵌入和上下文编码,得到具有上下文表示的编码器隐向量;所述卷积层,用于根据编码器隐向量,学习得到词表长度的词向量集合;所述池化层,用于将卷积层的词向量集合进行单词维度的数据压缩,得到文档级向量表示;所述线性层,用于对所述文档级向量表示进行降维;
降维后的输出经过激活函数转换得到抽象程度标签概率分布;将所述概率分布中概率最大的标签置为当前待摘要文本的抽象程度标签。
其中,抽象程度判别器的训练,包括:
输入带有文本抽象程度标注标签的训练样本集,预测得到训练样本集中样本的抽象程度标签概率分布;
通过对抽象程度标签概率分布与对应文本的抽象程度标注标签进行损失迭代更新,训练得到抽象程度判别器。
优选的,抽象程度判别器通过下述方法进行训练:
编码器使用Bert预训练模型,首先加载Bert模型预训练权重,将Bert分词器词表设置为预先构建的词表VLarge。预训练权重在编码阶段固定不更新。
从数据集D中取训练样本的原文分词序列:
X=[x1,x2…xn],n为词数,作为输入,通过词嵌入和上下文编码,得到768维的词向量集合
Figure BDA0003666743140000111
卷积层为7层卷积神经网络,将Hte输入7层卷积神经网络进行学习,每一层卷积神经网络的卷积核大小为3,膨胀率分别为(1,2,4,8,4,2,1),每一层都进行零填充保证输入输出维度一致,第七层卷积神经网络输出一个768维的词向量集合
Figure BDA0003666743140000112
Htc经过全局平均池化层对单词维度的数据进行压缩,得到一个768维的文档级向量表示H*,H*通过一个线性层降至三维,激活函数使用sigmoid:
Figure BDA0003666743140000113
经过激活函数转换,得到模型预测的抽象程度标签概率分布Pab
将预测的抽象程度标签概率分布Pab与对应文本的标注抽象程度标签L(0,1,2)计算交叉熵损失:
Loss1=CrossEntropy(Pab,L(0,1,2));
反向传播损失,通过最小化Loss1更新卷积层、线性层权重。
经过迭代更新,直到模型收敛,Loss1不再下降为止,抽象程度判别器训练完成。
用训练好的抽象程度判别器预测数据集D中所有文本的抽象程度标签概率分布Pab,将每个文本对应的Pab中最大值改为1,其余值改为0,得到抽象程度判别器预测的D中所有文本的抽象程度标签Lab
进一步的,本发明公开的文本摘要系统还包括数据处理器;用于在预测抽象程度标签之前对待摘要文本进行数据去噪,包括:删除待摘要文本中的特殊符号,将全角字符转换为半角字符,将繁体字转换为简体字,将大写英文字母转换为小写英文字母;
前述的抽象程度判别器,用于预测去噪后的待摘要文本的抽象程度标签。
进一步的,摘要抽取器包括编码器、卷积层、池化层和线性层;如图3所示,其中,编码器用于根据待摘要文本的分句序列,经过词嵌入和上下文编码,得到词向量集合;词向量集合经过池化层的向量压缩,得到句向量集合;句向量集合经过卷积层的学习,输出卷积层隐向量;卷积层隐向量经过线性层降维和激活函数转换,得到待摘要文本中每个句子的抽取概率。
优选的,摘要抽取器通过下述方法进行训练:
摘要抽取器的结构与抽象程度判别器类似,编码器使用Bert预训练模型;首先加载Bert模型预训练权重,将Bert分词器词表设置为预先构建的词表VLarge。预训练权重在编码阶段固定不更新。
从数据集D中取训练样本的原文分句序列S=[s1,s2…sm](m为句数)作为输入,通过词嵌入和上下文编码,得到768维的词向量集合H*
Figure BDA0003666743140000131
其中,
Figure BDA0003666743140000132
表示S中第m句话的第j个词的768维词向量;
将H*通过全局平均池化将每个句子单词维度的向量压缩至一维,得到768维的句向量集合
Figure BDA0003666743140000133
Hse经过7层卷积神经网络进行学习,每一层卷积神经网络的卷积核大小为3,膨胀率分别是(1,2,4,8,4,2,1),每一层都进行零填充保证输入输出维度一致,得到一个768维的句向量集合
Figure BDA0003666743140000134
Hsc通过线性层将768维降至1维,采用sigmoid激活函数控制输出范围在0,1之间:
Figure BDA0003666743140000135
得到句子抽取概率
Figure BDA0003666743140000136
其中,
Figure BDA0003666743140000137
分别代表句子s1,s2…sm的抽取概率,
Figure BDA0003666743140000138
将当前预测的句子抽取概率Pext与对应的句子标注的抽取标签列表Lsents计算交叉熵损失:
Loss2=CrossEntropy(Lsents,Pext);
反向传播损失,通过最小化Loss2更新卷积层、线性层权重,更新模型权重。
通过迭代更新,直到模型收敛,Loss2不再下降为止,抽取模型训练完成。
用训练好的摘要抽取模型预测D中所有文本的句子抽取概率Pext,在后续的处理中,基于文本的抽象程度标签Lab和抽取概率Pext进行摘要抽取。
优选的,选择器的摘要抽取过程如图4所示。
根据抽象程度标签设定如下抽取概率阀值:
Figure BDA0003666743140000141
根据上述抽取概率阀值pt和抽象程度标签,在句子抽取概率中选择概率大于pt的值所对应句子作为抽取摘要,记为Xext
如图4所示,将抽象程度标签为L0的文本对应的抽取摘要直接作为原文的最终摘要;将抽象程度标签为L1和L2的文本对应的抽取摘要输入摘要优化器进行优化,得到对应文本的最终摘要;
进一步的,所述摘要优化器通过包含文本抽象程度标签、抽取摘要和原文摘要的文本摘要数据集训练得到,包括编码器和解码器;
所述编码器用于接收所述待摘要文本的抽取摘要,通过词嵌入和位置编码,得到编码器隐向量;
所述解码器用于根据编码器隐向量,采用自注意力机制,预测目标摘要文本的单词的概率分布;
基于所述概率分布中每个时间步的概率最大的词,得到最终摘要。
优选的,摘要优化器通过下述方法进行训练:
摘要优化器的编码器和解码器使用T5预训练模型,采用预训练加微调的方式进行训练。首先加载T5预训练权重,该预训练权重在训练阶段可以更新;将T5分词器词表设置为预先构建的词表VLarge
T5的编码器接收文本抽取摘要Xext,通过词嵌入和位置编码,得到词向量集合,
Figure BDA0003666743140000142
解码时,根据下式调整t时间步预测单词的概率分布:
Figure BDA0003666743140000143
Figure BDA0003666743140000151
Figure BDA00036667431400001510
其中,P(w)为t时间步预测单词的概率分布;pgen为生成新词的概率;(1-pgen)为复制输入序列中单词的概率;Pvocab(w)为T5预测的词表单词概率分布;
Figure BDA0003666743140000152
是一个词表长度的向量,其中输入序列单词位置的值是每个单词的注意力分布
Figure BDA0003666743140000153
其余位置的值是0;
Figure BDA0003666743140000154
为t时间步编码器的上下文向量,at为t时间步输入词的注意力分布;st为t时间步解码器状态,xt为t时间步解码器输入;
Figure BDA0003666743140000155
wx,bptr,V′,V,b,b′为可学习的参数;
当预测的抽象程度标签Lab=L1时,pgen=0,模型仅从原抽取摘要中选择词作为摘要;当预测的抽象程度标签Lab=L2时,pgen通过上式求出;即,模型会综合考虑从原抽取摘要中复制的词的概率和生成的新词的概率进行最终摘要生成。
需要说明的是,对于抽象程度为L1和L2的文本类型,采用抽取加生成的方法得到最终摘要;根据文本类型,对于抽象程度为L1的文本,直接使用输入文本对应的词表生成最终摘要;对于抽象程度为L2的文本,使用完整的预先构建的词表生成最终摘要,充分利用了文本自身的特点,有效降低了资源占用,并提高了摘要生成效率和准确度。
优选的定义每个时间步t的的损失及总损失:
Figure BDA0003666743140000156
Figure BDA0003666743140000157
Figure BDA0003666743140000158
为t时间步预测的目标词,即t时间步原文摘要对应的词,
Figure BDA0003666743140000159
为预测的目标词的概率,T为解码器总时间步长。
反向传播损失,通过最小化LossT更新T5及
Figure BDA0003666743140000161
wx,bptr,V′,V,b,b′权重。
经过迭代更新,直到模型收敛,LossT不再下降为止,摘要优化器训练完成。
在进行摘要生成时,根据待摘要文本的抽象程度标签,分别使用输入文本的词表和完整词表进行摘要生成,充分利用了文本自身的特点,对抽象性弱的文本使用抽取的方法,对抽象性一般、抽象性强的文本使用拷贝机制优化词表,有效降低了资源占用,提高了文本摘要生成效率。
本发明在摘要抽取器和摘要优化器的基础上加入抽象程度判别器,通过多分类、多通道的方法进行文本摘要生成。本发明通过预训练的摘要抽取器提取文本特征,预测文本摘要类型,将文本分为适合抽取的(抽象程度标签为L0的文本)和适合抽取加生成的(抽象程度标签为L1和L2的文本)两种类型,对于适合抽取加生成的文本类型,根据文本类型分为使用输入词表和完整词表两种摘要生成方法,充分利用了文本自身的特点,有效降了低资源占用,并提高了摘要生成效率和准确度。
通过数据集中的测试集和验证集分别对前述的文本摘要生成系统进行测试和验证,测试和验证结果均表明本发明的文本摘要生成系统生成的摘要准确度很高,可读性较强。
综上所述,本发明公开了一种联合抽象程度判别和摘要优化的文本摘要生成系统,如图6所示,首先,通过数据处理器对待摘要文本进行预处理,去除无效字符、空格等;在摘要抽取器和摘要优化器的基础上加入抽象程度判别器,通过抽象程度判别模型预测待摘要文本的抽象程度标签概率分布Pab,将Pab中最大值改为1,其余值改为0,得到预测的待摘要文本的抽象程度标签Lab,将抽象程度分为三档:抽象性弱(0档)、抽象性中(1档)和抽象性强(2档)。根据待摘要文本的抽象程度有针对性地使用不同的方法生成文本摘要。具体的,首先预测待摘要文本的句子抽取概率,即Pext;根据待摘要文本的抽象程度标签Lab和待摘要文本的句子抽取概率Pext选出若干待摘要文本中的句子作为抽取摘要;判断抽取摘要是否需要通过摘要优化器进行优化;对于不需要进行优化的抽取摘要,直接将其作为最终摘要进行输出;对于需要进行优化的抽取摘要,根据Lab设置单词生成概率pgen,通过摘要优化器进行优化后输出最终摘要;即,对抽象性弱的文本使用抽取的方法,对抽象性一般、抽象性强的文本使用拷贝机制优化词表。本发明的文本摘要系统通过识别文本行文特点、定位文本抽象程度,充分利用了摘要抽取器和摘要优化器的优点,同时解决了摘要出现未登录词、总结不到位的情况,提高了摘要生成效率和准确度。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种联合抽象程度判别和摘要优化的文本摘要生成系统,其特征在于,包括:抽象程度判别器、摘要抽取器和选择器;
所述抽象程度判别器,通过训练样本集训练得到,用于根据待摘要文本的分词序列,预测得到所述待摘要文本的抽象程度标签;所述训练样本集带有文本抽象程度标注标签和句子抽取标签;
所述摘要抽取器,通过所述训练样本集训练得到,用于基于所述待摘要文本的分句序列,预测得到待摘要文本中每个句子的抽取概率;
所述选择器,用于根据所述抽象程度标签设置文本中句子的抽取概率阈值,并根据所述抽取概率和抽取概率阈值的比较结果进行摘要抽取,得到所述待摘要文本的摘要。
2.根据权利要求1所述的文本摘要生成系统,其特征在于,所述文本抽象程度标注标签和句子抽取标签通过对训练样本进行预处理得到;
所述训练样本集包括中文文本和所述文本对应的原摘要;
所述预处理包括数据去噪、数据标注和构建词表;所述数据标注包括:标注所述中文文本的抽象程度标注标签和中文文本中每个句子的抽取或不抽取标签;构建的所述词表作为所述文本摘要系统的分词器词表使用。
3.根据权利要求2所述的文本摘要生成系统,其特征在于,通过判断所述训练样本集中的摘要是否为与其对应的中文文本的公共子序列,对中文文本标注抽象程度标签:若摘要为其对应文本的公共子序列,判断抽象程度为低,对所述中文文本标注为L0;若摘要为其对应文本的非公共子序列,判断抽象程度为中,标注为L1;若摘要不是其对应文本的公共子序列,判断抽象程度为高,标注为L2;
通过遍历训练样本集中的中文文本中分句之间的所有组合,计算所述组合与对应文本原摘要之间的相似度,将相似度最高的组合中包含的句子标注为抽取标签,其余句子标注为不抽取标签。
4.根据权利要求3所述的文本摘要生成系统,其特征在于,所述选择器根据下式设置抽取概率阈值:
Figure FDA0003666743130000021
其中,pt为抽取概率阈值,L0、L1和L2为抽象程度标签;
对标注为L0的文本,基于每个句子的抽取概率抽取摘要,直接作为原文的最终摘要;
将标注为L1和L2的文本,基于每个句子的抽取概率抽取摘要,将抽取得到的摘要输入摘要优化器进行优化,得到最终摘要。
5.根据权利要求3所述的文本摘要生成系统,其特征在于,通过Rouge1指标计算所述组合与对应文本原摘要之间的相似度:
Figure FDA0003666743130000022
其中,目标文本为分句之间进行组合得到的文本。
6.根据权利要求4或5任一项所述的文本摘要生成系统,其特征在于,还包括摘要优化器;所述摘要优化器通过包含文本抽象程度标签、抽取摘要和原文摘要的文本摘要数据集训练得到,包括编码器和解码器;
所述编码器用于接收所述待摘要文本的抽取摘要,通过词嵌入和位置编码,得到编码器隐向量;
所述解码器用于根据编码器隐向量,采用自注意力机制,预测目标摘要文本的单词的概率分布;
基于所述概率分布中每个时间步的概率最大的词,得到最终摘要。
7.根据权利要求6所述的文本摘要生成方法,其特征在于,所述摘要优化器采用下式预测单词的概率分布:
Figure FDA0003666743130000031
Figure FDA0003666743130000032
Figure FDA0003666743130000033
其中,P(w)为t时间步预测单词的概率分布;
pgen为生成新词的概率,(1-pgen)为复制输入序列中单词的概率,当预测的抽象程度标签Lab=L1时,pgen=0,模型仅从原抽取摘要中选择词作为摘要;当预测的抽象程度标签Lab=L2时,pgen通过上式求出,Pvocab(w)为T5预测的词表单词概率分布;
Figure FDA0003666743130000034
为一个词表长度的向量,其中输入序列单词位置的值是每个单词的注意力分布
Figure FDA0003666743130000035
其余位置的值为0;
Figure FDA0003666743130000036
为t时间步编码器的上下文向量,at为t时间步输入词的注意力分布;st为t时间步解码器状态,xt为t时间步解码器输入;
Figure FDA0003666743130000037
wx,bptr,V′,V,b,b′为可学习的参数。
8.根据权利要求1-5任一项所述的文本摘要生成系统,其特征在于,所述抽象程度判别器,包括编码器、卷积层、池化层和线性层;
所述编码器根据待摘要文本的分词序列,经过词嵌入和上下文编码,得到具有上下文表示的编码器隐向量;
所述卷积层,用于根据编码器隐向量,学习得到词表长度的词向量集合;
所述池化层,用于将卷积层的词向量集合进行单词维度的数据压缩,得到文档级向量表示;
所述线性层,用于对所述文档级向量表示进行降维;
降维后的输出经过激活函数转换得到抽象程度标签概率分布;将所述概率分布中概率最大的标签置为当前待摘要文本的抽象程度标签。
9.根据权利要求1-5任一项所述的文本摘要生成系统,其特征在于,所述摘要抽取器包括编码器、卷积层、池化层和线性层;
所述编码器用于根据所述待摘要文本的分句序列,经过词嵌入和上下文编码,得到词向量集合;所述词向量集合经过池化层的向量压缩,得到句向量集合;所述句向量集合经过卷积层的学习,输出卷积层隐向量;所述卷积层隐向量经过线性层降维和激活函数转换,得到待摘要文本中每个句子的抽取概率。
10.根据权利要求1-5任一项所述的文本摘要生成系统,其特征在于,还包括数据处理器;
所述数据处理器用于对待摘要文本进行数据去噪,包括:删除待摘要文本中的特殊符号,将全角字符转换为半角字符,将繁体字转换为简体字,将大写英文字母转换为小写英文字母;
所述抽象程度判别器,用于预测去噪后的待摘要文本的抽象程度标签。
CN202210588390.3A 2022-05-27 2022-05-27 一种联合抽象程度判别和摘要优化的文本摘要生成系统 Active CN114996442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210588390.3A CN114996442B (zh) 2022-05-27 2022-05-27 一种联合抽象程度判别和摘要优化的文本摘要生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210588390.3A CN114996442B (zh) 2022-05-27 2022-05-27 一种联合抽象程度判别和摘要优化的文本摘要生成系统

Publications (2)

Publication Number Publication Date
CN114996442A true CN114996442A (zh) 2022-09-02
CN114996442B CN114996442B (zh) 2023-07-11

Family

ID=83029607

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210588390.3A Active CN114996442B (zh) 2022-05-27 2022-05-27 一种联合抽象程度判别和摘要优化的文本摘要生成系统

Country Status (1)

Country Link
CN (1) CN114996442B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541505A (zh) * 2023-07-05 2023-08-04 华东交通大学 一种基于自适应对话分割的对话摘要生成方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992775A (zh) * 2019-03-25 2019-07-09 浙江大学 一种基于高级语义的文本摘要生成方法
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
US20190362020A1 (en) * 2018-05-22 2019-11-28 Salesforce.Com, Inc. Abstraction of text summarizaton
CN111651589A (zh) * 2020-08-10 2020-09-11 中南民族大学 一种针对长文档的两阶段文本摘要生成方法
WO2021234517A1 (en) * 2020-05-19 2021-11-25 International Business Machines Corporation Unsupervised text summarization with reinforcement learning
CN114169312A (zh) * 2021-12-08 2022-03-11 湘潭大学 一种针对司法裁判文书的两阶段混合式自动摘要方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190362020A1 (en) * 2018-05-22 2019-11-28 Salesforce.Com, Inc. Abstraction of text summarizaton
CN109992775A (zh) * 2019-03-25 2019-07-09 浙江大学 一种基于高级语义的文本摘要生成方法
CN110348016A (zh) * 2019-07-15 2019-10-18 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法
WO2021234517A1 (en) * 2020-05-19 2021-11-25 International Business Machines Corporation Unsupervised text summarization with reinforcement learning
CN111651589A (zh) * 2020-08-10 2020-09-11 中南民族大学 一种针对长文档的两阶段文本摘要生成方法
CN114169312A (zh) * 2021-12-08 2022-03-11 湘潭大学 一种针对司法裁判文书的两阶段混合式自动摘要方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱永清 等: ""基于深度学习的生成式文本摘要技术综述"", 《计算机工程》, vol. 47, no. 11, pages 11 - 21 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541505A (zh) * 2023-07-05 2023-08-04 华东交通大学 一种基于自适应对话分割的对话摘要生成方法
CN116541505B (zh) * 2023-07-05 2023-09-19 华东交通大学 一种基于自适应对话分割的对话摘要生成方法

Also Published As

Publication number Publication date
CN114996442B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及系统
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN113987174A (zh) 分类标签的核心语句提取方法、系统、设备及存储介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN114742016A (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN114996442B (zh) 一种联合抽象程度判别和摘要优化的文本摘要生成系统
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant