CN111008277B - 一种自动文本摘要方法 - Google Patents

一种自动文本摘要方法 Download PDF

Info

Publication number
CN111008277B
CN111008277B CN201911047825.8A CN201911047825A CN111008277B CN 111008277 B CN111008277 B CN 111008277B CN 201911047825 A CN201911047825 A CN 201911047825A CN 111008277 B CN111008277 B CN 111008277B
Authority
CN
China
Prior art keywords
training
text
decoder
characters
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911047825.8A
Other languages
English (en)
Other versions
CN111008277A (zh
Inventor
花福军
陆文斌
周正斌
廖文绪
张应福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Creative Information Technology Co ltd
Original Assignee
Creative Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Creative Information Technology Co ltd filed Critical Creative Information Technology Co ltd
Priority to CN201911047825.8A priority Critical patent/CN111008277B/zh
Publication of CN111008277A publication Critical patent/CN111008277A/zh
Application granted granted Critical
Publication of CN111008277B publication Critical patent/CN111008277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种自动文本摘要方法,一种自动文本摘要方法,包括:文本预处理,建立文本字符到数字编号的映射,将文本字符转化成用于计算的向量编码;编解码器预训练,训练出能将长文本编码并解码为短文本的编解码器初始化网络;生成对抗网络优化,优化编解码网络中的编码器参数;解码器优化,当编码器优化后,重复多次训练编解码网络以优化解码器,提高生成文本的BLEU值。本发明能适应多种语言场景下的文本摘要任务,生成的摘要具有良好的可读性。

Description

一种自动文本摘要方法
技术领域
本发明涉及自然语言处理技术,特别是涉及一种自动文本摘要方法。
背景技术
互联网技术让信息的采集和传播更加快速,使人们进入了一个信息爆炸的时代。丰富多样的信息资源一方面给人们的生活带来极大便利,但海量的信息也给人们带来很大困扰,如何从互联网中数以万亿的信息中快速取得自己想要的信息,成为一件具有挑战的事情。一般来说,未经处理的原文冗余信息过多,需要花费长时间阅读,真正需要的信息被无关信息覆盖,造成用户信息获取困难。在这个信息高速增长的互联网时代,研究一种可以用于提取文本中关键信息的自动文本摘要方法,可以提高用户的信息查询效率和阅读效率,方便人们的工作和生活。
自动文本摘要,目前的方法集中在以下几个方面:
1.基于统计学的方法
基于统计学的方法,对文章进行抽取式摘要,统计学方法通过“词频”这一文本特征来进行句子的选取,文中出现频率高的词语与文章表达主题的关系相对比较密切,可以根据在文章中出现的频率计算词语权重。基于词语权重、句子的位置特征等多个文本特征结合计算出句子权重,选择权重较大的句子作为文章的摘要。
这种方法的优点算法简单,且不会破坏单个句子的可读性,但往往由多个句子组合出来的摘要整体不连贯,概括性不好。
2.基于机器学习的方法
基于传统机器学习的方法一般是通过朴素贝叶斯分类模型的新方法判定文档中的某一个句子是否应该被选取作为摘要。或者基于隐马尔可夫模型,对文档中的一些特征计算句子得分,根据句子得分生成文本摘要。或者使用线性回归模型建模生成文本摘要。
同基于统计学的方法相比,基于机器学习的方法泛化能力更强,扩展性和算法性能更好。但机器学习的方法还是从原文中抽取内容拼接成文本摘要,同样具备概括性不好的缺点。
3.基于深度学习的方法
随着计算机性能的不断增长,深度学习逐渐登上了舞台。目前深度学习方法在自然语言处理领域有一个基本方向:首先寻求文本在指定维数空间内的语义表示,然后再应用到不同的任务中。深度学习应用于文本摘要的生成,可以基于Sequence-to-Sequence模型,将卷积模型应用于对原文档进行编码,然后利用上下文之间的注意力前馈神经网络生成摘要。深度学习的方法更接近于人工的摘要方式:理解内容之后生成概括,目前效果最好,但是需要大量人工标注的样本,训练成本很高。
发明内容
本发明的目的在于实现一种自动文本摘要方法,能适应多种语言场景下的文本摘要任务,生成的摘要具有良好的可读性,同时可以提高生成文本BLEU分值。
一种自动文本摘要方法,包括:
文本预处理,建立文本字符到数字编号的映射,将文本字符转化成用于计算的向量编码;
编解码器预训练,训练出能将长文本编码并解码为短文本的编解码器初始化网络;
生成对抗网络优化,优化编解码网络中的编码器参数;
解码器优化,当编码器优化后,重复多次训练编解码网络以优化解码器,提高生成文本的BLEU值。
进一步地,所述文本预处理,包括以下步骤:
S11:获取训练集,每一条训练数据包括长文本原文和目标摘要文本;
S12::从数据库中提取出训练集的所有文本,进行数据预处理,以字符为基本单位,去除标点符号和出现次数小于min_count的字符,其中,min_count取值为32;
S13:按字符出现的顺序依次进行编号,建立字符和数字编号的映射字典,并将字典保存到本地文件中;
进一步地,所述编解码器预训练,包括以下步骤:
S21:搭建编解码器模型,编码器采用双层双向LSTM,解码器采用双层单向LSTM,采用交叉熵误差作为loss,解码算法采用beam search算法;
S22:从全部训练集中抽取若干样本作为抽样训练集A,抽样训练集A的数量取值为全部训练集的20%;
S23:训练数据的长文本原文作为Input,目标摘要文本作为Label,文本数据通过文本预处理获得的字典由字符转换成数字编号,再转换成One-Hot向量,训练编解码器模型k个epoch,k取值为10。
S24:训练完成后,计算出训练集A所有样本的BLEU值,对于每一个样本的,BLEU值计算公式如下:
BLEU=BP×exp(logPn)
其中,Pn为n-gram精度分数,BP为简洁惩罚因子,c为生成的文本长度,r为有效参考语料库长度,一般取对应Label长度,计算公式如下:
Figure GDA0002379901500000031
进一步地,所述生成对抗网络优化包括以下步骤:
S31:搭建Wasserstein GAN,用于生成对抗网络,此处选用WGAN-div,生成对抗网络中的生成器是在上一步预训练后编解码器网络中的编码器,判别器选择加了FM层的三层全连接二分类器;
S32:以抽样训练集A中BLEU值大小排名前10%的样本通过编码器转化为特征向量后作为真实分布集合B;
S33:冻结解码器的参数。从A集合中采样数据通过编码器E得到generate data,从B集合中采样得到true data,作为输入训练WGAN-div,交替训练WGAN-div中的生成器和判别器共k个epoch,此处k取值为100,以此优化编码器E的参数;
进一步地,所述解码器优化,包括以下步骤:
S41:重新从全部训练集中抽取若干样本作为抽样训练集A,抽样训练集A的数量取值为全部训练集的20%;
S42:冻结编码器E的参数,解冻解码器D的参数,训练数据的长文本原文作为Input,目标摘要文本作为Label,文本数据通过第2步获得的字典由字符转换成数字编号,再转换成One-Hot向量,训练编解码器模型k个epoch,k一般取值为10;
S43:训练完成后,计算出训练集A所有样本的BLEU值;
S44:返回生成对抗网络优化步骤,重复N次直至训练完成;
本发明的有益效果是:
(1)添加FM层到WGAN的判别器中,可以提高判别器的学习速度和准确率,以此提高编解码模型中编码器E的性能;
(2)提出了一种新的编解码模型优化方式,增加WGAN参与到编解码器的训练过程中,此方式相对于传统的端到端训练方式效果有很好的提升,可以提高生成文本的BLEU分值;
附图说明
图1为本发明一种自动文本摘要方法的流程图。
图2为本发明一种自动文本摘要方法的编解码模型结构框图。
图3为本发明一种自动文本摘要方法的WGAN优化模型结构框图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种自动文本摘要方法,包括文本预处理,编解码器预训练,生成对抗网络优化编码器,解码器优化;
所述文本预处理,用于建立文本字符到数字编号的映射,从而可以将文本字符转化成可以用于计算的向量编码;
所述编解码器预训练,用于训练出能将长文本编码并解码为短文本的编解码器初始化网络;
所述生成对抗网络优化,用于优化编解码网络中的编码器参数;
所述解码器优化,用于当编码器优化后,再次训练编解码网络以优化解码器,提高生成文本的BLEU值;
所述文本预处理,其特征在于:包括以下步骤:
S11:获取训练集,每一条训练数据由两部分组成:(1)长文本原文,(2)目标摘要文本;
S2:从数据库中提取出训练集的所有文本,进行数据预处理,以字符为基本单位,去除标点符号和出现次数小于min_count的字符,min_count一般取值为32;
S13:按字符出现的顺序依次进行编号,建立字符和数字编号的映射字典,将字典保存到本地文件中,如json格式文件,以便后续从本地读入使用;
所述编解码器预训练,其特征在于:包括以下步骤:
S21:搭建编解码器模型,编码器采用双层双向LSTM,解码器采用双层单向LSTM,以下简称编码器为E,解码器为D,采用交叉熵误差作为loss,解码算法采用beam search;
S22:从全部训练集中抽取若干样本作为抽样训练集A,抽样训练集A的数量一般取值为全部训练集的20%;
S23:训练数据的长文本原文作为Input,目标摘要文本作为Label,文本数据通过第2步获得的字典由字符转换成数字编号,再转换成One-Hot向量。训练编解码器模型k个epoch,k一般取值为10。
S4.训练完成后,计算出训练集A所有样本的BLEU值,对于每一个样本的,BLEU值计算公式如下:
BLEU=BP×exp(logPn)
其中Pn为n-gram精度分数,其中BP是简洁惩罚因子,c为生成的文本长度,r为有效参考语料库长度,一般取对应Label长度,计算公式如下:
Figure GDA0002379901500000041
所述生成对抗网络优化,其特征在于:包括以下步骤:
S1.搭建Wasserstein GAN(Wasserstein生成对抗网络),此处选用WGAN-div。生成对抗网络中的生成器是在上一步预训练后编解码器网络中的编码器E,判别器选择加了FM层的三层全连接二分类器;
S2.以抽样训练集A中BLEU值大小排名前10%的样本通过编码器转化为特征向量后作为真实分布集合B;
S3.冻结解码器D的参数。从A集合中采样数据通过编码器E得到generate data,从B集合中采样得到true data,作为输入训练WGAN-div,交替训练WGAN-div中的生成器和判别器共k个epoch,此处k一般取值为100,以此优化编码器E的参数;
所述解码器优化,其特征在于:包括以下步骤:
S1.重新从全部训练集中抽取若干样本作为抽样训练集A,抽样训练集A的数量一般取值为全部训练集的20%;
S2.冻结编码器E的参数,解冻解码器D的参数,训练数据的长文本原文作为Input,目标摘要文本作为Label,文本数据通过第2步获得的字典由字符转换成数字编号,再转换成One-Hot向量。训练编解码器模型k个epoch,k一般取值为10;
S3.训练完成后,计算出训练集A所有样本的BLEU值;
S3.返回生成对抗网络优化步骤,重复N次直至训练完成;
如图2所示,输入一个字符序列,如(a,b,c,d,e),依次通过编码器后转化为特征向量,将全部特征向量连接成一个序列编码特征向量,该向量是编码器提供给解码器的序列整体信息。将序列的特征向量输入解码器,解码器循环预测生成下一个字符,得到生成字符序列(Q,W,E,R),直至预测生成<e>结束标识符。
图3为本发明一种自动文本摘要方法的WGAN优化模型结构框图。如图3所示,输入一个采样自训练集的字符序列,如(a,b,c,d,e),依次通过编码器(生成器)后转化为特征向量,将全部特征向量连接成一个序列编码特征向量,作为一次采样生成的generate data。从真实分布集合采样得到true data。将generate data和true data交替输入判别器,判别器是一个二分类器,判别当前输入的data是generate data还是true data,误差将反馈到编码器(生成器),从而同时优化了判别器和编码器(生成器)。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (2)

1.一种自动文本摘要方法,其特征在于,包括:
文本预处理,建立文本字符到数字编号的映射,将文本字符转化成用于计算的向量编码;
编解码器预训练,训练出能将长文本编码并解码为短文本的编解码器初始化网络;
生成对抗网络优化,优化编解码网络中的编码器参数;
解码器优化,当编码器优化后,重复多次训练编解码网络以优化解码器,提高生成文本的BLEU值;
所述编解码器预训练,包括以下步骤:
S21:搭建编解码器模型,编码器采用双层双向LSTM,解码器采用双层单向LSTM,采用交叉熵误差作为loss,解码算法采用beam search算法;
S22:从全部训练集中抽取若干样本作为抽样训练集A,抽样训练集A的数量取值为全部训练集的20%;
S23:训练数据的长文本原文作为Input,目标摘要文本作为Label,文本数据通过文本预处理获得的字典由字符转换成数字编号,再转换成One-Hot向量,训练编解码器模型k个epoch,k取值为10;
S24:训练完成后,计算出训练集A所有样本的BLEU值,对于每一个样本的,BLEU值计算公式如下:
BLEU=BP×exp(logPn)
其中,Pn为n-gram精度分数,BP为简洁惩罚因子,c为生成的文本长度,r为有效参考语料库长度,取对应Label长度,计算公式如下:
Figure FDA0002685033800000011
所述生成对抗网络优化包括以下步骤:
S31:搭建Wasserstein GAN,用于生成对抗网络,此处选用WGAN-div,生成对抗网络中的生成器是在上一步预训练后编解码器网络中的编码器,判别器选择加了FM层的三层全连接二分类器;
S32:以抽样训练集A中BLEU值大小排名前10%的样本通过编码器转化为特征向量后作为真实分布集合B;
S33:冻结解码器的参数,从A集合中采样数据通过编码器E得到generate data,从B集合中采样得到true data,作为输入训练WGAN-div,交替训练WGAN-div中的生成器和判别器共k个epoch,此处k取值为100,以此优化编码器E的参数;
所述解码器优化,包括以下步骤:
S41:重新从全部训练集中抽取若干样本作为抽样训练集A,抽样训练集A的数量取值为全部训练集的20%;
S42:冻结编码器E的参数,解冻解码器D的参数,训练数据的长文本原文作为Input,目标摘要文本作为Label,文本数据通过文本预处理获得的字典由字符转换成数字编号,再转换成One-Hot向量,训练编解码器模型k个epoch,k取值为10;
S43:训练完成后,计算出训练集A所有样本的BLEU值;
S44:返回生成对抗网络优化步骤,重复N次直至训练完成。
2.根据权利要求1所述的一种自动文本摘要方法,其特征在于,所述文本预处理,包括以下步骤:
S11:获取训练集,每一条训练数据包括长文本原文和目标摘要文本;
S12:从数据库中提取出训练集的所有文本,进行数据预处理,以字符为基本单位,去除标点符号和出现次数小于min_count的字符,其中,min_count取值为32;
S13:按字符出现的顺序依次进行编号,建立字符和数字编号的映射字典,并将字典保存到本地文件中。
CN201911047825.8A 2019-10-30 2019-10-30 一种自动文本摘要方法 Active CN111008277B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911047825.8A CN111008277B (zh) 2019-10-30 2019-10-30 一种自动文本摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911047825.8A CN111008277B (zh) 2019-10-30 2019-10-30 一种自动文本摘要方法

Publications (2)

Publication Number Publication Date
CN111008277A CN111008277A (zh) 2020-04-14
CN111008277B true CN111008277B (zh) 2020-11-03

Family

ID=70110904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911047825.8A Active CN111008277B (zh) 2019-10-30 2019-10-30 一种自动文本摘要方法

Country Status (1)

Country Link
CN (1) CN111008277B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463955B (zh) * 2020-11-25 2022-10-11 浪潮商用机器有限公司 一种文本摘要生成方法及相关装置
CN116562275B (zh) * 2023-06-09 2023-09-15 创意信息技术股份有限公司 一种结合实体属性图的自动文本摘要方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN110134782A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180077691A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 문장 추상화 장치 및 방법
WO2018135723A1 (ko) * 2017-01-17 2018-07-26 경북대학교 산학협력단 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
CN107291836B (zh) * 2017-05-31 2020-06-02 北京大学 一种基于语义相关度模型的中文文本摘要获取方法
US10679129B2 (en) * 2017-09-28 2020-06-09 D5Ai Llc Stochastic categorical autoencoder network
US10971142B2 (en) * 2017-10-27 2021-04-06 Baidu Usa Llc Systems and methods for robust speech recognition using generative adversarial networks
CN108491497B (zh) * 2018-03-20 2020-06-02 苏州大学 基于生成式对抗网络技术的医疗文本生成方法
CN108427771B (zh) * 2018-04-09 2020-11-10 腾讯科技(深圳)有限公司 摘要文本生成方法、装置和计算机设备
CN109766432B (zh) * 2018-07-12 2021-03-30 中国科学院信息工程研究所 一种基于生成对抗网络的中文摘要生成方法和装置
CN109614480B (zh) * 2018-11-26 2020-10-30 武汉大学 一种基于生成式对抗网络的自动摘要的生成方法及装置
CN109783910B (zh) * 2018-12-29 2020-08-28 西安交通大学 一种利用生成对抗网络加速的结构优化设计方法
CN110196903B (zh) * 2019-05-06 2023-05-23 中国海洋大学 一种用于为文章生成摘要的方法及系统
CN110309512A (zh) * 2019-07-05 2019-10-08 北京邮电大学 一种基于生成对抗网络的中文语法错误更正方法
CN110348016B (zh) * 2019-07-15 2022-06-14 昆明理工大学 基于句子关联注意力机制的文本摘要生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN110134782A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法

Also Published As

Publication number Publication date
CN111008277A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN110209801B (zh) 一种基于自注意力网络的文本摘要自动生成方法
CN111639175B (zh) 一种自监督的对话文本摘要方法及系统
CN111858932B (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN106776548B (zh) 一种文本的相似度计算的方法和装置
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN104391842A (zh) 一种翻译模型构建方法和系统
CN112507065A (zh) 一种基于注释语义信息的代码搜索方法
CN108419094A (zh) 视频处理方法、视频检索方法、装置、介质及服务器
CN110134946A (zh) 一种针对复杂数据的机器阅读理解方法
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN111178053B (zh) 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN110059324A (zh) 基于依存信息监督的神经网络机器翻译方法及装置
CN114065047A (zh) 一种基于多级注意力机制的知识增强对话推荐方法
CN111008277B (zh) 一种自动文本摘要方法
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN111814477A (zh) 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN116050401A (zh) 基于Transformer问题关键词预测的多样性问题自动生成方法
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN116483991A (zh) 一种对话摘要生成方法及系统
CN111782810A (zh) 一种基于主题增强的文本摘要生成方法
Modi et al. E-mail autocomplete function using RNN Encoder-decoder sequence-to-sequence model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant