CN111061861B - 一种基于XLNet的文本摘要自动生成方法 - Google Patents
一种基于XLNet的文本摘要自动生成方法 Download PDFInfo
- Publication number
- CN111061861B CN111061861B CN201911277060.7A CN201911277060A CN111061861B CN 111061861 B CN111061861 B CN 111061861B CN 201911277060 A CN201911277060 A CN 201911277060A CN 111061861 B CN111061861 B CN 111061861B
- Authority
- CN
- China
- Prior art keywords
- text
- network
- xlnet
- constructing
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明公开了一种基于XLNet的文本摘要自动生成方法,主要解决文本摘要自动生成过程中,句子流畅性和准确性不高的问题。其实现过程是:获取成对的文本、摘要数据,构建训练集;构建一个包含所有常见词汇和字符的词典;用预训练的XLNet作为编码器,Transformer‑XL作为解码器搭建主干网络;将训练集中的文本数据进行分词并编码为向量,得到网络输入,微调网络;将测试文本分词、编码后送入训练好的网络N中,得到摘要结果。本发明生成的摘要的具有较好的准确性和语言流畅性,具有一定的实用价值。
Description
技术领域
本发明属于文本处理技术领域,具体涉及一种基于XLNet的文本摘要自动生成方法。
背景技术
随着计算机信息技术的飞速发展,互联网上的文本信息正以指数级的速度爆炸式增长。在这个效率至上的社会,如何从这巨大的信息海洋中获得快速获取我们所需要的信息变得至关重要。因此,近年来自动文本摘要逐渐成了自然语言处理领域的研究热点,该技术旨在利用计算机自动地提取文本重要信息、压缩文章内容从而提高用户获取信息的效率,在新闻网站、搜索引擎、业务分析、市场评估等许多领域都有非常大应用前景。
自动摘要生成的方法主要可分为两种:抽取式和生成式。前者通过提取文档中存在的关键词或关键句生成摘要,后者挖掘文本的抽象语义表示,并使用自然语言生成方法来生成。目前,抽取式已经比较成熟,但是抽取质量及内容的流畅度却差强人意。
伴随着深度学习的研究,生成式摘要的质量和流畅度都有很大的提升。Seq2Seq是当前使用最广泛的生成式模型,它包含编码器、注意力模块、解码器三个主要子模块。其中编码器往往由数层的RNN(Recurrent Neural Network)组成,负责把原文编码为一个向量;解码器负责从这个向量中提取信息,获取语义并生成文本摘要。但是由于长距离依赖问题的存在,基于RNN的生成式模型往往很难处理长文本摘要。另外,RNN的递归机制使得它无法并行计算,从而限制了生成摘要的速度。
2017年6月,Google团队提出了一种完全基于注意力机制的网络模块Transformer,它可以学习文本中长距离依赖关系和全局特性。次年完全基于Transformer构建的Bert(Bidirectional Encoder Representations from Transformers)横空出世,横扫各大排行榜,并引领一股预训练加微调的迁移学习热潮。但是Transformer仍然不够完美,在语言建模中仍然受到固定长度上下文的限制。针对此问题,Dai等人引入了段间循环机制,并将绝对位置编码改为相对位置编码,提出了Transformer-XL。实验表明,Transformer-XL可以学习到比RNN多80%,比Transformer多450%的距离依赖关系,而且速度更是Transformer的1800多倍。随后,基于Transformer-XL构建的XLNet在各项任务的表现都超越了Bert,成为了目前性能最好的自然语言处理模型。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于XLNet的文本摘要自动生成方法,获取成对的文本、摘要数据,构建训练集;构建一个包含所有常见词汇和字符的词典;用预训练的XLNet作为编码器,Transformer-XL作为解码器搭建主干网络;将训练集中的文本数据进行分词并编码为向量,得到网络输入,微调网络;将测试文本分词、编码后送入训练好的网络N中,得到摘要结果。
本发明采用以下技术方案:
一种基于XLNet的文本摘要自动生成方法,包括以下步骤:
S1、获取成对的文本、摘要数据,构建训练集T;
S2、构建一个包含所有常见词汇和字符的词典D;
S3、用预训练的XLNet作为编码器,Transformer-XL作为解码器构建主干网络N;
S4、将训练集T中的文本数据进行分词并编码为向量,得到网络输入ES,微调网络N;
S5、将测试文本分词、编码后送入训练好的网络N中,并使用Beam Search算法,得到最终的摘要结果。
具体的,步骤S2中,词典D中每一行为一个词或字符。
具体的,步骤S3具体为:
S301、搭建编码器网络XLNet,设定网络最大输入长度Lin为512,并使用公开的预训练权重初始化XLNet;
S302、用4层的Transformer-XL模块作为解码器,设定Transformer-XL的最大输出长度Lout为512。
具体的,步骤S4具体为:
S401、将训练集文本S分词处理得到词组S1、S2...Sm,Si表示输入文本的第i个词,m表示S的长度;
S402、根据词组中每个词Si在词典D中的行数得到字符编码并拼接在一起得到字符编码/>然后按照Transformer-XL的处理方式分别得到句子编码向量/>和相对位置编码向量/>最后通过求和得到最终的输入向量ES;
S403、将ES输入网络,并使用交叉熵损失函数训练网络,微调网络参数。
进一步的,步骤S401中,若m小于网络最大输入长度Lin,则使用特殊字符#填补至最大长度;若m大于最大输入长度Lin,则截去多余的词。
更进一步的,步骤S402中,最终的输入向量ES为:
更进一步的,句子编码向量为:
相对位置编码向量为:
字符编码为:
与现有技术相比,本发明至少具有以下有益效果:
本发明一种基于XLNet的文本摘要自动生成方法,利用XLNet作为编码器,相比RNN和Bert具有更好的语言表征能力,更易于处理长文本中的长距离依赖问题;通过加载预训练模型,引入了外部语料信息,减少了网络对大数据的依赖;提出的网络结构具有很好的可并行性,并且相比Bert具有更快的前向推导速度。
进一步的,以预训练XLNet作为编码器的好处:相比RNN和Bert具有更好的语言表征能力,更易于处理长文本中的长距离依赖问题;通过加载预训练模型,引入了外部语料信息,减少了网络对大数据的依赖。
综上所述,本发明提出的基于XLNet的自动摘要生成算法能更好的处理长文本,并能生成更为准确、流畅的摘要。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的总流程图。
具体实施方式
本发明提供了一种基于XLNet的文本摘要自动生成方法,主要解决文本摘要自动生成过程中,句子流畅性和准确性不高的问题。其实现过程是:获取成对的文本、摘要数据,构建训练集;构建一个包含所有常见词汇和字符的词典;用预训练的XLNet作为编码器,Transformer-XL作为解码器搭建主干网络;将训练集中的文本数据进行分词并编码为向量,得到网络输入,微调网络;将测试文本分词、编码后送入训练好的网络N中,得到摘要结果。本发明生成的摘要具有较好的准确性和语言流畅性,具有一定的实用价值。
实施过程主要包括两个步骤:用成对的文本、摘要数据(大约2W条短新闻和对应摘要)训练网络;然后,使用训练好的模型对新数据进行测试。
请参阅图1,本发明一种基于XLNet的文本摘要自动生成方法,包括以下步骤:
S1、获取成对的文本、摘要数据,构建训练集T;
S2、构建一个包含所有常见词汇和字符的词典D,每一行为一个词(或字符);
S3、用预训练的XLNet作为编码器,Transformer-XL作为解码器构建主干网络N;
S301、搭建编码器网络XLNet,设定网络最大输入长度(最大单词数)Lin为512,并使用公开的预训练权重初始化XLNet;
S302、用4层的Transformer-XL模块作为解码器,设定Transformer-XL的最大输出长度(最大单词数)Lout为512;
S4、将训练集T中的文本数据进行分词并编码为向量,得到网络输入ES,微调网络N;
S401、将训练集文本S分词处理得到词组S1、S2...Sm,其中Si表示输入文本的第i个词,m表示S的长度。
若m小于网络最大输入长度Lin,则使用特殊字符“#”填补至最大长度。若m大于最大输入长度Lin,则截去多余的词;
S402、根据词组中每个词Si在词典D中的行数得到字符编码并拼接在一起得到/>然后按照Transformer-XL的处理方式分别得到句子编码向量/>和相对位置编码向量最后通过求和得到最终的输入向量
S403、将ES输入网络,并使用交叉熵损失函数训练网络,微调网络参数;
S5、用训练好的网络对测试样本进行摘要生成。
在测试本地样本时,将其分词、编码后送入训练好的网络N中,并使用Beam Search算法,即得到最终的摘要结果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一种基于XLNet的文本摘要自动生成方法,为了说明本发明的有效性和适应性,实验所使用的数据集来自于公开文本摘要数据集LCSTS(A Large Scale ChineseShort Text Summarization Dataset),并随机抽选其中的2W条短新闻和对应摘要作为训练集,1W条新闻作为测试集。按照本发明提出的方法进行训练和测试后得到测试结果。为定量分析本方法的有效性,本发明使用文本摘要任务常用评价指标Rouge-1、Rouge-2、Rouge-L对测试结果进行了评估,并与基准方法RNN做了对比。
表一本发明与基准方法RNN实验结果对比
方法 | Rouge-1 | Rouge-2 | Rouge-L |
RNN | 0.220 | 0.142 | 0.228 |
本发明 | 0.319 | 0.151 | 0.291 |
通过实验结果可以看出本发明文本摘要生成任务能达到比较满意的效果,同时,在各项指标上均超过基准方法。
综上所述,本发明使用预训练的XLNet作为编码器,有效的引入了外部语料,减少了网络对大数据的依赖,并依靠XLNet强大的语言表征能力和超长上下文建模能力,使得生成的摘要更加准确、流畅。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (3)
1.一种基于XLNet的文本摘要自动生成方法,其特征在于,包括以下步骤:
S1、获取成对的文本、摘要数据,构建训练集T;
S2、构建一个包含所有常见词汇和字符的词典D;
S3、用预训练的XLNet作为编码器,Transformer-XL作为解码器构建主干网络N;
S4、将训练集T中的文本数据进行分词并编码为向量,得到网络输入ES,微调网络N,具体为:
S401、将训练集文本S分词处理得到词组S1、S2...Sm,Si表示输入文本的第i个词,m表示S的长度,若m小于网络最大输入长度Lin,则使用特殊字符#填补至最大长度;若m大于最大输入长度Lin,则截去多余的词,最终的输入向量ES为:
句子编码向量为:
相对位置编码向量为:
字符编码为:
S402、根据词组中每个词Si在词典D中的行数得到字符编码并拼接在一起得到字符编码/>然后按照Transformer-XL的处理方式分别得到句子编码向量/>和相对位置编码向量/>最后通过求和得到最终的输入向量ES;
S403、将ES输入网络,并使用交叉熵损失函数训练网络,微调网络参数;
S5、将测试文本分词、编码后送入训练好的网络N中,并使用Beam Search算法,得到最终的摘要结果。
2.根据权利要求1所述的基于XLNet的文本摘要自动生成方法,其特征在于,步骤S2中,词典D中每一行为一个词或字符。
3.根据权利要求1所述的基于XLNet的文本摘要自动生成方法,其特征在于,步骤S3具体为:
S301、搭建编码器网络XLNet,设定网络最大输入长度Lin为512,并使用公开的预训练权重初始化XLNet;
S302、用4层的Transformer-XL模块作为解码器,设定Transformer-XL的最大输出长度Lout为512。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277060.7A CN111061861B (zh) | 2019-12-12 | 2019-12-12 | 一种基于XLNet的文本摘要自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277060.7A CN111061861B (zh) | 2019-12-12 | 2019-12-12 | 一种基于XLNet的文本摘要自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061861A CN111061861A (zh) | 2020-04-24 |
CN111061861B true CN111061861B (zh) | 2023-09-01 |
Family
ID=70300930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911277060.7A Active CN111061861B (zh) | 2019-12-12 | 2019-12-12 | 一种基于XLNet的文本摘要自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061861B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666764B (zh) * | 2020-06-02 | 2023-07-04 | 南京优慧信安科技有限公司 | 一种基于XLNet的自动摘要方法与装置 |
CN111967258B (zh) * | 2020-07-13 | 2023-07-21 | 中国科学院计算技术研究所 | 一种构建共指消解模型的方法、共指消解的方法和介质 |
CN111916064A (zh) * | 2020-08-10 | 2020-11-10 | 北京睿科伦智能科技有限公司 | 一种端到端的神经网络语音识别模型的训练方法 |
CN112069309B (zh) * | 2020-09-14 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 信息获取方法、装置、计算机设备及存储介质 |
CN112417134B (zh) * | 2020-10-30 | 2022-05-13 | 同济大学 | 基于语音文本深度融合特征的摘要自动生成系统及方法 |
CN112765345A (zh) * | 2021-01-22 | 2021-05-07 | 重庆邮电大学 | 一种融合预训练模型的文本摘要自动生成方法及系统 |
CN112861506B (zh) * | 2021-03-12 | 2023-11-24 | 云知声智能科技股份有限公司 | 一种提升训练数据生成速度的方法和设备 |
CN113051910B (zh) * | 2021-03-19 | 2023-05-26 | 上海森宇文化传媒股份有限公司 | 一种用于预测人物角色情绪的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN109992775A (zh) * | 2019-03-25 | 2019-07-09 | 浙江大学 | 一种基于高级语义的文本摘要生成方法 |
US10380236B1 (en) * | 2017-09-22 | 2019-08-13 | Amazon Technologies, Inc. | Machine learning system for annotating unstructured text |
CN110532554A (zh) * | 2019-08-26 | 2019-12-03 | 南京信息职业技术学院 | 一种中文摘要生成方法、系统及存储介质 |
-
2019
- 2019-12-12 CN CN201911277060.7A patent/CN111061861B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10380236B1 (en) * | 2017-09-22 | 2019-08-13 | Amazon Technologies, Inc. | Machine learning system for annotating unstructured text |
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN109992775A (zh) * | 2019-03-25 | 2019-07-09 | 浙江大学 | 一种基于高级语义的文本摘要生成方法 |
CN110532554A (zh) * | 2019-08-26 | 2019-12-03 | 南京信息职业技术学院 | 一种中文摘要生成方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
刘泽宇 ; 马龙龙 ; 吴健 ; 孙乐 ; .基于多模态神经网络的图像中文摘要生成方法.中文信息学报.2017,(06),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111061861A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061861B (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN108804495B (zh) | 一种基于增强语义的自动文本摘要方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
CN110532554B (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
Ruokolainen et al. | Supervised morphological segmentation in a low-resource learning setting using conditional random fields | |
CN112257453B (zh) | 融合关键词和语义特征的汉越文本相似度计算方法 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN110427619B (zh) | 一种基于多通道融合与重排序的中文文本自动校对方法 | |
CN114818891B (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
CN112364743A (zh) | 一种基于半监督学习和弹幕分析的视频分类方法 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
Savci et al. | Comparison of pre-trained language models in terms of carbon emissions, time and accuracy in multi-label text classification using AutoML | |
CN111061873A (zh) | 一种基于Attention机制的多通道的文本分类方法 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN111325015A (zh) | 一种基于语义分析的文档查重方法及系统 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN113157914B (zh) | 一种基于多层循环神经网络的文档摘要提取方法及系统 | |
CN110019814B (zh) | 一种基于数据挖掘与深度学习的新闻信息聚合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |