CN112765345A - 一种融合预训练模型的文本摘要自动生成方法及系统 - Google Patents

一种融合预训练模型的文本摘要自动生成方法及系统 Download PDF

Info

Publication number
CN112765345A
CN112765345A CN202110088451.5A CN202110088451A CN112765345A CN 112765345 A CN112765345 A CN 112765345A CN 202110088451 A CN202110088451 A CN 202110088451A CN 112765345 A CN112765345 A CN 112765345A
Authority
CN
China
Prior art keywords
text
abstract
model
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110088451.5A
Other languages
English (en)
Inventor
邓维斌
李云波
胡峰
王崇宇
朱坤
彭露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110088451.5A priority Critical patent/CN112765345A/zh
Publication of CN112765345A publication Critical patent/CN112765345A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种融合预训练模型的文本摘要自动生成方法及系统,属于文本摘要自动生成技术领域。该系统在传统Sequence‑to‑Sequence模型和Transformer框架的基础上,使用BERT作为编码器来获取原始文本的上下文语义特征,同时加入卷积神经网络作为门控,对特征向量进行关键词和关键短语的筛选。在解码器阶段使用Transformer Decoder的基础上,增加了指针机制,使得摘要生成模型能够更好地解决生成过程中遇到的词汇不足OOV问题,从而提高生成摘要的可读性,最后生成阶段采用beam search的方法生成最好的摘要法律文本。

Description

一种融合预训练模型的文本摘要自动生成方法及系统
本发明属于文本摘要自动生成技术领域,涉及一种融合预训练模型的文本摘要自动生成方法及系统。
背景技术
随着互联网上大量的文本内容,新闻,论文,法律文件等各种文档以指数形式增长,自动文本摘要变得越来越重要。人工摘要需要耗费大量的时间、精力和成本,在文本内容庞大的情况下变得不切实际,因此,对各类文本进行一个“降维”处理显得非常必要。
文本摘要是自然语言处理以及自然语言生成的重要任务,其目的是使用抽取或生成的方式获取给定文档的简短版本,同时保留给定文档的显著信息。当前的自动摘要方法要么是抽取式的、生成式的,要么是混合的。抽取摘要方法选择输入文档中最重要的句子,然后将它们连接起来形成摘要。生成式摘要方法通过编码器分析文本语义,然后使用解码器生成能够表达文本中心思想的摘要。混合摘要方法结合了抽取式方法和生成式方法。尽管已经存在各种方法,但生成的摘要仍然离人工书写的摘要相距甚远。目前抽取式摘要方法技术比较成熟,也在业界被方法的使用,抽取的摘要文本在语法、句法、流畅性和保存更加完整的原始信息上有一定保证。但是,在句子之间的流畅性和文本的冗余信息还存在不足。
随着大规模数据集的出现,计算机硬件新能的提升,同时,深度学习的研究发展,生成式摘要的质量和流畅度都有很大的提升。Seq2Seq是当前使用最广泛的生成式模型,它包含编码器、注意力模块、解码器三个主要子模块。其中编码器往往由数层的RNN(Recurrent Neural Network)或者CNN(Convolutional Neural Network)组成,负责把原文编码为一个向量;解码器负责从这个向量中提取信息,获取语义并生成文本摘要。但是由于长距离依赖问题的存在,基于RNN或者CNN的生成式模型往往很难处理长文本摘要。
2018年,预训练模型BERT(Bidirectional Encoder Representations fromTransformers)横空出世,并横扫了各种自然语言理解任务中的排行榜。BERT基于Transformer模型构建,有着Transformer模型在于可以学习文本中长距离依赖关系和全局语义信息的优点,同时通过预训练加微调,在语义理解方面达到更优。
发明内容
有鉴于此,本发明的目的在于提供一种融合预训练模型的文本摘要自动生成方法及系统,该系统获取成对的文本和摘要数据,构建训练集,使用BERT自带的词表构建序列token,用预训练BERT作为编码器,使用卷积神经网络构建卷积门控单元,对BERT的输出进行关键短语的筛选,使用Transformer的Decoder作为预训练文本摘要自动生成模型的编码器,同时,加入指针机制和beam search算法生成最优摘要结果。
为达到上述目的,本发明提供如下技术方案:
一种融合预训练模型的文本摘要自动生成方法及系统,其特征在于:该方法包括以下步骤:
S1、获取法律文本数据集,构建法律文本的训练数据集合T并对数据集进行预处理;
S2、对法律文本进行语句的筛选;
S3、将训练集利用BERT自带的字表进行分字并编码为向量,得到网络的输入序列;
S4、用预训练BERT作为编码器,使用卷积神经网络构建门控单元,对BERT的输出进行关键短语的筛选;使用Transformer的Decoder部分和指针生成网络作为模型的编码器;
S5、将测试文本分字并编码后,放入已经训练好的网络模型,使用Beam Search算法进行摘要生成,最终得到法律文书摘要结果。
可选地,步骤S1中预处理包括提取文本信息,清除特殊字符,将数据集以summarization-article的数据对形式整理并切分为训练集和测试集。
可选地,步骤S2具体为:使用正则表达式的方式对法律文本进行语句的筛选,筛选包含有关键信息的句子,过滤对于摘要没有贡献的句子。
可选地,步骤S3具体为:
S31、将训练集文本S分字处理得到词组S1、S2…Sm,Si表示输入文本的第i个字,m表示S的长度,若m小于网络最大输入长度512,则使用特殊字符‘PAD’填补至最大长度;若m大于最大输入长度512,则截去多余的字符;
S32、根据词组中每个词Si在词典D中的行数得到字符编码Etoken,并拼接在一起的字符编码Eposition,然后按照Transformer的处理方式分别得到句子编码向量Esentence和相对位置编码向量Eposition,最后通过求和得到最终的输入向量Es
Figure BDA0002911824470000021
字符编码为:
Figure BDA0002911824470000022
句子编码向量
Figure BDA0002911824470000023
为:
Figure BDA0002911824470000024
相对位置编码向量
Figure BDA0002911824470000025
为:
Figure BDA0002911824470000026
S33、将Es输入网络,并使用交叉墒损失函数训练网络。
可选地,步骤S4具体为:
S41、搭建编码器网络BERT,设定网络的最大输入长度为512字符,并使用公开的预训练权重初始化BERT,下载BERT-chinese-wwm作为预训练语料;
S42、卷积门控单元包括一个inception结构的CNN和self-attention机制,用于解决模型生成的摘要会出现字词重复、语义不对应、语法错误和不能反映原文本的主要内容;
S43、利用12层Transformer Decoder模块作为模型的解码器,设定Transformer的最大输出长度为130字符;
S44、使用改进的基于RNN的指针生成器,作为本次模型的生成器。
可选地,步骤S42具体为:
(1)CNN使用inception的结构,卷积核的参数共享使模型能够提取某些类型的特征,与图像局部特征相似,文本信息也有局部或者n-gram的特征;
CNN提取句子中的这些共同特征,或者文本的上下文语义关系;模型使用1核,3核和5核分别提取1-gram、3-gram和5-gram的特征,并把三个特征拼接起来或者最终的特征;
(2)在卷积模块的输出部分,加入self-attention,使得模型能够进一步学习每一个时间步的token与其它时间步的token的关系,为了减少计算量,使用点乘的方式去表示每个时间步的信息和全局信息之间的关联:
Figure BDA0002911824470000031
其中Q和V是CNN的输出,K=WattV,其中Watt是一个可学习的参数矩阵;
(3)CNN和self-attention机制共同组合成卷积门控单元g,在每个时间步骤的gi
gi=ReLU(W[hi-k/2,…,hi+k/2]+b)
其中,ReLU是指线性整流函数,先调用CNN做局部特征信息的提取,和使用ReLU函数生成一个新的输出结果,然后调用self-attention机制获取全局的相关性,将它们的输出结果用矩阵表示,再调用Sigmoid函数设置为一个门控,门控的值在0到1之间,0表示移除信息,1表示保留信息。
可选地,步骤S44具体为:
指针生成器是基于RNN的结构设计,所以生成概率pgen、RNN的解码器中的隐藏状态st和上下文语义向量
Figure BDA0002911824470000032
与解码器的输入yt有关:
Figure BDA0002911824470000033
其中,
Figure BDA0002911824470000034
和标量bgen均为学习的参数,σ函数时Sigmoid函数;
由于RNN与BERT和transformer的结构不相同,将编码器的输出结果作为语义向量
Figure BDA0002911824470000035
解码器的输出结果作为隐藏状态st
复制机制将上下文向量、当前时刻解码器状态和当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用Sigmoid函数获得生成单词来源的开关pgen,0<pgen<1,将pgen与词汇标概率分布相乘,(1-pgen)与注意力分布相乘,并将两个相乘的结果相加到最终的词汇表概率分布:
Figure BDA0002911824470000041
根据最终词汇表概率分布使用beam search在每一时刻输出若干概率较高的字,并将这些字作为输入,使得解码器生成下一刻的字,直到生成结束字符<SEP>或者达到最大限制摘要文本长度;模型生成摘要结束后,从候选的句子中选择质量最高的句子作为最终生成摘要。
可选地,该系统包括数据集构建与预处理模块、基于正则表达式的句子抽取模块、网络输入模块、融合预训练模型的文本摘要网络模块和测试文本自动生成摘要模块;
该数据集构建与预处理模块与基于正则表达式的句子抽取模块信号连接;
该基于正则表达式的句子抽取模块与网络输入模块信号连接;
该网络输入模块与融合预训练模型的文本摘要网络模块信号连接;
该融合预训练模型的文本摘要网络模块与测试文本自动生成摘要模块信号连接。
本发明的有益效果在于:
1、本发明利用BERT作为编码器,相比RNN和CNN具有更好的理解文本上下文语义信息的能力,同时能够继承transformer的不依赖过去隐藏状态来捕获对先验单词的依赖性的优点;
2、通过使用BERT、Transformer和指针生成器,使得模型结构具有很好的并行计算能力,能够减少训练时间,减少由于长期依赖性而导致的性能下降;
3、另外,使用卷积门控单元,解决模型生成的摘要会出现字词重复,语义不对应,语法错误,不能反映原文本的主要内容等问题,保证输入的摘要具有通顺的语义。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的流程示意图;
图2为模型输入示意图;
图3为本发明的结构框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图3,为一种融合预训练模型的文本摘要自动生成方法及系统。
本发明属于文本摘要自动生成技术领域,涉及基于BERT预训练模型和卷积神经网络自动摘要模型,是指在给定法律文本的条件下,利用训练产生的模型自动生成简短摘要。该模型在传统Sequence-to-Sequence模型和Transformer框架的基础上,使用BERT作为编码器来获取原始文本的上下文语义特征,同时加入卷积神经网络作为门控,对特征向量进行关键词和关键短语的筛选。在解码器阶段使用Transformer Decoder的基础上,并增加了指针机制,使得摘要生成模型能够更好地解决生成过程中遇到的词汇不足OOV问题,从而提高生成摘要的可读性,最后生成阶段采用beam search的方法生成最好的摘要法律文本。
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于预训练的文本摘要自动生成方法,获取成对的文本、摘要数据,构建训练集;使用BERT自带的词表构建序列token;用预训练BERT作为编码器;使用卷积神经网络构建卷积门控单元,对BERT的输出进行关键短语的筛选;使用Transformer的Decoder作为预训练文本摘要自动生成模型的编码器,同时,加入指针机制和beam search算法生成最优摘要结果。
本发明采用以下技术方案:
一种融合预训练的文本摘要自动生成方法,该方法包括以下步骤:
S1、获取法律文本数据集,构建法律文本的训练数据集合T并对数据集进行预处理;
S2、对法律文本进行语句的筛选;
S3、将训练集利用预训练模型BERT自带的字表进行分字并编码为向量,得到网络的输入序列;
S4、用预训练模型BERT作为编码器,使用卷积神经网络构建门控单元,对预训练模型BERT的输出进行关键短语的筛选;使用Transformer的Decoder部分和指针生成网络作为模型的编码器;
S5、将测试文本分字并编码后,放入已经训练好的网络模型,使用Beam Search算法进行摘要生成,最终得到法律文书摘要结果。
可选地,步骤S1中预处理包括提取文本信息,清除特殊字符,将数据集以summarization-article的数据对形式整理并切分为训练集和测试集。
可选地,步骤S2具体为:使用正则表达式的方式对法律文本进行语句的筛选,筛选包含有关键信息的句子,过滤对于摘要没有贡献的句子。
可选地,步骤S3具体为:
S31、将训练集文本S分字处理得到词组S1、S2…Sm,Si表示输入文本的第i个字,m表示S的长度,若m小于网络最大输入长度512,则使用特殊字符‘PAD’填补至最大长度;若m大于最大输入长度512,则截去多余的字符;
S32、根据词组中每个词Si在词典D中的行数得到字符编码Etoken,并拼接在一起的字符编码Eposition,然后按照Transformer的处理方式分别得到句子编码向量Esentence和相对位置编码向量Eposition,最后通过求和得到最终的输入向量Es为:
Figure BDA0002911824470000061
字符编码为:
Figure BDA0002911824470000062
句子编码向量
Figure BDA0002911824470000063
为:
Figure BDA0002911824470000064
相对位置编码向量
Figure BDA0002911824470000065
为:
Figure BDA0002911824470000066
S33、将Es输入网络,并使用交叉墒损失函数训练网络。
可选地,步骤S4具体为:
S41、搭建编码器网络预训练模型BERT,设定网络的最大输入长度为512字符,并使用公开的预训练权重初始化预训练模型BERT,下载BERT-chinese-wwm作为预训练语料;
S42、卷积门控单元包括一个inception结构的CNN和self-attention机制,用于解决模型生成的摘要会出现字词重复、语义不对应、语法错误和不能反映原文本的主要内容;
S43、利用12层Transformer Decoder模块作为模型的解码器,设定Transformer的最大输出长度为130字符;
S44、使用改进的基于RNN的指针生成器,作为本次模型的生成器。
可选地,步骤S42具体为:
(1)CNN使用inception的结构,卷积核的参数共享使模型能够提取某些类型的特征,与图像局部特征相似,文本信息也有局部或者n-gram的特征;
CNN提取句子中的这些共同特征,或者文本的上下文语义关系;模型使用1核,3核和5核分别提取1-gram、3-gram和5-gram的特征,并把三个特征拼接起来或者最终的特征;
(2)在卷积模块的输出部分,加入self-attention,使得模型能够进一步学习每一个时间步的token与其它时间步的token的关系,为了减少计算量,使用点乘的方式去表示每个时间步的信息和全局信息之间的关联:
Figure BDA0002911824470000071
其中Q和V是CNN的输出,K=WattV,其中Watt是一个可学习的参数矩阵;
(3)CNN和self-attention机制共同组合成卷积门控单元g,在每个时间步骤的gi
gi=ReLU(W[hi-k/2,…,hi+k/2]+b)
其中,ReLU是指线性整流函数,先调用CNN做局部特征信息的提取,和使用ReLU函数生成一个新的输出结果,然后调用self-attention机制获取全局的相关性,将它们的输出结果用矩阵表示,再调用Sigmoid函数设置为一个门控,门控的值在0到1之间,0表示移除信息,1表示保留信息。
可选地,步骤S44具体为:
指针生成器是基于RNN的结构设计,所以生成概率pgen、RNN的解码器中的隐藏状态st和上下文语义向量
Figure BDA0002911824470000072
与解码器的输入yt有关:
Figure BDA0002911824470000073
其中,
Figure BDA0002911824470000074
和标量bgen均为学习的参数,σ函数时Sigmoid函数;
由于RNN与预训练模型BERT和transformer的结构不相同,将编码器的输出结果作为语义向量
Figure BDA0002911824470000081
解码器的输出结果作为隐藏状态st
复制机制将上下文向量、当前时刻解码器状态和当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用Sigmoid函数获得生成单词来源的开关pgen,0<pgen<1,将pgen与词汇标概率分布相乘,(1-pgen)与注意力分布相乘,并将两个相乘的结果相加到最终的词汇表概率分布:
Figure BDA0002911824470000082
根据最终词汇表概率分布使用beam search在每一时刻输出若干概率较高的字,并将这些字作为输入,使得解码器生成下一刻的字,直到生成结束字符<SEP>或者达到最大限制摘要文本长度;模型生成摘要结束后,从候选的句子中选择质量最高的句子作为最终生成摘要。
该系统包括数据集构建与预处理模块、基于正则表达式的句子抽取模块、网络输入模块、融合预训练模型的文本摘要网络模块和测试文本自动生成摘要模块;
该数据集构建与预处理模块与基于正则表达式的句子抽取模块信号连接;
该基于正则表达式的句子抽取模块与网络输入模块信号连接;
该网络输入模块与融合预训练模型的文本摘要网络模块信号连接;
该融合预训练模型的文本摘要网络模块与测试文本自动生成摘要模块信号连接。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种融合预训练模型的文本摘要自动生成方法,其特征在于:所述方法包括以下步骤:
S1、获取法律文本数据集,构建法律文本的训练数据集合T并对数据集进行预处理;
S2、对法律文本进行语句的筛选;
S3、将训练集利用预训练模型BERT自带的字表进行分字并编码为向量,得到网络的输入序列;
S4、用预训练模型BERT作为编码器,使用卷积神经网络构建门控单元,对预训练模型BERT的输出进行关键短语的筛选;使用Transformer的Decoder部分和指针生成网络作为模型的编码器;
S5、将测试文本分字并编码后,放入已经训练好的网络模型,使用Beam Search算法进行摘要生成,最终得到法律文书摘要结果。
2.根据权利要求1所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于:所述步骤S 1中预处理包括提取文本信息,清除特殊字符,将数据集以summarization-article的数据对形式整理并切分为训练集和测试集。
3.根据权利要求1所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于:所述步骤S2具体为:使用正则表达式的方式对法律文本进行语句的筛选,筛选包含有关键信息的句子,过滤对于摘要没有贡献的句子。
4.根据权利要求1所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于:所述步骤S3具体为:
S31、将训练集文本S分字处理得到词组S1、S2...Sm,Si表示输入文本的第i个字,m表示S的长度,若m小于网络最大输入长度512,则使用特殊字符‘PAD’填补至最大长度;若m大于最大输入长度512,则截去多余的字符;
S32、根据词组中每个词Si在词典D中的行数得到字符编码Etoken,并拼接在一起的字符编码Eposition,然后按照Transformer的处理方式分别得到句子编码向量Esentence和相对位置编码向量Eposition,最后通过求和得到最终的输入向量Es为:
Figure FDA0002911824460000011
字符编码为:
Figure FDA0002911824460000012
句子编码向量
Figure FDA0002911824460000013
为:
Figure FDA0002911824460000014
相对位置编码向量
Figure FDA0002911824460000015
为:
Figure FDA0002911824460000016
S33、将Es输入网络,并使用交叉熵损失函数训练网络。
5.根据权利要求1所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于,所述步骤S4具体为:
S41、搭建编码器网络预训练模型BERT,设定网络的最大输入长度为512字符,并使用公开的预训练权重初始化预训练模型BERT,下载BERT-chinese-wwm作为预训练语料;
S42、卷积门控单元包括一个inception结构的CNN和self-attention机制,用于解决模型生成的摘要会出现字词重复、语义不对应、语法错误和不能反映原文本的主要内容;
S43、利用12层Transformer Decoder模块作为模型的解码器,设定Transformer的最大输出长度为130字符;
S44、使用改进的基于RNN的指针生成器,作为本次模型的生成器。
6.根据权利要求5所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于,所述步骤S42具体为:
(1)CNN使用inception的结构,卷积核的参数共享使模型能够提取某些类型的特征,与图像局部特征相似,文本信息也有局部或者n-gram的特征;
CNN提取句子中的这些共同特征,或者文本的上下文语义关系;模型使用1核,3核和5核分别提取1-gram、3-gram和5-gram的特征,并把三个特征拼接起来或者最终的特征;
(2)在卷积模块的输出部分,加入self-attention,使得模型能够进一步学习每一个时间步的token与其它时间步的token的关系,为了减少计算量,使用点乘的方式去表示每个时间步的信息和全局信息之间的关联:
Figure FDA0002911824460000021
其中Q和V是CNN的输出,K=WattV,其中Watt是一个可学习的参数矩阵;
(3)CNN和self-attention机制共同组合成卷积门控单元g,在每个时间步骤的gi
gi=ReLU(W[hi-k/2,...,hi+k/2]+b)
其中,ReLU是指线性整流函数,先调用CNN做局部特征信息的提取,和使用ReLU函数生成一个新的输出结果,然后调用self-attention机制获取全局的相关性,将它们的输出结果用矩阵表示,再调用Sigmoid函数设置为一个门控,门控的值在0到1之间,0表示移除信息,1表示保留信息。
7.根据权利要求5所述的一种融合预训练模型的文本摘要自动生成方法,其特征在于,所述步骤S44具体为:
指针生成器是基于RNN的结构设计,所以生成概率pgen、RNN的解码器中的隐藏状态st和上下文语义向量
Figure FDA0002911824460000022
与解码器的输入yt有关:
Figure FDA0002911824460000031
其中,
Figure FDA0002911824460000032
和标量bgen均为学习的参数,σ函数时Sigmoid函数;
由于RNN与预训练模型BERT和transformer的结构不相同,将编码器的输出结果作为语义向量
Figure FDA0002911824460000033
解码器的输出结果作为隐藏状态st
复制机制将上下文向量、当前时刻解码器状态和当前时刻解码器输入单词的词向量三者经过前馈神经网络后使用Sigmoid函数获得生成单词来源的开关pgen,0<pgen<1,将pgen与词汇标概率分布相乘,(1-pgen)与注意力分布相乘,并将两个相乘的结果相加到最终的词汇表概率分布:
Figure FDA0002911824460000034
根据最终词汇表概率分布使用beam search在每一时刻输出若干概率较高的字,并将这些字作为输入,使得解码器生成下一刻的字,直到生成结束字符<SEP>或者达到最大限制摘要文本长度;模型生成摘要结束后,从候选的句子中选择质量最高的句子作为最终生成摘要。
8.基于权利要求1~7中任意一项所述方法的基于预训练模型的文本摘要自动生成系统,其特征在于,所述系统包括数据集构建与预处理模块、基于正则表达式的句子抽取模块、网络输入模块、融合预训练模型的文本摘要网络模块和测试文本自动生成摘要模块;
该数据集构建与预处理模块与基于正则表达式的句子抽取模块信号连接;
该基于正则表达式的句子抽取模块与网络输入模块信号连接;
该网络输入模块与融合预训练模型的文本摘要网络模块信号连接;
该融合预训练模型的文本摘要网络模块与测试文本自动生成摘要模块信号连接。
CN202110088451.5A 2021-01-22 2021-01-22 一种融合预训练模型的文本摘要自动生成方法及系统 Pending CN112765345A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110088451.5A CN112765345A (zh) 2021-01-22 2021-01-22 一种融合预训练模型的文本摘要自动生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110088451.5A CN112765345A (zh) 2021-01-22 2021-01-22 一种融合预训练模型的文本摘要自动生成方法及系统

Publications (1)

Publication Number Publication Date
CN112765345A true CN112765345A (zh) 2021-05-07

Family

ID=75705606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110088451.5A Pending CN112765345A (zh) 2021-01-22 2021-01-22 一种融合预训练模型的文本摘要自动生成方法及系统

Country Status (1)

Country Link
CN (1) CN112765345A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204627A (zh) * 2021-05-13 2021-08-03 哈尔滨工业大学 利用DialoGPT作为特征标注器的对话摘要生成系统
CN113220853A (zh) * 2021-05-12 2021-08-06 燕山大学 一种法律提问自动生成方法及系统
CN113361261A (zh) * 2021-05-19 2021-09-07 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113407711A (zh) * 2021-06-17 2021-09-17 成都崇瑚信息技术有限公司 一种利用预训练模型的吉布斯受限文本摘要生成方法
CN113688230A (zh) * 2021-07-21 2021-11-23 武汉众智数字技术有限公司 一种文本摘要生成的方法及系统
CN114118024A (zh) * 2021-12-06 2022-03-01 成都信息工程大学 一种条件文本生成方法及生成系统
CN114281982A (zh) * 2021-12-29 2022-04-05 中山大学 一种多模态融合技术的图书宣传摘要生成方法和系统
CN114490976A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 对话摘要训练数据的生成方法、装置、设备及存储介质
CN115589446A (zh) * 2022-09-26 2023-01-10 黑盒科技(广州)有限公司 一种基于预训练与提示的会议摘要生成方法及系统
CN115712760A (zh) * 2022-11-29 2023-02-24 哈尔滨理工大学 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统
CN116976290A (zh) * 2023-06-19 2023-10-31 珠海盈米基金销售有限公司 一种基于自回归模型的多场景资讯摘要生成方法以及装置
CN117150002A (zh) * 2023-11-01 2023-12-01 浙江大学 一种基于动态知识引导的摘要生成方法、系统及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472238A (zh) * 2019-07-25 2019-11-19 昆明理工大学 基于层级交互注意力的文本摘要方法
CN111061861A (zh) * 2019-12-12 2020-04-24 西安艾尔洛曼数字科技有限公司 一种基于XLNet的文本摘要自动生成方法
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472238A (zh) * 2019-07-25 2019-11-19 昆明理工大学 基于层级交互注意力的文本摘要方法
CN111061861A (zh) * 2019-12-12 2020-04-24 西安艾尔洛曼数字科技有限公司 一种基于XLNet的文本摘要自动生成方法
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
徐如阳等: "卷积自注意力编码过滤的强化自动摘要模型", 《小型微型计算机系统》, no. 02, 15 February 2020 (2020-02-15), pages 271 - 276 *
赵璐?等: "基于BERT特征的双向LSTM神经网络在中文电子病历输入推荐中的应用", 《中国数字医学》, no. 04, 15 April 2020 (2020-04-15), pages 55 - 57 *
陈佳丽等: "利用门控机制融合依存与语义信息的事件检测方法", 《中文信息学报》, no. 08, 15 August 2020 (2020-08-15), pages 51 - 60 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220853A (zh) * 2021-05-12 2021-08-06 燕山大学 一种法律提问自动生成方法及系统
CN113204627A (zh) * 2021-05-13 2021-08-03 哈尔滨工业大学 利用DialoGPT作为特征标注器的对话摘要生成系统
CN113361261B (zh) * 2021-05-19 2022-09-09 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113361261A (zh) * 2021-05-19 2021-09-07 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113407711A (zh) * 2021-06-17 2021-09-17 成都崇瑚信息技术有限公司 一种利用预训练模型的吉布斯受限文本摘要生成方法
CN113688230A (zh) * 2021-07-21 2021-11-23 武汉众智数字技术有限公司 一种文本摘要生成的方法及系统
CN114118024A (zh) * 2021-12-06 2022-03-01 成都信息工程大学 一种条件文本生成方法及生成系统
CN114281982A (zh) * 2021-12-29 2022-04-05 中山大学 一种多模态融合技术的图书宣传摘要生成方法和系统
CN114490976A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 对话摘要训练数据的生成方法、装置、设备及存储介质
CN114490976B (zh) * 2021-12-30 2023-04-25 北京百度网讯科技有限公司 对话摘要训练数据的生成方法、装置、设备及存储介质
CN115589446A (zh) * 2022-09-26 2023-01-10 黑盒科技(广州)有限公司 一种基于预训练与提示的会议摘要生成方法及系统
CN115712760A (zh) * 2022-11-29 2023-02-24 哈尔滨理工大学 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统
CN115712760B (zh) * 2022-11-29 2023-04-21 哈尔滨理工大学 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统
CN116976290A (zh) * 2023-06-19 2023-10-31 珠海盈米基金销售有限公司 一种基于自回归模型的多场景资讯摘要生成方法以及装置
CN116976290B (zh) * 2023-06-19 2024-03-19 珠海盈米基金销售有限公司 一种基于自回归模型的多场景资讯摘要生成方法以及装置
CN117150002A (zh) * 2023-11-01 2023-12-01 浙江大学 一种基于动态知识引导的摘要生成方法、系统及装置
CN117150002B (zh) * 2023-11-01 2024-02-02 浙江大学 一种基于动态知识引导的摘要生成方法、系统及装置

Similar Documents

Publication Publication Date Title
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN109783657B (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN111414464A (zh) 一种问题生成方法、装置、设备及存储介质
US20050289463A1 (en) Systems and methods for spell correction of non-roman characters and words
CN111178094A (zh) 一种基于预训练的稀缺资源神经机器翻译训练方法
CN112613326B (zh) 一种融合句法结构的藏汉语言神经机器翻译方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
Heo et al. Multimodal neural machine translation with weakly labeled images
Kang Spoken language to sign language translation system based on HamNoSys
CN111339772A (zh) 俄语文本情感分析方法、电子设备和存储介质
Mahata et al. Simplification of English and Bengali sentences for improving quality of machine translation
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN116720531A (zh) 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
Xiang et al. A cross-guidance cross-lingual model on generated parallel corpus for classical Chinese machine reading comprehension
Shi et al. Adding Visual Information to Improve Multimodal Machine Translation for Low‐Resource Language
Rauf et al. Document level contexts for neural machine translation
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
CN114372140A (zh) 分层会议摘要生成模型训练方法、生成方法及装置
CN113392629A (zh) 基于预训练模型的人称代词消解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507