CN113128214B - 一种基于bert预训练模型的文本摘要生成方法 - Google Patents

一种基于bert预训练模型的文本摘要生成方法 Download PDF

Info

Publication number
CN113128214B
CN113128214B CN202110287084.1A CN202110287084A CN113128214B CN 113128214 B CN113128214 B CN 113128214B CN 202110287084 A CN202110287084 A CN 202110287084A CN 113128214 B CN113128214 B CN 113128214B
Authority
CN
China
Prior art keywords
layer
training
output
bert
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110287084.1A
Other languages
English (en)
Other versions
CN113128214A (zh
Inventor
文凯
周玲玉
杨航
王宗文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Information Technology Designing Co ltd
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing Information Technology Designing Co ltd
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Information Technology Designing Co ltd, Chongqing University of Post and Telecommunications filed Critical Chongqing Information Technology Designing Co ltd
Priority to CN202110287084.1A priority Critical patent/CN113128214B/zh
Publication of CN113128214A publication Critical patent/CN113128214A/zh
Application granted granted Critical
Publication of CN113128214B publication Critical patent/CN113128214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明请求保护一种基于BERT预训练模型的文本摘要生成方法。该方法包括:将中文短本文数据集进行预处理;利用BERT双向编码特性能更好地获取全局信息,将数据送入BERT预训练模型中进行训练;将实际需要获得摘要的原文本输入BERT预训练模型,使用训练好的参数进行训练,获得最佳词向量;将得到的高质量字向量送入改进后的LeakGAN模型;文本在改进的LeakGAN中进行训练,最终得到摘要输出。本发明使生成器生成更加准确的摘要,提高了摘要的准确性和流畅性。

Description

一种基于BERT预训练模型的文本摘要生成方法
技术领域
本发明属于自然语言处理文本生成领域,涉及一种基于BERT预训练模型的摘要生成方法。
背景技术
随着时代的进步及信息技术的发展,互联网已经成为人类生活中越来越重要的社交、娱乐乃至工作平台,是人们获取各种知识资源的主要渠道。互联网越来越成为人们生活必不可少的一部分,并且渗透到生活的方方面面。
然而,互联网在为人类提供方便快捷服务的同时,也带来了不可避免的信息过载问题。随着信息数据量急剧增长,信息形式也呈现了多样化的趋势,主要包含文本、声音、图像等。作为互联网最基本的信息形式,文本数据以其占用资源少、方便传输等优点,一直占据互联网信息传播的重要地位。各种领域各种形式的文本信息日益膨胀,使得人们在查阅文献或资料时,即使在使用搜索引擎后,得到的也是过于庞大冗余的备选信息,需要付出大量的时间和精力去筛选。这给知识的获取过程造成了巨大的障碍。如何将庞大冗余的文本数据以一种简洁明了的方式呈现给用户,从而帮助用户快速有效的获取到需要的信息成为了目前亟待解决的问题。
实现文本的自动摘要是解决此问题的一种有效途径。它能自动从电子文本中提取出能够涵盖原始文本核心思想的重要内容,用浓缩的文摘表示原始冗长的文本而不丢失源文档任何重要的含义和信息,为人们快速浏览信息、锁定自己的兴趣点提供了有效、快捷的方式。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种能够改善文本摘要生成的准确度和流畅度的基于BERT预训练模型的文本摘要生成方法。本发明的技术方案如下:
一种基于BERT预训练模型的文本摘要生成方法,其包括以下步骤:
步骤一:对文本数据集进行去除特殊字符、动画表情进行转换、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理;
步骤二:对预处理后的数据进行BERT预训练;
步骤三:将BERT预训练得到的句向量转化成词向量;
步骤四:对LeakGAN模型进行优化,判别器中加入注意力机制,将词向量输入加入了注意力机制的LeakGAN模型进行训练,生成摘要。
进一步的,所述步骤一对文本数据集进行去除特殊字符、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理,具体为:
(1)特殊字符:去除特殊字符,主要包括标点符号以及常用停用语气词和转折词,包括:“「,」,¥,…”啊阿哎而且;
(2)将括号里的标签内容转换成词语,如【开心】,因为数据来源微博,会有很多动画表情,以这种形式存在;
(3)日期标签替换:将所有日期替换为TAG_DATE;
(4)超链接URL:替换为标签TAG_URL;
(5)替换数字:TAG_NUMBER;
(6)英文标签替换:替换英文单词为标签TAG_NAME_EN。
进一步的,所述步骤二中BERT模型由12层隐藏层(隐藏层大小为768),12个注意力层,大小为110M的参数构成。在BERT的输入部分,在每个句子的开头都加上[CLS]标签,句子之间用分隔符[SEP]进行间隔,并将每个句子的向量存储在[CLS]中,每个句子的文本信息都转化为字在字典中所对应的编号,对于字典中不存在的字,将它视为字典中的“[UNK]”,找到“[UNK]”在字典中所对应的编号,得到令牌嵌入(Token Embeddings)。
进一步的,所述对预处理后的数据进行BERT预训练具体包括:
文本数据通过BERT模型的输入层得到令牌嵌入(Token Embeddings)、段嵌入(Segment Embeddings)和位置嵌入(Position Embeddings),再将三者相加,最终得到输入层的输出向量;
通过输入层后,进入到BERT模型的隐藏层。每个隐藏层由Transformer构成,每个Transformer又由注意力层、中间层和输出层构成。本文使用的注意力机制为12头(heads)的多头注意力机制。对于每一个head,先通过注意力机制的query、key和value的权重矩阵来求对应的query、key和value向量,再将query与key的向量相乘,之后放缩,得到初步的注意力机制权重矩阵;
将注意力层的输出接入一个全连接层,再通过激活函数GELU得到中间层的输出:
GELU(x)=xP(X<=x) (10)
x是变量,P(X<=x)决定x中有多少信息保留下来,而且X是服从高斯分布,符合现实生活中大部分数据的分布情况,也满足了非线性特点。经过全连接层,然后经过Dropout层,最后通过Norm层得到整个Transformer的输出,本次使用的是12层隐藏层,所以循环12次上述隐藏层操作,最终得到BERT模型的输出。
进一步的,所述步骤三将BERT预训练得到的句向量转化成词向量,具体包括:将中文拆成一个个的字来做学习,接全连接、softmax层做分类,生成词向量。
进一步的,所述步骤四对LeakGAN模型进行优化,判别器中加入注意力机制,具体包括:
在判别器层前后引入了注意力机制,注意力机制(假设有三个向量query、key和value,那么由一个query到一系列key-value对的映射就可以表示成注意力机制,也就是计算value加权求和的机制。主要作用是让神经网络把“注意力”放在一部分输入上),在卷积层前使用自注意力机制对输入数据进行语义特征信息的筛选提取,自注意力机制(自注意力机制也叫内部注意力,其实是指q=k=v)在卷积层后对提取的特征图捕捉全局和局部信息,进行语法结构信息的筛选和融合。
进一步的,所述判别器包含输入层、卷积层、池化层和分类层,其中
输入层用于对输入序列做向量化处理,将输入序列中每个词转化为低维的向量表,输入序列长度为n,则被转化为n*h的输入矩阵;
卷积前注意力层使用放缩点积注意力机制,对词的语义信息进行筛选与融合,其中涉及到放缩参数,放缩参数设为词向量的维度h,经过注意力层处理后的矩阵大小不变,依然是n*h;
卷积层最主要的是卷积核,在这里卷积核用来提取短语的语义信息,如果卷积核的大小与输入序列的长度一致,也能够提取全局信息;卷积核的大小类似l*h、3*h的形式,而不是常见的1*1、3*3,在这里卷积核的宽度固定为输入序列的维度,卷积后的输出,一般会经过Relu激活函数,会把输出张量中小于0的位置对应的元素变为0;
卷积后的注意力层这里的操作与前一个卷积有些不同,假设卷积层的卷积核的大小为c*h,卷积核的数量为m,那么每一类的卷积核卷积后特征向量的结果可以拼接成一张特征图大小为(n-c+l)*m,需要对每一类的卷积核作自注意力机制处理,其放缩参数的大小设为m,这里的特征图处理后的大小也不变;
池化层主要负责降维,减少参数,防止过拟合,通过对注意力层处理后的特征向量做最大池化处理,然后把最后的结果拼接在一起,大小为所有卷积核数量的总和;接着通过一个dropout层,也是防止过拟合操作,得到的特征向量传递给分类层,在对抗训练中,这个特征向量会作为反馈信息指导生成器生成文本;最后的分类层,把传递来的特征向量做softmax分类,得到的结果,作为奖励值传递给生成器,接着输出真或假的类别。
进一步的,判别器的训练过程是有监督的训练,通过对生成器Gθ采样获得生成数据集SG,真实数据集为S,将生成数据和真实数据标签化后,训练判别器;
训练的目标函数如下:
Figure BDA0002980919740000041
其中,
Figure BDA0002980919740000051
表示的是输入序列是真标签的概率值,在固定判别器训练生成器的时候,要求真实数据输出的概率尽可能的接近1,生成数据输出的概率尽可能接近0;
在生成器的训练中,判别器的行为有:
Figure BDA0002980919740000052
Figure BDA0002980919740000053
sigmoid(z)=1/1+e-z
Figure BDA0002980919740000054
是判别器的特征提取层输出的高维特征向量,s是生成序列。
当生成器准备生成下一个词的时候,生成器会把当前生成的部分序列,使用蒙特卡洛树搜索补充为完整的输入序列s,传递给判别器,帮助Manager模块获得指导下一个词生成的高维特征向量;
判别器获得输入序列s后,在经过特征提取层后,得到高维特征向量,然后,判别器不仅把高维特征向量传递到下一步的分类层,还将高维特征向量反馈给生成器的Manager模块用来指导文本生成;
之后当高维特征向量传递到分类层后,还会向生成器反馈一个奖励值标量,表明当初生成词的好坏,用来生成器的参数优化:
Figure BDA0002980919740000055
yt表示当前生成的序列,Y1:t-1表示之前生成的序列,MCG(Y1:T;N)表示把当前生成的部分序列使用蒙特卡洛树搜索补充成完整的文本序列。
进一步的,使用全零的隐藏状态初始化Manager模块和Worker模块的
Figure BDA0002980919740000056
Figure BDA0002980919740000057
接下来的每一时间步,Manager模块结合当前的隐藏状态和判别器
Figure BDA0002980919740000058
传递的特征向量ft输出目标向量gt
Figure BDA0002980919740000059
Figure BDA00029809197400000510
GM(·)表示模块的LSTM网络结构,hM表示Manager模块LSTM网络的每个时间步的隐藏状态,θM表示Manager模块LSTM网络的相关参数,at表示Manager模块LSTM网络的每个时间步的输出。
对Manager模块输出的目标向量做线性变换操作,于是对最近输出的n个目标向量gt先进行和操作,然后使用权重矩阵Wc做线性变换,最后输出k维的目标嵌入向量vt
Figure BDA0002980919740000061
Manager模块输出的目标嵌入向量vt传递给Worker模块,并与Worker模块LSTM网络的输出向量Ot做点乘操作,然后把点乘的结果输入到softmax函数进行归一化操作,输出一个字典大小的分布;
Figure BDA0002980919740000062
Gθ(·|St)=softmax(Ot·vt) (18)
GW(·)表示Worker模块的LSTM网络结构,xt代表当前的词,hW表示Worker模块LSTM网络的隐藏状态,θW代表Worker模块LSTM网络的相关参数,Ot表示Worker模块LSTM网络的输出向量,大小为|V|×k的矩阵,st表示当前生成的部分序列。
生成器继续通过蒙特卡洛树搜索将当前生成的部分序列补充完整,传递给判别器对当前生成的单词进行评分同时也会得到指导接下来生成过程的高维特征向量,进行下一个词的生成。
本发明的优点及有益效果如下:
1、本发明的创新主要是基于权利要求1的步骤2、步骤3和步骤4结合,通过使用BERT预训练模型,利用BERT输入部分的优势,可以动态地生成词向量,使得模型输出的词向量信息更加全面。在BERT模型的基础上使用了LeakGAN模型,同时在该模型的判别器部分加入了注意力机制,用以更好地提取输入内容的语法结构和语义信息,提升反馈信息的质量,进一步提升生成的文本质量。对比生成式摘要基本的序列到序列模型,本发明的BERT+改进LeakGAN模型提高了生成摘要的准确性和流畅性。
本发明的创新主要是权利要求1的步骤四和整体的模型方法,将BERT与LeakGAN进行结合,同时改进了LeakGAN本身。在文本摘要领域,生成式方法所得的自动摘要,使用本方法可以取得更加优异的成绩,在实际的应用的价值方面,也得到了提升。
附图说明
图1是本发明提供优选实施例流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
在本实施例中,一种基于BERT预训练模型的摘要生成方法是按如下步骤进行的。
步骤一:对文本数据集进行(去除特殊字符、动画表情进行转换、日期标签替换、超链接URL、替换数字、英文标签替换在内的)预处理;
(1)特殊字符:去除特殊字符,主要包括标点符号以及常用停用语气词和转折词,包括:“「,」,¥,…”啊阿哎而且;
(2)将括号里的标签内容转换成词语,如【开心】,因为数据来源微博,会有很多动画表情,以这种形式存在;
(3)日期标签替换:将所有日期替换为TAG_DATE;
(4)超链接URL:替换为标签TAG_URL;
(5)替换数字:TAG_NUMBER;
(6)英文标签替换:替换英文单词为标签TAG_NAME_EN。
步骤二:对预处理后的数据进行BERT(中文)预训练;
BERT模型由12层隐藏层(隐藏层大小为768),12个注意力层,大小为110M的参数构成。在BERT的输入部分,在每个句子的开头都加上[CLS]标签,句子之间用分隔符[SEP]进行间隔,并将每个句子的向量存储在[CLS]中,每个句子的文本信息都转化为字在字典中所对应的编号,对于字典中不存在的字,将它视为字典中的“[UNK]”,找到“[UNK]”在字典中所对应的编号,得到令牌嵌入(Token Embeddings)。
文本数据通过BERT模型的输入层得到令牌嵌入(Token Embeddings)、段嵌入(Segment Embeddings)和位置嵌入(Position Embeddings),再将三者相加,最终得到输入层的输出向量;
通过输入层后,进入到BERT模型的隐藏层。每个隐藏层由Transformer构成,每个Transformer又由注意力层、中间层和输出层构成。本文使用的注意力机制为12头(heads)的多头注意力机制。对于每一个head,先通过注意力机制的query、key和value的权重矩阵来求对应的query、key和value向量,再将query与key的向量相乘,之后放缩,得到初步的注意力机制权重矩阵;
将注意力层的输出接入一个全连接层,再通过激活函数GELU得到中间层的输出:
GELU(x)=xP(X<=x) (19)
x是变量,P(X<=x)决定x中有多少信息保留下来,而且X是服从高斯分布,符合现实生活中大部分数据的分布情况,也满足了非线性特点。经过全连接层,然后经过Dropout层,最后通过Norm层得到整个Transformer的输出,本次使用的是12层隐藏层,所以循环12次上述隐藏层操作,最终得到BERT模型的输出。
步骤三:将BERT预训练得到的句向量转化成词向量;
将中文拆成一个个的字来做学习,接全连接、softmax层做分类,生成词向量。
步骤四:对LeakGAN模型进行优化,判别器中加入注意力机制,将词向量输入加入了注意力机制的LeakGAN模型进行训练,生成摘要。
在判别器层前后引入了注意力机制,注意力机制(假设有三个向量query、key和value,那么由一个query到一系列key-value对的映射就可以表示成注意力机制,也就是计算value加权求和的机制。主要作用是让神经网络把“注意力”放在一部分输入上),在卷积层前使用自注意力机制对输入数据进行语义特征信息的筛选提取,自注意力机制(自注意力机制也叫内部注意力,其实是指q=k=v)在卷积层后对提取的特征图捕捉全局和局部信息,进行语法结构信息的筛选和融合。
判别器包含输入层、卷积层、池化层和分类层,其中:
输入层用于对输入序列做向量化处理,将输入序列中每个词转化为低维的向量表,输入序列长度为n,则被转化为n*h的输入矩阵;
卷积前注意力层使用放缩点积注意力机制,对词的语义信息进行筛选与融合,其中涉及到放缩参数,放缩参数设为词向量的维度h,经过注意力层处理后的矩阵大小不变,依然是n*h;
卷积层最主要的是卷积核,在这里卷积核用来提取短语的语义信息,如果卷积核的大小与输入序列的长度一致,也能够提取全局信息;卷积核的大小类似l*h、3*h的形式,而不是常见的1*1、3*3,在这里卷积核的宽度固定为输入序列的维度,卷积后的输出,一般会经过Relu激活函数,会把输出张量中小于0的位置对应的元素变为0;
卷积后的注意力层这里的操作与前一个卷积有些不同,假设卷积层的卷积核的大小为c*h,卷积核的数量为m,那么每一类的卷积核卷积后特征向量的结果可以拼接成一张特征图大小为(n-c+l)*m,需要对每一类的卷积核作自注意力机制处理,其放缩参数的大小设为m,这里的特征图处理后的大小也不变;
池化层主要负责降维,减少参数,防止过拟合,通过对注意力层处理后的特征向量做最大池化处理,然后把最后的结果拼接在一起,大小为所有卷积核数量的总和;接着通过一个dropout层,也是防止过拟合操作,得到的特征向量传递给分类层,在对抗训练中,这个特征向量会作为反馈信息指导生成器生成文本;最后的分类层,把传递来的特征向量做softmax分类,得到的结果,作为奖励值传递给生成器,接着输出真或假的类别。
判别器的训练过程是有监督的训练,通过对生成器Gθ采样获得生成数据集SG,真实数据集为S,将生成数据和真实数据标签化后,训练判别器;
训练的目标函数如下:
Figure BDA0002980919740000101
其中,
Figure BDA0002980919740000102
表示的是输入序列是真标签的概率值,在固定判别器训练生成器的时候,要求真实数据输出的概率尽可能的接近1,生成数据输出的概率尽可能接近0;
在生成器的训练中,判别器的行为有:
Figure BDA0002980919740000103
Figure BDA0002980919740000104
sigmoid(z)=1/1+e-z
Figure BDA0002980919740000105
是判别器的特征提取层输出的高维特征向量,s是生成序列。
当生成器准备生成下一个词的时候,生成器会把当前生成的部分序列,使用蒙特卡洛树搜索补充为完整的输入序列s,传递给判别器,帮助Manager模块获得指导下一个词生成的高维特征向量;
判别器获得输入序列s后,在经过特征提取层后,得到高维特征向量,然后,判别器不仅把高维特征向量传递到下一步的分类层,还将高维特征向量反馈给生成器的Manager模块用来指导文本生成;
之后当高维特征向量传递到分类层后,还会向生成器反馈一个奖励值标量,表明当初生成词的好坏,用来生成器的参数优化:
Figure BDA0002980919740000111
yt表示当前生成的序列,Y1:t-1表示之前生成的序列,MCG(Y1:T;N)表示把当前生成的部分序列使用蒙特卡洛树搜索补充成完整的文本序列。
使用全零的隐藏状态初始化Manager模块和Worker模块的
Figure BDA0002980919740000112
Figure BDA0002980919740000113
接下来的每一时间步,Manager模块结合当前的隐藏状态和判别器
Figure BDA0002980919740000114
传递的特征向量ft输出目标向量gt
Figure BDA0002980919740000115
Figure BDA0002980919740000116
GM(·)表示模块的LSTM网络结构,hM表示Manager模块LSTM网络的每个时间步的隐藏状态,θM表示Manager模块LSTM网络的相关参数,at表示Manager模块LSTM网络的每个时间步的输出。
对Manager模块输出的目标向量做线性变换操作,于是对最近输出的n个目标向量gt先进行和操作,然后使用权重矩阵Wc做线性变换,最后输出k维的目标嵌入向量vt
Figure BDA0002980919740000117
Manager模块输出的目标嵌入向量vt传递给Worker模块,并与Worker模块LSTM网络的输出向量Ot做点乘操作,然后把点乘的结果输入到softmax函数进行归一化操作,输出一个字典大小的分布;
Figure BDA0002980919740000118
Gθ(·|St)=softmax(Ot·vt) (27)
GW(·)表示Worker模块的LSTM网络结构,xt代表当前的词,hW表示Worker模块LSTM网络的隐藏状态,θW代表Worker模块LSTM网络的相关参数,Ot表示Worker模块LSTM网络的输出向量,大小为|V|×k的矩阵,st表示当前生成的部分序列。
生成器继续通过蒙特卡洛树搜索将当前生成的部分序列补充完整,传递给判别器对当前生成的单词进行评分同时也会得到指导接下来生成过程的高维特征向量,进行下一个词的生成。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于BERT预训练模型的文本摘要生成方法,其特征在于,包括以下步骤:
步骤一:对文本数据集进行去除特殊字符、动画表情进行转换、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理;
步骤二:对预处理后的数据进行BERT预训练;
步骤三:将BERT预训练得到的句向量转化成词向量;
步骤四:对LeakGAN模型进行优化,判别器中加入注意力机制,将词向量输入加入了注意力机制的LeakGAN模型进行训练,生成摘要;
判别器的训练过程是有监督的训练,通过对生成器Gθ采样获得生成数据集SG,真实数据集为S,将生成数据和真实数据标签化后,训练判别器;
训练的目标函数如下:
Figure FDA0003555604960000011
其中,
Figure FDA0003555604960000012
表示的是输入序列是真标签的概率值,在固定判别器训练生成器的时候,要求真实数据输出的概率尽可能的接近1,生成数据输出的概率尽可能接近0;
在生成器的训练中,判别器的行为有:
Figure FDA0003555604960000015
Figure FDA0003555604960000013
sigmoid(z)=(1/1+e-z),
Figure FDA0003555604960000014
是判别器的特征提取层输出的高维特征向量,s是生成序列;
当生成器准备生成下一个词的时候,生成器会把当前生成的部分序列,使用蒙特卡洛树搜索补充为完整的输入序列s,传递给判别器,帮助Manager模块获得指导下一个词生成的高维特征向量;
判别器获得输入序列s后,在经过特征提取层后,得到高维特征向量,然后,判别器不仅把高维特征向量传递到下一步的分类层,还将高维特征向量反馈给生成器的Manager模块用来指导文本生成;
之后当高维特征向量传递到分类层后,还会向生成器反馈一个奖励值标量,表明当初生成词的好坏,用来生成器的参数优化:
Figure FDA0003555604960000021
yt表示当前生成的序列,Y1:t-1表示之前生成的序列,MCG(Y1:T;N)表示把当前生成的部分序列使用蒙特卡洛树搜索补充成完整的文本序列;
使用全零的隐藏状态初始化Manager模块和Worker模块的
Figure FDA0003555604960000022
Figure FDA0003555604960000023
接下来的每一时间步,Manager模块结合当前的隐藏状态和判别器
Figure FDA0003555604960000024
传递的特征向量ft输出目标向量gt
Figure FDA0003555604960000025
Figure FDA0003555604960000026
GM(·)表示模块的LSTM网络结构,hM表示Manager模块LSTM网络的每个时间步的隐藏状态,θM表示Manager模块LSTM网络的相关参数,at表示Manager模块LSTM网络的每个时间步的输出;
对Manager模块输出的目标向量做线性变换操作,于是对最近输出的n个目标向量gt先进行和操作,然后使用权重矩阵Wc做线性变换,最后输出k维的目标嵌入向量vt
Figure FDA0003555604960000027
Manager模块输出的目标嵌入向量vt传递给Worker模块,并与Worker模块LSTM网络的输出向量Ot做点乘操作,然后把点乘的结果输入到softmax函数进行归一化操作,输出一个字典大小的分布;
Figure FDA0003555604960000028
Gθ(·|St)=softmax(Ot·vt) (9)
GW(·)表示Worker模块的LSTM网络结构,xt代表当前的词,hW表示Worker模块LSTM网络的隐藏状态,θW代表Worker模块LSTM网络的相关参数,Ot表示Worker模块LSTM网络的输出向量,大小为|V|×k的矩阵,St表示当前生成的部分序列;
生成器继续通过蒙特卡洛树搜索将当前生成的部分序列补充完整,传递给判别器对当前生成的单词进行评分同时也会得到指导接下来生成过程的高维特征向量,进行下一个词的生成。
2.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法,其特征在于,所述步骤一对文本数据集进行去除特殊字符、日期标签替换、超链接URL、替换数字、英文标签替换在内的预处理,具体为:
(1)特殊字符:去除特殊字符,主要包括标点符号以及常用停用语气词和转折词,包括:“「,」,¥,…”啊阿哎而且;
(2)将括号里的标签内容转换成词语,如【开心】,因为数据来源微博,会有很多动画表情,以这种形式存在;
(3)日期标签替换:将所有日期替换为TAG_DATE;
(4)超链接URL:替换为标签TAG_URL;
(5)替换数字:TAG_NUMBER;
(6)英文标签替换:替换英文单词为标签TAG_NAME_EN。
3.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法,其特征在于,所述步骤二对预处理后的数据进行BERT预训练,具体为:
BERT模型由12层隐藏层,隐藏层大小为768,12个注意力层,大小为110M的参数构成,在BERT的输入部分,在每个句子的开头都加上[CLS]标签,句子之间用分隔符[SEP]进行间隔,并将每个句子的向量存储在[CLS]中,每个句子的文本信息都转化为字在字典中所对应的编号,对于字典中不存在的字,将它视为字典中的“[UNK]”,找到“[UNK]”在字典中所对应的编号,得到令牌嵌入(Token Embeddings)。
4.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法,其特征在于,所述对预处理后的数据进行BERT预训练具体包括:
文本数据通过BERT模型的输入层得到令牌嵌入Token Embeddings、段嵌入SegmentEmbeddings和位置嵌入Position Embeddings,再将三者相加,最终得到输入层的输出向量;
通过输入层后,进入到BERT模型的隐藏层;每个隐藏层由Transformer构成,每个Transformer又由注意力层、中间层和输出层构成;本文使用的注意力机制为12头heads的多头注意力机制;对于每一个head,先通过注意力机制的query、key和value的权重矩阵来求对应的query、key和value向量,再将query与key的向量相乘,之后放缩,得到初步的注意力机制权重矩阵;
将注意力层的输出接入一个全连接层,再通过激活函数GELU得到中间层的输出:
GELU(x)=xP(X<=x) (1)
x是变量,P(X<=x)决定x中有多少信息保留下来,而且X是服从高斯分布,符合现实生活中大部分数据的分布情况,也满足了非线性特点;经过全连接层,然后经过Dropout层,最后通过Norm层得到整个Transformer的输出,本次使用的是12层隐藏层,所以循环12次隐藏层操作,最终得到BERT模型的输出。
5.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法,其特征在于,所述步骤三将BERT预训练得到的句向量转化成词向量,具体包括:将中文拆成一个个的字来做学习,接全连接、softmax层做分类,生成词向量。
6.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法,其特征在于,所述步骤四对LeakGAN模型进行优化,判别器中加入注意力机制,具体包括:
在判别器层前后引入了注意力机制,注意力机制假设有三个向量query、key和value,那么由一个query到一系列key-value对的映射就可以表示成注意力机制,也就是计算value加权求和的机制,主要作用是让神经网络把“注意力”放在一部分输入上,在卷积层前使用自注意力机制对输入数据进行语义特征信息的筛选提取,自注意力机制也叫内部注意力,其实是指q=k=v,在卷积层后对提取的特征图捕捉全局和局部信息,进行语法结构信息的筛选和融合。
7.根据权利要求1所述的一种基于BERT预训练模型的文本摘要生成方法,其特征在于,所述判别器包含输入层、卷积层、池化层和分类层,其中:
输入层用于对输入序列做向量化处理,将输入序列中每个词转化为低维的向量表,输入序列长度为n,则被转化为n*h的输入矩阵;
卷积前注意力层使用放缩点积注意力机制,对词的语义信息进行筛选与融合,其中涉及到放缩参数,放缩参数设为词向量的维度h,经过注意力层处理后的矩阵大小不变,依然是n*h;
卷积层最主要的是卷积核,在这里卷积核用来提取短语的语义信息,如果卷积核的大小与输入序列的长度一致,也能够提取全局信息;卷积核的大小类似l*h、3*h的形式,而不是常见的1*1、3*3,在这里卷积核的宽度固定为输入序列的维度,卷积后的输出,会经过Relu激活函数,会把输出张量中小于0的位置对应的元素变为0;
卷积后的注意力层这里的操作与前一个卷积有些不同,假设卷积层的卷积核的大小为c*h,卷积核的数量为m,那么每一类的卷积核卷积后特征向量的结果可以拼接成一张特征图大小为(n-c+l)*m,需要对每一类的卷积核作自注意力机制处理,其放缩参数的大小设为m,这里的特征图处理后的大小也不变;
池化层主要负责降维,减少参数,防止过拟合,通过对注意力层处理后的特征向量做最大池化处理,然后把最后的结果拼接在一起,大小为所有卷积核数量的总和;接着通过一个dropout层,也是防止过拟合操作,得到的特征向量传递给分类层,在对抗训练中,这个特征向量会作为反馈信息指导生成器生成文本;最后的分类层,把传递来的特征向量做softmax分类,得到的结果,作为奖励值传递给生成器,接着输出真或假的类别。
CN202110287084.1A 2021-03-17 2021-03-17 一种基于bert预训练模型的文本摘要生成方法 Active CN113128214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110287084.1A CN113128214B (zh) 2021-03-17 2021-03-17 一种基于bert预训练模型的文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110287084.1A CN113128214B (zh) 2021-03-17 2021-03-17 一种基于bert预训练模型的文本摘要生成方法

Publications (2)

Publication Number Publication Date
CN113128214A CN113128214A (zh) 2021-07-16
CN113128214B true CN113128214B (zh) 2022-05-06

Family

ID=76773354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110287084.1A Active CN113128214B (zh) 2021-03-17 2021-03-17 一种基于bert预训练模型的文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN113128214B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792541B (zh) * 2021-09-24 2023-08-11 福州大学 一种引入互信息正则化器的方面级情感分析方法
CN114565789B (zh) * 2022-02-15 2024-05-24 华南理工大学 一种基于集合预测的文本检测方法、系统、装置及介质
CN114860920A (zh) * 2022-04-20 2022-08-05 内蒙古工业大学 一种基于异构图的单语言主题摘要生成方法
CN115658886A (zh) * 2022-09-20 2023-01-31 广东技术师范大学 基于语义文本的智能肝癌分期方法、系统及介质
CN115712760B (zh) * 2022-11-29 2023-04-21 哈尔滨理工大学 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统
CN115982830B (zh) * 2023-02-21 2023-06-09 矩阵纵横设计股份有限公司 室内设计节点的适配方法、装置、计算机设备和存储介质
CN116501861B (zh) * 2023-06-25 2023-09-22 知呱呱(天津)大数据技术有限公司 基于层级bert模型与标签迁移的长文本摘要生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670036A (zh) * 2018-12-17 2019-04-23 广州大学 一种新闻评论自动生成方法及其装置
CN109766432A (zh) * 2018-07-12 2019-05-17 中国科学院信息工程研究所 一种基于生成对抗网络的中文摘要生成方法和装置
CN110321403A (zh) * 2019-07-08 2019-10-11 广州艾颂智能科技有限公司 一种歌词生成方法
CN111078866A (zh) * 2019-12-30 2020-04-28 华南理工大学 一种基于序列到序列模型的中文文本摘要生成方法
CN111581395A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度学习的模型融合三元组表示学习系统及方法
CN111723547A (zh) * 2020-05-25 2020-09-29 河海大学 一种基于预训练语言模型的文本自动摘要方法
CN112131449A (zh) * 2020-09-21 2020-12-25 西北大学 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN112463956A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 基于对抗学习和分层神经网络的文本摘要生成系统和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019204086A1 (en) * 2018-04-18 2019-10-24 HelpShift, Inc. System and methods for processing and interpreting text messages
US10678830B2 (en) * 2018-05-31 2020-06-09 Fmr Llc Automated computer text classification and routing using artificial intelligence transfer learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766432A (zh) * 2018-07-12 2019-05-17 中国科学院信息工程研究所 一种基于生成对抗网络的中文摘要生成方法和装置
CN109670036A (zh) * 2018-12-17 2019-04-23 广州大学 一种新闻评论自动生成方法及其装置
CN110321403A (zh) * 2019-07-08 2019-10-11 广州艾颂智能科技有限公司 一种歌词生成方法
CN111078866A (zh) * 2019-12-30 2020-04-28 华南理工大学 一种基于序列到序列模型的中文文本摘要生成方法
CN111581395A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度学习的模型融合三元组表示学习系统及方法
CN111723547A (zh) * 2020-05-25 2020-09-29 河海大学 一种基于预训练语言模型的文本自动摘要方法
CN112131449A (zh) * 2020-09-21 2020-12-25 西北大学 一种基于ElasticSearch的文化资源级联查询接口的实现方法
CN112463956A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 基于对抗学习和分层神经网络的文本摘要生成系统和方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A study of text summarization techniques for generating meeting minutes;Doan Tu My 等;《International Conference on Research Challenges in Information Science》;20200625;522-528 *
Feudal networks for hierarchical reinforcement learning;Vezhnevets A.S. 等;《International Conference on Machine Learning》;20170731;3540-3549 *
Semantic sentence embeddings for paraphrasing and text summarization;Zhang Chi 等;《2017 IEEE Global Conference on Signal and Information Processing (GlobalSIP)》;20180308;705-709 *
基于BERT-PGN模型的中文新闻文本自动摘要生成;谭金源 等;《计算机应用》;20200728;第41卷(第1期);127-132 *
基于生成对抗网络的文本自动生成方法研究;孙博;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20190115(第01期);I138-5137 *

Also Published As

Publication number Publication date
CN113128214A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113128214B (zh) 一种基于bert预训练模型的文本摘要生成方法
CN110796160A (zh) 一种文本分类方法、装置和存储介质
US11755636B2 (en) System and method for text processing for summarization and optimization
CN114139497A (zh) 一种基于bertsum模型的文本摘要提取方法
CN114385806A (zh) 一种基于深度学习的文本摘要方法及系统
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN114780582A (zh) 基于表格问答的自然答案生成系统及其方法
CN115048511A (zh) 一种基于Bert的护照版面分析方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
US11314922B1 (en) System and method for generating regulatory content requirement descriptions
Alhojely et al. Recent progress on text summarization
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN115374285B (zh) 政务资源目录主题分类方法及系统
Khodaei et al. Deep emotion detection sentiment analysis of persian literary text
US20230419110A1 (en) System and method for generating regulatory content requirement descriptions
CN116069924A (zh) 一种融合全局和局部语义特征的文本摘要生成方法及系统
Patankar et al. Image Captioning with Audio Reinforcement using RNN and CNN
CN113128199B (zh) 基于预训练语言模型与多重词信息嵌入的字向量生成方法
CN114925689A (zh) 一种基于bi-lstm-mhsa的医疗文本分类方法及装置
Das et al. Image caption generation framework for assamese news using attention mechanism
CN114510569A (zh) 基于ChineseBERT模型和注意力机制的化工突发事件新闻分类方法
Atıcı et al. Generating Classified Ad Product Image Titles with Image Captioning
Ramalakshmi et al. Image Caption Generation Using Attention Model
Wang et al. Generating chinese classical poems based on images
Chang et al. Tensor Space Model-based Textual Data Augmentation for Text Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant