CN111563160B - 基于全局语义的文本自动摘要方法、装置、介质及设备 - Google Patents

基于全局语义的文本自动摘要方法、装置、介质及设备 Download PDF

Info

Publication number
CN111563160B
CN111563160B CN202010293653.9A CN202010293653A CN111563160B CN 111563160 B CN111563160 B CN 111563160B CN 202010293653 A CN202010293653 A CN 202010293653A CN 111563160 B CN111563160 B CN 111563160B
Authority
CN
China
Prior art keywords
text
attention
decoder
output
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010293653.9A
Other languages
English (en)
Other versions
CN111563160A (zh
Inventor
姜小波
杨博睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010293653.9A priority Critical patent/CN111563160B/zh
Publication of CN111563160A publication Critical patent/CN111563160A/zh
Application granted granted Critical
Publication of CN111563160B publication Critical patent/CN111563160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于全局语义的文本自动摘要方法、装置、介质及设备。其中方法包括如下步骤:将原始文本的内容进行预处理,按照字节进行划分,并对其中的大写字母替换成小写字母,得到文本信息;编码器基于卷积神经网络和自注意力机制对文本信息进行全局编码,并经过一个控制单元进行筛选,得到最终编码输出结果;解码器基于重复惩罚机制对编码输出结果进行解码,并生成文本摘要。本发明通过在编码器中加上卷积过滤器,并在解码器部分使用重复惩罚机制对重复词进行进一步抑制;可提高摘要文本语义的通顺度,重复惩罚机制可以对已经出现过的词的进行极大的抑制,减少生成摘要的重复性问题从而提高生成摘要的可读性。

Description

基于全局语义的文本自动摘要方法、装置、介质及设备
技术领域
本发明涉及自然语言处理技术领域,更具体地说,涉及一种基于全局语义的文本自动摘要方法、装置、介质及设备。
背景技术
随着互联网的高速发展,如何快速准确的阅读大量信息使得自动文本摘要技术的深入研究成为必要需求。自动文本摘要作为一种可以缓解信息过量的技术,在实践中有着广泛的应用,如自动生成新闻文章和技术文章的摘要、自动生成搜索引擎检索结果的快照、自动写稿机器人等等。
自动文本摘要技术就是利用计算机自动地从原始文章中提取中心思想和关键内容,并进行语义分析和处理,生成一段能全面准确地反映某一文献地简单连贯的短文。
目前国内外最常用的自动文本摘要方法根据摘要内容的生成方式分为两种:抽取式摘要和生成式摘要。而生成式摘要是自动文本摘要的主流研究方向。由于2014年Bengio等人提出的Sequence to Sequence(seq2seq)模型在机器翻译上的巨大成功,再加上文本摘要和机器翻译同为端对端的文本生成任务,研究者就尝试在文本摘要上使用seq2seq模型,并取得了一定的进展。在同一年Bahdanau等人提出了Attention模型,并结合seq2seq模型一起应用在机器翻译任务中,进一步推动了文本摘要的发展。
鉴于机器翻译的成功应用,基于seq2seq模型自动文本摘要成为了自然语言处理的研究热点。然而,生成式文本摘要目前还存在很多问题,比如语义不通顺,语法错误,上下文出现重复词等。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于全局语义的文本自动摘要方法、装置、介质及设备;通过在编码器中加上卷积过滤器,并在解码器部分使用重复惩罚机制对重复词进行进一步抑制;可提高摘要文本语义的通顺度,重复惩罚机制可以对已经出现过的词的进行极大的抑制,减少生成摘要的重复性问题从而提高生成摘要的可读性。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于全局语义的文本自动摘要方法,其特征在于:包括如下步骤:
S1,将原始文本的内容进行预处理,按照字节进行划分,并对其中的大写字母替换成小写字母,得到文本信息;
S2,编码器基于卷积神经网络和自注意力机制对文本信息进行全局编码,并经过一个控制单元进行筛选,得到最终编码输出结果;
S3,解码器基于重复惩罚机制对编码输出结果进行解码,并生成文本摘要。
优选地,所述步骤S2包括以下分步骤:
S21,顺序地从文本信息接收每个字的字嵌入,导入到一个双向LSTM网络,并在每个时间节点t上输出结果
Figure BDA0002451367630000021
i=0,1,2…n,n为编码信息个数;
S22,将双向LSTM网络的输出结果
Figure BDA0002451367630000022
输入到卷积神经网络中,得到输出矩阵gi;
S23,在每个时间节点t上,对卷积神经网络的输出矩阵gi进行自注意力计算,得到结果gi′;
S24,基于自注意力计算后的结果gi′和双向LSTM网络的生成结果
Figure BDA0002451367630000023
根据设定的开关/>
Figure BDA0002451367630000024
对该时间节点t的信息编码结果进行筛选。
优选地,所述步骤S21中,输出结果
Figure BDA0002451367630000025
为:
Figure BDA0002451367630000026
其中,
Figure BDA0002451367630000027
为异或运算,/>
Figure BDA0002451367630000028
为双向LSTM网络得到的第i个文本的正向输出结果,/>
Figure BDA0002451367630000029
为双向LSTM网络得到的第i个文本的反向输出结果;
所述步骤S22中,卷积神经网络的结构包含三个并联的卷积层和连接在三个卷积层后的一个拼接结果层:
其中,第一个卷积层有两个卷积核k大小分别为1和5的一维卷积单元;
第二个卷积层有两个卷积核k大小分别为1和3的一维卷积单元;
第三个卷积层有一个卷积核k大小为1的一维卷积单元;
拼接结果层是先将三个卷积层的输出进行列向拼接为矩阵Hi,然后导入全连接网络并输出一个列向大小为输出1/3的输出矩阵gi;输出矩阵gi生成公式为:
gi=ReLU(W*Hi+b);
其中,ReLU为ReLU激活函数,W为拼接结果层的权重矩阵,b为拼接结果层的偏置矩阵;
所述步骤S23中,自注意力计算公式为:
Figure BDA0002451367630000031
其中,Q,V都是卷积神经网络生成的表示矩阵,K=WaV,Wa为可学习的矩阵,softmax()为归一化函数,dk为卷积核k的大小;
所述步骤S24中,设定的开关
Figure BDA0002451367630000032
Figure BDA0002451367630000033
其中,
Figure BDA0002451367630000034
为S21得到的双向LSTM网络的输出结果,σ()为sigmoid函数,bh为偏置向量。这个sigmoid函数在每个输入维度上生成一个0到1的值向量,如果值接近于0,则这个输入信息的LSTM编码结果将被删除大部分信息,如果接近1,则保留大部分信息。
优选地,所述步骤S3包括以下分步骤:
S31,将编码器隐藏状态的最后一层
Figure BDA0002451367630000035
作为解码器的初始状态/>
Figure BDA0002451367630000036
S32,将原始文本在训练集中对应的人为摘要序列
Figure BDA0002451367630000037
中的元素/>
Figure BDA0002451367630000038
先输入到解码器的词嵌入层得到wt,然后将wt和前一时间节点解码器的隐藏状态/>
Figure BDA0002451367630000039
一起输入到解码器的神经网络中得到当前时间节点t解码器的隐藏状态/>
Figure BDA0002451367630000041
其中解码器使用LSTM的变体网络作为循环网络单元;
S33,对于编码层中卷积神经网络的输出的状态序列he中的每一个元素
Figure BDA0002451367630000042
计算其与解码器隐藏状态/>
Figure BDA0002451367630000043
之间的注意力得分/>
Figure BDA0002451367630000044
和注意力分配/>
Figure BDA0002451367630000045
S34,根据注意力得分
Figure BDA0002451367630000046
计算状态序列he上的注意力分布/>
Figure BDA0002451367630000047
S35,根据注意力分布
Figure BDA0002451367630000048
和状态序列he计算上下文向量xt,计算对应的词汇表分布
Figure BDA0002451367630000049
S36,根据词汇表分布
Figure BDA00024513676300000410
选择概率最大的词汇作为当前时间节点t解码器输出的预测摘要词yt
S37,重复步骤S31至S36,直至得到生成摘要序列y=(y0,y1,y2,…yn)。
优选地,所述步骤S31中,解码器的初始状态
Figure BDA00024513676300000411
为:
Figure BDA00024513676300000412
其中,tanh为激活函数,Wd为权重矩阵,bd为偏置向量;
所述步骤S33中,注意力得分
Figure BDA00024513676300000413
和注意力分配/>
Figure BDA00024513676300000414
为:
Figure BDA00024513676300000415
Figure BDA00024513676300000416
其中,tanh为激活函数,softmax为归一化函数,v为权重向量,Wd,We和Wc都为权重矩阵,be为偏置向量,参数都可通过神经网络学习到;
Figure BDA00024513676300000417
是一个长度为输入长度的向量:
Figure BDA00024513676300000418
Figure BDA00024513676300000419
是之前时间节点输入第i个词的注意力权重的叠加和;加这个参数的目的是为了给注意力机制之前生成的词的信息,如果之前生成过这个词,那么后续要抑制,而抑制操作通过在loss函数加惩罚项实现:
Figure BDA0002451367630000051
受loss函数约束;
Figure BDA0002451367630000052
其中y是参考文本摘要,
Figure BDA0002451367630000053
是生成文本摘要,x是原文本,λ是一个可调整的参数;loss函数前半段为训练过程的损失函数,后半段为惩罚项,如果之前该词出现过,那么它的
Figure BDA0002451367630000054
会很大,为了减少loss,就需要/>
Figure BDA0002451367630000055
变小,而/>
Figure BDA0002451367630000056
变小意味着这个位置被注意的概率就减少。/>
所述步骤S34中,注意力分布
Figure BDA0002451367630000057
为:
Figure BDA0002451367630000058
所述步骤S35中,上下文向量xt为:
Figure BDA0002451367630000059
所述步骤S36中,词汇表分布
Figure BDA00024513676300000510
Figure BDA00024513676300000511
其中,softmax为归一化函数,Wh和Wh′为权重矩阵,bp′和bp为偏置向量。
一种基于全局语义的文本自动摘要装置,其特征在于:包括:
预处理模块,用于将原始文本的内容进行预处理,按照字节进行划分,并对其中的大写字母替换成小写字母,得到文本信息;
编码器,用于基于卷积神经网络和自注意力机制对文本信息进行全局编码,并经过一个控制单元进行筛选,得到最终编码输出结果;
解码器,用于基于重复惩罚机制对编码输出结果进行解码,并生成文本摘要。
一种存储介质,其特征在于:其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述基于全局语义的文本自动摘要方法。
一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于:所述处理器执行存储器存储的程序时,实现权利要求上述基于全局语义的文本自动摘要方法。
与现有技术相比,本发明具有如下优点与有益效果:
本发明在编码器到解码器的信息流中,设置一个控制开关,它由一个卷积控制单元组成,利用卷积网络的特性在编码输出时考虑上下文语义,对信息进行筛选,不符合语义或重复词语的信息将被删除。而解码器部分,结合重复惩罚机制,进一步缓解生成词重复问题,使得生成的摘要语义更加通顺。
本发明在基于注意力机制的seq2seq模型上,构建了一种基于全局语义的自动文本摘要模型,它通过在编码器中加上卷积过滤器,并在解码器部分使用重复惩罚机制对重复词进行进一步抑制。一方面,卷积过滤器使用的是卷积神经网络,它可以提取原文本的n-gram特征,并结合自注意力机制起到对全局语义的把控,提高了摘要文本语义的通顺度。另一方面,重复惩罚机制可以对已经出现过的词的进行极大的抑制,减少了生成摘要的重复性问题从而提高生成摘要的可读性。
附图说明
图1是本发明的一种基于全局语义的文本自动摘要方法的步骤流程图;
图2是本发明编码器结构示意图;
图3是本发明编码器中的卷积控制单元结构示意图;
图4是本发明解码生成摘要词的原理图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例一
本实施例一种基于全局语义的文本自动摘要方法,其流程如图1所示,包括如下步骤:
S1,将原始文本的内容进行预处理,编写脚本将原始文本按照字节进行划分,并对其中的大写字母替换成小写字母,得到文本信息。
S2,将预处理后的文本信息输入到编码器,编码器基于卷积神经网络和自注意力机制对文本信息进行全局编码,并经过一个控制单元进行筛选,得到最终编码输出结果,如图2所示。
具体地说,步骤S2包括以下分步骤:
S21,顺序地从文本信息接收每个字的字嵌入,导入到一个双向LSTM网络,并在每个时间节点t上输出结果
Figure BDA0002451367630000071
i=0,1,2…n,n为编码信息个数。
输出结果
Figure BDA0002451367630000072
为:/>
Figure BDA0002451367630000073
其中,
Figure BDA0002451367630000074
为异或运算,/>
Figure BDA0002451367630000075
为双向LSTM网络得到的第i个文本的正向输出结果,/>
Figure BDA0002451367630000076
为双向LSTM网络得到的第i个文本的反向输出结果。
S22,将双向LSTM网络的输出结果
Figure BDA0002451367630000077
输入到卷积神经网络中,如图3所示。
卷积神经网络的结构包含三个并联的卷积层和连接在三个卷积层后的一个拼接结果层:
其中,第一个卷积层有两个卷积核k大小分别为1和5的一维卷积单元;
第二个卷积层有两个卷积核k大小分别为1和3的一维卷积单元;
第三个卷积层有一个卷积核k大小为1的一维卷积单元;
拼接结果层是先将三个卷积层的输出进行列向拼接为矩阵Hi,然后导入全连接网络并输出一个列向大小为输出1/3的输出矩阵gi;输出矩阵gi生成公式为:
gi=ReLU(W*Hi+b);
其中,ReLU为ReLU激活函数,W为拼接结果层的权重矩阵,b为拼接结果层的偏置矩阵。
S23,在每个时间节点t上,对卷积神经网络的输出矩阵gi进行自注意力计算,得到结果gi′。
自注意力计算公式为:
Figure BDA0002451367630000078
其中,Q,V都是卷积神经网络生成的表示矩阵,K=WaV,Wa为可学习的矩阵,softmax()为归一化函数,dk为卷积核k的大小。
S24,基于自注意力计算后的结果gi′和双向LSTM网络的生成结果
Figure BDA0002451367630000081
根据设定的开关/>
Figure BDA0002451367630000082
对该时间节点t的信息编码结果进行筛选。/>
设定的开关
Figure BDA0002451367630000083
为:
Figure BDA0002451367630000084
其中,
Figure BDA0002451367630000085
为S21得到的双向LSTM网络的输出结果,σ()为sigmoid函数,bh为偏置向量。这个sigmoid函数在每个输入维度上生成一个0到1的值向量,如果值接近于0,则这个输入信息的LSTM编码结果将被删除大部分信息,如果接近1,则保留大部分信息。
S3,将编码器输出结果导入解码器,解码器基于重复惩罚机制对编码输出结果进行解码,并生成文本摘要,解码器结果如图4所示。
具体地说,步骤S3包括以下分步骤:
S31,将编码器隐藏状态的最后一层
Figure BDA0002451367630000086
作为解码器的初始状态/>
Figure BDA0002451367630000087
解码器的初始状态
Figure BDA0002451367630000088
为:
Figure BDA0002451367630000089
其中,tanh为激活函数,Wd为权重矩阵,bd为偏置向量。
S32,将原始文本在训练集中对应的人为摘要序列
Figure BDA00024513676300000810
中的元素/>
Figure BDA00024513676300000811
先输入到解码器的词嵌入层得到wt,然后将wt和前一时间节点解码器的隐藏状态/>
Figure BDA00024513676300000812
一起输入到解码器的神经网络中得到当前时间节点t解码器的隐藏状态/>
Figure BDA00024513676300000813
其中解码器使用LSTM的变体网络作为循环网络单元。
S33,对于编码层中卷积神经网络的输出的状态序列he中的每一个元素
Figure BDA00024513676300000814
计算其与解码器隐藏状态/>
Figure BDA00024513676300000815
之间的注意力得分/>
Figure BDA00024513676300000816
和注意力分配/>
Figure BDA00024513676300000817
注意力得分
Figure BDA00024513676300000818
和注意力分配/>
Figure BDA00024513676300000819
为:
Figure BDA00024513676300000820
Figure BDA0002451367630000091
其中,tanh为激活函数,softmax为归一化函数,v为权重向量,Wd,We和Wc都为权重矩阵,be为偏置向量,参数都可通过神经网络学习到;
Figure BDA0002451367630000092
是一个长度为输入长度的向量:
Figure BDA0002451367630000093
Figure BDA0002451367630000094
是之前时间节点输入第i个词的注意力权重的叠加和;加这个参数的目的是为了给注意力机制之前生成的词的信息,如果之前生成过这个词,那么后续要抑制,而抑制操作通过在loss函数加惩罚项实现:
Figure BDA0002451367630000095
受loss函数约束;
Figure BDA0002451367630000096
/>
其中y是参考文本摘要,
Figure BDA0002451367630000097
是生成文本摘要,x是原文本,λ是一个可调整的参数;loss函数前半段为训练过程的损失函数,后半段为惩罚项,如果之前该词出现过,那么它的
Figure BDA0002451367630000098
会很大,为了减少loss,就需要/>
Figure BDA0002451367630000099
变小,而/>
Figure BDA00024513676300000910
变小意味着这个位置被注意的概率就减少。
S34,根据注意力得分
Figure BDA00024513676300000911
计算状态序列he上的注意力分布/>
Figure BDA00024513676300000912
注意力分布
Figure BDA00024513676300000913
为:
Figure BDA00024513676300000914
S35,根据注意力分布
Figure BDA00024513676300000915
和状态序列he计算上下文向量xt,计算对应的词汇表分布
Figure BDA00024513676300000916
上下文向量xt为:
Figure BDA00024513676300000917
词汇表分布
Figure BDA00024513676300000918
为:
Figure BDA0002451367630000101
其中,softmax为归一化函数,Wh和Wh′为权重矩阵,bp′和bp为偏置向量。
S36,根据词汇表分布
Figure BDA0002451367630000102
选择概率最大的词汇作为当前时间节点t解码器输出的预测摘要词yt
S37,重复步骤S31至S36,直至得到生成摘要序列y=(y0,y1,y2,…yn)。
为实现本实施例基于全局语义的文本自动摘要方法,本实施例还提供了一种基于全局语义的文本自动摘要装置,包括:
预处理模块,用于将原始文本的内容进行预处理,按照字节进行划分,并对其中的大写字母替换成小写字母,得到文本信息;
编码器,用于基于卷积神经网络和自注意力机制对文本信息进行全局编码,并经过一个控制单元进行筛选,得到最终编码输出结果;
解码器,用于基于重复惩罚机制对编码输出结果进行解码,并生成文本摘要。
实施例二
本实施例一种存储介质,其特征在于,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的基于全局语义的文本自动摘要方法。
实施例三
本实施例一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现实施例一所述的基于全局语义的文本自动摘要方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种基于全局语义的文本自动摘要方法,其特征在于:包括如下步骤:
S1,将原始文本的内容进行预处理,按照字节进行划分,并对其中的大写字母替换成小写字母,得到文本信息;
S2,编码器基于卷积神经网络和自注意力机制对文本信息进行全局编码,并经过一个控制单元进行筛选,得到最终编码输出结果;
S3,解码器基于重复惩罚机制对编码输出结果进行解码,并生成文本摘要;
所述步骤S3包括以下分步骤:
S31,将编码器隐藏状态的最后一层
Figure FDA0004035539460000011
作为解码器的初始状态/>
Figure FDA0004035539460000012
解码器的初始状态
Figure FDA0004035539460000013
为:
Figure FDA0004035539460000014
其中,tanh为激活函数,Wd为权重矩阵,bd为偏置向量;
S32,将原始文本在训练集中对应的人为摘要序列
Figure FDA0004035539460000015
中的元素/>
Figure FDA0004035539460000016
先输入到解码器的词嵌入层得到wt,然后将wt和前一时间节点解码器的隐藏状态/>
Figure FDA0004035539460000017
一起输入到解码器的神经网络中得到当前时间节点t解码器的隐藏状态/>
Figure FDA0004035539460000018
其中解码器使用LSTM的变体网络作为循环网络单元;
S33,对于编码层中卷积神经网络的输出的状态序列he中的每一个元素
Figure FDA0004035539460000019
i=0,1,2…n,n为编码信息个数;计算其与解码器隐藏状态/>
Figure FDA00040355394600000110
之间的注意力得分/>
Figure FDA00040355394600000111
和注意力分配/>
Figure FDA00040355394600000112
注意力得分
Figure FDA00040355394600000113
和注意力分配/>
Figure FDA00040355394600000116
为:
Figure FDA00040355394600000114
Figure FDA00040355394600000115
其中,tanh为激活函数,softmax为归一化函数,v为权重向量,Wd,We和Wc都为权重矩阵,be为偏置向量;
Figure FDA0004035539460000026
是一个长度为输入长度的向量:
Figure FDA0004035539460000021
Figure FDA0004035539460000027
是之前时间节点输入第i个词的注意力权重的叠加和;
Figure FDA0004035539460000028
受loss函数约束;
Figure FDA0004035539460000022
其中y是参考文本摘要,
Figure FDA0004035539460000029
是生成文本摘要,x是原文本,λ是一个可调整的参数;
S34,根据注意力得分
Figure FDA00040355394600000210
计算状态序列he上的注意力分布/>
Figure FDA00040355394600000211
注意力分布
Figure FDA00040355394600000212
为:/>
Figure FDA0004035539460000023
S35,根据注意力分布
Figure FDA00040355394600000213
和状态序列he计算上下文向量xt,计算对应的词汇表分布
Figure FDA00040355394600000214
上下文向量xt为:
Figure FDA0004035539460000024
词汇表分布
Figure FDA00040355394600000215
为:
Figure FDA0004035539460000025
其中,softmax为归一化函数,Wh和Wh′为权重矩阵,bp′和bp为偏置向量;
S36,根据词汇表分布
Figure FDA00040355394600000216
选择概率最大的词汇作为当前时间节点t解码器输出的预测摘要词yt
S37,重复步骤S31至S36,直至得到生成摘要序列y=(y0,y1,y2,…yn)。
2.根据权利要求1所述的基于全局语义的文本自动摘要方法,其特征在于:所述步骤S2包括以下分步骤:
S21,顺序地从文本信息接收每个字的字嵌入,导入到一个双向LSTM网络,并在每个时间节点t上输出结果
Figure FDA0004035539460000037
i=0,1,2…n,n为编码信息个数;
S22,将双向LSTM网络的输出结果
Figure FDA0004035539460000036
输入到卷积神经网络中,得到输出矩阵gi;
S23,在每个时间节点t上,对卷积神经网络的输出矩阵gi进行自注意力计算,得到结果gi′;
S24,基于自注意力计算后的结果gi′和双向LSTM网络的生成结果hi,根据设定的开关
Figure FDA0004035539460000035
对该时间节点t的信息编码结果进行筛选。
3.根据权利要求2所述的基于全局语义的文本自动摘要方法,其特征在于:所述步骤S21中,输出结果
Figure FDA0004035539460000034
为:
Figure FDA0004035539460000031
其中,
Figure FDA0004035539460000032
为双向LSTM网络得到的第i个文本的正向输出结果,/>
Figure FDA0004035539460000033
为双向LSTM网络得到的第i个文本的反向输出结果;
所述步骤S22中,卷积神经网络的结构包含三个并联的卷积层和连接在三个卷积层后的一个拼接结果层:
其中,第一个卷积层有两个卷积核k大小分别为1和5的一维卷积单元;
第二个卷积层有两个卷积核k大小分别为1和3的一维卷积单元;
第三个卷积层有一个卷积核k大小为1的一维卷积单元;
拼接结果层是先将三个卷积层的输出进行列向拼接为矩阵Hi,然后导入全连接网络并输出一个列向大小为输出1/3的输出矩阵gi;输出矩阵gi生成公式为:
gi=ReLU(W*Hi+b);
其中,ReLU为ReLU激活函数,W为拼接结果层的权重矩阵,b为拼接结果层的偏置矩阵;
所述步骤S23中,自注意力计算公式为:
Figure FDA0004035539460000041
其中,Q,V都是卷积神经网络生成的表示矩阵,K=WaV,Wa为可学习的矩阵,softmax()为归一化函数,dk为卷积核k的大小;
所述步骤S24中,设定的开关
Figure FDA00040355394600000411
为:
Figure FDA0004035539460000042
其中,
Figure FDA00040355394600000412
为S21得到的双向LSTM网络的输出结果,σ()为sigmoid函数,bh为偏置向量。
4.一种基于全局语义的文本自动摘要装置,其特征在于:包括:
预处理模块,用于将原始文本的内容进行预处理,按照字节进行划分,并对其中的大写字母替换成小写字母,得到文本信息;
编码器,用于基于卷积神经网络和自注意力机制对文本信息进行全局编码,并经过一个控制单元进行筛选,得到最终编码输出结果;
解码器,用于基于重复惩罚机制对编码输出结果进行解码,并生成文本摘要;
所述解码器包括以下分步骤:
S31,将编码器隐藏状态的最后一层
Figure FDA0004035539460000049
作为解码器的初始状态/>
Figure FDA00040355394600000410
解码器的初始状态
Figure FDA0004035539460000048
为:
Figure FDA0004035539460000043
其中,tanh为激活函数,Wd为权重矩阵,bd为偏置向量;
S32,将原始文本在训练集中对应的人为摘要序列
Figure FDA0004035539460000044
中的元素/>
Figure FDA0004035539460000045
先输入到解码器的词嵌入层得到wt,然后将wt和前一时间节点解码器的隐藏状态/>
Figure FDA0004035539460000046
一起输入到解码器的神经网络中得到当前时间节点t解码器的隐藏状态/>
Figure FDA0004035539460000047
其中解码器使用LSTM的变体网络作为循环网络单元;
S33,对于编码层中卷积神经网络的输出的状态序列he中的每一个元素
Figure FDA00040355394600000520
i=0,1,2…n,n为编码信息个数;计算其与解码器隐藏状态/>
Figure FDA00040355394600000519
之间的注意力得分/>
Figure FDA00040355394600000521
和注意力分配/>
Figure FDA00040355394600000516
注意力得分
Figure FDA00040355394600000517
和注意力分配/>
Figure FDA00040355394600000518
为:
Figure FDA0004035539460000051
Figure FDA0004035539460000052
其中,tanh为激活函数,softmax为归一化函数,v为权重向量,Wd,We和Wc都为权重矩阵,be为偏置向量;
Figure FDA00040355394600000515
是一个长度为输入长度的向量:
Figure FDA0004035539460000053
Figure FDA00040355394600000514
是之前时间节点输入第i个词的注意力权重的叠加和;/>
Figure FDA00040355394600000513
受loss函数约束;
Figure FDA0004035539460000054
其中y是参考文本摘要,
Figure FDA00040355394600000511
是生成文本摘要,x是原文本,λ是一个可调整的参数;
S34,根据注意力得分
Figure FDA00040355394600000510
计算状态序列he上的注意力分布/>
Figure FDA00040355394600000512
注意力分布
Figure FDA0004035539460000059
为:
Figure FDA0004035539460000055
S35,根据注意力分布
Figure FDA0004035539460000057
和状态序列he计算上下文向量xt,计算对应的词汇表分布
Figure FDA0004035539460000058
上下文向量xt为:
Figure FDA0004035539460000056
词汇表分布
Figure FDA0004035539460000063
为:
Figure FDA0004035539460000061
其中,softmax为归一化函数,Wh和Wh′为权重矩阵,bp′和bp为偏置向量;
S36,根据词汇表分布
Figure FDA0004035539460000062
选择概率最大的词汇作为当前时间节点t解码器输出的预测摘要词yt
S37,重复步骤S31至S36,直至得到生成摘要序列y=(y0,y1,y2,…yn)。
5.一种存储介质,其特征在于:其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-3中任一项所述的基于全局语义的文本自动摘要方法。
6.一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于:所述处理器执行存储器存储的程序时,实现权利要求1-3中任一项所述的基于全局语义的文本自动摘要方法。
CN202010293653.9A 2020-04-15 2020-04-15 基于全局语义的文本自动摘要方法、装置、介质及设备 Active CN111563160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010293653.9A CN111563160B (zh) 2020-04-15 2020-04-15 基于全局语义的文本自动摘要方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010293653.9A CN111563160B (zh) 2020-04-15 2020-04-15 基于全局语义的文本自动摘要方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN111563160A CN111563160A (zh) 2020-08-21
CN111563160B true CN111563160B (zh) 2023-03-31

Family

ID=72071701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010293653.9A Active CN111563160B (zh) 2020-04-15 2020-04-15 基于全局语义的文本自动摘要方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN111563160B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191159B (zh) * 2021-05-25 2023-01-20 广东电网有限责任公司广州供电局 一种机器阅读理解方法、装置、设备和存储介质
CN116629211B (zh) * 2023-02-25 2023-10-27 浙江研几网络科技股份有限公司 基于人工智能的写作方法及系统
CN116795789B (zh) * 2023-08-24 2024-04-19 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107154257A (zh) * 2017-04-18 2017-09-12 苏州工业职业技术学院 基于客户语音情感的客服服务质量评价方法及系统
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109508400A (zh) * 2018-10-09 2019-03-22 中国科学院自动化研究所 图文摘要生成方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN109801096A (zh) * 2018-12-14 2019-05-24 中国科学院深圳先进技术研究院 一种多模态客户满意度综合评价系统、方法
CN109977220A (zh) * 2019-04-09 2019-07-05 中通服公众信息产业股份有限公司 一种基于关键句和关键字的反向生成摘要的方法
WO2019157633A1 (en) * 2018-02-13 2019-08-22 Nec Hong Kong Limited Intelligent service terminal and platform system and methods thereof
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110597979A (zh) * 2019-06-13 2019-12-20 中山大学 一种基于自注意力的生成式文本摘要方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107154257A (zh) * 2017-04-18 2017-09-12 苏州工业职业技术学院 基于客户语音情感的客服服务质量评价方法及系统
WO2019157633A1 (en) * 2018-02-13 2019-08-22 Nec Hong Kong Limited Intelligent service terminal and platform system and methods thereof
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109508400A (zh) * 2018-10-09 2019-03-22 中国科学院自动化研究所 图文摘要生成方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN109801096A (zh) * 2018-12-14 2019-05-24 中国科学院深圳先进技术研究院 一种多模态客户满意度综合评价系统、方法
CN109977220A (zh) * 2019-04-09 2019-07-05 中通服公众信息产业股份有限公司 一种基于关键句和关键字的反向生成摘要的方法
CN110597979A (zh) * 2019-06-13 2019-12-20 中山大学 一种基于自注意力的生成式文本摘要方法
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法

Also Published As

Publication number Publication date
CN111563160A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
Guu et al. Retrieval augmented language model pre-training
Baumel et al. Query focused abstractive summarization: Incorporating query relevance, multi-document coverage, and summary length constraints into seq2seq models
CN111563160B (zh) 基于全局语义的文本自动摘要方法、装置、介质及设备
US11816442B2 (en) Multi-turn dialogue response generation with autoregressive transformer models
CN108804495B (zh) 一种基于增强语义的自动文本摘要方法
CN111061862B (zh) 一种基于注意力机制生成摘要的方法
CN110134782B (zh) 一种基于改进的选择机制和lstm变体的文本摘要模型及自动文本摘要方法
CN111401037B (zh) 自然语言的生成方法、装置、电子设备及存储介质
King et al. Evaluating approaches to personalizing language models
CN113157919B (zh) 语句文本方面级情感分类方法及系统
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN111723194A (zh) 摘要生成方法、装置和设备
Li et al. In-context learning with many demonstration examples
Mathur et al. A scaled‐down neural conversational model for chatbots
CN110765768A (zh) 一种优化的文本摘要生成方法
CN112949255A (zh) 一种词向量训练方法及装置
CN109241272B (zh) 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
CN111428518A (zh) 一种低频词翻译方法及装置
CN112926344A (zh) 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN117034950A (zh) 一种引入条件掩码对比学习的长句子嵌入方法和系统
Abolghasemi et al. HTS-DL: hybrid text summarization system using deep learning
CN116720531A (zh) 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
CN111930930B (zh) 一种基于商品方面对齐的抽象式评论摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant