CN114662483A - 一种文本摘要生成方法、装置以及存储介质 - Google Patents

一种文本摘要生成方法、装置以及存储介质 Download PDF

Info

Publication number
CN114662483A
CN114662483A CN202210332378.6A CN202210332378A CN114662483A CN 114662483 A CN114662483 A CN 114662483A CN 202210332378 A CN202210332378 A CN 202210332378A CN 114662483 A CN114662483 A CN 114662483A
Authority
CN
China
Prior art keywords
original text
text information
information
word
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210332378.6A
Other languages
English (en)
Inventor
欧阳宁
王钧焱
蔡晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202210332378.6A priority Critical patent/CN114662483A/zh
Publication of CN114662483A publication Critical patent/CN114662483A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文本摘要生成方法、装置以及存储介质,属于语言处理领域,方法包括:对文本数据集进行分词处理得到多个原文信息以及摘要信息;根据各个原文信息分别对训练模型进行训练得到原始预测序列;根据多个原始预测序列和多个摘要信息对训练模型进行损失函数分析,根据分析结果得到摘要生成模型;将各个原文信息以及摘要信息分别输入至摘要生成模型中进行预测分析,得到文本摘要生成的结果。本发明使得生成摘要中的词序问题得到改善,文本的语序更加的通畅,从而提高了摘要的可读性。

Description

一种文本摘要生成方法、装置以及存储介质
技术领域
本发明主要涉及语言处理技术领域,具体涉及一种文本摘要生成方法、装置以及存储介质。
背景技术
现有的中文文本自动摘要技术仍存在较多待改进和解决的不足之处,如何提高生成文本的可读性就是其中一个非常重要的问题。造成生成文本可读性问题的原因有很多,其中,如何解决生成文本的词序问题在提高文本可读性中显得十分关键。在生成摘要时,单词会进行重新排序,因此不可避免会出现生成摘要中词序错乱的问题。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种文本摘要生成方法、装置以及存储介质。
本发明解决上述技术问题的技术方案如下:一种文本摘要生成方法,包括如下步骤:
导入文本数据集,并对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息;
构建训练模型,根据各个所述原文信息分别对所述训练模型进行训练,得到与各个所述原文信息对应的原始预测序列;
根据多个所述原始预测序列和多个所述摘要信息对所述训练模型进行损失函数分析,根据分析结果得到摘要生成模型;
将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行预测分析,得到与各个所述原文信息对应的评价分数,并将所有的评价分数作为文本摘要生成的结果。
本发明解决上述技术问题的另一技术方案如下:一种文本摘要生成装置,包括:
分词处理模块,用于导入文本数据集,并对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息;
模型训练模块,用于构建训练模型,根据各个所述原文信息分别对所述训练模型进行训练,得到与各个所述原文信息对应的原始预测序列;
损失函数分析模块,用于根据多个所述原始预测序列和多个所述摘要信息对所述训练模型进行损失函数分析,根据分析结果得到摘要生成模型;
摘要生成结果获得模块,用于将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行预测分析,得到与各个所述原文信息对应的评价分数,并将所有的评价分数作为文本摘要生成的结果。
本发明解决上述技术问题的另一技术方案如下:一种文本摘要生成装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本摘要生成方法。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本摘要生成方法。
本发明的有益效果是:通过对文本数据集的分词处理得到多个原文信息以及摘要信息,通过各个原文信息分别对训练模型的训练得到原始预测序列,根据多个原始预测序列和多个摘要信息对训练模型的损失函数分析,根据分析结果得到摘要生成模型,将各个原文信息以及摘要信息分别输入至摘要生成模型中进行预测分析得到文本摘要生成的结果,使得生成摘要中的词序问题得到改善,文本的语序更加的通畅,从而提高了摘要的可读性。
附图说明
图1为本发明实施例提供的一种文本摘要生成方法的流程示意图;
图2为本发明实施例提供的一种文本摘要生成装置的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的一种文本摘要生成方法的流程示意图。
如图1所示,一种文本摘要生成方法,包括如下步骤:
导入文本数据集,并对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息;
构建训练模型,根据各个所述原文信息分别对所述训练模型进行训练,得到与各个所述原文信息对应的原始预测序列;
根据多个所述原始预测序列和多个所述摘要信息对所述训练模型进行损失函数分析,根据分析结果得到摘要生成模型;
将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行预测分析,得到与各个所述原文信息对应的评价分数,并将所有的评价分数作为文本摘要生成的结果。
优选地,所述文本数据集可以为LCSTS数据集。
上述实施例中,通过对文本数据集的分词处理得到多个原文信息以及摘要信息,通过各个原文信息分别对训练模型的训练得到原始预测序列,根据多个原始预测序列和多个摘要信息对训练模型的损失函数分析,根据分析结果得到摘要生成模型,将各个原文信息以及摘要信息分别输入至摘要生成模型中进行预测分析得到文本摘要生成的结果,使得生成摘要中的词序问题得到改善,文本的语序更加的通畅,从而提高了摘要的可读性。
可选地,作为本发明的一个实施例,所述对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息的过程包括:
利用python工具对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息。
应理解地,使用python功能包(即所述python工具)的jieba将LCSTS 数据集(即所述文本数据集)进行分词,将句子中词与词之间用空格隔开,并建立词典文件。
应理解地,python功能包(即所述python工具)的jieba的主要功能是做中文分词,可以进行简单分词、并行分词、命令行分词,当然它的功能不限于此,目前还支持关键词提取、词性标注、词位置查询等。
具体地,对输入文本数据集(即所述文本数据集)进行预处理,包括对 LCSTS数据集(即所述文本数据集)进行分词、建立单词表,将数据集(即所述文本数据集)中的原文文本(即所述原文信息)和所述摘要信息划分后分别存入两个不同的文档中,建立停顿词单词表。
应理解地,数据集(即所述文本数据集)中包含所述原文信息和所述摘要信息,将每种数据集(即所述文本数据集)中的所述原文信息和所述摘要信息分开,将所述原文信息写入src文件,将所述摘要信息写入tgt文件。
上述实施例中,利用python工具对文本数据集的分词处理得到多个原文信息以及摘要信息,为后续的处理提供准确的数据支撑,使得生成摘要中的词序问题得到改善。
可选地,作为本发明的一个实施例,所述训练模型包括编码器、解码器和注意力模块;
所述构建训练模型,根据各个所述原文信息分别对所述训练模型进行训练,得到与各个所述原文信息对应的原始预测序列的过程包括:
将各个所述原文信息分别输入至所述编码器中进行编码分析,得到与各个所述原文信息对应的编码向量、与各个所述原文信息对应的初始上下文向量、与各个所述原文信息对应的多个目标编码器隐藏状态以及与各个所述原文信息对应的多个目标上下文向量;
将各个所述编码向量以及与各个所述原文信息对应的多个目标编码器隐藏状态分别输入至所述解码器中进行解码分析,得到与各个所述原文信息对应的初始化后解码器隐藏状态以及与各个所述原文信息对应的多个目标解码器隐藏状态;
将与各个所述原文信息对应的多个目标解码器隐藏状态、与各个所述原文信息对应的编码向量、与各个所述原文信息对应的初始化后解码器隐藏状态、与各个所述原文信息对应的初始上下文向量以及与各个所述原文信息对应的多个目标上下文向量分别输入至所述注意力模块中进行单词的预测分析,得到与各个所述原文信息对应的原始预测序列。
优选地,所述编码器可以为双向LSTM长短期记忆人工神经网络,所述解码器可以为单向LSTM长短期记忆人工神经网络。
应理解地,所述双向LSTM长短期记忆人工神经网络即LSTM,是一种RNN 的一种特殊类型,可以学习较长文本中的长依赖信息;双向LSTM由两个LSTM 叠加在一起,第一个LSTM从句子的开头开始输入,另一个从句子的最后一个词开始输入,最后将两个得到的结果进行整合处理。
应理解地,所述单向LSTM长短期记忆人工神经网络即单向LSTM只能依据之前时刻的时序信息来预测下一时刻的输出,但在有些问题中,当前时刻的输出不仅和之前的状态有关,还可能和未来的状态有关系。比如预测一句话中缺失的单词不仅需要根据前文来判断,还需要考虑它后面的内容,真正做到基于上下文判断。
应理解地,所述注意力模块即注意力机制,有助于关注源序列中最相关的信息。注意力机制为对结果重要的部分添加高的权重,以保留主要信息,将所述注意力模块添加在解码器与输出层之间,它负责从编码器输出序列中挑选出与任务相关的信息,和解码器输出序列最终时刻状态一起作为文本生成的特征,传递给输出层。
应理解地,基于seq2seq的自注意力机制,建立神经网络模型(即所述训练模型)。
具体地,单纯的Encoder-Decoder框架并不能有效的聚焦到输入目标上,这使得像seq2seq的模型在独自使用时并不能发挥最大功效。编码器(即所述编码器)将输入(即所述原文信息)编码成上下文信息(即所述初始上下文向量或者所述目标上下文向量),在解码时每一个输出都会不加区分的使用这个上下文信息(即所述初始上下文向量或者所述目标上下文向量)进行解码。而注意力模型要做的事就是根据序列的每个时间步将编码器编码为不同上下文信息,在解码时,结合每个不同的上下文信息进行解码输出,这样得到的结果会更加准确。
上述实施例中,通过各个原文信息分别对=训练模型的训练得到原始预测序列,能够动态地、按需求地获得输入端信息,使得生成摘要中的词序问题得到改善,文本的语序更加的通畅,从而提高了摘要的可读性。
可选地,作为本发明的一个实施例,每个所述原文信息包括多个顺序排列的单词词向量,所述将各个所述原文信息分别输入至所述编码器中进行编码分析,得到与各个所述原文信息对应的编码向量、与各个所述原文信息对应的初始上下文向量、与各个所述原文信息对应的多个目标编码器隐藏状态以及与各个所述原文信息对应的多个目标上下文向量的过程包括:
S211:将各个所述原文信息中的首个单词词向量分别输入至所述编码器中进行第一次编码处理,得到与各个所述原文信息对应的初始编码器隐藏状态以及与各个所述原文信息对应的初始上下文向量;
S212:按照所述单词词向量的排列顺序依次将各个所述原文信息中的下一个所述单词词向量以及所述初始编码器隐藏状态输入至所述编码器中进行第二次编码处理,得到与各个所述单词词向量对应的目标编码器隐藏状态以及与各个所述单词词向量对应的目标上下文向量;
S213:将所述目标编码器隐藏状态作为下一个初始编码器隐藏状态,并返回步骤S212,直至所有的单词词向量均输入至所述编码器中,从而得到与各个所述原文信息对应的多个目标编码器隐藏状态以及与各个所述原文信息对应的多个目标上下文向量,并分别将各个所述原文信息中最后一个目标编码器隐藏状态作为与各个所述原文信息对应的编码向量。
应理解地,双向LSTM编码器(即所述编码器)依次接数据集收源文本 (即所述原文信息)中的文本,编码器依次读取整个输入序列(即所述原文信息),在每个时间步,一个单词(即所述单词词向量)被送到所述编码器。在每个时间步,所述编码器输出一个隐藏状态(即所述初始编码器隐藏状态或者所述目标编码器隐藏状态)和上下文信息(即所述初始上下文向量或者所述目标上下文向量),所述编码器在最终时间步的隐藏状态作为输入句子的编码信息(即所述编码向量)。
上述实施例中,将各个原文信息分别输入至编码器中进行编码分析得到编码向量、初始上下文向量、多个目标编码器隐藏状态以及多个目标上下文向量,能够动态地、按需求地获得输入端信息,使得生成摘要中的词序问题得到改善,文本的语序更加的通畅,从而提高了摘要的可读性。
可选地,作为本发明的一个实施例,所述将各个所述编码向量以及与各个所述原文信息对应的多个目标编码器隐藏状态分别输入至所述解码器中进行解码分析,得到与各个所述原文信息对应的初始化后解码器隐藏状态以及与各个所述原文信息对应的多个目标解码器隐藏状态的过程包括:
S221:根据各个所述编码向量分别对所述解码器进行初始化处理,得到与各个所述原文信息对应的初始化后解码器隐藏状态;
S222:将各个所述编码向量以及与各个所述原文信息对应的初始化后解码器隐藏状态分别输入至所述解码器中进行第一次解码,得到与各个所述原文信息对应的初始解码器隐藏状态,并将所述初始解码器隐藏状态作为所述编码向量中第二个单词词向量对应的目标解码器隐藏状态;
S223:按照所述单词词向量的排列顺序依次将各个所述编码向量、与下一个单词词向量对应的目标编码器隐藏状态以及所述初始解码器隐藏状态输入至所述解码器中进行第二次解码,得到与各个所述单词词向量对应的目标解码器隐藏状态;
S224:将所述目标解码器隐藏状态作为下一个初始解码器隐藏状态,并返回步骤S223,直至所有的单词词向量均输入至所述解码器中,从而得到与各个所述原文信息对应的多个目标解码器隐藏状态。
应理解地,使用单向LSTM作为所述解码器,所述解码器在各个时间步中使用输入句子的编码信息和上个时间步的输出(即所述初始解码器隐藏状态)以及隐藏状态(即所述目标编码器隐藏状态)作为输入,输出当前时刻的隐藏状态(即所述目标解码器隐藏状态)。
上述实施例中,将各个编码向量以及多个目标编码器隐藏状态分别输入至解码器中进行解码分析得到初始化后解码器隐藏状态以及多个目标解码器隐藏状态,能够动态地、按需求地获得输入端信息,提高了摘要的可读性。
可选地,作为本发明的一个实施例,所述将与各个所述原文信息对应的多个目标解码器隐藏状态、与各个所述原文信息对应的编码向量、与各个所述原文信息对应的初始化后解码器隐藏状态、与各个所述原文信息对应的初始上下文向量以及与各个所述原文信息对应的多个目标上下文向量分别输入至所述注意力模块中进行单词的预测分析,得到与各个所述原文信息对应的原始预测序列的过程包括:
将各个所述初始化后解码器隐藏状态以及与各个所述原文信息对应的初始上下文向量分别输入至所述注意力模块中进行第一次单词预测,得到与各个所述原文信息对应的第一预测上下文向量;
按照所述单词词向量的排列顺序依次将各个所述目标解码器隐藏状态以及与各个所述单词词向量对应的目标上下文向量输入至所述注意力模块中进行第二次单词预测,得到与各个所述单词词向量对应的第二预测上下文向量;
分别对各个所述第一预测上下文向量以及与各个所述原文信息对应的编码向量进行第一次拼接,得到与各个所述原文信息对应的第一拼接向量;
分别对各个所述第二预测上下文向量以及与各个所述原文信息对应的编码向量进行第二次拼接,得到与各个所述单词词向量对应的第二拼接向量;
将各个所述第一拼接向量分别输入至所述解码器中进行第三次解码,得到与各个所述原文信息对应的第一预测单词;
按照所述单词词向量的排列顺序依次将各个所述第二拼接向量输入至所述解码器中进行第四次解码,得到与各个所述单词词向量对应的第二预测单词;
分别对与各个所述原文信息对应的第一预测单词以及各个所述原文信息对应的多个所述第二预测单词进行组合,得到与各个所述原文信息对应的原始预测序列。
应理解地,将解码器的隐藏状态(即所述初始化后解码器隐藏状态或者所述目标解码器隐藏状态)和编码器的上下文信息(即所述初始上下文向量或者所述目标上下文向量)输入到所述注意力模块,输出结果作为上下文信息(即所述第一预测上下文向量或者所述第二预测上下文向量),与编码器的所编码信息拼接后输入所述解码器,所述解码器根据输出的上下文信息,逐词读取整个目标序列,并在每一个时间步预测相同的序列偏移,根据前一个词预测下一个词。
上述实施例中,将多个目标解码器隐藏状态、编码向量、初始化后解码器隐藏状态、初始上下文向量以及多个目标上下文向量分别输入至注意力模块中进行单词的预测分析得到原始预测序列,使得生成摘要中的词序问题得到改善,文本的语序更加的通畅,从而提高了摘要的可读性,也提高了结果的准确性。
可选地,作为本发明的一个实施例,每个所述摘要信息包括多个摘要单词向量,所述根据多个所述原始预测序列和多个所述摘要信息对所述训练模型进行损失函数分析,根据分析结果得到摘要生成模型的过程包括:
通过第一式分别对各个所述原始预测序列以及与各个所述原文信息对应的摘要信息进行损失函数计算,得到与各个所述原文信息对应的损失函数,所述第一式为:
Figure BDA0003573527260000101
其中,Pα(i)(Yi)→Pk(Yi),
其中,Yi为摘要信息中第i个摘要单词向量,L为损失函数,Pα(i)(Yi)为第i个摘要单词向量在映射位置上的概率分布,i∈{1,...,n},P1,...,Pm为原始预测序列中所有的预测单词,k∈{1,...,m},k为摘要单词向量{1,...,m}上映射后的位置,α(i)为摘要信息中第i个摘要单词向量所在位置在通过对齐函数α映射后在预测序列上的位置;
根据Adam梯度下降算法和所有的损失函数对所述训练模型进行更新,得到摘要生成模型。
应理解地,加入对齐交叉熵损失函数,输入预测序列(即所述原始预测序列)与对应目标序列(即所述摘要信息)计算交叉熵损失,反向传播计算更新模型参数,降低交叉熵损失函数值(即所述损失函数)。
应理解地,使用该损失函数作为损失函数训练模型(即所述训练模型),通过python中的Adam梯度下降算法更新神经网络(即所述训练模型)的参数。
应理解地,所述Adam梯度下降算法是一种自适应动量的随机优化方法,能计算每个参数的自适应学习率,经常作为深度学习中的优化器算法。
具体地,引入对齐交叉熵损失函数,操作如下:
设Y={Y1,...,Yn}为含n个tokens的目标序列(即所述摘要信息),Pre为包含m个tokens的模型预测序列(即所述原始预测序列),P1,...,Pm为Pre 中tokens的概率分布,定义对齐函数α将目标位置映射到预测位置,即α:{1,...,n}→{1,...,m}。
定义损失函数为:
Figure BDA0003573527260000111
其中,α(i)表示目标序列(即所述摘要信息)的第i个token所在位置在通过对齐函数α映射后在Pre(即所述原始预测序列)上的对应位置。 Pα(i)(Yi)表示目标序列(即所述摘要信息)在映射位置上的概率分布。
设j∈{1,...,n}为{1,...,n}上的某个位置,其在{1,...,m}上映射后的位置为k,k∈{1,...,m}则:
Pα(j)(Yj)→Pk(Yj),
使用该损失函数计算Y(即所述摘要信息)和Pre(即所述原始预测序列)的对齐交叉熵。
上述实施例中,根据多个原始预测序列和多个摘要信息对训练模型进行损失函数分析,根据分析结果得到摘要生成模型,运用了反向传播运算来使损失函数最小化,使得生成文本的语序更加的通畅,具有更好的可读性。
可选地,作为本发明的一个实施例,所述将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行预测分析,得到与各个所述原文信息对应的评价分数的过程包括:
将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行目标预测序列的预测,得到与各个所述原文信息对应的目标预测序列;
利用ROUGE算法分别对所述目标预测序列以及与各个所述原文信息对应的摘要信息进行评分,得到与各个所述原文信息对应的评价分数。
应理解地,所述ROUGE算法即python功能包ROUGE,是一种常用的机器翻译和文章摘要评价指标,主要是基于召回率计算的。
应理解地,使用ROUGE对比生成摘要(即所述目标预测序列)与源文本对应摘要(即所述摘要信息),评估生成摘要效果(即所述评价分数)。
应理解地,根据输入文本(即所述原文信息),生成相应的摘要内容(即所述目标预测序列)。
上述实施例中,将各个原文信息以及摘要信息分别输入至摘要生成模型中进行目标预测序列预测得到目标预测序列,利用ROUGE算法分别对目标预测序列以及摘要信息的评分得到评价分数,能够很好的评估生成摘要的效果,更加直观的知晓摘要生成的结果。
可选地,作为本发明的另一个实施例,本发明主要利用公开中文数据集,通过对交叉熵函数进行调整,基于标签序列(即所述摘要信息)和预测序列 (即所述目标预测序列)之间的对齐来计算交叉熵损失,使得生成文本的语序更加的通畅,具有更好的可读性。
可选地,作为本发明的另一个实施例,本发明的方法如下:
首先将数据集(即所述文本数据集)的中文文本使用jieba进行分词预处理;将分词后的文本(即多个所述原文信息)输入所述编码器后编码成词向量,并通过注意力机制(即所述注意力模块)动态地、按需求地获得输入端信息;在解码端(即所述解码器)加入交叉熵函数,计算解码后的文本(即所述原始预测序列)与目标文本(即所述摘要信息)相对位置上的损失,运用反向传播运算来使损失函数最小化,完成模型的训练,最后通过输出模型(即所述摘要生成模型)得到摘要文本(即所述目标预测序列)。
可选地,作为本发明的另一个实施例,本发明在摘要生成模型中加入对齐交叉熵函数,通过忽略绝对位置、关注相对顺序和词法匹配,为摘要模型提供更准确的训练,使得生成摘要中的词序问题得到改善,进而提高摘要的可读性。
图2为本发明实施例提供的一种文本摘要生成装置的模块框图。
可选地,作为本发明的另一个实施例,如图2所示,一种文本摘要生成装置,包括:
分词处理模块,用于导入文本数据集,并对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息;
模型训练模块,用于构建训练模型,根据各个所述原文信息分别对所述训练模型进行训练,得到与各个所述原文信息对应的原始预测序列;
损失函数分析模块,用于根据多个所述原始预测序列和多个所述摘要信息对所述训练模型进行损失函数分析,根据分析结果得到摘要生成模型;
摘要生成结果获得模块,用于将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行预测分析,得到与各个所述原文信息对应的评价分数,并将所有的评价分数作为文本摘要生成的结果。
可选地,本发明的另一个实施例提供一种文本摘要生成装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的文本摘要生成方法。该装置可为计算机等装置。
可选地,本发明的另一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的文本摘要生成方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本摘要生成方法,其特征在于,包括如下步骤:
导入文本数据集,并对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息;
构建训练模型,根据各个所述原文信息分别对所述训练模型进行训练,得到与各个所述原文信息对应的原始预测序列;
根据多个所述原始预测序列和多个所述摘要信息对所述训练模型进行损失函数分析,根据分析结果得到摘要生成模型;
将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行预测分析,得到与各个所述原文信息对应的评价分数,并将所有的评价分数作为文本摘要生成的结果。
2.根据权利要求1所述的文本摘要生成方法,其特征在于,所述对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息的过程包括:
利用python工具对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息。
3.根据权利要求1所述的文本摘要生成方法,其特征在于,所述训练模型包括编码器、解码器和注意力模块;
所述构建训练模型,根据各个所述原文信息分别对所述训练模型进行训练,得到与各个所述原文信息对应的原始预测序列的过程包括:
将各个所述原文信息分别输入至所述编码器中进行编码分析,得到与各个所述原文信息对应的编码向量、与各个所述原文信息对应的初始上下文向量、与各个所述原文信息对应的多个目标编码器隐藏状态以及与各个所述原文信息对应的多个目标上下文向量;
将各个所述编码向量以及与各个所述原文信息对应的多个目标编码器隐藏状态分别输入至所述解码器中进行解码分析,得到与各个所述原文信息对应的初始化后解码器隐藏状态以及与各个所述原文信息对应的多个目标解码器隐藏状态;
将与各个所述原文信息对应的多个目标解码器隐藏状态、与各个所述原文信息对应的编码向量、与各个所述原文信息对应的初始化后解码器隐藏状态、与各个所述原文信息对应的初始上下文向量以及与各个所述原文信息对应的多个目标上下文向量分别输入至所述注意力模块中进行单词的预测分析,得到与各个所述原文信息对应的原始预测序列。
4.根据权利要求3所述的文本摘要生成方法,其特征在于,每个所述原文信息包括多个顺序排列的单词词向量,所述将各个所述原文信息分别输入至所述编码器中进行编码分析,得到与各个所述原文信息对应的编码向量、与各个所述原文信息对应的初始上下文向量、与各个所述原文信息对应的多个目标编码器隐藏状态以及与各个所述原文信息对应的多个目标上下文向量的过程包括:
S211:将各个所述原文信息中的首个单词词向量分别输入至所述编码器中进行第一次编码处理,得到与各个所述原文信息对应的初始编码器隐藏状态以及与各个所述原文信息对应的初始上下文向量;
S212:按照所述单词词向量的排列顺序依次将各个所述原文信息中的下一个所述单词词向量以及所述初始编码器隐藏状态输入至所述编码器中进行第二次编码处理,得到与各个所述单词词向量对应的目标编码器隐藏状态以及与各个所述单词词向量对应的目标上下文向量;
S213:将所述目标编码器隐藏状态作为下一个初始编码器隐藏状态,并返回步骤S212,直至所有的单词词向量均输入至所述编码器中,从而得到与各个所述原文信息对应的多个目标编码器隐藏状态以及与各个所述原文信息对应的多个目标上下文向量,并分别将各个所述原文信息中最后一个目标编码器隐藏状态作为与各个所述原文信息对应的编码向量。
5.根据权利要求4所述的文本摘要生成方法,其特征在于,所述将各个所述编码向量以及与各个所述原文信息对应的多个目标编码器隐藏状态分别输入至所述解码器中进行解码分析,得到与各个所述原文信息对应的初始化后解码器隐藏状态以及与各个所述原文信息对应的多个目标解码器隐藏状态的过程包括:
S221:根据各个所述编码向量分别对所述解码器进行初始化处理,得到与各个所述原文信息对应的初始化后解码器隐藏状态;
S222:将各个所述编码向量以及与各个所述原文信息对应的初始化后解码器隐藏状态分别输入至所述解码器中进行第一次解码,得到与各个所述原文信息对应的初始解码器隐藏状态,并将所述初始解码器隐藏状态作为所述编码向量中第二个单词词向量对应的目标解码器隐藏状态;
S223:按照所述单词词向量的排列顺序依次将各个所述编码向量、与下一个单词词向量对应的目标编码器隐藏状态以及所述初始解码器隐藏状态输入至所述解码器中进行第二次解码,得到与各个所述单词词向量对应的目标解码器隐藏状态;
S224:将所述目标解码器隐藏状态作为下一个初始解码器隐藏状态,并返回步骤S223,直至所有的单词词向量均输入至所述解码器中,从而得到与各个所述原文信息对应的多个目标解码器隐藏状态。
6.根据权利要求5所述的文本摘要生成方法,其特征在于,所述将与各个所述原文信息对应的多个目标解码器隐藏状态、与各个所述原文信息对应的编码向量、与各个所述原文信息对应的初始化后解码器隐藏状态、与各个所述原文信息对应的初始上下文向量以及与各个所述原文信息对应的多个目标上下文向量分别输入至所述注意力模块中进行单词的预测分析,得到与各个所述原文信息对应的原始预测序列的过程包括:
将各个所述初始化后解码器隐藏状态以及与各个所述原文信息对应的初始上下文向量分别输入至所述注意力模块中进行第一次单词预测,得到与各个所述原文信息对应的第一预测上下文向量;
按照所述单词词向量的排列顺序依次将各个所述目标解码器隐藏状态以及与各个所述单词词向量对应的目标上下文向量输入至所述注意力模块中进行第二次单词预测,得到与各个所述单词词向量对应的第二预测上下文向量;
分别对各个所述第一预测上下文向量以及与各个所述原文信息对应的编码向量进行第一次拼接,得到与各个所述原文信息对应的第一拼接向量;
分别对各个所述第二预测上下文向量以及与各个所述原文信息对应的编码向量进行第二次拼接,得到与各个所述单词词向量对应的第二拼接向量;
将各个所述第一拼接向量分别输入至所述解码器中进行第三次解码,得到与各个所述原文信息对应的第一预测单词;
按照所述单词词向量的排列顺序依次将各个所述第二拼接向量输入至所述解码器中进行第四次解码,得到与各个所述单词词向量对应的第二预测单词;
分别对与各个所述原文信息对应的第一预测单词以及各个所述原文信息对应的多个所述第二预测单词进行组合,得到与各个所述原文信息对应的原始预测序列。
7.根据权利要求3所述的文本摘要生成方法,其特征在于,每个所述摘要信息包括多个摘要单词向量,所述根据多个所述原始预测序列和多个所述摘要信息对所述训练模型进行损失函数分析,根据分析结果得到摘要生成模型的过程包括:
通过第一式分别对各个所述原始预测序列以及与各个所述原文信息对应的摘要信息进行损失函数计算,得到与各个所述原文信息对应的损失函数,所述第一式为:
Figure FDA0003573527250000051
其中,Pα(i)(Yi)→Pk(Yi),
其中,Yi为摘要信息中第i个摘要单词向量,L为损失函数,Pα(i)(Yi)为第i个摘要单词向量在映射位置上的概率分布,i∈{1,...,n},P1,...,Pm为原始预测序列中所有的预测单词,k∈{1,...,m},k为摘要单词向量{1,...,m}上映射后的位置,α(i)为摘要信息中第i个摘要单词向量所在位置在通过对齐函数α映射后在预测序列上的位置;
根据Adam梯度下降算法和所有的损失函数对所述训练模型进行更新,得到摘要生成模型。
8.根据权利要求3所述的文本摘要生成方法,其特征在于,所述将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行预测分析,得到与各个所述原文信息对应的评价分数的过程包括:
将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行目标预测序列的预测,得到与各个所述原文信息对应的目标预测序列;
利用ROUGE算法分别对所述目标预测序列以及与各个所述原文信息对应的摘要信息进行评分,得到与各个所述原文信息对应的评价分数。
9.一种文本摘要生成装置,其特征在于,包括:
分词处理模块,用于导入文本数据集,并对所述文本数据集进行分词处理,得到多个原文信息以及与各个所述原文信息对应的摘要信息;
模型训练模块,用于构建训练模型,根据各个所述原文信息分别对所述训练模型进行训练,得到与各个所述原文信息对应的原始预测序列;
损失函数分析模块,用于根据多个所述原始预测序列和多个所述摘要信息对所述训练模型进行损失函数分析,根据分析结果得到摘要生成模型;
摘要生成结果获得模块,用于将各个所述原文信息以及与各个所述原文信息对应的摘要信息分别输入至所述摘要生成模型中进行预测分析,得到与各个所述原文信息对应的评价分数,并将所有的评价分数作为文本摘要生成的结果。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至8任一项所述的文本摘要生成方法。
CN202210332378.6A 2022-03-30 2022-03-30 一种文本摘要生成方法、装置以及存储介质 Pending CN114662483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210332378.6A CN114662483A (zh) 2022-03-30 2022-03-30 一种文本摘要生成方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210332378.6A CN114662483A (zh) 2022-03-30 2022-03-30 一种文本摘要生成方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN114662483A true CN114662483A (zh) 2022-06-24

Family

ID=82033376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210332378.6A Pending CN114662483A (zh) 2022-03-30 2022-03-30 一种文本摘要生成方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN114662483A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221863A (zh) * 2022-07-18 2022-10-21 桂林电子科技大学 一种文本摘要评价方法、装置以及存储介质
CN117313656A (zh) * 2023-09-21 2023-12-29 成都明途科技有限公司 文本生成方法、训练方法、模型、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221863A (zh) * 2022-07-18 2022-10-21 桂林电子科技大学 一种文本摘要评价方法、装置以及存储介质
CN117313656A (zh) * 2023-09-21 2023-12-29 成都明途科技有限公司 文本生成方法、训练方法、模型、装置、设备及存储介质
CN117313656B (zh) * 2023-09-21 2024-05-07 成都明途科技有限公司 文本生成方法、训练方法、模型、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN110532554B (zh) 一种中文摘要生成方法、系统及存储介质
CN112270193A (zh) 基于bert-flat的中文命名实体识别方法
CN110688854B (zh) 命名实体识别方法、装置及计算机可读存储介质
CN110674646A (zh) 一种基于字节对编码技术的蒙汉机器翻译系统
US11954435B2 (en) Text generation apparatus, text generation learning apparatus, text generation method, text generation learning method and program
CN114662483A (zh) 一种文本摘要生成方法、装置以及存储介质
CN111859964A (zh) 一种语句中命名实体的识别方法及装置
CN113407711B (zh) 一种利用预训练模型的吉布斯受限文本摘要生成方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN110688450A (zh) 一种基于蒙特卡洛树搜索的关键词生成方法、基于强化学习的关键词生成模型及电子设备
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Liu Neural question generation based on Seq2Seq
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN112926344B (zh) 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质
CN114564953A (zh) 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型
Tretyak et al. Combination of abstractive and extractive approaches for summarization of long scientific texts
CN111814479A (zh) 一种企业简称生成及其模型的训练方法及装置
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
Baas et al. Transfusion: Transcribing speech with multinomial diffusion
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN113157914B (zh) 一种基于多层循环神经网络的文档摘要提取方法及系统
CN111090720B (zh) 一种热词的添加方法和装置
Nath et al. A study on approaches to neural machine translation
US20230130902A1 (en) Text generation apparatus, text generation learning apparatus, text generation method, text generation learning method and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination