CN109344391B - 基于神经网络的多特征融合中文新闻文本摘要生成方法 - Google Patents

基于神经网络的多特征融合中文新闻文本摘要生成方法 Download PDF

Info

Publication number
CN109344391B
CN109344391B CN201810965659.9A CN201810965659A CN109344391B CN 109344391 B CN109344391 B CN 109344391B CN 201810965659 A CN201810965659 A CN 201810965659A CN 109344391 B CN109344391 B CN 109344391B
Authority
CN
China
Prior art keywords
text
abstract
lstm
output
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810965659.9A
Other languages
English (en)
Other versions
CN109344391A (zh
Inventor
严馨
宁珊
徐广义
周枫
郭剑毅
陈玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810965659.9A priority Critical patent/CN109344391B/zh
Publication of CN109344391A publication Critical patent/CN109344391A/zh
Application granted granted Critical
Publication of CN109344391B publication Critical patent/CN109344391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于神经网络的多特征融合中文新闻文本摘要生成方法,属于自然语言处理领域。本发明先利用word2vec模型训练预处理后中文新闻文本语料;再通过CNN和带有注意力机制的LSTM通路进行多特征融合;将融合后的向量输入解码器,解码器是单向LSTM模型,并利用其对应的摘要向量,解码自动生成中文文本摘要;通过训练整个的网络模型后,对于新的文本,利用训练后的网络模型生成摘要。本发明通过数据驱动学习了一个端到端的中文新闻文本摘要自动生成模型,相对于传统的摘要生成方法,本发明采用基于神经网络融合多特征自动生成摘要的方法可以更加全面地挖掘文本特征,提高文本摘要生成的精确度。

Description

基于神经网络的多特征融合中文新闻文本摘要生成方法
技术领域
本发明涉及基于神经网络的多特征融合中文新闻文本摘要生成方法,属于自然语言处理技术领域。
背景技术
自动文摘将文本内容通过精炼的话概括,是解决信息过载和人工文摘成本大的有效工具,主要应用于新闻领域。
自动文摘的现有研究主要包括两种解决思路,一种是extractive,抽取式的,从原文中找到一些关键的句子,组合成一篇摘要;一种是abstractive,摘要式的,这需要计算机可以读懂原文的内容,并且用自己的意思将其表达出来。本发明利用摘要式(abstractive)这一解决思路来自动生成摘要。
注意力机制可以用来帮助神经网络更好地理解输入数据,尤其是一些专有名词和数字。attention在decoder阶段起作用,通过将输出与所有输入的词建立一个权重关系来让decoder决定当前输出的词与哪个输入词的关系更大(即应该将注意力放到哪个词上)。
通过多特征融合的方式可以更加全面细致地提取文本的深层语义特征。这种融合方式的优点是,不必对各通路输出数据进行同一维度上尺度的统一,可以避免数据信息损失。
发明内容
本发明提供了基于神经网络的多特征融合中文新闻文本摘要生成方法,以用于提高中文新闻文本摘要自动生成的精确度。
本发明的技术方案是:基于神经网络的多特征融合中文新闻文本摘要生成方法,该方法首先进行文本预处理,再进行多特征融合,将融合后的信息输入到解码器生成摘要,再将整个模型的构建与数据进行处理,对于新的文本,利用训练后的网络模型生成摘要;
所述方法的具体步骤如下:
Step1、进行文本预处理,中文新闻语料包括新闻文本及其摘要,使用分词工具jieba进行文本预处理包括分词、去停用词,再利用word2vec将分词后的语料表示成词向量;
Step2、使新闻文本词向量矩阵分别通过CNN和带有注意力机制的LSTM通路进行多特征融合;
Step3、将融合后的向量输入解码器,解码器是单向LSTM模型,并利用其对应的摘要向量,解码自动生成中文文本摘要;
Step4、通过训练整个的网络模型后,对于新的文本,利用训练后的网络模型生成摘要。
所述步骤Step2的具体步骤如下所示:
Step2.1、LSTM通路分析文本整体信息,LSTM能处理序列形式的文本数据,注意力机制辅助解码器识别当前时间步的重点信息;用带注意力机制的双向LSTM,对于基本的LSTM结构,其当前时间步隐层状态更新公式为:
ht=Ot·tanh(ct)
其中:
Ot=σ(Wo·[ht-1,Xt]+Bo)
Figure GDA0003757198810000021
Figure GDA0003757198810000022
Ft=σ(WF·[ht-1,Xt]+BF)
上述公式中,Xt是当前时间步的输入,ht是当前时间步的LSTM隐层状态,Ot是LSTM单元输出,LSTM单元状态更新ct,当前输入的单元状态
Figure GDA0003757198810000023
上一次的单元状态ct-1,Ft是遗忘层更新,σ是sigmoid函数,遗忘门层权重矩阵WF,LSTM单元状态权重矩阵Wc,LSTM输出层权重矩阵Wo;遗忘门层的偏置项为BF,单元状态的偏置项为Bc,输出层的偏置项为Bo
对于双向LSTM,由于有正向和反向两个计算方向,其结构用公式表示为:
St=f(UXt+WSt-1)
S′t=f(U′Xt+W′S′t+1)
O′=g(V′S′t+VSt)
其中St为正向t时刻的隐藏状态,S′t是反向t时刻的隐藏状态,U,W,U′,W′分别是正向和反向对应的矩阵权重,最终的输出O′取决于正向和反向计算的加和,V′、V为权重矩阵,f为上面基本的LSTM结构,g为softmax函数;
在注意力机制中,eij的值越高,表示第i个输出在第j个输入上分配的注意力越多,在生成第i个输出的时候受第j个输入的影响也就越大,eij是由第i-1个输出隐藏状态Si-1和输入中各个隐藏状态共同决定的,经过归一化成为权重aij,由带注意力机制的LSTM通道的隐藏向量序列(h1,h2...ht)按权重相加得到的新闻文本在i时刻的信息向量ci,能表示为公式:
eij=a(Si-1,hj)
其中a是sigmoid函数;
eij经过归一化成为权重aij,aij表示为公式:
Figure GDA0003757198810000031
其中,Tx为输入词的个数;
隐藏向量序列(h1,h2...ht)按权重相加得到ci,ci表示为公式:
Figure GDA0003757198810000032
Step2.2、CNN通路提取文本局部特征,为了提取不同方面特征,使用两个CNN通路;同一条CNN通路中卷积核的尺寸相同,池化层均采用最大池化;通过将不同卷积核的CNN的处理结果拼接在一起,以更全面、更细致地挖掘深层特征;嵌入层为输入新闻文本词向量矩阵,依次经过CNN1,CNN2,2种3层卷积层和池化层提取特征和降维,2条通路的输出经压平层压为1维向量;
Step2.3、在经过CNN通路和带有注意力机制的LSTM通路提取不同层次的文本特征后,通过融合层来实现各个通路输出的融合;融合层采用合并拼接各个神经网络通路输出向量的方式,将各个通路提取的文本特征向量拼接融合在一起;各条通路的输出均为一维的数据。
所述步骤Step3的具体步骤如下所示:
Step3.1、新闻文本对应的摘要Y=(y1,y2...yN),yi∈Rd,i∈[0,N]
其中d为向量维度,N为摘要的词个数;
每个LSTM单元都会根据它的输入并通过其内部结构计算出ht,具体过程如下:
it=σ(W1yt-1+W2ht-1+W3M)
i′t=tanh(W4yt-1+W5ht-1+W6M)
ft=σ(W7yt-1+W8ht-1+W9M)
ot=σ(W10yt-1+W11ht-1+Wi2M)
mt=mt-1·ft+it·i′t
ht=mt·ot
其中yt-1,ht-1,M是每个LSTM单元的输入,Wi,i∈[1,14],是可学习的参数矩阵,σ是sigmoid激活函数,tanh是tanh激活函数,it和i′t是输入层更新,ft是遗忘层更新,ot是输出层更新,mt是更新的细胞状态,ht是LSTM单元的隐含层状态,也是每个LSTM结构的最终输出;
根据ht得到y′t的条件概率:
P(y′t|y′t-1,y′t-2,…,y′i,M)=ρ(W13ht+W14M)
其中y′t为解码器t时刻的输出,ρ为输出层的softmax函数,对于t时刻,根据LSTM单元的输出ht和M,利用输出层函数softmax,得到在已知前t-1时刻的摘要词的条件下,第t时刻的摘要词是y′t的概率;对于模型每一次的迭代输出,这个概率是一个定值;
Step3.2、在训练过程中,给定一个训练语料
Figure GDA0003757198810000041
其中(xi,yi)为训练语料的第i个训练样本,xi为第i个训练样本的新闻文本,yi是其对应的标准摘要;s为训练语料的样本总数,使用交叉熵损失函数,计算模型损失:
Figure GDA0003757198810000042
其中N为每个训练样本标准摘要的词个数,参数θ是构成网络模型的参数;
通过随机梯度下降算法端对端的训练网络模型,优化模型参数θ,使得模型损失L达到最小值。
所述步骤Step4的具体步骤包括:
对于新文本X,直接利用训练好的模型参数进行摘要生成,首先对新文本进行文本预处理,即分词,去停用词,使用word2vec将文本转化为词向量,并按顺序输入到模型网络中;采用集束搜索beam search的方法,通过搜索词汇库,生成一个长度为N个词的序列Y,使得P(Y|X)最大,这个公式表示为输入序列为X的条件下,输出是Y序列,其中,X表示输入序列即输入的新闻文本,Y表示输出序列即模型生成的摘要序列;即通过每个时间步追踪的路径数目K对搜索进行参数化,在每个时间步执行argmax P(yt|{y1,…,yt-1},X),保留K个概率最大的t元序列,直至生成使P(Y|X)最大的N元序列。
本发明使用数据驱动的方法来训练一个中文新闻文本摘要自动生成模型。生成的摘要序列不限于输入文本中的词,在很多情况下能够生成更好的文本摘要。本方法使用的融合多特征的encode-decode框架能够很好的学习训练数据中摘要生成的风格。
本发明的有益效果是:
本方法通过数据驱动学习了一个端到端的中文新闻文本摘要自动生成模型来实现中文新闻文本的摘要自动生成,相对于传统的基于统计学的摘要生成方法,基于神经网络融合多特征自动生成摘要的方法可以深层次的分析文本含义,更加全面地挖掘文本特征,从而提高文本摘要生成的精确度。
附图说明
图1是本发明分析文本整体信的LSTM通道结构示意图;
图2是本发明提取文本局部特征的CNN通道结构示意图;
图3是本发明多元特征融合的编码器结构示意图;
图4是本发明解码器训练过程结构示意图;
图5是本发明解码器测试过程结构示意图;
图6基于神经网络的多特征融合的中文新闻文本摘要生成模型结构示意图。
具体实施方式
实施例1:如图1-6所示,基于神经网络的多特征融合中文新闻文本摘要生成方法;
所述方法的具体步骤如下:
Step1、进行文本预处理,中文新闻语料包括新闻文本及其摘要,使用分词工具jieba进行文本预处理包括分词、去停用词,再利用word2vec将分词后的语料表示成词向量;
Step2、使新闻文本词向量矩阵分别通过CNN和带有注意力机制的LSTM通路进行多特征融合;
Step3、将融合后的向量输入解码器,解码器是单向LSTM模型,并利用其对应的摘要向量,解码自动生成中文文本摘要;
Step4、通过训练整个的网络模型后,对于新的文本,利用训练后的网络模型生成摘要。
进一步的,所述步骤Step2的具体步骤如下所示:
Step2.1、LSTM通路分析文本整体信息,LSTM能处理序列形式的文本数据,注意力机制辅助解码器识别当前时间步的重点信息;用带注意力机制的双向LSTM,如图1所示。对于基本的LSTM结构,其当前时间步隐层状态更新公式为:
ht=Ot·tanh(ct)
其中:
Ot=σ(Wo·[ht-1,Xt]+Bo)
Figure GDA0003757198810000061
Figure GDA0003757198810000062
Ft=σ(WF·[ht-1,Xt]+BF)
上述公式中,Xt是当前时间步的输入,ht是当前时间步的LSTM隐层状态,Ot是LSTM单元输出,LSTM单元状态更新ct,当前输入的单元状态
Figure GDA0003757198810000063
上一次的单元状态ct-1,Ft是遗忘层更新,σ是sigmoid函数,遗忘门层权重矩阵WF,LSTM单元状态权重矩阵Wc,LSTM输出层权重矩阵Wo;遗忘门层的偏置项为BF,单元状态的偏置项为Bc,输出层的偏置项为Bo
对于双向LSTM,由于有正向和反向两个计算方向,其结构用公式表示为:
St=f(UXt+WSt-1)
S′t=f(U′Xt+W′S′t+1)
O′=g(V′S′t+VSt)
其中St为正向t时刻的隐藏状态,S′t是反向t时刻的隐藏状态,U,W,U′,W′分别是正向和反向对应的矩阵权重,最终的输出O′取决于正向和反向计算的加和,V′、V为权重矩阵,f为上面基本的LSTM结构,g为softmax函数;
在注意力机制中,eij的值越高,表示第i个输出在第j个输入上分配的注意力越多,在生成第i个输出的时候受第j个输入的影响也就越大,eij是由第i-1个输出隐藏状态Si-1和输入中各个隐藏状态共同决定的,经过归一化成为权重aii,由带注意力机制的LSTM通道的隐藏向量序列(h1,h2...ht)按权重相加得到的新闻文本在i时刻的信息向量ci,能表示为公式:
eij=a(Si-1,hj)
其中a是sigmoid函数;
eij经过归一化成为权重aij,aij表示为公式:
Figure GDA0003757198810000071
其中,Tx为输入词的个数;
隐藏向量序列(h1,h2...ht)按权重相加得到ci,ci表示为公式:
Figure GDA0003757198810000072
Step2.2、CNN通路提取文本局部特征,为了提取不同方面特征,使用两个CNN通路;同一条CNN通路中卷积核的尺寸相同,池化层均采用最大池化;通过将不同卷积核的CNN的处理结果拼接在一起,以更全面、更细致地挖掘深层特征;如图2中,嵌入层为输入新闻文本词向量矩阵,依次经过CNN1,CNN2,2种3层卷积层和池化层提取特征和降维,2条通路的输出经压平层压为1维向量;
Step2.3、在经过CNN通路和带有注意力机制的LSTM通路提取不同层次的文本特征后,通过融合层来实现各个通路输出的融合;融合层采用合并拼接各个神经网络通路输出向量的方式,将各个通路提取的文本特征向量拼接融合在一起;各条通路的输出均为一维的数据。多特征融合示意图如图3所示。图中CNN通路、带有注意力机制的LSTM通路输出的一维向量在融合层进行拼接融合生成向量M,表示为公式:
M=[y1,y2]
进一步的,所述步骤Step3的具体步骤如下所示:
Step3.1、新闻文本对应的摘要Y=(y1,y2...yN),yi∈Rd,i∈[0,N]
其中d为向量维度,N为摘要的词个数;
每个LSTM单元都会根据它的输入并通过其内部结构计算出ht,具体过程如下:
it=σ(W1yt-1+W2ht-1+W3M)
i′t=tanh(W4yt-1+W5ht-1+W6M)
ft=σ(W7yt-1+W8ht-1+W9M)
ot=σ(W10yt-1+W11ht-1+W12M)
mt=mt-1·ft+it·i′t
ht=mt·ot
其中yt-1,ht-1,M是每个LSTM单元的输入,Wi,i∈[1,14],是可学习的参数矩阵,σ是sigmoid激活函数,tanh是tanh激活函数,it和i′t是输入层更新,ft是遗忘层更新,ot是输出层更新,mt是更新的细胞状态,ht是LSTM单元的隐含层状态,也是每个LSTM结构的最终输出;
根据ht得到y′t的条件概率:
P(y′t|y′t-1,y′t-2,…,y′1,M)=ρ(W13ht+W14M)
其中y′t为解码器t时刻的输出,ρ为输出层的softmax函数,对于t时刻,根据LSTM单元的输出ht和M,利用输出层函数softmax,得到在已知前t-1时刻的摘要词的条件下,第t时刻的摘要词是y′t的概率;对于模型每一次的迭代输出,这个概率是一个定值;
Step3.2、在训练过程中,给定一个训练语料
Figure GDA0003757198810000083
其中(xi,yi)为训练语料的第i个训练样本,xi为第i个训练样本的新闻文本,yi是其对应的标准摘要;s为训练语料的样本总数,使用交叉熵损失函数,计算模型损失:
Figure GDA0003757198810000082
其中N为每个训练样本标准摘要的词个数,参数θ是构成网络模型的参数;
通过随机梯度下降算法端对端的训练网络模型,优化模型参数θ,使得模型损失L达到最小值。
进一步的,所述步骤Step4的具体步骤包括:
对于新文本X,直接利用训练好的模型参数进行摘要生成,首先对新文本进行文本预处理,即分词,去停用词,使用word2vec将文本转化为词向量,并按顺序输入到模型网络中;采用集束搜索beam search的方法,通过搜索词汇库,生成一个长度为N个词的序列Y,使得P(Y|X)最大,这个公式表示为输入序列为X的条件下,输出是Y序列,其中,X表示输入序列即输入的新闻文本,Y表示输出序列即模型生成的摘要序列;即通过每个时间步追踪的路径数目K对搜索进行参数化,在每个时间步执行argmax P(yt|{y1,…,yt-1},X),保留K个概率最大的t元序列,直至生成使P(Y|X)最大的N元序列。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.基于神经网络的多特征融合中文新闻文本摘要生成方法,其特征在于:所述方法的具体步骤如下:
Step1、进行文本预处理,中文新闻语料包括新闻文本及其摘要,结合新闻语料特点,使用分词工具jieba进行文本预处理包括分词、去停用词,再利用word2vec将分词后的语料表示成词向量;
Step2、使新闻文本词向量矩阵分别通过多通路CNN网络和带有注意力机制的LSTM网络,在多特征融合的基础上获得每个时刻摘要生成的编码表示;
Step3、将获得的t时刻编码表示输入解码器,解码器是单向LSTM模型,同时利用其对应的摘要向量,获得t时刻的摘要词输出,解码生成中文文本摘要,根据模型生成的摘要信息优化训练模型;
Step4、通过训练整个的网络模型后,对于新的文本,利用训练后的网络模型生成摘要;
所述步骤Step2的具体步骤如下所示:
Step2.1、LSTM通路分析文本整体信息,LSTM能处理序列形式的文本数据,注意力机制辅助解码器识别当前时间步的重点信息;用带注意力机制的双向LSTM,对于基本的LSTM结构,其当前时间步隐层状态更新公式为:
ht=Ot·tanh(ct)
其中:
Ot=σ(Wo·[ht-1,Xt]+Bo)
Figure FDA0003757198800000011
Figure FDA0003757198800000012
Ft=σ(WF·[ht-1,Xt]+BF)
上述公式中,Xt是当前时间步的输入,ht是当前时间步的LSTM隐层状态,Ot是LSTM单元输出,LSTM单元状态更新ct,当前输入的单元状态
Figure FDA0003757198800000013
上一次的单元状态ct-1,Ft是遗忘层更新,σ是sigmoid函数,遗忘门层权重矩阵WF,LSTM单元状态权重矩阵Wc,LSTM输出层权重矩阵Wo;遗忘门层的偏置项为BF,单元状态的偏置项为Bc,输出层的偏置项为Bo
对于双向LSTM,由于有正向和反向两个计算方向,其结构用公式表示为:
St=f(UXt+WSt-1)
S′t=f(U′Xt+W′S′t+1)
O′=g(V′S′t+VSt)
其中St为正向t时刻的隐藏状态,S′t是反向t时刻的隐藏状态,U,W,U′,W′分别是正向和反向对应的矩阵权重,最终的输出O′取决于正向和反向计算的加和,V′、V为权重矩阵,f为上面基本的LSTM结构,g为softmax函数;
在注意力机制中,eij的值越高,表示第i个输出在第j个输入上分配的注意力越多,在生成第i个输出的时候受第j个输入的影响也就越大,eij是由第i-1个输出隐藏状态Si-1和输入中各个隐藏状态共同决定的,经过归一化成为权重aij,由带注意力机制的LSTM通道的隐藏向量序列(h1,h2…ht)按权重相加得到的新闻文本在i时刻的信息向量ci,能表示为公式:
eij=a(Si-1,hj)
其中a是sigmoid函数;
eij经过归一化成为权重aij,aij表示为公式:
Figure FDA0003757198800000021
其中,Tx为输入词的个数;
隐藏向量序列(h1,h2…ht)按权重相加得到ci,ci表示为公式:
Figure FDA0003757198800000022
Step2.2、CNN通路提取文本局部特征,为了提取不同方面特征,使用两个CNN通路;同一条CNN通路中卷积核的尺寸相同,池化层均采用最大池化;通过将不同卷积核的CNN的处理结果拼接在一起,以更全面、更细致地挖掘深层特征;嵌入层为输入新闻文本词向量矩阵,依次经过CNN1,CNN2,2种3层卷积层和池化层提取特征和降维,2条通路的输出经压平层压为1维向量;
Step2.3、在经过CNN通路和带有注意力机制的LSTM通路提取不同层次的文本特征后,通过融合层来实现各个通路输出的融合;融合层采用合并拼接各个神经网络通路输出向量的方式,将各个通路提取的文本特征向量拼接融合在一起;各条通路的输出均为一维的数据;
所述步骤Step3的具体步骤如下所示:
Step3.1、新闻文本对应的摘要Y=(y1,y2…yN),yi∈Rd,i∈[0,N]
其中d为向量维度,N为摘要的词个数;
每个LSTM单元都会根据它的输入并通过其内部结构计算出ht,具体过程如下:
it=σ(W1yt-1+W2ht-1+W3M)
i′t=tanh(W4yt-1+W5ht-1+W6M)
ft=σ(W7yt-1+W8ht-1+W9M)
ot=σ(W10yt-1+W11ht-1+W12M)
mt=mt-1·ft+it·i′t
ht=mt·ot
其中yt-1,ht-1,M是每个LSTM单元的输入,Wi,i∈[1,14],是可学习的参数矩阵,σ是sigmoid激活函数,tanh是tanh激活函数,it和i′t是输入层更新,ft是遗忘层更新,ot是输出层更新,mt是更新的细胞状态,ht是LSTM单元的隐含层状态,也是每个LSTM结构的最终输出;
根据ht得到y′t的条件概率:
P(y′t|y′t-1,y′t-2,…,y′1,M)=ρ(W13ht+W14M)
其中y′t为解码器t时刻的输出,ρ为输出层的softmax函数,对于t时刻,根据LSTM单元的输出ht和M,利用输出层函数softmax,得到在已知前t-1时刻的摘要词的条件下,第t时刻的摘要词是y′t的概率;对于模型每一次的迭代输出,这个概率是一个定值;
Step3.2、在训练过程中,给定一个训练语料
Figure FDA0003757198800000031
其中(xi,yi)为训练语料的第i个训练样本,xi为第i个训练样本的新闻文本,yi是其对应的标准摘要;s为训练语料的样本总数,使用交叉熵损失函数,计算模型损失:
Figure FDA0003757198800000041
其中N为每个训练样本标准摘要的词个数,参数θ是构成网络模型的参数;
通过随机梯度下降算法端对端的训练网络模型,优化模型参数θ,使得模型损失L达到最小值。
2.根据权利要求1所述的基于神经网络的多特征融合中文新闻文本摘要生成方法,其特征在于:所述步骤Step1的具体步骤如下所示:
Step1.1、结合中文新闻语料的特点,在利用jieba分词工具分词时,将时间、数字整合,不进行分割,在去除停用词时,将名词、数字、形容词排出在外,以保留新闻文本的原始信息以及新闻本文特征。
3.根据权利要求1所述的基于神经网络的多特征融合中文新闻文本摘要生成方法,其特征在于:所述步骤Step4的具体步骤包括:
对于新文本X,直接利用训练好的模型参数进行摘要生成,首先对新文本进行文本预处理,即分词,去停用词,使用word2vec将文本转化为词向量,并按顺序输入到模型网络中;采用集束搜索beam search的方法,通过搜索词汇库,生成一个长度为N个词的序列Y,使得P(Y|X)最大,这个公式表示为输入序列为X的条件下,输出是Y序列,其中,X表示输入序列即输入的新闻文本,Y表示输出序列即模型生成的摘要序列;即通过每个时间步追踪的路径数目K对搜索进行参数化,在每个时间步执行argmax P(yt|{y1,…,yt-1},X),保留K个概率最大的t元序列,直至生成使P(Y|X)最大的N元序列。
CN201810965659.9A 2018-08-23 2018-08-23 基于神经网络的多特征融合中文新闻文本摘要生成方法 Active CN109344391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810965659.9A CN109344391B (zh) 2018-08-23 2018-08-23 基于神经网络的多特征融合中文新闻文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810965659.9A CN109344391B (zh) 2018-08-23 2018-08-23 基于神经网络的多特征融合中文新闻文本摘要生成方法

Publications (2)

Publication Number Publication Date
CN109344391A CN109344391A (zh) 2019-02-15
CN109344391B true CN109344391B (zh) 2022-10-21

Family

ID=65291747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810965659.9A Active CN109344391B (zh) 2018-08-23 2018-08-23 基于神经网络的多特征融合中文新闻文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN109344391B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162799B (zh) * 2018-11-28 2023-08-04 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN109977861B (zh) * 2019-03-25 2023-06-20 中国科学技术大学 离线手写体数学公式识别方法
CN110136226B (zh) * 2019-04-08 2023-12-22 华南理工大学 一种基于图像组协同描述生成的新闻自动配图方法
CN110210016B (zh) * 2019-04-25 2021-06-04 中国科学院计算技术研究所 基于风格引导的双线性神经网络虚假新闻检测方法及系统
CN110134764A (zh) * 2019-04-26 2019-08-16 中国地质大学(武汉) 一种文本数据的自动分类方法及系统
CN110222149B (zh) * 2019-05-17 2021-07-27 华中科技大学 一种基于新闻舆情的时间序列预测方法
WO2020237479A1 (zh) * 2019-05-27 2020-12-03 中国科学院深圳先进技术研究院 实时事件摘要的生成方法、装置、设备及存储介质
CN110334334B (zh) * 2019-06-19 2024-05-14 腾讯科技(深圳)有限公司 一种摘要生成方法、装置及计算机设备
CN110279912A (zh) * 2019-06-19 2019-09-27 中国人民解放军陆军军医大学第一附属医院 一种防渗漏辅助结构
CN112148870B (zh) * 2019-06-26 2022-09-16 阿里巴巴集团控股有限公司 摘要生成方法、装置、电子设备及计算机可读存储介质
CN110378409B (zh) * 2019-07-15 2020-08-21 昆明理工大学 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN110427615B (zh) * 2019-07-17 2022-11-22 宁波深擎信息科技有限公司 一种基于注意力机制的金融事件修饰时态的分析方法
CN110458201B (zh) * 2019-07-17 2021-08-24 北京科技大学 一种遥感影像面向对象分类方法及分类装置
CN110390103B (zh) * 2019-07-23 2022-12-27 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN110489541B (zh) * 2019-07-26 2021-02-05 昆明理工大学 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法
CN110688834B (zh) * 2019-08-22 2023-10-31 创新先进技术有限公司 基于深度学习模型进行智能文稿风格改写的方法和设备
CN110619127B (zh) * 2019-08-29 2020-06-09 内蒙古工业大学 一种基于神经网络图灵机的蒙汉机器翻译方法
CN110516213B (zh) * 2019-09-03 2022-04-15 哈尔滨工业大学 一种基于表格层次化建模的结构化数据生成文本方法
CN110738026B (zh) * 2019-10-23 2022-04-19 腾讯科技(深圳)有限公司 用于生成描述文本的方法和设备
CN110956041A (zh) * 2019-11-27 2020-04-03 重庆邮电大学 一种基于深度学习的并购重组公告摘要方法
CN111124989A (zh) * 2019-12-20 2020-05-08 联想(北京)有限公司 信息展示方法、装置、电子设备以及可读存储介质
CN111241816B (zh) * 2020-01-22 2023-10-27 北京工业大学 一种新闻标题自动生成方法
CN111666402B (zh) * 2020-04-30 2024-05-28 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
CN111931496B (zh) * 2020-07-08 2022-11-15 广东工业大学 一种基于递归神经网络模型的文本风格转换系统及方法
CN112200198B (zh) * 2020-07-31 2023-11-24 星宸科技股份有限公司 目标数据特征提取方法、装置及存储介质
CN112163514A (zh) * 2020-09-26 2021-01-01 上海大学 中文繁体字识别方法及装置、可读存储介质
CN112364225B (zh) * 2020-09-30 2021-11-23 昆明理工大学 一种结合用户评论的司法舆情文本摘要方法
CN112148863B (zh) * 2020-10-15 2022-07-01 哈尔滨工业大学 一种融入常识知识的生成式对话摘要方法
CN112395832B (zh) * 2020-11-17 2024-05-21 上海金桥信息股份有限公司 一种基于序列到序列的文本量化分析与生成方法及系统
CN112528190A (zh) * 2020-12-23 2021-03-19 中移(杭州)信息技术有限公司 基于片化结构与内容的网页篡改评判方法、装置及存储介质
CN113128557B (zh) * 2021-03-11 2022-08-23 重庆邮电大学 基于胶囊网络融合模型的新闻文本分类方法、系统及介质
CN113312473B (zh) * 2021-05-26 2022-06-07 北京理工大学 基于Seq2seq模型的摘要生成方法
CN113449490B (zh) * 2021-06-22 2024-01-26 上海明略人工智能(集团)有限公司 一种文档信息汇总方法、系统、电子设备及介质
WO2023004528A1 (zh) * 2021-07-26 2023-02-02 深圳市检验检疫科学研究院 一种基于分布式系统的并行化命名实体识别方法及装置
CN114547287B (zh) * 2021-11-18 2023-04-07 电子科技大学 一种生成式文本摘要方法
CN113948217A (zh) * 2021-11-23 2022-01-18 重庆邮电大学 一种基于局部特征整合的医学嵌套命名实体识别方法
CN114118024B (zh) * 2021-12-06 2022-06-21 成都信息工程大学 一种条件文本生成方法及生成系统
CN116629324B (zh) * 2023-07-26 2023-10-03 北京知呱呱科技服务有限公司 一种面向模型生成文本重复退化现象的优化生成方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN107832300A (zh) * 2017-11-17 2018-03-23 合肥工业大学 面向微创医疗领域文本摘要生成方法及装置
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN107563498B (zh) * 2017-09-08 2020-07-14 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN107895000B (zh) * 2017-10-30 2021-06-18 昆明理工大学 一种基于卷积神经网络的跨领域语义信息检索方法
CN108344564B (zh) * 2017-12-25 2019-10-18 北京信息科技大学 一种基于深度学习的主轴特性试验台状态识别及预测方法
CN108304359B (zh) * 2018-02-06 2019-06-14 中国传媒大学 无监督学习统一特征提取器构建方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699763A (zh) * 2015-02-11 2015-06-10 中国科学院新疆理化技术研究所 多特征融合的文本相似性度量系统
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107133211A (zh) * 2017-04-26 2017-09-05 中国人民大学 一种基于注意力机制的作文评分方法
CN107832400A (zh) * 2017-11-01 2018-03-23 山东大学 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN107832300A (zh) * 2017-11-17 2018-03-23 合肥工业大学 面向微创医疗领域文本摘要生成方法及装置
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Language modeling with gated convolutional networks;YN Dauphin 等;《Proceedings of the 34th International Conference on Machine Learning》;20161231;第70卷;933-941 *
基于注意力机制的评论摘要生成;苏放 等;《北京邮电大学学报》;20180615;第41卷(第3期);7-13 *
基于语义理解注意力神经网络的多元特征融合中文文本分类;谢金宝 等;《电子与信息学报》;20180531;第40卷(第5期);正文第1261-1262页第3.2-3.3节 *
融合句义特征的多文档自动摘要算法研究;罗森林 等;《北京理工大学学报》;20161015;第36卷(第10期);1059-1064 *

Also Published As

Publication number Publication date
CN109344391A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109344391B (zh) 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN109086267B (zh) 一种基于深度学习的中文分词方法
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN107273358B (zh) 一种基于管道模式的端到端英文篇章结构自动分析方法
CN110427616B (zh) 一种基于深度学习的文本情感分析方法
CN110968660B (zh) 基于联合训练模型的信息抽取方法和系统
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN112989796B (zh) 一种基于句法指导的文本命名实体信息识别方法
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
US20240005093A1 (en) Device, method and program for natural language processing
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN111339765A (zh) 文本质量评估方法、文本推荐方法及装置、介质及设备
CN112861524A (zh) 一种基于深度学习的多层次中文细粒度情感分析方法
CN110569505A (zh) 一种文本输入方法及装置
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN113435211A (zh) 一种结合外部知识的文本隐式情感分析方法
Zhang et al. A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews
CN115168541A (zh) 基于框架语义映射和类型感知的篇章事件抽取方法及系统
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN114168754A (zh) 一种基于句法依赖和融合信息的关系抽取方法
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant