CN110413986A

CN110413986A - 一种改进词向量模型的文本聚类多文档自动摘要方法及系统

Info

Publication number: CN110413986A
Application number: CN201910291940.3A
Authority: CN
Inventors: 陈刚
Original assignee: Shanghai Yanshu Computer Technology Co ltd
Current assignee: Shanghai Yanshu Computer Technology Co ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2019-11-05
Anticipated expiration: 2039-04-12
Also published as: CN110413986B

Abstract

本发明公开了一种改进词向量模型的文本聚类多文档自动摘要方法及系统，Hierarchical Softmax的CBOW属于大规模模型训练，基于此本文通过将TesorFlow深度学习框架引入词向量模型训练中，通过流式处理计算解决对于大规模训练集的时间效率问题，进行句向量表示时先引入了TF‑IDF，再计算待抽取语义单元的语义相似度，设定了加权参数来综合考虑，生成了“语义加权”的句向量；有益效果：综合考虑了语义、深度学习、机器学习的优劣性，应用了密度聚类和卷积神经网络算法，智能化程度较高，可以快速地抽取与中心内容相关度高的语句作为文本的摘要，在自动文本摘要中应用各类机器学习算法以达到更佳的摘要效果，可能将是该领域以后的主要研究方向，此外本发明系统基于本发明方法为文档摘要的自动抽取提供工具。

Description

一种改进词向量模型的文本聚类多文档自动摘要方法及系统

技术领域

本发明涉及自然语言处理领域，具体来说，涉及一种改进词向量模型的文本聚类多文档自动摘要方法及系统。

背景技术

互联网属于传媒领域。又称国际网络，互联网始于1969年美国的阿帕网。是网络与网络之间所串连成的庞大网络，这些网络以一组通用的协议相连，形成逻辑上的单一巨大国际网络。通常internet泛指互联网，而Internet则特指因特网。这种将计算机网络互相联接在一起的方法可称作“网络互联”，在这基础上发展出覆盖全世界的全球性互联网络称互联网，即是互相连接一起的网络结构。互联网并不等同万维网，万维网只是一建基于超文本相互链接而成的全球性系统，且是互联网所能提供的服务其中之一。

随着互联网的快速发展，互联网已经成为了人们获取信息的主要渠道，互联网上的文档数据内容也呈现出指数级增长的趋势。互联网上的文档数据中包含了丰富的信息，如何有效的阅读和筛选对我们有用的信息已经成为我们关注的重点。自动文档摘要技术对文档信息进行压缩表示，帮助用户更好的浏览和吸收互联网上的海量信息。

但目前句子融合、句子压缩和语言生成的相关技术还不够成熟，导致生成的摘要存在语法错误、逻辑不连贯或上下文衔接生硬等问题。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供一种改进词向量模型的文本聚类多文档自动摘要方法及系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种改进词向量模型的文本聚类多文档自动摘要方法及系统，文本预处理步骤：将原始文档的内容按句子进行分词，去除停用词，去其他无意义词；

改进词向量模型步骤：基于HierarchicalSoftmax的CBOW模型属于大规模模型训练，先建立深度学习框架TensorFlow，再运行算法；本发明将深度学习技术引入该模型训练中能够高效快速的得到词向量模型；

句向量表示与聚类步骤：句向量基于维度平均值，并引入参数加权的 TF-IDF算法得到句子的加权向量；根据句子的加权向量之间的语义相似度进行密度聚类得到若干子主题聚类文本，该子主题聚类文本中的句子同属于一类语义主题；

文章摘要句抽取，生成摘要步骤：当获取到子主题聚类文本后，采用的是卷积神经网络的机器学习算法从各个集合中抽取摘要句，排序，最后进行格式化的输出摘要；

进一步的，改进词向量模型步骤，建立深度学习框架TensorFlow；

其次基于HierarchicalSoftmax的CBOW模型算法的流程，主要步骤如下：

输入：基于CBOW的预料训练样本，词向量的维度大小M，CBOW的上下文大小2c，步长为η

投影：将输入的2c个向量做求和累加，即

输出：霍夫曼树的内部节点模型参数θ，所有的词向量ω

①基于语料训练样本建立霍夫曼树，从输入层到隐藏层(投影层)，这一步比较简单，就是对ω周围的2c个词向量求和取平均即可，即：

②随机初始化模型参数θ，所有的词向量ω

③进行梯度上升迭代过程，对于训练集中的每一个样本 (context(ω),ω)作如下处理：

e＝0，计算

forj＝2to，计算：

对于(context(ω),ω)中的每一个词向量x_i(共2c个)进行更新：

x_i＝x_i+e

如果梯度收敛，则结束梯度迭代，否则回到步骤3继续迭代。

3.进一步的，关于句向量表示与聚类步骤:

对于句子的向量表示的主要步骤有：(1)基于维度平均值，公式如下：

其中为句子i的第k维权重值，为句子中第j个特征词的第k维值， N表示句子包含的特征词的数量；

(2)引入TF-IDF以及对TF-IDF进行参数加权得到词语的权值，公式为：

Score(t_i,d)＝(α+β)×γ×Weight(t_i,d)

其中，t_i为文本d的第i词，Weight(t_i,d)表示文本d中的第词语的TF-IDF 值，α表示词t_i的段落位置参数，β表示词t_i与标题相关的加权参数，γ为无意义词加权系数，

TF-IDF为逆文档词频加权值，计算公式为：

TF-IDF＝TF(词频)*IDF(逆文档频率)

(4)句子的加权向量表示为：

进一步的，关于聚类的主要步骤，聚类算法将结合改进词向量表示的句向量进行余弦相似度计算得到句子之间的语义相似度；

(1)余弦相似度计算公式：

(2)聚类算法选用的是密度聚类，其经典的DBSCN聚类算法步骤为：

①初始化核心对象集合Ω＝φ,初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D，簇划分C＝φ；

②对于j＝1,2,...m,按下面的步骤找出所有的核心对象：

a)通过距离度量方式，找到样本x_j的∈-邻域子样本集N_ε(x_j)；

b)如果子样本集样本个数满足|N_ε(x_j)|≥MinPts，将样本x_j加入核心对象样本集合：Ω＝Ω∪{x_j}；

③如果核心对象集合Ω＝φ，则算法结束，否则转入步骤4；

④在核心对象Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ω_cur＝{o}，初始化类别序号k＝k+1，初始化当前簇样本集合 C_k＝{o}，更新未访问样本集合Γ＝Γ-{o}；

⑤如果当前簇核心对象队列Ω_cur＝φ，则当前聚类簇C_k生成完毕，更新簇划分C＝{C₁,C₂,…,C_k}，更新核心对象集合Ω＝Ω-C_k，转入步骤3；

⑥在当前簇核心队列Ω_cur中取出一个核心对象o′，通过邻域距离阀值ε找出所有的∈-邻域子样本集N_ε(o′).令Δ＝N_ε(o′)∩Γ，更新当前簇样本集合C_k＝C_k∪Δ，更新未访问样本集合Γ＝Γ-Δ，更新Ω_cur＝Ω_cur∪(Δ∩Ω)-o′，转入步骤5。

进一步的，关于文章摘要句抽取，生成摘要步骤；采用的是卷积神经网络从各个集合中抽取摘要句，排序，最后进行格式化的输出摘要，主要分为两部分：

(1)读取聚类后的文本对其进行编码；

对于给定的文本集合D，包含句子序列{S₁,S₂,…,S_n}，选择其中20％的句子生成文本摘要，对文本集合D中所有句子进行评分，并且预测文中的句子是否属于摘要，标记t_L∈{0,1}，本文使用有监督训练的目的是最大化标记所有的句子，设定输入文本集合D以及模型参数θ:

设定j表示词向量的维数，s是包含序列(ω₁,ω₂,…,ω_m)的句子，可用它表示成列矩阵ω∈R^m×j，设定ω和K∈R^f×j之间的宽度作为f的卷积：

其中，符号·是hadamard积，表示对应的两元素进行现相乘，α代表的是偏差值，代表的是第i个特征中的第k个元素；

文本编码的部分是通过标准的并行神经把文本中的句子组合成向量来表示，这些列表一起构成了文档的向量，设定文本D＝{s₁,s₂,…,s_n}，参数是h时刻的隐状态，按以下方法进行调整：

i_h＝sigmoid(W_i·[p_h-1；s_h]+b_i)

f_h＝sigmoid(W_f·[p_h-1；s_h]+b_f)

p_h＝tanh(i_h·f_h)

其中，符号是·两元素的乘积，W_i、W_f为语义组合的自适应选择向量，参数b_i、b_f作为删除的历史向量；

(2)从文本中选择中心句，进行摘要的抽取，输出。

设定h时刻编码程序的隐状态为(p₁,p₂,…,p_m)，对应的抽取程序的隐状态为

通过当前的编码状态与对应编码状态关联，系统能够着重抽取相关性较高的中心句:

其中，MLP代表的是多层神经网络

用h时刻的隐状态与状态的连接作为程序的输入，然后获取符合文本摘要的句子并且设置它的状态；

最后，将抽取出的符合条件的句子作为多文本的摘要，进行输出展示。

与现有技术相比，本发明具有以下有益效果：本发明提供一种改进词向量模型的文本聚类多文档自动摘要抽取方法及系统，所述方法在抽取句子生成摘要的时候，将深度学习技术引入HierarchicalSoftmax的CBOW模型训练中能够高效快速的得到词向量模型，进行句向量表示，先引入了TF-IDF，再计算待抽取语义单元的语义相似度，设定了加权参数来综合考虑，生成了“语义加权”的句向量，最后采用卷积神经网络这种机器学习的算法抽取摘要句，经过大量训练，使得生成的摘要能更好的反应文档所表述的主题，本发明方法不进行语义压缩、句子融合和语言生成，以句子来作为摘要抽取语义单元，有效减低所生成摘要的语法错误，使得摘要信息的表达语义连贯，衔接顺畅，不仅如此本发明方法综合考虑了语义、深度学习、机器学习的优劣性，智能化程度较高，可以快速地抽取与中心内容相关度高的语句作为文本的摘要，在自动文本摘要中应用各类机器学习算法以达到更佳的摘要效果，可能将是该领域以后的主要研究方向，此外本发明系统基于本发明方法为文档摘要的自动抽取提供工具。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统的流程框图；

图2是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统的TensorFlow的数据模型训练流程图；

图3是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统中Hierarchical Softmax的CBOW模型流程示意图；

图4是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统中句向量算法流程图；

图5是根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统中算法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述：

请参阅图1-5，根据本发明实施例的一种改进词向量模型的文本聚类多文档自动摘要方法及系统，其步骤为

第一步：预处理；

第二步：改进词向量模型训练；

第三步：句向量表示与聚类；

第四步：文章摘要句抽取，生成摘要；

第一步的预处理方式为：(1)中文分词，经过分词处理后的文本句子被切分成具有独立分割与处理意义的词单元，经过文本分词处理后的语料才能进行词向量训练，本文通过jieba分词工具将语料库进行文本分词；

(2)去除停用词，停用词是指对表示文章主题没有实际意义的经常大量出现在所有文章中的词语，比如经常使用的助词和语气词：的、地、得、了、嘛等等，为了提高语料训练的速度同时减少对表示文章主题无意义的词在提取摘要过程中的干扰，本文对经过中文分词和词性标注后的文本进行去除停用词工作；

(3)去除其他无意义词，其他无关意义词指停用词表之外的对表示文章主题无意义的词语，比如一些指示性词：总之、综上所述、因此等等，去除掉这些词，能够减少系统处理无意义的工作时间，提高系统的运行速度，提高最终摘要生成的效率和准确率；

第二步的改进词向量模型训练为：(1)深度学习框架TensorFlow不需要任何编译时间能够更快的迭代，因此能够使大量数据集的模型训练不需要太多时间，并且具有较高的效率，如图2基于TensorFlow的数据模型训练流程；

(2)如图3基于HierarchicalSoftmax的CBOW模型流程示意图

基于HierarchicalSoftmax的CBOW模型算法流程，梯度迭代使用了随机梯度上升法,模型主要步骤如下：

输入：基于CBOW的预料训练样本，词向量的维度大小M，CBOW的上下文大小2c，步长为

投影：将输入的2c个向量做求和累加，即

输出：霍夫曼树的内部节点模型参数θ，所有的词向量ω

②随机初始化模型参数θ，所有的词向量ω

③进行梯度上升迭代过程，对于训练集中的每一个样本(context(ω),ω)作如下处理：

e＝0，计算

For j＝2tol_ω，计算：

对于(context(ω),ω)中的每一个词向量x_i(共2c个)进行更新：

x_i＝x_i+e

如果梯度收敛，则结束梯度迭代，否则回到步骤3继续迭代，

关于基于HierarchicalSoftmax的CBOW模型算法的原理和公式的一些解释

考虑Huffman树中的某个叶子节点，假设它对应词典D中的词ω，记

p^ω：从根结点出发到达ω对应叶子结点的路径，

l^ω:路径p^ω中包含结点的个数，

路径p^ω中的l^ω个结点，其中表示根结点，表示词ω对应的结点，

词ω的Huffman编码，它由l^ω-1位编码构成，d_j ^ω表示路径p^ω中第j个结点对应的编码(根结点不对应编码)，

路径p^ω中非叶子结点对应的向量，θ_j ^ω表示路径p^ω中第j个非叶子结点对应的向量，

从二分类的角度来考虑问题，除根结点外，树中每个结点都对应了一个取值为0或1的Huffman编码，将编码为1的结点定义为负类，而将编码为0 的结点定义为正类，易知，一个结点被分为正类的概率是

被分为负类的概率是

对于词典D中的任意词ω，Huffman树中必存在一条从根结点到词ω对应结点的路径p^ω(且这条路径是惟一的)，路径p^ω上必存在l^ω-1个分支，将每个分支看做一次二分类，每一次分类就产生一个概率，将这些概率乘起来就是所需的p(ω|(context(ω))，

p(ω|(context(ω))的整体表达式为：

其中

于是可得到CBOW模型的目标函数为：

应当要使目标函数最大化，采用梯度上升法，随机梯度上升法的做法是：每取一个样本(context(ω),ω)，就对目标函数中的所有(相关)参数做一次刷新，目标函数L(ω,j)关于θ_j-1 ^ω与x_ω的梯度计算为：

可计算得到模型参数θ和所有的词向量ω，

基于Word2vec词向量训练后，将得到利用特征词上下文信息进行的词向量表示，该词向量将用于语义相似度计算、句向量表示、聚类等问题中，

第三步的句向量表示及聚类为：

(1)句向量的表示，由前面得到了文档中各个词语的词向量，而句子是由词语组成，结合改进的词向量对句子进行向量表示，其算法流程图如图5，

本发明对于句子的向量表示是基于维度平均值，公式如下：

该公式表示将句子中的特征词向量对应维度去和球平均得到该句子向量对应维度的权重值，其中为句子i的第k维权重值，为句子中第j个特征词的第k维值，N表示句子包含的特征词的数量；

每一维度的权重值基于初始词语权重值的综合考虑，引入TF-IDF以及对 TF-IDF进行参数加权得到词语的权值，公式为：

Score(t_i,d)＝(α+β)×γ×Weight(t_i,d)

其中，t_i为文本d的第i词，Weight(t_i,d)表示文本d中的第词语的TF-IDF 值

α表示词t_i的段落位置参数，如果词语出现在段首则α值为1.85，如果词出现在段尾则α值为1.07，如果词段首段尾均出现则α值为2.92，否则其他情况α值设置为1.08，

β表示词与t_i标题相关的加权参数，一般标题是作者总结文章所述内容的短语因此如果正文中的词语与标题相同或者高度相关则认为该词是较为重要的有效词，β参数为与标题词的语义相关度，该语义相关度基于Word2vec词向量进行相似度计算得到；

γ为无意义词加权系数，我们认为停用词，指示性词，以及助词、虚词、副词等对文章主题词相关度不大，因此若t_i为这些无意义词则γ为0，否则γ为 1，

TF-IDF为逆文档词频加权值，计算公式为：

TF-IDF＝TF(词频)*IDF(逆文档频率)

句子S_i由若干特征词语构成S_i＝(t₁,t₂,…,t_N)，每个词语对应经过 Word2vec训练得到的M维词向量w_i＝(v₁,v₂,…,v_M)

句子的加权向量表示为：

得到改进词向量表示的句向量，即可进行聚类步骤；

(2)聚类，本发明的聚类算法将结合改进词向量表示的句向量进行余弦相似度计算得到句子之间的语义相似度，

聚类算法选用的是密度聚类，其经典的DBSCN聚类算法步骤为：

①初始化核心对象集合Ω＝φ,初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D,簇划分C＝φ；

②对于j＝1,2,...m,按下面的步骤找出所有的核心对象：

b)如果子样本集样本个数满足|N_ε(x_j)|≥MinPts，将样本x_j加入核心对象样本集合：Ω＝Ω∪{x_j}，

③如果核心对象集合Ω＝φ，则算法结束，否则转入步骤4；

④在核心对象Ω中，随机选择一个核心对象o，初始化当前簇核心对象队列Ω_cur＝{o}，初始化类别序号k＝k+1，初始化当前簇样本集合C_k＝{o}，更新未访问样本集合Γ＝Γ-{o}；

⑤如果当前簇核心对象队列Ω_cur＝φ，则当前聚类簇C_k生成完毕，更新簇划分C＝{C₁,C₂,…,C_k}，更新核心对象集合Ω＝Ω-C_k，转入步骤3，

⑥在当前簇核心队列Ω_cur中取出一个核心对象o′，通过邻域距离阀值ε找出所有的∈-邻域子样本集N_ε(o′)，令Δ＝N_ε(o′)∩Γ，更新当前簇样本集合 C_k＝C_k∪Δ，更新未访问样本集合Γ＝Γ-Δ，更新Ω_cur＝Ω_cur∪(Δ∩Ω)-o′，转入步骤5，

能得到输出结果为：簇划分C＝{C₁,C₂,…,C_k}，

改进词向量表示的句向量经过密度聚类后便得到若干子主题聚类文本，该子主题聚类文本中的句子同属于一类语义主题；

第四步文章摘要句抽取，生成摘要，当获取到子主题聚类文本后，下面的任务就是从各个集合中抽取摘要句，排序，最后进行格式化的输出摘要，本发明采用的是卷积神经网络，主要分为两部分：

(1)读取聚类后的文本对其进行编码；

(2)从文本中选择中心句，进行摘要的抽取，输出，

对于给定的文本集合D，包含句子序列{S₁,S₂,…,S_n}，选择其中20％的句子生成文本摘要，对文本集合D中所有句子进行评分，并且预测文中的句子是否属于摘要，标记t_L∈{0,1}，本文使用有监督训练的目的是最大化标记所有的句子，设定输入文本集合D以及模型参数:

文本编码的部分是通过标准的并行神经把文本中的句子组合成向量来表示，这些列表一起构成了文档的向量，设定文本D＝{s₁,s₂,…,s_n}，参数p_h是 h时刻的隐状态，按以下方法进行调整：

i_h＝sigmoid(W_i·[p_h-1；s_h]+b_i)

f_h＝sigmoid(W_f·[p_h-1；s_h]+b_f)

p_h＝tanh(i_h·f_h)

其中，符号·是两元素的乘积，W_i、W_f为语义组合的自适应选择向量，参数b_i、b_f作为删除的历史向量；

程序抽取中心句的时候需要综合考虑摘要句与文本内容中心的相关性以及相关冗余特性等因素；

其中，MLP代表的是多层神经网络

最后，将抽取出的符合条件的句子作为多文本的摘要，进行输出展示；

进一步的，本发提供一种考虑语义的文本聚类多文档自动摘要抽取系统；所述系统加载有考虑语义的文本聚类多文档自动摘要抽取方法功能程序的计算机或者服务器。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种改进词向量模型的文本聚类多文档自动摘要方法，其特征在于，文本预处理步骤：将原始文档的内容按句子进行分词，去除停用词，去其他无意义词；改进词向量模型步骤：基于HierarchicalSoftmax的CBOW模型属于大规模模型训练，先建立深度学习框架TensorFlow，再运行算法；本发明将深度学习技术引入该模型训练中能够高效快速的得到词向量模型；

句向量表示与聚类步骤：句向量基于维度平均值，并引入参数加权的TF-IDF算法得到句子的加权向量；根据句子的加权向量之间的语义相似度进行密度聚类得到若干子主题聚类文本，该子主题聚类文本中的句子同属于一类语义主题；

投影：将输入的2c个向量做求和累加，即

输出：霍夫曼树的内部节点模型参数θ，所有的词向量ω

②随机初始化模型参数θ，所有的词向量ω

③进行梯度上升迭代过程，对于训练集中的每一个样本(context(ω)，ω)作如下处理：

e＝0，计算

forj＝2to，计算：

对于(context(ω)，ω)中的每一个词向量x_j(共2c个)进行更新：

x_i＝x_i+e

如果梯度收敛，则结束梯度迭代，否则回到步骤3继续迭代。

2.根据权利要求1所述的一种改进词向量模型的文本聚类多文档自动摘要系统，其特征在于，关于句向量表示与聚类步骤：

其中为句子i的第k维权重值，为句子中第j个特征词的第k维值，N表示句子包含的特征词的数量；

Score(t_i，d)＝(α+β)×y×Weght(t_i，d)

其中，t_i为文本d的第i词，Weight(t_i，d)表示文本d中的第词语的TF-IDF值，α表示词t_i的段落位置参数，β表示词t_i与标题相关的加权参数，γ为无意义词加权系数，

TF-IDF为逆文档词频加权值，计算公式为：

TF-IDF＝TF(词频|＊|DF(逆文档频率)

句子的加权向量表示为：

3.根据权利要求1所述的一种改进词向量模型的文本聚类多文档自动摘要系统，其特征在于，关于聚类的主要步骤，聚类算法将结合改进词向量表示的句向量进行余弦相似度计算得到句子之间的语义相似度；

(1)余弦相似度计算公式：

①初始化核心对象集合Ω＝φ，初始化聚类簇数k＝0，初始化未访问样本集合Γ＝D，簇划分C＝φ；

②对于j＝1，2，..m，按下面的步骤找出所有的核心对象：

③如果核心对象集合Ω＝φ，则算法结束，否则转入步骤4；

⑤如果当前簇核心对象队列Ω_cur＝φ，则当前聚类簇C_k生成完毕，更新簇划分C＝{C₁，C₂，…，C_k}，更新核心对象集合Ω＝Ω-C_k，转入步骤3；

⑥在当前簇核心队列Ω_cur中取出一个核心对象o′，通过邻域距离阀值ε找出所有的∈-邻域子样本集N_ε(o′)令Δ＝N_ε(o′)∩Γ，更新当前簇样本集合C_k＝C_k∪Δ，更新未访问样本集合Γ＝Γ-Δ，更新Ω_cur＝Ω_cur∪(Δ∩Ω)-o′，转入步骤5。

4.根据权利要求1所述的一种改进词向量模型的文本聚类多文档自动摘要系统，其特征在于，关于文章摘要句抽取，生成摘要步骤；采用的是卷积神经网络从各个集合中抽取摘要句，排序，最后进行格式化的输出摘要，主要分为两部分：(1)读取聚类后的文本对其进行编码；

对于给定的文本集合D，包含句子序列{S₁，S₂，…，S_n}，选择其中20％的句子生成文本摘要，对文本集合D中所有句子进行评分，并且预测文中的句子是否属于摘要，标记t_L∈{0，1}，本文使用有监督训练的目的是最大化标记所有的句子，设定输入文本集合D以及模型参数θ：

设定j表示词向量的维数，s是包含序列(ω₁，ω₂，…，ω_m)的句子，可用它表示成列矩阵ω∈R^m×j，设定ω和K∈R^f×j之间的宽度作为f的卷积：

文本编码的部分是通过标准的并行神经把文本中的句子组合成向量来表示，这些列表一起构成了文档的向量，设定文本D＝{s₁，s₂，…，s_n}，参数是h时刻的隐状态，按以下方法进行调整：

p_h＝tanh(i_h·f_h)

其中，符号是·两元素的乘积，为语义组合的自适应选择向量，参数b_i、b_f作为删除的历史向量；

(2)从文本中选择中心句，进行摘要的抽取，输出。

5.设定h时刻编码程序的隐状态为(p₁，p₂，…，p_m)，对应的抽取程序的隐状态为

通过当前的编码状态与对应编码状态关联，系统能够着重抽取相关性较高的中心句：

其中，MLP代表的是多层神经网络