CN113157907B

CN113157907B - 一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质

Info

Publication number: CN113157907B
Application number: CN202110279942.8A
Authority: CN
Inventors: 埃比; 段俊文; 王建新; 刘姝玥
Original assignee: Central South University
Current assignee: Hunan Huaxin Software Co.,Ltd.
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2022-05-03
Anticipated expiration: 2041-03-16
Also published as: CN113157907A

Abstract

本发明公开了一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质，所述方法包括：步骤1：将待处理的文档中句子的单词编码成词向量，并针对每个句子，利用Bi‑LSTM模型以及自注意力机制构建句子编码器得到句子向量；步骤2：针对待处理的文档，利用Bi‑LSTM模型以及自注意力机制构建篇章编码器得到篇章向量；步骤3：基于所述篇章向量对句子进行分类得到候选句子；步骤4：将候选句子输入基于RST构建的摘要提取器提取出核心EDU，并将所有候选句子的核心EDU拼接为文本摘要；其中，将候选句子分割为文档单元，再利用文本单元构成语篇结构的层次树，层次树的叶子节点EDU表示被分割的文档单元。本发明引入自注意力机制以及语篇结构提高了摘要提取的准确性。

Description

一种基于语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质

技术领域

本发明属于文本处理技术领域，具体涉及一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质。

背景技术

由于互联网上可用数据的数量正在迅速增加，出现了对有效摘要系统的需求，该摘要系统要能够快速，高效地检索重要信息。作为一种补救措施，文本摘要可通过在保留最重要的关键信息的同时生成源文本的简短版本来解决信息过载问题。

文本摘要可以分为抽取式和生成式(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniques:abriefsurvey.arXivpreprintarXiv:170702268)。抽取式摘要技术是从主要文本中提取最重要的短语，这些短语代表整个文本。因此，需要对句子之间的联系有一个全面的了解，以产生高质量的摘要(MunotN,GovilkarSS(2014)Comparativestudyoftextsummarizationmethods.InternationalJournalofComputerApplications102(12))。生成式摘要技术会生成原始文本中不存在的新单词或短语(AllahyariM,PouriyehS,AssefiM,SafaeiS,TrippeED,GutierrezJB,KochutK(2017)Textsummarizationtechniques:abriefsurvey.arXivpreprintarXiv:170702268)。因此，与生成式方法相比，抽取式方法产生的摘要在语法和语言上的精确度要高得多(NallapatiR,ZhaiF,ZhouB(2016)Summarunner:Arecurrentneuralnetworkbasedsequencemodelforextractivesummarizationofdocuments)。相比之下，生成式方法的特征在于它们是通过模拟人类的总结方式去生成摘要的。最近提出了一些混合系统，通过抽取和重写符合摘要要求的句子来组合这两种方法(GehrmannS,DengY,RushAM(2018)Bottom-upabstractivesummarization,XuJ,DurrettG(2019)Neuralextractivetextsummarizationwithsyntacticcompression)。但是，与其他非混合系统相比，这些方法无法达到所需的水平。

传统的抽取式摘要系统基于复杂的特征提取方法来评估句子。这些特征用于摘要决策中，以选择所提取特征所涵盖的最相关的句子(BaralisE,CaglieroL,JabeenS,FioriA,ShahS(2013)Multi-documentsummarizationbasedontheyagoontology.

ExpertSystemswithApplicationsAnInternationalJournal40(17):6976–6984,ConroyJM,O’learyDP(2001)Textsummarizationviahiddenmarkovmodels.In:Proceedingsofthe24^thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,pp406–407,CarbonellJ,GoldsteinJ(1998)Theuseofmmr,diversity-basedrerankingforreorderingdocumentsandproducingsummaries.In:Proceedingsofthe21^stannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,pp335–336)。这些方法的性能在很大程度上依赖于劳动强度大的特征工程。深度神经网络最近已经实现了许多自然语言处理任务的最新技术，包括情感分析，机器翻译和文本摘要。Singh和Gupta(SinghAK,GuptaM,VarmaV(2017)Hybridmemnetforextractivesummarization.

In:Proceedingsofthe2017ACMonConferenceonInformationandKnowledgeManagement,pp2303–2306)提出了一种混合抽取摘要技术，该技术依赖于卷积bi-LSTM网络与记忆网络的集成。Nallapati和Zhai(NallapatiR,ZhaiF,ZhouB(2016)Summarunner:Arecurrentneuralnetworkbasedsequencemodelforextractivesummarizationofdocuments)提供了一个包含两层RNN单词和句子级别的抽取模型。该模型的总结基于几个标准，例如句子的位置和内容。注意机制的出现促进了抽取性摘要模型的发展。Cheng和Lapata(ChengJ,LapataM(2016)Neuralsummarizationbyextractingsentencesandwords.arXivpreprintarXiv:160307252)使用这种机制来创建一个基于注意力机制的分层模型，该模型包括篇章编码器和句子编码器。尽管这些模型有效，但它们的共同局限性有以下几点。(1)与其他部分相比，篇章的开头会受到更多关注。(2)整个句子中的所有单词尽管具有结构上的关联性，但在全连接层中均受到同等关注。从而导致抽取式摘要模型还有待进一步的研究以提高其可靠性。其中，如何更加有效以及准确地实现抽取式摘要的形成，是本发明研究以及关注的。

发明内容

本发明的目的是提供一种语篇结构的层次文本摘要获取方法、系统、终端设备及可读存储介质，所述方法引入修辞结构理论RST，将文本单元构建成语篇结构，提取结构中核心的EDU形成文档的最终摘要，更加准确地抽取了文档中核心内容，得到可靠性更高的摘要。

一方面，本发明提供的一种语篇结构的层次文本摘要获取方法，包括如下步骤：

步骤1：将待处理的文档中句子的单词编码成词向量，并针对每个句子，利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量；

步骤2：针对待处理的文档，利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量；

步骤3：基于所述篇章向量对句子进行分类得到候选句子；

步骤4：将候选句子输入基于RST构建的摘要提取器提取出核心EDU，并将所有候选句子的核心EDU拼接为文本摘要；

其中，将候选句子分割为文档单元，再利用文本单元构成语篇结构的层次树，层次树的叶子节点EDU表示被分割的文档单元。

本发明提供的所述层次文本摘要获取方法，一方面，其引入自注意力机制，在步骤1中通过注意机制捕获给定句子中的重要部分，在步骤2中通过注意机制关注整个文本中有意义的句子。二方面，其引入语篇结构，利用语篇结构提取核心EDU(基本语篇单元)用于生成最终的摘要，其过程去除了句子中不重要的细节，提高了摘要提取的可靠性。此外，应用语篇结构有助于模型处理多余的细节，从而提高提取摘要的效率。

可选地，步骤4中将候选句子输入基于RST构建的摘要提取器提取出核心EDU的过程如下：

步骤4-1：将候选句子分割为文档单元，再利用文本单元构成语篇结构的层次树；

每个文档单元分别作为层次树的叶子节点EDU；

步骤4-2：将每个EDU对应的文档单元中的单词分别与POS标签的神经嵌入级进行联合计算得到单词在EDU中的嵌入位置

进而得到嵌入位置向量

表示在EDU中嵌入字词的位置，p_i为POS标签的，

是异或运算符号，EDU对应的文档单元中单词集合表示为{w₁,w₂,..w_p}，w_j为单词集合中第j个单词，p为文档单元中单词个数，emb为词嵌入公式符号；

步骤4-3：将步骤4-2中的嵌入位置向量

输入bi-LSTM层得到单词向量

再以平均池化计算得到EDU的另一表达Ed^e；

式中，

为单词向量

中第j个单词向量；

步骤4-4：将候选句子对应的所有EDU的另一表达Ed^e输入bi-LSTM层得到

其中，q为候选句子对应的EDU个数；

步骤4-5：依据步骤4-1中的层次树以及所有EDU对应的

计算出每个EDU的得分，按照如下公式计算：

其中，S为EDU的得分，

为构建层次树中，EDU对应的前1、x+1个子树的解析表达，W为模型参数，

为紧接编码器输出得到的隐层向量，子树的解析表达通过平均池化得到：

其中，第x+1个子树的解析表达

中的所有EDU表示为：(e_i,e_i+1,…,e_j)，

等于第x+1个子树中EDU对应在

的值；

步骤4-6：依据每个EDU的得分选择核心EDU，其中，得分越高，对应EDU越重要。

可选地，步骤1中利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量的过程如下：

步骤1-1：将句子中单词的词向量输入Bi-LSTM模型获取句子的正向和反向向量，并作为LSTM的隐层状态；

步骤1-2：利用自注意力机制将步骤1-1中LSTM的隐层状态作为输入变量，得到权重向量，再结合步骤1-1中的所述LSTM的隐层状态与所述权重向量得到句子向量；

s_i＝v_sH_s

s_i为第i个句子的句子向量，v_s为权重向量，H_s为步骤1-1中LSTM的隐层状态；

所述权重向量v_s表示为：

其中，softmax()是将注意力权重标准化为1的函数，tanh表示激活函数，l_s、w_s均为可学习参数，T为矩阵的转置符号。

可选地，步骤2中利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量的过程如下：

步骤2-1：输入步骤1中的句子向量至Bi-LSTM模型获取文档篇章的正向和反向向量，并作为LSTM的隐层状态；

步骤2-2：利用自注意力机制将步骤2-1中的LSTM的隐层状态作为输入变量，得到权重向量，再结合步骤2-1中的所述LSTM的隐层状态与权重向量得到篇章向量；

d＝v_dH_d

d为篇章向量，v_d为权重向量，H_d为步骤2-1中的LSTM的隐层状态；

所述权重向量v_d表示为：

其中，softmax()是将注意力权重标准化为1的函数，tanh为激活函数，l_d、w_d均为可学习参数，T为矩阵的转置符号。

可选地，步骤3中基于所述篇章向量对句子进行分类得到候选句子的过程如下：

采用概率分布计算每个句子的概率分布值；

P(y_i＝1)＝σ(G_i+L_i+T_i+R_i+d+b))

其中，d为篇章向量，G_i表示句子对整个篇章的重要度、L_i为句子在篇章中的位置、T_i表示句子中包含的信息类型，R_i表示相关性；P(y_i＝1)表示句子的概率分布值；

然后，依据每个句子的概率分布值选定候选句子。

可选地，句子对整个篇章的重要度G_i、句子在篇章中的位置L_i、句子中包含的信息类型T_i、相关性R_i的公式如下：

G_i＝W_gS_i

L_i＝W_le_i

T_i＝W_tS_i

R_i＝S_iW_rd

其中，S_i表示篇章中的句子，W_g,W_l和W_t、W_r是自动学习的数字权重，用于表示特征的比例重要性，e_i表示句子的位置嵌入点。

二方面，本发明提供的一种基于语篇结构的层次文本摘要获取方法的系统，包括：

句子向量生成模块：用于将待处理的文档中句子的单词编码成词向量，并针对每个句子，利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量；

篇章向量生成模块：用于针对待处理的文档，利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量；

候选句子获取模块：用于基于所述篇章向量对句子进行分类得到候选句子；

摘要提取模块：用于将候选句子输入基于RST构建的摘要提取器提取出核心EDU，并将所有候选句子的核心EDU拼接为文本摘要；

三方面，本发明提供的一种终端设备，包括处理器和存储器，所述存储器存储了计算机程序，所述处理器调用所述计算机程序以执行：所述一种语篇结构的层次文本摘要获取方法的步骤。

四方面，本发明提供的一种可读存储介质，存储了计算机程序，所述计算机程序被处理器调用以执行：所述一种语篇结构的层次文本摘要获取方法的步骤。

有益效果

1.本发明提供的所述层次文本摘要获取方法一方面引入了两个注意机制，对不相关或者相关度低的信息通过降低权重来过滤原始文本，步骤1中在于捕获句子中的重要部分，步骤2中在于捕获文档中的重要句子，通过双重注意机制提高了对文档中重要部分的关注。二方面，引入语篇结构，提前出核心的EDU，去除不重要的细节，进一步提升了模型的优势。

2.将本发明提供的所述层次文本摘要获取方法与现有技术进行比对，结果进一步证实了本发明所述方法的优势。

附图说明

图1为本发明的模型结构示意图；

图2为RST解析器的例子；

图3为使用ROUGE-1，ROUGE-2和ROUGE-L在CNN/每日邮件数据集上的模型比较结果示意图；

图4是使用ROUGE-1，ROUGE-2和ROUGE-L在CNN数据集上的模型比较结果示意图；

图5是本发明的模型与其它模型在Dailymail数据集上使用ROUGE-1、ROUGE-2和ROUGE-L的比较结果示意图。

具体实施方式

本发明提供的一种语篇结构的层次文本摘要获取方法，其引入了修辞结构理论RST，利用其构建了层次树，以便提取出核心EDU。其中，修辞结构理论(RST)(MannWC,ThompsonSA(1988)Rhetoricalstructuretheory:Towardafunctionaltheoryoftextorganization.Text8(3):243–281)是一个分析框架，旨在考虑文本结构的术语。在RST中，文本被解析为层次树。该树的叶节点称为EDU，它们是不重叠且连贯的文本范围，并且通过使用非终端节点来表示关系(WangY,LiS,YangJ(2018)Towardfastandaccurateneuraldiscoursesegmentation)。EDU通过背景，说明和阐述等关系相互链接。这些关系使用两个节点的属性来估计语篇结构中两个节点之间的关系的概率。两个EDU之间的关系采用以下三种类别之一：N-N，N-S或S-N，其中N表示核心关系，S表示附属关系。核心表示最重要的信息单元，而附属则表示用于支持基本信息的其他信息。应用语篇结构有助于模型处理多余的细节，从而提高提取摘要的效率。

下面将结合实施例对本发明做进一步的说明。

本发明实施例提供的一种语篇结构的层次文本摘要获取方法，包括如下步骤：

步骤1：将待处理的文档中句子的单词编码成词向量，并针对每个句子，利用Bi-LSTM模型以及自注意力机制构建句子编码器得到句子向量。

其中，输入一个包含N个句子的文档，如N个句子的文档D＝S₁,S₂,…,S_N。其中，S_j(1≤j≤N)表示文档D中的第j个句子。句子S_j中存在m个单词，单词集合E＝e₁,e₂,…,e_m，其中，e_i(1≤i≤m)表示针对第i个单词的单词向量。

本发明首先使用Bi-LSTM模型编码句子中的单词，Bi-LSTM使用正向LSTM从句子s_j中左侧e₁到右侧e_m提取信息

而使用反向LSTM从句子s_j中右侧e_m到左侧e₁提取信息

如下：

其中，LSTM^→、LSTM^←分别表示前向和后向LSTM，e_t为句子中的一个单词向量。Bi-LSTM模型中将信息

与信息

串联一起作为隐层状态h_t：

假设LSTM的每个方向都包含k个隐层单元，则令H_s∈R^mx2k，它指示整个LSTM隐层状态：H_s＝(h₁,…h_t…,h_m)。

由于单词在句子中的贡献是存在差异的，因为，进一步使用自注意力机制，即根据每个单词对句子的贡献来为单词赋予权重，得到的权重向量为：

其中，softmax()是将注意力权重标准化为1的函数，tanh为深度学习的一种激活函数，l_s、w_s均为可学习参数，T为矩阵的转置符号。

从上述公式可知，将LSTM隐层状态：H_s＝(h₁,h₂,…,h_m)作为输入生成权重向量，然后再将LSTM的隐层状态与所述权重向量加权得到句子向量s_i＝v_sH_s。

需要说明的是，Bi-LSTM模型中LSTM网络应用于上下文表示已经是现有技术，因此，本发明直接引用其网络对单词进行编码。

步骤2：针对待处理的文档，利用Bi-LSTM模型以及自注意力机制构建篇章编码器得到篇章向量。

同理，类似步骤1，步骤2中将步骤1中得到的句子向量输入至Bi-LSTM模型获取文档篇章的正向和反向向量，并作为LSTM的隐层状态。

其中，LSTM^→、LSTM^←分别表示前向和后向LSTM，s_v表示步骤1中得到的句子向量。Bi-LSTM模型中将信息

与信息

串联一起作为隐层状态h_v：

假设LSTM的每个方向都包含k个隐层单元，则令H_s∈R^Nx2k，它指示整个LSTM隐层状态：：H_d＝(h₁,…h_v…,h_N)。

组成篇章的句子对篇章大意的形成有不同的贡献。因此，引入自注意力机制，即根据每个句子对篇章的贡献，对其进行关注，得到的权重向量v_d表示为：

其中，softmax()函数用于将注意力权重向量归一化，总和为1；l_d可学习参数∈R^ux2k，w_d可学习参数∈R^u，u为任意的超参数。

给定注意力权重向量v_d后，通过υ_d得到的篇章向量d是LSTM(H_d)的全部隐层状态的加权和，表示如下：

d＝v_dH_d

步骤3：基于所述篇章向量对句子进行分类得到候选句子。本实施例中考虑到了以下标准来考虑句子是否为候选句子：从篇章编码器获得的篇章表示d、句子对整个篇章的意义G_i、句子的位置L_i、句子中包含的信息类型T_i、以及它与篇章一般意义的相关性R_i。

句子(s_i)对篇章的重要性计算如下所示：

G_i＝W_gs_i

句子(s_i)在篇章中的位置如下所示：

L_i＝W_le_i

其中，e_i是句子的位置嵌入，它是通过链接句子中前向指标和后向指标在篇章中的位置对应的嵌入来衡量的，即从左至右和从右至左阅读句子将对应两个位置，将两个位置嵌入连接作为参数e_i。

如下式计算出的句子T_i中包含的信息类型。

T_i＝W_ts_i

如下式计算出的句子相关性R_i：

R_i＝S_iW_rd

式中，W_g,W_r,W_l和W_t是自动学习的数字权重，用来表示特征的比例重要性。结合前面的三个方程，得到句子的最终概率分布，如下所示：

P(y_i＝1)＝σ(G_i+L_i+T_i+R_i+d+b))

其中b为偏置，σ为sigmoid函数。然后根据这些概率分布值对篇章中的句子进行排序，确定候选句子。利用softmax层分配相关性的分数。

其中，依据上述概率分布公式得到的最终概率分布的结果要不接近1，要不接近0；其中，接近1表示该句子有可能成为最终摘要的候选句子；接近0表示该句子没有可能成为最终摘要的候选句子。

需要说明书是，上述自动学习的数字权重可以选择是设定的经验值，也可以是通过样本数据进行模型训练得到权重值。

步骤4：将候选句子输入基于RST构建的摘要提取器提取出核心EDU，并将所有候选句子的核心EDU拼接为文本摘要。

候选句子作为摘要提取器的输入数据，首先对其进行分割，将候选句子分割为连贯的、非重叠的文本单元，在层次树中作为EDU形式。其中，分割过程中本实施例应用一个二进制分类器确定候选句子中每个单词后是否是EDU边界。所选用的二进制分类器如伯努利分布的判别分类器，其输出值y为1时，视为该词后面为EDU边界。通过二进制分类器将候选句子分割为多个EDU。

语篇解析器包括两部分。第一部分是用于存储部分解析结果的状态(初始状态设置为空状态，而最后的状态代表完整的结果)。第二部分是操作(三种类型的动作是Shift、Reduce和PopRoot)，它们控制状态的转换。Shift操作通过将队列中的第一个EDU移到堆栈中，创建一个单节点的子树。第二个操作(Reduce(R，N))，其中R表示关系标签，如属性、解释和连接，而N表示核心关系(N和S分别指核心和附属)。该操作将堆栈上的两个最前面的子树合并在一起。第三个动作(Poproot)是将堆栈上的头部树删除的操作。这个操作表示解码过程的结束(当堆栈中的一个子树和队列为空时)。

如图2所示，一个候选句子“Donald Trump’s docter says president canreturn to‘pulic engagements’on Saturday despite risk he could still beinfections and finally releases his vital sings-claiming they are allexcellent”，利用二进制分类器对其进行分割得到7个EDU，如下：

EUD1：Donald Trump’s docter says

EUD2：president can return to‘pulic engagements’on Saturday

EUD3：despite risk

EUD4：he could still be infections

EUD5：and finally releases his vital sings-

EUD6：claiming

EUD7：they are all excellent

进而基于7个EDU构建出如图2中右侧的层次树。其中，EDU为叶子节点，内节点表示关系。

本实施例中使用分成的Bi-LSTMs来编码分割阶段的输出(EDU)。

譬如，输出EDU对应的文档单元中的单词表示为：{w₁,w₂,..w_p}，w_j为单词集合中第j个单词，p为文档单元中单词个数。然后，将每个EDU对应的文档单元中的单词分别与POS标签的神经嵌入级进行联合计算得到单词在EDU中的嵌入位置

进而得到嵌入位置向量

表示在EDU中嵌入字词的位置，p_i为POS标签的，emb为embedding，表示词嵌入的公式，

是异或运算符号。

然后，将步骤4-2中的嵌入位置向量

输入bi-LSTM层得到单词向量

其中，bi-LSTM均为现有网络结构，本发明在实际应用中，可以直接使用已有的网络结构以及参数，也可以根据实际需求对网络参数进行模型训练后进行调整。

在应用第二层bi-LSTM之前，必须获得每个EDU的适当表示。在获得第一层的表征

后，得到平均池化以计算EDU的表示形式，表示如下：

式中，

为单词向量

中第j个单词向量。

在获得EDU的表示后，该模型立即应用第二个bi-LSTM层，从而产生以下结果：

其中，q为层次树中EDU的个数。

依据步骤4-1中的层次树以及所有EDU对应的

计算出每个EDU的得分，按照如下公式计算：

其中，S为EDU的得分，

为构建层次树的过程中该EDU的前1、x+1个子树的解析表达，W为模型参数，

为紧接编码器输出得到的隐层向量，即当前队列中第一个EDU对应在

的向量。

其中，将文档划分为若干个EDU后，EDU按照顺序在队列中排序。

中，

表示队列中第一个EDU的隐层向量，

表示队列中最后一个EDU的隐层向量。根据层次树的构建过程，若前一个EDU已从队列出来，则当前队列中的第一个EDU的隐层向量则是下一个。譬如，计算第一个EDU得分时，

对应队列中第一个EDU的隐层向量为

计算第二个EDU得分时，

对应队列中第一个EDU的隐层向量为

这是由于第一个EDU已不在队列中。

子树的解析表达通过平均池化得到：

其中，每个子树上至少存在一个EDU，若存在多个EDU表示为(e_i,e_i+1,…,e_j)，则利用平均池化来计算子树x的表示，

则表示对应EDU在

中的值。

需要说明的是，本实施例中，将得分S公式中选择前3个以内子树的解析表达参与计算，子树个数超过3个时，选择3个参与计算；不足3个时，选择所有的参与计算。如图2所示，针对EDU1，由于其为第一个EDU，因此计算其得分S时，只有包含EDU1的子树参与计算。针对EDU2，包含EDU1的顶部子树参与计算；针对EDU3，EDU1、EDU2所在子树参与计算；针对EDU4，EDU1、EDU2、EDU3所在子树参与计算；针对EDU5，EDU4、EDU2、EDU3所在子树参与计算，这是由于EDU2、EDU3得到得分较高，而EDU4连接较高的子树；针对EDU6，EDU5、EDU2、EDU3所在子树参与计算；针对EDU7，EDU4、EDU2、EDU5所在的子树参与计算。

其中，核心EDU的标准是依据实际需求以及实验仿真等手段确定的经验值。

在一些实现方式中，本发明还提供一种基于语篇结构的层次文本摘要获取方法的系统，包括：

摘要提取模块：用于将候选句子输入基于RST构建的摘要提取器提取出核心EDU，并将所有候选句子的核心EDU拼接为文本摘要。

其中，各个单元模块的具体实现过程请参照前述方法的对应过程。应当理解，上述单元模块的具体实现过程参照方法内容，本发明在此不进行具体的赘述，且上述功能模块单元的划分仅仅是一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。同时，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

在一些实现方式中，本发明还提供一种终端设备，包括处理器和存储器，所述存储器存储了计算机程序，所述处理器调用所述计算机程序以执行：所述一种语篇结构的层次文本摘要获取方法的步骤。

其中，各个步骤的具体实现过程请参照前述方法内容。

在一些实现方式中，本发明还提供一种可读存储介质，存储了计算机程序，所述计算机程序被处理器调用以执行：所述一种语篇结构的层次文本摘要获取方法的步骤。

其中，各个步骤的具体实现过程请参照前述方法内容。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

所述可读存储介质为计算机可读存储介质，其可以是前述任一实施例所述的控制器的内部存储单元，例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备，例如所述控制器上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应用实例：

将本发明的所述方法称为：HESDS。本发明HESDS模型使用CNN和DailyMail数据集以及两个数据集的联合版本(CNN/DailyMail)进行评估。CNN/DailyMail数据集最初是由Harmen等人(HermannKM,KociskyT,GrefenstetteE,EspeholtL,KayW,SuleymanM,BlunsomP(2015)Teachingmachinestoredandcomprehend.In:Advancesinneuralinformationprocessingsystems,pp1693–1701)为回答问题任务创建的。之后，这些数据集被用于总结文本的任务，无论是抽取式还是生成式。这些数据集包括新闻文章和相关重点。这些与新闻文章一起提供的重点可以作为这些新闻文章的真实摘要。表1显示了这些数据集的数据的训练、验证和测试情况。

表1

Dataset	Traindata	Validdata	Testdata
				DailyMail	196961	12148	10397
CNN	90266	1220	1093
				CNN/DailyMail	286722	13362	11480

为了更加充分说明本发明所述方法的优势，将本发明所述方法与现有方法进行了比较：

1.Lead-3：这产生了文档中的前三个句子，并将其作为摘要。该模型作为“CNN/DailyMail数据集”的基准。

2.Cheng等(Conroy JM,O’leary DP(2001)Text summarization via hiddenmarkov models.In:Proceedings of the 24th annual international ACM SIGIRconference on Research and development in information retrieval,pp 406–407)，这是在三个数据集中用作基线的提取模型。在这项工作中，他们使用带有注意力机制的编解码器模型，在单词级别上，他们使用CNN来生成句子的表示，而他们使用RNN来生成篇章的表示。基于注意力的分层模型用于预测句子和单词的重要性。

3.抽取模型(SummaRuNNer)(Nallapati R,Zhai F,Zhou B(2016)Summarunner:Arecurrent neural network basedsequence model for extractive summarization ofdocuments)被用作两个数据集中的基线。这项工作使用了两个双向GRU：他们在单词级别使用GRU-RNN来计算句子的表示形式，而在句子级别使用另一个双向GRU来计算篇章的表示形式。

4.See等人(Afsharizadeh M,Ebrahimpour-Komleh H,Bagheri A(2018)Query-oriented text summarization using sentence extraction technique pp 128–132)的抽象模型“Pointer-gen+converge”用作CNN/DailyMail和CNN数据集的抽象模型基线。他们提供了一种混合的指针生成器网络，该网络可以通过指向从主文档复制单词，同时保持其从固定词汇表生成单词的能力。

5.Tan等(Tan J,Wan X,Xiao J(2017)Abstractive document summarizationwith a graph-basedattentional neural model.In:Proceedings of the 55th AnnualMeeting of the Associationfor Computational Linguistics(Volume 1:LongPapers),pp 1171–1181)用作CNN/DailyMail和CNN数据集的抽象模型基线。他们提供了基于编解码器的模型，并基于PageRank算法提供了新的注意力机制。通过计算该句子的隐层状态与其他句子的隐层状态之间的关系程度，使用此工作中的图形模型确定句子重要性的分数。

6.RL，用entraattention(Paulus R,Xiong C,Socher R(2017)A deepreinforced model for abstractive summarization)在CNN/DailyMail数据集上作为抽象基线。这项工作使用带有RL的编码解码器模型，他们在生成最终摘要后使用了teacherforcing算法，该算法使用参考摘要检查单词的错误率。RL算法生成摘要，并使用参考摘要评估最终摘要的质量。

7.YaoK等人(Yao K,Zhang L,Luo T,Wu Y(2018)Deep reinforcement learningfor extractivedocument summarization.Neurocomputing 284(APR.5):52–62)的DQN和NarayanS等人(Narayan S,Cohen SB,Lapata M(2018)Ranking sentences forextractive summarizationwith reinforcement learning)的REFRESH是基于RL的提取模型。DQN提供了一种依赖于深度Q网的模型。分层网络RNN-RNN部署在词和句子级别。他们使用深层Q-net根据某些标准(例如信息内容和冗余度)来确定从篇章中选择哪个句子。同时，REFRESH提供了带有RL的提取模型，根据ROUGE矩阵对篇章中的句子进行摘要评估。RL中的代理在对篇章中的句子进行排序后产生摘要。

8.Zhou等人(Zhou Q,Y ang N,Wei F,Huang S,Zhou M,Zhao T(2018)Neuraldocument summarization by jointly learning to score and select sentences.In:Proceedings of the 56th AnnualMeeting of the Association for ComputationalLinguistics(Volume 1:Long Papers))的NUESUM被用作CNN/DailyMail数据集的提取基线。在以前的系统中，摘要的组成经历两个独立的步骤。第一步是评估篇章中的所有句子。第二步是重新排序并选择要包含在摘要中的高值句子。在此工作中使用了结合了两个步骤的新技术。该技术通过使用分层编码器来生成句子表示，然后通过使用与评分模型结合在一起的选择方法来创建摘要。

9.Xu等人(Xu J,Durrett G(2019)Neural extractive text summarizationwith syntactic compression)的JECS是作为基于压缩的文本摘要模型。该模型提供了一种将句法的提取和压缩相结合的技术来产生摘要。

10.BANDITSUM(Dong Y,Shen Y,Crawford E,van Hoof H,Cheung JCK(2018)Banditsum:Extractivesummarization as a contextual bandit.arXiv preprintarXiv:180909672)是一种基于RL的提取模型。该工作采用策略梯度RL来选择s组提高Rouge矩阵得分的句子。

本发明所述方法应用时，单词嵌入的维数和隐层状态的大小设置为200，一开始将未知单词的嵌入赋值为零，并在模型训练过程中考虑它们的值。句子编码器和篇章编码器中使用了单层bi-LSTM。对于向前和向后方向，每个LSTM的隐层状态的尺寸都等于400。前向和后向LSTM的串联为单词和句子编码器提供了一个800的维度。同样的情况下，句子和单词的注意力上下文向量也设置为800的维度。句子的最大长度为每句90个单词，而篇章的最大长度为每篇章100个句子。采用学习率等于0.0001的Adam(Kingma DP,Ba J(2014)Adam:Amethod for stochastic optimization.arXiv preprintarXiv:14126980)优化器对模型进行训练，批次大小等于64；应用梯度剪裁对模型进行正则化(Pascanu R,Mikolov T,Bengio Y(2013)On the difficulty of training recurrent neuralnetworks.In:International conference on machine learning,pp1310–1318)。对输出的概率进行排列，确定摘要的候选句子，选择获得概率最高的句子，忽略最低值的句子。候选句子被插入到摘要提取器的第一阶段(分割)中，获得所有的EDU后，应用语篇解析器。之后，所有代表篇章最终摘要的核心EDU被提取出来。

其中，选择ROUGE指标评价本发明所述方法与上述现有方法的性能。表2是使用ROUGE-1，ROUGE-2和ROUGE-L在CNN/DailyMail数据集的比对结果，表3是使用ROUGE-1，ROUGE-2和ROUGE-L在每日邮件和CNN数据集上的模型的比较结果。表4是使用和不使用摘要提取器的所有三个Rouge测量的模型结果(R-1、R-2和R-L)。

图3为使用ROUGE-1，ROUGE-2和ROUGE-L在CNN/每日邮件数据集上的模型比较结果示意图；图4是使用ROUGE-1，ROUGE-2和ROUGE-L在CNN数据集上的模型比较结果。图5是本发明的模型与其它模型在Dailymail数据集上使用ROUGE-1、ROUGE-2和ROUGE-L的比较结果。

表2

表3

表4

从上述比对结果可知：(1)与文本摘要的抽取模型相比，得到的结果证明了所提出的模型(HESDS)在三个Rouge度量(R-1、R-2和R-L)上都优于这些模型。这一发现证明了语篇结构在抽取式摘要中的实质性影响。(2)将所提出的模型与生成式模型进行比较，结果证明了所提出的模型的优越性。在所提出的模型中，用EDU表示摘要的候选句子的重要部分，因此，该模型优于其他模型，生成的模型几乎没有冗余的内容。(3)将所提出的模型与基于强化学习的模型进行比较，得到的结果证明了所提出模型的优越性。这一发现证实了在文本摘要中利用篇章的层次性与语篇结构，可以提高摘要的质量。(4)对比结果证实，所提出的模型在这些数据集上取得了很好的结果。这一发现也证实了语篇结构与抽取式摘要的使用可以改善句子和篇章的表达，从而提高生成摘要的效率。(5)比较没有使用摘要提取器形成摘要的层次神经模型与使用摘要提取器的层次神经模型的模型结果，进一步证实了RST解析器对模型结果的改善幅度很大。

综上所述，本发明进一步证明了在文本摘要中使用语篇结构的重要性。其中，注意机制用于句子和篇章的层次，这有助于生成句子和篇章整体的嵌入效果。通过实验，改进的嵌入导致增强的表示形式，这反过来又大大改善了文本摘要任务，并且在三个数据集上的表现都优于SOTA模型。此外，实验证明，将语篇结构与文本摘要结合使用会产生高效的摘要。此发现是由于在选择最重要的信息并表示要包含在最终摘要中的篇章时，最终摘要中的冗余减少了。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。