CN113987169A

CN113987169A - 基于语义块的文本摘要生成方法、装置、设备及存储介质

Info

Publication number: CN113987169A
Application number: CN202111198052.0A
Authority: CN
Inventors: 张黔; 王伟; 黄勇其; 于翠翠
Original assignee: Runlian Software System Shenzhen Co Ltd
Current assignee: Runlian Software System Shenzhen Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-01-28

Abstract

本申请实施例属于人工智能领域，涉及一种基于语义块的文本摘要生成方法，包括获取样本数据，对样本数据进行成分句法分析，得到句法树，根据句法树确定语义块，将语义块输入预构建的初始文本摘要模型，对语义块进行编码得到语义块编码，对语义块编码进行加权计算得到语义块序列向量，将语义块序列向量进行注意力机制计算，得到语义块关系向量，将语义块关系向量输入至CRF层进行训练，输出预测分类结果，计算损失函数，基于损失函数调整初始摘要生成模型的模型参数，迭代结束，生成文本摘要模型，将待处理文本输入文本摘要模型，输出文本摘要。本申请还提供一种基于语义块的文本摘要生成装置、设备及存储介质。本申请可以使得摘要更加简洁精炼。

Description

基于语义块的文本摘要生成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于语义块的文本摘要生成方法、装置、设备及存储介质。

背景技术

伴随着互联网技术的发展以及自媒体平台兴起，使得互联网中信息数量呈指数型快速增长，人们每天能够接触到海量的信息，例如时政新闻、热搜话题、社交聊天、讲座报告、学术论文等。面对复杂、多样的互联网环境，如何快速有效地获取有价值的信息就显得非常重要。为了缓解过量信息对用户造成的阅读压力、帮助用户快速从互联网获取有效信息，自动文本摘要技术应运而生。自动文本摘要技术能从单个文本或文本集合中提炼出一段反应原文中心内容的简洁连贯的短文，方便用户获取、查询所需要的信息，减缓阅读压力。

目前主流的自动文本摘要技术根据其生成形式划分为抽取式和生成式两种。生成式的文本摘要作为文本生成的一种，不可避免地有可读性差、内容选择错误和OOV(Out OfVocabulary，未登录词)等问题；而传统的抽取式方法将文本摘要看作是二元分类问题，判断文本中的每一句是否属于摘要内容，所得到的摘要相比于生成式具有遵循原文和通顺性高等优点。但抽取式方法所产生的摘要往往不够简洁，存在冗余文本和非必要信息，这很可能是由于将整个句子都抽取为摘要而造成的，因为一个重要的句子仍可能带有一些不必要的信息，并且，重复的文本可能在不同的句子中出现，导致最后生成摘要的信息冗余。

发明内容

本申请实施例的目的在于提出一种基于语义块的文本摘要生成方法、装置、设备及存储介质，以解决相关技术中生成的文本摘要存在冗余文本和非必要信息的技术问题。

为了解决上述技术问题，本申请实施例提供一种基于语义块的文本摘要生成方法，采用了如下所述的技术方案：

获取文本摘要的样本数据，对所述样本数据进行句法分析，得到句法树，并根据所述句法树确定语义块；

将所述语义块输入预构建的初始文本摘要模型，其中，所述初始文本摘要模型包括BERT层、编码器层、选择机制层和CRF层；

通过所述BERT层对所述语义块进行编码，得到语义块编码；

通过所述选择机制层对所述语义块编码进行加权计算，得到语义块序列向量；

将所述语义块序列向量输入所述编码器层进行注意力机制计算，得到语义块关系向量；

将所述语义块关系向量输入至所述CRF层进行训练，输出预测分类结果；

根据所述语预测分类结果和所述序列标签计算损失函数，基于所述损失函数调整所述初始摘要生成模型的模型参数，当满足迭代结束条件时，根据所述模型参数生成文本摘要模型；

将待处理文本输入所述文本摘要模型，输出与所述待处理文本对应的文本摘要。

进一步的，所述根据所述句法树确定语义块的步骤包括：

遍历所述句法树，并从所述句法树中获取子句标签；

确定所述字句标签对应的子句节点是否为最高级别的祖先节点，在所述子句节点是最高级别的祖先节点时，则确定所述子句节点为语义块。

进一步的，所述通过所述BERT层对所述语义块进行编码，得到语义块编码的步骤包括：

将所述样本数据对应的文本序列输入所述BERT层，得到文本序列编码；

获取与所述语义块对应的文本序列编码，输出所述语义块编码。

进一步的，所述选择机制层包括平均池化层和多层感知器层，所述通过所述选择机制层对所述语义块编码进行加权计算，得到语义块序列向量的步骤包括：

通过所述平均池化层对所述语义块编码进行池化操作，得到池化后的语义块编码；

通过所述平均池化层对句子编码进行池化操作，生成与所述样本数据对应的文档编码，其中，所述句子编码为通过所述BERT层根据所述样本数据的每个句子生成；

将所述句子编码、池化后的所述语义块编码和所述文档编码输入所述多层感知器层，构建加权表征矩阵；

基于池化后的所述语义块编码和所述加权表征矩阵，计算得到语义块序列向量。

进一步的，所述编码器层包括多头注意力机制层和前馈神经网络层，所述将所述语义块序列向量输入所述编码器层进行注意力机制计算，得到语义块关系向量的步骤包括：

将所述语义块序列向量输入所述多头注意力机制层进行多头注意力机制学习，得到多头注意力向量；

对所述多头注意力向量和所述语义块序列向量的加和进行归一化处理，得到中间变量；

通过所述前馈神经网络层对所述中间变量进行计算，得到语义块关系向量。

进一步的，所述将所述语义块关系向量输入至所述CRF层进行训练，输出预测分类结果的步骤包括：

将所述语义块关系向量输入所述CRF层中，对所述语义块关系向量进行映射计算，得到所述语义块的得分序列；

根据所述得分序列得到所述语义块的预测标签概率；

通过束搜索对所述语义块关系向量进行解码，得到所述语义块；

根据所述预测标签概率得到所述语义块对应的预测分类结果。

进一步的，在所述根据所述预测标签概率得到所述语义块对应的预测分类结果的步骤之后还包括：

根据所述预测分类结果，将所述语义块按照预设规则进行重组，获得样本摘要。

为了解决上述技术问题，本申请实施例还提供一种基于语义块的文本摘要生成装置，采用了如下所述的技术方案：

句法分析模块，用于获取文本摘要的样本数据，对所述样本数据进行句法分析，得到句法树，并根据所述句法树确定语义块；

输入模块，用于将所述语义块输入预构建的初始文本摘要模型，其中，所述初始文本摘要模型包括BERT层、编码器层、选择机制层和CRF层；

编码模块，用于通过所述BERT层对所述语义块进行编码，得到语义块编码；

选择机制模块，用于通过所述选择机制层对所述语义块编码进行加权计算，得到语义块序列向量；

注意力机制模块，用于将所述语义块序列向量输入所述编码器层进行注意力机制计算，得到语义块关系向量；

分类预测模块，用于将所述语义块关系向量输入至所述CRF层进行训练，输出预测分类结果；

计算调整模块，用于根据所述语预测分类结果和所述序列标签计算损失函数，基于所述损失函数调整所述初始摘要生成模型的模型参数，当满足迭代结束条件时，根据所述模型参数生成文本摘要模型；

文本摘要模块，用于将待处理文本输入所述文本摘要模型，输出与所述待处理文本对应的文本摘要。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

该计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的基于语义块的文本摘要生成方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的基于语义块的文本摘要生成方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过获取文本摘要的样本数据，对样本数据进行成分句法分析，得到句法树，并根据句法树确定语义块，将语义块输入预构建的初始文本摘要模型，其中，初始文本摘要模型包括BERT层、编码器层、选择机制层和CRF层，通过BERT层对语义块进行编码，得到语义块编码，通过选择机制层对语义块编码进行加权计算，得到语义块序列向量，将语义块序列向量输入编码器层进行注意力机制计算，得到语义块关系向量，将语义块关系向量输入至CRF层进行训练，输出预测分类结果，根据语预测分类结果和序列标签计算损失函数，基于损失函数调整初始摘要生成模型的模型参数，当满足迭代结束条件时，根据模型参数生成文本摘要模型，将待处理文本输入文本摘要模型，输出与待处理文本对应的文本摘要；本申请通过句法分析，可以在更细的颗粒度上将句子中重要与不重要的语义块区分开，通过训练的文本摘要模型进行文本摘要生成，可以以语义块为基础单位，从给定的文本中抽取出重要信息并组合成摘要，使得摘要更加简洁精炼，进一步保证获取信息的有效性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于语义块的文本摘要生成方法的一个实施例的流程图；

图3是本申请的句法树一种具体实施方式的结构示意图；

图4是本申请的句法树另一种具体实施方式的结构示意图；

图5是根据本申请的文本摘要模型的一个实施例的结构示意图；

图6是根据本申请的基于语义块的文本摘要生成装置的一个实施例的结构示意图；

图7是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请提供了一种基于语义块的文本摘要生成方法，可以应用于如图1所示的系统架构100中，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于语义块的文本摘要生成方法一般由服务器/终端设备执行，相应地，基于语义块的文本摘要生成装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于语义块的文本摘要生成方法的一个实施例的流程图，包括以下步骤：

步骤S201，获取文本摘要的样本数据，对样本数据进行句法分析，得到句法树，并根据句法树确定语义块。

在本实施例中，样本数据包括文本摘要对应的原文本和原文本中各个句子的序列标签。序列标签可以采用BIO、BIOE、BIOES和BMES等方法进行标注，以BIOE为例进行说明，具体的，序列标签分为B、I、E、O四类，B代表摘要段的开头，I代表摘要段的中间句，E代表摘要段的结尾句，O代表非摘要句。

样本数据可以从公开数据集中获取，比如CNN/DailyMail数据集、LCSTS数据集、NLPCC2017数据集等，其中，CNN/DailyMail数据集为英文数据集，LCSTS数据集和NLPCC2017数据集为中文文本数据集。

句法分析包括成分句法分析和依存句法分析。在本实施例中，采用成分句法分析对样本数据中的每个句子进行遍历，得到句法树。生成的句法树参见图3和图4所示，句法树中节点标注的标签对应着每个句子中包含的成分，其中，ADVP为副词短语，NP为名词短语，VP为动词短语，VBD为动词过去时态，PP为介词短语，S为简单陈述句，SBAR为从句，WHNP为WH名词短语，CC为连词。

在成分句法分析标签集中有两种主要类型，短语标签和子句标签，短语标签包括ADVP、NP、VP、PP等，子句标签包括S、SBAR等。由于子句中的信息比短语更完整，本实施例可以采用子句标签来确定语义块，进而达到切割句子的目的。

语义块是句子的下一级语义构成单元，相应的，切割句子是指把一个句子切分成若干个语义块，在本实施例中，语义块包含至少一个子句。

具体的，根据句法树确定语义块的步骤包括：

遍历句法树，并从句法树中获取子句标签；

确定字句标签对应的子句节点是否为最高级别的祖先节点，在子句节点是最高级别的祖先节点时，则确定子句节点为语义块。

如图3和图4所示，句法树中每个标记子句标签的节点，即S和SBAR的节点，都被视为语义块的候选。如果某个子句的一个祖先节点也是子句节点，则选择最高级别的祖先节点(根节点除外)作为语义块，以包括更完整的信息。图中，实线圈代表选中，对应的子句节点为语义块，虚线圈代表没选中，对应的子句节点不是语义块。

应当理解，一个句子中允许存在多个语义块，如果在一个句子中找不到子句，就使用全句作为语义块。

步骤S202，将语义块输入预构建的初始文本摘要模型，其中，初始文本摘要模型包括BERT层、编码器层、选择机制层和CRF层。

在本实施例中，参见图5所示，初始文本摘要模型至少包括BERT层、编码器层、选择机制层和CRF层，其中，BERT层(Bidirectional Encoder Representations fromTransformers，基于转换器的双向编码器表征)，目标是利用大规模无标注语料训练、学习文本所包含丰富语义信息表达，然后将文本的语义表达在特定NLP(NaturalLanguageProcessing，自然语言处理)任务中作微调，最终应用于该NLP任务。

选择机制层包括平均池化层和MLP(Multilayer Perceptron，多层感知器)层，平均池化层用于进行平均池化操作，具体为取池化区域内的平均值作为特征值输出，平均池化能够减小邻域大小受限造成的估计值方差增大的误差，MLP是一种基于神经网络的算法模型，由输入层、隐藏层和输出层组成，MLP层用于构建语义块的加权表示。

CRF(Conditional Random Fields，条件随机场)是一种无向图模型。随机变量的集合称为随机过程，在一个空间变量中进行索引的随机过程就叫做随机场。在序列标注任务中，假设x，y都是一组随机变量，p(y|x)(表示的是一组输入x的情况下，输出一组变量y的条件概率分布，其中y表示为一个MRF(Markov random field，马尔科夫随机场)，那么p(y|x)被称之为条件随机场。

步骤S203，通过BERT层对语义块进行编码，得到语义块编码。

具体的，将样本数据对应的文本序列输入BERT层，得到文本序列编码，获取与语义块对应的文本序列编码，输出语义块编码。

在本实施例中，假设输入的样本数据为文档d，文档d包含n个句子(s₁,s₂,...,s_n)，m个字(w₁,w₂,...,w_m)，其中，第i个句子包含了l个语义块，表示为s_i＝(c_i,1,c_i,2,...,c_i,l)，句子s_i中，由k个字组成的第j个语义块记为c_i,j＝(w_i,j,1,...w_i,j,k)。

将样本数据对应的文本序列输入BERT层之前，需要对样本数据进行数据清洗，去除样本数据中的无关字符，例如特殊标点符号、空白字符、换行、空格等。

清洗数据之后是将样本数据按照句子的形式进行划分，在每一条句子前加[cls]符号，句子末尾[sep]符号。其中[cls]符号的作用是输出一个向量用来表示句子的语义，[sep]符号的作用是表示该句子的结尾。

将样本数据输入BERT层之前，需要对样本数据进行向量转换，得到文本序列，则文档d的文本序列为([cls]，w₁，w₂，...，w₂₀，[sep]，[cls]，w₂₁，...，w_m)，文本序列中包含有[cls]符号和[sep]符号，将该文本序列输入BERT层中，得到文本序列编码，文本序列编码表示为：

获取到与语义块对应的文本序列编码，通过BERT层输出语义块编码，以语义块c_i，j为例，对应的语义块编码为：

经过BERT层后，每个句子前面的[cls]向量编码则为该句子对应的向量编码，即为句子编码，记为S_i。

步骤S204，通过选择机制层对所述语义块编码进行加权计算，得到语义块序列向量。

具体的，通过平均池化层对语义块编码进行池化操作，得到池化后的语义块编码；通过平均池化层对句子编码进行池化操作，生成与样本数据对应的文档编码，其中，句子编码为通过BERT层根据样本数据的每个句子生成；将句子编码、池化后的语义块编码和文档编码输入多层感知器层，构建加权表征矩阵；基于池化后的语义块编码和加权表征矩阵，计算得到语义块序列向量。

在本实施例中，平均池化层具有降维的能力，将BERT层输出的语义块编码进行平均池化操作(average pooling)，得到平均池化后的语义块编码，记为c′_i，j，公式如下：

采用平均池化操作对句子编码进行池化操作，使得句子编码生成文档编码D，具体的计算公式如下：

其中，n为文档d中的句子数量，S_i为第i个句子的句子编码。

将句子编码S_i、文档编码D和平均池化后的语义块编码c′_i，j输入MLP层，通过选择机制构建语义块的加权表示，即构建加权表征矩阵，从而突出文档中的重要语义块。

在本实施例中，根据句子编码、池化后的语义块编码和文档编码构建加权表征矩阵c_weight，再根据加权表征矩阵c_weight和平均池化后的语义块编码相乘得到语义块向量C_i，j，公式如下：

c_weight＝σ(US_i+Vc′_i，j+W₁D)；

其中，U、V和W₁为MLP层的参数矩阵，

代表按照对应元素相乘。

根据语义块向量C_i，j，则文档d可以表示为语义块向量的序列，即语义块序列向量C，记为：

C＝(C_1，1，...，C_1，l1，...，C_n，ln)

其中，C_1，1表示第1个句子的第1个语义块，C_1，l1表示第1个句子的第1个语义块，C_n，ln表示第n个句子的第1个语义块。

步骤S205，将语义块序列向量输入编码器层进行注意力机制计算，得到语义块关系向量。

在本实施例中，编码器层为Transformer编码器，用于捕捉语义块之间的关系，包括多头注意力机制层和前馈神经网络层。

其中，注意力机制思想类似于人类视觉的特性，观察目标场景中特定的一部分，并将注意力放在该部分内容上。传统注意力机制首先为模型输入创建三个向量Query vector(Q)、Key vector(K)、Value vector(V)。一般计算attention主要分为三个部分：权重计算、权重归一化、将归一化后的权重和对应的V通过加权求和计算得到注意力。而多头注意力机制则是每个头分别将Q，K，V三个向量投影，计算注意力，最后进行拼接得到多头注意力，可以提升模型对不同位置特征的捕获能力。

具体的，将语义块序列向量输入多头注意力机制层进行多头注意力机制学习，得到多头注意力向量，对多头注意力向量和语义块序列向量的加和进行归一化处理，得到中间变量，计算公式如下：

H＝LN(C+MultiHead(C))

其中，H为中间变量，Multihead(C)是经过Transformer编码器中的多头注意力机制进行计算得到的多头注意力向量，LN代表进行层次归一化操作。

在本实施例中，通过前馈神经网络层对中间变量进行计算，得到语义块关系向量，计算公式如下：

C′＝LN(H+FFN(H))

其中，FFN(·)是一个前馈神经网络，由两个线性变换组成，中间的激活函数为ReLU，C′是经过Transformer编码器的语义块关系向量的序列。

步骤S206，将语义块关系向量输入至CRF层进行训练，输出预测分类结果。

在本实施例中，通过CRF层将文本摘要转换为序列标注问题进行训练，具体步骤包括：

将语义块关系向量输入CRF层中，对语义块关系向量进行映射计算，得到语义块的得分序列；

根据得分序列得到语义块的预测标签概率；

通过束搜索对语义块关系向量进行解码，得到语义块；

根据预测标签概率得到语义块对应的预测分类结果。

将经过Transformer编码器的语义块关系向量C′_i进行如下映射计算，公式如下：

z_i＝softmax(C′_i·W₂+b)

其中，W₂为训练参数矩阵，b为偏置项，z_i表示第i个语义块属于B、I、O、E标签的得分序列。

将上述得分序列z_i输入CRF层进行训练，得到预测标签概率。

具体的，CRF层的参数是一个(k+2)次幂的矩阵T，由于要为句子首部和尾部分别添加一个起始状态和一个终止状态，所以需要加2，其中T_ij代表从第i个标注位置到第j个标注位置的转移概率，从而使得在为某个位置进行标注时，能够充分利用先前已标注过的信息。假设需要识别的语义块z表示为(x₁，x₂…，X_N-1)，一个长度等于文档中语义块数量的标签序列y为(y₁，y₂，…，yN)，则对应的分值如下：

其中，T是状态转移矩阵，T_yi，yi+1表示从标签y_i转移到标签y_i+1的分数，其中y₁和y_N分别是文档的开始和结束标签；所以T的纬度为(k+2)*(k+2)(k为标签数)；P_i，yi表示发射矩阵，即模型根据当前状态预测第i个语义块对应标签为y_i的概率值。

使用softmax激活函数将分值进行归一化处理，得到标签y的概率，计算公式如下：

其中，

表示语义块z对应的可能的标注序列，也就是说语义块对应的每个标注序列都有一个分值还有一个概率，目的是让语义块对应的真实标注序列大概率最大。

计算出预测标签概率后，通过Beam Search(束搜索)对语义块关系向量进行解码，得到语义块，根据预测标签概率得到所述语义块对应的预测分类结果，即将每个语义块分类为B、I、E或O。

其中，beam search有一个超参数beam size(束宽)，设为k。第一个时间步长，选取当前条件概率最大的k个词，当做候选输出序列的第一个词。之后的每个时间步长，基于上个步长的输出序列，挑选出所有组合中条件概率最大的k个，作为该时间步长下的候选输出序列。始终保持k个候选，最后从k个候选中挑出最优的。

在本实施例中，输出预测分类结果之后，根据预测分类结果，将语义块按照预设规则进行重组，获得样本摘要。

具体的，对经CRF层输出的预测分类结果进行重组，忽略标签为O的语义块，同时也忽略不合法的标签(如单独的I标签、E标签)，B作为片段开头，I归于上一个B所在的片段，E作为片段结尾。按照上述规则完成语义块的重组，生成样本数据对应的样本摘要。

步骤S207，根据预测分类结果和序列标签计算损失函数，基于损失函数调整初始摘要生成模型的模型参数，当满足迭代结束条件时，根据模型参数生成文本摘要模型。

在本实施例中，预构建的初始文本摘要模型，将样本数据输入至初始文本摘要模型中进行训练，一轮训练结束后，计算初始文本摘要模型的损失函数，得到损失函数值，根据损失函数值调整模型参数，继续进行迭代训练，模型训练到一定程度，此时，模型的性能达到最优状态，损失函数值无法继续下降，即收敛。而判断收敛的方式只需要计算前后两轮迭代中的损失函数值，若损失函数值仍在变化，则继续选择训练的样本数据继续进行迭代训练；若损失函数值没有显著变化，则可认为模型收敛。

满足迭代结束条件即为模型收敛，模型收敛后，根据最终的模型参数生成文本摘要模型。

步骤S208，将待处理文本输入文本摘要模型，输出与待处理文本对应的文本摘要。

在本实施例中，将待处理文本输入训练完成的文本摘要模型，进而输出文本摘要。

本申请通过句法分析，可以在更细的颗粒度上将句子中重要与不重要的语义块区分开，通过训练的文本摘要模型进行文本摘要生成，可以以语义块为基础单位，从给定的文本中抽取出重要信息并组合成摘要，使得摘要更加简洁精炼，进一步保证获取信息的有效性。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图6，作为对上述图2所示方法的实现，本申请提供了一种基于语义块的文本摘要生成装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例所述的基于语义块的文本摘要生成装置600包括：句法分析模块601、输入模块602、编码模块603、选择机制模块604、注意力机制模块605、分类预测模块606、计算调整模块607以及文本摘要模块608。其中：

句法分析模块601用于获取文本摘要的样本数据，对所述样本数据进行句法分析，得到句法树，并根据所述句法树确定语义块；

输入模块602用于将所述语义块输入预构建的初始文本摘要模型，其中，所述初始文本摘要模型包括BERT层、编码器层、选择机制层和CRF层；

编码模块603用于通过所述BERT层对所述语义块进行编码，得到语义块编码；

选择机制模块604用于通过所述选择机制层对所述语义块编码进行加权计算，得到语义块序列向量；

注意力机制模块605用于将所述语义块序列向量输入所述编码器层进行注意力机制计算，得到语义块关系向量；

分类预测模块606用于将所述语义块关系向量输入至所述CRF层进行训练，输出预测分类结果；

计算调整模块607用于根据所述语预测分类结果和所述序列标签计算损失函数，基于所述损失函数调整所述初始摘要生成模型的模型参数，当满足迭代结束条件时，根据所述模型参数生成文本摘要模型；

文本摘要模块608用于将待处理文本输入所述文本摘要模型，输出与所述待处理文本对应的文本摘要。

上述基于语义块的文本摘要生成装置，通过句法分析，可以在更细的颗粒度上将句子中重要与不重要的语义块区分开，通过训练的文本摘要模型进行文本摘要生成，可以以语义块为基础单位，从给定的文本中抽取出重要信息并组合成摘要，使得摘要更加简洁精炼，进一步保证获取信息的有效性。

在本实施例中，句法分析模块602包括遍历子模块和语义块确定子模块，其中：

遍历子模块用于遍历所述句法树，并从所述句法树中获取子句标签；

语义块确定子模块用于确定所述字句标签对应的子句节点是否为最高级别的祖先节点，在所述子句节点是最高级别的祖先节点时，则确定所述子句节点为语义块。

本实施例通过采用子句标签来确定语义块，可以使得语义块包含的信息更加完整。

在本实施例的一些可选的实现方式中，编码模块604包括编码子模块和输出子模块，其中：

编码子模块用于将所述样本数据对应的文本序列输入所述BERT层，得到文本序列编码；

输出子模块用于获取与所述语义块对应的文本序列编码，输出所述语义块编码。

在本实施例中，选择机制模块605包括池化子模块、构建子模块和计算子模块，

池化子模块用于通过所述平均池化层对所述语义块编码进行池化操作，得到池化后的语义块编码；

池化子模块还用于通过所述平均池化层对句子编码进行池化操作，生成与所述样本数据对应的文档编码，其中，所述句子编码为通过所述BERT层根据所述样本数据的每个句子生成；

构建子模块用于将所述句子编码、池化后的所述语义块编码和所述文档编码输入所述多层感知器层，构建加权表征矩阵；

计算子模块用于基于池化后的所述语义块编码和所述加权表征矩阵，计算得到语义块序列向量。

本实施例通过平均池化可以降低特征维度，并通过加权表征可以进一步获得重要语义块，避免后续的文本摘要存在非必要信息。

在本实施例中，注意力机制模块606包括学习子模块、归一化子模块和计算子模块：

学习子模块用于将所述语义块序列向量输入所述多头注意力机制层进行多头注意力机制学习，得到多头注意力向量；

归一化子模块用于对所述多头注意力向量和所述语义块序列向量的加和进行归一化处理，得到中间变量；

计算子模块用于通过所述前馈神经网络层对所述中间变量进行计算，得到语义块关系向量。

本实施例通过注意力机制计算可以捕捉语义块之间的关系。

在本实施例中，分类预测模块607包括映射子模块、预测子模块、解码子模块和分类子模块，映射子模块用于将所述语义块关系向量输入所述CRF层中，对所述语义块关系向量进行映射计算，得到所述语义块的得分序列；预测子模块用于根据所述得分序列得到所述语义块的预测标签概率；解码子模块用于对所述语义块关系向量进行解码，得到所述语义块；分类子模块用于根据所述预测标签概率得到所述语义块对应的预测分类结果。

在一些可选的实现方式中，分类预测模块607还包括重组子模块，用于根据所述预测分类结果，将所述语义块按照预设规则进行重组，获得样本摘要。

本实施例通过重组语义块获得样本摘要，可以使得摘要更加简洁精炼。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图7，图7为本实施例计算机设备基本结构框图。

所述计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是，图中仅示出了具有组件71-73的计算机设备7，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器71至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器71可以是所述计算机设备7的内部存储单元，例如该计算机设备7的硬盘或内存。在另一些实施例中，所述存储器71也可以是所述计算机设备7的外部存储设备，例如该计算机设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器71还可以既包括所述计算机设备7的内部存储单元也包括其外部存储设备。本实施例中，所述存储器71通常用于存储安装于所述计算机设备7的操作系统和各类应用软件，例如基于语义块的文本摘要生成方法的计算机可读指令等。此外，所述存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器72在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制所述计算机设备7的总体操作。本实施例中，所述处理器72用于运行所述存储器71中存储的计算机可读指令或者处理数据，例如运行所述基于语义块的文本摘要生成方法的计算机可读指令。

所述网络接口73可包括无线网络接口或有线网络接口，该网络接口73通常用于在所述计算机设备7与其他电子设备之间建立通信连接。

本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例基于语义块的文本摘要生成方法的步骤，通过句法分析，可以在更细的颗粒度上将句子中重要与不重要的语义块区分开，通过训练的文本摘要模型进行文本摘要生成，可以以语义块为基础单位，从给定的文本中抽取出重要信息并组合成摘要，使得摘要更加简洁精炼，进一步保证获取信息的有效性。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于语义块的文本摘要生成方法的步骤，通过句法分析，可以在更细的颗粒度上将句子中重要与不重要的语义块区分开，通过训练的文本摘要模型进行文本摘要生成，可以以语义块为基础单位，从给定的文本中抽取出重要信息并组合成摘要，使得摘要更加简洁精炼，进一步保证获取信息的有效性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于语义块的文本摘要生成方法，其特征在于，包括下述步骤：

通过所述BERT层对所述语义块进行编码，得到语义块编码；

2.根据权利要求1所述的基于语义块的文本摘要生成方法，其特征在于，所述根据所述句法树确定语义块的步骤包括：

遍历所述句法树，并从所述句法树中获取子句标签；

3.根据权利要求1所述的基于语义块的文本摘要生成方法，其特征在于，所述通过所述BERT层对所述语义块进行编码，得到语义块编码的步骤包括：

4.根据权利要求1所述的基于语义块的文本摘要生成方法，其特征在于，所述选择机制层包括平均池化层和多层感知器层，所述通过所述选择机制层对所述语义块编码进行加权计算，得到语义块序列向量的步骤包括：

5.根据权利要求1所述的基于语义块的文本摘要生成方法，其特征在于，所述编码器层包括多头注意力机制层和前馈神经网络层，所述将所述语义块序列向量输入所述编码器层进行注意力机制计算，得到语义块关系向量的步骤包括：

6.根据权利要求1所述的基于语义块的文本摘要生成方法，其特征在于，所述将所述语义块关系向量输入至所述CRF层进行训练，输出预测分类结果的步骤包括：

根据所述得分序列得到所述语义块的预测标签概率；

7.根据权利要求6所述的基于语义块的文本摘要生成方法，其特征在于，在所述根据所述预测标签概率得到所述语义块对应的预测分类结果的步骤之后还包括：

8.一种基于语义块的文本摘要生成装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于语义块的文本摘要生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于语义块的文本摘要生成方法的步骤。