CN111159394B

CN111159394B - 一种文本摘要生成方法和装置

Info

Publication number: CN111159394B
Application number: CN201911412244.XA
Authority: CN
Inventors: 马雄; 杨旭川
Original assignee: Chongqing Juexiao Technology Co ltd
Current assignee: Chongqing Juexiao Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-04-28
Anticipated expiration: 2039-12-31
Also published as: CN111159394A

Abstract

本申请实施例提供一种文本摘要生成方法和装置，以实现快速自动文本摘要，并且摘要文本可读性高，与原文本主本意思一致。所述方法包括：提供包括编码器和解码器的摘要生成模型并进行训练；通过所述解码器接收输入文本和所述编码器输出的原始文本编码；其中，所述输入文本包括开始符和前次输出的摘要文本；通过所述解码器分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵；基于所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵，生成参考概率矩阵，所述参考概率矩阵表征词表中每个词的参考概率；基于所述参考概率矩阵的所述参考概率，确定当前摘要文本。

Description

一种文本摘要生成方法和装置

技术领域

本申请涉及文本信息处理技术领域，尤其涉及一种文本摘要生成方法和装置。

背景技术

自动文本摘要是自然语言处理的一个重要研究方向，主要的方法有两大类，一类是抽取式自动摘要，抽取式自动摘要顾名思义，就是以一定的计算方法计算文中每个句子的权重，从原文中寻找与全文中心思想最接近的几个句子，抽取出来作为全文的摘要；另一类是生成式自动摘要，即系统阅读完原文后，在理解整篇文章的意思的基础上，按一定的方法逐词或者逐字生成一段文本来表达原文的中心思想。

发明人在研究中发现，现有技术的方式主要存在如下问题：

生成式摘要虽然能描述原文主体意思，但可读性较差，不同词语常常无意义的重复出现，部分词语之间毫无联系，部分摘要甚至完全无法阅读。

抽取式摘要，通过从目标文本中提取句子来生成文本摘要，但是该方法生成文本摘要的耗时较长，且文本摘要的精度不高，难以描述原文本主体意思。

发明内容

本申请的目的是提供一种文本摘要生成方法和装置，以实现快速自动文本摘要，并且摘要文本可读性高，与原文本主本意思一致。

本申请第一方面，提供一种文本摘要生成方法，包括：

提供包括编码器和解码器的摘要生成模型并进行训练；

通过所述解码器接收输入文本和所述编码器输出的原始文本编码；其中，所述输入文本包括开始符和前次输出的摘要文本；

通过所述解码器分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵；其中，所述生成模式概率矩阵表征词表中每个词的概率，所述抽取模式概率矩阵表征词表中原始文本的每个词被抽取的概率，所述权重矩阵表征所述生成模式概率矩阵在运算中的权重；

基于所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵，生成参考概率矩阵，所述参考概率矩阵表征词表中每个词的参考概率；

基于所述参考概率矩阵的所述参考概率，确定当前摘要文本。

可能的实现方式中，所述通过所述解码器分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵，包括：

基于所述输入文本生成第一向量矩阵；

基于所述第一向量矩阵生成第二向量矩阵；其中，所述第二向量矩阵表征所述输入文本中自身之外且在自身前边的词对自身的贡献度；

基于所述第二向量矩阵和所述原始文本编码，生成上下文向量矩阵和贡献度矩阵；其中，所述贡献度矩阵表征所述原始文本的每个词对所述输入文本的每个词的贡献度；

基于所述上下文向量矩阵，生成所述生成模式概率矩阵；

基于所述贡献度矩阵，生成所述抽取模式概率矩阵；

基于所述第一向量矩阵、所述上下文向量矩阵和所述贡献度矩阵，生成所述权重矩阵。

可能的实现方式中，所述基于所述第一向量矩阵生成第二向量矩阵，包括：

将所述第一向量矩阵进行mask self-attention，生成所述第二向量矩阵。

可能的实现方式中，所述基于所述第二向量矩阵和所述原始文本编码，生成上下文向量矩阵和贡献度矩阵，包括：

所述第二向量矩阵与所述原始文本编码进行attention，并融合信息，生成所述上下文向量矩阵和所述贡献度矩阵。

可能的实现方式中，所述基于所述上下文向量矩阵，生成所述生成模式概率矩阵，包括：

将所述上下文向量矩阵映射到词表，生成所述生成模式概率矩阵。

可能的实现方式中，所述基于所述贡献度矩阵，生成所述抽取模式概率矩阵，包括：

将所述贡献度矩阵映射到词表，生成所述抽取模式概率矩阵。

可能的实现方式中，所述基于所述第一向量矩阵、所述上下文向量矩阵和所述贡献度矩阵，生成所述权重矩阵，包括：

拼接所述第一向量矩阵、所述上下文向量矩阵和所述贡献度矩阵；

对拼接的结果进行线性变换；

对线性变换的结果进行sigmoid函数激活，生成所述权重矩阵。

可能的实现方式中，所述基于所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵，生成参考概率矩阵，包括：

以所述生成模式概率矩阵与所述权重矩阵进行乘运算，得到第一概率矩阵；

以所述抽取模式概率矩阵减去所述抽取模式概率矩阵与所述权重矩阵的乘积，得到第二概率矩阵；

将所述第一概率矩阵和所述第二概率矩阵相加得到所述参考概率矩阵。

可能的实现方式中，所述基于所述参考概率矩阵的所述参考概率，确定当前摘要文本，包括：

基于所述参考概率矩阵的所述参考概率，取每个词在词表中概率最大的词，生成所述当前摘要文本。

第二方面，本申请实施例提供一种文本摘要生成装置，包括编码器和解码器；

所述编码器，用于输出的原始文本编码；

所述解码器，包括：

接收单元，用于接收输入文本和所述原始文本编码；其中，所述输入文本包括开始符和前次输出的摘要文本；

第一处理单元，用于分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵；

第二处理单元，用于基于所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵，生成参考概率矩阵，所述参考概率矩阵表征词表中每个词对于词表中每个词的参考概率；

第三处理单元，用于基于所述参考概率矩阵的所述参考概率，确定当前摘要文本；

其中，所述生成模式概率矩阵表征词表中每个词的概率，所述抽取模式概率矩阵表征词表中原始文本的每个词被抽取的概率，所述权重矩阵表征所述生成模式概率矩阵在运算中的权重。

本申请实施例中，通过提供包括编码器和解码器的摘要生成模型并进行训练，由所述编码器对输入文本进行编码，由所述解码器确定所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵，基于所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵得到所述参考概率矩阵，再基于所述参考概率矩阵确定当前摘要文本，结合了生成式和抽取式两种方式的优点，能够实现快速自动文本摘要，摘要文本可读性高，与原文本主本意思一致。

附图说明

图1为本申请实施例提供的；

图2为本申请实施例提供的一种文本摘要生成方法的流程图；

图3为本申请实施例提供的生成权重矩阵的流程图；

图4为本申请实施例提供的生成参考概率矩阵的流程图；

图5为本申请实施例提供的摘要生成模型的具体架构图；

图6为本申请实施例提供的一种文本摘要生成装置的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要注意的是，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。

需要说明的是，本申请中的“词”，可以表示一个汉语的字或外文的单词，或一些可能的实施例中指定的字的组合。

本申请所应用的架构可以如图1所示，提供的摘要生成模型包括编码器和解码器，可以预先对该摘要生成模型进行训练。编码器和解码器可以设计为同一计算设备的不同模块，也可以是各自独立的模块。显然，该编码器和解码器能够运行本申请实施例提供的一种文本语义解析方法，如图2所示，包括如下步骤201至204：

图1为本申请实施例提供的一种文本摘要生成方法，包括：

201，通过解码器接收输入文本和编码器输出的原始文本编码。其中，输入文本包括开始符和前次输出的摘要文本。

202，通过解码器分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵。其中，生成模式概率矩阵表征词表中每个词的概率，抽取模式概率矩阵表征词表中原始文本的每个词被抽取的概率，权重矩阵表征生成模式概率矩阵在运算中的权重。

203，基于生成模式概率矩阵、抽取模式概率矩阵和权重矩阵，生成参考概率矩阵，参考概率矩阵表征词表中每个词的参考概率。

204，基于参考概率矩阵的参考概率，确定当前摘要文本。

可能的实现方式中，如图3所示，步骤202通过解码器分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵，包括：

301，基于输入文本生成第一向量矩阵。

一些可能的例子中，可以将输入文本进行编码后加上位置向量，生成第一向量矩阵。

302，基于第一向量矩阵生成第二向量矩阵；其中，第二向量矩阵表征输入文本中自身之外且在自身前边的词对自身的贡献度。

一些可能的例子中，将第一向量矩阵进行mask self-attention，生成第二向量矩阵。

303，基于第二向量矩阵和原始文本编码，生成上下文向量矩阵和贡献度矩阵。其中，贡献度矩阵表征原始文本的每个词对输入文本的每个词的贡献度。

一些可能的例子中，第二向量矩阵与原始文本编码进行attention，并融合信息，生成上下文向量矩阵和贡献度矩阵。

304，基于上下文向量矩阵，得到生成模式概率矩阵。

一些可能的例子中，将上下文向量矩阵映射到词表，得到生成模式概率矩阵。

305，基于贡献度矩阵，生成抽取模式概率矩阵。

一些可能的例子中，将贡献度矩阵映射到词表，生成抽取模式概率矩阵

306，基于第一向量矩阵、上下文向量矩阵和贡献度矩阵，生成权重矩阵。

一些可能的例子中，生成权重矩阵，具体包括：

拼接第一向量矩阵、上下文向量矩阵和贡献度矩阵；

对拼接的结果进行线性变换；

对线性变换的结果进行sigmoid函数激活，生成权重矩阵。

可能的实现方式中，如图4所示，步骤203基于生成模式概率矩阵、抽取模式概率矩阵和权重矩阵，生成参考概率矩阵，包括：

401，以生成模式概率矩阵与权重矩阵进行乘运算，得到第一概率矩阵；

402，以抽取模式概率矩阵减去抽取模式概率矩阵与权重矩阵的乘积，得到第二概率矩阵；

403，将第一概率矩阵和第二概率矩阵相加得到参考概率矩阵。

可能的实现方式中，步骤204基于参考概率矩阵的参考概率，确定当前摘要文本，包括：

基于参考概率矩阵的参考概率，取每个词在词表中概率最大的词，生成当前摘要文本。

基于上述的说明，本申请实施例提供摘要生成模型的具体架构图，如图5所示。包括编码器和解码器，解码器包括输入文本解码模型、Self-attention模型、attention模型、第一映射词表模型、pointer、第二映射词表模型、概率相加模型和结果生成模型。其中编码模型作为摘要生成模型的编码器，Self-attention模型、attention模型、映射词表模型、pointer、概率相加模型和结果生成模型作为解码器的一部分。为了更清楚的理解本方案，基于上述的具体架构图，对各步骤进行说明如下：

步骤一、基于输入文本通过输入文本解码模型生成第一向量矩阵。

步骤二、基于第一向量矩阵，通过Self-attention模型确定第一向量矩阵中输入文本中自身之外且在自身前边的词对自身的贡献度，得到第二向量矩阵。

步骤三、基于第二向量矩阵和编码器输出的原始文本编码，进行attention并融合信息，生成上下文向量矩阵和贡献度矩阵。其中，贡献度矩阵表征原始文本的每个词对输入文本的每个词的贡献度。

步骤四、通过第一映射词表模型，将上下文向量矩阵映射到词表，得到生成模式概率矩阵。

步骤五、通过pointer拼接第一向量矩阵、上下文矩阵和贡献度矩阵；对拼接的结果进行线性变换；对线性变换的结果进行sigmoid函数激活，生成权重矩阵。

步骤六、通过第二映射词表模型将贡献度矩阵映射到词表，生成抽取模式概率矩阵。

步骤七、通过概率相加模型，对生成模式概率矩阵与权重矩阵进行乘运算，得到第一概率矩阵；以抽取模式概率矩阵减去抽取模式概率矩阵与权重矩阵的乘积，得到第二概率矩阵；将第一概率矩阵和第二概率矩阵相加得到参考概率矩阵。

步骤八、通过结果生成模型，基于参考概率矩阵的参考概率，取每个词在词表中概率最大的词，生成当前摘要文本。

需要说明的是，在具体实施时，输入解码器的输入文本最初仅输入开始符，例如<s>。响应于开始符输出一个词(对于汉语，可以理解为输出一个字)，之后将开始符与该输出作为输入文本，下次的输入文本继续进行自动文本摘要，通过循环执行步骤一至步骤八，即可得到原始文本的最终摘要文本。

本申请实施例中，综合生成式和抽取式两种方式的优点，利用Self-attention模型和pointer模型的组合，在解码过程中得到生成模式概率矩阵和抽取模式概率矩阵，并基于生成模式概率矩阵和抽取模式概率矩阵得到参考概率矩阵，最终以参考概率矩阵确定当前摘要文本，能够实现快速自动文本摘要，摘要文本可读性高，与原文本主本意思一致。

第二方面，如图6所示，本申请实施例提供一种文本摘要生成装置，包括编码器1和解码器2；

编码器1，用于输出的原始文本编码；

解码器2，包括：

接收单元21，用于接收输入文本和原始文本编码；其中，输入文本包括开始符和前次输出的摘要文本；

第一处理单元22，用于分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵；

第二处理单元23，用于基于生成模式概率矩阵、抽取模式概率矩阵和权重矩阵，生成参考概率矩阵，参考概率矩阵表征词表中每个词的参考概率；

第三处理单元24，用于基于参考概率矩阵的参考概率，确定当前摘要文本；

其中，生成模式概率矩阵表征词表中每个词的概率，抽取模式概率矩阵表征词表中原始文本的每个词被抽取的概率，权重矩阵表征生成模式概率矩阵在运算中的权重。

参考图5，接收单元21对应输入文本解码模型；第一处理单元22对应Self-attention模型、attention模型、第一映射词表模型、pointer和第二映射词表模型的组合；第二处理单元23对应概率相加模型；第三处理单元对应结果生成模型。

第一处理单元22，具体用于：

基于输入文本生成第一向量矩阵；

基于第一向量矩阵生成第二向量矩阵；其中，第二向量矩阵表征输入文本中自身之外的其他词对自身的贡献度；

基于第二向量矩阵和原始文本编码，生成上下文向量矩阵和贡献度矩阵；其中，第二向量矩阵表征输入文本中自身之外且在自身前边的词对自身的贡献度；

基于上下文向量矩阵，得到生成模式概率矩阵；

基于贡献度矩阵，生成抽取模式概率矩阵；

基于第一向量、上下文向量矩阵和贡献度矩阵，生成权重矩阵。

第一处理单元22基于输入文本生成第一向量矩阵，包括：

将输入文本进行编码后加上位置向量，生成第一向量矩阵。

第一处理单元22基于第一向量矩阵生成第二向量矩阵，包括：

将第一向量矩阵进行mask self-attention，生成第二向量矩阵。

第一处理单元22基于第二向量矩阵和原始文本编码，生成上下文向量矩阵和贡献度矩阵，包括：

第二向量矩阵与原始文本编码进行attention，并融合信息，生成上下文向量矩阵和所述贡献度矩阵。

第一处理单元22基于上下文向量矩阵，得到生成模式概率矩阵，包括：

将上下文向量矩阵映射到词表，得到生成模式概率矩阵。

第一处理单元22基于贡献度矩阵，生成抽取模式概率矩阵，包括：

将贡献度矩阵映射到词表，生成抽取模式概率矩阵。

第一处理单元22基于第一向量、上下文向量矩阵和贡献度矩阵，生成权重矩阵，包括：

拼接第一向量矩阵、上下文矩阵和贡献度矩阵；

对拼接的结果进行线性变换；

对线性变换的结果进行sigmoid函数激活，生成权重矩阵。

第二处理单元23，具体用于：

以生成模式概率矩阵与权重矩阵进行乘运算，得到第一概率矩阵；

以抽取模式概率矩阵减去抽取模式概率矩阵与权重矩阵的乘积，得到第二概率矩阵；

将第一概率矩阵和第二概率矩阵相加得到参考概率矩阵。

第三处理单元24，具体用于：

本申请实施例中，对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，方法实施例的步骤之间除非存在明确的先后顺序，否则执行顺序可任意调整。所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种文本摘要生成方法，其特征在于，包括：

提供包括编码器和解码器的摘要生成模型并进行训练；

2.如权利要求1所述的方法，其特征在于，所述通过所述解码器分别确定生成模式概率矩阵、抽取模式概率矩阵和权重矩阵，包括：

基于所述输入文本生成第一向量矩阵；

基于所述上下文向量矩阵，生成所述生成模式概率矩阵；

基于所述贡献度矩阵，生成所述抽取模式概率矩阵；

3.如权利要求2所述的方法，其特征在于，所述基于所述第一向量矩阵生成第二向量矩阵，包括：

4.如权利要求2所述的方法，其特征在于，所述基于所述第二向量矩阵和所述原始文本编码，生成上下文向量矩阵和贡献度矩阵，包括：

5.如权利要求2所述的方法，其特征在于，所述基于所述上下文向量矩阵，生成所述生成模式概率矩阵，包括：

6.如权利要求2所述的方法，其特征在于，所述基于所述贡献度矩阵，生成所述抽取模式概率矩阵，包括：

7.如权利要求2所述的方法，其特征在于，所述基于所述第一向量矩阵、所述上下文向量矩阵和所述贡献度矩阵，生成所述权重矩阵，包括：

对拼接的结果进行线性变换；

对线性变换的结果进行sigmoid函数激活，生成所述权重矩阵。

8.如权利要求1所述的方法，其特征在于，所述基于所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵，生成参考概率矩阵，包括：

9.如权利要求1所述的方法，其特征在于，所述基于所述参考概率矩阵的所述参考概率，确定当前摘要文本，包括：

10.一种文本摘要生成装置，其特征在于，包括编码器和解码器；

所述编码器，用于输出的原始文本编码；

所述解码器，包括：

第二处理单元，用于基于所述生成模式概率矩阵、所述抽取模式概率矩阵和所述权重矩阵，生成参考概率矩阵，所述参考概率矩阵表征词表中每个词的参考概率；