CN110147442B

CN110147442B - 一种可控长度的文本摘要生成系统及方法

Info

Publication number: CN110147442B
Application number: CN201910298471.8A
Authority: CN
Inventors: 李舟军; 刘俊杰; 肖武魁; 崔庆才
Original assignee: Shenzhen Intelligent Strong Technology Co ltd
Current assignee: Shenzhen Intelligent Strong Technology Co ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2023-06-06
Anticipated expiration: 2039-04-15
Also published as: CN110147442A

Abstract

本发明是一种可控长度的文本摘要生成系统及方法：1.将用户提交的源文本和长度控制信息经过预处理之后得到可供文本摘要模型处理的输入数据；2.文本摘要系统在深度学习生成式模型的基础上，结合了复制机制、覆盖率机制、长度控制机制对输入的数据进行处理计算，得到生成摘要的内部表示；3.基于步骤2生成的文本内部表示，进一步将其转化为可控长度的摘要结果，系统将结果呈献给用户并进行可视化呈现。本发明在深度学习生成式模型的基础上，添加了复制机制、覆盖率机制、长度控制机制，实现了对长文本的摘要生成，可读性和可控性强，测评结果显示本发明的摘要生成效果相比标准生成式模型有明显的提升。

Description

一种可控长度的文本摘要生成系统及方法

技术领域

本发明涉及一种可控长度的文本摘要生成系统及方法，属于自然语言处理技术领域。

背景技术

随着近几年文本信息的爆发式增长，人们每天能接触到海量的文本信息，如新闻、博客、报告等。从大量文本信息中提取重要的内容，已成为我们的一个迫切需求，而自动文本摘要则提供了一个高效的解决方案。自动文本摘要技术旨在利用计算机生成更为精炼且保留原文整体含义的的文本，是对原文内容的更精华的提炼，最后输出简洁、流畅、保留关键信息的内容，其有非常多的应用场景，如自动报告生成、新闻标题生成等，它为人类快速获取信息提供了巨大的帮助。

自动文本摘要是一件非常有挑战性的工作，早期的一部分工作主要是基于统计学或图排序的算法实现的抽取式的摘要，其通过转述、替换、句子缩写技术生成更加简洁凝练的内容。比起抽取式，生成式更接近人进行摘要的过程。伴随着深度神经网络的兴起，基于神经网络的生成式文本摘要得到快速发展，并取得了不错的成绩，但其效果还有待进一步提升。

生成式文本摘要系统大多都是基于序列到序列模型和注意力机制的，二者结合可以胜任大多数自然语言处理领域的相关任务，如机器翻译、对话生成、语音识别、诗词生成等，同时该模型也可以应用到文本摘要领域，但相比其他任务来说，文本摘要难度要大很多，存在额外的多个需要解决的问题：

·文本摘要通常处理的文本都是一些新闻、事实描述性的内容，所以其中会存在许多实体名词。但此种实体名词一般出现的频率比较低，所以此种实体容易遇到词表溢出问题，模型既无法识别，又很难将此类实体生成到目标结果中。

·由于标准的生成式模型没有对生成重复的问题做优化，而文本摘要的可读性又是非常重要的，因此生成式摘要还需要考虑如何解决摘要生成过程中的重复性问题。

·对于对话生成，机器翻译等任务来说来说，通常人们不会去关注生成结果的长度，但是文本摘要任务则不同，如何生成指定字数的摘要是一个非常重要的因素，因此如何控制摘要生成的长度也是一个关键性的问题。

基于上述缺陷，本发明在上述模型的基础上设计了结合复制机制、覆盖率机制、长度控制机制的文本摘要生成系统，解决了词表溢出问题、生成重复问题、长度控制问题，并将模型进行对接，构建了一个可控长度的文本摘要生成系统。

发明内容

本发明技术解决问题：针对生成式文本摘要面临的词表溢出问题、生成重复问题、长度控制问题分别设计了复制机制、覆盖率机制、长度控制机制，提出了一个可控长度的多层双向生成式模型。

本发明技术解决方案：本发明一种可控长度的文本摘要生成系统，包括数据预处理模块、模型处理和转化模块、摘要生成及可视化模块；所述数据预处理模块，用于将用户输入的数据进行解析和转化，使之成为模型可以识别的内容，所述模型处理和转化模块，是利用模型对转化后的内容进行分析计算，得出摘要的内部表示，所述摘要生成及可视化模块，用于构建摘要结果并进行可视化展现。

进一步的，所述的数据预处理模块，包括数据清洗单元，用于对文本数据可能包含的一些无效或不规则字符进行清洗，排除冗余数据；数据分词单元，用于将长文本序列转化为分词后的词列表；数据序列转化单元，用将分词后的词列表转化为可供模型输入的文本编码序列信息。

进一步的，所述的模型处理和转化模块，包括复制机制，用于将输入文本序列中低频实体词复制到目标结果中；覆盖率机制，用于将生成结果中的重复字词进行记录，并在模型训练阶段对生成重复的现象进行惩罚；长度控制机制，用于将长度信息融入模型之中，每生成一个词长度信息便随之衰减。

进一步的，所述摘要生成及可视化模块，包括摘要结果转化单元及摘要可视化呈现单元。

一种可控长度的文本摘要生成方法，步骤如下：

S1.数据预处理模块，将用户输入的待处理源文本进行文本清洗、分词、序列转化得到文本编码序列信息，另外将用户输入的长度信息转化为内部表征数据，所述的文本编码序列信息和长度信息作为下一步的输入。

S2.生成式模型的处理和转化，基于步骤S1处理后的文本序列和长度信息，建立生成式模型，通过结合复制机制、覆盖率机制、长度控制机制对输入数据进行计算处理，最终得到生成的摘要结果的内部表示。

S3.摘要生成和可视化呈现，基于步骤S2生成的摘要结果的内部表示，系统将其处理转化，形成可读的文本摘要结果，并将结果进行可视化呈现。

进一步的，步骤S1输入数据预处理，具体包括以下子步骤：

S1.1输入数据的清洗

输入的文本数据可能包含一些无效或不规则字符，系统需要对这些字符做清洗，排除冗余数据；清洗的步骤包括去除混杂数据、大小写转化、全半角转换。

S1.2输入数据的分词

将步骤S1.1中的处理结果进一步进行分词处理，使用业界标准的自然语言分词工具实现，将长文本序列转化为分词后的词列表。

S1.3输入数据的序列转化

将步骤S1.2中的分词结果根据预先定义好的词表，将其转化为可供模型输入的文本编码序列信息。

进一步的，步骤S2生成式模型的处理和转化，具体包括以下子步骤：

S2.1设计复制机制

所述的设计复制机制，将输入文本序列中低频实体词复制到目标结果中，有效解决词表溢出问题。

S2.2设计覆盖率机制

所述的设计覆盖率机制，将生成结果中的重复字词进行记录，并在模型训练阶段对生成重复的现象进行惩罚，有效解决生成重复问题。

S2.3设计长度控制机制

所述的设计长度控制机制，将长度信息融入模型之中，每生成一个词长度信息便随之衰减，使得模型可以学习到长度信息的影响。

进一步的，步骤S3摘要生成和可视化呈现，具体包括以下子步骤：

S3.1摘要结果转化

将步骤S2中生成的摘要内部表征结果进行处理转化，形成可读的摘要文本。

S3.2摘要可视化呈现

将生成的摘要文本在可视化系统中呈现，并输出结果中的每一个词的生成概率、复制概率并将其可视化呈现，另外该系统还可以展示输出摘要结果和源文本之间注意力机制的映射关系，直观地呈现源文本各个词对摘要结果各个词的影响程度。

本发明阐述了一种可控长度的文本摘要生成系统及方法，其优点及功效在于：有效解决生成式摘要系统面临的词表溢出问题、生成重复问题和长度控制问题，极大提升生成摘要的可读性和可控性。

附图说明

图1为本发明系统的总体框架。

图2为本发明系统中的数据预处理流程框图。

图3为本发明系统中的复制机制框图。

图4为本发明系统中的覆盖率机制框图。

图5为本发明系统中的长度控制机制框图。

图6为本发明系统中的摘要系统生成样例结果。

图7本发明系统中的摘要结果注意力分布。

具体实施方式

下面结合附图，对本发明的技术方案做进一步的说明。

如图1所示，本发明是一种可控长度的文本摘要生成系统，包括：输入数据预处理模块、模型的处理和转化模块、摘要生成和可视化呈现三大模块，其主要功能都涵盖在图中所示的三层模块架构中。

下面分别对各部分进行详细说明。

所述数据预处理模块，用于将用户输入的数据进行解析和转化，使之成为模型可以识别的内容，包括数据清洗单元、数据分词单元、数据序列转化单元。所述数据清洗单元，用于对文本数据可能包含的一些无效或不规则字符进行清洗，该数据清洗单元具体包括数据类型转换、大小写转换、全半角转换；数据分词单元，用于将长文本序列转化为分词后的词列表；数据序列转化单元，用将分词后的词列表转化为可供模型输入的文本编码序列信息。另外本模块还提供了必要的请求处理和响应生成的额外功能，用于对接可视化呈现模块。

所述模型处理和转化模块，是利用模型对转化后的内容进行分析计算，得出摘要的内部表示。所述的模型处理和转化模块，包括基本的序列到序列模型和注意力机制，另外包含复制机制、覆盖率机制、长度控制机制。序列到序列模型和注意力机制结合的模型已是业界广泛采用的标准生成式模型。复制机制，用于将输入文本序列中低频实体词复制到目标结果中；覆盖率机制，用于将生成结果中的重复字词进行记录，并在模型训练阶段对生成重复的现象进行惩罚；长度控制机制，用于将长度信息融入模型之中，每生成一个词长度信息便随之衰减。

所述摘要生成及可视化模块，用于构建摘要结果并进行可视化展现。所述摘要生成及可视化模块，包括摘要结果转化单元及摘要可视化呈现单元；所述的结果转化单元具体包括：文本输入、长度控制、摘要句控制、长度控制；所述的摘要可视化呈现单元具体包括：系统界面呈现、摘要结果呈现、解码详情呈现及注意力分别呈现。

一种可控长度的文本摘要生成方法，具体过程如下：

S1.输入数据预处理

属于预处理过程是将用户输入的待处理源文本进行文本清洗、分词、序列转化，另外将输入的长度信息转化为内部表征数据，两部分信息作为本系统中生成式模型的输入内容。

输入数据预处理的框架图如图2所示。

S1.1输入数据的清洗

在做数据预处理之前，一般需要先对数据进行清洗，清洗的步骤包括去除混杂数据、大小写转化、全半角转换等等。

其中包括如下几个步骤:

·去除混杂数据。输入数据中难免混杂有HTML标签、复杂代码、乱码字符等内容，这时候就可以利用一些规则如正则表达式来实现脏数据的剔除，利用使用正则表达式匹配网页标签去除等。

·大小写转化。一般对于中文文本摘要来说，大部分的词表的内容都是中文，但如果其中夹杂着英文的内容，那么其还是存在一定的影响的。为了更好地让模型更好地学习英文的标识，需要将大小写统一，这样便可以避免同一个单词表示混杂的现象，而且还有助于模型更好地学习单词的标识。

·全半角转换。在一些中文文本中，经常会存在全半角混用的情况，多出现在逗号、句号、感叹号、引号等标点符号中，为了更好地让模型学习一些标点符号的使用，最好将结果进行统一，例如全转为半角或全角等。

S1.2输入数据的分词

将步骤S1.1中的处理结果进一步进行分词处理，本发明使用当前应用广泛的结巴分词工具工具实现分词，该工具使用Python编程语言实现，可以将长文本序列转化为分词后的词列表。

S1.3输入数据的序列转化

将步骤S1.2中的分词结果根据预先定义好的词表，将其转化为可供模型输入的文本编码序列信息。所述的词表使用训练数据中的高频词汇制作而成，在制作过程中会统计训练数据中所有词出现的词频，然后选取词频排名高的词组成词表，词表是词和其顺序序列的编号。本步骤会将分词后的文本转化为编码后的文本序列。

S2.生成式模型的处理和转化。

基于步骤S1处理后的文本序列和长度信息，本系统使用了生成式模型，该生成式模型采用的为自然语言处理中的序列到序列模型和注意力机制模型的结合模型，进一步通过结合复制机制、覆盖率机制、长度控制机制对输入数据进行计算处理，最终得到生成的摘要结果的内部表示。

S2.1设计复制机制

通过设计复制机制，将输入文本序列中低频实体词复制到目标结果中，有效解决词表溢出问题。复制机制的框架图如图3所示。

基本思想是维护一个p_gen向量，该向量范围是[0,1]，它是通过编码器的隐状态h_t，解码器的隐状态s_t，解码器当前的输入内容x_t计算得到的，

其中/>

b_ptr都是学习参数，σ是Sigmoid函数，p_gen是一个软开关，它可以决定在生成的过程中是从词汇表中生成词还是从输入序列中根据注意力的分布a^t来复制一个词。最后生成的结果的概率是二者的组合，最后的生成词的概率就是词表生成和拷贝生成的结合，二者通过p_gen来控制最后词的总概率情况。通过复制机制，模型可以自行学习何时从原文中拷贝词汇，何时从词表中生成词汇，同时由于动态溢出词表的存在，这样就不必将低频长实体进行分割成单字形式，会依然保留成一个整体，这样在生成或者拷贝的时候可以一次性完成，所以其对低频实体的生成效果会更好。

S2.2设计覆盖率机制

通过设计覆盖率机制，将生成结果中的重复字词进行记录，并在模型训练阶段对生成重复的现象进行惩罚，有效解决生成重复问题。在覆盖率模型中，其维护了一个覆盖率向量c^t，它是根据先前步解码器注意力结果的计算而成的，其模型结构如图4所示，其在图3基础上增加了覆盖率向量。该覆盖率向量其中包含着解码阶段每一步中注意力分布a^t的累加和，记录着模型已经关注过原文的哪些词，表示为

为了使得覆盖率向量对当前步的注意力计算产生影响，其结果可以另外还会重新被被纳入下一步的注意力计算中，这样可以使得模型在进行当前步注意力计算的时候关注之前已经关注的词，这样就可以避免在后续步骤中重复关注已经关注过的词。

最后覆盖率模型使用了这个覆盖率变量来计算了一个覆盖率损失，可以针对重复的注意力结果做惩罚，覆盖率损失函数定义为

这样整个生成式模型最后需要优化的总损失函数就可以综合标准的损失函数和当前的覆盖率损失函数，二者共同进行优化生成式模型就可以学习到已经关注过哪些词，而生成式模型对重复关注已经做了惩罚，所以其在一定程度上可以缓解生成重复的问题。

S2.3设计长度控制机制

通过设计长度控制机制，将长度信息融入生成式模型之中，每生成一个词长度信息便随之衰减，使得生成式模型可以学习到长度信息的影响，长度控制机制的框架图如图5所示。生成式模型使用了一个长度向量来控制在解码过程中的长度衰减过程。在解码阶段，加入了一个额外的长度向量矩阵W_le，这个长度向量标识了解码阶段剩余的长度l_t，这个向量会作为额外的输入内容加入到每次解码过程中，其解码过程中的衰减变化过程为：l_t+1＝l_t-byte(y_t)，这里byte(y_t)指的是输出结果的长度，y_t是被指定的生成长度。在训练过程中，W_le这个矩阵里面包含了剩余长度的向量表示，将此矩阵额外加入解码过程中的每一步输入之中，同时在每次解码过程中将长度进行缩减，这样生成式模型便可以学习到解码过程中还剩余多少长度。有了这个矩阵，生成式模型在训练阶段可以在每次解码时获取剩余长度，每次解码一次该长度衰减1，一直到解码结束，长度正好衰减为0，这样生成式模型便可以学习到长度对生成结果的影响。训练阶段完成之后，长度已经可以作为一个额外的初始化向量传递给生成式模型，生成式模型便会根据此向量进行解码。

S3.摘要生成和可视化呈现

基于步骤S2生成的摘要结果的内部表示，系统将其处理转化，形成可读的文本摘要结果，并将结果进行可视化呈现。

S3.1摘要结果转化

将步骤S2中生成的摘要内部表征结果进行处理转化，形成可读的摘要文本。步骤S2中生成的结果是文本编码序列，需要根据词表查询将其还原为真实可读的文本内容，并进行可视化呈现。

如图6所示是摘要系统的使用案例，该样例中系统接受了一段输入文本，并控制了长度限制词数，系统便会将生成的摘要结果呈现出来。

S3.2摘要可视化呈现

如图7所示，本系统还可视化地呈现了模型中的注意力分布，其中横轴代表输入的文本，纵轴为生成的摘要结果。结果的每一行代表了生成的该词对原文中每个词的注意力分布情况。

Claims

1.一种可控长度的文本摘要生成系统，其特征在于：该系统包括数据预处理模块、模型处理和转化模块、摘要生成及可视化模块；

所述数据预处理模块，用于将用户输入的数据进行解析和转化，使之成为模型可以识别的内容；所述模型处理和转化模块，是利用模型对转化后的内容进行分析计算，得出摘要的内部表示；所述摘要生成及可视化模块，用于构建摘要结果并进行可视化展现；

进一步的，所述的数据预处理模块，包括数据清洗单元，用于对文本数据可能包含的一些无效或不规则字符进行清洗，排除冗余数据；数据分词单元，用于将长文本序列转化为分词后的词列表；数据序列转化单元，用将分词后的词列表转化为可供模型输入的文本编码序列信息；

进一步的，所述的模型处理和转化模块，包括复制机制，用于将输入文本序列中低频实体词复制到最终得到生成的摘要结果中；覆盖率机制，用于将生成结果中的重复字词进行记录，并在模型训练阶段对生成重复的现象进行惩罚；长度控制机制，用于将长度信息融入模型之中，每生成一个词长度信息便随之衰减；

2.一种可控长度的文本摘要生成方法，其特征在于：该方法步骤如下：

S1.数据预处理模块，将用户输入的待处理源文本进行文本清洗、分词、序列转化得到文本编码序列信息，另外将用户输入的长度信息转化为内部表征数据，所述的文本编码序列信息和长度信息作为下一步的输入；

S2.生成式模型的处理和转化，基于步骤S1处理后的文本序列和长度信息，建立生成式模型，通过结合复制机制、覆盖率机制、长度控制机制对输入数据进行计算处理，最终得到生成的摘要结果的内部表示；具体包括以下子步骤：

S2.1设计复制机制

所述的设计复制机制，将输入文本序列中低频实体词复制到目标结果中，有效解决词表溢出问题；

S2.2设计覆盖率机制

所述的设计覆盖率机制，将生成结果中的重复字词进行记录，并在模型训练阶段对生成重复的现象进行惩罚，有效解决生成重复问题；

S2.3设计长度控制机制

所述的设计长度控制机制，将长度信息融入模型之中，每生成一个词长度信息便随之衰减，使得模型可以学习到长度信息的影响；

3.根据权利要求2所述的一种可控长度的文本摘要生成方法，其特征在于：所述步骤S1输入数据预处理，具体包括以下子步骤：

S1.1输入数据的清洗

输入的文本数据可能包含一些无效或不规则字符，系统需要对这些字符做清洗，排除冗余数据；清洗的步骤包括去除混杂数据、大小写转化、全半角转换；

S1.2输入数据的分词

将步骤S1.1中的处理结果进一步进行分词处理，使用业界标准的自然语言分词工具实现，将长文本序列转化为分词后的词列表；

S1.3输入数据的序列转化

4.根据权利要求2所述的一种可控长度的文本摘要生成方法，其特征在于：所述步骤S3摘要生成和可视化呈现，具体包括以下子步骤：

S3.1摘要结果转化

将步骤S2中生成的摘要内部表征结果进行处理转化，形成可读的摘要文本；

S3.2摘要可视化呈现