CN111639175B

CN111639175B - 一种自监督的对话文本摘要方法及系统

Info

Publication number: CN111639175B
Application number: CN202010475376.3A
Authority: CN
Inventors: 林劼; 党元; 徐佳俊; 马俊; 李继演; 伍双楠
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-05-02
Anticipated expiration: 2040-05-29
Also published as: CN111639175A

Abstract

本发明公开了一种自监督的对话文本摘要方法及系统，方法包括：文本预处理，将文本字符序列转化为单词序列，并通过词嵌入模型将文本单词转化成语义向量编码；时序自监督编码，训练出将对话句子编码为语义向量的自监督编码模型；自监督分段，训练出将对话文本分割为若干段落的自监督分段模型；无监督主题聚类，将相同主题的段落聚到同一类别集合中；编解码生成式摘要，将主题段落编解码生成文本摘要。本发明还提供一种自监督的对话文本摘要系统。本方案利用自监督和无监督模型进行建模，结合了生成式模型的优点，经过分段和主题聚类处理后进行生成式摘要，对完备对话集进行编解码，获得了质量较好的摘要，克服了人工标注样本短缺的问题。

Description

一种自监督的对话文本摘要方法及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种自监督的对话文本摘要方法及系统。

背景技术

随着信息技术的发展，即时信息迅速膨胀，短信、微博、商品评论、客服对话等单句长度较小的文本成为自然语言处理的研究热点，此类段落长度不超过140个字符的文本被称为短文本，短文本处理技术在自动问答、AI客服等领域有广阔应用前景。对话文本属于典型的短文本，如电商平台客服对话、论坛交流贴、社交软件聊天记录等。相比较于来自文章的文本，对话文本的处理复杂性更高。对话文本摘要任务属于自动文本摘要任务的一种，自动文本摘要目前的方法集中在以下几个方面：

(1)基于统计学的抽取式摘要方法

基于统计学的方法，对文章进行抽取式摘要，统计学方法通过文本的统计特征，计算文本中词句的重要性程度，对源文档的重要句子和词组进行抽取组合成摘要。常见的文本统计特征有：词频率、词句的位置信息和词句的关联信息。

统计学的方法依赖于文本的统计特征，优点是计算简单，且不需要额外自然语言学知识，适用于格式相对规范的文档抽取式摘要。基于统计学的方法最先在自动文本摘要领域取得了重要进展，但该类方法只是基于词语和句子的表层特征进行统计计算，未能利用词句之间的语义信息与联系，抽取的摘要往往包含过多冗余信息，仍然存在很大的局限性。

(2)基于机器学习的抽取式摘要方法

基于传统机器学习的方法以监督学习为主，一般是通过对原文中的句子进行标注，将句子分为摘要句或非摘要句，然后利用机器学习模型对原文中的句子进行分类。这类方法有朴素贝叶斯分类模型、隐马尔可夫模型，线性回归模型、决策树模型等等，最终将分类后的摘要句组合成为摘要。

与无监督的方法相比，基于机器学习的方法可以学习人工标注信息，挖掘文本特征与目标标签间的关联，准确性和效率更高。但是对大量训练集进行人工标注需要消耗巨大的人力成本，在实际的自动文本摘要任务中，往往无法获取足够的标注数据对模型进行训练，因此基于机器学习的方法未能得到广泛应用。

(3)基于深度学习的生成式摘要方法

随着计算机性能的不断增长，深度学习逐渐登上了舞台。目前深度学习方法在自然语言处理领域有一个基本方向：首先寻求文本在指定维数空间内的语义表示，然后再应用到不同的任务中。深度学习应用于文本摘要的生成，可以基于Sequence-to-Sequence模型，利用CNN网络或RNN网络对原文档进行编码，然后利用RNN网络进行解码生成摘要。深度学习的方法更接近于人工的摘要方式：理解内容之后生成概括，目前效果最好，但是需要大量人工标注的样本，训练成本很高。

发明内容

本发明的目的在于实现一种自监督的对话文本摘要方法，主要通过自监督和无监督的技术进行处理，克服了对话文本摘要任务没有大规模标注训练集的问题，生成摘要的效果良好。

本发明的目的是通过以下技术方案来实现的：

一种自监督的对话文本摘要方法，包括以下步骤：文本预处理，将文本字符序列转化为单词序列，并通过词嵌入模型将文本单词转化成语义向量编码；时序自监督编码，训练出能将对话句子编码为语义向量的自监督编码模型；自监督分段，训练出能将对话文本分割为若干段落的自监督分段模型；无监督主题聚类，将相同主题的段落聚到同一类别集合中；编解码生成式摘要，将主题段落编解码生成文本摘要。

具体的，所述文本预处理步骤还包括以下子步骤：

S101，获取对话文本集合，若对话文本为中文，则进行中文分词处理，将对话文本句子转化为单词序列；

S102，利用在大规模语料库上预训练的词嵌入模型，将单词映射为固定维度的语义向量编码。

具体的，所述时序自监督编码步骤还包括以下子步骤：

S201，通过对话的角色转换把对话全文分成N次对话{(A₁，B₁)，...，(A_N，B_N)}，从前文对话中采样出的三次对话{(A_i，B_i)，(A_j，B_j)，(A_k，B_k)}简称为三元组；

S202，采样三个三元组，第一个三元组{(A_i，B_i)，(A_j，B_j)，(A_k，B_k)}有序排列，第二个三元组{(A_i，B_i)，(A_k，B_k)，(A_j，B_j)}乱序排列，其中i＜j＜k≤t，第三个三元组是待预测部分，有序则标注真实标签0，乱序则标注真实标签1；

S203，将三个三元组分别通过递归自动编码器编码和双向长短期记忆网络进行嵌入后，将得到的三个嵌入拼接后输入多层感知机对待预测三元组的顺序进行分类预测；

S204，重复S202和S203直至训练完成，从递归自动编码器的输出层取出句子的编码向量。

具体的，所述自监督分段步骤还包括以下子步骤：

S301，对于没有类型标签的对话文本，将对话文本随机划分成若干个段落后对句子进行标注，打乱顺序重新排列，以此构造标注训练集；对于带有类型标签的对话文本，从不同类型的对话抽取段落，拼接排列后构造标注训练集；

S302，将段落的开始句标注开始标签<B>，段落的中间句标注中部标签<M>，段落的结尾句标注结束标签<E>；

S303，利用上述时序自监督编码模型将对话句子转化为编码向量，则段落转化为句子编码向量序列，采用双向长短期记忆网络提取序列的特征，然后将双向长短期记忆网络的输出输入到条件随机场层进行分类；

S304，通过分类结果将对话文本划分为若干段落。

具体的，所述无监督主题聚类步骤中还包括以下子步骤：

S401，顺序处理对话文本，将对话段落作为最小聚类单位，首先以第一个对话段落为聚类种子，建立一个新主题，利用时序自监督编码获得段落内对话句子的编码向量后，将与段落内其他对话句子向量距离最小的向量作为主题聚类中心向量，假设段落向量序列为V＝(v₁,v₂,...,v_z),v_i∈Rⁿ，则序列元素与其它元素的距离计算如下式所示：

S402，后续的段落按相同方式获取中心向量，计算与已有主题中心的相似度，将其加入到与它相似度最大且大于设定阈值的主题里，并更新该主题的中心向量，若段落与所有已有主题中心的相似度都小于阈值，则以该段落为聚类种子，建立新的主题类；

S403，重复S402直至遍历全部对话文本段落。

具体的，所述编解码生成式摘要步骤还包括以下子步骤：

S501，在大规模公开摘要数据集上训练编解码器，中文可选择LCSTS数据集，英文可选择CNN/DailyMail等数据集；

S502，假设由上一步获得了K个主题，将主题分别输入训练好的编解码器，生成K个摘要；

S503，每个主题包含一个或多个段落，每个段落包含多个对话句，假设主题中共包含n 个对话句子，line_i表示句子(A_i,B_i)在原文中的行号，||D||表示原文总行数，则计算出整个主题的相对位置，计算如下式所示：

S504，对K个生成的摘要根据对应主题的相对位置从小到大进行排列，组成最后的摘要。

一种自监督的对话文本摘要系统，包括中文分词模块，词嵌入模块，自监督编码模块，自监督分段模块，聚类模块，摘要生成模块，

所述中文分词模块，集成开源分词工具，用于将中文字符序列转化为单词序列；

所述词嵌入模块，集成开源预训练词嵌入模型，用于将文本单词转化成语义向量编码；

所述自监督编码模块，集成时序自监督编码模型，用于将对话句子编码为语义向量；

所述自监督分段模块，集成自监督分段模型，用于将对话文本分割为若干段落；

所述聚类模块，集成无监督聚类算法，用于将相同主题的段落聚到同一类别集合中；

所述摘要生成模块，集成编解码摘要模型及主题段落排列算法，用于将主题段落编解码生成文本摘要。

本发明的有益效果：

1、方法利用自监督和无监督模型进行建模，克服了人工标注样本短缺的问题；

2、方法结合了生成式模型的优点，经过分段和主题聚类处理后进行生成式摘要，可以对完备对话集进行编解码，获得较好质量的摘要。

附图说明

图1是本发明的方法流程图。

图2是本发明涉及的时序自监督编码器示意图。

图3是本发明涉及的分段标注训练集构造示意图。

图4是本发明的系统模块图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式，但本发明的保护范围不局限于以下所述。

本实施例中，如图1所示，一种自监督的对话文本摘要方法，方法步骤包括：文本预处理，时序自监督编码，自监督分段，无监督主题聚类，编解码生成式摘要。

其中，文本预处理步骤用于将文本字符序列转化为单词序列，并通过词嵌入模型将文本单词转化成语义向量编码，具体包括以下子步骤：

S102，利用在大规模语料库上预训练的词嵌入模型，例如word2vec模型或Glove模型，将单词映射为固定维度的语义向量编码。

其中，时序自监督编码步骤用于训练出能将对话句子编码为语义向量的自监督编码模型，具体包括以下子步骤：

S203，如图2所示，将三个三元组分别通过递归自动编码器(RAE)编码和双向长短期记忆网络(BiLSTM)进行嵌入后，将得到的三个嵌入拼接后输入多层感知机(MLP)对待预测三元组的顺序进行分类预测；

S204，重复子步骤S202和S203直至训练完成，从递归自动编码器(RAE)的输出层取出句子的编码向量。

其中，自监督分段步骤用于训练出能将对话文本分割为若干段落的自监督分段模型，具体包括以下子步骤：

S301，如图3中(a)部分所示，对于没有类型标签的对话文本，将对话文本随机划分成若干个段落后对句子进行标注，打乱顺序重新排列，以此构造标注训练集；如图3中(b)部分所示，对于带有类型标签的对话文本，从不同类型的对话抽取段落，拼接排列后构造标注训练集；

S303，利用上述时序自监督编码模型将对话句子转化为编码向量，则段落转化为句子编码向量序列，采用双向长短期记忆网络提取序列的特征，然后将双向长短期记忆网络 (BiLSTM)的输出输入到条件随机场层(CRF)进行分类；

S304，通过分类结果将对话文本划分为若干段落。

其中，无监督主题聚类步骤用于将相同主题的段落聚到同一类别集合中，具体包括以下子步骤：

S403，重复S402直至遍历全部对话文本段落。

其中，编解码生成式摘要步骤用于主题段落编解码生成文本摘要，具体包括以下子步骤：

本实施例中，如图4所示，还提供一种自监督的对话文本摘要系统，用于实施上述的自监督的对话文本摘要方法，系统包括中文分词模块，词嵌入模块，自监督编码模块，自监督分段模块，聚类模块，摘要生成模块。

其中，中文分词模块集成有开源分词工具，用于将中文字符序列转化为单词序列。词嵌入模块集成有开源预训练词嵌入模型，用于将文本单词转化成语义向量编码。自监督编码模块集成有时序自监督编码模型，用于将对话句子编码为语义向量。自监督分段模块集成有自监督分段模型，用于将对话文本分割为若干段落。聚类模块集成有无监督聚类算法，用于将相同主题的段落聚到同一类别集合中。摘要生成模块集成有编解码摘要模型及主题段落排列算法，用于将主题段落编解码生成文本摘要。

本实施例中，一种自监督的对话文本摘要系统的运行流程包括：首先获取对话文本集合，通过中文分词模块将中文字符序列转化为单词序列，运行词嵌入模块将文本单词转化成语义向量编码，并通过通过自监督编码模块将对话句子编码为语义向量，将编码向量传入自监督分段模块，将对话文本分割为若干段落，再利用聚类模块将相同主题的段落聚到同一类别集合中，最后通过摘要生成模块将主题段落编解码生成文本摘要。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.一种自监督的对话文本摘要方法，其特征在于，包括以下步骤：

文本预处理，将文本字符序列转化为单词序列，并通过词嵌入模型将文本单词转化成语义向量编码；

时序自监督编码，训练出能将对话句子编码为语义向量的自监督编码模型；

自监督分段，训练出能将对话文本分割为若干段落的自监督分段模型；

无监督主题聚类，将相同主题的段落聚到同一类别集合中；

编解码生成式摘要，将主题段落编解码生成文本摘要；

其中，所述时序自监督编码步骤还包括以下子步骤：

S204，重复S202和S203直至训练完成，从递归自动编码器的输出层取出句子的编码向量；

所述自监督分段步骤还包括以下子步骤：

S304，通过分类结果将对话文本划分为若干段落；

所述编解码生成式摘要步骤还包括以下子步骤：

S503，每个主题包含一个或多个段落，每个段落包含多个对话句，假设主题中共包含n个对话句子，line_i表示句子(A_i,B_i)在原文中的行号，||D||表示原文总行数，则计算出整个主题的相对位置，计算如下式所示：

2.根据权利要求1所述的一种自监督的对话文本摘要方法，其特征在于，所述文本预处理步骤还包括以下子步骤：

3.根据权利要求1所述的一种自监督的对话文本摘要方法，其特征在于，所述无监督主题聚类步骤中还包括以下子步骤：

S403，重复S402直至遍历全部对话文本段落。

4.一种自监督的对话文本摘要系统，基于权利要求1-3任意一项所述的一种自监督的对话文本摘要方法，其特征在于，包括：

中文分词模块，集成开源分词工具，用于将中文字符序列转化为单词序列；

词嵌入模块，集成开源预训练词嵌入模型，用于将文本单词转化成语义向量编码；自监督编码模块，集成时序自监督编码模型，用于将对话句子编码为语义向量；自监督分段模块，集成自监督分段模型，用于将对话文本分割为若干段落；

聚类模块，集成无监督聚类算法，用于将相同主题的段落聚到同一类别集合中；摘要生成模块，集成编解码摘要模型及主题段落排列算法，用于将主题段落编解码生成文本摘要。