CN112100327B

CN112100327B - 一种基于综合特征提取的对话摘要生成方法及系统

Info

Publication number: CN112100327B
Application number: CN202010896670.1A
Authority: CN
Inventors: 宋晓; 韩道麟; 周军华; 魏宏夔; 姬杭; 施国强
Original assignee: Beihang University; Beijing Institute of Electronic System Engineering
Current assignee: Beihang University; Beijing Institute of Electronic System Engineering
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2022-05-31
Anticipated expiration: 2040-08-31
Also published as: CN112100327A

Abstract

本发明公开一种基于综合特征提取的对话摘要生成方法，涉及信息处理技术领域，包括：获取对话数据；对所述对话数据进行词性标注和命名实体识别，得到候选词；对所述对话数据利用数理统计法进行特征提取，得到词特征；将所述词特征进行拼接得到特征向量；根据所述特征向量和所述候选词利用无监督算法得到第一关键词；根据所述特征向量和所述候选词利用有监督算法得到第二关键词；根据所述第一关键词和所述第二关键词生成对话摘要。本发明提供的方法及系统能够提高复杂对话场景的对话摘要的生成质量。

Description

一种基于综合特征提取的对话摘要生成方法及系统

技术领域

本发明涉及信息处理技术领域，特别是涉及一种基于综合特征提取的对话摘要生成方法及系统。

背景技术

目前对于自动摘要问题，研究者主要采用机器学习、深度学习和特征工程的方法。有研究学者采用频率、情绪、语义单方面特征，使用SVM和决策树提取对话摘要，实验证明在聊天摘要任务中决策树优于SVM；一些学者提出了一种Pointer-Generator网络以解决摘要问题；还有学者提出了一种基于RNN的SummaRuNNer网络模型以解决文档摘要问题；另有学者提出了一种基于对话行为选择的Sentence-Gated模型；此外，某些研究机构基于辅助要点序列提出了一种Leader-Writer网络解决摘要生成问题，可以让客服对话摘要的生成更具有完整性、逻辑性与正确性。近年来的研究主要集中于深度学习的方法，取得了较好的成果，但是相较于经典的机器学习方法(比如K近邻、决策树等)，深度学习方法的训练、测试复杂度更高，对于数据复杂度高的情况，对话摘要的生成质量不够理想。

发明内容

本发明的目的是提供一种基于综合特征提取的对话摘要生成方法及系统，以提高复杂对话场景的对话摘要的生成质量。

为实现上述目的，本发明提供了如下方案：

一种基于综合特征提取的对话摘要生成方法，包括：

获取对话数据；

对所述对话数据进行词性标注和命名实体识别，得到候选词；

对所述对话数据利用数理统计法进行特征提取，得到词特征；

将所述词特征进行拼接得到特征向量；

根据所述特征向量和所述候选词利用无监督算法得到第一关键词；

根据所述特征向量和所述候选词利用有监督算法得到第二关键词；

根据所述第一关键词和所述第二关键词生成对话摘要。

可选的，所述将所述词特征进行拼接得到特征向量，具体包括：

根据所述词特征利用如下公式进行拼接得到特征向量；

v_i＝[x₁,x₂,...,x_j]

其中，v_i为词i的特征向量，x₁～x_j表示词特征；j表示第j个词特征。

可选的，所述根据所述特征向量和所述候选词利用无监督算法得到第一关键词，具体包括：

根据所述特征向量利用如下公式确定词的分数；

其中，x_i,j为词i的特征向量中的第j个特征，x_min,j为所有词中第j个特征的最小值，x_max,j为所有词中第j个特征的最大值，k为词特征的个数，S_i为词i无监督算法取得的分数；

将分数在第一设定阈值范围内对应的词确定为第一关键词。

可选的，所述根据所述特征向量和所述候选词利用有监督算法得到第二关键词，具体包括：

采用C4.5决策树算法对特征向量进行有监督学习，得到特征向量的得分；

将特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词。

可选的，所述根据所述第一关键词和所述第二关键词生成对话摘要，具体包括：

根据所述第一关键词生成第一摘要；

根据所述第二关键词生成第二摘要；

根据ROUGE指标分别计算所述第一摘要和所述第二摘要的得分；

将得分高的摘要确定为最终对话摘要。

可选的，所述根据ROUGE指标分别计算所述第一摘要和所述第二摘要的得分，具体包括：

利用如下公式计算所述第一摘要的得分，

其中，S₁为第一摘要，ref₁为第一数据集的标签集，cand₁为第一摘要候选词集合，(n-gram)₁为第一摘要选取的词长度，Countmatch₁为计算第一摘要中的(n-gram)₁出现在第一数据集的标签集中的数量的函数，CountClip₁为计算第一摘要中的(n-gram)₁出现在第一摘要候选词集合中的数量的函数，F₁为第一摘要的ROUGE指标的最终得分，P_1n为第一摘要ROUGE指标的准确率，R_1n为第一摘要ROUGE指标的召回率，Count₁为计算第一摘要中的(n-gram)₁出现的数量的函数；

利用如下公式计算所述第二摘要的得分，

其中，S₂为第二摘要，ref₂为第二数据集的标签集，cand₂为第二摘要候选词集合，(n-gram)₂为第二摘要选取的词长度，Countmatch₂为计算第二摘要中的(n-gram)₂出现在第二数据集的标签集中的数量的函数，CountClip₂为计算第二摘要中的(n-gram)₂出现在第二摘要候选词集合中的数量的函数，F₂为第二摘要的ROUGE指标的最终得分，P_1n为第二摘要ROUGE指标的准确率，R_2n为第二摘要ROUGE指标的召回率，Count₂为计算第二摘要中的(n-gram)₂出现的数量的函数。

一种基于综合特征提取的对话摘要生成系统，包括：

数据获取模块，用于获取对话数据；

候选词获取模块，用于对所述对话数据进行词性标注和命名实体识别，得到候选词；

特征提取模块，用于对所述对话数据利用数理统计法进行特征提取，得到词特征；

拼接模块，用于将所述词特征进行拼接得到特征向量；

第一关键词获取模块，用于根据所述特征向量和所述候选词利用无监督算法得到第一关键词；

第二关键词获取模块，用于根据所述特征向量和所述候选词利用有监督算法得到第二关键词；

对话摘要生成模块，用于根据所述第一关键词和所述第二关键词生成对话摘要。

可选的，所述第一关键词获取模块，具体包括：

第一关键词分数确定单元，用于根据所述特征向量利用如下公式确定词的分数；

第一关键词确定单元，用于将分数在第一设定阈值范围内对应的词确定为第一关键词。

可选的，所述第二关键词获取模块，具体包括：

第二关键词得分确定单元，用于采用C4.5决策树算法对特征向量进行有监督学习，得到特征向量的得分；

第二关键词确定单元，用于将特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种基于综合特征提取的对话摘要生成方法及系统，对话摘要生成方法采用有监督算法和无监督算法进行关键词提取，算法的复杂度较低，对复杂对话场景时的适应性更高。通过将词特征拼接得到特征向量，再通过有监督算法和无监督算法进行关键词提取，从而生成对话摘要，提高了生成对话摘要的质量。并且对话摘要生成方法的运行速度快，具有更好的实时性，更适用于在线应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于综合特征提取的对话摘要生成方法流程图；

图2为本发明一种基于综合特征提取的对话摘要生成方法流程示意图；

图3为本发明一种基于综合特征提取的对话摘要生成系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的一种基于综合特征提取的对话摘要生成方法，包括：

步骤101：获取对话数据。

步骤102：对对话数据进行词性标注和命名实体识别，得到候选词。

步骤103：对对话数据利用数理统计法进行特征提取，得到词特征。

步骤104：将词特征进行拼接得到特征向量。

步骤104，具体包括：

根据词特征利用如下公式进行拼接得到特征向量，

v_i＝[x₁,x₂,...,x_j]

步骤105：根据特征向量和候选词利用无监督算法得到第一关键词。

步骤105，具体包括：

根据特征向量利用如下公式确定词的分数，

其中，x_i,j为词i的特征向量中的第j个特征，x_min,j为所有词中第j个特征的最小值，x_max,j为所有词中第j个特征的最大值，k为词特征的个数，S_i为词i无监督算法取得的分数。

将分数在第一设定阈值范围内对应的词确定为第一关键词。

步骤106：根据特征向量和候选词利用有监督算法得到第二关键词。

步骤106，具体包括：

采用C4.5决策树算法对特征向量进行有监督学习，得到特征向量的得分。

步骤107：根据第一关键词和第二关键词生成对话摘要。

步骤107，具体包括：

根据第一关键词生成第一摘要。

根据第二关键词生成第二摘要。

根据ROUGE指标分别计算第一摘要和第二摘要的得分。

将得分高的摘要确定为最终对话摘要。

其中，根据ROUGE指标分别计算第一摘要和第二摘要的得分，具体包括：

利用如下公式计算第一摘要的得分，

利用如下公式计算第二摘要的得分，

如图2所示，本发明还提供一种基于综合特征提取的对话摘要生成方法的具体方式，包括：

步骤1：将对话数据进行文本预处理，将对话分为用户和非用户两部分，并对每一句话进行分词、去除停用词和数字、统一大小写操作。

步骤2：使用斯坦福工具包(StanfordNLP toolkit)对步骤1中预处理过的数据进行词性标注和命名实体识别。并将识别出的名词和实体挑选出来作为候选词。

步骤3：以文本中的词为单位设计16种特征，基于数理统计的方法从词和词之间、词和段落之间、词和对话共现图三个方面综合提取步骤1中得到的候选词的词特征。词特征包括16种，具体如下：

1)词频：当前对话中词出现的次数，该特征为整数形式。

2)词频-逆文本频率：TF-IDF(Term frequency-inverse document frequency)，该特征为整数形式。

3)词长，该特征为整数形式。

4)词是否大写，该特征为0/1形式。

5)实体长度：包涵该词的实体对应的长度，该特征为整数形式。

6)在对话两次是否出现：该词是否在对话两侧都出现，该特征为0/1形式。

7)在对话两侧是否连续出现：该词是否在对话两侧都连续出现，该特征为0/1形式。

8)词段落差：该词首次出现和最后一次出现之间的段落差，该特征为整数形式。

9)词两侧段落差：该词第一次出现在对话两方的单句距离差，该特征为整数形式。

10)包涵该词最长段落词汇量，该特征为整数形式。

11)该词是否出现在第一段，该特征为0/1形式。

12)包涵该词的段落数量，该特征为整数形式。

13)包涵该词的段落平均长度，该特征为整数形式。

14)该词在所有段落中的平均位置，该特征为整数形式。

15)度数(degree)：在共现图中词节点链接的边数，该特征为整数形式。

16)核数(coreness)：假设原对话生成的共现图为G且其子图都为H。如果所有H中的节点至少都有K条边，则称H为一个K核的子图。该特征为整数形式。

步骤4：将步骤3中得出的词特征进行拼接生成特征向量v_i。

v_i＝[x₁,x₂,...,x₁₆]

其中v_i为词i的特征向量，x₁～x₁₆为步骤3中求取出的16个特征。将该特征向量作为输入进行有监督/无监督算法排序。

对于无监督方法具体包括，根据步骤3中提取候选词的特征向量进行归一化处理后求和。并将得分最高的前n个词作为当前对话文本的关键词输出，得到第一关键词。

其中x_i,j为词i的特征向量中的第j个特征，x_min,j为所有词中第j个特征的最小值。x_max,j为所有词中第j个特征的最大值。S_i为词i无监督算法取得的分数。

对于有监督方法，使用C4.5决策树对特征向量进行有监督学习，得到特征向量的得分。将特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词，使用0/1标签判断候选词是否为关键词，其中1代表特征向量的得分在第二设定阈值范围内，确定为关键词，0代表特征向量的得分不在第二设定阈值范围内，不是关键词。

步骤5：根据步骤4中得到的关键词生成对话摘要。根据第一关键词生成第一摘要，根据第二关键词生成第二摘要。第一摘要和第二摘要通过ROUGE指标计算得分。ROUGE指标的计算公式如下所示。

其中S代表当前生成的摘要，ref代表数据集的标签集，cand代表步骤二中生成的候选词集合。n-gram当前摘要选取的词长度(一般设定为5)。Countmatch为计算当前生成摘要中的n-gram出现在数据集的标签集中的数量的函数。CountClip为计算当前生成摘要中的n-gram出现在候选词集合中的数量的函数。F为ROUGE指标的最终得分。选取第一摘要和第一摘要中ROUGE指标得分较高的摘要作为最终生成的对话摘要。

如图3所示，本发明提供的一种基于综合特征提取的对话摘要生成系统，包括：

数据获取模块301，用于获取对话数据。

候选词获取模块302，用于对对话数据进行词性标注和命名实体识别，得到候选词。

特征提取模块303，用于对对话数据利用数理统计法进行特征提取，得到词特征。

拼接模块304，用于将词特征进行拼接得到特征向量。

第一关键词获取模块305，用于根据特征向量和候选词利用无监督算法得到第一关键词。

第二关键词获取模块306，用于根据特征向量和候选词利用有监督算法得到第二关键词。

对话摘要生成模块307，用于根据第一关键词和第二关键词生成对话摘要。

第一关键词获取模块305，具体包括：

第一关键词分数确定单元，用于根据特征向量利用如下公式确定词的分数，

第二关键词获取模块306，具体包括：

第二关键词得分确定单元，用于采用C4.5决策树算法对特征向量进行有监督学习，得到特征向量的得分。

本发明提供的方法和系统，首先将真实场景产生的对话数据进行文本预处理，再进行综合特征提取、候选关键词提取，根据提取到的特征使用有监督/无监督算法对候选词进行排序，生成对话摘要。在特征提取环节，提出了多种新式特征，包括新提出的特征和在对话摘要任务中前人未使用过的已提出特征。本发明提供的方法和系统具有以下优势：

1、相较于深度学习方法，本发明采用特征工程进行综合特征提取，采用了16种特征描述文本信息，避免了深度学习方法对于复杂文本不能很好提取文本语义信息，从而影响端到端训练的问题。

2、相较于深度学习方法，本发明采用的有监督/无监督算法复杂度更低，在面向复杂对话场景时适应性更高。

3、相比较于深度学习方法，本发明在面对复杂对话数据时的生成摘要的质量更高。

4、相较于深度学习方法，本发明提出的方法运行速度更快，具有更好的实时性，适于在线应用。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。