CN111339303A

CN111339303A - 一种基于聚类与自动摘要的文本意图归纳方法及装置

Info

Publication number: CN111339303A
Application number: CN202010152155.2A
Authority: CN
Inventors: 宋子文晗; 江岭
Original assignee: Chengdu Xiaoduo Technology Co ltd
Current assignee: Chengdu Xiaoduo Technology Co ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-06-26
Anticipated expiration: 2040-03-06
Also published as: CN111339303B

Abstract

本发明涉及文本摘要归纳技术领域，具体公开了基于聚类与自动摘要的文本意图归纳方法及装置，具体包括以下步骤：通过抽样选择模块将用户问题分为抽中问题和剩余问题；抽中问题通过预训练特征提取模块和层次聚类模块处理得到K个簇，并计算每个簇的中心向量；剩余问题通过预训练特征提取模块和问题分配模块处理并将用户问题分配到距离最近的簇，完成将所有用户问题分配到K个簇并获得每个簇用户问题的总数；通过摘要提取模块获得每个簇能够代表核心意图；审核、创建、标注和训练模型。本发明只需要对少部分数据进行层次聚类，剩余的数据直接分配到聚类好的距离最近的簇，节省了内存资源和CPU计算资源的占用，提高了层次聚类的速度。

Description

一种基于聚类与自动摘要的文本意图归纳方法及装置

技术领域

本发明涉及文本意图归纳技术领域，具体的说，是一种基于聚类与自动摘要的文本意图归纳方法及装置。

背景技术

随着电商行业的急速发展，网上购物成为了大多数人必不可少的日常，在各大电商平台的商家需要招募大量的客服人员对买家进行答疑解惑，与日俱增的咨询量使得商家对客服机器人的需求逐渐提高。在智能客服领域，意图识别是一个重要任务，旨在理解客服场景中买家发来的问题。而意图识别的实现方式有很多种，传统做法是基于一些规则匹配，后来大家利用机器学习进行相似度匹配、语义分类等。所谓相似度匹配，是针对每一种买家问题的意图设置对应的代表这个意图的常规问法示例，假设有100种意图(“什么时候发货？”、“能否退货？”等)，我们就可以将每一个买家发来的问题与这100种意图对应的问法示例进行相似度匹配，如果匹配度非常高，则认为买家的问题属于该意图。另一种是语义分类，即对每种买家问题的意图定义一个名称，而机器学习或者深度学习模型就学习如何把每一个买家问题分类到正确的意图名称上，比如“我刚刚下单，你们今天可以发货吗？”，则分类到的意图名称为“今天是否能发货”。不论是相似度匹配还是语义分类，我们的首要任务都是发现、定义意图，有了明确的意图，我们就可以将真实的买家问题归类到对应的意图上，并进行后续操作，这里的后续操作是指针对相应意图回复买家答案。

目前业界没有可行的方案，没有在这方面做出应用的企业，且这方面的应用比较原始，基本上靠人力一条一条看买家的问题记录，通过单纯的人工检索来达到发现新的意图的目的。

1.纯人工发现，需要从数十上百万买家问题(短文本)中寻找新的意图(未定义的意图)。耗时耗力，效率低下。

2.人工发现且定义的新意图，依然需要去寻找更多相关买家问题并标注到该意图下，以便后续的模型训练。模型的数据冷启动慢，效率低。

3.人工发现意图时需要不断地思考每一条买家问题的意图，并且在数十万上百万的买家问题中，会在不同位置都发现类似意图的买家问题，需要人工在心里或者手动聚合到一起，并抽象出一个意图。操作繁杂，重复性劳动多。

发明内容

本发明的目的在于提供一种基于聚类与自动摘要的文本意图归纳方法及装置，只需要对少部分数据进行层次聚类，剩余的数据直接分配到聚类好的距离最近的簇，节省了内存资源和CPU计算资源的占用，提高了层次聚类的速度。

本发明通过下述技术方案实现：

一种基于聚类与自动摘要的文本意图归纳方法，具体包括以下步骤：

步骤S1：用户问题通过抽样选择模块将用户问题分为抽中问题和剩余问题；

步骤S2：对于抽中问题依次通过预训练特征提取模块和层次聚类模块处理得到K个簇，并计算每个簇的中心向量；

步骤S3：对于剩余问题依次通过预训练特征提取模块和问题分配模块处理并将每一条用户问题分配到距离最近的簇，完成将所有用户问题都分配到K个簇并获得每个簇用户问题的总数；

步骤S4：针对每个簇通过摘要提取模块进行自动摘要提取，获得能够代表该簇的核心意图的核心问题；

步骤S5：最后以每个簇包含核心问题与该簇的用户问题数目的方式进行审核、创建、标注和训练模型。

进一步地，为了更好的实现本发明，所述步骤S2具体包括以下步骤：

步骤S21：抽中问题经过预训练特征提取模块，输出抽中问题的特征向量并将抽中问题的特征向量进入层次聚类模块；

步骤S22：层次聚类模块对抽中问题的特征向量进行层次聚类运算，随后输出为K个簇，其中每个簇包含若干条相似且极有可能意图等价的用户问题；

步骤S23：计算每个簇的中心向量。

进一步地，为了更好的实现本发明，所述步骤S3具体包括以下步骤：

步骤S31：剩余问题经过预训练特征提取模块，输出剩余问题的特征向量；

步骤S32：计算剩余问题的特征向量与K个簇的中心向量的欧几里得距离；

步骤S33：将剩余问题分别通过问题分配模块分配到欧几里得距离最近的簇；完成将所有用户问题都分配到K个簇并获得每个簇用户问题的总数。

进一步地，为了更好的实现本发明，所述步骤S4具体是指：利用TextRank算法进行计算每个簇中各个用户问题的重要性，最终选择最重要的用户问题作为核心意图，获得每个簇的核心问题。

进一步地，为了更好的实现本发明，所述步骤S1具体是指：设定抽样数为N，N大于全部用户问题包含的意图种类；

当用户问题量≤N时，则不进行抽样，数据直接流入预训练特征提取模块；

当用户问题量大于N时，抽样选择模块对大量用户问题随机抽样N条作为抽中问题，其中大量用户问题为M条，剩下M-N条作为剩余问题。

一种基于聚类与自动摘要的文本意图归纳装置，包括：

抽样选择模块：用于接收客户端发出的用户问题，对用户问题随机抽样，并将用户问题分为抽中问题和剩余问题；

预训练特征提取模块：抽中问题和剩余问题中的每个用户问题先经过预训练特征提取模块处理，被切分为字/词，字/词经过词典匹配转换为编号，并映射到对应的字/词向量，该用户问题对应的字/词向量序列输入句向量编码模块，输出的即为该用户问题的特征向量。

层次聚类模块：将抽中问题的特征向量进行层次聚类运算，随后输出为K个簇，每个簇包含若干条用户问题，每个簇的若干条用户问题为相似且极有可能意图等价；

问题分配模块：将剩余问题中每个用户问题分别分配到与K个簇的中心向量欧几里得距离最近的簇；

摘要提取模块：利用TextRank算法进行计算每个簇中各个用户问题的重要性，最终选择最重要的用户问题作为核心意图。

进一步地，为了更好的实现本发明，所述层次聚类模块包括：

距离计算模块：采用欧几里得距离计算方式和矩阵乘法计算计算出N个特征向量之间的欧氏距离；

层次聚类算法模块：将N个特征向量所对应的簇，通过寻找该簇欧几里得距离最近的另一个簇，通过簇与簇之间不断地合并，直到所有的簇之间都无法满足小于阈值T的平均距离范围，则聚类完成并得到K个簇，其中N＞K。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明通过抽样选择模块只需要对少部分数据进行层次聚类，剩余的数据直接分配到聚类好的距离最近的簇，节省了内存资源和CPU计算资源的占用，提高了层次聚类的速度；

(2)本发明通过摘取模块，将每个簇的所有用户问题当成一篇文章，提取文章的摘要，旨在从簇中提取该簇表达的核心意图，有效的缩短发现意图的时间，提高工作效率。

附图说明

图1为本发明的工作流程图；

图2为本发明中预训练特征提取模块的工作流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

本发明通过下述技术方案实现，如图1、图2所示，一种基于聚类与自动摘要的文本意图归纳方法，具体包括以下步骤：

需要说明的是，通过上述改进，用户问题来自于电商领域中大量的客服和买家的对话中买家问题，他们是电商卖家的用户，用户问题多为十几个到三十几字的疑问句或陈述句，且大多数都包含至少一个意图，即每一个用户问题都至少含有一种意图，这种意图是向客服表明对商品、对售后以及对物流等具体某一个细节的咨询。

本发明将用户问题通过抽样选择分为抽中问题和剩余问题，对于抽中问题通过预训练特征提取模块将该用户问题以特征向量的形式输出给层次聚类模块，该特征向量用于代表该用户问题的全部信息，例如句式、句意等等；层次聚类模块将用户问题的特征向量进行计算，得到K个簇，其中每个簇包含若干条用户问题，意即每个簇的若干条用户问题为相似且极有可能意图等价；在当抽中问题中的用户问题被聚集为K个簇后，计算出每个簇的中心向量，即代表这个簇的中心的向量，是利用簇内所有用户问题的特征向量的平均值计算出来；剩余问题经过预训练特征提取模块转化为剩余问题的特征向量，剩余问题的特征向量再与K个簇的中心向量分别计算欧几里得距离，将剩余问题中每个用户问题到欧几里得距离最近的簇，直到所有的剩余问题均被分配到K个簇，并获得每个簇的用户总数；为了进一步提炼每个簇的核心意图，也就是给人工智能训练师更精准地推荐新意图以及其待标注样本。针对每一个簇，利用摘要提取模块进行自动摘要提取，对每一个簇提取最重要、最能代表这个簇的核心意图的用户问题，减少人工智能训练师浏览数据量，进而大大提高发现、创建新意图的效率。

实施例2：

本实施例在上述实施例的基础上做进一步优化，如图1、图2所示，进一步地，为了更好的实现本发明，所述步骤S2具体包括以下步骤：

步骤S23：计算每个簇的中心向量。

需要说明的是，通过上述改进，图2所示，预训练特征提取模块为基于神经网络的深度学习模型，是提前用大量已标注过意图分类的电商领域用户问题训练过的分类模性，该模型由长短期记忆网络(LSTM)、卷积神经网络(CNN)、两个线性层(DenseLayer)以及softmax 函数组成，去除该模型的最后一个“线性层2”和softmax函数，则可以被认为是句向量编码模块。用户问题先经过预处理，被切分为字或/和词，字或/和词经过词典匹配转换为编号，并映射到对应的字或/和词向量，该用户问题对应的字或/和词向量序列输入句向量编码模块，输出的即为该用户问题的特征向量，可以代表该用户问题的全部信息(包括句式、句意)。

预训练特征提取可以为现有比较出名的BERT、GPT等大型自然语言预训练模型，也可以为基于电商对话领域数据训练的有监督学习的预训练模型(如Bi-LSTM、CNN等网络结构为基础的分类模性)。

随后N条用户问题特征向量进入层次聚类模块，在层次聚类模块中会进行层次聚类运算，随后输出为K个簇，每个簇包含若干条用户问题，意即每个簇的若干条用户问题为相似且极有可能意图等价。

层次聚类模块包含两个部分：1、距离计算模块2、层次聚类算法模块；

距离计算模块采用欧几里得距离计算方式(欧氏距离)，为了以最快的速度计算出N个向量之间的欧氏距离，这里采用矩阵乘法计算。假设两个用户问题的特征向量分别为a和b， a＝(a₁,a₂,a₃,···a_d),b＝(b₁,b₂,b₃,···b_d)则这两个用户问题的欧氏距离的平方如下。这里不做开方是为了节省运算，比较距离只需要比较相对距离，而不需要知道绝对距离的数值；

这种普通的欧式距离计算方式较慢，于是经过简化为矩阵运算：

也就是说欧氏距离和余弦相似度存在上述关系，则利用矩阵乘法的形式来计算欧氏距离，利用矩阵乘法一次性计算N个点相互之间N(N-1)/2个距离。

层次聚类算法一开始把N个特征向量都当作单独的簇，找到距离单独的簇最近的另一个单独的簇，两两合并为新的簇，且合并的两个单独的簇之间的平均距离要小于一个阈值T，这样，即使两个单独的簇互为最近的簇，但如果阈值超过T，则无法合并为新的簇，各自为独立的簇。这样簇与簇之间不断地合并，直到所有的簇之间都无法满足小于阈值T的平均距离范围，则聚类完成。

当用户问题被聚集为K个簇后，计算出每个簇的中心向量；每个簇的中心向量代表这个簇的中心的向量，是利用簇内所有用户问题的特征向量的平均值计算出来的。

层次聚类可以换成其他的聚类算法，但需要提前指定簇的个数K：K-Means(K均值)、 EM算法。

本实施例的其他部分与上述实施例相同，故不再赘述。

实施例3：

本实施例在上述实施例的基础上做进一步优化，如图1所示，进一步地，为了更好的实现本发明，所述步骤S3具体包括以下步骤：

需要说明的是，通过上述改进，剩余问题经过预训练特征提取模块转化为M-N条用户问题的特征向量，再与K个簇的中心向量分别计算欧几里得距离，然后把剩余问题中每一条用户问题分配到距离最近的簇。就此，所有的用户问题都被分配到K个簇，且也获知每个簇的用户问题总数。

本实施例的其他部分与上述实施例相同，故不再赘述。

实施例4：

本实施例在上述实施例的基础上做进一步优化，如图1所示，进一步地，为了更好的实现本发明，所述步骤S4具体是指：利用TextRank算法进行计算每个簇中各个用户问题的重要性，最终选择最重要的用户问题作为核心意图，获得每个簇的核心问题。

需要说明的是，通过上述改进，为了进一步提炼每个簇的核心意图，也就是给人工智能训练师更精准地推荐新意图以及其待标注样本。针对每一个簇，利用摘要提取模块进行了自动摘要提取，对每一个簇提取最重要、最能代表这个簇的核心意图的用户问题，减少人工智能训练师浏览数据量，进而大大提高发现、创建新意图的效率。

摘要提取模块是一种摘要算法，主要利用TextRank算法进行计算簇中各个用户问题的重要性，最终选择最重要的用户问题作为核心意图。TextRank算法来源于PageRank算法，主要思想是一个网页如果被越多的网页所指向，则这个网页越重要，而这个网页如果被价值很高的网页所指向那说明这个网页也很重要。同理，如果簇中一个句子和其他所有句子相似度的相似度之和很高，说明这个句子比较能代表这些句子的共同特点，它的重要性就越高，以及如果一个句子和某个重要性很高的句子的相似度很高，那么这个句子也很重要。基于这个原理，则有

上式中，WS代表句子的重要性，V表示簇中的句子或者叫作用户问题，In(V_i)代表指向用户问题i的其他句子，在这里一个簇中的用户问题之间都相互连接。Out(Vj)是用户问题j 指出去的连接。w是权重，在这里表示两个用户问题之间的相似度。d是阻尼系数，是用来调节重要性的参数。

最终该算法对每一个簇中的所有句子算出了重要性，以最重要的句子作为摘要；摘要在这里作为该簇的核心意图提供给人工智能训练师参考。

自动摘要使用的TextRank算法，可以替换为其他的摘要算法：a.取聚类后簇中心最近的用户问题作为摘要b.利用序列摘要抽取算法，从文本中抽取重要的词句组合成摘要c.利用深度学习的生成式模型自动生成摘要。

最终，以每个簇包含一句核心意图的用户问题与该簇的用户问题总数的方式来展示给人工智能训练师进行审核，通过观察用户问题总数来确定是否为高频问题，以及通过一句话总结的簇的核心意图帮助创建、标注和训练模型。

本实施例的其他部分与上述实施例相同，故不再赘述。

实施例5：

本实施例在上述实施例的基础上做进一步优化，如图1所示，进一步地，为了更好的实现本发明，所述步骤S1具体是指：设定抽样数为N，N大于全部用户问题包含的意图种类；

当用户问题量≤N时，则不进行抽样，数据直接流入预训练特征提取模块中进行处理，得到该用户问题的特征向量；

需要说明的是，通过上述改进，抽样选择模块是一种划分用户问题的装置，设定一个抽样数为N；一般来说，N大于全部用户问题包含的意图种类，电商问答中，意图种类一般不会超过一千个；另一方面，抽样的方式为对全部问题进行随机乱序，取前N个用户问题；当用户问题量小于等于N，则不进行抽样，数据直接流入下一步；

否则，抽样选择模块会对大量用户问题(M条，M>N)随机抽样N条作为抽中问题，剩下 M-N条作为剩余问题。对于抽中问题，会经过预训练特征提取模块进行处理，得到输出N条用户问题的特征向量。

本实施例的其他部分与上述实施例相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于聚类与自动摘要的文本意图归纳方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种基于聚类与自动摘要的文本意图归纳方法，其特征在于，所述步骤S2具体包括以下步骤：

步骤S22：层次聚类模块对抽中问题的特征向量进行层次聚类运算，随后输出为K个簇，其中每个簇包含若干条相似且意图等价的用户问题；

步骤S23：计算每个簇的中心向量。

3.根据权利要求2所述的一种基于聚类与自动摘要的文本意图归纳方法，其特征在于，所述步骤S3具体包括以下步骤：

4.根据权利要求3所述的一种基于聚类与自动摘要的文本意图归纳方法，其特征在于，所述步骤S4具体是指：利用TextRank算法进行计算每个簇中各个用户问题的重要性，最终选择最重要的用户问题作为核心意图，获得每个簇的核心问题。

5.根据权利要求4所述的一种基于聚类与自动摘要的文本意图归纳方法，其特征在于，所述步骤S1具体是指：设定抽样数为N，N大于全部用户问题包含的意图种类；

6.根据权利要求1-5任一项所述的一种基于聚类与自动摘要的文本意图归纳装置，其特征在于，包括：

预训练特征提取模块：抽中问题和剩余问题中的每个用户问题先经过预训练特征提取模块处理，被切分为字/词，字/词经过词典匹配转换为编号，并映射到对应的字/词向量，该用户问题对应的字/词向量序列输入句向量编码模块，输出的即为该用户问题的特征向量；

7.根据权利要求6所述的一种基于聚类与自动摘要的文本意图归纳装置，其特征在于，所述层次聚类模块包括：