CN109189901A

CN109189901A - 一种智能客服系统中自动发现新分类以及对应语料的方法

Info

Publication number: CN109189901A
Application number: CN201810901452.5A
Authority: CN
Inventors: 罗通; 赵开云; 靳丁南; 权圣
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2019-01-11
Anticipated expiration: 2038-08-09
Also published as: CN109189901B

Abstract

本发明公开了一种智能客服系统中自动发现新分类以及对应语料的方法，包括以下步骤：使用大规模标注语料，采用神经网络模型，建立一个分类器，并基于该分类器构造句向量模型；使用其他公开数据集或者会话语料训练得到词向量；针对所有无标注语料集合进行语料清洗和打分排序，过滤掉噪声数据获得候选余料；对候选语料提取一系列特征，用于后续聚类；对候选语料进行聚类；对得到的候选语料的中每个类簇筛选；对得到的有效类簇集合生成新分类类别名及推荐问。可以自动的收集系统无法应答的用户语料，找出业务相关的有明确用户意图的语料，同时给出每条语料的意图分类标签，然后输出展示给企业用户，满足智能客服知识的自动发现需求。

Description

一种智能客服系统中自动发现新分类以及对应语料的方法

技术领域

本发明涉及智能客服领域，具体是一种智能客服系统中自动发现新分类以及对应语料的方法。

背景技术

在智能客服系统中，随着业务和用户的增加，会不断出现带有新的意图的咨询问题，智能客服系统中，为了从无法应答语料寻找用户意图以及相关语料，一般采用如下方法：通过从线上收集相关语料，保存到线下，由数；据分析师初步分析问题的业务相关性后，再交给标注人员进行标注审核，交给数据分析师进行分析，从而得到有效的新用户意图和对应的语料，同时找出用户推荐问等数据，再上传到线上系统。

需要人工将语料从线上导出到线下，处理标记完成再导回到线上。

现有技术手段主要是以人工标记为主，仍然依赖大量的人力工作，同时需要转业的数据分析师和标注人员。

人工标记成本高昂，一般小公司难以承担；

人工标记效率低下，为了准确找出用户意图和对应的语料，需要耗费大量工时；

人工标记时效性差，等到相应的数据分析师和标注人员能够响应时，此时未识别到用户意图的问题可能已经对智能客服系统的解决率等指标产生了严重的影响，并且语料内容本身可能已经过时；

人工标记质量不保证，不同标记人员的素质和对数据的理解，将直接导致标记样本的质量不一。

发明内容

本发明的目的在于提供一种智能客服系统中自动发现新分类以及对应语料的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种智能客服系统中自动发现新分类以及对应语料的方法，包括以下步骤：

步骤S01：使用大规模标注语料，采用神经网络模型，建立一个分类器，并基于该分类器构造句向量模型；

步骤S02：使用其他公开数据集或者会话语料训练得到词向量；

步骤S03：针对所有无标注语料集合进行语料清洗和打分排序，过滤掉噪声数据获得候选余料；

步骤S04：对候选语料提取一系列特征，用于后续聚类；

步骤S05：对候选语料进行聚类；

步骤S06：对S05步骤中得到的候选语料的中每个类簇筛选；

步骤S07：对S06步骤得到的有效类簇集合生成新分类类别名及推荐问。

作为本发明进一步的方案：构造句向量模型的方法如下：

S01-1，搭建一种基于神经网络的多分类器，该分类模型包含Embedding层、NN层、全连接层以及输出层，其中输出层参数由语料的总体类别决定；NN层为BILSTM、LSTM、GRU、CNN中的一种或几种组合而成，全连接层可包含一层或多层，且最后一层全连接层为句向量层。

S01-2，使用标注语料进行训练，得到多分类模型；

S01-3，将多分类模型的输出层去除，得到句向量模型。

作为本发明进一步的方案：过滤方法步骤如下：

S03-1，过滤掉不包含中文的语料；

S03-2，使用Okapi BM25、TFIDF一种或两种算法，对每一条语料进行打分，然后根据分值按照降序进行排列，选择一定比例的语料，作为后续步骤的候选语料。

作为本发明进一步的方案：候选语料提取方法如下：

S04-1，使用TFIDF算法获得文本向量，然后使用PCA进行降维，或直接使用TFIDF特征；

S04-2，使用主题模型LDA训练语料，得到每个样本的主题特征；

S04-3，使用下面两种方式之一得到句向量：

使用S01得到句向量模型，输入分词后的候选语料，得到每条语料的句向量；

对语料进行分词后，使用S02得到词向量模型，查询得到每个词的词向量，然后针对每条语料，对该条语料的每个词的词向量进行累加或者求平均，得到句向量。

作为本发明进一步的方案：聚类方法如下：

S05-1，在TFIDF特征和主题特征中选择0，1或2个，与句向量特征组合到一起，作为下一步聚类的特征，或者直接计算，得到文本之间的距离，聚类所用特征选择使用两种方式任意一种或者两种都使用，两种方法分别如下：

直接将多种特征进行拼接；

每个特征计算各自的距离后，以一定的权重累加后作为句子之间的距离；

S05-2，使用上一步得到的文本特征或者距离，使用某种聚类算法，完成候选语料的聚类。

作为本发明进一步的方案：候选语料的中每个类簇筛选方法如下：

S06-1，计算类簇内每条语料到其簇中心向量的距离，然后对距离求均值，作为整个类簇的打分；

S06-2，统计每个类簇的样本个数；针对类簇样本个数和每个了类簇的打分，选择合适的阈值，对类簇进行筛选，得到最终的有效类簇。

作为本发明再进一步的方案：针对S06得到的有效类簇集合的每一个簇，生成新分类类别名及推荐问的方法：

S07-1，按照语料到其簇中心的距离，对语料进行升序排序；

S07-2，为新发现的分类自动生成分类名，采用抽取式实现，有如下两种方式：

抽取句子，选择离簇中心距离最短的5个句子，遍历每条句子，当句子去除停用词后，其长度大于0，则使用该句作为该类簇的用户意图；

抽取关键词，使用互信息和公共子串，使用一定的熵门限，找出最大公共非连续子串，作为新的用户意图；

S07-3，采用S07-2中抽取句子的方式，为该类簇找出推荐问。

与现有技术相比，本发明的有益效果是：可以自动的收集系统无法应答的用户语料，找出业务相关的有明确用户意图的语料，同时给出每条语料的意图分类标签，然后输出展示给企业用户，满足智能客服知识的自动发现需求。

整体而言，因为整个无法应答语料的意图类别生成过程可以通过一套软件程序实现，一旦运行不再需要投入人工成本，所以能节约大量人力资源，同时极大提高了语料的筛选标记效率。

附图说明

图1为一种智能客服系统中自动发现新分类以及对应语料的方法的流程示意图。

图2为一种智能客服系统中自动发现新分类以及对应语料的方法的应用流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中，一种智能客服系统中自动发现新分类以及对应语料的方法，包括以下步骤：

步骤S01：使用大规模标注语料，采用神经网络模型，建立一个分类器，并基于该分类器构造句向量模型，其构建方法如下：

S01-1，搭建一种基于神经网络的多分类器，该分类模型包含Embedding层、NN层、全连接层以及输出层，其中输出层参数由语料的总体类别决定，NN层为BILSTM、LSTM、GRU、CNN中的一种或几种组合而成，全连接层可包含一层或多层，且最后一层全连接层为句向量层。

S01-2，使用标注语料进行训练，得到多分类模型。

S01-3，将多分类模型的输出层去除，得到句向量模型。

步骤S02：使用其他公开数据集或者会话语料训练得到词向量。

步骤S03：针对所有无标注语料集合进行语料（即智能客服系统中，无法应答的用户问题集合）清洗和打分排序，过滤掉噪声数据；过滤方法步骤如下：

S03-1，过滤掉不包含中文的语料。

步骤S04：对候选语料提取一系列特征，用于后续聚类，提取方法如下：

S04-1，使用TFIDF算法获得文本向量，然后可选择使用PCA进行降维，亦可以直接使用TFIDF特征。

S04-2，使用主题模型LDA训练语料，得到每个样本的主题特征。

S04-3，使用下面两种方式之一得到句向量：

使用S01得到句向量模型，输入分词后的候选语料，得到每条语料的句向量。

步骤S05：对候选语料进行聚类，聚类方法如下：

直接将多种特征进行拼接。

每个特征计算各自的距离（距离计算方式可选择cosin距离，欧式距离等各种计算向量距离的某一种）后，以一定的权重累加后作为句子之间的距离。

S05-2，使用上一步得到的文本特征或者距离，使用某种聚类算法(如kmeans，层次式聚类，谱聚类等)，完成候选语料的聚类。

步骤S06：对S05步骤中得到的候选语料的中每个类簇筛选，执行如下操作：

S06-2，统计每个类簇的样本个数。针对类簇样本个数和每个了类簇的打分，选择合适的阈值，对类簇进行筛选，得到最终的有效类簇。

步骤S07：对S06步骤得到的有效类簇集合，针对其中的每一个簇，执行以下操作：

S07-1，按照语料到其簇中心的距离，对语料进行升序排序。

抽取句子，选择top5的句子，即离簇中心距离最短的5个句子，遍历每条句子，当句子去除停用词后，其长度大于0，则使用该句作为该类簇的用户意图。

抽取关键词，使用互信息和公共子串，使用一定的熵门限，找出最大公共非连续子串，作为新的用户意图。

S07-3，采用S07-2中抽取句子的方式，为该类簇找出推荐问。

经过以上算法步骤后，不需要人工干预，即可以从智能客服系统日志中大量无法识别出用户意图的语料中筛选出符合机器学习解问题空间所需要的，有效的带标记机器学习样本，且整个过程可以流程化，自动化，持续化，节约大量成本。

下面如图2，智能客服系统中常见的对无法应答的用户问题进行标注为例，应用本发明阐述的方式，对智能客服聊天日志中出现的无法应答的语料，进行有效的聚类等手段，过滤出有明确业务意图的语料，进行用户意图的标注，得到可用于意图分类的语料。

使用大规模标注语料，采用神经网络模型，建立一个分类器，并基于该分类器构造句向量模型，具体如下：

1-1 尽可能得收集各个行业用户问题语料，同时需要带有用户意图标注。

1-2 搭建一种基于神经网络的多分类器，该分类模型包含Embedding层，NN层，全连接层以及输出层，其中输出层参数由语料的总体类别决定，NN层为BILSTM，LSTM，GRU，CNN中的一种或几种组合而成，全连接层可包含一层或多层，且最后一层全连接层为句向量层。使用标注语料进行训练，得到多分类模型。

1-3 将多分类模型的输出层去除，得到句向量模型。

2-1 定期收集智能客服系统中无法解答的用户问题。

2-2 针对所有无法应答语料，过滤掉不包含中文的语料，然后使用Okapi BM25，tfidf某一种或两种算法，对每一条语料进行打分，然后根据分值按照降序进行排列，选择一定比例的语料，作为后续步骤的候选语料。

2-3 对候选语料提取TFIDF，主题特征，句向量等一系列特征。

2-4 使用上一步提取到的，使用某种聚类算法，完成候选语料的聚类。

2-5 对得到的聚类结果，统计计算类簇内语料个数和类簇内语料与类簇中心的平均距离等，对类簇进行过滤。

2-6 针对每个类簇，根据类簇内每个语料与类簇中心的距离，选出top句子作为分类名候选集，通过规则确定分类名，并输出到候选知识库。

2-7 由用户确认候选知识库是否符合真实业务，若符合，则交给用户意图识别模型训练。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种智能客服系统中自动发现新分类以及对应语料的方法，其特征在于，包括以下步骤：

步骤S04：对候选语料提取一系列特征，用于后续聚类；

步骤S05：对候选语料进行聚类；

步骤S06：对S05步骤中得到的候选语料的中每个类簇筛选；

2.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法，其特征在于，构造句向量模型的方法如下：

S01-1，搭建一种基于神经网络的多分类器，该分类模型包含Embedding层、NN层、全连接层以及输出层，其中输出层参数由语料的总体类别决定；

S01-2，使用标注语料进行训练，得到多分类模型；

S01-3，将多分类模型的输出层去除，得到句向量模型。

3.根据权利要求2所述的一种智能客服系统中自动发现新分类以及对应语料的方法，其特征在于，NN层为BILSTM、LSTM、GRU、CNN中的一种或几种组合而成，全连接层可包含一层或多层，且最后一层全连接层为句向量层。

4.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法，其特征在于，过滤方法步骤如下：

S03-1，过滤掉不包含中文的语料；

5.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法，其特征在于，候选语料提取方法如下：

S04-3，使用下面两种方式之一得到句向量：

6.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法，其特征在于，聚类方法如下：

直接将多种特征进行拼接；

7.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法，其特征在于，候选语料的中每个类簇筛选方法如下：

8.根据权利要求1所述的一种智能客服系统中自动发现新分类以及对应语料的方法，其特征在于，针对S06得到的有效类簇集合的每一个簇，生成新分类类别名及推荐问的方法：

S07-1，按照语料到其簇中心的距离，对语料进行升序排序；

S07-3，采用S07-2中抽取句子的方式，为该类簇找出推荐问。