CN108710651B

CN108710651B - 一种大规模客户投诉数据自动分类方法

Info

Publication number: CN108710651B
Application number: CN201810431307.5A
Authority: CN
Inventors: 胡金龙; 曹丽洁; 何杏萍; 董守斌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2022-03-25
Anticipated expiration: 2038-05-08
Also published as: CN108710651A; WO2019214133A1

Abstract

本发明公开了一种大规模客户投诉数据自动分类方法，包括以下步骤：收集投诉文本数据，并进行预处理；构建第一投诉分类器和第二投诉分类器；根据过滤规则，满足过滤规则分配第一分类标签；不满足过滤规则使用第一投诉分类器进行分类；有第一分类标签的投诉文本数据，没有对应第二投诉分类器，且第一分类标签条目大于第一门限值，则增加一个第二投诉分类器，进行再分类，得到第二分类标签；有对应第二投诉分类器，进行再分类，得到第二分类标签；本发明构建分类器，将投诉文本数据转化为向量，进行分类，通过生成特征词表和TF‑IDF权重值进行聚类和再分类，从而对投诉文本数据进行多层分类，实现快速而准确的对投诉数据文本进行分类。

Description

一种大规模客户投诉数据自动分类方法

技术领域

本发明涉及数据处理研究领域，特别涉及一种大规模客户投诉数据自动分类方法。

背景技术

客户投诉是客户对一个企业在产品质量、服务水平、服务态度等多方位问题的集中式反馈的具体表现，也是企业收集客户意见、整理客户建议的有效途径；因此，高效的客户投诉数据分类方法，能够及时洞察和发现客户投诉信息的变化，提高客户管理的相应速度和服务水平。

随着移动互联网技术及应用的发展，可以通过微信、移动应用程序等方式快速地进行投诉，这也就产生大量的、非结构化的客户投诉文本数据，而且，随着语音识别技术的发展，大量的客户投诉语音可以快速的被识别为文本数据，这时，就需要对其文本数据进行及时处理，并准确地挖掘海量投诉文本信息中所蕴含的各种问题；而现有技术难以适应新的需求，会造成大量投诉数据的堆积，无法及时进行处理，且准确度不高。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种大规模客户投诉数据自动分类方法。

本发明的目的通过以下的技术方案实现：

一种大规模客户投诉数据自动分类方法，包括以下步骤：

S1、收集投诉文本数据，对投诉文本数据进行预处理；

S2、构建第一投诉分类器和第二投诉分类器；

S3、根据过滤规则，对预处理后的投诉文本数据进行过滤，满足过滤规则的投诉文本数据，分配第一分类标签；不满足过滤规则的投诉文本数据，使用第一投诉分类器进行分类；

S4、得到第一分类标签的投诉文本数据，没有对应第二投诉分类器，且第一分类标签投诉文本数据条目大于第一门限值，则将第一分类标签投诉文本数据增加一个第二投诉分类器，对第一分类标签进行分类，得到第二分类标签；有对应第二投诉分类器，则用第二投诉分类器进行再分类，得到第二分类标签。

步骤S1中，所述预处理包括投诉文本数据分词、去除标点符号、停用词；

所述投诉文本数据分词是使用中文分词工具将中文文本中的汉字序列切分成一个一个单独的词；所述停用词是将没有实际含义的词整理出一个停用词表，分词后，将停用词表中的词去掉。

步骤S2中，先构建第一投诉分类器和第二投诉分类器，其中第一投诉分类器的构建过程如下：

T1、对投诉文本数据进行预处理；

T2、使用投诉文本数据生成投诉字典；

T3、将投诉文本数据转化为序列向量，然后转化为等长向量，长度小于m的向量在后面补0，m＝200；得到二维向量；

T4、构建CNN+LSTM神经网络模型，包括六个神经网络层：嵌入层，SpatialDropout1D层，一维卷积层，MaxPooling1D层，LSTM层，Dense层；

T5、将投诉文本数据进行随机划分，80％的投诉文本数据为训练集，用于模型训练；20％的投诉文本数据为验证集，用于确定模型的网络结构和模型的参数；将训练集数据输入CNN+LSTM神经网络模型，每一轮训练过程如下：二维向量输入嵌入层，得到三维向量；经过SpatialDropout1D层，防止过拟合后，输入一维卷积层进行时域卷积，得到时域信号；再经过MaxPooling1D层，即池化层对时域信号进行最大值池化，并将结果输入LSTM层，最后经Dense层得到每条投诉文本数据属于各类别的概率；每一轮训练集训练完，用验证集测试模型的损失函数、准确率；将上述过程迭代，进行训练，当验证集的损失连续两轮训练没有减少或迭代训练轮数达到10轮，则停止训练，取分类性能最好的模型，即取训练中预测准确率最高的模型参数，进行保存。

第二投诉分类器的构建过程如下：

U1、对投诉文本数据进行预处理；

U2、计算投诉文本数据中每个词语的权重，计算过程为：

TF-IDF权重值＝TF×IDF，

其中，TF为词频，IDF为逆向文档频率；

其中，t为特征词在投诉文本数据中的词数，T为投诉文本数据中所有字词的总词数；

其中，N为投诉文本数据的总数，n为出现特征词的投诉文本数据总数；

U3、投诉文本数据选择TF-IDF权重值前N的词语，生成特征词表W；

U4、根据特征词表W和TF-IDF权重值，将投诉文本数据转化为TF-IDF权重向量；

U5、使用KMeans聚类方法对TF-IDF权重向量进行聚类计算聚类后的平均轮廓系数，根据平均轮廓系数选择聚类模型，得到K个类簇以及每个类簇的质心。

在步骤S3中，符合过滤规则的投诉文本数据，直接根据过滤规则获得第一分类标签，不符合过滤规则的投诉文本数据，则通过第一投诉分类器进行分类，使用第一投诉分类器的分类过程如下：

V1、对投诉文本数据进行预处理；

V2、将预处理后的投诉文本数据转化为序列向量，得到二维向量；

V3、将二维向量输入CNN+LSTM模型，得到投诉文本数据第一分类标签，即第一分类类别。

在步骤S4中，在获得第一分类标签的基础上，投诉文本数据没有对应的第二投诉分类器且条目数大于第一门限的投诉文本数据，增加一个对应的第二投诉分类器；使用第二投诉分类器进行再分类；使用第二投诉分类器的分类过程如下：

W1、对新的投诉文本数据进行预处理；

W2、预处理后的投诉文本数据根据特征词表和TF-IDF权重值，生成TF-IDF权重向量；

W3、依次比较新的TF-IDF权重向量和K个质心的距离，选择距离最小的质心类别为新的TF-IDF权重向量类别。

本发明与现有技术相比，具有如下优点和有益效果：

本发明构建神经网络模型，形成分类器，将投诉文本数据转化为向量，用过滤规则对向量转化并进行分类，继续进行二次分类，通过生成特征词表和TF-IDF权重值进行聚类，从而对投诉文本数据使用分类器进行多层分类，实现快速而准确的对投诉数据文本进行分类，不会造成大量数据的堆积，能够及时洞察和发现客户投诉信息的变化，提高客户管理的相应速度和服务水平。

附图说明

图1是本发明所述一种大规模客户投诉数据自动分类方法的流程图；

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

如图1所示，一种大规模客户投诉数据自动分类方法，包括以下步骤：

第一步：收集投诉文本数据，对投诉文本数据进行预处理；预处理过程包括对投诉文本数据进行分词、去除标点符号、停用词；投诉文本数据分词是使用中文分词工具将中文文本中的汉字序列切分成一个一个单独的词；停用词是将没有实际含义的词整理出一个停用词表，分词后，将停用词表中的词去掉

第二步：构建第一投诉分类器和第二投诉分类器；构建第一投诉分类器的过程如下：

T1、对投诉文本数据进行预处理；

T2、使用投诉文本数据生成投诉字典，并统计字典长度n_words；

T3、将投诉文本数据转化为word下标的序列向量，然后转化为长度为max_len的等长向量，max-len＝m＝200，长度不够的向量在后面补0；得到形如(n_sample,max_len)的二维向量，n_sample为投诉文本数据的数量；

嵌入层的参数设置如下：input_dim设置为词典长度78753，output_dim设置为128，input_length设置为文本向量长度200。SpatialDropout1D层的rate设置为0.3；卷积层的时域窗长度为6，输出维度为100；MaxPooling1D层的池化窗口大小设为4；LSTM层输出维度为200，dropout参数设为0.2；Dense层激活函数为“softmax”函数，输出维度为类别个数5；

构建第二投诉分类器的过程如下：

U1、对投诉文本数据进行预处理；

U2、用TF-IDF算法计算投诉文本数据中每个词语的权重，计算过程为：

TF-IDF权重值＝TF×IDF，

其中，TF为词频，IDF为逆向文档频率；

U3、投诉文本数据选择TF-IDF权重值前N的词语，N＝30，生成特征词表W；

U4、根据特征词表W和TF-IDF权重值，将每个投诉文本数据转化为一条对应的TF-IDF权重向量；

U5、使用KMeans聚类方法对TF-IDF权重向量进行聚类计算聚类后的平均轮廓系数，系数越接近1，聚类效果越好；比较轮廓系数，根据平均轮廓系数选择聚类模型，得到K个类簇以及每个类簇的质心，K＝4。

第三步：根据过滤规则，指定一个或若干个设定的词在一个投诉文本中出现的次数，k为出现次数，n为设定次数，当k≥n，则满足过滤条件；对预处理后的投诉文本数据进行过滤处理，满足过滤规则的投诉文本数据，分配第一分类标签，即第一分类类别；不满足过滤规则的投诉文本数据，使用第一投诉分类器进行分类；

使用第一投诉分类器的分类过程如下：

V1、对投诉文本数据进行预处理；

V2、将预处理后的投诉文本数据转化为word下标的序列向量，得到(n_sample,max_len)二维向量；

V3、将(n_sample,max_len)二维向量输入CNN+LSTM模型，得到投诉文本数据第一分类标签，即第一分类类别。

第四步：得到第一分类标签的投诉文本数据，没有对应第二投诉分类器，且第一分类标签投诉文本数据条目大于第一门限值，则将第一分类标签投诉文本数据增加一个第二投诉分类器，对第一分类标签进行分类，得到第二分类标签；有对应第二投诉分类器，则用第二投诉分类器进行再分类，得到第二分类标签。

使用第二投诉分类器的分类过程如下：

W1、对新的投诉文本数据进行预处理；

W3、依次比较新的TF-IDF权重向量和K个质心的距离，选择距离最小的质心类别为新的TF-IDF权重向量类别，完成分类。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种大规模客户投诉数据自动分类方法，其特征在于，包括以下步骤，

S1、收集投诉文本数据，对投诉文本数据进行预处理；

S2、构建第一投诉分类器和第二投诉分类器；所述第一投诉分类器用于得到投诉文本数据第一分类标签，所述第二投诉分类器用于得到投诉文本数据第二分类标签；所述第一投诉分类器构建过程如下：

T1、对投诉文本数据进行预处理；所述预处理包括投诉文本数据分词、去除标点符号、去除停用词；

T2、使用投诉文本数据生成投诉字典；

T3、将投诉文本数据转化为序列向量，然后转化为等长向量，长度小于200的向量在后面补0，得到二维向量；

T4、构建CNN+LSTM神经网络模型，包括六个神经网络层：嵌入层、SpatialDropout1D层，一维卷积层，MaxPooling1D层，LSTM层，Dense层；

T5、将投诉文本数据进行随机划分，80％的投诉文本数据为训练集，用于模型训练；20％的投诉文本数据为验证集，用于确定模型的网络结构和模型的参数；将训练集数据输入CNN+LSTM神经网络模型，每一轮训练过程如下：二维向量输入嵌入层，得到三维向量；经过SpatialDropout1D层，防止过拟合后，输入一维卷积层进行时域卷积，得到时域信号；再经过MaxPooling1D层，即池化层对时域信号进行最大值池化，并将结果输入LSTM层，最后经Dense层得到每条投诉文本数据属于各类别的概率；每一轮训练集训练完，用验证集测试模型的损失函数、准确率；迭代训练，当验证集的损失连续两轮没有减少或迭代训练轮数达到10轮，则停止训练，取分类性能最好的模型，即取训练中预测准确率最高的模型参数，进行保存；

所述第二投诉分类器构建过程如下：

U1、对投诉文本数据进行预处理；

U2、计算投诉文本数据中每个词语的TF-IDF权重值；计算过程为：

TF-IDF权重值＝TF×IDF，

其中，TF为词频，IDF为逆向文档频率；

U3、投诉文本数据选择TF-IDF权重值排前H的词语，生成特征词表W；

U5、使用KMeans聚类方法对TF-IDF权重向量进行聚类计算聚类后的平均轮廓系数，根据平均轮廓系数选择聚类模型，得到K个类簇以及每个类簇的质心；平均轮廓系数的计算如下：

对于投诉文本数据中第i个元素X_i，计算X_i到同簇的其他投诉文本数据的平均距离a_i；计算X_i到其他簇的平均距离b_ij，投诉文本数据的轮廓系数为：

其中，b_i＝{min(b_i1,b_i2,…b_ij)}；

再将所有投诉文本数据的轮廓系数求平均，得到聚类后的平均轮廓系数；

S4、得到第一分类标签的投诉文本数据，当没有对应第二投诉分类器，且第一分类标签投诉文本数据条目大于第一门限值，则将第一分类标签投诉文本数据增加一个第二投诉分类器，对第一分类标签进行分类，得到第二分类标签；当有对应第二投诉分类器，则用第二投诉分类器进行再分类，得到第二分类标签。

2.根据权利要求1所述的一种大规模客户投诉数据自动分类方法，其特征在于，步骤S1中，所述预处理包括投诉文本数据分词、去除标点符号、去除停用词。

3.根据权利要求2所述的一种大规模客户投诉数据自动分类方法，其特征在于，所述投诉文本数据分词是使用中文分词工具将中文文本中的汉字序列切分成一个一个单独的词；所述去除停用词是将没有实际含义的词整理出一个停用词表，分词后，将停用词表中的词去掉。

4.根据权利要求1所述的一种大规模客户投诉数据自动分类方法，其特征在于，步骤S3中，所述过滤规则为：指定一个或若干个设定的词在一个投诉文本数据中出现的次数，k为出现次数，p为设定次数，当k≥p，则满足过滤规则。

5.根据权利要求1所述的一种大规模客户投诉数据自动分类方法，其特征在于，步骤S3中，第一投诉分类器的分类过程如下：

V1、对投诉文本数据进行预处理；

6.根据权利要求1所述的一种大规模客户投诉数据自动分类方法，其特征在于，步骤S4中，所述第一门限值为1000。

7.根据权利要求1所述的一种大规模客户投诉数据自动分类方法，其特征在于，步骤S4中，第二投诉分类器的分类过程如下：

W1、对新的投诉文本数据进行预处理；