CN107506475A

CN107506475A - 一种基于Spark的海量电力客服文本分类方法

Info

Publication number: CN107506475A
Application number: CN201710803201.9A
Authority: CN
Inventors: 李彬; 邬庆莉; 李钊; 陈亮; 陈硕; 唐胜; 谢玉波; 曹健; 李强; 杨智斌; 秦鹏飞
Original assignee: CHINA REALTIME DATABASE Co Ltd; State Grid Corp of China SGCC; State Grid Liaoning Electric Power Co Ltd; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Current assignee: CHINA REALTIME DATABASE Co Ltd; State Grid Corp of China SGCC; State Grid Liaoning Electric Power Co Ltd; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2017-12-22

Abstract

本发明涉及一种对客户服务文本的分类方法，特别是一种基于Spark的海量电力客户服务文本分类方法。随着智能电网技术的不断发展，电网企业发挥数据资源的战略资产作用，关键在于提升海量数据的管理和支撑能力，实现信息共享，为企业管理提供运营决策分析支持。本发明通过建立电力客户服务情感词典，对客服工单进行分词，分词后的数据存储至HDFS文件，运用Spark从中加载并转换成RDD，预处理后用改良的分类算法进行训练得出模型。本方法可以大幅提升工单数据的分类分析的准确性和高效性，以挖掘客户的真实诉求。

Description

一种基于Spark的海量电力客服文本分类方法

技术领域

本发明涉及一种对客户服务文本的分类方法，特别是电力行业基于Spark的海量客服文本分类方法。

技术背景

随着智能电网技术的不断发展，电网企业发挥数据资源的战略资产作用，关键在于提升海量数据的管理和支撑能力，实现信息共享，为企业管理提供运营决策分析支持。大数据是海量、多样化的数据资源，既包含传统的结构化业务数据，也包括文本等非结构化数据。电力客户服务呼叫中心为电力客户提供优质便捷的服务，需要对大量的工单数据进行分析，工单分类分析的准确性和高效性都需要提高无法适应数据量的增大，无法客观反映在不同工单中的供电服务热点事件，无法有效挖掘客户的真实诉求。

本发明提出了一种基于Spark的海量文本分类方法，可以大幅提升工单数据的分类分析的准确性和高效性，以挖掘客户的真实诉求。

Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

发明内容及附图

图1为一种基于Spark的海量电力客服文本分类方法完整流程图。

一种基于Spark的海量电力客服文本分类方法是：

1)构建电力客户服务情感词典，分为电力客户服务主词表、电力客户服务量词表、电力客户服务停用词，同时，根据电力客服的领域特性，从评论文本中整理出具有代表性的常见词串；

2)根据电力客户服务情感词典，对电力客服工单数据文本进行分词；

3)将分词后的电力客户服务文本数据集存储至HDFS文件系统中，Spark从HDFS中加载电力客户服务，并将数据转换成RDD存于内存；

4)对RDD进行相应的预处理，用改良后分类算法对训练集进行训练，得出分类模型；

5)运用交叉验证技术，得出分类模型的准确率。

Claims

1.一种基于Spark的海量电力客服文本分类方法，其特征是：针对业务场景，比较了多个公开的情感词典，选择知网情感词典为基础，并根据电力客服领域的特点，针对性地选取了上百个词串，构建出了适用于电力客服文本分类的情感词典。

2.根据权利要求1所述，一种基于Spark的海量电力客服文本分类方法，其特征是：结合IKAnalyzer分词器，运用“正向迭代最细粒度切分算法”，根据业务场景需求，控制好分词的粒度，例如文本“仙女镇花园小区3幢2单元101室交错电费”，分词后文本是“仙女镇”“花园”“小区”“3幢”“2单元”“101室”“交错”“电费”，而不是“仙女”“镇”“交”“错”，因为这样的分词粒度过分的细，失去了分类的必要性和价值。

3.根据权利要求2所述，一种基于Spark的海量电力客服文本分类方法，其特征是：完成分词后，每个词都可以作为单独的特征，然而我们需要将中文的词汇转变成双精度类型的数值来表现；通常情况下，我们运用这个词汇的TF-IDF值当作特征值，该方法为文本中的各个词汇运算出两个数值：一个是词频(TF)，即各个词汇在文本中存在的次数，另一个是逆文档频率(IDF)，用来判断某个词在整个文档语料库中呈现的频繁水平；这两个值的乘积，也就是TF*IDF，表示了一个词与某个文本的相关程度；Spark的MLlib里存在两个方法能够得出TF-IDF，分别是HashingTF和IDF；HashingTF能够单次运行在某个文本里，同时也能够应用在全部的RDD中；它需要每个文本都运用对象的可迭代序列来体现。

4.根据权利要求3所述，一种基于Spark的海量电力客服文本分类方法，其特征是：根据贝叶斯定理的原理，我们需要求出分类类别的先验概率和调整因子(也称作“可能性函数”)，Naive Bayes分类器是一种统计学分类引擎，构筑在已经存在的结果上，因此必须要有多组已经辨认完成的文本，例如：“客户投诉”、“客户求助”、“客户建议”、“紧急预警”等分组；然后用这些分组，对分类器训练。

5.根据权利要求4所述，一种基于Spark的海量电力客服文本分类方法，其特征是：Multinomial Naive Bayes模型假设各个特征之间条件独立，为算法的并行化提供了有力的条件；结合Spark的并行计算框架，得出电力客户服务分类模型。