CN111159349A

CN111159349A - 基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备

Info

Publication number: CN111159349A
Application number: CN201911395988.5A
Authority: CN
Inventors: 姜磊; 谢东源; 郑志钉
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-05-15

Abstract

本发明涉及电力数据处理技术，为电力诉求工单自动分类方法、系统、存储介质及计算机设备，其方法：基于业务经验，结合业务需求，梳理符合实际需要的分类知识框架；对历史客户诉求文本数据进行样本标注，形成训练样本库；文本清洗；构建电力诉求专业词库，实现未登录词的准确分词；利用TF‑IDF算法实现词向量化，得到各个词的特征权重；采用信息增益筛选有效特征；利用SVM算法构建、优化初始的电力诉求工单自动分类模型，确定模型的最佳参数，得到最终的电力诉求工单自动分类模型；利用最终模型识别待判诉求工单，得到电力诉求工单的自动分类结果。本发明实现了诉求工单高效、精准分类，规避由于业务人员经验及水平差异导致的分类不一致的问题。

Description

基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备

技术领域

本发明涉及电力数据处理技术，具体为基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备。

背景技术

传统的投诉处理分析方式是由人工根据投诉受理时的投诉分类进行归类，并对投诉文本逐一分析，这种方法存在如下不足：

(1)投诉受理分类不准确：受理人员在受理投诉，对投诉进行分类时，若对客户的诉求内容存在理解上的偏差，将导致分类不准确，增加投诉处理判断的难度，并给数据统计带来偏差。

(2)投诉内容分析难：数据量大、文字多，需要对投诉文本的内容逐个采用人工分析的方式进行分析，处理过程繁琐，人力成本高，并对热点分析不透彻，难以发现引发投诉的根本原因。

(3)分析效率低：由于投诉工单的文本量大，工单分析时间长。

鉴于现有技术中，诉求工单分类工作由人工执行，存在分类规范不一致、分类不准确、耗费人力、效率低下等的问题，本发明研究文本内容分类算法，对客户投诉的文本内容进行智能化分析，研究引发客户投诉的根本原因及投诉客户的行为。并通过扩大提升服务面，转被动服务为主动服务，提升客户满意度及电力企业形象，进一步提升企业竞争力和持续发展能力。

发明内容

本发明提出基于自然语言处理技术的电力诉求工单自动分类方法、系统、存储介质及计算机设备，提高了对客户诉求的分类精度与分类效率，避免了人工分类而导致的工单分类不一致的问题。

根据本发明实施例的基于自然语言处理技术的电力诉求工单自动分类方法，包括步骤：

S1、构建分类知识框架，基于业务经验，结合业务需求，梳理符合实际需要的分类知识框架；

S2、标注训练数据，基于分类知识框架，对历史客户诉求文本数据进行样本标注，形成训练样本库；

S3、文本清洗，保留有效的文本特征；

S4、梳理电力业务与客户诉求情况，构建电力诉求专业词库，结合分词算法，实现未登录词的准确分词；

S5、利用TF-IDF算法实现词向量化，得到各个词的特征权重；

S6、基于信息论采用信息增益筛选有效特征，实现有效降维；

S7、利用SVM算法构建初始的电力诉求工单自动分类模型，将转化成词向量的文本数据输入到SVM算法中，采用K折交叉验证，不断迭代初始的电力诉求工单自动分类模型，根据模型的分类准确率，调整模型的各项参数，确定模型的最佳参数，得到最终的电力诉求工单自动分类模型；

S8、利用最终的电力诉求工单自动分类模型识别待判诉求工单，得到电力诉求工单的自动分类结果。

根据本发明实施例的基于自然语言处理技术的电力诉求工单自动分类系统，包括：

分类知识框架构建单元，用于基于业务经验，结合业务需求，梳理符合实际需要的分类知识框架；

训练数据标注单元，用于基于分类知识框架，对历史客户诉求文本数据进行样本标注，形成训练样本库；

文本清洗单元，用于对文本进行清洗，保留有效的文本特征；

专业词库构建单元，用于梳理电力业务与客户诉求情况，构建电力诉求专业词库，结合分词算法，实现未登录词的准确分词；

词向量化单元，利用TF-IDF算法实现词向量化，得到各个词的特征权重；

特征筛选单元，用于基于信息论采用信息增益筛选有效特征，实现有效降维；

模型构建单元，利用SVM算法构建初始的电力诉求工单自动分类模型，将转化成词向量的文本数据输入到SVM算法中，采用K折交叉验证，不断迭代初始的电力诉求工单自动分类模型，根据模型的分类准确率，调整模型的各项参数，确定模型的最佳参数，得到最终的电力诉求工单自动分类模型；

分类单元，利用最终的电力诉求工单自动分类模型识别待判诉求工单，得到电力诉求工单的自动分类结果。

根据本发明的存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现本发明分类方法的步骤。

根据本发明的计算机设备，包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现本发明的分类方法。

与现有技术相比，本发明取得的有益效果主要在于：基于自然语言处理技术和机器学习技术，对大量的历史诉求工单数据进行分析，构建随求文本分类模型，实现诉求工单的自动分类，有效提升分类效率与精度，解放了劳动力，同时规避了由于人员业务经验及水平差异而导致的分类不一致的问题。

附图说明

图1为本发明实施例的电力诉求工单自动分类方法的流程示意图；

图2为本发明实施例的分词过程示意图；

图3为本发明实施例的文本向量化过程示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施例及附图予以说明。

请参照图1至图3，本实施例中，基于自然语言处理技术的电力诉求工单自动分类方法，包括步骤：

S1、构建分类知识框架，基于业务专家丰富的业务经验，结合业务需求，梳理符合实际需要的分类知识框架。

合理搭建分类知识框架是文本分类应用的关键，决定了分类的结果是否有助于了解投诉现状并应用于服务品质的提升，故基于业务专家丰富的业务经验，结合业务需求，梳理符合实际需要的分类知识框架。本实施例对分类知识框架的梳理如下：

责任部门：营销、运检，共2类；

专业分类：电压质量、抢修服务、供电质量、抄核收、用电变更、营业厅等23类；

诉求事件：抢修、频繁停电、催费、频繁停电、分时电价、开票、新装、移换表/表箱、表计等122类；

差错点：电压低、服务态度差_K、频繁停电、截留电费、拒绝/推诿受理_K、拒绝开具电费发票等172类。

S2、标注训练数据，基于分类知识框架，对历史客户诉求文本数据进行样本标注，形成训练样本库。

本实施例抽取近三年的历史客户诉求文本数据，利用其中的80％数据，通过业务专家进行人工标注，形成训练样本库。

S3、利用正则表达式进行文本清洗，保留有效的文本特征。

文本清洗的工作是必不可少的，可以有效减少词汇噪音，保留更有效的文本特征，获得更好的文本特性，使得分类模型达到更高的精度。具体方法如下：

S31、去除标点符号：由于标点符号在文本数据中不添加任何额外的信息，因此删除所有标点符号将有助于减少训练数据的大小，提升模型的训练性能。

S32、去除停用词、稀缺词：停用词是指词语的信息对模型的分类没有帮助甚至会带来一定误导、应该从文本数据中删除的词汇。本实施例收集投诉工单中的介词、问候语等词汇创建停用词库，根据停用词库去除投诉文本(也叫投诉工单、诉求工单)中相应的停用词，达到清洗文本的目的；稀缺词是指只存在于少数投诉文本里的词汇。低频词汇因其稀有性，对模型性能的提升极其有限，可以将稀缺词替换为其他同义词以提高词频，或者直接删除稀缺词以提升模型的迭代效率。

S33、消歧转换：对投诉文本中的一些同音错别字、近似音错别字进行消歧转换，例如：对“陪产”、“赔长”等词进行消歧处理转换，转换为“赔偿”。

S34、去除习惯用语：投诉文本中类似“客户来电反映”、“请供电公司及时处理”，是不同类别文本的通用文本，词频高但对于分类没有帮助，应当去除以便提升模型的迭代效率。

S4、文本分词，请参照图2，梳理电力业务与客户诉求情况，构建电力诉求专业词库，结合分词算法，实现未登录词的准确分词。

由于词是最小的能够独立运用的语言单位，而中文文本不像英文，中文文本的词与词之间没有任何空格之类的显示标志指示词的边界。因此，文本分词是中文自然语言处理技术的基础环节，文本分词的效果好坏，决定了后续文本分类模型的性能优劣。

中文分词需利用汉语自动分词包，如jieba、HanLP等，这些分词包都采用基于大规模训练语料的统计方法，诉求工单中有但语料库里没有的词叫未登录词，未登录词通常无法被分词包正确分出来；而电网是专业领域性很强的行业，含有大量外部语料库里不存在的未登录词，因此本发明构建专业词库，结合分词算法，借助人为经验，从投诉工单提炼并补充语料库中缺少的专业词汇，以提升未登录词的分词准确性，解决现有语料库专业词汇量存在不足的问题。本实施例构建了如“运检、抄核收、业扩报装”等600个未登录词的专业词库，以提高模型精度；这些人工构造的词典，会不断搜集并存储起来。

S5、词向量化，请参照图3，利用TF-IDF算法实现词向量化，得到各个词的特征权重。

特征权重用于衡量某个特征项在文档表示(如投诉文本、投诉工单)中的重要程度或者区分能力的强弱。特征权重计算的一般方法是利用文本的统计信息，主要是词频，给特征项赋予一定的权重。TF-IDF算法从词频和倒排文档频度(也叫逆文本频率)两个指标衡量某个特征项的权重大小。词频表示词语在投诉工单中出现的次数，倒排文档频度用来衡量词汇在所有投诉工单中出现的占比，某词汇在所有投诉工单中出现的比例越高，其倒排文档频度越低，词汇权重也越低，如“客户，公司，的”这样的词汇。本发明基于TF-IDF算法的特点，采用该算法优化权重赋值方式。

TF-IDF是Term Frequency-Inverse Document Frequency的缩写，即“词频-逆文本频率”，它由词频TF和逆文本频率IDF两部分组成。词频TF即投诉文本中各个词的出现频率；而逆文本频率IDF反应了一个词在所有投诉文本中出现的频率。词x的逆文本频率IDF的基本公式如下：

其中，N代表诉求工单的总数，而N(x)代表包含词x的诉求工单总数。在特殊的情况下，若某一个生僻词在语料库中没有，此时分母为0，IDF没有意义，所以我们需要对IDF进行一些平滑处理，没有出现的词也可以得到一个合适的IDF值，平滑处理后得到的IDF计算公式为：

可以得到词x的TF-IDF值的计算公式为：

TF-IDF(x)＝TF(x)*IDF(x)

其中，TF-IDF(x)表示词x的TF-IDF值，TF(x)表示词x在当前诉求工单中的词频，IDF(x)为上述平滑处理后的IDF值。

S6、特征筛选，基于信息论采用信息增益筛选有效特征，实现有效降维，避免维数灾难影响模型效率。

词向量化后，用来表示文本的向量有上万个特征，特征数量太多可能会导致维数灾难，影响模型效率。因此需要筛选出有效特征进行保留，去除无关特征以提升模型效果。本发明采用信息增益方法对特征进行有效筛选，信息增益法依据某特征项为整个分类所能提供的信息量多少来衡量该特征项的重要程度，从而决定对该特征项的取舍。

“信息熵”(information entropy)是度量样本存量最常用的一种指标，假定当前样本集D中第k类样本所占的比例为p_k(k＝1,2，…，|y|),则当前样本集D的信息熵定义为：

假定特征a有V个可能取值{a¹，a²，a³，...，a^V}，若使用特征a对当前样本集进行划分，则会尝试V个分支节点，其中第v个分支节点包含了当前样本集D中所有在特征a上取值为a^V的样本，记为D^v，根据上式计算出D^v的信息熵；再考虑到不同的分支节点所包含的样本数不同，给分支节点赋予权重|D^v|/|D|，可计算出特征a对样本集D进行划分所获得的信息增益(information gain)：

S7、利用SVM算法构建初始的电力诉求工单自动分类模型，将转化成词向量的文本数据，输入到SVM算法中，采用K折交叉验证，不断迭代初始的电力诉求工单自动分类模型，根据模型的分类准确率，调整模型的各项参数，如损失函数、惩罚项系数等，确定模型的最佳参数，得到最终的电力诉求工单自动分类模型。具体如下：

S71初始化电力诉求工单自动分类模型，得到初始的电力诉求工单自动分类模型；初始的电力诉求工单自动分类模型即待训练的电力诉求工单自动分类模型；

S72、获取训练集，通过训练集训练初始的电力诉求工单自动分类模型，得到已训练的电力诉求工单自动分类模型，所述训练集包括80％的训练样本数据；

S73、获取测试集，通过测试集测试已训练的电力诉求工单自动分类模型，判断已训练的电力诉求工单自动分类模型的自动分类结果的准确率是否达到预设准确值，若是，则得到最终的电力诉求工单自动分类模型，否则使用训练集继续训练直到得到最终的电力诉求工单自动分类模型，所述测试集包括20％的训练样本数据。

从上述描述可知，为了避免机器学习过程中经常出现将个别训练样本的特异性当作整个数据集的共性，表现在训练结果的准确度非常高，而实际应用中对后期数据进行预测的准确率显著低于训练结果，即过拟合现象，故而建模过程中需要对样本数据进行划分，其中训练集占总体样本的80％，剩余20％的样本数据作为测试集，依据大数定理在样本足够多的情况下不会改变训练集和测试集的数据分布，因此验证集上预测准确度能够更好的衡量整个模型的准确情况。

支持向量机(Support Vector Machine,SVM)基本想法就是基于训练集和样本空间中找到一个最好的划分超平面方式，将样本分割开来，首先要知道什么样的划分法才能称为“最”好划分。

在样本空间中，划分超平面可用ω^Tx+b＝0表示，记为超平面(ω，b)，其中，样本ω＝(ω₁，ω₂，...ω₃)为法向量，b为位移项，决定超平面与原点之间的距离。样本空间中任意点x到超平面的几何间隔可写为：

假设超平面(ω，b)能将训练样本正确分类，即对(x_i，y_i)，若y_i＝+1，则有ω^Tx_i+b≥0，若y_i＝-1，则有ω^Tx_i+b≤0。令：

距离超平面最近的几个训练样本使上式等号成立，称其为支撑向量(supportvector)，两个异类支持向量到超平面距离之和为：

求解合适的参数ω，b，以正确划分超平面。求得几何间隔最大的最优分离超平面，表达为数学公式即为：

s.t.y_i(ω^Tx_i+b)＞＝1，i＝1，2，...m

为了方便计算，仅需计算最大化||ω||^-1，等价于最小化||ω||²，将其转化为：

s.t.y_i(ω^Tx_i+b)＞＝1，i＝1，2，...m

其中ω^T为法向量ω的转置，b为位移项；得到以最优分离超平面划分的待训练诉求工单自动分类模型，作为初始的诉求工单自动分类模型

在本实施例中，对超参数的设置的目的主要是为了找到SVM模型的最优参数。SVM模型的主要参数有分类决策multi_class、正则化参数penalty、是否用对偶形式优化dual、核函数kernel、样本权重class_weight等。

根据实验，将上述参数设定为：multi_class＝’ovr’，penalty＝L2，dual＝False，kernel＝linear，class_weight＝balance。

在上述最优参数设置的情况下，本模型的分类效率为0.2秒一条诉求工单。分类准确率已到达业务应用标准，对应四级分类，共四个模型，并根据数据验证，可得准确率在83％-91％左右，具体如下表1：

表1

类别	准确率
		责任部门	91.20％
专业分类	87.60％
		诉求事件	83.40％
诉求点	87.50％

综上所述，本发明基于自然语言处理技术的电力诉求工单自动分类方法，通过专家的业务梳理构建了分类的基础知识框架，基于分类知识框架进行训练样本的标注，同时进行文本清洗、文本分词、构建专业词库、文本向量化及特征筛选等数据预处理工作，最后利用SVM算法构建了电力诉求工单自动分类模型，实现客户诉求工单的高效且精准的自动分类，同时规避由于业务人员经验及水平差异导致的分类不一致的问题。

基于与上述分类方法同一构思，本发明提出了基于自然语言处理技术的电力诉求工单自动分类系统，包括：

分类知识框架构建单元，用于基于业务经验，结合业务需求，梳理符合实际需要的分类知识框架，以实现上述步骤S1；

训练数据标注单元，用于基于分类知识框架，对历史客户诉求文本数据进行样本标注，形成训练样本库，以实现上述步骤S2；

文本清洗单元，用于对文本进行清洗，保留有效的文本特征，以实现上述步骤S3；

专业词库构建单元，用于梳理电力业务与客户诉求情况，构建电力诉求专业词库，结合分词算法，实现未登录词的准确分词，以实现上述步骤S4；

词向量化单元，利用TF-IDF算法实现词向量化，得到各个词的特征权重，以实现上述步骤S5；

特征筛选单元，用于基于信息论采用信息增益筛选有效特征，实现有效降维，以实现上述步骤S6；

模型构建单元，利用SVM算法构建初始的电力诉求工单自动分类模型，将转化成词向量的文本数据输入到SVM算法中，采用K折交叉验证，不断迭代初始的电力诉求工单自动分类模型，根据模型的分类准确率，调整模型的各项参数，确定模型的最佳参数，得到最终的电力诉求工单自动分类模型，以实现上述步骤S7；

分类单元，利用最终的电力诉求工单自动分类模型识别待判诉求工单，得到电力诉求工单的自动分类结果，以实现上述步骤S8。

本发明还提出了存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现本发明分类方法的步骤。

本发明还提出了计算机设备，包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现本发明的分类方法。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.基于自然语言处理技术的电力诉求工单自动分类方法，其特征在于，包括步骤：

S3、文本清洗，保留有效的文本特征；

S5、利用TF-IDF算法实现词向量化，得到各个词的特征权重；

2.根据权利要求1所述的基于自然语言处理技术的电力诉求工单自动分类方法，其特征在于，步骤S7构建初始的电力诉求工单自动分类模型，具体如下：

初始化电力诉求工单自动分类模型，在样本空间中，划分超平面用ω^Tx+b＝0表示，记为超平面(ω，b)，其中样本ω＝(ω₁，ω₂，...ω₃)为法向量，b为决定超平面与原点之间距离的位移项；

样本空间中任意点x到超平面的几何间隔为：

假设超平面(ω，b)能将训练样本正确分类，即对(x_i，y_i)，若y_i＝+1，则有ω^Tx_i+b≥0，若y_i＝-1，则有ω^Tx_i+b≤0，令：

距离超平面最近的几个训练样本使上式等号成立，称其为支撑向量，两个异类支持向量到超平面距离之和为：

求解合适的参数ω，b，以正确划分超平面；求得几何间隔最大的最优分离超平面为：

s.t.y_i(ω^Tx_i+b)＞＝1，i＝1，2，...m

其中ω^T为法向量ω的转置，b为位移项；得到以最优分离超平面划分的待训练诉求工单自动分类模型，作为初始的诉求工单自动分类模型。

3.根据权利要求1所述的基于自然语言处理技术的电力诉求工单自动分类方法，其特征在于，步骤S7得到最终的电力诉求工单自动分类模型，包括如下步骤：

S71、初始化电力诉求工单自动分类模型，得到初始的电力诉求工单自动分类模型；

S72、获取训练集，通过训练集训练初始的电力诉求工单自动分类模型，得到已训练的电力诉求工单自动分类模型；

S73、获取测试集，通过测试集测试已训练的电力诉求工单自动分类模型，判断已训练的电力诉求工单自动分类模型的自动分类结果的准确率是否达到预设准确值，若是，则得到最终的电力诉求工单自动分类模型，否则使用训练集继续训练直到得到最终的电力诉求工单自动分类模型。

4.根据权利要求1所述的基于自然语言处理技术的电力诉求工单自动分类方法，其特征在于，步骤S5进行词向量化时，对词x的TF-IDF值的计算公式为：

TF-IDF(x)＝TF(x)*IDF(x)

其中，TF-IDF(x)表示词x的TF-IDF值，TF(x)表示词x在当前诉求工单中的词频；IDF(x)为平滑处理后的IDF值：

其中，N代表诉求工单的总数，而N(x)代表包含词x的诉求工单总数。

5.根据权利要求1所述的基于自然语言处理技术的电力诉求工单自动分类方法，其特征在于，所述未登录词为诉求工单中有但语料库里没有的词；步骤S4构建专业词库，结合分词算法，借助人为经验，从诉求工单提炼并补充语料库中缺少的专业词汇，以提升未登录词的分词准确性。

6.根据权利要求1所述的基于自然语言处理技术的电力诉求工单自动分类方法，其特征在于，步骤S3中文本清洗包括：去除标点符号；去除停用词、稀缺词；消歧转换；以及去除习惯用语。

7.基于自然语言处理技术的电力诉求工单自动分类系统，其特征在于，包括：

8.根据权利要求7所述的基于自然语言处理技术的电力诉求工单自动分类系统，其特征在于，所述模型构建单元构建初始的电力诉求工单自动分类模型，具体如下：

样本空间中任意点x到超平面的几何间隔为：

s.t.y_i(ω^Tx_i+b)＞＝1，i＝1，2，...m

9.存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-6中任一项所述分类方法的步骤。

10.计算机设备，包括存储器、处理器以及存储在存储上并可在处理器上运行的计算机程序，其特征在于，处理器执行计算机程序时，实现权利要求1-6中任一项所述分类方法。