CN113435627A

CN113435627A - 基于工单轨迹信息的电力客户投诉预测方法及装置

Info

Publication number: CN113435627A
Application number: CN202110583788.3A
Authority: CN
Inventors: 王莉; 谢枫; 许鑫; 刘晓伟; 钟侃; 巩冬梅; 焦蕊; 岳虎; 董文略; 王玉君; 介志毅; 程杰
Original assignee: State Grid Corp of China SGCC; State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jibei Electric Power Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-09-24

Abstract

本发明公开了一种基于工单轨迹信息的电力客户投诉预测方法及装置，该方法包括：采集各个电力客户历史呼叫客服的工单信息；从采集的工单信息中，提取预先配置的能够反映电力客户是否投诉工单的各个预设特征字段在预设工单轨迹长度内的字段信息；根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建样本数据集；根据样本数据集，通过机器学习训练一个客户投诉预警模型；基于训练好的客户投诉预警模型，预测各个电力客户未来呼叫客服的投诉概率。本发明利用各个电力客户的历史呼叫客服的工单信息工单轨迹信息，通过机器学习训练一个客户投诉预警模型，对各个电力客户未来呼叫客服的投诉概率进行预测，能够大大提高电力客户投诉预测的准确率。

Description

基于工单轨迹信息的电力客户投诉预测方法及装置

技术领域

本发明涉及计算机软件领域，尤其涉及一种基于工单轨迹信息的电力客户投诉预测方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着社会经济在迅速地发展，人民物质生活水平也在不断提高，使得社会对电力的需求日益增加，对供电能力和服务品质的要求也日益提高。当电力客户享受到的供电服务与期望值不符时，会激发电力客户的各类诉求，甚至引发电力客户的投诉，如何准确地把握客户诉求、有效地预防客户投诉，是提升供电服务客户满意度、维护电力企业良好形象的关键。

目前，电力客户主要通过呼叫95598客服电话实现各种诉求，95598是电力企业受理客户诉求、审核处理意见、回访客户满意度情况的服务电话，作为连接电力客户与电力企业的桥梁，能够对客户的服务信息传递流程实现闭环管理，完整记录客户服务的全过程，全面展现电力企业的供电服务质量和标准，是电力企业对各级单位的供电服务水平进行监督、评价、考核的重要数据来源。因而，如何充分利用95598工单信息对电力客户的投诉进行准确预测是亟待解决的技术问题。

发明内容

本发明实施例中提供了一种基于工单轨迹信息的电力客户投诉预测方法，用以解决现有电力系统服务系统中，由于电力客户投诉工单具有不确定性，难以实现对电力客户投诉工单进行准确预测的技术问题，该方法包括：采集各个电力客户历史呼叫客服的工单信息；从采集的工单信息中，提取各个预设特征字段在预设工单轨迹长度内的字段信息，其中，工单轨迹长度为预先配置的位于电力客户投诉预测时刻之前的一个历史时间段，预设特征字段为预先配置的能够反映电力客户是否投诉工单的数据字段；根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建样本数据集，其中，样本数据集包括：训练数据集和测试数据集；根据样本数据集，通过机器学习训练一个客户投诉预警模型；基于训练好的客户投诉预警模型，预测各个电力客户未来呼叫客服的投诉概率。

本发明实施例中还提供了一种基于工单轨迹信息的电力客户投诉预测装置，用以解决现有电力系统服务系统中，由于电力客户投诉工单具有不确定性，难以实现对电力客户投诉工单进行准确预测的技术问题，该装置包括：工单信息采集模块，用于获取各个电力客户历史呼叫客服的工单信息；字段信息提取模块，用于从采集的工单信息中，提取各个预设特征字段在预设工单轨迹长度内的字段信息，其中，工单轨迹长度为预先配置的位于电力客户投诉预测时刻之前的一个历史时间段，预设特征字段为预先配置的能够反映电力客户是否投诉工单的数据字段；样本数据集构建模块，用于根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建样本数据集，其中，样本数据集包括：训练数据集和测试数据集；机器学习模块，用于根据样本数据集，通过机器学习训练一个客户投诉预警模型；电力客户投诉预测模块，用于基于训练好的客户投诉预警模型，预测各个电力客户未来呼叫客服的投诉概率。

本发明实施例中还提供了一种计算机设备，用以解决现有电力系统服务系统中，由于电力客户投诉工单具有不确定性，难以实现对电力客户投诉工单进行准确预测的技术问题，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述基于工单轨迹信息的电力客户投诉预测方法。

本发明实施例中还提供了一种计算机可读存储介质，用以解决现有电力系统服务系统中，由于电力客户投诉工单具有不确定性，难以实现对电力客户投诉工单进行准确预测的技术问题，该计算机可读存储介质存储有执行上述基于工单轨迹信息的电力客户投诉预测方法的计算机程序。

本发明实施例中，在采集到各个电力客户历史呼叫客服的工单信息后，从采集的工单信息中，提取预先配置的能够反映电力客户是否投诉工单的各个预设特征字段在预设工单轨迹长度内的字段信息，进而根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建训练数据集和测试数据集，以便根据构建的训练数据集和测试数据集，通过机器学习训练一个客户投诉预警模型，最后基于训练好的客户投诉预警模型，预测各个电力客户未来呼叫客服的投诉概率。

通过本发明实施例，利用各个电力客户的历史呼叫客服的工单信息工单轨迹信息，通过机器学习训练一个客户投诉预警模型，对各个电力客户未来呼叫客服的投诉概率进行预测，能够大大提高电力客户投诉预测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中提供的一种基于工单轨迹信息的电力客户投诉预测方法流程图；

图2为本发明实施例中提供的一种基于工单轨迹信息的电力客户投诉预测方法的具体实现流程图；

图3为本发明实施例中提供的一种特征字段的构建过程示意图；

图4为本发明实施例中提供的一种基于工单轨迹信息的电力客户投诉预测装置示意图；

图5为本发明实施例中提供的一种计算机设备示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在本说明书的描述中，所使用的“包含”、“包括”、“具有”、“含有”等，均为开放性的用语，即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本申请的实施，其中的步骤顺序不作限定，可根据需要作适当调整。

本发明实施例中提供了一种基于工单轨迹信息的电力客户投诉预测方法，图1为本发明实施例中提供的一种基于工单轨迹信息的电力客户投诉预测方法流程图，如图1所示，该方法包括如下步骤：

S101，采集各个电力客户历史呼叫客服的工单信息。

需要说明的是，由于一些主观因素的影响，使得电力客户投诉工单往往具有不确定性，但大多数情况下，某个电力客户是否会投诉，会受到其之前反馈问题轨迹的影响，因而，通过分析某个电力客户在过去一段时间段内反馈的工单信息，确定该电力反馈工单的历史轨迹信息，能够抽取出一些反映该电力客户是否投诉工单的关键信息，进而实现对电力客户投诉工单的预测。

在具体实施时，可以预先配置一个历史时间段，通过上述S101采集该历史时间段内各个电力客户呼叫95598电话服务的工单信息。由于95598座席工单种类和涉及到的字段繁多、数据类型多种多样(如数值型、类别型、文本型)，如何充分有效地利用这些数据提取关键信息并将其融入到合适的算法模型是本发明实施例要解决的技术问题。

S102，从采集的工单信息中，提取各个预设特征字段在预设工单轨迹长度内的字段信息，其中，工单轨迹长度为预先配置的位于电力客户投诉预测时刻之前的一个历史时间段，预设特征字段为预先配置的能够反映电力客户是否投诉工单的数据字段。

需要说明的是，上述S102中的预设特征字段可以是预先配置的能够反映电力客户是否投诉工单的数据字段。对于某个电力客户来说，过去太久的呼叫服务工单，对该电力客户当前呼叫客服的投诉影响较小，因而，本发明实施例中，在确定能够反映电力客户是否投诉工单的各个预设特征字段后，提取这些预设特征字段在某一历史时间段(即预设工单轨迹长度)内的字段信息，以便根据提取的字段信息，预测该电力客户当前呼叫客服的时候是否会出现投诉工单情况。

在一个实施例中，在执行S102之前，本发明实施例中提供的基于工单轨迹信息的电力客户投诉预测方法还可以通过如下步骤来确定各个预设特征字段：从采集的工单信息中，提取出多个数据字段；使用作图的方式，将每个数据字段划分到正样本数据集或负样本数据集中；计算第一数据字段和第二数据字段的相关系数，其中，第一数据字段和第二数据字段为多个数据字段中的任意两个数据字段；根据第一数据字段和第二数据字段的相关系数，确定第一数据字段和第二数据字段的互相关量；根据多个数据字段中任意两个数据字段的互相关量，从多个数据字段中筛选出互相关量大于预设阈值的一个或多个数据字段，作为预设特征字段。

S103，根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建样本数据集，其中，样本数据集包括：训练数据集和测试数据集。

需要说明的是，本发明实施例中用于机器学习的样本数据集是一个不断更新变化的数据集，利用该样本数据集进行机器学习，训练得到的客户投诉预警模型，能够实现更准确的投诉工单预测。

在一个实施例中，上述S103可以通过如下步骤来实现：对各个预设特征字段的字段信息进行标准化处理；对标准化处理后的字段信息进行独热编码，生成对应的独热编码向量；根据生成的编码向量，生成正样本数据集和负样本数据集。

进一步地，一个实施例中，本发明实施例中提供的基于工单轨迹信息的电力客户投诉预测方法还可以使用z-score方法，对各个预设特征字段的字段信息进行标准化处理。

可选地，在一个实施例中，在根据生成的编码向量，生成正样本数据集和负样本数据集之后，本发明实施例中提供的基于工单轨迹信息的电力客户投诉预测方法还可以包括如下步骤：采用Borderline SMOTE过采样方法对正样本数据集进行处理。

可选地，在一个实施例中，在根据生成的编码向量，生成正样本数据集和负样本数据集之后，本发明实施例中提供的基于工单轨迹信息的电力客户投诉预测方法还可以包括如下步骤：获取正样本数据集和负样本数据集中均存在的一个或多个目标特征字段；统计各个目标特征字段分别在正样本数据集和负样本数据集中的数据个数比；将数据个数比小于预设阈值的目标特征字段在正样本数据集和负样本数据集中的数据剔除。

S104，根据样本数据集，通过机器学习训练一个客户投诉预警模型。

需要说明的是，在构建机器学习的样本数据集后，可以选择合适的模型进行训练，以得到一个预测各个电力客户未来呼叫客服的投诉概率的客户投诉预警模型。本发明实施例中选取的模型包括但不限于表1所示的决策树模型、Xgboost模型、随机森林模型、支持向量机SVM模型和神经网络ANN模型。在具体实施时，可从模型效果和算法效率等方面综合考虑，选取效率最高的模型。

表1几种机器学习模型的比较

由于本发明实施例实际解决的是一个二分类问题，在结合实际的业务意义和适用性的基础上，可不考虑k近邻算法、朴素贝叶斯算法，而是考虑在二分类问题上表现不错的决策树、XGBoost、随机森林、支持向量机SVM和神经网络ANN。

(一)k近邻算法存在如下不足：

①计算复杂性高，空间复杂性高：从算法的原理上可以看出，对每一个个体的预测都是全局搜索，计算与其它个体的距离，数据量大时影响效率；而这里所说的其他个体便是训练集数据，要使用这些数据，就必须将他们存储起来，造成存储成本较高；但是作为随机森林基分类器的决策树(C4.5)并不需要储存训练集中每个样本的数据信息，需要储存的主要是每个节点的分裂信息和每个叶子节点中各个类别的概率，大大节省了储存空间和计算复杂度。

②样本不平衡的时候，容易产生误分：K近邻算法使用“投票法”来产生结果，导致重视多数类而忽视少数类。而在我们所要预测的项目中，正负样本的比例大概为1:230，有严重的不平衡问题，且因为投诉事件较为随机，正负样本的相似度较高，这种情况下大大增加了误分类的概率。随机森林虽然也采用“投票法”，但是其投票基础为决策树，决策树可以通过调节参数来尽量减少样本不平衡的影响，学习并生成效果不错的模型，在此基础上的投票结果的可信度进一步提升。

③模型可解释性不强，无法给出数据的内在含义：作为随机森林基分类器的决策树，通过生成的规则，在业务上有良好的可解释性。

(二)朴素贝叶斯算法存在如下不足：

①对数据的要求比较高：朴素贝叶斯算法的前提和假设是属性之间相互独立，而这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。

②需要知道先验概率：先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。而随机森林算法则不需要这样的假设。

③后验概率决定分类：由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。

④对输入数据的表达形式很敏感。

由于随机森林的基分类器是决策树，此算法对数据的表达形式没有严格的要求，且对离散型和连续型数据都能够很好的进行处理。因而，在一个实施例中，上述S104可以通过如下步骤来实现：根据训练数据集，对随机森林模型进行机器学习训练，得到客户投诉预警模型；根据测试数据集，对训练得到的客户投诉预警模型进行验证。

S105，基于训练好的客户投诉预警模型，预测各个电力客户未来呼叫客服的投诉概率。

需要说明的是，本发明实施例中，在根据各个电力客户历史呼叫客服的工单信息训练得到客户投诉预警模型后，可以基于该模型预测各个电力客户在未来任意时刻呼叫客服的投诉概率。

图2为本发明实施例中提供的一种基于工单轨迹信息的电力客户投诉预测方法的具体实现流程图，如图2所示，具体包括如下几个方面：

一、数据分析：

本发明实施例对95598历史工单轨迹进行分析，构建客户投诉智能模型，从而达到对客户投诉的预测。相较于其他的问题，投诉本身更容易受到主观因素的影响，存在较大的不确定性，这就要求我们尽可能的分析研究历史工单信息来抽取提炼能够表达客户意愿的关键信息。同时，客户是否会投诉，也受到之前反馈问题轨迹的影响，不能将历史数据与当前工单割裂开来单独分析，而应该更加有效地利用轨迹信息。本研究除了使用数值型数据，还应更多的关注工单中的文本数据，同时结合95598客户服务业务，尽可能提高投诉预测的准确率。

在本发明实施例中，使用的工单数据为95598历史工单数据，数据范围包括2017年全年数据和2018年1月份到6月份的数据，共计240多万条。共涉及工单类型10种，包括：“故障报修”、“业务咨询”、“投诉”、“举报”、“表扬”‘’、“建议”、“意见”、“客户催办”、“业务督办”和“服务申请”；共涉及到字段98个。表2所示为对部分字段的初步统计结果：

表2 95598历史工单数据部分字段统计表

字段名称	字段含义	数据总量	缺失值	缺失率
					ORDERNO	国网工单编号	2400957	0	0.00％
CALLNO	主叫号码	2400957	47421	1.98％
					REQSTARTDATE	请求开始时间	2400957	1010	0.04％
REQFINISHDATE	请求结束时间	2400957	1101290	45.87％
					TEL	联系电话	2400957	65	0.00％
TEL2	联系电话2	2400957	1173702	48.88％
					ORGNO	供电单位	2400957	0	0.00％
CITYCODE	所属地市	2400957	146	0.01％
					TYPECODE	业务类型	2400957	0	0.00％
SUBTYPONE	一级业务子类	2400957	32955	1.37％
					ANONYMFLAG	是否匿名	2400957	2379066	99.09％
SECRETCODE	是否保密	2400957	2379066	99.09％
					ACCEPTCONTENT	受理内容	2400957	20081	0.84％
ACCEPtopINION	受理意见	2400957	2245056	93.51％
					HANDLESITUATION	处理情况	2400957	1923518	80.11％
HANDLESA	处理满意度	2400957	2109033	87.84％
					RETVISITTIME	回访时间	2400957	2086447	86.90％
RETVISITCONTENT	回访内容	2400957	2153347	89.69％
					FAULTDESC	故障现象	2400957	1300451	54.16％
FAULTHARM	故障危害度	2400957	1300451	54.16％
					ONCEHANDLEFLAG	是否国网一次办结	2400957	54525	2.27％
PROVINCEHANDLE	是否省办结	2400957	52613	2.19％

三、数据清洗：

基于上述统计结果且结合具体业务信息完成数据清洗工作。本发明实施例中主要完成对数据缺失值的处理。以下是对原始数据缺失值治理核心方式及举例说明。

①删除缺失值：

在数据分析阶段，根据统计出的数据缺失情况，然后利用大数据统计分析技术，将缺失率大于50％的字段去除(中间过程保留了部分缺失值严重但对模型效果会有影响的字段)后，字段数量从98减少到30。删除缺失值的字段有：是否匿名、是否保密、回访时间等。

②填补缺失值：

首先，直接填充，在本发明实施例中，如字段HANDLESITUATION的缺失值可以使用此方法处理，我们都为其填充“无”，因为造成此字段缺失的原因多为此工单是一次办结工单或在客服处理来电时一句话将事情用简短的话已给用户解释清楚，故没有填写处理情况。

其次，使用最可能的值填充遗漏值。关于此方法的使用较多，具体例子如下：字段CALLNO(主叫号码)：使用此特征目的是为了区分不同的用户，但是，由于此字段并不是必填项，缺失率达到了50％以上，如果直接删除数据，无法进行模型的序列化研究，而普通的填充方法又不适用，所以选择CALLNO来代替，从效果上来看，填充方式虽无法保证100％准确，就实际情况来说应该是基本吻合的状态。同理，CALLNO的缺失值也可以用TEL和TEL2来进行填充；CITYCODE(所属地市)：这个字段的填充也很好理解，可以从SITEADDR(现场地址)中进行提取并对应编号进行填充；接收时间：我们要进行基于序列的分析，必然会涉及到时间的问题，使用REQSTARTDATE(请求开始时间)可以提取出所要的日期，但是数据不够完整，想到了使用ORDERNO(国网工单编号)的前8位来代替，生成接收时间字段。

另外，其他部分特征填充方式以符合逻辑，且空值填充与已经出现的值不同为准，例如：FAULTHARM，ONCEHANDLEFLAG，PROVINCEHANDLE空值直接填充11，以和已有的数值进行区分。

四、特征构建和选择：

在完成数据清洗后，初步选择30个可能会挖掘到有用特征的字段：

ORDERNO(国网工单编号)、CALLNO(主叫号码)、REQSTARTDATE(请求开始时间)、REQFINISHDATE(请求结束时间)、CITYCODE(所属地市)、TYPECODE(业务类型)、SUBTYPONE(一级业务子类)、ACCEPTCONTENT(受理内容)、HANDLESITUATION(处理情况)、ONCEHANDLEFLAG(是否国网一次办结)、PROVINCEHANDLE(是否省办结)、ACCEPTOPINION’(受理意见)、REQORIGIN’(服务请求来源)、HANDLESA(处理满意度)、FAULTDESC(故障现象)、FAULTHARM(故障危害度)等。

虽然较原始数据已经实现了字段精简，但是显然还是无法用这些字段直接进行建模。这30个字段中仍然存在着无关特征与冗余特征，因此需要进行人工筛选，例如：客户名称字段虽然很全，但对建模没有作用；然后，部分删除掉的字段虽然缺失值很严重，但其在特征挖掘过程中意义重大(如处理情况字段)，应该保留。对于二分类模型来说，30个特征还是过多，过多的特征不利于模型的构建，因此，还需要进行特征构建。

(1)特征构建：通过研究原始数据样本，结合机器学习实战经验和相关领域的专业知识，思考问题的潜在形式和数据结构，人工创造出新的特征，而这些特征对于模型训练又是有益的并且具有一定的工程意义。

投诉预测本身比较复杂，受到各个方面的影响，尤其是主观因素的影响对模型训练是一个极大的挑战，所以其特征的构建也非一蹴而就，需要经过探索和实践不断完善。由于是基于工单轨迹的预测，那么特征的构建必然要结合轨迹(序列)因素。

①轨迹长度的探索与确定：在进行基于轨迹(序列)定为多少天更合适的问题上，基于数据统计分析和业务逻辑，采用15天和30天分别进行长度序列的特征挖掘，并生成提升序列特征，观察其生成的值与业务上的相关性，发现，利用15天生成序列长度再利用Apriori算法挖掘出来的特征只有故障报修和业务咨询两类工单与投诉密切相关，而利用30天为序列长度再生成提升序列，其依旧只挖掘出故障报修和业务咨询与投诉的相关性，因此证明，客户是否投诉往往只与短时间内客户来电相关，很久以前的电话实际对客户本次是否投诉的影响不大。所以以30天为限构建序列长度特征，足够满足我们后期需求。

②四轮特征构建：在以30天构建序列前提下，进行了四轮的特征挖掘与构建。如图3所示，四轮特征构建分别说明如下：

第一轮：选定的特征为：历史投诉率、情感得分、工单类型、地市编号、受理内容标签。特征综合考虑到了业务因素(如：工单类型、受理内容标签)。在第一轮特征构建中，将重点介绍情感得分，受理标签内容两特征构建的业务支撑和构建方式。将对“情感得分”加以详细说明。

业务支撑：一个人是否投诉会与其当时的心态及需求是否得到满足呈很大正相关，即会与原始字段中的处理情况有很大相关性。

特征构建：首先需要定义一个情感得分的函数，用于计算当前工单的情感函数得分(即不考虑时间和序列的问题)。该函数的定义第一步要找到适用于现有工单数据的情感词(通过人工阅读部分受理内容和处理情况进行提取)；为了体现情感词的程度，引入了程度副词，为它们设置不同的权重；同时考虑到了情感词的反转(情感词前面出现否定词)。当前文本(受理内容、处理情况)情感函数得分为其中的每个情感词得分之和(积极词的正分，消极词得负分)。

使用情感得分函数计算出当前文本的情感函数得分。

例如，使用公式A_neⁿ计算出当前文档的序列情感得分。公式中A_n表示情感函数得分，n表示当前工单所在其序列中的位置(序列的生成会在后续详细说明)。则当前工单最终累积情感得分的计算：累加其所在序列第一个工单到当前工单的序列情感得分，即：∑A_neⁿ。

第二轮：选定的特征为：来电时间段，周几，月份，通话时长，来电间隔，服务请求来源，选定的特征都着重从现有非文本类字段中提炼可能有用的信息，从时间的角度去考虑客户来电与投诉的内在关系。这里重点介绍在建模过程中最终利用到的标签模糊化处理和统计序列分析及情感得分特征。

A、标签模糊化处理：

业务支撑：挖掘客户当前工单所在序列反馈的问题是否为同一件事，一般认为如果多次反馈同一问题而没有得到很好的解决，会更倾向于投诉。

特征构建：利用lda主题模型对每个序列的受理内容进行建模，因为考虑到在同一序列中会因为表述内容的长短造成模型训练误差，如“客户来电咨询电费信息”和“客户来电咨询电费电量，同时认为家中用电可能异常”这两个表述通过人为观察实际表述的是大致相同一件事，但由于文本都是短文本，所有lda很可能将其分为2个不同的事，因此为避免这个问题出现，在同一个序列中，如果通过lda建模返回的topic多数相同，我们认为客户表述的是同一件事，赋值0，否则认为客户在这个序列中反馈的是不同的事件，赋值1，以此构建二值化的特征。具体规则为：序列长度<＝3，lda返回不同的主题，认为客户反应不是一件事；序列长度＝4，lda返回不同的主题中有一类只有1次，认为客户反应是一件事；序列长度<＝7，lda返回不同的主题有一类不大于2次，则认为客户反应是一件事；序列长度>＝8，lda返回不同的主题中有一类不大于3次，则认为客户反应是一件事。

B、统计序列分析：

业务支撑：基于业务逻辑思考，认为在受理内容中客户表现出不满意和在处理情况中处理过程较长或问题未解决的客户投诉倾向比较大。

特征构建：对ACCEPTCONTENT(受理内容)、HANDLESITUATION(处理情况)内容进行挖掘。通过将正负样本的ACCEPTCONTENT(受理内容)进行对比，文本清洗掉无用字符后，发现部分表述在投诉样本中出现的频率高于非投诉样本中的频率。通过统计分析定义规则：如果某条在正样本中出现次数>5，且在正样本中的频率/负样本中的频率>＝3，将其作为种子表述，对所有工单的ACCEPTCONTENT(受理内容)进行遍历，若表述在种子表述中，则得分lable＝1，否则为0。

对HANDLESITUATIOND(处理情况)同样方式分析，但是通过统计发现，正负样本中频数较多的表述基本不具备区分性，且该类数据缺失比例为80％。无法进行相同方式的分析。于是结合受理情况进行分析，如果基于ACCEPTCONTENT＝1并且HANDLESITUATIOND不为空，将其特征制为1，否则为0。借鉴情感得分的思路，增加时间序列的思考。规则是累加的形式(经测试指数形式完全没有区分度，放弃).并将其作为最终的特征。

C、情感得分综合考虑：

业务支撑：在第一轮情感得分特征构建的基础上，认为仅仅考虑处理情况的情感得分并不足够，并未将缺失值更少的受理情况字段有效利用起来，而用户的情感积累应该是基于一个序列频繁模式挖掘中的受理内容和处理情况的总得分。

特征构建：以第一阶段的情感得分构建方式为基础，再构建受理内容的情感得分；考虑该用户的轨迹工单，以一个月为准，例如在本次来电前，其一个月内共来电4次，情感得分分别为0、2.7、2.7、22，本次来电得分为57，则累积情感得分为0+2.7+2.7+22+57＝84.4。同时因为情感得分为指数级增长，考虑到当序列过长时其得分会变的很大，将得分上线限设置为正负1000；在挖掘了基于受理内容和处理情况的基于序列的情感得分后，发现在基于以下特征，情感得分的特征构建更有利于模型效果的提高，于是定义情感得分综合汇总规则如下：受理内容得分为负，处理情况得分为正/0/负分别赋值0/1/2；受理内容得分为0，处理情况为正/0/负分别赋值3/4/5；受理内容得分为正，处理情况得分为正/0/负分别赋值6/7/8。

第三轮：不仅从文本类信息中入手，提炼出可能会造成投诉的诸多因素，如标签模糊化处理，受理意见，统计序列分析，情感综合得分，而且考虑了除工单字段外其他客观因素的影响，如天气原因可能造成某些用电事故；电网政策可能会影响客户的用电体验。

第四轮：突出体现序列因素对投诉预测的作用(如：是否等于提升序列——利用序列模式挖掘的结果，计算出对投诉提升度高的工单类型序列，以此来构建特征)；同时，由于使用数据时间跨度为1年多，计算历史投诉率与计算历史是否存在投诉并无本质差别，而后者在数据表现上更为直观简单，故使用后者替代了历史投诉率，这样模型更加简单直观并且有效。下面会突出说明关于序列的相关问题：

A、序列的查找和构建：对于需要预测的当前工单，我们以其CALLNO(CALLNO为空的，用TEL或者TEL2来填充)为搜索基准，以受理时间(ORDERNO的前8位)为起始时间，向前推30天内同一用户的所有工单(如在30天内遇到投诉工单则停止，遇到的投诉工单不包含在当前序列)。找到工单中从时间最早的工单开始依次编号(编号从1开始)一直到当前工单。这样当前工单得到的值便是序列长度这一特征。

B、是否等于提升序列：按照序列的查找和构建的方式找到当前工单的关联工单，同样从时间最早的工单开始算起，将每个工单的工单类型依次放到同一列表中，这样，对240多万数据都生成一个工单类型序列。接着，使用PrefixSpan算法进行挖掘，找到对投诉置信度高的工单类型序列，并进一步计算出提升度，将提升度大于3的工单类型序列进行记录作为提升序列，遇到同样的序列便赋值为1，否则赋值为0，生成二值化的特征。表3所示为部分提升序列展示：

表3序列模式挖掘结果统计表

表3中提升序列中的数字“1”表示故障报修工单；数字“3”表示业务咨询工单；数字“15”表示催办工单。

(2)特征选择：经过四轮特征构建之后，最终得到超过20个的特征，但是在有限的样本数目下，用大量的特征来设计分类器计算开销太大而且分类性能差，结果并不尽如人意。于是在尽量不显著降低分类精度的情况下进行特征选择，特征选择的方法有很多，在此项目中主要使用作图，Pearson相关系数、互信息来辅助实现对特征的初步筛选，去除相关性极低的几个特征。

A、使用画图方式进行筛选：分别画出每个特征在正负样本中的分布，可以初步看出其是否具有区分正负样本的能力，从而达到过滤的效果。

B、计算Pearson相关系数：Pearson相关系数等于协方差除以两个变量的标准差。

C、互信息：互信息度量表示已知X和Y这两个变量的其中一个，对另一个不确定度减少的程度，其定义如下：

其中，P(X)表示X的出现概率，P(Y)表示Y的出现概率，P(X,Y)表示X和Y的联合概率概率。

D、最终特征的确定：经过上述步骤后，最终确定保留10个特征：“情感得分-综合考虑”、“上次来电间隔”、“历史是否存在投诉”、“基于受理处理内容的统计序列分析”、“是否等于提升序列”、“来电时间段”、“通话时长”、“标签模糊化处理”、“月份”和“序列长度”。

五、基础建模和性能评估：

(1)训练集和测试集的生成：

在最终特征确定后，紧接着需要构建训练集和测试集为模型的训练做最后的准备。最终需要构建的其实是一个分类模型，而我们在建模过程中遇到以下四个问题：类别型数据处理、数据维度不同、样本不均衡以及正负样本重叠，而这4个问题在后期建模中对模型效果影响较大的，为解决这4个问题，逐一采取相应的办法，具体如下。

①类别型数据的处理(独热编码)：

本发明实施例中构建和选择的特征虽然都已用不同的数字给其赋予了不同的含义，但如“来电时间段”、“标签模糊化处理”等特征为类别型数据，其数字并不代表属性的大小，而只是一种表征，例如我们经常用到的男女，数值只代表男女，例如1为男，2为女，虽然2比1大，但并不是说女的就要比男的大，这便是类别型数据的一种体现。因此，需要利用独热编码将其数值大小的属性去掉。以来电时间段举例说明：来电时间段以2小时为一段共12个时间段用1-12代表，然后构建一个12维矩阵，例如某工单来电时间段位4，则其横向量表示为[0，0，0，1，0，0，0，0，0，0，0，0，0]，某工单来电时间段位12，则横向量表示为[0，0，0，0，0，0，0，0，0，0，0，0，1]，即指在时间段对应位置的数值为1，其他均为0。

然而是否需要对其进行独热编码还取决于选择的算法模型，使用基于树的模型(如决策树、随机森林)的时候，一般则是不要求的，因为对于此类算法来说在处理变量时，并不是基于向量空间度量，数值只是个类别符号。而在我们尝试其他模型的时候就进行了此步操作。

②数据维度的不同—数据标准化：

以“上次来电间隔”、“月份”两个特征为例，前者的取值可以上百，而后者的取值范围却只能是1到12之间的整数，再比如情感得分第区间在-1000到1000，存在较大的差异。但是，同样的，不是所有情况都需要进行标准化的处理，如一些基于树的算法模型(决策树、随机森林等)；同样，我们在使用其他模型进行对比尝试的时候进行了此操作，主要使用了z-score方法对数据进行标准化处理。

③样本不均衡处理(欠采样与过采样处理)：

欠采样：从丰富类别的样本中随机选取和稀有类别相同数目的样本，通过减少丰富类的样本量来平衡数据集。经实际测试，欠采样确实对模型效果影响不大。分析原因：由于本项目中，正负样本差距过大，如果选择欠采样的方法，必然导致训练数据中丢掉过多负样本的特征，影响模型在实际应用中投诉预测的准确率。故此方法不适用于本项目。

过采样：将稀有类别的样本进行复制，通过增加此稀有类样本的数量来平衡数据集。但是，以本项目为例讨论，如果直接对正样本进行复制实际上没有为模型引入更多数据，但又过分强调了正样本的数据，会放大正样本噪音对模型的影响。为了解决这一弊端，本发明实施例中主要采用Borderline SMOTE过采样方法对正样本数据集进行处理。

④正负样本重叠的处理：

由于投诉本身是具有比较强的主观性的，故或多或少的存在具有同样特征的数据同时出现在正负样本中的情况。在实践过程中，如果对这部分数据不作处理，会导致对投诉的预测出现比较严重的影响：召回率过低或者在召回率只有微小提升的时候却使得准确率大幅度下降。这就要求我们在处理将重叠部分的样本归到哪一类的时候做一些权衡了。通过统计分析和效果对比，最终决定将此类数据中在正负样本中个数之比小于1/3的从正样本中剔除，其余的从负样本中剔除。相当于在正负样本中都分别进行了有目的的欠采样处理。

以上步骤完成之后，将得到样本数据集按照预设比例(例如7:3)划分得到训练数据集和测试数据集。

(2)模型选择与性能评估：

①模型选择：在数据训练集和测试集构建完成后，选择合适的模型进行训练。从模型效果和算法效率等方面综合考虑，选取效率最高的模型。

②性能评估：模型评价选用查准率和查全率，同时结合AUC值和Kappa系数来评价模型的总体效果：在模型训练过程中，根据每个模型对数据的要求，对已经确定的这些特征做一些处理，然后分别利用上述几种模型进行建模调优，通过性能评估指标对比这几种模型的效果。

六、模型调优与结果：

(1)模型调优：在模型调优的方面，主要从选择的特征数量、数据量大小、模型自身优势和运算速率等方面进行了对各个模型参数的调整。

(2)模型结果：利用AUC和Kappa值衡量模型的优劣情况，结果如表4所示。

表4各个模型结果对比

算法	正样本准确率	正样本召回率	AUC值	Kappa值
					决策树	0.64	0.55	0.78	0.59
XGBoost	0.05	0.07	0.76	0.06
					随机森林	0.82	0.55	0.78	0.66
SVM	0.03	0.57	0.75	0.05
					ANN	0.02	0.51	0.69	0.04

从表4可以看出，无论哪种算法召回率是相对比较低的，这与投诉事件本身存在随机性受到主观因素影响大有着极大的关系；同时，正负样本的差距、正负样本的重叠也造成了这一不可避免的现象。就实际应用的角度出发，通常希望资源能够更加高效地被应用，所以准确率的优先级更高，在保证召回率可以接受的情况下，想办法提升准确率便是工作的重中之重。比较这几种算法模型的结果，随机森林脱颖而出，能够预测出多数正样例，准确率达到不错的效果。

本发明实施例中提供的基于工单轨迹信息的电力客户投诉预测方法，利用皮尔逊系数、作图法、信息熵最终确定10个特征，利用随机森林算法，利用95598工单数据按照预设比例分配训练数据集与测试数据集，可达到准确率82％，召回率55％。

基于同一发明构思，本发明实施例中还提供了一种基于工单轨迹信息的电力客户投诉预测装置，如下面的实施例所述。由于该装置实施例解决问题的原理与基于工单轨迹信息的电力客户投诉预测方法相似，因此该装置实施例的实施可以参见方法的实施，重复之处不再赘述。

图4为本发明实施例中提供的一种基于工单轨迹信息的电力客户投诉预测装置示意图，如图4所示，该装置包括：工单信息采集模块41、字段信息提取模块42、样本数据集构建模块43、机器学习模块44和电力客户投诉预测模块45。

其中，工单信息采集模块41，用于获取各个电力客户历史呼叫客服的工单信息；字段信息提取模块42，用于从采集的工单信息中，提取各个预设特征字段在预设工单轨迹长度内的字段信息，其中，工单轨迹长度为预先配置的位于电力客户投诉预测时刻之前的一个历史时间段，预设特征字段为预先配置的能够反映电力客户是否投诉工单的数据字段；样本数据集构建模块43，用于根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建样本数据集，其中，样本数据集包括：训练数据集和测试数据集；机器学习模块44，用于根据样本数据集，通过机器学习训练一个客户投诉预警模型；电力客户投诉预测模块45，用于基于训练好的客户投诉预警模型，预测各个电力客户未来呼叫客服的投诉概率。

在一个实施例中，如图4所示，本发明实施例中提供的基于工单轨迹信息的电力客户投诉预测装置中，机器学习模块44具体包括：模型训练模块441，用于根据训练数据集，对随机森林模型进行机器学习训练，得到客户投诉预警模型；模型验证模块442，用于根据测试数据集，对训练得到的客户投诉预警模型进行验证。

在一个实施例中，如图4所示，本发明实施例中提供的基于工单轨迹信息的电力客户投诉预测装置还包括：特征字段构建模块46，用于：从采集的工单信息中，提取出多个数据字段；使用作图的方式，将每个数据字段划分到正样本数据集或负样本数据集中；计算第一数据字段和第二数据字段的相关系数，其中，第一数据字段和第二数据字段为多个数据字段中的任意两个数据字段；根据第一数据字段和第二数据字段的相关系数，确定第一数据字段和第二数据字段的互相关量；根据多个数据字段中任意两个数据字段的互相关量，从多个数据字段中筛选出互相关量大于预设阈值的一个或多个数据字段，作为预设特征字段。

在一个实施例中，本发明实施例中提供的基于工单轨迹信息的电力客户投诉预测装置中，样本数据集构建模块43还用于：对各个预设特征字段的字段信息进行标准化处理；对标准化处理后的字段信息进行独热编码，生成对应的独热编码向量；根据生成的编码向量，生成正样本数据集和负样本数据集。

在上述实施例中，样本数据集构建模块43还用于使用z-score方法，对各个预设特征字段的字段信息进行标准化处理。

在上述实施例中，样本数据集构建模块43还用于采用Borderline SMOTE过采样方法对正样本数据集进行处理。

在上述实施例中，样本数据集构建模块43还用于：获取正样本数据集和负样本数据集中均存在的一个或多个目标特征字段；统计各个目标特征字段分别在正样本数据集和负样本数据集中的数据个数比；将数据个数比小于预设阈值的目标特征字段在正样本数据集和负样本数据集中的数据剔除。

基于同一发明构思，本发明实施例中还提供了一种计算机设备，用以解决现有电力系统服务系统中，由于电力客户投诉工单具有不确定性，难以实现对电力客户投诉工单进行准确预测的技术问题，图5为本发明实施例中提供的一种计算机设备示意图，如图5所示，该计算机设备包括存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序，处理器502执行计算机程序时实现上述基于工单轨迹信息的电力客户投诉预测方法。

基于同一发明构思，本发明实施例中还提供了一种计算机可读存储介质，用以解决现有电力系统服务系统中，由于电力客户投诉工单具有不确定性，难以实现对电力客户投诉工单进行准确预测的技术问题，该计算机可读存储介质存储有执行上述基于工单轨迹信息的电力客户投诉预测方法的计算机程序。

综上所述，本发明实施例中提供了一种基于工单轨迹信息的电力客户投诉预测方法、装置、计算机设备及计算机可读存储介质，在采集到各个电力客户历史呼叫客服的工单信息后，从采集的工单信息中，提取预先配置的能够反映电力客户是否投诉工单的各个预设特征字段在预设工单轨迹长度内的字段信息，进而根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建训练数据集和测试数据集，以便根据构建的训练数据集和测试数据集，通过机器学习训练一个客户投诉预警模型，最后基于训练好的客户投诉预警模型，预测各个电力客户未来呼叫客服的投诉概率。通过本发明实施例，利用各个电力客户的历史呼叫客服的工单信息工单轨迹信息，通过机器学习训练一个客户投诉预警模型，对各个电力客户未来呼叫客服的投诉概率进行预测，能够大大提高电力客户投诉预测的准确率。

本发明实施例中，利用95598座席工单数据，基于历史轨迹，使用随机森林的集成学习算法，进行了投诉预警预测模型的构建。通过对于模型的检验及模型预测值评估，可以有效地进行对客户下次来电投诉与否的预测。使用本发明实施例对客户下次来电是否会投诉进行预测，有别于只是对投诉量等进行的预测：不必只是被动地增加人手以应对不可避免的投诉，而是将投诉提前消灭在萌芽期；使得对投诉的预测可以具体到某个客户，对投诉的预防更加具有针对性。这样既可以极大地提升客户的用电体验，又能保证对人力物力地最高效利用。

本发明实施例能够实现但不限于如下技术效果：

①通过对95598客户工单的语义分析，有助于公司深入了解客户的群体特征和诉求，为市场推广、客户服务等策略的制定和调整提供直观的分析和决策依据。

②通过对工单轨迹的诉求分析，可以了解客户诉求的合理性以及诉求得不到满足的背后原因，进而把控地市公司对客户诉求服务响应的处理质量和处理效率，可以针对性地改进工作中不足，不断提升服务水平。

③基于大数据分析技术，主动分析每一张工单背后的投诉风险，掌握客户诉求变化趋势，避免客户负面情绪激化，促进了事前预警、事中管控、事后分析全方位投诉管控体系的建设，提高了公司的精益化管理水平。

④通过对95598工单进行文本挖掘，可以细分客户群体进而提供个性化、差异化服务；通过对连续工单的轨迹分析和情绪判定，可预判客户投诉倾向和定位投诉原因，从而变被动响应为主动干预。这都有助于使公司整体资源调配趋于合理化，有助于降低投诉率和提升客户满意度。进而，有效缓解公司在投诉发生后花费大量人力、物力资源弥补过失的现状，节约了运营成本。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于工单轨迹信息的电力客户投诉预测方法，其特征在于，包括：

采集各个电力客户历史呼叫客服的工单信息；

从采集的工单信息中，提取各个预设特征字段在预设工单轨迹长度内的字段信息，其中，所述工单轨迹长度为预先配置的位于电力客户投诉预测时刻之前的一个历史时间段，所述预设特征字段为预先配置的能够反映电力客户是否投诉工单的数据字段；

根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建样本数据集，其中，所述样本数据集包括：训练数据集和测试数据集；

根据样本数据集，通过机器学习训练一个客户投诉预警模型；

基于训练好的客户投诉预警模型，预测各个电力客户未来呼叫客服的投诉概率。

2.如权利要求1所述的方法，其特征在于，根据样本数据集，通过机器学习训练一个客户投诉预警模型，包括：

根据训练数据集，对随机森林模型进行机器学习训练，得到客户投诉预警模型；

根据测试数据集，对训练得到的客户投诉预警模型进行验证。

3.如权利要求1所述的方法，其特征在于，在从采集的工单信息中，提取各个预设特征字段在预设工单轨迹长度内的字段信息之前，所述方法还包括：

从采集的工单信息中，提取出多个数据字段；

使用作图的方式，将每个数据字段划分到正样本数据集或负样本数据集中；

计算第一数据字段和第二数据字段的相关系数，其中，所述第一数据字段和所述第二数据字段为所述多个数据字段中的任意两个数据字段；

根据第一数据字段和第二数据字段的相关系数，确定第一数据字段和第二数据字段的互相关量；

根据所述多个数据字段中任意两个数据字段的互相关量，从所述多个数据字段中筛选出互相关量大于预设阈值的一个或多个数据字段，作为预设特征字段。

4.如权利要求3所述的方法，其特征在于，根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建样本数据集，包括：

对各个预设特征字段的字段信息进行标准化处理；

对标准化处理后的字段信息进行独热编码，生成对应的独热编码向量；

根据生成的编码向量，生成正样本数据集和负样本数据集。

5.如权利要求4所述的方法，其特征在于，使用z-score方法，对各个预设特征字段的字段信息进行标准化处理。

6.如权利要求4所述的方法，其特征在于，在根据生成的编码向量，生成正样本数据集和负样本数据集之后，所述方法还包括：

采用Borderline SMOTE过采样方法对正样本数据集进行处理。

7.如权利要求4所述的方法，其特征在于，在根据生成的编码向量，生成正样本数据集和负样本数据集之后，所述方法还包括：

获取正样本数据集和负样本数据集中均存在的一个或多个目标特征字段；

统计各个目标特征字段分别在正样本数据集和负样本数据集中的数据个数比；

将数据个数比小于预设阈值的目标特征字段在正样本数据集和负样本数据集中的数据剔除。

8.一种基于工单轨迹信息的电力客户投诉预测装置，其特征在于，包括：

工单信息采集模块，用于获取各个电力客户历史呼叫客服的工单信息；

字段信息提取模块，用于从采集的工单信息中，提取各个预设特征字段在预设工单轨迹长度内的字段信息，其中，所述工单轨迹长度为预先配置的位于电力客户投诉预测时刻之前的一个历史时间段，所述预设特征字段为预先配置的能够反映电力客户是否投诉工单的数据字段；

样本数据集构建模块，用于根据各个预设特征字段在预设工单轨迹长度内的字段信息，构建样本数据集，其中，所述样本数据集包括：训练数据集和测试数据集；

机器学习模块，用于根据样本数据集，通过机器学习训练一个客户投诉预警模型；

电力客户投诉预测模块，用于基于训练好的客户投诉预警模型，预测各个电力客户未来呼叫客服的投诉概率。

9.如权利要求8所述的装置，其特征在于，所述机器学习模块包括：

模型训练模块，用于根据训练数据集，对随机森林模型进行机器学习训练，得到客户投诉预警模型；

模型验证模块，用于根据测试数据集，对训练得到的客户投诉预警模型进行验证。

10.如权利要求8所述的装置，其特征在于，所述装置还包括：

特征字段构建模块，用于：从采集的工单信息中，提取出多个数据字段；使用作图的方式，将每个数据字段划分到正样本数据集或负样本数据集中；计算第一数据字段和第二数据字段的相关系数，其中，所述第一数据字段和所述第二数据字段为所述多个数据字段中的任意两个数据字段；根据第一数据字段和第二数据字段的相关系数，确定第一数据字段和第二数据字段的互相关量；根据所述多个数据字段中任意两个数据字段的互相关量，从所述多个数据字段中筛选出互相关量大于预设阈值的一个或多个数据字段，作为预设特征字段。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述基于工单轨迹信息的电力客户投诉预测方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至7任一项所述基于工单轨迹信息的电力客户投诉预测方法的计算机程序。