CN111161094A

CN111161094A - 一种基于深度学习的电力工单诉求点识别方法

Info

Publication number: CN111161094A
Application number: CN201911272970.6A
Authority: CN
Inventors: 林少娃; 洪健山; 胡若云; 罗欣; 朱蕊倩; 张爽; 魏骁雄; 沈皓; 朱斌; 陈博; 麻吕斌; 葛岳军; 陈奕汝; 钟震远; 杨建军; 叶红豆; 丁嘉涵
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Zhejiang Huayun Information Technology Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-15

Abstract

本发明公开了一种基于深度学习的电力工单诉求点识别方法，涉及电力工单诉求点识别方法领域。目前客户诉求挖掘效率低下，面对海量非结构化文本诉求，仍停留在依靠人工进行数据处理与分析的阶段，存在数据处理方式单一、投入人力成本高，实时性差等问题。本方法包括建立诉求点机器识别标签体系、工单诉求高维矩阵向量化、诉求点机器识别建模、样本学习训练、相似度模型识别分类等关键步骤。利用深度学习技术手段，有效实现以机器识别为主、人工复核为辅的诉求人机偶合识别分类功能，实时精准识别客户诉求点，提高诉求分析与问题管控的工作效率，减少一线人员诉求分析压力。

Description

一种基于深度学习的电力工单诉求点识别方法

技术领域

本发明涉及电力工单诉求点识别方法领域，尤其涉及一种基于深度学习的电力工单诉求点识别方法。

背景技术

目前，国家电网公司关于坚持以客户为中心进一步提升优质服务水平的意见(国家电网办[2018]1号)中指出要强化95598服务监督，加强服务数据和敏感问题分析，抓住客户服务热点难点，坚持以客户为中心持续提升优质服务水平。同时根据国家电网公司供电优质服务分析相关要求，需要对投诉、服务申请、意见工单实现业务下钻全量精细化分析，而面对大量非结构化文本诉求，需要改变传统人力密集型分析模式。目前客户诉求挖掘效率低下。快速查找、分析并解决95598客户诉求中的热点问题是目前重点工作之一，但面对海量非结构化文本诉求，仍停留在依靠人工进行数据处理与分析的阶段，存在数据处理方式单一、投入人力成本高，实时性差等问题。

同时，人工诉求梳理过程中存在人员业务能力差异、理解差异以及常态化持续工作量大等问题，诉求分析与问题管控的工作效率低，一线人员诉求分析压力大。

发明内容

本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供一种基于深度学习的电力工单诉求点识别方法，以实时精准识别客户诉求点，提高诉求分析与问题管控的工作效率为目的。为此，本发明采取以下技术方案。

一种基于深度学习的电力工单诉求点识别方法，包括以下步骤：

1)建立诉求点机器识别标签体系：通过组织业务专家根据经验进行诉求点手工梳理，并对诉求点标签进行精细化剖析与反复讨论，制定出投诉诉求点机器识别分类细则、服务申请诉求点机器识别分类细则和意见诉求点机器识别分类细则；

2)工单诉求高维矩阵向量化：对工单诉求的文本数值向量表征转化，同时对诉求向量进行多种算法加工处理；

3)诉求点机器识别建模：该过程实现诉求点机器识别分类建模，采用深度置信神经网络进行建模，设计深度置信神经网络模型结构与模型参数；

4)样本学习训练：根据神经网络和超参数设置对经过诉求高维矩阵向量处理的数据进行样本学习训练，固化输出诉求样本训练结果模型；

5)相似度模型识别分类：基于已学习训练固化的模型对诉求工单根据诉求点机器识别标签规则的进行逐一诉求点分类识别。

本方法通过利用深度学习技术手段，有效实现以机器识别为主、人工复核为辅的诉求人机偶合识别分类功能，实时精准识别客户诉求点，提高诉求分析与问题管控的工作效率，减少一线人员诉求分析压力。

作为优选技术手段：步骤2)中，所述的工单诉求高维矩阵向量化包括以下步骤：

201)诉求点结构化分类数组；

202)根据诉求点分类进行样本按类分组加载样本数据；

203)提取各诉求点样本单词集合；

204)按类分组诉求样本简单向量化；

205)诉求样本向量中心化处理；

206)协方差矩阵计算；

207)求解特征值矩阵；

208)求解标准化矩阵；

209)主成分矩阵转化；

210)矩阵相乘转化；

211)输出诉求转化高维向量。能够有效实现工单诉求高维矩阵向量化。

作为优选技术手段：步骤3)中，所述的深度置信神经网络，采用6层网络结构，输入层神经元3000个，隐藏层神经元数分别为500、200、500、100、100，输出目标为50，并选用tanh非线性函数作为隐含层的激活函数，以softmax函数为输出层激活函数，其中学习速率learningRate取0.1，动量系数rmsDecay0.85，正则参数L2取0.001。有效建立深度置信神经网络结构。

作为优选技术手段：步骤4)中，所述的样本学习训练及固化的实现包括以下步骤：

401)获取学习模型参数，包括正则参数、迭代参数、学习速率、神经网络层数；

402)通过步骤401)中的模型超参数初始化置信神经网络学习模型对象类；

403)加载诉求高维矩阵向量处理结果数据；

404)将实例化向量数据顺序随机排列；

405)判断是否小于学习迭代次数，若否，执行步骤9)，若是，执行下一步；

406)数据库同步记录学习进度；

407)对实例化向量数据进行分组学习；

408)分组学习完成，重新初始化向量索引；

409)完成学习任务，将训练固化模型回写数据库。有效实现样本学习训练及固化。

作为优选技术手段：步骤5)中，所述的相似度模型识别分类包括以下步骤：

501)获取加载经学习训练固化的诉求样本模型；

502)基于训练固化模型实例化模型对象；

503)逐一诉求识别分类，判断是否小于待识别分类工单数量，若是，执行下一步，若否，结束；

504)待识别分类工单受理内容语句分词处理；

505)语句分词转向量处理；

506)基于学习模型获得该诉求工单分类输出向量；

507)遍历分类，输出向量获取其最大值对应的诉求细分标签，转步骤503)。有效实现相似度模型识别分类。

作为优选技术手段：步骤205)中，诉求样本向量中心化处理方法包括以下步骤：

20501)按类加载获取诉求工单经过分词向量化处理的诉求简单向量；

20502)获取上述诉求向量横向最大长度和纵向最大长度；

20503)计算诉求向量，累加计算向量所有值，求解横向所有列均值。

20504)横向迭代计算，诉求简单向量减去横向所有列均值。

20505)输出诉求样本向量中心化处理结果向量。

作为优选技术手段：步骤206)中，协方差矩阵计算方法包括以下步骤：

20601)加载获取诉求样本向量中心化处理结果向量；

20602)获取诉求样本向量中心化数据的横向最大长度和纵向最大长度；

20603)进行迭代诉求样本向量中心化处理结果向量乘积计算；

20604)进行迭代计算乘积计算后向量除以行最大长度；

20605)输出协方差矩阵计算结果向量。

作为优选技术手段：步骤207)中，求解特征值矩阵包括以下步骤：

20701)定义诉求斜方差计算矩阵；

20702)对象矩阵化；

20703)获取特征值组成的对角矩阵；

20704)输出特征值矩阵。

作为优选技术手段：步骤208)中，求解标准化矩阵包括以下步骤：

20801)定义诉求特征值矩阵；

20802)对象矩阵化；

20803)获取标准化矩阵；

20804)输出标准化矩阵。

步骤209)中，主成分矩阵转化包括以下步骤：

20901)加载获取主成分矩阵输入向量，包括上述标准化转化矩阵、特征值矩阵、诉求样本向量；

20902)定义特征值矩阵向量化；1003)特征值矩阵向量转置；

20904)初始化定义主成分对象、特征值对象、特征值总值变量、指针、以及特征值矩阵横向最大长度和纵向最大长度；

20905)迭代计算将特征值矩阵对角线的元素进行置换；

20906)迭代求解特征值总和；

20907)迭代选取前几个主成分特征值，存入二维数组中；

20908)输出主成分矩阵向量。

作为优选技术手段：本方法采用Deeplearning4j框架的深度学习平台。所有功能实现组件式封装，扩展性较好，适应性强，新增变更功能可以随客户需求个性化定制，所有学习模型可以通过界面配置方式完成，减少开发人员压力，提升需求响应及时性。

有益效果：

1、基于深度学习的电力工单诉求点机器主动识别方法，实现增量样本滚动学习记忆，动态模型自适应修复，识别分类精度高。

2、以Deeplearning4j框架为技术突破口，所有功能实现组件式封装，扩展性较好，适应性强，新增变更功能可以随客户需求个性化定制，所有学习模型可以通过界面配置方式完成，减少开发人员压力，提升需求响应及时性。

3、可以高效地识别电力工单诉求点，缓解一线工作人员压力，通过机器智能定位客户精细诉求，提升客户需求响应效能，强化服务风险监督管控能力。

附图说明

图1是本发明流程示意图。

图2是本发明样本工单诉求多维矩阵向量化流程示意图。

图3是本发明样本学习训练固化模型流程示意图。

图4是本发明相似度模型识别分类流程示意图。

图5是本发明样本诉求中心化处理流程示意图。

图6是本发明样本协方差矩阵计算流程示意图。

图7是本发明求解特征值矩阵流程示意图。

图8是本发明求解标准化矩阵流程示意图。

图9是本发明诉求主成分矩阵转化流程示意图。

具体实施方式

以下结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1所示，一种基于深度学习的电力工单诉求点识别方法，包括以下步骤：

为了实现工单诉求高维矩阵向量化，如图2所示，步骤2)中，工单诉求高维矩阵向量化包括以下步骤：

201)诉求点结构化分类数组；

202)根据诉求点分类进行样本按类分组加载样本数据；

203)提取各诉求点样本单词集合；

204)按类分组诉求样本简单向量化；

205)诉求样本向量中心化处理；

206)协方差矩阵计算；

207)求解特征值矩阵；

208)求解标准化矩阵；

209)主成分矩阵转化；

210)矩阵相乘转化；

如图5所示，步骤205)中，诉求样本向量中心化处理方法包括以下步骤：

20502)获取上述诉求向量横向最大长度和纵向最大长度；

20504)横向迭代计算，诉求简单向量减去横向所有列均值。

20505)输出诉求样本向量中心化处理结果向量。

如图6所示，步骤206)中，协方差矩阵计算方法包括以下步骤：

20601)加载获取诉求样本向量中心化处理结果向量；

20603)进行迭代诉求样本向量中心化处理结果向量乘积计算；

20604)进行迭代计算乘积计算后向量除以行最大长度；

20605)输出协方差矩阵计算结果向量。

如图7所示，步骤207)中，求解特征值矩阵包括以下步骤：

20701)定义诉求斜方差计算矩阵；

20702)对象矩阵化；

20703)获取特征值组成的对角矩阵；

20704)输出特征值矩阵。

如图8所示，步骤208)中，求解标准化矩阵包括以下步骤：

20801)定义诉求特征值矩阵；

20802)对象矩阵化；

20803)获取标准化矩阵；

20804)输出标准化矩阵。

如图9所示，步骤209)中，主成分矩阵转化包括以下步骤：

20902)定义特征值矩阵向量化；1003)特征值矩阵向量转置；

20905)迭代计算将特征值矩阵对角线的元素进行置换；

20906)迭代求解特征值总和；

20907)迭代选取前几个主成分特征值，存入二维数组中；

20908)输出主成分矩阵向量。

工单诉求特征向量化决定最终的诉求点识别预测精度,因此在工单诉求文本向量转化过程，尽可能保留诉求特征值，同时在向量矩阵中特征避免采用0,1简单数值表述，否则会形成稀疏矩阵，在实际模型预测准确率不高。

在深度置信神经网络结构设置方面，综合计算资源和准确率，步骤3)中，深度置信神经网络，采用6层网络结构，输入层神经元3000个，隐藏层神经元数分别为500、200、500、100、100，输出目标为50，并选用tanh非线性函数作为隐含层的激活函数，以softmax函数为输出层激活函数，其中学习速率learningRate取0.1，动量系数rmsDecay0.85，正则参数L2取0.001。有效建立深度置信神经网络结构。

为了实现样本学习训练及固化，如图3所示步骤4)中，样本学习训练及固化包括以下步骤：

403)加载诉求高维矩阵向量处理结果数据；

404)将实例化向量数据顺序随机排列；

406)数据库同步记录学习进度；

407)对实例化向量数据进行分组学习；

408)分组学习完成，重新初始化向量索引；

为了实现相似度模型识别分类，如图4所示，步骤5)中，相似度模型识别分类包括以下步骤：

501)获取加载经学习训练固化的诉求样本模型；

502)基于训练固化模型实例化模型对象；

504)待识别分类工单受理内容语句分词处理；

505)语句分词转向量处理；

506)基于学习模型获得该诉求工单分类输出向量；

本实例采用Deeplearning4j框架的深度学习平台,是基于Java的神经网络的深度学习框架，可以构建、定型和部署神经网络，并提供接口与Hadoop和Spark有效集成，能进行大数据云计算分析处理。能支持数据、文本、图像、语音等多种形式的深度学习。所有功能实现组件式封装，扩展性较好，适应性强，新增变更功能可以随客户需求个性化定制，所有学习模型可以通过界面配置方式完成，减少开发人员压力，提升需求响应及时性。

本实例中，投诉诉求点机器识别分类细则包括营商环境、电费电价、电能计量、客户用电基础信息、服务渠道、新兴业务等10大板块共190项诉求点，具体按下表一所示：

表一：投诉诉求点机器识别分类细则

本实例中，服务申请诉求点机器识别分类细则包括办电业务、电费电价、电能计量、基础信息等11大板块共55项诉求点，具体按下表二所示：

表二：服务申请诉求点机器识别分类细则

本实例中，意见诉求点机器识别分类细则包括渠道服务、光伏发电、电动汽车、供电质量等10大板块共123项诉求点，具体按下表三所示：

表三：意见诉求点机器识别分类细则

以上图1-9所示的一种基于深度学习的电力工单诉求点识别方法是本发明的具体实施例，已经体现出本发明突出的实质性特点和显著进步，可根据实际的使用需要，在本发明的启示下，对其进行形状、结构等方面的等同修改，均在本方案的保护范围之列。

Claims

1.一种基于深度学习的电力工单诉求点识别方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的电力工单诉求点识别方法，其特征在于：步骤2)中，所述的工单诉求高维矩阵向量化包括以下步骤：

201)诉求点结构化分类数组；

202)根据诉求点分类进行样本按类分组加载样本数据；

203)提取各诉求点样本单词集合；

204)按类分组诉求样本简单向量化；

205)诉求样本向量中心化处理；

206)协方差矩阵计算；

207)求解特征值矩阵；

208)求解标准化矩阵；

209)主成分矩阵转化；

210)矩阵相乘转化；

211)输出诉求转化高维向量。

3.根据权利要求1所述的一种基于深度学习的电力工单诉求点识别方法，其特征在于：步骤3)中，所述的深度置信神经网络，采用6层网络结构，输入层神经元3000个，隐藏层神经元数分别为500、200、500、100、100，输出目标为50，并选用tanh非线性函数作为隐含层的激活函数，以softmax函数为输出层激活函数，其中学习速率learningRate取0.1，动量系数rmsDecay0.85，正则参数L2取0.001。

4.根据权利要求1所述的一种基于深度学习的电力工单诉求点识别方法，其特征在于：步骤4)中，所述的样本学习训练及固化的实现包括以下步骤：

403)加载诉求高维矩阵向量处理结果数据；

404)将实例化向量数据顺序随机排列；

406)数据库同步记录学习进度；

407)对实例化向量数据进行分组学习；

408)分组学习完成，重新初始化向量索引；

409)完成学习任务，将训练固化模型回写数据库。

5.根据权利要求1所述的一种基于深度学习的电力工单诉求点识别方法，其特征在于：步骤5)中，所述的相似度模型识别分类包括以下步骤：

501)获取加载经学习训练固化的诉求样本模型；

502)基于训练固化模型实例化模型对象；

504)待识别分类工单受理内容语句分词处理；

505)语句分词转向量处理；

506)基于学习模型获得该诉求工单分类输出向量；

507)遍历分类，输出向量获取其最大值对应的诉求细分标签，转步骤503)。

6.根据权利要求2所述的一种基于深度学习的电力工单诉求点识别方法，其特征在于：步骤205)中，诉求样本向量中心化处理方法包括以下步骤：

20502)获取上述诉求向量横向最大长度和纵向最大长度；

20503)计算诉求向量，累加计算向量所有值，求解横向所有列均值；

20504)横向迭代计算，诉求简单向量减去横向所有列均值；

20505)输出诉求样本向量中心化处理结果向量。

7.根据权利要求2所述的一种基于深度学习的电力工单诉求点识别方法，其特征在于：步骤206)中，协方差矩阵计算方法包括以下步骤：

20601)加载获取诉求样本向量中心化处理结果向量；

20603)进行迭代诉求样本向量中心化处理结果向量乘积计算；

20604)进行迭代计算乘积计算后向量除以行最大长度；

20605)输出协方差矩阵计算结果向量。

8.根据权利要求2所述的一种基于深度学习的电力工单诉求点识别方法，其特征在于：步骤207)中，求解特征值矩阵包括以下步骤：

20701)定义诉求斜方差计算矩阵；

20702)对象矩阵化；

20703)获取特征值组成的对角矩阵；

20704)输出特征值矩阵。

9.根据权利要求2所述的一种基于深度学习的电力工单诉求点识别方法，其特征在于：步骤208)中，求解标准化矩阵包括以下步骤：

20801)定义诉求特征值矩阵；

20802)对象矩阵化；

20803)获取标准化矩阵；

20804)输出标准化矩阵。

10.根据权利要求2所述的一种基于深度学习的电力工单诉求点识别方法，其特征在于：步骤209)中，主成分矩阵转化包括以下步骤：

20902)定义特征值矩阵向量化；1003)特征值矩阵向量转置；

20905)迭代计算将特征值矩阵对角线的元素进行置换；

20906)迭代求解特征值总和；

20907)迭代选取前几个主成分特征值，存入二维数组中；

20908)输出主成分矩阵向量。