CN111598417A

CN111598417A - 一种基于自然语言处理的电力非抢修单派发方法

Info

Publication number: CN111598417A
Application number: CN202010355380.6A
Authority: CN
Inventors: 翟千惠; 殷鸣; 王艳; 孙昕杰; 殷蓓; 杜小瑾; 常鹏华
Original assignee: Customer Service Center South Branch State Grid Co ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: Customer Service Center South Branch State Grid Co ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-08-28
Anticipated expiration: 2040-04-29
Also published as: CN111598417B

Abstract

本发明涉及计算机系统数据处理以及人工智能领域，尤其涉及一种基于自然语言处理的电力非抢修工单派发方法，其特征在于：对客户描述数据进行处理分词获得非抢修的具体内容；派单模型根据得非抢修的具体内容进行电力非抢修单派发；分词过程为：通过分析历史非抢修任务生成非抢修任务数据集，通过非抢修任务数据集以关键字与核查区域为关键字索引生成自定义词典；形成有向无环图，生成所有的成词方式；将客户描述分割成词语，判断词语是否在自定义词典中，若在，依据有向无环图生成的成词方式，根据动态规划算法找出最大概率路径，并有向无环图进行分词，若不在，基于LDA的自然语言处理进行分词。本发明减轻电力非抢修派单的工作量，提高工作效率。

Description

一种基于自然语言处理的电力非抢修单派发方法

技术领域

本发明涉及计算机系统数据处理以及人工智能领域，尤其是一种适用于电力部门进行电力非抢修任务的管理技术，具体地说是一种基于自然语言处理的电力非抢修单派发方法。

背景技术

当今，随着信息化社会不断发展，全社会对用电提出了更高要求。随着社会用电量需求的激增，电网的安全运行面临着极大的挑战，各种用电问题也随之而来。这些问题对很多公司和产业都造成了巨大的影响，同时也对社会经济造成了不可估量的损失。为了解决现有电力非抢修问题，例如：停电用户复电、处理用户投诉与咨询等，人工的投诉与反馈就成了最为有效的解决方式，而实际情况是大量的用户会通过投诉与反馈的方式进行服务申请，而导致电网公司的人工客服难以接待如此大规模的投诉反馈，且因为存在地区差异、语言差异，投诉反馈有时也难以得到及时有效的处理。此外由于不同地区的人员、场地、核查内容造成的潜在影响，非抢修工单派发及时率及正确率会随之下降。传统人工派单会存在流程缓慢、相关人员对问题理解不清等问题，这些问题也将造成工单的处理不及时。多个客服可能接到不同人员反馈的同一问题后，可能对同一个问题生成多个工单并进行了派送，从而出现多人处理同一个问题的情况，这将导致极大的人员与资源浪费。

为了稳步推进配电自动化、信息化建设，切实提高用户用电满意度，圆满完成各项保电任务与解决供电问题。因此实现一种智能化的电力非抢修单派发方法显得尤为重要。

目前电力系统派单分为抢修类型与非抢修类型，抢修类型解决的是因为设备故障需要现场维修的用户反馈与投诉，而非抢修类型主要解决非设备故障类型的用户反馈与投诉，本发明的目的是针对现有的非抢修派单主要依靠人工接收和反馈的方式，存在工作量大，处理不及时等问题，发明一种能识别来电人员诉求和自动下发任务的基于自然语言处理的电力非抢修单派发方法。

发明内容

本发明的目的是为了提供一种基于自然语言处理的电力非抢修单派发方法，减轻电力非抢修派单的工作量，提高工作效率。

为解决以上技术问题，本发明的技术方案为：一种基于自然语言处理的电力非抢修单派发方法，所述方法步骤为：

对客户描述数据进行处理，数据处理的过程包括分词、去除停用词和映射分词的结果得出词映射表，根据词映射表获得非抢修的具体内容；派单模型根据非抢修的具体内容进行电力非抢修单派发；其中，所述分词过程为：通过分析历史非抢修任务生成非抢修任务数据集，通过非抢修任务数据集以关键字与核查区域为关键字索引生成自定义词典；加载自定义词典形成Tric树，并借用字典树词图扫描的高效性形成有向无环图，生成所有的成词方式；使用分词工具将客户描述分割成词语，判断该词语是否在自定义词典中，若在，依据有向无环图生成的成词方式，根据动态规划算法找出最大概率路径，用有向无环图进行分词，若不在，基于LDA的自然语言处理进行分词。

按以上方案，所述非抢修单任务数据集是根据历史非抢修任务数据提取与整理的，内容包括关键字、核查区域、任务类型、预计处理时间和推荐处理方案；其中，所述关键字包括电网业务场景中的专业术语以及客户常用询问用语。

按以上方案，所述的电力非抢修任务自定义词典是根据非抢修单任务数据集内容，以非抢修关键字与核查区域为索引生成的类似于词典的数据集，其查询速度快，用于匹配客户描述内容。

按以上方案，客户描述的词语若不在自定义词典中，则根据维特比算法和HMM算法进行分词。

按以上方案，所述派单模型是由Embedding层、基础模型以及融合网络三部分组成；基础模型由DNN，CNN，LSTM的结果以及主模型三部分组成。

按以上方案，所述的词映射表用W_index＝{(W₁:id₁),(W₂:id₂),…}表示；W表示词语，index 表示该词对应的id，所以W_index的维度是词语字符长度的两倍。

本发明具有如下有益效果：

本发明以自然语言处理技术分析出工单内容，达到系统自动合理地派发工单的目的，能大大减轻电力非抢修派单的工作量，提高工作效率。

本发明有利于人工投诉与反馈的及时处理，解决不同地区差异、语言差异，及时有效地对投诉反馈进行处理。此外，

本发明能彻底解决不同地区的人员、场地、核查内容造成非抢修工单派发难度大的问题，提高非抢修工单派发及时率及正确率。

本发明为稳步推进配电自动化、信息化建设提供了方便，有利于扎实推进配网不停电作业，圆满完成各项保电任务。

附图说明

图1是本发明实施例的电力非抢修任务分词流程示意图；

图2是本发明实施例的DDPG在电力非抢修派单中的算法结构示意图；

图3是本发明实施例的基于强化学习的客户分流流程示意图；

图4是本发明实施例的电力非抢修派单模型框架示意图；

图5是本发明实施例的电力非抢修派单模型示意图；

图6是本发明实施例的系统流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明作进一步详细说明。

请参考图1至图6，本发明为一种基于自然语言处理的电力非抢修单派发方法，为了自动识别出电力非抢修的任务类型，需要对可要描述的电力非抢修任务进行识别，也即算法需要对客户的描述进行分词，从而自动提取出非抢修任务的具体类型内容进行派发。

1、电力非抢修任务派单流程。

在本发明实现过程中电力非抢修任务分词流程如图1所示。该流程是根据历史非抢修任务构建非抢修单任务数据集，而后根据该数据集定义电力非抢修任务自定义词典，形成有向无环图。而在得到客户在描述的电力非抢修任务后，算法会自动获取客户所描述中所出现的关键字，基于该关键字在自定义词典中进行查找，如果在自定义词典中找到该关键字则利用动态规划算法推断出电力非抢修任务的具体类型；如过该关键字不在自定义词典中时，将会对该关键字进行基于LDA的自然语言处理从而获得电力非抢修的具体内容。在分词过程中，通过历史数据构建电力非抢修任务数据集使得一部分电力非抢修任务能够更加快速的被识别出来从而使得电力非抢修任务的能够得到及时的派发，而对于未出在数据集中的关键字，算法采用自然语言处理的方式也能够有效的保证电力非抢修任务被准确识别从而使得电力非抢修任务能够得到派发。LDA(Latent Dirichlet Allocation)是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。采用这种技术可以用来识别大规模文档集或语料库中潜藏的主题信息。目的是为了自动识别抢修内容进行自动识别，尽可能准确地分析出工单内容。

2、客户派单算法整体架构。

电力非抢修任务派单算法主要考虑以下三个方面：

(1)通过客户派单算法提高客户派单模型中猜测客户遇到的问题的正确率，降低供电公司人工客服的负担；

(2)当数据是负例的时候，尽量将模型预测的结果远离负例的标签，从另一方面提高模型识别问题的正确率和准确性；

(3)与客户进行通话交流时，尽可能地获取所需数据，以免进行二次通话，减少一轮通话的对话次数，节省客户时间，同时减轻供电公司系统的压力，更好地服务客户；客户派单算法需要处理数据中的正例和负例，通过为数据的正例和负例添加权重，使算法达到最优。本发明使用了强化学习方法－DDPG模型(如图2所示)。表1描述了本发明所使用的主要符号。

表1：客户派单算法的符号描述

如图3所示，因为该模型的动作空间较大(a∈{a₁,a₂,…,a_n}，其中n＝3200)，所以客户派单算法基于Actor-Critic框架。Actor用于选择动作，Critic对Actor选择的动作进行评价。为了处理客户描述，Actor框架主要使用embedding和LSTM组成。在本文中，我们设计了神经网络作为Critic框架。

图3的环境实体，主要包含三个方面：(1)客户对自身问题的描述(使用EOF分割不同的句子)和(2)客户描述的标问id和(3)该数据集是正例(系统猜对了客户描述对应的标问id)，还是负例(系统猜错了客户描述对应的标问id)。在多轮对话中，客户可以多次描述自身问题，系统根据客户描述，猜测出客户对应的标准问题。在对话最后，客户会对系统猜测出的问题进行回应，如果客户否定了系统猜测出的问题，则该条数据被标记成负例，否则，标记成正例。在本文中，客户描述作为环境状态，有非常重要的时序信息，所以，我们使用了双向循环神经网络模型处理多轮对话。我们使用jieba分词工具对客户描述进行了分词，并根据词映射表W_index客户描述映射成固定维度的向量W_vector，为了提高模型的正确率，本文对客户描述向量进行了embedding，形成W_cm。

如图3的agent实体所示，Actor框架将根据观察到的状态(客户描述)选择动作(标问 id)，而Critic框架则生成状态动作对的值函数Q，用来判断Actor根据状态S选择的动作A 是否合理。

派单算法：

派单算法的流程如下所示：

3、电力非抢修派单算法基础模型。

3.1数据处理；

电力非抢修模型所用的数据来自于电网营销系统提供的派单数据。数据集中的客户描述长度不同，所以需要对其进行处理。主要包括以下几个步骤：

(1)分词：使用jieba分词工具将数据集中的中文客户描述分割成词语，主要分为以下步骤。步骤1：根据数据集收集电网业务场景中的专业术语以及客户常用询问用语(比如“电断了，电压不稳定”等)，形成自定义词典；步骤2：加载自定义词典形成Tric树，并借用字典树词图扫描的高效性形成有向无环图，生成所有的成词方式；步骤3：依据有向无环图生成的成词方式，根据动态规划算法找出最大概率路径，并有向无环图进行分词；步骤4：如果词语不在自定义词典D中，则根据维特比算法和HMM算法对句子进行分词。使用隐含马尔科夫模型描述的问题，也就是HMM(Hidden Markov Model)；而维特比算法是专门用来解决这类问题的动态规划算法；HHM是用于描述并解决自然语言处理问题的优秀方法。维特比算法是实际解决HHM建模出的问题的优秀算法。

(2)去除停用词：通过对派单模型的数据集进行分析，我们发现客户描述中有很多无意义的停用词，比如词语“我”，“我的”。为了提高算法效率，我们根据停用词表将客户描述中的停用词去掉。

(3)映射：根据分词的结果，对数据集中每的词语进行编号，并形成了词向量表W_index＝ {(W₁:id₁),(W₂:id₂),…}。W表示词语，index表示该词对应的id，所以W_index的维度是n_word* 2。例如：“电压不稳定”可以表示为{(电压:1),(不:2),(稳定:3)}。

3.2模型设计；

如图4所示，电力非抢修派单模型框架由Embedding层，基础模型以及融合网络三部分组成。基础模型由DNN，CNN，LSTM的结果以及主模型三部分组成。融合网络将DNN， CNN，LSTM的结果作为因子，先融合这三个模型的结果，作为P₁，然后将主模型的结果P₁和P₂融合在一起，输出最终结果。Embedding层由两层全连接网络组成，最终输出维度100 的中文句子的Embedding。

3.3基于强化学习的派单模型设计；

为了平衡数据的正例和负例，并实现减少对话次数和提高猜问题准确率的目标，本发明使用强化学习(DDPG模型)框架作为派单模型。因为动作空间相对较大，所以，将DDPG模型应用到派单任务上。以下对派单模型中的动作，状态，奖励函数和终止状态作一介绍。电力非抢修派单模型评论家框架如图5所示。

3.4.1动作；

派单算法的目标是根据客户对自身问题的描述，猜测客户遇到的具体的问题，所以派单算法动作空间是所有的标准问题，即n_actions＝n_problems。在本文中，n_problems＝6000，动作空间较大，所以使用表演者－评论家框架来处理该任务。

3.4.2状态；

在派单算法中，强化学习的状态是指客户对需要咨询问题的播述。主要的处理流程如下所示。步骤1：在同一轮对话中，两句话之间使用特定符号“EOF”分隔，告诉模型这是两句话；步骤2：使用jieba中文分词工具对客户描述进行分词，并根据词映射表W_index将词语映射成对应id，组成词向量W_id；步骤3：在词向量W_id的后面填充0，将客户对自身问题的描述映射成固定长度的向量W_vector。

3.4.3奖励函数；

派单任务中的目标是减少客户和系统通话的时间(本发明通过客户和系统对话的次数来量化表示)以及提高猜测客户需要咨询问题的正确率，同时兼顾正例和负例的平衡。所以，派单任务的奖励函数主要考虑以下三个方面：(1)模型猜测客户问题的正确率(最重要的指标)：(2)对话的次数；(3)正例和负例的权重。

根据以上三条，派单任务的奖励函数如公式3.1所示：

其中y^表示预测值，y表示真实标签，max_rounds表示一轮通话最多有几次对话，n_round 表示当前是第n_round次对话。

公式3.1的主要含义是：在数据是正例的条件下，如果模型猜对了客户咨询的问题，则奖励加上max_rounds，而奖励函数中n_round的意义是保证通话次数越多，奖励函数越小。在数据是负例的条件下，当模型猜测的问题和负例中的标签相同时，则给模型惩罚，即从奖励函数上减去1。而正例和负例的权重通过奖励和惩罚的程度不同来表示在数据是正例的情况下，模型猜对了客户的问题，奖励加上max_rounds；在数据是负例的情况下，模型猜测的问题和标签相同时，奖励仅减去1。

3.4.4终止状态；

在派单任务中，客户不可能一直通话，来解决遇到的问题，所以需要设置终止状态。根据业务逻辑，派单任务的终止状态包含两种情况：

(1)模型猜对了客户遇到的问题。当模型己经猜对了客户遇到的问题，模型就可以直接为客户分配业务线来解决客户遇到的具体问题，派单任务完成。

(2)当一轮通话中的对话次数超过max_rounds＝4时。受到客户的语言习惯，模型泛化性能和出现新问题等条件的限制，模型可能在一定时间内无法猜测出客户遇到的问题，为了提高客户的满意度，则直接使用人工为客户进行服务，模型猜问题的流程结束。这种情况也被视为终止状态。

探索－开发是强化学习两个重要的概念。探索的含义是尝试一种新的方式，而开发的含义是从己探知的环境中寻找最优的策略。在强化学习中，如何平衡好探索和开发也是一个重要的课题。在派单模型中，本发明使用在表演家框架上直接添加高斯噪声来实现这一策略，如公式3.2所示：

a＝a+H(μ,σ) (3.2)

使用参数σ来控制探索的概率，σ越大，表明添加的噪声变化越大，探索的概率越大，当σ＝0的时候，高斯噪声的值全部相同，探索的概率为0。当训练开始的时候，σ较大，而随着训练步数的增加，σ不断减小，减小速度为decay＝0.999，也就是说，模型每次训练之后，σ＝decay*σ。电力非抢修派单算法探索－开发的流程如下所示：

步骤1：输入动作空间维度a_n，衰减了decay；

步骤2：初始化方差σ＝0.8，均值μ＝0；

步骤3：根据表演者框架生成标准问题对应的概率，使用a表示；

步骤4：根据高斯公式随机生成a_n个0-1的小数，使用H(μ,σ)；

步骤5：使用公式3.2更新概率分布；

步骤6：如果模型训练一次，则σ＝decay*σ。

本发明实施例具体派单步骤包括设置关键字及提醒方式、设置区域路径、设置供电所路径、设置地址和SG186自动派单，如图6所示。

首先设置系统的关键字以及其提醒方式。当出现用电问题时，自动识别问题的所属类别的关键字，如：停电复电、电能表检测、问题核查等。确定关键词所属类别后，在派发非抢修工单时，会自动适配更合适的核查人员，并提醒其需要的操作。不同的提醒方式意味着问题代表的不同优先级，代表核查人员需在不同的指定时间内接受工单并前往现场。具体优先级包括：最高优先级(电话提醒+部门领导发布任务+APP界面提示)、高优先级(电话提醒+ 短信通知+APP后台提示)、中等优先级(短信通知+APP后台提示)以及普通优先级(APP 后台提示)。通过此配置，可以在维修前做好相应准备，从而高问题解决率。

其次设置区域路径。派发非抢修工单后，核查人员需要与发起工单诉求的人联系以便更好的了解问题情况，因为存在诉求人员专业水平层次不齐的情况，此功能的出发点是辅助核查人员了解详细情况。具体包括：诉求工单联系人与联系方式、派发口令、接派系统口令所属部门。相应的，诉求人员会接收到核查人员姓名、联系方式、所属部门等信息。在核查人员出发前，系统将自动提示核查人员设置好区域路径，诉求人员的相关信息将由系统自动注入，而核查人员的信息将由核查人员自行填写并提交。提交完毕，非抢修任务正式开始。核查人员将会按照指定路径在指定时限前抵达问题现场。

第三设置供电所路径。供电所作为一个地区供电的核心部门，其信息将会被公布在系统后台中，所有使用相应APP的人员也可以查询到相关信息。具体包括：所在区域、供电所名称、24小时值班人员(员工上下班交接时向系统提出修改信息申请)、24小时紧急联系人员 (仅高优先级及以上的问题可调度)、普通工作人员的联系方式。相应信息将由具有高权限的供电所负责人录入并提交。

第四设置地址。它的目的在于为维修人员提供目的地址时附带提供最优的路线。一个员工在外出工作时，将会携带1个及以上的核查工单，当工单数大于1时，本系统不仅要提供最优路径，还要根据不同非抢修任务的优先级、地区、预计核查时间、路程等多个因素分析出不同任务的核查次序。本系统面向的是庞大数量的非抢修需求、较大的区域跨度、不同的优先级别与优先的核查人员。此功能由系统设置并提供，在设置地址与路径时会考虑诸多因素。

最后SG186自动派单。实现自动派单采用通过在派单任务中与客户进行通话的方法，派单算法根据客户对自身问题的描述，猜测客户遇到的具体的问题。与客户进行电话时，系统会弹出窗口界面并对其进行侦听，派单算法对客户的描述进行分析，进而分析出相应的信息并存储在数据库中。具体包括：自动生成的单号、工单类型、工单子类型、户号、现场地址、诉求内容、工单优先级等等。此派单系统将会利用系统配置规则得到的信息与当前信息结合起来，利用自适应的派单算法得出详尽的具体工单。

系统会根据客户的问题，运行Dispatch文件下的指定文件进入到派单主界面，此界面主要包括以下非抢修工单的子状态：已受理、已派单、未到达、正在处理。具体字段如下：ID、非抢修工单状态、子单数、锁定人、核查时间、95598工单号、接单等级时间、工单核查时限、核查员、核查人员联系方式、目标区域、关键字、诉求人、诉求人联系方式。

当模型预判客户遇到的问题正确后，模型就可以直接为客户分配业务线来解决客户遇到的具体问题。系统通过派单算法判断客户问题，选择好派发的地区，进行自动派单。每次派单的数据将会显示在信息调阅的界面中，当工单中含有甲方给的敏感字段时将跳过该工单(只保存不派发)。

当通话结束后，由于客户的语言习惯、模型泛化性能以及出现的新问题等条件限制，模型可能在一定时间内无法猜测出客户遇到的问题，为了提高客户的满意度，则直接使用人工为客户进行服务，模型猜问题的流程结束。在转为人工服务时将重新设定数据，此时需要工作人员重新填写工单内容并确定派发。

本发明未涉及部分与现有技术相同或可采用现有技术加以实现。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于自然语言处理的电力非抢修单派发方法，其特征在于，所述方法步骤为：

对客户描述数据进行处理，数据处理的过程包括分词、去除停用词和映射分词的结果得出词映射表，根据词映射表获得非抢修的具体内容；派单模型根据非抢修的具体内容进行电力非抢修单派发；其中，所述分词过程为：

通过分析历史非抢修任务生成非抢修任务数据集，通过非抢修任务数据集以关键字与核查区域为关键字索引生成自定义词典；

加载自定义词典形成Tric树，并借用字典树词图扫描的高效性形成有向无环图，生成所有的成词方式；

使用分词工具将客户描述分割成词语，判断该词语是否在自定义词典中，若在，依据有向无环图生成的成词方式，根据动态规划算法找出最大概率路径，用有向无环图进行分词，若不在，基于LDA的自然语言处理进行分词。

2.根据权利要求1所述的基于自然语言处理的电力非抢修单派发方法，其特征在于：所述非抢修单任务数据集是根据历史非抢修任务数据提取与整理的，内容包括关键字、核查区域、任务类型、预计处理时间和推荐处理方案；其中，所述关键字包括电网业务场景中的专业术语以及客户常用询问用语。

3.根据权利要求1所述的基于自然语言处理的电力非抢修单派发方法，其特征在于：所述的电力非抢修任务自定义词典是根据非抢修单任务数据集内容，以非抢修关键字与核查区域为索引生成的类似于词典的数据集，其查询速度快，用于匹配客户描述内容。

4.根据权利要求1所述的基于自然语言处理的电力非抢修单派发方法，其特征在于：客户描述的词语若不在自定义词典中，则根据维特比算法和HMM算法进行分词。

5.根据权利要求1所述的基于自然语言处理的电力非抢修单派发方法，其特征在于：所述派单模型是由Embedding层、基础模型以及融合网络三部分组成；基础模型由DNN，CNN，LSTM的结果以及主模型三部分组成。

6.根据权利要求1所述的基于自然语言处理的电力非抢修单派发方法，其特征在于：所述的词映射表用W_index＝{(W₁:id₁),(W₂:id₂),…}表示；W表示词语，index表示该词对应的id，所以W_index的维度是词语字符长度的两倍。