CN112419096A

CN112419096A - 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法

Info

Publication number: CN112419096A
Application number: CN202011406933.2A
Authority: CN
Inventors: 祁伟; 高敏; 吕湛; 殷蓓; 申张亮; 夏琳慜; 王梦园; 高淑婷
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-02-26
Anticipated expiration: 2040-12-04
Also published as: CN112419096B

Abstract

本发明公开了基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，包括以下步骤：步骤1：利用RPA提取用户用电诉求工单的受理内容及用户信息；构建工单派发模型；步骤2：采用NLP信息抽取方法，将不规则的受理内容文本结构化，提取用户用电诉求工单的关键信息；步骤3：将关键信息输入工单派发模型，实现部分用户用电诉求工单的自动下派；步骤4：采用自然语言处理的少样本学习方法，记录并训练人工派单的工单处置结果，形成新的自派发路径，更新工单派发模型；步骤5：将步骤2的获得的关键信息输入经过更新的工单派发模型，实现用户用电诉求工单的自动下派。本发明派发范围大、准确度高。

Description

基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法

技术领域

本发明属于互联网技术领域，尤其涉及一种基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法。

背景技术

当前，供电服务指挥中心主要依靠人工坐席通过供电服务指挥系统完成用户用电服务诉求的处置和管控。在实际工作中，供电服务指挥系统尚无法独立完成上述业务，需要与现有系统配合完成，如PMS、用户采集系统等，很多工作需要人工操作完成、衔接并研判信息，低效繁琐，容易出现错漏，影响服务指标。

为了解决上述问题，部分地市公司先后引入了工单自动流转机制和工具，在建立强规则和唯一路径的情况下，实现了小部分工单的自动下派。但在实际工作中，存在如用户诉求分类不清晰，受理内容表述不具体，用户基本信息录入不全面，用电服务范围不确定，处置部门机构调整等诸多不确定因素，往往会出现漏派、错派等问题，从而影响到正常的人工作业。因此在实现自动派单的范围需要进一步扩大的同时自动派单的准确度也亟待提高。

发明内容

本发明的目的是为了提供一种基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，适用于用户用电诉求工单自动流转，派发范围大、准确度高。

为解决以上技术问题，本发明的技术方案为：基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其步骤包括：

步骤1：利用RPA提取用户用电诉求工单的受理内容及用户信息；构建工单派发模型；

步骤2：采用NLP信息抽取方法，将不规则的受理内容文本结构化，提取用户用电诉求工单的关键信息，扩大自派发范围；

步骤3：将关键信息输入工单派发模型，工单派发模型对能提取到关键信息的工单自动下派；针对在输入关键信息至工单派发模型后无法找到下派路径的工单流转给人工进行处理后执行步骤4；

步骤4：采用自然语言处理的少样本学习方法，记录并训练人工派单的工单处置结果，形成新的自派发路径，对人工派单方式进行少样本学习，更新工单派发模型；

步骤5：将步骤2的获得的关键信息输入经过更新的工单派发模型，进一步实现用户用电诉求工单的自动下派。

按以上方案，步骤1中，用户用电诉求工单的数据源为：客服系统中投诉受理工单、回访不满意工单信息；营销系统和配网抢修平台提供的工单受理时间、故障区域、故障所在线路的基本信息；反映客户诉求信息的投诉受理记录内容和投诉处理过程记录。

按以上方案，所述步骤2具体为：基于NLP技术实现用户用电诉求工单中的句子分割，通过对工单中形成的句子进行编码，拆分句子；对工单中出现的词汇进行标记；对被标记的词汇的词性进行预测；判断每个词汇在工单中的作用，获取到用户用电诉求工单上出现的结构化数据，得到关键信息。

按以上方案，对被标记的词汇的词性进行预测时，具体使用循环神经网络来处理后面的输入依赖前面的输入的序列关系。

按以上方案，结构化数据包括诉求时间、用电信息和用户情感。

按以上方案，所述步骤3还包括训练工单派发模型的步骤：基于关键信息，构建工单文本分类的特征词库矩阵，完成特征提取；以特征词库矩阵作为工单派发模型输入对工单派发模型进行分类训练；从而进一步实现用户用电工单派发模型的策略的产生。

按以上方案，所述利用小样本学习方法对工单进行训练的方法为：

工单派发模型使用 CBoW模型将词表示词向量；

工单派发模型采用TextCNN来对词向量进行特征提取输出文本的特征向量；

工单派发模型将所有文本的特征向量输入基于多项式分布建模的softmax分类器进行分类判定，输出每一个文本对应的类别并与已有的标签进行对比；迭代训练得到分类更新后的工单派发模型。

按以上方案，所述步骤4中，对人工派单方式进行少样本学习包括因素处置行为的学习，因素处置行为包括：用户所在台区、用户所在社区和工单处理部门。

按以上方案，所述步骤4中，利用随机森林算法来实现新旧模型之间的更新。

本发明基于供电服务坐席用户用电诉求工单处置的RPA自动流转的工单派发模型，利用自然语言处理技术（NLP）的信息抽取技术分支，进而提取出用户用电诉求的不规则化文本内容，分析诉求工单下派逻辑，结构化用户诉求，提高工单自动流转的派发范围；此外，利用NLP的少样本自学习技术，自我学习没有强逻辑规则下的人工干涉行为，完善诉求工单下派路径，提高工单自动流转的派发深度，从而做到快速响应用户用电诉求，提高供电服务效率与质量。

与现有技术相比，本发明具有如下有益效果：

1）在设计用户用电诉求工单自动流转过程时，不侵入任何现有系统与数据，独立运行。

2）在实现用户用电诉求工单自动流转过程中，能够自动分析用户诉求内容文本信息和用户情感，较之以往的强逻辑自动派发工具，自动派发范围覆盖更为广泛，适应度更强。

3）在执行用户用电诉求工单自动流转过程时，能够在少量人工干涉结果的基础上，自动优化派发路径，较之以往的唯一路径派发工具，自动派发成功率更高，对不确定因素的反应更灵敏。

附图说明

图1是本发明的用户用电派单步骤流程图；

图2是本发明的RNN网络在工单关键信息提取结构示意图；

图3是本发明的CBoW在工单进一步学习模型的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明作进一步详细说明。

请参考图1，本发明为一种基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其步骤包括：

步骤1：利用机器人流程自动化（RPA）提取用户用电诉求工单的受理内容及用户信息；构建工单派发模型。

RPA实施的用户用电诉求工单内容提取过程主要是对工单数据进行粗粒度提取。在对用户用电工单进行数据采集过程更多的是与本地存留的用户用电工单数据的交互（工单时间信息、任务诉求信息、用户基本信息等），而数据提交过程更多的是与用户用电工单派发模型之间的交互过程（登录、数据填写、提交等动作）。由于RPA所实现的用户用电诉求工单内容的提取时只需要对内部数据进行交互，因此，在一定程度上保证了用户用电数据的安全性和隐私性。

在已有的供电服务指挥系统基础上，利用RAP的无侵入特性接入电力用户工单流转的“市级接单分理”节点，并获取节点上用户诉求信息，不影响当前系统运行，亦无须数据接口，保证数据安全和系统稳定。

具体实现步骤如下：首先，利用RPA工具，通过脚本的预定义，工单内容提取机器人自动登录用户用电工单管理系统、用户用电管理系统按照用户用电诉求工单批量导出基础业务数据。其中，主要的数据来源有：①国网95598客服系统中投诉受理工单、回访不满意工单信息；②营销系统和配网抢修平台提供的工单受理时间、故障区域、故障所在线路等基本信息；③反映客户主要诉求信息的投诉受理记录内容、投诉处理过程记录。其次，机器人自动获取事先维护好的用户用电诉求信息用以生成用户用电诉求报表底稿。此外，对于需要调整的信息，如自动生成的单号、工单类型、工单子类型、户号、现场地址、诉求内容、工单优先级自动通过设定好的规则进行调整，借助预置的校验公式进行报表的校验。最后，机器人将处理好的用户用电诉求数据放到统一的文件夹，由人工进行审查（或干预），并作为自然语言处理的数据源。

步骤2：采用NLP信息抽取方法，将不规则的受理内容文本结构化，提取用户用电诉求工单的关键信息，扩大自派发范围。

为了实现用户用电诉求工单自动流转，需要对用户用电诉求工单的关键内容进行结构化提取。因此，首先基于NLP技术实现用户用电诉求工单中的句子分割，通过对工单中形成的句子进行编码，获取到用电诉求工单被分割模型可以很简单地在任何看到标点符号的时候拆分句子。其次，对用户用电工单中出现的词汇进行标记。通过将用户用电工单文档分割成句子，再把这个句子分成不同的单词或标记（标记化）。此外，对用户用电工单上出现的被标记的词汇的词性进行预测。最后，在识别得到标记后，通过获取词汇的词类从而判断每个词汇在工单中的作用以便机器理解句子意思。基于此，获取到用户用电诉求工单上出现的“诉求时间”、“用电信息”、“用户情感”等结构化数据，以便进行工单自动派发过程。

例如：电力公司接到投诉工单的处理内容文本为：“4月2日晚，XX 供电所接到投诉工单后，供电所所长立即开展仔细的调查，调查结果是：4月2日19：05，由于突然的恶劣天气，导致变电所10 kV线路的995线和991线均同时被雷击跳闸停电，为尽快恢复供电，供电所值班人员全部外出抢修，值班室内只留有保安人员一人应急处理值班电话接听工作；由于停电面积广，停电咨询电话较多，供电所3个值班电话****3901，****3832，****6866同一时间响起（当时投诉人潘先生拨打电话****6866），保安忙于处理其他2 个值班电话，导致投诉人潘先生等待时间长，并产生焦急心理，待电话接通时，潘先生语气较急，认为保安拖延，服务态度差。”

在使用自然语言处理方法对用户用电工单进行处理的过程中，经常需要处理后面的输入依赖前面的输入这种序列关系。比如，预测工单上出现句子的下一个单词，需要记住前面的单词。因此，通过使用循环神经网络（Recurrent Neural Network, RNN）来实现该目的。作为一种按照时间序列展开的递归神经网络，循环神经网络的最主要和最重要的功能是隐藏状态，可以借助隐藏层记住序列的一些有关信息，从而解决这个问题。

循环神经网络结构如图2所示，包括输入层、隐藏层和输出层三部分。从图中可以看出，循环神经网络是按照时间序列展开的，每一时刻都有两个输入，一个是原始输入x _t，而另一个是上一时刻的隐藏输出S _t-1，然后再根据这两个输入产生本时刻的输出O _t和隐藏输出S _t，计算如公式(1)和(2)所示。

其中，U和W是输入层到隐藏层的参数矩阵，V为偏置的参数矩阵，

为激活函数。

在上面的单元中，隐状s _t可以被当做是当前单元的存储信息，记忆之前所有单元的信息。但是随着输入数据的增多，固定大小的s _t只能记忆一定的信息，不能记住很长时间之前的信息。当前输入和前一个隐状态输出联合计算得到输出o _t。不同于其它神经网络，循环神经网络在所有时间步都使用相同的参数 (U,W,V)，减小了训练过程需要的参数量。在有些任务中，每个时间步都需要输出o _t，比如文本生成；而在另外一些任务中，只需要在最后时间步输出一个结果，不需要每个时间步都输出，“诉求时间”、“用电信息”、“用户情感”等结构化关键信息。

通过上述方式，文本中出现的“恶劣天气”、“拖延”和“态度差”等词汇与特征词库中“拖延”、“态度差”等词汇契合，匹配成功后，查找这2个词统属的标签，假设标签为“服务态度差”，则将问题标签“服务态度差”与该工单进行关联，将此作为该工单的问题点；将“天气恶劣”等词汇与原因特征词库进行匹配，匹配成功后，查找这个词统属的标签，假设标签为“客观原因”，则将此原因标签与该工单进行关联，将此作为该工单的原因点。通过模型的使用，特征词库的不断调整，也是一个不断优化的过程。

步骤3：将关键信息输入工单派发模型，实现部分用户诉求工单的自动下派；工单派发模型对能提取到关键信息的工单自动下派；针对在输入关键信息至工单派发模型后无法找到下派路径的工单流转给人工进行处理后执行步骤4；

用户用电工单中存在较多的标点符号，以及助词、副词、介词、连词等非功能性的停用词，模型训练时使用通过自然语言处理的文本数据，基于预训练算法模型的用户用电工单自动派发流程包含文本预处理、模型构建、效果评估三大环节，分类的详细流程步骤如下：

（1）数据输入：一个用户用电工单描述为一条数据，表示为一个数据集Y，得到带训练向量集合

；

（2）构建自然语言处理后的关键信息：借助自行编撰的电力专业词典，对得到的关键信息进行分词

，其中一个工单文本为i，工单文本中的一个分词为j。此外，采用分布式文本表示，将文本分词后的每一个词转化为向量化的数值，如“变压器”的向量化表示为[50451,0.68607,0.59517,,…,0.68229,0.81722]；

（3）特征构建：构建工单文本分类的特征词库矩阵，完成特征提取，可有效降低特征空间维数，提高运行效率、降低复杂度、提高分类准确率，特征矩阵如下：

（4）模型训练：将特征矩阵

作为算法模型输入，实现对用户用电工单的流转。其中 70% 数据训练集，30% 数据测试集，对分类模型进行训练。

（5）效果评估：通过对采用准确率、召回率、精度、F1 值四个指标对工单派发效果进行综合评价，逐步调整模型参数，指标符合预期为止。

步骤4：对于输入关键信息后模型无法找到下派路径的工单，采用自然语言处理的少样本学习技术，记录并分析人工干涉后的工单处置结果，形成新的自派发路径；对人工派单方式进行少样本学习，更新工单派发模型；

利用小样本学习技术对历史工单进行训练，将获得的规律作为模型保存下来是本发明所实现的核心。而事实上这个过程实际是一个文本分类的过程，主要又由以下三个步骤组成。

（1）工单提取文本的表示。为了使计算机可以理解预处理以及分词后的文本，用户用电工单派发模型需要将词语向量化表示。在实现过程中，用户用电工单派发模型使用 word2vec 模型将词表示为一个固定维度的稠密向量，该向量的每一维都包含了词语特征。与传统离散型的 one-hot编码方式相比，使用 word2vec 模型进行词向量化在训练速度上更有优势。word2vec 框架包含了两种不同的子模型，分别为CBoW模型和 Skip-Gram 模型。 CBoW模型是根据文本中上下文的词来预测中心词，而 Skip-Gram 模型与之相反，通过中心词来预测上下文的词。为实现词向量的表示，在发明的实现过程中是采用CBoW模型。CBoW是一个三层的模型结构，如图3所示。定义输入层到隐藏层的权值矩阵为

，隐藏层到输出层的权值矩阵

，其中，n表示词向量的维度，它和隐藏层神经元的个数相同，

表示词汇表的大小。同样，当一个词w _t是该模型的输出时，矩阵 U 的第 j行就是该词的嵌入向量，记为u _j。假设中心词为w _t，窗口为m，则输入的词则是以w _t为中心的上下文词：

其中，输入词都以 one-hot 向量的形式表示，通过将输入词和权值矩阵V 相乘，可以得到每一个词所对应的词向量表示：

由于CBoW模型需要将上下文的词同时作为输入送入网络进行训练，所以需要对窗口内m 个输入词向量计算一次均值，即：

最后将获得的词向量均值与权值矩阵U 相乘，生成一个分值向量：

其中

。由于相似向量的内积较大，所以通过大量文本的训练会使得相似词

的词向量越来越相似，可以获得更高的分数。

最后，使用softmax激活函数将分值转换成概率：

在实际训练中，神经网络希望训练获得的y与实际样本数据的中心词w _t尽可能的相近，所以定义交叉熵损失函数进行反向传播的训练，如公式所示：

（2）工单特征提取。中文语句的特征主要体现在词与上下文的局部相关性，用户用电工单派发模型在实现过程中选用TextCNN来对词向量进行特征提取，该算法是利用卷积神经网络对文本的词向量进行特征抽取的算法。如果分解后的词向量表示为一个D维向量，则一句长度为 L 的文本可以表示为一个 L×D的矩阵。为了从一维卷积中获取不同的特征向量，我们使用可变宽度且大小为N×D的卷积核对该文本进行特征提取，这样每一个卷积核都会输出L-N+1个特征向量。将每一组卷积核提取到的特征向量的最大值级联可以得到该组卷积核的最终特征向量，再将每一组卷积核最终特征向量的最大值级联可以得到该文本的最终特征向量。

（3）分类器。由于用户用电工单分类是一种互斥的多类别分类，用户用电工单派发模型选择将所有文本的特征向量输入基于多项式分布建模的softmax分类器进行分类判定，输出每一个文本对应的类别并与已有的标签进行对比。其中，softmax作为逻辑回归模型在多分类问题上的推广，当分类数为2时会退化为逻辑分类问题。在实现对用户用电工单进行分类的过程中，类标签y可以取两个以上的值，softmax所遵循的概率分布表示为（10），其中z分类器上一层的输出，softmax的输入维度为C，y _i为与此对象属于第c类的概率：

通过验证分类结果和标注结果，进而不断反馈调整模型的参数，经过大量迭代的训练后保存分类准确率最高的模型及其权重参数。

此外，通过收集每日用户用电工单处理人工系统增量同步办结的工单数据，其内容主要包括用户用电工单描述及解决方案。利用最新的用户用电工单数据，可以定期重新训练并更新现有工单派发模型。同时已办结工单的最终处理结果可以反馈给用户用电工单派发模型，结合先前推荐的结果统计出当前用户用电工单派发模型的实际准确率并分析派单错误可能的原因。

步骤5：将步骤2的获得的用户用电关键信息输入经过更新的工单派发模型，进一步实现用户诉求工单的自动下派。为实现对工单派发模型的更新，利用随机森林算法来实现新旧模型之间的更新。具体而言，Bagging算法是集成算法的重要成员之一，其主要思想是：假设训练数据集D包含N个样本，从中随机抽取一个样本放入集合T _{set_1}，然后将这个样本重新添加至初始数据集D后，再次重复以上采样操作，直至T _{set_1}中存在N个样本，使得初始数据集D中某个样本可能在T _{set_1}中重复出现多次，或根本没有出现，这种有放回的采样方法称为Bootstrap Sampling。按照以上步骤，我们得到num个釆样后数据集T _{set_1}，T _{set_2}，．．．，T _{set_num}，然后基于每个数据集训练得到一个基学习器，再将个基学习器集成起来，通过简单的投票或求平均值得到最终结果。在算法中，Bootstrap采样后使得数据集T _{set_i}中仅含有约63%的初始数据，剩余未含有的37%称为袋外（Out-of-bag，OOB）数据，可用这部分数据对基学习器的泛化性能进行估计，得到一个OOB误差估计。将所有基学习器的OOB误差估计取平均值，即得到Bagging的泛化误差袋外估计值。随机森林算法是将决策树作为基学习器的Bagging集成的扩展。假设训练数据集为D，样本个数为N，特征个数为M，决策树棵树为num，则具体过程为：

（1）对初始数据集D进行Bootstrap采样，形成一个样本容量为N的新训练数据集，以此生成一棵决策树。

（2）在决策树生成过程中，指定一个参数mtry<<Ｍ，每一次分裂从M个特征中随机抽取mtry个特征作为候选子集，再从中选择最优特征进行分裂。一般推荐选择mtry=sqrt(M)。此处如果设置mtry=1，则完全随机选择属性分裂。

（3）重复（1）、（1）步，直至生成num棵决策树。

（4）测试过程中，num棵决策树投票决定样本的最终分类类别。

随机森林算法通过集成多个不稳定的决策树模型，提升总体预测准确率，同时，加入对样本和特征的随机扰动，生成多样性的决策树，增加决策树之间的差异性，有效提高算法的泛化性能。

本发明未涉及部分与现有技术相同或可采用现有技术加以实现。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其特征在于：其步骤包括：

步骤2：采用NLP信息抽取方法，将不规则的受理内容文本结构化，提取用户用电诉求工单的关键信息；

步骤5：将步骤2的获得的关键信息输入经过更新的工单派发模型，实现用户用电诉求工单的自动下派。

2.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其特征在于：步骤1中，用户用电诉求工单的数据源为：客服系统中投诉受理工单、回访不满意工单信息；营销系统和配网抢修平台提供的工单受理时间、故障区域、故障所在线路的基本信息；反映客户诉求信息的投诉受理记录内容和投诉处理过程记录。

3.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其特征在于：所述步骤2具体为：

基于NLP技术实现用户用电诉求工单中的句子分割，通过对工单中形成的句子进行编码，拆分句子；

对工单中出现的词汇进行标记；

对被标记的词汇的词性进行预测；

判断每个词汇在工单中的作用，获取到用户用电诉求工单上出现的结构化数据，得到关键信息。

4.根据权利要求3所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其特征在于：对被标记的词汇的词性进行预测时，具体使用循环神经网络来处理后面的输入依赖前面的输入的序列关系。

5.根据权利要求3所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其特征在于：结构化数据包括诉求时间、用电信息和用户情感。

6.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其特征在于：所述步骤3还包括训练工单派发模型的步骤：基于关键信息，构建工单文本分类的特征词库矩阵，完成特征提取；以特征词库矩阵作为工单派发模型输入对工单派发模型进行分类训练。

7.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其特征在于：所述利用小样本学习方法对工单进行训练的方法为：

工单派发模型使用 CBoW模型将词表示词向量；

8.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其特征在于：所述步骤4中，对人工派单方式进行少样本学习包括因素处置行为的学习，因素处置行为包括：用户所在台区、用户所在社区和工单处理部门。

9.根据权利要求1所述的基于NLP信息萃取与少样本自学习的用户用电诉求工单自动流转方法，其特征在于：所述步骤4中，利用随机森林算法来实现新旧模型之间的更新。