CN112837175A

CN112837175A - 基于信息抽取技术的电力频繁停电工单信息抽取方法及系统

Info

Publication number: CN112837175A
Application number: CN202110028988.2A
Authority: CN
Inventors: 杨钊; 姜磊; 桂媛; 郑志钉; 谢东源
Original assignee: Brilliant Data Analytics Inc
Current assignee: Brilliant Data Analytics Inc
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-05-25
Anticipated expiration: 2041-01-11
Also published as: CN112837175B

Abstract

本发明涉及电力技术领域，为基于信息抽取技术的电力频繁停电工单信息抽取方法及系统，其方法包括：标注工单样本中的停电信息描述文本，基于命名实体识别技术，定位描述停电信息的起始位置，抽取停电信息描述文本；抽取停电信息编号、故障报修单号；对停电信息进行分类，判定每条停电信息的停电类型、停电子类、停电原因、责任部门；分析电压等级字段、停电次数的在工单文本中的描述特点，抽取电压等级和停电次数字段；分析停电时间在工单文本中的书写模式，抽取停电开始及结束时间，判断该工单是否属于密集停电情况。本发明对停电工单进行智能化分析，研究引发客户诉求的根本原因，提升了电力企业频繁停电工单的分析速度及准确率。

Description

基于信息抽取技术的电力频繁停电工单信息抽取方法及系统

技术领域

本发明涉及电力技术领域，特别涉及基于信息抽取技术的电力频繁停电工单信息抽取方法及系统。

背景技术

电力企业通过95598热线渠道接收用户的诉求，并形成工单进行分派处理，工作人员处理用户诉求后形成处理工单提交企业进行反馈。其中频繁停电是占比较大的工单类型。电力企业为了了解诉求原因和管理缺陷所在，需要对工单的处理情况进行分析。

传统的工单处理分析方式是由人工逐条阅读，对处理内容文本逐一分析并提炼关键信息，由于工单文本量大，工单分析时间长，这种方法效率低下，耗费人力，且分析准确度因人的业务经验而有所差异。

发明内容

为解决现有技术所存在的问题，本发明提出基于信息抽取技术的频繁停电工单信息抽取方法及系统，对停电工单进行智能化分析，研究引发客户诉求的根本原因，提升了电力企业频繁停电工单的分析速度及准确率。

本发明方法采用的技术方案为：基于信息抽取技术的电力频繁停电工单信息抽取方法，包括以下步骤：

S1、清洗处理工单文本；

S2、标注工单样本中的停电信息描述文本，基于命名实体识别技术，定位描述停电信息的起始位置，并抽取停电信息描述文本；

S3、分析停电信息编号和故障报修单号的编排规律，基于正则表达式和数据库技术抽取停电信息编号、故障报修单号；

S4、基于文本分类技术，对停电信息进行分类，判定每条停电信息的停电类型、停电子类、停电原因，并进一步判断责任部门；

S5、分析电压等级字段、停电次数的在工单文本中的描述特点，基于正则表达式抽取电压等级和停电次数字段；

S6、分析停电时间在工单文本中的书写模式，抽取停电开始及结束时间，并进一步判断该工单是否属于密集停电情况。

根据本发明的基于信息抽取技术的电力频繁停电工单信息抽取系统，包括：

清洗模块，用于清洗处理工单文本；

标注模块，用于标注工单样本中的停电信息描述文本，基于命名实体识别技术，定位描述停电信息的起始位置，并抽取停电信息描述文本；

抽取模块，用于分析停电信息编号和故障报修单号的编排规律，基于正则表达式和数据库技术抽取停电信息编号、故障报修单号；

分析判断模块，基于文本分类技术，对停电信息进行分类，判定每条停电信息的停电类型、停电子类、停电原因，并进一步判断责任部门；分析电压等级字段、停电次数的在工单文本中的描述特点，基于正则表达式抽取电压等级和停电次数字段；分析停电时间在工单文本中的书写模式，抽取停电开始及结束时间，并进一步判断该工单是否属于密集停电情况。

与现有技术相比，本发明的有益效果包括：

本发明融合文本分类、命名实体识别等文本挖掘技术，基于频繁停电工单的处理内容文本进行智能化分析，抽取并判断停电信息编号、故障报修单号、停电类型、停电子类、停电原因、责任部门、电压等级、停电开始时间、停电结束时间、是否密集停电等关键信息；研究引发客户诉求的根本原因，提升了客户满意度及电力企业形象，提升了电力企业频繁停电工单的分析速度及准确率，进一步提升企业竞争力和持续发展能力，有效节省了人力资源，促进电力企业的管理优化。

附图说明

图1为本发明实施例中电力频繁停电工单信息抽取方法的流程示意图；

图2为停电信息描述文本提取的流程示意图；

图3为全部字段抽取的流程示意图；

图4为词向量模型CBOW的处理过程示意图；

图5为命名实体识别模型的处理过程示意图；

图6为LSTM模型的处理过程示意图；

图7为本发明实施例中电力频繁停电工单抽取开始时间和结束时间的流程示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施例及附图予以说明，但本发明的实施方式并不限于此。

实施例

请参照图1至图6，本实施例中基于文本挖掘技术的频繁停电工单信息抽取方法，包括步骤：

S1、清洗处理工单文本。

1)将全角字符转为半角。具体为将unicode编码为65281-65374的字符对应转为编码为33-126的字符。其中空格比较特殊，其全角编码为12288，应转为32。

2)关键错别字纠错。分析文本，对关键错别字进行纠错，如“故障保修单”改为“故障报修单”。

S2、标注工单样本中的停电信息描述文本，基于命名实体识别技术，定位描述停电信息的起始位置，抽取停电信息描述文本，如图2。

S21、标注样本。获取历史工单，对工单样本中的停电信息描述文本进行标注，得到标注样本，用B表示文本的开头，I表示文本的中间，E表示文本的技术；O表示非停电信息文本。

S22、使用词嵌入WordEmbedding技术进行词向量训练，得到词向量矩阵。采集数百万(例如500万)条电力系统的历史工单文本数据，利用word2Vec算法中的CBOW模型训练词向量。

文本向量化有多种方式，相比Tf-idf、词袋模型等方法，本发明的WordEmbedding可以有效捕捉词语的上下文关系，充分利用海量数据，取得更好的模型效果。本发明更具优势的地方在于，传统使用WordEmbedding的词向量矩阵，都是训练通用领域的文本得到，当应用在电力领域的文本模型时效果欠佳；而本发明的词向量矩阵是训练电力领域文本得到，应用时将取得更好的精度和泛化能力。

CBOW模型包括三层：输入层、投影层和输出层。下面以样本(Context(ω),ω)为例(这里假设Context(ω)由ω前后各c个词构成)，如图4，

其中：

输入层：包含Context(ω)样本中2c个词的词向量，

其中，m表示词向量的长度；

投影层：将输入层2c个词向量做求和累加，即

输出层：输出层对应一棵二叉树，二叉树为以语料中出现过的词当叶子结点，以各词在语料中出现的次数当权值构造出来的Huffman树。这棵Huffman树中，叶子结点共N个，分别对应词典

中的词，非叶子结点N-1个。

训练词向量时，应选取合适的向量维度，词向量分布式维度太低则包含的信息较少，词向量分布式维度太高则会降低建模效率，本发明经研究对比，发现设定为200维时效果最佳。

S23、模型训练及模型应用。利用上述标注样本和词向量矩阵，采用BiLSTM+CRF算法训练命名实体识别模型，并利用训练好的命名实体识别模型抽取停电信息。命名实体识别模型的结构及工作原理如下，参考图5：

数据输入层：输入的文本经分词后，成为序列数据，在数据输入层将根据步骤S22训练出来的词向量矩阵，转化为对应的向量，输入下一层由BiLSTM模型提炼特征；

特征提取层：构建BiLSTM模型，自动抽取观测序列的特征表征，输入到下一层进行CRF模型训练，省去繁杂的特征工程。BiLSTM模型是一个双向的LSTM模型，其通过输入门和遗忘门获取上下文的关系，前后向机理一致，最后将前后向结果按第一维度拼在一起即为最终输出。以单向LSTM简要说明特征提取过程，如图6，其运算过程如下：

输入门：i_t＝σ(W_i·[h_t-1,x_t]+b_i)

遗忘门：

输出门：o_t＝σ(W_o·[h_t-1,x_t]+b_o)

其中，

上述参数中，h_t-1表示当前LSTM层的隐含层输入，第一层通过随机初始化得到；x_t表示当前层的词向量输入；W_i、W_f、W_o、W_C是需要训练的参数，b_i、b_f、b_C、b_o是偏置项；σ、tanh对应不同的激励函数。h_t即为LSTM抽取的特征，将作为下一层CRF模型的输入。

本步骤的模型训练通过网格随机搜索法调参，最终核心参数如下：激励函数为relu，隐层是64维，损失函数是softmax，优化算法为Adam，一个批次128个样本，全样本迭代训练10次，评估指标是准确率。

模型训练层：输入特征提取层传输过来的特征，输出对各文本节点的标记判断，调整参数训练CRF模型直至收敛。

CRF构建的有向无环图有利于处理序列数据，对于命名实体识别模型效果很好，但缺陷是需要人工构造特征函数作为模型的输入，对人的业务经验有很大要求。但本发明通过BiLSTM自动抽取特征解决了这一缺陷；整体上，通过电力专业领域训练的词向量提升了BiLSTM模型的效果，BiLSTM模型自动抽取的特征又提升了CRF模型的效果且解决了人工构造特征函数的难题，对于本发明抽取文本中的停电信息效果极好，最终模型f1指标达95.5％。

S3、分析停电信息编号和故障报修单号的编排规律，抽取停电信息编号和故障报修单号，参考图3。

S31、首先基于正则表达式提炼、筛选疑似停电信息编号和故障报修单号的数字串。提炼的规则为：长度为16位的数字串疑似故障报修单号，长度为12位的数字串疑似停电信息编号；具体正则表达式为：(？<！\d)(\d{12}|\d{16})(？！\d)。

S32、剔除无关数字串。将步骤S31筛选出来的数字串，与电力数据库中的停电信息编号和故障报修单号做比对，剔除不在数据库中的数字串。

S4、基于文本分类技术，对停电信息进行分类，判定停电类型、停电子类、停电原因、责任部门。首先构建文本分类模型，实现停电类型、停电子类、停电原因的智能分类，然后基于停电原因，判断停电责任部门归属。

S41、标注样本。将上述命名实体识别模型识别的停电信息作为样本数据，人工根据业务经验标注出其具体的停电类型、停电子类、停电原因。其中停电类型包括故障停电、计划停电、未涉及供电企业设备的停电、紧急消缺、临时停电、欠费违窃停电、紧急避险等；停电子类包含低压配网故障、计量设备故障、换表/箱停电、配网故障10kV、单户表后、专变、主网故障、配网工程、电网检修停电、客户申请、主网检修、配改工程等；停电原因包含设备原因、客户故障越级、漏电保护、外力、无异常、过负荷、故障查找/转电、运维不当、短时停电、负荷切割、临时供电、更换设备、自然因素、越级跳、主网检修、短路、用户检修、其他、电网检修、配网检修、负荷转换、用户内部故障、市政工程、故障查找、更换表箱等。

S42、文本分词。构建电力诉求专业词库，结合分词算法对文本进行分词处理，可以实现未登录词的准确分词。本发明采用jieba分词包，诉求工单中有但语料库里没有的未登录通常无法被分词包正确分出来，电网是专业领域性很强的行业，含有大量外部语料库里不存在的未登录词，构建专业词库可提升分词准确性。

S43、词向量化。根据前述训练的词向量矩阵，实现输入词的向量转化，作为SVM算法的输入。

S44、模型构建，将转化成词向量的文本数据，输入到支持向量机(Support VectorMachine,SVM)算法中，采用K折交叉验证，不断迭代模型，根据模型的分类准确率，调整模型的各项参数，如损失函数、惩罚项系数等。最终确定模型的最佳参数，得到电力诉求工单自动分类模型。

SVM算法的基本想法就是从训练集和样本空间中找到一个最好的划分超平面，将样本分割开来，首先要知道什么样的划分法才能称为“最”好划分。

在样本空间中，划分超平面可用ω^Tx+b＝0表示，记为(ω,b)；其中，样本ω＝(ω₁,ω₂,...ω₃)为法向量；b为位移项，决定超平面与原点之间的距离。样本空间中任意点x到超平面的几何间隔可表示为：

假设超平面(ω,b)能将训练样本正确分类，即对(x_i,y_i)，若y_i＝+1，则有ω^Tx_i+b≥0；若y_i＝-1，则有ω^Tx_i+b≤0。令：

距离超平面最近的几个训练样本使上式等号成立，称其为支撑向量(supportvector)，两个异类支持向量到超平面距离之和为：

支持向量机的基本想法就是求解能够正确划分样本并且求解合适的参数ω，b。求得几何间隔最大的分离超平面作为最好的划分超平面，几何间隔最大表达的数学公式为：

s.t.y_i(ω^Tx_i+b)＞＝1,i＝1,2,...m

为了方便计算，将其转化为：

s.t.y_i(ω^Tx_i+b)＞＝1,i＝1,2,...m

其中ω^T为法向量ω的转置，b为位移项。

在本实施例中，对超参数的设置目的主要是为了找到SVM模型的最优参数。SVM主要参数有分类决策multi_class，正则化参数penalty，是否用对偶形式优化dual，核函数kernel，样本权重class_weight等。本发明将上述参数设定为：multi_class＝’ovr’，penalty＝L2，dual＝False，kernel＝linear，class_weight＝balance。

S45、判别停电责任部门。结合应用需要，根据停电类型和停电原因，判断此次停电的责任部门，如停电类型为有序停限电时责任部门为营销。

S5、分析电压等级字段、停电次数的在文本中的描述特点，抽取电压等级字段、停电次数字段。

S51、基于文本中电压等级的描述特点，通过正则表达式抽取电压等级，并划分为三个等级。划分规则为：低于10Kv的，划为低压；等于10Kv的，划为10kv；大于10kv的，划为高压。

S52、停电次数。基于文本中停电次数的描述特点，通过正则表达式抽取停电次数。共涉及5套规则，按优先级如下：

a)'实际.*？(共|累计).{0,7}？(？P<num>\d{1,2})次'，r'(共|累计).{0,7}？(？P<num>\d{1,2})次'；

其作用为，当文本中出现类似“累计停电5次”、“实际共5次停电”等文本的总结性陈述时，抽取停电次数为5。

b)'月.*？实际.{0,10}？(？P<num>\d{1,2})次'，r'(经查|核实).*？(？P<num>\d{1,2})次'；

其作用为，当文本中出现类似“经核查3次停电”、“3月实际3次”的描述文本时，抽取停电次数为3。以下皆为类似含义，差异在于对文本规律的提炼细节不一致，由正则表达式可以清晰看出，此处不赘述。

c)'出现.{0,5}？(？P<num>\d{1,2})次'，r'月.{0,10}？停.{0,10}？(？P<num>\d{1,2})次'；

d)'发生.*？(？P<num>\d{1,2})次',r'停电.{0,10}？(？P<num>\d{1,2})次'；

e)'反[映应].{0,20}？(？P<num>\d{1,2})次',r'(共|累计).{0,7}？(？P<num>\d{1,2})起']。

S6、分析停电时间在文本中的书写模式，抽取停电开始时间、结束时间，判断是否密集停电。

S61、停电时间的书写方式最为多样，分析文本中关于时间的描述特点，通过正则表达式抽取时间。具体过程如图7，其中模式1到模式5分别为：

a)(？:\d{2,4}y)？(？:\d{1,2}m)？(？:\d{1,2}d)？\d{1,2}:\d{1,2}(？::\d{1,2})？

该模式用于提取提取2018y12m12d12:12或12m12d12:12或12m12d12:类型的时间数据。

b)(？:\d{2,4}y)？(？:\d{1,2}m)(？:\d{1,2}d)

该模式用于提取2018y12m12d类型的时间数据，以下类似，差异在于对不同时间描述方式有不同细节处理，充分保证时间提取的准确率和覆盖率。

c)(？:\d{2,4}y)？\d{1,2}m\d{1,2}d

d)(？:\d{2,4}y)？(？:\d{1,2}m)？(？:\d{1,2}d)？\d{1,2}:\d{1,2}(？::\d{1,2})？-(？:\d{2,4}y)？(？:\d{1,2}m)？(？:\d{1,2}d)？\d{1,2}:\d{1,2}(？::\d{1,2})

e)(\d{1,2})-(\d{1,2}){1,2}\d{1,2}'。

S62、判断是否密集停电。根据历次停电的开始和结束时间，判断该工单是否属于密集停电。判断规则为：24小时内停电3次以上(含)为密集停电。

S7、准确率评估。应用上述方法，经过反复调试，最终准确率如下：

字段	精度
		停电信息编号	99％
故障报修单号	99％
		停电类型	93％
停电子类	92％
		停电原因	91％
责任部门	90％
		电压等级	88％
停电次数	91％
		停电开始时间	92％
停电结束时间	91％
		密集停电	90％

基于相同的发明构思，本实施例还提供基于信息抽取技术的电力频繁停电工单信息抽取系统，包括：

清洗模块，用于清洗处理工单文本，以实现上述步骤S1；

标注模块，用于标注工单样本中的停电信息描述文本，基于命名实体识别技术，定位描述停电信息的起始位置，并抽取停电信息描述文本，以实现上述步骤S2；

抽取模块，用于分析停电信息编号和故障报修单号的编排规律，基于正则表达式和数据库技术抽取停电信息编号、故障报修单号，以实现上述步骤S3；

分析判断模块，基于文本分类技术，对停电信息进行分类，判定每条停电信息的停电类型、停电子类、停电原因，并进一步判断责任部门；分析电压等级字段、停电次数的在工单文本中的描述特点，基于正则表达式抽取电压等级和停电次数字段；分析停电时间在工单文本中的书写模式，抽取停电开始及结束时间，并进一步判断该工单是否属于密集停电情况，以实现上述步骤S4-S6。

综上所述，本实施例中基于文本挖掘技术的频繁停电工单信息抽取方法，基于文本挖掘技术，采用正则表达式、文本分类模型、命名实体识别模型，对大量频繁停电文本工单进行研究，根据业务需要，抽取出关键业务信息，快速辅助定位诉求原因和企业管理上的缺陷，如抽取停电次数、停送电时间辅助研判停电的影响程度，抽取停电类型、停电原因支撑分析引起频停的主要因素。极大的提升了分析的时效性和准确度，对提升电力企业供电质量和服务水平，起到有效的支撑作用。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.基于信息抽取技术的电力频繁停电工单信息抽取方法，其特征在于，包括以下步骤：

S1、清洗处理工单文本；

2.根据权利要求1所述的电力频繁停电工单信息抽取方法，其特征在于，步骤S2包括：

S21、获取历史工单，对工单样本中的停电信息描述文本进行标注，得到标注样本；

S22、使用词嵌入技术进行词向量训练，得到词向量矩阵；

S23、利用标注样本和词向量矩阵，采用BiLSTM+CRF算法训练命名实体识别模型，并利用训练好的命名实体识别模型识别停电信息。

3.根据权利要求2所述的电力频繁停电工单信息抽取方法，其特征在于，步骤S22中采集数百万条电力系统的历史工单文本数据，利用word2Vec算法中的CBOW模型训练词向量。

4.根据权利要求2所述的电力频繁停电工单信息抽取方法，其特征在于，步骤S23中命名实体识别模型包括：

数据输入层，输入的文本经分词后，成为序列数据，在数据输入层将根据步骤S22训练出来的词向量矩阵，转化为对应的向量，输入下一层由BiLSTM模型提炼特征；

特征提取层，构建BiLSTM模型，自动抽取观测序列的特征表征，输入到下一层进行CRF模型训练；

模型训练层，输入特征提取层传输过来的特征，输出对各文本节点的标记判断，调整参数训练CRF模型直至收敛。

5.根据权利要求2所述的电力频繁停电工单信息抽取方法，其特征在于，步骤S4包括：

S41、将命名实体识别模型识别的停电信息作为样本数据，人工根据业务经验标注出其具体的停电类型、停电子类、停电原因；

S42、构建电力诉求专业词库，结合分词算法对文本进行分词处理，实现未登录词的准确分词；

S43、根据词向量矩阵，实现输入词的向量转化，作为SVM算法的输入；

S44、将转化成词向量的文本数据，输入到SVM算法中，采用K折交叉验证，不断迭代模型，根据模型的分类准确率，调整模型的各项参数，最终确定模型的最佳参数，得到电力诉求工单自动分类模型；

S45、结合应用需要，根据停电类型和停电原因，判断此次停电的责任部门。

6.根据权利要求5所述的电力频繁停电工单信息抽取方法，其特征在于，步骤S44中SVM算法从训练集和样本空间中找到一个最好的划分超平面，将样本分割开来；在样本空间中，划分超平面可用ω^Tx+b＝0表示，其中样本ω＝(ω₁,ω₂,...ω₃)为法向量，b为位移项，决定超平面与原点之间的距离；样本空间中任意点x到超平面的几何间隔可表示为：

求得几何间隔最大的分离超平面作为最好的划分超平面，几何间隔最大表达的数学公式为：

s.t.y_i(ω^Tx_i+b)＞＝1,i＝1,2,...m

其中ω^T为法向量ω的转置。

7.根据权利要求1所述的电力频繁停电工单信息抽取方法，其特征在于，步骤S3包括：

S31、基于正则表达式提炼、筛选疑似停电信息编号和故障报修单号的数字串；

S32、将步骤S31筛选出来的数字串，与电力数据库中的停电信息编号和故障报修单号做比对，剔除不在数据库中的数字串。

8.基于信息抽取技术的电力频繁停电工单信息抽取系统，其特征在于，包括：

清洗模块，用于清洗处理工单文本；

9.根据权利要求8所述的电力频繁停电工单信息抽取系统，其特征在于，标注模块的标注过程包括：获取历史工单，对工单样本中的停电信息描述文本进行标注，得到标注样本；使用词嵌入技术进行词向量训练，得到词向量矩阵；利用标注样本和词向量矩阵，采用BiLSTM+CRF算法训练命名实体识别模型，并利用训练好的命名实体识别模型识别停电信息。

10.根据权利要求9所述的电力频繁停电工单信息抽取系统，其特征在于，命名实体识别模型包括：

数据输入层，输入的文本经分词后，成为序列数据，在数据输入层将词向量矩阵转化为对应的向量，输入下一层由BiLSTM模型提炼特征；