CN112837175A - 基于信息抽取技术的电力频繁停电工单信息抽取方法及系统 - Google Patents
基于信息抽取技术的电力频繁停电工单信息抽取方法及系统 Download PDFInfo
- Publication number
- CN112837175A CN112837175A CN202110028988.2A CN202110028988A CN112837175A CN 112837175 A CN112837175 A CN 112837175A CN 202110028988 A CN202110028988 A CN 202110028988A CN 112837175 A CN112837175 A CN 112837175A
- Authority
- CN
- China
- Prior art keywords
- power failure
- work order
- text
- extracting
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000005516 engineering process Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 23
- 230000014509 gene expression Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 3
- 238000005192 partition Methods 0.000 claims 1
- 238000012216 screening Methods 0.000 claims 1
- 230000008439 repair process Effects 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 8
- 238000012423 maintenance Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000009977 dual effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及电力技术领域,为基于信息抽取技术的电力频繁停电工单信息抽取方法及系统,其方法包括:标注工单样本中的停电信息描述文本,基于命名实体识别技术,定位描述停电信息的起始位置,抽取停电信息描述文本;抽取停电信息编号、故障报修单号;对停电信息进行分类,判定每条停电信息的停电类型、停电子类、停电原因、责任部门;分析电压等级字段、停电次数的在工单文本中的描述特点,抽取电压等级和停电次数字段;分析停电时间在工单文本中的书写模式,抽取停电开始及结束时间,判断该工单是否属于密集停电情况。本发明对停电工单进行智能化分析,研究引发客户诉求的根本原因,提升了电力企业频繁停电工单的分析速度及准确率。
Description
技术领域
本发明涉及电力技术领域,特别涉及基于信息抽取技术的电力频繁停电工单信息抽取方法及系统。
背景技术
电力企业通过95598热线渠道接收用户的诉求,并形成工单进行分派处理,工作人员处理用户诉求后形成处理工单提交企业进行反馈。其中频繁停电是占比较大的工单类型。电力企业为了了解诉求原因和管理缺陷所在,需要对工单的处理情况进行分析。
传统的工单处理分析方式是由人工逐条阅读,对处理内容文本逐一分析并提炼关键信息,由于工单文本量大,工单分析时间长,这种方法效率低下,耗费人力,且分析准确度因人的业务经验而有所差异。
发明内容
为解决现有技术所存在的问题,本发明提出基于信息抽取技术的频繁停电工单信息抽取方法及系统,对停电工单进行智能化分析,研究引发客户诉求的根本原因,提升了电力企业频繁停电工单的分析速度及准确率。
本发明方法采用的技术方案为:基于信息抽取技术的电力频繁停电工单信息抽取方法,包括以下步骤:
S1、清洗处理工单文本;
S2、标注工单样本中的停电信息描述文本,基于命名实体识别技术,定位描述停电信息的起始位置,并抽取停电信息描述文本;
S3、分析停电信息编号和故障报修单号的编排规律,基于正则表达式和数据库技术抽取停电信息编号、故障报修单号;
S4、基于文本分类技术,对停电信息进行分类,判定每条停电信息的停电类型、停电子类、停电原因,并进一步判断责任部门;
S5、分析电压等级字段、停电次数的在工单文本中的描述特点,基于正则表达式抽取电压等级和停电次数字段;
S6、分析停电时间在工单文本中的书写模式,抽取停电开始及结束时间,并进一步判断该工单是否属于密集停电情况。
根据本发明的基于信息抽取技术的电力频繁停电工单信息抽取系统,包括:
清洗模块,用于清洗处理工单文本;
标注模块,用于标注工单样本中的停电信息描述文本,基于命名实体识别技术,定位描述停电信息的起始位置,并抽取停电信息描述文本;
抽取模块,用于分析停电信息编号和故障报修单号的编排规律,基于正则表达式和数据库技术抽取停电信息编号、故障报修单号;
分析判断模块,基于文本分类技术,对停电信息进行分类,判定每条停电信息的停电类型、停电子类、停电原因,并进一步判断责任部门;分析电压等级字段、停电次数的在工单文本中的描述特点,基于正则表达式抽取电压等级和停电次数字段;分析停电时间在工单文本中的书写模式,抽取停电开始及结束时间,并进一步判断该工单是否属于密集停电情况。
与现有技术相比,本发明的有益效果包括:
本发明融合文本分类、命名实体识别等文本挖掘技术,基于频繁停电工单的处理内容文本进行智能化分析,抽取并判断停电信息编号、故障报修单号、停电类型、停电子类、停电原因、责任部门、电压等级、停电开始时间、停电结束时间、是否密集停电等关键信息;研究引发客户诉求的根本原因,提升了客户满意度及电力企业形象,提升了电力企业频繁停电工单的分析速度及准确率,进一步提升企业竞争力和持续发展能力,有效节省了人力资源,促进电力企业的管理优化。
附图说明
图1为本发明实施例中电力频繁停电工单信息抽取方法的流程示意图;
图2为停电信息描述文本提取的流程示意图;
图3为全部字段抽取的流程示意图;
图4为词向量模型CBOW的处理过程示意图;
图5为命名实体识别模型的处理过程示意图;
图6为LSTM模型的处理过程示意图;
图7为本发明实施例中电力频繁停电工单抽取开始时间和结束时间的流程示意图。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施例及附图予以说明,但本发明的实施方式并不限于此。
实施例
请参照图1至图6,本实施例中基于文本挖掘技术的频繁停电工单信息抽取方法,包括步骤:
S1、清洗处理工单文本。
1)将全角字符转为半角。具体为将unicode编码为65281-65374的字符对应转为编码为33-126的字符。其中空格比较特殊,其全角编码为12288,应转为32。
2)关键错别字纠错。分析文本,对关键错别字进行纠错,如“故障保修单”改为“故障报修单”。
S2、标注工单样本中的停电信息描述文本,基于命名实体识别技术,定位描述停电信息的起始位置,抽取停电信息描述文本,如图2。
S21、标注样本。获取历史工单,对工单样本中的停电信息描述文本进行标注,得到标注样本,用B表示文本的开头,I表示文本的中间,E表示文本的技术;O表示非停电信息文本。
S22、使用词嵌入WordEmbedding技术进行词向量训练,得到词向量矩阵。采集数百万(例如500万)条电力系统的历史工单文本数据,利用word2Vec算法中的CBOW模型训练词向量。
文本向量化有多种方式,相比Tf-idf、词袋模型等方法,本发明的WordEmbedding可以有效捕捉词语的上下文关系,充分利用海量数据,取得更好的模型效果。本发明更具优势的地方在于,传统使用WordEmbedding的词向量矩阵,都是训练通用领域的文本得到,当应用在电力领域的文本模型时效果欠佳;而本发明的词向量矩阵是训练电力领域文本得到,应用时将取得更好的精度和泛化能力。
CBOW模型包括三层:输入层、投影层和输出层。下面以样本(Context(ω),ω)为例(这里假设Context(ω)由ω前后各c个词构成),如图4,
其中:
输出层:输出层对应一棵二叉树,二叉树为以语料中出现过的词当叶子结点,以各词在语料中出现的次数当权值构造出来的Huffman树。这棵Huffman树中,叶子结点共N个,分别对应词典中的词,非叶子结点N-1个。
训练词向量时,应选取合适的向量维度,词向量分布式维度太低则包含的信息较少,词向量分布式维度太高则会降低建模效率,本发明经研究对比,发现设定为200维时效果最佳。
S23、模型训练及模型应用。利用上述标注样本和词向量矩阵,采用BiLSTM+CRF算法训练命名实体识别模型,并利用训练好的命名实体识别模型抽取停电信息。命名实体识别模型的结构及工作原理如下,参考图5:
数据输入层:输入的文本经分词后,成为序列数据,在数据输入层将根据步骤S22训练出来的词向量矩阵,转化为对应的向量,输入下一层由BiLSTM模型提炼特征;
特征提取层:构建BiLSTM模型,自动抽取观测序列的特征表征,输入到下一层进行CRF模型训练,省去繁杂的特征工程。BiLSTM模型是一个双向的LSTM模型,其通过输入门和遗忘门获取上下文的关系,前后向机理一致,最后将前后向结果按第一维度拼在一起即为最终输出。以单向LSTM简要说明特征提取过程,如图6,其运算过程如下:
输入门:it=σ(Wi·[ht-1,xt]+bi)
输出门:ot=σ(Wo·[ht-1,xt]+bo)
上述参数中,ht-1表示当前LSTM层的隐含层输入,第一层通过随机初始化得到;xt表示当前层的词向量输入;Wi、Wf、Wo、WC是需要训练的参数,bi、bf、bC、bo是偏置项;σ、tanh对应不同的激励函数。ht即为LSTM抽取的特征,将作为下一层CRF模型的输入。
本步骤的模型训练通过网格随机搜索法调参,最终核心参数如下:激励函数为relu,隐层是64维,损失函数是softmax,优化算法为Adam,一个批次128个样本,全样本迭代训练10次,评估指标是准确率。
模型训练层:输入特征提取层传输过来的特征,输出对各文本节点的标记判断,调整参数训练CRF模型直至收敛。
CRF构建的有向无环图有利于处理序列数据,对于命名实体识别模型效果很好,但缺陷是需要人工构造特征函数作为模型的输入,对人的业务经验有很大要求。但本发明通过BiLSTM自动抽取特征解决了这一缺陷;整体上,通过电力专业领域训练的词向量提升了BiLSTM模型的效果,BiLSTM模型自动抽取的特征又提升了CRF模型的效果且解决了人工构造特征函数的难题,对于本发明抽取文本中的停电信息效果极好,最终模型f1指标达95.5%。
S3、分析停电信息编号和故障报修单号的编排规律,抽取停电信息编号和故障报修单号,参考图3。
S31、首先基于正则表达式提炼、筛选疑似停电信息编号和故障报修单号的数字串。提炼的规则为:长度为16位的数字串疑似故障报修单号,长度为12位的数字串疑似停电信息编号;具体正则表达式为:(?<!\d)(\d{12}|\d{16})(?!\d)。
S32、剔除无关数字串。将步骤S31筛选出来的数字串,与电力数据库中的停电信息编号和故障报修单号做比对,剔除不在数据库中的数字串。
S4、基于文本分类技术,对停电信息进行分类,判定停电类型、停电子类、停电原因、责任部门。首先构建文本分类模型,实现停电类型、停电子类、停电原因的智能分类,然后基于停电原因,判断停电责任部门归属。
S41、标注样本。将上述命名实体识别模型识别的停电信息作为样本数据,人工根据业务经验标注出其具体的停电类型、停电子类、停电原因。其中停电类型包括故障停电、计划停电、未涉及供电企业设备的停电、紧急消缺、临时停电、欠费违窃停电、紧急避险等;停电子类包含低压配网故障、计量设备故障、换表/箱停电、配网故障10kV、单户表后、专变、主网故障、配网工程、电网检修停电、客户申请、主网检修、配改工程等;停电原因包含设备原因、客户故障越级、漏电保护、外力、无异常、过负荷、故障查找/转电、运维不当、短时停电、负荷切割、临时供电、更换设备、自然因素、越级跳、主网检修、短路、用户检修、其他、电网检修、配网检修、负荷转换、用户内部故障、市政工程、故障查找、更换表箱等。
S42、文本分词。构建电力诉求专业词库,结合分词算法对文本进行分词处理,可以实现未登录词的准确分词。本发明采用jieba分词包,诉求工单中有但语料库里没有的未登录通常无法被分词包正确分出来,电网是专业领域性很强的行业,含有大量外部语料库里不存在的未登录词,构建专业词库可提升分词准确性。
S43、词向量化。根据前述训练的词向量矩阵,实现输入词的向量转化,作为SVM算法的输入。
S44、模型构建,将转化成词向量的文本数据,输入到支持向量机(Support VectorMachine,SVM)算法中,采用K折交叉验证,不断迭代模型,根据模型的分类准确率,调整模型的各项参数,如损失函数、惩罚项系数等。最终确定模型的最佳参数,得到电力诉求工单自动分类模型。
SVM算法的基本想法就是从训练集和样本空间中找到一个最好的划分超平面,将样本分割开来,首先要知道什么样的划分法才能称为“最”好划分。
在样本空间中,划分超平面可用ωTx+b=0表示,记为(ω,b);其中,样本ω=(ω1,ω2,...ω3)为法向量;b为位移项,决定超平面与原点之间的距离。样本空间中任意点x到超平面的几何间隔可表示为:
假设超平面(ω,b)能将训练样本正确分类,即对(xi,yi),若yi=+1,则有ωTxi+b≥0;若yi=-1,则有ωTxi+b≤0。令:
距离超平面最近的几个训练样本使上式等号成立,称其为支撑向量(supportvector),两个异类支持向量到超平面距离之和为:
支持向量机的基本想法就是求解能够正确划分样本并且求解合适的参数ω,b。求得几何间隔最大的分离超平面作为最好的划分超平面,几何间隔最大表达的数学公式为:
s.t.yi(ωTxi+b)>=1,i=1,2,...m
为了方便计算,将其转化为:
s.t.yi(ωTxi+b)>=1,i=1,2,...m
其中ωT为法向量ω的转置,b为位移项。
在本实施例中,对超参数的设置目的主要是为了找到SVM模型的最优参数。SVM主要参数有分类决策multi_class,正则化参数penalty,是否用对偶形式优化dual,核函数kernel,样本权重class_weight等。本发明将上述参数设定为:multi_class=’ovr’,penalty=L2,dual=False,kernel=linear,class_weight=balance。
S45、判别停电责任部门。结合应用需要,根据停电类型和停电原因,判断此次停电的责任部门,如停电类型为有序停限电时责任部门为营销。
S5、分析电压等级字段、停电次数的在文本中的描述特点,抽取电压等级字段、停电次数字段。
S51、基于文本中电压等级的描述特点,通过正则表达式抽取电压等级,并划分为三个等级。划分规则为:低于10Kv的,划为低压;等于10Kv的,划为10kv;大于10kv的,划为高压。
S52、停电次数。基于文本中停电次数的描述特点,通过正则表达式抽取停电次数。共涉及5套规则,按优先级如下:
a)'实际.*?(共|累计).{0,7}?(?P<num>\d{1,2})次',r'(共|累计).{0,7}?(?P<num>\d{1,2})次';
其作用为,当文本中出现类似“累计停电5次”、“实际共5次停电”等文本的总结性陈述时,抽取停电次数为5。
b)'月.*?实际.{0,10}?(?P<num>\d{1,2})次',r'(经查|核实).*?(?P<num>\d{1,2})次';
其作用为,当文本中出现类似“经核查3次停电”、“3月实际3次”的描述文本时,抽取停电次数为3。以下皆为类似含义,差异在于对文本规律的提炼细节不一致,由正则表达式可以清晰看出,此处不赘述。
c)'出现.{0,5}?(?P<num>\d{1,2})次',r'月.{0,10}?停.{0,10}?(?P<num>\d{1,2})次';
d)'发生.*?(?P<num>\d{1,2})次',r'停电.{0,10}?(?P<num>\d{1,2})次';
e)'反[映应].{0,20}?(?P<num>\d{1,2})次',r'(共|累计).{0,7}?(?P<num>\d{1,2})起']。
S6、分析停电时间在文本中的书写模式,抽取停电开始时间、结束时间,判断是否密集停电。
S61、停电时间的书写方式最为多样,分析文本中关于时间的描述特点,通过正则表达式抽取时间。具体过程如图7,其中模式1到模式5分别为:
a)(?:\d{2,4}y)?(?:\d{1,2}m)?(?:\d{1,2}d)?\d{1,2}:\d{1,2}(?::\d{1,2})?
该模式用于提取提取2018y12m12d12:12或12m12d12:12或12m12d12:类型的时间数据。
b)(?:\d{2,4}y)?(?:\d{1,2}m)(?:\d{1,2}d)
该模式用于提取2018y12m12d类型的时间数据,以下类似,差异在于对不同时间描述方式有不同细节处理,充分保证时间提取的准确率和覆盖率。
c)(?:\d{2,4}y)?\d{1,2}m\d{1,2}d
d)(?:\d{2,4}y)?(?:\d{1,2}m)?(?:\d{1,2}d)?\d{1,2}:\d{1,2}(?::\d{1,2})?-(?:\d{2,4}y)?(?:\d{1,2}m)?(?:\d{1,2}d)?\d{1,2}:\d{1,2}(?::\d{1,2})
e)(\d{1,2})-(\d{1,2}){1,2}\d{1,2}'。
S62、判断是否密集停电。根据历次停电的开始和结束时间,判断该工单是否属于密集停电。判断规则为:24小时内停电3次以上(含)为密集停电。
S7、准确率评估。应用上述方法,经过反复调试,最终准确率如下:
字段 | 精度 |
停电信息编号 | 99% |
故障报修单号 | 99% |
停电类型 | 93% |
停电子类 | 92% |
停电原因 | 91% |
责任部门 | 90% |
电压等级 | 88% |
停电次数 | 91% |
停电开始时间 | 92% |
停电结束时间 | 91% |
密集停电 | 90% |
基于相同的发明构思,本实施例还提供基于信息抽取技术的电力频繁停电工单信息抽取系统,包括:
清洗模块,用于清洗处理工单文本,以实现上述步骤S1;
标注模块,用于标注工单样本中的停电信息描述文本,基于命名实体识别技术,定位描述停电信息的起始位置,并抽取停电信息描述文本,以实现上述步骤S2;
抽取模块,用于分析停电信息编号和故障报修单号的编排规律,基于正则表达式和数据库技术抽取停电信息编号、故障报修单号,以实现上述步骤S3;
分析判断模块,基于文本分类技术,对停电信息进行分类,判定每条停电信息的停电类型、停电子类、停电原因,并进一步判断责任部门;分析电压等级字段、停电次数的在工单文本中的描述特点,基于正则表达式抽取电压等级和停电次数字段;分析停电时间在工单文本中的书写模式,抽取停电开始及结束时间,并进一步判断该工单是否属于密集停电情况,以实现上述步骤S4-S6。
综上所述,本实施例中基于文本挖掘技术的频繁停电工单信息抽取方法,基于文本挖掘技术,采用正则表达式、文本分类模型、命名实体识别模型,对大量频繁停电文本工单进行研究,根据业务需要,抽取出关键业务信息,快速辅助定位诉求原因和企业管理上的缺陷,如抽取停电次数、停送电时间辅助研判停电的影响程度,抽取停电类型、停电原因支撑分析引起频停的主要因素。极大的提升了分析的时效性和准确度,对提升电力企业供电质量和服务水平,起到有效的支撑作用。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.基于信息抽取技术的电力频繁停电工单信息抽取方法,其特征在于,包括以下步骤:
S1、清洗处理工单文本;
S2、标注工单样本中的停电信息描述文本,基于命名实体识别技术,定位描述停电信息的起始位置,并抽取停电信息描述文本;
S3、分析停电信息编号和故障报修单号的编排规律,基于正则表达式和数据库技术抽取停电信息编号、故障报修单号;
S4、基于文本分类技术,对停电信息进行分类,判定每条停电信息的停电类型、停电子类、停电原因,并进一步判断责任部门;
S5、分析电压等级字段、停电次数的在工单文本中的描述特点,基于正则表达式抽取电压等级和停电次数字段;
S6、分析停电时间在工单文本中的书写模式,抽取停电开始及结束时间,并进一步判断该工单是否属于密集停电情况。
2.根据权利要求1所述的电力频繁停电工单信息抽取方法,其特征在于,步骤S2包括:
S21、获取历史工单,对工单样本中的停电信息描述文本进行标注,得到标注样本;
S22、使用词嵌入技术进行词向量训练,得到词向量矩阵;
S23、利用标注样本和词向量矩阵,采用BiLSTM+CRF算法训练命名实体识别模型,并利用训练好的命名实体识别模型识别停电信息。
3.根据权利要求2所述的电力频繁停电工单信息抽取方法,其特征在于,步骤S22中采集数百万条电力系统的历史工单文本数据,利用word2Vec算法中的CBOW模型训练词向量。
4.根据权利要求2所述的电力频繁停电工单信息抽取方法,其特征在于,步骤S23中命名实体识别模型包括:
数据输入层,输入的文本经分词后,成为序列数据,在数据输入层将根据步骤S22训练出来的词向量矩阵,转化为对应的向量,输入下一层由BiLSTM模型提炼特征;
特征提取层,构建BiLSTM模型,自动抽取观测序列的特征表征,输入到下一层进行CRF模型训练;
模型训练层,输入特征提取层传输过来的特征,输出对各文本节点的标记判断,调整参数训练CRF模型直至收敛。
5.根据权利要求2所述的电力频繁停电工单信息抽取方法,其特征在于,步骤S4包括:
S41、将命名实体识别模型识别的停电信息作为样本数据,人工根据业务经验标注出其具体的停电类型、停电子类、停电原因;
S42、构建电力诉求专业词库,结合分词算法对文本进行分词处理,实现未登录词的准确分词;
S43、根据词向量矩阵,实现输入词的向量转化,作为SVM算法的输入;
S44、将转化成词向量的文本数据,输入到SVM算法中,采用K折交叉验证,不断迭代模型,根据模型的分类准确率,调整模型的各项参数,最终确定模型的最佳参数,得到电力诉求工单自动分类模型;
S45、结合应用需要,根据停电类型和停电原因,判断此次停电的责任部门。
7.根据权利要求1所述的电力频繁停电工单信息抽取方法,其特征在于,步骤S3包括:
S31、基于正则表达式提炼、筛选疑似停电信息编号和故障报修单号的数字串;
S32、将步骤S31筛选出来的数字串,与电力数据库中的停电信息编号和故障报修单号做比对,剔除不在数据库中的数字串。
8.基于信息抽取技术的电力频繁停电工单信息抽取系统,其特征在于,包括:
清洗模块,用于清洗处理工单文本;
标注模块,用于标注工单样本中的停电信息描述文本,基于命名实体识别技术,定位描述停电信息的起始位置,并抽取停电信息描述文本;
抽取模块,用于分析停电信息编号和故障报修单号的编排规律,基于正则表达式和数据库技术抽取停电信息编号、故障报修单号;
分析判断模块,基于文本分类技术,对停电信息进行分类,判定每条停电信息的停电类型、停电子类、停电原因,并进一步判断责任部门;分析电压等级字段、停电次数的在工单文本中的描述特点,基于正则表达式抽取电压等级和停电次数字段;分析停电时间在工单文本中的书写模式,抽取停电开始及结束时间,并进一步判断该工单是否属于密集停电情况。
9.根据权利要求8所述的电力频繁停电工单信息抽取系统,其特征在于,标注模块的标注过程包括:获取历史工单,对工单样本中的停电信息描述文本进行标注,得到标注样本;使用词嵌入技术进行词向量训练,得到词向量矩阵;利用标注样本和词向量矩阵,采用BiLSTM+CRF算法训练命名实体识别模型,并利用训练好的命名实体识别模型识别停电信息。
10.根据权利要求9所述的电力频繁停电工单信息抽取系统,其特征在于,命名实体识别模型包括:
数据输入层,输入的文本经分词后,成为序列数据,在数据输入层将词向量矩阵转化为对应的向量,输入下一层由BiLSTM模型提炼特征;
特征提取层,构建BiLSTM模型,自动抽取观测序列的特征表征,输入到下一层进行CRF模型训练;
模型训练层,输入特征提取层传输过来的特征,输出对各文本节点的标记判断,调整参数训练CRF模型直至收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110028988.2A CN112837175B (zh) | 2021-01-11 | 2021-01-11 | 基于信息抽取技术的电力频繁停电工单信息抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110028988.2A CN112837175B (zh) | 2021-01-11 | 2021-01-11 | 基于信息抽取技术的电力频繁停电工单信息抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112837175A true CN112837175A (zh) | 2021-05-25 |
CN112837175B CN112837175B (zh) | 2022-05-10 |
Family
ID=75929314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110028988.2A Active CN112837175B (zh) | 2021-01-11 | 2021-01-11 | 基于信息抽取技术的电力频繁停电工单信息抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112837175B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362083A (zh) * | 2021-06-04 | 2021-09-07 | 苏州科达科技股份有限公司 | 报修方法、装置、电子设备及存储介质 |
CN116452073A (zh) * | 2023-06-19 | 2023-07-18 | 中电投工程研究检测评定中心有限公司 | 一种工程质量司法鉴定原因力智能诊断方法及系统 |
CN116664148A (zh) * | 2023-08-01 | 2023-08-29 | 南京大全电气研究院有限公司 | 一种售后消缺管理方法、装置及电子设备 |
CN118095794A (zh) * | 2024-04-23 | 2024-05-28 | 国网辽宁省电力有限公司丹东供电公司 | 基于正则算法的工单信息提取方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930347A (zh) * | 2016-04-05 | 2016-09-07 | 浙江远传信息技术股份有限公司 | 基于文本分析的停电原因识别系统 |
CN108734381A (zh) * | 2018-04-11 | 2018-11-02 | 国网山东省电力公司 | 一种停电信息协同管理方法、装置及系统 |
CN111274804A (zh) * | 2020-01-17 | 2020-06-12 | 珠海市新德汇信息技术有限公司 | 基于命名实体识别的案件信息提取方法 |
CN111460164A (zh) * | 2020-05-22 | 2020-07-28 | 南京大学 | 一种基于预训练语言模型的电信工单智能判障方法 |
-
2021
- 2021-01-11 CN CN202110028988.2A patent/CN112837175B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930347A (zh) * | 2016-04-05 | 2016-09-07 | 浙江远传信息技术股份有限公司 | 基于文本分析的停电原因识别系统 |
CN108734381A (zh) * | 2018-04-11 | 2018-11-02 | 国网山东省电力公司 | 一种停电信息协同管理方法、装置及系统 |
CN111274804A (zh) * | 2020-01-17 | 2020-06-12 | 珠海市新德汇信息技术有限公司 | 基于命名实体识别的案件信息提取方法 |
CN111460164A (zh) * | 2020-05-22 | 2020-07-28 | 南京大学 | 一种基于预训练语言模型的电信工单智能判障方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362083A (zh) * | 2021-06-04 | 2021-09-07 | 苏州科达科技股份有限公司 | 报修方法、装置、电子设备及存储介质 |
CN113362083B (zh) * | 2021-06-04 | 2022-05-03 | 苏州科达科技股份有限公司 | 报修方法、装置、电子设备及存储介质 |
CN116452073A (zh) * | 2023-06-19 | 2023-07-18 | 中电投工程研究检测评定中心有限公司 | 一种工程质量司法鉴定原因力智能诊断方法及系统 |
CN116664148A (zh) * | 2023-08-01 | 2023-08-29 | 南京大全电气研究院有限公司 | 一种售后消缺管理方法、装置及电子设备 |
CN116664148B (zh) * | 2023-08-01 | 2023-10-13 | 南京大全电气研究院有限公司 | 一种售后消缺管理方法、装置及电子设备 |
CN118095794A (zh) * | 2024-04-23 | 2024-05-28 | 国网辽宁省电力有限公司丹东供电公司 | 基于正则算法的工单信息提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112837175B (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112837175B (zh) | 基于信息抽取技术的电力频繁停电工单信息抽取方法及系统 | |
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN110532542B (zh) | 一种基于正例与未标注学习的发票虚开识别方法及系统 | |
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
CN110852856A (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN110362797B (zh) | 一种研究报告生成方法及相关设备 | |
CN112560486A (zh) | 基于多层神经网络的电力实体识别方法、存储介质和设备 | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN113094494B (zh) | 电力操作票文本智能分类方法、装置、设备及介质 | |
CN111178585A (zh) | 基于多算法模型融合的故障接报量预测方法 | |
CN113868422A (zh) | 一种多标签稽查工单问题溯源识别方法及装置 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN109684447A (zh) | 一种基于文本挖掘的电网调度运行日志故障信息分析方法 | |
CN116342167A (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN115563968A (zh) | 水电运检知识自然语言人工智能系统及方法 | |
CN112559741B (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
CN113065352B (zh) | 一种电网调度工作文本的操作内容识别方法 | |
CN112579775A (zh) | 非结构化文本的分类方法及计算机可读存储介质 | |
CN115186670B (zh) | 一种基于主动学习的领域命名实体识别方法及系统 | |
CN114186565B (zh) | 一种it运维服务领域用户语义解析方法 | |
CN115796635A (zh) | 基于大数据和机器学习的银行数字化转型成熟度评价系统 | |
CN115130924A (zh) | 一种源网荷储背景下微电网电力设备资产评估方法及系统 | |
CN112765314B (zh) | 一种基于电力本体知识库的电力信息检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |