CN107798435B - 一种基于文本信息抽取的电力物资需求预测方法 - Google Patents
一种基于文本信息抽取的电力物资需求预测方法 Download PDFInfo
- Publication number
- CN107798435B CN107798435B CN201711095667.4A CN201711095667A CN107798435B CN 107798435 B CN107798435 B CN 107798435B CN 201711095667 A CN201711095667 A CN 201711095667A CN 107798435 B CN107798435 B CN 107798435B
- Authority
- CN
- China
- Prior art keywords
- demand
- main equipment
- training
- information extraction
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000000605 extraction Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 52
- 238000013461 design Methods 0.000 claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 51
- 238000002372 labelling Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000013277 forecasting method Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000012706 support-vector machine Methods 0.000 description 21
- 238000011160 research Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 241000251468 Actinopterygii Species 0.000 description 3
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 3
- 229910052782 aluminium Inorganic materials 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000004804 winding Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009422 external insulation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000011810 insulating material Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002351 wastewater Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于文本信息抽取的电力物资需求预测方法,包括电力物资需求预测的两步算法,第一步基于文本信息抽取技术对初步设计文档进行处理,抽出去对预测主设备需求量有重要价值的工程属性信息,实现初设文档的结构化表达,然后利用SVM回归算法实现对主设备的需求预测。第二步利用文本分类技术,采用卷积神经网络学习初设文档的稠密向量表达,与主设备需求信息相融合,利用多层神经网络实现非主设备需求量的预测。相对于现有的计算,能够实现的预测物资种类多,预测数据趋于实际,属性较多表达,具有很好的实用性,本发明的物资需求预测方法更符合实际应用要求,能够在初步设计完成后实现物资需求的预测。
Description
技术领域
本发明涉及一种基于文本信息抽取的电力物资需求预测方法,属于电力物资需求预测技术领域。
背景技术
当前,我国社会经济快速发展,对电力能源的需求无论从量还是质上都提出了更高的要求。这些要求一方面促进了电网工程(变电站及配网工程)市场的繁荣,另一方面也对相关企业提出了更大的挑战。相关企业只有借助于高科技尤其是人工智能技术,优化企业管理和各种资源配置,提高资源利用率和工程设计开发效率,才能适应市场新情况,从容应对这些新的更大的挑战。在众多挑战中,如何准确预测变电站及配网工程的物资需求,从而在保障工程进度的前提下提高资金的利用率,节约成本,对于电力企业在新的市场环境下快速发展,具有重要意义。
在电力物资需求预测方面,研究者已经开展了一系列的研究工作,提出了很多预测模型和算法,例如文献“基于改进BP神经网络的电网物资需求预测研究”(沈男,2014,华北电力大学,硕士学位论文)提出了基于神经网络的预测算法。然而,这些算法均以结构化的数据作为输入(自变量),而且这些输入一般只有有限的几维,与实际应用需求相距甚远。在实际应用中,物资需求的预测需要在初步设计完成之后进行,可以依赖的信息只有初步设计文档本身。此外,一个电力工程需要的物资种类有几万种,而现有的研究仅在少数几种物资上进行了预测实验。也正因为现有的研究成果与实际需求相距甚远,因此,目前的生产系统仍然普遍采用人工方式进行电力物资需求预测,由有经验的领域专家根据工程初步设计方案预测各类物资的需求量。
文献“基于改进BP神经网络的电网物资需求预测研究”(沈男,2014,华北电力大学,硕士学位论文)在分析电网物资需求特性的基础上,提出了利用改进BP神经网络进行预测的方法,该方法用SCG(Scaled Conjugate Gradient)和遗传算法分别对标准BP训练算法本身和权值初始化、阈值选择方法进行了优化,通过110KV新建线路工程的钢芯铝绞线需求预测对改进方法进行了实验验证。文献“基于改进BP神经网络的电网物资需求预测研究”(沈男,2014,华北电力大学,硕士学位论文)设计的BP网络只包含一个隐藏层,输入向量的维数为2,分别表示线路长度和地形因素,输出层神经元数是1,其输出值为预测的钢芯铝绞线数量。作者还通过实验检验了不同的隐藏层单元数量对预测准确率的影响。文献“应用人工鱼群算法研究电网物资需求预测问题”(宋斌,管理纵横,2013)采用支持向量机(SVM,SupportVector Machine)回归来解决电网物资需求预测问题,以增加了混沌搜索算子的人工鱼群算法对支持向量机参数和核函数(即支持向量机的超参数)进行优化搜索。文献“应用人工鱼群算法研究电网物资需求预测问题”(宋斌,管理纵横,2013)未说明输入向量的维数,并且仅给出了控制电缆和钢芯铝绞线两种物资的预测结果。文献“一种基于SVM的电力行业物资需求预测方法”(韩戟,何成浩,苏星,施成云,刘东映,电气技术,2016年第12期)研究了物资需求自动审核的问题,考虑到电力行业上报的物资需求记录具有不完全结构化、短文本的特点,物资需求审核被归结为文本分类问题,采用的分类模型是SVM。文献“基于多元回归分析法的电网应急物资需求预测方法”(眭楷,王语涵,王少勇,陈长智,苏兴锐,电子技术与软件工程)提出了基于多元回归分析法的电网应急物资需求预测方法,但考虑的自变量仅有三个,分别为地区风力等级、降雨量和年度用电总量,并且未给出实验结果,也未说明对什么类型的物资进行需求预测,还是对所有的物资都是利用这三个自变量进行需求预测。文献“电网物资需求预测方法研究”(毕子健,王翎颖,华北电力技术,2015)采用计算实例简单讨论了指数平滑等方法在电力物资需求预测方面的可能应用。
从上述现有技术很容易看出,尽管在电力物资需求预测方面已经进行了一些研究和尝试,但是普遍存在的问题是实用性较差,能够有效预测的物资种类有限,预测所依据的数据过于理想化,均为少数几个属性表达的结构化数据,这与实际应用需求差距甚远。按照实际的工程流程,物资需求预测必须在初设完成后马上进行,能够依赖的信息只有初设报告,而初设报告本身是无结构的文本,文本中间可能嵌入大量的报表,从这种无结构的文本中抽取预测所依赖的各种属性数据(即得到结构化的数据表达)本身就是极具挑战性的工作,不可能通过人工手工来完成。此外,电网工程建设所需要的物资种类多达几万种,它们都属于被预测的对象,仅对几种物资进行预测不具有实用性。
发明内容
本发明要解决的技术问题是:提供一种基于文本信息抽取的电力物资需求预测方法,预测物资种类多,预测数据趋于实际,属性较多表达,具有很好的实用性,以解决现有技术中存在的问题。
本发明采取的技术方案为:一种基于文本信息抽取的电力物资需求预测方法,该方法包括主设备物资需求预测方法和非主设备物资需求预测方法,主设备物资需求预测方法步骤如下:
1)利用文本信息抽取方法从电力物资需求的初步设计文档提取主设备的多个工程属性,把从初设文档抽取多个工程属性的取值设置成序列标注任务,采用BIO的标注方法建立BLSTM神经网络模型,即标注每个Token为某种属性值的开始Token(B)、中间Token(I)或非属性值(O);
2)训练BLSTM需要标注好的训练数据,利用模板标注训练集中初设文档包含的多个工程属性的值,利用前述标注的初设文档集作为训练数据,训练BLSTM模型,用训练好的BLSTM对测试初设文档进行标注,得到每篇初步设计文档的多维向量表达;
3)信息抽取完成后,将每个工程项目初设文档的多维向量与该工程实际主设备需求量作为标注样例,以前述的样例集合训练主设备预测模型,实现对主设备的需求预测,采用的模型是支持向量机;
非主设备物资需求预测方法为:把文本分类技术与物资用量之间的关联性相结合,实现对非主设备需求量的预测,具体为:以词向量表示初设文档中每个词,利用卷积神经网络学习得到文档的向量表达,将该向量与主设备需求量向量拼接,得到的向量输入到多层神经网络,利用该多层神经网络预测非主设备的需求量。
上述文本信息抽取方法:把从初设文档抽取上述属性值这一任务看成是序列标注任务,采用BIO标注模式,每种属性对应两个标签:属性值的B和属性值的I,分别表示属性值的开始词和属性值的中间词,以及O,表示不属于属性值的普通词,选择的序列标注模型为BLSTM。
上述BLSTM的输入为词序列,每个词用词向量表示,输出为标签序列,训练时采用的损耗函数为交叉熵,式(1)为一个训练样例的损耗,其中y为训练样例x的标注标签,y’是BLSTM预测的x属于每个标签的概率,t表示向量y中值为1的分量的下标,即x的标签序号,y’[t]表示BLSTM预测的x具有标签t的概率;训练完成后,BLSTM可以对输入的任意词序列x,按照(2)式预测x最可能的标注序列:
lose(y,y')=-log(y'[t]) (1)
上述利用BLSTM进行属性值的信息抽取后,每个项目的初设文档被转换成实数值向量的形式;每个项目的初设文档被转换成实数值向量后,它们与相应项目的主设备实际用量相配对,即得到用于训练SVM的标注训练数据集,训练得到的SVM对新项目以初设文档的信息抽取结果为输入,来预测主设备的可能用量,使用的是SVM回归模型。
本发明的有益效果:与现有技术相比,本发明文本信息抽取方法对初步设计文档进行处理,抽出去对预测主设备需求量有重要价值的工程属性信息,实现初设文档的结构化表达,然后利用SVM回归算法实现对主设备的需求预测。第二步利用文本分类技术,采用卷积神经网络学习初设文档的稠密向量表达,与主设备需求信息相融合,利用多层神经网络实现非主设备需求量的预测,本发明能够实现的预测物资种类多,预测数据趋于实际,属性较多表达,具有很好的实用性,本发明的物资需求预测方法更符合实际应用要求,能够在初步设计完成后实现物资需求的预测。
附图说明
图1是本发明的算法框架结构示意图;
图2是初设文档的内容片段示意图;
图3是基于文本信息抽取的主设备需求预测的总体流程示意图;
图4是BLSTM模型用于属性值抽取的示意图。
具体实施方式
下面结合附图及具体的实施例对本发明进行进一步介绍。
本发明的方法以电力工程初设文本为输入,各类物资需求量的预测值为输出,算法框架如图1所示。
初步设计文档(也包括可行性审查意见、初设评审意见)是物资需求预测的依据和基础,其中项目总体概况、建设规模和技术方案等部分的文本描述包含了很多对工程主设备的明确要求,这对主设备的需求预测具有重要价值,例如,图2给出了某工程初设评审意见的部分文本片段,从中可以看出对主变压器、并联电容器组的明确要求,但是初设报告对其他设备(主设备之外的其他设备)并没有提出明确的需求,有限的一些相关信息也往往隐藏在字里行间。因此,本发明提出把物资需求预测分成两个子任务,一个是主设备的需求预测,另一个是其他物资的需求预测。主设备的需求预测单纯依赖于初设文档,首先利用信息抽取(Information Extraction)技术从初设文档中抽取出对主设备型号和用量有预示作用的工程属性信息,例如主变压器容量、主变压器组数、110KV回数。抽取出的属性值构成工程的特征向量表达,作为主设备预测模型的输入,输出为工程(特征向量表达的工程)主设备(所用模型对应的主设备)的需求预测值。
主设备的数量预测完成后,根据主设备与其他设备在数量上关联来对非主设备的需求量进行预测。
实施例1:如图1-图4所示,一种基于文本信息抽取的电力物资需求预测方法,该方法包括主设备物资需求预测方法和非主设备物资需求预测方法;
为了实现对主设备需求量的预测,首先需要从初设文档中抽取出重要的、描述工程关键信息的属性信息。本发明的以实例主变压器为例,总结出主变压器电压、台数、容量、出线数,避雷器类型、外绝缘类型、防污等级,电抗接法、容量、型式,电流互感器精度等级、绕组数量、类型,隔离开关电压、额定电流、绝缘材料、防污等级等48个工程属性,利用文本信息抽取技术从初设文档中自动抽取这48个属性的取值,每篇初设文档(每个工程项目)被结构化地表示为48维向量。
主设备物资需求预测方法步骤如下:
1)利用文本信息抽取方法从电力物资需求的初步设计文档提取主设备的48个工程属性,把从初设文档抽取48个工程属性的取值设置成序列标注任务,采用BIO的标注方法建立BLSTM(Bi-Directional Long Short-Term Memory)神经网络模型,即标注每个Token为某种属性值的开始Token(B)、中间Token(I)或非属性值(O),BLSTM是一种最新的序列建模方法,它无需马尔可夫模型的有限历史假设,可以捕捉文本中词之间的长距离约束,并且不会显著增加模型的参数数量,已经在词性标注、命名实体识别和分类、机器翻译等自然语言处理任务中取得了目前最好的效果;
2)训练BLSTM需要标注好的训练数据,为了减轻人工标注的工作量,借鉴了远监督(Distant Supervision)的方法,利用模板标注训练集中初设文档包含的48个工程属性的值,利用前述标注的初设文档集作为训练数据,训练BLSTM模型,用训练好的BLSTM对测试初设文档进行标注,得到每篇初步设计文档的48维向量表达;
3)信息抽取完成后,将每个工程项目初设文档的48维向量与该工程实际主设备需求量作为标注样例,以前述的样例集合训练主设备预测模型,实现对主设备的需求预测,采用的模型是支持向量机;
图3给出了基于文本信息抽取的主设备需求预测的总体流程,该流程主要由两大部分组成:训练过程和测试过程。训练过程以训练数据集(由已经完工的每个项目的初设文档及对应的主设备实际用量构成一个带标注信息的训练样例)作为输入,经过文本信息抽取将无结构的初设文档特征向量化(适合SVM使用的结构化训练数据集),调用SVM训练算法,训练出用于预测每种主设备需求量的SVM回归模型作为输出。测试过程以新电力工程的初设文档为输入,经过文本信息抽取,初设文档被转化成特征向量,以该特征向量作为预测模型的输入,调用每种主设备的预测模型(训练好的SVM),预测这些主设备的需求用量。
下面重点详细介绍图3中文本信息抽取SVM训练算法的实现细节。
文本信息抽取的目的是获取初设文档中对主设备需求有重要预示作用的属性值。通过对初设文档的人工分析,文本总结出48个这样的属性,表1列出了这些属性中的一部分。
表1需要从初设文档抽取的部分属性名及对应的属性值实例
属性名 | 属性值 |
主变容量 | 50MVA |
主变压器台数 | 1 |
主变压器是否带稳定绕组 | 是 |
主变压器110KV侧出线回数 | 4 |
避雷器防污等级 | 1级 |
电抗接法 | 并联 |
断路器型式 | 真空 |
断路器安装环境 | 室外 |
隔离开关型式 | 垂直伸缩式 |
电流互感器器类型 | <u>油侵式</u> |
文本信息抽取方法:把从初设文档抽取上述属性值这一任务看成是序列标注任务,采用BIO标注模式,每种属性对应两个标签:属性值的B和属性值的I,分别表示属性值的开始词和属性值的中间词,以及O,表示不属于属性值的普通词,例如,句子“最终采用单母线分段接线,出线4回。”的标注结果为“最终/O”、“采用/O”、“单母线/接线方式B”、“分段/接线方式I”、“接线/接线方式I”、“,/O”、“出线/O”、“4/线回数B”、“回/线回数I”、“。/O“;选择的序列标注模型为BLSTM。
如图4所示,上述BLSTM的输入为词序列,每个词用词向量表示,输出为标签序列,训练时采用的损耗函数为交叉熵,式(1)为一个训练样例的损耗,其中y为训练样例x的标注标签,y’是BLSTM预测的x属于每个标签的概率,t表示向量y中值为1的分量的下标,即x的标签序号,y’[t]表示BLSTM预测的x具有标签t的概率;训练完成后,BLSTM可以对输入的任意词序列x,按照(2)式预测x最可能的标注序列:
lose(y,y')=-log(y'[t]) (1)
训练算法:利用BLSTM进行属性值的信息抽取后,每个项目的初设文档被转换成实数值向量的形式;由于48个属性中很多属性的取值都是范畴性的(categorical),因此这里实值向量的维数远不只48。例如,如果原始属性“电抗接法”的所有可能取值有两个:“串联”和“并联”,那么该属性需要用实数值的两维来表示,分别表示“是否串联”和“是否并联”,每个项目的初设文档被转换成实数值向量后,它们与相应项目的主设备实际用量相配对,即得到用于训练SVM的标注训练数据集,训练得到的SVM对新项目以初设文档的信息抽取结果为输入,来预测主设备的可能用量,使用的是SVM回归模型。
初设文档能够提供的有关非主设备的信息是模糊并且有限的,例如“站区采用有组织排水方案,雨水、生活污水及含油废水经过处理达标后排入站外排水沟”,很难从这样的文本中抽取出明确的有价值的属性信息,实现结构化表达。考虑到同一工程各种物资用量的相关性,非主设备物资需求预测方法为:把文本分类技术与物资用量之间的关联性相结合,实现对非主设备需求量的预测,具体为:以词向量表示初设文档中每个词,利用卷积神经网络学习得到文档的向量表达,将该向量与主设备需求量向量拼接,得到的向量输入到多层神经网络,利用该多层神经网络预测非主设备的需求量。
针对电力物资需求的特殊性及现有技术存在的不足,本发明提出了电力物资需求预测的两步算法,第一步基于文本信息抽取技术对初步设计文档进行处理,抽出去对预测主设备需求量有重要价值的工程属性信息,实现初设文档的结构化表达,然后利用SVM回归算法实现对主设备的需求预测。第二步利用文本分类技术,采用卷积神经网络学习初设文档的稠密向量表达,与主设备需求信息相融合,利用多层神经网络实现非主设备需求量的预测。相对于已有的现有技术,本发明提出的算法更符合实际应用要求,能够在初步设计完成后实现物资需求的预测。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (3)
1.一种基于文本信息抽取的电力物资需求预测方法,其特征在于:该方法包括主设备物资需求预测和非主设备物资需求预测两步,主设备物资需求预测方法步骤如下:
1)利用文本信息抽取方法从电力物资需求的初步设计文档提取主设备的多个工程属性,把从初步设计文档抽取多个工程属性的取值设置成序列标注任务,采用BIO的标注方法建立BLSTM神经网络模型;
2)训练BLSTM需要标注好的训练数据,利用模板标注训练集中初步设计文档包含的多个工程属性的值,利用标注的训练集中初步设计文档作为训练数据,训练BLSTM模型,用训练好的BLSTM对测试初步设计文档进行标注,得到每篇初步设计文档的多维向量表达;
3)信息抽取完成后,将每个工程项目初步设计文档的多维向量与该工程实际主设备需求量作为标注样例,以前述的标注样例训练主设备的预测模型,实现对主设备的需求预测,采用的模型是SVM回归模型;
训练过程以训练集作为输入,经过文本信息抽取将无结构的初步设计文档特征向量化,调用SVM回归模型训练算法,训练出用于预测每种主设备需求量的SVM回归模型作为输出,测试过程以新电力工程的初步设计文档为输入,经过文本信息抽取,初步设计文档被转化成特征向量,以该特征向量作为预测模型的输入,调用每种主设备的预测模型,预测这些主设备的需求用量;
非主设备物资需求预测方法为:主设备的数量预测完成后,根据主设备与其他设备在数量上关联来对非主设备的需求量进行预测,把文本分类技术与物资用量之间的关联性相结合,实现对非主设备需求量的预测,具体为:以词向量表示初步设计文档中每个词,利用卷积神经网络学习得到文档的向量表达,将该向量与主设备需求量向量拼接,得到的向量输入到多层神经网络,利用该多层神经网络预测非主设备的需求量;
文本信息抽取方法:把从初步设计文档抽取上述工程属性的取值这一任务看成是序列标注任务,采用BIO标注模式,每种属性对应两个标签:属性值的B和属性值的I,分别表示属性值的开始词和属性值的中间词,以及O,表示不属于属性值的普通词,选择的序列标注模型为BLSTM。
3.根据权利要求1所述的一种基于文本信息抽取的电力物资需求预测方法,其特征在于:利用BLSTM进行属性值的信息抽取后,每个项目的初步设计文档被转换成实数值向量的形式;每个项目的初步设计文档被转换成实数值向量后,它们与相应项目的主设备实际用量相配对,即得到用于训练SVM回归模型的标注训练数据集,训练得到的SVM回归模型对新项目以初步设计文档的信息抽取结果为输入,来预测主设备的可能用量,使用的是SVM回归模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711095667.4A CN107798435B (zh) | 2017-11-09 | 2017-11-09 | 一种基于文本信息抽取的电力物资需求预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711095667.4A CN107798435B (zh) | 2017-11-09 | 2017-11-09 | 一种基于文本信息抽取的电力物资需求预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107798435A CN107798435A (zh) | 2018-03-13 |
CN107798435B true CN107798435B (zh) | 2021-08-31 |
Family
ID=61547968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711095667.4A Active CN107798435B (zh) | 2017-11-09 | 2017-11-09 | 一种基于文本信息抽取的电力物资需求预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107798435B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920446A (zh) * | 2018-04-25 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种工程文本的处理方法 |
CN108763368A (zh) * | 2018-05-17 | 2018-11-06 | 爱因互动科技发展(北京)有限公司 | 抽取新知识点的方法 |
CN109754159B (zh) * | 2018-12-07 | 2022-08-23 | 国网江苏省电力有限公司南京供电分公司 | 一种电网运行日志的信息提取方法及系统 |
CN110647628B (zh) * | 2019-09-16 | 2022-09-23 | 北京电子工程总体研究所 | 一种自动化标检方法及系统 |
CN110866393B (zh) * | 2019-11-19 | 2023-06-23 | 北京网聘咨询有限公司 | 基于领域知识库的简历信息抽取方法及系统 |
CN111191130A (zh) * | 2019-12-30 | 2020-05-22 | 泰康保险集团股份有限公司 | 信息抽取方法、装置、设备及计算机可读存储介质 |
CN111597804B (zh) * | 2020-05-15 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种实体识别模型训练的方法以及相关装置 |
CN111639817A (zh) * | 2020-06-05 | 2020-09-08 | 山东大学 | 一种面向电网气象灾害的应急物资需求预测方法及系统 |
CN113283657B (zh) * | 2021-06-01 | 2023-05-26 | 国网山东省电力公司嘉祥县供电公司 | 一种电力应急物资需求的预测方法 |
CN114579712B (zh) * | 2022-05-05 | 2022-07-15 | 中科雨辰科技有限公司 | 基于动态模型的文本属性提取匹配方法 |
CN115080669B (zh) * | 2022-05-11 | 2023-05-05 | 珠海优特电力科技股份有限公司 | 全防误信息点表生成方法、装置、设备及存储介质 |
CN116502771B (zh) * | 2023-06-21 | 2023-12-01 | 国网浙江省电力有限公司宁波供电公司 | 一种基于电力物资预测的配电方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030014287A1 (en) * | 2001-07-02 | 2003-01-16 | Dell Products, L.P. | Continuity of supply risk and cost management tool |
CN102831489A (zh) * | 2012-08-29 | 2012-12-19 | 广东电网公司 | 电力配网建设物资需求预测方法及装置 |
CN104573877A (zh) * | 2015-01-29 | 2015-04-29 | 广州供电局有限公司 | 配电网设备需求量预测和定量方法及其系统 |
CN106096841A (zh) * | 2016-06-15 | 2016-11-09 | 云南电网有限责任公司物流服务中心 | 一种变电基建工程物资需求预测模型和决策分析系统 |
CN106203701A (zh) * | 2016-07-06 | 2016-12-07 | 吴本刚 | 一种电力配网建设物资需求预测系统 |
CN106649275A (zh) * | 2016-12-28 | 2017-05-10 | 成都数联铭品科技有限公司 | 基于词性信息和卷积神经网络的关系抽取方法 |
-
2017
- 2017-11-09 CN CN201711095667.4A patent/CN107798435B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030014287A1 (en) * | 2001-07-02 | 2003-01-16 | Dell Products, L.P. | Continuity of supply risk and cost management tool |
CN102831489A (zh) * | 2012-08-29 | 2012-12-19 | 广东电网公司 | 电力配网建设物资需求预测方法及装置 |
CN104573877A (zh) * | 2015-01-29 | 2015-04-29 | 广州供电局有限公司 | 配电网设备需求量预测和定量方法及其系统 |
CN106096841A (zh) * | 2016-06-15 | 2016-11-09 | 云南电网有限责任公司物流服务中心 | 一种变电基建工程物资需求预测模型和决策分析系统 |
CN106203701A (zh) * | 2016-07-06 | 2016-12-07 | 吴本刚 | 一种电力配网建设物资需求预测系统 |
CN106649275A (zh) * | 2016-12-28 | 2017-05-10 | 成都数联铭品科技有限公司 | 基于词性信息和卷积神经网络的关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
"一种基于SVM的电力行业物资需求预测方法";韩戟;《电气技术》;20161231(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107798435A (zh) | 2018-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798435B (zh) | 一种基于文本信息抽取的电力物资需求预测方法 | |
CN107784397B (zh) | 一种电网物资需求预测系统及其预测方法 | |
CN106936127A (zh) | 一种线路负荷回归分析与预测方法及系统 | |
CN104376371B (zh) | 一种基于拓扑的配网分层负荷预测方法 | |
CN112419096B (zh) | 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法 | |
CN105184306A (zh) | 评价指标反映评价结果的输电杆塔塔材实际强度计算方法 | |
CN107016066A (zh) | 一种电网模型建模过程中测点匹配方法及装置 | |
Ma et al. | Edge Intelligent Perception Method for Power Grid Icing Condition Based on Multi-Scale Feature Fusion Target Detection and Model Quantization | |
CN115409122A (zh) | 一种变电设备并发故障分析方法、系统、设备及介质 | |
CN113434667B (zh) | 基于配网自动化终端文本分类模型的文本分类方法 | |
CN113807027A (zh) | 一种风电机组健康状态评估模型、方法及系统 | |
CN114492945A (zh) | 电力市场背景下的短期光伏功率预测方法、介质及设备 | |
CN115705364A (zh) | 一种基于设备运行特征的电网监控知识图谱构建方法 | |
Liu et al. | An Evaluation Method of 10k V Distribution Network Line Loss Based on Improved BP Neural Network | |
CN111652420A (zh) | 一种实时的负荷预测系统 | |
Zhang et al. | Named Entity Recognition for Smart Grid Operation and Inspection Domain using Attention Mechanism | |
CN105184514A (zh) | 一种基于序列标注的电网设计指标抽取方法 | |
CN111553158A (zh) | 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统 | |
Liu et al. | Historical Similar Ticket Matching and Extraction used for Power Grid Maintenance Work Ticket Decision Making | |
Tang et al. | Research on Anomaly Detection of Smart Meter Based on Big Data Mining | |
Yan et al. | Research and application of holographic portrait label system construction for main equipment of distribution network based on big data | |
Xia et al. | Research on short-term load forecasting of power system based on gradient lifting tree | |
Li et al. | Application of Intelligent Digital Technology in Load Forecasting of New Power Systems | |
Guangyu et al. | Research on Label Recognition Method of Power Grid Item Based on Deep Learning | |
Haibo et al. | Construction of Knowledge Graph of Power Communication Planning based on Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |