CN107798435B

CN107798435B - 一种基于文本信息抽取的电力物资需求预测方法

Info

Publication number: CN107798435B
Application number: CN201711095667.4A
Authority: CN
Inventors: 陈珏伊; 朱颖琪; 王竹君
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2021-08-31
Anticipated expiration: 2037-11-09
Also published as: CN107798435A

Abstract

本发明公开了一种基于文本信息抽取的电力物资需求预测方法，包括电力物资需求预测的两步算法，第一步基于文本信息抽取技术对初步设计文档进行处理，抽出去对预测主设备需求量有重要价值的工程属性信息，实现初设文档的结构化表达，然后利用SVM回归算法实现对主设备的需求预测。第二步利用文本分类技术，采用卷积神经网络学习初设文档的稠密向量表达，与主设备需求信息相融合，利用多层神经网络实现非主设备需求量的预测。相对于现有的计算，能够实现的预测物资种类多，预测数据趋于实际，属性较多表达，具有很好的实用性，本发明的物资需求预测方法更符合实际应用要求，能够在初步设计完成后实现物资需求的预测。

Description

一种基于文本信息抽取的电力物资需求预测方法

技术领域

本发明涉及一种基于文本信息抽取的电力物资需求预测方法，属于电力物资需求预测技术领域。

背景技术

当前，我国社会经济快速发展，对电力能源的需求无论从量还是质上都提出了更高的要求。这些要求一方面促进了电网工程(变电站及配网工程)市场的繁荣，另一方面也对相关企业提出了更大的挑战。相关企业只有借助于高科技尤其是人工智能技术，优化企业管理和各种资源配置，提高资源利用率和工程设计开发效率，才能适应市场新情况，从容应对这些新的更大的挑战。在众多挑战中，如何准确预测变电站及配网工程的物资需求，从而在保障工程进度的前提下提高资金的利用率，节约成本，对于电力企业在新的市场环境下快速发展，具有重要意义。

在电力物资需求预测方面，研究者已经开展了一系列的研究工作，提出了很多预测模型和算法，例如文献“基于改进BP神经网络的电网物资需求预测研究”(沈男，2014，华北电力大学，硕士学位论文)提出了基于神经网络的预测算法。然而，这些算法均以结构化的数据作为输入(自变量)，而且这些输入一般只有有限的几维，与实际应用需求相距甚远。在实际应用中，物资需求的预测需要在初步设计完成之后进行，可以依赖的信息只有初步设计文档本身。此外，一个电力工程需要的物资种类有几万种，而现有的研究仅在少数几种物资上进行了预测实验。也正因为现有的研究成果与实际需求相距甚远，因此，目前的生产系统仍然普遍采用人工方式进行电力物资需求预测，由有经验的领域专家根据工程初步设计方案预测各类物资的需求量。

文献“基于改进BP神经网络的电网物资需求预测研究”(沈男，2014，华北电力大学，硕士学位论文)在分析电网物资需求特性的基础上，提出了利用改进BP神经网络进行预测的方法，该方法用SCG(Scaled Conjugate Gradient)和遗传算法分别对标准BP训练算法本身和权值初始化、阈值选择方法进行了优化，通过110KV新建线路工程的钢芯铝绞线需求预测对改进方法进行了实验验证。文献“基于改进BP神经网络的电网物资需求预测研究”(沈男，2014，华北电力大学，硕士学位论文)设计的BP网络只包含一个隐藏层，输入向量的维数为2，分别表示线路长度和地形因素，输出层神经元数是1，其输出值为预测的钢芯铝绞线数量。作者还通过实验检验了不同的隐藏层单元数量对预测准确率的影响。文献“应用人工鱼群算法研究电网物资需求预测问题”(宋斌，管理纵横，2013)采用支持向量机(SVM，SupportVector Machine)回归来解决电网物资需求预测问题，以增加了混沌搜索算子的人工鱼群算法对支持向量机参数和核函数(即支持向量机的超参数)进行优化搜索。文献“应用人工鱼群算法研究电网物资需求预测问题”(宋斌，管理纵横，2013)未说明输入向量的维数，并且仅给出了控制电缆和钢芯铝绞线两种物资的预测结果。文献“一种基于SVM的电力行业物资需求预测方法”(韩戟，何成浩，苏星，施成云，刘东映，电气技术，2016年第12期)研究了物资需求自动审核的问题，考虑到电力行业上报的物资需求记录具有不完全结构化、短文本的特点，物资需求审核被归结为文本分类问题，采用的分类模型是SVM。文献“基于多元回归分析法的电网应急物资需求预测方法”(眭楷，王语涵，王少勇，陈长智，苏兴锐，电子技术与软件工程)提出了基于多元回归分析法的电网应急物资需求预测方法，但考虑的自变量仅有三个，分别为地区风力等级、降雨量和年度用电总量，并且未给出实验结果，也未说明对什么类型的物资进行需求预测，还是对所有的物资都是利用这三个自变量进行需求预测。文献“电网物资需求预测方法研究”(毕子健，王翎颖，华北电力技术，2015)采用计算实例简单讨论了指数平滑等方法在电力物资需求预测方面的可能应用。

从上述现有技术很容易看出，尽管在电力物资需求预测方面已经进行了一些研究和尝试，但是普遍存在的问题是实用性较差，能够有效预测的物资种类有限，预测所依据的数据过于理想化，均为少数几个属性表达的结构化数据，这与实际应用需求差距甚远。按照实际的工程流程，物资需求预测必须在初设完成后马上进行，能够依赖的信息只有初设报告，而初设报告本身是无结构的文本，文本中间可能嵌入大量的报表，从这种无结构的文本中抽取预测所依赖的各种属性数据(即得到结构化的数据表达)本身就是极具挑战性的工作，不可能通过人工手工来完成。此外，电网工程建设所需要的物资种类多达几万种，它们都属于被预测的对象，仅对几种物资进行预测不具有实用性。

发明内容

本发明要解决的技术问题是：提供一种基于文本信息抽取的电力物资需求预测方法，预测物资种类多，预测数据趋于实际，属性较多表达，具有很好的实用性，以解决现有技术中存在的问题。

本发明采取的技术方案为：一种基于文本信息抽取的电力物资需求预测方法，该方法包括主设备物资需求预测方法和非主设备物资需求预测方法，主设备物资需求预测方法步骤如下：

1)利用文本信息抽取方法从电力物资需求的初步设计文档提取主设备的多个工程属性，把从初设文档抽取多个工程属性的取值设置成序列标注任务，采用BIO的标注方法建立BLSTM神经网络模型，即标注每个Token为某种属性值的开始Token(B)、中间Token(I)或非属性值(O)；

2)训练BLSTM需要标注好的训练数据，利用模板标注训练集中初设文档包含的多个工程属性的值，利用前述标注的初设文档集作为训练数据，训练BLSTM模型，用训练好的BLSTM对测试初设文档进行标注，得到每篇初步设计文档的多维向量表达；

3)信息抽取完成后，将每个工程项目初设文档的多维向量与该工程实际主设备需求量作为标注样例，以前述的样例集合训练主设备预测模型，实现对主设备的需求预测，采用的模型是支持向量机；

非主设备物资需求预测方法为：把文本分类技术与物资用量之间的关联性相结合，实现对非主设备需求量的预测，具体为：以词向量表示初设文档中每个词，利用卷积神经网络学习得到文档的向量表达，将该向量与主设备需求量向量拼接，得到的向量输入到多层神经网络，利用该多层神经网络预测非主设备的需求量。

上述文本信息抽取方法：把从初设文档抽取上述属性值这一任务看成是序列标注任务，采用BIO标注模式，每种属性对应两个标签：属性值的B和属性值的I，分别表示属性值的开始词和属性值的中间词，以及O，表示不属于属性值的普通词，选择的序列标注模型为BLSTM。

上述BLSTM的输入为词序列，每个词用词向量表示，输出为标签序列，训练时采用的损耗函数为交叉熵，式(1)为一个训练样例的损耗，其中y为训练样例x的标注标签，y’是BLSTM预测的x属于每个标签的概率，t表示向量y中值为1的分量的下标，即x的标签序号，y’[t]表示BLSTM预测的x具有标签t的概率；训练完成后，BLSTM可以对输入的任意词序列x，按照(2)式预测x最可能的标注序列：

lose(y,y')＝-log(y'[t]) (1)

上述利用BLSTM进行属性值的信息抽取后，每个项目的初设文档被转换成实数值向量的形式；每个项目的初设文档被转换成实数值向量后，它们与相应项目的主设备实际用量相配对，即得到用于训练SVM的标注训练数据集，训练得到的SVM对新项目以初设文档的信息抽取结果为输入，来预测主设备的可能用量，使用的是SVM回归模型。

本发明的有益效果：与现有技术相比，本发明文本信息抽取方法对初步设计文档进行处理，抽出去对预测主设备需求量有重要价值的工程属性信息，实现初设文档的结构化表达，然后利用SVM回归算法实现对主设备的需求预测。第二步利用文本分类技术，采用卷积神经网络学习初设文档的稠密向量表达，与主设备需求信息相融合，利用多层神经网络实现非主设备需求量的预测，本发明能够实现的预测物资种类多，预测数据趋于实际，属性较多表达，具有很好的实用性，本发明的物资需求预测方法更符合实际应用要求，能够在初步设计完成后实现物资需求的预测。

附图说明

图1是本发明的算法框架结构示意图；

图2是初设文档的内容片段示意图；

图3是基于文本信息抽取的主设备需求预测的总体流程示意图；

图4是BLSTM模型用于属性值抽取的示意图。

具体实施方式

下面结合附图及具体的实施例对本发明进行进一步介绍。

本发明的方法以电力工程初设文本为输入，各类物资需求量的预测值为输出，算法框架如图1所示。

初步设计文档(也包括可行性审查意见、初设评审意见)是物资需求预测的依据和基础，其中项目总体概况、建设规模和技术方案等部分的文本描述包含了很多对工程主设备的明确要求，这对主设备的需求预测具有重要价值，例如，图2给出了某工程初设评审意见的部分文本片段，从中可以看出对主变压器、并联电容器组的明确要求，但是初设报告对其他设备(主设备之外的其他设备)并没有提出明确的需求，有限的一些相关信息也往往隐藏在字里行间。因此，本发明提出把物资需求预测分成两个子任务，一个是主设备的需求预测，另一个是其他物资的需求预测。主设备的需求预测单纯依赖于初设文档，首先利用信息抽取(Information Extraction)技术从初设文档中抽取出对主设备型号和用量有预示作用的工程属性信息，例如主变压器容量、主变压器组数、110KV回数。抽取出的属性值构成工程的特征向量表达，作为主设备预测模型的输入，输出为工程(特征向量表达的工程)主设备(所用模型对应的主设备)的需求预测值。

主设备的数量预测完成后，根据主设备与其他设备在数量上关联来对非主设备的需求量进行预测。

实施例1：如图1-图4所示，一种基于文本信息抽取的电力物资需求预测方法，该方法包括主设备物资需求预测方法和非主设备物资需求预测方法；

为了实现对主设备需求量的预测，首先需要从初设文档中抽取出重要的、描述工程关键信息的属性信息。本发明的以实例主变压器为例，总结出主变压器电压、台数、容量、出线数，避雷器类型、外绝缘类型、防污等级，电抗接法、容量、型式，电流互感器精度等级、绕组数量、类型，隔离开关电压、额定电流、绝缘材料、防污等级等48个工程属性，利用文本信息抽取技术从初设文档中自动抽取这48个属性的取值，每篇初设文档(每个工程项目)被结构化地表示为48维向量。

主设备物资需求预测方法步骤如下：

1)利用文本信息抽取方法从电力物资需求的初步设计文档提取主设备的48个工程属性，把从初设文档抽取48个工程属性的取值设置成序列标注任务，采用BIO的标注方法建立BLSTM(Bi-Directional Long Short-Term Memory)神经网络模型，即标注每个Token为某种属性值的开始Token(B)、中间Token(I)或非属性值(O)，BLSTM是一种最新的序列建模方法，它无需马尔可夫模型的有限历史假设，可以捕捉文本中词之间的长距离约束，并且不会显著增加模型的参数数量，已经在词性标注、命名实体识别和分类、机器翻译等自然语言处理任务中取得了目前最好的效果；

2)训练BLSTM需要标注好的训练数据，为了减轻人工标注的工作量，借鉴了远监督(Distant Supervision)的方法，利用模板标注训练集中初设文档包含的48个工程属性的值，利用前述标注的初设文档集作为训练数据，训练BLSTM模型，用训练好的BLSTM对测试初设文档进行标注，得到每篇初步设计文档的48维向量表达；

3)信息抽取完成后，将每个工程项目初设文档的48维向量与该工程实际主设备需求量作为标注样例，以前述的样例集合训练主设备预测模型，实现对主设备的需求预测，采用的模型是支持向量机；

图3给出了基于文本信息抽取的主设备需求预测的总体流程，该流程主要由两大部分组成：训练过程和测试过程。训练过程以训练数据集(由已经完工的每个项目的初设文档及对应的主设备实际用量构成一个带标注信息的训练样例)作为输入，经过文本信息抽取将无结构的初设文档特征向量化(适合SVM使用的结构化训练数据集)，调用SVM训练算法，训练出用于预测每种主设备需求量的SVM回归模型作为输出。测试过程以新电力工程的初设文档为输入，经过文本信息抽取，初设文档被转化成特征向量，以该特征向量作为预测模型的输入，调用每种主设备的预测模型(训练好的SVM)，预测这些主设备的需求用量。

下面重点详细介绍图3中文本信息抽取SVM训练算法的实现细节。

文本信息抽取的目的是获取初设文档中对主设备需求有重要预示作用的属性值。通过对初设文档的人工分析，文本总结出48个这样的属性，表1列出了这些属性中的一部分。

表1需要从初设文档抽取的部分属性名及对应的属性值实例

属性名	属性值
		主变容量	50MVA
主变压器台数	1
		主变压器是否带稳定绕组	是
主变压器110KV侧出线回数	4
		避雷器防污等级	1级
电抗接法	并联
		断路器型式	真空
断路器安装环境	室外
		隔离开关型式	垂直伸缩式
电流互感器器类型	<u>油侵式</u>

文本信息抽取方法：把从初设文档抽取上述属性值这一任务看成是序列标注任务，采用BIO标注模式，每种属性对应两个标签：属性值的B和属性值的I，分别表示属性值的开始词和属性值的中间词，以及O，表示不属于属性值的普通词，例如，句子“最终采用单母线分段接线，出线4回。”的标注结果为“最终/O”、“采用/O”、“单母线/接线方式B”、“分段/接线方式I”、“接线/接线方式I”、“，/O”、“出线/O”、“4/线回数B”、“回/线回数I”、“。/O“；选择的序列标注模型为BLSTM。

如图4所示，上述BLSTM的输入为词序列，每个词用词向量表示，输出为标签序列，训练时采用的损耗函数为交叉熵，式(1)为一个训练样例的损耗，其中y为训练样例x的标注标签，y’是BLSTM预测的x属于每个标签的概率，t表示向量y中值为1的分量的下标，即x的标签序号，y’[t]表示BLSTM预测的x具有标签t的概率；训练完成后，BLSTM可以对输入的任意词序列x，按照(2)式预测x最可能的标注序列：

lose(y,y')＝-log(y'[t]) (1)

训练算法：利用BLSTM进行属性值的信息抽取后，每个项目的初设文档被转换成实数值向量的形式；由于48个属性中很多属性的取值都是范畴性的(categorical)，因此这里实值向量的维数远不只48。例如，如果原始属性“电抗接法”的所有可能取值有两个：“串联”和“并联”，那么该属性需要用实数值的两维来表示，分别表示“是否串联”和“是否并联”，每个项目的初设文档被转换成实数值向量后，它们与相应项目的主设备实际用量相配对，即得到用于训练SVM的标注训练数据集，训练得到的SVM对新项目以初设文档的信息抽取结果为输入，来预测主设备的可能用量，使用的是SVM回归模型。

初设文档能够提供的有关非主设备的信息是模糊并且有限的，例如“站区采用有组织排水方案，雨水、生活污水及含油废水经过处理达标后排入站外排水沟”，很难从这样的文本中抽取出明确的有价值的属性信息，实现结构化表达。考虑到同一工程各种物资用量的相关性，非主设备物资需求预测方法为：把文本分类技术与物资用量之间的关联性相结合，实现对非主设备需求量的预测，具体为：以词向量表示初设文档中每个词，利用卷积神经网络学习得到文档的向量表达，将该向量与主设备需求量向量拼接，得到的向量输入到多层神经网络，利用该多层神经网络预测非主设备的需求量。

针对电力物资需求的特殊性及现有技术存在的不足，本发明提出了电力物资需求预测的两步算法，第一步基于文本信息抽取技术对初步设计文档进行处理，抽出去对预测主设备需求量有重要价值的工程属性信息，实现初设文档的结构化表达，然后利用SVM回归算法实现对主设备的需求预测。第二步利用文本分类技术，采用卷积神经网络学习初设文档的稠密向量表达，与主设备需求信息相融合，利用多层神经网络实现非主设备需求量的预测。相对于已有的现有技术，本发明提出的算法更符合实际应用要求，能够在初步设计完成后实现物资需求的预测。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于文本信息抽取的电力物资需求预测方法，其特征在于：该方法包括主设备物资需求预测和非主设备物资需求预测两步，主设备物资需求预测方法步骤如下：

1)利用文本信息抽取方法从电力物资需求的初步设计文档提取主设备的多个工程属性，把从初步设计文档抽取多个工程属性的取值设置成序列标注任务，采用BIO的标注方法建立BLSTM神经网络模型；

2)训练BLSTM需要标注好的训练数据，利用模板标注训练集中初步设计文档包含的多个工程属性的值，利用标注的训练集中初步设计文档作为训练数据，训练BLSTM模型，用训练好的BLSTM对测试初步设计文档进行标注，得到每篇初步设计文档的多维向量表达；

3)信息抽取完成后，将每个工程项目初步设计文档的多维向量与该工程实际主设备需求量作为标注样例，以前述的标注样例训练主设备的预测模型，实现对主设备的需求预测，采用的模型是SVM回归模型；

训练过程以训练集作为输入，经过文本信息抽取将无结构的初步设计文档特征向量化，调用SVM回归模型训练算法，训练出用于预测每种主设备需求量的SVM回归模型作为输出，测试过程以新电力工程的初步设计文档为输入，经过文本信息抽取，初步设计文档被转化成特征向量，以该特征向量作为预测模型的输入，调用每种主设备的预测模型，预测这些主设备的需求用量；

非主设备物资需求预测方法为：主设备的数量预测完成后，根据主设备与其他设备在数量上关联来对非主设备的需求量进行预测，把文本分类技术与物资用量之间的关联性相结合，实现对非主设备需求量的预测，具体为：以词向量表示初步设计文档中每个词，利用卷积神经网络学习得到文档的向量表达，将该向量与主设备需求量向量拼接，得到的向量输入到多层神经网络，利用该多层神经网络预测非主设备的需求量；

文本信息抽取方法：把从初步设计文档抽取上述工程属性的取值这一任务看成是序列标注任务，采用BIO标注模式，每种属性对应两个标签：属性值的B和属性值的I，分别表示属性值的开始词和属性值的中间词，以及O，表示不属于属性值的普通词，选择的序列标注模型为BLSTM。

2.根据权利要求1所述的一种基于文本信息抽取的电力物资需求预测方法，其特征在于：BLSTM的输入为词序列，每个词用词向量表示，输出为标签序列，训练时采用的损耗函数为交叉熵，式(1)为一个训练样例的损耗，其中y为训练样例x的标注标签，y’是BLSTM预测的x属于每个标签的概率，t表示向量y中值为1的分量的下标，即x的标签序号，y’[t]表示BLSTM预测的x具有标签t的概率；训练完成后，BLSTM可以对输入的任意词序列x，按照(2)式预测x最可能的标注序列：

lose(y,y')＝-log(y'[t]) (1)

3.根据权利要求1所述的一种基于文本信息抽取的电力物资需求预测方法，其特征在于：利用BLSTM进行属性值的信息抽取后，每个项目的初步设计文档被转换成实数值向量的形式；每个项目的初步设计文档被转换成实数值向量后，它们与相应项目的主设备实际用量相配对，即得到用于训练SVM回归模型的标注训练数据集，训练得到的SVM回归模型对新项目以初步设计文档的信息抽取结果为输入，来预测主设备的可能用量，使用的是SVM回归模型。