CN111428981A - 基于深度学习的电网故障预案信息提取方法和系统 - Google Patents
基于深度学习的电网故障预案信息提取方法和系统 Download PDFInfo
- Publication number
- CN111428981A CN111428981A CN202010191176.5A CN202010191176A CN111428981A CN 111428981 A CN111428981 A CN 111428981A CN 202010191176 A CN202010191176 A CN 202010191176A CN 111428981 A CN111428981 A CN 111428981A
- Authority
- CN
- China
- Prior art keywords
- model
- class
- clause
- grid fault
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 title claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 89
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000013145 classification model Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001681 protective effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000005684 electric field Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013486 operation strategy Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 235000007575 Calluna vulgaris Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000020169 heat generation Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Entrepreneurship & Innovation (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Public Health (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了基于深度学习的电网故障预案信息提取方法和系统,将故障预案的中文文本数字化向量表示;将复杂的预案语句分割为针对不同电网故障处置应用类型的子句获得子句向量;对分割好的子句向量进行分类,划分成电网故障处置中不同场景对应的类别;对属于不同应用场景的子句做针对性的关键信息抽取。相比于常规的信息识别、抽取方法,本发明提出在对文本做命名实体识别之前增加分句和子句场景分类步骤,采用本发明能够准确地提取预案关键信息,在较大程度上降低目前人工查阅预案文本信息、频繁查找计算结果的操作工作,为智能辅助调度人员、提高电网故障处置效率提供了快速、准确、可靠的决策信息基础。
Description
技术领域
本发明涉及电网技术领域、自然语言处理领域,具体涉及一种基于深度学习的电网故障预案信息提取方法和系统。
背景技术
随着我国能源结构的转型、分布式电源的快速发展和特高压交直流大容量输电线路的投运,电网的结构形态和系统特性日趋复杂,使得电网调控业务的难度和复杂度大幅增加。尤其是在电网故障情况下,为保证快速、安全恢复线路供电,维持电网负荷的安全稳定运行,对电网故障处置系统提出了更高的要求。而电网故障处置预案作为调度员进行故障处置操作的重要参考依据,目前仍需手动查阅,由人工对照调度自动化系统中的实时数据进行故障的处置,智能化水平较低。当发生特高压直流大功率失去、极端自然灾害造成的设备相继故障跳闸时,告警繁多、信息分散、操作不便等问题十分突出,增加了调度故障处置难度及压力。
因此,在实际电网故障处置时,快速准确地提取故障预案的关键信息,从而进一步实现故障处置智能化应用的需求极为迫切。而故障预案关键信息的自动提取能够大幅减少调度员的人工查阅工作,为后续的设备关联、操作策略提示导航等应用提供强大的数据支撑。
发明内容
本发明的目的在于克服现有技术方法的不足,提供一种基于深度学习的电网故障预案信息提取方法,能够快速、准确、自动地从专业性强、语句冗长的电网故障预案文本中抽取与调度处置相关的关键信息。
为达到上述目的,本发明所采用的技术方案是:一种基于深度学习的电网故障预案信息提取方法,包括如下步骤:
将电网故障预案文字转化为向量形式;对获得的向量进行分割获得子句向量集;
将子句向量集中的各子句向量按照应用场景进行分类;
根据分类结果对子句向量进行关键信息类别(即设定信息类别)识别。
进一步地,所述应用场景包括事故结果类别和事故处理措施类别,所述事故结果类别包括:安控切机或机组跳闸类、潮流转移及变化类、电压变化类、频率变化类、薄弱运行方式类、损失负荷类、负荷转带类和/或提示性告警类;所述事故处理措施类别包括开机或停机组类、机组出力控制类、电压控制或容抗器投退类、潮流监视控制类、防护措施类、重合闸投或退类、线路启或停类、事故拉限电类、相关注意事项类和/或非重要内容类。考虑到首先,故障后方式与处置要点的内容差异巨大,前者主要描述电网故障导致的不良状态变化,后者主要描述针对不良状态的处置措施和注意事项,关注的重点和描述方式截然不同,用统一模型进行信息提取会导致识别精度不足;其次,电网故障导致的状态变化复杂多样,涉及多种不同层面。因此故障预案中对不同状态变化的描述截然不同,可以划分为多种场景。并且,在调度系统中,不同的状态变化情况对应不同的监视和控制模块。各功能模块的控制对象和操作策略完全取决于所针对的应用场景,相互间存在内在逻辑关联,但在预案描述文本中相互独立,难以抽取不同语句中的关联性。因此需要将不同类型的描述语句进行应用场景划分。因此本发明将应用场景包括事故结果类别和事故处理措施类别。
同样的,不同的应用场景关注的关键信息不完全相同,但也存在相同部分。本发明确定了所有可能的关键信息类型,这些信息类型与电力系统中的厂站、设备、指标等关键内容相对应,细致的划分提取有助于数据抽取后的进一步精细化应用。
进一步地,所述关键信息类别包括:调度级别类、所令调度级别类、厂站类、地区类、设备数量类、设备容量类、设备名称类、电压等级类、指标名称类、指标值和/或指标变化量类。
进一步地,利用Bert模型将电网故障预案文字转化为向量形式。
进一步地,采用Bi-LSTM(Bi-directional Long Short-Term Memory)模型对向量进行分割获得子句向量集,采用CNN(Convolutional Neural Networks)模型将子句向量集中的各子句向量按照应用场景进行分类;采用Bi-LSTM+CRF(Conditional Random Field)模型根据分类结果对子句向量进行关键信息类别识别。
根据本发明的第二方面,提供了一种基于深度学习的电网故障预案的信息提取系统,其特征在于,包括向量转化模型、预案文本分句模型、语句场景分类模型以及关键信息识别模型;
所述向量转化模型,用于将电网故障预案文字转化为向量形式;
所述预案文本分句模型,用于对向量进行分割获得子句向量集;
所述语句场景分类模型,用于将子句向量集中的各子句向量按照应用场景进行分类;
所述关键信息识别模型,用于根据语句场景分类模型分类结果对子句向量进行关键信息的类别进行识别。
进一步地,所述向量转化模型采用Bert模型。
进一步地,所述预案文本分句模型采用Bi-LSTM模型。
进一步地,所述语句场景分类模型采用CNN模型。
进一步地,所述关键信息识别模型采用Bi-LSTM+CRF模型。
本发明的有益效果:
采用本发明方法提供的一种基于深度学习的电网故障预案信息提取方法,可以克服现有技术方法的不足,利用深度学习模型进行预案文本分割、语义场景分类,针对不同的场景利用模型群进行细粒度的关键信息命名实体识别,相比于其他信息抽取方法,准确率大幅提升;
本发明采用CNN、Bi-LSTM等深度学习技术提升了分句和子句场景分类的准确性,并且深度学习模型通过对训练数据的学习可以泛化应用到训练数据以外的其他数据中。在此基础上对不同场景的语句用不同的信息识别模型做提取,形成识别模型群,并采用CRF技术加强相邻标签间的关系,优化了模型群的命名实体识别,粒度更细、专业针对性更强,因此对电网故障处置预案的信息识别效果更好。
本发明通过将应用场景划分事故结果类别和事故处理措施类别,提高各步骤中的模型识别准确率,从而提高信息提取方法的整体准确率。通过对应用场景、关键信息的细致化分,有助于实现数据的后续精细化应用,提高信息抽取工作的实际应用价值。
附图说明
图1为本发明具体实施例的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
实施例一、如图1所示,一种基于深度学习的电网故障预案信息提取方法,包括以下步骤:
步骤一、训练电力领域Bert模型。在预训练Bert模型的基础上,用大量电力领域专业文本进行无监督微调训练,训练好的Bert模型可将文字转化为适用于电力领域的字向量,本实施例中每个字符将被映射为的向量ai。
步骤二、利用BIOES标注方法对大量历史的预案文本语句做分句标注,将每个长整句划分为短子句,对每个字符打上“B(开始位置)、I(中间内容)、E(结束位置)、O(其他)”的标签,分别以0,1,2,3进行标记,为详细说明分句标注过程,列举分句标注样例:
历史预案原句:
“[华北分中心]适当降低岱海电厂、张热电厂机组出力,控制顺通另一回线路潮流;抬高冀北地区电压水平;”
标注为:“301111311111111311111112301111111112301111111123”
对应子句集:
{“[华北分中心]适当降低岱海电厂、张热电厂机组出力,”,
“控制顺通另一回线路潮流;”,
“抬高冀北地区电压水平;”}
共计3句,类似地标注更多的“长整句-子句集”对,生成“分句训练数据集”。然后利用步骤一中的Bert模型将“分句训练数据集”转为向量,“BIOES”的标注结果为标签,用于训练基于Bi-LSTM的预案文本分句模型,训练好的模型可以自动将长整句文本对应的长向量分割为多条对应于子句的短向量。
步骤三、对大量分好句的历史预案文本语句做场景类别标注,生成“场景分类训练数据集”。电网故障处置预案中的应用场景主要包括事故结果、事故处理措施两大类。本发明将事故结果进行细分,定义为:1.安控切机/机组跳闸、2.潮流转移及变化、3.电压变化、4.频率变化、5.薄弱运行方式、6.损失负荷、7.负荷转带、8.提示性告警;将事故处理措施细分,定义为:9.开/停机组、10.机组出力控制、11.电压控制/容抗器投退、12.潮流监视控制、13.防护措施、14.重合闸投/退、15.线路启/停、16.事故拉限电、17.相关注意事项;另外本实施例额外定义一类子场景,用于包含其他内容:18.非重要内容。将步骤二中划分好的“长整句-子句集”语料中的每一个子句做类别标记,如:
“[华北分中心]适当降低岱海电厂、张热电厂机组出力,”: [10-(机组出力控制)]
“控制顺通另一回线路潮流;”:[12-(潮流监视控制)]
“抬高冀北地区电压水平;”:[11-(电压控制)]
利用步骤一中的Bert模型将“场景分类训练数据集”中的中文转为向量,以类别标签为参考,训练基于CNN的语句场景分类模型,训练完成后模型可以自动识别子句向量的类别。
步骤四、利用命名实体识别中BIOES标注法对大量历史预案文本中的关键信息进行标注,生成“电网预案命名实体识别训练数据集”。本发明将预案关键信息类别定义为:1.调度级别(S)、2.所令调度级别(LS)、3.厂站(TS)、4.地区(TL)、5.设备数量(TN)、6.设备容量(TC)、7.设备名称(TE)、8.电压等级(V)、9.指标值(NC)、10.指标变化量(NV),共计10类。依据BIOES标注方法的要求,每个类别有“B(开始位置)、I(中间内容)、E(结束位置)”3种标签,如调度级别有B-S、I-S、E-S三种标签,加上无意义内容的标签O,共计31个标签,映射为整数l[1,31]进行标记,不同场景的子句包含不同的待标注内容,例如:
“机组出力控制”子场景待标注的信息包括:调度级别、所令调度级别、厂站、地区、设备数量、设备容量、控制类型、优先控制的厂站、优先控制的地区、设备数量、设备容量、出力控制量。
“事故拉限电”子场景待标注的信息包括:调度级别、所令调度级别、地区、负荷量、临时限电容量、超供拉电容量、紧急减负荷拉电容量
“潮流转移及变化”子场景待标注的信息包括:原厂站\地区、通过的设备、转移到的现厂站\地区、影响的设备名、潮流状态、转移比、转移量
基于BIOES的标注样例如表1所示:
表1 基于BIOES的标注样例
文字: | 张 | 热 | 电 | 厂 | 运 | 行 | 机 | 组 | 跳 | 闸 |
标注: | B-TS | I-TS | I-TS | E-TS | B-TE | I-TE | I-TE | E-TE | O | O |
数字标记: | 7 | 8 | 8 | 9 | 19 | 20 | 20 | 21 | 31 | 31 |
利用步骤一中的Bert模型将“电网预案命名实体识别训练数据集”中的文字转为向量,以数字标记为参考,训练基于Bi-LSTM+CRF的关键信息识别模型。
针对关键内容相差较大的子场景,训练多个子模型,形成模型群。训练好的模型群可以识别出子句向量中每个字符向量的标记值,通过标记值确定字符所属的关键信息类别,从而确定出关键词。
步骤五、利用训练好的“电力领域Bert模型”将需要提取信息的故障预案文本转化为向量形式,标记为S。为详细说明信息提取的过程,选择需要提取信息的样例文本:“[华北分中心]密切监视近区500kV线路潮流;汇报国调事故情况,通知北疆电厂做好二期设备保厂用电措施;开启十三陵机组、潘家口机组发电,涨京津唐电网机组出力,确保 ACE合格;”,输入Bert模型中,整个句子映射为S={a1,a2.....aw},w=80。
步骤六、将步骤五中的S传入训练好的“预案文本分句模型”中运算,自动划分得到子句向量集set_s,set_s={{a1,a2,...,a19},{a20,a21,...,a47},{a48,a49,...,a63},{a64,a65,...,a72},{a73,a74,...,a80}},共计5个子句向量,其中{a1,a2,...,a19}为第一个子句对应的向量。
步骤七、遍历步骤六中set_s的子句向量,用“预案子句场景分类模型”将子句向量分类,得到子向量的场景分类结果:labels={12,13,9,10,18},即:key_1:[12-潮流监视控制]、key_2:[13-防护措施]、key_3:[9-开/停机组]、key_4:[10-出力控制]、key_5:[18-非重要内容]。按labels分类结果,从“预案关键信息识别模型群”中选择针对性的子模型对子句向量进行识别,先得到每个子句向量中的每个字符的识别结果,以key_1为例,表2详细列举了key_1中每个字符的识别结果:
表2 key_1中各字符的识别结果
文字: | [ | 华 | 北 | 分 | 中 | 心 | ] | 密 | 切 | 监 | 视 | 近 |
识别结果: | O | B-S | I-S | I-S | I-S | E-S | O | O | O | O | O | B-TL |
文字: | 区 | 5 | 0 | 0 | k | V | 线 | 路 | 潮 | 流 | ; | |
识别结果: | E-TL | B-V | I-V | I-V | I-V | E-V | B-TE | E-TE | O | O | O |
依据步骤四中BIOES标注规则,梳理每个子句向量中的字符识别结果,最终得到每个子句向量的关键信息识别结果:
key_1={“[华北分中心]”-调度机构,“密切监视”-无意义,“近区”-地区,“500kV”-电压等级,“线路”-设备,“潮流;”-无意义}:[12-潮流监视控制]
key_2={“汇报国调事故情况,通知”-无意义,“北疆电厂”-厂站,“做好”-无意义,“二期设备保厂用电措施;”-措施}:[13-防护措施]
key_3={“开启”-控制方向,“十三陵”-厂站,“机组”-设备“、”-无意义,“潘家口”-厂站,“机组”-设备,“发电,”-无意义}:[9-开/停机组]
key_4={“涨”-控制方向,“京津唐电网”-地区,“机组”-设备,“出力,”-无意义}:[10-出力控制]
key_5={“确保 ACE合格;”-注意事项}:[18-非重要内容]
本实施例提供了一种基于深度学习的电网故障预案信息提取方法,首先利用Bert模型生成字向量,将故障预案的中文文本数字化表示;然后利用基于Bi-LSTM(Bi-directionalLong Short-Term Memory)的文本分割模型将复杂的预案语句分割为针对不同电网故障处置应用类型的子句;再利用基于CNN(Convolutional Neural Networks)的文本分类模型对分割好的子句进行分类,划分成电网故障处置中不同场景对应的类别;最后利用基于Bi-LSTM+CRF(Conditional Random Field)的命名实体识别模型群,对属于不同应用场景的子句做针对性的关键信息抽取。相比于常规的信息识别、抽取方法,该发明提出在对文本做命名实体识别之前增加分句和子句场景分类步骤,并采用CNN、Bi-LSTM等深度学习技术提升了分句和子句场景分类的准确性,并且深度学习模型通过对训练数据的学习可以泛化应用到训练数据以外的其他数据中。在此基础上对不同场景的语句用不同的信息识别模型做提取,形成识别模型群,并采用CRF技术加强相邻标签间的关系,优化了模型群的命名实体识别,粒度更细、专业针对性更强,因此对电网故障处置预案的信息识别效果更好。采用本发明能够准确地提取预案关键信息,在较大程度上降低目前人工查阅预案文本信息、频繁查找计算结果的操作工作,为智能辅助调度人员、提高电网故障处置效率提供了快速、准确、可靠的决策信息基础。
在其它实施例中,在以上实施例步骤的基础上,还包括步骤八、故障处置预案关键信息的存储。将步骤七中的识别结果进行整理和映射,连同应用场景信息一起,按句子顺序存入数据库,便于其他故障处置辅助程序的调用。
在以上实施例中,可选地,预案文本分句模型采用基于Bi-LSTM模型(双向长短记忆网络),所述语句场景分类模型采用CNN模型;所述关键信息识别模型采用Bi-LSTM+CRF模型,以上模型是深度学习领域提出的经典算法架构,利用大量带标签的数据优化调节模型中的参数,使输出逼近目标值。本领域技术人员可以借助开源软件如TensorFlow等实现模型结构的设计,在此不赘述。
实施例二、一种基于深度学习的电网故障预案信息提取方法,包括以下步骤:
步骤一、利用训练好的“电力领域Bert模型”将需要提取信息的故障预案文本转化为向量形式,标记为S。为详细说明信息提取的过程,选择需要提取信息的样例文本:“[华北分中心]密切监视近区500kV线路潮流;汇报国调事故情况,通知北疆电厂做好二期设备保厂用电措施;开启十三陵机组、潘家口机组发电,涨京津唐电网机组出力,确保 ACE合格;”,输入Bert模型中,整个句子映射为S={a1,a2.....aw},w=80。
步骤二、将步骤一中的S传入训练好的“预案文本分句模型”中运算,自动划分得到子句向量集set_s,set_s={{a1,a2,...,a19},{a20,a21,...,a47},{a48,a49,...,a63},{a64,a65,...,a72},{a73,a74,...,a80}},共计5个子句向量,其中{a1,a2,...,a19}为第一个子句对应的向量。本实施例中预案文本分句模型采用基于Bi-LSTM模型。
步骤三、遍历步骤二中set_s的子句向量,用“预案子句场景分类模型”将子句向量分类,得到子向量的场景分类结果:labels={12,13,9,10,18}。按labels分类结果,从“预案关键信息识别模型群”中选择针对性的子模型对子句向量进行关键信息识别,得到每个子句向量的识别结果key_i:本实施例中,所述语句场景分类模型采用CNN模型。进一步地,所述关键信息识别模型采用Bi-LSTM+CRF模型。
本实施例中对于应用场景的分类以及关键信息的识别类别与上述实施例相同,预先训练的Bert模型、Bi-LSTM模型、CNN模型以及Bi-LSTM+CRF模型的训练方法同上述实施例所述,在此不赘述。
实施例三、一种基于深度学习的电网故障预案的信息提取系统,包括向量转化模型、预案文本分句模型、语句场景分类模型以及关键信息识别模型;
所述向量转化模型,用于将电网故障预案文字转化为向量形式;
所述预案文本分句模型,用于对向量进行分割获得子句向量集;
所述语句场景分类模型,用于将子句向量集中的各子句向量按照应用场景进行分类;
所述关键信息识别模型,用于根据语句场景分类模型分类结果对子句向量进行关键信息的类别进行识别。
可选地,所述向量转化模型采用Bert模型。
可选地,所述预案文本分句模型采用于Bi-LSTM模型。
可选地,所述语句场景分类模型采用CNN模型。
可选地,所述关键信息识别模型采用Bi-LSTM+CRF模型。
需要说明的是Bert模型、Bi-LSTM模型、CNN模型以及Bi-LSTM+CRF模型是深度学习领域提出的经典算法架构,本领域技术人员可以借助开源软件如TensorFlow等实现模型结构的设计,不再详细介绍。
本发明提出在对文本做命名实体识别之前增加分句和子句场景分类步骤,采用本发明能够准确地提取预案关键信息,在较大程度上降低目前人工查阅预案文本信息、频繁查找计算结果的操作工作,为智能辅助调度人员、提高电网故障处置效率提供了快速、准确、可靠的决策信息基础。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种基于深度学习的电网故障预案信息提取方法,其特征在于,包括:将电网故障预案文字转化为向量;对获得的向量进行分割获得子句向量集;
将子句向量集中的各子句向量按照应用场景进行分类;
根据分类结果对子句向量进行设定信息类别识别。
2.根据权利要求1所述的一种基于深度学习的电网故障预案信息提取方法,其特征在于,所述应用场景包括事故结果类别和事故处理措施类别,所述事故结果类别包括:安控切机或机组跳闸类、潮流转移及变化类、电压变化类、频率变化类、薄弱运行方式类、损失负荷类、负荷转带类和/或提示性告警类;所述事故处理措施类别包括开机或停机组类、机组出力控制类、电压控制或容抗器投退类、潮流监视控制类、防护措施类、重合闸投或退类、线路启或停类、事故拉限电类、相关注意事项类和/或非重要内容类。
3.根据权利要求1所述的一种基于深度学习的电网故障预案信息提取方法,其特征在于,所述设定信息类别包括:调度级别类、所令调度级别类、厂站类、地区类、设备数量类、设备容量类、设备名称类、电压等级类、指标名称类、指标值和/或指标变化量类。
4.根据权利要求1所述的一种基于深度学习的电网故障预案信息提取方法,其特征在于,所述将电网故障预案文字转化为向量形式,包括:
利用Bert模型将电网故障预案文字转化为向量形式。
5.根据权利要求1所述的一种基于深度学习的电网故障预案信息提取方法,其特征在于,采用Bi-LSTM模型对获得的向量进行分割获得子句向量集,采用CNN模型将子句向量集中的各子句向量按照应用场景进行分类;采用Bi-LSTM+CR模型实现根据分类结果对子句向量进行设定信息类别识别。
6.一种基于深度学习的电网故障预案信息提取系统,其特征在于,包括向量转化模型、预案文本分句模型、语句场景分类模型以及设定信息识别模型;
所述向量转化模型,用于将电网故障预案文字转化为向量;
所述预案文本分句模型,用于对获得的向量进行分割获得子句向量集;
所述语句场景分类模型,用于将子句向量集中的各子句向量按照应用场景进行分类;
所述设定信息识别模型,用于根据语句场景分类模型分类结果对子句向量进行设定信息的类别进行识别。
7.根据权利要求6所述的一种基于深度学习的电网故障预案信息提取系统,其特征在于,所述向量转化模型采用Bert模型。
8.根据权利要求6所述的一种基于深度学习的电网故障预案信息提取系统,其特征在于,所述预案文本分句模型采用于Bi-LSTM模型。
9.根据权利要求6所述的一种基于深度学习的电网故障预案信息提取系统,其特征在于,所述语句场景分类模型采用CNN模型。
10.根据权利要求6所述的一种基于深度学习的电网故障预案信息提取系统,其特征在于,所述设定信息识别模型采用Bi-LSTM+CRF模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010191176.5A CN111428981A (zh) | 2020-03-18 | 2020-03-18 | 基于深度学习的电网故障预案信息提取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010191176.5A CN111428981A (zh) | 2020-03-18 | 2020-03-18 | 基于深度学习的电网故障预案信息提取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111428981A true CN111428981A (zh) | 2020-07-17 |
Family
ID=71548124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010191176.5A Pending CN111428981A (zh) | 2020-03-18 | 2020-03-18 | 基于深度学习的电网故障预案信息提取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111428981A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036179A (zh) * | 2020-08-28 | 2020-12-04 | 南京航空航天大学 | 基于文本分类与语义框架的电力预案信息抽取方法 |
CN112036185A (zh) * | 2020-11-04 | 2020-12-04 | 长沙树根互联技术有限公司 | 一种基于工业企业构建命名实体识别模型的方法及装置 |
CN112084773A (zh) * | 2020-08-21 | 2020-12-15 | 国网湖北省电力有限公司电力科学研究院 | 一种基于词库双向最大匹配法的电网停电地址匹配方法 |
CN112255484A (zh) * | 2020-10-19 | 2021-01-22 | 国网河南省电力公司电力科学研究院 | 一种避雷器运行状态在线监测及评估方法和系统 |
CN112256840A (zh) * | 2020-11-12 | 2021-01-22 | 北京亚鸿世纪科技发展有限公司 | 改进迁移学习模型进行工业互联网发现并提取信息的装置 |
CN112612890A (zh) * | 2020-12-28 | 2021-04-06 | 交控科技股份有限公司 | 轨道车辆的故障识别方法及装置 |
CN113360641A (zh) * | 2021-05-07 | 2021-09-07 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 一种基于深度学习的电网故障处置预案语义建模系统及方法 |
CN113987183A (zh) * | 2021-10-29 | 2022-01-28 | 广西电网有限责任公司南宁供电局 | 一种基于数据驱动的电网故障处置预案辅助决策方法 |
CN114385795A (zh) * | 2021-08-05 | 2022-04-22 | 应急管理部通信信息中心 | 事故信息提取方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2767199A1 (fr) * | 1997-08-11 | 1999-02-12 | Renault | Dispositif de detection de defaut d'isolement electrique, pour vehicule electrique hybride |
CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN109816161A (zh) * | 2019-01-14 | 2019-05-28 | 中国电力科学研究院有限公司 | 一种配电网运行辅助决策分析系统及其应用方法 |
CN109934273A (zh) * | 2019-03-01 | 2019-06-25 | 长沙理工大学 | 一种基于dml-knn算法和主动抢修技术的故障特性画像新方法 |
CN109948808A (zh) * | 2017-11-15 | 2019-06-28 | 许继集团有限公司 | 变电站设备故障案例库的建库方法、故障诊断方法及系统 |
-
2020
- 2020-03-18 CN CN202010191176.5A patent/CN111428981A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2767199A1 (fr) * | 1997-08-11 | 1999-02-12 | Renault | Dispositif de detection de defaut d'isolement electrique, pour vehicule electrique hybride |
CN109948808A (zh) * | 2017-11-15 | 2019-06-28 | 许继集团有限公司 | 变电站设备故障案例库的建库方法、故障诊断方法及系统 |
CN107992597A (zh) * | 2017-12-13 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种面向电网故障案例的文本结构化方法 |
CN109816161A (zh) * | 2019-01-14 | 2019-05-28 | 中国电力科学研究院有限公司 | 一种配电网运行辅助决策分析系统及其应用方法 |
CN109934273A (zh) * | 2019-03-01 | 2019-06-25 | 长沙理工大学 | 一种基于dml-knn算法和主动抢修技术的故障特性画像新方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084773A (zh) * | 2020-08-21 | 2020-12-15 | 国网湖北省电力有限公司电力科学研究院 | 一种基于词库双向最大匹配法的电网停电地址匹配方法 |
CN112036179A (zh) * | 2020-08-28 | 2020-12-04 | 南京航空航天大学 | 基于文本分类与语义框架的电力预案信息抽取方法 |
CN112036179B (zh) * | 2020-08-28 | 2024-03-26 | 南京航空航天大学 | 基于文本分类与语义框架的电力预案信息抽取方法 |
CN112255484A (zh) * | 2020-10-19 | 2021-01-22 | 国网河南省电力公司电力科学研究院 | 一种避雷器运行状态在线监测及评估方法和系统 |
CN112255484B (zh) * | 2020-10-19 | 2022-03-25 | 国网河南省电力公司电力科学研究院 | 一种避雷器运行状态在线监测及评估方法和系统 |
CN112036185A (zh) * | 2020-11-04 | 2020-12-04 | 长沙树根互联技术有限公司 | 一种基于工业企业构建命名实体识别模型的方法及装置 |
CN112036185B (zh) * | 2020-11-04 | 2021-02-02 | 长沙树根互联技术有限公司 | 一种基于工业企业构建命名实体识别模型的方法及装置 |
CN112256840A (zh) * | 2020-11-12 | 2021-01-22 | 北京亚鸿世纪科技发展有限公司 | 改进迁移学习模型进行工业互联网发现并提取信息的装置 |
CN112612890A (zh) * | 2020-12-28 | 2021-04-06 | 交控科技股份有限公司 | 轨道车辆的故障识别方法及装置 |
CN113360641A (zh) * | 2021-05-07 | 2021-09-07 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 一种基于深度学习的电网故障处置预案语义建模系统及方法 |
CN114385795A (zh) * | 2021-08-05 | 2022-04-22 | 应急管理部通信信息中心 | 事故信息提取方法、装置及电子设备 |
CN113987183A (zh) * | 2021-10-29 | 2022-01-28 | 广西电网有限责任公司南宁供电局 | 一种基于数据驱动的电网故障处置预案辅助决策方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428981A (zh) | 基于深度学习的电网故障预案信息提取方法和系统 | |
CN111860882B (zh) | 一种电网调度故障处理知识图谱的构建方法及装置 | |
CN111768077B (zh) | 一种基于知识图谱的电网跳闸事件智能识别方法 | |
CN111985653B (zh) | 基于知识图谱的电网故障知识推荐与知识管理系统及方法 | |
CN112527997B (zh) | 一种基于电网领域调度场景知识图谱的智能问答方法及系统 | |
CN115357726A (zh) | 基于知识图谱的故障处置预案数字化模型建立方法 | |
CN113553420A (zh) | 基于知识图谱的电网故障处理规程推荐方法和系统 | |
CN112132491B (zh) | 一种基于电网拓扑分析的电网监视告警系统及方法 | |
CN110188345A (zh) | 一种电力操作票的智能识别方法与装置 | |
CN113360641B (zh) | 一种基于深度学习的电网故障处置预案语义建模系统及方法 | |
CN111832977A (zh) | 一种基于自然语言解析的检修申请自动成票方法 | |
CN110991812A (zh) | 一种基于自然语言处理技术的电网数据管理系统 | |
CN110378585A (zh) | 电网故障处置计算任务编排调用方法、系统及存储介质 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN105468663A (zh) | 一种基于云模型的智能决策电网知识库的搭建方法 | |
CN116108203A (zh) | 电网全景调度知识图谱构建和电网设备管理的方法、系统、存储介质及设备 | |
Wei et al. | Short text data model of secondary equipment faults in power grids based on LDA topic model and convolutional neural network | |
CN114283030A (zh) | 一种基于知识图谱的配电方案推荐方法及装置 | |
Zhang et al. | Research on knowledge graph construction for intelligent operation and maintenance of electrical transformers | |
CN111553158A (zh) | 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统 | |
Gao et al. | Research on power entity recognition technology base on BiLSTM-CRF | |
CN114781662A (zh) | 一种基于深度学习的故障线路复电知识推理方法 | |
Li et al. | Extraction of ontological terminology relations of scheduling regulations based on combination method | |
CN116415826A (zh) | 一种调度自动化主站系统异常操作辨识方法及装置 | |
CN109857834B (zh) | 一种基于多维度信息识别的电网边缘电气信息匹配方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200717 |