CN114386427A - 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质 - Google Patents

基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质 Download PDF

Info

Publication number
CN114386427A
CN114386427A CN202111489729.6A CN202111489729A CN114386427A CN 114386427 A CN114386427 A CN 114386427A CN 202111489729 A CN202111489729 A CN 202111489729A CN 114386427 A CN114386427 A CN 114386427A
Authority
CN
China
Prior art keywords
data
text
power grid
unstructured
original form
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111489729.6A
Other languages
English (en)
Inventor
马晓伟
褚云龙
王智伟
刘鑫
王文倬
原博
李武璟
李秋芳
陈前昌
张启文
徐海超
张楷
王波
王天禄
吴自博
陈清
李�根
郑鑫
李雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Branch Of State Grid Corp Of China
NARI Nanjing Control System Co Ltd
Original Assignee
Northwest Branch Of State Grid Corp Of China
NARI Nanjing Control System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Branch Of State Grid Corp Of China, NARI Nanjing Control System Co Ltd filed Critical Northwest Branch Of State Grid Corp Of China
Priority to CN202111489729.6A priority Critical patent/CN114386427A/zh
Publication of CN114386427A publication Critical patent/CN114386427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质,其方法包括:获取电网非结构化的原始表格文本并进行预处理;通过预构建的语义识别模型对预处理后的原始表格文本进行自动标注;基于标注结果解析预处理后的原始表格文本中的数据;将解析结果整理入预设的结构化表格中生成结构化的表格文本;本发明能够解决电网调控非结构化表格数据提取处理的问题,从而为智能控制提供知识支撑。

Description

基于语义分析的电网调控非结构化表格数据提取处理方法、 装置及存储介质
技术领域
本发明涉及一种基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质,属于电力调控技术领域。
背景技术
随着智能电网的不断发展和运行经验积累,电力系统相关企业积累了大量电力领域所产生的文本数据。电网运行过程中仍然依靠运行人员从大量经验规则文档中翻找知识,自动化和智能化程度相对较低,系统功能整合性不强。由于这些文本数据大多均由人工手工编写,非结构化的文本数据为知识信息的提取带来了巨大的困难,但其中往往存在大量的运行经验和知识积累。充分有效的利用这些经验知识,建立电力领域知识库,可以有效提高电力系统的运行效率,为智能控制提供知识支撑。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质,解决电网调控非结构化表格数据提取处理的问题,从而为智能控制提供知识支撑。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于语义分析的电网调控非结构化表格数据提取处理方法,包括:
获取电网非结构化的原始表格文本并进行预处理;
通过预构建的语义识别模型对预处理后的原始表格文本进行自动标注;
基于标注结果解析预处理后的原始表格文本中的数据;
将解析结果整理入预设的结构化表格中生成结构化的表格文本。
可选的,所述预处理包括:
基于预构建的停止词字典去除原始表格文本中的无意义符号和文字,并将原始表格文本的表格格式进行简化处理;所述停止词字典基于人工使用归纳总结构建语义识别模块。
可选的,所述语义识别模型的构建过程为:
基于电网调度系统的数据库抽取文本中特征句子,并通过人工对特征句子中的特征信息进行标注得到文本语料库;
基于电网调度系统的数据库获取设备数据,并对设备数据进行整理得到带设备关系库;
通过设备关系库对文本语料库进行扩充生成数据集,并将数据集划分为训练集和验证集;
将训练集输入初始化的Bi-LSTM神经网络得到预测输出;
根据预测输出和验证集计算Bi-LSTM神经网络的网络损失,并基于网络损失进行反向传播迭代训练更新网络参数,直至网络损失收敛;
将更新后的网络参数带入Bi-LSTM神经网络生成语义识别模型。
其中,所述文本包括运行管理规定、反事故预案和计划检修信息;所述特征信息包括电网实体和属性信息;所述设备数据包括设备名称和设备属性。
第二方面,本发明提供了一种基于语义分析的电网调控非结构化表格数据提取处理装置,所述装置包括
数据获取模块,用于获取电网非结构化的原始表格文本并进行预处理;
数据标注模块,用于通过预构建的语义识别模型对预处理后的原始表格文本进行自动标注;
数据解析模块,用于基于标注结果解析预处理后的原始表格文本中的数据;
数据生成模块,用于将解析结果整理入预设的结构化表格中生成结构化的表格文本。
第三方面,本发明提供了一种基于语义分析的电网调控非结构化表格数据提取处理装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供的一种基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质,通过使用电网关系库中实体信息对人工标注文本进行扩充,可以有效减少人工标注的同时保证标注数据集的规模,确保神经网络模型特征识别可以充分有效的训练,保证模型具有较好的准确率。本发明采用的神经网络标注结合表格文本信息,在知识库本体结构的基础上进行自动组合处理形成结构化数据,可以实现非结构化表格文本的自动提取,减少人工在文本抽取过程中的参与,避免由于表格格式混乱而需要重新人为统一设计表格。
附图说明
图1是本发明实施例提供的一种基于语义分析的电网调控非结构化表格数据提取处理方法的流程图;
图2是本发明实施例提供的语义识别模型的构建过程的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
如图1所示,本发明实施例提供了一种基于语义分析的电网调控非结构化表格数据提取处理方法,包括以下步骤:
(1)获取电网非结构化的原始表格文本并进行预处理;
预处理具体包括:基于预构建的停止词字典去除原始表格文本中的无意义符号和文字,并将原始表格文本的表格格式进行简化处理;停止词字典基于人工使用归纳总结构建语义识别模块。
(2)通过预构建的语义识别模型对预处理后的原始表格文本进行自动标注;
(3)基于标注结果解析预处理后的原始表格文本中的数据;
(4)将解析结果整理入预设的结构化表格中生成结构化的表格文本。
如图2所示,具体的:语义识别模型的构建过程为:
基于电网调度系统的数据库抽取文本中特征句子,并通过人工对特征句子中的特征信息进行标注得到文本语料库;
为了增加语料数量,提升模型准确率,基于电网调度系统的数据库获取设备数据,并对设备数据进行整理得到带设备关系库;
通过设备关系库对文本语料库进行扩充生成数据集,扩充例如,从设备关系库中去出厂站名府谷电厂,从文本语料库中取四台机组跳闸,组成新增语料府谷电厂四台机组跳闸;
并将数据集划分为训练集和验证集;
将训练集输入初始化的Bi-LSTM神经网络得到预测输出;
根据预测输出和验证集计算Bi-LSTM神经网络的网络损失,并基于网络损失进行反向传播迭代训练更新网络参数,直至网络损失收敛;
将更新后的网络参数带入Bi-LSTM神经网络生成语义识别模型。
其中,
文本包括运行管理规定、反事故预案和计划检修信息;
特征信息包括电网实体和属性信息;电网实体包括区域类、厂站类、设备类、线路类、断面类、指标类等,以线路类为例有线路名称、电压等级、首端厂站名称等属性。设备数据包括设备名称和设备属性。
实施例二:
本发明实施例提供了一种基于语义分析的电网调控非结构化表格数据提取处理装置,包括
数据获取模块,用于获取电网非结构化的原始表格文本并进行预处理;
数据标注模块,用于通过预构建的语义识别模型对预处理后的原始表格文本进行自动标注;
数据解析模块,用于基于标注结果解析预处理后的原始表格文本中的数据;
数据生成模块,用于将解析结果整理入预设的结构化表格中生成结构化的表格文本。
实施例三:
基于实施例一,本发明实施例提供了一种基于语义分析的电网调控非结构化表格数据提取处理装置,包括处理器及存储介质;
存储介质用于存储指令;
处理器用于根据指令进行操作以执行根据上述方法的步骤。
实施例四:
基于实施例一,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述方法的步骤。
本发明一种基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质,通过使用电网关系库中实体信息对人工标注文本进行扩充,可以有效减少人工标注的同时保证标注数据集的规模,确保神经网络模型特征识别可以充分有效的训练,保证模型具有较好的准确率。采用的神经网络标注结合表格文本信息,在知识库本体结构的基础上进行自动组合处理形成结构化数据,可以实现非结构化表格文本的自动提取,减少人工在文本抽取过程中的参与,避免由于表格格式混乱而需要重新人为统一设计表格。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种基于语义分析的电网调控非结构化表格数据提取处理方法,其特征在于,包括:
获取电网非结构化的原始表格文本并进行预处理;
通过预构建的语义识别模型对预处理后的原始表格文本进行自动标注;
基于标注结果解析预处理后的原始表格文本中的数据;
将解析结果整理入预设的结构化表格中生成结构化的表格文本。
2.根据权利要求1所述的一种基于语义分析的电网调控非结构化表格数据提取处理方法,其特征在于,所述预处理包括:
基于预构建的停止词字典去除原始表格文本中的无意义符号和文字,并将原始表格文本的表格格式进行简化处理;所述停止词字典基于人工使用归纳总结构建语义识别模块。
3.根据权利要求1所述的一种基于语义分析的电网调控非结构化表格数据提取处理方法,其特征在于,所述语义识别模型的构建过程为:
基于电网调度系统的数据库抽取文本中特征句子,并通过人工对特征句子中的特征信息进行标注得到文本语料库;
基于电网调度系统的数据库获取设备数据,并对设备数据进行整理得到带设备关系库;
通过设备关系库对文本语料库进行扩充生成数据集,并将数据集划分为训练集和验证集;
将训练集输入初始化的Bi-LSTM神经网络得到预测输出;
根据预测输出和验证集计算Bi-LSTM神经网络的网络损失,并基于网络损失进行反向传播迭代训练更新网络参数,直至网络损失收敛;
将更新后的网络参数带入Bi-LSTM神经网络生成语义识别模型。
其中,所述文本包括运行管理规定、反事故预案和计划检修信息;所述特征信息包括电网实体和属性信息;所述设备数据包括设备名称和设备属性。
4.一种基于语义分析的电网调控非结构化表格数据提取处理装置,其特征在于,所述装置包括
数据获取模块,用于获取电网非结构化的原始表格文本并进行预处理;
数据标注模块,用于通过预构建的语义识别模型对预处理后的原始表格文本进行自动标注;
数据解析模块,用于基于标注结果解析预处理后的原始表格文本中的数据;
数据生成模块,用于将解析结果整理入预设的结构化表格中生成结构化的表格文本。
5.一种基于语义分析的电网调控非结构化表格数据提取处理装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-3任一项所述方法的步骤。
6.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-3任一项所述方法的步骤。
CN202111489729.6A 2021-12-08 2021-12-08 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质 Pending CN114386427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111489729.6A CN114386427A (zh) 2021-12-08 2021-12-08 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111489729.6A CN114386427A (zh) 2021-12-08 2021-12-08 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114386427A true CN114386427A (zh) 2022-04-22

Family

ID=81196816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111489729.6A Pending CN114386427A (zh) 2021-12-08 2021-12-08 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114386427A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063156A (zh) * 2022-06-28 2022-09-16 支付宝(杭州)信息技术有限公司 一种风险的处理方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN111160035A (zh) * 2019-12-31 2020-05-15 北京明朝万达科技股份有限公司 文本语料的处理方法和装置
CN112905804A (zh) * 2021-02-22 2021-06-04 国网电力科学研究院有限公司 一种电网调度知识图谱的动态更新方法及装置
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635280A (zh) * 2018-11-22 2019-04-16 园宝科技(武汉)有限公司 一种基于标注的事件抽取方法
CN111160035A (zh) * 2019-12-31 2020-05-15 北京明朝万达科技股份有限公司 文本语料的处理方法和装置
CN112905804A (zh) * 2021-02-22 2021-06-04 国网电力科学研究院有限公司 一种电网调度知识图谱的动态更新方法及装置
CN113177124A (zh) * 2021-05-11 2021-07-27 北京邮电大学 一种垂直领域知识图谱构建方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063156A (zh) * 2022-06-28 2022-09-16 支付宝(杭州)信息技术有限公司 一种风险的处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN111709235B (zh) 一种基于自然语言处理的文本数据统计分析系统及方法
CN112860872B (zh) 基于自学习的配电网操作票语义合规性的校验方法及系统
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN112905804B (zh) 一种电网调度知识图谱的动态更新方法及装置
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN110188345B (zh) 一种电力操作票的智能识别方法与装置
CN114077674A (zh) 一种电网调度知识图谱数据优化方法及系统
CN117056531A (zh) 领域知识驱动的大语言模型精调方法、系统、设备及存储介质
CN112036179B (zh) 基于文本分类与语义框架的电力预案信息抽取方法
CN113095050A (zh) 一种智能成票方法、系统、设备及存储介质
CN113918512A (zh) 电网运行规则知识图谱构建系统及方法
CN115329047A (zh) 调控多元数据综合查询方法、系统、计算机设备及介质
CN115563968A (zh) 水电运检知识自然语言人工智能系统及方法
CN114036907B (zh) 一种基于领域特征的文本数据扩增方法
CN117540004B (zh) 基于知识图谱和用户行为的工业领域智能问答方法及系统
CN114386427A (zh) 基于语义分析的电网调控非结构化表格数据提取处理方法、装置及存储介质
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN117875417A (zh) 一种基于知识图谱的风机故障知识标注和自动抽提方法
CN107622047B (zh) 一种设计决策知识的提取和表达方法
CN111831792B (zh) 一种电力知识库构建方法及系统
CN105631032A (zh) 基于抽象语义推荐的问答知识库建立方法、装置及系统
CN111625596B (zh) 新能源实时消纳调度的多源数据同步共享方法及系统
CN115587190A (zh) 一种电力领域知识图谱的构建方法、装置及电子设备
CN110515926A (zh) 基于分词和语义依存分析的异构数据源海量数据梳理方法
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination