CN115545578B - 一种电力调度操作指令信息抽取方法及系统 - Google Patents

一种电力调度操作指令信息抽取方法及系统 Download PDF

Info

Publication number
CN115545578B
CN115545578B CN202211523876.5A CN202211523876A CN115545578B CN 115545578 B CN115545578 B CN 115545578B CN 202211523876 A CN202211523876 A CN 202211523876A CN 115545578 B CN115545578 B CN 115545578B
Authority
CN
China
Prior art keywords
entity
target
candidate
type
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211523876.5A
Other languages
English (en)
Other versions
CN115545578A (zh
Inventor
张远来
黄睿
艾力
晏斐
杨贇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Maineng Energy Technology Co ltd
Shanghai Maineng Chuanghao Energy Technology Co ltd
Original Assignee
Nanjing Maineng Energy Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Maineng Energy Technology Co ltd filed Critical Nanjing Maineng Energy Technology Co ltd
Priority to CN202211523876.5A priority Critical patent/CN115545578B/zh
Publication of CN115545578A publication Critical patent/CN115545578A/zh
Application granted granted Critical
Publication of CN115545578B publication Critical patent/CN115545578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种电力调度操作指令信息抽取方法及系统,该方法通过对历史文本数据进行清洗,根据类别进行标注,得到训练集,再将训练集输入识别模型中,对该识别模型进行训练,得到目标识别模型,当目标识别模型建立完成后,将实际的操作指令输入目标识别模型中,可以得到从操作指令中提取的目标实体类别和目标实体关系类别,最后根据目标实体类别和目标实体关系类别进行实体追溯,得到完整设备实体及对应的完整状态,大大减轻人工数据抽取的工作量,提高调度业务实施效率。

Description

一种电力调度操作指令信息抽取方法及系统
技术领域
本发明属于电力系统技术领域,具体涉及一种电力调度操作指令信息抽取方法及系统。
背景技术
电力调度作为供电网系统的重要组成部分,对电网安全稳定运行起着至关重要的作用。调度业务中最常见的是由调度值班员向下级调度机构发布设备操作指令,此后,下级调度机构依据操作令进行设备调整。通过调度员及时准确响应操作令,确保电力的正常运行。可知,这种模式下,对下级调度机构人员接收指令的准确性和及时性提出极为严格的要求,一旦接受指令错误或执行过慢,会导致调度事故发生,不仅设备发生损坏,人们的生命财产也会受到严重威胁。
然而,目前电力调度指令的传达主要依据调度员查阅接收信息能力,调度员要从众多文字中筛选出关键设备和设备操作信息进行记录、实施或传达。显然,现有方法资源耗费高,实施压力大,工作效率低,亟需一种自动识别调度操作指令的方案,辅助调度员确认,降低实施成本,提升自动化程度,注入“数智动力”助推电力及电网数字化转型。
目前电力调度操作指令确认方案集中于简化流程、规范指令等方面,这些方法均无法有效减轻调度员指令识别压力。调度员本身避免不了疲劳、负荷、心理因素等影响,对操作指令的识别有其局限性。此外,操作指令中信息描述不同,受限于专业知识能力,调度员无法有效捕获具体设备或设备操作内容,可能还需人为查询数据库关联设备的规范表达,所以通过简化流程等方式还不能满足调度操作指令准确、快速识别响应的需求。
发明内容
基于此,本发明实施例当中提供了一种电力调度操作指令信息抽取方法及系统,旨在解决现有技术中,通过人工传达电力调度操作指令效率低、且出错率高的问题。
本发明实施例的第一方面提供了一种电力调度操作指令信息抽取方法,所述方法包括:
获取历史文本数据,将所述历史文本数据进行清洗,得到目标历史文本数据,并确定类别,所述类别包括实体类别和实体关系类别;
根据所述实体类别和所述实体关系类别,将所述目标历史文本数据进行数据标注,并将所述目标历史文本数据按预设比例划分为训练集、验证集以及测试集;
建立识别模型,并将所述训练集输入所述识别模型,以对所述识别模型进行训练,得到目标识别模型;
获取操作指令,并将所述操作指令输入所述目标识别模型,输出目标实体类别和目标实体关系类别,并根据所述目标实体类别和所述目标实体关系类别,进行实体追溯,得到完整设备实体及所述完整设备实体对应的完整状态。
进一步的,所述识别模型包括实体识别子模型和关系识别子模型,所述实体识别子模型的建立过程包括:
获取文本片段,将所述文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;
根据所述首字符索引和所述尾字符索引,获取候选实体,并将所述候选实体输入基于Albert轻量Bert预训练模型中,输出所述候选实体的首尾字符的第一语义表征;
获取所述候选实体的长度,将所述第一语义表征和所述长度进行合并,并通过神经网络的线性分类层和Softmax函数,计算所述候选实体属于各所述实体类别的第一概率,并进行实体类别判断。
进一步的,所述关系识别子模型的建立过程包括:
获取文本片段,将所述文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;
根据所述首字符索引和所述尾字符索引,获取候选实体,并将所述文本片段中的各所述候选实体进行组合,形成对应的候选实体对;
将各所述候选实体对的主体头尾和客体头尾分别添加反映主体、客体和类别信息的特殊字符,并输入所述基于Albert轻量Bert预训练模型中,输出所述候选实体对中各字符的第二语义表征;
根据所述第二语义表征,将主体头部的第一特殊字符和客体头部的第二特殊字符合并,并通过线性分类层和Softmax函数,计算所述候选实体对属于各所述实体关系类别的第二概率,并进行实体关系类别判断。
进一步的,所述实体类别判断和所述实体关系类别判断的损失函数均采用Softmax交叉熵损失函数,如下所示:
其中,为Softmax函数,n表示为实体类别数量或实体关系类别数量,q(x)表示为候选实体或候选实体对x经过神经网络后得到对应的实体类别或实体关系类别的概率,p(x)表示为候选实体或候选实体对x对应的真实实体类别或真实实体关系类别的one-hot编码。
进一步的,所述建立识别模型,并将所述训练集输入所述识别模型,以对所述识别模型进行训练,得到目标识别模型的步骤包括:
获取所述验证集,设置超参数,并分别训练所述实体识别子模型和所述关系识别子模型;
分别计算得到所述实体识别子模型和所述关系识别子模型的评价指标值,并根据所述评价指标值,保存最优模型文件,以得到目标识别模型。
进一步的,所述评价指标值的计算公式为:
其中,P表示为精确率,R表示为召回率,F1表示为所述评价指标值。
进一步的,所述获取操作指令,并将所述操作指令输入所述目标识别模型,输出目标实体类别和目标实体关系类别,并根据所述目标实体类别和所述目标实体关系类别,进行实体追溯,得到完整设备实体及所述完整设备实体对应的完整状态的步骤包括:
根据所述目标实体类别和所述目标实体关系类别,获取发射实体,所述发射实体包括发射主体和发射客体;
以所述发射主体为基准,根据所述目标实体类别和所述目标实体关系类别,获取第一设备信息;
以所述发射客体为基准,根据所述目标实体类别和所述目标实体关系类别,获取第二设备信息和状态信息;
将所述第一设备信息、所述第二设备信息以及所述状态信息合并,并输出。
本发明实施例的第二方面提供了一种电力调度操作指令信息抽取系统,所述系统包括:
获取模块,用于获取历史文本数据,将所述历史文本数据进行清洗,得到目标历史文本数据,并确定类别,所述类别包括实体类别和实体关系类别;
标注模块,用于根据所述实体类别和所述实体关系类别,将所述目标历史文本数据进行数据标注,并将所述目标历史文本数据按预设比例划分为训练集、验证集以及测试集;
训练模块,用于建立识别模型,并将所述训练集输入所述识别模型,以对所述识别模型进行训练,得到目标识别模型;
追溯模块,用于获取操作指令,并将所述操作指令输入所述目标识别模型,输出目标实体类别和目标实体关系类别,并根据所述目标实体类别和所述目标实体关系类别,进行实体追溯,得到完整设备实体及所述完整设备实体对应的完整状态。
本发明实施例的第三方面提供了一种计算机可读存储介质,包括:
所述计算机可读存储介质存储一个或多个程序,该程序被处理器执行时实现第一方面的电力调度操作指令信息抽取方法。
本发明实施例的第四方面提供了一种电子设备,其特征在于,所述电子设备包括存储器和处理器,其中:
所述存储器用于存放计算机程序;
所述处理器用于执行所述存储器上所存放的计算机程序时,实现第一方面的电力调度操作指令信息抽取方法。
本发明提出的一种电力调度操作指令信息抽取方法及系统,通过对历史文本数据进行清洗,根据类别进行标注,得到训练集,再将训练集输入识别模型中,对该识别模型进行训练,得到目标识别模型,当目标识别模型建立完成后,将实际的操作指令输入目标识别模型中,可以得到从操作指令中提取的目标实体类别和目标实体关系类别,最后根据目标实体类别和目标实体关系类别进行实体追溯,得到完整设备实体及对应的完整状态,大大减轻人工数据抽取的工作量,提高调度业务实施效率。
附图说明
图1是本发明第一实施例提供的一种电力调度操作指令信息抽取方法的实现流程图;
图2.1是识别模型中关系识别的结构示意图;
图2.2是识别模型中实体识别的结构示意图;
图3是本发明第二实施例提供的一种电力调度操作指令信息抽取系统的实现流程图;
图4是本发明第三实施例提供的一种电子设备的结构框图。
以下具体实施方式将结合上述附图进一步说明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参阅图1,图1示出了本发明第一实施例提供的电力调度操作指令信息抽取方法,所述方法具体包括步骤S01至步骤S04。
步骤S01,获取历史文本数据,将所述历史文本数据进行清洗,得到目标历史文本数据,并确定类别,所述类别包括实体类别和实体关系类别。
具体的,收集6000句电力调度操作指令文本内容,并对其进行数据清洗操作,其中,清洗操作可以包括删除空白及无意义字符、删除重复句、简繁体统一、英文大小写统一、文本编码统一等,通过该清洗操作可以减少无效字符对模型的影响,得到干净的文本表示,即目标历史文本数据。
需要说明的是,根据清洗后的目标历史文本数据和实际需求,确定类别,具体的,实际需求是提取设备及设备对应状态,首先依据目标历史文本数据和调度员实际所需内容确定实体划分粒度,如划分为一次设备、二次设备等粗粒度类别或变压器、母线、开关等细粒度类别,之后完善实体和关系类别设置,关系类别会受到实体粒度的影响,如细粒度划分会产生设备的上下级关系等。
在本实施例当中,实体类别包括“变电站”、“断路器”、“接地刀闸”、“主变”、“变压器”(非主变表示)、“母线”、“导线”(非母线表示)、“电压互感器”、“电流互感器”、“电抗器”、“电容器”、“消弧线圈”、“开闭所”、“环网柜”、“保护装置”(二次设备)、“状态”共16个类别,其中,“状态”可以称为状态实体,其余类别统称为设备实体。实体关系类别包括“包含”(Contain)、“从属”(Part-Of)、“实施前状态”(Have-Pri-State)、“实施状态”(Have-Now-State)、“状态包含”(State-Contain)、“特殊运行包含”(Special-Yx-Contain)共6个类别。
具体的,所有关系均由主体指向客体。“包含”关系可以理解为,主体为“变电站”,客体为设备实体,此关系描述变电站包含的客体设备,后续需要从对照表查询变电站字段进行实体追溯;“从属”关系可以理解为,主体为下级设备实体,客体为上级设备实体,此关系描述设备间的上下级关系,后续根据此关系实现完整设备名拼接;“实施前状态”关系可以理解为,主体为设备实体,客体为状态实体,此关系描述设备状态变更前状态信息,后续根据此关系实现设备前一刻状态信息提取;“实施状态”关系可以理解为,主体为设备实体,客体为状态实体,此关系描述设备当前状态信息,后续根据此关系实现设备当前时刻状态信息提取;“状态包含”关系可以理解为,主体为状态实体,客体为设备实体,此关系描述状态前存在的描述信息,后续根据此关系实现完整状态信息提取;“特殊运行包含”关系可以理解为,主体为设备实体,客体为设备实体,此关系描述特殊句式文本中虽然没有状态实体,但其实际表达的是设备运行状态信息,如文本“110kv母分开关接110kv正母”其含义为110kv母分开关接110kv正母运行,后续根据此关系实现设备运行状态及状态前描述信息110kv正母的提取。
步骤S02,根据所述实体类别和所述实体关系类别,将所述目标历史文本数据进行数据标注,并将所述目标历史文本数据按预设比例划分为训练集、验证集以及测试集。
其中,通过Labelstudio标注平台对目标历史文本数据进行类别标注任务,目标历史文本数据进行数据标注完后,将数据集按照7:1.5:1.5的比例划分为训练集、验证集和测试集,并统计训练集中实体类别和实体关系类别的标注数量,若各实体类别和实体关系类别的标注数量相差较大,可以通过数据增强方法使各实体类别和实体关系类别的标注数量趋于一致,具体的,该数据增强方法包括随机替换同类实体、近义词实体替换、DAGA语言生成模型等方法,通过样本扩充,提升训练样本容量和丰富程度。
具体的,统计训练集中各实体类别标注数量,针对标注量较少的实体类别如“电流互感器”、“电压互感器”、“消弧线圈”等进行样本扩充,缺失数量的30%通过同类实体替换生成样本,70%通过DAGA语言生成模型扩充样本,实体关系类别标注数量随实体类别的扩充得到增长,缺失数量通过同类实体替换实现实体关系类别的数据增强,最终通过多扩充策略保证训练样本的多样性。
步骤S03,建立识别模型,并将所述训练集输入所述识别模型,以对所述识别模型进行训练,得到目标识别模型。
其中,识别模型包括实体识别子模型和关系识别子模型,在本实施例当中,识别模型采用Pipeline框架,实体识别子模型采用Albert模型+Span形式,即以Span形式表示候选实体,预测Span类别,Span指的是文本片段,通常记录片段的首尾字符索引位置即可;关系识别子模型采用Albert模型+Marker_token形式,即通过给每个span嵌入额外的marker_token,进而输出候选实体对的关系类别,Marker_token突出候选实体对主体、客体和实体类别信息。Albert作为轻量级Bert预训练模型,通过词嵌入参数因式分解和跨层数据共享等方式减少模型参数,提高训练速度和效果,因此两个模型均选择Albert提取文本语义表征。本实施例提供的识别模型结构如图2.1和图2.2所示,图2.1是识别模型中关系识别的结构示意图,图2.2是识别模型中实体识别的结构示意图。
具体的,实体识别子模型的建立过程为,获取文本片段,将文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;根据首字符索引和尾字符索引,获取候选实体,并将候选实体输入基于Albert轻量Bert预训练模型中,输出候选实体的首尾字符的第一语义表征;获取候选实体的长度,将第一语义表征和长度进行合并,并通过神经网络的线性分类层和Softmax函数,计算候选实体属于各实体类别的第一概率,并进行实体类别判断;关系识别子模型的建立过程为,获取文本片段,将文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;根据首字符索引和尾字符索引,获取候选实体,并将文本片段中的各候选实体进行组合,形成对应的候选实体对;将各候选实体对的主体头尾和客体头尾分别添加反映主体、客体和类别信息的特殊字符,并输入基于Albert轻量Bert预训练模型中,输出候选实体对中各字符的第二语义表征;根据第二语义表征,将主体头部的第一特殊字符和客体头部的第二特殊字符合并,并通过线性分类层和Softmax函数,计算候选实体对属于各实体关系类别的第二概率,并进行实体关系类别判断。
其中,实体类别判断和实体关系类别判断的损失函数均采用Softmax交叉熵损失函数,如下所示:
其中,为Softmax函数,n表示为实体类别数量或实体关系类别数量,q(x)表示为候选实体或候选实体对x经过神经网络后得到对应的实体类别或实体关系类别的概率,p(x)表示为候选实体或候选实体对x对应的真实实体类别或真实实体关系类别的one-hot编码,可以理解的,本实施例当中涉及实体类别16类和实体关系类别6类,再加上无效类,例如空格,则n在实体类别判断中为17,在实体关系类别判断中为7。
另外,为了使得识别模型最优,即训练得到目标识别模型,首先,分别对实体识别子模型和关系识别子模型设置超参数,在本实施例当中,实体识别子模型和关系识别子模型设置相同的超参数值,且可以并行训练,需要说明的是,训练阶段关系识别子模型以标注的实体类别构建训练样本,即采用真实的实体类别构建训练样本。具体的,实体识别子模型和关系识别子模型均采用Adamw优化函数,部分参数权重衰减率设置为0.01、早停迭代数设置为10、迭代次数设置为100,批大小设置为8、学习率设置为0.0001,同时采用Warmup策略,预热比例设置为0.1。每轮迭代结束后,计算验证集的实体识别子模型和关系识别子模型的交叉熵损失函数值和评价指标值,若评价指标值大于历史的最大值,则保存当前时刻的模型文件。若迭代数达到预设值或满足早停策略,则结束训练。其中,评价指标值的计算公式为:
P表示为精确率,R表示为召回率,F1表示为评价指标值。
进一步的,利用训练保存的实体识别子模型和关系识别子模型进行预测,输出并保存预测结果。需要说明的是,预测阶段的关系识别子模型用以预测实体类别构建训练样本,且实体识别子模型和关系识别子模型必须串行实现。
步骤S04,获取操作指令,并将所述操作指令输入所述目标识别模型,输出目标实体类别和目标实体关系类别,并根据所述目标实体类别和所述目标实体关系类别,进行实体追溯,得到完整设备实体及所述完整设备实体对应的完整状态。
具体的,首先利用实体识别子模型识别操作指令文本,之后将预测得到的候选实体进行两两配对形成候选实体对,最后利用关系识别子模型预测候选实体对的实体关系类别。
当操作指令输入目标识别模型后,输出目标实体类别和目标实体关系类别,根据目标实体类别和目标实体关系类别,获取发射实体,发射实体包括发射主体和发射客体,具体的,基于“实施状态”、“实施前状态”关系获取发射主体设备equip1和发射客体状态state1,同时记录equip1和state1的关系即“实施状态”或“实施前状态”,需要说明的是,基于“特殊运行包含”关系获取主体发射设备equip1和客体发射设备equip2,同时记录equip1对应状态“运行”,以及两者关系为“实施状态”。
进一步的,以发射主体为基准,根据目标实体类别和目标实体关系类别,获取第一设备信息,具体的,针对发射设备equip1,递归查询“从属”关系并拼接设备名,如“101开关”从属于“#1主变”,则拼接设备名为“#1主变101开关”,同时查询“#1主变”从属关系,不断递归查询和拼接,获取完整设备名。记录最后递归客体equip3,最后以equip3为发射实体,查询“包含”关系,记录设备所在变电站;以发射客体为基准,根据目标实体类别和目标实体关系类别,获取第二设备信息和状态信息,具体的,针对发射状态state1,查询“状态包含”关系,记录状态前描述设备equip4,之后以equip4为发射实体,递归查询“从属”关系并拼接设备名,追溯状态前完整设备描述信息。针对发射设备实体equip2,递归查询“从属”关系并拼接设备名,追溯特殊关系状态前完整设备描述信息。
最终将第一设备信息、第二设备信息以及状态信息合并,并输出,在本实施例当中,可输出完整设备名、完整状态名,设备及对应状态的关系类别,设备所属变电站信息。另外,还可以根据特定需求制定规则,通过正则表达匹配对照表,将文本设备转换为对照表存储的规范设备名,本实例中首先根据变电站进行初步筛选,之后设置匹配规则进行特定实体类的提取,具体可根据实际需求和对照表形式进行操作。
综上,本发明实施例一提供的一种电力调度操作指令信息抽取方法,通过对历史文本数据进行清洗,根据类别进行标注,得到训练集,再将训练集输入识别模型中,对该识别模型进行训练,得到目标识别模型,当目标识别模型建立完成后,将实际的操作指令输入目标识别模型中,可以得到从操作指令中提取的目标实体类别和目标实体关系类别,最后根据目标实体类别和目标实体关系类别进行实体追溯,得到完整设备实体及对应的完整状态,大大减轻人工数据抽取的工作量,提高调度业务实施效率。
实施例二
请参阅图3,图3是本发明第二实施例提供的一种电力调度操作指令信息抽取系统的结构框图。电力调度操作指令信息抽取系统300包括:获取模块31、标注模块32、训练模块33以及追溯模块34,其中:
获取模块31,用于获取历史文本数据,将所述历史文本数据进行清洗,得到目标历史文本数据,并确定类别,所述类别包括实体类别和实体关系类别;
标注模块32,用于根据所述实体类别和所述实体关系类别,将所述目标历史文本数据进行数据标注,并将所述目标历史文本数据按预设比例划分为训练集、验证集以及测试集;
训练模块33,用于建立识别模型,并将所述训练集输入所述识别模型,以对所述识别模型进行训练,得到目标识别模型,其中,所述识别模型包括实体识别子模型和关系识别子模型;
追溯模块34,用于获取操作指令,并将所述操作指令输入所述目标识别模型,输出目标实体类别和目标实体关系类别,并根据所述目标实体类别和所述目标实体关系类别,进行实体追溯,得到完整设备实体及所述完整设备实体对应的完整状态。
进一步的,在本发明一些可选实施例当中,所述训练模块33中,所述实体识别子模型的建立过程包括:
获取文本片段,将所述文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;
根据所述首字符索引和所述尾字符索引,获取候选实体,并将所述候选实体输入基于Albert轻量Bert预训练模型中,输出所述候选实体的首尾字符的第一语义表征;
获取所述候选实体的长度,将所述第一语义表征和所述长度进行合并,并通过神经网络的线性分类层和Softmax函数,计算所述候选实体属于各所述实体类别的第一概率,并进行实体类别判断。
进一步的,在本发明一些可选实施例当中,所述训练模块33中,所述关系识别子模型的建立过程包括:
获取文本片段,将所述文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;
根据所述首字符索引和所述尾字符索引,获取候选实体,并将所述文本片段中的各所述候选实体进行组合,形成对应的候选实体对;
将各所述候选实体对的主体头尾和客体头尾分别添加反映主体、客体和类别信息的特殊字符,并输入所述基于Albert轻量Bert预训练模型中,输出所述候选实体对中各字符的第二语义表征;
根据所述第二语义表征,将主体头部的第一特殊字符和客体头部的第二特殊字符合并,并通过线性分类层和Softmax函数,计算所述候选实体对属于各所述实体关系类别的第二概率,并进行实体关系类别判断。
进一步的,在本发明一些可选实施例当中,所述训练模块33中,所述实体类别判断和所述实体关系类别判断的损失函数均采用Softmax交叉熵损失函数,如下所示:
其中,为Softmax函数,n表示为实体类别数量或实体关系类别数量,q(x)表示为候选实体或候选实体对x经过神经网络后得到对应的实体类别或实体关系类别的概率,p(x)表示为候选实体或候选实体对x对应的真实实体类别或真实实体关系类别的one-hot编码。
进一步的,在本发明一些可选实施例当中,所述训练模块33包括:
训练单元,用于设置超参数,并利用所述测试集分别训练所述实体识别子模型和所述关系识别子模型;
评价指标值计算单元,用于分别计算得到所述实体识别子模型和所述关系识别子模型的评价指标值,并根据所述评价指标值,保存最优模型文件,以得到目标识别模型,其中,所述评价指标值的计算公式为:
其中,P表示为精确率,R表示为召回率,F1表示为所述评价指标值。
进一步的,在本发明一些可选实施例当中,所述追溯模块34包括:
发射实体获取单元,用于根据所述目标实体类别和所述目标实体关系类别,获取发射实体,所述发射实体包括发射主体和发射客体;
第一信息获取单元,用于以所述发射主体为基准,根据所述目标实体类别和所述目标实体关系类别,获取第一设备信息;
第二信息获取单元,用于以所述发射客体为基准,根据所述目标实体类别和所述目标实体关系类别,获取第二设备信息和状态信息;
输出单元,用于将所述第一设备信息、所述第二设备信息以及所述状态信息合并,并输出。
实施例三
本发明另一方面还提出一种电子设备,请参阅图4,所示为本发明第三实施例当中的电子设备的结构框图,包括存储器20、处理器10以及存储在存储器上并可在处理器上运行的计算机程序30,处理器10执行计算机程序30时实现如上述的电力调度操作指令信息抽取方法。
其中,处理器10在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据,例如执行访问限制程序等。
其中,存储器20至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的硬盘。存储器20在另一些实施例中也可以是电子设备的外部存储装置,例如电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(FlashCard)等。进一步地,存储器20还可以既包括电子设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储电子设备的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
需要指出的是,图4示出的结构并不构成对电子设备的限定,在其它实施例当中,该电子设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的电力调度操作指令信息抽取方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据状态实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种电力调度操作指令信息抽取方法,其特征在于,所述方法包括:
获取历史文本数据,将所述历史文本数据进行清洗,得到目标历史文本数据,并确定类别,所述类别包括实体类别和实体关系类别;
根据所述实体类别和所述实体关系类别,将所述目标历史文本数据进行数据标注,并将所述目标历史文本数据按预设比例划分为训练集、验证集以及测试集;
建立识别模型,并将所述训练集输入所述识别模型,以对所述识别模型进行训练,得到目标识别模型;
获取操作指令,并将所述操作指令输入所述目标识别模型,输出目标实体类别和目标实体关系类别,并根据所述目标实体类别和所述目标实体关系类别,进行实体追溯,得到完整设备实体及所述完整设备实体对应的完整状态;
所述识别模型包括实体识别子模型和关系识别子模型,且所述实体识别子模型和所述关系识别子模型串行,所述实体识别子模型的建立过程包括:
获取文本片段,将所述文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;
根据所述首字符索引和所述尾字符索引,获取候选实体,并将所述候选实体输入基于Albert轻量Bert预训练模型中,输出所述候选实体的首尾字符的第一语义表征;
获取所述候选实体的长度,将所述第一语义表征和所述长度进行合并,并通过神经网络的线性分类层和Softmax函数,计算所述候选实体属于各所述实体类别的第一概率,并进行实体类别判断;
所述关系识别子模型的建立过程包括:
获取文本片段,将所述文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;
根据所述首字符索引和所述尾字符索引,获取候选实体,并将所述文本片段中的各所述候选实体进行组合,形成对应的候选实体对;
将各所述候选实体对的主体头尾和客体头尾分别添加反映主体、客体和类别信息的特殊字符,并输入所述基于Albert轻量Bert预训练模型中,输出所述候选实体对中各字符的第二语义表征;
根据所述第二语义表征,将主体头部的第一特殊字符和客体头部的第二特殊字符合并,并通过线性分类层和Softmax函数,计算所述候选实体对属于各所述实体关系类别的第二概率,并进行实体关系类别判断;
所述获取操作指令,并将所述操作指令输入所述目标识别模型,输出目标实体类别和目标实体关系类别,并根据所述目标实体类别和所述目标实体关系类别,进行实体追溯,得到完整设备实体及所述完整设备实体对应的完整状态的步骤包括:
根据所述目标实体类别和所述目标实体关系类别,获取发射实体,所述发射实体包括发射主体和发射客体;
以所述发射主体为基准,根据所述目标实体类别和所述目标实体关系类别,获取第一设备信息;
以所述发射客体为基准,根据所述目标实体类别和所述目标实体关系类别,获取第二设备信息和状态信息;
将所述第一设备信息、所述第二设备信息以及所述状态信息合并,并输出。
2.根据权利要求1所述的电力调度操作指令信息抽取方法,其特征在于,所述实体类别判断和所述实体关系类别判断的损失函数均采用Softmax交叉熵损失函数,如下所示:
其中,为Softmax函数,n表示为实体类别数量或实体关系类别数量,q(x)表示为候选实体或候选实体对x经过神经网络后得到对应的实体类别或实体关系类别的概率,p(x)表示为候选实体或候选实体对x对应的真实实体类别或真实实体关系类别的one-hot编码。
3.根据权利要求2所述的电力调度操作指令信息抽取方法,其特征在于,所述建立识别模型,并将所述训练集输入所述识别模型,以对所述识别模型进行训练,得到目标识别模型的步骤包括:
设置超参数,并利用所述测试集分别训练所述实体识别子模型和所述关系识别子模型;
分别计算得到所述实体识别子模型和所述关系识别子模型的评价指标值,并根据所述评价指标值,保存最优模型文件,以得到目标识别模型。
4.根据权利要求3所述的电力调度操作指令信息抽取方法,其特征在于,所述评价指标值的计算公式为:
其中,P表示为精确率,R表示为召回率,F1表示为所述评价指标值。
5.一种电力调度操作指令信息抽取系统,其特征在于,所述系统包括:
获取模块,用于获取历史文本数据,将所述历史文本数据进行清洗,得到目标历史文本数据,并确定类别,所述类别包括实体类别和实体关系类别;
标注模块,用于根据所述实体类别和所述实体关系类别,将所述目标历史文本数据进行数据标注,并将所述目标历史文本数据按预设比例划分为训练集、验证集以及测试集;
训练模块,用于建立识别模型,并将所述训练集输入所述识别模型,以对所述识别模型进行训练,得到目标识别模型;
追溯模块,用于获取操作指令,并将所述操作指令输入所述目标识别模型,输出目标实体类别和目标实体关系类别,并根据所述目标实体类别和所述目标实体关系类别,进行实体追溯,得到完整设备实体及所述完整设备实体对应的完整状态;
所述训练模块中,所述识别模型包括实体识别子模型和关系识别子模型,且所述实体识别子模型和所述关系识别子模型串行,所述实体识别子模型的建立过程包括:
获取文本片段,将所述文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;
根据所述首字符索引和所述尾字符索引,获取候选实体,并将所述候选实体输入基于Albert轻量Bert预训练模型中,输出所述候选实体的首尾字符的第一语义表征;
获取所述候选实体的长度,将所述第一语义表征和所述长度进行合并,并通过神经网络的线性分类层和Softmax函数,计算所述候选实体属于各所述实体类别的第一概率,并进行实体类别判断;
所述训练模块中,所述关系识别子模型的建立过程包括:
获取文本片段,将所述文本片段中的各字符进行索引,得到对应的字符索引,并分别确定首字符索引和尾字符索引;
根据所述首字符索引和所述尾字符索引,获取候选实体,并将所述文本片段中的各所述候选实体进行组合,形成对应的候选实体对;
将各所述候选实体对的主体头尾和客体头尾分别添加反映主体、客体和类别信息的特殊字符,并输入所述基于Albert轻量Bert预训练模型中,输出所述候选实体对中各字符的第二语义表征;
根据所述第二语义表征,将主体头部的第一特殊字符和客体头部的第二特殊字符合并,并通过线性分类层和Softmax函数,计算所述候选实体对属于各所述实体关系类别的第二概率,并进行实体关系类别判断;
所述追溯模块包括:
发射实体获取单元,用于根据所述目标实体类别和所述目标实体关系类别,获取发射实体,所述发射实体包括发射主体和发射客体;
第一信息获取单元,用于以所述发射主体为基准,根据所述目标实体类别和所述目标实体关系类别,获取第一设备信息;
第二信息获取单元,用于以所述发射客体为基准,根据所述目标实体类别和所述目标实体关系类别,获取第二设备信息和状态信息;
输出单元,用于将所述第一设备信息、所述第二设备信息以及所述状态信息合并,并输出。
6.一种计算机可读存储介质,其特征在于,包括:
所述计算机可读存储介质存储一个或多个程序,该程序被处理器执行时实现如权利要求1-4任一项所述的电力调度操作指令信息抽取方法。
7.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,其中:
所述存储器用于存放计算机程序;
所述处理器用于执行所述存储器上所存放的计算机程序时,实现权利要求1-4任一项所述的电力调度操作指令信息抽取方法。
CN202211523876.5A 2022-12-01 2022-12-01 一种电力调度操作指令信息抽取方法及系统 Active CN115545578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211523876.5A CN115545578B (zh) 2022-12-01 2022-12-01 一种电力调度操作指令信息抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211523876.5A CN115545578B (zh) 2022-12-01 2022-12-01 一种电力调度操作指令信息抽取方法及系统

Publications (2)

Publication Number Publication Date
CN115545578A CN115545578A (zh) 2022-12-30
CN115545578B true CN115545578B (zh) 2023-04-07

Family

ID=84721806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211523876.5A Active CN115545578B (zh) 2022-12-01 2022-12-01 一种电力调度操作指令信息抽取方法及系统

Country Status (1)

Country Link
CN (1) CN115545578B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324743A (zh) * 2020-02-14 2020-06-23 平安科技(深圳)有限公司 文本关系抽取的方法、装置、计算机设备及存储介质
CN112906394A (zh) * 2021-03-18 2021-06-04 北京字节跳动网络技术有限公司 地址识别方法、装置、设备和存储介质
CN113158676A (zh) * 2021-05-12 2021-07-23 清华大学 专业实体与关系联合抽取方法、系统及电子设备
CN114626380A (zh) * 2022-03-25 2022-06-14 北京明略昭辉科技有限公司 实体识别的方法和装置、电子设备和存储介质
CN114936290A (zh) * 2022-05-18 2022-08-23 国网数字科技控股有限公司 数据处理方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN115545578A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
CN107291783B (zh) 一种语义匹配方法及智能设备
CN111651474B (zh) 一种自然语言至结构化查询语言的转换方法及系统
CN106250934B (zh) 一种缺陷数据的分类方法及装置
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN116956929B (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN113553412A (zh) 问答处理方法、装置、电子设备和存储介质
CN115391512A (zh) 一种对话语言模型的训练方法、装置、设备及存储介质
CN113868422A (zh) 一种多标签稽查工单问题溯源识别方法及装置
CN111340253B (zh) 一种主网检修申请单的解析方法及系统
CN115545578B (zh) 一种电力调度操作指令信息抽取方法及系统
CN113486174A (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN111950286A (zh) 一种人工智能法务评审引擎系统开发方法
CN109993381B (zh) 基于知识图谱的需求管理应用方法、装置、设备及介质
CN116227584A (zh) 面向电力行业的预训练语言模型建立方法、系统及介质
CN115878778A (zh) 面向业务领域的自然语言理解方法
CN115759085A (zh) 基于提示模型的信息预测方法、装置、电子设备及介质
CN115759254A (zh) 基于知识增强生成式语言模型的问答方法、系统及介质
CN113705194A (zh) 简称抽取方法及电子设备
JP2022082525A (ja) 機械学習基盤情報の提供方法および装置
CN113011162A (zh) 一种指代消解方法、装置、电子设备及介质
CN111597334A (zh) 电气图纸文本分类方法、系统、装置及介质
CN117056836B (zh) 程序分类模型的训练、程序类目识别方法及装置
Chao et al. Research on Test Case Generation Method of Airborne Software Based on NLP

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240229

Address after: Room 305, 3 / F, building 3, 700 Yinqing Road, Jiuting Town, Songjiang District, Shanghai

Patentee after: Shanghai maineng chuanghao Energy Technology Co.,Ltd.

Country or region after: China

Patentee after: Nanjing Maineng Energy Technology Co.,Ltd.

Address before: Floor 9, Block A2, Jiulong Lake International Enterprise Headquarters Park, No. 19, Suyuan Avenue, Jiangning District, Nanjing, Jiangsu 211100 (Jiangning Development Zone)

Patentee before: Nanjing Maineng Energy Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right