CN111708850A - 电力业扩计量规则库的处理方法和装置 - Google Patents
电力业扩计量规则库的处理方法和装置 Download PDFInfo
- Publication number
- CN111708850A CN111708850A CN202010688645.4A CN202010688645A CN111708850A CN 111708850 A CN111708850 A CN 111708850A CN 202010688645 A CN202010688645 A CN 202010688645A CN 111708850 A CN111708850 A CN 111708850A
- Authority
- CN
- China
- Prior art keywords
- electric power
- entity
- metering
- expansion
- power industry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000007572 expansion measurement Methods 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims description 31
- 238000009434 installation Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 16
- 238000005259 measurement Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000006403 short-term memory Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 230000005611 electricity Effects 0.000 description 4
- 230000007787 long-term memory Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000011888 foil Substances 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电力业扩计量规则库的处理方法和装置。其中,该方法包括:获取电力文本的电力业扩计量实体,其中,电力业扩计量实体采用预定的类别进行标识;确定电力业扩计量实体之间的第一关联关系;依据电力业扩计量实体,构建电力本体概念的类属关系;依据电力业扩计量实体、第一关联关系和类属关系,确定第二关联关系以及第二关联关系对应的电力业扩计量实体;依据第二关联关系以及第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。本发明解决了相关技术中电力业扩计量规则库中规则表达的复杂化、多样化,造成的维护代价大、读写性差的技术问题。
Description
技术领域
本发明涉及电力领域,具体而言,涉及一种电力业扩计量规则库的处理方法和装置。
背景技术
电力业扩计量规则库是包含各类电力规范文件的规则库,也是电力行业进行业务受理、现场勘察、供电方案制定、工程施工、装表接电等主要环节的基础,当前的计量装置的配置方案制定考虑因素均比较局限,往往是根据《DL/T 448-2016电能计量装置技术管理规程》、《I、II类大客户技术管理规范》、《供电营业规则》等少数标准或规范及营销专业制度文件进行的通过性审核与判断,当计量装置选型出错,会出现计量误差、峰谷差加剧、计量装置故障等一系列问题。一个合理完善的电力业扩计量规则库可为计量装置选型的正确性提供安全保障。
为了完成上述需求,如何将文档中类似网状的、复杂的实体与关系清晰表示出来,为业扩计量设备选型提供适合的方案成为研究的关键。其中,也有利用传统方法,建立以关系型数据库为基础的电力业扩计量规则库,具有一致性、使用方便等特点,相对于网状、层次等其他模型更易于理解,但是为了维护一致性需要付出巨大的代价,同时其读写性也比较差,以及对于网状数据的存储与检索能力都远远不够。
针对上述相关技术中电力业扩计量规则库中规则表达的复杂化、多样化,造成的维护代价大、读写性差的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种电力业扩计量规则库的处理方法和装置,以至少解决相关技术中电力业扩计量规则库中规则表达的复杂化、多样化,造成的维护代价大、读写性差的技术问题。
根据本发明实施例的一个方面,提供了一种电力业扩计量规则库的处理方法,包括:获取电力文本的电力业扩计量实体,其中,所述电力业扩计量实体采用预定的类别进行标识;确定所述电力业扩计量实体之间的第一关联关系;依据所述电力业扩计量实体,构建电力本体概念的类属关系;依据所述电力业扩计量实体、所述第一关联关系和所述类属关系,确定第二关联关系以及所述第二关联关系对应的电力业扩计量实体;依据所述第二关联关系以及所述第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。
可选地,在获取电力文本的电力业扩计量实体之前,所述方法包括:确定所述电力文本中作为对应词的所述电力业扩计量实体以及作为先行词的所述电力业扩计量实体,得到所述电力文本的待消解对;确定所述电力文本的待消解对中所述对应词与所述先行词的距离;在所述距离小于或者等于预定距离的情况下,确定所述电力文本的待消解对为共指关系;基于所述共指关系,合并所述电力文本的待消解对中作为对应词的所述电力业扩计量实体以及作为先行词的所述电力业扩计量实体。
可选地,在获取电力文本的电力业扩计量实体之后,还包括:确定所述电力业扩计量实体的类别,其中,所述类别包括以下至少之一:用户、安装限制条件、设备组件、设备、计量指标、计量位置安装接线方式、规格。
可选地,确定所述电力业扩计量实体的类别包括:对所述电力文本进行分词,得到分词结果;基于电力业扩计量实体词典表对所述分词结果进行向量化,得到电力业扩计量实体的词向量;对所述电力业扩计量实体的词向量进行预处理,得到预处理后的所述电力业扩计量实体的词向量;基于预先训练的第一双向长短期记忆网络模型,确定预处理后的所述电力业扩计量实体的词向量对应的类别。
可选地,确定所述电力业扩计量实体之间的第一关联关系包括:基于预先训练的第二双向长短期记忆网络模型,拼接所述电力业扩计量实体的隐藏层状态;依据关系分类器,确定拼接后的所述电力业扩计量实体的隐藏层状态所属的第一关联关系,其中,所述第一关联关系包括以下至少之一:限定、位置、采用、电压等级、接线方式、规格、电流等级、对照、选择、安装方式。
可选地,依据所述电力业扩计量实体,构建电力本体概念的类属关系包括:确定所述电力业扩计量实体的电力计量概念,其中,所述电力计量概念包括以下至少之一:定义、组成、安装位置、接线方式、规格;对所述电力业扩计量实体的电力计量概念进行层次化分类,得到所述电力本体概念的类属关系,其中,所述类属关系包括以下至少之一:继承、关联、聚合。
可选地,更新电力业扩计量规则库还包括:基于预定算法对所述电力文本的规则进行学习,其中,从空规则开始,将所述电力文本的目标谓词作为标识所述规则的规则头;依次加入所述电力文本的其他谓词,按照预定标准评估规则筛选出最优规则,其中,所述规则至少包括电力业扩计量实体和电力业扩计量实体之间的关联关系。
根据本发明实施例的另一方面,还提供了一种电力业扩计量规则库的处理装置,包括:获取模块,用于获取电力文本的电力业扩计量实体,其中,所述电力业扩计量实体采用预定的类别进行标识;第一确定模块,用于确定所述电力业扩计量实体之间的第一关联关系;构建模块,用于依据所述电力业扩计量实体,构建电力本体概念的类属关系;第二确定模块,用于依据所述电力业扩计量实体、所述第一关联关系和所述类属关系,确定第二关联关系以及所述第二关联关系对应的电力业扩计量实体;更新模块,用于依据所述第二关联关系以及所述第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的电力业扩计量规则库的处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的电力业扩计量规则库的处理方法。
在本发明实施例中,采用获取电力文本的电力业扩计量实体,其中,所述电力业扩计量实体采用预定的类别进行标识;确定所述电力业扩计量实体之间的第一关联关系;依据所述电力业扩计量实体,构建电力本体概念的类属关系;依据所述电力业扩计量实体、所述第一关联关系和所述类属关系,确定第二关联关系以及所述第二关联关系对应的电力业扩计量实体;依据所述第二关联关系以及所述第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库的方式,通过基于电力业扩计量实体与电力业扩计量实体之间的关联关系、构建电力本体概念的类属关系、扩展电力业扩计量实体与电力业扩计量实体之间的关联关系,达到了构建、更新标准化的电力业扩计量规则库的目的,从而实现了降低电力业扩计量规则库的维护成本、提高电力业扩计量规则库的读写性的技术效果,进而解决了相关技术中电力业扩计量规则库中规则表达的复杂化、多样化,造成的维护代价大、读写性差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的电力业扩计量规则库的处理方法的流程图;
图2是根据本发明实施例的电力业扩计量规则库的处理装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种电力业扩计量规则库的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的电力业扩计量规则库的处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取电力文本的电力业扩计量实体,其中,电力业扩计量实体采用预定的类别进行标识;
步骤S104,确定电力业扩计量实体之间的第一关联关系;
其中,电力文本的电力业扩计量实体和电力业扩计量实体之间的第一关联关系,用于构建电力业扩计量规则库。
步骤S106,依据电力业扩计量实体,构建电力本体概念的类属关系;
其中,电力文本的电力业扩计量实体和电力本体概念的类属关系,也用于构建电力业扩计量规则库。
进一步可知,构建的电力业扩计量规则库的规则至少包括电力文本的电力业扩计量实体和电力业扩计量实体之间的第一关联关系、电力文本的电力业扩计量实体和电力本体概念的类属关系。
步骤S108,依据电力业扩计量实体、第一关联关系和类属关系,确定第二关联关系以及第二关联关系对应的电力业扩计量实体;
步骤S110,依据第二关联关系以及第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。
通过上述步骤,可以实现通过基于电力业扩计量实体与电力业扩计量实体之间的关联关系、构建电力本体概念的类属关系、扩展电力业扩计量实体与电力业扩计量实体之间的关联关系,达到了构建、更新标准化的电力业扩计量规则库的目的,从而实现了降低电力业扩计量规则库的维护成本、提高电力业扩计量规则库的读写性的技术效果,进而解决了相关技术中电力业扩计量规则库中规则表达的复杂化、多样化,造成的维护代价大、读写性差的技术问题。
可选地,在获取电力文本的电力业扩计量实体之前,方法包括:确定电力文本中作为对应词的电力业扩计量实体以及作为先行词的电力业扩计量实体,得到电力文本的待消解对;确定电力文本的待消解对中对应词与先行词的距离;在距离小于或者等于预定距离的情况下,确定电力文本的待消解对为共指关系;基于共指关系,合并电力文本的待消解对中作为对应词的电力业扩计量实体以及作为先行词的电力业扩计量实体。
作为一种可选的实施例,可以从规范文档中抽取的电力业扩计量实体完成先行词与对应词的对应操作,找到对应词的所对应的先行词。在具体实施过程中,由于指代关系大多不大于3,因此对想要确定的对应词的所在位置分别向前、向后遍历三个句子,得到待消解对。
例如:“由各种类型的{电能表}或与{计量用电压、电流互感器}及其{二次回路}相连接组成的用于{计量电能的装置},包括成套的{电能计量柜}。”在这句话中,选取“计量电能的装置”作为照应语,这句话中的所有实体“电能表”、“计量用电压、电流互感器”、“二次回路”、“电能计量柜”都将作为先行语与“计量电能的装置”结合形成待消解对:(“计量电能的装置”-“电能表”)、(“计量电能的装置”-“计量用电压、电流互感器”)等。
计算待消解对的特征向量,得到每一个候选对各自的特征值,组成特征集合;
将特征集合进行分类,利用先行词与对应候选词的特征向量值的差异进行比较,综合考虑上下文语义、以及分句的距离等特征;
确定共指结果,其中一个代词与先行词是一对一的关系时,共指的几率较大,当对应的先行词不止一个时,由于待消解对中两个的电力业扩计量实体距离与共指发生的概率成反比,因此来确定几率最大的先行词。
例如:“110(66)kV及以上电能计量装置采用{专用电能计量屏},{屏内}宜安装检修电源插座和照明灯,{照明开关}采用自动或手动”这句话中的存在的两个待消解对(“屏内”-“专用电能计量屏”)和(“屏内”-“照明开关”),此时一个照应语拥有两个先行语,比较照应语与先行语的距离,发现“专用电能计量屏”离照应语距离更短,所以判断(“屏内”-“专用电能计量屏”)存在共指关系。
通过上述实施方式可以基于规则匹配的共指消歧方法,解决规则库中的二义性、不完备和互斥性问题,生成唯一化的电力业扩计量规则库。
可选地,在获取电力文本的电力业扩计量实体之后,还包括:确定电力业扩计量实体的类别,其中,类别包括以下至少之一:用户、安装限制条件、设备组件、设备、计量指标、计量位置安装接线方式、规格。
作为一种可选的实施例,对电力规范及相关的技术文档中出现的电力业扩计量实体进行分类,实体总共分为7类,使用E表示,分别是用户(E_user)、安装限制条件(E_condition)、设备组件(E_subunit)、设备(E_equipment)、计量指标(E_indicator)、计量位置安装接线方式(E_installation)、规格(E_size)。
可选地,确定电力业扩计量实体的类别包括:对电力文本进行分词,得到分词结果;基于电力业扩计量实体词典表对分词结果进行向量化,得到电力业扩计量实体的词向量;对电力业扩计量实体的词向量进行预处理,得到预处理后的电力业扩计量实体的词向量;基于预先训练的第一双向长短期记忆网络模型,确定预处理后的电力业扩计量实体的词向量对应的类别。
作为一种可选的实施例,可以采用CRF-LSTM作为基础网络结构。首先使用CRF模型进行分词处理,再利用“BMES”进行序列标注。例如:“电能表与试验接线盒按一对一原则配置”这句话,得到的最佳切分结果应该为“电能表/与/试验接线盒/按/一对一原则/配置”,通过对不同的分词标签进行组合得到最优的分词结果;
其中,对于指定的输入序列X,并把X作为输入的观测序列,Y作为对应的输出标记序列,其公式为:
P(YkX,Y1,...,Yk-1,Yk,Yk+1...,Yn)=P(YkX,Yk-1,Yk+1)
通过定义电力业扩计量实体词典表Td×w(d表示词的个数,w表示词向量的长度,词典表中的词向量是一个One-Hot类型的值)基于将输入文本进行向量化表示。
设包含n个字输入句子表示为a=[a1,a2,a3,...,an],将其进行分词,表示为b=[b1,b2,b3,...,bj-1,bj,bj+1,...,bn],这里的bj代表句子中的词语,使用映射函数α(bj)获取不同词语的One-Hot类型的词向量:其中,为词典表中词bj的词向量;
对电力业扩计量实体的词向量进行处理,包括局部词向量和全局词向量的处理。例如:当输入“电能表与试验接线盒按一对一原则配置”,先找到词别级的词向量,然后将词别级的词向量首尾相连组成句子级别的词向量送入神经网络。
将得到的句子级别的电力业扩计量实体的词向量送入双向长短期记忆网络模型,可自动获取前向和后向的句子级特征。将输入的句子表示为包含n个词的序列b=(b1,b2,b3,...,bn,将其作为双向长短期记忆网络模型的输入,可得到正向长短期记忆网络模型的隐藏层的输出序列和反向长短期记忆网络模型隐藏层的输出序列在其对应位置上分别相加得到最终的隐藏层的输出序列。同时使用Dropout解决神经网络的过拟合问题;
其中,隐藏层的输出序列为:
将得到的隐藏层的输出dm送入Softmax层解决电力业扩计量实体类别的多分类问题,得到最终所属的电力业扩计量实体类别。
可选地,确定电力业扩计量实体之间的第一关联关系包括:基于预先训练的第二双向长短期记忆网络模型,拼接电力业扩计量实体的隐藏层状态;依据关系分类器,确定拼接后的电力业扩计量实体的隐藏层状态所属的第一关联关系,其中,第一关联关系包括以下至少之一:限定、位置、采用、电压等级、接线方式、规格、电流等级、对照、选择、安装方式。
作为一种可选的实施例,可以将电力规范及相关的技术文档中电力业扩计量实体之间的关系按层级嵌套可分为10种。关系用R表示,分别为限定(R_limit)、位置(R_position)、采用(R_use)、电压等级(R_level)、接线方式(R_connection)、规格(R_size)、电流等级(R_current)、对照(R_correpond)、选择(R_select)、安装方式(R_installation)。
在具体实施过程中,可以使用一种跨多句子的基于图长短期记忆的方法完成关系抽取任务。第一层是Word Embedding层作为输入文本的单词嵌入层;
经过图长短期记忆模型学习文本的隐藏层表示,之后把句子中的每个电力业扩计量实体的隐藏层状态拼接到一起;其中,构建图长短期记忆模型的核心是一个包含词的节点和表示各种依赖关系边的文档图。文档图的主干包括线性链和句法依存树,将文档分成两个有向无环图,可避免在环式结构中梯度反向传播的高复杂度和一些可能导致的其他问题。如果文档图仅包含线性链边时,图长短期记忆则是一个双向长短期记忆;
在线性链长短期记忆中,每个单元只包含一个遗忘门,但是在图长短期记忆中,由于一个单元可能有多个先例,通过不同的边连接到同一个单元,因此每个先例都有一个遗忘门;
隐层向量的计算公式如下:
其中,xa为节点a的输入词向量,ha是节点a的隐藏状态向量,W为输入权重矩阵,b为偏置。δ,tanh和分别表示Sigmoid、Tanh和Hadamard乘积(逐点乘法)。ia、oa分别代表输入门和输出门,P(a)代表先例,每个先例都有一个遗忘门faj和类型化的权重矩阵Um(a,j),其中,m(a,j)表示a和j的连接类型。ca和代表存储单元的中间计算结果;
基于拼接好的每个实体的隐藏层状态,将其传入到关系分类器中,找出所属的关系类型。
可选地,依据电力业扩计量实体,构建电力本体概念的类属关系包括:确定电力业扩计量实体的电力计量概念,其中,电力计量概念包括以下至少之一:定义、组成、安装位置、接线方式、规格;对电力业扩计量实体的电力计量概念进行层次化分类,得到电力本体概念的类属关系,其中,类属关系包括以下至少之一:继承、关联、聚合。
作为一种可选的实施例,可以确定电力业扩计量规则库的专业领域、范围与应用目标,本体将要应用的领域、应用对象;在建立本体之前考虑已经存在的电力计量本体,并解决共享与复用的问题;找出电力计量规程和相关文档中的电力计量概念以及详细解释,例如;电能计量装置的定义、组成、安装位置、接线方式、规格等等。对概念的层次进行分类,根据“继承”、“关联”、“聚合”等关系按照层级嵌套的方式,描述电力领域中的类属关系。
例如,抽取出的七类电力业扩计量实体:E_user、E_condition、E_subunit、E_equipment、E_indicator、E_installation、E_size为它们分别设置级别标签(使用L表示):L_用户1级、L_限制条件1级、L_部件1级、L_设备1级、L_指标1级、L_计量位置安装方式1级、L_规格1级。
其中,“继承关系”如:L_xx2级(如:E_计量装置)“继承”标签L_xx1级(如:E_设备),标签L_xx3级“继承”标签L_xx2级,以此类推;“关联关系”如:L_xx3级(如:E_Ⅰ类电能计量装置)与L_xx3级(如:E_Ⅱ类电能计量装置);“聚合关系”如:L_设备1级与L_部件1级为聚合关系。
这样的结构形成了一个树形的本体结构,清晰的表达了本体之间的类属关系。
可选地,更新电力业扩计量规则库还包括:基于预定算法对电力文本的规则进行学习,其中,从空规则开始,将电力文本的目标谓词作为标识规则的规则头;依次加入电力文本的其他谓词,按照预定标准评估规则筛选出最优规则,其中,规则至少包括电力业扩计量实体和电力业扩计量实体之间的关联关系。
作为一种可选的实施例,采用FOIL算法使用序贯覆盖的方法完成规则的学习,首先从空规则开始,将目标谓词作为标识该规则结论的规则头;依次将其他谓词加入表示规则前提的规则体考察,按预定标准评估规则,并选取最优规则;将规则覆盖的训练样例去除,将剩下的样例组成训练集并重复上述过程;其中,规则评估为:
d+/d-:原规则所包含的正/反例个数
进一步地,可以基于Trans E算法对知识图谱进行推理补全。该模型为给定一个由三元组构成的训练集合<h,r,t>,其中电力业扩计量实体用E表示,实体空间的实体通过Er向关系r投影得到hr和tr,利用hr+r≈tr得知,特定的关系投影能使得两个实体在这个关系可以更加的靠近彼此,不具备此关系的实体彼此远离。以此来完成知识图谱中实体与实体的关系更新补全。
通过上述步骤,对规范文档中的电力业扩计量实体与关系进行了细致了梳理,完成了实体与关系抽取、共指消解、本体构建、知识推理与更新等任务,为用户提供了一个构建高质量的电力业扩知识图谱数据库的方法,来提高用户的搜索效率与工作效率。
实施例2
根据本发明实施例的另一方面,还提供了一种电力业扩计量规则库的处理装置,图2是根据本发明实施例的电力业扩计量规则库的处理装置的示意图,如图2所示,该电力业扩计量规则库的处理装置包括:获取模块202、第一确定模块204、构建模块206、第二确定模块208以及更新模块210。下面对该电力业扩计量规则库的处理装置进行详细说明。
获取模块202,用于获取电力文本的电力业扩计量实体,其中,电力业扩计量实体采用预定的类别进行标识;第一确定模块204,连接至上述获取模块202,用于确定电力业扩计量实体之间的第一关联关系;构建模块206,连接至上述第一确定模块204,用于依据电力业扩计量实体,构建电力本体概念的类属关系;第二确定模块208,连接至上述构建模块206,用于依据电力业扩计量实体、第一关联关系和类属关系,确定第二关联关系以及第二关联关系对应的电力业扩计量实体;更新模块210,连接至上述第二确定模块208,用于依据第二关联关系以及第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述获取模块202、第一确定模块204、构建模块206、第二确定模块208以及更新模块210对应于实施例1中的步骤S102至S110,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
由上可知,在本申请上述实施例中,通过基于电力业扩计量实体与电力业扩计量实体之间的关联关系、构建电力本体概念的类属关系、扩展电力业扩计量实体与电力业扩计量实体之间的关联关系,达到了构建、更新标准化的电力业扩计量规则库的目的,从而实现了降低电力业扩计量规则库的维护成本、提高电力业扩计量规则库的读写性的技术效果,进而解决了相关技术中电力业扩计量规则库中规则表达的复杂化、多样化,造成的维护代价大、读写性差的技术问题。
可选地,在获取电力文本的电力业扩计量实体之前,上述装置包括:第三确定模块,用于确定电力文本中作为对应词的电力业扩计量实体以及作为先行词的电力业扩计量实体,得到电力文本的待消解对;第四确定模块,用于确定电力文本的待消解对中对应词与先行词的距离;第五确定模块,用于在距离小于或者等于预定距离的情况下,确定电力文本的待消解对为共指关系;合并模块,用于基于共指关系,合并电力文本的待消解对中作为对应词的电力业扩计量实体以及作为先行词的电力业扩计量实体。
可选地,在获取电力文本的电力业扩计量实体之后,上述装置还包括:第六确定模块,用于确定电力业扩计量实体的类别,其中,类别包括以下至少之一:用户、安装限制条件、设备组件、设备、计量指标、计量位置安装接线方式、规格。
可选地,上述第六确定模块包括:分词单元,用于对电力文本进行分词,得到分词结果;向量化单元,用于基于电力业扩计量实体词典表对分词结果进行向量化,得到电力业扩计量实体的词向量;预处理单元,用于对电力业扩计量实体的词向量进行预处理,得到预处理后的电力业扩计量实体的词向量;第一确定单元,用于基于预先训练的第一双向长短期记忆网络模型,确定预处理后的电力业扩计量实体的词向量对应的类别。
可选地,上述第一确定模块包括:拼接单元,用于基于预先训练的第二双向长短期记忆网络模型,拼接电力业扩计量实体的隐藏层状态;第二确定单元,用于依据关系分类器,确定拼接后的电力业扩计量实体的隐藏层状态所属的第一关联关系,其中,第一关联关系包括以下至少之一:限定、位置、采用、电压等级、接线方式、规格、电流等级、对照、选择、安装方式。
可选地,上述构建模块包括:第三确定单元,用于确定电力业扩计量实体的电力计量概念,其中,电力计量概念包括以下至少之一:定义、组成、安装位置、接线方式、规格;分类单元,用于对电力业扩计量实体的电力计量概念进行层次化分类,得到电力本体概念的类属关系,其中,类属关系包括以下至少之一:继承、关联、聚合。
可选地,上述更新模块还包括:学习单元,用于基于预定算法对电力文本的规则进行学习,其中,从空规则开始,将电力文本的目标谓词作为标识规则的规则头;筛选单元,用于依次加入电力文本的其他谓词,按照预定标准评估规则筛选出最优规则,其中,规则至少包括电力业扩计量实体和电力业扩计量实体之间的关联关系。
实施例3
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述中任意一项的电力业扩计量规则库的处理方法。
可选地,在本实施例中,上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述计算机可读存储介质包括存储的程序。
可选地,在程序运行时控制计算机可读存储介质所在设备执行以下功能:获取电力文本的电力业扩计量实体,其中,电力业扩计量实体采用预定的类别进行标识;确定电力业扩计量实体之间的第一关联关系;依据电力业扩计量实体,构建电力本体概念的类属关系;依据电力业扩计量实体、第一关联关系和类属关系,确定第二关联关系以及第二关联关系对应的电力业扩计量实体;依据第二关联关系以及第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。
实施例4
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的电力业扩计量规则库的处理方法。
本申请实施例提供了一种设备,该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取电力文本的电力业扩计量实体,其中,电力业扩计量实体采用预定的类别进行标识;确定电力业扩计量实体之间的第一关联关系;依据电力业扩计量实体,构建电力本体概念的类属关系;依据电力业扩计量实体、第一关联关系和类属关系,确定第二关联关系以及第二关联关系对应的电力业扩计量实体;依据第二关联关系以及第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取电力文本的电力业扩计量实体,其中,电力业扩计量实体采用预定的类别进行标识;确定电力业扩计量实体之间的第一关联关系;依据电力业扩计量实体,构建电力本体概念的类属关系;依据电力业扩计量实体、第一关联关系和类属关系,确定第二关联关系以及第二关联关系对应的电力业扩计量实体;依据第二关联关系以及第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种电力业扩计量规则库的处理方法,其特征在于,包括:
获取电力文本的电力业扩计量实体,其中,所述电力业扩计量实体采用预定的类别进行标识;
确定所述电力业扩计量实体之间的第一关联关系;
依据所述电力业扩计量实体,构建电力本体概念的类属关系;
依据所述电力业扩计量实体、所述第一关联关系和所述类属关系,确定第二关联关系以及所述第二关联关系对应的电力业扩计量实体;
依据所述第二关联关系以及所述第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。
2.根据权利要求1所述的方法,其特征在于,在获取电力文本的电力业扩计量实体之前,所述方法包括:
确定所述电力文本中作为对应词的所述电力业扩计量实体以及作为先行词的所述电力业扩计量实体,得到所述电力文本的待消解对;
确定所述电力文本的待消解对中所述对应词与所述先行词的距离;
在所述距离小于或者等于预定距离的情况下,确定所述电力文本的待消解对为共指关系;
基于所述共指关系,合并所述电力文本的待消解对中作为对应词的所述电力业扩计量实体以及作为先行词的所述电力业扩计量实体。
3.根据权利要求1所述的方法,其特征在于,在获取电力文本的电力业扩计量实体之后,还包括:
确定所述电力业扩计量实体的类别,其中,所述类别包括以下至少之一:用户、安装限制条件、设备组件、设备、计量指标、计量位置安装接线方式、规格。
4.根据权利要求3所述的方法,其特征在于,确定所述电力业扩计量实体的类别包括:
对所述电力文本进行分词,得到分词结果;
基于电力业扩计量实体词典表对所述分词结果进行向量化,得到电力业扩计量实体的词向量;
对所述电力业扩计量实体的词向量进行预处理,得到预处理后的所述电力业扩计量实体的词向量;
基于预先训练的第一双向长短期记忆网络模型,确定预处理后的所述电力业扩计量实体的词向量对应的类别。
5.根据权利要求1所述的方法,其特征在于,确定所述电力业扩计量实体之间的第一关联关系包括:
基于预先训练的第二双向长短期记忆网络模型,拼接所述电力业扩计量实体的隐藏层状态;
依据关系分类器,确定拼接后的所述电力业扩计量实体的隐藏层状态所属的第一关联关系,其中,所述第一关联关系包括以下至少之一:限定、位置、采用、电压等级、接线方式、规格、电流等级、对照、选择、安装方式。
6.根据权利要求1所述的方法,其特征在于,依据所述电力业扩计量实体,构建电力本体概念的类属关系包括:
确定所述电力业扩计量实体的电力计量概念,其中,所述电力计量概念包括以下至少之一:定义、组成、安装位置、接线方式、规格;
对所述电力业扩计量实体的电力计量概念进行层次化分类,得到所述电力本体概念的类属关系,其中,所述类属关系包括以下至少之一:继承、关联、聚合。
7.根据权利要求1至6中任一项所述的方法,其特征在于,更新电力业扩计量规则库还包括:
基于预定算法对所述电力文本的规则进行学习,其中,从空规则开始,将所述电力文本的目标谓词作为标识所述规则的规则头;
依次加入所述电力文本的其他谓词,按照预定标准评估规则筛选出最优规则,其中,所述规则至少包括电力业扩计量实体和电力业扩计量实体之间的关联关系。
8.一种电力业扩计量规则库的处理装置,其特征在于,包括:
获取模块,用于获取电力文本的电力业扩计量实体,其中,所述电力业扩计量实体采用预定的类别进行标识;
第一确定模块,用于确定所述电力业扩计量实体之间的第一关联关系;
构建模块,用于依据所述电力业扩计量实体,构建电力本体概念的类属关系;
第二确定模块,用于依据所述电力业扩计量实体、所述第一关联关系和所述类属关系,确定第二关联关系以及所述第二关联关系对应的电力业扩计量实体;
更新模块,用于依据所述第二关联关系以及所述第二关联关系对应的电力业扩计量实体,更新电力业扩计量规则库。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述的电力业扩计量规则库的处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的电力业扩计量规则库的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010688645.4A CN111708850A (zh) | 2020-07-16 | 2020-07-16 | 电力业扩计量规则库的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010688645.4A CN111708850A (zh) | 2020-07-16 | 2020-07-16 | 电力业扩计量规则库的处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111708850A true CN111708850A (zh) | 2020-09-25 |
Family
ID=72546552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010688645.4A Pending CN111708850A (zh) | 2020-07-16 | 2020-07-16 | 电力业扩计量规则库的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111708850A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930479A (zh) * | 2012-09-13 | 2013-02-13 | 中国电力科学研究院 | 一种用于电力系统规程知识的形式化方法及其形式化系统 |
CN107391638A (zh) * | 2017-07-10 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 规则关联模型的新概念发现方法及装置 |
WO2017202125A1 (zh) * | 2016-05-25 | 2017-11-30 | 华为技术有限公司 | 文本分类方法及装置 |
CN109286622A (zh) * | 2018-09-26 | 2019-01-29 | 天津理工大学 | 一种基于学习规则集的网络入侵检测方法 |
CN111160035A (zh) * | 2019-12-31 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 文本语料的处理方法和装置 |
-
2020
- 2020-07-16 CN CN202010688645.4A patent/CN111708850A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930479A (zh) * | 2012-09-13 | 2013-02-13 | 中国电力科学研究院 | 一种用于电力系统规程知识的形式化方法及其形式化系统 |
WO2017202125A1 (zh) * | 2016-05-25 | 2017-11-30 | 华为技术有限公司 | 文本分类方法及装置 |
CN107391638A (zh) * | 2017-07-10 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 规则关联模型的新概念发现方法及装置 |
CN109286622A (zh) * | 2018-09-26 | 2019-01-29 | 天津理工大学 | 一种基于学习规则集的网络入侵检测方法 |
CN111160035A (zh) * | 2019-12-31 | 2020-05-15 | 北京明朝万达科技股份有限公司 | 文本语料的处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
乔骥 等: "《面向电网调度故障处理的知识图谱框架与关键技术初探》" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
CN107239481B (zh) | 一种面向多源网络百科的知识库构建方法 | |
CN109598517B (zh) | 商品通关处理、对象的处理及其类别预测方法和装置 | |
CN112214614B (zh) | 基于知识图谱挖掘风险传播路径的方法及其系统 | |
CN110222192A (zh) | 语料库建立方法及装置 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN114911945A (zh) | 基于知识图谱的多价值链数据管理辅助决策模型构建方法 | |
CN116127084A (zh) | 基于知识图谱的微电网调度策略智能检索系统及方法 | |
CN111209362A (zh) | 基于深度学习的地址数据解析方法 | |
CN110826315B (zh) | 使用神经网络系统识别短文本时效性的方法 | |
CN113515589A (zh) | 数据推荐方法、装置、设备以及介质 | |
Naser-Karajah et al. | Current trends and approaches in synonyms extraction: Potential adaptation to arabic | |
CN114942994A (zh) | 文本分类方法、文本分类装置、电子设备及存储介质 | |
Qu et al. | Knowledge-driven recognition methodology for electricity safety hazard scenarios | |
CN113821590A (zh) | 一种文本类别的确定方法、相关装置以及设备 | |
KR20230163983A (ko) | 신경망 모델을 활용한 유사 특허 문헌 추출 방법 및 이를 제공하는 장치 | |
CN116415593B (zh) | 一种研究前沿识别方法、系统、电子设备及存储介质 | |
CN108536796B (zh) | 一种基于图的异构本体匹配方法及系统 | |
CN111681731A (zh) | 一种对检查报告进行自动颜色标注的方法 | |
Zhu et al. | Construction of transformer substation fault knowledge graph based on a depth learning algorithm | |
CN111708850A (zh) | 电力业扩计量规则库的处理方法和装置 | |
CN115409122A (zh) | 一种变电设备并发故障分析方法、系统、设备及介质 | |
Yang et al. | BERT-BiLSTM-CRF for Chinese sensitive vocabulary recognition | |
CN114547313A (zh) | 资源类型识别方法以及装置 | |
Ren et al. | Named-entity recognition method of key population information based on improved BiLSTM-CRF model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200925 |
|
RJ01 | Rejection of invention patent application after publication |