CN110674311A - 一种基于知识图谱的电力资产异构数据融合方法 - Google Patents
一种基于知识图谱的电力资产异构数据融合方法 Download PDFInfo
- Publication number
- CN110674311A CN110674311A CN201910835205.4A CN201910835205A CN110674311A CN 110674311 A CN110674311 A CN 110674311A CN 201910835205 A CN201910835205 A CN 201910835205A CN 110674311 A CN110674311 A CN 110674311A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- entities
- power asset
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 20
- 101150035983 str1 gene Proteins 0.000 claims description 20
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000012423 maintenance Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000007726 management method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于知识图谱的电力资产异构数据融合方法,该方法先构建电力资产知识图谱模型,再通过电力资产知识图谱模型抽取采集的电力资产数据中的知识,实现数据的融合规范,然后采用基于命名实体属性关系的相似性比较法和实体对齐算法计算所抽取的知识实体之间的关系,并进行多数据源知识融合,其中,电力资产数据包括结构化数据、半结构化数据以及非结构化数据。本设计不仅实现了电力资产多源异构数据的全面和准确的融合,而且具有较好的可维护性和可扩展性。
Description
技术领域
本发明属于电网异构数据融合领域,具体涉及一种基于知识图谱的电力资产异构数据融合方法。
背景技术
在电网系统中,电力资产管理水平的髙低是电网企业综合效益的一种决定性因素,高水平的电力资产管理能够为电网企业成本支出提供科学化、合理化的指导,能够在电网系统运行的各个阶段对电力资产进行有效的管理与支配。电网企业对电力资产管理工作给予高度重视并进行了较为广泛的研究,但是在运用过程中仍存在一些问题。在电力资产全寿命周期管理工作中,电力资产的各类数据存储于不同的管理系统中,仅凭某一单一系统的数据很难对资产属性进行准确的描述。如何将来自于多个异构系统的数据进行有效融合,得到比单一数据源更加全面、准确的信息,获得被测对象的完整及一致性描述,进而充分挖掘其深层和潜在信息,是现代电力企业发展亟需解决的问题,也是电力资产管理水平提升工作的一个重点。
在电力行业信息化建设过程中,由于各部门专业、各级调度中心业务系统建设和实施数据管理系统的阶段性、技术性以及其他经济和人为因素等因素影响,导致在发展过程中积累了大量采用不同存储方式、不同数据模型、不同编码规则的电网数据,其中既有简单的文件数据库,也有复杂的网络数据库,构成了电网的异构数据源。这些数据难以共享,信息不能兼容,形成了一个个的“信息孤岛”,再加上电力数据的复杂多样、数量庞大、实时性、分布性等特征,给电力数据融合工作带来困难。而目前,绝大多数的数据融合研究皆是针对特定的应用领域的特定问题开展的,根据问题的种类各自建立直观的融合准则而并未形成完整的理论框架和融合模型;而且大多数数据融合是经一种简单的方法合成信息,并未充分有效地利用多数据源所提供的冗余信息。
发明内容
本发明的目的是针对现有技术存在的上述问题,提供一种针对电力资产数据的自身特点、采用知识图谱实现电力资产多源异构数据的深度融合方法。
为实现以上目的,本发明的技术方案如下:
一种基于知识图谱的电力资产异构数据融合方法,依次包括以下步骤:
步骤A、构建电力资产知识图谱模型;
步骤B、先采集各类电力资产数据,再通过电力资产知识图谱模型抽取电力资产数据中的知识,实现数据的融合规范,其中,所述电力资产数据包括结构化数据、半结构化数据以及非结构化数据;
步骤C、采用基于命名实体属性关系的相似性比较法和实体对齐算法计算所抽取的知识实体之间的关系,并进行多数据源知识融合。
所述步骤B中,
对于结构化数据,采用MPP采集模型进行数据采集并构建正则表达式进行知识抽取,其中,所述结构化数据包括电力公司相关部门的运检、营销、物资数据;
对于半结构化数据,先采用Hadoop大数据技术进行数据采集,然后通过正则表达式和数据指标抽取实体,其中,所述半结构化数据为电网监测数据;
对于非结构化数据,先采用Hadoop大数据技术进行数据采集,然后利用基于语义标注的POS-CBOW关联模型算法抽取其知识实体、关系和属性,其中,所述非结构化数据为电力资产和设备的文本图像数据。
对于结构化数据,所述构建正则表达式进行知识抽取是指:先从采集的结构化数据中提取有用信息,再将这些信息转换成XML文件,然后根据电力资产知识图谱模型、通过递归算法将XML文件转换成RDF文件;
对于非结构化数据,利用基于语义标注的POS-CBOW关联模型算法抽取其知识实体、关系和属性依次包括以下步骤:
步骤B1、结合电力资产领域知识和模式设定非结构化短语的模式以对非结构化数据进行分词;
步骤B2、采用POS-CBOW关联模型算法对分割的词汇进行去除冗余,以获取相应的实体、关系和属性:
上式中,Sim(Vi,Vj)为两个不同的实体Vi和Vj的余弦相似度,Set(Vi,Vj)为Vi和Vj的词性相似度,depthVi为实体Vi的等级,Dist(Vi,Vj)为Vi和Vj二者在等级树中的距离。
所述步骤C依次包括以下步骤:
步骤C1、对抽取的知识实体进行分组;
步骤C2、先选取各组对象的属性,再通过动态规划算法计算同组中两实体各属性的编辑距离,以获取属性相似度:
上式中,D(i,j)为属性i变换到属性j的最小编辑距离,M为属性j的字符个数,N为属性i的字符个数,+1表示插入、删除、替换操作的代价;
步骤C3、先根据步骤C2得到的属性相似度设定来自同组不同数据源的同类别命名实体str和str1的各属性权重,然后计算实体str和str1所有属性的加权值,并通过加权值判定实体str和str1是否为相似实体对,若是,则将str1的全部关系替换为str的关系后去掉str1,再对str的全部关系进行去重操作,以完成实体对齐以及关系的融合,其中,所述关系包括层次关系、属性关系和语义关系。
所述步骤A采用自顶向下的方式构建电力资产知识图谱模型,具体为:
采用Protégé本体构建工具,首先定义电力资产领域的知识、概念定义和概念之间的关系,再定义各个基本类,通过父类和子类来定义类层次,并将所有的细化类进行合并,然后分别对对象属性和数据类型属性进行定义和约束。
与现有技术相比,本发明的有益效果为:
本发明一种基于知识图谱的电力资产异构数据融合方法针对电力资产数据的自身特点,通过对电力资产相关的各类型数据进行领域知识图谱建模、知识抽取和知识融合,建立从纷乱的数据源到高层次知识组织的映射,充分有效地利用多数据源所提供的冗余信息,不仅实现了电力资产多源异构数据的全面和准确的融合,为电力资产寿命和价值等重要属性的挖掘和电力资产全生命周期管理提供重要支撑,而且知识图谱的运用使得所构建的电力领域知识库可以动态更新、扩展和丰富,具有较好的可维护性和可扩展性,利于后期的进一步完善和应用。因此,本发明不仅实现了电力资产多源异构数据的全面和准确的融合,而且具有较好的可维护性和可扩展性。
附图说明
图1为本发明定义的电力资产类的Schema片段。
图2为本发明定义的属性的Schema片段。
图3为本发明采用实体对齐算法进行实体融合的流程图。
具体实施方式
下面结合具体实施方式对本发明作进一步详细的说明。
一种基于知识图谱的电力资产异构数据融合方法,依次包括以下步骤:
步骤A、构建电力资产知识图谱模型;
步骤B、先采集各类电力资产数据,再通过电力资产知识图谱模型抽取电力资产数据中的知识,实现数据的融合规范,其中,所述电力资产数据包括结构化数据、半结构化数据以及非结构化数据;
步骤C、采用基于命名实体属性关系的相似性比较法和实体对齐算法计算所抽取的知识实体之间的关系,并进行多数据源知识融合。
所述步骤B中,
对于结构化数据,采用MPP采集模型进行数据采集并构建正则表达式进行知识抽取,其中,所述结构化数据包括电力公司相关部门的运检、营销、物资数据;
对于半结构化数据,先采用Hadoop大数据技术进行数据采集,然后通过正则表达式和数据指标抽取实体,其中,所述半结构化数据为电网监测数据;
对于非结构化数据,先采用Hadoop大数据技术进行数据采集,然后利用基于语义标注的POS-CBOW关联模型算法抽取其知识实体、关系和属性,其中,所述非结构化数据为电力资产和设备的文本图像数据。
对于结构化数据,所述构建正则表达式进行知识抽取是指:先从采集的结构化数据中提取有用信息,再将这些信息转换成XML文件,然后根据电力资产知识图谱模型、通过递归算法将XML文件转换成RDF文件;
对于非结构化数据,利用基于语义标注的POS-CBOW关联模型算法抽取其知识实体、关系和属性依次包括以下步骤:
步骤B1、结合电力资产领域知识和模式设定非结构化短语的模式以对非结构化数据进行分词;
步骤B2、采用POS-CBOW关联模型算法对分割的词汇进行去除冗余,以获取相应的实体、关系和属性:
上式中,Sim(Vi,Vj)为两个不同的实体Vi和Vj的余弦相似度,Set(Vi,Vj)为Vi和Vj的词性相似度,depthVi为实体Vi的等级,Dist(Vi,Vj)为Vi和Vj二者在等级树中的距离。
所述步骤C依次包括以下步骤:
步骤C1、对抽取的知识实体进行分组;
步骤C2、先选取各组对象的属性,再通过动态规划算法计算同组中两实体各属性的编辑距离,以获取属性相似度:
上式中,D(i,j)为属性i变换到属性j的最小编辑距离,M为属性j的字符个数,N为属性i的字符个数,+1表示插入、删除、替换操作的代价;
步骤C3、先根据步骤C2得到的属性相似度设定来自同组不同数据源的同类别命名实体str和str1的各属性权重,然后计算实体str和str1所有属性的加权值,并通过加权值判定实体str和str1是否为相似实体对,若是,则将str1的全部关系替换为str的关系后去掉str1,再对str的全部关系进行去重操作,以完成实体对齐以及关系的融合,其中,所述关系包括层次关系、属性关系和语义关系。
所述步骤A采用自顶向下的方式构建电力资产知识图谱模型,具体为:
采用Protégé本体构建工具,首先定义电力资产领域的知识、概念定义和概念之间的关系,再定义各个基本类,通过父类和子类来定义类层次,并将所有的细化类进行合并,然后分别对对象属性和数据类型属性进行定义和约束。
本发明的原理说明如下:
知识图谱本质上是一种大规模语义网络,知识图谱的核心三元组是实体、属性和关系,其基本问题是将各个来源的关于实体或概念的描述信息及其关系进行形式化表述。电网不同数据源提供了对同一电力资产的不同视角的描述,不同数据源间缺乏对同一实体的统一识别是异构数据融合的一个重要问题,这正与知识图谱的观点不谋而合。对此,本发明提供了一种基于知识图谱的电力资产异构数据融合方法,实现了以下作用:
1、多源异构数据的深度融合。不同于以往电网数据经一种简单的方法合成信息和名称对应的“硬”融合,本发明利用知识图谱的实体对齐技术对电力资产多源异构数据进行深度的“软”融合,能充分有效地利用多数据源所提供的冗余信息,融合效果更全面和准确。
2、电力大数据的可视化融合。本发明首次基于知识图谱思想对电力资产数据进行融合,用节点和关系所组成的图谱直观地建模,将繁杂纷乱的电力数据信息从数据形式映射到视觉形式,非常清晰、直观和高效,可解释性强,利于深入理解和挖掘数据背后的价值。
3、具有较好的可维护性和可扩展性,利于后期的进一步完善和应用。知识图谱具有的知识合并(加入新知识,方式和实体对齐类似)和知识推理(从现有知识发现新知识)功能使得所构建的电力领域知识库可以动态更新、扩展和丰富,同时本发明为知识图谱在电力行业的应用,例如电力设备缺陷分析系统、电力领域语义搜索系统等,开辟道路。
构建电力资产知识图谱模型:本体Schema的构建主要有自顶向下与自底向上两种方式,考虑到在电力资产领域,知识专业性较强,噪声较小,实体、属性和关系也可根据需求进行限定和穷举,因此采用自顶向下的方式进行电力资产知识图谱的建模。
对于电力资产数据,本发明根据数据结构不同采用不同的方法进行处理。结构化数据质量较高,可以直接通过模板获取,半结构化数据相对于结构化化数据较为松散,具有结构多变模式不变的特点,故选择Hadoop大数据技术获取,而非结构化数据通常是文本性描述数据,此时的数据采取多需要借助自然语言处理技术识别相关实体。
结构化数据:电网的结构化数据主要包括电力公司相关部门的运检、营销、物资等数据,以关系数据表为主,一些电力企业管理数据尤其是ERP系统里的资产管理数据、PMS系统里的生产管理数据,是获取电力资产结构化信息主要数据源。
半结构化数据:电网的半结构化数据主要是电网监测数据,包括量测采集的调度运行指标和一些网页数据,是一种时序的规则数据。对电力设备采集的数据主要包括电网发电、受电负荷数据,设备电流电压数据、各种交易的申报成交数据及各类指标数据等,以天为标准获得半结构化数据的指标信息,如频率、电压、电量平衡指标、重要受约束断面潮流指标、检修计划指标等。
非结构化数据:非结构化数据主要指一些文本图像数据,对于电力资产和设备而言,非结构化数据主要是一些人工录入的文本描述性信息,比如员工检测记录的变电设备状态告警信息、试验报告中的缺陷故障记录语句等,需要对它们进行自然语言处理才能提取到知识。
实施例1:
一种基于知识图谱的电力资产异构数据融合方法,依次按照以下步骤进行:
步骤1、以自顶向下的方式,采用Protégé本体构建工具,首先参考国网CIM3.5标准定义电力资产领域的知识、概念定义和概念之间的关系,再定义各个基本类,通过父类和子类来定义类层次,并将所有的细化类进行合并,然后分别对对象属性和数据类型属性进行定义和约束,构建电力资产知识图谱模型,其中,基本类根据《国家电网公司固定资产目录》定义为15大类:输电线路;变电设备;配电线路及设备;用电计量设备;通信线路及设备;自动化控制设备、信息设备及仪器仪表;发电及供热设备;水工机械设备;制造及检修维护设备;生产管理用工器具;运输设备;辅助生产用设备及器具;房屋;建筑物;土地;15个基本大类下又逐步细分为各个层次的子类,例如,变电设备这一基本类分为变压器、换流设备、电气一般设备和电力电缆这4个子类,其中变压器又可进一步分为主变压器、厂用变压器、所用变压器/柜、接地变压器,具体参见图1;对象属性把对象之间进行连接,定义域、值域均为类别或者实例,例如属性“LocatedIn”的定义域为变压器,值域为变电站,其把变压器类的实例关联到变电站类的实例;数据类型属性将数据与对象类型值关联,其定义域通常为类别或者实例,值域为某种值,例如string、int、double等,属性“设备编码”将“变电站”与一个字符串值相关联,同时,属性也可以像类一样按照层次结构来组织,比如“资产关键日期”这一大属性下就包含资产起用日、资本化日期、不活动日期、使用年限、到期年限等子属性,参见图2。
步骤2、采集各类电力资产数据,其中,所述电力资产数据包括结构化数据、半结构化数据以及非结构化数据,所述结构化数据包括电力公司相关部门的运检、营销、物资数据,所述半结构化数据为电网监测数据,所述非结构化数据为电力资产和设备的文本图像数据;
步骤3、对于结构化数据,采用MPP采集模型进行数据采集并构建正则表达式进行知识抽取,其中,所述构建正则表达式进行知识抽取是指:先从采集的结构化数据中提取有用信息,如ERP系统中的资产基本信息、关键日期、资产价值数据、资产变动、资产报废等,PMS系统中的设备台账数据、缺陷查询数据、设备检修数据等,再将这些信息转换成XML文件,然后根据步骤1中定义的本体中的类、实体和属性,通过递归算法将XML文件转换成RDF文件,若XML文件中的节点有子节点,该节点就会生成对象属性和实体,然后依次递归遍历子节点;否则仅创建一个数据属性,此过程可采用开源的Jena API实现;对于半结构化数据,先采用Hadoop大数据技术进行数据采集,然后通过正则表达式和数据指标抽取实体;对于非结构化数据,先采用Hadoop大数据技术进行数据采集,然后结合电力资产领域知识和模式设定非结构化短语的模式以对非结构化数据进行分词,如对于设备状态描述信息“福#1主变表面有漆层破损”,将其分为三段“设备名/位置/缺陷”,再采用POS-CBOW关联模型算法对分割的词汇进行去除冗余,以获取相应的实体、关系和属性:
上式中,Sim(Vi,Vj)为两个不同的实体Vi和Vj的余弦相似度,Set(Vi,Vj)为Vi和Vj的词性相似度,depthVi为实体Vi的等级,Dist(Vi,Vj)为Vi和Vj二者在等级树中的距离;
步骤4、对步骤3得到的知识实体根据数据本身的关键信息进行分组,以降低计算的复杂度,如用所属地市(武汉、宜昌、荆州等)、设备类型(变压器、断路器、隔离开关等)、电压等级(220KV、110KV、10KV等)进行分组,其中宜昌市110KV主变压器数据为一组;
步骤5、对于电力资产数据而言,某个电力资产实体的属性是非常多的,在不同数据源中,一些表述设备基本信息的属性是共有的或大部分系统都具有的,因此根据各组对象和数据特点选取具有代表性的部分属性,如选取主变压器的“设备名称”、“设备型号”、“生产厂家”、“所属电站”属性,再通过动态规划算法计算同组中两实体各属性的编辑距离,以获取属性相似度:
上式中,D(i,j)为属性i变换到属性j的最小编辑距离,M为属性j的字符个数,N为属性i的字符个数,+1表示插入、删除、替换操作的代价;
步骤6、先根据步骤5得到的属性相似度设定来自同组不同数据源的同类别命名实体str和str1的各属性权重,然后计算实体str和str1所有属性的加权值,并通过加权值判定实体str和str1是否为相似实体对,若是,则将str1的全部关系替换为str的关系后去掉str1,再对str的全部关系进行去重操作,以完成实体对齐以及关系的融合,最终实现电力资产多源异构系统数据的融合,其中,所述关系包括层次关系、属性关系和语义关系,具体流程参见图3。
Claims (5)
1.一种基于知识图谱的电力资产异构数据融合方法,其特征在于:
所述方法依次包括以下步骤:
步骤A、构建电力资产知识图谱模型;
步骤B、先采集各类电力资产数据,再通过电力资产知识图谱模型抽取电力资产数据中的知识,实现数据的融合规范,其中,所述电力资产数据包括结构化数据、半结构化数据以及非结构化数据;
步骤C、采用基于命名实体属性关系的相似性比较法和实体对齐算法计算所抽取的知识实体之间的关系,并进行多数据源知识融合。
2.根据权利要求1所述的一种基于知识图谱的电力资产异构数据融合方法,其特征在于:
所述步骤B中,
对于结构化数据,采用MPP采集模型进行数据采集并构建正则表达式进行知识抽取,其中,所述结构化数据包括电力公司相关部门的运检、营销、物资数据;
对于半结构化数据,先采用Hadoop大数据技术进行数据采集,然后通过正则表达式和数据指标抽取实体,其中,所述半结构化数据为电网监测数据;
对于非结构化数据,先采用Hadoop大数据技术进行数据采集,然后利用基于语义标注的POS-CBOW关联模型算法抽取其知识实体、关系和属性,其中,所述非结构化数据为电力资产和设备的文本图像数据。
3.根据权利要求2所述的一种基于知识图谱的电力资产异构数据融合方法,其特征在于:
对于结构化数据,所述构建正则表达式进行知识抽取是指:先从采集的结构化数据中提取有用信息,再将这些信息转换成XML文件,然后根据电力资产知识图谱模型、通过递归算法将XML文件转换成RDF文件;
对于非结构化数据,利用基于语义标注的POS-CBOW关联模型算法抽取其知识实体、关系和属性依次包括以下步骤:
步骤B1、结合电力资产领域知识和模式设定非结构化短语的模式以对非结构化数据进行分词;
步骤B2、采用POS-CBOW关联模型算法对分割的词汇进行去除冗余,以获取相应的实体、关系和属性:
上式中,Sim(Vi,Vj)为两个不同的实体Vi和Vj的余弦相似度,Set(Vi,Vj)为Vi和Vj的词性相似度,depthVi为实体Vi的等级,Dist(Vi,Vj)为Vi和Vj二者在等级树中的距离。
4.根据权利要求1-3中任一项所述的一种基于知识图谱的电力资产异构数据融合方法,其特征在于:
所述步骤C依次包括以下步骤:
步骤C1、对抽取的知识实体进行分组;
步骤C2、先选取各组对象的属性,再通过动态规划算法计算同组中两实体各属性的编辑距离,以获取属性相似度:
上式中,D(i,j)为属性i变换到属性j的最小编辑距离,M为属性j的字符个数,N为属性i的字符个数,+1表示插入、删除、替换操作的代价;
步骤C3、先根据步骤C2得到的属性相似度设定来自同组不同数据源的同类别命名实体str和str1的各属性权重,然后计算实体str和str1所有属性的加权值,并通过加权值判定实体str和str1是否为相似实体对,若是,则将str1的全部关系替换为str的关系后去掉str1,再对str的全部关系进行去重操作,以完成实体对齐以及关系的融合,其中,所述关系包括层次关系、属性关系和语义关系。
5.根据权利要求1-3中任一项所述的一种基于知识图谱的电力资产异构数据融合方法,其特征在于:
所述步骤A采用自顶向下的方式构建电力资产知识图谱模型,具体为:
采用Protégé本体构建工具,首先定义电力资产领域的知识、概念定义和概念之间的关系,再定义各个基本类,通过父类和子类来定义类层次,并将所有的细化类进行合并,然后分别对对象属性和数据类型属性进行定义和约束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910835205.4A CN110674311A (zh) | 2019-09-05 | 2019-09-05 | 一种基于知识图谱的电力资产异构数据融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910835205.4A CN110674311A (zh) | 2019-09-05 | 2019-09-05 | 一种基于知识图谱的电力资产异构数据融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674311A true CN110674311A (zh) | 2020-01-10 |
Family
ID=69076049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910835205.4A Pending CN110674311A (zh) | 2019-09-05 | 2019-09-05 | 一种基于知识图谱的电力资产异构数据融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674311A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352917A (zh) * | 2020-02-28 | 2020-06-30 | 北京思特奇信息技术股份有限公司 | 信息录入方法、装置、电子设备及存储介质 |
CN111478945A (zh) * | 2020-03-13 | 2020-07-31 | 国家电网有限公司 | 一种抽水蓄能运检数据处理系统和方法 |
CN111552813A (zh) * | 2020-03-18 | 2020-08-18 | 国网浙江省电力有限公司 | 一种基于电网全业务数据的电力知识图谱构建方法 |
CN111881290A (zh) * | 2020-06-17 | 2020-11-03 | 国家电网有限公司 | 一种基于加权语义相似度的配网多源网架实体融合方法 |
CN111899089A (zh) * | 2020-07-01 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 基于知识图谱的企业风险预警方法及系统 |
CN112037920A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗知识图谱构建方法、装置、设备及存储介质 |
CN112148893A (zh) * | 2020-09-25 | 2020-12-29 | 南方电网数字电网研究院有限公司 | 能源分析知识图谱构建方法与能源分析可视化方法 |
CN112181952A (zh) * | 2020-11-30 | 2021-01-05 | 中国电力科学研究院有限公司 | 数据模型的构建方法、系统、设备及存储介质 |
CN112214611A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种企业知识图谱的构建系统和方法 |
CN112231418A (zh) * | 2020-10-15 | 2021-01-15 | 南方电网数字电网研究院有限公司 | 电力标准知识图谱构建方法、装置、计算机设备和介质 |
CN112258339A (zh) * | 2020-09-29 | 2021-01-22 | 广东电力通信科技有限公司 | 一种基于电网系统技术的数据处理储备方法及系统 |
CN112256884A (zh) * | 2020-10-23 | 2021-01-22 | 国网辽宁省电力有限公司信息通信分公司 | 一种基于知识图谱的数据资产库访问方法和装置 |
CN112256882A (zh) * | 2020-10-16 | 2021-01-22 | 美林数据技术股份有限公司 | 一种基于多重相似度的跨系统配网实体融合方法 |
CN112308230A (zh) * | 2020-10-30 | 2021-02-02 | 云南电网有限责任公司电力科学研究院 | 一种资产管理全生命周期知识库的构建及应用方法 |
CN112364046A (zh) * | 2020-10-29 | 2021-02-12 | 北京航空航天大学 | 一种基于知识图谱的异构环境下主数据管理方法 |
CN112364000A (zh) * | 2020-10-29 | 2021-02-12 | 广西电网有限责任公司南宁供电局 | 一种电力行业多源异构数据融合的系统及方法 |
CN112507035A (zh) * | 2020-11-25 | 2021-03-16 | 国网电力科学研究院武汉南瑞有限责任公司 | 输电线路多源异构数据统一标准化处理系统及方法 |
CN112579796A (zh) * | 2020-12-30 | 2021-03-30 | 南京云起网络科技有限公司 | 一种在线教育课堂教学资源的知识图谱构建方法 |
CN112948596A (zh) * | 2021-04-01 | 2021-06-11 | 泰豪软件股份有限公司 | 知识图谱构建方法、装置、计算机设备及计算机存储介质 |
CN113139022A (zh) * | 2021-04-29 | 2021-07-20 | 同济大学 | 一种基于混合规则的企业物流数据按需融合方法 |
CN113326381A (zh) * | 2020-02-28 | 2021-08-31 | 拓尔思天行网安信息技术有限责任公司 | 基于动态本体的语义和知识图谱分析方法、平台及设备 |
CN113392147A (zh) * | 2021-05-18 | 2021-09-14 | 中铁二院工程集团有限责任公司 | 一种vr场景知识图谱表示及动态更新方法 |
CN113743432A (zh) * | 2020-05-29 | 2021-12-03 | 京东方科技集团股份有限公司 | 一种图像实体信息获取方法、设备、电子设备和存储介质 |
CN114022270A (zh) * | 2021-10-29 | 2022-02-08 | 平安银行股份有限公司 | 资产数据处理方法、相关设备及介质 |
CN114417015A (zh) * | 2022-01-26 | 2022-04-29 | 西南交通大学 | 一种高速列车可维修性知识图谱构建方法 |
CN114818994A (zh) * | 2022-06-24 | 2022-07-29 | 国网浙江省电力有限公司信息通信分公司 | 基于多源异构电力数据的跨业务图谱的融合方法 |
CN115080694A (zh) * | 2022-06-27 | 2022-09-20 | 国网甘肃省电力公司电力科学研究院 | 一种基于知识图谱的电力行业信息分析方法及设备 |
CN115114458A (zh) * | 2022-08-29 | 2022-09-27 | 北京北投智慧城市科技有限公司 | 一种基于智慧建筑知识图谱的设备控制方法及系统 |
CN115171700A (zh) * | 2022-06-13 | 2022-10-11 | 武汉大学 | 一种基于脉冲神经网络的声纹识别语音助手方法 |
CN115544276A (zh) * | 2022-12-01 | 2022-12-30 | 南方电网数字电网研究院有限公司 | 计量装置知识图谱构建方法和计量装置档案核查方法 |
CN115563350A (zh) * | 2022-10-22 | 2023-01-03 | 山东浪潮新基建科技有限公司 | 多源异构电网设备数据的对齐和补全方法及系统 |
CN116028853A (zh) * | 2023-02-14 | 2023-04-28 | 华北电力大学 | 一种基于知识图谱的家庭电器识别方法与系统 |
CN113743432B (zh) * | 2020-05-29 | 2024-07-05 | 京东方科技集团股份有限公司 | 一种图像实体信息获取方法、设备、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748799A (zh) * | 2017-11-08 | 2018-03-02 | 四川长虹电器股份有限公司 | 一种多数据源影视数据实体对齐的方法 |
CN109902144A (zh) * | 2019-01-11 | 2019-06-18 | 杭州电子科技大学 | 一种基于改进wmd算法的实体对齐方法 |
CN110162591A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种面向数字教育资源的实体对齐方法及系统 |
-
2019
- 2019-09-05 CN CN201910835205.4A patent/CN110674311A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748799A (zh) * | 2017-11-08 | 2018-03-02 | 四川长虹电器股份有限公司 | 一种多数据源影视数据实体对齐的方法 |
CN109902144A (zh) * | 2019-01-11 | 2019-06-18 | 杭州电子科技大学 | 一种基于改进wmd算法的实体对齐方法 |
CN110162591A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种面向数字教育资源的实体对齐方法及系统 |
Non-Patent Citations (2)
Title |
---|
姬源: "电力领域语义搜索系统的构件方法", 《计算机系统应用》 * |
王渊: "知识图谱在电网全业务统一数据中心的应用", 《计算机工程与应用》 * |
Cited By (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111352917B (zh) * | 2020-02-28 | 2023-05-16 | 北京思特奇信息技术股份有限公司 | 信息录入方法、装置、电子设备及存储介质 |
CN113326381A (zh) * | 2020-02-28 | 2021-08-31 | 拓尔思天行网安信息技术有限责任公司 | 基于动态本体的语义和知识图谱分析方法、平台及设备 |
CN111352917A (zh) * | 2020-02-28 | 2020-06-30 | 北京思特奇信息技术股份有限公司 | 信息录入方法、装置、电子设备及存储介质 |
CN111478945A (zh) * | 2020-03-13 | 2020-07-31 | 国家电网有限公司 | 一种抽水蓄能运检数据处理系统和方法 |
CN111478945B (zh) * | 2020-03-13 | 2022-10-14 | 国家电网有限公司 | 一种抽水蓄能运检数据处理系统和方法 |
CN111552813A (zh) * | 2020-03-18 | 2020-08-18 | 国网浙江省电力有限公司 | 一种基于电网全业务数据的电力知识图谱构建方法 |
CN113743432A (zh) * | 2020-05-29 | 2021-12-03 | 京东方科技集团股份有限公司 | 一种图像实体信息获取方法、设备、电子设备和存储介质 |
CN113743432B (zh) * | 2020-05-29 | 2024-07-05 | 京东方科技集团股份有限公司 | 一种图像实体信息获取方法、设备、电子设备和存储介质 |
CN111881290A (zh) * | 2020-06-17 | 2020-11-03 | 国家电网有限公司 | 一种基于加权语义相似度的配网多源网架实体融合方法 |
CN111899089A (zh) * | 2020-07-01 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 基于知识图谱的企业风险预警方法及系统 |
CN112037920A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗知识图谱构建方法、装置、设备及存储介质 |
CN112214611B (zh) * | 2020-09-24 | 2023-10-31 | 远光软件股份有限公司 | 一种企业知识图谱的构建系统和方法 |
CN112214611A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种企业知识图谱的构建系统和方法 |
CN112148893A (zh) * | 2020-09-25 | 2020-12-29 | 南方电网数字电网研究院有限公司 | 能源分析知识图谱构建方法与能源分析可视化方法 |
CN112258339A (zh) * | 2020-09-29 | 2021-01-22 | 广东电力通信科技有限公司 | 一种基于电网系统技术的数据处理储备方法及系统 |
CN112231418A (zh) * | 2020-10-15 | 2021-01-15 | 南方电网数字电网研究院有限公司 | 电力标准知识图谱构建方法、装置、计算机设备和介质 |
CN112256882A (zh) * | 2020-10-16 | 2021-01-22 | 美林数据技术股份有限公司 | 一种基于多重相似度的跨系统配网实体融合方法 |
CN112256884A (zh) * | 2020-10-23 | 2021-01-22 | 国网辽宁省电力有限公司信息通信分公司 | 一种基于知识图谱的数据资产库访问方法和装置 |
CN112364046A (zh) * | 2020-10-29 | 2021-02-12 | 北京航空航天大学 | 一种基于知识图谱的异构环境下主数据管理方法 |
CN112364000A (zh) * | 2020-10-29 | 2021-02-12 | 广西电网有限责任公司南宁供电局 | 一种电力行业多源异构数据融合的系统及方法 |
CN112364046B (zh) * | 2020-10-29 | 2022-07-29 | 北京航空航天大学 | 一种基于知识图谱的异构环境下主数据管理方法 |
CN112308230A (zh) * | 2020-10-30 | 2021-02-02 | 云南电网有限责任公司电力科学研究院 | 一种资产管理全生命周期知识库的构建及应用方法 |
CN112507035A (zh) * | 2020-11-25 | 2021-03-16 | 国网电力科学研究院武汉南瑞有限责任公司 | 输电线路多源异构数据统一标准化处理系统及方法 |
CN112181952A (zh) * | 2020-11-30 | 2021-01-05 | 中国电力科学研究院有限公司 | 数据模型的构建方法、系统、设备及存储介质 |
CN112579796A (zh) * | 2020-12-30 | 2021-03-30 | 南京云起网络科技有限公司 | 一种在线教育课堂教学资源的知识图谱构建方法 |
CN112948596B (zh) * | 2021-04-01 | 2023-03-31 | 泰豪软件股份有限公司 | 知识图谱构建方法、装置、计算机设备及计算机存储介质 |
CN112948596A (zh) * | 2021-04-01 | 2021-06-11 | 泰豪软件股份有限公司 | 知识图谱构建方法、装置、计算机设备及计算机存储介质 |
CN113139022B (zh) * | 2021-04-29 | 2022-09-13 | 同济大学 | 一种基于混合规则的企业物流数据按需融合方法 |
CN113139022A (zh) * | 2021-04-29 | 2021-07-20 | 同济大学 | 一种基于混合规则的企业物流数据按需融合方法 |
CN113392147A (zh) * | 2021-05-18 | 2021-09-14 | 中铁二院工程集团有限责任公司 | 一种vr场景知识图谱表示及动态更新方法 |
CN114022270B (zh) * | 2021-10-29 | 2024-05-24 | 平安银行股份有限公司 | 资产数据处理方法、相关设备及介质 |
CN114022270A (zh) * | 2021-10-29 | 2022-02-08 | 平安银行股份有限公司 | 资产数据处理方法、相关设备及介质 |
CN114417015A (zh) * | 2022-01-26 | 2022-04-29 | 西南交通大学 | 一种高速列车可维修性知识图谱构建方法 |
CN115171700A (zh) * | 2022-06-13 | 2022-10-11 | 武汉大学 | 一种基于脉冲神经网络的声纹识别语音助手方法 |
CN115171700B (zh) * | 2022-06-13 | 2024-04-26 | 武汉大学 | 一种基于脉冲神经网络的声纹识别语音助手方法 |
CN114818994A (zh) * | 2022-06-24 | 2022-07-29 | 国网浙江省电力有限公司信息通信分公司 | 基于多源异构电力数据的跨业务图谱的融合方法 |
CN115080694A (zh) * | 2022-06-27 | 2022-09-20 | 国网甘肃省电力公司电力科学研究院 | 一种基于知识图谱的电力行业信息分析方法及设备 |
CN115114458A (zh) * | 2022-08-29 | 2022-09-27 | 北京北投智慧城市科技有限公司 | 一种基于智慧建筑知识图谱的设备控制方法及系统 |
CN115114458B (zh) * | 2022-08-29 | 2022-11-11 | 北京北投智慧城市科技有限公司 | 一种基于智慧建筑知识图谱的设备控制方法及系统 |
CN115563350A (zh) * | 2022-10-22 | 2023-01-03 | 山东浪潮新基建科技有限公司 | 多源异构电网设备数据的对齐和补全方法及系统 |
CN115544276A (zh) * | 2022-12-01 | 2022-12-30 | 南方电网数字电网研究院有限公司 | 计量装置知识图谱构建方法和计量装置档案核查方法 |
CN116028853B (zh) * | 2023-02-14 | 2023-09-12 | 华北电力大学 | 一种基于知识图谱的家庭电器识别方法与系统 |
CN116028853A (zh) * | 2023-02-14 | 2023-04-28 | 华北电力大学 | 一种基于知识图谱的家庭电器识别方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674311A (zh) | 一种基于知识图谱的电力资产异构数据融合方法 | |
WO2023115842A1 (zh) | 一种数据驱动的离线在线一体化配电网仿真系统及方法 | |
CN109635127B (zh) | 一种基于大数据技术的电力设备画像知识图谱构建方法 | |
CN107741999B (zh) | 一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法 | |
CN112685570B (zh) | 一种基于多标签图的电网网架知识图谱的构建方法 | |
CN111552813A (zh) | 一种基于电网全业务数据的电力知识图谱构建方法 | |
CN114077674A (zh) | 一种电网调度知识图谱数据优化方法及系统 | |
CN113706333A (zh) | 一种配电网拓扑岛自动生成的方法和系统 | |
CN110196852A (zh) | 基于元数据管理的调控云电网模型数据管理方法及系统 | |
CN115438199A (zh) | 一种基于智慧城市场景数据中台技术的知识平台系统 | |
CN117273133A (zh) | 配电网多源异构数据知识图谱的构建方法 | |
Chen et al. | Intelligent management information system of urban planning based on GIS | |
Tang et al. | Automatic schema construction of electrical graph data platform based on multi-source relational data models | |
Yang et al. | Knowledge mapping in electricity demand forecasting: A scientometric insight | |
CN117763155A (zh) | 配电网规划多源异构数据的知识图谱构建方法及相关设备 | |
Bakalov et al. | A network model for the utility domain | |
Chen et al. | Application of knowledge graph in power system fault diagnosis and disposal: A critical review and perspectives | |
Jiang et al. | Construction of substation engineering design knowledge graph based on “ontology seven-step method” | |
Yuan et al. | Construction and application of knowledge graph in full-service unified data center of electric power system | |
CN115937881A (zh) | 一种知识图谱构建标准表格内容自动识别方法 | |
CN115688729A (zh) | 一种输变电工程造价数据集成管理系统及其方法 | |
Qin et al. | Construction of knowledge graph of multi-source heterogeneous distribution network systems | |
Si et al. | Research on comprehensive evaluation of distribution network based on Knowledge Graphs | |
CN112069400B (zh) | 一种基于地区电网信息的全网搜索方法 | |
Meng et al. | Design and Implementation of Knowledge Graph Platform of Power Marketing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |
|
RJ01 | Rejection of invention patent application after publication |