CN112612902B - 一种电网主设备的知识图谱构建方法及设备 - Google Patents

一种电网主设备的知识图谱构建方法及设备 Download PDF

Info

Publication number
CN112612902B
CN112612902B CN202011541122.3A CN202011541122A CN112612902B CN 112612902 B CN112612902 B CN 112612902B CN 202011541122 A CN202011541122 A CN 202011541122A CN 112612902 B CN112612902 B CN 112612902B
Authority
CN
China
Prior art keywords
knowledge
entity
data
power grid
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011541122.3A
Other languages
English (en)
Other versions
CN112612902A (zh
Inventor
蔺家骏
李晨
郑一鸣
丁敬
胡俊华
钱平
徐宁
金涌涛
王劭鹤
陈孝信
王绍安
杨智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202011541122.3A priority Critical patent/CN112612902B/zh
Publication of CN112612902A publication Critical patent/CN112612902A/zh
Application granted granted Critical
Publication of CN112612902B publication Critical patent/CN112612902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E40/00Technologies for an efficient electrical power generation, transmission or distribution
    • Y02E40/70Smart grids as climate change mitigation technology in the energy generation sector
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种电网主设备的知识图谱构建方法及设备,属于电网运检技术领域。本发明经过不断探索以及试验,将电网主设备基础信息、运行数据、作业内容进行结构化处理,通过系统工具实现电网主设备的知识三元组抽取、本体构建、知识图谱的补全及推理,进而构建出电网主设备的知识图谱;本发明适用于电网设备,能够应用在电网运检管控平台上,进而能够为运检指挥人员提供辅助决策,有效提升人员设备异常和故障的处置能力,提升电网设备知识分析处理方面的质量、效率,降低电网设备运维成本,提升变电运检效率。本发明能够有效提升设备管理业务的知识挖掘能力和智能分析服务能力,全面提高电网运检信息化和智能化水平项目范围。

Description

一种电网主设备的知识图谱构建方法及设备
技术领域
本发明涉及一种电网主设备的知识图谱构建方法及设备,属于电网运检技术领域。
背景技术
中国专利(公开号CN111984643A)公开了一种知识图谱构建方法、装置、知识图谱系统及设备,该方法包括:接收基础知识图谱,并存储至第一存储区,基础知识图谱用于生成具有时效性的推理知识图谱;获取推理规则集,推理规则集用于示出根据基础知识图谱生成推理知识图谱需要使用的规则;根据基础知识图谱和推理规则集,生成推理知识图谱,并将推理知识图谱存储至第二存储区;合并基础知识图谱和推理知识图谱,以得到第一知识图谱;每间隔第一设定时间,根据基础知识图谱及推理规则集,更新推理知识图谱,以更新第一知识图谱。本发明实施例充分保证知识图谱的时效性的同时,仅需间隔设定时间对推理知识图谱进行更新,即可保证知识图谱的时效性,有效避免了大量的数据处理。
但上述方案没有公开如何把知识图谱应用在电网设备上,导致智能运检管控平台无法应用知识图谱来为运检指挥人员提供辅助决策,无法有效提升人员设备异常和故障的处置能力,进而影响电网设备知识分析处理方面的质量、效率和成本,最终影响变电运检效率。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种适用于电网设备,能够应用在电网运检管控平台上的能够为运检指挥人员提供辅助决策,有效提升人员设备异常和故障的处置能力,进而提升电网设备知识分析处理方面的质量、效率,降低电网设备运维成本,提升变电运检效率的电网主设备的知识图谱构建方法及设备。
为实现上述目的,本发明的技术方案为:
一种电网主设备的知识图谱构建方法,
将电网主设备基础信息、运行数据、作业内容进行结构化处理,通过系统工具实现电网主设备的知识三元组抽取、本体构建、知识图谱的补全及推理,进而构建出电网主设备的知识图谱;
其包括以下内容:
S1建立结构化的语义知识库,用于迅速描述电网各设备的概念及其相互关系,通过将数据粒度从文档级别降到数据级别,聚合电网主设备的多维度信息数据,从而实现知识的快速响应和推理;
S2对知识图谱进行补全,预测出三元组中缺失的部分,在知识库系统中实现知识表示、知识挖掘、知识融合,通过处理固定的场景实体以及关系、处理含有新实体或者新关系的场景,动态更新知识图谱,从而使知识图谱变得更加完整;
S3对知识图谱进行推理,其包括以下内容:
发现数据分类和聚类的电网主设备知识以及关联规则挖掘的电网主设备知识;
推理规则学习的电网主设备知识以及表示学习的电网主设备知识;
S4对设备信息进行精准搜索,有别于常规文档管理系统的关键字或文档调用,通过对使用人员语义的理解和知识图谱的应用,实现现场运检人员和技术管理人员对设备某一知识点的快速、精准的搜索和定位;
S5实现运检作业智能支撑,通过对使用人员语义的理解和知识图谱的应用,在对设备某一知识点的快速、精准的搜索和定位的基础上,通过知识图谱的算法,对现场运检作业智能推送针对性的运检方案或者辅助判断。
本发明经过不断探索以及试验,将电网主设备基础信息、运行数据、作业内容进行结构化处理,通过系统工具实现电网主设备的知识三元组抽取、本体构建、知识图谱的补全及推理,进而构建出电网主设备的知识图谱;适用于电网设备,能够应用在电网运检管控平台上,进而能够为运检指挥人员提供辅助决策,有效提升人员设备异常和故障的处置能力,提升电网设备知识分析处理方面的质量、效率,降低电网设备运维成本,提升变电运检效率。
进一步,本发明通过电网主设备知识库基础建设,将海量设备信息转化为电网知识和现实生产力,实现设备信息精准搜索、运检作业智能支撑等电网主设备知识典型应用场景。
本发明可为电网运维、检修、技术管理等人员提供快速便捷、精准有效的知识支撑,提升设备管理业务的知识挖掘能力和智能分析服务能力,全面提高电网运检信息化和智能化水平项目范围。
本发明构建的电网主设备的知识图谱,使得运维、检修、技术管理等人员提供快速便捷、精准有效的知识支撑,全面提升设备运检、管理工作的精益化水平,有效提高工作效率和质量,缩短故障设备故障判断时间,减少企业及用户的停电时间。
作为优选技术措施:
S1中:结构化的语义知识库通过语料库存储、知识三元组抽取及知识图谱存储来完成建立;其具体包括以下内容:
第一步,建立结构化的语义知识库过程中语料数据是关键部分,其分为结构化数据、半结构化数据和非结构化数据,其来源于电力领域生产工作中形成的各系统或文档中;
结构化的语义知识库包括语料库定义、词表定义、建立索引、数据存储、语料搜索;
具体内容如下:
语料库定义让用户定义语料库的数据结构,包括命名元数据字段名称、数据类型、数据宽度;语料库的字段数据类型包括:字符型、日期型、文本型、声音数据;
词表定义提供一些基本的词表,也提供词表的定义、编辑、查找、排序、统计功能;
建立索引能够实现按数据项进行检索,还能按照语料的样本文字按字或按词建索引,从而提高关键词查找速度;
数据存储提供用户以二维表(数据库中称二维表为关系)的形式呈现视图,用户能够对关系进行直接操作;
语料搜索实现语料搜索及统计功能,如按关键字串查找、按句型查找等;
第二步,在知识库系统开发知识三元组抽取管理,通过知识三元组抽取,进一步发现实体间的关联关系;
第三步,在知识库系统开发知识图谱存储功能,提供图谱计算引擎服务,比如图谱查询,子图谱匹配等算法;具体如下:
支持对图点、边属性进行各种查询,包括精确检索、模糊检索、范围查询等,兼容Gremlin查询语言;
提供算法定制接口,支持用户定制算法;
支持从大数据集群以不同的数据组织方式做数据导入,支持多达百亿点、边存储规模;
提供可视化图数据库实例运维界面,支持对图实例运维包括部署、升级、重启、关闭;
提供可视化图数据库管理界面,支持对图实例的数据和元数据进行管理。
作为优选技术措施:
所述知识三元组抽取管理的主要步骤包括:
步骤一,使用电力领域分词算法对输入文本进行预处理,包括分句、分词、词性标注、实体识别步骤;经过文本预处理,能够得到句子中的实体、关系以及句子结构信息;
步骤二,采用常用的分类技术,如SVM,LR,贝叶斯分类器对输入的实体进行分类,例如对于输入的实体是属于变压器的哪一种类型等,能够得到实体在已知实体类型上的概率分布,将两个实体的概率分布向量拼接后[v1;v2]作为分类模型生成的最终特征;通过数据分类和数据聚类生成的向量作为实体间距离的输入参与后续计算;
步骤三,候选三元组生成阶段,通过排列组合的方式构建生成实体关系三元组;在排列组合的过程中,需要三元组中的元素满足一些约束:
①实体间的距离不能高于阈值;
②关系指示词的位置需要在一定范围之内,比如在生成候选关系三元组时,把实体之间的名词和动词、第1个实体左边leftWordNumber个名词和动词、第1个实体右边rightWordNumber个名词和动词作为候选关系三元组的候选关系指示词;其中,实体距离阈值、leftWordNumber和rightWordNumber通过实验确定;
步骤四,为了生成关系指示词词表,需要对于三元组根据其关系指示词的信息增益以及关系指示词对三元组内实体的形容能力进行排序;对于排序好的三元组,根据其排序结果过滤出部分三元组,并将这部分三元组的关系指示词的集合作为关系词词表;
步骤五,三元组后处理阶段包括:
①三元组滤掉:使用关系词词表以及固定句式过滤掉错误的三元组;
②补全关系指示词:根据固定句式补全关系指示词中缺失的部分。
作为优选技术措施:
S2中:对知识图谱进行补全的具体内容如下:
通过知识表示管理电网主设备领域简单关系以及复杂关系;
对于简单关系的知识表示方法,在知识库系统中使用TransE模型;TransE模型很大程度上借鉴了词向量训练的思想,其基本思想是,前件实体的向量表示h与关系表示的向量表示r之和与后件实体的向量表示t越接近越好;接近的程度通常采用L1范数或者L2范数或者余弦相似度衡量;
复杂关系的知识表示方案主要是针对简单关系知识表示不能处理的实体关系所提出的;简单关系的知识表示只能应付简单的一对一关系;难以知识图谱中复杂的一对多、多对一以及多对多关系;
对于一对多和多对一关系的问题,在知识库系统中使用TransH模型进行处理;TransH模型是TransE模型的变种,但是又不过分增加模型的复杂度和训练难度;
知识挖掘是知识图谱关键技术,实现从已有的数据或者图谱中,配合事件抽取工具,能够自动化或半自动化地挖掘出更多的领域知识与规则,实现自动长链推理、意图识别、因果分析,以扩充现有的图谱,让图谱的结构更加丰满,知识更多;根据对电力行业已有的了解,开发二类算法;
知识融合主要包括本体构建技术、实体抽取技术和知识表示技术,其主要是面向电网主设备领域的设备信息、运检任务、故障辅助处理的知识图谱和视图;在此基础上,将进一步研究各个知识图谱之间,以及与百科知识图谱等外部知识源之间和知识更新时的扩展知识图谱的融合,从而获得电网主设备领域的一个一致的知识图谱。
作为优选技术措施:
所述知识融合能够实现领域内多个知识图谱的融合管理,通过实体识别和关系抽取得到的设备信息、运检任务的知识图谱;实现数据层的融合,数据层的融合包括实体对齐、实体属性融合;其具体包括以下内容:
(1)实体对齐也称为实体匹配或实体解析或者实体链接,主要是用于消除异构数据中实体冲突、指向不明等不一致性问题,能够从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识;
对于实体对齐,针对不同来源的数据采用不同的对齐手段;在构建知识图谱时,实体优先从结构化的数据中获取,对于结构化的数据,通常有对实体进行唯一标识的主键,例如视图中用户的ID等,据此能够在进行知识抽取的过程中设定合理的合并规则;对于从非结构化的数据中得到的实体,仍然能够使用基于启发式规则的方法进行对齐和集成;
(2)实体属性融合对于具有时态特性的属性,能够使用新的数据覆盖旧的数据,其次对于有冲突的属性,能够根据数据源的可靠性进行选取;对于给定的属性,能够通过相似度计算来衡量属性对的匹配程度,相似性包括属性名称相似性,这一点使用编辑距离衡量;同义词相似性,能够借用外部同义词词典进行对比;
对于外部的通用知识库,如DBPedia、中文维基百科、百度百科、电力百科网等知识图谱,由于其信息量大且有冗余的特点,本研究拟加入一步知识采集的过程,通过相关性分析以及构建约束规则的方法,对外部知识源中的知识进行筛选,对与内部知识图谱中实体相似度较大的知识进行提取,将内部知识图谱中的实体以及外部知识源中的实体,经过图结构特征提取和向量化后,映射到一个低维稠密向量空间中,再使用常见的聚类算法如K-means等将实体进行聚类。
作为优选技术措施:
所述实体对齐中,对于从非结构化的数据中得到的实体,仍然能够使用基于启发式规则的方法进行对齐和集成;主要包括以下几种情况:
①基于传统概率模型的实体对齐方法主要就是考虑两个实体各自属性的相似性,而并不考虑实体间的关系;
基于机器学习的实体对齐方法主要是将实体对齐问题转化为二分类问题;根据是否使用标注数据可分为有监督学习与无监督学习两类,基于监督学习的实体对齐方法主要可分为成对实体对齐、基于聚类的对齐、主动学习;
②局部集体实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度;
③基于相似性传播的集体实体对齐方法是一种典型的集体实体对齐方法,匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性;
基于概率模型的集体实体对齐方法主要采用统计关系学习进行计算与推理,具体采用LDA模型或CRF模型或Markov逻辑网。
作为优选技术措施:
通过电网常识对领域知识图谱进一步补全管理,利用外部知识图谱,包括行政区划、地理名称、气候特征,对领域知识图谱的补全拟采用以下步骤;
分析需要查询的开放知识源和需要融合的知识,设计对不同开放知识源的查询方法,包括网页爬虫、API调用等,用于采集需要的知识;
采用实体消歧和实体链接技术,基于现有的电力领域知识图谱,从采集到的知识中构建新的知识图谱;关于实体识别和消歧的技术,能够采用前面提到的基于深度神经网络的实体识别技术;采用实体-提及模型与随机游走算法相结合,将实体链接到知识图谱中的实体上;
例如时间信息能够和气候联系,气候进一步能够和环境的湿度,温度等信息联系;这些信息能够反映影响电网设备工作的环境信息;
对电网主设备领域知识图谱的更新演化:由于知识图谱具有一定的时效性,即图谱是在不停的变化更新的,主要采用知识的更新:面对语料增补,新旧知识图谱的融合技术;操作手册、运维手册可能发生的变动,新的规程替代旧的规程;
对于知识图谱的更新演化;具体如下:
(1)对于电力主设备领域知识图谱内的所有实体和关系,添加两条标注信息,即知识的生效时间和失效时间;
(2)在知识融合过程中,如果新旧实体或关系发生冲突,则修改旧实体或关系的失效时间,使该实体或关系立刻失效;当知识图谱中的实体失效时,将导致相关关系失效;
(3)知识图谱的更新操作统一采用以下方法:将需要更新的知识构建为新的知识图谱;将新知识图谱与原有的电网主设备领域知识图谱做合并,修改新实体和关系的生效时间,并按上述方法修改冲突实体和关系的失效时间;对新关系和实体造成的矛盾,修正理论进行知识图谱更新。
作为优选技术措施:
所述S3中:
1)发现数据分类和聚类的电网主设备知识,主要包括:在知识库存系统开发数据分类和聚类的电网主设备的知识发现功能,对实体与实体之间的开放式关系进行挖掘,从而发现一些新的电力主设备领域实体之间的关联关系,为问题理解时计算问题的主题以及问题与意图相似程度提供辅助;
2)发现关联规则挖掘的电网主设备知识,主要包括:
在知识库存系统开发关联规则挖掘的电网主设备知识发现功能,向电网主设备运维、检修现场工作人员和故障辅助分析应用需求开展基于关联规则挖掘的知识发现技术;通过对已经建成的知识图谱、专家访谈和设备记录等文档记录的深度智能学习,从而发现电力主设备领域实体之间的关联关系;
3)推理规则学习的电网主设备知识,主要包括:
在知识库存系统开发规则学习的电网主设备知识推理功能,抽取知识图谱中的isA、kindOf、hasA等实例与概念之间的关系,以支撑后续的规则挖掘;面向知识图谱的规则学习的主要目标是从知识图谱中学习到一组封闭路径规则,所谓封闭路径规则是指具有下面形式的规则;通过前一部分能够基于已有电力设备知识图谱学习出一系列推理规则,这里把上述推理规则逐个应用到后续的知识图谱的更新和推理;
4)推理表示学习的电网主设备知识,主要包括:
在知识库存系统开发表示学习的电网主设备知识推理功能,通过规则的知识图谱推理的得到一组规则集;并且这些规则可以脱离知识图谱单独使用;这种方法必须通过系统进行智能学习先进行规则得到相应的规则集,且更多考虑确定性知识的推理;当知识图谱不存在大量的规则或者要考虑不确定性的知识推理时,就无法通过规则学习来进行准确高效的推理。
作为优选技术措施:
所述S4中,实现对设备某一知识点的快速、精准的搜索和定位,具体包括以下内容,:
1)运行人员运维过程中有疑问时,能够快速查阅该设备的历史缺陷信息,能够精准定位到产品说明书的相关章节,显示产品参数、运维要求等信息;
2)检修人员在检修、试验过程中有疑问时,能够快速、精准定位该试验的具体标准、该产品说明书中的相关要求、能够快速查询该设备的历史试验数据以及状态评价信息等;
3)技术管理人员能够快速设备的历次检修试验信息和该设备的同类型、同批次设备分布情况;能够精准定位相关技术标准;
所述S5中,运检作业智能支撑主要通过对使用人员语义的理解和知识图谱的应用,在对设备某一知识点的快速、精准的搜索和定位的基础上,通过知识图谱的算法,对现场运检作业智能推送针对性的运检方案或者辅助判断;
1)运行人员巡检中,针对某项的巡视任务,利用知识图谱技术,根据该换流变管理规定、相关说明书要求、历史缺陷信息、运行规程要求等智能推送巡视要点;
2)检修人员检修中,针对某项的检修任务,利用知识图谱技术,根据该换流变管理规定,相关说明书要求、技术标准、历史缺陷信息、历史试验数据信息、状态评价信息等智能推送检修关键工艺点;
3)换流变技术管理中,利用知识图谱的技术,辅助技术管理人员判断某项数据是否满足技术标准要求,辅助技术管理人员梳理技术标准差异性条款。
作为优选技术措施:
一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的一种电网主设备的知识图谱构建方法。
与现有技术相比,本发明具有以下有益效果:
本发明经过不断探索以及试验,将电网主设备基础信息、运行数据、作业内容进行结构化处理,通过系统工具实现电网主设备的知识三元组抽取、本体构建、知识图谱的补全及推理,进而构建出电网主设备的知识图谱;适用于电网设备,能够应用在电网运检管控平台上,进而能够为运检指挥人员提供辅助决策,有效提升人员设备异常和故障的处置能力,提升电网设备知识分析处理方面的质量、效率,降低电网设备运维成本,提升变电运检效率。
进一步,本发明通过电网主设备知识库基础建设,将海量设备信息转化为电网知识和现实生产力,实现设备信息精准搜索、运检作业智能支撑等电网主设备知识典型应用场景。
本发明可为电网运维、检修、技术管理等人员提供快速便捷、精准有效的知识支撑,提升设备管理业务的知识挖掘能力和智能分析服务能力,全面提高电网运检信息化和智能化水平项目范围。
本发明构建的电网主设备的知识图谱,使得运维、检修、技术管理等人员提供快速便捷、精准有效的知识支撑,全面提升设备运检、管理工作的精益化水平,有效提高工作效率和质量,缩短故障设备故障判断时间,减少企业及用户的停电时间。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也能够完全理解本发明。
一种电网主设备的知识图谱构建方法,将电网主设备基础信息、运行数据、作业内容等多维度信息资源价值进行结构化处理,通过电网主设备相关工具实现知识三元组抽取、本体构建、知识图谱的补全及推理构建完善电网主设备的知识图谱。其包括以下内容:
S1知识图谱构建
知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从文档级别降到数据级别,聚合大量知识,从而实现知识的快速响应和推理。
通过语料库存储、知识三元组抽取及知识图谱存储来完成知识图谱的构建。
1)语料库存储管理
在构建电网主设备知识图谱过程中语料数据是关键部分,其分为结构化数据、半结构化数据和非结构化数据,其来源于电力领域生产工作中形成的各系统或文档中。包括语料库定义功能、词表定义功能、索引功能、数据存储功能、语料搜索功能。具体如下:
语料库定义
语料库管理模块提供语料库定义语音,让用户定义语料库的数据结构,包括命名元数据字段名称、数据类型、数据宽度等。语料库的字段数据类型可包括:字符型、日期型、文本型、声音数据等。
词表定义
语料库管理模块提供一些基本的词表,也提供词表的定义、编辑、查找、排序、统计等功能。
建立索引
语料库管理模块可以实现按数据项进行检索,还能按照语料的样本文字按字或按词建索引,从而提高关键词查找速度。
数据存储功能
语料库管理模块提供用户以二维表(数据库中称二维表为关系)的形式呈现视图,用户可以对关系进行直接操作。
语料搜索
语料库管理模块实现语料搜索及统计功能,如按关键字串查找、按句型查找等。
2)知识三元组抽取管理
在知识库系统开发知识三元组抽取功能,通过知识三元组抽取,进一步发现实体间的关联关系,其主要步骤包括:
步骤一,使用电力领域分词算法对输入文本进行预处理,包括分句、分词、词性标注、实体识别等步骤。经过文本预处理,可以得到句子中的实体、关系以及句子结构等信息。
步骤二,采用常用的分类技术,如SVM,LR,贝叶斯分类器对输入的实体进行分类,例如对于输入的实体是属于变压器的哪一种类型等,可以得到实体在已知实体类型上的概率分布,将两个实体的概率分布向量拼接后[v1;v2]作为分类模型生成的最终特征。通过数据分类和数据聚类生成的向量作为实体间距离的输入参与后续计算。
步骤三,候选三元组生成阶段,通过排列组合的方式构建生成实体关系三元组。在排列组合的过程中,需要三元组中的元素满足一些约束:
①实体间的距离不能高于阈值;
②关系指示词的位置需要在一定范围之内,比如在生成候选关系三元组时,把实体之间的名词和动词、第1个实体左边leftWordNumber个名词和动词、第1个实体右边rightWordNumber个名词和动词作为候选关系三元组的候选关系指示词。其中,实体距离阈值、leftWordNumber和rightWordNumber通过实验确定。
步骤四,为了生成关系指示词词表,需要对于三元组根据其关系指示词的信息增益以及关系指示词对三元组内实体的形容能力进行排序。对于排序好的三元组,根据其排序结果过滤出部分三元组,并将这部分三元组的关系指示词的集合作为关系词词表。
步骤五,三元组后处理阶段包含:
①三元组滤掉:使用关系词词表以及固定句式过滤掉错误的三元组;
②补全关系指示词:根据固定句式补全关系指示词中缺失的部分。
3)知识图谱存储
在知识库系统开发知识图谱存储功能,提供图谱计算引擎服务,比如图谱查询,子图谱匹配等算法。具体如下:
支持对图点、边属性进行各种查询,包括精确检索、模糊检索、范围查询等,兼容Gremlin查询语言;
提供算法定制接口,支持用户定制算法;
支持从大数据集群以不同的数据组织方式做数据导入,支持多达百亿点、边存储规模;
提供可视化图数据库实例运维界面,支持对图实例运维包括部署、升级、重启、关闭等;
提供可视化图数据库管理界面,支持对图实例的数据和元数据进行管理。
S2知识图谱的补全
知识图谱补全的目的是预测出三元组中缺失的部分,在知识库系统中实现知识表示、知识挖掘、知识融合等功能,通过处理固定的场景实体以及关系、处理含有新实体或者新关系的场景,动态更新知识图谱,从而使知识图谱变得更加完整。
1)知识表示管理
电网主设备领域简单关系的知识表示
对于简单关系的知识表示方法,在知识库系统中使用TransE模型。TransE模型很大程度上借鉴了词向量训练的思想,其基本思想是,前件实体的向量表示h与关系表示的向量表示r之和与后件实体的向量表示t越接近越好。接近的程度通常采用L1范数或者L2范数或者余弦相似度衡量。
电网主设备领域复杂关系的知识表示
复杂关系的知识表示方案主要是针对简单关系知识表示不能处理的实体关系所提出的。简单关系的知识表示只能应付简单的一对一关系。难以知识图谱中复杂的一对多、多对一以及多对多关系。
对于一对多和多对一关系的问题,在知识库系统中使用TransH模型进行处理。TransH模型是TransE模型的变种,但是又不过分增加模型的复杂度和训练难度。
2)知识挖掘管理
知识挖掘是知识图谱关键技术,实现从已有的数据或者图谱中,配合事件抽取工具,能够自动化或半自动化地挖掘出更多的领域知识与规则,实现自动长链推理、意图识别、因果分析,以扩充现有的图谱,让图谱的结构更加丰满,知识更多。根据对电力行业已有的了解,开发二类算法。
3)知识融合管理
本体构建技术、实体抽取技术和知识表示技术等主要是面向电网主设备领域的设备信息、运检任务、故障辅助处理的知识图谱和视图。在此基础上,将进一步研究各个知识图谱之间,以及与百科知识图谱等外部知识源之间和知识更新时的扩展知识图谱的融合,从而获得电网主设备领域的一个一致的知识图谱。
领域内多个知识图谱的融合管理
融合领域内通过实体识别和关系抽取得到的设备信息、运检任务的知识图谱。实现数据层的融合,数据层的融合包括实体对齐、实体属性融合。
(1)实体对齐
实体对齐也称为实体匹配或实体解析或者实体链接,主要是用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。
对于实体对齐,可针对不同来源的数据采用不同的对齐手段。在构建知识图谱时,实体优先从结构化的数据中获取,对于结构化的数据,通常有对实体进行唯一标识的主键,例如视图中用户的ID等,据此可以在进行知识抽取的过程中设定合理的合并规则。对于从非结构化的数据中得到的实体,仍然可以使用基于启发式规则的方法进行对齐和集成。主要分为以下几种情况进行处理:
①成对实体对齐方法
基于传统概率模型的实体对齐方法主要就是考虑两个实体各自属性的相似性,而并不考虑实体间的关系。
基于机器学习的实体对齐方法主要是将实体对齐问题转化为二分类问题。根据是否使用标注数据可分为有监督学习与无监督学习两类,基于监督学习的实体对齐方法主要可分为成对实体对齐、基于聚类的对齐、主动学习。
②局部集体实体对齐方法
局部集体实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度。
③全局集体实体对齐方法
基于相似性传播的集体实体对齐方法是一种典型的集体实体对齐方法,匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性。
基于概率模型的集体实体对齐方法主要采用统计关系学习进行计算与推理,具体采用方法有LDA模型、CRF模型、Markov逻辑网等。
(2)实体属性融合
对于具有时态特性的属性,可以使用新的数据覆盖旧的数据,其次对于有冲突的属性,可以根据数据源的可靠性进行选取。对于给定的属性,可以通过相似度计算来衡量属性对的匹配程度,相似性包括属性名称相似性,这一点使用编辑距离衡量;同义词相似性,可以借用外部同义词词典进行对比。
对于外部的通用知识库,如DBPedia、中文维基百科、百度百科、电力百科网等知识图谱,由于其信息量大且有冗余的特点,本研究拟加入一步知识采集的过程,通过相关性分析以及构建约束规则的方法,对外部知识源中的知识进行筛选,对与内部知识图谱中实体相似度较大的知识进行提取,将内部知识图谱中的实体以及外部知识源中的实体,经过图结构特征提取和向量化后,映射到一个低维稠密向量空间中,再使用常见的聚类算法如K-means等将实体进行聚类。
电网常识对领域知识图谱的补全管理
利用外部知识图谱,如行政区划、地理名称、气候特征等,对领域知识图谱的补全拟采用以下步骤。
分析需要查询的开放知识源和需要融合的知识,设计对不同开放知识源的查询方法,包括网页爬虫、API调用等,用于采集需要的知识。
采用实体消歧和实体链接技术,基于现有的电力领域知识图谱,从采集到的知识中构建新的知识图谱。关于实体识别和消歧的技术,可以采用前面提到的基于深度神经网络的实体识别技术。采用实体-提及模型与随机游走算法相结合,将文本中提及的实体链接到知识图谱中的实体上。
例如时间信息可以和气候联系,气候进一步可以和环境的湿度,温度等信息联系。这些信息可以反映影响电网设备工作的环境信息。
电网主设备领域知识图谱的更新演化
由于知识图谱具有一定的时效性,即图谱是在不停的变化更新的,主要采用知识的更新:面对语料增补,新旧知识图谱的融合技术;操作手册、运维手册等可能发生的变动,新的规程替代旧的规程。
对于以上对知识的更新,拟设计一种知识图谱更新思路,用于知识图谱的演化。具体如下:
(1)时间信息标注
对于电力主设备领域知识图谱内的所有实体和关系,添加两条标注信息,即知识的生效时间和失效时间;
(2)实体关系失效
在知识融合过程中,如果新旧实体或关系发生冲突,则修改旧实体或关系的失效时间,使该实体或关系立刻失效;当知识图谱中的实体失效时,将导致相关关系失效。
(3)知识图谱更新
知识图谱的更新操作统一采用以下方法:将需要更新的知识构建为新的知识图谱;将新知识图谱与原有的电网主设备领域知识图谱做合并,修改新实体和关系的生效时间,并按上述方法修改冲突实体和关系的失效时间。对新关系和实体造成的矛盾,修正理论进行知识图谱更新。
S3知识图谱推理
1)数据分类和聚类的电网主设备知识发现
在知识库存系统开发数据分类和聚类的电网主设备的知识发现功能,对实体与实体之间的开放式关系进行挖掘,从而发现一些新的电力主设备领域实体之间的关联关系,这能为问题理解时计算问题的主题以及问题与意图相似程度提供辅助。
2)关联规则挖掘的电网主设备知识发现
在知识库存系统开发关联规则挖掘的电网主设备知识发现功能,向电网主设备运维、检修现场工作人员和故障辅助分析应用需求开展基于关联规则挖掘的知识发现技术。通过对已经建成的知识图谱、专家访谈和设备记录等文档记录的深度智能学习,从而发现电力主设备领域实体之间的关联关系。
3)规则学习的电网主设备知识推理
在知识库存系统开发规则学习的电网主设备知识推理功能,抽取知识图谱中的isA、kindOf、hasA等实例与概念之间的关系,以支撑后续的规则挖掘。面向知识图谱的规则学习的主要目标是从知识图谱中学习到一组封闭路径规则,所谓封闭路径规则是指具有下面形式的规则。通过前一部分能够基于已有电力设备知识图谱学习出一系列推理规则,这里把上述推理规则逐个应用到后续的知识图谱的更新和推理。
4)表示学习的电网主设备知识推理
在知识库存系统开发表示学习的电网主设备知识推理功能,通过规则的知识图谱推理的得到一组规则集。并且这些规则可以脱离知识图谱单独使用。这种方法必须通过系统进行智能学习先进行规则得到相应的规则集,且更多考虑确定性知识的推理。当知识图谱不存在大量的规则或者要考虑不确定性的知识推理时,就无法通过规则学习来进行准确高效的推理。
S4设备信息精准搜索
有别于常规文档管理系统的关键字或文档调用,通过对使用人员语义的理解和知识图谱的应用,实现现场运检人员和技术管理人员对设备某一知识点的快速、精准的搜索和定位:
1)运行人员运维过程中有疑问时,可以快速查阅该设备的历史缺陷信息,可以精准定位到产品说明书的相关章节,显示产品参数、运维要求等信息;
2)检修人员在检修、试验过程中有疑问时,可以快速、精准定位该试验的具体标准、该产品说明书中的相关要求、可以快速查询该设备的历史试验数据以及状态评价信息等;
3)技术管理人员能够快速设备的历次检修试验信息和该设备的同类型、同批次设备分布情况等;可以精准定位相关技术标准。
S5运检作业智能支撑
通过对使用人员语义的理解和知识图谱的应用,在对设备某一知识点的快速、精准的搜索和定位的基础上,通过知识图谱的算法,对现场运检作业智能推送针对性的运检方案或者辅助判断。
1)运行人员巡检中,针对某项的巡视任务,利用知识图谱技术,根据该换流变管理规定、相关说明书要求、历史缺陷信息、运行规程要求等智能推送巡视要点。
2)检修人员检修中,针对某项的检修任务,利用知识图谱技术,根据该换流变管理规定,相关说明书要求、技术标准、历史缺陷信息、历史试验数据信息、状态评价信息等智能推送检修关键工艺点。
3)换流变技术管理中,利用知识图谱的技术,辅助技术管理人员判断某项数据是否满足技术标准要求,辅助技术管理人员梳理技术标准差异性条款。
本发明充分挖掘泛在电力物联网中积累的海量电网主设备基础信息、运行数据、作业内容等多维度信息资源价值,构建电网主设备知识图谱和知识库,将海量设备信息转化为电网知识和现实生产力,为设备精准搜索、运维作业智能支持等电网主设备知识典型应用场景功能提供技术支撑,为电网运维、检修、技术管理等人员提供快速便捷、精准有效的知识支撑,提升设备管理业务的知识挖掘能力和智能分析服务能力,全面提高电网运检信息化和智能化水平项目范围。
本发明构建电网主设备的知识图谱及知识库,使得运维、检修、技术管理等人员提供快速便捷、精准有效的知识支撑,全面提升设备运检、管理工作的精益化水平,有效提高工作效率和质量,缩短故障设备故障判断时间,减少企业及用户的停电时间。
应用本发明方法的一种装置实施例:
一种设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的一种电网主设备的知识图谱构建方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然能够对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (2)

1.一种电网主设备的知识图谱构建方法,其特征在于,
将电网主设备基础信息、运行数据、作业内容进行结构化处理,实现电网主设备的知识三元组抽取、本体构建、知识图谱的补全及推理,进而构建出电网主设备的知识图谱;
其包括以下内容:
S1建立结构化的语义知识库,用于迅速描述电网各设备的概念及其相互关系,通过将数据粒度从文档级别降到数据级别,聚合电网主设备的多维度信息数据,从而实现知识的快速响应和推理;
S2对知识图谱进行补全,预测出三元组中缺失的部分,在知识库系统中实现知识表示、知识挖掘、知识融合,通过处理固定的场景实体以及关系、处理含有新实体或者新关系的场景,动态更新知识图谱,从而使知识图谱变得更加完整;
S3对知识图谱进行推理,其包括以下内容:
发现数据分类和聚类的电网主设备知识以及关联规则挖掘的电网主设备知识;
推理规则学习的电网主设备知识以及表示学习的电网主设备知识;
S4通过对使用人员语义的理解和知识图谱的应用,实现现场运检人员和技术管理人员对设备某一知识点的快速、精准的搜索和定位;
S5实现运检作业智能支撑,通过对使用人员语义的理解和知识图谱的应用,在对设备某一知识点的快速、精准的搜索和定位的基础上,通过知识图谱的算法,对现场运检作业智能推送针对性的运检方案或者辅助判断;
S1中:结构化的语义知识库通过语料库存储、知识三元组抽取及知识图谱存储来完成建立;其具体包括以下内容:
第一步,建立结构化的语义知识库过程中语料数据是关键部分,其分为结构化数据、半结构化数据和非结构化数据,其来源于电力领域生产工作中形成的各系统或文档中;
结构化的语义知识库包括语料库定义、词表定义、建立索引、数据存储、语料搜索;
具体内容如下:
语料库定义让用户定义语料库的数据结构,包括命名元数据字段名称、数据类型、数据宽度;语料库的字段数据类型包括:字符型、日期型、文本型、声音数据;
词表定义提供一些基本的词表,也提供词表的定义、编辑、查找、排序、统计功能;
建立索引能够实现按数据项进行检索,还能按照语料的样本文字按字或按词建索引,从而提高关键词查找速度;
数据存储提供用户以二维表的形式呈现视图,用户能够对关系进行直接操作;
语料搜索实现语料搜索及统计功能;
第二步,通过知识三元组抽取,进一步发现实体间的关联关系;
第三步,在知识库系统开发知识图谱存储功能,提供图谱计算引擎服务,具体如下:
支持对图点、边属性进行各种查询,包括精确检索、模糊检索、范围查询,兼容Gremlin查询语言;
提供算法定制接口,支持用户定制算法;
支持从大数据集群以不同的数据组织方式做数据导入, 支持多达百亿点、边存储规模;
提供视化图数据库实例运维界面,支持对图实例运维包括部署、升级、重启、关闭;
提供视化图数据库管理界面,支持对图实例的数据和元数据进行管理;
所述知识三元组抽取管理的步骤包括:
步骤一,使用电力领域分词算法对输入文本进行预处理,包括分句、分词、词性标注、实体识别步骤;经过文本预处理,能够得到句子中的实体、关系以及句子结构信息;
步骤二,采用常用的分类技术,对输入的实体进行分类,能够得到实体在已知实体类型上的概率分布,将两个实体的概率分布向量拼接后作为分类模型生成的最终特征;通过数据分类和数据聚类生成的向量作为实体间距离的输入参与后续计算;
步骤三,候选三元组生成阶段,通过排列组合的方式构建生成实体关系三元组;在排列组合的过程中,需要三元组中的元素满足一些约束:
①实体间的距离不能高于阈值;
②关系指示词的位置需要在一定范围之内;
步骤四,对于三元组根据其关系指示词的信息增益以及关系指示词对三元组内实体的形容能力进行排序;对于排序好的三元组,根据其排序结果过滤出部分三元组,并将这部分三元组的关系指示词的集合作为关系词词表;
步骤五,三元组后处理阶段包括:
①三元组滤掉:使用关系词词表以及固定句式过滤掉错误的三元组;
②补全关系指示词:根据固定句式补全关系指示词中缺失的部分;
S2中:对知识图谱进行补全的具体内容如下:
通过知识表示管理电网主设备领域简单关系以及复杂关系;
对于简单关系的知识表示方法 ,在知识库系统中使用TransE模型;
对于一对多和多对一关系的问题,在知识库系统中使用TransH模型进行处理;
所述知识挖掘从已有的数据或者图谱中,配合事件抽取工具,能够自动化或半自动化地挖掘出更多的领域知识与规则,实现自动长链推理、意图识别、因果分析;根据对电力行业已有的了解,开发二类算法;
知识融合包括本体构建技术、实体抽取技术和知识表示技术,其是面向电网主设备领域的设备信息、运检任务、故障辅助处理的知识图谱和视图;在此基础上,将进一步研究各个知识图谱之间,以及与百科知识图谱之间和知识更新时的扩展知识图谱的融合,从而获得电网主设备领域的一个一致的知识图谱;
所述知识融合能够实现领域内多个知识图谱的融合管理,通过实体识别和关系抽取得到的设备信息、运检任务的知识图谱;实现数据层的融合,数据层的融合包括实体对齐、实体属性融合;其具体包括以下内容:
(1)实体对齐也称为实体匹配或实体解析或者实体链接,从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识;
对于实体对齐,针对不同来源的数据采用不同的对齐手段;在构建知识图谱时,实体优先从结构化的数据中获取,对于结构化的数据,通常有对实体进行唯一标识的主键,对于从非结构化的数据中得到的实体,仍然能够使用基于启发式规则的方法进行对齐和集成;
(2)实体属性融合对于具有时态特性的属性,能够使用新的数据覆盖旧的数据,其次对于有冲突的属性,能够根据数据源的可靠性进行选取;对于给定的属性,能够通过相似度计算来衡量属性对的匹配程度,相似性包括属性名称相似性,这一点使用编辑距离衡量;同义词相似性,能够借用外部同义词词典进行对比;
通过相关性分析以及构建约束规则的方法,对外部知识源中的知识进行筛选,对与内部知识图谱中实体相似度较大的知识进行提取,将内部知识图谱中的实体以及外部知识源中的实体,经过图结构特征提取和向量化后,映射到一个低维稠密向量空间中,再使用常见的聚类算法将实体进行聚类;
所述实体对齐中,对于从非结构化的数据中得到的实体,仍然能够使用基于启发式规则的方法进行对齐和集成;包括以下几种情况:
①基于传统概率模型的实体对齐方法就是考虑两个实体各自属性的相似性,而并不考虑实体间的关系;
基于机器学习的实体对齐方法是将实体对齐问题转化为二分类问题;根据是否使用标注数据分为有监督学习与无监督学习两类,基于监督学习的实体对齐方法分为成对实体对齐、基于聚类的对齐、主动学习;
②局部集体实体对齐方法为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度;
③基于相似性传播的集体实体对齐方法是一种典型的集体实体对齐方法,匹配的两个实体与它们产生直接关联的其他实体也会具有较高的相似性;
基于概率模型的集体实体对齐方法采用统计关系学习进行计算与推理,具体采用LDA模型或CRF模型或Markov逻辑网;
通过电网常识对领域知识图谱进一步补全管理,利用外部知识图谱,对领域知识图谱的补全拟采用以下步骤;
分析需要查询的开放知识源和需要融合的知识,设计对不同开放知识源的查询方法,包括网页爬虫、API调用,用于采集需要的知识;
采用实体消歧和实体链接技术,基于现有的电力领域知识图谱,从采集到的知识中构建新的知识图谱;关于实体识别和消歧的技术采用基于深度神经网络的实体识别技术;采用实体-提及模型与随机游走算法相结合,将实体链接到知识图谱中的实体上;
对电网主设备领域知识图谱的更新演化:由于知识图谱具有一定的时效性,即图谱是在不停的变化更新的,采用知识的更新:面对语料增补,新旧知识图谱的融合技术;操作手册、运维手册发生的变动,新的规程替代旧的规程;
对于知识图谱的更新演化;具体如下:
(1)对于电力主设备领域知识图谱内的所有实体和关系,添加两条标注信息,即知识的生效时间和失效时间;
(2)在知识融合过程中,如果新旧实体或关系发生冲突,则修改旧实体或关系的失效时间,使实体或关系立刻失效;当知识图谱中的实体失效时,将导致相关关系失效;
(3)知识图谱的更新操作统一采用以下方法:将需要更新的知识构建为新的知识图谱;将新知识图谱与原有的电网主设备领域知识图谱做合并,修改新实体和关系的生效时间,并按修改冲突实体和关系的失效时间;对新关系和实体造成的矛盾,修正理论进行知识图谱更新;
所述S3中:
1)发现数据分类和聚类的电网主设备知识,包括:在知识库系统开发数据分类和聚类的电网主设备的知识发现功能,对实体与实体之间的开放式关系进行挖掘,从而发现一些新的电力主设备领域实体之间的关联关系,为问题理解时计算问题的主题以及问题与意图相似程度提供辅助;
2)发现关联规则挖掘的电网主设备知识,包括:
在知识库系统开发关联规则挖掘的电网主设备知识发现功能,向电网主设备运维、检修现场工作人员和故障辅助分析应用需求开展基于关联规则挖掘的知识发现技术;通过对已经建成的知识图谱、专家访谈和设备记录的深度智能学习,从而发现电力主设备领域实体之间的关联关系;
3)推理规则学习的电网主设备知识,包括:
在知识库系统开发规则学习的电网主设备知识推理功能,抽取知识图谱中的isA、kindOf、hasA之间的关系,以支撑后续的规则挖掘;面向知识图谱的规则学习的目标是从知识图谱中学习到一组封闭路径规则;通过前一部分能够基于已有电力设备知识图谱学习出一系列推理规则,这里把上述推理规则逐个应用到后续的知识图谱的更新和推理;
4)推理表示学习的电网主设备知识,包括:
在知识库系统开发表示学习的电网主设备知识推理功能,通过规则的知识图谱推理的得到一组规则集;并且这些规则能够脱离知识图谱单独使用;这种方法必须通过系统进行智能学习先进性规则得到相应的规则集,且更多考虑确定性知识的推理;当知识图谱不存在大量的规则或者要考虑不确定性的知识推理时,就无法通过规则学习来进行准确高效的推理;
所述S4中,实现对设备某一知识点的快速、精准的搜索和定位,具体包括以下内容:
1)运行人员运维过程中有疑问时,能够快速查阅设备的历史缺陷信息,能够精准定位到产品说明书的相关章节,显示产品参数、运维要求信息;
2)检修人员在检修、试验过程中有疑问时,能够快速、精准定位试验的具体标准、产品说明书中的相关要求、能够快速查询设备的历史试验数据以及状态评价信息;
3)技术管理人员能够定位设备的历次检修试验信息和设备的同类型、同批次设备分布情况;能够精准定位相关技术标准;
所述S5中,运检作业智能支撑通过对使用人员语义的理解和知识图谱的应用,在对设备某一知识点的快速、精准的搜索和定位的基础上,通过知识图谱的算法,对现场运检作业智能推送针对性的运检方案或者辅助判断;
1)运行人员巡检中,针对某项的巡视任务,利用知识图谱技术,根据换流变管理规定、相关说明书要求、历史缺陷信息、运行规程要求,推送巡视要点;
2)检修人员检修中,针对某项的检修任务,利用知识图谱技术,根据换流变管理规定,相关说明书要求、技术标准、历史缺陷信息、历史试验数据信息、状态评价信息,推送检修关键工艺点;
3)换流变技术管理中,利用知识图谱的技术,辅助技术管理人员判断某项数据是否满足技术标准要求,辅助技术管理人员梳理技术标准差异性条款。
2.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1所述的一种电网主设备的知识图谱构建方法。
CN202011541122.3A 2020-12-23 2020-12-23 一种电网主设备的知识图谱构建方法及设备 Active CN112612902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011541122.3A CN112612902B (zh) 2020-12-23 2020-12-23 一种电网主设备的知识图谱构建方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011541122.3A CN112612902B (zh) 2020-12-23 2020-12-23 一种电网主设备的知识图谱构建方法及设备

Publications (2)

Publication Number Publication Date
CN112612902A CN112612902A (zh) 2021-04-06
CN112612902B true CN112612902B (zh) 2023-07-14

Family

ID=75244461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011541122.3A Active CN112612902B (zh) 2020-12-23 2020-12-23 一种电网主设备的知识图谱构建方法及设备

Country Status (1)

Country Link
CN (1) CN112612902B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157860B (zh) * 2021-04-07 2022-03-11 国网山东省电力公司信息通信公司 一种基于小规模数据的电力设备检修知识图谱构建方法
CN113094514A (zh) * 2021-04-13 2021-07-09 北京工业大学 一种基于领域知识图谱的水务数据智能发现方法
CN112859822B (zh) * 2021-04-25 2021-07-09 北京邮电大学 基于人工智能的设备健康分析及故障诊断的方法及系统
CN113269331B (zh) * 2021-04-25 2023-07-25 云南电网有限责任公司信息中心 一种变压器检修作业的知识库构建方法
CN113094516A (zh) * 2021-04-27 2021-07-09 东南大学 一种基于多源数据融合的电网监控领域知识图谱构建方法
CN113392223A (zh) * 2021-05-12 2021-09-14 同方知网数字出版技术股份有限公司 一种基于气象领域的知识图谱构建方法
CN113268604B (zh) * 2021-05-19 2024-06-07 国网辽宁省电力有限公司 知识库自适应扩展方法及系统
CN113312917A (zh) * 2021-05-28 2021-08-27 国网江苏省电力有限公司电力科学研究院 一种基于知识推理的实体关系抽取方法及系统
CN113312496A (zh) * 2021-05-31 2021-08-27 四川大学 一种融合知识图谱的微量润滑装置参数选择方法
CN113312499B (zh) * 2021-06-15 2022-10-04 合肥工业大学 一种基于知识图谱的电力安全预警方法及系统
CN113254669B (zh) * 2021-06-15 2021-10-19 广东电网有限责任公司湛江供电局 基于知识图谱的配电网cim模型信息补全方法及系统
CN113254594B (zh) * 2021-06-21 2022-01-14 国能信控互联技术有限公司 一种面向智慧电厂的安全知识图谱构建方法及系统
CN113535810B (zh) * 2021-06-25 2024-02-27 杨粤湘 一种交通违法对象的挖掘方法、装置、设备及介质
CN113361970B (zh) * 2021-07-07 2023-07-07 国网甘肃省电力公司兰州供电公司 基于电力智能调度引擎的虚拟调度员系统及调度方法
CN113535983A (zh) * 2021-08-06 2021-10-22 中国电力科学研究院有限公司 一种电力运检的知识图谱构建方法和装置
CN113901227A (zh) * 2021-08-27 2022-01-07 广西电网有限责任公司南宁供电局 一种基于知识图谱的电网设备的关系分析方法及系统
CN113780561B (zh) * 2021-09-07 2024-07-30 国网北京市电力公司 电网调控运行知识库的构建方法及装置
CN113991843B (zh) * 2021-10-21 2024-06-07 广东电网有限责任公司 一种电网调度操作的防误方法、系统、设备和介质
CN114003734B (zh) * 2021-11-22 2023-06-30 四川大学华西医院 乳腺癌风险因素知识体系系统、知识图谱系统及构建方法
CN114358287B (zh) * 2021-12-01 2022-09-13 中国人民解放军国防科技大学 一种基于图谱聚类的大宗运输需求分解方法
CN114461784A (zh) * 2022-01-18 2022-05-10 中国科学院大学 一种非结构化设备故障知识的分类及知识萃取方法
CN114461815B (zh) * 2022-01-24 2024-10-15 合肥工业大学 家谱知识图谱的噪音检测方法及其装置、电子设备
CN114417015B (zh) * 2022-01-26 2023-05-12 西南交通大学 一种高速列车可维修性知识图谱构建方法
CN114745427A (zh) * 2022-03-14 2022-07-12 北京科东电力控制系统有限责任公司 一种基于知识图谱的监控业务信息情境推送方法及装置
CN114912435A (zh) * 2022-05-17 2022-08-16 国网浙江省电力有限公司电力科学研究院 基于频繁项集算法的电力文本知识发现方法及设备
CN114912637B (zh) * 2022-05-21 2023-08-29 重庆大学 人机物知识图谱制造产线运维决策方法及系统、存储介质
WO2023225960A1 (en) * 2022-05-26 2023-11-30 Siemens Aktiengesellschaft Industrial data processing method and apparatus for edge device
CN115033690B (zh) * 2022-05-31 2024-06-21 国网江苏省电力有限公司信息通信分公司 一种通信缺陷研判知识库构建方法、缺陷识别方法及系统
CN114780756B (zh) * 2022-06-07 2022-09-16 国网浙江省电力有限公司信息通信分公司 基于噪音检测和噪音感知的实体对齐方法及装置
CN114723059A (zh) * 2022-06-07 2022-07-08 达而观数据(成都)有限公司 基于知识推理的故障归因系统及方法
CN115221337A (zh) * 2022-07-13 2022-10-21 中国电信股份有限公司 数据编织处理方法、装置、电子设备及可读存储介质
CN115309912B (zh) * 2022-08-08 2023-07-21 重庆大学 集成电驱结构的知识图谱智能推理方法和快速设计方法
CN115344717B (zh) * 2022-10-18 2023-02-17 国网江西省电力有限公司电力科学研究院 面向多类型供用能系统调控运行知识图谱构建方法及装置
CN115563350A (zh) * 2022-10-22 2023-01-03 山东浪潮新基建科技有限公司 多源异构电网设备数据的对齐和补全方法及系统
CN115587221B (zh) * 2022-11-10 2023-04-07 北京志翔科技股份有限公司 用电数据图谱的生成方法、装置和电子设备
CN115909386B (zh) * 2023-01-06 2023-05-12 中国石油大学(华东) 一种管道仪表流程图的补全和纠错方法、设备及存储介质
CN116452130B (zh) * 2023-03-17 2023-09-05 国网山东省电力公司淄博供电公司 一种基于知识图谱的变电设备信息管理系统及方法
CN116882978B (zh) * 2023-08-01 2024-04-09 中国船舶科学研究中心 一种基于产品信息框架的深海潜水器运维保障系统
CN116701666A (zh) * 2023-08-09 2023-09-05 合肥小路数据信息技术有限公司 一种基于知识图谱的智能it运维系统及方法
CN116796008B (zh) * 2023-08-15 2024-02-13 北京安录国际技术有限公司 一种基于知识图谱的运维分析管理系统以及方法
CN117236446B (zh) * 2023-09-26 2024-06-07 中国科学院沈阳自动化研究所 一种利用事理图谱推理3d模型结构的方法与系统
CN117236432B (zh) * 2023-09-26 2024-07-02 中国科学院沈阳自动化研究所 一种面向多模态数据的制造工艺知识图谱构建方法及系统
CN117271700B (zh) * 2023-11-23 2024-02-06 武汉蓝海科创技术有限公司 集成智能学习功能的设备使用与维修知识库的构建系统
CN118194214B (zh) * 2024-05-20 2024-07-19 江西博微新技术有限公司 一种输电立体巡检方法、系统、计算机及存储介质
CN118378699B (zh) * 2024-06-26 2024-08-16 国网冀北电力有限公司智能配电网中心 基于区块链的营配贯通数据图谱建立方法
CN118428612A (zh) * 2024-07-05 2024-08-02 江苏中天互联科技有限公司 设备信息管理方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017076263A1 (zh) * 2015-11-03 2017-05-11 中兴通讯股份有限公司 融合知识库处理方法和装置及知识库管理系统、存储介质
CN109710701A (zh) * 2018-12-14 2019-05-03 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN110347843A (zh) * 2019-07-10 2019-10-18 陕西师范大学 一种基于知识图谱的中文旅游领域知识服务平台构建方法
CN111552813A (zh) * 2020-03-18 2020-08-18 国网浙江省电力有限公司 一种基于电网全业务数据的电力知识图谱构建方法
CN111768077A (zh) * 2020-05-28 2020-10-13 国网浙江省电力有限公司绍兴供电公司 一种基于知识图谱的电网跳闸事件智能识别方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303999B2 (en) * 2011-02-22 2019-05-28 Refinitiv Us Organization Llc Machine learning-based relationship association and related discovery and search engines
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN109800671B (zh) * 2018-12-28 2021-03-02 北京市遥感信息研究所 面向目标解译的多源遥感信息知识图谱构建方法和系统
CN109885691B (zh) * 2019-01-08 2024-06-25 平安科技(深圳)有限公司 知识图谱补全方法、装置、计算机设备及存储介质
CN110825882B (zh) * 2019-10-09 2022-03-01 西安交通大学 一种基于知识图谱的信息系统管理方法
CN111209410B (zh) * 2019-12-27 2023-04-18 中国地质大学(武汉) 一种基于锚点的动态知识图谱表示学习方法及系统
CN111414491A (zh) * 2020-04-14 2020-07-14 广州劲源科技发展股份有限公司 一种电网行业知识图谱构建方法和装置以及设备
CN111538847A (zh) * 2020-04-16 2020-08-14 北方民族大学 一种宁夏水稻知识图谱构建方法
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017076263A1 (zh) * 2015-11-03 2017-05-11 中兴通讯股份有限公司 融合知识库处理方法和装置及知识库管理系统、存储介质
CN109710701A (zh) * 2018-12-14 2019-05-03 浪潮软件股份有限公司 一种用于公共安全领域大数据知识图谱的自动化构建方法
CN110347843A (zh) * 2019-07-10 2019-10-18 陕西师范大学 一种基于知识图谱的中文旅游领域知识服务平台构建方法
CN111552813A (zh) * 2020-03-18 2020-08-18 国网浙江省电力有限公司 一种基于电网全业务数据的电力知识图谱构建方法
CN111768077A (zh) * 2020-05-28 2020-10-13 国网浙江省电力有限公司绍兴供电公司 一种基于知识图谱的电网跳闸事件智能识别方法

Also Published As

Publication number Publication date
CN112612902A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112612902B (zh) 一种电网主设备的知识图谱构建方法及设备
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN112860872B (zh) 基于自学习的配电网操作票语义合规性的校验方法及系统
CN110569369A (zh) 银行金融系统知识图谱的生成方法及装置、应用方法及装置
US8954360B2 (en) Semantic request normalizer
CN112463981A (zh) 一种基于深度学习的企业内部经营管理风险识别提取方法及系统
CN117271767A (zh) 基于多智能体的运维知识库的建立方法
Wątróbski Ontology learning methods from text-an extensive knowledge-based approach
US20220358379A1 (en) System, apparatus and method of managing knowledge generated from technical data
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台系统
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN114996549A (zh) 基于活动对象信息挖掘的智能追踪方法与系统
CN115905705A (zh) 基于工业大数据的工业算法模型推荐方法
Singh et al. Ontology learning procedures based on web mining techniques
Zhao et al. Automatically identifying performance issue reports with heuristic linguistic patterns
CN118093895A (zh) 一种知识图谱可视化开发系统
CN117687824A (zh) 基于质量问题知识图谱的卫星故障诊断系统
Wu et al. Research of knowledge graph technology and its applications in agricultural information consultation field
Bharambe et al. Ontology and knowledge graphs for semantic analysis in natural language processing
Abdulsahib et al. DGBPSO-DBSCAN: An Optimized Clustering Technique based on Supervised/Unsupervised Text Representation
CN118277638B (zh) 企业信息管理方法及系统
Gope et al. Medical document classification from OHSUMED dataset
Liu et al. Application of Knowledge Graph Technology in the Field of Power Grid Infrastructure
Yang et al. Construction and analysis of scientific and technological personnel relational graph for group recognition
KR20180080024A (ko) 디자인-기술 융합형 디자인 개발 솔루션 제공 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant