CN113434634A - 知识图谱构建方法、装置 - Google Patents

知识图谱构建方法、装置 Download PDF

Info

Publication number
CN113434634A
CN113434634A CN202110723399.6A CN202110723399A CN113434634A CN 113434634 A CN113434634 A CN 113434634A CN 202110723399 A CN202110723399 A CN 202110723399A CN 113434634 A CN113434634 A CN 113434634A
Authority
CN
China
Prior art keywords
target
data
entities
entity
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110723399.6A
Other languages
English (en)
Inventor
代贵生
杨志东
于宏海
尹康
张皓
李洪涛
段大鹏
陈广久
盛萌
陈佳
吉跃瑾
解凯
熊智林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
NR Electric Co Ltd
State Grid Beijing Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
NR Electric Co Ltd
State Grid Beijing Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, NR Electric Co Ltd, State Grid Beijing Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110723399.6A priority Critical patent/CN113434634A/zh
Publication of CN113434634A publication Critical patent/CN113434634A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明公开了一种知识图谱构建方法、装置。其中,该方法包括:确定目标知识图谱的本体,本体由实体和实体间的关系组成;依据本体,从目标数据中抽取目标实体以及实体与实体之间的目标关系,目标实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息;基于目标实体和目标关系,得到目标知识图谱,其中,目标知识图谱中的实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息,目标知识图谱中的实体之间的关系至少用于表示各个站点之间的关联关系。本发明解决了由于电网站点以及与各个站点相关联的数据类型繁杂造成的不易构建知识图谱的技术问题。

Description

知识图谱构建方法、装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种知识图谱构建方法、装置。
背景技术
为了更好的应对重大活动供电保障的需求,大型重要保电工作通常会进行协同化供电保障平台建设,充分借助现代信息手段,建立一套覆盖各专业和单位的智能指挥系统,实现全程统一指挥、在线监控、数据共享、快速响应和协同处置。
重大活动供电保障平台需要融合集成各种保电全要素数据,并对这些要素信息进行分析提炼,为保电工作提供保电智能客服、信息智能汇聚、决策智能支撑以及风险智能预测等智能决策技术,贯通保电数据、信息、智能、决策的全过程。
重大活动供电保障平台的供电保障全要素融合包括:主网架及运行数据,配网网架及运行数据,保电场馆及相关数据,保电线路、站室及相关数据,绿电,保电物资、装备、工单,天气、交通、赛程,视频信息等。因此需要融合现有调度、配网、输电管控、变电管控、配网管控、营销管控、城市运行大数据中心、场馆数据、绿色能源、视频等多个系统的模型和数据信息。但是目前在保电业务信息接入和集成的过程中会涉及如下问题:主网、配网设备数量众多,拼接工作量大;主配网设备与保电检修工单、视频设备等也需要进行关联。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种知识图谱构建方法、装置,以至少解决由于电网站点以及与各个站点相关联的数据类型繁杂造成的不易构建知识图谱的技术问题。
根据本发明实施例的一个方面,提供了一种知识图谱构建方法,包括:确定目标知识图谱的本体,本体由实体和实体间的关系组成,其中,本体中的实体至少用于表示为目标对象供电的电网中各个站点的种类,以及不同种类的站点的运行状态类型和维护信息类型,本体中的实体之间的关系至少用于表示不同种类的站点之间、不同种类的站点与运行状态类型之间、不同种类的站点与维护信息类型之间的关联关系;依据本体,从目标数据中抽取目标实体以及实体与实体之间的目标关系,目标实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息;基于目标实体和目标关系,得到目标知识图谱,其中,目标知识图谱中的实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息,目标知识图谱中的实体之间的关系至少用于表示各个站点之间的关联关系。
可选地,目标数据中至少包括结构化数据,半结构化数据,非结构化数据三种数据类型,当目标数据为结构化数据时,从目标数据中抽取目标实体以及实体与实体之间的目标关系,包括:将数据库中的每一行数据映射为目标实体,其中,数据库用于存储结构化数据;确定与数据库中的数据对应的外键,并将外键映射为目标关系,其中,外键包括真实外键和虚拟外键。
可选地,半结构化数据为带有标注信息的数据,其中,标注信息包括第一标注信息和第二标注信息,第一标注信息用于确定与目标实体对应的第一类关键词,第二标注信息用于确定与目标关系对应的第二类关键词,当目标数据为半结构化数据时,从目标数据中抽取目标实体以及实体与实体之间的目标关系,包括:依据标注信息,确定第一类关键词和第二类关键词;将第一类关键词映射为目标实体,以及将第二类关键词映射为目标关系。
可选地,非结构化数据为电网在运行过程中产生的原始文本数据,当目标数据为非结构化数据时,从目标数据中抽取目标实体,包括:获取关键词词典,其中,关键词词典中的元素为与目标实体对应的语料数据;依据关键词词典,确定非结构化数据中的目标实体关键词,其中,目标实体关键词为关键词词典中的语料数据;将目标实体关键词映射为目标实体。
可选地,从非结构化数据中抽取目标关系,包括:确定目标语料信息,其中,目标语料信息中包含目标实体关键词;依据预设关系模板,确定目标语料信息中体现目标关系的目标关系关键词;将目标关系关键词映射为目标关系,其中,目标关系为目标实体之间的关联关系。
可选地,在得到目标知识图谱后,方法还包括:当目标数据发生变动后,确定目标数据中的发生变动的数据,并依据发生变动的数据对目标知识图谱进行更新。
可选地,依据发生变动的数据对目标知识图谱进行更新,包括:确定发生变动的数据中的目标实体关键词,以及目标关系关键词;将目标实体关键词映射为目标实体,以及将目标关系关键词映射为目标关系,其中,目标关系为目标实体之间的关联关系;将目标实体和目标关系添加至目标知识图谱中,得到更新后的目标知识图谱,并将更新后的目标知识图谱作为新的目标知识图谱。
可选地,确定发生变动的数据中的目标实体关键词,以及目标关系关键词,包括:确定目标知识图谱中的目标实体和目标关系对应的语料数据;依据语料数据,确定发生变动的数据中的目标实体关键词和目标关系关键词。
可选地,确定发生变动的数据中的目标实体关键词,以及目标关系关键词,还包括:依据领域词典,确定发生变动的数据中的目标实体关键词和目标关系关键词,其中,领域词典用于存储保电领域的实体与关系对应的语料数据,且存储在领域词典的语料数据与目标知识图谱对应的语料数据至少部分不同。
可选地,方法还包括:接收查询指令,并返回与查询指令对应的回复信息,其中,查询指令至少用于确定为目标对象供电的电网中各个节点的名称,以及查询节点的运行状态和维护信息。
根据本发明实施例的另一方面,还提供了一种知识图谱构建装置,包括:获取模块,获取模块用于确定确定目标知识图谱的本体,本体由实体和实体间的关系组成,其中,本体中的实体至少用于表示为目标对象供电的电网中各个站点的种类,以及不同种类的站点的运行状态类型和维护信息类型,初始图谱中的实体之间的关系至少用于表示不同种类的站点之间、不同种类的站点与运行状态类型之间、不同种类的站点与维护信息类型之间的关联关系;抽取模块,抽取模块用于从目标数据中抽取目标实体以及实体与实体之间的目标关系,目标实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息;处理模块,处理模块用于将本体中的实体替换为对应种类的目标实体,以及将本体中的关系替换为目标关系,得到目标知识图谱,其中,目标知识图谱中的实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息,目标知识图谱中的实体之间的关系至少用于表示各个站点之间的关联关系。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,在程序运行时控制非易失性存储介质所在设备执行知识图谱构建方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,程序运行时执行知识图谱构建方法。
在本发明实施例中,采用确定目标知识图谱的本体,本体由实体和实体间的关系组成,其中,本体中的实体至少用于表示为目标对象供电的电网中各个站点的种类,以及不同种类的站点的运行状态类型和维护信息类型,本体中的实体之间的关系至少用于表示不同种类的站点之间、不同种类的站点与运行状态类型之间、不同种类的站点与维护信息类型之间的关联关系;依据本体,从目标数据中抽取目标实体以及实体与实体之间的目标关系,目标实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息;基于目标实体和目标关系,得到目标知识图谱,其中,目标知识图谱中的实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息,目标知识图谱中的实体之间的关系至少用于表示各个站点之间的关联关系的方式,通过预先确定本体,并依据本体对目标数据进行实体和关系抽取,达到了构建目标知识图谱的目的,从而实现了构建保电领域的知识图谱的技术效果,进而解决了由于电网站点以及与各个站点相关联的数据类型繁杂造成的不易构建知识图谱技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种知识图谱构建方法的流程示意图;
图2是根据本发明实施例的一种知识图谱构建及使用的流程示意图;
图3是根据本发明实施例的一种知识图谱构建装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种知识图谱构建方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的知识图谱构建方法,如图1所示,该方法包括如下步骤:
步骤S102,确定目标知识图谱的本体,本体由实体和实体间的关系组成,其中,本体中的实体至少用于表示为目标对象供电的电网中各个站点的种类,以及不同种类的站点的运行状态类型和维护信息类型,并且初始图谱中的实体之间的关系至少用于表示不同种类的站点之间、所述不同种类的站点与所述运行状态类型之间、所述不同种类的站点与所述维护信息类型之间的关联关系;
在本申请的一些实施例中,上述本体中的实体为一类信息的种类名称,例如,所有的场馆在本体中统一以实体“场馆”来表示,而不会在本体中显示具体地场馆名称。同样的,配电设备、保障计划、告警信息等在本体中也仅是分别用一个实体来代指这一类信息。
在本申请的一些实施例中,上述本体中的每个实体均会有一个关联的数据表,所述数据表中存放有与某一类信息对应的所有语料信息,例如,实体“场馆”关联的数据库中会存有所有场馆的名称,“保障团队”关联的数据库中会存有所有保障团队的名称。
可选地,上述本体中的所有关系也对应一个数据表,所述数据表中用于存储每个关系对应的语料信息,例如,关系“上级变电站”对应的语料信息“上级变电站”、“上一级的变电站”等会存储在所述数据表中。
步骤S104,依据本体,从目标数据中抽取目标实体以及实体与实体之间的目标关系,目标实体至少用于表示所述电网中各个站点的名称,以及各个站点的运行状态和维护信息;
在本申请的一些实施例中,上述目标数据中至少包括结构化数据,半结构化数据,非结构化数据三种数据类型。
在本申请的一些实施例中,上述结构化数据为存储在数据库中的数据,结构化数据的特点是所有的数据均是以预先设定的规则存储在数据库中的,因此对于结构化数据而言,任意一个数据单元的含义以及该数据单元与其他数据单元之间的关联都是已知的。因此,在从目标数据中抽取实体和关系时,对于结构化数据,可以直接将结构化数据映射为对应的实体和关系。
在本申请的一些实施例中,上述半结构化数据的数据来源多样,例如,可以是从网页中获取的数据,也可以是从一个列表中获取的数据。半结构化的特点在于,半结构化数据中与实体或关系对应的关键数据均有标注信息,但是因为不同来源的半结构化数据中会涵盖哪些关键数据并无规律,因此不能和结构化数据一样直接映射为实体和关系,需要先将关键数据提取出来。
在本申请的一些实施例中,上述非结构化数据大多为文本数据,其特点在于非结构化数据中包含的信息是未知的,并且也没有标注信息来标注非结构化数据中的关键数据,因此,对于非结构化数据,首先需要按照一定方法提取其中的关键数据。
具体地,当所述目标数据为所述结构化数据时,从目标数据中抽取目标实体以及实体与实体之间的目标关系的方法如下:将数据库中的每一行数据映射为所述目标实体,其中,所述数据库用于存储所述结构化数据;确定与所述数据库中的数据对应的外键,并将所述外键映射为所述目标关系,其中,所述外键包括真实外键和虚拟外键。
在本申请的一些实施例中,上述虚拟外键表明数据库中存储的两个对象之间存在关联关系,但是这种关联关系并未通过数据库的物理外键实现,而是由目标用户基于预设规则自行设定的,真实外键表明数据库中存储的两个有关联的对象之间存在关联关系,且这种关联关系是通过数据库的物理外键实现的。
在本申请的一些实施例中,目标数据可以是来源于支撑保电过程分析业务系统的数据,因此,从数据库这种结构化数据中抽取知识也是处理目标数据的一类重要的方法。而在该领域,已经有一些标准和工具(如D2R等)支持将数据库数据转化为RDF(资源描述框架Resource Description Framework)数据、OWL(网络本体语言,Web Ontology LaRDB toRDF Mapping Language)本体等,转换过程包括URI(统一资源标识符,Uniform ResourceIdentifier)的生成、RDF类和属性的定义、空节点的处理、数据间关联关系的表达等,基本转换规则包括:
(1)数据库中的表映射为RDF类;
(2)数据库中表的列映射为RDF属性;
(3)数据库表中每一行映射为一个资源/实体,创建其IRI(国际化资源标识符,Internationalized Resource Identifiers);
(4)数据库表中每个单元格值映射为一个文字值(Literal Value);
(5)如果单元格的值对应一个外键,则将其替换为外键值指向的资源或实体的IRI。
在本申请的一些实施例中,可以利用R2RML(RDB to RDF Mapping Language)映射语言实现结构化数据到知识的转换。该语言是一种用于表示从关系型数据库到RDF数据集的自定义映射语言。这种映射提供了在RDF数据模型下查看现有关系型数据的能力,并且可以基于自定义的结构和目标词汇表示原有的关系型数据。
在本申请的一些实施例中,半结构化数据为带有标注信息的数据,其中,标注信息包括第一标注信息和第二标注信息,所述第一标注信息用于确定与所述目标实体对应的第一类关键词,所述第二标注信息用于确定与所述目标关系对应的第二类关键词,当所述目标数据为所述半结构化数据时,从目标数据中抽取目标实体以及实体与实体之间的目标关系的方法为:依据所述标注信息,确定所述第一类关键词和所述第二类关键词;将所述第一类关键词映射为所述目标实体,以及将所述第二类关键词映射为所述目标关系。
具体地,针对保电中的电网架构、地理空间、电网设备台账、状态测量、告警、应急预案、故障说明等重要的半结构化代码数据,抽取相关信息及其关联,形成保电知识图谱的重要组成部分,支撑智能化保电信息汇聚和推送、语义查询和搜索、预案理解和推荐等智能应用。
半结构化保电数据具有较好的数据质量,是本项目中知识抽取的重要数据源,虽然它不符合关系数据库或其他形式的数据表形式结构,但包含标签或其他标记来分离语义元素并保持记录和数据字段的层次结构。一直以来,保电数据中的半结构化数据越来越丰富,全文文档和数据库不再是唯一的数据形式,项目组前期已梳理和积累保电领域的大量半结构化数据,对于电网架构、保电业务中的半结构化数据,可以直接根据半结构化的语法进行数据解析,构建类似处理结构化数据知识抽取的规则,抽取出相关的知识。
在本申请的一些实施例中,所述非结构化数据为所述电网在运行过程中产生的原始文本数据,当所述目标数据为所述非结构化数据时,从目标数据中抽取目标实体的方法如下:获取关键词词典,其中,所述关键词词典中的元素为与所述目标实体对应的语料数据;依据所述关键词词典,确定所述非结构化数据中的目标实体关键词,其中,所述目标实体关键词为所述关键词词典中的所述语料数据;将所述目标实体关键词映射为所述目标实体。
可选地,从所述非结构化数据中抽取目标关系的方法如下:确定目标语料信息,其中,所述目标语料信息中包含所述目标实体关键词;依据预设关系模板,确定所述目标语料信息中体现所述目标关系的目标关系关键词;将所述目标关系关键词映射为所述目标关系,其中,所述目标关系为所述目标实体之间的关联关系。
另外,在面向非结构保电数据的关系抽取中,除了通过预设模板实现关系的抽取外,为了能快速从大量多源的保电领域相关文本中学习新关系,即不在人工设定的关系抽取模板中的关系,在本申请的一些实施例中,还提供了一种基于卷积神经网络的关系抽取模型扩展到远程监督数据上的关系抽取方法。具体地,其原理是假设每个实体对的所有句子中至少存在一个句子反应实体对的关系,则对于每个实体可以通过大量的训练学习到最能反应其关系的那个句子。
步骤S106,基于目标实体和目标关系,得到目标知识图谱,其中,目标知识图谱中的实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息,目标知识图谱中的实体之间的关系至少用于表示各个站点之间的关联关系。
在本申请的一些实施例中,目标数据是动态变化的,在得到所述目标知识图谱后,若目标数据发生变化,确定目标数据中的发生变动的数据,并依据发生变动的数据对所述目标知识图谱进行更新。
具体地,在电力领域知识抽取中,常见的导致目标数据发生变动的原因有新型设备快速迭代、反复试验、事前维护、事中抢修或者有新的类型故障发生等。
当目标数据发生变动后,为了对知识图谱进行更新,需要确定述发生变动的数据中的目标实体关键词,以及目标关系关键词;然后将目标实体关键词映射为目标实体,以及将目标关系关键词映射为目标关系,其中,目标关系为目标实体之间的关联关系;最后将目标实体和目标关系添加至目标知识图谱中,得到更新后的目标知识图谱,并将更新后的目标知识图谱作为新的目标知识图谱。
在本申请的一些实施例中,可以基于目标知识图谱本身,在目标数据发生变动时实现对目标知识图谱的更新,具体流程如下:确定目标知识图谱中的目标实体和目标关系对应的语料数据;依据语料数据,确定变动部分的目标实体关键词和目标关系关键词。
在本申请的一些实施例中,还可以基于保电领域的领域词典确定述发生变动的数据中的目标实体关键词,以及目标关系关键词,具体流程如下:依据领域词典,确定变动部分的目标实体关键词和目标关系关键词,其中,领域词典用于存储保电领域的实体与关系对应的语料数据,且存储在领域词典的语料数据与目标知识图谱对应的语料数据至少部分不同。
在本申请的一些实施例中,上述领域词典的数据来源包括之前已经积累的保电领域词典、保电设备词典、保电设备维修词典等历史数据,以及保电百科词条等开源的保电领域知识数据。
可选地,上述基于目标知识图谱自身和基于保电领域词典对目标知识图谱进行更新的方法可以同时进行,并且可以通过机器学习的方式,实现目标知识图谱的自动更新,具体流程如下:
首先,通过保电领域词典,自动对保电数据集标注。与此同时,利用已构建领域知识图谱,对数据集进行自动标注。在此远程监督过程中,可按照如下方法抑制噪声数据产生:采用统计学习方法对项目已经积累的标注语料进行分词统计分析,然后结合人工校验的方法,构造出一个面向语料信息的词典,该词典中只包括对于判定知识有用的词语;然后对自动标注而得的数据进行初步校验,只需要将标注数据进行分词拆分,然后扫描数据中包含的词语,如果该数据中不包含任何一个“有用”的词语,那么可以初步判定其为噪声,进行放弃。
然后,为了进一步保证标注数据结果的质量,通过投票机制过滤不可信的标注结果,并在后继模型训练中引入强化学习机制,奖励正确的标注,惩罚错误的标注,降低数据标签噪声,进一步提高标注结果质量。
在使用强化学习(记为RL)的过程中,可以采用分层的RL进行知识抽取:一是高层的RL过程,即检测句子中关系指示符的高层次RL过程;二是低层的RL过程,即识别对应关系的相关实体的低层次RL过程。
(1)高层RL的关系检测
Option(选择):对于处理的句子,在关系集合中选择满足的关系,当低层次强化学习结束,高层次的强化学习会去执行下一个option。
State(状态):状态S由以下三者共同决定:当前的状态ht,最后一个option的关系类型向量
Figure BDA0003137183930000091
和上一个时间的状态St-1,如下式所示:
Figure BDA0003137183930000092
其中fh是非线性变化,ht是Bi-LSTM得到的隐藏状态。
Policy(策略):关系检测的策略,也就是option的概率分布,如下式所示:
Figure BDA0003137183930000093
Reward(反馈):环境提供的一个可量化的标量反馈信号。
(2)低层RL的实体抽取
Option(选择):当高层RL预测了一个非NR关系,底层RL抽取对应实体。
Action(动作):在每个时间步上,action会给当前的词分配一个标签进行标记。
State(状态):类似高层RL中的关系检测,此处的状态计算方法如下式所示:
Figure BDA0003137183930000094
Figure BDA0003137183930000101
其中,ct'是上下文向量,ht是当前词的隐藏状态,
Figure BDA0003137183930000102
是科学系的实体标签向量,st-1是上一阶段的状态,g和f都是多层感知机。
Policy(策略):由句子到实体的概率计算如下式所示:
Figure BDA0003137183930000103
Reward(反馈):此处的奖励机制如下式所示:
Figure BDA0003137183930000104
其中,λ(y)是用来降低非实体标签的权重。
再次,利用自动标注和标注清洗的数据,训练知识抽取模型,抽取得到知识三元组。接着,将可信的新发现知识三元组加入到训练数据集中,通过自举迭代方式进行训练数据集的再次扩充和模型的训练,直到新发现的知识三元组较少为止。
最后,得到的知识图谱同样可以再次对新的数据集进行标注,形成一个基于远程监督的测试数据自动标注、标注清洗、自举训练的迭代过程。
需要说明的是,通过上述步骤,还可以解决领域数据集稀缺和数据标注工作量大这两个保电领域知识图谱抽取过程中会碰到的问题。
在本申请的一些实施例中,上述目标知识图谱还用于接收查询指令,并返回与所述查询指令对应的回复信息,其中,所述查询指令至少用于确定为目标对象供电的电网中各个节点的名称,以及查询所述节点的运行状态和维护信息。
具体地,基于上述目标知识图谱,实现依据查询指令返回对应的信息的方法及原理如下如下:
上述知识图谱还用于实现知识驱动的保电信息智能汇聚。从知识图谱的构建过程可见,其本身就具有信息汇聚的作用,基于知识驱动的信息汇聚,利用知识图谱本身的信息汇聚能力,实现保电信息汇聚。汇聚方法包括基于单实体的信息汇聚、基于多实体的信息汇聚、面向保电任务的知识汇聚等。知识图谱的单个实体已是多个异构数据源中保电信息汇聚的结果,此外根据实体相连的关系,可以在知识图谱中游走到其他的相邻实体。对于多实体的保电信息汇聚则通过语义查询得到相应的实体信息。面向任务的知识汇聚又可以分为基于继承的框架汇聚、基于上下文的知识汇聚、基于谓词依赖的规则汇聚、基于实体关系的近邻汇聚。基于继承的框架汇聚直接利用框架之间的继承关系,将所有框架的祖先和子框架知识汇聚起来,形成任务相关框架集。基于上下文的知识汇聚依据上下文提高汇聚的时效性,在减少汇聚时间的同时提高汇聚的精度。基于谓词依赖的规则汇聚依据规则集上的谓词依赖路径,汇聚所有之间具有依赖关系的规则。基于实体关系的近邻汇聚将保电任务数据中包含的实体、关系名作为线索,从由实体-关系组成的知识图谱中汇聚与线索相邻的(实体-关系-实体)三元组。
然后,实现基于保电知识的语义查询和搜索,通过语义查询和搜索实现对保电知识的有效利用。语义查询实现了复杂的多跳查询,是基于保电知识图谱的人机对话的基础之一。搜索实现了对保电信息的精准定位,在传统信息检索技术具有较高召回率的基础上,进一步提高了搜索结果的准确率。同时,实现基于主题的知识查询服务。
在本申请的一些实施例中,在接收查询指令后,还可以依据多个查询指令,生成目标查询指令,其中,所述目标查询指令用于查询依据多个所述查询指令,生成目标查询指令,其中,所述目标查询指令至少用于确定各个节点中被查询次数高于预设阈值的关键节点的名称,以及查询所述关键节点的运行状态和/或维护信息。
在本申请的一些实施例中,上述知识图谱还可以实现以下功能:
借助连通各保电信息源的保电知识图谱,可实现支撑大型活动指挥平台的信息推送应用,通过语音或自然语言文字形式接收用户的交互问答请求,借助自然语言理解、智能问答、语义搜索和推荐等技术,可实现保电信息的自然语言人机智能交互,避免传统呆板的关系数据库查询检索,实现友好的人机互动,并实现对保电知识图谱的充分重用。在上述过程中,通过基于卷积神经网络的模型,实现对问答意图的准确识别,分析问题类别,并进一步通过预训练语言模型精确提取实体、关系等问答要素;通过动态知识图谱技术,根据问答意图和问答要素,自动预测和生成最可能的问题,并将其转化为对知识图谱的查询;对问题理解和语义查询进行空间和时间扩充,使得智能问答提供涉及时空关系的保电知识;通过预测后继问题、问答场景识别、问答日志挖掘等,实现多轮保电智能问答,并能进行问答场景切换。
进而,实现基于知识图谱的保电预案理解和预案推荐,形成保电风险智能预警能力。保电风险预警对大型活动会保电业务至关重要,保电知识图谱作为保电数据、信息和大脑,可提供可解释的保电风险智能预警分析、处理和辅助决策支持。通过整理故障处理业务专家知识,在保电知识图谱中构建相应的故障知识,将保电故障要素知识化,包括故障产生原因、关联要素、处置规则、决策预案等,作为故障预测和故障处置的专业知识库;收集各类故障相关数据,通过深度学习模型提取故障特征,训练故障预测模型,形成故障未发生时的提前预判能力;基于故障预测模型,提前进行故障提醒,合理分配巡视人力,并结合人工现场研判,消除保电故障盲区;在故障发生和处置过程中,快速汇聚相关保电信息,通知相关人员,并根据故障规则提供指挥决策,甚至自动进行保电故障处置。
在本申请的一些实施例中,本申请所述的指示图谱构建及应用过程如图2所示,具体地,首先对多种类型的数据(如结构化文本数据、半结构化数据、无结构化数据)进行数据清洗,实体抽取,属性抽取,关系抽取,事件抽取和知识溯源等操作,从而实现了对这些保电全要素多源异构数据源的知识抽取,并进一步依据抽取到的知识构建对应的知识图谱。在得到知识图谱后,还会对知识图谱进行动态更新,包括对知识图谱本身的动态更新。
在得到了知识图谱后,实现了接收查询指令并返回对应的回复消息的技术效果。同时,还可以通过存储并分析每一次的查询指令和对应的返回信息,生成预设查询指令,从而实现了保电只能应用,包括保电信息智能汇聚和推送,保电预案理解和推送,保电实时情况汇报和应急预案推荐。
另外,在整个知识图谱的构建过程中,还用到了自然语言处理、机器学习、深度学习和规则引擎等技术手段。
最后,通过保电信息主动汇聚、知识挖掘、语义查询、知识推理等技术辅助保电指挥决策,实现基于知识图谱的保电智能辅助决策。研发保电知识图谱语义检索技术,结合关键词索引、知识表示学习实现知识快速检索;依据大型活动保电业务知识图谱,制定不同阶段的业务推送策略,结合知识图谱语义检索,实现业务知识的智能化推送;挖掘分析业务中的关键命名实体,形成业务-知识模板,依据业务关键槽信息,实现基于模板的知识推送,生成业务规则;提供保电知识图谱辅助决策的可视化技术,将可解释、可回溯、可复盘推演的知识图谱和分析结果进行多种形式的可视化展示,辅助保电智能决策。
实施例2
本申请实施例中提供了一种如图3所示的知识图谱构建装置,如图3所示,知识图谱构建装置包括:获取模块30,获取模块用于确定目标知识图谱的本体,本体由实体和实体间的关系组成,其中,本体中的实体至少用于表示为目标对象供电的电网中各个站点的种类,以及不同种类的站点的运行状态类型和维护信息类型,初始图谱中的实体之间的关系至少用于表示不同种类的站点之间、不同种类的站点与运行状态类型之间、不同种类的站点与维护信息类型之间的关联关系;抽取模块32,抽取模块用于从目标数据中抽取目标实体以及实体与实体之间的目标关系,目标实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息;处理模块34,处理模块用于将本体中的实体替换为对应种类的目标实体,以及将本体中的关系替换为目标关系,得到目标知识图谱,其中,目标知识图谱中的实体至少用于表示电网中各个站点的名称,以及各个站点的运行状态和维护信息,目标知识图谱中的实体之间的关系至少用于表示各个站点之间的关联关系。
在本申请的一些实施例中,上述本体中的实体为一类信息的种类名称,例如,所有的场馆在本体中统一以实体“场馆”来表示,而不会在本体中显示具体地场馆名称。同样的,配电设备、保障计划、告警信息等在本体中也仅是分别用一个实体来代指这一类信息。
在本申请的一些实施例中,上述本体中的每个实体均会有一个关联的数据表,所述数据表中存放有与某一类信息对应的所有语料信息,例如,实体“场馆”关联的数据表中会存有所有场馆的名称,“保障团队”关联的数据表中会存有所有保障团队的名称。
可选地,上述本体中的所有关系也对应一个数据表,所述数据表中用于存储每个关系对应的语料信息,例如,关系“上级变电站”对应的语料信息“上级变电站”、“上一级的变电站”等会存储在所述数据表中。
在本申请的一些实施例中,上述抽取模块32抽取目标实体和目标关系的具体流程如下:
在本申请的一些实施例中,上述目标数据中至少包括结构化数据,半结构化数据,非结构化数据三种数据类型。
在本申请的一些实施例中,上述结构化数据为存储在数据库中的数据,结构化数据的特点是所有的数据均是以预先设定的规则存储在数据库中的,因此对于结构化数据而言,任意一个数据单元的含义以及该数据单元与其他数据单元之间的关联都是已知的。因此,在从目标数据中抽取实体和关系时,对于结构化数据,可以直接将结构化数据映射为对应的实体和关系。
在本申请的一些实施例中,上述半结构化数据的数据来源多样,例如,可以是从网页中获取的数据,也可以是从一个列表中获取的数据。半结构化的特点在于,半结构化数据中与实体或关系对应的关键数据均有标注信息,但是因为不同来源的半结构化数据中会涵盖哪些关键数据并无规律,因此不能和结构化数据一样直接映射为实体和关系,需要先将关键数据提取出来。
在本申请的一些实施例中,上述非结构化数据大多为文本数据,其特点在于非结构化数据中包含的信息是未知的,并且也没有标注信息来标注非结构化数据中的关键数据,因此,对于非结构化数据,首先需要按照一定方法提取其中的关键数据。
具体地,当所述目标数据为所述结构化数据时,从目标数据中抽取目标实体以及实体与实体之间的目标关系的方法如下:将数据库中的每一行数据映射为所述目标实体,其中,所述数据库用于存储所述结构化数据;确定与所述数据库中的数据对应的外键,并将所述外键映射为所述目标关系,其中,所述外键包括真实外键和虚拟外键。
在本申请的一些实施例中,目标数据可以是来源于支撑保电过程分析业务系统的数据,因此,从数据库这种结构化数据中抽取知识也是处理目标数据的一类重要的方法。而在该领域,已经有一些标准和工具(如D2R等)支持将数据库数据转化为RDF(资源描述框架Resource Description Framework数据、OWL(网络本体语言,Web Ontology LaRDB to RDFMapping Language)本体等,转换过程包括URI(统一资源标识符,Uniform ResourceIdentifier)的生成、RDF类和属性的定义、空节点的处理、数据间关联关系的表达等,基本转换规则包括:
(1)数据库中的表映射为RDF类;
(2)数据库中表的列映射为RDF属性;
(3)数据库表中每一行映射为一个资源/实体,创建其IRI(国际化资源标识符,Internationalized Resource Identifiers);
(4)数据库表中每个单元格值映射为一个文字值(Literal Value);
(5)如果单元格的值对应一个外键,则将其替换为外键值指向的资源或实体的IRI。
在本申请的一些实施例中,可以利用R2RML(RDB to RDF Mapping Language)映射语言实现结构化数据到知识的转换。该语言是一种用于表示从关系型数据库到RDF数据集的自定义映射语言。这种映射提供了在RDF数据模型下查看现有关系型数据的能力,并且可以基于自定义的结构和目标词汇表示原有的关系型数据。
在本申请的一些实施例中,半结构化数据为带有标注信息的文本数据,其中,标注信息包括第一标注信息和第二标注信息,所述第一标注信息用于确定与所述目标实体对应的第一类关键词,所述第二标注信息用于确定与所述目标关系对应的第二类关键词,当所述目标数据为所述半结构化数据时,从目标数据中抽取目标实体以及实体与实体之间的目标关系的方法为:依据所述标注信息,确定所述第一类关键词和所述第二类关键词;将所述第一类关键词映射为所述目标实体,以及将所述第二类关键词映射为所述目标关系。
具体地,针对保电中的电网架构、地理空间、电网设备台账、状态测量、告警、应急预案、故障说明等重要的半结构化代码数据,抽取相关信息及其关联,形成保电知识图谱的重要组成部分,支撑智能化保电信息汇聚和推送、语义查询和搜索、预案理解和推荐等智能应用。
半结构化保电数据具有较好的数据质量,是本项目中知识抽取的重要数据源,虽然它不符合关系数据库或其他形式的数据表形式结构,但包含标签或其他标记来分离语义元素并保持记录和数据字段的层次结构。一直以来,保电数据中的半结构化数据越来越丰富,全文文档和数据库不再是唯一的数据形式,项目组前期已梳理和积累保电领域的大量半结构化数据,对于电网架构、保电业务中的半结构化数据,可以直接根据半结构化的语法进行数据解析,构建类似处理结构化数据知识抽取的规则,抽取出相关的知识。
在本申请的一些实施例中,所述非结构化数据为所述电网在运行过程中产生的原始文本数据,当所述目标数据为所述非结构化数据时,从目标数据中抽取目标实体的方法如下:获取关键词词典,其中,所述关键词词典中的元素为与所述目标实体对应的语料数据;依据所述关键词词典,确定所述非结构化数据中的目标实体关键词,其中,所述目标实体关键词为所述关键词词典中的所述语料数据;将所述目标实体关键词映射为所述目标实体。
可选地,从所述非结构化数据中抽取目标关系的方法如下:确定目标语料信息,其中,所述目标语料信息中包含所述目标实体关键词;依据预设关系模板,确定所述目标语料信息中体现所述目标关系的目标关系关键词;将所述目标关系关键词映射为所述目标关系,其中,所述目标关系为所述目标实体之间的关联关系。
另外,在面向非结构保电数据的关系抽取中,除了通过预设模板实现关系的抽取外,为了能快速从大量多源的保电领域相关文本中学习新关系,即不在人工设定的关系抽取模板中的关系,在本申请的一些实施例中,还提供了一种基于卷积神经网络的关系抽取模型扩展到远程监督数据上的关系抽取方法。具体地,其原理是假设每个实体对的所有句子中至少存在一个句子反应实体对的关系,则对于每个实体可以通过大量的训练学习到最能反应其关系的那个句子。
在本申请的一些实施例中,目标数据是动态变化的,在得到所述目标知识图谱后,若目标数据发生变化,处理模块34还需要确定目标数据中的发生变动的数据,并依据发生变动的数据对所述目标知识图谱进行更新。
具体地,在电力领域知识抽取中,常见的导致目标数据发生变动的原因有新型设备快速迭代、反复试验、事前维护、事中抢修或者有新的类型故障发生等。
当目标数据发生变动后,为了对知识图谱进行更新,需要确定述发生变动的数据中的目标实体关键词,以及目标关系关键词;然后将目标实体关键词映射为目标实体,以及将目标关系关键词映射为目标关系,其中,目标关系为目标实体之间的关联关系;最后将目标实体和目标关系添加至目标知识图谱中,得到更新后的目标知识图谱,并将更新后的目标知识图谱作为新的目标知识图谱。
在本申请的一些实施例中,可以基于目标知识图谱本身,在目标数据发生变动时实现对目标知识图谱的更新,具体流程如下:确定目标知识图谱中的目标实体和目标关系对应的语料数据;依据语料数据,确定变动部分的目标实体关键词和目标关系关键词。
在本申请的一些实施例中,还可以基于保电领域的领域词典确定述发生变动的数据中的目标实体关键词,以及目标关系关键词,具体流程如下:依据领域词典,确定变动部分的目标实体关键词和目标关系关键词,其中,领域词典用于存储保电领域的实体与关系对应的语料数据,且存储在领域词典的语料数据与目标知识图谱对应的语料数据至少部分不同。
在本申请的一些实施例中,上述领域词典的数据来源包括之前已经积累的保电领域词典、保电设备词典、保电设备维修词典等历史数据,以及保电百科词条等开源的保电领域知识数据。
可选地,上述基于目标知识图谱自身和基于保电领域词典对目标知识图谱进行更新的方法可以同时进行,并且可以通过机器学习的方式,实现目标知识图谱的自动更新,具体流程如下:
首先,通过保电领域词典,自动对保电数据集标注。与此同时,利用已构建领域知识图谱,对数据集进行自动标注。在此远程监督过程中,可按照如下方法抑制噪声数据产生:采用统计学习方法对项目已经积累的标注语料进行分词统计分析,然后结合人工校验的方法,构造出一个面向语料信息的词典,该词典中只包括对于判定知识有用的词语;然后对自动标注而得的数据进行初步校验,只需要将标注数据进行分词拆分,然后扫描数据中包含的词语,如果该数据中不包含任何一个“有用”的词语,那么可以初步判定其为噪声,进行放弃。
然后,为了进一步保证标注数据结果的质量,通过投票机制过滤不可信的标注结果,并在后继模型训练中引入强化学习机制,奖励正确的标注,惩罚错误的标注,降低数据标签噪声,进一步提高标注结果质量。
在使用强化学习(记为RL)的过程中,可以采用分层的RL进行知识抽取:一是高层的RL过程,即检测句子中关系指示符的高层次RL过程;二是低层的RL过程,即识别对应关系的相关实体的低层次RL过程。
(1)高层RL的关系检测
Option(选择):对于处理的句子,在关系集合中选择满足的关系,当低层次强化学习结束,高层次的强化学习会去执行下一个option。
State(状态):状态S由以下三者共同决定:当前的状态ht,最后一个option的关系类型向量
Figure BDA0003137183930000171
和上一个时间的状态St-1,如下式所示:
Figure BDA0003137183930000172
其中fh是非线性变化,ht是Bi-LSTM得到的隐藏状态。
Policy(策略):关系检测的策略,也就是option的概率分布,如下式所示:
Figure BDA0003137183930000173
Reward(反馈):环境提供的一个可量化的标量反馈信号。
(2)低层RL的实体抽取
Option(选择):当高层RL预测了一个非NR关系,底层RL抽取对应实体。
Action(动作):在每个时间步上,action会给当前的词分配一个标签进行标记。
State(状态):类似高层RL中的关系检测,此处的状态计算方法如下式所示:
Figure BDA0003137183930000174
Figure BDA0003137183930000175
其中,ct'是上下文向量,ht是当前词的隐藏状态,
Figure BDA0003137183930000176
是科学系的实体标签向量,st-1是上一阶段的状态,g和f都是多层感知机。
Policy(策略):由句子到实体的概率计算如下式所示:
Figure BDA0003137183930000177
Reward(反馈):此处的奖励机制如下式所示:
Figure BDA0003137183930000178
其中,λ(y)是用来降低非实体标签的权重。
再次,利用自动标注和标注清洗的数据,训练知识抽取模型,抽取得到知识三元组。接着,将可信的新发现知识三元组加入到训练数据集中,通过自举迭代方式进行训练数据集的再次扩充和模型的训练,直到新发现的知识三元组较少为止。
最后,得到的知识图谱同样可以再次对新的数据集进行标注,形成一个基于远程监督的测试数据自动标注、标注清洗、自举训练的迭代过程。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种知识图谱构建方法,其特征在于,包括:
确定目标知识图谱的本体,所述本体由实体和实体间的关系组成,其中,所述本体中的实体至少用于表示为目标对象供电的电网中各个站点的种类,以及不同种类的站点的运行状态类型和维护信息类型,所述本体中的实体之间的关系至少用于表示不同种类的站点之间、所述不同种类的站点与所述运行状态类型之间、所述不同种类的站点与所述维护信息类型之间的关联关系;
依据所述本体,从目标数据中抽取目标实体以及实体与实体之间的目标关系,所述目标实体至少用于表示所述电网中各个站点的名称,以及所述各个站点的运行状态和维护信息;
基于所述目标实体和目标关系,得到所述目标知识图谱,其中,所述目标知识图谱中的实体至少用于表示所述电网中各个站点的名称,以及所述各个站点的运行状态和维护信息,所述目标知识图谱中的实体之间的关系至少用于表示所述各个站点之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述目标数据中至少包括结构化数据,半结构化数据,非结构化数据三种数据类型,当所述目标数据为所述结构化数据时,从目标数据中抽取目标实体以及实体与实体之间的目标关系,包括:
将数据库中的每一行数据映射为所述目标实体,其中,所述数据库用于存储所述结构化数据;
确定与所述数据库中的数据对应的外键,并将所述外键映射为所述目标关系,其中,所述外键包括真实外键和虚拟外键。
3.根据权利要求2所述的方法,其特征在于,所述半结构化数据为带有标注信息的数据,其中,所述标注信息包括第一标注信息和第二标注信息,所述第一标注信息用于确定与所述目标实体对应的第一类关键数据,所述第二标注信息用于确定与所述目标关系对应的第二类关键数据,当所述目标数据为所述半结构化数据时,从目标数据中抽取目标实体以及实体与实体之间的目标关系,包括:
依据所述标注信息,确定所述第一类关键数据和所述第二类关键数据;
将所述第一类关键数据映射为所述目标实体,以及将所述第二类关键数据映射为所述目标关系。
4.根据权利要求2所述的方法,其特征在于,所述非结构化数据为所述电网在运行过程中产生的原始文本数据,当所述目标数据为所述非结构化数据时,从目标数据中抽取目标实体,包括:
获取关键词词典,其中,所述关键词词典中的元素为与所述目标实体对应的语料数据;
依据所述关键词词典,确定所述非结构化数据中的目标实体关键词,其中,所述目标实体关键词为所述关键词词典中的所述语料数据;
将所述目标实体关键词映射为所述目标实体。
5.根据权利要求3所述的方法,其特征在于,从所述非结构化数据中抽取目标关系,包括:
确定目标语料信息,其中,所述目标语料信息中包含所述目标实体关键词;
依据预设关系模板,确定所述目标语料信息中体现所述目标关系的目标关系关键词;
将所述目标关系关键词映射为所述目标关系,其中,所述目标关系为所述目标实体之间的关联关系。
6.根据权利要求1所述的方法,其特征在于,在得到所述目标知识图谱后,所述方法还包括:当所述目标数据发生变动后,确定所述目标数据中的发生变动的数据,并依据所述发生变动的数据对所述目标知识图谱进行更新。
7.根据权利要求6所述的方法,其特征在于,依据所述发生变动的数据对所述目标知识图谱进行更新,包括:
确定所述述发生变动的数据中的目标实体关键词,以及目标关系关键词;
将所述目标实体关键词映射为目标实体,以及将所述目标关系关键词映射为目标关系,其中,所述目标关系为所述目标实体之间的关联关系;
将所述目标实体和所述目标关系添加至所述目标知识图谱中,得到更新后的目标知识图谱,并将更新后的目标知识图谱作为新的目标知识图谱。
8.根据权利要求6所述的方法,其特征在于,确定所述发生变动的数据中的目标实体关键词,以及目标关系关键词,包括:
确定所述目标知识图谱中的目标实体和目标关系对应的语料数据;
依据所述语料数据,确定所述发生变动的数据中的所述目标实体关键词和所述目标关系关键词。
9.根据权利要求7所述的方法,其特征在于,确定所述发生变动的数据中的目标实体关键词,以及目标关系关键词,还包括:
依据领域词典,确定所述发生变动的数据中的所述目标实体关键词和所述目标关系关键词,其中,所述领域词典用于存储保电领域的实体与关系对应的语料数据,且存储在所述领域词典的语料数据与所述目标知识图谱对应的语料数据至少部分不同。
10.根据权利要求1至8中任一项所述的方法,其特征在于,所述方法还包括:接收查询指令,并返回与所述查询指令对应的回复信息,其中,所述查询指令至少用于确定为目标对象供电的电网中各个节点的名称,以及查询所述节点的运行状态和/或维护信息。
11.一种知识图谱构建装置,其特征在于,包括:
获取模块,所述获取模块用于确定目标知识图谱的本体,所述本体由实体和实体间的关系组成,其中,所述本体中的实体至少用于表示为目标对象供电的电网中各个站点的种类,以及不同种类的站点的运行状态类型和维护信息类型,所述本体中的实体之间的关系至少用于表示不同种类的站点之间、所述不同种类的站点与所述运行状态类型之间、所述不同种类的站点与所述维护信息类型之间的关联关系;
抽取模块,所述抽取模块用于从目标数据中抽取目标实体以及实体与实体之间的目标关系,所述目标实体至少用于表示所述电网中各个站点的名称,以及所述各个站点的运行状态和维护信息;
处理模块,所述处理模块用于将所述本体中的实体替换为对应种类的所述目标实体,以及将所述本体中的关系替换为所述目标关系,得到目标知识图谱,其中,所述目标知识图谱中的实体至少用于表示所述电网中各个站点的名称,以及所述各个站点的运行状态和维护信息,所述目标知识图谱中的实体之间的关系至少用于表示所述各个站点之间的关联关系。
12.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至10中任意一项知识图谱构建方法。
13.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至10中任意一项知识图谱构建方法。
CN202110723399.6A 2021-06-28 2021-06-28 知识图谱构建方法、装置 Pending CN113434634A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110723399.6A CN113434634A (zh) 2021-06-28 2021-06-28 知识图谱构建方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110723399.6A CN113434634A (zh) 2021-06-28 2021-06-28 知识图谱构建方法、装置

Publications (1)

Publication Number Publication Date
CN113434634A true CN113434634A (zh) 2021-09-24

Family

ID=77757463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110723399.6A Pending CN113434634A (zh) 2021-06-28 2021-06-28 知识图谱构建方法、装置

Country Status (1)

Country Link
CN (1) CN113434634A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168745A (zh) * 2021-11-30 2022-03-11 大连理工大学 面向环氧乙烷衍生品生产过程的知识图谱构建方法
CN114707488A (zh) * 2022-02-25 2022-07-05 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN114721833A (zh) * 2022-05-17 2022-07-08 中诚华隆计算机技术有限公司 一种基于平台业务类型的智能云端协调方法和装置
CN115309915A (zh) * 2022-09-29 2022-11-08 北京如炬科技有限公司 知识图谱构建方法、装置、设备和存储介质
CN115309789A (zh) * 2022-10-11 2022-11-08 浩鲸云计算科技股份有限公司 一种基于业务对象智能动态化实时生成关联数据图的方法
CN116304115A (zh) * 2023-05-19 2023-06-23 中央军委后勤保障部信息中心 一种基于知识图谱的物资匹配替换方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763669A (zh) * 2018-05-15 2018-11-06 中国南方电网有限责任公司 一种电网潮流分层分区立体可视化展示方法
CN111768077A (zh) * 2020-05-28 2020-10-13 国网浙江省电力有限公司绍兴供电公司 一种基于知识图谱的电网跳闸事件智能识别方法
CN112632288A (zh) * 2020-12-15 2021-04-09 深圳供电局有限公司 一种基于知识图谱的电力调度系统及方法
CN112905804A (zh) * 2021-02-22 2021-06-04 国网电力科学研究院有限公司 一种电网调度知识图谱的动态更新方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763669A (zh) * 2018-05-15 2018-11-06 中国南方电网有限责任公司 一种电网潮流分层分区立体可视化展示方法
CN111768077A (zh) * 2020-05-28 2020-10-13 国网浙江省电力有限公司绍兴供电公司 一种基于知识图谱的电网跳闸事件智能识别方法
CN112632288A (zh) * 2020-12-15 2021-04-09 深圳供电局有限公司 一种基于知识图谱的电力调度系统及方法
CN112905804A (zh) * 2021-02-22 2021-06-04 国网电力科学研究院有限公司 一种电网调度知识图谱的动态更新方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168745A (zh) * 2021-11-30 2022-03-11 大连理工大学 面向环氧乙烷衍生品生产过程的知识图谱构建方法
CN114168745B (zh) * 2021-11-30 2022-08-09 大连理工大学 面向环氧乙烷衍生品生产过程的知识图谱构建方法
CN114707488A (zh) * 2022-02-25 2022-07-05 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN114707488B (zh) * 2022-02-25 2024-02-09 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN114721833A (zh) * 2022-05-17 2022-07-08 中诚华隆计算机技术有限公司 一种基于平台业务类型的智能云端协调方法和装置
CN115309915A (zh) * 2022-09-29 2022-11-08 北京如炬科技有限公司 知识图谱构建方法、装置、设备和存储介质
CN115309915B (zh) * 2022-09-29 2022-12-09 北京如炬科技有限公司 知识图谱构建方法、装置、设备和存储介质
CN115309789A (zh) * 2022-10-11 2022-11-08 浩鲸云计算科技股份有限公司 一种基于业务对象智能动态化实时生成关联数据图的方法
CN116304115A (zh) * 2023-05-19 2023-06-23 中央军委后勤保障部信息中心 一种基于知识图谱的物资匹配替换方法和装置
CN116304115B (zh) * 2023-05-19 2023-08-11 中央军委后勤保障部信息中心 一种基于知识图谱的物资匹配替换方法和装置

Similar Documents

Publication Publication Date Title
CN112612902B (zh) 一种电网主设备的知识图谱构建方法及设备
CN113434634A (zh) 知识图谱构建方法、装置
CN109597855A (zh) 基于大数据驱动的领域知识图谱构建方法及系统
Yan et al. KnowIME: a system to construct a knowledge graph for intelligent manufacturing equipment
CN109145168A (zh) 一种专家服务机器人云平台
CN104899314A (zh) 一种数据仓库的血统分析方法和装置
CN106407216A (zh) 基于语义网构建路径开发的线索追溯稽核系统及其构建方法
CN111813956A (zh) 知识图谱构建方法、装置、信息穿透方法和系统
CN111930774A (zh) 一种电力知识图谱本体自动构建方法及系统
CN107798387A (zh) 一种适用于高端装备全生命周期的知识服务系统及方法
CN110929933A (zh) 基于知识图谱的水稻病害预测与诊断方法
CN112036129A (zh) 一种配电网应急演练方案数字化辅助设计系统及方法
CN114610898A (zh) 一种供应链运营知识图谱构建方法和系统
CN115757810A (zh) 一种知识图谱标准本体构建方法
CN113204329A (zh) 统一数据模型驱动业务应用的控制方法及其应用系统
CN112613611A (zh) 一种基于知识图谱的税务知识库系统
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台系统
Tang et al. Automatic schema construction of electrical graph data platform based on multi-source relational data models
Chen et al. Spatio-temporal knowledge graph for meteorological risk analysis
CN116611813B (zh) 一种基于知识图谱的智能运维管理方法及系统
Liu et al. Generating evacuation task plans for community typhoon emergencies: an integration of case-driven and model-driven approaches
CN111784192A (zh) 一种基于动态演化的工业园区应急预案可执行化系统
Ahmed Data quality assessment in the integration process of linked open data (LOD)
CN116974799A (zh) 一种基于知识图谱的照明系统的故障诊断方法及系统
CN114862233A (zh) 智能决策方法和智能决策系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210924

RJ01 Rejection of invention patent application after publication