CN112860908A - 基于多源异构电力设备数据的知识图谱自动化构建方法 - Google Patents

基于多源异构电力设备数据的知识图谱自动化构建方法 Download PDF

Info

Publication number
CN112860908A
CN112860908A CN202110109797.9A CN202110109797A CN112860908A CN 112860908 A CN112860908 A CN 112860908A CN 202110109797 A CN202110109797 A CN 202110109797A CN 112860908 A CN112860908 A CN 112860908A
Authority
CN
China
Prior art keywords
data
entity
knowledge graph
relation
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110109797.9A
Other languages
English (en)
Inventor
赵之晗
杨政
尹春林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Yunnan Power Grid Co Ltd filed Critical Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority to CN202110109797.9A priority Critical patent/CN112860908A/zh
Publication of CN112860908A publication Critical patent/CN112860908A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本申请提出了一种基于多源异构电力设备数据的知识图谱自动化构建方法,针对结构化数据如表格数据,通过将各类型表格数据转存到Excel表格中,并定义数据的转换规则和处理规则,完成从结构化数据到知识图谱到映射,实现从数据库向知识库的自动化抽取,针对非结构化的文本数据,主要采用深度学习的方法,对电力文本和网页信息进行信息抽取,完成实体识别关系抽取的过程,实现对非结构化数据的SPO三元组抽取,最终整合的数据以RDF文件的形式存入到Neo4j中,通过Neo4j图数据库实现知识图谱的可视化展示并使用cypher查询语言进行语义化查询。

Description

基于多源异构电力设备数据的知识图谱自动化构建方法
技术领域
本申请涉及电力技术以及知识图谱技术领域,尤其涉及一种基于多源异构电力设备数据的知识图谱自动化构建方法。
背景技术
在电力领域里,我国电力系统进入了高速发展期,为了提高电网的信息化水平,2019年初,国家电网提出打造“三型两网”,将泛在电力物联网上升到与坚强智能电网相同的高度。泛在电力物联网,是指围绕电力系统各环节,充分应用移动互联、人工智能等现代信息技术以及先进通信技术,实现电力系统各环节万物互联以及人机交互,具有状态全面感知、信息高效处理和应用便捷灵活特征的智慧服务系统。在系统架构上,泛在电力物联网包含感知层、网络层、平台层和应用层四层结构。其中感知层主要负责数据的采集、网络层主要负责数据传输,平台层负责数据管理,应用层主要负责数据创造。因此,在电力系统中存在着大量的电力终端设备,而这些电力终端设备又具有大量的异构数据。
知识图谱作为一种优秀的知识表示工具,一种揭示实体之间关系的语义网络,得到了应用数学、图形学、信息可视化技术、信息科学,人工智能,图书情报等众多的学科领域的深入研究与应用。为了提高这些电力数据的查询效率,减少数据的冗余存储,实现数据的融合与集成,构建面向电力领域的知识图谱必不可少,但是目前许多构建知识图谱的工具都需要以手工操作的方式进行,一旦数据源比较庞大,会耗费较多的时间与精力,因此,构建知识图谱,减少领域专家的精力消耗,实现自动化的从数据源中获取数据信息抽取数据关系是十分重要的。
发明内容
本申请提供了一种基于多源异构电力设备数据的知识图谱自动化构建方法,以解决许多构建知识图谱的工具都需要以手工操作的方式进行,一旦数据源比较庞大,会耗费较多的时间与精力的问题。
本申请提供一种基于多源异构电力设备数据的知识图谱自动化构建方法,包括:
通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;
将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;
若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;
所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;
若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;
所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;
将实体识别后的所述非结构化数据发送给关系抽取模块;
所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;
将所述实体对以及所述关系类型组合得到三元组第二集合;
将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;
将所述构建好的三元组RDF文件存入到neo4j数据库中。
可选的,将获取得到的数据进行预处理的步骤包括:
进行数据的无效值的剔除和缺省值的补充以及进行文本中与电力终端设备的相关数据的提取。
可选的,所述基于转换规则包括:
将数据获取模块获取的结构化数据中的表格转化成知识图谱的类;其中,表格名即类名;
将表格中每行数据转换成一个实体;其中,实体名由设备名加上设备ID组成;
若表格与表格之间存在主外键关系,则将主外键关系转化成知识图谱概念层中的关系;
将表格中属性转换成知识图谱实体层的属性,表格中的属性名即知识图谱实体层的属性名;其中,数据属性的定义域是关系所对应的实体名。
可选的,所述基于处理规则包括:
若结构化数据中的任意两个表的主键相等,数据集相等,属性集不相交,或者任意两个表的主键相等,数据集不相交,属性集相等那么对知识图谱中已形成的概念进行合并;
如果若结构化数据中的任意两个表的主键相等,数据集重叠,属性集不相交,那么重叠的部分组成一个新的类;
如果若结构化数据中的任意两个表的主键相等,数据集包含,属性集包含,为这两个类添加包含关系。
可选的,对非结构化数据进行实体识别处理包括:
通过bert-wwm得到的词嵌入表示融入了更多的语法,词法以及语义信息,采用双向lstm对bert-wmm输出的词向量进行编码;
将句子中的语义关联问题视为序列问题,crf通过统计标签直接的转移概率对lstm的输出结果进行限制。
可选的,所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型步骤包括:
对非结构化数据进行关系抽取,关系抽取采用bert-wwm+attention+bi-GRU的技术架构,通过sklearn,构建测试集与训练集,使用bert-wwm进行词向量的表示;
bert-wwm输出的位置向量用于找出词汇和实体间的相对关系;
使用双向GRU神经网络来嵌入句子的语义,对句子进行编码;
在特征向量上分别构建基于字级别的注意力机制和基于句子级别的注意力机制,通过softmax分类器输出关系类型;
根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型。
可选的,还包括使用softmax分类器从句子S的离散集合类Y中预测标签y,分类器将隐藏状态hs *作为输入:
p(y|S)=softmax(W(s)hs *+b(S)),y=argmaxp(y|S),损失函数为真是类别标签y的负对然似数值:
Figure BDA0002918857640000031
式中:t是使用one-hot表示的真实值,y是使用softmax函数估计每个类别的概率,λ是正则化参数。
由以上技术方案可知,本申请提供一种基于多源异构电力设备数据的知识图谱自动化构建方法,包括:通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;将实体识别后的所述非结构化数据发送给关系抽取模块;所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;将所述实体对以及所述关系类型组合得到三元组第二集合;将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;将所述构建好的三元组RDF文件存入到neo4j数据库中。
本申请提出了一种基于多源异构电力设备数据的知识图谱自动化构建方法,针对结构化数据如表格数据,通过将各类型表格数据转存到Excel表格中,并定义数据的转换规则和处理规则,完成从结构化数据到知识图谱到映射,实现从数据库向知识库的自动化抽取,针对非结构化的文本数据,主要采用深度学习的方法,对电力文本和网页信息进行信息抽取,完成实体识别关系抽取的过程,实现对非结构化数据的SPO三元组抽取,最终整合的数据以RDF文件的形式存入到Neo4j中,通过Neo4j图数据库实现知识图谱的可视化展示并使用cypher查询语言进行语义化查询。该方法能够保持语义的一致性进行映射,自动抽取数据库语义关系并利用Neo4j的推理策略解决查询难点。
本申请提出了一种基于多源异构电力设备数据的知识图谱自动化构建方法,针对结构化数据提出了数据的映射及转换方法,针对非结构化数据则原有深度学习的框架上引入了预训练模型和多层注意力机制,提高了信息抽取的准确率,使得本申请对不同结构的电力数据都有良好的信息抽取效果,符合电力领域数据存储的现状和需求。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供基于多源异构电力设备数据的知识图谱自动化构建方法的流程示意图;
图2为本申请实施例中数据转换模块对数据的处理流程图;
图3为本申请实施例将配电终端(DTU)Excel表转换示意图;
图4为本申请实施例将馈线终端(FTU)Excel表转换示意图;
图5为本申请实施例bert预训练语言模型示意图;
图6为本申请实施例对非结构化数据进行实体识别处理示意图;
图7为本申请实施例的双向GRU的网络结构示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
在当前大数据的时代背景下,互联网用户的数量也在逐步增加,而用户数量的暴增同时意味着其相关的数据信息也大量增长,无论是独立服务器还是云服务器都存储了大量的数据。由于不同企业不同部门的信息系统在架构设计和应用时采用的标准不尽相同,所以许多存储的数据的尽管在语义上相同,但是在数据的格式和内容表示上有所不同,导致具有相关性的数据信息无法进行数据融合和重用,造成数据的重复存储,产生了大量的信息碎片,因此。实现跨系统跨平台的数据与语义的融合与重用,至关重要。
参见图1,为本申请提供基于多源异构电力设备数据的知识图谱自动化构建方法的流程示意图。
本申请提供的基于多源异构电力设备数据的知识图谱自动化构建方法包括:
步骤1,通过数据获取模块进行数据获取,主要通过爬虫技术合法获取及下载各电网公司公开发布的文档和新闻,以及电力设备生产厂家公布的电力终端设备数据表格。
步骤2,对数据进行预处理,数据预处理模块主要对获取到的数据进行预处理,针对结构化数据,主要是进行数据的无效值的剔除和缺省值的补充,针对非结构化数据则是进行文本中与电力终端设备的相关数据的提取。
步骤3,对数据进行信息抽取,数据经过预处理后仍分为结构化数据和非结构化数据。
步骤3-1,对结构化数据进行信息抽取,结构化数据进入数据转换模块,数据转换模块对数据的处理流程如图2所示,数据转换模块通过基于转换规则的信息抽取和基于处理规则的信息抽取,完成从结构化数据到知识图谱的映射。
步骤3-1-1,基于转换规则的信息抽取,定义了以下四条转换规则:
转换规则1:Excel中的表转化成知识图谱的类(Class),表格的名字即类名:c=concept(tableName);c::Class,如图3和图4所示,将配电终端(DTU)Excel表,馈线终端(FTU)Excel表,分别转换成电力终端设备知识图谱中的类,表名分别为DTU,FTU,则将DTU,FTU分别抽取为DTU类,FTU类。
转换规则2:将表中每行数据转换成一个实体,为增进可读性,实体名由设备名加上设备ID组成,如DTU表中的第一行数据,设备名为xxx路配电网柜,ID为3435678,则实体名为xxx路配电网柜3435678。
转换规则3:若表格与表格之间存在主外键关系,则将主外键关系转化成知识图谱概念层中的关系,例如表1为DTU表,表2为电力终端设备表,都存在属性设备ID,则将属性设备ID+_same作为关系名,则有DTU=Domin(设备ID_same),电力终端设备(PTD)=Range(设备ID_same)。
转换规则4:将Excel的表中属性转换成知识图谱实体层的属性,表中的属性名即知识图谱实体层的属性名,其中数据属性的定义域(Domain)是关系所对应的实体名,值域(Range)是表中的属性所对应的数据类型,如DTU表中的生产厂家这一属性,生产厂家:Property,DTU=Domain(生产厂家)String=Range(生产厂家)。
步骤3-1-2,基于处理规则的信息抽取,相应定义三条处理规则:
处理规则1:若两个表的主键相等,数据集相等,属性集不相交,或者两个表的主键相等,数据集不相交,属性集相等那么对知识图谱中已形成的概念进行合并。
处理规则2:如果两个表的主键相等,数据集重叠,属性集不相交,那么重叠的部分组成一个新的类。
处理规则3:如果两个表的主键相等,数据集包含,属性集包含,为这两个类添加包含关系。通过以上步骤完成对结构化信息的三元组抽取,即知识图谱的构建。
步骤3-2-1,对非结构化数据进行实体识别处理,实体识别主要采bert-wwm+bi-lstm+crf模型,分别如图5和图6所示,首先实现对词的分布式表示;实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对。
其中,词的分布式表示是一种纬度大小相对较低的稠密向量表示,且每一个纬度都是实数,分布式表示将所有信息分布式的表示在稠密向量的各个纬度上,其表示能力更强,且具备了不同程度上的语义表示的能力,为此本申请使用当下最热门的bert-wwm模型进行训练,通过bert-wwm得到的词嵌入表示融入了更多的语法,词法以及语义信息,采用双向lstm对bert-wmm输出的词向量进行编码,将句子中的语义关联问题视为序列问题,为了提高序列标注的准确率同时引入crf,crf通过统计标签直接的转移概率对lstm的输出结果进行限制从而提高输出的序列标注的准确率。
步骤3-2-2,将实体识别后的所述非结构化数据发送给关系抽取模块,对非结构化数据进行关系抽取,关系抽取采用bert-wwm+attention+bi-GRU的技术架构,首先通过sklearn,构建测试集与训练集,使用bert-wwm进行词向量的表示。
词向量表示的具体原理为给出一个句子S={X1,X2,...,XT},对于句子S中的每一个字,先将它转换成嵌入矩阵
Figure BDA0002918857640000061
其中V是大小固定的词汇表,dw|V|是字嵌入的大小。
矩阵W是需要学习的参数dw为用户选择的参数,通过使用矩阵向量将Xi转换成向量ei,公式为ei=WVi,式中:Vi是|V|的一维向量,在下标为ei的位置为1,其他位置为0,最终将句子转换成一个向量embs={e1,e2,...,eT}。
bert-wwm输出的位置向量用于找出词汇和实体间的相对关系。使用双向GRU神经网络来嵌入句子的语义,对句子进行编码,为了消除噪音数据带来的影响,在特征向量上分别构建基于字级别的注意力机制和基于句子级别的注意力机制,最后通过softmax分类器输出关系类型。其中双向GRU的网络结构如图7所示,网络包含左右两个序列上下文的两个子网络,分别进行前向传递和后向传递。
其输出公式如下:
Figure BDA0002918857640000071
之后通过引入注意力机制来降低神经网络的计算负担,并减轻噪音数据对关系抽取的影响,具体如下:
针对双向GRU的输出向量H所组成的矩阵{h1,h2,...,hT},其中T代表句子长度;句子S的表示由以下输出向量的加权和形成:(1)M=tanh(H);(2)α=softmax(wTM);
(3)r=HαT,式中:
Figure BDA0002918857640000072
使用tanh函数将原始向量变换到[-1,1]之间。dw是字向量的维数,w是一个训练过得参数向量,wT是他的转置,α的大小是T。获得基于字级别的注意力机制的句子表示。
hc *=tanh(r),在此基础上引入基于句子级别的注意力机制:
Figure BDA0002918857640000073
Figure BDA0002918857640000074
式中,βi为基于句子级别的注意力机制的权重向量。
bert-wwm+bi-GRU+Attention模型最后通过softmax分类器输出的是属于不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型。
步骤3-2-3,使用softmax分类器从句子S的离散集合类Y中预测标签y,分类器将隐藏状态hs *作为输入:
p(y|S)=softmax(W(s)hs *+b(S)),y=argmaxp(y|S)损失函数为真是类别标签y的负对然似数值:
Figure BDA0002918857640000075
式中:t是使用one-hot表示的真实值,y是使用softmax函数估计每个类别的概率,λ是正则化参数,通过将正则化与损失值相结合来缓解过拟合。
步骤4,将构建好的三元组RDF文件存入到neo4j数据库中。
将所述实体对以及所述关系类型组合得到三元组第二集合;
将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;
将所述构建好的三元组RDF文件存入到neo4j数据库中。
通过以上步骤完成对多源电力设备数据的三元组抽取,实现电力设备知识图谱的自动化构建。
本申请中结构化数据通过数据转换模块,根据定义的转换规则和处理规则使用Jena就可以抽出三元组,非结构化数据通过实体识别模块获得实体对,相当于SPO三元组中的S和O,而关系抽取模块获得的关系类型就是P,最后得到三元组,将两个三元组RDF文件融合成一个RDF。
在电力系统领域,大量的电力数据信息存储在关系数据库和Excel表格中,而关系数据模式在表示知识和数据之间的信息能力方面具有局限性,无法满足用户日益提高的对信息的复杂查询与快速查询的需求,为此实现基于电力数据的知识图谱的构建至关重要,目前,大多数的研究主要采用手工的方式或由领域专家参与的半自动化的方式构建关系数据到知识图谱之间的映射。
由以上技术方案可知,本申请提供一种基于多源异构电力设备数据的知识图谱自动化构建方法,包括:通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;将实体识别后的所述非结构化数据发送给关系抽取模块;所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;将所述实体对以及所述关系类型组合得到三元组第二集合;将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;将所述构建好的三元组RDF文件存入到neo4j数据库中。
本申请提出了一种基于多源异构电力设备数据的知识图谱自动化构建方法,针对结构化数据如表格数据,通过将各类型表格数据转存到Excel表格中,并定义数据的转换规则和处理规则,完成从结构化数据到知识图谱到映射,实现从数据库向知识库的自动化抽取,针对非结构化的文本数据,主要采用深度学习的方法,对电力文本和网页信息进行信息抽取,完成实体识别关系抽取的过程,实现对非结构化数据的SPO三元组抽取,最终整合的数据以RDF文件的形式存入到Neo4j中,通过Neo4j图数据库实现知识图谱的可视化展示并使用cypher查询语言进行语义化查询。该方法能够保持语义的一致性进行映射,自动抽取数据库语义关系并利用Neo4j的推理策略解决查询难点。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (7)

1.基于多源异构电力设备数据的知识图谱自动化构建方法,其特征在于,包括:
通过数据获取模块进行数据获取;所述数据包括文档、新闻以及表格;
将获取得到的数据进行预处理,得到预处理后的数据;预处理后的数据包括结构化数据和非结构化数据;
若所述预处理后的数据为结构化数据,将所述结构化数据发送给数据转换模块;
所述数据转换模块通过基于转换规则和基于处理规则进行信息抽取,从所述结构化数据得到三元组第一集合;
若所述预处理后的数据为非结构化数据,将所述非结构化数据发送给实体识别模块;
所述实体识别模块采用bert-wwm+bi-lstm+crf模型对非结构化数据进行实体识别处理,实现对词的分布式表示,得到实体对;
将实体识别后的所述非结构化数据发送给关系抽取模块;
所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型;
将所述实体对以及所述关系类型组合得到三元组第二集合;
将所述三元组第一集合和所述三元组第二集合融合得到三元组RDF文件;
将所述构建好的三元组RDF文件存入到neo4j数据库中。
2.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,将获取得到的数据进行预处理的步骤包括:
进行数据的无效值的剔除和缺省值的补充以及进行文本中与电力终端设备的相关数据的提取。
3.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,所述基于转换规则包括:
将数据获取模块获取的结构化数据中的表格转化成知识图谱的类;其中,表格的名字即类名;
将表格中每行数据转换成一个实体;其中,实体名由设备名加上设备ID组成;
若表格与表格之间存在主外键关系,则将主外键关系转化成知识图谱概念层中的关系;
将表格中属性转换成知识图谱实体层的属性,表格中的属性名即知识图谱实体层的属性名;其中,数据属性的定义域是关系所对应的实体名。
4.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,所述基于处理规则包括:
若结构化数据中的任意两个表的主键相等,数据集相等,属性集不相交,或者任意两个表的主键相等,数据集不相交,属性集相等那么对知识图谱中已形成的概念进行合并;
如果结构化数据中的任意两个表的主键相等,数据集重叠,属性集不相交,那么重叠的部分组成一个新的类;
如果结构化数据中的任意两个表的主键相等,数据集包含,属性集包含,为这两个类添加包含关系。
5.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,对非结构化数据进行实体识别处理包括:
通过bert-wwm得到的词嵌入表示融入了更多的语法,词法以及语义信息,采用双向lstm对bert-wmm输出的词向量进行编码;
将句子中的语义关联问题视为序列问题,crf通过统计标签直接的转移概率对lstm的输出结果进行限制。
6.根据权利要求1所述的知识图谱自动化构建方法,其特征在于,所述关系抽取模块构建测试集与训练集并根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型步骤包括:
对非结构化数据进行关系抽取,关系抽取采用bert-wwm+attention+bi-GRU的技术架构,通过sklearn,构建测试集与训练集,使用bert-wwm进行词向量的表示;
bert-wwm输出的位置向量用于找出词汇和实体间的相对关系;
使用双向GRU神经网络来嵌入句子的语义,对句子进行编码;
在特征向量上分别构建基于字级别的注意力机制和基于句子级别的注意力机制,通过softmax分类器输出关系类型;
根据softmax分类器输出的不同关系类别的概率值,取最大的概率值即为程序预测得到的关系类型。
7.根据权利要求6所述的知识图谱自动化构建方法,其特征在于,还包括使用softmax分类器从句子S的离散集合类Y中预测标签y,分类器将隐藏状态hs *作为输入:
p(y|S)=softmax(W(s)hs *+b(S)),y=argmaxp(y|S),损失函数为真是类别标签y的负对然似数值:
Figure FDA0002918857630000021
式中:t是使用one-hot表示的真实值,y是使用softmax函数估计每个类别的概率,λ是正则化参数。
CN202110109797.9A 2021-01-27 2021-01-27 基于多源异构电力设备数据的知识图谱自动化构建方法 Pending CN112860908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110109797.9A CN112860908A (zh) 2021-01-27 2021-01-27 基于多源异构电力设备数据的知识图谱自动化构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110109797.9A CN112860908A (zh) 2021-01-27 2021-01-27 基于多源异构电力设备数据的知识图谱自动化构建方法

Publications (1)

Publication Number Publication Date
CN112860908A true CN112860908A (zh) 2021-05-28

Family

ID=76009460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110109797.9A Pending CN112860908A (zh) 2021-01-27 2021-01-27 基于多源异构电力设备数据的知识图谱自动化构建方法

Country Status (1)

Country Link
CN (1) CN112860908A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297392A (zh) * 2021-06-02 2021-08-24 江苏数兑科技有限公司 一种基于知识图谱的智能数据服务方法
CN113312496A (zh) * 2021-05-31 2021-08-27 四川大学 一种融合知识图谱的微量润滑装置参数选择方法
CN113326697A (zh) * 2021-05-31 2021-08-31 云南电网有限责任公司电力科学研究院 一种基于知识图谱的电力文本实体语义理解方法
CN113360678A (zh) * 2021-07-08 2021-09-07 电子科技大学 一种基于Neo4j和大数据的初等数学知识图谱构建方法
CN113742496A (zh) * 2021-09-10 2021-12-03 国网江苏省电力有限公司电力科学研究院 一种基于异构资源融合的电力知识学习系统及方法
CN114661918A (zh) * 2022-03-17 2022-06-24 北京百度网讯科技有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN114741526A (zh) * 2022-03-23 2022-07-12 中国人民解放军国防科技大学 一种网络空间安全领域知识图谱云平台
CN114880455A (zh) * 2022-07-12 2022-08-09 科大讯飞股份有限公司 一种三元组抽取方法、装置、设备及存储介质
CN115080669A (zh) * 2022-05-11 2022-09-20 珠海优特电力科技股份有限公司 全防误信息点表生成方法、装置、设备及存储介质
CN115358201A (zh) * 2022-08-03 2022-11-18 浙商期货有限公司 一种期货领域的投研报告处理方法和系统
CN115510247A (zh) * 2022-10-20 2022-12-23 国家电网有限公司大数据中心 一种电碳政策知识图谱构建方法、装置、设备及存储介质
CN115757573A (zh) * 2022-11-07 2023-03-07 中电科大数据研究院有限公司 一种图谱数据的处理方法、装置以及存储介质
CN115905577A (zh) * 2023-02-08 2023-04-04 支付宝(杭州)信息技术有限公司 知识图谱的构建方法及装置、法规检索方法和装置
CN116028653A (zh) * 2023-03-29 2023-04-28 鹏城实验室 一种可视化配置多源异构数据构建图谱的方法及系统
CN116955639A (zh) * 2023-04-24 2023-10-27 浙商期货有限公司 期货产业链知识图谱构建方法、装置及计算机设备
CN117540035A (zh) * 2024-01-09 2024-02-09 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法
CN117708247A (zh) * 2023-12-12 2024-03-15 南京信息工程大学 一种清算数据逻辑关系确定方法、系统、存储介质及设备
CN117540035B (zh) * 2024-01-09 2024-05-14 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN110866121A (zh) * 2019-09-26 2020-03-06 中国电力科学研究院有限公司 一种面向电力领域知识图谱构建方法
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111767408A (zh) * 2020-05-27 2020-10-13 青岛大学 一种基于多种神经网络集成的因果事理图谱构建方法
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609052A (zh) * 2017-08-23 2018-01-19 中国科学院软件研究所 一种基于语义三角的领域知识图谱的生成方法及装置
CN110866121A (zh) * 2019-09-26 2020-03-06 中国电力科学研究院有限公司 一种面向电力领域知识图谱构建方法
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111767408A (zh) * 2020-05-27 2020-10-13 青岛大学 一种基于多种神经网络集成的因果事理图谱构建方法
CN112131882A (zh) * 2020-09-30 2020-12-25 绿盟科技集团股份有限公司 一种多源异构网络安全知识图谱构建方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
常燕: "基于本体的教育资源异构数据集成研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张兰霞等: "基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究", 《计算机应用与软件》 *
张永玲: "关系数据库到RDF(S)映射方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312496A (zh) * 2021-05-31 2021-08-27 四川大学 一种融合知识图谱的微量润滑装置参数选择方法
CN113326697A (zh) * 2021-05-31 2021-08-31 云南电网有限责任公司电力科学研究院 一种基于知识图谱的电力文本实体语义理解方法
CN113297392A (zh) * 2021-06-02 2021-08-24 江苏数兑科技有限公司 一种基于知识图谱的智能数据服务方法
CN113360678B (zh) * 2021-07-08 2022-07-15 电子科技大学 一种基于Neo4j和大数据的初等数学知识图谱构建方法
CN113360678A (zh) * 2021-07-08 2021-09-07 电子科技大学 一种基于Neo4j和大数据的初等数学知识图谱构建方法
CN113742496A (zh) * 2021-09-10 2021-12-03 国网江苏省电力有限公司电力科学研究院 一种基于异构资源融合的电力知识学习系统及方法
CN114661918A (zh) * 2022-03-17 2022-06-24 北京百度网讯科技有限公司 知识图谱构建方法、装置、存储介质及电子设备
CN114741526A (zh) * 2022-03-23 2022-07-12 中国人民解放军国防科技大学 一种网络空间安全领域知识图谱云平台
CN114741526B (zh) * 2022-03-23 2024-02-02 中国人民解放军国防科技大学 一种网络空间安全领域知识图谱云平台
CN115080669A (zh) * 2022-05-11 2022-09-20 珠海优特电力科技股份有限公司 全防误信息点表生成方法、装置、设备及存储介质
CN115080669B (zh) * 2022-05-11 2023-05-05 珠海优特电力科技股份有限公司 全防误信息点表生成方法、装置、设备及存储介质
CN114880455A (zh) * 2022-07-12 2022-08-09 科大讯飞股份有限公司 一种三元组抽取方法、装置、设备及存储介质
CN115358201A (zh) * 2022-08-03 2022-11-18 浙商期货有限公司 一种期货领域的投研报告处理方法和系统
CN115510247A (zh) * 2022-10-20 2022-12-23 国家电网有限公司大数据中心 一种电碳政策知识图谱构建方法、装置、设备及存储介质
CN115757573A (zh) * 2022-11-07 2023-03-07 中电科大数据研究院有限公司 一种图谱数据的处理方法、装置以及存储介质
CN115757573B (zh) * 2022-11-07 2023-11-14 中电科大数据研究院有限公司 一种图谱数据的处理方法、装置以及存储介质
CN115905577B (zh) * 2023-02-08 2023-06-02 支付宝(杭州)信息技术有限公司 知识图谱的构建方法及装置、法规检索方法和装置
CN115905577A (zh) * 2023-02-08 2023-04-04 支付宝(杭州)信息技术有限公司 知识图谱的构建方法及装置、法规检索方法和装置
CN116028653A (zh) * 2023-03-29 2023-04-28 鹏城实验室 一种可视化配置多源异构数据构建图谱的方法及系统
CN116028653B (zh) * 2023-03-29 2023-06-06 鹏城实验室 一种可视化配置多源异构数据构建图谱的方法及系统
CN116955639A (zh) * 2023-04-24 2023-10-27 浙商期货有限公司 期货产业链知识图谱构建方法、装置及计算机设备
CN117708247A (zh) * 2023-12-12 2024-03-15 南京信息工程大学 一种清算数据逻辑关系确定方法、系统、存储介质及设备
CN117540035A (zh) * 2024-01-09 2024-02-09 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法
CN117540035B (zh) * 2024-01-09 2024-05-14 安徽思高智能科技有限公司 一种基于实体类型信息融合的rpa知识图谱构建方法

Similar Documents

Publication Publication Date Title
CN112860908A (zh) 基于多源异构电力设备数据的知识图谱自动化构建方法
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
JP7468929B2 (ja) 地理知識取得方法
CN108009285B (zh) 基于自然语言处理的林业生态环境人机交互方法
CN104205092B (zh) 通过变换复杂三元组建立本体的方法和系统
CN111782769A (zh) 基于关系预测的知识图谱智能问答方法
CN115034224A (zh) 一种融合多种文本语义结构图表示的新闻事件检测方法和系统
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN115714001A (zh) 一种面向健康饮食的多模态知识图谱服务平台构建方法
Zhang et al. Hierarchical representation and deep learning–based method for automatically transforming textual building codes into semantic computable requirements
CN115019142A (zh) 基于融合特征的图像标题生成方法、系统、电子设备
CN114880347A (zh) 一种基于深度学习的自然语言转化为sql语句的方法
CN114117000A (zh) 应答方法、装置、设备及存储介质
CN112417170B (zh) 面向不完备知识图谱的关系链接方法
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、系统及电子设备
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN115129842A (zh) 一种用于户外变电站的智能问答方法及置于户外的机器人
CN113486180A (zh) 一种基于关系层级交互的远程监督关系抽取方法及系统
CN114116960A (zh) 一种基于联邦学习的联合抽取模型构建的方法及装置
CN113987201A (zh) 一种基于本体适配器的零样本知识图谱补全方法
Haibo et al. Construction of Knowledge Graph of Power Communication Planning based on Deep Learning
Yang et al. Applications research of machine learning algorithm in translation system
CN116402019B (zh) 一种基于多特征融合的实体关系联合抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210528

RJ01 Rejection of invention patent application after publication