CN111737496A - 一种电力设备故障知识图谱构建方法 - Google Patents
一种电力设备故障知识图谱构建方法 Download PDFInfo
- Publication number
- CN111737496A CN111737496A CN202010604650.2A CN202010604650A CN111737496A CN 111737496 A CN111737496 A CN 111737496A CN 202010604650 A CN202010604650 A CN 202010604650A CN 111737496 A CN111737496 A CN 111737496A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- knowledge
- model
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种电力设备故障知识图谱构建方法,包括:电力文本预处理;命名实体识别,对电力领域实体进行识别与抽取,通过CRF模型,在全局特征上获取局部特征,准确获取文本的最优序列标注;关系识别,通过分析句子间各成分间的依存关系来分析句子结构,通过对句子中的语法关系进行识别与定位,对句子依存关系进行分析;知识存储与可视化,通过将已识别的实体与关系进行知识聚合,构成RDF三元形式,并将知识导入图形数据库Neo4j中,进行知识储存与知识可视化。本发明的方法能够实现电力设备故障知识的提取与聚合,有助于快速、全面地构建电力设备故障知识图谱,有利于提高电力设备故障诊断的智能化水平。
Description
技术领域
本发明涉及电力设备故障技术领域,具体涉及一种基于BiLSTM-CRF的电力设备故障知识图谱构建方法。
背景技术
目前,随着电网信息化、智能化水平的不断提升,电力设备的功能较以往更加复杂,其日常的运行维护,包括故障诊断,也更加依赖于专门的电力知识。然而,尽管经历了几十年的发展,电力领域已经积累了相当规模的技术文献,其中蕴含着大量的电力知识。但是,由于缺乏有效的电力知识提取、组织、管理、展示等技术,运维人员不得不依靠自身经验去诊断电力设备故障。传统的故障诊断方式不仅效率低,准确率也难以保障。如果能够从现有技术文献中提取出与电力设备故障相关的信息,再经过加工处理,而后以一种便于检索、推理的形式呈现出来,从而帮助运维技术人员精准、快速地对电力设备故障进行诊断,从而更好地保障电网运行安全。因此,如何提取、组织、储存、展示这些知识以更好地为实现电力设备故障的智能诊断提供支持,是需要解决的问题。
知识图谱(Knowledge Graph)是2012年Google公司提出的概念,其本质是一种结构化、大规模的语义网络,能够存储并表示大规模领域信息,并从海量信息中提取出有效的领域知识,形成领域知识库。目前知识图谱已被广泛应用于医药、影视等专业领域,通过知识聚合及可视化,为领域知识分析提供数据支撑。将知识图谱技术应用于电力领域,将有望从已有电力技术文献中提取知识并建立知识库,辅助运维人员开展电力设备故障诊断,最终大幅提高其工作效率,保障电网安全。尽管如此,由于电力领域知识的零散性与保密性,使得电力领域实体及关系存在歧义严重,指代不明等特点,导致现有方法对实体/关系的识别准确率低,严重影响了知识图谱技术在电力领域的广泛应用。
现有技术中,构建电力设备故障知识图谱仍然面临以下困难:电力领域知识大多由运维日志、检修报告、学术论文等非结构化文本中提取,同时电力行业知识图谱又有知识集中、权威性高的特殊需求,故而在识图谱构建前需要大量的数据清洗与人工标注工作;其次,记录电力设备故障的技术文献之间往往存在命名冲突、指代不明等现象;同时,实体间关系也会因故障场景的变化而有所差异。这就导致现有方法对实体/关系的识别准确率低。
发明内容
本发明的主要目的在于提供一种电力设备故障知识图谱构建方法。
本发明采用的技术方案是:一种电力设备故障知识图谱构建方法,包括:
电力文本预处理,对非结构化的电力文本数据进行文本预处理以及文
本表示;文本预处理包括文本分词、词性标注与去停用词;
命名实体识别,采用BiLSTM-CRF模型对电力领域实体进行识别与抽
取,通过CRF模型,在全局特征基础上获取局部特征,准确获取文本的最优序列标注;
关系识别,通过分析句子间各成分间的依存关系来分析句子结构,通
过对句子中的语法关系进行识别与定位,对句子依存关系进行分析;
知识存储与可视化,通过将已识别的实体与关系进行知识聚合,构成RDF三元形式,并将知识导入图形数据库Neo4j中,进行知识储存与知识可视化。
进一步地,所述电力文本预处理包括:
构建基于HMM-CRF的分词模型;
基于CBOW模型的文本表示,选取基于分布式表达思想的词向量表示模型Word2vec对故障文本的词进行词向量表示,利用连续词袋模型CBOW建立神经网络模型,对已分词的电力文本进行向量化表示,用于实现词到向量的映射;
电力领域本体词典的构建,将电力词汇分别按照同义、近义、反义、上下位、整体-部分等本体关系进行组织,并存储在数据库中以供查询、调用。
更进一步地,所述构建基于HMM-CRF的分词模型包括:
采用基于通用词典的HMM模型对电力设备故障文本进行初始分词,对分词结果按词频、词性以及相关特征词进行排序,对高频专业词语进行勘误,进而提取出高频词典;
将第一次分词中的高频词典作为外部词典导入,同时以第一次分词初步分好的文本作为训练语料,采用基于CRF的分词模型进行分词,获得高精确度的分词结果;
对分词结果进行修正。
更进一步地,所述基于CBOW模型的文本表示还包括:
通过对电力文本进行词向量训练,得到语料中所有词对应的词向量,作为后续命名实体识别BiLSTM-CRF模型的输入;通过词向量之间的余弦相似度计算,获取相似度高的词串,获取同、近义词。
更进一步地,所述电力领域本体词典的构建还包括:
对语料库进行分词后,基于词频对分词结果进行排序,提取高频词汇,利用Word2vec实现词向量表示,根据相似度计算及人工筛选后得到同义词,对本体词典进行补充;最后对专业术语、通俗用语、名词堆砌的词串和短语词汇等进行修正,并按照同义词集、整体-部分关系、实体-属性关系等构建本体字典。
更进一步地,所述关系识别还包括:
在命名实体识别过程中,若句子中包含两个及两个以上的实体/属性,通过依存句法分析,根据句法特征,分析实体间可能存在的关系。
本发明的优点:
本发明的基于BiLSTM-CRF模型的电力设备故障知识图谱的构建方法:在BiLSTM的基础上,通过CRF模块,约束与收敛标注序列,解决局部标注偏置的问题,计算整个标注序列的联合概率,充分学习训练集中标签的相邻信息。相较于传统BiLSTM模型,该模型对于电力领域实体识别的准确率有明显的提升。同时,利用句法分析技术提取句法特征,通过关键词间依存路径提取实体间语义关系,利用图形数据库Neo4j以三元组的形式对电力设备故障知识进行储存与可视化。该方法能够实现电力设备故障知识的提取与聚合,有助于快速、全面地构建电力设备故障知识图谱,有利于提高电力设备故障诊断的智能化水平。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1 是本发明实施例的电力设备故障知识图谱构建流程图;
图2是本发明实施例的BiLSTM-CRF模型示意图;
图3是本发明实施例的基于HMM-CRF分词示意图;
图4是本发明实施例的CBOW模型示意图;
图5是本发明实施例的BiLSTM识别序列示意图;
图6是本发明实施例的BiLSTM-CRF识别序列示意图;
图7是本发明实施例的不同维度准确率对比图;
图8是本发明实施例的BiLSTM与BiLSTM-CRF识别效率对比图;
图9是本发明实施例的随着迭代次数的增加BiLSTM-CRF/BiLSTM准确率曲线对比图;
图10是本发明实施例的依存句法分析关系图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明针对电力设备故障知识图谱构建过程中存在的实体识别准确率低、语义关系提取困难等问题,提出基于双向长短期神经网络与条件随机场 (Bi-directional Long-Short Term Memory-Conditional Random Field,BiLSTM-CRF) 模型的电力设备故障知识图谱的构建方法。
参考图1,如图1所示,一种电力设备故障知识图谱构建方法,包括:
电力文本预处理,对非结构化的电力文本数据进行文本预处理以及文
本表示;文本预处理包括文本分词、词性标注与去停用词;
命名实体识别,采用BiLSTM-CRF模型对电力领域实体进行识别与抽
取,通过CRF模型,在全局特征基础上获取局部特征,准确获取文本的最优序列标注;
关系识别,通过分析句子间各成分间的依存关系来分析句子结构,通
过对句子中的语法关系进行识别与定位,对句子依存关系进行分析;
知识存储与可视化,通过将已识别的实体与关系进行知识聚合,构成RDF三元形式,并将知识导入图形数据库Neo4j中,进行知识储存与知识可视化。
本发明的基于BiLSTM-CRF模型的电力设备故障知识图谱的构建方法:在BiLSTM的基础上,通过CRF模块,约束与收敛标注序列,解决局部标注偏置的问题,计算整个标注序列的联合概率,充分学习训练集中标签的相邻信息。相较于传统BiLSTM模型,该模型对于电力领域实体识别的准确率有明显的提升。同时,利用句法分析技术提取句法特征,通过关键词间依存路径提取实体间语义关系,利用图形数据库Neo4j以三元组的形式对电力设备故障知识进行储存与可视化。该方法能够实现电力设备故障知识的提取与聚合,有助于快速、全面地构建电力设备故障知识图谱,有利于提高电力设备故障诊断的智能化水平。
电力设备故障知识图谱构建流程:
知识图谱构建主要有自顶向下和自底向上2种方式:自顶向下构建是指先为知识图谱定义概念及关系模式,再将实体按照预定义的模式加入知识库;自底向上构建是指从一些开放链接数据中提取出实体,选择置信度较高的加入知识库,将具有相似属性的实体进行抽象归纳,形成相应的概念,再逐层向上汇集,最终构建顶层概念本体模式。
本发明采用自底向上的方法构建电力设备故障知识图谱,从电力技术文献中识别与抽取实体、属性、关系等知识概念,在本体的基础上定义实体间的关系模式,更加形象地表现领域知识;再通过实体对齐,数据整合等流程对领域知识进行融合、加工,不断将获取的知识存入知识库中,形成电力领域知识图谱,流程如图1所示,包括:
1)数据来源:电力设备故障图谱构建的数据主要来源于电力系统运行、生产时所积累的运维日志、学术论文和操作报告等非结构化电力技术文献;
2)知识抽取:首先对所获取的电力技术文献进行数据预处理,包括文本预处理、文本表示、构建本体词典等,以提高后续实体识别准确率;然后,利用基于BiLSTM-CRF模型的实体识别方法对预处理后的电力文本进行实提取,并通过依存句法分析识别文本中的语义关系,对电力文本实体间关系进行抽取;利用句法分析技术对文本数据进行句法特征提取,以本体概念为基础,通过关键词间依存路径对实体间语义关系进行识别与提取;
3)知识融合:通过语义相似度计算对实体、关系的缩略语、指代词进行筛选与消歧,将电力文本中所提取的知识与已有知识进行对比评估,完成实体对齐、关系整合;以语义框架的概念对所提取的实体、关系进行三元组表示;
4)知识图谱构建:将非结构化数据中的三元组知识进行整合,将三元组关系导入至图形数据库Neo4j中,并通过Cypher语言实现对领域知识的储存、可视化,构建电力设备故障知识图谱,利用图形数据库实现对电力设备故障知识检索、查询、匹配等功能。
电力文本预处理:
对非结构化的电力文本数据进行文本预处理以及文本表示。文本预处理通常包括文本分词、词性标注与去停用词等;通过构建电力领域本体字典并进行BIO标注,以提高后续实体识别准确率,挖掘更深层次的知识,更全面地构建知识图谱。
基于HMM-CRF的分词模型:
由于电力领域词汇在大量的同义词指代问题,且存在歧义严重等问题,故而为了提升分词准确,本发明提出了HMM-CRF分词技术,如图3所示。
首先,采用基于通用词典的HMM模型对电力设备故障文本进行初始分词,对分词结果按词频、词性以及相关特征词进行排序,对高频专业词语进行勘误,进而提取出高频词典;然后,将第一次分词中的高频词典作为外部词典导入,同时以第一次分词初步分好的文本作为训练语料,采用基于CRF的分词模型进行分词,获得高精确度的分词结果。最后在国家电网规范基础,对结果进行一定的修正。该分词技术同时可完成词性标注,去停用词等任务。
基于CBOW模型的文本表示:
文本表示方法是指将文本数据表示成计算机可处理的形式,表示方式将直接影响后续数据挖掘的效率和效果。为了克服维数灾问题,并且在词表示的同时考虑词序、同近义词、词的共现频率等特征,本发明选取了基于分布式表达思想的词向量表示模型Word2vec对故障文本的词进行词向量表示,利用连续词袋模型(Continuous Bag-of-Word Model, CBOW)建立神经网络模型,对已分词的电力文本进行向量化表示,实现词到向量的映射。通过对电力文本进行词向量训练,得到语料中所有词对应的词向量,作为后续命名实体识别BiLSTM-CRF模型的输入;通过词向量之间的余弦相似度计算,获取相似度高的词串,获取同、近义词。
电力领域本体词典的构建:
电力本体字典的构建是指将电力词汇分别按照同义、近义、反义、上下位、整体-部分等本体关系进行组织,并存储在数据库中以供查询、调用。本体字典有助于提高后续实体、关系识别的准确率,挖掘更深层次的知识,绘制知识图谱。
在对语料库进行分词后,基于词频对分词结果进行排序,提取高频词汇,利用Word2vec实现词向量表示,根据相似度计算及人工筛选后得到同义词,对本体词典进行补充;最后对专业术语、通俗用语、名词堆砌的词串和短语词汇等进行修正,并按照同义词集、整体-部分关系、实体-属性关系等构建本体字典。
基于BiLSTM-CRF模型的命名实体识别:
实体识别是领域知识结构化的基础,也是领域知识图谱构建的首要步骤在对已定义好的本体概念属性基础上进行实体识别,即为命名实体识别(Named Entity Recognition,NER)。常见的实体抽取方法包括基于统计学习的方法、基于深度学习的方法、基于词典的方法。其中基于统计学习的方需要对领域知识语料进行统计分析,选择实体词性、语义等特征,通过训练实体识别模型,对实体进行抽取;对于基于词典的方法对于已归纳的词典中的实体识别率高,但对于词典中不包含的实体识别率较低。而对于传统基于LSTM的实体识别方法,在提取特征时过于重视全局特征,而忽视了标注序列对模型效率的影响。因此本发明采用BiLSTM-CRF模型对电力领域实体进行识别与抽取,通过CRF模型,在全局特征上获取局部特征,准确获取文本的最优序列标注。
BiLSTM-CRF实体识别模型分为三层,如图4所示。第一层是词嵌入模型,作用是将文本转换为词向量,将词向量输入到第二层;第二层是BiLSTM模型,作用是以词向量为输入,自动提取文本特征,将文本特征作为CRF线性层的输入;第三层是CRF模型,作用是对BiLSTM提取出来的文本特征进行序列标注,并从句子的整体层面考虑,达到全局最优序列。
词嵌入是一项非常重要且应用广泛的技术,可以将文本和词语转换为计算机可以识别的数值向量。本发明采用的Word2vec词向量表示技术,通过BCOW模型对数据样本进行训练,将高维、离散的one-hot向量转换为低维向量,将词语从文本转换为词向量,如图3所示。CBOW模型的输入层是指定窗格个数的上下文词one-hot编码的词向量,隐藏层向量是这些词向量、连接输入和隐含单元之间的权重矩阵加权求和得到的,输出层向量通过隐含层向量、连接隐含层与输出层之间的权重矩阵加权求和得到。
其中,输入层中上下文one-hot编码的词向量Xi的维数N与整个词库大小相关,上下文指定窗格个数为C,权重矩阵维度分别为维度分别为WV*N与WN*V,隐含层向量为输入层矩阵加权求和后的平均H1*N,输出层将得到的隐含层向量与权重矩阵w’加权求和,并且用Softmax分类器处理,得到维数为V的向量,此向量的每一维代表词库中的一个单词。概率中最大的index所代表的单词为预测出的中间词。
模型的第2层是双向LSTM层,用于自动提取句子特征。长短期记忆网络是循环神经网络(RNN)的一种特殊形式,解决了传统循环神经网络随着序列长度的增加而产生的梯度爆炸或梯度消失问题。通过将语料中各个句子的每个字序列作为LSTM各个时间步的输入,再将正向LSTM输出的隐藏状态序列与反向LSTM在各个位置输出的隐藏状态,按照句子序列进行拼接,得到完整的隐藏状态序列。例如:前向LSTM神经网络中输入“变压器,发生,接地”得到的向量为(L0,L1,L2),将文本上文信息考虑其中,反向LSTM神经网络中输入“接地,发生,变压器”得到的向量为(R0,R1,R2),将文本的下文信息考虑其中;通过序列拼接得到向量(L0,R0)(L1,R1)(L2,R2),即(h0,h1,h2),前向与反向LSTM神经网络相结合,综合考虑了文本的上下文信息。
其中,xt表示t时刻的输入,it、ft、Ot分别代表LSTM单元的3个门控单元:输入门、遗忘门和输出门,Ct表示t时刻的状态,ht表示t时刻的输出。σ表示激活函数Sigmoid,*表示元素之间的乘积,tanh表示双曲正切激活函数。Wi、Wf、Wo、WC表示隐藏状态向量h t 和输入向量x t 的权重矩阵,b i 、b f 、b o 、b c 表示偏移向量,即权重。
BiLSTM模型通过双向序列学习到上下文信息后,输出状态信息序列,若将BiLSTM的输出序列导入Softmax层,分类器会挑选出概率值最大作为该序列的标签输出。而由于Softmax分类器输出的相互独立性,将会导致了输出序列直接的无关性,没有将文本的局部特征考虑其中,输出标签序列的顺序性。如图5所示,可能将会导致I-EQ后再接一个B-EQ,或者在I-FAU后接上B-EQ的问题,从而导致所训练模型准确率降低,影响命名实体识别的效率。故而我们需要对文本的局部特征进行考虑,因此引进了条件随机场(CRF)。条件随机场是一种用无向图表示的联合概率分布的图模型,通过计算整体序列的概率分布,将局部特征归一化为全局特征,以解决局部标注偏置的问题,从而得到全局最优解。CRF层能够在训练数据进行训练时,获取到标签的隐藏约束规则。有了这些约束规则的存在,识别实体正确率将会大幅提升。如图6所示。
1)所识别实体词的标签应是以“B”为开头,而不是“I”。例如:若识别出“M I-EQ,NI-EQ”,就是违反约束规则,应为“M B-EQ,N I-EQ”;
2)所识别的任一实体词标签应为:“B-label1 I-label1 I-label1 ”,所识别标签应该属于同一类实体,而不能是非同类实体。例如,“B-EQ I-EQ”是合法的序列,但是“B-EQ I-FAU”是非法标签序列;
3)在一段文本序列中,一定是以标签“B”“O”作为序列标注的开始。
X表示输入信息的序列X={x1,x2,…,xn},y表示输入信息的标注序列y={y1,y2,…,yn},Ρ作为双向循环神经网络层的输出矩阵,其中Pij表示字xi分类到第j个标签的打分值,Aij表示的是从第i个标签到第j个标签的转移得分。在BiLSTM-CRF算法中对X的预测得分为:
模型在预测过程中利用Viterbi算法求解最优路径:
关系识别:
关系是知识图谱中的核心要素,是对领域知识中多对实体间相互作用的描述,对实体间联系的界定。关系直接决定了知识图谱的知识丰富程度。通过对电力技术文献进行关系识别与抽取是为了从文本中识别并获取已识别的实体/属性间存在的语义关系。由于在电力领域没有固定的结构化关系规范,因此本发明采用依存句法分析来识别抽取实体间的关系。
依存句法分析是通过分析句子间各成分间的依存关系来分析句子结构,通过对句子中“主谓宾,定状补”进行识别与定位,对句子依存关系进行分析。在命名实体识别过程中,若句子中包含两个及两个以上的实体/属性,通过依存句法分析,根据句法特征,分析实体间可能存在的某些关系。由于电力技术文献中缩略语及指代词的不规范化使用也导致了对电力技术文献中实体识别率较难提升。例如“气体绝缘组合电器设备、组合电器、GIS绝缘设备、SF6绝缘设备,六氟化硫绝缘电器”均为“GIS设备”的指代词,而由于缺乏规范化,在不同文献中都有被使用过,导致对于“GIS设备”的这一实体的识别率难以提升。如“电流互感器”简称为“CT”,而“CT”又是医疗领域扫描仪的简称,在不同领域有着不同的指代意义,又为实体识别增加了困难。由于本发明只对设备实体、故障实体及机构实体三类实体进行了标注,对电力文本标注类型较少,导致了CRF模型对于特征提取的效果无法全面的体现出来;由于电力文本实体关系特征类型较少,故而依靠句法分析,无法完整、准确地识别提取电力实体之间关系。
依存句法分析关系组合包括15种类型,本发明选取ATT、ADV、SBV、VOB四种依存关系类型对电力领域实体关系进行识别与提取。通过依存句法分析提取文本中的语义关系,采用语义框架的概念,将所抽取“主谓”“动宾”等关系 将动词概念化为关系,形成语义三元组;同时针对“定中关系”“状补”关系,在本体的基础上,对电力设备关系进行树形结构划分,分为上下位、连接、影响、程度等关系。
知识存储与可视化:
通过将已识别的实体与关系进行知识聚合,构成RDF三元形式:<实体,关系,实体>,<实体,属性,属性值>,并将知识导入图形数据库Neo4j中,进行知识储存与知识可视化。
Neo4j是一个稳定且成熟的,具有较高性能、具有高可用性、可扩展性的图形数据库。通过Neo4j的遍历可以对知识数据执行高效迅速地检索。Neo4j的查询语言是一种可以对图形数据库进行查询和更新的图形查询语言Cypher语言,它类似于关系数据库的SQL语言。采用Cypher可以很容易地找到任何两个人之间是通过哪些人联系起来的,而这一点SQL很难实现。
实验及分析:
实验目的:
为验证本发明方法利用现有技术文献构建电力设备故障知识图谱的可行性,以及本发明提出的BiLSTM-CRF模型对电力技术文献中实体识别的准确性。
实验数据:
选取2003-2019年间收录在CNKI中的主题为“GIS设备故障”的1200篇文献为候选研究对象,而后从中随机抽取450篇,并将其以8:2的比例切分为训练集、测试集。通过基于Python的YEDDA工具对两个数据集中电力文本进行BIO标注。标注序列如表2所示。EQ表示设备实体名,FAU表示故障实体名,ORG代表了电力系统中机构名、B表示实体头部、I表示实体中间及尾部、0表示非实体。
表2.BIO标注示例
实验参数:
BiLSTM-CRF模型实现采用服务器运行环境为Win64位;Python3.5.6版本;深度学习框架tensorflow1.12;采用基于HMM-CRF分词模型对故障文本进行分词;词向量训练阶段使用Word2vec工具;采用基于python的YEDDA标注平台对故障文本进行BIO标注;采用基于BiLSTM-CRF模型进行故障文本命名实体;采用基于pyltp的依存句法分析对故障文本进行关系识别;图形数据库选取Neo4jDesktop1.21版本进行知识储存,利用Neo4jBrowser4.0.1版本进行知识可视化,实现对GIS设备故障知识进行聚合,完成知识图谱的构建。
为了确定适合的模型参数,提高BiLSTM-CRF模型的实体识别准确率,本发明通过对模型中迭代次数epoch值及词向量维度进行对比实验:在epoch值为40、60和80情况下,分别进行不同词向量维度的模型识别对比实验,结果如图7所示。
由图7可知, 3组epoch值不同的模型在不同词向量维度的实验中在一定范围内,准确率随着向量维度的增加呈上升趋势。在维度为300dim时识别准确率最高;而在维度为400时准确率相比维度300下降,表明并不是向量维度越高模型效果越好,需要根据具体任务要求进行实验,。因此在后续的对比试验中我们将选择epoch=60,向量维度为300dim作为超参数,以获取更高的识别准确率。
其中BiLSTM-CRF模型参数训练模型选择CBOW,词向量的维度设为300维,上下文窗口大小为5,采样的阈值5,dropout rate定为0.5;learning rate为0.001。在模型参数的训练过程中选择Adam算法为优化器。
实验设计:
1)文本预处理
利用PDFsolid工具除去原始pdf文件中包含的图片、标识、链接等无关内容并将其转化为txt文本;借助包含语气词和助词的停用词表去除txt文本中的停用词;利用基于Python的HMM-CRF模型对txt文本分词,再对分词结果按词频,词性及相关特征词进行排序,获取高频词汇。通过人工对高频词汇进行筛选,对本体词典进行补充,构建领域词典;,以提高分词的准确性,同时为后续电力领域实体识别提供标注参考。使用Word2vec工具对故障文本进行词向量训练,得到语料中所有词对应词向量,作为后续命名实体识别BiLSTM-CRF模型的输入;通过词向量间的余弦相似度计算,获取相似度高的词串,获取同近义词。
通过基于Python的YEDDA工具对电力文本进行BIO标注。B、I、O分别代表实体的开头字符、中间或结尾的字符和其他非实体字符。通过对三个样本集中的数据作标记,EQ表示设备实体名,FAU表示故障实体名,ORG代表了电力系统中机构名。通过BiLSTM-CRF模型对所作标记词进行特征提取,进而完成命名实体识别模型的训练。
命名实体识别
在实验数据进行文本预处理后,通过分词、标注等将文本整理为已构建模型适用的格式,导入BiLSTM-CRF模型,进行命名实体识别训练与验证。
为保证模型的准确性,本发明采取五折交叉验证法,随机将所标注数据划分为5份,如表3所示。依次选取其中一份作为验证集,其他四份作为训练集,最后以不同训练集、测试集下所训练模型的评估指标的平均值作为模型的评估指标。
为验证BiLSTM-CRF对GIS设备故障文本中实体识别的准确率,本发明设置了以下2组对比实验:
实验1:采用无监督的训练方式获得GIS设备领域文本的词向量表示,采用获得的词向量训练双向LSTM递归神经网络模型,后接Soft max分类器,从而输出BiLSTM中各个label的概率。最后在测试集语料上,利用得到的双向LSTM递归神经网络模型进行GIS设备命名实体识别,实体识别的结果记为BiLSTM。
实验2:采用无监督的训练方式获得GIS设备领域文本的词向量表示,采用获得的词向量训练双向LSTM递归神经网络模型,最后接入CRF模块,用来处理BiLSTM的输出,得到全局最优的标记序列。最后在测试集语料上,利用添加了CRF模块的双向递归神经网络模型进行GIS设备命名实体识别,实体识别结果记为BiLSTM-CRF。
实验采用常用的评价指标:准确率、召回率和F1值,对BiLSTM-CRF/BiLSTM两种模型对GIS设备故障文本中实体识别效率进行评价:
表3.五折法交叉训练
表4.五次交叉验证BiLSTM模型识别效率表
表5.五次交叉验证BiLSTM-CR模型识别效率表
通过五折交叉验证取均值得到BiLSTM模型与BiLSTM-CRF模型准确率,召回率及F值如图8、图9所示。
对于设备实体以及故障实体名的准确率与召回率,BiLSTM-CRF模型的识别效果明显高于BiLSTM,其中差异最为显著的当属故障实体识别的准确率,这切实反映了CRF层对数据处理的有效性和实际操作效率。CRF模型实现了对标签预测值的约束,降低了不规范识别率,从而提高了实体识别准确率。有了CRF层的强力约束,能够更好地依据逻辑关联实现更高的准确度。两种模型得到的整体实验结果如图所示,三种评测指标的差异更为明显,进一步验证了基于BiLSTM-CRF的电力领域实体识别方法的可行性。
对比分析前20轮的参数更新情况,在训练初期,BiLSTM-CRF模型相较于BiLSTM,能够更快地达到一个较高的水平;而在整个迭代参数训练过程中,BiLSTM-CRF模型在准确率识别效率上能够保持持续稳定的提升,最后使得模型更快地达到收敛。这反映了CRF模型对于模型的收敛程序具有明显的提升,CRF模型通过对BiLSTM输出的每个字符标签序列进行,对比输入序列,从而进行损失计算,以保证模型更好的收敛。
BiLSTM-CRF模型的准确率为74.09%、召回率为78.93%、F值为76.43%、F值比BiLSTM模型高出10.4%。可见,双向LSTM由于能够更好地利用上下文信息,其次,增加CRF层后,BiLSTM的准确率、召回率、F值分别提高了10.45%、12.86%和10.4%由于CRF模块能够通过联合概率的计算,更加充分地利用标签的相邻信息。
3)实体关系识别
实验基于Python的pyltp模块开发了依存句法分析器,利用pyltp对电力文本进行依存句法分析,如图10所示。对四种具有明显特征关系的句法结构进行提取:SBV、VOB、ADV、ATT(主谓关系、动宾关系、状中关系、定中关系)共提取依存关系4类,如表6所示。通过对所提取实体关系进行筛选与清洗,去掉大量重复部分,通过去重合并后共获取724条实体关系。
表6. 实体关系示例表
(4)电力设备故障知识图谱的构建
通过对GIS设备故障文献中实体与关系的识别与提取,筛选与清洗无关的实体关系三元组,利用Cypher语言将三元组知识导入Neo4j数据库中,进行知识储存, 通过Cypher语言对Neo4j数据库进行操作,分别用标签、节点、边、代表概念、实体、关系。图形数据库选取Neo4j进行知识储存,利用Neo4j进行知识可视化,完成GIS设备故障知识图谱的构建。
结论:
本发明提出了电力设备故障知识图谱的构建,以电力设备技术文献为实验数据本发明,通过文本预处理,序列标注等工作,完成了对电力设备故障知识图谱构建的前期准备,利用BiLSTM-CRF实体识别模型对电力文本中的设备实体、故障实体、机构实体进行识别与提取。该模型通过CBOW模型对电力技术文献进行词向量训练,作为模型训练的输入数据,通过双向神经网络对文本上下文进行学习与特征提取,同时利用CRF模型对全体局部特征进行归一化,化局部为全局,对文本序列进行约束。
经过对比实验,证明了相较于传统基于BiLSTM模型的方法,本发明方法对电力设备实体识别的准确率、召回率、F值分别提高了10.45%、12.86%和10.4%。同时证明了CRF模型对于序列标注具有较强的识别与约束能力,同时能够使得实体识别模型一定程度上收敛。并以三元组的形式完成知识表达与储存,构建电力设备故障知识图谱,实现了对电力领域的知识有效积累与聚合。为后续电力设备故障诊断,应答检索提供有效知识指导。
若能通过知识推理技术挖掘发现多种实体间隐含关系。利用知识图谱进行知识推理,一方面对已有实体/关系进行表示,另一方面通过知识推理发现未知实体关系。如得到导致某种设备可能会出现的某种故障。在整合电力领域知识的基础上,发现未知的故障及故障原因从而辅助运维人员开展电力设备故障诊断,最终大幅提高故障诊断准确率及工作效率,也是后续研究的重点方向。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种电力设备故障知识图谱构建方法,其特征在于,包括:
电力文本预处理,对非结构化的电力文本数据进行文本预处理以及文本表示;文本预处理包括文本分词、词性标注与去停用词;
命名实体识别,采用BiLSTM-CRF模型对电力领域实体进行识别与抽取,通过CRF模型,在全局特征基础上获取局部特征,准确获取文本的最优序列标注;
关系识别,通过分析句子间各成分间的依存关系来分析句子结构,通过对句子中的语法关系进行识别与定位,对句子依存关系进行分析;
知识存储与可视化,通过将已识别的实体与关系进行知识聚合,构成RDF三元形式,并将知识导入图形数据库Neo4j中,进行知识储存与知识可视化。
2.根据权利要求1所述的电力设备故障知识图谱构建方法,其特征在于,所述电力文本预处理包括:
构建基于HMM-CRF的分词模型;
基于CBOW模型的文本表示,选取基于分布式表达思想的词向量表示模型Word2vec对故障文本的词进行词向量表示,利用连续词袋模型(CBOW)建立神经网络模型,对已分词的电力文本进行向量化表示,用于实现词到向量的映射;
电力领域本体词典的构建,将电力词汇分别按照同义、近义、反义、上下位、整体-部分等本体关系进行组织,并存储在数据库中以供查询、调用。
3.根据权利要求2所述的电力设备故障知识图谱构建方法,其特征在
于,所述构建基于HMM-CRF的分词模型包括:
采用基于通用词典的HMM模型对电力设备故障文本进行初始分词,对分词结果按词频、词性以及相关特征词进行排序,对高频专业词语进行勘误,进而提取出高频词典;
将第一次分词中的高频词典作为外部词典导入,同时以第一次分词初步分好的文本作为训练语料,采用基于CRF的分词模型进行分词,获得高精确度的分词结果;
对分词结果进行修正。
4.根据权利要求2所述的电力设备故障知识图谱构建方法,其特征在于,所述基于CBOW模型的文本表示还包括:
通过对电力文本进行词向量训练,得到语料中所有词对应的词向量,作为后续命名实体识别BiLSTM-CRF模型的输入;通过词向量之间的余弦相似度计算,获取相似度高的词串,获取同、近义词。
5.根据权利要求2所述的电力设备故障知识图谱构建方法,其特征在于,所述电力领域本体词典的构建还包括:
对语料库进行分词后,基于词频对分词结果进行排序,提取高频词汇,利用Word2vec实现词向量表示,根据相似度计算及人工筛选后得到同义词,对本体词典进行补充;最后对专业术语、通俗用语、名词堆砌的词串和短语词汇等进行修正,并按照同义词集、整体-部分关系、实体-属性关系等构建本体字典。
6.根据权利要求1所述的电力设备故障知识图谱构建方法,其特征在于,所述关系识别还包括:
在命名实体识别过程中,若句子中包含两个及两个以上的实体/属性,通过依存句法分析,根据句法特征,分析实体间可能存在的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010604650.2A CN111737496A (zh) | 2020-06-29 | 2020-06-29 | 一种电力设备故障知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010604650.2A CN111737496A (zh) | 2020-06-29 | 2020-06-29 | 一种电力设备故障知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737496A true CN111737496A (zh) | 2020-10-02 |
Family
ID=72651709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010604650.2A Pending CN111737496A (zh) | 2020-06-29 | 2020-06-29 | 一种电力设备故障知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737496A (zh) |
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308230A (zh) * | 2020-10-30 | 2021-02-02 | 云南电网有限责任公司电力科学研究院 | 一种资产管理全生命周期知识库的构建及应用方法 |
CN112307218A (zh) * | 2020-10-21 | 2021-02-02 | 浙江大学 | 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法 |
CN112347271A (zh) * | 2020-12-04 | 2021-02-09 | 国网天津市电力公司电力科学研究院 | 基于文字语义识别的配电物联网设备缺陷辅助录入方法 |
CN112434024A (zh) * | 2020-10-23 | 2021-03-02 | 杭州未名信科科技有限公司 | 面向关系型数据库的数据字典生成方法、装置、设备及介质 |
CN112445801A (zh) * | 2020-11-27 | 2021-03-05 | 杭州海康威视数字技术股份有限公司 | 数据表的元信息管理方法、装置及存储介质 |
CN112559765A (zh) * | 2020-12-11 | 2021-03-26 | 中电科大数据研究院有限公司 | 一种多源异构数据库语义集成方法 |
CN112579789A (zh) * | 2020-12-04 | 2021-03-30 | 珠海格力电器股份有限公司 | 一种设备故障诊断的方法和装置及设备 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN112613314A (zh) * | 2020-12-29 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 基于bert模型的电力通信网络知识图谱构建方法 |
CN112650836A (zh) * | 2020-12-28 | 2021-04-13 | 成都网安科技发展有限公司 | 基于句法结构元素语义的文本分析方法、装置及计算终端 |
CN112765314A (zh) * | 2020-12-31 | 2021-05-07 | 广东电网有限责任公司 | 一种基于电力本体知识库的电力信息检索方法 |
CN112800244A (zh) * | 2021-02-06 | 2021-05-14 | 成都中医药大学 | 一种中医药及民族医药知识图谱的构建方法 |
CN112800755A (zh) * | 2021-02-05 | 2021-05-14 | 北京明略软件系统有限公司 | 一种数据治理方法及系统 |
CN112948596A (zh) * | 2021-04-01 | 2021-06-11 | 泰豪软件股份有限公司 | 知识图谱构建方法、装置、计算机设备及计算机存储介质 |
CN113011183A (zh) * | 2021-03-23 | 2021-06-22 | 北京科东电力控制系统有限责任公司 | 一种电力调控领域非结构化文本数据处理方法及系统 |
CN113032577A (zh) * | 2021-03-21 | 2021-06-25 | 国网河南省电力公司电力科学研究院 | 一种电力系统知识图谱的构建、缺陷目标识别方法及系统 |
CN113094512A (zh) * | 2021-04-08 | 2021-07-09 | 达而观信息科技(上海)有限公司 | 一种工业生产制造中故障分析系统及方法 |
CN113157860A (zh) * | 2021-04-07 | 2021-07-23 | 国网山东省电力公司信息通信公司 | 一种基于小规模数据的电力设备检修知识图谱构建方法 |
CN113191074A (zh) * | 2021-04-13 | 2021-07-30 | 北京中大科慧科技发展有限公司 | 一种用于数据中心的机房供电参数检测方法 |
CN113240443A (zh) * | 2021-05-28 | 2021-08-10 | 国网江苏省电力有限公司营销服务中心 | 面向电力客服问答的实体属性对抽取方法和系统 |
CN113268538A (zh) * | 2021-05-17 | 2021-08-17 | 哈尔滨工业大学(威海) | 一种基于领域知识图谱的复杂装备故障溯源方法及系统 |
CN113283704A (zh) * | 2021-04-23 | 2021-08-20 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 基于知识图谱的电网故障智能处置系统及方法 |
CN113312501A (zh) * | 2021-06-29 | 2021-08-27 | 中新国际联合研究院 | 基于知识图谱的安全知识自助查询系统的构建方法及装置 |
CN113312499A (zh) * | 2021-06-15 | 2021-08-27 | 合肥工业大学 | 一种基于知识图谱的电力安全预警方法及系统 |
CN113343581A (zh) * | 2021-06-28 | 2021-09-03 | 山东华科信息技术有限公司 | 基于图马尔可夫神经网络的变压器故障的诊断方法 |
CN113342993A (zh) * | 2021-07-02 | 2021-09-03 | 上海申瑞继保电气有限公司 | 电力故障图谱生成方法 |
CN113360679A (zh) * | 2021-07-08 | 2021-09-07 | 北京国信会视科技有限公司 | 一种基于知识图谱技术的故障诊断方法 |
CN113360641A (zh) * | 2021-05-07 | 2021-09-07 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 一种基于深度学习的电网故障处置预案语义建模系统及方法 |
CN113392217A (zh) * | 2021-06-24 | 2021-09-14 | 广东电网有限责任公司 | 一种电力设备故障缺陷实体关系的抽取方法及装置 |
CN113420917A (zh) * | 2021-06-18 | 2021-09-21 | 广东工业大学 | 对业务系统未来故障预测的方法、计算机设备及存储介质 |
CN113449072A (zh) * | 2021-06-15 | 2021-09-28 | 南京航空航天大学 | 基于深度学习的挖掘机故障知识图谱的构建方法 |
CN113689851A (zh) * | 2021-07-27 | 2021-11-23 | 国家电网有限公司 | 调度专业语言理解系统及方法 |
CN114186759A (zh) * | 2022-02-16 | 2022-03-15 | 杭州杰牌传动科技有限公司 | 基于减速机知识图谱的物料调度控制方法及其系统 |
CN114265930A (zh) * | 2021-11-19 | 2022-04-01 | 国电南京自动化股份有限公司 | 一种基于事件抽取的低压用户故障报修合并处理方法 |
CN114417015A (zh) * | 2022-01-26 | 2022-04-29 | 西南交通大学 | 一种高速列车可维修性知识图谱构建方法 |
CN114461784A (zh) * | 2022-01-18 | 2022-05-10 | 中国科学院大学 | 一种非结构化设备故障知识的分类及知识萃取方法 |
CN114492807A (zh) * | 2022-02-10 | 2022-05-13 | 杭州和利时自动化有限公司 | 一种基于知识图谱的产生式推理实现方法、装置及系统 |
CN115309912A (zh) * | 2022-08-08 | 2022-11-08 | 重庆大学 | 集成电驱结构的知识图谱构建方法、智能推理方法和快速设计方法 |
CN115757828A (zh) * | 2022-11-16 | 2023-03-07 | 南京航空航天大学 | 一种基于辐射源知识图谱的空中目标意图识别方法 |
CN115757837A (zh) * | 2023-01-04 | 2023-03-07 | 军工保密资格审查认证中心 | 知识图谱的置信度评估方法、装置、电子设备及介质 |
CN115795061A (zh) * | 2023-02-13 | 2023-03-14 | 京华信息科技股份有限公司 | 一种基于词向量和依存句法的知识图谱构建方法及系统 |
CN116340530A (zh) * | 2023-02-17 | 2023-06-27 | 江苏科技大学 | 基于机械知识图谱的智能设计方法 |
CN116521700A (zh) * | 2023-06-28 | 2023-08-01 | 广州泓盈信息科技有限公司 | 一种电力系统检修信息库更新方法、系统及存储介质 |
CN117076690A (zh) * | 2023-10-13 | 2023-11-17 | 华东交通大学 | 一种数据驱动的工艺流程组态方法及系统 |
CN117667890A (zh) * | 2023-12-01 | 2024-03-08 | 中国标准化研究院 | 一种用于标准数字化的知识库构建方法及系统 |
CN113283704B (zh) * | 2021-04-23 | 2024-05-14 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 基于知识图谱的电网故障智能处置系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597999A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 |
CN110825881A (zh) * | 2019-09-26 | 2020-02-21 | 中国电力科学研究院有限公司 | 一种建立电力知识图谱的方法 |
CN110866121A (zh) * | 2019-09-26 | 2020-03-06 | 中国电力科学研究院有限公司 | 一种面向电力领域知识图谱构建方法 |
CN111061882A (zh) * | 2019-08-19 | 2020-04-24 | 广州利科科技有限公司 | 一种知识图谱构建方法 |
-
2020
- 2020-06-29 CN CN202010604650.2A patent/CN111737496A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597999A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 |
CN111061882A (zh) * | 2019-08-19 | 2020-04-24 | 广州利科科技有限公司 | 一种知识图谱构建方法 |
CN110825881A (zh) * | 2019-09-26 | 2020-02-21 | 中国电力科学研究院有限公司 | 一种建立电力知识图谱的方法 |
CN110866121A (zh) * | 2019-09-26 | 2020-03-06 | 中国电力科学研究院有限公司 | 一种面向电力领域知识图谱构建方法 |
Non-Patent Citations (5)
Title |
---|
FANQI MENG等: "Creating Knowledge Graph of Electric Power Equipment Faults Based on BERT–BiLSTM–CRF Model", 《JOURNAL OF ELECTRICAL ENGINEERING & TECHNOLOGY》 * |
乔骥;王新迎;闵睿;白淑华;姚冬;蒲天骄;: "面向电网调度故障处理的知识图谱框架与关键技术初探", 中国电机工程学报 * |
乔骥等: "面向电网调度故障处理的知识图谱框架与关键技术初探", 《中国电机工程学报》 * |
余建明;王小海;张越;刘艳;赵胜奥;单连飞;: "面向智能调控领域的知识图谱构建与应用", 电力系统保护与控制 * |
余建明等: "面向智能调控领域的知识图谱构建与应用", 《电力系统保护与控制》 * |
Cited By (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307218A (zh) * | 2020-10-21 | 2021-02-02 | 浙江大学 | 基于知识图谱的智能电厂典型设备故障诊断知识库构建方法 |
CN112434024A (zh) * | 2020-10-23 | 2021-03-02 | 杭州未名信科科技有限公司 | 面向关系型数据库的数据字典生成方法、装置、设备及介质 |
CN112434024B (zh) * | 2020-10-23 | 2024-04-02 | 杭州未名信科科技有限公司 | 面向关系型数据库的数据字典生成方法、装置、设备及介质 |
CN112308230A (zh) * | 2020-10-30 | 2021-02-02 | 云南电网有限责任公司电力科学研究院 | 一种资产管理全生命周期知识库的构建及应用方法 |
CN112445801A (zh) * | 2020-11-27 | 2021-03-05 | 杭州海康威视数字技术股份有限公司 | 数据表的元信息管理方法、装置及存储介质 |
CN112347271A (zh) * | 2020-12-04 | 2021-02-09 | 国网天津市电力公司电力科学研究院 | 基于文字语义识别的配电物联网设备缺陷辅助录入方法 |
CN112579789A (zh) * | 2020-12-04 | 2021-03-30 | 珠海格力电器股份有限公司 | 一种设备故障诊断的方法和装置及设备 |
CN112559765A (zh) * | 2020-12-11 | 2021-03-26 | 中电科大数据研究院有限公司 | 一种多源异构数据库语义集成方法 |
CN112559765B (zh) * | 2020-12-11 | 2023-06-16 | 中电科大数据研究院有限公司 | 一种多源异构数据库语义集成方法 |
CN112612902A (zh) * | 2020-12-23 | 2021-04-06 | 国网浙江省电力有限公司电力科学研究院 | 一种电网主设备的知识图谱构建方法及设备 |
CN112650836A (zh) * | 2020-12-28 | 2021-04-13 | 成都网安科技发展有限公司 | 基于句法结构元素语义的文本分析方法、装置及计算终端 |
CN112613314A (zh) * | 2020-12-29 | 2021-04-06 | 国网江苏省电力有限公司信息通信分公司 | 基于bert模型的电力通信网络知识图谱构建方法 |
CN112765314A (zh) * | 2020-12-31 | 2021-05-07 | 广东电网有限责任公司 | 一种基于电力本体知识库的电力信息检索方法 |
CN112765314B (zh) * | 2020-12-31 | 2023-08-18 | 广东电网有限责任公司 | 一种基于电力本体知识库的电力信息检索方法 |
CN112800755A (zh) * | 2021-02-05 | 2021-05-14 | 北京明略软件系统有限公司 | 一种数据治理方法及系统 |
CN112800244B (zh) * | 2021-02-06 | 2022-12-27 | 成都中医药大学 | 一种中医药及民族医药知识图谱的构建方法 |
CN112800244A (zh) * | 2021-02-06 | 2021-05-14 | 成都中医药大学 | 一种中医药及民族医药知识图谱的构建方法 |
CN113032577A (zh) * | 2021-03-21 | 2021-06-25 | 国网河南省电力公司电力科学研究院 | 一种电力系统知识图谱的构建、缺陷目标识别方法及系统 |
CN113011183A (zh) * | 2021-03-23 | 2021-06-22 | 北京科东电力控制系统有限责任公司 | 一种电力调控领域非结构化文本数据处理方法及系统 |
CN113011183B (zh) * | 2021-03-23 | 2023-09-05 | 北京科东电力控制系统有限责任公司 | 一种电力调控领域非结构化文本数据处理方法及系统 |
CN112948596B (zh) * | 2021-04-01 | 2023-03-31 | 泰豪软件股份有限公司 | 知识图谱构建方法、装置、计算机设备及计算机存储介质 |
CN112948596A (zh) * | 2021-04-01 | 2021-06-11 | 泰豪软件股份有限公司 | 知识图谱构建方法、装置、计算机设备及计算机存储介质 |
CN113157860A (zh) * | 2021-04-07 | 2021-07-23 | 国网山东省电力公司信息通信公司 | 一种基于小规模数据的电力设备检修知识图谱构建方法 |
CN113157860B (zh) * | 2021-04-07 | 2022-03-11 | 国网山东省电力公司信息通信公司 | 一种基于小规模数据的电力设备检修知识图谱构建方法 |
CN113094512A (zh) * | 2021-04-08 | 2021-07-09 | 达而观信息科技(上海)有限公司 | 一种工业生产制造中故障分析系统及方法 |
CN113191074A (zh) * | 2021-04-13 | 2021-07-30 | 北京中大科慧科技发展有限公司 | 一种用于数据中心的机房供电参数检测方法 |
CN113191074B (zh) * | 2021-04-13 | 2023-11-21 | 北京中大科慧科技发展有限公司 | 一种用于数据中心的机房供电参数检测方法 |
CN113283704B (zh) * | 2021-04-23 | 2024-05-14 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 基于知识图谱的电网故障智能处置系统及方法 |
CN113283704A (zh) * | 2021-04-23 | 2021-08-20 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 基于知识图谱的电网故障智能处置系统及方法 |
CN113360641B (zh) * | 2021-05-07 | 2023-05-30 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 一种基于深度学习的电网故障处置预案语义建模系统及方法 |
CN113360641A (zh) * | 2021-05-07 | 2021-09-07 | 内蒙古电力(集团)有限责任公司乌兰察布电业局 | 一种基于深度学习的电网故障处置预案语义建模系统及方法 |
CN113268538A (zh) * | 2021-05-17 | 2021-08-17 | 哈尔滨工业大学(威海) | 一种基于领域知识图谱的复杂装备故障溯源方法及系统 |
CN113240443B (zh) * | 2021-05-28 | 2024-02-06 | 国网江苏省电力有限公司营销服务中心 | 面向电力客服问答的实体属性对抽取方法和系统 |
CN113240443A (zh) * | 2021-05-28 | 2021-08-10 | 国网江苏省电力有限公司营销服务中心 | 面向电力客服问答的实体属性对抽取方法和系统 |
CN113312499A (zh) * | 2021-06-15 | 2021-08-27 | 合肥工业大学 | 一种基于知识图谱的电力安全预警方法及系统 |
CN113312499B (zh) * | 2021-06-15 | 2022-10-04 | 合肥工业大学 | 一种基于知识图谱的电力安全预警方法及系统 |
CN113449072A (zh) * | 2021-06-15 | 2021-09-28 | 南京航空航天大学 | 基于深度学习的挖掘机故障知识图谱的构建方法 |
CN113420917B (zh) * | 2021-06-18 | 2023-10-27 | 广东工业大学 | 对业务系统未来故障预测的方法、计算机设备及存储介质 |
CN113420917A (zh) * | 2021-06-18 | 2021-09-21 | 广东工业大学 | 对业务系统未来故障预测的方法、计算机设备及存储介质 |
CN113392217A (zh) * | 2021-06-24 | 2021-09-14 | 广东电网有限责任公司 | 一种电力设备故障缺陷实体关系的抽取方法及装置 |
CN113343581B (zh) * | 2021-06-28 | 2022-11-11 | 山东华科信息技术有限公司 | 基于图马尔可夫神经网络的变压器故障的诊断方法 |
CN115758899A (zh) * | 2021-06-28 | 2023-03-07 | 山东华科信息技术有限公司 | 基于图马尔可夫神经网络的变压器故障的诊断系统 |
CN113343581A (zh) * | 2021-06-28 | 2021-09-03 | 山东华科信息技术有限公司 | 基于图马尔可夫神经网络的变压器故障的诊断方法 |
CN115935807A (zh) * | 2021-06-28 | 2023-04-07 | 山东华科信息技术有限公司 | 基于图马尔可夫神经网络的诊断模型的训练方法 |
CN115758899B (zh) * | 2021-06-28 | 2023-05-09 | 山东华科信息技术有限公司 | 基于图马尔可夫神经网络的变压器故障的诊断系统 |
CN113312501A (zh) * | 2021-06-29 | 2021-08-27 | 中新国际联合研究院 | 基于知识图谱的安全知识自助查询系统的构建方法及装置 |
CN113342993A (zh) * | 2021-07-02 | 2021-09-03 | 上海申瑞继保电气有限公司 | 电力故障图谱生成方法 |
CN113342993B (zh) * | 2021-07-02 | 2023-10-03 | 上海申瑞继保电气有限公司 | 电力故障图谱生成方法 |
CN113360679A (zh) * | 2021-07-08 | 2021-09-07 | 北京国信会视科技有限公司 | 一种基于知识图谱技术的故障诊断方法 |
CN113360679B (zh) * | 2021-07-08 | 2023-11-21 | 北京国信会视科技有限公司 | 一种基于知识图谱技术的故障诊断方法 |
CN113689851B (zh) * | 2021-07-27 | 2024-02-02 | 国家电网有限公司 | 调度专业语言理解系统及方法 |
CN113689851A (zh) * | 2021-07-27 | 2021-11-23 | 国家电网有限公司 | 调度专业语言理解系统及方法 |
CN114265930A (zh) * | 2021-11-19 | 2022-04-01 | 国电南京自动化股份有限公司 | 一种基于事件抽取的低压用户故障报修合并处理方法 |
CN114461784A (zh) * | 2022-01-18 | 2022-05-10 | 中国科学院大学 | 一种非结构化设备故障知识的分类及知识萃取方法 |
CN114417015A (zh) * | 2022-01-26 | 2022-04-29 | 西南交通大学 | 一种高速列车可维修性知识图谱构建方法 |
CN114492807A (zh) * | 2022-02-10 | 2022-05-13 | 杭州和利时自动化有限公司 | 一种基于知识图谱的产生式推理实现方法、装置及系统 |
CN114186759A (zh) * | 2022-02-16 | 2022-03-15 | 杭州杰牌传动科技有限公司 | 基于减速机知识图谱的物料调度控制方法及其系统 |
CN115309912A (zh) * | 2022-08-08 | 2022-11-08 | 重庆大学 | 集成电驱结构的知识图谱构建方法、智能推理方法和快速设计方法 |
CN115757828B (zh) * | 2022-11-16 | 2023-11-10 | 南京航空航天大学 | 一种基于辐射源知识图谱的空中目标意图识别方法 |
CN115757828A (zh) * | 2022-11-16 | 2023-03-07 | 南京航空航天大学 | 一种基于辐射源知识图谱的空中目标意图识别方法 |
CN115757837A (zh) * | 2023-01-04 | 2023-03-07 | 军工保密资格审查认证中心 | 知识图谱的置信度评估方法、装置、电子设备及介质 |
CN115795061B (zh) * | 2023-02-13 | 2023-04-07 | 京华信息科技股份有限公司 | 一种基于词向量和依存句法的知识图谱构建方法及系统 |
CN115795061A (zh) * | 2023-02-13 | 2023-03-14 | 京华信息科技股份有限公司 | 一种基于词向量和依存句法的知识图谱构建方法及系统 |
CN116340530A (zh) * | 2023-02-17 | 2023-06-27 | 江苏科技大学 | 基于机械知识图谱的智能设计方法 |
CN116521700B (zh) * | 2023-06-28 | 2023-09-08 | 广州泓盈信息科技有限公司 | 一种电力系统检修信息库更新方法、系统及存储介质 |
CN116521700A (zh) * | 2023-06-28 | 2023-08-01 | 广州泓盈信息科技有限公司 | 一种电力系统检修信息库更新方法、系统及存储介质 |
CN117076690A (zh) * | 2023-10-13 | 2023-11-17 | 华东交通大学 | 一种数据驱动的工艺流程组态方法及系统 |
CN117076690B (zh) * | 2023-10-13 | 2024-01-09 | 华东交通大学 | 一种数据驱动的工艺流程组态方法及系统 |
CN117667890A (zh) * | 2023-12-01 | 2024-03-08 | 中国标准化研究院 | 一种用于标准数字化的知识库构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN109800437B (zh) | 一种基于特征融合的命名实体识别方法 | |
CN110309268B (zh) | 一种基于概念图的跨语言信息检索方法 | |
CN110633366B (zh) | 一种短文本分类方法、装置和存储介质 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
CN115081437B (zh) | 基于语言学特征对比学习的机器生成文本检测方法及系统 | |
CN110852089B (zh) | 基于智能分词与深度学习的运维项目管理方法 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN116775847A (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN113196277A (zh) | 用于检索自然语言文档的系统 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及系统 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
CN115713072A (zh) | 一种基于提示学习和上下文感知的关系类别推断系统及方法 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
Hossen et al. | Bert model-based natural language to nosql query conversion using deep learning approach | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN114781381A (zh) | 基于规则和神经网络模型融合的标准指标抽取方法 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
Priyadarshi et al. | The first named entity recognizer in Maithili: Resource creation and system development | |
Yin et al. | A Method for Modeling the Neural Network for Term Extraction Based on Bilingual Sentence Alignment Corpus | |
Liu et al. | The BERT-BiLSTM-CRF question event information extraction method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |