CN110825881A - 一种建立电力知识图谱的方法 - Google Patents

一种建立电力知识图谱的方法 Download PDF

Info

Publication number
CN110825881A
CN110825881A CN201910916626.XA CN201910916626A CN110825881A CN 110825881 A CN110825881 A CN 110825881A CN 201910916626 A CN201910916626 A CN 201910916626A CN 110825881 A CN110825881 A CN 110825881A
Authority
CN
China
Prior art keywords
relation
entity
vector
relationship
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910916626.XA
Other languages
English (en)
Other versions
CN110825881B (zh
Inventor
陈振宇
王群弼
黄运豪
季晓慧
李大鹏
狄方春
杨清波
陶蕾
赵振强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electric Power Research Institute Co Ltd CEPRI
China University of Geosciences Beijing
Original Assignee
China Electric Power Research Institute Co Ltd CEPRI
China University of Geosciences Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electric Power Research Institute Co Ltd CEPRI, China University of Geosciences Beijing filed Critical China Electric Power Research Institute Co Ltd CEPRI
Priority to CN201910916626.XA priority Critical patent/CN110825881B/zh
Publication of CN110825881A publication Critical patent/CN110825881A/zh
Application granted granted Critical
Publication of CN110825881B publication Critical patent/CN110825881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了建立电力知识图谱的方法,解决了需从大量非结构化数据中抽取实体间的关系构建知识图谱的难题,以及远程监督学习构建训练集中的降噪问题,提高了实体识别的准确率,得以建立准确的电力领域知识图谱。

Description

一种建立电力知识图谱的方法
技术领域
本发明属于数据处理技术领域,具体涉及一种建立电力知识图谱的方法。
背景技术
知识图谱是一种以自然语言处理为中心,结合应用数学、图形学、信息可视化的多种技术的知识组织形式和规范。近来知识图谱在人工智能很多行业拥有成熟的应用,如搜索引擎、聊天机器人、智能医疗、智能硬件等。知识图谱分为行业知识图谱和通用知识图谱,2012年谷歌提出通用知识图谱的概念。通用知识图谱强调广度,很难生成全局性本体层统一管理。行业知识图谱是基于特定领域,应对不同的业务场景,具有一定深度和完备性的知识库系统。当然通用知识图谱和行业知识图谱并不是相互对立,而是相互互补的一个关系,利用通用的知识图谱的广度结合行业知识图谱的深度,可以形成更加完善的知识图谱。
知识图谱是关系的一种有效的表现方式,把不同种类的信息连接在一起得到一个关系网络。通过知识图谱,利用关系推导实现语义理解和推理。关系的基本表现形式为三元组如:<node,relation,node>,可以表示两个实体具有某一种关系,或者某一个实体含有某一种属性。知识图谱的构建核心环节就是关系抽取。现有行业知识图谱的构建的方案主要有:一是至顶向下式,先创建基于本体的数据模式,利用高质量的结构化连接数据根据图映射得到关系三元组。这种方法可靠性较高,但是非常耗时耗力,且需要较强的领域知识作为支撑,一般数据规模无法做得很大。二是由底向上式,采用一定技术手段从公开数据集中实现关系抽取。公开数据集往往包含少量半结构化数据和大量非结构化数据,半结构化数据如表格、列表、字典等,根据数据呈现的形式编写规则来提取关系。而非结构化的纯文本中的关系往往呈现多种多样,很难单纯靠规则模式来处理。非结构化文本中关系往往和该句子的语义特征相关联。现有的方案中也有用规则模版来提取关系三元组的,这种方法的优点是比较准确可靠。但是缺点很明显,一是需要人工编写模版无法自动化,二是只能适配特定的句子模式。有方案基于规则抽取的基础上提出先进行人工规则学习,生成新的规则集,再用新的规则提取未分类的关系模式。此方案虽然能提高规则提取的能力,但是无法进行自动化的部署,规则学习的阶段需要不断介入人工审核,不是一个很好的解决方案。从非结构化的纯文本中抽取关系构建知识图谱,始终是一个棘手的难题。
命名实体识别,又称实体抽取技术、实体分块技术,是自然语言处理技术的一个子领域。目标在于将非结构化文本中提及的命名实体抽取出来,包括但不限于人名、组织名、地点名医疗术语、法规术语、时间、数量、货币价值等。在命名实体识别中,现有的技术已经非常成熟。目前,随着词向量的出现,卷积神经网络模型、双向长短期记忆网络结合条件随机场模型都被应用在命名实体识别中,并取得了很高的正确率。现有的命名实体识别对于普通文本的识别率已经很高,但在专业领域中由于领域词汇的特殊性,对于一些特定文法结构的领域内专有名词的识别的正确率并不是很高。
在实体关系抽取方面,远程监督学习的关系抽取方法引起了广大学者的关注。由于使用有监督学习前提是需要大量的人工标注语料,基于神经网络的深度学习方法通常需要相当大的标注语料才能进行模型训练。为了解决监督学习过程中数据不足的问题,Mintz等人提出远程监督学习方法,利用知识库中已有知识,通过与文本进行实体对齐,自动生成大量的标注数据。然后使用生成的数据进行关系抽取神经网络模型的训练。
由于基于远程监督方法构建的训练集由于假设过于武断,其生成的训练文本噪声较大。此外,如果该领域的知识库较为匮乏,使用这种方法就需要大量人工去构建初始语料集,在没有该领域内的专家的情况下很难完成,而电力领域却正是处于知识库匮乏的现状。
发明内容
本发明意建立电力知识图谱,由于电力文本的结构化数据较少,需要从大量非结构化数据中抽取实体间的关系构建知识图谱。需要通过远程监督方法构建训练集,首先需要解决的问题是远程监督学习构建的训练集的降噪问题。此外,在命名实体识别方面,通过加入电力领域的专业词典来提高实体识别的准确率。
本发明提出一种建立电力知识图谱的方法,至少包括以下步骤:
步骤1,下载以及人工标注电力种子词库,训练电力文本语料得到电力词向量;计算与词向量相似的电力词,筛选有效的候选电力词,构建电力词典;
步骤2,通过互信息提取组合词语,根据计算的分数做排序筛序出短语候选组,得到电力短语;
步骤3,在网络上获取电力领域的结构化数据以及半、非结构化数据;
步骤4,对获取的数据进行数据清洗和预处理,判断数据文件是否存在破损,对采集到的数据文件进行包括统一编码转换和繁简转换的操作;
步骤5,对于半、非结构化数据,以构建的电力词典、电力短语作为分词工具的扩展词,使用自然语言处理工具LTP对数据进行分词;对于结构化数据,进行字词人工筛选,作为远程监督学习的知识库;
步骤6,对数据进行词性标注、句法分析;
步骤7,定义电力知识图谱中电力实体、实体关系、三元组、概念层次图,标注相关的电力数据语料;
步骤8,通过深度学习中文命名实体识别方法进行命名实体识别;
步骤9,采用远程监督学习法进行实体关系抽取,实现面向电力领域知识图谱的构建。
本发明构建了电力知识图谱,由于电力文本的结构化数据较少,需要从大量非结构化数据中抽取实体间的关系构建知识图谱。而通过远程监督方法构建训练集,首先需要解决的问题是远程监督学习构建的训练集的降噪问题。此外,在命名实体识别方面,通过加入电力领域的专业词典来提高实体识别的准确率。综上,本发明解决了远程监督学习构建训练集中的降噪问题,提高了实体识别的准确率,能够构建准确的电力领域知识图谱,为电力领域构建准确的知识库,为之后对于电力领域的知识发现提供基础,以及为电力领域知识图谱的扩建打下根基。
附图说明
图1电力知识图谱构建方法流程图。
图2命名实体识别中BiLSTM-CRF模型。
图3实体关系抽取中句子向量表示模块。
图4远程监督学习抽取框架图。
具体实施方式
为了更好地理解本发明,下面结合附图参考实施例的描述,对本发明的方法和系统进行进一步的说明。
为了全面理解本发明,在以下详细描述中提到了众多具体细节。但是本领域技术人员应该理解,本发明可以无需这些具体细节而实现。在实施例中,不详细描述公知的方法、过程、组件,以免不必要地使实施例繁琐。
本发明提供了一种电力知识图谱构建方法,至少包括以下步骤:
步骤1,下载以及人工标注电力种子词库,训练电力文本语料得到电力词向量;计算与词向量相似的电力词,筛选有效的候选电力词,构建电力词典;
步骤2,通过互信息提取组合词语,根据计算的分数做排序筛序出短语候选组,得到电力短语;
步骤3,在网络上获取电力领域的结构化数据以及半、非结构化数据;
步骤4,对获取的数据进行数据清洗和预处理,判断数据文件是否存在破损,对采集到的数据文件进行包括统一编码转换和繁简转换的操作;
步骤5,对于半、非结构化数据,以构建的电力词典、电力短语作为分词工具的扩展词,使用自然语言处理工具LTP对数据进行分词;对于结构化数据,进行字词人工筛选,作为远程监督学习的知识库;
步骤6,对数据进行词性标注、句法分析;
步骤7,定义电力知识图谱中电力实体、实体关系、三元组、概念层次图,标注相关的电力数据语料;
步骤8,通过深度学习中文命名实体识别方法进行命名实体识别;
步骤9,采用远程监督学习法进行实体关系抽取,实现面向电力领域知识图谱的构建。
优选地,其中,所述步骤3,在网络上获取电力领域的结构化数据以及半、非结构化数据,具体以广度优先原则爬取电力领域的百科文本。
优选地,其中,所述步骤8,通过深度学习中文命名实体识别方法进行命名实体识别,具体包括:
步骤8-1,将字词进行分布式表示;
步骤8-2,使用深度学习网络有监督进行模型训练;
步骤8-3,利用上下文信息对序列中的每个字词进行标签标注。
优选地,其中,所述步骤8-2,使用深度学习网络有监督进行模型训练,具体包括:
采用电力领域数据集作为训练语料,通过Skip-gram模式进行词向量的训练;训练网络采用一个输入层、一个隐藏层以及一个输出层组成的三层神经网络,其中,按经验设置隐藏层神经元为100个;神经网络模块采用BiLSTM,将句子中的词语存在的语义关联视为序列问题,在网络训练期间存储历史信息进行学习;考虑上下文关联,采用CRF模型进行序列标注,将输出层面的关联性分离出来。
优选地,其中,所述步骤9,采用远程监督学习法进行实体关系抽取,具体包括:
步骤9-1,进行实体对齐,以实体对齐的方式构建出用于训练和测试的关系实例集;
将知识库中的三元组关系映射到训练文档中进行实体对齐,生成关系实例集Q:
Q={qn|qn=(sm,ei,rk,ej),sm∈D} (1)
其中,ei、ej为两个实体,rk作为两实体在知识库中的关系,sm为实体对在语料库D中的句子,qn为生成的关系实例;
步骤9-2,采用基于注意力机制的关系抽取模型进行句内关系抽取。
优选地,其中,所述步骤9-1,进行实体对齐,以实体对齐的方式构建出用于训练和测试的关系实例集,具体包括:
步骤9-1-1,映射步骤,将每个实体都映射到文本的句子中,其中,一对实体在每一句子中的共现都作为一个关系实例,将具有相同关系的多个关系实例组成一个关系包;
步骤9-1-2,训练步骤,使用结构化数据中提取的三元组以及百科文本进行实体对齐;
步骤9-1-3,测试步骤,使用测试集中所有实体以排列组合的方式成对地生成候选关系对,再用候选关系对和测试语料以实体对齐的方式生成相应的测试实例和关系实例。
优选地,其中,所述步骤9-2,采用基于注意力机制的关系抽取模型进行句内关系抽取,
所述基于注意力机制的关系抽取模型主要包括两个部分:句子向量表示模块以及句子级注意力机制模块;
所述句子向量表示模块,用于获得关系包内每个关系实例的特征表示;
所述句子级注意力机制模块,用于衡量每个关系实例相对于关系包的重要程度。
优选地,其中,在所述句子向量表示模块中,使用word2vec方法进行词向量的表示,使用词位置向量捕捉句子中词汇和实体之间的相对关系;
句子中第i个词的词向量表示为wi,使用
Figure BDA0002216339780000061
Figure BDA0002216339780000062
表示词汇wi距离两个实体的词位置向量,使用ti作为词汇wi的最终向量表示,如公式(2)所示:
使用BiLSTM获得每个词汇的前向状态以及后向状态,并将词汇的前向状态
Figure BDA0002216339780000064
和后向状态
Figure BDA0002216339780000065
拼接得到的结果作为词汇的状态表示,如公式(3)所示:
Figure BDA0002216339780000066
在获得所有词汇的状态信息后,句子的向量si表示可以由其内部所有的词汇状态共同决定:
优选地,其中,所述句子级注意力机制模块包括:注意力机制计算单元、实体特征表示层、关系包特征表示层、隐藏层以及输出层;
所述注意力机制计算单元,用于对关系包中不同实例的权重加以计算,以获得每个关系包的向量表示。权重的计算过程中,在句子向量的基础上融合概念向量、句子标记向量以及目标关系向量三种特征信息,其中,概念向量ei包括描述符向量ci和上下位标记向量qi
所述关系包的特征表示层,用于获得关系包的特征,所述特征由包内的关系实例共同决定;关系包S由n个关系实例组成,S={s1,s2,...,sn},则关系包S的特征向量u可以由公式(5)得到:
Figure BDA0002216339780000068
其中,αk是第k个关系实例的权重,sk是第k个关系实例的特征向量;
所述实体特征表示层,用于使用BiLSTM来获得实体的抽象特征,具体包括:
将关系中实体各自的概率向量e1和e2合并在一起,使用BiLSTM来获得每个实体的前向状态
Figure BDA0002216339780000071
和后项状态将实体的前向状态和后项状态进行合并,如公式(6)所示。
Figure BDA0002216339780000073
获得关系中实体各自的状态向量后,对状态向量求和,作为实体对最终的特征表示ef
Figure BDA0002216339780000074
得到实体对的特征表示ef和关系包的特征表示u后,将二者进行拼接形成新的特征向量k=[ef;u]送入隐藏层;
所述隐藏层,用于接收所述新的特征向量,经过隐藏层的线性和非线性变化,得到实体的最终特征表示z,
z=tanh(Whk+bei) (8)
其中Wh是参数矩阵,bei是偏置,k为由ef和u拼接形成的新特征向量k=[ef;u]。
所述输出层,用于输出最终的分类结果,具体包括:
对所述隐藏层获得的特征向量z进行线性变换,使用SoftMax变换获得每个关系类别的概率得分,如公式(9)所示:
o=softmax(Woz+bo) (9)
其中Wo是参数矩阵,bo是偏置,o是整个网络的输出结果。
优选地,其中,进行所述模型训练时,在测试语料中获取新的实体关系形成三元组更新到知识库中。
本发明构建了电力知识图谱,由于电力文本的结构化数据较少,需要从大量非结构化数据中抽取实体间的关系构建知识图谱。而通过远程监督方法构建训练集,首先需要解决的问题是远程监督学习构建的训练集的降噪问题。此外,在命名实体识别方面,通过加入电力领域的专业词典来提高实体识别的准确率。综上,本发明解决了远程监督学习构建训练集中的降噪问题,提高了实体识别的准确率,能够构建准确的电力领域知识图谱,为电力领域构建准确的知识库,为之后对于电力领域的知识发现提供基础,以及为电力领域知识图谱的扩建打下根基。
这里只说明了本发明的优选实施例,但其意并非限制本发明的范围、适用性和配置。相反,对实施例的详细说明可使本领域技术人员得以实施。应能理解,在不偏离所附权利要求书确定的本发明精神和范围情况下,可对一些细节做适当变更和修改。

Claims (10)

1.一种建立电力知识图谱的方法,其特征在于,至少包括以下步骤:
步骤1,下载以及人工标注电力种子词库,训练电力文本语料得到电力词向量;计算与词向量相似的电力词,筛选有效的候选电力词,构建电力词典;
步骤2,通过互信息提取组合词语,根据计算的分数做排序筛序出短语候选组,得到电力短语;
步骤3,在网络上获取电力领域的结构化数据以及半、非结构化数据;
步骤4,对获取的数据进行数据清洗和预处理,判断数据文件是否存在破损,对采集到的数据文件进行包括统一编码转换和繁简转换的操作;
步骤5,对于半、非结构化数据,以构建的电力词典、电力短语作为分词工具的扩展词,使用自然语言处理工具LTP对数据进行分词;对于结构化数据,进行字词人工筛选,作为远程监督学习的知识库;
步骤6,对数据进行词性标注、句法分析;
步骤7,定义电力知识图谱中电力实体、实体关系、三元组、概念层次图,标注相关的电力数据语料;
步骤8,通过深度学习中文命名实体识别方法进行命名实体识别;
步骤9,采用远程监督学习法进行实体关系抽取,实现面向电力领域知识图谱的构建。
2.根据权利要求1所述的方法,其中,所述步骤3,在网络上获取电力领域的结构化数据以及半、非结构化数据,具体以广度优先原则爬取电力领域的百科文本。
3.根据权利要求1所述的方法,其中,所述步骤8,通过深度学习中文命名实体识别方法进行命名实体识别,具体包括:
步骤8-1,将字词进行分布式表示;
步骤8-2,使用深度学习网络有监督进行模型训练;
步骤8-3,利用上下文信息对序列中的每个字词进行标签标注。
4.根据权利要求1所述的方法,其中,所述步骤8-2,使用深度学习网络有监督进行模型训练,具体包括:
采用电力领域数据集作为训练语料,通过Skip-gram模式进行词向量的训练;训练网络采用一个输入层、一个隐藏层以及一个输出层组成的三层神经网络,其中,按经验设置隐藏层神经元为100个;神经网络模块采用BiLSTM,将句子中的词语存在的语义关联视为序列问题,在网络训练期间存储历史信息进行学习;考虑上下文关联,采用CRF模型进行序列标注,将输出层面的关联性分离出来。
5.根据权利要求2所述的方法,其中,所述步骤9,采用远程监督学习法进行实体关系抽取,具体包括:
步骤9-1,进行实体对齐,以实体对齐的方式构建出用于训练和测试的关系实例集;
将知识库中的三元组关系映射到训练文档中进行实体对齐,生成关系实例集Q:
Q={qn|qn=(sm,ei,rk,ej),sm∈D} (1)
其中,ei、ej为两个实体,rk作为两实体在知识库中的关系,sm为实体对在语料库D中的句子,qn为生成的关系实例;
步骤9-2,采用基于注意力机制的关系抽取模型进行句内关系抽取。
6.根据权利要求5所述的方法,其中,所述步骤9-1,进行实体对齐,以实体对齐的方式构建出用于训练和测试的关系实例集,具体包括:
步骤9-1-1,映射步骤,将每个实体都映射到文本的句子中,其中,一对实体在每一句子中的共现都作为一个关系实例,将具有相同关系的多个关系实例组成一个关系包;
步骤9-1-2,训练步骤,使用结构化数据中提取的三元组以及百科文本进行实体对齐;
步骤9-1-3,测试步骤,使用测试集中所有实体以排列组合的方式成对地生成候选关系对,再用候选关系对和测试语料以实体对齐的方式生成相应的测试实例和关系实例。
7.根据权利要求5所述的方法,其中,所述步骤9-2,采用基于注意力机制的关系抽取模型进行句内关系抽取,
所述基于注意力机制的关系抽取模型主要包括两个部分:句子向量表示模块以及句子级注意力机制模块;
所述句子向量表示模块,用于获得关系包内每个关系实例的特征表示;
所述句子级注意力机制模块,用于衡量每个关系实例相对于关系包的重要程度。
8.根据权利要求7所述的方法,其中,在所述句子向量表示模块中,使用word2vec方法进行词向量的表示,使用词位置向量捕捉句子中词汇和实体之间的相对关系;
句子中第i个词的词向量表示为wi,使用
Figure FDA0002216339770000031
Figure FDA0002216339770000032
表示词汇wi距离两个实体的词位置向量,使用ti作为词汇wi的最终向量表示,如公式(2)所示:
使用BiLSTM获得每个词汇的前向状态以及后向状态,并将词汇的前向状态
Figure FDA0002216339770000034
和后向状态
Figure FDA0002216339770000035
拼接得到的结果作为词汇的状态表示,如公式(3)所示:
在获得所有词汇的状态信息后,句子的向量si表示可以由其内部所有的词汇状态共同决定:
Figure FDA0002216339770000037
9.根据权利要求7所述的方法,其中,所述句子级注意力机制模块包括:注意力机制计算单元、实体特征表示层、关系包特征表示层、隐藏层以及输出层;
所述注意力机制计算单元,用于对关系包中不同实例的权重加以计算,以获得每个关系包的向量表示。权重的计算过程中,在句子向量的基础上融合概念向量、句子标记向量以及目标关系向量三种特征信息,其中,概念向量ei包括描述符向量ci和上下位标记向量qi
所述关系包的特征表示层,用于获得关系包的特征,所述特征由包内的关系实例共同决定;关系包S由n个关系实例组成,S={s1,s2,...,sn},则关系包S的特征向量u可以由公式(5)得到:
Figure FDA0002216339770000041
其中,αk是第k个关系实例的权重,sk是第k个关系实例的特征向量;
所述实体特征表示层,用于使用BiLSTM来获得实体的抽象特征,具体包括:
将关系中实体各自的概率向量e1和e2合并在一起,使用BiLSTM来获得每个实体的前向状态
Figure FDA0002216339770000042
和后项状态
Figure FDA0002216339770000043
将实体的前向状态和后项状态进行合并,如公式(6)所示。
Figure FDA0002216339770000044
获得关系中实体各自的状态向量后,对状态向量求和,作为实体对最终的特征表示ef
Figure FDA0002216339770000045
得到实体对的特征表示ef和关系包的特征表示u后,将二者进行拼接形成新的特征向量k=[ef;u]送入隐藏层;
所述隐藏层,用于接收所述新的特征向量,经过隐藏层的线性和非线性变化,得到实体的最终特征表示z,
Figure FDA0002216339770000046
其中Wh是参数矩阵,bei是偏置,k为由ef和u拼接形成的新特征向量k=[ef;u]。
所述输出层,用于输出最终的分类结果,具体包括:
对所述隐藏层获得的特征向量z进行线性变换,使用SoftMax变换获得每个关系类别的概率得分,如公式(9)所示:
o=softmax(Woz+bo) (9)
其中Wo是参数矩阵,bo是偏置,o是整个网络的输出结果。
10.根据权利要求4所述的方法,其中,进行所述模型训练时,在测试语料中获取新的实体关系形成三元组更新到知识库中。
CN201910916626.XA 2019-09-26 2019-09-26 一种建立电力知识图谱的方法 Active CN110825881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910916626.XA CN110825881B (zh) 2019-09-26 2019-09-26 一种建立电力知识图谱的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910916626.XA CN110825881B (zh) 2019-09-26 2019-09-26 一种建立电力知识图谱的方法

Publications (2)

Publication Number Publication Date
CN110825881A true CN110825881A (zh) 2020-02-21
CN110825881B CN110825881B (zh) 2024-04-12

Family

ID=69548328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910916626.XA Active CN110825881B (zh) 2019-09-26 2019-09-26 一种建立电力知识图谱的方法

Country Status (1)

Country Link
CN (1) CN110825881B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111475655A (zh) * 2020-03-05 2020-07-31 国网浙江省电力有限公司 一种基于配电网知识图谱的电力调度文本实体链接方法
CN111552817A (zh) * 2020-04-14 2020-08-18 国网内蒙古东部电力有限公司 一种电力科技成果知识图谱补全方法
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN111831792A (zh) * 2020-07-03 2020-10-27 国网江苏省电力有限公司信息通信分公司 一种电力知识库构建方法及系统
CN111860882A (zh) * 2020-06-17 2020-10-30 国网江苏省电力有限公司 一种电网调度故障处理知识图谱的构建方法及装置
CN111914550A (zh) * 2020-07-16 2020-11-10 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN112100397A (zh) * 2020-09-07 2020-12-18 南京航空航天大学 基于双向门控循环单元的电力预案知识图谱构建方法及系统
CN112307767A (zh) * 2020-11-09 2021-02-02 国网福建省电力有限公司 一种基于Bi-LSTM技术的调控知识建模方法
CN112765314A (zh) * 2020-12-31 2021-05-07 广东电网有限责任公司 一种基于电力本体知识库的电力信息检索方法
CN113064999A (zh) * 2021-03-19 2021-07-02 南方电网调峰调频发电有限公司信息通信分公司 基于it设备运维的知识图谱构建算法、系统、设备及介质
CN113255917A (zh) * 2021-07-14 2021-08-13 国网浙江省电力有限公司杭州供电公司 一种基于电力大脑的数据接入与集成方法
CN113434698A (zh) * 2021-06-30 2021-09-24 华中科技大学 基于全层级注意力的关系抽取模型建立方法及其应用
CN113742496A (zh) * 2021-09-10 2021-12-03 国网江苏省电力有限公司电力科学研究院 一种基于异构资源融合的电力知识学习系统及方法
CN113806551A (zh) * 2021-07-20 2021-12-17 国网天津市电力公司 一种基于多文本结构数据的领域知识抽取方法
CN113963748A (zh) * 2021-09-28 2022-01-21 华东师范大学 一种蛋白质知识图谱向量化方法
CN114780756A (zh) * 2022-06-07 2022-07-22 国网浙江省电力有限公司信息通信分公司 基于噪音检测和噪音感知的实体对齐方法及装置
CN116703128A (zh) * 2023-08-07 2023-09-05 国网信息通信产业集团有限公司 一种适用于电力调度的自然语言处理方法
CN117435714A (zh) * 2023-12-20 2024-01-23 湖南紫薇垣信息系统有限公司 一种基于知识图谱的数据库和中间件问题智能诊断系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563653A (zh) * 2017-12-21 2018-09-21 清华大学 一种用于知识图谱中知识获取模型的构建方法及系统
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
US20180373789A1 (en) * 2017-06-22 2018-12-27 International Business Machines Corporation Relation extraction using co-training with distant supervision
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180373789A1 (en) * 2017-06-22 2018-12-27 International Business Machines Corporation Relation extraction using co-training with distant supervision
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN108563653A (zh) * 2017-12-21 2018-09-21 清华大学 一种用于知识图谱中知识获取模型的构建方法及系统
CN110019839A (zh) * 2018-01-03 2019-07-16 中国科学院计算技术研究所 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨玉基;许斌;胡家威;仝美涵;张鹏;郑莉;: "一种准确而高效的领域知识图谱构建方法", 软件学报, no. 10, 8 February 2018 (2018-02-08) *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475655A (zh) * 2020-03-05 2020-07-31 国网浙江省电力有限公司 一种基于配电网知识图谱的电力调度文本实体链接方法
CN111475655B (zh) * 2020-03-05 2022-09-20 国网浙江省电力有限公司 一种基于配电网知识图谱的电力调度文本实体链接方法
CN111552817A (zh) * 2020-04-14 2020-08-18 国网内蒙古东部电力有限公司 一种电力科技成果知识图谱补全方法
CN111428054A (zh) * 2020-04-14 2020-07-17 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111428054B (zh) * 2020-04-14 2022-11-01 中国电子科技网络信息安全有限公司 一种网络空间安全领域知识图谱的构建与存储方法
CN111581376B (zh) * 2020-04-17 2024-04-19 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN111860882A (zh) * 2020-06-17 2020-10-30 国网江苏省电力有限公司 一种电网调度故障处理知识图谱的构建方法及装置
CN111860882B (zh) * 2020-06-17 2022-09-30 国网江苏省电力有限公司 一种电网调度故障处理知识图谱的构建方法及装置
CN111737496A (zh) * 2020-06-29 2020-10-02 东北电力大学 一种电力设备故障知识图谱构建方法
CN111831792A (zh) * 2020-07-03 2020-10-27 国网江苏省电力有限公司信息通信分公司 一种电力知识库构建方法及系统
CN111914550B (zh) * 2020-07-16 2023-12-15 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN111914550A (zh) * 2020-07-16 2020-11-10 华中师范大学 一种面向限定领域的知识图谱更新方法及系统
CN112100397A (zh) * 2020-09-07 2020-12-18 南京航空航天大学 基于双向门控循环单元的电力预案知识图谱构建方法及系统
CN112307767A (zh) * 2020-11-09 2021-02-02 国网福建省电力有限公司 一种基于Bi-LSTM技术的调控知识建模方法
CN112765314B (zh) * 2020-12-31 2023-08-18 广东电网有限责任公司 一种基于电力本体知识库的电力信息检索方法
CN112765314A (zh) * 2020-12-31 2021-05-07 广东电网有限责任公司 一种基于电力本体知识库的电力信息检索方法
CN113064999A (zh) * 2021-03-19 2021-07-02 南方电网调峰调频发电有限公司信息通信分公司 基于it设备运维的知识图谱构建算法、系统、设备及介质
CN113064999B (zh) * 2021-03-19 2023-12-15 南方电网调峰调频发电有限公司信息通信分公司 基于it设备运维的知识图谱构建算法、系统、设备及介质
CN113434698B (zh) * 2021-06-30 2022-08-02 华中科技大学 基于全层级注意力的关系抽取模型建立方法及其应用
CN113434698A (zh) * 2021-06-30 2021-09-24 华中科技大学 基于全层级注意力的关系抽取模型建立方法及其应用
CN113255917A (zh) * 2021-07-14 2021-08-13 国网浙江省电力有限公司杭州供电公司 一种基于电力大脑的数据接入与集成方法
CN113806551A (zh) * 2021-07-20 2021-12-17 国网天津市电力公司 一种基于多文本结构数据的领域知识抽取方法
CN113742496B (zh) * 2021-09-10 2024-05-28 国网江苏省电力有限公司电力科学研究院 一种基于异构资源融合的电力知识学习系统及方法
CN113742496A (zh) * 2021-09-10 2021-12-03 国网江苏省电力有限公司电力科学研究院 一种基于异构资源融合的电力知识学习系统及方法
CN113963748A (zh) * 2021-09-28 2022-01-21 华东师范大学 一种蛋白质知识图谱向量化方法
CN113963748B (zh) * 2021-09-28 2023-08-18 华东师范大学 一种蛋白质知识图谱向量化方法
CN114780756B (zh) * 2022-06-07 2022-09-16 国网浙江省电力有限公司信息通信分公司 基于噪音检测和噪音感知的实体对齐方法及装置
CN114780756A (zh) * 2022-06-07 2022-07-22 国网浙江省电力有限公司信息通信分公司 基于噪音检测和噪音感知的实体对齐方法及装置
CN116703128A (zh) * 2023-08-07 2023-09-05 国网信息通信产业集团有限公司 一种适用于电力调度的自然语言处理方法
CN116703128B (zh) * 2023-08-07 2024-01-02 国网信息通信产业集团有限公司 一种适用于电力调度的自然语言处理方法
CN117435714A (zh) * 2023-12-20 2024-01-23 湖南紫薇垣信息系统有限公司 一种基于知识图谱的数据库和中间件问题智能诊断系统
CN117435714B (zh) * 2023-12-20 2024-03-08 湖南紫薇垣信息系统有限公司 一种基于知识图谱的数据库和中间件问题智能诊断系统

Also Published As

Publication number Publication date
CN110825881B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN110825881A (zh) 一种建立电力知识图谱的方法
CN110210037B (zh) 面向循证医学领域的类别检测方法
CN106407333B (zh) 基于人工智能的口语查询识别方法及装置
CN110866121A (zh) 一种面向电力领域知识图谱构建方法
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN105843801B (zh) 多译本平行语料库的构建系统
Khan et al. Extracting Spatial Information From Place Descriptions
CN107526799A (zh) 一种基于深度学习的知识图谱构建方法
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN111475629A (zh) 一种面向数学辅导问答系统的知识图谱构建方法及其系统
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN110245238B (zh) 基于规则推理和句法模式的图嵌入方法及系统
CN110489554B (zh) 基于位置感知互注意力网络模型的属性级情感分类方法
CN105868187B (zh) 多译本平行语料库的构建方法
CN111222330B (zh) 一种中文事件的检测方法和系统
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113254609B (zh) 一种基于负样本多样性的问答模型集成方法
CN113901224A (zh) 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置
CN114282001A (zh) 基于文本的任务处理方法、装置、计算机设备及存储介质
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN116680407A (zh) 一种知识图谱的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant