CN113946684A - 电力基建知识图谱构建方法 - Google Patents

电力基建知识图谱构建方法 Download PDF

Info

Publication number
CN113946684A
CN113946684A CN202111096719.6A CN202111096719A CN113946684A CN 113946684 A CN113946684 A CN 113946684A CN 202111096719 A CN202111096719 A CN 202111096719A CN 113946684 A CN113946684 A CN 113946684A
Authority
CN
China
Prior art keywords
data
entity
knowledge
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111096719.6A
Other languages
English (en)
Inventor
范荣全
赵星俨
舒俊霖
赵晓芳
黄剑波
刘俊勇
杨昌建
杨江平
刘有波
唐杨
张智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
State Grid Sichuan Electric Power Co Ltd
Original Assignee
Sichuan University
State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, State Grid Sichuan Electric Power Co Ltd filed Critical Sichuan University
Priority to CN202111096719.6A priority Critical patent/CN113946684A/zh
Publication of CN113946684A publication Critical patent/CN113946684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了电力基建知识图谱构建方法,包括如下步骤:获取原始数据,通过数据获取模块获取文档、表格及新闻的原始数据;数据预处理,将获取得到的原始数据进行预处理,分别得到结构化数据与非结构化数据的预处理后的数据;知识抽取,对结构化数据,进行知识抽取得到三元组;对非结构化数据,首先采用BiLSTM‑CRF进行命名实体识别,将命名实体识别后的非结构化数据采用BERT模型进行实体关系抽取;将知识抽取得到的知识进行知识融合,得到实体‑关系‑实体的三元组,获得实体‑关系‑实体的三元组后,进行知识表示,形成知识图谱,并存储于Neo4j图数据库中。

Description

电力基建知识图谱构建方法
技术领域
本发明涉及电力基建与知识图谱领域,具体是电力基建知识图谱构建方法。
背景技术
现代电力网络能够迅速发展的一个重要原因即是电力基建的发展。随着电力网络规模的不断扩大,越来越多的物联网、人工智能等技术被引入电力基建中,电力基建包含大量的人机料法环信息,基建过程中的新设备、新方法也让电力基建过程变得更加复杂。在这种情况下,电力基建的业务将面临越来越大的挑战。电力基建过程中存在大量的多源异构数据,管理类别众多且繁杂,管理效率低下。
知识图谱是一种语义网,它以结构化的形式表示事物以及事物之间的关系,可以有效利用大量的结构化、半结构化和非结构化数据。知识图谱的构建包括知识抽取、知识融合与知识表示等。知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱主要应用于搜索引擎;领域知识图谱主要应用于特定的领域,专业化程度更高,已在医疗、法律、金融、电商等领域有应用。
领域知识图谱构建的一个关键挑战是缺乏领域内的数据集且专业术语和概念较多。传统的基于规则或基于模板的知识抽取需要人工构建大量的规则模板,适用范围有限,难以适应复杂的需求。
因此,构建知识图谱,减少人工的精力消耗,实现自动化地从原始数据中获取知识,并以Neo4j图数据库进行可视化存储是十分有必要的。
发明内容
本发明的目的在于克服现有技术的不足,提供电力基建知识图谱构建方法,包括如下步骤:
步骤一,获取原始数据,通过数据获取模块获取文档、表格及新闻的原始数据;
步骤二,数据预处理,将获取得到的原始数据进行预处理,分别得到结构化数据与非结构化数据的预处理后的数据;
步骤三,知识抽取,对结构化数据,进行知识抽取得到三元组;对非结构化数据,首先采用BiLSTM-CRF进行命名实体识别,将命名实体识别后的非结构化数据采用BERT模型进行实体关系抽取;
步骤四,将知识抽取得到的知识进行知识融合,得到实体-关系-实体的三元组,获得实体-关系-实体的三元组后,进行知识表示,形成知识图谱,并存储于Neo4j图数据库中。
进一步的,所述的将获取得到的原始数据进行预处理,分别得到结构化数据与非结构化数据的预处理后的数据,包括如下过程,对非结构化数据,将不同格式的数据转化为Txt文本格式,并进行分词处理;对存储于传统关系型数据库中的结构化数据,把对应字段映射为知识图谱中的实体与关系。
进一步的,所述的对非结构化数据,首先采用BiLSTM-CRF进行命名实体识别,将命名实体识别后的非结构化数据采用BERT模型进行关系抽取,包括如下过程:
通过词嵌入算法将单词序列转化为向量形式,得到词向量Vword=(v1,v2,v3,…,vn),其中n为向量维度;将文本进行编码,然后解码获得每个词的序列标签,使用双向长短期记忆神经网络进行命名实体识别,再结合条件随机场对双向长短期记忆神经网络的输出进行约束,从样本中识别出实体。
进一步的,所述的知识融合包括共指消解,利用Word2vec算法进行共指消解,两个词的词向量分别为Xword=(x1,x2,x3,…,xn)和Yword=(y1,y2,y3,…,yn),计算余弦值
Figure BDA0003266287690000021
Figure BDA0003266287690000022
若余弦值越大则两个词相似度越高,当余弦值超过设定的阈值时,则两个词可以看作是指代的同一含义,即实现共指消解。
进一步的,所述的使用BERT模型进行实体间关系抽取,包括定义相对于主语实体的位置序列为
Figure BDA0003266287690000023
Figure BDA0003266287690000024
式中,s1和s2分别为主语实体的开始和结束位置,表示了和主语实体的相关位置;
定于宾语实体的位置序列为
Figure BDA0003266287690000025
将位置序列转换为位置向量,和BERT的表示向量进行拼接,然后将向量序列输入给双向长短期记忆神经网络,获取每个方向上的最后一个隐含层状态,进行关系抽取。
本发明的有益效果是:本发明基于BiLSTM-CRF结合BERT模型构建知识图谱,实现基于知识图谱的电力基建人机料法环信息管理系统,以Neo4j为存储介质的可视化系统,能够针对电力基建过程进行综合信息管理。通过Neo4j图数据库,将电力基建人机料法环相关信息通过图的形式存储起来,更有利于信息的利用。通过构建该系统,可以有利于辅助基建施工部门对基建过程进行管理,提高管理水平和管理效率。
附图说明
图1为电力基建知识图谱构建方法的流程图;
图2为利用BERT模型进行关系抽取的示意图;
图3为单个LSTM单元总体框架图;
图4为BiLSTM-CRF模型的示意图;
图5为用BiLSTM-CRF结合BERT模型的知识图谱构建方法及可视化系统示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,电力基建知识图谱构建方法,包括如下步骤:
步骤一,获取原始数据,通过数据获取模块获取文档、表格及新闻的原始数据;
步骤二,数据预处理,将获取得到的原始数据进行预处理,分别得到结构化数据与非结构化数据的预处理后的数据;
步骤三,知识抽取,对结构化数据,进行知识抽取得到三元组;对非结构化数据,首先采用BiLSTM-CRF进行命名实体识别,将命名实体识别后的非结构化数据采用BERT模型进行实体关系抽取;
步骤四,将知识抽取得到的知识进行知识融合,得到实体-关系-实体的三元组,获得实体-关系-实体的三元组后,进行知识表示,形成知识图谱,并存储于Neo4j图数据库中。
所述的将获取得到的原始数据进行预处理,分别得到结构化数据与非结构化数据的预处理后的数据,包括如下过程,对非结构化数据,将不同格式的数据转化为Txt文本格式,并进行分词处理;对存储于传统关系型数据库中的结构化数据,把对应字段映射为知识图谱中的实体与关系。
所述的对非结构化数据,首先采用BiLSTM-CRF进行命名实体识别,将命名实体识别后的非结构化数据采用BERT模型进行关系抽取,包括如下过程:
通过词嵌入算法将单词序列转化为向量形式,得到词向量Vword=(v1,v2,v3,…,vn),其中n为向量维度;将文本进行编码,然后解码获得每个词的序列标签,使用双向长短期记忆神经网络进行命名实体识别,再结合条件随机场对双向长短期记忆神经网络的输出进行约束,从样本中识别出实体。
所述的知识融合包括共指消解,利用Word2vec算法进行共指消解,两个词的词向量分别为Xword=(x1,x2,x3,…,xn)和Yword=(y1,y2,y3,…,yn),计算余弦值
Figure BDA0003266287690000031
Figure BDA0003266287690000032
若余弦值越大则两个词相似度越高,当余弦值超过设定的阈值时,则两个词可以看作是指代的同一含义,即实现共指消解。
所述的使用BERT模型进行实体间关系抽取,包括定义相对于主语实体的位置序列为
Figure BDA0003266287690000041
Figure BDA0003266287690000042
式中,s1和s2分别为主语实体的开始和结束位置,表示了和主语实体的相关位置;
定于宾语实体的位置序列为
Figure BDA0003266287690000043
将位置序列转换为位置向量,和BERT的表示向量进行拼接,然后将向量序列输入给双向长短期记忆神经网络,获取每个方向上的最后一个隐含层状态,进行关系抽取。
具体的,步骤1,原始数据获取,主要通过网络爬虫技术合法获取并下载各电网公司或建筑单位公开发布的文档以及电力基建过程的表格。
步骤2,对原始数据进行预处理,针对非结构化数据,需将各种格式的数据转化为Txt文本格式,并进行分词处理,以便进行下一步工作。
步骤3,针对存储于传统关系型数据库中的结构化数据,只需要把对应字段映射为知识图谱中的节点(实体)与边(关系)。
步骤4,针对占所有数据中大部分的非结构化数据,首先利用词嵌入算法将单词序列转化为向量形式,得到词向量Vword=(v1,v2,v3,…,vn),其中n为向量维度。
步骤5,将文本进行编码,然后解码获得每个词的序列标签。
步骤6,输入为上一步骤的序列标签,使用双向长短期记忆(BiLSTM)神经网络进行命名实体识别,再结合条件随机场(CRF)对BiLSTM的输出进行约束,从较少样本中识别出实体。BiLSTM-CRF模型如图2所示。
单个LSTM单元的总体框架如图3所示。输入为前一时刻的隐层状态ht-1,当前时刻的输入词为Xt。由公式ft=σ(Wf·[ht-1,xt]+bf)计算遗忘门σ的值ft,选择要遗忘的信息;然后由公式it=σ(Wi·[ht-1,xt]+bi)与
Figure BDA0003266287690000044
计算记忆门的值it和临时细胞状态
Figure BDA0003266287690000045
由公式
Figure BDA0003266287690000046
计算当前时刻的细胞状态;由公式ot=σ(Wo[ht-1,xt]+bo)与ht=ot*tanh(Ct)计算输出门的值ot和隐层状态ht;将所有时刻的隐层状态结合起来,便得到了隐层状态序列(h0,h1,h2,…,hn-1)。
BiLSTM的具体原理为,将前向的LSTM与后向的LSTM相结合,前向LSTM得到前向隐层状态序列,后向LSTM得到后向隐层状态序列,将前向和后向隐层状态序列拼接,输出每个字的序列标签。
由于BiLSTM输出可能会出现难以避免的误差,因此加入CRF对输出序列进行约束,提高输出准确率。
步骤7,进行知识融合,包括实体消歧和共指消解。由于电力基建属于专业领域,专业名词较多,基本不存在一词对应多个含义的情况,因此不需要进行实体消歧,但需要利用Word2vec算法进行共指消解。如两个词的词向量分别为Xword=(x1,x2,x3,…,xn)和Yword=(y1,y2,y3,…,yn),计算其余弦值
Figure BDA0003266287690000051
若余弦值越大则两个词相似度越高。相似度高的两个词可以看作是指代的同一含义,即实现了共指消解。
步骤8,使用BERT模型进行实体间关系抽取。如图2所示,[CLS]为起始位,$与#为分隔不同实体的分隔符,即输入的结构为:[CLS]句子[分隔符]主语实体[分隔符]宾语实体[分隔符]。由H=[h0,h1,…,hn,hn+1]表示[CLS]句子[分隔符]之间词汇经BERT得到的向量表示;Hs=[hs1,hs1+1,…,hs2]表示主语实体;Ho=[ho1,ho1+1,…,ho2]表示宾语实体;定义相对于主语实体的位置序列为
Figure BDA0003266287690000052
Figure BDA0003266287690000053
式中,s1和s2分别为主语实体的开始和结束位置,表示了和主语实体的相关位置。
同样地,定于宾语实体的位置序列为
Figure BDA0003266287690000054
将位置序列转换为位置向量,和BERT的表示向量进行拼接,如图2中的a所示。
然后将向量序列输入给BiLSTM,获取每个方向上的最后一个隐含层状态,进行关系抽取。
步骤9,将以上步骤得到的[实体-关系-实体]对存储于Neo4j图数据库中。2
本申请提出了一种针对结构化数据如关系型数据库中的数据,完成从结构化数据到知识图谱到映射,实现从数据库向知识图谱的转化;针对非结构化数据,主要采用深度学习的方法,对电力基建过程产生的文本和网页信息进行知识抽取,完成实体识别与关系抽取,并将知识融合后的数据以RDF文件的形式存入到Neo4j中,通过Neo4j图数据库实现知识图谱的可视化展示并可以使用Neo4j自带的Cypher查询语言进行语义查询.
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.电力基建知识图谱构建方法,其特征在于,包括如下步骤:
步骤一,获取原始数据,通过数据获取模块获取文档、表格及新闻的原始数据;
步骤二,数据预处理,将获取得到的原始数据进行预处理,分别得到结构化数据与非结构化数据的预处理后的数据;
步骤三,对结构化数据,进行知识抽取得到实体-关系-实体的三元组;对非结构化数据,首先采用BiLSTM-CRF进行命名实体识别,将命名实体识别后的非结构化数据采用BERT模型进行实体关系抽取,将知识抽取得到的知识进行知识融合,得到实体-关系-实体的三元组。
步骤四,获得实体-关系-实体的三元组后,进行知识表示,形成知识图谱,并存储于Neo4j图数据库中。
2.根据权利要求1所述的电力基建知识图谱构建方法,其特征在于,所述的将获取得到的原始数据进行预处理,分别得到结构化数据与非结构化数据的预处理后的数据,包括如下过程,对非结构化数据,将不同格式的数据转化为Txt文本格式,并进行分词处理;对存储于传统关系型数据库中的结构化数据,把对应字段映射为知识图谱中的实体与关系。
3.根据权利要求1所述的电力基建知识图谱构建方法,其特征在于,所述的对非结构化数据,首先采用BiLSTM-CRF进行命名实体识别,将命名实体识别后的非结构化数据采用BERT模型进行关系抽取,包括如下过程:
通过词嵌入算法将单词序列转化为向量形式,得到词向量Vword=(v1,v2,v3,…,vn),其中n为向量维度;将文本进行编码,然后解码获得每个词的序列标签,使用双向长短期记忆神经网络进行命名实体识别,再结合条件随机场对双向长短期记忆神经网络的输出进行约束,从样本中识别出实体。
4.根据权利要求1所述的电力基建知识图谱构建方法,其特征在于,所述的知识融合包括共指消解,利用Word2vec算法进行共指消解,两个词的词向量分别为Xword=(x1,x2,x3,…,xn)和Yword=(y1,y2,y3,…,yn),计算余弦值
Figure FDA0003266287680000011
Figure FDA0003266287680000012
若余弦值越大则两个词相似度越高,当余弦值超过设定的阈值时,则两个词可以看作是指代的同一含义,即实现共指消解。
5.根据权利要求1所述的电力基建知识图谱构建方法,其特征在于,所述的使用BERT模型进行实体间关系抽取,包括定义相对于主语实体的位置序列为
Figure FDA0003266287680000013
Figure FDA0003266287680000014
式中,s1和s2分别为主语实体的开始和结束位置,表示了和主语实体的相关位置;定于宾语实体的位置序列为
Figure FDA0003266287680000021
将位置序列转换为位置向量,和BERT的表示向量进行拼接,然后将向量序列输入给双向长短期记忆神经网络,获取每个方向上的最后一个隐含层状态,进行关系抽取。
CN202111096719.6A 2021-09-16 2021-09-16 电力基建知识图谱构建方法 Pending CN113946684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111096719.6A CN113946684A (zh) 2021-09-16 2021-09-16 电力基建知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111096719.6A CN113946684A (zh) 2021-09-16 2021-09-16 电力基建知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN113946684A true CN113946684A (zh) 2022-01-18

Family

ID=79328789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111096719.6A Pending CN113946684A (zh) 2021-09-16 2021-09-16 电力基建知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN113946684A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186690A (zh) * 2022-02-16 2022-03-15 中国空气动力研究与发展中心计算空气动力研究所 飞行器知识图谱构建方法、装置、设备及存储介质
CN114694098A (zh) * 2022-04-02 2022-07-01 四川大学 基于图像识别与知识图谱的电网基建施工风险管控方法
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN116795963A (zh) * 2023-05-25 2023-09-22 上海蜂威科技发展有限公司 一种基于知识图谱问答的热线分拨方法
CN116955639A (zh) * 2023-04-24 2023-10-27 浙商期货有限公司 期货产业链知识图谱构建方法、装置及计算机设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186690A (zh) * 2022-02-16 2022-03-15 中国空气动力研究与发展中心计算空气动力研究所 飞行器知识图谱构建方法、装置、设备及存储介质
CN114186690B (zh) * 2022-02-16 2022-04-19 中国空气动力研究与发展中心计算空气动力研究所 飞行器知识图谱构建方法、装置、设备及存储介质
CN114694098A (zh) * 2022-04-02 2022-07-01 四川大学 基于图像识别与知识图谱的电网基建施工风险管控方法
CN116090560A (zh) * 2023-04-06 2023-05-09 北京大学深圳研究生院 基于教材的知识图谱建立方法、装置及系统
CN116955639A (zh) * 2023-04-24 2023-10-27 浙商期货有限公司 期货产业链知识图谱构建方法、装置及计算机设备
CN116795963A (zh) * 2023-05-25 2023-09-22 上海蜂威科技发展有限公司 一种基于知识图谱问答的热线分拨方法

Similar Documents

Publication Publication Date Title
CN113946684A (zh) 电力基建知识图谱构建方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN114020862B (zh) 一种面向煤矿安全规程的检索式智能问答系统及方法
WO2018218705A1 (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN111651973B (zh) 一种基于句法感知的文本匹配方法
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN111831783B (zh) 一种篇章级关系抽取方法
CN117349275B (zh) 一种基于大语言模型的文本结构化方法和系统
CN116304745B (zh) 基于深层次语义信息的文本话题匹配方法及系统
CN112883199A (zh) 一种基于深度语义邻居和多元实体关联的协同消歧方法
CN116050352A (zh) 文本编码方法和装置、计算机设备及存储介质
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN117131873A (zh) 一种基于对比学习的双编码器预训练小样本关系抽取方法
Fei et al. GFMRC: A machine reading comprehension model for named entity recognition
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN114694098A (zh) 基于图像识别与知识图谱的电网基建施工风险管控方法
CN115587595A (zh) 一种用于病理文本命名的多粒度实体识别方法
CN113590768B (zh) 一种文本关联度模型的训练方法及装置、问答方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination