CN111177401A - 一种电网自由文本知识抽取方法 - Google Patents

一种电网自由文本知识抽取方法 Download PDF

Info

Publication number
CN111177401A
CN111177401A CN201911277037.8A CN201911277037A CN111177401A CN 111177401 A CN111177401 A CN 111177401A CN 201911277037 A CN201911277037 A CN 201911277037A CN 111177401 A CN111177401 A CN 111177401A
Authority
CN
China
Prior art keywords
power grid
free text
entity
relationship
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911277037.8A
Other languages
English (en)
Inventor
靖稳峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201911277037.8A priority Critical patent/CN111177401A/zh
Publication of CN111177401A publication Critical patent/CN111177401A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种电网自由文本知识抽取方法,采集电网自由文本数据;对采集的自由文本数据进行预处理;将预处理后的电网自由文本数据进行依存句法分析,得到依存关系;将得到的依存关系,结合标记的专业术语,进行实体关系抽取,得到初始的电网实体关系;如果初始的电网实体关系没有重复,得到最终的电网实体关系;将得到的最终电网实体关系转换为知识图谱并呈现。本发明解决了电网自由文本知识抽取准确率低下、覆盖范围不足,使得电网自由文本数据不能够得到充分利用、发挥其价值的问题,提高电网领域知识抽取准确率及覆盖范围。

Description

一种电网自由文本知识抽取方法
技术领域
本发明属于信息技术领域,具体涉及一种电网自由文本知识抽取方法。
背景技术
随着电网公司信息化建设的快速发展,信息系统积累的数据随之增多,不仅 包含结构化数据,同时包含非结构化文本数据。目前,公司对数据价值的探索挖 掘大多面向结构化数据,对非结构化自由文本数据的利用尚不充分,未能充分抽 取电网自由文本中蕴含的知识。对电网自由文本的知识抽取成为公司发展的必然 要求,成为支撑公司精益化管理、科学决策的重要工作之一。
随着自然语言处理技术的不断发展,基于语义标注的知识抽取方法得到广泛 使用,语义标注为自由文本概念表达和计算机形式语言的表达建立起沟通桥梁。 然而,当前基于语义标注的知识抽取方法并不能够在电网领域自由文本知识抽取 达到显著地效果,面向开放领域的知识抽取有广度但深度不够,面向特定领域的 知识抽取有深度但广度不够。因此,现有基于语义标注的知识抽取方法直接应用 于电网自由文本知识抽取会导致知识抽取效果差,得不到较准确、全面地电网知 识。
因此,当前基于语义标注的自由文本知识抽取方法直接应用于电网自由文本 存在知识抽取准确率低下、覆盖范围不够全面的问题。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种电网 自由文本知识抽取方法,用以解决电网自由文本知识抽取准确率低下、覆盖范围 不足,使得电网自由文本数据不能够得到充分利用、发挥其价值的问题得以解决, 提高电网领域知识抽取准确率及覆盖范围。
本发明采用以下技术方案:
一种电网自由文本知识抽取方法,包括以下步骤:
S1、采集电网自由文本数据;
S2、对步骤S1采集的自由文本数据进行预处理;
S3、将步骤S2预处理后的电网自由文本数据进行依存句法分析,得到依存 关系;
S4、将步骤S3得到的依存关系,结合标记的专业术语,进行实体关系抽取, 得到初始的电网实体关系;
S5、如果初始的电网实体关系没有重复,得到最终的电网实体关系;
S6、将步骤S5得到的最终电网实体关系转换为知识图谱并呈现。
具体的,步骤S1中,通过电网业务知识,构建电网领域的专业词典,同时 对专业术语加以特殊词性以及词频标注的标记。
具体的,步骤S2中,采用HanLP自然语言处理工具对自由文本数据进行分 词以及词性标注预处理,将预处理的自由文本转换成单词/词性的序列。
具体的,步骤S3中,将预处理后的电网自由文本数据中的句子表示成一棵 依存句法树,依据依存句法树,表达词与词之间的依存关系。
具体的,步骤S4中,电网实体关系为实体、关系和实体的三元组,标记的 专业术语为人名、地名或机构名,标记的专业术语对应有相应的命名实体。
进一步的,步骤S5中,如果初始的电网实体关系有重复,则过滤,直至没 有重复的电网实体关系。
具体的,步骤S6中,知识图谱为节点、边以及节点的方式,节点表示实体, 节点与节点之间的边表示实体间关系。
与现有技术相比,本发明至少具有以下有益效果:
本发明提供的基于语义标注的电网自由文本知识抽取方法,相比于现有基于 语义标注的自由文本知识抽取方法,能够更加准确、全面地抽取出电网自由文本 中实体关系相关知识;将抽取所得实体关系以知识图谱的形式呈现,能够更好地 为基于知识图谱的电网领域智能问答、搜索等提供服务支撑。
综上所述,本发明通过建立领域专业词典确保分词、词性标注的正确性、全 面性;通过依存句法分析,能够得到依存关系;基于正确的分词、词性标注结果, 识别出准确、全面地电网领域实体,与依存句法分析相结合,抽取出准确、全面 地电网自由文本实体关系。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明提供的电网自由文本知识抽取方法的流程图;
图2为本发明提供的实施例2中的框架图;
图3为本发明提供的实施例2中的电网领域专业词典示意图;
图4为本发明提供的实施例2中的依存句法树示意图。
具体实施方式
本发明提供了一种电网自由文本知识抽取方法,解决了电网自由文本知识抽 取准确率低下、覆盖范围不足的问题,使得电网自由文本数据不能够得到充分利 用、发挥其价值的问题得以解决。
请参阅图1,本发明一种电网自由文本知识抽取方法,包括以下步骤:
S1、采集电网自由文本数据;
还包括专业词典的构建,专业词典构建具体为:通过电网业务知识,构建电 网领域的专业词典,同时对专业术语加以特殊词性以及词频标注的标记。
通过构建电网的专业词典,便于后期的查询,当然,专业词典的构建,也可 以在采集电网自由文本数据之前,具体地,电网的专业词典,比如:设备名称、 设备属性、电网组织机构名称等。
具体地,专业词汇加以标记具体为:将专业术语通过以“专业术语nz词频” 的形式进行表示。
S2、对自由文本数据进行预处理;
具体地,对自由文本数据进行预处理具体为:将对自由文本数据进行分词以 及词性标注的预处理。
本步骤中,将待处理文本进行预处理具体采用HanLP自然语言处理工具进 行预处理。
还包括文本排序,所述文本排序具体为:将预处理的自由文本转换成单词/ 词性的序列。
S3、将预处理后的电网自由文本数据,进行依存句法分析,得到依存关系;
具体地,将预处理后的电网自由文本数据中的句子表示成一棵依存句法树, 依据依存句法树,表达词与词之间的依存关系。
S4、将得到的依存关系,结合标记的专业术语,进行实体关系抽取,得到初 始的电网实体关系;
具体地,所述标记的专业术语为人名、地名或机构名,所述标记的专业术语, 对应有相应的命名实体。
本步骤中,电网实体关系实际为实体、关系以及实体的三元组。
S5、判断初始的电网实体关系是否有重复,如果有重复的,则过滤,直至没 有重复的电网实体关系,否则,则直接得到最终的电网实体关系;
S6、将最终的电网实体关系转换为知识图谱并呈现。
具体地,知识图谱为节点、边以及节点的方式,所述节点表示实体,所述节 点与节点之间的边表示实体间关系。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实 施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中 的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因 此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的 本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本 领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属 于本发明保护的范围。
实施例1
本实施例中的一种基于语义标注的电网自由文本知识抽取方法,包括以下步 骤:
步骤1,结合电网业务知识,构建电网领域专业词典,对专业词汇加以特殊 词性及词频标注;
本步骤具体为,搜集电网领域专业术语,并将专业术语以nz标记,每一行 均以“专业术语nz词频”形式表示;具体地,对于每一行中的所有文字,统一采 用“专业术语nz词频”形式表示。
步骤2,结合步骤1所构建的专业词典,对采集得到的电网自由文本数据进 行分词、词性标注等文本数据预处理操作;
本步骤中,结合步骤1所构建的专业词典,对采集得到的电网自由文本数据 进行分词、词性标注等文本数据预处理操作,具体是指:
将电网自由文本数据进行分词、词性标注等处理,将自由文本转换为:的 单词/词性序列。
本实施例中,基于句子上下文语境分词确定唯一词性。
步骤3,根据步骤2所得数据,进行依存句法分析,得到依存关系;
具体地,将句子表示成一棵依存句法树,依据依存句法树分析句子中词语之 间的依存关系。
步骤4,根据步骤3所得依存关系,结合命名实体词性特征,进行电网实体 关系抽取,得到初始电网实体关系;
根据人名、地名、机构名所对应的词性特征识别出相应的命名实体。基于所 得依存关系,抽取识别命名实体依存关系,得到初始电网实体关系。
步骤5,对步骤4所得初始电网实体关系进行过滤,去除重复实体关系,得 到最终的电网实体关系;
得到的初始电网实体关系中可能包含重复实体关系,过滤掉重复关系,保证 各实体关系唯一,得到最终的电网实体关系。
在具体操作中,过滤掉重复关系,是对初步得到的实体关系进行遍历,如果 发现相同的(实体,关系,实体)在后续又出现,那么保留时只前者,后面的不 会保存。
步骤6,将步骤5所得电网实体关系以知识图谱方式呈现,为上层面向电网 领域的智能搜索、智能问答等应用提供数据支撑。
将得到的实体关系三元组(实体,关系,实体)以知识图谱(节点,边,节 点)方式呈现,其中节点表示实体,节点与节点间的边表示实体间关系。
实施例2
请参阅图2~图4,一种基于语义标注的电网自由文本知识抽取方法,包括以 下步骤:
步骤1,结合电网业务知识,构建电网领域专业词典,对专业词汇加以特殊 词性及词频标注;
其中,本方案所述电网领域专业词典指电网领域特有的术语集合,体现电网 领域的核心知识。
具体地,将专业词汇用特殊词性nz标注并给出相应词频,电网领域专业词 典中每一行以“专业术语nz词频”标注,如图2所示。
步骤2,结合步骤1所构建的专业词典,对采集得到的电网自由文本数据进 行分词、词性标注等文本数据预处理操作;
其中,将采集到的电网自由文本数据通过分词、词性标注等处理操作,转换为单词/词性 序列。例如:通过HanLP自然语言处理工具相比Jieba,HanLP中包含依存句法分析功能;相 比哈工大LTP,HanLP容易安装;将句子“A公司董事长A某在京会见了B公司董事会主席B 某一行”转换为“A公司/nz,董事长/nnt,A某/nr,在/p,京/b,会见/v,了/ule,B公司董事会/nt,主 席/nnt,B某/nr,一行/n”。
步骤3,根据步骤2所得数据,进行依存句法分析,得到依存关系;
其中,本方案中采用HanLP进行依存句法分析,将句子表示成一颗依存句法树,依据依 存句法树分析词语之间的依存关系。例如:“A公司董事长A某在京会见了B公司董事会主席 B某一行”经过依存句法分析,形成如图3所示的依存句法树,表达词与词之间的依存关系。
步骤4,根据步骤3所得依存关系,结合命名实体词性特征,进行电网实体关系抽取,得 到初始电网实体关系;
其中,本方案中根据HanLP中词性标注(nr:中国人名、nrf:英译人名、nrj:日本人名、ns: 地名、nt:机构名、nz:专业术语)句子中的命名实体,并结合依存句法分析结果,抽取实体与 实体间关系。例如:对“A公司董事长A某在京会见了B公司董事会主席B某一行。A公司董 事长A某对B某一行的到来表示欢迎,并介绍了公司最新发展成就。”进行实体关系抽取得到 的初始实体关系如下表1所示。
表1初始实体关系结果
Figure RE-GDA0002435482160000071
Figure RE-GDA0002435482160000081
步骤5,对步骤4所得初始电网实体关系进行过滤,去除重复实体关系,得到最终的电网 实体关系;
其中,如上所述得到的初始电网实体关系中存在重复实体关系,为保证所得实体关系唯一, 本方案中对重复关系进行过滤、去重,得到最终实体关系,如下表2所示。
表2最终实体关系结果
最终实体关系
(A公司,董事长,A某)
(B公司董事会,主席,B某)
步骤6,将步骤5所得电网实体关系以知识图谱方式呈现,为上层面向电网 领域的智能搜索、智能问答等应用提供数据支撑。
其中,本方案中将所得到的电网实体关系三元组(实体,关系,实体)存储 于图数据库Neo4J中,以知识图谱(节点,边,节点)方式呈现,节点代表实体, 边代表相连实体间的关系。
将抽取所得电网实体关系存储于图数据库中,以知识图谱方式表达,为电网 领域基于知识图谱的智能问答、搜索提供服务。
综上所述,本发明电网自由文本知识抽取方法,通过建立领域专业词典确保 分词、词性标注的正确性、全面性;通过依存句法分析,能够得到依存关系;基 于正确的分词、词性标注结果,识别出准确、全面地电网领域实体,与依存句法 分析相结合,抽取出准确、全面地电网自由文本实体关系。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡 是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发 明权利要求书的保护范围之内。

Claims (7)

1.一种电网自由文本知识抽取方法,其特征在于,包括以下步骤:
S1、采集电网自由文本数据;
S2、对步骤S1采集的自由文本数据进行预处理;
S3、将步骤S2预处理后的电网自由文本数据进行依存句法分析,得到依存关系;
S4、将步骤S3得到的依存关系,结合标记的专业术语,进行实体关系抽取,得到初始的电网实体关系;
S5、如果初始的电网实体关系没有重复,得到最终的电网实体关系;
S6、将步骤S5得到的最终电网实体关系转换为知识图谱并呈现。
2.根据权利要求1所述的电网自由文本知识抽取方法,其特征在于,步骤S1中,通过电网业务知识,构建电网领域的专业词典,同时对专业术语加以特殊词性以及词频标注的标记。
3.根据权利要求1所述的电网自由文本知识抽取方法,其特征在于,步骤S2中,采用HanLP自然语言处理工具对自由文本数据进行分词以及词性标注预处理,将预处理的自由文本转换成单词/词性的序列。
4.根据权利要求1所述的电网自由文本知识抽取方法,其特征在于,步骤S3中,将预处理后的电网自由文本数据中的句子表示成一棵依存句法树,依据依存句法树,表达词与词之间的依存关系。
5.根据权利要求1所述的电网自由文本知识抽取方法,其特征在于,步骤S4中,电网实体关系为实体、关系和实体的三元组,标记的专业术语为人名、地名或机构名,标记的专业术语对应有相应的命名实体。
6.根据权利要求5所述的电网自由文本知识抽取方法,其特征在于,步骤S5中,如果初始的电网实体关系有重复,则过滤,直至没有重复的电网实体关系。
7.根据权利要求1所述的电网自由文本知识抽取方法,其特征在于,步骤S6中,知识图谱为节点、边以及节点的方式,节点表示实体,节点与节点之间的边表示实体间关系。
CN201911277037.8A 2019-12-12 2019-12-12 一种电网自由文本知识抽取方法 Pending CN111177401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911277037.8A CN111177401A (zh) 2019-12-12 2019-12-12 一种电网自由文本知识抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911277037.8A CN111177401A (zh) 2019-12-12 2019-12-12 一种电网自由文本知识抽取方法

Publications (1)

Publication Number Publication Date
CN111177401A true CN111177401A (zh) 2020-05-19

Family

ID=70653879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911277037.8A Pending CN111177401A (zh) 2019-12-12 2019-12-12 一种电网自由文本知识抽取方法

Country Status (1)

Country Link
CN (1) CN111177401A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463926A (zh) * 2020-12-07 2021-03-09 广东电网有限责任公司佛山供电局 一种数据检索/智能问答方法、装置、存储介质
CN112487801A (zh) * 2020-10-23 2021-03-12 南京航空航天大学 一种面向安全关键软件的术语推荐方法及系统
WO2022134779A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 人物动作相关数据的提取方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178273A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Unsupervised Relation Detection Model Training
CN108804595A (zh) * 2018-05-28 2018-11-13 中山大学 一种基于word2vec的短文本表示方法
CN109871534A (zh) * 2019-01-10 2019-06-11 北京海天瑞声科技股份有限公司 中英混合语料的生成方法、装置、设备及存储介质
CN109886270A (zh) * 2019-01-17 2019-06-14 大连理工大学 一种面向电子卷宗笔录文本的案件要素识别方法
CN110119510A (zh) * 2019-05-17 2019-08-13 浪潮软件集团有限公司 一种基于传递依存关系和结构助词的关系抽取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178273A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Unsupervised Relation Detection Model Training
CN108804595A (zh) * 2018-05-28 2018-11-13 中山大学 一种基于word2vec的短文本表示方法
CN109871534A (zh) * 2019-01-10 2019-06-11 北京海天瑞声科技股份有限公司 中英混合语料的生成方法、装置、设备及存储介质
CN109886270A (zh) * 2019-01-17 2019-06-14 大连理工大学 一种面向电子卷宗笔录文本的案件要素识别方法
CN110119510A (zh) * 2019-05-17 2019-08-13 浪潮软件集团有限公司 一种基于传递依存关系和结构助词的关系抽取方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487801A (zh) * 2020-10-23 2021-03-12 南京航空航天大学 一种面向安全关键软件的术语推荐方法及系统
CN112463926A (zh) * 2020-12-07 2021-03-09 广东电网有限责任公司佛山供电局 一种数据检索/智能问答方法、装置、存储介质
WO2022134779A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 人物动作相关数据的提取方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Faaß et al. Sdewac–a corpus of parsable sentences from the web
CN111597351A (zh) 可视化文档图谱构建方法
CN110609983B (zh) 一种政策文件结构化分解方法
CN111897914A (zh) 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN111177401A (zh) 一种电网自由文本知识抽取方法
CN111259160B (zh) 知识图谱构建方法、装置、设备及存储介质
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN108920447B (zh) 一种面向特定领域的中文事件抽取方法
CN106502991B (zh) 出版物处理方法和装置
CN111061882A (zh) 一种知识图谱构建方法
CN111831794A (zh) 一种基于知识图谱的综合管廊行业知识问答系统构建方法
CN111611399A (zh) 一种基于自然语言处理的资讯事件图谱化系统及方法
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN110866125A (zh) 基于bert算法模型的知识图谱构建系统
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN112613315B (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
CN111966792A (zh) 一种文本处理方法、装置、电子设备及可读存储介质
CN111737424A (zh) 一种问题的匹配方法、装置、设备及存储介质
CN113159969A (zh) 一种金融长文本复核系统
CN111475608A (zh) 一种基于功能语义关联计算的Mashup服务特征表示方法
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN117312531A (zh) 知识图谱增强的基于大语言模型配电网故障归因分析方法
CN111241299A (zh) 一种法律咨询的知识图谱自动构建方法及其检索系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200702

Address after: Beilin District Xianning West Road 710049, Shaanxi city of Xi'an province No. 28

Applicant after: XI'AN JIAOTONG University

Applicant after: INFORMATION AND COMMUNICATION BRANCH, STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

Address before: 710049 Xianning West Road, Shaanxi, China, No. 28, No.

Applicant before: XI'AN JIAOTONG University

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519