CN111930784A - 一种电网知识图谱构建方法及其系统 - Google Patents
一种电网知识图谱构建方法及其系统 Download PDFInfo
- Publication number
- CN111930784A CN111930784A CN202010727904.XA CN202010727904A CN111930784A CN 111930784 A CN111930784 A CN 111930784A CN 202010727904 A CN202010727904 A CN 202010727904A CN 111930784 A CN111930784 A CN 111930784A
- Authority
- CN
- China
- Prior art keywords
- power grid
- knowledge
- module
- data
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 27
- 238000003058 natural language processing Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 38
- 238000004458 analytical method Methods 0.000 claims description 17
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013499 data model Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 239000003607 modifier Substances 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 claims description 3
- 238000010219 correlation analysis Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电网知识图谱构建方法及其系统,旨在解决现有技术中电网技术领域缺乏实用、高效的知识图谱构建工具的技术问题。其包括:收集电网相关内容整理电网语料;根据电网语料构建并训练自然语言处理模型;基于自然语言处理模型进行电网知识抽取,并将抽取结果存入图结构数据库。本发明可以应有效抽取电网知识,构建电网领域的知识图谱,为后续的知识图谱应用提供支持保障。
Description
技术领域
本发明涉及一种电网知识图谱构建方法及其系统,属于电网知识图谱技术领域。
背景技术
电网包含发电、输电和配电三大环节,整个物理结构就是一个庞大且复杂的网络,由于电网物理结构的特性,采用图数据结构创建电网数据模型是非常贴合的,而且图数据结构不存在关联外键,由关系节点之间关联,性能较传统数据结构具有巨大提升。
知识图谱是一个技术体系,包含多种技术如知识表示、知识抽取、知识推理、知识检索等等,知识图谱可用于问答系统、逻辑校核和智能搜索等场景。目前,市面上针对电网领域的知识图谱构建很少,只有阿里巴巴推出了一个电网场景知识图谱构建工具,但是该工具严重依赖电网技术专家,在使用中需要专家纠错,且只针对部分类文本数据场景,没有收集电网领域内数据,没有做相关基础语言模型训练,没有整理庞大但是精度有保障的结构化关系型数据,所以实用性相对较低。
发明内容
针对现有技术中电网技术领域缺乏实用、高效的知识图谱构建工具的问题,本发明提出了一种电网知识图谱构建方法及其系统,充分考虑电网中各类数据的情况,对电网文本类业务数据、理论知识类数据和关系型数据分别进行收集抽取,构建实用化的电网领域知识图谱。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提出了一种电网知识图谱构建方法,具体包括如下步骤:
S1、收集电网相关内容整理电网语料;
S2、根据电网语料构建并训练自然语言处理模型;
S3、基于自然语言处理模型进行电网知识抽取,并将抽取结果存入图结构数据库。
结合第一方面,进一步的,所述步骤S1具体包括如下步骤:
S11、构建专业名词类字典,所述字典包括电网机构、电网专业、问答素语、属性特征、对象关系字典;
S12、收集并整理电网理论知识类文档、电网调度类操作日志、电网调度类预案类文档和安全操作规范,生成电网文本类语料;
S13、整理电网同义词语料,确定电网领域的属性同义词和替换类同义词。
结合第一方面,进一步的,所述自然语言处理模型包括N-gram模型、LSTM+CRF模型、Word2vec模型和deepwalk模型。
结合第一方面,进一步的,所述步骤S3具体包括如下步骤:
S31、获取待处理的电网数据,将其分为结构化关系型数据和非结构化文本类数据;
S32、基于Spark处理结构化关系型数据,进行知识抽取并将抽取结果存入图结构数据库;
S33、基于自然语言处理模型处理非结构化文本类数据,进行知识抽取并将抽取结果存入图结构数据库。
结合第一方面,进一步的,所述步骤S32的具体操作如下:
S321、从结构化关系型数据中选取关系表,逐一设置每个关系表的表名和关系表别名集;
S322、选择关系表属性,设置属性名称和属性别名集;
S323、选择关系表外键,设置关系名称和关系别名集,并设置关系指向方向以及是否需要反向;
S324、选择外键对应的关联表及关联字段,结合步骤S321、S322、S323生成三元组;
S325、配置Spark-Neo4j集群,将三元组存入Neo4j图形数据库中。
结合第一方面,进一步的,步骤S32还包括如下步骤:
根据大数据实时处理技术处理电网实时运行数据,生成实时数据库,对实时数据库中的数据重复步骤S321-S325的操作,更新Neo4j图形数据库。
结合第一方面,进一步的,步骤S33的具体操作如下:
S331、导入待处理的文本数据集,根据文本格式设置文本解析规则,将文本数据集划分为多个段落;
S332、根据标点符号将步骤S331得到的每个段落划分为多个句子;
S333、按顺序选取一个句子,根据自然语言处理模型进行分词和命名实体识别操作,提取句子中的实体信息;
S334、根据依存句法分析判断句子结构,获取句子中核心实体的修饰词、限制词,并与步骤S11中的属性字典做关联分析,填充实体属性;
S335、根据所选句子的上下句子确定实体间关系;
S336、利用实体、实体属性和实体间关系构成三元组;
S337、将三元组与存有关系型数据的Neo4j图形数据库进行校核,当校核无误,将三元组存入Neo4j图形数据库,当校核有误,将所选句子缓存到备用库中;
S338、重复步骤S333- S336,遍历文本数据集的每个句子;
S339、判断备用库是否为空,当备用库为空,结束操作,当备用库不为空,进入下一步;
S3310、判断备用库是否经历过循环,当备用库没有经历过循环,遍历备用库中的句子,重复步骤S333- S336,并三元组与经过步骤S338循环后的Neo4j图形数据库做校核,当备用库经历过循环,将备用库中的句子通过可视化工具交由相关业务专家处理修正,并清除备用库中的数据,结束操作。
第二方面,本发明提出了一种电网知识图谱构建系统,包括:
电网数据存储模块,用于存储电网理论知识类文档、电网调度类操作日志、电网调度类预案类文档和安全操作规范,关联电网的关系型数据库和实时数据库;
自然语言处理模块,用于根据自然语言处理模型处理电网中的非结构化文本类数据,进行知识抽取;
Spark大数据处理模块,用于基于Spark处理电网中的结构化关系型数据,进行知识抽取;
规则引擎模块,用于处理电网中的数学公式,进行知识抽取;
电网知识库,用于存储自然语言处理模块、Spark大数据处理模块和规则引擎模块抽取的电网知识;
知识图谱模块,用于根据电网知识库构建图向量;
工具展示模块,用于显示电网内的文本类数据、操作电网内的关系型数据、维护电网领域同义词。
结合第二方面,进一步的,所述自然语言处理模块包括实体链接模块、命名实体识别模块、实体关系识别模块、特征属性提取模块、关键词提取模块、依存句法分析模块、语义解析模块、场景切换分析模块、同义词构建模块。
结合第二方面,进一步的,所述Spark大数据处理模块包括表信息提取模块、字段别名模块、数据模型整理模块。
与现有技术相比,本发明所达到的有益效果:
本发明提供了一种电网知识图谱构建方法及其系统,通过对电网领域数据的充分理解构建电网语料,并针对性的训练自然语言基础处理模型,有效提高后续自然语言处理的准确定和可靠性。在知识抽取入库过程中,根据电网中数据的结构本发明提供了两种处理方法,一个是利用spark技术对电网中大量复杂关系型数据进行知识抽取入库,其处理效率高、效果好,另一个是采用高精度结构化数据对电网内文本类数据做校核,并根据新生成的知识库做到动态校核历史步骤遗留非结果化文本知识,有效提高了校核结果的准确性,最大限度的完成非结构化文本类数据的知识抽取入库。此外,本发明中两次校核都不成功的文本会交由技术专家处理,确保知识抽取正确。
本发明可以应对电网中复杂多样的数据来源,做到知识有效抽取,构建电网领域的知识图谱,为后续的知识图谱应用提供支持保障,相比于现有技术,本发明的自动化程度高,对技术专家的依赖不高,智能化和实用性都更好。
附图说明
图1是本发明一种电网知识图谱构建方法的步骤流程图。
图2为本发明实施例中结构化关系型数据知识抽取的步骤流程图。
图3为本发明实施例中非结构化文本类数据知识抽取的步骤流程图。
图4为本发明一种电网知识图谱构建系统的结构示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提出了一种电网知识图谱构建方法,如图1所示,具体包括如下步骤:
S1、收集电网相关内容整理电网语料。语料是自然语言处理的基础,而电网领域与普通开放领域差距很大,专有名词非常多,而且有大量习惯用语和不一样意思的简称,为了确保后续处理的准确性和可靠性,本发明通过收集电网内相关内容来整理电网语料:
S11、构建专业名词类字典,字典具体包括电网机构、电网专业、问答素语、属性特征、对象关系等字典,其中,电网机构为区域厂站名称、电网电力公司名称等机构名词,具有明显的区域特征,往往需要根据实际情况构建,无法通用,其他字典基本可以通用。
S12、收集并整理电网理论知识类文档、电网调度类操作日志、电网调度类预案类文档和安全操作规范,生成电网文本类语料,其中电网理论知识类文档包含专业名词类解释、现象类解释和数学公式抽取等,电网调度类预案类文档包括电网故障预案等。
S13、整理电网同义词语料,确定电网领域的属性同义词和替换类同义词,本发明中的同义词不仅仅是文学中的同义词,而是针对电网领域物理含义的同义词,比如电压、电压等级、最高电压等级等字眼,本发明会全部替换为电压,此外电网中的所有量纲单位全部要替换为中文,比如将kv、KV全部替换为千伏等。
S2、根据电网语料构建并训练自然语言处理模型,本发明中的自然语言处理模型包括N-gram模型、LSTM+CRF模型、Word2vec模型和deepwalk模型,具体构建过程如下:
S21、根据电网文本类语料和字典训练N-gram模型,并训练2元模型,构建词网,提高分词精度。
S22、根据电网文本类语料和字典构建并训练LSTM+CRF模型,用于在后续自然语言处理中进行命名实体识别,由于电网语料标准难度较大,所以需要大规模训练,大量测试中可以发现实体提取错误的补救手段。
S23、根据分词结果训练Word2vec模型,基于电网文本类语料和字典,在分词后训练Word2vec模型,构建词向量,要求考虑段落和句子,比如句子开头加begin,句子末尾加end,如果窗口较大时,需要考虑句子长度,适当增加begin和end的个数,训练模型时,负采样是必须的参数之一。
S24、根据电网知识训练deepwalk模型,当知识库完成后,训练deepwalk模型,构建图向量,为知识推理和图节点聚类社区分析等图算法使用。
S25、进行文本分类,针对不同场景选择不同的字典和自然语言处理模型。
S3、基于自然语言处理模型进行电网知识抽取,并将抽取结果存入图结构数据库。当基础数据模型装备好之后,进入业务逻辑过程,具体包括如下步骤:
S31、获取待处理的电网数据,将其分为结构化关系型数据和非结构化文本类数据。
S32、基于Spark处理结构化关系型数据,进行知识抽取并将抽取结果存入图结构数据库,如图2所示,具体操作如下:
S321、从结构化关系型数据中选取关系表,逐一设置每个关系表的表名和关系表别名集,就像人有小名一样,电网中的一些设备也会有本领域内人员常叫的别名,设置名称和别名可以增加知识描述的泛化能力,这一步一般由相关工作人员处理。
S322、选择关系表属性,设置属性名称和属性别名集,属性别名集有一定的复用性。
S323、选择关系表外键,设置关系名称和关系别名集,并设置关系指向方向以及是否需要反向。
S324、选择外键对应的关联表及关联字段,结合步骤S321、S322、S323生成三元组。
S325、配置Spark-Neo4j集群,将三元组存入Neo4j图形数据库中。
由于电网工作过程中会不停的生成新的关系型数据,为了保证知识图谱的完整、准确,本发明还具有大数据实时处理的功能,根据大数据实时处理技术处理电网实时运行数据,生成实时数据库,对实时数据库中的数据重复步骤S321-S325的操作,更新Neo4j图形数据库。
S33、基于自然语言处理模型处理非结构化文本类数据,进行知识抽取并将抽取结果存入图结构数据库,如图3所示,具体操作如下:
S331、导入待处理的文本数据集,根据文本格式设置文本解析规则,将文本数据集划分为多个段落。文本解析规则一般情况下不能复用 ,需要根据具体的文档设置,文本解析规则可以根据文档格式等定义知识段落,确定一条完整知识的内容描述,通常一条知识对应一个段落。
S332、根据标点符号将步骤S331得到的每个段落划分为多个句子,具体的可以根据中文标点符号(如句号、感叹号、分号等)划分句子。
S333、按顺序选取一个句子,根据自然语言处理模型中的N-gram模型、LSTM+CRF模型和Word2vec模型进行分词和命名实体识别操作,提取句子中的实体信息。
S334、根据依存句法分析判断句子结构,获取句子中核心实体的修饰词、限制词,并与步骤S11中的属性字典做关联分析,填充实体属性。
S335、在待处理文本数据集中查找选中的句子的上下句子,根据所选句子的上下句子确定实体间关系。
S336、利用实体、实体属性和实体间关系构成三元组。
S337、将三元组与存有关系型数据的Neo4j图形数据库(步骤S32处理后的Neo4j图形数据库)进行校核,当校核无误,将三元组存入Neo4j图形数据库,当校核有误,将所选句子缓存到备用库中,等待后续处理。
S338、重复步骤S333- S336,遍历文本数据集的每个句子,完成文本数据集循环。
S339、判断备用库是否为空,当备用库为空,结束操作,当备用库不为空,进入下一步。
S3310、判断备用库是否经历过循环,当备用库没有经历过循环,遍历备用库中的句子,重复步骤S333- S336,并将备用库中句子生成的三元组与经过步骤S338循环后的Neo4j图形数据库(最新的Neo4j图形数据库)做校核,完成知识存储,清除备用库中存储到Neo4j图形数据库中的句子;当备用库经历过循环,此时仍没有被清空的句子是本发明知识库难以处理的知识,需要将备用库中的句子通过可视化工具交由相关业务专家处理修正,并清除备用库中的数据,结束操作。
本发明还提出了一种电网知识图谱构建系统,如图4所示,包括电网数据存储模块、自然语言处理模块、Spark大数据处理模块、规则引擎模块、电网知识库、知识图谱模块和工具展示模块,电网数据存储模块主要用于存储电网理论知识类文档、电网调度类操作日志、电网调度类预案类文档和安全操作规范,关联电网的关系型数据库和实时数据库;自然语言处理模块主要用于根据自然语言处理模型处理电网中的非结构化文本类数据,进行知识抽取;Spark大数据处理模块主要用于基于Spark处理电网中的结构化关系型数据,进行知识抽取;规则引擎模块主要用于处理电网中的数学公式,进行知识抽取;电网知识库主要用于存储自然语言处理模块、Spark大数据处理模块和规则引擎模块抽取的电网知识;知识图谱模块主要用于根据电网知识库构建图向量;工具展示模块主要用于显示电网内的文本类数据、操作电网内的关系型数据、维护电网领域同义词。
本发明中的自然语言处理模块包括实体链接模块、命名实体识别模块、实体关系识别模块、特征属性提取模块、关键词提取模块、依存句法分析模块、语义解析模块、场景切换分析模块、同义词构建模块。本发明中的Spark大数据处理模块包括表信息提取模块、字段别名模块、数据模型整理模块。
本发明通过自然语言处理模块处理电网内的文本类数据,采用高精度结构化数据对电网内文本类数据做校核,并根据新生成的知识库做到动态校核历史步骤遗留非结果化文本知识,有效提高了校核结果的准确性,由于电网领域具有数据量极其庞大、关系错整复杂的关系型数据和较多的理论计算公式,所以本发明还引入了Spark大数据处理和规则引擎等技术,利用spark技术对电网中的关系型数据进行知识抽取入库,提高关系型数据的处理效率和处理效果,利用规则引擎结合图数据库处理电网理论公式。相比于现有技术,本发明的自动化程度高,处理效果好,对技术专家的依赖不高,智能化和实用性都更好。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种电网知识图谱构建方法,其特征在于,包括如下步骤:
S1、收集电网相关内容整理电网语料;
S2、根据电网语料构建并训练自然语言处理模型;
S3、基于自然语言处理模型进行电网知识抽取,并将抽取结果存入图结构数据库。
2.根据权利要求1所述的一种电网知识图谱构建方法,其特征在于,所述步骤S1具体包括如下步骤:
S11、构建专业名词类字典,所述字典包括电网机构、电网专业、问答素语、属性特征、对象关系字典;
S12、收集并整理电网理论知识类文档、电网调度类操作日志、电网调度类预案类文档和安全操作规范,生成电网文本类语料;
S13、整理电网同义词语料,确定电网领域的属性同义词和替换类同义词。
3.根据权利要求1所述的一种电网知识图谱构建方法,其特征在于,所述自然语言处理模型包括N-gram模型、LSTM+CRF模型、Word2vec模型和deepwalk模型。
4.根据权利要求1所述的一种电网知识图谱构建方法,其特征在于,所述步骤S3具体包括如下步骤:
S31、获取待处理的电网数据,将其分为结构化关系型数据和非结构化文本类数据;
S32、基于Spark处理结构化关系型数据,进行知识抽取并将抽取结果存入图结构数据库;
S33、基于自然语言处理模型处理非结构化文本类数据,进行知识抽取并将抽取结果存入图结构数据库。
5.根据权利要求4所述的一种电网知识图谱构建方法,其特征在于,所述步骤S32的具体操作如下:
S321、从结构化关系型数据中选取关系表,逐一设置每个关系表的表名和关系表别名集;
S322、选择关系表属性,设置属性名称和属性别名集;
S323、选择关系表外键,设置关系名称和关系别名集,并设置关系指向方向以及是否需要反向;
S324、选择外键对应的关联表及关联字段,结合步骤S321、S322、S323生成三元组;
S325、配置Spark-Neo4j集群,将三元组存入Neo4j图形数据库中。
6.根据权利要求5所述的一种电网知识图谱构建方法,其特征在于,步骤S32还包括如下步骤:
根据大数据实时处理技术处理电网实时运行数据,生成实时数据库,对实时数据库中的数据重复步骤S321-S325的操作,更新Neo4j图形数据库。
7.根据权利要求6所述的一种电网知识图谱构建方法,其特征在于,步骤S33的具体操作如下:
S331、导入待处理的文本数据集,根据文本格式设置文本解析规则,将文本数据集划分为多个段落;
S332、根据标点符号将步骤S331得到的每个段落划分为多个句子;
S333、按顺序选取一个句子,根据自然语言处理模型进行分词和命名实体识别操作,提取句子中的实体信息;
S334、根据依存句法分析判断句子结构,获取句子中核心实体的修饰词、限制词,并与步骤S11中的属性字典做关联分析,填充实体属性;
S335、根据所选句子的上下句子确定实体间关系;
S336、利用实体、实体属性和实体间关系构成三元组;
S337、将三元组与存有关系型数据的Neo4j图形数据库进行校核,当校核无误,将三元组存入Neo4j图形数据库,当校核有误,将所选句子缓存到备用库中;
S338、重复步骤S333- S336,遍历文本数据集的每个句子;
S339、判断备用库是否为空,当备用库为空,结束操作,当备用库不为空,进入下一步;
S3310、判断备用库是否经历过循环,当备用库没有经历过循环,遍历备用库中的句子,重复步骤S333- S336,并三元组与经过步骤S338循环后的Neo4j图形数据库做校核,当备用库经历过循环,将备用库中的句子通过可视化工具交由相关业务专家处理修正,并清除备用库中的数据,结束操作。
8.一种电网知识图谱构建系统,其特征在于,包括:
电网数据存储模块,用于存储电网理论知识类文档、电网调度类操作日志、电网调度类预案类文档和安全操作规范,关联电网的关系型数据库和实时数据库;
自然语言处理模块,用于根据自然语言处理模型处理电网中的非结构化文本类数据,进行知识抽取;
Spark大数据处理模块,用于基于Spark处理电网中的结构化关系型数据,进行知识抽取;
规则引擎模块,用于处理电网中的数学公式,进行知识抽取;
电网知识库,用于存储自然语言处理模块、Spark大数据处理模块和规则引擎模块抽取的电网知识;
知识图谱模块,用于根据电网知识库构建图向量;
工具展示模块,用于显示电网内的文本类数据、操作电网内的关系型数据、维护电网领域同义词。
9.根据权利要求8所述的一种电网知识图谱构建系统,其特征在于,所述自然语言处理模块包括实体链接模块、命名实体识别模块、实体关系识别模块、特征属性提取模块、关键词提取模块、依存句法分析模块、语义解析模块、场景切换分析模块、同义词构建模块。
10.根据权利要求8所述的一种电网知识图谱构建系统,其特征在于,所述Spark大数据处理模块包括表信息提取模块、字段别名模块、数据模型整理模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727904.XA CN111930784B (zh) | 2020-07-23 | 2020-07-23 | 一种电网知识图谱构建方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010727904.XA CN111930784B (zh) | 2020-07-23 | 2020-07-23 | 一种电网知识图谱构建方法及其系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111930784A true CN111930784A (zh) | 2020-11-13 |
CN111930784B CN111930784B (zh) | 2022-08-09 |
Family
ID=73314666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010727904.XA Active CN111930784B (zh) | 2020-07-23 | 2020-07-23 | 一种电网知识图谱构建方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111930784B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347314A (zh) * | 2020-11-20 | 2021-02-09 | 国网信通亿力科技有限责任公司 | 一种基于图数据库的数据资源管理系统 |
CN112395427A (zh) * | 2020-12-01 | 2021-02-23 | 北京中电普华信息技术有限公司 | 一种技术标准知识图谱的构建方法及系统 |
CN112419091A (zh) * | 2020-11-26 | 2021-02-26 | 武汉大学 | 知识图谱驱动的配电网现场作业视频智能安全管控方法 |
CN112417220A (zh) * | 2020-11-20 | 2021-02-26 | 国家电网有限公司大数据中心 | 一种异构数据的整合方法 |
CN112418736A (zh) * | 2020-12-15 | 2021-02-26 | 深圳供电局有限公司 | 一种基于图数据库的电网调度方法及系统 |
CN112528041A (zh) * | 2020-12-17 | 2021-03-19 | 贵州电网有限责任公司 | 一种基于知识图谱的调度用语规范验证方法 |
CN112613315A (zh) * | 2020-12-29 | 2021-04-06 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
CN112685608A (zh) * | 2020-12-30 | 2021-04-20 | 北京科东电力控制系统有限责任公司 | 一种基于cypher的电网调度领域知识属性图模型构建方法 |
CN112885352A (zh) * | 2021-01-26 | 2021-06-01 | 广东电网有限责任公司 | 一种语料库的构建方法、装置、计算机设备及存储介质 |
CN112905804A (zh) * | 2021-02-22 | 2021-06-04 | 国网电力科学研究院有限公司 | 一种电网调度知识图谱的动态更新方法及装置 |
CN113220903A (zh) * | 2021-05-19 | 2021-08-06 | 云南电网有限责任公司电力科学研究院 | 一种基于知识图谱的电力事故可视化分析系统及方法 |
CN113761207A (zh) * | 2021-09-14 | 2021-12-07 | 广州汇通国信科技有限公司 | 一种基于textCNN模型和知识图谱的电网数据分类方法及装置 |
CN113779255A (zh) * | 2021-09-13 | 2021-12-10 | 广州汇通国信科技有限公司 | 一种基于lstm神经网络和知识图谱的识别方法及装置 |
CN113918512A (zh) * | 2021-10-22 | 2022-01-11 | 国家电网公司华中分部 | 电网运行规则知识图谱构建系统及方法 |
CN113961424A (zh) * | 2021-10-28 | 2022-01-21 | 建信金融科技有限责任公司 | 分布式系统的故障预测方法以及故障预测装置 |
CN114648419A (zh) * | 2022-03-30 | 2022-06-21 | 云智慧(北京)科技有限公司 | 基于智慧变电站数字孪生系统知识图谱及创建和使用方法 |
CN114911943A (zh) * | 2021-10-29 | 2022-08-16 | 上海宝信软件股份有限公司 | 基于知识图谱的经营指标体系构建方法和系统 |
CN115344717A (zh) * | 2022-10-18 | 2022-11-15 | 国网江西省电力有限公司电力科学研究院 | 面向多类型供用能系统调控运行知识图谱构建方法及装置 |
CN117194682A (zh) * | 2023-11-07 | 2023-12-08 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117574875A (zh) * | 2024-01-08 | 2024-02-20 | 成都愿景仿视科技有限公司 | 一种自然语言理解建模方法 |
CN117633540A (zh) * | 2024-01-25 | 2024-03-01 | 杭州阿里云飞天信息技术有限公司 | 样本数据构建方法及装置 |
CN112418736B (zh) * | 2020-12-15 | 2024-10-22 | 深圳供电局有限公司 | 一种基于图数据库的电网调度方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN111414491A (zh) * | 2020-04-14 | 2020-07-14 | 广州劲源科技发展股份有限公司 | 一种电网行业知识图谱构建方法和装置以及设备 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
-
2020
- 2020-07-23 CN CN202010727904.XA patent/CN111930784B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN111414491A (zh) * | 2020-04-14 | 2020-07-14 | 广州劲源科技发展股份有限公司 | 一种电网行业知识图谱构建方法和装置以及设备 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347314A (zh) * | 2020-11-20 | 2021-02-09 | 国网信通亿力科技有限责任公司 | 一种基于图数据库的数据资源管理系统 |
CN112417220A (zh) * | 2020-11-20 | 2021-02-26 | 国家电网有限公司大数据中心 | 一种异构数据的整合方法 |
CN112419091A (zh) * | 2020-11-26 | 2021-02-26 | 武汉大学 | 知识图谱驱动的配电网现场作业视频智能安全管控方法 |
CN112419091B (zh) * | 2020-11-26 | 2022-07-08 | 武汉大学 | 知识图谱驱动的配电网现场作业视频智能安全管控方法 |
CN112395427A (zh) * | 2020-12-01 | 2021-02-23 | 北京中电普华信息技术有限公司 | 一种技术标准知识图谱的构建方法及系统 |
CN112418736A (zh) * | 2020-12-15 | 2021-02-26 | 深圳供电局有限公司 | 一种基于图数据库的电网调度方法及系统 |
CN112418736B (zh) * | 2020-12-15 | 2024-10-22 | 深圳供电局有限公司 | 一种基于图数据库的电网调度方法及系统 |
CN112528041A (zh) * | 2020-12-17 | 2021-03-19 | 贵州电网有限责任公司 | 一种基于知识图谱的调度用语规范验证方法 |
CN112613315A (zh) * | 2020-12-29 | 2021-04-06 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
CN112613315B (zh) * | 2020-12-29 | 2024-06-07 | 重庆农村商业银行股份有限公司 | 一种文本知识自动抽取方法、装置、设备及存储介质 |
CN112685608A (zh) * | 2020-12-30 | 2021-04-20 | 北京科东电力控制系统有限责任公司 | 一种基于cypher的电网调度领域知识属性图模型构建方法 |
CN112885352A (zh) * | 2021-01-26 | 2021-06-01 | 广东电网有限责任公司 | 一种语料库的构建方法、装置、计算机设备及存储介质 |
CN112905804A (zh) * | 2021-02-22 | 2021-06-04 | 国网电力科学研究院有限公司 | 一种电网调度知识图谱的动态更新方法及装置 |
CN112905804B (zh) * | 2021-02-22 | 2022-08-26 | 国网电力科学研究院有限公司 | 一种电网调度知识图谱的动态更新方法及装置 |
CN113220903A (zh) * | 2021-05-19 | 2021-08-06 | 云南电网有限责任公司电力科学研究院 | 一种基于知识图谱的电力事故可视化分析系统及方法 |
CN113220903B (zh) * | 2021-05-19 | 2023-01-20 | 云南电网有限责任公司电力科学研究院 | 一种基于知识图谱的电力事故可视化分析系统及方法 |
CN113779255A (zh) * | 2021-09-13 | 2021-12-10 | 广州汇通国信科技有限公司 | 一种基于lstm神经网络和知识图谱的识别方法及装置 |
CN113761207A (zh) * | 2021-09-14 | 2021-12-07 | 广州汇通国信科技有限公司 | 一种基于textCNN模型和知识图谱的电网数据分类方法及装置 |
CN113918512A (zh) * | 2021-10-22 | 2022-01-11 | 国家电网公司华中分部 | 电网运行规则知识图谱构建系统及方法 |
CN113918512B (zh) * | 2021-10-22 | 2024-08-13 | 国家电网公司华中分部 | 电网运行规则知识图谱构建系统及方法 |
CN113961424A (zh) * | 2021-10-28 | 2022-01-21 | 建信金融科技有限责任公司 | 分布式系统的故障预测方法以及故障预测装置 |
CN114911943A (zh) * | 2021-10-29 | 2022-08-16 | 上海宝信软件股份有限公司 | 基于知识图谱的经营指标体系构建方法和系统 |
CN114648419A (zh) * | 2022-03-30 | 2022-06-21 | 云智慧(北京)科技有限公司 | 基于智慧变电站数字孪生系统知识图谱及创建和使用方法 |
CN115344717A (zh) * | 2022-10-18 | 2022-11-15 | 国网江西省电力有限公司电力科学研究院 | 面向多类型供用能系统调控运行知识图谱构建方法及装置 |
CN117194682A (zh) * | 2023-11-07 | 2023-12-08 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117194682B (zh) * | 2023-11-07 | 2024-03-01 | 国网浙江省电力有限公司营销服务中心 | 构建基于电网相关文件的知识图谱的方法、装置及介质 |
CN117574875A (zh) * | 2024-01-08 | 2024-02-20 | 成都愿景仿视科技有限公司 | 一种自然语言理解建模方法 |
CN117574875B (zh) * | 2024-01-08 | 2024-04-26 | 成都愿景仿视科技有限公司 | 一种自然语言理解建模方法 |
CN117633540A (zh) * | 2024-01-25 | 2024-03-01 | 杭州阿里云飞天信息技术有限公司 | 样本数据构建方法及装置 |
CN117633540B (zh) * | 2024-01-25 | 2024-04-30 | 杭州阿里云飞天信息技术有限公司 | 样本数据构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111930784B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930784B (zh) | 一种电网知识图谱构建方法及其系统 | |
CN113112164A (zh) | 基于知识图谱的变压器故障诊断方法、装置及电子设备 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN104657439A (zh) | 用于自然语言精准检索的结构化查询语句生成系统及方法 | |
CN101013443A (zh) | 一种智能组词输入的方法和一种输入法系统及其更新方法 | |
CN104657440A (zh) | 结构化查询语句生成系统及方法 | |
CN113032418B (zh) | 一种基于树状模型的复杂自然语言查询转sql方法 | |
KR100835706B1 (ko) | 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 | |
CN114077674A (zh) | 一种电网调度知识图谱数据优化方法及系统 | |
CN105608232A (zh) | 一种基于图形数据库的bug知识建模方法 | |
CN111914534A (zh) | 构建知识图谱语义映射方法及系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN116628173A (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN114625748A (zh) | Sql查询语句的生成方法、装置、电子设备及可读存储介质 | |
CN117251455A (zh) | 一种基于大模型的智能报表生成方法及其系统 | |
Shen et al. | SPSQL: Step-by-step parsing based framework for text-to-SQL generation | |
KR102345568B1 (ko) | 자연어 단어를 데이터베이스의 컬럼 및 테이블과 연결하는 방법 | |
CN113779200A (zh) | 目标行业词库的生成方法、处理器及装置 | |
Tao et al. | A Cross-Field Construction Method of Chinese Tourism Knowledge Graph based on Expasion and Adjustment of Entities | |
CN117828007B (zh) | 基于自然语言处理的建设征地移民档案管理方法及系统 | |
CN118627613A (zh) | 一种基于大语言模型的核电dcs智能问答方法和系统 | |
Li et al. | Database Design on Corpus System for Chinese-English Translation of Scientific Papers [J] | |
Feng et al. | Rule-Based Attractions Describe Paragraph Information Extraction | |
Jing | Analysis of the problem of semantic heterogeneity in the integration of railway system | |
CN117951156A (zh) | 一种基于LlamaIndex和DB-GPT的大模型自然语言转换为SQL方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |