CN117763155A - 配电网规划多源异构数据的知识图谱构建方法及相关设备 - Google Patents
配电网规划多源异构数据的知识图谱构建方法及相关设备 Download PDFInfo
- Publication number
- CN117763155A CN117763155A CN202311477822.4A CN202311477822A CN117763155A CN 117763155 A CN117763155 A CN 117763155A CN 202311477822 A CN202311477822 A CN 202311477822A CN 117763155 A CN117763155 A CN 117763155A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- knowledge graph
- distribution network
- triplet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 88
- 238000010276 construction Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000000007 visual effect Effects 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 11
- 238000001303 quality assessment method Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012800 visualization Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 abstract description 7
- 238000011161 development Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000002253 acid Substances 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 238000009411 base construction Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本申请公开了一种配电网规划多源异构数据的知识图谱构建方法及相关设备,所述方法包括:获取配电网规划中多个数据源的文本数据,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源;基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据;基于所述三元组数据,构建知识图谱数据库;基于所述知识图谱数据库,构建可视化知识图谱。本申请可以帮助规划人员快速地从庞大的文本数据中检索到所需内容,并促进配电网规划业务数字化转型。
Description
技术领域
本申请涉及知识图谱技术领域,更具体地说,是涉及一种配电网规划多源异构数据的知识图谱构建方法及相关设备。
背景技术
作为配电网建设改造工作中的第一环,配电网规划在技术、形态和功能上正在加速转变,对效率、成本、服务更加关注,实现配电网精细化规划、精益化管理和精准化投资,是电力系统发展的重要任务。
然而,配电网涉及电压多、覆盖面广、项目繁杂、工程规模小,且配电网规划直接面向社会,与城乡发展规划、用户多元化需求、新能源和分布式电源发展密切相关,建设需求随机性大,不确定因素多,因此在配电网建设过程中不可避免会面对配电网规划的标准化问题。
国土空间规划、土地利用总体规划及中压配电网规划数据是配电网规划业务中的重要参考数据,基于规划地区的配电网发展需求,制定因地制宜的国土空间规划和土地利用总体规划,建立高质量的中压配电网规划标准,不仅能够提高配电公司规划水平,而且也能够为规划地区电网扩建、线路改造等基础设施业务提供指导。因此,为了提升配电网规划业务精益化水平,实现高效的配电网规划建设,需要规划人员对上述配电网规划数据进行系统学习。
然而,随着电力系统长时间的沉淀发展,国土空间规划、土地利用总体规划及中压配电网规划数据等配电网规划多源异构数据呈现出文本体量大、快速检索困难、人工学习效率较低的缺点。
发明内容
有鉴于此,本申请提供了一种配电网规划多源异构数据的知识图谱构建方法及相关设备,以构建配电网中多源异构数据的知识图谱,实现多源异构数据链接关系的可视化。
为实现上述目的,本申请第一方面提供了一种配电网规划多源异构数据的知识图谱构建方法,包括:
获取配电网规划中多个数据源的文本数据,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源;
基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据;
基于所述三元组数据,构建知识图谱数据库;
基于所述知识图谱数据库,构建可视化知识图谱。
优选地,基于所述三元组数据,构建知识图谱数据库的过程,包括:
对所述三元组数据进行实体消歧以及共指消解,得到知识融合后的三元组数据;
对所述融合后的三元组数据进行本体构建、知识推理以及质量评估,得到目标三元组数据;
对所述目标三元组数据构建数据库,得到知识图谱数据库。
优选地,所述大语言模型为GPT-3.5模型;所述GPT-3.5模型的训练过程,包括:
构建微调数据集;
利用所述微调数据集对预训练的GPT-3.5模型进行微调,得到训练后的GPT-3.5模型。
优选地,基于所述知识图谱数据库,构建可视化知识图谱的过程,包括:
利用图表映射和视图设计的方式,基于所述知识图谱数据库中的数据生成可视化知识图谱。
本申请第二方面提供了一种配电网规划多源异构数据的知识图谱构建装置,包括:
数据获取单元,用于获取配电网规划中多个数据源的文本数据,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源;
三元组获取单元,用于基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据;
知识图谱构建单元,用于基于所述三元组数据,构建知识图谱数据库;
知识图谱可视化单元,用于基于所述知识图谱数据库,构建可视化知识图谱。
优选地,所述知识图谱构建单元基于所述三元组数据,构建知识图谱数据库的过程,包括:
对所述三元组数据进行实体消歧以及共指消解,得到知识融合后的三元组数据;
对所述融合后的三元组数据进行本体构建、知识推理以及质量评估,得到目标三元组数据;
对所述目标三元组数据构建数据库,得到知识图谱数据库。
优选地,所述装置还包括模型训练单元,所述模型训练单元用于训练所述大语言模型;
所述大语言模型为GPT-3.5模型;
模型训练单元训练所述GPT-3.5模型的过程,包括:
构建微调数据集;
利用所述微调数据集对预训练的GPT-3.5模型进行微调,得到训练后的GPT-3.5模型。
优选地,所述知识图谱可视化单元基于所述知识图谱数据库,构建可视化知识图谱的过程,包括:
利用图表映射和视图设计的方式,基于所述知识图谱数据库中的数据生成可视化知识图谱。
本申请第三方面提供了一种配电网规划多源异构数据的知识图谱构建设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述的配电网规划多源异构数据的知识图谱构建方法的各个步骤。
本申请第四方面提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上述的配电网规划多源异构数据的知识图谱构建方法的各个步骤。
经由上述的技术方案可知,本申请首先获取配电网规划中多个数据源的文本数据,其中,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源。然后,基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据。可以理解,所述三元组数据包含“实体-关系-实体”和“实体-属性-性值”这两种形式,描述了文本数据中各实体的属性及关系等信息。接着,基于所述三元组数据,构建知识图谱数据库。例如,可以通过建立三元组表来将知识图谱存储到关系数据库中,通过构建知识图谱数据库,便于用户进行相关的检索。最后,基于所述知识图谱数据库,构建可视化知识图谱。所述可视化知识图谱建立了知识概念间的链接关系,实现了将知识体系中积累的信息组织起来,以可视化的方式向用户展示经过分类整理的结构化知识,使得人们从人工过滤知识体系寻找答案的模式中解脱出来。本申请可以帮助规划人员快速地从庞大的文本数据中检索到所需内容,并促进配电网规划业务数字化转型。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的配电网规划多源异构数据的知识图谱构建方法的示意图;
图2示例了本申请实施例公开的知识图谱的可视化效果;
图3为本申请实施例公开的配电网规划多源异构数据的知识图谱构建装置的示意图;
图4为本申请实施例公开的配电网规划多源异构数据的知识图谱构建设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面介绍本申请实施例提供的配电网规划多源异构数据的知识图谱构建方法。请参阅图1,本申请实施例提供的配电网规划多源异构数据的知识图谱构建方法可以包括如下步骤:
步骤S101,获取配电网规划中多个数据源的文本数据。
其中,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源。
国土空间规划、土地利用总体规划及中压配电网规划数据是配电网规划业务中的重要参考数据,但随着电力系统长时间的沉淀发展,这些多源异构数据呈现出文本体量大、快速检索困难、人工学习效率较低的缺点。为了解决上述问题,以提升配电网规划业务精益化水平,亟需研究融合国土空间规划、土地利用总体规划及中压配电网规划数据的多源异构数据检索技术,以挖掘数据潜在价值,推动数据应用落地,促进配电网规划业务数字化转型。
考虑到文本体量较大,可以通过自动化编程的方式自动复制原始文本数据,最终这些原始文本数据以数据库的形式存储。
步骤S102,基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据。
可以理解,所述三元组数据包含“实体-关系-实体”和“实体-属性-性值”这两种形式,描述了文本数据中各实体的属性及关系等信息。
知识图谱(Knowledge Graph)技术是实现智能化语义检索的基础和桥梁,能够以图形的方式向用户返回经过加工和推理的知识。知识图谱通常定义为一种结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。
信息抽取是知识图谱构建的第1步,能够自动化地从半结构化数据和非结构化数据中提取实体、关系和属性。其中属性数据通常可以从百科类网站的大量结构化数据中直接获取,也可以从半结构化、非结构化的数据中挖掘实体属性(此时等价为关系提取问题)。对于实体提取和关系提取,通常通过知识抽取算法抽取数据中的三元组关系,例如微软的StatSnowball模型、哈工大的LTP语言技术平台等。目前,基于Transformer的GPT-3.5等语言大模型由于语言处理能力出色、上下文语义理解能力强,在大文本非结构化数据信息抽取方面也表现出较大潜力。
步骤S103,基于所述三元组数据,构建知识图谱数据库。
关系数据库目前仍是使用最多的数据库管理系统。基于关系的知识图谱存储方案,包括三元组表、水平表、属性表、垂直划分和六重索引等。
三元组表(triple table)是将知识图谱存储到关系数据库的最简单、最直接的办法,就是在关系数据库中建立一张具有3列的表,该表的模式为:triple_table(subject,predicate,object)。其中,subject、predicate和object这3列分别表示主语、谓语和宾语。
水平表(horizontal table)存储方案同样非常简单。水平表的每行记录存储知识图谱中一个主语的所有谓语和宾语。实际上,水平表相当于知识图谱的邻接表。水平表的列数是知识图谱中不同谓语的数量,行数是知识图谱中不同主语的数量。
属性表(property table)存储方案是对水平表的细分,将同类主语存到一个表中,解决了表中列数目过多的问题。
垂直划分(vertical partitioning)存储方案,为每种谓语建立一张两列的表(subject,object),表中存放知识图谱中由该谓语连接的主语和宾语,表的总数量即知识图谱中不同谓语的数量.
六重索引(sextuple indexing)存储方案是对三元组表的扩展,是一种典型的“空间换时间”策略,其将三元组全部6种排列对应地建立为6张表,即spo(主语,谓语,宾语)、pos(谓语,宾语,主语)、osp(宾语,主语,谓语)、sop(主语,宾语,谓语)、pso(谓语,主语,宾语)和ops(宾语,谓语,主语)。不难看出,其中spo表就是原来的三元组表。六重索引通过6张表的连接操作不仅缓解了三元组表的单表自连接问题,而且提高了某些典型知识图谱查询的效率。
步骤S104,基于所述知识图谱数据库,构建可视化知识图谱。
当关系构建好以后,简单的三元组是容易读取的,但众多三元组集成在一起,也会涉及到信息读取效率的问题,就需要将关系结构图形化,这一步骤也是传统信息可视化方法中的必然环节。根据已经构建好的数据关系结构,可通过“图表映射”和“视图设计”两种方式,进行可视化的语义转换。
本申请首先获取配电网规划中多个数据源的文本数据,其中,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源。然后,基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据。可以理解,所述三元组数据包含“实体-关系-实体”和“实体-属性-性值”这两种形式,描述了文本数据中各实体的属性及关系等信息。接着,基于所述三元组数据,构建知识图谱数据库。例如,可以通过建立三元组表来将知识图谱存储到关系数据库中,通过构建知识图谱数据库,便于用户进行相关的检索。最后,基于所述知识图谱数据库,构建可视化知识图谱。所述可视化知识图谱建立了知识概念间的链接关系,实现了将知识体系中积累的信息组织起来,以可视化的方式向用户展示经过分类整理的结构化知识,使得人们从人工过滤知识体系寻找答案的模式中解脱出来。本申请可以帮助规划人员快速地从庞大的文本数据中检索到所需内容,并促进配电网规划业务数字化转型。
在本申请的一些实施例中,步骤S103基于所述三元组数据,构建知识图谱数据库的过程,可以包括:
S1,对所述三元组数据进行实体消歧以及共指消解,得到知识融合后的三元组数据。
通过步骤S102的信息抽取,实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标,然而,这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合。
知识融合包括实体消歧和共指消解。通过知识融合,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量。实体消歧是专门用来解决同名实体产生歧义问题的技术,例如“显示”既可以指仪器显示内容也可以指动词显示。实体消歧通常使用空间向量模型、语义模型、社会网络模型等解决。共指消解是专门用来解决多个指称项对应于同一实体对象的问题,例如“开关”和“断路器”在部分场合下可能存在同义的情况,均表示断路器。共指消解可通过经典的Hobbs算法、向心理论或实体聚类等方式解决。
S2,对所述融合后的三元组数据进行本体构建、知识推理以及质量评估,得到目标三元组数据。
通过信息抽取,可以从原始语料中提取出实体、关系与属性等知识要素。再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而,事实本身并不等于知识,要想最终获得结构化、网络化的知识体系,还需要经历知识加工的过程。
知识加工主要包括3方面内容:本体构建、知识推理和质量评估。其中,本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义。本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识。例如,“断路器”、“隔离开关”等实体都可以归纳为“一次设备-开关类”本体,它们都具备可开关属性。本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。例如微软的Probase本体库就是采用数据驱动的自动化构建方法,利用统计机器学习算法迭代地从网页文本数据中抽取出概念之间的“IsA”关系,然后合并形成概念层次。
知识推理是是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络.知识推理是知识图谱构建的重要手段和关键环节,通过知识推理,能够从现有知识中发现新的知识。质量评估也是知识库构建技术的重要组部分。
受现有技术水平的限制,采用开放域信息抽取技术得到的知识元素有可能存在错误(如实体识别错误、关系抽取错误等),经过知识推理得到的知识的质量同样也是没有保障的,因此在将其加入知识库之前,需要有一个质量评估的过程;随着开放关联数据项目的推进,各子项目所产生的知识库产品间的质量差异也在增大,数据间的冲突日益增多,如何对其质量进行评估,对于全局知识图谱的构建起着重要的作用。引入质量评估的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识,可以保障知识库的质量。
S3,对所述目标三元组数据构建数据库,得到知识图谱数据库。
将处理结果构建为知识图谱数据库,最终形成面向规划人员的配电网规划多源异构数据可视化知识图谱。将上述“实体-关系-实体”和“实体-属性-性值”处理结果构建为知识图谱数据库,即可形成可视化的知识图谱,便于规划人员检索。可以采用Neo4j作为知识图谱数据库,Neo4j是由Java实现的开源NoSQL图数据库,与MySQL数据库相比,Neo4j存储更加灵活,对于不同数量和深度均能确保零延迟,具有免索引邻接属性,支持ACID特性,提供了查询与展示一体可视化界面。
在本申请的一些实施例中,步骤S102中提及的大语言模型为GPT-3.5模型;所述GPT-3.5模型的训练过程,可以包括:
S1,构建微调数据集。
S2,利用所述微调数据集对预训练的GPT-3.5模型进行微调,得到训练后的GPT-3.5模型。
虽然GPT模型进行微调确实能够提高其在特定任务上的性能,但这并不应是首选方案。在微调之前,开发者可以先尝试通过提示工程、提示链接和函数调用来优化模型性能。与微调相比,这些策略具有更快的反馈循环,允许开发者在不创建数据集和运行训练作业的情况下迅速迭代和改进。事实上,许多初步表现不佳的任务可以通过更精确的提示而得到改善,从而免除微调。
即使在微调成为必要的情况下,早期的提示工程工作也不会浪费。实际上,最佳的微调效果通常可在使用了良好提示的数据中观察到。就是使用更加廉价,高效的方式来优化模型,在效果不佳的情况下再考虑对模型进行微调,毕竟微调需要付出更高的时间和资金成本。
微调主要用于改善模型在风格、语调、格式和特定任务方面的性能。同时,它也能有效地降低成本和延迟。
在本申请的一些实施例中,步骤S104基于所述知识图谱数据库,构建可视化知识图谱的过程,可以包括:
利用图表映射和视图设计的方式,基于所述知识图谱数据库中的数据生成可视化知识图谱。
下面列举一个具体的例子以更好地说明本申请的配电网规划多源异构数据的知识图谱构建方法。从预先准备的关于配电网规划的三个文件中分别抽取一段主题类似的文字作为数据输入,以表现出知识图谱技术在融合多源异构数据方面的优越性。例如,本节以“农”为主题,分别从这三个文件中抽取文字内容如下:
(1)统筹城镇、农业、生态空间,科学划定生态保护红线、永久基本农田和城镇开发边界三条控制线。深刻认识广州“山水城田海”的良好自然本底,以资源环境承载力评价和国土空间开发适宜性评价为基础,确定我市生态和农业空间不低于市域面积的2/3,城镇空间不高于市域面积1/3。科学划定生态保护红线、永久基本农田和城镇开发边界三条控制线。将“三区三线”作为调整经济结构、规划产业发展、推进城镇化不可逾越的红线。
(2)土地利用应落实城市生态控制线,衔接生态保护红线,严格控制各类开发活动,保障城市生态安全。将城市生态控制线纳入土地管理体系,建立以城市生态控制线为核心的管控政策,协调土地开发利用和保护的关系,监督对土地生态系统的破坏活动,加强对土地利用的生态管理。加强生态保护空间的评估与政策衔接,构建以城市生态控制线、环境资源承载力为基础的城市环境资源综合管控体系,加强对生态用地的保护、引导和建设,构筑生产、生活、生态空间协调发展的国土开发新格局。
(3)对于平常负荷率不高,特殊时期负荷激增的农村配变宜采用高过载能力配变。对于用电负荷低、用户零星分散且现有台区供电半径长的农村配变可应用10千伏单相变压器(额定容量10千伏安、20千伏安)。
针对上述文本数据建立知识图谱的步骤如下:
(1)获取三元组数据
基于知识抽取算法抽取文本数据中的“实体-关系-实体”和“实体-属性-性值”三元组数据。由上述文本数据可见,文件的特殊性质使得部分文本存在主语省略的情况,不利于知识抽取算法对三元组数据的挖掘,因此有必要对主语进行补全校正。这里采用了由OpenAI研发的基于Transformer的GPT-3.5语言大模型对文本数据中的“实体-关系-实体”和“实体-属性-性值”三元组数据进行提取。得益于Transformer模型的自注意力机制和GPT-3.5语言大模型庞大的训练语料,文本数据中的隐含语义关系能够被很好地挖掘出来。通过指令输入,得到前述文本数据“实体-关系-实体”提取结果如表1所示,“实体-属性-性值”提取结果如表2所示。
(2)对三元组数据进行知识融合
对上述提取结果进行实体消歧和共指消解处理,消除“一词多义”和“多词一义”问题。经过文本向量相似度检查和人工核查,可发现表1中存在一处“多词一义”问题,即编号2的实体2“生态保护红线控制线”和编号10的实体2“生态保护红线”属于相同含义,可归并为同一实体“生态保护红线”。
表1:“实体-关系-实体”三元组数据提取结果
表2:“实体-属性-性值”三元组数据提取结果
编号 | 实体名称 | 属性 | 值 |
1 | 10千伏单相变压器 | 额定容量 | 10千伏安、20千伏安 |
(3)对三元组数据进行知识加工
对处理后的“实体-关系-实体”和“实体-属性-性值”数据进行本体构建、知识推理和质量评估,提升数据质量。在提取的所有实体中,可按照实体性质抽象为“政府文件”、“政策”和“电力一次设备”共3种本体:“广州市国土空间规划”和“广州市土地利用规划”可抽象为“政府文件”本体,“城镇、农业、生态空间”、“生态保护红线控制线”、“城镇空间不高于市域面积1/3”、“城镇空间不高于市域面积1/3”等抽象为“政策”本体,“农村配变”、“10千伏单相变压器”、“高过载能力配变”等抽象为“电力一次设备”本体。
(4)结果展示
将上述“实体-关系-实体”和“实体-属性-性值”处理结果构建为知识图谱数据库,即可形成可视化的知识图谱,便于规划人员检索,如图2所示。项目采用Neo4j作为知识图谱数据库,Neo4j是由Java实现的开源NoSQL图数据库,与MySQL数据库相比,Neo4j存储更加灵活,对于不同数量和深度均能确保零延迟,具有免索引邻接属性,支持ACID特性,提供了查询与展示一体可视化界面。
下面对本申请实施例提供的配电网规划多源异构数据的知识图谱构建装置进行描述,下文描述的配电网规划多源异构数据的知识图谱构建装置与上文描述的配电网规划多源异构数据的知识图谱构建方法可相互对应参照。
请参见图3,本申请实施例提供的配电网规划多源异构数据的知识图谱构建装置,可以包括:
数据获取单元21,用于获取配电网规划中多个数据源的文本数据,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源;
三元组获取单元22,用于基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据;
知识图谱构建单元23,用于基于所述三元组数据,构建知识图谱数据库;
知识图谱可视化单元24,用于基于所述知识图谱数据库,构建可视化知识图谱。
在本申请的一些实施例中,知识图谱构建单元23基于所述三元组数据,构建知识图谱数据库的过程,可以包括:
对所述三元组数据进行实体消歧以及共指消解,得到知识融合后的三元组数据;
对所述融合后的三元组数据进行本体构建、知识推理以及质量评估,得到目标三元组数据;
对所述目标三元组数据构建数据库,得到知识图谱数据库。
在本申请的一些实施例中,所述配电网规划多源异构数据的知识图谱构建装置还可以包括模型训练单元,所述模型训练单元用于训练所述大语言模型。
所述大语言模型为GPT-3.5模型;
模型训练单元训练所述GPT-3.5模型的过程,可以包括:
构建微调数据集;
利用所述微调数据集对预训练的GPT-3.5模型进行微调,得到训练后的GPT-3.5模型。
在本申请的一些实施例中,知识图谱可视化单元24基于所述知识图谱数据库,构建可视化知识图谱的过程,可以包括:
利用图表映射和视图设计的方式,基于所述知识图谱数据库中的数据生成可视化知识图谱。
本申请实施例提供的配电网规划多源异构数据的知识图谱构建装置可应用于配电网规划多源异构数据的知识图谱构建设备,如计算机等。可选的,图4示出了配电网规划多源异构数据的知识图谱构建设备的硬件结构框图,参照图4,配电网规划多源异构数据的知识图谱构建设备的硬件结构可以包括:至少一个处理器31,至少一个通信接口32,至少一个存储器33和至少一个通信总线34。
在本申请实施例中,处理器31、通信接口32、存储器33、通信总线34的数量为至少一个,且处理器31、通信接口32、存储器33通过通信总线34完成相互间的通信;
处理器31可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;
存储器33可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器33存储有程序,处理器31可调用存储器33存储的程序,所述程序用于:
获取配电网规划中多个数据源的文本数据,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源;
基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据;
基于所述三元组数据,构建知识图谱数据库;
基于所述知识图谱数据库,构建可视化知识图谱。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取配电网规划中多个数据源的文本数据,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源;
基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据;
基于所述三元组数据,构建知识图谱数据库;
基于所述知识图谱数据库,构建可视化知识图谱。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
综上所述:
本申请首先获取配电网规划中多个数据源的文本数据,其中,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源。然后,基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据。可以理解,所述三元组数据包含“实体-关系-实体”和“实体-属性-性值”这两种形式,描述了文本数据中各实体的属性及关系等信息。接着,基于所述三元组数据,构建知识图谱数据库。例如,可以通过建立三元组表来将知识图谱存储到关系数据库中,通过构建知识图谱数据库,便于用户进行相关的检索。最后,基于所述知识图谱数据库,构建可视化知识图谱。所述可视化知识图谱建立了知识概念间的链接关系,实现了将知识体系中积累的信息组织起来,以可视化的方式向用户展示经过分类整理的结构化知识,使得人们从人工过滤知识体系寻找答案的模式中解脱出来。本申请可以帮助规划人员快速地从庞大的文本数据中检索到所需内容,并促进配电网规划业务数字化转型。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种配电网规划多源异构数据的知识图谱构建方法,其特征在于,包括:
获取配电网规划中多个数据源的文本数据,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源;
基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据;
基于所述三元组数据,构建知识图谱数据库;
基于所述知识图谱数据库,构建可视化知识图谱。
2.根据权利要求1所述的方法,其特征在于,基于所述三元组数据,构建知识图谱数据库的过程,包括:
对所述三元组数据进行实体消歧以及共指消解,得到知识融合后的三元组数据;
对所述融合后的三元组数据进行本体构建、知识推理以及质量评估,得到目标三元组数据;
对所述目标三元组数据构建数据库,得到知识图谱数据库。
3.根据权利要求1所述的方法,其特征在于,所述大语言模型为GPT-3.5模型;所述GPT-3.5模型的训练过程,包括:
构建微调数据集;
利用所述微调数据集对预训练的GPT-3.5模型进行微调,得到训练后的GPT-3.5模型。
4.根据权利要求1所述的方法,其特征在于,基于所述知识图谱数据库,构建可视化知识图谱的过程,包括:
利用图表映射和视图设计的方式,基于所述知识图谱数据库中的数据生成可视化知识图谱。
5.一种配电网规划多源异构数据的知识图谱构建装置,其特征在于,包括:
数据获取单元,用于获取配电网规划中多个数据源的文本数据,所述数据源包括国土空间规划数据源、土地利用总体数据源以及中压配电网规划数据源;
三元组获取单元,用于基于训练后的大语言模型获取所述多个数据的文本数据中的三元组数据;
知识图谱构建单元,用于基于所述三元组数据,构建知识图谱数据库;
知识图谱可视化单元,用于基于所述知识图谱数据库,构建可视化知识图谱。
6.根据权利要求5所述的装置,其特征在于,所述知识图谱构建单元基于所述三元组数据,构建知识图谱数据库的过程,包括:
对所述三元组数据进行实体消歧以及共指消解,得到知识融合后的三元组数据;
对所述融合后的三元组数据进行本体构建、知识推理以及质量评估,得到目标三元组数据;
对所述目标三元组数据构建数据库,得到知识图谱数据库。
7.根据权利要求5所述的装置,其特征在于,还包括模型训练单元,所述模型训练单元用于训练所述大语言模型;
所述大语言模型为GPT-3.5模型;
模型训练单元训练所述GPT-3.5模型的过程,包括:
构建微调数据集;
利用所述微调数据集对预训练的GPT-3.5模型进行微调,得到训练后的GPT-3.5模型。
8.根据权利要求5所述的装置,其特征在于,所述知识图谱可视化单元基于所述知识图谱数据库,构建可视化知识图谱的过程,包括:
利用图表映射和视图设计的方式,基于所述知识图谱数据库中的数据生成可视化知识图谱。
9.一种配电网规划多源异构数据的知识图谱构建设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~4中任一项所述的配电网规划多源异构数据的知识图谱构建方法的各个步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~4中任一项所述的配电网规划多源异构数据的知识图谱构建方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311477822.4A CN117763155A (zh) | 2023-11-07 | 2023-11-07 | 配电网规划多源异构数据的知识图谱构建方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311477822.4A CN117763155A (zh) | 2023-11-07 | 2023-11-07 | 配电网规划多源异构数据的知识图谱构建方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117763155A true CN117763155A (zh) | 2024-03-26 |
Family
ID=90309345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311477822.4A Pending CN117763155A (zh) | 2023-11-07 | 2023-11-07 | 配电网规划多源异构数据的知识图谱构建方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117763155A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014072A (zh) * | 2024-04-10 | 2024-05-10 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
-
2023
- 2023-11-07 CN CN202311477822.4A patent/CN117763155A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118014072A (zh) * | 2024-04-10 | 2024-05-10 | 中国电建集团昆明勘测设计研究院有限公司 | 水利水电工程用知识图谱的构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | Multi-attribute large-scale group decision making with data mining and subgroup leaders: An application to the development of the circular economy | |
CN110674311A (zh) | 一种基于知识图谱的电力资产异构数据融合方法 | |
CN107066599A (zh) | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 | |
Arabsheibani et al. | Land suitability assessment for locating industrial parks: a hybrid multi criteria decision‐making approach using Geographical Information System | |
CN107633093A (zh) | 一种供电决策知识图谱的构建及其查询方法 | |
CN106407208A (zh) | 一种城市管理本体知识库的构建方法及系统 | |
CN107741999B (zh) | 一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法 | |
CN117763155A (zh) | 配电网规划多源异构数据的知识图谱构建方法及相关设备 | |
CN115293507A (zh) | 面向电网调度运行管理的态势知识图谱构建方法及系统 | |
CN113434634A (zh) | 知识图谱构建方法、装置 | |
CN111538847A (zh) | 一种宁夏水稻知识图谱构建方法 | |
CN103425740A (zh) | 一种面向物联网的基于语义聚类的物资信息检索方法 | |
CN111061679A (zh) | 一种基于rete和drools规则的科技创新政策速配的方法和系统 | |
CN115757810A (zh) | 一种知识图谱标准本体构建方法 | |
CN114117065A (zh) | 基于电力生产统计业务的知识图谱构建方法及系统 | |
Chen et al. | Spatio-temporal knowledge graph for meteorological risk analysis | |
Tang et al. | Automatic schema construction of electrical graph data platform based on multi-source relational data models | |
CN114218291A (zh) | 基于目标对象的画像生成方法、装置、设备及存储介质 | |
CN106250456A (zh) | 一种中标公告的抽取方法及装置 | |
CN103365960A (zh) | 电力多级调度管理结构化数据的离线搜索方法 | |
Yang et al. | Knowledge mapping in electricity demand forecasting: A scientometric insight | |
CN117312531A (zh) | 知识图谱增强的基于大语言模型配电网故障归因分析方法 | |
Wu et al. | Knowledge map application of business-oriented problem solving | |
Eibeck et al. | A simple and efficient approach to unsupervised instance matching and its application to linked data of power plants | |
Olawumi et al. | Scientometric review and analysis: A case example of smart buildings and smart cities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |