CN116010662A

CN116010662A - 一种能源消费-碳排放查询系统的构建方法、装置及介质

Info

Publication number: CN116010662A
Application number: CN202310118880.1A
Authority: CN
Inventors: 杨馥源; 王新雷; 田雪沁; 洪亮; 朱玲玲; 陈吴晓; 蔡雨晴; 胡泽延; 宋微浪
Original assignee: State Grid Fujian Electric Power Co Ltd; State Grid Economic and Technological Research Institute; Marketing Service Center of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Fujian Electric Power Co Ltd; State Grid Economic and Technological Research Institute; Marketing Service Center of State Grid Fujian Electric Power Co Ltd
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-04-25

Abstract

本发明涉及一种基于领域知识图谱的能源消费‑碳排放查询系统的构建方法、装置及介质，所述方法包括：建立领域知识图谱的模式层；获取用于构建基于领域知识图谱的查询系统的多源异构数据源；基于预设的提取模型提取所述多源异构数据源的数据知识特征；根据提取的所述数据知识特征进行知识融合，在设定图数据库平台上构建领域知识图谱；接收客户端发送的查询指令，根据所述查询指令在所述领域知识图谱中进行检索，并输出对应的检索报告。本发明技术方案，能够构建针对特定领域信息的查询系统，便于用户对该特定领域的信息进行精准检索，提高查询效率，并便于企业基于该特定领域的信息进行特定领域的决策。

Description

一种能源消费-碳排放查询系统的构建方法、装置及介质

技术领域

本发明涉及人工智能技术领域，特别是关于一种基于领域知识图谱的查询系统的构建方法、装置及计算机可读存储介质。

背景技术

随着互联网技术的发展，人们越来越依赖于从互联网检索信息，并基于检索到的信息进行决策。

因此，越来越多的搜索引擎被开发出来，用以满足人们对信息的渴求。然而，本申请的发明人在研究中发现，一方面随着数据规模的急剧增加，增加了精准检索的难度，另一方面由于传统搜索引擎通常都涉及大量普通领域的知识，对于特定领域知识的信息往往比较分散，越来越难以精准地查询到正确的信息，企业也越来越难以获得用以支持正确决策的数据。

发明内容

针对上述问题，本申请的目的是提供一种基于领域知识图谱的查询系统构建方法、装置，能够构建针对特定领域信息的查询系统，便于用户对该特定领域的信息进行精准检索，提高查询效率，并便于企业基于该特定领域的信息进行特定领域的决策。

为实现上述目的，本申请采取以下技术方案：

第一方面，本申请提供一种基于领域知识图谱的能源消费-碳排放查询系统的构建方法，所述方法包括：

建立领域知识图谱的模式层，所述模式层用于建立预设领域的知识概念的框架；

获取用于构建基于领域知识图谱的查询系统的多源异构数据源；

基于预设的提取模型提取所述多源异构数据源的数据知识特征；

根据提取的所述数据知识特征进行知识融合，在设定图数据库平台上构建领域知识图谱；

接收客户端发送的查询指令，根据所述查询指令在所述领域知识图谱中进行检索，并输出对应的检索报告。

在本申请的一种实现方式中，其特征在于，所述建立领域知识图谱的模式层，包括：

通过对预设领域的实体、关系以及属性进行整理，建立针对所述预设领域的领域知识图谱的模式层。

在本申请的一种实现方式中，所述获取用于构建基于领域知识图谱的查询系统的多源异构数据源，包括：

设定针对预设领域的行业数据库、网页或文档类型的数据源；

利用数据爬取工具爬取所述数据源中的结构化或非结构化数据；

将所述结构化或非结构化的数据转换为统一数据格式的数据。

在本申请的一种实现方式中，所述基于预设的提取模型提取所述多源异构数据源的数据知识特征，包括：

基于所述预设的提取模型，对所述统一数据格式的数据进行实体-关系-实体、实体-属性-属性值的元组信息的提取，并根据提取的元组信息生成关联关系表。

在本申请的一种实现方式中，所述根据提取的所述数据知识特征进行知识融合，在设定图数据库平台上构建领域知识图谱，包括：

根据生成的所述关联关系表，执行Neo4j图数据库的数据导入操作，在所述Neo4j图数据库上基于语义相似度进行知识融合，构建所述领域知识图谱。

在本申请的一种实现方式中，所述数据库查询语言为Cypher；所述客户端工具包括基于Python的py2neo库。

在本申请的一种实现方式中，所述方法还包括：

接收用户输入的查询指令，并对所述查询指令进行解析，得到用户所要查询的实体、关系或属性，以及根据用户所要查询的实体、关系或属性进行搜索，得到相应的搜索结果；以及

图形化地展示所述搜索结果。

第二方面，本申请提供一种基于领域知识图谱的能源消费-碳排放查询系统的构建装置，包括：

模式层建立模块，用于建立领域知识图谱的模式层；

数据源获取模块，用于获取用于构建基于领域知识图谱的查询系统的多源异构数据源；

数据提取模块，用于基于预设的提取模型提取所述多源异构数据源的数据知识特征；

知识融合模块，用于根据提取的所述数据知识特征进行知识融合，在设定图数据库平台上构建领域知识图谱；

检索模块，用于接收客户端发送的查询指令，根据所述查询指令在所述领域知识图谱中进行检索，并输出对应的检索报告。

第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述第一方面所述的基于领域知识图谱的能源消费-碳排放查询系统的构建方法。

第四方面，本申请提供一种计算机设备，包括处理器和存储器；所述存储器存储有计算机程序，所述处理器执行所述计算机程序实现上述第一方面所述的基于领域知识图谱的能源消费-碳排放查询系统的构建方法。

本发明由于采取以上技术方案，其具有以下优点：本发明申请方案中，先建立领域知识图谱的模式层，再获取用于构建基于领域知识图谱的查询系统的多源异构数据源，基于预设的提取模型提取多源异构数据源的数据知识特征，根据提取的数据知识特征进行知识融合，在设定的数据库平台上构建领域知识图谱，进一步部署数据库查询语言以及客户端工具，从而户基于客户端工具输入查询指令，并根据查询指令输出对应的检索报告，相比于现有技术的搜索引擎，能够特定领域的信息进行精准检索，提高查询效率，并便于企业基于该特定领域的信息进行特定领域的决策。

附图说明

图1是本发明实施例提供的一种基于领域知识图谱的能源消费-碳排放查询系统的构建方法的流程示意图；

图2是本发明实施例提供的一种构建装置的模块结构示意图；

图3本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术的搜索引擎针对越来越多的数据难以进行精准检测的技术问题，且现有的搜索引擎针对特定领域的信息往往分散不全。本申请技术方案的目的在于提供一种基于领域知识图谱的能源消费-碳排放查询系统的构建方法、装置、计算机可读存储介质及计算机设备，其中所述的方法包括：建立领域知识图谱的模式层；获取用于构建基于领域知识图谱的查询系统的多源异构数据源；基于预设的提取模型提取所述多源异构数据源的数据知识特征；根据提取的所述数据知识特征进行知识融合，在设定图数据库平台上构建领域知识图谱；接收客户端发送的查询指令，根据所述查询指令在所述领域知识图谱中进行检索，并输出对应的检索报告。本申请技术方案，能够构建针对特定领域信息的查询系统，便于用户对该特定领域的信息进行精准检索，提高查询效率，并便于企业基于该特定领域的信息进行特定领域的决策。

下面结合本申请更多的附图，在本申请的一些实施例中说明上述的方法、装置及介质。

请参阅图1，在本申请的一个实施例中提供了一种基于领域知识图谱的能源消费-碳排放查询系统的构建方法。

如图1所示，本申请实施例中的基于领域知识图谱的能源消费-碳排放查询系统的构建方法，包括：

S11，建立领域知识图谱的模式层；

S12，获取用于构建基于领域知识图谱的查询系统的多源异构数据源；

S13，基于预设的提取模型提取所述多源异构数据源的数据知识特征；

S14，根据提取的所述数据知识特征进行知识融合，在设定图数据库平台上构建领域知识图谱；

S15，接收客户端发送的查询指令，根据所述查询指令在所述领域知识图谱中进行检索，并输出对应的检索报告。

上述本申请方案中提供的方法，先建立领域知识图谱的模式层，再获取用于构建基于领域知识图谱的查询系统的多源异构数据源，基于预设的提取模型提取多源异构数据源的数据知识特征，根据提取的数据知识特征进行知识融合，在设定的数据库平台上构建领域知识图谱，进一步部署数据库查询语言以及客户端工具，从而户基于客户端工具输入查询指令，并根据查询指令输出对应的检索报告，相比于现有技术的搜索引擎，能够特定领域的信息进行精准检索，提高查询效率，并便于企业基于该特定领域的信息进行特定领域的决策。

下面结合更多的附图，在本申请的一些更为详细的实施例中，说明本发明提供的上述方法的流程S11-S15，说明本申请的发明思路及其推导过程，并说明其技术优势。

在本申请实施例中，将以钢铁行业的应用领域为例，来说明本申请实施例中基于领域知识图谱构建一种钢铁行业“能源消费-碳排放”查询系统。该查询系统能够覆盖钢铁行业企业能源消费特征和碳排放特征，形成钢铁行业企业的能源消费-碳排放关联关系表征，为分析钢铁行业、识别重点碳排放企业提供决策支撑。

本申请提供的一种基于领域知识图谱的能源消费-碳排放查询系统的构建方法，包括：

S11，建立领域知识图谱的模式层。

具体的，在本申请的实施例中，可以基于行业专家访谈和调研分析，构建该行业领域的领域知识图谱的模式层。

在本申请实施例中，通过对预设领域的实体、关系以及属性进行整理，通过对实体、关系以及属性进行知识结构的定义，建立领域知识图谱模式层。

本申请以钢铁行业的知识领域为例，定义了本领域知识图谱的认知框架，搭建钢铁行业企业实体与实体的关联关系、实体—属性—属性值之间的联系。为系统地表示钢铁行业企业能源消费和碳排放相关关系，领域知识图谱设计了6类实体、7种实体间三元组关系、关系属性三元组关系。

具体的，钢铁行业设计的6类实体为：钢铁企业实体、产品实体、能源实体、排放实体、设备实体、工序实体。

其中，上述6类实体间(实体-关系-实体)的三元组关系如表1所示。

表1

本申请实施例中的每个实体的属性的三元组的关系如表2所示。

表2

本申请实施例中，每个关系属性(关系-属性-属性值)的三元组关系如表3所示。

表3

本申请实施例中，根据图谱架构中创建的钢铁行业的三元组关系对图谱的模式层进行构建，利用XMind作为模式层的构建工具，通过(实体-关系-实体)创建能够链接架构中涉及的所有三元组的关系，其中不同实体具有不同的属性和属性值，不同的关系也具有不同的属性和属性值。实体的属性用于存储该实体的一级属性值，关系的属性则用于存储两个实体之间的数量关系。

S12，获取用于构建基于领域知识图谱的查询系统的多源异构数据源。

具体的，在本申请实施例中，设定针对预设领域的行业数据库、网页或文档类型的数据源，再利用数据爬取工具爬取数据源中的结构化或非结构化数据，并将结构化或非结构化的数据转换为统一数据格式的数据。

例如，以本申请的钢铁行业领域为例，可以设置钢铁企业论坛等数据库或者网站作为数据源，通过数据爬取工具爬取数据源中的结构化或非结构化数据。对于数据源爬取的数据，可以对其预处理转换为统一格式如UTF-8编码的数据格式的数据。

S13，基于预设的提取模型提取所述多源异构数据源的数据知识特征。

具体的，本申请实施例中基于预设的提取模型提取数据源数据的数据知识特征。其中，所述的提取模型可以是预先训练的人工智能神经网络的提取模型，例如双向长短时记忆神经网络模型、条件随机场等等。

本申请实施例中的预设的提取模型需要预先经过训练，才能执行准确的数据知识特征的提取。对提取模型进行训练，可以是基于预先人工标注的钢铁行业领域的语料数据进行。

本申请实施例中，基于预设的提取模型，对统一数据格式的数据进行实体-关系-实体、实体-属性-属性值的元组信息的提取，并根据提取的元组信息生成关联关系表。以前述的钢铁行业“能源消费-碳排放”查询系统为例，对领域内实体、关系和属性的知识特征进行抽取。在获取实体和关系的抽取结果的基础上，基于结构化数据，实际构建图谱。根据图谱架构以及模式层中所建立的三元组关系，结合钢铁行业众多企业的能源消费与碳排放数据、企业工序流程数据、工序流程涉及的设备及产品数据等，分别构建三元组关系的csv数据表。在一个具体的场景中，这些csv数据表，可以是包含“产品实体表”、“钢铁企业高炉设备表”、“钢铁企业焦化工序表”、“钢铁企业炼钢工序表”……“钢铁企业无烟煤排放”等23个数据表。

S14，根据提取的所述数据知识特征进行知识融合，在设定图数据库平台上构建领域知识图谱。

具体的，在本申请实施例中，根据生成的所述关联关系表，执行Neo4j图数据库的数据导入操作，在所述Neo4j图数据库上基于语义相似度进行知识融合，构建所述领域知识图谱。

其中，Neo4j是一个嵌入式，基于磁盘的，支持完整事务的Java持久化引擎，它在图(网络)中而不是表中存储数据。Neo4j提供了大规模可扩展性，可以处理数十亿节点/关系/属性的图，基于Neo4j提供的图算法能够实现图数据的快速遍历，以提高基于图数据库的数据搜索速度，所以本申请实施例中使用Neo4j数据库作为钢铁行业知识图谱实体与关系的存储工具。

具体的，在本申请实施例中，部署数据库查询语言以及客户端工具，以供用户基于所述客户端工具输入所述数据库查询语言的查询指令，并根据所述查询指令输出对应的检索报告。

具体的，在本申请实施例中，数据库查询语言具体为Cypher；客户端工具包括基于Python的py2neo库。

在本申请实施例中，构建好的查询系统，可以接收用户输入的查询指令，并对查询指令进行解析，得到用户所要查询的实体、关系或属性，以及根据用户所要查询的实体、关系或属性进行搜索，得到相应的搜索结果，并图形化地展示所述搜索结果。在本申请的一些具体搜索实例中，例如可以实现检索某个钢铁企业的工序、设备或产品，或者实现诸如某地区某时间段碳排放排名前N的钢铁企业排序的检索需求。

在本申请实施例的另一方面，还相应提供了一种基于领域知识图谱的能源消费-碳排放查询系统的构建装置。

如图2，本申请实施例中的构建装置200，包括：

模式层建立模块201，用于建立领域知识图谱的模式层；

数据源获取模块202，用于获取用于构建基于领域知识图谱的查询系统的多源异构数据源；

数据提取模块203，用于基于预设的提取模型提取所述多源异构数据源的数据知识特征；

知识融合模块204，用于根据提取的所述数据知识特征进行知识融合，在设定图数据库平台上构建领域知识图谱；

检索模块205，用于接收客户端发送的查询指令，根据所述查询指令在所述领域知识图谱中进行检索，并输出对应的检索报告。

在本申请的一个具体的实施例中，其中，

模式层建立模块201，用于建立领域知识图谱的模式层；

其中，上述6类实体间(实体-关系-实体)的三元组关系如表1所示。本申请实施例中的每个实体的属性的三元组的关系如表2所示。而每个关系属性(关系-属性-属性值)的三元组关系如表3所示。此处不再重复赘述。

本申请实施例中，根据图谱架构中创建的钢铁行业的三元组关系对图谱的模式层进行构建，利用XMind作为模式层的构建工具，通过(实体-关系-实体)创建能够链接架构中涉及的所有三元组的关系，其中不同实体具有不同的属性和属性值，不同的关系也具有不同的属性和属性值。实体的属性用于存储该实体的一级属性值，关系的属性则用于存储两个实体之间的数量关系

检索模块205，用于部署数据库查询语言以及客户端工具，以供用户基于所述客户端工具输入所述数据库查询语言的查询指令，并根据所述查询指令输出对应的检索报告。

在本申请实施例的另一方面，还相应提供了一种计算机存储介质。

本申请实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的基于领域知识图谱的查询系统的构建方法。其具体的实现过程，在此不再重复赘述。

本申请实施例还提供一种计算机设备300，如图3所示。该实施例的计算机设备300包括：处理器301、存储器302以及存储在存储器中并可在处理器301上运行的计算机程序303，处理器301执行计算机程序303时实现实施例中的基于领域知识图谱的查询系统的构建方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器301执行时实现实施例中构建装置中各模型中/单元的功能，为避免重复，此处不一一赘述。

计算机设备300可以是桌上型计算机、笔记本、掌上电脑、服务器及云端服务器等计算设备。计算机设备可包括，但不仅限于，处理器301、存储器302。本领域技术人员可以理解，图3仅仅是计算机设备300的示例，并不构成对计算机设备300的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器302可以是计算机设备300的内部存储单元，例如计算机设备300的硬盘或内存。存储器302也可以是计算机设备300的外部存储设备，例如计算机设备300上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器302还可以既包括计算机设备300的内部存储单元也包括外部存储设备。存储器302用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器302还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例上述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上上述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种能源消费-碳排放查询系统的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的能源消费-碳排放查询系统的构建方法，其特征在于，所述建立领域知识图谱的模式层，包括：

3.根据权利要求2所述的能源消费-碳排放查询系统的构建方法，其特征在于，所述获取用于构建基于领域知识图谱的查询系统的多源异构数据源，包括：

4.根据权利要求3所述的能源消费-碳排放查询系统的构建方法，其特征在于，所述基于预设的提取模型提取所述多源异构数据源的数据知识特征，包括：

5.根据权利要求4所述的能源消费-碳排放查询系统的构建方法，其特征在于，所述根据提取的所述数据知识特征进行知识融合，在设定图数据库平台上构建领域知识图谱，包括：

6.根据权利要求5所述的能源消费-碳排放查询系统的构建方法，其特征在于，所述方法还包括部署数据库查询语言以及客户端工具；所述数据库查询语言为Cypher；所述客户端工具包括基于Python的py2neo库。

7.根据权利要求4所述的能源消费-碳排放查询系统的构建方法，其特征在于，所述方法还包括：

图形化地展示所述搜索结果。

8.一种能源消费-碳排放查询系统的构建装置，其特征在于，所述装置，包括：

模式层建立模块，用于建立领域知识图谱的模式层，所述模式层用于建立预设领域的知识概念的框架；

检索模块，用于接收客户端工具输入的查询指令，根据所述查询指令在所述领域知识图谱中进行检索，并输出对应的检索报告。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7任一项所述的能源消费-碳排放查询系统的构建方法。

10.一种计算机设备，其特征在于，包括处理器和存储器；所述存储器存储有计算机程序，所述处理器执行所述计算机程序实现权利要求1至7任一项所述的能源消费-碳排放查询系统的构建方法。