CN116484023A

CN116484023A - 一种基于人工智能的电力行业知识库构建方法及系统

Info

Publication number: CN116484023A
Application number: CN202310531548.8A
Authority: CN
Inventors: 吴彦伟; 谢剑翔; 吴嘉琪; 欧嘉俊; 付志超
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-25

Abstract

本发明公开了一种基于人工智能的电力行业知识库构建方法与系统，属于计算机领域，所述的知识库构建方法包括数据获取与数据处理，构建领域本体，领域知识抽取，知识存储，录入数据形成领域知识库。本发明解决了电力行业领域内的领域知识库构建较其它知识库难的问题，很大程度上解决了专业人员根据经验按部就班地构建，构建知识库效率很低的问题。

Description

一种基于人工智能的电力行业知识库构建方法及系统

技术领域

本发明属于计算机领域，更具体的说涉及一种基于人工智能的电力行业知识库构建方法及系统

背景技术

大数据时代带来的科技创新对于电力公司这种产生数据量大，数据内涵丰富的企业带来了很大的发展机遇。电力系统领域的非结构数据占比高，这类数据的价值常常不能被显式地表达出来，但是却具有巨大的潜在价值。此外，传统固化的业务查询方式难以响应灵活的数据查询需求。常出现一个急需的业务数据查询，因为系统有的查询不能支持，所以必须等待应用升级或功能完善的情况，影响了决策的及时性，也严重束缚了业务人员对信息的主动查询的需求，影响了业务人员主动灵活分析数据获取价值信息的工作。因此，科学合理地抽取电力非结构化的文本数据信息和挖掘其中深层次的抽象内涵，构建电力领域知识库，对于辅助电力科学研究和指导生产实践具有巨大的实际意义。

现有的领域知识库构建存在以下缺点：第一，缺少完整的本体建模框架，本体建模过程中包含的信息覆盖面较窄。第二，缺少领域知识库的构建方法，构建领域知识库耗时、耗力，效率低。第三，缺少较完备的知识库管理系统。

发明内容

本发明提出了基于三层模型的领域的知识库构建方法，从数据获取、本体构建、知识抽取等过程，全面对领域知识库进行研究；解决了电力行业领域内的领域知识库构建较其它知识库难的问题，很大程度上解决了专业人员根据经验按部就班地构建，构建知识库效率很低的问题。

为了实现上述目的，本发明是采用以下技术方案实现的：所述的知识库构建方法包括

S1、数据获取与数据处理，结合待构建领域的场景，通过网络爬虫技术获取网络上存在的结构化数据和非结构化数据；

S2、构建领域本体，通过三层模型构建领域本体，包括抽象概念层，概念实例层和能力层；

S3、领域知识抽取，领域知识抽取主要用于抽取实例和能力，知识抽取出的结果是三元组，头实体是实例，尾实体是能力；

S4、知识库构建，构建不同知识库之间的融合模型，录入数据形成领域知识库。

进一步地，所述的S1具体步骤如下：

首先初始化URL，从初始化URL页中提取新的URL并放入URL队列，其次分析URL中的页面，知道URL队列为空，满足结束条件；

网络爬虫根据URL的顺序获取要爬取的URL地址，对于静态页面需要对DOM树进行XPath解析，从而获取指定的数据并存储在数据库中；

对于采用Ajax异步加载的页面通常采用WebBrower中间件模拟浏览器进行加载；

对于采用JSON数据传输的数据，通常采用模拟HTTP请求的方式进行处理；

对于需要用户登录才能使用的网页通常采用模拟用户登录的技术进行处理。

进一步地，所述的S2构建领域本体，采用三层本体建模框架，在组成上，三层模型按照自上而下的顺序，分为一、二、三层，分别对应抽象概念层、概念实例层、能力层；

抽象概念层描述本体的抽象概念，抽象概念是多级关联的；

概念实例层描述概念的实例，也是多级关联的；

能力层是描述抽象概念和实例具备的能力，包含从用户需求为导向，根据能力检索满足能力的条件，最终检索出满足能力的实例。

进一步地，所述的S3领域知识抽取包括(1)显性实体关系抽取，(2)隐形实体关系抽取；

所述的(1)显性实体关系抽取，显性关系的一般表示形式为<实体，谓词，实体属性>三元组的形式；

所述的(2)隐形实体关系抽取，当文本中没有包含显性关系时，无法使用简单的模板匹配进行关系抽取；采用统计机器学习的方法进行隐性实体关系的抽取；具体抽取方法为：

假设A、B分别表示两个实体，实体A和实体B之间没有任何显性关系；NumA表示实体A在文本描述中出现的次数，NumB表示实体B在文本描述中出现的次数，NumAB表示实体A和实体B同时出现的次数；

P(AB)表示实体A和实体B之间同时出现的概率，概率的大小表示实体隐性关系的强弱；根据一阶马尔科夫联合概率矩阵，可以通过观察矩阵中数值的大小来判断实体之间关系的强弱。

进一步地，所述的S4知识库构建，将不同专家对于不同的电力设备的问题、解决方案、介绍、使用方法的个性化知识库融合为一个具有多位专家经验的综合知识库；

利用知识库KBⁱ和知识库KB^j中包含的知识元组及预先定义好的相同实体节点集合S^ij通过知识融合模型，对两个知识库中包含的未知相同实体进行预测；

进一步地，具体过程如下：

专家d的电力设备知识库KB^d由E^d,R^d,T^d组成，表示为KB^d＝(E^d,R^d,T^d)，其中E^d为专家d的具体操作案例中涉及的实体集合，R^d为专家d具体操作案例中涉及的关系集合T^d＝(h,t,r)为三元组集合；为了描述不同知识库中的相同实体节点，定义集合其中，m、n表示个性化知识库编号；k为KB^m与KBⁿ中相同实体对的个数。

再一方面，一种基于人工智能的电力行业知识库构建系统，所述的系统适用于所述的方法，所述的系统包括表示层、业务层、持久层、数据层；所述的系统包括领域本体构建模块、领域知识抽取模块、领域知识库构建模块。

进一步地，所述的表示层位于最上层，用于展示界面，表现层为建领域知识库的用户提供了进行交互操作的界面；

所述的业务层包括领域本体构建、领域知识抽取和领域知识库构建，领域本体构建的结果以OWL格式存储于MinIO服务器上，领域知识抽取模块最终发布成RESTfulAPI服务，并完成接口文档的编写，导出的数据上传至Neo4j图数据库，完成领域知识库的创建；

所述的持久层是对数据库的访问，位于业务层和数据层之间，实现了业务层和数据层的分类，降低了耦合性，方便数据的维护；

所述的数据层位于最底层，包含知识库的存储领域知识库的Neo4j数据库，存储结构化数据的关系型数据库MySQL，存储本体文件的MinIO服务器和Redis缓存数据库。

进一步地，所述的领域本体构建模块负责领域本体管理及可视化展示功能，构建的本体以OWL格式存储于系统，使用WebVOWL可视化插件展示本体；

所述的领域知识抽取模块负责抽取领域知识，实现了模型测试数据的输入，获取数据分为两种方式，第一种是通过文件的方式上传，第二种是在输入框输入待测试的数据；

模型选择模块，集成了现有的百科类的知识抽取模型Jiagu；

模型训练，对预抽取数据进行实体识别和关系抽取；

数据导出，抽取的结果是三元组，导出格式是三元组，头实体对应三层模型中的组成视图，而尾实体对应三层模型中的能力视图；

所述的领域知识库构建模块负责知识录入，链接领域本体，启用、停用知识库和知识库可视化展示。

本发明有益效果：

本发明提出了基于三层模型的领域的知识库构建方法，从数据获取、本体构建、知识抽取等过程，全面对领域知识库进行构建。

解决了电力行业领域内的领域知识库构建较其它知识库难的问题，很大程度上解决了专业人员根据经验按部就班地构建，构建知识库效率很低的问题。

附图说明

图1为本发明方法流程图；

图2为本发明网络数据爬取流程图；

图3为本发明三层模型的定义流程图；

图4为本发明实体关系抽取流程图；

图5为本发明知识融合示意图；

图6为本发明系统框架图；

图7为本发明系统功能模块图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是，本发明可以以许多不同的形式来实现，并不限于本发明所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

如图1所示，所述的知识库构建方法包括

网络爬虫通常用来下载和存储网页，常常服务于搜索引擎。一般情况下，一个网络爬虫有一个初始化的URL集合，这个集合存储着要爬取的URL，当爬虫开始启动时，爬虫程序从URL集合中按一定次序读取URL，对已处理的URL标记为已处理，当所有的URL都处理之后，整个爬虫程序结束。随着互联网的迅速发展，使用传统的单线程爬虫很难进行高效率的爬取，因此如何高效率的爬虫成为数据爬取的关键。

如图2所示，首先初始化URL，从初始化URL页中提取新的URL并放入URL队列，其次根据一定策略和算法分析URL中的页面，知道URL队列为空，满足结束条件。在本发明中，网络爬虫根据URL的顺序获取要爬取的URL地址，根据生成页面技术的不同采用不同的爬取方式。其中对于静态页面需要对DOM树进行XPath解析，从而获取指定的数据并存储在数据库中；对于采用Ajax异步加载的页面通常采用WebBrower等中间件模拟浏览器进行加载；对于采用JSON数据传输的数据，通常采用模拟HTTP请求的方式进行处理；对于需要用户登录才能使用的网页通常采用模拟用户登录的技术进行处理；通常情况下，采用处理JSON格式传输数据的效果最高，采用XPath方式处理数据的次之，采用WebBrower方式的会对数据的采集效率产生比较大的影响。

分布式爬虫相较于传统的爬虫拥有更高的效率，具有更高的扩展性，可以多网络点接入，减少对Internet的网络负载。分布式网络爬虫的整体重点在于爬虫如何进行通信，按通讯方式分为混合模式、主从模式和自治模式三种，需要根据实际情况选择不同的模式。

如图3所示，所述的S2构建领域本体，面向领域本体的建模方法：三层本体建模框架(Abstraction-Instance-Capability，AIC)，在组成上，三层模型按照自上而下的顺序，分为一、二、三层，分别对应抽象概念层、概念实例层、能力层。抽象概念层描述本体的抽象概念，抽象概念是多级关联的。概念实例层描述概念的实例，也是多级关联的。能力层是描述抽象概念和实例具备的能力，包含从用户需求为导向，根据能力检索满足能力的条件，最终检索出满足能力的实例，这也是三层模型的主要创新点。

在三层模型中，层层之间通过预定义的关系进行关联。根据模型适合的场景，划分为多个视图，包含组成视图、能力视图和模式视图等。组成视图描述本体的组成情况，由三层模型的前两层的元素构成。能力视图描述本体的具备能力情况、以用户需求为导向，分析需求的分解结构，进一步查询满足需求的条件，根据条件查询满足条件所包含的能力，最后根据能力，逆向查询到满足能力的具体实例，实现从需求到实例的匹配。

在结构上，三层模型由抽象概念层、概念实例层和能力层构成。AIC模型从结构上定义，包含抽象概念层(Abstraction-layer)、概念实例层(Instance-layer)和能力层(Capability-layer)，如下公式。

AIC＝(Abstraction-layer,Instance-layer,Capability-layer)

在组成上，三层模型是由类、属性、关系、约束、函数和公理构成。AIC模型从组成上定义，包含类(Class)、关系(Relation)、属性(Property)、函数(Function)、约束(Constraint)和公理(Axiom)，如下公式。

AIC＝(Class,Relation,Property,Function,Constraint,Axiom)

从三层模型的结构上，模型包含三层，抽象概念层、概念实例层和能力层，抽象概念层是由抽象概念组成，抽象概念按照顶级抽象概念，次级抽象概念和能力抽象概念等；概念实例层是由抽象概念层中的抽象概念对应的具体实例组成，包含顶级抽象概念的具体实例、次级抽象概念的具体实例和具体能力等；能力层是从电力设备发生问题产生的影响角度出发，分解成多个不同的影响，满足不同的影响需要指标满足某个条件，该指标映射在概念实例层，是某个实例特有的属性决定。就实现了从能力层向实例层的检索。另外在多个同类型的实例中，他们的影响指标是同一个，引入天梯图，进行聚类排序，使信息存储简单易懂，模型可扩展性增强。

关系抽取的目标是用来解决实体之间语义链接的问题，人工构造语义规则以及模板可以方便的识别实体关系，但这种方式依赖于人工构造的规则和模板，所以适用的范围比较窄。基于非结构化文本的实体关抽取技术可以归纳为：基于模式匹配的关系抽取、基于本体的关系抽取、基于词典驱动的的关系抽取、基于机器学习的关系抽取。基于模式匹配的抽取方法主要适用于面向特定领域的关系抽取，通常情况下这种方法抽取的关系效率较高，而且准确度也较高，但是适用范围比较窄，需要人工定义较多的模式，耗费大量的人力。随着机器学习等技术在自然语言方面应用的发展，实体间的抽取方法也在不断的完善，这种关系抽取的方法，不需要大量的人工操作，但是精确度不如模式匹配的高，比较适合开发域的关系抽取，主流机器学习的实体关系抽取的方法有无监督的方法、半监督的方法和有监督的方法。实体关系抽取的一般流程如图4。

在电力知识的描述文本中存在诸如“某设备出现什么问题带来什么影响”这种显性的关系，也存在看似不相关的实体却存在某种隐性关系的可能。针对描述文本中的显性关系使用简单的模式匹配就可以完成，对于隐性的关系则需要通过机器学习方法才能完成。

所述的S3领域知识抽取包括(1)显性实体关系抽取，(2)隐形实体关系抽取；

本发明是基于的电力领域的文本描述进行关系抽取，文本描述中存在大量的模式，比如抽取电力设备和设备作用的实体关系的时候，设备说明书中针对该设备的功能，使用说明等的描述中存在比较明显的模式。本发明把这类文本描述归类到显性实体关系的抽取的范畴，主要采用模式匹配的方法对该类实体关系进行抽取

所述的(1)显性实体关系抽取，显性关系的一般表示形式为<实体，谓词，实体属性>三元组的形式；通过基于规则或者基于机器学习得到实体库后，有一定专业背景的知识的人就可以根据谓词来制定规则。当计算机处理输入的文本时，首先对文本进行预处理，然后对预处理过的文本与制定的规则进行比较，如果文本符合该规则的描述，则认为输入的文本中的实体符合该规则中描述的关系，通过这种简单的模式匹配的方式就可以确定显性关系。

所述的S4知识库构建，将不同专家对于不同的电力设备的问题、解决方案、介绍、使用方法的个性化知识库融合为一个具有多位专家经验的综合知识库；

具体过程如下：

如图5所示，图注意力网络通过利用邻域实体计算权重系数实现目标实体周围的邻域实体信息的加权聚合，但是在权重系数计算时忽略关系对实体信息表达的影响并且缺少关系信息的聚合。在此基础上，利用具有关系信息的知识三元组计算权重系数，并将节点周围的关系信息与对应关系下的邻域实体信息加权聚合，获得实体节点的富语义表征，实现目标实体与关系及对应关系下的邻域实体之间的交互。

RGAKF模型的每一层都以实体嵌入矩阵和关系嵌入矩阵/>为输入，N_e和N_Re分别为实体和关系总数，F为每个实体嵌入的维度。模型层的输出为更新的实体嵌入矩阵/>下面为关系图注意网络的注意力机制和信息传播与信息聚合过程。

(1)模型的注意力机制具体做法是将知识库中的知识三元组转化为注意力系数，该系数构成的矩阵就是对应的权重矩阵。注意力系数的计算方法如图6所示。

通过将实体i,j和关系r的特征向量e_i,e_j和关系r_k拼接进行线性变换得到三元组向量表示t_ijk，公式如(2)所示：

t_ijk＝W₁[e_i||e_j||r_k] (2)

其中、W₁—线性变换矩阵；||—拼接操作。

通过线性变换之后，利用LeakyReLU得到邻域实体传播信息时的注意力系数b_ijk，通过softmax函数将注意力系数归一化处理。如公式(3)和(4)所示：

b_ijk＝LeakyReLU(W₂t_ijk) (3)

其中，W₂—线性变换矩阵；

N(i)—实体i的邻居节点集合；

R(in)—实体i与邻居节点之间的关系集合。

(2)邻域节点信息传播与聚合

通过聚合与实体相关的一阶三元组向量及注意力权重，得到新的实体向量，计算方法如公式(5)所示。

由于知识库中的知识以三元组进行关联，具有多层结构，聚合高层邻域信息可以挖掘丰富的高阶邻域实体信息与关系信息。若将RGAKF从一层扩展到多层，多跳的邻域实体也会影响中心实体的最终向量表示。

叠加多层RGAKF，通过逐阶迭代的方式聚合实体更远的邻居节点信息，第h层聚合之后得到新的实体向量表示，具体计算方法如公式(6)

其中，h—聚合层数。

预测层：

利用公式(7)所示曼哈顿距离来计算实体之间的相似度。

其中，eⁱ,e^j分别为需要融合的KBⁱ,KB^j中的实体。分别为经过关系图注意力网络层输出的实体向量表示。对于相同实体，距离会尽可能的接近。

通过一组相同实体对集训练RGAKF模型，使用公式(8)所示的HingeLoss作为损失函数。

其中，S^ij′为针对实体对eⁱ,e^j构造的负例集合，其中的负例实体e^i′,e^j′中的实体分别是在KBⁱ和KB^j的实体中随机选取的实体。β为分割正负例的边界超参数。

实施例二。

如图6所示，基于实施例中的方法构建一种基于人工智能的电力行业知识库构建系统，所述的系统适用于所述的方法，所述的系统包括表示层、业务层、持久层、数据层；

结合领域知识库构建步骤：领域本体构建、领域知识抽取、领域知识库构建。针对领域知识抽取模块，使用Python语言开发，前后端分离，前后端单独部署在不同Docker容器中，后端基于Pytorch、LAC、Jiagu等项目实现业务逻辑，用Flask框架开放轻量级的RESTful风格API。针对领域本体构建和领域知识库构建模块，使用Java语言开发，前后端分离，前端使用Vue.js框架，后端使用SpringBoot框架，前端页面用于演示效果，调用WebVOWL接口进行本体展示，使用原生的Neo4j进行知识库查看。

所述的表示层系位于最上层，用于展示界面，系统的参与者是构建领域知识库的用户，表现层为建领域知识库的用户提供了进行交互操作的界面。包含三部分内容，分别是WebVOWL插件进行本体展示，领域知识抽取的中间件ReactApp，知识图谱原生的展示界面。

所述的系统的持久层是对数据库的访问，位于业务层和数据层之间，实现了业务层和数据层的分类，降低了耦合性，方便数据的维护。利用Docker技术将每个知识抽取模型容器化集成，实现了模型的容器化部署。知识抽取是前后端分离，前端主要是Nginx+React架构，后端是基于Flask轻量级框架和Pytorch框架，实体识别任务采用LAC，关系抽取模型是训练的模型。抽取出的知识导入领域知识库，本体构建模块和知识库构建模块采用前后端分离的思想，前端基于Vue.js，后端基于SpringBoot。

如图7所示，所述的系统包括领域本体构建模块、领域知识抽取模块、领域知识库构建模块；

所述的领域本体构建模块负责领域本体管理及可视化展示功能，构建的本体以OWL格式存储于系统，使用WebVOWL可视化插件展示本体；

所述的领域知识抽取模块该模块主要负责抽取领域知识，抽取包括四个步骤。第一步，实现了模型测试数据的输入，获取数据分为两种方式，第一种是通过文件的方式上传，第二种是在输入框输入待测试的数据。第二步，模型选择模块，集成了现有的百科类的知识抽取模型Jiagu、还有基于DeepKE训练的服装领域的知识抽取模型。第三步，模型训练，对预抽取数据进行实体识别和关系抽取。第四步，数据导出，抽取的结果是三元组，导出格式是三元组。头实体对应三层模型中的组成视图，而尾实体对应三层模型中的能力视图。

所述的领域知识库构建模块负责知识录入，链接领域本体，启用、停用知识库和知识库可视化展示。领域知识库构建方法是步骤S4提出的方法具体实现与应用。用户登录系统进行身份验证，登陆成功，调用getGraph()方法请求KGController获取图谱信息，然后调用constructGraph()方法请求KGService构建图谱，接着调用addGraph()方法请求KGMapper新增图谱，最后通过log()方法写入系统日志，将创建的知识库返回给用户，可通过图数据库Neo4j原生的展示页面。此外还包含知识库链接本体、启用知识库、停用知识库和知识库前端展示等功能。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于人工智能的电力行业知识库构建方法，其特征在于：所述的知识库构建方法包括：

2.根据权利要求1所述的一种基于人工智能的电力行业知识库构建方法，其特征在于：所述的S1具体步骤如下：

网络爬虫根据URL的顺序获取要爬取的URL地址，对于静态页面要对DOM树进行XPath解析，从而获取指定的数据并存储在数据库中；

3.根据权利要求1所述的一种基于人工智能的电力行业知识库构建方法，其特征在于：所述的S2构建领域本体，采用三层本体建模框架，在组成上，三层模型按照自上而下的顺序，分为一、二、三层，分别对应抽象概念层、概念实例层、能力层；

抽象概念层描述本体的抽象概念，抽象概念是多级关联的；

概念实例层描述概念的实例，也是多级关联的；

4.根据权利要求1所述的一种基于人工智能的电力行业知识库构建方法，其特征在于：所述的S3领域知识抽取包括(1)显性实体关系抽取，(2)隐形实体关系抽取；

所述的(2)隐形实体关系抽取，当文本中没有包含显性关系时，无法使用简单的模板匹配进行关系抽取；采用统计机器学习的方法进行隐性实体关系的抽取。

5.根据权利要求4所述的一种基于人工智能的电力行业知识库构建方法，其特征在于：所述的隐形实体关系抽取具体抽取方法如下：

P(AB)表示实体A和实体B之间同时出现的概率，概率的大小表示实体隐性关系的强弱；根据一阶马尔科夫联合概率矩阵，通过观察矩阵中数值的大小来判断实体之间关系的强弱。

6.根据权利要求1所述的一种基于人工智能的电力行业知识库构建方法，其特征在于：所述的S4知识库构建，将不同专家对于不同的电力设备的问题、解决方案、介绍、使用方法的个性化知识库融合为一个具有多位专家经验的综合知识库；

利用知识库KBⁱ和知识库KB^j中包含的知识元组及预先定义好的相同实体节点集合S^ij通过知识融合模型，对两个知识库中包含的未知相同实体进行预测。

7.根据权利要求6所述的一种基于人工智能的电力行业知识库构建方法，其特征在于：所述的知识融合具体过程如下：

8.一种基于人工智能的电力行业知识库构建系统，所述的系统适用于如权利要求1-7中任一项所述的方法，其特征在于：所述的系统包括表示层、业务层、持久层、数据层；所述的系统包括领域本体构建模块、领域知识抽取模块、领域知识库构建模块。

9.如权利要求8所述的一种基于人工智能的电力行业知识库构建系统，其特征在于：

所述的表示层位于最上层，用于展示界面，表现层为建领域知识库的用户提供了进行交互操作的界面；

10.根据权利要求8所述的一种基于人工智能的电力行业知识库构建系统，其特征在于：

模型选择模块，集成了现有的百科类的知识抽取模型Jiagu；

模型训练，对预抽取数据进行实体识别和关系抽取；