CN112765314A

CN112765314A - 一种基于电力本体知识库的电力信息检索方法

Info

Publication number: CN112765314A
Application number: CN202011637617.6A
Authority: CN
Inventors: 彭泽武; 万婵; 杨秋勇; 梁盈威; 吴金铭; 王海明; 王柳佳
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-07
Anticipated expiration: 2040-12-31
Also published as: CN112765314B

Abstract

本发明提供了一种基于电力本体知识库的电力信息检索方法。将电力文本信息按照预设比例分为训练样本、验证样本和测试样本，电力本体知识库采用特定的关联匹配度算法实现电力文本的电力信息检索。本发明针对性的给出不同实体之间的联系与知识库检索结果，对于实体识别任务，具有较强的鲁棒性和较高的准确率；对于关系抽取任务，其抽取过程具有很强的适普性；对于知识库的检索任务，具有较高的准确率。

Description

一种基于电力本体知识库的电力信息检索方法

技术领域

本发明涉及，具体涉及一种基于电力本体知识库的电力信息检索方法。

背景技术

大数据时代带来的科技创新对于电力公司这种产生数据量大，数据内涵丰富的企业带来了很大的发展机遇。电力系统领域的非结构数据占比高，这类数据的价值常常不能被显式地表达出来，但是却具有巨大的潜在价值。此外，传统固化的业务查询方式难以响应灵活的数据查询需求。常出现一个急需的业务数据查询，因为系统有的查询不能支持，所以必须等待应用升级或功能完善的情况，影响了决策的及时性，也严重束缚了业务人员对信息的主动查询的需求，影响了业务人员主动灵活分析数据获取价值信息的工作。因此，科学合理地抽取电力非结构化的文本数据信息和挖掘其中深层次的抽象内涵，构建电力本体知识库，对于辅助电力科学研究和指导生产实践具有巨大的实际意义。

针对电力领域的文本挖掘与信息抽取，准确识别电力文本中的电力实体，对完成进一步的电力文本任务，比如构建电力专业领域字典、建设电力知识库、挖掘文本信息等，具有基础性的作用。在早期的实体识别研究中，其主要任务是旨在从文本中识别命名实体如人名、地名和组织机构名等。但对于不同专业领域，实体识别技术可以应用于识别文本中具有特定意义的领域实体。早期的命名实体识别任务主要是基于规则和基于统计的识别方法。得益于近些年计算机算力的发展，深度学习在命名实体识别领域效果远优于上述两种方法，所以成为了实体识别的主流研究方法。研究者们常常把命名实体识别任务规约为一种序列标注任务，对于每一个输入的字，判断其标签类别，根据类别标签判定命名实体的边界和类型。在传统机器学习方法中，条件随机场模型在序列标注上效果更好，常常与深度学习方法相结合来解决命名实体识别任务，比如Bi-LSTM-CRF、CNN-Bi-LSTM-CRF等。

在人工智能领域，本体知识库既要描述知识的特点、位置、说明等信息，最重要的是要记录本体间的关系。在电力知识领域归纳分析知识本体，需要对电网数据进行抽象分析，这部分数据除了包括传统意义上的电网调度运行、管理等结构化数据外，也包括各类非结构化数据。电网数据存在结构复杂、存储分散、多类型异构的特点，传统的关键词搜索、模糊匹配的方法已经很难满足现在电网对数据深层次分析的需求通过人工智能技术，将电网专业知识、设备信息、运行数据、管理信息进行本体建模，基于电网本体知识库运用解析结构化与非结构化数据，实现智能化的信息快速检索，是目前信息搜索领域的发展方向。

发明内容

为解决现有技术存在的问题，本发明提供了一种基于电力本体知识库的电力信息检索方法。为实现本发明的目的，本发明的技术方案如下。

一种基于电力本体知识库的电力信息检索方法，包括：

获取电力文本信息，建立电力实体的分类类别，所述分类类别用于描述电力作业的目标；

将电力文本信息按照预设比例分为训练样本、验证样本和测试样本；

将训练样本输入Bi-LSTM-CRF模型，对Bi-LSTM-CRF模型进行训练；所述Bi-LSTM-CRF模型包括嵌入层、双向长短时记忆网络层(Bi-LSTM)和条件随机场层(CRF)；其中，嵌入层对中文字符进行编码，将文本向量化表示；向长短时记忆网络层(Bi-LSTM)用于提取文本序列的抽象特征；条件随机场层(CRF)对双向长短时记忆网络层层的输出进行处理；

采用训练后的Bi-LSTM-CRF模型对验证样本进行测试，识别电力文本的电力实体；

将电力文本的电力实体识别结果送入电力本体知识库；所述电力本体知识库包括原始语料、本体、本体关联向量；其中，原始语料表示输入的文本，原始语料经过电力文本实体识别模型之后形成本体，本体关联向量表示原始语料与本体之间的关联关系；

输入检索语句，利用本体最大关联匹配度算法，计算检索语句与本体知识库中知识的相似度；

返回根据检索语句所检索到的实体，以及检索到的原始语料。

优选的，若原始语料中存在实体时，则本体关联向量的值为1，否则为0。

优选的，双向长短时记忆网络层(Bi-LSTM)包括前向长短时记忆网络层和后向长短时记忆网络层，前向长短时记忆网络层用于融合顺序的上下文信息，后向长短时记忆网络层用于融合逆序的上下文信息，最后综合前向长短时记忆网络层和后向长短时记忆网络层的输出；前向长短时记忆网络层和后向长短时记忆网络层均包括：输入门、遗忘门、记忆门和输出门。

优选的，所述最大关联匹配度算法包括：

输入的检索语句作为问询语料

输入至电力实体识别模型中去，得到本体及本体关联向量

计算本体关联向量

与本体知识库中的每一个本体关联向量

的Jaccard系数，所述Jaccard系数用于计算符号度量或布尔值度量的个体间的相似度；

采用如下公式计算原始语料本体关联向量的Jaccard系数：

式中

表示问询语料的本体关联向量，

表示知识库中第i条知识语料对应的本体关联向量，∩表示取交集运算，∪表示取并集运算。

依照系数从大到小对本体知识库进行排序。

优选的，当Jaccard系数大于预设阈值时，返回相对应的本体和原始语料；动态调整返回阈值，对排序好的原始语料进行抽取。

相对于现有技术，本发明的有益技术效果在于：本发明所提出的模型在训练完后，能够在极短的时间能完成实体识别的任务，因此本发明具有很高的时效性。对于电力文本数据中的电力实体特征更灵敏，能够针对性的给出不同实体之间的联系与知识库检索结果。对于实体识别任务，具有较强的鲁棒性和较高的准确率；对于关系抽取任务，其抽取过程具有很强的适普性；对于知识库的检索任务，具有较高的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为Bi-LSTM-CRF模型原理图；

图2为Bi-LSTM原理图及其细胞元结构原理图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本实施例的基于电力本体知识库的电力信息检索方法，包括：

示例性的，本实施例的电力信息检索方法如下：

收集专业文本数据：在电力领域内，可收集有关变电站的文本，包括变电站基础知识、技术规范和标准、运维方案等三类的文本信息。

建立电力实体的基础分类类别：根据先验专业知识，对电力领域可能出现的实体进行基础分类。电力实体的基础分类类别用于描述电力相关词汇的分类类别，该分类类别用于描述电力作业的目标。本专利中对电力实体进行了分类，具体如表1所示。

表1

类别	实体类型	实体词汇举例
			1	元件	线圈
2	设备	变压器、断路器
			3	设施	变电站
4	系统	配电系统
			5	协议	IEC 61850
6	软件	SCADA
			7	物理量	电压、电流、功率
8	定理/定律	基尔霍夫电压定律
			9	现象	雷击、覆冰
10	状态/故障	短路、断线
			11	操作	合闸、投切
12	角色	局长、科长、专责
			13	组织	XX电网、XX供电局
14	人名	法拉第
			15	时间	X年/X月/X日
16	地点	广州、深圳

针对收集来的电力文本信息进行前期的数据清洗，包括利用分词工具将常见的停用词去除，删去非必要符号等：对于步骤(1)中收集的各式各样的文本信息。首先剔除文本中包含的功能词、语气词，例如“是”、“在”、“之上”、“啊”等；之后剔除停用词词汇，例如“需要”、“可能”等；最后剔除符号，形成可供分析的原始语料库。

将电力专业文本数据进行分类，按照8：1：1分为训练样本和验证样本和测试样本，并对训练样本进行人工实体标注：本文将对电力文本进行字符级编码，对每个字符进行标注，每个字符的编号将作为训练标签。电力实体人工标注方式采用的是BIEO法，假设实体类别为A，即BA表示实体首字，IA表示中间字，EA表示尾字，如果实体长度为一个字用BB表示，如果实体长度为两个字则分别用BB，EB表示，其他实体类别依次类推，非实体用OO表示。

将训练样本输入本发明所提出的Bi-LSTM-CRF模型，通过不断调整结构参数来训练模型；本文为了提取电力文本的实体，采用的是可提取文本高度抽象特性的Bi-LSTM-CRF模型，如图1所示。

Bi-LSTM-CRF模型结构图由3部分组成：嵌入层、双向长短时记忆网络(Bi-LSTM)层和条件随机场(CRF)层。嵌入层的作用是对中文字符或词语进行编码，将文本向量化表示。Bi-LSTM层的作用是提取文本序列的抽象特征，尤其是字符或词语的上下文联系。

如图2所示，双向LSTM是常规LSTM的变体，它包括前向LSTM和后向LSTM，前向LSTM可以融合顺序的上下文信息，后向LSTM可以融合逆序的上下文信息，最后综合前向和后向LSTM的输出，可以比单LSTM更加全面的挖掘文本序列的整体隐含特征。Bi-LSTM由前向LSTM和后向LSTM组成，每个LSTM由结构一样的LSTM的细胞单元组成，它包括四个门，分别是：输入门、遗忘门、记忆门和输出门。表2总结了每个门结构的作用和数据表达及其内涵。

表2

表2中的符号含义如下：隐层状态h_t-1、当前输入词X_t、遗忘门的值f_t、神经元权重W_f、偏差b_f、记忆门的值i_t、临时单元状态

输出门的值o_t、隐层状态h_t。

Bi-LSTM的输出也可以作为预测的标签作为输出，但是仍可能会存在标签不合理的情况，比如说本不应该相邻出现的标签，却预测成相邻存在的情况。为了缓解此类情况，一般会添加一个CRF层。CRF层的作用是处理Bi-LSTM层的输出，进一步综合上下文向量的特征，使得Bi-LSTM的输出更加准确和合理化，最终输出识别结果。

把Bi-LSTM输出的上下文向量作为CRF的输入，把一个句子定义为如下序列：

X＝[x₁,x₂,x₃,...,x_n]

对于一个形如以下的预测标签序列：

y＝[y₁,y₂,y₃,...,y_n]

那么对于句子X预测标签y的分值可以如下计算：

其中A是分值转移矩阵，表示从字符i到字符j的转移的分值。P是Bi-LSTM的输出矩阵，P_i,j是假设从第i个字符到第j个字符作为一个命名实体的得分。对于生成的所有包含y所有可能的标签序列集合Y_X，可以计算得到最大分数的输出序列：

其中，最终的预测标签序列为y^*。

使用训练好的模型对验证样本进行测试，得出电力文本实体识别的结果。

将电力文本实体识别的结果送入电力本体知识库：该知识库由“原始语料”、“本体”、“本体关联向量”三种元素组成。

表3

原始语料	本体	本体关联向量
			τ<sub>1</sub>	A/B/C/E	[1 1 1 0 1]
τ<sub>2</sub>	C/D/E	[0 0 1 1 1]
			τ<sub>3</sub>	A/C/D	[1 0 1 1 0]

表3举例了在只有5个实体的情况下，当输入3条原始语料时本体知识库的情况。其中，原始语料τ表示的是输入的文本，可以是句子，段落等。语料τ经过电力文本实体识别模型之后形成本体。因不同的语料有不同的表达方式，所以其中蕴含的本体也不同，为了表达语料中本体之间的关联关系，为接下来的匹配算法做准备，故有本体关联向量产生：

每个语料对应的本体关联向量表示的是语料中蕴含的实体之间的关系。当语料中存在某个实体时，在本体关联向量中该实体的值为1，否则为0。

(2)业务人员输入检索语句，利用本体最大关联匹配度算法，计算检索语句与本体知识库中知识的相似度。本体最大关联匹配度算法的具体流程如下：

首先将业务人员输入的检索语句作为问询语料

输入至电力实体识别模型中去，得到本体及本体关联向量

计算

与本体知识库中的每一个本体关联向量

的Jaccard系数。Jaccard系数主要用于计算符号度量或布尔值度量的个体间的相似度，因为个体的特征属性都是由符号度量或者布尔值标识，因此无法衡量差异具体值的大小，只能获得“是否相同”这个结果，所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。

对于上面两个对象

和

本发明利用Jaccard系数计算它的相似性，公式如下：

式中

表示问询语料的本体关联向量，

在计算完对所有原始语料本体关联向量的Jaccard系数后，依照系数从大到小对本体知识库进行排序。

在排序完后，本发明将定义一个阈值用于返回符合条件的语料。当Jaccard系数大于该阈值时，返回相对应的本体和原始语料。通过动态调整返回阈值，对排序好的原始语料进行抽取，得出最终检索结果。根据知识库的大小，动态调整返回阈值，来达到使输出结果更合理的目的。返回阈值的初始值设定为0.5，当本体知识库中的数据量较少时，只返回Jaccard系数大于0.5的本体和原始语料，以尽可能多的返回结果，达到检索目的；当本体知识库中的数据量在逐渐增加时，将提高返回阈值，较高的返回阈值将提升检索的效率及精度，使整个检索应用更高效智能。

最终的返回结果由两个部分构成：1)根据检索语句所检索到的实体；2)根据检索语句通过最大关联匹配算法及动态抽取算法输出所检索到的原始语料。

本实施例根据实体识别的结果建立本体关联矩阵，根据矩阵中的最优匹配度检索结果，构建电力本体知识库。利用Bi-LSTM的回溯特性与时序记忆特性，挖掘文本序列的整体隐含特征，利用传统机器学习方法CRF对紧密排序问题进行“疏通”，使原有Bi-LSTM的输出结果更加准确和合理化，利用本体之间关联匹配度的本体知识库，将用户的检索问询和与知识库中的本体和原始语料相关联，快速且准确地完成用户侧的信息检索需求。

以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于电力本体知识库的电力信息检索方法，其特征在于，包括：

将训练样本输入Bi-LSTM-CRF模型，对Bi-LSTM-CRF模型进行训练；所述Bi-LSTM-CRF模型包括嵌入层、双向长短时记忆网络层(Bi-LSTM)和条件随机场层(CRF)；其中，嵌入层对中文字符进行编码，将文本向量化表示；向长短时记忆网络层(Bi-LSTM)用于提取文本序列的抽象语言特征，包括文本的顺序时序特征、逆序时序特征；条件随机场层(CRF)对双向长短时记忆网络层层的输出进行处理；

将电力文本的电力实体识别结果送入电力本体知识库；所述电力本体知识库包括原始语料、本体、本体关联向量；其中，原始语料表示输入的文本，原始语料经过基于Bi-LSTM-CRF模型识别形成本体，本体关联向量表示原始语料与本体之间的关联关系；

2.根据权利要求1所述的基于电力本体知识库的电力信息检索方法，其特征在于，若原始语料中存在实体时，则本体关联向量的值为1，否则为0。

3.根据权利要求2所述的基于电力本体知识库的电力信息检索方法，其特征在于，双向长短时记忆网络层(Bi-LSTM)包括前向长短时记忆网络层和后向长短时记忆网络层，前向长短时记忆网络层用于融合顺序的上下文信息，后向长短时记忆网络层用于融合逆序的上下文信息，最后综合前向长短时记忆网络层和后向长短时记忆网络层的输出；前向长短时记忆网络层和后向长短时记忆网络层均包括：输入门、遗忘门、记忆门和输出门。

4.根据权利要求1-3任一所述的基于电力本体知识库的电力信息检索方法，其特征在于，所述最大关联匹配度算法包括：

输入的检索语句作为问询语料

输入至电力实体识别模型中去，得到本体及本体关联向量

计算本体关联向量

与本体知识库中的每一个本体关联向量

采用如下公式计算原始语料本体关联向量的Jaccard系数：

式中

表示问询语料的本体关联向量，

依照系数从大到小对本体知识库进行排序。

5.根据权利要求4所述的基于电力本体知识库的电力信息检索方法，其特征在于，当Jaccard系数大于预设阈值时，返回相对应的本体和原始语料；动态调整返回阈值，对排序好的原始语料进行抽取。