CN116992009A

CN116992009A - 一种基于本体和知识图谱的继电保护缺陷文本质量评价方法

Info

Publication number: CN116992009A
Application number: CN202310672347.XA
Authority: CN
Inventors: 于逸廷; 薛安成
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-11-03

Abstract

本发明公开了一种基于本体和知识图谱的继电保护缺陷文本质量评价方法。本发明首先针对继电保护装置缺陷记录，结合电网缺陷数据及缺陷专业词典，利用传统人工和机器自动化相结合的方法，构建继电保护缺陷本体和知识图谱。其次，针对三种常见的缺陷文本记录问题，相应地提出了3项保护装置缺陷记录文本质量评价指标，即：完整性、准确性、冗余度。最后采用层次分析法和熵权法结合的主客观结合方法实现了文本质量综合评价。

Description

一种基于本体和知识图谱的继电保护缺陷文本质量评价方法

技术领域

本发明涉及继电保护装置缺陷分析技术领域，具体是一种基于本体和知识图谱的继电保护缺陷文本质量评价方法

背景技术

继电保护设备在长期运行过程中，通过巡检、试验等手段记录和积累了大量缺陷文本数据，这些数据包括结构化、半结构化数据，以及非结构化的文本型数据，其中蕴含了丰富的专业知识和一线运维人员的消缺经验，亟需进行数据分析，发挥其挖掘潜力。

得益于自然语言处理技术的日趋成熟，非结构化文本挖掘技术在许多行业已取得丰硕的成果。然而，这些应用均依赖于高质量的文本数据，而目前的设备缺陷数据记录完全依靠人工，由于人为的疏忽和主观上的偏差导致数据质量参差不齐，原始数据的不规范、噪声因素含量高，容易导致模型训练不收敛，自然语言处理工具的性能大打折扣。此外，对于二次系统文本数据质量目前尚无明确定义，对于继电保护缺陷文本记录，合理的量化评价文本数据质量也是有待解决的问题。因此，提出一种缺陷记录文本质量评价方法具有重要理论和工程意义。

发明内容

本发明的目的是提供一种综合考虑实际保护装置的运维辅助和继电保护装置缺陷文本的质量评价方法，该方法能较好地给出继电保护缺陷文本的质量评价，并准确地筛选出质量较高的缺陷记录文本，具有很强的实用价值。

本发明的目的是通过以下技术方案实现的：

一种基于本体和知识图谱的继电保护缺陷文本质量评价方法，所述方法包括：

步骤1、针对继电保护装置缺陷记录，结合电网缺陷数据及缺陷专业词典，利用传统人工和机器自动化相结合的方法，构建继电保护缺陷本体和知识图谱；

步骤2、针对三种常见的缺陷文本记录问题，相应地提出3项保护装置缺陷记录文本质量评价指标，即：完整性、准确性、冗余度；

步骤3、采用层次分析法和熵权法结合的主客观结合方法实现文本质量综合评价；

由上述本发明提供的技术方案可以看出，上述方法可以较为准确的筛选出质量较高的缺陷记录文本，从而进行接下来更深入的文本挖掘工作，具有很强的实用价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例整体步骤图；

图2为本发明实施例知识图谱与本体示意图；

图3为本发明实施例知识图谱与本体构建流程图；

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实施例作进一步地详细描述，所述方法包括：

在所述步骤1中，具体过程为：

首先，确定研究对象范围，并进行文本预处理；其次，利用专业词典和TF-IDF实现继电保护缺陷术语抽取，根据专家运行经验，按照准确、完整、颗粒度适中的原则，将继电保护缺陷领域概念归纳为17类，将这些概念间关系归纳为6类(不含其他类)，利用Protégé形成本体实例；最后，利用专业词典对缺陷文本进一步清洗，并实现实体识别和共指消解，根据继电保护缺陷记录文本特征，分别基于语法规则和远程监督学习方法，实现近邻词位实体和长间隔词位实体的关系抽取，并输出关系集合形成知识图谱。

在所述步骤2中，具体过程为：

针对三种常见的缺陷文本记录问题，相应地提出3项保护装置缺陷记录文本质量评价指标，具体如下：

(1)完整性(z₁)。缺陷记录中是否含有缺陷设备及缺陷现象、缺陷部件及缺陷原因、缺陷处理措施这三项主要信息。

(2)准确性(z₂)。缺陷记录中结构化数据和非结构化数据记录的缺陷设备和缺陷部位是否准确对应。

(3)冗余度(z₃)。缺陷记录中是否含有对同一缺陷信息的重复描述。

结合已构建的继电保护装置缺陷专业词典以及jieba分词，将缺陷记录逐条进行分词，然后结合本体及知识图谱，可得各条记录的评价指标计算如下：

对于完整性指标，利用已构建的保护装置缺陷本体及知识图谱，对每条缺陷记录进行检索，识别其中是否含有缺陷设备及缺陷现象、缺陷部件及缺陷原因、缺陷处理措施这三项主要信息。由于缺陷记录中的缺陷设备和缺陷现象、缺陷部件和缺陷原因一般两两出现，因此，对于这三项主要信息，每项信息分别计分4、3、3，满分为10分。即z₁可能取值为0,3,4,6,7,10。

对于准确性指标，若在该条缺陷记录中检索到了缺陷设备和缺陷部件，则将检索到的信息与原始记录中的结构化部分进行比对，每项信息若能对应则计分为8，最高计10分。因此，z₂的可能取值为0,8,10。

对于冗余度指标，可由缺陷记录中的词汇总数w_all以及不重复词汇数w_dif，确定，具体如下：

即，z₃∈[0,1]。

进一步，按照上述指标量化规则，即可得到缺陷文本质量评价矩阵Z_mn＝|z_ij|_m×n其中z_ij为第i个评价对象关于指标z_j的原始统计值；m为待评价的缺陷数据总数；n为指标数量，取3。

在所述步骤3中，具体过程为：

层次分析法是一种主观的、定性问题定量化的决策分析方法，主要包含以下几个步骤：

(1)根据指标对评价对象的重要性，对各指标进行两两比较，建立判断矩阵A_n×n；

(2)对判断矩阵A_n×n进行一致性检验；

(3)确定各指标权重w＝[w₁,…,w_n]，其中n取3。

熵权法是一种客观赋权方法，完全依赖于客观数据，可用于修正原始指标权重，提高指标权重的客观性，主要步骤如下：

(1)指标规范化

考虑到继电保护装置缺陷记录数据的特殊性，即非结构化文本数据作为结构化数据的补充而存在，结构化数据填报的准确性和可信程度远高于非结构化数据。又文本质量评价是以结构化数据为基准，因此，在指标规范化过程中需考虑上述特性。本文采用改进型指标规范化方法，具体如下：

其中，p_ij为评价指标规范化数值；z_jmax为指标z_j统计数据最大值；z_jmin为指标z_j统计数据最小值；k为常数，根据实际情况取定。

(2)指标z_j的熵值E_j计算

(3)指标z_j的偏差度D_j计算

D_j＝1-E_j (4)

(4)指标z_j的熵权修正系数μ_j计算

最后，需要将两种指标权重进行集成。首先，利用修正系数μ_j修正层次分析法初始权重w_j，求出熵权修正权重α_j

进而，将初始权重与熵权修正权重组合得到权重ω_j

ω_j＝rw_j+(1-r)α_j (7)

其中，r为分辨系数，通常为0.5。

值得注意的是，本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于本体和知识图谱的继电保护缺陷文本质量评价方法，其特征在于，所述方法包括：

步骤3、采用层次分析法和熵权法结合的主客观结合方法实现文本质量综合评价。

2.根据权利要求1所述基于本体和知识图谱的继电保护缺陷文本质量评价方法，其特征在于，在所述步骤1中，针对继电保护装置缺陷记录，结合电网缺陷数据及缺陷专业词典，利用传统人工和机器自动化相结合的方法，构建继电保护缺陷本体和知识图谱，具体过程为：

3.根据权利要求1所述基于本体和知识图谱的继电保护缺陷文本质量评价方法，其特征在于，在所述步骤2中，针对三种常见的缺陷文本记录问题，相应地提出3项保护装置缺陷记录文本质量评价指标，即：完整性、准确性、冗余度，具体过程为：