CN116992009A - 一种基于本体和知识图谱的继电保护缺陷文本质量评价方法 - Google Patents
一种基于本体和知识图谱的继电保护缺陷文本质量评价方法 Download PDFInfo
- Publication number
- CN116992009A CN116992009A CN202310672347.XA CN202310672347A CN116992009A CN 116992009 A CN116992009 A CN 116992009A CN 202310672347 A CN202310672347 A CN 202310672347A CN 116992009 A CN116992009 A CN 116992009A
- Authority
- CN
- China
- Prior art keywords
- defect
- index
- text
- relay protection
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007547 defect Effects 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 20
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 238000012937 correction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000001939 inductive effect Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 238000005065 mining Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于本体和知识图谱的继电保护缺陷文本质量评价方法。本发明首先针对继电保护装置缺陷记录,结合电网缺陷数据及缺陷专业词典,利用传统人工和机器自动化相结合的方法,构建继电保护缺陷本体和知识图谱。其次,针对三种常见的缺陷文本记录问题,相应地提出了3项保护装置缺陷记录文本质量评价指标,即:完整性、准确性、冗余度。最后采用层次分析法和熵权法结合的主客观结合方法实现了文本质量综合评价。
Description
技术领域
本发明涉及继电保护装置缺陷分析技术领域,具体是一种基于本体和知识图谱的继电保护缺陷文本质量评价方法
背景技术
继电保护设备在长期运行过程中,通过巡检、试验等手段记录和积累了大量缺陷文本数据,这些数据包括结构化、半结构化数据,以及非结构化的文本型数据,其中蕴含了丰富的专业知识和一线运维人员的消缺经验,亟需进行数据分析,发挥其挖掘潜力。
得益于自然语言处理技术的日趋成熟,非结构化文本挖掘技术在许多行业已取得丰硕的成果。然而,这些应用均依赖于高质量的文本数据,而目前的设备缺陷数据记录完全依靠人工,由于人为的疏忽和主观上的偏差导致数据质量参差不齐,原始数据的不规范、噪声因素含量高,容易导致模型训练不收敛,自然语言处理工具的性能大打折扣。此外,对于二次系统文本数据质量目前尚无明确定义,对于继电保护缺陷文本记录,合理的量化评价文本数据质量也是有待解决的问题。因此,提出一种缺陷记录文本质量评价方法具有重要理论和工程意义。
发明内容
本发明的目的是提供一种综合考虑实际保护装置的运维辅助和继电保护装置缺陷文本的质量评价方法,该方法能较好地给出继电保护缺陷文本的质量评价,并准确地筛选出质量较高的缺陷记录文本,具有很强的实用价值。
本发明的目的是通过以下技术方案实现的:
一种基于本体和知识图谱的继电保护缺陷文本质量评价方法,所述方法包括:
步骤1、针对继电保护装置缺陷记录,结合电网缺陷数据及缺陷专业词典,利用传统人工和机器自动化相结合的方法,构建继电保护缺陷本体和知识图谱;
步骤2、针对三种常见的缺陷文本记录问题,相应地提出3项保护装置缺陷记录文本质量评价指标,即:完整性、准确性、冗余度;
步骤3、采用层次分析法和熵权法结合的主客观结合方法实现文本质量综合评价;
由上述本发明提供的技术方案可以看出,上述方法可以较为准确的筛选出质量较高的缺陷记录文本,从而进行接下来更深入的文本挖掘工作,具有很强的实用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例整体步骤图;
图2为本发明实施例知识图谱与本体示意图;
图3为本发明实施例知识图谱与本体构建流程图;
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
下面将结合附图对本发明实施例作进一步地详细描述,所述方法包括:
步骤1、针对继电保护装置缺陷记录,结合电网缺陷数据及缺陷专业词典,利用传统人工和机器自动化相结合的方法,构建继电保护缺陷本体和知识图谱;
在所述步骤1中,具体过程为:
首先,确定研究对象范围,并进行文本预处理;其次,利用专业词典和TF-IDF实现继电保护缺陷术语抽取,根据专家运行经验,按照准确、完整、颗粒度适中的原则,将继电保护缺陷领域概念归纳为17类,将这些概念间关系归纳为6类(不含其他类),利用Protégé形成本体实例;最后,利用专业词典对缺陷文本进一步清洗,并实现实体识别和共指消解,根据继电保护缺陷记录文本特征,分别基于语法规则和远程监督学习方法,实现近邻词位实体和长间隔词位实体的关系抽取,并输出关系集合形成知识图谱。
步骤2、针对三种常见的缺陷文本记录问题,相应地提出3项保护装置缺陷记录文本质量评价指标,即:完整性、准确性、冗余度;
在所述步骤2中,具体过程为:
针对三种常见的缺陷文本记录问题,相应地提出3项保护装置缺陷记录文本质量评价指标,具体如下:
(1)完整性(z1)。缺陷记录中是否含有缺陷设备及缺陷现象、缺陷部件及缺陷原因、缺陷处理措施这三项主要信息。
(2)准确性(z2)。缺陷记录中结构化数据和非结构化数据记录的缺陷设备和缺陷部位是否准确对应。
(3)冗余度(z3)。缺陷记录中是否含有对同一缺陷信息的重复描述。
结合已构建的继电保护装置缺陷专业词典以及jieba分词,将缺陷记录逐条进行分词,然后结合本体及知识图谱,可得各条记录的评价指标计算如下:
对于完整性指标,利用已构建的保护装置缺陷本体及知识图谱,对每条缺陷记录进行检索,识别其中是否含有缺陷设备及缺陷现象、缺陷部件及缺陷原因、缺陷处理措施这三项主要信息。由于缺陷记录中的缺陷设备和缺陷现象、缺陷部件和缺陷原因一般两两出现,因此,对于这三项主要信息,每项信息分别计分4、3、3,满分为10分。即z1可能取值为0,3,4,6,7,10。
对于准确性指标,若在该条缺陷记录中检索到了缺陷设备和缺陷部件,则将检索到的信息与原始记录中的结构化部分进行比对,每项信息若能对应则计分为8,最高计10分。因此,z2的可能取值为0,8,10。
对于冗余度指标,可由缺陷记录中的词汇总数wall以及不重复词汇数wdif,确定,具体如下:
即,z3∈[0,1]。
进一步,按照上述指标量化规则,即可得到缺陷文本质量评价矩阵Zmn=|zij|m×n其中zij为第i个评价对象关于指标zj的原始统计值;m为待评价的缺陷数据总数;n为指标数量,取3。
步骤3、采用层次分析法和熵权法结合的主客观结合方法实现文本质量综合评价;
在所述步骤3中,具体过程为:
层次分析法是一种主观的、定性问题定量化的决策分析方法,主要包含以下几个步骤:
(1)根据指标对评价对象的重要性,对各指标进行两两比较,建立判断矩阵An×n;
(2)对判断矩阵An×n进行一致性检验;
(3)确定各指标权重w=[w1,…,wn],其中n取3。
熵权法是一种客观赋权方法,完全依赖于客观数据,可用于修正原始指标权重,提高指标权重的客观性,主要步骤如下:
(1)指标规范化
考虑到继电保护装置缺陷记录数据的特殊性,即非结构化文本数据作为结构化数据的补充而存在,结构化数据填报的准确性和可信程度远高于非结构化数据。又文本质量评价是以结构化数据为基准,因此,在指标规范化过程中需考虑上述特性。本文采用改进型指标规范化方法,具体如下:
其中,pij为评价指标规范化数值;zjmax为指标zj统计数据最大值;zjmin为指标zj统计数据最小值;k为常数,根据实际情况取定。
(2)指标zj的熵值Ej计算
(3)指标zj的偏差度Dj计算
Dj=1-Ej (4)
(4)指标zj的熵权修正系数μj计算
最后,需要将两种指标权重进行集成。首先,利用修正系数μj修正层次分析法初始权重wj,求出熵权修正权重αj
进而,将初始权重与熵权修正权重组合得到权重ωj
ωj=rwj+(1-r)αj (7)
其中,r为分辨系数,通常为0.5。
值得注意的是,本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1.一种基于本体和知识图谱的继电保护缺陷文本质量评价方法,其特征在于,所述方法包括:
步骤1、针对继电保护装置缺陷记录,结合电网缺陷数据及缺陷专业词典,利用传统人工和机器自动化相结合的方法,构建继电保护缺陷本体和知识图谱;
步骤2、针对三种常见的缺陷文本记录问题,相应地提出3项保护装置缺陷记录文本质量评价指标,即:完整性、准确性、冗余度;
步骤3、采用层次分析法和熵权法结合的主客观结合方法实现文本质量综合评价。
2.根据权利要求1所述基于本体和知识图谱的继电保护缺陷文本质量评价方法,其特征在于,在所述步骤1中,针对继电保护装置缺陷记录,结合电网缺陷数据及缺陷专业词典,利用传统人工和机器自动化相结合的方法,构建继电保护缺陷本体和知识图谱,具体过程为:
首先,确定研究对象范围,并进行文本预处理;其次,利用专业词典和TF-IDF实现继电保护缺陷术语抽取,根据专家运行经验,按照准确、完整、颗粒度适中的原则,将继电保护缺陷领域概念归纳为17类,将这些概念间关系归纳为6类(不含其他类),利用Protégé形成本体实例;最后,利用专业词典对缺陷文本进一步清洗,并实现实体识别和共指消解,根据继电保护缺陷记录文本特征,分别基于语法规则和远程监督学习方法,实现近邻词位实体和长间隔词位实体的关系抽取,并输出关系集合形成知识图谱。
3.根据权利要求1所述基于本体和知识图谱的继电保护缺陷文本质量评价方法,其特征在于,在所述步骤2中,针对三种常见的缺陷文本记录问题,相应地提出3项保护装置缺陷记录文本质量评价指标,即:完整性、准确性、冗余度,具体过程为:
(1)完整性(z1)。缺陷记录中是否含有缺陷设备及缺陷现象、缺陷部件及缺陷原因、缺陷处理措施这三项主要信息。
(2)准确性(z2)。缺陷记录中结构化数据和非结构化数据记录的缺陷设备和缺陷部位是否准确对应。
(3)冗余度(z3)。缺陷记录中是否含有对同一缺陷信息的重复描述。
结合已构建的继电保护装置缺陷专业词典以及jieba分词,将缺陷记录逐条进行分词,然后结合本体及知识图谱,可得各条记录的评价指标计算如下:
对于完整性指标,利用已构建的保护装置缺陷本体及知识图谱,对每条缺陷记录进行检索,识别其中是否含有缺陷设备及缺陷现象、缺陷部件及缺陷原因、缺陷处理措施这三项主要信息。由于缺陷记录中的缺陷设备和缺陷现象、缺陷部件和缺陷原因一般两两出现,因此,对于这三项主要信息,每项信息分别计分4、3、3,满分为10分。即z1可能取值为0,3,4,6,7,10。
对于准确性指标,若在该条缺陷记录中检索到了缺陷设备和缺陷部件,则将检索到的信息与原始记录中的结构化部分进行比对,每项信息若能对应则计分为8,最高计10分。因此,z2的可能取值为0,8,10。
对于冗余度指标,可由缺陷记录中的词汇总数wall以及不重复词汇数wdif,确定,具体如下:
即,z3∈[0,1]。
进一步,按照上述指标量化规则,即可得到缺陷文本质量评价矩阵Zmn=|zij|m×n其中zij为第i个评价对象关于指标zj的原始统计值;m为待评价的缺陷数据总数;n为指标数量,取3。
4.根据权利要求1所述基于本体和知识图谱的继电保护缺陷文本质量评价方法,其特征在于,在所述步骤3中,采用层次分析法和熵权法结合的主客观结合方法实现文本质量综合评价,过程具体为:
层次分析法是一种主观的、定性问题定量化的决策分析方法,主要包含以下几个步骤:
(1)根据指标对评价对象的重要性,对各指标进行两两比较,建立判断矩阵An×n;
(2)对判断矩阵An×n进行一致性检验;
(3)确定各指标权重w=[w1,…,wn],其中n取3。
熵权法是一种客观赋权方法,完全依赖于客观数据,可用于修正原始指标权重,提高指标权重的客观性,主要步骤如下:
(1)指标规范化
考虑到继电保护装置缺陷记录数据的特殊性,即非结构化文本数据作为结构化数据的补充而存在,结构化数据填报的准确性和可信程度远高于非结构化数据。又文本质量评价是以结构化数据为基准,因此,在指标规范化过程中需考虑上述特性。本文采用改进型指标规范化方法,具体如下:
其中,pij为评价指标规范化数值;zjmax为指标zj统计数据最大值;zjmin为指标zj统计数据最小值;k为常数,根据实际情况取定。
(2)指标zj的熵值Ej计算
(3)指标zj的偏差度Dj计算
Dj=1-Ej (4)
(4)指标zj的熵权修正系数μj计算
最后,需要将两种指标权重进行集成。首先,利用修正系数μj修正层次分析法初始权重wj,求出熵权修正权重αj
进而,将初始权重与熵权修正权重组合得到权重ωj
ωj=rwj+(1-r)αj (7)
其中,r为分辨系数,通常为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310672347.XA CN116992009A (zh) | 2023-06-08 | 2023-06-08 | 一种基于本体和知识图谱的继电保护缺陷文本质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310672347.XA CN116992009A (zh) | 2023-06-08 | 2023-06-08 | 一种基于本体和知识图谱的继电保护缺陷文本质量评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116992009A true CN116992009A (zh) | 2023-11-03 |
Family
ID=88529066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310672347.XA Pending CN116992009A (zh) | 2023-06-08 | 2023-06-08 | 一种基于本体和知识图谱的继电保护缺陷文本质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992009A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829683A (zh) * | 2024-03-04 | 2024-04-05 | 国网山东省电力公司信息通信公司 | 基于图对比学习的电力物联数据质量分析方法及系统 |
-
2023
- 2023-06-08 CN CN202310672347.XA patent/CN116992009A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829683A (zh) * | 2024-03-04 | 2024-04-05 | 国网山东省电力公司信息通信公司 | 基于图对比学习的电力物联数据质量分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10387805B2 (en) | System and method for ranking news feeds | |
CN111767398A (zh) | 基于卷积神经网络的二次设备故障短文本数据分类方法 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN116992009A (zh) | 一种基于本体和知识图谱的继电保护缺陷文本质量评价方法 | |
CN114186983B (zh) | 视频面试多维评分方法、系统、计算机设备及存储介质 | |
CN114385775B (zh) | 一种基于大数据的敏感词识别方法 | |
CN114492926A (zh) | 一种煤矿安全隐患文本分析预测方法和系统 | |
CN113010695A (zh) | 一种适用于继电保护装置缺陷分析的专业词典构建方法 | |
CN118195560A (zh) | 一种基于专业人才的多维度数据匹配方法及系统 | |
CN118245614A (zh) | 一种基于知识图谱的矿井提升机故障诊断及预防方法 | |
CN118153690A (zh) | 基于可信度感知和检索增强语言模型的问答方法及系统 | |
CN112861530A (zh) | 一种基于文本挖掘的课程设置分析方法 | |
CN111814457B (zh) | 一种电网工程合同文本生成方法 | |
Rao et al. | A Systematic Review of β-factor Models in the Quantification of Common Cause Failures | |
CN115688775A (zh) | 一种基于注意力机制的电网运检领域命名实体识别方法 | |
CN111737976B (zh) | 一种旱灾风险预测方法及系统 | |
CN113762589A (zh) | 一种输变电工程变更预测系统及方法 | |
CN113642321A (zh) | 面向金融领域的因果关系提取方法和系统 | |
CN114663102A (zh) | 基于半监督模型预测发债主体违约的方法、设备及存储介质 | |
CN113379447B (zh) | 一种电视剧单日收视率的预测方法 | |
CN117236648B (zh) | 人才招聘与匹配的智能化系统 | |
CN117667495B (zh) | 一种关联规则与深度学习集成的应用系统故障预测方法 | |
CN113379448B (zh) | 一种电影票房的映前预测方法 | |
CN117271710B (zh) | 一种基于大数据的教辅热点数据智能分析系统 | |
CN114676298B (zh) | 一种基于质量过滤器的缺陷报告标题自动生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |