CN113342784A

CN113342784A - 一种电网主变设备风险评估的数据库设计方法

Info

Publication number: CN113342784A
Application number: CN202110745193.3A
Authority: CN
Inventors: 黄军凯; 张迅; 文屹; 吕黔苏; 王冕; 范强; 赵超; 吴建蓉; 丁江桥
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2021-09-03

Abstract

本发明公开了一种电网主变设备风险评估的数据库设计方法，包括以下步骤：a）缺陷数据收集，通过分析数据来源，获得缺陷分类标准库的缺陷记录数据表的字段名称和字段内容；b）对缺陷数据进行清洗以及去重；c）人工标注，根据历史缺陷报告对缺陷表象、缺陷部位、缺陷原因和处理措施进行文本分析人工标注，最终获得设备缺陷标准库。本发明保证了设备缺陷特征词库的完整，后续可结合机器学习算法实现设备缺陷特征词库的自动扩充，构建更为智能的缺陷标准库，缺陷标准库构建准确，使得缺陷诊断模型诊断准确率高。

Description

一种电网主变设备风险评估的数据库设计方法

技术领域

本发明涉及设备风险评估数据库技术领域，具体涉及一种电网主变设备风险评估的数据库设计方法。

背景技术

由于电网主变设备结构复杂、集成度较高、运行环境复杂多变，且经常受到外部不良工况、系统调度方式改变的影响，大大增加了设备风险评估工作的难度，构建的数据库大多单一或有限，而且数据库构建不精确，从而未能综合考虑设备内部影响因素对设备风险的影响，从而导致评估结果的准确度和针对性差。

发明内容

本发明要解决的技术问题是：提供一种电网主变设备风险评估的数据库设计方法，以解决现有技术中存在的技术问题。

本发明采取的技术方案为：一种电网主变设备风险评估的数据库设计方法，该方法包括以下步骤：

a)缺陷数据收集，缺陷数据收集的数据来源包括历史缺陷报告、缺陷记录数据、设备运行数据、设备试验数据、设备在线监测数据，通过分析数据来源，获得缺陷分类标准库的缺陷记录数据表的字段名称和字段内容；

b)对缺陷数据进行清洗以及去重，对收集的数据的两条或两条以上相同缺陷数据、缺陷数据缺失、缺陷数据乱码、缺陷数据中存在空格、缺陷数据全角转半角和英文大小写进行清洗和去重；

c)人工标注，根据历史缺陷报告对缺陷表象、缺陷部位、缺陷原因和处理措施进行文本分析人工标注，最终获得设备缺陷标准库。

上述缺陷记录数据所包含字段：单位、电压等级、缺陷等级、地点、设备名称、缺陷类型、缺陷描述、专业大类、生产厂家、出厂年月、设备型号、投运日期、缺陷原因类别、缺陷原因、缺陷表象、发现时间、缺陷部位、处理措施。

上述设备运行数据包含字段：电压、三相不平衡电流、电压等级。

上述设备在线监测数据：介损、等值电容、参考电压报警、三相不平衡电流报警、介损报警、全电流报警、等值电容报警、监测设备通信状态、监测设备运行状态、设备自检异常、局放、铁芯电流。

上述设备试验数据包含字段：红外成像测温、气室气体、触头回路电阻、外绝缘表面耐压、气体分解物测试值。

上述一种电网主变设备风险评估的数据库设计方法采用TF-IDF文本相似度分析方法的TF-IDF模型训练步骤如下：

1)获取原始文本内容信息；

2)转换成纯小写，按空格把文章分成独立的词组成的list；

3)去除噪音符号：["\"","＝","\\","/",":","-","(",")",",",".","\n"]；

4)去除停用词；

5)提取词干，把相近的词转换为标准形式；

6)wordcount，统计每个词出现的次数，去掉出现次数较少的词；

7)训练idf模型；

8)对输入的每篇测试文章计算其tfidf向量，然后可以利用tfidf向量求文章之间的相似度。

上述缺陷记录数据表的字段名称和字段内容为13个，字段名称包括设备名称、缺陷类型、发现时间、缺陷等级、缺陷处理措施、缺陷发现来源、缺陷表象、缺陷描述、缺陷原因、缺陷部位、缺陷部件和处理情况描述。

上述设备缺陷标准库包括变量名称和数据类型，变量名称包括：设备名称、缺陷等级、设备型号、设备编码、电压等级、设备厂家、投运日期、缺陷类型、缺陷描述、专业大类、缺陷原因类别、缺陷原因、缺陷表象、发现时间、缺陷部位、处理措施、缺陷处理措施、缺陷发现来源、缺陷数据来源、三相不平衡电流、数据采集时间、介损、等值电容、泄露电流、上触点温度、下触点温度、氢气、乙炔、甲烷、乙烷、乙烯、一氧化碳、二氧化碳、总烃和微水。

本发明的有益效果：与现有技术相比，本发明设备缺陷标准库构建主要以一次设备缺陷报告数据、设备运行数据、设备试验数据以及设备在线监测数据为主，为保证设备缺陷特征词库的完整，后续可结合机器学习算法实现设备缺陷特征词库的自动扩充，构建更为智能的缺陷标准库，缺陷标准库构建准确，使得缺陷诊断模型诊断准确率高。

附图说明

图1是变压器缺陷数量变化趋势图(2021年缺陷不做分析)；

图2是主变缺陷分布图；

图3是主变缺陷厂家分布图；

图4是缺陷标准库构建流程示意图；

图5是人工标准示例图；

图6是油浸式变压器结构示意图；

图7是特征空间中的词向量示意图；

图8是卷积神经网络结构图；

图9是训练集与测试集损失下降曲线；

图10是风险智能评估流程图。

具体实施方式

下面结合具体的实施例对本发明进行进一步介绍。

实施例1：设备缺陷标准库构建主要基于设备缺陷记录数据以及设备运行、监测等数据进行标准库构建，主要用到的方法为TF-IDF文本相似度分析方法。

TF-IDF文本相似度分析法：

TF-IDF文本相似度计算方法。TF(Term Frequency)指一篇文档中单词出现的频率，IDF(Inverse Document Frequency)指语料库中出现某个词的文档数，取对数。

TF＝词在文档中出现的次数/文档中所有词的个数

IDF＝log(语料库的文档总数/语料库中出现某单词的不同文档个数)

TF原理：某个词在一篇文档中出现的频率越多则对这篇文章越重要，TF-IDF模型训练步骤如下：

1、获取原始文本内容信息。

2、转换成纯小写，按空格把文章分成独立的词组成的list。

3、去除噪音符号：["\"","＝","\\","/",":","-","(",")",",",".","\n"]等。

4、去除停用词。

5、提取词干，把相近的词转换为标准形式。

6、wordcount，统计每个词出现的次数，去掉出现次数较少的词。

7、训练idf模型。

8、对输入的每篇测试文章计算其tfidf向量，然后可以利用tfidf向量求文章之间的相似度。

缺陷标准库构建对于设备缺陷智能诊断来说至关重要，缺陷标准库构建的准确，缺陷诊断模型准确率高，反之，缺陷诊断模型准确率低。缺陷标准库构建主要分为三部分，分别为缺陷数据收集(缺陷数据来源)；对缺陷数据进行清洗以及去重；人工对缺陷数据的表象、部位、原因和措施进行标注(人工标注)，缺陷标准库构建流程如图4所示。

一种电网主变设备风险评估的数据库设计方法，该方法包括以下步骤：

步骤1.数据来源及变量信息

缺陷标准库数据来源：历史缺陷报告、缺陷记录数据、设备运行数据、设备试验数据、设备在线监测数据。

缺陷记录数据所包含字段：单位、电压等级、缺陷等级、地点、设备名称、缺陷类型、缺陷描述、专业大类、生产厂家、出厂年月、设备型号、投运日期、缺陷原因类别、缺陷原因、缺陷表象、发现时间、缺陷部位、处理措施。

设备运行数据包含字段：电压、三相不平衡电流、电压等级等。

设备在线监测数据：介损、等值电容、参考电压报警、三相不平衡电流报警、介损报警、全电流报警、等值电容报警、监测设备通信状态、监测设备运行状态、设备自检异常、局放、铁芯电流。

设备试验数据包含字段：红外成像测温、气室气体、触头回路电阻、外绝缘表面耐压、气体分解物测试值。

缺陷分类标准库主要包含：设备类别、缺陷表象、缺陷描述、缺陷类型、缺陷部位、消缺措施和缺陷原因等字段。

经过对以上数据进行梳理发现，缺陷记录数据表中可用字段为13个，具体字段如下表2所示：

表2缺陷记录字段表

步骤2.缺陷数据清洗

缺陷数据清洗主要包括以下部分：1.缺陷数据重复(两条或两条以上相同缺陷数据)2.缺陷数据缺失，其中某些字段缺失的情况3.缺陷数据乱码的情况4.缺陷数据中存在空格的情况5.缺陷数据全角转半角问题(全角指一个字符占用两个标准字符位置,半角指一字符占用一个标准的字符位置)6.英文大小写问题等。

针对以上情况，需要对缺陷数据进行数据清洗以及去重工作，这样可以为后续标准库构建提供便利条件。

步骤3.人工标注

根据历史缺陷报告对缺陷表象、缺陷部位、缺陷原因和处理措施进行文本分析人工标注。人工标注主要是依据缺陷记录中的缺陷描述、缺陷原因、处理情况描述等文本内容，结合业务专家的经验来进行判断。人工标注字段示例如图5所示：

通过上述手段，构建出需要的缺陷标准库，为后续的设备缺陷诊断模型奠定基础。缺陷标准库样例如下表3所示：

表3部分缺陷标准库样例

实施例2：一种基于深度学习的一次设备风险智能评估方法，主要包括六个步骤：1.缺陷数据分析，通过缺陷数据分析了解设备缺陷数据特征；2.构建缺陷标准库，完成缺陷数据标准化存储；3.构建缺陷智能诊断模型，精准识别设备缺陷原因及缺陷部位，实现设备缺陷智能化诊断和缺陷严重程度划分；4.缺陷诊断结果分析，有效推荐缺陷管理措施；5.构建设备风险智能评估模型，识别缺陷对设备风险的影响程度；6.风险等级划分，实现设备风险处理的优先级划分。

数据缺陷分析是经过基于专家系统算法的缺陷填报数据治理方法治理过的数据，基于专家系统算法的缺陷填报数据治理方法包括以下步骤：

步骤1：缺陷关键信息漏填检测：从资产管理系统中，获取缺陷信息构成缺陷填报系统，当出现关键信息漏填写时，给出报警提示；

缺陷关键信息包括：电压等级、缺陷等级、地点、设备名称、设备类别、缺陷表象、缺陷类型、缺陷描述、应消缺时间、发现时间、专业大类、生产厂家、设备型号、出厂年月、投产日期、缺陷前后图片。

步骤2：根据步骤1中缺陷填报系统的部分缺陷信息核查：利用专家系统的思想进行缺陷填报信息的匹配核查，通过聚类分析和文本挖掘技术，从专家库的大量历史缺陷数据中，抽取缺陷描述并进行数据结构化，通过把语义分析和数据模糊匹配，对缺陷描述填报质量进行实时分析、模糊匹配，智能判断缺陷填报信息与描述对象是否匹配。

基于专家系统算法的缺陷填报数据治理方案研究包括缺陷关键信息漏填检测、缺陷填报信息核查、缺陷体外循环检测三部分内容，该模块的实施主要是基于专家系统算法对缺陷填报数据治理方案的优化，提高缺陷信息的完整性和准确性，提供详实有效的缺陷信息，以支持后续缺陷故障研判，需要对缺陷填报质量进行治理。同时，为了减少和杜绝缺陷体外循环的情况，还需进行缺陷工作票与缺陷信息关联。

通过研究缺陷填报系统，发现如下特点：

1、填报时，除了“缺陷描述”“备注”可以自行填入之外，其余各字段都是通过选择填入；

2、选择设备名称以后，专业大类、专业小类、地点、功能位置、设备类别、设备编码、生产厂家、设备型号、出厂年月、投运日期自动填入；

3、选择缺陷表象后，缺陷类型和缺陷等级自动填入，如果选择的是“其他”，则缺陷等级可另外选择；

4、选择缺陷等级后，应完成缺陷处理时间自动填入；

5、选择发现人以后，发现班组、发现部门自动填入；选择填报人以后，填报班组、填报部门、上报人、上报班组自动填入；

通过以上特点和过往经验，“电压等级”是通过下拉选取，有可能会出现选取错误的情况；而“缺陷表象”选择不准确或定级错误，会导致缺陷等级错误，或者“缺陷表象”选择正确，但定级错误。因此，需要核查的字段为“电压等级”和“缺陷等级”。

电压等级核查方法为：(1)提取“设备名称”里的电压等级，与“电压等级”比对是否相符；(2)如果“设备名称”没有电压等级，则提取“地点”里的电压等级。

缺陷等级核查方法为：

(1)“缺陷描述”最为准确描述设备缺陷，以“缺陷描述”为基准项；

(2)提取“缺陷描述”特征词，构建原始特征词库；

(3)通过近义词、同义词匹配，构建标准特征词库，例如“告警”是“报警”同义词，可以统一为“报警”；

(4)通过“设备类别”确定缺陷表象库，用以缩小缺陷表象库的范围，实现精准识别，通过《变电一次设备缺陷定级标准(运行分册)(试行)》构建缺陷表象库；

(5)通过组合标准特征词，匹配对应的缺陷表象，得到准确的缺陷等级；

(6)与缺陷信息的“缺陷表象”“缺陷等级”比对，判断填报是否准确。

步骤3：缺陷体外循环检测：通过基于自然语言处理的工作票与缺陷关联分析，利用自然语言处理中的词汇规范化、命名实体识别、标准化数据词典等方法，实现工作票中缺陷内容识别，并对工作票中缺陷文本进行数据结构化，提升工作票数据的数据质量。然后通过实体识别和关系抽取获取设备缺陷、设备工作票等对应的关联关系。

缺陷体外循环检测：1)从资产管理系统获取上个月状态为“工作终结”的工作票；2)提取工作票中工作任务内容描述的特征词，与构建好的关键词库比对，筛选出属于缺陷核查的工作票；3)缺陷核查工作票与缺陷信息匹配。

缺陷核查工作票与缺陷信息匹配方法为：(1)比对单位、站点、时间，时间比对方法为按工作终结时间往后一周以内筛选消缺时间；(2)比对工作任务内容和缺陷描述，如果匹配得上，则合规，反之，判定为缺陷体外循环；工作任务内容和缺陷描述比对方法为特征词比对法。

基于专家系统算法的缺陷填报数据治理方法是设备缺陷诊断与预测开展的前提条件，为了提高设备缺陷信息的完整性和准确性，需对缺陷填报数据质量进行治理，以详实有效的缺陷信息，为后续的缺陷故障研判提供数据支撑。缺陷数据在填报过程中目前存在漏填或填错等问题，此类问题发生时可通过统计等方法实现漏填信息统计及误报信息提示，业务人员可基于实际业务情况选择漏填信息自动补填或者误报信息修改；同时，为了减少和杜绝缺陷体外循环的情况，还需进行缺陷工作票与缺陷信息关联。缺陷填报数据治理工作可以对典型缺陷、批次缺陷以及重复发生的缺陷进行统计分析，为后续设备风险评估提供便利；基于专家系统算法对缺陷填报数据治理方案的优化，基于缺陷数据特征和填报方式选择最合适的解决方法弥补目前缺陷填报系统的短板和不足之处。

步骤1.缺陷数据分析

目前，电网一次设备健康状态的影响因素较多，在不同时间段内设备受内部因素及外部因素影响后产生的设备缺陷存在差异，因此，准确诊断造成设备出现缺陷的原因成为缺陷智能诊断的核心。以主网变压器作为研究对象，基于现有数据对2015年至2020年贵州省1527条线路下变电站的变压器总缺陷情况进行如图1所示分析结果。

由变压器缺陷数量变化趋势可知近6年来变压器缺陷呈上升趋势增长，2020年变压器缺陷数量最多达到2932个，缺陷问题对电网产生的风险影响急需管控。

如图2所示，通过对主变缺陷进行分析可以看出，主变缺陷类型为渗漏、颜色异常、拒动/误动、油位异常、装置故障的数量最多，对该类缺陷问题原因进行识别，能够有效解决主变异常多发的问题，降低主变故障风险。

如图3所示，通过对现有主变缺陷数据进行分析发现，重庆市亚东亚集团变压器有限公司、特变电工衡阳变压器有限公司、贵阳变压器厂、贵阳东方变压器厂、贵阳东方变压器有限公司五家设备厂商的变压器在近6年内发生缺陷的次数最多。

表1变压器渗漏分析

表1所示，以主变渗漏为例，不同缺陷类型对应的设备缺陷表象及缺陷描述也存在差异，变压器渗漏的缺陷表象有37种，描述类型有1531种，缺陷原因有81种，产生该缺陷的缺陷部位有27种。

步骤2.构建缺陷标准库

设备缺陷标准库构建主要基于设备缺陷记录数据以及设备运行、监测等数据进行标准库构建，主要用到的方法为TF-IDF文本相似度分析方法。

TF-IDF文本相似度分析法：

TF＝词在文档中出现的次数/文档中所有词的个数

1、获取原始文本内容信息。

2、转换成纯小写，按空格把文章分成独立的词组成的list。

4、去除停用词。

5、提取词干，把相近的词转换为标准形式。

7、训练idf模型。

步骤2.1.数据来源及变量信息

表2缺陷记录字段表

步骤2.2.缺陷数据清洗

步骤2.3.人工标注

表3部分缺陷标准库样例

步骤3.缺陷诊断模型

设备缺陷智能诊断需要通过分类算法实现设备缺陷的智能诊断与分类，目前分类算法有决策树分类、贝叶斯分类、人工神经网络、k-近邻、支持向量机等算法，但由于设备缺陷数据中存在非结构化数据，所以选择适用于文本分析的卷积神经网络算法进行后续的设备缺陷智能诊断。

卷积神经网络模型是在网络中使用卷积代替一般矩阵乘法的神经网络。卷积神经网络具有局部感知、权值共享的特点，从而大大减少了训练参数的数目，提高了复杂网络的计算效率。卷积神经网络可作为分类器，对向量化后的缺陷说明文本进行分类，并输出相应的分类结果。

设备缺陷智能诊断以油浸式变压器为例作为研究对象：如图6所示，从油浸式变压器设备结构来看，不同设备缺陷类型对应不同缺陷部位，不同的缺陷部位又对应不同缺陷部件，缺陷部位和缺陷部件与缺陷类型之间又存在一定关系。因此需要从设备类型、缺陷类型、缺陷部位、缺陷部件等维度来梳理一套缺陷诊断的体系，这个缺陷诊断体系即要体现不同部件之间的区别，又要体现不同缺陷之间的联系。

步骤3.1.构建缺陷诊断体系

通过结合业务人员经验，对变压器梳理了如下表4所示的缺陷诊断体系：

表4缺陷诊断体系表

设备类型	缺陷类型	缺陷部位	缺陷部件
				变压器	接线端子发热	套管	螺栓
变压器	接线端子发热	套管	线夹
				变压器	冷却系统缺陷	潜油泵	潜油泵
变压器	冷却系统缺陷	潜油泵	油流继电器
				变压器	冷却系统缺陷	潜油泵	阀门
变压器	冷却系统缺陷	冷却风扇	冷却风扇
				变压器	冷却系统缺陷	散热器	散热器
变压器	冷却系统缺陷	散热器	油路管道
				变压器	冷却系统缺陷	散热器	阀门
变压器	冷却系统缺陷	冷控箱	继电器
				变压器	冷却系统缺陷	冷控箱	接触器
变压器	冷却系统缺陷	冷控箱	PLC控制器
				变压器	冷却系统缺陷	冷控箱	PLC液晶控制面板
变压器	冷却系统缺陷	冷控箱	电源空气开关
				变压器	漏油	本体	取油阀
变压器	漏油	本体	事故放油阀
				变压器	漏油	本体	铁芯接地绝缘支柱
变压器	漏油	本体	夹件接地绝缘支柱
				变压器	漏油	本体	阀门
变压器	漏油	本体	油路管道
				变压器	漏油	本体	压力释放阀
变压器	漏油	本体	瓦斯继电器
				变压器	漏油	本体	法兰
变压器	漏油	油枕	油枕
				变压器	漏油	油枕	油位计
变压器	漏油	油枕	油路管道
				变压器	漏油	油枕	法兰
变压器	漏油	套管	套管
				…	…	…	…

从缺陷诊断体系表可以看出变压器的缺陷种类繁多，且同一缺陷类型对应的缺陷部位及缺陷部件各有不同，这就使得变压器缺陷诊断难度加大。变压器缺陷产生的原因主要在于设备内部本身质量以及变压器超负荷工作等问题引起，因此，为准确识别设备缺陷造成的设备风险，必须先对设备缺陷原因进行深入刨析。

步骤3.2.缺陷诊断模型

(1)设备缺陷诊断数据指标

表5设备缺陷诊断指标

(2)文本预处理

针对电力设备缺陷文本的特点，文本预处理主要是分词。中文文本不同于英文文本，词与词之间没有空格的自然分界，因此在文本表示之前需要对中文文本进行分词。分词过程采用jieba分词模块，并借助自行编纂的电力领域词典，对缺陷说明文本进行分词。

由于电力领域知识的专业性，电力领域词典在正确切分词语中起着重要作用，比如下面缺陷描述的分词结果：

表6领域词典在分词中的作用

从上面分词结果可以看到，没有引入电力领域词典时，油面被分成了“油”和“面”两个词，引入电力领域词典后，该词被正确划分。

(3)文本分布式表示

文本分布式表示方法基于“词的语义由其邻近词刻画”的原理，首先，以大量经过预处理的电力设备缺陷记录为语料库，训练出每个词的词向量表示的语言模型，词向量的各个维度代表通过模型学习到的词的语义特征。以维度为3的词向量为例，将部分缺陷文本的词向量在特征空间中进行表示，如图7所示。

其中每一个圆点表示一个词向量，x、y、z轴分别表示词向量的3个语义特征维度。由上图可见，词义相近的词对应的词向量在特征空间中距离比较接近，而词义相差较大的词对应的向量距离比较远，即可以通过词向量对词义特征进行刻画。在实际应用时，词向量维度大小可根据语料库大小指定，通常取100～300维，每个维度代表机器自动学习到的一个词特征，没有实际的物理意义。

(4)卷积神经网络

设备缺陷智能诊断主要采用卷积神经网络算法，将已处理的缺陷指标数据作为卷积神经网络的输入层，通过卷积神经网络的分类器，对向量化后的缺陷文本进行分类，输出相应的分类结果。本模型构建了一个四层的卷积神经网络，如图8所示。

(5)模型训练

以主变渗漏为例，模型输入变量为缺陷表象、缺陷描述、缺陷原因、设备类别、缺陷类型、缺陷部位等字段。利用卷积神经网络算法来学习，形成最终的设备缺陷诊断模型。

(6)缺陷诊断效果测试

在模型训练1-10次迭代过程中，损失函数迅速下降，在经过50次迭代后，训练集的损失函数仍呈下降趋势，而测试集已经处于平稳状态，可以看出模型已经学习到了缺陷原因与缺陷部位之间的模式关系，而且没有出现过拟合。图9中训练集与测试集损失下降曲线。横坐标为训练迭代次数，纵坐标为模型在训练集和测试集上的损失值，损失越小，说明模型越准确。

采用训练好的模型在训练集和测试集上进行验证，将模型缺陷诊断的准确率与缺陷原始填报的准确率进行对比。

表7模型准确率统计

总共获取的样本数量是4050个，按照7:3的比例将样本拆分为2835条训练集和1215条测试集，从上述准确率可以看出，模型对设备类型、缺陷类型、缺陷部位这三个单个字段分类的准确率达到90％以上，对缺陷部件这个字段分类的准确率达到65％以上。无论是从单个字段的准确率来看，还是从整体准确率来看，通过模型智能诊断设备缺陷部位和原因的准确率较高，说明模型能够从一定程度上实现对缺陷内容的语义理解，通过模型对缺陷进行诊断分析，向有关业务人员推荐缺陷管理措施。

在模型应用后，会对新增的缺陷信息的进行分类，业务人员对模型的分类结果进行确认，确认分类正确的数据再加入到模型中进行训练，随着训练样本的增加，模型的准确率会得到提升。

步骤4.缺陷诊断结果

缺陷诊断结果包括缺陷严重性、缺陷诊断原因以及缺陷管理措施推荐，模型应用过程中将新来的缺陷数据输入已经训练好的设备缺陷诊断模型中，最后输出缺陷数据的缺陷部位、缺陷原因以及缺陷管理措施等，缺陷诊断结果如表8所示：(缺陷严重度值由分值1-10进行表示，缺陷等级越高，缺陷严重度分值越低)

表8缺陷诊断结果表

缺陷诊断结果输出后，可以看出同一缺陷类型对应的缺陷描述、缺陷部位和管理措施等存在一对多的现象，其结果将作为设备风险智能评估的基础，结合变压器相关结构化数据通过大数据分析算法实现缺陷对设备风险的影响程度评估。

步骤5.风险智能评估

基于缺陷的设备风险智能评估打破以往人为定义评估指标权重的方式，采用相关性分析对已有指标进行降维，然后基于熵值法进行设备风险评估，熵值法是根据各项指标值的变异程度来确定指标权重的，这是一种客观赋权法，熵值法的指标比重计算采用的是各个方案某一指标占同一指标值总和的比值，因此指标不受量纲的影响，不需要人为进行标准化处理，只需对数据中存在的负值进行非负化处理即可，避免了人为因素带来的偏差，在评估指标权重和数据完全不受人为因素影响的前提下，从设备类型、缺陷部位、缺陷类型、缺陷频率、缺陷等级、设备重要性和电压等级、设备风险影响因子等维度选取指标，构建基于缺陷的设备风险智能评估模型。

风险智能评估作为的核心目标，其数据主要来源于缺陷智能诊断结果数据，利用缺陷智能诊断结果数据中的设备缺陷严重性、缺陷频率、设备重要性、电压等级、设备类型、设备风险因子等维度指标，结合熵值法对设备风险进行评估，并对设备风险按高中低进行划分，为设备维修提供参考性价值。

风险智能评估流程如图10所示。

步骤5.1.风险因子分析

共性化因子:

基于现有数据对变压器进行分析后发现，变压器的影响因子主要包括老化因子、缺陷因子、状态因子、主变告警因子。

老化因子主要是依据变压器投运年限计算：

表9老化因子表

投运年限	老化因子
		0-20年	<＝1
20年-30年	1.4
		30年以上	1.8

缺陷因子主要是依据变压器缺陷类型的影响因子计算：

表10缺陷因子表

状态因子主要是依据变压器触发次数计算：

表11状态因子表

负载率	状态因子
		0-0.8	<＝1
0.8-1	1.4
		1-1.2	1.8

主变告警因子主要是基于变压器未产生保护而引起主变告警的频率计算：

表12告警因子表

告警类别	告警因子
		介损告警	1.4
油色谱告警	1.8

个性化因子:

热老化因子(相对热老化率)主要是基于设备在当前环境温度下热老化率与标准温度下的热老化率比值进行计算：

表13热老化因子

温度	热老化因子
		98>	<＝1
98<＝	1.8

绝缘纸聚合因子是影响主变寿命的重要因素(变压器寿命终点＝绝缘纸寿命终点)，绝缘纸的抗张强度下降50％-60％，则认为机械强度已丧失，寿命终止：

表14聚合因子

初始聚合度	绝缘纸聚合因子
		1000-1500	<＝1
1000-500	1.2
		500-250	1.4
250-150	1.6
		150>	1.8

步骤5.2.缺陷影响因素相关性分析

在指标选取时，可能会出现两个指标或者多个指标间做出多重贡献，或者说两个指标或多个指标间存在相关性，为了准确地描述变量之间的线性相关程度，可以通过计算相关系数来进行相关分析。在二元变量的相关分析过程中比较常用的有Pearson相关系数、Spearman秩相关系数和判定系数。

(1)设备老化影响因素相关性分析

表15设备老化影响因素相关性分析

(2)设备缺陷影响因素相关性分析

表16设备缺陷影响因素相关性分析

(3)设备状态影响因素相关性分析

表17设备状态影响因素相关性分析

状态影响因素	重过载次数	负载率
			重过载次数	1	0.67
负载率	0.67	1

(4)设备告警影响因素相关性分析

表18设备告警影响因素相关性分析

告警影响因素	介损告警	油色谱告警
			介损告警	1	0.34
油色谱告警	0.34	1

步骤5.3.设备缺陷扣分规则库

(1)建立缺陷严重性扣分规则库，将缺陷的严重性根据缺陷严重性扣分规则库给出分数T1；(2)制定缺陷次数扣分规则，统计典型、批次、重复性发生的缺陷发生的次数，根据规则范围给出分数T2；(3)制定设备重要性规则，根据缺陷发生的部位所在的设备，利用设备重要性扣分规则，给出分数T3；(4)制定缺陷等级扣分规则，根据缺陷等级，给出相对应的分数T4；(5)制定电压等级扣分规则，根据缺陷发生设备的电压等级，给出对应的分数T5；(6)制定设备类型扣分规则，根据不同设备类型的重要程度，给出对应的分数T6；(7)根据最后缺陷评价得分，给出设备的风险等级，设备风险等级分为：正常、一般、紧急、重大四个等级。

典型、批次、重复发生的缺陷频率扣分规则如下表19所示：

表19缺陷频率扣分规则

设备重要程度扣分规则如下表20所示：

表20设备重要程度扣分规则

缺陷等级扣分规则如下表21所示：

表21缺陷等级扣分规则

缺陷等级	扣分规则
		紧急	30
重大	20
		一般	10
其他	5

电压等级扣分规则如下表22所示：

表22电压等级扣分规则

电压等级	扣分规则
		500KV	30
220KV	20
		110KV	15
35KV	5
		其他	2

步骤5.4.风险智能评估

在信息论中，熵是对不确定性的一种度量。信息量越大，不确定性就越小，熵也就越小；信息量越小，不确定性越大，熵也越大。

根据熵的特性，可以通过计算熵值来判断一个事件的随机性及无序程度，也可以用熵值来判断某个指标的离散程度，指标的离散程度越大，该指标对综合评价的影响(权重)越大，其熵值越小。

根据指标的特性，可以用熵值来判断某个指标的离散程度：指标熵值越小，离散程度越大，该指标对综合评价的影响(即权重)也越大。

设有m个样本，n个评价指标，形成原始数据矩阵

对某项指标x_j，指标值x_ij的差距越大，则该指标在综合评价中所起的作用越大；如果某项指标的指标值全部相等，则该指标在综合评价中不起作用。

在对设备的缺陷风险进行评估时，将扣分值指标与设备风险因子进行同趋势化处理，数据处理完成之后即可作为熵值法的输入参数，构建基于缺陷的设备风险智能评估模型，完成设备缺陷对设备风险的影响程度评估。模型输出的样例结果如下：

表23风险智能评估结果表

步骤6.风险等级划分

通过样本数据进行设备风险智能评估，选取50873台设备进行测试，模型风险评估结果为无风险的设备共计50787台，模型评估结果为低风险的设备共计78台，模型风险评估结果为中风险的设备共计8台，模型风险评估结果为高风险的设备共计0台。将模型设备风险评估结果与人工设备风险评估对比结果见表24，模型评估准确率见表25：

表24模型风险评估与人工设备风险评估对比结果

表25模型风险评估准确率

符合数	50146
		错误数	727
总数	50873
		准确率	100％

从模型角度进行分析：该模型仍有待完善，模型存在优化空间且准确率能够进一步提升。

从业务角度分析：该模型结果对业务生产具有一定的指导作用，从风险发生的前瞻性，解决设备发生的高风险点。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种电网主变设备风险评估的数据库设计方法，其特征在于：该方法包括以下步骤：

a）缺陷数据收集，缺陷数据收集的数据来源包括历史缺陷报告、缺陷记录数据、设备运行数据、设备试验数据、设备在线监测数据，通过分析数据来源，获得缺陷分类标准库的缺陷记录数据表的字段名称和字段内容；

b）对缺陷数据进行清洗以及去重，对收集的数据的两条或两条以上相同缺陷数据、缺陷数据缺失、缺陷数据乱码、缺陷数据中存在空格、缺陷数据全角转半角和英文大小写进行清洗和去重；

c）人工标注，根据历史缺陷报告对缺陷表象、缺陷部位、缺陷原因和处理措施进行文本分析人工标注，最终获得设备缺陷标准库。

2.根据权利要求1所述的一种电网主变设备风险评估的数据库设计方法，其特征在于：缺陷记录数据所包含字段：单位、电压等级、缺陷等级、地点、设备名称、缺陷类型、缺陷描述、专业大类、生产厂家、出厂年月、设备型号、投运日期、缺陷原因类别、缺陷原因、缺陷表象、发现时间、缺陷部位、处理措施。

3.根据权利要求1所述的一种电网主变设备风险评估的数据库设计方法，其特征在于：设备运行数据包含字段：电压、三相不平衡电流、电压等级。

4.根据权利要求1所述的一种电网主变设备风险评估的数据库设计方法，其特征在于：设备在线监测数据：介损、等值电容、参考电压报警、三相不平衡电流报警、介损报警、全电流报警、等值电容报警、监测设备通信状态、监测设备运行状态、设备自检异常、局放、铁芯电流。

5.根据权利要求1所述的一种电网主变设备风险评估的数据库设计方法，其特征在于：设备试验数据包含字段：红外成像测温、气室气体、触头回路电阻、外绝缘表面耐压、气体分解物测试值。

6.根据权利要求1所述的一种电网主变设备风险评估的数据库设计方法，其特征在于：该方法采用TF-IDF文本相似度分析方法的TF-IDF模型训练步骤如下：

1）获取原始文本内容信息；

2）转换成纯小写，按空格把文章分成独立的词组成的list；

3）去除噪音符号： ["\"","=","\\","/",":","-","(",")",",",".","\n"]；

4）去除停用词；

5）提取词干，把相近的词转换为标准形式；

6）wordcount，统计每个词出现的次数，去掉出现次数较少的词；

7）训练idf模型；

8）对输入的每篇测试文章计算其tfidf向量，然后可以利用tfidf向量求文章之间的相似度。

7.根据权利要求1所述的一种电网主变设备风险评估的数据库设计方法，其特征在于：缺陷记录数据表的字段名称和字段内容为13个，字段名称包括设备名称、缺陷类型、发现时间、缺陷等级、缺陷处理措施、缺陷发现来源、缺陷表象、缺陷描述、缺陷原因、缺陷部位、缺陷部件和处理情况描述。

8.根据权利要求1所述的一种电网主变设备风险评估的数据库设计方法，其特征在于：设备缺陷标准库包括变量名称和数据类型，变量名称包括：设备名称、缺陷等级、设备型号、设备编码、电压等级、设备厂家、投运日期、缺陷类型、缺陷描述、专业大类、缺陷原因类别、缺陷原因、缺陷表象、发现时间、缺陷部位、处理措施、缺陷处理措施、缺陷发现来源、缺陷数据来源、三相不平衡电流、数据采集时间、介损、等值电容、泄露电流、上触点温度、下触点温度、氢气、乙炔、甲烷、乙烷、乙烯、一氧化碳、二氧化碳、总烃和微水。