基于隔离森林的变压器异常值实时检测和故障诊断方法
技术领域
本发明属于变压器异常诊断技术领域,具体的涉及一种基于隔离森林的变压器异常值实时检测和故障诊断方法。
背景技术
作为变压器异常状态检测的一种常用方法,油中溶解气体法通过油中溶解气体异常识别方法作为统计阈值法,阈值来源于大量变压器历史特征气体检测数据统计,当监测值超过指定的阈值时被判定为异常数据。该方法的关键是对于阈值的设定,当变压器的历史数据较多的时候,该方法能够很好的识别,但是如果缺乏历史数据,该方法的检测效果将会大打折扣。针对统计阈值法存在的问题,很多学者开始研究其他的方法进行变压器异常状态的检测。如基于特征气体、基于IEC三比值等。
但是,通过特征气体的方法能够直观、方便的查询与检测变压器异常状态,并且能够根据气体的主要成分直观地找到异常状态,然后进行故障类型的定位,针对性较强。该方法没有定量的概念,虽然在一定程度上能够检测故障类型,但是对于找到准确故障对应的温度区间,还需要具体的温度变化规律以及故障气体所占的成分和相对比值。
相比于基于特征气体的变压器故障检测方法,三比值法通过对不同气体的比值进行编码能更加精确的诊断出变压器的故障类型,并且计算较为简单。但是三比值法的使用是有一定前提条件的,即当油中所含的各组分气体或者是气体的变化速率超过了注意值,并且综合分析的结果是设备可能存在着故障的情况下。另外,在实际的使用过程中,三比值法存在着一定的局限性,常常会出现编码范围内不存在的比值,而此时就需要综合考虑电气试验所得到的结果,然后进行分析。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种基于隔离森林的变压器异常值实时检测和故障诊断方法,通过对历史数据进行建模从而形成变压器异常值识别模型,然后利用实时数据根据异常值识别模型实时分析当前变压器的状态。
为达成上述目的,本发明采用如下技术方案:一种基于隔离森林的变压器异常值实时检测和故障诊断方法,包括如下步骤:步骤一:通过隔离森林算法对变压器的特征气体数据进行建模,完成对变压器特征气体的异常值识别;步骤二:结合异常策略对识别出的异常值进行分类;步骤三:根据异常事件库对分类的结果进行诊断,从而对变压器的故障类型做出诊断。
优选地,在步骤一中,包括如下步骤:隔离森林算法通过利用原始数据构建二叉树结构的隔离树,然后进行异常值的识别和检测;在隔离树中,异常值通常分布在距离根节点较近的叶子结点上,而正常数据总是分布在距离根节点较远的叶子结点上。
优选地,隔离森林算法进行异常值检测包括步骤如下:训练步骤,对原始数据集进行随机采样得到多个子数据集,利用子数据集构建隔离树,然后由构建好的隔离树组成隔离森林;预测步骤,也可称异常值打分过程,利用构建好的隔离森林对待检测的数据进行异常值得分的计算,将异常值得分和设定的阈值进行比较,对异常数据做出判断。
优选地,在步骤二中,根据数据的时间标签以及特征气体数值的变化情况,制定异常状态策略,判断标准如下:
1、当所有特征气体的数值同时减小或者增大时,判断为无异常;
2、当部分特征气体的数值增加、所占比例显著增加或者减少时,判断为异常;
3、当一种或者几种气体的含量增加并且增加的特征气体组合能够和异常状态库中的异常状态进行匹配,判断为异常状态;
4、当一种或者几种特征气体增加并且与异常状态库中所有事件都不匹配,判断为异常状态,此时需要相关专家进行辅助判断。
优选地,异常状态事件库是变压器发生各种异常时对应的典型特征气体的组合,通过异常事件库可以直观地对变压器的异常状态进行准确的分析;异常状态事件库的主体是特征气体,还可以根据具体的实际情况不断的丰富异常事件库。
相较于现有技术,本发明提供的技术方案具有如下有益效果:
本发明提出的基于隔离森林的变压器异常值实时检测和故障诊断方法只对那些存在异常的数据进行诊断,该方法能够减少诊断过程中的计算开销,结合异常事件库能够较为精确地检测出变压器具体的故障类型。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是基于隔离森林的变压器异常值实时监测和异常状态诊断过程的示意图。
图2是部分特征气时域分析的示意图。
图3是不同算法对异常值的检测精度比较的示意图。
图4是算法稳定性比较的示意图
图5是其他变压器故障诊断方法和本发明对变压器故障诊断的效果对比。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明的权利要求书、说明书及上述附图中,除非另有明确限定,如使用术语“第一”、“第二”或“第三”等,都是为了区别不同对象,而不是用于描述特定顺序。
本发明的权利要求书、说明书及上述附图中,如使用术语“包括”、“具有”以及它们的变形,意图在于“包含但不限于”。
如图1所示,在本发明实施例提供的基于隔离森林的变压器异常值实时检测和故障诊断方法包括如下步骤:
步骤一:通过隔离森林算法对变压器的特征气体数据进行建模,完成对变压器特征气体的异常值识别;
步骤二:结合异常策略对识别出的异常值进行分类;
步骤三:根据异常事件库对分类的结果进行诊断,从而对变压器的故障类型做出诊断。
对所述隔离森林算而言,隔离森林(Isolation Forest)算法检测异常值的思想来源于异常值的两个特点:(1)异常数据占整个数据集的很小一部分(2)异常值的属性值与正常数据的属性值差别很大。也就是说异常值是“少并且不同”的,这使得它们很容易被异常值检测算法所识别,即“隔离”。隔离森林算法通过构建二叉树结构的隔离树,然后进行异常值的识别和检测。根据以上提到的异常值的两个特点,在隔离树中,异常值通常分布在距离根节点较近的叶子结点上,而正常数据总是分布在距离根节点较远的叶子结点上。
隔离森林(Isolation Forest)算法的关键是隔离树的构建,首先利用原始数据进行隔离树的建立,然后将隔离树组合成隔离森林进行异常值的识别和检测。其中构建隔离森林的过程为:第一步,对原始数据集进行随机采样得到许多子数据集;第二步,在每个子数据集上进行隔离树的构建;第三步,将构建的隔离树组合成隔离森林。在隔离森林中,为了进行异常值的检测,需要定义有关隔离树和路径长度的计算方式。
隔离树(Isolation Tree):隔离树可以认为是二叉搜索树,假设T是隔离树(iTree)的一个节点,则T要么是叶子结点,要么是拥有一个测试实例的孩子节点(Tl,Tr)。节点T处的测试由属性q和分割值p构成,利用分割属性和分割值将不同的数据进行分割,小于分割值的数据记录被划分到左孩子节点,大于分割值的数据记录被划分的右孩子节点。不断重复上述过程直到孩子节点中只有一个数据或者已经达到树的最大高度。对于给定的d维数据集X={x1,x2,…,xn},首先从该数据集中采集大小的样本作为根节点。然后从样本X'中随机选择一个属性和分割值(介于该属性最大值和最小值之间)来划分每一个数据记录并按照上述划分依据划分子树最终生成隔离树。
在隔离森林(Isolation Forest)算法中,异常数据的判定依据是数据记录的路径长度。一般认为对应较短路径的数据记录为异常值,而对应较长路径的记录为正常值。该算法为了减小由于偶然因素引起的误差,首先通过计算待测数据在每棵隔离树中的路径长度,然后再求取平均值作为该数据的路径长度。
路径长度:数据记录x的路径长度h(x)是指从根节点开始遍历隔离树直到遇到叶子节点,在此遍历过程中遇到的边的条数。
异常值分数:一般来说异常值检测算法都需要计算异常值得分。由于在构建隔离森林的数据是通过随机采样得到的,如果仅仅把在某棵隔离树上的路径长度作为异常值得分,可能会存在较大的随机误差。因此,该算法中数据记录x的异常值得分通过对路径长度进行归一化得到。因为构建的隔离树和二叉搜索树的结构相同,因此这里我们使用在相应二叉搜索树中未能成功搜索的平均长度作为归一化因子。由二叉搜索树可知,对于给定的样本大小为的样本实例,对应二叉搜索树的平均长度为:
其中,H(i)是谐波函数,可以由ln(i)+0.5772156649(欧拉常数)计算得到。得到了归一化因子之后,我们对路径长度h(x)进行归一化,然后计算数据x的异常值得分,异常值得分如下:
其中hi(x)表示数据x在第i棵树上的路径长度,E(h(x))表示数据x在不同隔离树中路径长度的平均值。
具体地,在步骤一中,隔离森林(Isolation Forest)算法进行异常值检测包括步骤如下:
训练步骤,对原始数据集进行随机采样得到多个子数据集,利用子数据集构建隔离树,然后由构建好的隔离树组成隔离森林。
预测步骤,也可称异常值打分过程,利用构建好的隔离森林对待检测的数据进行异常值得分的计算,将异常值得分和设定的阈值进行比较,对异常数据做出判断。
而且,对上述建立的异常值得分计算方式可知,当数据x的平均路径长度E(h(x))越接近相应二叉搜索树的平均长度时,异常值得分s越接近0.5,而当所有的待检测数据的异常值得分均接近0.5时,则说明该数据集没有明显的异常值;当E(h(x))越接近0时,异常值得分s越接近1,也就是说该数据基本被认为是异常数据;当E(h(x))越接近采样大小ψ时,异常值得分s越接近0,如果异常值得分远小于0.5时,则认为该数据是正常数据。
实际上,基于隔离森林的异常值识别模型可以检测出变压器特征气体数据中的异常值,但是不能判定异常值对应的变压器的状态是否正常。针对以上问题,本发明提出基于异常策略和异常事件库的模型对变压器故障进行实时诊断,并根据变压器数据的异常情况判断变压器的状态。
在步骤二中,异常状态策略是根据特征气体的含量以及所占比重建立异常状态识别库,从而进行特征气体异常数据和变压器异常状态的匹配,达到识别变压器异常状态的目的。根据数据的时间标签以及特征气体数值的变化情况,制定异常状态策略,判断标准如下:
1、当所有特征气体的数值同时减小或者增大时,判断为无异常;
2、当部分特征气体的数值增加、所占比例显著增加或者减少时,判断为异常;
3、当一种或者几种气体的含量增加并且增加的特征气体组合能够和异常状态库中的异常状态进行匹配,判断为异常状态;
4、当一种或者几种特征气体增加并且与异常状态库中所有事件都不匹配,判断为异常状态,此时需要相关专家进行辅助判断。
而且,在步骤三中,异常状态事件库是变压器发生各种异常时对应的典型特征气体的组合,通过异常事件库可以较为直观地对变压器的异常状态进行准确的分析。异常状态事件库的主体是特征气体,后期可以根据具体的实际情况不断的丰富异常事件库。异常状态事件库如下表所示:
表1异常状态事件库
注:1表示主要气体,2表示次要气体,—表示无关
接下来以南京某地区220KV变电站3号油浸式变压器特征气体历史测试数据为例对本发明进行说明。
利用隔离森林异常值监测算法首先建立变压器异常值识别模型,然后结合由异常策略和异常状态事件库建立的变压器故障诊断模型对变压器的状态进行实时的监测。
表2南京某地区220KV变电站#3油浸式变压器特征气体部分历史监测数据
对以上变压器特征气体数据进行时域分析,从而得到特征气体存在异常与否。然后利用隔离森林算法对特征气体数据建立异常值识别模型,最后结合异常状态策略和异常状态事件库,对变压器的状态进行诊断。本文选取了部分特征气体进行时域分析,结果如图1所示。
从图2的时域图的结果可以看出,变压器特征气体数据存在明显的跃阶,说明特征气体中存在异常值,变压器的状态可能存在异常。利用基于隔离森林的异常值检测算法对变压器特征气体数据进行建模,识别特征气体中的异常值。
根据变压器历史特征气体数据建立隔离森林,该算法在历史数据上的检测效果如图2所示。
通过图3所示的实验结果可以看出,基于隔离森林的异常值检测算法在针对变压器数据的检测效果方面比其他的异常值检测算法具有更高的检测精度。
如图4所示,由于隔离森林算法在进行异常值检测的过程中,只通过对大量数据进行建树而不需要进行额外的计算和比较,在算法稳定性方面也要优于其他的异常值检测算法。
根据基于隔离森林算法对变压器特征气体建立的异常值识别模型对其他变压器特征气体数据进行检测,利用检测出的变压器特征气体的异常数据,进行变压器故障诊断,诊断结果为:
表3基于隔离森林算法的变压器异常状态诊断的检测结果
通过上表可以看出,本文提出的基于隔离森林算法变压器异常值检测与故障诊断方法能够有效地检测并诊断出变压器的故障类型。
利用相同变压器特征气体数据,将本文提出的方法和其他变压器异常诊断方法进行对比,结果如下:
表4变压器异常诊断结果对比
如图5所示,图通过以上检测结果可以发现,相比于其他变压器异常状态诊断,本文提出的基于隔离森林的变压器异常值检测方法及故障诊断模型不仅能够检测出变压器有无故障,而且可以精确地检测出变压器的故障类型。
上述说明示出并描述了本发明的优选实施例,如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。