CN114545167A

CN114545167A - 一种基于t-SNE算法的电缆终端局放脉冲分类方法

Info

Publication number: CN114545167A
Application number: CN202210167501.3A
Authority: CN
Inventors: 朱光亚; 周凯; 傅尧; 刘兆贵; 李原; 孟鹏飞
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-05-27
Anticipated expiration: 2042-02-23
Also published as: CN114545167B

Abstract

本发明提出了一种基于t‑SNE算法的电缆终端局放脉冲分类方法，涉及局部放电技术领域，包括以下步骤：S1、采集原始数据并对原始数据进行预处理以得到样本数据；S2、基于样本数据确定困惑度参数；S3、对确定困惑度参数后的样本数据进行t‑SNE算法的降维特征提取以得到降维后的二维特征分布；S4、通过自适应聚类算法对降维后的二维特征进行聚类以得到不同类别的放电脉冲；本发明通过设置困惑度参，再通过t‑SNE算法对时频谱图进行降维处理，再通过自适应聚类算法对降维特征进行聚类，实现不同类型放电脉冲的分离，使得t‑SNE算法降维后的特征分布没有出现混叠现象，且离群点较少，具有明显优越性。

Description

一种基于t-SNE算法的电缆终端局放脉冲分类方法

技术领域

本发明涉及局部放电技术领域，具体而言，涉及一种基于t-SNE算法的电缆终端局放脉冲分类方法。

背景技术

电缆终端是电缆系统绝缘的薄弱环节，电力系统中常出现由于电缆终端绝缘故障而引发的事故。其原因是电缆终端对安装与敷设的工艺要求较高，在现场安装时终端复合界面绝缘处容易留下一些缺陷，这些缺陷在长期的运行中会导致局部放电的发生。研究表明，不同类型缺陷所激发的局放信号具有不同的特征，对电缆终端进行局放检测能实现缺陷类型的有效识别与诊断，从而便于运维人员采取相应的措施以确保电缆系统的稳定运行。

传统的局放信号分析方法主要分为两种，即基于相位分布模式(Phase ResolvedPartial Discharge，PRPD)统计谱图的分析方法以及基于单一脉冲信号的分析方法。前者通常利用放电相位、放电量及放电次数的统计参数绘制指纹谱图并进行特征量提取，而后者则是对局放单一脉冲的时频信息进行特征提取，通过不同的特征量对放电信号类型进行识别。但在实际应用中，基于单一脉冲信号的分析方法常会受到局放信号传播路径以及检测系统硬件设备的带宽和采样频率等因素的影响，导致该方法对不同对象与检测条件的适用性较差，且无法对未知脉冲波形进行识别。相比之下，基于相位分布模式的分析方法受采集系统的影响较小，然而如果被测对象存在多处局放源，所有脉冲所绘制出的PRPD图谱会不可避免出现混叠现象，导致无法对局放类型进行有效的识别。针对多局放源情况下PRPD谱图重叠的问题，以往研究结合上述两种分析方法，先是根据放电脉冲波形的特征将不同脉冲进行分类，然后绘制不同脉冲对应的PRPD谱图，最后根据PRPD谱图进行识别。比较具有代表性的方法是由G.C.Montanari等人提出的等效时频分析(Equivalent Time-FrequencyAnalysis,ETFA)方法，通过局部放电脉冲的等效时宽与等效频宽两个特征对放电脉冲进行区分；除此以外，还有一些通过物理或数学方法定义的特征量，都可对局放脉冲进行有效的分类；但以上特征量均只表现脉冲波形的局部特点，且可选类型繁多，且部分特征会受到测试带宽的影响，在不同检测条件下会发生改变，从而无法对脉冲进行有效的区分。

因此，在进行电缆终端局放检测时，时常存在多个脉冲源而导致的PRPD谱图重叠以及放电类型无法判别的问题。基于此，提出一种基于t-SNE算法的电缆终端局放脉冲分类方法来解决上述问题。

发明内容

本发明的目的在于提供一种基于t-SNE算法的电缆终端局放脉冲分类方法，其能够解决了多个脉冲源而导致的PRPD谱图重叠以及放电类型无法判别的问题。

本发明的技术方案为：

第一方面，本申请提供一种基于t-SNE算法的电缆终端局放脉冲分类方法，其包括以下步骤：

S1、采集原始数据并对原始数据进行预处理以得到样本数据；

S2、基于样本数据确定困惑度参数；

S3、对确定困惑度参数后的样本数据进行t-SNE算法的降维特征提取以得到降维后的二维特征分布；

S4、通过自适应聚类算法对降维后的二维特征进行聚类以得到不同类别的放电脉冲。

进一步地，还包括：

统计聚类得到每种类别的放电脉冲，并设置阈值，将每种类别中放电脉冲的个数少于该阈值的类别视为无效放电类型并进行去除，剩余的类别视为有效放电类型并绘制PRPD谱图。

进一步地，步骤S1中上述原始数据包括：多个周期的放电信号和工频电压信号

进一步地，上述步骤S1中上述对原始数据进行预处理以得到样本数据包括以下步骤：

S11、对原始数据进行去噪处理与脉冲提取以得到特征数据；

S12、基于特征数据绘制对应的小波时频谱图；

S13、对小波时频谱图进行灰度处理以得到样本数据。

进一步地，上述步骤S2包括：

S21、设置同种放电类别判别标准值，通过SSIM指标对样本数据中集中占比最多的样本进行预估，获取SSIM指标大于同种放电类别判别标准值的最大样本数；

S22、基于最大样本数确定困惑度参数。

进一步地，上述通过SSIM指标对样本数据中集中占比最多的样本进行预估采用的公式为：

其中，x、y分别表示被评估的两幅图片，SSIM(x,y)表示用于衡量两幅图片相似度的指标，μ_x、μ_y表示两幅图片素点的平均值，σ_x与σ_y表示像素点的方差，σ_xy表示斜方差，c₁与c₂为设置的常数以避免分母为0。

进一步地，上述t-SNE算法采用的公式为：

其中，x_i与x_j表示高维空间中的2个点，σ_i表示以x_i为中心的高斯函数的方差，p_j|i表示点x_i与x_j为近邻点的条件概率密度函数。

进一步地，上述自适应聚类算法包括CFSFDP聚类算法。

第二方面，本申请提供一种电子设备，包括：

存储器，用于存储一个或多个程序；

处理器；

当上述一个或多个程序被上述处理器执行时，实现如上述第一方面中任一项的一种基于t-SNE算法的电缆终端局放脉冲分类方法。

第三方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面中任一项的一种基于t-SNE算法的电缆终端局放脉冲分类方法。

相对于现有技术，本发明的至少具有如下优点或有益效果：

(1)本发明通过设置同种放电类别判别标准值，再通过SSIM指标对样本数据中集中占比最多的样本进行预估，获取SSIM指标大于同种放电类别判别标准值的最大样本数，可为困惑度的选取提供依据，再过设置困惑度参数的设置来影响t-SNE算法的降维效果，设置困惑度参数为放电类型的最大样本数的60％～100％之间时，会使得t-SNE降维后得到的不同放电类型的特征分布易于分类；

(2)本发明通过t-SNE算法降维后的特征分布没有出现混叠现象，且离群点较少，具有明显的优越性；

(3)本发明通过统计聚类得到每种类别的放电脉冲，并设置阈值，将每种类别中放电脉冲的个数少于该阈值的类别视为无效放电类型并进行去除，剩余的类别视为有效放电类型并绘制PRPD谱图，使得PRPD谱图能在所含信号较少的情况下保持有较高的识别精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的实施例1的一种基于t-SNE算法的电缆终端局放脉冲分类方法的步骤图；

图2所示为本发明的实施例2的不同数据集样本数统计图；

图3所示为本发明的实施例2的不同困惑度下的数据集1的降维效果对比图；

图4所示为本发明的实施例2的不同困惑度下的数据集2的降维效果对比图；

图5为本发明实施例3的一种电子设备的示意性结构框图。

图标：101、存储器；102、处理器；103、通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，在本文中，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例1

请参阅图1，图1所示为本申请实施例提供的一种基于t-SNE算法的电缆终端局放脉冲分类方法的步骤图。

本发明的技术方案为：

本申请的实施例1提供一种基于t-SNE算法的电缆终端局放脉冲分类方法，其包括以下步骤：

S2、基于样本数据确定困惑度参数；

其中，困惑度为t-SNE算法在迭代过程中考虑近邻点的多少，其大小直接影响了t-SNE算法降维后的成簇效果与数据分布。

需要说明的是，

作为一种优选的实施方式，还包括：

作为一种优选的实施方式，步骤S1中原始数据包括：多个周期的放电信号和工频电压信号。

由此，通过采集工频电压下的信号可经过处理绘制小波时频谱图，其包含有脉冲更全面的时频域信息。

作为一种优选的实施方式，步骤S1中对原始数据进行预处理以得到样本数据包括以下步骤：

S11、对原始数据进行去噪处理与脉冲提取以得到特征数据；

S12、基于特征数据绘制对应的小波时频谱图；

S13、对小波时频谱图进行灰度处理以得到样本数据。

由此，通过对小波时频谱图进行灰度处理可以减小算法的工作量。

作为一种优选的实施方式，步骤S2包括：

S22、基于最大样本数确定困惑度参数。

其中，困惑度参数常设置为最大样本数的60％～100％。

需要说明的是，SSIM指标一般指一种常用于图像处理的衡量两幅图像结构相似度的新指标，其值越大越好，最大为1。

作为一种优选的实施方式，通过SSIM指标对样本数据中集中占比最多的样本进行预估采用的公式为：

作为一种优选的实施方式，t-SNE算法采用的公式为：

需要说明的是，σ_i通过人为设定的困惑度参数与二分搜索确定，困惑度参数可进一步表示为一个点附近的有效近邻点的个数，该参数对降维效果的好坏有着较大的影响。

作为一种优选的实施方式，自适应聚类算法包括CFSFDP聚类算法。

由此，采用CFSFDP聚类算法可以使得聚类中心附近的数据点具有较低的密度，同时使得数据点与其他密度更大的中心距离较远。

实施例2

作为一种优选的实施方式，本实施例2针对不同类型放电脉冲的可分性进行验证，采用四种典型电缆终端缺陷样本以及实验室环境下模拟有电晕放电以及IGBT器件的多次开关动作产出的脉冲信号共6种放电脉冲作为对象进行实验，四种典型电缆终端缺陷类型有刀痕缺陷、半导电层突起、金属颗粒和预制件错位。

对以上6种放电脉冲在工频电压下进行实验并采用高频电流传感器得到波形图，并绘制得到相关波形对应的小波时频谱图，分别选取数据集样本总数的1/20，1/10，1/6，1/4，1/3，1/2六组困惑度参数进行设置，在同一学习率与迭代次数下对两组不同的数据集进行降维处理，其中一组数据集中各种放电类型个数均等，另外一组则考虑到实际情况，将每种放电类型的样本设置为不同个数，且两组样本互不包含，两组具体样本数的数据集1和恶数据集2如图2所示，包括刀痕缺陷、半导电层凸起、金属颗粒、预制件错位、电晕干扰和IGBT开关干扰的样本个数。

请参照图3、图4，图3所示为本发明的实施例2的不同困惑度下的数据集1的降维效果对比图；图4所示为本发明的实施例2的不同困惑度下的数据集2的降维效果对比图。

结合图3和图4的降维结果中可以看出，除了IGBT开关干扰外，大部分放电类型在上述选定的几种困惑度下都能做到有效的分离，随着困惑度的升高，原本在低困惑度下分成多簇的IGBT开关干扰及分布较为分散的金属颗粒缺陷在困惑度达到该类样本总数50％(240/400＝60％，183/350≈52％)以上时会聚拢成簇，造成这种现象的原因可能是由于当困惑度选取较小时，t-SNE算法在迭代过程中考虑近邻点较少，算法更关注于数据集的局部特征，对数据将的细微差别较为敏感；但随着困惑度的升高，t-SNE算法在迭代过程中考虑近邻点变多，算法更关注于数据集的全局特征，对局部细微特征的反映较小，进而能有效区分不同放电类型的时频谱图。

进一步观察图3和图4的横纵坐标可发现，随着困惑度的升高，数据分布的横纵坐标范围缩小，不同放电类型数据的簇间距离也随着减少，簇内各点间距离与簇间距离差异变小，不利于聚类算法的进行，因此困惑度的选取也不宜过大。

综上所述，困惑度的选取应大于各类型放电数据样本数的50％，但也不宜设置过大导致簇间距离过小而不利于聚类。直观上来看，当困惑度的选取在各类型放电数据样本数的60％～100％之间时会得到一个较好的降维结果，考虑到实际情况中各放电类型数据个数不同，为保证每一类型数据的单一成簇，困惑度应优先满足数据集中最多放电类型的样本个数。

因此，困惑度设置为数据集中最多放电类型样本个数的60％～100％较为合适，然后设置同种放电类别判别标准值，一般设置时频谱图的SSIM>0.83作为准则可对最多类型放电数据样本数进行预估，通过SSIM指标对样本数据中集中占比最多的样本进行预估，获取SSIM指标大于同种放电类别判别标准值的最大样本数，选取合适的困惑度参数后，对确定困惑度参数后的样本数据进行t-SNE算法的降维特征提取后即可得到降维后的二维特征分布再通过CFSFDP聚类算法对降维后的二维特征进行聚类以得到不同类别的放电脉冲，再通过对比由不同脉冲数所构成的PRPD谱图数据集的识别准确率，为了平衡数据量与识别准确率间的关系，选择15-25次放电脉冲作为PRPD谱图重构与识别的标准能在所含信号较少的情况下保持有较高的识别精度，在对识别准确率要求较高且数据量充分的情形下，可将该标准提高至30。

实施例3

请参阅图5，图5所示为本申请实施例3提供的一种电子设备的示意性结构框图。

一种电子设备，包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图中所示的结构仅为示意，一种基于t-SNE算法的电缆终端局放脉冲分类方法还可包括比图中所示更多或者更少的组件，或者具有与图中所示不同的配置。图中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中，应该理解到，所揭露的系统或方法，也可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种，首先采集原始数据，并对原始数据进行了去噪与脉冲提取，然后绘制对应的小波时频谱图，以单一放电脉冲的小波时频谱图作为对象，通过t-SNE算法对小波时频谱图进行降维处理，再通过自适应聚类算法对降维特征进行聚类，实现不同类型放电脉冲的分离，降维后的特征分布没有出现混叠现象，且离群点较少，具有明显优越性。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于t-SNE算法的电缆终端局放脉冲分类方法，其特征在于，包括以下步骤：

S2、基于样本数据确定困惑度参数；

2.如权利要求1所述的一种基于t-SNE算法的电缆终端局放脉冲分类方法，其特征在于，还包括：

3.如权利要求1所述的一种基于t-SNE算法的电缆终端局放脉冲分类方法，其特征在于，步骤S1中所述原始数据包括：多个周期的放电信号和工频电压信号。

4.如权利要求1所述的一种基于t-SNE算法的电缆终端局放脉冲分类方法，其特征在于，步骤S1中所述对原始数据进行预处理以得到样本数据包括以下步骤：

S11、对原始数据进行去噪处理与脉冲提取以得到特征数据；

S12、基于特征数据绘制对应的小波时频谱图；

S13、对小波时频谱图进行灰度处理以得到样本数据。

5.如权利要求1所述的一种基于t-SNE算法的电缆终端局放脉冲分类方法，其特征在于，所述步骤S2包括：

S22、基于最大样本数确定困惑度参数。

6.如权利要求5所述的一种基于t-SNE算法的电缆终端局放脉冲分类方法，其特征在于，所述通过SSIM指标对样本数据中集中占比最多的样本进行预估采用的公式为：

7.如权利要求1所述的一种基于t-SNE算法的电缆终端局放脉冲分类方法，其特征在于，所述t-SNE算法采用的公式为：

8.如权利要求1所述的一种基于t-SNE算法的电缆终端局放脉冲分类方法，其特征在于，所述自适应聚类算法包括CFSFDP聚类算法。

9.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-8中任一项所述的一种基于t-SNE算法的电缆终端局放脉冲分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-8中任一项所述的一种基于t-SNE算法的电缆终端局放脉冲分类方法。