CN112000655A

CN112000655A - 一种变压器负荷数据预处理方法、装置和设备

Info

Publication number: CN112000655A
Application number: CN202010872350.2A
Authority: CN
Inventors: 栾乐; 莫文雄; 王红斌; 饶毅; 马捷然; 许中; 罗思敏; 罗林欢; 陈剑; 刘俊翔; 马智远; 刘田; 范伟男
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-11-27

Abstract

本申请公开了一种变压器负荷数据预处理方法、装置和设备，方法包括：通过变电站在线监测设备获取变压器负荷数据，得到初始负荷数据集；计算初始负荷数据集中各个数据对象的k近邻密度波动孤立因子，其中，k为正整数；当数据对象的k近邻密度波动孤立因子的值大于孤立因子阈值时，判定数据对象为孤立点，并删除孤立点，得到处理后的负荷数据集；在处理后的负荷数据集中选取若干个数据对象作为基础集，并对基础集进行过采样，得到新的数据集；将新的数据集和处理后的负荷数据集合并后输出，解决了现有的变压器负荷数据数据由于采集设备具有不稳定性和人工采集数据时的误操作，使得采集的变压器负荷数据存在“脏数据”，数据质量不高的技术问题。

Description

一种变压器负荷数据预处理方法、装置和设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种变压器负荷数据预处理方法、装置和设备。

背景技术

变压器是电力系统中的关键一环，在当今电力物联网建设背景之下，设备运行监测数据作为感知层的主要信息，是数据分析处理和数据挖掘的重要基础，但变压器运行所处的环境复杂多样，数据采集设备具有不稳定性，人工采集的数据也会由于误操作产生误差，使得采集的变压器负荷数据存在“脏数据”，数据质量不高，而直接将采集的变压器负荷数据作为有效数据集输入到相关故障预测、负荷预测及其他数据分析模型进行分析，会导致分析结果不够准确。

发明内容

本申请提供了一种变压器负荷数据预处理方法、装置和设备，用于解决现有的变压器负荷数据数据由于采集设备具有不稳定性和人工采集数据时的误操作，使得采集的变压器负荷数据存在“脏数据”，数据质量不高的技术问题。

有鉴于此，本申请第一方面提供了一种变压器负荷数据预处理方法，包括：

通过变电站在线监测设备获取变压器负荷数据，得到初始负荷数据集；

计算所述初始负荷数据集中各个数据对象的k近邻密度波动孤立因子，其中，k为正整数；

当所述数据对象的k近邻密度波动孤立因子的值大于孤立因子阈值时，判定所述数据对象为孤立点，并删除所述孤立点，得到处理后的负荷数据集；

在所述处理后的负荷数据集中选取若干个所述数据对象作为基础集，并对所述基础集进行过采样，得到新的数据集；

将所述新的数据集和所述处理后的负荷数据集合并后输出。

可选地，所述计算所述初始负荷数据集中各个数据对象的k近邻密度波动孤立因子，包括：

根据所述初始负荷数据集中各个数据对象的k-距离，确定各个所述数据对象的k-距离邻域；

基于所述k-距离和所述k-距离邻域计算各个所述数据对象的k近邻密度；

根据各个所述数据对象间的k-距离的大小，对各个所述k-距离邻域中的所述数据对象进行升序排序；

基于所述k近邻密度计算排序后各个所述数据对象的k近邻密度波动平均值，并基于所述k近邻密度波动平均值计算各个所述数据对象的k近邻密度波动孤立因子。

可选地，所述在所述处理后的负荷数据集中选取若干个所述数据对象作为基础集，包括：

在所述处理后的负荷数据集中随机选取若干个所述数据对象作为基础集，其中，所述基础集中的所述数据对象的数量与删除的所述孤立点的数量相等。

可选地，所述对所述基础集进行过采样，得到新的数据集，包括：

根据所述基础集中各个所述数据对象间的欧式距离，确定各个所述数据对象的k近邻；

基于预置采样率，从各所述数据对象的k近邻中随机抽取近邻点数据，并基于预置公式对各个所述近邻点数据进行处理，得到新的数据集。

可选地，所述预置公式为：

x_{new_i}＝x_i+rand(0,1)*|x_i-x_{k_i}|,i＝1,2,…,n；

其中，x_{new_i}为生成的第i个新数据对象，rand(0,1)为在区间(0,1)内生成随机数的函数，x_i为第i个数据对象，x_{k_i}为第i个数据对象的k近邻中随机抽取的近邻点数据，n为基础集中数据对象的数量。

本申请第二方面提供了一种变压器负荷数据预处理装置，包括：

获取单元，用于通过变电站在线监测设备获取变压器负荷数据，得到初始负荷数据集；

计算单元，用于计算所述初始负荷数据集中各个数据对象的k近邻密度波动孤立因子，其中，k为正整数；

删除单元，用于当所述数据对象的k近邻密度波动孤立因子的值大于孤立因子阈值时，判定所述数据对象为孤立点，并删除所述孤立点，得到处理后的负荷数据集；

过采样单元，用于在所述处理后的负荷数据集中选取若干个所述数据对象作为基础集，并对所述基础集进行过采样，得到新的数据集；

输出单元，用于将所述新的数据集和所述处理后的负荷数据集合并后输出。

可选地，所述计算单元，具体用于：

可选地，所述过采样单元，具体用于：

在所述处理后的负荷数据集中随机选取若干个所述数据对象作为基础集，其中，所述基础集中的所述数据对象的数量与删除的所述孤立点的数量相等；

可选地，所述预置公式为：

x_{new_i}＝x_i+rand(0,1)*|x_i-x_{k_i}|,i＝1,2,…,n；

本申请第三方面提供了一种变压器负荷数据预处理设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的变压器负荷数据预处理方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种变压器负荷数据预处理方法，包括：通过变电站在线监测设备获取变压器负荷数据，得到初始负荷数据集；计算初始负荷数据集中各个数据对象的k近邻密度波动孤立因子，其中，k为正整数；当数据对象的k近邻密度波动孤立因子的值大于孤立因子阈值时，判定数据对象为孤立点，并删除孤立点，得到处理后的负荷数据集；在处理后的负荷数据集中选取若干个数据对象作为基础集，并对基础集进行过采样，得到新的数据集；将新的数据集和处理后的负荷数据集合并后输出。

本申请中，在通过变电站在线监测设备获取变压器的初始负荷数据集后，计算初始负荷数据集中各个数据对象的k近邻密度波动孤立因子，将大于孤立因子阈值的数据剔除，从而去除脏数据，提高数据质量；并通过过采样对处理后的数据集进行增广填充，从而保证数据结构，为后续故障检测或负荷预测提供高质量的数据，从而解决了现有的变压器负荷数据数据由于采集设备具有不稳定性和人工采集数据时的误操作，使得采集的变压器负荷数据存在“脏数据”，数据质量不高的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种变压器负荷数据预处理方法的一个流程示意图；

图2为本申请实施例提供的一种变压器负荷数据预处理装置的一个结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种变压器负荷数据预处理方法的一个实施例，包括：

步骤101、通过变电站在线监测设备获取变压器负荷数据，得到初始负荷数据集。

变电站在线监测设备每十五分钟上传一组变压器负荷数据，将其作为初始负荷数据集，初始负荷数据集可以包括三相电流、三相电压等。

步骤102、计算初始负荷数据集中各个数据对象的k近邻密度波动孤立因子。

考虑到获取的变压器负荷数据中因设备异常、上传路径异常或人工误操作等导致的脏数据问题，需要对变压器负荷数据中的“脏数据”进行处理，现有技术中，多采用滑窗方法对“脏数据”进行降噪处理，该方法清洗效率不高。本申请实施例中通过计算初始负荷数据集中各个数据对象的k近邻密度波动孤立因子来确定初始负荷数据中的孤立点，即脏数据，从而达到清洗的目的。

进一步，k近邻密度波动孤立因子的计算过程为：

1、根据初始负荷数据集中各个数据对象的k-距离，确定各个数据对象的k-距离邻域。

初始负荷数据集中数据对象p的k-距离为数据对象p与数据对象p的第k个最近邻对象之间的欧式距离d_k(p)，其中，k为正整数，根据实际情况进行设置；根据确定的k-距离建立初始负荷数据集中数据对象p的k-距离邻域N_k(p)，N_k(p)包括与数据对象p之间的距离不超过数据对象p的k-距离的所有数据对象。

2、基于k-距离和k-距离邻域计算各个数据对象的k近邻密度。

数据对象p的k近邻密度kden(p)计算公式为：

式中，|N_k(p)|为数据对象p的k-距离邻域中数据对象的个数，median{}为取中值函数，d_k(p,o)为数据对象p与k-距离邻域中数据对象o之间的k-距离。

3、根据各个数据对象间的k-距离的大小，对各个k-距离邻域中的数据对象进行升序排序。

根据各个数据对象间的k-距离的大小，对各个k-距离邻域中的数据对象进行升序排序，得到初始负荷数据集中每个数据对象对应的距离递增序列DAS(p)，即：

DAS(p)＝{p,o₁,o₂,…，o_i,…,o_r}；

式中，o_i为数据对象p按照距离升序排序后的k-距离邻域中的第i个数据对象，r为数据对象p的k-距离邻域中包含的数据对象o的数量。

4、基于k近邻密度计算排序后各个数据对象的k近邻密度波动平均值，并基于k近邻密度波动平均值计算各个数据对象的k近邻密度波动孤立因子。

按照距离递增序列DAS(p)的顺序，根据k近邻密度波动平均值计算公式计算每个数据对象的k近邻密度波动平均值ADF(p)，使得邻域中距离数据对象p越近的数据对象对于波动平均值的贡献越大，k近邻密度波动平均值计算公式为：

在计算得到k近邻密度波动平均值后，计算初始负荷数据集中每个数据对象的k近邻密度波动孤立因子F(p)，用于表征数据对象p是孤立点的可能性大小。k近邻密度波动孤立因子的计算公式为：

步骤103、当数据对象的k近邻密度波动孤立因子的值大于孤立因子阈值时，判定数据对象为孤立点，并删除孤立点，得到处理后的负荷数据集。

通过变压器运行相关规范确定孤立因子阈值f，比较数据对象p的k近邻密度波动孤立因子F(p)的值与孤立因子阈值f的大小，当数据对象p的k近邻密度波动孤立因子F(p)的值大于孤立因子阈值f时，判定该数据对象p为孤立点，即大于孤立因子阈值的k近邻密度波动孤立因子对应的数据对象是“脏数据”，将孤立点从初始负荷数据集中删除，以去除脏数据。

可以理解的是，在计算得到各数据对象的k近邻密度波动孤立因子后，可以根据初始负荷数据集中每个数据对象的k近邻密度波动孤立因子对数据对象进行排序，作为孤立点检测算法的输出，通过对周期性采集的初始负荷数据集中的每个数据对象按照k近邻密度波动孤立因子进行排序，量化其为孤立因子的可能性，再通过变压器运行相关规范确定孤立因子阈值，将高于孤立因子阈值的数据剔除，从而去除“脏数据”。本申请实施例中基于k近邻密度波动孤立因子对变压器负荷数据进行预处理，对于密度分布不均匀的数据集中的孤立点有更准确的检测效果。

步骤104、在处理后的负荷数据集中选取若干个数据对象作为基础集，并对基础集进行过采样，得到新的数据集。

本申请在对初始负荷数据集进行孤立点检测，删除孤立点后，还对处理后的数据集进行过采样以增广填充数据集，从而保证数据结构，为后续故障检测或负荷预测提供高质量的数据。

进一步的，在处理后的负荷数据集中选取若干个数据对象作为基础集，并对基础集进行过采样，得到新的数据集，具体包括：

1、在处理后的负荷数据集中选取若干个数据对象作为基础集。

在处理后的负荷数据集中随机选取若干个数据对象{x₁,x₂,…,x_i,…,x_n}作为基础集，其中，基础集中的数据对象的数量n与删除的孤立点的数量相等。

2、根据基础集中各个数据对象间的欧式距离，确定各个数据对象的k近邻。

以选取的数据对象x_i与基础集中的其他数据对象之间的欧式距离为标准，按照k-距离确定该选取数据对象x_i的k近邻。

3、基于预置采样率，从各数据对象的k近邻中随机抽取近邻点数据，并基于预置公式对各个近邻点数据进行处理，得到新的数据集。

预先设置采样率，从上述步骤中确定的k近邻中随机抽取近邻点数据x_k，基于预置公式对各个近邻点数据进行处理，生成新的数据对象。预置公式为：

x_{new_i}＝x_i+rand(0,1)*|x_i-x_{k_i}|,i＝1,2,…,n；

其中，x_{new_i}为生成的第i个新数据对象，rand(0,1)为在区间(0,1)内生成随机数的函数，x_i为第i个数据对象，x_{k_i}为第i个数据对象的k近邻中随机抽取的近邻点数据。

步骤105、将新的数据集和处理后的负荷数据集合并后输出。

本申请实施例中使用k近邻密度波动孤立因子进行异常数据剔除后，并配合过采样法填充缺失数据，提高感知层变压器数据预处理效率，进而间接提高后续故障预测或负荷预测等数据挖掘工作效率。

本申请实施例中，在通过变电站在线监测设备获取变压器的初始负荷数据集后，计算初始负荷数据集中各个数据对象的k近邻密度波动孤立因子，将大于孤立因子阈值的数据剔除，从而去除脏数据，提高数据质量；并通过过采样对处理后的数据集进行增广填充，从而保证数据结构，为后续故障检测或负荷预测提供高质量的数据，从而解决了现有的变压器负荷数据数据由于采集设备具有不稳定性和人工采集数据时的误操作，使得采集的变压器负荷数据存在“脏数据”，数据质量不高的技术问题。

以上为本申请提供的一种变压器负荷数据预处理方法的一个实施例，以下为本申请提供的一种变压器负荷数据预处理装置的一个实施例。

为了便于理解，请参阅图2，本申请提供的一种变压器负荷数据预处理装置的一个实施例，包括：

获取单元201，用于通过变电站在线监测设备获取变压器负荷数据，得到初始负荷数据集。

计算单元202，用于计算初始负荷数据集中各个数据对象的k近邻密度波动孤立因子，其中，k为正整数。

删除单元203，用于当数据对象的k近邻密度波动孤立因子的值大于孤立因子阈值时，判定数据对象为孤立点，并删除孤立点，得到处理后的负荷数据集。

过采样单元204，用于在处理后的负荷数据集中选取若干个数据对象作为基础集，并对基础集进行过采样，得到新的数据集。

输出单元205，用于将新的数据集和处理后的负荷数据集合并后输出。

作为进一步地改进，计算单元202，具体用于：

根据初始负荷数据集中各个数据对象的k-距离，确定各个数据对象的k-距离邻域；

基于k-距离和k-距离邻域计算各个数据对象的k近邻密度；

根据各个数据对象间的k-距离的大小，对各个k-距离邻域中的数据对象进行升序排序；

基于k近邻密度计算排序后各个数据对象的k近邻密度波动平均值，并基于k近邻密度波动平均值计算各个数据对象的k近邻密度波动孤立因子。

作为进一步地改进，过采样单元204，具体用于：

在处理后的负荷数据集中随机选取若干个数据对象作为基础集，其中，基础集中的数据对象的数量与删除的孤立点的数量相等；

根据基础集中各个数据对象间的欧式距离，确定各个数据对象的k近邻；

基于预置采样率，从各数据对象的k近邻中随机抽取近邻点数据，并基于预置公式对各个近邻点数据进行处理，得到新的数据集。

作为进一步地改进，预置公式为：

x_{new_i}＝x_i+rand(0,1)*|x_i-x_{k_i}|,i＝1,2,…,n；

本申请实施例还提供一种变压器负荷数据预处理设备，设备包括处理器以及存储器；

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令执行前述变压器负荷数据预处理方法实施例中的变压器负荷数据预处理方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种变压器负荷数据预处理方法，其特征在于，包括：

将所述新的数据集和所述处理后的负荷数据集合并后输出。

2.根据权利要求1所述的变压器负荷数据预处理方法，其特征在于，所述计算所述初始负荷数据集中各个数据对象的k近邻密度波动孤立因子，包括：

3.根据权利要求1所述的变压器负荷数据预处理方法，其特征在于，所述在所述处理后的负荷数据集中选取若干个所述数据对象作为基础集，包括：

4.根据权利要求1所述的变压器负荷数据预处理方法，其特征在于，所述对所述基础集进行过采样，得到新的数据集，包括：

5.根据权利要求4所述的变压器负荷数据预处理方法，其特征在于，所述预置公式为：

x_{new_i}＝x_i+rand(0,1)*|x_i-x_{k_i}|,i＝1,2,…,n；

6.一种变压器负荷数据预处理装置，其特征在于，包括：

7.根据权利要求6所述的变压器负荷数据预处理装置，其特征在于，所述计算单元，具体用于：

8.根据权利要求6所述的变压器负荷数据预处理装置，其特征在于，所述过采样单元，具体用于：

9.根据权利要求8所述的变压器负荷数据预处理装置，其特征在于，所述预置公式为：

x_{new_i}＝x_i+rand(0,1)*|x_i-x_{k_i}|,i＝1,2,…,n；

10.一种变压器负荷数据预处理设备，其特征在于，所述设备包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的变压器负荷数据预处理方法。