CN112395558A

CN112395558A - 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Info

Publication number: CN112395558A
Application number: CN202011360948.XA
Authority: CN
Inventors: 黄达文; 游林辉; 胡峰; 孙仝; 陈政; 张谨立; 宋海龙; 王伟光; 梁铭聪; 黄志就; 何彧; 陈景尚; 谭子毅; 谢少章; 吴宏曜; 潘嘉琪
Original assignee: Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-23
Anticipated expiration: 2040-11-27
Also published as: CN112395558B

Abstract

本发明涉及智能配电网数据挖掘处理技术领域，更具体地，涉及一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法。包括计算特征相关系数，选取重要特征；定各类样本的采样方式及策略；平衡与确定采样后各类样本的数据量。本发明为一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，所提方法不但结合智能电表故障数据特征相关系数矩阵，考虑到最大程度保留相关度较强特征的重要信息，而且可以通过设定采样平衡系数实现对采样后各类样本数量的灵活调整，可在样本采样层面减弱各故障类样本量不平衡引起的模型过拟合现象。

Description

一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

技术领域

本发明涉及智能配电网数据挖掘处理技术领域，更具体地，涉及一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法。

背景技术

近年来，机器学习和数据挖掘非常火热，越来越多的机器学习算法被用到电力行业中去处理电网终端产生的海量数据，比如用于对数量众多的用户电表的数据分析；在这个过程中，所面临的数据不平衡问题是一个不可忽视的问题。

现有的智能电表故障数据集中包含的属性很多，包含电表安装省份、通讯方式、设备规格、供应商、设备类别、在库存放时间、挂装工作时间、安装及故障时间以及供电单位等多个属性，但各个特征与电表故障类型之间的相关度却并不理想，存在冗余特征及不相关特征，并且由于很多属性的特征颗粒度较大，直接将现有的数据特征不加选择的直接应用在机器学习的算法中，不仅不会有利于提升分类模型的准确度，而且会增加模型计算成本。另外，虽然所采集的智能电表历史故障数据样本量己经很大，但各故障类样本的数据量悬殊较大，这种数据的不平衡性对多分类模型的训练会造成严重影响，大大降低模型的分类性能，致使最后的诊断结果的准确性不高。

中国专利CN111091201A，公开日为2019.12.23，公开一种基于数据分区混合采样的不平衡集成分类方法，通过调整数据分布生成不同分类模型以改善不平衡问题中的分类性能，提高分类模型的综合性能；但是，该分类方法不能很好的适应配电网中智能电表的数据，不能有效的对智能电表立式故障数据进行采样分析。

发明内容

本发明为克服上述现有技术中的至少一个缺陷，提供一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，有效提高采样效率。

为解决上述技术问题，本发明采用的技术方案是：一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，包括以下步骤：

S1.采集智能电表立式故障数据，计算特征相关系数，选取重要特征；

S2.确定各类样本的采样方式及策略；

S3.平衡与确定采样后各类样本的数据量。

考虑到目前所获得的智能电表故障数据特征相关度较低且特征颗粒度较大的特点，基于混合采样的思想，本发明根据样本的离散特征将数据集划分为多个子集，以进一步抑制过采样引起的噪声影响，可以有效降低故障数据不平衡对构建智能电表故障多分类模型的影响。

进一步的，所述的步骤S1具体包括：

S11.分别计算数据集中各特征与样本类别之间的相关系数；

S12.选择相关系数较大的特征作为该数据集的重要特征。

进一步的，所述的步骤S11具体包括：

S111.假设给定一个训练数据集：

T＝{(x₁,y₁),(x₂,y₂),L,(x_n,y_n)}

其中，

x_i表不第i个样本的特征数据，X为输入空间；

y_i表示第i个样本的类别标签，Y为输出空间，且i＝1，2，…，n，n为样本个数；

S112.假定数据集含有N个特征，特征集合表示为

其中

表示第k个特征向量，k＝1，2，…，N；有该数据集各特征属性与样本类别之间的相关系数表示为：

r＝[ρ₁,ρ₂,L,ρ_k,L,ρ_N]

其中，ρ_k表示第k个特征向量

与样本类别标签之间的相关系数表示为ρ_k，k＝1，2，…，N，且：

其中，

表示特征向量

与样本类别向量的协方差，

为特征向量

的方差，D(Y)为样本类别向量的方差。

进一步的，所述的步骤S12具体包括：

S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量，设置拟选择的重要特征个数在所有特征数中的占比系数λ，且有λ的取值范围为(0，1]，以λ·N乘积值向下取整记作θ，作为采样算法在计算相关系数之后所选择的重要特征个数，记作θ＝[λ·N]；当λ＝1时，表示算法不考虑特征属性与数据集样本类别的相关性差异，在所提采样方法的后续采样流程中会平等考虑数据集所有特征；

S122.选择样本重要特征属性时，将各特征与样本类别间的相关系数进行排序，根据所设置的占比系数λ和特征总数N的值，将相关系数较大的θ个特征标记为该数据集样本的重要特征，既得特征集合

其中，

至

表示与样本类别相关度依次减小的特征数据，在后续采样流程中主要考虑所标记的特征集合中特征包含的数据信息，以避免主要特征信息的丢失。

进一步的，所述的步骤S2具体包括：

S21.将样本数据集按各类样本标签分别统计出各类样本数；

S22.根据不平衡数据混合采样的思想，以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式；

S23.对多采样和欠采样两种方式分别采取不同的处理策略。

进一步的，所述的步骤S21中，统计各类样本数据量，假定数据集样本类别数为M类，定义各类样本的样本数列表为：

NumList＝[Num₁,Num₂,L,Num_M]

其中，Num_i表示第i类样本的数据量，有i＝1，2，…，M。

进一步的，所述的步骤S22具体包括：

确定划分采样方式的数据量分切点；在进行不同类样本采样方式划分时，以所有类别样本数的中位数作为划分标准，将样本量小于中位数的样本类数据进行过采样，将样本量大于中位数的样本类进行欠采样，各样本类采样标记δ_i定义如下：

其中，δ_i表示第i类样本的采样标记，δ_i＝1表示第i类样本的样本量小于所有样本的样本量中位数，其对应采样方式为过采样；δ_i＝0表示第i类样本的样本量大于所有样本的样本量中位数，其对应采样方式为欠采样；Num_Med表示各类样本量的中位数；Num_Med的计算公式为：

即得，各样本类的采样标记列表Δ：

Δ＝[δ₁，δ₂，L，δ_M]。

进一步的，所述的步骤S2中，基于混合采样的思想，根据采样标记对各类样本分别进行过采样和欠采样，不同采样方式所对应着不同的采样策略；

所述的过采样策略包括：当样本类采样标记δ_i＝1时，则对该类样本进行过采样，为避免过于离散地异常数据对过采样结果的不利影响，使过采样之后新生成的数据能更准确的符合真实数据的分布，首先对步骤S1选择的重要特征进行聚类操作，保留原有样本量的90％数据进行过采样，以保证新生成的数据质量；然后，若数据集含有离散特征，则将数据样本按照离散特征进行分组；最后，对根据离散数据分组之后的数据子集，在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样，离散数据保留该组样本子集的原有信息；

所述的欠采样策略包括：样本类采样标记δ_i＝0时，则对该类样本进行欠采样，首先，对于需要进行欠采样的样本类数据，利用K-Means聚类算法对选择的θ个重要特征构成的特征子集

进行异常值筛选；然后，基于筛选之后保留的样本数据，考虑所有的特征信息对所有的数据集样本进行聚类，从而实现采样后数据对相关性较高特征信息最大保留，减少欠采样之后数据对原始重要信息的丢失。

进一步的，所述的步骤S3具体包括：

在确定采样后各类样本数据量时，通过设定采样平衡系数

τ∈[0,1]结合采样前各类样本量Num_i与样本量中位数Num_Med的差值，以确定采样之后各类样本数量Num_Sam_i，有：

当第i类样本的采样标记δ_i＝1，即对样本类进行过采样时，采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后，再与采样前样本量求和确定；当采样标记δ_i＝0，即对该样本类进行欠采样时，采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后，再将采样前数据量与其乘积值做差所得，其中i＝1，2，…，M，M为数据集样本类别数。

与现有技术相比，有益效果是：本发明提供的一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，不但结合智能电表故障数据特征相关系数矩阵，考虑到最大程度保留相关度较强特征的重要信息，而且可以通过设定采样平衡系数实现对采样后各类样本数量的灵活调整，可在样本采样层面减弱各故障类样本量不平衡引起的模型过拟合现象。

附图说明

图1是本发明方法流程示意图。

图2是本发明实施例方法流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

如图1和图2所示，一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，包括以下步骤：

S1.采集智能电表立式故障数据，计算特征相关系数，选取重要特征。

S11.分别计算数据集中各特征与样本类别之间的相关系数；

S111.假设给定一个训练数据集：

T＝{(x₁,y₁),(x₂,y₂),L,(x_n,y_n)}

其中，

x_i表不第i个样本的特征数据，X为输入空间；

S112.假定数据集含有N个特征，特征集合表示为

其中

r＝[ρ₁,ρ₂,L,ρ_k,L,ρ_N]

其中，ρ_k表示第k个特征向量

其中，

表示特征向量

与样本类别向量的协方差，

为特征向量

的方差，D(Y)为样本类别向量的方差。

S12.选择相关系数较大的特征作为该数据集的重要特征。

其中，

至

步骤2.确定各类样本的采样方式及策略。

S21.将样本数据集按各类样本标签分别统计出各类样本数；统计各类样本数据量，假定数据集样本类别数为M类，定义各类样本的样本数列表为：

NumList＝[Num₁,Num₂,L,Num_M]

其中，Num_i表示第i类样本的数据量，有i＝1，2，…，M。

所述的步骤S22具体包括：

即得，各样本类的采样标记列表Δ：

Δ＝[δ₁，δ₂，L，δ_M]。

进一步的，基于混合采样的思想，根据采样标记对各类样本分别进行过采样和欠采样，不同采样方式所对应着不同的采样策略；

S23.对多采样和欠采样两种方式分别采取不同的处理策略。

S3.平衡与确定采样后各类样本的数据量。

在确定采样后各类样本数据量时，通过设定采样平衡系数

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，包括以下步骤：

S2.确定各类样本的采样方式及策略；

S3.平衡与确定采样后各类样本的数据量。

2.根据权利要求1所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，所述的步骤S1具体包括：

S11.分别计算数据集中各特征与样本类别之间的相关系数；

S12.选择相关系数较大的特征作为该数据集的重要特征。

3.根据权利要求2所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，所述的步骤S11具体包括：

S111.假设给定一个训练数据集：

T＝{(x₁,y₁),(x₂,y₂),L,(x_n,y_n)}

其中，

x_i表不第i个样本的特征数据，X为输入空间；

S112.假定数据集含有N个特征，特征集合表示为

其中

r＝[ρ₁,ρ₂,L,ρ_k,L,ρ_N]

其中，ρ_k表示第k个特征向量

其中，

表示特征向量

与样本类别向量的协方差，

为特征向量

的方差，D(Y)为样本类别向量的方差。

4.根据权利要求3所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，所述的步骤S12具体包括：

其中，

至

5.根据权利要求4所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，所述的步骤S2具体包括：

S21.将样本数据集按各类样本标签分别统计出各类样本数；

S23.对多采样和欠采样两种方式分别采取不同的处理策略。

6.根据权利要求5所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，所述的步骤S21中，统计各类样本数据量，假定数据集样本类别数为M类，定义各类样本的样本数列表为：

NumList＝[Num₁,Num₂,L,Num_M]

其中，Num_i表示第i类样本的数据量，有i＝1，2，…，M。

7.根据权利要求6所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，所述的步骤S22具体包括：

即得，各样本类的采样标记列表Δ：

Δ＝[δ₁，δ₂，L，δ_M]。

8.根据权利要求7所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，所述的过采样策略包括：当样本类采样标记δ_i＝1时，则对该类样本进行过采样，为避免过于离散地异常数据对过采样结果的不利影响，使过采样之后新生成的数据能更准确的符合真实数据的分布，首先对步骤S1选择的重要特征进行聚类操作，保留原有样本量的90％数据进行过采样，以保证新生成的数据质量；然后，若数据集含有离散特征，则将数据样本按照离散特征进行分组；最后，对根据离散数据分组之后的数据子集，在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样，离散数据保留该组样本子集的原有信息。

9.根据权利要求7所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，所述的欠采样策略包括：样本类采样标记δ_i＝0时，则对该类样本进行欠采样，首先，对于需要进行欠采样的样本类数据，利用K-Means聚类算法对选择的θ个重要特征构成的特征子集

10.根据权利要求8或9所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法，其特征在于，所述的步骤S3具体包括：

在确定采样后各类样本数据量时，通过设定采样平衡系数τ，τ∈[0,1]结合采样前各类样本量Num_i与样本量中位数Num_Med的差值，以确定采样之后各类样本数量Num_Sam_i，有：