CN112395558B - 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 - Google Patents

一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 Download PDF

Info

Publication number
CN112395558B
CN112395558B CN202011360948.XA CN202011360948A CN112395558B CN 112395558 B CN112395558 B CN 112395558B CN 202011360948 A CN202011360948 A CN 202011360948A CN 112395558 B CN112395558 B CN 112395558B
Authority
CN
China
Prior art keywords
sample
data
sampling
samples
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011360948.XA
Other languages
English (en)
Other versions
CN112395558A (zh
Inventor
黄达文
游林辉
胡峰
孙仝
陈政
张谨立
宋海龙
王伟光
梁铭聪
黄志就
何彧
陈景尚
谭子毅
谢少章
吴宏曜
潘嘉琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202011360948.XA priority Critical patent/CN112395558B/zh
Publication of CN112395558A publication Critical patent/CN112395558A/zh
Application granted granted Critical
Publication of CN112395558B publication Critical patent/CN112395558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及智能配电网数据挖掘处理技术领域,更具体地,涉及一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法。包括计算特征相关系数,选取重要特征;定各类样本的采样方式及策略;平衡与确定采样后各类样本的数据量。本发明为一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,所提方法不但结合智能电表故障数据特征相关系数矩阵,考虑到最大程度保留相关度较强特征的重要信息,而且可以通过设定采样平衡系数实现对采样后各类样本数量的灵活调整,可在样本采样层面减弱各故障类样本量不平衡引起的模型过拟合现象。

Description

一种适用于智能电表历史故障数据的改进型不平衡数据混合 采样方法
技术领域
本发明涉及智能配电网数据挖掘处理技术领域,更具体地,涉及一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法。
背景技术
近年来,机器学习和数据挖掘非常火热,越来越多的机器学习算法被用到电力行业中去处理电网终端产生的海量数据,比如用于对数量众多的用户电表的数据分析;在这个过程中,所面临的数据不平衡问题是一个不可忽视的问题。
现有的智能电表故障数据集中包含的属性很多,包含电表安装省份、通讯方式、设备规格、供应商、设备类别、在库存放时间、挂装工作时间、安装及故障时间以及供电单位等多个属性,但各个特征与电表故障类型之间的相关度却并不理想,存在冗余特征及不相关特征,并且由于很多属性的特征颗粒度较大,直接将现有的数据特征不加选择的直接应用在机器学习的算法中,不仅不会有利于提升分类模型的准确度,而且会增加模型计算成本。另外,虽然所采集的智能电表历史故障数据样本量己经很大,但各故障类样本的数据量悬殊较大,这种数据的不平衡性对多分类模型的训练会造成严重影响,大大降低模型的分类性能,致使最后的诊断结果的准确性不高。
中国专利CN111091201A,公开日为2019.12.23,公开一种基于数据分区混合采样的不平衡集成分类方法,通过调整数据分布生成不同分类模型以改善不平衡问题中的分类性能,提高分类模型的综合性能;但是,该分类方法不能很好的适应配电网中智能电表的数据,不能有效的对智能电表立式故障数据进行采样分析。
发明内容
本发明为克服上述现有技术中的至少一个缺陷,提供一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,有效提高采样效率。
为解决上述技术问题,本发明采用的技术方案是:一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,包括以下步骤:
S1.采集智能电表立式故障数据,计算特征相关系数,选取重要特征;
S2.确定各类样本的采样方式及策略;
S3.平衡与确定采样后各类样本的数据量。
考虑到目前所获得的智能电表故障数据特征相关度较低且特征颗粒度较大的特点,基于混合采样的思想,本发明根据样本的离散特征将数据集划分为多个子集,以进一步抑制过采样引起的噪声影响,可以有效降低故障数据不平衡对构建智能电表故障多分类模型的影响。
进一步的,所述的步骤S1具体包括:
S11.分别计算数据集中各特征与样本类别之间的相关系数;
S12.选择相关系数较大的特征作为该数据集的重要特征。
进一步的,所述的步骤S11具体包括:
S111.假设给定一个训练数据集:
T={(x1,y1),(x2,y2),L,(xn,yn)}
其中,
Figure BDA0002803964830000021
xi表不第i个样本的特征数据,X为输入空间;/>
Figure BDA0002803964830000022
yi表示第i个样本的类别标签,Y为输出空间,且i=1,2,…,n,n为样本个数;
S112.假定数据集含有N个特征,特征集合表示为
Figure BDA0002803964830000023
其中/>
Figure BDA0002803964830000024
表示第k个特征向量,k=1,2,…,N;有该数据集各特征属性与样本类别之间的相关系数表示为:
r=[ρ12,L,ρk,L,ρN]
其中,ρk表示第k个特征向量
Figure BDA0002803964830000025
与样本类别标签之间的相关系数表示为ρk,k=1,2,…,N,且:
Figure BDA0002803964830000026
其中,
Figure BDA0002803964830000027
表示特征向量/>
Figure BDA0002803964830000028
与样本类别向量的协方差,/>
Figure BDA0002803964830000029
为特征向量
Figure BDA00028039648300000210
的方差,D(Y)为样本类别向量的方差。
进一步的,所述的步骤S12具体包括:
S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量,设置拟选择的重要特征个数在所有特征数中的占比系数λ,且有λ的取值范围为(0,1],以λ·N乘积值向下取整记作θ,作为采样算法在计算相关系数之后所选择的重要特征个数,记作θ=[λ·N];当λ=1时,表示算法不考虑特征属性与数据集样本类别的相关性差异,在所提采样方法的后续采样流程中会平等考虑数据集所有特征;
S122.选择样本重要特征属性时,将各特征与样本类别间的相关系数进行排序,根据所设置的占比系数λ和特征总数N的值,将相关系数较大的θ个特征标记为该数据集样本的重要特征,既得特征集合
Figure BDA0002803964830000031
Figure BDA0002803964830000032
其中,
Figure BDA0002803964830000033
至/>
Figure BDA0002803964830000034
表示与样本类别相关度依次减小的特征数据,在后续采样流程中主要考虑所标记的特征集合中特征包含的数据信息,以避免主要特征信息的丢失。
进一步的,所述的步骤S2具体包括:
S21.将样本数据集按各类样本标签分别统计出各类样本数;
S22.根据不平衡数据混合采样的思想,以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式;
S23.对多采样和欠采样两种方式分别采取不同的处理策略。
进一步的,所述的步骤S21中,统计各类样本数据量,假定数据集样本类别数为M类,定义各类样本的样本数列表为:
NumList=[Num1,Num2,L,NumM]
其中,Numi表示第i类样本的数据量,有i=1,2,…,M。
进一步的,所述的步骤S22具体包括:
确定划分采样方式的数据量分切点;在进行不同类样本采样方式划分时,以所有类别样本数的中位数作为划分标准,将样本量小于中位数的样本类数据进行过采样,将样本量大于中位数的样本类进行欠采样,各样本类采样标记δi定义如下:
Figure BDA0002803964830000035
其中,δi表示第i类样本的采样标记,δi=1表示第i类样本的样本量小于所有样本的样本量中位数,其对应采样方式为过采样;δi=0表示第i类样本的样本量大于所有样本的样本量中位数,其对应采样方式为欠采样;NumMed表示各类样本量的中位数;NumMed的计算公式为:
Figure BDA0002803964830000041
即得,各样本类的采样标记列表Δ:
Δ=[δ1,δ2,L,δM]。
进一步的,所述的步骤S2中,基于混合采样的思想,根据采样标记对各类样本分别进行过采样和欠采样,不同采样方式所对应着不同的采样策略;
所述的过采样策略包括:当样本类采样标记δi=1时,则对该类样本进行过采样,为避免过于离散地异常数据对过采样结果的不利影响,使过采样之后新生成的数据能更准确的符合真实数据的分布,首先对步骤S1选择的重要特征进行聚类操作,保留原有样本量的90%数据进行过采样,以保证新生成的数据质量;然后,若数据集含有离散特征,则将数据样本按照离散特征进行分组;最后,对根据离散数据分组之后的数据子集,在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样,离散数据保留该组样本子集的原有信息;
所述的欠采样策略包括:样本类采样标记δi=0时,则对该类样本进行欠采样,首先,对于需要进行欠采样的样本类数据,利用K-Means聚类算法对选择的θ个重要特征构成的特征子集
Figure BDA0002803964830000042
进行异常值筛选;然后,基于筛选之后保留的样本数据,考虑所有的特征信息对所有的数据集样本进行聚类,从而实现采样后数据对相关性较高特征信息最大保留,减少欠采样之后数据对原始重要信息的丢失。
进一步的,所述的步骤S3具体包括:
在确定采样后各类样本数据量时,通过设定采样平衡系数
Figure BDA0002803964830000043
τ∈[0,1]结合采样前各类样本量Numi与样本量中位数NumMed的差值,以确定采样之后各类样本数量Num_Sami,有:
Figure BDA0002803964830000044
当第i类样本的采样标记δi=1,即对样本类进行过采样时,采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再与采样前样本量求和确定;当采样标记δi=0,即对该样本类进行欠采样时,采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再将采样前数据量与其乘积值做差所得,其中i=1,2,…,M,M为数据集样本类别数。
与现有技术相比,有益效果是:本发明提供的一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,不但结合智能电表故障数据特征相关系数矩阵,考虑到最大程度保留相关度较强特征的重要信息,而且可以通过设定采样平衡系数实现对采样后各类样本数量的灵活调整,可在样本采样层面减弱各故障类样本量不平衡引起的模型过拟合现象。
附图说明
图1是本发明方法流程示意图。
图2是本发明实施例方法流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
如图1和图2所示,一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,包括以下步骤:
S1.采集智能电表立式故障数据,计算特征相关系数,选取重要特征。
S11.分别计算数据集中各特征与样本类别之间的相关系数;
S111.假设给定一个训练数据集:
T={(x1,y1),(x2,y2),L,(xn,yn)}
其中,
Figure BDA0002803964830000051
xi表不第i个样本的特征数据,X为输入空间;/>
Figure BDA0002803964830000052
yi表示第i个样本的类别标签,Y为输出空间,且i=1,2,…,n,n为样本个数;
S112.假定数据集含有N个特征,特征集合表示为
Figure BDA0002803964830000053
其中/>
Figure BDA0002803964830000054
表示第k个特征向量,k=1,2,…,N;有该数据集各特征属性与样本类别之间的相关系数表示为:
r=[ρ12,L,ρk,L,ρN]
其中,ρk表示第k个特征向量
Figure BDA0002803964830000055
与样本类别标签之间的相关系数表示为ρk,k=1,2,…,N,且:
Figure BDA0002803964830000061
其中,
Figure BDA0002803964830000062
表示特征向量/>
Figure BDA0002803964830000063
与样本类别向量的协方差,/>
Figure BDA0002803964830000064
为特征向量
Figure BDA0002803964830000065
的方差,D(Y)为样本类别向量的方差。
S12.选择相关系数较大的特征作为该数据集的重要特征。
S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量,设置拟选择的重要特征个数在所有特征数中的占比系数λ,且有λ的取值范围为(0,1],以λ·N乘积值向下取整记作θ,作为采样算法在计算相关系数之后所选择的重要特征个数,记作θ=[λ·N];当λ=1时,表示算法不考虑特征属性与数据集样本类别的相关性差异,在所提采样方法的后续采样流程中会平等考虑数据集所有特征;
S122.选择样本重要特征属性时,将各特征与样本类别间的相关系数进行排序,根据所设置的占比系数λ和特征总数N的值,将相关系数较大的θ个特征标记为该数据集样本的重要特征,既得特征集合
Figure BDA0002803964830000066
Figure BDA0002803964830000067
其中,
Figure BDA0002803964830000068
至/>
Figure BDA0002803964830000069
表示与样本类别相关度依次减小的特征数据,在后续采样流程中主要考虑所标记的特征集合中特征包含的数据信息,以避免主要特征信息的丢失。
步骤2.确定各类样本的采样方式及策略。
S21.将样本数据集按各类样本标签分别统计出各类样本数;统计各类样本数据量,假定数据集样本类别数为M类,定义各类样本的样本数列表为:
NumList=[Num1,Num2,L,NumM]
其中,Numi表示第i类样本的数据量,有i=1,2,…,M。
S22.根据不平衡数据混合采样的思想,以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式;
所述的步骤S22具体包括:
确定划分采样方式的数据量分切点;在进行不同类样本采样方式划分时,以所有类别样本数的中位数作为划分标准,将样本量小于中位数的样本类数据进行过采样,将样本量大于中位数的样本类进行欠采样,各样本类采样标记δi定义如下:
Figure BDA0002803964830000071
其中,δi表示第i类样本的采样标记,δi=1表示第i类样本的样本量小于所有样本的样本量中位数,其对应采样方式为过采样;δi=0表示第i类样本的样本量大于所有样本的样本量中位数,其对应采样方式为欠采样;NumMed表示各类样本量的中位数;NumMed的计算公式为:
Figure BDA0002803964830000072
即得,各样本类的采样标记列表Δ:
Δ=[δ1,δ2,L,δM]。
进一步的,基于混合采样的思想,根据采样标记对各类样本分别进行过采样和欠采样,不同采样方式所对应着不同的采样策略;
S23.对多采样和欠采样两种方式分别采取不同的处理策略。
所述的过采样策略包括:当样本类采样标记δi=1时,则对该类样本进行过采样,为避免过于离散地异常数据对过采样结果的不利影响,使过采样之后新生成的数据能更准确的符合真实数据的分布,首先对步骤S1选择的重要特征进行聚类操作,保留原有样本量的90%数据进行过采样,以保证新生成的数据质量;然后,若数据集含有离散特征,则将数据样本按照离散特征进行分组;最后,对根据离散数据分组之后的数据子集,在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样,离散数据保留该组样本子集的原有信息;
所述的欠采样策略包括:样本类采样标记δi=0时,则对该类样本进行欠采样,首先,对于需要进行欠采样的样本类数据,利用K-Means聚类算法对选择的θ个重要特征构成的特征子集
Figure BDA0002803964830000073
进行异常值筛选;然后,基于筛选之后保留的样本数据,考虑所有的特征信息对所有的数据集样本进行聚类,从而实现采样后数据对相关性较高特征信息最大保留,减少欠采样之后数据对原始重要信息的丢失。
S3.平衡与确定采样后各类样本的数据量。
在确定采样后各类样本数据量时,通过设定采样平衡系数
Figure BDA0002803964830000081
τ∈[0,1]结合采样前各类样本量Numi与样本量中位数NumMed的差值,以确定采样之后各类样本数量Num_Sami,有:
Figure BDA0002803964830000082
当第i类样本的采样标记δi=1,即对样本类进行过采样时,采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再与采样前样本量求和确定;当采样标记δi=0,即对该样本类进行欠采样时,采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再将采样前数据量与其乘积值做差所得,其中i=1,2,…,M,M为数据集样本类别数。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (8)

1.一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,包括以下步骤:
S1.采集智能电表立式故障数据,计算特征相关系数,选取重要特征;具体包括:
S11.分别计算数据集中各特征与样本类别之间的相关系数;
S12.选择相关系数较大的特征作为该数据集的重要特征;步骤S12具体包括:
S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量,设置拟选择的重要特征个数在所有特征数中的占比系数λ,且有λ的取值范围为(0,1],以λ·N乘积值向下取整记作θ,作为采样算法在计算相关系数之后所选择的重要特征个数,记作θ=[λ·N];当λ=1时,表示算法不考虑特征属性与数据集样本类别的相关性差异,在所提采样方法的后续采样流程中会平等考虑数据集所有特征;
S122.选择样本重要特征属性时,将各特征与样本类别间的相关系数进行排序,根据所设置的占比系数λ和特征总数N的值,将相关系数较大的θ个特征标记为该数据集样本的重要特征,既得特征集合
Figure FDA0004102473790000011
Figure FDA0004102473790000012
其中,
Figure FDA0004102473790000013
至/>
Figure FDA0004102473790000014
表示与样本类别相关度依次减小的特征数据,在后续采样流程中主要考虑所标记的特征集合中特征包含的数据信息,以避免主要特征信息的丢失;
S2.确定各类样本的采样方式及策略;
S3.平衡与确定采样后各类样本的数据量。
2.根据权利要求1所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S11具体包括:
S111.假设给定一个训练数据集:
T={(x1,y1),(x2,y2),…,(xn,yn)}
其中,
Figure FDA0004102473790000015
Rn表示n维向量空间;xi表不第i个样本的特征数据,X为输入空间;
Figure FDA0004102473790000016
yi表示第i个样本的类别标签,Y为输出空间,且i=1,2,…,n,n为样本个数;
S112.假定数据集含有N个特征,特征集合表示为
Figure FDA0004102473790000021
其中/>
Figure FDA0004102473790000029
表示第k个特征向量,k=1,2,…,N;有该数据集各特征属性与样本类别之间的相关系数表示为:
r=[ρ12,…,ρk,…,ρN]
其中,ρk表示第k个特征向量
Figure FDA0004102473790000022
与样本类别标签之间的相关系数表示为ρk,k=1,2,…,N,且:
Figure FDA0004102473790000023
其中,
Figure FDA0004102473790000024
表示特征向量/>
Figure FDA0004102473790000025
与样本类别向量的协方差,/>
Figure FDA0004102473790000026
为特征向量/>
Figure FDA0004102473790000027
的方差,D(Y)为样本类别向量的方差。
3.根据权利要求1所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S2具体包括:
S21.将样本数据集按各类样本标签分别统计出各类样本数;
S22.根据不平衡数据混合采样的思想,以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式;
S23.对多采样和欠采样两种方式分别采取不同的处理策略。
4.根据权利要求3所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S21中,统计各类样本数据量,假定数据集样本类别数为M类,定义各类样本的样本数列表为:
NumList=[Num1,Num2,…,NumM]
其中,Numi表示第i类样本的数据量,有i=1,2,…,M。
5.根据权利要求4所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S22具体包括:
确定划分采样方式的数据量分切点;在进行不同类样本采样方式划分时,以所有类别样本数的中位数作为划分标准,将样本量小于中位数的样本类数据进行过采样,将样本量大于中位数的样本类进行欠采样,各样本类采样标记δi定义如下:
Figure FDA0004102473790000028
其中,δi表示第i类样本的采样标记,δi=1表示第i类样本的样本量小于所有样本的样本量中位数,其对应采样方式为过采样;δi=0表示第i类样本的样本量大于所有样本的样本量中位数,其对应采样方式为欠采样;NumMed表示各类样本量的中位数;NumMed的计算公式为:
Figure FDA0004102473790000031
即得,各样本类的采样标记列表Δ:
Δ=[δ1,δ2,…,δM]。
6.根据权利要求5所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的过采样策略包括:当样本类采样标记δi=1时,则对该类样本进行过采样,为避免过于离散地异常数据对过采样结果的不利影响,使过采样之后新生成的数据能更准确的符合真实数据的分布,首先对步骤S1选择的重要特征进行聚类操作,保留原有样本量的90%数据进行过采样,以保证新生成的数据质量;然后,若数据集含有离散特征,则将数据样本按照离散特征进行分组;最后,对根据离散数据分组之后的数据子集,在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样,离散数据保留该组样本子集的原有信息。
7.根据权利要求6所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的欠采样策略包括:样本类采样标记δi=0时,则对该类样本进行欠采样,首先,对于需要进行欠采样的样本类数据,利用K-Means聚类算法对选择的θ个重要特征构成的特征子集
Figure FDA0004102473790000032
进行异常值筛选;然后,基于筛选之后保留的样本数据,考虑所有的特征信息对所有的数据集样本进行聚类,从而实现采样后数据对相关性较高特征信息最大保留,减少欠采样之后数据对原始重要信息的丢失。
8.根据权利要求6或7所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S3具体包括:
在确定采样后各类样本数据量时,通过设定采样平衡系数τ,τ∈[0,1]结合采样前各类样本量Numi与样本量中位数NumMed的差值,以确定采样之后各类样本数量Num_Sami,有:
Figure FDA0004102473790000041
当第i类样本的采样标记δi=1,即对样本类进行过采样时,采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再与采样前样本量求和确定;当采样标记δi=0,即对该样本类进行欠采样时,采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再将采样前数据量与其乘积值做差所得,其中i=1,2,…,M,M为数据集样本类别数。
CN202011360948.XA 2020-11-27 2020-11-27 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 Active CN112395558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011360948.XA CN112395558B (zh) 2020-11-27 2020-11-27 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011360948.XA CN112395558B (zh) 2020-11-27 2020-11-27 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Publications (2)

Publication Number Publication Date
CN112395558A CN112395558A (zh) 2021-02-23
CN112395558B true CN112395558B (zh) 2023-05-26

Family

ID=74604665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011360948.XA Active CN112395558B (zh) 2020-11-27 2020-11-27 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Country Status (1)

Country Link
CN (1) CN112395558B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011530B (zh) * 2021-04-29 2023-04-07 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) 一种基于多分类器融合的智能电表故障预测方法
CN115357813B (zh) * 2022-10-20 2023-04-07 荣耀终端有限公司 采样方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020188425A1 (en) * 2019-03-15 2020-09-24 Wrnch Inc. Method for balancing datasets of multi-class instance data

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10846308B2 (en) * 2016-07-27 2020-11-24 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
CN108268478A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
CN110009040A (zh) * 2019-04-08 2019-07-12 浙江工业大学 一种面向不平衡金融数据的分类方法
CN110070118A (zh) * 2019-04-10 2019-07-30 广东电网有限责任公司 一种多时空数据融合方法
US11392846B2 (en) * 2019-05-24 2022-07-19 Canon U.S.A., Inc. Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset
CN110348486A (zh) * 2019-06-13 2019-10-18 中国科学院计算机网络信息中心 基于采样与特征简约的非平衡数据集转换方法及系统
CN111314353B (zh) * 2020-02-19 2022-09-02 重庆邮电大学 一种基于混合采样的网络入侵检测方法及系统
CN111381990B (zh) * 2020-03-16 2023-10-20 上海威固信息技术股份有限公司 一种基于流特征的磁盘故障预测方法及装置
CN111695626B (zh) * 2020-06-10 2023-10-31 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
CN111782512B (zh) * 2020-06-23 2021-07-09 北京高质系统科技有限公司 基于不平衡噪声集的多特征软件缺陷综合预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020188425A1 (en) * 2019-03-15 2020-09-24 Wrnch Inc. Method for balancing datasets of multi-class instance data

Also Published As

Publication number Publication date
CN112395558A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN107220732B (zh) 一种基于梯度提升树的停电投诉风险预测方法
CN110634080B (zh) 异常用电检测方法、装置、设备及计算机可读存储介质
CN112395558B (zh) 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法
CN109389145B (zh) 基于计量大数据聚类模型的电能表生产厂商评价方法
CN113011530B (zh) 一种基于多分类器融合的智能电表故障预测方法
CN110752410A (zh) 一种快速分选和重组退役锂电池的方法
CN110991786A (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN108520357A (zh) 一种线损异常原因的判别方法、装置及服务器
CN102819772B (zh) 电力配网建设物资需求预测方法及装置
CN110610121B (zh) 基于曲线聚类的小时级源荷功率异常数据辨识与修复方法
CN111160401A (zh) 一种基于均值漂移和XGBoost的异常用电判别方法
CN109409425B (zh) 一种基于近邻成分分析的故障类型识别方法
CN109670676A (zh) 基于支持向量数据描述的配网台区风险预警方法及系统
CN111191726B (zh) 一种基于弱监督学习多层感知器的故障分类方法
CN114114039A (zh) 一种电池系统的单体电芯一致性的评估方法和装置
CN109240276B (zh) 基于故障敏感主元选择的多块pca故障监测方法
CN109787821B (zh) 一种大规模移动客户流量消费智能预测方法
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN112001409A (zh) 一种基于K-means聚类算法的配电网线损异常诊断方法和系统
CN112070121A (zh) 一种基于变分自编码器的智能电表数据填补方法
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN113887623A (zh) 基于ifcm-bb的变压器故障诊断方法
CN109951327A (zh) 一种基于贝叶斯混合模型的网络故障数据合成方法
CN109858667A (zh) 一种基于雷电气候对负荷影响的短期负荷聚类方法
CN117592656A (zh) 基于碳数据核算的碳足迹监控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant