CN112395558A - 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 - Google Patents

一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 Download PDF

Info

Publication number
CN112395558A
CN112395558A CN202011360948.XA CN202011360948A CN112395558A CN 112395558 A CN112395558 A CN 112395558A CN 202011360948 A CN202011360948 A CN 202011360948A CN 112395558 A CN112395558 A CN 112395558A
Authority
CN
China
Prior art keywords
data
sample
sampling
samples
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011360948.XA
Other languages
English (en)
Other versions
CN112395558B (zh
Inventor
黄达文
游林辉
胡峰
孙仝
陈政
张谨立
宋海龙
王伟光
梁铭聪
黄志就
何彧
陈景尚
谭子毅
谢少章
吴宏曜
潘嘉琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202011360948.XA priority Critical patent/CN112395558B/zh
Publication of CN112395558A publication Critical patent/CN112395558A/zh
Application granted granted Critical
Publication of CN112395558B publication Critical patent/CN112395558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及智能配电网数据挖掘处理技术领域,更具体地,涉及一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法。包括计算特征相关系数,选取重要特征;定各类样本的采样方式及策略;平衡与确定采样后各类样本的数据量。本发明为一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,所提方法不但结合智能电表故障数据特征相关系数矩阵,考虑到最大程度保留相关度较强特征的重要信息,而且可以通过设定采样平衡系数实现对采样后各类样本数量的灵活调整,可在样本采样层面减弱各故障类样本量不平衡引起的模型过拟合现象。

Description

一种适用于智能电表历史故障数据的改进型不平衡数据混合 采样方法
技术领域
本发明涉及智能配电网数据挖掘处理技术领域,更具体地,涉及一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法。
背景技术
近年来,机器学习和数据挖掘非常火热,越来越多的机器学习算法被用到电力行业中去处理电网终端产生的海量数据,比如用于对数量众多的用户电表的数据分析;在这个过程中,所面临的数据不平衡问题是一个不可忽视的问题。
现有的智能电表故障数据集中包含的属性很多,包含电表安装省份、通讯方式、设备规格、供应商、设备类别、在库存放时间、挂装工作时间、安装及故障时间以及供电单位等多个属性,但各个特征与电表故障类型之间的相关度却并不理想,存在冗余特征及不相关特征,并且由于很多属性的特征颗粒度较大,直接将现有的数据特征不加选择的直接应用在机器学习的算法中,不仅不会有利于提升分类模型的准确度,而且会增加模型计算成本。另外,虽然所采集的智能电表历史故障数据样本量己经很大,但各故障类样本的数据量悬殊较大,这种数据的不平衡性对多分类模型的训练会造成严重影响,大大降低模型的分类性能,致使最后的诊断结果的准确性不高。
中国专利CN111091201A,公开日为2019.12.23,公开一种基于数据分区混合采样的不平衡集成分类方法,通过调整数据分布生成不同分类模型以改善不平衡问题中的分类性能,提高分类模型的综合性能;但是,该分类方法不能很好的适应配电网中智能电表的数据,不能有效的对智能电表立式故障数据进行采样分析。
发明内容
本发明为克服上述现有技术中的至少一个缺陷,提供一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,有效提高采样效率。
为解决上述技术问题,本发明采用的技术方案是:一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,包括以下步骤:
S1.采集智能电表立式故障数据,计算特征相关系数,选取重要特征;
S2.确定各类样本的采样方式及策略;
S3.平衡与确定采样后各类样本的数据量。
考虑到目前所获得的智能电表故障数据特征相关度较低且特征颗粒度较大的特点,基于混合采样的思想,本发明根据样本的离散特征将数据集划分为多个子集,以进一步抑制过采样引起的噪声影响,可以有效降低故障数据不平衡对构建智能电表故障多分类模型的影响。
进一步的,所述的步骤S1具体包括:
S11.分别计算数据集中各特征与样本类别之间的相关系数;
S12.选择相关系数较大的特征作为该数据集的重要特征。
进一步的,所述的步骤S11具体包括:
S111.假设给定一个训练数据集:
T={(x1,y1),(x2,y2),L,(xn,yn)}
其中,
Figure BDA0002803964830000021
xi表不第i个样本的特征数据,X为输入空间;
Figure BDA0002803964830000022
yi表示第i个样本的类别标签,Y为输出空间,且i=1,2,…,n,n为样本个数;
S112.假定数据集含有N个特征,特征集合表示为
Figure BDA0002803964830000023
其中
Figure BDA0002803964830000024
表示第k个特征向量,k=1,2,…,N;有该数据集各特征属性与样本类别之间的相关系数表示为:
r=[ρ12,L,ρk,L,ρN]
其中,ρk表示第k个特征向量
Figure BDA0002803964830000025
与样本类别标签之间的相关系数表示为ρk,k=1,2,…,N,且:
Figure BDA0002803964830000026
其中,
Figure BDA0002803964830000027
表示特征向量
Figure BDA0002803964830000028
与样本类别向量的协方差,
Figure BDA0002803964830000029
为特征向量
Figure BDA00028039648300000210
的方差,D(Y)为样本类别向量的方差。
进一步的,所述的步骤S12具体包括:
S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量,设置拟选择的重要特征个数在所有特征数中的占比系数λ,且有λ的取值范围为(0,1],以λ·N乘积值向下取整记作θ,作为采样算法在计算相关系数之后所选择的重要特征个数,记作θ=[λ·N];当λ=1时,表示算法不考虑特征属性与数据集样本类别的相关性差异,在所提采样方法的后续采样流程中会平等考虑数据集所有特征;
S122.选择样本重要特征属性时,将各特征与样本类别间的相关系数进行排序,根据所设置的占比系数λ和特征总数N的值,将相关系数较大的θ个特征标记为该数据集样本的重要特征,既得特征集合
Figure BDA0002803964830000031
Figure BDA0002803964830000032
其中,
Figure BDA0002803964830000033
Figure BDA0002803964830000034
表示与样本类别相关度依次减小的特征数据,在后续采样流程中主要考虑所标记的特征集合中特征包含的数据信息,以避免主要特征信息的丢失。
进一步的,所述的步骤S2具体包括:
S21.将样本数据集按各类样本标签分别统计出各类样本数;
S22.根据不平衡数据混合采样的思想,以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式;
S23.对多采样和欠采样两种方式分别采取不同的处理策略。
进一步的,所述的步骤S21中,统计各类样本数据量,假定数据集样本类别数为M类,定义各类样本的样本数列表为:
NumList=[Num1,Num2,L,NumM]
其中,Numi表示第i类样本的数据量,有i=1,2,…,M。
进一步的,所述的步骤S22具体包括:
确定划分采样方式的数据量分切点;在进行不同类样本采样方式划分时,以所有类别样本数的中位数作为划分标准,将样本量小于中位数的样本类数据进行过采样,将样本量大于中位数的样本类进行欠采样,各样本类采样标记δi定义如下:
Figure BDA0002803964830000035
其中,δi表示第i类样本的采样标记,δi=1表示第i类样本的样本量小于所有样本的样本量中位数,其对应采样方式为过采样;δi=0表示第i类样本的样本量大于所有样本的样本量中位数,其对应采样方式为欠采样;NumMed表示各类样本量的中位数;NumMed的计算公式为:
Figure BDA0002803964830000041
即得,各样本类的采样标记列表Δ:
Δ=[δ1,δ2,L,δM]。
进一步的,所述的步骤S2中,基于混合采样的思想,根据采样标记对各类样本分别进行过采样和欠采样,不同采样方式所对应着不同的采样策略;
所述的过采样策略包括:当样本类采样标记δi=1时,则对该类样本进行过采样,为避免过于离散地异常数据对过采样结果的不利影响,使过采样之后新生成的数据能更准确的符合真实数据的分布,首先对步骤S1选择的重要特征进行聚类操作,保留原有样本量的90%数据进行过采样,以保证新生成的数据质量;然后,若数据集含有离散特征,则将数据样本按照离散特征进行分组;最后,对根据离散数据分组之后的数据子集,在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样,离散数据保留该组样本子集的原有信息;
所述的欠采样策略包括:样本类采样标记δi=0时,则对该类样本进行欠采样,首先,对于需要进行欠采样的样本类数据,利用K-Means聚类算法对选择的θ个重要特征构成的特征子集
Figure BDA0002803964830000042
进行异常值筛选;然后,基于筛选之后保留的样本数据,考虑所有的特征信息对所有的数据集样本进行聚类,从而实现采样后数据对相关性较高特征信息最大保留,减少欠采样之后数据对原始重要信息的丢失。
进一步的,所述的步骤S3具体包括:
在确定采样后各类样本数据量时,通过设定采样平衡系数
Figure BDA0002803964830000043
τ∈[0,1]结合采样前各类样本量Numi与样本量中位数NumMed的差值,以确定采样之后各类样本数量Num_Sami,有:
Figure BDA0002803964830000044
当第i类样本的采样标记δi=1,即对样本类进行过采样时,采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再与采样前样本量求和确定;当采样标记δi=0,即对该样本类进行欠采样时,采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再将采样前数据量与其乘积值做差所得,其中i=1,2,…,M,M为数据集样本类别数。
与现有技术相比,有益效果是:本发明提供的一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,不但结合智能电表故障数据特征相关系数矩阵,考虑到最大程度保留相关度较强特征的重要信息,而且可以通过设定采样平衡系数实现对采样后各类样本数量的灵活调整,可在样本采样层面减弱各故障类样本量不平衡引起的模型过拟合现象。
附图说明
图1是本发明方法流程示意图。
图2是本发明实施例方法流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
如图1和图2所示,一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,包括以下步骤:
S1.采集智能电表立式故障数据,计算特征相关系数,选取重要特征。
S11.分别计算数据集中各特征与样本类别之间的相关系数;
S111.假设给定一个训练数据集:
T={(x1,y1),(x2,y2),L,(xn,yn)}
其中,
Figure BDA0002803964830000051
xi表不第i个样本的特征数据,X为输入空间;
Figure BDA0002803964830000052
yi表示第i个样本的类别标签,Y为输出空间,且i=1,2,…,n,n为样本个数;
S112.假定数据集含有N个特征,特征集合表示为
Figure BDA0002803964830000053
其中
Figure BDA0002803964830000054
表示第k个特征向量,k=1,2,…,N;有该数据集各特征属性与样本类别之间的相关系数表示为:
r=[ρ12,L,ρk,L,ρN]
其中,ρk表示第k个特征向量
Figure BDA0002803964830000055
与样本类别标签之间的相关系数表示为ρk,k=1,2,…,N,且:
Figure BDA0002803964830000061
其中,
Figure BDA0002803964830000062
表示特征向量
Figure BDA0002803964830000063
与样本类别向量的协方差,
Figure BDA0002803964830000064
为特征向量
Figure BDA0002803964830000065
的方差,D(Y)为样本类别向量的方差。
S12.选择相关系数较大的特征作为该数据集的重要特征。
S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量,设置拟选择的重要特征个数在所有特征数中的占比系数λ,且有λ的取值范围为(0,1],以λ·N乘积值向下取整记作θ,作为采样算法在计算相关系数之后所选择的重要特征个数,记作θ=[λ·N];当λ=1时,表示算法不考虑特征属性与数据集样本类别的相关性差异,在所提采样方法的后续采样流程中会平等考虑数据集所有特征;
S122.选择样本重要特征属性时,将各特征与样本类别间的相关系数进行排序,根据所设置的占比系数λ和特征总数N的值,将相关系数较大的θ个特征标记为该数据集样本的重要特征,既得特征集合
Figure BDA0002803964830000066
Figure BDA0002803964830000067
其中,
Figure BDA0002803964830000068
Figure BDA0002803964830000069
表示与样本类别相关度依次减小的特征数据,在后续采样流程中主要考虑所标记的特征集合中特征包含的数据信息,以避免主要特征信息的丢失。
步骤2.确定各类样本的采样方式及策略。
S21.将样本数据集按各类样本标签分别统计出各类样本数;统计各类样本数据量,假定数据集样本类别数为M类,定义各类样本的样本数列表为:
NumList=[Num1,Num2,L,NumM]
其中,Numi表示第i类样本的数据量,有i=1,2,…,M。
S22.根据不平衡数据混合采样的思想,以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式;
所述的步骤S22具体包括:
确定划分采样方式的数据量分切点;在进行不同类样本采样方式划分时,以所有类别样本数的中位数作为划分标准,将样本量小于中位数的样本类数据进行过采样,将样本量大于中位数的样本类进行欠采样,各样本类采样标记δi定义如下:
Figure BDA0002803964830000071
其中,δi表示第i类样本的采样标记,δi=1表示第i类样本的样本量小于所有样本的样本量中位数,其对应采样方式为过采样;δi=0表示第i类样本的样本量大于所有样本的样本量中位数,其对应采样方式为欠采样;NumMed表示各类样本量的中位数;NumMed的计算公式为:
Figure BDA0002803964830000072
即得,各样本类的采样标记列表Δ:
Δ=[δ1,δ2,L,δM]。
进一步的,基于混合采样的思想,根据采样标记对各类样本分别进行过采样和欠采样,不同采样方式所对应着不同的采样策略;
S23.对多采样和欠采样两种方式分别采取不同的处理策略。
所述的过采样策略包括:当样本类采样标记δi=1时,则对该类样本进行过采样,为避免过于离散地异常数据对过采样结果的不利影响,使过采样之后新生成的数据能更准确的符合真实数据的分布,首先对步骤S1选择的重要特征进行聚类操作,保留原有样本量的90%数据进行过采样,以保证新生成的数据质量;然后,若数据集含有离散特征,则将数据样本按照离散特征进行分组;最后,对根据离散数据分组之后的数据子集,在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样,离散数据保留该组样本子集的原有信息;
所述的欠采样策略包括:样本类采样标记δi=0时,则对该类样本进行欠采样,首先,对于需要进行欠采样的样本类数据,利用K-Means聚类算法对选择的θ个重要特征构成的特征子集
Figure BDA0002803964830000073
进行异常值筛选;然后,基于筛选之后保留的样本数据,考虑所有的特征信息对所有的数据集样本进行聚类,从而实现采样后数据对相关性较高特征信息最大保留,减少欠采样之后数据对原始重要信息的丢失。
S3.平衡与确定采样后各类样本的数据量。
在确定采样后各类样本数据量时,通过设定采样平衡系数
Figure BDA0002803964830000081
τ∈[0,1]结合采样前各类样本量Numi与样本量中位数NumMed的差值,以确定采样之后各类样本数量Num_Sami,有:
Figure BDA0002803964830000082
当第i类样本的采样标记δi=1,即对样本类进行过采样时,采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再与采样前样本量求和确定;当采样标记δi=0,即对该样本类进行欠采样时,采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再将采样前数据量与其乘积值做差所得,其中i=1,2,…,M,M为数据集样本类别数。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,包括以下步骤:
S1.采集智能电表立式故障数据,计算特征相关系数,选取重要特征;
S2.确定各类样本的采样方式及策略;
S3.平衡与确定采样后各类样本的数据量。
2.根据权利要求1所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S1具体包括:
S11.分别计算数据集中各特征与样本类别之间的相关系数;
S12.选择相关系数较大的特征作为该数据集的重要特征。
3.根据权利要求2所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S11具体包括:
S111.假设给定一个训练数据集:
T={(x1,y1),(x2,y2),L,(xn,yn)}
其中,
Figure FDA0002803964820000011
xi表不第i个样本的特征数据,X为输入空间;
Figure FDA0002803964820000012
yi表示第i个样本的类别标签,Y为输出空间,且i=1,2,…,n,n为样本个数;
S112.假定数据集含有N个特征,特征集合表示为
Figure FDA0002803964820000013
其中
Figure FDA0002803964820000014
表示第k个特征向量,k=1,2,…,N;有该数据集各特征属性与样本类别之间的相关系数表示为:
r=[ρ12,L,ρk,L,ρN]
其中,ρk表示第k个特征向量
Figure FDA0002803964820000015
与样本类别标签之间的相关系数表示为ρk,k=1,2,…,N,且:
Figure FDA0002803964820000016
其中,
Figure FDA0002803964820000017
表示特征向量
Figure FDA0002803964820000018
与样本类别向量的协方差,
Figure FDA0002803964820000019
为特征向量
Figure FDA00028039648200000110
的方差,D(Y)为样本类别向量的方差。
4.根据权利要求3所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S12具体包括:
S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量,设置拟选择的重要特征个数在所有特征数中的占比系数λ,且有λ的取值范围为(0,1],以λ·N乘积值向下取整记作θ,作为采样算法在计算相关系数之后所选择的重要特征个数,记作θ=[λ·N];当λ=1时,表示算法不考虑特征属性与数据集样本类别的相关性差异,在所提采样方法的后续采样流程中会平等考虑数据集所有特征;
S122.选择样本重要特征属性时,将各特征与样本类别间的相关系数进行排序,根据所设置的占比系数λ和特征总数N的值,将相关系数较大的θ个特征标记为该数据集样本的重要特征,既得特征集合
Figure FDA0002803964820000021
Figure FDA0002803964820000022
其中,
Figure FDA0002803964820000023
Figure FDA0002803964820000024
表示与样本类别相关度依次减小的特征数据,在后续采样流程中主要考虑所标记的特征集合中特征包含的数据信息,以避免主要特征信息的丢失。
5.根据权利要求4所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S2具体包括:
S21.将样本数据集按各类样本标签分别统计出各类样本数;
S22.根据不平衡数据混合采样的思想,以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式;
S23.对多采样和欠采样两种方式分别采取不同的处理策略。
6.根据权利要求5所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S21中,统计各类样本数据量,假定数据集样本类别数为M类,定义各类样本的样本数列表为:
NumList=[Num1,Num2,L,NumM]
其中,Numi表示第i类样本的数据量,有i=1,2,…,M。
7.根据权利要求6所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S22具体包括:
确定划分采样方式的数据量分切点;在进行不同类样本采样方式划分时,以所有类别样本数的中位数作为划分标准,将样本量小于中位数的样本类数据进行过采样,将样本量大于中位数的样本类进行欠采样,各样本类采样标记δi定义如下:
Figure FDA0002803964820000031
其中,δi表示第i类样本的采样标记,δi=1表示第i类样本的样本量小于所有样本的样本量中位数,其对应采样方式为过采样;δi=0表示第i类样本的样本量大于所有样本的样本量中位数,其对应采样方式为欠采样;NumMed表示各类样本量的中位数;NumMed的计算公式为:
Figure FDA0002803964820000032
即得,各样本类的采样标记列表Δ:
Δ=[δ1,δ2,L,δM]。
8.根据权利要求7所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的过采样策略包括:当样本类采样标记δi=1时,则对该类样本进行过采样,为避免过于离散地异常数据对过采样结果的不利影响,使过采样之后新生成的数据能更准确的符合真实数据的分布,首先对步骤S1选择的重要特征进行聚类操作,保留原有样本量的90%数据进行过采样,以保证新生成的数据质量;然后,若数据集含有离散特征,则将数据样本按照离散特征进行分组;最后,对根据离散数据分组之后的数据子集,在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样,离散数据保留该组样本子集的原有信息。
9.根据权利要求7所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的欠采样策略包括:样本类采样标记δi=0时,则对该类样本进行欠采样,首先,对于需要进行欠采样的样本类数据,利用K-Means聚类算法对选择的θ个重要特征构成的特征子集
Figure FDA0002803964820000033
进行异常值筛选;然后,基于筛选之后保留的样本数据,考虑所有的特征信息对所有的数据集样本进行聚类,从而实现采样后数据对相关性较高特征信息最大保留,减少欠采样之后数据对原始重要信息的丢失。
10.根据权利要求8或9所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S3具体包括:
在确定采样后各类样本数据量时,通过设定采样平衡系数τ,τ∈[0,1]结合采样前各类样本量Numi与样本量中位数NumMed的差值,以确定采样之后各类样本数量Num_Sami,有:
Figure FDA0002803964820000041
当第i类样本的采样标记δi=1,即对样本类进行过采样时,采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再与采样前样本量求和确定;当采样标记δi=0,即对该样本类进行欠采样时,采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再将采样前数据量与其乘积值做差所得,其中i=1,2,…,M,M为数据集样本类别数。
CN202011360948.XA 2020-11-27 2020-11-27 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 Active CN112395558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011360948.XA CN112395558B (zh) 2020-11-27 2020-11-27 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011360948.XA CN112395558B (zh) 2020-11-27 2020-11-27 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Publications (2)

Publication Number Publication Date
CN112395558A true CN112395558A (zh) 2021-02-23
CN112395558B CN112395558B (zh) 2023-05-26

Family

ID=74604665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011360948.XA Active CN112395558B (zh) 2020-11-27 2020-11-27 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法

Country Status (1)

Country Link
CN (1) CN112395558B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011530A (zh) * 2021-04-29 2021-06-22 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) 一种基于多分类器融合的智能电表故障预测方法
CN115357813A (zh) * 2022-10-20 2022-11-18 荣耀终端有限公司 采样方法、装置及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268478A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
US20190188212A1 (en) * 2016-07-27 2019-06-20 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
CN110009040A (zh) * 2019-04-08 2019-07-12 浙江工业大学 一种面向不平衡金融数据的分类方法
CN110070118A (zh) * 2019-04-10 2019-07-30 广东电网有限责任公司 一种多时空数据融合方法
CN110348486A (zh) * 2019-06-13 2019-10-18 中国科学院计算机网络信息中心 基于采样与特征简约的非平衡数据集转换方法及系统
CN111314353A (zh) * 2020-02-19 2020-06-19 重庆邮电大学 一种基于混合采样的网络入侵检测方法及系统
CN111381990A (zh) * 2020-03-16 2020-07-07 上海威固信息技术股份有限公司 一种基于流特征的磁盘故障预测方法及装置
CN111695626A (zh) * 2020-06-10 2020-09-22 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
WO2020188425A1 (en) * 2019-03-15 2020-09-24 Wrnch Inc. Method for balancing datasets of multi-class instance data
CN111782512A (zh) * 2020-06-23 2020-10-16 北京高质系统科技有限公司 基于不平衡噪声集的多特征软件缺陷综合预测方法
US20200372383A1 (en) * 2019-05-24 2020-11-26 Canon Information And Imaging Solutions, Inc. Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188212A1 (en) * 2016-07-27 2019-06-20 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
CN108268478A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
WO2020188425A1 (en) * 2019-03-15 2020-09-24 Wrnch Inc. Method for balancing datasets of multi-class instance data
CN110009040A (zh) * 2019-04-08 2019-07-12 浙江工业大学 一种面向不平衡金融数据的分类方法
CN110070118A (zh) * 2019-04-10 2019-07-30 广东电网有限责任公司 一种多时空数据融合方法
US20200372383A1 (en) * 2019-05-24 2020-11-26 Canon Information And Imaging Solutions, Inc. Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset
CN110348486A (zh) * 2019-06-13 2019-10-18 中国科学院计算机网络信息中心 基于采样与特征简约的非平衡数据集转换方法及系统
CN111314353A (zh) * 2020-02-19 2020-06-19 重庆邮电大学 一种基于混合采样的网络入侵检测方法及系统
CN111381990A (zh) * 2020-03-16 2020-07-07 上海威固信息技术股份有限公司 一种基于流特征的磁盘故障预测方法及装置
CN111695626A (zh) * 2020-06-10 2020-09-22 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
CN111782512A (zh) * 2020-06-23 2020-10-16 北京高质系统科技有限公司 基于不平衡噪声集的多特征软件缺陷综合预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BIPRODIP PAL ET.AL: "A Gaussian Mixture Based Boosted Classification Scheme For Imbalanced And Oversampled Data", 《INTERNATIONAL CONFERENCE ON ELECTRICAL, COMPUTER AND COMMUNICATION ENGINEERING (ECCE)》 *
RAN LI ET.AL: "A Multi-channel Neural Network for Imbalanced Emotion Recognition", 《2019 IEEE 31ST INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI)》 *
胡峰: "基于三支决策的不平衡数据过采样方法", 《电子学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011530A (zh) * 2021-04-29 2021-06-22 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) 一种基于多分类器融合的智能电表故障预测方法
CN113011530B (zh) * 2021-04-29 2023-04-07 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) 一种基于多分类器融合的智能电表故障预测方法
CN115357813A (zh) * 2022-10-20 2022-11-18 荣耀终端有限公司 采样方法、装置及电子设备

Also Published As

Publication number Publication date
CN112395558B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
WO2021073462A1 (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN109902721A (zh) 异常点检测模型验证方法、装置、计算机设备及存储介质
CN110634080A (zh) 异常用电检测方法、装置、设备及计算机可读存储介质
CN113011530B (zh) 一种基于多分类器融合的智能电表故障预测方法
CN104052612B (zh) 一种电信业务的故障识别与定位的方法及系统
CN112395558A (zh) 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法
CN107065843A (zh) 基于独立子空间的多方向kica间歇过程故障监测方法
CN111639882B (zh) 一种基于深度学习的用电风险的判定方法
CN109033513A (zh) 电力变压器故障诊断方法与电力变压器故障诊断装置
CN112001409A (zh) 一种基于K-means聚类算法的配电网线损异常诊断方法和系统
CN108011367A (zh) 一种基于深度决策树算法的电力负荷特性挖掘方法
CN103310235B (zh) 一种基于参数识别与估计的隐写分析方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN114266289A (zh) 一种复杂装备健康状态评估方法
CN114818809B (zh) 基于交叉小波的sca-svm电机滚动轴承的故障诊断方法
CN107274025B (zh) 一种实现用电模式智能识别与管理的系统和方法
CN113516192A (zh) 一种用户用电异动识别方法、系统、装置及存储介质
CN107577896A (zh) 基于混合Copula理论的风电场多机聚合等值方法
CN107609700A (zh) 一种基于机器学习的客户价值模型优化方法
CN109000924B (zh) 一种基于k均值的滚珠丝杠副状态监测方法
CN116400168A (zh) 一种基于深度特征聚类的电网故障诊断方法及系统
CN113986636B (zh) 一种基于硬盘自适应报告数据的数据中心硬盘故障预测方法
CN110334125A (zh) 一种配电网量测异常数据辨识方法及装置
CN114742123A (zh) 一种用于样本不足的工控系统的工控异常检测方法
CN114167837B (zh) 一种铁路信号系统的智能故障诊断方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant