CN112395558B - 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 - Google Patents
一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 Download PDFInfo
- Publication number
- CN112395558B CN112395558B CN202011360948.XA CN202011360948A CN112395558B CN 112395558 B CN112395558 B CN 112395558B CN 202011360948 A CN202011360948 A CN 202011360948A CN 112395558 B CN112395558 B CN 112395558B
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- sampling
- samples
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 230000002411 adverse Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 abstract description 2
- 238000013145 classification model Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及智能配电网数据挖掘处理技术领域,更具体地,涉及一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法。包括计算特征相关系数,选取重要特征;定各类样本的采样方式及策略;平衡与确定采样后各类样本的数据量。本发明为一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,所提方法不但结合智能电表故障数据特征相关系数矩阵,考虑到最大程度保留相关度较强特征的重要信息,而且可以通过设定采样平衡系数实现对采样后各类样本数量的灵活调整,可在样本采样层面减弱各故障类样本量不平衡引起的模型过拟合现象。
Description
技术领域
本发明涉及智能配电网数据挖掘处理技术领域,更具体地,涉及一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法。
背景技术
近年来,机器学习和数据挖掘非常火热,越来越多的机器学习算法被用到电力行业中去处理电网终端产生的海量数据,比如用于对数量众多的用户电表的数据分析;在这个过程中,所面临的数据不平衡问题是一个不可忽视的问题。
现有的智能电表故障数据集中包含的属性很多,包含电表安装省份、通讯方式、设备规格、供应商、设备类别、在库存放时间、挂装工作时间、安装及故障时间以及供电单位等多个属性,但各个特征与电表故障类型之间的相关度却并不理想,存在冗余特征及不相关特征,并且由于很多属性的特征颗粒度较大,直接将现有的数据特征不加选择的直接应用在机器学习的算法中,不仅不会有利于提升分类模型的准确度,而且会增加模型计算成本。另外,虽然所采集的智能电表历史故障数据样本量己经很大,但各故障类样本的数据量悬殊较大,这种数据的不平衡性对多分类模型的训练会造成严重影响,大大降低模型的分类性能,致使最后的诊断结果的准确性不高。
中国专利CN111091201A,公开日为2019.12.23,公开一种基于数据分区混合采样的不平衡集成分类方法,通过调整数据分布生成不同分类模型以改善不平衡问题中的分类性能,提高分类模型的综合性能;但是,该分类方法不能很好的适应配电网中智能电表的数据,不能有效的对智能电表立式故障数据进行采样分析。
发明内容
本发明为克服上述现有技术中的至少一个缺陷,提供一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,有效提高采样效率。
为解决上述技术问题,本发明采用的技术方案是:一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,包括以下步骤:
S1.采集智能电表立式故障数据,计算特征相关系数,选取重要特征;
S2.确定各类样本的采样方式及策略;
S3.平衡与确定采样后各类样本的数据量。
考虑到目前所获得的智能电表故障数据特征相关度较低且特征颗粒度较大的特点,基于混合采样的思想,本发明根据样本的离散特征将数据集划分为多个子集,以进一步抑制过采样引起的噪声影响,可以有效降低故障数据不平衡对构建智能电表故障多分类模型的影响。
进一步的,所述的步骤S1具体包括:
S11.分别计算数据集中各特征与样本类别之间的相关系数;
S12.选择相关系数较大的特征作为该数据集的重要特征。
进一步的,所述的步骤S11具体包括:
S111.假设给定一个训练数据集:
T={(x1,y1),(x2,y2),L,(xn,yn)}
r=[ρ1,ρ2,L,ρk,L,ρN]
进一步的,所述的步骤S12具体包括:
S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量,设置拟选择的重要特征个数在所有特征数中的占比系数λ,且有λ的取值范围为(0,1],以λ·N乘积值向下取整记作θ,作为采样算法在计算相关系数之后所选择的重要特征个数,记作θ=[λ·N];当λ=1时,表示算法不考虑特征属性与数据集样本类别的相关性差异,在所提采样方法的后续采样流程中会平等考虑数据集所有特征;
进一步的,所述的步骤S2具体包括:
S21.将样本数据集按各类样本标签分别统计出各类样本数;
S22.根据不平衡数据混合采样的思想,以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式;
S23.对多采样和欠采样两种方式分别采取不同的处理策略。
进一步的,所述的步骤S21中,统计各类样本数据量,假定数据集样本类别数为M类,定义各类样本的样本数列表为:
NumList=[Num1,Num2,L,NumM]
其中,Numi表示第i类样本的数据量,有i=1,2,…,M。
进一步的,所述的步骤S22具体包括:
确定划分采样方式的数据量分切点;在进行不同类样本采样方式划分时,以所有类别样本数的中位数作为划分标准,将样本量小于中位数的样本类数据进行过采样,将样本量大于中位数的样本类进行欠采样,各样本类采样标记δi定义如下:
其中,δi表示第i类样本的采样标记,δi=1表示第i类样本的样本量小于所有样本的样本量中位数,其对应采样方式为过采样;δi=0表示第i类样本的样本量大于所有样本的样本量中位数,其对应采样方式为欠采样;NumMed表示各类样本量的中位数;NumMed的计算公式为:
即得,各样本类的采样标记列表Δ:
Δ=[δ1,δ2,L,δM]。
进一步的,所述的步骤S2中,基于混合采样的思想,根据采样标记对各类样本分别进行过采样和欠采样,不同采样方式所对应着不同的采样策略;
所述的过采样策略包括:当样本类采样标记δi=1时,则对该类样本进行过采样,为避免过于离散地异常数据对过采样结果的不利影响,使过采样之后新生成的数据能更准确的符合真实数据的分布,首先对步骤S1选择的重要特征进行聚类操作,保留原有样本量的90%数据进行过采样,以保证新生成的数据质量;然后,若数据集含有离散特征,则将数据样本按照离散特征进行分组;最后,对根据离散数据分组之后的数据子集,在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样,离散数据保留该组样本子集的原有信息;
所述的欠采样策略包括:样本类采样标记δi=0时,则对该类样本进行欠采样,首先,对于需要进行欠采样的样本类数据,利用K-Means聚类算法对选择的θ个重要特征构成的特征子集进行异常值筛选;然后,基于筛选之后保留的样本数据,考虑所有的特征信息对所有的数据集样本进行聚类,从而实现采样后数据对相关性较高特征信息最大保留,减少欠采样之后数据对原始重要信息的丢失。
进一步的,所述的步骤S3具体包括:
当第i类样本的采样标记δi=1,即对样本类进行过采样时,采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再与采样前样本量求和确定;当采样标记δi=0,即对该样本类进行欠采样时,采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再将采样前数据量与其乘积值做差所得,其中i=1,2,…,M,M为数据集样本类别数。
与现有技术相比,有益效果是:本发明提供的一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,不但结合智能电表故障数据特征相关系数矩阵,考虑到最大程度保留相关度较强特征的重要信息,而且可以通过设定采样平衡系数实现对采样后各类样本数量的灵活调整,可在样本采样层面减弱各故障类样本量不平衡引起的模型过拟合现象。
附图说明
图1是本发明方法流程示意图。
图2是本发明实施例方法流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
如图1和图2所示,一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,包括以下步骤:
S1.采集智能电表立式故障数据,计算特征相关系数,选取重要特征。
S11.分别计算数据集中各特征与样本类别之间的相关系数;
S111.假设给定一个训练数据集:
T={(x1,y1),(x2,y2),L,(xn,yn)}
r=[ρ1,ρ2,L,ρk,L,ρN]
S12.选择相关系数较大的特征作为该数据集的重要特征。
S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量,设置拟选择的重要特征个数在所有特征数中的占比系数λ,且有λ的取值范围为(0,1],以λ·N乘积值向下取整记作θ,作为采样算法在计算相关系数之后所选择的重要特征个数,记作θ=[λ·N];当λ=1时,表示算法不考虑特征属性与数据集样本类别的相关性差异,在所提采样方法的后续采样流程中会平等考虑数据集所有特征;
步骤2.确定各类样本的采样方式及策略。
S21.将样本数据集按各类样本标签分别统计出各类样本数;统计各类样本数据量,假定数据集样本类别数为M类,定义各类样本的样本数列表为:
NumList=[Num1,Num2,L,NumM]
其中,Numi表示第i类样本的数据量,有i=1,2,…,M。
S22.根据不平衡数据混合采样的思想,以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式;
所述的步骤S22具体包括:
确定划分采样方式的数据量分切点;在进行不同类样本采样方式划分时,以所有类别样本数的中位数作为划分标准,将样本量小于中位数的样本类数据进行过采样,将样本量大于中位数的样本类进行欠采样,各样本类采样标记δi定义如下:
其中,δi表示第i类样本的采样标记,δi=1表示第i类样本的样本量小于所有样本的样本量中位数,其对应采样方式为过采样;δi=0表示第i类样本的样本量大于所有样本的样本量中位数,其对应采样方式为欠采样;NumMed表示各类样本量的中位数;NumMed的计算公式为:
即得,各样本类的采样标记列表Δ:
Δ=[δ1,δ2,L,δM]。
进一步的,基于混合采样的思想,根据采样标记对各类样本分别进行过采样和欠采样,不同采样方式所对应着不同的采样策略;
S23.对多采样和欠采样两种方式分别采取不同的处理策略。
所述的过采样策略包括:当样本类采样标记δi=1时,则对该类样本进行过采样,为避免过于离散地异常数据对过采样结果的不利影响,使过采样之后新生成的数据能更准确的符合真实数据的分布,首先对步骤S1选择的重要特征进行聚类操作,保留原有样本量的90%数据进行过采样,以保证新生成的数据质量;然后,若数据集含有离散特征,则将数据样本按照离散特征进行分组;最后,对根据离散数据分组之后的数据子集,在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样,离散数据保留该组样本子集的原有信息;
所述的欠采样策略包括:样本类采样标记δi=0时,则对该类样本进行欠采样,首先,对于需要进行欠采样的样本类数据,利用K-Means聚类算法对选择的θ个重要特征构成的特征子集进行异常值筛选;然后,基于筛选之后保留的样本数据,考虑所有的特征信息对所有的数据集样本进行聚类,从而实现采样后数据对相关性较高特征信息最大保留,减少欠采样之后数据对原始重要信息的丢失。
S3.平衡与确定采样后各类样本的数据量。
当第i类样本的采样标记δi=1,即对样本类进行过采样时,采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再与采样前样本量求和确定;当采样标记δi=0,即对该样本类进行欠采样时,采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再将采样前数据量与其乘积值做差所得,其中i=1,2,…,M,M为数据集样本类别数。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,包括以下步骤:
S1.采集智能电表立式故障数据,计算特征相关系数,选取重要特征;具体包括:
S11.分别计算数据集中各特征与样本类别之间的相关系数;
S12.选择相关系数较大的特征作为该数据集的重要特征;步骤S12具体包括:
S121.根据计算所得的各个特征向量与样本类别之间的相关系数向量,设置拟选择的重要特征个数在所有特征数中的占比系数λ,且有λ的取值范围为(0,1],以λ·N乘积值向下取整记作θ,作为采样算法在计算相关系数之后所选择的重要特征个数,记作θ=[λ·N];当λ=1时,表示算法不考虑特征属性与数据集样本类别的相关性差异,在所提采样方法的后续采样流程中会平等考虑数据集所有特征;
S2.确定各类样本的采样方式及策略;
S3.平衡与确定采样后各类样本的数据量。
2.根据权利要求1所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S11具体包括:
S111.假设给定一个训练数据集:
T={(x1,y1),(x2,y2),…,(xn,yn)}
r=[ρ1,ρ2,…,ρk,…,ρN]
3.根据权利要求1所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S2具体包括:
S21.将样本数据集按各类样本标签分别统计出各类样本数;
S22.根据不平衡数据混合采样的思想,以各类样本所包含的数据量将其分别分为过采样和欠采样两种方式;
S23.对多采样和欠采样两种方式分别采取不同的处理策略。
4.根据权利要求3所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S21中,统计各类样本数据量,假定数据集样本类别数为M类,定义各类样本的样本数列表为:
NumList=[Num1,Num2,…,NumM]
其中,Numi表示第i类样本的数据量,有i=1,2,…,M。
5.根据权利要求4所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S22具体包括:
确定划分采样方式的数据量分切点;在进行不同类样本采样方式划分时,以所有类别样本数的中位数作为划分标准,将样本量小于中位数的样本类数据进行过采样,将样本量大于中位数的样本类进行欠采样,各样本类采样标记δi定义如下:
其中,δi表示第i类样本的采样标记,δi=1表示第i类样本的样本量小于所有样本的样本量中位数,其对应采样方式为过采样;δi=0表示第i类样本的样本量大于所有样本的样本量中位数,其对应采样方式为欠采样;NumMed表示各类样本量的中位数;NumMed的计算公式为:
即得,各样本类的采样标记列表Δ:
Δ=[δ1,δ2,…,δM]。
6.根据权利要求5所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的过采样策略包括:当样本类采样标记δi=1时,则对该类样本进行过采样,为避免过于离散地异常数据对过采样结果的不利影响,使过采样之后新生成的数据能更准确的符合真实数据的分布,首先对步骤S1选择的重要特征进行聚类操作,保留原有样本量的90%数据进行过采样,以保证新生成的数据质量;然后,若数据集含有离散特征,则将数据样本按照离散特征进行分组;最后,对根据离散数据分组之后的数据子集,在各子集内利用SMOTE采样算法对数据集的连续型特征数据进行过采样,离散数据保留该组样本子集的原有信息。
8.根据权利要求6或7所述的适用于智能电表历史故障数据的改进型不平衡数据混合采样方法,其特征在于,所述的步骤S3具体包括:
在确定采样后各类样本数据量时,通过设定采样平衡系数τ,τ∈[0,1]结合采样前各类样本量Numi与样本量中位数NumMed的差值,以确定采样之后各类样本数量Num_Sami,有:
当第i类样本的采样标记δi=1,即对样本类进行过采样时,采样后的样本数量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再与采样前样本量求和确定;当采样标记δi=0,即对该样本类进行欠采样时,采样后样本量通过将样本数量中位数与该类样本数的差值与采样平衡系数相乘之后,再将采样前数据量与其乘积值做差所得,其中i=1,2,…,M,M为数据集样本类别数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011360948.XA CN112395558B (zh) | 2020-11-27 | 2020-11-27 | 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011360948.XA CN112395558B (zh) | 2020-11-27 | 2020-11-27 | 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395558A CN112395558A (zh) | 2021-02-23 |
CN112395558B true CN112395558B (zh) | 2023-05-26 |
Family
ID=74604665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011360948.XA Active CN112395558B (zh) | 2020-11-27 | 2020-11-27 | 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395558B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011530B (zh) * | 2021-04-29 | 2023-04-07 | 国网新疆电力有限公司营销服务中心(资金集约中心、计量中心) | 一种基于多分类器融合的智能电表故障预测方法 |
CN115357813B (zh) * | 2022-10-20 | 2023-04-07 | 荣耀终端有限公司 | 采样方法、装置及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020188425A1 (en) * | 2019-03-15 | 2020-09-24 | Wrnch Inc. | Method for balancing datasets of multi-class instance data |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10846308B2 (en) * | 2016-07-27 | 2020-11-24 | Anomalee Inc. | Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces |
CN108268478A (zh) * | 2016-12-30 | 2018-07-10 | 广东精点数据科技股份有限公司 | 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置 |
CN110009040A (zh) * | 2019-04-08 | 2019-07-12 | 浙江工业大学 | 一种面向不平衡金融数据的分类方法 |
CN110070118A (zh) * | 2019-04-10 | 2019-07-30 | 广东电网有限责任公司 | 一种多时空数据融合方法 |
US11392846B2 (en) * | 2019-05-24 | 2022-07-19 | Canon U.S.A., Inc. | Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset |
CN110348486A (zh) * | 2019-06-13 | 2019-10-18 | 中国科学院计算机网络信息中心 | 基于采样与特征简约的非平衡数据集转换方法及系统 |
CN111314353B (zh) * | 2020-02-19 | 2022-09-02 | 重庆邮电大学 | 一种基于混合采样的网络入侵检测方法及系统 |
CN111381990B (zh) * | 2020-03-16 | 2023-10-20 | 上海威固信息技术股份有限公司 | 一种基于流特征的磁盘故障预测方法及装置 |
CN111695626B (zh) * | 2020-06-10 | 2023-10-31 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111782512B (zh) * | 2020-06-23 | 2021-07-09 | 北京高质系统科技有限公司 | 基于不平衡噪声集的多特征软件缺陷综合预测方法 |
-
2020
- 2020-11-27 CN CN202011360948.XA patent/CN112395558B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020188425A1 (en) * | 2019-03-15 | 2020-09-24 | Wrnch Inc. | Method for balancing datasets of multi-class instance data |
Also Published As
Publication number | Publication date |
---|---|
CN112395558A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220732B (zh) | 一种基于梯度提升树的停电投诉风险预测方法 | |
CN110634080B (zh) | 异常用电检测方法、装置、设备及计算机可读存储介质 | |
CN112395558B (zh) | 一种适用于智能电表历史故障数据的改进型不平衡数据混合采样方法 | |
CN109389145B (zh) | 基于计量大数据聚类模型的电能表生产厂商评价方法 | |
CN113011530B (zh) | 一种基于多分类器融合的智能电表故障预测方法 | |
CN110752410A (zh) | 一种快速分选和重组退役锂电池的方法 | |
CN110991786A (zh) | 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法 | |
CN108520357A (zh) | 一种线损异常原因的判别方法、装置及服务器 | |
CN102819772B (zh) | 电力配网建设物资需求预测方法及装置 | |
CN110610121B (zh) | 基于曲线聚类的小时级源荷功率异常数据辨识与修复方法 | |
CN111160401A (zh) | 一种基于均值漂移和XGBoost的异常用电判别方法 | |
CN109409425B (zh) | 一种基于近邻成分分析的故障类型识别方法 | |
CN109670676A (zh) | 基于支持向量数据描述的配网台区风险预警方法及系统 | |
CN111191726B (zh) | 一种基于弱监督学习多层感知器的故障分类方法 | |
CN114114039A (zh) | 一种电池系统的单体电芯一致性的评估方法和装置 | |
CN109240276B (zh) | 基于故障敏感主元选择的多块pca故障监测方法 | |
CN109787821B (zh) | 一种大规模移动客户流量消费智能预测方法 | |
CN114266289A (zh) | 一种复杂装备健康状态评估方法 | |
CN112001409A (zh) | 一种基于K-means聚类算法的配电网线损异常诊断方法和系统 | |
CN112070121A (zh) | 一种基于变分自编码器的智能电表数据填补方法 | |
CN107274025B (zh) | 一种实现用电模式智能识别与管理的系统和方法 | |
CN113887623A (zh) | 基于ifcm-bb的变压器故障诊断方法 | |
CN109951327A (zh) | 一种基于贝叶斯混合模型的网络故障数据合成方法 | |
CN109858667A (zh) | 一种基于雷电气候对负荷影响的短期负荷聚类方法 | |
CN117592656A (zh) | 基于碳数据核算的碳足迹监控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |