CN109726821B - 数据均衡方法、装置、计算机可读存储介质及电子设备 - Google Patents

数据均衡方法、装置、计算机可读存储介质及电子设备 Download PDF

Info

Publication number
CN109726821B
CN109726821B CN201811427339.4A CN201811427339A CN109726821B CN 109726821 B CN109726821 B CN 109726821B CN 201811427339 A CN201811427339 A CN 201811427339A CN 109726821 B CN109726821 B CN 109726821B
Authority
CN
China
Prior art keywords
value
samples
feature
new
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811427339.4A
Other languages
English (en)
Other versions
CN109726821A (zh
Inventor
刘志鹏
高睿
邹存璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811427339.4A priority Critical patent/CN109726821B/zh
Publication of CN109726821A publication Critical patent/CN109726821A/zh
Application granted granted Critical
Publication of CN109726821B publication Critical patent/CN109726821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种数据均衡方法、装置、计算机可读存储介质及电子设备。方法包括:从多个数据样本中确定出少数类样本;根据所述少数类样本的概率分布,对所述少数类样本进行过采样,以使所述少数类样本的数量达第一阈值。这样,根据少数类样本概率分布进行样本增添,以使增添后的样本不破坏少数类样本的分布,不影响该少数类样本的真实性,进而保证后续训练所得的模型精度。

Description

数据均衡方法、装置、计算机可读存储介质及电子设备
技术领域
本公开涉及数据处理技术领域,具体地,涉及一种数据均衡方法、装置、计算机可读存储介质及电子设备。
背景技术
近年来随着人工智能技术以及机器学习的快速发展,出现了多种机器学习模型,这些模型在经过大量数据样本的训练学习之后可应用于多种场景,如预测、分类等,从而实现智能化处理,满足用户的使用需求。在这些机器学习模型中有一类是分类模型。用户可以向该模型输入大量的数据样本,这些数据样本分为正样本和负样本,利用这些数据样本训练该模型,从而获得具有一定分类精度的分类模型。
在实际应用中,在对分类模型进行训练学习时,存在着大量不平衡的样本集,即,某一类样本数量远大少于另一类样本数量,导致模型针对数量较少的类型的样本无法深度学习,因此,通常需要对数量较少的类型的样本进行过采样,以增加该类样本的数量。然而,现有技术中,多是以随机生成样本的方式进行过采样,这样会破坏样本的分布,影响样本的真实性。
发明内容
为了解决相关技术中存在的问题,本公开提供一种数据均衡方法、装置、计算机可读存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种数据均衡方法,包括:
从多个数据样本中确定出少数类样本;
根据所述少数类样本的概率分布,对所述少数类样本进行过采样,以使所述少数类样本的数量达第一阈值。
可选地,每个样本包括一个或多个特征;
所述根据所述少数类样本的概率分布,对所述少数类样本进行过采样,包括:
根据所述少数类样本中的每个特征的初始均值和初始方差,生成每个特征的高斯分布;
针对所述少数类样本中的每个特征,执行以下过采样处理过程:
根据该特征的高斯分布,生成该特征的一新特征值,该新特征值作
为第一新特征值;
验证该第一新特征值的有效性;
若验证该第一新特征值无效,则删除该第一新特征值,否则,保留
该第一新特征值;
若该特征的特征值总数尚未达到所述第一阈值,则重新执行所述过采样处理过程,直到该特征的特征值总数达到所述第一阈值为止。
可选地,所述验证该第一新特征值的有效性,包括:
计算该特征的当前均值和当前方差;
对所述当前均值进行T校验以及对所述当前方差进行F校验;
当该特征的特征值总数尚未达到所述第一阈值时,若所述当前均值未通过T校验且所述当前方差未通过F校验,则验证该第一新特征值无效;
当该特征的特征值总数达到所述第一阈值时,若所述当前均值未通过T校验或所述当前方差未通过F校验,则验证该第一新特征值无效。
可选地,在所述若验证该第一新特征值无效,则删除该第一新特征值,否则,保留该第一新特征值的步骤之后,所述过采样处理过程还包括:
若所述当前均值未通过T校验但所述当前方差通过F校验,则根据以下公式,生成该特征的又一新特征值,该又一新特征值作为第二新特征值:
X=2(E0+C)-E1
其中,X为所述第二新特征值;E1表示在生成所述第二新特征值前该特征的均值;E0表示所述初始均值,C为常数;
若所述当前均值通过T校验但所述当前方差未通过F校验,在所述当前方差小于所述初始方差时,从已生成的特征值中删除除所述第一新特征值之外最接近所述初始均值的特征值,并生成一距离所述初始均值最远的第三新特征值;在所述当前方差大于所述初始方差时,从已生成的特征值中删除除所述第一新特征值之外距离所述初始均值最远的特征值,并生成一距离所述初始均值最近的第三新特征值。
可选地,所述验证该第一新特征值的有效性,包括:
若该第一新特征值超出所属特征的高斯分布的预设范围,则验证该第一新特征值无效,其中,所述预设范围为[所述初始均值-n*初始标准差,所述初始均值+n*初始标准差],n为大于零的数值。
可选地,所述方法还包括:
从所述多个数据样本中确定出多数类样本;
对所述多数类样本进行欠采样,以使所述多数类样本的数量达第二阈值。
可选地,所述对所述多数类样本进行欠采样,包括:
确定所述多数类样本中每个样本的概率密度;
执行以下欠采样处理过程:
确定第一样本,所述第一样本为所述多数类样本中的任一样本;
在除所述第一样本之外的其他多数类样本中,确定概率密度与所述第一样本的概率密度最接近的样本为第二样本;
删除所述第二样本;
若所述多数类样本的总数尚未达到所述第二阈值,则重新执行所述欠采样处理过程,直到所述多数类样本的总数达到所述第二阈值为止。
本公开第二方面提供一种数据均衡装置,包括:
第一确定模块,用于从多个数据样本中确定出少数类样本;
过采样模块,用于根据所述少数类样本的概率分布,对所述少数类样本进行过采样,以使所述少数类样本的数量达第一阈值。
可选地,每个样本包括一个或多个特征;所述过采样模块包括:
生成子模块,用于根据所述少数类样本中的每个特征的初始均值和初始方差,生成每个特征的高斯分布;
过采样执行子模块,用于针对所述少数类样本中的每个特征,执行以下过采样处理过程:
根据该特征的高斯分布,生成该特征的一新特征值,该新特征值作为第一新特征值;
验证该第一新特征值的有效性;
若验证该第一新特征值无效,则删除该第一新特征值,否则,保留该第一新特征值;
若该特征的特征值总数尚未达到所述第一阈值,则重新执行所述过采样处理过程,直到该特征的特征值总数达到所述第一阈值为止。
可选地,所述装置还包括:
第二确定模块,用于从所述多个数据样本中确定出多数类样本;
欠采样模块,用于对所述多数类样本进行欠采样,以使所述多数类样本的数量达第二阈值。
可选地,所述欠采样模块包括:
确定子模块,用于确定所述多数类样本中每个样本的概率密度;
欠采样执行子模块,用于执行以下欠采样处理过程:
确定第一样本,所述第一样本为所述多数类样本中的任一样本;
在除所述第一样本之外的其他多数类样本中,确定概率密度与所述第一样本的概率密度最接近的样本为第二样本;
删除所述第二样本;
若所述多数类样本的总数尚未达到所述第二阈值,则重新执行所述欠采样处理过程,直到所述多数类样本的总数达到所述第二阈值为止。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序该程序被处理器执行时实现本公开第一方面所提供的所述方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所提供的所述方法的步骤。
通过上述技术方案,从多个数据样本中确定出少数类样本;根据所述少数类样本的概率分布,对所述少数类样本进行过采样,以使所述少数类样本的数量达第一阈值。这样,根据少数类样本概率分布进行样本增添,以使增添后的样本不破坏少数类样本的分布,不影响该少数类样本的真实性,进而保证后续训练所得的模型精度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种数据均衡方法的流程图。
图2是根据另一示例性实施例示出的一种数据均衡方法的流程图。
图3是根据一示例性实施例示出的一种CPU使用率特征的高斯分布的示意图。
图4是根据一示例性实施例示出的一种过采样处理过程的流程图。
图5是根据一示例性实施例示出的一种对多数类样本进行欠采样的方法的流程图。
图6是根据一示例性实施例示出的一种数据均衡装置的框图。
图7是根据一示例性实施例示出的一种电子设备的框图
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在对分类模型进行训练时,由于存在正负样本不平衡的情况,因此需要对该正负样本的数量进行均衡。实际中,数据样本均衡方法主要包括过采样方法和欠采样两种方法。其中,过采样方法实质上是通过生成新样本的方式来提升少数类样本的数量,欠采样方法实质上是通过删除样本的方式来减少多数类样本的数量。因此,在实际应用中,可以通过对少数类样本进行过采样,或对多数类样本进行欠采样,可以实现数据样本均衡。现有技术中,只是采用过采样和欠采样中的一者对数据样本进行均衡。这样,在模型训练初期,用户难以判断是选择过采样还是欠采样对数据样本进行均衡,且如果只采用过采样和欠采样中的一者进行数据均衡,导致数据均衡时间较长。因此,为了解决上述技术问题,本公开提供一种数据均衡方法、装置、计算机可读存储介质及电子设备,以实现数据样本的自动、快速均衡。
请参考图1,图1是根据一示例性实施例示出的一种数据均衡方法的流程图。如图1所示,该方法可以包括以下步骤。
在步骤11中,从多个数据样本中分别确定出少数类样本和多数类样本。
本公开中,该多个数据样本中包括两类样本,分别统计该两类样本的数量,将数量少的一类样本确定为少数类样本,将数量多的一类样本确定为多数类样本。
示例地,该多个数据样本中可以包括正样本和负样本,对属于正样本的每个数据样本预先标定标签0,对属于负样本的每个数据样本预先标定标签1。这样,通过统计标签0和标签1的数量,即可确定出少数类样本和多数类样本。示例地,假设标签0的数量为n,标签1的数量为m,且n小于m,则上述正样本即为少数类样本,负样本即为多数类样本。
在步骤12中,对少数类样本进行过采样,以使少数类样本的数量达到第一阈值。
如上文所述,过采样是用于生成数据的,因此,在本公开中为了增加少数类样本的数量,缩小其与多数类样本的数量之间的差距,可对该少数类样本进行过采样,以使少数类样本的数量达到第一阈值。其中,该第一阈值可以为用户自行设置的数值,该数值为正整数,且该数值应大于进行过采样之前的少数类样本的数量。
在步骤13中,对多数类样本进行欠采样,以使多数类样本的数量达第二阈值。
相应地,为了减少多数类样本的数量,缩小其与少数类样本的数量之间的差距,对该多数类样本进行欠采样,以使该多数量样本的数量达到第二阈值。同样地,该第二阈值可以为用户自行设置的数值,该数值为正整数,且该数值应小于进行欠采样之前的多数类样本的数量。其中,根据用户实际需求,上述第一阈值和第二阈值可以为相同数值也可以为不同数值。在本公开中对此不作具体限定。
采用上述技术方案,用户无需在数据均衡过程中决策到底是选择过采样还是欠采样的处理方式,该方案可以综合过采样和欠采样,实现对多数类样本和少数类样本的自动均衡,并提高训练所得模型的精度。此外,由于可同时对少数类样本进行过采样和对多数类样本进行欠采样,可快速实现少数类样本的数量和多数类样本的数量之间的均衡,减少了数据均衡的时间。
在步骤12的一种实施方式中,对少数类样本进行过采样可以为:在少数类样本中随机生成样本。示例地,可以随机复制少数类样本中已有的样本作为新生成的样本。然而,利用上述方式生成样本时,可能会存在一些问题。比如,所复制的样本为在该少数类样本中出现概率较低的样本时,这样将会破坏少数类样本的分布,影响少数类样本的真实性,进而影响后续训练所得的模型精度。
为了避免出现上述问题,本公开还提供一种数据均衡方法。请参考图2,图2是根据另一示例性实施例示出的一种数据均衡方法的流程图。如图2所示,该方法可以包括以下步骤。
在步骤21中,从多个数据样本中确定出少数类样本。
其中,步骤21的具体实施方式可参照上文结合图1所描述的从多个数据样本中分别确定出少数类样本和多数类样本的方法。
在步骤22中,根据少数类样本的概率分布,对少数类样本进行过采样,以使少数类样本的数量达到第一阈值。
这样,根据少数类样本概率分布进行样本增添,以使增添后的样本不破坏少数类样本的分布,不影响该少数类样本的真实性,进而保证后续训练所得的模型精度。
具体地,在本公开中,每个样本包括一个或多个特征,根据所述少数类样本的概率分布,对少数类样本进行过采样的方法可以包括:
首先,根据少数类样本中的每个特征的初始均值和初始方差,生成每个特征的高斯分布。
在本公开中,该多个数据样本中的每个样本均包括一个或多个特征,其中,不同的特征用来表征数据样本中不同类别的信息。例如,在数据样本为检测电脑是否发生故障的样本时,该样本中每个样本至少包括:CPU(Central Processing Unit,中央处理器)使用率和内存使用率,该CPU使用率表征该样本中CPU的使用信息,内存使用率表征该样本中内存的使用信息。
针对少数类样本中的每个特征,分别计算每个特征的均值和方差,该少数类样本为进行过采样之前的样本,故,上述均值、方差可分别称为初始均值、初始方差,以区别后续添加样本之后的少数类样本中的每个特征的均值、方差。根据该初始均值和初始方差生成每个特征的高斯分布。每个特征的高斯分布可以反映在该少数类样本中该特征的每个特征值出现的概率。其中,计算每个特征的均值、方差以及根据均值和方差生成高斯分布属于公知常识,此处不再赘述。
假设该少数类样本为电脑发生故障的样本,相应地,该少数类样本中包括CPU使用率特征和内存使用率特征。这样,可根据少数类样本中的CPU使用率特征的初始均值和初始方差生成该CPU使用率特征的高斯分布,以及根据内存使用率特征的初始均值和初始方差生成该内存使用率特征的高斯分布。以生成CPU使用率特征的高斯分布为例,对CPU使用率特征分别计算初始均值μ0和初始方差σ0 2,并根据该初始均值μ0和初始方差σ0 2生成该CPU使用率特征的高斯分布,其中,该CPU使用率特征的高斯分布可以例如为图3所示,在图3中所示的高斯分布图形中,横坐标表示CPU使用率,纵坐标表示概率。
接着,在生成每个特征的高斯分布之后,针对少数类样本中的每个特征,均执行以下过采样处理过程,其中,如图4所示,该过采样处理过程可以包括以下步骤。
在步骤41中,根据该特征的高斯分布,生成一新特征值,该新特征值作为第一新特征值。
对少数类样本进行样本增添时,所增添的样本中包含的特征需与少数类样本中每个样本包含的特征一致。例如,在每个样本包括CPU使用率特征和内存使用率特征时,所增添的样本也需包含CPU使用率特征和内存使用率特征。因此,在本公开中,可通过在每个特征中分别增添特征值,实现增添样本的目的。
具体地,针对少数类样本中的每个特征,根据该特征的高斯分布,随机生成一新特征值,所生成的新特征值作为第一新特征值。例如,在图3所示的CPU使用率特征的高斯分布的横坐标中随机生成一个CPU使用率的数值,所生成的CPU使用率的数值即为第一新特征值。
在步骤42中,验证该第一新特征值的有效性。
上述第一新特征值虽然是根据高斯分布生成的,但生成的第一新特征值可能与初始均值相差较大,也可能影响该特征的真实性。因此,在生成第一新特征值之后,还要验证该第一新特征值的有效性,即,验证将该第一新特征值增添到该特征内时,是否会破坏该特征的真实性。在第一新特征值增添到该特征内,不会破坏该特征的真实性时,则验证该第一新特征值有效,否则验证该第一新特征值无效。示例地,可通过判断增添第一新特征值之后的特征的当前均值与初始均值的差值是否在预设范围内的方式,来验证该第一新特征值是否会破坏该特征的真实性。当差值在预设范围内时,则验证该第一新特征值不会破坏该特征的真实性,否则验证该第一新特征值破坏该特征的真实性。
在步骤43中,若验证该第一新特征值无效,则删除该第一新特征值.
在步骤44中,若验证该第一新特征值有效,保留该第一新特征值。
在将该第一新特征值增添到少数类样本的特征内,破坏该特征的真实性时,验证第一特征值无效,此时,将该第一新特征值删除。在将该第一新特征值增添到少数类样本的特征内,不会破坏该特征的真实性时,验证第一特征值有效,此时,保留该第一新特征值。
最后,判断该特征的特征值总数是否达到该第一阈值。
在对少数类样本进行过采样,以使该少数类样本的数量达到第一阈值时,少数类样本中的每个特征的特征值总数也需达到该第一阈值。因此,每保留或删除所生成的一新特征值之后,均需判断该特征的特征值总数是否达到该第一阈值,在达到该第一阈值时,停止生成该特征的新特征值。否则重新执行上述过采样处理过程中所包括的步骤41-44,直到该特征的特征值总数达到该第一阈值为止。
此外,在一种实施例中,在保留该第一新特征值之后,该特征的特征值总数未达到该第一阈值的情况下,根据高斯分布的图形为轴对称图形,且对称轴L=初始均值的特点,生成与该第一新特征值对称的另一新特征值,且该另一新特征值也是有效的。
需要说明的是,在样本包括多个特征时,在上述过采样处理过程中,可以按照依次在每个特征的高斯分布中生成一新特征值,直到每个特征的特征值总数达到第一阈值为止的顺序进行过采样,也可以按照先在某一特征的高斯分布中生成新特征值,在该特征的特征值总数达到第一阈值时,再在其他特征的高斯分布中生成新特征值,直到所有特征的特征值总数达到第一阈值为止的顺序进行过采样。还可以按照其他顺序进行过采样,在本公开实施例中对此不作具体限定。
通过上述方法,可确保增添在每个特征中的特征值均不会影响该特征的分布,且不影响该特征的真实性,进而保证增添后的样本不影响该少数类样本的真实性。
在本公开的一种可能实施例中,上述步骤42可以包括:
首先,计算该特征的当前均值和当前方差。其中,该当前均值、当前方差是指生成该第一新特值之后的该特征的均值、方差。
接着,对当前均值进行T校验以及对当前方差进行F校验。具体地,对当前均值进行T校验主要是检验当前均值和初始均值的差异是否显著。在当前均值和初始均值的差异较为显著时,T校验未通过,否则T校验通过。对当前方差进行F校验主要是检验当前方差和初始方差是否有显著性差异。在当前方差和初始方差存在显著性差异时,F校验未通过,否则F校验通过。
然后,当该特征的特征值总数尚未达到第一阈值时,若当前均值未通过T校验且当前方差未通过F校验,则验证该第一新特征值无效。当该特征的特征值总数达到第一阈值时,若当前均值未通过T校验或当前方差未通过F校验,则验证该第一新特征值无效。
具体地,在生成第一新特征值后,当该特征的特征值总数尚未达到第一阈值时,在当前均值未通过T校验且当前方差未通过F校验时,验证该第一新特征值无效。在生成第一新特征值后,当该特征的特征值总数达到第一阈值时,上述T校验和F校验中至少一者未通过时,均验证该第一新特征值无效。
在一种实施方式中,当该特征的特征值总数尚未达到第一阈值时,将该第一新特征值保留在该特征中之后,可按照上文结合如图2所描述的过采样处理过程生成又一新特征值,直到该特征的特征值总数达到第一阈值为止。
在另一种实施方式中,考虑到当该特征的特征值总数尚未达到第一阈值,只有在当前均值未通过T校验且当前方差未通过F校验时,才验证该第一新特征值无效,并删除该第一新特征值。在T校验和F校验中有一者未通过时,仍保留该第一新特征值,此时很可能会导致该特征的当前均值、当前方差与初始均值、初始方差不一致,但差异不显著。
在本公开中,为了进一步缩小当前均值、当前方差与初始均值、初始方差之间的差异,在该特征的当前均值、当前方差与初始均值、初始方差不一致时,通过分布补足的方法使生成第二新特征值后的该特征的当前均值、当前方差与初始均值、初始方差尽可能一致,消除上述差异。
具体地,在步骤44之后,上述过采样处理过程还可以包括:
若当前均值未通过T校验但当前方差通过F校验,则根据以下公式,生成该特征的又一新特征值,该又一新特征值作为第二新特征值:
X=2(E0+C)-E1 (1)
其中,X为第二新特征值;E1表示在生成该第二新特征值前该特征的均值;E0表示初始均值,C为常数。
在T校验未通过,且F校验通过时,表明该当前均值与初始均值的差异较为显著,当前方差与初始方差一致。此时,为了缩小当前均值与初始均值之间的差异,可通过生成一第二新特征值,以消除该第一新特征值对该特征造成的影响。示例地,可通过上述公式(1),生成第二新特征值。其中,公式(1)中的C表征用户可接受的当前均值与初始均值的差异,该C的数值越小,表征生成该第二新特征值之后的该特征的当前均值与初始均值之间的差异越小。
这样,采用公式(1)生成该第二新特征值,可保证生成第二新特征值之后的该特征的当前均值与初始均值之间的差异符合用户需求。
若当前均值通过T校验但当前方差未通过F校验,在当前方差小于初始方差时,从已生成的特征值中删除除第一新特征值之外最接近初始均值的特征值,并生成一距离初始均值最远的第三新特征值;在当前方差大于初始方差时,从已生成的特征值中删除除第一新特征值之外距离初始均值最远的特征值,并生成一距离初始均值最近的第三新特征值。
若当前均值通过T校验但当前方差未通过F校验,表明该当前均值与初始均值几乎一致,当前方差与初始方差的差异较为显著。此时为了减少当前方差与初始方差的差异,需从已生成的特征值中删除除该第一新特征值之外的其他特征值,并再生成一第三新特征值。
根据高斯分布中,方差越大高斯分布曲线越平缓,概率分布越分散,以及,方差越小高斯分布曲线越陡峭,概率分布越集中的特点。在当前方差大于初始方差时,表明生成第一新特征值之后的该特征的概率分布与生成第一新特征值之前的该特征的概率分布相比较为分散,因此,可从已生成的特征值中删除除该第一新特征值之外距离该初始均值最远的特征值,并生成一距离该初始均值最近的第三特征值,以使生成第三新特征值之后的该特征的概率分布与生成第一新特征值之前的该特征的概率分布较为一致。
在当前方差小于初始方差时,表明生成第一新特征值之后的该特征的概率分布与生成第一新特征值之前的该特征的概率分布相比较为集中,因此,可从已生成的特征值中删除除该第一新特征值之外最接近该初始均值的特征值,并生成一距离该初始均值最远的第三特征值,以使生成第三新特征值之后的该特征的概率分布与生成第一新特征值之前的该特征的概率分布较为一致。
采用上述方案,能够提高所生成的第一新特征值被保留在该特征内的概率,减少过采样处理过程的时间,还可以通过分布补足的方法消除该第一新特征值对该特征的当前均值、当前方差的影响,进一步确保过采样后少数类样本的真实性。
除了上文描述的利用对当前均值进行T校验和对当前方差进行F校验方法验证第一新特征值的有效性之外,在另一种替换的实施例中,也可以通过判断所生成的第一新特征值与其所属特征的高斯分布的预设范围的关系,验证该第一新特征值的有效性。
具体地,上述步骤42可以包括:若该第一新特征值超出所属特征的高斯分布的预设范围,则验证该第一新特征值无效,其中,预设范围为[所述初始均值-n*初始标准差,所述初始均值+n*初始标准差],n为大于零的数值。
根据高斯分布的特点,其横坐标上一定区间的面积反映该区间的特征值数量占特征值总数的百分比,即,特征值落在该区间内的概率。例如,在横坐标区间[均值-标准差,均值+标准差]内的面积约为68.3%,在横坐标区间[均值-2.58*标准差,均值+2.58*标准差]内的面积约为99.7%,等等。因此,为了保证所生成的特征值均位于高斯分布的大概率区间,避免生成的特征值属于“小概率事件”,在本公开中,可将超出[所述初始均值-n*初始标准差,所述初始均值+n*初始标准差]区间的特征值,验证为无效。其中,n可以例如为3。
通过上述方法,可确保增添在每个特征中的特征值均不会影响该特征的真实性,进而保证增添后的样本不影响该少数类样本的真实性。
以上是针对过采样的处理过程进行详细描述。下面将参考图5对欠采样进行详细说明。如图5所示,图1中步骤13可以包括以下步骤。
在步骤131中,确定多数类样本中每个样本的概率密度。
具体地,可分别计算出多数类样本中每个特征的初始均值和初始方差,根据该初始均值、初始方差以及概率密度公式
Figure BDA0001881946940000151
计算每个样本中每个特征值的概率密度,并将该样本中每个特征值的概率密度之和确定为该样本的概率密度。其中,上述公式中x表征特征值,f(x)表征该特征值的概率密度,μ0表征初始均值,σ0 2表征初始方差。
在确定出每个样本的概率密度之后,针对该多数类样本可以执行以下欠采样处理过程:
在步骤132中,确定第一样本。
其中,该第一样本为该多数类样本中的任一样本。因此,可在该多数类样本中随机选取一样本,作为该第一样本。
在步骤133中,在除该第一样本之外的其他多数类样本中,确定概率密度与该第一样本的概率密度最接近的样本为第二样本。
在步骤134中,删除该第二样本。
对多数类样本进行欠采样时,从重复出现的样本中或者较为接近的样本中删除部分样本,以使删除样本之后的多数类样本与未删除样本之前的多数类样本的分布一致。因此,在本公开中,在确定出第一样本之后,根据该第一样本的概率密度以及该多数类样本中每个样本的概率密度,在除该第一样本之外的其他多数类样本中,确定出概率密度与该第一样本的概率密度最接近的样本,将该样本确定为第二样本,并删除该第二样本。
在步骤135中,判断该多数类样本的总数是否达到该第二阈值。
在删除第二样本之后,判断该多数类样本的总数是否达到该第二阈值。若该多数类样本的总数达到第二阈值时,可停止删除样本。否则重新执行上述步骤132-135,直到该多数类样本的总数达到第二阈值为止。
采样上述方式,可避免在删除样本之后,导致该多数类样本的分布发生变化,进而确保该多数类样本的真实性。
基于同一发明构思,本公开还提供一种数据均衡装置。请参考图6,图6是根据一示例性实施例示出的一种数据均衡装置的框图。如图6所示,该装置可以包括:
第一确定模块61,用于从多个数据样本中确定出少数类样本;
过采样模块62,用于根据所述少数类样本的概率分布,对所述少数类样本进行过采样,以使所述少数类样本的数量达第一阈值。
可选地,每个样本包括一个或多个特征;所述过采样模块可以包括:
生成子模块,用于根据所述少数类样本中的每个特征的初始均值和初始方差,生成每个特征的高斯分布;
过采样执行子模块,用于针对所述少数类样本中的每个特征,执行上述过采样处理过程;若该特征的特征值总数尚未达到所述第一阈值,则重新执行上述过采样处理过程,直到该特征的特征值总数达到所述第一阈值为止。
可选地,所述装置还包括:
第二确定模块,用于从所述多个数据样本中确定出多数类样本;
欠采样模块,用于对所述多数类样本进行欠采样,以使所述多数类样本的数量达第二阈值。
可选地,所述欠采样模块可以包括:
确定子模块,用于确定所述多数类样本中每个样本的概率密度;
欠采样执行子模块,用于执行上述欠采样处理过程;若所述多数类样本的总数尚未达到所述第二阈值,则重新执行所述欠采样处理过程,直到所述多数类样本的总数达到所述第二阈值为止。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的数据均衡方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据均衡方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据均衡方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的数据均衡方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (9)

1.一种数据均衡方法,其特征在于,应用于训练分类模型领域,包括:
从多个数据样本中确定出少数类样本;
根据所述少数类样本的概率分布,对所述少数类样本进行过采样,以使所述少数类样本的数量达第一阈值;
利用数量达到所述第一阈值后的所述少数类样本以及所述多个数据样本中的多数类样本,对所述分类模型进行训练;
其中,每个样本包括一个或多个特征;
所述根据所述少数类样本的概率分布,对所述少数类样本进行过采样,包括:
根据所述少数类样本中的每个特征的初始均值和初始方差,生成每个特征的高斯分布;
针对所述少数类样本中的每个特征,执行以下过采样处理过程:
根据该特征的高斯分布,生成该特征的一新特征值,该新特征值作为第一新特征值;
验证该第一新特征值的有效性;
若验证该第一新特征值无效,则删除该第一新特征值,否则,保留该第一新特征值;
若该特征的特征值总数尚未达到所述第一阈值,则重新执行所述过采样处理过程,直到该特征的特征值总数达到所述第一阈值为止。
2.根据权利要求1所述的方法,其特征在于,所述验证该第一新特征值的有效性,包括:
计算该特征的当前均值和当前方差;
对所述当前均值进行T校验以及对所述当前方差进行F校验;
当该特征的特征值总数尚未达到所述第一阈值时,若所述当前均值未通过T校验且所述当前方差未通过F校验,则验证该第一新特征值无效;
当该特征的特征值总数达到所述第一阈值时,若所述当前均值未通过T校验或所述当前方差未通过F校验,则验证该第一新特征值无效。
3.根据权利要求2所述的方法,其特征在于,在所述若验证该第一新特征值无效,则删除该第一新特征值,否则,保留该第一新特征值的步骤之后,所述过采样处理过程还包括:
若所述当前均值未通过T校验但所述当前方差通过F校验,则根据以下公式,生成该特征的又一新特征值,该又一新特征值作为第二新特征值:
X=2(E0+C)-E1
其中,X为所述第二新特征值;E1表示在生成所述第二新特征值前该特征的均值;E0表示所述初始均值,C为常数;
若所述当前均值通过T校验但所述当前方差未通过F校验,在所述当前方差小于所述初始方差时,从已生成的特征值中删除除所述第一新特征值之外最接近所述初始均值的特征值,并生成一距离所述初始均值最远的第三新特征值;在所述当前方差大于所述初始方差时,从已生成的特征值中删除除所述第一新特征值之外距离所述初始均值最远的特征值,并生成一距离所述初始均值最近的第三新特征值。
4.根据权利要求1所述的方法,其特征在于,所述验证该第一新特征值的有效性,包括:
若该第一新特征值超出所属特征的高斯分布的预设范围,则验证该第一新特征值无效,其中,所述预设范围为[所述初始均值-n*初始标准差,所述初始均值+n*初始标准差],n为大于零的数值。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述方法还包括:
从所述多个数据样本中确定出多数类样本;
对所述多数类样本进行欠采样,以使所述多数类样本的数量达第二阈值。
6.根据权利要求5所述的方法,其特征在于,所述对所述多数类样本进行欠采样,包括:
确定所述多数类样本中每个样本的概率密度;
执行以下欠采样处理过程:
确定第一样本,所述第一样本为所述多数类样本中的任一样本;
在除所述第一样本之外的其他多数类样本中,确定概率密度与所述第一样本的概率密度最接近的样本为第二样本;
删除所述第二样本;
若所述多数类样本的总数尚未达到所述第二阈值,则重新执行所述欠采样处理过程,直到所述多数类样本的总数达到所述第二阈值为止。
7.一种数据均衡装置,其特征在于,应用于训练分类模型领域,包括:
第一确定模块,用于从多个数据样本中确定出少数类样本;
过采样模块,用于根据所述少数类样本的概率分布,对所述少数类样本进行过采样,以使所述少数类样本的数量达第一阈值;
利用数量达到所述第一阈值后的所述少数类样本以及所述多个数据样本中的多数类样本,对所述分类模型进行训练的模块;
其中,每个样本包括一个或多个特征;所述过采样模块包括:
生成子模块,用于根据所述少数类样本中的每个特征的初始均值和初始方差,生成每个特征的高斯分布;
过采样执行子模块,用于针对所述少数类样本中的每个特征,执行以下过采样处理过程:
根据该特征的高斯分布,生成该特征的一新特征值,该新特征值作为第一新特征值;
验证该第一新特征值的有效性;
若验证该第一新特征值无效,则删除该第一新特征值,否则,保留该第一新特征值;
若该特征的特征值总数尚未达到所述第一阈值,则重新执行所述过采样处理过程,直到该特征的特征值总数达到所述第一阈值为止。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
9.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
CN201811427339.4A 2018-11-27 2018-11-27 数据均衡方法、装置、计算机可读存储介质及电子设备 Active CN109726821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811427339.4A CN109726821B (zh) 2018-11-27 2018-11-27 数据均衡方法、装置、计算机可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811427339.4A CN109726821B (zh) 2018-11-27 2018-11-27 数据均衡方法、装置、计算机可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109726821A CN109726821A (zh) 2019-05-07
CN109726821B true CN109726821B (zh) 2021-07-09

Family

ID=66294872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811427339.4A Active CN109726821B (zh) 2018-11-27 2018-11-27 数据均衡方法、装置、计算机可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109726821B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416911A (zh) * 2019-08-23 2021-02-26 广州虎牙科技有限公司 样本数据的获取方法、装置、设备及存储介质
CN111738197B (zh) * 2020-06-30 2023-09-05 中国联合网络通信集团有限公司 一种训练图像信息处理的方法和装置
CN115034317A (zh) * 2022-06-17 2022-09-09 中国平安人寿保险股份有限公司 保单识别模型的训练方法和装置、保单识别方法和装置
CN116451084B (zh) * 2023-06-13 2023-08-11 北京航空航天大学 一种用于驾驶风格识别模型的训练样本预处理方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1319994B1 (it) * 2000-03-22 2003-11-12 Elmer S P A Equalizzatore di tipo map per la ricezione di segnali numerici.
US7224724B2 (en) * 2001-07-09 2007-05-29 Intel Corporation Reduced alphabet equalizer using iterative equalization
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102495901B (zh) * 2011-12-16 2014-10-15 山东师范大学 通过局部均值保持实现类数据平衡的方法
CN105654513A (zh) * 2015-12-30 2016-06-08 电子科技大学 基于过采样策略的运动目标检测方法
CN106504111A (zh) * 2016-09-19 2017-03-15 清华大学 异常电力用户挖掘中类分布不平衡问题的解决方法
CN106548196A (zh) * 2016-10-20 2017-03-29 中国科学院深圳先进技术研究院 一种针对非平衡数据的随机森林抽样方法及装置
CN107341497A (zh) * 2016-11-11 2017-11-10 东北大学 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN107169518A (zh) * 2017-05-18 2017-09-15 北京京东金融科技控股有限公司 数据分类方法、装置、电子装置及计算机可读介质
CN108319967A (zh) * 2017-11-22 2018-07-24 中国电子科技集团公司电子科学研究院 一种对不均衡数据进行处理的方法及系统
CN108491474A (zh) * 2018-03-08 2018-09-04 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
CN108647727A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类欠采样方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109726821A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109726821B (zh) 数据均衡方法、装置、计算机可读存储介质及电子设备
US9836346B2 (en) Error troubleshooting using a correlated knowledge base
CN107423883B (zh) 待处理业务的风险识别方法及装置、电子设备
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN103927483A (zh) 用于检测恶意程序的判定模型及恶意程序的检测方法
CN111325444B (zh) 一种风险防控决策方法、装置、系统及设备
CN113328994B (zh) 一种恶意域名处理方法、装置、设备及机器可读存储介质
CN112631888A (zh) 分布式系统的故障预测方法、装置、存储介质及电子设备
US20190325134A1 (en) Neural network detection of malicious activity
CN105512562B (zh) 一种漏洞挖掘方法、装置及电子设备
CN113778864A (zh) 一种测试用例的生成方法和装置、电子设备和存储介质
CN103049374B (zh) 一种自动化测试的方法及装置
CN107678834A (zh) 一种基于硬件配置的安卓模拟器检测方法及装置
CN107679423A (zh) 分区完整性检查方法及装置
US11334908B2 (en) Advertisement detection method, advertisement detection apparatus, and storage medium
CN111159169B (zh) 数据治理方法及设备
CN113064816A (zh) 一种可编程逻辑器件软件的测试装置及测试方法
CN112307477A (zh) 代码检测方法、装置、存储介质以及终端
CN112735407A (zh) 一种对话处理方法及装置
CN109039695B (zh) 业务故障处理方法、装置及设备
CN113703996B (zh) 基于用户和yang模型分组的访问控制方法、设备及介质
US10885160B1 (en) User classification
CN111582456B (zh) 用于生成网络模型信息的方法、装置、设备和介质
CN107506124A (zh) 视频交友方法及系统
CN111385342B (zh) 一种物联网行业识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant