CN108491474A - 一种数据分类方法、装置、设备及计算机可读存储介质 - Google Patents
一种数据分类方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108491474A CN108491474A CN201810190818.2A CN201810190818A CN108491474A CN 108491474 A CN108491474 A CN 108491474A CN 201810190818 A CN201810190818 A CN 201810190818A CN 108491474 A CN108491474 A CN 108491474A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- neighbour
- class
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据分类方法、装置、设备及计算机可读存储介质,在两类样本不均衡的情况下,针对数量多的样本,通过下采样产生几份同类的样本集,针对少数类样本通过上采样产生新样本,利用新样本与少数样本混合形成数量较多的样本,使原本数量较少的样本集与原本数量较多的样本集的样本数量均衡,并且少数类样本与多数类样本通过多次建模来预测数据,最终取占数量优势的预测结果作为分类结果,通过上采样、下采样以及多次建模多次预测的手段来提高数据预测的准确性。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种数据分类方法、装置、设备及计算机可读存储介质。
背景技术
目前在数据建模将数据分类的过程中,特别是多分类的情况下,往往会存在各类样本呈现类不均衡问题,当各类的训练样本数量差异相当大时,直接利用不均衡的样本进行训练得到分类模型的话,由于各类样本数量的不均衡性,模型训练的结果可能很不理想,那么利用训练得到的模型进行预测而获得的预测结果也不理想,甚至预测结果是相反的。
目前比较普遍的做法是将数量较少的那些样本通过产生新样本的方法来使得样本数量增加,以达到与数量较多的样本数量均衡的水平,新样本往往需要尽可能地接近真实样本,但新样本毕竟不是真实的样本,其用作模型训练得到的模型对数据的预测结果有一定的不良影响,如果通过产生的新样本结合原来的样本进行单次建模预测得到的一次性预测结果一旦出现错误,结果将不可挽回果。
发明内容
本申请实施例提供了一种数据分类方法、装置、设备及计算机可读存储介质,通过使数量不均衡的两类样本达到数量均衡,结合多次建模多次预测来提高数据预测的准确性,从而提高模型的预测准确性。
第一方面,本申请实施例提供了一种数据分类方法,该方法包括:
获取样本集,所述样本集包括一多数类样本集和一少数类样本集;
根据所述多数类样本集的总样本数目与所述少数类样本集的总样本数目的比值确定第一类样本集的预设份数和预设样本个数;
从所述多数类样本集中随机抽取所述预设样本个数的样本形成一份所述第一类样本集,重复多次抽取以得到所述预设份数的第一类样本集;
根据所述少数类样本集的总样本数目和所述预设样本个数确定需要生成的新样本的预计总数目;
根据所述预计总数目利用所述少数类样本集生成新样本,并将所述新样本与所述少数类样本集混合形成第二类样本集;
分别将每份所述第一类样本集与所述第二类样本集进行机器学习得到对应的分类模型;
利用所述分类模型对待分类数据进行预测分类,得到对应的预测结果;
将数量较多的预测结果确定为分类结果,将数量较多的预测结果确定为分类结果。
第二方面,本申请实施例还提供了一种数据分类装置,该数据分类装置包括用于执行上述的数据分类方法的单元。
第三方面,本申请实施例还提供了一种数据分类设备,所述设备包括存储器,以及与所述存储器相连的处理器;
所述存储器,用于存储实现数据分类方法的计算机程序;
所述处理器,用于运行所述存储器中存储的计算机程序,以执行如上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现上述第一方面所述的方法。
本申请实施例提供了数据分类方法、装置、设备及计算机可读存储介质,在两类样本(少数类样本与多数类样本)数量不均衡的情况下,针对数量多的样本,通过下采样产生几份同类的样本集,针对数量少的样本通过上采样产生新样本,利用新样本与原少数类的样本混合形成数量较多的样本,使原本数量较少的样本与原本数量较多的样本数量均衡,并且少数类样本与多数类样本通过多次建模来预测数据,最终取占数量优势的预测结果作为分类结果,通过上采样、下采样以及多次建模多次预测的手段来提高数据预测的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据分类方法的流程示意图;
图2是本申请实施例提供的一种数据分类方法的子流程示意图;
图3是本申请实施例提供的一种数据分类方法的另一子流程示意图;
图4是本申请实施例提供的一种数据分类装置的示意性框图;
图5是本申请实施例提供的一种数据分类装置的子单元示意框图;
图6是本申请实施例提供的一种数据分类装置的子单元示意框图;
图7是本申请实施例提供的一种数据分类设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请实施例提供的一种数据分类方法的流程示意图。该方法可以运行在智能手机(如Android手机、IOS手机等)、平板电脑、笔记本电脑以及智能设备等终端中。如图1所示,该方法的步骤包括S101~S108。
S101,获取样本集,所述样本集包括一多数类样本集和一少数类样本集。
在进行大数据分析或学习的过程,会存在数据不均衡的情况,例如,广告的点击数据和不点击数据,点击数据是指点击了某类广告的用户的行为数据,不点击数据是指未点击该类广告的用户的行为数据,点击数据与不点击数据的比值可能会高达1:1000的比率,导致这两类数据非常不均衡。
多数类样本指的是可得到的数量较多的某一类型的数据,例如上述的不点击数据,多数类样本集指的是由这些多数类样本组成的集合,少数类样本指的是可得到的数量较少的某一类型的数据,例如上述的点击数据,少数类样本集指的是由这些少数类样本组成的集合。
S102,根据所述多数类样本集的总样本数目与所述少数类样本集的总样本数目的比值确定第一类样本集的预设份数和预设样本个数,所述预设份数为奇数。
多数类样本集的总样本数目与所述少数类样本集的总样本数目差异较大时,需要通过下采样抽取多数类样本集中的一部分样本形成第一类样本集,因为样本较多,因此需要形成多份该第一类样本集,以使该多数类样本集中的较多的样本被使用。
第一类样本集指的是由多数类样本形成的一类样本的集合。第一类样本集的预设份数和预设样本个数由该多数类样本集的总样本数目与该少数类样本集的总样本数目之间的差异决定,当多数类样本集的总样本数目与少数类样本集的总样本数目的比值小于阈值(例如阈值可选100-1000任意一个),则确定第一类样本集的预设样本个数为该多数类样本集的总样本数量1/2或1/3,预设份数为3,因为获取的第一类样本的数目,即预设样本个数必须为整数,所以当总样本数量1/2或1/3不为整数时,可以根据四舍五入法则取整;当多数类样本集的总样本数目与少数类样本集的总样本数目的比值大于或等于阈值,则确定第一类样本集的预设样本个数为该多数类样本集的总样本数量1/4,预设份数为5,同样地,当总样本数量1/4不为整数时,可以根据四舍五入法则取整。
S103,从所述多数类样本集中随机抽取所述预设样本个数的样本形成一份所述第一类样本集,重复多次抽取以得到所述预设份数的第一类样本集。
确定第一类样本集的预设份数和预设样本个数,则从该多数类样本集中随机抽取样本得到需要的第一类样本集。
在本发明实施例中,所述多数类样本集中随机抽取所述预设样本个数的样本形成一份所述第一类样本集之后,将抽取到样本重新放回到原多数类样本集中,在原来多数类样本集中重复随机抽取预设样本个数的样本再形成另一份第一类样本集,直至形成预设份数的第一类样本集。有放回地抽取样本是为了不改变原多数类样本集合的样本结构性,如此每次随机抽取的样本分布趋势的概率相同,每次模型训练的效果不会因样本差异带来不良影响。
S104,根据所述少数类样本集的总样本数目和所述预设样本个数确定需要生成的新样本的预计总数目。
少数类样本的数量较少,可以通过上采样的方法生成一些新的样本来使少数类样本与第一类样本达到均衡水平。预计需要生成的新样本的数量,即预计总数目,等于预设样本个数减去少数类样本集的总样本数目。
S105,根据所述预计总数目利用所述少数类样本集生成新样本,并将所述新样本与所述少数类样本集混合形成第二类样本集。
新样本依据真实的少数类样本产生,产生的新样本与少数类样本混合形成第二类样本,使第二类样本和第一类样本的数量均衡。
在本发明实施例中,采用smote思想生成新样本,具体地,如图2所示,S105中所述根据所述预计总数目利用所述少数类样本集生成新样本的步骤,包括以下子步骤S1051-S1058。
S1051,依次将所述少数类样本集中的一个样本确定为参考样本。
S1052,获取每个参考样本的近邻样本。
S1053,分别统计每个参考样本的近邻样本的第一数量。
S1054,根据所述第一数量与所述少数类样本集的总样本数目计算对应参考样本的非近邻样本的第二数量。
S1055,计算所述第二数量占所述少数类样本的总样本数目的比例。
S1056,将每个参考样本的所述比例进行归一化处理,得到对应的归一化比例。
S1057,根据每个所述归一化比例和所述预计总数目分别计算对应的第三数量。
第三数量即为对应的参考样本预计需要生成的新样本的数量,第三数量只是该参考样本生成的新样本的一个预算值,并不是确定值,生成的新样本的实际数量可能等于该第三数量,也可能略大于或略小于该第三数量。
一个样本的近邻样本指的是在特征空间上与该样本距离接近的样本,其中包括一个最近邻样本,即与该样本距离最近的样本。在本发明实施例中,当一个样本和该样本的距离与最近邻样本和该样本的距离之间的差距在一定的范围(例如0-50%)之内,则将这个样本称为近邻样本,否则称为非近邻样本。
S1058,根据所述第三数量和所述第一数量选择对应参考样本的近邻样本,根据所述参考样本和所述近邻样本生成新样本。
在本发明实施例中,针对所有的少数类样本均产生对应的新样本,即将每一个少数类样本作为参考样本,获取其近邻样本产生新样本,根据每一个参考样本生成的新样本的数量与少数类样本在该少数类样本集中的分布情况有关,少数类样本分布密集的地方,对应的参考样本生成的新样本的数量较少,少数类样本分布稀疏的地方,对应的参考样本生成的新样本的数量较多,以使最终第二类样本集中的样本分布较为均匀。样本分布是否均匀对模型训练具有一定的影响,样本分布越均匀,模型训练的效果越好。
具体地,如图3所示,S1058包括以下子步骤S1-S4:
S1,计算所述第三数量与所述第一数量的商值。
S2,判断所述商值是否小于1。
S3,若是,则从所述参考样本的近邻样本中选择所述第三数量的近邻样本,所述第三数量的近邻样本与所述参考样本的距离均比剩余的近邻样本与所述参考样本的距离远,分别将每个选择的近邻样本与所述参考样本组成样本对,分别利用一个样本对生成一个新样本。
第三数量与第一数量的商值小于1,说明该参考样本所需生成的新样本的实际数量小于其近邻样本的数量,因此可以选择第一数量的近邻样本与该参考样本来生成新样本,选择距离较远的近邻样本与参考样本醉成样本对生成新样本则可以将新样本插入原来样本分布比较稀疏的空间,达到使样本分布均匀的目的。
例如,少数类样本集中的第n个参考样本An具有Y个近邻样本,计算得到该参考样本An预计需要产生的新样本的总数(第三数量)为N,若N小于Y(例如N=3,Y=6),则不需要将所有近邻样本与参考样本An组成样本对来生成新样本,只需要从中选择N个(3个)近邻样本来与参考样本An产生新样本,选择的近邻样本尽量与参考样本An远,如此可以在样本分布比较稀疏的地方插入新样本,使得样本分布更加均匀。
S4,若否,则根据四舍五入法则取整数,将所述参考样本的每个近邻样本分别与所述参考样本组成样本对,分别利用一个样本对生成所述整数个新样本。
如果第三数量与第一数量的商值大于或等于1,说明该参考样本所需生成的新样本的实际数量大于或等于其近邻样本的数量,则根据四舍五入法则将该商值取整,分别根据该参考样本的每一个近邻样本与该参考样本组成样本对,每一个样本对生成该整数个新样本,最终所有参考样本生成的新样本与原少数类样本混合后的数量与第一类样本集的样本数量可达到均衡。
例如,若N大于Y(N=15,Y=6),则二者相除得到的商值大于1,且存在余数,则可以按每个近邻样本分别与参考样本组成样本对平均产生相同数量(商值四舍五入后的整数)的新样本,因此产生的新样本比较丰富,使得整个样本集合更加完整。
在模型训练的过程中,往往需要将每一个已知类型的样本转化为i维平面的特征向量An(a1,a2,……,ai),每个向量值ai代表该样本An的一种属性的信息,然后通过对所有样本的特征向量和对应的类型进行机器学习得到模型,最终利用该模型去预测某一待分类数据的属于哪种类型。
在本发明实施例中,以欧氏距离为基础获取一个参考样本的近邻样本。
利用一个样本对生成一个新样本的方法包括步骤(1)-(3):
(1)获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi)。
在实际情况中,i往往大于或等于2,样本具有几种属性信息,则i取几。
假设少数类样本集中具有m个样本,则An指的是第n个样本,其中,n≤m,a1,a2,……,ai表示参考样本An在i维空间的各个特征值。参考样本An具有Y个近邻样本,选择了较远的K个近邻样本与参考样本分别组成K个样本对,Bk指的是K个近邻样本中的第k个近邻样本,其中,k=1,2,……,K,每次从该K个近邻样本中选择一个近邻样本与参考样本组成样本对生成一个新样本,最终一个参考样本An生成K个新样本。
参考样本的特征向量是已知的,近邻样本被确定后其特征向量也是已知的(因为近邻样本也是少数类样本集中的样本),An与Bk,ai与bi均只是为了区分参考样本与近邻样本。
(2)随机生成一个比例值t,其中,0<t<1。
(3)计算所需生成的新样本的特征向量Cnk(c1,c2,……,ci),其中,ci=ai+t*(bi-ai),在所述i维空间生成具有所述特征向量Cnk(c1,c2,……,ci)的样本。Cnk表示参考样本An与近邻样本Bk组成样本对生成的新样本。
根据近邻样本对应的每一个向量值bi,所述向量值bi对应的所述参考样本的向量值ai以及所述比例值t可以计算新样本对应的向量值ci,即将参考样本的点与近邻样本的点直线连接,在连线中任意取一点,该点在参考样本与近邻样本之间,通过这种内插法获取一个新的点,即产生一个新样本。
利用一个样本对生成整数个新样本的方法包括步骤(a)-(c):
(a)获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi)。
例如,参考样本An具有Y个近邻样本,则选择Y个近邻样本与参考样本分别组成Y个样本对,Bk指的是该Y个近邻样本中的第k个近邻样本,其中,k=1,2,……,Y,每次从该Y个近邻样本中选一个近邻样本与参考样本组成样本对生成整数(j)个新样本,最终一个参考样本An生成Y*j个新样本。
(b)随机生成j个比例值tx,其中,0<tx<1,x=1,2,……,j,j等于所述整数,且所有比例值tx均不相同。
(c)计算所需生成的所述整数个新样本的特征向量Cnkx(c1,c2,……,ci),其中,ci=ai+tx*(bi-ai),在所述i维空间生成具有特征向量Cnkx(c1,c2,……,ci)的样本。Cnkx表示参考样本An与近邻样本Bk组成样本对生成的第x个新样本。
将参考样本的点与近邻样本的点直线连接,在连线中任意取整数个点,这些点在参考样本与近邻样本之间,通过这种内插法获取整数个新的点,即产生整数个新样本。
S106,分别将每份所述第一类样本集与所述第二类样本集进行机器学习得到对应的分类模型。
S107,利用所述分类模型对待分类数据进行预测分类,得到对应的预测结果。
S108,将数量较多的预测结果确定为分类结果,将数量较多的预测结果确定为分类结果。
为了预测的准确性,尽可能更多次的建模预测,因此分别将每份所述第一类样本集与所述第二类样本集进行机器学习得到对应的分类模型,利用得到的模型分别进行预测,预测结果分为第一类(多数类)和第二类(少数类),数量较多的预测结果为最终的分类结果。
利用上述方法可以根据用户的行为数据预测该用户会不会点击某一类型的广告,因此可以有计划得对不同的用户群体投放不同的广告,或对潜在客户根据其需求有针对性地策划广告方案,以提高获取潜在业务的可能性。
本申请实施例提供了数据分类方法、在两类样本(少数类样本与多数类样本)数量不均衡的情况下,针对数量多的样本,通过下采样产生几份同类的样本集,针对数量少的样本通过上采样产生新样本,利用新样本与原少数类的样本混合形成数量较多的样本,使原本数量较少的样本与原本数量较多的样本数量均衡,并且少数类样本与多数类样本通过多次建模来预测数据,最终取占数量优势的预测结果作为分类结果,通过上采样、下采样以及多次建模多次预测的手段来提高数据预测的准确性。
图4是本申请实施例提供的一种数据分类装置100的示意性框图。该数据分类装置100包括获取单元101、第一确定单元102、第一形成单元103、第二确定单元104、生成单元105、第二形成单元106、学习单元107、预测单元108、统计单元109和第三确定单元110。
获取单元101,用于获取样本集,所述样本集包括一多数类样本集和一少数类样本集。
第一确定单元102,用于根据所述多数类样本集的总样本数目与所述少数类样本集的总样本数目的比值确定第一类样本集的预设份数和预设样本个数。
第一形成单元103,用于从所述多数类样本集中随机抽取所述预设样本个数的样本形成一份所述第一类样本集,重复多次抽取以得到所述预设份数的第一类样本集。
第二确定单元104,用于根据所述少数类样本集的总样本数目和所述预设样本个数确定需要生成的新样本的预计总数目。
生成单元105,用于根据所述预计总数目利用所述少数类样本集生成新样本。
第二形成单元106,用于并将所述新样本与所述少数类样本集混合形成第二类样本集。
学习单元107,用于分别将每份所述第一类样本集与所述第二类样本集进行机器学习得到对应的分类模型。
预测单元108,用于利用所述分类模型对待分类数据进行预测分类,得到对应的预测结果。
统计单元109,用于将数量较多的预测结果确定为分类结果。
第三确定单元110,用于将数量较多的预测结果确定为分类结果。
在本发明实施例中,如图5所示,所述生成单元105包括以下子单元:
确定子单元1051,用于依次将所述少数类样本集中的一个样本确定为参考样本。
第一获取子单元1052,用于获取每个参考样本的近邻样本。
统计子单元1053,用于分别统计每个参考样本的近邻样本的第一数量。
第一计算子单元1054,用于根据所述第一数量与所述少数类样本集的总样本数目计算对应参考样本的非近邻样本的第二数量。
第二计算子单元1055,用于计算所述第二数量占所述少数类样本的总样本数目的比例。
归一化子单元1056,用于将每个参考样本的所述比例进行归一化处理,得到对应的归一化比例。
第三计算子单元1057,用于根据每个所述归一化比例和所述预计总数目分别计算对应的第三数量。
生成子单元1058,用于根据所述第三数量和所述第一数量选择对应参考样本的近邻样本,根据所述参考样本和所述近邻样本生成新样本。
在本发明实施例中,如图6所示,所述生成子单元1058包括以下子单元:
第四计算子单元10581,用于计算所述第三数量与所述第一数量的商值。
判断子单元10582,用于判断所述商值是否小于1。
选择子单元10583,用于若所述商值小于1,则从所述参考样本的近邻样本中选择所述第三数量的近邻样本,所述第三数量的近邻样本与所述参考样本的距离均比剩余的近邻样本与所述参考样本的距离远。
第一生成子单元10584,用于分别将每个选择的近邻样本与所述参考样本组成样本对,分别利用一个样本对生成一个新样本。
第二生成子单元10585,用于若所述商值大于或等于1,则根据四舍五入法则取整数,将所述参考样本的每个近邻样本分别与所述参考样本组成样本对,分别利用一个样本对生成所述整数个新样本。
具体地,第一生成子单元10584包括:
第二获取子单元,用于获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi);
第一随机子单元,用于随机生成一个比例值t,其中,0<t<1;
第一特征计算子单元,用于计算所需生成的新样本的特征向量Cnk(c1,c2,……,ci),其中,ci=ai+t*(bi-ai),在所述i维空间生成具有所述特征向量Cnk(c1,c2,……,ci)的样本。
第二生成子单元10585包括:
第三获取子单元,用于获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi);
第二随机子单元,用于随机生成j个比例值tx,其中,0<tx<1,x=1,2,……,j,j等于所述整数,且所有比例值tx均不相同;
第二特征计算子单元,用于计算所需生成的所述整数个新样本的特征向量Cnkx(c1,c2,……,ci),其中,ci=ai+tx*(bi-ai),在所述i维空间生成具有特征向量Cnkx(c1,c2,……,ci)的样本。
上述数据分类装置100的功能以及各个单元的具体描述可参考上述方法实施例中的描述,此处不做重复描述。上述数据分类装置100可以实现为一种计算机程序的形式,计算机程序可以在如图7所示的计算机设备上运行。
图7为本申请实施例提供的一种数据分类设备的示意性框图。该设备可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
该设备为一种计算机设备200,包括通过系统总线201连接的处理器202、存储器和网络接口205,其中,该存储器包括非易失性存储介质203和内存储器204。该计算机设备200的非易失性存储介质203可存储操作系统2031和计算机程序2032,该计算机程序2032被执行时,可使得处理器202执行一种数据分类方法。该计算机设备200的处理器202用于提供计算和控制能力,支撑整个计算机设备200的运行。该内存储器204为非易失性存储介质203中的计算机程序2032的运行提供环境。计算机设备200的网络接口205用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
处理器202运行非易失性存储介质203中的计算机程序2032,执行如下操作:
获取样本集,所述样本集包括一多数类样本集和一少数类样本集;根据所述多数类样本集的总样本数目与所述少数类样本集的总样本数目的比值确定第一类样本集的预设份数和预设样本个数,所述预设份数为奇数;从所述多数类样本集中随机抽取所述预设样本个数的样本形成一份所述第一类样本集,重复多次抽取以得到所述预设份数的第一类样本集;根据所述少数类样本集的总样本数目和所述预设样本个数确定需要生成的新样本的预计总数目;根据所述预计总数目利用所述少数类样本集生成新样本,并将所述新样本与所述少数类样本集混合形成第二类样本集;分别将每份所述第一类样本集与所述第二类样本集进行机器学习得到对应的分类模型;利用所述分类模型对待分类数据进行预测分类,得到对应的预测结果;分别统计不同的预测结果的数量,将数量较多的预测结果确定为分类结果。
处理器202还执行如下操作:
依次将所述少数类样本集中的一个样本确定为参考样本;获取每个参考样本的近邻样本;分别统计每个参考样本的近邻样本的第一数量;根据所述第一数量与所述少数类样本集的总样本数目计算对应参考样本的非近邻样本的第二数量;计算所述第二数量占所述少数类样本的总样本数目的比例;将每个参考样本的所述比例进行归一化处理,得到对应的归一化比例;根据每个所述归一化比例和所述预计总数目分别计算对应的第三数量;根据所述第三数量和所述第一数量选择对应参考样本的近邻样本,根据所述参考样本和所述近邻样本生成新样本。
处理器202还执行如下操作:
计算所述第三数量与所述第一数量的商值;判断所述商值是否小于1;若是,则从所述参考样本的近邻样本中选择所述第三数量的近邻样本,所述第三数量的近邻样本与所述参考样本的距离均比剩余的近邻样本与所述参考样本的距离远,分别将每个选择的近邻样本与所述参考样本组成样本对,分别利用一个样本对生成一个新样本;若否,则根据四舍五入法则取整数,将所述参考样本的每个近邻样本分别与所述参考样本组成样本对,分别利用一个样本对生成所述整数个新样本。
处理器202还执行如下操作:
获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi);随机生成一个比例值t,其中,0<t<1;计算所需生成的新样本的特征向量Cnk(c1,c2,……,ci),其中,ci=ai+t*(bi-ai),在所述i维空间生成具有所述特征向量Cnk(c1,c2,……,ci)的样本。
处理器202还执行如下操作:
获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi);随机生成j个比例值tx,其中,0<tx<1,x=1,2,……,j,j等于所述整数,且所有比例值tx均不相同;计算所需生成的所述整数个新样本的特征向量Cnkx(c1,c2,……,ci),其中,ci=ai+tx*(bi-ai),在所述i维空间生成具有特征向量Cnkx(c1,c2,……,ci)的样本。
本领域技术人员可以理解,图7中示出的计算机设备的实施例并不构成对数据分类设备具体构成的限定,在其他实施例中,数据分类设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,数据分类设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现以下步骤:
获取样本集,所述样本集包括一多数类样本集和一少数类样本集;根据所述多数类样本集的总样本数目与所述少数类样本集的总样本数目的比值确定第一类样本集的预设份数和预设样本个数,所述预设份数为奇数;从所述多数类样本集中随机抽取所述预设样本个数的样本形成一份所述第一类样本集,重复多次抽取以得到所述预设份数的第一类样本集;根据所述少数类样本集的总样本数目和所述预设样本个数确定需要生成的新样本的预计总数目;根据所述预计总数目利用所述少数类样本集生成新样本,并将所述新样本与所述少数类样本集混合形成第二类样本集;分别将每份所述第一类样本集与所述第二类样本集进行机器学习得到对应的分类模型;利用所述分类模型对待分类数据进行预测分类,得到对应的预测结果;分别统计不同的预测结果的数量,将数量较多的预测结果确定为分类结果。
在本实施例中,还实现以下步骤:
依次将所述少数类样本集中的一个样本确定为参考样本;获取每个参考样本的近邻样本;分别统计每个参考样本的近邻样本的第一数量;根据所述第一数量与所述少数类样本集的总样本数目计算对应参考样本的非近邻样本的第二数量;计算所述第二数量占所述少数类样本的总样本数目的比例;将每个参考样本的所述比例进行归一化处理,得到对应的归一化比例;根据每个所述归一化比例和所述预计总数目分别计算对应的第三数量;根据所述第三数量和所述第一数量选择对应参考样本的近邻样本,根据所述参考样本和所述近邻样本生成新样本。
在本实施例中,还实现以下步骤:
计算所述第三数量与所述第一数量的商值;判断所述商值是否小于1;若是,则从所述参考样本的近邻样本中选择所述第三数量的近邻样本,所述第三数量的近邻样本与所述参考样本的距离均比剩余的近邻样本与所述参考样本的距离远,分别将每个选择的近邻样本与所述参考样本组成样本对,分别利用一个样本对生成一个新样本;若否,则根据四舍五入法则取整数,将所述参考样本的每个近邻样本分别与所述参考样本组成样本对,分别利用一个样本对生成所述整数个新样本。
在本实施例中,还实现以下步骤:
获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi);随机生成一个比例值t,其中,0<t<1;计算所需生成的新样本的特征向量Cnk(c1,c2,……,ci),其中,ci=ai+t*(bi-ai),在所述i维空间生成具有所述特征向量Cnk(c1,c2,……,ci)的样本。
在本实施例中,还实现以下步骤:
获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi);随机生成j个比例值tx,其中,0<tx<1,x=1,2,……,j,j等于所述整数,且所有比例值tx均不相同;计算所需生成的所述整数个新样本的特征向量Cnkx(c1,c2,……,ci),其中,ci=ai+tx*(bi-ai),在所述i维空间生成具有特征向量Cnkx(c1,c2,……,ci)的样本。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述设备所需的其他程序和数据。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据分类方法,其特征在于,包括:
获取样本集,所述样本集包括一多数类样本集和一少数类样本集;
根据所述多数类样本集的总样本数目与所述少数类样本集的总样本数目的比值确定第一类样本集的预设份数和预设样本个数,所述预设份数为奇数;
从所述多数类样本集中随机抽取所述预设样本个数的样本形成一份所述第一类样本集,重复多次抽取以得到所述预设份数的第一类样本集;
根据所述少数类样本集的总样本数目和所述预设样本个数确定需要生成的新样本的预计总数目;
根据所述预计总数目利用所述少数类样本集生成新样本,并将所述新样本与所述少数类样本集混合形成第二类样本集;
分别将每份所述第一类样本集与所述第二类样本集进行机器学习得到对应的分类模型;
利用所述分类模型对待分类数据进行预测分类,得到对应的预测结果;
分别统计不同预测结果的数量,将数量较多的预测结果确定为分类结果。
2.根据权利要求1所述的数据分类方法,其特征在于,所述根据所述预计总数目利用所述少数类样本集生成新样本,包括:
依次将所述少数类样本集中的一个样本确定为参考样本;
获取每个参考样本的近邻样本;
分别统计每个参考样本的近邻样本的第一数量;
根据所述第一数量与所述少数类样本集的总样本数目计算对应参考样本的非近邻样本的第二数量;
计算所述第二数量占所述少数类样本的总样本数目的比例;
将每个参考样本的所述比例进行归一化处理,得到对应的归一化比例;
根据每个所述归一化比例和所述预计总数目分别计算对应的第三数量;
根据所述第三数量和所述第一数量选择对应参考样本的近邻样本,根据所述参考样本和所述近邻样本生成新样本。
3.根据权利要求2所述的数据分类方法,其特征在于,所述根据所述第三数量和所述第一数量选择对应参考样本的近邻样本,根据所述参考样本和所述近邻样本生成新样本,包括:
计算所述第三数量与所述第一数量的商值;
判断所述商值是否小于1;
若是,则从所述参考样本的近邻样本中选择所述第三数量的近邻样本,所述第三数量的近邻样本与所述参考样本的距离均比剩余的近邻样本与所述参考样本的距离远,分别将每个选择的近邻样本与所述参考样本组成样本对,分别利用一个样本对生成一个新样本;
若否,则根据四舍五入法则取整数,将所述参考样本的每个近邻样本分别与所述参考样本组成样本对,分别利用一个样本对生成所述整数个新样本。
4.根据权利要求3所述的数据分类方法,其特征在于,利用一个样本对生成一个新样本,包括:
获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi);
随机生成一个比例值t,其中,0<t<1;
计算所需生成的新样本的特征向量Cnk(c1,c2,……,ci),其中,ci=ai+t*(bi-ai),在所述i维空间生成具有所述特征向量Cnk(c1,c2,……,ci)的样本。
5.根据权利要求3所述的方法,其特征在于,利用一个样本对生成所述整数个新样本,包括:
获取所述样本对中的参考样本在i维空间的特征向量An(a1,a2,……,ai)以及近邻样本的特征向量Bk(b1,b2,……,bi);
随机生成j个比例值tx,其中,0<tx<1,x=1,2,……,j,j等于所述整数,且所有比例值tx均不相同;
计算所需生成的所述整数个新样本的特征向量Cnkx(c1,c2,……,ci),其中,ci=ai+tx*(bi-ai),在所述i维空间生成具有特征向量Cnkx(c1,c2,……,ci)的样本。
6.一种数据分类装置,其特征在于,包括:
获取单元,用于获取样本集,所述样本集包括一多数类样本集和一少数类样本集;
第一确定单元,用于根据所述多数类样本集的总样本数目与所述少数类样本集的总样本数目的比值确定第一类样本集的预设份数和预设样本个数,所述预设份数为奇数;
第一形成单元,用于从所述多数类样本集中随机抽取所述预设样本个数的样本形成一份所述第一类样本集,重复多次抽取以得到所述预设份数的第一类样本集;
第二确定单元,用于根据所述少数类样本集的总样本数目和所述预设样本个数确定需要生成的新样本的预计总数目;
生成单元,用于根据所述预计总数目利用所述少数类样本集生成新样本;
第二形成单元,用于并将所述新样本与所述少数类样本集混合形成第二类样本集;
学习单元,用于分别将每份所述第一类样本集与所述第二类样本集进行机器学习得到对应的分类模型;
预测单元,用于利用所述分类模型对待分类数据进行预测分类,得到对应的预测结果;
统计单元,用于分别统计不同预测结果的数量;
第三确定单元,用于将数量较多的预测结果确定为分类结果。
7.根据权利要求6所述的数据分类装置,其特征在于,所述生成单元包括:
确定子单元,用于依次将所述少数类样本集中的一个样本确定为参考样本;
第一获取子单元,用于获取每个参考样本的近邻样本;
统计子单元,用于分别统计每个参考样本的近邻样本的第一数量;
第一计算子单元,用于根据所述第一数量与所述少数类样本集的总样本数目计算对应参考样本的非近邻样本的第二数量;
第二计算子单元,用于计算所述第二数量占所述少数类样本的总样本数目的比例;
归一化子单元,用于将每个参考样本的所述比例进行归一化处理,得到对应的归一化比例;
第三计算子单元,用于根据每个所述归一化比例和所述预计总数目分别计算对应的第三数量;
生成子单元,用于根据所述第三数量和所述第一数量选择对应参考样本的近邻样本,根据所述参考样本和所述近邻样本生成新样本。
8.根据权利要求7所述的数据分类装置,其特征在于,所述生成子单元包括:
第四计算子单元,用于计算所述第三数量与所述第一数量的商值;
判断子单元,用于判断所述商值是否小于1;
选择子单元,用于若所述商值小于1,则从所述参考样本的近邻样本中选择所述第三数量的近邻样本,所述第三数量的近邻样本与所述参考样本的距离均比剩余的近邻样本与所述参考样本的距离远;
第一生成子单元,用于分别将每个选择的近邻样本与所述参考样本组成样本对,分别利用一个样本对生成一个新样本;
第二生成子单元,用于若所述商值大于或等于1,则根据四舍五入法则取整数,将所述参考样本的每个近邻样本分别与所述参考样本组成样本对,分别利用一个样本对生成所述整数个新样本。
9.一种数据处理设备,其特征在于,所述数据处理设备包括存储器,以及与所述存储器相连的处理器;
所述存储器,用于存储实现数据处理方法的计算机程序;
所述处理器,用于运行所述存储器中存储的计算机程序,以执行如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如权利要求1至5任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810190818.2A CN108491474A (zh) | 2018-03-08 | 2018-03-08 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
PCT/CN2018/084047 WO2019169704A1 (zh) | 2018-03-08 | 2018-04-23 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810190818.2A CN108491474A (zh) | 2018-03-08 | 2018-03-08 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108491474A true CN108491474A (zh) | 2018-09-04 |
Family
ID=63338126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810190818.2A Pending CN108491474A (zh) | 2018-03-08 | 2018-03-08 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108491474A (zh) |
WO (1) | WO2019169704A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726821A (zh) * | 2018-11-27 | 2019-05-07 | 东软集团股份有限公司 | 数据均衡方法、装置、计算机可读存储介质及电子设备 |
CN111539451A (zh) * | 2020-03-26 | 2020-08-14 | 平安科技(深圳)有限公司 | 样本数据优化方法、装置、设备及存储介质 |
CN111597225A (zh) * | 2020-04-21 | 2020-08-28 | 杭州安脉盛智能技术有限公司 | 一种基于分段瞬态识别的自适应数据缩减方法 |
CN112784884A (zh) * | 2021-01-07 | 2021-05-11 | 重庆兆琨智医科技有限公司 | 一种医学图像分类方法、系统、介质及电子终端 |
CN112948463A (zh) * | 2021-03-01 | 2021-06-11 | 创新奇智(重庆)科技有限公司 | 轧钢数据采样方法、装置、电子设备及存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292329B (zh) * | 2020-01-15 | 2023-06-06 | 北京字节跳动网络技术有限公司 | 视频分割网络的训练方法、装置及电子设备 |
CN111259964B (zh) * | 2020-01-17 | 2023-04-07 | 上海海事大学 | 一种不平衡数据集的过采样方法 |
CN112085080B (zh) * | 2020-08-31 | 2024-03-08 | 北京百度网讯科技有限公司 | 样本均衡方法、装置、设备以及存储介质 |
CN112801178B (zh) * | 2021-01-26 | 2024-04-09 | 上海明略人工智能(集团)有限公司 | 模型训练方法、装置、设备及计算机可读介质 |
CN113673575A (zh) * | 2021-07-26 | 2021-11-19 | 浙江大华技术股份有限公司 | 一种数据合成方法、图像处理模型的训练方法及相关装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10346861B2 (en) * | 2015-11-05 | 2019-07-09 | Adobe Inc. | Adaptive sampling scheme for imbalanced large scale data |
CN105487526B (zh) * | 2016-01-04 | 2019-04-09 | 华南理工大学 | 一种Fast RVM污水处理故障诊断方法 |
IL249621A0 (en) * | 2016-12-18 | 2017-03-30 | Deutsche Telekom Ag | A method to classify attack sources on online attack sensing systems |
CN106973057B (zh) * | 2017-03-31 | 2018-12-14 | 浙江大学 | 一种适用于入侵检测的分类方法 |
-
2018
- 2018-03-08 CN CN201810190818.2A patent/CN108491474A/zh active Pending
- 2018-04-23 WO PCT/CN2018/084047 patent/WO2019169704A1/zh active Application Filing
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726821A (zh) * | 2018-11-27 | 2019-05-07 | 东软集团股份有限公司 | 数据均衡方法、装置、计算机可读存储介质及电子设备 |
CN111539451A (zh) * | 2020-03-26 | 2020-08-14 | 平安科技(深圳)有限公司 | 样本数据优化方法、装置、设备及存储介质 |
WO2021189830A1 (zh) * | 2020-03-26 | 2021-09-30 | 平安科技(深圳)有限公司 | 样本数据优化方法、装置、设备及存储介质 |
CN111539451B (zh) * | 2020-03-26 | 2023-08-15 | 平安科技(深圳)有限公司 | 样本数据优化方法、装置、设备及存储介质 |
CN111597225A (zh) * | 2020-04-21 | 2020-08-28 | 杭州安脉盛智能技术有限公司 | 一种基于分段瞬态识别的自适应数据缩减方法 |
CN111597225B (zh) * | 2020-04-21 | 2023-10-27 | 杭州安脉盛智能技术有限公司 | 一种基于分段瞬态识别的自适应数据缩减方法 |
CN112784884A (zh) * | 2021-01-07 | 2021-05-11 | 重庆兆琨智医科技有限公司 | 一种医学图像分类方法、系统、介质及电子终端 |
CN112948463A (zh) * | 2021-03-01 | 2021-06-11 | 创新奇智(重庆)科技有限公司 | 轧钢数据采样方法、装置、电子设备及存储介质 |
CN112948463B (zh) * | 2021-03-01 | 2022-10-14 | 创新奇智(重庆)科技有限公司 | 轧钢数据采样方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2019169704A1 (zh) | 2019-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491474A (zh) | 一种数据分类方法、装置、设备及计算机可读存储介质 | |
CN107103171B (zh) | 机器学习模型的建模方法及装置 | |
CN106156092B (zh) | 数据处理方法及装置 | |
CN105446988B (zh) | 预测类别的方法和装置 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN110458580A (zh) | 一种异常渠道检测方法、装置、介质及设备 | |
CN105468628B (zh) | 一种排序方法及装置 | |
CN110390585A (zh) | 一种识别异常对象的方法及装置 | |
CN111242319A (zh) | 模型预测结果的解释方法和装置 | |
CN108304354A (zh) | 一种预测模型训练方法及装置、存储介质、电子设备 | |
CN110930218A (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN107451854A (zh) | 确定用户类型的方法及装置、电子设备 | |
CN114168761B (zh) | 多媒体数据的推送方法、装置、电子设备及存储介质 | |
CN110060053A (zh) | 一种识别方法、设备及计算机可读介质 | |
CN109033148A (zh) | 一种面向多分类的不平衡数据预处理方法、装置及设备 | |
CN106875185A (zh) | 一种风控模型训练方法及装置 | |
CN108694413A (zh) | 自适应采样不平衡数据分类处理方法、装置、设备及介质 | |
CN115391561A (zh) | 图网络数据集的处理方法、装置、电子设备、程序及介质 | |
WO2023024408A1 (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN108647728A (zh) | 不平衡数据分类过采样方法、装置、设备及介质 | |
CN107656927A (zh) | 一种特征选择方法及设备 | |
CN109685555A (zh) | 商户筛选方法、装置、电子设备及存储介质 | |
CN114511409A (zh) | 用户样本处理方法、装置及电子设备 | |
CN113837368A (zh) | 一种在联邦学习中评估各参与方数据价值的控制方法及装置 | |
JP7277661B1 (ja) | 生成システム、及び生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180904 |
|
RJ01 | Rejection of invention patent application after publication |