CN108388924A - 一种数据分类方法、装置、设备及计算机可读存储介质 - Google Patents
一种数据分类方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN108388924A CN108388924A CN201810191039.4A CN201810191039A CN108388924A CN 108388924 A CN108388924 A CN 108388924A CN 201810191039 A CN201810191039 A CN 201810191039A CN 108388924 A CN108388924 A CN 108388924A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- sample set
- disaggregated model
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据分类方法、装置、设备及计算机可读存储介质。本发明提供了数据分类方法、装置、设备及计算机可读存储介质,通过将所有少数类样本集合混合形成一个新的样本集合与多数类样本集合一起作为训练样本进行机器学习得到第一分类模型,解决了少数类样本集合与多数类样本集合样本数量不均衡的问题,通过所有少数类样本集合作为新的样本重新训练得到第二分类模型,通过第一分类模型和第二分类模型的结合预测数据的类型,解决了对少数类数据预测不准确的问题。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种数据分类方法、装置、设备及计算机可读存储介质。
背景技术
目前在数据建模将数据分类的过程中,特别是多分类的情况下,往往会存在各类样本呈现类不均衡问题,当各类的训练样本数量差异相当大时,直接利用不均衡的样本进行训练得到分类模型的话,由于各类样本数量的不均衡性,模型训练的结果可能很不理想,那么利用训练得到的模型进行预测而获得的预测结果也不理想,甚至预测结果是相反的。
目前比较普遍的做法是将数量较少的那些样本通过产生新样本的方法来使得样本数量增加,以达到与数量较多的样本数量均衡的水平,但由于新样本不是真实的样本,且产生的新样本不能过多,因此需要放弃较多数样本中的大部分样本分样本,但由于丢弃了大部分样本,建立的数据模型其预测结果可能会不准确。
发明内容
本发明实施例提供了一种数据分类方法、装置、设备及计算机可读存储介质,利用模型嵌套的方式对数据进行分类,提高预测结果的准确性。
第一方面,本发明实施例提供了一种数据分类方法,该方法包括:
获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;
对所述训练样本集合进行机器学习得到第一分类模型;
对所述混合样本集合进行机器学习得到第二分类模型;
利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;
根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;
若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;
若否,则确定所述第一预测结果为分类结果。
第二方面,本发明实施例还提供了一种数据分类装置,所述数据分类装置包括用于实现第一方面所述的数据分类方法的单元。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器,以及与所述存储器相连的处理器;
所述存储器用于存储实现数据分类方法的计算机程序;
所述处理器用于运行所述存储器中存储的计算机程序,以执行如上述第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现上述第一方面所述的方法。
本发明提供了数据分类方法、装置、设备及计算机可读存储介质,通过将所有少数类样本集合混合形成一个新的样本集合与多数类样本集合一起作为训练样本进行机器学习得到第一分类模型,解决了少数类样本集合与多数类样本集合样本数量不均衡的问题,通过所有少数类样本集合作为新的样本重新训练得到第二分类模型,通过第一分类模型和第二分类模型的结合预测数据的类型,解决了对少数类数据预测不准确的问题。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据分类方法的流程示意图;
图2是本发明实施例提供的一种数据分类方法的子流程示意图;
图3是本发明实施例提供的一种数据分类方法的另一子流程示意图;
图4是本发明实施例提供的一种数据分类装置的示意性框图;
图5是本发明实施例提供的一种数据分类装置的子单元结构示意性框图;
图6是本发明实施例提供的一种数据分类装置的另一子单元结构示意性框图;
图7是本发明实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
也应当理解,尽管术语第一、第二等可以在此用来描述各种元素,但这些元素不应该受限于这些术语,这些术语仅用来将这些元素彼此区分开。
图1为本发明实施例提供的一种数据分类方法的流程示意图。该方法包括步骤S101~S107。
S101,获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡。
多数类样本集合指的是样本数量大的某一类数据的集合,少数类样本集合指的是样本数量非常少的某一类数据的集合,多数类样本集合和少数类样本集合的数量差异巨大,例如,当两个样本集合的样本数量比值大于或等于5时,可以将这两个样本集合分为多数类样本集合和少数类样本集合。
不同类型的样本集合的样本数量相差较大,如果利用样本数量差异较大的样本集合进行模型训练直接预测,例如,五类样本集合A、B、C、D、和E,A和B的样本数量均衡且非常多,但B、C和D样本数量均衡但非常少,如果直接将A、B、C、D和E作为独立的一类样本进行模型训练,得到的模型其预测结果(属于A、B、C、D或E)准确率不高,因此需要将样本数量均衡化。
在样本采集的过程中会出现这样一种情况:每一类多数类样本的样本数量远远大于每一类少数类样本的样本数量,但所有少数类样本的样本数量之和能够与任意一类多数类样本的样本数量相当,因此,可以将少数类样本混合作为一个新类型的样本,即混合样本集合,以解决样本不均衡的问题。
在本发明实施例中,两类样本的样本数量相当指的数量较少的一类样本的样本数量达到数量较多的一类样本的样本数量的90%以上。
具体地,如图2所示,步骤S101包括子步骤S1011-S1017:
S1011,采集带有标签的数据。
S1012,将所述数据按标签进行分类,得到若干类多数类样本原始集合和若干类少数类样本原始集合。
S1013,分别计算每一类少数类样本原始集合的样本总数量,获取最小样本总数量。
S1014,计算所述若干类少数类样本原始集合的平均样本数量。
S1015,从样本总数量大于所述平均样本数量的少数类样本原始集合中抽取所述平均样本数量的样本与剩余的少数类样本原始集合混合,形成所述混合样本集合。
S1016,计算所述混合样本集合的混合样本总数量。
S1017,分别从每一个多数类样本集合中随机抽取与所述混合样本总数量相当的样本分别形成对应类型的多数类样本集合,以使每一类多数类样本集合的样本数量与所述混合样本集合的混合样本总数量趋近均衡,以得到所述若干类多数类样本集合。
以上通过将若干类少数类样本混合形成混合样本集合,而后从每一类多数类样本中抽取与该混合样本集合数量相当的样本形成对应类型的多数类样本集合,最终能够使得每一类多数类样本集合以及该混合样本集合的样本数量趋近均衡。
在本发明实施例中,采集到的若干类少数类样本原始集合中的每一类少数类样本的样本数量虽然较少,但每一类少数类样本的数目也会存在差异,虽然差异不会异常明显,但为了尽可能地缩小每一类少数类样本的数量差异,同时也不丢弃过多的少数类样本,将数量低于或等于平均值的少数类样本全部选取,而大于平均值的少数类样本选取平均值数量的样本,最终混合形成了混合样本。
S102,对所述训练样本集合进行机器学习得到第一分类模型。
第一分类模型是基于多数类样本集合和少数类样本集合得到的,可用于预测数据属于哪一类多数类样本集合或属于混合样本集合。
在本发明实施例中,如图3所示,步骤S102包括子步骤S1021-S1024:
S1021,将所述混合样本集合赋为一种新类型的样本集合。
S1022,将所述训练样本集合分为第一训练集合和第一校验集合。
S1023,将所述第一训练集合进行训练得到可用于预测待分类数据属于所述若干类多数类样本集合对应的其中一种类型或属于所述新类型的第一分类模型。
S1024,利用所述第一校验集合校验所述第一分类模型。
在本发明实施例中,给混合样本数据赋予一个新标签,将混合而成的混合样本集合作为一种新类型的数据,与其他的多数类样本集合分别作为几种独立种类的样本进行模型训练,因此第一分类模型可以用来预测数据属于新标签的种类(即新类型)还是若干多数类中的其中一类。
第一分类模型的训练过程,即步骤S1023的过程,一般包括:对所述第一训练集合中的每个样本进行特征提取以形成所述每个样本对应的特征向量;对所述特征向量和对应样本的标签类别进行训练得到第一分类模型。
利用所述第一校验集合校验所述第一分类模型是为了得到分类结果准确率高的第一分类模型,通过将训练样本集合分为第一训练集合和第一校验集合分别进行模型训练和模型校验,可以提高数据预测的准确率。
S103,对所述混合样本集合进行机器学习得到第二分类模型。
同样地,需要将混合样本集合分为第二训练集合和第二校验集合分别进行模型训练和模型校验,以便得到预测准确率高的第二分类模型,以提高数据预测的准确率。具体包括以下步骤:将所述混合样本集合分为第二训练集合和第二校验集合;将所述第二训练集合进行训练得到可用于预测待分类数据属于所述混合样本集合中的其中一个少数类样本集合对应的类型的第二分类模型;利用所述第二校验集合校验所述第二分类模型。
第二分类模型的训练过程与第一分类模型的训练过程一致,在此不赘述。
S104,利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果。
第一分类模型可预测待分类数据属于所述若干类多数类样本集合对应的其中一种类型或属于混合样本集合对应的新类型。
S105,根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类。
S106,若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果。
具体地,利用所述第二分类模型对所述待分类数据进行二次预测分类,得到的分类结果为所述待分类数据属于所述若干类少数类样本集合对应的其中一种类型。
S107,若否,则确定所述第一预测结果为分类结果。
在本发明实施例中,所述根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类具体包括:若所述第一预测结果为预测所述待分类数据属于所述若干类多数类样本集合对应的其中一种类型,则判定不需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若所述第一预测结果为预测所述待分类数据属于所述新类型,则判定需要利用所述第二分类模型对所述待分类数据进行二次预测分类。
因为各多数类样本集合以及混合样本集合的样本数量是趋近均衡的,因此当第一分类模型预测待分类数据属于某一多数类样本对应的类型,则其预测结果则为最后准确的分类结果;当第一分类模型预测待分类数据属于混合样本集合对应的新类型,由于混合样本集合中包括了几种类型的少数类样本,于是还需要通过第二分类模型对所述待分类数据进行二次预测分类,将待分类数据定位到该新类型的混合样本集合中的哪一种少数类,以得到最终准确的分类结果。
本发明实施例的数据分类方法可应用于根据用户的行为数据对用户进行学历预测。当前社会的用户群体,具有本科学历和专科学历的用户比较普遍,硕士学历、博士学历、中学学历、小学学历的用户较少,分别获取各类学历的用户的行为数据,将具有硕士学历的用户、具有博士学历的用户、具有中学学历的用户、以及具有小学学历的用户的行为数据整合成为一个(具有其他学历的)混合样本集合,将具有本科学历的群体和具有专科学历的群体的行为数据分别作为一个多数类样本集合,同时使混合样本集合的样本数量与多数类样本集合的数量相当,然后根据这三个样本集合建立第一分类模型,根据属于其他学历的混合样本集合建立第二分类模型;利用该第一分类模型,通过某用户的行为数据来预测该用户是本科学历、大专学历或其他学历,如果是其他学历,则还需要通过第二分类模型预测该用户是硕士学历、博士学历、中学学历或小学学历。
本发明提供了数据分类方法,通过将所有少数类样本集合混合形成一个新的样本集合与多数类样本集合一起作为训练样本进行机器学习得到第一分类模型,解决了少数类样本集合与多数类样本集合样本数量不均衡的问题,通过所有少数类样本集合作为新的样本重新训练得到第二分类模型,通过第一分类模型和第二分类模型的结合预测数据的类型,解决了对少数类数据预测不准确的问题。
图4为本发明实施例提供的一种数据分类装置100的示意性框图。该数据分类装置100包括获取单元101、第一学习单元102、第二学习单元103、第一预测单元104、判断单元105、第二预测单元106和确定单元107。
获取单元101用于获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡。
第一学习单元102用于对所述训练样本集合进行机器学习得到第一分类模型。
第二学习单元103用于对所述混合样本集合进行机器学习得到第二分类模型。
第一预测单元104用于利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果。
判断单元105用于根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类。
第二预测单元106用于若需要利用所述第二分类模型对所述待分类数据进行二次预测分类,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果。
确定单元107用于若不需要利用所述第二分类模型对所述待分类数据进行二次预测分类,则确定所述第一预测结果为分类结果。
在本发明实施例中,如图5所示,所述获取单元101包括以下子单元:
采集子单元1011,用于采集带有标签的数据。
分类子单元1012,用于将所述数据按标签进行分类,得到若干类多数类样本原始集合和若干类少数类样本原始集合。
第一计算子单元1013,用于分别计算每一类少数类样本原始集合的样本总数量。
获取子单元1014,用于获取最小样本总数量。
第二计算子单元1015,用于计算所述若干类少数类样本原始集合的平均样本数量。
第一形成子单元1016,用于从样本总数量大于所述平均样本数量的少数类样本原始集合中抽取所述平均样本数量的样本与剩余的少数类样本原始集合混合,形成所述混合样本集合。
第三计算子单元1017,用于计算所述混合样本集合的混合样本总数量。
第二形成子单元1018,用于分别从每一个多数类样本集合中随机抽取与所述混合样本总数量相当的样本分别形成对应类型的多数类样本集合,以使每一类多数类样本集合的样本数量与所述混合样本集合的混合样本总数量趋近均衡,以得到所述若干类多数类样本集合。
如图6所示,所述第一学习单元102包括以下子单元:
赋予子单元1021,用于将所述混合样本集合赋为一种新类型的样本集合。
第一划分子单元1022,用于将所述训练样本集合分为第一训练集合和第一校验集合。
第一训练子单元1023,用于将所述第一训练集合进行训练得到可用于预测待分类数据属于所述若干类多数类样本集合对应的其中一种类型或属于所述新类型的第一分类模型。
第一校验子单元1024,用于利用所述第一校验集合校验所述第一分类模型。
在本发明实施例中,所述第二学习单元103包括以下子单元:
第二划分子单元,用于将所述混合样本集合分为第二训练集合和第二校验集合。
第二训练子单元,用于将所述第二训练集合进行训练得到可用于预测待分类数据属于所述混合样本集合中的其中一个少数类样本集合对应的类型的第二分类模型。
第二校验子单元,用于利用所述第二校验集合校验所述第二分类模型。
所述判断单元105具体用于:若所述第一预测结果为预测所述待分类数据属于所述若干类多数类样本集合对应的其中一种类型,则判定不需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若所述第一预测结果为预测所述待分类数据属于所述新类型,则判定需要利用所述第二分类模型对所述待分类数据进行二次预测分类。
第二预测单元106具体用于:利用所述第二分类模型对所述待分类数据进行二次预测分类,得到所述待分类数据属于所述若干类少数类样本集合对应的其中一种类型的分类结果。
上述数据分类装置100的作用以及各个单元的具体描述,本发明实施例未详尽之处可参考上述方法实施例,此处不做赘述。
上述数据分类装置100可以实现为一种计算机程序的形式,计算机程序可以在如图7所示的计算机设备上运行。
图7为本发明实施例提供的一种计算机设备200的结构示意性框图。该计算机设备200,可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
该计算机设备200,包括通过系统总线201连接的处理器202、存储器和网络接口205,其中,存储器可以包括非易失性存储介质203和内存储器204。
该计算机设备200的非易失性存储介质203可存储操作系统2031和计算机程序2032,该计算机程序2032被执行时,可使得处理器202执行一种数据分类方法。该内存储器204为非易失性存储介质203中的计算机程序2032的运行提供环境。该计算机设备200的处理器202用于提供计算和控制能力,支撑整个计算机设备200的运行。
计算机设备200的网络接口205用于进行网络通信,如发送分配的任务、接收数据等。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备200的限定,其他更为具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
处理器202运行非易失性存储介质203中的计算机程序2032,执行如下操作:
获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;对所述训练样本集合进行机器学习得到第一分类模型;对所述混合样本集合进行机器学习得到第二分类模型;利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;若否,则确定所述第一预测结果为分类结果。
在一实施例中,所述处理器202在实现所述获取训练样本集合的步骤时具体执行如下操作:
采集带有标签的数据;将所述数据按标签进行分类,得到若干类多数类样本原始集合和若干类少数类样本原始集合;分别计算每一类少数类样本原始集合的样本总数量,获取最小样本总数量;计算所述若干类少数类样本原始集合的平均样本数量;从样本总数量大于所述平均样本数量的少数类样本原始集合中抽取所述平均样本数量的样本与剩余的少数类样本原始集合混合,形成所述混合样本集合;计算所述混合样本集合的混合样本总数量;分别从每一个多数类样本集合中随机抽取与所述混合样本总数量相当的样本分别形成对应类型的多数类样本集合,以使每一类多数类样本集合的样本数量与所述混合样本集合的混合样本总数量趋近均衡,以得到所述若干类多数类样本集合。
在一实施例中,所述处理器202在实现对所述混合样本集合进行机器学习得到第一分类模型的步骤时具体执行如下操作:
将所述混合样本集合赋为一种新类型的样本集合;将所述训练样本集合分为第一训练集合和第一校验集合;将所述第一训练集合进行训练得到可用于预测待分类数据属于所述若干类多数类样本集合对应的其中一种类型或属于所述新类型的第一分类模型;利用所述第一校验集合校验所述第一分类模型。
在一实施例中,所述处理器202在实现根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类的步骤时具体执行如下操作:
若所述第一预测结果为预测所述待分类数据属于所述若干类多数类样本集合对应的其中一种类型,则判定不需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若所述第一预测结果为预测所述待分类数据属于所述新类型,则判定需要利用所述第二分类模型对所述待分类数据进行二次预测分类。
在一实施例中,所述处理器202在实现利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果的步骤时具体执行如下操作:
利用所述第二分类模型对所述待分类数据进行二次预测分类,得到所述待分类数据属于所述若干类少数类样本集合对应的其中一种类型的分类结果。
本领域技术人员可以理解,图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现以下步骤:
获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;对所述训练样本集合进行机器学习得到第一分类模型;对所述混合样本集合进行机器学习得到第二分类模型;利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;若否,则确定所述第一预测结果为分类结果。
在一实施例中,所述获取训练样本集合的步骤包括以下步骤:
采集带有标签的数据;将所述数据按标签进行分类,得到若干类多数类样本原始集合和若干类少数类样本原始集合;分别计算每一类少数类样本原始集合的样本总数量,获取最小样本总数量;计算所述若干类少数类样本原始集合的平均样本数量;从样本总数量大于所述平均样本数量的少数类样本原始集合中抽取所述平均样本数量的样本与剩余的少数类样本原始集合混合,形成所述混合样本集合;计算所述混合样本集合的混合样本总数量;分别从每一个多数类样本集合中随机抽取与所述混合样本总数量相当的样本分别形成对应类型的多数类样本集合,以使每一类多数类样本集合的样本数量与所述混合样本集合的混合样本总数量趋近均衡,以得到所述若干类多数类样本集合。
在一实施例中,所述对所述混合样本集合进行机器学习得到第一分类模型的步骤包括以下步骤:
将所述混合样本集合赋为一种新类型的样本集合;将所述训练样本集合分为第一训练集合和第一校验集合;将所述第一训练集合进行训练得到可用于预测待分类数据属于所述若干类多数类样本集合对应的其中一种类型或属于所述新类型的第一分类模型;利用所述第一校验集合校验所述第一分类模型。
在一实施例中,所述根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类的步骤包括以下步骤:
若所述第一预测结果为预测所述待分类数据属于所述若干类多数类样本集合对应的其中一种类型,则判定不需要利用所述第二分类模型对所述待分类数据进行二次预测分类;若所述第一预测结果为预测所述待分类数据属于所述新类型,则判定需要利用所述第二分类模型对所述待分类数据进行二次预测分类。
在一实施例中,所述利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果的步骤包括以下步骤:
利用所述第二分类模型对所述待分类数据进行二次预测分类,得到所述待分类数据属于所述若干类少数类样本集合对应的其中一种类型的分类结果。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据分类方法,其特征在于,包括:
获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;
对所述训练样本集合进行机器学习得到第一分类模型;
对所述混合样本集合进行机器学习得到第二分类模型;
利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;
根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;
若是,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;
若否,则确定所述第一预测结果为分类结果。
2.根据权利要求1所述的数据分类方法,其特征在于,所述获取训练样本集合,包括:
采集带有标签的数据;
将所述数据按标签进行分类,得到若干类多数类样本原始集合和若干类少数类样本原始集合;
分别计算每一类少数类样本原始集合的样本总数量,获取最小样本总数量;
计算所述若干类少数类样本原始集合的平均样本数量;
从样本总数量大于所述平均样本数量的少数类样本原始集合中抽取所述平均样本数量的样本与剩余的少数类样本原始集合混合,形成所述混合样本集合;
计算所述混合样本集合的混合样本总数量;
分别从每一个多数类样本集合中随机抽取与所述混合样本总数量相当的样本分别形成对应类型的多数类样本集合,以使每一类多数类样本集合的样本数量与所述混合样本集合的混合样本总数量趋近均衡,以得到所述若干类多数类样本集合。
3.根据权利要求1所述的数据分类方法,其特征在于,所述对所述混合样本集合进行机器学习得到第一分类模型,包括:
将所述混合样本集合赋为一种新类型的样本集合;
将所述训练样本集合分为第一训练集合和第一校验集合;
将所述第一训练集合进行训练得到可用于预测待分类数据属于所述若干类多数类样本集合对应的其中一种类型或属于所述新类型的第一分类模型;
利用所述第一校验集合校验所述第一分类模型。
4.根据权利要求3所述的数据分类方法,其特征在于,所述根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类,包括:
若所述第一预测结果为预测所述待分类数据属于所述若干类多数类样本集合对应的其中一种类型,则判定不需要利用所述第二分类模型对所述待分类数据进行二次预测分类;
若所述第一预测结果为预测所述待分类数据属于所述新类型,则判定需要利用所述第二分类模型对所述待分类数据进行二次预测分类。
5.根据权利要求1所述的数据分类方法,其特征在于,所述利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果,包括:
利用所述第二分类模型对所述待分类数据进行二次预测分类,得到所述待分类数据属于所述若干类少数类样本集合对应的其中一种类型的分类结果。
6.一种数据分类装置,其特征在于,包括:
获取单元,用于获取训练样本集合,所述训练样本集合包括由若干类少数类样本集合混合而成的混合样本集合和若干类多数类样本集合,所述混合样本集合的样本数量与每一类多数类样本集合的样本数量趋近均衡;
第一学习单元,用于对所述训练样本集合进行机器学习得到第一分类模型;
第二学习单元,用于对所述混合样本集合进行机器学习得到第二分类模型;
第一预测单元,用于利用所述第一分类模型对待分类数据进行预测分类,得到第一预测结果;
判断单元,用于根据所述第一预测结果判断是否需要利用所述第二分类模型对所述待分类数据进行二次预测分类;
第二预测单元,用于若需要利用所述第二分类模型对所述待分类数据进行二次预测分类,则利用所述第二分类模型对所述待分类数据进行二次预测分类以得到分类结果;
确定单元,用于若不需要利用所述第二分类模型对所述待分类数据进行二次预测分类,则确定所述第一预测结果为分类结果。
7.根据权利要求6所述的数据分类装置,其特征在于,所述获取单元包括:
采集子单元,用于采集带有标签的数据;
分类子单元,用于将所述数据按标签进行分类,得到若干类多数类样本原始集合和若干类少数类样本原始集合;
第一计算子单元,用于分别计算每一类少数类样本原始集合的样本总数量;
获取子单元,用于获取最小样本总数量;
第二计算子单元,用于计算所述若干类少数类样本原始集合的平均样本数量;
第一形成子单元,用于从样本总数量大于所述平均样本数量的少数类样本原始集合中抽取所述平均样本数量的样本与剩余的少数类样本原始集合混合,形成所述混合样本集合;
第三计算子单元,用于计算所述混合样本集合的混合样本总数量;
第二形成子单元,用于分别从每一个多数类样本集合中随机抽取与所述混合样本总数量相当的样本分别形成对应类型的多数类样本集合,以使每一类多数类样本集合的样本数量与所述混合样本集合的混合样本总数量趋近均衡,以得到所述若干类多数类样本集合。
8.根据权利要求6所述的数据分类装置,其特征在于,所述第一学习单元包括:
赋予子单元,用于将所述混合样本集合赋为一种新类型的样本集合;
第一划分子单元,用于将所述训练样本集合分为第一训练集合和第一校验集合;
第一训练子单元,用于将所述第一训练集合进行训练得到可用于预测待分类数据属于所述若干类多数类样本集合对应的其中一种类型或属于所述新类型的第一分类模型;
第一校验子单元,用于利用所述第一校验集合校验所述第一分类模型。
9.一种计算机设备,其特征在于,包括存储器,以及与所述存储器相连的处理器;
所述存储器用于存储实现数据分类方法的计算机程序;
所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1至5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如权利要求1至5任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810191039.4A CN108388924A (zh) | 2018-03-08 | 2018-03-08 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
PCT/CN2018/083818 WO2019169700A1 (zh) | 2018-03-08 | 2018-04-20 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810191039.4A CN108388924A (zh) | 2018-03-08 | 2018-03-08 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108388924A true CN108388924A (zh) | 2018-08-10 |
Family
ID=63067077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810191039.4A Pending CN108388924A (zh) | 2018-03-08 | 2018-03-08 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108388924A (zh) |
WO (1) | WO2019169700A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214431A (zh) * | 2018-08-15 | 2019-01-15 | 深圳先进技术研究院 | 样本训练方法、分类方法、识别方法、装置、介质及系统 |
CN109325020A (zh) * | 2018-08-20 | 2019-02-12 | 中国平安人寿保险股份有限公司 | 小样本使用方法、装置、计算机设备和存储介质 |
CN109388675A (zh) * | 2018-10-12 | 2019-02-26 | 平安科技(深圳)有限公司 | 数据分析方法、装置、计算机设备及存储介质 |
CN109445662A (zh) * | 2018-11-08 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 虚拟对象的操作控制方法、装置、电子设备及存储介质 |
CN110309578A (zh) * | 2019-06-27 | 2019-10-08 | 郑州铁路职业技术学院 | 一种基于计算机数据处理的经济数据拟合系统及方法 |
WO2020034126A1 (zh) * | 2018-08-15 | 2020-02-20 | 深圳先进技术研究院 | 样本训练方法、分类方法、识别方法、装置、介质及系统 |
CN110874608A (zh) * | 2018-09-03 | 2020-03-10 | 北京京东金融科技控股有限公司 | 分类方法、系统和电子设备 |
CN111275470A (zh) * | 2018-12-04 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 服务发起概率预测方法及其模型的训练方法和装置 |
CN111832613A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备和存储介质 |
CN112149754A (zh) * | 2020-09-30 | 2020-12-29 | 罗中岩 | 一种信息的分类方法、装置、设备及存储介质 |
US20210158078A1 (en) * | 2018-09-03 | 2021-05-27 | Ping An Technology (Shenzhen) Co., Ltd. | Unbalanced sample data preprocessing method and device, and computer device |
CN113569929A (zh) * | 2021-07-15 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 基于小样本扩展的互联网服务提供方法、装置及电子设备 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177500A (zh) * | 2019-11-25 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 数据对象分类方法、装置、计算机设备和存储介质 |
CN112132208B (zh) * | 2020-09-18 | 2023-07-14 | 北京奇艺世纪科技有限公司 | 图像转换模型的生成方法、装置、电子设备及存储介质 |
CN112182269B (zh) * | 2020-09-27 | 2023-11-28 | 北京达佳互联信息技术有限公司 | 图像分类模型的训练、图像分类方法、装置、设备及介质 |
CN113255748A (zh) * | 2021-05-14 | 2021-08-13 | 广州织点智能科技有限公司 | 一种商品识别模型的特征底库更新方法及装置 |
CN114154578B (zh) * | 2021-12-02 | 2023-10-31 | 内蒙古工业大学 | 面向非平衡数据基于半监督分布式训练的任务识别方法 |
CN115879587B (zh) * | 2022-01-11 | 2024-01-26 | 北京中关村科金技术有限公司 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032276A1 (en) * | 2015-07-29 | 2017-02-02 | Agt International Gmbh | Data fusion and classification with imbalanced datasets |
CN106778853A (zh) * | 2016-12-07 | 2017-05-31 | 中南大学 | 基于权重聚类和欠抽样的不平衡数据分类方法 |
CN107239789A (zh) * | 2017-05-09 | 2017-10-10 | 浙江大学 | 一种基于k‑means的不平衡数据工业故障分类方法 |
CN107169518A (zh) * | 2017-05-18 | 2017-09-15 | 北京京东金融科技控股有限公司 | 数据分类方法、装置、电子装置及计算机可读介质 |
-
2018
- 2018-03-08 CN CN201810191039.4A patent/CN108388924A/zh active Pending
- 2018-04-20 WO PCT/CN2018/083818 patent/WO2019169700A1/zh active Application Filing
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020034126A1 (zh) * | 2018-08-15 | 2020-02-20 | 深圳先进技术研究院 | 样本训练方法、分类方法、识别方法、装置、介质及系统 |
CN109214431B (zh) * | 2018-08-15 | 2022-02-01 | 深圳先进技术研究院 | 样本训练方法、分类方法、识别方法、装置、介质及系统 |
CN109214431A (zh) * | 2018-08-15 | 2019-01-15 | 深圳先进技术研究院 | 样本训练方法、分类方法、识别方法、装置、介质及系统 |
CN109325020A (zh) * | 2018-08-20 | 2019-02-12 | 中国平安人寿保险股份有限公司 | 小样本使用方法、装置、计算机设备和存储介质 |
US20210158078A1 (en) * | 2018-09-03 | 2021-05-27 | Ping An Technology (Shenzhen) Co., Ltd. | Unbalanced sample data preprocessing method and device, and computer device |
CN110874608A (zh) * | 2018-09-03 | 2020-03-10 | 北京京东金融科技控股有限公司 | 分类方法、系统和电子设备 |
CN110874608B (zh) * | 2018-09-03 | 2024-04-05 | 京东科技控股股份有限公司 | 分类方法、系统和电子设备 |
US11941087B2 (en) * | 2018-09-03 | 2024-03-26 | Ping An Technology (Shenzhen) Co., Ltd. | Unbalanced sample data preprocessing method and device, and computer device |
CN109388675A (zh) * | 2018-10-12 | 2019-02-26 | 平安科技(深圳)有限公司 | 数据分析方法、装置、计算机设备及存储介质 |
CN109445662A (zh) * | 2018-11-08 | 2019-03-08 | 腾讯科技(深圳)有限公司 | 虚拟对象的操作控制方法、装置、电子设备及存储介质 |
CN109445662B (zh) * | 2018-11-08 | 2022-02-22 | 腾讯科技(深圳)有限公司 | 虚拟对象的操作控制方法、装置、电子设备及存储介质 |
CN111275470A (zh) * | 2018-12-04 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 服务发起概率预测方法及其模型的训练方法和装置 |
CN111275470B (zh) * | 2018-12-04 | 2023-12-01 | 北京嘀嘀无限科技发展有限公司 | 服务发起概率预测方法及其模型的训练方法和装置 |
CN110309578B (zh) * | 2019-06-27 | 2023-09-29 | 郑州铁路职业技术学院 | 一种基于计算机数据处理的经济数据拟合系统及方法 |
CN110309578A (zh) * | 2019-06-27 | 2019-10-08 | 郑州铁路职业技术学院 | 一种基于计算机数据处理的经济数据拟合系统及方法 |
CN111832613A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 模型训练方法、装置、电子设备和存储介质 |
CN112149754B (zh) * | 2020-09-30 | 2021-06-11 | 罗中岩 | 一种信息的分类方法、装置、设备及存储介质 |
CN112149754A (zh) * | 2020-09-30 | 2020-12-29 | 罗中岩 | 一种信息的分类方法、装置、设备及存储介质 |
CN113569929A (zh) * | 2021-07-15 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 基于小样本扩展的互联网服务提供方法、装置及电子设备 |
CN113569929B (zh) * | 2021-07-15 | 2024-03-01 | 北京淇瑀信息科技有限公司 | 基于小样本扩展的互联网服务提供方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2019169700A1 (zh) | 2019-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388924A (zh) | 一种数据分类方法、装置、设备及计算机可读存储介质 | |
CN108197664A (zh) | 模型获取方法、装置、电子设备及计算机可读存储介质 | |
CN106502889B (zh) | 预测云软件性能的方法和装置 | |
CN105446988B (zh) | 预测类别的方法和装置 | |
CN107516090A (zh) | 一体化人脸识别方法和系统 | |
CN108304936A (zh) | 机器学习模型训练方法和装置、表情图像分类方法和装置 | |
CN107533480A (zh) | 服务器选择装置、服务器选择方法及服务器选择程序 | |
CN108255738A (zh) | 自动化测试方法、装置、计算机设备及存储介质 | |
CN108304427A (zh) | 一种用户客群分类方法和装置 | |
CN104516897B (zh) | 一种针对应用对象进行排序的方法和装置 | |
CN109255072A (zh) | 信息召回方法及装置、计算机存储介质、电子设备 | |
CN108038052A (zh) | 自动化测试管理方法、装置、终端设备及存储介质 | |
CN108960264A (zh) | 分类模型的训练方法及装置 | |
CN109597858A (zh) | 一种商户的分类方法及其装置和商户的推荐方法及其装置 | |
CN108089923A (zh) | 基于加权Voronoi图的用户接入区域划分方法和装置 | |
CN110263821A (zh) | 交易特征生成模型的训练、交易特征的生成方法和装置 | |
CN108205570A (zh) | 一种数据检测方法和装置 | |
CN107766946A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN108985954A (zh) | 一种建立各标识的关联关系的方法以及相关设备 | |
CN107273979A (zh) | 基于服务级别来执行机器学习预测的方法及系统 | |
CN109918498A (zh) | 一种问题入库方法和装置 | |
CN108846695A (zh) | 终端更换周期的预测方法及装置 | |
CN106648557A (zh) | 一种应用程序编程接口api的分享方法和装置 | |
CN109376079A (zh) | 接口调用的测试方法及服务器 | |
CN110197004A (zh) | 基于移动终端的电路仿真方法、装置、计算机介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180810 |
|
RJ01 | Rejection of invention patent application after publication |