CN110991551A

CN110991551A - 样本处理方法、装置、电子设备和存储介质

Info

Publication number: CN110991551A
Application number: CN201911284314.8A
Authority: CN
Inventors: 盛文佳; 吴明丹; 高春旭; 叶峻
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-10
Anticipated expiration: 2039-12-13
Also published as: CN110991551B

Abstract

本申请公开了一种样本处理方法、装置、电子设备和存储介质，涉及大数据领域。具体方案为：接收用户输入的待处理的样本集，根据预设的进化算子和待处理的样本集，生成分类器集合；根据分类器集合中的目标决策树分类器，对待处理的样本集进行分类处理，获取待处理的样本集的分类结果，待处理的样本集的分类结果满足下述至少一项：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值；输出待处理的样本集的分类结果。通过设置待处理的样本集的分类结果需要满足的条件，进而使得构造的决策树分类器的分类结果能够满足该条件，避免了样本不平衡造成的分类结果不准确的问题。

Description

样本处理方法、装置、电子设备和存储介质

技术领域

本申请涉及大数据技术领域，尤其涉及分类领域中的样本处理方法、装置、电子设备和存储介质。

背景技术

近年来，大数据与人工智能技术迅猛发展，语音识别、图像识别、自然语言处理和知识图谱等已成为热点研究方向。在该各研究领域中，样本集的分类至关重要，如在图像识别中对图像中的像素块进行分类，以确定该图像中的目标对象(如图像中的人物)；或者在自然语言处理中对文字进行分类，如对用户对某一餐馆的评论进行好评和差评的分类，以确定该餐馆的评分。目前，对样本集进行分类的方法多种多样，如贝叶斯方法、决策树方法、支持向量机等。

在实际应用的场景中，待处理的样本集大都存在类别分布不平衡的问题，如在待处理的样本集中，某些类别的样本的数量远远多于其他几个或者某个类别的情况。而现有技术中的分类算法(如贝叶斯方法、决策树方法、支持向量机等)一般是将不平衡的样本集当作平衡的样本集来处理，这样导致的分类结果是多数类样本有较高的分类正确率，但是少数类样本的分类正确率却很低，进而导致样本的分类结果不准确。

发明内容

本申请提供一种样本处理方法、装置、电子设备和存储介质，能够提高分类结果的准确性。

本申请第一方面提供一种样本处理方法，包括：

接收用户输入的待处理的样本集，根据预设的进化算子和所述待处理的样本集，生成分类器集合，且根据所述分类器集合中的目标决策树分类器，对所述待处理的样本集进行分类处理，获取所述待处理的样本集的分类结果，并输出所述待处理的样本集的分类结果；所述预设的进化算子包括构造所述分类器集合中的决策树分类器的规则，所述分类器集合中的决策树分类器的个数大于或等于个数阈值；所述目标决策树分类器为所述分类器集合中适应度大于适应度阈值的决策树分类器，所述待处理的样本集的分类结果满足下述至少一项：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值。

本实施例中提供的样本处理方法能够预先设置能够设置构造的分类器的分类结果的目标(条件)，使得训练获得的分类器的分类结果都能够达到该目标，鉴于该目标在样本集不平衡时可以使得分类器朝着多数类样本和少数类样本进行权衡的方向进化，因此训练获取的分类器的分类结果可以避免因为样本集不平衡造成的样本分类不准确的问题，可以提高分类准确性。另，本申请中还根据适应度大于适应度阈值的分类器的分类结果获取最终的分类结果，鉴于适应度越大的分类器的分类结果更接近于期望分类结果，因此可以进一步提高分类结果的准确性。

在一种可能的设计中，接收所述用户输入的所述待处理的样本集的分类结果的目标，所述目标包括：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值。

在该设计中，用户可以预先设置所述待处理的样本集的分类结果的目标，即能够使得生成的分类器集合中的决策树分类器的分类结果能够满足上述目标。

在一种可能的设计中，所述根据预设的进化算子规则和所述待处理的样本集，生成分类器集合，包括：初始化所述待处理的样本集，生成初始分类器集合；根据所述初始分类器集合和所述预设的进化算子，生成所述分类器集合。

在一种可能的设计中，所述根据所述初始分类器集合和所述预设的进化算子，生成所述分类器集合，包括：若根据所述初始分类器集合和所述预设的进化算子，生成分类器集合中的决策树分类器的个数小于所述个数阈值，则重新采用预设的进化算子和所述初始分类器集合，继续生成新的分类器集合，直至所述新的分类器集合中的决策树分类器的个数大于或等于所述个数阈值。

在该设计中，限定生成分类器集合中的决策树分类器的个数小于所述个数阈值，可以使得生成的分类器集合中的决策树分类器满足多样性的要求，以可以在该分类器集合中选择较优的目标决策树分类器。

在一种可能的设计中，所述根据所述分类器集合中的目标决策树分类器，对所述待处理的样本集进行分类处理，获取所述待处理的样本集的分类结果之前，还包括：根据预设的适应度函数，获取所述分类器集合中每个决策树分类器的适应度，将适应度大于所述适应度阈值的决策树分类器作为所述目标决策树分类器。

在该设计中，可以采用适应度在分类器集合中选择较优的目标决策树分类器，以获取更为准确的分类结果。

在一种可能的设计中，所述目标决策树分类器为多个；所述根据所述分类器集合中的目标决策树分类器，对所述待处理的样本集进行分类处理，获取所述待处理的样本集的分类结果，包括：采用所述待处理的样本集，对每个所述目标决策树分类器进行训练，直至每个所述目标决策树分类器的迭代次数大于次数阈值时停止训练；获取每个所述目标决策树分类器对所述待处理的样本集的子分类结果；根据每个所述目标决策树分类器对所述待处理的样本集的子分类结果，获取所述待处理的样本集的分类结果。

在一种可能的设计中，所述分类器集合中的决策树分类器的规则包括：初始化规则、剪枝规则和增长规则；所述初始化规则为：采用贡献度大于第一贡献度阈值的特征进行决策树分类器的初始化，所述剪枝规则为：采用贡献度小于第二贡献度阈值的特征进行决策树分类器的剪枝，所述增长规则为：采用贡献度大于第三贡献度阈值的特征进行决策树分类器的增长，特征的贡献度与所述特征所属的标签对样本的分类结果的贡献度相关。

在该设计中，本实施例中本实施例中在分类器集合中的决策树分类器在进化过程中可以随时对特征节点进行遗传操作，如根据上述所述的初始化规则、剪枝规则和增长规则，这样可在决策树分类器随机的进化过程之中，通过选择更具有分辨能力的特征来进行决策树分类器的生成，加强分类器的学习，以此来引导决策树分类器的生成。

在一种可能的设计中，所述根据预设的进化算子和所述待处理的样本集，生成分类器集合之前，还包括：根据所述待处理的样本集中各类型的样本的数量，确定所述待处理的样本集为样本的类型分布不平衡的样本集，所述类型分布不平衡为：所述待处理的样本集中的第一类型的样本的数量与第二类型的样本的数量的差值大于预设值，所述第一类型和所述第二类型均为所述待处理的样本集中的样本的类型。

在该设计中，本实施例可以区分出类型分布不平衡的样本集，对类型分布不平衡的样本集采用上述的方法以提高样本分类结果的准确性。

本申请的第二方面提供一种样本处理装置，包括：

收发模块，用于接收用户输入的待处理的样本集。

处理模块，用于根据预设的进化算子和所述待处理的样本集，生成分类器集合，以及根据所述分类器集合中的目标决策树分类器，对所述待处理的样本集进行分类处理，获取所述待处理的样本集的分类结果，且输出所述待处理的样本集的分类结果；所述预设的进化算子包括构造所述分类器集合中的决策树分类器的规则，所述分类器集合中的决策树分类器的个数大于或等于个数阈值，所述目标决策树分类器为所述分类器集合中适应度大于适应度阈值的决策树分类器，所述待处理的样本集的分类结果满足下述至少一项：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值。

在一种可能的设计中，所述收发模块，还用于接收所述用户输入的所述待处理的样本集的分类结果的目标，所述目标包括：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值。

在一种可能的设计中，所述处理模块，具体用于初始化所述待处理的样本集，生成初始分类器集合，且根据所述初始分类器集合和所述预设的进化算子，生成所述分类器集合。

在一种可能的设计中，若根据所述初始分类器集合和所述预设的进化算子，生成分类器集合中的决策树分类器的个数小于所述个数阈值，则在一种可能的设计中，所述处理模块，具体用于重新采用预设的进化算子和所述初始分类器集合，继续生成新的分类器集合，直至所述新的分类器集合中的决策树分类器的个数大于或等于所述个数阈值。

在一种可能的设计中，所述处理模块，还用于根据预设的适应度函数，获取所述分类器集合中每个决策树分类器的适应度，将适应度大于所述适应度阈值的决策树分类器作为所述目标决策树分类器。

在一种可能的设计中，所述目标决策树分类器为多个。

对应的，所述处理模块，还用于采用所述待处理的样本集，对每个所述目标决策树分类器进行训练，直至每个所述目标决策树分类器的迭代次数大于次数阈值时停止训练，且获取每个所述目标决策树分类器对所述待处理的样本集的子分类结果，以及根据每个所述目标决策树分类器对所述待处理的样本集的子分类结果，获取所述待处理的样本集的分类结果。

在一种可能的设计中，所述处理模块，还用于根据所述待处理的样本集中各类型的样本的数量，确定所述待处理的样本集为样本的类型分布不平衡的样本集，所述类型分布不平衡为：所述待处理的样本集中的第一类型的样本的数量与第二类型的样本的数量的差值大于预设值，所述第一类型和所述第二类型均为所述待处理的样本集中的样本的类型。

上述第二方面以及各可能的设计提供的样本处理装置，其有益效果可以参见上述第一方面以及各可能的设计所带来的有益效果，在此不加赘述。

本申请的第三方面提供一种电子设备，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行上述第一方面的样本处理方法。

本申请的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述第一方面的样本处理方法。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请提供的样本处理方法适用的场景示意图；

图2是本申请提供的样本处理装置的界面变化示意图；

图3是本申请提供的样本处理方法的实施例一的流程示意图；

图4是本申请提供的样本处理方法的实施例二的流程示意图；

图5是本申请提供的样本处理方法的实施例三的流程示意图；

图6是本申请提供的样本处理装置的结构示意图；

图7是用来实现本申请实施例的样本处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前对样本集的分类方法大都以统计学为基础，如贝叶斯方法、决策树方法、神经网络方法和支持向量机等。贝叶斯方法用于分类，其缺点是无法准确地得到样本的分布概率。决策树方法用于分类，其缺点是需要根据数据的特征寻找最佳属性的集合来构建决策树。支持向量机方法用于分类，其缺点是在样本数据量过大时其分类性能会下降。在实际应用的过程中，分类样本集大都存在着明显的类别分布不平衡问题，即常常存在同一样本集中，某些类别样本的数量远远多于其他几个或者某个类别的情况。例如，在网络入侵、医疗诊断、信用卡欺诈、垃圾邮件过滤的分类集中，常出现样本集不平衡的问题，而样本不平衡无论是对二分类还是多分类问题，对现有分类算法带来了挑战。

现有技术中，针对不平衡的样本集时，贝叶斯方法、决策树方法、神经网络方法和支持向量机等分类方法大都将该不平衡的样本集作为平衡的样本集进行处理。这样导致的结果是多数类样本往往有较高的分类正确率，但是少数类样本识别率却很低，而一般情况下这样的少数类样本在分类过程中所扮演的角色又是最重要的，所以这种情况将会给分类带来极大的损失。这些问题一直没有得到很好地解决，根据对这些分类算法分析后发现，其困难之处大都是先验知识不足而造成的。

在分类问题领域中，遗传规划以其个体表达方式的灵活性、自身的学习并快速发现数据和数学表达式之间的联系，而且不需要太多的数据先验知识就可得到分类问题最终的解，这些良好的特性让遗传规划算法在数据分类问题上有着其他传统分类算法不可比拟的优越性，并且在样本数据量过多、复杂的多分类问题上表现突出。

在遗传规划用于分类时，一般将适应度函数作为进化分类的评估手段，现有技术中采用遗传规划进行分类的主要方案如下：

(1)使用一个标准的适应度指标：整体的分类正确率Acc，结果表明这个指标更适合平衡数据集，对于不平衡分类会造成分类器整体正确率很高、少数类正确率很低的结果。据此，该方案中的方法不能解决样本集不平衡的问题。

(2)使用了另外几种适应度函数：Ave，AUC_F和AUC_E。Ave是对多数类和少数类正确率进行权重的匹配，以此来指引分类器的偏向程度。AUC_F和AUC_E是通过计算分类器的AUC变体来提高分类器的性能。

(3)提出了四种新的适应度函数：Amse，Incr，Corr和Dist。前两个适应度函数Amse和Incr主要是用于提高真正类(True Positive，TP)和真负类(True Negative，TP)的个数，后两个适应度函数Corr和Dist用于进化出在类别判断上性能更优秀、但训练时间更短的分类器个体。

上述(2)和(3)能够在样本集不平衡时，进行一定程度上的引导，使得分类器的结果能够更好地在多数类样本和少数类样本的结果正确率中进行权重的分配，但是采用上述的方法需要预先设计一个合适的适应度函数，来引导分类器的进化过程，设计难度大。

为了解决现有技术中的问题，本申请提供了一种样本处理方法，能够设置构造的分类器的分类结果的目标(条件)，使得训练获得的分类器的分类结果都能够达到该目标，鉴于该目标在样本集不平衡时可以使得分类器朝着多数类样本和少数类样本进行权衡的方向进化，可以避免因为样本集不平衡造成的样本分类不准确的问题。应理解，多数类样本为数量占比较大的样本，少数类样本为数量占比较小的样本。

可选的，本实施例提供的样本处理方法的执行主体可以为样本处理装置，该样本处理装置可由任意的软件和/或硬件实现。其中，与该场景对应的场景示意图可如图1所示，图1是本申请提供的样本处理方法适用的场景示意图。可选的，终端设备可以包括但不限于为移动终端设备或固定终端设备。移动终端设备包括但不限于手机、个人数字助理(Personal Digital Assistant，简称：PDA)、平板电脑、便携设备(例如，便携式计算机、袖珍式计算机或手持式计算机)等。固定终端包括但不限于台式计算机等。应理解，图1中以终端设备为手机、样本处理装置为服务器为例进行示例说明。

其中，本实施例中用户可以通过终端设备将待处理的样本集发送至样本处理装置，以使样本处理装置对该样本集进行处理，即用户可以在样本处理装置中输入的待处理的样本集。可选的，本实施例中用户可以在样本处理装置中直接输入待处理的样本集，如可以采用上传待处理的样本集或者导入待处理的样本集的方式输入待处理的样本集。

示例性的，图2是本申请提供的样本处理装置的界面变化示意图。如图2的界面201所示，该界面上显示有上传待处理的样本集的控件，用户点击该“上传”控件，可以加载上传待处理的样本集，如界面跳转至202，该界面202上可以显示有加载文件的路径，用户选择待处理的样本集的存储路径后，可以加载该存储路径中对应存储的待处理的样本集。上传完成后，用户可以点击界面202上显示的“确定”控件或者“开始”控件等其他用于触发对待处理的样本集进行分类处理的控件，以使得样本处理装置对该待处理的样本集进行分类处理。

下述结合具体的实施例对本申请提供的样本处理方法进行说明。图3是本申请提供的样本处理方法的实施例一的流程示意图。如图3所示，本实施例提供的样本处理方法可以包括：

S301，接收用户输入的待处理的样本集。

本实施例中，若用户需要对待处理的样本集进行分类时，可以将待处理的样本集输入至样本处理装置，具体可以参照上述的相关描述。应理解，本实施例中的待处理的样本集可以根据应用场景的不同而不同，如，待处理的样本集可以为待分类的文本、图像等。

S302，根据预设的进化算子和待处理的样本集，生成分类器集合，预设的进化算子包括构造分类器集合中的决策树分类器的规则，分类器集合中的决策树分类器的个数大于或等于个数阈值。

本实施例中，可以预先设置分类器集合中的决策树分类器的进化算子，使得决策树分类器的进化过程按照该预设的进化算子进行构造、进化。其中，待处理的样本集可以作为构造分类器集合中决策树分类器的样本集，按照预设的进化算子，对决策树分类器进行构造、进化、进而生成分类器集合。其中，分类器集合中包含的决策树分类器的个数大于或等于个数阈值。

本实施例中对分类器集合中包含的决策树分类器的个数进行限定的主要目的是为了满足决策树分类器的多样性，使得根据该预设的进化算子和待处理的样本集中包含有可选择的多个决策树分类器。应理解，该分类器集合中的不同的决策树分类器对该待处理的样本集的期望分类结果不同，以便于可以在该多个决策树分类器中确定我们所需的更优的决策树分类器(应理解，更优的决策树分类器的待处理的样本集的实际分类结果更为接近期望分类结果)。

可选的，本实施例中的预设的进化算子包括构造分类器集合中的决策树分类器的规则。其中，该预设的进化算子可以包括初始化规则、剪枝规则和增长规则。具体的，初始化规则为：采用贡献度大于第一贡献度阈值的特征进行决策树分类器的初始化，剪枝规则为：采用贡献度小于第二贡献度阈值的特征进行决策树分类器的剪枝，增长规则为：采用贡献度大于第三贡献度阈值的特征进行决策树分类器的增长，特征的贡献度与特征所属的标签对样本的分类结果的贡献度相关。

应理解，上述第一贡献度阈值、第二贡献度阈值和第三贡献度阈值可以相同或不同。

基于此，下述对标签的特征，以及特征的贡献度进行说明。

示例性的，若待处理的样本集为图像样本集，该图像样本集中可以包括苹果、梨、香蕉的图像，且苹果、梨、香蕉的图像可以分别按照类型存放在3个文件夹中，文件夹命名即为该文件夹内所有图像的标签。标签的特征可以为图像的特征，如苹果的文件夹中包含有多张关于苹果的图像，该标签的特征可以为提取的该标签下的苹果的图像的特征。

特征的贡献度，代表特征在分类过程中分辨类别的能力，使用一个特征判断类别的能力越大，即说明该特征对样本类别标签的贡献度越大。其中，贡献度的定义如下：

对于一个待处理的样本集S＝{(X_i,c_i)|1≤i≤n}，其中X_i为样本的特征，可表示为X_i＝(x_i1,…,x_ij,…,x_in)，x_ij表示第i个样本的第j个特征，1≤i≤n，n为样本的个数，1≤j≤m，m为样本特征的个数，c_i为该数据样本X_i所属的标签，c_i∈C且C＝{C₁,C₂,…,C_k}。对于样本中的第j个特征，其贡献度C_j主要是求得每个样本中该特征值x_ij与类别c_i之间的相关性，具体可以如下公式一所示：

根据基于遗传规划的分类过程，可以发现，无论是在种群初始化还是利用进化算子进行迭代的过程中，根据进化结束最后得到的分类器个体可以知晓该分类器具体使用了哪些函数符集、哪些样本特征等等分类判断细则，这说明基于遗传规划的分类器是“白箱”操作，能够知道分类器在训练过程中初始化随机选取了哪些特征、在进化过程中又有哪些特征节点被选取做突变、交叉操作。由于遗传规划的进化过程是随机的，而选取的特征却对分类结果有显著的决定性意义，在分类器训练的过程中，希望分类器能够选取到更有贡献价值的特征，在进化过程中将与标签相关性不大的特征可进行突变，以此来引导分类器，从数据集样本的众多特征中得到更多的有效信息。

据此，本实施例中本实施例中在分类器集合中的决策树分类器在进化过程中可以随时对特征节点进行遗传操作，如根据上述所述的初始化规则、剪枝规则和增长规则，这样可在决策树分类器随机的进化过程之中，通过选择更具有分辨能力的特征来进行决策树分类器的生成，加强分类器的学习，以此来引导决策树分类器的生成。

S303，根据分类器集合中的目标决策树分类器，对待处理的样本集进行分类处理，获取待处理的样本集的分类结果，目标决策树分类器为分类器集合中适应度大于适应度阈值的决策树分类器，待处理的样本集的分类结果满足下述至少一项：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值。

本实施例中可以采用分类器集合中的目标决策树分类器，对待处理的样本集进行分类处理，以获取该目标决策树分类器对待处理的样本集的分类结果。

应理解，本实施例中可以根据适应度在分类器集合中，获取目标决策树分类器。具体的，本实施例中选择适应度大于适应度阈值的决策树分类器作为目标分类器。可选的，本实施例中可以将适应度小于或等于适应度阈值的决策树分类器删除。

应理解，本实施例中，用户可以预先设置待处理的样本集的分类结果的目标，即本实施例中的待处理的样本集的分类结果满足的至少一项的条件：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值。

其中，用于可以预先输入待处理的样本集的分类结果的目标(分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值)，在样本处理装置在接收到待处理的样本集时，按照预先设置的目标进行决策树分类器的生成，以获取分类器集合。这样，生成的分类器集合中的每个决策树分类器对待处理的样本集的分类结果满足至少一项：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值。

对应的，本实施例中还在该分类器集合中确定适应度大于适应度阈值的目标决策树分类器，即目标决策树分类器是能够满足上述目标的决策树分类器中的较优的分类器。进而采用该目标决策树分类器对该待处理的样本集进行分类，获取的分类结果不仅满足上述目标，且具有较高的准确性。

应注意，本实施例中采用设置多目标的方式，设置决策树分类器的进化的三个目标，进而使得决策树分类器可以在进化生成的过程中在待处理的样本集中对多数类和少数类之间进行权衡，进而避免将不平衡的样本集作为平衡的样本集进行处理造成的分类结果不准确的问题。

S304，输出待处理的样本集的分类结果。

本实施例中，在获取目标决策树分类器对待处理的样本集的分类结果后，可以输出待处理的样本集的分类结果。可选的，若待处理的样本集为图像集时，待处理的样本集的分类结果可以为：标签为苹果的文件夹中的每个图像为苹果的置信度、标签为香蕉的文件夹中的每个图像为香蕉的置信度和标签为梨的文件夹中的图像为梨的置信度。

示例性的，如图2中的界面202跳转至界面203，该界面上可以显示有已处理的样本集，用户点击该已处理的样本集，可以显示有如上述3个文件夹，每个文件夹中包括有每个标签对应的图像属于该标签的置信度。

在上述实施例的基础上，下面结合图4对本申请提供的样本处理方法进行进一步详细说明。图4是本申请提供的样本处理方法的实施例二的流程示意图。如图4所示，本实施例提供的样本处理方法可以包括：

S401，接收用户输入的待处理的样本集的分类结果的目标。

S402，接收用户输入的待处理的样本集。

应理解，本实施例中的S401、S402中的实施方式可以参照上述实施例中的S303、S301中的相关描述，在此不做赘述。

S403，初始化待处理的样本集，生成初始分类器集合。

应理解，上述实施例中的待处理的样本集可以为类型分布平衡的样本集或者类型分布不平衡的样本集。其中，类型分布不平衡为：待处理的样本集中的第一类型的样本的数量与第二类型的样本的数量的差值大于预设值，第一类型和第二类型均为待处理的样本集中的样本的类型。其中，第一类型和第二类型可以为上述所述的标签，如第一类型为苹果，第二类型为香蕉。

为了更有针对性的对类型分布平衡的样本集进行上述的处理，本实施例中可以根据待处理的样本集中各类型的样本的数量，确定待处理的样本集为样本的类型分布不平衡的样本集时，执行本实施例中的步骤进行处理。

本实施例中首先初始化种群(即待处理的样本集)。其中，进行决策树分类器的生成开始时均需要进行种群的初始化，根据初始化方法的不同形式可以将待处理的样本集分成M类随机方法、定值设定法、两步式方法、混合方法和具体应用法等。本实施例中对此不作赘述，具体可以参照现有技术中的相关描述。其中，在进行初始化种群后，可以生成初始分类器集合，应理解，该初始分类器集合中的决策树分类器为未按照上述设置的目标进化的分类器。

应理解，本实施例中还可以初始化外部存档集，即将生成的初始分类器集合中的决策树分类器进行存储。

S404，根据初始分类器集合和预设的进化算子，生成分类器集合。

进一步的，本实施例中可以在初始化集合中的决策树分类器的基础上，按照预设的进化算子和待处理的样本集，对该初始化集合中的决策树分类器进行进一步进化处理，以生成上述的分类器集合，该分类器集合中的决策树分类器的进化方向为上述设置的三个目标。

应理解，若根据初始分类器集合和预设的进化算子，生成分类器集合中的决策树分类器的个数小于个数阈值，则重新采用预设的进化算子和初始分类器集合，继续生成新的分类器集合，直至新的分类器集合中的决策树分类器的个数大于或等于个数阈值。

其中，个数阈值为预先设置并存储在样本处理装置中的，设置该个数阈值的目的是为了使得生成的分类器集合中的决策树分类器满足多样性。

S405，根据预设的适应度函数，获取分类器集合中每个决策树分类器的适应度，将适应度大于适应度阈值的决策树分类器作为目标决策树分类器。

本实施例中，预先设置有选择决策，该选择决策可以为适应度大于适应度阈值。对应的，在获取上述分类器集合后，可以根据预设的适应度函数，获取分类器集合中每个决策树分类器的适应度，进而将适应度大于适应度阈值的决策树分类器作为目标决策树分类器。

对应的，在获取目标决策树分类器后可以更新外部存档集，将该目标决策树分类器存储至该外部存档集中，且删除分类器集合中的非目标决策树分类器。

S406，采用待处理的样本集，对每个目标决策树分类器进行训练，直至每个目标决策树分类器的迭代次数大于次数阈值时停止训练。

本实施例中的目标决策树分类器为多个。在获取目标决策树分类器后，可以采用待处理的样本集，对每个目标决策树分类器进行训练，直至每个目标决策树分类器的迭代次数大于次数阈值时停止训练。

S407，获取每个目标决策树分类器对待处理的样本集的子分类结果，且根据每个目标决策树分类器对待处理的样本集的子分类结果，获取待处理的样本集的分类结果。

本实施例中，在对每个目标决策树分类器训练完后，可以获取每个目标决策树分类器对待处理的样本集的子分类结果，即每个目标决策树分类器对应一个子分类结果。进而根据该每个目标决策树分类器对待处理的样本集的子分类结果，获取待处理的样本集的分类结果。

其中，可以根据非支配排序得到帕累托Pareto前沿。其中，Pareto解称非支配解或不受支配解(non-dominated solutions)，在有多个目标时，由于存在目标之间的冲突和无法比较的现象，一个解在某个目标上是最好的，在其他的目标上可能是最差的。这些在改进任何目标函数的同时，必然会削弱至少一个其他目标函数的解称为非支配解或Pareto解。一组目标函数最优解的集合称为Pareto最优集。最优集在空间上形成的曲面称为Pareto前沿。

进一步的，对上述得到的Pareto前沿进行集成决策，以获取最终的分类结果。示例性的，若每个子分类结果为：标签为苹果的文件夹中的每个图像为苹果的置信度、标签为香蕉的文件夹中的每个图像为香蕉的置信度和标签为梨的文件夹中的图像为梨的置信度。该集成决策可以为对多个子分类结果进行均值处理，或者进行区最值处理，本实施例中对此不作限制。

应用本实施例中的样本处理方法、以及现有的SVM，Logistic Regression和Native Bayes作为比较方法，通过30次仿真运算，可以获取样本分类的结果(以均值和方差的形式)在下述表一中示出。

表一

应理解，上述表一中的F值(F-Measure)为一种评价指标，可以为准确率(Precision)、召回率(Recall)的调和平均值，而G值(G-measure)为是几何平均值。上述M为均值，V为方差。

可以理解的是，依据多目标遗传规划来进化分类器，对二分类情况而言，一个单分类器即可判断出类别，所以多目标进化时生成一个Pareto前沿即可，前沿中都是该单分类器的最优集合，具体流程如图5所示。图5是本申请提供的样本处理方法的实施例三的流程示意图。其中，该方法可以包括：

S501，接收用户输入的待处理的样本集的分类结果的目标。

S502，接收用户输入的待处理的样本集。

S503，采用待处理的样本集，单线程训练二分类分类器。

S504，根据二分类分类器、预设的进化算子、待处理的样本集，生成分类器集合。

S505，采用待处理的样本集，对分类器集合中的分类器进行训练，获取一个Pareto前沿。

S506，对Pareto前沿进行集成决策，以获取最终的分类结果。

应理解，本实施例中的S501-S506可以参照图4实施例二中的S401-S407中的相关描述，区别仅在于本实施例中的分类器为二分类分类器，上述的分类器为多分类器。

本实施例中，在初始分类器集合的基础上，采用预设的进化算子对该初始分类器集合进行进一步进化，生成满足用户设置的目标的分类器集合，而用户设置的目标能够引导分类器集合中的决策树分类器能够在多数类和少数类之间进行权衡，进而避免样本不平衡造成的分类结果不准确的问题；且进一步的，本实施例中采用较优的目决策树分类器的分类结果进行集成决策，进一步提高了分类结果的准确性。

图6是本申请提供的样本处理装置的结构示意图。如图6所示，本实施例提供的样本处理装置600可以包括：收发模块601、处理模块602和收发模块603。

收发模块601，用于接收用户输入的待处理的样本集；

处理模块602，用于根据预设的进化算子和待处理的样本集，生成分类器集合，以及根据分类器集合中的目标决策树分类器，对待处理的样本集进行分类处理，获取待处理的样本集的分类结果，且输出待处理的样本集的分类结果；预设的进化算子包括构造分类器集合中的决策树分类器的规则，分类器集合中的决策树分类器的个数大于或等于个数阈值，目标决策树分类器为分类器集合中适应度大于适应度阈值的决策树分类器，待处理的样本集的分类结果满足下述至少一项：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值。

在一种可能的设计中，收发模块601，还用于接收用户输入的待处理的样本集的分类结果的目标，目标包括：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值。

在一种可能的设计中，处理模块602，具体用于初始化待处理的样本集，生成初始分类器集合，且根据初始分类器集合和预设的进化算子，生成分类器集合。

在一种可能的设计中，若根据初始分类器集合和预设的进化算子，生成分类器集合中的决策树分类器的个数小于个数阈值，则在一种可能的设计中，处理模块602，具体用于重新采用预设的进化算子和初始分类器集合，继续生成新的分类器集合，直至新的分类器集合中的决策树分类器的个数大于或等于个数阈值。

在一种可能的设计中，处理模块602，还用于根据预设的适应度函数，获取分类器集合中每个决策树分类器的适应度，将适应度大于适应度阈值的决策树分类器作为目标决策树分类器。

在一种可能的设计中，目标决策树分类器为多个。

对应的，处理模块602，还用于采用待处理的样本集，对每个目标决策树分类器进行训练，直至每个目标决策树分类器的迭代次数大于次数阈值时停止训练，且获取每个目标决策树分类器对待处理的样本集的子分类结果，以及根据每个目标决策树分类器对待处理的样本集的子分类结果，获取待处理的样本集的分类结果。

在一种可能的设计中，分类器集合中的决策树分类器的规则包括：初始化规则、剪枝规则和增长规则；初始化规则为：采用贡献度大于第一贡献度阈值的特征进行决策树分类器的初始化，剪枝规则为：采用贡献度小于第二贡献度阈值的特征进行决策树分类器的剪枝，增长规则为：采用贡献度大于第三贡献度阈值的特征进行决策树分类器的增长，特征的贡献度与特征所属的标签对样本的分类结果的贡献度相关。

在一种可能的设计中，处理模块602，还用于根据待处理的样本集中各类型的样本的数量，确定待处理的样本集为样本的类型分布不平衡的样本集，类型分布不平衡为：待处理的样本集中的第一类型的样本的数量与第二类型的样本的数量的差值大于预设值，第一类型和第二类型均为待处理的样本集中的样本的类型。

本实施例提供的样本处理装置与上述样本处理方法实现的原理和技术效果类似，在此不作赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图7所示，是根据本申请实施例的样本处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的样本处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的样本处理方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的样本处理方法对应的程序指令/模块。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及样本处理，即实现上述方法实施例中的样本处理方法。

存储器702可以包括存储程序区和存储样本区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储样本区可存储根据用于执行样本处理方法的电子设备的使用所创建的样本等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至用于执行样本处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图7中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与用于执行样本处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收样本和指令，并且将样本和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或样本提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或样本提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为样本服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字样本通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种样本处理方法，其特征在于，包括：

接收用户输入的待处理的样本集；

根据预设的进化算子和所述待处理的样本集，生成分类器集合，所述预设的进化算子包括构造所述分类器集合中的决策树分类器的规则，所述分类器集合中的决策树分类器的个数大于或等于个数阈值；

根据所述分类器集合中的目标决策树分类器，对所述待处理的样本集进行分类处理，获取所述待处理的样本集的分类结果，所述目标决策树分类器为所述分类器集合中适应度大于适应度阈值的决策树分类器，所述待处理的样本集的分类结果满足下述至少一项：分类错误的正样本的数量小于第一阈值、分类错误的负样本的数量小于第二阈值以及生成的决策树分类器的树的深度小于深度阈值；

输出所述待处理的样本集的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述根据预设的进化算子规则和所述待处理的样本集，生成分类器集合，包括：

初始化所述待处理的样本集，生成初始分类器集合；

根据所述初始分类器集合和所述预设的进化算子，生成所述分类器集合。

3.根据权利要求2所述的方法，其特征在于，所述根据所述初始分类器集合和所述预设的进化算子，生成所述分类器集合，包括：

若根据所述初始分类器集合和所述预设的进化算子，生成分类器集合中的决策树分类器的个数小于所述个数阈值，则重新采用预设的进化算子和所述初始分类器集合，继续生成新的分类器集合，直至所述新的分类器集合中的决策树分类器的个数大于或等于所述个数阈值。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述分类器集合中的目标决策树分类器，对所述待处理的样本集进行分类处理，获取所述待处理的样本集的分类结果之前，还包括：

根据预设的适应度函数，获取所述分类器集合中每个决策树分类器的适应度，将适应度大于所述适应度阈值的决策树分类器作为所述目标决策树分类器。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述目标决策树分类器为多个；

所述根据所述分类器集合中的目标决策树分类器，对所述待处理的样本集进行分类处理，获取所述待处理的样本集的分类结果，包括：

采用所述待处理的样本集，对每个所述目标决策树分类器进行训练，直至每个所述目标决策树分类器的迭代次数大于次数阈值时停止训练；

获取每个所述目标决策树分类器对所述待处理的样本集的子分类结果；

根据每个所述目标决策树分类器对所述待处理的样本集的子分类结果，获取所述待处理的样本集的分类结果。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述分类器集合中的决策树分类器的规则包括：初始化规则、剪枝规则和增长规则；所述初始化规则为：采用贡献度大于第一贡献度阈值的特征进行决策树分类器的初始化，所述剪枝规则为：采用贡献度小于第二贡献度阈值的特征进行决策树分类器的剪枝，所述增长规则为：采用贡献度大于第三贡献度阈值的特征进行决策树分类器的增长，特征的贡献度与所述特征所属的标签对样本的分类结果的贡献度相关。

7.根据权利要求1所述的方法，其特征在于，所述待处理的样本集为样本的类型分布不平衡的样本集，所述类型分布不平衡为：所述待处理的样本集中的第一类型的样本的数量与第二类型的样本的数量的差值大于预设值，所述第一类型和所述第二类型均为所述待处理的样本集中的样本的类型。

8.一种样本处理装置，其特征在于，包括：

收发模块，用于接收用户输入的待处理的样本集；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。