CN106874927A

CN106874927A - 一种随机强分类器的构建方法和系统

Info

Publication number: CN106874927A
Application number: CN201611224754.0A
Authority: CN
Inventors: 马阳玲; 杨周旺; 刘利刚; 王士玮
Original assignee: Hefei A Basai Information Science And Technology Ltd
Current assignee: Hefei A Basai Information Science And Technology Ltd
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2017-06-20

Abstract

本发明公开了一种随机强分类器的构建方法和系统，该方法包括以下步骤：根据预设的弱分类器个数n随机构建n个弱分类器；在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本；根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练，得到n个弱分类器的最终预测类别，用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别。

Description

一种随机强分类器的构建方法和系统

技术领域

本发明涉及强分类器技术领域，尤其涉及一种随机强分类器的构建方法和系统。

背景技术

决策树是一个树结构，其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。决策树的决策过程非常直观，容易被人理解。目前决策树已经成功运用于医学、制造产业、天文学、分支生物学以及商业等诸多领域。决策树算法有着训练时间复杂度较低，预测的过程比较快速，模型容易展示等良好的特性；但是单个决策树容易过拟合。

目前，从现有的分类算法中找到一个好的强分类算法比较难，所以需要一种可以把若干个弱分类器整合成一个强分类器的方法，传统的随机森林算法是把多个决策树组合起来，即在变量的使用和数据的使用上进行随机化，生成很多分类树，再汇总分类树的结果，这种算法的弱分类器都相同，弱分类器只有决策树，处理的方向单一效果不好。

发明内容

基于背景技术存在的技术问题，本发明提出了一种随机强分类器的构建方法和系统；

本发明提出的一种随机强分类器的构建方法，该方法包括以下步骤：

S1、根据预设的弱分类器个数n随机构建n个弱分类器；

S2、在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本；

S3、根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练，得到n个弱分类器的最终预测类别，用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别。

其中，在S3中，根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练，得到n个弱分类器的最终预测类别，具体包括：

S31、根据预设随机率随机选取所述训练样本中属性值；

S32、用n个弱分类器分别对所述属性值加噪声干扰得到预测类别，将预测类别与训练样本的实际类别进行比较，得到每个属性的重要性分数，根据所述每个属性的重要性分数得到最终预测类别。

其中，在S3中，所述用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别，具体包括：获取所述n个弱分类器的最终预测类别中的众数，并将所述众数对应的最终预测类别作为强分类器的预测类别。

其中，根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的，且n个弱分类器之间互不干扰。

其中，还包括步骤S4，获取测试样本，对测试样本进行步骤S3操作，得到强分类器的目标预测类别，将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。

一种随机强分类器的构建系统，改系统包括：

弱分类器构建模块，用于根据预设的弱分类器个数n随机构建n个弱分类器；

训练样本创建模块，用于在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本；

训练模块，根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练，得到n个弱分类器的最终预测类别，用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别。

其中，所述训练模块，包括属性值获取子模块、预测类别获取子模块，

属性值获取子模块，用于根据预设随机率随机选取所述训练样本中属性值；

预测类别获取子模块，用于使用n个弱分类器分别对所述属性值加噪声干扰得到预测类别，将预测类别与训练样本的实际类别进行比较，得到每个属性的重要性分数，根据所述每个属性的重要性分数得到最终预测类别。

其中，所述训练模块，具体用于：获取所述n个弱分类器的最终预测类别中的众数，并将所述众数对应的最终预测类别作为强分类器的预测类别。

其中，所述训练模块，具体用于：根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的，且n个弱分类器之间互不干扰。

其中，还包括测试模块，测试模块用于获取测试样本，对测试样本进行训练模块操作，得到强分类器的目标预测类别，将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。

本发明目的是提供一种对数据分类的强分类器方法，根据该方法可以在不降低分类效果的同时弥补单一弱分类器分类的不足，可以处理多维数的数据分类问题，对于多维数的分类问题可以不需要进行降维处理直接进行分类，用该方法可以得出每个属性的重要性，在提高分类效果的基础上还减少了时间的开销。

附图说明

图1为本发明提出的一种随机强分类器的构建方法流程图；

图2为本发明提出的一种随机强分类器的构建系统模块示意图；

图3为本发明提出的一种随机强分类器的构建方法工作模式图。

具体实施方式

参照图1、图3，本发明提出的一种随机强分类器的构建方法，该方法包括以下步骤：

步骤S1，根据预设的弱分类器个数n随机构建n个弱分类器；

本实施例中，随机构建多个弱分类器，每个弱分类器均不相同，这些弱分类器包括SVM、决策树、逻辑回归分类器。

步骤S2，在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本；

本实施例中，通过有放回的随机选取与原始样本个数相同的数据集，将这些数据集作为训练样本，供步骤S1中的n个弱分类器进行训练。

步骤S3，根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练，得到n个弱分类器的最终预测类别，用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别；

在本步骤中，根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练，得到n个弱分类器的最终预测类别，具体包括：

S31、根据预设随机率随机选取所述训练样本中属性值；

在本步骤中，所述用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别，具体包括：获取所述n个弱分类器的最终预测类别中的众数，并将所述众数对应的最终预测类别作为强分类器的预测类别。

在本步骤中，根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的，且n个弱分类器之间互不干扰。

本实施例中，通过给定的随机率随机的选取新样本中属性值，然后用这些样本去训练这个分类器，在每个弱分类器训练的过程中，分别对每个属性值加噪声干得到预测类别，将预测类别跟已知的类别进行比较得到一个误差，从而可以得到每个属性的重要性分数，其中，每个分类器的训练过程是并行进行的互不干扰的。

该方法还包括步骤S4，获取测试样本，对测试样本进行步骤S3操作，得到强分类器的目标预测类别，将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。

本实施例中，通过步骤S4，对强分类器进行误差测试，测试通过强分类器得到目标预测类别与测试样本的已知类别之间的误差，评估强分类器的性能。

一种随机强分类器的构建系统，该系统包括：

训练模块，包括属性值获取子模块、预测类别获取子模块，

训练模块，具体用于：获取所述n个弱分类器的最终预测类别中的众数，并将所述众数对应的最终预测类别作为强分类器的预测类别。

训练模块，具体用于：根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的，且n个弱分类器之间互不干扰。

该系统还包括测试模块，测试模块用于获取测试样本，对测试样本进行训练模块操作，得到强分类器的目标预测类别，将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。

本实施例中，测试模块，对强分类器进行误差测试，测试通过强分类器得到目标预测类别与测试样本的已知类别之间的误差，评估强分类器的性能。

实例：

从病患那里得到的皮肤病影像，它们的像素大小都不一样而且皮肤病的病患处在整幅图像中所处的位置比较小，所以为了预测比较准确对原始图像取300×300的patch，然后对这些patch进行分类。但是原始图像取patch之后有很多patch是非皮肤，因此首先要对这些patch进行皮肤、器官、毛发和背景的四分类，然后再对皮肤进行疾病和健康皮肤的多分类，最后通过这些patch的预测简单取众数得到原始图像是属于哪一类疾病。本发明主要用于patch前期的四分类。用随机强分类器对这些300×300的图像块进行分类，首先要对图像块提取它的颜色特征、纹理特征和形状特征，用这些特征组成的特征向量来描述图像块，人工标记好图像块的四种类别，然后用随机强分类器训练这些标记好提取的图像特征向量。对于新的图像块提取同样维数的特征向量，用训练好的强分类器进行预测。

原始病患影像有痤疮、银屑病和白癜风四种疾病，对这些图像取300×300的patch然后人工标记得到四个类别数据集，其中皮肤有5287块、毛发1108块、器官有660块和背景有1835块。用基于矩、颜色直方图、共生矩阵、局部二值模式和梯度方向直方图的方法提取图像块特征向量共1217维，由于数据集不均衡所以采用合成少数类过采样技术来扩充毛发、器官、背景的数据集到5287。

为了测试该方法是否稳定，采用十次交叉验证的方法，将每个类别数据集分成10等份，依次把每份作为测试集，剩下的9份作为训练集，每次有19008(各类有4752个)个数据集作为训练集，2112(各类有528个)个数据集作为测试集。用随机强分类器进行分类，其中弱分类器的个数为200，随机属性率为0.75，十次交叉验证的训练集平均分辨率为100％，测试集平均分辨率为97.88％，皮肤的平均召回率为98.496％，皮肤的平均准确率93.4％，训练和预测平均时间为399800ms。

同样的数据集用单个弱分类器进行分类的效果如下：十次交叉验证的训练集平均分辨率为100％，测试集的平均正确率95.21％，皮肤的平均召回率为93.629％，皮肤的平均准确率91.434％，训练和预测平均时间为431700ms。这些测试结果说明把该项发明用于皮肤病前期的四分类效果比单个弱分类器的效果好，且时间开销小。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种随机强分类器的构建方法，其特征在于，所述方法包括以下步骤：

S1、根据预设的弱分类器个数n随机构建n个弱分类器；

2.根据权利要求1所述的随机强分类器的构建方法，其特征在于，在S3中，根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练，得到n个弱分类器的最终预测类别，具体包括：

S31、根据预设随机率随机选取所述训练样本中属性值；

3.根据权利要求1所述的随机强分类器的构建方法，其特征在于，在S3中，所述用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别，具体包括：获取所述n个弱分类器的最终预测类别中的众数，并将所述众数对应的最终预测类别作为强分类器的预测类别。

4.根据权利要求1所述的随机强分类器的构建方法，其特征在于，在S3中，根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的，且n个弱分类器之间互不干扰。

5.根据权利要求1所述的随机强分类器的构建方法，其特征在于，还包括步骤S4，获取测试样本，对测试样本进行步骤S3操作，得到强分类器的目标预测类别，将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。

6.一种随机强分类器的构建系统，其特征在于，所述系统包括：

7.根据权利要求6所述的随机强分类器的构建系统，其特征在于，所述训练模块，包括属性值获取子模块、预测类别获取子模块，

8.根据权利要求6所述的随机强分类器的构建系统，其特征在于，所述训练模块，具体用于：获取所述n个弱分类器的最终预测类别中的众数，并将所述众数对应的最终预测类别作为强分类器的预测类别。

9.根据权利要求6所述的随机强分类器的构建系统，其特征在于，所述训练模块，具体用于：根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的，且n个弱分类器之间互不干扰。

10.根据权利要求6所述的随机强分类器的构建系统，其特征在于，还包括测试模块，测试模块用于获取测试样本，对测试样本进行训练模块操作，得到强分类器的目标预测类别，将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。