CN106874927A - 一种随机强分类器的构建方法和系统 - Google Patents

一种随机强分类器的构建方法和系统 Download PDF

Info

Publication number
CN106874927A
CN106874927A CN201611224754.0A CN201611224754A CN106874927A CN 106874927 A CN106874927 A CN 106874927A CN 201611224754 A CN201611224754 A CN 201611224754A CN 106874927 A CN106874927 A CN 106874927A
Authority
CN
China
Prior art keywords
classifier
prediction classification
random
weak classifier
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611224754.0A
Other languages
English (en)
Inventor
马阳玲
杨周旺
刘利刚
王士玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei A Basai Information Science And Technology Ltd
Original Assignee
Hefei A Basai Information Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei A Basai Information Science And Technology Ltd filed Critical Hefei A Basai Information Science And Technology Ltd
Priority to CN201611224754.0A priority Critical patent/CN106874927A/zh
Publication of CN106874927A publication Critical patent/CN106874927A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种随机强分类器的构建方法和系统,该方法包括以下步骤:根据预设的弱分类器个数n随机构建n个弱分类器;在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本;根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别。

Description

一种随机强分类器的构建方法和系统
技术领域
本发明涉及强分类器技术领域,尤其涉及一种随机强分类器的构建方法和系统。
背景技术
决策树是一个树结构,其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。决策树的决策过程非常直观,容易被人理解。目前决策树已经成功运用于医学、制造产业、天文学、分支生物学以及商业等诸多领域。决策树算法有着训练时间复杂度较低,预测的过程比较快速,模型容易展示等良好的特性;但是单个决策树容易过拟合。
目前,从现有的分类算法中找到一个好的强分类算法比较难,所以需要一种可以把若干个弱分类器整合成一个强分类器的方法,传统的随机森林算法是把多个决策树组合起来,即在变量的使用和数据的使用上进行随机化,生成很多分类树,再汇总分类树的结果,这种算法的弱分类器都相同,弱分类器只有决策树,处理的方向单一效果不好。
发明内容
基于背景技术存在的技术问题,本发明提出了一种随机强分类器的构建方法和系统;
本发明提出的一种随机强分类器的构建方法,该方法包括以下步骤:
S1、根据预设的弱分类器个数n随机构建n个弱分类器;
S2、在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本;
S3、根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别。
其中,在S3中,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,具体包括:
S31、根据预设随机率随机选取所述训练样本中属性值;
S32、用n个弱分类器分别对所述属性值加噪声干扰得到预测类别,将预测类别与训练样本的实际类别进行比较,得到每个属性的重要性分数,根据所述每个属性的重要性分数得到最终预测类别。
其中,在S3中,所述用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别,具体包括:获取所述n个弱分类器的最终预测类别中的众数,并将所述众数对应的最终预测类别作为强分类器的预测类别。
其中,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的,且n个弱分类器之间互不干扰。
其中,还包括步骤S4,获取测试样本,对测试样本进行步骤S3操作,得到强分类器的目标预测类别,将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。
一种随机强分类器的构建系统,改系统包括:
弱分类器构建模块,用于根据预设的弱分类器个数n随机构建n个弱分类器;
训练样本创建模块,用于在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本;
训练模块,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别。
其中,所述训练模块,包括属性值获取子模块、预测类别获取子模块,
属性值获取子模块,用于根据预设随机率随机选取所述训练样本中属性值;
预测类别获取子模块,用于使用n个弱分类器分别对所述属性值加噪声干扰得到预测类别,将预测类别与训练样本的实际类别进行比较,得到每个属性的重要性分数,根据所述每个属性的重要性分数得到最终预测类别。
其中,所述训练模块,具体用于:获取所述n个弱分类器的最终预测类别中的众数,并将所述众数对应的最终预测类别作为强分类器的预测类别。
其中,所述训练模块,具体用于:根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的,且n个弱分类器之间互不干扰。
其中,还包括测试模块,测试模块用于获取测试样本,对测试样本进行训练模块操作,得到强分类器的目标预测类别,将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。
本发明目的是提供一种对数据分类的强分类器方法,根据该方法可以在不降低分类效果的同时弥补单一弱分类器分类的不足,可以处理多维数的数据分类问题,对于多维数的分类问题可以不需要进行降维处理直接进行分类,用该方法可以得出每个属性的重要性,在提高分类效果的基础上还减少了时间的开销。
附图说明
图1为本发明提出的一种随机强分类器的构建方法流程图;
图2为本发明提出的一种随机强分类器的构建系统模块示意图;
图3为本发明提出的一种随机强分类器的构建方法工作模式图。
具体实施方式
参照图1、图3,本发明提出的一种随机强分类器的构建方法,该方法包括以下步骤:
步骤S1,根据预设的弱分类器个数n随机构建n个弱分类器;
本实施例中,随机构建多个弱分类器,每个弱分类器均不相同,这些弱分类器包括SVM、决策树、逻辑回归分类器。
步骤S2,在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本;
本实施例中,通过有放回的随机选取与原始样本个数相同的数据集,将这些数据集作为训练样本,供步骤S1中的n个弱分类器进行训练。
步骤S3,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别;
在本步骤中,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,具体包括:
S31、根据预设随机率随机选取所述训练样本中属性值;
S32、用n个弱分类器分别对所述属性值加噪声干扰得到预测类别,将预测类别与训练样本的实际类别进行比较,得到每个属性的重要性分数,根据所述每个属性的重要性分数得到最终预测类别。
在本步骤中,所述用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别,具体包括:获取所述n个弱分类器的最终预测类别中的众数,并将所述众数对应的最终预测类别作为强分类器的预测类别。
在本步骤中,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的,且n个弱分类器之间互不干扰。
本实施例中,通过给定的随机率随机的选取新样本中属性值,然后用这些样本去训练这个分类器,在每个弱分类器训练的过程中,分别对每个属性值加噪声干得到预测类别,将预测类别跟已知的类别进行比较得到一个误差,从而可以得到每个属性的重要性分数,其中,每个分类器的训练过程是并行进行的互不干扰的。
该方法还包括步骤S4,获取测试样本,对测试样本进行步骤S3操作,得到强分类器的目标预测类别,将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。
本实施例中,通过步骤S4,对强分类器进行误差测试,测试通过强分类器得到目标预测类别与测试样本的已知类别之间的误差,评估强分类器的性能。
一种随机强分类器的构建系统,该系统包括:
弱分类器构建模块,用于根据预设的弱分类器个数n随机构建n个弱分类器;
本实施例中,随机构建多个弱分类器,每个弱分类器均不相同,这些弱分类器包括SVM、决策树、逻辑回归分类器。
训练样本创建模块,用于在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本;
本实施例中,通过有放回的随机选取与原始样本个数相同的数据集,将这些数据集作为训练样本,供步骤S1中的n个弱分类器进行训练。
训练模块,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别。
训练模块,包括属性值获取子模块、预测类别获取子模块,
属性值获取子模块,用于根据预设随机率随机选取所述训练样本中属性值;
预测类别获取子模块,用于使用n个弱分类器分别对所述属性值加噪声干扰得到预测类别,将预测类别与训练样本的实际类别进行比较,得到每个属性的重要性分数,根据所述每个属性的重要性分数得到最终预测类别。
训练模块,具体用于:获取所述n个弱分类器的最终预测类别中的众数,并将所述众数对应的最终预测类别作为强分类器的预测类别。
训练模块,具体用于:根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的,且n个弱分类器之间互不干扰。
本实施例中,通过给定的随机率随机的选取新样本中属性值,然后用这些样本去训练这个分类器,在每个弱分类器训练的过程中,分别对每个属性值加噪声干得到预测类别,将预测类别跟已知的类别进行比较得到一个误差,从而可以得到每个属性的重要性分数,其中,每个分类器的训练过程是并行进行的互不干扰的。
该系统还包括测试模块,测试模块用于获取测试样本,对测试样本进行训练模块操作,得到强分类器的目标预测类别,将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。
本实施例中,测试模块,对强分类器进行误差测试,测试通过强分类器得到目标预测类别与测试样本的已知类别之间的误差,评估强分类器的性能。
实例:
从病患那里得到的皮肤病影像,它们的像素大小都不一样而且皮肤病的病患处在整幅图像中所处的位置比较小,所以为了预测比较准确对原始图像取300×300的patch,然后对这些patch进行分类。但是原始图像取patch之后有很多patch是非皮肤,因此首先要对这些patch进行皮肤、器官、毛发和背景的四分类,然后再对皮肤进行疾病和健康皮肤的多分类,最后通过这些patch的预测简单取众数得到原始图像是属于哪一类疾病。本发明主要用于patch前期的四分类。用随机强分类器对这些300×300的图像块进行分类,首先要对图像块提取它的颜色特征、纹理特征和形状特征,用这些特征组成的特征向量来描述图像块,人工标记好图像块的四种类别,然后用随机强分类器训练这些标记好提取的图像特征向量。对于新的图像块提取同样维数的特征向量,用训练好的强分类器进行预测。
原始病患影像有痤疮、银屑病和白癜风四种疾病,对这些图像取300×300的patch然后人工标记得到四个类别数据集,其中皮肤有5287块、毛发1108块、器官有660块和背景有1835块。用基于矩、颜色直方图、共生矩阵、局部二值模式和梯度方向直方图的方法提取图像块特征向量共1217维,由于数据集不均衡所以采用合成少数类过采样技术来扩充毛发、器官、背景的数据集到5287。
为了测试该方法是否稳定,采用十次交叉验证的方法,将每个类别数据集分成10等份,依次把每份作为测试集,剩下的9份作为训练集,每次有19008(各类有4752个)个数据集作为训练集,2112(各类有528个)个数据集作为测试集。用随机强分类器进行分类,其中弱分类器的个数为200,随机属性率为0.75,十次交叉验证的训练集平均分辨率为100%,测试集平均分辨率为97.88%,皮肤的平均召回率为98.496%,皮肤的平均准确率93.4%,训练和预测平均时间为399800ms。
同样的数据集用单个弱分类器进行分类的效果如下:十次交叉验证的训练集平均分辨率为100%,测试集的平均正确率95.21%,皮肤的平均召回率为93.629%,皮肤的平均准确率91.434%,训练和预测平均时间为431700ms。这些测试结果说明把该项发明用于皮肤病前期的四分类效果比单个弱分类器的效果好,且时间开销小。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种随机强分类器的构建方法,其特征在于,所述方法包括以下步骤:
S1、根据预设的弱分类器个数n随机构建n个弱分类器;
S2、在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本;
S3、根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别。
2.根据权利要求1所述的随机强分类器的构建方法,其特征在于,在S3中,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,具体包括:
S31、根据预设随机率随机选取所述训练样本中属性值;
S32、用n个弱分类器分别对所述属性值加噪声干扰得到预测类别,将预测类别与训练样本的实际类别进行比较,得到每个属性的重要性分数,根据所述每个属性的重要性分数得到最终预测类别。
3.根据权利要求1所述的随机强分类器的构建方法,其特征在于,在S3中,所述用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别,具体包括:获取所述n个弱分类器的最终预测类别中的众数,并将所述众数对应的最终预测类别作为强分类器的预测类别。
4.根据权利要求1所述的随机强分类器的构建方法,其特征在于,在S3中,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的,且n个弱分类器之间互不干扰。
5.根据权利要求1所述的随机强分类器的构建方法,其特征在于,还包括步骤S4,获取测试样本,对测试样本进行步骤S3操作,得到强分类器的目标预测类别,将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。
6.一种随机强分类器的构建系统,其特征在于,所述系统包括:
弱分类器构建模块,用于根据预设的弱分类器个数n随机构建n个弱分类器;
训练样本创建模块,用于在原始样本中有放回的随机选取与原始样本个数相同的数据集作为训练样本;
训练模块,根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练,得到n个弱分类器的最终预测类别,用投票法综合每个弱分类器的最终预测类别得到强分类器的预测类别。
7.根据权利要求6所述的随机强分类器的构建系统,其特征在于,所述训练模块,包括属性值获取子模块、预测类别获取子模块,
属性值获取子模块,用于根据预设随机率随机选取所述训练样本中属性值;
预测类别获取子模块,用于使用n个弱分类器分别对所述属性值加噪声干扰得到预测类别,将预测类别与训练样本的实际类别进行比较,得到每个属性的重要性分数,根据所述每个属性的重要性分数得到最终预测类别。
8.根据权利要求6所述的随机强分类器的构建系统,其特征在于,所述训练模块,具体用于:获取所述n个弱分类器的最终预测类别中的众数,并将所述众数对应的最终预测类别作为强分类器的预测类别。
9.根据权利要求6所述的随机强分类器的构建系统,其特征在于,所述训练模块,具体用于:根据预设随机率随机选取所述训练样本中属性值对所述n个弱分类器进行训练过程是并行的,且n个弱分类器之间互不干扰。
10.根据权利要求6所述的随机强分类器的构建系统,其特征在于,还包括测试模块,测试模块用于获取测试样本,对测试样本进行训练模块操作,得到强分类器的目标预测类别,将强分类器的目标预测类别与测试样本的已知类别进行比较对强分类器进行误差测试。
CN201611224754.0A 2016-12-27 2016-12-27 一种随机强分类器的构建方法和系统 Pending CN106874927A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611224754.0A CN106874927A (zh) 2016-12-27 2016-12-27 一种随机强分类器的构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611224754.0A CN106874927A (zh) 2016-12-27 2016-12-27 一种随机强分类器的构建方法和系统

Publications (1)

Publication Number Publication Date
CN106874927A true CN106874927A (zh) 2017-06-20

Family

ID=59165005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611224754.0A Pending CN106874927A (zh) 2016-12-27 2016-12-27 一种随机强分类器的构建方法和系统

Country Status (1)

Country Link
CN (1) CN106874927A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664971A (zh) * 2018-05-22 2018-10-16 中国科学技术大学 基于2d卷积神经网络的肺结节检测方法
CN109119069A (zh) * 2018-07-23 2019-01-01 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN110659276A (zh) * 2019-09-25 2020-01-07 江苏医健大数据保护与开发有限公司 一种计算机数据统计系统及其统计分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664971A (zh) * 2018-05-22 2018-10-16 中国科学技术大学 基于2d卷积神经网络的肺结节检测方法
CN108664971B (zh) * 2018-05-22 2021-12-14 中国科学技术大学 基于2d卷积神经网络的肺结节检测方法
CN109119069A (zh) * 2018-07-23 2019-01-01 深圳大学 特定人群识别方法、电子装置及计算机可读存储介质
CN110659276A (zh) * 2019-09-25 2020-01-07 江苏医健大数据保护与开发有限公司 一种计算机数据统计系统及其统计分类方法

Similar Documents

Publication Publication Date Title
CN108664971B (zh) 基于2d卷积神经网络的肺结节检测方法
CN106874688B (zh) 基于卷积神经网络的智能化先导化合物发现方法
CN108875076B (zh) 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
CN110413924A (zh) 一种半监督多视图学习的网页分类方法
Agrawal et al. Grape leaf disease detection and classification using multi-class support vector machine
CN107368700A (zh) 基于计算云平台的微生物多样性交互分析系统及其方法
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
CN103942571B (zh) 一种基于遗传规划算法的图形图像分类方法
Liang et al. Image feature selection using genetic programming for figure-ground segmentation
CN108629772A (zh) 图像处理方法及装置、计算机设备和计算机存储介质
CN108140133A (zh) 程序生成装置、程序生成方法及生成程序
CN103106265A (zh) 相似图像分类方法及系统
CN111524140B (zh) 基于cnn和随机森林法的医学图像语义分割方法
Douarre et al. Deep learning based root-soil segmentation from X-ray tomography images
CN111046920A (zh) 一种训练食品图像分类模型的方法及图像分类方法
CN106874927A (zh) 一种随机强分类器的构建方法和系统
Deng et al. Citrus disease recognition based on weighted scalable vocabulary tree
CN116310466A (zh) 基于局部无关区域筛选图神经网络的小样本图像分类方法
CN108229505A (zh) 基于fisher多级字典学习的图像分类方法
CN114882497A (zh) 一种基于深度学习算法实现水果分类识别的方法
US7272583B2 (en) Using supervised classifiers with unsupervised data
CN114065831A (zh) 基于多尺度随机深度残差网络的高光谱图像分类方法
CN107729918A (zh) 基于代价敏感支持向量机的元胞自动机涌现现象的分类方法
Yousofi et al. A study on image mining; its importance and challenges
CN108846429A (zh) 基于无监督学习的网络空间资源自动分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170620

RJ01 Rejection of invention patent application after publication