CN109325516A - 一种面向图像分类的集成学习方法及装置 - Google Patents

一种面向图像分类的集成学习方法及装置 Download PDF

Info

Publication number
CN109325516A
CN109325516A CN201810915726.6A CN201810915726A CN109325516A CN 109325516 A CN109325516 A CN 109325516A CN 201810915726 A CN201810915726 A CN 201810915726A CN 109325516 A CN109325516 A CN 109325516A
Authority
CN
China
Prior art keywords
model
integrated
verifying
layer
subset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810915726.6A
Other languages
English (en)
Other versions
CN109325516B (zh
Inventor
李宏宇
韩天奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongan Information Technology Service Co ltd
Original Assignee
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongan Information Technology Service Co Ltd filed Critical Zhongan Information Technology Service Co Ltd
Priority to CN201810915726.6A priority Critical patent/CN109325516B/zh
Publication of CN109325516A publication Critical patent/CN109325516A/zh
Application granted granted Critical
Publication of CN109325516B publication Critical patent/CN109325516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向图像分类的集成学习方法及装置,方法包括:将图像分类数据集划分为训练集和验证集,并利用训练集和验证集构建出多个图像分类模型,以作为基础层的模型;将验证集拆分成包括验证子集1至验证子集P的P份验证子集,每份验证子集内的样本数量均超过阈值,P大于等于1;在基础层上逐层执行如下操作,直至得到层数为P的集成模型层:使用验证子集x对上一层的模型进行bagging集成和boosting集成,得到第x层的集成模型,x为1至P的自然数;对集成模型层的第P层输出的多个预测结果进行bagging集成,得到最终的预测结果并输出。本发明充分利用bagging和boosting两类集成学习方法的优点,在保证深度模型没有被过拟合的情况下,进一步提高了图像分类精度。

Description

一种面向图像分类的集成学习方法及装置
技术领域
本发明涉及图像分类领域,特别涉及一种面向图像分类的集成学习方法及装置。
背景技术
图像分类技术在实际应用中有广泛需求。图像分类一般是先对图像进行特征提取,然后再对特征训练形成一个分类模型,来实现图像分类,而传统的特征提取方式依赖人工设计特征,只能适用于特定的场景,泛化能力较差。随着图像数据量的增大和深度神经网络技术的发展,采用深度学习方法(尤其是卷积神经网络CNN)提取图像特征进行分类逐渐成为主流,深度学习方法通过调整模型权重自动学习图像特征,不需要人工设计特征提取,可以得到较好的精度。
目前,已经出现了很多种深度网络模型,不同模型的学习能力各不相同,相互之间也存在一定的差异,因此具有不同的泛化能力。要想充分利用这些模型之间的差异性,可以采用集成学习方法,也就是,利用各个模型学习到的特征向量生成一个新的分类模型,以提升泛化能力。
常见的集成学习方法主要包括两大类:一种是各种分类模型之间相互独立的bagging方法;另一种是分类模型之间相互依赖的boosting方法。两类集成学习方法各有优缺点,bagging方法通常是对上一步模型输出的预测向量直接进行加权或投票得到集成的分类模型,其主要是关注降低方差,而boosting方法则是在上述预测的基础上利用额外的数据集重新训练一个学习器,得到最终的分类预测,其主要是关注降低偏差,由于在重新训练过程引入了额外数据,可以有效缓解深度模型过拟合的问题,但是对于很多场景获取额外数据的代价成本很高。而在固定集合上,分出一部分数据用于boosting训练则会相应减少深度模型的训练数据,导致深度模型倾向于过拟合。然而,如何充分利用好这两类方法,在保证深度模型没有被过拟合的情况下,进一步提高图像的分类精度,现有技术中尚无相应的解决方案。
发明内容
有鉴于此,本发明实施例提供了一种面向图像分类的集成学习方法及装置,通过充分利用bagging和boosting两类集成学习方法的优点,在保证深度模型没有被过拟合的情况下,能够进一步提高图像的分类精度。
本发明实施例提供的技术方案如下:
第一方面,提供了一种面向图像分类的集成学习方法,包括步骤:
将图像分类数据集划分为训练集和验证集,并利用所述训练集和所述验证集构建出多个图像分类模型,以作为基础层的模型;
将所述验证集拆分成包括验证子集1至验证子集P的P份验证子集,其中,每份验证子集内的样本数量均超过阈值,P大于等于1;
在所述基础层上逐层执行如下操作,直至得到层数为P的集成模型层:
使用验证子集x对上一层的模型进行bagging集成和boosting集成,得到第x层的集成模型,其中,x为1至P的自然数;
对所述集成模型层的第P层输出的多个预测结果进行bagging集成,得到最终的预测结果并输出。
在一些实施例中,所述利用所述训练集和所述验证集构建出多个图像分类模型包括:
利用所述训练集对多个深度网络模型分别进行训练;
利用所述验证集对训练后的多个深度网络模型分别进行验证;
构建出预测精度满足精度阈值的所述多个图像分类模型。
在一些实施例中,所述bagging集成的过程包括:
从所述上一层的n个模型中随机选出m个模型,m大于1且m小于等于n;
利用所述m个模型生成所述验证子集x的预测结果;
对所述验证子集x的预测结果采用bagging方法进行集成。
在一些实施例中,所述boosting集成的过程包括:
将所述上一层的n个模型随机分成t组模型,t大于等于1,且t小于n;
利用所述t组模型生成所述验证子集x的t组预测结果;
将所述t组预测结果中的每一组预测结果分别进行拼接成一个特征向量,得到t个特征向量;
对所述t个特征向量分别采用boosting方法进行集成。
在一些实施例中,所述boosting方法采用XGBoost、CatBoosting和LightGBM中的至少一种。
第二方面,提供了一种面向图像分类的集成学习装置,包括:
划分模块,用于将图像分类数据集划分为训练集和验证集;
构建模块,用于利用所述训练集和所述验证集构建出多个图像分类模型,以作为基础层的模型;
拆分模块,用于将所述验证集拆分成包括验证子集1至验证子集P的P份验证子集,其中,每份验证子集内的样本数量均超过阈值,P大于等于1;
第一集成模块,用于在所述基础层上逐层执行如下操作,直至得到层数为P的集成模型层:使用验证子集x对上一层的模型进行bagging集成和boosting集成,得到第x层的集成模型,其中,x为1至P的自然数;
第二集成模块,用于对所述集成模型层的第P层输出的多个预测结果进行bagging集成,得到最终的预测结果并输出。
在一些实施例中,所述构建模块具体用于:
利用所述训练集对多个深度网络模型分别进行训练;
利用所述验证集对训练后的多个深度网络模型分别进行验证;
构建出预测精度满足精度阈值的所述多个图像分类模型。
在一些实施例中,所述第一集成模块具体用于:
从所述上一层的n个模型中随机选出m个模型,m大于1且m小于等于n;
利用所述m个模型生成所述验证子集x的预测结果;
对所述验证子集x的预测结果采用bagging方法进行集成。
在一些实施例中,所述第一集成模块具体还用于:
将所述上一层的n个模型随机分成t组模型,t大于等于1,且t小于n;
利用所述t组模型生成所述验证子集x的t组预测结果;
将所述t组预测结果中的每一组预测结果分别进行拼接成一个特征向量,得到t个特征向量;
对所述t个特征向量分别采用boosting方法进行集成。
在一些实施例中,所述boosting方法采用XGBoost、CatBoosting和LightGBM中的至少一种。
第三方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的面向图像分类的集成学习方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的面向图像分类的集成学习方法。
本发明提供的面向图像分类的集成学习方法及装置,通过利用训练集和验证集构建出多个图像分类模型,以作为基础层的模型,以及使用从验证集拆分出的P份验证子集在基础层上逐层构建出层数为P的集成模型层,并对集成模型层的第P层输出的多个预测结果进行bagging集成,得到最终的预测结果并输出,由于充分考虑了各种模型的内在差异性,因此具有比任一深度模型或集成模型更好的泛化性能;此外,本实施例提供的方法可以适用于各种图像分类应用场景,尤其是在训练数据集合不大时,能够显著提高图像分类精度;此外,本实施例提供的方法通过使用验证集作为额外数据进行boosting集成训练新的分类器,这样可以在保证深度模型没有被过拟合的情况下,通过boosting集成进一步提高图像的分类精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种面向图像分类的集成学习方法的流程图;
图2是本发明实施例中提供的bagging集成示意图;
图3是本发明实施例中提供的boosting集成示意图;
图4是本发明实施例中提供的构建层数为2的集成模型层的示意图;
图5是本发明实施例中提供的一种面向图像分类的集成学习装置的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种面向图像分类的集成学习方法,参照图1所示,该方法包括如下步骤:
101、将图像分类数据集划分为训练集和验证集,并利用训练集和验证集构建出多个图像分类模型,以作为基础层的模型。
在本实施例中,可以采用随机选取的方法将图像分类数据集划分为训练集和验证集,训练集包含的样本数量一般占整个集合的样本数量的70%-90%,具体取决于单个类型中样本的数量N。当样本数N大于1000,选取70%或90%对训练深度神经网络模型的影响都不大,而剩余的验证样本集如果数量太少则会对后续的boosting训练影响很大。一般会在原始数据集很大时,训练集和验证集的分配比例可以分别是70%和30%,而在原始数据集很小时,训练集和验证集的分配比例可以取90%和10%。本发明实施例对具体的划分过程不加以限定。
具体的,利用训练集和验证集构建出多个图像分类模型,该过程可以包括:
利用训练集对多个深度网络模型分别进行训练,并利用验证集对训练后的多个深度网络模型分别进行验证,构建出预测精度满足精度阈值的多个图像分类模型。
其中,在训练集上训练多个深度网络模型时,可以采用不同的深度神经网络结构和训练策略生成不同的模型。具体来说,模型要尽可能选择结构差异比较大的网络,差异主要体现在网络的宽度、深度和采用的激活函数等,例如:ResNet、VGG、AlexNet、SeNet、DenseNet、Inception等以及这些模型的修改版,本领域技术人员可以理解的是,模型训练策略可以采用相应网络的常规策略,在此不再描述。
在使用训练集对多个深度网络模型进行训练后,可以使用验证集对训练后的多个深度网络模型分别进行验证,评估各个深度网络模型的预测准确率,依据模型预测准确率调整各个神经网络模型的网络参数,以构建出预测精度满足精度阈值的多个图像分类模型。
102、将验证集拆分成包括验证子集1至验证子集P的P份验证子集,其中,每份验证子集内的样本数量均超过阈值,P大于等于1。
其中,阈值可以根据经验进行设定,本实施例对此不加以限定。
本实施例中,通过将验证集拆分成样本数量均超过阈值的P份验证子集,能够保证后续进行boosting集成学习得到的基础模型具有更好的泛化性能。
103、在基础层上逐层执行如下操作,直至得到层数为P的集成模型层:使用验证子集x对上一层的模型进行bagging集成和boosting集成,得到第x层的集成模型,其中,x为1至P的自然数。
本实施例中,若验证集数据规模较小,从验证集中拆分出的验证子集仅为一份,在第一层,可以使用验证子集对基础层的图像分类模型进行bagging集成和boosting集成,得到第一层的集成模型;在第二层,对第一层得到的预测结果直接用bagging方法进行再次集成,从而得到最终的预测结果。
而验证集数据规模较大,从验证集中拆分出的验证子集为多份,在第一层,可以使用验证子集1对基础层的图像分类模型进行bagging集成和boosting集成,得到第一层的集成模型;在第二层,使用验证子集2对第一层的集成模型进行bagging集成和boosting集成,得到第2层的集成模型,依次类推,直至得到第P层的集成模型,在第P+1层,对第P层输出的预测结果进行bagging集成,从而得到最终的预测结果。
具体的,使用验证子集x对上一层的模型进行bagging集成和boosting集成,该过程可以包括:
利用上一层的模型对验证子集x进行分类预测,得到验证子集x的预测结果,对验证子集x的预测结果进行bagging集成和boosting集成,得到第x层的集成模型。
进一步的,bagging集成的过程可以包括:
从上一层的n个模型中随机选出m个模型,m大于1且m小于等于n;
利用m个模型生成验证子集x的预测结果;
对验证子集x的预测结果采用bagging方法进行集成。
其中,bagging集成采用的bagging方法为:
若预测结果为分类概率,则对分类概率进行平均或加权平均,若预测结果为分类标签,则对分类标签进行投票或加权投票。
示例性的,若将上一层的n个模型进行bagging集成,即:m=n,验证子集包括k种图像类型,那么,利用n个模型生成验证子集x的预测结果为(f1…fn),然后,对验证子集x的预测结果可以使用图2所示的bagging方法进行集成,其中,图2是本发明实施例中提供的bagging集成示意图。
进一步的,boosting集成的过程可以包括:
将上一层的n个模型随机分成t组模型,t大于等于1,且t小于n;
利用t组模型生成验证子集x的t组预测结果;
将t组预测结果中的每一组预测结果分别进行拼接成一个特征向量,得到t个特征向量;
对t个特征向量分别采用boosting方法进行集成。
其中,boosting方法采用XGBoost、CatBoosting和LightGBM中的至少一种。
示例性的,若将上一层的n个模型全部进行bagging集成,即:t=1,验证子集包括k种图像类型,那么,利用t组模型生成验证子集x的一组预测结果为(f1…fn),然后,对验证子集x的一组预测结果可以使用图3所示的boosting方法进行集成,图3是本发明实施例中提供的boosting集成示意图。
示例性的,如果从验证集中拆分出的验证子集为2份,即包括验证子集1和验证子集2,那么可以构建层数为2的集成模型层,参照图4所示,基础层的模型为{模型1、模型2、模型3、模型4、模型5},使用验证子集1对模型1、模型2和模型3进行bagging集成,得到集成模型1,使用验证子集1对模型2、模型3和模型4进行boosting集成,得到集成模型2,使用验证子集1对模型3、模型4和模型5进行boosting集成,得到集成模型3,由此可以得到第一层的集成模型{集成模型1、集成模型2、集成模型3};使用验证子集2对集成模型1和集成模型2进行bagging集成,得到集成模型4,使用验证子集2对集成模型1、集成模块2和集成模型3进行boosting集成,得到集成模型5,由此可以得到第二层的集成模型{集成模型4、集成模型5};之后,对第二层的集成模型进行bagging集成,得到集成模型6,通过集成模型6可以得到最终的预测结果。
需要说明的是,步骤104中构建集成模型层时各层采用的bagging方法可以相同,也可以不同,各层采用的boosting方法可以相同,也可以不同。
本实施例中,在构建集成模型层时,通过充分利用bagging和boosting两类集成学习方法的优点,能够进一步提高图像的分类精度。
104、对集成模型层的第P层输出的多个预测结果进行bagging集成,得到最终的预测结果并输出。
其中,bagging集成采用的bagging方法为:
若预测结果为分类概率,则对分类概率进行平均或加权平均,若预测结果为分类标签,则对分类标签进行投票或加权投票。
需要说明的是,步骤104中采用的bagging方法可以与步骤103中采用的bagging方法相同,也可以不同。
本发明提供的面向图像分类的集成学习方法,通过利用训练集和验证集构建出多个图像分类模型,以作为基础层的模型,以及使用从验证集拆分出的P份验证子集在基础层上逐层构建出层数为P的集成模型层,并对集成模型层的第P层输出的多个预测结果进行bagging集成,得到最终的预测结果并输出,由于充分考虑了各种模型的内在差异性,因此具有比任一深度模型或集成模型更好的泛化性能;此外,本实施例提供的方法可以适用于各种图像分类应用场景,尤其是在训练数据集合不大时,能够显著提高图像分类精度;此外,本实施例提供的方法通过使用验证集作为额外数据进行boosting集成训练新的分类器,这样可以在保证深度模型没有被过拟合的情况下,通过boosting集成进一步提高图像的分类精度。
为了进一步描述本实施例提供的面向图像分类的集成学习方法,下面将结合具体应用实例进行说明。
在该应用实例中,以CIFAR-10数据集为对象,该数据集共有60000张彩色图像,包括10种类型,每类6000张。该实施例中随机从每一类中挑选1000张图像作为集成算法输入数据,另挑选1000张不同图像作为测试本发明提出的集成算法泛化能力的测试数据。
步骤S1:在输入的每类1000张图像分类数据中,随机选取70%作为深度网络模型的训练数据,计每类700张;剩余30%作为验证数据,计每类300张。
由于验证数据规模较小,因此从验证数据中仅能拆分出一份验证集进行构建一层的集成模型。
步骤S2:选择5种不同的深度网络训练模型。所选择的模型分别为SeResneXt101(M1)、DenseNet201(M2)、InceptionV4(M3)、SeResneXt50(M4)、DenseNet161(M5)。训练方法均使用SGD梯度下降法,图像增强过程采用镜面、旋转、颜色变换等图像增强方法。
步骤S3:使用验证数据对上述5个模型进行bagging集成和boosting集成。具体来说,利用上述5个模型分别对验证数据进行分类预测,每个模型输出k=10维预测概率,在bagging集成过程中,对m个k(k是类型数,k=10)维深度网络模型的预测概率取平均,本实施例中取m=3,使用{M1,M2,M3}这3个模型进行bagging集成,可以得到1个集成模型,其中,Bagging集成模型的输出预测结果仍然为k维向量。同时,在boosting集成过程中,将5个深度模型随机分成t组(本实施例中取t=2),每组分别有s个(这里s等于3)模型,得到{M3,M4,M5},{M2,M3,M4}。分别对这2组模型使用boosting方法,每个模型输出k=10维预测概率,将s个10维概率堆叠成s*k维的向量作为新特征向量。在本实施例中,新特征向量为30维,分别选择xgboost方法训练新的集成模型,可以得到2个集成模型,可以得到输出预测概率为10维。通过bagging集成和boosting集成的过程,共可以得到3个集成模型。
步骤S4:对步骤S3中得到的3个集成模型进行集成,得到最终的预测结果并输出,集成算法使用bagging方法。作为优选,在步骤S4中使用对概率加权平均的方法,其中,3个集成模型对应的权重分别为{2,1,1}。
实施例二
作为对实施例一中的面向图像分类的集成学习方法的实现,本发明实施例还提供一种面向图像分类的集成学习装置,参照图5所示,该装置包括:
划分模块51,用于将图像分类数据集划分为训练集和验证集;
构建模块52,用于利用训练集和验证集构建出多个图像分类模型,以作为基础层的模型;
拆分模块53,用于将验证集拆分成包括验证子集1至验证子集P的P份验证子集,其中,每份验证子集内的样本数量均超过阈值,P大于等于1;
第一集成模块54,用于在基础层上逐层执行如下操作,直至得到层数为P的集成模型层:使用验证子集x对上一层的模型进行bagging集成和boosting集成,得到第x层的集成模型,其中,x为1至P的自然数;
第二集成模块55,用于对集成模型层的第P层输出的多个预测结果进行bagging集成,得到最终的预测结果并输出。
进一步地,构建模块52具体用于:
利用训练集对多个深度网络模型分别进行训练;
利用验证集对训练后的多个深度网络模型分别进行验证;
构建出预测精度满足精度阈值的多个图像分类模型。
在一些实施例中,第一集成模块54具体用于:
从上一层的n个模型中随机选出m个模型,m大于1且m小于等于n;
利用m个模型生成验证子集x的预测结果;
对验证子集x的预测结果采用bagging方法进行集成。
进一步地,第一集成模块54具体还用于:
将上一层的n个模型随机分成t组模型,t大于等于1,且t小于n;
利用t组模型生成验证子集x的t组预测结果;
将t组预测结果中的每一组预测结果分别进行拼接成一个特征向量,得到t个特征向量;
对t个特征向量分别采用boosting方法进行集成。
进一步地,boosting方法采用XGBoost、CatBoosting和LightGBM中的至少一种。
本实施例提供的面向图像分类的集成学习装置,与本发明实施例所提供的面向图像分类的集成学习方法属于同一发明构思,可执行本发明任意实施例所提供的面向图像分类的集成学习方法,具备执行面向图像分类的集成学习方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例提供的面向图像分类的集成学习方法,此处不再加以赘述。
此外,本发明另一实施例还提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的面向图像分类的集成学习方法。
此外,本发明另一实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的面向图像分类的集成学习方法。
本领域内的技术人员应明白,本发明实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本发明实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例中是参照根据本发明实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种面向图像分类的集成学习方法,其特征在于,包括步骤:
将图像分类数据集划分为训练集和验证集,并利用所述训练集和所述验证集构建出多个图像分类模型,以作为基础层的模型;
将所述验证集拆分成包括验证子集1至验证子集P的P份验证子集,其中,每份验证子集内的样本数量均超过阈值,P大于等于1;
在所述基础层上逐层执行如下操作,直至得到层数为P的集成模型层:
使用验证子集x对上一层的模型进行bagging集成和boosting集成,得到第x层的集成模型,其中,x为1至P的自然数;
对所述集成模型层的第P层输出的多个预测结果进行bagging集成,得到最终的预测结果并输出。
2.根据权利要求1所述的方法,其特征在于,所述利用所述训练集和所述验证集构建出多个图像分类模型包括:
利用所述训练集对多个深度网络模型分别进行训练;
利用所述验证集对训练后的多个深度网络模型分别进行验证;
构建出预测精度满足精度阈值的所述多个图像分类模型。
3.根据权利要求1所述的方法,其特征在于,所述bagging集成的过程包括:
从所述上一层的n个模型中随机选出m个模型,m大于1且m小于等于n;
利用所述m个模型生成所述验证子集x的预测结果;
对所述验证子集x的预测结果采用bagging方法进行集成。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述boosting集成的过程包括:
将所述上一层的n个模型随机分成t组模型,t大于等于1,且t小于n;
利用所述t组模型生成所述验证子集x的t组预测结果;
将所述t组预测结果中的每一组预测结果分别进行拼接成一个特征向量,得到t个特征向量;
对所述t个特征向量分别采用boosting方法进行集成。
5.根据权利要求4所述的方法,其特征在于,所述boosting方法采用XGBoost、CatBoosting和LightGBM中的至少一种。
6.一种面向图像分类的集成学习装置,其特征在于,包括:
划分模块,用于将图像分类数据集划分为训练集和验证集;
构建模块,用于利用所述训练集和所述验证集构建出多个图像分类模型,以作为基础层的模型;
拆分模块,用于将所述验证集拆分成包括验证子集1至验证子集P的P份验证子集,其中,每份验证子集内的样本数量均超过阈值,P大于等于1;
第一集成模块,用于在所述基础层上逐层执行如下操作,直至得到层数为P的集成模型层:使用验证子集x对上一层的模型进行bagging集成和boosting集成,得到第x层的集成模型,其中,x为1至P的自然数;
第二集成模块,用于对所述集成模型层的第P层输出的多个预测结果进行bagging集成,得到最终的预测结果并输出。
7.根据权利要求6所述的装置,其特征在于,所述构建模块具体用于:
利用所述训练集对多个深度网络模型分别进行训练;
利用所述验证集对训练后的多个深度网络模型分别进行验证;
构建出预测精度满足精度阈值的所述多个图像分类模型。
8.根据权利要求6所述的装置,其特征在于,所述第一集成模块具体用于:
从所述上一层的n个模型中随机选出m个模型,m大于1且m小于等于n;
利用所述m个模型生成所述验证子集x的预测结果;
对所述验证子集x的预测结果采用bagging方法进行集成。
9.根据权利要求6至8任意一项所述的装置,其特征在于,所述第一集成模块具体还用于:
将所述上一层的n个模型随机分成t组模型,t大于等于1,且t小于n;
利用所述t组模型生成所述验证子集x的t组预测结果;
将所述t组预测结果中的每一组预测结果分别进行拼接成一个特征向量,得到t个特征向量;
对所述t个特征向量分别采用boosting方法进行集成。
10.根据权利要求9所述的装置,其特征在于,所述boosting方法采用XGBoost、CatBoosting和LightGBM中的至少一种。
CN201810915726.6A 2018-08-13 2018-08-13 一种面向图像分类的集成学习方法及装置 Active CN109325516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810915726.6A CN109325516B (zh) 2018-08-13 2018-08-13 一种面向图像分类的集成学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810915726.6A CN109325516B (zh) 2018-08-13 2018-08-13 一种面向图像分类的集成学习方法及装置

Publications (2)

Publication Number Publication Date
CN109325516A true CN109325516A (zh) 2019-02-12
CN109325516B CN109325516B (zh) 2021-02-02

Family

ID=65264082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810915726.6A Active CN109325516B (zh) 2018-08-13 2018-08-13 一种面向图像分类的集成学习方法及装置

Country Status (1)

Country Link
CN (1) CN109325516B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886340A (zh) * 2019-02-26 2019-06-14 山东星蓝信息科技有限公司 一种遥感影像分类方法
CN110689093A (zh) * 2019-12-10 2020-01-14 北京同方软件有限公司 一种复杂场景下的图像目标精细分类方法
CN111382403A (zh) * 2020-03-17 2020-07-07 同盾控股有限公司 用户行为识别模型的训练方法、装置、设备及存储介质
CN111583320A (zh) * 2020-03-17 2020-08-25 哈尔滨医科大学 融合深度卷积网络和影像组学特征的乳腺癌超声图分型方法、系统及存储介质
CN111583210A (zh) * 2020-04-29 2020-08-25 北京小白世纪网络科技有限公司 基于卷积神经网络模型集成的乳腺癌图像自动识别方法
CN112949701A (zh) * 2021-02-22 2021-06-11 北京航空航天大学 一种基于深度学习的太阳黑子群分类的方法
CN113256579A (zh) * 2021-05-19 2021-08-13 扬州大学 基于预训练模型的肺结核识别系统
CN113378984A (zh) * 2021-07-05 2021-09-10 国药(武汉)医学实验室有限公司 一种医学图像分类方法、系统、终端以及存储介质
CN113537044A (zh) * 2021-07-14 2021-10-22 哈尔滨理工大学 基于STFT与改进DenseNet的航空发动机故障诊断方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080086272A1 (en) * 2004-09-09 2008-04-10 Universite De Liege Quai Van Beneden, 25 Identification and use of biomarkers for the diagnosis and the prognosis of inflammatory diseases
CN102651073A (zh) * 2012-04-07 2012-08-29 西安电子科技大学 基于稀疏动态集成选择的sar图像地物分类方法
CN105117525A (zh) * 2015-07-31 2015-12-02 天津工业大学 Bagging极限学习机集成建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080086272A1 (en) * 2004-09-09 2008-04-10 Universite De Liege Quai Van Beneden, 25 Identification and use of biomarkers for the diagnosis and the prognosis of inflammatory diseases
CN102651073A (zh) * 2012-04-07 2012-08-29 西安电子科技大学 基于稀疏动态集成选择的sar图像地物分类方法
CN105117525A (zh) * 2015-07-31 2015-12-02 天津工业大学 Bagging极限学习机集成建模方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUGANDHARA RAJENDRA PATIL 等: "Blend of SVM, MultiBoost, Decorate and Bagging Classifiers for Improving Accuracy and Security of Big Data", 《INTERNATIONAL JOURNAL OF ADVANCE RESEARCH IN 1COMPUTER SCIENCE AND MANAGEMENT STUDIES》 *
周宁: "集成学习三大法宝-bagging、boosting、stacking", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/36161812》 *
王海 等: "基于多模式弱分类器的Adaboost-Bagging车辆检测算法", 《交通运输工程学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109886340A (zh) * 2019-02-26 2019-06-14 山东星蓝信息科技有限公司 一种遥感影像分类方法
CN109886340B (zh) * 2019-02-26 2021-03-19 山东星蓝信息科技有限公司 一种遥感影像分类方法
CN110689093A (zh) * 2019-12-10 2020-01-14 北京同方软件有限公司 一种复杂场景下的图像目标精细分类方法
CN110689093B (zh) * 2019-12-10 2020-04-21 北京同方软件有限公司 一种复杂场景下的图像目标精细分类方法
CN111382403A (zh) * 2020-03-17 2020-07-07 同盾控股有限公司 用户行为识别模型的训练方法、装置、设备及存储介质
CN111583320A (zh) * 2020-03-17 2020-08-25 哈尔滨医科大学 融合深度卷积网络和影像组学特征的乳腺癌超声图分型方法、系统及存储介质
CN111583210A (zh) * 2020-04-29 2020-08-25 北京小白世纪网络科技有限公司 基于卷积神经网络模型集成的乳腺癌图像自动识别方法
CN112949701A (zh) * 2021-02-22 2021-06-11 北京航空航天大学 一种基于深度学习的太阳黑子群分类的方法
CN113256579A (zh) * 2021-05-19 2021-08-13 扬州大学 基于预训练模型的肺结核识别系统
CN113378984A (zh) * 2021-07-05 2021-09-10 国药(武汉)医学实验室有限公司 一种医学图像分类方法、系统、终端以及存储介质
CN113537044A (zh) * 2021-07-14 2021-10-22 哈尔滨理工大学 基于STFT与改进DenseNet的航空发动机故障诊断方法

Also Published As

Publication number Publication date
CN109325516B (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN109325516A (zh) 一种面向图像分类的集成学习方法及装置
CN106295506A (zh) 一种基于集成卷积神经网络的年龄识别方法
CN110766038B (zh) 无监督式的地貌分类模型训练和地貌图构建方法
CN108875934A (zh) 一种神经网络的训练方法、装置、系统及存储介质
CN109727246A (zh) 一种基于孪生网络的对比学习图像质量评估方法
US20230092619A1 (en) Image classification method and apparatus, device, storage medium, and program product
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN109978074A (zh) 基于深度多任务学习的图像美感和情感联合分类方法及系统
CN109446618A (zh) 一种基于vr的古建筑构件搭建模拟方法
CN109948680A (zh) 病历数据的分类方法及系统
CN108765512A (zh) 一种基于多层级特征的对抗图像生成方法
CN109409262A (zh) 图像处理方法、图像处理装置、计算机可读存储介质
CN110889450A (zh) 超参数调优、模型构建方法和装置
CN110188780A (zh) 用于定位多目标特征点的深度学习模型的构建方法及装置
CN109447096A (zh) 一种基于机器学习的扫视路径预测方法和装置
CN108304376A (zh) 文本向量的确定方法、装置、存储介质及电子装置
Jafar et al. Hyperparameter optimization for deep residual learning in image classification
CN114360018A (zh) 三维人脸表情的渲染方法及装置、存储介质及电子装置
CN110046279A (zh) 视频文件特征的预测方法、介质、装置和计算设备
CN109670623A (zh) 神经网络预测方法及装置
CN109670567A (zh) 神经网络预测方法及装置
CN113392934A (zh) 一种面向深度学习的偏见数据平衡方法及装置
CN109670572A (zh) 神经网络预测方法及装置
CN117437467A (zh) 模型训练方法、装置、电子设备及存储介质
CN110866866B (zh) 图像仿色处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240306

Address after: Room 1179, W Zone, 11th Floor, Building 1, No. 158 Shuanglian Road, Qingpu District, Shanghai, 201702

Patentee after: Shanghai Zhongan Information Technology Service Co.,Ltd.

Country or region after: China

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240415

Address after: Room 1179, W Zone, 11th Floor, Building 1, No. 158 Shuanglian Road, Qingpu District, Shanghai, 201702

Patentee after: Shanghai Zhongan Information Technology Service Co.,Ltd.

Country or region after: China

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Country or region before: China