CN112132239B - 一种训练方法、装置、设备和存储介质 - Google Patents

一种训练方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112132239B
CN112132239B CN202011324849.6A CN202011324849A CN112132239B CN 112132239 B CN112132239 B CN 112132239B CN 202011324849 A CN202011324849 A CN 202011324849A CN 112132239 B CN112132239 B CN 112132239B
Authority
CN
China
Prior art keywords
classifier
image
sample
classification result
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011324849.6A
Other languages
English (en)
Other versions
CN112132239A (zh
Inventor
王学彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuanjian Information Technology Co Ltd
Original Assignee
Beijing Yuanjian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuanjian Information Technology Co Ltd filed Critical Beijing Yuanjian Information Technology Co Ltd
Priority to CN202011324849.6A priority Critical patent/CN112132239B/zh
Publication of CN112132239A publication Critical patent/CN112132239A/zh
Application granted granted Critical
Publication of CN112132239B publication Critical patent/CN112132239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种训练方法、装置、设备和存储介质,其中,该方法包括:使用待训练分类器对第一候选样本集进行分类,得到所述第一候选样本集中包括的各图像的第一分类结果;根据所述第一分类结果和获取到的人工对所述第一候选样本集中包括的各图像的第二分类结果,确定所述第一候选样本集中包括的各图像的样本类型;按照预设的第一样本类型比例,从所述第一样本和所述第二样本中选择图像,以将选择出来的图像作为第一训练样本;使用第一训练样本对所述待训练分类器进行模型训练,通过上述方法有利于提高待训练分类器的分类性能,以及有利于提高待训练分类器的分类准确率。

Description

一种训练方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种训练方法、装置、设备和存储介质。
背景技术
图像分类器能够对图像进行分类,图像分类器在图像领域有着重要的应用。图像分类器的分类性能的高低与训练数据息息相关,在对图像分类器进行训练时,需要使用大量的训练数据,并且在对图像分类器进行训练之前,需要对训练数据进行人工标注,而人工标注的方式使得训练效率大大降低。
为了提高训练效率,目前使用半监督的方式对图像分类器进行训练,例如:在获取到训练数据后,使用人工的方式对一小部分训练数据进行标注,然后使用标注后的训练数据对图像分类器进行训练,在完成训练后,使用训练后的图像分类器对未进行标注的训练数据进行分类,然后从分类结果中再选择一部分数据作为训练数据对图像分类器继续进行训练,直至图像分类器符合要求。
对于半监督的训练方式,由于图像分类器所使用的训练数据中可能包括错误的训练数据,从而使得训练后的图像分类器对不能正确识别的图像仍不能正确识别,并且还会降低图像分类器的对该类图像的分类性能,从而降低了图像分类器的分类准确率。
发明内容
有鉴于此,本申请实施例提供了一种训练方法、装置、设备和存储介质,以提高图像分类器的分类准确率。
第一方面,本申请实施例提供了一种训练方法,包括:
使用待训练分类器对第一候选样本集进行分类,得到所述第一候选样本集中包括的各图像的第一分类结果,其中,所述待训练分类器的分类类别数量为K,K为正整数;
根据所述第一分类结果和获取到的人工对所述第一候选样本集中包括的各图像的第二分类结果,确定所述第一候选样本集中包括的各图像的样本类型,其中,样本类型包括第一样本和第二样本,所述第一样本为第一分类结果和第二分类结果相同的图像,所述第二样本为第一分类结果和第二分类结果不相同的图像;
按照预设的第一样本类型比例,从所述第一样本和所述第二样本中选择图像,以将选择出来的图像作为第一训练样本;
使用第一训练样本对所述待训练分类器进行模型训练。
可选地,在对所述待训练分类器训练完成得到第一分类器后,所述方法还包括:
使用所述第一分类器对获取到的第一待分类图像进行分类处理,以得到所述第一待分类图像的第二分类结果;
根据所述第二分类结果,判断所述第一分类器是否满足预设条件,其中,所述预设条件包括:对于每类类别,该类别的分类准确率大于或者等于第一预设阈值,和/或所述第一分类器的整体分类准确率大于或者等于第二预设阈值;
如果所述第一分类器不满足所述预设条件,使用预设图像数据集上的预训练参数对所述第一分类器的参数进行初始化,得到所述待训练分类器;
使用所述待训练分类器对第二候选样本集进行分类,得到所述第二候选样本集中包括的各图像的第三分类结果;
根据所述第三分类结果和获取到的人工对所述第二候选样本集中包括的各图像的第四分类结果,确定所述第二候选样本集中包括的各图像的样本类型,其中,样本类型包括第三样本和第四样本,所述第三样本为第三分类结果和第四分类结果相同的图像,所述第四样本第三分类结果和第四分类结果不相同的图像;
按照预设的第二样本类型比例,从所述第三样本和所述第四样本中选择图像,以将选择出来的图像作为第二训练样本;
使用第二训练样本对所述待训练分类器进行模型训练;
在对所述待训练分类器训练完成得到第二分类器后,使用所述第二分类器对获取到的第二待分类图像进行分类处理,以得到所述第二待分类图像的第五分类结果;根据所述第五分类结果,判断所述第二分类器是否满足所述预设条件;如果满足所述预设条件,则结束流程;如果不满足所述预设条件,则使用预设图像数据集上的预训练参数对所述第二分类器的参数进行初始化,得到所述待训练分类器;继续对所述待训练分类器进行训练,直至得到满足所述预设条件的分类器为止。
可选地,所述方法还包括:
使用预设聚类算法,对获取到的第一图像集合进行聚类,得到多个第一图像子集合;
从所述第一图像集合中选择预设数量的第一目标图像;
使用所述待训练分类器对所述第一目标图像进行分类,得到所述第一目标图像的第六分类结果;
根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度;
根据所述分布密度从高到低的顺序,从多个所述第一图像子集合中选择预设个数的第一图像子集合作为所述第一候选样本集或所述第二候选样本集。
可选地,所述根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度,包括:
获取人工对所述第六分类结果进行调整后的第七分类结果;
根据所述第七分类结果,确定所述第一目标图像在各分类类别上的分布密度。
第二方面,本申请实施例提供了一种训练装置,包括:
第一分类单元,用于使用待训练分类器对第一候选样本集进行分类,得到所述第一候选样本集中包括的各图像的第一分类结果,其中,所述待训练分类器的分类类别数量为K,K为正整数;
第一确定单元,用于根据所述第一分类结果和获取到的人工对所述第一候选样本集中包括的各图像的第二分类结果,确定所述第一候选样本集中包括的各图像的样本类型,其中,样本类型包括第一样本和第二样本,所述第一样本为第一分类结果和第二分类结果相同的图像,所述第二样本为第一分类结果和第二分类结果不相同的图像;
第一选择单元,用于按照预设的第一样本类型比例,从所述第一样本和所述第二样本中选择图像,以将选择出来的图像作为第一训练样本;
训练单元,用于使用第一训练样本对所述待训练分类器进行模型训练。
可选地,所述装置,还包括:
第二分类单元,还用在对所述待训练分类器训练完成得到第一分类器后,使用所述第一分类器对获取到的第一待分类图像进行分类处理,以得到所述第一待分类图像的第二分类结果;
判断单元,用于根据所述第二分类结果,判断所述第一分类器是否满足预设条件,其中,所述预设条件包括:对于每类类别,该类别的分类准确率大于或者等于第一预设阈值,和/或所述第一分类器的整体分类准确率大于或者等于第二预设阈值;
初始化单元,用于如果所述第一分类器不满足所述预设条件,使用预设图像数据集上的预训练参数对所述第一分类器的参数进行初始化,得到所述待训练分类器;
所述第一分类单元,还用于使用所述待训练分类器对第二候选样本集进行分类,得到所述第二候选样本集中包括的各图像的第三分类结果;
所述第一确定单元,还用于根据所述第三分类结果和获取到的人工对所述第二候选样本集中包括的各图像的第四分类结果,确定所述第二候选样本集中包括的各图像的样本类型,其中,样本类型包括第三样本和第四样本,所述第三样本为第三分类结果和第四分类结果相同的图像,所述第四样本第三分类结果和第四分类结果不相同的图像;
所述第一选择单元,还用于按照预设的第二样本类型比例,从所述第三样本和所述第四样本中选择图像,以将选择出来的图像作为第二训练样本;
所述训练单元,还用于使用第二训练样本对所述待训练分类器进行模型训练;
所述第二分类单元,还用于在对所述待训练分类器训练完成得到第二分类器后,使用所述第二分类器对获取到的第二待分类图像进行分类处理,以得到所述第二待分类图像的第五分类结果;根据所述第五分类结果,判断所述第二分类器是否满足所述预设条件;如果满足所述预设条件,则结束流程;如果不满足所述预设条件,则使用预设图像数据集上的预训练参数对所述第二分类器的参数进行初始化,得到所述待训练分类器;继续对所述待训练分类器进行训练,直至得到满足所述预设条件的分类器为止。
可选地,所述装置还包括:
聚类单元,用于使用预设聚类算法,对获取到的第一图像集合进行聚类,得到多个第一图像子集合;
第二选择单元,用于从所述第一图像集合中选择预设数量的第一目标图像;
第三分类单元,用于使用所述待训练分类器对所述第一目标图像进行分类,得到所述第一目标图像的第六分类结果;
第二确定单元,用于根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度;
筛选单元,用于根据所述分布密度从高到低的顺序,从多个所述第一图像子集合中选择预设个数的第一图像子集合作为所述第一候选样本集或所述第二候选样本集。
可选地,所述第二确定单元用于根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度时,包括:
获取人工对所述第六分类结果进行调整后的第七分类结果;
根据所述第七分类结果,确定所述第一目标图像在各分类类别上的分布密度。
第三方面,本申请实施例提供了一种电子设备,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器运行所述机器可读指令,以执行时执行如上述第一方面方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
在本申请中,在得到第一候选样本集后,使用待训练分类器对第一候选样本集进行分类,得到第一候选样本集中包括的各图像的第一分类结果,由于该待训练分类器的分类类别数量为K,因此可以K个类别的第一分类结果,由于可能存在不准确的第一分类结果,此时需要人工对第一候选样样本集进行人工分类,在获得人工对第一候选样本集中包括的各图像的第二分类结果后,根据第一分类结果和第二分类结果确定第一候选样本集中包括的各图像的样本类型,通过样本类型可以确定出第一分类结果中分类正确的图像和分类错误的图像,然后按照预设的第一样本类型比例,从第一样本和第二样本中选择图像,以作为第一训练样本,并使用第一训练样本对待训练分类器进行模型训练,通过上述方法,可以确定出待训练分类器能够正确识别的图像和识别错误的图像,然后将部分识别正确的图像和部分识别错误的图像作为训练样本继续对待训练分类器进行训练,以使待训练分类器对原来识别错误的图像识别正确,从而有利于提高待训练分类器的分类性能,进而提高了待训练分类器的分类准确率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例一提供的一种训练方法的流程示意图;
图2为本申请实施例一提供的另一种训练方法的流程示意图;
图3为本申请实施例一提供的另一种训练方法的流程示意图;
图4为本申请实施例一提供的另一种训练方法的流程示意图;
图5为本申请实施例二提供的一种训练装置的结构示意图;
图6为本申请实施例二提供的另一种训练装置的结构示意图;
图7为本申请实施例二提供的另一种训练装置的结构示意图;
图8为本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1为本申请实施例一提供的一种训练方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤101、使用待训练分类器对第一候选样本集进行分类,得到所述第一候选样本集中包括的各图像的第一分类结果,其中,所述待训练分类器的分类类别数量为K,K为正整数。
具体的,预先搜集一定数量的图像数据,例如:在网络上搜集一定数量的图像数据,然后使用卷积神经网络训练一个图像分类器,如果想要得到能够识别K个类别的图像分类器,则从搜集到的图像数据中选择K个类别的图像对卷积神经网络进行训练,每个类别的图像的数量可以为1000-2000张,例如:想要得到能够识别类别1和类别2的图像分类器,则从搜集到的图像数据中分别选择出属于类别1的图像和属于类别2的图像,其中,属于类别1的图像的数量可以为1000-2000张,属于类别2的图像的数量可以为1000-2000张,在使用上述两种类别的图像对卷积神经网络进行训练后可以得到一个能够识别类别1和类别2的图像分类器,并使用网络在ImageNet数据集上的预训练参数来初始化卷积神经网络参数,此时可以得到待训练分类器,以及将剩余的搜索到的图像数据作为第一候选样本集。
在得到待训练分类器和第一候选样本集后,使用待训练分类器对第一候选样本集进行分类,得到所述第一候选样本集中包括的各图像的第一分类结果,当待训练分类器的分类类别的数量为K个时,可以得到K个类别的第一分类结果。
步骤102、根据所述第一分类结果和获取到的人工对所述第一候选样本集中包括的各图像的第二分类结果,确定所述第一候选样本集中包括的各图像的样本类型,其中,样本类型包括第一样本和第二样本,所述第一样本为第一分类结果和第二分类结果相同的图像,所述第二样本为第一分类结果和第二分类结果不相同的图像。
具体的,在第一分类结果中可能存在分类不准确的图像,例如:当待训练分类器能够识别类别1和类别2的图像时,如果第一候选样本集中出现类别3的图像时,则可能把别类3的图像识别成类别1的图像或类别2的图像,或者,如果第一候选样本集中出现类别1的图像,但是并未使用该图像对待训练分类器进行训练时,则可能把别类1的图像识别成类别2的图像,为了确定出第一分类结果中识别正确的图像和识别错误的图像,此时需要人工对第一候选样本集包括的各图像进行识别,以得到第二分类结果,然后使用第一分类结果和第二分类结果进行对比,从而确定出第一候选样本集中包括的各图像的样本类型,其中,对于同一图像,如果该图像的第一分类结果和第二分类结果相同,则确定该图像的样本类型为第一样本,表示待训练分类器能够正确识别该图像或该图像所属的类别,如果该图像的第一分类结果和第二分类结果不相同,则确定该图像的样本类型为第二样本,表示待训练分类器不能正确识别该图像或该图像所属的类别。
步骤103、按照预设的第一样本类型比例,从所述第一样本和所述第二样本中选择图像,以将选择出来的图像作为第一训练样本。
具体的,通过第一样本和第二样本能够大致确定出待训练分类器的识别性能,为了提升训练分类器的识别能力,以及加强待训练分类器已有的识别能力,可以按照预设的第一样本类型比例从第一样本和第二样本中选择图像,以将选择出来的图像作为第一训练样本,例如:当第一样本和第二样本的第一样本类别比例为1:2时,按照该比例从第一样本和第二样板中选择图像,选择出来的第一样本的图像的数量和第二样本的图像的数量的比例为1:2,并且可以设定第一训练样本的数量,例如:设定第一训练样本的数量为3000张时,选择出来的第一样本的图像的数量为1000张,选择出来的第二样本的图像的数量为2000张。
需要说明的是,关于具体的第一样本类型比例和第一训练样本的数量可以根据实际需要进行设定,在此不做具体限定。
步骤104、使用第一训练样本对所述待训练分类器进行模型训练。
具体的,在第一训练样本中既包括待训练分类器已能正确识别的图像,有包括待训练分类器尚不能正确识别的图像,因此在使用第一训练样本对待训练分类器进行训练后可以使待训练分类器对原来识别错误的图像能够进行正确识别,使待训练分类器能够识别更多类型的图像,从而有利于提高待训练分类器的分类性能,并且也能加强待训练分类器已有的识别能力,进而提高了待训练分类器整体上的分类准确率。
在一个可行的实施方案中,图2为本申请实施例一提供的另一种训练方法的流程示意图,如图2所示,在对所述待训练分类器训练完成得到第一分类器后,该方法还包括以下步骤:
步骤201、使用所述第一分类器对获取到的第一待分类图像进行分类处理,以得到所述第一待分类图像的第二分类结果。
步骤202、根据所述第二分类结果,判断所述第一分类器是否满足预设条件,其中,所述预设条件包括:对于每类类别,该类别的分类准确率大于或者等于第一预设阈值,和/或所述第一分类器的整体分类准确率大于或者等于第二预设阈值。
步骤203、如果所述第一分类器不满足所述预设条件,使用预设图像数据集上的预训练参数对所述第一分类器的参数进行初始化,得到所述待训练分类器。
步骤204、使用所述待训练分类器对第二候选样本集进行分类,得到所述第二候选样本集中包括的各图像的第三分类结果。
步骤205、根据所述第三分类结果和获取到的人工对所述第二候选样本集中包括的各图像的第四分类结果,确定所述第二候选样本集中包括的各图像的样本类型,其中,样本类型包括第三样本和第四样本,所述第三样本为第三分类结果和第四分类结果相同的图像,所述第四样本第三分类结果和第四分类结果不相同的图像。
步骤206、按照预设的第二样本类型比例,从所述第三样本和所述第四样本中选择图像,以将选择出来的图像作为第二训练样本。
步骤207、使用第二训练样本对所述待训练分类器进行模型训练。
步骤208、在对所述待训练分类器训练完成得到第二分类器后,使用所述第二分类器对获取到的第二待分类图像进行分类处理,以得到所述第二待分类图像的第五分类结果;根据所述第五分类结果,判断所述第二分类器是否满足所述预设条件;如果满足所述预设条件,则结束流程;如果不满足所述预设条件,则使用预设图像数据集上的预训练参数对所述第二分类器的参数进行初始化,得到所述待训练分类器;继续对所述待训练分类器进行训练,直至得到满足所述预设条件的分类器为止。
具体的,在使用第一训练样本对待训练分类器训练完成后可以得到第一分类器,为了确定该第一分类器是否满足使用要求,需要从网络上搜集一定数量的图像作为第一待分类图像,然后使用该第一分类器对第一待分类图像进行分类处理,得到第一待分类图像包括的各图像的第二分类结果,然后根据第二分类结果,判断第一分类器是否满足预设条件,即:对于每类类别,该类别的分类准确率大于或者等于第一预设阈值,和/或所述第一分类器的整体分类准确率大于或者等于第二预设阈值,进一步的,对于第二分类结果中的每类类别,判断该类别的分类准确率大于或者等于第一预设阈值,和/或第二分类结果的分类准确率大于或者等于第二预设阈值,如果满足预设条件,则直接结束流程,此时得到的第一分类器为满足使用要求的分类器,如果不满足预设条件,则需要继续对第一分类器继续进行训练,再次对第一分类器进行训练时,为了避免上次的训练对本次训练造成干扰,需要使用预设图像数据集上的预训练参数对所述第一分类器的参数进行初始化,得到所述待训练分类器,然后通过步骤204-207的方式再次对得到的待训练分类器进行训练,关于步骤204-207的实现原理可参考图1所示的步骤的详细说明,在此不再一一赘述。在使用第二训练样本再次对待训练分类器进行训练得到第二分类器后,再次从网络上搜集一定数量的图像作为第二待分类图像,然后使用该第二分类器对第二待分类图像进行分类处理,得到第二待分类图像包括的各图像的第五分类结果,然后根据第五分类结果,判断第二分类器是否满足预设条件,具体的判断条件可参考步骤202的相关说明,在此不再一一赘述。如果满足预设条件,则直接结束流程,此时得到的第二分类器为满足使用要求的分类器,如果不满足预设条件,则需要继续对第二分类器继续进行训练,再次对第二分类器进行训练时,关于对第二分类器的再次训练方式可参考步骤203-207的相关说明,直至得到满足预设条件的分类器为止。
在一个可行的实施方案中,图3为本申请实施例一提供的另一种训练方法的流程示意图,如图3所示,第一候选样本集和第二候选样本集可以通过以下步骤获得:
步骤301、使用预设聚类算法,对获取到的第一图像集合进行聚类,得到多个第一图像子集合。
步骤302、从所述第一图像集合中选择预设数量的第一目标图像。
步骤303、使用所述待训练分类器对所述第一目标图像进行分类,得到所述第一目标图像的第六分类结果。
步骤304、根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度。
步骤305、根据所述分布密度从高到低的顺序,从多个所述第一图像子集合中选择预设个数的第一图像子集合作为所述第一候选样本集或所述第二候选样本集。
具体的,为了能够实现快速测试待训练分类器性能的目的,需要减少第一候选样本集或第二候选样本集中包括的图像的数量,因此在获得从网络上搜集到的第一图像集合后,需要使用预设聚类算法对第一图像集合进行举例得到多个第一图像子集合,例如:使用相似度聚类算法,将多个第一图像子集合,属于同一第一图像子集合中的图像的相似度的差值在预设范围内,当然,也可以使用其他聚类算法进行聚类,如:类型聚类算法,关于具体使用的聚类算法可以根据实际需要进行设定,在此不做具体限定。在得到多个第一图像子集合后,从第一图像集合中选择预设数量的第一目标图像,然后使用待训练分类器对第一目标图像进行分类,得到第一目标图像包括的各图像的第六分类结果,再根据第六分类结果确定第一目标图像在各分类类别上的分布密度,通过该分布密度可以确定第一图像集合在各分类类别上的分布密度,然后选择预设数量的分布密度最高的第一图像子集合作为第一候选样本集或第二候选样本集,例如:当得到的多个第一图像子集合包括图像子集合1、图像子集合2和图像子集合3,即:第一图像集合包括的类型为3个,在选择预设数量的第一目标图像后,得到的分布密度的排序为图像子集合2、图像子集合1和图像子集合3,如果设定的预设个数为2个,则将图像子集合2和图像子集合1作为第一候选样本集或第二候选样本集,通过上述方法可以使得到候选样本集包括的类别为主流类别,从而可以得到待训练分类器对主流类别的图像的识别性能的测试结果。
在一个可行的实施方案中,图4为本申请实施例一提供的另一种训练方法的流程示意图,如图4所示,在执行步骤304时,可以通过以下步骤实现:
步骤401、获取人工对所述第六分类结果进行调整后的第七分类结果。
步骤402、根据所述第七分类结果,确定所述第一目标图像在各分类类别上的分布密度。
具体的,为了对第六分类结果进行纠正,此时需要人工对第六分类结果进行调整,以将第六分类结果中分类错误的图像进行改正,从而得到第七分类结果,然后在根据第七分类结果确定分布密度,从而使得到的分布密度的结果更加准确。
实施例二
图5为本申请实施例二提供的一种训练装置的结构示意图,如图5所示,该装置包括:
第一分类单元51,用于使用待训练分类器对第一候选样本集进行分类,得到所述第一候选样本集中包括的各图像的第一分类结果,其中,所述待训练分类器的分类类别数量为K,K为正整数;
第一确定单元52,用于根据所述第一分类结果和获取到的人工对所述第一候选样本集中包括的各图像的第二分类结果,确定所述第一候选样本集中包括的各图像的样本类型,其中,样本类型包括第一样本和第二样本,所述第一样本为第一分类结果和第二分类结果相同的图像,所述第二样本为第一分类结果和第二分类结果不相同的图像;
第一选择单元53,用于按照预设的第一样本类型比例,从所述第一样本和所述第二样本中选择图像,以将选择出来的图像作为第一训练样本;
训练单元54,用于使用第一训练样本对所述待训练分类器进行模型训练。
在一个可行的实施方案中,图6为本申请实施例二提供的另一种训练装置的结构示意图,如图6所示,所述装置,还包括:
第二分类单元55,还用在对所述待训练分类器训练完成得到第一分类器后,使用所述第一分类器对获取到的第一待分类图像进行分类处理,以得到所述第一待分类图像的第二分类结果;
判断单元56,用于根据所述第二分类结果,判断所述第一分类器是否满足预设条件,其中,所述预设条件包括:对于每类类别,该类别的分类准确率大于或者等于第一预设阈值,和/或所述第一分类器的整体分类准确率大于或者等于第二预设阈值;
初始化单元57,用于如果所述第一分类器不满足所述预设条件,使用预设图像数据集上的预训练参数对所述第一分类器的参数进行初始化,得到所述待训练分类器;
所述第一分类单元51,还用于使用所述待训练分类器对第二候选样本集进行分类,得到所述第二候选样本集中包括的各图像的第三分类结果;
所述第一确定单元52,还用于根据所述第三分类结果和获取到的人工对所述第二候选样本集中包括的各图像的第四分类结果,确定所述第二候选样本集中包括的各图像的样本类型,其中,样本类型包括第三样本和第四样本,所述第三样本为第三分类结果和第四分类结果相同的图像,所述第四样本第三分类结果和第四分类结果不相同的图像;
所述第一选择单元53,还用于按照预设的第二样本类型比例,从所述第三样本和所述第四样本中选择图像,以将选择出来的图像作为第二训练样本;
所述训练单元54,还用于使用第二训练样本对所述待训练分类器进行模型训练;
所述第二分类单元55,还用于在对所述待训练分类器训练完成得到第二分类器后,使用所述第二分类器对获取到的第二待分类图像进行分类处理,以得到所述第二待分类图像的第五分类结果;根据所述第五分类结果,判断所述第二分类器是否满足所述预设条件;如果满足所述预设条件,则结束流程;如果不满足所述预设条件,则使用预设图像数据集上的预训练参数对所述第二分类器的参数进行初始化,得到所述待训练分类器;继续对所述待训练分类器进行训练,直至得到满足所述预设条件的分类器为止。
在一个可行的实施方案中,图7为本申请实施例二提供的另一种训练装置的结构示意图,如图7所示,所述装置还包括:
聚类单元58,用于使用预设聚类算法,对获取到的第一图像集合进行聚类,得到多个第一图像子集合;
第二选择单元59,用于从所述第一图像集合中选择预设数量的第一目标图像;
第三分类单元60,用于使用所述待训练分类器对所述第一目标图像进行分类,得到所述第一目标图像的第六分类结果;
第二确定单元61,用于根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度;
筛选单元62,用于根据所述分布密度从高到低的顺序,从多个所述第一图像子集合中选择预设个数的第一图像子集合作为所述第一候选样本集或所述第二候选样本集。
在一个可行的实施方案中,所述第二确定单元61用于根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度时,包括:
获取人工对所述第六分类结果进行调整后的第七分类结果;
根据所述第七分类结果,确定所述第一目标图像在各分类类别上的分布密度。
实施例三
图8为本申请实施例三提供的一种电子设备的结构示意图,包括:处理器801、存储介质802和总线803,所述存储介质802存储有所述处理器801可执行的机器可读指令,当电子设备运行上述的联盟链的数据处理方法时,所述处理器801与所述存储介质802之间通过总线803通信,所述处理器801执行所述机器可读指令,以执行实施例一中所述的方法步骤。
实施例四
本申请实施例四还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例一中所述的方法步骤。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种训练方法,其特征在于,包括:
使用待训练分类器对第一候选样本集进行分类,得到所述第一候选样本集中包括的各图像的第一分类结果,其中,所述待训练分类器的分类类别数量为K,K为正整数;
根据所述第一分类结果和获取到的人工对所述第一候选样本集中包括的各图像的第二分类结果,确定所述第一候选样本集中包括的各图像的样本类型,其中,样本类型包括第一样本和第二样本,所述第一样本为第一分类结果和第二分类结果相同的图像,所述第二样本为第一分类结果和第二分类结果不相同的图像;
按照预设的第一样本类型比例,从所述第一样本和所述第二样本中选择图像,以将选择出来的图像作为第一训练样本;
使用第一训练样本对所述待训练分类器进行模型训练;
在对所述待训练分类器训练完成得到第一分类器后,使用所述第一分类器对获取到的第一待分类图像进行分类处理,以得到所述第一待分类图像的第二分类结果;根据所述第二分类结果,判断所述第一分类器是否满足预设条件,其中,所述预设条件包括:对于每类类别,该类别的分类准确率大于或者等于第一预设阈值,和/或所述第一分类器的整体分类准确率大于或者等于第二预设阈值;如果所述第一分类器不满足所述预设条件,使用预设图像数据集上的预训练参数对所述第一分类器的参数进行初始化,得到所述待训练分类器;使用所述待训练分类器对第二候选样本集进行分类,得到所述第二候选样本集中包括的各图像的第三分类结果;根据所述第三分类结果和获取到的人工对所述第二候选样本集中包括的各图像的第四分类结果,确定所述第二候选样本集中包括的各图像的样本类型,其中,样本类型包括第三样本和第四样本,所述第三样本为第三分类结果和第四分类结果相同的图像,所述第四样本第三分类结果和第四分类结果不相同的图像;按照预设的第二样本类型比例,从所述第三样本和所述第四样本中选择图像,以将选择出来的图像作为第二训练样本;使用第二训练样本对所述待训练分类器进行模型训练;在对所述待训练分类器训练完成得到第二分类器后,使用所述第二分类器对获取到的第二待分类图像进行分类处理,以得到所述第二待分类图像的第五分类结果;根据所述第五分类结果,判断所述第二分类器是否满足所述预设条件;如果满足所述预设条件,则结束流程;如果不满足所述预设条件,则使用预设图像数据集上的预训练参数对所述第二分类器的参数进行初始化,得到所述待训练分类器;继续对所述待训练分类器进行训练,直至得到满足所述预设条件的分类器为止;
使用预设聚类算法,对获取到的第一图像集合进行聚类,得到多个第一图像子集合;从所述第一图像集合中选择预设数量的第一目标图像;使用所述待训练分类器对所述第一目标图像进行分类,得到所述第一目标图像的第六分类结果;根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度;根据所述分布密度从高到低的顺序,从多个所述第一图像子集合中选择预设个数的分布密度最高的第一图像子集合作为所述第一候选样本集或所述第二候选样本集。
2.如权利要求1所述的方法,其特征在于,所述根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度,包括:
获取人工对所述第六分类结果进行调整后的第七分类结果;
根据所述第七分类结果,确定所述第一目标图像在各分类类别上的分布密度。
3.一种训练装置,其特征在于,包括:
第一分类单元,用于使用待训练分类器对第一候选样本集进行分类,得到所述第一候选样本集中包括的各图像的第一分类结果,其中,所述待训练分类器的分类类别数量为K,K为正整数;
第一确定单元,用于根据所述第一分类结果和获取到的人工对所述第一候选样本集中包括的各图像的第二分类结果,确定所述第一候选样本集中包括的各图像的样本类型,其中,样本类型包括第一样本和第二样本,所述第一样本为第一分类结果和第二分类结果相同的图像,所述第二样本为第一分类结果和第二分类结果不相同的图像;
第一选择单元,用于按照预设的第一样本类型比例,从所述第一样本和所述第二样本中选择图像,以将选择出来的图像作为第一训练样本;
训练单元,用于使用第一训练样本对所述待训练分类器进行模型训练;
第二分类单元,还用在对所述待训练分类器训练完成得到第一分类器后,使用所述第一分类器对获取到的第一待分类图像进行分类处理,以得到所述第一待分类图像的第二分类结果;判断单元,用于根据所述第二分类结果,判断所述第一分类器是否满足预设条件,其中,所述预设条件包括:对于每类类别,该类别的分类准确率大于或者等于第一预设阈值,和/或所述第一分类器的整体分类准确率大于或者等于第二预设阈值;初始化单元,用于如果所述第一分类器不满足所述预设条件,使用预设图像数据集上的预训练参数对所述第一分类器的参数进行初始化,得到所述待训练分类器;所述第一分类单元,还用于使用所述待训练分类器对第二候选样本集进行分类,得到所述第二候选样本集中包括的各图像的第三分类结果;所述第一确定单元,还用于根据所述第三分类结果和获取到的人工对所述第二候选样本集中包括的各图像的第四分类结果,确定所述第二候选样本集中包括的各图像的样本类型,其中,样本类型包括第三样本和第四样本,所述第三样本为第三分类结果和第四分类结果相同的图像,所述第四样本第三分类结果和第四分类结果不相同的图像;所述第一选择单元,还用于按照预设的第二样本类型比例,从所述第三样本和所述第四样本中选择图像,以将选择出来的图像作为第二训练样本;所述训练单元,还用于使用第二训练样本对所述待训练分类器进行模型训练;所述第二分类单元,还用于在对所述待训练分类器训练完成得到第二分类器后,使用所述第二分类器对获取到的第二待分类图像进行分类处理,以得到所述第二待分类图像的第五分类结果;根据所述第五分类结果,判断所述第二分类器是否满足所述预设条件;如果满足所述预设条件,则结束流程;如果不满足所述预设条件,则使用预设图像数据集上的预训练参数对所述第二分类器的参数进行初始化,得到所述待训练分类器;继续对所述待训练分类器进行训练,直至得到满足所述预设条件的分类器为止;
聚类单元,用于使用预设聚类算法,对获取到的第一图像集合进行聚类,得到多个第一图像子集合;第二选择单元,用于从所述第一图像集合中选择预设数量的第一目标图像;第三分类单元,用于使用所述待训练分类器对所述第一目标图像进行分类,得到所述第一目标图像的第六分类结果;第二确定单元,用于根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度;筛选单元,用于根据所述分布密度从高到低的顺序,从多个所述第一图像子集合中选择预设个数的分布密度最高的第一图像子集合作为所述第一候选样本集或所述第二候选样本集。
4.如权利要求3所述的装置,其特征在于,所述第二确定单元用于根据所述第六分类结果,确定所述第一目标图像在各分类类别上的分布密度时,包括:
获取人工对所述第六分类结果进行调整后的第七分类结果;
根据所述第七分类结果,确定所述第一目标图像在各分类类别上的分布密度。
5.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器运行所述机器可读指令,以执行如权利要求1至2任一所述的方法的步骤。
6.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至2任一所述的方法的步骤。
CN202011324849.6A 2020-11-24 2020-11-24 一种训练方法、装置、设备和存储介质 Active CN112132239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011324849.6A CN112132239B (zh) 2020-11-24 2020-11-24 一种训练方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011324849.6A CN112132239B (zh) 2020-11-24 2020-11-24 一种训练方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112132239A CN112132239A (zh) 2020-12-25
CN112132239B true CN112132239B (zh) 2021-03-16

Family

ID=73852249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011324849.6A Active CN112132239B (zh) 2020-11-24 2020-11-24 一种训练方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112132239B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436192A (zh) * 2021-08-26 2021-09-24 深圳科亚医疗科技有限公司 一种病理图像的分类学习方法、分类系统及可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN108595585A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 样本数据分类方法、模型训练方法、电子设备及存储介质
CN110335237A (zh) * 2019-05-06 2019-10-15 北京字节跳动网络技术有限公司 用于生成模型的方法、装置和用于识别图像的方法、装置
CN111191590A (zh) * 2019-12-30 2020-05-22 Oppo(重庆)智能科技有限公司 模型训练方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304936B (zh) * 2017-07-12 2021-11-16 腾讯科技(深圳)有限公司 机器学习模型训练方法和装置、表情图像分类方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN108595585A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 样本数据分类方法、模型训练方法、电子设备及存储介质
CN110335237A (zh) * 2019-05-06 2019-10-15 北京字节跳动网络技术有限公司 用于生成模型的方法、装置和用于识别图像的方法、装置
CN111191590A (zh) * 2019-12-30 2020-05-22 Oppo(重庆)智能科技有限公司 模型训练方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112132239A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN111353549B (zh) 图像标签的核验方法及装置、电子设备、存储介质
CN109919252B (zh) 利用少数标注图像生成分类器的方法
CN110472082B (zh) 数据处理方法、装置、存储介质及电子设备
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
WO2017088537A1 (zh) 一种元件分类方法及装置
CN112949693B (zh) 图像分类模型的训练方法、图像分类方法、装置和设备
CN111553127A (zh) 一种多标记的文本类数据特征选择方法及装置
CN110503143B (zh) 基于意图识别的阈值选取方法、设备、存储介质及装置
CN111401343B (zh) 识别图像中人的属性的方法、识别模型的训练方法和装置
CN112766427A (zh) 图像识别模型的训练方法、装置及设备
CN109933648A (zh) 一种真实用户评论的区分方法和区分装置
CN115511856A (zh) 一种部件的缺陷检测方法、装置、电子设备及存储介质
CN112132239B (zh) 一种训练方法、装置、设备和存储介质
CN113902944A (zh) 模型的训练及场景识别方法、装置、设备及介质
CN111414930B (zh) 深度学习模型训练方法及装置、电子设备及存储介质
CN111680553A (zh) 一种基于深度可分离卷积的病理图像识别方法及系统
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN113177602B (zh) 图像分类方法、装置、电子设备和存储介质
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN113918471A (zh) 测试用例的处理方法、装置及计算机可读存储介质
CN113569957A (zh) 一种业务对象的对象类型识别方法、装置及存储介质
CN111612021B (zh) 一种错误样本识别方法、装置及终端
CN113360392A (zh) 一种跨项目软件缺陷预测方法及装置
US11210605B1 (en) Dataset suitability check for machine learning
CN117523324B (zh) 图像处理方法和图像样本分类方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201225

Assignee: CHINA TECHNOLOGY EXCHANGE Co.,Ltd.

Assignor: Beijing Yuanjian Information Technology Co.,Ltd.

Contract record no.: X2023110000142

Denomination of invention: A training method, device, device, and storage medium

Granted publication date: 20210316

License type: Exclusive License

Record date: 20231204

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A training method, device, device, and storage medium

Effective date of registration: 20231206

Granted publication date: 20210316

Pledgee: CHINA TECHNOLOGY EXCHANGE Co.,Ltd.

Pledgor: Beijing Yuanjian Information Technology Co.,Ltd.

Registration number: Y2023110000521