CN113011534A

CN113011534A - 分类器训练方法、装置、电子设备和存储介质

Info

Publication number: CN113011534A
Application number: CN202110488113.0A
Authority: CN
Inventors: 潘浩; 庄伯金; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-06-22
Anticipated expiration: 2041-04-30
Also published as: CN113011534B

Abstract

本申请具体公开了一种分类器训练方法、装置、电子设备和存储介质，其中，训练方法包括：在初始样本集中随机选取a个样本，将a个样本组成第一样本集，并将除去a个样本的初始样本集作为第二样本集；对第一样本集中的a个样本进行标注，并将标注后的第一样本集中的a个样本输入初始分类器进行训练，得到第一分类器；根据第一分类器和预设的筛选策略，在第二样本集中筛选出b个样本，将b个样本组成第三样本集，并将除去b个样本的第二样本集作为第四样本集；对第三样本集中的b个样本进行标注；调用第一分类器对第四样本集进行标注；根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练，获取目标分类器。

Description

分类器训练方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种分类器训练方法、装置、电子设备和存储介质。

背景技术

图像分类是图像领域中最基本，也是最简单的任务。随着深度学习的出现和崛起，各图像分类任务的分类器大量出现，其中也涌现出许多高精度的分类器。目前，高精度分类器的出现，一方面是因为新技术的革新，而更多的要归功于分类器训练过程使用的大量的标注数据。

想要训练出高精度的分类器，所需要的数据是海量的，虽然在现如今的互联网时代，大部分训练所需的数据是容易获取的，但是，对数据的标注却需要花费巨额的人力和财力，使得训练效率低下，训练成本高。

发明内容

为了解决现有技术中存在的上述问题，本申请实施方式提供了一种分类器训练方法、装置、电子设备和存储介质，保证训练所得的分类器的精度的同时，能够大量降低训练过程中数据标注的成本，提升训练效率。

第一方面，本申请的实施方式提供了一种分类器训练方法，包括：

在初始样本集中随机选取a个样本，将a个样本组成第一样本集，并将除去a个样本的初始样本集作为第二样本集，其中，a为大于0的整数；

对第一样本集中的a个样本进行标注，得到标注后的第一样本集，并将标注后的第一样本集中的a个样本输入初始分类器进行训练，得到第一分类器；

根据第一分类器和预设的筛选策略，在第二样本集中筛选出b个样本，将b个样本组成第三样本集，并将除去b个样本的第二样本集作为第四样本集，其中，b为大于0且小于a的整数；

对第三样本集中的b个样本进行标注，得到标注后的第三样本集；

调用第一分类器对第四样本集进行标注，得到标注后的第四样本集；

根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练，获取目标分类器。

第二方面，本申请的实施方式提供了一种分类器训练装置，包括：

样本集划分模块，用于在初始样本集中随机选取a个样本，将a个样本组成第一样本集，并将除去a个样本的初始样本集作为第二样本集，其中，a为大于0的整数；

标注模块，用于对第一样本集中的a个样本进行标注，得到标注后的第一样本集，并将标注后的第一样本集中的a个样本输入预设的初始分类器进行训练，得到第一分类器；

样本集划分模块，还用于根据第一分类器和预设的筛选策略，在第二样本集中筛选出b个样本，将b个样本组成第三样本集，并将除去b个样本的第二样本集作为第四样本集，其中，b为大于0且小于a的整数；

标注模块，还用于对第三样本集中的b个样本进行标注，得到标注后的第三样本集，以及调用第一分类器对第四样本集进行标注，得到标注后的第四样本集；

训练模块，用于根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练，获取目标分类器。

第三方面，本申请实施方式提供一种电子设备，包括：处理器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行如第一方面的方法。

第四方面，本申请实施方式提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行如第一方面的方法。

第五方面，本申请实施方式提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机可操作来使计算机执行如第一方面的方法。

实施本申请实施方式，具有如下有益效果：

在本申请实施方式中，首先，通过选取初始样本集中的部分样本进行标记，并通过该标记后的部分样本训练出初始分类器。然后，通过该初始分类器和筛选规则，在初始样本集中剩余的样本中再次筛选出部分样本进行标记，并调用该初始分类器对初始样本集中最后剩余的样本进行标记。最后，通过得到的3个标记后的样本集，对初始分类器进行训练，得到最终分类器。由此，只需要对少量的样本进行标记，即可完成分类器的训练，能够大量降低训练过程中数据标注的成本，提升训练效率。同时，在训练过程中，也充分利用了未标注的数据，保证了最终分类器的精度。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式提供的一种分类器训练装置的硬件结构示意图；

图2为本申请实施方式提供的一种分类器训练方法的流程示意图；

图3为本申请实施方式提供的一种根据第一分类器和预设的筛选策略，在第二样本集中筛选出b个样本的方法的流程示意图；

图4为本申请实施方式提供的一种第二样本集中的多个样本的样本空间分布示意图；

图5为本申请实施方式提供的一种根据第一损失结果、第三损失结果和第四损失结果对第一分类器进行训练的方法的流程示意图；

图6为本申请实施方式提供的一种循环训练的方法的流程示意图；

图7为本申请实施方式提供的一种分类器训练装置的功能模块组成框图；

图8为本申请实施方式提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施方式”意味着，结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式，也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是，本文所描述的实施方式可以与其它实施方式相结合。

参阅图1，图1为本申请实施方式提供的一种分类器训练装置的硬件结构示意图。该分类器训练装置100包括至少一个处理器101，通信线路102，存储器103以及至少一个通信接口104。

在本实施方式中，处理器101，可以是一个通用中央处理器(central processingunit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路102，可以包括一通路，在上述组件之间传送信息。

通信接口104，可以是任何收发器一类的装置(如天线等)，用于与其他设备或通信网络通信，例如以太网，RAN，无线局域网(wireless local area networks，WLAN)等。

存储器103，可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

在本实施方式中，存储器103可以独立存在，通过通信线路102与处理器101相连接。存储器103也可以和处理器101集成在一起。本申请实施方式提供的存储器103通常可以具有非易失性。其中，存储器103用于存储执行本申请方案的计算机执行指令，并由处理器101来控制执行。处理器101用于执行存储器103中存储的计算机执行指令，从而实现本申请下述实施方式中提供的方法。

在可选的实施方式中，计算机执行指令也可以称之为应用程序代码，本申请对此不作具体限定。

在可选的实施方式中，处理器101可以包括一个或多个CPU，例如图1中的CPU0和CPU1。

在可选的实施方式中，分类器训练装置100可以包括多个处理器，例如图1中的处理器101和处理器107。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在可选的实施方式中，若分类器训练装置100为服务器，则分类器训练装置100还可以包括输出设备105和输入设备106。输出设备105和处理器101通信，可以以多种方式来显示信息。例如，输出设备105可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备106和处理器101通信，可以以多种方式接收用户的输入。例如，输入设备106可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的分类器训练装置100可以是一个通用设备或者是一个专用设备。本申请实施方式不限定分类器训练装置100的类型。

参阅图2，图2为本申请实施方式提供的一种分类器训练方法的流程示意图。该分类器训练方法包括以下步骤：

201：在初始样本集中随机选取a个样本，将a个样本组成第一样本集，并将除去a个样本的初始样本集作为第二样本集。

在本实施方式中，a为大于0的整数。

202：对第一样本集中的a个样本进行标注，得到标注后的第一样本集，并将标注后的第一样本集中的a个样本输入初始分类器进行训练，得到第一分类器。

在本实施方式中，可以对第一样本集中的a个样本进行人工标注。

203：根据第一分类器和预设的筛选策略，在第二样本集中筛选出b个样本，将b个样本组成第三样本集，并将除去b个样本的第二样本集作为第四样本集。

在本实施方式中，b为大于0且小于a的整数。示例性的，b的取值范围可以为(0，0.3a]。

示例性的，本申请提出了一种根据第一分类器和预设的筛选策略，在第二样本集中筛选出b个样本的方法，如图3所示，该方法包括：

301：将第二样本集中的多个样本中的每个样本，分别输入第一分类器，得到与第二样本集中的多个样本一一对应的多个样本得分。

在本实施方式中，样本输入第一分类器后，第一分类器会对样本进行分析，继而得出该样本对应于第一分类器中各个类别的得分。第一分类器会将最高的得分所对应的类别作为该样本的标注输出。

因此，在本实施方式中，可以在样本输入第一分类器后，获取该样本对应的样本得分组，该样本得分组用于记录每个样本对应于各个类别的得分。然后，将样本得分组中最大的样本得分，作为该样本对应的样本得分。

示例性的，第一分类器用于对10个类别进行分类，输入样本A后，得到样本A对应于10个类别的样本得分组为【12、25、16、32、56、55、42、72、53、26】，则令样本A的样本得分为样本得分组中的最大值72。

302：将多个样本得分按照样本得分从小到大的顺序进行排列，获取前b个样本得分所对应的样本作为b个样本。

在本实施方式中，进行排序后，排在前方的基本是样本得分较小的样本。这说明了，虽然第一分类器可以对这些样本进行标签，但标签的准确性并不高。例如，排在前列的样本B，其对应于10个类别的样本得分组为【12、16、13、20、6、19、22、8、5、10】，这表明了在第一分类器下，样本B对应于10个类别的得分均很低，因此，即便第一分类器对样本B标记了样本得分22所对应的类别作为标注，该标注的准确性也是不高的。

同样的，在本实施方式中，对第二样本集中的多个样本绘制样本空间分布示意图，并将筛选出的样本用“×”进行标记，未被筛选出的样本用“·”进行标记，可以得到图4所示的样本空间分布示意图。从图4中可以看到，这些被筛选出的样本基本是位于各个类别的边界，因此，如果将这些样本加入训练，相当于可以更加清楚的告诉分类器各个类别的边界是什么。

因此，通过上述方法所筛选出的样本，是对提升分类器性能提升贡献最大的样本，通过对这些样本进行标注后，对第一分类器进行训练，可以有效的提升训练后的第一分类器的正确率，保证训练所得的分类器的精准度。

204：对第三样本集中的b个样本进行标注，得到标注后的第三样本集。

在本实施方式中，对第三样本集中的b个样本进行标注的方法与步骤202中的标注方法类似，在此不再赘述。

205：调用第一分类器对第四样本集进行标注，得到标注后的第四样本集。

206：根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练，获取目标分类器。

在本实施方式中，可以将标注后的第一样本集输入第一分类器，得到第一分类结果，并根据第一分类结果和标注后的第一样本集确定第一损失结果。同样的，将标注后的第三样本集输入第一分类器，得到第三分类结果，根据第三分类结果和标注后的第三样本集确定第三损失结果。以及将标注后的第四样本集输入第一分类器，得到第四分类结果，根据第四分类结果和标注后的第四样本集确定第四损失结果。由此，可以根据第一损失结果、第三损失结果和第四损失结果对第一分类器进行训练，获取目标分类器。

示例性的，本申请提供了了一种根据第一损失结果、第三损失结果和第四损失结果对第一分类器进行训练的方法，如图5所示，该方法包括：

501：获取多组权值。

在本实施方式中，该多组权值中的每一组权值分别包括第一权值、第二权值和第三权值，其中，第一权值对应于第一损失结果，第二权值对应于第三损失结果，第三权值对应于第四损失结果。

具体而言，可以确定第一样本集的样本数量a与第三样本集的样本数量b的商c。将第一权值设定为超参d；确定第二权值的取值范围为大于且等于超参d，小于且等于超参d与商c的积，并在取值范围内随机选取一个值作为第二权值；确定第三权值的取值范围为大于且等于0，小于且等于超参d，并在取值范围内随机选取一个值作为第三权值。

例如，超参d的取值可以为1，因此，第一权值设定为1，第二权值的取值范围为[1，a/b]，第三权值的取值范围为[0，1]。由此，可以赋予第二权值对应的第三损失结果较高的权重，而第三损失结果是由对提升分类器性能提升贡献最大的样本对分类器训练所得的，因此，对其赋予较高的权重可以提升训练所得的分类器的准确率。

502：根据多组权值中的每一组权值，分别对第一损失结果、第三损失结果和第四损失结果进行加权求和，得到与多组权值一一对应的多个第二损失结果。

示例性的，第二损失结果可以通过公式①表示：

loss2＝x×lossl+y×loss3+z×loss4.........①

其中，loosl为第一损失结果，loos2为第二损失结果，loos3为第三损失结果，loos4为第四损失结果，x为第一权值，y为第二权值，z为第三权值。

503：分别根据多个第二损失结果中的每个第二损失结果对第一分类器进行训练，得到与多个第二损失结果一一对应的多个第二分类器。

504：将验证集分别输入多个第二分类器中的每个第二分类器，确定每个第二分类器的正确率，将正确率最高的第二分类器作为目标分类器。

示例性的，记每个第二分类器输出的标签与验证集中原标签一致的样本的数量为j，验证集中样本的总数的k，则正确率可以通过公式②表示：

h＝j/k.........②

在本实施方式中，若目标分类器的正确率未达到预设的阈值时，还可以通过以下方式进行循环训练，直至初始数据集中的数据耗尽，或者训练得到的分类器的正确率达到预设的阈值。如图6所示，该方法包括：

601：将第三样本集中的b个样本移动至第一样本集中，在第四样本集中随机选取e个样本，将e个样本移动至第一样本集中，与第一样本集中原有的a个样本、从第三样本集中移动过来的b个样本，以及e个样本组成新的第一样本集。

在本实施方式中，e为大于0的整数。

602：将除去e个样本的第四样本集作为新的第二样本集。

603：对新的第一样本集中的a+b+e个样本进行标注，得到标注后的新的第一样本集，并将标注后的第一样本集中的a+b+e个样本输入目标分类器进行训练，得到新的第一分类器。

在本实施方式中，对新的第一样本集中的a+b+e个样本进行标注的方法与步骤202中的标注方法类似，在此不再赘述。

604：根据新的第一分类器和预设的筛选策略，在新的第二样本集中筛选出f个样本，将f个样本移动至第三样本集，得到新的第三样本集。

在本实施方式中，f为大于0且小于e的整数，且在新的第二样本集中筛选出f个样本的筛选方法与步骤203中的筛选方法类似，在此不再赘述。

605：将除去f个样本的新的第二样本集作为新的第四样本集。

606：对新的第三样本集中的f个样本进行标注，得到标注后的新的第三样本集。

在本实施方式中，对新的第三样本集中的f个样本进行标注的方法与步骤202中的标注方法类似，在此不再赘述。

607：使用新的第一分类器对新的第四样本集进行标注，得到标注后的新的第四样本集。

608：根据标注后的新的第一样本集、标注后的新的第三样本集和标注后的新的第四样本集对新的第一分类器进行训练，获取新的目标分类器。

在本实施方式中，对根据标注后的新的第一样本集、标注后的新的第三样本集和标注后的新的第四样本集对新的第一分类器进行训练的方法与步骤206中的训练方法类似，在此不再赘述。

综上所述，本发明所提供的分类器训练方法，首先，通过选取初始样本集中的部分样本进行标记，并通过该标记后的部分样本训练出初始分类器。然后，通过该初始分类器和筛选规则，在初始样本集中剩余的样本中再次筛选出部分样本进行标记，并调用该初始分类器对初始样本集中最后剩余的样本进行标记。最后，通过得到的3个标记后的样本集，对初始分类器进行训练，得到最终分类器。由此，只需要对少量的样本进行标记，即可完成分类器的训练，能够大量降低训练过程中数据标注的成本，提升训练效率。同时，在训练过程中，也充分利用了未标注的数据，保证了最终分类器的精度。

以下将以一个具体的实施例，对本申请上述实施方式提供的分类器训练方法进行说明。

首先，先定义一些符号：

(1)N：最新一批根据预设的筛选规则筛选出来并进行标注的样本。

(2)L：累积的已标注的样本(不包括N)。

(3)U：剩余的伪标注的样本。

其中，伪标注指使用初步训练出的分类器对未标注样本进行预测，得到的样本的伪标注标签。

在本实施例中，初始时L和N中均为空，没有任何样本，所有的样本均存放于U中，假定U中存放有10000份未标注的原始样本。

1)从U中随机选择一批样本，比如1000份，该数量可以依据分类的类别数和分类的难易程度而定。将该1000份样本移入L，进行人工标注，使用L对ImageNet模型进行预训练，得到一个初始分类器M。当然，此处也可以采用其他大型数据集的预训练模型，本申请对此不作限制。

2)如果N中存在数据，则将其移动到L中。

3)使用分类器M和预设的筛选规则对U进行样本筛选，得到一批样本，比如300份(样本量不超过L中样本量的30％)，将其从U中移入到N中，然后进行人工标注。

4)使用分类器M对U中剩余的样本进行伪标注。

5)使用新的L、U和N样本集对分类器M进行训练，训练loss为可以通过公式③表示：

loss＝loss_L+aloss_N+βloss_U.........③

其中，loss_L、loss_N、loss_U分别为L、U和N中样本对应的普通分类loss，α和β为样本加权系数。

进一步的，样本加权系数α满足公式④：

其中，n_L、n_N分别为L和N中的样本数量，且，n_N≠0，且n_N＜n_L。

进一步的，样本加权系数α满足公式⑤：

0≤β≤1.........⑤

其中，β＝0时表示U数据不参与训练。

在本实施例中，可以配置不同的α和β，重复多次，将训练得到的所有分类器中准确率最高的更新为分类器M；

示例性的，可以配置三组α和β，具体如下：

第一次：α＝1，β＝0；

第二次：

β＝0；

第三次：α＝1，β＝1。

6)如果更新后的分类器M的准确率达到预期值，或者U中的数据耗尽，则停止迭代，输出最终模型M；否则重复步骤2)-5)。

在本实施例中，除了人工标注的样本外，剩余的未标注的样本也被利用到了训练中，随着迭代的进行，分类器M的精度会不断提升，此时，利用分类器M对剩余的未标注数据进行伪标注(这里不消耗人力)后，这部分未标注的样本也是有利用价值的。因为分类器M的精度是比较高的，因此这些伪标注的样本的伪标签的正确率也是比较高的，将这些样本加入训练也会一定程度的提升分类器M的性能。

由此，本申请所提供的分类器训练方法，能够在减少训练中对样本的标注工作的情况下，获得与传统的全标注情况下的训练方法所训练出的分类器的准确率几乎一样甚至更高的分类器。例如，普通方法标注了10000份样本，获得了90％的精度，而使用本申请所提供的分类器训练方法，只标注了4000份样本，就达到了88％或者90％甚至91％的精度，节省了60％的人工标注成本。

参阅图7，图7为本申请实施方式提供的一种分类器训练装置的功能模块组成框图。如图7所示，该分类器训练装置700包括：

样本集划分模块701，用于在初始样本集中随机选取a个样本，将a个样本组成第一样本集，并将除去a个样本的初始样本集作为第二样本集，其中，a为大于0的整数；

标注模块702，用于对第一样本集中的a个样本进行标注，得到标注后的第一样本集，并将标注后的第一样本集中的a个样本输入预设的初始分类器进行训练，得到第一分类器；

样本集划分模块701，还用于根据第一分类器和预设的筛选策略，在第二样本集中筛选出b个样本，将b个样本组成第三样本集，并将除去b个样本的第二样本集作为第四样本集，其中，b为大于0且小于a的整数；

标注模块702，还用于对第三样本集中的b个样本进行标注，得到标注后的第三样本集，以及调用第一分类器对第四样本集进行标注，得到标注后的第四样本集；

训练模块703，用于根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练，获取目标分类器。

在本发明的实施方式中，在根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练，获取目标分类器方面，训练模块703，具体用于：

将标注后的第一样本集输入第一分类器，得到第一分类结果，根据第一分类结果和标注后的第一样本集确定第一损失结果；

将标注后的第三样本集输入第一分类器，得到第三分类结果，根据第三分类结果和标注后的第三样本集确定第三损失结果；

将标注后的第四样本集输入第一分类器，得到第四分类结果，根据第四分类结果和标注后的第四样本集确定第四损失结果；

根据第一损失结果、第三损失结果和第四损失结果对第一分类器进行训练，获取目标分类器。

在本发明的实施方式中，在根据第一损失结果、第三损失结果和第四损失结果对第一分类器进行训练，获取目标分类器方面，训练模块703，具体用于：

获取多组权值，多组权值中的每一组权值分别包括第一权值、第二权值和第三权值，其中，第一权值对应于第一损失结果，第二权值对应于第三损失结果，第三权值对应于第四损失结果；

根据多组权值中的每一组权值，分别对第一损失结果、第三损失结果和第四损失结果进行加权求和，得到多个第二损失结果，其中，多个第二损失结果和多组权值一一对应；

分别根据多个第二损失结果中的每个第二损失结果对第一分类器进行训练，得到多个第二分类器，其中，多个第二分类器与多个第二损失结果一一对应；

将验证集分别输入多个第二分类器中的每个第二分类器，确定每个第二分类器的正确率，将正确率最高的第二分类器作为目标分类器。

在本发明的实施方式中，在获取多组权值方面，训练模块703，具体用于：

确定第一样本集的样本数量a与第三样本集的样本数量b的商c；

将第一权值设定为超参d；

确定第二权值的取值范围为大于且等于超参d，小于且等于超参d与商c的积，并在取值范围内随机选取一个值作为第二权值；

确定第三权值的取值范围为大于且等于0，小于且等于超参d，并在取值范围内随机选取一个值作为第三权值。

在本发明的实施方式中，在根据第一分类器和预设的筛选策略，在第二样本集中筛选出b个样本方面，样本集划分模块701，具体用于：

将第二样本集中的多个样本中的每个样本，分别输入第一分类器，得到多个样本得分，其中，多个样本得分与第二样本集中的多个样本一一对应；

将多个样本得分按照样本得分从小到大的顺序进行排列，获取前b个样本得分所对应的样本作为b个样本。

在本发明的实施方式中，在将第二样本集中的多个样本中的每个样本，分别输入第一分类器，得到多个样本得分方面，样本集划分模块701，具体用于：

获取每个样本在第一分类器中得到的样本得分组，其中，样本得分组用于记录每个样本对应于各个类别的得分；

将样本得分组中最大的样本得分，作为每个样本对应的样本得分。

在本发明的实施方式中，在根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练，获取目标分类器之后，训练模块703，还用于：

确定目标分类器的正确率；

并在目标分类器的正确率小于预设的阈值时，调用样本集划分模块701将第三样本集中的b个样本移动至第一样本集中，在第四样本集中随机选取e个样本，将e个样本移动至第一样本集中，与第一样本集中原有的a个样本、从第三样本集中移动过来的b个样本，以及e个样本组成新的第一样本集，其中，e为大于0的整数；将除去e个样本的第四样本集作为新的第二样本集；

调用标注模块702，对新的第一样本集中的a+b+e个样本进行标注，得到标注后的新的第一样本集，并将标注后的第一样本集中的a+b+e个样本输入目标分类器进行训练，得到新的第一分类器；

调用样本集划分模块701，根据新的第一分类器和预设的筛选策略，在新的第二样本集中筛选出f个样本，将f个样本移动至第三样本集，得到新的第三样本集，其中，f为大于0且小于e的整数；将除去f个样本的新的第二样本集作为新的第四样本集；

调用标注模块702，对新的第三样本集中的f个样本进行标注，得到标注后的新的第三样本集，以及调用新的第一分类器对新的第四样本集进行标注，得到标注后的新的第四样本集；

根据标注后的新的第一样本集、标注后的新的第三样本集和标注后的新的第四样本集对新的第一分类器进行训练，获取新的目标分类器。

参阅图8，图8为本申请实施方式提供的一种电子设备的结构示意图。如图8所示，电子设备800包括收发器801、处理器802和存储器803。它们之间通过总线804连接。存储器803用于存储计算机程序和数据，并可以将存储器803存储的数据传输给处理器802。

处理器802用于读取存储器803中的计算机程序执行以下操作：

对第一样本集中的a个样本进行标注，得到标注后的第一样本集，并将标注后的第一样本集中的a个样本输入预设的初始分类器进行训练，得到第一分类器；

在本发明的实施方式中，在根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练，获取目标分类器方面，处理器802，具体用于执行以下操作：

在本发明的实施方式中，在根据第一损失结果、第三损失结果和第四损失结果对第一分类器进行训练，获取目标分类器方面，处理器802，具体用于执行以下操作：

在本发明的实施方式中，在获取多组权值方面，处理器802，具体用于执行以下操作：

将第一权值设定为超参d；

在本发明的实施方式中，在根据第一分类器和预设的筛选策略，在第二样本集中筛选出b个样本方面，处理器802，具体用于执行以下操作：

在本发明的实施方式中，在将第二样本集中的多个样本中的每个样本，分别输入第一分类器，得到多个样本得分方面，处理器802，具体用于执行以下操作：

在本发明的实施方式中，在根据标注后的第一样本集、标注后的第三样本集和标注后的第四样本集对第一分类器进行训练，获取目标分类器之后，处理器802，具体用于执行以下操作：

确定目标分类器的正确率；

在目标分类器的正确率小于预设的阈值时，将第三样本集中的b个样本移动至第一样本集中，在第四样本集中随机选取e个样本，将e个样本移动至第一样本集中，与第一样本集中原有的a个样本、从第三样本集中移动过来的b个样本，以及e个样本组成新的第一样本集，其中，e为大于0的整数；将除去e个样本的第四样本集作为新的第二样本集；

对新的第一样本集中的a+b+e个样本进行标注，得到标注后的新的第一样本集，并将标注后的第一样本集中的a+b+e个样本输入目标分类器进行训练，得到新的第一分类器；

根据新的第一分类器和预设的筛选策略，在新的第二样本集中筛选出f个样本，将f个样本移动至第三样本集，得到新的第三样本集，其中，f为大于0且小于e的整数；将除去f个样本的新的第二样本集作为新的第四样本集；

对新的第三样本集中的f个样本进行标注，得到标注后的新的第三样本集；

使用新的第一分类器对新的第四样本集进行标注，得到标注后的新的第四样本集；

应理解，本申请中的分类器训练装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)、机器人或穿戴式设备等。上述分类器训练装置仅是举例，而非穷举，包含但不限于上述分类器训练装置。在实际应用中，上述分类器训练装置还可以包括：智能车载终端、计算机设备等等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。

因此，本申请实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种分类器训练方法的部分或全部步骤。例如，所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。

本申请实施方式还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种分类器训练方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施方式均属于可选的实施方式，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施方式中，对各个实施方式的描述都各有侧重，某个实施方式中没有详述的部分，可以参见其他实施方式的相关描述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施方式进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施方式的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种分类器训练方法，其特征在于，所述训练方法包括：

在初始样本集中随机选取a个样本，将所述a个样本组成第一样本集，并将除去所述a个样本的所述初始样本集作为第二样本集，其中，a为大于0的整数；

对所述第一样本集中的所述a个样本进行标注，得到标注后的所述第一样本集，并将标注后的所述第一样本集中的a个样本输入初始分类器进行训练，得到第一分类器；

根据所述第一分类器和预设的筛选策略，在所述第二样本集中筛选出b个样本，将所述b个样本组成第三样本集，并将除去所述b个样本的所述第二样本集作为第四样本集，其中，b为大于0且小于a的整数；

对所述第三样本集中的所述b个样本进行标注，得到标注后的所述第三样本集；

调用所述第一分类器对所述第四样本集进行标注，得到标注后的所述第四样本集；

根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练，获取目标分类器。

2.根据权利要求1所述的训练方法，其特征在于，所述根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练，获取目标分类器，包括：

将标注后的所述第一样本集输入所述第一分类器，得到第一分类结果，根据所述第一分类结果和标注后的所述第一样本集确定第一损失结果；

将标注后的所述第三样本集输入所述第一分类器，得到第三分类结果，根据所述第三分类结果和标注后的所述第三样本集确定第三损失结果；

将标注后的所述第四样本集输入所述第一分类器，得到第四分类结果，根据所述第四分类结果和标注后的所述第四样本集确定第四损失结果；

根据所述第一损失结果、所述第三损失结果和所述第四损失结果对所述第一分类器进行训练，获取所述目标分类器。

3.根据权利要求2所述的训练方法，其特征在于，所述根据所述第一损失结果、所述第三损失结果和所述第四损失结果对所述第一分类器进行训练，获取所述目标分类器，包括：

获取多组权值，所述多组权值中的每一组权值分别包括第一权值、第二权值和第三权值，其中，所述第一权值对应于所述第一损失结果，所述第二权值对应于所述第三损失结果，所述第三权值对应于所述第四损失结果；

根据所述多组权值中的每一组权值，分别对所述第一损失结果、所述第三损失结果和所述第四损失结果进行加权求和，得到多个第二损失结果，其中，所述多个第二损失结果和所述多组权值一一对应；

分别根据所述多个第二损失结果中的每个第二损失结果对所述第一分类器进行训练，得到多个第二分类器，其中，所述多个第二分类器与所述多个第二损失结果一一对应；

将验证集分别输入所述多个第二分类器中的每个第二分类器，确定所述每个第二分类器的正确率，将所述正确率最高的第二分类器作为所述目标分类器。

4.根据权利要求3所述的训练方法，其特征在于，所述获取多组权值，包括：

确定所述第一样本集的样本数量a与所述第三样本集的样本数量b的商c；

将所述第一权值设定为超参d；

确定第二权值的取值范围为大于且等于所述超参d，小于且等于所述超参d与所述商c的积，并在所述取值范围内随机选取一个值作为所述第二权值；

确定第三权值的取值范围为大于且等于0，小于且等于所述超参d，并在所述取值范围内随机选取一个值作为所述第三权值。

5.根据权利要求1-4中任意一项所述的训练方法，其特征在于，所述根据所述第一分类器和预设的筛选策略，在所述第二样本集中筛选出b个样本，包括：

将所述第二样本集中的多个样本中的每个样本，分别输入所述第一分类器，得到多个样本得分，其中，所述多个样本得分与所述第二样本集中的多个样本一一对应；

将所述多个样本得分按照样本得分从小到大的顺序进行排列，获取前b个样本得分所对应的样本作为所述b个样本。

6.根据权利要求5所述的训练方法，其特征在于，所述将所述第二样本集中的多个样本中的每个样本，分别输入所述第一分类器，得到多个样本得分，包括：

获取所述每个样本在所述第一分类器中得到的样本得分组，其中，所述样本得分组用于记录所述每个样本对应于各个类别的得分；

将所述样本得分组中最大的样本得分，作为所述每个样本对应的样本得分。

7.根据权利要求1-6中任意一项所述的训练方法，其特征在于，在所述根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练，获取目标分类器之后，所述训练方法还包括：

确定所述目标分类器的正确率；

当所述目标分类器的正确率小于预设的阈值时，将所述第三样本集中的b个样本移动至所述第一样本集中，在所述第四样本集中随机选取e个样本，将所述e个样本移动至所述第一样本集中，与所述第一样本集中原有的a个样本、从所述第三样本集中移动过来的b个样本，以及所述e个样本组成新的第一样本集，其中，e为大于0的整数；

将除去所述e个样本的所述第四样本集作为新的第二样本集；

对所述新的第一样本集中的所述a+b+e个样本进行标注，得到标注后的所述新的第一样本集，并将标注后的所述第一样本集中的a+b+e个样本输入所述目标分类器进行训练，得到新的第一分类器；

根据所述新的第一分类器和所述预设的筛选策略，在所述新的第二样本集中筛选出f个样本，将所述f个样本移动至所述第三样本集，得到新的第三样本集，其中，f为大于0且小于e的整数；

将除去所述f个样本的所述新的第二样本集作为新的第四样本集；

对所述新的第三样本集中的所述f个样本进行标注，得到标注后的所述新的第三样本集；

使用所述新的第一分类器对所述新的第四样本集进行标注，得到标注后的所述新的第四样本集；

根据标注后的所述新的第一样本集、标注后的所述新的第三样本集和标注后的所述新的第四样本集对所述新的第一分类器进行训练，获取新的目标分类器。

8.一种分类器训练装置，其特征在于，所述训练装置包括：

样本集划分模块，用于在初始样本集中随机选取a个样本，将所述a个样本组成第一样本集，并将除去所述a个样本的所述初始样本集作为第二样本集，其中，a为大于0的整数；

标注模块，用于对所述第一样本集中的所述a个样本进行标注，得到标注后的所述第一样本集，并将标注后的所述第一样本集中的a个样本输入预设的初始分类器进行训练，得到第一分类器；

所述样本集划分模块，还用于根据所述第一分类器和预设的筛选策略，在所述第二样本集中筛选出b个样本，将所述b个样本组成第三样本集，并将除去所述b个样本的所述第二样本集作为第四样本集，其中，b为大于0且小于a的整数；

所述标注模块，还用于对所述第三样本集中的所述b个样本进行标注，得到标注后的所述第三样本集，以及调用所述第一分类器对所述第四样本集进行标注，得到标注后的所述第四样本集；

训练模块，用于根据标注后的所述第一样本集、标注后的所述第三样本集和标注后的所述第四样本集对所述第一分类器进行训练，获取目标分类器。

9.一种电子设备，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述一个或多个程序包括用于执行权利要求1-7任一项方法中的步骤的指令。

10.一种可读计算机存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。