CN112651458B

CN112651458B - 分类模型的训练方法、装置、电子设备及存储介质

Info

Publication number: CN112651458B
Application number: CN202011634083.1A
Authority: CN
Inventors: 杨傲楠
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-04-02
Anticipated expiration: 2040-12-31
Also published as: CN112651458A

Abstract

本发明实施例提供一种分类模型的训练方法，方法包括：获取分类模型在训练过程中，当前批数据中各个样本对应的梯度贡献；将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，所述难样本集包括第二难样本，所述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本；根据预设的筛选规则，在所述难样本集中选取第三难样本，并根据所述第三难样本，对所述分类模型进行训练。通过对当前批数据与非当前批数据进行难样本挖掘，从第一难样本与第二难样本中筛选出第三难样本，使得第三难样本的筛选范围变大，进而可以得到更具代表性的难样本来对分类模型进行训练，提高分类模型的分类识别精确度。

Description

分类模型的训练方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种分类模型的训练方法、装置、电子设备及存储介质。

背景技术

在分类模型的训练过程中，需要使用到样本数据作为输入，在有监督的情况下使分类模型能够学习到对样本数据的分类。样本数据可以分为简单样本与难样本，简单样本与难样本是相对于分类模型进行定义，分类模型能够准确分类识别的样本为简单样本，分类模型不能够准确分类识别的样本为难样本。为提高分类模型的精度，在分类模型训练过程中通常采用难样本挖掘的方式训练模型，使得模型仅根据难样本贡献的梯度进行参数更新，忽略简单样本的梯度贡献，这是因为难样本在分类模型训练过程中的梯度贡献较大，而简单样本在分类模型训练过程中的梯度贡献接近于0。但在实际模型训练任务中，难样本挖掘都仅限于当前批数据batch size中的样本，多机分布式训练任务采用数据并行的训练模式在单个的训练器worker下进行，这种单个训练器的难样本挖掘将无法发挥分布式训练带来的大的批数据的优势，因此，现有的难样本挖掘的方式是在小范围内的批数据中进行挖掘，难样本的挖掘范围小，使得分类模型的分类识别精度不高。

发明内容

本发明实施例提供一种分类模型的训练方法，能够在分类模型的训练过程中扩大难样本的挖掘范围，进而提高分类模型的分类识别精确度。

第一方面，本发明实施例提供一种分类模型的训练方法，所述方法包括：

获取分类模型在训练过程中，当前批数据中各个样本对应的梯度贡献，所述分类模型为行人识别模型、车辆识别模型、物体检测模型、文章分类模型、音乐分类模型、视频分类模型、场景图像分类模型中的任意一个，所述样本为行人图像样本、车辆图像样本、物体图像样本、文本样本、音频样本、视频样本、场景图像样本中与所述分类模型对应的一项；

将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，所述难样本集包括第二难样本，所述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本；

根据预设的筛选规则，在所述难样本集中选取第三难样本，并根据所述第三难样本，对所述分类模型进行训练。

可选的，所述方法还包括：

判断所述分类模型的训练方式为队列式训练或分布式训练，所述队列式训练为将各个批数据按时序依次对所述分类模型进行训练，所述分布训练为将各个批数据并行对所述分类模型进行训练；

若所述分类模型的训练方式为队列式训练，则所述第二难样本为之前预设数量个批数据中梯度贡献大于或等于预设梯度贡献阈值的样本；

若所述分类模型的训练方式为分布式训练，则所述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本。

可选的，所述当前批数据包括正样本与负样本，所述第一难样本包括第一正难样本以第一负难样本，所述第二难样本包括第二正难样本与第二负难样本，所述分类模型的训练方式为队列式训练，所述将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，包括：

将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的正样本作为第一正难样本，添加到正难样本集中；

将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的负样本作为第一负难样本，添加到负难样本集中。

可选的，在所述分布式训练中，通过预设数量个训练器对所述分类模型进行并行训练，每个训练器对应一个批数据，所述分类模型的训练方式为分布式训练，所述将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，包括：

将每个训练器对应的批数据中梯度贡献大于或等于预设梯度贡献阈值的正样本作为第一正难样本，添加到正难样本集中；

将每个训练器对应的批数据中梯度贡献大于或等于预设梯度贡献阈值的负样本作为第一负难样本，添加到负难样本集中。

可选的，在批数据中，每个样本对应一个样本ID，所述第三难样本包括第三正难样本与第三负难样本，所述根据预设的筛选规则，在所述难样本集中选取第三难样本，包括：

获取正难样本集中，样本ID相同的第一正难样本与第二正难样本，并将所述样本ID相同的第一正难样本与第二正难样本进行梯度贡献对比，取梯度贡献较大的正难样本为第三正难样本；以及

获取负难样本集中，样本ID相同的第一负难样本与第二负难样本，并将所述样本ID相同的第一负难样本与第二负难样本进行梯度贡献对比，取梯度贡献较大的负难样本为第三负难样本。

可选的，所述分类模型的训练方式为队列式训练，所述将每个训练器对应的批数据中梯度贡献大于或等于预设梯度贡献阈值的正样本作为第一正难样本，添加到正难样本集中，包括：

对各个训练器进行梯度同步，得到同步梯度；

基于所述同步梯度，对所述梯度贡献阈值进行预设。

第二方面，本发明实施例还提供一种分类模型的训练装置，所述装置包括：

获取模块，用于获取分类模型在训练过程中，当前批数据中各个样本对应的梯度贡献，所述分类模型为行人识别模型、车辆识别模型、物体检测模型、文章分类模型、音乐分类模型、视频分类模型、场景图像分类模型中的任意一个，所述样本为行人图像样本、车辆图像样本、物体图像样本、文本样本、音频样本、视频样本、场景图像样本中与所述分类模型对应的一项；

添加模块，用于将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，所述难样本集包括第二难样本，所述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本；

选取模块，用于根据预设的筛选规则，在所述难样本集中选取第三难样本，并根据所述第三难样本，对所述分类模型进行训练。

可选的，所述装置还包括：

判断模块，用于判断所述分类模型的训练方式为队列式训练或分布式训练，所述队列式训练为将各个批数据按时序依次对所述分类模型进行训练，所述分布训练为将各个批数据并行对所述分类模型进行训练；

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例提供的分类模型的训练方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现发明实施例提供的分类模型的训练方法中的步骤。

本发明实施例中，获取分类模型在训练过程中，当前批数据中各个样本对应的梯度贡献，所述分类模型为行人识别模型、车辆识别模型、物体检测模型、文章分类模型、音乐分类模型、视频分类模型、场景图像分类模型中的任意一个，所述样本为行人图像样本、车辆图像样本、物体图像样本、文本样本、音频样本、视频样本、场景图像样本中与所述分类模型对应的一项；将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，所述难样本集包括第二难样本，所述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本；根据预设的筛选规则，在所述难样本集中选取第三难样本，并根据所述第三难样本，对所述分类模型进行训练。通过对当前批数据与非当前批数据进行难样本挖掘，从第一难样本与第二难样本中筛选出第三难样本，使得第三难样本的筛选范围变大，进而可以得到更具代表性的难样本来对分类模型进行训练，提高分类模型的分类识别精确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种分类模型的训练方法的流程图；

图2是本发明实施例提供的一种基于队列式训练的难样本挖掘的示意图；

图3是本发明实施例提供的一种基于分布式训练的难样本挖掘的示意图；

图4是本发明实施例提供的一种分类模型的训练装置的结构示意图；

图5是本发明实施例提供的另一种分类模型的训练装置的结构示意图；

图6是本发明实施例提供的一种添加模块的结构示意图；

图7是本发明实施例提供的一种选取模块的结构示意图；

图8是本发明实施例提供的一种第三添加单元的结构示意图；

图9是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1，图1是本发明实施例提供的一种分类模型的训练方法的流程图，如图1所示，包括以下步骤：

101、获取分类模型在训练过程中对应当前批数据中的各个样本的梯度贡献。

在本发明实施例中，上述分类模型可以是需要对目标进行分类识别的模型，比如可以是行人识别模型、车辆识别模型、物体检测模型、文章分类模型、音乐分类模型、视频分类模型、场景图像分类模型等，上述分类模型可以通过样本进行训练，样本中包括各个类别的样本与对应的类别标签。上述样本可以是对应各个类别的图像、文本、音频流等形式中的一种形式，比如，当分类模型为行人识别模型、车辆识别模型、物体检测模型、场景图像分类模型时，上述样本的形式可以是图像形式；当分类模型为文章分类模型时，上述样本的形式可以是文本形式。

训练集中包括样本，上述样本可以是行人图像样本、车辆图像样本、物体图像样本、文本样本、音频样本、视频样本、场景图像样本中与分类模型对应的一项。

上述类别可以根据实际的模型需要进行确定，比如，行人识别模型中，样本为行人图像样本，行人图像样本中样本的类别可以是行人、车辆、背景等类别；在车辆识别模型中，样本为车辆图像样本，车辆图像样本中样本的类别可以是机动车、非机动车、交通信号灯、背景等类别；在物体检测模型中，样本为物体图像样本，物体图像样本中样本的类别可以是猫、狗、包、帽子等类别；在文章分类模型中，样本为文本样本，文本样本中样本的类别可以是说明文、散文、诗歌等类别；在音乐分类模型中，样本为音频样本，音频样本中样本的类别可以是流行音乐、说唱音乐、轻音乐等类别；在视频分类模型中，样本为视频样本，视频样本中样本的类别可以是记录片、爱情片、动作片等类别；在场景图像分类模型中，样本为场景图像样本，场景图像样本中样本的类别可以是室内监控图像，室外监控图像，仰角拍摄图像等不同场景图像。

训练集中的样本可以是正样本或负样本，上述正样本为目标类别的样本，上述负样本为非目标类别的样本，比如，在行为识别模型中，正样本为具有行人的图像，负样本为没有行人的图像(也可以称为背景图像)，在车辆识别模型中，正样本为具有车辆的图像、负样本为没有车辆的图像，在物体检测模型中，正样本为具有目标物体的图像、负样本为没有目标物体的图像。上述标签数据可以是针对于正样本的真实标签，而对于负样本，则可以不需要标签数据，比如，以猫为目标的物体检测模型中，样本图像中包含有猫的类别作为标签数据，若样本图像中只包含有狗，则不对该样本图像做标签数据。

进一步的，训练集中包括较多样本，即样本的数据量很大，将整个训练集一次性输入分类模型中对分类模型进行训练的话，会存在训练速度很慢的问题。因此，在训练过程中，需要对训练集中的样本进行批处理，将训练集划分若干个批数据来对分类模型进行训练，一个批数据的训练过程可以称为一次迭代过程，迭代次数与批数据的个数相同。比如，训练集中存在10000个样本，将这10000个样本进行批处理，得到5个批数据，每个批数据中包含2000个样本，分类模型的迭代次数为5。

可以理解的是，上述训练集中可以包括难样本与简单样本，上述难样本可以理解为分类模型很难准确分类的样本，上述简单样本可以理解为分类模型很容易准确分类的样本，比如，在电瓶车检测模型中，难样本可以是摩托车、自行车等与电瓶车比较相似的样本，简单样本可以是机动车、行人等与电瓶车区别较大的模型。

上述当前批数据指的是在队列式训练中当前次迭代时对应的批数据，或者在分布式训练中当前个训练器对应的批数据。上述样本的梯度贡献指的是该样本与标签产生的误差在反向传播过程中的梯度下降程度。可以理解的是，样本与标签产生的误差越大，则在反向传播过程中的梯度下降程度越高，则说明样本的梯度贡献越大。当然，样本与标签产生的误差越小，则在反向传播过程中的梯度下降程度越低，则说明样本的梯度贡献越小。

102、将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中。

在本发明实施例中，上述难样本集包括第二难样本，上述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本。具体的，在队列式训练中，非当前批数据可以是最近k次迭代时对应的k个批数据，对应的，上述第二难样本为该k个批数据中的难样本；在分布式训练中，非当前批数据可以是除当前个训练器外的其他训练器对应的批数据，上述第二难样本为其他训练器对应批数据中的难样本。

上述预设梯度贡献阈值可以是用户自行设定的，当一个样本对应的梯度贡献大于或等于预设梯度贡献阈值，则可以说明该样本是一个难样本，分类模型很难对这个难样本进行准确分类；当一个样本对应的梯度贡献小于预设梯度贡献阈值，则可以说明该样本是一个简单样本，分类模型可以很轻松的对这个简单样本进行准确分类，甚至可以理解为，分类模型对于简单样本的分类可以达到一个很高的准确率，比如98％、100％等的准确率，此时再通过简单样本对模型训练所起到作用很小。

上述的难样本集可以理解为一个专门用于记录难样本的集合，上述第一难样本为当前批数据中的难样本。

可选的，在本发明实施例中，分类模型的训练方式包括队列式训练或分布式训练，其中，上述队列式训练可以理解为将批数据按时序依次输入分类模型中对分类模型进行训练，当所有批数据都输入到分类模型中对分类模型训练完成后，得到训练好的分类模型；上述分布式训练中，分类模型被划分成多个网络部分，通过与网络部分数量相同的训练器对各个网络部分进行并行的训练，可以将批数据并行输入到训练器中对分类模型进行训练，再通过梯度同步，同步多个训练器的梯度，分类模型训练完成后，将各训练器对应的网络部分进行组合，得到训练好的分类模型。

进一步的，可以判断分类模型的训练方式为队列式训练或分布式训练，队列式训练为将各个批数据按时序依次对所述分类模型进行训练，上述分布训练为将各个批数据并行对分类模型进行训练；若上述分类模型的训练方式为队列式训练，则第二难样本为之前预设数量个批数据中梯度贡献大于或等于预设梯度贡献阈值的样本；若上述分类模型的训练方式为分布式训练，则第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本。上队列式训练中，各个批数据具有时序属性，上述分布式训练中，各个批数据具有空间属性(即在不同处理线程或不同计算核中同时进行训练)。在队列式训练中，根据时序对第二难样本进行保留，这样在获取第一难样本时，可以直接与第二难样本进行比对，从时间上扩大了难样本的挖掘范围。在分布式训练中，相当于对每个批数据进行进行难样本筛选再综合，从空间上扩大了难样本的挖掘范围。根据不同训练方式，设计不同的第二难样本获取方式，可以使难样本获取的方式更具有针对性。

可选的，上述当前批数据可以包括正样本与负样本，上述第一难样本包括第一正难样本以及第一负难样本，上述第二难样本包括第二正难样本与第二负难样本。上述正难样本可以理解为标签为目标类别，预测结果为非目标类别，上述负难样本可以理解为不是目标类别，预测结果为目标类别，比如，以对猫进行检测的模型来说，正难样本为含有猫的样本(标签为猫)，模型的预测结果为该样本不是猫，此时，该含有猫的样本为正难样本，对应的，预测结果与标签数据的误差损失很大，通过误差损失进行反向传播时，会产生较大的梯度下降，以调整模型的参数，使该模型能够将该含有猫的样本正确分类识别为猫。同样的，负难样本为含有狗的样本(无标签)，模型的预测结果为该样本为猫，此时，该含有狗的样本为负难样本，对应的，预测结果与标签数据(标签为猫时，标签数据可以是1，无标签时，标签数据可以是0)的误差损失很大，通过误差损失进行反向传播时，会产生较大的梯度下降，以调整模型的参数，使该模型能够将该含有狗的样本正确分类识别为不是猫。

可选的，在分类模型的训练方式为队列式训练时，可以将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的正样本作为第一正难样本，添加到正难样本集中；将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的负样本作为第一负难样本，添加到负难样本集中。

具体的，在分类模型的训练方式为队列式训练时，上述正难样本集与负难样本集可以是两个队列，即正难样本队列与负难样本队列，其中，正难样本队列中存储最近K个批数据中挖掘的第二正难样本，负难样本队列中存储最近K个批数据中挖掘的第二负难样本。通过正难样本集来维护第二正难样本，通过负难样本集来维护第二负难样本，可以提高第二难样本的复用能力，在需要构建新的批数据时，可以直接从正难样本集与负难样本集中进行采样即可，减小新的批数据的采样成本，提高了新的批数据的采样速度，进而提高了训练速度。

可选的，在分布式训练中，可以通过预设数量个训练器对分类模型进行并行训练，每个训练器对应一个批数据，在分类模型的训练方式为分布式训练时，可以将每个训练器对应的批数据中梯度贡献大于或等于预设梯度贡献阈值的正样本作为第一正难样本，添加到正难样本集中；将每个训练器对应的批数据中梯度贡献大于或等于预设梯度贡献阈值的负样本作为第一负难样本，添加到负难样本集中。

具体的，在分类模型的训练方式为分布式训练时，在每个训练器worker挖掘各自当前批数据的难样本之后，将各自难样本像梯度同步那样同步到所有训练器的公共位置，该公共位置中包括正难样本集与负难样本集，可以将各自的第一正难样本同步到正难样本集中，将各自的第二负难样本同步到负难样本集中。通过将各个训练器的难样本同步到公共位置，扩大了分布式训练中的难样本的挖掘范围，即原本是单个训练器的难样本在该训练器中单独对批数据进行挖掘，在本发明实施例中实现多上训练器的难样本共同挖掘，将难样本的挖掘范围扩大到所有训练器对应的批数据中。

可选的，在分类模型的训练方式为分布式训练时，可以对各个训练器进行梯度同步，得到同步梯度；基于同步梯度，对梯度贡献阈值进行预设。上述同步梯度可以是取各个训练器的平均梯度，可以取梯度与同步梯度最相近的训练器中最大梯度贡献为梯度贡献阈值。上述训练器的梯度为对应批数据中各个样本的平均梯度。基于同步梯度对贡献阈值进行预设，可以使得梯度贡献阈值随同步梯度的变化而进行动态调整。随着训练的进行，之前的难样本对梯度的贡献开始平均且呈下降的趋势，因此，梯度贡献阈值随同步梯度的变化而进行动态调整可以降低梯度贡献阈值，保证挖掘到的难亲本的数量，进而降低过拟合出现的可能，提高训练好的分类模型的准确度。

103、根据预设的筛选规则，在难样本集中选取第三难样本，并根据第三难样本，对分类模型进行训练。

在本发明实施例中，上述预设的筛选规则可以是选取难样本集中梯度贡献最高的预设个难样本。在训练集中，每个样本对应一个样本ID，进一步的，在批数据中，每个样本对应一个样本ID。

在分类模型的训练方式为分布式训练时，如图2所示，在将第一正难样本添加到正难样本集中之后，可以获取正难样本集中，样本ID相同的第一正难样本与第二正难样本，并将样本ID相同的第一正难样本与第二正难样本进行梯度贡献对比，取梯度贡献较大的正难样本为第三正难样本，并更新正难样本集；以及在将第一负难样本添加到负难样本集中之后，可以获取负难样本集中，样本ID相同的第一负难样本与第二负难样本，并将样本ID相同的第一负难样本与第二负难样本进行梯度贡献对比，取梯度贡献较大的负难样本为第三负难样本，并更新负难样本集。通过对样本ID相同的难样本进行去重，可以提高难样本集中的难样本多样性，使得构建新的批数据时，可以采样到更多类型的难样本，提高后续对分类模型的训练效果。

在分类模型的训练方式为分布式训练时，如图3所示，在将各个训练器的正难样本同步到正难样本集后，可以在正难样本集中随机为各个训练器选取第三正难样本作为输入对应训练器的新的正难样本。在将各个训练器的负难样本同步到负难样本集后，可以在负难样本集中随机为各个训练器选取第三负难样本作为输入对应训练器的新的负难样本。

根据上述第三难样本，可以根据批数据中预设的样本数量，来确定一个批数量中可以包括多少个第三难样本数量。

在本发明实施例中，获取分类模型在训练过程中，当前批数据中各个样本对应的梯度贡献，所述分类模型为行人识别模型、车辆识别模型、物体检测模型、文章分类模型、音乐分类模型、视频分类模型、场景图像分类模型中的任意一个，所述样本为行人图像样本、车辆图像样本、物体图像样本、文本样本、音频样本、视频样本、场景图像样本中与所述分类模型对应的一项；将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，所述难样本集包括第二难样本，所述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本；根据预设的筛选规则，在所述难样本集中选取第三难样本，并根据所述第三难样本，对所述分类模型进行训练。通过对当前批数据与非当前批数据进行难样本挖掘，从第一难样本与第二难样本中筛选出第三难样本，使得第三难样本的筛选范围变大，进而可以得到更具代表性的难样本来对分类模型进行训练，提高分类模型的分类识别精确度。

需要说明的是，本发明实施例提供的分类模型的训练方法可以应用于可以进行分类模型的训练的手机、监控器、计算机、服务器等设备。

请参见图4，图4是本发明实施例提供的一种分类模型的训练装置的结构示意图，如图4所示，所述装置包括：

获取模块401，用于获取分类模型在训练过程中，当前批数据中各个样本对应的梯度贡献，所述分类模型为行人识别模型、车辆识别模型、物体检测模型、文章分类模型、音乐分类模型、视频分类模型、场景图像分类模型中的任意一个，所述样本为行人图像样本、车辆图像样本、物体图像样本、文本样本、音频样本、视频样本、场景图像样本中与所述分类模型对应的一项；

添加模块402，用于将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，所述难样本集包括第二难样本，所述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本；

选取模块403，用于根据预设的筛选规则，在所述难样本集中选取第三难样本，并根据所述第三难样本，对所述分类模型进行训练。

可选的，如图5所示，所述装置还包括：

判断模块404，用于判断所述分类模型的训练方式为队列式训练或分布式训练，所述队列式训练为将各个批数据按时序依次对所述分类模型进行训练，所述分布训练为将各个批数据并行对所述分类模型进行训练；

可选的，如图6所示，所述当前批数据包括正样本与负样本，所述第一难样本包括第一正难样本以第一负难样本，所述第二难样本包括第二正难样本与第二负难样本，所述分类模型的训练方式为队列式训练，所述添加模块402，包括：

第一添加单元4021，用于将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的正样本作为第一正难样本，添加到正难样本集中；

第二添加单元4022，用于将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的负样本作为第一负难样本，添加到负难样本集中。

可选的，在所述分布式训练中，通过预设数量个训练器对所述分类模型进行并行训练，每个训练器对应一个批数据，所述分类模型的训练方式为分布式训练，所述添加模块402，包括：

第三添加单元4023还用于第三添加模块，用于将每个训练器对应的批数据中梯度贡献大于或等于预设梯度贡献阈值的正样本作为第一正难样本，添加到正难样本集中；

第四添加单元4024还用于将每个训练器对应的批数据中梯度贡献大于或等于预设梯度贡献阈值的负样本作为第一负难样本，添加到负难样本集中。

可选的，如图7所示，在批数据中，每个样本对应一个样本ID，所述第三难样本包括第三正难样本与第三负难样本，所述选取模块403，包括：

第一获取单元4031，用于获取正难样本集中，样本ID相同的第一正难样本与第二正难样本，并将所述样本ID相同的第一正难样本与第二正难样本进行梯度贡献对比，取梯度贡献较大的正难样本为第三正难样本；以及

第二获取单元4032，用于获取负难样本集中，样本ID相同的第一负难样本与第二负难样本，并将所述样本ID相同的第一负难样本与第二负难样本进行梯度贡献对比，取梯度贡献较大的负难样本为第三负难样本。

可选的，如图8所示，所述分类模型的训练方式为队列式训练，所述第三添加单元4023，包括：

同步子单元40231，用于对各个训练器进行梯度同步，得到同步梯度；

预设子单元40232，用于基于所述同步梯度，对所述梯度贡献阈值进行预设。

需要说明的是，本发明实施例提供的分类模型的训练装置可以应用于可以进行分类模型的训练的手机、监控器、计算机、服务器等设备。

本发明实施例提供的分类模型的训练装置能够实现上述方法实施例中分类模型的训练方法实现的各个过程，且可以达到相同的有益效果。为避免重复，这里不再赘述。

参见图9，图9是本发明实施例提供的一种电子设备的结构示意图，如图9所示，包括：存储器902、处理器901及存储在所述存储器902上并可在所述处理器901上运行的计算机程序，其中：

处理器901用于调用存储器902存储的计算机程序，执行如下步骤：

可选的，所述处理器901还执行包括：

可选的，所述当前批数据包括正样本与负样本，所述第一难样本包括第一正难样本以第一负难样本，所述第二难样本包括第二正难样本与第二负难样本，所述分类模型的训练方式为队列式训练，处理器901执行的所述将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，包括：

可选的，在所述分布式训练中，通过预设数量个训练器对所述分类模型进行并行训练，每个训练器对应一个批数据，所述分类模型的训练方式为分布式训练，处理器901执行的所述将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，包括：

可选的，在批数据中，每个样本对应一个样本ID，所述第三难样本包括第三正难样本与第三负难样本，处理器901执行的所述根据预设的筛选规则，在所述难样本集中选取第三难样本，包括：

可选的，所述分类模型的训练方式为队列式训练，处理器901执行的所述将每个训练器对应的批数据中梯度贡献大于或等于预设梯度贡献阈值的正样本作为第一正难样本，添加到正难样本集中，包括：

对各个训练器进行梯度同步，得到同步梯度；

基于所述同步梯度，对所述梯度贡献阈值进行预设。

需要说明的是，上述电子设备可以是可以应用于可以进行分类模型的训练的手机、监控器、计算机、服务器等设备。

本发明实施例提供的电子设备能够实现上述方法实施例中分类模型的训练方法实现的各个过程，且可以达到相同的有益效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的分类模型的训练方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种分类模型的训练方法，其特征在于，包括以下步骤：

获取分类模型在训练过程中对应当前批数据中的各个样本的梯度贡献，所述分类模型为行人识别模型、车辆识别模型、物体检测模型、文章分类模型、音乐分类模型、视频分类模型、场景图像分类模型中的任意一个，所述样本为行人图像样本、车辆图像样本、物体图像样本、文本样本、音频样本、视频样本、场景图像样本中与所述分类模型对应的一项；

将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，所述难样本集包括第二难样本，若所述分类模型的训练方式为分布式训练，则所述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本，所述分布式训练为将各个批数据并行对所述分类模型进行训练；所述分布式训练中，在分类模型的训练方式为分布式训练时，对各个训练器进行梯度同步，得到同步梯度，基于同步梯度，对梯度贡献阈值进行预设；

根据预设的筛选规则，在所述难样本集中选取第三难样本，并根据所述第三难样本，对所述分类模型进行训练；所述分布式训练中，分类模型被划分成多个网络部分，通过与网络部分数量相同的训练器对各个网络部分进行并行的训练，将包含第三难样本的批数据并行输入到训练器中对分类模型进行训练，再通过梯度同步，同步多个训练器的梯度，分类模型训练完成后，将各训练器对应的网络部分进行组合，得到训练好的分类模型。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

判断所述分类模型的训练方式为队列式训练或分布式训练，所述队列式训练为将各个批数据按时序依次对所述分类模型进行训练；

若所述分类模型的训练方式为队列式训练，则所述第二难样本为之前预设数量个批数据中梯度贡献大于或等于预设梯度贡献阈值的样本。

3.如权利要求2所述的方法，其特征在于，所述当前批数据包括正样本与负样本，所述第一难样本包括第一正难样本以第一负难样本，所述第二难样本包括第二正难样本与第二负难样本，所述分类模型的训练方式为队列式训练，所述将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，包括：

4.如权利要求3所述的方法，其特征在于，在所述分布式训练中，通过预设数量个训练器对所述分类模型进行并行训练，每个训练器对应一个批数据，所述分类模型的训练方式为分布式训练，所述将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，包括：

5.如权利要求4所述的方法，其特征在于，在批数据中，每个样本对应一个样本ID，所述第三难样本包括第三正难样本与第三负难样本，所述根据预设的筛选规则，在所述难样本集中选取第三难样本，包括：

6.一种分类模型的训练装置，其特征在于，所述装置包括：

添加模块，用于将当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本作为第一难样本，添加到难样本集中，所述难样本集包括第二难样本，若所述分类模型的训练方式为分布式训练，则所述第二难样本为非当前批数据中梯度贡献大于或等于预设梯度贡献阈值的样本，所述分布式训练为将各个批数据并行对所述分类模型进行训练；所述分布式训练中，在分类模型的训练方式为分布式训练时，对各个训练器进行梯度同步，得到同步梯度，基于同步梯度，对梯度贡献阈值进行预设；

选取模块，用于根据预设的筛选规则，在所述难样本集中选取第三难样本，并根据所述第三难样本，对所述分类模型进行训练；所述分布式训练中，分类模型被划分成多个网络部分，通过与网络部分数量相同的训练器对各个网络部分进行并行的训练，将包含第三难样本的批数据并行输入到训练器中对分类模型进行训练，再通过梯度同步，同步多个训练器的梯度，分类模型训练完成后，将各训练器对应的网络部分进行组合，得到训练好的分类模型。

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

判断模块，用于判断所述分类模型的训练方式为队列式训练或分布式训练，所述队列式训练为将各个批数据按时序依次对所述分类模型进行训练；

8.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的分类模型的训练方法中的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的分类模型的训练方法中的步骤。