CN111476285A

CN111476285A - 一种图像分类模型的训练方法及图像分类方法、存储介质

Info

Publication number: CN111476285A
Application number: CN202010250560.8A
Authority: CN
Inventors: 徐�明; 邵新庆; 宋咏君; 刘强
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-07-31
Anticipated expiration: 2040-04-01
Also published as: CN111476285B

Abstract

一种图像分类模型的训练方法及图像分类方法、存储介质，其中训练方法包括：建立关于一分类对象的第一数据集和第二数据集，根据第一数据集对第二数据集中的第二图像进行分类标签的预测以得到第二图像对应的分类标签，根据第二图像及其对应的分类标签得到标注有分类标签的第三图像以建立第三数据集，利用第一数据集和第三数据集对预设的深度神经网络进行训练，学习得到图像分类模型。由于第一数据集中的各幅第一图像标注有分类标签，第二数据集中的各幅第二图像没有标注分类标签，使得有分类标签的图像和无分类标签的图像均参与了深度神经网络的训练过程，利于提高图像分类模型对场景图像的分类适应能力和分类精度。

Description

一种图像分类模型的训练方法及图像分类方法、存储介质

技术领域

本发明涉及图像处理的技术领域，具体涉及一种图像分类模型的训练方法及图像分类方法、存储介质。

背景技术

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟，它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息。在计算机视觉的运用过程中，通常会进行图像预处理和模式识别的操作，除此之外，还会涉及图像分类、图像识别、景物分析、形状描述、几何建模和图象理解的操作。其中，图像分类是计算机视觉的核心领域之一，可以将它看作是从给定的分类集合中为图像分配一个标签的任务，具体就是分析一个输入图像并返回一个将图像分类的标签，并且这个标签是用来自预定义类别集合。

目前，随着计算机运算能力的发展和图像数据的爆炸式的增长，深度学习取得了巨大的成果，研究图像分类任务往往需要大量的标注数据进行监督学习。虽然，存在一些方法可以减少对数据的依赖，比如迁移学习、少样本学习等，但是到目前为止，此类方法的应用性能依然还没法与监督学习进行相比。在实际的工程实现中，往往短期内是无法收集并标注完成大量提供深度学习训练的可用数据。这对实际的算法落地造成很多不确定的因素，如此会严重影响到图像分类研究项目的进度。

此外，通过普通方式采集的数据与现场的数据之间会造成过度的拟合，不利于后期通过此类数据进行训练学习。一般情况下，深度神经网络在基准数据集上表现很好，但在数据集之外的真实世界图像上，效果就不那么让人满意了，这往往是图像分类处理时对真实场景过于敏感而导致的结果。对于这样的情况，即使局部存在不相同之处也会会造成很大的识别误差，而识别误差的产生会对算法的落地和推广产生很严重的影响。

发明内容

本发明主要解决的技术问题是如何提高图像分类的精确度和泛化能力，以满足实际的工程需求。为解决上述技术问题，本申请公开一种图像分类模型的训练方法及图像分类方法、存储介质。

根据第一方面，一种实施例中提供一种图像分类模型的训练方法，包括：建立关于一分类对象的第一数据集和第二数据集，所述第一数据集包含多幅标注有分类标签的第一图像，所述第二数据集包含多幅没有标注分类标签的第二图像；根据所述第一数据集对所述第二数据集中的所述第二图像进行分类标签的预测，得到所述第二图像对应的分类标签，并根据所述第二图像及其对应的分类标签得到标注有分类标签的第三图像以建立第三数据集；利用所述第一数据集和所述第三数据集对预设的深度神经网络进行训练，学习得到图像分类模型。

所述根据所述第一数据集对所述第二数据集中的所述第二图像进行分类标签的预测，得到所述第二图像对应的分类标签，并根据所述第二图像及其对应的分类标签得到标注有分类标签的第三图像以建立第三数据集，包括：从所述第一数据集中选取多幅第一图像，对预设的网络模型进行训练，得到预测模型；从所述第二数据集中选取多幅第二图像，根据所述预测模型对所选取的第二图像进行分类标签的预测处理，得到各所选取的第二图像的预测标签；对各幅第二图像的预测标签进行标签锐化处理，得到相应的第二图像的分类标签；对各选取的第二图像及其对应的分类标签进行处理，得到第三图像及其对应的分类标签，并根据第三图像及其对应的分类标签建立第三数据集。

所述从所述第二数据集中选取多幅第二图像，根据所述预测模型对所选取的第二图像进行分类标签的预测处理，得到各所选取的第二图像的预测标签，包括：对各幅所选取的第二图像，分别进行一次或多次的图像增强处理；将各幅所选取的第二图像及其图像增强处理后的第二图像分别输入至所述预测模型，分别得到对应的数据标签；对于每幅所选取的第二图像，将其对应的数据标签和其图像增强处理后的第二图像所对应的数据标签进行标签平均化处理，得到其预测标签。

所述对各幅第二图像的预测标签进行标签锐化处理，得到相应的第二图像的分类标签，包括：定义任意一幅第二图像的预测标签为多维向量Lˊ且Lˊ内的每一维数值表示所述第二图像从属于一分类类别的预测概率；根据预设的prob函数对多维向量Lˊ内的每一维数值进行预测概率的修正，利用修正后的概率值更新多维向量Lˊ，得到多维向量L且作为所述第二图像的分类标签；所述prob函数用公式表示为：

其中，p为所述第二图像从属于一分类类别的预测概率，T为预设的超参数，a为分类类别的序号，j为累加序号，N为分类类别的数目或多维向量Lˊ的维数。

所述利用所述第一数据集和所述第三数据集对预设的深度神经网络进行训练，学习得到图像分类模型，包括：从所述第一数据集中选取多幅第一图像，并对各所选取的第一图像分别进行数据增强处理；对数据增强处理之后的各第一图像和所述第三数据集中的各幅第三图像进行数据分组，得到参与训练的多组训练数据；利用得到的多组训练数据对预设的深度神经网络进行训练，学习得到图像分类模型。

所述对数据增强处理之后的各第一图像和所述第三数据集中的各幅第三图像进行数据分组，得到参与训练的多组训练数据，包括：将数据增强处理之后的各幅第一图像和所述第三数据集中的各幅第三图像进行混合重排，得到混合数据集；从所述混合数据集中获取若干幅图像，与从所述第一数据集中选取的多幅第一图像进行数据增强处理，得到一组训练数据，该组训练数据用公式表示为

其中，λ～beta(α,α)，λ′＝max(λ，1-λ)，X表示从所述第一数据集中选取的多幅第一图像，

为X中的第i幅图像，

为X中第i幅图像的分类标签，W表示所述混合数据集，

为W中的第i幅图像，

为W中第i幅图像的分类标签，|X′|为X中的图像数目，i为图像序号；从所述混合数据集中获取余下的各幅图像，与所述第三数据集中的各幅第三图像进行数据增强处理，得到另一组训练数据，该组训练数据用公式表示为

其中，Z表示第三数据集，

为Z中的第i幅图像，

为Z中第i幅图像的分类标签，

为W中的第i+|Xˊ|幅图像，

为W中第i+|Xˊ|幅图像的分类标签，|Y′|为Z中的图像数目。

所述利用得到的多组训练数据对预设的深度神经网络进行训练，学习得到图像分类模型，包括：对于多组训练数据中的一组训练数据Xˊ，计算对应的交叉熵损失量且用公式表示为

其中，H()为分类交叉熵，x为任意一幅图像，p为Xˊ中x对应从属于一分类类别的预测概率，p_m(y|x,θ)中的y为所述深度神经网络在输入x时对应的分类标签，θ为所述深度神经网络的网络参数；对于多组训练数据中的另一组训练数据Zˊ，计算对应的均方差损失量且用公式表示为

其中，N为分类类别的数目，q为Zˊ中x对应从属于一分类类别的预测概率；利用总损失函数Loss＝Loss_X+γLoss_Z且γ为超参数，反向计算所述深度神经网络中各层的梯度并对网络参数θ进行更新，学习得到所述图像分类模型。

得到所述图像分类模型之后还包括对所述图像分类模型进行更新：重建步骤：从所述第二数据集中再次选取多幅第二图像，通过预测处理和标签锐化处理得到各所选取的第二图像对应的分类标签，且重新建立所述第三数据集；更新步骤：利用所述第一数据集和重新建立的所述第三数据集，对所述深度神经网络进行再次训练以更新所述图像分类模型；确定步骤：当所述图像分类模型收敛或者达到预设的更新次数时，将当前的图像分类模型作为最终的图像分类模型。

在所述更新步骤和所述确定步骤之间还包括：在当前的所述预测模型的情况下，判断是否遍历所述第二数据集或者达到针对所述第二数据集的预设选取次数；若是，则从所述第一数据集中再次选取多幅第一图像，重新训练得到所述预测模型，用重新得到的预测模型替换当前的预测模型，然后再次进行所述重建步骤和所述更新步骤，其中替换后的预测模型用于在所述重建步骤中对每次从所述第二数据集中选取的多幅第二图像进行分类标签的预测处理和标签锐化处理；若否，则直接再次进行所述重建步骤和所述更新步骤。

根据第二方面，一种实施例中提供一种图像分类方法，包括：获取关于一分类对象的待分类图像；将所述待分类图像输入至预设的图像分类模型，所述图像分类模型是通过上述第一方面中的所述训练方法得到；利用所述图像分类模型对所述待分类图像进行识别，得到所述分类对象的分类类别。

根据第三方面，一种实施例中提供一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现上述第一方面中所述的训练方法，或者实现上述第二方面中所述的图像分类方法。

本申请的有益效果是：

依据上述实施例的一种图像分类模型的训练方法及图像分类方法、存储介质，其中训练方法包括：建立关于一分类对象的第一数据集和第二数据集，第一数据集包含多幅标注有分类标签的第一图像，第二数据集包含多幅没有标注分类标签的第二图像；根据第一数据集对第二数据集中的第二图像进行分类标签的预测，得到第二图像对应的分类标签，并根据第二图像及其对应的分类标签得到标注有分类标签的第三图像以建立第三数据集；利用第一数据集和第三数据集对预设的深度神经网络进行训练，学习得到图像分类模型。第一方面，由于借助第一数据集和第二数据集共同参与训练深度神经网络，由此能够有效地解决第一数据集中已标注数据不足的问题，丰富训练所需的样本数量；第二方面，由于第一数据集中的各幅第一图像标注有分类标签，第二数据集中的各幅第二图像没有标注分类标签，使得有分类标签的图像和无分类标签的图像均参与了深度神经网络的训练过程，利于提高图像分类模型对场景图像的分类适应能力和分类精度；第三方面，由于对各幅选取的第二图像分别进行一次或多次的图像增强处理，并且对预测得到的各数据标签进行标签平均化处理之后才得到每幅第二图像对应的预测标签，使得预测过程尽可能少的受到图像噪声的干扰，利于增强标签的预测能力；第四方面，由于根据第一数据集训练生成预测模型，根据预测模型对第二数据集中的第二图像进行分类标签的预测以得到第二图像对应的预测标签，使得预测过程充分借鉴第一图像的分类精度，利于强化针对第二图像的标签分类准确度；第五方面，由于对各幅第二图像的预测标签进行标签锐化处理以得到相应的分类标签，如此能够对预测标签的预测概率进行修正，从而得到准确度更高的分类标签；第六方面，由于对选取的各幅第一图像和第三数据集中的各幅第三图像进行混合重排，通过数据增强处理之后分组得到参与训练的多组训练数据，使得训练数据能够与实际场景的数据进行充分融合，利于提高图像分类模型的泛化能力，适用于实际的工程需求；第七方面，由于通过重建步骤重新建立第三数据集，通过更新步骤多次训练并更新图像分类模型，使得训练过程可充分利用第一数据集和第二数据集，强化训练过程并提高图像分类的精度；第八方面，由于本申请的图像分类方法利用训练好的图像分类模型对待分类图像进行识别，由此能够充分发挥图像分类模型在分类精度和泛化能力方面的优势，准确地判别分类对象所属的分类类别，提高图像分类方法的实用价值。

附图说明

图1为本申请中图像分类模型的训练方法的流程图；

图2为建立第三数据集的流程图；

图3为利用预测模型预测得到第二图像的预测标签的流程图；

图4为训练深度神经网络并学习得到图像分类模型的流程图；

图5为预测第二图像的分类标签并建立第三数据集的原理示意图；

图6为一种实施例中对图像分类模型进行更新的流程图；

图7为另一种实施例中对图像分类模型进行更新的流程图；

图8为本申请中图像分类方法的流程图；

图9为图像分类装置的结构示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

实施例一、

请参考图1，本申请公开一种图像分类模型的训练方法，其主要包括步骤S100-S300，下面分别说明。

步骤S100，建立关于一分类对象的第一数据集和第二数据集，这里的第一数据集包含多幅标注有分类标签的第一图像，第二数据集包含多幅没有标注分类标签的第二图像。

这里的分类对象可以是各种实物，比如男女或者不同年龄段的人，不同属性的植物，不同外形的汽车，不同天气状况的天空，不同地域风貌的景观等，甚至分类对象可以是是否系安全带的司机，是否掩盖车厢的渣土车。该些分类对象在任何一个类别状态下都能够被摄像装置采集成数字图像，并能够通过分析数字图像来识别分类对象处于哪一种分类类别。此外，分类标签是对分类对象处于哪一种类别状态的数字化定义，比如可以用数字1作为分类标签来定义渣土车处于掩盖车厢时的状态(即合规状态)，用数字0作为分类标签来定义渣土车处于没有掩盖车厢时的状态(即违规状态)，此时即可对渣土车进行二值分类，通过二值分类的数值就能够了解到渣土车的车厢掩盖状态，从而了解渣土车是否合乎运输规定。

需要说明的是，第一数据集和第二数据集可以被建立在某一个存储器上，方便处理器随时对其进行访问并获取数据集内的图像。第一数据集内包含的各幅第一图像均是采集同一分类对象的数字图像，且已经为每幅第一图像标注有针对该分类对象的分类标签，分类标签可以是人工标注或者机器标注的结果，当应确保标注值的准确性。第二数据集内包含的各幅第二图像均是采集同一个分类对象的数字图像，且没有为每幅第二图像标注针对该分类对象的分类标签，可以通过分类对象所在现场的摄像装置直接采集得到第二图像，而具体地采集方式不做限制。

如果分类对象是渣土车，那么第一数据集中的一部分第一图像是分类标签为1的渣土车图像，另一部分第一图像是分类标签为0的渣土车图像；第二数据集中的第二图像虽然也是渣土车图像，但是对应的分类标签处于未知状态。

步骤S200，根据第一数据集对第二数据集中的第二图像进行分类标签的预测，得到第二图像对应的分类标签，并根据第二图像及其对应的分类标签得到标注有分类标签的第三图像以建立第三数据集。

由于第一数据集中的各幅第一图像均已标注有分类标签，那么可以利用各幅第一图像训练得到一个预测模型，该预测模型此时将具有针对同一个分类对象的初步分类识别能力，然后就能够借助该预测模型对第二数据集中的各幅第二图像进行分类标签的预测。

需要说明的是，第三数据集中包含的各幅第三图像相比于第二数据集中的各幅第二图像，第三图像已经被标注有分类标签。

步骤S300，利用第一数据集和第三数据集对预设的深度神经网络进行训练，学习得到图像分类模型。

需要说明的是，由于第一数据集中的各幅第一图像和第三数据集中的各幅第三图像均被标注有分类标签，那么可以将各幅第一图像和各幅第三图像作为训练样本来对深度神经网络进行训练，从而使得深度神经网络学习获得针对同一个分类对象的图像分类能力。

需要说明的是，这里预设的深度神经网络可以是VGGNet、GoogleNet、AlexNet、ResNet、ZFNet、LeNet、MobileNet等常见网络中的任一者，此类网络通常具有多值分类的输出能力，可用于解决图像分类的问题。在本实施例中优选地采用ResNet中的ResNet50(即50层深度的残差网络)作为需要进行训练的深度神经网络。

传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失、梯度消失、损耗等问题，导致很深的网络无法训练。然而，ResNet50却能够很好地解决这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化了学习目标和难度，避免由于网络深度加深而产生的学习效率变低、准确率无法有效提升的情形发生。ResNet50为50层深度的残差网络，各层通常是由不同的残差模块堆叠形成，一种是以两个3*3的卷积网络串接在一起作为一个残差模块，另外一种是1*1、3*3、1*1的3个卷积网络串接在一起作为一个残差模块。由于深度残差网络已广泛应用于目前的图像处理领域，所以关于ResNet50的网络结构可以参考一些介绍深度学习的图书期刊，这里不再详细说明。

在本实施例中，参见图2，步骤S200主要涉及预测分类标签以及建立第三数据集的过程，其具体包括步骤S210-S240，分别说明如下。

步骤S210，从第一数据集中选取多幅第一图像，对预设的网络模型进行训练，得到预测模型。

在本实施例中，可以用Batch(或者BatchSize)表示从第一数据集中选取的第一图像的数目，即一批图像的意思。由于深度学习每一次参数的更新所需要损失函数并不是由一个数据获得的，而是由一组数据加权得到的，所以参与训练的一组数据的数量就是Batch。

例如在图5中，具体采用Batch X(I_i,L_i)表示从第一数据集中选取的多幅第一图像，其中，Batch X表示从第一数据集中随机选取的一批第一图像(比如32幅图像)，X(I_i,L_i)中的I_i表示该批图像X中的第i幅第一图像，X(I_i,L_i)中的L_i表示该批图像X中的第i幅第一图像对应的分类标签。

需要说明的是，这里预设的网络模型可以是VGGNet、GoogleNet、AlexNet、ResNet、ZFNet、LeNet、MobileNet等常见网络中的任一者，优选的采用较少网络层数的网络，例如选择网络层数较少的ResNet18或者VGGNet16。这里不对网络模型进行具体限定，只要其具有深度学习能力和多值分类输出能力即可。

步骤S220，从第二数据集中选取多幅第二图像，根据预测模型对所选取的第二图像进行分类标签的预测处理，得到各所选取的第二图像的预测标签。

在一个具体实施例中，参见图3，该步骤S220可以具体包括步骤S221-S223，各步骤的说明如下。

步骤S221，对各幅所选取的第二图像，分别进行一次或多次的图像增强处理。

需要说明的是，这里采用的图像增强处理的手段包括：Flip(水平或垂直翻转)、Rotation(旋转)、Scale(缩放)、Crop(裁剪)、Gaussian Noise(加入高斯噪声)、Colorjittering(色彩抖动)。对选取的每幅第二图像进行图像增强处理的次数可以由用户进行任意设定，每次图像增强处理所采用的手段可以随机选择。

例如在图5中，可以具体采用Batch Y(I_i)表示从第二数据集中选取的多幅第二图像，其中，Batch Y表示从第二数据集中随机选取的一批第二图像(比如32幅图像)，Y(I_i)中的I_i表示该批图像Y中的第i幅第二图像。

若假设需要进行k次(比如6次)的图像增强处理，那么对于Batch Y(I_i-)中的各幅第二图像，分别进行k次图像增强处理的结果是：Batch Y₀ˊ、Batch Y₁ˊ、…、Batch Y_kˊ；其中，Batch Y₀ˊ表示各幅第二图像进行0次图像增强处理之后的图像(即未进行图像增强处理的结果)，Batch Y_kˊ表示各幅第二图像连续进行k次图像增强处理之后的图像。

可以理解，若针对Y(I_i)中的第i幅第二图像I_i进行k次的图像增强处理，那么，Y₀ˊ表示第二图像I_i进行0次图像增强处理之后的图像(即未经过图像增强处理的第二图像I_i)，Y₁ˊ表示第二图像I_i进行1次图像增强处理之后的图像，Y_kˊ表示第二图像I_i连续进行k次图像增强处理之后的图像。

步骤S222，将各幅所选取的第二图像及其图像增强处理后的第二图像分别输入至预测模型，分别得到对应的数据标签。

例如在图5中，进行k次图像增强处理的结果(Batch Y₀ˊ、Batch Y₁ˊ、…、Batch Y_kˊ)分别输入至预测模型，可以得到每一次图像增强处理之后各幅第二图像对应的数据标签，数据标签表示为：Batch L₀ˊ、Batch L₁ˊ、…、Batch L_kˊ；其中，Batch L₀ˊ表示进行0次图像增强处理之后各幅第二图像对应的数据标签，Batch Y_kˊ表示连续进行k次图像增强处理之后各幅第二图像对应的数据标签。

可以理解，若将Y(I_i)中的第i幅第二图像I_i进行k次图像增强处理的结果(Y₀ˊ、Y₁ˊ、…、Y_kˊ)分别输入至预测模型，那么可以得到每一次图像增强处理之后第二图像I_i对应的数据标签，数据标签表示为：L₀ˊ、L₁ˊ、…、L_kˊ；其中，L₀ˊ表示进行0次图像增强处理之后第二图像I_i对应的数据标签，Y₁ˊ表示进行1次图像增强处理之后第二图像I_i对应的数据标签，Y_kˊ表示连续进行k次图像增强处理之后第二图像I_i对应的数据标签。

步骤S223，对于每幅所选取的第二图像，将其对应的数据标签和其图像增强处理后的第二图像所对应的数据标签进行标签平均化处理，得到其预测标签。

例如在图5中，对于每一次图像增强处理之后各幅第二图像对应的数据标签(Batch L₀ˊ、Batch L₁ˊ、…、Batch L_kˊ)，进行标签平均化处理之后可以得到各幅第二图像对应的预测标签，预测标签表示为Batch Lˊ。

可以理解，若对每一次图像增强处理之后第二图像I_i对应的数据标签(L₀ˊ、L₁ˊ、…、L_kˊ)进行标签平均化处理，则可以得到第二图像I_i对应的预测标签L_iˊ。

需要说明的是，这里的标签平均化处理可以是计算数据标签平均值的过程，比如通过计算L₀ˊ、L₁ˊ、…、L_kˊ的平均值即可得到第二图像I_i对应的预测标签L_iˊ。

步骤S230，对各幅第二图像的预测标签进行标签锐化处理，得到相应的第二图像的分类标签。

例如在图5中，对各幅第二图像对应的预测标签Batch Lˊ进行标签锐化处理之后得到各幅第二图像的分类标签Batch L。然而，对第二图像I_i对应的预测标签L_iˊ进行标签锐化处理之后将得到第二图像I_i对应的分类标签L_i。

在一个具体实施例中，预测标签的标签锐化处理过程可以描述为：

(1)定义任意一幅第二图像的预测标签为多维向量Lˊ且Lˊ内的每一维数值表示第二图像从属于一分类类别的预测概率。

(2)根据预设的prob函数对多维向量Lˊ内的每一维数值进行预测概率的修正，利用修正后的概率值更新多维向量Lˊ，得到多维向量L且作为所述第二图像的分类标签；预设的prob函数用公式表示为：

其中，p为第二图像从属于一分类类别的预测概率，T为预设的超参数且自定义设置，a为分类类别的序号，j为累加序号，N为分类类别的数目或多维向量Lˊ的维数。

比如对于渣土车这一分类对象，渣土车图像的预测标签可以用多维向量来Lˊ＝(p₁,p₂)表示，其中p₁表示掩盖车厢的概率(如0.1)，p₂表示没有掩盖车厢的概率(如0.9)，且p₁+p₂＝1。此时，prob函数中的各参数将被定义为：N＝2，a＝1或2，在a＝1时p＝0.1，在a＝2时p＝0.9。那么，可以利用每次计算的函数值来来更新多维向量Lˊ＝(p₁,p₂)中的多维向量来p₁、p₂。

步骤S240，对各选取的第二图像及其对应的分类标签进行处理，得到第三图像及其对应的分类标签，并根据第三图像及其对应的分类标签建立第三数据集。

例如在图5中，得到Batch Y(I_i)中各幅第二图像的分类标签Batch L之后，即可为各幅第二图像分别标注对应的分类标签，将任意一幅第二图像I_i对应的分类标签L_i标注至该第二图像I_i之后便可以得到标注有分类标签的第三图像。

需要说明的是，由于第三数据集中的图像数量和Batch Y(I_i)中图像数量相等，所以根据选取的各幅第三图像及其对应的分类标签建立的第三数据集可以表示为Batch Z(I_i,L_i)，其中，Z(I_i,L_i)中的I_i表示第三数据集Z中的第i幅第三图像，Z(I_i,L_i)中的L_i表示第三数据集中的第i幅第三图像对应的分类标签。

在本实施例中，参见图4，步骤S300主要涉及训练深度神经网络以及学习得到图像分类模型的过程，其可以具体包括步骤S310-S330，分别说明如下。

步骤S310，从第一数据集中选取多幅第一图像，并对各所选取的第一图像分别进行数据增强处理。

需要说明的是，本次从第一数据集中选取的多幅第一图像可以不同于上述步骤S210中选取的多幅第一图像，但是优选地与Batch X具有相同的图像数目。

需要说明的是，深层神经网络一般都需要大量的训练数据才能获得比较理想的结果，在数据量有限的情况下，可以通过数据增强(Data Augmentation)来增加训练样本的多样性，提高模型的鲁棒性并避免过拟合的情形发生。因此，这里的图像增强处理利于降低模型对某些属性的依赖，从而提高模型的泛化能力。此外，数据增强处理的过程中不改变图像对应的分类标签。

本实施例中的数据增强处理可以采用mixup(数据增强函数)来完成。mixup是一种非常规的数据增强方法，其采用和数据无关的简单数据增强原则，以线性插值的方式来构建新的训练样本和标签。采用mixup最终对标签的处理结果如下公式所示

其中，(x_i,y_i)和(x_j,y_j)是随机抽取的两个图像样本，n为图像样本的数量，λ～Beta(α,α)且λ∈[0,1]，α∈(0,∞)。

步骤S320，对数据增强处理之后的各第一图像和第三数据集中的各幅第三图像进行数据分组，得到参与训练的多组训练数据。

在一个具体实施例中，数据分组的过程可以描述为：

(1)将数据增强处理之后的各幅第一图像和第三数据集中的各幅第三图像进行混合重排，得到混合数据集。可以理解，通过混合重排能够增加训练样本的难度，从而提高图像分类模型的泛化能力。

(2)从混合数据集中获取若干幅图像，与步骤S310中从第一数据集中选取的多幅第一图像进行数据增强处理，得到一组训练数据，该组训练数据用公式表示为

其中，λ～beta(α,α)，α∈(0,∞)，λ′＝max(λ，1-λ)，X表示从第一数据集中选取的多幅第一图像，

为X中的第i幅图像，

为X中第i幅图像的分类标签，W表示混合数据集，

为W中的第i幅图像，

为W中第i幅图像的分类标签，|X′|为X中的图像数目，i为图像序号。

(3)从混合数据集中获取余下的各幅图像，与第三数据集中的各幅第三图像进行数据增强处理，得到另一组训练数据，该组训练数据用公式表示为

其中，Z表示第三数据集，

为Z中的第i幅图像，

为Z中第i幅图像的分类标签，

为W中的第i+|Xˊ|幅图像，

为W中第i+|Xˊ|幅图像的分类标签，|Y′|为Z中的图像数目。

步骤S330，利用得到的多组训练数据对预设的深度神经网络进行训练，学习得到图像分类模型。

在一个具体实施例中，对深度神经网络(例如ResNet50)的训练过程可以描述为：

(1)对于多组训练数据中的一组训练数据Xˊ，计算对应的交叉熵损失量且用公式表示为

其中，H()为分类交叉熵，x为任意一幅图像，p为Xˊ中x对应从属于一分类类别的预测概率，p_m(y|x,θ)中的y为深度神经网络在输入x时对应的分类标签，θ为深度神经网络的网络参数。

(2)对于多组训练数据中的另一组训练数据Zˊ，计算对应的均方差损失量且用公式表示为

其中，N为分类类别的数目，q为Zˊ中x对应从属于一分类类别的预测概率；

(3)利用总损失函数Loss＝Loss_X+γLoss_Z，γ为超参数且自定义设置(比如设置为10)，反向计算深度神经网络中各层的梯度并对网络参数θ进行更新，学习得到图像分类模型。

需要说明的是，对于深度神经网络(DNN)而言，使用随机梯度下降(SGD)来优化网络的参数θ将能达到较好的参数更新效果。随机梯度下降(Stochastic gradient descent，简称SGD)能够对每个训练样本进行参数更新，每次执行都进行一次更新。总损失函数loss也可以简单表示为L(θ)，那么深度神经网络更新参数的公式为

其中η是超参数(表示学习率的大小)，

表示L(θ)的梯度。

本领域的技术人员可以理解，在应用实施例一中公开的训练方法时可以取得以下技术优势：(1)借助第一数据集和第二数据集共同参与训练深度神经网络，由此能够有效地解决第一数据集中已标注数据不足的问题，丰富训练所需的样本数量；(2)第一数据集中的各幅第一图像标注有分类标签，第二数据集中的各幅第二图像没有标注分类标签，使得有分类标签的图像和无分类标签的图像均参与了深度神经网络的训练过程，利于提高图像分类模型对场景图像的分类适应能力和分类精度；(3)对各幅选取的第二图像分别进行一次或多次的图像增强处理，并且对预测得到的各数据标签进行标签平均化处理之后才得到每幅第二图像对应的预测标签，使得预测过程尽可能少的受到图像噪声的干扰，利于增强标签的预测能力；(4)根据第一数据集训练生成预测模型，根据预测模型对第二数据集中的第二图像进行分类标签的预测以得到第二图像对应的预测标签，使得预测过程充分借鉴第一图像的分类精度，利于强化针对第二图像的标签分类准确度；(5)对各幅第二图像的预测标签进行标签锐化处理以得到相应的分类标签，如此能够对预测标签的预测概率进行修正，从而得到准确度更高的分类标签；(6)对选取的各幅第一图像和第三数据集中的各幅第三图像进行混合重排，通过数据增强处理之后分组得到参与训练的多组训练数据，使得训练数据能够与实际场景的数据进行充分融合，利于提高图像分类模型的泛化能力，适用于实际的工程需求。

实施例二、

在实施例一中公开的训练方法的基础上，本实施例二对该训练方法进行了改进，在依据图1的方法流程得到图像分类模型之后，还包括对该分类模型进行更新的过程。请参考图6，改进的训练方法包括步骤S410-S430，下面分别说明。

步骤S410，即为重建步骤，从第二数据集中再次选取多幅第二图像，通过预测处理和标签锐化处理得到各所选取的第二图像对应的分类标签，且重新建立第三数据集。

需要说明的是，该重建步骤可以理解为实施例一中步骤S220-S230-S240的重复过程，只不过在步骤S220中是从第二数据集内再次随机选取多幅第二图像。关于根据当前的预测模型(即步骤S210中训练的得到的预测模型)对选取的第二图像进行分类标签的预测处理过程可以具体参考实施例一中的步骤S220，关于对各幅第二图像的预测标签进行标签锐化处理的过程可以具体参考实施例一中的步骤S230，关于对各选取的第二图像及其对应的分类标签进行处理得到第三图像并重新建立第三数据集的过程可以具体参考实施例一中的步骤S240。

步骤S420，即为更新步骤，利用第一数据集和重新建立的第三数据集，对深度神经网络进行再次训练以更新图像分类模型。

需要说明的是，该更新步骤可以理解为实施例一中步骤S310-S320-S330的重复过程，只不过在步骤S320中利用对数据增强处理之后的各第一图像和重新建立的第三数据集中的各幅第三图像进行数据分组，从而重新得到参与训练的多组训练数据。关于从第一数据集中再次选取多幅第一图像并对各所选取的第一图像分别进行数据增强处理的过程可以具体参考实施例一中的步骤S310，关于对数据增强处理之后的各第一图像和重新建立的第三数据集中的各幅第三图像进行数据分组的过程可以具体参考实施例一中的步骤S320，关于利用重新得到的多组训练数据对深度神经网络再次进行训练以更新图像分类模型的过程可以具体参考实施例一中的步骤S330。

步骤S430，即为确定步骤，当判断图像分类模型收敛或者达到预设的更新次数时，将当前的图像分类模型作为最终的图像分类模型。

需要说明的是，判断图像分类模型收敛的条件是：实施例一中步骤S330内涉及的总损失函数Loss＝Loss_X+γLoss_Z的函数值不再下降且达到最小值。此外，预设的更新次数可以理解为更新图像分类模型的限制次数，比如将更新次数设置为200次。

进一步地，参见图7，在另一个实施例中，上述的步骤S420和步骤S430之间还包括重新训练得到预测模型(即实施一中步骤S210内涉及的预测模型)的过程，具体可以用步骤S440-S460表示。

步骤S440，在步骤S420结束之后进入该步骤。在该步骤中，判断当图像分类模型是否收敛，或者更新过程是否达到预设的更新次数；若是则进入步骤S450，反之进入步骤S430。

若进入了步骤S430，则将当前更新得到的图像分类模型作为最终的图像分类模型。

步骤S450，在当前的预测模型(即实施一中步骤S210内涉及的预测模型)的情况下，判断是否遍历第二数据集，或者达到针对第二数据集的预设选取次数，若是则进入步骤S460；反之直接返回步骤S410，即直接再次进行重建步骤和更新步骤。

需要说明的是，每次执行重建步骤时都需要从第二数据集中再次随机选取多幅第二图像，只要选取的次数足够多那么就有可能遍历第二数据集中的所有第二图像，即使无法遍历第二数据集也可以预先设定选取次数(比如100次)，从而在达到设定的选取次数时进入步骤S460。

需要说明的是，遍历第二数据集可以理解为利用第二数据集中的所有第二图像进行了训练，即经过一次Epoch。如果第二数据集内有500幅第二图像，每次获取的Batch＝10，那么，至少需要50次才能够遍历第二数据集，此时Epoch＝1。

步骤S460，从第一数据集中再次选取多幅第一图像，重新训练得到预测模型，用重新得到的预测模型替换当前的预测模型，然后再次进行步骤S410和步骤S420，其中替换后的预测模型用于在重建步骤(即步骤S410)中对每次从第二数据集中选取的多幅第二图像进行分类标签的预测处理和标签锐化处理。

需要说明的是，关于重新训练得到预测模型的过程可以具体参考实施一中的步骤S210，这里不再进行赘述。

本领域的技术人员可以理解，在应用实施例三中公开的改进训练方法时可以实现以下技术优势：通过重建步骤重新建立第三数据集，通过更新步骤多次训练并更新图像分类模型，使得训练过程可充分利用第一数据集和第二数据集，从而强化训练过程并提高图像分类的精度。

实施例三、

请参考图8，在实施例一中公开的训练方法的基础上，或者实施例二中公开的改进训练方法的基础上，本申请还公开一种图像分类方法，其包括步骤S510-S530，下面分别说明。

步骤S510，获取关于一分类对象的待分类图像；

这里的分类对象可以是各种实物，比如男女或者不同年龄段的人，不同属性的植物，不同外形的汽车，不同天气状况的天空，不同地域风貌的景观等，甚至分类对象可以是是否系安全带的司机，是否掩盖车厢的渣土车。

待分类图像可以是分类对象在任何一个类别状态下被摄像装置采集生成的数字图像，由于该数字图像中包含有分类对象所处状态的图像内容，所以能够通过分析数字图像来识别分类对象处于哪一种分类类别。

步骤S520，将待分类图像输入至预设的图像分类模型，这里的图像分类模型是通过实施例一或者实施例二中公开的训练方法得到。

关于图像分类模型的训练过程可以具体参考上面的实施例一或者实施例二，这里不再进行赘述。

需要说明的是，待分类图像中包含的分类对象和图像分类模型中针对的分类对象应该是同一事物，否则无法对待分类图像进行有效识别。

步骤S530，利用图像分类模型对待分类图像进行识别，得到分类对象的分类类别。

需要说明的是，由于图像分类模型是通过标注有分类标签的图像训练深度神经网络而得到的，所以图像分类模型具有多值分类的输出能力，输出的是待分类图像的分类标签。因为分类标签是对分类对象处于哪一种类别状态的数字化定义，所以在得到分类标签的情况下就可以知晓待分类图像中分类对象的分类类别。

例如，如果用数字1作为分类标签来定义渣土车处于掩盖车厢时的状态(即合规状态)，用数字0作为分类标签来定义渣土车处于没有掩盖车厢时的状态(即违规状态)，那么训练得到的图像分类模型将具体二值分类的输出能力。在对渣土车图像进行识别时，图像分类模型将输出1或者0，输出1则表示图像中的渣土车处于掩盖车厢的状态且符合运输规定，输出0则表示图像中的渣土车处于没有掩盖车厢的状态且不符合运输规定。

本领域的技术人员可以理解，在应用实施例三中公开的图像分类方法时可以实现以下技术优势：利用训练好的图像分类模型对待分类图像进行识别，由此能够充分发挥图像分类模型在分类精度和泛化能力方面的优势，准确地判别分类对象所属的分类类别，提高图像分类方法的实用价值。

实施例四、

请参考图9，在实施例三中公开的图像分类方法的基础上，本申请还公开一种图像分类装置6，该图像分类装置6可以包括信号连接的存储器61和处理器62，下面分别说明。

存储器61用于存储程序。

处理器62用于通过执行存储器61中所存储的程序，以实现实施例一和实施例二中公开的训练方法，或者实现实施例三中公开的图像分类方法。

如果处理器62实现的是实施例一和实施例二中公开的训练方法，那么存储器61中存储的应当有第一数据集(包含多幅标注有分类标签的第一图像)、第二数据集(包含多幅没有标注分类标签的第二图像)，和步骤S100-S300、步骤S410-S460所对应的程序代码。

如果处理器62实现的是实施例三中公开的图像分类方法，那么存储器61中存储的应当有图像分类模型的程度代码和步骤S510-S530所对应的程序代码。

本领域技术人员可以理解，上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种图像分类模型的训练方法，其特征在于，包括：

建立关于一分类对象的第一数据集和第二数据集，所述第一数据集包含多幅标注有分类标签的第一图像，所述第二数据集包含多幅没有标注分类标签的第二图像；

根据所述第一数据集对所述第二数据集中的所述第二图像进行分类标签的预测，得到所述第二图像对应的分类标签，并根据所述第二图像及其对应的分类标签得到标注有分类标签的第三图像以建立第三数据集；

利用所述第一数据集和所述第三数据集对预设的深度神经网络进行训练，学习得到图像分类模型。

2.如权利要求1所述的训练方法，其特征在于，所述根据所述第一数据集对所述第二数据集中的所述第二图像进行分类标签的预测，得到所述第二图像对应的分类标签，并根据所述第二图像及其对应的分类标签得到标注有分类标签的第三图像以建立第三数据集，包括：

从所述第一数据集中选取多幅第一图像，对预设的网络模型进行训练，得到预测模型；

从所述第二数据集中选取多幅第二图像，根据所述预测模型对所选取的第二图像进行分类标签的预测处理，得到各所选取的第二图像的预测标签；

对各幅第二图像的预测标签进行标签锐化处理，得到相应的第二图像的分类标签；

对各选取的第二图像及其对应的分类标签进行处理，得到第三图像及其对应的分类标签，并根据第三图像及其对应的分类标签建立第三数据集。

3.如权利要求2所述的训练方法，其特征在于，所述从所述第二数据集中选取多幅第二图像，根据所述预测模型对所选取的第二图像进行分类标签的预测处理，得到各所选取的第二图像的预测标签，包括：

对各幅所选取的第二图像分别进行一次或多次的图像增强处理；

将各幅所选取的第二图像及其图像增强处理后的第二图像分别输入至所述预测模型，分别得到对应的数据标签；

对于每幅所选取的第二图像，将其对应的数据标签和其图像增强处理后的第二图像所对应的数据标签进行标签平均化处理，得到其预测标签。

4.如权利要求2所述的训练方法，其特征在于，所述对各幅第二图像的预测标签进行标签锐化处理，得到相应的第二图像的分类标签，包括：

定义任意一幅第二图像的预测标签为多维向量Lˊ且Lˊ内的每一维数值表示所述第二图像从属于一分类类别的预测概率；

根据预设的prob函数对多维向量Lˊ内的每一维数值进行预测概率的修正，利用修正后的概率值更新多维向量Lˊ，得到多维向量L且作为所述第二图像的分类标签；

所述prob函数用公式表示为：

5.如权利要求1-4中任一项所述的训练方法，其特征在于,所述利用所述第一数据集和所述第三数据集对预设的深度神经网络进行训练，学习得到图像分类模型，包括：

从所述第一数据集中选取多幅第一图像，并对各幅所选取的第一图像分别进行数据增强处理；

对数据增强处理之后的各幅第一图像和所述第三数据集中的各幅第三图像进行数据分组，得到参与训练的多组训练数据；

利用得到的多组训练数据对预设的深度神经网络进行训练，学习得到图像分类模型。

6.如权利要求5所述的训练方法，其特征在于，所述对数据增强处理之后的各幅第一图像和所述第三数据集中的各幅第三图像进行数据分组，得到参与训练的多组训练数据，包括：

将数据增强处理之后的各幅第一图像和所述第三数据集中的各幅第三图像进行混合重排，得到混合数据集；

从所述混合数据集中获取若干幅图像，与从所述第一数据集中选取的多幅第一图像进行数据增强处理，得到一组训练数据，该组训练数据用公式表示为

为X中的第i幅图像，

为X中第i幅图像的分类标签，W表示所述混合数据集，

为W中的第i幅图像，

为W中第i幅图像的分类标签，|X′|为X中的图像数目，i为图像序号；

从所述混合数据集中获取余下的各幅图像，与所述第三数据集中的各幅第三图像进行数据增强处理，得到另一组训练数据，该组训练数据用公式表示为

其中，Z表示第三数据集，

为Z中的第i幅图像，

为Z中第i幅图像的分类标签，

为W中的第i+|Xˊ|幅图像，

为W中第i+|Xˊ|幅图像的分类标签，|Y′|为Z中的图像数目。

7.如权利要求6所述的训练方法，其特征在于，所述利用得到的多组训练数据对预设的深度神经网络进行训练，学习得到图像分类模型，包括：

对于多组训练数据中的一组训练数据Xˊ，计算对应的交叉熵损失量且用公式表示为

其中，H()为分类交叉熵，x为任意一幅图像，p为Xˊ中x对应从属于一分类类别的预测概率，p_m(y|x,θ)中的y为所述深度神经网络在输入x时对应的分类标签，θ为所述深度神经网络的网络参数；

对于多组训练数据中的另一组训练数据Zˊ，计算对应的均方差损失量且用公式表示为

利用总损失函数Loss＝Loss_X+γLoss_Z且γ为超参数，反向计算所述深度神经网络中各层的梯度并对网络参数θ进行更新，学习得到所述图像分类模型。

8.如权利要求7所述的训练方法，其特征在于，得到所述图像分类模型之后还包括对所述图像分类模型进行更新：

重建步骤：从所述第二数据集中再次选取多幅第二图像，通过预测处理和标签锐化处理得到各所选取的第二图像对应的分类标签，且重新建立所述第三数据集；

更新步骤：利用所述第一数据集和重新建立的所述第三数据集，对所述深度神经网络进行再次训练以更新所述图像分类模型；

确定步骤：当所述图像分类模型收敛或者达到预设的更新次数时，将当前的图像分类模型作为最终的图像分类模型。

9.如权利要求8所述的训练方法，其特征在于，在所述更新步骤和所述确定步骤之间还包括：

在当前的所述预测模型的情况下，判断是否遍历所述第二数据集或者达到针对所述第二数据集的预设选取次数；

若是，则从所述第一数据集中再次选取多幅第一图像，重新训练得到所述预测模型，用重新得到的预测模型替换当前的预测模型，然后再次进行所述重建步骤和所述更新步骤，其中替换后的预测模型用于在所述重建步骤中对每次从所述第二数据集中选取的多幅第二图像进行分类标签的预测处理和标签锐化处理；

若否，则直接再次进行所述重建步骤和所述更新步骤。

10.一种图像分类方法，其特征在于，包括：

获取关于一分类对象的待分类图像；

将所述待分类图像输入至预设的图像分类模型，所述图像分类模型是通过如权利要求1-9中任一项所述训练方法得到；

利用所述图像分类模型对所述待分类图像进行识别，得到所述分类对象的分类类别。

11.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-9中任一项所述的训练方法，或者实现如权利要求10中所述的图像分类方法。