CN112836820A

CN112836820A - 用于图像分类任务的深度卷积网络训方法、装置及系统

Info

Publication number: CN112836820A
Application number: CN202110132078.9A
Authority: CN
Inventors: 胡炳然; 刘青松; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-01-31
Filing date: 2021-01-31
Publication date: 2021-05-25
Anticipated expiration: 2041-01-31
Also published as: CN112836820B

Abstract

本发明提供了用于图像分类任务的深度卷积网络训练方法、装置及系统，方法包括：步骤10，对训练样本进行预处理，获得数据增强的训练样本；步骤20，针对数据增强的训练样本，基于深度卷积神经网络提取图像嵌入/特征向量，得到当前的输出；步骤30，基于当前的输出和修正后的损失函数，进行梯度反传；步骤40，对所述深度卷积神经网络层的参数进行调整更新；步骤50，重复步骤10‑步骤40，将所述深度卷积神经网络层迭代训练至收敛。本发明继承了Mixup和Focal Loss两种优化方法的思想，通过重新设计损失函数，修正了这两种方法简单叠加使用造成的优化目标偏误，缓解了难易样本不均衡的问题，可以获得精度更高的深度卷积网络分类模型。

Description

用于图像分类任务的深度卷积网络训方法、装置及系统

技术领域

本发明书一个或多个实施例涉及计算机技术领域，涉及一种用于图像分类任务的深度卷积网络训练方法、装置及系统，具体涉及一种图像识别的数据增强方法和损失函数设计。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念，但不一定是之前已经想到或者已经探究的概念。因此，除非在此指出，否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术，并且并不因为包括在本部分中就承认是现有技术。

近年来，基于深度神经网络模型的人工智能技术，在计算机视觉领域得到广泛应用，，尤其是在目标检测任务当中，一些深度学习算法模型与框架，已经表现出惊人的准确率。对于目标分类或者检测任务而言，通常在确定网络框架以后，模型的准确性在很程度上由数据集和训练模型所用的损失函数所决定。

其中，Mixup是一种非常规的数据增强方法，其以线性插值的方式来构建新的训练样本和标签，最终对标签的处理如下公式所示：

其中，(x_i,y_i)，(x_j,y_j)两个数据对是原始数据集中的训练样本和其对应的标签。其中λ∈[0，1]是一个服从B分布的参数λ～Beta(α，α)，α∈[0，+∞]。当进行二分类任务时其损失函数形式为：

其中，C表示任意一种用于分类任务的损失函数，例如交叉熵等。

损失抑制权值向量优化Focal Loss主要是为了解决正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重，当进行二分类任务时其函数形式为：

其中，γ为常数，y_p为网络输出值，y为样本标签。

该方法也可拓展到多分类的情形。

但存在如下问题：

深度学习网络训练过程中，如果同时使用上述两种优化方法，并且直接将L_f代入C中，则优化目标出现异常改变，导致最终训练效果较差。

简要起见，以二分类任务进行说明，融合后的优化目标为：

y_p表示卷积神经网络的预测输出值；log是以e为底的对数运算。λ是mixup参数，γ是focal loss参数，一般取2。

当y_i＝y_j时，也即(1)(2)式，L_mf＝L_f，此时没有问题；

但当y_i≠y_j时，根据Mixup设计原理，(3)式中y_p＝λ，(4)式中y_p＝1-λ时，函数应该取得极小值(关于y_p的导数应该等于0)，显然公式(3)和公式(4)两式不满足要求，即当同时使用Mixup和Focal Loss两种优化方法并进行简单叠加后，所得到的损失函数实际极值点相对于目标值会发生偏移改变本，即优化目标存在偏误。

有鉴于此，亟需一种新的处理技术，通过修改两者的结合方式，修正极值偏差，获得更高精度的深度卷积网络分类模型。

发明内容

本说明书一个或多个实施例描述了用于图像分类任务的深度卷积网络训练方法、装置及系统，继承了Mixup和Focal Loss两种优化方法的思想，通过重新设计损失函数，解决了目前现有技术中存在的这两种方法简单叠加使用造成的优化目标偏误。

本说明书一个或多个实施例提供的技术方案如下：

第一方面，本发明提供了用于图像分类任务的深度卷积网络训练方法，包括以下步骤：

步骤10，对训练样本进行预处理，获得数据增强的训练样本；

步骤20，针对数据增强的训练样本，基于深度卷积神经网络提取图像嵌入/特征向量，得到当前的输出；

步骤30，基于当前的输出和修正后的损失函数，进行梯度反传；

步骤40，对所述深度卷积神经网络层的参数进行调整更新；

步骤50，重复步骤10-步骤40，将所述深度卷积神经网络层迭代训练至收敛。

在一个可能的实现方式中，所述训练样本预处理，具体为：

步骤101，采集含N个类别的三通道图像数据，其中，N≥2；

步骤102，将采集到的所述图像数据划分为训练集和验证集；

步骤103，对训练集中的图像进行图像增强处理；

步骤104，从处理后的训练集中抽取数个图像，组成小批次数据，然后将原索引打乱，获得随机索引序列；

步骤105，将原索引图像和随机索引图像按比例λ混合；其中，λ为随机产生的mixup参数；

步骤106，将混合后的图像按批次输入卷积神经网络中。

在一个可能的实现方式中，图像数据以3:1的比例划分为训练集和验证集。

在一个可能的实现方式中，所述图像增强处理包括：随机裁剪、色彩增强和随机噪声中的一种或多种。

在一个可能的实现方式中，，修正后的函数为：

第二方面，本发明提供了用于图像分类任务的深度卷积网络训练装置，该装置包括：

预处理模块，用于对训练样本进行预处理，获得数据增强的训练样本；

处理模块，用于针对数据增强的训练样本，基于深度卷积神经网络提取图像嵌入/特征向量，得到当前的输出；

梯度反传模块，用于基于当前的输出和修正后的损失函数，进行梯度反传；

参数更新模块，用于对所述深度卷积神经网络层的参数进行调整更新，将所述深度卷积神经网络层迭代训练至收敛。

在一个可能的实现方式中，所述梯度反传模块包括：

计算单元，用于基于当前的输出和修正后的损失函数，计算所述深度卷积神经网络的当前误差损失；

梯度反传单元，用于并将所述当前误差损失反向传播。

在一个可能的实现方式中，预处理模块对训练样本中的图像进行图像增强处理，包括随机裁剪、色彩增强和随机噪声中的一种或多种。

在一个可能的实现方式中，修正后的函数为：

第三方面，本发明提供了用于图像分类任务的深度卷积网络训练系统，该系统包括至少一个处理器和存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如第一方面中一个或多个所述的方法。

第四方面，本发明提供了一种芯片，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如第一方面中一个或多个所述的方法。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如第三方面所述的系统执行，以实现如第一方面中一个或多个所述的方法。

本发明实施例提供的方法继承了Mixup和Focal Loss两种优化方法的思想，通过重新设计损失函数，修正了这两种方法简单叠加使用造成的优化目标偏误，缓解了难易样本不均衡的问题，可以获得精度更高的深度卷积网络分类模型。

附图说明

图1为本发明实施例提供的用于图像分类任务的深度卷积网络训练方法流程示意图之一；

图2为本发明实施例提供的用于图像分类任务的深度卷积网络训练方法流程示意图之二；

图3为训练样本预处理的流程示意图；

图4为本发明实施例提供的用于图像分类任务的深度卷积网络训练装置结构示意图；

图5为为本发明实施例提供的梯度反传模块的结构示意图；

图6为本发明实施例提供的用于图像分类任务的深度卷积网络训练的系统结构示意图。

其中，41为处理模块，42为处理模块，43为梯度反传模块，44为参数更新模块，431为计算单元和432为梯度反传单元，61为寄存器，62为处理器。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1、图2示出一个实施例的用于图像分类任务的深度卷积网络训练方法流程图，所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群等。如图1和图2所示，所述方法包括步骤10-步骤50：

步骤10，对训练样本进行预处理，获得数据增强的训练样本。

图3为训练样本预处理流程示意图，如图3所示，在一个示例中，所述训练样本预处理，具体为：

步骤101，采集含N个类别的三通道图像数据，其中，N≥2。

具体的，采集一批包含N(N>＝2)个类别的RGB三通道图像数据，Resize到统一大小，一般为224x224的分辨率。

步骤102，将采集到的所述图像数据划分为训练集和验证集。

具体的，将采集到的图像数据以3:1的比例划分为训练集和验证集。

步骤103，对训练集中的图像进行图像增强处理。

对训练集中的图片添加图像增强处理手段，具体的，包括随机添加随机裁剪、色彩增强和随机噪声中的一种或多种。通过图像增强手段可以提高深度卷积网络的泛化性，降低过拟合风险。

步骤104，从处理后的训练集中抽取数个图像，组成小批次数据，然后将原索引打乱，获得随机索引序列。

具体的，每次从训练集中抽取Batch size(参数，根据实际情况设置)个图像，即抽取批量的图像，组成一个小批次数据：data[1]，data[2]，data[3]...，然后将原索引Index＝[1，2，3,...，Batchsize]随机打乱，产生一个随机索引序列Random_index。

步骤105，将原索引图像和随机索引图像按比例λ混合；其中，λ为随机产生的mixup参数。

具体的，根据Beta(α，α)分布，随机产生mixup参数λ，将步骤104中的原索引图像和随机索引图像以比例λ逐像素-逐通道两两混合，例如随机索引为[3，9，21，...]，则混合后的图像批次为：

λ*data[1]+(1-λ)*data[3],

λ*data[2]+(1-λ)*data[9],

λ*data[3]+(1-λ)*data[21],

......

步骤106，将混合后的图像按批次输入卷积神经网络中。

具体的，将混合后的的图像按批次输入搭建好的卷积神经网络中；该方法通用于绝大多数的卷积神经网络结构，例如ResNet，vgg，MobileNet等。

步骤20，针对数据增强的训练样本，基于深度卷积神经网络提取图像嵌入/特征向量，得到当前的输出。

该步骤主要基于深度卷积神经网络提取特征，并输出预测值Yp。

提取方法：一般来说，要经过卷积运算，激活函数，池化等操作，不同的主干网络结构对应的操作会有所变化，这个是通用方法，在此不再赘述。

提取的特征指：将数据输入神经网络主干部分所得到的图像嵌入/特征向量。

具体的，基于当前的输出和修正后的损失函数，计算所述深度卷积神经网络的当前误差损失，并将所述当前误差损失反向传播。

修改后的损失函数为：

新设计的数据增强和损失函数在y_i≠y_j情形时，具有性质：

(1)

时取极小值

(2)保持了Loss的设计思想，即缓解难易样本不均衡的问题；

(3)相对于分别单独使用上述两种优化方法，修正后的方法可以获得精度更高的深度卷积网络分类模型。

步骤40，对所述深度卷积神经网络层的参数进行调整更新；

一般的，根据随机梯度(SGD)下降法，进行梯度的反传和参数更新过程；参数更新过程中，可设置学习率lr、权重衰减项w等参数，达到加速或优化模型收敛的效果。

迭代训练是指在一个批次的训练数据完成提取特征-->梯度反传-->参数更新后，接着对下一个批次的数据重复上述步骤10-40。

收敛的标准：可以在训练过程中，同时测试模型在验证集上的效果，比如测试分类准确acc这个指标，当acc高于预先设定的阈值(比如99％)且经过m个批次后无明显变化，即可认为模型已收敛，则完成训练过程。

本发明提供的方法继承了Mixup和Focal Loss两种优化方法的思想，通过重新设计损失函数，修正了这两种方法简单叠加使用造成的优化目标偏误，缓解了难易样本不均衡的问题，可以获得精度更高的深度卷积网络分类模型。

与上述实施例方法对应的，本发明还提供了一种用于图像分类任务的深度卷积网络训练装置，图4为装置结构示意图，如图4所示，该装置包括预处理模块41、处理模块42、梯度反传模块43和参数更新模块44，具体的：.

预处理模块41，用于对训练样本进行预处理，获得数据增强的训练样本。

具体的，预处理模块对训练样本中的图像进行图像增强处理，包括随机裁剪、色彩增强和随机噪声中的一种或多种。

处理模块42，用于针对数据增强的训练样本，基于深度卷积神经网络提取图像嵌入/特征向量，得到当前的输出。

梯度反传模块43，用于基于当前的输出和修正后的损失函数，进行梯度反传。

具体的，如图5所示，梯度反传模块43包括计算单元431和梯度反传单元432：

计算单元431，用于基于当前的输出和修正后的损失函数，计算所述深度卷积神经网络的当前误差损失；

具体的，修正后的函数为：

梯度反传单元432，用于并将所述当前误差损失反向传播

参数更新模块44，用于对所述深度卷积神经网络层的参数进行调整更新，将所述深度卷积神经网络层迭代训练至收敛。

本发明实施例提供的装置中各部件所执行的功能均已在上述方法中做了详细介绍，因此这里不做过多赘述。

与上述实施例相对应的，本发明实施例、还提供了用于图像分类任务的深度卷积网络训练系统，具体如图6所示，该系统包括至少一个处理器61和存储器62；

存储器61，用于存储一个或多个程序指令；

处理器62，用于运行一个或多个程序指令，执行如上述实施例所介绍的用于图像分类任务的深度卷积网络训练方法中的任一方法步骤。

与上述实施例相对应的，本发明实施例还提供了一种芯片，该芯片与上述系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如上述实施例所介绍的用于图像分类任务的深度卷积网络训练方法。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包括一个或多个程序，其中，一个或多个程序指令用于被用于图像分类任务的深度卷积网络训练系统执行如上介绍的用于图像分类任务的深度卷积网络训练方法。

本申请提供的方案，解决了现有技术存在的问题：

本发明继承了Mixup和Focal Loss两种优化方法的思想，通过重新设计损失函数，修正了这两种方法简单叠加使用造成的优化目标偏误。新设计的数据增强和损失函数在y_i≠y_j情形时，具有性质：

(1)

时取极小值

(2)保持了Loss的设计思想，即缓解难易样本不均衡的问题；

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.用于图像分类任务的深度卷积网络训练方法，其特征在于，

步骤40，对所述深度卷积神经网络层的参数进行调整更新；

2.根据权利要求1所述的方法，其特征在于，所述训练样本预处理，具体为：

步骤101，采集含N个类别的三通道图像数据，其中，N≥2；

步骤102，将采集到的所述图像数据划分为训练集和验证集；

步骤103，对训练集中的图像进行图像增强处理；

步骤106，将混合后的图像按批次输入卷积神经网络中。

3.根据权利要求2所述的方法，其特征在于，图像数据以3:1的比例划分为训练集和验证集。

4.根据权利要求2所述的方法，其特征在于，所述图像增强处理包括：随机裁剪、色彩增强和随机噪声中的一种或多种。

5.根据权利要求1所述的方法，其特征在于，修正后的函数为：

6.用于图像分类任务的深度卷积网络训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述梯度反传模块包括：

梯度反传单元，用于并将所述当前误差损失反向传播。

8.根据权利要求6所述的装置，其特征在于，预处理模块对训练样本中的图像进行图像增强处理，包括随机裁剪、色彩增强和随机噪声中的一种或多种。

9.根据权利要求6所述的装置，其特征在于，修正后的函数为：

10.用于图像分类任务的深度卷积网络训练系统，其特征在于，所述系统包括至少一个处理器和存储器；

所述存储器，用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1至5中一个或多个所述的方法。

11.一种芯片，其特征在于，所述芯片与系统中的存储器耦合，使得所述芯片在运行时调用所述存储器中存储的程序指令，实现如权利要求1至5中一个或多个所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括一个或多个程序指令，所述一个或多个程序指令可被如权利要求10所述的系统执行，以实现如权利要求1至5中一个或多个所述的方法。