CN112465064A

CN112465064A - 基于深度课程学习的图像识别方法、装置及设备

Info

Publication number: CN112465064A
Application number: CN202011466828.8A
Authority: CN
Inventors: 洪日昌; 胡珍珍; 秦伟; 刘学亮; 汪萌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-09

Abstract

本发明公开了一种基于深度课程学习的图像识别方法，应用于图像识别领域，具体步骤包括如下：通过显著性检测模型将第一图像分离成前景图像和背景图像；将单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络；将所述前景图像和所述背景图像输入所述卷积神经网络，根据所述卷积神经网络输出概率结果和所述前景图像的标签，使用交叉熵计算真实类别标签和预测的概率之间的损失距离，得到最优卷积神经网络；将待识别的图像输入最优卷积神经网络中，输出识别结果。相对于原始的训练方法，本发明的训练框架缓解了深度神经网络的过拟合，提高了在测试集的性能。

Description

基于深度课程学习的图像识别方法、装置及设备

技术领域

本发明涉及图像识别技术领域，更具体的说是涉及一种基于深度课程学习的图像识别方法、装置及设备。

背景技术

依托大量的训练数据和计算设备能力的提高，深度神经网络在很多任务重取得了优秀的成绩。深度神经网络凭借其强大的函数能力，拟合了训练数据中的相关性，从而可以预测未见过的测试数据。但是，在训练数据集的构建过程中，往往会由于不可控的混杂因子导致训练数据中产生伪相关性。这种伪相关性会破坏神经网络的训练。具体来说，神经网络会拟合这种训练数据的伪相关性，从而导致神经网络会在训练数据中取得较好得效果却会降低测试数据的性能。

由难以确定的混杂因子带来的伪相关性在训练数据构建时往往是不可避免的。除此之外，在绝大多数场景下，我们只能使用当前已有的训练数据，无法干涉数据构建过程。

因此，如何提供一种神经网络避免对训练数据中伪相关性的过度拟合的图像识别方法、装置及设备是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了基于深度课程学习的图像识别方法、装置及设备，本发明先使用预训练好的显著性检测模型来分离第一图像的背景图像和前景图像；将普通的单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络，用于预训练的参数加载到双输入分支，并在训练时候保持固定，仅仅训练融合层的卷积单元和全连接分类器。然后每个样本的前景图像和背景图像输入到双输入分支的卷积神经网络中进行训练。每个图像的前景图像和其原本的背景组成一个样本输入到卷积神经网络，还随机采样同类别的其他图片的背景图像组成一个样本输入到神经网络中，同时训练的真实类别标签依然是第一图像的前景图像的真实类别标签。使用交叉熵损失函数训练神经网络的融合层部分参数。使用预训练好的显著性模型，对于需要分类的图片同样进行前景图像和背景图像的区分。将每个图片的前景图像和背景图像同时输入到卷积神经网络中，实现对图像的识别分类。

为了达到上述目的，本发明采用如下技术方案：

一种基于深度课程学习的图像识别方法，具体步骤包括如下：

获取数据步骤，通过显著性检测模型将第一图像分离成前景图像和背景图像；

构建模型步骤，将单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络；

训练步骤，将所述前景图像和所述背景图像输入所述卷积神经网络，根据所述卷积神经网络输出概率结果和所述前景图像的标签，使用交叉熵计算真实类别标签和预测的概率之间的损失距离，得到最优卷积神经网络；

识别步骤，将待识别的图像输入最优卷积神经网络中，输出识别结果。

优选的，在上述的一种基于深度课程学习的图像识别方法中，所述构建模型步骤中，将单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络；

底层的卷积运算单元被复制成两份，分别处理背景图像和前景图像；所述背景图像和所述前景图像的视觉特征按位相加，再输入到后面的卷积运算单元和全连接分类器中；双输入分支部分的底层卷积运算单元加载预训练的底层参数，并在训练中保持不变；两个分支部分的前两个res-block是加载预训练参数并固定的。

优选的，在上述的一种基于深度课程学习的图像识别方法中，所述训练步骤中，在每个训练轮次中，将所述第一图像的前景图像和第二图像对应背景图像匹配；作为一个新的样本输入给所述卷积神经网络，并根据预测概率和所述第一图像的前景图像的真实类别标签，通过交叉熵计算损失距离；累加计算真实类别标签和预测的概率之间的两个损失距离，作为第一图像的最终损失距离。

优选的，在上述的一种基于深度课程学习的图像识别方法中，所述第二图像为包含第一图像的真实类别标签的图像。

优选的，在上述的一种基于深度课程学习的图像识别方法中，利用反向传播算法，根据计算出的最终损失距离计算所述卷积神经网络中参数更新的梯度，根据所述梯度更新所述卷积神经网络的权重参数。

优选的，在上述的一种基于深度课程学习的图像识别方法中，所述梯度的更新函数表达式为：

L_j＝L_ce(f(x_I,c_j),y_I)+L_ce(f(x_I,c_I),y_I)；

其中，x_I代表该样本对于的前景图像，c_j代表第二图像的背景图像，c_I代表第一图像的背景图像；y_I代表第一图像的真实类别标签；L_ce代表交叉熵损失函数。

一种基于深度课程学习的图像识别装置，包括：

第一获取模块，通过显著性检测模型将第一图像分离成前景图像和背景图像；其中，所述第一图像中带有真实类别标签；

第一输入模块，用于将所述前景图像和所述背景图像输入所述卷积神经网络，根据所述卷积神经网络输出概率结果和所述前景图像的标签，使用交叉熵计算真实类别标签和预测的概率之间的损失距离，得到最优卷积神经网络；

第一处理模块，将待识别的图像输入最优卷积神经网络中，进行图像的处理；

第一输出模块，根据所述第一处理模块的处理结果，输出图像识别结果。

优选的，在上述的一种基于深度课程学习的图像识别装置中，还包括：损失距离计算模块，所述损失距离计算模块将所述第一图像的前景图像和第二图像对应背景图像匹配；作为一个新的样本通过所述第一输入模块输入给所述卷积神经网络，并根据预测概率和所述第一图像的前景图像的真实类别标签，通过交叉熵计算损失距离；

累加计算真实类别标签和预测的概率之间的两个损失距离，作为第一图像的最终损失距离。

优选的，在上述的一种基于深度课程学习的图像识别装置中，还包括：权重更新模块，利用反向传播算法，根据计算出的最终损失距离计算所述卷积神经网络中参数更新的梯度，根据所述梯度更新所述卷积神经网络的权重参数。

一种计算机设备，包括存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行所述的图像识别方法。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了基于深度课程学习的图像识别方法、装置及设备，本发明先使用预训练好的显著性检测模型来分离第一图像的背景图像和前景图像；将普通的单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络，用于预训练的参数加载到双输入分支，并在训练时候保持固定，仅仅训练融合层的卷积单元和全连接分类器。然后每个样本的前景图像和背景图像输入到双输入分支的卷积神经网络中进行训练。每个图像的前景图像和其原本的背景组成一个样本输入到卷积神经网络，还随机采样同类别的其他图片的背景图像组成一个样本输入到神经网络中，同时训练的真实类别标签依然是第一图像的前景图像的真实类别标签。使用交叉熵损失函数训练神经网络的融合层部分参数。使用预训练好的显著性模型，对于需要分类的图片同样进行前景图像和背景图像的区分。将每个图片的前景图像和背景图像同时输入到卷积神经网络中，实现对图像的识别分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的整体方法流程图；

图2附图为本发明的构建模型步骤的示意图；

图3附图为本发明的训练步骤的方法流程图；

图4附图为本发明的识别装置的结构框图；

图5附图为本发明的计算机设备内部结构图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要了解的是：深度神经网络凭借其强大的函数能力，拟合了训练数据中的相关性，从而可以预测未见过的测试数据。但是，在训练数据集的构建过程中，往往会由于不可控的混杂因子导致训练数据中产生伪相关性。这种伪相关性会破坏神经网络的训练。具体来说，神经网络会拟合这种训练数据的伪相关性，从而导致神经网络会在训练数据中取得较好得效果却会降低测试数据的性能。由于难以确定的混杂因子带来的伪相关性在训练数据构建时往往是不可避免的。除此之外，在绝大多数场景下，只能使用当前已有的训练数据，无法干涉数据构建过程。

进一步，本发明可以帮助神经网络避免对训练图片中背景和前景伪相关性的过度拟合。本发明在训练过程充分考虑到了训练数据集中背景和前景中的伪相关性并引入新的训练方法减轻了这种伪相关性的影响，从而缓解了深度神经网络的过拟合，提高了在测试集的性能。具体来说，首先使用预训练好的显著性检测模型来分离所有图片的背景和前景；然后通过既定规则采样背景图片和前景图片组成新的训练样本。相对于原始的训练方法，本发明的训练框架缓解了深度神经网络的过拟合，提高了在测试集的性能。

具体地，本发明的实施例公开了一种基于深度课程学习的图像识别方法，如图1所示，具体步骤包括如下：

S101获取数据步骤，通过显著性检测模型将第一图像分离成前景图像和背景图像；

S102构建模型步骤，将单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络；

S103训练步骤，将前景图像和背景图像输入卷积神经网络，根据卷积神经网络输出概率结果和前景图像的标签，使用交叉熵计算真实类别标签和预测的概率之间的损失距离，得到最优卷积神经网络；

S104识别步骤，将待识别的图像输入最优卷积神经网络中，输出识别结果。

如图2所示，S102构建模型步骤中，将单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络；

底层的卷积运算单元被复制成两份，分别处理背景图像和前景图像；背景图像和前景图像的视觉特征按位相加，再输入到后面的卷积运算单元和全连接分类器中；双输入分支部分的底层卷积运算单元加载预训练的底层参数，并在训练中保持不变；两个分支部分的前两个res-block是加载预训练参数并固定的。

如图3所示，S103训练步骤中，在每个训练轮次中，将第一图像的前景图像和第二图像对应背景图像匹配；作为一个新的样本输入给卷积神经网络，并根据预测概率和第一图像的前景图像的真实类别标签，通过交叉熵计算损失距离；

具体地，第二图像为包含第一图像的真实类别标签的图像。

进一步，利用反向传播算法，根据计算出的最终损失距离计算卷积神经网络中参数更新的梯度，根据梯度更新卷积神经网络的权重参数。

进一步，梯度的更新函数表达式为：

L_j＝L_ce(f(x_I,c_j),y_I)+L_ce(f(x_I,c_I),y_I)；

一种基于深度课程学习的图像识别装置，如图4所示，包括：

第一获取模块，通过显著性检测模型将第一图像分离成前景图像和背景图像；其中，第一图像中带有真实类别标签；

第一输入模块，用于将前景图像和背景图像输入卷积神经网络，根据卷积神经网络输出概率结果和前景图像的标签，使用交叉熵计算真实类别标签和预测的概率之间的损失距离，得到最优卷积神经网络；

第一输出模块，根据第一处理模块的处理结果，输出图像识别结果。

进一步，还包括：损失距离计算模块，损失距离计算模块将第一图像的前景图像和第二图像对应背景图像匹配；作为一个新的样本通过第一输入模块输入给卷积神经网络，并根据预测概率和第一图像的前景图像的真实类别标签，通过交叉熵计算损失距离；

进一步，还包括：权重更新模块，利用反向传播算法，根据计算出的最终损失距离计算卷积神经网络中参数更新的梯度，根据梯度更新卷积神经网络的权重参数。

一种计算机设备，如图5所示，包括存储器和处理器；存储器上存储有可由处理器运行的计算机程序；处理器运行计算机程序时，执行的图像识别方法。该计算机设备包括通过系统总线连接的处理器、存储器以及网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项的方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指定相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本实施例中，给定图像数据集如CIFAR10,CIFAR100和ImageNet，采用不同的深度神经网络模型验证了提出的训练框架的有效性。对每个数据集先分成训练集和测试集两部分，并将训练数据分批进行训练。

首先使用预训练好的显著性检测模型来分离所有图片的背景图像和前景图像。本实例具体使用了PoolNet作为分离前背景的显著性检测模型。在训练神经网络时，将背景图像和前景图像分别输入到双分支的神经网络中。每个图片的前景图像和其原本的背景图像组成一个样本输入到卷积神经网络，还随机采样同类别的其他图片的背景图像组成一个样本输入到神经网络中，同时训练的标签依然是该前景图像的真实类别标签。使用交叉熵损失函数训练神经网络的融合层部分参数。

对于CIFAR10,CIFAR100数据集，训练集包含50,000张图片，测试集包含10,000张图片。ImageNet训练集包含了1300000张图片，测试集包含50000张图片。所有数据集的测试图片都采用了标准数据增强。

卷积神经网络我们采用了ResNet-34和ResNet-50。每一批数据的batch size为128，通过随机梯度下降方式优化。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度课程学习的图像识别方法，其特征在于，具体步骤包括如下：

获取数据步骤，通过显著性检测模型将第一图像分离成前景图像和背景图像；构建模型步骤，将单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络；

2.根据权利要求1所述的一种基于深度课程学习的图像识别方法，其特征在于，所述构建模型步骤中，将单分支的卷积神经网络转换成双输入分支和融合层的卷积神经网络；

3.根据权利要求1所述的一种基于深度课程学习的图像识别方法，其特征在于，所述训练步骤中，在每个训练轮次中，将所述第一图像的前景图像和第二图像对应背景图像匹配；作为一个新的样本输入给所述卷积神经网络，并根据预测概率和所述第一图像的前景图像的真实类别标签，通过交叉熵计算损失距离；

4.根据权利要求3所述的一种基于深度课程学习的图像识别方法，其特征在于，所述第二图像为包含第一图像的真实类别标签的图像。

5.根据权利要求3所述的一种基于深度课程学习的图像识别方法，其特征在于，利用反向传播算法，根据计算出的最终损失距离计算所述卷积神经网络中参数更新的梯度，根据所述梯度更新所述卷积神经网络的权重参数。

6.根据权利要求5所述的一种基于深度课程学习的图像识别方法，其特征在于，所述梯度的更新函数表达式为：

L_j＝L_ce(f(x_I,c_j),y_I)+L_ce(f(x_I,c_I),y_I)；

7.一种基于深度课程学习的图像识别装置，其特征在于，包括：

第一输入模块，用于将所述前景图像和所述背景图像输入卷积神经网络，根据所述卷积神经网络输出概率结果和所述前景图像的标签，使用交叉熵计算真实类别标签和预测的概率之间的损失距离，得到最优卷积神经网络；

8.根据权利要求7所述的一种基于深度课程学习的图像识别装置，其特征在于，还包括：损失距离计算模块，所述损失距离计算模块将所述第一图像的前景图像和第二图像对应背景图像匹配；作为一个新的样本通过所述第一输入模块输入给所述卷积神经网络，并根据预测概率和所述第一图像的前景图像的真实类别标签，通过交叉熵计算损失距离；

9.根据权利要求8所述的一种基于深度课程学习的图像识别装置，其特征在于，还包括：权重更新模块，利用反向传播算法，根据计算出的最终损失距离计算所述卷积神经网络中参数更新的梯度，根据所述梯度更新所述卷积神经网络的权重参数。

10.一种计算机设备，包括存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行如权利要求1-6中任一项所述的图像识别方法。