CN112270343A

CN112270343A - 一种图像分类方法、装置及相关组件

Info

Publication number: CN112270343A
Application number: CN202011110384.4A
Authority: CN
Inventors: 杨宏斌; 金良; 赵雅倩; 董刚; 刘海威; 蒋东东; 胡克坤; 李仁刚
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-10-16
Filing date: 2020-10-16
Publication date: 2021-01-26
Also published as: WO2022077894A1

Abstract

本申请公开了一种图像分类方法、装置、电子设备及计算机可读存储介质，该图像分类方法包括根据ELU负半轴对应的函数和TLU函数构造TELU激活函数；对输入图像数据进行卷积计算得到特征数据；根据特征数据获取神经网络当前层中第c个通道、第b个batch对应的均方归一化处理后的目标数据；通过TELU激活函数得到目标数据对应的特征图；根据所有特征图得到图像分类结果。本申请能够解决FRN缺少均值居中造成的激活远离0值的偏差问题、输入部分因梯度消失而引起的神经元死亡的问题，在输入取较小值时具有软饱和的特性，减少前向传播的变化和信息，提高了神经网络的整体性能，使得图像分类结果具有更高的准确性。

Description

一种图像分类方法、装置及相关组件

技术领域

本申请涉及图像分类领域，特别涉及一种图像分类方法、装置及相关组件。

背景技术

BN(Batch Normalization，批归一化)是深度学习领域中一项具有里程碑意义的技术，它使各种网络得以训练，在很大程度上推动了计算机视觉领域的发展。BN通过在(mini-)batch内计算均值和方差对特征进行归一化，简化了网络的优化过程，使得比较深的神经网络在训练中收敛。但是沿着batch维度上的归一化出现了诸多问题，当batch size逐渐变小时，由于对batch的统计信息估算不准确，导致图像分类等网络模型的错误率急剧上升，限制了在训练较大模型时对BN的使用。

为解决上述技术问题，现有技术采用基于TLU的FRN归一化的方案，不存在batch依赖，它独立在每个样本的每个激活通道(filter响应)上操作，对各batch size的准确率表现稳定、一致，但是TLU是基于ReLU做的改进，因此具有ReLU本身的一些缺点，由于ReLU的输出值没有负值，所以输出的均值会大于0，当激活值的均值非0时，就会对下一层造成一个bias，如果激活值之间不会相互抵消(即均值非0)，会导致下一层的激活单元有biasshift。如此叠加，单元越多时，bias shift就会越大，所以ReLU在训练一些超深网络的时候会出现不收敛的问题，又由于ReLU激活函数固有的一些特性，容易导致输入负半轴部分梯度消失，权重无法更新的情况，ReLU在输入为负时导数会变成0，而梯度消失会引起神经元死亡的问题，进而影响神经网络的整体性能，从而导致图像分类准确性低。

因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

发明内容

本申请的目的是提供一种图像分类方法、装置、电子设备及计算机可读存储介质，能够解决FRN缺少均值居中造成的激活远离0值的偏差问题、输入部分因梯度消失而引起的神经元死亡的问题，在输入取较小值时具有软饱和的特性，减少前向传播的变化和信息，提高了神经网络的整体性能，使得图像分类结果具有更高的准确性。

为解决上述技术问题，本申请提供了一种图像分类方法，包括：

根据ELU负半轴对应的函数和TLU函数构造TELU激活函数；

对输入图像数据进行卷积计算得到特征数据；

根据所述特征数据获取神经网络当前层中第c个通道、第b个batch对应的均方归一化处理后的目标数据，其中，b、c均为正整数；

通过所述TELU激活函数得到所述目标数据对应的特征图；

根据所有所述特征图得到图像分类结果。

优选的，所述TELU激活函数为：

或，

其中，yi为所述输入图像数据，τ为学习阈值，α为可调参数。

优选的，所述特征数据的张量表示为[B，W，H，C]，B为mini batch size，C为卷积中filter的数量，W为所述特征数据的宽，H为所述特征数据的高。

优选的，所述根据所述特征数据获取神经网络当前层中第c个通道、第b个batch对应的均方归一化处理后的目标数据的过程具体包括：

根据所述特征数据获取神经网络当前层中第c个通道、第b个batch的filter响应的向量；

分别对每一所述向量进行均方归一化处理得到所述filter响应的均值；

对所述均值进行线性变换得到目标数据。

优选的，所述分别对每一所述向量进行均方归一化处理得到所述filter响应的均值的过程具体包括：

通过第一关系式分别对每一所述向量进行均方归一化处理；

通过第二关系式得到所述filter响应的均值；

所述第一关系式为υ²＝∑_ix_i ²/N；

所述第二关系式为

其中，x＝X_b,；,；c∈R^N为对第c个通道、第b个batch的filter响应的向量，x_i为x集合中的第i个元素，υ²为x的均方归一化，

为所述均值，ε为正常数，N＝W×H。

优选的，所述对所述均值进行线性变换得到目标数据的过程包括：

通过第三关系式对所述均值进行线性变换得到目标数据，所述第三关系式为

其中，γ为可训练的缩放因子，β为可训练的偏移量。

为解决上述技术问题，本申请还提供了一种图像分类装置，包括：

构造模块，用于根据ELU负半轴对应的函数和TLU函数构造TELU激活函数；

卷积计算模块，用于对输入图像数据进行卷积计算得到特征数据；

归一化处理模块，用于根据所述特征数据获取神经网络当前层中第c个通道、第b个batch对应的均方归一化处理后的目标数据，其中，b、c均为正整数；

激活模块，用于通过所述TELU激活函数得到所述目标数据对应的特征图；

分类模块，用于根据所有所述特征图得到图像分类结果。

优选的，所述TELU激活函数为：

或，

优选的，所述归一化处理模块包括：

获取单元，用于根据所述特征数据获取神经网络当前层中第c个通道、第b个batch的filter响应的向量；

处理单元，用于分别对每一所述向量进行均方归一化处理得到所述filter响应的均值；

变换单元，用于对所述均值进行线性变换得到目标数据。

优选的，所述处理单元具体用于：

通过第一关系式分别对每一所述向量进行均方归一化处理；

通过第二关系式得到所述filter响应的均值；

所述第一关系式为υ²＝∑_ix_i ²/N；

所述第二关系式为

为所述均值，ε为正常数，N＝W×H。

优选的，所述变换单元具体用于：

其中，γ为可训练的缩放因子，β为可训练的偏移量。

为解决上述技术问题，本申请还提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上文任意一项所述的图像分类方法的步骤。

为解决上述技术问题，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文任意一项所述的图像分类方法的步骤。

本申请提供了一种图像分类方法，由于新构造的TELU函数引入了ELU负半轴对应的函数，因此可以取到负值，让单元激活均值更接近0，这样可以解决FRN缺少均值居中造成的激活远离0值的偏差问题，同时解决了输入部分因梯度消失而引起的神经元死亡的问题，增加了激活函数的表现能力，由于TELU函数负半段部分斜率较小，在输入取较小值时，具有软饱和的特性，减少前向传播的变化和信息，增强了对噪声的鲁棒性，提高了神经网络的整体性能，从而使得图像分类结果更加准确。本申请还提供了一种图像分类装置、电子设备及计算机可读存储介质，具有和上述图像分类方法相同的有益效果。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的一种图像分类方法的步骤流程图；

图2a为本申请所提供的一种ELU函数曲线；

图2b为本申请所提供的一种TELU函数曲线；

图3a为本申请所提供的一种ReLU激活函数示意图；

图3b为本申请所提供的一种ReLU(y-τ)激活函数示意图；

图3c为本申请所提供的一种max(y,τ)激活函数示意图；

图4为本申请所提供的一种改进的FRN层归一化和激活处理过程示意图；

图5为本申请所提供的一种图像分类装置的结构示意图；

图6为本申请所提供的一种电子设备的结构示意图。

具体实施方式

本申请的核心是提供一种图像分类方法、装置、电子设备及计算机可读存储介质，能够解决FRN缺少均值居中造成的激活远离0值的偏差问题、输入部分因梯度消失而引起的神经元死亡的问题，在输入取较小值时具有软饱和的特性，减少前向传播的变化和信息，提高了神经网络的整体性能，使得图像分类结果具有更高的准确性。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，图1为本申请所提供的一种图像分类方法的步骤流程图，该图像分类方法包括：

S101：根据ELU负半轴对应的函数和TLU函数构造TELU激活函数；

首先需要说明的是，请参照图2a，图2a为本申请所提供的一种ELU函数曲线，其表达式为：

其中，α＞0。考虑到FRN缺少均值居中会导致激活远离0值的任意偏差，偏差结合ReLU会导致准确率降低，因此，对ReLU增加一个可学习的阈值τ，从而将TLU定义为z＝max(y,τ)，因为max(y,τ)＝max(y-τ,0)+τ＝ReLU(y-τ)+τ，TLU激活的影响等同于在ReLU之前和之后有一个共享的偏置，基于TLU的FRN归一化性能明显优于其他归一化方法，尤其是batch比较小时，TLU基于ReLU稍作改进，因此具有ReLU一些优点，如收敛速度快，尤其是在SGD算法中收敛速度明显快于sigmoid和tanh，这是因为ReLU解决了sigmoid和tanh在远离0时梯度消失问题，如计算复杂度低，不需要进行指数运算，仅通过一个阈值就可以得到激活值。其中，ReLU、ReLU(y-τ)及max(y,τ)的激活函数示意图分别参照图3a-图3c所示。

具体的，在上述方案的基础上，本申请引入了ELU负半轴的函数曲线，对TLU进行了改进得到TELU(Threshold Exponential Linear Unit)函数，TELU函数的曲线如图2b所示，TELU结合了TLU和ELU的优点，TELU函数的表达式为：

或，

相应的，参照图4，图4为本申请实施例所提供的一种改进的FRN层归一化和激活处理过程示意图。

S102：对输入图像数据进行卷积计算得到特征数据；

具体的，对输入图像数据进行卷积计算得到特征数据，这里的特征数据的tensor表示为[B,W,H,C]，B为mini batch size，C为卷积中filter的数量，H为特征数据的高，W为特征数据的宽。

其中，输入图像数据可以为安防监控录像对应的图像数据、也可以为自动驾驶过程中对应采集的图像数据、还可以为流媒体在线视频对应的图像数据，本申请对于输入图像数据的应用领域不作具体的限定。

S103：根据特征数据获取神经网络当前层中第c个通道、第b个batch对应的均方归一化处理后的目标数据，其中，b、c均为正整数；

具体的，令x＝X_b,；,；c∈R^N来表示对第c个通道c^th、第b个batch b^th的filter响应的向量，这里N＝W×H，根据第一关系式对每个batch和每个通道的向量x进行均方归一化处理，其中，第一关系式为υ²＝∑_ix_i ²/N，然后通过第二关系式计算filter响应的均值，其中，第二关系式为

接着根据第三关系式对均值进行线性变换以补偿归一化可能造成的表示能力损失，其中，第三关系式为

其中，x_i为x中的第i个元素，υ²为x的均方归一化，

为均值，ε为一个小的正常数防止发生除0错误，γ为可训练的缩放因子，β为可训练的偏移量。

S104：通过TELU激活函数得到目标数据对应的特征图；

S105：根据所有特征图得到图像分类结果。

可以理解的是，通过TELU函数对目标数据激活操作得到对应的特征图，S101-S104完成了神经网络中其中一层的归一化激活，对于神经网络中其他卷积层，同样执行S101-S104即可，对所有特征图进行特征分类，由神经网络的输出层输出图像分类结果。

具体的，相比ReLU，本申请中由TLU结合ELU形成的激活函数TELU，继承了TLU对FRN结果因缺少均值居中导致的激活偏离0值的问题的调整，且引入了ELU的诸多优点，TELU可以取到负值，可以让单元激活均值更接近0，类似于Batch Normalization的效果但是只需要更低的计算复杂度。由于TELU增加了对梯度为0部分的处理，因此可以解决神经元死亡的问题，且它加快了训练速度，证据表明，均值激活接近0可使训练更快。且TELU负半段部分斜率较小，在输入取较小值时具有软饱和的特性，减少前向传播的变化和信息，增强了对噪声的鲁棒性，进一步提高了整个网络的准确率，从而使得图像分类结果更加准确。如图2a可知，α是一个可调的参数，它控制着ELU负值部分在何时饱和，激活函数TELU在其负状态下具有明显的饱和平稳期，能够学习更鲁棒和稳定的表示形式。

具体的，改进后的FRN层梯度计算过程如下：

因为所有的转换是沿通道进行的，本实施例只推导每通道的梯度。假设在神经网络中的某一层，根据第二关系式、TELU函数和第四关系

的转换将x送往FRN层进行计算，且其输出为z(如图4。令f(z)为神经网络应用于z的映射，反向梯度为

参数γ、β和τ为对应的每个通道的向量，则：

更新到τ的梯度为：

更新到y的梯度为：

这里z_b是b^thbatch的每通道的激活向量。

进一步的，当y≥τ时，

当y∈[-τ,τ)时，

当y＜-τ时，

对γ的梯度如下：

进一步的：

当y≥τ时，

当y∈[-τ,τ)时，

当y＜-τ时，

对β的梯度如下：

进一步的：

当y≥τ时，

当y∈[-τ,τ)时，

当y＜-τ时，

由

可以得出：

根据上式以及

则

当y≥τ时，

当y∈[-τ,τ)时，

当y＜-τ时，

由上述关系式可以看出当yi＜-τ时，TELU的梯度不为0，经过反向推导，求得yi＜-τ时

不为0，从而解决了TLU负半部分输入因梯度消失而引起的神经元死亡的问题，且此部分斜率较小，在输入取较小值时具有软饱和的特性，减少前向传播的变化和信息，增强了对噪声的鲁棒性。另外α作为一个可调的参数，控制着ELU负值部分在何时饱和，进一步增强了该部分梯度控制的灵活性。

请参照图5，图5为本申请所提供的一种图像分类装置的结构示意图，该图像分类装置包括：

构造模块11，用于根据ELU负半轴对应的函数和TLU函数构造TELU激活函数；

卷积计算模块12，用于对输入图像数据进行卷积计算得到特征数据；

归一化处理模块13，用于根据特征数据获取神经网络当前层中第c个通道、第b个batch对应的均方归一化处理后的目标数据，其中，b、c均为正整数；

激活模块14，用于通过TELU激活函数得到目标数据对应的特征图；

分类模块15，用于根据所有特征图得到图像分类结果。

可见，本实施例中新构造的TELU函数引入了ELU负半轴对应的函数，因此可以取到负值，让单元激活均值更接近0，这样可以解决FRN缺少均值居中造成的激活远离0值的偏差问题，同时解决了输入部分因梯度消失而引起的神经元死亡的问题，增加了激活函数的表现能力，由于TELU函数负半段部分斜率较小，在输入取较小值时，具有软饱和的特性，减少前向传播的变化和信息，增强了对噪声的鲁棒性，提高了神经网络的整体性能，从而使得图像分类结果更加准确。

作为一种优选的实施例，TELU激活函数为：

或，

作为一种优选的实施例，特征数据的张量表示为[B，W，H，C]，B为mini batchsize，C为卷积中filter的数量，W为特征数据的宽，H为特征数据的高。

作为一种优选的实施例，归一化处理模块13包括：

获取单元，用于根据特征数据获取神经网络当前层中第c个通道、第b个batch的filter响应的向量；

处理单元，用于分别对每一向量进行均方归一化处理得到filter响应的均值；

变换单元，用于对均值进行线性变换得到目标数据。

作为一种优选的实施例，处理单元具体用于：

通过第一关系式分别对每一向量进行均方归一化处理；

通过第二关系式得到filter响应的均值；

第一关系式为υ²＝∑_ix_i ²/N；

第二关系式为

为均值，ε为正常数，N＝W×H。

作为一种优选的实施例，变换单元具体用于：

通过第三关系式对均值进行线性变换得到目标数据，第三关系式为

其中，γ为可训练的缩放因子，β为可训练的偏移量。

另一方面，本申请还提供了一种电子设备，如参见图6，其示出了本申请实施例一种电子设备的一种组成结构示意图，本实施例的电子设备可以包括：处理器21和存储器22。

可选的，该电子设备还可以包括通信接口23、输入单元24和显示器25和通信总线26。

处理器21、存储器22、通信接口23、输入单元24、显示器25、均通过通信总线26完成相互间的通信。

在本申请实施例中，该处理器21，可以为中央处理器(Central Processing Unit，CPU)，特定应用集成电路，数字信号处理器，现成可编程门阵列或者其他可编程逻辑器件等。

该处理器可以调用存储器22中存储的程序。具体的，处理器可以执行以下图像分类方法的实施例中电子设备侧所执行的操作。

存储器22中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，该存储器中至少存储有用于实现以下功能的程序：

根据ELU负半轴对应的函数和TLU函数构造TELU激活函数；

对输入图像数据进行卷积计算得到特征数据；

根据特征数据获取神经网络当前层中第c个通道、第b个batch对应的均方归一化处理后的目标数据，其中，b、c均为正整数；

通过TELU激活函数得到目标数据对应的特征图；

根据所有特征图得到图像分类结果。

在一种可能的实现方式中，该存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、以及至少一个功能(比如均方归一化计算功能等)所需的应用程序等；存储数据区可存储根据计算机的使用过程中所创建的数据。

此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

该通信接口23可以为通信模块的接口，如GSM模块的接口。

本申请还可以包括显示器24和输入单元25等等。

当然，图6所示的物联网设备的结构并不构成对本申请实施例中物联网设备的限定，在实际应用中电子设备可以包括比图6所示的更多或更少的部件，或者组合某些部件。

另一方面，本申请实施例还公开了一种计算机可读存储介质，这里所说的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

根据ELU负半轴对应的函数和TLU函数构造TELU激活函数；

对输入图像数据进行卷积计算得到特征数据；

通过TELU激活函数得到目标数据对应的特征图；

根据所有特征图得到图像分类结果。

在一些具体的实施例中，TELU激活函数为：

或，

在一些具体的实施例中，特征数据的张量表示为[B，W，H，C]，B为mini batchsize，C为卷积中filter的数量，W为特征数据的宽，H为特征数据的高。

在一些具体的实施例中，计算机可读存储介质中存储的计算机子程序被处理器执行时，具体可以实现以下步骤：

根据特征数据获取神经网络当前层中第c个通道、第b个batch的filter响应的向量；

分别对每一向量进行均方归一化处理得到filter响应的均值；

对均值进行线性变换得到目标数据。

在一些具体的实施例中，分别对每一向量进行均方归一化处理得到filter响应的均值的过程具体包括：

通过第一关系式分别对每一向量进行均方归一化处理；

通过第二关系式得到filter响应的均值；

第一关系式为υ²＝∑_ix_i ²/N；

第二关系式为

为均值，ε为正常数，N＝W×H。

在一些具体的实施例中，对均值进行线性变换得到目标数据的过程包括：

其中，γ为可训练的缩放因子，β为可训练的偏移量。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。