CN105373796B

CN105373796B - 图像激活操作的方法、装置及其应用

Info

Publication number: CN105373796B
Application number: CN201510697641.1A
Authority: CN
Inventors: 丁松
Original assignee: Beijing Eye Intelligence Technology Co Ltd; Henan Eye Technology Co Ltd; Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyes Intelligent Technology Co ltd; Shenzhen Aiku Smart Technology Co ltd; Beijing Eyecool Technology Co Ltd
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2019-01-25
Anticipated expiration: 2035-10-23
Also published as: CN105373796A

Abstract

本发明公开了一种图像激活操作的方法、装置及其应用，属于图像处理领域，所述图像激活操作的方法包括：将待处理图像按照一定的大小划分为若干个邻域；找出每个邻域中各个像素点的值的最大值；将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0。与现有技术相比，本发明的图像激活操作的方法减少了运算量，冗余信息少，能够很好地描述图像。

Description

图像激活操作的方法、装置及其应用

技术领域

本发明涉及图像处理领域，特别是指一种图像激活操作的方法、装置及其应用。

背景技术

图像特征提取一般是指对图像进行一系列操作，得到图像的特征值、特征向量或特征矩阵，这些操作一般包括卷积操作(得到卷积特征图)、激活操作(得到激活特征图)、下采样操作(得到下采样特征图)和向量化操作(得到特征值、特征向量或特征矩阵)等。

现有技术中一般使用ReLU激活函数(rectified linear unit)进行激活操作，ReLU激活函数得到的激活特征图存在一定的冗余信息，使得激活特征图不能很好地表征图像，而且冗余信息还会增大运算量以及产生干扰。

发明内容

本发明提供一种图像激活操作的方法、装置及其应用，该方法提取到的特征冗余信息少，能够很好地表征图像，减少了运算量，降低了干扰；应用场合广泛。

为解决上述技术问题，本发明提供技术方案如下：

一种图像激活操作的方法，包括：

将待处理图像按照一定的大小划分为若干个邻域；

找出每个邻域中各个像素点的值的最大值；

将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0。

一种图像激活操作的装置，包括：

分区模块，用于将待处理图像按照一定的大小划分为若干个邻域；

最大值模块，用于找出每个邻域中各个像素点的值的最大值；

处理模块，用于将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0。

一种人脸特征提取的方法，对人脸图像进行多次卷积操作和激活操作，每进行若干次卷积操作和激活操作后还进行下采样操作，最后进行向量化操作，得到人脸图像的特征向量，其中，所述激活操作包括：

将所述卷积特征图按照一定的大小划分为若干个邻域；

找出每个邻域中各个像素点的值的最大值；

将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0，得到激活特征图。

一种人脸特征提取的装置，对人脸图像进行多次卷积操作和激活操作，每进行若干次卷积操作和激活操作后还进行下采样操作，最后进行向量化操作，得到人脸图像的特征向量，其中，所述激活操作包括：

分区单元，用于将所述卷积特征图按照一定的大小划分为若干个邻域；

最大值单元，用于找出每个邻域中各个像素点的值的最大值；

处理单元，用于将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0，得到激活特征图。

本发明具有以下有益效果：

本发明首先将图像按照一定的大小划分为若干个邻域，然后找出每个邻域中各个像素点的值的最大值，最后将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0。这样，相对于ReLU激活函数，本发明提取到的特征冗余信息少，能够很好地表征图像，减少了运算量，降低了干扰；并且本发明不用降维操作即可提取到上述的特征，应用场合广泛。

因此，本发明的图像激活操作的方法提取到的特征冗余信息少，能够很好地表征图像，减少了运算量，降低了干扰；应用场合广泛。

附图说明

图1为本发明的图像激活操作的方法的一个实施例的流程图；

图2为本发明的图像激活操作的方法的一个实施例的示意图；

图3为现有技术中ReLU激活函数的示意图；

图4为现有技术中Max pooling操作的示意图；

图5为本发明中的图像激活操作的方法的一个实施例的直观效果图；

图6为本发明的图像激活操作的装置的一个实施例的结构图；

图7为本发明中的改进的卷积神经网络的一个实施例的示意图；

图8为现有技术中的卷积神经网络的一个实施例的示意图；

图9为本发明中的改进的卷积神经网络的另一个实施例的示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

一方面，本发明实施例提供一种图像激活操作的方法，如图1所示，包括：

步骤101：将待处理图像按照一定的大小划分为若干个邻域；这些邻域的行数和列数相同，我们称这个行数(列数)为邻域的边长，记为s，待处理图像的行数和列数也相同，其边长记为L，其中L能被s整除。

另外，相邻的邻域是紧挨着分布的，不允许有重叠和间隔；图2给出了一个划分实例(其中粗线为邻域的边界)，图像分成了4个邻域，s＝2，L＝4。

步骤102：找出每个邻域中各个像素点的值的最大值；前述的待处理图像一般是经过卷积后得到的卷积特征图，卷积特征图是指经过卷积操作后输出的图像，卷积特征图中各个像素点的值我们称之为特征值，本步骤中的像素点的值就是指这些特征值；可以通过将每个邻域中各个像素点的值两两做差的方法，确定出最大值。

步骤103：将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0；此时，若某个邻域内存在多个最大值，可以将它们都保留，也可以只保留部分或只保留其中一个。

激活操作又称激励操作，常用在人工神经网络中对图像进行处理，人工神经网络一般通过卷积操作提取图像的特征，得到卷积特征图，然后进行激活操作。

激活操作是一种非线性操作，它能够对特征值进行非线性划分为需要激活的部分和不需要激活的部分，将需要激活的部分的特征值输出(我们称该部分特征值被激活了)，不需要激活的部分的特征值舍去(我们称该部分特征值未被激活)，得到激活特征图。

例如本实施例的激活操作，把特征值划分为最大值和非最大值两类，最大值为需要激活的部分，保留，非最大值为不需要激活的部分，舍去(即置为0)，如图2所示。

再比如，常用的ReLU激活函数的公式为f(x)＝ReLU(x)＝max(0,x)，该公式表示：对每一个特征值x，将x与0两个值的最大值输出；更直观的说法是，对每一个特征值x，将其与0比较，若x＞0，则输出x，若x＜0，则输出0；它的功能是把特征值划分为大于0的值和小于0的值两类，大于0的值为需要激活的部分，保留，小于0的值为不需要激活的部分，舍去(即置为0)，如图3所示。

本实施例的图像激活操作的方法我们称为SMP(sparse max pooling，非降维的稀疏化最大值池化)操作，可以用公式表示为：

其中，x_k,i,j为第k个邻域内第i行，第j列的特征值，其中，1≤i,j≤s，s为邻域的边长，1≤k≤M，为邻域的个数，M＝(L/s)²，L为待处理图像的边长，max(x_k,i,j)为第k个邻域内所有特征值的最大值。

虽然现有技术中的ReLU激活函数也能够对图像进行激活操作，但是激活操作后得到的激活特征图中存在一定的冗余信息，使得激活特征图不能很好地表征图像(我们称之为特征碰撞，针对ReLU激活函数得到的激活特征图为例，特征碰撞是指一个邻域内若存在2个非0的特征值的话，它们之间存在干扰，即我们不知道到底使用哪个特征值来表征图像)，而且冗余信息增加了运算量，并容易产生干扰。

为解决这一问题，现有技术中一般需要采用Max pooling操作(最大值池化、最大值下采样)对上述的激活特征图进行进一步处理。Max pooling操作为：将图像按照一定的大小划分为若干个邻域，保留每个邻域的最大值，其他舍去，如图4所示。显然Max pooling操作对激活特征图处理后，减少了冗余信息，但是Max pooling操作是一种降维操作，激活特征图会被降维，但是很多应用场合要求激活特征图不能被降维，如在人工神经网络中，如果降维的话，会导致网络的深度不够，因此这种方法的应用场合不广泛。

本实施例在待处理图像的邻域内提取最大值作为输出。即采用非降维稀疏的方法，将邻域内非最大值部分置为0，在最大值位置保留最大值。SMP操作示例结果如图2所示，这里的邻域大小为2*2。

本实施例首先将图像按照一定的大小划分为若干个邻域，然后找出每个邻域中各个像素点的值的最大值，最后将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0。这样，相对于ReLU激活函数，本实施例提取到的特征(即激活特征图)冗余信息少，能够很好地表征图像，减少了运算量，降低了干扰；并且本实施例不用降维操作即可提取到上述的特征，应用场合广泛。

因此，本实施例的图像激活操作的方法提取到的特征冗余信息少，能够很好地表征图像，减少了运算量，降低了干扰；应用场合广泛。

为了适应不同的应用场景，提高扩展性，邻域的大小可以根据实际情况设定，具体的，如果L较大，s可适当大些，如果L较小，s可适当小些；如果要求激活操作后保留的信息较多，s可适当小些，如果要求激活操作后保留的信息较少，s可适当大些；另外，还需要考虑运算量的因素，s小则运算量大，s大则运算量小；s常用的取值为2、3、4…等，其中2为最小值。

并且很多情况下需要使用邻域大小不同的多个SMP操作联合对图像进行激活操作，此时我们将多个邻域大小不同的SMP操作联合使用的情况称之为MSMP(multi-scalesparse max pooling，多尺度非降维的稀疏化最大值池化)操作；具体的，步骤101中，待处理图像可以为多个，这多个待处理图像一般是有相互关联的，例如多个待处理图像是一个原始图像经过不同的卷积操作得到的，对这些待处理图像进行划分邻域时，每个图像的邻域大小可以不同，这样对多个待处理图像分别进行SMP操作就会得到多个特征，使用这多个特征联合表征原始图像，能够使得特征更丰富，更能表征原始图像。

例如，在卷积神经网络中，为了使提取到的特征更能表征图像，很多情况下需要使用一组不同的卷积函数(卷积核)对图像进行特征提取，得到一组卷积特征图，这时就需要一组邻域大小不同的MSMP对这一组卷积特征图进行激活操作。

MSMP操作能够使用不同大小的邻域对图像进行操作，应用场合更广泛，并且得到的特征更丰富，更能表征图像。例如对于100*100的人脸特征图如图5(a)所示，设定两种邻域尺度2*2和4*4，分别采用SMP进行操作，结合起来形成MSMP，如图5(c)和5(d)所示。与ReLU操作得到的图5(b)对比发现，多尺度SMP(MSMP)得到的特征比ReLU得到的激活特征图更丰富，更能表征图像；并且使用者可以灵活的选择邻域的大小。

下面以一个优选的实施例对本发明进行详细描述：

将待处理图像按照2*2的大小划分为若干个邻域；

对第一个邻域，使用预先设置的核函数进行处理，其中核函数的处理过程如下：

将邻域内的各个特征值两两做差，找出最大值；

将邻域内的最大值保留，其他值设为0。

将核函数移动2的步长，对第二个邻域进行处理，以此类推，直至处理完成。

另一方面，本发明实施例提供一种图像激活操作的装置，如图6所示，包括：

分区模块11，用于将待处理图像按照一定的大小划分为若干个邻域；

最大值模块12，用于找出每个邻域中各个像素点的值的最大值；

处理模块13，用于将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0。

本实施例的图像激活操作的装置提取到的特征冗余信息少，能够很好地表征图像，减少了运算量，降低了干扰；应用场合广泛。

并且很多情况下需要使用邻域大小不同的多个SMP操作对图像联合进行激活操作，此时我们将多个邻域大小不同的SMP操作联合使用的情况称之为MSMP(multi-scalesparse max pooling，多尺度非降维的稀疏化最大值池化)操作；具体的，分区模块，待处理图像可以为多个，这多个待处理图像一般是有相互关联的，例如多个待处理图像是一个原始图像经过不同的卷积操作得到的，对这些待处理图像进行划分邻域时，每个图像的邻域大小可以不同，这样对多个待处理图像进行SMP操作就会得到多个特征，使用这多个特征联合表征原始图像，能够使得特征更丰富，更能表征原始图像。

再一方面，本发明实施例提供一种人脸特征提取的方法(本发明的图像激活操作的方法在人脸识别中的应用)，如图7所示：对人脸图像进行多次卷积操作和激活操作，每进行若干次卷积操作和激活操作后还进行下采样操作，最后进行向量化操作，得到人脸图像的特征向量；其中，激活操作包括：

将卷积特征图按照一定的大小划分为若干个邻域；

找出每个邻域中各个像素点的值的最大值；

现有技术一般采用卷积神经网络来提取人脸图像的特征(一般为向量)，现有的卷积神经网络如图8所示，包括：

对人脸图像进行卷积操作，得到卷积特征图；一般的过程为：使用卷积核对人脸图像进行卷积操作，提取出图像的特征值，这些特征值组成了卷积特征图。

对卷积特征图进行激活操作，得到激活特征图；使用ReLU函数、sigmoid函数等对卷积特征图进行处理，激活卷积特征图中的部分特征值，得到激活特征图。

对激活特征图进行下采样操作，得到采样特征图；例如，可以使用max pooling(最大值下采样)对激活特征图进行下采样操作，输出的值即为采样特征图。

对采样特征图再次进行卷积操作、激活操作和下采样操作，如此重复多次，最后进行向量化操作，得到人脸图像的特征向量。

我们一般将一次卷积操作、激活操作和下采样操作称为一层卷积网络，下一层卷积网络的输入为上一层卷积网络的输出，第一层卷积网络的输入为人脸图像(一般经过了预处理)，卷积网络的层数越多，卷积神经网络的深度越大。

卷积神经网络在使用前需要进行学习，其深度越大，学习程度越好，提取到的人脸图像的特征越能表征人脸图像。但是现有技术中的卷积神经网络每一层基本卷积网络都需要进行下采样操作，每层基本卷积网络处理后都会降维，使得卷积神经网络的深度不可能很大。以64*64的人脸图像为例，若下采样的采样邻域为2*2，则最多进行6次下采样，实际使用时，输入的人脸图像不可能过大，因此卷积神经网络存在深度较小的问题，使得提取到的人脸图像的特征向量不能很好地表征人脸图像。

本实施例采用改进的卷积神经网络(DCNN：convolutional neural network)来提取人脸图像的特征向量，即不在每一层基本卷积网络都进行下采样操作，而是在若干层基本卷积网络后才进行一次下采样操作，当然，此处的若干次是指一次或多次，在卷积神经网络深度不大的情况下，可以在每一层基本卷积网络都进行下采样操作。

本实施例中，改进的卷积神经网络只需在若干层基本卷积网络后才进行一次下采样操作，减少了下采样操作的次数，改进的卷积神经网络的深度可以很大，使得提取到的人脸图像的特征向量能够更好地表征人脸图像。

并且，由于本实施例使用前述的图像激活操作的方法作为激活操作，故提取到的人脸图像的特征向量也具有前述的冗余信息少，能够很好地表征人脸图像，减少了运算量，降低了干扰的优点。

因此，本实施例的人脸特征提取的方法提取到的人脸图像的特征向量冗余信息少，能够很好地表征人脸图像，减少了运算量，降低了干扰。

另外，需要说明的是，本发明实施例中的“在若干层基本卷积网络后才进行一次下采样操作”相比于现有技术中的“在每一层基本卷积网络都进行下采样操作”是不容易想到的。因为如果仅仅使用现有技术中的ReLU函数等进行激活操作，并且也在若干层基本卷积网络后才进行一次下采样操作的话，由于ReLU函数得到的激活特征图存在冗余信息和特征碰撞(前述已经提过)，如果不进行下采样的话，冗余信息以及相互碰撞的特征会进入下一层基本卷积网络，这样不仅增加了运算量，而且还会使得最后提取到的人脸图像的特征向量更不能表征人脸图像；另外，还会对卷积神经网络的学习过程中产生很大不利影响，例如在卷积神经网络的学习过程中，需要反向传播(一般是进行偏微分求导等)来得到卷积神经网络的各个参数，这样会导致反向传播的过程不顺畅，不能收敛得到的各个参数，从而使得卷积神经网络完不成学习或者学习效果很差。

如图9所示，上述各个实施例中的卷积操作可以包括：

为了使得提取到的特征更丰富，能够更好的表征人脸图像，可以使用一组卷积核对输入图像进行卷积，得到一组卷积特征图，这组卷积核两两不相同，使用这组卷积特征图来联合表征图像；第一次卷积操作的输入图像为人脸图像，以后的输入图像为前一层的输出(有下采样时，为采样特征图，否则为激活特征图)。

前述的激活操作进一步为：

将每个卷积特征图按照一定的大小划分为若干个邻域；

找出每个邻域中各个像素点的值的最大值；

将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0，得到一组激活特征图。

下采样操作包括：

对每个激活特征图进行下采样，得到一组采样特征图。

本实施例使用一组卷积核、激活函数和下采样函数进行特征提取，使得得到的人脸图像的特征向量更丰富，更能表征人脸图像。

优选的，将卷积特征图按照一定的大小划分为若干个邻域中，每个卷积特征图的邻域大小不同。这里使用前述的MSMP操作使用不同大小的邻域对图像进行激活操作，得到的人脸图像的特征向量更丰富，更能表征人脸图像。

下面给出一个优选的实施例对本发明进行阐述：

本实施例的改进的卷积神经网络如图9所示，其过程为：输入图片经过一组卷积核的卷积操作，得到一组卷积特征图；随后，对卷积特征图使用前述的一组图像激活操作的方法，得到一组激活特征图，然后以这组激活特征图作为下一层级的输入，以此类推。其公式为：

Iⁱ⁺¹＝gⁱ(Iⁱ*Kⁱ+Bⁱ)

Iⁱ为第i层卷积的输入图像，Kⁱ是第i层的卷积核，Bⁱ是偏置向量，“*”为卷积操作符号，gⁱ(·)表示前述的MSMP；

在进行了p次(可以为一次或多次)上述的卷积操作和激活操作后，对某次激活操作后得到的激活特征图进行下采样操作，得到的采样特征图作为下一层级的输入，其公式为：

I^p+1＝Pool_max(g^p(I^p*K^p+B^p))

其中，Pool_max(·)表示最大值下采样(max pooling)操作。

卷积操作的公式可以为：

激活操作的公式可以为：

max pooling操作的公式可以为：

(Iⁱ*Kⁱ)_x,y,z表示经过第z个卷积特征图的(x,y)处的数值；

表示第i层输入特征图与对应的卷积核进行内积操作，并且按照角标对应相加，1≤c,z≤m；

Pool_max(I^p)_x,y表示对I^p下采样后(x,y)位置的值；

表示在0≤a,b＜s邻域范围内取最大值。

再一方面，本发明提供一种人脸特征提取的装置，其中一个实施例为：对人脸图像进行多次卷积操作和激活操作，每进行若干次卷积操作和激活操作后还进行下采样操作，最后进行向量化操作，得到人脸图像的特征向量，其中，激活操作包括：

分区单元，用于将卷积特征图按照一定的大小划分为若干个邻域；

本实施例的人脸特征提取的装置提取到的人脸图像的特征向量冗余信息少，能够很好地表征人脸图像，减少了运算量，降低了干扰。

上述的卷积操作可以包括：

卷积单元，用于使用一组卷积核对输入图像进行卷积，得到一组卷积特征图；

激活操作进一步为：

分区单元，用于将每个卷积特征图按照一定的大小划分为若干个邻域；

处理单元，用于将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0，得到一组激活特征图；

下采样操作包括：

下采样单元，用于对每个激活特征图进行下采样，得到一组采样特征图。

优选的，分区单元中，每个卷积特征图的邻域大小不同。这里使用前述的MSMP操作，即使用不同大小的邻域的SMP对图像进行激活操作，得到的人脸图像的特征向量更丰富，更能表征人脸图像。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种图像激活操作的方法，其特征在于，包括：

将待处理图像按照一定的大小划分为若干个邻域；

找出每个邻域中各个像素点的值的最大值；

2.根据权利要求1所述的图像激活操作的方法，其特征在于，所述待处理图像为多个，每个图像的邻域大小不同。

3.一种图像激活操作的装置，其特征在于，包括：

4.根据权利要求3所述的图像激活操作的装置，其特征在于，所述分区模块中，所述待处理图像为多个，每个图像的邻域大小不同。

5.一种人脸特征提取的方法，其特征在于，对人脸图像进行多次卷积操作和激活操作，每进行若干次卷积操作和激活操作后还进行下采样操作，最后进行向量化操作，得到人脸图像的特征向量，其中，所述激活操作包括：

将卷积操作得到的卷积特征图按照一定的大小划分为若干个邻域；

找出每个邻域中各个像素点的值的最大值；

6.根据权利要求5所述的人脸特征提取的方法，其特征在于：

所述卷积操作包括：

使用一组卷积核对输入图像进行卷积，得到一组卷积特征图；

所述激活操作进一步为：

将每个卷积特征图按照一定的大小划分为若干个邻域；

找出每个邻域中各个像素点的值的最大值；

将每个邻域中各个像素点的值的最大值保留，其他像素点的值设为0，得到一组激活特征图；

所述下采样操作包括：

对每个激活特征图进行下采样，得到一组采样特征图。

7.根据权利要求6所述的人脸特征提取的方法，其特征在于，所述将每个卷积特征图按照一定的大小划分为若干个邻域中，每个卷积特征图的邻域大小不同。

8.一种人脸特征提取的装置，其特征在于，对人脸图像进行多次卷积操作和激活操作，每进行若干次卷积操作和激活操作后还进行下采样操作，最后进行向量化操作，得到人脸图像的特征向量，其中，所述激活操作包括：

分区单元，用于将卷积操作得到的卷积特征图按照一定的大小划分为若干个邻域；

9.根据权利要求8所述的人脸特征提取的装置，其特征在于：

所述卷积操作包括：

所述激活操作进一步为：

最大值单元，找出每个邻域中各个像素点的值的最大值；

所述下采样操作包括：

10.根据权利要求9所述的人脸特征提取的装置，其特征在于，所述分区单元中，每个卷积特征图的邻域大小不同。