CN109766934B

CN109766934B - 一种基于深度Gabor网络的图像目标识别方法

Info

Publication number: CN109766934B
Application number: CN201811605971.3A
Authority: CN
Inventors: 王田; 李嘉锟; 单光存; 文博; 文社欣
Original assignee: Everlasting Technology Hangzhou Co ltd; Beihang University
Current assignee: Everlasting Technology Hangzhou Co ltd; Beihang University
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2020-12-11
Anticipated expiration: 2038-12-26
Also published as: CN109766934A

Abstract

本发明涉及一种基于深度Gabor网络的图像目标识别方法，包括：对图像或者视频进行单帧分解得到单帧图像，利用深度Gabor网络进行特征提取与融合，而后利用全连接网络达到目标识别的目的。目标识别过程分为训练和测试两个过程。在训练中，以训练样本的图像作为深度Gabor网络的输入，通过最小化损失函数来训练整个深度Gabor网络，得到深度Gabor网络的权重值。同时对易错的训练样本进行困难样本挖掘，以提高深度Gabor网络的性能。在测试阶段，以测试样本的图像作为输入，利用训练好的深度Gabor网络提取测试样本的图像特征，然后利用训练好的全连接网络进行测试样本的分类，由此实现目标的识别。

Description

一种基于深度Gabor网络的图像目标识别方法

技术领域

本发明涉及图像处理技术，特别是涉及一种基于深度Gabor网络的图像目标识别方法。

背景技术

针对图像的目标识别可以用于各方面，包括网络上图像目标的理解、智慧城市、监控场景中的目标的发掘、人机交互中的场景理解等。深度学习技术给图像目标的识别提供了强有力的手段，并在多个社会领域上取得了成功。包括基于图像内容的搜索、以图搜图、监控中的人物再识别等。目前面向图像目标识别的深度学习主要采用基于卷积神经网络的结构，并在结构、网络的层数、网络的参数量上逐渐提高，对系统提高了要求。为了将网络的参数量降低，研究一种小参数量的网络具有重要意义。

现有图像目标识别的网络采用卷积核作为基本的结构，由于该结构靠大量的参数的学习来拟合训练数据，其确实理论的解释也是被大家诟病的地方。本发明创新性的提出采用Gabor滤波器来提取图像的特征，由于Gabor滤波器模拟人脑对于纹理的响应，有理论分析与支撑。并提出紧接Gabor层的激活层、批标准化层和池化层，完成参数的学习和训练。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于Gabor算子的目标识别方法，并且能相比现有方法具有更小的参数量与适应范围。

为了达到上述目的，本发明提出的技术方案为：一种基于深度Gabor网络的图像目标识别方法，包括如下步骤：

步骤1、读取需要进行目标识别的图像或视频数据，如果数据为视频数据，则视频数据分解成单帧图像序列；将图像数据，或者视频分解出的单帧图像序列，分为训练数据和测试数据，分别构成训练数据集与测试数据集。

步骤2、在目标识别的算法中包含训练和测试两个过程，在训练过程中，将对于步骤1得到的训练数据进行标记，根据图像中目标种类对图像进行标记，将图像数据打上类别标签，得到标记后的训练数据。

步骤3、针对步骤2得到的标记后的训练数据进行数据增广，将增广后的数据加到原始数据中，得到的数据增广后的训练数据。

步骤4、将步骤3得到的数据增广后的训练数据作为深度Gabor网络的输入，利用监督学习方法，通过最小化损失函数，训练深度Gabor网络，得到深度Gabor网络。利用Gabor网络对训练数据进行分类，对比数据标签，得到分类正确的训练数据与分类错误的训练数据，分类错误的训练数据被认为是困难数据。

步骤5、对于步骤4得到的深度Gabor网络，针对分类错误的训练数据进行困难数据挖掘，采用生成对抗网络生成类似的困难数据，将困难数据通过深度Gabor网络进行训练，提升深度Gabor网络的性能，至此完成训练阶段。

步骤6、在测试阶段中，利用训练好的深度Gabor网络作为测试过程的网络，对于输入的图像利用Gabor网络提取图像的特征，输出对该图像数据的识别结果，从而对图像目标识别。

本发明与现有技术相比的优点在于：

(1)本发明具有模型可解释的特点。由于传统的深度学习都是采用卷积核来对图像进行处理，并没有很强的理论的解释性。本发明由于采用Gabor滤波器作为基础来构建神经网络，利用Gabor模拟人的视觉感知中对于纹理与边界敏感的特点，具有可解释的理论基础。

(2)本发明具有参数量小的特点。由于采用Gabor滤波器，每个的滤波器的参数量相比卷积核的参数小。在相同的层数与识别准确率的要求下，本发明所提的网络参数量小。

(3)本发明具有是用范围广的特点。本发明所提的网络具有参数量小的特点，而且具有可解释性。所以具体的任务其能有针对性的调整，且能部署在服务器已经算力小的端上，具有广泛的应用范围。

附图说明

图1为本发明深度Gabor网络结构示意图。

具体实施方式

下面结合附图以及具体实施方式进一步说明本发明。

如图1所示，本发明一种用于图像目标识别的基于Gabor网络，具体实现步骤如下：

步骤i)针对步骤2得到的标记后的训练数据，利用图像旋转、局部裁剪、上下对称翻转、左右对称翻转、颜色抖动方式进行图像数据增广。

步骤ii)对数据增广后得到的更多的数据，加到原始数据中，增大训练数据集的规模，提高神经网络的训练的有效性。

步骤iii)图像目标识别的训练过程，为一个多分类问题，利用标签对数据进行分类，对于数据扩展后的标签，其值与进行变换前标签相同。

步骤i)训练过程为有监督学习过程，图像目标识别的数据为多类别的数据，神经网络采用交叉熵作为损失函数：

loss＝-y′logy

式中y为预测结果，y’为实际结果。并通过随机梯度下降法完成对于深度Gabor网络参数的调整。

步骤ii)对于图像目标识别的深度Gabor网络的组成均为Gabor滤波器，其表示如下：

x′＝xcosθ+ysinθ

y′＝-xsinθ+ycosθ

其中x,y为二维卷积核坐标，λ为波长，θ为滤波器方向，σ为高斯核标准差。

步骤iii)深度Gabor网络核心为4个Gabor层，每个Gabor层由多个不同参数的Gabor滤波器组成，Gabor滤波器中θ与λ为可训练参数，随机初始化取值如下：

θ∈(-π,π)

λ∈(2,0.2×min(height,width))

height与width为输入图像长和宽。

步骤iv)深度Gabor网络具体结构如下：

(1)Input：输入层为原始数据；

(2)Gabor1：本层针对不同的输入通道采用相同Gabor滤波器，滤波器数量取64；

(3)P1：本层为池化层，采用步长为2，大小为2*2的最大池化，可提高网络的训练速度并避免过拟合现象；

(4)S1：本层为激活层，采用“relu”函数作为激活函数，可有效避免过拟合现象；

(5)N1：本层为批标准化层，其用于将本层的输入归一化为均值为0，标准差为1的数据，这对避免过拟合现象有很好的效果，其计算方法如下，

y_i＝γx′_i+β

其中m为每批样本个数，则显然μ_B为样本平均值，

为样本标准差，∈理论上为正无穷小，实验中一般选取0.0001，γ和β为可训练参数,初始值选取γ＝1.0，β＝0.1，y_i为输出；

(6)Gabor2：本层针对不同的输入通道采用相同Gabor滤波器，滤波器数量取256；

(7)P2：本层为池化层，具体同P1；

(8)S2：本层为激活层，具体同S1；

(9)N2：本层为批标准化层，具体同N1；

(10)Gabor3：本层针对不同的输入通道采用相同Gabor滤波器，滤波器数量取256；

(11)P3：本层为池化层，具体同P1；

(12)S3：本层为激活层，具体同S1；

(13)N3：本层为批标准化层，具体同N1；

(14)D1：本层将数据降维成为一维数据，失去全部结构信息但保留了所有数据信息；

(15)Output：输出层与D1层采用全连接，输出层的向量长度应与输入视频信息的动类别数目相等。

步骤v)根据步骤i设定的损失函数loss，取学习率为0.001对网络进行训练，参数优化方法采用梯度下降法。

步骤i)在目标分类深度Gabor神经网络训练过程中，需要对易被分类错的样本进行困难样本挖掘，提高边神经网络分类的准确率。利用生成对抗网络对容易被分错的困难样本进行相似样本的生成。生成对抗网络为无监督学习，生成对抗网络包括生成网络与对抗网络。生成网络根据输入的数据生成与之相似的容易被深度Gabor网络分错的数据，根据公式

来衡量生成器生成数据与输入数据之间的差距，从而来生成相似数据，其中，G为生成器，D为判别器，P_data为输入数据的概率分布，P_G为生成器生成数据的概率分布；

步骤ii)设定训练步数X，若达到训练要求，则停止针对容易分错样本的对抗生成网络的训练，利用生成的数据作为训练数据集的补充样本；

步骤iii)将容易分错的样本与生成对抗网络生成的样本融合，作为扩充的训练样本数据集，提高图像目标分类的精度，修正深度Gabor网络。至此完成训练阶段。

步骤i)将输入的图像数据进行预处理。如果输入数据为视频数据，则频分解成单个帧，而后输入训练好的深度Gabor网络单帧图像进行测试。如果输入数据为图像，则将单帧图像输入训练好的深度Gabor网络单帧图像进行测试。

步骤ii)利用训练好的深度Gabor网络作为测试过程的网络，将输入的图像利用Gabor网络与输入图像进行Gabor滤波提取图像的特征，利用对应数据的点乘提取纹理特征，利用池化进行空间输入融合，得到深度Gabor网络针对图像的特征描述。

步骤iii)利用深度Gabor网络后端的全连接网络，对深度Gabor网络得到到图像特征进行分类，输出对该图像数据的识别结果，从而完成对测试图像的目标识别。

综上所述，本发明所述的一种基于Gabor网络的图像目标识别方法，首先对图像中的特征提取，即设计基于Gabor滤波器的基本核，提取图像中的纹理等特征；Gabor网络的结构设计，在Gabor特征核的基础上，设计多层的特征提取网络；为了提高网络的分类的准确率，Gabor网络采用困难样本挖掘，利用生成对抗网络来提高网络的性能。将带有对应动作类别信息的数据作为训练数据进行训练，训练好的神经网络可实现对输入数据代表的动作进行判断，由此图像目标识别的智能处理。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于深度Gabor网络的图像目标识别方法，其特征在于：实现步骤如下：

步骤1：读取需要进行目标识别的图像或视频数据，如果数据为视频数据，则视频数据分解成单帧图像序列；将图像数据，或者视频分解出的单帧图像序列，分为训练数据和测试数据，分别构成训练数据集与测试数据集；

步骤2：在目标识别的算法中包含训练和测试两个过程，在训练过程中，将对于步骤1得到的训练数据进行标记，根据图像中目标种类对图像进行标记，将图像数据打上类别标签，得到标记后的训练数据；

步骤3：针对步骤2得到的标记后的训练数据进行数据增广，将增广后的数据加到原始数据中，得到的数据增广后的训练数据；

步骤4：将步骤3得到的数据增广后的训练数据作为深度Gabor网络的输入，利用监督学习方法，通过最小化损失函数，训练深度Gabor网络，得到深度Gabor网络；利用Gabor网络对训练数据进行分类，对比数据标签，得到分类正确的训练数据与分类错误的训练数据，分类错误的训练数据被认为是困难数据；

步骤5：对于步骤4得到的深度Gabor网络，针对分类错误的训练数据进行困难数据挖掘，采用生成对抗网络成类似的困难数据，将困难数据通过深度Gabor网络进行训练，提升深度Gabor网络的性能，至此完成训练阶段；

步骤6：在测试阶段中，利用训练好的深度Gabor网络作为测试过程的网络，对于输入的图像利用Gabor网络提取图像的特征，输出对所述图像的识别结果，从而对图像目标识别；

所述步骤4中，利用监督学习方法，通过最小化损失函数，训练深度Gabor网络的过程：

步骤i) 训练过程为有监督学习过程，图像目标识别的数据为多类别的数据，深度Gabor网络采用交叉熵作为损失函数；

步骤ii) 对于图像目标识别的深度Gabor网络的组成均为Gabor滤波器；

步骤iii) 设计深度Gabor网络的4个Gabor层，Gabor层的Gabor滤波器数量依次为32、64、128和128个，每个Gabor层由多个不同参数的Gabor滤波器组成；

步骤iv) 在步骤iii)的基础上，对每个Gabor层后分别添加激活层、批标准化层和池化层，对于网络中的Gabor的角度参数进行参数优化；

步骤v)根据步骤i设定的损失函数，取学习率为0.001对网络进行训练，参数优化方法采用梯度下降法，得到训练好的深度Gabor网络；

所述步骤5中，对于步骤4得到的深度Gabor网络采用困难样本挖掘为：

步骤i) 在目标分类深度Gabor神经网络训练过程中，需要对分类错误的训练数据进行困难样本挖掘，提高神经网络分类的准确率，利用生成对抗网络对分类错误的训练数据的生成；

步骤ii) 设定训练步数X，若达到训练要求，则停止针对分类错误的训练数据的对抗生成网络的训练，利用生成的数据作为训练数据集的补充样本；

步骤iii) 将容易分错的样本与生成对抗网络生成的样本融合，作为扩充的训练样本数据集，提高图像目标分类的精度，修正深度Gabor网络，至此完成训练阶段，得到训练好的深度Gabor网络。

2.根据权利要求1所述的一种基于深度Gabor网络的图像目标识别方法，其特征在于：所述步骤3中，进行数据增广的过程如下：

步骤i) 针对步骤2得到的标记后的训练数据，利用图像旋转、局部裁剪、上下对称翻转、左右对称翻转、颜色抖动方式进行图像数据增广；

步骤ii) 对数据增广后得到的更多的数据，加到原始数据中，增大训练数据集的规模，提高深度Gabor网络的训练的有效性。

3.根据权利要求1所述的一种基于深度Gabor网络的图像目标识别方法，其特征在于：所述步骤6中，在测试阶段中：

步骤i) 将输入的图像数据进行预处理，如果输入数据为视频数据，则频分解成单个帧，而后输入训练好的深度Gabor网络单帧图像进行测试；如果输入数据为图像，则将单帧图像输入训练好的深度Gabor网络单帧图像进行测试；

步骤ii) 利用步骤5中训练好的深度Gabor网络作为测试过程的网络，将输入的图像利用Gabor滤波器提取图像的纹理特征，利用池化进行空间输入融合，得到深度Gabor网络针对图像的特征描述；

步骤iii) 利用深度Gabor网络后端的全连接网络，对深度Gabor网络得到图像特征进行分类，输出对图像数据的识别结果，从而完成对测试图像的目标识别。