CN106897673A

CN106897673A - 一种基于retinex算法和卷积神经网络的行人再识别方法

Info

Publication number: CN106897673A
Application number: CN201710044905.2A
Authority: CN
Inventors: 韩光; 段朦; 李晓飞; 余小意
Original assignee: Nanjing Post and Telecommunication University
Current assignee: NANJING NANYOU INSTITUTE OF INFORMATION TEACHNOVATION Co.,Ltd.
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2017-06-27
Anticipated expiration: 2037-01-20
Also published as: CN106897673B

Abstract

本发明公开了一种基于retinex算法和卷积神经网络的行人再识别方法，首先提取视频数据库中的视频帧序列，构建卷积神经网络并训练出行人网络模型，利用训练好的网络模型将行人从视频帧序列中检测出来，用retinex算法将检测出的行人进行图像增强，最后将增强后的行人输入卷积神经网络中提取行人不同层次的深度特征，通过卷积神经网络最后一层的softmax分类器进行分类，得到最终匹配相似度。本发明充分考虑了现实场景中光照变化，阴影覆盖等问题，在识别之前引入retinex增强算法，模仿人类视觉系统，使图像更接近于人眼所看到的样子，有效地提高了识别效果。采用端到端的行人再识别方法，用同一个卷积神经网络将行人检测与行人识别结合在一起，解决了行人标签的对齐问题。

Description

一种基于retinex算法和卷积神经网络的行人再识别方法

技术领域

本发明属于模式识技术领域，具体涉及一种基于retinex算法和卷积神经网络的行人再识别方法。

背景技术

行人再识别是计算机视觉领域最近几年研究的热点内容，传统的行人再识别将行人检测和行人识别分开，先使用DPM或ACF算法检测出行人，对检测出的行人包围框加以裁剪用于之后的行人识别，这种方法难以投入现实场景的使用，并且行人检测区域和行人识别区域难以实现完全对齐，导致行人识别低下。

行人识别现在一种流行的做法是使用卷积神经网络提取行人对的图片特征进行特征匹配，它采用反向传播算法从大量的数据样本中获得一定的规律，模仿人脑的神经网络，对未知事物做出预测。传统的神经网络具有很强的非线性拟合能力，可以映射任意复杂的非线性关系，具有很强的鲁棒性和记忆能力，利用神经网络提取的低层特征，如颜色纹理空结构特征等，这些特征易于计算并且相对可靠，但是这些底层特征没有较好的语义表达能力，跟行人的外观的关系并不紧密。当出现光照变化以及行人旋转角度变化时，这些特征往往不能很好的表达出行人的特征，从而造成识别时出现偏差。

发明内容

本发明针对现有技术的不足，提出一种基于retinex算法和卷积神经网络的行人再识别方法，简化了行人识别操作的复杂性，更利于现实场景应用，并且很好地克服了光照视角等多种的因素的影响，大大提高了行人的识别率。

为达到上述目的，本发明的具体技术方案为一种基于retinex算法和卷积神经网络的行人再识别方法，具体包括以下步骤：

步骤101，采集视频图像，截取视频帧；

步骤102，训练CNN网络模型，进行行人的检测；

步骤103，利用retinex算法对检测出的行人包围框进行图像增强，对图像的Intensity数据进行Retinex处理，然后再把数据根据原始的RGB的比例映射到每个通道，最大程度地减少光照和行人表面反射光的影响；

步骤104，提取卷积特征，经过多次卷积和降采样，提取fc6层的特征；

步骤105，将从两台摄像机得到的行人特征进行特征匹配，并得出识别率。

进一步，上述CNN神经网络中含有两个softMax层，一层用于行人检测时候选区域的预测分类，另一层用于对不同行人进行识别。

上述步骤103中，利用retinex算法对检测出的行人进行图像增强，具体包含以下步骤：

步骤201，计算输入行人图像的模糊半径I(x,y)；

步骤201，计算行人图像按某种尺度进行高斯模糊的图像数据L(x,y)；

步骤203，将以上两个步骤得到的值的对数值相减，得到图像排除光照阴影和反射光后的数据logR(x,y)；

步骤204，将logR(x,y)量化到0-255的像素值，输出经过增强后的行人图像。

上述步骤102和104中，所用的检测和行人特征的提取使用同一个卷积神经网络，用同一个神经网络进行行人的检测与识别，具体为：

行人检测部分，所用神经网络采用VGG16模型的前四层卷积层：

第一层卷积层C1：设定64个特征平面，卷积核大小为3×3；

第一层下采样层S1：设定64个特征平面，池化窗口大小为2×2；

第二层卷积层C2：设定128个特征平面，卷积核大小为3×3；

第二层下采样层S2：设定128个特征平面，池化窗口大小为2×2；

第三层卷积层C3：设定256个特征平面，卷积核大小为3×3；

第三层下采样层S3：设定256个特征平面，池化窗口大小为2×2；

第四层卷积层C4：设定16个特征平面，卷积核大小为3×3；

第四层下采样层S4：设定16个特征平面，池化窗口大小为2×2；

Fc5和fc6用于行人识别：

Fc5设定4096个特征平面，fc6设定256个特征平面方便进行特征的匹配。

上述神经网络使用ROI池化技术进行行人目标的检测，经过神经网络的前四层的卷积和池化之后，将场景图像的特征输入ROI pooling层，获得行人框中的图像特征。

上述获得行人框中的图像特征具体包含以下步骤：

(1)使用选择性搜索方法获取一帧场景图像中大约2000个候选区域，并自动将这些区域裁剪到227×227，得到统一分辨率的2000个候选区域之后，将2000个候选区域输入到一个预训练的CNN模型，从最后一个全连接层输出4096*1的向量特征；

(2)对所有的上述候选区域进行严格的标定，当且仅当一个候选框完全包含参考标准区域且不属于参考标准部分不超过候选框区域的5％时，认为该候选框标定结果为目标，否则为背景；

(3)将提取得到的2000个候选区域经过regression回归层特征提取后输入到softmax层中，可以给出特定类别评分结果，得到softmax层对于所有候选区域的评分结果；

(4)将一些分数较低的候选区域去掉后，剩下的候选区域中会出现候选框相交的情况，采用非极大值抑制技术，对于相交的两个框或若干个框，找到最能代表最终检测结果的候选框。

与现有技术相比，本发明的有益效果：

1，本发明采用端到端的行人再识别方法，将行人检测与行人的识别结合到一起，从而解决了大量的行人图像的标注问题，并且更具有现实意义。对于先进行检测再进行识别而产生的行人目标框对齐的问题也可以有效地避免，因此本发明的行人识别率得到了很大的提升。

2，本发明在行人检测之后引入retinex算法对行人包围框进行行人图像的特征加强，提高了行人特征的语义表达能力，在光照视角变化等因素的影响下体现出较高的识别率。

附图说明

图1是本发明的基于retinex算法和卷积神经网络的行人再识别方法流程图。

具体实施方式

现结合附图对本发明作进一步的详细说明。

本发明中，神经网络使用ROI池化技术进行行人目标的检测，经过神经网络的前四层的卷积和池化之后，将场景图像的特征输入ROI pooling层，获得行人框中统一的图像特征。具体为：使用选择性搜索(selective search)方法获取一帧场景图像中大约2000个候选区域，并自动将这些区域裁剪到227×227。得到统一分辨率的的2000个候选区域之后，将2000个候选区域输入一个预训练的CNN(Convolution Neural Network)模型，从最后一个全连接层输出4096*1的向量特征。对所有的候选区域进行严格的标定，当且仅当一个候选框完全包含ground truth区域且不属于ground truth部分不超过候选框区域的5％时认为该候选框标定结果为目标，否则位背景。将提取得到的2000个候选区域经过regression回归层特征提取后输入到softmax层中，可以给出特定类别评分结果。得到softmax层对于所有候选区域的评分结果，将一些分数较低的候选区域去掉后，剩下的候选区域中会出现候选框相交的情况。采用非极大值抑制技术，对于相交的两个框或若干个框，找到最能代表最终检测结果的候选框。

本发明的流程图如图1所示，以下为一个具体的实施例，其具体步骤依次为：

步骤101，采集视频图像，截取视频帧。

步骤102，训练CNN网络模型，进行行人的检测。

步骤103，利用retinex算法对检测出的行人包围框进行图像增强，对图像的Intensity数据进行Retinex处理，然后再把数据根据原始的RGB的比例映射到每个通道。

步骤104，提取卷积特征，经过多次卷积和降采样，提取fc6层的特征。

步骤105，将两个摄像机得到的行人特征输入softmax层进行分类，并的出识别率。

其中，步骤1中，利用opencv中的cvGrabFrame函数，获取视频中的每一帧，并将其保存。

其中，步骤102中，所用神经网络为VGG16网络模型的前四层卷积层，具体为：

第一层卷积层C1：设定64个特征平面，卷积核大小为3×3；

第二层卷积层C2：设定128个特征平面，卷积核大小为3×3；

第三层卷积层C3：设定256个特征平面，卷积核大小为3×3；

第四层卷积层C4：设定512个特征平面，卷积核大小为3×3；

第四层下采样层S4：设定512个特征平面，池化窗口大小为2×2；

对于opencv保存下来的每一帧图像，输入一幅图像和候选框提取选择性搜索(Selective Search)方法生成的一系列候选区域，通过一系列卷积层和Pooling层生成特征映射,然后用RoI Pooling层处理最后一个卷积层得到的特征映射为每一个候选区域生成一个定长的特征向量。这些特征向量接着输入到全连接层产生最终用于多任务学习的特征并用于计算多任务Loss。全连接输出包括两个分支：1.SoftMax Loss:计算K+1类的分类Loss函数，其中K表示K个目标类别，1表示背景；2.Regression Loss:即K+1的分类结果相应的候选区域的包围框的四个角点坐标值。最终将所有结果通过非极大抑制处理，当且仅当一个候选框完全包含参考标准区域且不属于参考标准部分不超过候选框区域的5％时认为该候选框标定结果为目标，否则位背景，最终产生最终的目标包围框，即行人检测的目标。

其中，步骤103中，利用retinex对检测出的行人包围框中的行人进行图像增强。具体为：

步骤201，计算输入行人图像的模糊半径I(x,y)；

其中，步骤104中，提取卷积特征，经过多次卷积和降采样，提取fc6层的特征。具体为：经过检测的行人包围框的图像特征经过retinex层的处理得到增强后的图像特征，在经过两个全连接层的学习，得到最后的优选特征。其中，第五层卷积层C5：设定4096个特征平面，卷积核大小为3×3；第五层下采样层S5：设定4096个特征平面，池化窗口大小为2×2；

为了增加特征向量的比较速度，将第六层卷积层和第六层的下采样层的特征平面设定为256个。在训练的过程前，设置训练迭代次数为10000，学习率设置为0.01.。本发明的神经网络的每两层采用反卷积方法，利用逐层最小化重建误差法进行网络权值的更新。卷积神经网络中的卷积核选取Roberts算子和Prewitt算子。经过对比试验，我们发明的卷积神经网络对行人具有很强的泛化能力和识别能力，能有效的提高行人识别率。

其中，得到行人候选区域并对其特征增强之后提取行人的优选特征的步骤如下：

步骤301，经过C1到C4层的卷积以及ROI pooling的降采样得到行人候选区域，并经过retinex层的行人候选区域特征增强得到增强后的行人候选区域特征，此步已在上文中提出。

步骤302，图像特征经过第五层卷积层C5，通过3×3大小的卷积核的卷积操作，输出4096个特征平面；

步骤303，将C5层的4096个输出特征平面作为第一层次抽样层S5的输入，通过2×2大小的,池化窗口进行次抽样操作，输出4096个特征平面；

步骤304，将S5层得到的4096个特征平面作为C6层的输入，同样通过3×3大小的卷积核的卷积操作，输出256个特征平面；

步骤305，将C6层的256个输出特征平面作为抽样层S6的输入，通过2×2大小的池化窗口进行次抽样操作，输出256个特征平面；

步骤306，将这256个特征平面作为行人的优选特征进行行人识别。

其中步骤105，将步骤104中得到的行人的优选特征输入最后的softmax层进行行人的分类，得出最后的识别率。具体为：使用softmax层计算网络的损失，假设行人类别有C+1个，其中前C类为行人类别，最后一类为行人的背景。同时假设softmax层的输出为{x,t},其中x为softmax的分类得分，t是一个1到C+1之间的二维数组，表示行人的标签，则损失函数的定义为其中

以上所述仅是本发明的较佳实施例而已，并非对本发明做任何形式的限制。凡是依据本发明的技术和方法实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明的技术和方法方案的范围内。

Claims

1.一种基于retinex算法和卷积神经网络的行人再识别方法，其特征在于，具体包括以下步骤：

步骤101，采集视频图像，截取视频帧；

步骤102，训练CNN网络模型，进行行人的检测；

2.根据权利要求1所述的基于retinex算法和卷积神经网络的行人再识别方法，其特征在于CNN神经网络中含有两个softMax层，一层用于行人检测时候选区域的预测分类，另一层用于对不同行人进行识别。

3.根据权利要求1所述的基于retinex算法和卷积神经网络的行人再识别方法，其特征在于：所述步骤103中，利用retinex算法对检测出的行人进行图像增强，具体包含以下步骤：

步骤201，计算输入行人图像的模糊半径I(x,y)；

4.根据权利要求1所述的基于retinex算法和卷积神经网络的行人再识别方法，其特征在于，所述步骤102和104中，所用的检测和行人特征的提取使用同一个卷积神经网络，用同一个神经网络进行行人的检测与识别，具体为：

第一层卷积层C1：设定64个特征平面，卷积核大小为3×3；

第二层卷积层C2：设定128个特征平面，卷积核大小为3×3；

第三层卷积层C3：设定256个特征平面，卷积核大小为3×3；

第四层卷积层C4：设定16个特征平面，卷积核大小为3×3；

Fc5和fc6用于行人识别：

5.根据权利要求1所述的基于retinex算法和卷积神经网络的行人再识别方法，其特征在于，所述神经网络使用ROI池化技术进行行人目标的检测，经过神经网络的前四层的卷积和池化之后，将场景图像的特征输入ROI pooling层，获得行人框中的图像特征。

6.根据权利要求5所述的基于retinex算法和卷积神经网络的行人再识别方法，其特征在于所述获得行人框中的图像特征具体包含以下步骤：