CN106778604B

CN106778604B - 基于匹配卷积神经网络的行人再识别方法

Info

Publication number: CN106778604B
Application number: CN201611147548.4A
Authority: CN
Inventors: 韩红; 徐志敏
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2015-12-15
Filing date: 2016-12-13
Publication date: 2020-04-14
Anticipated expiration: 2036-12-13
Also published as: CN106778604A

Abstract

本发明提出了一种基于匹配卷积神经网络的行人再识别方法，主要解决现有技术在复杂环境、行人姿态多变情况下识别准确率低的问题。其实现是：1.构建匹配卷积神经网络；2.收集行人图片，获取训练样本集；3.用得到的训练样本集对匹配卷积神经网络进行训练；4.当用户输入待查询行人图片时，利用训练好的匹配卷积神经网络计算其与从已知数据库中取出两张图片之间的相似度；5.重复4的操作，直到数据库中的所有图片都取完；6.根据计算得到的相似度按照由大到小的顺序对已知数据库进行排序，将排序后的结果返回给用户。本发明能在复杂环境、行人姿态多变的情况下提高行人再识别的准确率，可用于智能监控系统、人物实时追踪、交通监管领域。

Description

基于匹配卷积神经网络的行人再识别方法

技术领域

本发明属于图像处理技术领域，特别涉及一种行人再识别的方法，可用于智能视频监控系统、人物实时追踪、交通监管等领域。

背景技术

计算机视觉中的行人再识别是指将多个不同监控摄像头中出现的行人一一对应起来，在摄像头拍摄的视频帧或图像中查找到某个特定的人。行人再识别技术能够将监控人员从屏幕监视这种繁重低效的重复劳动中解放出来，提高视频监控的效率，推动视频监控的智能化进程。行人再识别在多个领域都有较好的应用前景，但是由于监控视频的清晰度差，视频拍摄角度变化多样，拍摄环境更是繁杂多变，行人行走姿态变化万千等多方面的因素导致行人再识别在目前并没有通用的、准确率较高的解决方案。

目前，行人再识别大多都是先对行人图片提取特征，然后利用这些特征来判断两个行人图片是否属于同一身份，或者是利用学习的方法在特征间学习出一个映射，特征的提取一般有两种方法：利用人工构造的特征和利用卷积神经网络学习的特征。其中：

利用人工构造的特征来进行行人再识别，主要是提取行人的外貌特征，特别是对衣着服饰等进行分析，然后对提取的特征进行编码，利用编码作为判别依据，这些方法对环境、光照，及图像的拍摄质量要求高，不适用于一般场景。

利用卷积神经网络的行人再识别方法，首先使用卷积神经网络学习出特征，然后在特征空间度量其相似性。但是，由于目前的卷积神经网络方法并不能很好的克服图片拍摄环境变化大、角度差异大、行人姿态多变等问题，传统的基于卷积神经网络的方法也没有取得很好的效果。

发明内容

本发明的目的在于针对上述已有技术的不足，提出了一种基于匹配卷积神经网络的行人再识别方法，对传统的卷积神经网络进行扩展，利用特征增强、匹配滤波器手段以减小环境、光照、角度等对稳定性的影响，有效提高了行人再识别的准确率。

为实现上述目的，本发明的技术方案包括如下：

(1)构建匹配卷积神经网络：

(1a)建立一个由输入层、第一层、第二层、第三层、第四层、第五层和输出层构成的网络结构，其中输入层有三个图像X_α，X_p和X_n，输出层是三个向量V_α，V_p和V_n；

(1b)在第一层利用相同的卷积核分别对输入的图像X_α，X_p，X_n进行卷积，并对卷积后的结果再经过最大池化操作，得到第一层的三个特征图分别为

(1c)用第一层的三个特征图

构造出第一层的两个混合特征图，

其中，符号

表示是特征图对应位置的相加运算，

是第一层的第一个混合特征图，

是第一层的第二个混合特征图；

(1d)在第二层分别对第一层的三个特征图

使用相同的卷积核进行卷积操作，并对卷积后的结果再经过最大池化操作，得到的第二层的三个特征图分别为

分别对第一层得到的两个混合特征图

和

使用相同的匹配卷积核进行卷积操作，并对卷积后的结果再经过最大池化操作，得到的第二层的两个卷积特征图分别为

和

然后按下式构造出第二层的混合特征图

和

(1e)在第三层分别对第二层得到的三个特征图

使用相同的卷积核进行卷积操作，并对卷积后的结果再经过最大池化操作，得到第三层的三个特征图分别为

分别对第二层得到的两个混合特征图

和

使用相同的匹配卷积核进行卷积操作，并对卷积后的结果再经过最大池化操作，得到的第三层的两个卷积特征图分别为

和

构造出第三层的混合特征图

和

其中，符号

表示特征图对应位置的相减运算；

(1f)在第四层对第三层得到的第一个特征图

进行卷积操作后得到第四层的第一个特征图

对第三层的两个混合特征图

和

再经过相同的卷积操作运算后得到第四层的第二个和第三个混合特征图

和

(1g)在第五层中将第四层的三个特征图

分别与输出层的三个500维的向量V_a，V_p，V_n进行全连接；其中，

和V_n进行全连接的权重与

和V_p进行全连接的权重相同；

(1h)网络的输出层是三个特征向量V_a，V_p和V_n，这三个特征向量分别与输入层的三个图像X_a，X_p，X_n一一对应；

(2)从视频监控网络系统中收集大量拍摄于不同场景、环境、光照、角度下的行人图片，对这些行人图片进行整理，并将这些行人图片组合成三元组数据T_i,1≤i≤N，N是训练样本的数量，再用这些三元组数据构成训练样本集：

D＝(T₁，T₂，…，T_i，…，T_N)；

(3)将训练样本集D输入到匹配卷积神经网络中进行训练，得到训练好的网络模型；

(4)用户输入待查询的行人图片，将其作为参考样本，从已知数据库中取出两张行人图片，分别与用户输入的待查询行人图片组成三元组，并将三元组输入到训练好的匹配卷积神经网络中，计算出待查询行人图片与从已知数据库中取出的两张行人图片之间的相似度；

(5)重复步骤(4)的操作，每次从已知数据库中取出两张行人图片计算它们与待查询行人图片之间的相似度，直到数据库中的所有图片都取完；

(6)根据计算得到的相似度按照由大到小的顺序对已知数据库中的所有图片进行排序，最后将排序后的结果返回给用户，排在最前面的行人图片就是和用户输入的查询行人图片最相似的。

本发明与现有的技术相比具有以下优点：

1、本发明在网络进行训练时，输入的训练数据使用的是三元组的形式，相比于传统的二元组的形式能够将网络的学习重点聚集到难以区分的样本上，增大了正负样本的对比差异，提高识别的准确性，同时也省去了训练数据中需要人工标注的标签信息。

2、本发明提出了匹配卷积神经网络的结构，由于该结构在提取图像特征时使用特征增强的手段得到混合特征，然后利用匹配滤波器对混合特征进行滤波，能够有效地增强匹配对的相似特征，弱化非匹配对的差异特征，在特征空间拉大了匹配对与非匹配对之间的间隔，对于各种环境复杂、拍摄角度多变、行人姿态多样的情况，进一步提高了行人再识别的准确率。

附图说明

图1是本发明的实现流程图；

图2是本发明中构建的匹配卷积神经网络结构图；

图3是本发明中三元组形式的训练样本图；

图4是本发明的仿真结果图。

具体实施方式

以下结合附图对本发明实施例和效果进行详细描述。

参照图1，本发明的实施步骤如下：

步骤一，构建匹配卷积神经网络。

卷积神经网络是神经网络的一种，通过在神经网络中增加卷积操作和池化操作，使得卷积神经网络具有平移不变性、缩放不变性和旋转不变性等特性，能够很好的解决图像的平移、缩放以及倾斜等形式的变形问题。卷积神经网络通过层层相连的结构，逐层提取图像的特征，进而得到整个图像所表达的主要内容。但是直接使用卷积神经网络来进行行人再识别是不合适的，因为行人再识别的目的不是卷积神经网络所擅长的对图像进行内容识别，而是需要找到两个行人图片之间的相似度，考虑到这种情况，本发明构建了一种全新的匹配卷积神经网络，其具体构建方法如下：

(1c)用第一层的三个特征图

构造出第一层的两个混合特征图，

其中，符号

表示是特征图对应位置的相加运算，

是第一层的第一个混合特征图，

是第一层的第二个混合特征图；

(1d)在第二层分别对第一层的三个特征图

分别对第一层得到的两个混合特征图

和

和然后按下式构造出第二层的混合特征图

和

(1e)在第三层分别对第二层得到的三个特征图

分别对第二层得到的两个混合特征图

和

和

构造出第三层的混合特征图

和

其中，符号

表示特征图对应位置的相减运算；

(1f)在第四层对第三层得到的第一个特征图

进行卷积操作后得到第四层的第一个特征图

对第三层的两个混合特征图

和

和

(1g)在第五层中将第四层的三个特征图

和V_n进行全连接的权重与

和V_p进行全连接的权重相同；

图2给出了匹配卷积神经网络的结构图，从图2可见本发明构建的匹配卷积神经网络，包括输入层、第一层L₁、第二层L₂、第三层L₃、第四层L₄、第五层L₅和输出层共7层结构，其中输入层有三个图像X_α，X_p，X_n，输出层是三个向量V_α，V_p和V_n。

步骤二，获取训练样本集D。

(2a)从视频监控网络系统中收集大量拍摄于不同场景、环境、光照、角度下的行人图片，将属于同一身份的行人图片归为一类；

(2b)从样本集中随机选出一个参考样本X_a，再从与X_a属于同一身份的样本中选取一个与X_a最不相似的正样本X_p，再从与X_a不属于同一身份的样本中选取一个和X_a最相似的负样本X_n；

(2c)用参考样本X_a，正样本X_p，负样本X_n组成一个三元组形式的训练样本：

T_i＝(X_a，X_p，X_n)；

(2d)重复进行步骤(2b)和步骤(2c)，得到的所有三元组数据构成训练样本集：

D＝(T₁，T₂，…，T_i，…，T_N)，

其中N是训练样本的数量，1≤i≤N。

图3给出了一个三元组形式的训练样本图，图中中间的图片是参考样本，左边的图片是正样本，右边的图片是负样本。

步骤三，将训练样本集D输入到匹配卷积神经网络中进行训练，得到训练好的网络模型。

(3a)将三元组T_i中的图像

输入到构造好的匹配卷积神经网络中，分别得到三个特征向量

和

(3g)分别计算第一个特征向量

与第二个特征向量

之间的欧式距离

及第一个特征向量

与第三个特征向量

之间的欧式距离

(3f)计算损失函数L：

其中，N是训练样本的数量，公式右下角的+号表示：当

时，方括号内取值为其绝对值；当

时，方括号内取值为0；α是设置的间隔距离；

(3g)利用反向传播算法对损失函数L进行优化，得到训练好的匹配卷积神经网络。

步骤四，用户输入待查询的行人图片，将其作为参考样本，从已知数据库中取出两张行人图片，分别与用户输入的待查询行人图片组成三元组。

步骤五，将三元组输入到训练好的匹配卷积神经网络中，计算出待查询行人图片与从已知数据库中取出的两张行人图片之间的相似度。

(4a)分别计算第一个特征向量V_a与第二个特征向量V_p之间的欧式距离D_p，及第一个特征向量V_a与第三个特征向量V_n之间的欧式距离D_n：

(4b)由(4a)得到的欧式距离计算出待查询行人图片与从已知数据库中取出的两张行人图片之间的相似度：

S_p＝1-D_p

S_n＝1-D_n

步骤六，重复步骤四-步骤五的操作，每次从已知数据库中取出两张行人图片计算它们与待查询行人图片之间的相似度，直到数据库中的所有图片都取完。

步骤七，根据计算得到的相似度按照由大到小的顺序对已知数据库进行排序，将排序后的结果返回给用户，返回结果是对已知数据库排序后的序列图片，排在最前面的就是与用户输入的待查询行人图片最相似的图片，完成对行人的再识别。

本发明的效果可通过以下仿真进一步说明：

1.实验条件

采用目前行人再识别方面行人数量最多、识别难度最大的公开数据集CUHK-03对本发明进行仿真，该数据集共有1467个行人，其中的100个行人作为测试集，其余用作训练集。

2.实验方法

按照步骤一构建匹配卷积神经网络后，依次从包含100个行人的测试集中取出一张图片作为待查询行人图片，按照步骤四和步骤五得到每一张待查询行人图片的结果，画出累计匹配曲线图，如图4所示，图4中横坐标是排名，纵坐标是识别率。

从图4可见，本发明在监控摄像拍摄环境变化大、角度差异大、行人姿态多变的情况下能够取得较高的行人再识别准确率。

Claims

1.一种基于匹配卷积神经网络的行人再识别方法，包括：

(1)构建匹配卷积神经网络：

(1c)用第一层的三个特征图

构造出第一层的两个混合特征图，

其中，符号

表示是特征图对应位置的相加运算，

是第一层的第一个混合特征图，

是第一层的第二个混合特征图；

(1d)在第二层分别对第一层的三个特征图

分别对第一层得到的两个混合特征图

和

和

然后按下式构造出第二层的混合特征图

和

(1e)在第三层分别对第二层得到的三个特征图

分别对第二层得到的两个混合特征图

和

和

构造出第三层的混合特征图

和

其中，符号

表示特征图对应位置的相减运算；

(1f)在第四层对第三层得到的第一个特征图

进行卷积操作后得到第四层的第一个特征图

对第三层的两个混合特征图

和

和

(1g)在第五层中将第四层的三个特征图

和V_n进行全连接的权重与

和V_p进行全连接的权重相同；

(2)从视频监控网络系统中收集大量拍摄于不同场景、环境、光照、角度下的行人图片，对这些行人图片进行整理，并将这些行人图片组合成三元组数据T_i,按如下步骤进行：

(2a)将属于同一身份的行人图片归为一类，即将同一个人在不同时间或不同摄像头中的被拍摄到的图片作为一类；

T_i＝(X_a，X_p，X_n)，

1≤i≤N，N是训练样本的数量，再用这些三元组数据构成训练样本集：

D＝(T₁，T₂，…，T_i，…，T_N)；

2.根据权利要求1所述的方法，其中步骤(3)中将训练样本集D输入到匹配卷积神经网络中进行训练，按如下步骤进行：

(3a)将三元组T_i中的图像

和

(3g)分别计算第一个特征向量

与第二个特征向量

之间的欧式距离

及第一个特征向量

与第三个特征向量

之间的欧式距离

(3f)计算损失函数L：

其中，N是训练样本的数量，公式右下角的+号表示：当

时，方括号内取值为其绝对值；当

时，方括号内取值为0；α是设置的间隔距离；

3.根据权利要求1所述的方法，其中步骤(4)中将三元组输入到训练好的匹配卷积神经网络中，计算出待查询行人图片与从已知数据库中取出的两张行人图片之间的相似度，按以下步骤进行：

S_p＝1-D_p

S_n＝1-D_n。