CN107301380A

CN107301380A - 一种用于视频监控场景中行人重识别的方法

Info

Publication number: CN107301380A
Application number: CN201710403300.8A
Authority: CN
Inventors: 张见威; 邱隆庆; 林文钊
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2017-10-27

Abstract

本发明公开了一种用于视频监控场景中行人重识别的方法，通过如下步骤实现：S1、预训练FT‑FNN网络；S2、微调FT‑FNN网络；S3、提取训练图像深度特征和属性特征；S4、优化属性权重、S5、提取待识别图像属性特征；S6、提取行人库属性特征；S7、生成距离矩阵；S8、按序输出匹配图像。经过行人属性识别微调后的深度特征对行人重识别具有较强的区分能力；中层语义属性较低层纹理、颜色等视觉特征稳定，不易因光照、姿势的变化而产生较大变动；手动低层视觉特征的融入，能一定程度改善深度特征的区分能力，同时提高部分与颜色纹理紧密相关的中层属性的准确率。本发明结合了上述三者，在行人重识别领域取得了较好的准确率。

Description

一种用于视频监控场景中行人重识别的方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种用于视频监控场景中行人重识别的方法。

背景技术

行人重识别(Person Re-identification)起于多相机的目标追踪研究中，旨在从其他摄像机中找出特定目标人物。行人重识别技术主要应用于安防领域，随着近年来视频监控系统的普及，视频图像成倍增长，过去完全依靠人工甄别监控视频的侦察方式显得效率低下，因此发展由计算机从行人中检索匹配目标人物的行人重识别技术显得尤为迫切。

由于监控环境复杂不可控，行人姿势的变化等条件的限制，从视频监控系统中获取的行人图像往往质量较低，依靠人脸、虹膜等生物特征来解决行人重识别收到限制，因此当前绝大部分研究人员依靠颜色、纹理等整体外观特征实现行人重识别。然而由于监控视频的视角、光照、远近等变化，行人外观常常发生很大变化，这给行人重识别带来了巨大挑战。

在行人重识别研究的早期，用于研究的数据集较小(几十至数百人)，大量手工设计的特征涌现出来，如MSCR、BioCov等。这些特征大体可分为低层视觉特征和中层语义特征两类：低层视觉特征涵盖颜色直方图、纹理特征和局部特征等，中层语义特征指发型、外套类型、是否背包等。同时，也有一些研究集中在上述描述子之间的距离度量，诞生了KISSME、LMNN、XQDA等度量方法。后来随着深度学习的流行，数据集规模的增大，基于CNN(的学习模型自2014年底逐渐被引入到行人重识别领域中。这类方法避免了手工设计、选择特征，将颜色、纹理和度量学习融合在一个统一的框架里。

发明内容

本发明的目的是为了解决现有技术中的上述缺陷，提供一种结合深度学习特征与中层语义属性的用于视频监控场景中行人重识别的方法，该方法通过在FT-FNN网络中融入低层视觉特征特征、通过图像分类数据集预训练、行人属性数据集微调三大手段改善了深度特征的区别能力和属性识别的准确率。

本发明的目的可以通过采取如下技术方案达到：

一种用于视频监控场景中行人重识别的方法，所示方法包括下列步骤：

S1、预训练FT-FNN网络，将FT-FNN网络在ImageNet数据集上进行预训练，使FT-FNN网络获取理想的初始值；

S2、微调FT-FNN网络，将FT-FNN网络的输出层替换为节点与属性个数一致的全连接层，实现行人属性数据集微调，识别行人的包括中层语义属性在内的不同属性；

S3、提取训练图像深度特征和属性特征，将训练集图像输入到训练好的FT-FNN网络中，取其融合层的输出作为深度特征，输出层的输出作为属性特征；

S4、优化属性权重，利用随机梯度下降算法求解设计的目标函数，求得各属性的相对权重，得到权重向量；同时取得深度特征与属性特征的相对权重；

S5、提取待识别图像属性特征，将待识别图像输入到FT-FNN网络中，通过输出层与融合层的输出分别得到待识别图像的深度特征和属性特征；

S6、提取行人库属性特征，将行人库图像输入到FT-FNN网络中，通过输出层与融合层的输出分别得到待识别图像的深度特征和属性特征；

S7、生成距离矩阵，根据属性特征及权值，计算每一幅待识别图像与行人库中每一幅图像之间的距离，得到距离矩阵；

S8、按序输出匹配图像，将结果由近到远排序，并输出匹配图像。

进一步地，所述步骤S1预训练FT-FNN网络中，引入数据增强、dropout机制，将FT-FNN网络输出层节点调整为与数据集的物体类别个数一致之后，将FT-FNN网络在ImageNet数据集上进行预训练。

进一步地，所述步骤S2微调FT-FNN网络中，行人属性数据集微调通过加权交叉熵损失削弱属性不平衡的影响：

上式中G为属性组集合，N为该批次训练样本的数量，N_g为训练集中该组属性数量，为第i个样本在第g个组中具有第k个属性的样本数量，概率为Softmax函数应用于第g个属性组的FC8层的输出，记表示x_i的第k个输出，则该Softmax函数为

进一步地，所述步骤S4优化属性权重中以匹配行人的排序期望作为目标函数并使用梯度下降法优化，计算过程如下：

使用L1范数度量带匹配图片I_p与行人库图片I_g在属性空间的距离

d_w(I_p,I_g)＝w^T|A(x_p)-A(x_g)|

上式中w表示属性权重向量，x_p和x_g表示图片I_p和I_g的特征，

设计如下目标函数：

上式中P为带识别图像(probe)集合，G为行人库(gallery)图像集合，D_pp表示与G中匹配图像的距离，D_pg表示某p∈P与其不匹配图像g之间的距离，L_w为损失函数。w₀为正则偏置项，λ为调整经验风险正则项之间权重的系数，签字损失函数L_w定义如下：

初始时令各属性权重相等，采用梯度下降法求解目标函数最小值，求得较优的权重向量w。

进一步地，所述步骤S7生成距离矩阵中，计算P中各元素与G中各原始的距离d_w(I_p,I_g)，形成如下的距离矩阵

上式中每项表示一对图片(p,g)按加权L1范数计算的距离；

其中，距离d_w(I_p,I_g)采用对属性与低层特征之间按照各自度量方法分别求距离，再加权求和得到：

上式中L_l为低层特征集合，I_p,I_g为待匹配图像与行人库图像，w^L,w^A分别为属性的权重和低层特征的权重。

进一步地，所述步骤S8按序输出匹配图像中，对p∈P，查找矩阵中p所在行，将距离升序排列，输出对于行人库图像g。

本发明公开的上述用于视频监控场景中行人重识别的方法可以的运用场景包括但不限于下述举例：

(1)、视频监控网络中的行人监控。在视频监控网络中，判断无重叠视域中检测到的行人是否为同一人，解决多摄像机跟踪领域无重叠视域的目标交接问题。

(2)、基于历史资料的行人检索。如在锁定某一犯罪嫌疑人后，在视频监控网络录像中找出其出现的其他地点。

本发明相对于现有技术具有如下的优点及效果：

(1)本文采用在大数据集上预训练网络，再在较小数据集上微调的训练方式，能避免网络陷入不佳的局部最优值，使得属性识别的准确率较高。

(2)借助深度网络优异的表达能力，颜色、纹理、空间结构等信息通过卷积网络自动习得，较手工设计描述子、进行属性分类简便、高效。

(3)优化属性权值，使部分判断不准确、易干扰识别结果的权重降低，判断准确、区分度较高。

(4)中层语义属性较低层纹理、颜色等视觉特征稳定，不易因光照、姿势的变化而产生较大变动。

(5)FT-FFN网络的输入包含手工提取的低层特征，实验证明一定手工低层特征的融入对高属性识别准确率和深度特征的判别力均有帮助。

附图说明

图1是本发明公开的一种用于视频监控场景中行人重识别的方法流程图；

图2是本发明中用于提取深度特征，同时获取语义属性特征的卷积网络示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如附图所示，图1为应用本文方法进行行人重识别的整体流程。其中本发明涉及的关键步骤为训练CNN网络及优化属性权重，属性特征的计算等，距离矩阵的计算及按序输出为行人重识别应用共有步骤。

图2为本文用于提取深度特征，同时获取语义属性特征的卷积网络，称为FT-FNN(Fine-Tuning Feature Fusion Net)。图中上半部分为Alex网络，下半部分为一手工提取的特征ELF16，两者在第七个全连接层融合。网络层的输出层节点个数与拟识别属性个数一致。

如附图1中所示，本实施例中一种用于视频监控场景中行人重识别的方法，通过如下步骤实现：

S2、微调FT-FNN网络，将FT-FNN网络的输出层替换为节点与属性个数一致的全连接层，用于识别行人的包括中层语义属性在内的不同属性；

S4、优化属性权重，利用随机梯度下降算法求解设计的目标函数，求得各属性的相对权重，得到权重向量；同时取得深度特征与属性特征的相对权重。

上述技术方案中，所述步骤S1中预训练卷积神经是在千万级图片分类数据集上进行训练，识别图片类别。预训练使得FT-FNN网络前几层能学习到图像中含有的颜色、纹理、形状特征，整个网络获得较好的初值。

本实施例引入数据增强、dropout等机制，首先将FT-FNN网络输出层节点调整为与数据集的物体类别个数一致，在ImageNet 2012数据集(包含上千万带物品类别标注的图片)上训练本文提出的FT-FNN网络。

所述步骤S2中将经过预训练网络的输出层替换，在行人属性数据集上训练，微调整个网络的权值，使网络能识别行人的性别、衣着等属性。

如图2所示，将训练好的FT-FFN输出层替换为与属性数目一致的全连接层，在行人属性数据集上训练FT-FFN网络。假定属性之间存在分组，使得组内仅有一个属性为正，例如性别组中的性别男与性别女。为减少样本属性不平衡的影响，FT-FFN网络中行人属性数据集微调使用如下的加权交叉熵loss函数

上式中G为属性组集合，N_g为训练集中改组属性数量，为第i个样本在第g个组中具有第k个属性的样本数量。概率为Softmax函数应用于第g个属性组的FC8层的输出。记表示x_i的第k个输出，则该Softmax函数为

所述步骤S3中将训练集图像输入到训练好的FT-FNN网络中，取其融合层的输出作为深度特征，输出层的输出作为属性特征。

具体地，将包含若干将已标定行人身份的训练集图片输入到FT-FNN网络，将第七个全连接层(即图2中低层特征与Alex网络的融合层)输出，即为深度特征；将输出层的输出保存，即为属性特征。

所述步骤S4中利用随机梯度下降算法求解设计的目标函数，求得各属性的相对权重，得到权重向量；同时取得深度特征与属性特征的相对权重。

本文采用对属性与低层特征(Low-level feature)之间按照各自度量方法分别求距离，再加权求和得到：

属性空间的距离定义如下：

上式中w表示属性权重向量，x_p和x_g表示图片I_p和I_g的特征。设计如下目标函数

上式中P为待识别图像(probe)集合，G为行人库(gallery)图像集合，D_pp表示与G中匹配图像的距离，D_pg表示某p∈P与其不匹配图像g之间的距离。L_w为损失函数。w₀为正则偏置项，λ为调整经验风险正则项之间权重的系数。本发明定义的损失函数L_w如下

初始时令各属性权重相等，采用梯度下降法求解目标函数最小值，求得较优的权重w^A。

使用同样方法求得属性与特征向量的相对权重w^L。

所述步骤S5和步骤S6中将待匹配图像与行人库图像输入到FT-FNN网络中，通过输出层与融合层的输出得到深度特征和属性特征。

其中，提取待匹配图像的属性特征：

对所有p∈P，利用步骤S4调整的网络参数W，前向传播得到属性特征

A(I_p)＝h_W,b(I_p) (7)

将第七层的全连接层输出，得到深度特征

D(I_p)＝h′_W,b(I_p) (8)

其中，提取行人库属性特征

对所有g∈G，利用步骤S4调整的网络参数W，前向传播得到属性特征

A(I_g)＝h_W,b(I_g) (9)

将第七层的全连接层输出，得到深度特征

D(I_g)＝h′_W,b(I_g)(10)

所述步骤S7和步骤S8中根据属性特征及权值，计算每一幅待匹配图像与行人库中每一幅图像之间的距离，将结果由近到远排序。

其中，生成距离矩阵

按(3)式计算P中各元素与G中各原始的距离d_w(I_p,I_g)，形成如下的距离矩阵

上式中每项表示一对图片(p,g)按加权L1范数计算的距离。

其中，按序输出匹配图像

对p∈P，查找矩阵中p所在行，将距离升序排列，输出对于行人库图

像g，即可用于辅助检索犯罪嫌疑人等应用。

综上所述，本发明使用自定义的FT-FNN网络提取行人图片的深度特征和属性特征。首先将FT-FNN网络在ImageNet数据集上进行预训练，使网络具有较好的初始值。然后将FT-FNN网络的输出层替换为节点与属性个数一致的全连接层，用于识别行人的不同属性。在行人属性数据集上微调网络，令网络学习判别行人的性别、年龄等语义属性。最后通过构造与正确匹配图像排序相关的目标函数，并通过梯度下降法求解，优化不同语义属性在计算行人图像间距离的作用，以及深度特征与属性特征的相对权重。通过识别行人属性对网络进行微调，能较大程度改善深度特征的区别能力；行人的语义属性一般不会随着光照、姿势、视角而变化，同时深度神经网络能大大提高行人语义属性判断的准确性，因此本发明能取得较好的效果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种用于视频监控场景中行人重识别的方法，其特征在于，所示方法包括下列步骤：

2.根据权利要求1所述的一种用于视频监控场景中行人重识别的方法，其特征在于，所述步骤S1预训练FT-FNN网络中，引入数据增强、dropout机制，将FT-FNN网络输出层节点调整为与数据集的物体类别个数一致之后，将FT-FNN网络在ImageNet数据集上进行预训练。

3.根据权利要求1所述的一种用于视频监控场景中行人重识别的方法，其特征在于，所述步骤S2微调FT-FNN网络中，行人属性数据集微调通过加权交叉熵损失削弱属性不平衡的影响：

<mrow> <msup> <mi>L</mi> <mi>g</mi> </msup> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>g</mi> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <msup> <mi>K</mi> <mi>g</mi> </msup> </munderover> <mfrac> <mrow> <msubsup> <mi>l</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> <mi>g</mi> </msubsup> <msubsup> <mi>logp</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> <mi>g</mi> </msubsup> </mrow> <msubsup> <mi>N</mi> <mrow> <mi>k</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mi>g</mi> </msubsup> </mfrac> <mo>,</mo> <mi>g</mi> <mo>&Element;</mo> <mi>G</mi> </mrow>

<mrow> <msubsup> <mi>p</mi> <mi>k</mi> <mi>g</mi> </msubsup> <mo>=</mo> <mfrac> <msup> <mi>e</mi> <msubsup> <mi>o</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> <mi>g</mi> </msubsup> </msup> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <msup> <mi>k</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>K</mi> <mrow> <mo>(</mo> <mi>g</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <msup> <mi>e</mi> <msubsup> <mi>o</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> <mi>g</mi> </msubsup> </msup> </mrow> </mfrac> <mo>.</mo> </mrow>

4.根据权利要求1所述的一种用于视频监控场景中行人重识别的方法，其特征在于，所述步骤S4优化属性权重中以匹配行人的排序期望作为目标函数并使用梯度下降法优化，计算过程如下：

d_w(I_p,I_g)＝w^T|A(x_p)-A(x_g)|

上式中w表示属性权重向量，x_p和x_g表示图片I_p和I_g的特征，

设计如下目标函数：

<mrow> <mi>E</mi> <mi>R</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <mi>P</mi> <mo>|</mo> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mi>g</mi> <mo>&Element;</mo> <mi>G</mi> </mrow> </munder> <msub> <mi>L</mi> <mi>w</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mrow> <mi>p</mi> <mi>p</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>D</mi> <mrow> <mi>p</mi> <mi>g</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>-</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mo>|</mo> <mo>|</mo> </mrow>

5.根据权利要求4所述的一种用于视频监控场景中行人重识别的方法，其特征在于，所述步骤S7生成距离矩阵中，计算P中各元素与G中各原始的距离d_w(I_p,I_g)，形成如下的距离矩阵

上式中每项表示一对图片(p,g)按加权L1范数计算的距离；

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>d</mi> <mrow> <msup> <mi>w</mi> <mi>L</mi> </msup> <mo>,</mo> <msup> <mi>w</mi> <mi>A</mi> </msup> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>I</mi> <mi>g</mi> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msub> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>&Element;</mo> <mi>L</mi> <mi>L</mi> </mrow> </msub> <msubsup> <mi>w</mi> <mi>l</mi> <mi>L</mi> </msubsup> <msubsup> <mi>d</mi> <mi>l</mi> <mi>L</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mn>1</mn> </msub> <mo>(</mo> <msub> <mi>I</mi> <mi>p</mi> </msub> <mo>)</mo> <mo>,</mo> <msub> <mi>L</mi> <mi>l</mi> </msub> <mn>1</mn> <mo>(</mo> <msub> <mi>I</mi> <mi>p</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <msubsup> <mi>d</mi> <msup> <mi>w</mi> <mi>A</mi> </msup> <mi>A</mi> </msubsup> <mrow> <mo>(</mo> <mi>A</mi> <mo>(</mo> <mrow> <mi>I</mi> <mi>p</mi> </mrow> <mo>)</mo> <mo>,</mo> <mi>A</mi> <mo>(</mo> <mrow> <mi>I</mi> <mi>g</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

6.根据权利要求5所述的一种用于视频监控场景中行人重识别的方法，其特征在于，所述步骤S8按序输出匹配图像中，对p∈P，查找矩阵中p所在行，将距离升序排列，输出对于行人库图像g。