CN110781350B

CN110781350B - 一种面向全画面监控场景的行人检索方法及系统

Info

Publication number: CN110781350B
Application number: CN201910915717.1A
Authority: CN
Inventors: 梁超; 胡必成; 王晓; 焦黎; 白云鹏; 叶力果; 鲁铮
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2022-07-22
Anticipated expiration: 2039-09-26
Also published as: CN110781350A

Abstract

本发明公开了一种面向全画面监控场景的行人检索方法及系统，通过卷积神经网络对关键视频帧图片和指定查询行人图片进行初步特征提取；在区域建议网络中引入空间变换器来生成行人候选区域；对行人候选区域和指定查询行人图片进行局部特征提取；计算各个行人候选区域与指定查询行人的特征相似度，得到最高相似度的行人候选区域，若相似度大于某一阈值，则判定该区域中的行人在当前视频帧中为目标行人。该方法能够有效地缓解监控场景中存在的尺度不一、视角变化等空间变换对重识别的影响，并且通过局部特征匹配能进一步提升算法鲁棒性；能够实现对全景的监控视频画面进行自动的行人检索，满足实际应用场景需求，对现代视频侦查工作有着重要意义。

Description

一种面向全画面监控场景的行人检索方法及系统

技术领域

本发明涉及监控视频检索领域，尤其涉及一种面向全画面监控场景的行人检索方法及系统。

背景技术

在跨摄像头无重叠区域对指定行人进行匹配的技术称为行人检索。当前的行人检索(又称行人重识别)技术主要包括对待查询行人图片和手工裁剪好的行人图库进行特征提取，以及通过距离度量的方式来对行人图库中的行人进行排序。但在实际视频侦查中，理想的方式是在全画面视频中对目标行人进行自动地检索，即将行人检测和行人重识别结合起来，形成一个端到端的行人检索想系统。面向全画面监控场景的行人检索方法及系统对现代警务工作提高工作效率具有重要意义。

随着深度学习在计算机视觉领域的火速发展，行人检索领域的研究人员也开始将深度学习运用其中。2017年，文献1(参见：Tong Xiao,Shuang Li,Boch ao Wang,LiangLin,Xiaogang Wang.“Joint Detection and Identification Featur e Learning forPerson Search”,IEEE Conference on Computer Vision and Patter n Recognition(CVPR),PP.3415–3424,2017.)提出了第一个基于深度学习的端到端行人检索网络，通过联合检测和识别一起进行特征学习来完成面向全画面的行人检索任务。但在监控场景中，该方法仍存在以下问题：1)监控场景中往往伴随着尺度不一、视角变化等空间变换问题，而卷积神经网络不具备空间不变性；2)在识别网络中采用全局匹配的方式，识别性能一般。

发明内容

本发明旨在至少在一定程度上解决上诉背景技术存在的问题，提出了一种面向全画面监控场景的行人检索方法，提高在监控场景下的行人检索准确率。

为达到上诉目的，本发明采用如下技术方案：一种面向全画监控场景的行人检索方法，包括以下步骤：

步骤1，对于给定的待检索视频关键帧和手动裁剪的查询行人图片，分别通过特征提取基础网络进行初步特征提取，记关键帧通过特征提取输出的基础特征图为B；

步骤2，对基础特征图B通过行人区域建议网络PRPN，Person Region ProposalsNetworks生成固定数目的行人候选区域U；

步骤3，对查询行人图片进行局部特征提取，对行人候选区域进行双通道特征提取，包括全局特征和局部特征，其中提取的全局特征用于进一步分类和回归，分别获得行人候选区域对应的分类信息和行人候选区域的位置信息，提取的局部特征用于对行人候选区域与查询行人图片通过局部匹配的方式进行相似度计算，通过欧式距离直接计算相似度；

步骤4，如果最大相似度大于设定阈值，一般设置为0.5，则将最大相似度的行人候选区域标记为目标行人，结合其分类信息和位置信息输出最终的检索结果。

进一步的，步骤1中的特征提取基础网络为ResNet50的conv1层到conv4_3层，包含卷积层、最大值池化层以及激活函数层。

进一步的，步骤2的具体实现方式如下，

步骤2.1，利用先验知识选取一系列不同尺寸和比例的k个先验框anchor；

步骤2.2，对于输入基础特征图B的每个像素点，根据anchor产生k个候选区域；

步骤2.3，使用分类器对所有行人候选区域进行分类，判断其属于行人还是背景，最后通过非极大值抑制保留128个属于行人的候选区域。

进一步的，步骤3中对查询行人图片进行局部特征提取，对行人候选区域进行双通道特征提取的具体实习方式如下，

步骤3.1，利用行人候选区域特征图U通过空间变换器产生用于进行仿射变换的系数θ_i,j，并组成仿射变换矩阵A_θ；

步骤3.2，在空间变换器中，以采样网格G的某一点坐标

为自变量，A_θ为参数矩阵，通过参数化采样得到输入特征图U对应的坐标

步骤3.3，根据行人候选区域特征图U和采样网格映射到U上的区域，采用线性插值的方式得到对应的输出特征图V；

步骤3.4，构建全局特征网络和局部特征网络，其中全局特征网络采用Fast R-CNN架构，最后通过2个全连接层输出2个固定维度的向量；局部特征网络采用多个全局平均池化层和卷积层，得到多个固定维度的特征向量；

步骤3.5，对步骤3.5构建的全局特征网络和局部特征网络进行训练；

步骤3.6，利用训练好的局部特征网络对查询行人图片和输出特征图V进行局部特征提取，利用训练好的全局特征网络对输出特征图V进行全局特征提取。

进一步的，步骤3.2的具体实现方式如下，

对于每个行人候选区域，将对应的仿射变换参数θ_i,j作为采样网格的参数，对于采样网格的第i个点G_i，通过参数化采样得到输入特征图U对应的坐标，如下式所示：

其中，

表示采样网格G的第i个像素点的坐标，

表示输入特征图U对应的坐标。

进一步的，步骤3.3的具体实现方式如下，

根据行人候选区域特征图U和以及采样网格在U上的对应坐标

采用线性插值的方式的到输出特征图V，如下式所示：

其中，

是输入特征图第c个通道上的点(n,m)的灰度值，

是输出特征图上第c个通道上对应点的灰度值，C为1024，表示输入特征图通道数；H和W表示U的长和宽，H′和W′表示V的长和宽；Φ_x和Φ_y是一个具体的采样核参数，定义了输入与输出特征图的重要关系，利用双线性插值将上式简化为：

进一步的，步骤3.4中，全局特征网络的损失函数如下：

L(p,u,t^u,u)＝L_cls(p,u)+λ[u＝1]L_loc(t^u,v)

其中，L_cls表示分类损失，L_loc表示候选区位置回归损失，p表示当前候选区域属于行人或背景的概率，u表示当前候选区域所属类别，u为0时当前候选区域属于背景，u为1时当前候选区域为行人；L_loc表示回归损失，t^u表示预测的类别为u的候选区域的坐标信息，v为ground truth的坐标信息；λ为损失函数中的超参数，[u＝1]表示当u为1时值为1，否则为0。

进一步的，步骤3.5中，局部特征网络通过对6×D维向量进行在线实例匹配训练，具体过程如下：

创建6个用于储存有id实例的局部特征的查找表

其中i∈(0,1,…,5)，表示第i个部件，L表示训练集中行人id个数，D表示行人候选区域特征向量维度；对于无id实例，创建6个循环队列

其中，Q表示自定义的循环队列长度；

在前向传播时，对于mini-batch中每个行人候选区域的第i个部件特征向量x_i，计算其与第i个查找表中所有有id实例的余弦相似度，即

T表示转置；

在反向传播时，如果目标id为t，则用以下公式来更新第i个部件的第t列：

v_i,t←γv_i,t+(1-γ)x_i

其中，v_i,t表示查找表中第i个部件特征，γ为调整参数；通过Softmax函数来定义某个有id实例的第i个部件特征向量x_i被视为第t类行人的概率为：

其中，

表示查找表中标注身份id的特征，

表示查找表中没有标注身份id的特征；同样，特征向量x_i被判别为在循环队列中第t个无id实例的概率为：

其中，

表示循环列队中第j个无标注身份id的部件特征；

表示循环列队中第t个无标注身份id的部件特征；

表示循环列队中第k个无标注身份id的部件特征；

基于局部特征网络损失函数最终优化的目标是使得期望似然函数最大化：

为达到上述目的，本发明还提出了一种面向全画面监控场景的行人检索系统，包括：

初步特征提取模块，对于给定的待检索视频关键帧和手动裁剪的查询行人图片，分别通过特征提取基础网络进行初步特征提取，记关键帧通过特征提取输出的基础特征图为B；

行人候选区域生成模块，用于对基础特征图B通过行人区域建议网络PRPN，PersonRegion Proposals Networks生成固定数目的行人候选区域U；

全局特征和局部特征提取模块，对查询行人图片进行局部特征提取，对行人候选区域进行双通道特征提取，包括全局特征和局部特征，其中提取的全局特征用于进一步分类和回归，分别获得行人候选区域对应的分类信息和行人候选区域的位置信息，提取的局部特征用于对行人候选区域与查询行人图片通过局部匹配的方式进行相似度计算，通过欧式距离直接计算相似度；

检索结果输出模块，如果最大相似度大于设定阈值，则将最大相似度的行人候选区域标记为目标行人，结合其分类信息和位置信息输出最终的检索结果。

本发明实施例的面向全画面监控场景的行人检索系统，通过背景建模技术剔除冗余信息，提取待检索视频关键帧，然后通过端到端的行人检索网络可以自动地在全画面关键帧中检测出所有行人区域，并对其进行行人重识别，判断该视频帧是否存在目标行人。本发明实施例能针对监控场景缓解了视角变化带来的影响，并通过双通道特征提取，局部匹配的方式进一步提高了行人检索准确率，能够高效地完成现代警务工作中视频侦查任务。

与现有技术相比，本发明具有如下特点：

1)在行人候选区域网络中引入空间变换器，能够缓解空间变换带来的影响；

2)采用双通道特征提取，对于行人识别部分，采用局部匹配的方式，提高算法鲁棒性。

附图说明

本发明上述的方面和优点结合附图对实施例的描述将变得更加明显和容易理解，其中：

图1为本发明实施例的面向全画面监控场景的行人检索方法流程图。

具体实施方式

下面结合附图对本发明的实施例做详细说明：

参照图1所示，一种面向全画面监控场景的行人检索方法，包括以下步骤：

第一步，对于提取好的待检索视频关键帧K和手动裁剪的查询行人图片，按比例缩放到固定尺寸，利用ResNet50的conv1到conv4_3层进行初步特征提取得到特征图B，输出的基础特征图B大小为网络输入尺寸的1/16。

第二步，将B送入PRPN产生固定数目的行人候选区域。

具体步骤为：

2.1.利用先验知识选取一系列不同尺寸和比例的k个先验框anchor；

2.2.对于输入特征图B的每个像素点，根据anchor产生k个候选区域；

2.3.使用分类器对所有行人候选区域进行分类，判断其属于行人还是背景，最后通过非极大值抑制保留128个属于行人的候选区域；

第三步，对查询行人图片进行局部特征提取，对128个行人候选区域特征图U进行双通道特征提取，包括全局特征和局部特征，其中提取的全局特征用于进一步分类和回归，分别获得行人候选区域对应的分类信息和行人候选区域的位置信息，提取的局部特征用于对行人候选区域与查询行人图片通过局部匹配的方式进行相似度计算，其中相似度通过欧式距离直接计算；其中，全局特征网络通过两个全连接层输出2维和8维向量，分别表示分类信息和行人候选区域位置信息；局部特征网络通过6个全局平均池化层进行局部特征提取，然后通过6个1×1卷积层输出6×D维向量。

步骤3.1，针对行人候选区域特征图U，通过空间变换器的本地网络产生用于进行仿射变换的系数θ_i,j，组成仿射变换矩阵A_θ。

步骤3.2，在空间变换器中，以采样网格G的第i个点坐标

为自变量，A_θ为参数矩阵，得到输入特征图U对应的坐标

即可以通过参数化采样网格τ_θ(G_i)映射得到原始特征图U对应的行人区域。

步骤3.3，对于每个行人候选区域的原始特征图U，结合通过参数化采样网格映射得到对应的行人区域，采用线性插值的方式输出对应的特征图V，如下式所示：

其中，

表示原始特征图第c个通道上的点(n,m)的灰度值，

是输出特征图上第c个通道上对应点的灰度值，C为1024，表示输入特征图通道数；H和W分别表示U的长和宽，H′和W′分别表示V的长和宽，与采样网格一致，分别为24和8，即输出特征图V的维度为1024×24×8，V的尺寸大小由采样网格决定；Φ_x和Φ_y是一个具体的采样核参数，定义了输入与输出特征图的重要关系。理论上我们可以采用任意一种采样核，在本发明中采用的是双线性插值，并用一种更简洁的形式来表示，公式如下：

其中，全局特征网络的损失函数如下：

L(p,u,t^u,u)＝L_cls(p,u)+λ[u＝1]L_loc(t^u,v)

其中，L_cls表示分类损失，L_loc表示候选区位置回归损失，p表示当前候选区域属于行人或背景的概率，u表示当前候选区域所属类别，u为0时当前候选区域属于背景，u为1时当前候选区域为行人；L_loc表示回归损失，t^u表示预测的类别为u的候选区域的坐标信息，v为ground truth的坐标信息(为已知信息)；λ为损失函数中的超参数，[u＝1]表示当u为1时值为1，否则为0。

步骤3.5，对步骤3.4构建的全局特征网络和局部特征网络进行训练；

局部特征网络通过对6×D维向量进行在线实例匹配训练，具体过程如下：

创建6个用于储存有id实例的局部特征的查找表

其中i∈(0,1,…,5)，表示第i个部件，L表示训练集中行人id个数，本实施例中训练集为数据集CUHK-SYS，其中，D表示行人候选区域特征向量维度；对于无id实例，创建6个循环队列

其中，Q表示自定义的循环队列长度。

在前向传播时，对于mini-batch中每个行人候选区域的第i个部件的特征向量x_i，由于训练数据较多，图像中的行人大多被标注行人框，一部分被标注身份id；计算其与第i个查找表中所有有id实例的余弦相似度，即

T表示转置。

v_i,t←γv_i,t+(1-γ)x_i

其中，v_i,t表示查找表中第i个部件特征，γ为调整参数；通过Softmax函数来定义某个有id实例的第i个部件特征x_i被视为第t类行人的概率为：

其中，

表示查找表中标注身份id的特征，

其中，

表示循环列队中第j个无标注身份id的部件特征；

表示循环列队中第t个无标注身份id的部件特征；

表示循环列队中第k个无标注身份id的部件特征；

基于局部匹配的行人识别损失函数最终优化的目标是使得期望似然函数最大化：

其次，根据本发明实施例提出面向全画面监控场景的行人检索系统，包括：

行人候选区域生成模块，用于对基础特征图B通过行人区域建议网络PRP N，Person Region Proposals Networks生成固定数目的行人候选区域U；

进一步地，系统中各模块的具体实现与面向全画面监控场景地行人检索方法的各步骤相应，本发明不做赘述。

本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明技术领域的技术人员可以对所描述的具体实施例做各种各样的修改补充或者采用类似的方式替代，但并不会偏离本发明精神或者超越所附权利要求书所定义的范围。

Claims

1.一种面向全画面监控场景的行人检索方法，其特征在于，包含以下步骤：

步骤2，对基础特征图B通过行人区域建议网络PRPN，即Person Region ProposalsNetworks生成固定数目的行人候选区域U；

步骤3中对查询行人图片进行局部特征提取，对行人候选区域进行双通道特征提取的具体实现方式如下，

步骤3.1，利用行人候选区域特征图U通过空间变换器产生用于进行仿射变换的系数θ_a，b，并组成仿射变换矩阵A_θ；

步骤3.2，在空间变换器中，以采样网格G的某一点坐标

步骤3.6，利用训练好的局部特征网络对查询行人图片和输出特征图V进行局部特征提取，利用训练好的全局特征网络对输出特征图V进行全局特征提取；步骤4，如果最大相似度大于设定阈值，则将最大相似度的行人候选区域标记为目标行人，结合其分类信息和位置信息输出最终的检索结果。

2.如权利要求1所述的一种面向全画面监控场景的行人检索方法，其特征在于：步骤1中的特征提取基础网络为ResNet50的conv1层到conv4_3层，包含卷积层、最大值池化层以及激活函数层。

3.如权利要求1所述的一种面向全画面监控场景的行人检索方法，其特征在于：步骤2的具体实现方式如下，

4.如权利要求1所述的一种面向全画面监控场景的行人检索方法，其特征在于：步骤3.2的具体实现方式如下，

对于每个行人候选区域，将对应的仿射变换参数θ_a，b作为采样网格的参数，对于采样网格的第i′个点G_i′，通过参数化采样得到输入特征图U对应的坐标，如下式所示：

其中，

表示采样网格G的第i′个像素点的坐标，

表示输入特征图U对应的坐标。

5.权利要求1的一种面向全画面监控场景的行人检索方法，其特征在于：步骤3.3的具体实现方式如下，

根据行人候选区域特征图U和采样网格在U上的对应坐标

采用线性插值的方式的到输出特征图V，如下式所示：

其中，

是输入特征图第c个通道上的点(n，m)的灰度值，

6.如权利要求1所述的一种面向全画面监控场景的行人检索方法，其特征在于：步骤3.4中，全局特征网络的损失函数如下：

L(p，u，t^u，u)＝L_cls(p，u)+λ[u＝1]L_loc(t^u，v)

7.如权利要求1所述的一种面向全画面监控场景的行人检索方法，其特征在于：步骤3.5中，局部特征网络通过对6×D维向量进行在线实例匹配训练，具体过程如下：

创建6个用于储存有id实例的局部特征的查找表

其中i∈(0，1，…，5)，表示第i个部件，L表示训练集中行人id个数，D表示行人候选区域特征向量维度；对于无id实例，创建6个循环队列

其中，Q表示自定义的循环队列长度；

T表示转置；

v_i，t←γv_i，t+(1-γ)x_i

其中，v_i，t表示查找表中第i个部件特征，γ为调整参数；通过Softmax函数来定义某个有id实例的第i个部件特征向量x_i被视为第t类行人的概率为：

其中，

表示查找表中标注身份id的特征，

其中，

表示循环列队中第j个无标注身份id的部件特征；

表示循环列队中第t个无标注身份id的部件特征；

表示循环列队中第k个无标注身份id的部件特征；

8.一种用于实现权利要求1-7任一所述的面向全画面监控场景的行人检索方法的系统，其特征在于，包括如下模块：

行人候选区域生成模块，用于对基础特征图B通过行人区域建议网络PRP N，即PersonRegion Proposals Networks生成固定数目的行人候选区域U；

对查询行人图片进行局部特征提取，对行人候选区域进行双通道特征提取的具体实现方式如下，

步骤3.2，在空间变换器中，以采样网格G的某一点坐标

步骤3.6，利用训练好的局部特征网络对查询行人图片和输出特征图V进行局部特征提取，利用训练好的全局特征网络对输出特征图V进行全局特征提取；检索结果输出模块，如果最大相似度大于设定阈值，则将最大相似度的行人候选区域标记为目标行人，结合其分类信息和位置信息输出最终的检索结果。