CN111401286A

CN111401286A - 一种基于部件权重生成网络的行人检索方法

Info

Publication number: CN111401286A
Application number: CN202010211499.6A
Authority: CN
Inventors: 王中元; 黄宝金; 何政; 梁超
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2020-07-10
Anticipated expiration: 2040-03-24
Also published as: CN111401286B

Abstract

本发明公开了一种基于部件权重生成网络的行人检索方法，利用DenseNet基础骨架对目标行人和图片集进行特征表示，然后通过区域候选网络(RPN)生成行人候选区域，再利用后续的识别网络学习行人的检索特征，同时使用部件权重生成网络获得对应行人的部件权重，弱化行人信息量较小的部分以达到整体非平均化匹配的目的，最后通过交替训练方式优化部件权重生成网络和区域候选网络的参数，使得最终产生更精确的行人检索结果。本发明方法有效克服了现有行人检索方法在遮挡、弱光照场景下的不足，为复杂公共视频监控环境下的行人检索任务提供了可行手段。

Description

一种基于部件权重生成网络的行人检索方法

技术领域

本发明属于计算机视觉技术领域，涉及一种监控视频的行人检索方法，具体涉及一种基于部件权重生成网络的行人检索方法。

技术背景

传统的视频检索技术侧重于查询特定场景下的特定某类对象，而在视频监控场景下，往往由于摄像头视角的影响，会造成光照变化、遮挡等问题，使得整个检索过程变得十分困难。视频研究领域中，行人检测(Pedestrian Detection)、行人重识别(Person Re-ID)、目标跟踪(Object Track)等任务受到研究者广泛关注，行人检索过程结合了行人检测和行人重识别两项任务。行人重识别旨在对查询行人与人工剪裁的候选行人框之间的相似度进行排序，其应用的局限性在于实际场景中不存在经过剪裁的候选行人框；行人检测旨在对给定的图片集或视频帧中的行人进行检测，找出行人在像素坐标下的位置信息；行人检索旨在根据查询行人查找给定图片集或视频中同一行人的位置信息，整个过程只需给出被查询行人图片和原始监控图片集，分别通过行人检测和行人重识别的方法来完成整个行人检索任务。行人检索能够有效的帮助刑侦人员在海量监控视频中找出嫌疑目标，提高破案效率。

最初的行人检索方法是通过行人检测和行人重识别两个独立任务来完成，现成的行人检测器不可避免的会造成错检、漏检、错位等问题，这些都会对行人重识别的效果产生不利影响，进而影响最终检索的精度。自2014年以来，越来越多研究者开始关注端到端的行人检索框架，力求检测和重识别相互促进、相互优化，这已经成为行人检索的重要发展趋势。

发明内容

为了解决上述技术问题，本发明结合行人检测和行人重识别的思想，提供了一种基于部件权重生成网络的行人检索方法，本发明在端到端的行人检索网络中引入部件权重生成器，更加精确的从候选行人中识别出目标行人，达到行人检索目的。

本发明所采用的技术方案是：一种基于部件权重生成网络的行人检索方法，其特征在于，包括以下步骤：

步骤1：将原始图片集和目标行人图片通过DenseNet骨干网络和区域候选网络，提取出目标行人特征和候选行人特征，其中原始图片集来源于自然拍摄且非处理过的图片，目标行人图片取自于原始图片集并标注有行人的位置；

步骤2：将目标行人特征和候选行人特征输入识别网络进一步获取识别特征，然后将得到的行人识别特征通过部件权重生成网络，获得行人匹配的部件权重，加权度量后得到行人检索结果；

步骤3：采用余弦距离损失函数训练部件权重生成网络，采用改进的在线实例匹配损失函数训练整体的行人检索网络，其中行人检索网络表示整个端到端行人检索方法的全部网络，部件权重生成网络是其中的一部分并单独训练。

与现有的行人检索方法相比，本发明具有以下的优点与积极效果：

(1)本发明提出的是一种端到端的行人检索方法，有别于现有行人检索方法的识别模块，本发明采用部件权重生成网络细化特征度量，提高了检索精度。

(2)本发明针对了公共视频监控环境下普遍存在的遮挡、弱光照等复杂条件，具有很强的鲁棒性和实际应用价值。

附图说明

图1：本发明实施例的框图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施案例对本发明做进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

基于部件权重生成网络的行人检索方法是一种端到端的行人检索，首先，针对监控场景遮挡以及光照变化对行人检索带来的影响，建立能有效解决遮挡、光照变化等问题的部件权重生成网络；然后，基于改进的在线实例匹配行人检索方法，创建更有效的特征提取网络，设计端到端的基于部件权重生成网络的行人检索方法。

请见图1，本发明提供的一种基于部件权重生成网络的行人检索方法，包括以下步骤：

步骤1：将原始图片集和目标行人图片通过DenseNet骨干网络和区域候选网络，提取出目标行人特征和候选行人特征，其中原始图片集来源于自然拍摄且非处理过的图片，目标行人图片取自于原始图片集并标注有行人位置；

本实施例中，步骤1的具体实现包括以下子步骤：

步骤1.1：将目标行人图片和原始图片集图像输入到DenseNet-121网络block1到block3层中，对图像进行特征提取；假设输入的原始图片集图像大小为W×H，则通过DenseNet-121网络block1到block3层后得到

的特征图，其中N表示输入图片集大小，C表示特征提取后的图像通道数；

步骤1.2：将步骤1.1中获得的特征图通过一个3×3的卷积层，融合周围3×3的空间信息，生成张量为

的特征图；

步骤1.3：将步骤1.2中获得的特征图一部分通过一个1×1的卷积层生成

的得分张量，默认9个锚点框，即产生前景和背景总共18个得分；然后通过Reshape+Softmax+Reshape操作得到最终每个建议框的得分；另一部分通过一个1×1的卷积层生成

的预测框张量，9个锚点框，每个锚点框包括(x,y,w,h)，其中(x,y)代表建议框的左上角坐标，w,h代表建议框的宽和高，即得到36个位置信息；

步骤1.4：根据每个建议框的分数值并结合非极大抑制的方法提取出置信度高于阈值的候选框；

步骤1.5：最后利用ROI池化层从每个建议框的骨干特征映射到区域特征。

步骤2：将目标行人特征和候选行人特征输入识别网络进一步获取识别特征，然后将得到的行人识别特征通过部件权重生成网络，得到行人匹配的部件权重，加权度量后得到行人检索结果；

本实施例中，步骤2的具体实现包括以下子步骤：

步骤2.1：将步骤1得到大小均为7×7×2048的目标行人特征图和候选行人特征图输入到DenseNet-121网络block4和block5层中，得到目标行人和候选行人的识别特征图，然后分别按照行数为(1、2、3)，(3、4、5)，(5、6、7)的3个部分池化层和一个全局池化层生成8个2048维的特征向量，分别对应的是头部、身体、腿部、整体的特征；

步骤2.2：将步骤2.1中得到的8个2048维的特征向量拼接，得到一个8×2048的特征矩阵并拉直为一个16384维的特征向量；

步骤2.3：通过kernel＝1、out_channel＝256的卷积层和全连接层，得到4维的权值向量并使用Softmax归一化得到加和为1的实际权值W₀，W₁，W₂，W₃；

步骤2.4：用

分别表示行人i,j的第r部分特征，则整体相似度s(i,j)为：

其中，R是行人的部件数量，

表示特征之间的余弦相似度，w_r是行人第r个部件的权重；整体相似度即为目标行人图像和原始图片集图像加权度量后的行人检索结果。

本实施例中，步骤3的具体实现包括以下子步骤：

步骤3.1：采用余弦距离损失函数训练部件权重生成网络，给定一个行人样本对(i,j)，如果样本对属于同一个行人则标签y＝1，反之标签y＝-1；其中余弦距离损失函数为：

其中，α表示间隔超参数；

步骤3.2：采用改进的在线实例匹配损失函数训练整体的行人检索网络；

具体过程为，对于行人候选区域生成网络生成的每个候选区域的特征向量x，将其分成4个部分，即x₀,x₁,x₂,x₃，通过步骤2.3得出候选区域与所有标签实例之间的权重，构成权重库w，即通过

计算样本x与所有带标签实例之间的余弦相似度；其中，

表示带标签行人特征库的第m行，

表示权重库w的第m行，T表示矩阵转置；

在反向传播中，如果目标id为t，则通过v_t,i←γv_t,i+(1-γ)x_i来更新LUT中的第t行，其中，LUT表示行人特征库，v_t,i表示带标签行人特征库中第t行的第i个部件特征，γ表示(0,1)的超参数；

通过Softmax函数定义某个有标签实例的第m部分特征x_m被视为第i类行人的概率为：

其中，L表示带标签行人特征库的大小，Q表示无标签行人特征库的大小，

表示无标签行人特征库的第k行的第m个部件特征，

表示带标签行人特征库的第j行的第m个部件特征；

同样，在循环队列中，无标签实例的第m部分特征x_m被视为第i类无标签实例的概率为：

改进的在线实例匹配损失函数最终优化的目标是最大化期望似然函数：

其中，p_t,n表示某个有标签实例的第n部分特征被视为第t类行人的概率。

本发明利用DenseNet基础骨架对目标行人和图片集进行特征表示，然后通过区域候选网络(RPN)生成行人候选区域，再利用后续的识别网络得到行人的检索特征，同时使用部件权重生成网络得到对应行人的部件权重，弱化行人信息量较小的部分以达到整体非平均化匹配的目的，最后通过交替训练方式优化部件权重生成网络和区域候选网络的参数，使得最终产生更精确的行人检索结果。本发明方法有效克服了现有行人检索方法在遮挡、弱光照场景下效果差的缺陷，为复杂公共视频监控环境下的行人检索任务提供了新的思路。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。