CN112241682A

CN112241682A - 一种基于分块以及多层信息融合的端到端行人搜索方法

Info

Publication number: CN112241682A
Application number: CN202010970031.5A
Authority: CN
Inventors: 赵才荣; 陈至成; 卫志华
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2021-01-19
Anticipated expiration: 2040-09-14
Also published as: CN112241682B

Abstract

本发明涉及计算机视觉领域，采用深度学习框架，提出了一种基于分块以及多层信息融合的端到端行人搜索方法。本方法包括：1)使用监控摄像机所拍摄的整幅画面作为数据输入；2)使用卷积神经网络提取初步的特征，随后使用候选区域提取网络提取可能存在行人的候选区域；3)对上述候选区域的特征进行池化并使用另一卷积神经网络提取用于行人识别的特征，将特征进行分块进行处理，与网络的中层特征进行特征融合，最后使用在线实例匹配损失训练网络；4)将测试图像输入网络，网络输出图像中的行人位置及对应特征，最后将行人检测结果以及与待查找行人的相似度标注在图像上。此算法相比现有方法具有更加准确、鲁棒性好的特点。

Description

一种基于分块以及多层信息融合的端到端行人搜索方法

技术领域

本发明属于计算机视觉中的图像检索领域，采用深度学习框架，更具体地，本发明涉及一种基于分块以及多层信息融合的端到端行人搜索方法。

背景技术

数以万计的视频监控设备正在源源不断的部署到我们日常的生活中，组成一个庞大的视频监控网络。面对海量的数据，如何对这些数据进行分析以及使用成了人们不得不面对的问题。传统的，也是现在使用范围较广的人工的监视或是检索的方式明显是低效且将耗费大量的人力以及财力。

由于监控视频画面的特殊性，使用现有人脸识别的方式并不能够很好地解决该场景下的需求。行人重识别以及行人搜索是解决该问题的一个研究方向，其旨在通过利用行人的体型，衣着等特征，建立起不同监控画面之间的联系，从而完成跨摄像头的行人的识别以及检索。不同的是，行人搜索将检测以及识别的工作合融合在一起，使用完整的摄像头画面作为输入。将检测以及识别两个部分共同进行优化能够获得更好效果，此外，这样也更加贴近于实际的落地环境。行人搜索是对进行海量监控视频检索分析的重要组成部分，在最近几年引起了众多研究学者的关注。

专利CN 109635686A提出了一种结合人脸与外观的两阶段行人搜索方法，本发明通过基于的卷积神经网络将人脸与行人再识别联合起来搜索目标行人。但是该方法只考虑了使用多种途径进行目标的识别，并没有涉及和优化行人的检测部分，因此可能在使用现有检测器的过程中丢失部分有鉴别力的信息，造成性能的下滑。此外，由于缺少对与目标检测部分的优化，该方法的相关性能可能会收到限制。

专利CN 108280411A提出了一种具有空间变换能力的行人搜索算法。使用端到端的神经网络模型进行行人的检测以及特征提取和匹配，该方法的优点是使用空间变换对画面中歪斜以及受到遮挡的行人进行了一定程度的修正。但是，该方法没有考虑对与行人的不同部位分别进行处理，使得性能受到了一定程度的限制。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于分块以及多层信息融合的端到端行人搜索方法，从而使得行人的特征表示更加鲁棒，从而在行人检索任务上获得更好的效果。

本发明的目的可以通过以下技术方案来实现：

一种基于分块以及多层信息融合的端到端行人搜索方法，其特征在于，包括以下步骤：

1)选取场景图像样本，对于图像中的行人的边界位置以及身份信息进行标注；

2)将预训练的卷积神经分为前后两个部分，分别作为主干网络(BackboneNetwork)以及识别网络(IDNet)；将预处理之后的图像通过Backbone Network，得到用于候选区域提取的特征图谱；

3)使用候选区域提取网络(RPN)提取可能存在行人的候选区域并使用感兴趣区域池化(RoI Pooling)对候选区域的特征进行池化，得到固定大小的特征图谱；

4)将上一步得到的特征图谱送入IDNet得到其对应的高层特征，将其高层的特征分块，分别进行池化，最终得到行人的高层特征表示，该信息分块处理为发明点之一；同时，通过一个辅助网络提取IDNet的中层特征，作为行人的中层特征表示；将中层特征表示以及高层特征表示拼合在一起，共同作为行人的特征表示，该多层信息融合为发明点之二；

5)将上一步的行人高层特征表示通过两个全连接层分别得到用于行人前景/背景分类的以及行人边界框修正的两个向量，使用Softmax交叉熵损失以及平滑的L₁损失分别对着两部分进行优化；

6)使用在线实例匹配(0IM)损失函数对于高层行人特征表示进行优化；

7)将测试图像输入网络，网络输出图像中行人的位置以及其对应特征，将特征与待查找的行人的特征进行比对并将相似性的信息标注在图像上。

所述的步骤2)中，预训练卷积神经网络的选取以及划分和数据预处理部分具体包括以下步骤：

2-1)选取在ImageNet上预训练的Resnet50作为基本的网络结构；将网络按照“conv4_3”层作为边界，分为两个部分：从网络开始到“conv4_3”的部分作为BackboneNetwork，将剩余的部分作为IDNet；Backbone Network用于图像特征的初步提取，IDNet用于图像特征的进一步提取；

2-2)每张图像的标注由每一个行人所在矩形位置的左上角以及右下角坐标以及行人的身份信息组成；

2-3)数据预处理部分首先将图像的像素数据减去在ImageNet上计算得到的像素均值，随后除以在ImageNet上计算得到的像素方差；按照50％的概率将图像水平翻转；最后将图像缩放，使得图像较短的一边等于600个像素；同时，保证图像图像较长的一边小于1000个像素。

所述的步骤3)中，具体包括：

3-1)使用一个512×3×3的卷积层对于Backbone Network所获得的特征图谱进行进一步提取，得到一个新的特征图谱，记作featrpn；该特征图谱的尺寸是BackboneNetwork输入图像的1/16；

3-2)在feat_rpn的每一个空间位置，生成三种宽高比，每种宽高比三个尺寸的锚框(Anchor)，前景背景各一个，如此使用一个18×1×1的卷积层对于feat_rpn进行进一步的特征提取，得到一个用于对每一位置的Anchor进行分类的特征图谱，记作feat_fgbg；随后在feat_fgbg上，随机选取128个正样本以及128个负样本，使用Softmax交叉熵损失函数对每个Anchor位置前景/背景进行预测；

3-3)每个位置9个anchor，每个anchor需要水平位置、垂直位置、anchor的宽、anchor的高，四个变换参数，如此9*4＝36，随后使用一个36×1×1的卷积层对于feat_rpn进行进一步的特征提取，得到一个用于对回归每一Anchor到真实边界框变换参数的的特征图谱，记作feat_reg；随后在feat_reg上，随机选取128个正样本以及128个负样本，使用平滑的L1损失函数对于上述的变换参数进行回归；

3-4)根据“3-2)”和“3-3)”中的feat_fgbg以及feat_reg中的特征对Anchor进行筛选，得到128个候选区域；使用RoI Pooling获取对应位置固定大小的128个特征图谱。

所述的步骤4)中，具体包括：

4-1)将池化后得到的特征图谱送入IDNet中提取特征，得到对应的特征图谱；将IDNet所得到的特征图谱分为水平方向上Q块，垂直方向上P块；在块与块之间设置一个像素的重叠，对这些块分别进行全局平均池化，并进行拼合，最终得到表示行人高层特征的特征向量；该步骤对应本专利信息分块处理的发明点。

4-2)抽取IDNet的中层特征图谱，使用一个辅助网络对于中层特征进行提取，得到表示行人中层特征的特征向量；该步骤对应本专利多层信息融合的发明点；

4-3)将上述表示行人中层以及高层特征的向量拼接成为一个表示行人总体特征的向量。

所述的步骤5)中，具体包括：

5-1)使用一个全连接层将步骤“4-1)”所得到的向量降维到2维，用于对先前流程得到的候选区域进行前景/背景分类；

5-2)使用一个新的全连接层将步骤“4-1)”所得到的向量降维到8维，用于对候选区域的边界的进一步回归，使边界框更加准确；

5-3)使用一个全连接层将步骤“4-3)”所得到的向量降维到512维，用于行人的匹配。

所述的一种基于分块以及多层信息融合的端到端行人搜索方法，其特征在于，所述的步骤6)中，具体：

在网络训练的过程中，使用“5-3)”中所得到的512维的向量送入OIM损失函数，对网络进行优化。

与现有技术相比，本发明对行人不同部位分开进行处理，使得网络能够学习到更加鲁棒的相关特征表示，该发明点对应技术方案中的步骤“4-1)”；此外，本发明融合了网络中的不同层级的特征，使得最终的特征表示更加鲁棒，该发明点对应技术方案中的步骤“4-2)”。本方法能够提取到更加鲁棒的行人特征表示，从而提升行人搜索算法的性能。

附图说明

图1为本发明方法的系统流程图。

图2为本发明算法和其他算法在CUHK数据集上不同大小图像库的Top-1比较。

图3为本发明算法和其他算法在CUHK数据集上不同大小图像库的mAP比较。

图4为本发明实施例算法和其他算法在检索同一行人时的可视化比较。

图5为全局平均池化数学式解释。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，具体如图1所示算法流程图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，但并不限定本发明。

步骤一：将图像数据进行预处理，输入网络，具体操作如下：

(1)将图像减去是预先计算的图像均值，随后将相减结果除以预先计算的图像方差；

(2)保持图像的宽高比，将图像较短的一边缩放到600像素，同时，保证图像较长的一边小于1000像素。

步骤二：将图像送入主干网络，得到用于候选区域提取的特征图谱f_backbone，具体操作如下：

(1)网络使用Resnet50的conv1到conv4_3作为主干网络

(2)将步骤一预处理完成的图像输入主干网络得到特征图谱f_backbone

步骤三：将f_backbone送入候选区域提取网络得到感兴趣区域，并使用感兴趣区域池化得到固定大小的特征图谱，具体操作如下：

(1)在候选区域提取网络中。首先使用一个512×3×3的卷积层对f_backbone进行进一步提取，获得一个新的特征图谱f_rpn；

(2)在f_rpn的每一个位置，生成宽高比分别为

1∶1、

面积分别为8×8、16×16、32×32的共9个锚框；

(3)使用一个18×1×1的卷积层以及一个Softmax层预测每个锚框是前景还是背景。使用一个36×1×1的卷积层回归每一个锚框到行人标注矩形框位置的变换参数。

(4)在训练的过程中，将与行人标注矩形框IoU大于0.7的锚框认为是正样本；IoU小于0.3的锚框认为是负样本；IoU处于0.3到0.7之间的不参与训练。

(5)在网络训练的过程中，随机选取128个正样本以及128个负样本。使用Softmax交叉熵损失函数对18×1×1的卷积层进行优化。类似地，使用平滑的L₁损失函数对于每一个锚框到行人标注矩形框的位置进行回归。

(6)在网络训练以及推理的时候，选取经过非极大值抑制后的正负样本各64个，作为感兴趣区域

(7)使用感兴趣区域池化对f_backbone中的感兴趣区域进行池化，获得固定大小的特征图谱f_roi。

步骤四：将池化后的特征图谱f_roi送入行人重识别网络进一步提取特征，具体操作如下：

(1)使用Resnet50中conv4_4以及后后续的部分作为行人重识别网络；

(2)将f_roi送入行人重识别网络，得到特征图谱

(3)将特征图谱

的垂直方向分为P块，水平方向分为Q块，分别进行全局平均池化，其数学形式表示为：

其中kH和kW是每一块的尺寸，p和q代表

中(p，q)位置的输出。最后将

中除了batch以外的维度拉成一个特征向量

具体解释见图5。

步骤五：使用辅助网络提取行人识别网络中层特征，具体操作如下：

(1)抽取行人识别网络的中层特征，得到特征图谱

(2)使用辅助网络，获得行人的中层特征向量

该辅助网络具体包括：

步骤六：添加对于网络的监督，对网络进行训练，具体操作如下：

(1)将

使用全连接层降维，得到特征向量v_fgbg，用于对于前景以及背景的分类，在训练的过程中，使用Softmax交叉熵损失函数对于这部分以及整个网络进行监督和优化；

(2)将

使用全连接层降维，得到特征向量v_{bbox_reg}，用于对检测结果边界框进行进一步修正，在训练的过程中，使用Smooth-L1损失函数对于这部分以及整个网络进行监督和优化；

(3)将

以及

进行拼接，得到v_person。随后使用一个全连接层将v_person降维到512维，得到特征向量v_reid；

(4)使用在线实例匹配损失函数对v_reid以及整个网络进行优化。

步骤七：在推理的过程中，使用网络输出的相关信息进行匹配图像库中的信息，并将结果叠加在画面上，具体操作如下：

(1)根据v_fgbg对所得到的边界框进行非极大值抑制，得到画面中行人的边界框以及其对应的v_reid；

(2)计算所得到的v_{reid}与图像库中图像特征向量的余弦距离。并将相关的结果叠加在画面中。

本发明具体实现步骤为：

图1是本发明的实现流程图，具体实施方式如下：

1、对于输入进行预处理；

2、将图像送入主干网络，得到用于候选区域提取的特征图谱；

3、将上述候特征图谱输入候选区域提取网络得到感兴趣区域；

4、并使用感兴趣区域池化得到固定大小的特征图谱；

5、使用行人重识别网络对特征进一步提取，同时抽取该网络的中层特征；

6、特征拼合，在训练时使用以在线实例匹配为首的损失函数对网络的优化进行监督；

7、测试时使用余弦距离，计算所得特征与图像库对应特征的相似度。

实施例图像检索的困难程度，会随着所要检索图像规模的增大而增大。由图2可知，随着所要检索图像规模的增大，基准方法以及本发明所提出的方法的Top-1性能均有所下降。但本发明所提出的方法，在不同规模图像的检索任务中的Top-1性能均显著优于基准方法。

与图2类似，图3所示本发明所提出的方法，在不同规模图像的检索任务中的mAP性能均显著优于基准方法。

在待检索的图像库中，共有四位与之匹配的行人。图4中第一行表示本发明所提出的方法的可视化结果，第二行表示基准方法的可视化结果。在每一行中，图像的顺序按照算法给出的相似度从高到低进行排列。对于错误的匹配结果，使用“叉号”每一幅图像的右下角进行标记。从图4中可以看到，所提出的算法在给出的最为相似的四位行人均为所要检索的行人；而基准方法给出的第三位行人出现匹配错误，并且在算法给出的前五个行人中，只有三个所要检索的行人。该对比直观地展示了本发明提出的算法至于基准算法的优越性。

显然，上述实例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于分块以及多层信息融合的端到端行人搜索方法，其特征在于，包括以下步骤：

2)将预训练的卷积神经分为前后两个部分，分别作为主干网络(Backbone Network)以及识别网络(IDNet)；将预处理之后的图像通过Backbone Network，得到用于候选区域提取的特征图谱；

6)使用在线实例匹配(OIM)损失函数对于高层行人特征表示进行优化；

2.根据权利要求1所述的一种基于分块以及多层信息融合的端到端行人搜索方法，其特征在于，所述的步骤2)中，预训练卷积神经网络的选取以及划分和数据预处理部分具体包括以下步骤：

2-1)选取在ImageNet上预训练的Resnet50作为基本的网络结构；将网络按照“conv4_3”层作为边界，分为两个部分：从网络开始到“conv4_3”的部分作为Backbone Network，将剩余的部分作为IDNet；Backbone Network用于图像特征的初步提取，IDNet用于图像特征的进一步提取；

3.根据权利要求1所述的一种基于分块以及多层信息融合的端到端行人搜索方法，其特征在于，所述的步骤3)中，具体包括：

3-1)使用一个512×3×3的卷积层对于Backbone Network所获得的特征图谱进行进一步提取，得到一个新的特征图谱，记作featrpn；该特征图谱的尺寸是Backbone Network输入图像的1/16；

3-2)在feat_rpn的每一个空间位置，生成三种宽高比，每种宽高比三个尺寸的锚框(Anchor),前景背景各一个,如此使用一个18×1×1的卷积层对于feat_rpn进行进一步的特征提取，得到一个用于对每一位置的Anchor进行分类的特征图谱，记作feat_fgbg；随后在feat_fgbg上，随机选取128个正样本以及128个负样本，使用Softmax交叉熵损失函数对每个Anchor位置前景/背景进行预测；

4.根据权利要求1所述的一种基于分块以及多层信息融合的端到端行人搜索方法，其特征在于，所述的步骤4)中，具体包括：

4-1)将池化后得到的特征图谱送入IDNet中提取特征，得到对应的特征图谱；将IDNet所得到的特征图谱分为水平方向上Q块，垂直方向上P块；在块与块之间设置一个像素的重叠，对这些块分别进行全局平均池化，并进行拼合，最终得到表示行人高层特征的特征向量；

4-2)抽取IDNet的中层特征图谱，使用一个辅助网络对于中层特征进行提取，得到表示行人中层特征的特征向量；

5.根据权利要求1所述的一种基于分块以及多层信息融合的端到端行人搜索方法，其特征在于，所述的步骤5)中，具体包括：

6.根据权利要求5所述的一种基于分块以及多层信息融合的端到端行人搜索方法，其特征在于，所述的步骤6)中，具体：