CN109165540B

CN109165540B - 一种基于先验候选框选择策略的行人搜索方法和装置

Info

Publication number: CN109165540B
Application number: CN201810608363.1A
Authority: CN
Inventors: 丁润伟; 石伟; 刘宏
Original assignee: Shenzhen Gandong Smart Technology Co ltd; Peking University Shenzhen Graduate School
Current assignee: Shenzhen Gandong Smart Technology Co ltd; Peking University Shenzhen Graduate School
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2022-02-25
Anticipated expiration: 2038-06-13
Also published as: CN109165540A

Abstract

本发明公开一种基于先验候选框选择策略的行人搜索方法和装置。该方法包括：根据训练集中所有行人边界框的长和宽构建行人候选框特征向量，包含长宽比和长度两个元素；通过k‑means++算法选出初始化聚类中心；利用k‑means算法进行迭代聚类，得到聚类后的先验候选框；将训练集中的行人图像输入预先定义的行人搜索网络，利用先验候选框生成候选行人并识别出行人的身份，通过训练得到训练好的行人搜索网络；将行人探针和监控场景图像分别通过训练好的行人搜索网络，得到行人探针特征以及监控图像中候选行人的特征，通过计算该两种特征的相似性获得行人探针所在的监控图像及其具体位置。本发明能够有效提高行人搜索的精度和速度。

Description

一种基于先验候选框选择策略的行人搜索方法和装置

技术领域

本发明属于机器人视觉技术和智能监控领域，具体涉及一种基于先验候选框选择策略的行人搜索方法和装置；通过构建行人候选框特征向量以及设计新的距离度量函数，并利用词袋模型对行人候选框特征向量聚类，为行人搜索提供合适的初始候选框，可近一步减少行人检测的回归时间和提高后期行人识别的精度。

背景技术

行人搜索是一项同时解决行人检测和行人重识别的关键技术，可以被应用于人机交互、智能监控和视频分析等方面。然而，行人检测算法的性能仍然受限，所引起的行人误检、漏检及误报都会对后期的行人重识别产生严重的影响。因此，提高行人搜索系统中行人检测的精度和速度，对行人搜索总体性能的提高尤为重要。

现有的一类方法(T.Xiao,S.Li,B.Wang,L.Lin,and X.Wang,“Joint detectionand identification feature learning for person search,”in IEEE Conference onComputer Vision and Pattern Recognition(CVPR),pp.3376–3385,2017.)是通过一个端到端的深度学习网络去联合优化行人检测和行人重识别，在反向传播的过程中，两部分的网络权重可以一起被更新。但是，该方法直接将目标检测的网络迁移到行人搜索上，而目标检测中目标尺寸和行人尺寸大不相同，由于两个问题本身的场景不一样，所以这类方法在模型上会引入较大的误差。另一种方式(H.Liu,J.Feng,Z.Jie,K.Jayashree,B.Zhao,M.Qi,J.Jiang and S.Yan,“Neural person search machines,”in IEEE InternationalConference on Computer Vision(ICCV),2017.)利用行人探针的信息和注意机制不断地匹配行人探针和监控场景图像，这种方法的检测精度相比前者有提升，但是其算法效率低，测试阶段每搜索一个行人，都需遍历整个监控场景库，不适合应用于实际的监控场景。

发明内容

针对现有技术存在的技术问题，本发明的目的是提供一种基于先验候选框选择策略的行人搜索方法和装置，通过利用无监督的方式对行人候选框进行预先的选择，可以有效提高行人搜索的精度和速度。

本发明采用的技术方案如下：

一种基于先验候选框选择策略的行人搜索方法，包括以下步骤：

1)输入训练集中所有行人边界框的长、宽；

2)计算每个行人边界框的长宽比；

3)构建行人候选框特征向量，包含长宽比和长度两个元素；

4)对构建的行人候选框特征向量，通过k-means++算法选出初始化聚类中心；

5)利用k-means算法对行人候选框特征向量向初始化聚类中心进行迭代聚类，得到聚类后的先验候选框；

6)将训练集中的行人图像输入预先定义的行人搜索网络，利用步骤5)得到的先验候选框生成候选行人，并输入识别网络识别出行人的身份(这里的身份是指每个行人被分配的不同编号，行人搜索的最终目的就是要区分不同的人，能够在大量监控数据中，找到待查找的人)，通过整个训练集的训练得到训练好的行人搜索网络；

7)将行人探针和监控场景图像分别通过训练得到的行人搜索网络，得到相应的特征描述，即行人探针特征以及监控图像中候选行人的特征，通过计算两种特征的相似性获得行人探针所在的监控图像及其具体位置。

其中，步骤1)-步骤5)属于先验候选框选择策略部分，得到选择到的行人候选框长宽比、长度和宽度；步骤6)属于行人搜索网路的训练部分，通过对输入的行人图像进行训练，可以得到有效的行人搜索网络；步骤7)属于基于训练得到的行人搜索网络进行实际测试的部分。

进一步地，步骤5)采用候选框距离匹配度量方法进行k-means聚类，所述候选框距离匹配度量方法同时衡量两方面内容，包含待聚类的行人候选框特征向量与聚类中心的欧式距离，以及待聚类的行人候选框与中心框的重叠程度。

进一步地，步骤5)计算聚类得到的所有行人候选框的长度的平均值，并用聚类中心的长度除以所述平均值作为行人候选框的尺度。

进一步地，步骤6)中包含行人搜索网络，搜索过程中涉及的行人候选框初始化尺寸即是步骤5)得到的先验候选框的尺寸，利用预先定义的行人搜索网络，行人搜索的精度和效率可以进一步提升。

进一步地，所述行人搜索网络的训练过程包括：

6.1)将训练集图像通过主干网络，所述主干网络提取行人检测和识别的公共特征，得到特征图；

6.2)将所述特征图送入区域生成网络，所述区域生成网络用于生成行人候选框；所述区域生成网络中行人候选框的初始化尺寸和尺度即是步骤5)得到的先验候选框的尺寸和尺度；

6.3)将所述行人候选框映射到步骤6.1)得到的特征图，得到候选行人的特征，然后通过感兴趣区域池化层将所有的候选行人的特征变换为同样的空间大小；

6.4)将步骤6.3)得到的特征送入识别网络，然后将通过识别网络得到的特征接入损失函数进行训练；

6.5)利用梯度下降方法，通过迭代训练，得到最终训练好的行人搜索网络。

进一步地，步骤7)计算所述两种特征的余弦距离作为搜索的相似性得分，进而获得行人探针所在的监控图像及其具体位置。

进一步地，步骤7)所述监控场景图像为原始的监控图像，没有对监控图像中的行人进行任何剪切。

一种基于先验候选框选择策略的行人搜索装置，其包括：

候选框特征向量构建模块，负责根据输入的训练集中所有行人边界框的长、宽，构建行人候选框特征向量，包含长宽比和长度两个元素；

先验候选框选择模块，负责对构建的行人候选框特征向量，通过k-means++算法选出初始化聚类中心；然后利用k-means算法对行人候选框特征向量向初始化聚类中心进行迭代聚类，得到聚类后的先验候选框；

行人搜索网络训练模块，负责将训练集中的行人图像输入预先定义的行人搜索网络，利用所述先验候选框选择模块得到的先验候选框生成候选行人并识别出行人的身份，通过整个训练集的训练得到训练好的行人搜索网络；

行人搜索模块，负责将行人探针和监控场景图像分别通过训练好的行人搜索网络，得到行人探针特征以及监控图像中候选行人的特征，通过计算该两种特征的相似性获得行人探针所在的监控图像及其具体位置。

进一步地，所述行人搜索网络包括：

主干网络，用于根据输入的训练集图像，提取行人检测和识别的公共特征，得到特征图；

区域生成网络，用于根据所述特征图生成行人候选框；所述区域生成网络中行人候选框的初始化尺寸和尺度即是所述先验候选框选择模块得到的先验候选框的尺寸和尺度；

感兴趣区域池化层，用于将所述区域生成网络生成的行人候选框映射到所述主干网络得到的特征图，得到候选行人的特征，然后将所有的候选行人的特征变换为同样的空间大小；

识别网络，负责对所述感兴趣区域池化层得到的特征进一步抽象，学习出区分性的身份特征，从而识别出行人的身份；

损失函数模块，用于利用所述识别网络得到的特征，采用梯度下降方法进行迭代训练，得到最终训练好的行人搜索网络。

本发明的有益效果如下：

本发明通过对行人候选框进行先验选择，可以解决现有行人候选框尺寸不适合行人搜索的问题。预先选择的行人候选框为行人检测网络提供了一个好的初始化起点，可以减少后期对检测结果的修正次数，大大提高了检测效率。此外，好的初始化起点，也有助于更准确地检测行人，从而减少因误检和错检对行人重识别性能的影响。本发明设计的候选框距离匹配度量方法可以更加有效地对行人候选框进行选择，提高聚类的精度。

附图说明

图1.先验候选框选择策略流程图。

图2.基于先验候选框选择策略的行人搜索网络图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

如图1为本发明的先验候选框选择策略流程图，包括以下几个步骤：

步骤1，输入训练集图像中行人边界框的标签。

行人边界框的标签通常包含边界框左上角所在的坐标位置x_i,y_i，以及边界框的长h_i和宽w_i，定义为：

b_i＝[x_i,y_i,w_i,h_i]

步骤2，计算行人边界框的长宽比。

由步骤1中获取的行人边界框的长和宽，可计算到第i个边界框的长宽比l_i，定义为：

l_i＝h_i/w_i

步骤3，计算行人候选框特征向量。

本发明定义的行人候选框特征向量包含长宽比l_i和长度h_i两个元素，长宽比决定了候选框的形状，而长度决定了候选框的尺度，定义为：

f_i＝[l_i,h_i]

步骤4，定义要聚类的中心数量K，利用k-means++算法对步骤3得到的行人候选框特征向量进行初始化聚类，获取K个初始化聚类中心f_center,j,(j＝1,2,...,K)。

步骤5，针对步骤3得到的行人候选框特征向量f_i和初始化聚类中心f_center,j，通过k-means算法进行迭代聚类，得到最终的聚类结果，即得到聚类后的先验候选框。

其中，聚类中的度量方法采用本发明定义的候选框距离匹配度量方法，包含待聚类的行人候选框特征向量f_i与聚类中心f_center,j(在k-means算法中聚类中心会不断改变，故此处f_center,j称为聚类中心)的欧式距离，以及待聚类的行人候选框与聚类中心的重叠程度，具体如下：

其中，IOU(·)表示Intersection-Over-Union，为两个候选框的重叠程度。聚类得到的K个聚类中心即为行人候选框，将所有行人候选框的长度取均值，得到

表示不同行人候选框的尺度，将计算得到的尺度与行人候选框的长宽比串联，最终得到K个先验候选框的参数：

如图2为基于先验候选框选择策略的行人搜索网络图，包括以下几个步骤：

步骤1，输入训练集图像。

行人搜索问题的训练集为整张的监控图像，而非直接由行人的边界框组成，所以针对此问题，需要检测到行人探针(行人探针是指待查找的单张行人图像)在监控图像的具体位置，并且准确判断行人的身份。

步骤2，将训练集图像前向通过定义的行人搜索网络。

主要包括以下三个步骤：

第1步，将训练集图像通过主干网络。主干网络可以选择目前流行的经典卷积神经网络结构，如VGG Net、Inception Net和ResNet。选择这些网络的前一部分作为主干网络，用于提取行人检测和识别的公共特征，得到特征图。这里，可以将ResNet的前10个残差单元作为主干网络，同理，可将VGG Net和Iception Net的前一部分作为主干网络，至于选择哪一部分可以自行定义。

第2步，将第1步得到的特征图(Feature Map)送入区域生成网络(RegionProposal Network)。区域生成网络是用于生成行人候选框的网络，包括：一个3×3的卷积层用于提取适合行人检测的特征；一个含18个滤波器的1×1卷积层，用于预测候选框的类别(人/背景)；一个含36个滤波器的1×1卷积层，用于预测候选框的位置(x,y,w,h)；损失函数，用于计算行人候选框的类别和位置与真实标签的差异，从而通过不断更新参数以减小差异，实现网络的训练。区域生成网络的候选框长宽比(尺寸)和尺度是利用前面得到的候选框聚类结果，聚类得到的K种行人候选框尺寸和尺度，两两组合可得到K²种，即对特征图的每个像素点生成个K²行人候选框。具体来说，本发明在行人检测时是基于前述提出的先验候选框选择策略，生成K个聚类中心，这里选择K＝3。相应地，可以得到3个行人候选框参数，即3种尺度和3种长宽比，通过两两组合，最终在每个像素点可生成9个候选框，并遍历整个特征图来生成多种尺度和长宽比的行人候选框，最终确定真正包含行人的候选框。

第3步，将第2步得到的行人候选框映射到第1步得到的特征图，可以得到候选行人的特征，通过感兴趣区域池化层(RoI Pooling)将所有的候选行人的特征变换为同样的空间大小。将得到的特征继续送入识别网络，识别网络为第一步中选择的主干网络的后一部分，识别网络用于将候选行人的特征进一步抽象，学习出区分性的身份特征，从而识别出行人的身份，最终得到的特征接入损失函数进行训练。图2中的“全连接层”用于将三维特征映射为一维特征向量，这里包含3个不同的全连接层。1个256维全连接层用于学习身份特征，一个2维全连接层用于计算行人候选框为目标还是背景的概率，1个8维的全连接层用于计算行人候选框的位置。图2中的“规范化层”用于将计算学习到的身份特征进行规范化，便于计算相似性。

步骤3，得到训练好的行人搜索网络模型。

利用梯度下降方法对步骤2中定义的网络模型进行训练，通过迭代训练，可以得到最终训练好的行人搜索网络模型。

步骤4，实际测试及应用。

实际的测试需要在大量复杂监控图像中去寻找行人探针，因此需要将行人探针和监控图像表达在同一个特征空间。将两者分别输入步骤3训练好的行人搜索网络模型，得到固定长度的行人探针特征以及监控图像中候选行人的特征。两个特征的维度相同，因此可直接计算二者的余弦距离来衡量相似性，并返回行人探针所在的监控图像及其具体位置。

本发明提到的主干网络识别网络可以由VGG Net、Inception Net、ResNet等经典深度网络进行合理地替换，以学习区分性的特征。

本发明另一实施例提供一种基于先验候选框选择策略的行人搜索装置，其包括：

其中，所述行人搜索网络包括：

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于先验候选框选择策略的行人搜索方法，包括以下步骤：

1)输入训练集中所有行人边界框的长、宽；

2)计算每个行人边界框的长宽比；

3)构建行人候选框特征向量，包含长宽比和长度两个元素；

6)将训练集中的行人图像输入预先定义的行人搜索网络，利用步骤5)得到的先验候选框生成候选行人并识别出行人的身份，通过训练集的训练得到训练好的行人搜索网络；

7)将行人探针和监控场景图像分别通过训练好的行人搜索网络，得到行人探针特征以及监控图像中候选行人的特征，通过计算该两种特征的相似性获得行人探针所在的监控图像及其具体位置；其中行人探针是指待查找的单张行人图像；

其中，步骤5)采用候选框距离匹配度量方法进行k-means聚类，所述候选框距离匹配度量方法包含待聚类的行人候选框特征向量f_i与聚类中心f_center,j的欧式距离，以及待聚类的行人候选框与聚类中心的重叠程度，具体如下：

其中，IOU(·)表示两个候选框的重叠程度，聚类得到的K个聚类中心即为行人候选框，将所有行人候选框的长度取均值，得到

表示不同行人候选框的尺度，将计算得到的该尺度与行人候选框的长宽比l_center,j串联，最终得到K个先验候选框的参数：

2.如权利要求1所述的方法，其特征在于，步骤6)所述行人搜索网络的训练过程包括：

3.如权利要求2所述的方法，其特征在于，步骤6.2)将步骤5)聚类得到的K种先验候选框的尺寸和尺度，两两组合得到K²种，即对特征图的每个像素点生成个K²行人候选框。

4.如权利要求2或3所述的方法，其特征在于，所述区域生成网络包括：一个3×3的卷积层，用于提取适合行人检测的特征；一个含18个滤波器的1×1卷积层，用于预测候选框的类别；一个含36个滤波器的1×1卷积层，用于预测候选框的位置；损失函数，用于计算行人候选框的类别和位置与真实标签的差异，通过不断更新参数以减小差异，实现网络的训练。

5.如权利要求1所述的方法，其特征在于，步骤7)计算所述两种特征的余弦距离作为相似性得分，进而获得行人探针所在的监控图像及其具体位置。

6.如权利要求1所述的方法，其特征在于，步骤7)所述监控场景图像为原始的监控图像，没有对监控图像中的行人进行任何剪切。

7.一种采用权利要求1所述方法的基于先验候选框选择策略的行人搜索装置，其特征在于，包括：

行人搜索网络训练模块，负责将训练集中的行人图像输入预先定义的行人搜索网络，利用所述先验候选框选择模块得到的先验候选框生成候选行人并识别出行人的身份，通过训练集的训练得到训练好的行人搜索网络；

8.如权利要求7所述的装置，其特征在于，所述行人搜索网络包括：