CN107273836A

CN107273836A - 一种行人检测识别方法、装置、模型和介质

Info

Publication number: CN107273836A
Application number: CN201710423167.2A
Authority: CN
Inventors: 周维斯; 徐静; 赵瑞
Original assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Current assignee: Shenzhen Shenzhen Horizon Technology Co Ltd
Priority date: 2017-06-07
Filing date: 2017-06-07
Publication date: 2017-10-20

Abstract

本发明公开了一种行人检测识别方法、装置、模型和介质，其中该方法包括以下步骤：将目标行人图像及待检行人图像输入行人检测识别模型，行人检测识别模型包括检测子网络和识别子网络；然后对目标行人图像及待检行人图像进行卷积运算、行人检测、感兴趣区域池化之后通过识别子网络计算目标区域特征，以及待检区域特征；之后计算待检区域特征与目标区域特征的特征相似度；根据特征相似度判断待检行人框中的行人是否为目标行人框中的行人。通过行人检测识别模型将行人检测和行人识别整合到了一个深度卷积神经网络模型，且可共享部分特征，节省了运算量和时间消耗，满足了行人重识别实时性的要求。

Description

一种行人检测识别方法、装置、模型和介质

技术领域

本发明涉及图像识别技术，尤其涉及一种行人检测识别方法、装置、模型和介质。

背景技术

随着视频监控智能分析在智慧城市应用上的不断发展，行人作为视频监控的一种重要元素，如何在这些海量视频中挖掘出行人的有价值信息变得越来越重要。

行人重识别(Person Re-Identification)是对跨摄像头、跨场景的监控视频出现的行人进行关联识别的技术，简单来说比如有一张目标人物在某个场景的抓拍照，利用行人重识别技术就可以根据这个照片找到这个目标人物在其他场景下出现(如果目标人物真有出现)的照片。

行人重识别一般需要包含行人检测和识别两个过程。行人检测技术的目标是检测出视频图像中所有行人所在位置；然后通过行人识别技术从行人图像提取特征向量；然后通过各种距离方法来度量两个行人图像之间相似度程度，从而实现行人重识别、检索等目的。

现有的行人重识别方法，没有将行人检测和识别整合到一起而是拆分开来；主要研究还是如何挖掘出更好更准确的特征来表达行人图像，以及基于这些特征如何度量行人特征的相似程度方面上，而要识别的行人图像通常来自由人工标注或是独立的行人检测步骤。

现有的行人重识别方法一般有如下三种方案：

1.人工翻查视频：通过安排人员，观看海量视频，人工搜索目标行人。

2.基于图像的行人传统检索：将视频里面出现的行人通过人工或行人检测算法将其一个个截取出来，通过传统图像特征描述子HOG/SIFT/HAAR来描述行人图像，生成特征库，再通过欧式或余弦距离来进行特征相似度的度量，最后按相似度排序对库里面的图像排序，目标人物会在前N个结果里面出现。

3.基于深度学习的行人实时检索：通过Faster RCNN/YOLO等检测算法将视频图像中行人测出来，然后通过AlexNet/VGG16/GoogLeNet/ResNet等深度卷积神经网络提取行人的特征，再将之前已经提取好的特征库与当前时刻提取出来行人特征进行比对检索。

但是上述三种方案分别存在以下缺陷：

1.人力成本太高、效率太低。

2.传统图像特征描述无论是在性能还是速度上面都已经落后了，且场景依赖性大，实时性较差。

3.基于深度学习的行人实时检索分别由行人检测、行人识别两个模型来实现，计算花销大。因为行人特征提取环节的总时间花销与行人检测环节检测出来的行人数量是线性相关，这就意味着如果检测出来的行人越多，那么特征提取环节需要时间也会越多，所以行人特征提取环节时间花销不是稳定的，实际上只能在检测上做到实时，在特征提取上不一定能达到实时的要求。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种行人检测识别方法、装置、模型和介质，其能解决现有的基于深度学习的行人实时检索分别由行人检测、行人识别两个模型来实现，计算花销大；如果检测出来的行人越多，那么特征提取环节需要时间也会越多，所以行人特征提取环节时间花销不是稳定的，不一定能达到实时的要求的问题。

一种行人检测识别方法，包括以下步骤：

将目标行人图像及待检行人图像输入行人检测识别模型，所述行人检测识别模型包括检测子网络和识别子网络；

对所述目标行人图像及待检行人图像进行卷积运算，得到目标特征图及待检特征图；

通过所述检测子网络对所述目标特征图及待检特征图进行行人检测，得到目标行人框及待检行人框；

根据所述目标行人框对所述目标特征图进行感兴趣区域池化，得到目标池化区域，以及根据所述待检行人框对所述待检特征图进行感兴趣区域池化，得到待检池化区域；

通过所述识别子网络计算所述目标池化区域的目标区域特征，以及计算所述待检池化区域的待检区域特征；

计算所述待检区域特征与目标区域特征的特征相似度；

根据所述特征相似度判断所述待检行人框中的行人是否为所述目标行人框中的行人。

进一步地，所述检测子网络包括分支连接层，所述识别子网络包括行人编号分类器和特征比对分支；所述分支连接层连接于所述行人编号分类器和特征比对分支；

所述行人编号分类器用于根据行人编号信息训练行人编号的分类识别；

所述特征比对分支用于缩小内类图像间的特征距离和放大类外图像间的特征距离。

进一步地，所述检测子网络包括图片索引单元，所述图片索引单元用于将具有同一行人编号的训练图片输入所述行人检测识别模型进行多图训练。

进一步地，所述待检行人框以一五元组表示，所述五元组包括参考点横坐标、参考点纵坐标、宽度、高度和行人编号；

所述根据所述特征相似度判断所述待检行人框中的行人是否为所述目标行人框中的行人之后，还包括以下步骤：

若所述待检行人框中的行人是所述目标行人框中的行人，则根据所述待检行人框对应的五元组输出识别结果。

一种行人检测识别装置，包括：

输入模块，用于将目标行人图像及待检行人图像输入行人检测识别模型，所述行人检测识别模型包括检测子网络和识别子网络；

卷积模块，用于对所述目标行人图像及待检行人图像进行卷积运算，得到目标特征图及待检特征图；

框选模块，用于通过所述检测子网络对所述目标特征图及待检特征图进行行人检测，得到目标行人框及待检行人框；

池化模块，用于根据所述目标行人框对所述目标特征图进行感兴趣区域池化，得到目标池化区域，以及根据所述待检行人框对所述待检特征图进行感兴趣区域池化，得到待检池化区域；

特征模块，用于通过所述识别子网络计算所述目标池化区域的目标区域特征，以及计算所述待检池化区域的待检区域特征；

计算模块，用于计算所述待检区域特征与目标区域特征的特征相似度；

判断模块，用于根据所述特征相似度判断所述待检行人框中的行人是否为所述目标行人框中的行人。

进一步地，所述框选模块被配置为将待检行人框以一五元组表示，所述五元组包括参考点横坐标、参考点纵坐标、宽度、高度和行人编号；

所述行人检测识别装置还包括输出模块，用于若所述待检行人框中的行人是所述目标行人框中的行人，则根据所述待检行人框对应的五元组输出识别结果。

一种行人检测识别装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现上述任一项所述的行人检测识别方法的步骤。

一种介质，所述介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的行人检测识别方法的步骤。

一种行人检测识别模型，基于Faster RCNN构建，包括检测子网络和识别子网络；所述检测子网络用于对目标特征图或待检特征图进行行人检测，得到目标行人框及待检行人框；所述识别子网络用于计算目标池化区域的目标区域特征，或计算待检池化区域的待检区域特征；

所述检测子网络包括分支连接层，所述识别子网络包括行人编号分类器和特征比对分支；所述分支连接层连接于所述行人编号分类器和特征比对分支；

相比现有技术，本发明的有益效果在于：通过行人检测识别模型的检测子网络和识别子网络分别进行行人检测任务与行人识别任务，即实现了利用同一个网络进行行人检测与识别，将行人检测和行人识别整合到了一个深度卷积神经网络模型上面，且可共享部分特征，节省了运算量和时间消耗，满足了行人重识别实时性的要求。

附图说明

图1为本发明实施例一的行人检测识别方法的流程示意图；

图2为图1中行人检测识别方法的应用场景示意图；

图3为图1中行人检测识别方法使用的行人检测识别模型的结构示意图；

图4为本发明实施例二的行人检测识别装置的结构示意图；

图5为本发明实施例三的行人检测识别装置的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

如图1为一种行人检测识别方法，包括以下步骤：

步骤S110、将目标行人图像及待检行人图像输入行人检测识别模型，所述行人检测识别模型基于Faster RCNN构建，包括检测子网络和识别子网络。

输入待查询的目标行人图像，接入视频流，通过视频解码获得一帧一帧图像，依据算法速度定时对解码后图像进行抽取；若算法速度能满足实时的要求，可以对每一帧图像都进行行人检测识别。

如图2所示，为行人检测识别方法的应用场景。目标行人图像为Query，视频流Video Frame中包括多张待检行人图像，如图2中的三张待检行人图像均包括有目标行人图像中目标行人，即矩形框选中的区域。

行人检测识别模型如图3所示，基于Faster RCNN构建，包括检测子网络和识别子网络；所述检测子网络用于对目标特征图或待检特征图进行行人检测，得到目标行人框及待检行人框；所述识别子网络用于计算目标池化区域的目标区域特征，或计算待检池化区域的待检区域特征。

行人检测识别模是基于高效的目标检测框架Faster RCNN的基础上建立的。

Faster RCNN(faster region based convolution network)是一种基于深度学习的目标检测模型。其输入是一张图片，经过多层卷积计算，得到图像的特征图；然后根据物体在图像中的大小分布等，设计相应的锚点坐标框，对锚点位置进行分类和包围框回归，找到图像中可能存在物体的位置，此步称做RPN(region proposal network)。然后把这些位置作为感兴趣区域(ROI)映射到特征图上，取出每个位置的卷积特征，然后与训练好的参数进行大量內积计算，得到向量式的特征从而进行进一步的分类和包围框回归，最终获得图像中存在物体的位置和类别，此步称做RCNN(region based convolution network)。

如图3所示的行人检测识别模型，包括用于对图像进行卷积计算得到图像的特征图的卷积层Conv1…Conv5；检测子网络包括卷积层Conv和分类回归层，分类回归层包括用于锚点位置进行分类的分类器Anchor cls和对锚点位置进行包围框回归的回归器Anchorreg；检测子网络还包括多个全连接FC6、FC7、FC8和分类器SoftmaxLoss Cls。分类器SoftmaxLoss Cls作为行人非行人分类器，用于根据标注好的行人背景信息训练行人和背景的分类学习。具体的，现有技术对这一部分有详细的说明，不再赘述。

本发明进一步对Faster RCNN的模型结构作以下改动：

1、所述检测子网络包括图片索引单元Index，所述图片索引单元用于将具有同一行人编号的训练图片输入所述行人检测识别模型进行多图训练。

具体的，通过修改RPN层来实现。原本RPN层只能进行单张图片的训练，为了强化人体识别任务，希望多张包含相同行人编号的图片一起进行训练，本发明修改了RPN层的数据组织形式，在原来的基础上增加一个图片索引的维度，让Faster RCNN支持多图检测的训练，以实现多图训练的目的。

2、所述检测子网络包括分支连接层，所述识别子网络包括行人编号分类器和特征比对分支；所述分支连接层连接于所述行人编号分类器和特征比对分支。

如图3所示，全连接FC7作为分支连接层，在全连接FC7上连接有一分支Tripletloss作为特征比对分支，用于缩小内类图像间的特征距离和放大类外图像间的特征距离。特征比对分支接入特征比对损失函数tripletloss，用于缩小内类图像即具有相同行人编号的行人图像之间的特征距离和放大不同行人编号的类外图像间的特征距离，以增强全连接FC7的特征判别性能，从而进一步强化行人识别任务的性能。

在全连接FC7上还连接有行人编号分类器SoftmaxLoss PersonID，用于根据行人编号信息训练行人编号的分类识别。通过这样的设计，网络模型就可以同时实现行人检测和行人识别两个任务，以达到行人检测和行人识别这两个任务同时进行的目的。

进一步地，行人检测识别模型的训练过程如下：训练过程划分成两个步骤，首先单独训练检测子网络，然后再将所述检测子网络作为预训练模型训练整个行人检测识别模型，进行行人检测和行人识别多任务学习。

具体的，首先以ImageNet-VGG16模型作为预训练模型，利用标注好的行人数据，与训练原始的Faster RCNN网络方法一样，通过随机梯度下降法训练行人检测任务子网络，直到达到预设定的最大训练迭代次数或者收敛停止训练。然后，将上一步训练好的ImageNet-VGG16模型作为预训练模型，利用标注好的行数据，每次迭代训练随机抽取两张行人图像，且至少有一对行人图像具有相同的行人编号；前向传播通过RPN出来若干候选区域，每个候选区都带有2种标注信息：行人和背景、行人编号，然后经过全连接FC7分别向行人非行人分类器、行人编号分类器和特征比对分支这3个分支传播。再通过随机梯度下降法训练这个端对端的行人检测识别模型，直到达到预设定最大训练迭代次数或收敛停止训练。

步骤S120、对所述目标行人图像及待检行人图像进行卷积运算，得到目标特征图及待检特征图。

通过卷积层Conv1…Conv5一步步抽取目标行人图像或待检行人图像的特征，得到目标特征图及待检特征图用于后续的检测、识别步骤。

步骤S130、通过所述检测子网络对所述目标特征图及待检特征图进行行人检测，得到目标行人框及待检行人框。

得到图像的特征图后，根据行人在图像中的大小分布等数据，设计相应的锚点坐标框，对锚点位置进行分类和包围框回归，找到图像中可能存在行人的位置，即RPN，图像中可能存在行人的位置作为感兴趣区域(ROI)。

步骤S140、根据所述目标行人框对所述目标特征图进行感兴趣区域池化，得到目标池化区域，以及根据所述待检行人框对所述待检特征图进行感兴趣区域池化，得到待检池化区域。

将步骤S130获得的感兴趣区域映射到步骤S120得到的特征图上，通过池化层ROIPooling进行感兴趣区域池化，可得到池化区域以进行后续的识别分类步骤。

步骤S150、通过所述识别子网络计算所述目标池化区域的目标区域特征，以及计算所述待检池化区域的待检区域特征。

通过全连接层FC Person进一步对目标池化区域或待检池化区域进行特征提取，得到相应的特征向量。

步骤S160、计算所述待检区域特征与目标区域特征的特征相似度。

进一步地，特征相似度可以由欧氏距离或余弦距离来衡量。如记目标区域特征的特征向量为x，待检区域特征的特征向量为y，则目标区域特征与待检区域特征的特征相似度可以是余弦距离：

步骤S170、根据所述特征相似度判断所述待检行人框中的行人是否为所述目标行人框中的行人。

具体的，若所述余弦距离小于预设阈值，则可以认为待检行人框中的行人是所述目标行人框中的行人。预设阈值可以通过有限次的试验即经验值确定。

本发明通过行人检测识别模型的检测子网络和识别子网络分别进行行人检测任务与行人识别任务，即实现了利用同一个网络进行行人检测与识别，将行人检测和行人识别整合到了一个深度卷积神经网络模型上面，且可共享部分特征，节省了运算量和时间消耗，满足了行人重识别实时性的要求。

进一步地，所述待检行人框以一五元组表示，所述五元组包括参考点横坐标、参考点纵坐标、宽度、高度和行人编号。

行人图像中的行人或特征图中的行人可以标注为五元组P＝(x，y，w，h，id)，其中x，y分别表示参考点的横纵坐标；w，h分别表示行人框的宽和高，id表示行人编号。参考点指的是行人框的左上顶点或中心点等。同样的，对于一个行人图像中的行人或特征图，在得知该五元组后，即可推出行人框所在位置、行人框大小以及行人的身份即行人编号。因此，行人检测识别模型的训练样本包括行人图像和与行人图像中行人对应的五元组标注；通过行人位置数据可以进行人体检测任务即检测子网络的训练，而通过行人编号id，可以进行人体识别任务的训练。从而实现了行人检测和行人识别这两个任务同时训练学习的目的。

进一步地，步骤S170所述根据所述特征相似度判断所述待检行人框中的行人是否为所述目标行人框中的行人之后，还包括以下步骤：

步骤S180、若所述待检行人框中的行人是所述目标行人框中的行人，则根据所述待检行人框对应的五元组输出识别结果。

识别结果可以是如图2所示的具有矩形框，矩形框框住目标行人的行人图片且对应的可以标记有行人编号或名称，输出结果比较直观明显。

实施例二

如图4所示的行人检测识别装置，包括：

输入模块110，用于将目标行人图像及待检行人图像输入行人检测识别模型，所述行人检测识别模型包括检测子网络和识别子网络；

卷积模块120，用于对所述目标行人图像及待检行人图像进行卷积运算，得到目标特征图及待检特征图；

框选模块130，用于通过所述检测子网络对所述目标特征图及待检特征图进行行人检测，得到目标行人框及待检行人框；

池化模块140，用于根据所述目标行人框对所述目标特征图进行感兴趣区域池化，得到目标池化区域，以及根据所述待检行人框对所述待检特征图进行感兴趣区域池化，得到待检池化区域；

特征模块150，用于通过所述识别子网络计算所述目标池化区域的目标区域特征，以及计算所述待检池化区域的待检区域特征；

计算模块160，用于计算所述待检区域特征与目标区域特征的特征相似度；

判断模块170，用于根据所述特征相似度判断所述待检行人框中的行人是否为所述目标行人框中的行人。

进一步地，框选模块130被配置为将待检行人框以一五元组表示，所述五元组包括参考点横坐标、参考点纵坐标、宽度、高度和行人编号。

进一步地，行人检测识别装置还包括输出模块(图未示)，用于若所述待检行人框中的行人是所述目标行人框中的行人，则根据所述待检行人框对应的五元组输出识别结果。

本实施例中的装置与前述实施例中的方法是基于同一发明构思下的两个方面，在前面已经对方法实施过程作了详细的描述，所以本领域技术人员可根据前述描述清楚地了解本实施中的系统的结构及实施过程，为了说明书的简洁，在此就不再赘述。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本发明时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

因此，本发明还提供了一种介质，所述介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的行人检测识别方法的步骤。

描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元示意的部件可以是或者也可以不是物理模块，既可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等，如实施例四。实施例三

如图5所示行人检测识别装置，包括存储器200、处理器300以及存储在存储器200中并可在处理器300上运行的计算机程序，处理器300执行计算机程序时实现上述行人检测识别方法的步骤。

本发明实施例提供的行人检测识别装置，可以通过行人检测识别模型的检测子网络和识别子网络分别进行行人检测任务与行人识别任务，即实现了利用同一个网络进行行人检测与识别，将行人检测和行人识别整合到了一个深度卷积神经网络模型上面，且可共享部分特征，节省了运算量和时间消耗，满足了行人重识别实时性的要求。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种行人检测识别方法，其特征在于，包括以下步骤：

计算所述待检区域特征与目标区域特征的特征相似度；

2.如权利要求1所述的行人检测识别方法，其特征在于：所述检测子网络包括分支连接层，所述识别子网络包括行人编号分类器和特征比对分支；所述分支连接层连接于所述行人编号分类器和特征比对分支；

3.如权利要求1所述的行人检测识别方法，其特征在于：所述检测子网络包括图片索引单元，所述图片索引单元用于将具有同一行人编号的训练图片输入所述行人检测识别模型进行多图训练。

4.如权利要求1所述的行人检测识别方法，其特征在于：所述待检行人框以一五元组表示，所述五元组包括参考点横坐标、参考点纵坐标、宽度、高度和行人编号；

5.一种行人检测识别装置，其特征在于，包括：

6.如权利要求5所述的行人检测识别装置，其特征在于：所述框选模块被配置为将待检行人框以一五元组表示，所述五元组包括参考点横坐标、参考点纵坐标、宽度、高度和行人编号；

7.一种行人检测识别装置，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的行人检测识别方法的步骤。

8.一种介质，所述介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的行人检测识别方法的步骤。

9.一种行人检测识别模型，其特征在于：基于Faster RCNN构建，包括检测子网络和识别子网络；所述检测子网络用于对目标特征图或待检特征图进行行人检测，得到目标行人框及待检行人框；所述识别子网络用于计算目标池化区域的目标区域特征，或计算待检池化区域的待检区域特征；

10.如权利要求9所述的行人检测识别模型，其特征在于：所述检测子网络包括图片索引单元，所述图片索引单元用于将具有同一行人编号的训练图片输入所述行人检测识别模型进行多图训练。