CN111178208A

CN111178208A - 基于深度学习的行人检测方法、装置及介质

Info

Publication number: CN111178208A
Application number: CN201911330299.6A
Authority: CN
Inventors: 张继勇; 庄浩; 褚超群; 刘鑫; 蔡恒
Original assignee: Huarui Xinzhi Technology Beijing Co ltd; Tsinghua University
Current assignee: Huarui Xinzhi Technology Beijing Co ltd; Tsinghua University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-19
Anticipated expiration: 2039-12-20
Also published as: CN111178208B

Abstract

本发明提供了一种基于深度学习的行人检测方法、装置及介质包括：使用深度学习神经网络对图像进行处理，获取图像中的多个关键点及所述关键点的嵌入特征，其中，所述多个关键点至少包括人的脖颈部位、人的头部、人的肩部；所述嵌入特征与所述关键点的位置相关；基于所述关键点的嵌入特征之间的距离，将所述关键点进行分组，形成第一组合和第二组合，将一个或多个第一组合形成的集合与一个或多个第二组合形成的集合，进行级联匹配，匹配成功，获得检测区域。本发明解决了已有的深度学习行人检测模型中，误检漏检现象较多的问题，从而更加准确地完成监控视频下的行人检测分析这一任务，为相关的安防监控分析与应用提供更好的技术支持。

Description

基于深度学习的行人检测方法、装置及介质

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于深度学习的行人检测方法、装置及介质。

背景技术

近年来，随着人工智能技术的不断发展和社会安防需求的不断提高，对于监控视频中的内容进行智能分析已经成为计算机视觉研究领域中的热点研究内容之一。行人与人流的检测与分析，作为监控视频智能化分析中的典型和基础研究任务，得到了越来越多的企业和研究者的关注，许多实际的安防需求也和其息息相关，例如监控区域内的人数统计、密度分析、行人追踪与重识别等等。在实际的监控视频中，大部分行人所在像素区域会出现遮挡和残缺的情况，呈现在图像中的往往只是上半身甚至是只有头部区域，这与人工智能的训练集中的行人情况不相同，因而就会造成人工智能的实际模型在使用中出现较多对行人的漏检现象。

发明内容

本发明实施例，提供了一种基于深度学习的行人检测方案，有效提升了行人检测的精度，降低了误检率。

本发明实施例的第一方面提供了一种基于深度学习的行人检测方法，包括：

接收一帧图像，所述图像中包括至少一个行人；

使用深度学习神经网络对图像进行处理，获取图像中的多个关键点及所述关键点的嵌入特征，其中，所述多个关键点至少包括人的脖颈部位、人的头部、人的肩部；所述嵌入特征与所述关键点的位置相关；

基于所述关键点的嵌入特征之间的距离，将所述关键点进行分组，形成第一组合和第二组合；所述第一组合至少包括人的头部关键点、脖颈部分关键点，所述第二组合至少包括人的肩部的关键点；

将一个或多个第一组合形成的集合与一个或多个第二组合形成的集合，进行级联匹配，匹配成功，获得检测区域。

在一个示例中，所述检测区域为人的脖颈部位、人的头部、人的肩部构成的三角形结构的最小包围矩形框。

在一个示例中，所述分组的方法包括：

计算左肩关键点、右肩关键点之间的嵌入特征的距离是否小于预设第一阈值，是，则形成第一组合；

计算人头关键点、脖颈关键点之间的嵌入特征的距离是否小于预设第二阈值，是，则形成第二组合。

在一个示例中，所述级联匹配的方法包括：在所述关键点、所述第一组合以及所述第二组合间形成集合，所述集合包括：

一个或多个所述第一组合形成的集合S，未匹配的所述左肩关键点和未匹配的所述右肩关键点形成的集合S’，一个或多个所述第二组合形成的集合B，未匹配的所述脖颈关键点和未匹配的所述人头关键点形成的集合M。

在一个示例中，

在所述集合S和所述集合B中，将完成级联匹配的所述第一组合和第二组合从集合中剔除；将集合S中的第一组合拆散并转移至集合S’中；

所述集合S’和所述集合B中，判断所述脖颈关键点与距离其最近的所述左肩关键点或右肩关键点间形成的距离是否小于所述脖颈关键点所在的所述第二组合间的距离；是，则完成所述第二组合与所述第一关键点或所述第二关键点的匹配，形成检测区域；否，匹配失败，输出剩余的所述第二组合形成的矩形作为检测区域。

在一个示例中，所述深度学习神经网络的训练方法包括：

准备训练数据，所述训练数据包括至少包括一个行人的多个图片，所述多个图片为多个场景的图片或者是多个角度的图片；

使用基于滤波器的算法对所述图片进行处理，预测所述关键点及所述嵌入特征；

将所述关键点和所述嵌入特征的信息分批输入模型进行训练，直至目标函数损失成为稳定的目标值后结束。

在一个示例中，所述处理的方法包括：

关键点热度图预测，判断对应区域中是否含有相应的关键点；

关键点热度图嵌入特征的信息输出，输出关键点热度图中每个关键点对应的嵌入特征，用于后续的匹配；

关键点位置偏移预测，将关键点热度图的预测映射回原图。

本发明实施例的第二方面提供了一种基于深度学习的行人检测装置，包括：

图像接收单元，用于接收一帧图像；

图像处理单元，使用深度学习神经网络对图像进行处理，获取图像中的多个关键点及其嵌入特征，其中，所述多个关键点至少包括人的脖颈部位、人的头部、人的肩部；

关键点组合单元，基于所述关键点的嵌入特征之间的距离，将所述关键点进行分组，形成第一组合和第二组合；所述第一组合至少包括人的头部关键点、脖颈部分关键点，所述第二组合至少包括人的肩部的关键点；

级联匹配单元，将一个或多个第一组合形成的集合与一个或多个第二组合形成的集合，进行级联匹配，匹配成功，获得检测区域。

本发明实施例的第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理是执行如上所述的方法。

本发明实施例中的再一方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理是执行如上所述的行人检测方法。

本发明的有益效果在于：

1)解决了已有的深度学习行人检测模型中，缺乏有效的针对监控视频场景下的行人特性的设计改进，导致行人检测的精度不够，误检漏检现象较多的问题。本申请实施例更加准确地完成监控视频下的行人检测分析这一任务，为相关的安防监控分析与应用提供更好的技术支持；

2)通过将检测目标由全身行人区域替换为人肩区域，并引入了人肩区域对应的四个关键点定义，大大增加了实际的监控视频中行人检测的召回率，漏检的现象得到了有效的控制和改善，在实际的测试集上测试，漏检率下降了30％以上，行人的检测召回率达到了90％以上；

3)基于提出的TriangleNet人肩检测模型和分步级联的关键点匹配策略，相比于之前的CornerNet和CenterNet模型，行人的检测精度得到了有效的提升。在实际的测试集上测试，本发明所提出的方案的行人检测平均精度达到了93.5％，充分满足了实际的安防应用中行人分析的实际需求。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的深度学习神经网络训练框架示意图；

图2为本发明实施例中的深度学习神经网络训练流程示意图；

图3为本发明实施例中的行人检测方法流程示意图；

图4为本发明实施例中的行人检测装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

行人检测这一任务，从应用的角度上来看，可以分为高空俯拍监控视频中的行人检测和低空俯拍监控视频中的行人检测，两者的主要区别体现在视频中行人所占像素区域的大小和行人被观测的视觉角度上。前者一般是安装在大楼顶楼或者无人机上的摄像头所拍摄的，行人所占的像素较小，行人被观测的角度接近于竖直向下的90度完全俯拍，行人体现在画面中主要靠头顶，身体其他部分较难被观察到；后者则一般是安装在普通的住宅和商场等室内区域中的摄像头拍摄的，行人所占像素较大，行人被观测的角度一般是45度左右的斜向下俯拍，行人体现在画面中主要靠上半身，部分情况下也能看到全身。在实际生活中，前者的应用场景比较特殊，而后者则与大多正常的生活场景相关，实际需求也更加强烈，本申请实施例解决的也是低空俯拍监控视频中的行人检测任务。

在低空俯拍监控视频中，行人的像素区域相对较大，视觉特征较为明显，因此行人检测任务会被归于图片中的特定目标检测这一任务分类，所以在传统的机器学习方法中，行人检测的主要解决方式沿用了物体检测的基本方法。同样是以滑动窗为搜索途径，通过手工设计特征抽取方式对搜索的区域进行特征抽取，再使用相关分类器判断区域对应的特征是否是行人特征，最后通过对结果的后处理来进一步对检测结果调优。在这种检测框架中，最为核心的关键点在于行人特征的设计和特征分类器的选择。在行人特征部分，较为常用的包括SIFT(Scale-invariant feature transform，尺度不变特征转换)特征、LBP(Local Binary Patterns，局部二值模式)特征、HOG(Histogram of Oriented Gradient，梯度方向直方图)特征等等，都是由人手工设计了相关的特征抽取方式，将区域图像数据转换为一个多维的向量表示，在抽取完行人特征之后，根据训练集中提供的标注信息，就可以以此训练出一个二分类器，判断某个图像区域特征是否为人脸区域的特征，这里较为常用的分类器包括SVM(Support Vector Machine，支持向量机)分类器和AdaBoost(自适应增强)分类器。

通过对上述特征和分类器的不断改进，基于传统机器学习方法的行人检测算法在速度上已经可以满足大部分应用的实际要求，然而其检测精度还不能很好地满足工业界的需要，一方面手工设计的特征完全来自于人出于某种主观分析和考虑而设计的，它并不能完全适应行人可能所处的各种场景和姿态，特征整体的表征能力还是不够，另一方面在整体的训练流程中，特征抽取和二分类器训练这两个过程是各自独立的，并没有联动地进行训练，从而导致最终的分类效果也不够好。深度学习方法则很好地解决了上述问题。

深度学习方法中的主要模型是卷积神经网络模型(CNN，Convolutional NeuralNetwork)，它是人工神经网络模型中的一种，不同的是它在进行全连接的传导之前，先将图片输入到了多个卷积层中进行卷积操作，最后再传递到全连接层进行前馈传递。这种逐步卷积的抽取方式本质上是一种对图片从局部到整体的分析抽取，从语义上看，也是一种逐步抽象的认知过程，这和生物的认知过程也十分类似，所以通过这种方式抽取的特征具有更强的表征能力。此外，网络训练时使用的是反向传播的算法，不断地对训练数据进行拟合微调，这样就使得最终的输出结果和特征抽取的过程统一在一起进行训练，让特征抽取和行人检测的效果可以互相提升。

目前，在使用深度学习模型进行人脸检测的方法中，主流的方案大致可分为两类：两步预测法和一步回归法。两步预测法的思想和传统机器学习的检测思想类似，它将检测任务分成了两步，第一步首先是利用逐层卷积的对应关系设计了一个丰富的区域关联方式，通过使用一个较弱的分类层，从待检测图片中提取出大量的可能包含行人的待选区域，第二部则是利用一个更强的分类和回归网络对上一步提出的所有待选区域进行判断，输出其是否包含行人，如果存在行人，则输出行人在待选区域中的更加精细的位置，这类方法中，最具代表性的网络就是R-CNN(Region-Convolutional Neural Network)、Fast R-CNN(Fast Region-Convolutional Neural Network)、Faster R-CNN(Faster Region-Convolutional Neural Network)这一系列网络模型。相比而言，一步回归法的思想更加直接，它考虑了逐层卷积和池化操作本身所具有的前后层对应关系，通过合理精巧的卷积参数设计和定义，将原图中的区域信息直接对应到了最后的分类输出，在一次前馈传导之后，就可以直接得到一张图片上全部的行人检测结果，也就是尝试在输入图片和输出结果之间构建一个直接的回归预测关系，因此相比而言，一步回归法的运算速度要更快，这类方法中，具有代表性的网络包括YOLO、CornerNet和CenterNet等网络模型。

综上而言，随着深度学习方法的不断发展，深度特征和分类训练的模式相比于传统机器学习方法，在精度上有了一个十分明显的提升，对于行人检测这一任务而言，采用深度学习模型已经是最为主流的方案，而这其中，两步预测法和一步回归法是当下采用的最主要的两种检测框架。

从目前行人检测技术的发展上看，相比于传统的机器学习方法，深度学习方法在精度上优势明显，但是距离实际应用还存在一定的问题。在深度学习人脸检测方法中，两步预测法拥有更好的检测精度，但是算法过于复杂的设计使得算法运算速度难以达到实用，一步回归法虽然在设计上加快了运算速度，但是却牺牲了部分检测精度。

CornerNet和CenterNet模型是目标检测研究领域在精度和速度上表现最好的深度模型之一，它本质上是一个改良后的一步回归法，针对一步回归法中的检测精度下降的问题，它将预测回归的对象转换为目标区域的角落和中心点，并通过计算嵌入向量和空间位置来完成角落之间以及角落和中心点之间的匹配，得到最终的边界框。但是，将CornerNet和CenterNet模型直接应用到行人检测任务上，还是出现了精度不够，误检和漏检较为严重的现象，模型离直接的应用还存在一定的距离。在CornerNet和CenterNet模型中，行人检测的对象是行人的全身区域，但是在实际的监控视频中，大部分行人所在像素区域会出现遮挡和残缺的情况，呈现在图像中的往往只是上半身甚至是只有头部区域，这与训练集中行人的情况是很不相同的，因而就会造成实际模型使用中出现较多漏检的现象。而在常规的深度学习行人检测方法中，对于行人这一目标，也只是将其视为普通的视觉目标，采用的解决方案也都是更加泛化的目标检测模型，并没有对行人这一特定目标所具有的特点和特性进行针对性的模型设计和优化，因而就会导致在实际的模型使用中出现较多误检和精度不够的情况。

本发明实施例提出了深度学习人肩检测方法，在已有的CornerNet和CenterNet模型上，考虑实际的低空俯拍监控视频场景和行人特性，主要进行了两个方面的针对性优化：其一是引入了人肩这一特殊的概念作为检测目标，取代了之前全身的行人检测目标，这是出于实际的监控视频中观察到的现象考虑，因为在大多监控视频中，行人的目标较大，会出现不同程度的遮挡现象，会比较严重的影响行人的检测召回率，而行人基本都是处于站立或者坐立状态，这种情况下人肩大多都可以看到，被影响的概率大大降低了；其二是在人肩位置的检测上，本发明实施例参考人体肩膀与头部的物理空间关系，我们在其中引入了新的关键点定义以及一个分步的关键点匹配策略，来保证最终输出的人肩检测区域的精度。

图1为本发明实施例中深度学习神经网络训练框架示意图，如图1所示，在本发明的实施例中，神经网络的训练采用了开源的深度学习计算框架TensorFlow，方便后续模型结构的设计和训练方法的实现，模型的前半部分的骨干网络采用了Hourglass Network进行目标特征的提取。然后通过预测模块进行热度图处理。本申请实施例中的预测模块至少有四个，分别是左肩关键点预测模块，右肩关键点预测模块，人头关键点预测模块和脖颈关键点预测模块，这四个预测模块分别将提取的特征进行中心池化后进行热度图预测，嵌入特征输出和位置偏移预测。

图2为本发明实施例中的深度学习神经网络训练流程示意图。如图2所示，深度学习神经网络训练步骤包括：

S101准备训练数据，所述训练数据包括所述训练数据包括至少包括一个行人的多个图片，所述多个图片为多个场景的图片或者是多个角度的图片；

首先需要准备大量的训练图片用于训练网络参数，训练图片均来自于日常真实的低空俯拍监控视频，且必须包含至少一个行人，同时需要获取到这些行人在图片中的位置信息，同时考虑TriangleNet中定义的人肩关键点，因此还需要知道这些行人对应的关键点的位置信息，需要包含四个关键点：左肩、右肩、颈脖、人头。由于在实际场景中，行人所出现的场景是十分多样的，行人本身的姿态等变化也十分丰富，因此在准备训练数据时，需要尽可能地包含多种不同场景下、不同行人角度的图片，通过对这些复杂多变的训练数据进行拟合学习，训练出的模型才能在更加复杂的真实场景中表现得更加鲁棒。准备好足够的训练数据之后，就可以按照后续的步骤进行模型的训练。

S102使用基于滤波器的算法对所述图片进行处理，预测所述关键点及所述嵌入特征；

S103将所述关键点和所述嵌入特征的信息分批输入模型进行训练，直至目标函数损失成为稳定的目标值后结束，得到所述深度学习神经网络。

如前所述，模型的训练采用了开源的深度学习计算框架TensorFlow，方便模型的训练方法的实现。如图1所示，模型训练过程中，对图像的预测任务主要包括三个部分，分别为，关键点热度图预测，判断对应区域中是否含有相应的关键点；关键点热度图嵌入特征的信息输出，输出关键点热度图中每个关键点对应的嵌入特征，使用本方法获取的嵌入特征为在坐标系内由两个数字构成的二维向量，表示关键点的位置，用于后续的匹配；关键点位置偏移预测，将关键点热度图的预测映射回原图，由于网络中会有降采样，可能会有一定程度的偏移，预测这种偏移来使得关键点的位置预测更加精准。在训练时，本发明实施例中的关键点以热度图中热度值最高的点为目标进行训练。

每个预测模块的这三个子任务作为训练目标，它们的损失函数对应如下：

关键点热度图预测

在本发明的实施例中，热度图预测任务使用交叉熵函数，其中，

N表示图像中对象的数量；

α和β表示控制每个点的贡献的超参数；

H表示图像中对象高度；W表示图像中对象宽度；

p_ij表示预测概率；

y_ij表示ground-truth，对于每个角点，有一个ground-truth正位置，其他所有的位置都是负值；

L_det表示关键点预测损失值；

在本发明的一些实施例中，将α设置为2，β设置为4。训练中，利用y_ij中编码的高斯凸起，(1-y_ij)项减少了真实位置周围的惩罚

关键点热度图嵌入特征输出

其中，e_tk表示边界框左上角点；

e_bk表示边界框右下角点；

e_j表示任意两个框距离；

L_pull表示同一边界框内一对角点的差异最小值；

L_push表示任意两个边界框的差异最大值；

在本发明的实施例中，采用“pull”损失训练网络将角落分组，并将“push”损失分开角落，其中e_k是e_tk和e_bk的平均值，在本发明的一些实施例中，中将△设置为1。

关键点位置偏移预测

其中，o_k是偏移量，x_k和y_k是角k的x和y坐标。

n是放缩倍数；

N是图像中对象的数量；

对于训练，我们在真实角落位置应用平滑的L1 Loss。

S103将所述特征信息分批输入模型进行训练，直至目标函数损失成为稳定的目标值后结束，得到所述深度学习神经网络。

其中，根据本发明的具体实施例，定义了上述三个子任务对应的损失函数之后，期望的结果是经过训练之后网络可以在这三个子任务上都能达到一个好的拟合效果，因此，整个模型的目标函数如下所示：

min(a₁·L_det+a₂·L_pull+a₃·L_push+a₄·L_off)

其中a_i表示每个子任务对应的权重值，根据本发明的具体实施例，可以根据训练的侧重点来自行选择设置，当某个任务设置的权重越大，就表示该任务的训练要求也越高。在本发明的一些优选的实施例中，a₁、a₂、a₃、a₄权重分布是(1.0,0.5,0.5,1.0)。

确定目标函数之后，使用反向传播和随机梯度下降的方式来进行模型参数的迭代训练，将上述准备好的训练数据分批输入到训练过程中，直至最终目标函数损失达到一个可接受的较小值且趋于稳定，神经网络的训练基本结束。

此外，本发明实施例中的神经网络除了上述的用于对图像进行处理，获取图像中的多个关键点及其嵌入特征的特征提取层外，还包括级联匹配层，级联匹配层的配对算法为CornerNet和CenterNet中的配对算法，具体方式在此不做赘述。

神经网络的训练结束后，使用训练好的深度学习神经网络进行检测；图3为本发明实施例中的行人检测方法流程示意图，如图3所示，包括：

S201接收一帧图像，所述图像中包括至少一个行人；

S202使用深度学习神经网络对图像进行处理，获取图像中的多个关键点及所述关键点的嵌入特征，其中，所述多个关键点至少包括人的脖颈部位、人的头部、人的肩部；所述嵌入特征与所述关键点的位置相关；

S203基于所述关键点的嵌入特征之间的距离，将所述关键点进行分组，形成第一组合和第二组合；所述第一组合至少包括人的头部关键点、脖颈部分关键点，所述第二组合至少包括人的肩部的关键点；

S204将一个或多个第一组合形成的集合与一个或多个第二组合形成的集合，进行级联匹配，匹配成功，获得检测区域。

准备图像数据，获取关键点的信息输出，使用上述训练好的神经网络对图像进行处理，获取图像中的多个关键点及所述关键点的嵌入特征，也即得到图片中的所有的四类关键点。

基于所述关键点的嵌入特征的距离，计算左肩关键点、右肩关键点之间的嵌入特征的距离是否小于阈值，是，则形成第一组合；否，组合失败；计算人头关键点、脖颈关键点之间的嵌入特征的距离是否小于阈值，是，则形成第二组合，否，组合失败。使用上述方式，分别形成第一组合和第二组合。

将一个或多个第一分组形成的集合与一个或多个第二分组形成的集合，基于是否满足人的脖颈始终位于人的肩部中心的位置关系，进行级联匹配，匹配成功，获得检测区域。

此外，在实际的监控视频中，每个人肩的成像不一定是完全完整的，虽然人肩相比于行人全身区域，被遮挡的概率大大降低，但是依然会出现人肩被部分遮挡的情况，在这种特殊情况下，其中需要被关注并输出人肩位置的情况有三种：人头、颈脖和左肩，此时为侧面视角，右肩被遮挡；人头、颈脖和右肩，此时为侧面视角，左肩被遮挡；人头、颈脖，此时双肩都被遮挡。人头和颈脖作为人肩检测的基本关键点必须要包含在人肩区域，为了保证精度，以上三种之外的特殊遮挡情况则不考虑输出检测区域。

为了更好的应对遮挡情况下的人肩匹配问题，在进行关键点匹配时，本发明实施例进一步提供了一种分步的级联匹配方案，来更好地完成关键点之间的关联匹配，具体如下：

通过计算左肩关键点和右肩关键点对应的嵌入特征之间的距离，来进行两个肩膀关键点的关联匹配，得到由肩膀对形成的第一组合，所有的第一组合形成集合S以及没有匹配上的所有左肩关键点、右肩关键点集合S’；

通过计算人头关键点和脖颈关键点检测中对应的嵌入特征之间的距离，来进行两个关键点的关联匹配，得到人头关键点和脖颈关键点匹配对第二组合，所有的第二组合形成集合B。没有匹配上的所有人头关键点成为集合H，没有匹配上的所有脖颈关键点成为集合N；在本发明的一些实施例中，将集合H和集合N统称为M，在实际检测中，将集合M中的关键点舍弃，匹配时不予考虑。

依次判断集合S中的所有肩膀对，判断肩膀对的中心点附近区域是否包含集合B中某个脖颈关键点，如果有，则三角形结构(Triangle)匹配成功，从集合B中剔除匹配上的人头和脖颈对，匹配成功后，输出三角形结构的最小包围矩形框作为检测区域。没有匹配的，则将其加入到集合S’中；

依次判断集合B中的所有人头关键点和颈脖关键点匹配对，判断脖颈关键点周围，S’中距离其最短的肩膀关键点(包括左肩关键点和右肩关键点)与脖颈关键点的距离是否小于人头关键点和脖颈关键点的距离，如果是，则三者匹配成功，从S’中剔除匹配的肩膀关键点，同时输出三者的最小包围矩形作为一个人肩区域，完成侧面视角的人肩检测；如果不是，则输出人头关键点和颈脖关键点构成的矩形作为一个人肩区域，完成双肩都被遮挡时人肩的检测。

本发明的实施例中，使用脖颈关键点作为串联点来完成三角形人肩结构的匹配。依照关键点检测中对应的嵌入特征之间的距离将上述四个进行分类，然后基于一个物理事实：无论人肩和人头如何扭动变化，颈脖的位置基本都处于两个肩膀的中心位置附近，因此组合通过以上位置关系进行匹配，构成了最终的人肩目标的三角形结构(Triangle)，最终输出三角形结构的最小包围矩形作为检测区域。

根据本发明实施例的另一方面，本发明提供了一种基于深度学习的行人检测装置，图4为本发明实施例中的行人检测装置结构示意图，如图4所示，包括：

图像接收单元101，用于接收一帧图像；

图像处理单元102，使用深度学习神经网络对图像进行处理，获取图像中的多个关键点及其嵌入特征，其中，所述多个关键点至少包括人的脖颈部位、人的头部、人的肩部；

关键点组合单元103，基于所述关键点的嵌入特征之间的距离，将所述关键点进行分组，形成第一组合和第二组合；所述第一组合至少包括人的头部关键点、脖颈部分关键点，所述第二组合至少包括人的肩部的关键点；

级联匹配单元104，将一个或多个第一组合形成的集合与一个或多个第二组合形成的集合，进行级联匹配，匹配成功，获得检测区域。

根据本发明实施例的再一方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理时执行上述实施例中的检测方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于深度学习的行人检测方法，其特征在于，包括：

接收一帧图像，所述图像中包括至少一个行人；

2.根据权利要求1所述的方法，其特征在于，所述检测区域为人的脖颈部位、人的头部、人的肩部构成的三角形结构的最小包围矩形框。

3.根据权利要求1所述的行人检测方法，其特征在于，所述分组的方法包括：

4.根据权利要求3所述的行人检测方法，其特征在于，所述级联匹配的方法包括：在所述关键点、所述第一组合以及所述第二组合间形成集合，所述集合包括：

5.根据权利要求3所述的行人检测方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，所述深度学习神经网络的训练方法包括：

7.根据权利要求1所述的方法，其特征在于，所述处理的方法包括：

关键点位置偏移预测，将关键点热度图的预测映射回原图。

8.一种基于深度学习的行人检测装置，其特征在于，包括：

图像接收单元，用于接收一帧图像；

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其特征在于，所述计算机程序被处理是执行如权利要求1-8任一项所述的方法。