CN113591735A

CN113591735A - 一种基于深度学习的行人检测方法及系统

Info

Publication number: CN113591735A
Application number: CN202110888864.1A
Authority: CN
Inventors: 钱瀚欣; 胡景晨
Original assignee: Shanghai New Era Robot Co ltd
Current assignee: Shanghai New Era Robot Co ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-11-02

Abstract

本申请公开了一种基于深度学习的行人检测方法及系统，该方法包括:获取指定大小的待检测的行人环境图像；将行人环境图像输入训练好的行人识别神经网络模型；对行人环境图进行特征提取，生成预设大小的特征图；基于特征图进行分类检测，将当前滑窗作为候选框，获取M个候选框；对每个候选框进行回归处理，调整每个候选框的尺寸，生成检测框；获取每个检测框的分类得分和回归得分和检测总分；将所有检测框按照检测总分的高低进行排序，选取检测总分排名靠前的K个检测框作为目标框；输出K个目标框的坐标以及对应目标框中的行人概率。本申请针对行人检测的场景，将分类损失引入到正样本的匹配过程中，消除了冗余的预测框，省去了NMS的处理。

Description

一种基于深度学习的行人检测方法及系统

技术领域

本发明涉及机器人技术领域，尤其涉及一种基于深度学习的行人检测方法及系统。

背景技术

在公共场所，例如：机场、商场、公园广场等行人相对密集的场景，为了识别不同视角的非重叠监控场景下的行人身份，行人重识别技术得到广泛发展，尤其是在监控视频领域。由于不同监控场景下同一行人存在背景、光照、朝向等差异大的问题，在行人相对密集的场所如何对行人实例级检测和行人再识别，在检索库中检索难度较大。

在当前的目标检测方法中，标签的匹配是一个非常重要的环节，目前的匹配方式主要基于交并比(Intersection Over Union，IOU)，当候选框和基准真值(ground truth，gt)的IOU高于设定的阈值时，则匹配为正样本，我们把这种方式称为“框分配”。在进行框匹配时，需要预设大量的anchor框，而anchor框的大小、比例，对于性能的影响很大，而且需要手工的去设计这些anchor框。另一种方法为anchor free，这种方法将网格点作为样本，看网格点与目标点的距离以及网格点是否在目标内部来判断是否为正样本。我们将这种方式称为“点分配”。这两种方法都有一个共同的问题，就是“多对一”，对于一个gt，有大量正样本与之匹配。这样使得模型的性能对于超参数很敏感，而且容易产生冗余的检测结果，影响实时性。

如何在行人检测时，避免生成冗余的检测结果，避免使用NMS,从而提交实时性，是目前要解决的问题。

发明内容

本申请提出了一种基于深度学习的行人检测方法及系统，针对行人检测的场景，将分类与回归巧妙的结合处理，无需遍历获取所有包含行人的框，从而产生大量的冗余框。而只需要在进行分类检测，获取到若干个包含行人的框，甚至是1个包含行人的框后，便立即停止分类检测，转而对获取到的框进行回归处理，从而大大减少了冗余的预测框，无需NMS，且能及时获取检测结果，且检测精度也很高。

本发明第一方面公开了一种基于深度学习的行人检测方法，包括：

获取指定大小的待检测的行人环境图像；

将行人环境图像输入训练好的行人识别神经网络模型；

通过行人识别神经网络模型对行人环境图进行特征提取，生成预设大小的特征图；

基于特征图进行分类检测，当检测到当前滑窗中包含有行人时，将当前滑窗作为候选框，当获取到M个候选框时，停止当前的分类检测；其中，M≥1；

基于特征图，对每个候选框进行回归处理，调整每个候选框的尺寸，生成对应的检测框；

获取每个检测框的分类得分和回归得分，并基于设置的分类权重和回归权重，获取每个检测框的检测总分；

将所有检测框按照检测总分的高低进行排序，选取检测总分排名靠前的K个检测框作为目标框；其中，K≤M；

输出K个目标框的坐标以及对应目标框中的行人概率。

可选地，对每个候选框进行回归处理，调整每个候选框的尺寸，生成对应的检测框具体包括：

对每个候选框的尺寸进行放大或缩小处理，优化候选框的定位；每次放大或缩小按照预设步长像素进行操作；

当调整后的当前候选框的IOU值高于将当前候选框放大一步后的IOU值，以及高于将当前候选框缩小一步后的IOU值时，将调整后的当前候选框作为检测框。

可选地，行人识别神经网络模型的损失函数的计算公式如下：

Loss＝αLoss_cls+βLoss_reg (1)

其中，Loss_cls为分类损失函数，Loss_reg为回归损失函数，α为分类损失函数的损失系数，β为回归损失函数的损失系数。

可选地，通过行人识别神经网络模型对行人环境图进行特征提取，生成预设大小的特征图具体包括：

对指定大小的行人环境图进行特征提取，生成初始特征图；

在初始特征图基础上，通过若干次卷积和池化，生成不同尺度的特征图；

再对各不同尺度的特征图进行不断上采样，直到得到预设大小的特征图。

可选地，行人环境图像的指定大小为H×W×3；所述行人识别神经网络模型的输入层接收到H×W×3的行人环境图像后，对其进行特征提取，生成预设大小的特征图具体包括：

通过行人识别神经网络模型的主干网络的残差层，生成H/4×W/4的初始特征图；

将初始特征图经过2*2卷积、池化，生成H/8×W/8的特征图；

将H/8×W/8的特征图经过2×2卷积、池化，生成H/16×W/16的特征图；

将H/16×W/16的特征图经过2×2卷积、池化，生成H/32×W/32的特征图；

将H/32×W/32的特征图相加生成新的特征图；

将各特征图不断的上采样，直到得到H/4×W/4的特征图。

可选地，M＝K＝1；则基于特征图进行分类检测，当检测到当前滑窗中包含有行人时，将当前滑窗作为候选框，当获取到M个候选框时，停止当前的分类检测具体包括：

基于预设大小的特征图，通过指定步长的滑窗进行分类检测；

若通过特征比对，判断当前滑窗中包含有人脸特征时，将当前滑窗作为候选框，并停止当前的分类检测，进入后续的回归处理步骤。

本发明第二方面公开了一种基于深度学习的行人检测系统，包括：图像获取模块，用于获取指定大小的待检测的行人环境图像；

输入模块，用于将行人环境图像输入训练好的行人识别神经网络模型；

特征提取模块，用于通过行人识别神经网络模型对行人环境图进行特征提取，生成预设大小的特征图；

分类检测模块，用于基于特征图进行分类检测，当检测到当前滑窗中包含有行人时，将当前滑窗作为候选框，当获取到M个候选框时，停止当前的分类检测；其中，M≥1；

回归处理模块，用于基于特征图，对每个候选框进行回归处理，调整每个候选框的尺寸，生成对应的检测框；

评分排序模块，用于获取每个检测框的分类得分和回归得分，并基于设置的分类权重和回归权重，获取每个检测框的检测总分；并将所有检测框按照检测总分的高低进行排序，选取检测总分排名靠前的K个检测框作为目标框；其中，K≤M；

输出模块，用于输出K个目标框的坐标以及对应目标框中的行人概率。

可选地，回归处理模块具体包括：

尺寸调节子模块，用于对每个候选框的尺寸进行放大或缩小处理，优化候选框的定位；每次放大或缩小的按照预设步长像素进行操作；

计算比对子模块，用于当调整后的当前候选框的IOU值高于将当前候选框放大一步后的IOU值，以及高于将当前候选框缩小一步后的IOU值时，将当前候选框作为检测框。

Loss＝αLoss_cls+βLoss_reg (1)

可选地，分类检测模块具体包括：

滑窗检测子模块，用于基于预设大小的特征图，通过指定步长的滑窗进行分类检测；

特征比对子模块，用于若通过特征比对，判断当前滑窗中包含有人脸特征时，将当前滑窗作为候选框；

判断通知子模块，用于判断候选框数量达到M时，通知滑窗检测子模块停止当前的分类检测，通知回归处理模块对候选框进行回归处理；

其中，若M＝K＝1，则判断通知子模块在特征比对子模块确定了第一个候选框时，通知滑窗检测子模块停止当前的分类检测，通知回归处理模块对第一个候选框进行回归处理。

本发明实施例的技术方案针对行人检测的场景，通过端到端的算法设计，将分类损失引入到正样本的匹配过程中，对于一个gt，只分配若干个正样本，甚至只分配一个正样本，其他的都是负样本，消除了冗余的预测框，不再需要NMS处理，实现快速实时行人检测。

附图说明

图1是本发明实施例提供的一种基于深度学习的行人检测方法的原理示意图；

图2是本发明实施例提供的又一种基于深度学习的行人检测方法的原理示意图；

图3是本发明实施例提供的一种基于深度学习的行人检测系统原理示意图。

具体实施方式

在本发明的说明书中，具有相同名称的部件具有相同或相似的功能、位置关系和连接关系；具有相同或类似标记的信号具有相同或相似的功能、发送部件和接收部件。

为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例进行详细说明。

实施例一

图1是本发明实施例提供的一种基于深度学习的行人检测方法的原理示意图，具体步骤为：

S110：获取指定大小的待检测的行人环境图像。

S120：将所述行人环境图像输入训练好的行人识别神经网络模型。

S130：通过所述行人识别神经网络模型对所述行人环境图进行特征提取，生成预设大小的特征图。

S140：基于所述特征图进行分类检测，当检测到当前滑窗中包含有行人时，将所述当前滑窗作为候选框，当获取到M个候选框时，停止当前的分类检测。其中，M≥1；

S150：基于所述特征图，对每个候选框进行回归处理，调整每个候选框的尺寸，生成对应的检测框。

S160：获取每个检测框的分类得分和回归得分，并基于设置的分类权重和回归权重，获取每个检测框的检测总分。

S170：将所有检测框按照检测总分的高低进行排序，选取检测总分排名靠前的K个检测框作为目标框。其中，K≤M。

S180：输出K个目标框的坐标以及对应目标框中的行人概率。

在步骤S110的执行中，用机器人携带的摄像头拍摄机器人周围环境，获取指定大小的待检测的行人环境图像。

在步骤S120的执行中，将行人环境图像输入训练好的行人识别神经网络模型。神经网络包括多个卷积块，每个卷积块由多个卷积层构成，不同卷积块之间由池化层连接。

在步骤S130的执行中，通过行人识别神经网络模型对所述行人环境图进行特征提取，也就是提取具有辨识度的视觉特征，如外观，姿态等，特征提取旨在对预处理后的行人图像提取外观信息，并表示成特征向量，用于计算不同行人图片之间的相似性。进行特征提取后，生成预设大小的特征图。

在步骤S140的执行中，基于特征图进行分类检测，如果要做的分类检测为行人，当检测到当前滑窗中包含有行人时，也就说检测到当前滑窗中含有行人特征，则将当前滑窗作为候选框，当获取到M个候选框时(M≥1)，就停止分类检测，只做回归检测。较佳的，M<10，M的取值一般不宜过大，一般的M的取值便代表了正样本的个数，若过多，则容易造成冗余，增加工作量。此外，这一步骤中，只选择有限个(若干个)行人的滑窗做为候选框，无需把所有含有行人的框都找出来，从而消除了冗余的预测框。

上述步骤中检测到当前滑窗中含有行人具体包括：检测到当前滑窗的IOU值大于预设值，则判定当前滑窗中含有行人。

在步骤S150的执行中，基于特征图，对每个候选框进行回归处理，调整每个候选框的尺寸，使生成对应的检测框，该步骤的目的是通过修正检测框，将其修正到最好的位置。

在步骤S160的执行中，获取每个检测框的分类得分和回归得分，比如待识别的类别为行人，分类得分即为是行人的概率。在回归过程中，不断调整检测框的位置，回归得分为每个位置得到特征图与基准真值的交并比。基于设置的分类权重和回归权重，获取每个检测框的检测总分，即将分类得分和回归得分，按权重相加之和，得到每个检测框的检测总分。

在步骤S170的执行中，将所有检测框按照检测总分的高低进行排序，选取检测总分排名靠前的K个检测框作为目标框。其中，K≤M，如果K＝1时，即最终的目标框只有一个。

具体的，假设分类权重为0.6，回归权重为0.4；假设M＝2,K＝1；也就是说最后只获得了两个检测框(两个候选框对应)，若检测框1的分类得分是1，回归得分是0.94；检测框2的分类得分也是1，而回归得分是0.9的话，则检测框1的检测总分为：1*0.6+0.4*0.94＝0.976；检测框2的检测总分为：1*0.6+0.4*0.9＝0.96；通过比较，便可获得总分高的是检测框1，因此，若K＝1,最终输出的是1个检测框的分类结果和回归坐标的话，则该检测框1便为目标框，最终输出的就是检测框1包含行人的概率，以及检测框1的位置坐标。

在步骤S180的执行中：输出K个目标框的坐标以及对应目标框中的行人概率。若K＝2，即将检测总分排名前2的两个检测框都做为目标框。最后按照总分排序，依次输出这两个目标框各自的行人概率及对应坐标。

现有技术中是通过滑窗将特征图完整的遍历一遍，找出所有含有行人的滑窗，再计算一下所有含有行人的滑窗的各自的IOU，把IOU值最高的留下，其它剔除掉，即NMS的处理。本发明实施例的技术方案针对行人检测的场景，将分类损失引入到正样本的匹配过程中，对于一个gt，只分配有限个正样本，其他的都是负样本，即只选择M个(若干个)含有有行人特征的滑窗做为候选框，一旦找到了M个候选框后，便不会再继续去遍历寻找，而是对找到的这几个候选框的位置进行不断的调整，以找到各候选框的最佳位置坐标，生成检测框。最后对各检测框进行分类和回归打分，最终按照评分高低确定最终输出的一个或多个检测框。本实施例中，由于不需要遍历找出所有含有行人特征的滑窗，从而消除了冗余的预测框(滑窗)，无需NMS。因为NMS比较耗时，实时性比较差。去掉NMS后实现了快速实时的行人检测。

实施例二

本实施例的基于深度学习的行人检测方法，在上述方法实施例的基础上，较佳的，在S150的步骤中，对每个候选框进行回归处理，调整每个候选框的尺寸，生成对应的检测框具体包括：对每个候选框的尺寸进行放大或缩小处理，优化所述候选框的定位。每次放大或缩小按照预设步长像素进行操作。

当调整后的当前候选框的IOU值高于将当前候选框放大一步后的IOU值，以及高于将当前候选框缩小一步后的IOU值时，将所述调整后的当前候选框作为检测框。即将每个候选框的尺寸进行放大处理时，如果当放大后的候选框的IOU值高于将当前候选框的IOU值时，选取放大后的选框作为检测框的位置。同理将每个候选框的尺寸进行缩小处理时，当缩小后的候选框的IOU值高于将当前候选框的IOU值时，选取缩小后的选框作为检测框的位置。

具体的，在获取到M个候选框后，再对各候选框做位置调整处理，比如，设定M＝5,K＝3，则在获取到5个包含行人的候选框后，停止当前对特征图的检测，再针对获取到的这5个候选框分别进行位置坐标调整，以获得各自的最佳位置。比如，第一个候选框，通过尝试性的尺寸调整，比如将该第一个候选框的尺寸整体放大10％，然后看放大后的候选框的IOU值与放大前的IOU值相比，是否有增大，若IOU值在放大处理后增大了，则再继续进行下一步放大处理，若放大处理后IOU值变小了，则再考虑将放大前的原候选框进行缩小处理，缩小10％，再比较尺寸缩小前后的IOU值的大小，通过不断的尺寸调整比较，从而确定出调整后IOU值最高的框作为第一候选框对应的检测框。

较佳的，关于对候选框的尺寸进行放大或缩小处理，这里的放大或缩小处理，可以是整体性的，也可以是局部性的。具体的，除了前面所说的采用整体性将尺寸放大或者缩小处理外，还可以对候选框(矩形)的四条边中的任一条边进行调整，以形成新的矩形的候选框。比如将其中的一条边平移(相邻的边同步适用性延长或缩短，对立的边可保持不动)。

更佳的，除了可以对候选框的尺寸可以进行放大或者缩小处理外，还可以对候选框进行移动处理，比如，在放大或者缩小处理后，还可以平移，或者上下移动，当然，调整的规则我们可以预设，不管采用什么样的方式，最终都是要获得一个相对的最佳位置作为当前候选框对应的检测框的坐标位置。

实施例三

图2是本发明实施例提供的又一种基于深度学习的行人检测方法的原理示意图。

通过行人识别神经网络模型对所述行人环境图进行特征提取，生成预设大小的特征图具体包括：对指定大小的行人环境图进行特征提取，生成初始特征图。在初始特征图基础上，通过若干次卷积和池化，生成不同尺度的特征图。再对各不同尺度的特征图进行不断上采样，直到得到预设大小的特征图。

行人环境图像的指定大小为H×W×3。行人识别神经网络模型的输入层接收到H×W×3的行人环境图像后，对其进行特征提取，生成预设大小的特征图具体包括：

步骤1、通过行人识别神经网络模型的主干网络的残差层，生成H/4×W/4的初始特征图。

步骤2、将初始特征图经过2*2卷积、池化，生成H/8×W/8的特征图。

步骤3、将H/8×W/8的特征图经过2×2卷积、池化，生成H/16×W/16的特征图。

步骤4、将H/16×W/16的特征图经过2×2卷积、池化，生成H/32×W/32的特征图。

步骤5、将H/32×W/32的特征图相加生成新的特征图。

步骤6、将各特征图不断的上采样，即在回归过程中，不断调整检测框的位置，直到得到H/4×W/4的特征图。

H和W分别为图像的高和宽。步骤1-步骤4为生成不同尺度的特征图。

较佳的，人识别神经网络模型的损失函数的计算公式如下：

Loss＝αLoss_cls+βLoss_reg (1)

其中，Loss_cls为分类损失函数，Loss_reg为回归损失函数，α为所述分类损失函数的损失系数，β为所述回归损失函数的损失系数。

本发明实施例中待识别的类别为行人。Loss_cls(分类损失函数)与α的乘积为分类得分，即是行人的概率。Loss_reg(回归损失函数)与β的乘积得到回归得分。回归得分为每个位置得到特征图与基准真值的交并比。基于设置的分类权重和回归权重，获取每个检测框的检测总分，即将分类得分和回归得分，按权重相加之和，得到每个检测框的检测总分。

其中回归框H/4×W/4*4(bounding box)为位置，具体的坐标数值。top K即将所有检测框按照检测总分的高低进行排序，选取检测总分排名靠前的K个检测框作为目标框。OUT为最终检测结果。

实施例四

本实施例在上述任一实施例的基础上，设定M＝K＝1。则基于特征图进行分类检测，当检测到当前滑窗中包含有行人时，将当前滑窗作为候选框，当获取到M个候选框时，停止当前的分类检测具体包括：基于预设大小的特征图，通过指定步长的滑窗进行分类检测。若通过特征比对，判断当前滑窗中包含有人脸特征时，将当前滑窗作为候选框，并停止当前的分类检测，进入后续的回归处理步骤。当待识别的只有行人时，此时K＝1，最终的目标框只有一个。当检测到当前滑窗中包含有行人时，将当前滑窗作为候选框，当获取到一个候选框时，就停止分类检测，只做回归检测。只选择有行人的滑窗做为候选框，而丢弃其他不含行人的滑窗，消除了冗余的预测框。

具体的，本实施例中，在获取到预设大小的特征图后，会先对特征图进行分类检测，一旦检测到含有行人的框(滑窗)后，便会立即停止做分类检测，也就不需要再通过滑窗遍历整个特征图，一旦发现目标便停止，从而大大减小了冗余框的产生。而由于我们是一旦发现目标(行人)便停止了，而当前发现目标的框很可能不是较佳的框，因此，我们引入了回归处理，即在发现了目标锁定了候选框后，基于该候选框做位置的调整，通过不断的位置调整，使得这个候选框找到最佳的尺寸位置，该最佳的尺寸位置的框我们视为目标框，最后输出将该目标框的行人概率以及框的坐标位置。

实施例五

如图3所示，本发明实施例提供的一种基于深度学习的行人检测系统200，该行人检测系统应用上述任一实施例的行人检测方法，包括：

图像获取模块210，用于获取指定大小的待检测的行人环境图像。

输入模块220，用于将行人环境图像输入训练好的行人识别神经网络模型。

特征提取模块230，用于通过行人识别神经网络模型对行人环境图进行特征提取，生成预设大小的特征图。

分类检测模块240，用于基于特征图进行分类检测，当检测到当前滑窗中包含有行人时，将当前滑窗作为候选框，当获取到M个候选框时，停止当前的分类检测。其中，M≥1；

回归处理模块250，用于基于特征图，对每个候选框进行回归处理，调整每个候选框的尺寸，生成对应的检测框。

评分排序模块260，用于获取每个检测框的分类得分和回归得分，并基于设置的分类权重和回归权重，获取每个检测框的检测总分。并将所有检测框按照检测总分的高低进行排序，选取检测总分排名靠前的K个检测框作为目标框。其中，K≤M。

输出模块270，用于输出K个目标框的坐标以及对应目标框中的行人概率。

较佳的，回归处理模块具体包括：

尺寸调节子模块，用于对每个候选框的尺寸进行放大或缩小处理，优化候选框的定位。每次放大或缩小的按照预设步长像素进行操作。

较佳的，行人识别神经网络模型的损失函数的计算公式如下：

Loss＝αLoss_cls+βLoss_reg (1)

较佳的，分类检测模块具体包括：

滑窗检测子模块，用于基于预设大小的特征图，通过指定步长的滑窗进行分类检测。

特征比对子模块，用于若通过特征比对，判断当前滑窗中包含有人脸特征时，将当前滑窗作为候选框。

最后，我们再来简单对比下我们的方案与现有技术的方案，具体如下表1所示：

表1

	现有技术中行人检测算法	本申请方案
			网络结构	一阶段或者两阶段，加后处理	一阶段端到端无,需NMS后处理
推理效率	低	很高，无需NMS后处理
			模型训练	方法多样	多头训练
用户体验	很差	很好

表1为现有技术中行人检测算法与本专利的行人检测算法的对比图。现有技术中行人检测算法需要NSM的后续处理，本发明实施例的技术方案针对行人检测的场景，将分类损失引入到正样本的匹配过程中，对于一个gt，只分配若干个正样本，甚至只分配一个正样本，其他的都是负样本，消除了冗余的预测框，无需NMS后处理，因为NMS比较耗时,实时性比较差。去掉NMS后实现快速实时的行人检测。因此检测效率高，用户体验好。本发明实施例的技术方案，适合多头训练，即类别和回归可以分别训练，检测结果可以直接用于行人的侦查：入侵检测和人脸识别等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种基于深度学习的行人检测方法，其特征在于，包括：

获取指定大小的待检测的行人环境图像；

将所述行人环境图像输入训练好的行人识别神经网络模型；

通过所述行人识别神经网络模型对所述行人环境图进行特征提取，生成预设大小的特征图；

基于所述特征图进行分类检测，当检测到当前滑窗中包含有行人时，将所述当前滑窗作为候选框，当获取到M个候选框时，停止当前的分类检测；其中，M≥1；

基于所述特征图，对每个候选框进行回归处理，调整每个候选框的尺寸，生成对应的检测框；

输出K个目标框的坐标以及对应目标框中的行人概率。

2.根据权利要求1所述的一种基于深度学习的行人检测方法，其特征在于，所述对每个候选框进行回归处理，调整每个候选框的尺寸，生成对应的检测框具体包括：

对每个候选框的尺寸进行放大或缩小处理，优化所述候选框的定位；每次放大或缩小按照预设步长像素进行操作；

当调整后的当前候选框的IOU值高于将当前候选框放大一步后的IOU值，以及高于将当前候选框缩小一步后的IOU值时，将所述调整后的当前候选框作为检测框。

3.根据权利要求1所述的一种基于深度学习的行人检测方法，其特征在于，所述行人识别神经网络模型的损失函数的计算公式如下：

Loss＝αLoss_cls+βLoss_reg (1)

其中，所述Loss_cls为分类损失函数，所述Loss_reg为回归损失函数，α为所述分类损失函数的损失系数，β为所述回归损失函数的损失系数。

4.根据权利要求1所述的一种基于深度学习的行人检测方法，其特征在于，所述通过所述行人识别神经网络模型对所述行人环境图进行特征提取，生成预设大小的特征图具体包括：

对所述指定大小的行人环境图进行特征提取，生成初始特征图；

在所述初始特征图基础上，通过若干次卷积和池化，生成不同尺度的特征图；

5.根据权利要求1或4所述的一种基于深度学习的行人检测方法，其特征在于，所述行人环境图像的指定大小为H×W×3；所述行人识别神经网络模型的输入层接收到H×W×3的行人环境图像后，对其进行特征提取，生成预设大小的特征图具体包括：

通过所述行人识别神经网络模型的主干网络的残差层，生成H/4×W/4的初始特征图；

将所述初始特征图经过2*2卷积、池化，生成H/8×W/8的特征图；

将所述H/8×W/8的特征图经过2×2卷积、池化，生成H/16×W/16的特征图；

将所述H/16×W/16的特征图经过2×2卷积、池化，生成H/32×W/32的特征图；

将H/32×W/32的特征图相加生成新的特征图；

将各特征图不断的上采样，直到得到H/4×W/4的特征图。

6.根据权利要求1所述的一种基于深度学习的行人检测方法，其特征在于，所述M＝K＝1；则基于所述特征图进行分类检测，当检测到当前滑窗中包含有行人时，将所述当前滑窗作为候选框，当获取到M个候选框时，停止当前的分类检测具体包括：

基于所述预设大小的特征图，通过指定步长的滑窗进行分类检测；

若通过特征比对，判断当前滑窗中包含有人脸特征时，将所述当前滑窗作为候选框，并停止当前的分类检测，进入后续的回归处理步骤。

7.一种基于深度学习的行人检测系统，其特征在于包括：

图像获取模块，用于获取指定大小的待检测的行人环境图像；

输入模块，用于将所述行人环境图像输入训练好的行人识别神经网络模型；

特征提取模块，用于通过所述行人识别神经网络模型对所述行人环境图进行特征提取，生成预设大小的特征图；

分类检测模块，用于基于所述特征图进行分类检测，当检测到当前滑窗中包含有行人时，将所述当前滑窗作为候选框，当获取到M个候选框时，停止当前的分类检测；其中，M≥1；

回归处理模块，用于基于所述特征图，对每个候选框进行回归处理，调整每个候选框的尺寸，生成对应的检测框；

8.根据权利要求7所述的一种基于深度学习的行人检测系统，其特征在于，所述回归处理模块具体包括：

尺寸调节子模块，用于对每个候选框的尺寸进行放大或缩小处理，优化所述候选框的定位；每次放大或缩小的按照预设步长像素进行操作；

计算比对子模块，用于当调整后的当前候选框的IOU值高于将当前候选框放大一步后的IOU值，以及高于将当前候选框缩小一步后的IOU值时，将所述当前候选框作为检测框。

9.根据权利要求7所述的一种基于深度学习的行人检测系统，其特征在于，所述行人识别神经网络模型的损失函数的计算公式如下：

Loss＝αLoss_cls+βLoss_reg (1)

10.根据权利要求7-9任一项所述的一种基于深度学习的行人检测系统，其特征在于，所述分类检测模块具体包括：

滑窗检测子模块，用于基于所述预设大小的特征图，通过指定步长的滑窗进行分类检测；

特征比对子模块，用于若通过特征比对，判断当前滑窗中包含有人脸特征时，将所述当前滑窗作为候选框；

判断通知子模块，用于判断所述候选框数量达到M时，通知所述滑窗检测子模块停止当前的分类检测，通知所述回归处理模块对所述候选框进行回归处理；

其中，若所述M＝K＝1，则所述判断通知子模块在所述特征比对子模块确定了第一个候选框时，通知所述滑窗检测子模块停止当前的分类检测，通知所述回归处理模块对所述第一个候选框进行回归处理。