CN109635694A

CN109635694A - 一种行人检测方法、装置、设备及计算机可读存储介质

Info

Publication number: CN109635694A
Application number: CN201811468318.7A
Authority: CN
Inventors: 刘文印; 文芳; 林泽航; 杨振国
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-16
Anticipated expiration: 2038-12-03
Also published as: CN109635694B

Abstract

本发明公开了一种行人检测方法，提取拍摄的行人图像得到可见部分边界框图；将行人图像输入检测器，将检测器中的第N级检测层的输出和可见部分边界框图输入至语义分割模型，语义分割模型输出语义注意力图及语义分割损失；将语义注意力图输入检测器第N+1级检测层，检测器输出预测边界框图及检测损失；计算语义分割损失和检测损失之和，得到总损失；若总损失大于预设损失阈值，按照预设规则调整所述检测器以及所述语义分割模型的内部可调参数，重复上述检测操作；否则，将预测边界框图输出并显示。本发明通过语义分割模型来降低类间遮挡导致的漏检或误检，保证行人检测的准确性，且训练对象少，成本低。本发明还公开了一种基于上述方法的装置、设备及计算机可读存储介质。

Description

一种行人检测方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及行人检测技术领域，特别是涉及一种行人检测方法、装置、设备及计算机可读存储介质。

背景技术

行人检测是目标检测中的重要研究课题，对很多应用具有非常高的价值，例如无人驾驶汽车，智能机器人和智能运输。利用目标检测中提出的方法直接检测行人是很常见的。然而，这些方法很难获得最佳性能。主要原因是行人经常聚集在一起，容易被现实中的其他物体遮挡。因此，处理行人检测中的遮挡问题具有挑战性和意义。在行人遮挡检测背景下，由于检测器在训练阶段是从行人边界框学习到的特征，所以检测被遮挡的行人时，经常出现漏检和误检。而这个边界框不仅包含行人，还包含其他行人(类内遮挡)或其他障碍物(类间遮挡)。

对于类间遮挡，指的是非行人部分，例如汽车、路灯等，占据行人边界框的部分区域从而导致的遮挡线性。当类似的非行人物体出现时，检测器学习到的特征会可能产生误检，而遇到严重遮挡时，检测器可能会产生漏检。

近年来，有很多关于类间遮挡的研究，即行人被非行人物体遮挡，例如建筑物，树木和汽车。由于行人有很多遮挡类型，例如左右和自下而上的遮挡，因此难以基于行人身体的部位来定位行人。直观地说，对于严重遮挡的行人，检测器更容易从行人可见的部分中学习特征。在之前的工作中，构建行人模板是行人检测的主流，模板法将行人划分为不同的部分作为模板，然后利用这些模板训练不同的分类器检测各种遮挡，但是，这种方法需要多个分类器，计算成本很高且计算过程复杂。

因此，如何提供一种成本低的行人检测方案是本领域技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种行人检测方法，通过语义分割模型来降低类间遮挡导致的漏检或误检，保证行人检测的准确性，且仅需要训练语义分割模型以及一个检测器，减少了行人检测的成本；本发明的另一目的是提供一种基于上述方法的装置、设备及计算机可读存储介质。

为解决上述技术问题，本发明提供了一种行人检测方法，包括：

步骤s1：接收拍摄的行人图像，进行初始的边界框提取，得到可见部分边界框图；

步骤s2：将所述行人图像输入训练完成的检测器内，将所述检测器中的第N级检测层的输出和所述可见部分边界框图整合得到整合框图后输入至训练完成的语义分割模型内，得到所述语义分割模型输出的语义注意力图以及语义分割损失；

步骤s3：将所述语义注意力图作为所述检测器中第N+1级检测层的输入，得到所述检测器输出的预测边界框图以及检测损失；N+1大于1且不大于所述检测器的检测层数；

步骤s4：计算所述语义分割损失和检测损失之和，得到总损失；

步骤s5：判断所述总损失是否大于预设损失阈值，若大于，按照预设规则调整所述检测器以及所述语义分割模型的内部可调参数，，并返回步骤s2；若不大于，将所述预测边界框图输出并显示。

优选地，所述检测损失包括回归损失、分类损失和排斥损失；

所述语义分割损失的关系式为：

其中，L_Segmentation为所述语义分割损失，γ∈{0,1}表示图像元素点的类型，γ＝0表示类型为非人，γ＝1表示类型为人，p∈[0,1]为γ＝1的类的概率；

所述分类损失的关系式为：

其中，L_{classification}为所述语义分割损失；

所述排斥损失的关系式为：

其中，L_Rep为所述排斥损失；A为正样本候选框集合，a为A中的一个正样本；B为从A中回归的预测边界框集合，G为真实边界框集合；为重叠率最大的真实边界框；B^a表示A中的正样本a；为距离；x为图片像素值；

表示B^a和之间的重叠率；

表示A和G之间的重叠率；

所述回归损失的关系式为：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)，

其中，L_Regreession为所述回归损失；t＝[t_x,t_y,t_w,t_h]，t_x,t_y为所述预测边界框相对于滑动窗口的中心位置的偏移量，t_w为所述预测边界框相对于所述滑动窗口的宽的缩放量，t_h为所述预测边界框相对于所述滑动窗口的高的缩放量；为所述真实边界框相对于所述滑动窗口的中心位置的偏移量，为所述真实边界框相对于所述滑动窗口的宽的缩放量，为所述真实边界框相对于所述滑动窗口的高的缩放量；[x,y,w,h]为所述预测边界框的坐标，x,y为所述预测边界框的中心位置，w为所述预测边界框的宽，h为所述预测边界框的高；[x_a,y_a,w_a,h_a]为所述滑动窗口的坐标，x_a,y_a为所述滑动窗口的中心位置，w_a为所述滑动窗口的宽，h_a为所述滑动窗口的高；[x^*,y^*,w^*,h^*]为所述真实边界框的坐标，x^*,y^*为所述真实边界框的中心位置，w^*为所述真实边界框的宽，h^*为所述真实边界框的高；

所述总损失的关系式为：

L＝L_Regreession+L_{classification}+αL_Rep+βL_Segmentation；α和β为预设平衡参数。

优选地，所述检测器为单级检测器；所述单级检测器为RetinaNet检测网络；所述单级检测器包括5个卷积块C1～C5以及特征金字塔网络，所述特征金字塔网络包含三个卷积层P3～P5，P3～P5与C3～C5进行组合；所述第N级检测层具体为第二卷积块C2，所述第N+1级检测层具体为第三卷积块C3。

优选地，所述语义分割模型包括五个卷积块B3～B7、点乘器以及计算模块；其中，所述整合框图输入B3以及所述点乘器，B3输出至B4，B4输出至B5，B5分别输出至B6和B7，B7输出至所述点乘器；所述点乘器将所述整合框图和B7的输出进行点乘，得到所述语义注意力图；B6输出语义分割模型输出的预测结果至所述计算模块；所述计算模块依据B6输出的预测结果以及真实边界框计算得到所述语义分割损失；其中，所述B6和B7采用sigmoid函数作为激励函数。

优选地，所述B4和B5为空洞卷积块。

为解决上述技术问题，本发明还提供了一种行人检测装置，包括：

可见框提取模块，用于接收拍摄的行人图像，进行初始的边界框提取，得到可见部分边界框图；

语义分割模块，用于将所述行人图像输入训练完成的检测器内，将所述检测器中的第N级检测层的输出和所述可见部分边界框图整合得到整合框图后输入至训练完成的语义分割模型内，得到所述语义分割模型输出的语义注意力图以及语义分割损失；

检测模块，用于将所述语义注意力图作为所述检测器中第N+1级检测层的输入，得到所述检测器输出的预测边界框图以及检测损失；N+1大于1且不大于所述检测器的检测层数；

损失计算模块，用于计算所述语义分割损失和检测损失之和，得到总损失；

收敛验证模块，用于判断所述总损失是否大于预设损失阈值，若大于，按照预设规则调整所述检测器以及所述语义分割模型的内部可调参数，重复触发所述语义分割模块；若不大于，将所述预测边界框图输出并显示。

为解决上述技术问题，本发明还提供了一种行人检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如以上任一项所述的行人检测方法的步骤。

为解决上述技术问题，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上任一项所述的行人检测方法的步骤。

本发明提供了一种行人检测方法，接收拍摄的行人图像后，首先提取其可见部分边界框图，之后通过语义分割模型来对提取到的可见部分边界框图进行语义分割，得到语义注意力图以及语义分割损失，再将语义注意力图作为检测器后续检测层的输入进行检测，得到检测器输出的预测边界框图以及检测损失，依据语义分割损失以及检测损失判断当前得到的预测边界框图是否已经符合收敛条件，若不符合，则将预测边界框图作为行人图像重复上述过程，直至结果收敛后，再输出显示得到的预测边界框图。即本发明通过语义分割模型，将提取的可将边界框图作为语义分割模型的输入，语义分割模型能够对输入进行分类，从而将行人的可见框与其他部分的可见框分割开来，提取出行人可见框的信息，从而达到强调行人可见部分的目的，使后续检测部分能够集中于行人部分，减少由于类间遮挡导致的漏检或误检的情况，提高行人检测的准确性。本发明仅依赖一个语义分割模型以及一个检测器即可实现，不需要训练多个分类器，从而在保证行人检测准确性的基础上大大降低了行人检测的成本。本发明还提供了一种基于上述方法的装置、设备及计算机可读存储介质。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种行人检测方法的过程的流程图；

图2为本发明提供的一种行人检测过程的示意图；

图3为本发明提供的一种语义分割模型的结构示意图；

图4为本发明测试时数据集遮挡分布情况；

图5为本发明测试时损失收敛图；

图6为本发明测试时的一种可视化图像实例；

图7为本发明测试时的另一可视化图像实例；

图8为本发明提供的一种行人检测装置的结构示意图。

具体实施方式

本发明的核心是提供一种行人检测方法，通过语义分割模型来降低类间遮挡导致的漏检或误检，保证行人检测的准确性，且仅需要训练语义分割模型以及一个检测器，减少了行人检测的成本；本发明的另一核心是提供一种基于上述方法的装置、设备及计算机可读存储介质。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种行人检测方法，参见图1所示，图1为本发明提供的一种行人检测方法的过程的流程图；该方法包括：

依据行人图像提取边界框之后，会得到仅包含行人的可见部分边界框的图像，该图像内可见部分边界框并非是最终确定的准确的边界框，而是还可能包含有一些类人对象的边界框等。该可见部分边界框图像内，每个可见框由四个角的坐标组成，可见框内的元素与可见框外的元素采用不同的标识区分，例如可以令可见框里的元素设为1，可见框外的元素设为0；或者还可以用不同的颜色构成，本发明对此不作限定。

步骤s2：将行人图像输入训练完成的检测器内，将检测器中的第N级检测层的输出和可见部分边界框图整合得到整合框图后输入至训练完成的语义分割模型内，得到语义分割模型输出的语义注意力图以及语义分割损失；

可以理解的是，行人图像经过检测器的检测层之后，图像会进行缩放，每经过一层即会缩放至原来的1/2，因此，检测器中的第N级检测层的输出与可见部分边界框图的大小不同，无法直接整合，需要将可见部分边界框图进行相同倍数的缩小，之后将缩小后的可见部分边界框图与检测器中的第N级检测层的输出进行整合。该整合结果，即是在检测器中的第N级检测层的输出图像上的对应位置处，标示出可见部分边界框图内的可见框。

另外，语义分割简单来说就是给定一张图片,对图片中的每一个像素点进行分类，在本发明中，采用语义分割的目的，即是为了将图像内行人的可见部分边界框部分与非行人部分进行区分，提取可见部分边界框的信息，使后续检测器更加集中于行人部分，从而减小严重的类间遮挡对行人检测结果的影响，提高检测精确度。并且，语义分割是为了将行人边界框部分和非行人部分分割开来，因此，行人边界框认为是正样本部分，非行人部分认为是非行人部分；由于在一幅图中，正样本部分只占较少的区域，因此会导致正负样本之间的不平衡，为了语义分割任务收敛，本发明增加分割损失来进行优化，当包含有分割损失的总损失不大于预设损失阈值时，即表明分割损失已经很小，满足收敛条件，故此时得到的语义分割结果已经接近真实情况，从而提高了行人检测的准确性。

步骤s3：将语义注意力图作为检测器中第N+1级检测层的输入，得到检测器输出的预测边界框图以及检测损失；N+1大于1且不大于检测器的检测层数；

检测器是为了具体预测得到最贴近真实情况的边界框图，因此，令检测器对语义分割后的得到的语义注意力图进行预测，能够提高检测器输出结果的准确性，并且提高检测器得到最终预测结果的效率。

步骤s4：计算语义分割损失和检测损失之和，得到总损失；

步骤s5：判断总损失是否大于预设损失阈值，若大于，按照预设规则调整所述检测器以及所述语义分割模型的内部可调参数，并返回步骤s2；若不大于，将预测边界框图输出并显示。

这里的语义分割损失和检测损失，表征的是得到的预测边界框图与理论真实框图的差异值，因此，当总损失不大于预设损失阈值时，表明此时得到的预测边界框图已经满足收敛条件，尽可能的接近了实际想要达到的效果，因此，此时可以将预测边界框图进行输出，反之，若总损失大于预设损失阈值时，表明此时尚未满足收敛条件，预测边界框图仍需继续进行调整，因此此时需要按照预设规则调整检测器和语义分割模型的内部可调参数，之后再次进行上述检测操作，直至满足收敛条件为止。

本发明提供了一种基于语义分割模型的行人检测模型(PDSA)，在该行人检测模型中，通过语义分割模型，将提取的可将边界框图作为语义分割模型的输入，语义分割模型能够对输入进行分类，从而将行人的可见框与其他部分的可见框分割开来，提取出行人可见框的信息，从而达到强调行人可见部分的目的，使后续检测部分能够集中于行人部分，减少由于类间遮挡导致的漏检或误检的情况，提高行人检测的准确性。本发明仅依赖一个语义分割模型以及一个检测器即可实现，不需要训练多个分类器，从而在保证行人检测准确性的基础上大大降低了行人检测的成本。

另外，本发明中的检测器和语义分割模型的训练过程也如前述步骤s1～s5所述，只是步骤s1中接收拍摄的行人图像的过程调整为：调用预先保存的历史行人图像；并且将步骤s5中在总损失不大于预设损失阈值时，将预测边界框图输出并显示的过程调整为：在总损失不大于预设损失阈值时，返回步骤s1调用下一个历史行人图像；之后重复上述操作，直至训练完成。

在一种具体实施例中，检测损失包括回归损失、分类损失和排斥损失；

语义分割损失的关系式为：

其中，L_Segmentation为语义分割损失，γ∈{0,1}表示图像元素点的类型，γ＝0表示类型为非人，γ＝1表示类型为人，p∈[0,1]为γ＝1的类的概率(指的是为行人的概率)；

分类损失的关系式为：

其中，L_{classification}为语义分割损失；

排斥损失的关系式为：

其中，L_Rep为排斥损失；A为正样本候选框集合，a为A中的一个正样本(即图像中的与1个行人对应的一个可见部分边界框)；B为从A中回归的预测边界框集合，G为真实边界框集合；为距离；x为图片像素值；为重叠率最大的真实边界框(即与预测边界框最接近的非目标的真实边界框)；B^a表示A中的正样本a；a与最邻近的非目标真实框距离越远，IoG越小，排斥损失越小，从而预测得到的预测边界框结果越准确；

表示B^a和之间的重叠率；

表示A和G之间的重叠率；

回归损失的关系式为：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)，

总损失的关系式为：

L＝L_Regreession+L_{classification}+αL_Rep+βL_Segmentation；α和β为预设平衡参数。L为总损失。

可以理解的是，除了前述提到的类间遮挡的问题，行人检测还存在类内遮挡的问题。对于类内遮挡，指的是由于行人密度过高导致的行人间的遮挡情况，通常在人群中发生，导致了行人边界框之间的高重叠率，这种情况下，检测器很容易将重叠的多个行人预测为只有一个行人。为了解决该问题，本实施例引入排斥损失来缩小正样本和其对应目标之间的差距，并使其远离其他真实目标边界框；其中，这里的正样本或者说候选框，指的是最初得到的可见部分边界框图中的行人边界框，这些行人边界框作为最终输出结果中的候选，并不一定等于真实的行人边界框；另外，这里正样本的对应目标指的是该正样本对应的行人的真实边界框，举例来说，假如正样本是行人A的边界框，那么正样本的对应目标指的是行人A的真实边界框。而本实施例中，增加了排斥损失来优化检测器，来让候选框远离邻近的非目标真实框，从而使各个相互重叠的行人边界框分离开来，减小类内遮挡的影响，提高行人检测的准确性。(IoU>0.5，其中，IoG是IoU的特殊类型，IoU比较的就是两个区域重叠的比例，而IoG是指候选检测边界框和真实边界框的重叠比例)。

在优选实施例中，检测器为单级检测器；单级检测器为RetinaNet检测网络；单级检测器包括5个卷积块C1～C5以及特征金字塔网络，特征金字塔网络包含三个卷积层P3～P5，P3～P5与C3～C5进行组合；第N级检测层具体为第二卷积块C2，第N+1级检测层具体为第三卷积块C3。

可以理解的是，卷积神经网络(CNN)在行人检测方面取得了很大进展。早期相当多的工作试图直接应用CNN进行行人检测，这些方法是基于两级检测器(即Faster R-CNN)，具有较高的计算成本。在遮挡处理方面，基于部分的方法是主流方法之一。但是，基于部分的方法通常要求部分分类器能独立地学习相应的遮挡模式，这种方法也仅适用于两级探测器，成本较高。而本实施例中，采用单级探测器(或者说单阶段检测模型)进行检测，即RetinaNet网络，来直接计算目标类的边界框和置信度。其中RetinaNet网络采用特征金字塔来预测边界框和目标类的置信度(即检测结果的可靠性)。单级检测器相比两级检测器成本更低，且具有更快更高的性能。

具体的，参见图2所示，图2为本发明提供的一种行人检测过程的示意图。单级检测器(Detector Component)包含的前两个低级卷积块C1和C2串联，C1的输入为拍摄的行人图像(Input Image)，C1的输出连接C2的输入，C2的是输出连接语义分割模型的输入，语义分割模型(Sematic Segmentation Component)的另一输入为可见边界框(Visible BoundingBoxes)，语义分割模型输出的语义注意力图作为C3的输入，C3、C4和C5串联，即C3的输出连接C4的输入，C4的输出连接C5的输入。后续，特征金字塔网络还包含额外的三个卷积层(P5，P4，P3)，和前面的卷积层(C5，C4，C3)组合在一起。更具体地说，P5，P4，P3利用的是以ReLU作为激励函数的1X1卷积层。并且P5的输入来自于C5；P4的输入是经过下采样2倍(表示将图像大小缩小2倍)的P5和C4的输出之和；P3的输入为经过下采样2倍的P4和C3的输出之和。之后P5、P4、P3的输出作为预测结果(predict)，预测结果包括预测类子集和框子集，类子集(Class Subset)包括图像内各个部分的类型，是人还是非人，以及对应的行人概率；框子集(Box Subset)包括各个边界框；后续依据给预测结果和真实边界框计算检测损失。

另外，这里的单级检测器还可以采用VGG16网络，本发明对此不作限定。

作为优选地，参见图3所示，图3为本发明提供的一种语义分割模型的结构示意图。语义分割模型包括五个卷积块B3～B7、点乘器以及计算模块；其中，整合框图输入B3以及点乘器，B3输出至B4，B4输出至B5，B5分别输出至B6和B7，B7输出至点乘器；点乘器将整合框图和B7的输出进行点乘，得到语义注意力图；B6输出语义分割模型输出的预测结果至计算模块；计算模块依据B6输出的预测结果(Predicted Result)以及真实边界框(Ground Truth)计算得到语义分割损失(focal loss，即焦点损失)；其中，B6和B7采用sigmoid函数作为激励函数。

需要注意的是，此外，语义分割模型生成的语义注意力图具有与输入的整合框图相同的维度。最后，本发明利用B7的输出通过元素点乘法激活输入的整合框图以获得输出的语义注意力图。在这个语义分割模型中，使用与VGG16相同的结构但删除池化层，可以理解的是，VGG16主要是由卷积层和池化层组成，其中的池化层会将输入的特征图进行缩放，但为了输出的语义注意力图能够与输入的整合框图具有相同的维度(即相同的大小)，需要删除池化层，维持不变性，即语义分割模型训练的时候不加入池化层。进一步说，本实施例利用以sigmoid函数作为激励函数的2个1X1卷积层(即B6,B7)来分别产生预测结果和语义注意力图。最后，把在可见部分边界框里的元素设为1，边界框外的元素设为0，来区分可见部分边界框与其余部分；当然还可以采用其他方式区分，例如设置不同的颜色等，本发明对此不作限定。

作为优选地，B4和B5为空洞卷积块。

可以理解的是，本实施例使用的空洞卷积块B4和B5与随后的两个卷积块C4和C5有类似的结构，只是卷积参数不同。空洞卷积相对于原本的标准卷积，可以在不损失信息的前提下，得到更多的语义信息，获得比标准卷积更好的分割效果，也能保证输出的特征图大小相同。而原来的普通卷积块在语义分割下会存在丢失图像的空间结构的信息，特别是小的行人物体信息。

为方便验证本发明思想，本发明采用如下方式进行了验证：

首先，验证过程中采用的数据集为CityPersons数据集，其由包含人的城市景观图像组成，背景包括德国和其他一些周边国家。图像的真实标注包含边界框注释，可见部分边界框注释和五个类标签(即忽略区域，行人，骑手，坐着的人，其他具有不寻常姿势的和一群人)。如表1所示，该数据集共包含3,475个图像，其中标记了23k行人和9k个忽略区域。训练集包含近3,000张图像，每张图像平均有7个行人。只有30％的行人完全可见，这表明CityPersons数据集具有丰富的遮挡类型。

表1.CityPerson数据集的数据

本发明采用一个广泛使用在CityPerson数据集上的度量来进行评估，即MR-FFPI，该度量表示每个图像的误判＝正样本的误判率的平均值，范围为10^-2～10⁰，值越小越好。在该验证过程中，本发明关注的是遮挡率和身高超过50的行人，并通过三个不同的遮挡水平来评估结果。另外，本发明将CityPerson数据集在不同遮挡水平的行人分布情况用图4表示，图4为本发明测试时数据集遮挡分布情况；而三种遮挡水平如下：

1)合理遮挡Reasonable(R):可见率∈[0.65,inf]；

2)严重遮挡Heavy occlusion(HO):可见率∈[0.2,0.65]；

3)合理+严重遮挡Reasonable+Heavy occlusion(R+HO):可见率∈[0.2,inf].

在验证过程中，本发明采用VGG16作为基本的网络结构，然后检测器中其他的卷积层和图2中相同。对于语义分割模型，前面三个卷积块(即B3,B4,B5)和VGG16有同样的结构，但移除了池化层并且在最后两个卷积块(B4,B5)应用了空洞卷积。强调的是，空洞卷积的空洞步长分别设为2和4。B6是以sigmoid函数作为激励函数的1X1的卷积层，且通道数为1。而B7也是以sigmoid函数作为激励函数的1X1的卷积层，通道数和输入X相同。

对于优化，使用预训练VGG16的参数来初始化单级检测器模型，并且用Xavier初始设置来初始化语义分割模型的空洞卷积参数。本发明采用Adam优化器，以10^-4的学习速率迭代14000次，并且以行人图像的原始大小作为输入。另外，由于本发明的主要任务不是语义分割。因此将排斥损失的平衡参数α设为0.5，并把语义分割损失函数的参数β设为0.5。

行人检测的基准模型包括许多关于行人检测的最优方法，如FasterRCNN，FasterRCNN+ATT-part,FasterRCNN+RepLoss,Somatic TopologyLine Localization(TLL)和RetinaNet。这些方法的结果如表2所示，从表格中可以观察到本发明提出的PDSA在HO和R+HO两个遮挡水平上，取得了竞争性的结果，优于先前的最先进的检测器。正因为有语义分割模型和排斥损失，本发明提出的PDSA网络可以有效地检测检测严重遮挡的行人。另外我们的PDSA在合理遮挡水平上不能超过基准模型。原因是我们使用的是单级检测器(例如RetinaNet)，而基准模型使用的是两级检测器(例如Faster RCNN)。

表2在CityPersons数据集上方法的MR结果

本发明提供的方法采用的是单级检测器(例如RetinaNet)。其中，本发明采用排斥损失来处理类内遮挡，并引入语义分割模型来处理类间遮挡。为了评估这两个部分，本发明将单独引入排斥损失的PDSA表示为PDSA-r，单独引入语义分割模型的PDSA表示为PDSA-s。实验结果如表3，其中数值越低表示性能越好。本发明注意到PDSA-r在合理遮挡水平的结果更好，对类内遮挡的影响表现稳定。而PDSA-s在不同的遮挡水平都超过RetinaNet，表明语义分割模型可以有效地处理遮挡。然后将排斥损失和语义分割网络组合在一起，最终在类内遮挡和类间遮挡两方面都得到了最优的性能。

表3CityPersons数据集不同策略的比较

PDSA由四个损失项组成，即回归损失、分类损失、语义分割损失和排斥损失。如图5所示，图5为本发明测试时损失收敛图，其中，横坐标为Iteration Number(迭代数)，纵坐标为Loss(损失)；可以看到所有损失在10000次迭代后收敛。实验结果证明了本发明提供的方法的有效性。正如图6所示，图6为本发明测试时的一种可视化图像实例，本发明可视化了由语义分割模型训练得到的语义注意力图。可以看到，在右侧热点图中，行人全身和被遮挡行人的可见部分都有明显的响应。例如，两个被汽车严重遮挡的行人，他们的上半身仍显示了明显的响应。这个热点图表明语义分割模型可以从严重遮挡的行人提取特征。然后，分别可视化RetinaNet网络和本发明提出的PDSA模型预测的边界框，如图7所示，图7为本发明测试时的另一可视化图像实例。RetinaNet未能检测到被其他非行人物体遮挡的行人，而PDSA明显地减少了误检和漏检样本。另外，PDSA能够将人群中的不同行人定位出来，这表明本发明对类间遮挡和类内遮挡都是有效的。

本发明还提供了一种行人检测装置，参见图8所示，图8为本发明提供的一种行人检测装置的结构示意图。该装置包括：

可见框提取模块1，用于接收拍摄的行人图像，进行初始的边界框提取，得到可见部分边界框图；

语义分割模块2，用于将行人图像输入训练完成的检测器内，将检测器中的第N级检测层的输出和可见部分边界框图整合得到整合框图后输入至训练完成的语义分割模型内，得到语义分割模型输出的语义注意力图以及语义分割损失；

检测模块3，用于将语义注意力图作为检测器中第N+1级检测层的输入，得到检测器输出的预测边界框图以及检测损失；N+1大于1且不大于检测器的检测层数；

损失计算模块4，用于计算语义分割损失和检测损失之和，得到总损失；

收敛验证模块5，用于判断总损失是否大于预设损失阈值，若大于，按照预设规则调整所述检测器以及所述语义分割模型的内部可调参数，重复触发语义分割模块2；若不大于，将预测边界框图输出并显示。

作为优选地，检测器为单级检测器；单级检测器为RetinaNet检测网络；单级检测器包括5个卷积块C1～C5以及特征金字塔网络，特征金字塔网络包含三个卷积层P3～P5，P3～P5与C3～C5进行组合；第N级检测层具体为第二卷积块C2，第N+1级检测层具体为第三卷积块C3。

作为优选地，语义分割模型包括五个卷积块B3～B7、点乘器以及计算模块；其中，整合框图输入B3以及点乘器，B3输出至B4，B4输出至B5，B5分别输出至B6和B7，B7输出至点乘器；点乘器将整合框图和B7的输出进行点乘，得到语义注意力图；B6输出语义分割模型输出的预测结果至计算模块；计算模块依据B6输出的预测结果以及真实边界框计算得到语义分割损失；其中，B6和B7采用sigmoid函数作为激励函数。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明还提供了一种行人检测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如以上任一项的行人检测方法的步骤。

本发明还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如以上任一项的行人检测方法的步骤。

以上的几种具体实施方式仅是本发明的优选实施方式，以上几种具体实施例可以任意组合，组合后得到的实施例也在本发明的保护范围之内。应当指出，对于本技术领域的普通技术人员来说，相关专业技术人员在不脱离本发明精神和构思前提下推演出的其他改进和变化，均应包含在本发明的保护范围之内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种行人检测方法，其特征在于，包括：

2.根据权利要求1所述的行人检测方法，其特征在于，所述检测损失包括回归损失、分类损失和排斥损失；

所述语义分割损失的关系式为：

所述分类损失的关系式为：

其中，L_{classification}为所述语义分割损失；

所述排斥损失的关系式为：

表示B^a和之间的重叠率；

表示A和G之间的重叠率；

所述回归损失的关系式为：

t_x＝(x-x_a)/w_a，t_y＝(y-y_a)/h_a，t_w＝log(w/w_a)，t_h＝log(h/h_a)，

所述总损失的关系式为：

3.根据权利要求1或2所述的行人检测方法，其特征在于，所述检测器为单级检测器；所述单级检测器为RetinaNet检测网络；所述单级检测器包括5个卷积块C1～C5以及特征金字塔网络，所述特征金字塔网络包含三个卷积层P3～P5，P3～P5与C3～C5进行组合；所述第N级检测层具体为第二卷积块C2，所述第N+1级检测层具体为第三卷积块C3。

4.根据权利要求3所述的行人检测方法，其特征在于，所述语义分割模型包括五个卷积块B3～B7、点乘器以及计算模块；其中，所述整合框图输入B3以及所述点乘器，B3输出至B4，B4输出至B5，B5分别输出至B6和B7，B7输出至所述点乘器；所述点乘器将所述整合框图和B7的输出进行点乘，得到所述语义注意力图；B6输出语义分割模型输出的预测结果至所述计算模块；所述计算模块依据B6输出的预测结果以及真实边界框计算得到所述语义分割损失；其中，所述B6和B7采用sigmoid函数作为激励函数。

5.根据权利要求4所述的行人检测方法，其特征在于，所述B4和B5为空洞卷积块。

6.一种行人检测装置，其特征在于，包括：

7.根据权利要求6所述的行人检测装置，其特征在于，所述检测器为单级检测器；所述单级检测器为RetinaNet检测网络；所述单级检测器包括5个卷积块C1～C5以及特征金字塔网络，所述特征金字塔网络包含三个卷积层P3～P5，P3～P5与C3～C5进行组合；所述第N级检测层具体为第二卷积块C2，所述第N+1级检测层具体为第三卷积块C3。

8.根据权利要求7所述的行人检测装置，其特征在于，所述语义分割模型包括五个卷积块B3～B7、点乘器以及计算模块；其中，所述整合框图输入B3以及所述点乘器，B3输出至B4，B4输出至B5，B5分别输出至B6和B7，B7输出至所述点乘器；所述点乘器将所述整合框图和B7的输出进行点乘，得到所述语义注意力图；B6输出语义分割模型输出的预测结果至所述计算模块；所述计算模块依据B6输出的预测结果以及真实边界框计算得到所述语义分割损失；其中，所述B6和B7采用sigmoid函数作为激励函数。

9.一种行人检测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述的行人检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的行人检测方法的步骤。