CN114758414A

CN114758414A - 行人行为的检测方法、装置、设备及计算机存储介质

Info

Publication number: CN114758414A
Application number: CN202210320830.7A
Authority: CN
Inventors: 闾凡兵; 季晗婕; 曹达; 秦拯; 曾海文; 姚胜
Original assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Current assignee: Changsha Hisense Intelligent System Research Institute Co ltd
Priority date: 2021-11-11
Filing date: 2022-03-29
Publication date: 2022-07-15
Also published as: CN113762232A

Abstract

本申请实施例提供了一种行人行为的检测方法、装置、设备及计算机存储介质，该行为检测方法包括获取在预设角度拍摄的监控图像中目标行人的位置、屏幕门位置和预设区域的位置，预设区域和目标行人位于屏蔽门的两侧，目标行人的位置包括目标行人肢体部位的位置，肢体部位包括手臂、肩膀、手腕和头；当预设区域的位置点包括手臂所在位置的位置点时，确定从目标行人的头部到屏蔽门上边缘所在直线作垂线的垂足的位置信息；确定目标行人的肩膀与手腕所在直线，与屏蔽门上边缘所在直线的交点的位置信息；当交点位置的v坐标值大于垂足位置的v坐标值时，确定目标行人的行为不安全。根据本申请实施例，提高了行为检测的准确性，降低了误检的概率。

Description

行人行为的检测方法、装置、设备及计算机存储介质

相关申请的交叉引用

本申请要求享有于2021年11月11日提交的名称为“行人行为的检测方法、装置、设备及计算机存储介质”的中国专利申请202111330302.1的优先权，该申请的全部内容通过引用并入本文中。

技术领域

本申请属于信息科学技术领域，尤其涉及一种行人行为的检测方法、装置、设备及计算机存储介质。

背景技术

随着经济与科学技术的发展，人们越来越关注公共场所的秩序问题，因此，越来越多的视频监控系统被投入使用，然而，如何对监控视频中行人异常行为进行检测，从而维护公共秩序,成为亟待解决的问题。

现有技术中，主要通过行为识别的方法对监控视频进行行为检测，对行人的运动特征进行提取，进而通过分类器识别出行人的行为，然而，以上方式存在行为检测系统鲁棒性不高，以及识别结果准确率低，从而引起误报的问题。

发明内容

本申请实施例提供一种行人行为的检测方法、装置、设备及计算机存储介质，能够解决现有技术中行为检测系统鲁棒性不高，以及识别结果准确率低，从而引起误报的问题。

第一方面，本申请实施例提供一种行人行为的检测方法，该方法包括：

获取监控图像中目标行人的位置、屏幕门位置和预设区域的位置，所述监控图像为在预设角度拍摄的图像，所述预设区域和所述目标行人位于所述屏蔽门的两侧，所述目标行人的位置包括所述目标行人肢体部位的位置，所述肢体部位包括手臂、肩膀、手腕和头，所述位置以所述监控图像的左上角为原点的像素坐标系表示，所述位置包括u坐标值与v坐标值；

当所述预设区域的位置点包括所述手臂所在位置的位置点时，确定从目标行人的头部到屏蔽门上边缘所在直线作垂线的垂足的位置信息；

确定所述目标行人的肩膀与手腕所在直线，与所述屏蔽门上边缘所在直线的交点的位置信息；

当所述交点位置的v坐标值大于所述垂足位置的v坐标值时，确定所述目标行人的行为不安全。

在一种实施方式中，所述方法还包括：

当所述预设区域的位置点不包括所述手臂所在位置的位置点时，确定所述目标行人的肢体部位与所述屏蔽门的最小距离；

当所述目标行人的肢体部位与所述屏蔽门的最小距离小于目标距离阈值时，确定所述目标行人的行为为不安全行为。

在一种实施方式中，所述获取监控图像中目标行人的位置，包括：

识别所述监控图像中的目标行人，得到所述目标行人对应的多个候选检测框；

根据第一预设置信度阈值以及非极大值抑制算法，确定所述多个候选检测框中置信度最大的检测框为目标检测框；

识别所述目标检测框中所述目标行人的肢体部位，并获取所述肢体部位的位置信息。

在一种实施方式中，所述确定所述多个候选检测框中置信度最大的检测框为目标检测框，包括：

确定所述多个候选检测框中置信度最大的检测框为第一检测框；在所述第一检测框中所述肢体部位为多个，且所述肢体部位包括预设部位的情况下，确定所述第一检测框为目标检测框，所述目标检测框中包括所述目标行人的预设部位。

在一种实施方式中，在所述第一检测框中所述肢体部位为多个，且所述肢体部位不包括全部预设部位的情况下，所述确定所述第一检测框为目标检测框，包括：

对所述第一检测框中的目标行人进行识别，生成所述目标行人的姿态估计结果；

基于预设检测算法，多次调整所述第一检测框；

对多次调整后的所述第一检测框中的目标行人进行识别，生成所述目标行人的姿态估计结果集合，所述姿态估计结果集合包括每次调整后的所述第一检测框中目标行人的姿态估计结果；

基于所述姿态估计结果集合中每个所述肢体部位的置信度，根据姿态非极大值抑制以及第二预设置信度阈值，确定所述姿态估计结果集合中置信度最大的目标姿态估计结果；其中，所述目标姿态估计结果是所述姿态估计结果中的任一结果，所述目标姿态估计结果包括所述目标行人的所述预设部位的信息。

确定所述目标姿态估计结果对应的调整后的所述第一检测框为所述目标检测框。

第二方面，本申请实施例提供了一种行人行为的检测装置，该行人行为的检测装置包括：

获取模块，用于获取监控图像中目标行人的位置、屏幕门位置和预设区域的位置，所述监控图像为在预设角度拍摄的图像，所述预设区域和所述目标行人位于所述屏蔽门的两侧，所述目标行人的位置包括所述目标行人肢体部位的位置，所述肢体部位包括手臂、肩膀、手腕和头，所述位置以所述监控图像的左上角为原点的像素坐标系表示，所述位置包括u坐标值与v坐标值；

确定模块，用于当所述预设区域的位置点包括所述手臂所在位置的位置点时，确定从目标行人的头部到屏蔽门上边缘所在直线作垂线的垂足的位置信息；

所述确定模块，还用于确定所述目标行人的肩膀与手腕所在直线，与所述屏蔽门上边缘所在直线的交点的位置信息；

所述确定模块，还当所述交点位置的v坐标值大于所述垂足位置的v坐标值时，确定所述目标行人的行为不安全。

在一种实施方式中，所述确定模块，还用于当所述预设区域的位置点不包括所述手臂所在位置的位置点时，确定所述目标行人的肢体部位与所述屏蔽门的最小距离；

所述确定模块，还用于当所述目标行人的肢体部位与所述屏蔽门的最小距离小于目标距离阈值时，确定所述目标行人的行为为不安全行为。

在一种实施方式中，所述装置还包括识别模块；

所述识别模块，用于识别所述监控图像中的目标行人，得到所述目标行人对应的多个候选检测框；

所述确定模块，还用于根据第一预设置信度阈值以及非极大值抑制算法，确定所述多个候选检测框中置信度最大的检测框为目标检测框；

所述识别模块，还用于识别所述目标检测框中所述目标行人的肢体部位，并获取所述肢体部位的位置信息。

在一种实施方式中，所述确定模块，还用于确定所述多个候选检测框中置信度最大的检测框为第一检测框；

所述确定模块，还用于在所述第一检测框中所述肢体部位为多个，且所述肢体部位包括预设部位的情况下，确定所述第一检测框为目标检测框，所述目标检测框中包括所述目标行人的预设部位。

在一种实施方式中，在所述第一检测框中所述肢体部位为多个，且所述肢体部位不包括全部预设部位的情况下，所述装置还包括调整模块；

所述识别模块，还用于对所述第一检测框中的目标行人进行识别，生成所述目标行人的姿态估计结果；

所述调整模块，用于基于预设检测算法，多次调整所述第一检测框；

所述识别模块，还用于对多次调整后的所述第一检测框中的目标行人进行识别，生成所述目标行人的姿态估计结果集合，所述姿态估计结果集合包括每次调整后的所述第一检测框中目标行人的姿态估计结果；

所述确定模块，还用于基于所述姿态估计结果集合中每个所述肢体部位的置信度，根据姿态非极大值抑制以及第二预设置信度阈值，确定所述姿态估计结果集合中置信度最大的目标姿态估计结果；其中，所述目标姿态估计结果是所述姿态估计结果中的任一结果，所述目标姿态估计结果包括所述目标行人的所述预设部位的信息。

所述确定模块，还用于确定所述目标姿态估计结果对应的调整后的所述第一检测框为所述目标检测框。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现如第一方面的任一项实施例中所述的行人行为的检测方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面的任一项实施例中所述的行人行为的检测方法。

本申请实施例的行人行为的检测方法、装置、设备及计算机存储介质，通过获取在预设角度拍摄的监控图像中的目标行人的位置、屏幕门位置和预设区域的位置，预设区域和目标行人位于屏蔽门的两侧，目标行人的位置包括目标行人手臂、肩膀、手腕和头的肢体部位的位置信息，位置以监控图像的左上角为原点的像素坐标系表示。接着，当预设区域的位置点包括手臂所在位置的位置点时，确定从目标行人的头部到屏蔽门上边缘所在直线作垂线的垂足的位置信息，并确定目标行人的肩膀与手腕所在直线，与屏蔽门上边缘所在直线的交点的位置信息，当交点位置的v坐标值大于垂足位置的v坐标值时，确定目标行人的行为不安全。这样，可以通过行人的肢体部位与屏蔽门的位置关系，对监控图像中目标行人的异常行为进行检测，提高了行为检测的准确性，降低了误检的概率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的目标检测框的示意图之一；

图2是本申请一个实施例提供的行人行为的检测方法的流程示意图；

图3是本申请一个实施例提供的目标检测框的示意图之二；

图4是本申请一个实施例提供的目标检测框的示意图之三；

图5是本申请一个实施例提供的目标检测框的示意图之四；

图6是本申请一个实施例提供的行人行为的检测装置的结构示意图；

图7是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如背景技术所述，现有技术中在行为检测时存在行为检测系统鲁棒性不高，以及识别结果准确率低，从而引起误报的问题。为了解决上述问题，本申请实施例提供了一种行人行为的检测方法、装置、设备及存储介质。该行人行为的检测方法通过获取在预设角度拍摄的监控图像，识别监控图像中目标行人的肢体部位的位置与屏蔽门的位置关系，进而确定目标行人的行为，提高了识别结果的准确率。

具体的，通过识别监控图像中目标行人的肢体部位的位置、屏蔽门的位置，以及预设区域的位置关系，进而确定目标行人的行为，提高了识别结果的准确率。其中，目标行人与预设区域位置屏幕门的两侧，如图1所示。

图1是本申请实施例提供的一种地铁站台监控图像的示意图，如图1所示，目标行人在地铁站台上，预设区域为地铁轨道侧，位于监控图右上角的区域P。

肢体部位可以包括手臂、肩膀、手腕和头，当检测到预设区域的位置点包括手臂所在位置的位置点时，确定从目标行人的头部到屏蔽门上边缘所在直线作垂线的垂足的位置信息，并确定目标行人的肩膀与手腕所在直线，与屏蔽门上边缘所在直线的交点的位置信息，基于交点位置与垂足位置的位置关系确定目标行人的行为。

在本申请实施例中，采用以监控图像左上角为原点的像素坐标系表示监控图像中像素点的位置，如图1中所示，像素极坐标的两个坐标分别u和v。

本申请实施例的行人行为的检测方法、装置可以应用于半封闭式屏幕门，屏蔽门用于阻挡用户进入危险或易被破坏的场所/环境等的场景，比如车站(如地铁站、火车站)。

下面对本申请实施例提供的行人行为的检测方法进行描述。

图2示出了本申请一个实施例提供的行人行为的检测方法的流程示意图。

如图2所示，该行人行为的检测方法具体可以包括S110至S140。

S110，获取监控图像中目标行人的位置、屏幕门的位置和预设区域的位置。

监控图像可以是在距离地面一定高度的摄像头，俯视拍摄的图像。如图1所示，俯视拍摄的角度的确定方式可以是：当摄像头拍摄的监控图像中屏蔽门上边缘与监控图像右边界的夹角α小于30°时，确认此时监控摄像头的拍摄角度为俯视拍摄的角度。

获取监控图像中目标行人的位置、屏蔽门的位置和预设区域的位置。其中目标行人的位置包括目标行人肢体部位的位置，肢体部位包括手臂、肩膀、手腕和头。

在该实施例中，位置采用以监控图像左上角为原点的像素坐标系表示监控图像中像素点的位置，如图1所示，目标行人的位置、屏蔽门的位置和预设区域的位置的分别用(u，v)表示。

目标行人与预设区域位于屏蔽门的两侧，如图1所示，目标行人在地铁站台上，预设区域为地铁轨道侧，位于监控图右上角的区域P。

S120，当预设区域的位置点包括手臂所在位置的位置点时，确定从目标行人的头部到屏蔽门上边缘所在直线作垂线的垂足的位置信息。

当检测到预设区域的位置点包括手臂所在位置的位置点时，确定从目标行人的头部向屏蔽门上边缘作垂线的垂足的位置。这里的垂线是二维监控图像中，从目标行人头部到屏蔽门上边缘作的垂线，如图3所示，屏蔽门的上边缘所在直线是yy，从目标行人头部到屏蔽门上边缘作垂线31，垂足是Q。

如图3所示，检测监控图像中右上角铁轨侧的预设区域P的位置点，并对行人手臂以及手部部位所在位置的位置点进行检测，确定行人手臂以及手部部位所处区域。若预设区域P的位置点包括手臂所在位置的位置点，则确定行人的头部到屏蔽门上边缘所在直线yy的垂线31，以及垂线31的垂足Q的位置信息。

S130，确定目标行人的肩膀与手腕所在直线，与屏蔽门上边缘所在直线的交点的位置信息。

作目标行人的肩膀与手腕的直线，并确定该直线与屏蔽门上边缘所在直线的交点的位置，如图3所示，目标行人的肩膀与手腕所在直线是32，屏蔽门的上边缘所在直线是yy，直线yy与直线32的交点为R。

示例性地，如图3所示，在对地铁的行人进行行为检测的场景下，确定行人的肩膀与手腕所在直线32与屏蔽门上边缘所在直线yy的交点R的位置信息。

S140，当交点位置的v坐标值大于垂足位置的v坐标值时，确定目标行人的行为不安全。

如图3所示，交点R的位置坐标可以表示为(v1，u1)，垂足Q的位置的坐标可以表示为(v2，u2)，当检测到交点R位置的v1坐标值大于垂足Q位置的v2坐标值时，确定目标行人的行为不安全。

在一个具体的例子中，如图3所示，在对地铁的行人进行行为检测的场景下，若在监控图像中交点R位置的v1坐标值大于垂足Q位置的v2坐标值，即在监控图像中交点R的位置位于垂足Q位置的下方，则行人的行为为不安全行为，即认为该行人可能在试图攀爬地铁屏蔽门；若在监控图像中交点R位置的v1坐标值小于垂足Q位置的v2坐标值，即在监控图像中交点R的位置位于垂足Q位置的上方，则行人的行为为安全行为。

由此，通过获取在预设角度拍摄的监控图像中的目标行人的位置、屏幕门位置和预设区域的位置，预设区域和目标行人位于屏蔽门的两侧，目标行人的位置包括目标行人手臂、肩膀、手腕和头的肢体部位的位置信息，位置以监控图像的左上角为原点的像素坐标系表示。接着，当预设区域的位置点包括手臂所在位置的位置点时，确定从目标行人的头部到屏蔽门上边缘所在直线作垂线的垂足的位置信息，并确定目标行人的肩膀与手腕所在直线，与屏蔽门上边缘所在直线的交点的位置信息，当交点位置的v坐标值大于垂足位置的v坐标值时，确定目标行人的行为不安全。这样，可以通过行人的肢体部位与屏蔽门的位置关系，对监控图像中目标行人的异常行为进行检测，提高了行为检测的准确性，降低了误检的概率。

在一种实施方式中，行人行为的检测方法还可以包括：

当预设区域的位置点不包括手臂所在位置的位置点时，确定目标行人的肢体部位与屏蔽门的最小距离；

当目标行人的肢体部位与屏蔽门的最小距离小于目标距离阈值时，确定目标行人的行为为不安全行为。

其中，目标距离阈值可以根据目标行人的头部所在位置以及预设参数确定，预设参数可以是用户根据需要预先设置的任意参数。

在一个具体的例子中，如图3所示，在对地铁的行人进行行为检测的场景下，检测监控图像中铁轨侧的预设区域P的位置点，并对行人手臂以及手部部位所在位置的位置点进行检测，若预设区域P的位置点不包括手臂所在位置的位置点，则行人的手臂以及手部部位位于预设区域P之外，计算行人与屏蔽门的最小距离，并根据行人的头部所在位置以及预设参数，动态计算行人对应的目标距离阈值，判断该行人手肘或肩膀的部位距离屏蔽门是否小于目标距离阈值，若是，则判断该行人距离屏蔽门过近，为不安全行为，若不是，则判断行人的行为为安全行为。

在一种可选的实施方式中，上述S110：获取监控图像中目标行人的位置，具体可以包括：

识别监控图像中的目标行人，得到目标行人对应的多个候选检测框；

根据第一预设置信度阈值以及非极大值抑制算法，确定多个候选检测框中置信度最大的检测框为目标检测框；

识别目标检测框中目标行人的肢体部位，并获取肢体部位的位置信息。

其中，多个候选检测框可以是通过预设目标监测网络检测后得到的多个检测框，预设目标监测网络例如可以是Yolov3目标检测网络。第一预设置信度阈值可以是预先设置的目标行人对应类别的置信度阈值，非极大值抑制算法可以用于筛选多个候选检测框中置信度最大的检测框，即目标检测框。

在一个具体的例子中，通过Yolov3目标检测网络对监控视频中的行人进行识别，边框预测公式如下所示：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

其中，σ(t_x)，σ(t_y)是检测框左上角坐标的偏移量，t_w，t_h是尺度缩放，p_w，p_h是先验框的宽和高，b_w，b_h是检测框的宽和高，b_x，b_y是检测框的中心点坐标。

通过上述公式求得检测框坐标值b_w，b_h和b_x，b_y，通过检测后，使用分类器预测每个检测框包含的类别，得到行人对应的检测框。

另外，Yolov3有三种尺寸的特征图，分别是32、16、8。其输出维度如下式所示：

N×N×[3×(4+1+80)]

其中N×N为输出图像的格点值，有3个检测框，每个框对应85维参数，分别是检测框位置、置信度、类别数。

进一步的，得到目标行人对应的多个候选检测框后，根据第一预设置信度阈值以及非极大值抑制算法，确定多个候选检测框中置信度最大的检测框为目标检测框。

在一个具体的例子中，通过Yolov3目标检测网络检测得到多个候选的检测框后，使用Darknet-53网络(由连续的3×3和1×1卷积层组成)提取特征，每个网络使用相同的设置作训练，并用256×256单尺度作测试，测试时，通过设置行人对应的置信度阈值，过滤低于设定阈值的检测框，再经过非极大值抑制输出结果，得到置信度最大的检测框，并识别该检测框中行人的肢体部位，进而获取肢体部位的位置信息。

由此，通过识别监控图像中的目标行人，得到目标行人对应的多个候选检测框，并根据第一预设置信度阈值以及非极大值抑制算法，确定多个候选检测框中置信度最大的检测框，可以对多个候选检测框进行筛选，提高目标检测框识别的准确性，进而识别目标检测框中目标行人的肢体部位时准确度更高。

在一种可选的实施方式中，确定多个候选检测框中置信度最大的检测框为目标检测框，具体可以包括：

确定多个候选检测框中置信度最大的检测框为第一检测框；

在第一检测框中肢体部位为多个，且肢体部位包括预设部位的情况下，确定第一检测框为目标检测框，目标检测框中包括目标行人的预设部位。

其中，预设部位可以是用户根据需要设置的行人的部位，例如，如表1所示，用户预先设置的行人对应的部位名称以及编号。

表1：行人的预设部位展示表

在一个具体的例子中，检测到的行人的多个候选检测框中都包含行人的肢体部位，首先筛选出多个候选检测框中置信度最大的检测框，进而判断置信度最大的检测框中肢体部位是否完整。若置信度最大的检测框中肢体部位包括全部的预设部位的情况下，将该置信度最大的检测框确定为目标检测框，该目标检测框中包括目标行人的全部的预设部位。

由此，通过确定多个候选检测框中置信度最大的检测框为第一检测框，并在第一检测框中肢体部位为多个，且肢体部位包括预设部位的情况下，确定第一检测框为目标检测框，可以保证目标检测框中目标行人的完整性，使行人的肢体部位的识别更加准确。

在一种实施方式中，在第一检测框中肢体部位为多个，且肢体部位不包括全部预设部位的情况下，确定第一检测框为目标检测框，包括：

对第一检测框中的目标行人进行识别，生成目标行人的姿态估计结果；

基于预设检测算法，多次调整第一检测框；

对多次调整后的第一检测框中的目标行人进行识别，生成目标行人的姿态估计结果集合，姿态估计结果集合包括每次调整后的第一检测框中目标行人的姿态估计结果；

基于姿态估计结果集合中每个肢体部位的置信度，根据姿态非极大值抑制以及第二预设置信度阈值，确定姿态估计结果集合中置信度最大的目标姿态估计结果；其中，目标姿态估计结果是姿态估计结果中的任一结果，目标姿态估计结果包括目标行人的预设部位的信息。

确定目标姿态估计结果对应的调整后的第一检测框为目标检测框。

其中，姿态估计结果可以是通过实时多人姿态估计系统(AlphaPose)进行检测后的估计结果，可以包括目标行人的肢体部位以及肢体部位之间的连接关系。预设检测算法可以是人体姿态估计(single person pose estimation，SPPE)算法，对第一检测框进行多次调整的具体方式可以是对第一检测框进行裁剪、平移以及旋转等，调整后的第一检测框包括目标行人的全部预设部位。

姿态估计结果集合中包括每次调整后的第一检测框中目标行人的姿态估计结果，即包括多个姿态估计结果，姿态非极大值抑制可以用于筛选多个姿态估计结果中置信度最大的目标姿态估计结果，第二预设置信度阈值可以是预先设置的目标行人对应的姿态置信度阈值。

在一个具体的例子中，如图4所示，通过AlphaPose对第一检测框中的行人进行识别，生成姿态估计结果，此时该行人的姿态估计结果中预设部位并未完全处于第一检测框中，行人的右腿部41通过SPPE算法识别不到。SPPE算法的非极大值抑制对检测框具有调整作用，基于SPPE算法多次调整第一检测框，对每次调整后的第一检测框中的行人生成姿态估计结果，得到姿态估计结果集合。接着，基于人体每个预设部位的置信度，以及人体对应的置信度阈值，利用姿态非极大值抑制去除姿态估计结果集合中冗余的姿态估计结果，得到最大置信度的姿态估计结果，该最大置信度的姿态估计结果对应的调整后的第一检测框为目标检测框。调整后的目标检测框如图5所示，行人完全处于目标检测框中，再次进行SPPE算法识别，可以识别到行人的右腿部51。

另外，对于目标检测算法的演进(Two-Stage)的检测算法，适当的数据增强可以让SSTN+SPPE适用多种复杂情况下的人体检测框，提升模型的泛化能力，其中，SSTN为空间变换神经网络(Symmetric Spatial Transformer Network，SSTN)。一种直接的方式是在训练阶段通过对比人工设定的标准框(Ground Truth)和检测框，生成多个与人体检测结果一致的样本，形成大批量的训练集。通过这种方式，可以进一步提高算法的准确性。

由此，通过基于预设检测算法，多次调整第一检测框，对多次调整后的第一检测框中的目标行人进行识别，生成目标行人的姿态估计结果集合，基于姿态估计结果集合中每个肢体部位的置信度，根据姿态非极大值抑制以及第二预设置信度阈值，确定姿态估计结果集合中置信度最大的目标姿态估计结果，可以去除不准确的姿态估计结果，使目标行人的姿态估计结果更加准确。确定目标姿态估计结果对应的调整后的第一检测框为目标检测框，调整后的目标检测框包括行人的全部预设部位，进而识别调整后的目标检测框中行人的肢体部位，可以保证目标检测框中行人的完整性，使行人的肢体部位的识别更加准确。

图6是根据一示例性实施例示出的一种行人行为的检测装置的结构示意图。

如图6所示，该行人行为的检测装置600可以包括：

获取模块601，用于获取监控图像中目标行人的位置、屏幕门位置和预设区域的位置，监控图像为在预设角度拍摄的图像，预设区域和目标行人位于屏蔽门的两侧，目标行人的位置包括目标行人手臂、肩膀、手腕和头的肢体部位的位置信息，位置以监控图像的左上角为原点的像素坐标系表示，位置包括u坐标值与v坐标值；

确定模块602，用于当预设区域的位置点包括手臂所在位置的位置点时，确定从目标行人的头部到屏蔽门上边缘所在直线作垂线的垂足的位置信息；

确定模块602，还用于确定目标行人的肩膀与手腕所在直线，与屏蔽门上边缘所在直线的交点的位置信息；

确定模块602，还当交点位置的v坐标值大于垂足位置的v坐标值时，确定目标行人的行为不安全。

在一种实施方式中，确定模块602，还用于当预设区域的位置点不包括手臂所在位置的位置点时，确定目标行人的肢体部位与屏蔽门的最小距离；

确定模块602，还用于当目标行人的肢体部位与屏蔽门的最小距离小于目标距离阈值时，确定目标行人的行为为不安全行为。

在一种实施方式中，该装置还可以包括识别模块；

识别模块，用于识别监控图像中的目标行人，得到目标行人对应的多个候选检测框；

确定模块602，还用于根据第一预设置信度阈值以及非极大值抑制算法，确定多个候选检测框中置信度最大的检测框为目标检测框；

识别模块，还用于识别目标检测框中目标行人的肢体部位，并获取肢体部位的位置信息。

在一种实施方式中，确定模块602，还用于确定多个候选检测框中置信度最大的检测框为第一检测框；

确定模块602，还用于在第一检测框中肢体部位为多个，且肢体部位包括预设部位的情况下，确定第一检测框为目标检测框，目标检测框中包括目标行人的预设部位。

在一种实施方式中，在第一检测框中肢体部位为多个，且肢体部位不包括全部预设部位的情况下，该行人行为的检测装置600还可以包括调整模块；

识别模块，用于对第一检测框中的目标行人进行识别，生成目标行人的姿态估计结果；

调整模块，用于基于预设检测算法，多次调整第一检测框；

识别模块，还用于对多次调整后的第一检测框中的目标行人进行识别，生成目标行人的姿态估计结果集合，姿态估计结果集合包括每次调整后的第一检测框中目标行人的姿态估计结果；

确定模块602，还用于基于姿态估计结果集合中每个肢体部位的置信度，根据姿态非极大值抑制以及第二预设置信度阈值，确定姿态估计结果集合中置信度最大的目标姿态估计结果；其中，目标姿态估计结果是姿态估计结果中的任一结果，目标姿态估计结果包括目标行人的预设部位的信息。

确定模块602，还用于确定目标姿态估计结果对应的调整后的第一检测框为目标检测框。

图7示出了本申请实施例提供的电子的硬件结构示意图。

在电子设备可以包括处理器701以及存储有计算机程序指令的存储器702。

具体地，上述处理器701可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器702可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在综合网关容灾设备的内部或外部。在特定实施例中，存储器702是非易失性固态存储器。

存储器可包括只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的一方面的方法所描述的操作。

处理器701通过读取并执行存储器702中存储的计算机程序指令，以实现上述实施例中的任意一种行人行为的检测方法。

在一个示例中，电子设备还可包括通信接口703和总线710。其中，如图7所示，处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。

通信接口703，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线710包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该电子设备可以基于监控图像中目标行人的位置、屏幕门的位置和预设区域的位置执行本申请实施例中的行人行为的检测方法，从而实现图2描述的行人行为的检测方法。

另外，结合上述实施例中的行人行为的检测方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现图2所示的行人行为的检测方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种行人行为的检测方法，其特征在于，包括：

获取监控图像中目标行人的位置、屏幕门的位置和预设区域的位置，所述监控图像为在预设角度拍摄的图像，所述预设区域和所述目标行人位于所述屏蔽门的两侧，所述目标行人的位置包括所述目标行人肢体部位的位置，所述肢体部位包括手臂、肩膀、手腕和头，所述位置以所述监控图像的左上角为原点的像素坐标系表示，所述位置包括u坐标值与v坐标值；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述获取监控图像中目标行人的位置，包括：

4.根据权利要求3所述的方法，其特征在于，所述确定所述多个候选检测框中置信度最大的检测框为目标检测框，包括：

确定所述多个候选检测框中置信度最大的检测框为第一检测框；

在所述第一检测框中所述肢体部位为多个，且所述肢体部位包括预设部位的情况下，确定所述第一检测框为目标检测框，所述目标检测框中包括所述目标行人的预设部位。

5.根据权利要求4所述的方法，其特征在于，在所述第一检测框中所述肢体部位为多个，且所述肢体部位不包括全部预设部位的情况下，所述确定所述第一检测框为目标检测框，包括：

基于预设检测算法，多次调整所述第一检测框；

6.一种行人行为的检测装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述确定模块，还用于当所述预设区域的位置点不包括所述手臂所在位置的位置点时，确定所述目标行人的肢体部位与所述屏蔽门的最小距离；

8.根据权利要求6或7所述的装置，其特征在于，所述装置还包括识别模块；

9.一种电子设备，其特征在于，所述设备包括：处理器，以及存储有计算机程序指令的存储器；所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-5任意一项所述的行人行为的检测方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的行人行为的检测方法。