CN112784638B

CN112784638B - 训练样本获取方法和装置、行人检测方法和装置

Info

Publication number: CN112784638B
Application number: CN201911083588.0A
Authority: CN
Inventors: 李艺; 董博
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2023-12-08
Anticipated expiration: 2039-11-07
Also published as: CN112784638A

Abstract

本公开提供一种训练样本获取方法和装置、行人检测方法和装置。训练样本获取装置对俯视摄像头所采集视频中的图像帧利用超像素和光流进行图像帧分割，以分割出行人部分，并生成行人部分的行人边界框和对应的掩模图；将行人边界框提供给跟踪系统，以便跟踪系统利用追踪器，对视频中在行人边界框内的行人部分进行跟踪，并输出行人部分的追踪边界框和对应的掩模图；在行人边界框和追踪边界框中，对行人部分所占比例最大的边界框及对应的掩模图进行标注，以生成样本数据。本公开可自动生成标记样本，有效提升样本生成效率和行人检测结果。

Description

训练样本获取方法和装置、行人检测方法和装置

技术领域

本公开涉及信息处理领域，特别涉及一种训练样本获取方法和装置、行人检测方法和装置。

背景技术

为了能够在诸如超市、商场等室内场景下对行人进行有效检测，通常在室内顶部安装具有俯视摄像头。由于俯视摄像头可有效规避室内物体(例如，货架、办公家具等)的遮挡，从而通过深度学习模型对图像进行处理可准确统计出室内人数和行人位置。

发明内容

发明人通过研究发现，在深度学习模型的训练过程中，需要利用大量的标注数据来进行训练。目前的标注数据主要通过人工标注的方式来获取，因此会耗费大量的时间和人力成本，同时在人员密集的场所，人工标注容易出现错误，从而导致深度学习模型在进行行人检测时出现漏检。

为此，本公开提供一种能够自动生成训练样本的方案，以便有效提升效率和行人检测结果。

根据本公开实施例的第一方面，提供一种训练样本获取方法，包括：对俯视摄像头所采集视频中的图像帧利用超像素和光流进行图像帧分割，以分割出行人部分，并生成所述行人部分的行人边界框和对应的掩模图；将所述行人边界框提供给跟踪系统，以便所述跟踪系统利用追踪器，对所述视频中在所述行人边界框内的行人部分进行跟踪，并输出所述行人部分的追踪边界框和对应的掩模图；在所述行人边界框和所述追踪边界框中，对行人部分所占比例最大的边界框及对应的掩模图进行标注，以生成样本数据。

在一些实施例中，在所述行人边界框和所述追踪边界框中，对行人部分所占比例最大的边界框及对应的掩模图进行标注包括：计算所述行人边界框和所述追踪边界框的交并比IOU；在所述IOU大于预定比值门限的情况下，计算所述行人边界框中的行人部分所占比例的第一比值和所述追踪边界框中的行人部分所占比例的第二比值；若所述第一比值大于所述第二比值，则对所述行人边界框及对应的掩模图进行标注，以生成样本数据；若所述第一比值不大于所述第二比值，则对所述追踪边界框及对应的掩模图进行标注，以生成样本数据。

在一些实施例中，上述方法还包括：在所述IOU不大于预定比值门限的情况下，对所述行人边界框及对应的掩模图进行标注，以生成样本数据，并指示所述追踪系统重新选择追踪器对所述行人边界框内的行人部分进行跟踪。

在一些实施例中，对俯视摄像头所采集的图像帧利用超像素和光流进行图像帧分割包括：在所述俯视摄像头所采集的视频中，截取预定长度的视频片段；计算所述视频片段的平均运动量；若所述平均运动量在预定范围内，则对所述视频片段中的各图像帧利用超像素和光流进行图像帧分割。

在一些实施例中，所述图像帧分割包括：计算所述俯视摄像头所采集的当前图像帧的全部超像素；利用每个超像素和背景模型帧的特征距离，确定所述每个超像素作为图像前景的前景概率；利用所述当前图像帧和前一图像帧确定相应光流；利用所述当前图像帧中全部超像素的前景概率和相应光流来确定所述当前图像帧中是否存在行人；若存在行人，则在所述当前图像帧中分割出行人部分。

在一些实施例中，利用每个超像素和背景模型帧的特征距离，确定所述每个超像素作为图像前景的前景概率包括：若与第i个超像素相对应的特征x_i中有J个特征值，所述第i个超像素与所述背景模型帧的对应区域的特征y_i中有J个特征值，则利用所述特征x_i中的第j个特征值与所述特征y_i中的第j个特征值的差值来确定所述第i个超像素作为图像前景的前景概率sp_i ^dist，1≤j≤J。

在一些实施例中，利用所述当前图像帧中全部超像素的前景概率和相应光流来确定所述当前图像帧中是否存在行人包括：利用所述第i个超像素的前景概率sp_i ^dist和所述第i个超像素的光流信息来确定所述第i个超像素的能量值；若所述第i个超像素的能量值大于预定能量门限，则将所述第i个超像素作为前景像素；若由前景像素组成的连通域的面积大于预定区域门限，则确定所述当前图像帧中存在行人。

根据本公开实施例的第二方面，提供一种训练样本获取装置，包括：行人分割模块，被配置为对俯视摄像头所采集视频中的图像帧利用超像素和光流进行图像帧分割，以分割出行人部分，并生成所述行人部分的行人边界框和对应的掩模图；行人跟踪模块，被配置为将所述行人边界框提供给跟踪系统，以便所述跟踪系统利用追踪器，对所述视频中的所述行人边界框内的行人部分进行跟踪，并输出所述行人部分的追踪边界框和对应的掩模图；样本选择模块，被配置为在所述行人边界框和所述追踪边界框中，对行人部分所占比例最大的边界框及对应的掩模图进行标注，以生成样本数据。

根据本公开实施例的第三方面，提供一种训练样本获取装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种行人检测方法，包括：利用经如上述任一实施例所述的训练样本获取方法所获取的样本数据对深度学习模型进行训练；利用经训练的深度学习模型对俯视摄像头所采集的图像帧进行处理，以识别出图像帧中的行人。

根据本公开实施例的第五方面，提供一种行人检测装置，包括：训练模块，被配置为利用经上述任一实施例所述的训练样本获取方法所获取的样本数据对深度学习模型进行训练；识别模块，被配置为利用经训练的深度学习模型对俯视摄像头所采集的图像帧进行处理，以识别出图像帧中的行人。

根据本公开实施例的第六方面，提供一种行人检测装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第七方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的训练样本获取方法的流程示意图；

图2为本公开一个实施例的图像帧分割方法的流程示意图；

图3A-图3F为本公开一些实施例的行人分割的示意图；

图4为本公开一个实施例的边界框筛选方法的流程示意图；

图5为本公开一个实施例的训练样本获取装置的结构示意图；

图6为本公开另一个实施例的训练样本获取装置的结构示意图；

图7为本公开一个实施例的行人检测方法的流程示意图；

图8为本公开一个实施例的行人检测装置的结构示意图；

图9为本公开另一个实施例的行人检测装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本公开一个实施例的训练样本获取方法的流程示意图。在一些实施例中，下列的训练样本获取方法步骤由训练样本获取装置执行。

在步骤101，对俯视摄像头所采集视频中的图像帧利用超像素和光流进行图像帧分割，以分割出行人部分，并生成行人部分的行人边界框和对应的掩模图。

在一些实施例中，上述对俯视摄像头所采集的图像帧利用超像素和光流进行图像帧分割包括：在俯视摄像头所采集的视频中，截取预定长度的视频片段，并计算视频片段的平均运动量。若平均运动量在预定范围内，则对视频片段中的各图像帧利用超像素和光流进行图像帧分割。

这里需要说明的是，为了能够自动筛选出合格的训练样本，所选择的视频片段中的行人数量应当在一个合理范围内。例如在一个长度为5分钟的视频片段中，行人数量应在1至3人之间。

例如，在一个长度为5分钟的视频片段中，共包括N个帧，第i个帧中包括的像素值为Pixel_frame_i，第i个帧中的前景像素为Pixel_foreground_i，则该视频片段的平均运动量V_motion为：

若V_motion满足V_min≤V_motion≤V_max，V_min对应在该视频片段中有1个行人的情况，V_max对应在该视频片段中有3个行人的情况，则可将该视频片段用于后续处理。

图2为本公开一个实施例的图像帧分割方法的流程示意图。

在步骤201，计算俯视摄像头所采集的当前图像帧的全部超像素。

这里需要说明的是，基于像素对图像帧进行分割会出现很多噪声和空洞现象。而基于超像素的分割可充分利用区域的整体信息，使分割结果更加平滑完整。例如，可利用SLIC(Simple Linear Iterative Clustering，简单线性迭代聚类)算法计算出图像帧的超像素。

在步骤202，利用每个超像素和背景模型帧的特征距离，确定每个超像素作为图像前景的前景概率。

若前帧中共有M个超像素，与第i个超像素相对应的特征x_i中有J个特征值，第i个超像素与背景模型帧的对应区域的特征y_i中有J个特征值，则利用特征x_i中的第j个特征值与特征y_i中的第j个特征值的差值来确定第i个超像素作为图像前景的前景概率1≤j≤J。

例如，每个超像素作为图像前景的前景概率为：

在步骤203，利用当前图像帧和前一图像帧确定相应光流。

在步骤204，利用当前图像帧中全部超像素的前景概率和相应光流来确定当前图像帧中是否存在行人。

在步骤205，若存在行人，则在当前图像帧中分割出行人部分。

这里需要说明的是，通常基于与背景的差异值来确定前景。若行人的服装颜色和背景相似，则会影响分割效果。为此，通过借助光流来考察像素的运动情况，可有效提升分割效果。

在一些实施例中，利用当前图像帧中全部超像素的前景概率和相应光流来确定当前图像帧中是否存在行人包括：利用第i个超像素的前景概率和第i个超像素的光流信息/>来确定第i个超像素的能量值/>例如，能量值/>为：

其中α为预设参数。若第i个超像素的能量值大于预定能量门限，则将第i个超像素作为前景像素。接下来进一步检测由前景像素组成的连通域的面积。若由前景像素组成的连通域的面积大于预定区域门限，则确定当前图像帧中存在行人。

图3A-图3F为本公开一些实施例的行人分割的示意图。

图3A为俯视摄像头所拍摄的背景模型帧。图3B为俯视摄像头所拍摄的当前帧，其中在当前帧中有两个行人。图3C为当前帧的超像素。图3D为超像素作为前景的概率图。图3E为相应的光流图。图3F为最终得到的掩模图。显然，掩模图能够很好地勾画出单个行人的轮廓。

返回到图1，在步骤102，将行人边界框提供给跟踪系统，以便跟踪系统利用追踪器，对视频中在行人边界框内的行人部分进行跟踪，并输出行人部分的追踪边界框和对应的掩模图。

这里需要说明的是，在将行人边界框提供给跟踪系统后，跟踪系统会判断是否有追踪器跟踪该行人。若没有，则会为该行人生成专门的追踪器以进行跟踪，直至行人走出视频监控范围或者追踪器跟丢该行人。追踪器在整个追踪过程中将不断输出行人的边界框和掩模作为可供训练的数据样本。当行人走出视频监控范围后或追踪器跟丢该行人后，该行人的追踪器会被销毁。此外，若被跟丢的行人若还在视频监控范围内，会被行人分割系统再次检出，然后交由追踪系统重新跟踪。例如，跟踪系统可为KCF(Kernelized CorrelationFilters核相关滤波)跟踪系统。由于跟踪系统本身并不是本公开的发明点所在，因此这里不展开描述。

在步骤103，在行人边界框和追踪边界框中，对行人部分所占比例最大的边界框及对应的掩模图进行标注，以生成样本数据。

图4为本公开一个实施例的边界框筛选方法的流程示意图。

在步骤401，计算行人边界框和追踪边界框的IOU(Intersection Over Union，交并比)。

这里需要说明的是，若边界框A和边界框B相交，A∩B为边界框A和边界框B的交集，A∪B为边界框A和边界框B的并集，则IOU为交集像素总数和并集像素总数之比。

在步骤402，判断IOU是否大于预定比值门限。

若IOU大于预定比值门限(例如，0.6)，则执行步骤403。若IOU不大于预定比值门限，则执行步骤407。

在步骤403，计算行人边界框中的行人部分所占比例的第一比值和追踪边界框中的行人部分所占比例的第二比值。

在步骤404，判定第一比值是否大于第二比值。

若第一比值大于第二比值，则执行步骤405。若第一比值不大于第二比值，则执行步骤406。

在步骤405，利用行人边界框及对应的掩模图进行标注。

在步骤406，利用追踪边界框及对应的掩模图进行标注。

在步骤407，利用行人边界框及对应的掩模图进行样本标记，并指示追踪系统重新选择追踪器对行人边界框内的行人部分进行跟踪。

这里需要说明的是，在行人之间距离较近、行人在某个时间段内处于静止状态，都会给标注结果造成影响。为此，本公开通过借助追踪系统对行人分割结果提供校正信息，从而使得分割结果更加稳定。

图5为本公开一个实施例的训练样本获取装置的结构示意图。如图5所示，训练样本获取装置包括行人分割模块51、行人跟踪模块52和样本选择模块53。

行人分割模块51被配置为对俯视摄像头所采集视频中的图像帧利用超像素和光流进行图像帧分割，以分割出行人部分，并生成行人部分的行人边界框和对应的掩模图。

在一些实施例中，在俯视摄像头所采集的视频中，截取预定长度的视频片段，并计算视频片段的平均运动量。若平均运动量在预定范围内，则对视频片段中的各图像帧利用超像素和光流进行图像帧分割。

这里需要说明的是，为了能够自动筛选出合格的训练样本，所选择的视频片段中的行人数量应当在一个合理范围内。例如在一个长度为5分钟的视频片段中，行人数量应在1至3人之间。例如，可利用上述公式(1)计算视频片段的平均运动量V_motion。

在一些实施例中，行人分割模块51可利用图2中任一实施例进行图像帧分割。

行人跟踪模块52被配置为将行人边界框提供给跟踪系统，以便跟踪系统利用追踪器，对视频中的行人边界框内的行人部分进行跟踪，并输出行人部分的追踪边界框和对应的掩模图。

样本选择模块53被配置为在行人边界框和追踪边界框中，对行人部分所占比例最大的边界框及对应的掩模图进行标注，以生成样本数据。

例如，样本选择模块53可采用图4中任一实施例所述的边界框筛选方法筛选相应的边界框，并进行相应的标注。

图6为本公开另一个实施例的训练样本获取装置的结构示意图。如图6所示，该装置包括存储器61和处理器62。

存储器61用于存储指令，处理器62耦合到存储器61，处理器62被配置为基于存储器存储的指令执行实现如图1或图2中任一实施例涉及的方法。

如图6所示，该装置还包括通信接口63，用于与其它设备进行信息交互。同时，该装置还包括总线64，处理器62、通信接口63、以及存储器61通过总线64完成相互间的通信。

存储器61可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器61也可以是存储器阵列。存储器61还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外处理器62可以是一个中央处理器CPU，或者可以是专用集成电路ASIC，或是被配置成实施本公开实施例的一个或多个集成电路。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1或图2中任一实施例涉及的方法。

图7为本公开一个实施例的行人检测方法的流程示意图。

在步骤701，利用经上述任一实施例所述的训练样本获取方法所获取的样本数据对深度学习模型进行训练。

例如，深度学习模型可以为Mask RCNN或其它相应的检测器模型。

在步骤702，利用经训练的深度学习模型对俯视摄像头所采集的图像帧进行处理，以识别出图像帧中的行人。

图8为本公开一个实施例的行人检测装置的结构示意图。如图8所示，行人检测装置包括训练模块81和识别模块82。

训练模块81被配置为利用上述任一实施例涉及的训练样本获取方法所获取的样本数据对深度学习模型进行训练。

识别模块82被配置为利用经训练的深度学习模型对俯视摄像头所采集的图像帧进行处理，以识别出图像帧中的行人。

图9为本公开另一个实施例的行人检测装置的结构示意图。如图9所示，该装置包括存储器91、处理器92、通信接口93和总线94。图9与图6的不同之处在于，在图9所示实施例中，处理器92被配置为基于存储器存储的指令执行实现如图7中任一实施例涉及的方法。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图7中任一实施例涉及的方法。

在一些实施例中，在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller，简称：PLC)、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，简称：ASIC)、现场可编程门阵列(Field-ProgrammableGate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种训练样本获取方法，包括：

对俯视摄像头所采集视频中的图像帧利用超像素和光流进行图像帧分割，以分割出行人部分，并生成所述行人部分的行人边界框和对应的掩模图；

将所述行人边界框提供给跟踪系统，以便所述跟踪系统利用追踪器，对所述视频中在所述行人边界框内的行人部分进行跟踪，并输出所述行人部分的追踪边界框和对应的掩模图；

在所述行人边界框和所述追踪边界框中，对行人部分所占比例最大的边界框及对应的掩模图进行标注，以生成样本数据。

2.根据权利要求1所述的方法，其中，在所述行人边界框和所述追踪边界框中，对行人部分所占比例最大的边界框及对应的掩模图进行标注包括：

计算所述行人边界框和所述追踪边界框的交并比IOU；

在所述IOU大于预定比值门限的情况下，计算所述行人边界框中的行人部分所占比例的第一比值和所述追踪边界框中的行人部分所占比例的第二比值；

若所述第一比值大于所述第二比值，则对所述行人边界框及对应的掩模图进行标注，以生成样本数据；

若所述第一比值不大于所述第二比值，则对所述追踪边界框及对应的掩模图进行标注，以生成样本数据。

3.根据权利要求2所述的方法，还包括：

在所述IOU不大于预定比值门限的情况下，将对所述行人边界框及对应的掩模图进行标注，以生成样本数据，并指示所述追踪系统重新选择追踪器对所述行人边界框内的行人部分进行跟踪。

4.根据权利要求1-3中任一项所述的方法，其中，对俯视摄像头所采集的图像帧利用超像素和光流进行图像帧分割包括：

在所述俯视摄像头所采集的视频中，截取预定长度的视频片段；

计算所述视频片段的平均运动量；

若所述平均运动量在预定范围内，则对所述视频片段中的各图像帧利用超像素和光流进行图像帧分割。

5.根据权利要求4所述的方法，其中，所述图像帧分割包括：

计算所述俯视摄像头所采集的当前图像帧的全部超像素；

利用每个超像素和背景模型帧的特征距离，确定所述每个超像素作为图像前景的前景概率；

利用所述当前图像帧和前一图像帧确定相应光流；

利用所述当前图像帧中全部超像素的前景概率和相应光流来确定所述当前图像帧中是否存在行人；

若存在行人，则在所述当前图像帧中分割出行人部分。

6.根据权利要求5所述的方法，其中，利用每个超像素和背景模型帧的特征距离，确定所述每个超像素作为图像前景的前景概率包括：

若与第i个超像素相对应的特征x_i中有J个特征值，所述第i个超像素与所述背景模型帧的对应区域的特征y_i中有J个特征值，则利用所述特征x_i中的第j个特征值与所述特征y_i中的第j个特征值的差值来确定所述第i个超像素作为图像前景的前景概率sp_i ^dist，1≤j≤J。

7.根据权利要求6所述的方法，其中，利用所述当前图像帧中全部超像素的前景概率和相应光流来确定所述当前图像帧中是否存在行人包括：

利用所述第i个超像素的前景概率sp_i ^dist和所述第i个超像素的光流信息来确定所述第i个超像素的能量值；

若所述第i个超像素的能量值大于预定能量门限，则将所述第i个超像素作为前景像素；

若由前景像素组成的连通域的面积大于预定区域门限，则确定所述当前图像帧中存在行人。

8.一种训练样本获取装置，包括：

行人分割模块，被配置为对俯视摄像头所采集视频中的图像帧利用超像素和光流进行图像帧分割，以分割出行人部分，并生成所述行人部分的行人边界框和对应的掩模图；

行人跟踪模块，被配置为将所述行人边界框提供给跟踪系统，以便所述跟踪系统利用追踪器，对所述视频中的所述行人边界框内的行人部分进行跟踪，并输出所述行人部分的追踪边界框和对应的掩模图；

样本选择模块，被配置为在所述行人边界框和所述追踪边界框中，对行人部分所占比例最大的边界框及对应的掩模图进行标注，以生成样本数据。

9.一种训练样本获取装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-7中任一项的方法。

10.一种行人检测方法，包括：

利用经权利要求1-7中任一项所述的训练样本获取方法所获取的样本数据对深度学习模型进行训练；

利用经训练的深度学习模型对俯视摄像头所采集的图像帧进行处理，以识别出图像帧中的行人。

11.一种行人检测装置，包括：

训练模块，被配置为利用经权利要求1-7中任一项所述的训练样本获取方法所获取的样本数据对深度学习模型进行训练；

识别模块，被配置为利用经训练的深度学习模型对俯视摄像头所采集的图像帧进行处理，以识别出图像帧中的行人。

12.一种行人检测装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求10的方法。

13.一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-7、10中任一项的方法。