CN111226226A

CN111226226A - 基于运动的对象检测方法及其对象检测装置和电子设备

Info

Publication number: CN111226226A
Application number: CN201880001149.8A
Authority: CN
Inventors: 袁坡; 潘生俊; 赵俊能; 丹尼尔马里尼克
Original assignee: Hangzhou Eyecloud Technology Co ltd
Current assignee: Hangzhou Eyecloud Technology Co ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-06-02
Also published as: US20210201501A1; WO2020000382A1

Abstract

本申请涉及基于运动的对象检测方法及其对象检测装置和电子设备。该对象检测方法包括：对获取的第一图像和第二图像进行处理，以获得至少一感兴趣区域；将所述至少一感兴趣区域转化为灰度图像；以及，以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，其中，所述深度神经网络模型包括多层深度可分离卷积层，用于获得所述灰度图像的特征图。这样，通过对待识别的图像进行灰度处理，并且，利用特定模型架构使得所述对象检测方法能够在延迟度和准确度之间取得有效的平衡。

Description

基于运动的对象检测方法及其对象检测装置和电子设备

技术领域

本发明总体地涉及机器视觉，特别是涉及基于运动的对象检测方法机器对象检测装置和电子设备，其能够应用于嵌入式平台上的视觉应用以进行实时的对象检测，并且，具有较低的功耗以及在延迟度和准确度之间取得有效的平衡。

背景技术

人类可以通过领域知识快速而准确地识别对象所属的类别。在信息技术时代，利用机器视觉进行对象自动识别已成为普遍需求。例如，监控摄像装置，其可通过集成对象识别计算机程序以用于通过区分特定对象(例如，人)和无生命对象(例如，场景背景)来识别潜在的入侵者。

近年来，由于能够得到更高的精度，深度神经网络(例如，卷积神经网络)已在对象检测应用中越来越普及。例如，已有许多用于静态图像的离线对象检测的深度神经网络算法被开发出来。然而，就像用于静态图像的离线对象检测的深度神经网络模型，目前深度神经网络的重点在于通过更深和更复杂的网络来获得更高的识别精度。而，识别精度的突破大多数都是在计算代价巨大的条件下产生的，例如，具有千层网络结构的ResNet神经网络。

这样的发展趋势并不利于深度学习网络在嵌入式终端的推广，其原因在于：第一，嵌入式终端产品(例如，监控设备)的嵌入式芯片的计算性能并不是很强，即使考虑到云计算仍需要消耗大量的带宽资源和计算资源；第二，对于嵌入式终端产品而言，其需求在于低延时，低功耗，同时只需满足精度在可接受的范围即可。

因此，对于一种能够满足应用于嵌入式平台的对象检测方法及其计算机程度产品的需求是迫切的。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了基于运动的对象检测方法及其对象检测装置和电子设备，其通过对待识别的图像进行灰度处理，并且，利用特定模型架构以使得所述对象检测方法具有较低的功耗以及在延迟度和准确度之间取得有效的平衡。

根据本申请的一方面，提供了一种基于运动的对象检测方法，包括：对获取的第一图像和第二图像进行处理，以获得至少一感兴趣区域；将所述至少一感兴趣区域转化为灰度图像；以及，以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述灰度图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层用于对每个输入通道应用单个滤波器，所述逐点卷积层用于对所述深度卷积的输出进行线性组合以获得更新的特征图。

在上述基于运动的对象检测方法中，以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，包括：确定所述感兴趣区域所包含的对象属于给定类别的对象；以及，响应于所述感兴趣区域所包含的对象属于给定类别的对象，生成表示检测到所述感兴趣区域所包含的对象属于给定类别对象的指示信息。

在上述基于运动的对象检测方法中，对获取的第一图像和第二图像进行处理以获得至少一感兴趣区域，包括：识别出所述第一图像和所述第二图像之间的不同的图像区域；以及，聚集所述第一图像和第二图像之间的不同的图像区域，以获得所述至少一感兴趣区域。

在上述基于运动的对象检测方法中，在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，包括：基于用于采集所述第一图像和所述第二图像的图像采集设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

在上述基于运动的对象检测方法中，所述第一图像和所述第二图像来自视频数据，并且，所述第一图像和所述第二图像为所述视频数据中连续的两帧。

在上述基于运动的对象检测方法中，所述至少一感兴趣区域的尺寸被缩减为128×128像素。

在上述基于运动的对象检测方法中，所述深度神经网络模型包括5层所述深度可分离卷积层。

根据本申请的另一方面，提供了一种对象检测装置，包括：感兴趣区域提取单元，用于对获取的第一图像和第二图像进行处理，以获得至少一感兴趣区域；灰度转化单元，用于将所述至少一感兴趣区域转化为灰度图像；以及，分类结果获取单元，用于以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述灰度图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层用于对每个输入通道应用单个滤波器，所述逐点卷积层用于对所述深度卷积的输出进行线性组合以获得更新的特征图。

在上述对象检测装置中，所述分类结果获取单元，还用于：确定所述感兴趣区域所包含的对象属于给定类别的对象；以及，响应于所述感兴趣区域所包含的对象属于给定类别的对象，生成表示检测到所述感兴趣区域所包含的对象属于给定类别对象的指示信息。

在上述对象检测装置中，所述感兴趣提取单元，用于：识别出所述第一图像和所述第二图像之间的不同的图像区域；以及，聚集所述第一图像和第二图像之间的不同的图像区域，以获得所述至少一感兴趣区域。

在上述对象检测装置中，所述感兴趣区域提取单元，还用于：基于用于采集所述第一图像和所述第二图像的图像采集设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

在上述对象检测装置中，所述第一图像和所述第二图像来自视频数据，并且，所述第一图像和所述第二图像为所述视频数据中连续的两帧。

在上述对象检测装置中，所述至少一感兴趣区域的尺寸被缩减为128×128像素。

根据本申请的又一方面，提供一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的对象检测方法。

根据本申请的又一方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行如上所述的对象检测方法。

本申请提供的对象检测方法及其对象检测装置和电子设备可以行之有效被应用于嵌入式平台上的视觉应用以进行实时的对象检测，并且，具有较低的功耗以及在延迟度和准确度之间取得有效的平衡。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解，其中：

图1图示了根据本申请实施例的基于运动的对象检测方法的流程图。

图2图示了根据本申请实施例的所述对象检测方法中从视频数据中提取感兴趣区域和利用深度神经网络获得分类结果的过程示意图。

图3图示了根据本申请实施例的所述对象检测方法中的所述深度神经网络的模型架构的示意图。

图4图示了根据本申请实施例的基于运动的对象检测装置的框图。

图5图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，由于能够获得更高的检测精度，深度神经网络(Deep Neural Network)在对象检测或识别的应用中越来越普及。深度神经网络是由多个简单以及高度互连的数据处理元件(通常称为：节点)所组成的计算系统，其通过对外界输入的动态响应来处理信息。特别地，在视觉检测或识别的应用中，深度神经网络模型通常为卷积神经网络模型，其节点之间的连接模式受动物视觉皮层的神经元组织的启示。

现有的用于对象检测或识别的卷积神经网络模型(例如，用于静态图像的离线对象检测的卷积神经网络模型)，大多数重点在于通过更深和更复杂的网络结构来获得更高的识别精度。然而，图像处理是一项计算密集型任务，提升识别精度而引发的巨大计算代价将导致高延迟，这不利于将卷积神经网络模型在嵌入式终端的应用推广。例如，在安防监控系统中，监控设备需基于其所采集的图像或视频数据实时地检测到是否存在感兴趣的对象(例如，潜在入侵者等)。在此应用场景下，对于卷积神经网络模型的要求为：低延时，低能耗，同时检测精度只需要在可接受的范围皆可。换言之，在将深度神经网络模型应用于嵌入式平台中，需构建轻量级的深度神经网络并取得延迟度和准确度之间的有效平衡。

此外，嵌入式终端产品的嵌入式芯片的计算性能并不是很强，即使采用云计算模式仍需要消耗大量的带宽资源和计算资源。并且，由于传统的卷积神经网络的卷积运算需要跨行取数，导致一次性访问内存所读取的数据部分需舍弃。这种不连续的内存访问，一方面导致数据带宽的利用率很低；另一方面，会影响中央处理器(Central Process Unit，CPU)对于缓存(Cache)数据的预取控制，导致缓存数据丢失(Cache Miss)。

针对上述技术问题，本申请的基本构思是首先通过识别图像中的运动部分以获得至少一感兴趣区域作为对象识别系统的输入，其中，所述至少一感兴趣区域为整体图像的一部分，这样，减少深度神经网络模型所需处理的图像区域大小，以降低其计算代价；进而，对所述至少一感兴趣区域进行灰度处理，这样，将输入图像的输入通道数缩减为1以进一步地降低所述深度神经网络的卷积运算的计算代价；最终，以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果。这里，所述深度神经网络模型基于深度可分离卷积进行网络架构，以在不损失检测精度的前提下，进一步地降低所述深度神经网络的计算代价。

基于此，本发明提供一种基于运动的对象检测方法及其对象检测装置和电子设备，其首先对获取的第一图像和第二图像进行处理，以获得至少一感兴趣区域；然后，将所述至少一感兴趣区域转化为灰度图像；继而，以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述灰度图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图。这样，通过对待识别的图像进行灰度处理，并且，利用特定模型架构以使得所述对象检测方法具有较低的功耗以及在延迟度和准确度之间取得有效的平衡。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示意性方法

图1图示了根据本申请实施例的基于运动的对象检测方法的流程图。如图1所示，根据本申请实施例的基于运动的对象检测方法，包括：S110，对获取的第一图像和第二图像进行处理，以获得至少一感兴趣区域；S120，将所述至少一感兴趣区域转化为灰度图像；以及，S130，以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述灰度图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图。

在步骤S110中，对获取的第一图像和第二图像进行处理，以获得至少一感兴趣区域。这里，在图像处理领域，感兴趣区域指的是包含潜在属于给定类别的候选对象的图像区域，其为整体图像的一部分。

在具体实施中，可基于所述对象识别系统的具体应用场景的特征来选择适宜的感兴趣区域提取方法。这里，以所述对象识别方法应用于安防监控领域为例。在安防监控领域中，感兴趣的对象通常属于有移动能力的对象(例如，人，人脸，动物，车子)而非固定不动的对象(例如，被监控的场景布置)。换言之，在安防监控领域中，可通过识别监控设备所采集的图像中的运动部分以获得所述至少一感兴趣区域。

更具体地，在图像表现上，图像中的运动部分为图像之间具有不同图像内容的图像区域。因此，为了获取所述感兴趣区域，首先，需提供至少两张图像(所述第一图像和所述第二图像)以通过所述第一图像和所述第二图像之间的对比获得图像中的运动部分。这里，所述第一图像和所述第二图像为关于同一场景在同一视场角下所采集的图像。换言之，所述第一图像和所述第二图像具有相同的背景，从而，当场景中出现具有移动能力的对象时，在不同时间点下所采集的所述第二图像和所述第一图像的图像内容便存在差异。相应地，所述第二图像和所述第一图像之间的不同的图像区域表征着部分该具有移动能力的对象。在通过对比所述第一图像和所述第二图像以识别出图像中的运动部分之后，进一步地将图像中的运动部分进行聚集，以获得所述至少一感兴趣区域。换言之，将所述第一图像和第二图像之间的不同的图像区域进行合并，以获得所述至少一感兴趣区域。

在具体实施中，所述第一图像和所述第二图像可藉由同一图像采集装置以特定时间间隔拍摄所得，例如，设定所述第一图像和所述第二图像的拍摄时间间隔为0.5s。

当然，在本申请另外的实施例中，所述第一图像和所述第二图像之间的时间间隔可设定为其他值。例如，在如上所述的安防监控领域，所述第一图像和所述第二图像可来自视频数据，且所述第一图像和所述第二图像为所述视频数据中连续的两帧。换言之，所述第一图像和所述第二图像之间的拍摄时间间隔为视频帧速。

此外，在本申请另外的实施例中，所述第一图像可设定为标准图像(纯场景图)，所述第二图像为实时采集的该特定场景的图像，以通过所述第二图像和第一图像之间的对比捕捉在该特定场景下移动的对象。换言之，在此情况下，所述第一图像保持不变，所述第二图像实时动态更新。

值得一提的是，在利用图像采集装置或视频采集装置获得所述第一图像和所述第二图像的过程中，所述图像采集装置或视频采集装置自身可能会发生物理移动(例如，平移，旋转等)，以造成所述第一图像和所述第二图像中的背景发生偏移。相应地，为了避免物理偏移造成的不良影响，需在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，对所述图像采集装置或视频采集装置所产生的物理移动进行补偿。例如，可通过所述图像采集装置或视频采集装置集成的位置传感器(例如，陀螺仪)提供的位置数据，对所述第二图像进行转化以补偿该物理移动。这里，对所述第二图像进行转化以补偿该物理移动的目的在于：对齐所述第二图像中的背景与所述第一图像中的背景。换言之，在本申请实施例中，在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，包括：基于用于采集所述第一图像和所述第二图像的图像采集设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

在利用基于运动的感兴趣区域提取方法获得所述至少一感兴趣区域之后，所述至少一感兴趣区域作为部分图像区域(而非整个图像区域)被设定为深度神经网络模型的输入，这样，从数据源头降低深度神经网络模型的计算代价。并且，由于所述感兴趣区域提取方法基于具体应用场景的特征而设定，因此，所述至少一感兴趣区域包含潜在属于给定类别的候选对象的可能性较高。换言之，利用所述基于运动的感兴趣区域提取方法可在不损失图像特征表现能力的前提下，降低后续所述深度神经网络模型的数据处理量。

在步骤S120中，将所述至少一感兴趣区域转化为灰度图像。换言之，对所述至少一感兴趣区域进行灰度处理，以将所述至少一感兴趣区域转化为灰度图像。本领域的技术人员应知晓，为了丰富地表现物体的特征，常规的图像采集装置所采集的图像一般为彩色图像(例如RGB格式或YUM格式)，其包括亮度信息和颜色信息。相较于灰度图像，彩色图像具有更多的数据通道(R，G，B三通道)。然而，被测对象的色彩特征对于检测被测对象所属类别帮助不大甚至在某些应用场合完全没有必要。例如，在如上所述的安防监控领域中，假设给定类别对象为人。在此种应用场景下，所检测到的人为何种肤色或者穿什么颜色的衣服为干扰特征，不应考虑。

相应地，对所述至少一感兴趣区域进行灰度处理的目的正式如此：一方面，通过将所述至少一感兴趣区域转化为灰度图像，以将所述至少一感兴趣区域中的色彩信息过滤掉，从而降低深度神经网络模型的计算代价；另一方面，可有效地防止所述至少一感兴趣区域中的色彩信息对对象检测和识别造成不良影响。

为了进一步地降低深度神经网络的计算代价，在本申请该实施例中，还可将所述至少一感兴趣区域的尺寸缩减为特定尺寸，例如，128×128pixel。这里，所述至少一感兴趣区域的缩减尺寸取决于具体应用场景中对于对象检测的精度要求，以及，后续提及的用于处理所述灰度图像的深度神经网络模型架构。换言之，所述至少一感兴趣区域的缩减尺寸需要基于所述深度神经网络模型的架构特征和对象检测的精度要求进行调整。对此，本申请不作任何限制。

为了便于说明和理解，在本申请该实施例中，将对所述至少一感兴趣区域进行灰度处理和将所述至少一感兴趣区域的尺寸缩减为特定尺寸的过程定义为对所述至少一感兴趣区域进行规划化处理。也就是说，在本申请该实施例中，在通过基于运动的感兴趣区域提取方法获得所述至少一感兴趣区域之后，对所述至少一感兴趣区域进行规划化处理：转化为灰度图像并缩放至特定尺寸。

在步骤S130中，以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述灰度图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层用于对每个输入通道应用单个滤波器，所述逐点卷积层用于对所述深度卷积的输出进行线性组合以获得更新的特征图。

如前所述，在将深度神经网络模型应用于嵌入式平台时，需构建轻量级的深度神经网络并取得延迟度和准确度之间的有效平衡。本领域的技术人员应可以理解，深度神经网络压缩优化的方法有两个发展方向：一个是迁移学习，另一个是网络稀疏。迁移学习指的是一种学习对于另一种学习的影响，以减少神经网络模型对数据的依赖性。网络稀疏是比较主流的压缩优化方向，其主要集中于网络结构的剪枝和调整卷积运算方式，其中，对网络结构的剪枝指的是将深度神经网络模型中贡献小的权重剪裁掉，以去除一部分冗余的连接。特别地，在本申请该实施例中，采用调整卷积运算的方式对所述深度神经网络模型进行压缩优化，以使得其满足嵌入式平台的应用需求。

更具体地说，本申请所提供的所述深度神经网络模型基于深度可分离卷积层(Depthwise Sparable convolution layers)进行架构，其中，所述深度可分离卷积层以深度可分离卷积运算替换传统的卷积运算来解决所述深度神经网络模型的计算效率和参数量的问题。这里，深度可分离卷积运算指的是将传统的卷积运算分解为深度卷积(Depthwise convolution)和逐点卷积(Pointwise Convolution),其中，所述深度卷积用于对每个输入通道应用单个滤波器，所述逐点卷积用于对所述深度卷积的输出进行线性组合以获得更新的特征图。通过卷积运算分解有效地减少所述深度神经网络模型的计算代价和降低其模型尺寸。换言之，在本申请该实施例中，每一所述深度可分离卷积层包括深度卷积层，用于对每个输入通道应用单个滤波器，以及逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图。

此外，所述深度可分离卷积层的分离结构对绝大多数移动终端的CPU指令加速硬件是非常友善的。本领域的技术人员应可以理解，大多数现代CPU设计都包括SIMD设计以改善CPU的数据处理性能。这里，SIMD指的是Single instruction multiple data，即，单指令多数据集，其能够复制多个操作数并把这些操作数打包在大型寄存器的一组指令集。在图像处理这种数据密集型的运算任务中，很适合利用SMID指令加速来提升数据处理的速率。然而，由于传统的卷积运算需要跨行取数，导致一次性访问内存所读取的数据部分需舍弃。这种不连续的内存访问，一方面导致数据带宽的利用率很低；另一方面，会影响CPU(Central Process Unit)对于缓存(Cache)数据的预取控制，导致缓存数据丢失(CacheMiss)。

相应地，在本申请该实施例中，所述深度可分离卷积层具有分离的结构，其相较于传统的卷积运算，具有相对较少的卷积次数，从而在结构上大幅减少了SMID跨行访问内存的机会，即，降低了Cache Miss的可能性。同时，所述逐点卷积层所进行的逐点卷积运算本质上为一个数乘向量运算，这极其适合SMID的大数据访存机制，使得带宽和CPU能被有效地利用。

特别地，在本申请的该实施例中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述灰度图像的特征图，其中，N为正整数且属于4～12。这里，所述深度可分离卷积层的层数取决于具体应用场景中对于延迟度和精度的要求。特别地，以所述对象检测方法用于如上所述的安防监控领域为例，所述深度神经网络模型包括5层所述深度可分离卷积层，其中，第一所述深度可分离卷积层包括32个尺寸为3×3的滤波因子(所述深度卷积层)以及对应数量的1×1的滤波因子(所述驻点卷积层)；与所述第一所述深度可分离层相连的第二所述深度可分离层包括64个尺寸为3×3的滤波因子(所述深度卷积层)以及对应数量的1×1的滤波因子(所述驻点卷积层)；与所述第二所述深度可分离层相连的第三所述深度可分离层包括128个尺寸为3×3的滤波因子(所述深度卷积层)以及对应数量的1×1的滤波因子(所述驻点卷积层)；与所述第三所述深度可分离层相连的第四所述深度可分离层包括256个尺寸为3×3的滤波因子(所述深度卷积层)以及对应数量的1×1的滤波因子(所述驻点卷积层)；以及，与所述第四所述深度可分离层相连的第五所述深度可分离层包括1024个尺寸为3×3的滤波因子(所述深度卷积层)以及对应数量的1×1的滤波因子(所述驻点卷积层)。

在藉由预设数量的所述深度可分离卷积层获得所述灰度图像的特征图之后，所述深度神经网络模型进一步地对所述灰度图像中所包含的候选对象进行分类，并获得所述灰度图像中所包含的对象是否属于给定类别的对象的分类结果。特别地，在本申请该实施例中，所述深度网络神经网络模型以Softmax多分类模型对所述灰度图像中所包含的候选对象进行分类。进而，基于所述灰度图像中所包含的对象是否属于给定类别的对象判定，生成最终的分类结果。

当确定所述感兴趣区域所包含的对象属于给定类别的对象时，可生成表示检测到所述感兴趣区域所包含的对象属于给定类别对象的指示信息。这里，所述指示信息可为所述感兴趣区域中所包含的对象的具体类别；或者，所述指示信息可为所述感兴趣区域中所包含的对象为特定类别的可信度；或者所述指示信息可为检测到所述感兴趣区域属于给定类别对象的开关信息。对此，可基于所述对象检测系统的具体应用场景作特定的调整，并不为本申请所局限。

相应地，当判定所述感兴趣区域所包含的对象不属于任何给定类别的对象时，可选择继续使用如上所述的基于运动的感兴趣区域提取方法获取所述感兴趣区域，并利用所述深度神经网络模型处理所述感兴趣区域以获得分类结果，如此循环直至检测到所述感兴趣区域所包含的对象属于给定类别的对象为止，或者，如此循环预设次数。

例如，以所述第一图像和所述第二图像为视频数据的连续两帧为例。如图2所示，当检测到所述第一图像和所述第二图像中提取的所述至少一感兴趣区域中所包含的对象不属于任何给定类别的对象时，可选择以如上所述的基于运动的感兴趣区域提取方法处理第三图像和所述第二图像以获得另外的感兴趣区域，其中，所述第三图像和所述第二图像为所述视频数据中连续的两帧。进一步地，利用所述深度神经网络模型处理所述感兴趣区域以获得分类结果，如此循环直至检测到所述感兴趣区域所包含的对象属于给定类别的对象为止，或者，如此循环预设次数。这里，在实际应用中，循环的次数可取决于所述视频数据的预设时间窗口(例如，15s)。进一步地，当判定所述感兴趣区域所包含的对象不属于任何给定类别的对象时(循环一定次数之后)，可生成表示没有检测到所述感兴趣区域所包含的对象属于给定类别对象的指示信息。

图3图示了根据本申请实施例的所述对象检测方法中的所述深度神经网络的模型架构的示意图，其中以所述深度神经网络模型的输入为128×128×1的灰度图像为示例。如图3所示，所述深度神经网络模型包括5层所述深度可分离卷积层，一层池化层，两层全连接层以及一层Softmax分类层。所述深度可分离卷积层利用深度可分离卷积运算获取所述灰度图像的特征图，其中，在经过最后一层所述深度可分离卷积层的处理，所述灰度图像被转化为维度为16×16×1024的特征图。所述池化层利用最大值池化操作将所述维度为16×16×1024的特征图转化为长度为1024的特征向量。所述全连接层与前一网络层完全连接，并将长度为1024的特征向量转化为长度为N的向量，其中，N表示待预测类别的数量。所述Softmax层，用于生成所述感兴趣区域所包含的对象分别属于不同类别的概率分布，其中，设定概率最高的类别为最终的分类结果。这里，所述Softmax层生成所述感兴趣区域所包含的对象分别属于不同类别的概率分布皆为0，则表示所述感兴趣区域所包含的对象不属于给定类别的对象。

值得一提的是，在所述深度神经网络模型投入服务以用于对象检测或识别任务时，需先对所述深度神经网络模型进行训练，即调整所深度网络模型的参数。

这里，应领会的是，虽然在上文中，以所述对象检测方法用于安防监控领域的嵌入式平台为示例。本领域的技术人员应可以理解，所述基于运动的对象检测方法还可以应用于其他领域的嵌入式平台。当然，当所述对象检测方法用于其他领域的嵌入式平台时，所述深度网络神经模型的架构，特别是所述深度可分离卷积层的数量以及对所述感兴趣区域标准化处理的程度都需做出调整。对此，本申请不作限制。

示意性装置

如图4所示，根据本申请实施例的所述对象检测装置400，包括：感兴趣区域提取单元410，用于对获取的第一图像和第二图像进行处理，以获得至少一感兴趣区域；灰度转化单元420，用于将所述至少一感兴趣区域转化为灰度图像；以及，分类结果获取单元430，用于以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述灰度图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层用于对每个输入通道应用单个滤波器，所述逐点卷积层用于对所述深度卷积的输出进行线性组合以获得更新的特征图。

在一个示例中，在上述对象检测装置400中，所述分类结果获取单元430，还用于：确定所述感兴趣区域所包含的对象属于给定类别的对象；以及，响应于所述感兴趣区域所包含的对象属于给定类别的对象，生成表示检测到所述感兴趣区域所包含的对象属于给定类别对象的指示信息。

在一个示例中，在上述对象检测装置400中，所述感兴趣提取单元410，用于：识别出所述第一图像和所述第二图像之间的不同的图像区域；以及，聚集所述第一图像和第二图像之间的不同的图像区域，以获得所述至少一感兴趣区域。

在一个示例中，在上述对象检测装置400中，所述感兴趣区域提取单元410，还用于：基于用于采集所述第一图像和所述第二图像的图像采集设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

在一个示例中，在上述对象检测装置400中，所述第一图像和所述第二图像来自视频数据，并且，所述第一图像和所述第二图像为所述视频数据中连续的两帧。

在一个示例中，在上述对象检测装置400中，所述至少一感兴趣区域的尺寸被缩减为128×128像素。

这里，本领域技术人员可以理解，上述对象检测装置400中的各个单元和模块的具体功能和操作已经在上面参考图1和图3描述的基于运动的对象检测方法中详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的对象检测装置可以实现在各种终端设备中，例如用于对象检测的监控设备可编程芯片中。在一个示例中，根据本申请实施例的对象检测装置可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如，该对象检测装置可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该对象检测装置同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该对象检测装置与该终端设备也可以是分立的终端设备，并且该对象检测装置可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示意性电子设备

下面，参考图5来描述根据本申请实施例的电子设备。

图5图示了根据本申请实施例的电子设备的框图。

如图5所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的基于运动的对象检测方法以及/或者其他期望的功能。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是例如用于采集图像数据或视频数据的摄像模组等等。

该输出装置14可以向外部输出各种信息，包括分类结果等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示意性计算机程序产品

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对象检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“，还语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对象检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于运动的对象检测方法，其特征在于，包括：

对获取的第一图像和第二图像进行处理，以获得至少一感兴趣区域；

将所述至少一感兴趣区域转化为灰度图像；以及

以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述灰度图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层，用于对每个输入通道应用单个滤波器，所述逐点卷积层，用于对所述深度卷积的输出进行线性组合以获得更新的特征图。

2.如权利要求1所述的基于运动的对象检测方法，其中，以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，包括：

确定所述感兴趣区域所包含的对象属于给定类别的对象；以及

响应于所述感兴趣区域所包含的对象属于给定类别的对象，生成表示检测到所述感兴趣区域所包含的对象属于给定类别对象的指示信息。

3.如权利要求2所述的基于运动的对象检测方法，其中，对获取的第一图像和第二图像进行处理以获得至少一感兴趣区域，包括：

识别出所述第一图像和所述第二图像之间的不同的图像区域；以及

聚集所述第一图像和第二图像之间的不同的图像区域，以获得所述至少一感兴趣区域。

4.如权利要求3所述的基于运动的对象检测方法，其中，在识别出所述第一图像和所述第二图像之间的不同的图像区域之前，包括：

基于用于采集所述第一图像和所述第二图像的图像采集设备的物理移动，对所述第二图像进行转化以补偿该物理移动。

5.如权利要求1-4任一所述的基于运动的对象检测方法，其中，所述第一图像和所述第二图像来自视频数据，并且，所述第一图像和所述第二图像为所述视频数据中连续的两帧。

6.如权利要求5所述的基于运动的对象检测方法，其中，所述至少一感兴趣区域的尺寸被缩减为128×128像素。

7.如权利要求6所述的基于运动的对象检测方法，其中，所述深度神经网络模型包括5层所述深度可分离卷积层。

8.一种对象检测装置，其特征在于，包括：

感兴趣区域提取单元，用于对获取的第一图像和第二图像进行处理，以获得至少一感兴趣区域；

灰度转化单元，用于将所述至少一感兴趣区域转化为灰度图像；以及

分类结果获取单元，用于以深度神经网络模型处理所述灰度图像以对所述感兴趣区域所包含的对象进行分类，以获得所述感兴趣区域所包含的对象是否属于给定类别的对象的分类结果，其中，所述深度神经网络模型包括N层深度可分离卷积层，用于获得所述灰度图像的特征图，其中，N为正整数且属于4～12，其中，每一深度可分离卷积层包括深度卷积层和逐点卷积层，所述深度卷积层用于对每个输入通道应用单个滤波器，所述逐点卷积层用于对所述深度卷积的输出进行线性组合以获得更新的特征图。

9.如权利要求8所述的对象检测装置，其中，所述分类结果获取单元，还用于：

10.如权利要求9所述的基于运动的对象检测装置，其中，所述感兴趣提取单元，用于

11.如权利要求10所述的基于运动的对象检测装置，其中，所述感兴趣区域提取单元，还用于：

12.如权利要求8-11任一所述的对象检测装置，其中，所述第一图像和所述第二图像来自视频数据，并且，所述第一图像和所述第二图像为所述视频数据中连续的两帧。

13.如权利要求12所述的对象检测装置，其中，所述至少一感兴趣区域的尺寸被缩减为128×128像素。

14.如权利要求13所述对象检测装置，其中，所述深度神经网络模型包括5层所述深度可分离卷积层。

15.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行步骤：

将所述至少一感兴趣区域转化为灰度图像；以及

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行步骤：

将所述至少一感兴趣区域转化为灰度图像；以及