CN112084826A

CN112084826A - 图像处理方法、图像处理设备以及监控系统

Info

Publication number: CN112084826A
Application number: CN201910517273.6A
Authority: CN
Inventors: 刘伟恒; 钱银龙; 李贤九; 王强; 朴根柱; 柳贤锡
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2020-12-15
Also published as: US20200394418A1; US11501536B2

Abstract

提供一种图像处理方法、图像处理设备以及监控系统，该图像处理方法包括：捕获被监控场景的变化；对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。采用本发明示例性实施例的图像处理方法、图像处理设备以及监控系统，能够利用场景变化的稀疏性来提高图像处理速度。

Description

图像处理方法、图像处理设备以及监控系统

技术领域

本发明总体说来涉及视频监控、人工智能技术领域，更具体地讲，涉及一种图像处理方法、图像处理设备以及监控系统。

背景技术

视频监控(Video Surveillance)是安全防范系统的重要组成部分，通常包括前端摄像机、传输媒介和视频监控平台，它是一种防范能力较强的综合系统，以其直观、准确、及时提供信息内容的特点广泛应用于许多场合。现阶段视频监控通常基于帧成像的CIS(CMOSImage Sensor)相机，其内容分析工作通常交由视频监控平台的工作人员进行人工分析。

由于偷盗、跌倒等安全防范事件时时刻刻都有可能发生，因此视频监控需要处于24小时常开状态。24小时常开的视频监控系统会引入大量的数据，以VGA(Video GraphicsArray)清晰度的视频监控为例，未压缩的整日数据量可达到74GB。分析处理如此海量的数据需要消耗大量的计算资源，视频监控系统的性能，很大程度上限制了视频监控系统的应用范围。

海量的视频数据仅通过人工分析的方式进行监控，不仅仅消耗了大量的人工成本，同时由于专注度的限制，人工处理难免出现晚检，漏检的状况。

人工智能(Artificial Intelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学。将人工智能技术应用于视频监控领域可以完成自动视频理解、监测和分析功能，减少视频监控平台的人工成本，并扩大视频监控的应用范围。

卷积神经网络(Convolution Neural Network)是人工智能在视觉领域的代表算法，并且被大量应用于视频监控领域。它仿造生物的视知觉机制构造，使用一系列的卷积核在全图范围内多次遍历，以提取能够描述图片内容的高维特征。但是由于视频监控领域的特殊性，卷积神经网络需要遍历监控视频中的所有信息，其海量的数据会导致海量的计算资源消耗。

稀疏卷积神经网络(Sparse Convolution Neural Network)是一种特殊的卷积神经网络。相比较传统的卷积神经网络在全图范围内进行遍历，稀疏卷积神经网络仅仅对图像中含有有效信息的区域进行计算。一个高效的稀疏卷积神经网络设计可以很大程度上提高系统的性能。

现有的稀疏卷积神经网络中，一种是基于区块(Block)判断区块是否为稀疏，并基于稀疏的区块进行卷积计算。例如，先将输入图片分割成多个区块，判断区块内的数据是否达到数据有效的标准，然后将包含有效数据的区块进行卷积，最后将运算结果散播到输出空间。在上述方法中基于稀疏的区块进行选择、抽取和计算，但在区块中仍包含大量稀疏性，导致其运算量仍较大。此外，区块间会有重叠区域，将导致额外的计算开销。

另外一种是通过分析卷积神经网络的输入特征图(Input Feature map)的稀疏性或者卷积核的稀疏性，使计算单元不处理这些无效计算。如图1所示，首先，接收第一个非零权重向量和非零权重向量对应原向量的位置，并接收第二个非零激活向量及非零激活向量的原位置，然后通过乘法，计算出非零权重向量和非零权重激活向量的结果，即第三个向量，整理非零权重向量和非零激活向量的位置映射关系，并形成第四个向量，通过第四个向量包含的位置映射关系，将第三个向量进行整理。这种通过输入来判断稀疏性的方法需要额外的计算量分析输入特征图的稀疏性，并且需要特殊的计算平台来实现上述方法。

现有技术中浪费了大量的资源在静态背景的记录分析中。

发明内容

本发明的示例性实施例的目的在于提供一种图像处理方法、图像处理设备以及监控系统，以克服上述至少一个缺陷。

根据本发明示例性实施例的一方面，提供一种图像处理方法，包括：捕获被监控场景的变化；对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。

可选地，对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图的步骤可包括：当捕获到被监控场景的变化时，产生基于像素点的事件；将产生的事件沿时间轴进行投影，并基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图。

可选地，事件可包括像素点所在的位置、事件发生的时间和像素点的极性，极性可指示像素点的亮度值变化。

可选地，产生基于像素点的事件的步骤可包括：通过事件相机捕获被监控场景的变化，产生基于像素点的事件，或者，通过对普通相机捕获的帧图像进行帧差分处理来产生基于像素点的事件。

可选地，事件相机可包括动态视觉传感器和/或时间异步图像传感器。

可选地，事件发生的时间越早，事件投影在二维图像上的映射值越小，事件发生的时间越晚，事件投影在二维图像上的映射值越大。

可选地，使用基于像素点的事件，对产生事件的物体的纹理进行重建。

可选地，二维图像可为基于由物体运动产生的事件形成的二维图像，其中，可通过从产生的所有事件中滤除由光源闪烁和/或由用于捕获被监控场景的变化的相机的内部噪声所产生的事件，来获得由物体运动产生的事件。

可选地，基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图的步骤可包括：通过稀疏卷积神经网络，对二维图像进行稀疏特征计算来获得稀疏特征图。

可选地，通过稀疏卷积神经网络，对二维图像进行稀疏特征计算来获得稀疏特征图的步骤可包括：基于稀疏卷积神经网络的结构以及二维图像，确定与稀疏卷积神经网络的每个卷积层对应的特征激活图；利用所确定的各特征激活图和二维图像，通过稀疏卷积神经网络获得稀疏特征图。

可选地，与任一卷积层对应的特征激活图可指示在任一卷积层中需要参与计算的像素点所在的位置。

可选地，与任一卷积层对应的特征激活图的尺寸可根据稀疏卷积神经网络的任一卷积层的输入特征图的大小和卷积核的感受野的大小来确定。

可选地，在稀疏卷积神经网络中，可利用任一卷积层的下一卷积层的输入特征图的稀疏性来约束任一卷积层的输出特征图的稀疏性。

可选地，可通过以下方式获得稀疏卷积神经网络中任一卷积层的输出特征图：基于与任一卷积层对应的特征激活图，从任一卷积层的输入特征图中抽取需要参与计算的像素点；对抽取的像素点进行稀疏特征聚合，形成稠密矩阵；根据形成的稠密矩阵以及与任一卷积层对应的卷积核矩阵，获得特征聚合矩阵；将获得的特征聚合矩阵中的特征向量进行分散输出，以获得任一卷积层的输出特征图。

可选地，图像处理方法可还包括：生成从任一卷积层的输入特征图中抽取的像素点与稠密矩阵中的数据之间的位置映射表，其中，基于位置映射表将特征聚合矩阵中的特征向量进行映射，获得任一卷积层的输出特征图。

可选地，图像处理方法可还包括：对获得的稀疏特征图进行区域特征提取；基于提取的区域特征，识别使被监控场景发生变化的物体；如果识别出的物体为人，则确定物体所在的位置、运动轨迹、行为和/或身份。

可选地，图像处理方法可还包括：当识别出的物体为人时，触发用于捕获帧图像的普通相机拍摄物体。

可选地，图像处理方法可还包括：将当前时间获得的稀疏特征图与历史稀疏特征图进行融合，以对融合后的稀疏特征图进行区域特征提取。

可选地，使用长短时记忆递归神经网络对稀疏特征图与历史稀疏特征图进行融合。

根据本发明示例性实施例的另一方面，提供一种监控系统，包括：前端摄像机，捕获被监控场景的变化；处理器，被配置为：对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。

可选地，处理器可将由捕获到被监控场景的变化而产生的基于像素点的事件沿时间轴进行投影，并基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图。

可选地，前端摄像机可包括用于直接输出事件的事件相机或者用于捕获帧图像的普通相机，其中，事件相机在捕获到被监控场景的变化时，产生基于像素点的事件，或者，处理器通过对普通相机捕获的帧图像进行帧差分处理来产生基于像素点的事件。

可选地，处理器可还使用基于像素点的事件，对产生事件的物体的纹理进行重建。

可选地，二维图像可为基于由物体运动产生的事件形成的二维图像，其中，处理器可通过从产生的所有事件中滤除由光源闪烁和/或由用于捕获被监控场景的变化的相机的内部噪声所产生的事件，获得由物体运动产生的事件。

可选地，处理器可通过稀疏卷积神经网络，对二维图像进行稀疏特征计算来获得稀疏特征图。

可选地，处理器可基于稀疏卷积神经网络的结构以及二维图像，确定与稀疏卷积神经网络的每个卷积层对应的特征激活图，利用所确定的各特征激活图和二维图像，通过稀疏卷积神经网络获得稀疏特征图。

可选地，处理器可通过以下方式获得稀疏卷积神经网络中任一卷积层的输出特征图：基于与任一卷积层对应的特征激活图，从任一卷积层的输入特征图中抽取需要参与计算的像素点；对抽取的像素点进行稀疏特征聚合，形成稠密矩阵；根据形成的稠密矩阵以及与任一卷积层对应的卷积核矩阵，获得特征聚合矩阵；将获得的特征聚合矩阵中的特征向量进行分散输出，以获得任一卷积层的输出特征图。

可选地，处理器可还生成从任一卷积层的输入特征图中抽取的像素点与稠密矩阵中的数据之间的位置映射表，其中，处理器可基于位置映射表将特征聚合矩阵中的特征向量进行映射，获得任一卷积层的输出特征图。

可选地，处理器可还被配置为：对获得的稀疏特征图进行区域特征提取；基于提取的区域特征，识别使被监控场景发生变化的物体；如果识别出的物体为人，则确定物体所在的位置、运动轨迹、行为和/或身份。

可选地，前端摄像机可包括用于直接输出事件的事件相机和用于捕获帧图像的普通相机，其中，事件相机可用于捕获被监控场景的变化，在识别出的物体为人时，处理器可触发普通相机拍摄物体。

可选地，处理器还将当前时间获得的稀疏特征图与历史稀疏特征图进行融合，以对融合后的稀疏特征图进行区域特征提取。

可选地，处理器使用长短时记忆递归神经网络对稀疏特征图与历史稀疏特征图进行融合。

根据本发明示例性实施例的另一方面，提供一种图像处理设备，包括：动态事件信息采集模块，捕获被监控场景的变化；稀疏特征图生成模块，对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。

可选地，稀疏特征图生成模块可包括：动态事件图生成子模块，将由捕获到被监控场景的变化而产生的基于像素点的事件沿时间轴进行投影，形成二维图像；稀疏特征图运算子模块，基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图。

可选地，动态事件信息采集模块可在捕获到被监控场景的变化时，产生基于像素点的事件，或者，稀疏特征图生成模块可还包括帧差分处理子模块，通过对捕获的被监控场景的帧图像进行帧差分处理来产生基于像素点的事件。

可选地，稀疏特征图生成模块可还包括纹理重建子模块，使用基于像素点的事件，对产生事件的物体的纹理进行重建。

可选地，稀疏特征图生成模块可还包括动态事件预处理子模块，通过从产生的所有事件中滤除由光源闪烁和/或由用于捕获被监控场景的变化的相机的内部噪声所产生的事件，来获得由物体运动产生的事件，其中，动态事件图生成子模块可基于由物体运动产生的事件来形成二维图像。

可选地，稀疏特征图运算子模块可通过稀疏卷积神经网络，对二维图像进行稀疏特征计算来获得稀疏特征图。

可选地，稀疏特征图运算子模块可包括：特征激活图生成单元，基于稀疏卷积神经网络的结构以及二维图像，确定与稀疏卷积神经网络的每个卷积层对应的特征激活图；稀疏特征图运算单元，利用所确定的各特征激活图和二维图像，通过稀疏卷积神经网络获得稀疏特征图。

可选地，在稀疏卷积神经网络中，利用任一卷积层的下一卷积层的输入特征图的稀疏性来约束任一卷积层的输出特征图的稀疏性。

可选地，稀疏特征图运算单元可通过以下方式获得稀疏卷积神经网络中任一卷积层的输出特征图：基于与任一卷积层对应的特征激活图，从任一卷积层的输入特征图中抽取需要参与计算的像素点；对抽取的像素点进行稀疏特征聚合，形成稠密矩阵；根据形成的稠密矩阵以及与任一卷积层对应的卷积核矩阵，获得特征聚合矩阵；将获得的特征聚合矩阵中的特征向量进行分散输出，以获得任一卷积层的输出特征图。

可选地，稀疏特征图运算单元可还生成从任一卷积层的输入特征图中抽取的像素点与稠密矩阵中的数据之间的位置映射表，其中，稀疏特征图运算单元可基于位置映射表将特征聚合矩阵中的特征向量进行映射，获得任一卷积层的输出特征图。

可选地，图像处理设备可还包括特征图分析模块，对获得的稀疏特征图进行区域特征提取，基于提取的区域特征，识别使被监控场景发生变化的物体，如果识别出的物体为人，则确定物体所在的位置、运动轨迹、行为和/或身份。

可选地，当识别出的物体为人时，特征图分析模块可产生并输出拍摄触发信号，以触发用于捕获帧图像的普通相机拍摄物体。

可选地，所述图像处理设备可还包括融合模块，将当前时间获得的稀疏特征图与历史稀疏特征图进行融合，特征图分析模块对融合后的稀疏特征图进行区域特征提取。

可选地，融合模块使用长短时记忆递归神经网络对稀疏特征图与历史稀疏特征图进行融合。

在另一总体方面，提供一种存储有计算机程序的计算机可读存储介质，当计算机程序在被处理器执行时实现上述的图像处理方法。

采用上述本发明示例性实施例的图像处理方法、图像处理设备以及监控系统，通过利用像素级的稀疏性来提高图像处理速度。

附图说明

通过下面结合示例性地示出实施例的附图进行的详细描述，本发明示例性实施例的上述和其它目的、特点和优点将会变得更加清楚，其中：

图1示出现有的块稀疏卷积神经网络的示意图；

图2示出根据本发明示例性实施例的图像处理方法的流程图；

图3示出根据本发明示例性实施例的获得稀疏特征图的步骤的流程图；

图4示出根据本发明示例性实施例的生成二维图像的示意图；

图5A和图5B示出现有的图像处理方法与根据本发明示例性实施例的图像处理方法的数据量对比示意图；

图6示出根据本发明示例性实施例的通过稀疏卷积神经网络获得稀疏特征图的步骤的流程图；

图7示出根据本发明示例性实施例的生成与稀疏卷积神经网络中的任一卷积层对应的输出特征图的步骤的流程图；

图8示出根据本发明示例性实施例的生成与稀疏卷积神经网络中的任一卷积层对应的输出特征图的示意图；

图9示出根据本发明示例性实施例的基于稀疏特征图进行场景变化分析的步骤的流程图；

图10A至图10F示出根据本发明示例性实施例的物体在被监控场景中移动的示意图；

图11示出现有的图像处理方法与根据本发明示例性实施例的图像处理方法的数据量对比以及运算效率对比的示意图；

图12示出根据本发明示例性实施例的监控系统的框图；

图13示出根据本发明示例性实施例的图像处理设备的框图。

具体实施方式

现在，将参照附图更充分地描述不同的示例实施例，其中，一些示例性实施例在附图中示出。

图2示出根据本发明示例性实施例的图像处理方法的流程图。

参照图2，在步骤S10中，捕获被监控场景的变化。

由于被监控场景中大部分区域是静止的，这里仅对被监控场景的变化进行响应，可以很大程度地降低需要保存和分析的数据量。

在步骤S20中，对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。

在本发明示例性实施例中，可实时监控场景的变化，并在场景发生变化时，基于像素点的稀疏性来获得稀疏特征图，有效提高对图像的处理速度。下面参照图3来详细介绍基于被监控场景的变化来获得稀疏特征图的过程。

图3示出根据本发明示例性实施例的获得稀疏特征图的步骤的流程图。

参照图3，在步骤S201中，当捕获到被监控场景的变化时，产生基于像素点的事件。

例如，当所捕获的被监控场景的场景图像中任一像素点的亮度值的变化量大于预定值，则产生该像素点的事件。作为示例，该事件可包括像素点所在的位置、事件发生的时间和像素点的极性。这里，极性可指示像素点的亮度值变化，例如，像素点的极性可指示该像素点所发生的变化是亮度值增大还是亮度值减小。

例如，可通过如下方式来产生基于像素点的事件。

一种情况，可通过事件相机捕获被监控场景的变化，产生基于像素点的事件。

这里，事件相机可指能够直接输出事件的相机，作为示例，事件相机可包括但不限于动态视觉传感器(Dynamic Vision Sensor)和/或时间异步图像传感器。

以事件相机为动态视觉传感器为例，DVS是新一代的视觉传感器。传统的视觉传感器以帧为单位记录场景的影像，而DVS则捕捉场景的变化，并基于变化产生一系列的事件(Event)。但由于环境光照的变化，传感器本身性能等因素影响，DVS产生的事件具有噪声多、数量少(稀疏)的特点，由于部分光源的闪烁也会产生事件。

在动态视觉传感器中，对于单个像素点，只有接收光强度发生改变时，才会有事件(脉冲)信号输出。例如，如果一像素点的亮度值增大量超过预定值，则产生一个该像素点亮度增大的事件。

另一种情况，可通过对普通相机捕获的帧图像进行帧差分处理来产生基于像素点的事件。

这里，普通相机可指传统的帧成像相机，作为示例，普通相机可包括但不限于基于帧成像的CIS(CMOS Image Sensor)相机，通过对CIS相机捕获的帧图像进行帧差分处理，确定被监控场景是否发生变化，并在确定被监控场景发生变化时，产生基于像素点的事件。

应理解，对帧图像进行帧差分处理的方法为本领域的公知常识，本发明对此部分的内容不再赘述。

可选地，可在被监控场景中的不同位置处布置上述的至少一个相机，至少一个相机采集不同监控范围的场景信息。

应理解，在现有的稀疏卷积神经网络中，一般是基于区块(Block)来判断区域是否为稀疏，并基于稀疏的区块进行卷积计算，但是在上述处理过程中块掩码仍然包含大量稀疏性，导致其运算量仍较大。

然而，在本发明示例性实施例中，在捕获到被监控场景发生变化时，一个像素点对应一个事件，利用与像素点对应的事件来进行后续卷积处理，即，基于像素点的稀疏性进行卷积处理，实现利用像素级的稀疏性来进行卷积加速。

在步骤S202中，将产生的事件沿时间轴向二维图像进行投影。

由于传感器会高速、异步地捕捉所有场景的变化，并产生在时间轴上稠密采样的大量事件，对这些事件进行逐一处理会消耗大量的计算资源。因此，可将事件沿时间轴进行投影来形成二维图像，基于二维图像进行后续处理以减少计算量。

这里，当捕获到被监控场景的变化时，则会产生一事件，随着时间的推移，将形成一事件流，将事件流以时间衰减方式向二维图像平面进行投影来生成二维图像。

作为示例，上述将事件沿时间轴向二维图像进行投影的过程在数学表达上可通过积分形式来实现。此时，二维图像可通过对产生的事件在时间轴上进行积分来获得。例如，通过将事件流在时间轴上进行积分来形成空域积分图像，该积分图像即为投影所形成的二维图像。

优选地，可通过对产生的事件在时间轴上进行时间衰减积分来获得二维图像。

在一个示例中，按照事件发生的时间与当前时间的差值，进行指数衰减积分，可通过如下公式来计算当前时间二维图像上的一像素点的像素值：

公式(1)中，I_(x,y)为二维图像上坐标位置为(x,y)处的像素点的像素值，T_last(x,y)为坐标位置(x,y)上像素点出现的时间(即，事件发生的时间)，T_now为当前时间，σ为比例系数，用于控制事件沿时间轴衰减的速度。

在另一示例中，按照事件发生的时间与当前时间的差值，进行线性衰减积分，可通过如下公式来计算当前时间二维图像上的一像素点的像素值：

公式(2)中，I_(x,y)为二维图像上坐标位置为(x,y)处的像素点的像素值，T_last(x,y)为坐标位置(x,y)上像素点出现的时间(即，事件发生的时间)，T_start为统计窗口的开始时间，T_now为当前时间。

也就是说，事件发生的时间越早，事件投影在二维图像上的映射值越小(即，上述计算得到的像素值越小)，事件发生的时间越晚，事件投影在二维图像上的映射值越大(即，上述计算得到的像素值越大)。

图4示出根据本发明示例性实施例的生成二维图像的示意图。

在图4所示的示例中，以利用动态视觉传感器捕获被监控场景的变化来生成事件流为例，图4中的左图为动态视觉传感器捕获到的被监控场景变化的事件流，右图为将捕获到的预定时间段内的事件流在二维图像平面投影的结果图。

当被监控场景中有物体移动时，动态视觉传感器会产生一系列的事件流(如图4中的左图)，将产生的事件流在时间轴上进行积分，可以形成空域积分图像(如4图中的右图)。实际有效的信息(即，需要参与计算的像素点的信息)仅存在于积分图像上非零区域，而零值区域由于不包含有效信息，既不需要保存也不需要参与后续处理计算。

当被监控场景中没有物体移动或者没有发生变化时，动态视觉传感器不成像，也无需保存数据或者进行计算分析。因此，当被监控场景中仅有个别物体移动或者小范围变化时，动态视觉传感器的数据量和计算量远低于传统帧成像的传感器的数据量和计算量。

图5A和图5B示出现有的图像处理方法与根据本发明示例性实施例的图像处理方法的数据量对比示意图。

图5A示出的为现有的基于帧成像的CIS相机的成像结果，图5B示出的为在相同场景下基于动态视觉传感器的积分成像图。从图5A和图5B的对比可以看出，基于动态视觉传感器的视频监控系统不会捕捉静态背景，因此数据量远低于基于帧成像的相机。

用于监控的传感器会对外界的场景变化产生反应，但是由于其高响应速度和高动态范围的特性，外界的光线变化(例如，照明光源的工频闪烁)也会导致传感器产生响应事件。此外，传感器由于内部噪声也会产生稀疏的事件。光源闪烁或者内部噪声产生的事件，由于其规律性较强，可以通过预处理方式从采集的事件中分离，分离后的事件可认为是由物体运动而产生的事件。

在一优选实施例中，二维图像可为基于由物体运动产生的事件形成的二维图像。

例如，可通过从产生的所有事件中滤除由光源闪烁和/或由用于捕获被监控场景的变化的相机的内部噪声所产生的事件，来获得由物体运动产生的事件。

作为示例，可通过光源闪烁检测算法，从所有事件中滤除由光源闪烁而产生的事件，例如，由光源闪烁检测算法检测场景中的闪烁光源区域，滤除闪烁光源区域所有的事件。和/或，可通过散点检测算法，从所有事件中滤除由用于捕获被监控场景的变化的相机的内部噪声而产生的事件。

应理解，上述滤除干扰的步骤可在产生事件步骤(即步骤S201)之后执行，以利用由物体运动产生的事件来进行投影以形成二维图像。但本发明不限于此，上述滤除干扰的步骤还可以在形成二维图像的步骤(即步骤S202)之后执行，对基于所有事件投影形成的二维图像进行上述滤除干扰处理，经过处理后的二维图像即为基于由物体运动产生的事件形成的二维图像。

也就是说，可对产生的事件进行上述滤除干扰处理，也可以对投影所形成的二维图像进行上述滤除干扰处理，从而滤除由光源闪烁和/或传感器的内部噪声引起的事件，获得基于由物体运动产生的事件形成的二维图像。

在一优选实施例中，根据本发明示例性实施例的图像处理方法可还包括：使用基于像素点的事件，对产生事件的物体的纹理进行重建，以获得该物体更加详细的信息，能够使得二维图像中的物体的边缘更为细致。

这里，纹理重建的方法为本领域的公知常识，本发明对此部分内容不再赘述。

返回图3在步骤S203中，基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图。

在一优选实施例中，可通过稀疏卷积神经网络，对二维图像进行稀疏特征计算来获得稀疏特征图。

下面参照图6来介绍通过稀疏卷积神经网络获得稀疏特征图的步骤。

图6示出根据本发明示例性实施例的通过稀疏卷积神经网络获得稀疏特征图的步骤的流程图。

参照图6，在步骤S2031中，基于稀疏卷积神经网络的结构以及二维图像，确定与稀疏卷积神经网络的每个卷积层对应的特征激活图。

例如，二维图像可形成底层卷积的特征激活图，根据稀疏卷积神经网络的感受野进行尺度调整，获得与稀疏卷积神经网络的各卷积层对应的特征激活图。

作为示例，与任一卷积层对应的特征激活图可指示在任一卷积层中需要参与计算的像素点所在的位置。在根据稀疏卷积神经网络的感受野进行尺度调整时，可以将感受野内存在事件的位置，在特征激活图中设置为激活态，将不存在事件的位置，在特征激活图中设置为非激活态，该激活态指示该位置的像素点需要参与计算，非激活态指示该位置的像素点不需要参与计算。

由于稀疏卷积神经网络的特征图的尺寸会随着卷积层层数的增加而减少，同时卷积核的感受野也会随着卷积层层数的增加而扩大，因此，特征激活图也需要根据稀疏卷积神经网络的特征图的尺寸和卷积核的感受野的变化来进行调整，以适应不同的卷积层，从而保证信息的完备。

也就是说，与任一卷积层对应的特征激活图的尺寸根据稀疏卷积神经网络的任一卷积层的输入特征图的大小和卷积核的感受野的大小来确定。

在步骤S2032中，利用所确定的各特征激活图和二维图像，通过稀疏卷积神经网络获得稀疏特征图。

例如，二维图像可被作为稀疏卷积神经网络底层卷积的输入特征图，稀疏卷积神经网络中的任一卷积层的输出特征图为该任一卷积层的下一卷积层的输入特征图。针对任一卷积层，参照该卷积层的特征激活图，选择输入特征图上哪些位置的像素点需要参与计算，哪些位置的像素点不需要参与计算，对需要参与计算的像素点进行卷积处理来输出稀疏特征图。

在本发明示例性实施例中，针对每个卷积层确定对应的特征激活图，将稀疏信息扩展到不同的卷积层，以降低每个卷积层的计算成本。

下面结合图7和图8来介绍获得稀疏卷积神经网络中任一卷积层的输出特征图的过程。

图7示出根据本发明示例性实施例的生成与稀疏卷积神经网络中的任一卷积层对应的输出特征图的步骤的流程图。图8示出根据本发明示例性实施例的生成与稀疏卷积神经网络中的任一卷积层对应的输出特征图的示意图。

参照图7，在步骤S701中，基于与任一卷积层对应的特征激活图，从任一卷积层的输入特征图中抽取需要参与计算的像素点。

不同于现有方法使用当前卷积层的输入来判断是否需要进行运算，在本发明示例性实施例的稀疏卷积神经网络中，利用任一卷积层的下一卷积层的输入特征图的稀疏性来约束该任一卷积层的输出特征图的稀疏性，从而可以有效地组织内存。

参照图8所示的示例，1为与任一卷积层对应的特征激活图，特征激活图中所示的点为需要参与计算的像素点所在的位置，2为该任一卷积层的输入特征图，其所示的为特征激活图中所示的位置所覆盖的区域。

在步骤S702中，对抽取的像素点进行稀疏特征聚合，形成稠密矩阵。

参照图8所示的示例，可将抽取的像素点排列成一列来形成稠密矩阵3。

在上述稀疏特征聚合过程中，还生成从任一卷积层的输入特征图中抽取的像素点与稠密矩阵中的数据之间的位置映射表。

在步骤S703中，根据形成的稠密矩阵以及与任一卷积层对应的卷积核矩阵，获得特征聚合矩阵。

例如，可将形成的稠密矩阵同与任一卷积层对应的卷积核矩阵进行矩阵乘法，获得特征聚合矩阵。

作为示例，可使用现有的通用矩阵乘法GEMM来对稠密矩阵和卷积核矩阵进行运算，但本发明不限于此，还可利用其他方法来进行聚合。

在步骤S704中，将获得的特征聚合矩阵中的特征向量进行分散输出，以获得任一卷积层的输出特征图4。

例如，可基于上述生成的位置映射表将特征聚合矩阵中的特征向量映射到图像空间，获得任一卷积层的输出特征图。特征聚合矩阵中不同的列对应于输出特征图上不同的输出位置，其他位置输出时可填充固定值，例如，赋为零值、固定偏移值(Bias)，或者通过基态实现其他位置。

在上述获得输出特征图的过程中，基于像素点的稀疏性，对事件的激活位置进行计算，实现了处理加速。在本发明示例性实施例中，利用传感器输入的稀疏性直接进行加速，无需分析每层稀疏卷积神经网络输入的稀疏性。

应理解，在通过上述方式获得稀疏特征图之后，可基于该稀疏特征图对引起场景变化的原因进行分析。

在一优选实施例中，可将当前时间获得的稀疏特征图与历史稀疏特征图进行融合，以基于融合后的稀疏特征图对引起场景变化的原因进行分析。这里，历史稀疏特征图可指在当前时间之前获得的至少一个稀疏特征图，也就是说，利用在多个时间获得的稀疏特征图的融合结果来进行场景变化分析。

这里，可利用各种融合方法来对稀疏特征图与历史稀疏特征图进行融合。作为示例，可使用长短时记忆递归神经网络对稀疏特征图与历史稀疏特征图进行融合。但本发明不限于此，还可以使用其他方法进行融合。此外，利用长短时记忆递归神经网络进行特征图融合的方法为本领域的公知常识，本发明对此部分内容不再赘述。

下面参照图9来介绍基于稀疏特征图进行场景变化分析的步骤。

图9示出根据本发明示例性实施例的基于稀疏特征图进行场景变化分析的步骤的流程图。

参照图9，在步骤S30中，对获得的稀疏特征图进行区域特征提取。

针对上述对稀疏特征图与历史稀疏特征图进行融合的情况，步骤S30中可对融合后的稀疏特征图进行区域特征提取。

作为示例，可使用Region of Interest(ROI)提取区域特征，但本发明不限于此，还可以利用其他特征提取方式来提取区域特征。

在步骤S40中，基于提取的区域特征，识别使被监控场景发生变化的物体。

这里，可利用各种方法来基于区域特征识别使被监控场景发生变化的物体是人还是除人之外的其他物体。

在步骤S50中，确定识别出的物体是否为人。

如果识别出的物体为人，则执行步骤S60：确定物体所在的位置、运动轨迹、行为和/或身份。

这里，可利用各种特征图分类或者回归算法来确定物体所在的位置、运动轨迹、行为和/或身份，本发明对此不做限定。

在本发明示例性实施例中，可基于事件的稀疏卷积，实现根据事件流进行人物识别。

如果识别出的物体不为人，则可执行其他处理或者不执行步骤S60。

通过上述图像处理方法，可以有效降低监控系统的人工成本、数据量、运算量，有利于视频监控系统的大规模部署。

在一优选实施例中，出于降低计算量和节省成本方面的考虑，还可以将上述识别结果作为对其他传感器的触发依据。

例如，当识别出物体为人时，可触发用于捕获帧图像的普通相机拍摄该物体。也就是说，当确定引起被监控场景的变化的原因为存在人移动时，可以触发能够采集更详细图像信息的CIS相机进行拍摄。

对于在被监控场景中的不同位置处布置多个相机的情况，由于已知每个相机的相对位置，因此还可以计算出移动物体距离各相机的距离、移动物体在图像中的位置、移动物体在场景中的三维位置。

这里，可利用现有的各种距离/位置计算方法来获得上述距离和位置，本发明对此不再赘述。

图10A至图10F示出根据本发明示例性实施例的物体在被监控场景中移动的示意图。

在本示例中，场景中一个人从镜头中走向远处并再倒着走近镜头，按时间顺序，二维图像排列为所示的10A～10F。

图11示出现有的图像处理方法与根据本发明示例性实施例的图像处理方法的数据量对比以及运算效率对比的示意图。

如图11所示，实线示出的是视觉动态传感器DVS的稀疏比程度，针对图10A至图10F中所示的物体移动示例，虚线示出的是稀疏卷积神经网络第一卷积层的稀疏和密集卷积之间的加速比。从图中所示可以看出，与现有技术相比，本发明的图像处理方法的数据量和计算量都低于现有技术。

图12示出根据本发明示例性实施例的监控系统的框图。

如图12所示，根据本发明示例性实施例的监控系统包括前端摄像机100和处理器200。这里，前端摄像机100和处理器200之间可利用各种传输媒介来进行数据的交互，本发明对此不做限定。

具体说来，前端摄像机100捕获被监控场景的变化。处理器200被配置为：对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。

优选地，处理器200可将由捕获到被监控场景的变化而产生的基于像素点的事件沿时间轴进行投影，并基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图。

作为示例，事件可包括像素点所在的位置、事件发生的时间和像素点的极性。这里，极性可指示像素点的亮度值变化，例如，像素点的极性可指示该像素点所发生的变化是亮度值增大还是亮度值减小。可通过以下方式来产生基于像素点的事件。

前端摄像机100可包括用于直接输出事件的事件相机和/或用于捕获帧图像的普通相机。

一种情况，事件相机在捕获到被监控场景的变化时，产生基于像素点的事件。

这里，事件相机可指能够直接输出的事件的相机，作为示例，事件相机可包括但不限于动态视觉传感器和/或时间异步图像传感器。

另一种情况，普通相机可捕获被监控场景的帧图像，处理器200通过对普通相机捕获的帧图像进行帧差分处理来产生基于像素点的事件。

下面介绍处理器200基于事件投影来形成二维图像的过程。

这里，当前端摄像机捕获到被监控场景的变化时，则会产生一事件，随着时间的推移，将形成一事件流，处理器200将事件流以时间衰减方式向二维图像平面进行投影来生成二维图像。

事件发生的时间越早，事件投影在二维图像上的映射值越小，事件发生的时间越晚，事件投影在二维图像上的映射值越大。

例如，处理器200可通过对产生的事件在时间轴上进行时间衰减积分来获得二维图像。

例如，处理器200可通过从产生的所有事件中滤除由光源闪烁和/或由用于捕获被监控场景的变化的相机的内部噪声所产生的事件，获得由物体运动产生的事件。

作为示例，处理器200可通过光源闪烁检测算法，从所有事件中滤除由光源闪烁而产生的事件，和/或，可通过散点检测算法，从所有事件中滤除由用于捕获被监控场景的变化的相机的内部噪声而产生的事件。

在一优选实施例中，处理器200还使用基于像素点的事件，对产生事件的物体的纹理进行重建，以获得该物体更加详细的信息，能够使得二维图像中的物体的边缘更为细致。

优选地，处理器200可通过稀疏卷积神经网络，对二维图像进行稀疏特征计算来获得稀疏特征图。

具体地，处理器200可基于稀疏卷积神经网络的结构以及二维图像，确定与稀疏卷积神经网络的每个卷积层对应的特征激活图，利用所确定的各特征激活图和二维图像，通过稀疏卷积神经网络获得稀疏特征图。

例如，二维图像可形成底层卷积的特征激活图，处理器200根据稀疏卷积神经网络的感受野进行尺度调整，获得与稀疏卷积神经网络的各卷积层对应的特征激活图。

作为示例，与任一卷积层对应的特征激活图指示在任一卷积层中需要参与计算的像素点所在的位置。与任一卷积层对应的特征激活图的尺寸根据稀疏卷积神经网络的任一卷积层的输入特征图的大小和卷积核的感受野的大小来确定。

优选地，在本发明的稀疏卷积神经网络中，利用任一卷积层的下一卷积层的输入特征图的稀疏性来约束任一卷积层的输出特征图的稀疏性。

处理器200可通过以下方式获得稀疏卷积神经网络中任一卷积层的输出特征图。

基于与任一卷积层对应的特征激活图，从任一卷积层的输入特征图中抽取需要参与计算的像素点；对抽取的像素点进行稀疏特征聚合，形成稠密矩阵；根据形成的稠密矩阵以及与任一卷积层对应的卷积核矩阵，获得特征聚合矩阵；将获得的特征聚合矩阵中的特征向量进行分散输出，以获得任一卷积层的输出特征图。

例如，处理器200还生成从任一卷积层的输入特征图中抽取的像素点与稠密矩阵中的数据之间的位置映射表。在此情况下，处理器200基于位置映射表将特征聚合矩阵中的特征向量进行映射，获得任一卷积层的输出特征图。

在本发明示例性实施例中，在获得稀疏特征图之后，处理器200可基于获得的稀疏特征图对被监控场景变化的原因进行分析。

在一优选实施例中，处理器200可还将当前时间获得的稀疏特征图与历史稀疏特征图进行融合，基于融合后的稀疏特征图对引起场景变化的原因进行分析。

作为示例，处理器200可使用长短时记忆递归神经网络对稀疏特征图与历史稀疏特征图进行融合。

具体说来，处理器200可还被配置为：对获得的稀疏特征图进行区域特征提取，基于提取的区域特征，识别使被监控场景发生变化的物体，如果识别出的物体为人，则确定物体所在的位置、运动轨迹、行为和/或身份。如果识别出的物体不为人，则处理器200可不做处理。

针对上述对稀疏特征图与历史稀疏特征图进行融合的情况，处理器200可对融合后的稀疏特征图进行区域特征提取。

针对前端摄像机包括用于直接输出事件的事件相机和用于捕获帧图像的普通相机的情况，事件相机可用于捕获被监控场景的变化，在处理器200识别出物体为人时，处理器200可触发普通相机拍摄物体，以记录该物体的图像或者视频数据，用于对物体的进一步分析。

图13示出根据本发明示例性实施例的图像处理设备的框图。

如图13所示，根据本发明示例性实施例的图像处理设备包括：动态事件信息采集模块10和稀疏特征图生成模块20。应理解，这些模块可由数字信号处理器、现场可编程门阵列等通用硬件处理器来实现，也可通过专用芯片等专用硬件处理器来实现，还可完全通过计算机程序来以软件方式实现，例如，可被实现为图12中所示的处理器中的各个模块。

具体说来，动态事件信息采集模块10捕获被监控场景的变化。

稀疏特征图生成模块20对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。

可选地，根据本发明示例性实施例的稀疏特征图生成模块20可包括动态事件图生成子模块21和稀疏特征图运算子模块22。

例如，动态事件图生成子模块21可将由捕获到被监控场景的变化而产生的基于像素点的事件沿时间轴进行投影，形成二维图像。

作为示例，事件可包括像素点所在的位置、事件发生的时间和像素点的极性。这里，极性可指示像素点的亮度值变化，例如，像素点的极性可指示该像素点所发生的变化是亮度值增大还是亮度值减小。

基于像素点的事件可通过如下方式来产生。

一种情况，动态事件信息采集模块10可在捕获到被监控场景的变化时，获取基于像素点的事件。

例如，利用事件相机捕获被监控场景的变化，动态事件信息采集模块10从事件相机获取基于像素点的事件。

另一种情况，根据本发明示例性实施例的稀疏特征图生成模块20可还包括帧差分处理子模块(图中未示出)。

在此情况下，利用普通相机捕获被监控场景的帧图像，动态事件信息采集模块10从普通相机获取帧图像，帧差分处理子模块通过对捕获的被监控场景的帧图像进行帧差分处理来产生基于像素点的事件。

下面介绍动态事件图生成子模块21形成二维图像的过程。

这里，当捕获到被监控场景的变化时，则会产生一事件，随着时间的推移，将形成一事件流，动态事件图生成子模块21将事件流以时间衰减方式向二维图像平面进行投影来生成二维图像。

在一优选实施例中，稀疏特征图生成模块20可还包括动态事件预处理子模块(图中未示出)，通过从产生的所有事件中滤除由光源闪烁和/或由用于捕获被监控场景的变化的相机的内部噪声所产生的事件，来获得由物体运动产生的事件。

在此情况下，动态事件图生成子模块21可基于由物体运动产生的事件来形成二维图像。

在一优选实施例中，稀疏特征图生成模块20可还包括纹理重建子模块，使用基于像素点的事件，对产生事件的物体的纹理进行重建。

稀疏特征图运算子模块22可基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图。

优选地，稀疏特征图运算子模块22可通过稀疏卷积神经网络，对二维图像进行稀疏特征计算来获得稀疏特征图。下面介绍稀疏特征图运算子模块22基于稀疏卷积神经网络获得稀疏特征图的过程。

例如，根据本发明示例性实施例的稀疏特征图运算子模块22可包括特征激活图生成单元221和稀疏特征图运算单元222。

具体说来，特征激活图生成单元221基于稀疏卷积神经网络的结构以及二维图像，确定与稀疏卷积神经网络的每个卷积层对应的特征激活图。

例如，二维图像可形成底层卷积的特征激活图，特征激活图生成单元221根据稀疏卷积神经网络的感受野进行尺度调整，获得与稀疏卷积神经网络的各卷积层对应的特征激活图。

稀疏特征图运算单元222利用所确定的各特征激活图和二维图像，通过稀疏卷积神经网络获得稀疏特征图。

例如，稀疏特征图运算单元222可通过以下方式获得稀疏卷积神经网络中任一卷积层的输出特征图。

优选地，稀疏特征图运算单元222还生成从任一卷积层的输入特征图中抽取的像素点与稠密矩阵中的数据之间的位置映射表。在此情况下，稀疏特征图运算单元222可基于位置映射表将特征聚合矩阵中的特征向量进行映射，获得任一卷积层的输出特征图。

在本发明示例性实施例中，在获得稀疏特征图之后，还可基于获得的稀疏特征图对被监控场景变化的原因进行分析。

在此情况下，根据本发明示例性实施例的图像处理设备可还包括特征图分析模块30，对获得的稀疏特征图进行区域特征提取，基于提取的区域特征，识别使被监控场景发生变化的物体，如果识别出的物体为人，则确定物体所在的位置、运动轨迹、行为和/或身份。

在一优选实施例中，根据本发明示例性实施例的图像处理设备可还包括融合模块(图中未示出)，将当前时间获得的稀疏特征图与历史稀疏特征图进行融合，在此情况下，特征图分析模块30对融合后的稀疏特征图进行区域特征提取。

作为示例，融合模块可使用长短时记忆递归神经网络对稀疏特征图与历史稀疏特征图进行融合。

针对在被监控场景中设置了用于直接输出事件的事件相机和用于捕获帧图像的普通相机的情况，当识别出物体为人时，特征图分析模块30产生并输出拍摄触发信号，以触发用于捕获帧图像的普通相机拍摄物体。

根据本发明的示例性实施例还提供一种存储有计算机程序的计算机可读存储介质。该计算机可读存储介质存储有当被处理器执行时使得处理器执行上述图像处理方法的计算机程序。该计算机可读记录介质是可存储由计算机系统读出的数据的任意数据存储装置。计算机可读记录介质的示例包括：只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。

通过采用本发明示例性实施例的图像处理方法、图像处理设备和监控系统，利用传感器的稀疏性进行加速，对监控场景进行了优化，还减小了处理的数据量和运算量。

此外，通过采用本发明示例性实施例的图像处理方法、图像处理设备和监控系统，能够基于被监控场景的变化，快速、精确、自动地分析出引起被监控场景变化的原因。

此外，采用本发明示例性实施例的图像处理方法、图像处理设备和监控系统，将稀疏卷积神经网络引入到基于场景变化的场景理解中，针对传感器的特性进行稀疏卷积方法的优化，并通过特征激活图仅计算更有效的激活位置，有效减少图像处理的运算量和计算量。

尽管已经参照其示例性实施例具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种图像处理方法，其特征在于，包括：

捕获被监控场景的变化；

对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。

2.如权利要求1所述的图像处理方法，其特征在于，对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图的步骤包括：

当捕获到被监控场景的变化时，产生基于像素点的事件；

将产生的事件沿时间轴进行投影，并基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图。

3.如权利要求2所述的图像处理方法，其特征在于，所述事件包括像素点所在的位置、事件发生的时间和像素点的极性，所述极性指示像素点的亮度值变化。

4.如权利要求2所述的图像处理方法，其特征在于，产生基于像素点的事件的步骤包括：

通过事件相机捕获被监控场景的变化，产生基于像素点的事件，

或者，通过对普通相机捕获的帧图像进行帧差分处理来产生基于像素点的事件。

5.如权利要求4所述的图像处理方法，其特征在于，所述事件相机包括动态视觉传感器和/或时间异步图像传感器。

6.如权利要求2所述的图像处理方法，其特征在于，事件发生的时间越早，事件投影在二维图像上的映射值越小，事件发生的时间越晚，事件投影在二维图像上的映射值越大。

7.如权利要求2所述的图像处理方法，其特征在于，使用基于像素点的事件，对产生事件的物体的纹理进行重建。

8.如权利要求2所述的图像处理方法，其特征在于，所述二维图像为基于由物体运动产生的事件形成的二维图像，

其中，通过从产生的所有事件中滤除由光源闪烁和/或由用于捕获被监控场景的变化的相机的内部噪声所产生的事件，来获得由物体运动产生的事件。

9.如权利要求2所述的图像处理方法，其特征在于，基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图的步骤包括：

通过稀疏卷积神经网络，对所述二维图像进行稀疏特征计算来获得稀疏特征图。

10.如权利要求9所述的图像处理方法，其特征在于，通过稀疏卷积神经网络，对所述二维图像进行稀疏特征计算来获得稀疏特征图的步骤包括：

基于稀疏卷积神经网络的结构以及所述二维图像，确定与稀疏卷积神经网络的每个卷积层对应的特征激活图；

利用所确定的各特征激活图和所述二维图像，通过稀疏卷积神经网络获得稀疏特征图。

11.如权利要求10所述的图像处理方法，其特征在于，与任一卷积层对应的特征激活图指示在所述任一卷积层中需要参与计算的像素点所在的位置。

12.如权利要求10所述的图像处理方法，其特征在于，与任一卷积层对应的特征激活图的尺寸根据稀疏卷积神经网络的所述任一卷积层的输入特征图的大小和卷积核的感受野的大小来确定。

13.如权利要求10所述的图像处理方法，其特征在于，在所述稀疏卷积神经网络中，利用任一卷积层的下一卷积层的输入特征图的稀疏性来约束所述任一卷积层的输出特征图的稀疏性。

14.如权利要求10所述的图像处理方法，其特征在于，通过以下方式获得稀疏卷积神经网络中任一卷积层的输出特征图：

基于与所述任一卷积层对应的特征激活图，从所述任一卷积层的输入特征图中抽取需要参与计算的像素点；

对抽取的像素点进行稀疏特征聚合，形成稠密矩阵；

根据形成的稠密矩阵以及与所述任一卷积层对应的卷积核矩阵，获得特征聚合矩阵；

将获得的特征聚合矩阵中的特征向量进行分散输出，以获得所述任一卷积层的输出特征图。

15.如权利要求14所述的图像处理方法，其特征在于，所述图像处理方法还包括：生成从所述任一卷积层的输入特征图中抽取的像素点与稠密矩阵中的数据之间的位置映射表，

其中，基于所述位置映射表将特征聚合矩阵中的特征向量进行映射，获得所述任一卷积层的输出特征图。

16.如权利要求1所述的图像处理方法，其特征在于，所述图像处理方法还包括：

对获得的稀疏特征图进行区域特征提取；

基于提取的区域特征，识别使被监控场景发生变化的物体；

如果识别出的所述物体为人，则确定所述物体所在的位置、运动轨迹、行为和/或身份。

17.如权利要求16所述的图像处理方法，其特征在于，所述图像处理方法还包括：

当识别出的所述物体为人时，触发用于捕获帧图像的普通相机拍摄所述物体。

18.如权利要求16所述的图像处理方法，其特征在于，所述图像处理方法还包括：

将当前时间获得的稀疏特征图与历史稀疏特征图进行融合，以对融合后的稀疏特征图进行区域特征提取。

19.如权利要求18所述的图像处理方法，其特征在于，使用长短时记忆递归神经网络对稀疏特征图与历史稀疏特征图进行融合。

20.一种监控系统，其特征在于，包括：

前端摄像机，捕获被监控场景的变化；

处理器，被配置为：对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。

21.如权利要求20所述的监控系统，其特征在于，处理器将由捕获到被监控场景的变化而产生的基于像素点的事件沿时间轴进行投影，并基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图。

22.如权利要求21所述的监控系统，其特征在于，所述事件包括像素点所在的位置、事件发生的时间和像素点的极性，所述极性指示像素点的亮度值变化。

23.如权利要求21所述的监控系统，其特征在于，所述前端摄像机包括用于直接输出事件的事件相机或者用于捕获帧图像的普通相机，

其中，事件相机在捕获到被监控场景的变化时，产生基于像素点的事件，

或者，处理器通过对普通相机捕获的帧图像进行帧差分处理来产生基于像素点的事件。

24.如权利要求23所述的监控系统，其特征在于，所述事件相机包括动态视觉传感器和/或时间异步图像传感器。

25.如权利要求21所述的监控系统，其特征在于，事件发生的时间越早，事件投影在二维图像上的映射值越小，事件发生的时间越晚，事件投影在二维图像上的映射值越大。

26.如权利要求21所述的监控系统，其特征在于，处理器还使用基于像素点的事件，对产生事件的物体的纹理进行重建。

27.如权利要求21所述的监控系统，其特征在于，所述二维图像为基于由物体运动产生的事件形成的二维图像，

其中，处理器通过从产生的所有事件中滤除由光源闪烁和/或由用于捕获被监控场景的变化的相机的内部噪声所产生的事件，获得由物体运动产生的事件。

28.如权利要求21所述的监控系统，其特征在于，处理器通过稀疏卷积神经网络，对所述二维图像进行稀疏特征计算来获得稀疏特征图。

29.如权利要求28所述的监控系统，其特征在于，处理器基于稀疏卷积神经网络的结构以及所述二维图像，确定与稀疏卷积神经网络的每个卷积层对应的特征激活图，利用所确定的各特征激活图和所述二维图像，通过稀疏卷积神经网络获得稀疏特征图。

30.如权利要求29所述的监控系统，其特征在于，与任一卷积层对应的特征激活图指示在所述任一卷积层中需要参与计算的像素点所在的位置。

31.如权利要求29所述的监控系统，其特征在于，与任一卷积层对应的特征激活图的尺寸根据稀疏卷积神经网络的所述任一卷积层的输入特征图的大小和卷积核的感受野的大小来确定。

32.如权利要求29所述的监控系统，其特征在于，在所述稀疏卷积神经网络中，利用任一卷积层的下一卷积层的输入特征图的稀疏性来约束所述任一卷积层的输出特征图的稀疏性。

33.如权利要求29所述的监控系统，其特征在于，处理器通过以下方式获得稀疏卷积神经网络中任一卷积层的输出特征图：

对抽取的像素点进行稀疏特征聚合，形成稠密矩阵；

34.如权利要求33所述的监控系统，其特征在于，处理器还生成从所述任一卷积层的输入特征图中抽取的像素点与稠密矩阵中的数据之间的位置映射表，

其中，处理器基于所述位置映射表将特征聚合矩阵中的特征向量进行映射，获得所述任一卷积层的输出特征图。

35.如权利要求20所述的监控系统，其特征在于，处理器还被配置为：

对获得的稀疏特征图进行区域特征提取；

基于提取的区域特征，识别使被监控场景发生变化的物体；

36.如权利要求35所述的监控系统，其特征在于，所述前端摄像机包括用于直接输出事件的事件相机和用于捕获帧图像的普通相机，

其中，事件相机用于捕获被监控场景的变化，

在识别出的所述物体为人时，处理器触发普通相机拍摄所述物体。

37.如权利要求35所述的监控系统，其特征在于，处理器还将当前时间获得的稀疏特征图与历史稀疏特征图进行融合，以对融合后的稀疏特征图进行区域特征提取。

38.如权利要求37所述的监控系统，其特征在于，处理器使用长短时记忆递归神经网络对稀疏特征图与历史稀疏特征图进行融合。

39.一种图像处理设备，其特征在于，包括：

动态事件信息采集模块，捕获被监控场景的变化；

稀疏特征图生成模块，对捕获到的被监控场景的变化进行稀疏特征计算，获得稀疏特征图。

40.如权利要求39所述的图像处理设备，其特征在于，稀疏特征图生成模块包括：

动态事件图生成子模块，将由捕获到被监控场景的变化而产生的基于像素点的事件沿时间轴进行投影，形成二维图像；

稀疏特征图运算子模块，基于投影所形成的二维图像进行稀疏特征计算来获得稀疏特征图。

41.如权利要求40所述的图像处理设备，其特征在于，所述事件包括像素点所在的位置、事件发生的时间和像素点的极性，所述极性指示像素点的亮度值变化。

42.如权利要求40所述的图像处理设备，其特征在于，

动态事件信息采集模块在捕获到被监控场景的变化时，产生基于像素点的事件，

或者，稀疏特征图生成模块还包括帧差分处理子模块，通过对捕获的被监控场景的帧图像进行帧差分处理来产生基于像素点的事件。

43.如权利要求40所述的图像处理设备，其特征在于，事件发生的时间越早，事件投影在二维图像上的映射值越小，事件发生的时间越晚，事件投影在二维图像上的映射值越大。

44.如权利要求40所述的图像处理设备，其特征在于，稀疏特征图生成模块还包括纹理重建子模块，使用基于像素点的事件，对产生事件的物体的纹理进行重建。

45.如权利要求40所述的图像处理设备，其特征在于，稀疏特征图生成模块还包括动态事件预处理子模块，通过从产生的所有事件中滤除由光源闪烁和/或由用于捕获被监控场景的变化的相机的内部噪声所产生的事件，来获得由物体运动产生的事件，

其中，动态事件图生成子模块基于由物体运动产生的事件来形成二维图像。

46.如权利要求40所述的图像处理设备，其特征在于，稀疏特征图运算子模块通过稀疏卷积神经网络，对所述二维图像进行稀疏特征计算来获得稀疏特征图。

47.如权利要求46所述的图像处理设备，其特征在于，稀疏特征图运算子模块包括：

特征激活图生成单元，基于稀疏卷积神经网络的结构以及所述二维图像，确定与稀疏卷积神经网络的每个卷积层对应的特征激活图；

稀疏特征图运算单元，利用所确定的各特征激活图和所述二维图像，通过稀疏卷积神经网络获得稀疏特征图。

48.如权利要求47所述的图像处理设备，其特征在于，与任一卷积层对应的特征激活图指示在所述任一卷积层中需要参与计算的像素点所在的位置。

49.如权利要求47所述的图像处理设备，其特征在于，与任一卷积层对应的特征激活图的尺寸根据稀疏卷积神经网络的所述任一卷积层的输入特征图的大小和卷积核的感受野的大小来确定。

50.如权利要求47所述的图像处理设备，其特征在于，在所述稀疏卷积神经网络中，利用任一卷积层的下一卷积层的输入特征图的稀疏性来约束所述任一卷积层的输出特征图的稀疏性。

51.如权利要求47所述的图像处理设备，其特征在于，稀疏特征图运算单元通过以下方式获得稀疏卷积神经网络中任一卷积层的输出特征图：

对抽取的像素点进行稀疏特征聚合，形成稠密矩阵；

52.如权利要求51所述的图像处理设备，其特征在于，稀疏特征图运算单元还生成从所述任一卷积层的输入特征图中抽取的像素点与稠密矩阵中的数据之间的位置映射表，

其中，稀疏特征图运算单元基于所述位置映射表将特征聚合矩阵中的特征向量进行映射，获得所述任一卷积层的输出特征图。

53.如权利要求39所述的图像处理设备，其特征在于，所述图像处理设备还包括特征图分析模块，对获得的稀疏特征图进行区域特征提取，基于提取的区域特征，识别使被监控场景发生变化的物体，如果识别出的所述物体为人，则确定所述物体所在的位置、运动轨迹、行为和/或身份。

54.如权利要求53所述的图像处理设备，其特征在于，当识别出的所述物体为人时，特征图分析模块产生并输出拍摄触发信号，以触发用于捕获帧图像的普通相机拍摄所述物体。

55.如权利要求53所述的图像处理设备，其特征在于，所述图像处理设备还包括融合模块，将当前时间获得的稀疏特征图与历史稀疏特征图进行融合，特征图分析模块对融合后的稀疏特征图进行区域特征提取。

56.如权利要求55所述的图像处理设备，其特征在于，融合模块使用长短时记忆递归神经网络对稀疏特征图与历史稀疏特征图进行融合。

57.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序在被处理器执行时实现如权利要求1至19中任意一项所述的图像处理方法。