CN115496920A

CN115496920A - 基于事件相机的自适应目标检测方法、系统与设备

Info

Publication number: CN115496920A
Application number: CN202211452305.7A
Authority: CN
Inventors: 张越一; 彭岩松; 孙晓艳
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2022-12-20
Anticipated expiration: 2042-11-21
Also published as: CN115496920B

Abstract

本发明公开了一种基于事件相机的自适应目标检测方法、系统与设备，通过根据事件流的疏密程度将其转换为自适应通道数的超直方图，一方面，由于自适应通道数的超直方图能充分保留事件的极性和时空信息，因此，可以检测到更多的物体，并准确探测各物体的位置；另一方面，事件流转化效率较高，可以实现高效的基于事件相机的目标检测，并降低硬件性能的要求。

Description

基于事件相机的自适应目标检测方法、系统与设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于事件相机的自适应目标检测方法、系统与设备。

背景技术

基于深度学习的目标检测是计算机视觉领域的重要研究方向之一，传统目标检测方法旨在从视觉相机捕获的帧中提取特征，利用特征对帧中目标进行分类并标注出坐标位置。

目前有许多准确且高效的目标检测方法，在输入帧质量良好的情况下表现优秀。但在实际应用场景中，仍存在着许多传统相机难以应对的严苛场景，例如，在驶离隧道时由照度变化大引起的画面过曝，在黑暗场景中拍摄因为照度不足引起的细节丢失，以及拍摄高速运动的目标时产生的动态模糊等都会导致目标丢失。

基于事件相机的目标检测引入了一种生物启发的动态视觉传感器（DVS），又被称为事件相机，其工作原理与传统基于帧的相机不同，它的采集周期并非由内部时钟电路控制，而是异步采集每一个像素点的“事件”，一旦某个像素的照度变化量累计达到阈值，就会输出并存储一个事件，每一个事件都保存着时间戳t，x坐标，y坐标以及记录照度是增加还是减小的极性信息。

比起传统相机，事件相机有高时间分辨率，高动态范围以及低功耗的特性，这些特性使得事件相机可以在极端光照和目标高速运动的条件下保持数据的稳定采集以保证目标检测的最终效果。

如图1a所示，为过曝场景下传统相机拍摄图像的示例，车辆驶离隧道时，由传统相机低动态范围引起的过曝会造成视野丢失。如图1b所示，为过曝场景下事件相机采集数据的示例，事件相机凭借其极高的动态范围能采集到完整的场景。

事件数据可以理解为是（x，y，t）稀疏三维点云数据的极性和坐标记录形成的（N，4）序列，N为事件数目，由于1秒的事件在时间维度的长度达到了惊人的百万级别，在将事件输入网络前，需要先将其在转换成一种新的表征。良好的表征保障了检测的性能，过度的简单下采样会造成严重的性能下降。同时，在例如自动驾驶系统等实际应用场景中，高效实时的转换是极其重要的，因为显存的限制，事件转换和检测通常无法并行运算，如果转换效率低，就会对硬件性能有过高的要求，难以应用落地。

发明内容

本发明的目的是提供一种基于事件相机的自适应目标检测方法、系统与设备，可以准确实现目标检测，并提升转化效率，降低硬件性能的要求。

本发明的目的是通过以下技术方案实现的：

一种基于事件相机的自适应目标检测方法，包括：

步骤S1、在当前时刻，读取设定时间范围内的事件流，将事件流中的所有事件数据通过多维倒排索引的方法转换为四通道的超直方图构建块，作为当前时刻的四通道的超直方图构建块，并根据事件流的疏密程度更新自适应队列，获得总缓存时间范围T内的自适应通道数的超直方图；其中，事件数据为事件相机采集到的数据；

步骤S2、对所述自适应通道数的超直方图进行加权与降维，获得加权超直方图；

步骤S3、利用所述加权超直方图进行目标检测，获得目标检测结果。

一种基于事件相机的自适应目标检测系统，包括：

自适应事件转换模块，用于执行步骤S1，所述步骤S1包括：在当前时刻，读取设定时间范围内的事件流，将事件流中的所有事件数据通过多维倒排索引的方法转换为四通道的超直方图构建块，作为当前时刻的四通道的超直方图构建块，并根据事件流的疏密程度更新自适应队列，获得总缓存时间范围T内的自适应通道数的超直方图；其中，事件数据为事件相机采集到的数据；

加权降维模块，用于执行步骤S2，所述步骤S2包括：对所述自适应通道数的超直方图进行加权与降维，获得加权超直方图；

目标检测网络，用于执行步骤S3，所述步骤S3包括：利用所述加权超直方图进行目标检测，获得目标检测结果。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过根据事件流的疏密程度将其转换为自适应通道数的超直方图，一方面，由于自适应通道数的超直方图能充分保留事件的极性和时空信息，因此，可以检测到更多的物体，并准确探测各物体的位置；另一方面，事件流转化效率较高，可以实现高效的基于事件相机的目标检测，并降低硬件性能的要求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1a为本发明实施例提供的过曝场景下传统相机拍摄图像的示意图；

图1b为本发明实施例提供的过曝场景下事件相机采集数据的示意图；

图2为本发明实施例提供的一种基于事件相机的自适应目标检测方法的流程图；

图3为本发明实施例提供的通过自适应事件转换模块生成超直方图过程的示意图；

图4为本发明实施例提供的基于事件相机的自适应目标检测方法的示意图；

图5为本发明实施例提供的基于事件相机的Shadow Mosaic 数据增强方法的示意图；

图6为本发明实施例提供的在三个数据集上目标检测结果的可视化结果示意图；

图7为本发明实施例提供的一种基于事件相机的自适应目标检测系统的示意图；

图8为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种基于事件相机的自适应目标检测方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种基于事件相机的自适应目标检测方法，如图2所示，其主要包括：

步骤S1、在当前时刻，读取设定时间范围内的事件流，将事件流中的所有事件数据通过多维倒排索引的方法转换为四通道的超直方图构建块，作为当前时刻的四通道的超直方图构建块，并根据事件流的疏密程度更新当前时刻的自适应队列，获得总缓存时间范围T内的自适应通道数的超直方图。

本发明实施例中，事件数据为事件相机采集到的数据；参见前述背景技术部分的介绍，可使用事件相机采集事件数据，再以.data 或.h5py等常见形式储存，空间域尺度为H×W，H为高度，W为宽度，存储的事件数据为（N，4）序列。

本步骤可以通过自适应事件转换模块实现，该模块可以根据输入事件流的疏密程度将其转换为一种新颖的表征超直方图，既能充分保留事件的极性和时空信息，又有着极高的计算效率。

本发明实施例中，输入的每一时刻对应事件流是根据时刻值截取的一段时间内的事件流，通过索引t对事件流进行分段读取，具体的：将当前时刻记为t₀时刻，给定一个设定值t_s，计算设定时间范围：（t₀-t_s，t₀）；读取设定时间范围（t₀-t_s，t₀）内的事件流。示例性的，可以设置：t_s=50/8，单位为毫秒（ms）。

图3展示了通过自适应事件转换模块生成超直方图过程，主要流程如下：

1）将输入的事件（Event）流通过多维倒排索引的方法高效地转换为四通道的超直方图构建块，不同于只能保留极性信息的传统直方图（数量直方图，QuantityHistograms），四通道的超直方图构建块中特有的时间直方图还编码了事件点出现的相对时间，即还包含时间直方图（Temporal Histograms），具体的所述四通道的超直方图构建块包括：正时间直方图、正数量直方图、负时间直方图与负数量直方图。

本发明实施例中，事件流中事件点的x、y坐标、极性以及相对时间戳对应的使用x,y, p, tr表示，事件流中的正负事件分别使用黑点与白点表示；图3中，将事件流中所有事件的x, y, p, tr构成的向量使用符号

表示，形成事件序列（Event Sequence），采用多维倒排索引的方法（Inverted multi-index mapping），形成两个长度为

的1D直方图，这两个1D直方图的取值与排序与4K个形状为（H，W）二维直方图一一对应，如图3所示，可以将事件流所记录的信息理解为一个四维空间，

为一维映射阵列（1D array），通过对1D array求1D直方图，便可间接得到4D空间的直方图，具体的：1D直方图可以利用pytorch框架自带的bincount函数快速生成，再通过矩阵变换（Reshape）和矩阵拼接（Concat）就可以得到形状为（4K,H,W）的超直方图，超直方图等价于K组由数量直方图和时间直方图组成的构建块。如图3右上方所示，第一通道、第三通道分别为正时间直方图、负时间直方图，第二通道、第四通道分别为正数量直方图、负数量直方图。可以称当K=1时的超直方图为超直方图构建块。

2）自适应事件转换模块根据输入事件流的疏密程度，构建一个自适应队列，在任意时刻，生成四通道的超直方图构建块对自适应队列进行更新，自适应队列中总共能暂存总缓存时间范围T内的最多K个四通道的超直方图构建块，T= K×t_s。在测试时，每次生成一个超直方图构建块。在训练时，K个四通道的超直方图构建块以一个通道数为4K的超直方图的形式同时生成以节省训练时长。示例性的，可以设置K=8。

自适应队列更新方式如下：

若当前时刻事件流的总事件数量小于设定的第一阈值（事件数量的阈值），则为稀疏事件流，将当前时刻的四通道的超直方图构建块与上一时刻的四通道的超直方图构建块在所述自适应队列中相加。

若当前时刻事件流的总事件数量不小于设定的第一阈值，或者当前时刻前连续读取的多段稀疏事件流中的总事件数量不小于设定的第一阈值，此时为稠密事件流，则将当前时刻的四通道的超直方图构建块置于所述自适应队列的队首位置。第一阈值可根据实际情况或者经验进行设定。示例性的，可以设置第一阈值为100000。

3）将总缓存时间范围T内的，更新得到的所述自适应队列中的所有四通道的超直方图构建块在通道维度拼接，获得自适应通道数的超直方图，所述自适应通道数为

，

为一个自适应变换的值。

本发明实施例提供的上述方案中，通过自适应的方式使得超直方图精细划分时间维度的同时，各通道内的数据密度仍然保持稳定，减少了疏密程度剧烈变化对检测性能的影响。

步骤S2、对所述自适应通道数的超直方图进行加权与降维，获得加权超直方图。

本发明实施例中，首先通过压缩和激励网络（SENet）进行加权，再通过卷积操作（例如，1x1卷积）进行加权与降维，得到的加权超直方图的通道维度设为C，C为预定数值，可根据实际情况或者经验进行设定。示例性的，可以设置C为4。

SENet中的Squeeze和Excitation操作充分利用了各通道的全局信息，而1×1卷积层可以看作是再次加权并降维的过程。SENet和1×1卷积层的结合可以更好地区分在不同时刻读取的事件，同时避免了由于输入目标检测网络通道数不固定而导致的网络收敛问题。

本发明实施例中提供的上述方案可以与现有的各类目标检测网络相结合，目标检测网络包括： Retinanet、YOLOv5、Deformable-DETR（图4中简写为DETR）等。将步骤S2得到的加权超直方图输入至相应目标检测网络进行目标检测，从而获得目标检测结果。

考虑到利用目标检测网络进行目标检测的流程可参照常规技术实现，因此，此处简要介绍相关的流程：加权超直方图输入至相应目标检测网络后，进行分类预测和回归预测；通过分类预测，获得各物体类别，并计算出不同类别物体的置信度；再通过回归预测，对所有锚框（物体的位置）进行坐标回归，最终结果（即物体最终位置）被称为预测框，通过置信度阈值筛选或非极大值抑制（NMS）的预测框被最终保留，将其映射回尺度为H×W的空间域，完成全部的目标检测流程。

图4展示了上述步骤S1~S3的主要流程，首先通过自适应事件转换模块将输入事件流转换为四通道的超直方图构建块h _t，并根据事件流的疏密程度更新自适应队列（Adaptive queue Q），得到自适应通道数的超直方图（HH_t）；然后，通过SENet与1x1卷积层（Conv）进行加权与降维，获得加权超直方图（Weighted HH_t）；之后，再经过目标检测网络得到目标检测结果。其中，所使用的可部署权重是通过对所设计网络进行训练得到，网络包括SENet、1x1卷积层和目标检测网络。在训练时，网络的输入为通道数为4K的超直方图，此时超直方图采用图3所示方法直接生成以节省训练时长。训练中使用的标签为（M,5）序列，其中，5表示每个标签都存有（目标种类，中心点x坐标，中心点y坐标，框宽w，框长h）这5类信息，M代表标签个数。

优选的：本发明实施例还提出了一种基于事件相机的Shadow Mosaic 数据增强方法，显著提高了事件样本的多样性，提高了检测模型的泛化能力。具体的，所述步骤S1与步骤S2构成一个自适应的事件转换模块，通过获得的加权超直方图对目标检测网络进行训练，再通过前述步骤S1~步骤S3的流程实现目标检测。

训练过程中，使用基于事件相机的Shadow Mosaic 数据增强方法对给定的原始事件流集合（例如，基于Prophesee和DAVIS研发的事件相机所采集到的交通事件数据）进行数据增强，再通过所述自适应的事件转换模块获得对应的加权超直方图，训练所述目标检测模型。如图5所示，基于事件相机的Shadow Mosaic 数据增强方法包括：第一阶段（称为Shadow），第二阶段（称为Mosaic），缩放和裁剪四个阶段，主要的流程如下：1）对于当前原始事件流（Original events），从所述原始事件流集合中随机选取S个原始事件流，利用S+1个原始事件流模拟出S+1个不同疏密程度的事件流，称为Shadow事件流（Shadow events），其中，S为正整数，如图5所示，提供了S=3的示例；2）将S+1个Shadow事件流合并成一个事件流，称为Mosaic事件流（Mosaic events），并保证它们在空间域互不重叠，仅相交于一点，例如，四段事件的空间域分别占据左上、右上、左下、右下位置；3）在确保S+1个Shadow事件流相交坐标被保留的前提下，对所述Mosaic事件流进行随机缩放和裁剪，具体的：对坐标随机放大（scale up）或缩小（scale down），由于无法直接对异步事件应用基于图片的插值算法，与实际采集的事件对比，缩放后的事件会产生明显失真，需要再利用Shadow方法修复失真（即将缩放后的Mosaic事件流模拟为更为稠密的Mosaic事件流，以填补失真区域，更稠密的Mosaic事件流是指增加事件数量）并执行随机事件裁剪，裁剪时保证合并的S+1个Shadow事件流的相交坐标被保留。图3上方为事件点在X-Y平面上的投影（The projection of eventpoints onto the X-Y plane），下方为考虑时间维度的事件点三维可视化结果（The 3Dvisualization of event points considering time dimension）。

本发明实施例提供的以上方案，实现了高效的基于事件相机的目标检测，便于部署，可以与绝大多数现有目标检测模型结合，在检测性能指标超过所有现存方案的同时，显著加快了运行速度。

为了说明本发明上述方案的有效性，在可访问的大型开源数据集（Gen1数据集）上进行了完整测试。

Gen1 数据集在304×240的分辨率下采集，标注频率为20Hz。Gen1数据集共包含两类物体，总采集时长高达39小时，其中22.63小时用来训练，6.59小时用作验证集，10.10小时用作测试集。实验过程中所选定的训练数据也参照前文介绍的方式进行增强处理。

实验结果显示本发明性能优于目前最先进的方案，同时检测效率大大提高，实验得出的对比结果如表1所示。

表1中，给出了在Gen1数据集上与最先进的基于事件相机的目标检测方案的对比，这其中包括基于长短期记忆网络和单步多框目标检测网络的RED和基于异步时空记忆网络的ASTMNet，分别于2019年和2022年发表于人工智能顶级会议NIPS和图像处理国际著名期刊IEEE TIP。此外，还给出了与基线方案ITS+Retinanet、ITS+Deformable-DETR和ITS+YOLOv5的对比，分别表示以混合表征ITS（Inceptive Time Surface）为网络输入并去除Shadow Mosaic 数据增强的检测实验结果。

表1：在Gen1 数据集上，与最先进方案的对比结果

以上表1中，Ours+Retinanet、Ours+Deformable-DETR、Ours+ YOLOv5分别表示将本发明提供的方案与现有目标检测网络Retinanet、Deformable-DETR、YOLOv5相结合，也即利用现有目标检测网络检验前述步骤S1~S3的可行性。

此外，实验中还比较了本发明与现有方案在三个数据集上目标检测结果的可视化结果，如图6所示，从左至右的三列依次对应：1Mpx 数据集、Gen1数据集、MVSEC-NIGHTL21数据集，从上至下依次对应：Ground Truth（真值）、ITS+YOLOv5方案的结果、Ours+ YOLOv5方案的结果。结果表明：本发明能探测到最多的物体，而且框的坐标回归也更精确。其中，1Mpx数据集为可访问的大型开源数据集，MVSEC-NIGHTL21数据集为一个一小型开源数据集，二者均为现有的数据集。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种基于事件相机的自适应目标检测系统，其主要基于前述实施例提供的方法实现，如图7所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图8所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于事件相机的自适应目标检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于事件相机的自适应目标检测方法，其特征在于，所述步骤S1与步骤S2构成一个自适应的事件转换模块，通过加权超直方图对执行步骤S3的目标检测网络进行训练，训练完毕后，通过步骤S1~步骤S3的流程实现目标检测；

训练过程中，对给定的原始事件流集合进行数据增强，再通过所述自适应的事件转换模块获得对应的加权超直方图，训练所述目标检测模型；将数据增强方法称为基于事件相机的Shadow Mosaic数据增强方法，基于事件相机的Shadow Mosaic数据增强方法的流程包括：对于当前原始事件流，从所述原始事件流集合中随机选取S个原始事件流，利用S+1个原始事件流模拟出S+1个不同疏密程度的事件流，称为Shadow事件流，其中，S为正整数；将S+1个Shadow事件流合并成一个事件流，称为Mosaic事件流，合并时S+1个Shadow事件流在空间域互不重叠，仅相交于一点；在保留相交坐标的情况下，对所述Mosaic事件流进行随机缩放和裁剪。

3.根据权利要求1所述的一种基于事件相机的自适应目标检测方法，其特征在于，所述根据当前时刻读取设定时间范围内的事件流包括：

将当前时刻记为t₀时刻，给定一个设定值t_s，计算设定时间范围：（t₀-t_s,t₀）；

读取设定时间范围（t₀-t_s,t₀）内的事件流。

4.根据权利要求1所述的一种基于事件相机的自适应目标检测方法，其特征在于，所述四通道的超直方图构建块包括：正时间直方图、正数量直方图、负时间直方图与负数量直方图。

5.根据权利要求1所述的一种基于事件相机的自适应目标检测方法，其特征在于，所述根据事件流的疏密程度更新所述自适应队列包括：

若当前时刻事件流的总事件数量小于设定的第一阈值，则为稀疏事件流，将当前时刻的四通道的超直方图构建块与上一时刻的四通道的超直方图构建块在所述自适应队列中相加；

若当前时刻事件流的总事件数量不小于设定的第一阈值，或者当前时刻前连续读取的多段稀疏事件流中的总事件数量不小于设定的第一阈值，则将当前时刻的四通道的超直方图构建块置于所述自适应队列的队首位置。

6.根据权利要求1所述的一种基于事件相机的自适应目标检测方法，其特征在于，所述获得总缓存时间范围T内的自适应通道数的超直方图包括：

将总缓存时间范围T内的，更新得到的所述自适应队列中的所有四通道的超直方图构建块在通道维度拼接，获得自适应通道数的超直方图，所述自适应通道数为

，

为一个自适应变换的值。

7.根据权利要求1所述的一种基于事件相机的自适应目标检测方法，其特征在于，所述对所述自适应通道数的超直方图进行加权与降维包括：

通过压缩和激励网络进行加权，再通过卷积操作进行加权与降维。

8.一种基于事件相机的自适应目标检测系统，其特征在于，基于权利要求1~7任一项所述的方法实现，该系统包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。