CN117218013A

CN117218013A - 事件相机图像处理方法、训练方法、系统、设备及介质

Info

Publication number: CN117218013A
Application number: CN202310961794.7A
Authority: CN
Inventors: 梁权民; 郑侠武; 吴泽斌; 田永鸿
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-12-12

Abstract

本申请实施例提供了一种事件相机的图像处理方法、训练方法、系统、设备及介质，属于图像处理技术领域。方法对事件流进行预处理得到体素网格形式的事件流，然后根据体素网格形式的事件流进行信息聚合，得到第一重建图像，第一重建图像，将体素网格形式的去噪事件流与第一重建图像进行叠加，得到第二重建图像，使得第二重建图像的边缘信息更突出，然后生成噪声图像，将噪声图像与第二重建图像输入至预先训练好的扩散模型，将所述第二重建图像作为所述扩散模型的条件，通过所述扩散模型的去噪网络对所述噪声图像进行迭代去噪，生成修复图像。生成的修复图像，图像的质量较高，边缘信息较清晰。

Description

事件相机图像处理方法、训练方法、系统、设备及介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种事件相机的图像处理方法、训练方法、系统、设备及介质。

背景技术

事件相机是一种新型的异步传感器。与传统相机的以固定频率捕捉图像的方式不同，其运作方式受到生物启发，独立的测量每个像素的亮度变化(称为事件)。由于只测量亮度变化，事件相机通常是记录移动物体的边缘信息，而丢弃了冗余的视觉信息，大大减少了带宽。因此，事件相机具有高动态范围(140dB，HDR)、高时间分辨率(单位为微秒)以及低功耗等优势，能够适应一些HDR和和高速移动的场景。

事件流中包含了高度压缩的整个视觉信息，足以为重建图片或者视频提供所需的信息。然而，由于事件流中累积的噪声以及运动模糊，相关技术中的图像重建方法所重建得到的图像通常质量较低，边缘信息不清晰。

发明内容

本申请实施例的主要目的在于提出一种事件相机的图像处理方法、系统、设备及介质，能够根据事件流生成修复图像，能够提高修复图像的质量，使修复图像的边缘信息较清晰。

为实现上述目的，本申请实施例的第一方面提出了一种事件相机的图像处理方法，所述方法包括：

获取初始的事件流，对初始的所述事件流进行预处理得到体素网格形式的所述事件流；

对体素网格形式的所述事件流进行信息聚合，得到第一重建图像；

对初始的所述事件流进行去噪处理，得到去噪事件流，对所述去噪事件流进行预处理得到体素网格形式的所述去噪事件流；

将体素网格形式的所述去噪事件流与所述第一重建图像进行叠加，得到第二重建图像；

生成噪声图像，将所述噪声图像与所述第二重建图像输入至预先训练好的扩散模型，将所述第二重建图像作为所述扩散模型的条件，通过所述扩散模型的去噪网络对所述噪声图像进行迭代去噪，生成修复图像。

在一些实施例中，所述对体素网格形式的所述事件流进行信息聚合，得到第一重建图像，包括：

通过循环卷积模块对体素网格形式的所述事件流进行循环卷积，得到多尺度特征图；

通过信息聚合模块对所述多尺度特征图进行信息聚合，得到信息聚合特征结果；

通过多维度上采样模块对所述信息聚合图像进行上采样，得到第一上采样图像，通过所述多维度上采样模块对所述多尺度特征图进行上采样，得到第二上采样图像；

将所述第一上采样图像与所述第二上采样图像进行结合，得到所述第一重建图像。

在一些实施例中，所述对初始的所述事件流进行去噪处理，得到去噪事件流，包括：

生成初始的所述事件流在第一坐标平面的初步移动轨迹；所述第一坐标平面基于初始的所述事件流构建；

根据所述初步移动轨迹，将所述事件流投射到预设的第二坐标平面，得到投射事件流；

计算所述投射事件流在所述第一坐标平面的投射事件总数；

计算所述投射事件总数的方差，根据所述方差以及所述初步移动轨迹确定所述事件流中物体的预测移动轨迹；

根据所述预测移动轨迹，将所述事件流投射到第二坐标平面，得到目标投射事件流；

根据所述目标投射事件流确定所述第一坐标平面每个像素中的投射事件数，若所述投射事件数小于自适应阈值，删除所述像素中的事件，得到所述去噪事件流。

在一些实施例中，所述将所述第二重建图像作为所述扩散模型的条件，通过所述扩散模型的去噪网络对所述噪声图像进行去噪，生成修复图像，包括：

通过所述去噪网络，将所述第二重建图像与所述噪声图像进行通道维度上的拼接，生成预测噪声向量；

根据迭代公式与所述预测噪声向量进行迭代去噪，直至迭代次数达到预设次数，得到所述修复图像；所述迭代公式为:

其中，g_t表征t时刻的所述噪声图像，g_t-1表征t-1时刻的所述噪声图像，0<α_t<1，α_t为超参数，f_θ表征去噪网络，r表征所述第二重建图像，γ_t表征t时刻的噪声参数，t～{0,…,T}，T表征所述预设次数，∈_t为t时刻的所述预测噪声向量。

在一些实施例中，所述扩散模型通过以下步骤训练得到：

获取初始的事件流训练样本，以及获取与初始的所述事件流训练样本对应的真实图像训练样本；

对初始的所述事件流训练样本进行预处理得到体素网格形式的所述事件流训练样本；

对体素网格形式的所述事件流训练样本进行信息聚合，得到第一重建训练图像；

对初始的所述事件流训练样本进行去噪处理，得到去噪事件流训练样本，对所述去噪事件流训练样本进行预处理得到体素网格形式的所述去噪事件流训练样本；

将体素网格形式的所述去噪事件流训练样本与所述第一重建训练图像进行叠加，得到第二重建训练图像；

对所述真实图像训练样本进行增噪，生成噪声训练图像；

将所述噪声训练图像与所述第二重建训练图像输入至扩散模型，通过所述扩散模型的去噪网络将所述噪声训练图像与所述第二重建训练图像进行通道维度上的拼接，生成所述噪声训练图像的预测噪声；

根据所述预测噪声与所述第二重建训练图像计算得到损失值；

根据所述损失值对所述扩散模型进行优化，得到训练好的所述扩散模型。

在一些实施例中，所述根据所述预测噪声与所述第二重建训练图像计算得到损失值包括：

根据目标函数计算得到损失值，所述目标函数为：

其中，∈表征所述预测噪声，∈～N(0,I)，I表征单位矩阵；f_θ表征所述去噪网络，γ表征噪声参数，γ～p(γ)；p＝1，表征L1范数；g₀表征真实图像训练样本，r表征所述第二重建训练图像，E表征数学期望，g表征真实图像训练样本集。。

为实现上述目的，本申请实施例的第二方面提出了一种扩散模型的训练方法，包括：

对所述真实图像训练样本进行增噪，生成噪声训练图像；

为实现上述目的，本申请实施例的第三方面提出了一种基于扩散模型的事件相机图像处理系统，所述系统包括：

获取模块，用于获取初始的事件流，对初始的所述事件流进行预处理得到体素网格形式的所述事件流；

重建模块，用于对体素网格形式的所述事件流进行信息聚合，得到第一重建图像；

事件流去噪模块，用于对初始的所述事件流进行去噪处理，得到去噪事件流，对所述去噪事件流进行预处理得到体素网格形式的所述去噪事件流；

叠加模块，用于将体素网格形式的所述去噪事件流与所述第一重建图像进行叠加，得到第二重建图像；

图像生成模块，用于生成噪声图像，将所述噪声图像与所述第二重建图像输入至预先训练好的扩散模型，将所述第二重建图像作为所述扩散模型的条件，通过所述扩散模型的去噪网络对所述噪声图像进行迭代去噪，生成修复图像。

为实现上述目的，本申请实施例的第四方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面实施例所述的事件相机的图像处理方法。

为实现上述目的，本申请实施例的第五方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面实施例所述的事件相机的图像处理方法。

本申请实施例提出的事件相机的图像处理方法、训练方法、系统、设备及介质，事件相机的图像处理方法可以应用在基于扩散模型的事件相机图像处理系统中。通过执行事件相机的图像处理方法，对初始的事件流进行预处理得到体素网格形式的事件流，然后对体素网格形式的事件流进行信息聚合，从而重建得到第一重建图像，然后将体素网格形式的去噪事件流与第一重建图像进行叠加，得到第二重建图像，使得第二重建图像的边缘信息更突出，然后生成噪声图像，将噪声图像与第二重建图像输入至预先训练好的扩散模型，将所述第二重建图像作为所述扩散模型的条件，通过所述扩散模型的去噪网络对所述噪声图像进行迭代去噪，生成修复图像。由于在迭代去噪过程中，将边缘信息更突出的第二重建图像作为扩散模型的条件，因此生成的修复图像，图像的质量较高，使修复图像的边缘信息较清晰。

附图说明

图1是本申请实施例提供的事件相机的图像处理方法的一个可选的流程图；

图2是图1中的步骤S102的步骤流程图；

图3是图1中的步骤S103的流程示意图；

图4是图1中的步骤S105的流程示意图；

图5是扩散模型的训练步骤的流程示意图；

图6是本申请一些实施例的去噪网络在训练时的处理过程的示意图；

图7为本申请一些实施例的基于扩散模型的事件相机图像处理系统的框架图；

图8是采用本申请实施例事件相机的图像处理方法对HQF数据集上的数据进行处理，得到处理过程中各个步骤的图像的对比示意图；

图9为采用本申请实施例事件相机的图像处理方法对IJRR数据集上的数据进行处理，得到处理过程中各个步骤的图像的对比示意图；

图10为采用本申请实施例事件相机的图像处理方法对MVSEC数据集上的数据进行处理，得到处理过程中各个步骤的图像的对比示意图；

图11是本申请实施例提供的基于扩散模型的事件相机图像处理系统的功能模块示意图；

图12是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩散人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩散人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

事件相机(Event-based camera)是一种受生物启发的新型视觉传感器，有时也称动态视觉传感器(DVS，dynamic vision sensor)或DAVIS(Dynamic and Active-PixelVision Sensor)。相比于以固定帧率采集图像的标准相机，它具有低延迟、高动态范围、低功耗、高时间分辨率等特点。当物体运动时，标准相机受到采样频率的影响会丢失部分数据，而事件相机采集的数据则相对更加完整。另外，当目标物体与相机具有相对运动时，受到曝光时间等因素的影响，用标准相机获得的图像极易产生运动模糊，而用事件相机获得的数据则没有这个问题。

事件相机是一种新型的异步传感器。与传统相机的以固定频率捕捉图像的方式不同，其运作方式受到生物启发，独立的测量每个像素的亮度变化(称为事件)。由于只测量亮度变化，事件相机通常是记录移动物体的边缘信息，而丢弃了冗余的视觉信息，大大减少了带宽。因此，事件相机具有高动态范围(140dB，HDR)、高时间分辨率(单位为微秒)以及低功耗等优势，能够适应一些HDR和和高速移动的场景。然而，由于事件流的稀疏性和异步性，其只能描述场景的变化，而不能记录场景的绝对强度，导致许多传统的计算机视觉算法无法直接应用。对此，一个常见的做法是将事件流重建成强度帧图像，这对于下游的目标检测，追踪以及SLAM等任务都有很大的帮助。理论上，事件流中包含了高度压缩的整个视觉信息，足以为重建图片或者视频提供所需的信息。然而，由于事件流中累积的噪声以及运动模糊，现有图像重建方法所重建得到的图像通常存在伪影，边缘信息不清晰以及缺乏感知真实性等等问题。如果先对事件流进行去噪，则会造成事件信息损失值，从而影响重建效果。而若要对重建图片进行去噪，则需要真实图像帧作为辅助训练，这对于一些纯事件流来说是不可行的。基于此，本申请实施例提供了一种事件相机的图像处理方法、训练方法、系统、设备及介质，能够根据事件流生成修复图像，能够提高修复图像的质量，使修复图像的边缘信息较清晰。

本申请实施例提供的事件相机的图像处理方法、训练方法、系统、设备及介质，具体通过如下实施例进行说明，首先描述本申请实施例中的事件相机的图像处理方法。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩散人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

本申请实施例提供的事件相机的图像处理方法，涉及人工智能技术领域。本申请实施例提供的事件相机的图像处理方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现事件相机的图像处理方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据用户信息、用户行为数据，用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时，都会先获得用户的许可或者同意，例如，获取用户存储的数据以及用户的缓存数据访问请求时，均会先获得用户的许可或者同意；在获取资源的数据时，本申请实施例会先获得用户的许可或者同意。而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取用户的敏感个人信息时，会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意，在明确获得用户的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的用户相关数据。

参照图1，图1是本申请实施例提供的事件相机的图像处理方法的一个可选的流程图。图1中的方法可以包括但不限于步骤S101至步骤S105。

步骤S101，获取初始的事件流，对事件流进行预处理得到体素网格形式的事件流；

示例性的，通过事件相机进行拍摄以获取事件流，事件流包括N个事件，N个事件ε_n产生的时间跨度为：Δt＝t_N-1-t₀，其中，t_N-1是事件流的结束时间，t₀是事件流的开始时间。

示例性的，可以通过事件相机进行拍摄以获取事件流，并经事件流存储至事件数据库，可以从事件数据库中获取事件流，还可以从公开的真实事件相机数据集(HighQuality Frames，HQF)中获取事件流。从事件数据库中获取事件流的方法可以有多种，例如可以通过自定义应用程序访问事件数据库从而获取新增的分子数据集，也可以直接复制新存储进药物分子数据库的数据，作为新增的分子数据集。但是，无论使用哪种方法，都需要确保数据的质量和安全性。

示例性的，在对事件流进行预处理得到体素网格形式的事件流时，将整个事件流均匀的叠加到5个连续的体素网格中，预处理公式如下：

其中，B是体素网格的个数，B＝5，p_i＝±1表征事件流的极性，t表征事件的时间戳，V_j∈[0,B-1]表征第j个体素网格形式的事件流。

步骤S102，对体素网格形式的事件流进行信息聚合，得到第一重建图像；

示例性的，将体素网格形式的事件流输入至基于Transformer的重建网络，以进行信息聚合，得到第一重建图像，第一重建图像带有带噪声和伪影。Transformer是一种基于自注意力机制的深度学习模型，用于自然语言处理任务，如机器翻译、语言建模等。Transformer模型由编码器和解码器两部分组成。编码器将输入序列映射到一个高维空间中，解码器则将编码器输出的向量解码成目标序列。编码器和解码器都由多个相同的层组成，每一层都包含了一个自注意力子层和一个前馈神经网络子层。自注意力机制是Transformer的核心。在自注意力子层中，每个输入向量都会与其他所有输入向量进行相似度计算，得到一个权重向量，表示该输入向量对其他向量的重要程度。然后，将所有输入向量按照权重进行加权求和，得到一个新的向量表示。这样，每个输入向量都可以利用其他向量的信息，从而提高模型的性能。

步骤S103，对初始的事件流进行去噪处理，得到去噪事件流，对去噪事件流进行预处理得到体素网格形式的去噪事件流；

示例性的，基于对比最大化的框架对事件流进行去噪处理，得到去噪事件流，再通过预处理公式对去噪事件流进行预处理得到体素网格形式的去噪事件流，体素网格形式的去噪事件流能够表征第一重建图像中的物体的边缘信息。

步骤S104，将体素网格形式的去噪事件流与第一重建图像进行叠加，得到第二重建图像；

由于体素网格形式的去噪事件流能够表征第一重建图像中的物体的边缘信息，因此，在将体素网格形式的去噪事件流与第一重建图像进行叠加，得到第二重建图像，第二重建图像与第一重建图像相比，第二重建图像的边缘信息更突出。

步骤S105，生成噪声图像，将噪声图像与第二重建图像输入至预先训练好的扩散模型，将第二重建图像作为扩散模型的条件，通过扩散模型的去噪网络对噪声图像进行迭代去噪，生成修复图像。

示例性的，可以随机生成高斯噪声作为噪声图像，然后将噪声图像与第二重建图像输入至预先训练好的扩散模型，生成修复图像。

本申请实施例所示意的步骤S101至步骤S105，通过执行事件相机的图像处理方法，通过执行事件相机的图像处理方法，对初始的事件流进行预处理得到体素网格形式的事件流，然后对体素网格形式的事件流进行信息聚合，从而重建得到带有伪影和噪声第一重建图像，然后将体素网格形式的去噪事件流与第一重建图像进行叠加，得到第二重建图像，由于使得体素网格形式的去噪事件流能够表征第一重建图像中的物体的边缘信息，因此与第一重建图像相比，第二重建图像的边缘信息更突出，然后生成噪声图像，将噪声图像与第二重建图像输入至预先训练好的扩散模型，将所述第二重建图像作为所述扩散模型的条件，通过所述扩散模型的去噪网络对所述噪声图像进行迭代去噪，生成修复图像。由于在迭代去噪过程中，将边缘信息更突出的第二重建图像作为扩散模型的条件，因此生成的修复图像，图像的质量较高，使修复图像的边缘信息较清晰。

可以理解的是，在步骤S102中，将体素网格形式的事件流输入至基于Transformer的重建网络，以进行图像重建，得到第一重建图像。基于Transformer的重建网络包括循环卷积模块、信息聚合模块和多维度上采样模块。参照图2，图2是图1中的步骤S102的步骤流程图。步骤S102可以包括但不限于步骤S201至步骤S204。

步骤S201，通过循环卷积模块对体素网格形式的事件流进行循环卷积，得到多尺度特征图；

示例性的，体素网格形式的事件流表征为V∈R^B×H×W，将体素V输入至循环卷积模块中，其中C₀＝32，H和W分别为体素V对应的高和宽，B为体素V的体素网格的个数。循环卷积模块一共有三层，每一层的输出通道数C₀都是前一层的两倍。在循环卷积模块里，采用ConvLSTM层利用先前的状态来增强重建图像的时间稳定性。循环卷积模块的处理过程可以表示为：

其中，l∈{0,1,2,3}表示循环卷积模块的第l层，而则表示第l层的网络，每层网络都采用了ConvLSTM结构。而/>则表示在时间t时刻第l层的状态。通过循环卷积模块，得到一个多尺度的特征图，表示为：

{f_l ^RCB|l∈{0,1,2,3}}，

其中，f_l ^RCB表征多尺度的特征图，l∈{0,1,2,3}表示循环卷积模块的第l层。

步骤S202，通过信息聚合模块对多尺度特征图进行信息聚合，得到信息聚合特征结果；

示例性的，在信息聚合模块中，将多尺度特征图进行序列化操作，将其分成8个小块。然后将这些小块展开成一维的向量然后通过线性投影f_l ^proj和位置编码e_i∈R^D，D＝256将这个向量映射到隐空间T_l,i中，映射公式如下：

其中，T_l,i表示中的向量在隐空间中的表示。通过信息聚合模块能够有效提取事件流的上下文信息，信息聚合模块的输出为二维矩阵，表示为：

步骤S203，通过多维度上采样模块对信息聚合图像进行上采样，得到第一上采样图像，通过多维度上采样模块对多尺度特征图进行上采样，得到第二上采样图像。

步骤S204，将第一上采样图像与第二上采样图像进行结合，得到第一重建图像。

示例性的，多维度上采样模块由三个上采样模块堆叠而成，并连接一个简单的卷积层，通过多维度上采样模块信息聚合图像进行上采样，得到第一上采样图像，通过多维度上采样模块对多尺度特征图进行上采样，得到第二上采样图像，然后将第一上采样图像与第二上采样图像进行结合，得到第一重建图像，具体表示为：

其中，f_l ^MLU表征第一重建图像，表征第一上采样图像，f^TPA表征第二上采样图像。

请参阅图3，图3是本申请实施例的步骤S103的流程示意图。在一些实施例中，步骤S103可以包括步骤S301至步骤S306：

步骤S301，生成事件流在第一坐标平面的初步移动轨迹；第一坐标平面基于初始的所述事件流构建；

步骤S302，根据初步移动轨迹，将事件流投射到预设的第二坐标平面，得到投射事件流；

步骤S303，计算投射事件流在第一坐标平面的投射事件总数；

步骤S304，计算投射事件总数的方差，根据方差以及初步移动轨迹确定事件流中物体的预测移动轨迹；

步骤S305，根据预测移动轨迹，将事件流投射到第二坐标平面，得到目标投射事件流；

值得注意的是，若直接将事件流投射到图像帧中，会出现伪影，因此需要对事件流中物体的移动轨迹进行预测，当根据正确的一端轨迹将事件流投射到图像帧，能够减少伪影。

示例性的，在对事件流进行去噪时，先随机生成事件流在第一坐标平面的初步移动轨迹θ＝(v_x，v_y)，通过投射公式，将事件流的每个事件e_i投射到第二坐标平面，得到投射事件流，投射事件流中的每个投射事件为e_i′，投射公式为：

(x′_i,y′_i)＝(x_i,y_i)-(t_i-t_ref)θ，

其中，t_ref是参考时间，采用事件流的最后一个事件的时间戳t_N-1作为参考时间，x′_i和y _i是e′_i在第二坐标平面的空间位置，e_i表征投射之前的事件，e′_i表征投射之后的投射事件，e′_i的极性p′_i与原事件e_i的极性p_i相同。然后通过投射事件总数计算公式计算投射事件流在第一坐标平面的投射事件总数，投射事件总数计算公式为：

其中，δ表示狄拉克函数，H(x,y；θ)表征投射事件流在第一坐标平面的投射事件总数。x表征第一坐标系中的横坐标，y表征第二坐标系的纵坐标，x′_i表征第i个投射事件在第二坐标系中的横坐标，y′_i表征第i个投射事件在第二坐标系的纵坐标，通过计算H的方差f(θ)＝var(H(x,y；θ))，可以估计得到事件流中物体的预测移动轨迹θ^*，其中θ^*＝argmax_θF(θ)。需要说明的是，事件流可以是通过事件相机对物体进行拍摄得到。在确定预测移动轨迹θ^*后，将预测移动轨迹作为初步移动轨迹，根据预测移动轨迹，将事件流投射到第二坐标平面，基于Nelder-Mead算法重复执行步骤S301至步骤S305，获取多个预测移动轨迹，从而确定多个方差，根据对比函数确定多个方差中的最大值，将最大值作为目标方差。并确定目标方差对应的预测移动轨迹，并根据目标方差对应的预测移动轨迹将事件流投射到第二坐标平面，将得到投射事件流作为目标投射事件流。

值得注意的是，当方差f(θ)最大值时，计算得到的预测移动轨迹为物体正确的移动轨迹。

值得注意的是，第一坐标系是基于事件流构建的坐标系，第二坐标系是本领域技术人员自定义的坐标系。

步骤S306，根据目标投射事件流确定第一坐标平面每个像素中的投射事件数，若投射事件数小于自适应阈值，删除像素中的事件，得到去噪事件流。

在确定目标投射事件流后，确定在第一坐标平面中，每个像素中的投射事件数，若投射事件数小于自适应阈值，则表示该像素中的事件为噪声，因此删除该像素中的事件；若投射事件数大于或等于自适应阈值，则保留像素中的事件，从而得到去噪事件流。

参照图4，图4是图1中的步骤S105的流程示意图。在一些实施例的步骤S105中，可以包括但不限于步骤S401至步骤S402。

步骤S401，通过去噪网络，将第二重建图像与噪声图像进行通道维度上的拼接，生成预测噪声向量；

在扩散模型中，采用U-Net作为去噪网络，将噪声图像、第二重建图像输入至去噪网络，将第二重建图像与噪声图像进行通道维度上的拼接，得到预测噪声向量∈。具体的，噪声图像为纯噪声，去噪网络中的去噪过程为是一个马尔可夫反向过程，从纯噪声g_T出发，采用去噪网络f_θ沿着正向扩散的反方向进行，表示为：

p(g_T)＝N(g_T|0,i)

其中，I为单位矩阵，p_θ()和p()表征马尔可夫反向过程，T表征预设次数，N表征正态分布，r表征第二重建图像，g_t表征t时刻的噪声图像，g_t-1表征t-1时刻的噪声图像。给定g_t的情况下，可以估计g₀：

将估计的代入q(g_t-1|g₀,g_t)的后验分布，则得到：

其中，μ_θ(r,g_t,γ_t)为g_t-1的均值。

步骤S402，根据迭代公式与预测噪声向量进行迭代去噪，直至迭代次数达到预设次数，得到修复图像；迭代公式为:

其中，g_t表征t时刻的噪声图像，g_t-1表征t-1时刻的噪声图像，0<α_t<1，α_t为超参数，f_θ表征去噪网络，r表征第二重建图像，γ_t表征t时刻的噪声参数，t～{0,…,T}，T表征预设次数，∈_t为t时刻的预测噪声向量。根据迭代公式进行迭代T次，得到最后的g₀为修复图像。

值得注意的是，U-Net网络主要由编码器(Encoder)、解码器(Decoder)和跳跃连接(SkipConnection)共同构成。U-Net网络是一个编码-解码的结构，压缩通道是一个编码器，用于逐层提取影像的特征，扩散通道是一个解码器，用于还原影像的位置信息，且U-Net网络的每一个隐藏层都有较多的特征维数，这有利于模型学习更加多样、全面的特征。在U-Net的下采样过程中，由5个卷积核为3×3的卷积层，其中卷积层的输出通道分别为64，128，256，512和512，具有自注意力层和残差连接模块。在U-Net中上采样过程和下采样过程对应，最后得到的输出和原图大小一致。

参照图5，在一实施例中，扩散模型通过以下步骤训练得到：

步骤S501，获取初始的事件流训练样本，以及获取与初始的事件流训练样本对应的真实图像训练样本；

示例性的，通过事件相机模拟器ESIM对COCO数据集中随机选取的照片进行模拟，得到模拟事件流和对应的真实图像帧，将模拟事件流作为事件流训练样本，而真实图像帧作为对应的真实图像训练样本，多个事件流训练样本构成事件流训练样本集，多个真实图像训练样本构成真实图像训练样本集。

步骤S502，对初始的事件流训练样本进行预处理得到体素网格形式的事件流训练样本；

示例性的，为了能将基于深度学习的扩散模型用于事件相机的事件流，将稀疏异步的事件流训练样本转换成固定大小的张量表示形式。采用固定时间段的事件堆叠方式，时间长度为两张真实图像之间的拍摄间隔时间。具体的，事件流训练样本包括N个事件，N个事件ε_n产生的时间跨度为：Δt＝t_N-1-t₀，其中，t_N-1是事件流训练样本的结束时间，t₀是事件流训练样本的开始时间。将整个事件流均匀的叠加到5个连续的体素网格中，预处理公式如下：

其中，B是体素网格的个数，B＝5，p₁＝±1表征事件流训练样本的极性，t表征事件的时间戳，V_j∈[0,B-1]表征第j个体素网格形式的事件流训练样本。

步骤S503，对体素网格形式的事件流训练样本进行信息聚合，得到第一重建训练图像；

步骤S504，对初始的事件流训练样本进行去噪处理，得到去噪事件流训练样本，对去噪事件流训练样本进行预处理得到体素网格形式的去噪事件流训练样本；

步骤S505，将体素网格形式的去噪事件流训练样本与第一重建训练图像进行叠加，得到第二重建训练图像；

在一实施例中，将采样时间分为5个时间段，每个时间段对应一个体素网格，分别为B₀，...，B_n，n＝5，B个体素网格做平均，具体为：

其中，B＝5，将与第一重建训练图像进行叠加，从而得到第二重建训练图像。

步骤S506，对真实图像训练样本进行增噪，生成噪声训练图像；

示例性的，参照图6，图6是本申请一些实施例的去噪网络在训练时的处理过程的示意图。通过前向马尔可夫过程q给真实图像训练样本g₀～p(g|r)逐渐加入高斯噪声得到纯噪声g_t，具体过程表示为：

其中，0<α_t<1是超参数，p表征分布，g表征真实图像训练样本集，g₀表征真实图像训练样本集中的一个样本，保证了生成的随机变量的方差是有界的。可以使得在给定g₀的情况下直接表征g_t的分布，而不需要中间过程，表示为：

其中q()表征马尔可夫过程。在得到(g₀,g_t)的情况下，通过代数运算得到g_t-1的后验分布：

q(g_t-1|g₀,g_t)＝N(g_t-1|μ,σ²I)

其中，在训练过程中，G_t表征T时刻的噪声训练图像，即纯噪声；G_t-1表征t-1时刻的噪声训练图像，0<α_t<1，α_t为超参数，f_θ表征去噪网络，r表征第二重建训练图像，γ_t表征t时刻的噪声参数，t～{0,…,T}，T表征预设次数，∈_t为t时刻的预测噪声向量。σ²表征高斯噪声的方差，μ表征高斯噪声的均值。

步骤S507，将噪声训练图像与第二重建训练图像输入至扩散模型，通过扩散模型的去噪网络将噪声训练图像与第二重建训练图像进行通道维度上的拼接，生成噪声训练图像的预测噪声；

步骤S508，根据预测噪声与第二重建训练图像计算得到损失值；

示例性的，根据目标函数计算得到损失值，目标函数为：

其中，∈表征预测噪声，∈～N(0,I)，I表征单位矩阵；f_θ表征去噪网络，γ表征噪声参数，γ～p(γ)；p＝1，表征L1范数；g₀表征真实图像训练样本，r表征第二重建训练图像，E表征数学期望，g表征真实图像训练样本集。

值得注意的是，在训练的时候，首先均匀采样一个时间步t～{0,…,T}，然后再采样γ～U(γ_t-1,γ_t)，T＝2000，U为均匀分布。

步骤S509，根据损失值对扩散模型进行优化，得到训练好的扩散模型。

示例性的，用于优化扩散模型的网络参数的优化器是Adam优化器，学习率设置为0.0001，设置dropout rate为0.2，以防止过拟合。

需要说明的是，扩散模型主要包括去噪网络和马尔可夫操作以及逆向马尔可夫操作，因此在进行训练优化时，主要是对去噪网络进行训练优化。

参照图7，图7为本申请一些实施例的基于扩散模型的事件相机图像处理系统的框架图。在该框架中，先通过事件相机获取事件流，对事件流进行预处理得到体素网格形式的事件流，然后将体素网格形式的事件流输入至基于transformer的重建网络，得到带噪声和伪影的第一重建图像。然后基于对比最大化的框架对事件流进行去噪处理，得到去噪事件流，对去噪事件流进行预处理得到体素网格形式的去噪事件流；将体素网格形式的去噪事件流与第一重建图像进行叠加，得到第二重建图像，使得第二重建图像的边缘信息更突出。然后随机生成噪声图像，将噪声图像与第二重建图像输入至预先训练好的扩散模型，生成修复图像。图7的阶段一相当于本申请图1中的步骤S102；阶段二相当于本申请图1中的步骤S105；图7的去噪过程相当于本申请图1的步骤S103。

参照图8至图10，图8为采用本申请实施例事件相机的图像处理方法对HQF数据集上的数据进行处理，得到处理过程中各个步骤的图像的对比示意图。具体的，在图8中，“事件流”对应的图像为HQF数据集上的5组事件流；“第一重建图像”对应的图像为分别对5组事件经过步骤S101至步骤S102处理得到的图像；“修复图像”对应的图像为分别对每组事件流以及第一重建图像经过步骤S103至步骤S105处理得到的修复图像；“真实图像”对应的图像为与事件流对应的真实图像。先获取HQF数据集上的5组事件流，获取与该5组事件流分别对应的真实图像，分别对每组件流执行步骤101至步骤S102，得到对应的第一重建图像，再执行步骤S103至步骤S105，得到对应的修复图像，从图8中可看出，5组事件流对应的5个修复图像均比对应第一重建图像质量更高，更清晰，且每个修复图像跟真实图像几乎一致。

图9为采用本申请实施例事件相机的图像处理方法对IJRR(The InternationalJournal of Robotics Research)数据集上的数据进行处理，得到处理过程中各个步骤的图像的对比示意图。具体的，在图9中，“事件流”对应的图像为IJRR数据集上的5组事件流；“第一重建图像”对应的图像为分别对5组事件经过步骤S101至步骤S102处理得到的图像；“修复图像”对应的图像为分别对每组事件流以及第一重建图像经过步骤S103至步骤S105处理得到的修复图像；“真实图像”对应的图像为与事件流对应的真实图像。先获取IJRR数据集上的5组事件流，获取与该5组事件流分别对应的真实图像，分别对每组件流执行步骤101至步骤S102，得到对应的第一重建图像，再执行步骤S103至步骤S105，得到对应的修复图像，从图9中可看出，5组事件流对应的5个修复图像均比对应第一重建图像质量更高，更清晰，且每个修复图像跟真实图像几乎一致。

图10为采用本申请实施例事件相机的图像处理方法对MVSEC(Multi VehicleStereo Event Camera)数据集上的数据进行处理，得到处理过程中各个步骤的图像的对比示意图。具体的，在图10中，“事件流”对应的图像为MVSEC数据集上的5组事件流；“第一重建图像”对应的图像为分别对5组事件经过步骤S101至步骤S102处理得到的图像；“修复图像”对应的图像为分别对每组事件流以及第一重建图像经过步骤S103至步骤S105处理得到的修复图像；“真实图像”对应的图像为与事件流对应的真实图像。先获取MVSEC数据集上的5组事件流，获取与该5组事件流分别对应的真实图像，分别对每组件流执行步骤101至步骤S102，得到对应的第一重建图像，再执行步骤S103至步骤S105，得到对应的修复图像，从图10中可看出，5组事件流对应的5个修复图像均比对应第一重建图像质量更高，更清晰，且每个修复图像跟真实图像几乎一致。

可以理解的是，本申请实施例还提供了一种扩散模型的训练方法，包括但不限于以下步骤：

获取初始的事件流训练样本，以及获取与初始的事件流训练样本对应的真实图像训练样本；

对初始的事件流训练样本进行预处理得到体素网格形式的事件流训练样本；

对体素网格形式的事件流训练样本进行信息聚合，得到第一重建训练图像；

对初始的事件流训练样本进行去噪处理，得到去噪事件流训练样本，对去噪事件流训练样本进行预处理得到体素网格形式的去噪事件流训练样本；

将体素网格形式的去噪事件流训练样本与第一重建训练图像进行叠加，得到第二重建训练图像；

对真实图像训练样本进行增噪，生成噪声训练图像；

将噪声训练图像与第二重建训练图像输入至扩散模型，通过扩散模型的去噪网络将噪声训练图像与第二重建训练图像进行通道维度上的拼接，生成噪声训练图像的预测噪声；

根据预测噪声与第二重建训练图像计算得到损失值；

根据损失值对扩散模型进行优化，得到训练好的扩散模型。

值得注意的是，用于优化扩散模型的网络参数的优化器是Adam优化器，学习率设置为0.0001，设置dropout rate为0.2，以防止过拟合。需要说明的是，扩散模型主要包括去噪网络和马尔可夫操作以及逆向马尔可夫操作，因此在进行训练优化时，主要是对去噪网络进行训练优化。

请参阅图11，本申请实施例还提供一种基于扩散模型的事件相机图像处理系统，可以实现上述事件相机的图像处理方法，基于扩散模型的事件相机图像处理系统包括：

获取模块111，用于获取初始的事件流，对初始的事件流进行预处理得到体素网格形式的事件流；

重建模块112，用于对体素网格形式的事件流进行信息聚合，得到第一重建图像；

事件流去噪模块113，用于对初始的事件流进行去噪处理，得到去噪事件流，对去噪事件流进行预处理得到体素网格形式的去噪事件流；

叠加模块114，用于将体素网格形式的去噪事件流与第一重建图像进行叠加，得到第二重建图像；

图像生成模块115，用于生成噪声图像，将噪声图像与第二重建图像输入至预先训练好的扩散模型，将第二重建图像作为扩散模型的条件，通过扩散模型的去噪网络对噪声图像进行迭代去噪，生成修复图像。

该基于扩散模型的事件相机图像处理系统的具体实施方式与上述事件相机的图像处理方法的具体实施例基本相同，在此不再赘述。在满足本申请实施例要求的前提下，基于扩散模型的事件相机图像处理系统还可以设置其他功能模块，以实现上述实施例中的事件相机的图像处理方法。

本申请实施例还提供了一种电子设备，电子设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述事件相机的图像处理方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图12，图12示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器1201，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器1202，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器1202可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1202中，并由处理器1201来调用执行本申请实施例的事件相机的图像处理方法；

输入/输出接口1203，用于实现信息输入及输出；

通信接口1204，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线1205，在设备的各个组件(例如处理器1201、存储器1202、输入/输出接口1203和通信接口1204)之间传输信息；

其中处理器1201、存储器1202、输入/输出接口1203和通信接口1204通过总线1205实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述事件相机的图像处理方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种事件相机的图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的事件相机的图像处理方法，其特征在于，所述对体素网格形式的所述事件流进行信息聚合，得到第一重建图像，包括：

3.根据权利要求1所述的事件相机的图像处理方法，其特征在于，所述对初始的所述事件流进行去噪处理，得到去噪事件流，包括：

计算所述投射事件流在所述第一坐标平面的投射事件总数；

4.根据权利要求1所述的事件相机的图像处理方法，其特征在于，所述将所述第二重建图像作为所述扩散模型的条件，通过所述扩散模型的去噪网络对所述噪声图像进行去噪，生成修复图像，包括：

5.根据权利要求1所述的事件相机的图像处理方法，其特征在于，所述扩散模型通过以下步骤训练得到：

对所述真实图像训练样本进行增噪，生成噪声训练图像；

6.根据权利要求5所述的事件相机的图像处理方法，其特征在于，所述根据所述预测噪声与所述第二重建训练图像计算得到损失值包括：

根据目标函数计算得到损失值，所述目标函数为：

其中，∈表征所述预测噪声，∈～N(0,I)，I表征单位矩阵；f_θ表征所述去噪网络，γ表征噪声参数，γ～p(γ)；p＝1，表征L1范数；g₀表征真实图像训练样本，r表征所述第二重建训练图像，E表征数学期望，g表征真实图像训练样本集。

7.一种扩散模型的训练方法，其特征在于，包括：

对所述真实图像训练样本进行增噪，生成噪声训练图像；

8.一种基于扩散模型的事件相机图像处理系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的事件相机的图像处理方法，或权利要求7所述的扩散模型的训练方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的事件相机的图像处理方法，或权利要求7所述的扩散模型的训练方法。