CN117058043A

CN117058043A - 一种基于lstm的事件-图像去模糊方法

Info

Publication number: CN117058043A
Application number: CN202311152086.5A
Authority: CN
Inventors: 王栋; 鞠豪; 贾旭; 张鹏宇; 卢湖川
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-09-07
Filing date: 2023-09-07
Publication date: 2023-11-14

Abstract

本发明一种基于LSTM的事件‑图像去模糊方法，包括以下步骤：构建用于对模糊图像进行处理的事件‑图像去模糊网络模型；利用模糊数据集中的训练集数据对事件‑图像去模糊网络进行训练，得到训练好的事件‑图像去模糊网络模型；将模糊数据集中测试集数据输入到训练好的事件‑图像去模糊网络模型中，得到清晰帧序列_。充分使用事件的时序信息的优势，提升了去模糊性能，提升了网络的泛化性，能够实现使用一个模型完成任意时间分辨率的去模糊输出，并输出的清晰帧时间分辨率由输入的事件的时间分辨率控制。同时利用双向的编码‑解码结构增强网络的去模糊效果，具有以下优点：只需要训练一个模型，即可现任意时间分辨率输出，解决了模型泛化性有限的问题。

Description

一种基于LSTM的事件-图像去模糊方法

技术领域

本发明属于全自动化产品领域，涉及一种基于LSTM的事件-图像去模糊方法。

背景技术

图像去模糊：传统的图像去模糊是固定时间分辨率输出(1帧输出或7帧输出)针对这个任务设定，2021年，Sung-Jin提出了MIMOUNET，有效地融合多尺度的特征，用于提升网络去模糊性能。2022年，Zamir使用转置注意力机制，将TransFormer结构引入到去模糊任务中，有效地提升了网络性能。

事件去模糊：事件去模糊大多是序列输出，但也是序列长度固定。

针对这个任务设定，2021年，徐芳提出了REDNET，使用了自监督的训练方式解决了仿真事件与真实事件的差距，提升了网络使用真实事件数据的能力。2020年，Songnan使用动态卷积核的方式解决事件阈值变化的问题，有效地提升了去模糊网络性能。

存在的问题：

图像去模糊：效果差；只能恢复固定时间分辨率的输出，不具有任意时间分辨率的特性，模型泛化性差

事件去模糊：只能恢复固定时间分辨率的输出，不具有任意时间分辨率的特性，模型泛化性差

上述两类去模糊的输出都是固定时间分辨率输出的去模糊方法，网络输出的时间分辨率不具有泛化性。

发明内容

为了解决现有图像修复方法都只能恢复固定时间分辨率的清晰帧序列，当模型训练好之后无法在时间分辨率上进行泛化的问题，本发明采用的技术方案是：

一种基于LSTM的事件-图像去模糊方法，包括以下步骤：

构建用于对模糊图像进行处理的事件-图像去模糊网络模型；

利用模糊数据集中的训练集数据对事件-图像去模糊网络进行训练，得到训练好的事件-图像去模糊网络模型；

将模糊数据集中测试集数据输入到训练好的事件-图像去模糊网络模型中，得到清晰帧序列_。

进一步地：所述将测试集数据输入到训练好的事件-图像去模糊网络模型中，得到清晰帧序列的过程如下：

采用图像编码器对获取的模糊图像进行多尺度特征提取，得到模糊图像的多尺度特征；

获取事件序列；

采用双向事件编码器对获取的事件序列进行多尺度特征提取，得到事件序列的多尺度特征；

对模糊图像的多尺度特征及事件序列的多尺度特征，采用多模态融合器进行特征融合，得到融合后的特征；

将融合后的特征，输入到双向潜在帧恢复器中，得到清晰帧序列。

进一步地：所述双向事件编码器包括卷积层，第一残差块和第一双向LSTM；

所述第一卷积层，第一残差模块和第一双向LSTM依次顺序连接。

进一步地：所述第一双向LSTM的每个时间步的输入是待恢复的清晰帧对应的曝光时间内的事件，每段事件采用了体素网格的表示，经正序的输入序列送入双向LSTM后，再对输入序列进行逆序并送入第一双向LSTM中，最终将正向和逆向的输出进行融合，保证了信息的双向流动；双向LSTM的操作流程如下：

其中：(1)代表双向LSTM的正向更新过程，是正向更新中，时间步为n的隐藏状态，控制着短期的时间记忆，/>是正向更新中，时间步为n的细胞状态，控制着长期的时间记忆；(2)代表双向LSTM的逆向更新过程，/>代表着反向更新中的隐藏状态和细胞状态；(3)代表着双向LSTM在时间步为n的最终输出，是拼接正向和反向的隐藏状态的卷积结果。

进一步地：所述双向潜在帧恢复器的输入为多模态融合器的输出，同时具有模糊图的纹理信息和事件序列的时间信息的混合模态序列，双向潜在帧恢复器输出为任意时间分辨率输出的清晰帧；

双向潜在帧恢复器由第二残差模块、第一解码器模块、第二解码器模块、第三解码器模块、上采样模块依次串联构成的；

所述第一解码器模块、第二解码器模块和第三解码器模块结构相同；

其中第二残差模块是两层卷积和残差跳连接构成，

解码器模块是由第三残差模块、第二卷积层、第二双向LSTM串联构成，

上采样模块是由2倍双线性插值方法和第三卷积层构成的。

进一步地：所述解码器恢复清晰帧序列过程：首先将输入混合模态序列经过一个残差块提取特征，然后依次经过每个尺度的解码器模块得到每个尺度的清晰帧序列的初步输出；

此外，每个尺度的解码器模块后又经过卷积层，将此时的输出和模糊图对应的下采样结果相加得到最后的输出。

进一步地：所述图像编码器包括第四卷积层，第三残差模块和多尺度融合模块依次串联构成；

所述图像编码器的输入是单帧模糊图，输出是单帧模糊图对应的多尺度信息；

多尺度融合块是由卷积和元素乘积，元素加和构成的。

进一步地：所述采用图像编码器对获取的模糊图像进行多尺度特征提取，得到模糊图像的多尺度特征的过程如下：

每个尺度的图像编码器通过第四卷积层和第三残差块，其中下采样图像所在尺度还接收上一个尺度的残差块的输出，使用它当作缩放系数和偏置作用到当前尺度的卷积的输出。

本发明提供的一种基于LSTM的事件-图像去模糊方法，提出了一个新的基于LSTM的事件-灰度图的去模糊网络，充分使用事件的时序信息的优势，提升了去模糊性能，提升了网络的泛化性，能够实现使用一个模型完成任意时间分辨率的去模糊输出，并且输出的时间分辨率由输入的事件的时间分辨率控制。同时利用双向的编码-解码结构增强网络的去模糊效果，具有以下优点：只需要训练一个模型，即可现任意时间分辨率的序列输出，解决了模型泛化性有限的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是事件-图像去模糊网络结构示意图；

图2是图像编码器示意图；

图3是双向事件编码器示意图；

图4是多尺度融合模块示意图；

图5是多模态融合器示意图；

图6是双向潜在帧恢复器示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合，下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任向具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制：方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

一种基于LSTM的事件-图像去模糊方法，包括以下步骤：

S1:构建用于对模糊图像进行处理的事件-图像去模糊网络模型；

S2:利用模糊数据集中的训练集数据对事件-图像去模糊网络进行训练，得到训练好的事件-图像去模糊网络模型；

S3:将模糊数据集中测试集数据输入到训练好的事件-图像去模糊网络模型中，得到清晰帧序列的图像。

所述步骤S1/S2/S3顺序执行；

图1为事件-图像去模糊网络模型结构示意图，由图像编码器，双向事件编码器，多模态融合器,双向潜在帧恢复器进行去模糊处理。

所述将测试集数据输入到训练好的事件-图像去模糊网络模型中，得到清晰帧序列的图像的过程如下：

获取事件序列；

采用双向事件编码器对获取事件序列进行多尺度特征提取，得到事件序列的多尺度特征；

将融合后的特征，输入到双向潜在帧恢复器中，得到清晰帧序列的图像。

所述双向事件编码器包括卷积层，第一残差块和第一双向LSTM；

所述第一双向LSTM的每个时间步的输入是对应待恢复清晰帧的曝光时间内的事件，每段事件采用了体素网格的表示，将序列正向输入到双向LSTM

后，再对输入序列进行逆序并送入双向LSTM中，最终将正向和逆向的输出进行融合，保证了信息的双向流动；双向LSTM的操作流程如下：

其中：(1)代表双向LSTM的正向更新过程，是正向更新中，时间步为n的隐藏状态，控制着短期的时间记忆，/>是正向更新中，时间步为n的细胞状态，控制着长期的时间记忆。/>代表着反向更新中的隐藏状态和细胞状态；

(2)代表双向LSTM的逆向更新过程，代表着逆向更新中的隐藏状态和细胞状态；(3)代表着双向LSTM在时间步为n的最终输出，是拼接正向和反向的隐藏状态的卷积结果。

获取事件序列；

首先，将序列送入卷积模块，然后将事件序列以时间步依次送到双向LSTM中，得到对应尺度的输出，多个尺度之间是串联结构。

所述多模态融合器将模糊图像的多尺度特征及事件序列的多尺度特征，采用多模态融合器进行特征融合，得到融合后的特征。在多模态融合器内，每个尺度是单独进行操作的，首先拼接图像编码器的输出(多尺度模糊图信息)和双向事件编码器的输出(事件特征序列)送入卷积模块中进行融合，经过sigmoid激活后得到了事件-模糊图的混合权重，权重先乘到事件序列上再与模糊图信息相加，得到一个尺度的输出；

将融合后的特征，输入到双向潜在帧恢复器中。双向潜在帧恢复器接受多模态融合器的多尺度输出和来自模糊图的不同分辨率图像来逐级得到多尺度的清晰帧序列。

进一步地，去模糊数据集的生成：

事件相机是一种受生物启发的传感器，与传统的帧式相机不同:它不是以固定速率捕捉图像，也没有快门的概念，而是每一个像素异步测量逐像素的亮度变化，并输出一个事件序列，其中事件的具体格式是对亮度变化的时间、位置和极性进行编码。

现如今没有大规模的事件-灰度去模糊数据集。本发明以GoPro数据集为基础，使用V2E仿真器进行仿真。此外，模糊帧合成原理是对清晰帧序列的时序平均。本发明先使用super-slomo将清晰帧序列插帧到1920fps，再对插帧序列进行时序平均，生成的模糊图更为真实。此外，本发明使用体素网格的表达形式将异步的事件序列转为同步的事件序列。

提出了一个新的事件-图像去模糊网络，具体如下：

模糊图先经过图像编码器得到了多尺度图像信息。事件序列经过双向事件编码器得到序列特征输出。事件序列特征和模糊图特征送入多模态融合器，进行图像-事件的融合。双向潜在帧恢复器接收融合后的特征，预测去模糊的残差输出。

图2为图像编码器示意图，图像编码器获得多尺度图像信息的主要步骤为：首先模糊图进行多尺度下采样，下采样的方式为最邻近下采样，之后每个尺度都先经过一层卷积，之后对多尺度之间的信息采用了多尺度融合模块进行融合。多尺度融合模块是使用上一层的特征预测一个偏置与空间权重，作用到当前尺度的特征上。之后再分别经过残差块的处理。

图像编码器是一个多尺度编码器结构，所述图像编码器包括第四卷积层，第三残差模块和多尺度融合模块依次串联构成；

多尺度融合块是由卷积和元素乘积元素加和构成的。

多尺度融合模块的结构是两个分支的卷积结构，使用混合模态的特征分别进行空间权重和空间偏置预测。

模糊图经过两次的降采样构成剩余尺度结构的信息输入。每个尺度先对输入进行卷积操作来提取特征，接着接收上个尺度残差块的输入，预测出缩放因子和偏置，作用到当前尺度内的卷积模块的输出。最后再经过残差块进一步提取特征。

所述采用图像编码器对获取的模糊图像进行多尺度特征提取，得到模糊图像的多尺度特征的过程如下：

每个尺度的图像编码器通过第四卷积层和第三残差块，其中下采样分辨率所在尺度还接收上一个尺度残差块的输出，使用它当作缩放系数和偏置作用到当前尺度的卷积的输出。

图3为双向事件编码器，双向事件编码器的主要步骤为：多尺度处理接收的事件(序列)，先经过卷积处理再送入双向LSTM处理。

双向事件编码器是一个多尺度编码器结构，其中包括卷积层，第一残差块和第一双向LSTM；

首先将事件序列送入卷积模块中提取特征。接着使用第一双向LSTM来进行时序信息建模，其中第一双向LSTM的每个时间步的输入是对应待恢复的清晰帧的曝光时间内的事件，每段事件采用了体素网格的表示。将正向序列送入第一双向LSTM后，再对输入序列进行逆序并送入第一双向LSTM中，最终将正向和逆向的输出进行融合，保证了信息的双向流动。三个尺度进行串联，中间使用残差块进行特征的增强，最后分别得到对应尺度的输出。其中，不同尺度双向LSTM的操作流程如下：

图4是多尺度融合模块示意图；

多模态融合器是由卷积模块构成，使用事件-模糊图拼接出的特征经过卷积和sigmoid来预测出空间权重和空间偏置，接着分别作用到事件特征和模糊图特征上，最终得到事件-图像的混合特征。

图5为多模态融合器示意图，多模态融合器的主要步骤为：使用事件-图像拼接的特征作为空间权重作用到事件序列特征，将此结果与图像特征进行相加，得到增强的事件-图像的融合特征。

所述双向潜在帧恢复器的输入为多模态融合器的输出，同时具有模糊图的纹理信息和事件序列的事件信息的混合模态序列，双向潜在帧恢复器输出为任意时间分辨率输出的清晰帧；

其中第二残差模块是两层卷积和残差跳连接构成，

上采样模块是由2倍双线性插值方法和第三卷积层构成的。

所述解码器恢复清晰帧序列过程：首先将输入混合模态序列经过一个残差块提取特征，然后依次经过每个尺度的解码器模块得到每个尺度的清晰帧序列的输出；

所述第一解码器模块也是多尺度结构，每个尺度的输出分别是4倍下采样的清晰帧序列，2倍下采样的清晰帧序列，原始分辨率的清晰帧序列(训练时是这三个尺度都需要，测试时可以只要原始分辨率的清晰帧序列)

此外，每个尺度的解码器模块后又经过卷积层，将此时的输出和模糊图对的下采样结果相加得到最后的输出，

此外解码器也接收来自编码器的跳连接，实现编码的残差预测。

图6为双向潜在帧恢复器，解码器是多尺度结构，尺度之间使用双线性插值与卷积(二者结合是起了上采样的作用)进行连接。此外，每个尺度也有对应的监督与来自输入模糊图的跳连接，让网络完成残差式的输出。第二双向LSTM的输出序列长度与输入的事件序列长度相同，输出序列的长度由输入的事件序列长度决定，通过调整输入事件序列的时间分辨率可以控制双向潜在帧恢复器的输出序列长度，进而实现任意时间分辨率的输出。

网络的优化器选择AdamW优化器，初始学习学习率为0.0004。训练的分辨率为128*128，测试的分辨率为320*180。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于LSTM的事件-图像去模糊方法，其特征在于：包括以下步骤：

构建用于对模糊图像进行处理的事件-图像去模糊网络模型；

2.根据权利要求1所述的一种基于LSTM的事件-图像去模糊方法，其特征在于：所述将测试集数据输入到训练好的事件-图像去模糊网络模型中，得到清晰帧序列的过程如下：

获取事件序列；

将模糊图像的多尺度特征及事件序列的多尺度特征，采用多模态融合器进行特征融合，得到融合后的特征；

3.根据权利要求2所述的一种基于LSTM的事件-图像去模糊方法，其特征在于：

4.根据权利要求3所述的一种基于LSTM的事件-图像去模糊方法，其特征在于：

所述第一双向LSTM的每个时间步的输入是待恢复的清晰帧对应曝光时间内的事件，每段事件采用了体素网格的表示，经正序的输入序列送入双向LSTM后，再对输入序列进行逆序并送入第一双向LSTM中，最终将正向和逆向的输出进行融合，保证了信息的双向流动；双向LSTM的操作流程如下：

5.根据权利要求1所述的一种基于LSTM的事件-图像去模糊方法，其特征在于：

所述双向潜在帧恢复器的输入为多模态融合器的输出，同时具有模糊图的纹理信息和事件序列的时间信息的混合模态序列，双向潜在帧恢复器输出为任意时间分辨率输出清晰帧序列；

其中第二残差模块是两层卷积和残差跳连接构成，

上采样模块是由2倍双线性插值方法和第三卷积层构成的。

6.根据权利要求1所述的一种基于LSTM的事件-图像去模糊方法，其特征在于：

所述解码器恢复清晰帧序列过程：首先将输入的混合模态序列经过一个残差块提取特征，然后依次经过每个尺度的解码器模块得到每个尺度的清晰帧序列的初步输出；

7.根据权利要求1所述的一种基于LSTM的事件-图像去模糊方法，其特征在于：所述图像编码器包括第四卷积层，第三残差模块和多尺度融合模块依次串联构成；

多尺度融合块是由卷积和元素乘积，元素加和构成的。

8.根据权利要求7所述的一种基于LSTM的事件-图像去模糊方法，其特征在于：