CN110475118A

CN110475118A - 一种基于注意力机制深度循环网络的旧电影闪烁修复方法

Info

Publication number: CN110475118A
Application number: CN201910626289.0A
Authority: CN
Inventors: 李晓光; 刘晨; 吴超玮; 卓力
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-19

Abstract

一种基于注意力机制深度循环网络的旧电影闪烁修复方法涉及数字图像处理方法，算法包括离线部分和在线部分。离线部分由训练数据处理、闪烁修复的注意力深度循环网络框架搭建和训练组成，在线部分则是图像闪烁修复。网络由注意力机制层、卷积下采样层、残差块层、ConvLSTM层以及反卷积上采样层这5种层结构组成。并且每个卷积层之后都加入批正则化层和修正线性单元作为激活函数，最后一个反卷积层加入双曲正切函数(tanh)作为激活函数，另外在编码器模块中间加入5组残差块和ConvLSTM层，其中每组残差块中包含2个卷积层和1个Relu激活函数。本发明使时序亮度曲线变化的平缓趋势显著，使闪烁得到较好的修复。

Description

一种基于注意力机制深度循环网络的旧电影闪烁修复方法

技术领域

本发明涉及数字图像处理方法，特别涉及一种基于注意力机制深度循环网络的旧电影闪烁修复方法。

背景技术

在传统亮度闪烁修复的研究中，许多研究者提出了较为有效的算法，这些算法步骤是首先建立闪烁模型，然后估计该线性烁修复关键是建立对应的数学模型，但是造成亮度闪烁的原因很多，如果对于每个因素都建立对应的模型，将带来十分庞大的工作量且难以实现。

传统的亮度闪烁修复算法首先进行闪烁模型的选择，之后估计闪烁模型参数，利用待修复帧构建亮度调整的迭代算法，并使用迭代算法和闪烁模型生成修复帧。将修复帧和闪烁帧进行加权融合，使前后帧静止区域亮度差波动较小，获得修复亮度闪烁的图像。

平均灰度值的方法首先计算图像序列中所有帧的平均灰度值，之后对每一帧与平均值的差值进行补偿，以修复亮度闪烁。这种算法十分简单且直接。但是传统算法的修复效果比较粗糙，且没有反映出亮度闪烁参数在空间上变化的特性，因此存在难以消除时间序列中闪烁不均匀的问题。

视频时间一致性算法采用自编码结构的图像转换网络，将待处理的视频帧序列依次输入到网络中，输出经过网络重建的修复帧。该方法通过最小化输出帧从光流网络中计算出的短期和长期时间损失，并采用感知损失来训练网络。另外，在图像转换网络中还嵌入一个卷积长短时记忆(ConvLSTM)层，用来捕捉自然视频的时空相关性。网络按顺序处理视频帧，并且可以应用在不限制长度的视频中。但是，此方法没有考虑到输入帧序列与输出帧的相关性，导致修复后的视频序列依然会有部分闪烁现象残留，因此该方法尚存在性能提升空间。

发明内容

本发明的目的在于，提出一种基于注意力机制深度循环网络的旧电影闪烁修复方法，该方法将注意力机制引入到视频序列时序一致性网络中，动态确定输入视频序列对闪烁视频帧修复的重要性权重，提高闪烁修复性能。

本发明是采用以下技术手段实现的：

一种基于注意力机制深度循环网络的旧电影闪烁修复方法，整体流程图如附图1所示；算法主要包括离线部分和在线部分。离线部分由训练数据处理、闪烁修复的注意力深度循环网络框架搭建和训练组成，在线部分则是图像闪烁修复。

所述的离线部分，具体内容如下：

(1)训练数据处理

本发明使用训练集采用DAVIS-2017数据集，其中包括各种运动的物体以及不同的运动类型。另外还使用了本文自建的数据集，包括3段旧电影视频资料，分别为1963年的电影《冰山上的来客》、1965年的电影《苦菜花》和1963年的电影《怒潮》。其中每部电影都还有同等数量的添加闪烁帧。

实验采用的测试数据集，包括两段旧电影视频资料，分别为1996年的电影《泰坦尼克号》、和1980年的电影《海之恋》。这两部电影选取的是未修复版本，本身已含有闪烁现象，因此不需要人工添加闪烁。

(2)闪烁修复的注意力深度循环网络框架搭建和训练

在基于注意力机制的图像转换网络中，输入为待处理图像的相邻5帧，分别是I_t-4、I_t-3、I_t-2、I_t-1、I_t，以及输出修复帧的前一帧O_t-1，经过一个以基于注意力机制的编解码网络为主体的图像转换网络，通过在线训练的方式产生对应输出帧(输出的顺序为从第1帧到第T帧结束)，并且在每一个时间步骤中，网络根据注意力机制得出每一输入帧所占权重，学习生成输出帧O_t，然后再将当前的输出帧作为下一时间步骤的输入帧。

本发明采用的深度神经网络模型包含5种不同层结构，如附图2所示。分别为注意力机制层、卷积下采样层、残差块层、ConvLSTM层以及反卷积上采样层。

网络的注意力层含有一个平均池化层、两个卷积层、修正线性单元ReLU激活函数和softmax激活函数。其中，卷积层分别使用7×7和3×3的卷积核。修正线性单元(ReLU，max(0，·))用于提升特征的非线性，softmax激活函数用于将计算得到的注意力权重值进行归一化。

在卷积下采样层中，使用5个卷积层，其中将的输入图像和上一个时间步输出图像这两个分支输入进行并行处理，首先分别经过一个使用7×7的卷积核的卷积层以及relu激活函数，之后再分别经过一个使用3×3的卷积核的卷积层以及relu激活函数，再将这两个分支得到的特征图进行聚合，经过第三个卷积核为3×3的卷积层以及relu激活函数。

在残差块层中，使用5个残差块进一步提取特征，每个残差块包括两个卷积核为3×3的卷积层以及relu激活函数。

在ConvLSTM层中使用了LSTM网络的结构，但是采用卷积计算代替Hadmard乘法，即可以使用LSTM建立输入序列的时序关系，而且可以使用卷积神经网络CNN描述图像的空间特征，因此使用ConvLSTM可以更好的提取图像序列的时间和空间信息。

在反卷积上采样层中，采用了3个卷积核为3×3的反卷积层、2个relu激活函数以及1个tanh激活函数。最终得到修复后的输出结果图像。

将处理过的数据集通过该网络进行训练，设定训练的迭代次数数，并将每轮训练得到模型保存到文件中。

所述的在线部分，具体内容如下：

图像闪烁修复

利用训练得到的模型对带有亮度闪烁现象的图像序列进行修复，得到闪烁修复后的图像。使用基于注意力机制深度循环网络的闪烁修复方法进行闪烁修复，再得到输出闪烁修复后的图像。

附图说明：

图1基于注意力机制深度循环网络的旧电影闪烁修复方法流程图；

图2基于注意力机制深度循环网络的模型架构图；

图3注意力机制有效性测试效果图；

图4不同算法闪烁修复主观效果图；

图5不同算法闪烁修复客观效果图。

具体实施方式

根据上述描述，以下介绍本发明具体的实施流程。

所述离线部分分为2个步骤：

步骤1：训练数据处理

本发明使用训练集采用DAVIS-2017数据集，其中包括各种运动的物体以及不同的运动类型，其中共有60个训练视频和30个测试视频，每个视频的长度平均为3秒，数据集中共有图像4209帧。分辨率为1024率为共有像素。另外还使用了本文自建的数据集，包括3段旧电影视频资料，分别为1963年的电影《冰山上的来客》、1965年的电影《苦菜花》和1963年的电影《怒潮》。首先对这3部旧电影手工加入闪烁损失，使用Adobe premiere pro cc软件的闪烁模板进行添加，闪烁频率设置为30％，以此分别得到添加闪烁的旧电影以及不额外添加闪烁的原始电影。电影《冰山上的来客》分辨率为1920别得到添加，截取视频长度为1分钟，帧率为每秒25帧，共1500帧。《苦菜花》分辨率为1028菜花》分像素，截取视频长度为1分钟，帧率为每秒25帧，共1500帧。《怒潮》分辨率为960怒潮》分像素，截取视频长度为1分钟，帧率为每秒25帧，共1500帧。其中每部电影都还有同等数量的添加闪烁帧，因此训练集有13209幅图像。

实验采用的测试数据集，包括两段旧电影视频资料，分别为1996年的电影《泰坦尼克号》、和1980年的电影《海之恋》。《泰坦尼克号》的分辨率为4096《海之恋》像素，截取视频长度为1分钟，帧率为每秒25帧，共1500帧。《海之恋》的分辨率为960海之恋》像素，截取视频长度为1分钟，帧率为每秒25帧，共1500帧。这两部电影选取的是未修复版本，本身已含有闪烁现象，因此不需要人工添加闪烁。

步骤2：闪烁修复的注意力深度循环网络框架搭建和训练

网络由注意力机制层、卷积下采样层、残差块层、ConvLSTM层以及反卷积上采样层这5种层结构组成。并且每个卷积层之后都加入批正则化层(BatchNormalization,BN)和修正线性单元(Rectified Linear Unit,ReLU)作为激活函数，最后一个反卷积层加入双曲正切函数(tanh)作为激活函数，另外在编码器模块中间加入5组残差块(ResBlocks)和ConvLSTM层，其中每组残差块中包含2个卷积层和1个Relu激活函数。

(1)注意力机制

网络的注意力层含有一个平均池化层、两个卷积层、修正线性单元ReLU激活函数和softmax激活函数。其中，卷积层分别使用7×7和3×3的卷积核。修正线性单元(ReLU，max(0，●))用于提升特征的非线性，softmax激活函数用于将计算得到的注意力权重值进行归一化。

使用I来表示长度为n的输入视频帧序列，用O来表示长度为n的输出视频帧序列，如公式(1)和(2)所示：注意力机制会从输入序列中提取出一系列编码。

I＝[I₁,I₂,I₃,...,I_n] (1)

O＝[O₁,O₂,O₃,...,O_n] (2)

当要计算输出时间步O₂的中间向量时，先使用函数a根据解码器(Decoder)在输出时间步O₁的隐藏状态和编码器(Encoder)在各个输入时间步(I₁、I₂、I₃、I₄、I₅)的隐藏状态，来计算softmax运算的输入，其中a函数在这里使用内积运算。之后使用softmax运算输出概率分布，并对编码器各个输入时间步的隐藏状态做加权平均，从而得到当前要计算的输出时间步的中间向量。

令编码器在时间步t的隐藏状态为h_t，且总时间步数为T，那么解码器在时间步t'的中间向量为所有编码器隐藏状态的加权平均，如公式(3)所示：

其中C_t’为解码器的中间向量，并且在给定t'时间步的时候，权重a_t't是使用softmax计算得到的。计算公式如公式(4)所示：

Softmax运算中的e_t't同时取决于解码器的时间步t'和编码器的时间步t，因此计算时需要使用解码器在时间步t'-1的隐藏状态s_t'-1，与编码器在时间步t的隐藏状态h_t为输入，并通过函数a计算e_t't，如公式(5)所示：

e_t't＝a(s_t'-1,h_t) (5)

其中函数a是计算两个输入的内积，计算公式如(6)所示：

a(s,h)＝s·h (6)

在网络中输入图像经过编码器中的卷积层、ResBlocks层以及ConvLSTM层之后得到中间向量信息。可以看出在输出序列中的每一个时间步都有一个相对应输入序列概率分布的中间向量。

(2)卷积长短时记忆网络模块

原始的长短时记忆网络LSTM是为了解决长期时间依赖而设计出来的，LSTM在每一个细胞中通过门结构的计算将信息更新并且传递到下一层，门结构使网络中间的信息有选择的通过，通过sigmoid层和点乘操作来实现。sigmoid层输出0和1之间的实数，表示信息可以通过该层的概率。例如0表示任何信息都不能通过，1则表示所有信息都可通过。长短时记忆网络分别使用遗忘门、输入门和输出门结构来实现信息的保留和丢弃。

输入图像序列首先通过卷积层，之后通过ResBlocks层，再之后进入ConvLSTM层。在ConvLSTM层中，首先通过遗忘门，遗忘门负责判定从细胞状态中丢弃什么信息。遗忘门通过读取上一时间步骤中信息单元的输出h_t-1和当前时间步骤中信息单元的输入x_t，t表示输入的连续时间步骤图像序列的每一个时间步骤。遗忘门输出0和1之间的实数。1表示信息完全保留，0则表示信息完全舍弃。经过遗忘门的输出信息接下来进入输入门，输入门负责判定哪些新信息可以加入到当前的信息单元。sigmoid层判定需要更新哪些信息，另外通过tanh层生成的向量为作为备选的更新内容。之后将两部分结合，将上一个时间步的状态与遗忘门的权重相乘，确定丢弃的信息。接着计算输入门中得到的信息it与C～_t相乘，并将结果经过遗忘门的信息相加，得到新的信息单元状态，这个信息单元会不断变化来更新状态。另外输出门负责判定最终输出哪些信息。通过sigmoid层确定信息单元的哪些部分将作为输出。然后把信息单元状态通过tanh层进行处理，得到在-1到1之间的值，将这个值乘以sigmoid层的输出，确定最终的输出信息。

而ConvLSTM的计算方式是将原始LSTM中各个门之间的连接由原来的对应元素相乘换成了卷积，并且状态与状态之间的也使用卷积连接。最终通过卷积操作之后，ConvLSTM层既可以获得序列的时序关系，还可以通过卷积操作提取图像的空间特征。

(3)损失函数

内容感知损失：感知损失是在多种图像处理应用，如风格转换、超分辨率、图像修复等普遍采用的新的损失度量方式，并取得了较好的效果。利用基于VGG网络的感知损失网络计算转换后的图像O_t与相同时间序号输入图像I_t之间的内容相似度，使得感知损失不受图像亮度变化影响。感知损失函数的定义如公式(7)：

L_p为感知损失函数(Perceptual Loss)，其中，O_t ⁽ⁱ⁾为第t时刻图像转换网络输出的第i张图像，I_t ⁽ⁱ⁾为第t时刻网络输入的第i张图像，N是一帧图像中总的像素数，T为所处理图像序列总的时间长度，||||₁为计算1-范数，φ_l表示VGG19网络第l层的特征图，我们选择4层来计算感知损失。

短期时间损失(Short-term Loss)：采用光流网络所输出的光流图来计算相邻输出帧之间的短期时间损失。公式如(8)所示：

其中，O_t ⁽ⁱ⁾为第t时刻图像转换网络输出的第i张图像，是O_t ⁽ⁱ⁾通过光流网络所得出的光流图，M⁽ⁱ⁾ _t->t-1是第i张输入图像I_t和经过光流网络输出的图像I_t-1经过计算平方差得到的的掩膜图，||||₁为计算1-范数，N是一帧图像中总的像素数，T为所处理图像序列总的时间长度，光流网络F_t在模型中使用flownet网络模块来计算训练过程中的光流信息。

长期时间损失(Long-term Loss)：短期时间损失可以保持在相邻帧之间的时间连续性，但是不保证长时间的连贯性。因此使用长期时间一致性的时间损失来计算第一个输出帧和所有输出帧的长期时间损失。||||₁为计算1-范数，公式如(9)所示：

其中，O_t ⁽ⁱ⁾为第t时刻图像转换网络输出的第i张图像，是O_t ⁽ⁱ⁾通过光流网络所得出的光流图，M(i)_t->1是第i张输入图像I_t和经过光流网络输出的图像I₁经过计算平方差得到的的掩膜图，||||₁为计算第一范式，N是一帧图像中总的像素数，T为所处理图像序列总的时间长度，光流网络F_t在模型中使用flownet网络模块来计算训练过程中的光流信息。

因此，本发明的基于注意力机制深度循环网络的总体损失如公式(10)所示：

L＝λ_pL_p+λ_stL_st+λ_ltL_lt (10)

总体损失为感知损失、短期时间损失和长期时间损失的加权和，其中感知损失、短期时间损失和长期时间损失的权值分别设置为10、100、100。经过以上2个主要步骤设计和调整，闪烁修复的注意力深度循环网络搭建完成，将步骤1中收集得到的训练样本数据放入网络中训练，训练完成后即可得到去除闪烁模型。

所述在线部分：图像闪烁修复

为了验证本发明算法的有效性，对不同算法进行了对比试验。具体比较的方法包括：单独使用的传统的线性模型算法和深度学习算法。为了测试注意力机制的有效性，我们对无注意力机制和有注意力机制的方法进行了主观和客观结果测试；为了比较不同的方法，我们对线性模型、深度学习模型和我们的方法进行了对比实验。

闪烁修复效果评价

为了验证本发明算法的有效性，我们对无注意力机制和有注意力机制的方法进行了主观和客观结果测试；为了比较不同的方法，我们对线性模型、深度学习模型和我们的方法进行了对比实验。

(1)注意力机制的性能测试

为了测试注意力机制的有效性，我们在实验测试过程中生成不含噪声的图像帧时，分别对于输入5个相邻参考帧进行注意力机制计算的权重可视化。如图3所示，本实验给出对影片《泰然尼克号》和《海之恋》的注意力权重可视化结果。可以说明，加入注意力机制确实可以使网络对于不同的参考帧给与不同的修复贡献权重，因此网络在修复每一个当前帧时，可以根据参考帧序列中不同的权重，着重的依照其中权重较大的参考帧进行修复，使修复的过程更加有针对性，进一步提升修复效果。

(2)不同方法的主客观效果比较

为了验证算法的有效性，我们首先测试了旧电影的主观修复结果，图4为旧电影《泰坦尼克号》和《海之恋》的不同算法修复对比图。从图a)中可以看出在原始视频中存在有整体的大幅度亮度闪烁波动，图b)是经过传统线性模型修复的结果，可以看出依然存在较为明显的闪烁现象；图c)是使用时间一致性网络修复的结果，前两帧图像亮度趋近于一致，而第3帧图像则匹配到了之后的其他帧中，没有完全对应与它最相近帧的亮度信息；图d)是本章基于注意力机制的深度循环网络算法进行修复的结果，可以看出相邻帧之间的闪烁波动已经趋于消失，从主观上可以符合观看者的视觉要求。

为了从客观角度验证算法的有效性，我们采用视频序列的时序亮度曲线图来进行对比，我们截取50帧图像计算每一帧图像的平均亮度，以此得出截取视频的时序亮度曲线图，从图5中可以看出，原始旧电影的亮度明显存在很多大幅度波动，而采用传统方法进行闪烁修复后依然还会存在较大波动，如果深度循环网络不加入注意力机制，则很多帧会找到错误的参考帧进行修复，因此还会存在局部帧的闪烁现象，而加入注意力机制的深度循环网络则可以使时序亮度曲线变化的平缓趋势显著，使闪烁得到较好的修复。

Claims

1.一种基于注意力机制深度循环网络的旧电影闪烁修复方法，包括离线部分和在线部分；其特征在于，离线部分由训练数据处理、闪烁修复的注意力深度循环网络框架搭建和训练组成，在线部分则是图像闪烁修复；

所述的离线部分，具体内容如下：

(1)训练数据处理

训练集包括各种运动的物体以及不同的运动类型；

采用的测试数据集，包括旧电影视频资料；

(2)闪烁修复的注意力深度循环网络框架搭建和训练

在基于注意力机制的图像转换网络中，输入为待处理图像的相邻5帧，分别是I_t-4、I_t-3、I_t-2、I_t-1、I_t，以及输出修复帧的前一帧O_t-1，经过一个以基于注意力机制的编解码网络为主体的图像转换网络，通过在线训练的方式产生对应输出帧，并且在每一个时间步骤中，网络根据注意力机制得出每一输入帧所占权重，学习生成输出帧O_t，然后再将当前的输出帧作为下一时间步骤的输入帧；

采用的深度神经网络模型包含5种不同层结构，分别为注意力机制层、卷积下采样层、残差块层、ConvLSTM层以及反卷积上采样层；

网络的注意力层含有一个平均池化层、两个卷积层、修正线性单元ReLU激活函数和softmax激活函数；其中，卷积层分别使用7×7和3×3的卷积核；

在卷积下采样层中，使用5个卷积层，其中将的输入图像和上一个时间步输出图像这两个分支输入进行并行处理，首先分别经过一个使用7×7的卷积核的卷积层以及relu激活函数，之后再分别经过一个使用3×3的卷积核的卷积层以及relu激活函数，再将这两个分支得到的特征图进行聚合，经过第三个卷积核为3×3的卷积层以及relu激活函数；

在残差块层中，使用5个残差块进一步提取特征，每个残差块包括两个卷积核为3×3的卷积层以及relu激活函数；

在ConvLSTM层中使用了LSTM网络的结构，但是采用卷积计算代替Hadmard乘法，即使用LSTM建立输入序列的时序关系，且使用卷积神经网络CNN描述图像的空间特征；

在反卷积上采样层中，采用了3个卷积核为3×3的反卷积层、2个relu激活函数以及1个tanh激活函数；最终得到修复后的输出结果图像；

将处理过的数据集通过该网络进行训练，设定训练的迭代次数数，并将每轮训练得到模型保存到文件中；

所述的在线部分，具体内容如下：

图像闪烁修复

利用训练得到的模型对带有亮度闪烁现象的图像序列进行修复，得到闪烁修复后的图像；使用基于注意力机制深度循环网络的闪烁修复方法进行闪烁修复，再得到输出闪烁修复后的图像。

2.根据权利要求1所述的一种基于注意力机制深度循环网络的旧电影闪烁修复方法，其特征在于：

所述离线部分分为2个步骤：

步骤1：训练数据处理

步骤2：闪烁修复的注意力深度循环网络框架搭建和训练

网络由注意力机制层、卷积下采样层、残差块层、ConvLSTM层以及反卷积上采样层这5种层结构组成；并且每个卷积层之后都加入批正则化层和修正线性单元作为激活函数，最后一个反卷积层加入双曲正切函数作为激活函数，另外在编码器模块中间加入5组残差块和ConvLSTM层，其中每组残差块中包含2个卷积层和1个Relu激活函数；

(1)注意力机制

使用I来表示长度为n的输入视频帧序列，用O来表示长度为n的输出视频帧序列，如公式(1)和(2)所示：注意力机制会从输入序列中提取出一系列编码；

I＝[I₁,I₂,I₃,...,I_n] (1)

O＝[O₁,O₂,O₃,...,O_n] (2)

当要计算输出时间步O₂的中间向量时，先使用函数a根据解码器在输出时间步O₁的隐藏状态和编码器在各个输入时间步的隐藏状态，来计算softmax运算的输入，其中a函数在这里使用内积运算；之后使用softmax运算输出概率分布，并对编码器各个输入时间步的隐藏状态做加权平均，从而得到当前要计算的输出时间步的中间向量；

其中C_t’为解码器的中间向量，并且在给定t'时间步的时候，权重a_t't是使用softmax计算得到的；计算公式如公式(4)所示：

e_t't＝a(s_t'-1,h_t) (5)

其中函数a是计算两个输入的内积，计算公式如(6)所示：

a(s,h)＝s·h (6)

在网络中输入图像经过编码器中的卷积层、ResBlocks层以及ConvLSTM层之后得到中间向量信息；

(2)卷积长短时记忆网络模块

输入图像序列首先通过卷积层，之后通过ResBlocks层，再之后进入ConvLSTM层；在ConvLSTM层中，首先通过遗忘门，遗忘门负责判定从细胞状态中丢弃什么信息；遗忘门通过读取上一时间步骤中信息单元的输出h_t-1和当前时间步骤中信息单元的输入x_t，t表示输入的连续时间步骤图像序列的每一个时间步骤；遗忘门输出0和1之间的实数；1表示信息完全保留，0则表示信息完全舍弃；经过遗忘门的输出信息接下来进入输入门，输入门负责判定哪些新信息可以加入到当前的信息单元；sigmoid层判定需要更新哪些信息，另外通过tanh层生成的向量为C^～ _t，作为备选的更新内容；

将上一个时间步的状态与遗忘门的权重相乘，确定丢弃的信息；接着计算输入门中得到的信息it与C^～ _t相乘，并将结果经过遗忘门的信息相加，得到新的信息单元状态，这个信息单元会不断变化来更新状态；另外输出门负责判定最终输出哪些信息；通过sigmoid层确定信息单元的哪些部分将作为输出；然后把信息单元状态通过tanh层进行处理，得到在-1到1之间的值，将这个值乘以sigmoid层的输出，确定最终的输出信息；

而ConvLSTM的计算方式是将原始LSTM中各个门之间的连接由原来的对应元素相乘换成了卷积，并且状态与状态之间的也使用卷积连接；最终通过卷积操作之后，ConvLSTM层既能获得序列的时序关系，还能通过卷积操作提取图像的空间特征；

(3)损失函数

利用基于VGG网络的感知损失网络计算转换后的图像O_t与相同时间序号输入图像I_t之间的内容相似度，使得感知损失不受图像亮度变化影响；感知损失函数的定义如公式(7)：

L_p为感知损失函数，其中，O_t ⁽ⁱ⁾为第t时刻图像转换网络输出的第i张图像，I_t ⁽ⁱ⁾为第t时刻网络输入的第i张图像，N是一帧图像中总的像素数，T为所处理图像序列总的时间长度，||||₁为计算1-范数，φ_l表示VGG19网络第l层的特征图，我们选择4层来计算感知损失；

采用光流网络所输出的光流图来计算相邻输出帧之间的短期时间损失；公式如(8)所示：

其中，O_t ⁽ⁱ⁾为第t时刻图像转换网络输出的第i张图像，是O_t ⁽ⁱ⁾通过光流网络所得出的光流图，M⁽ⁱ⁾ _t->t-1是第i张输入图像I_t和经过光流网络输出的图像I_t-1经过计算平方差得到的的掩膜图，||||₁为计算1-范数，N是一帧图像中总的像素数，T为所处理图像序列总的时间长度，光流网络F_t在模型中使用flownet网络模块来计算训练过程中的光流信息；

使用长期时间一致性的时间损失来计算第一个输出帧和所有输出帧的长期时间损失；||||₁为计算1-范数，公式如(9)所示：

其中，O_t ⁽ⁱ⁾为第t时刻图像转换网络输出的第i张图像，是O_t ⁽ⁱ⁾通过光流网络所得出的光流图，M⁽ⁱ⁾ _t->1是第i张输入图像I_t和经过光流网络输出的图像I₁经过计算平方差得到的的掩膜图，||||₁为计算第一范式，N是一帧图像中总的像素数，T为所处理图像序列总的时间长度，光流网络F_t在模型中使用flownet网络模块来计算训练过程中的光流信息；

总体损失如公式(10)所示：

L＝λ_pL_p+λ_stL_st+λ_ltL_lt (10)

总体损失为感知损失、短期时间损失和长期时间损失的加权和，其中感知损失、短期时间损失和长期时间损失的权值分别设置为10、100、100；

闪烁修复的注意力深度循环网络搭建完成，将步骤1中收集得到的训练样本数据放入网络中训练，训练完成后得到去除闪烁模型；

所述在线部分：图像闪烁修复