CN110969577A

CN110969577A - 一种基于深度双重注意力网络的视频超分辨率重建方法

Info

Publication number: CN110969577A
Application number: CN201911203785.1A
Authority: CN
Inventors: 白慧慧; 李锋
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-07
Anticipated expiration: 2039-11-29
Also published as: CN110969577B

Abstract

本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法，通过加载级联的运动补偿网络模型和重建网络模型，充分利用时空信息特征来实现精确的视频超分辨率重建；其中的运动补偿网络模型能够由粗糙到细致地逐步学习光流表示合成相邻帧的多尺度运动信息；在重建网络模型中利用双重注意力机制，并形成一个残差注意力单元，专注中间信息特征，能够更好的恢复图像细节；与现有技术相比，本方法可以在定量和定性评估方面有效地实现卓越的性能。

Description

一种基于深度双重注意力网络的视频超分辨率重建方法

技术领域

本发明涉及视频重构技术领域，尤其涉及一种基于深度双重注意力网络的视频超分辨率重建方法。

背景技术

视频或多帧超分辨率(SR)是图像处理中的一个经典问题，其目标是从给定的低分辨率(LR)视频序列中生成高分辨率(HR)帧。视频SR在视频监控、人脸幻觉、视频转换等实际应用中得到了广泛的应用。在视频SR问题中，通常是通过不同的运动模糊、下采样操作和加性噪声从相应的HR视频中产生被破坏的低质量LR视频。我们可以观察到，在现实世界的动力学中，针对LR视频进行超分辨率是一个不适定的问题，因为有许多解决方案来约束任何LR输入的不可逆退化。针对SR问题，人们提出了多种方法：1)单帧SR，主要来源于图像SR。这种方法完全关注帧内的空间相关性，分别学习LR帧到HR帧的映射函数。和2)多帧SR考虑到连续LR帧之间的帧间时间依赖性来产生HR帧。

现有的图像SR算法大致可分为基于插值的方法和基于实例的方法。基于插值的SR方法通过固定权重、局部协方差系数和自适应结构核估计所观测的LR图对应的HR网格中的像素，获得可接受的SR重建结果，但这些方式会产生模糊的边缘和不满意的伪影。基于实例的方法利用了同一图像的内部相似性，或从外部样本对中学习LR和HR图像块之间的关系。近年来，随着计算机视觉领域深度学习的显著提高，得益于深度卷积神经网络强大的学习能力以及端到端的训练方式，现有技术中许多方法通常利用卷积神经网络(CNN)来直接学习图像SR的非线性LR-HR映射函数，取得了令人印象深刻的效果。多帧SR方法主要关注连续LR帧之间的时间依赖性。以往的多帧SR方法大多基于稀疏先验和总变分进行亚像素运动配准，建立时间依赖关系模型。然而，这种迭代运动估计可能涉及昂贵的计算成本，并限制了对大型复杂运动的执行能力。近年来，许多方法将深度学习的表示能力与帧间一致性结合起来，以提高HR帧的视觉质量和逼真度。一种选择是将相邻帧作为输入进行对齐，以获得不需要显式运动补偿的超分辨率中心帧，这可以减少由时间对齐引起的计算成本。其他一些方法通过双向递归结构建立帧间相关性模型，这些方法无需对多帧SR进行前/后处理就可以学习时间相关性。然而，这些方法可以在快速运动的物体上产生具有视觉伪影的HR图像。运动估计对于挖掘连续帧之间的时间相关性和获得更精确的恢复结果至关重要。因此，大多数视频SR算法依赖于精确的运动估计，其主要包括两个步骤，即运动估计和补偿过程，然后是SR重建过程。一些方法首先利用光流算法进行运动配准，并利用CNN对运动补偿后获得的三维特征到HR块的非线性映射进行建模。另一些现有技术的方法利用学习的CNN估计连续帧之间的光流，并通过另一个深网络生成HR帧，后者可以通过端到端可训练的框架与SR任务联合进行运动补偿。在一些方法中，采用引入一个时间自适应网络来确定最佳的时间尺度，并结合所有基于像素级运动信息的HR估计。

然而，所有这些方法都是通过带有步长的卷积进行首先进行下采样，然后通过运动估计来处理大运动，这会导致我们得到粗糙的光流表示无法获取准确的运动信息，并且由于空间分辨率的降低而对运动估计产生不利影响。大多数方法都是将补偿后的相邻帧与中心帧堆叠起来进行SR重建，这可能会由于运动估计的不准确而导致误配准。此外，深度CNN中的LR输入和特征包含不同类型的信息，包括低频和高频信息。低频分量描述图像的主要部分，高频分量负责边缘和纹理细节。以往的方法都是对这些信息一视同仁，缺乏灵活的识别能力来调制有意义的信息进行高频细节恢复。

发明内容

本发明的实施例提供了一种基于深度双重注意力网络的视频超分辨率重建方法，用于解决现有技术中存在的技术问题。

为了实现上述目的，本发明采取了如下技术方案。

一种基于深度双重注意力网络的视频超分辨率重建方法，包括：

从视频数据中提取低分辨率视频序列，该低分辨率视频序列包括多组低分辨率中心帧

和低分辨率相邻帧

通过运动补偿网络模型对每组低分辨率中心帧

和低分辨率相邻帧

进行运动估计，获得多个运动补偿帧

通过细节分量提取模型对运动补偿帧

与低分辨率相邻帧

进行运算，获得细节分量数据d_i，将该细节分量数据d_i、运动补偿帧

与低分辨率相邻帧

相结合，获得重建输入数据I^f；

通过重建网络模型对重建输入数据I^f进行运算，获得高分辨率重建视频序列。

优选地，通过运动补偿网络模型对每组低分辨率中心帧

和低分辨率相邻帧

进行层叠运算，获得多个运动补偿帧

包括：

将低分辨率中心帧

和低分辨率相邻帧

进行卷积运算，获得第一光流数据；

将第一光流数据与低分辨率中心帧

进行弯曲对齐运算，获得第一估计帧；

将第一估计帧与第一光流数据进行卷积运算，获得第二光流数据；

将第二光流数据与第一光流数据相结合，获得第三光流数据；

将第三光流数据与低分辨率中心帧

进行弯曲对齐运算，获得第二估计帧；

将第二估计帧与第二光流数据进行卷积运算，获得第四光流数据；

将第四光流数据与第三光流数据相结合，获得第五光流数据；

将第五光流数据与低分辨率中心帧

进行弯曲对齐运算，获得运动补偿帧。

优选地，通过运动补偿网络模型对每组低分辨率中心帧

和低分辨率相邻帧

进行层叠运算，获得多个运动补偿帧

还包括：

将每组低分辨率中心帧

和低分辨率相邻帧

进行堆叠，通过卷积层对该组低分辨率中心帧

和低分辨率相邻帧

进行卷积运算，获得4倍尺度的第一光流数据

通过如下公式

将第一光流数据

与低分辨率中心帧

进行弯曲对齐运算，获得第一估计帧

其中，

为双线性插值函数；

将第一估计帧

与第一光流数据

进行卷积运算，获得第二光流数据

将第二光流数据

与第一光流数据

通过如下公式

相结合，获得第三光流数据

将第三光流数据

与低分辨率中心帧

通过如下公式

进行弯曲对齐运算，获得第二估计帧

将第二估计帧

与第二光流数据

进行卷积运算，获得第四光流数据Δ_t→i；

将第四光流数据Δ_t→i与第三光流数据

通过如下公式

相结合，获得第五光流数据Δ′_t→i；

将第五光流数据Δ′_t→i与低分辨率中心帧

通过如下公式

进行弯曲对齐运算，获得单个运动补偿帧

重复上述子步骤获得多个运动补偿帧

优选地，通过细节分量提取模型对运动补偿帧

与低分辨率相邻帧

与低分辨率相邻帧

相结合，获得重建输入数据I^f包括：

对运动补偿帧

和与该运动补偿帧

相对应的低分辨率中心帧

进行减法运算，获得细节分量数据d_i；

将细节分量数据d_i、运动补偿帧

与该运动补偿帧

相对应的低分辨率中心帧

通过如下公式

进行结合，获得获得重建输入数据I^f。

优选地，通过重建网络模型对重建输入数据I^f进行运算，获得高分辨率重建视频序列包括：

将重建输入数据I^f输入到特征提取模型进行运算，获得特征提取数据；

将特征数据输入到长短期记忆模型进行运算，获得特征学习数据；

将特征学习数据输入到残差注意力模型进行运算，获得特征融合数据；

将特征融合数据输入到上采样模型进行运算，获得高分辨率重建残差帧；

将高分辨率重建残差帧输入到全局残差学习模型进行运算，获得高分辨率重建视频帧。

优选地，通过重建网络模型对重建输入数据I^f进行运算，获得高分辨率重建视频序列还包括：

将重建输入数据I^f输入到特征提取模型，通过如下公式

H₀＝h₀(I^f)

进行运算，获得特征提取数据H₀；其中，h₀(·)为特征提取模型的方程；

将特征提取数据H₀输入到长短期记忆模型，通过如下公式

H_d＝h_D(h₀)

进行运算，获得特征学习数据H_d；

将特征学习数据输入到残差注意力模型的子步骤中，该残差注意力模型包括多个级联的残差注意单元，每个残差注意单元包括两个卷积层和一个注意力子模块；该子步骤还包括：

两个卷积层通过如下公式

U_j＝f_j ²(f_j ¹(R_j-1))

进行运算，获得注意力输入数据U_j；其中，f_j ¹(·)和f_j ²(·)分别表示两个卷积层的映射函数；

将注意力输入数据U_j进行全局平均池化操作运算，具体为输入到如下公式

进行运算，获得空间维度的通道统计数据z；其中，

表示第c个特征

在位置(p,q)的值，f_GP(·)表示全局平均池化操作函数；

将空间维度的通道统计数据z进行卷积运算，输入如下公式

进行运算，获得通道注意力数据

其中，

与

分别表示CA单元中两个1×1卷积层的权重；τ(·)表示PReLU函数,*表示卷积操作；

将空间维度的通道统计数据z输入如下公式

进行运算，获得空间注意力数据

其中，

与

分别表示上述获得空间注意力数据

的运算中卷积层以及深度可分离卷积层的权重；

将通道注意力数据

和空间注意力数据

进行逐元素加法运算，具体通过如下公式

获得全注意力数据γ；其中，σ(·)表示sigmoid函数；

将全注意力数据γ输入到如下公式

进行运算，获得某个残差注意单元输出数据R_j；

重复上述将特征学习数据输入到残差注意力模型的子步骤，获得多个残差注意单元输出数据R_j；

将多个残差注意单元输出数据R_j进行卷积运算，具体通过如下公式

进行运算，获得特征融合数据H_g；其中，W_k表示第k个残差注意力单元后连接的卷积层的权重；

将特征融合数据H_g输入到上采样模型，通过如下公式

进行运算，获得高分辨率重建残差帧H_r；其中，h_u(·)表示卷积层函数用来提取s²C个特征图用于上采样，

表示periodic shuffling操作将H×W×s²C的张量变换成尺寸大小为sH×sW×C的张量；

将高分辨率重建残差帧输入到全局残差学习模型，通过如下公式

进行运算，获得高分辨率重建视频帧

其中，

为对低分辨率中心帧

进行双三次放大运算。

优选地，还包括对运动补偿网络模型进行训练获得运动补偿帧

与低分辨率相邻帧

之间的绝对值误差；具体通过如下子步骤：

将高分辨率重建视频帧

输入如下公式

进行运算，获得运动补偿损失函数

其中，

表示第五光流数据Δ′_t→i的梯度，α为正则项的权重；

将高分辨率重建视频帧

输入如下公式

进行运算，获得重建损失函数

其中，

为与高分辨率重建视频帧

相对应的高分辨率中心帧，ε取值为10^-3；

将运动补偿损失函数

与重建损失函数

通过如下公式

进行运算，获得双重注意网络损失函数

其中β是非负权衡权重，取值0.01。

由上述本发明的实施例提供的技术方案可以看出，本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法，通过加载级联的运动补偿网络模型和重建网络模型，充分利用时空信息特征来实现精确的视频超分辨率重建；其中的运动补偿网络模型能够由粗糙到细致地逐步学习光流表示合成相邻帧的多尺度运动信息；在重建网络模型中利用双重注意力机制，并形成一个残差注意力单元，专注中间信息特征，能够更好的恢复图像细节；与现有技术相比，本方法可以在定量和定性评估方面有效地实现卓越的性能。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法的处理流程图；

图2为本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法的双重注意力网络模型的结构框图；

图3为本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法的MCNet的结构框图；

图4为本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法的ReconNet的结构框图；

图5为本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法的RAB的结构框图；

图6为本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法的RAB的运行逻辑框图；

图7为本发明提供的DDAN中，两种运动补偿算法MCT和MCNet的在Val20上的PSNR曲线图；

图8为本发明说明书具体实施方式表2中不同组合模型在缩放因子为4的情况下SR主观结果，图中DC表示细节分量；

图9为本发明提供的DDAN的训练过程在ReconNet中使用不同数量的n和m得到的模型在Val20数据集上的4×SR PSNR曲线；

图10为Myanmmar测试数据集的视觉质量比较，其中尺度因子为4；

图11为Vid4测试数据集中calendar视频序列第15帧的视觉质量比较，其中尺度因子为4；

图12为真实场景视频序列4×SR性能比较。原始LR视频片段的分辨率为116×83(上)和199×218(下)。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

参见图1，本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法，包括：

从视频数据中提取低分辨率视频序列，该低分辨率视频序列包括多组低分辨率中心帧和低分辨率相邻帧；

通过运动补偿网络模型对每组低分辨率中心帧和低分辨率相邻帧进行运动估计，获得多个运动补偿帧；

通过细节分量提取模型对运动补偿帧与低分辨率相邻帧进行运算，获得细节分量数据，将该细节分量数据、运动补偿帧与低分辨率相邻帧相结合，获得重建输入数据；

通过重建网络模型对重建输入数据进行运算，获得高分辨率重建视频序列。

本发明提供的方法用于恢复重建损坏或低质量的视频，对于此类视频进行分析，可通过如下内容显示其机理：给定一个任意时长的HR视频序列，在t时刻，HR视频序列到损坏的低质量序列的退化过程可以表示为

这里

表示原始高分辨率视频的第t帧，在发明提供的实施例中也被称为高分辨率中心帧，

为对应的通过各种退化的低分辨率帧，在发明提供的实施例中也被称为低分辨率中心帧，B_t表示复杂的运动变化如运动模糊离焦模糊等，↓_s表示在尺度因子s下的下采样运算，∈_t表示加性噪声；低分辨率中心帧

和相邻i^th帧

之间的像素级运动配准可以表示为

这里C_i,t为对齐操作将高分辨率相邻帧

与

进行运动配准；∈_i,t表示包含了配准误差的加性噪声。

给定一个退化的视频序列

在本发明实施例中提出的视频超分辨率网络DDAN的目标就是从低分辨率(LR)中心帧

和2N个相邻的LR帧

在采样因子s的条件下恢复出高分辨率(HR)中心帧

如图2所示是本专利所提出的系统框图，其包含运动补偿网络模型(MCNet)以在不同尺度的相邻帧上合成运动信息以及一个超分辨率重建网络模型(ReconNet)以生成高分辨率的帧，在本发明提供的实施例中，将其定义为重建网络模型。MCNet以低分辨率中心帧

与其相邻的低分辨率相邻帧

作为输入，通过运动补偿的方式生成新的相邻帧，在本发明提供的实施例中被定义为运动补偿帧

输入2N个LR相邻帧，我们可以得到

和相应的细节分量[d_t-N,…d_t-1,d_t+1,…,d_t+N]。

在一些现有技术中，学习采用了大尺度下的光流信息表示来进行运动补偿。虽然这种方法可以有效地处理大运动进行光流估计，但是利用下采样操作，空间分辨率的降低可能对运动估计的准确性造成不利影响；为了解决上述问题，在一些优选实施例中，针对运动补偿网络模型除了大尺度下的光流信息表示之外，还提出了一个额外的运动估计模块，不包含任何降尺度操作来学习全分辨率光流表示；如图3所示，该运动估计模块采用金字塔多层结构来进行相邻帧之间的运动补偿；以任一相邻两帧的运动补偿实施为例，具体方式如下：

获取某时刻两个相邻的原始帧低分辨率中心帧

和低分辨率相邻帧

将该两帧在通道上相堆叠，然后使用两个步长为2的卷积层进行对该两帧进行卷积运算，获得4倍尺度的第一光流数据

使用一个子像素层将上述学习到的光流表示映射到原始分辨率空间；再通过双线性插值运算，具体由如下的公式(1)

将第一光流数据

与低分辨率中心帧

进行弯曲对齐操作，获得第一估计帧

其中，

为双线性插值函数，

为低分辨率中心帧；

将第一估计帧

与第一光流数据

一起输入到步长为2的卷积层进行卷积运算，获得2倍尺度下的第二光流数据

将第二光流数据

与第一光流数据

通过如下公式(2)

相结合，获得更加精细的第三光流数据

如图2所示，在这些实施例中，提出了一个不包含任何下采样卷积层的全分辨率运动补偿学习机制以获得更加精细的运动补偿帧

将第三光流数据

与低分辨率中心帧

通过如下公式(3)

进行弯曲对齐运算，获得更加精细的第二估计帧

将第二估计帧

与第二光流数据

进行卷积运算，获得第四光流数据Δ_t→i；

将第四光流数据Δ_t→i与第三光流数据

通过如下公式(4)

相结合，获得最精细的第五光流数据Δ′_t→i；

将第五光流数据Δ′_t→i与低分辨率中心帧

通过如下公式(5)

进行弯曲对齐运算，获得单个运动补偿帧

重复上述子步骤获得多个运动补偿帧

整个运动补偿的网络层数细节如表1所示：

表1，本实施例提出的运动补偿网络中卷积层的详细参数，k代表卷积核尺寸，s代表步长，n代表卷积核的个数。

在一些现有技术中的复杂的基于光流的方法，通过简单地输入补偿的相邻帧和中心帧以进行特征提取和SR重建。但是，光流估计和图像配准中的任何错误都会对SR重建产生不利影响，造成视觉伪影；为了解决这个问题，在一些优选实施例中，如图2所示，上述通过细节分量提取模型对运动补偿帧与低分辨率相邻帧进行运算，获得细节分量数据，将该细节分量数据、运动补偿帧与低分辨率相邻帧相结合，获得重建输入数据的步骤中包括如下子步骤：

对运动补偿帧

和与该运动补偿帧

相对应的低分辨率中心帧

进行减法运算，获得细节分量数据d_i；

将细节分量数据d_i、运动补偿帧

与该运动补偿帧

相对应的低分辨率中心帧

通过如下公式(6)

进行结合，获得重建输入数据I^f，其代表式中三个分量相结合后的值，用于输入到重建网络模型中。

进一步的，在本发明提供的一些优选实施例中，重建网络模型ReconNet的结构及运行流程如图4所示，其包括特征提取模型、多层密集的长短期记忆(convLSTM)模型(DCBs)、残差注意力模型(RAM)、上采样模型和全局残差学习模型。在这些实施例中将细节分量，运动补偿之后的LR相邻帧以及原始的LR中心帧一起输入到ReconNet中通过如下公式(7)进行特征提取和SR重建；

F_SR(·)表示ReconNet用于重建高分辨率中心帧的映射方程。

更进一步的，以下述步骤作为示例，显示重建网络模型处理过程：

如图3所示，特征提取模型包含1个3×3卷积层和一系列由两个卷积层组成的残差块；残差块中，每个卷积核大小均为3×3；

将重建输入数据I^f输入到特征提取模型，通过如下公式(8)

H₀＝h₀(I^f) (8)

在本发明提供的优选实施例中，采用多层密集的长短期记忆操作来利用输入的视频序列的帧间相关性，能够产生比较的效果；在此先显示多层密集的长短期记忆convLSTM操作的原理；

假设有有一时长为t的时间序列

元输入

中间层隐藏状态

convLSTM中有输入门i_t，输出门o_t，遗忘门f_t；因此，在convLSTM中的关键运算过程如下公式(9)所示

这里σ(·)和tanh(·)表示sigmoid和hyperbolic tangent函数。“*”表示卷积运算，

表示哈达玛乘法运算；可以看到，当我们将状态视移动对象的隐藏表示时，convLSTM可以捕获运动的时间和空间信息。我们测试了两种用于视频SR的convLSTM方法DRVSR和MMCNN；我们发现具有密集连接的多个“Conv-convLSTM”可以有效地利用时间依赖性，并在训练过程中显示验证数据集的更好性能；

因此，在本实施例中，将特征提取数据H₀输入到长短期记忆模型，通过如下公式

H_d＝h_D(h₀) (10)

进行运算，获得特征学习数据H_d，即学习到的特征；

深度CNN中的LR输入和特征包含不同类型的信息，例如低频和高频信息；低频分量描述了图像的主要部分，高频分量主要包括图像的边缘和纹理细节。因此，为了使本发明提供的网络能够关注特征中更有意义的信息，如图4所示，在残差注意力模型中，利用了多个残留注意组(RAG)来利用信道间和空间维度之间的相互依赖性；每个RAG包括多个连续的残差注意单元(RAB)和一个额外的3×3卷积层；其中，RAB是残差单元与空间、通道注意力机制相结合；假设ReconNet中有n个RAG，每个RAG包含m个RAB。因此，第n个RAG的输出G_n可以表示为

式中的G_n-1表示第n-1个RAG的输出和第n个RAG的输入，在本实施例中，将特征学习数据H_d作为输入参数；

分别表示第n个RAG中m个RAB的映射方程，

表示最后一个卷积层的卷积操作；

表示经过计算获得的每个RAB的输出；

如图5所示，每个残差注意单元包含两个3×3卷积层和一个注意力子模块(AM)；对于第j个RAB，基于公式(11)进行变换，得到两个卷积层通过如下公式

U_j＝f_j ²(f_j ¹(R_j-1)) (12)

进行运算，进一步获得注意力输入数据U_j；其中，f_j ¹(·)和f_j ²(·)分别表示两个卷积层的映射函数；

注意力输入数据U_j包含C个特征图，则可以将其表示为

作为AM的输入；RAB中AM的结构如图6所示，在本实施例中嵌入了空间注意力(SA)单元和通道注意力(CA)单元，以利用通道和空间位置之间的特征的相互依赖性；

针对CA，在本实施例中，将注意力输入数据U_j进行全局平均池化操作运算，获得在空间维度H×W上的空间维度的通道统计数据z，具体为输入到如下公式

进行运算，获得空间维度的通道统计数据z；其中，

表示第c个特征

在位置(p,q)的值，f_GP(·)表示全局平均池化操作函数；

为了从经全局平均池化来获得的聚合信息中完全捕获通道之间的相互依赖性，使用两个1×1卷积层和衰减系数r来提取空间维度的通道统计数据z；

然后，将空间维度的通道统计数据z进行卷积运算，输入如下公式

进行运算，获得通道注意力数据

其中，

与

与CA不同，SA关注输入特征图中重要的区域，并且有效地提取局部特征中的上下文信息；输入相同的注意力输入数据

如图6所示，先采用1×1卷积层来整合先前状态的特征；然后采用一个深度可分离卷积层来获得每个信道的不同空间注意力数据，可以注意力图的形式获得，具体为，将空间维度的通道统计数据z输入如下公式

进行运算，获得空间注意力数据

其中，

与

分别表示上述获得空间注意力数据

的运算中卷积层以及深度可分离卷积层的权重；

为了同时利用这两种注意机制，我们对通过CA单元和SA单元产生的注意力图进行逐元素加法运算；之后，利用sigmoid函数将这获得的注意力图重新归一化为到[0,1]范围内生成全注意力

具体为，将通道注意力数据

和空间注意力数据

进行逐元素加法运算，具体通过如下公式

获得全注意力数据γ；其中，σ(·)表示sigmoid函数；因此，第j个RAB的输出R_j可以表示为

然后，将全注意力数据γ输入到如下公式

进行运算，获得某个残差注意单元输出数据R_j；

通过在残差块中集成CA和SA，这些特征以全局和局部相结合方式自适应的对输入特征进行调制，以增强我们提出的网络的表示能力，更好地恢复高频心机；此外，为了探索不同状态下的特征，将RAG的所有输出特征

分别作为输入发送到1×1卷积层并生成融合表示；这个过程具体可以是，将多个残差注意单元输出数据R_j进行卷积运算，具体通过如下公式

在提取LR空间中的深部特征之后，如图4所示，采用具有s²C个通道的3×3卷积层与一个子像素卷积层，将尺寸大小为H×W×s²C的多个LR子图像转换为一张尺寸大小为sH×sH×C的HR子图像。然后使用一个卷积核核大小为3×3的单通道卷积层重建HR残差图像；

具体可以是，将特征融合数据H_g输入到上采样模型，通过如下公式

将高分辨率重建残差帧H_r输入到全局残差学习模型，通过如下公式

进行运算，获得高分辨率重建视频帧

其中，

为对低分辨率中心帧

进行双三次放大运算。

本发明实施例提出的DDAN结合了MCNet和ReconNet，可提供准确，快速，联合端到端的可训练基于运动补偿视频SR方法；由于没有光流的标签，为了通过训练MCNet进行运动补偿，在另一些优选实施例中，采用无监督训练方式来优化其参数集Θ₁以及根据学习到的光流表示Δ′_t→i最小化的运动补偿帧

和原始的低分辨率相邻帧

之间的绝对值误差；

具体可以是包括如下子步骤：

将高分辨率重建视频帧

输入如下公式

进行运算，获得运动补偿损失函数

其中，

表示第五光流数据Δ′_t→i的梯度，α为正则项的权重，在本实施例中，将该权重值设置为0.01；

将高分辨率重建视频帧

在ReconNet和MCNet中反向传播，并通过输入如下公式

进行运算，获得重建损失函数

其中，

为与高分辨率重建视频帧

相对应的高分辨率中心帧，在本实施例中，ε取值为10^-3；

将运动补偿损失函数

与重建损失函数

通过如下公式

进行运算，获得双重注意网络损失函数

其中β是非负权衡权重，取值0.01。

本发明还提供一个实施例，用于示例性地显示采用本发明提供的方法进行视频重建的过程以及测试本方法的效果。

在本实施例中，采用的原始数据集包含从高质量视频收集的542个视频序列，其内容包括城市，野生动物，和风景等；每个视频序列包含32个连续帧，其中大多数帧的分辨率为1280×720；本实施例随机选择522个视频序列作为训练数据，其余20个用于验证(称为Val20)；为了进行测试，本实施例将本发明的方法与最新的三种现有技术的的视频SR方法进行了比较(如图10至12所示)：Myanmmar，Vid4和YUV21；原始的视频包含59个具有4K分辨率(3840×2160)的场景，其中由4帧组成的6个场景用于测试；使用双三次插值将原始帧缩小为960×540像素作为HR帧；Vid4数据集包含四个视频：日历，城市，树叶和步行，分辨率分别为720×576，704×576，720×480和720×480；YUV21数据集包括21个CIF格式剪辑视频序列包含了不同场景中不同类型的动作，所有视频分辨率为352×288；采用PSNR和SSIM用作评估指标，定量地与不同的视频SR网络进行比较；为了避免边界效应，如在另一些现有技术中，将每张图像消除每个边界上的8个像素然后计算PSNR(峰值信噪比)和SSIM(结构相似性)。

MCNet的详细结构如上述表1和图3所示；关于ReconNet，特征提取模块中有4个残余块；本实施例中采用10个DCB，每个DCB包含4个卷积层，卷积核大小为3×3，包括ConvLSTM内部，每个卷积层包含分别从16到64个通道；在每个RAG中，除了AM中的1×1卷积层之外，所有卷积层都具有64个通道，并且它们的卷积核大小都是3×3；CA单元中的衰减系数为r设置为16；SA单元中深度可分离卷积层的内核大小设置为3×3；在上采样模型中，采用一个大小为3×3包含64s²的卷积层根据尺度因子s整合输入的LR特征；将先前的LR特征整合为比例因子s(s＝2,3,4)；在DDAN的末尾，使用一个内核大小为3×3且步长为1的重建层；

本实施例中将所有视频帧转换为YCbCr色彩空间，并仅将亮度分量输入到本发明的FFAN模型；使用双三次插值根据特定比例因子对所有原始LR输入帧进行下采样；向网络中输入N_F个尺寸大小为32×32并且无重叠的LR；用于训练的每个批量大小被设置为10；使用Xavier方法初始化网络以及Adam优化器训练本发明的DDAN模型；对于所有层，初始学习速率初始化为5e-4，并且使用多项式衰减不断降低学习率；在经过10⁶次迭代之后，学习速率降低到1e-5；首先使用

训练MCNet 10⁵次，然后使用

训练ReconNet 10⁵次迭代；最后，将这两个网络结合，使用

训练10⁶次；使用Tensorflow在Titan Xp GPU上实现我们的模型。

本实施例将提出的MCNet与现有技术中的运动补偿转换(MCT)模块进行比较；MCT学习用于运动估计的在4倍和2倍尺度下光流的信息；本发明提出的运动补偿模块可以被视为MCT的扩展，它采用额外的全分辨率运动估计模块来进行更精确的运动补偿；将ReconNet中的RAG数量固定为4，每个RAG包含4个RAB；然后，分别将两种运动补偿策略与ReconNet相结合，研究不同运动补偿算法对视频SR的有效性。我们将两种组合的收敛过程进行可视化，如图7所示，我们可以观察到，在相同训练时间下，与MCT模块相比，本发明所提出的MCNet可以实现稳定训练过程和更高的PSNR性能(约0.15dB)；因此，采用MCNet作为本发明的运动补偿策略，并将其与ReconNet(4个RAG和4个RAB)结合作为本发明基本视频SR模型，称为DDAN-M4N4。

为了验证所提出的RAB对于视频SR的有效性，除了RAB之外，本实施例构建另外三个具有不同注意力机制的残差块用于比较；

(i)基于CA的残差块(CAB)：从RAB中删除SA；因此，本实施例的CAB包含两个3×3卷积层和一个CA单元；

(ii)基于SA的残差块(SAB)：从RAB中移除CA单元并构建SAB；

(iii)基本残差块(RB)：从RAB中删除两个注意机制(即CA和SA)并仅保留两个3×3卷积层；

表2显示了在Val20数据集上CA和SA在4×SR的验证实验；这四个网络采用与DDAN-M4N4相同的结构；显然，可以看到，当在RAB中移除CA单元和SA单元时，PSNR值相对较低。

表2.CA和SA在4×SR情况下的性能验证

此外，通过将CA单元或SA单元集成到残差块中，可以适度地改善SR性能；最后，当将两个注意力机制CA和SA结合时，可以进一步提高性能。

在本实施例中还展示了表2中4个SR模型在YUV21数据集上测试产生的4×SR主观结果比较。在图8中，可以看出使用RAB结构的网络(图8(e))可以产生比不加注意力机制SR模型更清晰的图像内容(图8(b))。

为了研究从相邻帧中提取的细节分量对于中心HR帧恢复的有效性，本实施例显示了4×SR的视觉比较；如图8(f)所示，与图8(e)相比，可以观察到融合相邻细节分量的模型可以生成具有更准确纹理细节的SR结果，而SR模型没有引入细节分量产生的结果具有更多的模糊和伪影。

在本实施例中，还提供针对残差注意力模型有效性的验证；首先研究基本的网络参数：RAG的数量(简称n)和每个RAG中RAB数量(简称m)。如图9所示，有三个网络具有不同数量的m和n，分别称为DDAN-M4N4，DDAN-M6N4，DDAN-M6N6。每个网络在特征提取模块中包含4个残差块和10个DCB。使用一些现有技术中的较佳模型MMCNN作为参考，其具有相同数量的DCB和另外两个深度密集残差块(两个B5D5)作为特征提取和重建。可以看到更大的m或n将导致更好的PSNR性能。这是因为随着更大的m，n和更多层次特征融合，所提出的网络变得更深。此外，与MMCNN、相比，的三种模型都具有卓越的PSNR性能。因此，使用DDAN-M6N6作为最终的DDAN模型。

在本实施例中，发现ConvLSTM层需要比卷积层更大的内存成本。对于大量的DCB，网络可能面临内存占用的挑战和更深层次的限制。为了研究DCB和RAM之间的最佳平衡，减少DCB的数量并使用与DDAN相同数量的RAG来获得另一个模型，称为DDAN-S。在DDAN-S中，将DCB的数量设置为7，其中MMCNN具有10个DCB。在参数，深度和PSNR性能方面比较了三种型号DDAN-S，DDAN和MMCNN。如表3所示。可以看出，所提出的网络结合了DCB和RAM可以实现PSNR的显著增加。特别是，DDAN-S模型在更深层的情况下优于MMCNN约0.24dB，但参数更少。使用相同的DCB和更大数量的RAM，的DDAN模型可以实现更深入的框架并获得更好的SR结果。这是因为DCB的减少可以明显地减小权重参数，并且深RAM可以使网络关注更多有意义的信息以提高重建性能。

表3.DCB和RAM在Val20数据集上4×SR性能验证

在本实施例中，还提供针对LR输入帧数量验证的测试；本发明的DDAN网络可以将任意数量的连续LR帧作为输入。在这一小节中，在提出的模型上进行了两个不同的N_F(3和5)值的实验。在表4中，比较了每个小批量的训练时间和4×SR在不同数量输入帧(3和5)的情况下验证PSNR性能。如表4所示，随着输入帧的增加，模型可以实现更高的PSNR表现但需要消耗更多的训练时间。这是因为具有5个输入帧的模型可以有效地利用更多地时间依赖性以学习更多有用的信息，但是处理时间比3个输入帧更高。同时，用更多相邻帧进行运动补偿可能涉及更大的计算成本，这可能导致更多的时间消耗。因此，输入3个连续的LR帧作为输入传送到提出的网络中，以实现SR性能和训练时间成本之间的最佳平衡。因此，使用两个模型DDAN和DDAN-S与最先进的技术相比。

表4.不同数量LR输入帧在4×SR情况下性能验证

为了证明DDAN的鲁棒性和泛化性，用现有技术中的几种图像SR方法A+，SRCNN，VDSR，DRCN和LapSRN和目前最先进的视频SR方法包括：Bayesian，VSRnet，Deep-DE，ESPCN，MCResNet，DRVSR，RRCN和MMCNN在3个公共视频测试数据集上面进行比较。在公共数据集的实验结果证实了提出的网络在视频超分辨率重建方面的优势。

对于视频SR，由于Myanmanr测试数据集包括6个场景，每个场景仅由4个帧组成。使用3个连续LR帧作为输入传送到的模型以生成HR帧。由于DRVSR仅为固定尺寸640×480的HR帧提供2×和4×视频SR模型，因此不在Myanmanr数据集上测试DRVSR性能。如表5所示，提出的较浅模型DDAN-S为所有缩放因子获得更高的PSNR和SSIM值，并且更深的模型DDAN实现了最好的结果。特别地，的两个模型性能表现都优于采用Myanmar作为训练数据集的RRCN。

表5.在Myanmmar数据集上不同视频SR性能比较

在Vid4和YUV21数据集上进一步测试的模型，以证明提出的方法的鲁棒性。由于一些视频SR方法使用5个连续帧作为输入来产生中心HR帧，因此，为了公平比较，与现有技术中相类似，跳过了开视频序列前两帧和后两帧。注意，Vid4测试数据集中来自“城市”序列的帧的分辨率为704×576，尺寸不适合3×SR帧提供2×和4×视频SR模型，因此不在Myanmanr数据集上测试。

在本实施例中的测试中，将这些帧切割为702×576，然后实现3×SR。类似地，对于来自YUV21的数据集，每个视频序列中的帧被切割为351×288以进行3×SR实验。两个数据集的详细定量结果分别显示在表6和表7中。可以看出，的DDAN-S在所有具有尺度因子(2,3,4)和所有数据集上在PSNR/SSIM方面实现了相当的性能。还可以看到DDAN比DDAN-S表现更好，这是因为对于复杂的运动信息，网络具有更深的RAM可以比较浅的DDAN-S学习更多有用的信息，以进行高频细节恢复。

表6.在Vid4数据集上不同视频SR性能比较

表7.在YUV21数据集上不同视频SR性能比较

本实施例除了定量评估之外，在图10和图11中，还展示了不同SR方法在4×SR情况下的主观视觉质量比较。由于MMCNN仅提供没有预训练模型的原始训练代码，重新训练论文中的最佳模型。ESPCN的结果引自VESPCN中公开的结果。在图8中，可以看到的模型可以产生更清晰的线条和整形边缘，而其他方法更容易产生更多模糊的线条。此外，如图10所示，日历中包括字母或数字的部分被放大以进行更明显的比较。可以观察到经过Deep-DE，ESPCN，VDSR和LapSRN的在经过4倍上采样之后，仍然可以识别数字，而字母很难被识别。DRVSR能够恢复字母的部分信息，但仍然会产生质量差的局部细节。尽管提出的DDAN-S产生具有较低PSNR和SSIM值的HR帧，但该模型可以以更清晰和更清晰的特征重建HR图像。

为了证明提出的方法的有效性，捕获了两个真实的LR视频序列，如图12所示。对于这两个例子，不知道LR序列的标签也不知道视频的退化方式。从每个视频中提取31个连续帧，并将重建的第15帧与其他视频SR方法进行比较。在图11中，可以观察到，与最先进的MMCNN方法相比，的两个模型都可以产生具有更清晰字母，数字和更逼真的SR结果。虽然Deep-DE可以在某些部分产生更清晰的字符，但是图像包含比的结果更重要的伪影和模糊。

对于测试时间，使用3.4GHz Intel i7 CPU(128G RAM)和1NVIDIA Titan Xp GPU(12G内存)的机器上进行评估为了公平比较，如表8所示，计算不同方法在Vid4数据集上实现在4×SR的的平均运行时间和PSNR值。可以看到，DRVSR产生的HR帧速度最快但SR性能较低。提出的DDAN-S可以实现更高的PSNR/SSIM值，重建速度比MMCNN更快。此外，本发明提供的最好的DDAN模型可以获得最高的性能，而且时间成本略高于DDAN-S。

表8.在Vid4数据集上4×SR的PSNR值和测试时间比较

综上所述，本发明提供的一种基于深度双重注意力网络的视频超分辨率重建方法，提出了一种新的深度双注意网络(DDAN)，它由运动补偿网络(MCNet)和SR重建网络(ReconNet)级联而成，共同利用视频SR的时空相关性。相邻帧和中心帧之间的码流表示来进行运动补偿。与以往学习降尺度光流表示的方法不同，本发明提出的MCNet采用金字塔运动补偿结构，从粗到细地综合相邻帧的多尺度运动信息，不仅可以进行多尺度运动估计，而且不需要任何下采样过程就可以学习全分辨率光流表示，从而获得更精确的运动补偿。另外，在SR重建过程中，并不直接将对齐帧和原始中心帧送入重联，而是提取原始相邻帧的细节分量，以减小运动估计的误差。在重建网络中，为了提高高频细节恢复模型的特征表示能力，提出了由一系列残差注意块(RAB)组成的残差注意组(RAG)。在残差块上实现了通道注意和空间注意的双重注意机制，形成了RAB。RAB可以自适应地沿通道和空间维度调制中间层的特征，以在每个特征映射中捕获更重要的信息

在重建网络的最后，使用一个上采样模块从LR输入重建中心帧的HR残差图像。进一步双三次插值方法将LR中间帧进行上采样并结合重建的HR残差图像生成HR帧。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度双重注意力网络的视频超分辨率重建方法，其特征在于，包括：

和低分辨率相邻帧

通过运动补偿网络模型对每组所述低分辨率中心帧

和低分辨率相邻帧

进行运动估计，获得多个运动补偿帧

通过细节分量提取模型对所述运动补偿帧

与所述低分辨率相邻帧

进行运算，获得细节分量数据d_i，将该细节分量数据d_i、所述运动补偿帧

与所述低分辨率相邻帧

相结合，获得重建输入数据I^f；

通过重建网络模型对所述重建输入数据I^f进行运算，获得高分辨率重建视频序列。

2.根据权利要求1所述的方法，其特征在于，通过运动补偿网络模型对每组所述低分辨率中心帧

和低分辨率相邻帧

进行层叠运算，获得多个运动补偿帧

包括：

将所述低分辨率中心帧

和低分辨率相邻帧

进行卷积运算，获得第一光流数据；

将所述第一光流数据与所述低分辨率中心帧

进行弯曲对齐运算，获得第一估计帧；

将所述第一估计帧与第一光流数据进行卷积运算，获得第二光流数据；

将所述第二光流数据与所述第一光流数据相结合，获得第三光流数据；

将所述第三光流数据与所述低分辨率中心帧

进行弯曲对齐运算，获得第二估计帧；

将所述第二估计帧与第二光流数据进行卷积运算，获得第四光流数据；

将所述第四光流数据与所述第三光流数据相结合，获得第五光流数据；

将所述第五光流数据与所述低分辨率中心帧

进行弯曲对齐运算，获得所述运动补偿帧。

3.根据权利要求2所述的方法，其特征在于，所述的通过运动补偿网络模型对每组所述低分辨率中心帧

和低分辨率相邻帧

进行层叠运算，获得多个运动补偿帧

还包括：

将每组所述低分辨率中心帧

和低分辨率相邻帧

进行堆叠，通过卷积层对该组所述低分辨率中心帧

和低分辨率相邻帧

进行卷积运算，获得4倍尺度的第一光流数据

通过如下公式

将所述第一光流数据

与所述低分辨率中心帧

进行弯曲对齐运算，获得第一估计帧

其中，

为双线性插值函数；

将所述第一估计帧

与所述第一光流数据

进行卷积运算，获得第二光流数据

将所述第二光流数据

与所述第一光流数据

通过如下公式

相结合，获得第三光流数据

将所述第三光流数据

与所述低分辨率中心帧

通过如下公式

进行弯曲对齐运算，获得第二估计帧

将所述第二估计帧

与第二光流数据

进行卷积运算，获得第四光流数据Δ_t→i；

将所述第四光流数据Δ_t→i与所述第三光流数据

通过如下公式

相结合，获得第五光流数据Δ′_t→i；

将所述第五光流数据Δ′_t→i与所述低分辨率中心帧

通过如下公式

进行弯曲对齐运算，获得单个所述运动补偿帧

重复上述子步骤获得多个所述运动补偿帧

4.根据权利要求3所述的方法，其特征在于，所述的通过细节分量提取模型对所述运动补偿帧

与所述低分辨率相邻帧

与所述低分辨率相邻帧

相结合，获得重建输入数据I^f包括：

对所述运动补偿帧

和与该运动补偿帧

相对应的低分辨率中心帧

进行减法运算，获得细节分量数据d_i；

将所述细节分量数据d_i、运动补偿帧

与该运动补偿帧

相对应的低分辨率中心帧

通过如下公式

进行结合，获得所述获得重建输入数据I^f。

5.根据权利要求4所述的方法，其特征在于，所述的通过重建网络模型对所述重建输入数据I^f进行运算，获得高分辨率重建视频序列包括：

将所述重建输入数据I^f输入到特征提取模型进行运算，获得特征提取数据；

将所述特征数据输入到长短期记忆模型进行运算，获得特征学习数据；

将所述特征学习数据输入到残差注意力模型进行运算，获得特征融合数据；

将所述特征融合数据输入到上采样模型进行运算，获得高分辨率重建残差帧；

将所述高分辨率重建残差帧输入到全局残差学习模型进行运算，获得高分辨率重建视频帧。

6.根据权利要求5所述的方法，其特征在于，所述的通过重建网络模型对所述重建输入数据I^f进行运算，获得高分辨率重建视频序列还包括：

将所述重建输入数据I^f输入到特征提取模型，通过如下公式

H₀＝h₀(I^f)

进行运算，获得所述特征提取数据H₀；其中，h₀(·)为所述特征提取模型的方程；

将所述特征提取数据H₀输入到长短期记忆模型，通过如下公式

H_d＝h_D(h₀)

进行运算，获得所述特征学习数据H_d；

所述的将所述特征学习数据输入到残差注意力模型的子步骤中，该残差注意力模型包括多个级联的残差注意单元，每个所述残差注意单元包括两个卷积层和一个注意力子模块；该子步骤还包括：

所述两个卷积层通过如下公式

进行运算，获得注意力输入数据U_j；其中，

和

分别表示所述两个卷积层的映射函数；

将所述注意力输入数据U_j进行全局平均池化操作运算，具体为输入到如下公式

进行运算，获得空间维度的通道统计数据z；其中，

表示第c个特征

在位置(p,q)的值，f_GP(·)表示全局平均池化操作函数；

将所述空间维度的通道统计数据z进行卷积运算，输入如下公式

进行运算，获得通道注意力数据

其中，

与

将所述空间维度的通道统计数据z输入如下公式

进行运算，获得空间注意力数据

其中，

与

分别表示上述获得空间注意力数据

的运算中卷积层以及深度可分离卷积层的权重；

将所述通道注意力数据

和空间注意力数据

进行逐元素加法运算，具体通过如下公式

获得全注意力数据γ；其中，σ(·)表示sigmoid函数；

将所述全注意力数据γ输入到如下公式

进行运算，获得某个残差注意单元输出数据R_j；

重复上述将所述特征学习数据输入到残差注意力模型的子步骤，获得多个残差注意单元输出数据R_j；

进行运算，获得所述特征融合数据H_g；其中，W_k表示第k个残差注意力单元后连接的卷积层的权重；

所述的将所述特征融合数据H_g输入到上采样模型，通过如下公式

进行运算，获得所述高分辨率重建残差帧H_r；其中，h_u(·)表示卷积层函数用来提取s²C个特征图用于上采样，

所述的将所述高分辨率重建残差帧输入到全局残差学习模型，通过如下公式

进行运算，获得所述高分辨率重建视频帧

其中，

为对所述低分辨率中心帧

进行双三次放大运算。

7.根据权利要求6所述的方法，其特征在于，还包括对所述运动补偿网络模型进行训练获得所述运动补偿帧

与所述低分辨率相邻帧

之间的绝对值误差；具体通过如下子步骤：

将所述高分辨率重建视频帧

输入如下公式

进行运算，获得运动补偿损失函数

其中，

表示所述第五光流数据Δ′_t→i的梯度，α为正则项的权重；

将所述高分辨率重建视频帧

输入如下公式

进行运算，获得重建损失函数

其中，

为与所述高分辨率重建视频帧

相对应的高分辨率中心帧，ε取值为10^-3；

将所述运动补偿损失函数

与所述重建损失函数

通过如下公式

进行运算，获得双重注意网络损失函数

其中β是非负权衡权重，取值0.01。