CN113538287B

CN113538287B - 视频增强网络训练方法、视频增强方法及相关装置

Info

Publication number: CN113538287B
Application number: CN202110866688.1A
Authority: CN
Inventors: 崔同兵; 黄志杰
Original assignee: Guangzhou Anschuang Information Technology Co ltd
Current assignee: Guangzhou Anschuang Information Technology Co ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2024-03-29
Anticipated expiration: 2041-07-29
Also published as: CN113538287A; WO2023005699A1

Abstract

本发明实施例公开了一种视频增强网络训练方法、视频增强方法及相关装置，视频增强网络训练方法包括：获取训练用的第一视频帧和第二视频帧；构建视频增强网络；采用第一视频帧和第二视频帧训练视频增强网络；视频增强网络包括输入层、输出层以及位于输入层和输出层之间的若干稠密残差子网络，每个稠密残差子网络包括下采样层、上采样层以及位于上采样层和下采样层之间的若干卷积层，每个卷积层的输入特征为卷积层之前的所有层的输出特征之和，本发明实施例的视频增强网络包括若干稠密残差子网络，在每个稠密残差子网络中均包括下采样层，所有特征均在下采样下提取，能够同时兼顾视频增强质量和运行速度。

Description

视频增强网络训练方法、视频增强方法及相关装置

技术领域

本发明实施例涉及视频处理技术领域，尤其涉及一种视频增强网络训练方法、视频增强方法及相关装置。

背景技术

随着视频编码技术的发展，视频成为人们获取信息的重要媒介，而视频质量高低对于视频观看体验具有至关重要的作用，由于视频数据量较大，视频压缩/编码对减少存储空间和传输带宽起着至关重要的作用。

视频压缩会导致压缩后的视频出现方块效应、模糊等各种失真，严重影响了人们的视频观看体验。为了提升压缩视频质量，神经网络被广泛用于视频质量提升。然而，为了实现较为满意的质量提升效果，多采用更复杂、更深的网络来提取图像特征，但复杂和深度较深的神经网络运行速度慢，而对于视频增强任务而言，网络运行速度也是非常重要的，运行速度过慢的神经网络限制了图像增强网络在视频质量增强任务上的应用。

综上所述，现有用于视频增强的神经网络存在无法兼顾视频增强质量和运行速度的问题。

发明内容

本发明实施例提供一种视频增强网络训练方法、视频增强方法、装置、电子设备和存储介质，以解决现有技术中用于视频增强的神经网络无法兼顾视频增强质量和运行速度的问题。

第一方面，本发明实施例提供了一种视频增强网络训练方法，包括：

获取训练用的第一视频帧和第二视频帧，所述第二视频帧为所述第一视频帧增强处理后的视频帧；

构建视频增强网络；

采用所述第一视频帧和第二视频帧训练所述视频增强网络；

其中，所述视频增强网络包括输入层、输出层以及位于所述输入层和所述输出层之间的若干稠密残差子网络，每个所述稠密残差子网络包括下采样层、上采样层以及位于所述下采样层和所述上采样层之间的若干卷积层，每个所述卷积层的输入特征为所述卷积层之前的所有层的输出特征之和。

第二方面，本发明实施例提供了一种视频增强方法，包括：

获取待增强的视频数据，所述待增强的视频数据包括多帧视频帧；

将所述视频帧输入预先训练好的视频增强网络中得到增强后的视频帧；

将所述增强后的视频帧拼接为增强后的视频数据；

其中，所述视频增强网络通过第一方面所述的视频增强网络训练方法所训练。

第三方面，本发明实施例提供了一种视频增强网络训练装置，包括：

训练数据获取模块，用于获取训练用的第一视频帧和第二视频帧，所述第二视频帧为所述第一视频帧增强处理后的视频帧；

网络构建模块，用于构建视频增强网络；

网络训练模块，用于采用所述第一视频帧和第二视频帧训练所述视频增强网络；

第四方面，本发明实施例提供了一种视频增强装置，包括：

待增强视频数据获取模块，用于获取待增强的视频数据，所述待增强的视频数据包括多帧视频帧；

视频增强模块，用于将所述视频帧输入预先训练好的视频增强网络中得到增强后的视频帧；

拼接模块，用于将所述增强后的视频帧拼接为增强后的视频数据；

第五方面，本发明实施例提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面所述的视频增强网络训练方法，和/或，第二方面所述的视频增强方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明第一方面所述的视频增强网络训练方法，和/或，第二方面所述的视频增强方法。

本发明实施例的视频增强网络包括输入层、输出层以及位于输入层和输出层之间的若干稠密残差子网络，每个稠密残差子网络包括下采样层、上采样层以及位于下采样层和上采样层之间的若干卷积层，每个卷积层的输入特征为卷积层之前的所有层的输出特征之和。本发明实施例的视频增强网络包括若干稠密残差子网络，在每个稠密残差子网络中均包括下采样层，所有特征均在下采样下提取，降低了视频增强网络的复杂度，提高了视频增强网络的运行速度，并且稠密残差子网络中每个卷积层的输入特征为卷积层之前的所有层的输出特征之和，实现了特征复用，能够在信号稀疏的情况下提高了特征的传输能力，能够恢复高质量的视频帧，即本发明实施例的视频增强网络能够同时兼顾视频增强质量和运行速度。

附图说明

图1是本发明实施例一提供的一种视频增强网络训练方法的步骤流程图；

图2A是本发明实施例二提供的一种视频增强网络训练方法的步骤流程图；

图2B是本发明实施例中稠密残差子网络的示意图；

图2C是本发明实施例的视频增强网络的结构示意图；

图3是本发明实施例三提供的一种视频增强方法的步骤流程图；

图4是本发明实施例四提供的一种视频增强网络训练装置的结构框图；

图5是本发明实施例五提供的一种视频增强装置的结构框图；

图6是本发明实施例六提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

实施例一

图1为本发明实施例一提供的一种视频增强网络训练方法的步骤流程图，本发明实施例可适用于训练视频增强网络来对视频进行增强处理的情况，该方法可以由本发明实施例的视频增强网络训练装置来执行，该视频增强网络训练装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图1所示，本发明实施例的视频增强网络训练方法可以包括如下步骤：

S101、获取训练用的第一视频帧和第二视频帧，所述第二视频帧为所述第一视频帧增强处理后的视频帧。

具体地，第一视频帧可以是在训练时用于输入视频增强网络的视频帧，第二视频帧可以是训练时作为标签的视频帧，即第二视频帧可以是第一视频帧经增强处理后所得到的视频帧。

在实际应用中，视频数据由多帧视频帧组成，视频数据在网络传输前先在发送端编码压缩，接收端接收到编码压缩的视频数据时进行解码，由于视频数据经过编码和解码过程，解码后的视频数据存在一定程度上的失真，则可以从解码后的视频数据中提取若干视频帧作为训练用的第一视频帧，以及将编码压缩前的视频数据中未失真的视频帧作为第二视频帧，当然，也可以是人工对第一视频帧进行增强处理后得到的、增强的视频帧作为第二视频帧。

S102、构建视频增强网络。

具体地，本发明实施例的视频增强网络包括输入层、输出层以及位于输入层和输出层之间的若干稠密残差子网络，每个稠密残差子网络包括下采样层、上采样层以及位于下采样层和上采样层之间的若干卷积层，每个卷积层的输入特征为卷积层之前的所有层的输出特征之和，在一个可选实施例中，输入层和输出层可以是卷积层。每个稠密残差子网络设置下采样层，可以使得所有的特征操作在下采样下进行，降低了视频增强网络的复杂度，另外，稠密残差子网络中每个卷积层的输入为卷积层之前的所有层的输出特征之和，实现了特征复用，可以在信号稀疏时提高特征的传输能力，避免了特征损失，提高了视频帧的恢复质量。

S103、采用所述第一视频帧和第二视频帧训练所述视频增强网络。

具体地，第一视频帧输入到输入层后经过卷积处理得到浅层特征图，该浅层特征图输入第一个稠密残差子网络中经过下采样后得到下采样特征图，然后通过多个卷积层，每个卷积层的输入特征为卷积层之前的所有层的输出特征之和。最后视频增强网络输出增强后的增强视频帧，通过增强视频帧与第二视频帧计算损失率来调整视频增强网络的参数，直到视频增强网络收敛或者训练次数达到预设次数时得到训练好的视频增强网络，该训练好的视频增强网络用于在输入待增强的视频帧时输出增强后的视频帧。

本发明实施例的视频增强网络包括若干稠密残差子网络，在每个稠密残差子网络中均包括下采样层，所有特征均在下采样下提取，降低了视频增强网络的复杂度，提高了视频增强网络的运行速度，并且稠密残差子网络中每个卷积层的输入特征为卷积层之前的所有层的输出特征之和，实现了特征复用，能够在信号稀疏的情况下提高了特征的传输能力，能够恢复高质量的视频帧，即本发明实施例的视频增强网络能够同时兼顾视频增强质量和运行速度。

实施例二

图2A为本发明实施例二提供的一种视频增强网络训练方法的步骤流程图，本发明实施例在前述实施例一的基础上进行优化，具体地，如图2A所示，本发明实施例的视频增强网络训练方法可以包括如下步骤：

S201、获取训练用的第一视频帧和第二视频帧，所述第二视频帧为所述第一视频帧增强处理后的视频帧。

具体地，视频数据由多帧视频帧组成，视频数据在网络传输前被发送端编码压缩，接收端接收到编码压缩的视频数据时进行解码，由于视频数据经过编码和解码过程，解码后的视频数据存在一定程度上的失真，可以从解码后的视频数据中提取若干视频帧作为训练用于的第一视频帧，以及将编码前的视频数据中未编码压缩的视频帧作为第二视频帧，当然，也可以是人工对第一视频帧进行增强处理后得到的、增强后的视频帧作为第二视频帧。

S202、构建若干依次连接的稠密残差子网络。

稠密残差子网络可以是包含若干卷积层的网络，在稠密残差子网络中，每个卷积层的输入为该卷积层之前的所有层的输出特征之和。

在本发明的可选实施例中，针对每个稠密残差子网络，构建若干依次连接的卷积层，其中，每个卷积层的输出特征与卷积层之前的所有层的输出特征求和作为卷积层的下一个卷积层的输入特征，在第一个卷积层之前连接一个下采样层以及在最后一个卷积层之后连接一个上采样层，在上采样层之后连接第二加法器，第二加法器用于将上采样层的输出特征与下采样层的输入特征相加作为稠密残差子网络的输出特征。

其中，下采样层可以是双线性插值采样，采样比率可以为α，其中α＝2^-n，且n为正整数，各个卷积层可以的卷积核大小为3×3，激活函数为ReLU(x)＝max(0,x)，对于每个卷积层可以表示为：

F＝σ(W*F_i+b)

F_i+1＝[F₀,F₁,F₂,…,F_i,F]

其中，σ(·)为激活函数，W,b为卷积层的权重和偏移系数，F_i为经过卷积后得到的特征。

在一个示例中，如图2B所示为一个稠密残差子网络的示意图，在图2B中，输入特征F_in经过下采样层之后得到下采样特征图F₀，下采样特征图F₀经过第一个卷积层输出特征图F₁，则可以将下采样特征图F₀和特征图F₁拼接作为第二个卷积层的输入特征，由第二个卷积层输出特征图F₂，然后将特征图F₀、F₁、F₂拼接作为第三个卷积层的输入特征，以此类推，其中，两个或者两个以上的特征图拼接可以是尺寸相同的特征图在通道上的拼接，示例性地，特征图A为H×W×C_A，特征图B为H×W×C_B，特征图A和特征图B拼接得到的特征图为H×W×(C_A+C_B)，其中，H为特征图的高度，W为特征图的宽度，C为通道值。

在最后一个卷积层输出特征图F_d后，对特征图F_d上采样得到尺寸与输入特征F_in相同的上采样特征图，最后上采样特征图与输入特征图F_in经过第二加法器SUM2后相加得到稠密残差子网络的输出特征F_out，该输出特征F_out作为下一个稠密残差子网络的输入特征F_in。其中，第二加法器用于将输入特征图F_in和上采样特征图中对应的像素点的像素值相加。

在一个可选实施例中，上采样层通过预设的像素重排算法对最后一个卷积层的输出特征图进行像素重排，得到尺寸与下采样层的输入特征图相同的上采样特征图。具体地，像素重排(PixelShuffle)算法将一个尺寸为H×W的低分辨率输入图像(Low Resolution)，通过Sub-pixel操作将其变为rH×rW的高分辨率图像(High Resolution)，其中，r为上采样因子，即从低分辨率到高分辨率的扩大倍率，具体到本发明实施例中，上采样层通过PixelShuffle的方式将得到的2ⁿ×C个通道的特征图通过周期筛选的方法得到通道数为C的高分辨率的特征图。

S203、在第一个稠密残差子网络之前连接输入层。

如图2C所示，在构建若干依次连接的稠密残差子网络SDRB_N之后，在第一个稠密残差子网络SDRB₁之前连接一个输入层C_in，示例性地，输入层C_in可以是卷积核等于3×3的卷积层，以对输入图像进行卷积操作得到浅层特征F_in来输入到第一个稠密残差子网络SDRB₁中。

S204、在最后一个稠密残差子网络之后连接输出层以输出残差图。

如图2C所示，在构建若干依次连接的稠密残差子网络SDRB_N之后，在最后一个稠密残差子网络SDRB_N之后连接一个输入层C_out，示例性地，输入层C_out可以是卷积核等于3×3的卷积层，以对最后一个稠密残差子网络SDRB_N的输出特征进行线性变换得到残差图。

S205、在所述输出层之后连接第一加法器，所述第一加法器用于将所述残差图的像素值和输入所述输入层的图像的像素值相加得到增强后的视频帧。

如图2C所示，在视频增强网络的输出层C_out之后连接第一加法器SUM1，该第一加法器SUM1的输入为输出层C_out输出的残差图和输入输入层C_in的输入图像I，第一加法器SUM1将输出层C_out输出的残差图和输入图像I中对应的像素点的像素值相加以输出增强处理后的视频帧O。

S206、对所述第一视频帧进行归一化处理得到归一化处理后的第一视频帧。

在本发明的可选实施例中，可以获取第一视频帧的像素位数，计算像素位数对应的像素值作为第一视频帧的最大像素值，计算最大像素值与1的差值，针对第一视频帧中每个像素的像素值，计算像素值与差值的比值作为每个像素归一化处理后的像素值，具体地归一化处理的公式如下：

其中，B为第一视频帧的像素位数，在一个示例中，B＝8时，1＜＜B＝256。通过对第一视频帧归一化处理，可以使得特征归一化为统一量纲，在训练过程中可以提高视频增强网络的收敛速度和精度。

S207、将所述归一化处理后的第一视频帧输入所述视频增强网络的输入层以在输出增强视频帧。

具体地，如图2C所示，将归一化处理后的第一视频帧I输入输入层之后得到图2B中所示的输入特征F_in，输入特征F_in，依次在多个稠密残差子网络SDRB_N中传输，如图2B所示，在每个稠密残差子网络SDRB_N中，输入特征F_in先经过下采样层采样，然后依次在稠密残差子网络SDRB_N的卷积层传输，每个卷积层的输入特征在该卷积层之前的所有层的输出特征之和，最后一个卷积层的输出经上采样层之后输出上采样特征，该上采样特征与输入特征F_in通过第二加法器SUM2后输出稠密残差子网络SDRB_N的输出特征F_out，该输出特征F_out作为下一个稠密残差子网络的输入特征F_in，最后一个稠密残差子网络SDRB_N的输出特征经过输出层C_out进行线性变换得到残差图，第一加法器SUM1将输出层C_out输出的残差图和输入图像I中对应的像素点的像素值相加以输出增强处理后的视频帧O。

S208、采用所述增强视频帧和所述第二视频帧计算损失率。

在本发明实施例中，损失函数为均方误差损失函数，具体如下公式所示：

L＝∑|Y-O|²

其中，Y为未经编码压缩的视频帧，即第二视频帧，O为视频增强网络输出的视频帧，训练时批大小可以是32，训练可以采用Adam优化器，初始学习率可以设置为10^-4，当然，在实际应用中，本领域技术人员还可以采用其他损失函数来计算损失率，本发明实施例对计算损失率的方式不加以限制。

S209、采用所述损失率对所述视频增强网络的参数进行调整得到训练好的视频增强网络。

在一个可选实施例中，可以判断损失率是否小于预设阈值，若是，停止对视频增强网络进行训练，若否，根据损失率调整视频增强网络的参数，返回S206继续对视频增强网络迭代训练，当然，也可以是统计迭代训练的次数，在次数达到预设次数时停止对视频增强网络迭代训练得到训练好的视频增强网络。

在本发明的另一个可选实施例中，还可以将视频增强网络的参数分为若干段，以分别对每段参数进行训练调整，并将已训练好的参数继承到未训练的参数上，以提高训练的速度。

实施例三

图3为本发明实施例三提供的一种视频增强方法的步骤流程图，本发明实施例可适用对解压后的视频数据进行增强的情况，该方法可以由本发明实施例的视频增强装置来执行，该视频增强装置可以由硬件或软件来实现，并集成在本发明实施例所提供的电子设备中，具体地，如图3所示，本发明实施例的视频增强方法可以包括如下步骤：

S301、获取待增强的视频数据，所述待增强的视频数据包括多帧视频帧。

本发明实施例中，待增强的视频数据由多帧视频帧组成，视频增强可以是对视频数据中视频帧进行图像处理，示例性地，视频增强可以是包括去雾、对比度增强、无损放大、拉伸恢复等能够实现高清视频重建的图像处理。

在实际应用中，视频数据经编码压缩后，视频数据播放前解码得到的视频数据存在失真现象，比如存在方块效应、模糊等各种失真，因此需要对解码后的视频数据进行增强处理，则可以对压缩的视频数据进行解码得到待增强的视频数据。当然，还可以待增强的视频数据还可以是其他视频数据，在一个示例中，在直播场景中，可以将摄像头录制的视频数据作为待增强的视频数据，以弥补直播场景中因为光线、器材等因素操作视频质量差的问题，本发明实施例对获取待增强的视频数据的方式不作限制。

S302、将所述视频帧输入预先训练好的视频增强网络中得到增强后的视频帧。

本发明实施例可以预先训练好视频增强网络，该视频增强网络在输入一个视频帧后，可以输出增强后的视频帧，具体地，可以通过实施例一或者实施例二所提供的视频增强网络训练方法来训练视频增强网络，具体训练过程可参考实施例一或者实施例二，在此不再详述。

S303、将所述增强后的视频帧拼接为增强后的视频数据。

在视频增强网络输出增强后的视频帧后，可以按照视频帧在视频数据中的播放顺序，将增强后的视频帧拼接为增强后的视频数据，在一个示例中，可以记录每个视频帧在视频数据中的播放时间戳，按照播放时间戳拼接各个增强后的视频帧得到增强后的视频数据。

在一个可选实施例中，本发明实施例可以将视频增强网络嵌入解码器和播放器之间，解码器没解码出一帧视频帧即输入视频增强网络，由视频增强网络输出增强后的视频帧到播放器实时播放，无需对增强后的视频帧进行拼接。

本发明实施例获取待增强的视频数据，将视频数据的视频帧输入预先训练好的视频增强网络中得到增强后的视频帧，将增强后的视频帧拼接为增强后的视频数据，其中，用于视频增强的视频增强网络包括若干稠密残差子网络，在每个稠密残差子网络中均包括下采样层，所有特征均在下采样下提取，降低了视频增强网络的复杂度，提高了视频增强网络的运行速度，并且稠密残差子网络中每个卷积层的输入特征为卷积层之前的所有层的输出特征之和，实现了特征复用，能够在信号稀疏的情况下提高了特征的传输能力，能够恢复高质量的视频帧，即本发明实施例的视频增强网络能够同时兼顾视频增强质量和运行速度。

实施例四

图4是本发明实施例四提供的一种视频增强网络训练装置的结构框图，如图4所示，本发明实施例的视频增强网络训练装置包括：

训练数据获取模块401，用于获取训练用的第一视频帧和第二视频帧，所述第二视频帧为所述第一视频帧增强处理后的视频帧；

网络构建模块402，用于构建视频增强网络；

网络训练模块403，用于采用所述第一视频帧和第二视频帧训练所述视频增强网络；

本发明实施例所提供的视频增强网络训练装置可执行本发明实施例一、实施例二所提供的视频增强网络训练方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本发明实施例五提供的一种视频增强装置的结构框图，如图5所示，本发明实施例的视频增强装置具体可以包括如下模块：

待增强视频数据获取模块501，用于获取待增强的视频数据，所述待增强的视频数据包括多帧视频帧；

视频增强模块502，用于将所述视频帧输入预先训练好的视频增强网络中得到增强后的视频帧；

拼接模块503，用于将所述增强后的视频帧拼接为增强后的视频数据；

其中，所述视频增强网络通过实施例一或者实施例二所述的视频增强网络训练方法所训练。

本发明实施例所提供的视频增强装置可执行本发明实施例三所提供的视频增强方法，具备执行方法相应的功能模块和有益效果。

实施例六

参照图6，示出了本发明一个示例中的一种电子设备的结构示意图。如图6所示，该电子设备具体可以包括：处理器601、存储装置602、具有触摸功能的显示屏603、输入装置604、输出装置605以及通信装置606。该电子设备中处理器601的数量可以是一个或者多个，图6中以一个处理器601为例。该电子设备的处理器601、存储装置602、显示屏603、输入装置604、输出装置605以及通信装置606可以通过总线或者其他方式连接，图6中以通过总线连接为例。所述电子设备用于执行如本发明任一实施例提供的视频增强网络训练方法，和/或，视频增强方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如上述方法实施例所述的视频增强网络训练方法，和/或，视频增强方法。

需要说明的是，对于装置、电子设备、存储介质实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变换、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频增强网络训练方法，其特征在于，包括：

构建视频增强网络；

采用所述第一视频帧和第二视频帧训练所述视频增强网络；

其中，所述视频增强网络包括输入层、输出层以及位于所述输入层和所述输出层之间的若干稠密残差子网络，每个所述稠密残差子网络包括下采样层、上采样层以及位于所述下采样层和所述上采样层之间的若干卷积层，每个所述卷积层的输入特征为所述卷积层之前的所有层的输出特征之和；

所述下采样层采用双线性插值采样；

所述上采样层通过预设的像素重排算法对最后一个卷积层的输出特征图进行像素重排，得到尺寸与所述下采样层的输入特征图相同的上采样特征图。

2.根据权利要求1所述的视频增强网络训练方法，其特征在于，所述构建视频增强网络，包括：

构建若干依次连接的稠密残差子网络；

在第一个稠密残差子网络之前连接输入层；

在最后一个稠密残差子网络之后连接输出层以输出残差图；

在所述输出层之后连接第一加法器，所述第一加法器用于将所述残差图的像素值和输入所述输入层的图像的像素值相加得到增强后的视频帧。

3.根据权利要求2所述的视频增强网络训练方法，其特征在于，所述输入层和所述输出层为卷积层。

4.根据权利要求2所述的视频增强网络训练方法，其特征在于，所述构建若干依次连接的稠密残差子网络，包括：

针对每个稠密残差子网络，构建若干依次连接的卷积层，其中，每个卷积层的输出特征与所述卷积层之前的所有层的输出特征求和作为所述卷积层的下一个卷积层的输入特征；

在第一个卷积层之前连接一个下采样层以及在最后一个卷积层之后连接一个上采样层；

在所述上采样层之后连接第二加法器，所述第二加法器用于将所述上采样层的输出特征与所述下采样层的输入特征相加作为所述稠密残差子网络的输出特征。

5.根据权利要求1-4任一项所述的视频增强网络训练方法，其特征在于，所述采用所述第一视频帧和第二视频帧训练所述视频增强网络，包括：

对所述第一视频帧进行归一化处理得到归一化处理后的第一视频帧；

将所述归一化处理后的第一视频帧输入所述视频增强网络的输入层以输出增强视频帧；

采用所述增强视频帧和所述第二视频帧计算损失率；

采用所述损失率对所述视频增强网络的参数进行调整得到训练好的视频增强网络。

6.根据权利要求5所述的视频增强网络训练方法，其特征在于，所述对所述第一视频帧进行归一化处理得到归一化处理后的第一视频帧，包括：

获取所述第一视频帧的像素位数；

计算所述像素位数对应的像素值作为所述第一视频帧的最大像素值；

计算所述最大像素值与1的差值；

针对所述第一视频帧中每个像素的像素值，计算所述像素值与所述差值的比值作为每个像素归一化处理后的像素值。

7.根据权利要求5所述的视频增强网络训练方法，其特征在于，所述采用所述损失率对所述视频增强网络的参数进行调整得到训练好的视频增强网络，包括：

判断所述损失率是否小于预设阈值；

若是，停止对所述视频增强网络进行训练；

若否，根据所述损失率调整所述视频增强网络的参数，返回对所述第一视频帧进行归一化处理得到归一化处理后的第一视频帧的步骤。

8.一种视频增强方法，其特征在于，包括：

将所述增强后的视频帧拼接为增强后的视频数据；

其中，所述视频增强网络通过权利要求1-7任一项所述的视频增强网络训练方法所训练。

9.一种视频增强网络训练装置，其特征在于，包括：

网络构建模块，用于构建视频增强网络；

所述下采样层采用双线性插值采样；

10.一种视频增强装置，其特征在于，包括：

11.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的视频增强网络训练方法，和/或，权利要求8所述的视频增强方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的视频增强网络训练方法，和/或，权利要求8所述的视频增强方法。