CN114299193A

CN114299193A - 一种基于神经网络的黑白视频上色方法、系统、设备及存储介质

Info

Publication number: CN114299193A
Application number: CN202111657895.2A
Authority: CN
Inventors: 元辉; 杨烨; 刘瑶; 姜世奇
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08
Anticipated expiration: 2041-12-30
Also published as: CN114299193B

Abstract

本发明涉及一种基于神经网络的黑白视频上色方法、系统、设备及存储介质，包括：(1)获取数据集，对数据集进行预处理，分割为训练集和测试集；(2)构建黑白视频上色模型，并将训练集输入至黑白视频上色模型进行训练，将测试集输入至训练好的黑白视频上色模型进行测试；(3)将待上色的黑白视频预处理后输入至测试后的黑白视频上色模型，得到上色后的彩色视频。本发明能获得更为准确的上色效果。

Description

一种基于神经网络的黑白视频上色方法、系统、设备及存储介质

技术领域

本发明涉及一种基于神经网络的黑白视频上色方法、系统、设备及存储介质，属于图像处理技术领域。

背景技术

19世纪黑白电影出现，而直到20世纪电影才有了颜色。很多经典的电影，比如《控方证人》、《罗马假日》等，由于受到当时技术条件的限制，失去了原本该有的颜色，只能以黑白的形式呈现。如何将这些黑白视频重新上色是一个值得研究的问题。目前，主要是通过聘请专业人员手动为视频上色或者是用媒体制作工具逐帧的为视频上色，这样做不仅耗费人力而且成本昂贵。随着深度学习的发展，卷积神经网络在图像处理领域有了广泛的应用，出现了一系列基于卷积网络的图像上色方法，这些方法取得了不错的上色效果，并且大大节省了人力和时间。

视频上色是一个具有挑战性的问题，因为在为视频上色的时候需要保持帧与帧之间的空间一致性和时间连续性。目前主要的视频上色的方法包括：借鉴使用图像上色的方法，将黑白视频中的每一帧视为一个图像，针对黑白视频中的每一帧选择对应的彩色参考图像进行匹配，生成彩色视频帧，最终将上色完成的每一帧视频帧进行连接，完成整个上色过程。然而，在上述方法中，由于上色是一个多解的问题，对每一帧图像单独上色没有考虑到视频帧之间的空间一致性和时间连续性，最终往往会由于帧与帧之间的上色差异而导致视频播放时有视觉上的闪烁。

发明内容

现有的视频上色方法一般是对视频中的每一帧进行单独上色，这会破坏视频本身的特性并导致上色后的视频在播放时有视觉上的闪烁。针对现有的视频上色存在不连贯或者闪烁的缺点，本发明提出了一种能够在保持时间连续性和空间一致性的前提下进行视频上色的方法。

本发明还提供了一种基于神经网络的黑白视频上色系统、计算机设备及存储介质。

本发明的技术方案为：

一种基于神经网络的黑白视频上色方法，包括步骤如下：

(1)获取数据集，对数据集进行预处理，分割为训练集和测试集；

(2)构建黑白视频上色模型，并将步骤(1)得到的训练集输入至黑白视频上色模型进行训练，将测试集输入至训练好的黑白视频上色模型进行测试；

(3)将待上色的黑白视频预处理后输入至步骤(2)测试后的黑白视频上色模型，得到上色后的彩色视频。

根据本发明优选的，步骤(2)中，

输入包括待上色黑白帧和参考彩色帧；待上色黑白帧是连续的多个视频帧，参考彩色帧为待上色视频中某一帧的真实值并将其复制多次。

输入至黑白视频上色模型后，输出预测的待上色黑白帧的色度分量，与真实的色度分量值进行比较后计算出预测值与真实值之间的误差，通过优化器将网络参数往误差减小的方向训练。

根据本发明优选的，黑白视频上色模型包括输入端特征提取网络、参考端特征提取网络和上色网络；

输入端特征提取网络提取待上色的黑白视频帧的特征，待上色的黑白视频帧为连续的多个视频帧；通过卷积层之后，再通过输入端通道注意力机制模块，赋予提取特征中不同通道不同的权重，提取得到黑白帧的带有权重的特征即输入特征；

参考端特征提取网络提取参考的彩色帧的特征，参考的彩色帧为视频中的某一帧的真实值并将其复制多次；通过卷积层之后，再通过参考端通道注意力机制模块，赋予提取特征中不同通道不同的权重，提取得到参考帧的带有权重的特征即参考特征；

将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合，并一起送入上色网络中，上色网络将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征进行融合并将特征恢复到原尺寸，最终预测出待上色黑白帧的色度分量。

根据本发明优选的，输入端特征提取网络、参考端特征提取网络均包括输入层、卷积层、BN层、激活函数层；

输入层用于输入视频帧；卷积层用于对输入视频帧进行特征提取，得到视频帧的特征，并减小视频帧特征的尺寸大小，卷积层使用3D卷积，卷积核大小为3×3×3；BN层用于归一化；激活函数层用于实现视频帧特征的非线性映射。

进一步优选的，激活函数层中，采用ELU函数作为激活函数，如式(Ⅰ)所示：

式(Ⅰ)中，x表示通过卷积层之后的特征，α是可选参数；

进一步优选的，输入端特征提取网络用公式(II)表示为：

gⁱⁿ＝σ₁(w₁×g^input) (II)

式(II)中，w₁表示权重，gⁱⁿ表示提取到的输入端的特征，σ₁表示激活函数，w₁通过反向传播更新，

i表示输入黑白视频帧的帧数，

表示输入的第i帧黑白视频帧。

进一步优选的，参考端特征提取网络用公式(Ⅲ)表示为：

g^ref＝σ₂(w₂×g^reference) (Ⅲ)

式(Ⅲ)中，w₂表示权重，g^ref表示提取到的参考端的特征，σ₂表示激活函数，w₂通过反向传播更新，

x表示参考帧的帧数，

表示输入的第x帧参考帧。

根据本发明优选的，输入端通道注意力机制模块用公式(Ⅳ)表示为：

aⁱⁿ＝A₁(gⁱⁿ) (Ⅳ)

式(Ⅳ)中，A₁(·)表示输入端通道注意力机制模块，aⁱⁿ表示被赋予不同通道不同权重之后的输入特征。

根据本发明优选的，参考端通道注意力机制模块用公式(Ⅴ)表示为：

a^ref＝A₂(g^ref) (Ⅴ)

式(Ⅴ)中，A₂(·)表示参考端通道注意力机制模块，a^ref表示被赋予不同通道不同权重之后的参考特征。

进一步优选的，用A代表通道注意力操作，对于一个C×T×H×W的特征h来说，

C代表通道数，T代表帧数，H和W分别代表长度和宽度，通道注意力机制用公式(Ⅵ)表示为：

A₁(·)＝A₂(·)＝A(h)＝h+γe_d(e_s(h)(softmax(e_s(h)^Te_s(h)))^T) (Ⅵ)

式(Ⅵ)中，γ是学习率，e₆:

代表将特征的维度减少，e_d:

代表将特征的维度增加。

根据本发明优选的，将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合，即使用在通道维度上结合的方式进行特征融合，用公式(Ⅶ)表示为：

O(aⁱⁿ,a^ref)＝aⁱⁿ+a^ref (Ⅶ)

式(Ⅶ)中，O(·)表示将输入特征与参考特征融合之后的特征。

根据本发明优选的，上色网络包括上采样层、卷积层、BN层、激活函数层；

上采样层将输入特征与参考特征融合之后的特征恢复到原视频帧尺寸；卷积层用于预测出黑白视频帧的色度分量；BN层用于归一化，加速训练过程；激活函数层用于实现特征的非线性映射；

上色网络用公式(Ⅷ)表示为：

O_uv＝σ₃(w₃×O(aⁱⁿ,a^ref)) (Ⅷ)

式(Ⅷ)中，w₃表示权重，O(aⁱⁿ,a^ref)表示输入特征与参考特征融合之后的特征，σ₃表示激活函数，w₃通过反向传播更新，O_uv表示最终预测出的待上色黑白视频帧的色度分量。

一种基于神经网络的黑白视频上色系统，包括数据集获取模块、黑白视频上色模型训练模块、上色模块；

所述数据集获取模块用于：获取数据集，对数据集进行预处理，分割为训练集和测试集；

所述黑白视频上色模型训练模块用于：构建黑白视频上色模型，并将得到的训练集输入至黑白视频上色模型进行训练，将测试集输入至训练好的黑白视频上色模型进行测试；

所述上色模块用于：将待上色的黑白视频预处理后输入至测试后的黑白视频上色模型，得到上色后的彩色视频。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于神经网络的黑白视频上色方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于神经网络的黑白视频上色方法的步骤。

本发明的有益效果为：

本发明将输入的黑白视频帧帧数改为多帧输入，输入所提出的上色网络进行上色，同时输入多个参考帧用于指导上色，以获得更为准确的上色效果。

附图说明

图1为本发明基于神经网络的黑白视频上色方法的流程示意图；

图2为本发明黑白视频上色模型的网络结构示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于神经网络的黑白视频上色方法，包括步骤如下：

数据集包括训练集和测试集；训练集包括Youku-VESR和Videvo；Youku-VESR包括998个视频，每个视频都取前90帧，Videvo是从Videvo视频网站中选取50个视频，均转为YUV4:2:0视频格式，总共1343个视频，共119,527帧用于训练；测试集包括DAVIS数据集和Videvo视频网站中的自然属性视频，DAVIS数据集包括90个视频，自然属性视频包括30个视频；

预处理，是指：将数据集都转为YUV4:2:0视频格式，将尺寸改为640×480，之后统一命名格式，方便读取。

如图1所示，输入包括待上色黑白帧和参考彩色帧；待上色黑白帧是连续的多个视频帧，参考彩色帧为待上色视频中某一帧的真实值并将其复制多次；比如，本发明实例中待上色黑白帧为：任意选择训练集中连续5帧视频，并转为灰度图(只保留亮度分量，去除色度分量)，参考彩色帧为：选择待上色黑白帧所在视频的第一帧，并连续复制5次，将5个第一帧在通道维度上拼接。

训练过程中，预测值与真实值之间的误差计算时，使用最小绝对值误差函数(L1)，使用ADADELTA算法作为优化器，ADADELTA是一种可以实现自适应学习率的算法，rho参数设置为0.9，rho参数是用于计算每次梯度变化的量，经过35个epoch训练误差收敛，选取测试误差最小的epoch作为最终网络参数；

测试过程中，使用测试集进行测试，顺序选择测试集中每一个视频的连续5帧，并转为灰度图作为待上色的黑白视频帧，选择待上色黑白帧所在视频的第一帧，并连续复制5次，将5个第一帧在通道维度上拼接，作为参考彩色帧；输入最终网络参数的网络中进行测试，得到预测出的待上色黑白视频帧的色度分量，之后与待上色黑白帧结合，组合成彩色视频帧。

如图2所示，黑白视频上色模型包括输入端特征提取网络、参考端特征提取网络和上色网络；

输入端特征提取网络通过卷积层提取待上色的黑白视频帧的特征，待上色的黑白视频帧为连续的多个视频帧；通过卷积层之后，再通过输入端通道注意力机制模块，赋予提取特征中不同通道不同的权重，提取得到黑白帧的带有权重的特征即输入特征；获得更有效的信息。

参考端特征提取网络通过卷积层提取参考的彩色帧的特征，参考的彩色帧为视频中的某一帧的真实值并将其复制多次；通过卷积层之后，再通过参考端通道注意力机制模块，赋予提取特征中不同通道不同的权重，提取得到参考帧的带有权重的特征即参考特征；获得更有效的信息。

将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合，并一起送入上色网络中，其中上色网络是由卷积层组成，上色网络将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征进行融合并将特征恢复到原尺寸，最终预测出待上色黑白帧的色度分量。

输入端特征提取网络、参考端特征提取网络均包括输入层、卷积层、BN(BatchNormalization)层、激活函数层；

输入层用于输入视频帧；输入端特征提取网络的输入层用于输入黑白视频帧gⁱⁿ：1×T×H×W，其中，T表示黑白视频帧gⁱⁿ的帧数，H表示黑白视频帧gⁱⁿ的长度，W表示黑白视频帧gⁱⁿ的宽度，1表示单通道(即灰度图)。参考端特征提取网络的输入层用于输入参考视频帧g^ref：3×T×H×W，其中，T表示参考视频帧gⁱⁿ的帧数，H表示参考视频帧gⁱⁿ的长度，W表示参考视频帧g^ref的宽度，3表示3通道(即彩色图)。

卷积层用于对输入视频帧进行特征提取，得到视频帧的特征，并减小视频帧特征的尺寸大小，由于输入是多帧，所以卷积层使用3D卷积，卷积核大小为3×3×3；输入端特征提取网络的卷积层用于对灰度视频帧的特征进行提取，得到黑白视频帧的特征。具体的，输入端特征提取网络的卷积层进行卷积操作的主要目的是对黑白视频帧的特征进行提取和映射，卷积神经网络能够实现权值共享的关键就在于卷积操作，能够适应不同的输入尺寸和帧数。卷积操作的关键是卷积核(Kernel Size)和步长(Stride)，本实施例中，卷积层的卷积核为3×3×3，步长为1×1×1或1×2×2，其中，步长1×2×2是为了减小特征的尺寸，能够减轻训练过程中内存消耗的负担。参考端特征提取网络的卷积层用于对参考视频帧的特征进行提取，得到参考视频帧的特征。具体的，参考端特征提取网络的卷积层进行卷积操作的主要目的是对参考视频帧的特征进行提取和映射。本实施例中，卷积层的卷积核为3×3×3，步长为1×1×1或1×2×2，其中，步长1×2×2是为了减小特征的尺寸。在本实施例中，采用8组卷积操作来提取黑白视频特征，参数细节设置如表1所示。

表1

由于在神经网络训练过程中，训练数据和测试数据的分布不同会导致网络泛化性能下降，所以，为了增加网络的泛化性并提高训练速度，在特征提取网络中设置了BN层，BN层对特征做归一化处理。能加快训练速度并防止了梯度的爆炸或者消失。

激活函数层用于实现视频帧特征的非线性映射。输入端特征提取网络和参考端特征提取网络除第一层输入层的通道数不相同，其它完全相同。激活函数层中，采用ELU函数作为激活函数，如式(Ⅰ)所示：

式(Ⅰ)中，由于卷积本质上是线性操作，激活函数是一种非线性的映射，使用激活函数能够给神经网络带来非线性的特征。x表示通过卷积层之后的特征，α是可选参数；本发明中选择α＝1。

相较于现有的RELU函数，ELU由于其正值特性，可以与RELU一样缓解梯度消失的问题，而相较于RELU，ELU函数存在负值，可以将激活函数的输出均值向0靠近，使梯度更加接近于自然梯度，也提升了对噪声的鲁棒性。

输入端特征提取网络用公式(II)表示为：

gⁱⁿ＝σ₁(w₁×g^input) (II)

式(II)中，w₁表示权重，gⁱⁿ表示提取到的输入端的特征，σ₁表示激活函数，w₁通过反向传播更新，w₁是一个矩阵，一一对应每个输入特征，代表每个特征的重要程度，权重通过反向传播更新，在卷积层的训练过程中，梯度下降算法为了让损失函数的输出值更小，会逐步改变w₁的值，从而逐步使得预测更加精准。

i表示输入黑白视频帧的帧数，

表示输入的第i帧黑白视频帧。

参考端特征提取网络用公式(Ⅲ)表示为：

g^ref＝σ₂(w₂×g^reference) (Ⅲ)

x表示参考帧的帧数，

表示输入的第x帧参考帧。

通道注意力机制是注意力机制中的一种。由于之前提取的特征中通道数量很多，本发明采用通道注意机制来帮助为特征的不同通道分配不同的权重，提取更关键和重要的信息，并且还能够在不增加计算量和占用内存的情况下，做出更为准确的预测。

之后，输入端与参考端特征提取模块分别与通道注意力机制模块连接，帮助模型为特征的不同通道分配不同的权重，提取更关键和重要的信息，通道注意力机制模块的输入与输出通道数不变，只是权重发生变化。用A代表通道注意力操作，对于一个C×T×H×W的特征h来说，

C代表通道数，T代表帧数，H和W分别代表长度和宽度。通道注意力机制用公式表示为：

A(h)＝h+γe_d(e_s(h)(softmax(e_s(h)^Te_s(h)))^T)，

其中，γ是学习率，e_s:

代表将特征的维度减少，e_d:

代表将特征的维度增加。

输入端通道注意力机制模块用公式(Ⅳ)表示为：

aⁱⁿ＝A₁(gⁱⁿ) (Ⅳ)

参考端通道注意力机制模块用公式(Ⅴ)表示为：

a^ref＝A₂(g^ref) (Ⅴ)

用A代表通道注意力操作，对于一个C×T×H×W的特征h来说，

A₁(·)＝A₂(·)＝A(h)＝h+γe_d(e_s(h)(softmax(e_s(h)^Te_s(h)))^T) (Ⅵ)

式(Ⅵ)中，γ是学习率，e_s:

代表将特征的维度减少，e_d:

代表将特征的维度增加。

将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合，即使用在通道维度上结合的方式进行特征融合，用公式(Ⅶ)表示为：

O(aⁱⁿ,a^ref)＝aⁱⁿ+a^ref (Ⅶ)

式(Ⅶ)中，O(·)表示将输入特征与参考特征融合之后的特征。

上色网络包括上采样层、卷积层、BN(Batch Normalization)层、激活函数层；上采样层使用三线性插值函数，将特征恢复到原视频帧的色度分量的尺寸大小，由于实例中所使用的是YUV 4:2:0格式的视频帧，所以色度分量尺寸为输入亮度分量尺寸的一半。卷积层用于预测出黑白视频帧的色度分量。BN层用于归一化，加速训练过程。激活层用于实现特征的非线性映射。上色网络将输入特征预测为黑白视频的色度分量(UV分量)，最终将分别与对应黑白视频帧结合生成多个彩色视频帧。在本实施例中，采用10组卷积操作来将黑白视频帧特征与参考彩色帧特征进行特征融合并最终预测出黑白视频帧的色度分量，参数细节设置如表2所示。

表2

上色网络用公式(Ⅷ)表示为：

O_uv＝σ₃(w₃×O(aⁱⁿ,a^ref)) (Ⅷ)

黑白视频上色网络的损失函数采用最小绝对值误差函数L₁：

x,

分别表示色度分量的真实值和网络输出的预测值。

本实施例采用Youku-VESR和Videvo两部分作为训练集。在实验过程中每次选取5个的连续视频帧的亮度分量作为输入，选取每个视频的第一帧真实值并连续复制5次作为参考。

本发明黑白视频上色效果合理，并且上色后的视频能保持很好的时间连续性和空间一致性，在播放过程中没有出现闪烁现象。

此外，将本发明的方法得到的结果和目前先进的视频上色方法相比较：Iizuka等人(S.Iizuka,E.Simo-Serra,“Deep remaster:temporal source-reference attentionnetworks for comprehensive video enhancement,”ACM Transactions on Graphics,vol.38,no.6,pp.176.1-176.13,2019.)的方法和Zhang等人(B.Zhang,M.He,J.Liao,P.V.Sander,L.Yuan,A.Bermak,and,D.Chen,"Deep exemplar-based videocolorization,"2019IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR),pp.8044-8053,2019.)的方法对比，测试时每次选取5个的连续视频帧的亮度分量作为输入，选取每个视频的第一帧真实值作为参考，在相同的条件下进行测试，结果显示，Iizuka等人和Zhang等人的方法有背景模糊，色彩失真，播放不连续的问题，而本发明的方法得到的上色结果在色彩的饱满度和自然度上比现有的方法从视觉感官上看色彩更真实，上色效果连续且背景清晰有层次。

本发明还使用定量指标PSNR和SSIM与其他方法进行比较，如表3所示，本发明的PSNR结果优于其他两个方法。这也说明了本发明的上色效果更具有稳定性。

表3

实施例2

一种基于神经网络的黑白视频上色系统，用于实现实施例1所述的一种基于神经网络的黑白视频上色方法，包括数据集获取模块、黑白视频上色模型训练模块、上色模块；

数据集获取模块用于：获取数据集，对数据集进行预处理，分割为训练集和测试集；黑白视频上色模型训练模块用于：构建黑白视频上色模型，并将得到的训练集输入至黑白视频上色模型进行训练，将测试集输入至训练好的黑白视频上色模型进行测试；上色模块用于：将待上色的黑白视频预处理后输入至测试后的黑白视频上色模型，得到上色后的彩色视频。

实施例3

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1所述的基于神经网络的黑白视频上色方法的步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1所述的基于神经网络的黑白视频上色方法的步骤。