CN114299193A - 一种基于神经网络的黑白视频上色方法、系统、设备及存储介质 - Google Patents
一种基于神经网络的黑白视频上色方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN114299193A CN114299193A CN202111657895.2A CN202111657895A CN114299193A CN 114299193 A CN114299193 A CN 114299193A CN 202111657895 A CN202111657895 A CN 202111657895A CN 114299193 A CN114299193 A CN 114299193A
- Authority
- CN
- China
- Prior art keywords
- black
- features
- white
- video
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004040 coloring Methods 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 29
- 238000003860 storage Methods 0.000 title claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000012360 testing method Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 36
- 230000004913 activation Effects 0.000 claims description 32
- 230000007246 mechanism Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 230000001902 propagating effect Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 230000000007 visual effect Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种基于神经网络的黑白视频上色方法、系统、设备及存储介质,包括:(1)获取数据集,对数据集进行预处理,分割为训练集和测试集;(2)构建黑白视频上色模型,并将训练集输入至黑白视频上色模型进行训练,将测试集输入至训练好的黑白视频上色模型进行测试;(3)将待上色的黑白视频预处理后输入至测试后的黑白视频上色模型,得到上色后的彩色视频。本发明能获得更为准确的上色效果。
Description
技术领域
本发明涉及一种基于神经网络的黑白视频上色方法、系统、设备及存储介质,属于图像处理技术领域。
背景技术
19世纪黑白电影出现,而直到20世纪电影才有了颜色。很多经典的电影,比如《控方证人》、《罗马假日》等,由于受到当时技术条件的限制,失去了原本该有的颜色,只能以黑白的形式呈现。如何将这些黑白视频重新上色是一个值得研究的问题。目前,主要是通过聘请专业人员手动为视频上色或者是用媒体制作工具逐帧的为视频上色,这样做不仅耗费人力而且成本昂贵。随着深度学习的发展,卷积神经网络在图像处理领域有了广泛的应用,出现了一系列基于卷积网络的图像上色方法,这些方法取得了不错的上色效果,并且大大节省了人力和时间。
视频上色是一个具有挑战性的问题,因为在为视频上色的时候需要保持帧与帧之间的空间一致性和时间连续性。目前主要的视频上色的方法包括:借鉴使用图像上色的方法,将黑白视频中的每一帧视为一个图像,针对黑白视频中的每一帧选择对应的彩色参考图像进行匹配,生成彩色视频帧,最终将上色完成的每一帧视频帧进行连接,完成整个上色过程。然而,在上述方法中,由于上色是一个多解的问题,对每一帧图像单独上色没有考虑到视频帧之间的空间一致性和时间连续性,最终往往会由于帧与帧之间的上色差异而导致视频播放时有视觉上的闪烁。
发明内容
现有的视频上色方法一般是对视频中的每一帧进行单独上色,这会破坏视频本身的特性并导致上色后的视频在播放时有视觉上的闪烁。针对现有的视频上色存在不连贯或者闪烁的缺点,本发明提出了一种能够在保持时间连续性和空间一致性的前提下进行视频上色的方法。
本发明还提供了一种基于神经网络的黑白视频上色系统、计算机设备及存储介质。
本发明的技术方案为:
一种基于神经网络的黑白视频上色方法,包括步骤如下:
(1)获取数据集,对数据集进行预处理,分割为训练集和测试集;
(2)构建黑白视频上色模型,并将步骤(1)得到的训练集输入至黑白视频上色模型进行训练,将测试集输入至训练好的黑白视频上色模型进行测试;
(3)将待上色的黑白视频预处理后输入至步骤(2)测试后的黑白视频上色模型,得到上色后的彩色视频。
根据本发明优选的,步骤(2)中,
输入包括待上色黑白帧和参考彩色帧;待上色黑白帧是连续的多个视频帧,参考彩色帧为待上色视频中某一帧的真实值并将其复制多次。
输入至黑白视频上色模型后,输出预测的待上色黑白帧的色度分量,与真实的色度分量值进行比较后计算出预测值与真实值之间的误差,通过优化器将网络参数往误差减小的方向训练。
根据本发明优选的,黑白视频上色模型包括输入端特征提取网络、参考端特征提取网络和上色网络;
输入端特征提取网络提取待上色的黑白视频帧的特征,待上色的黑白视频帧为连续的多个视频帧;通过卷积层之后,再通过输入端通道注意力机制模块,赋予提取特征中不同通道不同的权重,提取得到黑白帧的带有权重的特征即输入特征;
参考端特征提取网络提取参考的彩色帧的特征,参考的彩色帧为视频中的某一帧的真实值并将其复制多次;通过卷积层之后,再通过参考端通道注意力机制模块,赋予提取特征中不同通道不同的权重,提取得到参考帧的带有权重的特征即参考特征;
将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合,并一起送入上色网络中,上色网络将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征进行融合并将特征恢复到原尺寸,最终预测出待上色黑白帧的色度分量。
根据本发明优选的,输入端特征提取网络、参考端特征提取网络均包括输入层、卷积层、BN层、激活函数层;
输入层用于输入视频帧;卷积层用于对输入视频帧进行特征提取,得到视频帧的特征,并减小视频帧特征的尺寸大小,卷积层使用3D卷积,卷积核大小为3×3×3;BN层用于归一化;激活函数层用于实现视频帧特征的非线性映射。
进一步优选的,激活函数层中,采用ELU函数作为激活函数,如式(Ⅰ)所示:
式(Ⅰ)中,x表示通过卷积层之后的特征,α是可选参数;
进一步优选的,输入端特征提取网络用公式(II)表示为:
gin=σ1(w1×ginput) (II)
进一步优选的,参考端特征提取网络用公式(Ⅲ)表示为:
gref=σ2(w2×greference) (Ⅲ)
根据本发明优选的,输入端通道注意力机制模块用公式(Ⅳ)表示为:
ain=A1(gin) (Ⅳ)
式(Ⅳ)中,A1(·)表示输入端通道注意力机制模块,ain表示被赋予不同通道不同权重之后的输入特征。
根据本发明优选的,参考端通道注意力机制模块用公式(Ⅴ)表示为:
aref=A2(gref) (Ⅴ)
式(Ⅴ)中,A2(·)表示参考端通道注意力机制模块,aref表示被赋予不同通道不同权重之后的参考特征。
A1(·)=A2(·)=A(h)=h+γed(es(h)(softmax(es(h)Tes(h)))T) (Ⅵ)
根据本发明优选的,将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合,即使用在通道维度上结合的方式进行特征融合,用公式(Ⅶ)表示为:
O(ain,aref)=ain+aref (Ⅶ)
式(Ⅶ)中,O(·)表示将输入特征与参考特征融合之后的特征。
根据本发明优选的,上色网络包括上采样层、卷积层、BN层、激活函数层;
上采样层将输入特征与参考特征融合之后的特征恢复到原视频帧尺寸;卷积层用于预测出黑白视频帧的色度分量;BN层用于归一化,加速训练过程;激活函数层用于实现特征的非线性映射;
上色网络用公式(Ⅷ)表示为:
Ouv=σ3(w3×O(ain,aref)) (Ⅷ)
式(Ⅷ)中,w3表示权重,O(ain,aref)表示输入特征与参考特征融合之后的特征,σ3表示激活函数,w3通过反向传播更新,Ouv表示最终预测出的待上色黑白视频帧的色度分量。
一种基于神经网络的黑白视频上色系统,包括数据集获取模块、黑白视频上色模型训练模块、上色模块;
所述数据集获取模块用于:获取数据集,对数据集进行预处理,分割为训练集和测试集;
所述黑白视频上色模型训练模块用于:构建黑白视频上色模型,并将得到的训练集输入至黑白视频上色模型进行训练,将测试集输入至训练好的黑白视频上色模型进行测试;
所述上色模块用于:将待上色的黑白视频预处理后输入至测试后的黑白视频上色模型,得到上色后的彩色视频。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于神经网络的黑白视频上色方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于神经网络的黑白视频上色方法的步骤。
本发明的有益效果为:
本发明将输入的黑白视频帧帧数改为多帧输入,输入所提出的上色网络进行上色,同时输入多个参考帧用于指导上色,以获得更为准确的上色效果。
附图说明
图1为本发明基于神经网络的黑白视频上色方法的流程示意图;
图2为本发明黑白视频上色模型的网络结构示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于神经网络的黑白视频上色方法,包括步骤如下:
(1)获取数据集,对数据集进行预处理,分割为训练集和测试集;
数据集包括训练集和测试集;训练集包括Youku-VESR和Videvo;Youku-VESR包括998个视频,每个视频都取前90帧,Videvo是从Videvo视频网站中选取50个视频,均转为YUV4:2:0视频格式,总共1343个视频,共119,527帧用于训练;测试集包括DAVIS数据集和Videvo视频网站中的自然属性视频,DAVIS数据集包括90个视频,自然属性视频包括30个视频;
预处理,是指:将数据集都转为YUV4:2:0视频格式,将尺寸改为640×480,之后统一命名格式,方便读取。
(2)构建黑白视频上色模型,并将步骤(1)得到的训练集输入至黑白视频上色模型进行训练,将测试集输入至训练好的黑白视频上色模型进行测试;
如图1所示,输入包括待上色黑白帧和参考彩色帧;待上色黑白帧是连续的多个视频帧,参考彩色帧为待上色视频中某一帧的真实值并将其复制多次;比如,本发明实例中待上色黑白帧为:任意选择训练集中连续5帧视频,并转为灰度图(只保留亮度分量,去除色度分量),参考彩色帧为:选择待上色黑白帧所在视频的第一帧,并连续复制5次,将5个第一帧在通道维度上拼接。
输入至黑白视频上色模型后,输出预测的待上色黑白帧的色度分量,与真实的色度分量值进行比较后计算出预测值与真实值之间的误差,通过优化器将网络参数往误差减小的方向训练。
训练过程中,预测值与真实值之间的误差计算时,使用最小绝对值误差函数(L1),使用ADADELTA算法作为优化器,ADADELTA是一种可以实现自适应学习率的算法,rho参数设置为0.9,rho参数是用于计算每次梯度变化的量,经过35个epoch训练误差收敛,选取测试误差最小的epoch作为最终网络参数;
测试过程中,使用测试集进行测试,顺序选择测试集中每一个视频的连续5帧,并转为灰度图作为待上色的黑白视频帧,选择待上色黑白帧所在视频的第一帧,并连续复制5次,将5个第一帧在通道维度上拼接,作为参考彩色帧;输入最终网络参数的网络中进行测试,得到预测出的待上色黑白视频帧的色度分量,之后与待上色黑白帧结合,组合成彩色视频帧。
(3)将待上色的黑白视频预处理后输入至步骤(2)测试后的黑白视频上色模型,得到上色后的彩色视频。
如图2所示,黑白视频上色模型包括输入端特征提取网络、参考端特征提取网络和上色网络;
输入端特征提取网络通过卷积层提取待上色的黑白视频帧的特征,待上色的黑白视频帧为连续的多个视频帧;通过卷积层之后,再通过输入端通道注意力机制模块,赋予提取特征中不同通道不同的权重,提取得到黑白帧的带有权重的特征即输入特征;获得更有效的信息。
参考端特征提取网络通过卷积层提取参考的彩色帧的特征,参考的彩色帧为视频中的某一帧的真实值并将其复制多次;通过卷积层之后,再通过参考端通道注意力机制模块,赋予提取特征中不同通道不同的权重,提取得到参考帧的带有权重的特征即参考特征;获得更有效的信息。
将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合,并一起送入上色网络中,其中上色网络是由卷积层组成,上色网络将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征进行融合并将特征恢复到原尺寸,最终预测出待上色黑白帧的色度分量。
输入端特征提取网络、参考端特征提取网络均包括输入层、卷积层、BN(BatchNormalization)层、激活函数层;
输入层用于输入视频帧;输入端特征提取网络的输入层用于输入黑白视频帧gin:1×T×H×W,其中,T表示黑白视频帧gin的帧数,H表示黑白视频帧gin的长度,W表示黑白视频帧gin的宽度,1表示单通道(即灰度图)。参考端特征提取网络的输入层用于输入参考视频帧gref:3×T×H×W,其中,T表示参考视频帧gin的帧数,H表示参考视频帧gin的长度,W表示参考视频帧gref的宽度,3表示3通道(即彩色图)。
卷积层用于对输入视频帧进行特征提取,得到视频帧的特征,并减小视频帧特征的尺寸大小,由于输入是多帧,所以卷积层使用3D卷积,卷积核大小为3×3×3;输入端特征提取网络的卷积层用于对灰度视频帧的特征进行提取,得到黑白视频帧的特征。具体的,输入端特征提取网络的卷积层进行卷积操作的主要目的是对黑白视频帧的特征进行提取和映射,卷积神经网络能够实现权值共享的关键就在于卷积操作,能够适应不同的输入尺寸和帧数。卷积操作的关键是卷积核(Kernel Size)和步长(Stride),本实施例中,卷积层的卷积核为3×3×3,步长为1×1×1或1×2×2,其中,步长1×2×2是为了减小特征的尺寸,能够减轻训练过程中内存消耗的负担。参考端特征提取网络的卷积层用于对参考视频帧的特征进行提取,得到参考视频帧的特征。具体的,参考端特征提取网络的卷积层进行卷积操作的主要目的是对参考视频帧的特征进行提取和映射。本实施例中,卷积层的卷积核为3×3×3,步长为1×1×1或1×2×2,其中,步长1×2×2是为了减小特征的尺寸。在本实施例中,采用8组卷积操作来提取黑白视频特征,参数细节设置如表1所示。
表1
由于在神经网络训练过程中,训练数据和测试数据的分布不同会导致网络泛化性能下降,所以,为了增加网络的泛化性并提高训练速度,在特征提取网络中设置了BN层,BN层对特征做归一化处理。能加快训练速度并防止了梯度的爆炸或者消失。
激活函数层用于实现视频帧特征的非线性映射。输入端特征提取网络和参考端特征提取网络除第一层输入层的通道数不相同,其它完全相同。激活函数层中,采用ELU函数作为激活函数,如式(Ⅰ)所示:
式(Ⅰ)中,由于卷积本质上是线性操作,激活函数是一种非线性的映射,使用激活函数能够给神经网络带来非线性的特征。x表示通过卷积层之后的特征,α是可选参数;本发明中选择α=1。
相较于现有的RELU函数,ELU由于其正值特性,可以与RELU一样缓解梯度消失的问题,而相较于RELU,ELU函数存在负值,可以将激活函数的输出均值向0靠近,使梯度更加接近于自然梯度,也提升了对噪声的鲁棒性。
输入端特征提取网络用公式(II)表示为:
gin=σ1(w1×ginput) (II)
式(II)中,w1表示权重,gin表示提取到的输入端的特征,σ1表示激活函数,w1通过反向传播更新,w1是一个矩阵,一一对应每个输入特征,代表每个特征的重要程度,权重通过反向传播更新,在卷积层的训练过程中,梯度下降算法为了让损失函数的输出值更小,会逐步改变w1的值,从而逐步使得预测更加精准。i表示输入黑白视频帧的帧数,表示输入的第i帧黑白视频帧。
参考端特征提取网络用公式(Ⅲ)表示为:
gref=σ2(w2×greference) (Ⅲ)
通道注意力机制是注意力机制中的一种。由于之前提取的特征中通道数量很多,本发明采用通道注意机制来帮助为特征的不同通道分配不同的权重,提取更关键和重要的信息,并且还能够在不增加计算量和占用内存的情况下,做出更为准确的预测。
之后,输入端与参考端特征提取模块分别与通道注意力机制模块连接,帮助模型为特征的不同通道分配不同的权重,提取更关键和重要的信息,通道注意力机制模块的输入与输出通道数不变,只是权重发生变化。用A代表通道注意力操作,对于一个C×T×H×W的特征h来说,C代表通道数,T代表帧数,H和W分别代表长度和宽度。通道注意力机制用公式表示为:
A(h)=h+γed(es(h)(softmax(es(h)Tes(h)))T),
输入端通道注意力机制模块用公式(Ⅳ)表示为:
ain=A1(gin) (Ⅳ)
式(Ⅳ)中,A1(·)表示输入端通道注意力机制模块,ain表示被赋予不同通道不同权重之后的输入特征。
参考端通道注意力机制模块用公式(Ⅴ)表示为:
aref=A2(gref) (Ⅴ)
式(Ⅴ)中,A2(·)表示参考端通道注意力机制模块,aref表示被赋予不同通道不同权重之后的参考特征。
A1(·)=A2(·)=A(h)=h+γed(es(h)(softmax(es(h)Tes(h)))T) (Ⅵ)
将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合,即使用在通道维度上结合的方式进行特征融合,用公式(Ⅶ)表示为:
O(ain,aref)=ain+aref (Ⅶ)
式(Ⅶ)中,O(·)表示将输入特征与参考特征融合之后的特征。
上色网络包括上采样层、卷积层、BN(Batch Normalization)层、激活函数层;上采样层使用三线性插值函数,将特征恢复到原视频帧的色度分量的尺寸大小,由于实例中所使用的是YUV 4:2:0格式的视频帧,所以色度分量尺寸为输入亮度分量尺寸的一半。卷积层用于预测出黑白视频帧的色度分量。BN层用于归一化,加速训练过程。激活层用于实现特征的非线性映射。上色网络将输入特征预测为黑白视频的色度分量(UV分量),最终将分别与对应黑白视频帧结合生成多个彩色视频帧。在本实施例中,采用10组卷积操作来将黑白视频帧特征与参考彩色帧特征进行特征融合并最终预测出黑白视频帧的色度分量,参数细节设置如表2所示。
表2
上采样层将输入特征与参考特征融合之后的特征恢复到原视频帧尺寸;卷积层用于预测出黑白视频帧的色度分量;BN层用于归一化,加速训练过程;激活函数层用于实现特征的非线性映射;
上色网络用公式(Ⅷ)表示为:
Ouv=σ3(w3×O(ain,aref)) (Ⅷ)
式(Ⅷ)中,w3表示权重,O(ain,aref)表示输入特征与参考特征融合之后的特征,σ3表示激活函数,w3通过反向传播更新,Ouv表示最终预测出的待上色黑白视频帧的色度分量。
黑白视频上色网络的损失函数采用最小绝对值误差函数L1:
本实施例采用Youku-VESR和Videvo两部分作为训练集。在实验过程中每次选取5个的连续视频帧的亮度分量作为输入,选取每个视频的第一帧真实值并连续复制5次作为参考。
本发明黑白视频上色效果合理,并且上色后的视频能保持很好的时间连续性和空间一致性,在播放过程中没有出现闪烁现象。
此外,将本发明的方法得到的结果和目前先进的视频上色方法相比较:Iizuka等人(S.Iizuka,E.Simo-Serra,“Deep remaster:temporal source-reference attentionnetworks for comprehensive video enhancement,”ACM Transactions on Graphics,vol.38,no.6,pp.176.1-176.13,2019.)的方法和Zhang等人(B.Zhang,M.He,J.Liao,P.V.Sander,L.Yuan,A.Bermak,and,D.Chen,"Deep exemplar-based videocolorization,"2019IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR),pp.8044-8053,2019.)的方法对比,测试时每次选取5个的连续视频帧的亮度分量作为输入,选取每个视频的第一帧真实值作为参考,在相同的条件下进行测试,结果显示,Iizuka等人和Zhang等人的方法有背景模糊,色彩失真,播放不连续的问题,而本发明的方法得到的上色结果在色彩的饱满度和自然度上比现有的方法从视觉感官上看色彩更真实,上色效果连续且背景清晰有层次。
本发明还使用定量指标PSNR和SSIM与其他方法进行比较,如表3所示,本发明的PSNR结果优于其他两个方法。这也说明了本发明的上色效果更具有稳定性。
表3
实施例2
一种基于神经网络的黑白视频上色系统,用于实现实施例1所述的一种基于神经网络的黑白视频上色方法,包括数据集获取模块、黑白视频上色模型训练模块、上色模块;
数据集获取模块用于:获取数据集,对数据集进行预处理,分割为训练集和测试集;黑白视频上色模型训练模块用于:构建黑白视频上色模型,并将得到的训练集输入至黑白视频上色模型进行训练,将测试集输入至训练好的黑白视频上色模型进行测试;上色模块用于:将待上色的黑白视频预处理后输入至测试后的黑白视频上色模型,得到上色后的彩色视频。
实施例3
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1所述的基于神经网络的黑白视频上色方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1所述的基于神经网络的黑白视频上色方法的步骤。
Claims (10)
1.一种基于神经网络的黑白视频上色方法,其特征在于,包括步骤如下:
(1)获取数据集,对数据集进行预处理,分割为训练集和测试集;
(2)构建黑白视频上色模型,并将步骤(1)得到的训练集输入至黑白视频上色模型进行训练,将测试集输入至训练好的黑白视频上色模型进行测试;
(3)将待上色的黑白视频预处理后输入至步骤(2)测试后的黑白视频上色模型,得到上色后的彩色视频。
2.根据权利要求1所述的一种基于神经网络的黑白视频上色方法,其特征在于,步骤(2)中,输入包括待上色黑白帧和参考彩色帧;待上色黑白帧是连续的多个视频帧,参考彩色帧为待上色视频中某一帧的真实值并将其复制多次;
输入至黑白视频上色模型后,输出预测的待上色黑白帧的色度分量,与真实的色度分量值进行比较后计算出预测值与真实值之间的误差,通过优化器将网络参数往误差减小的方向训练。
3.根据权利要求1所述的一种基于神经网络的黑白视频上色方法,其特征在于,黑白视频上色模型包括输入端特征提取网络、参考端特征提取网络和上色网络;
输入端特征提取网络提取待上色的黑白视频帧的特征,待上色的黑白视频帧为连续的多个视频帧;通过卷积层之后,再通过输入端通道注意力机制模块,赋予提取特征中不同通道不同的权重,提取得到黑白帧的带有权重的特征即输入特征;
参考端特征提取网络提取参考的彩色帧的特征,参考的彩色帧为视频中的某一帧的真实值并将其复制多次;通过卷积层之后,再通过参考端通道注意力机制模块,赋予提取特征中不同通道不同的权重,提取得到参考帧的带有权重的特征即参考特征;
将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合,并一起送入上色网络中,上色网络将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征进行融合并将特征恢复到原尺寸,最终预测出待上色黑白帧的色度分量。
4.根据权利要求3所述的一种基于神经网络的黑白视频上色方法,其特征在于,输入端特征提取网络、参考端特征提取网络均包括输入层、卷积层、BN层、激活函数层;
输入层用于输入视频帧;卷积层用于对输入视频帧进行特征提取,得到视频帧的特征,并减小视频帧特征的尺寸大小,卷积层使用3D卷积,卷积核大小为3×3×3;BN层用于归一化;激活函数层用于实现视频帧特征的非线性映射;
进一步优选的,激活函数层中,采用ELU函数作为激活函数,如式(Ⅰ)所示:
式(I)中,x表示通过卷积层之后的特征,α是可选参数;
进一步优选的,输入端特征提取网络用公式(II)表示为:
gin=σ1(w1×ginput) (II)
进一步优选的,参考端特征提取网络用公式(III)表示为:
gref=σ2(w2×greference) (III)
5.根据权利要求3所述的一种基于神经网络的黑白视频上色方法,其特征在于,输入端通道注意力机制模块用公式(IV)表示为:
ain=A1(gin) (IV)
式(IV)中,A1(·)表示输入端通道注意力机制模块,ain表示被赋予不同通道不同权重之后的输入特征;
参考端通道注意力机制模块用公式(V)表示为:
aref=A2(gref) (V)
式(V)中,A2(·)表示参考端通道注意力机制模块,aref表示被赋予不同通道不同权重之后的参考特征。
6.根据权利要求3所述的一种基于神经网络的黑白视频上色方法,其特征在于,用A代表通道注意力操作,对于一个C×T×H×W的特征h来说,C代表通道数,T代表帧数,H和W分别代表长度和宽度,输入端通道注意力机制模块及参考端通道注意力机制模块的通道注意力机制用公式(VI)表示为:
将提取到的黑白帧的带有权重的特征与参考帧的带有权重的特征相结合,即使用在通道维度上结合的方式进行特征融合,用公式(VII)表示为:
O(ain,aref)=ain+aref (VII)
式(VII)中,O(·)表示将输入特征与参考特征融合之后的特征。
7.根据权利要求3所述的一种基于神经网络的黑白视频上色方法,其特征在于,上色网络包括上采样层、卷积层、BN层、激活函数层;
上采样层将输入特征与参考特征融合之后的特征恢复到原视频帧尺寸;卷积层用于预测出黑白视频帧的色度分量;BN层用于归一化,加速训练过程;激活函数层用于实现特征的非线性映射;
上色网络用公式(VIII)表示为:
Ouv=σ3(w3×O(ain,aref)) (VIII)
式(VIII)中,w3表示权重,O(ain,aref)表示输入特征与参考特征融合之后的特征,σ3表示激活函数,w3通过反向传播更新,Ouv表示最终预测出的待上色黑白视频帧的色度分量。
8.一种基于神经网络的黑白视频上色系统,用于实现权利要求1-7任一所述的基于神经网络的黑白视频上色方法,其特征在于,包括数据集获取模块、黑白视频上色模型训练模块、上色模块;
所述数据集获取模块用于:获取数据集,对数据集进行预处理,分割为训练集和测试集;
所述黑白视频上色模型训练模块用于:构建黑白视频上色模型,并将得到的训练集输入至黑白视频上色模型进行训练,将测试集输入至训练好的黑白视频上色模型进行测试;
所述上色模块用于:将待上色的黑白视频预处理后输入至测试后的黑白视频上色模型,得到上色后的彩色视频。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于神经网络的黑白视频上色方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于神经网络的黑白视频上色方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111657895.2A CN114299193B (zh) | 2021-12-30 | 2021-12-30 | 一种基于神经网络的黑白视频上色方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111657895.2A CN114299193B (zh) | 2021-12-30 | 2021-12-30 | 一种基于神经网络的黑白视频上色方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114299193A true CN114299193A (zh) | 2022-04-08 |
CN114299193B CN114299193B (zh) | 2024-05-03 |
Family
ID=80973960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111657895.2A Active CN114299193B (zh) | 2021-12-30 | 2021-12-30 | 一种基于神经网络的黑白视频上色方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114299193B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023197193A1 (zh) * | 2022-04-12 | 2023-10-19 | Oppo广东移动通信有限公司 | 编解码方法、装置、编码设备、解码设备以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10225485B1 (en) * | 2014-10-12 | 2019-03-05 | Oliver Markus Haynold | Method and apparatus for accelerated tonemapping |
CN109712203A (zh) * | 2018-12-29 | 2019-05-03 | 福建帝视信息科技有限公司 | 一种基于自注意力生成对抗网络的图像着色方法 |
CN113362409A (zh) * | 2021-05-28 | 2021-09-07 | 北京百度网讯科技有限公司 | 图像上色及其模型训练方法、装置、电子设备、存储介质 |
CN113411550A (zh) * | 2020-10-29 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 视频上色方法、装置、设备及存储介质 |
CN113421312A (zh) * | 2021-05-12 | 2021-09-21 | 北京邮电大学 | 一种对黑白视频的着色方法、装置、存储介质及终端 |
CN113627368A (zh) * | 2021-08-16 | 2021-11-09 | 苏州大学 | 基于深度学习的视频行为识别方法 |
-
2021
- 2021-12-30 CN CN202111657895.2A patent/CN114299193B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10225485B1 (en) * | 2014-10-12 | 2019-03-05 | Oliver Markus Haynold | Method and apparatus for accelerated tonemapping |
CN109712203A (zh) * | 2018-12-29 | 2019-05-03 | 福建帝视信息科技有限公司 | 一种基于自注意力生成对抗网络的图像着色方法 |
CN113411550A (zh) * | 2020-10-29 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 视频上色方法、装置、设备及存储介质 |
CN113421312A (zh) * | 2021-05-12 | 2021-09-21 | 北京邮电大学 | 一种对黑白视频的着色方法、装置、存储介质及终端 |
CN113362409A (zh) * | 2021-05-28 | 2021-09-07 | 北京百度网讯科技有限公司 | 图像上色及其模型训练方法、装置、电子设备、存储介质 |
CN113627368A (zh) * | 2021-08-16 | 2021-11-09 | 苏州大学 | 基于深度学习的视频行为识别方法 |
Non-Patent Citations (6)
Title |
---|
CARL VONDRICK ET AL.: ""Tracking Emerges by Colorizing Videos"", 《链接:HTTPS://ARXIV.ORG/ABS/1806.09594》, 27 July 2018 (2018-07-27), pages 1 - 19 * |
LINWEI ZHU ET AL.: ""Deeplearning based chroma prediction for versatile videocoding"", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, 4 August 2021 (2021-08-04), pages 3168 - 3181 * |
MINGMING HE ET AL.: ""Deep exemplar-based colorization"", 《ACM TRANSACTIONS ON GRAPHICS》, 30 July 2018 (2018-07-30), pages 1 - 16, XP055610222, DOI: 10.1145/3197517.3201365 * |
YAO LIU ET AL.: ""HomeImage and Graphics Technologies and ApplicationsConference paper A Channel Attention-Based Convolutional Neural Network for Intra Chroma Prediction of H.266"", 《IMAGE AND GRAPHICS TECHNOLOGIES AND APPLICATIONS》, 29 October 2021 (2021-10-29), pages 49 - 59 * |
元辉等: ""保持空间准确度与时间一致性的深度估计算法"", 《北京邮电大学学报》, 31 August 2010 (2010-08-31), pages 26 - 29 * |
董兆华等: ""一种给黑白视频着色的方法"", 《计算机工程》, 29 February 2004 (2004-02-29), pages 56 - 57 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023197193A1 (zh) * | 2022-04-12 | 2023-10-19 | Oppo广东移动通信有限公司 | 编解码方法、装置、编码设备、解码设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114299193B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113240580B (zh) | 一种基于多维度知识蒸馏的轻量级图像超分辨率重建方法 | |
CN111784602B (zh) | 一种生成对抗网络用于图像修复的方法 | |
CN108304755A (zh) | 用于图像处理的神经网络模型的训练方法和装置 | |
CN108681991A (zh) | 基于生成对抗网络的高动态范围反色调映射方法及系统 | |
CN108986050A (zh) | 一种基于多分支卷积神经网络的图像和视频增强方法 | |
CN110717868B (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
CN114445292A (zh) | 一种多阶段渐进式水下图像增强方法 | |
CN111914734A (zh) | 面向短视频场景的主题情感分析方法 | |
CN114299193B (zh) | 一种基于神经网络的黑白视频上色方法、系统、设备及存储介质 | |
CN113554599A (zh) | 一种基于人类视觉效应的视频质量评价方法 | |
CN116309110A (zh) | 一种基于轻量化深度神经网络的低光照图像去雾方法 | |
CN114067018B (zh) | 一种基于扩张残差生成对抗网络的红外图像彩色化方法 | |
CN116596795A (zh) | 一种基于语义引导与注意力融合的水下图像增强方法 | |
CN114881879A (zh) | 一种基于亮度补偿残差网络的水下图像增强方法 | |
CN107369138B (zh) | 基于高阶统计模型的图像最优化显示方法 | |
CN116664435A (zh) | 一种基于多尺度人脸解析图融入的人脸复原方法 | |
CN116523985A (zh) | 一种结构和纹理特征引导的双编码器图像修复方法 | |
She et al. | Facial image inpainting algorithm based on attention mechanism and dual discriminators | |
CN116109510A (zh) | 一种基于结构和纹理对偶生成的人脸图像修复方法 | |
CN115908602A (zh) | 一种将风景照片转换为中国山水画的风格迁移方法 | |
CN115941871A (zh) | 视频插帧方法、装置、计算机设备和存储介质 | |
Fan et al. | Image inpainting based on structural constraint and multi-scale feature fusion | |
CN115035170A (zh) | 基于全局纹理与结构的图像修复方法 | |
CN113111906A (zh) | 一种基于单对图像训练的条件生成对抗网络模型的方法 | |
Wu et al. | Semantic image inpainting based on generative adversarial networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |