CN112235571B - 视频位深扩展方法、装置、电子设备及存储介质 - Google Patents
视频位深扩展方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112235571B CN112235571B CN202010896887.2A CN202010896887A CN112235571B CN 112235571 B CN112235571 B CN 112235571B CN 202010896887 A CN202010896887 A CN 202010896887A CN 112235571 B CN112235571 B CN 112235571B
- Authority
- CN
- China
- Prior art keywords
- bit depth
- layer
- video frame
- feature
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 46
- 238000010586 diagram Methods 0.000 claims description 35
- 238000012795 verification Methods 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 25
- 238000000354 decomposition reaction Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 230000017105 transposition Effects 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims 2
- 230000000007 visual effect Effects 0.000 abstract description 9
- 230000007704 transition Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102100031786 Adiponectin Human genes 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101000775469 Homo sapiens Adiponectin Proteins 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提供一种视频位深扩展方法、装置、电子设备及存储介质;方法包括:对目标视频帧进行位深检测;当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧;其中,所述位深扩展模型是基于第一位深的样本视频帧集合以及第二位深的样本视频帧集合训练得到的。本发明实施例提供的视频位深扩展方法、装置、电子设备及存储介质,通过预先训练的位深扩展模型,能够将低位深的视频帧自动扩展成高位深的视频帧,使得视频的色彩过渡更加平滑,提升视频的视觉效果。
Description
技术领域
本发明涉及视频技术领域,尤其涉及一种视频位深扩展方法、装置、电子设备及存储介质。
背景技术
随着视频分享平台的兴起,视频内容的创作者不再局限于专业人群,而是覆盖了有创作想法的普通人,这极大地丰富了互联网视频内容。
然而,由用户自己制作并上传的视频视觉质量参差不齐,主要原因有:
1、与专业人群相比,普通创作者通常缺乏好的拍摄设备:多数手机摄影模式不支持高动态范围(High-Dynamic Range,HDR),拍摄出来的位深(bit-depth)是8比特,即用于表示RGB每个通道的颜色数量为8个比特,即28=256种,相比于10比特视频用于RGB每个通道的颜色数量为10比特,即210=1024种。低位深的视频能够提供的颜色细节少,容易出现颜色断层现象;
2、普通创作者通常也不具备好的视频后处理能力,例如要使用Adobe Premiere等软件对视频进行后期调色,其中用到的一些传统视频处理算法需要使用者对视频编辑有很强的先验知识,使用时需要调节的参数多,普通用户很难在短时间具备这些能力;
3、在拍摄视频时的光照条件对视频质量也有很大的影响:在低光照条件下拍摄的视频,整体比较灰暗;在高光照条件下拍摄的视频,高光部分容易饱和;
4、用户在上传视频内容到视频分享平台时,可能受限于带宽和流量,只能选择较大的压缩率,使用位深较低的码流,降低视频的视觉质量
为了给观看视频的用户提供更好的视觉体验,提升用户粘性,视频分享平台需要对创作者上传的内容进行位深扩展。
顾名思义,位深扩展是将视频中的像素的位深从一个较低的比特数扩展为一个较高的比特数。例如,从8比特扩展为10比特。
现有技术中的位深扩展方法一般首先提取手工设计的特征,然后求解最小均方误差估计问题,预测出原始信号。这个过程要求指定手工设计的特征,以及优化问题的终止条件等参数,要求使用者具有较强的先验知识和参数调节能力,面对海量的互联网视频内容,和有限的专业技术人员,可操作性不足。此外,这种方法只依赖当前需要处理的内容,独立于网络上其它已有的优质内容,无法充分利用现有的大数据资源能够提供的有用信息。
发明内容
针对现有技术存在的问题,本发明实施例提供一种视频位深扩展方法、装置、电子设备及存储介质。
本发明第一方面实施例提供一种视频位深扩展方法,包括:
对目标视频帧进行位深检测;
当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧;其中,
所述位深扩展模型是基于第一位深的样本视频帧集合以及第二位深的样本视频帧集合训练得到的。
上述技术方案中,所述位深扩展模型是通过对生成对抗模型进行训练得到的;所述生成对抗模块包括生成器和鉴别器;其中,
所述生成器包括分解模块和重建模块;其中,
所述分解模块包括用于分解基础分量和细节分量的导向滤波层、用于对所述基础分量的特征进行提取、编码、解码与融合的第一子网络以及用于对所述细节分量的特征进行提取与融合的第二子网络;
所述重建模块用于融合所述第一子网络的输出结果以及所述第二子网络的输出结果。
上述技术方案中,所述第一子网络包括特征提取模块,特征编码模块,特征解码模块和特征融合模块;其中,
所述特征提取模块包括2个依次连接的、用于提取特征的卷积层;
所述特征编码模块包括7个依次连接的、用于对特征进行编码的卷积层,其中的第2层、第4层、第6层和第7层为扩张卷积;
所述特征解码模块包括6个用于对编码后的特征进行解码的卷积层,其中的第1层、第3层和第5层为扩张卷积,所述第2层、4层和第6层为转置卷积;所述特征解码模块的第2层、4层、第6层的输出分别和所述特征编码模块第4层、第2层的输出以及所述特征提取模块的输出通过对应的跳跃连接相连,并对三个跳跃连接后的结果做求和操作;
所述特征融合模块包括5个卷积层和3个双线性上采样层;所述特征编码模块第7层的输出以及所述特征解码模块第2层、第4层的输出,分别经过8倍双线性上采样、4倍双线性上采样和2倍的双线性上采样,得到第一特征图、第二特征图和第三特征图,所述特征解码模块第6层输出第四特征图;所述第一特征图、第二特征图、第三特征图以及第四特征图形状相同,且分别经过所述特征融合模块中的第一卷积层、第二卷积层、第三卷积层以及第四卷积层实现卷积操作,四个卷积操作的结果相加,求和结果再经过所述特征融合模块中的第五卷积层,得到输出结果。
上述技术方案中,所述第二子网络包括低层特征提取模块、高层特征提取模块和特征融合模块;其中,
所述低层特征提取模块包括1个用于提取低层特征的卷积层;
所述高层特征提取模块包括5个依次连接的注意力调制残差单元;其中,任意一个注意力调制残差单元使用2个卷积层提取高层特征;然后使用平均池化和最大池化,2个全连接层,以及sigmoid激活函数计算出通道注意力权重并对所提取的高层特征进行加权;再使用平均池化和最大池化,1个卷积层和sigmoid激活函数计算出空间注意力权重并对加权后的特征进行再次加权;
所述特征融合模块包括1个用于融合特征的卷积层。
上述技术方案中,所述第一位深为4位深或6位深,所述第二位深为8位深;
或,
所述第一位深为8位深,所述第二位深为10位深。
上述技术方案中,方法还包括:
获取第二位深的样本视频帧集合,降低所述第二位深的样本视频帧集合中的样本视频帧的位深,得到第一位深的样本视频帧集合;
根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,生成所述位深扩展模型。
上述技术方案中,所述根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,生成所述位深扩展模型,包括:
训练步骤,根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,对所述生成对抗模型进行多次迭代训练;
验证步骤,当训练的次数达到预先设置的第一阈值后,根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,对最近训练得到的生成对抗模型进行验证;
重新执行训练步骤与验证步骤,直至验证得到的最优模型未发生更改的验证次数达到预先设置的第二阈值或训练的次数达到预先设置的第三阈值;其中所述第一阈值、第二阈值以及第三阈值均为预先设置的正整数。
本发明第二方面实施例提供一种视频位深扩展装置,包括:
位深检测模块,对目标视频帧进行位深检测;
位深扩展模块,用于当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧;其中,
所述位深扩展模型是基于第一位深的样本视频帧集合以及第二位深的样本视频帧集合训练得到的。
本发明第三方面实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例所述视频位深扩展方法的步骤。
本发明第四方面实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述视频位深扩展方法的步骤。
本发明实施例提供的视频位深扩展方法、装置、电子设备及存储介质,通过预先训练的位深扩展模型,能够将低位深的视频帧自动扩展成高位深的视频帧,使得视频的色彩过渡更加平滑,提升视频的视觉效果,为观看者提供更好的使用体验,保证观看者对视频分享平台的用户粘性,同时保证不为视频制作者增加额外的负担。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的视频位深扩展方法的示意图;
图2为本发明实施例所涉及的位深扩展模型中的生成器的示意图;
图3为本发明实施例所涉及的位深扩展模型中的鉴别器的示意图;
图4为本发明另一实施例提供的视频位深扩展方法的流程图;
图5为对本发明实施例所涉及的位深扩展模型进行训练的示意图;
图6为本发明实施例所涉及的位深扩展模型进行验证的示意图;
图7为本发明实施例提供的视频位深扩展装置的结构图;
图8为本发明实施例所涉及的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的视频位深扩展方法的示意图,如图1所示,本发明实施例提供的视频位深扩展方法包括:
步骤101、对目标视频帧进行位深检测。
在本发明实施例中,目标视频帧是指待处理的视频帧,目标视频帧是从视频或视频片段得到的,如用户向视频分享平台上传的视频。目标视频帧可以是一个视频帧,也可以是多个视频帧,在本发明实施例中对此不做限定。
目标视频帧来源丰富,不同的目标视频帧中的位深可能并不相同。在本步骤中,对目标视频帧进行位深检测。对目标视频帧进行位深检测可采用现有技术,如采用多媒体视频处理工具FFmpeg中的-pix_fmt选项获取目标视频中的位深。
位深检测的结果可以是以下任意一种:4位深、6位深、8位深和10位深。
步骤102、当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧。
在本发明实施例中,将目标视频帧的位深记为第一位深,将用户所期望的位深记为第二位深。用户所期望的位深可通过用户所发出的控制指令得到,如用户在人机交互界面上对视频清晰度的选择。
第一位深与第二位深之间的比较存在多种可能,在本发明实施例中只讨论第一位深小于第二位深的情况。因此,第一位深与第二位深的具体取值存在以下情况:
所述第一位深为4位深或6位深,所述第二位深为8位深;
或,所述第一位深为8位深,所述第二位深为10位深。
当目标视频帧的第一位深小于所期望的第二位深时,将目标视频帧输入预先训练的位深扩展模型,得到位深扩展后的视频帧。例如,目标视频帧的位深是4位深,用户所期望的位深是8位深,将4位深的目标视频帧输入预先训练的位深扩展模型,得到8位深的扩展后视频帧。
在本发明实施例中,所述位深扩展模型是以第一位深的样本视频帧集合以及第二位深的样本视频帧集合为训练使用的输入数据,通过对生成对抗模型进行训练,得到的用于将第一位深的视频帧转化为第二位深的视频帧的模型。
根据前述第一位深与第二位深的可能取值,所述位深扩展模型用于将视频帧从4位深扩展到8位深,或用于将视频帧从6位深扩展到8位深,或用于将视频帧从8位深扩展到10位深。
本发明实施例提供的视频位深扩展方法通过预先训练的位深扩展模型,能够将低位深的视频帧自动扩展成高位深的视频帧,使得视频的色彩过渡更加平滑,提升视频的视觉效果,为观看者提供更好的使用体验,保证观看者对视频分享平台的用户粘性,同时保证不为视频制作者增加额外的负担。
基于上述任一实施例,在本发明实施例中,所述位深扩展模型是通过对生成对抗模型进行训练得到的;所述生成对抗模块包括生成器和鉴别器;其中,
所述生成器包括分解模块和重建模块;其中,
所述分解模块包括用于分解基础分量和细节分量的导向滤波层、用于对所述基础分量的特征进行提取、编码、解码与融合的第一子网络以及用于对所述细节分量的特征进行提取与融合的第二子网络;
所述重建模块用于融合所述第一子网络的输出结果以及所述第二子网络的输出结果。
在本发明实施例中,所述位深扩展模型是基于卷积神经网络的生成对抗模型,该模型可采用深度学习框架PyTorch搭建,包括生成器和鉴别器。
图2为本发明实施例所涉及的位深扩展模型中的生成器的示意图。如图2所示,所述生成器包括分解模块和重建模块;其中,分解模块包括一个用于分离基础分量和细节分量的导向滤波层、两个分别用于处理基础分量和细节分量的并行子网络;重建模块包括两个用于融合前述并行子网络输出结果的卷积层。
具体的说,导向滤波层用于对所输入的原始图像进行滤波操作,以分离不同频率的成分,其中,将原始视频帧除去高频分量后所得到的低频分量被称为基础分量;将原始视频帧减去基础分量,得到包含大量高频分离的结果被称为细节分量。
分解模块中处理基础分量的第一子网络的输入通道数为6,输出通道数为64。第一子网络包括特征提取模块,特征编码模块,特征解码模块和特征融合模块。
特征提取模块包括2个卷积层,2个卷积层的卷积核大小均为3×3,步长(stride)均为1,通道数均为32。
特征编码模块包括7个卷积层,各个卷积层的卷积核大小均为3×3;其中第1、3、5层的stride为2,第2、4、6、7层的stride为1,第2、4、6、7层使用扩张卷积,扩张率为2。特征编码模块中的7个卷积层的通道数按照从第1层到第7层的顺序依次为32、32、64、64、128、128、128。
特征解码模块包括6个卷积层,各个卷积层的卷积核大小均为3×3;其中第1、3、5层使用扩张卷积,扩张率均为2,stride均为1。第2、4、6层使用转置卷积,stride为2。特征解码模块中的6个卷积层的通道数按照从第1层到第6层的顺序依次为128、64、64、32、32、32。特征解码模块的第2、4、6层的输出和特征编码模块第4、2层的输出以及特征提取模块的输出通过对应的跳跃连接相连,并做求和操作。
特征融合模块包含5个卷积层和3个双线性上采样操作。各个卷积层的卷积核大小均为1×1,stride均为1,输出通道数分别为32,32,32,32,64。特征编码模块第7层的输出以及特征解码模块第2、4层的输出,分别经过8、4、2倍的双线性上采样,得到与特征解码模块第6层的输出形状相同的特征图,然后这4个形状相同的特征图分别经过特征融合模块中的1个卷积层实现1层卷积操作,将得到的结果相加,求和结果经过特征融合模块中的最后1个卷积层,得到输出结果。
前述第一子网络中所包含的每个卷积层后都接有Leaky-ReLU激活函数和批归一化操作。需要注意的是,本发明实施例所涉及的网络结构中不含有Max-Pooling层。
分解模块中处理细节分量的第二子网络的输入通道数为6,输出通道数为64。所述第二子网络包括低层特征提取模块、高层特征提取模块和特征融合模块。
低层特征提取模块包括1个卷积层,该卷积层的卷积核大小为3×3,stride为1,输出通道数是64。
高层特征提取模块包括5个依次连接的注意力调制残差单元,5个注意力调制残差单元的结构均相同,因此以其中一个注意力调制残差单元为例进行说明。一个注意力调制残差单元首先使用2个卷积核大小为3×3、stride为1、通道数为64的卷积层提取特征;然后使用平均池化和最大池化,2个输出通道分别为16和64的全连接层,以及sigmoid激活函数计算出通道注意力权重并对输入特征进行加权;再使用平均池化和最大池化,1个卷积核大小为7×7、stride为1、输出通道数为1的卷积层和sigmoid激活函数计算出空间注意力权重并对加权后的特征进行再次加权。
特征融合模块包括2个卷积层,2个卷积层的卷积核大小均为1×1,stride均为1,输出通道数均为64。其中1个卷积层用于将高层特征提取模块的输出结果进行特征融合,得到融合特征;另1个卷积层将细节分量(即导向滤波层的输出)进行长跳跃连接。经过长跳跃连接后的细节分量和所述融合特征相加,得到第二子网络的输出结果。
前述第二子网络中所包含的每个卷积层后都接有Leaky-ReLU激活函数和批归一化操作。
以上是对生成器中的分解模块的描述。
重建模块包括两个用于融合第一子网络和第二子网络的输出结果的卷积层,这2个卷积层的卷积核大小均为3×3,stride均为1,输出通道数分别为64和3。第一子网络的输出结果与第二子网络的输出结果经过重建模块中的2个卷积层的卷积操作实现了输出结果的融合,得到融合后的结果。输入生成器的低位深源视频帧与所述融合后的结果相加,得到高位深视频帧。
图3为本发明实施例所涉及的位深扩展模型中的鉴别器的示意图。如图3所示,鉴别器包括5个卷积层,这些卷积层的卷积核大小均为5×5,前3层的stride为2,后2层的stride为1。5个卷积层输出通道数按照从第1卷积层到第5卷积层的顺序依次分别是64,128,256,512,1。在最后一个卷积层输出的特征图上求平均数,得到取值范围在0-1之间的判别结果。与生成器类似,鉴别器中每个卷积层后都接有Leaky-ReLU激活函数和批归一化操作。
本发明实施例提供的视频位深扩展方法通过预先训练的位深扩展模型,能够将低位深的视频帧自动扩展成高位深的视频帧,使得视频的色彩过渡更加平滑,提升视频的视觉效果,为观看者提供更好的使用体验,保证观看者对视频分享平台的用户粘性,同时保证不为视频制作者增加额外的负担。
基于上述任一实施例,图4为本发明另一实施例提供的视频位深扩展方法的流程图,如图4所示,本发明另一实施例提供的视频位深扩展方法包括:
步骤401、获取第二位深的样本视频帧集合,根据所述第二位深的样本视频帧集合得到第一位深的样本视频帧集合。
在本步骤中,首先采集具有较高位深的样本视频帧集合,然后通过对这一样本视频帧集合进行处理,得到具有较低位深的另一样本视频帧集合。将这两个具有相同内容、不同位深的样本视频帧集合作为一个视频数据对集,通过这一视频数据对集在后续的步骤中生成位深扩展模型。
例如,可收集不少于20部高质量的8位深和10位深源视频,将每个8位深的源视频分别调整至4位深和6位深,每个10位深的源视频调整至到8位深,形成4位深和8位深,6位深和8位深,8位深和10位深三组视频数据对集,其中每组数据对集中位深较高的称为高位深视频,位深较低的称为低位深视频。这三组视频数据对集分别用于生成4位深到8位深、6位深到8位深、8位深到10位深的位深扩展模型。对每组数据对集,内部按照18:1的比例将所有样本数据划分为训练子集、验证子集。
步骤402、根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,生成所述位深扩展模型。
在本发明的前一实施例中,已经对位深扩展模型的结构做了描述,在本发明实施例中,对如何根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,生成所述位深扩展模型的过程进行详细说明。
图5为对本发明实施例所涉及的位深扩展模型进行训练的示意图,如图5所示,对位深扩展模型进行训练的过程包括:
设置训练的总轮次为N,验证的周期为M,当前的训练轮次为n,训练开始时令n=0。其中,M、N均为正整数,且M小于N。
将训练子集中的第一位深的样本视频帧(以下简称低位深视频帧)输入生成器,然后输出第二位深的视频帧(以下简称高位深视频帧)。
计算生成器输出的高位深视频帧和训练子集中的第二位深的样本视频帧(以下简称高位深源视频帧)之间的均方误差(MSE),将这一均方误差作为内容损失值。
将生成器输出的高位深视频帧,训练子集中的高位深源视频帧分别输入鉴别器,由鉴别器判断生成器生成的高位深视频帧的真实性:将生成器输出的高位深视频帧的鉴别结果标记为0(假),将训练子集中的高位深源视频帧鉴别结果标记为1(真)。计算鉴别器的输出与0/1标签的交叉熵,将计算得到的交叉熵作为对抗损失值。
根据内容损失值和对抗损失值可以得到总的损失值,总的损失值越小,证明生成器输出的高位深视频帧越接近源视频帧的质量。其中,可对内容损失值和对抗损失值做加权和,得到总的损失值。做加权和时,内容损失值和/或对抗损失值的权重可调。
根据反向传播法则计算总的损失值对卷积神经网络参数的梯度,然后用随机梯度下降法更新网络参数,将当前训练轮次加1。
如果当前训练轮次n小于训练总轮次N,则在新的卷积神经网络参数下,进行重新训练;如果当前训练轮次n是验证周期M的倍数,将当前参数下的模型保存为验证模型,然后进入验证流程。如果当前轮次n等于训练总轮次N,则停止训练,将当前参数下的模型作为最终的位深扩展模型。
图6为本发明实施例所涉及的位深扩展模型进行验证的示意图。如图6所示,对位深扩展模型进行验证的过程包括:
将样本数据的验证子集中的低位深视频帧输入训练流程所保存的验证模型的生成器,输出高位深视频帧;计算生成器所输出的高位深视频帧和高位深源视频帧之间的PSNR(Peak Signal to Noise Ratio,峰值信噪比)和SSIM(Structural SIMilarity,结构相似性),作为验证模型性能的指标,PSNR和SSIM的值越高,说明模型的性能越好。
在第一轮验证时,将本轮模型作为最优模型加以保存,将本轮验证计算得到的PSNR值与SSIM值作为最佳PSNR值与最佳SSIM值,同时设置一个用于记录未发生更改次数的参数,将该参数的初始值设置为0。完成第一轮验证后,再返回训练流程,继续对模型的卷积神经网络参数进行调整,然后再进行第二轮验证。
在第K(K≥2)次验证时,如果本轮验证得到的PSNR值与SSIM值优于之前记录的最佳PSNR值与最佳SSIM值,将本轮模型作为最优模型加以保存,将本轮验证得到的PSNR值与SSIM值记录为最佳PSNR值与最佳SSIM值,将未发生更改次数清零,然后返回训练流程,继续对模型的卷积神经网络参数进行调整。如果本轮验证结果并未优于之前记录的最佳PSNR值与最佳SSIM值,则不对最优模型进行更新,也不更新最佳PSNR值与最佳SSIM值,将未发生更改次数加1。之后再判断未发生更改次数是否达到预先设置的阈值,如果是,则停止迭代,将当前参数下的模型作为最终的位深扩展模型;如果否,返回训练流程,继续对模型的卷积神经网络参数进行调整。其中,所述阈值的大小可根据实际需要设置,如设置为10。
需要说明的是,在上述的训练和验证过程中,在两种情况下可以得到最终的位深扩展模型。一是在训练阶段,如果训练的次数等于训练总轮次N时,可将当前参数下的模型作为最终的位深扩展模型;二是在验证阶段,如果最优模型未发生更改的验证轮次数达到预先设置的阈值,将当前参数下的模型作为最终的位深扩展模型。这样做的目的主要是防止训练时间过长,从而在训练时间和结果精度之间取一个平衡。
位深扩展模型的适用场景取决于训练时所输入的视频帧的类型。例如,若样本数据包括4位深的视频帧和8位深的视频帧,则训练得到的位深扩展模型为4位深到8位深的位深扩展模型;若样本数据包括6位深的视频帧和8位深的视频帧,则训练得到的位深扩展模型为6位深到8位深的位深扩展模型;若样本数据包括8位深的视频帧和10位深的视频帧,则训练得到的位深扩展模型为8位深到10位深的位深扩展模型。
步骤403、对目标视频帧进行位深检测。
本步骤与本发明前一实施例中的相关步骤并无本质区别,因此不在此处重复。
步骤404、当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入位深扩展模型,得到第二位深的扩展后视频帧。
根据对目标视频帧的位深检测结果可以得到目标视频帧的位深,如果小于所期望的位深,将目标视频帧输入对应的位深扩展模型,得到位深扩展后的视频帧。
表1
表1中比较了本发明实施例提供的位深扩展方法与部分现有技术中的位深扩展方法的客观评价指标。现有技术中的位深扩展方法的参数设定均采取默认值。从结果来看,ZP、MIG和BR方法具有较低的PSNR和SSIM值,但是计算速度很快;CRR、CA、ACDC和IPAD的PSNR和SSIM值较高,但是非常耗时。本发明实施例提供的位深扩展方法的结果取得了最高的PSNR和SSIM值,执行时间也控制在可以接受的范围,可以认为实施例提供的位深扩展方法相对于现有技术中的位深扩展方法在重建质量上有明显提升。
本发明实施例提供的位深扩展方法通过第一位深的样本视频帧集合以及第二位深的样本视频帧集合训练位深扩展模型,通过位深扩展模型能够将低位深的视频帧自动扩展成高位深的视频帧,使得视频的色彩过渡更加平滑,提升视频的视觉效果,为观看者提供更好的使用体验,保证观看者对视频分享平台的用户粘性,同时保证不为视频制作者增加额外的负担。
基于上述任一实施例,图7为本发明实施例提供的视频位深扩展装置的结构图,如图7所示,本发明实施例提供的视频位深扩展装置包括:
位深检测模块701,对目标视频帧进行位深检测;
位深扩展模块702,用于当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧;其中,
所述位深扩展模型是基于第一位深的样本视频帧集合以及第二位深的样本视频帧集合训练得到的。
本发明实施例提供的视频位深扩展装置通过预先训练的位深扩展模型,能够将低位深的视频帧自动扩展成高位深的视频帧,使得视频的色彩过渡更加平滑,提升视频的视觉效果,为观看者提供更好的使用体验,保证观看者对视频分享平台的用户粘性,同时保证不为视频制作者增加额外的负担。
图8为本发明实施例所涉及的电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行如下方法:对目标视频帧进行位深检测;当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧;其中,所述位深扩展模型是基于第一位深的样本视频帧集合以及第二位深的样本视频帧集合训练得到的。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图8所示的处理器810、通信接口820、存储器830和通信总线840,其中处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信,且处理器810可以调用存储器830中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:对目标视频帧进行位深检测;当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧;其中,所述位深扩展模型是基于第一位深的样本视频帧集合以及第二位深的样本视频帧集合训练得到的。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:对目标视频帧进行位深检测;当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧;其中,所述位深扩展模型是基于第一位深的样本视频帧集合以及第二位深的样本视频帧集合训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种视频位深扩展方法,其特征在于,包括:
对目标视频帧进行位深检测;
当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧;其中,
所述位深扩展模型是基于第一位深的样本视频帧集合以及第二位深的样本视频帧集合通过对生成对抗模型进行训练得到的,具体包括:获取第二位深的样本视频帧集合,降低所述第二位深的样本视频帧集合中的样本视频帧的位深,得到第一位深的样本视频帧集合;根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,生成所述位深扩展模型;其中,所述生成对抗模型包括生成器和鉴别器;其中,
所述生成器包括分解模块和重建模块;其中,所述分解模块包括用于分解基础分量和细节分量的导向滤波层、用于对所述基础分量的特征进行提取、编码、解码与融合的第一子网络以及用于对所述细节分量的特征进行提取与融合的第二子网络;所述重建模块用于融合所述第一子网络的输出结果以及所述第二子网络的输出结果;其中,
所述第一子网络包括特征提取模块,特征编码模块,特征解码模块和特征融合模块;其中,所述特征提取模块包括2个依次连接的、用于提取特征的卷积层;所述特征编码模块包括7个依次连接的、用于对特征进行编码的卷积层,其中的第2层、第4层、第6层和第7层为扩张卷积;所述特征解码模块包括6个用于对编码后的特征进行解码的卷积层,其中的第1层、第3层和第5层为扩张卷积,所述第2层、4层和第6层为转置卷积;所述特征解码模块的第2层、4层、第6层的输出分别和所述特征编码模块第4层、第2层的输出以及所述特征提取模块的输出通过对应的跳跃连接相连,并对三个跳跃连接后的结果做求和操作;所述特征融合模块包括5个卷积层和3个双线性上采样层;所述特征编码模块第7层的输出以及所述特征解码模块第2层、第4层的输出,分别经过8倍双线性上采样、4倍双线性上采样和2倍的双线性上采样,得到第一特征图、第二特征图和第三特征图,所述特征解码模块第6层输出第四特征图;所述第一特征图、第二特征图、第三特征图以及第四特征图形状相同,且分别经过所述特征融合模块中的第一卷积层、第二卷积层、第三卷积层以及第四卷积层实现卷积操作,四个卷积操作的结果相加,求和结果再经过所述特征融合模块中的第五卷积层,得到输出结果。
2.根据权利要求1所述的视频位深扩展方法,其特征在于,所述第二子网络包括低层特征提取模块、高层特征提取模块和特征融合模块;其中,
所述低层特征提取模块包括1个用于提取低层特征的卷积层;
所述高层特征提取模块包括5个依次连接的注意力调制残差单元;其中,任意一个注意力调制残差单元使用2个卷积层提取高层特征;然后使用平均池化和最大池化,2个全连接层,以及sigmoid激活函数计算出通道注意力权重并对所提取的高层特征进行加权;再使用平均池化和最大池化,1个卷积层和sigmoid激活函数计算出空间注意力权重并对加权后的特征进行再次加权;
所述特征融合模块包括1个用于融合特征的卷积层。
3.根据权利要求1所述的视频位深扩展方法,其特征在于,所述第一位深为4位深或6位深,所述第二位深为8位深;
或,
所述第一位深为8位深,所述第二位深为10位深。
4.根据权利要求1所述的视频位深扩展方法,其特征在于,所述根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,生成所述位深扩展模型,包括:
训练步骤,根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,对所述生成对抗模型进行多次迭代训练;
验证步骤,当训练的次数达到预先设置的第一阈值后,根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,对最近训练得到的生成对抗模型进行验证;
重新执行训练步骤与验证步骤,直至验证得到的最优模型未发生更改的验证次数达到预先设置的第二阈值或训练的次数达到预先设置的第三阈值;其中所述第一阈值、第二阈值以及第三阈值均为预先设置的正整数。
5.一种视频位深扩展装置,其特征在于,包括:
位深检测模块,对目标视频帧进行位深检测;
位深扩展模块,用于当所述目标视频帧的第一位深小于所期望的第二位深时,将所述目标视频帧输入预先训练的位深扩展模型,得到第二位深的扩展后视频帧;其中,
所述位深扩展模型是基于第一位深的样本视频帧集合以及第二位深的样本视频帧集合通过对生成对抗模型进行训练得到的,具体包括:获取第二位深的样本视频帧集合,降低所述第二位深的样本视频帧集合中的样本视频帧的位深,得到第一位深的样本视频帧集合;根据所述第一位深的样本视频帧集合以及第二位深的样本视频帧集合,生成所述位深扩展模型;其中,所述生成对抗模型包括生成器和鉴别器;其中,
所述生成器包括分解模块和重建模块;其中,所述分解模块包括用于分解基础分量和细节分量的导向滤波层、用于对所述基础分量的特征进行提取、编码、解码与融合的第一子网络以及用于对所述细节分量的特征进行提取与融合的第二子网络;所述重建模块用于融合所述第一子网络的输出结果以及所述第二子网络的输出结果;其中,
所述第一子网络包括特征提取模块,特征编码模块,特征解码模块和特征融合模块;其中,所述特征提取模块包括2个依次连接的、用于提取特征的卷积层;所述特征编码模块包括7个依次连接的、用于对特征进行编码的卷积层,其中的第2层、第4层、第6层和第7层为扩张卷积;所述特征解码模块包括6个用于对编码后的特征进行解码的卷积层,其中的第1层、第3层和第5层为扩张卷积,所述第2层、4层和第6层为转置卷积;所述特征解码模块的第2层、4层、第6层的输出分别和所述特征编码模块第4层、第2层的输出以及所述特征提取模块的输出通过对应的跳跃连接相连,并对三个跳跃连接后的结果做求和操作;所述特征融合模块包括5个卷积层和3个双线性上采样层;所述特征编码模块第7层的输出以及所述特征解码模块第2层、第4层的输出,分别经过8倍双线性上采样、4倍双线性上采样和2倍的双线性上采样,得到第一特征图、第二特征图和第三特征图,所述特征解码模块第6层输出第四特征图;所述第一特征图、第二特征图、第三特征图以及第四特征图形状相同,且分别经过所述特征融合模块中的第一卷积层、第二卷积层、第三卷积层以及第四卷积层实现卷积操作,四个卷积操作的结果相加,求和结果再经过所述特征融合模块中的第五卷积层,得到输出结果。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述视频位深扩展方法的步骤。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述视频位深扩展方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010896887.2A CN112235571B (zh) | 2020-08-31 | 2020-08-31 | 视频位深扩展方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010896887.2A CN112235571B (zh) | 2020-08-31 | 2020-08-31 | 视频位深扩展方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112235571A CN112235571A (zh) | 2021-01-15 |
CN112235571B true CN112235571B (zh) | 2023-04-07 |
Family
ID=74116625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010896887.2A Active CN112235571B (zh) | 2020-08-31 | 2020-08-31 | 视频位深扩展方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112235571B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022205297A1 (zh) * | 2021-04-01 | 2022-10-06 | 深圳市大疆创新科技有限公司 | 数据处理方法、设备、芯片、无人机和存储介质 |
CN114173189B (zh) * | 2021-10-29 | 2023-02-07 | 荣耀终端有限公司 | 视频编辑方法、电子设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8923389B1 (en) * | 2011-01-13 | 2014-12-30 | Zenverge, Inc. | Unified scaling with differential coding for internal bit depth extension and reference frame compression |
CN107481278B (zh) * | 2017-08-21 | 2019-06-28 | 北京大学深圳研究生院 | 基于混合框架的图像位深度扩展方法及装置 |
CN110191340B (zh) * | 2019-06-03 | 2021-05-14 | Oppo广东移动通信有限公司 | 视频帧处理方法、装置、设备及存储介质 |
CN110852964A (zh) * | 2019-10-30 | 2020-02-28 | 天津大学 | 一种基于深度学习的图像比特增强方法 |
CN111325781B (zh) * | 2020-02-17 | 2023-03-14 | 合肥工业大学 | 一种基于轻量化网络的位深度提升方法及其系统 |
-
2020
- 2020-08-31 CN CN202010896887.2A patent/CN112235571B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112235571A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728633B (zh) | 多曝光度高动态范围反色调映射模型构建方法及装置 | |
CN109102483B (zh) | 图像增强模型训练方法、装置、电子设备及可读存储介质 | |
CN112235571B (zh) | 视频位深扩展方法、装置、电子设备及存储介质 | |
JP2020010331A (ja) | 画質を向上させる方法 | |
Li et al. | Sparse representation-based image quality index with adaptive sub-dictionaries | |
Kim et al. | Multiple level feature-based universal blind image quality assessment model | |
CN111047543A (zh) | 图像增强方法、装置和存储介质 | |
CN110807757A (zh) | 基于人工智能的图像质量评估方法、装置及计算机设备 | |
CN116208807A (zh) | 视频帧处理方法及装置、视频帧去噪方法及装置 | |
Xiao et al. | Interactive deep colorization and its application for image compression | |
CN110570375A (zh) | 一种图像处理方法、装置、电子设置以及存储介质 | |
CN111476866B (zh) | 视频优化与播放方法、系统、电子设备及存储介质 | |
CN117714702A (zh) | 视频编码方法、设备及存储介质 | |
CN117478886A (zh) | 多媒体数据编码方法、装置、电子设备及存储介质 | |
KR20220070866A (ko) | 딥러닝 기술이 적용된 영상 개선 방법, 장치 및 프로그램 | |
CN115396683B (zh) | 视频优化处理方法、装置、电子设备及计算机可读介质 | |
CN111147924A (zh) | 一种视频增强处理方法及系统 | |
CN113542780B (zh) | 一种网络直播视频的压缩伪影去除方法及装置 | |
Gupta et al. | User-guided variable rate learned image compression | |
CN110060210B (zh) | 图像处理方法及相关装置 | |
KR20230086999A (ko) | 가상 인물 콘텐츠 생성 프로그램을 기록한 기록매체 | |
Feng et al. | BVI-Artefact: An artefact detection benchmark dataset for streamed videos | |
CN115526773A (zh) | 图像重建方法及装置、设备、存储介质 | |
Meng et al. | Learning to encode user-generated short videos with lower bitrate and the same perceptual quality | |
CN116433501B (zh) | 图像处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |