CN111369548B - 一种基于生成对抗网络的无参考视频质量评价方法及装置 - Google Patents
一种基于生成对抗网络的无参考视频质量评价方法及装置 Download PDFInfo
- Publication number
- CN111369548B CN111369548B CN202010161674.5A CN202010161674A CN111369548B CN 111369548 B CN111369548 B CN 111369548B CN 202010161674 A CN202010161674 A CN 202010161674A CN 111369548 B CN111369548 B CN 111369548B
- Authority
- CN
- China
- Prior art keywords
- video frame
- video
- distorted
- network
- quality evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明提供一种基于生成对抗网络的无参考视频质量评价方法,其无需原始视频信息,方法简单,适用范围广,且分类准确率高。首先利用生成对抗网络恢复失真视频帧块的分辨率,然后将失真视频帧块和与其对应的复原的视频帧块的显著图作为输入送入到视频质量评价网络,对失真视频帧块的质量进行评价。同时本发明还公布了一种基于生成对抗网络的无参考视频质量评价装置。
Description
技术领域
本发明涉及图像处理技术领域,具体为一种基于生成对抗网络的无参考视频质量评价方法及装置。
背景技术
在视频的获取、存储、处理、传输过程中,会因为镜头精度不够、视频压缩、传输中数据丢失等等原因导致视频质量损失,进而导致最终得到的视频失真。技术人员为了让用户看到高质量的视频,通常会先对获得的视频质量进行评价,然后根据视频质量评价的结果对编码器、传输信道等等硬件参数进行调整。
现有的对视频质量评价方法分为全参考型、部分参考型、无参考型。全参考型和部分参考型评价方法都需要额外的带宽来传输原始视频及相关信息,而无参考质量评价方法不需要依赖原始视频,更具实用性。现有技术中,很多视频质量评价方法方法是利用卷积神经网络和循环神经网络提取失真视频的空域和时域特征,导致方法比较复杂,比如,目前主流的全参考方法ViS3和无参考方法V-BLIINDS。
ViS3:该方法首先估计视频序列在空域内由失真导致的图像退化状况,然后通过度量失真视频和参考视频之间的不相似度估计时域和空域视频质量退化,最后结合上两个阶段预估整体视频的客观质量评分;但是因为是全参考类型的方法,所以适用范围有限;
V-BLIINDS:该方法依赖于在离散余弦变换域上视频场景的时空模型,以及描述场景中发生的运动类型的模型来预测视频质量;该方法提出了一种视频时空自然场景统计模型和一种量化视频场景中运动相干性的运动模型;但是该方法对于因视频压缩过程中高频量的损失、摄像机对焦模糊等等原因导致的视频的质量评价效果不佳。
发明内容
为了解决现有的视频质量评价方法应用范围有限、面对压缩导致的视频评价能力欠缺的问题,本发明提供一种基于生成对抗网络的无参考视频质量评价方法,其无需原始视频信息,方法简单,适用范围广,且分类准确率高。同时本发明还公布了一种基于生成对抗网络的无参考视频质量评价装置。
本发明的技术方案是这样的:一种基于生成对抗网络的无参考视频质量评价方法,其包括以下步骤:
S1:获取失真视频和原始参考视频,分别抽取所述失真视频、所述原始参考视频的视频帧,得到失真视频帧、原始参考视频帧;将所述失真视频帧、所述原始参考视频帧的格式转换成指定的图片格式;
其特征在于:
S2:分别按照指定的像素数将所述失真视频帧、所述原始参考视频帧切块,同时将切块后的失真视频帧按照指定的压缩比率进行压缩,获得失真视频帧块、原始参考视频帧块;
S3:构建生成对抗网络模型;所述生成对抗网络模型包括:生成网络、判别网络;
所述生成网络的输入为所述失真视频帧块,通过卷积和上采样得到所述失真视频帧块对应的复原的视频帧块;
所述判别网络的输入为所述生成网络生成的所述复原的视频帧块;
所述判别网络判断所述复原视频块是否属于参考视频帧块;对于所述判别网络判断为不属于参考视频帧块的所述复原的视频帧块继续输入到所述生成网络中进行复原;
S4:训练所述生成对抗网络模型,得到训练好的所述生成对抗网络模型;
通过所述失真视频帧块训练所述生成网络,得到训练好的所述生成网络;
将所述复原的视频帧块和所述原始参考视频帧块作为输入训练所述判别网络,得到训练好的所述判别网络;
S5:对于所述判别网络判断为属于参考视频帧块的所述复原的视频帧块,获取其显著图,记做复原视频帧块的显著图;
S6:构建并训练视频质量评价网络模型;
所述视频质量评价网络模型的输入为所述失真视频帧块和与其对应的所述复原视频帧块的显著图;
将所述失真视频帧块和与其对应的所述复原视频帧块的显著图进行融合拼接,输入到所述视频质量评价网络模型中,提取融合图的空域特征后,利用所述视频质量评价网络模型中的全连接层预测失真视频帧块的质量分数,得到所述失真视频帧块对应的质量分数;
将所述失真视频帧块和与其对应的所述复原视频帧块的显著图训练所述视频质量评价网络模型,获得训练好的所述视频质量评价网络模型;
S7:将待评价失真视频进行抽帧、切块和压缩,得到所有的待评价失真视频帧块;
将每一个所述待评价失真视频帧块输入到训练好的所述生成对抗网络模型中,获得其对应的复原视频帧块;基于所述复原视频帧块提取待评价显著图;将所述待评价失真视频帧块、所述待评价显著图输入到训练好的所述视频质量评价网络模型中,得到所述待评价失真视频帧块对应的质量分数;
所述待评价失真视频的质量分数为所有的所述待评价失真视频帧块的质量分数的平均值。
其进一步特征在于:
所述生成网络包括3个卷积层、20个残差模块、2个上采样模块;在第一个卷积层和第二个卷积层之间设置20个所述残差模块,在第二个卷积层和第三个卷积层之间设置2个所述上采样模块;每个所述残差模块包括依次连接的2个卷积层,每个所述上采样模块包括依次连接的1个卷积层和1个上采样层;每个卷积层都采用3×3大小的卷积核;
所述判别网络包括依次连接的11个卷积层和2个全连接层;每个卷积层都采用3×3大小的卷积核,所述判别网络中第一个全连接层单元个数设置为512,第二个全连接层单元个数设置为1;
步骤S4中,训练所述生成对抗网络模型时,网络模型参数初始化设置为:训练批量大小设为10,所述生成网络的损失函数设为均方误差函数,所述判别网络的损失函数设为二分类交叉熵函数;
所述视频质量评价网络模型包括5个卷积层,2个池化层以及1个全连接层;在第二个卷积层和第三个卷积层之间设置一个池化层,在第四个卷积层和第五个卷积层之间设置一个池化层,全连接层设置在第五个卷积层之后;每个卷积层都采用3×3大小的卷积核,每个池化层采用最大池化,全连接层单元个数设置为1;所述视频质量评价网络模型的参数初始化设置为:学习率设为0.00001,训练批量大小设为10,网络中偏置项进行全零初始化;
步骤S1中,基于所述失真视频、所述原始参考视频,每10帧抽取1帧得到所述失真视频帧、所述原始参考视频帧;
步骤S2中,将所述失真视频帧、所述原始参考视频帧切块,每块大小为192×192像素;并将192×192像素大小的所述失真视频帧块压缩成48×48像素;
步骤S5中,对于所述判别网络判断为属于参考视频帧块的所述复原的视频帧块,采用视频显著性检测算法LC算法进行显著性检测,获取所述复原的视频帧块的显著图;获取的所述复原视频帧块的显著图大小为48x48像素。
实现一种基于生成对抗网络的无参考视频质量评价方法的评价装置,其特征在于,其包括:视频帧格式转换模块、生成对抗网络模块、显著性检测模块、质量评价模块;
所述视频帧格式转换模块用于将视频帧的格式转换成指定的图片格式,并按照指定的大小进行切块并压缩;
所述生成对抗网络模块基于所述生成对抗网络模型恢复失真视频帧块的分辨率,得到所述失真视频帧块对应的复原的视频帧块;
所述显著性检测模块用于对所述复原的视频帧块进行显著性检测,得到所述复原视频帧块的显著图;
所述质量评价模块基于所述视频质量评价网络模型,根据预设规则依次对失真视频帧块和复原视频块显著图的融合图的质量进行评价,得到所述失真视频帧块对应的质量分数。
其进一步特征在于:
其还包括生成对抗网络模型训练模块,所述生成对抗网络模型训练模块包括:生成对抗网络模型构建单元、生成对抗网络训练集构建单元、生成对抗网络训练单元;
所述生成对抗网络模型构建单元用于构建所述生成对抗网络模型;
所述生成对抗网络训练集构建单元用于构建生成对抗网络训练数据集,所述生成对抗网络训练数据集中包括所述失真视频帧块和所述原始参考视频帧块;
所述生成对抗网络训练单元用于采用有监督的训练装置对所述生成对抗网络模型进行训练,在训练过程中,所述生成对抗网络模型的输入为所述失真视频帧块和所述原始参考视频帧块,输出为所述复原的视频帧块;
其还包括视频质量评价网络模型训练模块,所述视频质量评价网络模型训练模块包括:视频质量评价网络模型构建单元、视频质量评价网络训练集构建单元、视频质量评价网络训练单元;
所述视频质量评价网络模型构建单元用于构建所述视频质量评价网络模型;
所述视频质量评价网络训练集构建单元用于构建视频质量评价网络模型训练数据集,所述视频质量评价网络模型训练数据集中包括所述失真视频帧块和与其对应的所述复原视频帧块的显著图;
所述视频质量评价网络训练单元用于采用有监督的训练装置对所述视频质量评价网络模型进行训练,在训练过程中,所述视频质量评价网络模型的输入为所述失真视频帧块和与其对应的所述复原视频帧块的显著图,输出为所述失真视频帧块对应的质量分数。
本发明提供的一种基于生成对抗网络的无参考视频质量评价方法及装置,首先利用生成对抗网络恢复失真视频帧块的分辨率,然后将失真视频帧块和与其对应的复原的视频帧块的显著图作为输入送入到视频质量评价网络,对失真视频帧块的质量进行评价;本发明的技术方案为无参考型评价方法,通过训练好的视频质量评价网络模型进行视频质量评价的时候,无需原始参考视频帧的信息,使本发明可以更灵活的应用在各种不同的场景下;在质量评价之前,通过训练好的生成对抗网络对失真视频帧块恢复分辨率,生成复原的视频帧块,得到假性参考视频帧块,整个过程无需手工提取图像特征,执行效率高,且技术方案简单易理解,容易实现;通过复原的视频帧块提取显著图,与失真视频帧块融合后进行质量评价,使得本发明技术方案的分类准确率更高,评价效果更好。
附图说明
图1为生成网络的网络结构示意图;
图2为判别网络的网络结构示意图;
图3为视频质量评价网络的网络结构示意图;
图4为基于生成对抗网络的无参考视频质量评价装置的系统框图示意图。
具体实施方式
人类视觉系统中的视觉内在推导机制是指当人眼看到失真的视频时,会根据人脑中已有的信息推导出观察到的内容,抛弃掉不确定的内容。受到该机制的启发,本发明提出了一种基于生成对抗网络的无参考视频质量评价方法,如图1~图3所示,其包括以下步骤。
S1:获取失真视频和原始参考视频,分别抽取失真视频、原始参考视频的视频帧,得到失真视频帧、原始参考视频帧;将所述失真视频帧、所述原始参考视频帧的格式转换成指定的图片格式;
抽取视频帧的时候,如果采样过频,会导致帧与帧之间相似度过高,且后续计算处理数据过大,造成网络模型欠拟合的问题;所以,需要按照具体的实施环境设置采样频率,本方案的实施例中,基于失真视频、原始参考视频,每10帧抽取1帧得到失真视频帧、原始参考视频帧;这样的采样频率既可以确保样本数据量适合本发明的网络模型,也可以在确保帧与帧的差异度适中的基础上,保证了合适的计算效率以及提高了计算结果的准确度。
S2:分别按照指定的像素数将失真视频帧、原始参考视频帧切块,同时将切块后的失真视频帧按照指定的压缩比率进行压缩,获得失真视频帧块、原始参考视频帧块;
选择视频帧切块后的块尺寸的时候,要根据原视频的分辨率进行,如果切块过大则会导致图片维度太高的问题,残差模块提取图片特征时计算量过大,使得网络模型计算效率降低;切块过小会导致残差模块提取不到有效特征;本实施例中,将失真视频帧、原始参考视频帧切块,每块大小为192×192像素;并将192×192像素大小的失真视频帧块缩小成48×48像素;因为生成对抗网络中包括两个上采用模块,会将输入的宽和高扩大至四倍,所以在对视频帧进行切块的时候选择每块大小为192×192像素,压缩后的尺寸设置为48×48像素;这样的尺寸即可确保残差模块能够提取到有效的图像特征,也可以确保网络模型的拥有良好的计算效率。
S3:构建生成对抗网络模型;生成对抗网络模型包括:生成网络、判别网络;
生成网络的输入为失真视频帧块,通过卷积和上采样得到失真视频帧块对应的复原的视频帧块;
生成网络包括3个卷积层、20个残差模块、2个上采样模块;在第一个卷积层和第二个卷积层之间设置20个残差模块,在第二个卷积层和第三个卷积层之间设置2个上采样模块;每个残差模块包括依次连接的2个卷积层,每个上采样模块包括依次连接的1个卷积层和1个上采样层;每个卷积层都采用3×3大小的卷积核;详细结构参照下面表1:
表1生成网络详细参数
判别网络的输入为生成网络生成的复原的视频帧块;判别网络判断复原视频块是否属于参考视频帧块;对于判别网络判断为不属于参考视频帧块的复原的视频帧块继续输入到生成网络中进行复原;判别网络包括依次连接的11个卷积层和2个全连接层;每个卷积层都采用3×3大小的卷积核,判别网络中第一个全连接层单元个数设置为512,第二个全连接层单元个数设置为1;详细参照下面的表2:
表2判别网络详细参数
操作类型 | 参数信息 | 输入 | 输出数据维度 |
卷积层(conv1) | k=3;n=64;s=1;ReLU | 图像(192*192*3) | 192*192*64 |
卷积层(conv2) | k=3;n=64;s=1;ReLU | conv1(192*192*64) | 192*192*64 |
卷积层(conv3) | k=3;n=64;s=2;ReLU | conv2(192*192*64) | 96*96*64 |
卷积层(conv4) | k=3;n=64;s=1;ReLU | conv3(96*96*64) | 96*96*64 |
卷积层(conv5) | k=3;n=64;s=2;ReLU | conv4(96*96*64) | 48*48*64 |
卷积层(conv6) | k=3;n=128;s=1;ReLU | conv5(48*48*64) | 48*48*128 |
卷积层(conv7) | k=3;n=128;s=2;ReLU | conv6(48*48*128) | 24*24*128 |
卷积层(conv8) | k=3;n=256;s=1;ReLU | conv7(24*24*128) | 24*24*256 |
卷积层(conv9) | k=3;n=256;s=2;ReLU | conv8(24*24*256) | 12*12*256 |
卷积层(conv10) | k=3;n=512;s=1;ReLU | conv9(12*12*256) | 12*12*512 |
卷积层(conv11) | k=3;n=512;s=2;ReLU | conv10(12*12*512) | 6*6*512 |
全连接层(fc1) | u=512 | conv11(6*6*512) | 512 |
全连接层(fc2) | u=1 | fc1(512) | 1 |
生成对抗网络模型的工作原理为:将失真的视频帧块作为输入送入生成网络,生成网络根据该视频帧块生成分辨率尽可能高的帧块,判别网络判断生成的帧块属于参考视频帧块还是失真视频帧块,对于判别网络判断为不属于参考视频帧块(即在判别网络中判别结果为假)的复原的视频帧块继续输入到生成网络中进行复原,这就构成了生成对抗网络。
S4:训练生成对抗网络模型,得到训练好的生成对抗网络模型;
通过失真视频帧块训练生成网络,得到训练好的生成网络;
将复原的视频帧块和原始参考视频帧块作为输入训练判别网络,得到训练好的判别网络;
训练生成对抗网络模型时,网络模型参数初始化设置为:训练批量大小(batchsize)设为10,生成网络的损失函数设为均方误差(mse)函数;判别网络的损失函数设为二分类交叉熵(binary_crossentropy)函数;
当生成网络训练完成后,具有恢复视频帧块分辨率的能力,实验中将一定量的视频切块后通过该网络恢复其分辨率,接着利用显著性检测算法得到已恢复分辨率的帧块的显著图,最后将失真的视频帧块与对应的高分辨率的显著图送入视频质量评价网络进行训练。
S5:对于判别网络判断为属于参考视频帧块(即在判别网络中判别结果为真)的复原的视频帧块,获取其显著图,记做复原视频帧块的显著图;
对于判别网络判断为属于参考视频帧块的复原的视频帧块,采用视频显著性检测算法LC算法进行显著性检测,获取复原的视频帧块的显著图;获取的复原视频帧块的显著图大小为48x48像素。
本发明技术方案中,采用视频显著性检测算法LC算法(Luminance Contrast算法)对复原的视频帧块进行显著性检测。由于人眼对对比度较为敏感,因此分辨物体的边缘信息的能力较强;以该特性为基础,LC算法利用图像的颜色统计得到空间显著图。图像的显著性映射建立在图像像素之间的灰度对比度上,即某像素的显著性值为该像素与图中所有像素在灰度值上的距离之和。
显著性检测方法包括基于局部对比对的显著性检测方法与基于全局对比度的计算方法;与基于局部对比度的方法相比,基于全局对比度的显著性检测方法通过与整体图像的对比度估计一个图像区域的显著性,忽视图像各部分之间的空间关系,对可靠、一致的显著性检测起到决定性作用,所以本发明的技术方案选择全局对比度的计算方式对图像的特征进行提取;因为全局对比度的计算代价一般较大,而本发明的技术方案中使用LC算法提取图像特征,利用直方图对像素按照特征值进行归类;同时提前计算两个像素之间的距离矩阵、记录已经计算的特征值的显著值,避免了重复计算,确保了本发明中提取图像的显著特征具有较高的计算速度,确保整个技术方案具有较高的执行效率。
S6:构建并训练视频质量评价网络模型;
视频质量评价网络模型的输入为失真视频帧块和与其对应的复原视频帧块的显著图;
将失真视频帧块和与其对应的复原视频帧块的显著图进行融合拼接,失真视频帧块参数是48x48x3,显著图缩小为48x48x3,通道这个维度融合变成48x48x6;将尺寸为48x48x6的融合图输入到视频质量评价网络模型中,提取融合图的空域特征,再利用视频质量评价网络模型中的全连接层预测失真视频帧块的质量分数,得到失真视频帧块对应的质量分数;
视频质量评价网络模型包括5个卷积层,2个池化层以及1个全连接层;在第二个卷积层和第三个卷积层之间设置一个池化层,在第四个卷积层和第五个卷积层之间设置一个池化层,全连接层设置在第五个卷积层之后;每个卷积层都采用3×3大小的卷积核,每个池化层采用最大池化,全连接层单元个数设置为1;视频质量评价网络模型的参数初始化设置为:学习率设为0.00001,训练批量大小(batchsize)设为10,网络中偏置项进行全零初始化;详细参照下面表3:
表3视频质量评价网络详细参数
操作类型 | 参数信息 | 输入 | 输出数据维度 |
卷积层(conv1) | k=3;n=64;s=1;ReLU | 图像(48*48*6) | 48*48*64 |
卷积层(conv2) | k=3;n=64;s=1;ReLU | conv1(48*48*64) | 48*48*64 |
最大池化层(max pooling1) | pool size=2;strides=2 | conv2(48*48*64) | 24*24*64 |
卷积层(conv3) | k=3;n=64;s=1;ReLU | max pooling1(24*24*64) | 24*24*64 |
卷积层(conv4) | k=3;n=64;s=1;ReLU | conv3(24*24*64) | 24*24*64 |
最大池化层(max pooling2) | pool size=2;strides=2 | conv4(24*24*64) | 12*12*64 |
卷积层(conv5) | k=3;n=9;s=1;ReLU | max pooling2(12*12*64) | 12*12*9 |
全连接层(fc) | u=1 | conv5(1296) | 1 |
将失真视频帧块和与其对应的复原视频帧块的显著图训练视频质量评价网络模型,获得训练好的视频质量评价网络模型;
训练过程中,首先,将失真视频帧块与复原视频帧块的显著图融合拼接,然后利用视频质量评价网络提取融合图的空域特征,最后利用全连接层预测失真视频帧块的质量分数。
S7:将待评价失真视频进行抽帧、切块和压缩,得到所有的待评价失真视频帧块;
将每一个待评价失真视频帧块输入到训练好的生成对抗网络模型中,获得其对应的复原视频帧块;基于复原视频帧块提取待评价显著图;将待评价失真视频帧块、待评价显著图输入到训练好的视频质量评价网络模型中,得到待评价失真视频帧块对应的质量分数;
待评价失真视频的质量分数为所有的待评价失真视频帧块的质量分数的平均值;因为待评价失真视频包含很多失真视频帧,每一帧的失真情况不同,其经视频质量评价网络评价后的质量分数也不相同,本发明技术方案中,取所有所有的待评价失真视频帧块的质量分数的平均值作为待评价失真视频的质量分数,即确保了待评价失真视频的质量分数的真实性,且确保了方案的简单易懂,容易实现,使方案更具实用性。
基于一种基于生成对抗网络的无参考视频质量评价方法的评价装置,其包括视频帧格式转换模块1、生成对抗网络模块2、显著性检测模块3、质量评价模块4其结构详细如图4所示。
视频帧格式转换模块1用于将视频帧的格式转换成指定的图片格式;本实施例中,将YUV格式的视频帧转换成RGB图像的格式;其中转换的方式可以使用任何一种已经公开的格式转换方法实现此功能;本实施例中,采用如下方法:
其中,Y、U、V、R、G、B的取值范围为[0,255]。
生成对抗网络模块2基于生成对抗网络模型恢复失真视频帧块的分辨率,得到失真视频帧块对应的复原的视频帧块;生成网络模块和判别网络模块构成了生成对抗网络模块2;
显著性检测模块3用于对复原的视频帧块进行显著性检测,得到复原视频帧块的显著图;
质量评价模块4,基于视频质量评价网络模型,用于根据预设规则依次对失真视频帧块和复原视频块显著图的融合图的质量进行评价,得到失真视频帧块对应的质量分数。
本发明中提供的无参考视频质量评价方法是通过对待评价失真视频的视频帧块进行质量评估实现的,首先将YUV格式的视频帧转换成RGB图像的格式;
然后在视频帧格式转换模块1中,将得到的失真视频帧、原始参考视频帧切块,每块大小为192×192像素,并将失真视频帧缩小为48×48像素,得到失真视频帧块、原始参考视频帧块。
评价装置还包括生成对抗网络模型训练模块和视频质量评价网络模型训练模块。
基于视频帧格式转换模块1得到失真视频帧块之后,随机采用预先训练的生成对抗网络模块2依次进行恢复,得到复原的视频帧块。
生成对抗网络模型训练模块包括:生成对抗网络模型构建单元、生成对抗网络训练集构建单元、生成对抗网络训练单元;在训练生成对抗网络的过程中,首先,通过生成对抗网络模型构建单元构建生成对抗网络,然后通过生成对抗网络训练集构建单元构建训练数据集,训练数据集包括失真视频帧块和参考视频帧块;最后,训练单元采用有监督的训练方法对生成对抗网络模块2中的生成对抗网络模型进行训练。在训练过程中,生成对抗网络模块2的输入为失真视频帧块和原始参考视频帧块,输出为复原的视频帧块,以此训练得到生成对抗网络模块2。
使用生成对抗网络模块2对失真视频帧块进行恢复得到复原的视频帧块之后,显著性检测模块3采用LC算法对复原的视频帧块进行显著性检测,LC算法的计算公式如下:
其中,Ii、Ik为图像中的第i个、第k个像素,Ii的取值范围为[0,255],||.||表示灰度距离度量;
使用显著性检测模块3对复原的视频帧块进行显著性检测,得到其对应的显著图之后,将显著图缩小为48×48像素,之后采用预先训练好的视频质量评价网络将待评价的失真视频帧块进行质量评估,得到质量分数。
视频质量评价网络模型训练模块包括:视频质量评价网络模型构建单元、视频质量评价网络训练集构建单元、视频质量评价网络训练单元;在训练质量评价模块4中,视频质量评价网络的过程中,首先,通过视频质量评价网络模型构建单元构建视频质量评价网络;然后,通过视频质量评价网络训练集构建单元构建训练数据集,训练数据集包括失真视频帧块和与其对应的复原视频帧块的显著图;最后视频质量评价网络训练单元采用有监督的训练方法对视频质量评价网络进行训练。在训练过程中,视频质量评价网络的输入为失真视频帧块和与其对应的复原视频帧块的显著图,输出为失真视频帧块的质量分数,以此训练得到视频质量评价网络。
在利用训练好的质量评价模块4对待评价失真视频进行评价的过程中,将待评价失真视频帧块和与其对应的复原视频帧块的显著图输入训练好的质量评价模块4中,即可得到待评价失真视频帧块的质量分数;待评价失真视频的质量分数为所有的待评价失真视频帧块的质量分数的平均值。
为了验证本发明方法的效果,基于在美国德州大学Austin分校LIVE实验室图像质量评价数据库(http://live.ece.utexas.edu/research/quality/)进行测试,该数据库中共有150个失真视频,选取这150个失真视频进行实验。将本发明的技术方案,与目前主流的全参考方法ViS3和无参考方法V-BLIINDS针对单一类型的失真进行比较,具体实验结果如下面的表4所示:
表4不同算法在LIVE视频库上针对单一类型失真的SROCC值对比
H.264 | MPEG-2 | |
ViS3 | 0.7664 | 0.7951 |
V-BLIINDS | 0.8587 | 0.8647 |
本发明 | 0.8736 | 0.8872 |
目前常用斯皮尔曼秩序相关系数(SROCC)这个指标检验视频的主观质量分数和客观预测结果之间的相关度,SROCC主要评价的是两组数据的等级相关性,取值范围为[-1,1],它的绝对值越接近1,表明算法的效果越好。如上表4中的结果所示,本发明的技术方案对于H.264压缩失真和MPEG-2压缩导致的失真视频的评价效果较好。因为在本发明的技术方案中,生成对抗网络恢复了失真视频帧块的分辨率,使得网络模型对于因压缩造成的分辨率降低的失真视频有很好的评价结果,并且提取了复原视频帧块的显著图,符合人眼的视觉特性,使得模型的性能更优。
Claims (10)
1.一种基于生成对抗网络的无参考视频质量评价方法,其包括以下步骤:
S1:获取失真视频和原始参考视频,分别抽取所述失真视频、所述原始参考视频的视频帧,得到失真视频帧、原始参考视频帧;将所述失真视频帧、所述原始参考视频帧的格式转换成指定的图片格式;
其特征在于:
S2:分别按照指定的像素数将所述失真视频帧、所述原始参考视频帧切块,同时将切块后的失真视频帧按照指定的压缩比率进行压缩,获得失真视频帧块、原始参考视频帧块;
S3:构建生成对抗网络模型;所述生成对抗网络模型包括:生成网络、判别网络;
所述生成网络的输入为所述失真视频帧块,通过卷积和上采样得到所述失真视频帧块对应的复原的视频帧块;
所述判别网络的输入为所述生成网络生成的所述复原的视频帧块;
所述判别网络判断所述复原的视频帧块是否属于参考视频帧块;对于所述判别网络判断为不属于参考视频帧块的所述复原的视频帧块继续输入到所述生成网络中进行复原;
S4:训练所述生成对抗网络模型,得到训练好的所述生成对抗网络模型;
通过所述失真视频帧块训练所述生成网络,得到训练好的所述生成网络;
将所述复原的视频帧块和所述原始参考视频帧块作为输入训练所述判别网络,得到训练好的所述判别网络;
S5:对于所述判别网络判断为属于参考视频帧块的所述复原的视频帧块,获取其显著图,记做复原视频帧块的显著图;
S6:构建并训练视频质量评价网络模型;
所述视频质量评价网络模型的输入为所述失真视频帧块和与其对应的所述复原视频帧块的显著图;
将所述失真视频帧块和与其对应的所述复原视频帧块的显著图进行融合拼接,输入到所述视频质量评价网络模型中,提取融合图的空域特征后,利用所述视频质量评价网络模型中的全连接层预测失真视频帧块的质量分数,得到所述失真视频帧块对应的质量分数;
将所述失真视频帧块和与其对应的所述复原视频帧块的显著图训练所述视频质量评价网络模型,获得训练好的所述视频质量评价网络模型;
S7:将待评价失真视频进行抽帧、切块和压缩,得到所有的待评价失真视频帧块;
将每一个所述待评价失真视频帧块输入到训练好的所述生成对抗网络模型中,获得其对应的复原视频帧块;基于所述复原视频帧块提取待评价显著图;将所述待评价失真视频帧块、所述待评价显著图输入到训练好的所述视频质量评价网络模型中,得到所述待评价失真视频帧块对应的质量分数;
所述待评价失真视频的质量分数为所有的所述待评价失真视频帧块的质量分数的平均值。
2.根据权利要求1所述一种基于生成对抗网络的无参考视频质量评价方法,其特征在于:所述生成网络包括3个卷积层、20个残差模块、2个上采样模块;在第一个卷积层和第二个卷积层之间设置20个所述残差模块,在第二个卷积层和第三个卷积层之间设置2个所述上采样模块;每个所述残差模块包括依次连接的2个卷积层,每个所述上采样模块包括依次连接的1个卷积层和1个上采样层;每个卷积层都采用3×3大小的卷积核;
所述判别网络包括依次连接的11个卷积层和2个全连接层;每个卷积层都采用3×3大小的卷积核,所述判别网络中第一个全连接层单元个数设置为512,第二个全连接层单元个数设置为1。
3.根据权利要求1所述一种基于生成对抗网络的无参考视频质量评价方法,其特征在于:步骤S4中,训练所述生成对抗网络模型时,网络模型参数初始化设置为:训练批量大小设为10,所述生成网络的损失函数设为均方误差函数,所述判别网络的损失函数设为二分类交叉熵函数。
4.根据权利要求1所述一种基于生成对抗网络的无参考视频质量评价方法,其特征在于:所述视频质量评价网络模型包括5个卷积层,2个池化层以及1个全连接层;在第二个卷积层和第三个卷积层之间设置一个池化层,在第四个卷积层和第五个卷积层之间设置一个池化层,全连接层设置在第五个卷积层之后;每个卷积层都采用3×3大小的卷积核,每个池化层采用最大池化,全连接层单元个数设置为1;所述视频质量评价网络模型的参数初始化设置为:学习率设为0.00001,训练批量大小设为10,网络中偏置项进行全零初始化。
5.根据权利要求1所述一种基于生成对抗网络的无参考视频质量评价方法,其特征在于:步骤S1中,基于所述失真视频、所述原始参考视频,每10帧抽取1帧得到所述失真视频帧、所述原始参考视频帧。
6.根据权利要求1所述一种基于生成对抗网络的无参考视频质量评价方法,其特征在于:步骤S2中,将所述失真视频帧、所述原始参考视频帧切块,每块大小为192×192像素;并将192×192像素大小的所述失真视频帧块压缩成48×48像素。
7.根据权利要求1所述一种基于生成对抗网络的无参考视频质量评价方法,其特征在于:步骤S5中,对于所述判别网络判断为属于参考视频帧块的所述复原的视频帧块,采用视频显著性检测算法LC算法进行显著性检测,获取所述复原的视频帧块的显著图;获取的所述复原视频帧块的显著图大小为48x48像素。
8.实现权利要求1所述一种基于生成对抗网络的无参考视频质量评价方法的评价装置,其特征在于,其包括:视频帧格式转换模块、生成对抗网络模块、显著性检测模块、质量评价模块;
所述视频帧格式转换模块用于将视频帧的格式转换成指定的图片格式,并按照指定的大小进行切块并压缩;
所述生成对抗网络模块基于所述生成对抗网络模型恢复失真视频帧块的分辨率,得到所述失真视频帧块对应的复原的视频帧块;
所述显著性检测模块用于对所述复原的视频帧块进行显著性检测,得到所述复原视频帧块的显著图;
所述质量评价模块基于所述视频质量评价网络模型,根据预设规则依次对失真视频帧块和复原视频块显著图的融合图的质量进行评价,得到所述失真视频帧块对应的质量分数。
9.根据权利要求8所述一种基于生成对抗网络的无参考视频质量评价方法,其特征在于:其还包括生成对抗网络模型训练模块,所述生成对抗网络模型训练模块包括:生成对抗网络模型构建单元、生成对抗网络训练集构建单元、生成对抗网络训练单元;
所述生成对抗网络模型构建单元用于构建所述生成对抗网络模型;
所述生成对抗网络训练集构建单元用于构建生成对抗网络训练数据集,所述生成对抗网络训练数据集中包括所述失真视频帧块和所述原始参考视频帧块;
所述生成对抗网络训练单元用于采用有监督的训练装置对所述生成对抗网络模型进行训练,在训练过程中,所述生成对抗网络模型的输入为所述失真视频帧块和所述原始参考视频帧块,输出为所述复原的视频帧块。
10.根据权利要求8所述一种基于生成对抗网络的无参考视频质量评价方法,其特征在于:其还包括视频质量评价网络模型训练模块,所述视频质量评价网络模型训练模块包括:视频质量评价网络模型构建单元、视频质量评价网络训练集构建单元、视频质量评价网络训练单元;
所述视频质量评价网络模型构建单元用于构建所述视频质量评价网络模型;
所述视频质量评价网络训练集构建单元用于构建视频质量评价网络模型训练数据集,所述视频质量评价网络模型训练数据集中包括所述失真视频帧块和与其对应的所述复原视频帧块的显著图;
所述视频质量评价网络训练单元用于采用有监督的训练装置对所述视频质量评价网络模型进行训练,在训练过程中,所述视频质量评价网络模型的输入为所述失真视频帧块和与其对应的所述复原视频帧块的显著图,输出为所述失真视频帧块对应的质量分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010161674.5A CN111369548B (zh) | 2020-03-10 | 2020-03-10 | 一种基于生成对抗网络的无参考视频质量评价方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010161674.5A CN111369548B (zh) | 2020-03-10 | 2020-03-10 | 一种基于生成对抗网络的无参考视频质量评价方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111369548A CN111369548A (zh) | 2020-07-03 |
CN111369548B true CN111369548B (zh) | 2023-06-06 |
Family
ID=71208778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010161674.5A Active CN111369548B (zh) | 2020-03-10 | 2020-03-10 | 一种基于生成对抗网络的无参考视频质量评价方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369548B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112004078B (zh) * | 2020-08-20 | 2021-09-03 | 厦门大学 | 基于生成对抗网络的虚拟现实视频质量评价方法及系统 |
CN114189695B (zh) * | 2020-09-14 | 2023-02-10 | 四川大学 | 一种基于gan的hevc压缩视频视觉感知提升方法 |
CN113255789B (zh) * | 2021-05-31 | 2023-01-24 | 西安电子科技大学 | 基于对抗网络和多被试脑电信号的视频质量评价方法 |
CN115510271B (zh) * | 2021-06-23 | 2024-04-30 | 南京中科逆熵科技有限公司 | 一种面向内容的动画视频无参考质量评价方法 |
CN113688776B (zh) * | 2021-09-06 | 2023-10-20 | 北京航空航天大学 | 一种用于跨视场目标重识别的时空约束模型构建方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108090902B (zh) * | 2017-12-30 | 2021-12-31 | 中国传媒大学 | 一种基于多尺度生成对抗网络的无参考图像质量客观评价方法 |
CN108648188B (zh) * | 2018-05-15 | 2022-02-11 | 南京邮电大学 | 一种基于生成对抗网络的无参考图像质量评价方法 |
US20200021815A1 (en) * | 2018-07-10 | 2020-01-16 | Fastvdo Llc | Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (vqa) |
CN110363716B (zh) * | 2019-06-25 | 2021-11-19 | 北京工业大学 | 一种基于条件生成对抗网络复合降质图像高质量重建方法 |
CN110517237B (zh) * | 2019-08-20 | 2022-12-06 | 西安电子科技大学 | 基于膨胀三维卷积神经网络的无参考视频质量评价方法 |
CN110689599B (zh) * | 2019-09-10 | 2023-05-19 | 上海大学 | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 |
-
2020
- 2020-03-10 CN CN202010161674.5A patent/CN111369548B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111369548A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111369548B (zh) | 一种基于生成对抗网络的无参考视频质量评价方法及装置 | |
Ying et al. | Patch-vq:'patching up'the video quality problem | |
Xu et al. | No-reference video quality assessment via feature learning | |
Ji et al. | Robust video denoising using low rank matrix completion | |
EP2326091B1 (en) | Method and apparatus for synchronizing video data | |
CN110689482A (zh) | 一种基于有监督逐像素生成对抗网络的人脸超分辨率方法 | |
Huang et al. | Measure and prediction of HEVC perceptually lossy/lossless boundary QP values | |
CN111402237B (zh) | 基于时空级联自编码器的视频图像异常检测方法及系统 | |
CN114463218B (zh) | 一种基于事件数据驱动的视频去模糊方法 | |
US20230127009A1 (en) | Joint objects image signal processing in temporal domain | |
CN111815528A (zh) | 基于卷积模型和特征融合的恶劣天气图像分类增强方法 | |
CN111079864A (zh) | 一种基于优化视频关键帧提取的短视频分类方法及系统 | |
Zhu et al. | Towards automatic wild animal detection in low quality camera-trap images using two-channeled perceiving residual pyramid networks | |
Gupta et al. | Video authentication in digital forensic | |
US20110085026A1 (en) | Detection method and detection system of moving object | |
Tu et al. | Efficient user-generated video quality prediction | |
Zheng et al. | No-reference quality assessment of variable frame-rate videos using temporal bandpass statistics | |
Fonseca et al. | Face detection in the compressed domain | |
Mittal et al. | No-reference approaches to image and video quality assessment | |
US20230010085A1 (en) | Automatic visual media transmission error assessment | |
CN116524387A (zh) | 一种基于深度学习网络的超高清视频压缩损伤等级评估方法 | |
Wang et al. | Spatio-temporal ssim index for video quality assessment | |
El-Yamany et al. | A generic approach CNN-based camera identification for manipulated images | |
Moorthy et al. | A motion compensated approach to video quality assessment | |
Wan et al. | A video forensic technique for detecting frame integrity using human visual system-inspired measure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |