CN113313683A - 基于元迁移学习的无参考视频质量评价方法 - Google Patents
基于元迁移学习的无参考视频质量评价方法 Download PDFInfo
- Publication number
- CN113313683A CN113313683A CN202110589228.9A CN202110589228A CN113313683A CN 113313683 A CN113313683 A CN 113313683A CN 202110589228 A CN202110589228 A CN 202110589228A CN 113313683 A CN113313683 A CN 113313683A
- Authority
- CN
- China
- Prior art keywords
- video
- quality evaluation
- distortion
- equal
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013508 migration Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000005012 migration Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 25
- 238000011176 pooling Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000013526 transfer learning Methods 0.000 abstract description 5
- 238000012546 transfer Methods 0.000 abstract 2
- 238000011156 evaluation Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000005693 optoelectronics Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
- H04N17/004—Diagnosis, testing or measuring for television systems or their details for digital television systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Abstract
本发明提出了一种基于元迁移学习的无参考视频质量评价方法,实现步骤为:获取预训练集、元训练支持集和查询集;构建图像质量评价网络模型G;对图像质量评价网络模型G进行迭代训练;构建基于元迁移的视频质量评价网络模型H;对视频质量评价网络模型H进行元训练;获取视频质量评价结果。本发明将预训练好的图像质量评价网络模型的图像失真特征提取模块的结构及权值参数迁移到视频质量评价网络模型的特征提取网络,并为特征提取网络最后一个卷积层的卷积核分配可元训练的缩放系数,解决了现有技术迁移后的模型提取的特征与视频失真特征差异较大和模型在训练时所需更新的参数量很大的问题,提高了基于元迁移学习的无参考视频质量评价的准确度和效率。
Description
技术领域
本发明属于视频处理技术领域,涉及一种视频质量评价方法,具体涉及一种基于元迁移学习的无参考视频质量评价方法,可用于对无参考的视频质量进行客观评价,进而对视频质量的改善进行指导。
背景技术
近些年来,随着互联网技术的快速发展,视频相关的应用数量呈指数增长,数字视频逐渐融入人类的工作和生活之中。例如短视频、视频会议、VR、数字影院等应用使人们更方便高效地学习、办公、娱乐,享受视频技术带来的便捷,与此同时,终端设备和视频应用的普及也使人们对视频质量的要求越来越高。但是,视频需要历经采集、压缩、传输、解压和存储等环节,才能被用户观看,在此期间,由于成像系统、拍摄手段、压缩算法、传输方式和存储设备等可能存在问题,视频通常会产生不同程度的失真和降质,影响用户的观看体验。因此,研究能够准确高效地对视频质量进行评价的方法具有重要的意义。
视频质量评价是通过人观看视频进行主观打分或建立数学模型对视频进行客观打分的过程,根据评价主体的不同,视频质量评价可以分为主观视频质量评价和客观视频质量评价。主观视频质量评价是指被试者在无外界干扰的实验室环境下,根据设定好的评价标准,对待测视频的质量进行评价;客观视频质量评价是通过模拟人眼和大脑的视觉认知过程,设计能够准确反映视频主观质量的客观评价模型,对待测视频的质量进行评价。与主观视频质量评价相比,客观视频质量评价具有成本低、效率高、稳定性强等优点,成为视频质量评价领域的研究重点。
按照客观视频质量评价对原始视频的依赖程度,又可以分为全参考视频质量评价方法、部分参考视频质量评价方法和无参考视频质量评价方法三类。全参考视频质量评价方法需要参考原始视频的全部信息,用于对比失真视频与原始视频之间各类数据的差异,来评价失真视频质量;部分参考视频质量评价方法需要原始视频的部分信息作为参考,是介于全参考和无参考方法之间的一种方法;无参考视频质量评价方法不需要参考任何的原始视频信息,能更加灵活、实时地评价视频质量,而且大部分失真视频的原始视频都无法获得,全参考和部分参考视频质量评价方法无法用于对这些无原始视频的失真视频进行质量评价,所以无参考视频质量评价方法最具研究和应用价值。
迁移学习是利用数据、任务或模型之间的相似性,将从旧领域学习到的先验知识迁移到新领域的一种方法,缓解了深度学习模型对数据量要求很大的问题。与迁移学习类似,元学习也是解决模型泛化能力不足、对新任务适应性差的问题,但元学习更加强调新任务的小样本属性,追求在新任务上使用更少的算力和数据来完成目标任务。而元迁移学习将迁移学习与元学习相结合,通过迁移学习,采用预训练的网络,增强模型提取当前数据集潜在统一分布的能力,分摊元训练阶段的学习压力;而且对经过预训练的卷积核进行参数固定,并为其分配可以学习的权重,减少每次元训练时被更新的参数量,降低模型的训练难度。
在无参考视频质量评价方法中,难以获取大量带标签的视频数据,而且直接使用少量的视频数据进行训练又很容易造成无参考视频质量评价网络模型的过拟合,训练得到的模型在面对特定失真类型时性能表现不佳,评价精度较低。
为了避免缺乏带标签的视频数据带来的不利影响以及提高模型的评价精度,基于迁移学习的视频质量评价方法应运而生,例如张浩和桑庆兵等人于2018年在《激光与光电子学进展》上发表的论文《基于迁移学习的无参考视频质量评价》中,公开了一种基于迁移学习的无参考视频质量评价方法。该方法首先对失真视频进行分块,然后借鉴VGG-16网络结构,迁移VGG-16网络的卷积层参数,构建视频质量评价模型来提取每个视频子块的特征并预测其质量得分,最后通过求所有视频子块的平均得分得到整个视频质量的预测得分,一定程度上缓解了视频训练样本过少的带来的问题。但其存在的不足之处在于,VGG-16网络原本的目标任务是图像内容分类,与质量评价任务相关性小,迁移后的视频质量评价模型提取的特征与视频失真特征相比存在较大的偏差,而且,模型在训练时所需要更新的参数数量很大,使得模型在面对不同种类的失真视频时评价准确度较差、效率较低。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷,提出了一种基于元迁移学习的无参考视频质量评价方法,用于解决现有技术中存在的评价准确度较差、效率较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取预训练集、元训练支持集和查询集:
(1a)获取自然图像公知数据集中I幅失真图像及每幅失真图像的主观质量标签组成预训练集S={(xi,yi)|1≤i≤I},其中,xi和yi分别表示第i幅失真图像及其对应的主观质量标签,I>3000;
(1b)对从自然视频公知数据集中获取的包含C个失真类型的N个无参考失真视频集合Sv1={X(n)|1≤n≤N}及其对应的主观质量标签集合Yv1={Y(n)|1≤n≤N}进行预处理,得到N个预处理后的视频帧序列集合Sv2={X'(n)|1≤n≤N}及其对应的主观质量标签集合Yv2={Y'(n)|1≤n≤N},然后依据每个视频X(n)的失真类型,将Sv2划分为C个任务T={Tc|1≤c≤C},其中,C≥4,N≥150,X(n)和Y(n)分别表示第n个无参考失真视频及其对应的主观质量标签,X'(n)和Y'(n)分别表示X(n)和Y(n)的预处理结果,Tc表示第c个任务;
(1c)对每个任务Tc中的每个视频帧序列进行M次的时域均匀采样,并将随机选取的每个任务Tc中半数以上的采样后视频帧序列及其对应视频的主观质量标签组成元训练支持集Btrain,将剩余的采样后视频帧序列及其对应视频的主观质量标签组成查询集Btest,其中M≥16;
(2)构建图像质量评价网络模型G:
构建包含顺次连接的图像失真特征提取模块和全连接模块的图像质量评价网络模型G,其中图像失真特征提取模块包括多个卷积层、多个最大池化层和多个非局部单元,全连接模块包括多个全连接层,图像失真特征提取模块的权值参数为Θ,全连接模块的权值参数为θ;
(3)对图像质量评价网络模型G进行迭代训练:
(3a)设迭代次数为t,最大迭代次数为T,T≥50,当前图像质量评价网络模型为Gt,并令t=1,Gt=G;
(3b)将预训练集S作为图像质量评价网络模型Gt的输入,图像失真特征提取模块对每幅失真图像xi进行交替的卷积、池化和非局部操作,得到每幅失真图像xi的失真特征向量;全连接模块对每幅失真图像xi的失真特征向量进行全连接操作,得到I幅失真图像的质量评价预测分数集合其中,表示xi的质量评价预测分数;
(3c)采用最小绝对误差LAE函数,通过质量评价预测分数及其对应的主观质量标签yi计算Gt的损失值并采用反向传播方法,通过损失值计算图像失真特征提取模块的权值参数Θt的梯度和全连接模块的权值参数θt的梯度然后采用梯度下降法,通过梯度和梯度对Θt和θt进行更新,得到第t次迭代的图像质量评价网络模型Gt;
(3d)判断t=T是否成立,若是,得到预训练好的图像质量评价网络模型G*,否则,令t=t+1,并执行步骤(3b);
(4)构建基于元迁移的视频质量评价网络模型H:
去除预训练好的图像质量评价网络模型G*中的全连接模块,同时冻结G*中图像失真特征提取模块的结构和权值参数Θ*后,将G*中图像失真特征提取模块的结构和权值参数Θ*迁移到视频失真特征提取网络中,并为视频失真特征提取网络的最后一个卷积层的卷积核分配可进行元训练的缩放系数φ,得到元迁移视频失真特征提取网络,然后对元迁移视频失真特征提取网络的输出端级联一个包括级联的门控循环单元和全连接层的时间聚合器,得到视频质量评价网络模型H;
(5)对视频质量评价网络模型H进行元训练:
(5a)设迭代次数为j,最大迭代次数为J,J≥50,当前视频质量评价网络模型为Hj,并令j=1,Hj=H;
(5b)将元训练支持集Btrain作为Hj的输入,元迁移视频失真特征提取网络对每个采样后视频帧序列进行特征提取,得到每个采样后视频帧序列的失真特征向量组;时间聚合器对每个采样后视频帧序列的失真特征向量组进行时间聚合,得到视频质量评价预测分数Pj;
(5c)采用最小绝对误差LAE函数,通过视频质量评价预测分数Pj及其对应的主观质量标签计算Hj的损失值并采用反向传播方法,通过损失值计算元迁移视频失真特征提取网络的最后一个卷积层的卷积核的缩放系数φj的梯度和时间聚合器参数的梯度然后采用梯度下降法,通过梯度和梯度对φj和进行更新,得到第j次迭代的视频质量评价网络模型Hj;
(5d)判断j=J是否成立,若是,得到训练好的视频质量评价网络模型H*,否则,令j=j+1,并执行步骤(5b);
(6)获取视频质量评价结果:
将查询集Btest作为训练好的视频质量评价网络模型H*的输入,元迁移视频失真特征提取网络对每个采样后视频帧序列进行特征提取,得到每个采样后视频帧序列的失真特征向量组;时间聚合器对每个采样后视频帧序列的失真特征向量组进行时间聚合,得到视频质量评价预测分数P。
本发明与现有技术相比,具有如下优点:
1.本发明在构建基于元迁移的视频质量评价网络模型时,由于是将预训练好的图像质量评价网络模型的图像失真特征提取模块的结构及其权值参数迁移到视频质量评价网络模型的视频失真特征提取网络,避免了现有技术中迁移与质量评价任务相关性小的VGG-16网络,导致迁移后的视频质量评价模型提取的特征与视频失真特征相比存在较大偏差的问题,提高了基于元迁移学习的无参考视频质量评价的准确度。
2.本发明在对视频质量评价网络模型进行元训练时,由于只需要更新元迁移视频失真特征提取网络的最后一个卷积层的卷积核的缩放系数和时间聚合器参数,解决了现有技术中视频质量评价模型在训练时所需要更新的参数数量很大的问题,提高了基于元迁移学习的无参考视频质量评价的效率。
附图说明
图1是本发明的实现流程图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述。
参照图1,本发明包括如下步骤:
步骤1)获取预训练集、元训练支持集和查询集:
步骤1a)获取自然图像公知数据集中I幅失真图像及每幅失真图像的主观质量标签组成预训练集S={(xi,yi)|1≤i≤I},其中,xi和yi分别表示第i幅失真图像及其对应的主观质量标签,本实例中,I=3599;
步骤1b)对从自然视频公知数据集中获取的包含C个失真类型的N个无参考失真视频集合Sv1={X(n)|1≤n≤N}及其对应的主观质量标签集合Yv1={Y(n)|1≤n≤N}进行预处理:将无参考失真视频集合Sv1中的每个无参考失真视频X(n)的亮度通道映射到[0,1]区间,并将X(n)对应的主观质量标签Y(n)映射到[0,100]区间,得到N个预处理后的视频帧序列集合Sv2={X'(n)|1≤n≤N}及其对应的主观质量标签集合Yv2={Y'(n)|1≤n≤N},然后依据每个视频X(n)的失真类型,将Sv2划分为C个任务T={Tc|1≤c≤C}。本实例中,C=6,N=216,X(n)和Y(n)分别表示第n个无参考失真视频及其对应的主观质量标签,X'(n)和Y'(n)分别表示X(n)和Y(n)的预处理结果,Tc表示第c个任务;
步骤1c)对每个任务Tc中的每个视频帧序列进行M次的时域均匀采样,并将随机选取的每个任务Tc中半数以上的采样后视频帧序列及其对应视频的主观质量标签组成元训练支持集Btrain,将剩余的采样后视频帧序列及其对应视频的主观质量标签组成查询集Btest,本实例中,M=16;
步骤2)构建图像质量评价网络模型G:
构建包含顺次连接的图像失真特征提取模块和全连接模块的图像质量评价网络模型G,其中:
图像失真特征提取模块,包含卷积层的数量为5个,卷积层的卷积核大小都设置为5×5;最大池化层的数量为3个,第1、2最大池化层的卷积核大小设置为5×5,第3最大池化层设置为全局最大池化;非局部单元的数量为2个;该图像失真特征提取模块的具体结构为:第1卷积层→第2卷积层→第1最大池化层→非局部单元→第3卷积层→第4卷积层→第2最大池化层→非局部单元→第5卷积层→第3最大池化层;此模块中,卷积层用于提炼图像的失真特征,最大池化层用于去除与失真无关的冗余信息,非局部单元用于捕捉失真特征在空间维度的关联;
全连接模块,包含全连接层的数量为2个,第1、2全连接层的长度分别设置为512和128;该全连接模块的具体结构为:第1全连接层→第2全连接层;此模块中,全连接层用于将图像的失真特征向量回归到图像最终的质量评价预测分数;
图像失真特征提取模块的权值参数为Θ,具体是指图像失真特征提取模块中卷积层的权值参数;全连接模块的权值参数为θ;
步骤3)对图像质量评价网络模型G进行迭代训练:
步骤3a)设迭代次数为t,最大迭代次数为T,本实例中,T=50,当前图像质量评价网络模型为Gt,并令t=1,Gt=G;
步骤3b)将预训练集S作为图像质量评价网络模型Gt的输入,图像失真特征提取模块对每幅失真图像xi进行交替的卷积、池化和非局部操作,得到每幅失真图像xi的失真特征向量;全连接模块对每幅失真图像xi的失真特征向量进行全连接操作,得到I幅失真图像的质量评价预测分数集合其中,表示xi的质量评价预测分数;
步骤3c)采用最小绝对误差LAE函数,通过质量评价预测分数及其对应的主观质量标签yi计算Gt的损失值并采用反向传播方法,通过损失值计算图像失真特征提取模块的权值参数Θt的梯度和全连接模块的权值参数θt的梯度然后采用梯度下降法,通过梯度和梯度对Θt和θt进行更新,得到第t次迭代的图像质量评价网络模型Gt;
步骤3d)判断t=T是否成立,若是,得到预训练好的图像质量评价网络模型G*,否则,令t=t+1,并执行步骤3b);
步骤4)构建基于元迁移的视频质量评价网络模型H:
去除预训练好的图像质量评价网络模型G*中的全连接模块,同时冻结G*中图像失真特征提取模块的结构和权值参数Θ*后,将G*中图像失真特征提取模块的结构和权值参数Θ*迁移到视频失真特征提取网络中,并为视频失真特征提取网络的最后一个卷积层的卷积核分配可进行元训练的缩放系数φ,得到元迁移视频失真特征提取网络,然后对元迁移视频失真特征提取网络的输出端级联一个包括级联的门控循环单元和全连接层的时间聚合器,得到视频质量评价网络模型H;
其中,φ用于判断元迁移视频失真特征提取网络在视频质量评价任务中的优劣;时间聚合器包含的门控循环单元的输入层尺寸和隐藏层尺寸分别为512和64,全连接层的长度为64;
由于是将预训练好的图像质量评价网络模型G*的图像失真特征提取模块的结构和权值参数Θ*迁移到视频失真特征提取网络中,预训练策略更合理,提高视频质量评价的准确度。
步骤5)对视频质量评价网络模型H进行元训练:
步骤5a)设迭代次数为j,最大迭代次数为J,本实例中,J=50,当前视频质量评价网络模型为Hj,并令j=1,Hj=H;
步骤5b)将元训练支持集Btrain作为Hj的输入,元迁移视频失真特征提取网络对每个采样后视频帧序列进行特征提取,得到每个采样后视频帧序列的失真特征向量组;门控循环单元对采样后视频帧序列在时间范围内帧与帧之间的依赖关系进行捕捉,并依据捕捉到的依赖关系对失真特征向量组进行聚合,得到采样后视频帧序列的依赖关系向量;全连接层对所聚合的依赖关系向量进行全连接操作,得到视频质量评价预测分数Pj。
步骤5c)采用最小绝对误差LAE函数,通过视频质量评价预测分数Pj及其对应的主观质量标签计算Hj的损失值并采用反向传播方法,通过损失值计算元迁移视频失真特征提取网络的最后一个卷积层的卷积核的缩放系数φj的梯度和时间聚合器参数的梯度然后采用梯度下降法,通过梯度和梯度对φj和进行更新,得到第j次迭代的视频质量评价网络模型Hj;
步骤5d)判断j=J是否成立,若是,得到训练好的视频质量评价网络模型H*,否则,令j=j+1,并执行步骤5b);
步骤6)获取视频质量评价结果:
将查询集Btest作为训练好的视频质量评价网络模型H*的输入,元迁移视频失真特征提取网络对每个采样后视频帧序列进行特征提取,得到每个采样后视频帧序列的失真特征向量组;时间聚合器对每个采样后视频帧序列的失真特征向量组进行时间聚合,得到视频质量评价预测分数P。
Claims (6)
1.一种基于元迁移学习的无参考视频质量评价方法,其特征在于,包括如下步骤:
(1)获取预训练集、元训练支持集和查询集:
(1a)获取自然图像公知数据集中I幅失真图像及每幅失真图像的主观质量标签组成预训练集S={(xi,yi)|1≤i≤I},其中,xi和yi分别表示第i幅失真图像及其对应的主观质量标签,I>3000;
(1b)对从自然视频公知数据集中获取的包含C个失真类型的N个无参考失真视频集合Sv1={X(n)|1≤n≤N}及其对应的主观质量标签集合Yv1={Y(n)|1≤n≤N}进行预处理,得到N个预处理后的视频帧序列集合Sv2={X'(n)|1≤n≤N}及其对应的主观质量标签集合Yv2={Y'(n)|1≤n≤N},然后依据每个视频X(n)的失真类型,将Sv2划分为C个任务T={Tc|1≤c≤C},其中,C≥4,N≥150,X(n)和Y(n)分别表示第n个无参考失真视频及其对应的主观质量标签,X'(n)和Y'(n)分别表示X(n)和Y(n)的预处理结果,Tc表示第c个任务;
(1c)对每个任务Tc中的每个视频帧序列进行M次的时域均匀采样,并将随机选取的每个任务Tc中半数以上的采样后视频帧序列及其对应视频的主观质量标签组成元训练支持集Btrain,将剩余的采样后视频帧序列及其对应视频的主观质量标签组成查询集Btest,其中M≥16;
(2)构建图像质量评价网络模型G:
构建包含顺次连接的图像失真特征提取模块和全连接模块的图像质量评价网络模型G,其中图像失真特征提取模块包括多个卷积层、多个最大池化层和多个非局部单元,全连接模块包括多个全连接层,图像失真特征提取模块的权值参数为Θ,全连接模块的权值参数为θ;
(3)对图像质量评价网络模型G进行迭代训练:
(3a)设迭代次数为t,最大迭代次数为T,T≥50,当前图像质量评价网络模型为Gt,并令t=1,Gt=G;
(3b)将预训练集S作为图像质量评价网络模型Gt的输入,图像失真特征提取模块对每幅失真图像xi进行交替的卷积、池化和非局部操作,得到每幅失真图像xi的失真特征向量;全连接模块对每幅失真图像xi的失真特征向量进行全连接操作,得到I幅失真图像的质量评价预测分数集合其中,表示xi的质量评价预测分数;
(3c)采用最小绝对误差LAE函数,通过质量评价预测分数及其对应的主观质量标签yi计算Gt的损失值并采用反向传播方法,通过损失值计算图像失真特征提取模块的权值参数Θt的梯度和全连接模块的权值参数θt的梯度然后采用梯度下降法,通过梯度和梯度对Θt和θt进行更新,得到第t次迭代的图像质量评价网络模型Gt;
(3d)判断t=T是否成立,若是,得到预训练好的图像质量评价网络模型G*,否则,令t=t+1,并执行步骤(3b);
(4)构建基于元迁移的视频质量评价网络模型H:
去除预训练好的图像质量评价网络模型G*中的全连接模块,同时冻结G*中图像失真特征提取模块的结构和权值参数Θ*后,将G*中图像失真特征提取模块的结构和权值参数Θ*迁移到视频失真特征提取网络中,并为视频失真特征提取网络的最后一个卷积层的卷积核分配可进行元训练的缩放系数φ,得到元迁移视频失真特征提取网络,然后对元迁移视频失真特征提取网络的输出端级联一个包括级联的门控循环单元和全连接层的时间聚合器,得到视频质量评价网络模型H;
(5)对视频质量评价网络模型H进行元训练:
(5a)设迭代次数为j,最大迭代次数为J,J≥50,当前视频质量评价网络模型为Hj,并令j=1,Hj=H;
(5b)将元训练支持集Btrain作为Hj的输入,元迁移视频失真特征提取网络对每个采样后视频帧序列进行特征提取,得到每个采样后视频帧序列的失真特征向量组;时间聚合器对每个采样后视频帧序列的失真特征向量组进行时间聚合,得到视频质量评价预测分数Pj;
(5c)采用最小绝对误差LAE函数,通过视频质量评价预测分数Pj及其对应的主观质量标签计算Hj的损失值并采用反向传播方法,通过损失值计算元迁移视频失真特征提取网络的最后一个卷积层的卷积核的缩放系数φj的梯度和时间聚合器参数的梯度然后采用梯度下降法,通过梯度和梯度对φj和进行更新,得到第j次迭代的视频质量评价网络模型Hj;
(5d)判断j=J是否成立,若是,得到训练好的视频质量评价网络模型H*,否则,令j=j+1,并执行步骤(5b);
(6)获取视频质量评价结果:
将查询集Btest作为训练好的视频质量评价网络模型H*的输入,元迁移视频失真特征提取网络对每个采样后视频帧序列进行特征提取,得到每个采样后视频帧序列的失真特征向量组;时间聚合器对每个采样后视频帧序列的失真特征向量组进行时间聚合,得到视频质量评价预测分数P。
2.根据权利要求1所述的基于元迁移学习的无参考视频质量评价方法,其特征在于:步骤(1b)中所述的对从自然视频公知数据集中获取的包含C个失真类型的N个无参考失真视频集合Sv1={X(n)|1≤n≤N}及其对应的主观质量标签集合Yv1={Y(n)|1≤n≤N}进行预处理,实现方法为:将无参考失真视频集合Sv1中的每个无参考失真视频X(n)的亮度通道映射到[0,1]区间,并将X(n)对应的主观质量标签Y(n)映射到[0,100]区间,得到X(n)和Y(n)的预处理结果X'(n)和Y'(n)。
3.根据权利要求1所述的基于元迁移学习的无参考视频质量评价方法,其特征在于:步骤(2)中所述的图像质量评价网络模型G,其中:
图像失真特征提取模块,包含卷积层的数量为5个,卷积层的卷积核大小都设置为5×5;最大池化层的数量为3个,第1、2最大池化层的卷积核大小设置为5×5,第3最大池化层设置为全局最大池化;非局部单元的数量为2个;该图像失真特征提取模块的具体结构为:第1卷积层→第2卷积层→第1最大池化层→非局部单元→第3卷积层→第4卷积层→第2最大池化层→非局部单元→第5卷积层→第3最大池化层;
全连接模块,包含全连接层的数量为2个,第1、2全连接层的长度分别设置为512和128;该全连接模块的具体结构为:第1全连接层→第2全连接层。
5.根据权利要求1所述的基于元迁移学习的无参考视频质量评价方法,其特征在于:步骤(4)中所述的时间聚合器,其包含的门控循环单元的输入层尺寸和隐藏层尺寸分别为512和64,全连接层的长度为64。
6.根据权利要求1所述的基于元迁移学习的无参考视频质量评价方法,其特征在于:步骤(5b)中所述的时间聚合器对每个采样后视频帧序列的失真特征向量组进行时间聚合,实现步骤为:门控循环单元对采样后视频帧序列在时间范围内帧与帧之间的依赖关系进行捕捉,并依据捕捉到的依赖关系对失真特征向量组进行聚合,得到采样后视频帧序列的依赖关系向量;全连接层对所聚合的依赖关系向量进行全连接操作,得到视频质量评价预测分数Pj。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110589228.9A CN113313683B (zh) | 2021-05-28 | 2021-05-28 | 基于元迁移学习的无参考视频质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110589228.9A CN113313683B (zh) | 2021-05-28 | 2021-05-28 | 基于元迁移学习的无参考视频质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313683A true CN113313683A (zh) | 2021-08-27 |
CN113313683B CN113313683B (zh) | 2023-03-24 |
Family
ID=77375940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110589228.9A Active CN113313683B (zh) | 2021-05-28 | 2021-05-28 | 基于元迁移学习的无参考视频质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313683B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743332A (zh) * | 2021-09-08 | 2021-12-03 | 中国科学院自动化研究所 | 基于通用视觉预训练模型的图像质量评价方法及系统 |
CN113936237A (zh) * | 2021-09-30 | 2022-01-14 | 中国矿业大学 | 基于对比自监督的无参考视频质量评估预测方法及系统 |
CN114612714A (zh) * | 2022-03-08 | 2022-06-10 | 西安电子科技大学 | 基于课程学习的无参考图像质量评价方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150078654A1 (en) * | 2013-09-13 | 2015-03-19 | Interra Systems, Inc. | Visual Descriptors Based Video Quality Assessment Using Outlier Model |
CN106303507A (zh) * | 2015-06-05 | 2017-01-04 | 江苏惠纬讯信息科技有限公司 | 基于时空联合信息的无参考视频质量评估方法 |
CN107959848A (zh) * | 2017-12-08 | 2018-04-24 | 天津大学 | 基于三维卷积神经网络的通用型无参考视频质量评价算法 |
CN109429051A (zh) * | 2017-07-12 | 2019-03-05 | 天津大学 | 基于多视图特征学习的无参考立体视频质量客观评价方法 |
CN109831664A (zh) * | 2019-01-15 | 2019-05-31 | 天津大学 | 基于深度学习的快速压缩立体视频质量评价方法 |
CN110517237A (zh) * | 2019-08-20 | 2019-11-29 | 西安电子科技大学 | 基于膨胀三维卷积神经网络的无参考视频质量评价方法 |
CN110599468A (zh) * | 2019-08-30 | 2019-12-20 | 中国信息通信研究院 | 无参考视频质量评估方法及装置 |
CN110689523A (zh) * | 2019-09-02 | 2020-01-14 | 西安电子科技大学 | 基于元学习个性化图像信息评价方法、信息数据处理终端 |
CN110728656A (zh) * | 2019-09-06 | 2020-01-24 | 西安电子科技大学 | 基于元学习的无参考图像质量数据处理方法、智能终端 |
CN112529866A (zh) * | 2020-12-08 | 2021-03-19 | 鲁能集团有限公司 | 一种基于深传输cnn结构的远程运维无参考视频质量评估方法 |
CN112785585A (zh) * | 2021-02-03 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 基于主动学习的图像视频质量评价模型的训练方法以及装置 |
-
2021
- 2021-05-28 CN CN202110589228.9A patent/CN113313683B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150078654A1 (en) * | 2013-09-13 | 2015-03-19 | Interra Systems, Inc. | Visual Descriptors Based Video Quality Assessment Using Outlier Model |
CN106303507A (zh) * | 2015-06-05 | 2017-01-04 | 江苏惠纬讯信息科技有限公司 | 基于时空联合信息的无参考视频质量评估方法 |
CN109429051A (zh) * | 2017-07-12 | 2019-03-05 | 天津大学 | 基于多视图特征学习的无参考立体视频质量客观评价方法 |
CN107959848A (zh) * | 2017-12-08 | 2018-04-24 | 天津大学 | 基于三维卷积神经网络的通用型无参考视频质量评价算法 |
CN109831664A (zh) * | 2019-01-15 | 2019-05-31 | 天津大学 | 基于深度学习的快速压缩立体视频质量评价方法 |
CN110517237A (zh) * | 2019-08-20 | 2019-11-29 | 西安电子科技大学 | 基于膨胀三维卷积神经网络的无参考视频质量评价方法 |
CN110599468A (zh) * | 2019-08-30 | 2019-12-20 | 中国信息通信研究院 | 无参考视频质量评估方法及装置 |
CN110689523A (zh) * | 2019-09-02 | 2020-01-14 | 西安电子科技大学 | 基于元学习个性化图像信息评价方法、信息数据处理终端 |
CN110728656A (zh) * | 2019-09-06 | 2020-01-24 | 西安电子科技大学 | 基于元学习的无参考图像质量数据处理方法、智能终端 |
CN112529866A (zh) * | 2020-12-08 | 2021-03-19 | 鲁能集团有限公司 | 一种基于深传输cnn结构的远程运维无参考视频质量评估方法 |
CN112785585A (zh) * | 2021-02-03 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 基于主动学习的图像视频质量评价模型的训练方法以及装置 |
Non-Patent Citations (3)
Title |
---|
FRANZ GÖTZ-HAHN等: "《KonVid-150k: A Dataset for No-Reference Video Quality Assessment of Videos in-the-Wild》", 《IEEE ACCESS》 * |
JUNYONG YOU等: "《Deep Neural Networks for No-Reference Video Quality Assessment》", 《2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
张浩等: "《基于迁移学习的无参考视频质量评价》", 《中国激光》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743332A (zh) * | 2021-09-08 | 2021-12-03 | 中国科学院自动化研究所 | 基于通用视觉预训练模型的图像质量评价方法及系统 |
CN113743332B (zh) * | 2021-09-08 | 2022-03-25 | 中国科学院自动化研究所 | 基于通用视觉预训练模型的图像质量评价方法及系统 |
CN113936237A (zh) * | 2021-09-30 | 2022-01-14 | 中国矿业大学 | 基于对比自监督的无参考视频质量评估预测方法及系统 |
CN114612714A (zh) * | 2022-03-08 | 2022-06-10 | 西安电子科技大学 | 基于课程学习的无参考图像质量评价方法 |
CN114612714B (zh) * | 2022-03-08 | 2024-09-27 | 西安电子科技大学 | 基于课程学习的无参考图像质量评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113313683B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313683B (zh) | 基于元迁移学习的无参考视频质量评价方法 | |
CN112085102B (zh) | 基于三维时空特征分解的无参考视频质量评价方法 | |
CN111182292B (zh) | 无参考视频质量评估方法、系统、视频接收器、智能终端 | |
CN110933429B (zh) | 基于深度神经网络的视频压缩感知与重构方法和装置 | |
CN111626245B (zh) | 一种基于视频关键帧的人体行为识别方法 | |
CN110751649B (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
CN112465718B (zh) | 一种基于生成对抗网络的两阶段图像修复方法 | |
CN111783532B (zh) | 一种基于在线学习的跨年龄人脸识别方法 | |
CN112954312A (zh) | 一种融合时空特征的无参考视频质量评估方法 | |
Chen et al. | No-reference screen content image quality assessment with unsupervised domain adaptation | |
CN110458765A (zh) | 基于感知保持卷积网络的图像质量增强方法 | |
CN110807757A (zh) | 基于人工智能的图像质量评估方法、装置及计算机设备 | |
CN109886927B (zh) | 一种基于核稀疏编码的图像质量评估方法 | |
CN109615576A (zh) | 基于级联回归基学习的单帧图像超分辨重建方法 | |
Chen et al. | GAMIVAL: Video quality prediction on mobile cloud gaming content | |
Morzelona | Human visual system quality assessment in the images using the IQA model integrated with automated machine learning model | |
CN112712482B (zh) | 一种基于线性学习模型的图像去雾方法 | |
CN117834852A (zh) | 基于跨注意力多尺度视觉变压器的时空视频质量评价方法 | |
Jaisurya et al. | Attention-based single image dehazing using improved cyclegan | |
Cemiloglu et al. | Blind video quality assessment via spatiotemporal statistical analysis of adaptive cube size 3D‐DCT coefficients | |
CN116912219A (zh) | 一种基于知识蒸馏的无参考图像质量评价方法 | |
Kim et al. | Long-term video generation with evolving residual video frames | |
CN108596831B (zh) | 一种基于AdaBoost实例回归的超分辨率重建方法 | |
CN116485743A (zh) | 一种无参考图像质量评价方法、系统、电子设备及存储介质 | |
CN115797646A (zh) | 多尺度特征融合的视频去噪方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |