CN116524387A - 一种基于深度学习网络的超高清视频压缩损伤等级评估方法 - Google Patents

一种基于深度学习网络的超高清视频压缩损伤等级评估方法 Download PDF

Info

Publication number
CN116524387A
CN116524387A CN202211575398.2A CN202211575398A CN116524387A CN 116524387 A CN116524387 A CN 116524387A CN 202211575398 A CN202211575398 A CN 202211575398A CN 116524387 A CN116524387 A CN 116524387A
Authority
CN
China
Prior art keywords
convolution
layer
video
compression damage
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211575398.2A
Other languages
English (en)
Inventor
何刚
蔡媛媛
徐莉
黄林轶
韦胜钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
China Electronic Product Reliability and Environmental Testing Research Institute
Original Assignee
Xidian University
China Electronic Product Reliability and Environmental Testing Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University, China Electronic Product Reliability and Environmental Testing Research Institute filed Critical Xidian University
Priority to CN202211575398.2A priority Critical patent/CN116524387A/zh
Publication of CN116524387A publication Critical patent/CN116524387A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习网络的超高清视频压缩损伤等级评估方法,包括以下步骤;步骤1,建立多分辨率压缩损伤训练集,验证集,测试集:步骤2,构建时频域结合的压缩损伤等级评估网络:步骤3,训练时频域结合的压缩损伤等级评估网络:步骤4,测试多分辨率压缩损伤测试集的准确率;步骤5,评估时频域结合的压缩损伤等级评估网络。本发明针对超高清视频压缩损伤来进行评估,解决了压缩损伤数据集制作成本高,不易扩充、视频压缩损伤评估网络未采用端对端的设计,泛化能力不足以及超高清视频评估耗时长的问题。

Description

一种基于深度学习网络的超高清视频压缩损伤等级评估方法
技术领域
本发明属于超高清视频压缩损伤等级评估技术领域,具体涉及一种基于深度学习网络的超高清视频压缩损伤等级评估方法。
背景技术
在基于深度学习的视频质量评价研究中,现有数据集一般包含多种失真类型以及对应的MOS评分。常用的视频数据库有LIVE、CSIQ、IVP和KoNViD-1k等,但是这些数据库针对压缩损伤的数据量较少,且跨数据库的评分标准有差异,而深度学习模型以数据为驱动,使用大量数据进行训练的深度学习网络在预测准确率以及泛化能力上具有更大的优势,而使用现有的数据集训练的网络泛化能力有限,并不能对多数场景进行准确评估。
Lin L等人发表的论文Compressed Video Quality Index Based on Saliency-Aware Artifact Detection提出的一种压缩视频质量客观评价方式。该方法虽然以图像的显著性区域作为输入,解决了图像中无损伤区域对于网络产生的影响,使得预测出的结果更加合理。但是该方法仍然存在的不足之处有:其一,显著性区域的选取依赖于ACLNet,ACLNet的区域提取准确性和后续评估结果准确性强正相关,网络的抗干扰性差;其二,该方法不能实现端到端的压缩损伤质量评估,训练过程复杂,需要分别对压缩损伤中常见的四种失真进行网络训练,并对四个网络的输出结果进行整合,才能够得到最终的评分结果。
M.Alizadeh等人发表的论文No-Reference Deep Compressed-Based VideoQuality Assessment中提出了一种基于卷积神经网络的高效视频编解码器的新型无参考视频质量评估,该方法虽然利用了HEVC编码的编码特性进行压缩损伤质量的评估,使得深度学习网络可以更加容易的学习到数据集的深度特征,对于预测的准确率的提升,以及网络训练的简化都有着很大的益处,但是对于不能得到这些编码信息的场景并不适用,且对于超高清视频图像,该压缩损伤评价网络在处理大分辨率图像时速度较慢,无法应用于需要实时进行超高清视频压缩损伤评估的系统中。
发明内容
为了克服上述现有技术存在的不足,本发明的目的在于提供一种基于深度学习网络的超高清视频压缩损伤等级评估方法,针对超高清视频压缩损伤来进行评估,解决了压缩损伤数据集制作成本高,不易扩充、视频压缩损伤评估网络未采用端对端的设计,泛化能力不足以及超高清视频评估耗时长的问题。
为了实现上述目的,本发明采用的技术方案是:
一种基于深度学习网络的超高清视频压缩损伤等级评估方法,包括以下步骤;
步骤1,建立多分辨率压缩损伤训练集,验证集,测试集:
步骤2,构建时频域结合的压缩损伤等级评估网络:
步骤3,训练时频域结合的压缩损伤等级评估网络:
步骤4,测试多分辨率压缩损伤测试集的准确率:将视频帧遍历裁剪为448×448的块,逐块输入到训练好的时频域结合的压缩损伤等级评估网络中,将图像块预测出的平均值作为该帧的压缩损伤评估类别;
步骤5,评估时频域结合的压缩损伤等级评估网络。
所述步骤1具体包括:
步骤1.1,训练集和验证集初始数据采集,从网上收集无失真的视频流数据,采集的数据包含多种分辨率,包括1080p,2k,4k分辨率,场景内容涵盖人物,动物,自然景观,动画,建筑,电影;对收集到的数据进行筛选,最后包含60个6~8s时长的无失真视频,作为制作训练集无失真视频序列集;
所述筛选的标准按照ITU-T P.910中提出的量化场景的空间和时间信息的方法,确保选取的序列在时空平面的适当覆盖。
步骤1.2,对无失真视频序列集进行剪切,在制作帧级数据集之前,对于长序列进行裁剪,按步距10帧舍弃掉一部分数据,将剩余的数据按10帧为一个短序列,使用HEVC编码方式,通过设置不同的恒定速率因子产生不同等级的压缩损伤,最终得到带有等级标签的失真序列;
步骤1.3,将步骤1.2的产生的失真序列在光线充足的环境下使用PotPlayer视频查看器播放,每位标注人员对显示屏中展示的视频以及对应的等级标签进行筛选,剔除掉异常视频数据;
步骤1.4,对于每个视频数据,与网络输入相对应,取帧对作为数据集,得到多对图像,每对图像的等级标签对应步骤1.2压缩损伤视频流生成过程中的产生的标签,分别为等级0,1,2,3,4,等级越高表示图像包含的压缩损伤更严重;
步骤1.5,训练集和验证集分别包含步骤1.4产生的80%和20%的数据;
步骤1.6,测试集制作,包含HEVC标准序列中的1080p,2k视频,以及从网上采集的无失真视频,使用步骤1.2步骤1.3中介绍的方法进行数据集的制备,得到包含等级标签的视频,将短视频序列进行了拼接,最后,在验证数据库中一共提供2~12s不等的视频。
所述步骤2具体包括:
步骤2.1,构建一个卷积模块以及输入卷积层,该模块包括三个卷积层和一个相加层,其中,三个卷积层依次串联后与输入第一卷积层的特征向量一同送入相加层;
该卷积模块的前向传播过程为:特征向量依次经过第一卷积层和第二卷积层以及第三卷积层,输出与特征向量形状一致的向量,这两个特征向量再经过相加层进行相加操作后输出一个特征向量;
使用pytorch设置各层参数为:输入卷积层的卷积核大小设置为7×7,步长设置为2,激活函数采用relu实现,卷积模块中第一、第二、第三卷积层的卷积核大小分别设置为1×1、3×3、1×1,步长均设置为1,激活函数均采用relu实现,相加层要求两个输入向量形状一致;
步骤2.2,生成时域信息和频域信息,时域信息使用相邻帧之间的方差来获得,用来反映相邻帧的运动情况;频域信息使用离散余弦变换来获得,将读入的RGB图像转变为YUV图像,并在Y通道上进行离散余弦变换,获得频域信息;步骤2.3,构建时域特征提取网络,其结构依次为:输入卷积层,第一最大池化层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第十三卷积、第十四卷积模块、第十五卷积模块、第十六卷积模块;
时域信息特征提取的前向传播过程为:输入步骤2.2获取的时域信息进入输入卷积层提取特征后,首先通过第一最大池化层和十六个串联的卷积模块,得到时域信息的特征向量。
所述步骤2.3中网络的各层参数设置如下:
将输入卷积层的卷积核大小设置为7×7,步长分别设置为2,输入通道数分别设置为2,输出通道数分别设置为64;
将第一最大池化层的池化核大小均设置为3×3,步长均设置为2,填充均设置为2,膨胀系数均设置为1;
所述第一至第十六卷积模块的结构均与步骤2.1的卷积模块相同,将第一至第十六卷积模块内部的第一卷积层设置输入通道数依次设置为:64、256、256、256、512、512、512、512,1024,1024,1024,1024,1024,1024,2048,2048;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第二卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第三卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:256,256,256,512,512,512,512,1024,1024,1024,1024,1024,1024,2048,2048,2048。
步骤2.4,构建频域特征提取网络,其结构依次为:第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第十三卷积、第十四卷积模块、第十五卷积模块、第十六卷积模块;
频域信息特征提取的前向传播过程为:输入步骤2.2获取的频域信息通过十六个串联的卷积模块,得到频域信息的特征向量。
所述步骤2.4中网络的各层参数设置如下:
所述第一至第十六卷积模块的结构均与步骤2.1的卷积模块相同,将第一至第十六卷积模块内部的第一卷积层设置输入通道数依次设置为:64、256、256、256、512、512、512、512,1024,1024,1024,1024,1024,1024,2048,2048;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第二卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第三卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:256,256,256,512,512,512,512,1024,1024,1024,1024,1024,1024,2048,2048,2048。
步骤2.5,构建时频域融合模块以及压缩损伤等级评估模块,其结构为concat层,自适应平均池化层、第一全连接层、第二全连接层、第三全连接层。
前向传播过程为:将步骤2.3和步骤2.4的输出作为concat层的输入,concat层输出依次输入自适应平均池化层、第一全连接层、第二全连接层、第三全连接层,输出五分类向量。
所述步骤2.5网络的各层参数设置如下:
将concat层的拼接维度设为一维;
将自适应平均池化层的池化参数设置为1×1;
将第一全连接层输入神经元的个数设置为4096,输出神经元的个数设置为2048;第二全连接层输入神经元的个数设置为2048,输出神经元的个数设置为2048;第三全连接层输入神经元的个数设置为2048,输出神经元的个数设置为5。
所述步骤3具体包括:
步骤3.1,配置训练环境,安装网络训练所需要的python库;
步骤3.2,设定训练超参数,批处理大小batchsize设置为16,初始学习率lr设置为0.001,权重衰减规则设置为每10个训练周期学习率×0.1,求解器选择SGD,训练周期epochs设置为30;
步骤3.3,使用随机梯度下降法训练时频域结合的压缩损伤等级评估网络;首先对输入图像数据处理,即对输入图像对的第一帧变换到频域,得到频域信息,以及使用光流网络计算出图像对的运动信息,将batch设置为448×448;然后将数据输入压缩损伤分类网络中进行前向传播,将输出值与目标值计算损失函数L,求解器SGD结合学习率lr进行反向传播,更新网络权重;每个epoch后,将更新后的权值赋值给分类网络,将验证集输入到网络中计算验证集压缩损伤测试准确率,辅助网络训练避免过拟合或者欠拟合,训练30个epoch后,损失函数L收敛,将最后更新的权值赋值给时频域结合的压缩损伤等级评估网络,得到训练好的时频域结合的压缩损伤等级评估网络;训练中,损失函数L为多分类交叉熵损失函数:
其中,N表示训练样本大小,N设置为12960;M表示分类类别,M设置为5;yij表示符号函数0或1,如果样本i的真实类别等于j,yij为1,否则yij为0;pij表示网络输出的观测样本i属于类别j的概率。
所述步骤5具体包括:
步骤5.1,建立了一个视频压缩损伤测试集,将测试集按照步骤1.6来制备并获得逐帧标注压缩损伤类别标签;
步骤5.2,将测试集中每个视频输入到训练好的时频域结合的压缩损伤等级评估网络中,输出最终压缩损伤程度客观评估类别,并计算测试集的平均压缩损伤测试准确率。
所述等级评估方法应用于帮助衡量压缩编码器的编码效果、评价图像增强、图像重建算法的优劣、对视频压缩损伤进行分级,给予不同的推送力度,优化视频推送规则、在工业或者安防用视频画面的失真检测作为异常检测、辅助视频平台判断当前视频是否需要进行图像增强,来对影响用户观感的视频进行修复。
本发明的有益效果:
本发明建立的训练数据集涵盖了多种分辨率、内容场景和运动场景,神经网络可以学习到了更丰富的压缩损伤特征,使得压缩损伤评估准确率得到提升。
本发明将压缩损伤的评估网络设计成了分类网络,相较于回归方式,简化了数据集的制备过程以及网络的设计和训练过程。
本发明在提取视频帧压缩损伤特征时,对视频帧进行了图像处理操作,相较于直接将视频帧输入网络的方案,加快了网络的收敛速度,并且提升了分类结果的准确率。
附图说明
图1为本发明流程示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示:步骤1,建立多分辨率压缩损伤训练集,验证集,测试集:
步骤1.1,训练集和验证集初始数据采集,从网上收集无失真的视频流数据,采集的数据包含多种分辨率,包括1080p,2k,4k分辨率,场景内容涵盖人物,动物,自然景观,动画,建筑,电影等。对收集到的数据进行筛选,最后包含60个6~8s时长的无失真视频。
步骤1.2,对于初始训练数据剪切,为了减少长视频序列的冗余信息,在制作帧级数据集之前,对于长序列进行crop,按步距10帧舍弃掉一部分数据,将剩余的数据按10帧为一个短序列,适用HEVC编码方式,通过控制恒定速率因子来产生不同等级的压缩损伤,适用恒定速率因子,可以在最大程度上产生同等级下主观感受到的压缩损伤一致视频帧,最终得到带有等级标签的5400个失真序列。
步骤1.3,本发明的实施例组织了8名标注人员步骤1.2的产生的5400个,实施例在光线充足的环境下进行,使用PotPlayer视频查看器,显示器分辨率为1920×1080,每位评价人员对显示屏中展示的视频以及对应的标签进行筛选,剔除掉异常视频数据。
步骤1.4,对于每个视频数据,与网络输入相对应,取帧对作为数据集,一共得到16200对图像,每对图像的标签对应步骤1.2压缩损伤视频流生成过程中的产生的标签,分别为等级0,1,2,3,4。等级越高表示图像包含的压缩损伤更严重。
步骤1.5,训练集和验证集分别包含步骤1.4产生的80%和20%的数据。
步骤1.6,测试集制作,包含HEVC标准序列中的1080p,2k视频,以及从网上采集的无失真视频,这些视频有着不同的运动情况,不同的内容场景,使用步骤1.2步骤1.3中介绍的方法进行数据集的制备,得到541个包含等级label的视频,为了便于进行展示,将短视频序列进行了拼接,最后,在验证数据库中一共提供147个2~12s不等的视频。
步骤2,构建时频域结合的压缩损伤等级评估网络:
步骤2.1,构建一个卷积模块以及输入卷积层,该模块包括三个卷积层和一个相加层,其中,三个卷积层依次串联后与输入特征向量一同送入相加层;
该卷积模块的前向传播过程为:特征向量依次经过第一卷积层和第二卷积层以及第三卷积层,输出与特征向量形状一致的向量,这两个特征向量再经过相加层进行相加操作后输出一个特征向量;
使用pytorch设置各层参数为:输入卷积层的卷积核大小设置为7×7,步长设置为2,激活函数采用relu实现,卷积模块中第一、第二、第三卷积层的卷积核大小分别设置为1×1、3×3、1×1,步长均设置为1,激活函数均采用relu实现,相加层要求两个输入向量形状一致;
步骤2.2,生成时域信息和频域信息,时域信息使用相邻帧之间的方差来获得,用来反映相邻帧的运动情况;频域信息使用离散余弦变换来获得,将读入的RGB图像转变为YUV图像,并在Y通道上进行离散余弦变换,获得频域信息;
步骤2.3,构建时域特征提取网络,其结构依次为:输入卷积层,第一最大池化层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第十三卷积、第十四卷积模块、第十五卷积模块、第十六卷积模块。
时域信息特征提取的前向传播过程为:输入时域信息进入输入卷积层提取特征后,首先通过第一最大池化层和十六个串联的卷积模块,得到时域信息的特征向量。
设置网络的各层参数如下:
将输入卷积层的卷积核大小设置为7×7,步长分别设置为2,输入通道数分别设置为2,输出通道数分别设置为64;
将第一最大池化层的池化核大小均设置为3×3,步长均设置为2,填充均设置为2,膨胀系数均设置为1;
所述第一至第十六卷积模块的结构均与步骤2.1的卷积模块相同,将第一至第十六卷积模块内部的第一卷积层设置输入通道数依次设置为:64、256、256、256、512、512、512、512,1024,1024,1024,1024,1024,1024,2048,2048;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第二卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第三卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:256,256,256,512,512,512,512,1024,1024,1024,1024,1024,1024,2048,2048,2048。
步骤2.4,构建频域特征提取网络,其结构依次为:第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第十三卷积、第十四卷积模块、第十五卷积模块、第十六卷积模块。
频域信息特征提取的前向传播过程为:输入频域信息通过十六个串联的卷积模块,得到频域信息的特征向量。
设置网络的各层参数如下:
所述第一至第十六卷积模块的结构均与步骤2.1的卷积模块相同,将第一至第十六卷积模块内部的第一卷积层设置输入通道数依次设置为:64、256、256、256、512、512、512、512,1024,1024,1024,1024,1024,1024,2048,2048;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第二卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第三卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:256,256,256,512,512,512,512,1024,1024,1024,1024,1024,1024,2048,2048,2048。
步骤2.5,构建时频域融合模块以及压缩损伤等级评估模块,其结构为concat层,自适应平均池化层、第一全连接层、第二全连接层、第三全连接层。
前向传播过程为:将步骤2.2和步骤2.3的输出作为concat层的输入,concat层输出依次输入自适应平均池化层、第一全连接层、第二全连接层、第三全连接层,输出五分类向量。
设置网络的各层参数如下:
将concat层的拼接维度设为一维;
将自适应平均池化层的池化参数设置为1×1;
将第一全连接层输入神经元的个数设置为4096,输出神经元的个数设置为2048;第二全连接层输入神经元的个数设置为2048,输出神经元的个数设置为2048;第三全连接层输入神经元的个数设置为2048,输出神经元的个数设置为5。
步骤3,训练时频域结合的压缩损伤等级评估网络:
步骤3.1,配置训练环境,安装网络训练所需要的python库;
步骤3.2,设定训练超参数,批处理大小batchsize设置为16,初始学习率lr设置为0.001,权重衰减规则设置为每10个训练周期学习率×0.1,求解器选择SGD,训练周期epochs设置为30;
步骤3.3,使用随机梯度下降法训练时频域结合的压缩损伤等级评估网络。首先对输入图像数据处理,即对输入图像对的第一帧变换到频域,得到频域信息,以及使用光流网络计算出图像对的运动信息,本实施例将batch设置为448×448;然后将数据输入压缩损伤分类网络中进行前向传播,将输出值与目标值计算损失函数L,求解器SGD结合学习率lr进行反向传播,更新网络权重;每个epoch后,将更新后的权值赋值给分类网络,将验证集输入到网络中计算验证集压缩损伤测试准确率,辅助网络训练避免过拟合或者欠拟合,训练30个epoch后,损失函数L收敛,将最后更新的权值赋值给时频域结合的压缩损伤等级评估网络,得到训练好的时频域结合的压缩损伤等级评估网络;训练中,损失函数L为多分类交叉熵损失函数:
其中,N表示训练样本大小,本实施例N设置为12960;M表示分类类别,本实施例M设置为5;yij表示符号函数0或1,如果样本i的真实类别等于j,yij为1,否则yij为0;pij表示网络输出的观测样本i属于类别j的概率。
步骤4,测试多分辨率压缩损伤测试集的准确率:将视频帧遍历裁剪为448×448的块,逐块输入到训练好的时频域结合的压缩损伤等级评估网络中,将图像块预测出的平均值作为该帧的压缩损伤评估类别。
步骤5,评估时频域结合的压缩损伤等级评估网络:
步骤5.1,本实施例建立了一个视频压缩损伤测试集,将测试集按照步骤1.6来制备并获得逐帧标注压缩损伤类别标签;
步骤5.2,将测试集中每个视频输入到训练好的时频域结合的压缩损伤等级评估网络中,输出最终压缩损伤程度客观评估类别,并计算测试集的平均压缩损伤测试准确率。
本发明的具体思路是:
1)收集大量不具有任何失真的视频序列,以HEVC编码标准对视频序列进行退化,得到具有不同等级的压缩失真的数据集,在数据制作过程中,选取恒定速率因子来对压缩损伤的程度进行控制,以避免由于视频序列运动情况不一致而导致的同等级数据在人眼主观感知中不一致的情况。
不同压缩损伤水平的多分辨率视频数据集组成训练集,这样神经网络可以学习到不同分辨率不同等级的压缩损伤特征,能够提高视频帧压缩损伤评估的准确度,并且可用于不同的分辨率,扩大网络的适用场景;
2)将视频序列划分为优、良、中、差、劣五个类别,分别经过压缩之后的视频相对于人眼的主观感受;
3)本发明通过设计一个时频域结合的端到端深度学习网络来实现压缩损伤的等级评估,将视频帧图像进行DCT变换来提取频域信息,在时域通过计算光流的方式来提取帧间的MV信息,将这两种信息分别送入特征提取网络,然后对两种信息进行特征融合后输入全连接层,再通过全连接层输出压缩损伤分类类别;4)在评估测试阶段,本发明收集不同于训练集的无失真时频序列,并保持和训练数据集一致的数据集制备方式,通过对于时频序列随即帧数进行拼接,得到包含多失真等级的视频序列集,通过本方法在测试集上的评估准确率和处理速度作为评估其性能的指标。
本发明的应用前景:
如今,视频已成为数字网络流量的主要部分。视频数据流量约占网络数据总流量的80%左右,视频编码技术大大降低了存储容量和传输带宽。然而,通过可变信道进行有损压缩和传输不可避免地会引起各种失真,其中压缩损伤对于视频感知质量有着很大的影响。可视内容感知理解已经成为可视计算、计算机视觉、计算摄像学等科学研究领域及其交叉方向国际前沿的研究方向。其中图像质量评价是研究热点。
本发明的基于时频域结合的压缩损伤等级评估网络可对超高清视频压缩损伤程度进行准确、快速的评估,应用场景十分丰富:(1)可以帮助衡量压缩编码器的编码效果,为用户提供更好的画面质量;(2)可以评价图像增强、图像重建算法的优劣;(3)在短视频推荐中,可以对视频压缩损伤进行分级,给予不同的推送力度,优化视频推送规则,最大化收益;(4)在工业或者安防中,可以通过用视频画面的失真检测作为异常检测,提供相应警报。(5)可以辅助视频平台判断当前视频是否需要进行图像增强,来对影响用户观感的视频进行修复。

Claims (6)

1.一种基于深度学习网络的超高清视频压缩损伤等级评估方法,其特征在于,包括以下步骤;
步骤1,建立多分辨率压缩损伤训练集,验证集,测试集:
步骤2,构建时频域结合的压缩损伤等级评估网络:
步骤3,训练时频域结合的压缩损伤等级评估网络:
步骤4,测试多分辨率压缩损伤测试集的准确率:将视频帧遍历裁剪为448×448的块,逐块输入到训练好的时频域结合的压缩损伤等级评估网络中,将图像块预测出的平均值作为该帧的压缩损伤评估类别;
步骤5,评估时频域结合的压缩损伤等级评估网络。
2.根据权利要求1所述的一种基于深度学习网络的超高清视频压缩损伤等级评估方法,其特征在于,所述步骤1具体包括:
步骤1.1,训练集和验证集初始数据采集,从网上收集无失真的视频流数据,采集的数据包含多种分辨率,包括1080p,2k,4k分辨率,场景内容涵盖人物,动物,自然景观,动画,建筑,电影;对收集到的数据进行筛选,最后包含60个6~8s时长的无失真视频,作为制作训练集无失真视频序列集;
步骤1.2,对无失真视频序列集进行剪切,在制作帧级数据集之前,对于长序列进行裁剪,按步距10帧舍弃掉一部分数据,将剩余的数据按10帧为一个短序列,使用HEVC编码方式,通过设置不同的恒定速率因子产生不同等级的压缩损伤,最终得到带有等级标签的失真序列;
步骤1.3,将步骤1.2的产生的失真序列在光线充足的环境下使用PotPlayer视频查看器播放,每位标注人员对显示屏中展示的视频以及对应的等级标签进行筛选,剔除掉异常视频数据;
步骤1.4,对于每个视频数据,与网络输入相对应,取帧对作为数据集,得到多对图像,每对图像的等级标签对应步骤1.2压缩损伤视频流生成过程中的产生的标签,分别为等级0,1,2,3,4,等级越高表示图像包含的压缩损伤更严重;
步骤1.5,训练集和验证集分别包含步骤1.4产生的80%和20%的数据;
步骤1.6,测试集制作,包含HEVC标准序列中的1080p,2k视频,以及从网上采集的无失真视频,使用步骤1.2步骤1.3中介绍的方法进行数据集的制备,得到包含等级标签的视频,将短视频序列进行了拼接,最后,在验证数据库中一共提供2~12s不等的视频。
3.根据权利要求1所述的一种基于深度学习网络的超高清视频压缩损伤等级评估方法,其特征在于,所述步骤2具体包括:
步骤2.1,构建一个卷积模块以及输入卷积层,该模块包括三个卷积层和一个相加层,其中,三个卷积层依次串联后与输入第一卷积层的特征向量一同送入相加层;
该卷积模块的前向传播过程为:特征向量依次经过第一卷积层和第二卷积层以及第三卷积层,输出与特征向量形状一致的向量,这两个特征向量再经过相加层进行相加操作后输出一个特征向量;
使用pytorch设置各层参数为:输入卷积层的卷积核大小设置为7×7,步长设置为2,激活函数采用relu实现,卷积模块中第一、第二、第三卷积层的卷积核大小分别设置为1×1、3×3、1×1,步长均设置为1,激活函数均采用relu实现,相加层要求两个输入向量形状一致;
步骤2.2,生成时域信息和频域信息,时域信息使用相邻帧之间的方差来获得,用来反映相邻帧的运动情况;频域信息使用离散余弦变换来获得,将读入的RGB图像转变为YUV图像,并在Y通道上进行离散余弦变换,获得频域信息;
步骤2.3,构建时域特征提取网络,其结构依次为:输入卷积层,第一最大池化层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第十三卷积、第十四卷积模块、第十五卷积模块、第十六卷积模块;
时域信息特征提取的前向传播过程为:输入步骤2.2获取的时域信息进入输入卷积层提取特征后,首先通过第一最大池化层和十六个串联的卷积模块,得到时域信息的特征向量。
所述步骤2.3中网络的各层参数设置如下:
将输入卷积层的卷积核大小设置为7×7,步长分别设置为2,输入通道数分别设置为2,输出通道数分别设置为64;
将第一最大池化层的池化核大小均设置为3×3,步长均设置为2,填充均设置为2,膨胀系数均设置为1;
所述第一至第十六卷积模块的结构均与步骤2.1的卷积模块相同,将第一至第十六卷积模块内部的第一卷积层设置输入通道数依次设置为:64、256、256、256、512、512、512、512,1024,1024,1024,1024,1024,1024,2048,2048;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第二卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第三卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:256,256,256,512,512,512,512,1024,1024,1024,1024,1024,1024,2048,2048,2048;
步骤2.4,构建频域特征提取网络,其结构依次为:第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块、第六卷积模块、第七卷积模块、第八卷积模块、第九卷积模块、第十卷积模块、第十一卷积模块、第十二卷积模块、第十三卷积、第十四卷积模块、第十五卷积模块、第十六卷积模块;
频域信息特征提取的前向传播过程为:输入步骤2.2获取的频域信息通过十六个串联的卷积模块,得到频域信息的特征向量;
所述步骤2.4中网络的各层参数设置如下:
所述第一至第十六卷积模块的结构均与步骤2.1的卷积模块相同,将第一至第十六卷积模块内部的第一卷积层设置输入通道数依次设置为:64、256、256、256、512、512、512、512,1024,1024,1024,1024,1024,1024,2048,2048;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第二卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;将第一至第十六卷积模块内部的第三卷积层的输入通道数依次设置为:64,64,64,128,128,128,128,256,256,256,256,256,256,512,512,512;输出通道数依次设置为:256,256,256,512,512,512,512,1024,1024,1024,1024,1024,1024,2048,2048,2048;
步骤2.5,构建时频域融合模块以及压缩损伤等级评估模块,其结构为concat层,自适应平均池化层、第一全连接层、第二全连接层、第三全连接层;
前向传播过程为:将步骤2.2和步骤2.3的输出作为concat层的输入,concat层输出依次输入自适应平均池化层、第一全连接层、第二全连接层、第三全连接层,输出五分类向量;
所述步骤2.5网络的各层参数设置如下:
将concat层的拼接维度设为一维;
将自适应平均池化层的池化参数设置为1×1;
将第一全连接层输入神经元的个数设置为4096,输出神经元的个数设置为2048;第二全连接层输入神经元的个数设置为2048,输出神经元的个数设置为2048;第三全连接层输入神经元的个数设置为2048,输出神经元的个数设置为5。
4.根据权利要求1所述的一种基于深度学习网络的超高清视频压缩损伤等级评估方法,其特征在于,所述步骤3具体包括:
步骤3.1,配置训练环境,安装网络训练所需要的python库;
步骤3.2,设定训练超参数,批处理大小batchsize设置为16,初始学习率lr设置为0.001,权重衰减规则设置为每10个训练周期学习率×0.1,求解器选择SGD,训练周期epochs设置为30;
步骤3.3,使用随机梯度下降法训练时频域结合的压缩损伤等级评估网络;首先对输入图像数据处理,即对输入图像对的第一帧变换到频域,得到频域信息,以及使用光流网络计算出图像对的运动信息,将batch设置为448×448;然后将数据输入压缩损伤分类网络中进行前向传播,将输出值与目标值计算损失函数L,求解器SGD结合学习率lr进行反向传播,更新网络权重;每个epoch后,将更新后的权值赋值给分类网络,将验证集输入到网络中计算验证集压缩损伤测试准确率,辅助网络训练避免过拟合或者欠拟合,训练30个epoch后,损失函数L收敛,将最后更新的权值赋值给时频域结合的压缩损伤等级评估网络,得到训练好的时频域结合的压缩损伤等级评估网络;训练中,损失函数L为多分类交叉熵损失函数:
其中,N表示训练样本大小,N设置为12960;M表示分类类别,M设置为5;yij表示符号函数0或1,如果样本i的真实类别等于j,yij为1,否则yij为0;pij表示网络输出的观测样本i属于类别j的概率。
5.根据权利要求1所述的一种基于深度学习网络的超高清视频压缩损伤等级评估方法,其特征在于,所述步骤5具体包括:
步骤5.1,建立了一个视频压缩损伤测试集,将测试集按照步骤1.6来制备并获得逐帧标注压缩损伤类别标签;
步骤5.2,将测试集中每个视频输入到训练好的时频域结合的压缩损伤等级评估网络中,输出最终压缩损伤程度客观评估类别,并计算测试集的平均压缩损伤测试准确率。
6.根据权利要求1-5任一项所述的一种基于深度学习网络的超高清视频压缩损伤等级评估方法,其特征在于,所述等级评估方法应用于帮助衡量压缩编码器的编码效果、评价图像增强、图像重建算法的优劣、对视频压缩损伤进行分级,给予不同的推送力度,优化视频推送规则、在工业或者安防用视频画面的失真检测作为异常检测、辅助视频平台判断当前视频是否需要进行图像增强,来对影响用户观感的视频进行修复。
CN202211575398.2A 2022-12-08 2022-12-08 一种基于深度学习网络的超高清视频压缩损伤等级评估方法 Pending CN116524387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211575398.2A CN116524387A (zh) 2022-12-08 2022-12-08 一种基于深度学习网络的超高清视频压缩损伤等级评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211575398.2A CN116524387A (zh) 2022-12-08 2022-12-08 一种基于深度学习网络的超高清视频压缩损伤等级评估方法

Publications (1)

Publication Number Publication Date
CN116524387A true CN116524387A (zh) 2023-08-01

Family

ID=87390928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211575398.2A Pending CN116524387A (zh) 2022-12-08 2022-12-08 一种基于深度学习网络的超高清视频压缩损伤等级评估方法

Country Status (1)

Country Link
CN (1) CN116524387A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953235A (zh) * 2024-03-27 2024-04-30 中建国际工程有限公司 一种基于红外偏振成像的墙体损伤程度评价方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953235A (zh) * 2024-03-27 2024-04-30 中建国际工程有限公司 一种基于红外偏振成像的墙体损伤程度评价方法及系统

Similar Documents

Publication Publication Date Title
Ying et al. From patches to pictures (PaQ-2-PiQ): Mapping the perceptual space of picture quality
CN107483920B (zh) 一种基于多层级质量因子的全景视频评估方法及系统
Jin et al. Statistical study on perceived JPEG image quality via MCL-JCI dataset construction and analysis
CN112954312B (zh) 一种融合时空特征的无参考视频质量评估方法
CN103369349A (zh) 一种数字视频质量控制方法及其装置
CN111369548B (zh) 一种基于生成对抗网络的无参考视频质量评价方法及装置
CN106993188B (zh) 一种基于多人脸视频显著性的hevc压缩编码方法
CN112738533B (zh) 一种机巡图像分区域压缩方法
CN107959848A (zh) 基于三维卷积神经网络的通用型无参考视频质量评价算法
CN109257592B (zh) 基于深度学习的立体视频质量客观评价方法
CN117056863B (zh) 一种基于多模态数据融合的大数据处理方法
CN105049838A (zh) 一种用于压缩立体视频质量的客观评价方法
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
CN105894507B (zh) 基于图像信息量自然场景统计特征的图像质量评价方法
CN117237279A (zh) 一种非均匀失真全景图像盲质量评价方法及系统
CN112381723A (zh) 一种轻量高效的单幅图像去烟雾方法
CN116524387A (zh) 一种基于深度学习网络的超高清视频压缩损伤等级评估方法
CN116468625A (zh) 基于金字塔高效通道注意力机制的单幅图像去雾方法和系统
Tu et al. Efficient user-generated video quality prediction
Sun et al. Enhancing Blind Video Quality Assessment with Rich Quality-aware Features
CN113128517B (zh) 色调映射图像混合视觉特征提取模型建立及质量评价方法
CN116777811A (zh) 基于多尺度空间金字塔池化的真实场景图像质量评价方法
Da et al. Perceptual quality assessment of nighttime video
Wu et al. Perceptual VVC quantization refinement with ensemble learning
Jin et al. A foveated video quality assessment model using space-variant natural scene statistics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination