CN110166779A - 基于超分辨率重构的视频压缩方法 - Google Patents

基于超分辨率重构的视频压缩方法 Download PDF

Info

Publication number
CN110166779A
CN110166779A CN201910433279.5A CN201910433279A CN110166779A CN 110166779 A CN110166779 A CN 110166779A CN 201910433279 A CN201910433279 A CN 201910433279A CN 110166779 A CN110166779 A CN 110166779A
Authority
CN
China
Prior art keywords
video
convolutional layer
network
layer
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910433279.5A
Other languages
English (en)
Other versions
CN110166779B (zh
Inventor
董伟生
范兴宣
毋芳芳
石光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910433279.5A priority Critical patent/CN110166779B/zh
Publication of CN110166779A publication Critical patent/CN110166779A/zh
Application granted granted Critical
Publication of CN110166779B publication Critical patent/CN110166779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于超分辨率重构的视频压缩方法,主要解决现有方法在低码率压缩情况下丢失较多信息导致重构出的视频峰值信噪比低的问题,其实现步骤为:1.获取包含压缩样本集和输入视频集的训练样本;2.构建基于TensorFlow架构的深度卷积神经网络模型;3.利用获取的训练样本对构建的深度卷积神经网络模型进行训练;4.将待压缩的视频进行预处理后输入到训练好的深度卷积神经网络模型中,对视频进行压缩与恢复,得到最终恢复出的视频。本发明减少了低码率压缩情况下的信息丢失,提高了恢复视频的峰值信噪比,可应用于视频存储、视频传输及视频通信场合。

Description

基于超分辨率重构的视频压缩方法
技术领域
本发明属于视频压缩技术领域,特别涉及一种视频压缩方法,可应用于视频存储、视频传输及视频通信场合。
背景技术
随着视频产业链的不断发展和计算机技术的不断突破,以视频为载体的信息传播方式已经得到广泛使用。相较于普通的文字和图片,视频包含的数据量比较大,并且随着成像设备的快速发展,在一些使用超高清视频的场景中,超高清视频包含的数据量非常大,在对视频进行存储或者传输时,往往受到存储器容量和网络带宽的限制需要对视频进行压缩,而在压缩的过程中则会造成数据受损,给后续视频恢复带来困难。超分辨率技术因其技术优势能够有效缓解这一问题。近年来,随着网络直播、新一代多媒体视频通信、物联网等技术的快速发展,视频压缩由于具有较高的研究价值以及广阔的商业应用空间,无论是在科研领域还是在工业应用领域都受到了越来越广泛的关注。
当前,大部分传统的视频压缩方法都是利用视频数据在空间和时间上的相关性进行视频压缩,其中应用较为广泛的视频压缩方法是H.264视频压缩方法,该方法主要是通过帧内预测压缩、帧间预测压缩以及数据量化编码等技术来实现视频压缩,但该方法并没有充分应用视频大数据中的先验信息,在一些需要对数据进行低码率压缩的场景中会丢失较多信息,导致重构出的视频峰值信噪比低,给后续使用带来困难。
发明内容
本发明目的在于针对上述现有技术的不足,提供一种基于超分辨率重构的视频压缩方法,以减少低码率压缩情况下的信息丢失,提高重构视频的峰值信噪比。
本发明的技术思路是:通过对需要压缩的视频进行下采样,将下采样后的视频输入H.264压缩方法中来减少数据量,通过设计一个压缩神经网络在原始视频大数据中学习先验信息,用学习到的先验信息帮助超分辨率重构,以此提升重构视频的峰值信噪比。其实现步骤包括如下:
(1)获取训练样本;
(1a)将包含N个高清视频的视频集备份存储2份,一份作为原始样本集X,一份作为标签视频集Y,并对原始样本集依次进行下采样、编码及解码的预处理,得到压缩样本集X(c)
(1b)用压缩样本集和输入视频集共同作为训练样本集X(t)
(2)构建基于TensorFlow架构的深度卷积神经网络DNN的网络模型:
(2a)设计依次由相邻帧融合子网络、编码子网络、量化子网络和解码子网络4部分组成的压缩神经网络模块,该量化子网络依次包含一个全连接层、tanh函数映射层、sign函数映射层和截断层;
(2b)设计依次由特征提取子网络,特征融合子网络和重构子网络3部分组成构超分辨率重构模块;
(2c)将压缩神经网络模块中解码子网络的输出端与超分辨率重构模块中的特征融合子网络相连接,构成深度卷积神经网络DNN的网络模型;
(3)用(1)获得的训练样本集对(2)构建的网络模型进行训练:
(3a)将训练样本输入(2)中构建的DNN网络模型中,输出重构的视频图像;
(3b)计算深度卷积神经网络DNN的网络模型的损失值,利用损失值采用随机梯度下降算法对该DNN网络模型进行训练,得到训练好的DNN网络模型;
(4)将待压缩的视频进行预处理后,用训练好的网络模型对视频进行压缩与解码:
(4a)在编码端对视频图像进行压缩:
(4a1)将需要压缩的视频图像进行备份存储;
(4a2)将需要压缩的视频图像输入到训练好的DNN网络模型中,提取量化子网络中的截断层特征进行压缩,并每隔M个特征进行备份保留,得到压缩特征;
(4a3)将备份存储的视频图像按照预先设定的下采样方式进行下采样,再使用H.264方法进行压缩,得到视频图像的压缩码流;
(4a4)用压缩码流与压缩特征共同组成压缩文件;
(4b)在解码端对压缩文件进行解码:
(4b1)提取出压缩文件中的压缩码流,通过H.264方法对该压缩码流进行解码,得到初始恢复视频;
(4b2)先提取出压缩文件中的压缩特征,每M个视频帧共享一个压缩特征,再对压缩特征进行解压缩得到解压缩特征,并用该解压缩特征替换量化子网络中的截断层特征;
(4b3)将初始恢复视频和替换后的截断层特征一起输入训练好的DNN网络结构中,该DNN模型的输出即为恢复后的视频。
本发明与现有技术相比具有以下优点:
1.峰值信噪比高
本发明在现有H.264视频压缩方法的基础上,将超分辨率重构技术应用到视频压缩领域,并且通过神经网络对视频中的相邻帧进行信息提取和融合,利用神经网络强大的表征能力和学习能力来拟合输入视频和和输出视频之间的映射关系,恢复出的视频峰值信噪比较高。
2.低码率压缩时信息丢失较少
本发明除了设计一个超分辨率重构模块对初始视频进行超分辨率重构外,还设计了一个压缩神经网络对需要压缩的视频进行学习,由于在下采样以及对下采样后的视频进行压缩的过程中,会造成不可逆的信息损失,给视频恢复带来困难,本发明通过设计的压缩神经网络对需要压缩的视频进行学习,学习到的信息叫做边信息,边信息用来帮助超分辨率重构,并且在测试使用时,采用多帧共享的方式,可在不显著降低压缩程度的同时,减少低码率压缩情况下的信息丢失,进一步提高视频的峰值信噪比。
附图说明
图1是本发明的实现流程图;
图2是需要压缩的视频中的某一帧图像;
图3是使用H.264方法对图2中的图像进行压缩后,恢复出的图像;
图4是使用本发明方法对图2中的图像进行压缩后,恢复出的图像;
具体实施方式
下面结合附图对本发明的实施例和效果做进一步描述。
参照图1,对本实例的具体实施步骤如下:
步骤1,获取训练样本。
本实施例中的高清视频包含542个视频序列,每个视频序列由32个连续帧组成,主要是从高清纪录片中搜集的高清视频序列,比较真实,数据集中有森林、雪、沙漠、城市生活等各种场景,其中大部分视频帧的分辨率为1280*720,从这些视频序列中获得训练样本的步骤如下:
(1a)将上述542个视频序列备份存储2份,一份作为原始样本集X={X1,X2,…,Xi,…,XN},其中,Xi表示第i个视频,N表示视频总个数,Xi={Xi,1,Xi,2,…,Xi,j,…,Xi,L},其中,Xi,j表示第i个视频中的第j帧,L表示第i个视频中的总帧数;另一份作为标签视频集Y={Y1,Y2,…,Yi,…,YN},其中,Yi表示第i个视频,N表示视频总个数,Yi={Yi,1,Yi,2,…,Yi,j,…,Yi,L},其中,Yi,j表示第i个视频中的第j帧,L表示第i个视频中的总帧数;
(1b)对原始视频集X进行下采样,本实例是在matlab语言中用以下命令实现对原始样本集X中的视频进行下采样:
frame_down=imresize(frame,rate,'bicubic');
其中,frame_down表示下采样后的视频帧,frame表示原始视频帧,rate表示采样倍数,'bicubic'表示采样方法,本实施例中,rate=4;
(1c)使用现有的H.264压缩方法对下采样后的视频进行编码;
(1d)使用现有的H.264压缩方法对编码视频进行解码,得到压缩样本集X(c),其中,表示第i个视频,N表示视频总个数,其中,表示第i个视频中的第j帧,L表示第i个视频中的总帧数,用压缩样本集X(c)和原始样本集X共同作为训练样本集X(t)={X(c),X}。
步骤2,构建基于TensorFlow架构的深度卷积神经网络DNN的网络模型。
(2a)设计用于学习边信息的压缩神经网络模块:
(2a1)搭建相邻帧融合子网络,该子网络依次由3层卷积层组成,其中:
第一卷积层的卷积核大小为3×3×3,卷积核数量为32,步长为1;
第二卷积层的卷积核大小为3×3×3,卷积核数量为32,步长为1;
第三卷积层的卷积核大小为1×1,卷积核数量为32,步长为1;
(2a2)搭建编码子网络,该子网络由9个卷积层和3个拼接层组成,其结构依次为:第一卷积层→第二卷积层→第三卷积层→第一拼接层→第四卷积层→第五卷积层→第六卷积层→第二拼接层→第七卷积层→第八卷积层→第九卷积层→第二拼接层,其各层参数如下:
第一卷积层的卷积核大小为3×3,卷积核数量为32,步长为2;
第二卷积层的卷积核大小为3×3,卷积核数量为32,步长为1;
第三卷积层的卷积核大小为3×3,卷积核数量为32,步长为1;
第一拼接层,用于将第一卷积层的输出与第三卷积层的输出进行拼接;
第四卷积层的卷积核大小为3×3,卷积核数量为48,步长为2;
第五卷积层的卷积核大小为3×3,卷积核数量为48,步长为1;
第六卷积层的卷积核大小为3×3,卷积核数量为48,步长为1;
第二拼接层,用于将第四卷积层的输出与第六卷积层的输出进行拼接;
第七卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第八卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第九卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第三拼接层,用于将第七卷积层的输出与第九卷积层的输出进行拼接;
(2a3)搭建量化子网络,该子网络依次由卷积层、tanh函数映射层、sign函数映射层和截断层组成,其结构参数如下:
第一卷积层的卷积核大小为1×1,卷积核数量为8,步长为1;
tanh函数映射层用于将第一卷积层的输出结果进行映射输出;
sign函数映射层用于将tanh函数映射层的输出结果进行映射输出;
截断层用于帮助网络模型训练,在网络训练过程中,在TensorFlow架构中采用以下命令实现:
Out=out_1+tf.stop_gradient(out_2-out_1)
式中,out_1表示tanh函数映射层的输出,out_2表示sign函数映射层的输出,Out表示截断层的输出;
(2a4)搭建解码子网络,该子网络由5个卷积层、1个反卷积层和2个拼接层组成,其结构依次为:第一卷积层→第二卷积层→第三卷积层→第一拼接层→第一反卷积层→第四卷积层→第五卷积层→第二拼接层,其各层参数如下:
第一卷积层的卷积核大小为1×1,卷积核数量为8,步长为1;
第二卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第三卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第一拼接层,用于将第一卷积层的输出与第三卷积层的输出进行拼接;
第一反卷积层的卷积核大小为3×3,卷积核数量为64,步长为2;
第四卷积层的卷积核大小为3×3,卷积核数量为48,步长为1;
第五卷积层的卷积核大小为3×3,卷积核数量为48,步长为1;
第二拼接层,用于将第一反卷积层的输出与第五卷积层的输出进行拼接。
(2a5)将上述相邻帧融合子网络、编码子网络、量化子网络和解码子网络4部分依次连接,完成压缩神经网络模块的设计;
(2b)设计超分辨率重构模块:
(2b1)搭建特征提取子网络,该子网络由12个卷积层和5个拼接层组成,其结构依次为:第一卷积层→第二卷积层→第三卷积层→第四卷积层→第一拼接层→第五卷积层→第六卷积层→第二拼接层→第七卷积层→第八卷积层→第三拼接层→第九卷积层→第十卷积层→第四拼接层→第十一卷积层→第十二卷积层→第五拼接层,其各层参数如下:
第一卷积层的卷积核大小为5×5,卷积核数量为64,步长为1;
第二卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第三卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第四卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第一拼接层,用于将第二卷积层的输出与第四卷积层的输出进行拼接;
第五卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第六卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第二拼接层,用于将第二卷积层、第四卷积层、第六卷积层的输出进行拼接;
第七卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第八卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第三拼接层,用于将第二卷积层、第四卷积层、第六卷积层、第八卷积层的输出进行拼接;
第九卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第十卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第四拼接层,用于将第二卷积层、第四卷积层、第六卷积层、第八卷积层、第十卷积层的输出进行拼接;
第十一卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第十二卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第五拼接层,用于将第二卷积层、第四卷积层、第六卷积层、第八卷积层、第十卷积层、第十二卷积层的输出进行拼接;
(2b2)搭建特征融合子网络,该子网络依次由1个卷积层、1个拼接层、1个卷积层和3个Conv-LSTM层组成,其结构参数如下:
第一卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第一拼接层,用于将特征融合子网络中第一卷积层的输出与解码子网络中第二拼接层的输出进行拼接;
第二卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第一Conv-LSTM层的卷积核大小为3×3,卷积核数量为16,步长为1;
第二Conv-LSTM层的卷积核大小为3×3,卷积核数量为32,步长为1;
第三Conv-LSTM层的卷积核大小为3×3,卷积核数量为64,步长为1;
其中,Conv-LSTM层采用以下公式:
式中,xt表示t时刻输入,σ表示sigmoid函数,i、f、o和c分别表示输入门、遗忘门、输出门和细胞状态,而w和b则表示对应的权重和偏置,h表示隐层状态,t表示某一时刻,wxi、whi和wci表示输入门的权重,bi表示输入门偏置,tanh表示双曲正切函数,*表示卷积运算,°表示逐元素相乘。
(2b3)搭建重构子网络,该子网络由11个卷积层、5个拼接层、2个重构卷积层和2个亚像素层组成,其结构依次为:第一卷积层→第二卷积层→第三卷积层→第一拼接层→第四卷积层→第五卷积层→第二拼接层→第六卷积层→第七卷积层→第三拼接层→第八卷积层→第九卷积层→第四拼接层→第十卷积层→第十一卷积层→第五拼接层→第一重构卷积层→第一亚像素层→第二重构卷积层→第二亚像素层,其各层参数如下:
第一卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第二卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第三卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第一拼接层,用于将第一卷积层的输出与第三卷积层的输出进行拼接;
第四卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第五卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第二拼接层,用于将第一卷积层、第三卷积层、第五卷积层的输出进行拼接;
第六卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第七卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第三拼接层,用于将第一卷积层、第三卷积层、第五卷积层、第七卷积层的输出进行拼接;
第八卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第九卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第四拼接层,用于将第一卷积层、第三卷积层、第五卷积层、第七卷积层、第九卷积层的输出进行拼接;
第十卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第十一卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第五拼接层,用于将第一卷积层、第三卷积层、第五卷积层、第七卷积层、第九卷积层、第十一卷积层的输出进行拼接;
第一重构卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第一亚像素层参数设置为分别为:H=32,W=32,N0=64,N1=16,r=2;
第二重构卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第二亚像素层参数设置为分别为:H=64,W=64,N0=4,N1=1,r=2;
其中,亚像素层采用以下公式:
Dim(I)=H*W*N0
=H*W*r*r*N1
=H*r*W*r*N1
式中,Dim(·)表示输入张量的维度,I表示输入的特征映射图,H和W表示特征映射图的高和宽,r表示放缩因子,N0和N1表示网络层数;
(2b4)将上述特征提取子网络,特征融合子网络和重构子网络3部分依次连接,完成超分辨率重构模块的设计;
(2c)将压缩神经网络模块中解码子网络的输出端与超分辨率重构模块中的特征融合子网络相连接,构成深度卷积神经网络DNN的网络模型;
步骤3,用(1)获得的训练样本集X(t)和标签样本集Y对(2)构建的网络模型进行训练。
(3a)从训练样本中分离出压缩样本集X(c)和原始样本集X;
(3b)将压缩样本集X(c)中的每一个视频中的视频帧都分为不同的组表示第i个视频的第m组,m依次取[1,L]中的整数,其中第一组为第L组为将原始样本集X中的每一个视频Xi中的视频帧都分为不同的组表示第i个视频的第m组,m依次取[1,L]中的整数,其中第一组为第L组为输入超分辨率重构模块中的特征提取子网络中,输入超分辨率重构模块中的特征提取子网络中;
(3c)训练DNN网络模型:
(3c1)计算DNN网络模型损失值:
其中,Loss表示损失值,n表示视频总个数,L表示视频总帧数,yi,j表示标签视频集中第i个视频的第j帧,即Yi,j,y′i,j表示输入时DNN网络模型输出;
(3c2)利用损失值采用现有的随机梯度下降算法对该DNN网络模型进行训练,得到训练好的DNN网络模型。
步骤4,将待压缩的视频进行预处理后,用训练好的网络模型对视频图像进行压缩与解码。
(4a)在编码端对视频图像进行压缩:
(4a1)将需要压缩的视频图像进行备份存储;
(4a2)将需要压缩的视频图像输入到训练好的DNN网络模型中,提取量化子网络中的截断层输出值,保存该输出值得到截断层特征;
(4a3)依次用python语言的一个扩展程序库Numpy中的打包函数Numpy.packbits和压缩保存函数Numpy.savez_compressed对截断层特征进行压缩,并每隔M个特征进行备份保留,得到压缩特征;
(4a4)将备份存储的视频图像按照预先设定的下采样方式进行下采样,即在matlab语言中用以下命令实现:
frame_down=imresize(frame,rate,'bicubic');
其中,frame_down表示下采样后的视频帧,frame表示原始视频帧,rate表示采样倍数,'bicubic'表示采样方法,本实施例中,rate=4;
(4a5)使用现有的H.264方法对(4a4)中下采样后的视频进行压缩,得到视频图像的压缩码流;
(4a6)用压缩码流与压缩特征共同组成压缩文件;
(4b)在解码端对压缩文件进行解码:
(4b1)提取出压缩文件中的压缩码流,通过现有的H.264方法对该压缩码流进行解码,得到初始恢复视频;
(4b2)将压缩文件中的压缩特征提取出来进行保存,且每M个视频帧共享一个压缩特征,再用python语言的一个扩展程序库Numpy中的解包函数Numpy.unpackbits对压缩特征进行解压缩得到解压缩特征,并用该解压缩特征替换量化子网络中的截断层特征;
(4b3)将初始恢复视频和替换后的截断层特征一起输入训练好的DNN网络结构中,该DNN模型的输出即为恢复后的视频。
以下通过仿真实验,对本发明的技术效果作具体说明:
1.仿真条件:
软件环境:Ubuntu16.04操作系统,Matlab R2015a编程平台、Python 3.0编程语言解释器、TensorFlow-1.4.0-GPU深度学习框架、CUDA8.0显卡驱动、Visual Studio 2013编程平台;
硬件环境:Inter i7-5930K CPU、DDR5-128GB内存、GeForce GTX 1080Ti显卡。
2.评价指标:
仿真实验中,采用视频的平均峰值信噪比指标,即用同一个视频内所有视频帧的峰值信噪比PSNR平均值,评价视频的恢复效果,其中峰值信噪比PSNR的定义为:
式中,MSE表示恢复出的视频帧的均方误差。
3.仿真内容:
仿真1,采用本发明方法对图2所示的视频中的某一帧图像进行压缩,恢复结果如图4。
仿真2,采用现有H.264方法对图2所示的视频中的某一帧图像进行压缩,恢复结果如图3。
对比图3和图4,可以看出,本发明得到的结果更加接近真实视频帧。
4.对两种方法的平均峰值信噪比PSNR进行对比
计算现有H.264方法和本发明方法对视频进行压缩后恢复出的视频的平均峰值信噪比,结果如表1所示。
表1基于超分辨率重构的视频压缩实验结果1(PSNR/dB)
在表1中,Test0表示第一个需要压缩的视频,Test1表示第二个需要压缩的视频,帧尺寸表示视频帧的大小,原始视频大小指的是需要压缩的视频大小,压缩文件大小指的是对需要压缩的视频进行压缩后得到的压缩文件大小,压缩比指的是压缩文件大小与原始视频大小的比值,
从表1中可以看出,本发明提高了恢复视频的峰值信噪比。

Claims (10)

1.一种基于超分辨率重构的视频压缩方法,包括:
(1)获取训练样本:
(1a)将包含N个高清视频的视频集备份存储2份,一份作为原始样本集X,一份作为标签视频集Y,并对输入视频集依次进行下采样、编码及解码的预处理,得到压缩样本集X(c)
(1b)用压缩样本集和原始样本集共同作为训练样本集X(t)
(2)构建基于TensorFlow架构的深度卷积神经网络DNN的网络模型:
(2a)设计依次由相邻帧融合子网络、编码子网络、量化子网络和解码子网络4部分组成的压缩神经网络模块,用于学习原始视频的边信息,该量化子网络依次包含一个卷积层、tanh函数映射层、sign函数映射层和截断层;
(2b)设计依次由特征提取子网络,特征融合子网络和重构子网络3部分组成构超分辨率重构模块;
(2c)将压缩神经网络模块中解码子网络的输出端与超分辨率重构模块中的特征融合子网络相连接,构成深度卷积神经网络DNN的网络模型;
(3)用(1)获得的训练样本集对(2)构建的网络模型进行训练:
(3a)将训练样本输入(2)中构建的DNN网络模型中,输出重构的视频图像;
(3b)计算深度卷积神经网络DNN的网络模型的损失值,利用损失值采用随机梯度下降算法对该DNN网络模型进行训练,得到训练好的DNN网络模型;
(4)将待压缩的视频进行预处理后,用训练好的网络模型对视频进行压缩与解码:
(4a)在编码端对视频图像进行压缩:
(4a1)将需要压缩的视频图像进行备份存储;
(4a2)将需要压缩的视频图像输入到训练好的DNN网络模型中,提取量化子网络中的截断层特征进行压缩,并每隔M个特征进行备份保留,得到压缩特征;
(4a3)将备份存储的视频图像按照预先设定的下采样方式进行下采样,再使用H.264方法进行压缩,得到视频图像的压缩码流;
(4a4)用压缩码流与压缩特征共同组成压缩文件;
(4b)在解码端对压缩文件进行解码:
(4b1)提取出压缩文件中的压缩码流,通过H.264方法对该压缩码流进行解码,得到初始恢复视频;
(4b2)先提取出压缩文件中的压缩特征,每M个视频帧共享一个压缩特征,再对压缩特征进行解压缩得到解压缩特征,并用该解压缩特征替换量化子网络中的截断层特征;
(4b3)将初始恢复视频和替换后的截断层特征一起输入训练好的DNN网络结构中,该DNN模型的输出即为恢复后的视频。
2.根据权利要求1所述的方法,其中(1)中对对原始样本集进行预处理,其实现如下:
(2a)对原始视频集X进行下采样,即在matlab语言中用以下命令实现对视频进行下采样:
frame_down=imresize(frame,rate,'bicubic');
其中,frame_down表示下采样后的视频帧,frame表示原始视频帧,rate表示采样倍数,'bicubic'表示采样方法;
(2b)使用现有的H.264压缩方法对下采样后的视频进行编码;
(2c)使用现有的H.264压缩方法对编码视频进行解码,得到压缩样本集其中,表示第i个视频,N表示视频总个数,其中,表示第i个视频中的第j帧,L表示第i个视频中的总帧数,用压缩样本集X(c)和原始样本集X共同作为训练样本集X(t)={X(c),X}。
3.根据权利要求1所述的方法,其中(2a)中的相邻帧融合子网络,由三层卷积层组成,各层参数如下:
第一卷积层的卷积核大小为3×3×3,卷积核数量为32,步长为1;
第二卷积层的卷积核大小为3×3×3,卷积核数量为32,步长为1;
第三卷积层的卷积核大小为1×1,卷积核数量为32,步长为1。
4.根据权利要求1所述的方法,其中(2a)中的编码子网络,由9个卷积层和3个拼接层组成,结构参数如下:
第一卷积层的卷积核大小为3×3,卷积核数量为32,步长为2;
第二卷积层的卷积核大小为3×3,卷积核数量为32,步长为1;
第三卷积层的卷积核大小为3×3,卷积核数量为32,步长为1;
第一拼接层,用于将第一卷积层的输出与第三卷积层的输出进行拼接;
第四卷积层的卷积核大小为3×3,卷积核数量为48,步长为2;
第五卷积层的卷积核大小为3×3,卷积核数量为48,步长为1;
第六卷积层的卷积核大小为3×3,卷积核数量为48,步长为1;
第二拼接层,用于将第四卷积层的输出与第六卷积层的输出进行拼接;
第七卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第八卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第九卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第三拼接层,用于将第七卷积层的输出与第九卷积层的输出进行拼接。
5.根据权利要求1所述的方法,其中(2a)中的解码子网络,由5个卷积层、1个反卷积层和2个拼接层组成,结构参数如下:
第一卷积层的卷积核大小为1×1,卷积核数量为8,步长为1;
第二卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第三卷积层的卷积核大小为3×3,卷积核数量为64,步长为1;
第一拼接层,用于将第一卷积层的输出与第三卷积层的输出进行拼接;
第一反卷积层的卷积核大小为3×3,卷积核数量为64,步长为2;
第四卷积层的卷积核大小为3×3,卷积核数量为48,步长为1;
第五卷积层的卷积核大小为3×3,卷积核数量为48,步长为1;
第二拼接层,用于将第一反卷积层的输出与第五卷积层的输出进行拼接。
6.根据权利要求1所述的方法,其中(2b)中的特征融合子网络,由2个卷积层、1个拼接层和3个Conv-LSTM层组成,结构参数如下:
第一卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第一拼接层,用于将特征融合子网络中第一卷积层的输出与解码子网络中第二拼接层的输出进行拼接;
第二卷积层的卷积核大小为1×1,卷积核数量为64,步长为1;
第一Conv-LSTM层的卷积核大小为3×3,卷积核数量为16,步长为1;
第二Conv-LSTM层的卷积核大小为3×3,卷积核数量为32,步长为1;
第三Conv-LSTM层的卷积核大小为3×3,卷积核数量为64,步长为1。
7.根据权利要求1所述的方法,其中(3b)中计算深度卷积神经网络DNN的网络模型的损失值,其计算公式为:
其中,Loss表示损失值,n表示视频总个数,L表示视频总帧数,yi,j表示标签视频集中第i个视频的第j帧,即Yi,j,y′i,j表示输入时DNN网络模型输出;
8.根据权利要求1所述的方法,其中(4a2)中提取量化子网络中的截断层特征进行压缩,其实现如下:
首先,保存量化子网络中的截断层输出值,得到截断层特征;
然后,依次用python语言的一个扩展程序库Numpy中的打包函数Numpy.packbits和压缩保存函数Numpy.savez_compressed对截断层特征进行压缩。
9.根据权利要求1所述的方法,其中(4a3)中将备份存储的视频图像按照预先设定的下采样方式进行下采样,是在matlab语言中用以下命令实现:
frame_down=imresize(frame,rate,'bicubic');
其中,frame_down表示下采样后的视频帧,frame表示原始视频帧,rate表示采样倍数,'bicubic'表示采样方法。
10.根据权利要求1所述的方法,其中(4b2)中对压缩特征进行解压缩得到解压缩特征,是先将压缩文件中的压缩特征提取出来进行保存,再用python语言的一个扩展程序库Numpy中的解包函数Numpy.unpackbits对压缩特征进行解压缩。
CN201910433279.5A 2019-05-23 2019-05-23 基于超分辨率重构的视频压缩方法 Active CN110166779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910433279.5A CN110166779B (zh) 2019-05-23 2019-05-23 基于超分辨率重构的视频压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910433279.5A CN110166779B (zh) 2019-05-23 2019-05-23 基于超分辨率重构的视频压缩方法

Publications (2)

Publication Number Publication Date
CN110166779A true CN110166779A (zh) 2019-08-23
CN110166779B CN110166779B (zh) 2021-06-08

Family

ID=67632061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910433279.5A Active CN110166779B (zh) 2019-05-23 2019-05-23 基于超分辨率重构的视频压缩方法

Country Status (1)

Country Link
CN (1) CN110166779B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572710A (zh) * 2019-09-25 2019-12-13 北京达佳互联信息技术有限公司 视频生成方法、装置、设备及存储介质
CN110659724A (zh) * 2019-09-12 2020-01-07 复旦大学 一种基于目标尺度范围的目标检测卷积神经网络构建方法
CN111263163A (zh) * 2020-02-20 2020-06-09 济南浪潮高新科技投资发展有限公司 一种基于手机平台的深度视频压缩框架的实现方法
CN111598775A (zh) * 2020-04-26 2020-08-28 西安理工大学 基于lstm网络的光场视频时域超分辨重建方法
CN112243130A (zh) * 2020-10-30 2021-01-19 西北大学 一种基于图像超分辨率的移动ar应用上传能耗优化方法
CN112468830A (zh) * 2019-09-09 2021-03-09 阿里巴巴集团控股有限公司 视频图像处理方法、装置及电子设备
WO2021208247A1 (zh) * 2020-04-17 2021-10-21 北京大学 一种视频图像的拟态压缩方法、装置、存储介质及终端
US20220012919A1 (en) * 2020-07-08 2022-01-13 International Business Machines Corporation Adaptive cycle consistency multimodal image captioning
US11763544B2 (en) 2020-07-07 2023-09-19 International Business Machines Corporation Denoising autoencoder image captioning

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104754357A (zh) * 2015-03-24 2015-07-01 清华大学 基于卷积神经网络的帧内编码优化方法及装置
CN107133919A (zh) * 2017-05-16 2017-09-05 西安电子科技大学 基于深度学习的时间维视频超分辨率方法
US20180075581A1 (en) * 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
CN108376386A (zh) * 2018-03-23 2018-08-07 深圳天琴医疗科技有限公司 一种图像的超分辨率模型的构建方法及装置
US20180268571A1 (en) * 2017-03-14 2018-09-20 Electronics And Telecommunications Research Institute Image compression device
CN108923984A (zh) * 2018-07-16 2018-11-30 西安电子科技大学 基于卷积网络的时空视频压缩感知方法
CN108932697A (zh) * 2017-05-26 2018-12-04 杭州海康威视数字技术股份有限公司 一种失真图像的去失真方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104754357A (zh) * 2015-03-24 2015-07-01 清华大学 基于卷积神经网络的帧内编码优化方法及装置
US20180075581A1 (en) * 2016-09-15 2018-03-15 Twitter, Inc. Super resolution using a generative adversarial network
US20180268571A1 (en) * 2017-03-14 2018-09-20 Electronics And Telecommunications Research Institute Image compression device
CN107133919A (zh) * 2017-05-16 2017-09-05 西安电子科技大学 基于深度学习的时间维视频超分辨率方法
CN108932697A (zh) * 2017-05-26 2018-12-04 杭州海康威视数字技术股份有限公司 一种失真图像的去失真方法、装置及电子设备
CN108376386A (zh) * 2018-03-23 2018-08-07 深圳天琴医疗科技有限公司 一种图像的超分辨率模型的构建方法及装置
CN108923984A (zh) * 2018-07-16 2018-11-30 西安电子科技大学 基于卷积网络的时空视频压缩感知方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张顺: "深度卷积神经网络的发展及其在", 《计算机学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112468830A (zh) * 2019-09-09 2021-03-09 阿里巴巴集团控股有限公司 视频图像处理方法、装置及电子设备
CN110659724A (zh) * 2019-09-12 2020-01-07 复旦大学 一种基于目标尺度范围的目标检测卷积神经网络构建方法
CN110659724B (zh) * 2019-09-12 2023-04-28 复旦大学 基于目标尺度的目标检测深度卷积神经网络构建方法
CN110572710A (zh) * 2019-09-25 2019-12-13 北京达佳互联信息技术有限公司 视频生成方法、装置、设备及存储介质
CN110572710B (zh) * 2019-09-25 2021-09-28 北京达佳互联信息技术有限公司 视频生成方法、装置、设备及存储介质
CN111263163A (zh) * 2020-02-20 2020-06-09 济南浪潮高新科技投资发展有限公司 一种基于手机平台的深度视频压缩框架的实现方法
WO2021208247A1 (zh) * 2020-04-17 2021-10-21 北京大学 一种视频图像的拟态压缩方法、装置、存储介质及终端
CN111598775A (zh) * 2020-04-26 2020-08-28 西安理工大学 基于lstm网络的光场视频时域超分辨重建方法
CN111598775B (zh) * 2020-04-26 2023-02-03 西安理工大学 基于lstm网络的光场视频时域超分辨重建方法
US11763544B2 (en) 2020-07-07 2023-09-19 International Business Machines Corporation Denoising autoencoder image captioning
US20220012919A1 (en) * 2020-07-08 2022-01-13 International Business Machines Corporation Adaptive cycle consistency multimodal image captioning
US11651522B2 (en) * 2020-07-08 2023-05-16 International Business Machines Corporation Adaptive cycle consistency multimodal image captioning
CN112243130A (zh) * 2020-10-30 2021-01-19 西北大学 一种基于图像超分辨率的移动ar应用上传能耗优化方法

Also Published As

Publication number Publication date
CN110166779B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN110166779A (zh) 基于超分辨率重构的视频压缩方法
CN110517329B (zh) 一种基于语义分析的深度学习图像压缩方法
CN103607591B (zh) 结合超分辨率重建的视频图像压缩方法
CN112348914B (zh) 一种基于车联网的深度学习图像压缩感知方法及系统
CN107046646B (zh) 基于深度自动编码器的视频编解码装置及方法
CN110602494A (zh) 基于深度学习的图像编码、解码系统及编码、解码方法
CN101626512A (zh) 一种基于相关性优化准则的多描述视频编码方法及装置
CN110248190B (zh) 一种基于压缩感知的多层残差系数图像编码方法
CN104539961A (zh) 基于分层结构渐进式字典学习的可分级视频编码系统
Li et al. Multiple description coding based on convolutional auto-encoder
CN113822954B (zh) 一种面向资源约束下人机协同场景的深度学习图像编码方法
CN113450421B (zh) 一种基于增强深度学习的无人机侦察图像压缩与解压方法
CN109672885B (zh) 一种用于矿井智能监控的视频图像编解码方法
CN114373023A (zh) 一种基于点的点云几何有损压缩重建装置与方法
CN111432211B (zh) 一种用于视频编码的残差信息压缩方法
CN106254891B (zh) 一种基于信息隐藏的矢量量化压缩方法
CN111479286A (zh) 一种边缘计算系统减少通信流量的数据处理方法
Pinheiro et al. NF-PCAC: Normalizing Flow based Point Cloud Attribute Compression
CN111050170A (zh) 基于gan的图片压缩系统构建方法、压缩系统及方法
CN115278262A (zh) 一种端到端智能视频编码方法及装置
CN115150628A (zh) 具有超先验引导模式预测的由粗到细深度视频编码方法
CN109194968A (zh) 一种融合信源信道译码的图像压缩感知方法
CN115239563A (zh) 一种基于神经网络的点云属性有损压缩装置及方法
Dong et al. Innovative semantic communication system
CN114697632B (zh) 一种基于双向条件编码的端到端立体图像压缩方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant