CN107820085A - 一种基于深度学习的提高视频压缩编码效率的方法 - Google Patents

一种基于深度学习的提高视频压缩编码效率的方法 Download PDF

Info

Publication number
CN107820085A
CN107820085A CN201711044430.3A CN201711044430A CN107820085A CN 107820085 A CN107820085 A CN 107820085A CN 201711044430 A CN201711044430 A CN 201711044430A CN 107820085 A CN107820085 A CN 107820085A
Authority
CN
China
Prior art keywords
srcnn
mrow
models
frame
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711044430.3A
Other languages
English (en)
Other versions
CN107820085B (zh
Inventor
李志胜
颜成钢
张永兵
张腾
赵崇宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201711044430.3A priority Critical patent/CN107820085B/zh
Publication of CN107820085A publication Critical patent/CN107820085A/zh
Application granted granted Critical
Publication of CN107820085B publication Critical patent/CN107820085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于深度学习的提高视频压缩编码效率的方法。本发明具体步骤如下:步骤1获取由基本的运动估计和运动补偿组成的原始视频帧间预测的峰值信噪比PSNR1;步骤2引入SRCNN模型对帧间图片进行训练得到权重矩阵与偏差矩阵,对SRCNN模型的参数进行修改,并对网络进行调整从而,得到最优的训练参数;步骤3将训练得到的模型对测试图片进行测试,得出由SRCNN模型测试的结果PSNR2,对PSNR1与PSNR2进行比较,得出SRCNN模型应用于帧间预测编码的可行性;步骤4将SRCNN模型应用于最新编码标准HEVC提供的官方代码HM16.0中。本发明将深度学习应用在了帧间编码领域,能提高帧间运动剧烈块的编码效率。

Description

一种基于深度学习的提高视频压缩编码效率的方法
技术领域
本发明属于多媒体视频编码领域,针对于最新的视频编码标准,具体涉及一种基于深度学习的提高视频压缩编码效率的方法。
背景技术
随着网络通信技术的发展,电脑端和移动端互联网观看视频的需求量不断增加,同时人们对于视频的质量要求也不断提升,这使得视频压缩技术不断得到发展。针对视频编码,国际标准化组织联合其他组织制定了一系列视频通信标准,包括H.261、H.262、H.263、H.264,MPEG-1、MPEG-2、MPEG-3,MPEG-4,AVS等。现如今最新视频编码标准是高效视频编码标准HEVC,也就是传统意义上的H.265,此标准是建立在H.264/AVS基础之上的,力求做到在保证相同重建视频图像质量的前提下,视频编码效率提高50%以上。HEVC作为现如今最优的视频编码标准,在帧内预测和帧间预测方面较之以前的编码标准都进行了优化,并引入了一种称为样本自适应补偿的新的编码工具,从而进一步提高解码图像的质量。虽然编码效率有所提高,但是在视频编码中的帧间预测部分还有很大的改善空间,包括提高帧间预测的编码速度、效率等等。近年来,深度学习得益于其优异的性能以及计算机运算速度的提高得到了突破性的发展,并广泛应用在模式识别等领域中。深度学习旨在使用深度卷积神经网络模型从数据中学习获得一系列参数,即学习训练获取参数,从而能广泛作用于实际应用中。深度学习是一种基于有监督或无监督的学习方法,在现如今的图像分类、语音识别、图像增强等领域发挥了很重要的作用,是现如今应用于各个领域中比较好的方法,往往高于其他的一些传统的方法。
现如今的视频压缩编码在帧内预测这块已经做的比较完善,同时帧内预测的时间也比较少,而编码所花费的大部分时间都是在帧间预测这块,要想更好的提高编码效率,必须着眼于帧间编码。从减少帧间压缩编码的时间角度和提高压缩编码效率的角度出发,将前沿的基于学习的深度学习方法引入视频压缩编码可以自适应的消除帧间预测中时间域与空间域的相关性,从而更好的提高视频压缩编码效率。因而,将深度学习应用在视频压缩编码领域已经势不可挡。
发明内容
本发明主要考虑了视频压缩编码的流程以及深度学习在视频编码领域的可应用性。如何将深度学习前沿的机器学习方法应用于视频压缩领域,从而提高视频压缩编码效率以及速度是值得探讨的问题。
本发明解决其技术问题所采用的技术方案步骤如下:
步骤1:获取由基本的运动估计和运动补偿组成的原始视频帧间预测的峰值信噪比PSNR1;
1-1.对相邻帧进行运动估计;
1-2.对相邻帧进行运动补偿;
1-3.计算原始视频帧间预测的PSNR值PSNR1;
步骤2:引入SRCNN模型对帧间图片进行训练得到权重矩阵与偏差矩阵,对SRCNN模型的参数进行修改,并对网络进行调整从而,得到最优的训练参数;
步骤3:将训练得到的模型对测试图片进行测试,得出由SRCNN模型测试的结果PSNR2,对PSNR1与PSNR2进行比较,得出SRCNN模型应用于帧间预测编码的可行性;
步骤4:将SRCNN模型应用于最新编码标准HEVC提供的官方代码HM16.0中;
4-1.测试用了SRCNN模型的帧间预测PSNR值记做PSNR3;
4-2.测试没用SRCNN模型的帧间预测PSNR值记做PSNR4;
4-3.比较PSNR3与PSNR4并得出相关节结论。
步骤1-1所述的对相邻帧进行运动估计,具体实现如下:
对于原始视频序列中前一帧中的某一块Ⅰ,在后一帧对应位置的块Ⅱ周边的搜索区域内找到与之最相似的块Ⅲ,其中前一帧设为第i帧,记做im_src;后一帧设为第i+1帧,记做im_actual;
比较块Ⅰ和块Ⅲ的位移变化并获得一个运动矢量;从而对于第i帧的每一块区域都能获得相应的运动矢量;
所述的搜索区域设置为20。
步骤1-2所述的对相邻帧进行运动补偿,具体实现如下:
用前后两帧运动估计得到的运动矢量来对第i帧图片的每一块区域进行补偿,即对于某一块得到的运动矢量直接加在该块上;从而对于第i帧的每一块都能获得一个运动补偿后的结果,最后得到图片im_output。
步骤1-3所述的计算原始视频帧间预测的PSNR值PSNR1,具体实现如下:
PSNR值名为峰值信噪比,具体的PSNR1计算公式如下
公式中的n表示图片的比特数,由于图片是8比特,因而n=8,MSE指的是两张图片的均方误差,I和J分别为两张图片,m和n分别是图片的长和宽;在我们的方法中,I和J分别是图片im_actual与im_output;从而得到PSNR1。
步骤2所述的引入SRCNN模型对帧间图片进行训练得到权重矩阵与偏差矩阵,对SRCNN模型的参数进行修改,并对网络进行调整从而,得到最优的训练参数;具体实现如下:
首先将前一帧(第i帧)的图片组成一个集合Ⅰ,集合Ⅰ相当于卷积神经网络的输入集合(需要将每一张图片分成f1×f1的小块当做输入),同时将后一帧(第i+1帧)的图片组成一个集合Ⅱ,集合Ⅱ相当于卷积神经网络的label,进行一个训练操作;在训练操作过程中,不断查看loss值,执行300000次迭代,以loss曲线为是否达到迭代次数标准,防止过拟合;训练最终得到一个权重矩阵文件和一个偏差矩阵文件;此模型训练需要三个网络,三个网络的作用以及执行方法具体如下:
2-1.小块提取和表示
F1(Y)=max(0,W1*Y+B1) (2)
其中,Y是输入的图片,实际上为f1×f1的小块;W1是由训练第一层网络生成的一个权重矩阵文件,本质上是一个滤波器或者卷积核,大小为c×f1×f1×n1,n1代表滤波器的数量,c为常数;B1是由训练第一层网络生成的一个偏差矩阵文件,大小为n1×1的向量;
2-2.非线性映射
F2(Y)=max(0,W2*F1(Y)+B2) (3)
式中,F1(Y)是第一层网络的输出,也就是第二层网络的输入,W2是由训练第二层网络生成的一个权重矩阵文件,大小为n1×1×1×n2,n2代表滤波器的数量;B2是由训练第二层网络生成的一个偏差矩阵文件,大小为n1×1的向量;
2-3.非线性映射
F3(Y)=max(0,W3*F2(Y)+B3) (4)
式中,F2(Y)是第一层网络的输出,也就是第二层网络的输入,W3是由训练第三层网络生成的一个权重矩阵文件,大小为n2×f1×f1×c,B3是由训练第三层网络生成的一个偏差文件,大小为n1×1的向量;
2-4.在训练过程中不断将输出F3(Y)与label进行比较,以两者之间最小的误差为基准,生成一组W1,W2,W3,B1,B2,B3
步骤3所述的将训练得到的模型对测试图片进行测试,得出由SRCNN模型测试的结果PSNR2,对PSNR1与PSNR2进行比较,得出SRCNN模型应用于帧间预测编码的可行性;具体实现如下:
3-1.对图片im_src进行双三次插值预处理操作;
3-2.将预处理后的图片作为输入,利用得到的参数进行三层网络卷积操作得到输出图片im_output_srcnn;
3-3.比较im_actual与im_output_srcnn的PSNR值得到PSNR2;
3-4.比较PSNR2与PSNR1之间的值,若PSNR2大于PSNR1,则该块为运动剧烈的块,若PSNR2小于等于PSNR1,则该块为运动静止不变的块。
步骤4所述的将SRCNN模型应用于最新编码标准HEVC提供的官方代码HM16.0中,具体实现如下:
4-1.在hevc官方提供的代码HM16.0中,找出用于帧间预测的图像帧buffer,并将图像帧buffer中运动剧烈的块找出来,将SRCNN模型先作用于这些块,再执行后续的官方代码的操作,将测试用了SRCNN模型的帧间预测PSNR值记做PSNR3;
4-2.将测试没用SRCNN模型的帧间预测PSNR值记做PSNR4;
4-3.比较PSNR3与PSNR4并得出相关节结论,若图像帧buffer中用了SRCNN模型的块,PSNR值会提高,即帧间的编码效率是提高的。
本发明有益效果如下:
本发明通过引进SRCNN模型,首先与最基本的帧间预测方法的结果进行比较,得出SRCNN模型作用于帧间预测的可行性之后,再进一步将SRCNN模型应用到最新的编码标准HEVC中,从而提高视频编码的效果。本发明的创新性在于将深度学习应用在了帧间编码领域,这是深度学习所没有应用到的地方,创新程度比较高,并且也能提高帧间运动剧烈块的编码效率。
附图说明
图1:SRCNN模型的网络结构图;
具体实施方式
下面结合具体实施方式对本发明进行详细的说明。
如图1所示,一种基于深度学习的提高视频压缩编码效率的方法,按照以下步骤进行操作:
步骤一、以foreman、flowers视频序列为例,获取原始帧间预测(最基本运动估计与运动补偿)后得到的图片与真实图片之间的峰值信噪比PSNR1,获取此PSNR1的具体方法如下:
a.基于块的运动估计:
运动估计是指从视频序列中抽取运动信息的一整套技术,研究的主要内容就是如何快速有效的获得足够的运动矢量。具体的方法是对于foreman视频序列的前一帧(第i帧,记做im_src)中的某一块在后一帧(第i+1帧,记做im_actual)对应位置的块周边的搜索区域内(在我们的方法中搜索区域设置为20)找到与之最相似的块,并比较二者位移变化并获得一个运动矢量。从而对于第i帧的每一块区域都能获得相应的运动矢量。
b.运动补偿:
运动补偿是是通过先前的局部图像来预测、补偿当前的局部图像,它是减少帧序列冗余信息的有效方法。在我们的方法中,用前后两帧运动估计得到的运动向量来对第i帧图片的每一块区域进行补偿,即对于某一块得到的运动向量直接加在此块上。从而对于第i帧的每一块都能获得一个运动补偿后的结果,最后得到图片im_output。
c.计算原始帧间预测的PSNR值,记做PSNR1:
PSNR值名为峰值信噪比,它是目前衡量处理后图像品质的一个最官方的标准,具体的PSNR计算公式如下
公式中的n表示图片的比特数,由于我们的图片是8比特,因而n=8,MSE指的是两张图片的均方误差,I和J分别为两张图片,m和n分别是图片的长和宽。在我们的方法中,I和J分别是图片im_actual与im_output。从而得到PSNR1。
步骤二、利用SRCNN模型对帧间图片进行训练得到权重矩阵与偏差矩阵。
首先将前一帧(第i帧)的图片组成一个集合1,集合1相当于卷积神经网络的输入集合(需要将每一张图片分成f1×f1的小块当做输入),同时将后一帧的图片(第i+1帧)组成一个集合2,集合2相当于卷积神经网络的label,进行一个训练操作。在训练过程中,不断查看loss值,执行300000此迭代,以loss曲线为是否达到迭代次数标准,防止过拟合。训练最终得到一个权重矩阵文件和一个偏差矩阵文件。此模型训练需要三个网络,三个网络的作用以及执行方法具体如下:
a.小块提取和表示
F1(Y)=max(0,W1*Y+B1) (2)
其中Y是上输入的图片,实际上为f1×f1的小块。W1是由训练第一层网络生成的一个权重矩阵文件,本质上是一个滤波器或者卷积核,大小为c×f1×f1×n1,n1代表滤波器的数量c为常数。B1是由训练第一层网络生成的一个偏差文件,大小为n1×1的向量。
b.非线性映射
F2(Y)=max(0,W2*F1(Y)+B2) (3)
式中F1(Y)是第一层网络的输出,也就是第二层网络的输入,W2是由训练第二层网络生成的一个权重矩阵文件,大小为n1×1×1×n2,B2是由训练第二层网络生成的一个偏差文件,大小为n1×1的向量。
c.非线性映射
F3(Y)=max(0,W3*F2(Y)+B3) (4)
式中F2(Y)是第一层网络的输出,也就是第二层网络的输入,W3是由训练第三层网络生成的一个权重矩阵文件,大小为n2×f1×f1×c,B3是由训练第三层网络生成的一个偏差文件,大小为n1×1的向量。
在训练中,不断将输出F3(Y)与label进行比较,以两者之间最小的误差为基准,生成一组W1,W2,W3,B1,B2,B3
步骤三、将训练得到的参数对测试图片进行测试。
在执行此步骤时,我们的方法是对图片im_src进行了双三次插值预处理操作,然后将预处理的图片作为输入利用得到的参数进行三层网络卷积操作得到输出图片im_output_srcnn,通过比较im_actual与im_output_srcnn的PSNR值得到PSNR2,比较PSNR2与PSNR1之间的值。在我们的实验结果中,对于运动剧烈的块,PSNR2比PSNR1要大0.2~0.5dB左右,而对于运动静止不变的块,PSNR2比PSNR1要小。这样证明了SRCNN模型在用于帧间预测这一块对于运动剧烈的块是比较有用的
步骤四、将SRCNN模型应用于HM代码中
在hevc官方提供的代码HM16.0中,找出用于帧间预测的图像帧buffer,并在图像帧buffer中运动剧烈的块找出来,将我们的SRCNN模型先作用于这些块中再执行后续的官方代码的操作,并比较用了SRCNN模型进行视频编码的PSNR值PSNR3与没用SRCNN模型进行视频编码的PSNR4之间的大小关系。得出的结果是对于帧中用了SRCNN模型的块,PSNR值会提高,即帧间的编码效率是提高的。

Claims (7)

1.一种基于深度学习的提高视频压缩编码效率的方法,其特征在于包括如下步骤:
步骤1:获取由基本的运动估计和运动补偿组成的原始视频帧间预测的峰值信噪比PSNR1;
1-1.对相邻帧进行运动估计;
1-2.对相邻帧进行运动补偿;
1-3.计算原始视频帧间预测的PSNR值PSNR1;
步骤2:引入SRCNN模型对帧间图片进行训练得到权重矩阵与偏差矩阵,对SRCNN模型的参数进行修改,并对网络进行调整从而,得到最优的训练参数;
步骤3:将训练得到的模型对测试图片进行测试,得出由SRCNN模型测试的结果PSNR2,对PSNR1与PSNR2进行比较,得出SRCNN模型应用于帧间预测编码的可行性;
步骤4:将SRCNN模型应用于最新编码标准HEVC提供的官方代码HM16.0中;
4-1.测试用了SRCNN模型的帧间预测PSNR值记做PSNR3;
4-2.测试没用SRCNN模型的帧间预测PSNR值记做PSNR4;
4-3.比较PSNR3与PSNR4并得出相关节结论。
2.根据权利要求1所述的一种基于深度学习的提高视频压缩编码效率的方法,其特征在于步骤1-1所述的对相邻帧进行运动估计,具体实现如下:
对于原始视频序列中前一帧中的某一块Ⅰ,在后一帧对应位置的块Ⅱ周边的搜索区域内找到与之最相似的块Ⅲ,其中前一帧设为第i帧,记做im_src;后一帧设为第i+1帧,记做im_actual;
比较块Ⅰ和块Ⅲ的位移变化并获得一个运动矢量;从而对于第i帧的每一块区域都能获得相应的运动矢量;
所述的搜索区域设置为20。
3.根据权利要求2所述的一种基于深度学习的提高视频压缩编码效率的方法,其特征在于步骤1-2所述的对相邻帧进行运动补偿,具体实现如下:
用前后两帧运动估计得到的运动矢量来对第i帧图片的每一块区域进行补偿,即对于某一块得到的运动矢量直接加在该块上;从而对于第i帧的每一块都能获得一个运动补偿后的结果,最后得到图片im_output。
4.根据权利要求3所述的一种基于深度学习的提高视频压缩编码效率的方法,其特征在于步骤1-3所述的计算原始视频帧间预测的PSNR值PSNR1,具体实现如下:
PSNR值名为峰值信噪比,具体的PSNR1计算公式如下
<mrow> <mtable> <mtr> <mtd> <mrow> <mi>P</mi> <mi>S</mi> <mi>N</mi> <mi>R</mi> <mn>1</mn> <mo>=</mo> <mn>10</mn> <msub> <mi>log</mi> <mn>10</mn> </msub> <mrow> <mo>(</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mn>2</mn> <mi>n</mi> </msup> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mi>M</mi> <mi>S</mi> <mi>E</mi> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>M</mi> <mi>S</mi> <mi>E</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>m</mi> <mi>n</mi> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>|</mo> <mo>|</mo> <mi>I</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>J</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
公式中的n表示图片的比特数,由于图片是8比特,因而n=8,MSE指的是两张图片的均方误差,I和J分别为两张图片,m和n分别是图片的长和宽;在我们的方法中,I和J分别是图片im_actual与im_output;从而得到PSNR1。
5.根据权利要求4所述的一种基于深度学习的提高视频压缩编码效率的方法,其特征在于步骤2所述的引入SRCNN模型对帧间图片进行训练得到权重矩阵与偏差矩阵,对SRCNN模型的参数进行修改,并对网络进行调整从而,得到最优的训练参数;具体实现如下:
首先将前一帧(第i帧)的图片组成一个集合Ⅰ,集合Ⅰ相当于卷积神经网络的输入集合(需要将每一张图片分成f1×f1的小块当做输入),同时将后一帧(第i+1帧)的图片组成一个集合Ⅱ,集合Ⅱ相当于卷积神经网络的label,进行一个训练操作;在训练操作过程中,不断查看loss值,执行300000次迭代,以loss曲线为是否达到迭代次数标准,防止过拟合;训练最终得到一个权重矩阵文件和一个偏差矩阵文件;此模型训练需要三个网络,三个网络的作用以及执行方法具体如下:
2-1.小块提取和表示
F1(Y)=max(0,W1*Y+B1) (2)
其中,Y是输入的图片,实际上为f1×f1的小块;W1是由训练第一层网络生成的一个权重矩阵文件,本质上是一个滤波器或者卷积核,大小为c×f1×f1×n1,n1代表滤波器的数量,c为常数;B1是由训练第一层网络生成的一个偏差矩阵文件,大小为n1×1的向量;
2-2.非线性映射
F2(Y)=max(0,W2*F1(Y)+B2) (3)
式中,F1(Y)是第一层网络的输出,也就是第二层网络的输入,W2是由训练第二层网络生成的一个权重矩阵文件,大小为n1×1×1×n2,n2代表滤波器的数量;B2是由训练第二层网络生成的一个偏差矩阵文件,大小为n1×1的向量;
2-3.非线性映射
F3(Y)=max(0,W3*F2(Y)+B3) (4)
式中,F2(Y)是第一层网络的输出,也就是第二层网络的输入,W3是由训练第三层网络生成的一个权重矩阵文件,大小为n2×f1×f1×c,B3是由训练第三层网络生成的一个偏差文件,大小为n1×1的向量;
2-4.在训练过程中不断将输出F3(Y)与label进行比较,以两者之间最小的误差为基准,生成一组W1,W2,W3,B1,B2,B3
6.根据权利要求5所述的一种基于深度学习的提高视频压缩编码效率的方法,其特征在于步骤3所述的将训练得到的模型对测试图片进行测试,得出由SRCNN模型测试的结果PSNR2,对PSNR1与PSNR2进行比较,得出SRCNN模型应用于帧间预测编码的可行性;具体实现如下:
3-1.对图片im_src进行双三次插值预处理操作;
3-2.将预处理后的图片作为输入,利用得到的参数进行三层网络卷积操作得到输出图片im_output_srcnn;
3-3.比较im_actual与im_output_srcnn的PSNR值得到PSNR2;
3-4.比较PSNR2与PSNR1之间的值,若PSNR2大于PSNR1,则该块为运动剧烈的块,若PSNR2小于等于PSNR1,则该块为运动静止不变的块。
7.根据权利要求6所述的一种基于深度学习的提高视频压缩编码效率的方法,其特征在于步骤4所述的将SRCNN模型应用于最新编码标准HEVC提供的官方代码HM16.0中,具体实现如下:
4-1.在hevc官方提供的代码HM16.0中,找出用于帧间预测的图像帧buffer,并将图像帧buffer中运动剧烈的块找出来,将SRCNN模型先作用于这些块,再执行后续的官方代码的操作,将测试用了SRCNN模型的帧间预测PSNR值记做PSNR3;
4-2.将测试没用SRCNN模型的帧间预测PSNR值记做PSNR4;
4-3.比较PSNR3与PSNR4并得出相关节结论,若图像帧buffer中用了SRCNN模型的块,PSNR值会提高,即帧间的编码效率是提高的。
CN201711044430.3A 2017-10-31 2017-10-31 一种基于深度学习的提高视频压缩编码效率的方法 Active CN107820085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711044430.3A CN107820085B (zh) 2017-10-31 2017-10-31 一种基于深度学习的提高视频压缩编码效率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711044430.3A CN107820085B (zh) 2017-10-31 2017-10-31 一种基于深度学习的提高视频压缩编码效率的方法

Publications (2)

Publication Number Publication Date
CN107820085A true CN107820085A (zh) 2018-03-20
CN107820085B CN107820085B (zh) 2021-02-26

Family

ID=61603024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711044430.3A Active CN107820085B (zh) 2017-10-31 2017-10-31 一种基于深度学习的提高视频压缩编码效率的方法

Country Status (1)

Country Link
CN (1) CN107820085B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833925A (zh) * 2018-07-19 2018-11-16 哈尔滨工业大学 一种混合视频编解码系统中基于深度神经网络的帧间预测方法
CN109168003A (zh) * 2018-09-04 2019-01-08 中国科学院计算技术研究所 一种生成用于视频预测的神经网络模型的方法
CN109492772A (zh) * 2018-11-28 2019-03-19 北京百度网讯科技有限公司 生成信息的方法和装置
CN111277837A (zh) * 2020-01-21 2020-06-12 济南浪潮高新科技投资发展有限公司 一种应用于视频压缩技术的运动补偿方法
CN111937392A (zh) * 2018-04-17 2020-11-13 联发科技股份有限公司 视频编解码的神经网络方法和装置
CN111953971A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 视频处理方法、视频处理装置及终端设备
US11165559B2 (en) 2019-01-07 2021-11-02 International Business Machines Corporation Machine learning based video compression

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557812A (zh) * 2016-11-21 2017-04-05 北京大学 基于dct变换的深度卷积神经网络压缩与加速方案
CN106651887A (zh) * 2017-01-13 2017-05-10 深圳市唯特视科技有限公司 一种基于卷积神经网络的图像像素分类方法
CN106713929A (zh) * 2017-02-16 2017-05-24 清华大学深圳研究生院 一种基于深度神经网络的视频帧间预测增强方法
US20170193680A1 (en) * 2016-01-04 2017-07-06 Kla-Tencor Corporation Generating high resolution images from low resolution images for semiconductor applications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193680A1 (en) * 2016-01-04 2017-07-06 Kla-Tencor Corporation Generating high resolution images from low resolution images for semiconductor applications
CN106557812A (zh) * 2016-11-21 2017-04-05 北京大学 基于dct变换的深度卷积神经网络压缩与加速方案
CN106651887A (zh) * 2017-01-13 2017-05-10 深圳市唯特视科技有限公司 一种基于卷积神经网络的图像像素分类方法
CN106713929A (zh) * 2017-02-16 2017-05-24 清华大学深圳研究生院 一种基于深度神经网络的视频帧间预测增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
_: "Learning a Deep Convolutional Network for Image Super - resolution", 《百度文库》 *
杨嘉琛等: "基于PSNR立体图像质量客观评价方法", 《天津大学学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111937392A (zh) * 2018-04-17 2020-11-13 联发科技股份有限公司 视频编解码的神经网络方法和装置
CN111937392B (zh) * 2018-04-17 2024-05-10 联发科技股份有限公司 视频编解码的神经网络方法和装置
CN108833925A (zh) * 2018-07-19 2018-11-16 哈尔滨工业大学 一种混合视频编解码系统中基于深度神经网络的帧间预测方法
CN108833925B (zh) * 2018-07-19 2020-09-11 哈尔滨工业大学 一种基于深度神经网络的帧间预测方法
CN109168003A (zh) * 2018-09-04 2019-01-08 中国科学院计算技术研究所 一种生成用于视频预测的神经网络模型的方法
CN109168003B (zh) * 2018-09-04 2020-11-03 中国科学院计算技术研究所 一种生成用于视频预测的神经网络模型的方法
CN109492772A (zh) * 2018-11-28 2019-03-19 北京百度网讯科技有限公司 生成信息的方法和装置
CN109492772B (zh) * 2018-11-28 2020-06-23 北京百度网讯科技有限公司 生成信息的方法和装置
US11165559B2 (en) 2019-01-07 2021-11-02 International Business Machines Corporation Machine learning based video compression
CN111953971A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 视频处理方法、视频处理装置及终端设备
CN111953971B (zh) * 2019-05-16 2023-03-14 武汉Tcl集团工业研究院有限公司 视频处理方法、视频处理装置及终端设备
CN111277837A (zh) * 2020-01-21 2020-06-12 济南浪潮高新科技投资发展有限公司 一种应用于视频压缩技术的运动补偿方法

Also Published As

Publication number Publication date
CN107820085B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN107820085A (zh) 一种基于深度学习的提高视频压缩编码效率的方法
CN102137263B (zh) 基于cnm关键帧分类的分布式视频编码及解码方法
US8503522B2 (en) Video encoding/decoding apparatus and adaptive overlapped block motion compensation method and apparatus employing adaptive weights therefor
CN110087087A (zh) Vvc帧间编码单元预测模式提前决策及块划分提前终止方法
CN107105278A (zh) 运动矢量自动生成的视频编解码框架
CN101610413B (zh) 一种视频的编码/解码方法及装置
CN104837019B (zh) 基于支持向量机的avs到hevc优化视频转码方法
CN102263951B (zh) 一种快速的分形视频压缩与解压缩方法
CN101668202A (zh) 帧内预测模式的选择方法和装置
CN104023216B (zh) 人脸视频压缩方法
CN109982092B (zh) 基于多分支循环卷积神经网络的hevc帧间快速方法
CN106713929A (zh) 一种基于深度神经网络的视频帧间预测增强方法
Vasa et al. Coddyac: Connectivity driven dynamic mesh compression
CN110290386B (zh) 一种基于生成对抗网络的低码率人体运动视频编码系统及方法
CN106170093A (zh) 一种帧内预测性能提升编码方法
CN110351561B (zh) 一种用于视频编码优化的高效强化学习训练方法
CN113132727B (zh) 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
Tan et al. Sdnet: mutil-branch for single image deraining using swin
CN105163126B (zh) 一种基于hevc协议的硬件解码方法和装置
CN113852813A (zh) 基于注意力机制的压缩视频修复与画质增强方法及系统
CN101299818A (zh) 基于整像素搜索结果的n级亚像素搜索方法及其装置
WO2023024115A1 (zh) 编码方法、解码方法、编码器、解码器和解码系统
CN113068041B (zh) 一种智能仿射运动补偿编码方法
CN109151476A (zh) 一种基于双向预测的b帧图像的参考帧生成方法及装置
CN107343202A (zh) 基于附加码率的无反馈分布式视频编解码方法及移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yan Chenggang

Inventor after: Li Zhisheng

Inventor after: Zhang Yongbing

Inventor after: Zhang Teng

Inventor after: Zhao Chongyu

Inventor before: Li Zhisheng

Inventor before: Yan Chenggang

Inventor before: Zhang Yongbing

Inventor before: Zhang Teng

Inventor before: Zhao Chongyu

GR01 Patent grant
GR01 Patent grant