CN108924558B - 一种基于神经网络的视频预测编码方法 - Google Patents

一种基于神经网络的视频预测编码方法 Download PDF

Info

Publication number
CN108924558B
CN108924558B CN201810653610.XA CN201810653610A CN108924558B CN 108924558 B CN108924558 B CN 108924558B CN 201810653610 A CN201810653610 A CN 201810653610A CN 108924558 B CN108924558 B CN 108924558B
Authority
CN
China
Prior art keywords
coding
neural network
unit
layer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810653610.XA
Other languages
English (en)
Other versions
CN108924558A (zh
Inventor
赵丽丽
张梦
王文一
张汝民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810653610.XA priority Critical patent/CN108924558B/zh
Publication of CN108924558A publication Critical patent/CN108924558A/zh
Application granted granted Critical
Publication of CN108924558B publication Critical patent/CN108924558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于神经网络的视频预测编码方法,涉及视频压缩编码技术领域,本发明包括S1、输入大小为64×64的编码树单元,通过贝叶斯分类器对其进行粗判断,判断是否采用SKIP模式,若是,则判定当前编码树单元不往下划分,直接得到编码树单元的编码单元大小决策,否则,执行S2;S2、通过三支神经网络并行对编码树单元的深度进行编码单元分块决策,得到编码单元的分块结果;S3、由S2中得到的编码单元分块结果得到编码单元大小决策;S4、根据S1或S3中得到的编码单元大小决策进行预测编码,得到编码结果,本发明在确保编码性能的前提下,能够大大降低编码复杂度,提高编码效率。

Description

一种基于神经网络的视频预测编码方法
技术领域
本发明涉及视频压缩编码技术领域,更具体的是涉及一种基于神经网络的视频预测编码方法。
背景技术
视频编码一般也指视频压缩,其采用预测、变换、量化和熵编码等方式,尽可能地减少视频数据中的冗余,使用尽可能少的数据来表征视频。但在现有网络的带宽限制下,视频编码后的失真度较大,最终呈现的视频观看结果不佳。
传统的视频编码是基于HEVC标准,采用分层的四叉树结构,引入编码树单元(CTU)、编码单元(CU)和预测单元(PU),通过四叉树遍历的方法对编码单元的大小和预测单元的模式进行选择,HM编码器采用了基于率失真优化(Rate Distortion Optimization,RDO)的全搜索遍历模式选择算法,在HM编码器中,一个编码树单元中编码单元的大小和预测单元的模式选择的优化过程在HM编码器中表现为递归过程。
率失真是图像失真度(distortion)和编码码率两者之间的相互关系,其中图像失真度是指重建块和原始块的图像的差值,编码码率是指编码块经过预测编码得到的残差,再经过变换、量化最后得到的编码信息,率失真优化是指在尽可能小的编码码率下,得到的图像失真度也尽可能的小,从而使得编码器的编码效率达到最高。
在HM编码器中,一幅图像首先被分为一系列的编码树单元,每个编码树单元再继续分为编码单元,对于深度为X的编码单元,深度加1,则当前编码单元分为4个子编码单元,深度层次由0到3,对应的编码单元大小由64×64到8×8,如图1所示。在每个深度层次,一个编码单元可以分成2到4个预测单元,而预测单元的大小又有2N×2N,2N×N,N×2N,2N×nU,2N×nD,nR×2N,nL×2N等多种尺寸,HEVC标准同H.264类似,采用的是遍历所有可能的编码单元的大小和预测单元的所有模式,找出其中率失真代价最小的模式,将它作为最佳模式,以此来决定编码单元的分割形式,这种算法称为全搜索遍历算法。
如图2和图3所示,一个编码单元是否往下分由当前编码单元的率失真代价(RateDistortion cost,RD cost)和下一层的4个更小的编码单元的率失真代价的和进行比较,如果当前编码单元的率失真代价更小,则不再往下分割,否则便将当前编码单元划分成更小的4个编码单元,编码器从深度为3时依次往上迭代,从而得到一个编码树单元的划分结构。
在帧内编码环节,许多地方的模式决策都是使用的率失真优化模块计算搜索每种编码决策的率失真代价,选取率失真代价最小的一种编码决策,虽然现有的这种编码方法确保了编码的失真最小,但是其遍历每种编码决策的方式大大增加了编码的复杂度,对编码器的硬件要求也很高。
发明内容
本发明的目的在于:为了解决现有利用率失真优化递归搜索每种编码决策,导致编码的复杂度剧增的问题,本发明提供一种基于神经网络的视频预测编码方法。
本发明为了实现上述目的具体采用以下技术方案:
一种基于神经网络的视频预测编码方法,包括如下步骤:
S1、输入大小为64×64的编码树单元,通过贝叶斯分类器对其进行粗判断,判断是否采用SKIP模式,若是,则判定当前编码树单元不往下划分,使用SKIP作为最终的模式,不再划分编码单元,直接得到编码树单元的编码单元大小决策,否则,执行S2;
S2、通过三支神经网络并行对编码树单元的深度进行编码单元分块决策,得到编码单元的分块结果;
S3、由S2中得到的编码单元分块结果得到编码单元大小决策;
S4、根据S1或S3中得到的编码单元大小决策进行预测编码,得到编码结果。
进一步的,所述S2中的三支神经网络的前两支基于残差卷积神经网络,第三支基于卷积神经网络,所述三支神经网络分别对编码树单元进行深度为0、1和2的划分决策判断。
进一步的,所述三支神经网络中的前两支神经网络均包括卷积层、bottleneck层、全连接层和池化层,第三支神经网络包括卷积层和全连接层。
进一步的,所述三支神经网络的决策方法如下:
64×64的编码树单元在第一支神经网络依次通过卷积层、bottleneck层、池化层和全连接层得到深度为0的编码单元的分块结果;
64×64的编码树单元等分为4个32×32的编码单元,4个32×32的编码单元依次输入第二支神经网络,通过卷积层、bottleneck层、池化层和全连接层后得到每个32×32的编码单元的划分结果,即得到深度为1的编码单元的分块结果;
64×64的编码树单元等分为16个16×16的编码单元,16个16×16的编码单元依次输入第三支神经网络,通过卷积层和全连接层后得到每个16×16的编码单元的划分结果,即得到深度为2的编码单元的分块结果;
通过三支神经网络,输入一个编码树单元的情况下,能够得到三层网络的分块结果,提高了编码效率,降低了编码复杂度。
进一步的,所述S2中的三支神经网络采用训练数据集进行了训练,训练方法如下:
步骤一、对训练数据集中的图像进行数据增广的预处理;
步骤二、对预处理后的图像数据进行0-1正则化;
步骤三、正则化后的图像输入第一支神经网络,正则化后的图像4等分后输入第二支神经网络,正则化后的图像16等分后输入第三支神经网络,对三支神经网络进行训练。
进一步的,所述步骤一中对训练数据集中的图像进行数据增广的预处理具体包括四种图像变换,所述四种图像变换具体是:
a、水平、垂直翻转图像;
b、180°旋转图像;
c、随机改变图像亮度和饱和度;
d、向图像加入随机光噪声。
本发明的有益效果如下:
1、本发明的方法首先通过贝叶斯分类器提前判断出是否采用SKIP模式,并且通过三支神经网络并行对编码树单元的三个深度的编码单元进行划分决策,替代了基于率失真优化的全搜索遍历模式选择的算法,大大降低了编码的复杂度,同时也降低了对编码器的硬件需求。
2、本发明的三支神经网络并行对编码树单元的深度进行决策,由于随着深度的增加,神经网络需要决策的分块也增加,因此第一支神经网络完成决策的时间少于第二支神经网络,第二支神经网络完成决策的时间少于第三支神经网络,当深度为0的编码单元的分块结果出现后,第二支神经网络和第三支神经网络还未结束决策,故能够根据第一支神经网络的决策结果决定第二支神经网络和第三支神经网络是否继续,同样的,能够通过第二支神经网络的决策结果决定第三支神经网络是否继续,通过并行决策,能够优化决策流程,一次输入,能够同时得到编码树单元三个深度的编码单元的划分结果,降低了编码复杂度。
附图说明
图1是四叉树划分结构。
图2是分块决策示意图。
图3是分块决策判断示意图。
图4是本发明的流程框图。
图5是神经网络结构示意图。
具体实施方式
为了本技术领域的人员更好的理解本发明,下面结合附图和以下实施例对本发明作进一步详细描述。
实施例1
如图4和图5所示,本实施例提供一种基于神经网络的视频预测编码方法,包括如下步骤:
S1、输入大小为64×64的编码树单元,通过贝叶斯分类器对其进行粗判断,判断是否采用的SKIP模式,若是,则判定当前编码树单元不往下划分,直接得到编码树单元的编码单元大小决策,否则,执行S2;
所述贝叶斯分类器的判断方法如下:
将是否采用SKIP模式考虑为一个二分类问题,两个类别分别标记为y1和y2,P(yj)是先验概率,类的条件概率是P(x|yj),j是两个类别的标记,可以取1或2,代表不执行SKIP或执行,P(yj|x)为后验概率,计算公式为:
Figure BDA0001705329900000041
当P(y1|x)>P(y2|x),判别结果为y1,否则为y2
即结果为y1,当P(x|y1)P(y1)>P(x|y2)P(y2); ②
φm(k,l)代表编码单元深度为l的第m个编码块的模式为SKIP,那么一个序列QP=k,编码单元深度为l的模式为SKIP的概率的计算公式为:
Figure BDA0001705329900000042
P(non_skip)=1-P(skip) ④
其中,N为编码块的个数,在编码完整个视频序列后可知,
Figure BDA0001705329900000045
表示量化参数QP为k,整个序列中,深度为l的编码的编码单元的个数;当编码单元为SKIP模式时,φm(k,l)值为1,否则为0;
通过计算参考帧和当前帧的熵的差值绝对值计算条件概率,具体公式为:
Figure BDA0001705329900000043
ΔHk(i)=|Hcur(i)-Hk(i)| ⑥
其中,Hcur(i)是当前帧的熵,Hk(i)是参考帧的熵;
Figure BDA0001705329900000044
Figure BDA0001705329900000051
Nskip和Nnon-skip分别表示已经编码的编码单元中SKIP模式和非SKIP模式的数量,t表示当前编码时刻;
Figure BDA0001705329900000052
Figure BDA0001705329900000053
分别表示深度值为l时,SKIP模式和非SKIP模式的熵的差值,均可由公式⑤和公式⑥计算得到,通过公式⑦和公式⑧能够得出当前编码单元在编码时刻t时所用到的跳过的和非跳过的编码块的平均熵;
Figure BDA0001705329900000054
Figure BDA0001705329900000055
在merge模式下,预测单元要建立MV候选列表,对于B slice存在两个MV,因此MV候选列表也需要提供两个预测MV,即列表0和1;L0和L1是分别来自于列表0和1的参考帧;
Merger模式可以看成是一种编码模式,即当前预测单元由空域上临近的预测单元预测得到;通过公式⑨和公式⑩能够计算得到SKIP模式和非SKIP模式的熵的差的距离;
判断是SKIP模式的条件为:P(skip)×Dskip>P(non_skip)×Dnon-skip
S2、通过三支神经网络并行对编码树单元的深度进行编码单元分块决策,得到编码单元的分块结果;所述三支神经网络的前两支基于残差卷积神经网络,第三支基于卷积神经网络,所述三支神经网络分别对深度为0、1和2的编码树单元进行分块决策判断;
64×64的编码树单元在第一支神经网络依次通过卷积层、bottleneck层、池化层和全连接层得到深度为0的编码单元的分块结果;
64×64的编码树单元等分为4个32×32的编码单元,4个32×32的编码单元依次输入第二支神经网络,通过卷积层、bottleneck层、池化层和全连接层后得到每个32×32的编码单元的划分结果,即得到深度为1的编码单元的分块结果;
64×64的编码树单元等分为16个16×16的编码单元,16个16×16的编码单元依次输入第三支神经网络,通过卷积层和全连接层后得到每个16×16的编码单元的划分结果,即得到深度为2的编码单元的分块结果,一次输入,便能够同时得到编码单元三个深度的块划分结果;
S3、由S2中得到的编码单元分块结果得到编码单元大小决策;
S4、根据S1或S3中得到的编码单元大小决策进行预测编码,本实施例中的预测编码为帧内和帧间预测,最终得到编码结果。
实施例2
本实施例在实施例1的基础之上进一步优化,具体是:
所述S2中的三支神经网络采用训练数据集进行了训练,训练方法如下:
步骤一、对训练数据集中的图像进行数据增广的预处理;
步骤二、对预处理后的图像数据进行0-1正则化;
步骤三、正则化后的图像输入第一支神经网络,正则化后的图像4等分后输入第二支神经网络,正则化后的图像16等分后输入第三支神经网络,对三支神经网络进行训练;
所述步骤一中对训练数据集中的图像进行数据增广的预处理具体包括四种图像变换,所述四种图像变换具体是:
a、水平、垂直翻转图像;
b、180°旋转图像;
c、随机改变图像亮度和饱和度;
d、向图像加入随机光噪声;
本实施例中的训练数据集采用“Raise:araw images dataset for digitalimage forensics”,但不限于此数据集;
本实施例中每支神经网络输出的神经元均通过激活函数激活,所述激活函数采用LReLU:f(x)=max(0,x)+min(0,x);
通过本实施例的方法,在评估标准(编码效率和编码复杂度)
编码效率:BjontegaarDelta Bit Rate(BDBR)、BjontegaardDelta Peak Signal-to-Noise Ratio(BD-PSNR)的情况下,
编码复杂度
Figure BDA0001705329900000061
与采用率失真优化的方法相比较,本实施例的复杂度减少了61.93%,BD-PSNR为-0.363%,BDBR为7.412%。
以上所述,仅为本发明的较佳实施例,并不用以限制本发明,本发明的专利保护范围以权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (5)

1.一种基于神经网络的视频预测编码方法,其特征在于,包括如下步骤:
S1、输入大小为64×64的编码树单元,通过贝叶斯分类器对其进行粗判断,判断是否采用SKIP模式,若是,则判定当前编码树单元不往下划分,直接得到编码树单元的编码单元大小决策,否则,执行S2;
S2、通过三支神经网络并行对编码树单元的深度进行编码单元分块决策,得到编码单元的分块结果;
S3、由S2中得到的编码单元分块结果得到编码单元大小决策;
S4、根据S1或S3中得到的编码单元大小决策进行预测编码,得到编码结果;
所述三支神经网络的决策方法如下:
64×64的编码树单元在第一支神经网络依次通过卷积层、bottleneck层、池化层和全连接层得到深度为0的编码单元的分块结果;
64×64的编码树单元等分为4个32×32的编码单元,4个32×32的编码单元依次输入第二支神经网络,通过卷积层、bottleneck层、池化层和全连接层后得到每个32×32的编码单元的划分结果,即得到深度为1的编码单元的分块结果;
64×64的编码树单元等分为16个16×16的编码单元,16个16×16的编码单元依次输入第三支神经网络,通过卷积层和全连接层后得到每个16×16的编码单元的划分结果,即得到深度为2的编码单元的分块结果;
所述S2中的三支神经网络采用训练数据集进行了训练,训练时:先对图像数据进行0-1正则化;然后再正则化后的图像输入第一支神经网络,正则化后的图像4等分后输入第二支神经网络,正则化后的图像16等分后输入第三支神经网络,对三支神经网络进行训练。
2.根据权利要求1所述的一种基于神经网络的视频预测编码方法,其特征在于,所述S2中的三支神经网络的前两支基于残差卷积神经网络,第三支基于卷积神经网络,所述三支神经网络分别对编码单元进行深度为0、1和2的划分决策判断。
3.根据权利要求2所述的一种基于神经网络的视频预测编码方法,其特征在于,所述三支神经网络中的前两支神经网络均包括卷积层、bottleneck层、全连接层和池化层,第三支神经网络包括卷积层和全连接层。
4.根据权利要求1所述的一种基于神经网络的视频预测编码方法,其特征在于,所述S2中的三支神经网络进行训练时,在正则化之前进行预处理,即对训练数据集中的图像进行数据增广的预处理。
5.根据权利要求4所述的一种基于神经网络的视频预测编码方法,其特征在于,对训练数据集中的图像进行数据增广的预处理具体包括四种图像变换,所述四种图像变换具体是:
a、水平、垂直翻转图像;
b、180°旋转图像;
c、随机改变图像亮度和饱和度;
d、向图像加入随机光噪声。
CN201810653610.XA 2018-06-22 2018-06-22 一种基于神经网络的视频预测编码方法 Active CN108924558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810653610.XA CN108924558B (zh) 2018-06-22 2018-06-22 一种基于神经网络的视频预测编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810653610.XA CN108924558B (zh) 2018-06-22 2018-06-22 一种基于神经网络的视频预测编码方法

Publications (2)

Publication Number Publication Date
CN108924558A CN108924558A (zh) 2018-11-30
CN108924558B true CN108924558B (zh) 2021-10-22

Family

ID=64420023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810653610.XA Active CN108924558B (zh) 2018-06-22 2018-06-22 一种基于神经网络的视频预测编码方法

Country Status (1)

Country Link
CN (1) CN108924558B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109788296A (zh) * 2018-12-25 2019-05-21 中山大学 用于hevc的帧间编码单元划分方法、装置和存储介质
CN109982092B (zh) * 2019-04-28 2022-11-01 华侨大学 基于多分支循环卷积神经网络的hevc帧间快速方法
CN110545426B (zh) * 2019-08-29 2021-04-20 西安电子科技大学 基于编码损伤修复cnn的空域可分级视频编码方法
CN111432208B (zh) * 2020-04-01 2022-10-04 山东浪潮科学研究院有限公司 一种利用神经网络确定帧内预测模式的方法
CN111757110A (zh) * 2020-07-02 2020-10-09 中实燃气发展(西安)有限公司 视频编码方法及编码树单元划分方法、系统、设备及可读存储介质
CN112464230B (zh) * 2020-11-16 2022-05-17 电子科技大学 基于神经网络中间层正则化的黑盒攻击型防御系统及方法
CN114513660B (zh) * 2022-04-19 2022-09-06 宁波康达凯能医疗科技有限公司 一种基于卷积神经网络的帧间图像模式决策方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104754357A (zh) * 2015-03-24 2015-07-01 清华大学 基于卷积神经网络的帧内编码优化方法及装置
CN106162167A (zh) * 2015-03-26 2016-11-23 中国科学院深圳先进技术研究院 基于学习的高效视频编码方法
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding
CN106713929A (zh) * 2017-02-16 2017-05-24 清华大学深圳研究生院 一种基于深度神经网络的视频帧间预测增强方法
WO2017191461A1 (en) * 2016-05-05 2017-11-09 Magic Pony Technology Limited Video encoding using hierarchical algorithms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104754357A (zh) * 2015-03-24 2015-07-01 清华大学 基于卷积神经网络的帧内编码优化方法及装置
CN106162167A (zh) * 2015-03-26 2016-11-23 中国科学院深圳先进技术研究院 基于学习的高效视频编码方法
WO2017036370A1 (en) * 2015-09-03 2017-03-09 Mediatek Inc. Method and apparatus of neural network based processing in video coding
WO2017191461A1 (en) * 2016-05-05 2017-11-09 Magic Pony Technology Limited Video encoding using hierarchical algorithms
CN106713929A (zh) * 2017-02-16 2017-05-24 清华大学深圳研究生院 一种基于深度神经网络的视频帧间预测增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Reducing Complexity of HEVC : A Deep Learning Approach;Mai Xu等;《IEEE Transactions on Image Processing》;20180613;第27卷(第10期);第5044-5059页 *
视频编码新技术和新方向;郭勐等;《电信科学》;20170807(第7期);全文 *

Also Published As

Publication number Publication date
CN108924558A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108924558B (zh) 一种基于神经网络的视频预测编码方法
CN110087087B (zh) Vvc帧间编码单元预测模式提前决策及块划分提前终止方法
US20200275101A1 (en) Efficient Use of Quantization Parameters in Machine-Learning Models for Video Coding
US20210051322A1 (en) Receptive-field-conforming convolutional models for video coding
Cui et al. Convolutional neural networks based intra prediction for HEVC
CN111355956B (zh) 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法
CN107105278B (zh) 运动矢量自动生成的视频编解码系统
US20200186808A1 (en) Rate/distortion/rdcost modeling with machine learning
CN114286093A (zh) 一种基于深度神经网络的快速视频编码方法
US20210329267A1 (en) Parallelized rate-distortion optimized quantization using deep learning
CN103517069A (zh) 一种基于纹理分析的hevc帧内预测快速模式选择方法
CN113767400A (zh) 使用率失真成本作为深度学习的损失函数
CN110290386B (zh) 一种基于生成对抗网络的低码率人体运动视频编码系统及方法
WO2020061008A1 (en) Receptive-field-conforming convolution models for video coding
CN108989799A (zh) 一种编码单元参考帧的选择方法、装置及电子设备
CN107690069B (zh) 一种数据驱动的级联视频编码方法
WO2023024115A1 (zh) 编码方法、解码方法、编码器、解码器和解码系统
CN110677644B (zh) 一种视频编码、解码方法及视频编码帧内预测器
CN113068041B (zh) 一种智能仿射运动补偿编码方法
CN110351558B (zh) 一种基于强化学习的视频图像编码压缩效率提升方法
CN112770120B (zh) 基于深度神经网络的3d视频深度图帧内快速编码方法
Liu et al. Video coding and processing: a survey
CN115604485A (zh) 视频图像的解码方法及装置
CN114979711B (zh) 音视频或图像分层压缩方法和装置
CN116137659A (zh) 帧间编码的块划分方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant