CN114868386B - 编码方法、解码方法、编码器、解码器以及电子设备 - Google Patents
编码方法、解码方法、编码器、解码器以及电子设备 Download PDFInfo
- Publication number
- CN114868386B CN114868386B CN202080065143.4A CN202080065143A CN114868386B CN 114868386 B CN114868386 B CN 114868386B CN 202080065143 A CN202080065143 A CN 202080065143A CN 114868386 B CN114868386 B CN 114868386B
- Authority
- CN
- China
- Prior art keywords
- block
- target
- prediction
- chroma
- prediction mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000013528 artificial neural network Methods 0.000 claims abstract description 198
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims description 179
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 241000023320 Luma <angiosperm> Species 0.000 claims description 10
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 claims description 10
- 230000006835 compression Effects 0.000 abstract description 19
- 238000007906 compression Methods 0.000 abstract description 19
- 238000012360 testing method Methods 0.000 description 24
- 238000013139 quantization Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 230000009466 transformation Effects 0.000 description 11
- 238000001914 filtration Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012216 screening Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 241000777300 Congiopodidae Species 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000219357 Cactaceae Species 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/11—Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请实施例提供一种编码方法、解码方法、编码器、解码器以及电子设备,能够提升压缩性能。该编码方法,包括:将目标图帧划分为多个图像块,所述多个图像块中的多个图像块包括目标色度块;若可使用基于神经网络的色度预测模式对所述目标色度块进行帧内预测,在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式;基于利用所述最优预测模式得到目标预测块,得到目标残差块;对所述目标残差块、允许标识以及控制标识进行编码,得到码流。
Description
技术领域
本申请实施例涉及图像编解码技术领域,并且更具体地,涉及编码方法、解码方法、编码器、解码器以及电子设备。
背景技术
数字视频压缩技术主要是将庞大的数字影像视频数据进行压缩,以便于传输以及存储等。随着互联网视频的激增以及人们对视频清晰度的要求越来越高,尽管已有的数字视频压缩标准能够实现视频解压缩,但目前仍然需要追求更好的数字视频压缩技术,以提升压缩性能。
发明内容
本申请实施例提供一种编码方法、解码方法、编码器、解码器以及电子设备,能够提升压缩性能。
一方面,本申请实施例提供了一种编码方法,包括:
将目标图帧划分为多个图像块,所述多个图像块中的目标图像块包括目标色度块;
若可使用基于神经网络的色度预测模式对所述目标色度块进行帧内预测,在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式;
基于利用所述最优预测模式得到的目标预测块,得到目标残差块;
对所述目标残差块、允许标识以及控制标识进行编码,得到码流,所述允许标识用于标识是否允许使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测。
另一方面,本申请实施例提供了一种解码方法,包括:
对码流解析获取目标残差块、允许标识以及控制标识,所述允许标识用于标识是否允许使用基于神经网络的色度预测模式对所述目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测;
若所述允许标识指示可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,且所述控制标识指示使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到目标预测块;
基于所述目标残差块和所述目标预测块,得到目标图像帧。
另一方面,本申请实施例提供了一种编码器,用于执行上述第一方面或其各实现方式中的方法。具体地,该编码器包括用于执行上述第一方面或其各实现方式中的方法的功能单元。
另一方面,本申请实施例提供了一种解码器,用于执行上述第二方面或其各实现方式中的方法。具体地,该解码器包括用于执行上述第二方面或其各实现方式中的方法的功能单元。
另一方面,本申请实施例提供了一种电子设备,包括:
处理器,适于实现计算机指令;以及,
计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令适于由处理器加载并执行执行如上述第一方面至第二方面中的任一方面或其各实现方式中的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被计算机设备的处理器读取并执行时,使得计算机设备执行上述第一方面至第二方面中的任一方面或其各实现方式中的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面至第二方面中的任一方面或其各实现方式中的方法。
本申请实施例中,通过引入基于神经网络的色度预测模式,在可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测的情况下,在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式;然后基于所述最优预测模式得到目标预测块;能够提升压缩性能。
附图说明
图1是本申请实施例提供的编码框架的示意性框图。
图2是本申请实施例提供的33种角度预测模式的具体方向示意图。
图3是本申请实施例提供的MIP模式的示意性流程图。
图4是本申请实施例提供的解码框架的示意性框图。
图5是基于图1所示的编码框架的扩展后编码框架的示意性流程图。
图6是本申请实施例提供的编码方法的示意性流程图。
图7和图8是本申请实施例提供的输入视频格式为YUV420的情况下基于神经网络的色度预测模式的输入的示意性结构图。
图9是本申请实施例提供的第一训练策略的示意性流程图。
图10是本申请实施例的解码方法的示意性流程图。
图11是本申请实施例的编码器的示意性框图。
图12是本申请实施例的解码器的示意性框图。
图13是本申请实施例提供的电子设备的示意结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的方案可应用于数字视频编码技术领域,例如,图像编解码领域、视频编解码领域、硬件视频编解码领域、专用电路视频编解码领域、实时视频编解码领域。本申请实施例提供的方案可结合至音视频编码标准(Audio Video coding Standard,AVS)、第二代AVS标准(AVS2)或第三代AVS标准(AVS3)。包括但不限于H.264/音视频编码(Audio Video coding,AVC)标准、H.265/高效视频编码(High Efficiency Video Coding,HEVC)标准以及H.266/多功能视频编码(Versatile Video Coding,VVC)标准。本申请实施例提供的方案可以用于对图像进行有损压缩(lossy compression),也可用于对图像进行无损压缩(lossless compression)。该无损压缩可以是视觉无损压缩(visually losslesscompression),也可以是数学无损压缩(mathematically lossless compression)。
在数字视频编码过程中,编码器对不同颜色格式的原始视频序列读取不相等的亮度分量的像素和色度分量的像素,即编码器读取一幅黑白图像或彩色图像,然后针对图像或彩色图像分别进行编码。其中,黑白图像可以包括亮度分量的像素,彩色图像可以包括色度分量的像素,可选的,彩色图像还可以包括亮度分量的像素。原始视频序列的颜色格式可以是亮度色度(YCbCr,YUV)格式或红绿蓝(Red-Green-Blue,RGB)格式等。编码器读取一幅黑白图像或彩色图像之后,分别将其划分成块数据,并对块数据进行编码。该块数据可以是编码树单元(Coding Tree Unit,CTU)或编码单元块(Coding Unit,CU),一个编码树单元又可以继续被划分成若干个CU,CU可以为长方形块也可以为正方形块。即编码器可基于CTU或CU进行编码。如今编码器通常为混合框架编码模式,一般包含帧内与帧间预测、变换与量化、反变换与反量化、环路滤波及熵编码等操作。帧内预测只参考同一帧图像的信息,预测当前划分块内的像素信息,用于消除空间冗余;帧间预测可以参考不同帧的图像信息,利用运动估计搜索最匹配当前划分块的运动矢量信息,用于消除时间冗余;变换将预测后的图像块转换到频率域,能量重新分布,结合量化可以将人眼不敏感的信息去除,用于消除视觉冗余;熵编码可以根据当前上下文模型以及二进制码流的概率信息消除字符冗余。
为了便于理解,先对本申请提供的编码框架进行简单介绍。
图1是本申请实施例提供的编码框架100的示意性框图。
如图1所示,该编码框架100可包括帧内预测单元180、帧间预测单元170、残差单元110、变换与量化单元120、熵编码单元130、反变换与反量化单元140、以及环路滤波单元150。可选的,该编码框架100还可包括解码图像缓冲单元160。该编码框架100也可称为混合框架编码模式。
在编码框架100中,帧内预测单元180或帧间预测单元170可对待编码图像块进行预测,以输出预测块。残差单元110可基于预测块与待编码图像块计算残差块,即预测块和待编码图像块的差值。该残差块经由变换与量化单元120变换与量化等过程,可以去除人眼不敏感的信息,以消除视觉冗余。可选的,经过变换与量化单元120变换与量化之前的残差块可称为时域残差块,经过变换与量化单元120变换与量化之后的时域残差块可称为频率残差块或频域残差块。熵编码单元130接收到变换与量化单元120输出的变换量化系数后,可基于该变换量化系数输出码流。例如,熵编码单元130可根据目标上下文模型以及二进制码流的概率信息消除字符冗余。例如,熵编码单元130可以用于基于上下文的自适应二进制算术熵编码(CABAC)。熵编码单元130也可称为头信息编码单元。可选的,在本申请中,该待编码图像块也可称为原始图像块或目标图像块,预测块也可称为预测图像块或图像预测块,还可以称为预测信号或预测信息,重建块也可称为重建图像块或图像重建块,还可以称为重建信号或重建信息。此外,针对编码端,该待编码图像块也可称为编码块或编码图像块,针对解码端,该待编码图像块也可称为解码块或解码图像块。该待编码图像块可以是CTU或CU。
简言之,编码框架100将预测块与待编码图像块计算残差得到残差块经由变换与量化等过程,将残差块传输到解码端。解码端接收并解析码流后,经过反变换与反量化等步骤得到残差块,将解码端预测得到的预测块叠加残差块后得到重建块。
需要说明的是,编码框架100中的反变换与反量化单元140、环路滤波单元150以及解码图像缓冲单元160可用于形成一个解码器。相当于,帧内预测单元180或帧间预测单元170可基于已有的重建块对待编码图像块进行预测,进而能够保证编码端和解码端的对参考帧的理解一致。换言之,编码器可复制解码器的处理环路,进而可与解码端产生相同的预测。具体而言,量化的变换系数通过反变换与反量化单元140反变换与反量化来复制解码端的近似残差块。该近似残差块加上预测块后可经过环路滤波单元150,以平滑滤除由于基于块处理和量化产生的块效应等影响。环路滤波单元150输出的图像块可存储在解码图像缓冲单元160中,以便用于后续图像的预测。
帧内预测单元180可用于帧内预测,帧内预测只参考同一帧图像的信息,预测待编码图像块内的像素信息,用于消除空间冗余;帧内预测所使用的帧可以为I帧。例如,可根据从左至右、从上到下的编码顺序,待编码图像块可以参考左上方图像块,上方图像块以及左侧图像块作为参考信息来预测待编码图像块,而待编码图像块又作为下一个图像块的参考信息,如此,可对整幅图像进行预测。若输入的数字视频为彩色格式,例如YUV 4:2:0格式,则该数字视频的每一图像帧的每4个像素点由4个Y分量和2个UV分量组成,编码框架100可对Y分量(即亮度块)和UV分量(即色度块)分别进行编码。类似的,解码端也可根据格式进行相应的解码。帧间预测单元170可用于帧间预测,帧间预测可以参考不同帧的图像信息,利用运动估计搜索最匹配待编码图像块的运动矢量信息,用于消除时间冗余;帧间预测所使用的帧可以为P帧和/或B帧,P帧指的是向前预测帧,B帧指的是双向预测帧。
针对帧内预测过程,帧内预测可借助角度预测模式与非角度预测模式对待编码图像块进行预测,以得到预测块,根据预测块与待编码图像块计算得到的率失真信息,筛选出待编码图像块最优的预测模式,并将该预测模式经码流传输到解码端。解码端解析出预测模式,预测得到目标解码块的预测块并叠加经码流传输而获取的时域残差块,可得到重建块。经过历代的数字视频编解码标准发展,非角度模式保持相对稳定,有均值模式和平面模式;角度模式则随着数字视频编解码标准的演进而不断增加。以国际数字视频编码标准H系列为例,H.264/AVC标准仅有8种角度预测模式和1种非角度预测模式;H.265/HEVC扩展到33种角度预测模式和2种非角度预测模式。在H.266/VVC中,帧内预测模式被进一步拓展,对于亮度块共有67种传统预测模式和非传统的预测模式矩阵加权帧内预测(Matrix weightedintra-frame prediction,MIP)模式,传统预测模式包括:模式编号0的平面(planar)模式、模式编号1的DC模式和模式编号2到模式编号66的角度预测模式。图2为本申请实施例提供的33种角度预测模式的具体方向示意图,如图2所示,33种角度预测模式分为水平类模式和竖直类模式,水平类模式包括H+32(模式编号2)至H-32(模式编号17),竖直类模式包括V-32(模式编号18)至V+32(模式编号34)。V0(模式编号26)和H0(模式编号10)分别表示竖直和水平方向,其余角度预测模式的预测方向都可以看作是在竖直或水平方向上做一个角度偏移。VVC的参考软件测试平台(VVC TEST MODEL,VTM)对于色度块除了planar模式、DC模式和角度模式外,还有跨分量线性色度预测(Cross component linear model prediction,CCLM)模式。MIP模式目前为VVC独有,而CCLM模式也存在于其它先进的标准里,例如AV1的来自亮度的色度(Chroma from Luma,CfL)模式和AVS3的两步跨分量预测模式(Two StepCross-component Prediction Mode,TSCPM)。
MIP源于基于神经网络的预测技术,该技术采用全连接神经网络。
图3是本申请实施例提供的MIP模式的示意性流程图。
如图3所示,利用预测块左侧K列,上方K行和左上方的K列重建像素点为输入,经过3层全连接层、非线性激活函数和1层线性全连接层,得到待编码图像块的预测像素值,即待编码图像块的预测块。重建像素点也可称为重构像素值或重构像素点。针对不同形状的待编码图像块,对多套全连接神经网络的参数即网络权重进行率失真筛选,选择出最优的一套网络权重进行预测,并将此套参数的索引编入码流。网络权重可包括矩阵和偏置(biases)等参数。MIP相比于神经网络,经过了包括网络参数、输入点数等多方面的简化,最终采用向量乘矩阵的形式完成预测。在MIP技术中,对于一个宽度为N,高度为M的待编码图像块,MIP会选取该块上方一行的W个重建像素点和左侧一列的H个重建像素点作为输入。如果这些位置的像素还未被重建,可像传统预测方法一样处理。MIP产生预测值主要基于三个步骤,分别是参考像素取均值、矩阵向量相乘和线性插值上采样。MIP作用于4x4至32x32大小的块,对于一个长方形的块,若长方形短边长为4时,将会从预先训练好的16套16列4行的矩阵和偏置(即网络权重)中选取最优;若长方形短边长为8时,将会从预先训练好的8套16列8行的矩阵和偏置中选取最优;若长方形短边长为16时;将会从预先训练好的6套64列8行的矩阵和偏置中选取最优。可通过合并多个训练后的神经网络的网络权重,获取上述涉及特定尺寸的块所对应的多套的矩阵和偏置。需要说明的是,上文中涉及的MIP工具源于基于全连接神经网络的帧内预测,但局限于其只使用在亮度块的预测。并且,MIP的模型种类过多,训练起来较为复杂。目前也没有一套很好的基于全连接神经网络的预测色度块的方案。
应理解,图1至图3仅为本申请的示例,不应理解为对本申请的限制。
例如,该编码框架100中的环路滤波单元150可包括去块滤波器(DBF)和样点自适应补偿滤波(SAO)。DBF的作用是去块效应,SAO的作用是去振铃效应。在本申请的其他实施例中,该编码框架100可采用基于神经网络的环路滤波算法,以提高视频的压缩效率。或者说,该编码框架100可以是基于深度学习的神经网络的视频编码混合框架。在一种实现中,可以在去块滤波器和样点自适应补偿滤波基础上,采用基于卷积神经网络的模型计算对像素滤波后的结果。环路滤波单元150在亮度分量和色度分量上的网络结构可以相同,也可以有所不同。考虑到亮度分量包含更多的视觉信息,还可以采用亮度分量指导色度分量的滤波,以提升色度分量的重建质量。
图4是本申请实施例提供的解码框架200的示意性框图。
如图4所示,该解码框架200可包括熵解码单元210、反变换反量化单元220、残差单元230、帧内预测单元240、帧间预测单元250、环路滤波单元260、解码图像缓存单元270。
熵解码单元210接收并解析码流后,以获取预测块和频域残差块,针对频域残差块,通过反变换反量化单元220进行反变换与反量化等步骤,可获取时域残差块,残差单元230将帧内预测单元240或帧间预测单元250预测得到的预测块叠加至经过通过反变换反量化单元220进行反变换与反量化之后的时域残差块,可得到重建块。例如,帧内预测单元240或帧间预测单元250可通过解码码流的头信息,获取预测块。
本申请实施例提供了一种基于全连接神经网络的预测色度块的方案,既考虑到了利用色度重建部分又利用到亮度重建部分对待预测色度块进行预测。图5是本申请实施例提供的编码框架100-1的示意性流程图。如图5所示,所述编码框架100-1可包括基于神经网络的色度帧内预测单元190,所述基于神经网络的色度帧内预测单元190可对待预测色度块进行预测,需要说明的是,所述编码框架100-1是编码框架100的扩展,即编码框架100-1中的其他单元可参见编码框架100中的相关描述,为避免重复,此处不再赘述。
图6是本申请实施例提供的编码方法300的示意性流程图。应理解,该编码方法300可由编码端执行。例如应用于图5所示的编码框架100-1。为便于描述,下面以编码端为例进行说明。
如图6所示,该编码方法300可包括:
S310,将目标图帧划分为多个图像块,所述多个图像块中的目标图像块包括目标色度块;
S320,若可使用基于神经网络的色度预测模式对所述目标色度块进行帧内预测,在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式;
S330,基于利用所述最优预测模式得到的目标预测块,得到目标残差块;
S340,对所述目标残差块、允许标识以及控制标识进行编码,得到码流,所述允许标识用于标识是否允许使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测。
简言之,编码端在进行色度块预测时,若可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式,最优预测模式的标识作为控制标识被编入码流,供解码端读取。
通过引入基于神经网络的色度预测模式,在可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测的情况下,在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式;然后基于所述最优预测模式得到目标预测块;能够提升压缩性能。
下面结合试验结果对性能提升效果进行说明。
在一次试验中,参考软件VTM-10.0的参数设置如下:
1、目标色度块的参考行数设为K,全连接模型适用于三种形状的色度块,即三种全连接模型,分别为4xN和Nx4(N>=4)形状的色度块,8xN和Nx8(N>=8)形状的色度块,以及16xN和Nx16(N>=16)形状的色度块。
2、每种全连接模型仅含有一套网络权重。
3、使用的训练集为VVC测试序列中的Class-B,C,D,E,F中的8bit视频的部分帧。
基于上述设置,在全帧内帧(All intra)配置的测试结果如下述表1所示:
表1
视频类 | 视频名 | Y分量增益 | U分量增益 | V分量增益 |
Class B | MarketPlace | -0.17% | -0.64% | -0.30% |
RitualDance | -0.16% | -0.24% | -0.29% | |
Cactus | -2.61% | -8.44% | -10.07% | |
BasketballDrive | -0.62% | -1.20% | -1.52% | |
BQTerrace | -0.09% | -0.72% | 0.32% | |
Class C | BasketballDrill | -3.29% | -23.81% | -16.74% |
BQMall | -0.42% | -0.74% | 0.32% | |
PartyScene | -0.36% | -0.15% | 0.84% | |
RaceHorses | -0.53% | -0.09% | -0.17% | |
Class D | BasketballPass | -0.58% | -1.07% | -0.40% |
BQSquare | -0.02% | -0.57% | 0.01% | |
BlowingBubbles | -0.36% | -0.35% | -0.22% | |
RaceHorses | -0.61% | -0.19% | 0.22% | |
ClassE | FourPeople | -1.53% | -8.55% | -8.04% |
Johnny | -2.12% | -12.42% | -12.61% | |
KristenAndSara | -2.38% | -15.96% | -13.98% | |
ClassF | BasketballDrillText | -4.01% | -23.63% | -16.80% |
ArenaOfValor | -2.71% | -6.87% | -11.36% | |
SlideEditing | -4.66% | -18.57% | -14.08% | |
SlideShow | -0.73% | -1.77% | -0.50% |
其中,“-”代表BD-rates下降,即性能提升。
在另一次试验中,参考软件VTM-10.0的参数设置如下:
1、目标色度块的参考行数设为K,全连接模型适用于三种形状的色度块,即三种全连接模型,分别为4xN和Nx4(N>=4)形状的色度块,8xN和Nx8(N>=8)形状的色度块,以及16xN和Nx16(N>=16)形状的色度块。
2、每种全连接模型仅含有一套网络权重。
3、使用的训练集为DIV2K图片集。DIV2K为非测试序列视频的训练集。
基于上述设置,在All intra配置的测试结果如下述表2所示:
表2
视频类 | 视频名 | Y分量增益 | U分量增益 | V分量增益 |
Class C | BasketballDrill | -0.39% | -0.73% | 0.20% |
BQMall | -0.32% | -0.56% | 0.03% | |
PartyScene | -0.29% | -0.72% | 0.10% | |
RaceHorses | -0.51% | -0.25% | -0.34% | |
Class D | BasketballPass | -0.64% | -1.46% | -0.66% |
BQSquare | -0.07% | -0.81% | -0.20% | |
BlowingBubbles | -0.34% | -0.87% | -0.74% | |
RaceHorses | -0.64% | -0.67% | -0.20% | |
ClassE | FourPeople | -0.17% | -0.60% | -0.36% |
Johnny | -0.20% | -1.09% | -0.79% | |
KristenAndSara | -0.26% | -0.95% | -0.62% |
其中,“-”代表BD-rates下降,即性能提升。
基于表1和表2可见,本申请实施例提供的方案,能够提升压缩性能。
在本申请的一些实施例中,所述S320可包括:
使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到第一预测块;
使用所述传统预测模式对所述目标色度块进行帧内预测,以得到第二预测块;
若所述第一预测块的率失真代价低于所述第二预测块的率失真代价,将所述基于神经网络的色度预测模式确定为所述最优预测模式;若所述第一预测块的率失真代价高于所述第二预测块的率失真代价,将所述传统预测模式确定为所述最优预测模式。
换言之,基于神经网络的色度帧内预测模式是否被选中由编码端决定。在编码端,当筛选帧内预测模式时,基于神经网络的色度帧内预测与传统预测模式会共同进行率失真筛选。若传统模式代价低,则选中传统预测模式;若基于神经网络的色度预测模式代价低,则选中基于神经网络的预测模式。选中的模式将被编入码流供解码端读取。在解码端,当解析出的色度帧内预测模式为基于神经网络的色度预测模式时,采用对应的神经网络模型进行预测;当解析出为传统模式时,采用对应传统模式进行预测。
在本申请的一些实施例中,可通过以下方式得到所述第一预测块:
以所述目标色度块相邻的重建部分,所述目标亮度块的重建部分和所述目标亮度块相邻的重建部分为输入,对所述目标色度块进行预测,得到所述第一预测块。
换言之,针对基于神经网络的色度预测模式,其输入为所述目标色度块相邻的重建部分,所述目标亮度块的重建部分和所述目标亮度块相邻的重建部分。所述重建部分可以是至少一行或至少一列重建像素点。所述目标色度块相邻的重建部分可包括所述目标色度块相邻的重建参考行以及所述目标色度块相邻的重建参考列,或者,所述目标色度块相邻的重建部分可包括所述目标色度块的上方重建参考行以及所述目标色度块的左侧重建参考列。所述目标亮度块相邻的重建部分可包括所述目标亮度块的上方重建参考行以及所述目标亮度块的左侧重建参考列。所述目标亮度块相邻的重建部分也可称为所述目标亮度块的重建块。本申请实施例中,当利用全连接神经网络对目标色度块进行帧内预测时,除了将色度块周围的参考像素作为网络输入外,还可以将对应位置上的亮度块的重建块输入,从而辅助预测,以提升预测效果。
图7和图8是本申请实施例提供的输入视频格式为YUV420的情况下基于神经网络的色度预测模式的输入的示意性结构图。具体地,图7是基于神经网络的色度预测模式下的色度块的像素点作为输入的示意性结构图。图8是基于神经网络的色度预测模式下的亮度块的像素点作为输入的示意性结构图。如图7所示,基于神经网络的色度预测模式的输入可包括目标色度块N相邻的M行重建像素点、目标色度块N相邻M列重建像素点、目标亮度块的重建部分2N、目标亮度块的重建部分2N相邻的2M行重建像素点以及目标亮度块的重建部分2N相邻的2M列重建像素点,M大于等于1。作为示例,在图7和图8中,目标色度块可以为矩形,N等于8,M等于2。当然,图7和图8仅为本申请的示例,本申请实施例对M和N的具体数值不作限定。在本申请的其他实施例中,当输入视频格式为YUV444或YUV422时,亮度和色度间的比例会发生变化,这时,基于神经网络的色度预测模式的输入大小也应随之进行调整。
此外,本申请中涉及的神经网络可以选用多层的全连接神经网络。全连接神经网络共由K(K大于等于1)层全连接层组成,每层全连接层后设置有非线性激活函数ReLU或其他激活函数,每层全连接包含M个节点。在一种实现方式中,考虑到全连接神经网络的需求,需要将目标色度块的上方重建参考行,左侧重建参考行,目标亮度块的上方重建参考行,左侧重建参考行和目标色度块的重建块的顺序排列成1维向量形式,并将其作为全连接网络首层的输入。
另外,本申请实施例中,针对特定形状的色度块,可通过其对应的神经网络预测,即针对特定形状的色度块,可通过其对应的网络权重进行预测。但本申请实施例对色度块和网络网络之间的对应关系,或色度块和网络权重的对应关系不作具体限定。例如,针对特定形状的色度块,可以对应一个神经网络,也可以对应多个神经网络,即可以对应一套网络权重,也可以对应多套网络权重,本申请实施例对此不作具体限定。
下面结合具体情况对得到第一预测块的方案进行说明。
情况1:
所述基于神经网络的色度预测模式具有一套网络权重。
此时,可使用所述一套网络权重对所述目标色度块进行帧内预测,得到所述第一预测块。
情况2:
所述基于神经网络的色度预测模式包括按照第一训练策略训练神经网络得到的多套网络权重;此时,可通过以下方式得到所述第一预测块:
使用所述多套网络权重分别对所述目标色度块进行帧内预测,得到多个预测块;
在所述多个预测块中选择出率失真代价最小的预测块;
将所述率失真代价最小的预测块确定为所述第一预测块。
在一种实现方式中,所述第一训练策略指按照以下方式训练神经网络,得到所述多个网络权重:
获取训练集,所述训练集包括多个训练样本;
在所述训练集上训练神经网络,若神经网络收敛,将神经网络在所述训练集上进行测试,得到所述多个训练样本的测试结果;基于所述多个训练样本的测试结果,按照由大到小以及有小到大的顺序分别将所述多个训练样本进行重排序,得到两个子训练集,所述两个子训练集作为训练集重新训练神经网络,直至得到多个子训练集,所述多个子训练集的数量和所述多套网络参数的数量相等;
在所述多个子训练集上训练神经网络,得到所述多套网络参数。
简言之,可以将前一次的训练集的测试结果作为分类器,将训练集中的训练样本按照代价大小重排序并分为若干子类,从而进一步训练出多套网络权重。
在一种实现方式中,该测试结果包括以下中的至少一项:峰值信噪比(PeakSignal To Noise Ratio,PSNR)、绝对误差和(Sum of Absolute Differences,SAD)、或哈达玛变换后的绝对误差和(Sum of Absolute Differences after Hadamard,SATD)。
图9是本申请实施例提供的第一训练策略的示意性流程图。如图9所示,首先在生成的训练集上对网络进行第一次训练,当网络收敛时,将网络在训练集上测试,得到训练集中每一个训练样本的PSNR,根据每一个训练样本的PSNR对训练集进行重排序,将PSNR较大的一般作为子训练集1,PSNR较小的一般作为子训练集2。当然,PSNR也可以是其他指标。例如绝对误差和(SAD),hadamard变换后的绝对误差和(SATD)等,重复上述步骤,将子训练集1进一步划分为子训练集1-1和子训练集1-2,将子训练集2进一步划分为子训练集2-1和子训练集2-2,直到子训练集个数等于N,然后在N个子集上训练后即可得到N套网络权重。在编解码端使用当前训练策略下的网络权重时,编码端需要筛选预测模式时采用率失真选择决定出具体哪一种网络权重被选中。
在一种实现方式中,所述最优预测模式为所述基于神经网络的色度预测模式,所述S340可包括:
对所述目标残差块、所述允许标识、所述控制标识以及索引标识进行编码,得到所述码流,所述索引标识用于标识使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测时使用的目标网络权重的索引,所述多套网络权重包括所述目标网络权重。
情况3:
所述目标图像块包括目标亮度块,所述基于神经网络的色度预测模式包括按照第二训练策略训练神经网络得到的多套网络权重;此时,可通过以下方式得到所述第一预测块:
确定所述目标亮度块使用的目标亮度预测模式;
使用所述多套网络权重中与所述目标亮度预测模式对应的网络权重,对所述目标色度块进行帧内预测,得到所述第一预测块。
在一种实现方式中,所述第二训练策略指按照以下方式训练神经网络,得到所述多个网络权重:
以训练集中的亮度块所选中的多种传统预测模式作为依据,将所述训练集划分为所述多种传统预测模式分别对应的多类训练集;
在所述多类训练集上训练神经网络,得到所述多套网络权重。
简言之,可以通过训练集中的亮度块所选中的帧内预测模式对训练集进行划分,进而基于划分后的训练集得到多套网络权重。
在一种实现方式中,所述多种传统预测模式包括以下中的多种类型;
平面planar或矩阵加权帧内预测MIP模式、DC模式、角度模式以及宽角度模式。其中,角度模式可针对矩形色度块而言,宽角度模式可针对非矩形色度块而言。非矩形色度块可以是宽和高不相等的色度块。
换言之,第二训练策略以训练集中的亮度块所选中的多种传统预测模式作为依据,对训练集的分类,即一种传统预测模式可对应一类训练集,假设按照编码器选中的传统预测模式分为N类训练集,则可在分出的N类训练集上训练出N套网络权重。在一种实现方式中,可将N设定为6类,即Planar或MIP模式、DC模式、2~17的角度模式、18~33的角度模式、34~49的角度模式、以及50~66的角度模式。由于亮度块与色度块有着相似的纹理特征,编解码端使用第二训练策略下的网络权重时,编码端仅需要直接找出当前色度块对应位置的亮度块选中的模式,继而可根据亮度块的模式从多套网络权重里选择出对应的一套。
在本申请的一些实施例中,所述S320之前,所述方法300还可包括:
根据所述目标色度块的大小,确定是否可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测。
在本申请的一些实施例中,所述根据所述目标色度块的大小,确定是否可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,包括:
若所述目标色度块的宽度为4、8或大于等于16,或者,若所述目标色度块的高度为4、8或大于等于16,确定可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测。
需要说明的是,上述实施例仅为本申请的示例,不应理解为对本申请的限制。
例如,本申请实施例对全连接神经网络的结构,包括全连接层的节点个数,非线性激活函数等具体实现方式不作限定,再如,本申请实施例对全连接神经网络输入部分中参考列的列数或参考行的行数不作具体限定。再如,本申请实施例对全连接神经网络适用的色度块的大小,神经网络的结构以及种类不作具体限定。再如,本申请实施例对第二训练策略可训练的网络权重的具体数量不作限定。
以上结合附图详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。例如,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。又例如,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本申请所公开的内容。
还应理解,在本申请的各种方法实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上文中结合图6至图9,从编码端的角度详细描述了根据本申请实施例的编码方法,下面将结合图10,从解码端的角度描述根据本申请实施例的解码方法。
图10示出了根据本申请实施例的解码方法400的示意性流程图。所述方法400可以由包括基于神经网络的色度帧内预测单元的解码框架。在一种实现方式中,可将基于神经网络的色度帧内预测单元扩展至图4所述的解码框架中,以执行所述解码方法400。
如图10所示,所述方法400可包括:
S410,对码流解析获取目标残差块、允许标识以及控制标识,所述允许标识用于标识是否允许使用基于神经网络的色度预测模式对所述目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测;
S420,若所述允许标识指示可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,且所述控制标识指示使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到目标预测块;
S430,基于所述目标残差块和所述目标预测块,得到目标图像帧。
在本申请的一些实施例中,所述S420可包括:
以所述目标色度块相邻的重建部分,所述目标亮度块的重建部分和所述目标亮度块相邻的重建部分为输入,对所述目标色度块进行预测,得到所述目标预测块。
在本申请的一些实施例中,所述基于神经网络的色度预测模式具有一套网络权重;所述S430可包括:
使用所述一套网络权重对所述目标色度块进行帧内预测,得到所述目标预测块。
在本申请的一些实施例中,所述基于神经网络的色度预测模式包括按照第一训练策略训练神经网络得到的多套网络权重;所述S420可包括:
对所述码流解析,得到索引标识,所述索引标识用于标识使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测时使用的目标网络权重的索引,所述多套网络权重包括所述目标网络权重;
使用所述索引标识指示的目标网络权重对所述目标色度块进行帧内预测,得到所述目标预测块。
在本申请的一些实施例中,所述第一训练策略指按照以下方式训练神经网络,得到所述多个网络权重:
获取训练集,所述训练集包括多个训练样本;
在所述训练集上训练神经网络,若神经网络收敛,将神经网络在所述训练集上进行测试,得到所述多个训练样本的测试结果;基于所述多个训练样本的测试结果,按照由大到小以及有小到大的顺序分别将所述多个训练样本进行重排序,得到两个子训练集,所述两个子训练集作为训练集重新训练神经网络,直至得到多个子训练集,所述多个子训练集的数量和所述多套网络参数的数量相等;
在所述多个子训练集上训练神经网络,得到所述多套网络参数。
在本申请的一些实施例中,所述测试结果包括以下中的至少一项:峰值信噪比PSNR、绝对误差和SAD、或哈达玛变换后的绝对误差和SATD。
在本申请的一些实施例中,所述目标图像块包括目标亮度块,所述基于神经网络的色度预测模式包括按照第二训练策略训练神经网络得到的多套网络权重;所述S420可包括:
确定所述目标亮度块使用的目标亮度预测模式;
使用所述多套网络权重中与所述目标亮度预测模式对应的网络权重,对所述目标色度块进行帧内预测,得到所述目标预测块。
在本申请的一些实施例中,所述第二训练策略指按照以下方式训练神经网络,得到所述多个网络权重:
基于色度块可使用的多类亮度预测模式,获取所述多类亮度预测模式分别对应的多类训练集,所述多类亮度预测模式包括所述目标亮度预测模式;
在所述多类训练集上训练神经网络,得到所述多套网络权重。
在本申请的一些实施例中,所述多类亮度预测模式包括以下中的多种类型;
平面planar或矩阵加权帧内预测MIP模式、DC模式、角度模式以及宽角度模式。
应理解,解码方法400的过程为编码方法300的逆过程,即解码方法400中的步骤可以参考编码方法300中的相应步骤,为了简洁,在此不再赘述。
下面结合具体的语法对本申请实施例的方案进行说明。
表3
其中,intra_bdpcm_chroma_flag表示是否采用色度预测模式,intra_bdpcm_chroma_dir_flag表示是否采用垂直方向色度预测模式,ChromaNNEnabled表示基于神经网络的色度预测模式的允许标识,该允许标识可以是二值变量;值为‘1’表示可使用基于神经网络的色度预测模式,值为‘0’表示不可使用基于神经网络的色度预测模式。该允许标识根据当前块的大小和颜色分量导出,当当前块为色度块时,满足下列条件一个即为“1”:当前块的宽度或高度为4、当前块的宽度或高度为8、当前块的宽度或高度大于或等于16。chroma_nn_flag表示基于神经网络的色度预测模式的控制标识,该控制标识可以是二值变量;值为‘1’表示使用基于神经网络的色度预测模式,值为‘0’表示不使用基于神经网络的色度预测模式。chroma_nn_idx表示网络权重的索引标志,变量取值范围取决于神经网络的网络权重的数量,变量值代表使用的目标网络权重的索引值。
表4
其中,表4中涉及的语法的语义和表3中相同,为避免重复,此处不再赘述。
实施例:
本技术方案在编码端的帧内预测流程如下:
编码端进入帧内模式的搜索时,会对可能的模式进行的率失真选择,编码器会从对于当前块可能的预测模式进行筛选,当进行筛选时。
a)、首先根据ChromaNNEnabled条件判断当前块下是否可以使用神经网络的色度预测模式。若ChromaNNEnabled为“1”,则对当前块尝试进行基于神经网络的色度块预测,若ChromaNNEnabled为“0”,则跳至c)。
b)、根据当前块的大小选择对应的事先定义好的网络权重。
若事先定义的网络权重为一套,则可直接选用该套权重进行预测。并将预测结果进一步进行率失真筛选操作,若确定该种预测模式下结果的代价小于其他预测模式,则chroma_nn_flag置为“1”,否则为“0”。若事先定义的网络权重套数为多套时,根据网络权重的训练策略又可分为两种情况;若多套网络权重按照上文涉及的第一训练策略训练得到,编码器需在多套网络权重逐一尝试预测,并进一步进行率失真筛选操作,确定出多套网络权重中代价最小的一套;若这组代价同时也小于其他传统预测模式,则chroma_nn_flag置为“1”,否则为“0”,且chroma_nn_idx置为当前权重(即目标网络权重)的索引。若多套网络权重按照上文涉及的第二训练策略得到,编码器需要找到当前色度块对应位置的亮度块(即目标亮度块)选中的预测模式,根据训练中对网络权重的分类原则选中与目标亮度块选择的预测模式所对应的网络权重,并进一步采用该网络权重进行预测和率失真的筛选,确定该种预测模式下结果的代价小于其他预测模式,则chroma_nn_flag置为“1”,否则为“0”。
c)、若当前块已完成帧内预测的搜索则加载下一个预测块进行帧内模式的搜索跳转至步骤a)。
本技术方案在解码端的帧内预测流程如下:
解码器获取码流,解析码流并对得到的残差信息进行反变换、反量化以及逐块的预测,若该块为帧内预测块且当前颜色分量为色度分量时;
a)、首先根据ChromaNNEnabled条件判断当前块下是否可以使用神经网络的色度预测模式。若ChromaNNEnabled为“0”,则跳至c)。
b)、ChromaNNEnabled为“1”时,根据解码出的chroma_nn_flag确定当前块是否使用基于神经网络的色度预测模式进行预测。
若事先定义的网络权重套数为一套,则可直接选用该套网络权重进行预测。若事先定义的网络权重套数为多套,根据权重训练时的策略又可分为以下两种情况;若多套网络权重按照上文涉及的第一训练策略训练得到,解码器进一步获取权重索引chroma_nn_idx,根据索引选中对应的网络权重进行预测。若多套网络权重按照上文涉及的第二训练策略训练得到,解码器需要找到当前色度块对应位置的亮度块选(即目标亮度块)中的预测模式,根据训练中对网络权重的分类原则选中与目标亮度块选择的预测模式所对应的网络权重,对当前块进行预测。
c)、若当前块已完成帧内的重建则加载下一个预测块进行帧内模式的预测跳转至步骤a)。
上文详细描述了本申请的方法实施例,下文结合图11至图13,详细描述本申请的装置实施例。
图11是本申请实施例的编码器500的示意性框图。
如图11所示,所述编码器500可包括:
划分单元510,用于将目标图帧划分为多个图像块,所述多个图像块中的目标图像块包括目标色度块;
选择单元520,用于:若可使用基于神经网络的色度预测模式对所述目标色度块进行帧内预测,在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式;
第一处理单元530,用于:基于利用所述最优预测模式得到目标预测块,得到目标残差块;
第二处理单元540,用于对所述目标残差块、允许标识以及控制标识进行编码,得到码流,所述允许标识用于标识是否允许使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测。
在本申请的一些实施例中,所述选择单元520具体用于:
使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到第一预测块;
使用所述传统预测模式对所述目标色度块进行帧内预测,以得到第二预测块;
若所述第一预测块的率失真代价低于所述第二预测块的率失真代价,将所述基于神经网络的色度预测模式确定为所述最优预测模式;若所述第一预测块的率失真代价高于所述第二预测块的率失真代价,将所述传统预测模式确定为所述最优预测模式。
在本申请的一些实施例中,所述目标图像块包括目标亮度块,所述选择单元520具体用于:
以所述目标色度块相邻的重建部分,所述目标亮度块的重建部分和所述目标亮度块相邻的重建部分为输入,对所述目标色度块进行预测,得到所述第一预测块。
在本申请的一些实施例中,所述基于神经网络的色度预测模式具有一套网络权重;所述选择单元520具体用于:
使用所述一套网络权重对所述目标色度块进行帧内预测,得到所述第一预测块。
在本申请的一些实施例中,所述基于神经网络的色度预测模式包括按照第一训练策略训练神经网络得到的多套网络权重;所述选择单元520具体用于:
使用所述多套网络权重分别对所述目标色度块进行帧内预测,得到多个预测块;
在所述多个预测块中选择出率失真代价最小的预测块;
将所述率失真代价最小的预测块确定为所述第一预测块。
在本申请的一些实施例中,所述第一训练策略指按照以下方式训练神经网络,得到所述多个网络权重:
获取训练集,所述训练集包括多个训练样本;
在所述训练集上训练神经网络,若神经网络收敛,将神经网络在所述训练集上进行测试,得到所述多个训练样本的测试结果;基于所述多个训练样本的测试结果,按照由大到小以及有小到大的顺序分别将所述多个训练样本进行重排序,得到两个子训练集,所述两个子训练集作为训练集重新训练神经网络,直至得到多个子训练集,所述多个子训练集的数量和所述多套网络参数的数量相等;
在所述多个子训练集上训练神经网络,得到所述多套网络参数。
在本申请的一些实施例中,所述测试结果包括以下中的至少一项:峰值信噪比PSNR、绝对误差和SAD、或哈达玛变换后的绝对误差和SATD。
在本申请的一些实施例中,所述最优预测模式为所述基于神经网络的色度预测模式,所述第二处理单元540具体用于:
对所述目标残差块、所述允许标识、所述控制标识以及索引标识进行编码,得到所述码流,所述索引标识用于标识使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测时使用的目标网络权重的索引,所述多套网络权重包括所述目标网络权重。
在本申请的一些实施例中,所述目标图像块包括目标亮度块,所述基于神经网络的色度预测模式包括按照第二训练策略训练神经网络得到的多套网络权重;所述选择单元520具体用于:
确定所述目标亮度块使用的目标亮度预测模式;
使用所述多套网络权重中与所述目标亮度预测模式对应的网络权重,对所述目标色度块进行帧内预测,得到所述第一预测块。
在本申请的一些实施例中,所述第二训练策略指按照以下方式训练神经网络,得到所述多个网络权重:
以训练集中的亮度块所选中的多种传统预测模式作为依据,将所述训练集划分为所述多种传统预测模式分别对应的多类训练集;
在所述多类训练集上训练神经网络,得到所述多套网络权重。
在本申请的一些实施例中,所述多种传统预测模式包括以下中的多种类型;
平面planar或矩阵加权帧内预测MIP模式、DC模式、角度模式以及宽角度模式。
在本申请的一些实施例中,所述选择单元520在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式之前,还用于:
根据所述目标色度块的大小,确定是否可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测。
在本申请的一些实施例中,所述选择单元520具体用于:
若所述目标色度块的宽度为4、8或大于等于16,或者,若所述目标色度块的高度为4、8或大于等于16,确定可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测。
图12是本申请实施例的解码器600的示意性框图。
如图12所示,所述解码器600可包括:
解析单元610,用于对码流解析获取目标残差块、允许标识以及控制标识,所述允许标识用于标识是否允许使用基于神经网络的色度预测模式对所述目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测;
第一处理单元620,用于:若所述允许标识指示可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,且所述控制标识指示使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到目标预测块;
第二处理单元630,用于基于所述目标残差块和所述目标预测块,得到目标图像帧。
在本申请的一些实施例中,所述第一处理单元620具体用于:
以所述目标色度块相邻的重建部分,所述目标亮度块的重建部分和所述目标亮度块相邻的重建部分为输入,对所述目标色度块进行预测,得到所述目标预测块。
在本申请的一些实施例中,所述基于神经网络的色度预测模式具有一套网络权重;所述第一处理单元620具体用于:
使用所述一套网络权重对所述目标色度块进行帧内预测,得到所述目标预测块。
在本申请的一些实施例中,所述基于神经网络的色度预测模式包括按照第一训练策略训练神经网络得到的多套网络权重;所述第一处理单元620具体用于:
对所述码流解析,得到索引标识,所述索引标识用于标识使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测时使用的目标网络权重的索引,所述多套网络权重包括所述目标网络权重;
使用所述索引标识指示的目标网络权重对所述目标色度块进行帧内预测,得到所述目标预测块。
在本申请的一些实施例中,所述第一训练策略指按照以下方式训练神经网络,得到所述多个网络权重:
获取训练集,所述训练集包括多个训练样本;
在所述训练集上训练神经网络,若神经网络收敛,将神经网络在所述训练集上进行测试,得到所述多个训练样本的测试结果;基于所述多个训练样本的测试结果,按照由大到小以及有小到大的顺序分别将所述多个训练样本进行重排序,得到两个子训练集,所述两个子训练集作为训练集重新训练神经网络,直至得到多个子训练集,所述多个子训练集的数量和所述多套网络参数的数量相等;
在所述多个子训练集上训练神经网络,得到所述多套网络参数。
在本申请的一些实施例中,所述测试结果包括以下中的至少一项:峰值信噪比PSNR、绝对误差和SAD、或哈达玛变换后的绝对误差和SATD。
在本申请的一些实施例中,所述目标图像块包括目标亮度块,所述基于神经网络的色度预测模式包括按照第二训练策略训练神经网络得到的多套网络权重;所述第一处理单元620具体用于:
确定所述目标亮度块使用的目标亮度预测模式;
使用所述多套网络权重中与所述目标亮度预测模式对应的网络权重,对所述目标色度块进行帧内预测,得到所述目标预测块。
在本申请的一些实施例中,所述第二训练策略指按照以下方式训练神经网络,得到所述多个网络权重:
基于色度块可使用的多类亮度预测模式,获取所述多类亮度预测模式分别对应的多类训练集,所述多类亮度预测模式包括所述目标亮度预测模式;
在所述多类训练集上训练神经网络,得到所述多套网络权重。
在本申请的一些实施例中,所述多类亮度预测模式包括以下中的多种类型;
平面planar或矩阵加权帧内预测MIP模式、DC模式、角度模式以及宽角度模式。
应理解,装置实施例与方法实施例可以相互对应,类似的描述可以参照方法实施例。为避免重复,此处不再赘述。具体地,图11所示的编码器500可以对应于执行本申请实施例的方法300中的相应主体,即编码器500中的各个单元的前述和其它操作和/或功能分别为了实现方法300等各个方法中的相应流程。图12所示的解码器600可以对应于执行本申请实施例的方法400中的相应主体,并且解码器600中的各个单元的前述和其它操作和/或功能分别为了实现方法400等各个方法中的相应流程。
还应当理解,本申请实施例涉及的编码器500或解码器600中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该编码器500或解码器600也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造本申请实施例涉及的编码器500或解码器600,以及来实现本申请实施例的编码方法或解码方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于电子设备中,并在其中运行,来实现本申请实施例的相应方法。
换言之,上文涉及的单元可以通过硬件形式实现,也可以通过软件形式的指令实现,还可以通过软硬件结合的形式实现。具体地,本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成,结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件组合执行完成。可选地,软件可以位于随机存储器,闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法实施例中的步骤。
图13是本申请实施例提供的电子设备700的示意结构图。
如图13所示,该电子设备700至少包括处理器710以及计算机可读存储介质720。其中,处理器710以及计算机可读存储介质720可通过总线或者其它方式连接。计算机可读存储介质720用于存储计算机程序721,计算机程序721包括计算机指令,处理器710用于执行计算机可读存储介质720存储的计算机指令。处理器710是电子设备700的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
作为示例,处理器710也可称为中央处理器(CentralProcessingUnit,CPU)。处理器710可以包括但不限于:通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
作为示例,计算机可读存储介质720可以是高速RAM存储器,也可以是非不稳定的存储器(Non-VolatileMemory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器710的计算机可读存储介质。具体而言,计算机可读存储介质720包括但不限于:易失性存储器和/或非易失性存储器。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在一种实现方式中,该电子设备700可以是本申请实施例涉及的编码端、编码器或编码框架;该计算机可读存储介质720中存储有第一计算机指令;由处理器710加载并执行计算机可读存储介质720中存放的第一计算机指令,以实现本申请实施例提供的编码方法中的相应步骤;换言之,计算机可读存储介质720中的第一计算机指令由处理器710加载并执行相应步骤,为避免重复,此处不再赘述。
在一种实现方式中,该电子设备700可以是本申请实施例涉及的解码端、解码器或解码框架;该计算机可读存储介质720中存储有第二计算机指令;由处理器710加载并执行计算机可读存储介质720中存放的第二计算机指令,以实现本申请实施例提供的解码方法中的相应步骤;换言之,计算机可读存储介质720中的第二计算机指令由处理器710加载并执行相应步骤,为避免重复,此处不再赘述。
根据本申请的另一方面,本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是电子设备700中的记忆设备,用于存放程序和数据。例如,计算机可读存储介质720。可以理解的是,此处的计算机可读存储介质720既可以包括电子设备700中的内置存储介质,当然也可以包括电子设备700所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了电子设备700的操作系统。并且,在该存储空间中还存放了适于被处理器710加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或多个的计算机程序721(包括程序代码)。
根据本申请的另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。例如,计算机程序721。此时,电子设备700可以是计算机,处理器710从计算机可读存储介质720读取该计算机指令,处理器710执行该计算机指令,使得该计算机执行上述各种可选方式中提供的编码方法或解码方法。
换言之,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质进行传输,例如,该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元以及流程步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
最后需要说明的是,以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种编码方法,其特征在于,包括:
将目标图帧划分为多个图像块,所述多个图像块中的目标图像块包括目标色度块;
若可使用基于神经网络的色度预测模式对所述目标色度块进行帧内预测,在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式;
基于利用所述最优预测模式得到的目标预测块,得到目标残差块;
对所述目标残差块、允许标识以及控制标识进行编码,得到码流,所述允许标识用于标识是否允许使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测;
所述在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式,包括:
使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到第一预测块;
使用所述传统预测模式对所述目标色度块进行帧内预测,以得到第二预测块;
若所述第一预测块的率失真代价低于所述第二预测块的率失真代价,将所述基于神经网络的色度预测模式确定为所述最优预测模式;若所述第一预测块的率失真代价高于所述第二预测块的率失真代价,将所述传统预测模式确定为所述最优预测模式;
所述目标图像块包括目标亮度块,所述基于神经网络的色度预测模式包括按照第二训练策略训练神经网络得到的多套网络权重;所述使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到第一预测块,包括:
确定所述目标亮度块使用的目标亮度预测模式;
使用所述多套网络权重中与所述目标亮度预测模式对应的网络权重,对所述目标色度块进行帧内预测,得到所述第一预测块。
2.根据权利要求1所述的方法,其特征在于,所述第二训练策略指按照以下方式训练神经网络,得到所述多套网络权重:
以训练集中的亮度块所选中的多种传统预测模式作为依据,将所述训练集划分为所述多种传统预测模式分别对应的多类训练集;
在所述多类训练集上训练神经网络,得到所述多套网络权重。
3.根据权利要求2所述的方法,其特征在于,所述多种传统预测模式包括以下中的多种类型;
平面planar或矩阵加权帧内预测MIP模式、DC模式、角度模式以及宽角度模式。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式之前,所述方法还包括:
根据所述目标色度块的大小,确定是否可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标色度块的大小,确定是否可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,包括:
若所述目标色度块的宽度为4、8或大于等于16,或者,若所述目标色度块的高度为4、8或大于等于16,确定可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测。
6.一种解码方法,其特征在于,包括:
对码流解析获取目标残差块、允许标识以及控制标识,所述允许标识用于标识是否允许使用基于神经网络的色度预测模式对目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测;
若所述允许标识指示可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,且所述控制标识指示使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到目标预测块;
基于所述目标残差块和所述目标预测块,得到目标图像帧;
所述目标色度块所属的目标图像块包括目标亮度块,所述基于神经网络的色度预测模式包括按照第二训练策略训练神经网络得到的多套网络权重;所述使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到目标预测块,包括:
确定所述目标亮度块使用的目标亮度预测模式;
使用所述多套网络权重中与所述目标亮度预测模式对应的网络权重,对所述目标色度块进行帧内预测,得到所述目标预测块。
7.根据权利要求6所述的方法,其特征在于,所述第二训练策略指按照以下方式训练神经网络,得到所述多套网络权重:
基于色度块可使用的多类亮度预测模式,获取所述多类亮度预测模式分别对应的多类训练集,所述多类亮度预测模式包括所述目标亮度预测模式;
在所述多类训练集上训练神经网络,得到所述多套网络权重。
8.根据权利要求7所述的方法,其特征在于,所述多类亮度预测模式包括以下中的多种类型;
平面planar或矩阵加权帧内预测MIP模式、DC模式、角度模式以及宽角度模式。
9.一种编码器,其特征在于,包括:
划分单元,用于将目标图帧划分为多个图像块,所述多个图像块中的目标图像块包括目标色度块;
选择单元,用于:若可使用基于神经网络的色度预测模式对所述目标色度块进行帧内预测,在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式;
第一处理单元,用于基于利用所述最优预测模式得到的目标预测块,得到目标残差块;
第二处理单元,用于对所述目标残差块、允许标识以及控制标识进行编码,得到码流,所述允许标识用于标识是否允许使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测;
所述在基于神经网络的色度预测模式和传统预测模式中选择最优预测模式,包括:
使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到第一预测块;
使用所述传统预测模式对所述目标色度块进行帧内预测,以得到第二预测块;
若所述第一预测块的率失真代价低于所述第二预测块的率失真代价,将所述基于神经网络的色度预测模式确定为所述最优预测模式;若所述第一预测块的率失真代价高于所述第二预测块的率失真代价,将所述传统预测模式确定为所述最优预测模式;
所述目标图像块包括目标亮度块,所述基于神经网络的色度预测模式包括按照第二训练策略训练神经网络得到的多套网络权重;所述使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到第一预测块,包括:
确定所述目标亮度块使用的目标亮度预测模式;
使用所述多套网络权重中与所述目标亮度预测模式对应的网络权重,对所述目标色度块进行帧内预测,得到所述第一预测块。
10.一种解码器,其特征在于,包括:
解析单元,用于对码流解析获取目标残差块、允许标识以及控制标识,所述允许标识用于标识是否允许使用基于神经网络的色度预测模式对目标色度块进行帧内预测,所述控制标识用于标识是否使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测;
第一处理单元,用于:若所述允许标识指示可使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,且所述控制标识指示使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到目标预测块;
第二处理单元,与基于所述目标残差块和所述目标预测块,得到目标图像帧;
所述目标色度块所属的目标图像块包括目标亮度块,所述基于神经网络的色度预测模式包括按照第二训练策略训练神经网络得到的多套网络权重;所述使用所述基于神经网络的色度预测模式对所述目标色度块进行帧内预测,得到目标预测块,包括:
确定所述目标亮度块使用的目标亮度预测模式;
使用所述多套网络权重中与所述目标亮度预测模式对应的网络权重,对所述目标色度块进行帧内预测,得到所述目标预测块。
11.一种电子设备,其特征在于,包括:
处理器,适于执行计算机程序;
计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至5中任一项所述的编码方法,或实现如权利要求6至8中任一项所述的解码方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机指令,所述计算机指令适于由处理器加载并执行如权利要求1至5任一项所述的编码方法或如权利要求6至8中任一项所述的解码方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2020/133597 WO2022116085A1 (zh) | 2020-12-03 | 2020-12-03 | 编码方法、解码方法、编码器、解码器以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114868386A CN114868386A (zh) | 2022-08-05 |
CN114868386B true CN114868386B (zh) | 2024-05-28 |
Family
ID=81853780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080065143.4A Active CN114868386B (zh) | 2020-12-03 | 2020-12-03 | 编码方法、解码方法、编码器、解码器以及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114868386B (zh) |
WO (1) | WO2022116085A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024016156A1 (zh) * | 2022-07-19 | 2024-01-25 | Oppo广东移动通信有限公司 | 滤波方法、编码器、解码器、码流以及存储介质 |
WO2024137862A1 (en) * | 2022-12-22 | 2024-06-27 | Bytedance Inc. | Method, apparatus, and medium for video processing |
CN115988223A (zh) * | 2022-12-26 | 2023-04-18 | 阿里巴巴(中国)有限公司 | 帧内预测模式的确定、图像编码以及图像解码方法 |
CN115834897B (zh) * | 2023-01-28 | 2023-07-25 | 深圳传音控股股份有限公司 | 处理方法、处理设备及存储介质 |
CN115955574B (zh) * | 2023-03-10 | 2023-07-04 | 宁波康达凯能医疗科技有限公司 | 一种基于权重网络的帧内图像编码方法、装置及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011125942A1 (ja) * | 2010-04-08 | 2011-10-13 | 株式会社エヌ・ティ・ティ・ドコモ | 動画像予測符号化装置、動画像予測復号装置、動画像予測符号化方法、動画像予測復号方法、動画像予測符号化プログラム、及び動画像予測復号プログラム |
CN107925762A (zh) * | 2015-09-03 | 2018-04-17 | 联发科技股份有限公司 | 基于神经网络的视频编解码处理方法和装置 |
CN108900838A (zh) * | 2018-06-08 | 2018-11-27 | 宁波大学 | 一种基于hdr-vdp-2失真准则的率失真优化方法 |
WO2019115865A1 (en) * | 2017-12-13 | 2019-06-20 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
US10499081B1 (en) * | 2018-06-19 | 2019-12-03 | Sony Interactive Entertainment Inc. | Neural network powered codec |
CN110602491A (zh) * | 2019-08-30 | 2019-12-20 | 中国科学院深圳先进技术研究院 | 帧内色度预测方法、装置、设备及视频编解码系统 |
CN110677644A (zh) * | 2018-07-03 | 2020-01-10 | 北京大学 | 一种视频编码、解码方法及视频编码帧内预测器 |
CN110971897A (zh) * | 2018-09-28 | 2020-04-07 | 杭州海康威视数字技术股份有限公司 | 色度分量的帧内预测模式的编码、解码方法、设备和系统 |
CN110991346A (zh) * | 2019-12-04 | 2020-04-10 | 厦门市美亚柏科信息股份有限公司 | 一种疑似吸毒人员识别的方法、装置及存储介质 |
CN111105035A (zh) * | 2019-12-24 | 2020-05-05 | 西安电子科技大学 | 基于稀疏学习与遗传算法相结合的神经网络剪枝方法 |
CN111294602A (zh) * | 2019-03-14 | 2020-06-16 | 北京达佳互联信息技术有限公司 | 一种帧内预测模式编解码方法和装置及设备 |
CN111699686A (zh) * | 2018-01-26 | 2020-09-22 | 联发科技股份有限公司 | 用于视频编解码的分组神经网络的方法以及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5026092B2 (ja) * | 2007-01-12 | 2012-09-12 | 三菱電機株式会社 | 動画像復号装置および動画像復号方法 |
CN111133756B (zh) * | 2017-10-12 | 2022-04-19 | 联发科技股份有限公司 | 用于视频编码的神经网络方法和装置 |
US20190289327A1 (en) * | 2018-03-13 | 2019-09-19 | Mediatek Inc. | Method and Apparatus of Loop Filtering for VR360 Videos |
US10999606B2 (en) * | 2019-01-08 | 2021-05-04 | Intel Corporation | Method and system of neural network loop filtering for video coding |
US10771807B1 (en) * | 2019-03-28 | 2020-09-08 | Wipro Limited | System and method for compressing video using deep learning |
CN110519595A (zh) * | 2019-08-08 | 2019-11-29 | 浙江大学 | 一种基于频域量化损失估计的jpeg压缩图像复原方法 |
-
2020
- 2020-12-03 WO PCT/CN2020/133597 patent/WO2022116085A1/zh active Application Filing
- 2020-12-03 CN CN202080065143.4A patent/CN114868386B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011125942A1 (ja) * | 2010-04-08 | 2011-10-13 | 株式会社エヌ・ティ・ティ・ドコモ | 動画像予測符号化装置、動画像予測復号装置、動画像予測符号化方法、動画像予測復号方法、動画像予測符号化プログラム、及び動画像予測復号プログラム |
CN107925762A (zh) * | 2015-09-03 | 2018-04-17 | 联发科技股份有限公司 | 基于神经网络的视频编解码处理方法和装置 |
WO2019115865A1 (en) * | 2017-12-13 | 2019-06-20 | Nokia Technologies Oy | An apparatus, a method and a computer program for video coding and decoding |
CN111699686A (zh) * | 2018-01-26 | 2020-09-22 | 联发科技股份有限公司 | 用于视频编解码的分组神经网络的方法以及装置 |
CN108900838A (zh) * | 2018-06-08 | 2018-11-27 | 宁波大学 | 一种基于hdr-vdp-2失真准则的率失真优化方法 |
US10499081B1 (en) * | 2018-06-19 | 2019-12-03 | Sony Interactive Entertainment Inc. | Neural network powered codec |
CN110677644A (zh) * | 2018-07-03 | 2020-01-10 | 北京大学 | 一种视频编码、解码方法及视频编码帧内预测器 |
CN110971897A (zh) * | 2018-09-28 | 2020-04-07 | 杭州海康威视数字技术股份有限公司 | 色度分量的帧内预测模式的编码、解码方法、设备和系统 |
CN111294602A (zh) * | 2019-03-14 | 2020-06-16 | 北京达佳互联信息技术有限公司 | 一种帧内预测模式编解码方法和装置及设备 |
CN110602491A (zh) * | 2019-08-30 | 2019-12-20 | 中国科学院深圳先进技术研究院 | 帧内色度预测方法、装置、设备及视频编解码系统 |
CN110991346A (zh) * | 2019-12-04 | 2020-04-10 | 厦门市美亚柏科信息股份有限公司 | 一种疑似吸毒人员识别的方法、装置及存储介质 |
CN111105035A (zh) * | 2019-12-24 | 2020-05-05 | 西安电子科技大学 | 基于稀疏学习与遗传算法相结合的神经网络剪枝方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2022116085A1 (zh) | 2022-06-09 |
CN114868386A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114868386B (zh) | 编码方法、解码方法、编码器、解码器以及电子设备 | |
KR102083280B1 (ko) | 영상의 재구성된 샘플 세트에 대한 보상 오프셋들의 인코딩/디코딩을 최적화하는 방법 및 장치 | |
WO2021004152A1 (zh) | 图像分量的预测方法、编码器、解码器以及存储介质 | |
WO2021185008A1 (zh) | 编码方法、解码方法、编码器、解码器以及电子设备 | |
CN116235496A (zh) | 编码方法、解码方法、编码器、解码器以及编码系统 | |
CN116438796A (zh) | 图像预测方法、编码器、解码器以及计算机存储介质 | |
US20240107015A1 (en) | Encoding method, decoding method, code stream, encoder, decoder and storage medium | |
CN116686288A (zh) | 编码方法、解码方法、编码器、解码器以及电子设备 | |
TW202408228A (zh) | 濾波方法、編碼器、解碼器、碼流以及儲存媒介 | |
US10764577B2 (en) | Non-MPM mode coding for intra prediction in video coding | |
CN116567232A (zh) | 图像块的划分方法、视频编码方法、装置以及设备 | |
CN113395520B (zh) | 解码预测方法、装置及计算机存储介质 | |
CN116803078A (zh) | 编解码方法、码流、编码器、解码器以及存储介质 | |
CN117413515A (zh) | 编解码方法、编码器、解码器以及计算机存储介质 | |
WO2023193254A1 (zh) | 解码方法、编码方法、解码器以及编码器 | |
WO2023123398A1 (zh) | 滤波方法、滤波装置以及电子设备 | |
WO2023193253A1 (zh) | 解码方法、编码方法、解码器以及编码器 | |
WO2024145790A1 (zh) | 解码方法、编码方法、解码器和编码器 | |
US20240275955A1 (en) | Intra prediction method and decoder | |
WO2022165763A1 (zh) | 编码方法、解码方法、编码器、解码器以及电子设备 | |
WO2024145791A1 (zh) | 解码方法、编码方法、解码器和编码器 | |
WO2024007116A1 (zh) | 解码方法、编码方法、解码器以及编码器 | |
TW202429888A (zh) | 解碼方法、編碼方法、解碼器、編碼器、電子設備、儲存媒介、電腦程式產品和碼流 | |
WO2023197181A1 (zh) | 解码方法、编码方法、解码器以及编码器 | |
WO2023197179A1 (zh) | 解码方法、编码方法、解码器以及编码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |