CN114363632A - 帧内预测方法、编解码方法、编解码器、系统、电子设备和存储介质 - Google Patents
帧内预测方法、编解码方法、编解码器、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114363632A CN114363632A CN202111509542.8A CN202111509542A CN114363632A CN 114363632 A CN114363632 A CN 114363632A CN 202111509542 A CN202111509542 A CN 202111509542A CN 114363632 A CN114363632 A CN 114363632A
- Authority
- CN
- China
- Prior art keywords
- intra
- prediction
- frame prediction
- neural network
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/59—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
Abstract
本申请公开了一种帧内预测方法、编解码方法、编解码器、系统、电子设备和介质,该方法包括:获取当前块在预设范围内的参考像素,当前块为当前编码块或当前编码块内部的子块;将参考像素输入帧内预测神经网络进行学习,得到当前块的帧内预测值;其中,帧内预测神经网络包括全连接层结构和/或卷积层结构。通过上述方式,本申请能够对输入帧内预测神经网络中的输入元素进行调节,能够使得得到帧内预测值更加准确。
Description
技术领域
本申请涉及视频编码技术领域,特别是涉及一种帧内预测方法、编解码方法、编解码器、系统、电子设备和存储介质。
背景技术
通常,视频编码的应用领域非常广泛,视频图像数据量比较大,通常需要对视频像素数据(RGB、YUV等)其进行压缩,压缩后的数据称之为视频码流,视频码流通过有线或者无线网络传输至用户端,再进行解码观看。
首先视频是由许多静止的图像连续播放形成的,每一幅静止的图像都可看作一帧。由于一帧中相近的像素点其像素值通常也是比较接近的,颜色一般不会突然变化,因此可利用这个空间上的相关性来进行压缩,这个技术就是帧内预测。
一般来说,对于帧内预测来说不同位置的参考块的重要性应该是不同的,然而往往在输入网络的过程中,并没有区分参考块的重要性,则通过网络处理得到的传统帧内预测的空间相关性信息无法利用,并且得到的帧内预测值并不够准确。
发明内容
为解决上述技术问题,本申请第一方面采用的技术方案是提供一种帧内预测方法,该方法包括:获取当前块在预设范围内的参考像素,当前块为当前编码块或当前编码块内部的子块;将参考像素输入帧内预测神经网络进行学习,得到当前块的帧内预测值;其中,帧内预测神经网络包括全连接层结构和/或卷积层结构。
为解决上述技术问题,本申请第二方面采用的技术方案是提供一种图像编码方法,该编码方法包括:对待编码图像进行帧内预测,得到待编码图像中当前块的帧内预测值;其中,帧内预测值是基于第一方面的帧内预测方法处理得到的;基于帧内预测得到的数据进行后续编码处理,得到待编码图像对应的编码数据。
为解决上述技术问题,本申请第三方面采用的技术方案是提供一种图像解码方法,该解码方法包括:接收编码端发送的编码数据;通过对编码数据进行解码,得到当前块的帧内预测值,帧内预测值基于第一方面的帧内预测方法处理得到。
为解决上述技术问题,本申请第四方面采用的技术方案是提供一种编码器,该编码器包括:
预测模块,用于对待编码图像进行帧内预测,得到待编码图像中当前块的帧内预测值;其中,帧内预测值是基于第一方面的帧内预测方法处理得到的;
编码模块,用于基于帧内预测得到的数据进行后续编码处理,得到待编码图像对应的编码数据。
为解决上述技术问题,本申请第五方面采用的技术方案是提供一种解码器,其特征在于,包括:
接收模块,用于接收编码端发送的编码数据;
解码模块,用于通过对编码数据进行解码,得到当前块的帧内预测值,帧内预测值基于第一方面的帧内预测方法处理得到。
为解决上述技术问题,本申请第六方面采用的技术方案是提供一种帧内预测系统,帧内预测系统用于对视频图像进行帧内预测,包括:
获取模块,用于获取当前块在预设范围内的参考像素,当前块为当前编码块或当前编码块内部的子块;
学习模块,用于将参考像素输入帧内预测神经网络进行学习,得到当前块的帧内预测值;
其中,帧内预测神经网络包括全连接层结构和/或卷积层结构。
为解决上述技术问题,本申请第七方面采用的技术方案是提供一种电子设备,该电子设备包括:处理器和存储器,存储器中存储有计算机程序,处理器用于执行计算机程序以实现如本申请第一方面的方法。
为解决上述技术问题,本申请第八方面采用的技术方案是提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序能够被处理器执行时实现本申请第一方面的方法。
本申请的有益效果是:本申请通过将参考像素输入帧内预测神经网络进行学习,得到当前块的帧内预测值,可以对输入帧内预测神经网络的输入元素进行调节,从而得到更为准确的帧内预测值。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请帧内预测模式示意图;
图2是本申请多参考线中参考像素的填充示意图;
图3是本申请帧内预测方法第一实施例流程示意图;
图4是本申请的全连接层结构示意图;
图5是本申请的卷积层结构示意图;
图6是本申请参考像素的第一种输入方式处理示意图;
图7是本申请参考像素的第二种输入方式处理示意图;
图8是本申请采用第四种边信息一具体输入方式处理示意图;
图9是基于参考像素的第一种输入方式的一具体实施例的边信息输入方式处理示意图;
图10是基于参考像素的第一种输入方式的另一具体实施例的边信息输入方式处理示意图;
图11是基于参考像素的第二种输入方式的一具体实施例的边信息输入方式处理示意图;
图12是基于参考像素的第二种输入方式的另一具体实施例的边信息输入方式处理示意图;
图13是基于参考像素的第一种输入方式的权重向量输入的一具体实施例示意图;
图14是基于参考像素的第一种输入方式的权重向量输入的另一具体实施例示意图;
图15是基于参考像素的第二种输入方式的传统帧内预测值信息输入的一具体实施例示意图;
图16是本申请编码器实施例的结构示意框图;
图17是本申请解码器实施例的结构示意框图;
图18是本申请帧内预测系统实施例的结构示意框图;
图19是本申请电子设备实施例的结构示意框图;
图20是本申请计算机可读存储介质实施例的电路示意框图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了说明本申请的技术方案,下面通过具体实施例来进行说明本申请提供一种帧内预测方法,请参阅图1以及图2,图1是本申请帧内预测模式示意图;图2是本申请多参考线中参考像素的填充示意图。
在视频编码中,最常用颜色编码方法有YUV、RGB等,本申请中所采用的颜色编码方法为YUV。其中Y表示明亮度,也就是图像的灰度值;U和V(即Cb和Cr)表示色度,作用是描述图像色彩及饱和度。每个Y亮度块都对应一个Cb和一个Cr色度块,每个色度块也只对应一个亮度块。
本申请的帧内预测模式包括直流(DC)模式、平面模式(Planar)和多种角度模式三类,其中2~N表示角度模式。除了上述模式,针对非正方形块长边相邻的参考像素比短边相邻的参考像素相关性更强的情况,增加了一些宽角度模式,可以使参考像素尽量选取为紧邻长边一侧的参考像素。若N取66,则包括宽角度模式在内的所有帧内预测模式图1所示。
其中,2-66为普通角度模式,角度模式-13~1和67~81为宽角度模式,分别代表了不同的预测方向,模式18和50分别为水平和垂直方向。
帧内预测过程大致为:当前像素点按照预测模式所指的方向去各条参考线上找到对应参考像素,若找到的各条参考线上的参考像素都是整像素点,则选取代价值最小的参考线上的整像素值作为当前像素的预测值;若有某条参考线上的参考像素是分像素点,则需要先通过该分像素点左右(或上下)两边的整像素点进行插值,得到的值再进行代价值的比较,选取代价值最小参考像素值作为当前像素的预测值。
在帧内预测中为了得到最佳的预测模式,会根据当前块左边和上面相邻已编码块的帧内预测模式建立可能值(Most Probable Modes,MPM)列表,列表中的帧内预测模式代表被选为当前块最佳帧内预测模式的概率比较高。后续通过选取特定的模式与MPM列表中的模式进行比较,最终选取率失真代价(rdcost)最小的模式作为最佳预测模式。
请参阅图3,图3是本申请帧内预测方法第一实施例流程示意图,该加速方法具体包括以下步骤:
S11:获取当前块在预设范围内的参考像素;
通常,当前像素点周围像素点的像素值就称为参考像素。通常,在一般情况下,帧内预测就是在一帧图像内,根据当前像素点周围像素点的像素值(即参考像素),来预测当前像素点的像素值。
其中,参考像素的位置可以如图2所示,帧内预测技术中可以采用多参考线技术,当前块的上面和左侧都有多条参考线,用于获取参考像素。
其中,当前块可以为当前编码块或当前编码块内部的子块。
S12:将参考像素输入帧内预测神经网络进行学习,得到当前块的帧内预测值;
具体地,在实施例中,可以将参考像素输入帧内预测神经网络进行学习,得到当前块的帧内预测值。其中,帧内预测神经网络包括全连接层结构和/或卷积层结构,通过全连接层结构和/或卷积层结构,可以及实现对参考像素的卷积操作以及反卷积操作等。
因此,本申请通过将参考像素输入帧内预测神经网络进行学习,得到当前块的帧内预测值,可以对输入帧内预测神经网络的输入元素进行调节,从而得到更为准确的帧内预测值。
其中,帧内预测神经网络包括全连接层结构和/或卷积层结构,请参与图4和图5,图4是本申请的全连接层结构示意图;图5是本申请的卷积层结构示意图。
对于不同块大小,本申请方案使用不同的神经网络结构。神经网络只应用于4*4、8*8、16*16和32*32大小的块。对于小块4*4和8*8,采用全连接网络(Full Connect,FC),如图4所示;对于大块16*16和32*32,采用卷积神经网络(Convolutional),可以简称为Conv,如图5所示。以8*8小块为例,全连接网络如图4所示,N代表块尺寸,图中N=8。
其中,平滑(Flatten)模块用于将图像展平为一维向量;FC表示全连接网络模块;PReLU或Relu均为激活层,用于将数据非线性化;重塑(Reshape)模块用于将一维向量恢复成图像;Conv模块用于卷积;合并(Concat)模块用于不同分支的数据合并;反卷积(Deconvolutional)模块,也称为Deconv模块,用于对输入进行反卷积。
更进一步地,获取当前块在预设范围内的参考像素的步骤包括:
提取预设数量条参考线的参考像素,得到参考像素区域;
具体地,从当前块的上方和左侧由近到远选择n条参考线的参考像素输入网络,这n条参考线可以互相相邻也可以非相邻,其中当前块为当前编码块或当前编码块内部的子块。提取这n条参考线的参考像素后得到一个L型的参考像素区域,需要对这个L型区域进行处理,包括两种输入方式,具体地,将参考像素输入帧内预测神经网络进行学习的两种输入方式,包括如下:
第一种输入方式:将填充的参考像素区域分割为相同尺寸的多个互不重叠块,以作为一个多通道图输入帧内预测神经网络。其中,第一种输入方式也可以成为方案A,具体地,将L型区域平均分割为m*n大小的j个互不重叠块,作为一个j通道图输入网络。若有位于边缘的块小于m*n,则缺失部分通过拷贝已有的像素进行填充。
具体地,请参阅图6,图6是本申请参考像素的第一种输入方式处理示意图,在该实施例中,选择方案A,选择的参考线为最近的4条参考线(n=4),设当前块大小为w*h。
对L型区域参考像素的处理和输入方式如图6所示,当前块的尺寸为w*h=8*4,周围灰色块区域代表L型区域的参考像素,提取参考像素后将其划分为5*4大小的参考像素块(如粗黑框所示)。左下角的参考像素块有4*2的区域是残缺的,因此用上方最近的一行像素进行拷贝填充,以最终形成多通道输入网络,如图6所示形成同样尺寸的6个通道,以此输入帧内预测神经网络。
第二种输入方式:将参考像素区域分割为多个矩形区域块,以作为多个通道图输入帧内预测神经网络的多个分支。其中,第二种输入方式也可以成为方案B,具体地,将L型区域分割为k个矩形区域块,作为k个分支输入网络,这些矩形区域可以尺寸不同,也可以重叠。
具体地,请参阅图7,图7是本申请参考像素的第二种输入方式处理示意图,在该实施例中,选择方案B,当前块尺寸和参考线设置和图6中的实施例一致,但会将参考像素划分成大小不同的区域块,且有部分重叠。
对L型区域参考像素的处理和输入方式如图7所示,将L型参考像素区域分割为3个不同尺寸的参考像素块,且有部分重叠(深灰色块区域),最终作为输入神经网络的3个分支。
除了参考像素外,还可以输入一些边信息,如QPmap(量化参数信息)以及预测值信息,用于提升网络的学习效率和准确性。其中预测值信息主要来自传统帧内预测过程中。因此可以获取当前块的边信息,其中,边信息至少包括传统预测方向、权重向量、量化参数信息以及预测值信息中的至少一个。其中,边信息可以用于辅助参考像素,以输入帧内预测神经网络,使得得到的帧内预测值更为准确和全面。
具体地,基于获取的参考像素,可以将参考像素输入传统帧内预测模式,从而得到预测值信息,传统预测防向、权重向量、量化参数信息,为后续输入帧内预测神经网络提供更为齐全的参数,利于方案的实现性。具体可以包括如下方案:
更进一步地,边信息包括帧内预测值,将参考像素和边信息输入帧内预测神经网络进行学习的步骤之前,该帧内预测方法还包括边信息输入,具体有以下四种方式:
一、采用传统帧内预测模式,对当前块进行传统帧内预测,以得到预测值信息作为新的分支输入帧内预测神经网络;具体地,如方案a:由上文可知,选取率失真代价(rdcost)最小的模式作为最佳预测模式,先进行完整的传统帧内预测模式过程,用最佳传统帧内预测模式得到的预测值作为一个新的分支输入网络。
二、若传统帧内预测模式为角度模式,则确定角度预测模式;根据角度预测模式指向的参考像素位置,对预设区域分割后的区域块进行权重分配;其中,离角度预测模式指向位置近的区域块分配更多权重,越远的区域块分配权重越低,以将各个区域块分配好的权重作为一个权重向量边信息输入帧内预测神经网络。
具体地,如方案b:先进行完整的传统帧内预测模式过程,若最佳传统帧内预测模式为角度模式,则根据选出的最佳角度预测模式指向的参考像素位置,对L型区域分割后各个区域块进行初步分配权重。
其中,区域块分配的权重与区域块离角度预测模式指向位置的距离呈负相关,也即最佳帧内预测模式指向位置近的区域块分配更多权重,越远的区域块分配权重越低,以各个区域块分配好的权重作为一个权重向量边信息输入网络;若最佳传统帧内预测模式为角度模式不是角度模式,则将当前块的最佳传统帧内预测值输入网络。
三、建传统帧内预测模式过程中的最可能模式(MPM)列表至少包括帧内角度模式,平面模式,直流模式中的一个;利用最可能模式列表的一种预测模式进行预测或利用最可能模式列表中的第一个预测模式依次选择多个预测模式进行加权预测,以得到预测值信息作为新的分支输入帧内预测神经网络。
具体地,如方案c:只进行传统帧内预测模式过程中MPM列表构建的过程,用MPM列表中第i个帧内预测模式进行预测,或MPM列表中前i个帧内预测模式进行加权预测,将得到的预测值作为一个新的分支输入网络。
四、若帧内预测模式为角度模式,则确定角度预测模式;根据角度预测模式指向的参考像素位置,对预设区域分割后的区域块进行权重分配;其中,离角度预测模式指向位置近的区域块分配更多权重,越远的区域块分配权重越低,以将各个区域块分配好的权重作为一个权重向量边信息输入帧内预测神经网络。
具体地,如方案d:只进行传统帧内预测模式过程中MPM列表构建的过程,若MPM列表的第i个模式为角度模式,则将根据该角度预测模式指向的参考像素位置,对L型区域分割后各个区域块进行初步分配权重。其中离最佳帧内预测模式指向位置近的区域块分配更多权重,越远的区域块分配权重越低,将各个区域块分配好的权重作为一个权重向量边信息输入网络;若MPM列表的第i个模式不是角度模式,则将当前块用MPM列表第i个模式进行预测后的帧内预测值输入网络。
更进一步地,请参阅图8,图8是本申请采用第四种边信息一具体输入方式处理示意图,在该实施例中,选择方案d。设经过传统帧内预测过程中的MPM列表构建后,构建的MPM列表为{帧内角度模式50,Planar模式,DC模式}。设参考像素的分割方式和方案A一致。
由于帧内角度模式50为垂直方向的模式,由图8中可见,参考像素块2的相关性最强,所以权重分配最高,和块2偏离越远的块,权重分配越低。该实施例中块1~块6的权重可分配为:{3/16,3/16,5/16,2/16,2/16,1/16}。将该权重分配作为边信息输入网络中的attention模块末尾并和attention模块的输出结果相加,并进行归一化。
由于帧内预测是在编码块上做的,不同块大小,其纹理特性也不同,所以可以针对特定尺寸的块设计不同的网络结构。更进一步地,当前块的尺寸与全连接层结构的数量呈负相关,比如呈反比例关系,还有其他负相关的方式,此处不作限定。且当前块的尺寸还与卷积层结构的数量呈正相关,比如呈正比例关系,还有其他正相关的方式,此处不作限定。
具体地,该神经网络设计可应用于非正方形块和正方形块。网络结构中可包含全连接层和/或卷积层。对越小的块,全连接层越多,卷积层越少或者没有;对越大的块,卷积层越多,全连接层越少或者没有。卷积层和全连接层的位置可任意摆放。
更进一步地,帧内预测神经网络还包括注意力模块,注意力模块设置于卷积层结构之后或设置于各个分支融合成一个主干之后,用于给提取的特征分配权重。
具体地,注意力模块输出的一般是一个一维向量,里面的值代表权重。注意力模块可以由卷积结构、也可以由全连接结构构成,只要满足输入输出的格式就行。对于参考像素输入方案A,注意力模块可连接在各个卷积层之后;对于参考像素输入方案B,注意力模块要放在各个分支融合成一个主干之后。
如此,为更进一步地对本申请的帧内预测方法进行细化理解,基于不同的参考像素输入以及不同边信息输入,以下给出多个实施例进行示意,首先,对于参考像素输入方案A,网络结构请参阅图9和图10,图9是基于参考像素的第一种输入方式的一具体实施例的边信息输入方式处理示意图;图10是基于参考像素的第一种输入方式的另一具体实施例的边信息输入方式处理示意图。
具体地,图9中输入权重向量的边信息,图10中输入传统预测值的边信息,在其余实施例中这些边信息可以同时输入。注意力模块、权重向量、传统预测值输入的位置不限于图9和图10的位置。
对于参考像素输入方案B,网络结构请参阅图11和图12,图11是基于参考像素的第二种输入方式的一具体实施例的边信息输入方式处理示意图;图12是基于参考像素的第二种输入方式的另一具体实施例的边信息输入方式处理示意图。
具体地,图11中输入权重向量的边信息,图12中输入传统预测值的边信息,在其余实施例中这些边信息可以同时输入。注意力模块、权重向量、传统预测值输入的位置不限于图11和图12的位置。
其中L1、L3代表卷积层层数,L2代表全连接层层数,如果需要,后面还可以接L4、L5等等的全连接层或卷积层。权重向量边信息和注意力模块输出的权重向量信息相加,然后通过和卷积得到的特征相乘,为特征分配权重。Flatten模块用于将图像展平为一维向量。Reshape模块用于将一维向量回复成图像。
更进一步地,请参阅图13,图13是基于参考像素的第一种输入方式的权重向量输入的一具体实施例示意图;在该实施例中,当前块大小为8*4,参考像素区域选择n=4条参考线。采用方案A的输入方式,参考像素被划分为7个4*4的块,作为7个通道输入网络,边信息输入权重向量。网络结构中采用全连接结构和少量卷积。
如图13所示,该网络结构采用了1层卷积和3层全连接。其中,Relu为激活层,用于将数据非线性化。Reshape用于将单维数据重塑成二维图像。
更进一步地,请参阅图14,图14是基于参考像素的第一种输入方式的权重向量输入的另一具体实施例示意图;在该实施例中,当前块大小为32*8,参考像素区域选择n=8条参考线。采用方案A的输入方式,参考像素被平均划分为互不重叠的11个8*8像素的块,作为11个通道输入网络,边信息输入权重向量,网络结构中只采用卷积。
如图14所示,该网络结构采用了4层卷积结构。其中,Relu为激活层,用于将数据非线性化。Shuffle用于多通道的数据重组合并为单通道数据输出。
更进一步地,请参阅图15,图15是基于参考像素的第二种输入方式的传统帧内预测值信息输入的一具体实施例示意图;在该实施例中,当前块大小为8*4,参考像素区域选择n=4条参考线。采用方案B的输入方式,参考像素被拆分为3个分支输入,边信息输入传统预测值,网络结构中采用全连接结构和少量卷积。
如图15所示,该网络结构中一开始每个分支采用了1层卷积和3层全连接,最终输入前再用一层卷积。其中,Relu为激活层,用于将数据非线性化。Concat用于不同分支的数据合并。Reshape用于将单维数据重塑成二维图像。
更进一步地,基于开关模式,设置帧级标签或块级标签,作为句法元素用于控制帧内预测神经网络是否开启。具体地,可以通过句法元素进行实现,比如一段代码模块,前向测试过程中,将上述的帧内神经网络预测作为帧内预测的一个额外模式,需要设置一个帧级或块级的flag,用于控制帧内神经网络预测模式的开关。
在帧内预测时,会将帧内神经网络预测模式和传统帧内预测模式进行竞争,通过比较率失真代价,选择代价小的模式作为帧内预测的最佳模式。最终需要编码传输一个flag表明是用传统帧内预测模式还是帧内神经网络预测模式。
若网络中需要用到传统帧内预测的预测值,则必须先进行传统帧内预测流程,然后对是否进行帧内神经网络预测模式进行率失真代价比较,来决定是否开启帧内神经网络预测模式。最终需要编码传输一个flag表明是是否启用帧内神经网络预测模式。
其中,因为不同的输入是不同的方案,可以规定需要的网络就是要输入传统预测值。当然要想网络简单一点,那可以不输入预测值,具体根据需求进行选择,此处不作限定。
具体地,可以设置一个帧级的句法标识enable_cnn_intra,对当前帧,将enable_cnn_intra设置为1,表明当前帧可以开启帧内神经网络预测模式。
在该实施例中,网络中不需要输入传统帧内预测的预测值,直接将帧内神经网络预测模式和传统ISP预测进行竞争,设帧内神经网络预测模式的率失真代价为RDcost1,传统帧内预测的率失真代价为RDcost2,且RDcost1<RDcost2。设置一个句法apply_cnn_intra_mode,传输apply_cnn_intra_mode=1,代表使用帧内神经网络预测模式,传输apply_cnn_intra_mode=0,代表不使用帧内神经网络预测模式,至于其他模式用不用,是其他句法决定。
为说明本申请的技术问题,本申请还提供一种图像编码方法,该编码方法包括:对待编码图像进行帧内预测,得到待编码图像中当前块的帧内预测值;其中,帧内预测值是基于上述的帧内预测方法处理得到的;基于帧内预测得到的数据进行后续编码处理,得到待编码图像对应的编码数据。
为说明本申请的技术问题,本申请还提供一种图像解码方法,该解码方法包括:接收编码端发送的编码数据;通过对编码数据进行解码,得到当前块的帧内预测值,帧内预测值基于上述的帧内预测方法处理得到,此处不再重复说明。
为了说明本申请的技术方案,本申请还提供一种编码器,请参阅图16,图16是本申请编码器实施例的结构示意框图,该编码器40包括:
预测模块41,用于对待编码图像进行帧内预测,得到待编码图像中当前块的帧内预测值;其中,帧内预测值是基于上述的帧内预测方法处理得到的,此处不再重复说明;
编码模块42,用于基于帧内预测得到的数据进行后续编码处理,得到待编码图像对应的编码数据。
其中,帧内预测值通常不能直接编码,需要和原始图像相减后得到残差图,然后对残差图变换量化,然后再利用编码模块42进行编码。
为了说明本申请的技术方案,本申请还提供一种解码器,请参阅图17,图17是本申请解码器实施例的结构示意框图,解码器50包括:
接收模块51,用于接收编码端发送的编码数据;
解码模块52,用于通过对编码数据进行解码,得到当前块的帧内预测值,帧内预测值基于上述的帧内预测方法处理得到,此处不再重复说明。
为了说明本申请的技术方案,本申请还提供一种帧内预测系统,该帧内预测系统用于对视频图像进行帧内预测,可以安装于是电脑、可以是服务器,还可以是移动终端,具体此处不做限定。请参阅图18,图18是本申请帧内预测系统实施例的结构示意框图,该帧内预测系统60包括:获取模块61以及学习模块62。
获取模块61,用于获取当前块在预设范围内的参考像素,当前块为当前编码块或当前编码块内部的子块;
学习模块62,用于将参考像素输入帧内预测神经网络进行学习,得到当前块的帧内预测值;
其中,帧内预测神经网络包括全连接层结构和/或卷积层结构。
因此,本申请通过获取模块61获取参考像素,并通过学习模块62将参考像素输入帧内预测神经网络进行学习,得到当前块的帧内预测值,可以对输入帧内预测神经网络的输入元素进行调节,从而得到更为准确的帧内预测值。
该帧内预测系统通过基于帧内预测神经网络,不仅对参考像素和边信息的获取方式,参考像素和边信息的处理输入方式,网络结构的设计和应用策略,注意力模块的应用方式,句法元素进行设置;还细化了输入参考像素区域的选取,对参考像素区域的处理方式,包括分割方式、填充方式、以及输入网络的形式;并且细化对边信息的获取和处理方式,包括传统预测值的获取方式、参考像素块初始权重的分配方式,以及边信息的输入位置的处理;对不同参考像素输入方式时网络结构的设计方式,网络结构采用对不同大小块的应用策略,并且设置注意力模块的应用方式和帧内神经网络预测模式在前向测试中对句法元素进行设置。
如此,使得本申请利用传统帧内模式中获取到的特定帧内预测模式,对参考像素块的权重做了初始化输入网络,有利于后续注意力模块分配特征权重时的准确度。并且还会输入从传统帧内预测模式过程中得到的预测值,更加丰富了网络学习的信息。此外,还加入了注意力模块,对从各个参考像素块中提取的信息进行权重分配,有利于获取到更加相关的信息。
为了说明本申请的技术方案,本申请还提供一种电子设备,该电子设备可以是电脑或移动手机等,具体不做限定,请参阅图19,图19是本申请电子设备实施例的结构示意框图,该电子设备7包括:处理器71和存储器72,存储器72中存储有计算机程序721,处理器71用于执行计算机程序721以实现如本申请实施例的帧内预测方法,在此不再赘述。
此外,本申请还提供一种计算机可读存储介质,请参阅图20,图20是本申请计算机可读存储介质实施例的电路示意框图,该计算机可读存储介质8存储有计算机程序81,计算机程序81能够被处理器执行时实现如本申请实施例的帧内预测方法,在此不再赘述。
如果以软件功能单元的形式实现并作为独立的产品销售或使用时,还可以存储在具有存储功能的装置中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储装置中,包括若干指令(程序数据)用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种介质以及具有上述存储介质的电脑、手机、笔记本电脑、平板电脑、相机等电子设备。
关于具有存储功能的装置中的程序数据的执行过程的阐述可以参照上述本申请帧内预测方法实施例中阐述,在此不再赘述。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (18)
1.一种帧内预测方法,其特征在于,所述方法包括:
获取当前块在预设范围内的参考像素,所述当前块为当前编码块或当前编码块内部的子块;
将所述参考像素输入帧内预测神经网络进行学习,得到所述当前块的帧内预测值;
其中,所述帧内预测神经网络包括全连接层结构和/或卷积层结构。
2.根据权利要求1所述的方法,其特征在于,
所述获取当前块在预设范围内的参考像素的步骤包括:
提取预设数量条参考线的所述参考像素,得到参考像素区域;
所述将所述参考像素输入帧内预测神经网络进行学习的步骤包括:
将填充的所述参考像素区域分割为相同尺寸的多个互不重叠块,以作为一个多通道图输入所述帧内预测神经网络。
3.根据权利要求1所述的方法,其特征在于,
所述获取当前块在预设范围内的参考像素的步骤包括:
提取预设数量条参考线的所述参考像素,得到参考像素区域;
所述将所述参考像素输入帧内预测神经网络进行学习的步骤包括:
将所述参考像素区域分割为多个矩形区域块,以作为多个通道图输入所述帧内预测神经网络的多个分支。
4.根据权利要求2或3所述的方法,其特征在于,还包括:
获取所述当前块的边信息,所述边信息包括所述传统预测方向、权重向量、量化参数信息以及预测值信息中的至少一个;其中,所述预测值信息是将所述参考像素输入传统帧内预测模式得到的;
所述将所述参考像素输入帧内预测神经网络进行处理,得到所述当前块的帧内预测值的步骤包括:
将所述参考像素和所述边信息输入帧内预测神经网络进行处理,得到所述当前块的帧内预测值。
5.根据权利要求4所述的方法,其特征在于,所述边信息包括所述帧内预测值;
所述将所述参考像素和所述边信息输入帧内预测神经网络进行处理的步骤之前,所述方法还包括:
采用传统帧内预测模式,对所述当前块进行传统帧内预测,得到所述预测值信息。
6.根据权利要求5所述的方法,其特征在于,
所述将所述参考像素和所述边信息输入帧内预测神经网络进行学习的步骤之前,所述方法还包括:
若所述传统帧内预测模式为角度模式,则确定角度预测模式;
根据所述角度预测模式指向的参考像素位置,对预设区域分割后的区域块进行权重分配;
其中,所述区域块分配的权重与所述区域块离所述角度预测模式指向位置的距离呈负相关,以将各个区域块分配的权重作为一个权重向量边信息输入所述帧内预测神经网络。
7.根据权利要求5所述的方法,其特征在于,
所述将所述参考像素和所述边信息输入帧内预测神经网络进行学习的步骤之前,所述方法还包括:
构建传统帧内预测模式过程中的最可能模式列表,所述最可能模式列表至少包括帧内角度模式,平面模式,直流模式中的一个;
利用所述最可能模式列表的一种预测模式进行预测或利用所述最可能模式列表中的第一个预测模式依次选择多个预测模式进行加权预测,以得到所述预测值信息作为新的分支输入所述帧内预测神经网络。
8.根据权利要求7所述的方法,其特征在于,
所述将所述参考像素和所述边信息输入帧内预测神经网络进行学习的步骤之前,所述方法还包括:
从所述最可能模式列表中选择一个帧内预测模式;
若所述帧内预测模式为角度模式,则确定角度预测模式;
根据所述角度预测模式指向的参考像素位置,对预设区域分割后的区域块进行权重分配;
其中,离角度预测模式指向位置近的所述区域块分配更多权重,越远的所述区域块分配权重越低,以将各个区域块分配好的权重作为一个权重向量边信息输入所述帧内预测神经网络。
9.根据权利要求6或8所述的方法,其特征在于,
所述帧内预测神经网络还包括注意力模块,所述注意力模块设置于所述卷积层结构之后或设置于各个分支融合成一个主干之后,用于给提取的特征分配权重。
10.根据权利要求1所述的方法,其特征在于,
所述当前块的尺寸与所述全连接层结构的数量呈负相关,且与所述卷积层结构的数量呈正相关。
11.根据权利要求1所述的方法,其特征在于,
基于开关模式,设置帧级标签或块级标签,作为句法元素用于控制所述帧内预测神经网络是否开启。
12.一种图像编码方法,其特征在于,包括:
对待编码图像进行帧内预测,得到所述待编码图像中当前块的帧内预测值;其中,所述帧内预测值是基于权利要求1-11中任意一项所述的帧内预测方法处理得到的;
基于所述帧内预测得到的数据进行后续编码处理,得到所述待编码图像对应的编码数据。
13.一种图像解码方法,其特征在于,包括:
接收编码端发送的编码数据;
通过对所述编码数据进行解码,得到当前块的帧内预测值,所述帧内预测值基于权利要求1-11中任意一项所述的帧内预测方法处理得到。
14.一种编码器,其特征在于,包括:
预测模块,用于对待编码图像进行帧内预测,得到所述待编码图像中当前块的帧内预测值;其中,所述帧内预测值是基于权利要求1-11中任意一项所述的帧内预测方法处理得到的;
编码模块,用于基于所述帧内预测得到的数据进行后续编码处理,得到所述待编码图像对应的编码数据。
15.一种解码器,其特征在于,包括:
接收模块,用于接收编码端发送的编码数据;
解码模块,用于通过对所述编码数据进行解码,得到当前块的帧内预测值,所述帧内预测值基于权利要求1-11中任意一项所述的帧内预测方法处理得到。
16.一种帧内预测系统,所述帧内预测系统用于对视频图像进行帧内预测,其特征在于,包括:
获取模块,用于获取当前块在预设范围内的参考像素,所述当前块为当前编码块或当前编码块内部的子块;
学习模块,用于将所述参考像素输入帧内预测神经网络进行学习,得到所述当前块的帧内预测值;
其中,所述帧内预测神经网络包括全连接层结构和/或卷积层结构。
17.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储有计算机程序,所述处理器用于执行所述计算机程序以实现如权利要求1-11或12或13中任一项所述的方法。
18.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储有计算机程序,计算机程序能够被处理器执行时实现如权利要求1-11或12或13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509542.8A CN114363632B (zh) | 2021-12-10 | 2021-12-10 | 帧内预测方法、编解码方法、编解码器、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111509542.8A CN114363632B (zh) | 2021-12-10 | 2021-12-10 | 帧内预测方法、编解码方法、编解码器、系统、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114363632A true CN114363632A (zh) | 2022-04-15 |
CN114363632B CN114363632B (zh) | 2023-05-16 |
Family
ID=81099601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111509542.8A Active CN114363632B (zh) | 2021-12-10 | 2021-12-10 | 帧内预测方法、编解码方法、编解码器、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114363632B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024001433A1 (zh) * | 2022-06-30 | 2024-01-04 | 深圳市中兴微电子技术有限公司 | 编码模式的预测方法、装置、电子设备和存储介质 |
WO2024083247A1 (en) * | 2022-10-21 | 2024-04-25 | Douyin Vision Co., Ltd. | Method, apparatus, and medium for visual data processing |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107071417A (zh) * | 2017-04-10 | 2017-08-18 | 电子科技大学 | 一种用于视频编码的帧内预测方法 |
WO2020181554A1 (zh) * | 2019-03-14 | 2020-09-17 | Oppo广东移动通信有限公司 | 预测值的确定方法、解码器以及计算机存储介质 |
US20200304836A1 (en) * | 2019-03-22 | 2020-09-24 | Tencent America LLC | Supplemental enhancement information messages for neural network based video post processing |
CN111801945A (zh) * | 2018-12-05 | 2020-10-20 | 谷歌有限责任公司 | 具有基于边信息的视频编译的混合运动补偿神经网络 |
CN112335243A (zh) * | 2018-06-18 | 2021-02-05 | 世宗大学校产学协力团 | 影像编码/解码方法及装置 |
CN112333451A (zh) * | 2020-11-03 | 2021-02-05 | 中山大学 | 一种基于生成对抗网络的帧内预测方法 |
CN112446837A (zh) * | 2020-11-10 | 2021-03-05 | 浙江大华技术股份有限公司 | 图像滤波方法、电子设备及存储介质 |
CN113239800A (zh) * | 2021-05-12 | 2021-08-10 | 上海善索智能科技有限公司 | 目标检测方法及目标检测装置 |
-
2021
- 2021-12-10 CN CN202111509542.8A patent/CN114363632B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107071417A (zh) * | 2017-04-10 | 2017-08-18 | 电子科技大学 | 一种用于视频编码的帧内预测方法 |
CN112335243A (zh) * | 2018-06-18 | 2021-02-05 | 世宗大学校产学协力团 | 影像编码/解码方法及装置 |
CN111801945A (zh) * | 2018-12-05 | 2020-10-20 | 谷歌有限责任公司 | 具有基于边信息的视频编译的混合运动补偿神经网络 |
WO2020181554A1 (zh) * | 2019-03-14 | 2020-09-17 | Oppo广东移动通信有限公司 | 预测值的确定方法、解码器以及计算机存储介质 |
US20200304836A1 (en) * | 2019-03-22 | 2020-09-24 | Tencent America LLC | Supplemental enhancement information messages for neural network based video post processing |
CN112333451A (zh) * | 2020-11-03 | 2021-02-05 | 中山大学 | 一种基于生成对抗网络的帧内预测方法 |
CN112446837A (zh) * | 2020-11-10 | 2021-03-05 | 浙江大华技术股份有限公司 | 图像滤波方法、电子设备及存储介质 |
CN113239800A (zh) * | 2021-05-12 | 2021-08-10 | 上海善索智能科技有限公司 | 目标检测方法及目标检测装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024001433A1 (zh) * | 2022-06-30 | 2024-01-04 | 深圳市中兴微电子技术有限公司 | 编码模式的预测方法、装置、电子设备和存储介质 |
WO2024083247A1 (en) * | 2022-10-21 | 2024-04-25 | Douyin Vision Co., Ltd. | Method, apparatus, and medium for visual data processing |
Also Published As
Publication number | Publication date |
---|---|
CN114363632B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11051028B2 (en) | Video encoding and decoding method | |
US11438591B2 (en) | Video coding method and apparatus | |
EP3709644A1 (en) | Method for image processing and apparatus for implementing the same | |
EP1610563A2 (en) | Selecting encoding types and predictive modes for encoding video data | |
CN114363632B (zh) | 帧内预测方法、编解码方法、编解码器、系统、电子设备和存储介质 | |
US11758159B2 (en) | Image decoding method/device, image encoding method/device, and recording medium in which bitstream is stored | |
KR101808327B1 (ko) | 영상 코덱에서 패딩을 이용한 영상 부/복호화 방법 및 장치 | |
CN109379594B (zh) | 视频编码压缩方法、装置、设备和介质 | |
EP3629579A1 (en) | Method for image processing and apparatus for implementing the same | |
EP3962080A1 (en) | Method and apparatus for image processing | |
CN114339262B (zh) | 熵编/解码方法及装置 | |
CN109587491A (zh) | 一种帧内预测方法、装置及存储介质 | |
CN113068034B (zh) | 视频编码方法及装置、编码器、设备、存储介质 | |
CN112218092A (zh) | 串编码技术的编码方法、设备及存储介质 | |
CN109996083B (zh) | 帧内预测方法及装置 | |
CN110719467B (zh) | 色度块的预测方法、编码器及存储介质 | |
CN113489976A (zh) | 预测编码方法、装置和电子设备 | |
CN114584776A (zh) | 帧内预测模式的译码方法和装置 | |
CN110166773B (zh) | 帧内预测方法、视频编码方法、视频处理装置、存储介质 | |
EP2464116A1 (en) | Method and device for video encoding using geometry adaptive block partitioning | |
KR20190062284A (ko) | 인지 특성에 기반한 영상 처리 방법 및 장치 | |
CN113111770B (zh) | 一种视频处理方法、装置、终端及存储介质 | |
CN111713105B (zh) | 一种视频图像处理方法、设备及存储介质 | |
CN110166774B (zh) | 帧内预测方法、视频编码方法、视频处理装置、存储介质 | |
KR102225880B1 (ko) | 인트라 예측을 이용한 비디오 부호화/복호화 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |