CN116438796A - 图像预测方法、编码器、解码器以及计算机存储介质 - Google Patents

图像预测方法、编码器、解码器以及计算机存储介质 Download PDF

Info

Publication number
CN116438796A
CN116438796A CN202080106712.5A CN202080106712A CN116438796A CN 116438796 A CN116438796 A CN 116438796A CN 202080106712 A CN202080106712 A CN 202080106712A CN 116438796 A CN116438796 A CN 116438796A
Authority
CN
China
Prior art keywords
current block
mode
image component
value
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080106712.5A
Other languages
English (en)
Inventor
元辉
刘瑶
杨烨
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Publication of CN116438796A publication Critical patent/CN116438796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请实施例公开了一种图像预测方法、编码器、解码器以及计算机存储介质,该方法包括:确定当前块的预测模式参数;在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。

Description

图像预测方法、编码器、解码器以及计算机存储介质 技术领域
本申请涉及视频编解码技术领域,尤其涉及一种图像预测方法、编码器、解码器以及计算机存储介质。
背景技术
随着人们对视频显示质量要求的提高,高清和超高清视频等新视频应用形式应运而生。H.265/高效率视频编码(High Efficiency Video Coding,HEVC)已经无法满足视频应用迅速发展的需求,联合视频研究组(Joint Video Exploration Team,JVET)制定了最新的视频编码标准H.266/多功能视频编码(Versatile Video Coding,VVC),其相应的测试模型为VVC的参考软件测试平台(VVC Test Model,VTM)。
在相关技术中,目前使用已有的跨分量线性模型(Cross-component Linear Model,CCLM)模式进行亮度分量与色度分量之间的预测,其技术效果上虽然去除了亮度分量与色度分量之间的冗余,但是并没有去除当前块与邻近块之间的空间冗余;同时,CCLM模式采用单一的线性模型进行亮度分量与色度分量之间的预测,还限制了不同颜色分量间的预测准确度,进而损失了编解码效率。
发明内容
本申请提供一种图像预测方法、编码器、解码器以及计算机存储介质,可以提高图像分量预测的准确度,从而能够降低码率,进而提高编解码效率。
本申请的技术方案可以如下实现:
第一方面,本申请实施例提供了一种图像预测方法,应用于编码器,该方法包括:
确定当前块的预测模式参数;
在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
第二方面,本申请实施例提供了一种图像预测方法,应用于解码器,该方法包括:
解析码流,获取当前块的预测模式参数;
在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
第三方面,本申请实施例提供了一种编码器,该编码器包括第一确定单元和第一预测单元;其中,
所述第一确定单元,配置为确定当前块的预测模式参数;
所述第一确定单元,还配置为在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
所述第一预测单元,配置为根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
第四方面,本申请实施例提供了一种编码器,该编码器包括第一存储器和第一处理器;其中,
第一存储器,用于存储能够在第一处理器上运行的计算机程序;
第一处理器,用于在运行所述计算机程序时,执行如第一方面所述的方法。
第五方面,本申请实施例提供了一种解码器,该解码器包括解析单元、第二确定单元和第二预测单元;其中,
所述解析单元,配置为解析码流,获取当前块的预测模式参数;
所述第二确定单元,配置为在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
所述第二预测单元,配置为根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
第六方面,本申请实施例提供了一种解码器,该解码器包括第二存储器和第二处理器;其中,
第二存储器,用于存储能够在第二处理器上运行的计算机程序;
第二处理器,用于在运行所述计算机程序时,执行如第二方面所述的方法。
第七方面,本申请实施例提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,所述计算机程序被第一处理器执行时实现如第一方面所述的方法、或者被第二处理器执行时实现如第二方面所述的方法。
本申请实施例提供了一种图像预测方法、编码器、解码器以及计算机存储介质,通过确定当前块的预测模式参数;在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。这样,由于本申请提出了一种ANNM模式对当前块进行图像分量预测,而且ANNM模式充分考虑了当前块的第一图像分量与参考图像分量之间的关系,使得使用ANNM模式可以得到更加准确的第二图像分量预测值,不仅提高了图像分量预测的准确度,还减少了传输的比特数,从而能够降低码率,进而提高编解码效率。
附图说明
图1为相关技术提供的一种在DM模式下色度块对应的中心亮度块的位置示意图;
图2为相关技术提供的一种当前块与相邻参考像素的位置示意图;
图3为相关技术提供的一种角度预测模式的位置示意图;
图4为相关技术提供的一种构建线性模型的结构示意图;
图5A为本申请实施例提供的一种视频编码系统的组成框图示意图;
图5B为本申请实施例提供的一种视频解码系统的组成框图示意图;
图6为本申请实施例提供的一种图像预测方法的流程示意图;
图7为本申请实施例提供的一种ANNM模式的网络模型的组成示意图;
图8为本申请实施例提供的一种ANNM模式的网络模型的具体网络结构示意图;
图9为本申请实施例提供的一种CTU与上方/左侧相邻的参考像素的位置结构示意图;
图10为本申请实施例提供的一种通道注意力机制模型的具体网格结构示意图;
图11为本申请实施例提供的另一种图像预测方法的流程示意图;
图12为本申请实施例提供的一种编码器的组成结构示意图;
图13为本申请实施例提供的一种编码器的硬件结构示意图;
图14为本申请实施例提供的一种解码器的组成结构示意图;
图15为本申请实施例提供的一种解码器的硬件结构示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
在视频图像中,一般采用第一图像分量、第二图像分量和第三图像分量来表征编码块(Coding Block,CB)。其中,这三个图像分量分别为一个亮度分量、一个蓝色色度分量和一个红色色度分量,具体地,亮度分量通常使用符号Y表示,蓝色色度分量通常使用符号Cb或者U表示,红色色度分量通常使用符号Cr或者V表示;这样,视频图像可以用YCbCr格式表示,也可以用YUV格式表示。
在本申请实施例中,第一图像分量可以为亮度分量,第二图像分量可以为蓝色色度分量,第三图像分量可以为红色色度分量,但是本申请实施例不作具体限定。
下面将针对目前各种预测技术进行相关技术方案描述。
在H.266/VVC中,对于色度分量而言,帧内预测模式可以分为两大类:第一类为沿用HEVC的帧 内预测模式,可以包括派生模式(Derived Mode,DM)、平面(PLANAR)模式、直流(Direct Current,DC)模式、垂直(Vertical,VER)模式和水平(Horizontal,HOR)模式等五种模式;第二类为VVC特有的模式,即为了充分利用各图像分量之间的相关性而提出的CCLM模式,可以包括LM模式、LM_L模式、LM_A(或称为LM_T)模式等三种模式。
其中,PLANAR模式主要用于图像纹理相对平滑且有渐变过程的区域,使用当前块内待预测像素点的上下左右等4个相邻边界上的参考像素点进行线性插值求和平均,以得到当前像素点的预测值。DC模式主要用于图像平坦,纹理平滑,且没有渐变的区域,将上一行和左一列的所有参考像素求均值作为当前块内像素的预测值。而DM模式则是利用亮度分量和色度分量之间的相关性提出的一种预测模式。根据VVC标准,在对色度分量进行解码前,已经获得了亮度分量的帧内预测模式。对应在编码过程中,即色度分量编码之前已经完成了对亮度分量的编码。DM模式下,色度块的预测模式可以沿用对应亮度块的中心亮度块的预测模式,图1给出了相关技术提供的一种在DM模式下色度块对应的中心亮度块的位置示意图。
示例性地,如图1所示,其是YUV420格式下的一个编码树单元(Coding Tree Unit,CTU)。其中,(a)示出了该CTU的亮度分量(下文可称为“亮度CTU”),(b)示出了该CTU的一个色度分量(下文可称为“色度CTU”)。另外,(b)所示左侧用灰色填充的块区域表示当前色度编码单元(Coding Unit,CU),(a)所示左侧用灰色填充的块区域表示当前色度CU对应的亮度CU。其中,用网格线填充的块区域为DM模式下中心亮度块的位置,DM模式下,根据该中心亮度块的帧内预测模式可以设置当前色度CU的帧内预测模式。
应理解,DC模式适用于大面积平坦的区域。参见图2,其示出了相关技术提供的一种当前块与邻近参考像素的位置示意图。如图2所示,(i,j)表示当前块中水平坐标为i、垂直坐标为j对应的像素,B表示当前块的左侧邻近参考像素(用右斜线填充),D表示当前块的上方邻近参考像素(用左斜线填充)。
根据图2,DC模式的具体预测过程如下:
(1)当所述当前块的宽度等于高度时,可以用B和D的平均值作为整个块的预测值;
(2)当所述当前块的宽度大于高度时,可以用D的平均值作为整个块的预测值;
(3)当所述当前块的宽度小于高度时,可以用B的平均值作为整个块的预测值。
对于水平模式和垂直模式,参见图3,其示出了相关技术提供的一种角度预测模式的示意图。如图3所示,模式编号0可以表示PLANAR模式,模式编号1可以表示DC模式;角度预测模式的模式编号可以包括2~66等65种模式;其中,模式编号18表示水平模式,模式编号50表示垂直模式。
还应理解,CCLM模式可以包括3种模式,分别为:LM模式,LM_T模式和LM_L模式。这三种模式的主要区别在于使用的邻近参考像素不同。这里,LM模式使用左侧和上方两部分的邻近参考像素来构造线性模型,LM_L模式仅使用左侧邻近参考像素来构造线性模型,而LM_A模式仅使用上方邻近参考像素来构造线性模型。
具体来讲,使用CCLM模式确定色度帧内预测值的方法如下,其计算模型为:
Pred C(i,j)=α·Rec′ L(i,j)+β (1)
其中,Pred C(i,j)表示一个CU中像素(i,j)的色度分量预测值,Rec′ L(i,j)表示相同CU中(经过下采样的)像素(i,j)的亮度分量重建值,模型参数α和β可以是最多由四个邻近参考像素的色度样本及其相应的下采样亮度样本推导求得,α和β的具体计算过程如下:
首先可以对所选取的四个亮度样本点进行下采样,再进行四次比较,然后找出最小的两个点(用
Figure PCTCN2020124455-APPB-000001
Figure PCTCN2020124455-APPB-000002
表示)和最大的两个点(用
Figure PCTCN2020124455-APPB-000003
Figure PCTCN2020124455-APPB-000004
表示),对应的色度样本点分别用
Figure PCTCN2020124455-APPB-000005
Figure PCTCN2020124455-APPB-000006
Figure PCTCN2020124455-APPB-000007
表示。如图4所示,水平轴(即X轴)用于表示亮度(Luma),垂直轴(即Y轴)用于表示色度(Chroma)。在图4中,两个用黑色填充的点为最小的两个点,两个用白色填充的点为最大的两个点,在两个黑色填充的点之间,用网格线填充的点用X a和Y a分别表示亮度均值和色度均值;在两个白色填充的点之间,用网格线填充的点用X b和Y b分别表示亮度均值和色度均值。其中,X a、Y a、X b和Y b的计算如下,
Figure PCTCN2020124455-APPB-000008
这样,根据X a、Y a、X b和Y b可以推导出模型参数。其中,模型参数α的推导如式(3)所示,模型参数β的推导如式(4)所示。
Figure PCTCN2020124455-APPB-000009
β=Y b-α·X b (4)
在得到α和β之后,最终可以根据式(1)计算得到当前块的色度预测值。
如此,基于以上VVC已有的(即已经存在的)色度帧内预测模式,参见表1,其示出了由上述几种色度帧内预测模式组成的VVC色度帧内候选列表示例。如表1所示,总共包括有8种帧内预测模式,分别为DM模式、LM模式、LM_L模式、LM_A模式、DC模式、PLANAR模式、VER模式和HOR模式。
表1
序号 名称
1 DM
2 LM
3 LM_L
4 LM_A
5 DC
6 PLANAR
7 VER
8 HOR
在编码过程中,构建完成表1所示的色度帧内候选列表之后,这时候需要选择出色度最优模式。其具体过程如下:
色度最优模式的选择大体分为两个阶段,即粗选阶段和细选阶段。在粗选阶段,按照DC、垂直、水平、LM_L和LM_A等5种模式进行预测,使用绝对变换差之和(Sum of Absolute Transformed Difference,SATD)作为度量指标,然后按SATD排序去掉失真值最大的两种模式,并将剩下的3种模式加入到细选阶段。在细选阶段,将剩下的这3种模式、PLANAR、LM和DM按照顺序进行预测,并且进行率失真优化(Rate Distortion Optimization,RDO)的代价计算,然后将代价最小的模式作为最终选择的色度最优模式。另外,若选中的模式是默认模式(如DC、PLANAR、VER和HOR)且与DM模式相同,则还需要将该默认模式替换成模式66。
也就是说,在相关技术中,CCLM模式采用当前块的亮度分量预测当前块的色度分量,其技术效果上是仅去除了亮度分量与色度分量之间的冗余,但并没有去除到当前块与邻近块之间的空间冗余;同时,为了减少亮度分量与色度分量之间存在的冗余,VVC中的CCLM模式仅使用一个线性模型进行亮度分量与色度分量之间的预测,限制了不同颜色分量间的预测准确度。换句话说,目前的相关技术存在不足,使得亮度分量的预测准确度较低,进而损失了编解码效率。
基于此,本申请实施例提供了一种图像预测方法,该方法的基本思想是:在编码器或者解码器中,获得当前块的预测模式参数后,在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。这样,由于本申请提出了一种ANNM模式对当前块进行图像分量预测,而且ANNM模式充分考虑了当前块的第一图像分量与参考图像分量之间的关系,使得使用ANNM模式可以得到更加准确的第二图像分量预测值,不仅提高了图像分量预测的准确度,还减少了传输的比特数,从而能够降低码率,进而提高编解码效率。
下面将结合附图对本申请各实施例进行详细说明。
参见图5A,其示出了本申请实施例提供的一种视频编码系统的组成框图示例;如图5A所示,该视频编码系统10包括变换与量化单元101、帧内估计单元102、帧内预测单元103、运动补偿单元104、运动估计单元105、反变换与反量化单元106、滤波器控制分析单元107、滤波单元108、编码单元109和解码图像缓存单元110等,其中,滤波单元108可以实现去方块滤波及样本自适应缩进(Sample Adaptive 0ffset,SAO)滤波,编码单元109可以实现头信息编码及基于上下文的自适应二进制算术编码(Context-based Adaptive Binary Arithmatic Coding,CABAC)。针对输入的原始视频信号,通过编码树块(Coding Tree Unit,CTU)的划分可以得到一个视频编码块,然后对经过帧内或帧间预测后得到的残差像素信息通过变换与量化单元101对该视频编码块进行变换,包括将残差信息从像素域变换到变换域,并对所得的变换系数进行量化,用以进一步减少比特率;帧内估计单元102和帧内预测单元103是用于对该视频编码块进行帧内预测;明确地说,帧内估计单元102和帧内预测单元103用于确定待用以编码该视频编码块的帧内预测模式;运动补偿单元104和运动估计单元105用于执行所接收的视频编码块相对于一或多个参考帧中的一或多个块的帧间预测编码以提供时间预测信息;由运动估计单元105 执行的运动估计为产生运动向量的过程,所述运动向量可以估计该视频编码块的运动,然后由运动补偿单元104基于由运动估计单元105所确定的运动向量执行运动补偿;在确定帧内预测模式之后,帧内预测单元103还用于将所选择的帧内预测数据提供到编码单元109,而且运动估计单元105将所计算确定的运动向量数据也发送到编码单元109;此外,反变换与反量化单元106是用于该视频编码块的重构建,在像素域中重构建残差块,该重构建残差块通过滤波器控制分析单元107和滤波单元108去除方块效应伪影,然后将该重构残差块添加到解码图像缓存单元110的帧中的一个预测性块,用以产生经重构建的视频编码块;编码单元109是用于编码各种编码参数及量化后的变换系数,在基于CABAC的编码算法中,上下文内容可基于相邻编码块,可用于编码指示所确定的帧内预测模式的信息,输出该视频信号的码流;而解码图像缓存单元110是用于存放重构建的视频编码块,用于预测参考。随着视频图像编码的进行,会不断生成新的重构建的视频编码块,这些重构建的视频编码块都会被存放在解码图像缓存单元110中。
参见图5B,其示出了本申请实施例提供的一种视频解码系统的组成框图示例;如图5B所示,该视频解码系统20包括解码单元201、反变换与反量化单元202、帧内预测单元203、运动补偿单元204、滤波单元205和解码图像缓存单元206等,其中,解码单元201可以实现头信息解码以及CABAC解码,滤波单元205可以实现去方块滤波以及SAO滤波。输入的视频信号经过图5A的编码处理之后,输出该视频信号的码流;该码流输入视频解码系统20中,首先经过解码单元201,用于得到解码后的变换系数;针对该变换系数通过反变换与反量化单元202进行处理,以便在像素域中产生残差块;帧内预测单元203可用于基于所确定的帧内预测模式和来自当前帧或图片的先前经解码块的数据而产生当前视频解码块的预测数据;运动补偿单元204是通过剖析运动向量和其他关联语法元素来确定用于视频解码块的预测信息,并使用该预测信息以产生正被解码的视频解码块的预测性块;通过对来自反变换与反量化单元202的残差块与由帧内预测单元203或运动补偿单元204产生的对应预测性块进行求和,而形成解码的视频块;该解码的视频信号通过滤波单元205以便去除方块效应伪影,可以改善视频质量;然后将经解码的视频块存储于解码图像缓存单元206中,解码图像缓存单元206存储用于后续帧内预测或运动补偿的参考图像,同时也用于视频信号的输出,即得到了所恢复的原始视频信号。
需要说明的是,本申请实施例中的图像预测方法,主要应用在如图5A所示的预测部分(如图5A中的黑色加粗框图部分,尤其可应用在帧内预测单元103部分)和如图5B所示的预测部分(如图5B中的黑色加粗框图部分,尤其可应用在帧内预测单元203部分)。也就是说,本申请实施例中的图像预测方法,既可以应用于视频编码系统,也可以应用于视频解码系统,甚至还可以同时应用于视频编码系统和视频解码系统,但是本申请实施例不作具体限定。这里,当该图像预测方法应用于图5A所示的预测部分时,“当前块”具体是指帧内预测中的当前编码块;当该图像预测方法应用于图5B所示的预测部分时,“当前块”具体是指帧内预测中的当前解码块。
还需要说明的是,在进行详细阐述之前,说明书通篇中提到的“第一”、“第二”、“第三”等,仅仅是为了区分不同的特征,不具有限定优先级、先后顺序、大小关系等功能。
本申请的一实施例中,本申请实施例提供的图像预测方法应用于视频编码设备,即编码器。该方法所实现的功能可以通过编码器中的第一处理器调用计算机程序来实现,当然计算机程序可以保存在第一存储器中,可见,该编码器至少包括第一处理器和第一存储器。
基于上述图5A的应用场景示例,参见图6,其示出了本申请实施例提供的一种图像预测方法的流程示意图。如图6所示,该方法可以包括:
S601:确定当前块的预测模式参数。
需要说明的是,视频图像可以划分为多个图像块,每个当前待编码的图像块可以称为编码块(Coding Block,CB)。这里,每个编码块可以包括第一图像分量、第二图像分量和第三图像分量;而当前块为视频图像中当前待进行第一图像分量、第二图像分量或者第三图像分量预测的编码块。
其中,假定当前块进行第一图像分量预测,而且第一图像分量为亮度分量,即待预测图像分量为亮度分量,那么当前块也可以称为亮度块;或者,假定当前块进行第二图像分量预测,而且第二图像分量为色度分量,即待预测图像分量为色度分量,那么当前块也可以称为色度块。
还需要说明的是,预测模式参数用于指示当前块的预测模式及该预测模式相关的参数。通常情况下,针对预测模式参数的确定,可以根据失真值的大小进行确定。在一种具体的实施例中,可以根据率失真优化(Rate Distortion Optimization,RDO)的代价结果进行确定。其中,一种更具体的实现方式为可以利用均方误差(Mean Square Error,MSE)计算失真值,然后采用RDO方式来确定当前块的预测模式参数,但是本申请实施例不作任何限定。
可以理解地,本申请实施例提出了一种基于注意力机制的神经网络模型(Attention-based Neural Network Model,ANNM)模式。在编码器中,一种可能的实施方式为从目标预测模式和ANNM模式中 确定当前块的预测模式参数。具体地,在一些实施例中,所述确定当前块的预测模式参数,可以包括:
从第一候选预测模式集中,确定所述当前块的目标预测模式;
基于所述ANNM模式和所述目标预测模式,确定所述当前块的预测模式参数。
在一种具体的实施例中,所述基于所述ANNM模式和所述目标预测模式,确定所述当前块的预测模式参数,可以包括:
基于ANNM模式,计算所述当前块的第一率失真代价结果;以及基于所述目标预测模式,计算所述当前块的第二率失真代价结果;
从所述第一率失真代价结果和所述第二率失真代价结果中选取最优率失真代价结果,将所述最优率失真代价结果对应的预测模式确定为所述当前块的预测模式参数。
需要说明的是,第一候选预测模式集可以包括一种或多种候选预测模式,且第一候选预测模式集不包括ANNM模式。这里的一种或多种候选预测模式具体是指目前VVC中已有的候选预测模式。这一种或多种候选预测模式可以包括有帧内预测模式、帧间预测模式和分量间预测模式。其中,帧内预测模式可以包括PLANAR模式、DC模式、DM模式、VER模式、HOR模式、角度预测模式和基于矩阵的帧内预测模式(Matrix weighted Intra Prediction,MIP)等,帧间预测模式可以包括合并(Merge)模式、联合帧内帧间预测(Combined Inter and Intra Prediction,CIIP)模式、几何划分预测模式(Geometric partitioning mode,GPM)等,分量间预测模式可包括同图像分量间预测模式和跨图像分量间预测模式。
还需要说明的是,目标预测模式可以是帧内预测模式或帧间预测模式。更甚者,目标预测模式还可以是同图像分量间预测模式或跨图像分量间预测模式。一般情况下,分量间预测模式通常是指跨图像分量间预测模式,比如CCLM模式,其中CCLM模式又可以包括LM模式、LM_L模式和LM_A模式。
进一步地,对于目标预测模式的确定,在一些实施例中,所述从第一候选预测模式集中,确定所述当前块的目标预测模式,可以包括:
利用所述第一候选预测模式集中的一种或多种候选预测模式分别对所述当前块进行预编码,确定所述一种或多种候选预测模式对应的预编码结果;
基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的目标预测模式。
在一种具体的实施例中,所述基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的目标预测模式,可以包括:
基于所述预编码结果,获得所述一种或多种候选预测模式对应的率失真代价结果;
从所述率失真代价结果中选取最优率失真代价结果,将所述最优率失真代价结果对应的候选预测模式确定为所述当前块的目标预测模式。
需要说明的是,在编码器中,针对当前块可以采用一种或多种候选预测模式分别对当前块的待预测图像分量进行预编码处理,可以得到这一种或多种候选预测模式对应的预编码结果。其中,预编码结果可以是候选预测模式对应的失真值,也可以是候选预测模式对应的率失真代价结果,甚至还可以是候选预测模式对应的其他代价结果。示例性地,在根据预编码结果获得所述一种或多种候选预测模式对应的率失真代价结果后,可以从所得到的率失真代价结果中选取最优率失真代价结果,用以确定出当前块的目标预测模式。
在本申请实施例中,编码器可以从目标预测模式和ANNM模式中选取最优率失真代价结果对应的预测模式,用以确定当前块的预测模式参数。具体地,在确定出目标预测模式后,可以分别计算ANNM模式下当前块的第一率失真代价结果(用RDC1表示)和目标预测模式下当前块的第二率失真代价结果(用RDC2表示),然后从RDC1和RDC2中选取最优率失真代价结果,以确定出当前块的预测模式参数。
具体来讲,在一些实施例中,所述基于所述ANNM模式,计算所述当前块的第一率失真代价结果,可以包括:
利用所述ANNM模式对所述当前块的待预测图像分量进行预测,得到所述当前块的第一预测值;
对所述当前块的第一预测值和所述当前块的真实值进行差值计算,得到所述当前块的第一失真值;
根据所述当前块的第一失真值以及预设率失真模型,计算得到所述当前块的第一率失真代价结果。
在一些实施例中,所述基于所述目标预测模式,计算所述当前块的第二率失真代价结果,可以包括:
利用所述目标预测模式对所述当前块的待预测图像分量进行预测,得到所述当前块的第二预测值;
对所述当前块的第二预测值和所述当前块的真实值进行差值计算,得到所述当前块的第二失真值;
根据所述当前块的第二失真值以及预设率失真模型,计算得到所述当前块的第二率失真代价结果。
需要说明的是,预设率失真模型可以看作是关于失真值、码率和拉格朗日乘子之间的关系函数。假定失真值用D表示,码率用R表示,拉格朗日乘子用λ表示,那么预设率失真模型可以如式(5)所示,
J=D+λ·R (5)
其中,J表示率失真代价结果。这里,对于率失真代价结果的计算,无论是何种预测模式,其计算过程是相同的。本申请实施例以计算ANNM模式下当前块的第一率失真代价结果为例进行说明。具体来讲,利用ANNM模式对当前块的待预测图像分量进行预测,得到所述当前块的第一预测值;然后根据当前块的第一预测值和当前块的真实值,可以利用均方误差(Mean Square Error,MSE)计算得到当前块的第一失真值(用D1表示);这时候假定码率R为1,那么通过式(5)所示的预设率失真模型可以计算得到ANNM模式下的第一率失真代价结果(用RDC1表示),记为RDC1=D1+λ。同理,可以计算得到目标预测模式下的第二率失真代价结果(用RDC2表示),从RDC1和RDC2中选取最优率失真代价结果,可以确定出当前块的预测模式参数。
也就是说,在利用一种或多种候选预测模式分别对当前块的待预测图像分量进行预编码之后,可以得到候选预测模式对应的率失真代价结果;然后从所得到的率失真代价结果中选取最优率失真代价结果,并将该最优率失真代价结果对应的候选预测模式确定为当前块的目标预测模式;再分别计算ANNM模式下当前块的第一率失真代价结果和目标预测模式下当前块的第二率失真代价结果,最后从第一率失真代价结果和第二率失真代价结果中选取最优率失真代价结果,可以确定出当前块的预测模式参数。
在编码器中,对于预测模式参数的确定,另一种可能的实施方式为从第二候选预测模式集中确定当前块的预测模式参数。具体地,在一些实施例中,所述确定当前块的预测模式参数,可以包括:
确定第二候选预测模式集;
利用所述第二候选预测模式集中的一种或多种候选预测模式分别对所述当前块进行预编码,确定所述一种或多种候选预测模式对应的预编码结果;
基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的预测模式参数。
在一种具体的实施例中,所述基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的预测模式参数,可以包括:
基于所述预编码结果,获得所述一种或多种候选预测模式对应的率失真代价结果;
从所述率失真代价结果中选取最优率失真代价结果,将所述最优率失真代价结果对应的候选预测模式确定为所述当前块的预测模式参数。
需要说明的是,第二候选预测模式集可以包括一种或多种候选预测模式,且第二候选预测模式集包括ANNM模式。这里的一种或多种候选预测模式不仅包括有目前VVC中已有的候选预测模式,还包括有ANNM模式。这样,可以从这些候选预测模式中确定当前块的预测模式参数,以便确定当前块使用ANNM模式还是不使用ANNM模式。
在编码器中,对于预测模式参数的确定,又一种可能的实施方式为可以构造预设候选模式列表(如表1所示),同时还可以将ANNM模式加入到预设候选模式列表中,以作为其中一种候选预测模式。这时候,在该预设候选模式列表中,首先根据SATD度量指标,可以在DC模式、LM_L模式、LM_A模式、VER模式和HOR模式中选择三种较优的预测模式;其次,针对所选择的三种预测模式以及ANNM模式、LM模式、PLANAR模式和DM模式分别对当前块进行预编码,确定这些预测模式对应的率失真代价结果;再次,从所述率失真代价结果中选取最优率失真代价结果,以确定出最优预测模式;最后,标记最优预测模式,并将最优预测模式确定为当前块的预测模式参数。
进一步地,在确定出预测模式参数后,还可以设置模式标志位以将其写入码流。在一些实施例中,对于S601来说,在所述确定当前块的预测模式参数之后,该方法还可以包括:
设置当前块的模式标志位,所述模式标志位用于指示所述当前块使用的预测模式;
将所述模式标志位写入码流。
这里,在一些实施例中,所述设置当前块的模式标志位,可以包括:
若所述当前块的预测模式参数指示当前块使用ANNM模式,则设置所述模式标志位为第一值;
若所述当前块的预测模式参数指示当前块不使用ANNM模式,则设置所述模式标志位为第二值。
需要说明的是,模式标志位是在码流(bitstream)中指示预测模式的一种方式。通常情况下,可以使用1比特(bit)的模式标志位来标记当前块使用的预测模式,并且将该模式标志位写入码流,以供解码器通过解析码流来获取当前块的预测模式参数。
在一种可能的实施方式中,第一值为1,第二值为0;或者,第一值为true,第二值为false。在另一种可能的实施方式中,第一值为0,第二值为1;或者,第一值为false,第二值为true。
也就是说,模式标志位的设置存在两种情况:(1)针对ANNM模式的模式标志位(annm_flag),这时候如果当前块的预测模式参数指示当前块使用ANNM模式,那么可以设置模式标志位为1或者true;如果当前块的预测模式参数指示当前块不使用ANNM模式,那么可以设置模式标志位为0或者false。(2)针对非ANNM模式的模式标志位(non_annm_flag),这时候如果当前块的预测模式参数指示当前块使用ANNM模式,那么可以设置模式标志位为0或者false;如果当前块的预测模式参数指示当前块 不使用ANNM模式,那么可以设置模式标志位为1或者true。
还需要说明的是,在确定出预测模式参数后,还可以设置模式索引序号以将其写入码流。在一些实施例中,对于S601来说,在所述确定当前块的预测模式参数之后,该方法还可以包括:
设置当前块的模式索引序号,所述模式索引序号用于指示所述当前块使用的预测模式;
将所述模式索引序号写入码流。
这里,在一些实施例中,所述设置当前块的模式索引序号,可以包括:
若所述当前块的预测模式参数指示所述当前块使用ANNM模式,则设置所述模式索引序号的取值等于使用ANNM模式对应的索引序号;
若所述当前块的预测模式参数指示所述当前块不使用ANNM模式,则设置所述模式索引序号的取值不等于使用ANNM模式对应的索引序号。
需要说明的是,模式索引序号是在码流(bitstream)中指示预测模式的另一种方式。这时候,如果当前块的预测模式参数指示当前块使用ANNM模式,那么可以设置模式索引序号的取值等于使用ANNM模式对应的索引序号;如果当前块的预测模式参数指示当前块不使用ANNM模式,那么可以设置模式索引序号的取值不等于使用ANNM模式对应的索引序号。并且将该模式索引序号写入码流,以供解码器通过解析码流来获取当前块的预测模式参数。
如此,在确定出当前块的预测模式参数后,最终可以使用所确定的预测模式对当前块进行编码,从而使得预测残差较小,能够提高编码效率。
S602:在所述预测模式参数指示使用ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值。
需要说明的是,预测模式参数指示使用ANNM模式确定当前块的预测值时,这时候可以获取当前块的第一图像分量重建值和当前块的参考图像分量值。
在本申请实施例中,参考图像分量可以包括当前图像中一个或多个图像分量。其中,当前图像是所述当前块所处的图像,一个或多个图像分量可包括下述至少之一:第一图像分量和第二图像分量。
在一些实施例中,所述确定所述当前块的参考图像分量值,可以包括:
根据所述当前块的相邻像素对应于所述参考图像分量的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
需要说明的是,这里参考图像分量的预测值可以解释为“根据所述相邻像素所处的图像块对应于参考图像分量的预测模式,确定该预测值”,这里参考图像分量的重建值可以解释为“根据所述相邻像素所处的图像块对应于参考图像分量的预测模式在得到预测值之后,通过编码重建所得到的重建值”。也就是说,可以根据当前块的相邻像素对应于参考图像分量的预测值,或者可以根据当前块的相邻像素对应于参考图像分量的重建值,或者还可以根据当前块的相邻像素对应于参考图像分量的预测值和重建值,用以确定出当前块的参考图像分量值。
还需要说明的是,当前块的相邻像素可以包括与所述当前块相邻的至少一行像素。或者,当前块的相邻像素也可以包括与所述当前块相邻的至少一列像素。
在本申请实施例中,参考图像分量还可以包括参考图像中一个或多个图像分量。其中,参考图像是所述当前块的预测参考块所处的图像,所述一个或多个图像分量包括下述至少之一:所述第一图像分量和所述第二图像分量。这里,参考图像不同于所述当前块所处的当前图像。
在一些实施例中,该方法还可以包括:
确定所述当前块的运动信息参数,其中,所述运动信息参数包括指示所述参考图像对应的参考图像索引和指示所述参考图像中所述当前块的预测参考块的运动矢量;
将所述运动信息参数写入码流。
需要说明的是,对于帧间预测模式,这时候除了当前块所在的当前图像之外,还需要参考图像。其中,参考图像索引是指参考图像对应的图像索引序号,运动矢量则是用于指示参考图像中的预测参考块。
还需要说明的是,对于帧间预测模式,参考图像索引和运动矢量可以作为帧间预测模式参数并写入码流,以便由编码器传输到解码器。
进一步地,在一些实施例中,所述确定所述当前块的参考图像分量值,可以包括:
根据所述当前块的预测参考块确定参考像素;
根据所述参考像素的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
需要说明的是,参考像素可以包括所述预测参考块中的部分或全部像素。或者,参考像素也可以包括所述预测参考块的相邻像素。
其中,对于预测参考块的相邻像素,预测参考块的相邻像素可以包括与所述预测参考块相邻的至少一行像素;或者,预测参考块的相邻像素也可以包括与所述预测参考块相邻的至少一列像素。
也就是说,在确定出当前块的预测参考块后,可以根据当前块的预测参考块确定参考像素,然后根据参考像素的预测值和重建值中至少之一,进而可以确定出当前块的参考图像分量值。
这样,在得到当前块的第一图像分量重建值以及当前块的参考图像分量值后,可以利用ANNM模式对当前块的第二图像分量进行预测。
S603:根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
需要说明的是,第一图像分量可以是亮度分量,第二图像分量可以是色度分量;或者,第一图像分量可以是色度分量,第二图像分量为亮度分量;或者,第一图像分量为G分量,第二图像分量为R或B分量;或者,第一图像分量为R分量,第二图像分量为G或B分量;或者,第一图像分量为B分量,第二图像分量为G或R分量,等等。在本申请实施例中,可以选择第一图像分量是亮度分量,第二图像分量是色度分量为例进行阐述,但是本申请实施例不作任何限定。
还需要说明的是,本申请实施例提出的ANNM模式是利用神经网络模型实现的。在该网络模型中引入了全连接层和平铺操作以及通道注意力机制,可以提高图像分量预测的准确度。其中,在本申请实施例中,该网络模型可称为ANNM模式的网络模型。
在一些实施例中,所述根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值,可以包括:
将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果;
根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值。
需要说明的是,对于ANNM模式的网络模型而言,可以是通过模型训练得到的。在一些实施例中,确定所述ANNM模式的网络模型,可以包括:
获取训练样本集,所述训练样本集包括一个或多个图像;
构建初始网络模型,利用所述训练样本集对所述初始网络模型进行训练;
将训练后的初始网络模型确定为所述ANNM模式的网络模型。
需要说明的是,训练样本集可以包括有一个或多个图像。训练样本集可以是编码器在本地存储的训练样本集合,也可以是根据链接或者地址信息从远程服务器上获取的训练样本集合,甚至也可以是视频中已经解码的图像样本集合,本申请实施例不作具体限定。
这样,在获取到训练样本集之后,可以利用训练样本集通过代价函数对初始网络模型进行训练,当该代价函数的损失值(Loss)收敛到一定预设阈值时,这时候训练得到的初始网络模型即为ANNM模式的网络模型。这里,代价函数可以为率失真代价函数,预设阈值可以根据实际情况进行具体设定,本申请实施例不作任何限定。
还需要说明的是,对于ANNM模式的网络模型而言,也可以是先确定网络模型参数,然后再构建出ANNM模式的网络模型。因此,在一些实施例中,确定所述ANNM模式的网络模型,可以包括:
确定网络模型参数;
根据所确定的网络模型参数,构建所述ANNM模式的网络模型。
进一步地,所述确定网络模型参数,可以包括:获取训练样本集,所述训练样本集包括一个或多个图像;构建初始网络模型,利用所述训练样本集对所述初始网络模型进行训练;将训练后的初始网络模型的模型参数确定为所述网络模型参数。
需要说明的是,网络模型参数也可以是通过模型训练确定的。其中,网络模型参数可以是网络模型结构的参数以及所述网络模型结构所包含的不同层的参数,这时候可以将网络模型结构的参数以及所述网络模型结构所包含的不同层的参数写入码流。或者,网络模型参数也可以是网络模型结构的索引参数以及所述网络模型结构所包含的不同层的参数,这时候可以将网络模型结构的索引参数以及所述网络模型结构所包含的不同层的参数写入码流。或者,网络模型参数也可以是网络模型的索引参数,这时候可以将网络模型的索引参数写入码流。
这样,在编码器侧,通过模型训练得到网络模型参数后,可以将网络模型参数写入码流。后续解码器可以直接通过解析码流来获得网络模型参数,而无需在解码器侧进行模型训练就能够构建出ANNM模式的网络模型。
应理解,ANNM模式的网络模型可以包括第一分支网络、第二分支网络和融合网络。具体地,在一些实施例中,所述将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入所述ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果,可以包括:
将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图;
将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图;
将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果。
需要说明的是,ANNM模式的网络模型包括有两个输入:当前块的第一图像分量重建值和当前块的参考图像分量值。其中,当前块的第一图像分量重建值输入第一分支网络,可以获得第一分支目标特征图;当前块的参考图像分量值输入第二分支网络,可以获得第二分支目标特征图;然后将第一分支目标特征图和第二分支目标特征图输入融合网络,从而能够获得ANNM模式的网络模型的输出结果。
示例性地,参见图7,其示出了本申请实施例提供的一种ANNM模式的网络模型的组成示意图。如图7所示,ANNM模式的网络模型70可以包括第一分支网络701、第二分支网络702和融合网络703。其中,当前块的第一图像分量重建值输入第一分支网络701,当前块的参考图像分量值输入第二分支网络702,然后这两个分支网络的输出将会输入到融合网络703,以便得到ANNM模式的网络模型的输出结果。
在本申请实施例中,第一分支网络701至少可以包括通道注意力机制模型,第二分支网络702至少可以包括第一卷积层,融合网络703至少可以包括融合层和第二卷积层。
这里,第一卷积层与所述第二卷积层的卷积核不同。其中,第一卷积层的卷积核大小可以为3×3,第二卷积层的卷积核大小可以为1×1。
还需要说明的是,第一分支网络701中除了通道注意力机制模型之外,第一分支网络701还可以包括以下至少一层网络:采样率转换层、拼接层、全连接层、平铺操作层。其中,采样率转换层可以是进行下采样处理,例如通过亮度分量预测色度分量;也可以是进行上采样处理,例如通过色度分量预测亮度分量,本申请实施例不作任何限定。
在一些实施例中,所述当前块的参考图像分量值可以包括第一图像分量值和第二图像分量值。所述将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图,可以包括:
通过采样率转换层对所述第一图像分量值进行采样率转换,得到采样率转换后的第一图像分量值;
通过拼接层将所述采样率转换后的第一图像分量值与所述第二图像分量值进行拼接,得到拼接结果;
通过全连接层对所述拼接结果进行全连接操作,得到第一特征图;
通过平铺操作层对所述第一特征图进行平铺操作,得到多个第二特征图;
通过所述通道注意力机制模型对所述多个第二特征图的通道权重进行重新分配,得到所述第一分支目标特征图。
也就是说,当前块的参考图像分量可以为4:2:0采样格式,假定第一图像分量为亮度分量,第二图像分量为色度分量,那么首先需要对第一图像分量值进行两倍降采样率处理,使得其尺寸大小与色度分量相同;然后将采样率后的第一图像分量值与第二图像分量值进行通道上的拼接,再经过一个全连接层可以得到一组128×1的特征图;然后,对该特征图进行一个平铺操作,即每个像素扩展成64×64大小的特征图,此时共得到一组大小为64×64×128的特征图,通过全连接层和平铺操作可以充分提取参考图像分量的特征,并且将参考图像分量变换成适合进行卷积操作的一组特征图;最后将这组64×64×128的特征图输入到通道注意力机制模型,用于为输入特征图的每个通道重新分配权重。也就是说,通道注意力机制模型的最终输出为重新分配通道权重的大小为64×64×128的特征图。这里,通道注意力机制模型的加入,可以进一步探索参考图像分量与当前块的待预测图像分量(即色度分量)之间的关系,从而能够提高色度分量的预测准确度。
在一些实施例中,所述将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图,可以包括:
通过至少一个所述第一卷积层对所述当前块的第一图像分量重建值进行卷积操作,得到所述第二分支目标特征图。
需要说明的是,第二分支网络的输入是当前块的第一图像分量重建值,第二分支网络中可以包括有三个第一卷积层,第一卷积层的卷积核大小可以为3×3。也就是说,当前块的第一图像分量重建值可以依次经过三次卷积核大小为3×3的卷积层,从而能够得到第二分支目标特征图。
这里,假定当前块的大小为128×128,在依次经过三次卷积核大小为3×3的卷积操作后,得到的第二分支目标特征图为64×64×128的特征图。
在一些实施例中,所述将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果,可以包括:
通过所述融合层对所述第一分支目标特征图和所述第二分支目标特征图进行对应位置元素相加操作,得到融合特征图;
通过至少一个所述第二卷积层对所述融合特征图进行卷积操作,得到所述ANNM模式的网络模型 的输出结果。
需要说明的是,融合网络的输入是第一分支目标特征图和第二分支目标特征图,而且融合网络中可以包括有两个第二卷积层,第二卷积层的卷积核大小可以为1×1。也就是说,在得到融合特征图后,该融合特征图可以依次经过两次卷积核大小为1×1的卷积层,最终得到ANNM模式的网络模型的输出结果。
这里,假定第一分支目标特征图的大小为64×64×128,第二分支目标特征图的大小为64×64×128,通过融合层可以对第一分支目标特征图和第二分支目标特征图进行对应位置元素相加操作,能够得到大小仍为64×64×128的融合特征图;然后再依次经过两次卷积核大小为1×1的卷积操作,最终可以得到ANNM模式的网络模型的输出结果。
进一步地,在一些实施例中,所述根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值,可以包括:
将所述当前块的第二图像分量预测值设置为等于所述ANNM模式的网络模型输出结果。
或者,所述根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值,可以包括:
对所述ANNM模式的网络模型的输出结果进行滤波处理,得到第一滤波值;
将所述当前块的第二图像分量预测值设置为等于所述第一滤波值。
也就是说,在得到ANNM模式的网络模型的输出结果后,一种可能的实施方式为直接将当前块的第二图像分量预测值设置为等于所述ANNM模式的网络模型输出结果;另一种可能的实施方式为对所述ANNM模式的网络模型的输出结果进行滤波处理,然后将当前块的第二图像分量预测值设置为等于所得到的第一滤波值。其中,这里的滤波处理可以是上采样滤波处理,也可以是下采样滤波处理,甚至还可以是低通滤波处理。示例性地,滤波处理可以采用低通滤波器,例如神经网络滤波器等,但是本申请实施例不作任何限定。
在本申请实施例中,本申请的技术方案提出了一种ANNM模式,该ANNM模式是基于通道注意力机制的神经网络模型,可以用于CTU/CU的图像分量预测,其核心点在于全连接层和平铺操作的引入以及通道注意力机制模型的引入。其中,全连接层和平铺操作的引入,可以充分提取参考图像分量的特征,经过一个平铺操作能够将该组特征大小转换成适合应用于卷积操作的特征大小,有利于进行后续的卷积操作。通道注意力机制模型的引入,可以作用于参考CU的参考图像分量上,通过使用通道注意力机制模型,能够为参考CU的参考图像分量的通道重新分配权重,从而可以更好的探索参考图像分量与待预测图像分量之间的关系,提高待预测图像分量的预测准确度。
除此之外,在本申请实施例中,当前块可以是不同尺寸的CU,比如64×64、32×32、16×16和8×8,也可以是不同尺寸的CTU,比如128×128尺寸的CTU,但是128×128也可以看作是最大尺寸的一个CU。这里,针对不同尺寸的CU可以设计具有不同网络结构的网络模型,理论上,CU的尺寸越小,特征越少,这时候设计的网络模型可以更加简单。另外,在ANNM模式的网络模型设计中,还可以尝试引入更加轻量级的网络结构进行图像分量预测,用以进一步提高编码效率。
本实施例提供了一种图像预测方法,通过确定当前块的预测模式参数;在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。这样,由于本申请提出了一种ANNM模式对当前块进行图像分量预测,而且ANNM模式充分考虑了当前块的第一图像分量与参考图像分量之间的关系,使得使用ANNM模式可以得到更加准确的第二图像分量预测值,不仅提高了图像分量预测的准确度,还减少了传输的比特数,从而能够降低码率,进而提高编码效率。
本申请的另一实施例中,一种具体的应用场景为:假定第一图像分量为亮度分量(Y分量),第二图像分量为色度分量(U分量或V分量),参考图像分量可以为YUV分量,利用Y分量对当前块的U分量或V分量进行色度帧内预测。下面以该应用场景对本申请实施例的图像预测方法进行详细阐述。
在本申请实施例中,ANNM模式可以作为尺寸不限定的当前块的色度帧内预测模式。由于在ANNM模式的网络模型中引入全连接层和平铺操作以及通道注意力机制模型,可以提高色度分量预测的准确度。在编码器中,ANNM模式作为一种新的色度帧内预测模式与VVC已有的色度帧内预测模式进行竞争,具体流程如下:
色度帧内预测模式可以分为VVC已有的色度帧内预测模式和ANNM模式,在进行色度帧内预测时,可以使用1bit的模式标志位标记当前块最终选择的预测模式。若选择ANNM模式,则模式标志位 为1;若选择VVC已有的色度帧内预测模式,则模式标志位为0。然后将该1bit的模式标志位写入码流传输到解码器,以供解码器进行解码使用。
具体地,在执行ANNM模式时,需要获取当前块的重建Y分量和临近参考像素(左侧N列参考像素和/或上方N行参考像素)的重建YUV分量,将这两个分量输入到ANNM模式的网络模型中,得到预测的U分量或V分量,然后根据预测值与真实值进行MSE计算得到失真值(D1),这里的码率(R1)为1,那么可以通过D1+λR1计算得到ANNM模式下的率失真代价结果(RDC1);再将RDC1与VVC已有的目标色度帧内预测模式得到的最优率失真代价结果(RDC2)进行比较,从中选择率失真最优者,可以得到当前块的最终色度预测模式。
需要说明的是,本申请的技术方案的核心创新点在于基于注意力机制的神经网络模型的设计,以针对大小为128x128的CTU的网络模型为例,如图8所示,其示出了本申请实施例提供的一种ANNM模式的网络模型的具体网络结构示意图,该网络模型具有两个输入,分别是当前大小为128x128的CTU的Y分量,和上方相邻的8行参考像素以及左侧相邻的8列参考像素的YUV分量。如图9所示,其示出了本申请实施例提供的一种CTU与相邻的参考像素的位置结构示意图,其中,CTU的左侧(用A表示)为左侧相邻的8列参考像素的位置,CTU的上侧(用B表示)为上方相邻的8行参考像素的位置。
这里,ANNM模式的网络模型具有两个分支网络和一个融合网络。其中,该网络模型的上分支即为第一分支网络,输入是参考像素的YUV分量,由于这里的YUV是4:2:0格式,故首先将Y分量进行2倍降采样,使得其尺寸大小与UV分量相同。采样后的Y分量与UV分量进行通道上的拼接,再经过一个全连接层可以得到一组大小为128×1的特征图,然后对这组特征图进行平铺操作,得到大小为64×64×128的特征图,最后将这组特征图输入到通道注意力机制模型,以重新分配YUV参考特征图的通道权重,得到第一分支目标特征图。该网络模型的下分支即为第二分支网络,输入是当前CTU的Y分量,依次经过三次卷积核大小为3×3的卷积层,得到大小为64×64×128的特征图,即得到第二分支目标特征图。将上分支及下分支的特征图通过对应位置元素相加进行特征融合,再依次经过两次卷积核大小为1×1的卷积层,最终得到预测的U分量或V分量。
还需要说明的是,针对全连接层与平铺操作,具体地,大小为64×64×3的参考YUV分量通过一个全连接层得到一组128×1的特征图,然后对该特征图进行一个平铺操作,即每个像素扩展成64×64大小的特征图,此时共得到一组大小为64×64×128的特征图,通过该操作可以充分提取参考YUV分量的特征,并且将参考YUV分量变换成适合进行卷积操作的一组特征。也就是说,全连接层和平铺操作的引入可以充分提取参考YUV分量的特征,经过一个平铺操作将该组特征大小转换成适合应用于卷积操作的特征大小,有利于进行后续的卷积操作。
还需要说明的是,针对通道注意力机制模型,如图10所示,具体地,通道注意力机制模型的网络结构又可称为Squeeze-and-Excitation Networks(SE-Net)。在本申请实施例中,该通道注意力机制模型嵌入到ANNM模式的第一分支网络中,输入为经过上述平铺操作的64×64×128的参考YUV分量特征图,其中64×64为特征图的大小,128为通道数。这里,压缩(Squeeze)操作即使用全局平均池化(global average pooling)将大小为H×W、通道数为C的特征图变成1×1×C大小的特征图,以更好的探索通道内的相关性,活化(Excitation)操作即先后通过两个全卷积(Fully Convolution,FC),最后经过一个Sigmoid函数得到1×1×C的特征图,该特征图所有元素之和为1,将该特征图的C个元素作为原始输入特征图的C个通道的权重,为输入特征图的每个通道重新分配权重(scale)。其中,在图10中,激活函数可以是线性整流函数(Rectified Linear Unit,ReLU),又可称为修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。另外,Sigmoid函数是一种常见的S型函数,也叫Logistic函数。由于其单增以及反函数单增等性质,Sigmoid函数也常被用作神经网络的激活函数,将变量映射到0~1之间。
这样,通道注意力机制模型的最终输出为重新分配通道权重的大小为64×64×128的参考YUV分量特征图。也就是说,通道注意力机制模型的加入,主要作用于参考YUV分量上,通过使用通道注意力机制模型,重新为参考YUV分量的通道分配权重,可以更好的探索参考YUV分量与待预测的U分量或V分量之间的关系,提高U分量或V分量的预测准确度。
应理解,本申请实施例所述的网络模型仅用于大小为128×128的CTU色度预测,大小为64×64、32×32、16×16和8×8的CU色度预测的网络模型结构与之相似,唯一不同点在于参考像素的数目不同,进而导致全连接层的不同。具体来说,大小为64×64的CU选择左侧相邻的4列像素和上方相邻的4行像素作为参考像素;大小为32×32、16×16和8×8的CU选择左侧相邻的2列像素和上方相邻的2行像素作为参考像素。
在本申请实施例中,针对图像分量预测,为了减少亮度分量与色度分量之间存在的冗余,VVC中的CCLM使用一个线性模型描述亮度分量与色度分量之间的关系,导致预测精度较低,进而损失了编 码效率。基于此,本申请实施例引入了基于注意力机制的神经网络结构,即ANNM模式的网络模型,使用一个非线性模型描述亮度分量与色度分量之间的关系,从而提高了不同颜色分量之间的预测准确度,提高了编码器的整体编码效率。
本实施例提供了一种图像预测方法,通过上述实施例对前述实施例的实现进行具体阐述,从中可以看出,本申请的技术方案大大降低了码率,提高了编码效率。为了预测当前CTU的色度分量,可以利用当前CTU或者CU的上方相邻和左侧相邻的参考像素,使用通道注意力机制和全连接层能够充分发掘当前CTU的Y分量与参考YUV分量之间的关系,使得能够更加准确的预测色度分量,减小重建值与真实值之间的差值,进而减少传输的比特数,提高了编码效率。
本申请的又一实施例中,本申请实施例提供的图像预测方法应用于视频解码设备,即解码器。该方法所实现的功能可以通过解码器中的第二处理器调用计算机程序来实现,当然计算机程序可以保存在第二存储器中,可见,该解码器至少包括第二处理器和第二存储器。
基于上述图5B的应用场景示例,参见图11,其示出了本申请实施例提供的另一种图像预测方法的流程示意图。如图11所示,该方法可以包括:
S1101:解析码流,获取当前块的预测模式参数。
需要说明的是,视频图像可以划分为多个图像块,每个当前待解码的图像块可以称为解码块。这里,每个解码块也可以包括第一图像分量、第二图像分量和第三图像分量;而当前块为视频图像中当前待进行第一图像分量或者第二图像分量或者第三图像分量预测的解码块。
在一些实施例中,所述解析码流,获取当前块的预测模式参数,可以包括:
解析码流,获取所述当前块的模式标志位,所述模式标志位用于指示所述当前块使用的预测模式;
根据所述模式标志位,确定所述当前块的预测模式参数。
进一步地,所述根据所述模式标志位,确定所述当前块的预测模式参数,可以包括:
若所述模式标志位为第一值,则确定所述当前块的预测模式参数指示当前块使用ANNM模式;
若所述模式标志位为第二值,则确定所述当前块的预测模式参数指示当前块不使用ANNM模式。
需要说明的是,在一种可能的实施方式中,第一值为1,第二值为0;或者,第一值为true,第二值为false。在另一种可能的实施方式中,第一值为0,第二值为1;或者,第一值为false,第二值为true。
还需要说明的是,编码器在确定出预测模式参数之后,编码器可以将模式标志位写入码流。这样,解码器通过解析码流,可以获得当前块的模式标志位,然后根据模式标志位,可以确定出当前块的预测模式参数。
示例性地,假定由亮度分量预测色度分量,那么首先在码流中解码出色度预测模式的模式标志位,若该模式标志位为1,则使用ANNM模式进行当前块的色度分量重建;若该模式标志位为0,则使用VVC已有的最优色度预测模式进行当前块的色度分量重建。
在一些实施例中,所述解析码流,获取当前块的预测模式参数,可以包括:
解析码流,获取所述当前块的模式索引序号,所述模式索引序号用于指示当前块使用的预测模式;
根据所述模式索引序号,确定所述当前块的预测模式参数。
进一步地,所述根据所述模式索引序号,确定所述当前块的预测模式参数,可以包括:
若所述模式索引序号的取值等于使用ANNM模式对应的索引序号,则确定所述当前块的预测模式参数指示所述当前块使用ANNM模式;
若所述模式索引序号的取值不等于使用ANNM模式对应的索引序号,则确定所述当前块的预测模式参数指示所述当前块不使用ANNM模式。
需要说明的是,编码器在确定出预测模式参数之后,编码器还可以将模式索引序号写入码流。这样,解码器通过解析码流,可以获得当前块的模式索引序号,然后根据该模式索引序号,可以确定出当前块的预测模式参数。
S1102:在所述预测模式参数指示使用ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值。
需要说明的是,预测模式参数指示使用ANNM模式确定当前块的预测值时,这时候可以获取当前块的第一图像分量重建值和当前块的参考图像分量值。
在本申请实施例中,参考图像分量可以包括当前图像中一个或多个图像分量。其中,当前图像是所述当前块所处的图像,一个或多个图像分量可包括下述至少之一:第一图像分量和第二图像分量。
在一些实施例中,所述确定所述当前块的参考图像分量值,可以包括:
根据所述当前块的相邻像素对应于所述参考图像分量的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
需要说明的是,当前块的相邻像素可以包括与所述当前块相邻的至少一行像素。或者,当前块的相邻像素也可以包括与所述当前块相邻的至少一列像素。
在本申请实施例中,参考图像分量还可以包括参考图像中一个或多个图像分量。其中,参考图像是所述当前块的预测参考块所处的图像,所述一个或多个图像分量包括下述至少之一:所述第一图像分量和所述第二图像分量。这里,参考图像不同于所述当前块所处的当前图像。
在一些实施例中,该方法还可以包括:
解析码流,获得所述当前块的运动信息参数,其中,所述运动信息参数包括运动矢量和参考图像索引;
根据所述参考图像索引,确定所述当前块的参考图像;
根据所述运动矢量,在所述参考图像中确定所述当前块的预测参考块。
需要说明的是,参考图像索引是指参考图像对应的图像索引序号,运动矢量则是用于指示参考图像中的预测参考块。这样,对于帧间预测模式,除了当前块所在的当前图像之外,还需要确定预测参考块。其中,通过解析码流,可以获得运动矢量和参考图像索引;然后根据参考图像索引,可以确定当前块的参考图像;再根据运动矢量,可以在参考图像中确定出当前块的预测参考块。
进一步地,在一些实施例中,所述确定所述当前块的参考图像分量值,可以包括:
根据所述当前块的预测参考块确定参考像素;
根据所述参考像素的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
需要说明的是,参考像素可以包括所述预测参考块中的部分或全部像素。或者,参考像素也可以包括所述预测参考块的相邻像素。
其中,对于预测参考块的相邻像素,预测参考块的相邻像素可以包括与所述预测参考块相邻的至少一行像素;或者,预测参考块的相邻像素也可以包括与所述预测参考块相邻的至少一列像素。
也就是说,在确定出当前块的预测参考块后,可以根据当前块的预测参考块确定参考像素,然后根据参考像素的预测值和重建值中至少之一,进而可以确定出当前块的参考图像分量值。
这样,在得到当前块的第一图像分量重建值以及当前块的参考图像分量值后,可以利用ANNM模式对当前块的第二图像分量进行预测。
S1103:根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
需要说明的是,第一图像分量可以是亮度分量,第二图像分量可以是色度分量;或者,第一图像分量可以是色度分量,第二图像分量为亮度分量;或者,第一图像分量为G分量,第二图像分量为R或B分量;或者,第一图像分量为R分量,第二图像分量为G或B分量;或者,第一图像分量为B分量,第二图像分量为G或R分量,等等。在本申请实施例中,可以选择第一图像分量是亮度分量,第二图像分量是色度分量为例进行阐述,但是本申请实施例不作任何限定。
还需要说明的是,本申请实施例提出的ANNM模式是利用神经网络模型实现的。在该网络模型中引入了全连接层和平铺操作以及通道注意力机制,可以提高图像分量预测的准确度。其中,在本申请实施例中,该网络模型可称为ANNM模式的网络模型。
在一些实施例中,所述根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值,可以包括:
将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果;
根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值。
需要说明的是,对于ANNM模式的网络模型而言,可以是通过模型训练得到的。在一些实施例中,确定所述ANNM模式的网络模型,可以包括:
获取训练样本集,所述训练样本集包括一个或多个图像;
构建初始网络模型,利用所述训练样本集对所述初始网络模型进行训练;
将训练后的初始网络模型确定为所述ANNM模式的网络模型。
需要说明的是,训练样本集可以包括有一个或多个图像。训练样本集可以是编码器在本地存储的训练样本集合,也可以是根据链接或者地址信息从远程服务器上获取的训练样本集合,甚至也可以是视频中已经解码的图像样本集合,本申请实施例不作具体限定。
还需要说明的是,对于ANNM模式的网络模型而言,也可以是先确定出网络模型参数,然后再构建出ANNM模式的网络模型。因此,在一种可能的实施方式中,确定所述ANNM模式的网络模型,可以包括:
确定网络模型参数;
根据所确定的网络模型参数,构建所述ANNM模式的网络模型。
在本申请实施例中,网络模型参数可以是通过模型训练确定的。具体地,所述确定网络模型参数,可以包括:获取训练样本集,所述训练样本集包括一个或多个图像;构建初始网络模型,利用所述训练样本集对所述初始网络模型进行训练;将训练后的初始网络模型的模型参数确定为所述网络模型参数。
在另一种可能的实施方式中,确定所述ANNM模式的网络模型,可以包括:
解析码流,获取网络模型参数;
根据所述网络模型参数,构建所述ANNM模式的网络模型。
在本申请实施例中,编码器通过模型训练得到网络模型参数之后,将网络模型参数写入码流。这样,解码器可直接通过解析码流来获得网络模型参数,而无需在解码器进行模型训练就能够构建出预设网络模型。这里,一种具体实现方式中,网络模型参数可以是网络模型结构的参数以及所述网络模型结构所包含的不同层的参数;这时候,解析码流,获取网络模型结构的参数,并根据网络模型结构的参数,确定网络模型结构;解析码流,获取所述网络模型结构所包含的不同层的参数,以构建出ANNM模式的网络模型。另一种具体实现方式中,网络模型参数也可以是网络模型结构的索引参数以及所述网络模型结构所包含的不同层的参数;这时候,解析码流,获取网络模型结构的索引参数,确定所述索引参数对应的网络模型结构;解析码流,获取所述网络模型结构所包含的不同层的参数,以构建出ANNM模式的网络模型。又一种具体实现方式中,网络模型参数也可以是网络模型的索引参数;这时候,解析码流,获取网络模型的索引参数,确定所述索引参数对应的网络模型,以构建出ANNM模式的网络模型。
应理解,ANNM模式的网络模型可以包括第一分支网络、第二分支网络和融合网络。具体地,在一些实施例中,所述将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入所述ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果,可以包括:
将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图;
将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图;
将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果。
需要说明的是,ANNM模式的网络模型包括有两个输入:当前块的第一图像分量重建值和当前块的参考图像分量值。其中,当前块的第一图像分量重建值输入第一分支网络,可以获得第一分支目标特征图;当前块的参考图像分量值输入第二分支网络,可以获得第二分支目标特征图;然后将第一分支目标特征图和第二分支目标特征图输入融合网络,从而能够获得ANNM模式的网络模型的输出结果。
在本申请实施例中,第一分支网络至少可以包括通道注意力机制模型,第二分支网络至少可以包括第一卷积层,融合网络至少可以包括融合层和第二卷积层。
这里,第一卷积层与所述第二卷积层的卷积核不同。其中,第一卷积层的卷积核大小可以为3×3,第二卷积层的卷积核大小可以为1×1。
还需要说明的是,第一分支网络中除了通道注意力机制模型之外,第一分支网络还可以包括以下至少一层网络:采样率转换层、拼接层、全连接层、平铺操作层。
在一些实施例中,所述当前块的参考图像分量值可以包括第一图像分量值和第二图像分量值。所述将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图,可以包括:
通过采样率转换层对所述第一图像分量值进行采样率转换,得到采样率转换后的第一图像分量值;
通过拼接层将所述采样率转换后的第一图像分量值与所述第二图像分量值进行拼接,得到拼接结果;
通过全连接层对所述拼接结果进行全连接操作,得到第一特征图;
通过平铺操作层对所述第一特征图进行平铺操作,得到多个第二特征图;
通过所述通道注意力机制模型对所述多个第二特征图的通道权重进行重新分配,得到所述第一分支目标特征图。
在一些实施例中,所述将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图,可以包括:
通过至少一个所述第一卷积层对所述当前块的第一图像分量重建值进行卷积操作,得到所述第二分支目标特征图。
在一些实施例中,所述将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果,可以包括:
通过所述融合层对所述第一分支目标特征图和所述第二分支目标特征图进行对应位置元素相加操作,得到融合特征图;
通过至少一个所述第二卷积层对所述融合特征图进行卷积操作,得到所述ANNM模式的网络模型 的输出结果。
进一步地,在一些实施例中,所述根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值,可以包括:
将所述当前块的第二图像分量预测值设置为等于所述ANNM模式的网络模型输出结果。
或者,所述根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值,可以包括:
对所述ANNM模式的网络模型的输出结果进行滤波处理,得到第一滤波值;
将所述当前块的第二图像分量预测值设置为等于所述第一滤波值。
也就是说,在得到ANNM模式的网络模型的输出结果后,一种可能的实施方式为直接将当前块的第二图像分量预测值设置为等于所述ANNM模式的网络模型输出结果;另一种可能的实施方式为对所述ANNM模式的网络模型的输出结果进行滤波处理,然后将当前块的第二图像分量预测值设置为等于所得到的第一滤波值。其中,这里的滤波处理可以采用低通滤波器,例如神经网络滤波器等,本申请实施例不作任何限定。
本实施例提供了一种图像预测方法,通过解析码流,获取当前块的预测模式参数;在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。这样,由于本申请提出了一种ANNM模式对当前块进行图像分量预测,而且ANNM模式充分考虑了当前块的第一图像分量与参考图像分量之间的关系,使得使用ANNM模式可以得到更加准确的第二图像分量预测值,不仅提高了图像分量预测的准确度,还减少了传输的比特数,从而能够降低码率,进而提高解码效率。
本申请的再一实施例中,参见图12,其示出了本申请实施例提供的一种编码器120的组成结构示意图。如图12所示,该编码器120可以包括:第一确定单元1201和第一预测单元1202;其中,
第一确定单元1201,配置为确定当前块的预测模式参数;
第一确定单元1201,还配置为在所述预测模式参数指示使用ANNM模式确定所述当前块的预测值时,确定当前块的第一图像分量重建值以及当前块的参考图像分量值;
第一预测单元1202,配置为根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用ANNM模式对当前块的第二图像分量进行预测,确定当前块的第二图像分量预测值。
在一些实施例中,参见图12,编码器120还可以包括预编码单元1203;
第一确定单元1201,还配置为从第一候选预测模式集中,确定所述当前块的目标预测模式;其中,所述第一候选预测模式集包括一种或多种候选预测模式,且所述第一候选预测模式集不包括所述ANNM模式;
预编码单元1203,配置为基于所述ANNM模式和所述目标预测模式,确定当前块的预测模式参数。
在一些实施例中,预编码单元1203,配置为基于所述ANNM模式,计算所述当前块的第一率失真代价结果;以及基于所述目标预测模式,计算所述当前块的第二率失真代价结果;以及从所述第一率失真代价结果和所述第二率失真代价结果中选取最优率失真代价结果,将所述最优率失真代价结果对应的预测模式确定为所述当前块的预测模式参数。
在一些实施例中,预编码单元1203,还配置为利用所述第一候选预测模式集中的一种或多种候选预测模式分别对所述当前块进行预编码,确定所述一种或多种候选预测模式对应的预编码结果;以及基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的目标预测模式。
在一些实施例中,预编码单元1203,具体配置为基于所述预编码结果,获得所述一种或多种候选预测模式对应的率失真代价结果;以及从所述率失真代价结果中选取最优率失真代价结果,将所述最优率失真代价结果对应的候选预测模式确定为所述当前块的目标预测模式。
在一些实施例中,第一确定单元1201,还配置为确定第二候选预测模式集;其中,所述第二候选预测模式集包括一种或多种候选预测模式,且所述第二候选预测模式集包括所述ANNM模式;
预编码单元1203,还配置为利用所述第二候选预测模式集中的一种或多种候选预测模式分别对所述当前块进行预编码,确定所述一种或多种候选预测模式对应的预编码结果;以及基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的预测模式参数。
在一些实施例中,预编码单元1203,具体配置为基于所述预编码结果,获得所述一种或多种候选预测模式对应的率失真代价结果;以及从所述率失真代价结果中选取最优率失真代价结果,将所述最优率失真代价结果对应的候选预测模式确定为所述当前块的预测模式参数。
在一些实施例中,参见图12,编码器120还可以包括设置单元1204和写入单元1205;其中,
设置单元1204,配置为设置所述当前块的模式标志位,所述模式标志位用于指示所述当前块使用的预测模式;
写入单元1205,配置为将所述模式标志位写入码流。
在一些实施例中,设置单元1204,具体配置为若所述当前块的预测模式参数指示所述当前块使用ANNM模式,则设置所述模式标志位为第一值;以及若所述当前块的预测模式参数指示所述当前块不使用ANNM模式,则设置所述模式标志位为第二值。
在一些实施例中,所述第一值为1,所述第二值为0;或者,所述第一值为true,所述第二值为false。
在一些实施例中,所述第一值为0,所述第二值为1;或者,所述第一值为false,所述第二值为true。
在一些实施例中,设置单元1204,还配置为设置所述当前块的模式索引序号,所述模式索引序号用于指示所述当前块使用的预测模式;
写入单元1205,还配置为将所述模式索引序号写入码流。
在一些实施例中,设置单元1204,具体配置为若所述当前块的预测模式参数指示所述当前块使用ANNM模式,则设置所述模式索引序号的取值等于使用ANNM模式对应的索引序号;以及若所述当前块的预测模式参数指示所述当前块不使用ANNM模式,则设置所述模式索引序号的取值不等于使用ANNM模式对应的索引序号。
在一些实施例中,参考图像分量包括当前图像中一个或多个图像分量;其中,当前图像是所述当前块所处的图像,所述一个或多个图像分量包括下述至少之一:第一图像分量和第二图像分量。
在一些实施例中,第一确定单元1201,具体配置为根据所述当前块的相邻像素对应于所述参考图像分量的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
在一些实施例中,所述当前块的相邻像素包括与所述当前块相邻的至少一行像素。
在一些实施例中,所述当前块的相邻像素包括与所述当前块相邻的至少一列像素。
在一些实施例中,参考图像分量包括参考图像中一个或多个图像分量;其中,参考图像是当前块的预测参考块所处的图像,所述一个或多个图像分量包括下述至少之一:第一图像分量和第二图像分量。
在一些实施例中,第一确定单元1201,还配置为确定所述当前块的运动信息参数,其中,所述运动信息参数包括指示所述参考图像对应的参考图像索引和指示所述参考图像中所述当前块的预测参考块的运动矢量;
写入单元1205,还配置为将所述运动信息参数写入码流。
在一些实施例中,第一确定单元1201,具体配置为根据所述当前块的预测参考块确定参考像素;以及根据所述参考像素的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
在一些实施例中,所述参考像素包括所述预测参考块中的部分或全部像素。
在一些实施例中,所述参考像素包括所述预测参考块的相邻像素。
在一些实施例中,所述预测参考块的相邻像素包括与所述预测参考块相邻的至少一行像素。
在一些实施例中,所述预测参考块的相邻像素包括与所述预测参考块相邻的至少一列像素。
在一些实施例中,第一预测单元1202,具体配置为将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果;以及根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值。
在一些实施例中,ANNM模式的网络模型包括第一分支网络、第二分支网络和融合网络;其中,
所述第一分支网络至少包括通道注意力机制模型,所述第二分支网络至少包括第一卷积层,所述融合网络至少包括融合层和第二卷积层,所述第一卷积层与所述第二卷积层的卷积核不同。
在一些实施例中,所述第一分支网络还包括以下至少一层网络:采样率转换层、拼接层、全连接层、平铺操作层。
在一些实施例中,第一预测单元1202,还配置为将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图;以及将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图;以及将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果。
在一些实施例中,所述当前块的参考图像分量值包括第一图像分量值和第二图像分量值;
第一预测单元1202,具体配置为通过采样率转换层对所述第一图像分量值进行采样率转换,得到采样率转换后的第一图像分量值;通过拼接层将所述采样率转换后的第一图像分量值与所述第二图像分量值进行拼接,得到拼接结果;通过全连接层对所述拼接结果进行全连接操作,得到第一特征图;通过平铺操作层对所述第一特征图进行平铺操作,得到多个第二特征图;通过所述通道注意力机制模型对所述多个第二特征图的通道权重进行重新分配,得到所述第一分支目标特征图。
在一些实施例中,第一预测单元1202,具体配置为通过至少一个所述第一卷积层对所述当前块的第一图像分量重建值进行卷积操作,得到所述第二分支目标特征图。
在一些实施例中,第一预测单元1202,具体配置为通过所述融合层对所述第一分支目标特征图和所述第二分支目标特征图进行对应位置元素相加操作,得到融合特征图;通过至少一个所述第二卷积层对所述融合特征图进行卷积操作,得到所述ANNM模式的网络模型的输出结果。
在一些实施例中,第一预测单元1202,具体配置为将所述当前块的第二图像分量预测值设置为等于所述ANNM模式的网络模型输出结果。
在一些实施例中,第一预测单元1202,具体配置为对所述ANNM模式的网络模型的输出结果进行滤波处理,得到第一滤波值;以及将所述当前块的第二图像分量预测值设置为等于所述第一滤波值。
在一些实施例中,所述第一图像分量是亮度分量,所述第二图像分量是色度分量。
可以理解地,在本申请实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
因此,本申请实施例提供了一种计算机存储介质,应用于编码器120,该计算机存储介质存储有计算机程序,所述计算机程序被第一处理器执行时实现前述实施例中任一项所述的方法。
基于上述编码器120的组成以及计算机存储介质,参见图13,其示出了本申请实施例提供的编码器120的具体硬件结构示意图。如图13所示,可以包括:第一通信接口1301、第一存储器1302和第一处理器1303;各个组件通过第一总线系统1304耦合在一起。可理解,第一总线系统1304用于实现这些组件之间的连接通信。第一总线系统1304除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图13中将各种总线都标为第一总线系统1304。其中,
第一通信接口1301,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
第一存储器1302,用于存储能够在第一处理器1303上运行的计算机程序;
第一处理器1303,用于在运行所述计算机程序时,执行:
确定当前块的预测模式参数;
在所述预测模式参数指示使用ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
可以理解,本申请实施例中的第一存储器1302可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请描述的系统和方法的第一存储器1302旨在包括但不限于这些和任意其它适合类型的存储器。
而第一处理器1303可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过第一处理器1303中的硬件的集成逻辑电路或者软件形式的指令完成。上述的第一处理器1303可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的 公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于第一存储器1302,第一处理器1303读取第一存储器1302中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本申请描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable Logic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。对于软件实现,可通过执行本申请所述功能的模块(例如过程、函数等)来实现本申请所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,作为另一个实施例,第一处理器1303还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法。
本实施例提供了一种编码器,该编码器可以包括第一确定单元和第一预测单元。这样,利用ANNM模式对当前块进行图像分量预测,而且ANNM模式充分考虑了当前块的第一图像分量与参考图像分量之间的关系,使得使用ANNM模式可以得到更加准确的第二图像分量预测值,不仅提高了图像分量预测的准确度,还减少了传输的比特数,从而能够降低码率,进而提高编码效率。
本申请的再一实施例中,参见图14,其示出了本申请实施例提供的一种解码器140的组成结构示意图。如图14所示,该解码器140可以包括:解析单元1401、第二确定单元1402和第二预测单元1403;其中,
解析单元1401,配置为解析码流,获取当前块的预测模式参数;
第二确定单元1402,配置为在所述预测模式参数指示使用ANNM模式确定当前块的预测值时,确定当前块的第一图像分量重建值以及当前块的参考图像分量值;
第二预测单元1403,配置为根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用ANNM模式对当前块的第二图像分量进行预测,确定当前块的第二图像分量预测值。
在一些实施例中,解析单元1401,还配置为解析码流,获取所述当前块的模式标志位,所述模式标志位用于指示所述当前块使用的预测模式;
第二确定单元1402,还配置为根据所述模式标志位,确定所述当前块的预测模式参数。
在一些实施例中,第二确定单元1402,具体配置为若所述模式标志位为第一值,则确定所述当前块的预测模式参数指示所述当前块使用ANNM模式;以及若所述模式标志位为第二值,则确定所述当前块的预测模式参数指示所述当前块不使用ANNM模式。
在一些实施例中,解析单元1401,还配置为解析码流,获取所述当前块的模式索引序号,所述模式索引序号用于指示所述当前块使用的预测模式;
第二确定单元1402,还配置为根据所述模式索引序号,确定所述当前块的预测模式参数。
在一些实施例中,第二确定单元1402,具体配置为若所述模式索引序号的取值等于使用ANNM模式对应的索引序号,则确定所述当前块的预测模式参数指示所述当前块使用ANNM模式;以及若所述模式索引序号的取值不等于使用ANNM模式对应的索引序号,则确定所述当前块的预测模式参数指示所述当前块不使用ANNM模式。
在一些实施例中,所述第一值为1,所述第二值为0;或者,所述第一值为true,所述第二值为false。
在一些实施例中,所述第一值为0,所述第二值为1;或者,所述第一值为false,所述第二值为true。
在一些实施例中,参考图像分量包括当前图像中一个或多个图像分量;其中,当前图像是所述当前块所处的图像,所述一个或多个图像分量包括下述至少之一:第一图像分量和第二图像分量。
在一些实施例中,第二确定单元1402,具体配置为根据所述当前块的相邻像素对应于所述参考图像分量的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
在一些实施例中,所述当前块的相邻像素包括与所述当前块相邻的至少一行像素。
在一些实施例中,所述当前块的相邻像素包括与所述当前块相邻的至少一列像素。
在一些实施例中,参考图像分量包括参考图像中一个或多个图像分量;其中,参考图像是当前块的预测参考块所处的图像,所述一个或多个图像分量包括下述至少之一:第一图像分量和第二图像分量。
在一些实施例中,解析单元1401,还配置为解析码流,获得所述当前块的运动信息参数,其中,所述运动信息参数包括运动矢量和参考图像索引;
第二确定单元1402,还配置为根据所述参考图像索引,确定所述当前块的参考图像;以及根据所 述运动矢量,在所述参考图像中确定所述当前块的预测参考块。
在一些实施例中,第二确定单元1402,具体配置为根据所述当前块的预测参考块确定参考像素;以及根据所述参考像素的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
在一些实施例中,所述参考像素包括所述预测参考块中的部分或全部像素。
在一些实施例中,所述参考像素包括所述预测参考块的相邻像素。
在一些实施例中,所述预测参考块的相邻像素包括与所述预测参考块相邻的至少一行像素。
在一些实施例中,所述预测参考块的相邻像素包括与所述预测参考块相邻的至少一列像素。
在一些实施例中,第二预测单元1403,具体配置为将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果;以及根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值。
在一些实施例中,ANNM模式的网络模型包括第一分支网络、第二分支网络和融合网络;其中,
所述第一分支网络至少包括通道注意力机制模型,所述第二分支网络至少包括第一卷积层,所述融合网络至少包括融合层和第二卷积层,所述第一卷积层与所述第二卷积层的卷积核不同。
在一些实施例中,所述第一分支网络还包括以下至少一层网络:采样率转换层、拼接层、全连接层、平铺操作层。
在一些实施例中,第二预测单元1403,还配置为将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图;以及将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图;以及将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果。
在一些实施例中,所述当前块的参考图像分量值包括第一图像分量值和第二图像分量值;
第二预测单元1403,具体配置为通过采样率转换层对所述第一图像分量值进行采样率转换,得到采样率转换后的第一图像分量值;通过拼接层将所述采样率转换后的第一图像分量值与所述第二图像分量值进行拼接,得到拼接结果;通过全连接层对所述拼接结果进行全连接操作,得到第一特征图;通过平铺操作层对所述第一特征图进行平铺操作,得到多个第二特征图;通过所述通道注意力机制模型对所述多个第二特征图的通道权重进行重新分配,得到所述第一分支目标特征图。
在一些实施例中,第二预测单元1403,具体配置为通过至少一个所述第一卷积层对所述当前块的第一图像分量重建值进行卷积操作,得到所述第二分支目标特征图。
在一些实施例中,第二预测单元1403,具体配置为通过所述融合层对所述第一分支目标特征图和所述第二分支目标特征图进行对应位置元素相加操作,得到融合特征图;通过至少一个所述第二卷积层对所述融合特征图进行卷积操作,得到所述ANNM模式的网络模型的输出结果。
在一些实施例中,第二预测单元1403,具体配置为将所述当前块的第二图像分量预测值设置为等于所述ANNM模式的网络模型输出结果。
在一些实施例中,第二预测单元1403,具体配置为对所述ANNM模式的网络模型的输出结果进行滤波处理,得到第一滤波值;以及将所述当前块的第二图像分量预测值设置为等于所述第一滤波值。
在一些实施例中,所述第一图像分量是亮度分量,所述第二图像分量是色度分量。
可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本实施例提供了一种计算机存储介质,应用于解码器140,该计算机存储介质存储有计算机程序,所述计算机程序被第二处理器执行时实现前述实施例中任一项所述的方法。
基于上述解码器140的组成以及计算机存储介质,参见图15,其示出了本申请实施例提供的解码器140的具体硬件结构示意图。如图15所示,可以包括:第二通信接口1501、第二存储器1502和第二处理器1503;各个组件通过第二总线系统1504耦合在一起。可理解,第二总线系统1504用于实现这些组件之间的连接通信。第二总线系统1504除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图15中将各种总线都标为第二总线系统1504。其中,
第二通信接口1501,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
第二存储器1502,用于存储能够在第二处理器1503上运行的计算机程序;
第二处理器1503,用于在运行所述计算机程序时,执行:
解析码流,获取当前块的预测模式参数;
在所述预测模式参数指示使用ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
可选地,作为另一个实施例,第二处理器1503还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法。
可以理解,第二存储器1502与第一存储器1302的硬件功能类似,第二处理器1503与第一处理器1303的硬件功能类似;这里不再详述。
本实施例提供了一种解码器,该解码器可以包括解析单元、第二确定单元和第二预测单元。这样,利用ANNM模式对当前块进行图像分量预测,而且ANNM模式充分考虑了当前块的第一图像分量与参考图像分量之间的关系,使得使用ANNM模式可以得到更加准确的第二图像分量预测值,不仅提高了图像分量预测的准确度,还减少了传输的比特数,从而能够降低码率,进而提高解码效率。
需要说明的是,在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
工业实用性
本申请实施例中,在编码器或者解码器中,获得当前块的预测模式参数后,在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。这样,由于本申请提出了一种ANNM模式对当前块进行图像分量预测,而且ANNM模式充分考虑了当前块的第一图像分量与参考图像分量之间的关系,使得使用ANNM模式可以得到更加准确的第二图像分量预测值,不仅提高了图像分量预测的准确度,还减少了传输的比特数,从而能够降低码率,进而提高编解码效率。

Claims (67)

  1. 一种图像预测方法,应用于编码器,所述方法包括:
    确定当前块的预测模式参数;
    在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
    根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
  2. 根据权利要求1所述的方法,其中,所述确定当前块的预测模式参数,包括:
    从第一候选预测模式集中,确定所述当前块的目标预测模式;其中,所述第一候选预测模式集包括一种或多种候选预测模式,且所述第一候选预测模式集不包括所述ANNM模式;
    基于所述ANNM模式和所述目标预测模式,确定所述当前块的预测模式参数。
  3. 根据权利要求2所述的方法,其中,所述基于所述ANNM模式和所述目标预测模式,确定所述当前块的预测模式参数,包括:
    基于所述ANNM模式,计算所述当前块的第一率失真代价结果;以及基于所述目标预测模式,计算所述当前块的第二率失真代价结果;
    从所述第一率失真代价结果和所述第二率失真代价结果中选取最优率失真代价结果,将所述最优率失真代价结果对应的预测模式确定为所述当前块的预测模式参数。
  4. 根据权利要求2所述的方法,其中,所述从第一候选预测模式集中,确定所述当前块的目标预测模式,包括:
    利用所述第一候选预测模式集中的一种或多种候选预测模式分别对所述当前块进行预编码,确定所述一种或多种候选预测模式对应的预编码结果;
    基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的目标预测模式。
  5. 根据权利要求4所述的方法,其中,所述基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的目标预测模式,包括:
    基于所述预编码结果,获得所述一种或多种候选预测模式对应的率失真代价结果;
    从所述率失真代价结果中选取最优率失真代价结果,将所述最优率失真代价结果对应的候选预测模式确定为所述当前块的目标预测模式。
  6. 根据权利要求1所述的方法,其中,所述确定当前块的预测模式参数,包括:
    确定第二候选预测模式集;其中,所述第二候选预测模式集包括一种或多种候选预测模式,且所述第二候选预测模式集包括所述ANNM模式;
    利用所述第二候选预测模式集中的一种或多种候选预测模式分别对所述当前块进行预编码,确定所述一种或多种候选预测模式对应的预编码结果;
    基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的预测模式参数。
  7. 根据权利要求6所述的方法,其中,所述基于所述预编码结果,从一种或多种候选预测模式中确定所述当前块的预测模式参数,包括:
    基于所述预编码结果,获得所述一种或多种候选预测模式对应的率失真代价结果;
    从所述率失真代价结果中选取最优率失真代价结果,将所述最优率失真代价结果对应的候选预测模式确定为所述当前块的预测模式参数。
  8. 根据权利要求1至7任一项所述的方法,其中,在所述确定当前块的预测模式参数之后,所述方法还包括:
    设置所述当前块的模式标志位,所述模式标志位用于指示所述当前块使用的预测模式;
    将所述模式标志位写入码流。
  9. 根据权利要求8所述的方法,其中,所述设置所述当前块的模式标志位,包括:
    若所述当前块的预测模式参数指示所述当前块使用ANNM模式,则设置所述模式标志位为第一值;
    若所述当前块的预测模式参数指示所述当前块不使用ANNM模式,则设置所述模式标志位为第二值。
  10. 根据权利要求9所述的方法,其中,所述第一值为1,所述第二值为0;或者,所述第一值为true,所述第二值为false。
  11. 根据权利要求9所述的方法,其中,所述第一值为0,所述第二值为1;或者,所述第一值为false,所述第二值为true。
  12. 根据权利要求1至7任一项所述的方法,其中,在所述确定当前块的预测模式参数之后,所述方法还包括:
    设置所述当前块的模式索引序号,所述模式索引序号用于指示所述当前块使用的预测模式;
    将所述模式索引序号写入码流。
  13. 根据权利要求12所述的方法,其中,所述设置所述当前块的模式索引序号,包括:
    若所述当前块的预测模式参数指示所述当前块使用ANNM模式,则设置所述模式索引序号的取值等于使用ANNM模式对应的索引序号。
  14. 根据权利要求1所述的方法,其中,所述参考图像分量包括当前图像中一个或多个图像分量;其中,所述当前图像是所述当前块所处的图像,所述一个或多个图像分量包括下述至少之一:所述第一图像分量和所述第二图像分量。
  15. 根据权利要求14所述的方法,其中,所述确定所述当前块的参考图像分量值,包括:
    根据所述当前块的相邻像素对应于所述参考图像分量的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
  16. 根据权利要求15所述的方法,其中,所述当前块的相邻像素包括与所述当前块相邻的至少一行像素。
  17. 根据权利要求15所述的方法,其中,所述当前块的相邻像素包括与所述当前块相邻的至少一列像素。
  18. 根据权利要求1所述的方法,其中,所述参考图像分量包括参考图像中一个或多个图像分量;其中,所述参考图像是所述当前块的预测参考块所处的图像,所述一个或多个图像分量包括下述至少之一:所述第一图像分量和所述第二图像分量。
  19. 根据权利要求18所述的方法,其中,所述方法还包括:
    确定所述当前块的运动信息参数,其中,所述运动信息参数包括指示所述参考图像对应的参考图像索引和指示所述参考图像中所述当前块的预测参考块的运动矢量;
    将所述运动信息参数写入码流。
  20. 根据权利要求18所述的方法,其中,所述确定所述当前块的参考图像分量值,包括:
    根据所述当前块的预测参考块确定参考像素;
    根据所述参考像素的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
  21. 根据权利要求20所述的方法,其中,所述参考像素包括所述预测参考块中的部分或全部像素。
  22. 根据权利要求20所述的方法,其中,所述参考像素包括所述预测参考块的相邻像素。
  23. 根据权利要求22所述的方法,其中,所述预测参考块的相邻像素包括与所述预测参考块相邻的至少一行像素。
  24. 根据权利要求22所述的方法,其中,所述预测参考块的相邻像素包括与所述预测参考块相邻的至少一列像素。
  25. 根据权利要求1所述的方法,其中,所述根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值,包括:
    将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果;
    根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值。
  26. 根据权利要求25所述的方法,其中,所述ANNM模式的网络模型包括第一分支网络、第二分支网络和融合网络;其中,
    所述第一分支网络至少包括通道注意力机制模型,所述第二分支网络至少包括第一卷积层,所述融合网络至少包括融合层和第二卷积层,所述第一卷积层与所述第二卷积层的卷积核不同。
  27. 根据权利要求26所述的方法,其中,所述第一分支网络还包括以下至少一层网络:采样率转换层、拼接层、全连接层、平铺操作层。
  28. 根据权利要求26或27所述的方法,其中,所述将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果,包括:
    将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图;
    将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图;
    将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果。
  29. 根据权利要求28所述的方法,其中,所述将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图,包括:
    所述当前块的参考图像分量值包括第一图像分量值和第二图像分量值;
    通过采样率转换层对所述第一图像分量值进行采样率转换,得到采样率转换后的第一图像分量值;
    通过拼接层将所述采样率转换后的第一图像分量值与所述第二图像分量值进行拼接,得到拼接结果;
    通过全连接层对所述拼接结果进行全连接操作,得到第一特征图;
    通过平铺操作层对所述第一特征图进行平铺操作,得到多个第二特征图;
    通过所述通道注意力机制模型对所述多个第二特征图的通道权重进行重新分配,得到所述第一分支目标特征图。
  30. 根据权利要求28所述的方法,其中,所述将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图,包括:
    通过至少一个所述第一卷积层对所述当前块的第一图像分量重建值进行卷积操作,得到所述第二分支目标特征图。
  31. 根据权利要求28所述的方法,其中,所述将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果,包括:
    通过所述融合层对所述第一分支目标特征图和所述第二分支目标特征图进行对应位置元素相加操作,得到融合特征图;
    通过至少一个所述第二卷积层对所述融合特征图进行卷积操作,得到所述ANNM模式的网络模型的输出结果。
  32. 根据权利要求25所述的方法,其中,所述根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值,包括:
    将所述当前块的第二图像分量预测值设置为等于所述ANNM模式的网络模型输出结果。
  33. 根据权利要求25所述的方法,其中,所述根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值,包括:
    对所述ANNM模式的网络模型的输出结果进行滤波处理,得到第一滤波值;
    将所述当前块的第二图像分量预测值设置为等于所述第一滤波值。
  34. 根据权利要求1所述的方法,其中,所述第一图像分量是亮度分量,所述第二图像分量是色度分量。
  35. 一种图像预测方法,应用于解码器,所述方法包括:
    解析码流,获取当前块的预测模式参数;
    在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
    根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
  36. 根据权利要求35所述的方法,其中,所述解析码流,获取当前块的预测模式参数,包括:
    解析码流,获取所述当前块的模式标志位,所述模式标志位用于指示所述当前块使用的预测模式;
    根据所述模式标志位,确定所述当前块的预测模式参数。
  37. 根据权利要求36所述的方法,其中,所述根据所述模式标志位,确定所述当前块的预测模式参数,包括:
    若所述模式标志位为第一值,则确定所述当前块的预测模式参数指示所述当前块使用ANNM模式;
    若所述模式标志位为第二值,则确定所述当前块的预测模式参数指示所述当前块不使用ANNM模式。
  38. 根据权利要求35所述的方法,其中,所述解析码流,获取当前块的预测模式参数,包括:
    解析码流,获取所述当前块的模式索引序号,所述模式索引序号用于指示所述当前块使用的预测模式;
    根据所述模式索引序号,确定所述当前块的预测模式参数。
  39. 根据权利要求38所述的方法,其中,所述根据所述模式索引序号,确定所述当前块的预测模式参数,包括:
    若所述模式索引序号的取值等于使用ANNM模式对应的索引序号,则确定所述当前块的预测模式参数指示所述当前块使用ANNM模式。
  40. 根据权利要求37所述的方法,其中,所述第一值为1,所述第二值为0;或者,所述第一值为 true,所述第二值为false。
  41. 根据权利要求37所述的方法,其中,所述第一值为0,所述第二值为1;或者,所述第一值为false,所述第二值为true。
  42. 根据权利要求35所述的方法,其中,所述参考图像分量包括当前图像中一个或多个图像分量;其中,所述当前图像是所述当前块所处的图像,所述一个或多个图像分量包括下述至少之一:所述第一图像分量和所述第二图像分量。
  43. 根据权利要求42所述的方法,其中,所述确定所述当前块的参考图像分量值,包括:
    根据所述当前块的相邻像素对应于所述参考图像分量的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
  44. 根据权利要求43所述的方法,其中,所述当前块的相邻像素包括与所述当前块相邻的至少一行像素。
  45. 根据权利要求43所述的方法,其中,所述当前块的相邻像素包括与所述当前块相邻的至少一列像素。
  46. 根据权利要求35所述的方法,其中,所述参考图像分量包括参考图像中一个或多个图像分量;其中,所述参考图像是所述当前块的预测参考块所处的图像,所述一个或多个图像分量包括下述至少之一:所述第一图像分量和所述第二图像分量。
  47. 根据权利要求46所述的方法,其中,所述方法还包括:
    解析码流,获得所述当前块的运动信息参数,其中,所述运动信息参数包括运动矢量和参考图像索引;
    根据所述参考图像索引,确定所述当前块的参考图像;
    根据所述运动矢量,在所述参考图像中确定所述当前块的预测参考块。
  48. 根据权利要求46所述的方法,其中,所述确定所述当前块的参考图像分量值,包括:
    根据所述当前块的预测参考块确定参考像素;
    根据所述参考像素的预测值和重建值中至少之一,确定所述当前块的参考图像分量值。
  49. 根据权利要求48所述的方法,其中,所述参考像素包括所述预测参考块中的部分或全部像素。
  50. 根据权利要求48所述的方法,其中,所述参考像素包括所述预测参考块的相邻像素。
  51. 根据权利要求50所述的方法,其中,所述预测参考块的相邻像素包括与所述预测参考块相邻的至少一行像素。
  52. 根据权利要求50所述的方法,其中,所述预测参考块的相邻像素包括与所述预测参考块相邻的至少一列像素。
  53. 根据权利要求35所述的方法,其中,所述根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值,包括:
    将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果;
    根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值。
  54. 根据权利要求53所述的方法,其中,所述ANNM模式的网络模型包括第一分支网络、第二分支网络和融合网络;其中,
    所述第一分支网络至少包括通道注意力机制模型,所述第二分支网络至少包括第一卷积层,所述融合网络至少包括融合层和第二卷积层,所述第一卷积层与所述第二卷积层的卷积核不同。
  55. 根据权利要求54所述的方法,其中,所述第一分支网络还包括以下至少一层网络:采样率转换层、拼接层、全连接层、平铺操作层。
  56. 根据权利要求54或55所述的方法,其中,所述将所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值输入ANNM模式的网络模型,获得所述ANNM模式的网络模型的输出结果,包括:
    将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图;
    将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图;
    将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果。
  57. 根据权利要求56所述的方法,其中,所述将所述当前块的参考图像分量值输入所述第一分支网络,获得第一分支目标特征图,包括:
    所述当前块的参考图像分量值包括第一图像分量值和第二图像分量值;
    通过采样率转换层对所述第一图像分量值进行采样率转换,得到采样率转换后的第一图像分量值;
    通过拼接层将所述采样率转换后的第一图像分量值与所述第二图像分量值进行拼接,得到拼接结果;
    通过全连接层对所述拼接结果进行全连接操作,得到第一特征图;
    通过平铺操作层对所述第一特征图进行平铺操作,得到多个第二特征图;
    通过所述通道注意力机制模型对所述多个第二特征图的通道权重进行重新分配,得到所述第一分支目标特征图。
  58. 根据权利要求56所述的方法,其中,所述将所述当前块的第一图像分量重建值输入所述第二分支网络,获得第二分支目标特征图,包括:
    通过至少一个所述第一卷积层对所述当前块的第一图像分量重建值进行卷积操作,得到所述第二分支目标特征图。
  59. 根据权利要求56所述的方法,其中,所述将所述第一分支目标特征图和所述第二分支目标特征图输入所述融合网络,获得所述ANNM模式的网络模型的输出结果,包括:
    通过所述融合层对所述第一分支目标特征图和所述第二分支目标特征图进行对应位置元素相加操作,得到融合特征图;
    通过至少一个所述第二卷积层对所述融合特征图进行卷积操作,得到所述ANNM模式的网络模型的输出结果。
  60. 根据权利要求53所述的方法,其中,所述根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值,包括:
    将所述当前块的第二图像分量预测值设置为等于所述ANNM模式的网络模型输出结果。
  61. 根据权利要求53所述的方法,其中,所述根据所述ANNM模式的网络模型的输出结果,确定所述当前块的第二图像分量预测值,包括:
    对所述ANNM模式的网络模型的输出结果进行滤波处理,得到第一滤波值;
    将所述当前块的第二图像分量预测值设置为等于所述第一滤波值。
  62. 根据权利要求35所述的方法,其中,所述第一图像分量是亮度分量,所述第二图像分量是色度分量。
  63. 一种编码器,所述编码器包括第一确定单元和第一预测单元;其中,
    所述第一确定单元,配置为确定当前块的预测模式参数;
    所述第一确定单元,还配置为在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
    所述第一预测单元,配置为根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
  64. 一种编码器,所述编码器包括第一存储器和第一处理器;其中,
    所述第一存储器,用于存储能够在所述第一处理器上运行的计算机程序;
    所述第一处理器,用于在运行所述计算机程序时,执行如权利要求1至34任一项所述的方法。
  65. 一种解码器,所述解码器包括解析单元、第二确定单元和第二预测单元;其中,
    所述解析单元,配置为解析码流,获取当前块的预测模式参数;
    所述第二确定单元,配置为在所述预测模式参数指示使用基于注意力机制的神经网络模型ANNM模式确定所述当前块的预测值时,确定所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值;
    所述第二预测单元,配置为根据所述当前块的第一图像分量重建值以及所述当前块的参考图像分量值,利用所述ANNM模式对所述当前块的第二图像分量进行预测,确定所述当前块的第二图像分量预测值。
  66. 一种解码器,所述解码器包括第二存储器和第二处理器;其中,
    所述第二存储器,用于存储能够在所述第二处理器上运行的计算机程序;
    所述第二处理器,用于在运行所述计算机程序时,执行如权利要求35至62任一项所述的方法。
  67. 一种计算机存储介质,其中,所述计算机存储介质存储有计算机程序,所述计算机程序被第一处理器执行时实现如权利要求1至34任一项所述的方法、或者被第二处理器执行时实现如权利要求35至62任一项所述的方法。
CN202080106712.5A 2020-10-28 2020-10-28 图像预测方法、编码器、解码器以及计算机存储介质 Pending CN116438796A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/124455 WO2022087901A1 (zh) 2020-10-28 2020-10-28 图像预测方法、编码器、解码器以及计算机存储介质

Publications (1)

Publication Number Publication Date
CN116438796A true CN116438796A (zh) 2023-07-14

Family

ID=81381693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080106712.5A Pending CN116438796A (zh) 2020-10-28 2020-10-28 图像预测方法、编码器、解码器以及计算机存储介质

Country Status (4)

Country Link
US (1) US20230262212A1 (zh)
EP (1) EP4240013A1 (zh)
CN (1) CN116438796A (zh)
WO (1) WO2022087901A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830017B (zh) * 2023-02-09 2023-07-25 智慧眼科技股份有限公司 基于图文多模态融合的肿瘤检测系统、方法、设备及介质
CN116668704B (zh) * 2023-08-02 2024-02-06 深圳传音控股股份有限公司 处理方法、处理设备及存储介质
CN117714697B (zh) * 2024-02-05 2024-04-23 卓世未来(成都)科技有限公司 数字人视频显示方法及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11601644B2 (en) * 2018-12-11 2023-03-07 Google Llc Image and video coding using machine learning prediction coding models
CN110557646B (zh) * 2019-08-21 2021-12-07 天津大学 一种智能视点间的编码方法
CN110602491B (zh) * 2019-08-30 2022-07-19 中国科学院深圳先进技术研究院 帧内色度预测方法、装置、设备及视频编解码系统

Also Published As

Publication number Publication date
EP4240013A4 (en) 2023-09-06
US20230262212A1 (en) 2023-08-17
WO2022087901A1 (zh) 2022-05-05
EP4240013A1 (en) 2023-09-06

Similar Documents

Publication Publication Date Title
WO2021004152A1 (zh) 图像分量的预测方法、编码器、解码器以及存储介质
WO2022087901A1 (zh) 图像预测方法、编码器、解码器以及计算机存储介质
WO2022104498A1 (zh) 帧内预测方法、编码器、解码器以及计算机存储介质
US11843781B2 (en) Encoding method, decoding method, and decoder
CN113225562B (zh) 图像分量预测方法、编码器、解码器以及存储介质
CN116235496A (zh) 编码方法、解码方法、编码器、解码器以及编码系统
CN113784128B (zh) 图像预测方法、编码器、解码器以及存储介质
CN114830663A (zh) 变换方法、编码器、解码器以及存储介质
US20230262251A1 (en) Picture prediction method, encoder, decoder and computer storage medium
CN113497936A (zh) 编码方法、解码方法、编码器、解码器以及存储介质
KR102648464B1 (ko) 지도 학습을 이용한 영상 개선 방법 및 장치
CN113766233B (zh) 图像预测方法、编码器、解码器以及存储介质
CN116980596A (zh) 一种帧内预测方法、编码器、解码器及存储介质
CN114830659A (zh) 变换方法、编码器、解码器以及存储介质
CN113840144B (zh) 图像分量的预测方法、编码器、解码器及计算机存储介质
WO2023197195A1 (zh) 视频编解码方法、编码器、解码器及存储介质
WO2023197189A1 (zh) 编解码方法、装置、编码设备、解码设备以及存储介质
WO2024007120A1 (zh) 编解码方法、编码器、解码器以及存储介质
US20230044603A1 (en) Apparatus and method for applying artificial intelligence-based filtering to image
WO2023193254A1 (zh) 解码方法、编码方法、解码器以及编码器
JP7448568B2 (ja) 画像成分の予測方法、装置およびコンピュータ記憶媒体
WO2024077569A1 (zh) 编解码方法、码流、编码器、解码器以及存储介质
CN114830658A (zh) 变换方法、编码器、解码器以及存储介质
CN117413515A (zh) 编解码方法、编码器、解码器以及计算机存储介质
CN113261279A (zh) 预测值的确定方法、编码器、解码器以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination