CN116965018A - 运动图像编码装置、解码装置 - Google Patents
运动图像编码装置、解码装置 Download PDFInfo
- Publication number
- CN116965018A CN116965018A CN202280019035.2A CN202280019035A CN116965018A CN 116965018 A CN116965018 A CN 116965018A CN 202280019035 A CN202280019035 A CN 202280019035A CN 116965018 A CN116965018 A CN 116965018A
- Authority
- CN
- China
- Prior art keywords
- image
- unit
- prediction
- parameter
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012805 post-processing Methods 0.000 claims abstract description 48
- 238000006243 chemical reaction Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims description 56
- 238000013528 artificial neural network Methods 0.000 claims description 32
- 238000001914 filtration Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 abstract description 5
- 238000003786 synthesis reaction Methods 0.000 abstract description 5
- 238000000034 method Methods 0.000 description 42
- 239000013598 vector Substances 0.000 description 41
- 230000015654 memory Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 32
- 238000013139 quantization Methods 0.000 description 29
- 230000005540 biological transmission Effects 0.000 description 28
- 238000009795 derivation Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 15
- 230000006854 communication Effects 0.000 description 15
- 238000005192 partition Methods 0.000 description 15
- 238000005070 sampling Methods 0.000 description 11
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 9
- 238000000605 extraction Methods 0.000 description 9
- 230000003044 adaptive effect Effects 0.000 description 8
- 238000000638 solvent extraction Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 230000002776 aggregation Effects 0.000 description 6
- 238000004220 aggregation Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000002194 synthesizing effect Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/59—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
在从预先设定的模型参数集中选择适于输入运动图像的模型参数,并进行所应用的分辨率逆转换的情况下,不适于多个模型参数的运动图像可能会变得低质量。本发明具有对编码数据进行解码的图像解码装置,该编码数据是由对进行了分辨率转换的图像和用于推导第一模型参数的滤波信息进行编码而得到的,并具有后处理装置,该后处理装置使用由所述图像解码装置解码的图像和滤波信息,将其转换成与输入图像信号相同的分辨率。此外,本发明具有:合成信息制作装置,制作用于推导第一模型参数的滤波信息;以及图像编码装置,对通过分辨率转换等预处理后的图像和由所述合成信息制作装置制作的滤波信息进行编码。
Description
技术领域
本发明的实施方式涉及运动图像编码装置、解码装置。
背景技术
为了高效地传输或记录运动图像,使用通过对运动图像进行编码来生成编码数据的运动图像编码装置,以及通过对该编码数据进行解码来生成解码图像的运动图像解码装置。
作为具体的运动图像编码方式,例如可以列举出H.264/AVC、H.265/HEVC(High-Efficiency Video Coding:高效运动图像编码)方式等。
在这样的运动图像编码方式中,构成运动图像的图像(图片)通过分级结构来管理,并按每个CU进行编码/解码,所述分级结构包括通过分割图像而得到的切片、通过分割切片而得到的编码树单元(CTU:Coding Tree Unit)、通过分割编码树单元而得到的编码单位(有时也称为编码单元(Coding Unit:CU))以及通过分割编码单位而得到的转换单元(TU:Transform Unit)。
此外,在这样的运动图像编码方式中,通常,基于通过对输入图像进行编码/解码而得到的局部解码图像而生成预测图像,对从输入图像(原图像)中减去该预测图像而得到的预测误差(有时也称为“差分图像”或“残差图像”)进行编码。作为预测图像的生成方法,可列举出画面间预测(帧间预测)和画面内预测(帧内预测)。
此外,作为近年来的运动图像编码和解码的技术,可列举出非专利文献1。
在非专利文献1中,规定有能进行可变的图像分辨率的编码、解码的RPR(Reference Picture Re-sampling:参照图片重采样)技术。而且,非专利文献1的Annex D中规定有用于与编码数据同时传输图像的性质、显示方法、定时等的附加扩展信息SEI。
在非专利文献2中,提出了使用多个模型参数来对运动图像进行超分辨的技术。通过选择、使用适于作为对象的图片的模型参数来提高运动图像的质量。此外,在非专利文献2中使用的模型参数是在使用了神经网络的高分辨率化方法中使用的神经网络的加权。在非专利文献2中,与使用以往的上采样滤波、一个神经网络的处理相比,能输出模糊少,与原始图像接近的图像。
现有技术文献
非专利文献
非专利文献1:ITU-T Recommendation H.266(08/20)2020-08-29
非专利文献2:T.Hori,Z.Gong,H.Watanabe,T.Ikai,T.Chujoh,E.Sasaki,andN.Ito,″CNN-based Super-Resolution Adapted to Quantization Parameters″,International Workshop on Advanced Image Technology,IWAIT 2020,No.42,Jan.2020.
发明内容
发明要解决的问题
然而,在使用非专利文献1中的RPR等来降低输入图像中的至少一部分图像的分辨率,进行编码/解码,并将其恢复成原始的(与输入图像相同的)分辨率的情况下,存在容易产生模糊的问题。
此外,非专利文献2中示出的方法从预先设定的模型参数集中选择并应用适于运动图像的模型参数。因此,在必须要对不适于准备好的多个模型参数的运动图像进行处理的情况下,处理后的运动图像可能成为低质量。在为了应对多种运动图像而准备较多模型参数的情况下,花费大量的时间和劳力。
此外,通过对多个模型参数(第二模型参数)进行适当的加权和汇聚来制作、使用新的模型参数(第一模型参数),能提高运动图像的质量。在推导第一模型参数时,需要从输入运动图像中获取用于推导的信息。因此,运动图像编码装置需要从输入运动图像中获取用于推导第一模型参数的信息,并通知给运动图像解码装置。
技术方案
本发明的一个方案的运动图像解码装置的特征在于,具有:图像解码化装置,对编码数据进行解码,该编码数据是对进行了分辨率转换的图像和用于推导第一模型参数的滤波信息进行编码而得到的;以及后处理装置,将由所述图像解码装置解码后的图像转换成与输入图像相同的分辨率。
此外,所述后处理装置的特征在于,具有第二模型参数,使用第二模型参数和解码后的滤波信息来制作第一模型参数。
有益效果
通过设为这样的构成,能动态地制作适于输入图像的模型参数,能实现适于多种运动图像的画质提高。因此,与使用预先设定的模型参数相比,能传输更高质量的运动图像。
附图说明
图1是表示本实施方式的运动图像传输系统的构成的概略图。
图2是表示搭载有本实施方式的运动图像编码装置的发送装置和搭载有运动图像解码装置的接收装置的构成的图。PROD_A表示搭载有运动图像编码装置的发送装置,PROD_B表示搭载有运动图像解码装置的接收装置。
图3是表示搭载有本实施方式的运动图像编码装置的记录装置和搭载有运动图像解码装置的再现装置的构成的图。PROD_C表示搭载有运动图像编码装置的记录装置,PROD_D表示搭载有运动图像解码装置的再现装置。
图4是表示编码数据的分级结构的图。
图5是在本实施方式的运动图像传输系统中作为处理的对象的图像的概念图。
图6是表示参照图片和参照图片列表的一个示例的概念图。
图7是表示图像解码装置的构成的概略图。
图8是对图像解码装置的概略的动作进行说明的流程图。图9是表示帧间预测参数推导部的构成的概略图。
图10是表示帧间预测图像生成部的构成的概略图。
图11是表示图像编码装置的构成的框图。
图12是表示一实施方式的后处理装置的构成例的图。
图13是表示规定一实施方式的滤波信息的语法表的一个示例的图。
图14是表示一实施方式的第一模型参数的推导处理的图。
图15是表示应用了一实施方式的、对包括在前处理装置中未进行分辨率转换处理的图案的情况下的规定滤波信息的语法表的一个示例的图。
图16是表示应用一实施方式的、在包括在前处理装置中未进行分辨率转换处理的图案的情况下的第一模型参数的推导处理的图。
图17是表示在一实施方式中使用的模型参数的构造的图。
图18是表示在一实施方式中使用的模型参数的构造的图。
具体实施方式
(第一实施方式)
以下,参照附图对本发明的实施方式进行说明。
图1是表示本实施方式的运动图像传输系统的构成的概略图。
运动图像传输系统1是传输对转换了分辨率的不同分辨率的图像进行编码而得到的编码数据,对所传输的编码数据进行解码,将图像逆转换为原来的分辨率并显示的系统。运动图像传输系统1由运动图像编码装置10、网络21、运动图像解码装置30以及图像显示装置41构成。
运动图像编码装置10由前处理装置(预处理部)51、图像编码装置(图像编码部)11以及合成信息制作装置(合成信息制作部)71构成。
运动图像解码装置30由图像解码装置(图像解码部)31以及后处理装置(后处理部)61构成。
前处理装置51根据需要对运动图像中包括的图像T的分辨率进行转换,将包括不同分辨率的图像的可变分辨率运动图像T2提供给图像编码装置11。此外,前处理装置51可以将表示有无图像的分辨率转换的滤波信息提供给图像编码装置11。在该信息表示分辨率转换的情况下,运动图像编码装置10将后述的ref_pic_resampling_enabled_flag设定为1。然后,在编码数据Te的序列参数集SPS(Sequence Parameter Set)中进行编码。
合成信息制作装置71基于运动图像中包括的图像T1来制作滤波信息,发送至图像编码装置11。
在图像编码装置11中输入可变分辨率图像T2。图像编码装置11使用RPR的架构,按PPS单位对输入图像的图像尺寸信息进行编码,并发送至图像解码装置31。
网络21将编码后的滤波信息和编码数据Te传输至图像解码装置31。编码后的滤波信息的一部分或全部可以作为附加扩展信息SEI而包括在编码数据Te中。网络21是互联网(Internet)、广域网(WAN:Wide Area Network)、小型网络(LAN:Local Area Network,局域网)或它们的组合。网络21不一定限定于双向的通信网,也可以是传输地面数字广播、卫星广播等广播波的单向的通信网。此外,网络21也可以用DVD(Digital Versatile Disc:数字通用光盘,注册商标)、BD(Blue-rayDisc:蓝光光盘,注册商标)等记录有编码数据Te的存储介质来代替。
图像解码装置31对网络21所传输的编码数据Te分别进行解码,生成可变分辨率解码图像并提供给后处理装置61。
后处理装置61在滤波信息表示分辨率转换的情况下,基于编码数据中包括的图像尺寸信息,来进行使用超分辨用的模型参数的超分辨处理。然后,通过对分辨率转换后的图像进行逆转换,来生成原始尺寸的解码图像。此外,在滤波信息不表示分辨率转换的情况下,进行使用图像复原用的模型参数的图像复原处理。通过进行图像复原处理,来生成降低了编码噪声的解码图像。
图像显示装置41显示从后处理装置61输入的一个或多个解码图像Td2中的全部或者一部分。图像显示装置41例如具备液晶显示器、有机EL(Electro-luminescence:电致发光)显示器等显示设备。作为显示器的形式,可以列举出固定式、移动式、HMD(Head MountedDisplay:头戴显示器)等。此外,在图像解码装置31具有高处理能力的情况下,显示画质高的图像,在仅具有低处理能力的情况下,显示不需要高处理能力、显示能力的图像。
图5是在图1中示出的运动图像传输系统中作为处理的对象的图像的概念图,是表示随着时间的经过的该图像的分辨率的变化的图。不过,在图5中,不区分是否对图像进行了编码。图5示出了在运动图像传输系统的处理过程中,使分辨率降低而向图像解码装置31传输图像的示例。如图5所示,通常图像前处理装置51进行使图像的分辨率降低的转换以减少所传输的信息的信息量。
<运算符>
以下对在本说明书中使用的运算符进行描述。
>>为向右位移,<<为向左位移,&为逐位AND,|为逐位OR,|=为OR代入运算符,||表示逻辑和。
x?y:z是在x为真(0以外)的情况下取y、在x为假(0)的情况下取z的3项运算符。
Clip3(a,b,c)是将c限幅于a以上b以下的值的函数,是在c<a的情况下返回a、在c>b的情况下返回b、在其他情况下返回c的函数(其中a<=b)。
abs(a)是返回a的绝对值的函数。
Int(a)是返回a的整数值的函数。
floor(a)是返回a以下的最大整数的函数。
ceil(a)是返回a以上的最小整数的函数。
a/d表示a除以d(舍去小数点以下)。
<编码数据Te的构造>
在对本实施方式的图像编码装置11以及图像解码装置31进行详细说明之前,对由图像编码装置11生成,并由图像解码装置31解码的编码数据Te的数据结构进行说明。
图4是表示编码数据Te中的数据的分级结构的图。编码数据Te示例性地包括序列以及构成序列的多个图片。图4中示出了表示既定序列SEQ的编码视频序列、规定图片PICT的编码图片、规定切片S的编码切片、规定切片数据的编码切片数据、编码切片数据中包括的编码树单元以及编码树单元中包括的编码单元的图。
(编码视频序列)
在编码视频序列中,规定有供图像解码装置31参照以便对处理对象的序列SEQ进行解码的数据的集合。如图4所示,序列SEQ包括视频参数集VPS(Video Parameter Set)、序列参数集SPS(Sequence Parameter Set)、图片参数集PPS(Picture Parameter Set)、自适应参数集(Adaptation Parameter Set:APS)、图片PICT以及补充增强信息SEI(Supplemental Enhancement Information)。
在视频参数集VPS中,在由多层构成的运动图像中,规定有多个运动图像通用的编码参数的集合,以及运动图像中包括的多层和与各层关联的编码参数的集合。
在序列参数集SPS中,规定有供图像解码装置31参照以便对对象序列进行解码的编码参数的集合。例如,规定有图片的宽度、高度。需要说明的是,SPS可以存在多个。在该情况下,从PPS中选择多个SPS中的任一个SPS。
在此,序列参数集SPS中包括以下的语法要素。
·ref_pic_resampling_enabled_flag:是规定在对参照对象SPS的单个序列中所包括的各图像进行解码的情况下,是否使用将分辨率设为可变的功能(重采样:resampling)的标志。从另一方面来说,该标志是表示在预测图像的生成中参照的参照图片的尺寸在单个序列所示的各图像间变化的标志。在该标志的值为1的情况下,应用上述重采样,在该标志的值为0的情况下,不应用上述重采样。
·pic_width_max_in_luma_samples:是在单个序列中的图像中以亮度块为单位来指定具有最大的宽度的图像的宽度的语法要素。此外,要求该语法要素的值不为0且为Max(8,MinCbSizeY)的整数倍。在此,MinCbSizeY是根据亮度块的最小尺寸而决定的值。
·pic_height_max_in_luma_samples:是在单个序列中的图像中以亮度块为单位来指定具有最大的高度的图像的高度的语法要素。此外,要求该语法要素的值不为0且为Max(8,MinCbSizeY)的整数倍。
·sps_temporal_mvp_enabled_flag:是规定在解码对象序列的情况下是否使用时间运动矢量预测的标志。如果该标志的值为1,则使用时间运动矢量预测,如果值为0,则不使用时间运动矢量预测。此外,能通过规定该标志来防止在参照不同分辨率的参照图片的情况下等所参照的坐标位置发生偏移。
在图片参数集PPS中,规定有供图像解码装置31参照以便对对象序列内的各图片进行解码的编码参数的集合。例如包括用于图片的解码的量化宽度的基准值(pic_init_qp_minus26)、指示加权预测的应用的标志(weighted_pred_flag)。需要说明的是,PPS可以存在多个。在该情况下,从对象序列内的各图片中选择多个PPS中的任一个。
在此,图片参数集PPS中包括以下的语法要素。
·ppic_width_in_luma_samples:是指定对象图片的宽度的语法要素。要求该语法要素的值不为0,为Max(8,MinCbSizeY)的整数倍,并且为pic_width_max_in_luma_samples以下的值。
·pic_height_in_luma_samples:是指定对象图片的高度的语法要素。要求该语法要素的值不为0,为Max(8,MinCbSizeY)的整数倍,并且为pic_height_max_in_luma_samples以下的值。
·conformance_window_flag:是表示是否连续通知一致性(裁剪)窗口偏移参数的标志。一致性窗口偏移参数表示显示一致性窗口的场所。在该标志为1的情况下,通知该参数,在该标志为0的情况下,表示不存在该参数。
·conf_win_left_offset,conf_win_right_offset,conf_win_top_offset,conf_win_bottom_offset:是用于关于由输出用的图片坐标指定的矩形区域指定通过解码处理输出的图片的左、右、上、下位置的偏移值。此外,在conformance_window_flag的值为0的情况下,估计conf_win_left_offset、conf_win_right_offset、conf_win_top_offset、conf_win_bottom_offset的值为0。
·scaling_window_flag:是表示对象PPS中是否存在缩放窗口偏移参数的标志,是与所输出的图像尺寸的规定有关的标志。在该标志为1的情况下,表示在PPS中存在该参数,在该标志为0的情况下,表示在PPS中不存在该参数。此外,在ref_pic_resampling_enabled_flag的值为0的情况下,要求scaling_window_flag的值也为0。
·scaling_win_left_offset、scaling_win_right_offset、scaling_win_topoffset、scaling_win_bottom_offset:是对于对象图片的左、右、上、下位置,以亮度样本为单位分别指定为了进行缩放比率计算而应用于图像尺寸的偏移的语法要素。此外,在scaling_window_flag的值为0的情况下,推定为scaling_win_left_offset、scaling_win_right_offset、scaling_win_top_offset、scaling_win_bottom_offset的值为0。此外,要求scaling_win_left_offset+scaling_win_right_offset的值小于pic_width_in_luma_samples,以及scaling_win_top_offset+scaling_win_bottom_offset的值小于pic_height_in_luma_samples。
输出用图片的宽度PicOutputWidthL和高度PicOutputHeightL按以下方式进行推导。
PicOutputWidthL=pic_width_inluma_samples-(scaling_win_right_offset+scaling_win_left_offset)
PicOutputHeightL=pic_height_in_pic_size_units-(scaling_win_bottom_offset+scaling_win_top_offset)
(编码图片)
在编码图片中,规定有供图像解码装置31参照以便对处理对象的图片PICT进行解码的数据的集合。如图4所示,图片PICT包括图片报头PH、切片0~切片NS-1(NS为图片PICT中包括的切片的总数)。
以下,在无需对各切片0~切片NS-1进行区分的情况下,有时会省略代码的后缀来进行记述。此外,以下说明的编码数据Te中包括的数据、即标注有后缀的其它数据也是同样的。
图片报头中包括以下的语法要素。
·pic_temporal_mvp_enabled_flag:是规定是否在与该图片报头建立了关联的切片的帧间预测中使用时间运动矢量预测的标志。在该标志的值为0的情况下,与该图片报头建立了关联的切片的语法要素被限制为在该切片的解码中不使用时间运动矢量预测。在该标志的值为1的情况下,表示在与该图片报头建立了关联的切片的解码中使用时间运动矢量预测。此外,在未规定该标志的情况下,推定为值为0。
(编码切片)
在编码切片中,规定有供图像解码装置31参照以便对处理对象的切片S进行解码的数据的集合。如图4所示,切片包括切片报头和切片数据。
切片报头中包括供图像解码装置31参照以便确定对象切片的解码方法的编码参数组。指定切片类型的切片类型指定信息(slice_type)是切片报头中包括的编码参数的一个示例。
作为能由切片类型指定信息指定的切片类型,可列举出:(1)在进行编码时仅使用帧内预测的I切片、(2)在进行编码时使用单向预测(L0预测)或帧内预测的P切片以及(3)在进行编码时使用单向预测(L0预测或L1预测)、双向预测或帧内预测的B切片等。需要说明的是,帧间预测不限于单向预测、双向预测,也可以使用更多的参照图片来生成预测图像。以下,称为P、B切片的情况是指包括能使用帧间预测的块的切片。
需要说明的是,切片报头中也可以包括对图片参数集PPS的参照(pic_parameter_set_id)。
(编码切片数据)
在编码切片数据中,规定有供图像解码装置3I参照以便对处理对象的切片数据进行解码的数据的集合。如图4的编码切片报头所示,切片数据包括CTU。CTU是构成切片的固定尺寸(例如64×64)的块,也称为最大编码单位(LCU:Largest Coding Unit)。
(编码树单元)
在图4中,规定有供图像解码装置31参照以便对处理对象的CTU进行解码的数据的集合。CTU通过递归的四叉树分割(QT(Quad Tree)分割)、二叉树分割(BT(Binary Tree)分割)或三叉树分割(TT(Ternary Tree)分割)分割成作为编码处理的基本单位的编码单元CU。将BT分割和TT分割统称为多叉树分割(MT(Multi Tree)分割)。将通过递归的四叉树分割而得到的树形结构的节点称为编码节点(Coding Node)。四叉树、二叉树以及三叉树的中间节点为编码节点,CTU本身也被规定为最上层的编码节点。
CT包括以下信息作为CT信息:表示是否进行CT分割的CU分割标志(split_cu_flag)、表示是否进行QT分割的QT分割标志(qt_split_cu_flag)、表示MT分割的分割方向的MT分割方向(mtt_split_cu_vertical_flag)、表示MT分割的分割类型的MT分割类型(mtt_split_cu_binary_flag)。split_cu_flag、qt_split_cu_flag、mtt_split_cu_vertical_flag、mtt_split_cu_binary_flag按每个编码节点来传输。
(编码单元)
在图4中,规定有供图像解码装置31参照以便对处理对象的编码单元进行解码的数据的集合。具体而言,CU由CU报头CUH、预测参数、转换参数、量化转换系数等构成。在CU报头中规定有预测模式等。
预测处理存在以CU为单位进行的情况和以进一步分割CU而得到的子CU为单位进行的情况。在CU与子CU的尺寸相等的情况下,CU中的子CU为1个。在CU的尺寸大于子CU的尺寸的情况下,CU被分割成子CU。例如,在CU为8×8、子CU为4×4的情况下,CU被分割成4个子CU,包括水平分割的两部分和垂直分割的两部分。
预测的种类(预测模式)存在帧内预测和帧间预测两种。帧内预测是同一图片内的预测,帧问预测是指在互不相同的图片间(例如显示时刻间、层图像间)进行的预测处理。
转换/量化处理以CU为单位来进行,但量化转换系数也可以以4×4等子块为单位来进行熵编码。
(预测参数)
预测图像由附加于块的预测参数推导出。预测参数中存在帧内预测和帧间预测的预测参数。
以下,对帧间预测的预测参数进行说明。帧间预测参数由预测列表利用标志predFlagL0和predFlagL1、参照图片索引refIdxL0和refidxL1以及运动矢量mvL0和mvL1构成。predFlagL0、predFlagL1是表示是否使用参照图片列表(L0列表、L1列表)的标志,在值为1的情况下,使用对应的参照图片列表。需要说明的是,在本说明书中记为“表示是否为××的标志”的情况下,将标志为0以外(例如1)设为是××的情况,将标志为0设为不是××的情况,在逻辑非、逻辑积等中将1视为真,将0视为假(以下同样)。不过,在实际的装置、方法中也可以使用其他值作为真值、假值。
在用于导出帧间预测参数的语法要素中,存在例如在合并模式中使用的仿射标志affine_flag、合并标志merge_flag、合并索引merge_idx、MMVD标志mmvd_flag、在AMVP模式中使用的用于选择参照图片的帧间预测标识符inter_pred_idc、参照图片索引refIdxLX、用于导出运动矢量的预测矢量索引mvp_LX_idx、差分矢量mvdLX以及运动矢量精度模式amvr_mode。
(参照图片列表)
参照图片列表是由存储于参照图片存储器306的参照图片构成的列表。图6是表示参照图片和参照图片列表的一个示例的概念图。在图6的表示参照图片的一个示例的概念图中,矩形表示图片,箭头表示图片的参照关系,横轴表示时间,矩形中的I、P、B分别表示帧内图片、单预测图片、双预测图片,矩形中的数字表示解码顺序。如图6所示,图片的解码顺序为I0、P1、B2、B3、B4,显示顺序为I0、B3、B2、B4、P1。图6中示出了图片B3(对象图片)的参照图片列表的示例。参照图片列表是表示参照图片的候选的列表,一张图片(切片)可以具有一个以上的参照图片列表。在图6的示例中,对象图片B3具有L0列表RefPicList0和L1列表RefPicList1这两个参照图片列表。在各CU中,由refIdxLX指定实际上以参照图片列表RefPicListX(X=0或1)中的哪一张图片来进行参照。图6是refIdxL0=2、refIdxL1=0的示例。需要说明的是,LX是在不对L0预测和L1预测进行区分的情况下使用的记述方法,以下,通过将LX置换为L0、L1对针对L0列表的参数和针对L1列表的参数进行区分。
(合并预测和AMVP预测)
预测参数的解码(编码)方法中有合并预测(merge)模式和AMVP(Advanced MotionVector Prediction:先进运动矢量预测、自适应运动矢量预测)模式,merge_flag是用于识别它们的标志。合并预测模式是不将预测列表利用标志predFlagLX、参照图片索引refIdxLX、运动矢量mvLX包括于编码数据而根据已处理的附近块的预测参数等推导出的模式。AMVP模式是将inter_pred_idc、refIdxLX、mvLX包括在编码数据中的模式。需要说明的是,mvLX被编码为识别预测矢量mvpLX的mvp_LX_idx和差分矢量mvdLX。此外,除了合并预测模式之外,也可以有仿射预测模式、MMVD预测模式。
inter_pred_idc是表示参照图片的种类和数量的值,取PRED_L0、PRED_L1、PRED_BI中的任一值。PRED_L0、PRED_L1分别表示使用在L0列表、L1列表中进行管理的一张参照图片的单向预测。PRED_BI表示使用在L0列表和L1列表中进行管理的两张参照图片的双向预测。
merge_idx是表示是否将根据处理已完成的块推导出的预测参数候选(合并候选)中的任一个预测参数用作对象块的预测参数的索引。
(运动矢量)
mvLX表示不同的两张图片上的块间的移位量。将与mvLX有关的预测矢量、差分矢量分别称为mvpLX、mvdLX。
(帧间预测标识符inter_pred_idc和预测列表利用标志predFlagLX)
inter_pred_idc与predFlagL0、predFlagL1的关系能如下进行相互转换。
inter_pred_idc=(predFlagL1<<1)+predFlagL0
predFlagL0=inter_pred_idc&1
predFlagL1=inter_pred_idc>>1
(图像解码装置的构成)
对本实施方式的图像解码装置31(图7)的构成进行说明。,
图像解码装置31构成为包括:熵解码部301、参数解码部(预测图像解码装置)302、环路滤波器305、参照图片存储器306、预测参数存储器307、预测图像生成部(预测图像生成装置)308、逆量化/逆转换部311以及加法部312、预测参数推导部320。需要说明的是,根据后述的图像编码装置11,也存在图像解码装置31中不包括环路滤波器305的构成。
参数解码部302还具备报头解码部3020、CT信息解码部3021以及CU解码部3022(预测模式解码部),CU解码部3022还具备TU解码部3024。也可以将它们统称为解码模块。报头解码部3020从编码数据解码VPS、SPS、PPS、APS等参数集信息、切片报头(切片信息)。CT信息解码部3021从编码数据解码CT。CU解码部3022从编码数据解码CU。TU解码部3024在TU中包括预测误差的情况下,从编码数据解码QP(Quantization Parameter:量化参数)更新信息(量化校正值)和量化预测误差(residual_coding)。
TU解码部3024在跳跃模式以外(skip_mode==0)的情况下,从编码数据解码QP更新信息和量化预测误差。更具体而言,TU解码部3024在skip_mode==0的情况下,对表示在对象块中是否包括量化预测误差的标志cu_cbp进行解码,在cu_cbp为1的情况下对量化预测误差进行解码。在cu_cbp不存在于编码数据的情况下导出为0。
预测图像生成部308构成为包括帧间预测图像生成部309和帧内预测图像生成部310。
预测参数推导部320构成为包括帧间预测参数推导部303和帧内预测参数推导部304。
此外,在下文中对将CTU、CU用作处理单位的示例进行了记载,但不限于该示例,也可以以子CU为单位进行处理。或者,也可以将CTU、CU替换为块,将子CU替换为子块,进行以块或者子块为单位的处理。
熵解码部301对从外部输入的编码数据Te进行熵解码,并对各个代码(语法要素)进行解码。
熵解码部301将解码后的代码输出至参数解码部302。解码后的代码例如是指预测模式predMode、merge_flag、merge_idx、inter_pred_idc、refIdxLX、mvp_LX_idx、mvdLX、amvr_mode等。基于参数解码部302的指示来进行对哪一个代码进行解码的控制。
(基本流程)
图8是对图像解码装置31的概略动作进行说明的流程图。
(S1100:参数集信息解码)报头解码部3020从编码数据解码VPS、SPS、PPS等参数集信息。
(S1200:切片信息解码)报头解码部3020从编码数据解码切片报头(切片信息)。
以下,图像解码装置31通过针对对象图片中包括的各CTU反复进行S1300至S5000的处理来导出各CTU的解码图像。
(S1300:CTU信息解码)CT信息解码部3021从编码数据解码CTU。
(S1400:CT信息解码)CT信息解码部3021从编码数据解码CT。
(S1500:CU解码)CU解码部3022实施S1510、S1520,从编码数据解码CU。
(S1510:CU信息解码)CU解码部3022从编码数据解码CU信息、预测信息、TU分割标志split_transform_flag、CU残差标志cbf_cb、cbf_cr、cbf_luma等。
(S1520:TU信息解码)TU解码部3024在TU中包括预测误差的情况下,从编码数据解码QP更新信息、量化预测误差以及转换索引mts_idx。需要说明的是,QP更新信息是与作为量化参数QP的预测值的量化参数预测值qPpred的差分值。
(S2000:预测图像生成)预测图像生成部308针对对象CU中包括的各块,基于预测信息生成预测图像。
(S3000:逆量化/逆转换)逆量化/逆转换部311针对对象CU中包括的各TU,执行逆量化/逆转换处理。
(S4000:解码图像生成)加法部312通过将由预测图像生成部308提供的预测图像与由逆量化/逆转换部311提供的预测误差相加来生成对象CU的解码图像。
(S5000:环路滤波)环路滤波器305对解码图像施加去块滤波、SAO(SampleAdaptive Offset:取样自适应偏移)、ALF(Adaptive Loop Filter:自适应环路滤波)等环路滤波,生成解码图像。
(帧间预测参数推导部的构成)
图9中示出了表示本实施方式的帧间预测参数推导部303的构成的概略图。帧间预测参数推导部303基于从参数解码部302输入的语法要素,参照存储于预测参数存储器307的预测参数来推导出帧间预测参数。此外,将帧间预测参数输出至帧间预测图像生成部309、预测参数存储器307。帧间预测参数推导部303和作为其内部要素的AMVP预测参数推导部3032、合并预测参数推导部3036、仿射预测部30372、MMVD预测部30373、GPM部30377、DMVR部30537、MV(Motion Vector:运动矢量)加法部3038是在运动图像编码装置、运动图像解码装置中通用的单元,因此也可以将它们统称为运动矢量推导部(运动矢量推导装置)。
尺度参数推导部30378推导出参照图片的水平方向的缩放比RefPicScale[i][j][0]、参照图片的垂直方向的缩放比RefPicScale[i][j][1]以及表示是否对参照图片进行了缩放的RefPicIsScaled[i][j]。在此,i表示参照图片列表是L0列表还是L1列表,将j设为L0参照图片列表或L1参照图片列表的值,如下所示地进行推导。
RefPicScale[i][j][0]=((fRefWidth<<14)+(PicOutputWidthL>>1))/PicOutputWidthL
RefPicScale[i][j][1]=((fRefHeight<<14)+(PicOutputHeightL>>1))/PicOutputHeightL
RefPicIsScated[i][j]=(RefPicScale[i][j][0]!=(1<<14))||(RefPicScale[i][j][1]!=(1<<14))
在此,变量PicOutputWidthL是在参照编码图片时计算水平方向的缩放比时的值,使用从编码图片的亮度的水平方向的像素数中减去左右的偏移值而得到的值。变量PicOutputHeightL是在参照编码图片时计算垂直方向的缩放比时的值,使用从编码图片的亮度的垂直方向的像素数中减去上下的偏移值而得到的值。变量fRefWidth设为列表i的参照列表值j的参照图片的PicOutputWidthL的值,变量fRefHight设为列表i的参照图片列表值j的参照图片的PicOutputHeightL的值。
在affine_flag为1,即表示仿射预测模式的情况下,仿射预测部30372推导出以子块为单位的帧间预测参数。
在mmvd_flag为1,即表示MMVD预测模式的情况下,MMVD预测部30373根据由合并预测参数推导部3036推导出的合并候选和差分矢量推导出帧间预测参数。
在gpm_flag为1,即表示Geometric Partitioning Mode的情况下,GPM部30377推导出GPM参数。
在merge_flag为1,即表示合并预测模式的情况下,推导出merge_idx,输出至合并预测参数推导部3036。
在merge_flag为0,即表示AMVP预测模式的情况下,AMVP预测参数推导部3032根据inter_pred_idc、refIdxLX或mvp_LX_idx推导出mvpLX。
(MV加法部)
在MV加法部3038中将推导出的mvpLX与mvdLX相加,推导出mvLX。
(仿射预测部)
在仿射预测部30372中,1)推导出对象块的两个控制点CP0、CP1或三个控制点CP0、CP1、CP2的运动矢量,2)推导出对象块的仿射预测参数,3)根据仿射预测参数推导出各子块的运动矢量。
(合并预测)
合并预测参数推导部3036使用对象块的空间附近块或时间附近块的预测参数(mvLX,refIdxLX等)来推导出对象块的预测参数。
(DMVR)
接着,DMVR部30375进行DMVR(Decoder side Motion Vector Refinement:解码器侧运动矢量修正)处理。针对对象CU,DMVR部30375在merge_flag为1或跳过标志skip_flag为1的情况下,修正该对象CU的运动矢量mvLX。具体而言,在合并预测部30374所推导出的预测参数为双预测的情况下,使用根据两个参照图片和运动矢量推导出的预测图像来修正mvLX。修正后的mvLX被提供给帧间预测图像生成部309。
(AMVP预测)
AMVP预测参数推导部3032选择预测矢量候选中的mvp_LX_idx所示的运动矢量mvpListLX[mvp_LX_idx]作为mvpLX,并输出至MV加法部3038。
(MV加法部)
MV加法部3038将从AMVP预测参数推导部3032输入的mvpLX和已解码的mvdLX相加,计算出mvLX。加法部3038将计算出的mvLX输出至帧间预测图像生成部309和预测参数存储器307。
mvLX[0]=mvpLX[0]+mvdLX[0]
mvLX[1]=mvpLX[1]+mvdLX[1]
环路滤波器305是设于编码环路内的滤波器,是去除块失真、振铃失真来改善画质的滤波器。环路滤波器305对加法部312所生成的CU的解码图像实施去块滤波、取样自适应偏移(SAO)、自适应环路滤波(ALF)等滤波。
环路滤波器305可以包括后述的后处理装置61。就是说,后述的后处理装置61根据由编码数据传输的滤波信息,使用第一模型参数而通过神经网络推导出输出图像。第一模型参数是通过模型汇聚处理而推导出的。
参照图片存储器306将CU的解码图像按每个对象图片和对象CU存储于预定的位置。
预测参数存储器307将预测参数按每个CTU或者CU存储于预定的位置。具体而言,预测参数存储器307存储由参数解码部302解码后的参数和由预测参数推导部320导出后的参数等。
预测图像生成部308被输入由预测参数推导部320导出的参数。此外,预测图像生成部308从参照图片存储器306中读出参照图片。预测图像生成部308在predMode所指示的预测模式下,使用参数和参照图片(参照图片块)来生成块或子块的预测图像。在此,参照图片块是指参照图片上的像素的集合(通常为矩形,因此称为块),是为了生成预测图像而参照的区域。
(帧间预测图像生成部309)
在predMode指示帧间预测模式的情况下,帧间预测图像生成部309使用从帧间预测参数推导部303输入的帧间预测参数和参照图片,通过帧间预测来生成块或子块的预测图像。
图10是表示本实施方式的预测图像生成部308中所包括的帧间预测图像生成部309的构成的概略图。帧间预测图像生成部309构成为包括运动补偿部(预测图像生成装置)3091和合成部3095。合成部3095构成为包括帧内帧间(IntraInter)合成部30951、GPM合成部30952、BDOF(Bi-Directional Optical Flow:双向光流)部30954以及加权预测部3094。
(运动补偿)
运动补偿部3091(内插图像生成部3091)通过基于从帧间预测参数推导部303输入的帧间预测参数(predFlagLX、refIdxLX、mvLX),从参照图片存储器306读出参照块来生成内插图像(运动补偿图像)。参照块是在由refIdxLX指定的参照图片RefPicLX上从对象块的位置移位了mvLX的位置的块。在此,在mvLX并非整数精度的情况下,实施称为运动补偿滤波的用于生成小数位置的像素的滤波,生成内插图像。
需要说明的是,运动补偿部3091具有根据由尺度参数推导部30378推导出的参照图片的水平方向的缩放比RefPicScale[i][j][0]和参照图片的垂直方向的缩放比RefPicScale[i][j][1]对插补图像进行缩放的功能。
合成部3095具备:帧内帧间合成部30951、GPM合成部30952、加权预测部3094以及BDOF部30954。
(帧内帧间合成处理)
帧内帧间合成部30951通过帧间预测图像与帧内预测图像的加权和来生成预测图像。
(GPM合成处理)
GPM合成部30952生成使用了上述的GPM的预测图像。
(BDOF预测)
BDOF部30954在双向预测模式下参照两个预测图像(第一预测图像和第二预测图像)和梯度校正项生成预测图像。
(加权预测)
加权预测部3094根据插补图像PredLX进行加权预测,生成块的预测图像pbSamples。
帧内预测图像生成部310在predMode表示帧内预测模式的情况下,使用从帧内预测参数推导部304输入的帧内预测参数和从参照图片存储器306读出的参照像素来进行帧内预测。
逆量化/逆转换部311将从参数解码部302输入的量化转换系数逆量化,来求出转换系数。
加法部312按每个像素将从预测图像生成部308输入的块的预测图像和从逆量化/逆转换部311输入的预测误差相加,生成块的解码图像。加法部312将块的解码图像存储于参照图片存储器306,再输出至环路滤波器305。
逆量化/逆转换部311将从参数解码部302输入的量化转换系数逆量化,来求出转换系数。
加法部312按每个像素将从预测图像生成部308输入的块的预测图像和从逆量化/逆转换部311输入的预测误差相加,生成块的解码图像。加法部312将块的解码图像存储于参照图片存储器306,再输出至环路滤波器305。
(图像编码装置的构成)
接着,对本实施方式的图像编码装置11的构成进行说明。图11是表示本实施方式的图像编码装置11的构成的框图。图像编码装置11构成为包括:预测图像生成部101、减法部102、转换/量化部103、逆量化/逆转换部105、加法部106、环路滤波器107、预测参数存储器(预测参数存储部、帧存储器)108、参照图片存储器(参照图像存储部、帧存储器)109、编码参数确定部110、参数编码部111、预测参数推导部120以及熵编码部104。
预测图像生成部101按每个CU生成预测图像。预测图像生成部101包括已经说明的帧间预测图像生成部309和帧内预测图像生成部310,并省略其说明。
减法部102从图像T的像素值中减去从预测图像生成部101输入的块的预测图像的像素值,生成预测误差。减法部102将预测误差输出至转换/量化部103。
转换/量化部103对从减法部102输入的预测误差,通过频率转换计算出转换系数,并通过量化推导出量化转换系数。转换/量化部103将量化转换系数输出至参数编码部111和逆量化/逆转换部105。
逆量化/逆转换部105与图像解码装置31中的逆量化/逆转换部311(图7)相同,省略其说明。计算出的预测误差输出至加法部106。
参数编码部111具备报头编码部1110、CT信息编码部1111、CU编码部1112(预测模式编码部)。CU编码部1112还具备TU编码部1114。以下,对各模块的概略动作进行说明。
报头编码部1110进行滤波信息、报头信息、分割信息、预测信息、量化转换系数等参数的编码处理。
CT信息编码部1111对QT、MT(BT、TT)分割信息等进行编码。
CU编码部1112对CU信息、预测信息、分割信息等进行编码。
TU编码部1114在TU中包括预测误差的情况下,对QP更新信息和量化预测误差进行编码。
CT信息编码部1111、CU编码部1112将帧间预测参数(predMode、merge_flag、merge_idx、inter_pred_idc、refIdxLX、mvp_LX_idx、mvdLX)、帧内预测参数(intra_luma_mpm_flag、intra_luma_mpm_idx、intra_luma_mpm_reminder、intra_chroma_pred_mode)、量化转换系数等语法要素供给至参数编码部111。
熵编码部104被从参数编码部111输入量化转换系数和编码参数(分割信息、预测参数)。熵编码部104对它们进行熵编码,生成并输出编码数据Te。
预测参数推导部120是包括帧间预测参数编码部112、帧内预测参数编码部113的单元,根据从编码参数确定部110输入的参数来导出帧间预测参数和帧内预测参数。导出的帧间预测参数和帧内预测参数输出至参数编码部111。
(帧间预测参数编码部的构成)
帧间预测参数编码部112构成为包括参数编码控制部1121、帧间预测参数推导部303。帧间预测参数推导部303是与图像解码装置共同的构成。参数编码控制部1121包括合并索引推导部11211和矢量候选索引推导部11212。
合并索引推导部11211推导出合并候选等,输出至帧间预测参数推导部303。矢量候选索引推导部11212推导出预测矢量候选等,输出至帧间预测参数推导部303和参数编码部111。
(帧内预测参数编码部113的构成)
帧内预测参数编码部113具备参数编码控制部1131和帧内预测参数推导部304。帧内预测参数推导部304是与图像解码装置共同的构成。
参数编码控制部1131推导出IntraPredModeY和IntraPredModeC。进而,参照mpmCandList[]来确定intra_luma_mpm_flag。将这些预测参数输出至帧内预测参数推导部304和参数编码部111。
不过,与图像解码装置不同,对帧间预测参数推导部303、帧内预测参数推导部304进行输入的是编码参数确定部110、预测参数存储器108,并输出至参数编码部111。
加法部106将从预测图像生成部101输入的预测块的像素值和从逆量化/逆转换部105输入的预测误差按每个像素相加来生成解码图像。加法部106将生成的解码图像存储于参照图片存储器109。
环路滤波器107对加法部106所生成的解码图像,实施去块滤波器、SAO、ALF。需要说明的是,环路滤波器107不一定包括上述三种滤波器,例如也可以是仅包括去块滤波器的构成。
预测参数存储器108将编码参数确定部110所生成的预测参数按每个对象图片和CU存储于预定的位置。
参照图片存储器109将环路滤波器107所生成的解码图像按每个对象图片和CU存储于预定的位置。
编码参数确定部110选择编码参数的多个集合中的一个集合。编码参数是指上述的QT、BT或TT分割信息、预测参数或与它们关联生成的作为编码对象的参数。预测图像生成部101使用这些编码参数来生成预测图像。
编码参数确定部110对多个集合的每一个集合计算出表示信息量的尺寸和编码误差的RD成本值。RD成本值例如是代码量与平方误差乘以系数λ而得到的值之和。代码量是对量化误差和编码参数进行熵编码而得到的编码数据Te的信息量。平方误差是在减法部102中计算出的预测误差的平方和。系数λ是大于预先设定的零的实数。编码参数确定部110选择计算出的成本值为最小的编码参数的集合。编码参数确定部110将所确定的编码参数输出至参数编码部111和预测参数推导部120。
需要说明的是,可以通过计算机实现上述的实施方式中的图像编码装置11、图像解码装置31的一部分、例如,熵解码部301、参数解码部302、环路滤波器305、预测图像生成部308、逆量化/逆转换部311、加法部312、预测参数推导部320、预测图像生成部101、减法部102、转换/量化部103、熵编码部104、逆量化/逆转换部105、环路滤波器107、编码参数确定部110、参数编码部111以及预测参数推导部120。在该情况下,可以通过将用于实现该控制功能的程序记录于计算机可读记录介质,使计算机系统读入记录于该记录介质的程序并执行来实现。需要说明的是,在此提到的“计算机系统”是指内置于图像编码装置11、图像解码装置31中的任一者的计算机系统,采用包括OS、外围设备等硬件的计算机系统。此外,“计算机可读记录介质”是指软盘、磁光盘、ROM、CD-ROM等可移动介质、内置于计算机系统的硬盘等存储装置。而且,“计算机可读记录介质”也可以包括:像经由互联网等网络或电话线路等通信线路来发送程序的情况下的通信线那样短时间内、动态地保存程序的记录介质;以及像作为该情况下的服务器、客户端的计算机系统内部的易失性存储器那样保存程序固定时间的记录介质。此外,上述程序可以是用于实现上述功能的一部分的程序,也可以是能通过与已记录在计算机系统中的程序进行组合来实现上述功能的程序。
此外,也可以将上述的实施方式中的图像编码装置11、图像解码装置31中的一部分或全部作为LSI(Large Scale Integration:大规模集成电路)等集成电路而实现。图像编码装置11、图像解码装置31的各功能块可以单独地处理器化,也可以将一部分或全部集成来处理器化。此外,集成电路化的方法并不限于LSI,也可以通过专用电路或通用处理器来实现。此外,在随着半导体技术的进步而出现代替LSI的集成电路化的技术的情况下,也可以使用基于该技术的集成电路。
以上,参照附图对该发明的一个实施方式详细地进行了说明,但具体构成并不限于上述实施方式,在不脱离该发明的主旨的范围内,可以进行各种设计变更等。
(模型汇聚)
作为本实施方式的一个示例,对使用后处理装置61所具备的基础模型神经网络的参数BaseModel[i](第二模型参数)来推导新的神经网络的参数WeightedModel[i](第一模型参数)的示例进行说明(参照图12)。在本说明书中,将推导第一模型参数的处理称为“模型汇聚”。
第一模型参数使用第二模型参数的线形结合(加权平均)来推导。
在本实施方式中,将模型汇聚中的作为加权平均的加权的加权系数weight_coeff[i]等作为编码数据而从运动图像编码装置10传输至运动图像解码装置30。滤波信息的编码数据可以通过SPS、PPS、APS、图片报头、切片报头传输,也可以通过SEI传输。SPS、PPS以及图片报头、切片报头分别是序列等级、图片等级、切片等级的参数的集合。APS是集合了能应用于多个图片的数据的参数集。SEI是用于显示、后处理的参数的集合。
需要说明的是,在本说明书中,不对加权系数和偏置、其他神经网络的参数进行区别而简称为模型参数。用NumberOfParameters表示模型参数的参数个数。
(语法的示例)
图13是表示本实施方式中的后处理或用于环路滤波处理的编码数据(滤波信息)的语法的一个示例的图。
在规定滤波信息的编码数据中可以包括以下的语法要素。
.number_of_models:表示后处理装置61中所具备的BaseModel[i]的个数。其为1以上的正整数。例如,在模型为8个的情况下,number_of_models的值是8。可以用number_of_models_minus1代替number_of_models来对模型的个数-1进行编码。
·log2_weight_denom_minus1:是表示加权系数的精度的整数。加权系数weight_coeff[i]是以1/(1<<log2_weight_denom_minus_1+1)为单位的固定小数点的个数。
·weight_flag[i]:是表示加权系数是否为0以外的标志(i=0..number_of_models-1)。各要素由1或0的1比特来表达,在weight_flag[i]为0的情况下,将0代入weight_coeff[i]。weight_flag[i]中必须存在至少一个以上具有1这个值的要素。
.weight_coeff[i]:是用于推导第一模型参数的加权系数(i=0..number_of_models-1)。各要素是整数。在此,se(v)表示使用用于对加权系数中包括负的值进行编码的二值化作为编码数据。
·offset_coeff:表示用于推导第一模型参数的线形和的常数项(偏置)。其为整数值。
上述报头解码部对表示是否为非零的标志进行解码。在上述标志表示非零的情况下,进一步对加权系数的大小进行解码,由此对上述加权系数进行解码,在上述标志表示零的情况下将加权系数推导为0。由此,能对以很少的代码量编码的加权系数进行解码。
上述报头解码部可以对可以取负值的上述加权系数进行解码。由此,起到能提高由后续的模型汇聚部推导的第一模型参数的推导自由度的效果。
(模型汇聚部612)
图14示出了推导在图12中使用所述语法的第-模型参数WeightedModel的方法的一个示例。模型汇聚部612根据针对对编码数据进行解码而得到的模型j的weight_coeff[j]和作为模型汇聚部612所预先具备的模型j的模型参数的BaseModel[j]来推导WeightedModel。
WeightedModel[i]=(∑(weight_coeff[j]*BaseModel[j][i])+offset_coeff+(1<<log2_weight_denom_minus1))>>(log2_weight_denom_minus1+1) (式Weight-1)
∑是针对j=0..number_of_models-1的总和。在此,i=0..NumberOfParameters-1。NumberOfParameters表示模型参数的参数个数。推导出的WeightedModel[i]被输出至后处理部611。
需要说明的是,偏移offset_coeff的加法也可以不像下式那样。
WeightedModel[i]=(∑(weight_coeff[j]*BaseModel[j][i])+(1<<log2_weight_denom_minus1))>>(log2_weight_denom_minus1+1)(式Weight-2)
需要说明的是,模型汇聚部612可以按照weight_flag[i]不为0的情况的个数来切换处理。就是说,在作为weight_flag[i]==1的模型仅有编号j==i这一个的情况下,可以直接使用特定的BaseModel的模型参数。
numBaseModel=∑weight_flag[i]
∑是i=0..number_of_models-1的总和。
模型汇聚部612在第一模型参数的推导中,在weight_coeff[j]中存在两个以上具有0以外的值的要素的情况下,推导第二模型参数的加权和。而且,也可以在加权和中加上offset_coeff,使用log2_weight_denom_minus1的值来进行除法(或者移位运算)。如此一来,推导出汇聚了第二模型参数的第一模型参数。另一方面,在weight_coeff[i]中仅存在一个具有0以外的值的要素,而其他要素为0的情况下,将特定的第二模型参数用作第一模型参数。由此,与使用至少一个模型参数的情况相比,能生成高质量的图像。
图15是对图13的语法进行了扩展的另一个示例。在图15中追加的语法中包括以下。
.scale_factor:是表示图像的放大率的正整数。scale_factor例如可以是放大率1、2、4、8。,或者,代替scale_factor,也可以传输以2为底的对数表达的log2_scale_factor。scale_factor==1<<log2_scale_factor。此外,作为有理数,为了能按1/NK单位进行放大缩小,也可以传输scale_factor_divNK。在此,scale_factor=scale_factor_divNK/NK。NK可以是2的指数幂。scale_factor=scale_factor_divNK<<log2(NK)。NK例如是2、4、8、16等。
.num_of_const_param:表示模型参数中未乘以加权系数的参数个数。
需要说明的是,编码数据中可以包括scale_factor和num_of_const_param这两方,也可以仅包括任一方。在不包括在编码数据中的情况下,可以对scale_factor和num_of_const_param设定固定值,或者可以在运动图像解码装置侧适当地设定值。
模型汇聚部612可以通过以下的计算来推导第一模型参数。
WeightedModel[i]=(∑(weight_coeff[j]*BaseModel[scale_factor][j][i])+offset_coeff+(1<<log2_weight_denom_minus1))>>(log2_weight_denom_minus1+1)(式Weight-3)
在该示例中,模型汇聚部612中包括的BaseModel可以具有按图像的放大率而不同的模型参数。就是说,使用scale_factor,选择scale_factor用的BaseModel[scale_factor],由此针对分辨率不同的图像,也能推导合适的模型参数。BaseModel[scale_factor][0]中储存有默认的模型参数。
总结,报头解码部3020还可以对表示神经网络的输入图像尺寸与输出图像尺寸之间的尺度的scale_factor进行解码,模型汇聚部612可以使用根据尺度而不同的第二模型参数来推导第一模型参数。此外,后处理部611在上述比例因子表示等倍以外的情况下,可以通过包括一部分变更图像的尺寸的神经网络处理(例如上采样(Upsampling)层)的神经网络来进行后处理。
此外,不管scale_factor如何,都可以使用已经说明的(式Weight-1)或(式Weight-2)来推导第一模型参数。在该情况下,第一模型参数的推导方法不使用放大率,而无需按放大率来准备第二模型参数。因此,能减少存储第二模型参数的存储器量。需要说明的是,可以使用第一模型参数,通过后续的后处理部611的上采样部来进行与scale_factor相符的分辨率转换。
模型汇聚部612通过BaseModel的加权推导第一模型参数的一部分参数,除此以外的参数不进行加权而可以使用特定的BaseModel的参数BaseModel[scale_factor][0]。图16示出了第一模型参数所具备的NumberOfParameters个参数中的一部分(num_of_const_param)参数直接使用基础模型的参数,除此以外(NumberOfParameters-num_of_const_param)的参数通过加权来推导的示例。就是说,在模型汇聚部612中,num_of_const_param个参数不通过加权而推导第一模型参数,NumberOfParameters-num_of_const_param个参数通过加权推导第一模型参数。
在此,进行加权的i=0..NumberOfParameters-num_of_const_param-1的参数的推导方法可以使用上述的(式Weight-1)、(式Weight-2)以及(式Weight-3)中的任一个。报头解码部3020可以对表示第一模型参数中不进行加权而推导的参数的个数的信息(例如num_of_const_param)进行解码。
除了BaseModel的前半部分(i=0..NumberOfParameters-num_of_const_param-1)进行加权而后半部分(i=NumberOfParameters-num_of_const_param..NumberOfParameters-1)不进行加权的构成以外,还存在前半部分不进行加权而后半部分进行加权或仅中间部分进行加权的构成。
此外,在不进行加权的情况下,除了模型汇聚部612将BaseModel[i]代入WeightedModel[i],后处理部611使用WeightedModel[i]进行后处理的构成以外,也可以是模型汇聚部612仅推导进行加权的部分的神经网络的模型参数的构成。在该构成中,后处理部611的进行加权的部分可以使用推导出的神经网络的模型参数进行后处理,不进行加权的部分可以直接使用BaseModel[i]的模型参数来进行后处理部。
模型汇聚部612可以通过以下的伪代码来进行加权。
在此,示出了前半部分不进行加权而后半部分进行加权的构成。此外,也可以是不按放大率准备BaseModel的构成。以下示出了在该情况下的模型汇聚部612的动作的一个示例。BaseModel[0]中储存有默认的模型参数。
此外,虽未图示,但相当于后述的后处理部611的上采样部的部分可以采用不进行加权的构成。
通过使用所述语法,能按放大率推导模型参数,来进行适当的图像复原处理。此外,在如图17那样的使用组合了前半的等倍的神经网络处理(1700)和后半的上采样的神经网络(1701)的构成中,能通过适当的模型参数来对各种放大率进行图像复原处理。例如,在前半部分1700的等倍部分中使用通过模型汇聚推导出的模型参数,在后半的采样中使用利用放大率而推导出的模型参数。由此,模型汇聚部612能对各种放大率推导适当的模型参数,而不按放大率保存第二参数BaseModel。
此外,通过仅对模型参数中的特定的参数进行加权,容易进行模型的汇聚图案的处理。在使用固定的参数的部分中,处理所需的BaseModel为1个,因此能减少生成汇聚模型所需的BaseModel的模型参数个数。
例如,在scale_factor为1的情况下,输入/输出的图像尺寸相同。在除此以外的情况下,处理成(信道数)*(宽度*scale_factor)*(高度*scale_factor)的尺寸。此外,在通知num_of_const_param的情况下,在(式Weight-1)中,仅对BaseModel[i]的特定的模型参数乘以weight_coeff[i]。在图16的示例中,num_of_const_param的值越小,表示通过加权进行模型汇聚的参数的个数越多,自由度越大。相反,num_of_const_param的值越大,在进行模型汇聚时通过加权推导出的参数的量越少。因此,自由度变小,而加权所需的基础模型的模型参数的个数也可以减少。
通过进行上述的处理,能生成多种输出图像,提高第一模型参数的表达能力,还能简化安装。
(后处理部611)
后处理部611通过使用由模型汇聚部612推导出的第一模型参数WeightedModel的神经网络来进行滤波处理。在此,滤波处理可以是施加于参照图像的环路滤波,也可以是施加于输出图像的后滤波。
在环路滤波的构成中,后处理部611作为环路滤波器305的一个处理进行,输入的是局部解码图像,输出被用作参照图像。
在后滤波的构成中,在后处理部611中输入解码图像Td1和WeightedModel,输出Td2被输出至外部(例如图像显示装置41)。
后处理部611的滤波可以是输入图像的尺寸(宽度、高度)与输出图像的尺寸(宽度、高度)相等、即不包括分辨率转换的处理。或者,也可以是变更宽度、高度的处理、即进行分辨率转换的处理。
神经网络是输入(信道:C)*(宽度:W)*(高度:H)的图像(张量),输出(信道数:C)*(宽度:W*scale_factor)*(高度:H*scale_factor)的图像(张量)的处理。在此,scale_factor表示放大率,若为1,则等倍,若为1以外,则进行分辨率转换。在环路滤波的构成中,一般使用的是scale_factor=1,但并不限于此。如图15所示,scale_factor可以作为编码数据的1个语法要素来传输。
信道C可以是由亮度成分和色差成分这两个或RGB构成的3个信道,也可以是由亮度成分、色差成分或RGB中的任一个构成的一个信道。此外,可以是两个色差成分。此外,在4:2:0等亮度与色差的尺寸不同的情况下,可以排列一个亮度成分、4个Cb、4个Cr。
本说明书的神经网络由对输入矢量和作为神经网络的参数的要素的加权进行积和并对偏置进行加法的层(卷积层、Conv)以及对推导出的值进行非线形处理的层(激活层、Act)构成。激活层可以使用Relu、leakyRelu、PRelu、ELU等。Relu是返回max(x,0)的处理。leakyRelu是在Relu为x<0的情况下施加a*x的梯度的处理。PRelu、ELU是不将leakyRelu的梯度参数设为固定值而将其用作可更新的参数的处理。并不限于上述的构成ConvolutionNeuralNetoworl(CNN:卷积神经网络),也可以具有汇聚层(Pooling layer)、被称为FullConnection(FNN:全连接)的层、压缩和激励网络(Squeeze-and-ExcitationNetworks)、自注意力(SelfAttention)、注意力(attention)。此外,作为分辨率转换(后续的上采样),也可以具有双线性(bilinear)、双三次(bicubic)、分块兰索斯法(lanczos)的线形处理、空间深度(depth2space)、像素转换(PixelShuffle)、被称为去卷积(Deconvolution)(transposed convolution:转置卷积)的处理。汇聚层是按规定的单位进行值的平均化或最大化的层。FNN是不管位置如何都结合所有输入的层。压缩和激励网络、自注意力、转换器(transformer)是在信道间进行加权的注意力。此外,也可以施加辛克函数(sinc)、加权平均(hamming)、汉宁窗函数(hanning)、DCT、DST、FFT、DWT(Wavelet)、高通滤波、低通滤波、滤波组等线形处理。此外,可以包括被称为残量网络(ResidualNetwork:ResNet)的跳过连接,也可以包括将多个输入堆叠于信道的处理。此外,可以存在不对多个输入堆叠值而是进行加法的处理(要素和),也可以是进行作为多个输入的积的要素积的处理。
图18示出了本实施方式的神经网络的一个示例。图18用于不对分辨率进行转换的处理。
图17示出了本实施方式的神经网络的一个示例。图17用于对分辨率进行转换的处理。在此,由进行等倍下的处理的神经网络(特征提取构造)1700和进行分辨率转换的神经网络1701构成。特征提取构造1700具备多个特征提取层1702和残余块(Residual Block)1703。特征提取层由上述的卷积层和激活层构成。残余块由特征提取层、卷积层以及激活层构成。进行分辨率转换的神经网络1701由卷积层、上采样部1704以及特征提取层1705构成。此外,本网络导入作为用于提高神经网络的性能的结构的残差结构(残余块)。残差结构是学习由神经网络得到的不同特征矢量的差分的构造。在图17的超分辨神经网络的示例中,残差结构由残余块、特征提取构造1700使用。上采样滤波器1704将从特征提取构造1700输出的特征矢量的宽度、高度转换成输出的宽度、高度。上采样滤波器可以是双线性、双三次、像素转换、去卷积等。需要说明的是,上采样滤波器可以根据scale_factor变更放大率。例如,在使用像素转换的情况下,将信道增至scale_factor*scale_factor倍后,进行使信道为1/(scale_factor*scale_factor)并使纵横为scale_factor倍的处理。
在使用TransposedConvolution的情况下,能通过
TransposedConvolution(kernel=scale_factor,stride=scale_factor)
放大至scale_factor倍。
此外,特征提取层1705根据放大后的特征矢量生成成为与输入图像相同的信道、宽度、高度那样的输出图像。
BaseModel[i]和WeightedModel是进行上述的后滤波处理、环路滤波处理的神经网络的模型参数,BaseModel[i]与WeightedModel的构造相同。BaseModel[i]是预先设定的模型参数,WeightedModel是对BaseModel[i]加权的模型参数。
如上所述,根据本发明的语法推导第一模型参数,并选择分辨率逆转换。由此,与选择模型参数集中的任一个模型参数相比,能生成高质量的运动图像。
(用于分辨率逆转换的滤波信息通知)
本实施方式的后处理装置61能在以分辨率转换为首的预处理、后处理中使用。在此,对该示例进行说明。
图1是通过图像编码装置11对由前处理装置51生成的运动图像进行编码,通过后处理装置61对由图像解码装置31解码的运动图像进行处理的框图。
运动图像编码装置10将输入图像T1输入合成信息制作装置71,制作用于推导第一模型参数的滤波信息。然后,滤波信息被发送至图像编码装置11。在合成信息制作装置71中,根据输入图像T1的像素值的统计信息制作滤波信息。图像编码装置11对通过前处理装置51使输入图像T1低分辨率化的缩小图像T2和滤波信息进行编码(称为编码图像)。然后,将滤波信息和编码图像作为编码数据Te发送至网络21。
运动图像解码装置30通过图像解码装置31对包括编码图像、滤波信息的编码数据Te进行解码,并发送至后处理装置61。
图12是表示后处理装置61的构成的框图。后处理装置61由后处理部611和模型汇聚部612构成,输入解码图像Td1和滤波信息,输出解码图像Td2。模型汇聚部612根据输入的滤波信息推导第一模型参数,并将第一模型参数发送至后处理部611。相对于第二模型参数,第一模型参数是通过使用根据滤波信息得到的加权系数来取加权和,并通过滤波信息所示的值进行除法(或者移位运算)而推导出的。在后处理部611中,输入解码图像Td1和第一模型参数,输出解码图像Td2。在此,后处理部611使用第一模型参数,将解码图像Td1的分辨率逆转换成与输入图像相同的分辨率,由此生成解码图像Td2,并输出至图像显示装置41。
合成信息制作装置71将输入图像T1作为输入来制作滤波信息,并发送至图像编码装置11。在此,滤波信息中包括基于输入图像T1而制作出的加权系数、即第一模型参数的导出所需的数据。
图像解码装置31(报头解码部3020)根据经由网络21获取到的编码数据Te,基于图13或图15的语法对滤波信息进行解码,并将解码结果发送至后处理装置61。
后处理装置61使用滤波信息通过图14或图16中示出的处理来推导第一模型参数。然后,使用由图像解码装置31解码的图像Td1和第一模型参数来对Td1进行逆分辨率转换,由此生成解码图像Td2。
〔应用例〕
上述运动图像编码装置10和运动图像解码装置30可以搭载于进行运动图像的发送、接收、记录、再现的各种装置而利用。需要说明的是,运动图像可以是通过摄像机等拍摄的自然运动图像,也可以是通过计算机等生成的人工运动图像(包括CG(ComputerGraphics:计算机动画)和GUI(Graphical User Interface:图形用户界面))。
首先,参照图2对能将上述的运动图像编码装置10和运动图像解码装置30用于运动图像的发送和接收的情况进行说明。
图2的PROD_A是表示搭载有运动图像编码装置10的发送装置PROD_A的构成的框图。如图2所示,发送装置PROD_A具备:通过对运动图像进行编码而得到编码数据的编码部PROD_A1、通过利用编码部PROD_A1所得到的编码数据对载波进行调制而得到调制信号的调制部PROD_A2以及发送调制部PROD_A2所得到的调制信号的发送部PROD_A3。上述的运动图像编码装置10被用作该编码部PROD_A1。
作为输入至编码部PROD_A1的运动图像的供给源,发送装置PROD_A也可以进一步具备:拍摄运动图像的摄像机PROD_A4、记录有运动图像的记录介质PROD_A5、用于从外部输入运动图像的输入端子PROD_A6以及生成或加工图像的图像处理部A7。在图2中举例示出了发送装置PROD_A具备全部这些的构成,但也可以省略一部分。
需要说明的是,记录介质PROD_A5可以是记录有未被编码的运动图像的介质,也可以是记录有以与传输用的编码方式不同的记录用的编码方式进行编码后的运动图像的介质。在后者的情况下,使按照记录用的编码方式对从记录介质PROD_A5读出的编码数据进行解码的解码部(未图示)介于记录介质PROD_A5与编码部PROD_A1之间为好。
图2的PROD_B是表示搭载有运动图像解码装置30的接收装置PROD_B的构成的框图。如图2所示,接收装置PROD_B具备:接收调制信号的接收部PROD_B1、通过对接收部PROD_B1所接收到的调制信号进行解调而得到编码数据的解调部PROD_B2以及通过对解调部PROD_V2所得到的编码数据进行解码而得到运动图像的解码部PROD_B3。上述的运动图像解码装置30被用作该解码部PROD_B3。
接收装置PROD_B作为解码部PROD_B3所输出的运动图像的供给目的地,也可以进一步具备显示运动图像的显示器PROD_B4、用于记录运动图像的记录介质PROD_B5以及用于将运动图像输出至外部的输出端子PROD_B6。在图2中举例示出了接收装置PROD_B具备全部这些的构成,但也可以省略一部分。
需要说明的是,记录介质PROD_B5可以是用于记录未被编码的运动图像的介质,也可以是以与传输用的编码方式不同的记录用的编码方式编码后的介质。在后者的情况下,使按照记录用的编码方式对从解码部PROD_B3获取到的运动图像进行编码的编码部(未图示)介于解码部PROD_B3与记录介质PROD_B5之间为好。
需要说明的是,传输调制信号的传输介质可以是无线的,也可以是有线的。此外,传输调制信号的传输方案可以是广播(在此,指发送目的地未预先确定的发送方案),也可以是通信(在此,指发送目的地已预先确定的发送方案)。即,调制信号的传输可以通过无线广播、有线广播、无线通信以及有线通信中的任一者来实现。
例如,地面数字广播的广播站(广播设备等)/接收站(电视接收机等)是通过无线广播收发调制信号的发送装置PROD_A/接收装置PROD_B的一个示例。此外,有线电视广播的广播站(广播设备等)/接收站(电视接收机等)是通过有线广播收发调制信号的发送装置PROD_A/接收装置PROD_B的一个示例。
此外,使用互联网的VOD(Video On Demand:视频点播)服务、运动图像共享服务等服务器(工作站等)/客户端(电视接收机、个人计算机、智能手机等)是通过通信收发调制信号的发送装置PROD_A/接收装置PROD_B的一个示例(通常,在LAN中使用无线或有线的任一者作为传输介质,在WAN中使用有线作为传输介质)。在此,个人计算机包括台式PC(Personal Computer:个人计算机)、膝上型PC以及平板型PC。此外,智能手机中也包括多功能便携电话终端。
需要说明的是,运动图像共享服务的客户端除了对从服务器下载的编码数据进行解码并显示于显示器的功能以外,还具有对通过摄像机拍摄到的运动图像进行编码并上传至服务器的功能。即,运动图像共享服务的客户端发挥发送装置PROD_A和接收装置PROD_B这两者的功能。
接着,参照图3,对能将上述的运动图像编码装置10和运动图像解码装置30用于运动图像的记录和再现的情况进行说明。
图3的PROD_C是表示搭载有上述的运动图像编码装置10的记录装置PROD_C的构成的框图。如图3所示,记录装置PROD_C具备:通过对运动图像进行编码而得到编码数据的编码部PROD_C1和将编码部PROD_C1所得到的编码数据写入记录介质PROD_M的写入部PROD_C2。上述的运动图像编码装置10被用作该编码部PROD_C1。
需要说明的是,记录介质PROD_M可以是(1)如HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态硬盘)等那样内置于记录装置PROD_C的类型的记录介质,也可以是(2)如SD(Secure Digital:安全数字)存储卡、USB(Universal Serial Bus:通用串行总线)闪存等那样连接于记录装置PROD_C的类型的记录介质,还可以是(3)如DVD(Digital Versatile Disc:注册商标)、BD(Blu-ray Disc:注册商标)等那样装填至内置于记录装置PROD_C的驱动装置(未图示)的记录介质。
此外,作为输入至编码部PROD_C1的运动图像的供给源,记录装置PROD_C也可以进一步具备:拍摄运动图像的摄像机PROD_C3、用于从外部输入运动图像的输入端子PROD_C4、用于接收运动图像的接收部PROD_C5以及生成或加工图像的图像处理部PROD_C6。在图3中举例示出了记录装置PROD_C具备全部这些的构成,但也可以省略一部分。
需要说明的是,接收部PROD_C5可以接收未被编码的运动图像,也可以接收以与记录用的编码方式不同的传输用的编码方式编码后的编码数据。在后者的情况下,使对以传输用的编码方式编码后的编码数据进行解码的传输用解码部(未图示)介于接收部PROD_C5与编码部PROD_C1之间为好。
作为这种记录装置PROD_C,例如可举出:DVD记录器、BD记录器、HDD(HardDiskDrive)记录器等(在该情况下,输入端子PROD_C4或接收部PROD_C5为运动图像的主要的供给源)。此外,便携式摄像机(在该情况下,摄像机PROD_C3为运动图像的主要的供给源)、个人计算机(在该情况下,接收部PROD_C5或图像处理部C6为运动图像的主要的供给源)、智能手机(在该情况下,摄像机PROD_C3或接收部PROD_C5为运动图像的主要的供给源)等也是这种记录装置PROD_C的一个示例。
图3PROD_D是表示搭载有上述的运动图像解码装置30的再现装置PROD_D的构成的块。如图3所示,再现装置PROD_D具备:读出已写入记录介质PROD_M的编码数据的读出部PROD_D1和通过对读出部PROD_D1所读出的编码数据进行解码而得到运动图像的解码部PROD_D2。上述的运动图像解码装置30被用作该解码部PROD_D2。
需要说明的是,记录介质PROD_M可以是(1)如HDD、SSD等那样内置于再现装置PROD_D的类型的记录介质,也可以是(2)如SD存储卡、USB闪存等那样连接于再现装置PROD_D的类型的记录介质,也可以是(3)如DVD、BD等那样装填至内置于再现装置PROD_D的驱动装置(未图示)的记录介质。
此外,作为解码部PROD_D2所输出的运动图像的供给目的地,再现装置PROD_D也可以进一步具备:显示运动图像的显示器PROD_D3、用于将运动图像输出至外部的输出端子PROD_D4以及发送运动图像的发送部PROD_D5。在图3中举例示出了再现装置PROD_D具备全部这些的构成,但也可以省略一部分。
需要说明的是,发送部PROD_D5可以发送未被编码的运动图像,也可以发送以与记录用的编码方式不同的传输用的编码方式编码后的编码数据。在后者的情况下,使以传输用的编码方式对运动图像进行编码的编码部(未图示)介于解码部PROD_D2与发送部PROD_D5之间为好。
作为这种再现装置PROD_D,例如可列举出DVD播放器、BD播放器、HDD播放器等(在该情况下,连接有电视接收机等的输出端子PROD_D4为运动图像的主要供给目的地)。此外,电视接收机(在该情况下,显示器PROD_D3为运动图像的主要供给目的地)、数字标牌(也称为电子看板、电子公告板等,显示器PROD_D3或发送部PROD_D5为运动图像的主要供给目的地)、台式PC(在该情况下,输出端子PROD_D4或发送部PROD_D5为运动图像的主要供给目的地)、膝上型或平板型PC(在该情况下,显示器PROD_D3或发送部PROD_D5为运动图像的主要供给目的地)、智能手机(在该情况下,显示器PROD_D3或发送部PROD_D5为运动图像的主要供给目的地)等也是这种再现装置PROD_D的一个示例。
(硬件实现以及软件实现)
此外,上述的运动图像解码装置30和运动图像编码装置10的各块可以通过形成于集成电路(IC芯片)上的逻辑电路而以硬件方式实现,也可以利用CPU(Central ProcessingUnit:中央处理器)而以软件方式地实现。
在后者的情况下,上述各装置具备:执行实现各功能的程序的命令的CPU、储存上述程序的ROM(Read Only Memory:只读存储器)、展开上述程序的RAM(Random AccessMemory:随机存取存储器)以及储存上述程序和各种数据的存储器等存储装置(记录介质)等。然后,本发明的实施方案的目的在于通过以下方式也能达到:将以计算机可读取的方式记录实现前述功能的软件即上述各装置的控制程序的程序代码(执行形式程序、中间代码程序、源程序)的记录介质供给至上述各装置,该计算机(或CPU、MPU(MicroprocessorUnit:微处理器))读出记录于记录介质的程序代码并执行。
作为上述记录介质,例如能使用:磁带、盒式磁带等带类;包括软盘(注册商标)/硬盘等磁盘、CD-ROM(Compact Disc Read-Only Memory:光盘只读存储器)/MO盘(Magneto-Optical disc:磁光盘)/MD(Mini Disc:迷你磁光盘)/DVD(Digital Versatile Disc:注册商标)/CD-R(CD Recordable:光盘刻录片)/蓝光光盘(Blu-rayDisc:注册商标)等光盘的盘类;IC卡(包括存储卡)/光卡等卡类;掩模ROM/EPROM(Erasable Programmable Read-OnlyMemory:可擦可编程只读存储器)/EEPROM(Electrically Erasable and ProgrammableRead-Only Memory:电可擦可编程只读存储器,注册商标)/闪存ROM等半导体存储器类;或者PLD(Programmable logic device:可编程逻辑器件)、FPGA(Field Programmable GateArray:现场可编程门阵列)等逻辑电路类等。
此外,也可以将上述各装置构成为能与通信网络连接,并经由通信网络供给上述程序代码。该通信网络能传输程序代码即可,不被特别限定。例如,可利用互联网、内联网(intranet)、外联网(extranet)、LAN(Local Area Network:局域网)、ISDN(IntegratedServices Digital Network:综合业务数字网)、VAN(Value-AddedNetwork:增值网络)、CATV(Community Antenna television/Cable Television:共用天线电视/有线电视)通信网、虚拟专用网(Virtual Private Network)、电话线路网、移动通信网、卫星通信网等。此外,构成该通信网络的传输介质也是为能传输程序代码的介质即可,不限定于特定的构成或种类。例如,无论在IEEE(Institute ofElectrical and Electronic Engineers:电气和电子工程师协会)1394、USB、电力线输送、有线TV线路、电话线、ADSL(Asymmetric DigitalSubscriber Line:非对称数字用户线路)线路等有线中,还是在如IrDA(Infrared DataAssociation:红外线数据协会)、遥控器那样的红外线、BlueTooth(注册商标)、IEEE802.11无线、HDR(HighDataRate:高数据速率)、NFC(Near Field Communication:近场通讯)、DLNA(Digital Living Network Alliance:数字生活网络联盟(注册商标)、便携电话网、卫星线路、地面播数字网等无线中都可利用。需要说明的是,本发明的实施方式即使以通过电子传输来将上述程序代码具体化的嵌入载波的计算机数据信号的形态也能实现。
本发明的实施方式并不限定于上述的实施方式,能在权利要求所示的范围内进行各种变更。即,将在权利要求所示的范围内经过适当变更的技术方案组合而得到的实施方式也包括在本发明的技术范围内。
产业上的可利用性
本发明的实施方式能优选地应用于对将图像数据编码而得到的编码数据进行解码的运动图像解码装置,以及生成将图像数据编码而得到的编码数据的运动图像编码装置。此外,能适当地应用于由运动图像编码装置生成并被运动图像解码装置参照的编码数据的数据结构。
(关联申请的相互参照)
本申请对2021年3月11日提出申请的日本专利申请:日本特愿2021-039720主张优先权的利益,并通过对其进行参照而将其全部内容包括到本说明书中。
附图标记说明
1:运动图像传输系统
30:运动图像解码装置
31:图像解码装置
301:熵解码部
302:参数解码部
303:帧间预测参数推导部
304:帧内预测参数推导部
305、107:环路滤波器
306、109:参照图片存储器
307、108:预测参数存储器
308、101:预测图像生成部
309:帧间预测图像生成部
310:帧内预测图像生成部
311、105:逆量化/逆转换部
312、106:加法部
320:预测参数推导部
10:运动图像编码装置
11:图像编码装置
102:减法部
103:转换/量化部
104:熵编码部
110:编码参数确定部
111:参数编码部
112:帧间预测参数编码部
113:帧内预测参数编码部
120:预测参数推导部
71:滤波信息制作装置。
Claims (9)
1.一种图像解码装置,其特征在于,具备:
报头解码部,对用于推导第一模型参数的滤波信息进行解码;
模型汇聚部,根据所解码的所述滤波信息来推导作为第一模型参数的神经网络的模型参数;以及
后处理部,使用推导出的所述模型参数来进行环路滤波处理或后处理,
所述模型汇聚部根据多个加权系数和作为第二模型参数的神经网络的模型参数来推导所述第一模型参数。
2.根据权利要求1所述的图像解码装置,其特征在于,
所述模型汇聚部根据所述加权系数与所述第二模型参数的加权平均推导所述第一模型参数。
3.根据权利要求1所述的图像解码装置,其特征在于,
所述报头解码部对表示是否是非零的标志进行解码,在所述标志表示非零的情况下,对加权系数的大小进行解码,由此对所述加权系数进行解码,在所述标志表示零的情况下,将加权系数推导为0。
4.根据权利要求1所述的图像解码装置,其特征在于,
所述报头解码部对负值的所述加权系数进行解码。
5.根据权利要求1所述的图像解码装置,其特征在于,
所述报头解码部对表示所述神经网络的输入图像尺寸与输出图像尺寸之比的比例因子进行解码。
6.根据权利要求5所述的图像解码装置,其特征在于,
所述模型汇聚部根据所述比例因子使用不同的第二模型参数来推导第一模型参数。
7.根据权利要求5所述的图像解码装置,其特征在于,
所述后处理部在所述比例因子表示1倍以外的情况下,使用神经网络来进行后处理,所述神经网络包括一部分变更图像的尺寸的神经网络处理。
8.根据权利要求1所述的图像解码装置,其特征在于,
所述报头解码部对表示在后处理中使用的第一模型参数中未加权的参数的个数的信息进行解码。
9.一种运动图像编码装置,其特征在于,具有:
前处理装置,对输入图像信号进行分辨率转换等处理;
滤波信息制作装置,制作根据输入图像信号推导第一模型参数所需的滤波信息;以及
图像编码装置,对由所述前处理装置处理后的图像和由所述滤波信息制作装置制作得到的滤波信息进行编码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021039720A JP2024102378A (ja) | 2021-03-11 | 2021-03-11 | 動画像符号化装置、復号装置 |
JP2021-039720 | 2021-03-11 | ||
PCT/JP2022/009378 WO2022191064A1 (ja) | 2021-03-11 | 2022-03-04 | 動画像符号化装置、復号装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116965018A true CN116965018A (zh) | 2023-10-27 |
Family
ID=83227828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280019035.2A Pending CN116965018A (zh) | 2021-03-11 | 2022-03-04 | 运动图像编码装置、解码装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240314308A1 (zh) |
JP (1) | JP2024102378A (zh) |
CN (1) | CN116965018A (zh) |
WO (1) | WO2022191064A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024077570A1 (en) * | 2022-10-13 | 2024-04-18 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Reference picture resampling (rpr) based super-resolution with wavelet decomposition |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019087905A1 (ja) * | 2017-10-31 | 2019-05-09 | シャープ株式会社 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
-
2021
- 2021-03-11 JP JP2021039720A patent/JP2024102378A/ja active Pending
-
2022
- 2022-03-04 CN CN202280019035.2A patent/CN116965018A/zh active Pending
- 2022-03-04 WO PCT/JP2022/009378 patent/WO2022191064A1/ja active Application Filing
- 2022-03-04 US US18/279,783 patent/US20240314308A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022191064A1 (ja) | 2022-09-15 |
JP2024102378A (ja) | 2024-07-31 |
US20240314308A1 (en) | 2024-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021111962A1 (ja) | 動画像復号装置 | |
CN117939168A (zh) | 图像编码方法、编码流提取方法以及图像解码方法 | |
US20200213619A1 (en) | Video coding apparatus and video decoding apparatus, filter device | |
US11818363B2 (en) | Video decoding apparatus and video coding apparatus | |
JP2021097316A (ja) | 動画像符号化装置、動画像復号装置 | |
CN114830666A (zh) | 使用参考图片的大小进行的运动补偿 | |
US20240221118A1 (en) | Video converting apparatus | |
WO2022191064A1 (ja) | 動画像符号化装置、復号装置 | |
JP2022007319A (ja) | 動画像符号化装置、復号装置 | |
JP2023096354A (ja) | 動画像符号化装置、動画像復号装置 | |
JP2022156140A (ja) | 動画像符号化装置、復号装置 | |
JP2023002971A (ja) | 動画像符号化装置、復号装置 | |
JP2022096879A (ja) | 動画像符号化装置、復号装置 | |
WO2020067440A1 (ja) | 動画像符号化装置および動画像復号装置 | |
WO2022264622A1 (ja) | 動画像符号化装置、動画像復号装置 | |
JP2020068462A (ja) | 画像ビット階調拡張フィルタ装置及び画像符号化装置、画像復号装置 | |
CN113170169B (zh) | 预测图像生成装置、运动图像解码装置、运动图像编码装置以及预测图像生成方法 | |
JP7425568B2 (ja) | 動画像復号装置、動画像符号化装置、動画像復号方法および動画像符号化方法 | |
JP2021125798A (ja) | 動画像符号化装置、復号装置 | |
JP2022085475A (ja) | 動画像符号化装置、復号装置 | |
JP2021197558A (ja) | 動画像符号化装置及び動画像復号装置 | |
JP2021078004A (ja) | 動画像符号化装置、動画像復号装置 | |
JP2021153253A (ja) | 動画像符号化装置及び動画像復号装置 | |
JP2020195042A (ja) | 動画像復号装置 | |
JP2021027458A (ja) | 動画像符号化装置、動画像復号装置、予測画像生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20231027 |
|
WD01 | Invention patent application deemed withdrawn after publication |