CN117730339A - 超分辨率定位与网络结构 - Google Patents
超分辨率定位与网络结构 Download PDFInfo
- Publication number
- CN117730339A CN117730339A CN202280046877.7A CN202280046877A CN117730339A CN 117730339 A CN117730339 A CN 117730339A CN 202280046877 A CN202280046877 A CN 202280046877A CN 117730339 A CN117730339 A CN 117730339A
- Authority
- CN
- China
- Prior art keywords
- video
- unit
- input
- network
- loop filters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 393
- 230000008569 process Effects 0.000 claims abstract description 165
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000006243 chemical reaction Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 166
- 230000003044 adaptive effect Effects 0.000 claims description 40
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 13
- 241000023320 Luma <angiosperm> Species 0.000 claims description 12
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 230000011664 signaling Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 108010063123 alfare Proteins 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 67
- 230000033001 locomotion Effects 0.000 description 67
- 238000010586 diagram Methods 0.000 description 32
- 238000013442 quality metrics Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 15
- 238000007906 compression Methods 0.000 description 11
- 230000006835 compression Effects 0.000 description 11
- 238000013461 design Methods 0.000 description 11
- 238000005192 partition Methods 0.000 description 10
- 238000013139 quantization Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000011449 brick Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/132—Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/59—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
- H04N19/33—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/88—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving rearrangement of data among different coding units, e.g. shuffling, interleaving, scrambling or permutation of pixel data or permutation of transform coefficient data among different blocks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种处理视频数据的方法。该方法包括:当一个或多个环路内滤波器被应用于视频单元时,在相对于一个或多个环路内滤波器的特定位置处将超分辨率(SR)过程应用于视频单元;以及基于所应用的SR过程和一个或多个环路内滤波器,在包括视频单元的视频与视频的比特流之间执行转换。还公开了一种相应的视频编码设备和非暂时性计算机可读记录介质。
Description
交叉引用
本专利申请是北京字节跳动网络技术有限公司等于2021年7月1日提交的国际申请第PCT/CN2021/104099号的继续申请,该申请名称为“Convolutional Neural NetworkAnd Locations For Super-Resolution-Based Video Coding”,其通过引用并入本文。
技术领域
本公开整体涉及视频编解码,并且具体地,涉及用于视频编解码的基于超分辨率的上采样。
背景技术
数字视频占用了互联网和其他数字通信网络上的最大带宽使用。随着能够接收和显示视频的连接用户设备数量的增加,预计对数字视频使用的带宽需求将继续增长。
发明内容公开的方面/实施例提供当一个或多个环路内滤波器被应用于视频单元时,在相对于一个或多个环路内滤波器的特定位置处将超分辨率(SR)过程应用于视频单元的技术。在一个实施例中,特定位置是SR过程在整个视频编码过程中的位置。即,在操作的连续顺序中,特定位置确定了相对于环路内滤波器在何处应用SR过程。这种环路内滤波器可以是例如去块滤波器(DBF)、样本自适应偏移(SAO)和自适应环路内滤波器(ALF)。这些技术可用于视频和图像编码、解码、流式传输和存储实现。因此,相对于传统的视频编解码技术,该视频编解码过程得到了改进。
第一方面涉及一种处理视频数据的方法。该方法包括当一个或多个环路内滤波器被应用于视频单元时,在相对于一个或多个环路内滤波器的特定位置处将超分辨率(SR)过程应用于视频单元;以及基于所应用的SR过程和一个或多个环路内滤波器,在包括视频单元的视频与视频的比特流之间执行转换。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程的特定位置在一个或多个环路内滤波器之前。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供特定位置紧接在已经被重建的视频单元之后。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供视频单元包括块,并且其中块包括编解码树单元(CTU)和编解码树块(CTB)中的一个。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供视频单元包括区域,并且其中区域包括编解码树单元(CTU)行。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括第一环路内滤波器和第二环路内滤波器,并且其中特定位置在第一环路内滤波器之后且在第二环路内滤波器之前。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括去块滤波器(DBF),并且其中特定位置在DBF之前。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括去块滤波器(DBF)和采样自适应偏移(SAO),并且其中特定位置在DBF之后且在SAO之前。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括采样自适应偏移(SAO)和自适应环路滤波器
(ALF),并且其中特定位置在SAO之后且在ALF之前。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括自适应环路滤波器(ALF),并且其中特定位置在ALF之后。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括采样自适应偏移(SAO),并且其中特定位置在SAO之前。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括自适应环路滤波器(ALF),并且其中特定位置在ALF之前。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括第一滤波器,并且其中当第一滤波器占用原始视频单元时,特定位置在第一滤波器之前。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供特定位置被包括在比特流中。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供特定位置是基于解码信息导出的。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供还包括当一个或多个环路内滤波器未被应用于视频单元时,将SR过程应用于视频单元而不考虑特定位置。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括去块滤波器(DBF)、采样自适应偏移(SAO)和自适应环路滤波器(ALF),并且其中方法还包括当DBF、SAO和ALF被禁用时将SR过程应用于视频单元而不考虑特定位置。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括自适应环路滤波器(ALF),并且其中方法还包括当ALF被禁用时将SR过程应用于视频单元而不考虑特定位置。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器包括交叉分量自适应环路滤波器(CC-ALF),其中视频单元包括色度分量,并且其中方法还包括当CC-ALF被禁用时,将SR过程应用于色度分量而不考虑特定位置。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供一个或多个环路内滤波器的边信息的信令取决于SR过程的应用。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程的应用取决于环路内滤波方法的使用。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,基于神经网络的SR网络包括多个卷积层,并且其中多个卷积层包括上采样层,上采样层被配置为对视频单元的分辨率进行上采样。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供上采样层应用步长为K的去卷积来对视频单元的分辨率进行上采样,其中K是大于1的整数。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供K取决于解码信息。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供上采样层应用像素混洗来对视频单元的分辨率进行上采样。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供基于NN的SR网络的输入的分辨率是原始输入的1/K,其中K是下采样率。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供来自多个卷积层中的第一卷积层被配置为融合基于NN的SR网络的输入以生成特征图。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供基于NN的SR网络还包括顺序堆叠的残差块,并且其中顺序堆叠的残差块被配置为处理从第一卷积层接收的特征图。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供多个卷积层中的最后卷积层被配置为处理从顺序堆叠的残差块中的最后残差块接收的特征图,以产生R个特征图,其中R等于K*K。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供混洗层被配置为基于R个特征图生成视频单元,并且其中视频单元的空间分辨率与原始输入的空间分辨率相同。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供顺序堆叠的残差块中的一个或多个按顺序次序由第一卷积层、参数修正线性单元(PReLU)激活函数和来自多个卷积层中的第二卷积层组成。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供第一卷积层的输入被添加到第二卷积层的输出。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入处于视频单元级,其中视频单元是图片序列、图片、条带、片、砖块、子图片、一个或多个编解码树单元(CTU)、CTU行、一个或多个编解码单元(CU)、一个或多个编解码树块(CTB),或者覆盖一个以上像素的区域。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入是编解码树单元(CTU),并且其中已经对CTU进行了下采样。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入是帧,并且其中已经对帧进行了下采样。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入包括重建的亮度分量。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入包括重建的色度分量。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入包括重建的亮度分量和色度分量两者。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,其中SR过程的输入包括亮度分量,并且其中SR过程的输出包括经上采样的色度分量。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,其中SR过程的输入包括色度分量,并且其中SR过程的输出包括经上采样的亮度分量。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入包括经解码的边信息。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供SR过程的输入包括预测图片,并且其中SR过程的输出是经上采样的预测图片。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供转换包括将视频数据编码到比特流中。
可选地,在前述方面中的任何一项中,该方面的另一实现方式提供转换包括从比特流中解码视频数据。
一种用于处理媒体数据的装置,其包括处理器和其上具有指令的非暂时性存储器,其中指令在由处理器执行时使处理器:当一个或多个环路内滤波器被应用于视频单元时,在相对于一个或多个环路内滤波器的特定位置处将超分辨率(SR)过程应用于视频单元;以及基于所应用的SR过程和一个或多个环路内滤波器,在包括视频单元的视频与视频的比特流之间执行转换。
一种非暂时性计算机可读记录介质,其存储通过由视频处理装置执行的方法生成的视频的比特流,其中方法包括:当一个或多个环路内滤波器被应用于视频单元时,在相对于一个或多个环路内滤波器的特定位置处将超分辨率(SR)过程应用于视频单元;以及基于所应用的SR过程和一个或多个环路内滤波器来生成比特流。
一种用于处理媒体数据的装置,其包括处理器和其上具有指令的非暂时性存储器,其中指令在由处理器执行时使处理器执行所公开的实施例中任一项记载的方法。
一种非暂时性计算机可读记录介质,其存储通过由视频处理装置执行的所公开的实施例中任一项记载的方法生成的视频的比特流。
一种计算机可读程序介质,其上存储有代码,代码包括指令,当指令由处理器执行时使处理器实现所公开的实施例中任一项记载的方法。
为清晰起见,任何一个前述实施例可与任何一个或多个其他前述实施例相结合,在本发明的范围内形成新的实施例。
从以下结合附图和权利要求的详细说明中,可更清楚地理解这些和其他特征。
附图说明
为了更全面地理解本公开,现结合附图和详细说明,参考以下简要说明,其中相似的附图标记代表相似的部件。
图1是示出参考图片重采样(RPR)的示例应用的示意图。
图2是示出去卷积的示例的示意图。
图3是示出基于像素混洗的上采样的过程的示例的示意图。
图4是示出获得残差块的示例的示意图,其中M表示滤波器的数量。
图5A-5D是示出用于上采样的不同定位的示例的示意图。
图6是像素混洗的逆过程的示例的示意图。
图7是用于上采样网络的示例的示意图。
图8是根据本公开的实施例的用于上采样的总体框架的示意图。
图9是用于重建Y通道的神经网络(NN)的示例的示意图。
图10是像素混洗算子的示例的示意图。
图11是用于重建U通道和V通道的神经网络的示例的示意图。
图12是显示示例视频处理系统的框图。
图13是视频处理装置的框图。
图14是示出视频编解码系统的示例的框图。
图15是示出视频编码器的示例的框图。
图16是示出视频解码器的示例的框图。
图17是根据本公开的实施例的处理视频数据的方法。
具体实施方式
首先应理解,尽管下文提供了一个或多个实施例的说明性实施,但可使用任何数量的技术实施所公开的系统和/或方法,无论是当前已知的还是待开发的。本公开不应以任何方式限于以下示出的示例性实施方式、附图和技术,包括在此示出和描述的示例性设计和实施方式,而是可以在所附权利要求及其等同物的全部范围内进行修改。
视频编解码标准主要通过国际电信联盟(ITU)电信标准化部门(ITU-T)和ISO/国际电工委员会(IEC)标准的发展来发展。ITU-T产出H.261和H.263,ISO/IEC产出运动图片专家组(MPEG)-1和MPEG-4视频,并且这两个组织共同产出H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)以及H.265/高效视频编解码(HEVC)标准。
自从H.262以来,视频编解码标准基于其中利用时间预测加变换编解码的混合视频编解码结构。为了探索HEVC以外的其他视频编解码技术,由视频编解码专家组(VCEG)和MPEG联合建立联合视频探索小组(JVET)。JVET已经采用了许多方法,并且将其引入到被称为联合探测模型(JEM)的参考软件中。
在2018年4月,VCEG(Q6/16)和ISO/IEC JTC1 SC29/WG11(MPEG)之间的联合视频专家组(JVET)成立,致力于通用视频编码(VVC)标准,目标是与HEVC相比比特率减少百分之五十(50%)。VVC版本1于2020年7月完成。
VVC的最新版本,称为H.266,包含在2020年8月出版的题为“Versatile VideoCoding”的ITU-T文件中。VVC的参考软件被称为VVC测试模型(VTM)。VTM包含在2020年8月13日出版的由Bossen等人撰写的名为“JVET-Software Manual”的JVET文档中。在一些描述中使用H.266术语仅仅是为了便于理解,而不是为了限制所公开技术的范围。因此,本文描述的技术也适用于其他视频编解码器协议和设计。
图1是示出参考图片重采样(RPR)100的示例应用的示意图。RPR是VVC中的一种新机制,其中参考列表中的图片可以以与当前图片不同的分辨率存储,然后重新采样以便执行常规解码操作。该技术的加入支持了令人感兴趣的应用场景,诸如具有自适应分辨率的实时通信、具有开放图片组(GOP)结构的自适应流传输。如图1所示,对下采样(down-sampled)(又称为下采样(downsampled)或下采样(down sampled))序列进行编码,然后在解码之后对重建进行上采样(up-sampled)(又称为上采样(upsampled)或上采样(upsampled))。
讨论了常用或传统的上采样技术。在VTM 11.0中,上采样滤波器是基于离散余弦变换(DCT)的插值滤波器(DCTIF)。除此之外,还常使用双三次插值和双线性插值。在这些技术中,一旦给定滤波器的抽头数量,就固定了插值滤波器的权重系数。因此,这些方法的权重系数可能不是最优的。
图2是示出去卷积200的示例的示意图。去卷积也被称为转置卷积,其通常用于深度学习中的上采样。在这种方法中,卷积的步长与缩放比相同。底部矩阵是低分辨率输入,其中白色块是用零填充的值,而灰色块表示低分辨率的原始采样。顶部矩阵是高分辨率输出。在该示例中,步长=2。
图3是示出基于像素混洗的上采样300的过程的示例的示意图。W.Shi、J.Caballero等人在“使用高效子像素卷积神经网络的实时单图像和视频超分辨率(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-PixelConvolutional Neural Network)”中描述了像素混洗层(《IEEE计算机视觉和模式识别会议论文集》,2016年)。像素混洗层是深度学习中使用的另一种上采样方法。如图3所示,像素混洗通常被置于卷积层之后。这种卷积的滤波器数量为M=Coutr2,其中Cout是输出通道的数量并且r表示上缩放比率。例如,给定尺寸为H×W×3的低分辨率输入,当高分辨率输出的尺寸为2H×2W×3时,滤波器的数量M=3×22=12。下面参照图9至图10进一步详细描述像素混洗技术。
讨论了用于视频编解码的基于卷积神经网络的超分辨率。超分辨率(SR)是由低分辨率(LR)图像恢复高分辨率(HR)图像的过程。SR也可以被称为上采样。在深度学习中,卷积神经网络(又称为CNN或ConvNet)是一类常用于分析视觉图像的深度神经网络。CNN在图像和视频识别/处理、推荐系统、图像分类、医学图像分析、自然语言处理等领域有着非常成功的应用。
CNN是多层感知器的正则化版本。多层感知器通常是指全连接的网络,即一层中的每个神经元都连接到下一层的所有神经元。这些网络的“全连通性”使其易于过拟合数据。正则化的典型方法包括将某种形式的权重大小测量添加到损失函数中。CNN对正则化采取了不同的方法。也就是说,CNN利用数据中的分层模式,并且使用更小切更简单的模式组装更复杂的模式。因此,在连通性和复杂性的尺度上,CNN处于较低的极端。
与其他图像分类/处理算法相比,CNN使用相对较少的预处理。这意味着网络学习在传统算法中经手工设计的滤波器。在特征设计中,这种独立于先验知识和人工努力的特性是一个主要优势。
讨论了用于图像/视频编解码的深度学习。基于深度学习的图像/视频压缩通常有两个含义:纯粹基于神经网络(NN)的端到端压缩和通过神经网络增强的传统框架。第一类通常采用类似自动编码器的结构,其通过卷积神经网络或递归神经网络实现。虽然纯粹依赖于神经网络进行图像/视频压缩可以避免任何手动优化或手工设计,但压缩效率可能并不令人满意。因此,分布在第二类中的工作采用神经网络作为辅助,并且通过替换或增强一些模块来增强传统的压缩框架。通过这种方式,它们可以继承高度优化的传统框架的优点。
进一步详细讨论了基于CNN的超分辨率。在有损图像/视频压缩中,重建帧是原始帧的近似,因为量化过程是不可逆的,从而导致重建帧的失真。在RPR的背景下,可以对输入图像/视频进行下采样。因此,原始帧的分辨率是重建的分辨率的2倍。为了对低分辨率重建进行上采样,可以训练卷积神经网络来学习从失真的低分辨率帧到原始高分辨率帧的映射。在实践中,必须在部署基于NN的环路内滤波之前进行训练。例如,参见J.Lin等人在“用于HEVC的基于卷积神经网络的块上采样(Convolutional Neural Network-Based BlockUp-Sampling for HEVC)”提出的用于HEVC的基于CNN的块上采样方法(TCSVT,2019年)。对于每个编解码树单元(CTU)块,该方法确定是使用基于下/上采样的方法还是使用基于全分辨率的编解码。
讨论了训练。训练处理的目的是找到包括权重和偏差(bias)在内的参数的最优值。首先,使用编解码器(例如,HEVC测试模型(HM)、联合探索模型(JEM)、VTM等)来压缩训练数据集,以生成失真的重建帧。
重建帧(低分辨率和被压缩的)然后被馈送到NN中,并且使用NN的输出和真实帧(也称为原始帧)来计算代价。常用的代价函数包括绝对差之和(SAD)和均方误差(MSE)。接下来,通过反向传播算法导出代价相对于每个参数的梯度。通过梯度,可以更新参数的值。重复上述过程,直到满足收敛标准。在完成训练之后,导出的最优参数被保存以用于推断阶段。
讨论了卷积过程。在卷积期间,滤波器在图像上从左到右、从顶部到底部移动,水平移动时一个像素列发生变化,垂直移动时一个像素行发生变化。将滤波器应用于输入图像之间的移动量称为步长。步长在高度和宽度维度上几乎总是对称的。对于高度和宽度移动,二维中的默认(多个)步长为(1,1)。
在大多数深度卷积神经网络中,残差块被用作基本模块,并多次堆叠以构建最终网络。图5是示出获得残差块500的示例的示意图,其中M表示滤波器的数量。如图5的示例中所示,残差块是通过组合卷积层、修正线性单元(ReLU)/参数修正线性单位(PReLU)激活函数和如图4所示卷积层来获得的。
讨论了推断。在推断阶段期间,失真的重建帧被馈送到神经网络中,并由在训练阶段中已经确定了参数的NN模型进行处理。NN的输入样点可以是去块(DB)之前或之后的重建样点样点,或者样点自适应偏移(SAO)之前或之后的重建样点样点,或者自适应环路滤波器(ALF)之前或之后的重建样点样点。
遗憾的是,现有的用于视频编解码的基于NN的超分辨率存在问题或缺点。例如,现有的超分辨率设计通常被置于环路内滤波器之后。然而,也可以使用其他位置,诸如在两个环路内滤波器(例如,DBF、SAO和ALF)之间或在环路内滤波器的开始处。
本文公开了当一个或多个环路内滤波器被应用于视频单元时,在相对于一个或多个环路内滤波器的特定位置处将超分辨率(SR)处理应用于视频单元的技术。在一个实施例中,特定位置是SR过程在整个视频编解码过程中的位置。也就是说,所识别的按照顺序的操作次序相对于环路内滤波器应用SR过程的特定位置。这样的环路内滤波器可以是例如DBF、SAO和ALF。这些技术可用于视频和图像编码、解码、流传输和存储实现方式。因此,相对于常规的视频编解码技术,该视频编解码过程得到了改进。
为了解决上述问题和一些未提及的其他问题,公开了以下所概述的方法。下面的详细实施例应被视为解释一般概念的示例。这些实施例不应当以狭隘的方式来解释。此外,这些实施例可以单独应用或以任何方式组合应用。
在本公开中,基于NN的SR可以是任何种类的基于NN的方法,诸如基于卷积神经网络(CNN)的SR。在下面的讨论中,基于NN的SR也可以被称为非基于CNN的方法,例如,使用基于机器学习的解决方案。
在下面的讨论中,视频单元(也称为视频数据单元)可以是图片序列、图片、条带、片、砖块、子图片、CTU/编解码树块(CTB)、CTU/CTB行、一个或多个编解码单元(CU)/编解码块(CB)、一个或多个CTU/CTB、一个或多个虚拟管道数据单元(VPDU)、图片/条带/片/砖块内的子区域。在一些实施例中,视频单元可以被称为视频数据单元。
示例1
本示例涉及SR的定位。图5A-5D是示出用于上采样500的不同定位的示例的示意图。
1.诸如基于NN或基于非NN的SR过程之类的超分辨率(SR)过程可以置于环路内滤波器之前。
a.在一个示例中,可以在块(例如,CTU/CTB)被重建之后立即调用SR过程。
b.在一个示例中,可以在区域(例如,CTU行)被重建之后立即调用SR过程。
2.诸如基于NN或基于非NN的SR过程的超分辨率(SR)过程可以被置于环路内滤波器的链路中的不同位置。
a.在一个示例中,可以在给定的环路内滤波器之前或之后应用SR过程。
i.在一个示例中,SR过程被置于去块滤波器(DBF)之前,如图5A所示。
ii.在一个示例中,SR过程被置于DBF和SAO之间,如图5B所示。
iii.在一个示例中,SR过程被置于SAO和ALF之间,如图5C所示。
iv.在一个示例中,超分辨率被置于ALF之后,如图5D所示。
v.在一个示例中,SR过程被置于SAO之前。
vi.在一个示例中,SR过程被置于ALF之前。
b.在一个示例中,是否在给定的环路内滤波器之前应用SR可以取决于环路滤波器决策过程是否考虑原始图像。
3.SR过程的位置的指示可以在比特流中用信号通知,或者根据解码的信息实时确定。
4.诸如基于NN或基于非NN的SR过程之类的SR过程可以排他地与诸如环路内滤波器之类的其他编解码工具一起使用,即,当应用SR过程时,则可以不再应用一种或多种环路内滤波器,反之亦然。
a.在一个示例中,SR过程可以排他地与至少一种环路内滤波器一起使用。
i.在一个示例中,当应用SR过程时,诸如DB、SAO和ALF之类的原始环路滤波器全部关闭。
ii.在一个示例中,当ALF被禁用时,可以应用SR过程。
iii.在一个示例中,当CC-ALF被禁用时,SR过程可以被应用于色度分量。
b.在一个示例中,环路内滤波方法的边信息的信令可以取决于是否/如何应用SR过程。
c.在一个示例中,是否/如何应用SR过程可以取决于环路内滤波方法的使用。
示例2
本示例涉及SR网络结构。
5.所提出的基于NN(例如,基于CNN)的SR网络包括多个卷积层。在所提出的网络中使用了上采样层来对分辨率进行上采样。
a.在一个示例中,步长K大于1(例如K=2)的去卷积可以用于上采样。
i.在一个示例中,K可以取决于解码的信息(例如,颜色格式)。
b.在一个示例中,像素混洗用于上采样,如图7所示。图7是上采样网络700的示例的示意图。假设下采样率为K,其中LR输入的分辨率为原始输入的1/K。第一3×3卷积用于融合来自LR输入的信息并生成特征图。然后,来自第一卷积层的输出特征图经过若干个顺序堆叠的残差块,每个残差块被标记为RB。特征图被标记为M和R。最后卷积层将来自最后残差块的特征图作为输入,并产生R(例如,R=K*K)个特征图。最后,采用混洗层来生成空间分辨率与原始分辨率相同的滤波图像。
c.在一个示例中,可以在SR网络中使用残差块。在一个示例中,残差块由三个顺序连接的分量组成,如图4所示:一个卷积层、一个PReLU激活函数和一个卷积层。第一卷积层的输入与第二卷积层的输出相加
6.基于NN(例如,基于CNN)的SR网络的输入可以是不同的视频单元(例如,序列/图片/条带/片/砖块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB,或任何矩形区域)级别。
a.在一个示例中,SR网络的输入可以是经下采样的CTU块。
b.在一个示例中,输入是经下采样的整个帧。
7.基于NN(例如,基于CNN)的SR网络的输入可以是不同颜色分量的组合。
a.在一个示例中,输入可以是重建(reconstruction)的亮度分量。
b.在一个示例中,输入可以是重建的色度分量。
c.在一个示例中,输入可以是同一重建的亮度分量和色度分量两者。
8.在一个示例中,亮度分量可以用作输入,并且基于NN(例如,基于CNN)的SR网络的输出是经上采样的色度分量。
9.在一个示例中,色度分量可以用作输入,并且基于NN(例如,基于CNN)的SR网络的输出是经上采样的亮度分量。
10.基于NN(例如,基于CNN)的SR网络不限于对重建进行上采样。
a.在一个示例中,解码的边信息可以用作基于NN(例如,基于CNN)的SR网络的输入以用于上采样。
i.在一个示例中,预测图片可以用作上采样的输入。网络的输出是经上采样的预测图片。
示例3
1.提出了对于视频单元内的两个子区域(例如,图片/条带/片/子图片),可以应用两种不同的SR方法。
a.在一个示例中,SR方法可以包括基于NN的解决方案。
b.在一个示例中,SR方法可以包括基于非NN的解决方案(例如,经由传统滤波器)。
c.在一个示例中,对于第一子区域,使用基于NN的解决方案,而对于第二子区域,则使用基于非NN的解决方案。
d.在一个示例中,对于第一子区域,使用具有第一设计/模型的基于NN的解决方案,而对于第二子区域,则使用具有第二设计/模型的基于NN的解决方案。
i.在一个示例中,第一/第二设计可以具有不同的输入。
ii.在一个示例中,第一/第二设计可以具有不同数量的层。
iii.在一个示例中,第一/第二设计可以具有不同的步长。
e.在一个示例中,允许的SR方法和/或何种SR方法将用于子区域的指示可以在比特流中用信号通知或实时导出。
i.在一个示例中,可以根据解码的信息(例如,帧内编解码了多少样点/样点的比例)来导出指示。
ii.在一个示例中,可以根据用于参考子区域(例如,共址子区域)的SR解决方案来导出指示。
2.用于视频单元的候选集合可以被预定义或在比特流中用信号通知,其中候选集合可以包括要从中选择的针对视频单元中的采样的多个SR解决方案。
a.在一个示例中,候选集合可以包括具有不同模型/设计的多个基于NN的方法。
b.在一个示例中,候选集合可以包括基于NN的方法和基于非NN的方法。
c.在一个示例中,基于NN的SR模型的不同候选集合用于不同的情况,例如,根据解码的信息。
i.在一个示例中,存在与不同颜色分量和/或不同条带类型和/或者不同量化参数(QP)相对应的基于NN的SR模型的不同集合。
1.在一个示例中,QP可以被分类为若干组。例如,不同的基于NN的SR模型可以用于不同的组[QP/M],其中M是诸如6的整数。
2.在一个示例中,QP被馈送到SR模型中,其中一个模型可以对应于所有QP。在这种情况下,仅使用一个QP组。
ii.在一个示例中,亮度分量和色度分量可以采用不同的基于NN的SR模型的集合。
1.在一个示例中,基于NN的SR模型的第一集合被应用于亮度分量,并且基于NN的SR模型的第二集合被应用于至少一个色度分量。
2.在一个示例中,每个颜色分量与其自己的基于NN的SR模型的集合相关联。
3.此外,可选地,要应用于三个颜色分量的基于NN的SR模型的集合的数量可以取决于条带/图片类型和/或分割树类型(单树或双树)等。
iii.在一个示例中,两种条带类型(例如,I条带和B(或P)条带)可以利用不同的基于NN的SR模型的集合。
iv.在一个示例中,对于第一颜色分量,两种条带类型(例如,I条带和B(或P)条带)可以利用不同的基于NN的SR模型的集合;而对于第二颜色分量,两种条带类型(例如,I条带和B(或P)条带)可以使用相同的基于NN的SR模型的集合。
v.在一个示例中,对于每个QP或QP组,训练一个基于NN的SR模型。NN模型的数量等于QP或QP组的数量。
3.在一个示例中,可以一起使用基于NN(例如,基于CNN)的SR和传统滤波器。
a.在一个示例中,对于不同的视频单元(例如,序列/图片/条带/片/砖块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别,不同的上采样可以一起使用。
i.例如,对于一个图片中的不同CTU,一些CTU可能会选择传统的滤波器,而其他CTU可能更优选于基于NN的SR方法。
b.在一个示例中,对基于NN的SR和传统滤波器的选择可以从编码器用信号通知给解码器。
i.可以在序列报头/序列参数集(SPS)/图片参数集(PPS)/图片报头/条带报头/CTU/CTB或任何矩形区域中用信号通知该选择。
ii.可以针对不同的颜色分量用信号通知不同的选择。
4.在上面的示例中,传统的滤波器可以用作上采样方法。
a.在一个示例中,DCT插值滤波器(DCTIF)可以用作上采样方法。
b.在一个示例中,双线性插值可以用作上采样方法。
c.在一个示例中,双三次插值可以用作上采样方法。
d.在一个示例中,Lanczos插值可以用作上采样方法。
e.在一个示例中,上采样方法可以从编码器用信号通知给解码器。
i.在一个示例中,可以用信号通知索引以指示上采样滤波器。
ii.在一个示例中,可以直接或间接地用信号通知上采样滤波器的至少一个系数。
iii.可以在序列报头/SPS/PPS/图片报头/条带报头/CTU/CTB或任何矩形区域中用信号通知上采样方法。
iv.可以针对不同的颜色分量用信号通知不同的上采样方法。
f.在一个示例中,上采样方法可能是解码器侧所要求的,并且在交互式应用中被通知给编码器侧。
5.在一个示例中,基于NN的SR可以用作上采样方法。
a.在一个示例中,SR的网络应当包括至少一个上采样层。
i.在一个示例中,神经网络可以是CNN。
ii.在一个示例中,步长为K(例如K=2)的去卷积可以用作上采样层,如图2所示。
iii.在一个示例中,像素混洗方法可以用作上采样层,如图3所示。
6.基于NN(例如,基于CNN)的SR可以根据参考图片列表信息应用于某些条带/图片类型、某些时间层或某些条带/图片。
示例4
本示例涉及对上采样方法的选择。
7.是否和/或如何使用基于NN(例如,基于CNN)的SR(表示为CNN信息)可以取决于视频标准简档或级别。
8.是否和/或如何使用基于NN(例如,基于CNN)的SR(表示为CNN信息)可以取决于颜色分量。
9.是否和/或如何使用基于NN(例如,基于CNN)的SR(表示为CNN信息)可以取决于图片/条带类型。
10.是否和/或如何使用基于NN(例如,基于CNN)的SR(表示为CNN信息)可以取决于视频单元的内容或编解码信息。
a.在一个示例中,当重建样点的方差大于预定义阈值时,将使用基于NN的SR。
b.在一个示例中,当重建样点的高频分量的能量大于预定阈值时,将使用基于NN的SR。
11.是否和/或如何使用基于NN(例如,基于CNN)的SR(表示为CNN信息)可以在视频单元(例如,序列/图片/条带/片/砖块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别上进行控制。
a.CNN信息可以包括以下中的一个或多个。
i.启用/禁用CNN滤波器的指示。
ii.应用何种CNN滤波器。
iii.CNN滤波参数。
iv.CNN模型。
v.卷积层的步长。
vi.CNN参数的精度。
b.在一个示例中,可以在视频单元级别中用信号通知CNN信息。
i.在一个示例中,可以在序列报头/SPS/PPS/图片报头/条带报头/CTU/CTB或任何矩形区域中用信号通知CNN信息。
12.不同的CNN SR模型和/或CNN集合模型的集合的数量可以用信号通知给解码器。
a.对于不同的颜色分量,不同的CNN SR模型和/或CNN集合模型的集合的数量可以不同。
13.在一个示例中,使用率失真优化(RDO)策略或失真最小化策略来确定针对一个视频单元的上采样。
a.在一个示例中,不同的基于CNN的SR模型将用于对当前输入进行上采样(例如,亮度重建)。然后计算由不同的基于CNN的SR模型进行上采样的重建与对应的原始输入(未经下采样和压缩的原始输入)之间的PSNR值。将选择实现最高PSNR值的模型作为用于上采样的模型。可以用信号通知该模型的索引。
i.在一个示例中,使用多尺度结构相似性(MS-SSIM)值而不是峰值信噪比(PSNR)值作为度量。
b.在一个示例中,比较不同的传统上采样滤波器,并选择实现最佳质量度量的滤波器。
i.在一个示例中,质量度量是PSNR。
c.在一个示例中,比较不同的基于CNN的SR模型和传统滤波器,并选择实现最佳质量度量的滤波器。
i.在一个示例中,质量度量是PSNR。
d.该确定可以在编码器处或在解码器处执行。
i.如果在解码器处进行确定,则可以基于除了当前图片/条带//CTU/CTB或任何矩形区域之外的样点来计算失真。
14.可以使用不同的质量度量作为度量。
a.在一个示例中,质量度量是PSNR。
b.在一个示例中,质量度量是SSIM。
c.在一个示例中,质量度量是MS-SSIM。
d.在一个示例中,质量度量是视频多方法评估融合(VMAF)。
示例5
本示例涉及基于SR的视频编解码的下采样方法。
1.在一个示例中,下采样方法可以是传统的滤波器。
a.在一个示例中,离散余弦变换插值滤波器(DCTIF)可以用于下采样。
b.在一个示例中,双线性插值可以用于下采样。
c.在一个示例中,双三次插值可以用于下采样。
d.在一个示例中,下采样方法可以从编码器用信号通知给解码器。
i.在一个示例中,可以用信号通知索引以指示下采样滤波器。
ii.在一个示例中,可以直接或间接地用信号通知下采样滤波器的至少一个系数。
iii.可以在序列报头/SPS/PPS/图片报头/条带报头/CTU/CTB或任何矩形区域中用信号通知下采样方法。
iv.可以针对不同的颜色分量用信号通知不同的下采样方法。
e.在一个示例中,下采样方法可能是解码器侧所要求的,并且在交互式应用中被通知给编码器侧。
2.在一个示例中,下采样方法可以是基于神经网络(NN)的方法,诸如基于卷积神经网络(CNN)的方法。
a.基于CNN的下采样方法应包括至少一个下采样层。
i.在一个示例中,步长为K(例如K=2)的卷积可以用作下采样层,并且下采样率为K。
ii.在一个示例中,可以使用的像素去混洗方法,之后进行步长为1的卷积来进行下采样。在图6中示出了像素去混洗。图6是像素混洗600的逆过程的示例的示意图。在一个实施例中,像素混洗的逆过程的下采样率为2。
3.可以使用一系列下采样来实现特定的下采样率。
a.在一个示例中,在一个网络中使用步长为K(例如,K=2)的两个卷积层。在这种情况下,下采样率为4。
b.在一个示例中,两个传统的下采样滤波器(每个的下采样率为2)用于4的下采样率。
4.在一个示例中,可以组合传统滤波器和基于CNN的方法以用于特定的下采样率。
a.在一个示例中,使用传统滤波器,之后使用基于CNN的方法。传统滤波器实现2倍下采样,且基于CNN的方法实现2倍下采样。因此,输入被下采样4倍。
5.当对特定的输入视频单元级别进行下采样时,可以将不同的下采样方法相互比较,以选择最佳的下采样方法。
a.在一个示例中,存在K个(例如K=3个)基于CNN的下采样模型。对于一个特定的输入,三个下采样模型将分别对输入进行下采样。下采样重建将被上采样到原始分辨率。质量度量(例如PSNR)用于测量三个经上采样的结果。实现最佳性能的模型将被用于实际的下采样。
i.在一个示例中,质量度量是MS-SSIM。
ii.在一个示例中,质量度量是PSNR。
b.下采样方法的索引可以用信号通知给编码器或解码器。
6.下采样方法可以用信号通知给解码器。
a.在一个示例中,基于CNN的下采样方法被用于下采样。对于一个特定的视频单元(例如,帧)级别,所选择的模型的索引将用信号通知给解码器。
b.在一个示例中,一帧内的不同CTU使用不同的下采样方法。在这种情况下,可以将对应方法的所有索引用信号通知给解码器。
c.在一个示例中,可以直接或间接地用信号通知下采样滤波器的至少一个系数。
d.可以针对不同的颜色分量用信号通知不同的下采样方法。
e.在一个示例中,下采样方法可能是解码器侧所要求的,并且在交互式应用中被通知给编码器侧。
示例6
本示例讨论了输入的下采样率。
7.下采样方法的输入可以是所有视频单元(例如,序列/图片/条带/片/砖块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别。
a.在一个示例中,输入是具有其原始分辨率大小的帧级别。
b.在一个示例中,输入是具有大小为128×128的一个CTU级别。
8.在一个示例中,输入是一个帧内的块,其尺寸不受限制。
c.在一个示例中,输入可以是具有空间尺寸(M,N)的块,例如,M=256,N=128。
9.在一个示例中,对于所有视频单元(例如,序列/图片/条带/片/砖块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别,下采样率可以是不同的。
d.在一个示例中,对于一个序列的所有帧,下采样率是2。
e.在一个示例中,对于一个帧的所有CTU,下采样率是2。
f.在一个示例中,下采样率对于第一帧是2,并且对于下一帧可以是4。
g.可以使用针对不同视频单元级别的下采样率的组合。
i.在一个示例中,下采样率对于一个帧是2,并且对于同一帧中的一个CTU可以是4。在这种情况下,CTU将被下采样4倍。
10.在一个示例中,对于输入视频单元级别的所有分量,下采样率可以是不同的。
h.在一个示例中,对于亮度分量和色度分量两者,下采样率都是2。
i.在另一示例中,下采样率对于亮度分量是2,而对于色度分量是4。
11.在一个示例中,下采样率可以是1,这意味着不执行下采样。
j.下采样率可以应用于所有视频单元(例如,序列/图片/条带/片/砖块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别。
12.下采样率可以通过比较来确定。
k.在一个示例中,可以使用针对一个帧的2倍和4倍的下采样率。在这种情况下,编码器可以用2倍下采样压缩视频单元,然后用4倍下采样来压缩视频单元。在这之后,使用相同的上采样方法对低分辨率重建进行上采样。然后计算每个结果的质量度量(例如PSNR)。将选择实现最佳重建质量的下采样率作为用于压缩的实际下采样率。
i.在一个示例中,质量度量是MS-SSIM。
13.该确定可以在编码器处或者在解码器处执行。
ii.如果在解码器处进行确定,则可以基于除了当前图片/条带//CTU/CTB或任何矩形区域之外的采样来计算失真。
14.不同的质量度量可以用作比较的度量。
e.在一个示例中,质量度量是PSNR。
f.在一个示例中,质量度量是SSIM。
g.在一个示例中,质量度量是MS-SSIM。
h.在一个示例中,质量度量是VMAF。
15.在一个示例中,可以在视频单元级别中用信号通知下采样率。
l.在一个示例中,可以在SPS/PPS/图片报头/条带报头/CTU/CTB中用信号通知CNN信息。
示例7
1.提出了在超分辨率过程期间可以利用编解码(编码/解码)信息。
a.在一个示例中,编解码信息可以用作基于NN的SR解决方案的输入。
b.在一个示例中,编解码信息可以用于确定要应用哪个SR解决方案。
c.在一个示例中,编解码信息可以包括分割信息、预测信息和帧内预测模式等。
i.在一个示例中,输入包括重建的低分辨率样点和其他解码信息(例如,分割信息、预测信息和帧内预测模式)。
ii.在一个示例中,分割信息具有与重建的低分辨率帧相同的分辨率。分割信息中的样点值是通过在编解码单元中对重建的样点进行平均来导出的。
iii.在一个示例中,预测信息可以是从帧内预测或IBC预测或帧间预测生成的预测样点。
iv.在一个示例中,帧内预测模式具有与重建的低分辨率帧相同的分辨率。帧内预测模式中的样点值是通过在对应的编解码单元中填充帧内预测模型而导出的。
v.在一个示例中,QP值信息可以用作辅助信息以提高上采样重建的质量。
1.在一个示例中,通过用QP值填充矩阵来构建QP映射,并且其空间尺寸与其他输入数据相同。QP映射将被馈送到超分辨率网络中。
示例8
本示例涉及SR网络的输入的颜色分量。
2.在SR过程被应用于第二颜色分量期间,可以利用与第一颜色分量相关的信息。
a.与第一颜色分量相关的信息可以被用作应用于第二颜色分量的SR过程的输入。
b.色度信息可以用作亮度上采样过程的输入。
c.亮度信息可以用作色度上采样过程的输入。
i.在一个示例中,可以使用环路内滤波器之前的亮度重建样点。
1.另选地地,可以使用环路内滤波器之后的亮度重建样点。
ii.在一个示例中,NN的输入包含色度重建样点和亮度重建样点两者。
1.在一个示例中,亮度信息可以被下采样到与色度分量相同的分辨率。下采样的亮度信息将与色度分量进行连接。
a.在一个示例中,下采样方法是双线性插值。
b.在一个示例中,下采样方法是双三次插值。
c.在一个示例中,下采样方法是步长等于原始帧的缩放比的卷积。
d.在一个示例中,下采样方法是像素混洗的逆方法,如图6所示。尺寸为4×4×1的高分辨率块(HR块)将被下采样为尺寸为2×2×4的低分辨率块(LR块)。LR块的每个通道中的第一元素的字体和HR块中的对应位置是粗体。
e.在一个示例中,下采样方法可以取决于诸如4:2:0或4:2:2的颜色格式。
f.在一个示例中,下采样方法可以从编码器用信号通知给解码器。
g.此外,可选地,是否应用下采样过程可能取决于颜色格式。
2.在另一示例中,颜色格式是4:4:4,并且不对亮度信息执行下采样。
iii.在一个示例中,可以使用环路内滤波器之前的色度重建样点。
1.另选地,可以使用环路内滤波器之后的色度重建样点。
iv.在一个示例中,NN的输入包含色度重建样点和亮度重建样点两者。
v.在一个示例中,NN的输入包含色度重建样点和亮度预测采样两者。
d.在一个示例中,一个色度分量(例如,Cb)信息可以用作另一色度分量(如,Cr)上采样过程的输入。
e.在一个示例中,输入包括重建样点和解码信息(例如,模式信息和预测信息)。
i.在一个示例中,模式信息是二进制帧,其中每个值指示样点是否属于跳过编解码单元。
ii.在一个示例中,预测信息是经由用于帧间编解码的编解码单元的运动补偿来导出的。
3.在一个示例中,预测信息可以被用作应用于重建的SR过程的输入。
a.在一个示例中,预测图片的亮度信息可以用作重建的亮度分量的SR过程的输入。
b.在一个示例中,预测图片的亮度信息可以用作重建的色度分量的SR过程的输入。
c.在一个示例中,预测图片的色度信息可以用作重建的色度分量的SR过程的输入。
d.在一个示例中,预测图片的亮度和色度信息可以一起用作重建的SR过程(例如,亮度重建)的输入。
e.在预测信息不可用的情况下(诸如编解码模式是调色板或PCM),对预测样点进行填充。
4.在一个示例中,分割信息可以被用作应用于重建的SR过程的输入。
a.在一个示例中,分割信息具有与重建的低分辨率帧相同的分辨率。分割中的样点值是通过在编解码单元中对重建的样点进行平均来导出的。
5.在一个示例中,帧内预测模式信息可以被用作应用于重建的SR过程的输入。
a.在一个示例中,可以使用经由帧内或帧间预测的当前样点的帧内预测模式。
i.在一个示例中,与重建具有相同分辨率的帧内预测模式矩阵被构造为SR过程的一个输入。对于帧内预测模式矩阵中的每个样点,该值来自对应CU的帧内预测模式。
示例9
本示例涉及一般解决方案。
6.在一个示例中,上述方法可以应用于特定的图片/条带类型,诸如I条带/图片,例如,训练基于NN的SR模型以对I条带中的重建样点进行上采样。
7.在一个示例中,上述方法可以应用于B/P条带/图片,例如,训练基于NN的SR模型以对B条带或P条带中的重建样点进行上采样。
示例10
此示例涉及SR的处理单元。
1.可以在SR单元级别执行超分辨率/上采样过程,其中SR单元覆盖多于一个样点/像素。
a.在一个示例中,SR单元可以与其中调用下采样过程的视频单元相同。
b.在一个示例中,SR单元可以不同于其中调用下采样过程的视频单元。
i.在一个示例中,即使在图片/条带/片级别种执行下采样,SR单元也可以是块(例如,CTU)。
ii.在一个示例中,即使在CTU/CTB级别中执行下采样,SR单元也可以是CTU行或多个CTU/CTB。
c.此外,可选地,对于基于NN的SR方法,可以将网络的输入设置到SR单元。
d.此外,可选地,对于基于NN的SR方法,网络的输入可以被设置到包含要上采样的SR单元和其他样点/像素的区域。
e.在一个示例中,SR单元可以在比特流中指示或预定义。
2.对于两个SR单元,超分辨率方法/上采样方法可能不同。
a.在一个示例中,超分辨率方法/上采样方法可以包括基于NN的解决方案和基于非NN的方案(例如,传统的上采样滤波方法)。
3.SR网络的输入可以是在不同的视频单元(例如,序列/图片/条带/片/砖块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB,或者覆盖一个以上的样点/像素任何区域)级别。
a.在一个示例中,SR网络的输入可以是经下采样的CTU块。
b.在一个示例中,输入是经下采样的整个帧。
4.基于CNN的SR模型可以用于对不同的视频单元级别进行上采样。
a.在一个示例中,基于CNN的SR模型在帧级数据上进行训练,并用于对帧级输入进行上采样。
b.在一个示例中,基于CNN的SR模型在帧级数据上进行训练,并用于对CTU级输入进行上采样。
c.在一个示例中,基于CNN的SR模型在CTU级数据上进行训练,并用于对帧级输入进行上采样。
d.在一个示例中,基于CNN的SR模型在CTU级数据上进行训练,并用于对CTU级输入进行上采样。
示例11
本示例涉及SR网络的输入的边信息。
5.视频单元的下采样率可以被视为SR网络的输入。
a.此外,可选地,卷积层可以以取决于下采样率的步长进行配置。
b.SR网络输入的下采样率可以是任何正整数。
i.此外,可选地,输入的最小空间分辨率应为1×1。
c.SR网络输入的下采样率可以是任意两个正整数之比,诸如3:2。
d.水平下采样率和垂直下采样率可以相同,或者它们也可以不同。
6.提出了在上采样过程期间可以利用编码/解码信息。
a.在一个示例中,编码/解码信息可以用作超分辨率网络的输入。
b.在一个示例中,编码/解码信息可以包括但不限于预测信号、分割结构、帧内预测模式。
讨论了其他技术解决方案。
图8是根据本公开的实施例的用于上采样800的总体框架的示意图。预处理将从重建recLR和预测predLR中提取并归一化QP值、Y、U和V数据。预处理的输出是归一化的QP映射以及用于上采样的Y、U和V数据。利用基于神经网络的超分辨率技术进行上采样。在本公开中,使用了两个神经网络。一个网络是针对Y通道数据设计的,而另一个是针对U和V通道数据设计的。和/>是经上采样的重建数据。最终的上采样重建由去归一化的和/>组成。
讨论了在上采样之前的预处理。
1.对重建Y、U和V通道、预测Y通道和基本QP值进行归一化。在一个示例中,归一化的方程为:
其中[i,j]是帧中像素的坐标,Yrec表示重建帧的Y通道,Urec表示重建帧的U通道,Vrec表示重建帧的V通道,以及Ypred表示预测帧的Y通道。
通过用QPnorm填充矩阵来构建QP映射,并且QP映射的尺寸应该与相同。
QP_MAP[i,j]=QPnorm
其中[i,j]是帧中像素的坐标。
讨论了针对Y通道的上采样。
将QP_MAP、和/>馈送到针对Y通道设计的神经网络中。在一个示例中,神经网络在图9中示出。图9是用于重建Y通道900的NN的示例的示意图。项“Conv kxk,M”表示内核尺寸为k的卷积,且滤波器的数量为M。项B是残差块(RB)的数量。项R是缩放比r的平方。
网络的输入由三部分组成:QP映射、和/>QP映射是用于压缩的基本QP,并且/>和/>分别表示低分辨率重建帧和对应的低分辨率预测帧。/>表示神经网络的高分辨率输出,其与原始帧的分辨率相同。如图8所示,网络由残差块和用于上采样的像素混洗层组成。
在一个示例中,在图4中示出了残差块。在一个示例中,图8中的上采样块使用如图10所示的像素混洗层。图10是像素混洗算子1000的示例的示意图。将尺寸为2×2×4的低分辨率块(LR块)上采样为尺寸为4×4×1的高分辨率块(HR块)。LR块的每个通道中的第一元素的字体和HR块中的对应位置是粗体。
另选地,上采样块可以使用步长等于上缩放比率的去卷积。
在另一个示例中,神经网络的主体可以是不同的,只要它在神经网络的输出之前有一个上采样层。
对针对Y通道数据设计的神经网络的输出进行去归一化。在一个示例中,用于去归一化的方程为:
其中[i,j]是帧中像素的坐标,是神经网络的输出,并且/>返回输入x的底数。
以下步骤用于对色度分量(U和V通道)进行上采样。
5.将下采样至与/>相同的分辨率。经下采样的/>表示为/>
a)在一个示例中,下采样方法是双线性插值。
b)在一个示例中,下采样方法是双三次插值。
c)在一个示例中,下采样方法是步长等于原始帧的缩放比的卷积。
d)在一个示例中,下采样方法是像素混洗的逆方法,如图6所示。
6.将和QP_MAP馈送到针对U通道和V通道设计的神经网络中。在一个示例中,神经网络在图11中示出。图11是用于重建U通道和V通道1100的神经网络的示例的示意图。在图11中,项Down表示下采样。项“Conv kxk,M”表示内核尺寸为k的卷积,且滤波器的数量为M。项B是残差块(RB)的数量。项R是缩放比r的平方。网络的输入由四部分组成:QP映射/>和/>QP映射是用于压缩的基本QP,并且/>和分别表示Y通道、U通道和V通道的低分辨率重建帧。/>和/>分别表示U通道和V通道的高分辨率重建。
a)在一个示例中,在图4中示出了残差块。
b)在一个示例中,上采样层是像素混洗层。
c)可选地,上采样块可以使用步长等于上缩放比率的去卷积。
d)在另一个示例中,神经网络的主体可以是不同的,只要它在神经网络的输出之前有一个上采样层。
图12是示出其中可以实现本文公开的各种技术的示例视频处理系统1200的框图。各种具体实施可以包括视频处理系统1200的一些或全部组件。视频处理系统1200可以包括用于接收视频内容的输入1202。视频内容可以以原始或未压缩格式(例如,8位或10位多分量像素值)接收,或者可以以压缩或编码格式接收。输入1202可以表示网络接口、外围总线接口或存储接口。网络接口的示例包括诸如以太网、无源光网络(PON)之类的有线接口和诸如Wi-Fi或蜂窝接口之类的无线接口。
视频处理系统1200可以包括可以实现本文档中描述的各种编解码或编码方法的编解码组件1204。编解码组件1204可以降低从输入1202到编解码组件1204的输出的视频的平均比特率,以产生视频的编解码表示。因此,编解码技术有时被称为视频压缩或视频转码技术。编解码组件1204的输出可以被存储,或者经由连接的通信进行传输,如组件1206所表示的。在输入1202处接收到的所存储或传送的视频的比特流(或编解码)表示可以由组件1208用于生成像素值或发送到显示接口1210的可显示视频。从比特流表示生成用户可观看视频的过程有时称为视频解压缩。此外,虽然某些视频处理操作被称为“编解码”操作或工具,但应当理解,编解码工具或操作在编码器处使用,而反转编解码结果的相应解码工具或操作将由解码器执行。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清晰度多媒体接口(HDMI)或显示端口等。存储接口的示例包括SATA(串行高级技术附件)、外围组件互连(PCI)、集成驱动电子设备(IDE)接口等。本文档中描述的技术可以体现在各种电子设备中,诸如移动电话、膝上型电脑、智能手机或能够执行数字数据处理和/或视频显示的其他设备。
图13是视频处理装置1300的框图。视频处理装置1300可以用于实现本文描述的一种或多种方法。视频处理装置1300可以体现在智能手机、平板电脑、计算机、物联网(IoT)接收器等中。视频处理装置1300可以包括一个或多个处理器1302、一个或多个存储器1304和视频处理硬件1306(也称为视频处理电路)。处理器1302可以被配置为实现本文档中描述的一种或多种方法。存储器(多个存储器)1304可以用于存储用于实现本文描述的方法和技术的数据和代码。视频处理硬件1306可以用于在硬件电路中实现本文档中描述的一些技术。在一些实施例中,视频处理硬件1306可以部分或完全位于处理器1302内,例如图形处理器。
图14是示出可利用本公开的技术的示例视频编解码系统1400的框图。如图14所示,视频编解码系统1400可以包括源设备1410和目标设备1420。源设备1410生成编码视频数据,其可以被称为视频编码设备。目标设备1420可以对由源设备1410生成的编码视频数据进行解码,其可以被称为视频解码设备。
源设备1410可以包括视频源1412、视频编码器1414和输入/输出(I/O)接口1416。
视频源1412可以包括诸如视频捕获设备之类的源、从视频内容提供者接收视频数据的接口、和/或用于生成视频数据的计算机图形系统、或此类源的组合。视频数据可以包括一个或多个图片。视频编码器1414对来自视频源1412的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关数据。编解码图片是图片的编解码表示。相关数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口1416可以包括调制器/解调器(调制解调器)和/或发射器。编码视频数据可以通过网络1430经由I/O接口1416直接传输到目标设备1420。编码视频数据也可以存储在存储介质/服务器1440上以供目标设备1420访问。
目标设备1420可以包括I/O接口1426、视频解码器1424和显示设备1422。
I/O接口1426可以包括接收器和/或调制解调器。I/O接口1426可以从源设备1410或存储介质/服务器1440获取编码视频数据。视频解码器1424可对编码视频数据进行解码。显示设备1422可以向用户显示解码视频数据。显示设备1422可以与目标设备1420集成,或者可以在可以被配置为与外部显示设备交接的目标设备1420的外部。
视频编码器1414和视频解码器1424可以根据视频压缩标准操作,诸如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准以及其他当前和/或另外的标准。
图15是示出视频编码器1500的示例的框图,其可以是图14中所示的视频编解码系统1400中的视频编码器1414。
视频编码器1500可以被配置为执行本公开的任何或全部技术。在图15的示例中,视频编码器1500包括多个功能组件。本公开中所描述的技术可在视频编码器1500的各种组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或全部技术。
视频编码器1500的功能组件可以包括分割单元1501、预测单元1502,其可以包括模式选择单元1503、运动估计单元1504、运动补偿单元1505和帧内预测单元1506、残差生成单元1507、变换单元1508、量化单元1509、逆量化单元1510、逆变换单元1511、重建单元1512、缓冲器1513和熵编码单元1514。
在其他示例中,视频编码器1500可包括更多、更少或不同的功能组件。在一个示例中,预测单元1502可以包括帧内块复制(IBC)单元。IBC单元可以在IBC模式下执行预测,其中至少一个参考图片是当前视频块所在的图片。
此外,诸如运动估计单元1504和运动补偿单元1505之类的一些组件可以高度集成,但是为了解释的目的而在图15的示例中单独表示。
分割单元1501可将一个图片分割成一个或多个视频块。图14的视频编码器1414和视频解码器1424可以支持各种视频块尺寸。
模式选择单元1503可以例如基于误差结果来选择编解码模式(帧内或帧间)中的一种,并且将得到的帧内或帧间编解码块提供给残差生成单元1507以生成残差块数据并提供给重建单元1512以重建编码块以用作参考图片。在一些示例中,模式选择单元1503可以选择帧内和帧间预测(CIIP)模式的组合,其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下,模式选择单元1503还可以针对块选择运动矢量的分辨率(例如,子像素或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元1504可以通过将来自缓冲器1513的一个或多个参考帧与当前视频块进行比较来生成当前视频块的运动信息。运动补偿单元1505可以基于来自缓冲器1513的除了与当前视频块相关联的图片之外的图片的运动信息和解码采样来确定当前视频块的预测视频块。
运动估计单元1504和运动补偿单元1505可以对当前视频块执行不同的操作,例如,取决于当前视频块是在I条带、P条带还是B条带。I条带(或I帧)是可压缩性最低的,但不需要其他视频帧来解码。P条带(或P帧)可以使用先前帧中的数据进行解压缩,并且比I帧更具可压缩性。B条带(或B帧)可以使用先前帧和前向帧进行数据参考,以获得最高的数据压缩量。
在一些示例中,运动估计单元1504可以针对当前视频块执行单向预测,并且运动估计单元1504可搜索列表0或列表1的参考图片以寻找当前视频块的参考视频块。然后运动估计单元1504可以生成指示列表0或列表1中包含参考视频块的参考图片的参考索引和指示当前视频块与参考视频块之间的空间位移的运动矢量。运动估计单元1504可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元1505可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。
在其他示例中,运动估计单元1504可以针对当前视频块执行双向预测,运动估计单元1504可以在列表0中的参考图片中搜索当前视频块的参考视频块并且还可以在列表1中的参考图片中搜索当前视频块的另一个参考视频块。然后,运动估计单元1504可以生成指示列表0和列表1中包含参考视频块的参考图片的参考索引和指示参考视频块与当前视频块之间的空间位移的运动矢量。运动估计单元1504可以输出当前视频块的参考索引和运动矢量作为当前视频块的运动信息。运动补偿单元1505可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
在一些示例中,运动估计单元1504可以输出完整的运动信息集以用于解码器的解码处理。
在一些示例中,运动估计单元1504可以不输出当前视频的完整的运动信息集。相反,运动估计单元1504可以参考另一视频块的运动信息来发信号通知当前视频块的运动信息。例如,运动估计单元1504可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。
在一个示例中,运动估计单元1504可以在与当前视频块相关联的语法结构中指示向图14的视频解码器1424指示当前视频块具有与另一视频块相同的运动信息的值。
在另一个示例中,运动估计单元1504可以在与当前视频块相关联的语法结构中识别另一视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与所指示的视频块的运动矢量之间的差。图14的视频解码器1424可以使用所指示的视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。
如上文所讨论的,图14的视频编码器1414可以预测性地发信号通知运动矢量。可以由图14的视频编码器1414实施的预测性信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。
帧内预测单元1506可以对当前视频块执行帧内预测。当帧内预测单元1506对当前视频块执行帧内预测时,帧内预测单元1506可以基于同一图片中的其他视频块的解码采样生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。
残差生成单元1507可以通过从当前视频块减去(例如,由负号指示)当前视频块的预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中的采样的不同采样分量的残差视频块。
在其他示例中,可能不存在当前视频块的残差数据,例如在跳过模式下,并且残差生成单元1507可以不执行减法运算。
变换单元1508可以通过对与当前视频块相关联的残差视频块应用一个或多个变换来生成当前视频块的一个或多个变换系数视频块。
在变换单元1508生成与当前视频块相关联的变换系数视频块之后,量化单元1509可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
逆量化单元1510和逆变换单元1511可以分别对变换系数视频块应用逆量化和逆变换,以从变换系数视频块重建残差视频块。重建单元1512可以将重建的残差视频块添加到来自由预测单元1502生成的一个或多个预测视频块的对应采样,以生成与当前块相关联的重建视频块以存储在缓冲器1513中。
在重建单元1512重建视频块之后,可以执行环路滤波操作以减少视频块中的视频块伪影。
熵编码单元1514可以从视频编码器1500的其他功能组件接收数据。当熵编码单元1514接收数据时,熵编码单元1514可以执行一个或多个熵编码操作以生成熵编码数据并输出包括熵编码数据的比特流。
图16是示出视频解码器1600的示例的框图,其可以是图14中所示的视频编解码系统1400中的视频解码器1424。
视频解码器1600可以被配置为执行本公开的任何或全部技术。在图16的示例中,视频解码器1600包括多个功能组件。本公开中所描述的技术可在视频解码器1600的各种组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或全部技术。
在图16的示例中,视频解码器1600包括熵解码单元1601、运动补偿单元1602、帧内预测单元1603、逆量化单元1604、逆变换单元1605、重建单元1606和缓冲器1607。在一些示例中,视频解码器1600可以执行与关于视频编码器1414(图14)所描述的编码过程大体上相反的解码过程。
熵解码单元1601可以检索编码比特流。编码比特流可以包括熵编解码的视频数据(例如,编码的视频数据块)。熵解码单元1601可以对熵编解码的视频数据进行解码,并且根据熵解码的视频数据,运动补偿单元1602可以确定包括运动矢量、运动矢量精度、参考图片列表索引的运动信息以及其他运动信息。例如,运动补偿单元1602可以通过执行AMVP和merge模式信令来确定这样的信息。
运动补偿单元1602可以产生运动补偿块,可能基于插值滤波器执行插值。用于与子像素精度一起使用的插值滤波器的标识符可以包括在语法元素中。
运动补偿单元1602可以使用由视频编码器1414在对视频块进行编码期间使用的插值滤波器来计算参考块的子整数像素的插值。运动补偿单元1602可以根据接收的语法信息来确定由视频编码器1414使用的插值滤波器并且使用插值滤波器来产生预测块。
运动补偿单元1602可以使用一些语法信息来确定用于对编码视频序列的帧和/或条带进行编码的块的尺寸、描述如何对编码视频序列的图片的每个宏块进行分割的分割信息、指示如何对每个分割进行编码的模式、每个帧间编码块的一个或多个参考帧(和参考帧列表),以及用于对编码视频序列进行解码的其他信息。
帧内预测单元1603可以使用例如在比特流中接收的帧内预测模式来从空间相邻块形成预测块。逆量化单元1604对在比特流中提供并由熵解码单元1601解码的量化视频块系数进行逆量化,即去量化。逆变换单元1605应用逆变换。
重建单元1606可以将残差块与由运动补偿单元1602或帧内预测单元1603生成的对应预测块相加以形成解码块。如果需要,还可以应用去块滤波器来对解码块进行滤波,以便去除块效应伪影。然后将解码视频块存储在缓冲器1607中,该缓冲器为随后的运动补偿/帧内预测提供参考块并且还产生解码视频以用于在显示设备上呈现。
图17是根据本公开的实施例的处理视频数据的方法1700。方法1700可以由具有处理器和存储器的编解码装置(例如编码器)来执行。当需要SR或上采样时,可以实现方法1700。
在框1702中,当一个或多个环路内滤波器被应用于视频单元时,编解码装置在相对于一个或多个环路内滤波器的特定位置处将超分辨率(SR)处理应用于视频单元。
在方框1704中,编解码装置基于所应用的SR过程和一个或多个环路内滤波器,在包括视频单元的视频与视频的比特流之间执行转换。当在编码器中实现时,转换包括接收视频文件(例如,视频单元)并将视频文件编码到比特流中。当在解码器中实现时,转换包括接收包括视频文件的比特流,并解码该比特流以获得视频文件。
在一个实施例中,SR过程的特定位置在一个或多个环路内滤波器之前。也就是说,在一个或多个环路内滤波器之前经历SR过程。
在一个实施例中,特定位置紧接在已经被重建的视频单元之后。例如,如图5A-5D所示,特定位置遵循预测和残差的组合。
在一个实施例中,视频单元包括块,并且其中该块包括编解码树单元(CTU)和编解码树块(CTB)中的一个。CTU包括亮度样点的CTB、具有三个样点数组的图片的色度样点的两个对应的CTB、或者单色图片的样点的CTB,以及用于对样点进行编解码的语法结构。CTB包括针对某个N值的N×N个样点块,使得将一个分量划分为CTB是一个分割。
在一个实施例中,视频单元包括区域,并且其中该区域包括编解码树单元(CTU)行。
在一个实施例中,一个或多个环路内滤波器包括第一环路内滤波器(例如,DBF)和第二环路内滤波器(例如,SAO),并且其中特定位置在第一环路内滤波器之后且在第二环路内滤波器之前。在一个实施例中,一个或多个环路内滤波器包括去块滤波器(DBF),并且其中特定位置在DBF之前。在一个实施例中,一个或多个环路内滤波器包括去块滤波器(DBF)和采样自适应偏移(SAO),并且其中特定位置在DBF之后且在SAO之前。在一个实施例中,一个或多个环路内滤波器包括采样自适应偏移(SAO)和自适应环路滤波器(ALF),并且其中特定位置在SAO之后且在ALF之前。在一个实施例中,一个或多个环路内滤波器包括自适应环路滤波器(ALF),并且其中特定位置在ALF之后。在一个实施例中,一个或多个环路内滤波器包括采样自适应偏移(SAO),并且其中特定位置在SAO之前。在一个实施例中,一个或多个环路内滤波器包括自适应环路滤波器(ALF),并且其中特定位置在ALF之前。
在一个实施例中,一个或多个环路内滤波器包括第一滤波器,并且其中当第一滤波器占用原始视频单元(例如,原始图片或原始帧)时,特定位置在第一滤波器之前。
在一个实施例中,该特定位置被包括在比特流中。也就是说,在比特流中用信号通知特定位置。例如,可以在比特流的参数集、报头等中识别特定位置。
在一个实施例中,基于解码信息来导出特定位置。
在一个实施例中,该方法还包括当一个或多个环路内滤波器未应用于视频单元时,将SR过程应用于视频单元而不考虑特定位置。
在一个实施例中,一个或多个环路内滤波器包括去块滤波器(DBF)、采样自适应偏移(SAO)和自适应环路滤波器(ALF),并且其中该方法还包括当DBF、SAO和ALF被禁用(例如,关闭)时将SR过程应用于视频单元而不考虑特定位置。
在一个实施例中,一个或多个环路内滤波器包括自适应环路滤波器(ALF),并且其中该方法还包括当ALF被禁用时将SR过程应用于视频单元而不考虑特定位置。
在一个实施例中,一个或多个环路内滤波器包括交叉分量自适应环路滤波器(CC-ALF),其中视频单元包括色度分量,并且其中该方法还包括当CC-ALF被禁用时,将SR过程应用于色度分量而不考虑特定位置。
在一个实施例中,一个或多个环路内滤波器的边信息的信令取决于SR过程的应用。在一个实施例中,边信息被视为提供SR过程的一些有用信息/特性的元数据。例如,假设对于SR过程存在4个候选的CNN模型集,并且从这4个CNN模型中选择最佳的一个。在比特流中用信号通知所选模型的索引作为边信息。因此,解码器能够识别最佳模型并使用该模型来执行SR过程。在一个实施例中,边信息包括滤波器参数、滤波器模式或其他编解码信息。在一个实施例中,SR过程的应用取决于环路内滤波方法的使用。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,该基于神经网络的SR网络包括多个卷积层,并且其中多个卷积层包括上采样层,该上采样层被配置为对视频单元的分辨率进行上采样。
在一个实施例中,上采样层应用步长为K的去卷积来对视频单元的分辨率进行上采样,其中K是大于1的整数。在一个实施例中,K取决于解码信息。
在一个实施例中,上采样层应用像素混洗来对视频单元的分辨率进行上采样。在一个实施例中,基于NN的SR网络的输入的分辨率是原始输入的1/K,其中K是下采样率。
在一个实施例中,来自多个卷积层中的第一卷积层被配置为融合基于NN的SR网络的输入以生成特征图。
在一个实施例中,基于NN的SR网络还包括顺序堆叠的残差块,并且其中顺序堆叠的残差块被配置为处理从第一卷积层接收的特征图。
在一个实施例中,来自多个卷积层中的最后卷积层被配置为处理从顺序堆叠的残差块中的最后残差块接收的特征图,以产生R个特征图,其中R等于K*K。
在一个实施例中,混洗层被配置为基于R个特征图生成视频单元,并且其中视频单元的空间分辨率与原始输入的空间分辨率相同。
在一个实施例中,顺序堆叠的残差块中的一个或多个按顺序次序由第一卷积层、参数修正线性单元(PReLU)激活函数和来自多个卷积层的第二卷积层组成。
在一个实施例中,第一卷积层的输入被添加到第二卷积层的输出。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入处于视频单元级,其中视频单元是图片序列、图片、条带、片、砖块、子图片、一个或多个编解码树单元(CTU)、CTU行、一个或多个编解码单元(CU)、一个或多个编解码树块(CTB),或者覆盖一个以上像素(也称为样点)的区域。
条带是排他地包含在单个网络抽象(NAL)单元中的整数个完整片或者图片的片内的整数个连续完整CTU行。片是图片中特定片列和特定片行内的CTU的矩形区域。砖块是图片中特定片内CTU行的矩形区域。子图片是图片中一个或多个条带的矩形区域。
CU包括亮度样点的编解码块、在单树模式中具有三个样点数组的图片的色度样点的两个对应编解码块、或在双树模式中具有三个样点数组的图片的亮度样点的编解码块、或在双树模式中具有三个样点数组的图片的色度样点的两个编解码块,或者单色图片的样点的编解码块以及用于对样点进行编解码的语法结构。编解码块包括针对一定值的M和N的M×N个样点块,使得将CTB划分为编解码块是一个分割。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入是编解码树单元(CTU),并且其中已经对CTU进行了下采样。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入是帧,并且其中已经对帧进行了下采样。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入包括重建的亮度分量。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入包括重建的色度分量。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入包括重建的亮度分量和色度分量。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,其中SR过程的输入包括亮度分量,并且其中SR过程的输出包括经上采样的色度分量。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,其中SR过程的输入包括色度分量,并且其中SR过程的输出包括经上采样的亮度分量。
在一个实施例中,SR过程由基于神经网络(NN)的SR网络应用,并且其中SR过程的输入包括经解码的边信息。在一个实施例中,SR过程的输入包括预测图片,并且其中SR过程的输出是经上采样的预测图片。
在一个实施例中,方法1700可以利用或结合本文公开的其他方法的一个或多个特征或过程。
接下来提供一些实施例所优选的解决方案列表。
以下解决方案显示了本公开中讨论的技术的示例实施例(例如,示例1)。
1.一种视频处理方法,包括:在包括一个或多个视频单元的视频和视频的比特流之间执行转换,其中,在转换期间,按照根据规则的顺序选择性地应用超分辨率SR过程,在该超分辨率SR过程中,输入像素的分辨率在输出像素处被改变。
2.根据权利要求1所述的方法,其中,按照编码顺序,所述SR过程在环路内滤波过程之前。
3.根据权利要求1所述的方法,其中,按照编码顺序,所述SR过程在环路内滤波过程之后。
4.根据权利要求1-3中任一项所述的方法,其中,所述环路内滤波过程包括样本自适应偏移或自适应环路滤波过程。
5.根据权利要求1-4中任一项所述的方法,其中,所述顺序在比特流中指示。
6.根据权利要求1-4中任一项所述的方法,其中,所述顺序不在比特流中指示。
7.根据权利要求1-6中任一项所述的方法,其中,所述规则规定,对于某些类型的环路滤波器,SR过程和环路内过程是互斥的。
8.根据权利要求7所述的方法,其中,某些类型的环路滤波器包括样本自适应偏移或自适应环路滤波器。
9.一种视频处理方法,包括:在包括一个或多个视频单元的视频和视频的比特流之间执行转换,其中,在转换期间,根据规则使用具有多个卷积层的神经网络(NN)选择性地应用超分辨率SR过程,在该超分辨率SR过程中,输入像素的分辨率在输出像素处被改变。
10.根据权利要求9所述的方法,其中,转换包括在SR过程中使用步长为K的去卷积进行上采样,其中K是大于1的整数。
11.根据权利要求10所述的方法,其中,上采样包括执行像素混洗。
12.一种视频处理方法,包括:在包括一个或多个视频单元的视频和该视频的比特流之间执行转换,其中,在转换期间,执行超分辨率SR过程,在该超分辨率SR过程中,输入像素的分辨率在输出像素处被改变,其中输入像素符合规则。
13.根据权利要求12所述的方法,其中,规则指定输入像素来自编码树单元或编码树单元行、编码单元、编码树块或矩形像素区域的视频序列或视频图片或视频条带或视频片或视频砖块或视频子图片。
14.根据权利要求12的方法,其中,规则指定输入像素属于的颜色分量。
15.根据权利要求14的方法,其中,颜色分量是亮度分量。
16.根据权利要求12-15中任一项的方法,其中,规则指定进一步使用边信息作为SR过程的输入。
17.根据上述权利要求中任一项的方法,其中,视频单元包括图片或条带。
18.根据权利要求1-17中任一项的方法,其中,转换包括从视频生成比特流。
19.根据权利要求1-17中任一项的方法,其中,转换包括从比特流生成视频。
20.一种视频解码装置,包括被配置为实现权利要求1至19中的一项或多项的方法的处理器。
21.一种视频编码装置,包括被配置为实现权利要求1至19中的一项或多项的方法的处理器。
22.一种其上存储有计算机代码的计算机程序产品,当由处理器执行时,该代码使处理器实现权利要求1至19中任一项的方法。
23.一种视频处理方法,包括根据权利要求1-19中任一项或多项的方法生成比特流,并将该比特流存储在计算机可读介质上。
24.本文件中描述的一种方法、装置或系统。
以下文件通过引用整体并入:
[1]J.Chen,Y.Ye,S.Kim(editors),“Algorithm description forVersatileVideo Coding and Test Model 8(VTM 8),”JVET-Q2002.
[2]VTM software:
https://vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM.git
[3]W.Shi,J.Caballero,et al.,“Real-Time Single Image and VideoSuper-Resolution Using an Efficient Sub-Pixel Convolutional NeuralNetwork,”Proceedings of the IEEE conference on computer vision andpatternrecognition.2016.arXiv:1609.05158
[4]J.Lin,D.Liu,H.Yang,H.Li,“Convolutional Neural Network-BasedBlockUp-Sampling for HEVC”,TCSVT 2019.
本文档中所描述的公开和其他解决方案、示例、实施例、模块和功能操作可在数字电子电路中、或在计算机软件、固件、或硬件、包括本文档中公开的结构及其结构等效物、或在它们中的一种或多种的组合中实施。所公开的实施例和其他实施例可以实施为一个或多个计算机程序产品,即,编码在计算机可读介质上的计算机程序指令的一个或多个模块,其由数据处理装置执行或用于控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储设备、影响机器可读传播信号的物质的组合物、或者它们中的一个或多个的组合。术语“数据处理装置”包括用于处理数据的所有装置、设备和机器,例如包括可编程处理器、计算机、或多个处理器或计算机。除了硬件之外,装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。传播信号是人工生成的信号,例如,机器生成的电信号、光信号或电磁信号,该信号被生成以对信息进行编码以传输到合适的接收器装置。
计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言,并且可以以任何形式部署,包括作为独立程序或作为模块、组件、子例程,或其他适合在计算环境中使用的单元。计算机程序不一定与文件系统中的文件相对应。程序可以存储在保存其他程序或数据(例如,标记语言文档中存储的一个或多个脚本)的文件的一部分、专用于所讨论的程序的单个文件、或多个协调文件(例如,存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以部署在一台计算机上执行或者部署在位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上执行。
本文档中所描述的过程和逻辑流可由一个或多个可编程处理器执行,该可编程处理器执行一个或多个计算机程序以通过操作输入数据并生成输出来执行功能。处理和逻辑流还可以由专用逻辑电路执行,并且装置也可以实施为专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适于执行计算机程序的处理器包括,例如通用微处理器和专用微处理器二者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备、或可操作地耦接以从用于存储数据的一个或多个大容量存储设备接收数据或向其传输数据或两者,该一个或多个大容量存储设备,例如磁盘、磁光盘或光盘。然而,计算机不需要具有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪速存储器设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及光盘只读存储器(CD-ROM)和数字多功能光盘只读存储器(DVD-ROM)盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
尽管本专利文档包含许多细节,但这些细节不应被解释为对任何主题或可能要求保护的内容的范围的限制,而是对可能特定于特定技术的特定实施例的特征的描述。本专利文档中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实施。此外,尽管特征在上面可能被描述为在某些组合中起作用并且甚至最初如此要求保护,但在一些情况下,可以从组合中删除来自所要求保护的组合的一个或多个特征,并且所要求保护的组合可以指向子组合或子组合的变体。
类似地,虽然在附图中以特定顺序描述操作,但这不应理解为要求以所图示的特定顺序或顺序执行这种操作,或要求执行所有图示操作以实现期望结果。此外,本专利文档中所描述的实施例中的各种系统组件的分离不应理解为在所有实施例中都需要这种分离。
仅描述了一些实施方式和示例,并且可以基于本专利文档中描述和说明的内容来作出其他实施方式、增强和变化。
尽管本专利文档包含许多细节,但这些细节不应被解释为对任何主题或可能要求保护的内容的范围的限制,而是对可能特定于特定技术的特定实施例的特征的描述。本专利文档中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实施。此外,尽管特征在上面可能被描述为在某些组合中起作用并且甚至最初如此要求保护,但在一些情况下,可以从组合中删除来自所要求保护的组合的一个或多个特征,并且所要求保护的组合可以指向子组合或子组合的变体。
类似地,虽然在附图中以特定顺序描述操作,但这不应理解为要求以所图示的特定顺序或顺序执行这种操作,或要求执行所有图示操作以实现期望结果。此外,本专利文档中所描述的实施例中的各种系统组件的分离不应理解为在所有实施例中都需要这种分离。
仅描述了一些实施方式和示例,并且可以基于本专利文档中描述和说明的内容来作出其他实施方式、增强和变化。
Claims (49)
1.一种处理视频数据的方法,包括:
当一个或多个环路内滤波器被应用于视频单元时,在相对于所述一个或多个环路内滤波器的特定位置处将超分辨率(SR)过程应用于所述视频单元;以及
基于所应用的所述SR过程和所述一个或多个环路内滤波器,在包括所述视频单元的视频与所述视频的比特流之间执行转换。
2.根据权利要求1所述的方法,其中,所述SR过程的所述特定位置在所述一个或多个环路内滤波器之前。
3.根据权利要求1-2中任一项所述的方法,其中,所述特定位置紧接在已经被重建的所述视频单元之后。
4.根据权利要求3所述的方法,其中,所述视频单元包括块,并且其中所述块包括编解码树单元(CTU)和编解码树块(CTB)中的一个。
5.根据权利要求3所述的方法,其中,所述视频单元包括区域,并且其中所述区域包括编解码树单元(CTU)行。
6.根据权利要求1-5中任一项所述的方法,其中,所述一个或多个环路内滤波器包括第一环路内滤波器和第二环路内滤波器,并且其中所述特定位置在所述第一环路内滤波器之后且在所述第二环路内滤波器之前。
7.根据权利要求1-5中任一项所述的方法,其中,所述一个或多个环路内滤波器包括去块滤波器(DBF),并且其中所述特定位置在所述DBF之前。
8.根据权利要求1-5中任一项所述的方法,其中,所述一个或多个环路内滤波器包括去块滤波器(DBF)和采样自适应偏移(SAO),并且其中所述特定位置在所述DBF之后且在所述SAO之前。
9.根据权利要求1-5中任一项所述的方法,其中,所述一个或多个环路内滤波器包括采样自适应偏移(SAO)和自适应环路滤波器(ALF),并且其中所述特定位置在所述SAO之后且在所述ALF之前。
10.根据权利要求1-5中任一项所述的方法,其中,所述一个或多个环路内滤波器包括自适应环路滤波器(ALF),并且其中所述特定位置在所述ALF之后。
11.根据权利要求1-5中任一项所述的方法,其中,所述一个或多个环路内滤波器包括采样自适应偏移(SAO),并且其中所述特定位置在所述SAO之前。
12.根据权利要求1-5中任一项所述的方法,其中,所述一个或多个环路内滤波器包括自适应环路滤波器(ALF),并且其中所述特定位置在所述ALF之前。
13.根据权利要求1-5中任一项所述的方法,其中,所述一个或多个环路内滤波器包括第一滤波器,并且其中当所述第一滤波器占用原始视频单元时,所述特定位置在所述第一滤波器之前。
14.根据权利要求1所述的方法,其中,所述特定位置被包括在所述比特流中。
15.根据权利要求1所述的方法,其中,所述特定位置是基于解码信息导出的。
16.根据权利要求1-15中任一项所述的方法,还包括当所述一个或多个环路内滤波器未被应用于所述视频单元时,将所述SR过程应用于所述视频单元而不考虑所述特定位置。
17.根据权利要求1-15中任一项所述的方法,其中,所述一个或多个环路内滤波器包括去块滤波器(DBF)、采样自适应偏移(SAO)和自适应环路滤波器(ALF),并且其中所述方法还包括当所述DBF、SAO和ALF被禁用时将所述SR过程应用于所述视频单元而不考虑所述特定位置。
18.根据权利要求1-15中任一项所述的方法,其中,所述一个或多个环路内滤波器包括自适应环路滤波器(ALF),并且其中所述方法还包括当所述ALF被禁用时将所述SR过程应用于所述视频单元而不考虑所述特定位置。
19.根据权利要求1-15中任一项所述的方法,其中,所述一个或多个环路内滤波器包括交叉分量自适应环路滤波器(CC-ALF),其中所述视频单元包括色度分量,并且其中所述方法还包括当所述CC-ALF被禁用时,将所述SR过程应用于所述色度分量而不考虑所述特定位置。
20.根据权利要求1-19中任一项所述的方法,其中,所述一个或多个环路内滤波器的边信息的信令取决于所述SR过程的应用。
21.根据权利要求1-19中任一项所述的方法,其中,所述SR过程的应用取决于环路内滤波方法的使用。
22.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,所述基于神经网络的SR网络包括多个卷积层,并且其中所述多个卷积层包括上采样层,所述上采样层被配置为对所述视频单元的分辨率进行上采样。
23.根据权利要求22所述的方法,其中,所述上采样层应用步长为K的去卷积来对所述视频单元的所述分辨率进行上采样,其中K是大于1的整数。
24.根据权利要求23所述的方法,其中,K取决于解码信息。
25.根据权利要求22所述的方法,其中,所述上采样层应用像素混洗来对所述视频单元的所述分辨率进行上采样。
26.根据权利要求22所述的方法,其中,所述基于NN的SR网络的输入的分辨率是原始输入的1/K,其中K是下采样率。
27.根据权利要求26所述的方法,其中,来自所述多个卷积层中的第一卷积层被配置为融合所述基于NN的SR网络的输入以生成特征图。
28.根据权利要求27所述的方法,其中,所述基于NN的SR网络还包括顺序堆叠的残差块,并且其中所述顺序堆叠的残差块被配置为处理从所述第一卷积层接收的所述特征图。
29.根据权利要求28所述的方法,其中,所述多个卷积层中的最后卷积层被配置为处理从所述顺序堆叠的残差块中的最后残差块接收的所述特征图,以产生R个特征图,其中R等于K*K。
30.根据权利要求29所述的方法,其中,混洗层被配置为基于所述R个特征图生成所述视频单元,并且其中所述视频单元的空间分辨率与所述原始输入的空间分辨率相同。
31.根据权利要求28所述的方法,其中,所述顺序堆叠的残差块中的一个或多个按顺序次序由第一卷积层、参数修正线性单元(PReLU)激活函数和来自所述多个卷积层中的第二卷积层组成。
32.根据权利要求31所述的方法,其中,所述第一卷积层的输入被添加到所述第二卷积层的输出。
33.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,并且其中所述SR过程的输入处于所述视频单元级,其中所述视频单元是图片序列、图片、条带、片、砖块、子图片、一个或多个编解码树单元(CTU)、CTU行、一个或多个编解码单元(CU)、一个或多个编解码树块(CTB),或者覆盖一个以上像素的区域。
34.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,并且其中所述SR过程的输入是编解码树单元(CTU),并且其中已经对所述CTU进行了下采样。
35.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,并且其中所述SR过程的输入是帧,并且其中已经对所述帧进行了下采样。
36.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,并且其中所述SR过程的输入包括重建的亮度分量。
37.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,并且其中所述SR过程的输入包括重建的色度分量。
38.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,并且其中所述SR过程的输入包括重建的亮度分量和色度分量两者。
39.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,其中所述SR过程的输入包括亮度分量,并且其中所述SR过程的输出包括经上采样的色度分量。
40.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,其中所述SR过程的输入包括色度分量,并且其中所述SR过程的输出包括经上采样的亮度分量。
41.根据权利要求1-21中任一项所述的方法,其中,所述SR过程由基于神经网络(NN)的SR网络应用,并且其中所述SR过程的输入包括经解码的边信息。
42.根据权利要求1-21中任一项所述的方法,其中,所述SR过程的输入包括预测图片,并且其中所述SR过程的输出是经上采样的预测图片。
43.根据权利要求1所述的方法,其中,所述转换包括将所述视频数据编码到所述比特流中。
44.根据权利要求1所述的方法,其中,所述转换包括从所述比特流中解码所述视频数据。
45.一种用于处理媒体数据的装置,其包括处理器和其上具有指令的非暂时性存储器,其中所述指令在由所述处理器执行时使所述处理器:
当一个或多个环路内滤波器被应用于视频单元时,在相对于所述一个或多个环路内滤波器的特定位置处将超分辨率(SR)过程应用于所述视频单元;以及
基于所应用的所述SR过程和所述一个或多个环路内滤波器,在包括所述视频单元的视频与所述视频的比特流之间执行转换。
46.一种非暂时性计算机可读记录介质,其存储通过由视频处理装置执行的方法生成的视频的比特流,其中所述方法包括:
当一个或多个环路内滤波器被应用于视频单元时,在相对于所述一个或多个环路内滤波器的特定位置处将超分辨率(SR)过程应用于所述视频单元;以及
基于所应用的所述SR过程和所述一个或多个环路内滤波器来生成所述比特流。
47.一种用于处理媒体数据的装置,其包括处理器和其上具有指令的非暂时性存储器,其中所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至44中一项或多项所述的方法。
48.一种非暂时性计算机可读记录介质,其存储通过由视频处理装置执行的根据权利要求1至44中一项或多项所述的方法生成的视频的比特流。
49.一种计算机可读程序介质,其上存储有代码,所述代码包括指令,当所述指令由处理器执行时使所述处理器实现根据权利要求1至44中一项或多项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021104099 | 2021-07-01 | ||
CNPCT/CN2021/104099 | 2021-07-01 | ||
PCT/CN2022/103355 WO2023274405A1 (en) | 2021-07-01 | 2022-07-01 | Super resolution position and network structure |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117730339A true CN117730339A (zh) | 2024-03-19 |
Family
ID=84690507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280046877.7A Pending CN117730339A (zh) | 2021-07-01 | 2022-07-01 | 超分辨率定位与网络结构 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240137517A1 (zh) |
CN (1) | CN117730339A (zh) |
WO (1) | WO2023274405A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1980109B1 (en) * | 2006-01-31 | 2018-07-11 | Thomson Licensing DTV | Methods and apparatus for edge-based spatio-temporal filtering |
WO2014173970A1 (en) * | 2013-04-26 | 2014-10-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upsampling and signal enhancement |
JP7350082B2 (ja) * | 2019-03-07 | 2023-09-25 | オッポ広東移動通信有限公司 | ループフィルタリング方法、装置およびコンピュータ記憶媒体 |
CN112750094B (zh) * | 2020-12-30 | 2022-12-09 | 合肥工业大学 | 一种视频处理方法及系统 |
CN112907449B (zh) * | 2021-02-22 | 2023-06-09 | 西南大学 | 一种基于深度卷积稀疏编码的图像超分辨率重建方法 |
-
2022
- 2022-07-01 CN CN202280046877.7A patent/CN117730339A/zh active Pending
- 2022-07-01 WO PCT/CN2022/103355 patent/WO2023274405A1/en active Application Filing
-
2023
- 2023-12-27 US US18/397,302 patent/US20240137517A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023274405A1 (en) | 2023-01-05 |
US20240137517A1 (en) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114339221B (zh) | 用于视频编解码的基于卷积神经网络的滤波器 | |
US12113995B2 (en) | Neural network-based post filter for video coding | |
US11716469B2 (en) | Model selection in neural network-based in-loop filter for video coding | |
US12022098B2 (en) | Neural network-based in-loop filter with residual scaling for video coding | |
US12095988B2 (en) | External attention in neural network-based video coding | |
US20230051066A1 (en) | Partitioning Information In Neural Network-Based Video Coding | |
US20220394288A1 (en) | Parameter Update of Neural Network-Based Filtering | |
WO2022174784A1 (en) | On boundary padding motion vector clipping in image/video coding | |
US20240298020A1 (en) | Unified Neural Network In-Loop Filter | |
WO2022218385A1 (en) | Unified neural network filter model | |
WO2022174783A1 (en) | On boundary padding sample filtering in image/video coding | |
CN115379212A (zh) | 关于基于神经网络的环路内滤波器的填充方法 | |
US20230023579A1 (en) | Configurable Neural Network Model Depth In Neural Network-Based Video Coding | |
WO2023274405A1 (en) | Super resolution position and network structure | |
WO2023274406A1 (en) | Super resolution upsampling and downsampling | |
US20240236325A9 (en) | Super resolution downsampling | |
WO2023274404A1 (en) | Application of super resolution | |
US20240137518A1 (en) | Utilizing coded information during super resolution process | |
WO2024078635A1 (en) | Down-sampling methods and ratios for super-resolution based video coding | |
WO2022174801A1 (en) | On boundary padding size in image/video coding | |
US20230128496A1 (en) | Motion compensation with a sparse optical flow representation | |
WO2023245194A1 (en) | Partitioning information in neural network-based video coding | |
CN118266217A (zh) | 用于视频处理的方法、设备和介质 | |
CN118044195A (zh) | 用于视频处理的方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |