CN117616450A - 超分辨率的应用 - Google Patents

超分辨率的应用 Download PDF

Info

Publication number
CN117616450A
CN117616450A CN202280047224.0A CN202280047224A CN117616450A CN 117616450 A CN117616450 A CN 117616450A CN 202280047224 A CN202280047224 A CN 202280047224A CN 117616450 A CN117616450 A CN 117616450A
Authority
CN
China
Prior art keywords
different
video
processes
cnn
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280047224.0A
Other languages
English (en)
Inventor
林超逸
李跃
张凯
张召宾
张莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
ByteDance Inc
Original Assignee
Douyin Vision Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd, ByteDance Inc filed Critical Douyin Vision Co Ltd
Publication of CN117616450A publication Critical patent/CN117616450A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/174Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a slice, e.g. a line of blocks or a group of blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种处理视频数据的方法。该方法包括将不同的超分辨率(SR)过程应用于视频单元的不同的子区域,并基于所应用的不同的SR过程执行包括视频单元的不同的区域的视频和视频的比特流之间的转换。还公开了对应的视频编解码装置和非暂时性计算机可读记录介质。

Description

超分辨率的应用
相关申请的交叉引用
本专利申请是北京字节跳动网络技术有限公司等于2021年7月1日提交的、并且名称为“基于超分辨率的视频编解码的多模型选择”的国际申请No.PCT/CN2021/104103的继续申请,该申请通过引用并入本文。
技术领域
本公开总体上涉及视频编解码,尤其涉及用于视频编解码的基于超分辨率的上采样。
背景技术
数字视频占互联网和其他数字通信网络上最大的带宽使用。随着能够接收和显示视频的连接用户设备数量的增加,预计数字视频使用的带宽需求将继续增长。
发明内容
所公开的方面/实施例提供了将不同的超分辨率(SR)过程应用于视频单元的不同的子区域的技术。也就是说,一个SR过程可以应用于视频单元的第一子区域,而不同的SR过程可以应用于视频单元的第二子区域。因此,视频单元的不同部分能够经受不同的SR过程。这些技术可用于视频和图像编码、解码、流式传输和存储实现方式。因此,相对于传统的视频编解码技术,视频编解码过程得到了改进。
第一方面涉及了一种处理视频数据的方法。该方法包括:将不同的超分辨率(SR)过程应用于视频单元的不同的子区域,并且基于所应用的不同的SR过程执行包括视频单元的不同的区域的视频和视频的比特流之间的转换。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括基于神经网络(NN)的SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括非基于神经网络(NN)的SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的子区域包括第一子区域和第二子区域,其中基于神经网络(NN)的SR过程应用于第一子区域,并且其中非基于NN的SR过程应用于第二子区域。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的子区域包括第一子区域和第二子区域,其中具有第一设计的基于神经网络(NN)的SR过程被应用于第一子区域,并且其中具有第二设计的基于NN的SR过程被应用于第二子区域。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供具有第一设计的基于NN的SR过程与具有第二设计的基于NN的SR过程具有不同的输入。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供具有第一设计的基于NN的SR过程与具有第二设计的基于NN的SR过程具有不同的层数。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供具有第一设计的基于NN的SR过程与具有第二设计的基于NN的SR过程具有不同的步长。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供可用于应用的不同的SR过程的指示包括在比特流中。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供可用于应用的不同的SR过程的指示是基于解码信息导出的。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供可用于应用的不同的SR过程的指示是基于应用于参考子区域的SR过程导出的。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供能够应用于视频单元的不同的子区域的不同的SR过程的候选集合被包括在比特流中或者在解码器中预定义。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供候选集合包括多个不同的SR过程,每个SR过程具有不同的设计。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供候选集合包括基于神经网络(NN)的SR过程和非基于NN的SR过程两者。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程的不同的候选集合对应于不同的颜色分量、不同的条带类型或不同的量化参数(QP),并且其中不同的SR过程包括不同的基于神经网络(NN)的SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的基于NN的SR过程用于不同的QP的组,并且其中不同的QP的组被指定为QP/M,其中M是正整数。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的QP都被馈送到不同的基于NN的SR过程之一。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的候选集合包括第一候选集合和第二候选集合,并且其中第一候选集合用于亮度分量,并且第二候选集合用于色度分量。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供应用于三个不同的颜色分量中的每一个的不同的候选集合的数量取决于条带类型、图片类型和分割树类型中的一个或多个。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的候选集合包括第一候选集合和第二候选集合,并且其中第一候选集合用于第一类型的条带,并且第二候选集合用于第二类型的条带。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的候选集合包括第一候选集合和第二候选集合,其中第一候选集合用于第一颜色分量的第一类型条带,并且第二候选集合用于第一颜色分量的第二类型条带,并且其中第一候选集合用于第二颜色分量的第一类型条带和第二颜色分量的第二类型条带。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供为QP或QP之一训练不同的基于NN的SR过程之一。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程包括基于神经网络(NN)的SR过程和非基于NN的SR过程,其中基于NN的SR过程应用于视频单元,并且其中非基于NN的SR过程应用于不同的视频单元。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供视频单元和不同的视频单元各自为图片的序列、条带、片、图块、子图片、一个或多个编解码树单元(CTU)、CTU行、一个或多个编解码单元(CU)或者一个或多个编解码树块(CTB)。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供视频单元包括编解码树单元(CTU),并且其中不同的视频单元包括不同的CTU。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程被应用于视频单元或者非基于NN的SR过程被应用于不同的视频单元的指示被包括在比特流中。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供指示被包括在视频单元的序列标头、序列参数集(SPS)、图片参数集(PPS)、图片标头、条带标头、编解码树单元(CTU)、编解码树块(CTB)或矩形区域中。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程被应用于视频单元的第一颜色分量或者非基于NN的SR过程被应用于视频单元的第二颜色分量的指示被包括在比特流中。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程之一包括用于上采样的离散余弦变换插值滤波器(DCTIF)。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程之一包括双线性插值。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程之一包括双三次插值。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程之一包括Lanczos插值。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供比特流包括指示不同的SR过程之一的指示。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供索引被包括在比特流中以指示不同的SR过程之一。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程之一的一个或多个系数被包括在比特流中。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供指示不同的SR过程之一的指示被包括在视频单元的序列标头、序列参数集(SPS)、图片参数集(PPS)、图片标头、条带标头、编解码树单元(CTU)、编解码树块(CTB)或矩形区域中。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程中的哪一个被应用于不同的颜色分量的指示被包括在比特流中。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程中的一个由解码器确定,并使用交互式应用传送到编码器。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程之一包括具有一个或多个上采样层的基于神经网络(NN)的SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程包括基于卷积NN的SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个上采样层之一具有K的步长,其中K是正整数。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个上采样层之一利用像素混洗。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中根据参考图片列表信息来应用基于NN的SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中何时利用基于NN的SR过程或如何利用基于NN的SR过程取决于视频标准档次或级别。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中何时利用基于NN的SR过程或如何利用基于NN的SR过程取决于颜色分量。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中何时利用基于NN的SR过程或如何利用基于NN的SR过程取决于图片类型或条带类型。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中何时利用基于NN的SR过程或如何利用基于NN的SR过程取决于视频单元的内容或编解码信息。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中,当重建样点的方差大于预定阈值时,使用基于NN的SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中,当重建样点的分量的能量大于预定阈值时,使用基于NN的SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中是否使用基于NN的SR过程或如何使用基于NN的SR过程在视频单元级别被控制,其中视频单元包括图片的序列、条带、片、图块、子图片、一个或多个编解码树单元(CTU)、CTU行、一个或多个编解码单元(CU)或者一个或多个编解码树块(CTB)。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括启用CNN滤波器或禁用CNN滤波器的指示。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括应用哪个CNN滤波器的指示。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括CNN滤波器参数。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括CNN模型。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括卷积层的步长。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括CNN参数的精度。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,其中CNN信息被包括在图片的序列、条带、片、图块、子图片、一个或多个编解码树单元(CTU)、CTU行、一个或多个编解码单元(CU)或者一个或多个编解码树块(CTB)中。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程或不同的SR过程的集合的数量被包括在比特流中。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程或不同的SR过程的集合的数量对于不同的颜色分量是不同的。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供使用速率失真优化策略或失真最小化策略来确定将不同的SR过程中的哪一者应用于视频单元。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供使用不同的SR过程对视频单元进行上采样,使用质量度量将上采样的视频单元与原始分辨率下的视频单元进行比较,基于比较选择不同的SR过程之一,并在比特流中包括选择的不同的SR过程之一的索引。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程包括非基于神经网络(NN)的SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程包括卷积NN(CNN)SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供不同的SR过程包括非基于神经网络(NN)的SR过程和卷积NN(CNN)SR过程。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供质量度量是峰值信噪比(PSNR)。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供质量度量是多尺度结构相似性(MS-SSIM)。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于比较选择不同的SR过程之一是在编码器处执行的。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供基于比较选择不同的SR过程之一是在解码器处执行的,且其中使用质量度量计算的失真是基于除来自视频单元、视频单元的条带、视频单元的编解码树单元(CTU)、视频单元的编解码树块(CTB)或视频单元的矩形区域以外的样点。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供质量度量是结构相似性(SSIM)。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供质量度量是视频多方法评估融合(VMAF)。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供转换包括将视频数据编码成比特流。
可选地,在前述方面的任一方面中,该方面的另一实现方式提供转换包括从比特流中解码视频数据。
一种用于处理媒体数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中指令在由处理器执行时使处理器:对视频单元的不同的子区域应用不同的超分辨率(SR)过程;和基于所应用的不同的SR过程,执行包括视频单元的不同的区域的视频和视频的比特流之间的转换。
一种存储由视频处理装置执行的方法生成的视频的比特流的非暂时性计算机可读记录介质,其中方法包括:将不同的超分辨率(SR)过程应用于视频单元的不同的子区域;和基于所应用的不同的SR过程来生成比特流。
一种用于处理媒体数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中指令在由处理器执行时使得处理器执行所公开实施例中的任何实施例中所述的方法。
一种存储视频的比特流的非暂时性计算机可读记录介质,视频的比特流是通过由视频处理装置执行的所公开实施例中的任何实施例中所述的方法生成的。
一种其上存储有代码的计算机可读程序介质,代码包括指令,指令在由处理器执行时使处理器实现所公开实施例中的任何实施例中所述的方法。
为清晰起见,任何一个前述实施例可与任何一个或多个其他前述实施例组合,以在本公开的范围内形成新的实施例。
从以下结合附图和权利要求的详细说明中,可更清楚地理解这些和其他特征。
附图说明
为了更全面地理解本公开内容,现结合附图和详细说明参考以下简要说明,其中相同的参考数字代表相同的部件。
图1是图示了参考图片重采样(RPR)的示例应用的示意图。
图2是图示了去卷积的示例的示意图。
图3是图示了基于像素混洗的上采样过程的示例的示意图。
图4是像素混洗操作器的示例的示意图。
图5是上采样网络的示例的示意图。
图6是图示了获得残差块的示例的示意图,其中M表示滤波器的数量。
图7是像素混洗的逆过程的示例的示意图。
图8A-8D是图示了上采样的不同位置的示例的示意图。
图9是根据本公开的实施例的上采样的总体框架的示意图。
图10是用于重建Y通道的神经网络(NN)的示例的示意图。
图11是用于U和V通道的重建的神经网络的示例的示意图。
图12是显示了示例视频处理系统的框图。
图13是视频处理装置的框图。
图14是图示了视频编解码系统的示例的框图。
图15是图示了视频编码器的示例的框图。
图16是图示了视频解码器的示例的框图。
图17是根据本公开的实施例的处理视频数据的方法。
具体实施方式
首先应理解,尽管下文提供了一个或多个实施例的说明性实现方式,但可使用任何数量的技术实现所公开的系统和/或方法,无论是当前已知的还是现有的。本公开不应以任何方式限于以下示出的示例性实现方式、附图和技术,包括在此示出和描述的示例性设计和实现方式,而是可以在所附权利要求及其等同物的全部范围内进行修改。
视频编解码标准主要通过著名的国际电信联盟电信(ITU-T)和国际标准化组织(ISO)/国际电工委员会(IEC)标准的发展而演变的。ITU-T制定了H.261和H.263,ISO/IEC制定了移动图片专家组(MPEG)-1和MPEG-4视频,并且这两个组织联合制定了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/高效视频编解码(HEVC)标准。
自H.262以来,视频编解码标准基于混合视频编解码结构,其中利用了时域预测加变换编解码。为了探索HEVC之外的未来视频编解码技术,视频编解码专家组(VCEG)和MPEG在2015年联合成立了联合视频探索团队(JVET)。JVET采用了许多方法,并将其输入到名为联合勘探模型(JEM)的参考软件中。
2018年4月,VCEG(Q6/16)和ISO/IEC JTC1 SC29/WG11(MPEG)之间的联合视频专家组(JVET)成立,以致力于多功能视频编解码(VVC)标准,目标是与HEVC相比降低50%比特率。VVC版本1于2020年7月完成。
VVC的最新版本(被称为H.266)体现在2020年8月发布的题为“多功能视频编解码”的ITU-T文档中。VVC的参考软件被称为VVC测试模型(VTM)。VTM体现由Bossen等人在2020年8月13日发布的题为“JVET-软件手册”的JVET文档中。在一些描述中使用H.266术语仅仅是为了便于理解,而不是为了限制所公开技术的范围。因此,本文描述的技术也适用于其他视频编解码器协议和设计。
图1是图示了参考图片重采样(RPR)100的示例应用的示意图。RPR是VVC中的一种新机制,其中参考列表中的图片可以以不同于当前图片的分辨率存储,然后重新采样,以便执行常规解码操作。该技术的引入支持有趣的应用场景,例如具有自适应分辨率的实时通信,具有开放图片组(GOP)结构的自适应流。如图1所示,对下采样(也称为下采样的或向下采样的)序列进行编码,然后在解码后对重建进行上采样(也称为上采样的或向上采样的)。
讨论了常用的或传统的上采样技术。在VTM 11.0中,上采样滤波器是基于离散余弦变换(DCT)的插值滤波器(DCTIF)。除此之外,双三次插值和双线性插值也是常用的。在这些技术中,一旦给定了滤波器的抽头数,插值滤波器的权重系数就固定了。因此,这些方法的权重系数可能不是最佳的。
图2是图示了去卷积200的示例的示意图。去卷积也称为转置卷积,通常用于深度学习中的上采样。在这种方法中,卷积的步长与缩放比率相同。底部矩阵是低分辨率输入,其中白色块是带零的填充值,并且灰色块表示低分辨率的原始样点。顶部矩阵是高分辨率输出。在这个示例中,步长=2。
图3是图示基于像素混洗的上采样300的过程的示例的示意图。像素混洗层在W.Shi、J.Caballero等人的“使用高效亚像素卷积神经网络的实时单图像和视频超分辨率”(IEEE计算机视觉和模式识别会议论文集,2016年)中有所描述。像素混洗是深度学习中使用的另一种上采样方法。如图3所示,像素混洗层通常放置在卷积层之后。该卷积的滤波器数量为M=Coutr2,其中Cout为输出通道数量,并且r表示放大比率。例如,给定尺寸为H×W×3的低分辨率输入,当高分辨率输出的尺寸为2H×2W×3时,则滤波器的数量M=3×2^2=12。下面参考图9-10更详细地描述像素混洗技术。
讨论用于视频编解码的基于卷积神经网络的超分辨率。超分辨率(SR)是从低分辨率(LR)图像恢复高分辨率(HR)图像的过程。SR也可以被称为上采样。在深度学习中,卷积神经网络(也称为CNN或ConvNet)是一类常用于分析视觉图像的深度神经网络。CNN在图像和视频识别/处理、推荐系统、图像分类、医学图像分析和自然语言处理中有非常成功的应用。
CNN是多层感知器的正则化版本。多层感知器通常意味着全连接网络,即一层中的每个神经元都与下一层中的所有神经元相连。这些网络的“全连接性”使得它们容易过度拟合数据。典型的正则化方法包括向损失函数添加某种形式的权重大小测量。CNN采取不同的方法来实现正规化。也就是说,CNN利用数据中的分层模式,并使用更小和更简单的模式来组装更复杂的模式。因此,在连接性和复杂性的尺度上,CNN处于较低的极端。
与其他图像分类/处理算法相比,CNN使用相对较少的预处理。这意味着网络学习传统算法中手工设计的滤波器。这种在特征设计中独立于先验知识和人工努力是一个主要的优势。
讨论了图像/视频编解码的深度学习。基于深度学习的图像/视频压缩通常有两种含义:纯粹基于神经网络(NN)的端到端压缩和由神经网络增强的传统框架。第一种类型通常采用类似自动编码器的结构,通过卷积神经网络或递归神经网络来实现。虽然单纯依靠神经网络进行图像/视频压缩可以避免任何手动优化或手工设计,但压缩效率可能并不令人满意。因此,分布在第二类中的作品以神经网络为辅助,并且通过替换或增强某些模块来增强传统的压缩框架。这样,他们可以继承高度优化的传统框架的优点。
进一步详细讨论了基于CNN的超分辨率。在有损图像/视频压缩中,重建帧是原始帧的近似,因为量化过程是不可逆的,从而导致重建帧失真。在RPR的情况下,输入图像/视频可以被下采样。因此,原始帧的分辨率是重建分辨率的2倍。为了对低分辨率重建进行上采样,可以训练卷积神经网络来学习从失真的低分辨率帧到原始高分辨率帧的映射。在实践中,在部署基于神经网络的环路滤波之前,必须进行训练。例如,参见J.Lin等人在“用于HEVC的基于卷积神经网络的块上采样”(TCSVT 2019)中提出的用于HEVC的基于CNN的块上采样方法。对于每个编解码树单元(CTU)块,该方法确定是使用基于下/上采样的方法还是基于全分辨率的编解码。
讨论了训练。训练处理的目的是找到包括权重和偏差的参数的最佳值。首先,编解码器(例如,HEVC测试模型(HM)、联合探索模型(JEM)、VTM等)用于压缩训练数据集以生成失真的重建帧。
然后将重建的帧(低分辨率和压缩的)馈送到NN中,并且使用NN的输出和地面实况帧(也称为原始帧)计算成本。常用的成本函数包括绝对差和(SAD)和均方误差(MSE)。接下来,通过反向传播算法导出成本相对于每个参数的梯度。利用梯度,可以更新参数值。重复上述过程,直到满足收敛准则。在完成训练之后,导出的最佳参数被保存以用于推断阶段。
讨论了卷积过程。在卷积期间,滤波器在图像上从左到右、从顶部到底部移动,其中水平移动时列改变一个像素,然后垂直移动时行改变一个像素。将滤波器应用于输入图像之间的移动量被称为步长。步长的高度和宽度维度几乎总是对称的。对于高度和宽度移动,二维中的默认(多个)步长是(1,1)。
在大多数深度卷积神经网络中,残差块被用作基本模块,并被多次堆叠以构建最终网络。图6是图示了获得残差块600的示例的示意图,其中M表示滤波器的数量。如图6的示例所示,通过组合卷积层、整流线性单元(ReLU)/参数整流线性单元(PReLU)激活函数和如图6所示的卷积层来获得残差块。
讨论了推断。在推断阶段期间,失真的重建帧被馈送到NN,并由NN模型处理,NN模型的参数已经在训练阶段确定。到NN的输入样点可以是去块(DB)之前或之后的重建样点,或者是样点自适应偏移(SAO)之前或之后的重建样点,或者是自适应环路滤波器(ALF)之前或之后的重建样点。
不幸的是,上采样方法,包括传统滤波器(例如,双线性插值)和基于NN的方法,对于所有帧都是固定的。例如,现有的基于NN的SR方法通常使用一个神经网络来对一个视频序列中的所有帧进行上采样。然而,如果在一个方案中支持不同的上采样模型,例如基于神经网络(NN)的SR过程和传统的上采样滤波器,以获得更高的压缩效率,这将是有益的。也就是说,最好提供多个SR模型进行比较,然后基于比较结果选择最好的SR模型。
本文公开了将不同的超分辨率(SR)过程应用于视频单元的不同子区域的技术。也就是说,一个SR过程可以应用于视频单元的第一子区域,而不同的SR过程可以应用于视频单元的第二子区域。因此,视频单元的不同部分能够经受不同的SR过程。这些技术可用于视频和图像编码、解码、流式传输和存储实现方式。因此,相对于传统的视频编解码技术,视频编解码过程得到了改进。
为解决上述问题和一些其他未提及的问题,公开了如下总结的方法。下面的详细实施例应该被认为是解释一般概念的示例。这些实施例不应被狭义地解释。此外,这些实施例可以单独应用或者以任何方式组合应用。
在本公开中,基于NN的SR可为任何类型的基于NN的方法,例如基于卷积神经网络(CNN)的SR。在以下讨论中,基于NN的SR也可称为非基于CNN的方法,例如,使用基于机器学习的解决方案。
在以下讨论中,视频单元(又称视频数据单元)可为图片序列、图片、条带、片、图块、子图片、CTU/编解码树块(CTB)、CTU/CTB行、一个或多个编解码单元(CU)/编解码块(CB)、一个或多个CTU/CTB、一个或多个虚拟管线数据单元(VPDU)或图片/条带/片/图块内的子区域。在一些实施例中,视频单元可以被称为视频数据单元。
示例1
1.提出了对于视频单元内的两个子区域(例如,图片/条带/片/子图片),可以应用两种不同的SR方法。
a.在一个示例中,SR方法可包括基于NN的解决方案。
b.在一个示例中,SR方法可包括非基于NN的解决方案(例如,通过传统滤波器)。
c.在一个示例中,对于第一子区域,使用基于NN的解决方案,并且对于第二子区域,使用非基于NN的解决方案。
d.在一个示例中,对于第一子区域,使用具有第一设计/模型的基于NN的解决方案,并且对于第二子区域,使用具有第二设计/模型的基于NN的解决方案。
i.在一个示例中,第一/第二设计可具有不同的输入。
ii.在一个示例中,第一/第二设计可以具有不同数量的层。
iii.在一个示例中,第一/第二设计可以具有不同的步长。
e.在一个示例中,可在比特流中信令通知或即时导出允许的SR方法和/或要用于子区域的SR方法的指示。
i.在一个示例中,它可根据解码信息(例如,有多少/比率的样点进行了帧内编解码)导出。
ii.在一个示例中,它可以根据用于参考子区域(例如,并置的子区域)的SR解决方案来导出。
2.视频单元的候选集可被预定义或在比特流中被信令通知,其中候选集可包括用于要从中选择的视频单元中的样点的多个SR解决方案。
a.在一个示例中,候选集可包括具有不同模型/设计的多个基于NN的方法。
b.在一个示例中,候选集可包括基于神经网络的方法和非基于NN的方法。
c.在一个示例中,基于NN的SR模型的不同候选集用于不同情况,例如,根据解码信息。
d.在一个示例中,存在对应于不同颜色分量、和/或不同条带类型、和/或不同量化参数(QP)的基于神经网络的SR模型的不同集合
1.在一个示例中,QP可以被分类成几个组。例如,不同的基于NN的SR模型可以用于不同的组[QP/M],其中M是整数,例如6。
2.在一个示例中,QP被馈送到SR模型中,其中一个模型可以对应于所有QP。在这种情况下,只使用一个QP组。
ii.在一个示例中,亮度分量和色度分量可以采用基于NN的SR模型的不同集合。
1.在一个示例中,基于NN的SR模型的第一集合被应用于亮度分量,并且基于NN的SR模型的第二集合被应用于至少一个色度分量。
2.在一个示例中,每个颜色分量与其自己的基于NN的SR模型的集合相关联。
3.或者,此外,多少基于NN的SR模型的集合将被应用于三色分量可以取决于条带/图片类型和/或分割树类型(单树或双树)等。
iii.在一个示例中,两种条带类型(例如,I条带和B(或P)条带)可以利用基于NN的SR模型的不同集合。
iv.在一个示例中,对于第一颜色分量,两种条带类型(例如,I条带和B(或P)条带)可以利用基于NN的SR模型的不同集合;而对于第二颜色分量,两种条带类型(例如,I条带和B(或P)条带)可以利用基于NN的SR模型的相同集合。
v.在一个示例中,对于每个QP或QP组,训练一个基于NN的SR模型。NN模型的数量等于QP或QP组的数量。
3.在一个示例中,基于NN(例如,基于CNN)的SR和传统滤波器可以一起使用。
a.在一个示例中,对于不同的视频单元(例如,序列/图片/条带/片/图块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别,可一起使用不同的上采样。
i.例如,对于一个图片中的不同CTU,一些CTU可能选择传统的滤波器,而其他CTU可能偏好基于NN的SR方法。
b.在一个示例中,基于NN的SR和传统滤波器的选择可从编码器信令通知至解码器。
i.可在序列标头/SPS/PPS/图片标头/条带标头/CTU/CTB或任何矩形区域中被信令通知选择。
ii.对于不同颜色分量,可以信令通知不同的选择。
4.在上面的示例中,传统的滤波器可以用作上采样方法。
a.在一个示例中,DCT插值滤波器(DCTIF)可用作上采样方法。
b.在一个示例中,双线性插值可用作上采样方法。
c.在一个示例中,双三次插值可用作上采样方法。
d.在一个示例中,Lanczos插值可用作上采样方法。
e.在一个示例中,可从编码器向解码器信令通知上采样方法。
i.在一个示例中,可信令通知索引以指示上采样滤波器。
ii.在一个示例中,可以直接或间接地被信令通知上采样滤波器的至少一个系数。
iii.上采样方法可以在序列标头/SPS/PPS/图片标头/条带标头/CTU/CTB或任何矩形区域中被信令通知。
iv.对于不同颜色分量,可以信令通知不同的上采样方法。
f.在一个示例中,解码器侧可能需要上采样方法,并将其告知交互式应用中的编码器侧。
5.在一个示例中,基于NN的SR可以被用作上采样方法。
a.在一个示例中,SR的网络应包括至少一个上采样层。
i.在一个示例中,神经网络可为CNN。
ii.在一个示例中,步长为K(例如,K=2)的去卷积可以用作上采样层,如图2所示。
iii.在一个示例中,像素混洗方法可以用作上采样层,如图3所示。
6.根据参考图片列表信息,基于NN(例如,基于CNN)的SR可以被应用于某些条带/图片类型、某些时域层或某些条带/图片。
示例2
该示例涉及上采样方法的选择。
7.是否和/或如何使用基于NN(例如,基于CNN)的SR(表示为CNN信息)可以取决于视频标准档案或级别。
8.是否和/或如何使用基于NN(例如,基于CNN)的SR(表示为CNN信息)可能取决于颜色分量。
9.是否和/或如何使用基于NN(例如,基于CNN)的SR(表示为CNN信息)可以取决于图片/条带类型。
10.是否和/或如何使用基于NN(例如,基于CNN)的SR(表示为CNN信息)可取决于视频单元的内容或编解码信息。
a.在一个示例中,当重建样点的方差大于预定义阈值时,将使用基于NN的SR。
b.在一个示例中,当重建样点的高频分量的能量大于预定义阈值时,将使用基于NN的SR。
11.是否和/或如何使用基于NN的(例如,基于CNN的)SR(表示为CNN信息)可以在视频单元(例如,序列/图片/条带/片/图块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别进行控制。
a.CNN信息可包括以下一项或多项。
i.启用/禁用CNN滤波器的指示。
ii.应用哪种CNN滤波器。
iii.CNN滤波参数。
iv.CNN模型。
v.卷积层的步长。
vi.CNN参数的精度。
b.在一个示例中,CNN信息可在视频单元级别被信令通知。
i.在一个示例中,CNN信息可在序列标头/SPS/PPS/图片标头/条带标头/CTU/CTB或任何矩形区域中被信令通知。
12.不同CNN SR模型和/或CNN集合模型的集合的数量可以被信令通知给解码器。
a.不同CNN SR模型和/或CNN集合模型的集合的数量对于不同的颜色分量可以不同。
13.在一个示例中,速率失真优化(RDO)策略或失真最小化策略用于确定一个视频单元的上采样。
a.在一个示例中,不同的基于CNN的SR模型将用于对当前输入进行上采样(例如,亮度重建)。然后计算通过不同的基于CNN的SR模型的上采样重建和对应的原始输入(未下采样和压缩的输入)之间的PSNR值。获得最高PSNR值的模型将被选为上采样的模型。可以信令通知该模型的索引。
i.在一个示例中,多尺度结构相似性(MS-SSIM)值代替峰值信噪比(PSNR)值用作度量。
b.在一个示例中,对不同的传统上采样滤波器进行比较,并选择实现最佳质量度量的滤波器。
i.在一个示例中,质量度量为PSNR。
c.在一个示例中,对不同的基于CNN的SR模型和传统滤波器进行比较,并选择实现最佳质量度量的一个。
i.在一个示例中,质量度量为PSNR。
d.可在编码器或解码器处执行该确定。
i.如果在解码器处执行该确定,可基于除当前图片/条带//CTU/CTB或任何矩形区域之外的样点计算失真。
14.不同质量度量可以用作度量。
a.在一个示例中,质量指标为PSNR。
b.在一个示例中,质量度量为SSIM。
c.在一个示例中,质量度量为MS-SSIM。
d.在一个示例中,质量度量是视频多方法评估融合(VMAF)。
示例3
该示例涉及基于SR的视频编解码的下采样方法。
1.在一个示例中,下采样方法可以是传统的滤波器。
a.在一个示例中,离散余弦变换插值滤波器(DCTIF)可用于下采样。
b.在一个示例中,双线性插值可用于下采样。
c.在一个示例中,双三次插值可用于下采样。
d.在一个示例中,可从编码器向解码器信令通知下采样方法。
i.在一个示例中,可信令通知索引以指示下采样滤波器。
ii.在一个示例中,可以直接或间接地被信令通知下采样滤波器的至少一个系数。
iii.下采样方法可以在序列标头/SPS/PPS/图片标头/条带标头/CTU/CTB或任何矩形区域中被信令通知。
iv.对于不同颜色分量,可以信令通知不同的下采样方法。
e.在一个示例中,在交互式应用中,解码器侧可能需要下采样方法,并告知编码器侧。
2.在一个示例中,下采样方法可以是基于神经网络(NN)的方法,例如基于卷积神经网络(CNN)的方法。
a.基于CNN的下采样方法应包括至少一个下采样层。
i.在一个示例中,步长为K(例如,K=2)的卷积可用作下采样层,并且下采样比率为K。
ii.在一个示例中,像素不混洗方法后跟步长为1的卷积可以用于下采样。图7中示出了像素不混洗。图7是像素混洗700的逆过程的示例的示意图。在实施例中,像素混洗的逆过程具有2的下采样比率。
3.一系列下采样可以用于实现特定的下采样比率。
a.在一个示例中,在一个网络中使用两个步长为K(例如,K=2)的卷积层。在这种情况下,下采样比率为4。
b.在一个示例中,两个传统下采样滤波器(每个下采样比率为2)用于下采样比率为4。
4.在一个示例中,传统的滤波器和基于CNN的方法可以被组合用于特定的下采样比率。
a.在一个示例中,使用传统的滤波器,然后使用基于CNN的方法。传统滤波器实现2倍下采样,并且基于CNN的方法实现2倍下采样。因此,输入被下采样4倍。
5.当对特定的输入视频单元级别进行下采样时,可以对不同的下采样方法进行相互比较,以选择最佳的下采样方法。
a.在一个示例中,有K个(例如K=3)基于CNN的下采样模型。对于一个特定的输入,三个下采样模型将分别对输入进行下采样。下采样重建将被上采样到原始分辨率。质量度量(例如,PSNR)被用来测量三个上采样结果。达到最佳性能的模型将被用于执行真正的下采样。
i.在一个示例中,质量度量为MS-SSIM。
ii.在一个示例中,质量度量是PSNR。
b.可向编码器或解码器信令通知下采样方法的索引。
6.下采样方法可以被信令通知给解码器。
a.在一个示例中,基于CNN的下采样方法用于下采样。对于一个特定的视频单元(例如,帧)级别,所选模型的索引将被信令通知给解码器。
b.在一个示例中,一帧内的不同CTU使用不同的下采样方法。在这种情况下,对应方法的所有索引可以被信令通知给解码器。
c.在一个示例中,可直接或间接信令通知下采样滤波器的至少一个系数。
d.可为不同颜色分量信令通知不同的下采样方法。
e.在一个示例中,解码器侧可能需要下采样方法,并将其告知交互式应用中的编码器侧。
示例4
该示例讨论了输入的下采样比率。
7.下采样方法的输入可以在所有视频单元(例如,序列/图片/条带/片/图块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别。
a.在一个示例中,输入是具有其原始分辨率尺寸的帧级别。
b.在一个示例中,输入为一个尺寸为128×128的CTU级别。
8.在一个示例中,输入是一帧内的块,其尺寸不受限制。
c.在一个示例中,它可以是空域尺寸为(M,N)的块,例如,M=256,N=128。
9.在一个示例中,在所有视频单元(例如,序列/图片/条带/片/图块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别,下采样比率可以是不同的。
d.在一个示例中,对于一个序列的所有帧,下采样比率为2。
e.在一个示例中,对于一帧的所有CTU,下采样比率为2。
f.在一个示例中,第一帧的下采样比率为2,并且下一帧的下采样比率可为4。
g.可使用不同视频单元级别的下采样比率的组合。
i.在一个示例中,一帧的下采样比率为2,并且同一帧中一个CTU的下采样比率可为4。在这种情况下,CTU将被下采样4倍。
10.在一个示例中,对于输入视频单元级别的所有分量,下采样比率可以不同。
h.在一个示例中,亮度和色度分量两者的下采样比率均为2。
i.在另一示例中,亮度分量的下采样比率为2,并且色度分量的下采样比率为4。
11.在一个示例中,下采样比率可以是1,这意味着不执行下采样。
j.可在所有视频单元(例如,序列/图片/条带/片/图块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB)级别应用下采样比率。
12.下采样比率可以通过比较来确定。
k.在一个示例中,可对一帧使用2x和4x下采样比率。在这种情况下,编码器可以用2x下采样压缩视频单元,然后用4x下采样压缩视频单元。之后,再用同样的上采样方法对低分辨率重建进行上采样。然后计算每个结果的质量度量(例如,PSNR)。实现最佳重建质量的下采样比率将被选择作为用于压缩的真实下采样比率。
i.在一个示例中,质量度量为MS-SSIM。
13.该确定可以在编码器或解码器处执行。
ii.如果在解码器处执行该确定,则可以基于除当前图片/条带//CTU/CTB或任何矩形区域之外的样点来计算失真。
14.不同的质量度量可以用作比较的度量。
e.在一个示例中,质量度量为PSNR。
f.在一个示例中,质量度量为SSIM。
g.在一个示例中,质量度量为MS-SSIM。
h.在一个示例中,质量度量为VMAF。
15.在一个示例中,可在视频单元级别中信令通知下采样比率。
l.在一个示例中,CNN信息可在SPS/PPS/图片标头/条带标头/CTU/CTB中被信令通知。
示例5
该示例涉及SR的位置。图8A-8D是图示了上采样800的不同位置的示例的示意图。
1.超分辨率(SR)过程,例如基于NN的或非基于NN的SR过程,可以放置在环路滤波器之前。
a.在一个示例中,可在重建块(例如,CTU/CTB)后立即调用SR过程。
b.在一个示例中,可在重建区域(例如,CTU行)后立即调用SR过程。
2.超分辨率(SR)过程,例如基于NN的或非基于NN的SR过程,可以被放置在环路滤波器链中的不同位置。
a.在一个示例中,可在给定的环路滤波器之前或之后应用SR过程。
i.在一个示例中,如图8A所示,SR过程被放置在去块滤波器(DBF)之前。
ii.在一个示例中,如图8B所示,SR过程被放置在DBF和SAO之间。
iii.在一个示例中,SR过程被放置在SAO和ALF之间,如图8C所示。
iv.在一个示例中,超分辨率被放置在ALF之后,如图8D所示。
v.在一个示例中,SR过程被放置在SAO之前。
vi.在一个示例中,SR过程被放置在ALF之前。
b.在一个示例中,是否在给定的环路滤波器之前应用SR可取决于环路滤波器决策过程是否考虑了原始图像。
3.SR过程的位置的指示可以在比特流中被信令通知,或者根据解码的信息即时确定。
4.诸如基于NN或非基于NN的SR过程的SR过程可以专门与诸如环路滤波器的其他编解码工具一起使用,即,当应用SR过程时,那么一种或多种环路滤波器可能不再被应用,反之亦然。
a.在一个示例中,SR过程可专门与至少一种环路滤波器一起使用。
i.在一个示例中,当应用SR过程时,原始环路滤波器,例如DB、SAO和ALF全部关闭。
ii.在一个示例中,当ALF被禁用时,可以应用SR过程。
iii.在一个示例中,当跨分量自适应环路滤波器(CC-ALF)被禁用时,SR过程可以被应用于色度分量。
b.在一个示例中,环内滤波方法的辅助信息的信令通知可取决于是否/如何应用SR过程。
c.在一个示例中,是否/如何应用SR过程可取决于环内滤波方法的使用。
示例6
该示例涉及SR网络结构。
5.所提出的基于NN(例如,基于CNN)的SR网络包括多个卷积层。在所提出的网络中使用了上采样层来对分辨率进行上采样。
a.在一个示例中,步长K大于1(例如K=2)的去卷积可用于上采样。
vi.在一个示例中,K可以取决于解码信息(例如,颜色格式)。
b.在一个示例中,像素混洗用于上采样,如图5所示。图5是上采样网络500的示例的示意图。假设下采样比为K,其中LR输入的分辨率为原始输入的1/K。第一3×3卷积用于融合来自LR输入的信息并生成特征映射。然后,来自第一卷积层的输出特征映射经过几个顺序堆叠的残差块,每个残差块标记为RB。特征映射被标记为M和R。最后一个卷积层将来自最后一个残差块的特征映射作为输入,并产生R(例如,R=K*K)个特征映射。最后,采用混洗层生成空域分辨率与原始分辨率相同的滤波图像。
c.在一个示例中,残差块可用于SR网络中。在一个示例中,残差块由三个顺序连接的组件组成,如图6所示:一个卷积层、一个PReLU激活函数和一个卷积层。第一卷积层的输入与第二卷积层的输出相加。
6.基于NN(例如,基于CNN)的SR网络的输入可以是不同的视频单元(例如,序列/图片/条带/片/图块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB,或任何矩形区域)级别。
a.在一个示例中,SR网络的输入可以是作为下采样的CTU块。
b.在一个示例中,输入是被下采样的整个帧。
7.基于NN(例如基于CNN)的SR网络的输入可以是不同颜色分量的组合。
a.在一个示例中,输入可为重建的亮度分量。
b.在一个示例中,输入可以是重建的色度分量。
c.在一个示例中,输入可以是同一重建的亮度和色度分量两者。
8.在一个示例中,亮度分量可以用作基于NN(例如,基于CNN)的SR网络的输入和输出是上采样的色度分量。
9.在一个示例中,色度分量可以用作基于NN(例如,基于CNN)的SR网络的输入和输出是上采样的亮度分量。
10.基于NN(例如,基于CNN)的SR网络不限于对重建进行上采样。
a.在一个示例中,解码的辅助信息可用作基于NN(例如,基于CNN)的SR网络的输入以用于上采样。
i.在一个示例中,预测图片可用作上采样的输入。网络的输出是上采样的预测图片。
示例7
1.提出了可以在超分辨率过程期间利用编解码(编码/解码)信息。
a.在一个示例中,编解码信息可用作基于NN的SR解决方案的输入。
b.在一个示例中,编解码信息可用于确定要应用的SR解决方案。
c.在一个示例中,编解码信息可包括分割信息、预测信息和帧内预测模式等。
i.在一个示例中,输入包括重建的低分辨率样点和其他解码信息(例如,分割信息、预测信息和帧内预测模式)。
ii.在一个示例中,分割信息具有与重建的低分辨率帧相同的分辨率。分割中的样点值是通过对编解码单元中的重建样点进行平均来导出的。
iii.在一个示例中,预测信息可以是从帧内预测或IBC预测或帧间预测生成的预测样点。
iv.在一个示例中,帧内预测模式具有与重建的低分辨率帧相同的分辨率。通过在对应的编解码单元中填充帧内预测模式来导出帧内预测模式中的样点值。
v.在一个示例中,QP值信息可用作辅助信息,以提高上采样重建的质量。
1.在一个示例中,通过用QP值填充矩阵来构建QP映射,并且其空域大小与其他输入数据相同。QP映射将被馈送到超分辨率网络中。
示例8
该示例涉及SR网络输入的颜色分量。
2.在应用于第二颜色分量的SR过程期间,可以利用与第一颜色分量相关的信息。
a.与第一颜色分量相关的信息可用作应用于第二颜色分量的SR过程的输入。
b.色度信息可用作亮度上采样过程的输入。
c.亮度信息可用作色度上采样过程的输入。
i.在一个示例中,可使用环路滤波器之前的亮度重建样点。
1.或者,可以使用环路滤波器后的亮度重建样点。
ii.在一个示例中,NN的输入包含色度重建样点和亮度重建样点两者。
1.在一个示例中,亮度信息可以被下采样到与色度分量相同的分辨率。下采样的亮度信息将与色度分量级联(concatenate)。
a.在一个示例中,下采样方法为双线性插值。
b.在一个示例中,下采样方法为双三次插值。
c.在一个示例中,下采样方法是步长等于原始帧的缩放比例的卷积。
d.在一个示例中,下采样方法是像素混洗的逆过程,如图7所示。尺寸为4x4x1的高分辨率块(HR块)将被下采样为尺寸为2x2x4的低分辨率块(LR块)。LR块的每个通道中的第一元素的字体和HR块中的对应位置是粗体。
e.在一个示例中,下采样方法可取决于颜色格式,例如4:2:0或4:2:2。
f.在一个示例中,可从编码器向解码器信令通知下采样方法。
g.或者,此外,是否应用下采样过程可取决于颜色格式。
2.在另一个示例中,颜色格式是4:4:4,并且不对亮度信息执行下采样。
iii.在一个示例中,可以使用环路滤波器之前的色度重建样点。
1.或者,可以使用环路滤波器之后的色度重建样点。
iv.在一个示例中,NN的输入包含色度重建样点和亮度重建样点两者。
v.在一个示例中,NN的输入包含色度重建样点和亮度预测样点两者。
d.在一个示例中,一个色度分量(例如,Cb)信息可用作另一个色度分量(例如,Cr)上采样过程的输入。
e.在一个示例中,输入包括重建样点和解码信息(例如,模式信息和预测信息)。
i.在一个示例中,模式信息为二进制帧,其中每个值指示样点是否属于跳过编解码单元。
ii.在一个示例中,通过帧间编解码的编解码单元的运动补偿来导出预测信息。
3.在一个示例中,预测信息可以用作应用于重建的SR过程的输入。
a.在一个示例中,预测图片的亮度信息可用作重建的亮度分量的SR过程的输入。
b.在一个示例中,预测图片的亮度信息可用作重建的色度分量的SR过程的输入。
c.在一个示例中,预测图片的色度信息可用作重建的色度分量的SR过程的输入。
d.在一个示例中,预测图片的亮度和色度信息可一起用作重建(例如,亮度重建)的SR过程的输入。
e.在预测信息不可用的情况下(例如编解码模式为调色板或PCM),填充预测样点。
4.在一个示例中,分割信息可以用作应用于重建的SR过程的输入。
a.在一个示例中,分割信息具有与重建的低分辨率帧相同的分辨率。分割中的样点值是通过对编解码单元中的重建样点进行平均来导出的。
5.在一个示例中,帧内预测模式信息可用作应用于重建的SR过程的输入。
a.在一个示例中,可使用通过帧内或帧间预测的当前样点的帧内预测模式。
i.在一个示例中,与重建分辨率相同的帧内预测模式矩阵被构建为SR过程的一个输入。对于帧内预测模式矩阵中的每个样点,该值来自对应CU的帧内预测模式。
示例9
这个示例涉及一般的解决方案。
6.在一个示例中,上述方法可以应用于特定图片/条带类型,例如I条带/图片,例如,训练基于NN的SR模型以对I条带中的重建样点进行上采样。
7.在一个示例中,上述方法可以应用于B/P条带/图片,例如,训练基于NN的SR模型以对B条带或P条带中的重建样点进行上采样。
示例10
该示例涉及SR的处理单元。
1.超分辨率/上采样过程可以在SR单元级别执行,其中SR单元覆盖多于一个样点/像素。
a.在一个示例中,SR单元可与视频单元相同,其中调用下采样过程。
b.在一个示例中,SR单元可不同于视频单元,其中调用下采样过程。
i.在一个示例中,即使在图片/条带/片级别执行下采样,SR单元也可以是块(例如,CTU)。
ii.在一个示例中,即使下采样是在CTU/CTB级别中执行的,SR单元也可以是CTU行或多个CTU/CTB。
c.或者,此外,对于基于NN的SR方法,可将网络的输入设置到SR单元。
d.或者,此外,对于基于NN的SR方法,可将网络的输入设置为包含待上采样的SR单元和其他样点/像素的区域。
e.在一个示例中,SR单元可在比特流中指示或预定义。
2.对于两个SR单元,超分辨率方法/上采样方法可以不同。
a.在一个示例中,超分辨率方法/上采样方法可包括基于NN的解决方案和非基于NN的解决方案(例如,传统上采样滤波方法)。
3.SR网络的输入可以在不同的视频单元(例如,序列/图片/条带/片/图块/子图片/CTU/CTU行/一个或多个CU或CTU/CTB,或者覆盖多于一个样点/像素的任何区域)级别。
a.在一个示例中,SR网络的输入可为下采样的CTU块。
b.在一个示例中,输入是下采样的整个帧。
4.基于CNN的SR模型可以用于对不同的视频单元级别进行上采样。
a.在一个示例中,基于CNN的SR模型在帧级别数据上进行训练,并用于对帧级别输入进行上采样。
b.在一个示例中,基于CNN的SR模型在帧级别数据上进行训练,并用于对CTU级别输入进行上采样。
c.在一个示例中,基于CNN的SR模型在CTU级别数据上进行训练,并用于对帧级别输入进行上采样。
d.在一个示例中,基于CNN的SR模型在CTU级别数据上训练,并用于对CTU级别输入进行上采样。
示例11
该示例涉及SR网络输入的辅助信息。
5.视频单元的下采样比率可以被视为SR网络的输入。
a或者,此外,卷积层可配置有取决于下采样比率的步长。
b.SR网络输入的下采样比率可以是任意正整数。
i.或者,此外,输入的最小空域分辨率应为1×1。
c.SR网络输入的下采样比率可以是任意两个正整数的比率,例如3:2。
d.水平下采样比率和垂直下采样比率可以相同,或者它们可以不同。
6.提出可以在上采样过程期间利用编码/解码的信息。
a.在一个示例中,编码/解码信息可用作超分辨率网络的输入。
b.在一个示例中,编码/解码信息可包括但不限于预测信号、分割结构、帧内预测模式。
讨论了其他技术解决方案。
图9是根据本公开的实施例的用于上采样900的总体框架的示意图。
讨论了上采样前的预处理。
1.输入原始序列的帧,或称为高分辨率帧(HR帧),将在编码前按规定的缩放比率下采样。
a)在一个示例中,缩放比率r=2。
2.被下采样的帧被称为低分辨率帧(LR帧),将被视频编解码编码器编码。
3.对于当前帧,有2个基于NN的模型用于确定超分辨率。
亮度和色度两者的上采样过程在步骤4至12中讨论。
4.在上采样之前提取重建帧recLR、预测帧predLR和基本QP值。
5.归一化重建Y、U和V通道、预测Y通道和基本QP值。在一个示例中,归一化的等式是:
其中[i,j]是帧中像素的坐标,Yrec表示重建帧的Y通道,Urec表示重建帧的U通道,Vrec表示重建帧的V通道,并且Ypred表示预测帧的Y通道。
6.通过用QPnorm填充矩阵来构建QP映射,并且QP映射的尺寸应该与相同。
QP_MAP[i,j]=QPnorm
其中[i,j]是帧中像素的坐标。
讨论了Y通道的上采样。
7.将QP_MAP、和/>馈送到为Y通道设计的神经网络中。在一个示例中,神经网络如图10所示。图10是用于重建Y通道1000的NN的示例的示意图。术语“Conv kxk,M”表示核尺寸k的卷积,并且滤波器的数量是M。术语B是残差块(RB)的数量。术语R是缩放比率r的平方。
网络的输入由三部分组成:QP映射、和/>QP映射是用于压缩的基本QP,并且/>和/>分别表示低分辨率重建帧和对应的低分辨率预测帧。/>表示神经网络的高分辨率输出,它与原始帧具有相同的分辨率。如图10所示,网络由残差块和用于上采样的像素混洗层组成。
a)在一个示例中,图6中展示残差块。
b)在一个示例中,图10中的上采样块使用如图4所示的像素混洗层。图4是像素混洗操作器400的示例的示意图。尺寸为2x2x4的低分辨率块(LR块)被上采样为尺寸为4x4x1的高分辨率块(HR块)。LR块的每个通道中的第一个元素的字体和HR块中的对应位置是粗体。
c)或者,上采样块可以使用步长等于上缩放比率的去卷积。
d)在另一个示例中,神经网络的主体可以是不同的,只要它在神经网络的输出之前有一个上采样层。
8.对为Y通道数据设计的神经网络的输出进行去归一化。在一个示例中,去归一化的等式是:
其中[i,j]是帧中像素的坐标,是神经网络的输出,并且/>返回输入x的底值。
以下步骤用于上采样色度分量(U和V通道)。
9.将下采样到与/>相同的分辨率。下采样的/>被表示为/>
a)在一个示例中,下采样方法是双线性插值。
b)在一个示例中,下采样方法是双三次插值。
c)在一个示例中,下采样方法是步长等于原始帧的缩放比率的卷积。
d)在一个示例中,下采样方法是像素混洗的逆方法,如图7所示。
10.将和QP_MAP馈送到为U和V通道设计的神经网络中。在一个示例中,神经网络在图11中示出。图11是用于重建U和V通道1100的神经网络的示例的示意图。在图11中,术语下表示下采样。术语“Conv kxk,M”表示核尺寸k的卷积,并且滤波器的数量是M。术语B是残差块(RB)的数量。术语R是缩放比例r的平方。网络的输入由四部分组成:QP映射、/>和/>QP映射是压缩的基本QP,并且/>和/>分别表示Y、U和V通道的低分辨率重建帧。/>和/>分别表示U和V通道的高分辨率重建。
a)在一个示例中,图6中示出了残差块。
b)在一个示例中,上采样层是像素混洗层。
c)或者,上采样块可以使用步长等于上缩放比率的去卷积。
d)在另一个示例中,神经网络的主体可以是不同的,只要它在神经网络的输出之前具有一个上采样层。
11.获取为U和V通道设计的神经网络的输出,并对其进行去归一化。
其中[i,j]是帧中像素的坐标,和/>是神经网络的输出,两者都是高分辨率的,并且/>返回输入x的底值。
12.构建上采样的高分辨率重建:
步骤13-步骤15模型选择过程。
计算最终重建和原始帧之间的PSNR值。
对其他基于CNN的SR模型重复步骤4-步骤12,并比较PSNR值。
选择实现用于实际上采样的最高PSNR值的模型,并将该模型的索引信令通知给比特流。假设model_1实现了最佳的PSNR性能,那么model_1将被用于执行上采样过程。此外,该模型的索引(例如,索引=1)将被信令通知给比特流。
通过步骤3至步骤15对复位帧进行编码,直到所有帧都被编码。
图12是可实现本文中所公开的各种技术的示例视频处理系统1200的框图。各种实现方式可以包括视频处理系统1200中的一些或全部组件。视频处理系统1200可以包括用于接收视频内容的输入1202。视频内容可以以原始或未压缩的格式(例如8或10比特多分量像素值)接收,或者可以以压缩或编码的格式接收。输入1202可以代表网络接口、外围总线接口或存储接口。网络接口的示例包括有线接口(诸如以太网、无源光网络(PON)等)和无线接口(诸如Wi-Fi或蜂窝接口)。
视频处理系统1200可以包括可以实现本文档中描述的各种编解码或编码方法的编解码组件1204。编解码组件1204可以减少从输入1202到编解码组件1204的输出的视频的平均比特率,以产生视频的编解码表示。因此,编解码技术有时称为视频压缩或视频转码技术。编解码组件1204的输出可以被存储或经由所连接的通信来发送,如组件1206所表示的。在输入1202处接收的视频的存储或通信的比特流(或编解码)表示可以由组件1208使用,以生成被发送到显示接口1210的像素值或可显示视频。从比特流中生成用户可见的视频的过程有时称为视频解压缩。此外,尽管某些视频处理操作被称为“编解码”操作或工具,但是应当理解,在编码器处使用编解码工具或操作,并且将由解码器进行反演编解码的结果的对应解码工具或操作。
外围总线接口或显示接口的示例可以包括通用串行总线(USB)或高清晰度多媒体接口(HDMI)或Displayport等。存储接口的示例包括SATA(串行高级技术附件)、外围组件互连(PCI)、集成驱动电子设备(IDE)接口等。本文档中描述的技术可以实施在各种电子设备中,诸如移动电话、膝上型计算机、智能电话或其它能够进行数字数据处理和/或视频显示的装设备。
图13是视频处理装置1300的框图。视频处理装置1300可以用于实现本文中所述的方法中的一个或多个。视频处理装置1300可以实施在智能电话、平板电脑、计算机、物联网(IoT)接收器等中。视频处理装置1300可以包括一个或多个处理器1302、一个或多个存储器1304和视频处理硬件1306(也称为视频处理电路)。(多个)处理器1302可以配置为实现本文档中所述的一个或多个方法。(多个)存储器1304可以用于存储数据和代码,该代码用于实现本文所描述的方法和技术。视频处理硬件1306可以用于在硬件电路中实现本文档中所描述的一些技术。在一些实施例中,视频处理硬件1306可以部分或完全位于处理器1302内,例如图形处理器。
图14是示出可利用本公开的技术的视频编解码系统1400的示例的框图。如图14所示,视频编解码系统1400可以包括源设备1410和目的地设备1420。源设备1410生成编码的视频数据,其可以被称为视频编码设备。目的地设备1420可以解码由源设备1410生成的编码的视频数据,该目的地设备1420可以被称为视频解码设备。
源设备1410可以包括视频源1412、视频编码器1414和输入/输出(I/O)接口1416。
视频源1412可以包括诸如视频捕获设备的源、从视频内容提供者接收视频数据的接口、和/或生成视频数据的计算机图形系统,或这些源的组合。视频数据可以包括一个或多个图片。视频编码器1414对来自视频源1412的视频数据进行编码以生成比特流。比特流可以包括形成视频数据的编解码表示的比特序列。比特流可以包括编解码图片和相关联的数据。编解码图片是图片的编解码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法元素。I/O接口1416包括调制器/解调器(调制解调器)和/或发送器。可以将编码的视频数据经由I/O接口1416通过网络1430直接发送到目的地设备1420。还可以将编码的视频数据存储到存储介质/服务器1440上,用于由目的地设备1420存取。
目的地设备1420可以包括I/O接口1426、视频解码器1424和显示设备1422。
I/O接口1426可以包括接收器和/或调制解调器。I/O接口1426可以从源设备1410或存储介质/服务器1440获取编码的视频数据。视频解码器1424可以对编码的视频数据进行解码。显示设备1422可以向用户显示解码的视频数据。显示设备1422可以与目的地设备1420集成,或可以在配置为与外置显示设备相接的目的地设备1420外部。
视频编码器1414和视频解码器1424可以根据视频压缩标准(诸如,高效视频编解码(HEVC)标准、多功能视频编解码(VVC)标准和其他当前和/或其他标准)进行操作。
图15是示出视频编码器1500的示例的框图,该视频编码器1500可以是图14中示出的视频编解码系统1400中的视频编码器1414。
视频编码器1200可以被配置为执行本公开的任何或全部技术。在图12的示例中,视频编码器1200包括多个功能组件。本公开所描述的技术可以在视频编码器1200的各种组件之间共享。在一些示例中,处理器可以配置为进行本公开中描述的任何或全部技术。
视频编码器1500的功能组件可以包括分割单元1501、预测单元1502(其可以包括模式选择单元1503、运动估计单元1504、运动补偿单元1505、帧内预测单元1506)、残差生成单元1507、变换单元1508、量化单元1509、逆量化单元1510、逆变换单元1511、重建单元1512、缓冲器1513和熵编码单元1514。
在其他示例中,视频编码器1500可以包括更多、更少或不同的功能组件。在一个示例中,预测单元1502可以包括帧内块复制(IBC)单元。IBC单元可以以IBC模式进行预测,其中至少一个参考图片是当前视频块所位于的图片。
此外,诸如运动估计单元1504和运动补偿单元1505的一些组件可以被高度集成,但是出于解释的目的在图15的示例中分开表示。
分割单元1501可以将图片分割成一个或多个视频块。图14的视频编码器1414和视频解码器1424可以支持各种视频块尺寸。
模式选择单元1503可以例如基于错误结果选择帧内或帧间的编解码模式中的一个,并且将得到的帧内或帧间编解码块提供到残差生成单元1507来生成残差块数据而且提供到重建单元1512来重建编解码块以用作参考图片。在一些示例中,模式选择单元1503可以选择帧内和帧间预测的组合(CIIP)模式,其中预测是基于帧间预测信号和帧内预测信号。模式选择单元1503还可以为帧间预测情况下的块选择运动矢量的分辨率(例如子像素或整像素精度)。
为了对当前视频块进行帧间预测,运动估计单元1504可以通过将来自缓冲器1513的一个或多个参考帧与当前视频块进行比较,生成当前视频块的运动信息。运动补偿单元1505可以基于来自缓冲器1513的图片(而不是与当前视频块相关联的图片)的运动信息和解码样点来为当前视频块确定预测的视频块。
运动估计单元1504和运动补偿单元1505可以为当前视频块进行不同操作,例如执行不同操作取决于当前视频块是在I条带、P条带还是B条带中。I条带(或I帧)是压缩率最低的,但不需要其他视频帧来解码。S条带(或P帧)可以使用来自先前帧的数据来解压缩,并且比I帧更容易压缩。B条带(或B帧)可以使用先前帧和前一帧两者作为数据参考,以获得最高的数据压缩量。
在一些示例中,运动估计单元1504可以进行当前视频块的单向预测,并且运动估计单元1504可以在列表0或列表1的参考图片中搜索当前视频块的参考视频块。运动估计单元1504然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在当前视频块与参考视频块之间的空域位移的运动矢量。运动估计单元1504可以输出参考索引、预测方向指示符、和运动矢量作为当前视频块的运动信息。运动补偿单元1505可以基于由当前视频块的运动信息指示的参考视频块来生成当前块的预测视频块。
在其他示例中,运动估计单元1504可以进行当前视频块的双向预测,运动估计单元1504可以在列表0的参考图片中搜索当前视频块的参考视频块并且还可以在列表1的参考图片中搜索当前视频块的另一个参考视频块。运动估计单元1504然后可以生成指示列表0或列表1的参考图片中含有参考视频块的参考索引以及指示在参考视频块与当前视频块之间的空域位移的运动矢量。运动估计单元1504可以输出参考索引和当前视频块的运动矢量作为当前视频块的运动信息。运动补偿单元1505可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
在一些示例中,运动估计单元1504可以输出运动信息的全部集合,用于解码器的解码处理。
在一些示例中,运动估计单元1504可以不输出当前视频的运动信息的全部集合。而是,运动估计单元1504可以参考另一个视频块的运动信息来信令通知当前视频块的运动信息。例如,运动估计单元1504可以确定当前视频块的运动信息与相邻视频块的运动信息足够相似。
在一个示例中,运动估计单元1504可以在与当前视频块相关联的语法结构中指示:向图14的视频解码器1424指示当前视频块具有与另一个视频块相同的运动信息的值。
在另一个示例中,运动估计单元1504可以在与当前视频块相关联的语法结构中标识另一个视频块和运动矢量差(MVD)。运动矢量差指示当前视频块的运动矢量与指示视频块的运动矢量之间的差。图14的视频解码器1424可以使用指示视频块的运动矢量和运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,图14的视频编码器1414可以预测性地信令通知运动矢量。可以由图14的视频编码器1414实现的预测性的信令通知技术的两个示例包括高级运动矢量预测(AMVP)和merge模式信令通知。
帧内预测单元1506可以对当前视频块进行帧内预测。当帧内预测单元1506对当前视频块进行帧内预测时,帧内预测单元1506可以基于相同图片中其他视频块的解码样点来生成当前视频块的预测数据。当前视频块的预测数据可以包括预测视频块和各种语法元素。
残差生成单元1507可以通过从当前视频块中减去(例如,由减号指示)当前视频块的(多个)预测视频块来生成当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样点的不同样点分量的残差视频块。
在其他示例中,例如在跳过模式下,对于当前视频块可能不存在当前视频块的残差数据,并且残差生成单元1507可以不进行减去操作。
变换处理单元1508可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块来生成当前视频块的一个或多个变换系数视频块。
在变换单元1508生成与当前视频块相关联的变换系数视频块之后,量化单元1509可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
逆量化单元1510和逆变换单元1511可以将逆量化和逆变换分别应用于变换系数视频块,来从变换系数视频块重建残差视频块。重建单元1512可以将重建的残差视频块添加到来自由预测单元1502生成的一个或多个预测视频块的对应样点,以产生与当前块相关联的重建视频块用于存储在缓冲器1513中。
在重建单元1512重建视频块之后,可以进行环路滤波操作以降低视频块中视频块化伪影。
熵编码单元1514可以从视频编码器1500的其他功能组件接收数据。当熵编码单元1514接收数据时,熵编码单元1514可以进行一个或多个熵编码操作以生成熵编码数据并且输出包括熵编码数据的比特流。
图16是示出视频解码器1600的示例的框图,该视频解码器1600可以是图14中示出的视频编解码系统1400中的视频解码器1424。
视频解码器1600可以被配置为进行本公开的任何或全部技术。在图16的示例中,视频解码器1600包括多个功能组件。本公开所描述的技术可以在视频解码器1600的各种组件之间共享。在一些示例中,处理器可以配置为进行本公开中描述的任何或全部技术。
在图16的示例中,视频解码器1600包括熵解码单元1601、运动补偿单元1602、帧内预测单元1609、逆量化单元1604、逆变换单元1605、重建单元1606和缓冲器1607。在一些示例中,视频解码器1600可以进行与关于视频编码器1414(图14)所描述的编码过程总体反演的解码过程。
熵解码单元1601可以检索编码比特流。编码比特流可以包括熵编解码视频数据(例如,视频数据的编解码块)。熵解码单元1601可以对熵编解码视频进行解码,并且根据熵解码视频数据,运动补偿单元1602可以确定包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息的运动信息。运动补偿单元1602例如可以通过进行AMVP和merge模式信令通知确定此类信息。
运动补偿单元1602可以产生运动补偿块,可能地基于插值滤波器进行插值。要以子像素精度使用的插值滤波器的标识符可以包括在语法元素中。
运动补偿单元1602可以使用由视频编码器1414在编码视频块的期间所使用的插值滤波器,来计算出参考块的子整数个像素的插值的值。运动补偿单元1602可以根据接收的语法信息确定由视频编码器1414所使用的插值滤波器并且使用插值滤波器来产生预测块。
运动补偿单元1602可以使用一些语法信息来确定:用于对编码视频序列的(多个)帧和/或(多个)条带进行编码的块的尺寸,描述编码视频序列的图片的每个宏块如何被分割的分割信息,指示如何编码每个分割的模式,每个帧间编码块的一个或多个参考帧(和参考帧列表),以及对编码视频序列进行解码的其他信息。
帧内预测单元1603可以使用例如在比特流中接收的帧内预测模式来从空域相邻块形成预测块。逆量化单元1604逆量化(即去量化)在比特流中提供的且由熵解码单元1601解码的量化的视频块系数。逆变换单元1605应用逆变换。
重建单元1606可以用由运动补偿单元1602或帧内预测单元1603生成的对应预测块求和残差块,以形成解码块。如所期望的,去块滤波器还可以应用于滤波解码块以便移除块效应伪影。解码视频块然后存储在缓冲器1607中,该缓冲器1607提供用于随后的运动补偿/帧内预测的参考块,并且还产生用于在显示设备上呈现的解码视频。
图17是根据本公开的实施例的处理视频数据的方法1700。方法1700可以由具有处理器和存储器的编解码装置(例如,编码器)来执行。当期望SR或上采样时,可以实现方法1700。
在块1702中,编解码装置对视频单元的不同的子区域应用不同的超分辨率(SR)过程。
在块1704中,编解码装置基于应用的不同的SR过程执行包括视频单元的不同区域的视频和视频的比特流之间的转换。当在编码器中实现时,转换包括接收视频文件(例如,视频单元)并将视频文件编码成比特流。当在解码器中实现时,转换包括接收包括视频文件的比特流,并且解码该比特流以获得视频文件。
在实施例中,一个或多个不同的SR过程包括基于神经网络(NN)的SR过程。在实施例中,一个或多个不同的SR过程包括非基于神经网络(NN)的SR过程(例如,经由传统滤波器,如双线性滤波器、双三次滤波器或Lanczos滤波器)。
在实施例中,不同的子区域包括第一子区域和第二子区域,其中基于神经网络(NN)的SR过程应用于第一子区域,并且其中非基于NN的SR过程应用于第二子区域。例如,第一子区域可以是图片的前半部分,而第二子区域可以是图片的后半部分。
在实施例中,不同的子区域包括第一子区域和第二子区域,其中具有第一设计的基于神经网络(NN)的SR过程被应用于第一子区域,并且其中具有第二设计的基于NN的SR过程被应用于第二子区域。如这里所使用的,第一和第二设计可以指SR过程的不同方法或模型。
在实施例中,具有第一设计的基于NN的SR过程与具有第二设计的基于NN的SR过程具有不同的输入。
在实施例中,具有第一设计的基于NN的SR过程与具有第二设计的基于NN的SR过程具有不同的层数。举例来说,该层可以是卷积层。
在实施例中,具有第一设计的基于NN的SR过程与具有第二设计的基于NN的SR过程具有不同的步长。在实施例中,将滤波器应用于输入图像之间的移动量被称为步长。步长的高度和宽度维度几乎总是对称的。对于高度和宽度移动,二维中的默认步长是(1,1)。
在实施例中,可用于应用的不同的SR过程的指示包括在比特流中。该指示可以是标志、位或包含在比特流中的一些其他信息。
在实施例中,可用于应用的不同的SR过程的指示是基于解码信息导出的(例如,多少/比率的样点被帧内编解码)。在实施例中,可用于应用的不同的SR过程的指示是基于应用于参考子区域(例如,并置的子区域)的SR过程导出的。
在实施例中,能够应用于视频单元的不同的子区域的不同的SR过程的候选集合被包括在比特流中或者在解码器中预定义。在实施例中,候选集合包括多个不同的SR过程,每个SR过程具有不同的设计。在实施例中,候选集合包括基于神经网络(NN)的SR过程和非基于NN的SR过程两者。在实施例中,不同的SR过程的不同的候选集合对应于不同的颜色分量(例如,亮度和色度分量)、不同的条带类型(例如,I条带、P条带和B条带)或不同的量化参数(QP),并且其中不同的SR过程包括不同的基于神经网络(NN)的SR过程。量化参数是解码过程用于缩放变换系数级别的变量。
在实施例中,不同的基于NN的SR过程用于不同的QP的组,并且其中不同的QP的组被指定为QP/M,其中M是正整数(例如,6)。在实施例中,不同的QP都被馈送到不同的基于NN的SR过程之一。
在实施例中,不同的候选集合包括第一候选集合和第二候选集合,并且其中第一候选集合用于亮度分量,并且第二候选集合用于色度分量。在实施例中,应用于三个不同的颜色分量(例如,Y、U和V颜色分量)中的每一个的不同的候选集合的数量取决于条带类型、图片类型(例如,帧内预测图片、帧间预测图片等)和分割树类型中的一个或多个。分割树类型指示图片被分割成块的方式。分割类型的示例包括双树分割和单树分割。在单树分割中,使用相同的树结构来分割图片的亮度和色度分量两者,因此,亮度和色度分量以相同的方式被分割。在双树分割中,亮度和色度分量可以使用不同的树结构来分割,因此,亮度和色度分量可以不以相同的方式分割。
在实施例中,不同的候选集合包括第一候选集合和第二候选集合,并且其中第一候选集合用于第一类型的条带,并且第二候选集合用于第二类型的条带。
在实施例中,不同的候选集合包括第一候选集合和第二候选集合,其中第一候选集合用于第一颜色分量的第一类型条带,并且第二候选集合用于第一颜色分量的第二类型条带,并且其中第一候选集合用于第二颜色分量的第一类型条带(例如,I条带、P条带或B条带)和第二颜色分量的第二类型条带。条带是图片的片内的整数个完整片或整数个连续的完整CTU行,其专门包含在单个NAL单元中。片是图片中特定片列和特定片行内的CTU的矩形区域。
CTU是亮度样点的CTB、具有三个样点阵列的图片的色度样点的两个对应CTB、或单色图片的样点的CTB、以及用于对样点进行编解码的语法结构。CTB是对于某个N值的N×N样点块,使得将分量划分成CTB是一种分割。
I条带(或I帧)是压缩率最低的,但不需要其他视频帧来解码。S条带(或P帧)可以使用来自先前帧的数据来解压缩,并且比I帧更容易压缩。B条带(或B帧)可以使用先前帧和前一帧两者作为数据参考,以获得最高的数据压缩量。
在实施例中,为QP或QP之一训练不同的基于NN的SR过程之一。如这里所使用的,基于NN的SR过程包括CNN SR过程。
在实施例中,不同的SR过程包括基于神经网络(NN)的SR过程和非基于NN的SR过程,其中基于NN的SR过程应用于视频单元,并且其中非基于NN的SR过程应用于不同的视频单元。
在实施例中,视频单元和不同的视频单元各自为图片的序列、条带、片、图块、子图片、一个或多个编解码树单元(CTU)、CTU行、一个或多个编解码单元(CU)或者一个或多个编解码树块(CTB)。图块是图片中特定片内的CTU行的矩形区域。子图片是图片内一个或多个条带的矩形区域。
在实施例中,视频单元包括编解码树单元(CTU),并且其中不同的视频单元包括不同的CTU。
在实施例中,基于NN的SR过程被应用于视频单元或者非基于NN的SR过程被应用于不同的视频单元的指示被包括在比特流中。
在实施例中,指示被包括在视频单元的序列标头、序列参数集(SPS)、图片参数集(PPS)、图片标头、条带标头、编解码树单元(CTU)、编解码树块(CTB)或矩形区域中。
SPS是包含应用于零个或多个完整编解码层视频序列(CLVS)的语法元素的语法结构,如由在每个图片标头中找到的语法元素参考的PPS中找到的语法元素的内容所确定的。PPS是包含应用于零个或多个完整编解码图片的语法元素的语法结构,如由在每个图片标头中找到的语法元素所确定的。图片标头是包含应用于编解码图片的所有条带的语法元素的语法结构。条带标头是编解码条带的一部分,包含与条带中表示的片内的所有片或CTU行相关的数据元素。
在实施例中,基于NN的SR过程被应用于视频单元的第一颜色分量或者非基于NN的SR过程被应用于视频单元的第二颜色分量的指示被包括在比特流中。
在实施例中,不同的SR过程之一包括用于上采样的离散余弦变换插值滤波器(DCTIF)。DCTIF是采用DCT过程的插值滤波器。
在实施例中,不同的SR过程之一包括双线性插值。双线性插值是使用重复线性插值对两个变量(例如,x和y)的函数进行插值的方法。双线性插值是计算机视觉和图像处理中的基本重采样技术之一,也称为双线性滤波或双线性纹理映射。
在实施例中,不同的SR过程之一包括双三次插值。双三次插值是三次插值(不要与三次样条插值混淆,这是对数据集应用三次插值的方法)的扩展,用于在二维规则网格上插值数据点。插值表面比通过双线性插值或最近邻插值获得的对应表面更平滑。双三次插值可以使用拉格朗日多项式、三次样条或三次卷积算法来实现。
在实施例中,不同的SR过程之一包括Lanczos插值。Lanczos滤波和Lanczos重采样是数学公式的两个应用。Lanczos滤波可用作低通滤波器,或用于在其样点之间平滑插值数字信令的值。在后一种情况下,Lanczos滤波将给定信令的每个样点映射到Lanczos核的平移和缩放副本,Lanczos核是由第二个更长的sinc函数的中心瓣加窗的sinc函数。然后在期望的点上评估这些平移和缩放的核的总和。
Lanczos重采样通常用于提高数字信令的采样率,或将其偏移采样间隔的一部分。Lanczos重采样通常也用于多元插值,例如调整数字图像的尺寸或旋转数字图像。Lanczos重采样被认为是用于此目的的几种简单滤波器中的“最佳折衷”。
在实施例中,比特流包括指示不同的SR过程之一的指示。在实施例中,索引被包括在比特流中以指示不同的SR过程之一。在实施例中,不同的SR过程之一的一个或多个系数被包括在比特流中。
在实施例中,指示不同的SR过程之一的指示被包括在视频单元的序列标头、序列参数集(SPS)、图片参数集(PPS)、图片标头、条带标头、编解码树单元(CTU)、编解码树块(CTB)或矩形区域中。在实施例中,不同的SR过程中的哪一个被应用于不同的颜色分量的指示被包括在比特流中。
在实施例中,不同的SR过程中的一个由解码器确定,并使用交互式应用传送到编码器。也就是说,在比特流中信令通知不同SR过程之一。
在实施例中,不同的SR过程之一包括具有一个或多个上采样层的基于神经网络(NN)的SR过程。在实施例中,基于NN的SR过程包括基于卷积NN的SR过程。
在实施例中,一个或多个上采样层之一具有K的步长,其中K是正整数(例如,2)。在实施例中,一个或多个上采样层之一利用像素混洗。
在实施例中,一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中根据参考图片列表信息来应用基于NN的SR过程。在实施例中,一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中何时利用基于NN的SR过程或如何利用基于NN的SR过程取决于视频标准档次或级别。
视频编解码标准,如HEVC、SHVC、MV-HEVC和VVC,规定并信令通知档次、层次和级别。档次、层次和级别规定了对比特流的限制,并因此限制了解码比特流所需的能力。档次、层次和级别也可以用于指示各个解码器实现方式之间的互操作性点。档次是一组定义的编码工具,用于创建兼容或符合要求的比特流。每个档次规定了符合该档次的所有解码器应该支持的算法特征和限制的子集。
级别是比特流的一组约束(例如,最大亮度采样率、分辨率的最大比特率等)。也就是说,级别是一组约束,其指示回放规定档次的比特流所需的解码器性能。
级别被划分为两个层次:主要层次和高级层次。主要层次是比高级层次低的层。这些层次用来处理最大比特率不同的应用程序。主要层次是为大多数应用设计的,而高级层次是为要求非常苛刻的应用设计的。
层次的每个级别规定对特定标准(例如,HEVC、VVC)的语法元素可采用的值的一组限制。所有档次都使用相同的一组层和级别定义,但是各个实现方式可能支持不同的层次,并且在层次内每个支持的档次具有不同的级别。对于任何给定的档次,层次的级别通常对应于特定的解码器处理负载和存储能力。
在实施例中,一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中何时利用基于NN的SR过程或如何利用基于NN的SR过程取决于颜色分量。在实施例中,一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中何时利用基于NN的SR过程或如何利用基于NN的SR过程取决于图片类型或条带类型。在实施例中,一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中何时利用基于NN的SR过程或如何利用基于NN的SR过程取决于视频单元的内容或编解码信息。在实施例中,一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中,当重建样点的方差大于预定阈值时,使用基于NN的SR过程。在实施例中,一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中,当重建样点的分量的高频能量大于预定阈值时,使用基于NN的SR过程。频率是指像素值相对于空域的变化。较高的频率意味着当图像中存在明显的对比度(如边缘)时,数值变化较大。而低频意味着对应于图像中平坦区域的像素值的较小变化。
在实施例中,一个或多个不同的SR过程包括基于神经网络(NN)的SR过程,并且其中是否使用基于NN的SR过程或如何使用基于NN的SR过程在视频单元级别被控制,其中视频单元包括图片的序列、条带、片、图块、子图片、一个或多个编解码树单元(CTU)、CTU行、一个或多个编解码单元(CU)或者一个或多个编解码树块(CTB)。
在实施例中,基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括启用CNN滤波器或禁用CNN滤波器的指示。
在实施例中,基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括应用哪个CNN滤波器的指示。在实施例中,基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括CNN滤波器参数(例如,CNN层的数量、核维度形状、CNN滤波器的形状、系数等)。
在实施例中,基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括CNN模型。在实施例中,基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括卷积层的步长。在实施例中,基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括CNN参数的精度(例如,8位整数(0-255)、16位整数(0-65,536、具有32位整数的浮点数等)。
在实施例中,基于NN的SR过程包括卷积NN(CNN)SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,其中CNN信息被包括在图片的序列、条带、片、图块、子图片、一个或多个编解码树单元(CTU)、CTU行、一个或多个编解码单元(CU)或者一个或多个编解码树块(CTB)中。
在实施例中,不同的SR过程或不同的SR过程的集合的数量被包括在比特流中。在实施例中,不同的SR过程或不同的SR过程的集合的数量对于不同的颜色分量是不同的。在实施例中,使用速率失真优化策略或失真最小化策略来确定将不同的SR过程中的哪一者应用于视频单元。
在实施例中,该方法还包括:使用不同的SR过程对视频单元进行上采样,使用质量度量将上采样的视频单元与原始分辨率下的视频单元进行比较,基于比较选择不同的SR过程之一,并在比特流中包括选择的不同的SR过程之一的索引。
在实施例中,不同的SR过程包括非基于神经网络(NN)的SR过程。在实施例中,不同的SR过程包括卷积NN(CNN)SR过程。在实施例中,不同的SR过程包括非基于神经网络(NN)的SR过程和卷积NN(CNN)SR过程。
在实施例中,质量度量是峰值信噪比(PSNR)。在实施例中,质量度量是多尺度结构相似性(MS-SSIM)。
在实施例中,基于比较选择不同的SR过程之一是在编码器处执行的。
在实施例中,基于比较选择不同的SR过程之一是在解码器处执行的,且其中使用质量度量计算的失真是基于除来自视频单元、视频单元的条带、视频单元的编解码树单元(CTU)、视频单元的编解码树块(CTB)或视频单元的矩形区域以外的样点。
在实施例中,质量度量是结构相似性(SSIM)。在实施例中,质量度量是视频多方法评估融合(VMAF)。
在实施例中,方法1700可利用或结合本文公开的其他方法的一个或多个特征或过程。
接下来提供了一些实施例优选的解决方案列表。
以下解决方案显示了本公开中讨论的技术的示例实施例(例如,示例1)。
1.一种处理视频数据的方法,包括:根据规则执行视频的视频单元和视频的比特流之间的转换,其中该规则规定使用第一超分辨率(SR)方法来编解码视频单元的第一子区域,以及使用第二SR方法来编解码视频单元的第二子区域,其中第一SR方法不同于第二SR方法。
2.根据项目1所述的方法,其中,第一SR方法或第二SR方法包括使用基于神经网络的滤波。
3.一种视频处理的方法,包括:为视频的视频单元和视频的比特流之间的转换,从超分辨率(SR)滤波方法的候选集合中确定SR滤波方法;以及根据该确定来执行转换。
4.根据项目3所述的方法,其中候选集合是预定义集合。
5.根据项目3所述的方法,其中,在比特流中指示候选集合。
6.根据项目3-5中任一项所述的方法,其中候选集合包括多个基于神经网络(NN)的方法。
7.一种处理视频数据的方法,包括:根据规则执行包括多个视频单元的视频和视频的比特流之间的转换,其中该规则允许使用基于神经网络(NN)的滤波器和传统的非基于神经网络(NN)的滤波器进行转换。
8.根据项目7所述的方法,其中,规则允许对视频中的不同视频单元使用不同的上采样滤波器。
9.根据项目1-8中任一项所述的方法,其中传统滤波器用于上采样。
10.根据项目3所述的方法,其中传统滤波器是DCT插值滤波器或双线性插值滤波器或双三次插值滤波器。
11.根据项目9-10中任一项所述的方法,其中NN滤波器用于上采样。
12.根据项目11所述的方法,其中像素混洗方法用于上采样。
13.根据项目1-12所述的方法,其中,规则基于转化的档次或级别。
14.根据项目1-13中任一项所述的方法,其中,规则基于视频的颜色分量。
15.根据项目1-14所述的方法,其中,规则取决于包含视频单元的图片或图片的条带类型。
16.根据项目1-15中任一项所述的方法,其中基于每个视频区域来规定规则,其中视频区域包括视频序列、图片、条带、片、图块、子图片、编解码树单元、编解码树单元行、编解码单元、编解码树单元或编解码树块。
17.根据项目1-16中任一项所述的方法,其中上采样使用率失真优化标准。
18.根据项目17所述的方法,其中率失真标准使用信噪比质量度量或结构相似性指数度量(SSIM)或多方法评估函数(VMAF)或多尺度SSIM(MS-SSIM)。
19.根据项目1-18中任一项所述的方法,其中,视频单元包括图片或条带。
20.根据项目1-19中任一项所述的方法,其中转换包括从视频生成比特流。
21.根据项目1-19中任一项所述的方法,其中转换包括从比特流生成视频。
22.一种视频解码装置,包括被配置为实现项目1至21中的一项或多项所述的方法的处理器。
23.一种视频编码装置,包括被配置为实现项目1至21中的一项或多项所述的方法的处理器。
24.一种其上存储有计算机代码的计算机程序产品,该代码在由处理器执行时使处理器实现项目1至21中任一项所述的方法。
25.一种视频处理的方法,包括根据项目1-21中任一项或多项所述的方法生成比特流,并将该比特流存储在计算机可读介质上。
26.本文档中描述的方法、装置或系统。
以下文档通过引用其整体并入:
[1]J.Chen,Y.Ye,S.Kim(编者),“多功能视频编解码和测试模型8(VTM 8)的算法描述”,JVET-Q2002。
[2]VTM软件https://vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM.git
[3]W.Shi,J.Caballero等,“使用高效亚像素卷积神经网络实现实时单个图像和视频超分辨率”,IEEE计算机视觉与模式识别会议论文集,2016,arXiv:1609.05158
[4]J.Lin,D.Liu,H.Yang,H.Li,“基于卷积神经网络的块上采样技术”,2019。
本文档中所述的公开和其他方案、示例、实施例、模块和功能操作可以被实现在数字电子电路中或者在计算机软件、固件或硬件中,含有本文档中所公开的结构以及其结构的等同物,或者它们中的一个或多个的组合。所公开的和其他实施例可以被实现为计算机可读介质上所编码的一个或多个计算机程序产品,即一个或多个计算机程序指令模块,用于由数据处理装置执行或者控制数据处理装置的操作。该计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、影响机器可读可传播信号的复合物,或其一个或多个的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、或者它们中的一个或多个的组合的代码。传播信号是人工生成的信号,例如,机器生成的电、光或电磁信号,其被生成来编码信息以传输到合适的接收器装置。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言编写,包括编译或解释语言,并且可以以任何形式来部署计算机程序,包括独立程序或适合在计算环境中使用的模块、组件、子例程或其它单元。计算机程序不必须对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的部分中(例如,在标记语言文档中存储的一个或多个脚本)、在专用于所讨论的程序的单个文件中、或在多个协同文件中(例如存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以部署为在一个计算机上或者在多个计算机上执行,该多个计算机位于一个站点处或者分布跨多个站点并由通信网络互连。
可以由执行一个或多个计算机程序的一个或多个可编程处理器来进行在本文档中所描述的过程和逻辑流,以通过在输入数据上操作并且生成输出来进行功能。也可以由专用逻辑电路(例如,现场可编程门阵列(FPGA)或专用集成电路(ASIC))进行过程和逻辑流,并且装置可以实现为专用逻辑电路(例如FPGA或ASIC)。
适合于计算机程序的执行的处理器包括例如通用和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或者该两者接收指令和数据。计算机的基本元件是用于进行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个海量存储设备(例如磁、磁光盘或光盘),或者可操作地耦合以从海量存储设备(例如磁、磁光盘或光盘)接收数据或者将数据传输到海量存储设备(例如磁、磁光盘或光盘),或者以上两者。但是,计算机不必具有此类设备。适用于存储计算机程序指令和数据的计算机可读介质含有所有形式的非易失性存储器、介质和存储器设备,含有例如半导体存储器设备(例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪速存储器设备);磁盘(例如内部硬盘或可移动磁盘);磁光盘;和光盘只读存储器(CD ROM)和数字多功能光盘只读存储器(DVD-ROM)盘。处理器和存储器可以由专用逻辑电路补充,或者合并在专用逻辑电路中。
虽然本专利文档含有许多细节,但这些细节不应被解释为对任何主题或可要求保护的范围的限制,而是作为规定于特定技术的特定实施例的特征的描述。在本专利文档中,在单独的实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反地,在单个实施例的上下文中所描述的各种特征还可以分别在多个实施例中来实现或者以各种合适的子组合来实现。此外,尽管特征可以如上文描述为以某些组合起作用并且甚至最初同样地要求,但是在某些情况下来自所要求保护的组合的一个或多个特征可以从组合中去除,并且所要求保护的组合可以针对子组合或子组合的变化。
类似地,尽管在附图中以特定顺序描绘了操作,但这不应当理解为要求按所示的特定次序或顺序次序进行此类操作或者进行所有示出的操作,以实现期望的结果。此外,在本专利文档中描述的实施例中的各种系统组件的分开不应被理解为在所有实施例中都要求这种分开。
仅描述了几个实现方式和示例,并且可以基于本专利文档中描述和示出的内容来作出其它实现方式、增强和变型。

Claims (77)

1.一种处理视频数据的方法,包括:
将不同的超分辨率SR过程应用于视频单元的不同的子区域,以及
基于所应用的所述不同的SR过程,执行包括所述视频单元的不同的区域的视频和所述视频的比特流之间的转换。
2.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括基于神经网络NN的SR过程。
3.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括非基于神经网络NN的SR过程。
4.根据权利要求1所述的方法,其中,所述不同的子区域包括第一子区域和第二子区域,其中基于神经网络NN的SR过程应用于所述第一子区域,并且其中非基于NN的SR过程应用于所述第二子区域。
5.根据权利要求1所述的方法,其中,所述不同的子区域包括第一子区域和第二子区域,其中具有第一设计的基于神经网络NN的SR过程被应用于所述第一子区域,并且其中具有第二设计的基于NN的SR过程被应用于所述第二子区域。
6.根据权利要求5所述的方法,其中,具有所述第一设计的所述基于NN的SR过程与具有所述第二设计的所述基于NN的SR过程具有不同的输入。
7.根据权利要求5所述的方法,其中,具有所述第一设计的所述基于NN的SR过程与具有所述第二设计的所述基于NN的SR过程具有不同的层数。
8.根据权利要求5所述的方法,其中,具有所述第一设计的所述基于NN的SR过程与具有所述第二设计的所述基于NN的SR过程具有不同的步长。
9.根据权利要求1-8中任一项所述的方法,其中,可用于应用的所述不同的SR过程的指示包括在比特流中。
10.根据权利要求1-8中任一项所述的方法,其中,可用于应用的所述不同的SR过程的指示是基于解码信息导出的。
11.根据权利要求1-8中任一项所述的方法,其中,可用于应用的所述不同的SR过程的指示是基于应用于参考子区域的SR过程导出的。
12.根据权利要求1-11中任一项所述的方法,其中,能够应用于所述视频单元的不同的子区域的所述不同的SR过程的候选集合被包括在所述比特流中或者在解码器中预定义。
13.根据权利要求12所述的方法,其中,所述候选集合包括多个所述不同的SR过程,每个SR过程具有不同的设计。
14.根据权利要求12所述的方法,其中,所述候选集合包括基于神经网络NN的SR过程和非基于NN的SR过程两者。
15.根据权利要求1所述的方法,其中,所述不同的SR过程的不同的候选集合对应于不同的颜色分量、不同的条带类型或不同的量化参数QP,并且其中所述不同的SR过程包括不同的基于神经网络NN的SR过程。
16.根据权利要求15所述的方法,其中,所述不同的基于NN的SR过程用于所述不同的QP的组,并且其中所述不同的QP的组被指定为QP/M,其中M是正整数。
17.根据权利要求15所述的方法,其中,所述不同的QP都被馈送到不同的基于NN的SR过程之一。
18.根据权利要求15所述的方法,其中,所述不同的候选集合包括第一候选集合和第二候选集合,并且其中所述第一候选集合用于亮度分量,并且所述第二候选集合用于色度分量。
19.根据权利要求15所述的方法,其中,应用于三个不同的颜色分量中的每一个的所述不同的候选集合的数量取决于条带类型、图片类型和分割树类型中的一个或多个。
20.根据权利要求15所述的方法,其中,所述不同的候选集合包括第一候选集合和第二候选集合,并且其中所述第一候选集合用于第一类型的条带,并且所述第二候选集合用于第二类型的条带。
21.根据权利要求15所述的方法,其中,所述不同的候选集合包括第一候选集合和第二候选集合,其中所述第一候选集合用于第一颜色分量的第一类型条带,并且所述第二候选集合用于所述第一颜色分量的第二类型条带,并且其中所述第一候选集合用于第二颜色分量的所述第一类型条带和所述第二颜色分量的第二类型条带。
22.根据权利要求15所述的方法,其中,为所述QP或所述QP之一训练所述不同的基于NN的SR过程之一。
23.根据权利要求1所述的方法,其中,所述不同的SR过程包括基于神经网络NN的SR过程和非基于NN的SR过程,其中所述基于NN的SR过程应用于所述视频单元,并且其中所述非基于NN的SR过程应用于不同的视频单元。
24.根据权利要求23所述的方法,其中,所述视频单元和所述不同的视频单元各自为图片的序列、条带、片、图块、子图片、一个或多个编解码树单元CTU、CTU行、一个或多个编解码单元CU或者一个或多个编解码树块CTB。
25.根据权利要求23所述的方法,其中,所述视频单元包括编解码树单元CTU,并且其中所述不同的视频单元包括不同的CTU。
26.根据权利要求23所述的方法,其中,所述基于NN的SR过程被应用于所述视频单元或者所述非基于NN的SR过程被应用于不同的视频单元的指示被包括在所述比特流中。
27.根据权利要求26所述的方法,其中,所述指示被包括在所述视频单元的序列标头、序列参数集SPS、图片参数集PPS、图片标头、条带标头、编解码树单元CTU、编解码树块CTB或矩形区域中。
28.根据权利要求23所述的方法,其中,所述基于NN的SR过程被应用于所述视频单元的第一颜色分量或者所述非基于NN的SR过程被应用于所述视频单元的第二颜色分量的指示被包括在所述比特流中。
29.根据权利要求1所述的方法,其中,所述不同的SR过程之一包括用于上采样的离散余弦变换插值滤波器DCTIF。
30.根据权利要求1所述的方法,其中,所述不同的SR过程之一包括双线性插值。
31.根据权利要求1所述的方法,其中,所述不同的SR过程之一包括双三次插值。
32.根据权利要求1所述的方法,其中,所述不同的SR过程之一包括Lanczos插值。
33.根据权利要求1所述的方法,其中,所述比特流包括指示所述不同的SR过程之一的指示。
34.根据权利要求1所述的方法,其中,索引被包括在所述比特流中以指示所述不同的SR过程之一。
35.根据权利要求1所述的方法,其中,所述不同的SR过程之一的一个或多个系数被包括在所述比特流中。
36.根据权利要求1所述的方法,其中,指示所述不同的SR过程之一的指示被包括在所述视频单元的序列标头、序列参数集SPS、图片参数集PPS、图片标头、条带标头、编解码树单元CTU、编解码树块CTB或矩形区域中。
37.根据权利要求1所述的方法,其中,所述不同的SR过程中的哪一个被应用于不同的颜色分量的指示被包括在所述比特流中。
38.根据权利要求1所述的方法,其中,所述不同的SR过程中的一个由解码器确定,并使用交互式应用传送到编码器。
39.根据权利要求1所述的方法,其中,所述不同的SR过程之一包括具有一个或多个上采样层的基于神经网络NN的SR过程。
40.根据权利要求39所述的方法,其中,所述基于NN的SR过程包括基于卷积NN的SR过程。
41.根据权利要求39所述的方法,其中,所述一个或多个上采样层之一具有K的步长,其中K是正整数。
42.根据权利要求39所述的方法,其中,所述一个或多个上采样层之一利用像素混洗。
43.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括基于神经网络NN的SR过程,并且其中根据参考图片列表信息来应用所述基于NN的SR过程。
44.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括基于神经网络NN的SR过程,并且其中何时利用所述基于NN的SR过程或如何利用所述基于NN的SR过程取决于视频标准档次或级别。
45.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括基于神经网络NN的SR过程,并且其中何时利用所述基于NN的SR过程或如何利用所述基于NN的SR过程取决于颜色分量。
46.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括基于神经网络NN的SR过程,并且其中何时利用所述基于NN的SR过程或如何利用所述基于NN的SR过程取决于图片类型或条带类型。
47.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括基于神经网络NN的SR过程,并且其中何时利用所述基于NN的SR过程或如何利用所述基于NN的SR过程取决于所述视频单元的内容或编解码信息。
48.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括基于神经网络NN的SR过程,并且其中,当重建样点的方差大于预定阈值时,使用所述基于NN的SR过程。
49.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括基于神经网络NN的SR过程,并且其中,当重建样点的分量的能量大于预定阈值时,使用所述基于NN的SR过程。
50.根据权利要求1所述的方法,其中,一个或多个所述不同的SR过程包括基于神经网络NN的SR过程,并且其中是否使用所述基于NN的SR过程或如何使用所述基于NN的SR过程在视频单元级别被控制,其中所述视频单元包括图片的序列、条带、片、图块、子图片、一个或多个编解码树单元CTU、CTU行、一个或多个编解码单元CU或者一个或多个编解码树块CTB。
51.根据权利要求50所述的方法,其中,所述基于NN的SR过程包括卷积NN CNN SR过程,其中是否使用所述基于NN的SR过程或如何使用所述基于NN的SR过程被指定为CNN信息,并且其中所述CNN信息包括启用CNN滤波器或禁用CNN滤波器的指示。
52.根据权利要求50所述的方法,其中,所述基于NN的SR过程包括卷积NN CNN SR过程,其中是否使用所述基于NN的SR过程或如何使用所述基于NN的SR过程被指定为CNN信息,并且其中所述CNN信息包括应用哪个CNN滤波器的指示。
53.根据权利要求50所述的方法,其中,所述基于NN的SR过程包括卷积NN CNN SR过程,其中是否使用所述基于NN的SR过程或如何使用所述基于NN的SR过程被指定为CNN信息,并且其中所述CNN信息包括CNN滤波器参数。
54.根据权利要求50所述的方法,其中,所述基于NN的SR过程包括卷积NN CNN SR过程,其中是否使用所述基于NN的SR过程或如何使用所述基于NN的SR过程被指定为CNN信息,并且其中所述CNN信息包括CNN模型。
55.根据权利要求50所述的方法,其中,所述基于NN的SR过程包括卷积NN CNN SR过程,其中是否使用所述基于NN的SR过程或如何使用所述基于NN的SR过程被指定为CNN信息,并且其中所述CNN信息包括卷积层的步长。
56.根据权利要求50所述的方法,其中,所述基于NN的SR过程包括卷积NN CNN SR过程,其中是否使用基于NN的SR过程或如何使用基于NN的SR过程被指定为CNN信息,并且其中CNN信息包括CNN参数的精度。
57.根据权利要求50所述的方法,其中,所述基于NN的SR过程包括卷积NN CNN SR过程,其中是否使用所述基于NN的SR过程或如何使用所述基于NN的SR过程被指定为CNN信息,其中所述CNN信息被包括在图片的序列、条带、片、图块、子图片、一个或多个编解码树单元CTU、CTU行、一个或多个编解码单元CU或者一个或多个编解码树块CTB中。
58.根据权利要求1所述的方法,其中,所述不同的SR过程或所述不同的SR过程的集合的数量被包括在所述比特流中。
59.根据权利要求1所述的方法,其中,所述不同的SR过程或所述不同的SR过程的集合的数量对于不同的颜色分量是不同的。
60.根据权利要求1所述的方法,其中,使用速率失真优化策略或失真最小化策略来确定将所述不同的SR过程中的哪一者应用于所述视频单元。
61.根据权利要求1所述的方法,还包括:使用所述不同的SR过程对所述视频单元进行上采样,使用质量度量将上采样的所述视频单元与原始分辨率下的所述视频单元进行比较,基于所述比较选择所述不同的SR过程之一,并在所述比特流中包括选择的所述不同的SR过程之一的索引。
62.根据权利要求61所述的方法,其中,所述不同的SR过程包括非基于神经网络NN的SR过程。
63.根据权利要求61所述的方法,其中,所述不同的SR过程包括卷积NN CNN SR过程。
64.根据权利要求61所述的方法,其中,所述不同的SR过程包括非基于神经网络NN的SR过程和卷积NN CNN SR过程。
65.根据权利要求61所述的方法,其中,所述质量度量是峰值信噪比PSNR。
66.根据权利要求61所述的方法,其中,所述质量度量是多尺度结构相似性MS-SSIM。
67.根据权利要求61所述的方法,其中,基于所述比较选择所述不同的SR过程之一是在编码器处执行的。
68.根据权利要求61所述的方法,其中,基于所述比较选择所述不同的SR过程之一是在解码器处执行的,并且其中使用所述质量度量计算的失真是基于除来自所述视频单元、所述视频单元的条带、所述视频单元的编解码树单元CTU、所述视频单元的编解码树块CTB或所述视频单元的矩形区域以外的样点。
69.根据权利要求61所述的方法,其中,所述质量度量是结构相似性SSIM。
70.根据权利要求61所述的方法,其中,所述质量度量是视频多方法评估融合VMAF。
71.根据权利要求1所述的方法,其中,所述转换包括将所述视频数据编码成所述比特流。
72.根据权利要求1所述的方法,其中,所述转换包括从所述比特流中解码所述视频数据。
73.一种用于处理媒体数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中,所述指令在由所述处理器执行时使所述处理器:
将不同的超分辨率SR过程应用于视频单元的不同的子区域;以及
基于所应用的所述不同的SR过程,执行包括所述视频单元的不同的区域的视频和所述视频的比特流之间的转换。
74.一种存储由视频处理装置执行的方法生成的视频的比特流的非暂时性计算机可读记录介质,其中,所述方法包括:
将不同的超分辨率SR过程应用于视频单元的不同的子区域;以及
基于所应用的所述不同的SR过程来生成所述比特流。
75.一种用于处理媒体数据的装置,包括处理器和其上具有指令的非暂时性存储器,其中,所述指令在由所述处理器执行时使得所述处理器执行权利要求1至72中的一项或多项所述的方法。
76.一种存储视频的比特流的非暂时性计算机可读记录介质,所述视频的比特流是通过由视频处理装置执行的权利要求1至72中的一项或多项所述的方法生成的。
77.一种其上存储有代码的计算机可读程序介质,所述代码包括指令,所述指令在由处理器执行时使所述处理器实现权利要求1至72中的一项或多项所述的方法。
CN202280047224.0A 2021-07-01 2022-07-01 超分辨率的应用 Pending CN117616450A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2021/104103 2021-07-01
CN2021104103 2021-07-01
PCT/CN2022/103354 WO2023274404A1 (en) 2021-07-01 2022-07-01 Application of super resolution

Publications (1)

Publication Number Publication Date
CN117616450A true CN117616450A (zh) 2024-02-27

Family

ID=84690505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280047224.0A Pending CN117616450A (zh) 2021-07-01 2022-07-01 超分辨率的应用

Country Status (2)

Country Link
CN (1) CN117616450A (zh)
WO (1) WO2023274404A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104103052B (zh) * 2013-04-11 2017-08-04 北京大学 一种基于稀疏表示的图像超分辨率重建方法
CN103455709B (zh) * 2013-07-31 2016-02-24 华中科技大学 一种用于数字高程模型的超分辨率方法及其系统
CN104320596B (zh) * 2014-09-30 2017-11-21 北京智谷技术服务有限公司 超分辨率图像的获取方法和获取装置
JP6614935B2 (ja) * 2015-11-16 2019-12-04 日本放送協会 映像符号化装置およびプログラム
CN105678728A (zh) * 2016-01-19 2016-06-15 西安电子科技大学 分区域管理的高效超分辨率成像装置及方法
CN106960416B (zh) * 2017-03-20 2019-05-10 武汉大学 一种内容复杂性自适应的视频卫星压缩图像超分辨率方法

Also Published As

Publication number Publication date
WO2023274404A1 (en) 2023-01-05
US20240137513A1 (en) 2024-04-25

Similar Documents

Publication Publication Date Title
CN114339221B (zh) 用于视频编解码的基于卷积神经网络的滤波器
CN114630132B (zh) 视频编解码的基于神经网络的环路内滤波器中的模型选择
CN113287311B (zh) 两步交叉分量预测模式的指示
US12022098B2 (en) Neural network-based in-loop filter with residual scaling for video coding
US20220329837A1 (en) Neural Network-Based Post Filter For Video Coding
CN115004697A (zh) 来自多个跨分量的预测
CN115396666A (zh) 基于神经网络的滤波的参数更新
WO2021115235A1 (en) Cross-component prediction using multiple components
CN115836525A (zh) 用于从多个交叉分量进行预测的方法和系统
WO2021093801A1 (en) Coding of low bit-depth visual media data
CN117616450A (zh) 超分辨率的应用
WO2023274406A1 (en) Super resolution upsampling and downsampling
WO2023274405A1 (en) Super resolution position and network structure
WO2023274392A1 (en) Utilizing Coded Information During Super Resolution Process
US20240236322A9 (en) Application of Super Resolution
WO2023274391A1 (en) Super resolution downsampling
US20240236325A9 (en) Super resolution downsampling
US20240236380A9 (en) Super Resolution Upsampling and Downsampling
WO2024078635A1 (en) Down-sampling methods and ratios for super-resolution based video coding
US11979591B2 (en) Unified neural network in-loop filter
WO2022174801A1 (en) On boundary padding size in image/video coding
US20230023579A1 (en) Configurable Neural Network Model Depth In Neural Network-Based Video Coding
US20230128496A1 (en) Motion compensation with a sparse optical flow representation
WO2024010860A1 (en) Geometric transform in neural network-based coding tools for video coding
CN115379212A (zh) 关于基于神经网络的环路内滤波器的填充方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication