CN117882375A - 用于视频处理的方法、装置和介质 - Google Patents

用于视频处理的方法、装置和介质 Download PDF

Info

Publication number
CN117882375A
CN117882375A CN202280057523.2A CN202280057523A CN117882375A CN 117882375 A CN117882375 A CN 117882375A CN 202280057523 A CN202280057523 A CN 202280057523A CN 117882375 A CN117882375 A CN 117882375A
Authority
CN
China
Prior art keywords
codec
video
tool
artifact
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280057523.2A
Other languages
English (en)
Inventor
李雪晴
陶思平
张莉
贺玉文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
ByteDance Inc
Original Assignee
Douyin Vision Co Ltd
ByteDance Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Douyin Vision Co Ltd, ByteDance Inc filed Critical Douyin Vision Co Ltd
Publication of CN117882375A publication Critical patent/CN117882375A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开的实施例提供了一种用于视频处理的解决方案。提出了一种用于视频处理的方法。该方法包括:在视频的目标视频块与视频的码流之间的转换期间,确定伪影编解码工具是否被启用,伪影编解码工具被用于在视频中生成伪影效果;响应于伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;以及通过启用至少一个候选编解码工具来执行转换。

Description

用于视频处理的方法、装置和介质
技术领域
本公开的实施例总体上涉及视频编解码技术,并且更具体地,涉及伪影视频编解码。
背景技术
当今,数字视频能力正被应用于人们生活的方方面面。已经针对视频编码/解码,已经提出了多种类型的视频压缩技术,诸如MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频编解码(AVC)、ITU-T H.265高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准。然而,常规视频编解码技术的编解码效率通常很低,这是不期望的。
发明内容
本公开的实施例提供用于视频处理的解决方案。
在第一方面,提出了一种用于视频处理的方法。该方法包括:在视频的目标视频块与视频的码流之间的转换期间,确定伪影编解码工具是否被启用,伪影编解码工具被用于在视频中生成伪影效果;响应于伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;以及通过启用至少一个候选编解码工具来执行转换。与传统解决方案相比,所提出的方法可以有利地实现伪影,诸如经由视频编解码的数据混杂(datamoshing)。
在第二方面中,提出了一种处理视频数据的装置,该处理视频数据的装置包括处理器和其上具有指令的非暂态存储器,其中指令在被处理器执行时,使处理器执行根据本公开的第一方面的方法。
在第三方面,提出了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储使处理器执行根据本公开第一方面的方法的指令。
在第四方面中,提出了另一种非暂态计算机可读记录介质。非暂态计算机可读记录介质存储由视频处理装置执行的方法生成的视频的码流,其中该方法包括:确定伪影编解码工具是否被启用,伪影编解码工具被用于在视频中生成伪影效果;响应于伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;以及通过启用至少一个候选编解码工具来生成码流。
在第五方面中,提出了一种用于存储视频的码流的方法,该方法包括:确定伪影编解码工具是否被启用,伪影编解码工具被用于在视频中生成伪影效果;响应于伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;通过启用至少一个候选编解码工具来生成码流;以及将码流存储在非暂态计算机可读记录介质中。
提供本发明内容部分是为了以简化的形式介绍以下具体实施方式中进一步描述的概念的选择。本发明内容部分不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护主题的范围。
附图说明
通过以下参考附图的详细描述,本公开的示例实施例的上述和其他的目的、特征和优点将变得更加明显。在本公开的示例实施例中,相同的附图标记通常指代相同的组件。
图1示出了根据本公开的一些实施例的示例视频编解码系统的框图;
图2示出了根据本公开的一些实施例的第一示例视频编码器的框图;
图3示出了根据本公开的一些实施例的示例视频解码器的框图;
图4示出了HEVC的编解码流程的示例图;
图5示出了MB划分的示例;
图6示出了用于将CB分割成PB的模式的示例;
图7A和图7B示出了CTB到CB的子分区的示例;
图8示出了树划分的示例;
图9示出了GOP结构的示意图;
图10示出了数据混杂的过程的示意图;
图11示出了根据本公开的一些实施例的伪影视频编解码过程的示意图;
图12示出了根据本公开的一些实施例的用于视频处理的方法的流程图;以及
图13示出了其中可以实现本公开的各种实施例的计算设备的框图。
在所有附图中,相同或相似的附图标记通常指代相同或相似的元素。
具体实施方式
现在将参考一些实施例来描述本公开的原理。应当理解的是,描述这些实施例仅出于说明并且帮助本领域技术人员理解和实施本公开的目的,而不暗示对本公开的范围的任何限制。除了下文所述的方式之外,本文所描述的公开内容还可以以各种方式实施。
在以下描述和权利要求中,除非另有定义,否则在本文中使用的所有科学术语和技术术语具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。
本公开中提及的“一个实施例”、“实施例”、“示例实施例”等指示所描述的实施例可以包括特定的特征、结构或特性,但是并非每个实施例都必须包括该特定的特征、结构或特性。此外,这些短语不一定指同一实施例。此外,当结合示例实施例描述特定的特征、结构或特性时,无论是否明确描述,认为影响与其他实施例相关的这种特征、结构或特性在本领域技术人员的知识范围内。
应当理解的是,尽管术语“第一”和“第二”等可以用于描述各种元素,但这些元素不应受限于这些术语。这些术语仅用于区分一个元素与另一个元素。例如,第一元素可以被称为第二元素,类似地,第二元素可以被称为第一元素,而不脱离示例实施例的范围。如本文中所使用的,术语“和/或”包括一个或多个所列术语的任何和所有组合。
本文中所使用的术语仅用于描述特定实施例的目的,并不旨在限制示例实施例。如本文中所用的,单数形式“一”、“一个”和“该”也旨在包括复数形式,除非上下文另有明确指示。还应理解,术语“包括”、“包含”和/或“具有”在本文中使用时表示存在所述特征、元素和/或组件等,但不排除一个或多个其他特征、元素、组件和/或其组合的存在或添加。
示例环境
图1是图示可以利用本公开的技术的示例视频编解码系统100的框图。如所示出的,视频编解码系统100可以包括源设备110和目的设备120。源设备110也可以称为视频编码设备,并且目的设备120也可以称为视频解码设备。在操作中,源设备110可以被配置为生成经编码的视频数据,并且目的设备120可以被配置为对由源设备110生成的经编码的视频数据进行解码。源设备110可以包括视频源112、视频编码器114和输入/输出(I/O)接口116。
视频源112可以包括诸如视频捕获设备之类的源。视频捕获设备的示例包括但不限于从视频内容提供商接收视频数据的接口、用于生成视频数据的计算机图形系统和/或其组合。
视频数据可以包括一个或多个图片。视频编码器114对来自视频源112的视频数据进行编码,以生成码流。码流可以包括形成视频数据的编码表示的位序列。码流可以包括编码图片和相关联的数据。编码图片是图片的编码表示。相关联的数据可以包括序列参数集、图片参数集和其他语法结构。I/O接口116可以包括调制器/解调器和/或发送器。经编码的视频数据可以通过网络130A经由I/O接口116直接传输至目的设备120。经编码的视频数据也可以存储在存储介质/服务器130B上,以供目的设备120访问。
目的设备120可以包括I/O接口126、视频解码器124和显示设备122。I/O接口126可以包括接收器和/或调制解调器。I/O接口126可以从源设备110或存储介质/服务器130B获取经编码的视频数据。视频解码器124可以对经编码的视频数据进行解码。显示设备122可以向用户显示经解码的视频数据。显示设备122可以与目的设备120集成,或者可以在目的设备120的外部,该目的设备120被配置为与外部显示设备接口连接。
视频编码器114和视频解码器124可以根据视频压缩标准操作,诸如高效视频编解码(HEVC)标准、通用视频编解码(VVC)标准和其他现有和/或进一步的标准。
图2是示出根据本公开的一些实施例的视频编码器200的示例的方框图,视频编码器200可以是图1所示的系统100中的视频编码器114的示例。
视频编码器200可以被配置为实现本公开的任何或所有技术。在图2的示例中,视频编码器200包括多个功能组件。本公开中描述的技术可以在视频编码器200的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在一些实施例中,视频编码器200可以包括划分单元201、预测单元202、残差生成单元207、变换单元208、量化单元209、反量化单元210、反变换单元211、重建单元212、缓冲213和熵编解码单元214,该预测单元202可以包括模式选择单元203、运动估计单元204、运动补偿单元205和帧内预测单元206。
在其他示例中,视频编码器200可以包括更多、更少或不同的功能组件。在一个示例中,预测单元202可以包括块内复制(IBC)单元。IBC单元可以在IBC模式中执行预测,其中至少一个参考图片是当前视频块所位于的图片。
此外,尽管一些组件(诸如运动估计单元204和运动补偿单元205)可以被集成,但是为了解释的目的,这些组件在图2的示例中被分离地示出。
划分单元201可以将图片划分成一个或多个视频块。视频编码器200和视频解码器300可以支持各种视频块大小。
模式选择单元203可以例如基于误差结果来选择多种编解码模式(帧内编码或帧间编码)中的一种编解码模式,并且将所产生的帧内编解码块或帧间编解码块提供给残差生成单元207以生成残差块数据,并且提供给重建单元212以重建编解码块以用作参考图片。在一些示例中,模式选择单元203可以选择帧内和帧间预测(CIIP)模式的组合,其中预测基于帧间预测信号和帧内预测信号。在帧间预测的情况下,模式选择单元203还可以为块选择针对运动矢量的分辨率(例如,亚像素精度或整数像素精度)。
为了对当前视频块执行帧间预测,运动估计单元204可以通过将来自缓冲213的一个或多个参考帧与当前视频块进行比较来生成针对当前视频块的运动信息。运动补偿单元205可以基于运动信息和来自缓冲213的除了与当前视频块相关联的图片之外的图片的经解码样本,来确定针对当前视频块的预测视频块。
运动估计单元204和运动补偿单元205可以对当前视频块执行不同的操作,例如,取决于当前视频块是在I条带、P条带还是B条带中。如本文中使用的,“I条带”可以是指由宏块构成的图片的一部分,所有宏块均基于同一图片内的宏块。此外,如本文中使用的,在一些方面中,“P条带”和“B条带”可以是指由独立于同一图片中的宏块的宏块构成的图片的部分。
在一些示例中,运动估计单元204可以对当前视频块执行单向预测,并且运动估计单元204可以搜索列表0或列表1的参考图片,以寻找针对当前视频块的参考视频块。运动估计单元204然后可以生成参考索引和运动矢量,该参考索引指示列表0或列表1中的包含参考视频块的参考图片,并且该运动矢量指示当前视频块与参考视频块之间的空间位移。运动估计单元204可以输出参考索引、预测方向指示符和运动矢量作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的参考视频块来生成当前视频块的预测视频块。
备选地,在其他示例中,运动估计单元204可以对当前视频块执行双向预测。运动估计单元204可以搜索列表0中的参考图片以寻找针对当前视频块的参考视频块,并且还可以搜索列表1中的参考图片以寻找针对当前视频块的另一参考视频块。运动估计单元204然后可以生成多个参考索引和多个运动矢量,该多个参考索引指示列表0和列表1中的包含多个参考视频块的多个参考图片,并且该多个运动矢量指示在多个参考视频块与当前视频块之间的多个空间位移。运动估计单元204可以输出当前视频块的多个参考索引和多个运动矢量以作为当前视频块的运动信息。运动补偿单元205可以基于由当前视频块的运动信息指示的多个参考视频块来生成针对当前视频块的预测视频块。
在一些示例中,运动估计单元204可以输出完整的运动信息集,以用于解码器的解码处理。备选地,在一些实施例中,运动估计单元204可以参考另一视频块的运动信息来通过信号传输当前视频块的运动信息。例如,运动估计单元204可以确定当前视频块的运动信息与邻近视频块的运动信息足够相似。
在一个示例中,运动估计单元204可以在与当前视频块相关联的语法结构中向视频解码器300指示一值,该值指示当前视频块具有与另一视频块相同的运动信息。
在另一示例中,运动估计单元204可以在与当前视频块相关联的语法结构中标识另一视频块和运动矢量差(MVD)。运动矢量差指示在当前视频块的运动矢量与所指示的视频块的运动矢量之间的差异。视频解码器300可以使用所指示的视频块的运动矢量以及运动矢量差来确定当前视频块的运动矢量。
如上所讨论的,视频编码器200可以以预测性的方式通过信号传输运动矢量。可以由视频编码器200实现的预测信令技术的两个示例包括高级运动矢量预测(AMVP)和合并模式信令。
帧内预测单元206可以对当前视频块执行帧内预测。当帧内预测单元206对当前视频块执行帧内预测时,帧内预测单元206可以基于同一图片中其他视频块的经解码样本来生成针对当前视频块的预测数据。针对当前视频块的预测数据可以包括预测视频块和各个语法元素。
残差生成单元207可以通过从当前视频块中减去(例如,由减号指示)当前视频块的(多个)预测视频块来生成针对当前视频块的残差数据。当前视频块的残差数据可以包括对应于当前视频块中样本的不同样本部分的残差视频块。
在其他示例中,例如在跳过模式中,针对当前视频块可以不存在针对当前视频块的残差数据,并且残差生成单元207可以不执行减去操作。
变换处理单元208可以通过将一个或多个变换应用于与当前视频块相关联的残差视频块,来生成针对当前视频块的一个或多个变换系数视频块。
在变换处理单元208生成与当前视频块相关联的变换系数视频块之后,量化单元209可以基于与当前视频块相关联的一个或多个量化参数(QP)值来量化与当前视频块相关联的变换系数视频块。
反量化单元210和反变换单元211可以分别对变换系数视频块应用反量化和反变换,以从变换系数视频块重建残差视频块。重建单元212可以将经重建的残差视频块添加到来自由预测单元202生成的一个或多个预测视频块的对应样本,以产生与当前视频块相关联的重建视频块,以供存储在缓冲213中。
在重建单元212重建视频块之后,可以执行环路滤波操作以减少视频块中的视频块效应伪像。
熵编解码单元214可以从视频编码器200的其他功能组件接收数据。当熵编解码单元214接收数据时,熵编解码单元214可以执行一个或多个熵编码操作,以生成熵编解码数据并且输出包括该熵编解码数据的码流。
图3是示出根据本公开的一些实施例的视频解码器300的示例的方框图,视频解码器300可以是图1所示的系统100中的视频解码器124的示例。
视频解码器300可以被配置为执行本公开的任何或所有技术。在图3的示例中,视频解码器300包括多个功能组件。本公开中描述的技术可以在视频解码器300的各个组件之间共享。在一些示例中,处理器可以被配置为执行本公开中描述的任何或所有技术。
在图3的示例中,视频解码器300包括熵解码单元301、运动补偿单元302、帧内预测单元303、反量化单元304、反变换单元305、以及重建单元306和缓冲307。在一些示例中,视频解码器300可以执行通常与关于视频编码器200所描述的编码过程相对的解码过程。
熵解码单元301可以取回经编码的码流。经编码的码流可以包括经熵编码的视频数据(例如,经编码的视频数据块)。熵解码单元301可以对经熵编码的视频数据进行解码,并且运动补偿单元302可以从经熵解码的视频数据中确定运动信息,该运动信息包括运动矢量、运动矢量精度、参考图片列表索引和其他运动信息。运动补偿单元302可以例如通过执行AMVP和合并模式来确定该信息。AMVP被使用,包括基于相邻PB的数据和参考图片得出数个最可能的候选项。运动信息通常包括水平和垂直运动矢量位移值、一个或两个参考图片索引,并且在B条带中的预测区域的情况下,还包括哪个参考图片列表与每个索引相关联的标识。如本文所使用的,在一些方面中,“合并模式”可以是指从空间或时间上邻近的块中导出运动信息。
运动补偿单元302可以产生运动补偿块,可能地基于插值滤波器来执行内插。针对以亚像素精度被使用的插值滤波器的标识符可以被包括在语法元素中。
运动补偿单元302可以使用由视频编码器200在视频块的编码期间使用的插值滤波器来计算用于参考块的亚整数像素的内插值。运动补偿单元302可以根据接收到的语法信息来确定由视频编码器200使用的插值滤波器,并且运动补偿单元302可以使用插值滤波器来产生预测块。
运动补偿单元302可以使用至少部分语法信息来确定用于编码经编码视频序列的(多个)帧和/或(多个)条带的块的尺寸、描述经编码视频序列的图片的每个宏块如何被划分的划分信息、指示每个划分如何被编码的模式、针对每个帧间编解码块的一个或多个参考帧(和参考帧列表)、以及对经编码视频序列进行解码的其他信息。如本文中所使用的,在一些方面,“条带”可以是指在熵编码、信号预测和残差信号重建方面可以独立于同一图片的其他条带而被解码的数据结构。条带可以是整个图片,或者也可以是图片的区域。
帧内预测单元303可以使用例如在码流中接收的帧内预测模式,以从空间相邻块形成预测块。反量化单元304反量化(即,去量化)在码流中提供的、并且由熵解码单元301解码的量化视频块系数。反变换单元305应用反变换。
重建单元306可以例如通过将残差块与由运动补偿单元302或帧内预测单元303生成的相应预测块相加来获得经解码的块。如果需要的话,还可以应用去块效应滤波器以对经解码的块进行过滤,以便去除块效应伪像。经解码的视频块随后被存储在缓冲307中,缓冲307为后续运动补偿/帧内预测提供参考块,并且缓冲307还产生经解码的视频以供在显示设备上呈现。
下文将详细描述本公开的一些示例实施例。应当注意,在本文件中使用章节标题是为了便于理解,而不是将章节中公开的实施例仅限于该章节。此外,尽管参考通用视频编解码或其他特定视频编解码器描述了一些实施例,但是所公开的技术也适用于其他视频编解码技术。此外,尽管一些实施例详细描述了视频编码步骤,但是应当理解的是取消编码的相应解码步骤将由解码器实现。此外,术语视频处理包括视频编解码或压缩、视频解码或解压缩以及视频转码,在该视频转码中视频像素被从一种压缩格式表示为另一种压缩格式或以不同的压缩码率表示。
1.概述
本公开涉及视频编码和数据混杂。具体而言,它是关于如何通过视频编码实现数据混杂伪影。这些想法可以单独或以各种组合应用于任何视频编解码标准或非标准视频。
2.背景
2.1.视频编解码标准和编码框架
视频编解码标准主要通过众所周知的ITU-T和ISO/IEC标准的发展而演进。ITU-T生产了H.261和H.263,ISO/IEC生产了MPEG-1和MPEG-4视觉,并且两个组织联合生产了H.262/MPEG-2视频和H.264/MPEG-4高级视频编解码(AVC)和H.265/HEVC标准。自H.262以来,视频编解码标准基于混合视频编解码结构,其中使用时域预测加变换编解码。图4图示了HEVC的编解码流程400的示例图。典型HEVC编码器框架的示例被描述为图4。
2.1.1.图片/条带类型
H.264支持三种类型的图片/切片,包括I/P/B切片/图片。
H.264I-条带是由宏块组成的图片的一部分,所有宏块都基于同一图片内的宏块。因此,H.264引入了一个名为切片的新概念——比宏块大但比帧小的图片的片段。就像有I-切片一样,也有P-切片和B-切片。P-切片和B-切片是图片中由不依赖于同一图片中的宏块的宏块组成的部分。
可变块尺寸运动补偿(VBSMC)具有大至16×16并且小至4×4的块尺寸,实现对运动区域的精确分割。支持的亮度预测块尺寸包括16×16、16×8、8×16、8×8、8×4、4×8和4×4,其中许多块可以在单个宏块中一起使用。当使用色度次采样时,色度预测块大小相应较小。
2.2.H.264/AVC中的划分树结构
在以前的标准中,编解码层的核心是宏块,包含16×16的亮度样本块和在4:2:0颜色采样的通常情况下,两个相应的8×8色度样本块。
经帧内编解码的块使用空间预测来利用像素之间的空间相关性。定义了两个划分:16x16和4x4。
经帧间编解码的块使用时间预测,而不是空间预测,通过估计图片之间的运动。图5说明了宏块(MB)划分的示例图500。运动可以针对16x16宏块或其16x8、8x16、8x8、8x4、4x8、4x4(见图5)的任何子宏块划分被独立估计。每个子宏块划分只允许一个运动矢量(MV)。
2.3.HEVC中的划分树结构
在HEVC中,通过使用表示为编解码树的四叉树结构将CTU拆分为CU,以适应各种局部特征。是否使用帧间-图片(时间)或帧内-图片(空间)预测来编解码图片区域的决定是在CU级别做出的。每个CU可以根据PU分割类型被进一步分割为一个、两个或四个PU。在一个PU内,应用相同的预测过程,并在PU的基础上将相关信息传输到解码器。在通过应用基于PU分割类型的预测过程获得残差块后,可以根据类似于CU编解码树的另一四叉树结构将CU划分为变换单元(TU)。HEVC结构的一个关键特征是它具有包括CU、PU和TU在内的多个划分概念。
在下文中,以下突出了使用HEVC的混合视频编解码所涉及的各种特征。
1)编解码树单元和编解码树块(CTB)结构:HEVC中类似的结构是编解码树单元(CTU),其尺寸由编码器选择,并且可以比传统的宏块大。CTU由亮度CTB和相应的色度CTB和语法元素组成。亮度CTB的尺寸L×L可以选择为L=16、32或64个样本,较大的尺寸通常可以实现更好的压缩。HEVC然后支持使用树形结构和类似四叉树的信令将CTB划分为更小的块。
2)编解码单元(CU)和编解码块(CB):CTU的四叉树语法指定其亮度和色度CB的尺寸和位置。四叉树的根与CTU相关联。因此,亮度CTB的尺寸是针对亮度CB支持的最大尺寸。将CTU分割成亮度和色度CB是联合发出信号的。一个亮度CB和通常两个色度CB,连同相关的语法,形成一个编解码单元(CU)。CTB可能只包含一个CU,或者可能被分割成多个CU,并且每个CU都有一个相关联的预测单元(PU)和一个变换单元(TU)树的划分。
3)预测单元和预测块(PBS):是使用帧间图片还是帧内图片预测来编解码图片区域的决定是在CU级别做出的。PU划分结构的根在CU级别。根据基本的预测类型决定,亮度CB和色度CB可以被进一步分尺寸,并从亮度和色度预测块(PB)中预测。HEVC支持从64×64到4×4样本的可变PB尺寸。
图6示出了用于将CB分割成PB的模式的示例图600,受某些尺寸约束。对于帧内-图片预测的CB,仅支持M×M和M/2×M/2。
4)TU和变换块:预测残差是使用块变换经编解码的。TU树结构的根在CU级别。亮度CB残差可以与亮度变换块(TB)相同,或者可以被进一步分割为更小的亮度TB。这同样适用于色度TB。为正方形TB尺寸4×4、8×8、16×16和32×32定义了类似于离散余弦变换(DCT)的整数基函数。对于亮度帧内图片预测残差的4×4变换,备选地指定了从离散正弦变换(DST)形式导出的整数变换。
图7A和图7B示出了从CTB到CB和变换块(TB)的子分区的示例。图7A示出了具有其划分的CTB 700。图7B示出了对应于CTB 700的四叉树750。在图7A和图7B中,实线表示CB边界,并且虚线表示TB边界。
2.4.VVC的三叉树
在VVC中,支持除四叉树和二叉树之外的树类型。图8图示了说明树划分示例的示例图800,包括(a)四叉树划分,(b)垂直二叉树划分,(c)水平二叉树划分,(d)垂直中心侧三叉树划分,以及(e)水平中心侧三叉树划分。在实现中,引入了另外两个三叉树(TT)划分,即水平和垂直中心侧三叉树,如图8中的示例(d)和(e)所示。
在VVC中,有两级树,区域树(四叉树)和预测树(二叉树或三叉树)。CTU首先被区域树(RT)划分。RT叶子可以进一步与预测树(PT)分割。PT叶子也可以与PT进一步分割,直到达到最大PT深度。PT叶子是基本的编解码单元。为了方便起见,它仍然被称为CU。CU不能进一步分割。预测和变换都以与JEM相同的方式应用于CU。整个划分结构被命名为“多类型树”。
2.5.低延迟配置
对于低延迟配置,只允许将当前图片之前显示的图片用作参考图片。
2.6.随机接入的参考结构
例如,考虑的编解码结构。该编解码结构的尺寸为4。图9示出了尺寸为4的GOP结构的示例图900。图片按解码顺序列出。因此,帧1应使用POC=4来描述图片。它引用图片4。类似地,帧2的POC为2,由于它引用图片0和4。帧3是一个特殊情况:即使它只引用POC 0和2的图片,它也需要包含POC 4的图片,该图片必须保留以便将来用作参考图片。帧3的参考图片列表因此变为-11 3。帧4的POC为3,其参考图片列表为-1 1。
2.7.数据混杂
数据混杂是视频故障艺术领域的一种强大技术,用于制作具有渗出像素效果的视频。它是在电影行业中提出的,并在近年来被广泛采用。
数据混杂通过将视频剪辑与静止图像相结合来生成渗出像素效果,试图将静止图像保持为视频背景,同时应用与原始视频剪辑相同的运动趋势。现代视频编解码技术使其变得更加直观,因为视频剪辑的运动趋势在编码后通过运动矢量被固有地抽象。图10图示了用于数据混杂的过程1000的示意图。通常,带有毛刺伪影的新视频剪辑是通过关键帧替换创建的,如图10所示。视频剪辑中的第一个图像被称为关键帧,其被编码为帧内帧(I帧),并且随后的图像被编码为预测帧(P帧或B帧)。通过用静止图像替换关键帧,新的视频剪辑将看起来像具有新背景的视频剪辑,同时保持与旧视频剪辑相同的运动趋势。
3.问题
现有技术存在以下问题:
1.毛刺伪影结构不良且难以控制,简单的关键帧替换可能无法提供预期的效果,因为仅视频编码不具备数据混杂的任何知识。因此,如果可用,建议执行具有丰富数据混杂信息的视频编码。
2.视频编解码中的运动补偿是探索帧间相关性的关键,然而,大多数实现都是在最优压缩效率的意义上进行运动补偿,而不是跟踪真实对象的运动。
4.详细描述
下面的详细实施例应被视为解释一般概念的示例,不应以狭义的方式解释这些实施例,此外,这些实施例可以以任何方式组合。
应该注意,所提出的解决方案可以应用于不同的视频编解码标准,即使对于某些描述,只考虑H.264/AVC。
1.当启用数据混杂时,某些编解码工具可能总是被禁用。
a.在一个示例中,某些编解码工具可以包括环路内滤波器,例如去块滤波器、SAO、ALF。
b.在一个示例中,某些编解码工具可以包括加权预测。
c.在一个示例中,某些编解码工具可以包括双向预测。
d.在一个示例中,不允许从反向参考图片(例如,在当前图片之后显示的那些图片)进行预测。
2.当启用数据混杂时,某些编解码工具可能始终处于启用状态。
a.在一个示例中,仅单向预测被允许。
b.在一个示例中,低延迟配置被启用。
3.定义了感兴趣区域(ROI),对于ROI中的样本,它们可以利用有限的编解码工具子集被编解码,而对于非ROI区域的样本,没有这样的限制。
a.在一个示例中,帧间预测被允许并且帧内预测被禁止用于
ROI区域。
b.在一个示例中,单向预测被允许用于ROI区域。
4.将基于光流的运动补偿引入到传统的视频编解码框架中。
a.通过结合光流对象跟踪,编码器被允许更好地跟踪真实的运动趋势,以提供预期的毛刺伪影。
b.在一个示例中,在基于块级运动补偿的传统视频编解码框架协作之前,每像素OF结果可以被首先处理。
i.在一个示例中,MxN区域内的所有或部分样本的基于
OF的平均MV被用作MxN级的MV。
ii.在一个示例中,MxN区域内的一个代表性样本的基于
OF的MV被用作MxN级的MV。
iii.在一个示例中,M和N被设置为4。
iv.备选地,此外,上述示例中的基于OF的MV可以首先被覆盖为具有一定精度(例如,1/4像素(pel))。
5.对于位于数据混杂区域(例如,ROI或依赖于OF的那些区域)中的样本,仅帧间编解码被允许。
a.备选地,此外,仅单向预测被允许。
b.备选地,此外,可以将所有块划分设置为允许用于帧间编解码的最小编解码单元(CU)。
i.备选地,此外,作为帧间AMVP模式(例如,不包括帧内模式、合并模式)经编解码的所有块划分可以被设置为允许的最小编解码单元(CU)。
c.备选地,此外,所有宏块都可以被编解码为具有4x4子划分。
6.对于位于数据混杂区域(例如,ROI或依赖于OF的那些区域)中的样本,lambda设置可以不同于位于数据混杂区域之外的其他样本。
a.在一个示例中,与用于ROI外的样本相比,用于ROI内的lambda可以设置为更大的值。
b.在一个示例中,在运动估计过程中用于数据混杂区域和数据混杂区域外部之间的关系可以设置为lambda(ROI内部)
=5×lambda(ROI外部)
c.在一个示例中,在率失真优化过程中用于数据混杂区域和数据混杂区域外部之间的关系可以设置为lambda(ROI内部)=5
×lambda(ROI外部)
5.实施例
5.1.实施例#1
实施例的示例被描述为图11。图11示出了根据本公开的一些实施例的伪影视频编解码的过程的示意图1100。
如上所示,一些额外的信息被提取来指导数据混杂编码
1.光流估计,以跟踪对象的像素运动。由于视频编码中的运动估计不能保证跟踪真实世界中的对象运动,而是在最佳压缩效率的意义上。通过先进的光流估计,可以获得对象的真实运动,然后在进一步编码中跳过运动估计。值得注意的是,视频编码器通常不是按像素表示运动,而是按块表示运动,因此需要为整个块选择单个运动,以使其可由视频编码器表示。每个视频编码器都有其可以表示的最小块尺寸,例如,H.264/AVC标准中的4x4尺寸,因此为了具有最佳的运动颗粒度,编码器在编码时应采用最小的块尺寸。此外,视频编码器以有限的精度表示运动矢量,以具有良好的编解码效率权衡,例如,H.264/AVC表示运动矢量的亮度为1/4像素精度,色度为1/8像素精度。现实世界中对象的运动可能是任意浮点数,因此运动需要量化到视频编码器最多支持的精度。
2.感兴趣区域(ROI)提取,以避免在有跟踪对象的区域对帧内块进行编码。由于需要尽可能保持感兴趣对象的运动趋势,在有跟踪对象的区域应避免打破帧间运动的帧内模式。通常,编码器仅从编解码效率的角度决定将块编码为帧内模式或帧间模式,因此提取ROI区域以指导进一步编码。对于没有被跟踪对象的区域,将其经编解码的帧内以从突变中恢复。
对于没有额外信息的场景,例如由于实时性能问题,可以调整编码参数以尽可能估计真实运动。
1.选择最小的块尺寸以获得最佳的运动颗粒度。
2.运动估计通过率失真优化搜索最优运动,即搜索最小的RD成本=失真+lambda*MVD位(MVDbits)的运动。失真是通过绝对差和来测量的。运动矢量不是直接经编解码的,由于现代编码器中的运动矢量预测,只有预测误差(运动矢量差,MVD)是经编解码的,并且运动矢量是从相邻块预测的。
Lambda是优化的拉格朗日乘子,它影响失真和MVD位之间的权衡。如果在MVD上投入更少的位,被搜索的运动将在相邻块之间更加一致。因此,在运动估计过程中,可以提高lambda来控制运动矢量的一致性,更一致的运动提供更好的数据混杂效果。
本公开的实施例涉及伪影视频编解码工具,如本文所用,术语“伪影视频编解码工具”或“伪影编解码工具”指的是产生诸如视频中的数据混杂之类的伪影效果的任何编解码。
如本文所用,术语“块”可以表示编解码块(CB)、编解码单元(CU)、预测单元(PU)、变换单元(TU)、预测块(PB)、变换块(TB)。
图12示出了根据本公开的一些实施例的用于视频处理的方法1200的流程图。该方法1200可以在视频的目标视频块与视频的码流之间的转换期间实现。如图12所示,在块1202,确定伪影编解码工具是否被启用。例如,将确定是否启用了数据混杂编解码工具。数据混杂工具的过程如图10所示。
如果在框1202确定伪影编解码工具被启用,则方法1200将继续进行框1204。在框1204,从多个编解码工具确定至少一个候选编解码工具。在框1206,通过启用至少一个候选编解码工具来执行目标视频块与码流之间的转换。转换可以包括将目标视频块编码到码流中,或者包括从码流解码目标视频块。
根据本公开的实施例,建议在要实现诸如数据混杂之类的伪影的转换时,始终启用某些编解码工具。以这种方式,这种编解码工具可用于实现结构良好且令人满意的毛刺伪影。
在一些实施例中,至少一个候选编解码工具可以包括单向预测工具,或者具有低延迟配置的编解码工具,例如,在一些实施例中,只允许单向预测,而在另一示例中,启用低延迟配置。
在一些实施例中,可以从多个编解码工具中确定另一编解码工具。在至少一个候选编解码工具中不存在另一编解码工具。可以禁用另一编解码工具。换句话说,在需要伪影的转换期间可以始终禁用某些编解码工具。
在一些实施例中,另一编解码工具可以包括环路内滤波器。例如,环路内滤波器可以包括去块滤波器、样本自适应偏移(SAO)滤波器或自适应环路滤波器(ALF)。在一些实施例中,另一编解码工具可以包括加权预测工具。备选地,或者附加地,另一编解码工具可以包括从反向参考图片预测的反向预测工具。反向参考图片在当前图片之后显示。
在一些实施例中,可以确定或定义感兴趣区域(ROI)。对于ROI中的样本,例如,对于位于ROI内的目标视频块的第一样本,可以确定来自至少一个候选编解码工具的第一目标编解码工具。第一样本可以通过使用第一目标编解码工具来经编解码。换句话说,ROI内的那些样本可以用有限的编解码工具子集编解码,而对于非ROI区域中的样本,没有这种限制。
例如,第一目标编解码工具可以包括帧间预测工具。第一目标编解码工具中可能不存在帧内预测工具。换句话说,对于ROI内部的样本允许帧间预测,对于ROI区域不允许帧内预测。又例如,第一目标编解码工具可以包括单向预测工具。也就是说,对于ROI区域允许单向预测。
在一些实施例中,针对目标视频块的光流(OF)信息可以通过应用基于OF的运动补偿来生成。也就是说,将基于OF的运动补偿引入传统的视频编解码框架。例如,为了应用基于OF的运动补偿,可以通过应用光流对象跟踪来确定目标视频块的运动趋势。通过结合光流对象跟踪,编码器可以更好地跟踪真实运动趋势,从而提供预期的毛刺伪影。通过这种先进的光流估计,可以获得对象的真实运动,进一步编码中的运动估计可以跳过。
在一些实施例中,可以处理目标视频块的OF信息。例如,可以处理目标视频块的每像素OF信息。目标视频块的目标运动信息可以通过将处理后的OF信息与目标视频块的块级运动补偿信息相结合来获得。换句话说,在基于块级运动补偿的传统视频编解码框架配合之前,可以首先处理每像素OF结果。
在一些实施例中,目标视频块包括大小为M乘以N(M×N)的目标区域中的样本。在这种情况下,可以将目标区域中的所有样本或部分样本的基于OF的运动矢量(MV)的平均值处理为M×N级MV。备选地,可以将目标区域中的一个样本(例如一个代表性样本)的基于OF的MV确定为M×N级MV。在一些实施例中,目标区域中的样本的基于OF的MV具有预定精度,例如1/4像素精度。换句话说,可以首先覆盖上述示例中的基于OF的MV以具有一定精度。在一些实施例中,M和N中的至少一个设置为4。例如,M和N都可以设置为4。通过使用具有如此小的尺寸的块分区,可以获得更好的运动颗粒度。
在一些实施例中,可以确定伪影区域。伪影区域可以包括以下至少一项:感兴趣区域(ROI)或光流(OF)区域。OF信息应用于OF区域。如本文所用,术语“伪影区域”可以称为“数据混杂区域”。数据混杂区域可以包括ROI或依赖于OF的那些区域。如果目标视频块的第二样本在伪影区域内,则可以从至少一个候选编解码工具中确定第二目标编解码工具。第二样本可以通过使用第二目标编解码工具编解码。例如,第二目标编解码工具可以包括帧间编解码工具,或单向预测工具。也就是说,只允许帧间编解码,或备选地,只允许单向预测。
在一些实施例中,可以调整诸如第二样本的伪影区域内的样本的编解码参数。第二样本可以通过使用调整后的编解码参数来编解码。例如,编解码参数可以包括块划分的尺寸。例如,编解码参数可以设置为用于帧间编解码的最小编解码单元(CU)的尺寸。备选地,对于那些经编解码的块划分,作为排除帧内模式和合并模式的帧间运动高级矢量预测(AMVP)模式,可以将块划分的尺寸设置为4乘以4(4×4)。通过调整编解码参数,可以实现更好的真实运动估计。
在一些实施例中,块划分的尺寸可以设置为4×4。在这种情况下,视频的宏块可以被分成尺寸为4×4的多个子划分。多个子划分可以包括目标视频块。换句话说,所有宏块都可以被编解码为具有4×4的子划分。
备选地,或者附加地,编解码参数可以包括反映拉格朗日乘子的lambda参数。lambda参数可以影响失真和运动矢量差(MVD)精度之间的权衡。对于位于伪影区域中的样本,例如ROI或依赖于OF的那些区域,lambda参数可以不同于伪影区域之外的其他样本。例如,伪影区域中第二个样本的编解码参数的第一值大于伪影区域之外第三样本的编解码参数的第二值。例如,第一值可以是第二值的五倍。也就是说,用于ROI内部的lambda可以设置为与用于ROI外部样本的lambda相比更大的值。提高lambda可以控制运动估计过程中的运动矢量一致性,更一致的运动提供更好的数据混杂效果。
在一些实施例中,编解码参数的第一值可用于以下至少一项:运动估计过程,或率失真优化过程。
在一些实施例中,可以将视频的码流存储在非暂态计算机可读记录介质中。可以通过视频处理装置执行的方法来生成视频的码流。根据该方法,可以确定伪影编解码工具是否被启用。伪影编解码工具可以被用于生成视频中的伪影效果。响应于伪影编解码工具被启用,可以从多个编解码工具中确定至少一个候选编解码工具。可以通过启用至少一个候选编解码工具来生成码流。
在一些实施例中,可以确定伪影编解码工具是否被启用。伪影编解码工具可以被用于生成视频中的伪影效果。响应于伪影编解码工具被启用,可以从多个编解码工具中确定至少一个候选编解码工具。可以通过启用至少一个候选编解码工具来生成码流。码流可以被存储在非暂态计算机可读记录介质中。
本公开的实现可以根据以下条款来描述,这些条款的特征可以以任何合理的方式组合。
条款1.一种用于视频处理的方法,包括:在视频的目标视频块与所述视频的码流之间的转换期间,确定伪影编解码工具是否被启用,所述伪影编解码工具被用于在所述视频中生成伪影效果;响应于所述伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;以及通过启用所述至少一个候选编解码工具来执行所述转换。
条款2.根据条款1所述的方法,其中所述至少一个候选编解码工具包括以下至少一项:单向预测工具或具有低延迟配置的编解码工具。
条款3.根据条款1或条款2所述的方法,还包括:从所述多个编解码工具中确定另一编解码工具,所述另一编解码工具不存在于所述至少一个候选编解码工具中;以及禁用所述另一编解码工具。
条款4.根据条款1所述的方法,其中所述另一编解码工具包括以下至少一项:环路内滤波器、加权预测工具、双向预测工具或从反向参考图片预测的反向预测工具。
条款5.根据条款4所述的方法,其中所述环路内滤波器包括以下至少一项:去块滤波器、样本自适应偏移(SAO)滤波器或自适应环路滤波器(ALF)。
条款6.根据条款4所述的方法,其中所述反向参考图片在当前图片之后被显示。
条款7.根据条款1-6中任一项所述的方法,还包括:确定感兴趣区域(ROI);响应于所述目标视频块的第一样本在所述ROI内,从所述至少一个候选编解码工具中确定第一目标编解码工具;并且其中执行所述转换包括:通过使用所述第一目标编解码工具来编解码所述第一样本。
条款8.根据条款7所述的方法,其中所述第一目标编解码工具包括帧间预测工具。
条款9.根据条款7或条款8所述的方法,其中帧内预测工具不存在于第一目标编解码工具中。
条款10.根据条款7-9中任一项所述的方法,其中所述第一目标编解码工具包括单向预测工具。
条款11.根据条款1-10中任一项所述的方法,还包括:通过应用基于光流(OF)的运动补偿,生成针对所述目标视频块的OF信息。
条款12.根据条款11所述的方法,其中应用所述基于OF的运动补偿包括:通过应用光流对象跟踪来确定针对所述目标视频块的运动趋势。
条款13.根据条款11或条款12所述的方法,还包括:处理针对所述目标视频块的OF信息;以及通过将处理后的所述OF信息与针对所述目标视频块的块级运动补偿信息相结合,获得针对所述目标视频块的目标运动信息。
条款14.根据条款13所述的方法,其中处理OF信息包括:处理针对所述目标视频块的每像素OF信息。
条款15.根据条款13或14所述的方法,其中所述目标视频块包括具有M乘以N尺寸的目标区域中的样本;并且其中处理所述OF信息包括以下至少一项:将所述目标区域中所有样本的平均基于OF的运动矢量(MV)确定为M乘以N级别的MV;将所述目标区域中部分样本的平均基于OF的MV确定为所述M乘以N级别的MV;或者将所述目标区域中的一个样本的基于OF的MV确定为所述M乘以N级别的MV。
条款16.根据条款15所述的方法,其中针对所述目标区域中的样本的所述基于OF的MV具有预定精度。
条款17.根据条款16所述的方法,其中预定精度包括1/4像素的精度。
条款18.根据条款15-17中任一项所述的方法,其中M和N中的至少一个被设置为4。
条款19.根据条款1-18中任一项所述的方法,还包括:确定伪影区域,所述伪影区域包括以下至少一项:感兴趣区域(ROI)或光流(OF)区域,OF信息被施加到所述OF区域;响应于所述目标视频块的第二样本位于所述伪影区域内,从所述至少一个候选编解码工具中确定第二目标编解码工具;并且其中执行所述转换包括:通过使用所述第二目标编解码工具来编解码所述第二样本。
条款20.根据条款19所述的方法,其中第二目标编解码工具包括以下一项:帧间编解码工具或单向预测工具。
条款21.根据条款19或条款20所述的方法,还包括:调整针对所述第二样本的编解码参数;并且其中执行所述转换包括:通过使用经调整的所述编解码参数来编解码所述第二样本。
条款22.根据条款21所述的方法,其中编解码参数包括块划分的尺寸。
条款23.根据条款22所述的方法,其中调整所述编解码参数包括:将所述编解码参数设置为针对帧间编解码的最小编解码单元(CU)的尺寸。
条款24.根据条款23所述的方法,其中块划分被编解码为帧间高级运动矢量预测(AMVP)模式。
条款25.根据条款24所述的方法,其中帧内模式和合并模式不存在于所述帧间AMVP模式。
条款26.根据条款22所述的方法,其中块划分的所述尺寸被设置为4乘以4。
条款27.根据条款26所述的方法,还包括:将所述视频的宏块划分为具有4乘以4尺寸的多个子划分,所述多个子划分包括所述目标视频块。
条款28.根据条款21-27中任一项所述的方法,其中编解码参数包括:反映拉格朗日乘子的lambda参数,所述lambda参数影响失真和运动矢量差(MVD)精度之间的权衡。
条款29.根据条款28所述的方法,其中针对所述伪影区域中的所述第二样本的所述编解码参数的第一值大于针对所述伪影区域之外的第三样本的所述编解码参数的第二值。
条款30.根据条款29的方法,其中第一值是第二值的五倍。
条款31.根据条款29或条款30所述的方法,其中编解码参数的所述第一值被用于以下至少一项:运动估计过程或率失真优化过程。
条款32.根据条款1-31中任一项所述的方法,其中伪影编解码工具包括数据混杂编解码工具。
条款33.根据条款1-32中任一项所述的方法,其中所述转换包括将目标视频块编码到码流中。
条款34.根据条款1-32中任一项所述的方法,其中所述转换包括从码流解码目标视频块。
条款35.一种用于处理视频数据的装置,包括处理器和在其上具有指令的非暂态存储器,其中所述指令在由所述处理器执行时使所述处理器执行根据条款1-34中任一项的方法。
条款36.一种非暂态计算机可读存储介质,存储使处理器执行根据条款1-34中任一项的方法的指令。
条款37.一种非暂态计算机可读记录介质,存储由视频处理装置执行的方法生成的视频的码流,其中所述方法包括:确定伪影编解码工具是否被启用,所述伪影编解码工具被用于在所述视频中生成伪影效果;响应于所述伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;以及通过启用所述至少一个候选编解码工具来生成码流。
条款38.一种用于存储视频的码流的方法,包括:确定伪影编解码工具是否被启用,所述伪影编解码工具被用于在所述视频中生成伪影效果;响应于所述伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;通过启用所述至少一个候选编解码工具来生成码流;以及将所述码流存储在非暂态计算机可读记录介质中。
示例设备
图13示出了可以在其中实现本公开的各种实施例的计算设备1300的框图。计算设备1300可以被实现为源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300),或者可以被包括在源设备110(或视频编码器114或200)或目的设备120(或视频解码器124或300)中。
应当理解的是,图13中示出的计算设备1300仅为了说明的目的,而不是以任何方式暗示对本公开实施例的功能和范围的任何限制。
如图13所示,计算设备1300包括通用计算设备1300。计算设备1300可以至少包括一个或多个处理器或处理单元1310、存储器1320、存储单元1330、一个或多个通信单元1340、一个或多个输入设备1350以及一个或多个输出设备1360。
在一些实施例中,计算设备1300可以被实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供商提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端,包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合,并且包括这些设备的附件和外围设备或其任何组合。可以设想的是,计算设备1300可以支持到用户的任何类型的接口(诸如“可穿戴”电路装置等)。
处理单元1310可以是物理处理器或虚拟处理器,并且可以基于存储在存储器1320中的程序实现各种处理。在多处理器系统中,多个处理单元并行地执行计算机可执行指令,以便改善计算设备1300的并行处理能力。处理单元1310也可以被称为中央处理单元(CPU)、微处理器、控制器或微控制器。
计算设备1300通常包括各种计算机存储介质。这样的介质可以是由计算设备1300可访问的任何介质,包括但不限于易失性介质和非易失性介质、或可拆卸介质和不可拆卸介质。存储器1320可以是易失性存储器(例如,寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储单元1330可以是任何可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如存储器、闪存驱动器、磁盘或其他可以被用于存储信息和/或数据并且可以在计算设备1300中被访问的介质。
计算设备1300还可以包括附加的可拆卸/不可拆卸存储介质、易失性/非易失性存储介质。尽管在图13中未示出,但是可以提供用于从可拆卸的非易失性磁盘读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器,以及用于从可拆卸的非易失性光盘读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下,每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。
通信单元1340经由通信介质与另一计算设备通信。另外,计算设备1300中的组件的功能可以由可以经由通信连接进行通信的单个计算集群或多个计算机器来实现。因此,计算设备1300可以使用与一个或多个其他服务器、联网个人计算机(PC)或其他通用网络节点的逻辑连接来在联网环境中运行。
输入设备1350可以是各种输入设备中的一种或多种输入设备,诸如鼠标、键盘、轨迹球、语音输入设备等。输出设备1360可以是各种输出设备中的一种或多种输出设备,诸如显示器、扬声器、打印机等。借助于通信单元1340,计算设备1300还可以与一个或多个外部设备(未示出)通信,外部设备诸如是存储设备和显示设备,计算设备1300还可以与一个或多个使用户能够与计算设备1300交互的设备通信,或任何使计算设备1300能够与一个或多个其他计算设备通信的设备(例如网卡、调制解调器等)通信,如果需要的话。这种通信可以经由输入/输出(I/O)接口(未示出)进行。
在一些实施例中,计算设备1300的一些或所有组件也可以被布置在云计算架构中,而不是被集成在单个设备中。在云计算架构中,组件可以被远程提供并且共同工作,以实现本公开中描述的功能。在一些实施例中,云计算提供计算、软件、数据访问和存储服务,这将不要求最终用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实施例中,云计算使用合适的协议经由广域网(例如互联网)提供服务。例如,云计算提供商通过广域网提供应用程序,可以通过网络浏览器或任何其他计算组件访问这些应用程序。云计算架构的软件或组件以及对应的数据可以存储在远程服务器上。云计算环境中的计算资源可以被合并或分布在远程数据中心的位置。云计算基础设施可以通过共享数据中心提供服务,尽管它们表现为作为用户的单一接入点。因此,云计算架构可与被用于从远程位置的服务提供商处提供本文所述的组件和功能。备选地,它们可以由常规服务器提供,或者直接或以其他方式安装在客户端设备上。
在本公开的实施例中,计算设备1300可以被用于实现视频编码/解码。存储器1320可以包括具有一个或多个程序指令的一个或多个视频编解码模块1325。这些模块能够由处理单元1310访问和执行,以执行本文描述的各种实施例的功能。
在执行视频编码的示例实施例中,输入设备1350可以接收视频数据作为待编码的输入1370。视频数据可以由例如视频编码模块1325处理,以生成经编码的码流。经编码的码流可以经由输出设备1360作为输出1380被提供。
在执行视频解码的示例实施例中,输入设备1350可以接收经编码的码流作为输入1370。经编码的码流可以由例如视频编码模块1325处理,以生成经解码的视频数据。经解码的视频数据可以经由输出设备1360作为输出1380被提供。
虽然已经参考本公开的优选实施例具体示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求限定的本申请的精神和范围的情况下,可以在形式和细节上进行各种改变。这些变化旨在由本申请的范围所涵盖。因此,本申请的实施例的前述描述不旨在是限制性的。

Claims (38)

1.一种用于视频处理的方法,包括:
在视频的目标视频块与所述视频的码流之间的转换期间,确定伪影编解码工具是否被启用,所述伪影编解码工具被用于在所述视频中生成伪影效果;
响应于所述伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;以及
通过启用所述至少一个候选编解码工具来执行所述转换。
2.根据权利要求1所述的方法,其中所述至少一个候选编解码工具包括以下至少一项:
单向预测工具,或
具有低延迟配置的编解码工具。
3.根据权利要求1或权利要求2所述的方法,还包括:
从所述多个编解码工具中确定另一编解码工具,所述另一编解码工具不存在于所述至少一个候选编解码工具中;以及
禁用所述另一编解码工具。
4.根据权利要求1所述的方法,其中所述另一编解码工具包括以下至少一项:
环路内滤波器,
加权预测工具,
双向预测工具,或者
从反向参考图片预测的反向预测工具。
5.根据权利要求4所述的方法,其中所述环路内滤波器包括以下至少一项:
去块滤波器,
样本自适应偏移(SAO)滤波器,或
自适应环路滤波器(ALF)。
6.根据权利要求4所述的方法,其中所述反向参考图片在当前图片之后被显示。
7.根据权利要求1-6中任一项所述的方法,还包括:
确定感兴趣区域(ROI);
响应于所述目标视频块的第一样本在所述ROI内,从所述至少一个候选编解码工具中确定第一目标编解码工具;并且
其中执行所述转换包括:
通过使用所述第一目标编解码工具来编解码所述第一样本。
8.根据权利要求7所述的方法,其中所述第一目标编解码工具包括帧间预测工具。
9.根据权利要求7或权利要求8所述的方法,其中帧内预测工具不存在于所述第一目标编解码工具中。
10.根据权利要求7-9中任一项所述的方法,其中所述第一目标编解码工具包括单向预测工具。
11.根据权利要求1-10中任一项所述的方法,还包括:
通过应用基于光流(OF)的运动补偿,生成针对所述目标视频块的OF信息。
12.根据权利要求11所述的方法,其中应用所述基于OF的运动补偿包括:
通过应用光流对象跟踪来确定针对所述目标视频块的运动趋势。
13.根据权利要求11或权利要求12所述的方法,还包括:
处理针对所述目标视频块的OF信息;以及
通过将处理后的所述OF信息与针对所述目标视频块的块级运动补偿信息相结合,获得针对所述目标视频块的目标运动信息。
14.根据权利要求13所述的方法,其中处理所述OF信息包括:
处理针对所述目标视频块的每像素OF信息。
15.根据权利要求13或权利要求14所述的方法,其中所述目标视频块包括具有M乘以N尺寸的目标区域中的样本;并且
其中处理所述OF信息包括以下至少一项:
将所述目标区域中所有样本的平均基于OF的运动矢量(MV)确定为M乘以N级别的MV;
将所述目标区域中部分样本的平均基于OF的MV确定为所述M乘以N级别的MV;或者
将所述目标区域中的一个样本的基于OF的MV确定为所述M乘以N级别的MV。
16.根据权利要求15所述的方法,其中针对所述目标区域中的样本的所述基于OF的MV具有预定精度。
17.根据权利要求16所述的方法,其中所述预定精度包括1/4像素的精度。
18.根据权利要求15-17中任一项所述的方法,其中M和N中的至少一个被设置为4。
19.根据权利要求1-18中任一项所述的方法,还包括:
确定伪影区域,所述伪影区域包括以下至少一项:感兴趣区域(ROI)或光流(OF)区域,OF信息被施加到所述OF区域;
响应于所述目标视频块的第二样本位于所述伪影区域内,从所述至少一个候选编解码工具中确定第二目标编解码工具;并且
其中执行所述转换包括:
通过使用所述第二目标编解码工具来编解码所述第二样本。
20.根据权利要求19所述的方法,其中所述第二目标编解码工具包括以下一项:
帧间编解码工具,或
单向预测工具。
21.根据权利要求19或权利要求20所述的方法,还包括:
调整针对所述第二样本的编解码参数;并且
其中执行所述转换包括:
通过使用经调整的所述编解码参数来编解码所述第二样本。
22.根据权利要求21所述的方法,其中所述编解码参数包括块划分的尺寸。
23.根据权利要求22所述的方法,其中调整所述编解码参数包括:
将所述编解码参数设置为针对帧间编解码的最小编解码单元(CU)的尺寸。
24.根据权利要求23所述的方法,其中所述块划分被编解码为帧间高级运动矢量预测(AMVP)模式。
25.根据权利要求24所述的方法,其中帧内模式和合并模式不存在于所述帧间AMVP模式。
26.根据权利要求22所述的方法,其中所述块划分的所述尺寸被设置为4乘以4。
27.根据权利要求26所述的方法,还包括:
将所述视频的宏块划分为具有4乘以4尺寸的多个子划分,所述多个子划分包括所述目标视频块。
28.根据权利要求21-27中任一项所述的方法,其中所述编解码参数包括:反映拉格朗日乘子的lambda参数,所述lambda参数影响失真和运动矢量差(MVD)精度之间的权衡。
29.根据权利要求28所述的方法,其中针对所述伪影区域中的所述第二样本的所述编解码参数的第一值大于针对所述伪影区域之外的第三样本的所述编解码参数的第二值。
30.根据权利要求29所述的方法,其中所述第一值是所述第二值的五倍。
31.根据权利要求29或权利要求30所述的方法,其中所述编解码参数的所述第一值被用于以下至少一项:
运动估计过程,或
率失真优化过程。
32.根据权利要求1-31中任一项所述的方法,其中所述伪影编解码工具包括数据混杂编解码工具。
33.根据权利要求1-32中任一项所述的方法,其中所述转换包括将所述目标视频块编码到所述码流中。
34.根据权利要求1-32中任一项所述的方法,其中所述转换包括从所述码流解码所述目标视频块。
35.一种用于处理视频数据的装置,包括处理器和在其上具有指令的非暂态存储器,其中所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-34中任一项的方法。
36.一种非暂态计算机可读存储介质,存储使处理器执行根据权利要求1-34中任一项的方法的指令。
37.一种非暂态计算机可读记录介质,存储由视频处理装置执行的方法生成的视频的码流,其中所述方法包括:
确定伪影编解码工具是否被启用,所述伪影编解码工具被用于在所述视频中生成伪影效果;
响应于所述伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;以及
通过启用所述至少一个候选编解码工具来生成码流。
38.一种用于存储视频的码流的方法,包括:
确定伪影编解码工具是否被启用,所述伪影编解码工具被用于在所述视频中生成伪影效果;
响应于所述伪影编解码工具被启用,从多个编解码工具中确定至少一个候选编解码工具;
通过启用所述至少一个候选编解码工具来生成码流;以及
将所述码流存储在非暂态计算机可读记录介质中。
CN202280057523.2A 2021-08-24 2022-08-24 用于视频处理的方法、装置和介质 Pending CN117882375A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2021/114395 2021-08-24
CN2021114395 2021-08-24
PCT/CN2022/114420 WO2023025178A1 (en) 2021-08-24 2022-08-24 Method, apparatus, and medium for video processing

Publications (1)

Publication Number Publication Date
CN117882375A true CN117882375A (zh) 2024-04-12

Family

ID=85321547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280057523.2A Pending CN117882375A (zh) 2021-08-24 2022-08-24 用于视频处理的方法、装置和介质

Country Status (2)

Country Link
CN (1) CN117882375A (zh)
WO (1) WO2023025178A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11032545B2 (en) * 2017-06-29 2021-06-08 Qualcomm Incorporated Reducing seam artifacts in 360-degree video
US11122288B2 (en) * 2018-12-06 2021-09-14 Qualcomm Incorporated Spatio-temporal motion vector prediction patterns for video coding
CN113632480A (zh) * 2019-03-29 2021-11-09 北京字节跳动网络技术有限公司 自适应环路滤波与其他编解码工具之间的交互

Also Published As

Publication number Publication date
WO2023025178A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
CN112956190B (zh) 仿射运动预测
CN110741639B (zh) 视频译码中的运动信息传播
JP6716611B2 (ja) スライスレベルのイントラブロックコピーおよび他のビデオコーディングの改善
CN107409225B (zh) 视频译码中运动信息推导模式确定
EP4037320A1 (en) Boundary extension for video coding
CN110868602B (zh) 视频编码器、视频解码器及相应方法
KR20230150284A (ko) 효율적인 비디오 인코더 아키텍처
CN117356097A (zh) 用于视频处理的方法、设备和介质
CN117882375A (zh) 用于视频处理的方法、装置和介质
US20240171754A1 (en) Method, device, and medium for video processing
WO2022184110A1 (zh) 用于图像编码的方法、电子设备、存储介质和记录介质
WO2023198120A1 (en) Method, apparatus, and medium for video processing
US20210185323A1 (en) Inter prediction method and apparatus, video encoder, and video decoder
CN118120234A (zh) 用于视频处理的方法、装置和介质
CN118044182A (zh) 用于视频处理的方法、设备和介质
CN117242479A (zh) 用于视频处理的方法、装置和介质
WO2022226523A1 (en) Method, device, and medium for video processing
WO2023056358A1 (en) Method, apparatus and medium for video processing
CN118120230A (zh) 用于视频处理的方法、装置和介质
CN117337566A (zh) 用于视频处理的方法、设备和介质
CN117941344A (zh) 用于视频处理的方法、装置和介质
CN118077200A (zh) 用于视频处理的方法、装置和介质
CN117501691A (zh) 用于视频处理的方法、设备和介质
CN118020291A (zh) 用于视频处理的方法、装置和介质
CN117356094A (zh) 用于视频处理的方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication