CN114402623B - 用于嵌入图像的补充增强信息消息 - Google Patents
用于嵌入图像的补充增强信息消息 Download PDFInfo
- Publication number
- CN114402623B CN114402623B CN202080039661.9A CN202080039661A CN114402623B CN 114402623 B CN114402623 B CN 114402623B CN 202080039661 A CN202080039661 A CN 202080039661A CN 114402623 B CN114402623 B CN 114402623B
- Authority
- CN
- China
- Prior art keywords
- image
- video
- picture
- embedded
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000153 supplemental effect Effects 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 67
- 238000012545 processing Methods 0.000 claims description 46
- 238000003860 storage Methods 0.000 claims description 21
- 239000000284 extract Substances 0.000 abstract description 4
- 239000013598 vector Substances 0.000 description 33
- 230000008569 process Effects 0.000 description 21
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 20
- 238000013139 quantization Methods 0.000 description 16
- 241000023320 Luma <angiosperm> Species 0.000 description 14
- 238000004891 communication Methods 0.000 description 14
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 14
- 238000000638 solvent extraction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 238000012432 intermediate storage Methods 0.000 description 1
- PMHURSZHKKJGBM-UHFFFAOYSA-N isoxaben Chemical compound O1N=C(C(C)(CC)CC)C=C1NC(=O)C1=C(OC)C=CC=C1OC PMHURSZHKKJGBM-UHFFFAOYSA-N 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/2343—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2362—Generation or processing of Service Information [SI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
一种电子装置分别执行将图片编码为视频比特流的方法以及一种从编码视频比特流中提取图片的方法。为了将图片编码为视频比特流,该电子装置确定用于该图片的参数集合,使用该参数集合生成该图片的嵌入图像补充增强信息SEI消息,然后将该嵌入图像SEI消息添加到该视频比特流的元数据中。为了从编码视频比特流中提取图片,该电子装置在该编码视频比特流的视频元数据中识别嵌入图像补充增强信息(SEI)消息,从该嵌入图像SEI消息中提取参数集合,并且使用该参数集合从存储在该嵌入图像SEI消息中的图像数据生成图片。
Description
技术领域
本申请总体上涉及视频数据编码和解码,尤其涉及对包括嵌入图像的补充增强信息消息进行编码和解码的方法和装置。
背景技术
如数字电视、膝上型或台式计算机、平板计算机、数码相机、数字记录设备、数字媒体播放器、视频游戏控制台、智能电话、视频电话会议设备、视频流媒体设备等各种电子设备都支持数字视频。所述电子设备通过执行由MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分、高级视频编码(AVC)、高效视频编码(HEVC)和通用视频编码(VVC)标准定义的视频压缩/解压缩标准来传输、接收、编码、解码和/或存储数字视频数据。视频压缩通常包括执行空间(帧内)预测和/或时间(帧间)预测以减少或去除视频数据中固有的冗余。对于基于块的视频编码,视频帧被划分为一个或多个条带(slice),每个条带具有多个视频块,所述视频块也可以称为编码树单元(CTU)。每个CTU可以包含一个编码单元(CU)或者被递归地拆分为较小的CU,直到达到预设的最小CU的大小。每个CU(也称为叶子CU)包含一个或多个变换单元(TU),每个CU还包含一个或多个预测单元(PU)。每个CU可以采用帧内、帧间或IBC模式进行编码。使用相对于同一视频帧内的相邻块中的参考样本的空间预测对视频帧的帧内编码(I)条带中的视频块进行编码。视频帧的帧间编码(P或B)切片中的视频块可使用相对于同一视频帧内相邻块中的参考样本的空间预测或相对于其他先前的和/或未来的参考视频帧中的参考样本的时间预测。
基于先前编码参考块(如相邻块)的空间或时间预测产生针对待编码的当前视频块的预测块。查找参考块的过程可以通过块匹配算法来完成。表示待编码的当前块与预测块之间的像素差的残差数据被称为残差块或预测误差。根据指向形成该预测块的参考帧中的参考块的运动向量、以及该残差块对帧间编码块进行编码。确定该运动向量的过程通常称为运动估计。根据帧内预测模式以及该残差块对帧内编码块进行编码。为了进一步压缩,将该残差块从像素域变换到变换域,如频域,从而产生残差变换系数,然后可以对其进行量化。可对最初以二维阵列排列的所述量化了的变换系数进行扫描以产生变换系数的一维向量,然后将其熵编码到视频比特流中以实现更多的压缩。
然后将该编码视频比特流保存在计算机可读存储介质(如闪速存储器)中,以由具有数字视频能力的另一个电子设备访问或者直接以有线或无线的方式传输到该电子设备。然后,该电子设备通过例如解析该编码视频比特流以从该比特流获得语义元素以及至少部分地基于从该比特流获得的语义元素从该编码视频比特流将该数字视频数据重建为其原始格式来进行视频解压缩(这是与上述视频压缩相反的过程),并且在该电子设备的显示器上呈现该重建的数字视频数据。
为了保持灵活性和可扩展性,视频编码标准通常定义用于编码视频比特流的语法的选项,这些选项详细说明了该比特流中的语法允许的参数。在许多情况下,这些选项还提供有关解码器应执行的解码操作的详细信息,以从该比特流中导出这些语法参数并在解码中获得正确的结果。
补充增强信息(SEI)消息是由诸如H.264/AVC和HEVC之类的标准在高级语法中使用的视频编码选项。SEI消息在比特流中提供元数据以增强视频的使用。例如,SEI消息的使用允许视频编码器在视频比特流中包含特定的元数据,该元数据不是输出图片的正确解码所要求的,但可以用于各种其它目的,如图片输出定时、显示以及错误检测和隐藏。在这些情况下,SEI消息通常作为视频解码过程的一部分进行处理。例如,SEI消息可包含从编码器侧的对应图片的解码样本导出的校验和。在解码器侧,这种信息使解码器能够通过比较来自SEI消息的这个哈希值和来自解码图片的重新计算的版本来执行错误检测。到目前为止,SEI消息还没有在不涉及所确定的图片的情况下被独立使用。
发明内容
本申请描述了与视频数据编码和解码相关的实施方式,具体来讲,描述了对包括嵌入图像的补充增强信息消息进行编码和解码的方法和装置。
根据本申请的第一方面,提供一种将图片编码为视频比特流的方法,该方法包括:识别图片;确定用于该图片的参数集合;使用该参数集合生成该图片的嵌入图像补充增强信息(SEI)消息;以及将该嵌入图像SEI消息添加到该视频比特流的元数据中。
根据本申请的第二方面,一种电子装置包括一个或多个处理单元、存储器和存储在该存储器中的多个程序。当由一个或多个处理单元执行时,这些程序使得该电子装置执行如上所述的将图片编码为视频比特流的方法。
根据本申请的第三方面,一种非暂时性计算机可读存储介质存储由具有一个或多个处理单元的电子装置执行的多个程序。在由一个或多个处理单元执行时这些程序使得该电子装置执行如上所述的将图片编码为视频比特流的方法。
根据本申请的第四方面,提供一种从编码视频比特流中提取图片的方法,该方法包括:在该编码视频比特流的视频元数据中识别嵌入图像补充增强信息SEI消息;从该嵌入图像SEI消息中提取参数集合;以及使用该参数集合从存储在该嵌入图像SEI消息中的图像数据生成图片。
根据本申请的第五方面,一种电子装置包括一个或多个处理单元、存储器和存储在该存储器中的多个程序。当由一个或多个处理单元执行时,这些程序使得该电子装置执行如上所述的从编码视频比特流中提取图片的方法。
根据本申请的第六方面,一种非暂时性计算机可读存储介质存储由具有一个或多个处理单元的电子装置执行的多个程序。当由一个或多个处理单元执行时,这些程序使得该电子装置执行如上所述的从编码视频比特流中提取图片的方法。
附图说明
所包括的附图用以提供对实施方式的进一步理解并且结合在本文中并构成说明书的一部分,图示了所描述的实施方式并且与说明书一起用于解释基本原理。相同的附图标记指代相应的部分。
图1是示出了根据本申请的一些实施方式的示例性视频编码和解码系统的框图。
图2是示出了根据本申请的一些实施方式的示例性视频编码器的框图。
图3是示出了根据本申请的一些实施方式的示例性视频解码器的框图。
图4A至4D是示出了根据本申请的一些实施方式的帧如何被递归地四叉树分割成不同大小的多个视频块的框图。
图5A至5C是示出了根据本申请的一些实施方式的包含多个嵌入图像补充增强信息(SEI)消息的编码视频比特流数据结构,至少一个包含嵌入图像的嵌入SEI消息的数据结构以及嵌入图像的数据结构的框图。
图6是示出了根据本申请的一些实施方式的视频编码器实现通过使用图片生成嵌入图像SEI消息并将该SEI消息添加到视频比特流中的技术的示例性过程的流程图。
图7是示出了根据本申请的一些实施方式的视频解码器实现从视频比特流提取嵌入图像SEI消息并且使用该嵌入图像SEI消息生成图片的技术的示例性过程的流程图。
具体实施方式
现在将详细参考具体实施方式,其示例在附图中示出。在下面的详细描述中,阐述了许多非限制性的具体细节以帮助理解在此呈现的主题。但是对于本领域的普通技术人员来说显而易见的是,在不脱离权利要求的范围的情况下可以使用各种替代方案,并且可以在没有这些具体细节的情况下实践主题。例如,对于本领域的普通技术人员来说显而易见的是,这里呈现的主题可以在具有数字视频能力的多种类型的电子设备上实现。
图1是示出了根据本发明的一些实施方式的用于并行地编码和解码视频块的示例性系统10的框图。如图1所示,系统10包括源设备12,其生成并编码待由目标设备14在稍后时间进行解码的视频数据。源设备12和目标设备14可包括多种电子设备中的任一种,包括台式计算机或膝上型电脑、平板电脑、智能手机、机顶盒、数字电视、摄像机、显示设备、数字媒体播放器、视频游戏控制台、视频流设备,等等。在一些实施方式中,源设备12和目标设备14配备有无线通信能力。
在一些实施方式中,目标设备14可经由链路16接收待解码的编码视频数据。链路16可包括能够将编码视频数据从源设备12移动到目标设备14的任何类型的通信介质或设备。在一个示例中,链路16可包括通信介质以使得源设备12能够将编码视频数据实时地直接传输到目标设备14。编码视频数据可根据诸如无线通信协议之类的通信标准被调制,并被传输到目标设备14。该通信介质可包括任何无线或有线通信介质,如射频(RF)频谱或一种或多种物理传输线路。该通信介质可形成基于分组的网络,如局域网、广域网或如因特网的全球网的一部分。该通信介质可包括路由器、交换机、基站或其他任何可能有助于促进从源设备12到目标设备14的通信的设备。
在其他的一些实施方式中,编码视频数据可以从输出接口22被传输到存储设备32。随后,目标设备14可通过输入接口28访问存储设备32中的编码视频数据。存储设备32可包括各种分布式或本地访问的数据存储介质中的任何一种,如硬盘驱动器、蓝光光盘、DVD、CD-ROM、闪存、易失性或非易失性存储器,或其他任何适当的用于存储已编码的视频数据的数字存储介质。在进一步的示例中,存储设备32可对应于可以保存源设备12生成的编码视频数据的文件服务器或另一种中间存储设备。目标设备14可通过流传输或下载从存储设备32中访问已存储的视频数据。该文件服务器可以是能够存储编码视频数据并将编码视频数据传输到目标设备14的任何类型的计算机。示例性文件服务器包括网络(web)服务器(例如,用于网站)、FTP服务器、网络附加存储(NAS)设备或本地磁盘驱动器。目标设备14可以通过任何标准数据连接访问编码视频数据,所述标准数据连接包括适用于访问存储在文件服务器上的编码视频数据的无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或二者的组合。来自存储设备32的已编码的视频数据的传输可以是流传输、下载传输或二者的组合。
如图1所示,源设备12包括视频源18、视频编码器20和输出接口22。视频源18可包括诸如视频捕获设备之类的源,如摄像机、包含先前捕获的视频的视频档案、用于从视频内容提供商接收视频的视频流界面和/或用于将计算机图形数据生成为源视频的计算机图形系统或所述源的组合。作为一个示例,如果视频源18是安全监控系统的摄像机,则源设备12和目标设备14可形成相机电话或视频电话。然而,本申请中描述的实施方式通常可适用于视频编码,并且可适用于无线和/或有线应用。
捕获的、预先捕获的或计算机生成的视频可由视频编码器20编码。编码视频数据可通过源设备12的输出接口22直接传输到目标设备14。编码视频数据也可以(或替代地)被存储到存储设备32上以由目标设备14或其他设备以后访问,以进行解码和/或回放。输出接口22还可包括调制解调器和/或发射器。
目标设备14包括输入接口28、视频解码器30和显示设备34。输入接口28可包括接收器和/或调制解调器,并且通过链路16接收编码视频数据。通过链路16传送的或在存储设备32上提供的编码视频数据可包括由视频编码器20生成的供视频解码器30在对视频数据进行解码时使用的多种语义元素。所述语义元素可包括在在通信介质上传输的、在存储介质上存储的或在文件服务器上存储的已编码的视频数据内。
在一些实施方式中,目标设备14可包括显示设备34,该显示设备34可以是集成的显示设备和被配置为与目标设备14进行通信的外部显示设备。显示设备34向用户显示解码视频数据,并且可包括多种显示设备中的任一种,例如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或其他类型的显示设备。
视频编码器20和视频解码器30可根据专有或行业标准(如VVC、HEVC、MPEG-4第10部分,高级视频编码(AVC),或此类标准的延伸)进行操作。应理解本申请不限于特定的视频编码/解码标准,可以适用于其他视频编码/解码标准。通常设想源设备12的视频编码器20可被配置为根据当前或未来的标准中的任何一个来编码视频数据。类似地,通常还设想目标设备14的视频解码器30可被配置为根据当前或未来的标准中的任何一个来解码视频数据。
视频编码器20和视频解码器30均可以实现为多种适当的编码器电路中的任何一种,例如一个或多个微处理器、数字信号处理器(DSP)、应用型专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当部分以软件实现时,电子设备可将用于软件的指令存储在适当的非暂时性计算机可读介质中并使用一个或多个处理器在硬件中执行所述指令来执行本发明中公开的视频编码/解码操作。视频编码器20和视频解码器30中的每一个可包括在一个或多个编码器或解码器中,其中的任何一个可以被集成为相应设备中的组合编码器/解码器(CODEC)的一部分。
图2是示出了根据本申请中描述的一些实施方式的示例性视频编码器20的框图。视频编码器20可执行视频帧内的视频块的帧内和帧间预测编码。帧内预测编码依赖于空间预测来减少或消除给定视频帧或图片内视频数据中的空间冗余。帧间预测编码依赖于时间预测来减少或消除视频序列的相邻视频帧或图片内的视频数据中的时间冗余。
如图2所示,视频编码器20包括视频数据存储器40、预测处理单元41、解码图片缓存器(DPB)64、加法器50、变换处理单元52、量化单元54和熵编码单元56。预测处理单元41还包括运动估计单元42、运动补偿单元44、分割单元45、帧内预测处理单元46和帧内块复制(BC)单元48。在一些实施方式中,视频编码器20还包括用于视频块重建的逆量化单元58、逆变换处理单元60和加法器62。去块滤波器(未示出)可位于加法器62与DPB 64之间以对块边界进行滤波,以从重建的视频中消除块效应伪像。除了去块滤波器之外,还可以使用环路滤波器(未示出)来对加法器62的输出进行滤波。视频编码器20可采用固定或可编程硬件单元的形式,或者可在示出的一个或多个固定的或可编程硬件单元中被划分。
视频数据存储器40可存储由视频编码器20的各部件编码的视频数据。视频数据存储器40中的视频数据可以例如从视频源18获得。DPB 64是存储参考视频数据以用于由视频编码器20对视频数据进行编码(例如以帧内或帧间预测编码模式)的缓存器。视频数据存储器40和DPB 64可由多种存储器设备中的任一种形成。在各种示例中,视频数据存储器40可以与视频编码器20的其他部件在芯片上,或者相对于所述部件在芯片外。
如图2所示,在接收视频数据之后,预测处理单元41内的分割单元45将视频数据划分成视频块。该划分还可包括根据预定义的分割结构(例如与视频数据相关联的四叉树结构)将视频帧划分为条带、瓦片(tile)或其他更大的编码单元(CU)。该视频帧可被划分为多个视频块(或称为瓦片的视频块组)。预测处理单元41可基于误差结果(如编码率和失真水平)为当前的视频块从多个可能的预测编码模式中选择一个预测编码模式,该预测编码模式如多个帧内预测编码模式中的一个或多个帧间预测编码模式中的一个。预测处理单元41可将由此得到的帧内或帧间预测编码块提供给加法器50以生成残差块,并且提供给加法器62以重建该编码块以随后用作参考帧的一部分。预测处理单元41还向熵编码单元56提供如运动向量、帧内模式指示符、分割信息和其他此类语义信息等语义元素。
为了为当前视频块选择适当的帧内预测编码模式,预测处理单元41内的帧内预测处理单元46可相对于与待编码的当前块同一帧中的一个或多个相邻块执行当前视频块的帧内预测编码,以提供空间预测。预测处理单元41内的运动估计单元42和运动补偿单元44相对于一个或多个参考帧中的一个或多个预测块执行对当前视频块的帧间预测编码,以提供时间预测。视频编码器20可以执行多个编码通道,例如,为视频数据的每个块选择适当的编码模式。
在一些实施方式中,运动估计单元42根据视频帧序列内的预定型式通过生成运动向量来为当前视频帧确定帧间预测模式,该运动向量指示当前视频帧内的视频块的预测单元(PU)相对于参考视频帧内的预测块的位移。由运动估计单元42执行的运动估计是生成运动向量的过程,其估计视频块的运动。运动向量,例如,可指示当前视频帧或图片内的视频块的PU相对于参考帧内的、相对于在当前视频帧内被编码的当前块(或其他已编码单元)的预测块(或其他已编码单元)的位移。该预定型式可将该序列中的视频帧指定为P帧或B帧。帧内BC单元48可以以类似于由运动估计单元42确定运动向量以进行帧间预测的方式类似的方式确定用于帧内BC编码的向量,例如块向量,或者可以利用运动估计单元42来确定该块向量。
预测块是在像素差方面被认为与待编码视频块的PU紧密匹配的参考帧的块,像素差可以由绝对差之和(SAD)、平方差之和(SSD)或其他差值度量确定。在一些实施方式中,视频编码器20可以计算存储在DPB 64中的参考帧的亚整数像素位置的值。例如,视频编码器20可以插入该参考帧的四分之一像素位置、八分之一像素位置或其他分数的像素位置的值。因此,运动估计单元42可以相对于全像素位置和分数像素位置执行运动搜索并输出具有分数像素精度的运动向量。
运动估计单元42通过将PU的位置与从第一参考帧列表(列表0)或第二参考帧列表(列表1)中选择的参考帧的预测块的位置进行比较来计算帧间预测编码帧中视频块的PU的运动向量,第一参考帧列表和第二参考帧列表中的每一个标识存储在DPB 64中的一个或多个参考帧。运动估计单元42将计算的运动向量发送到运动补偿单元44,然后发送到熵编码单元56。
由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量来获取或生成预测块。在接收到当前视频块的PU的运动向量后,运动补偿单元44可以在参考帧列表之一中定位运动向量所指向的预测块,从DPB 64取得预测块,并将预测块转发到加法器50。然后,加法器50通过从被编码的当前视频块的像素值中减去由运动补偿单元44提供的预测块的像素值来形成像素差值的残差视频块。形成残差视频块的所述像素差值可包括亮度差分量或色度差分量或包括两者。运动补偿单元44还可产生与视频帧的视频块相关联的语义元素以供视频解码器30在对视频帧的视频块进行解码时使用。所述语义元素可包括如定义用于识别该预测块的运动向量的语义元素、指示该预测模式的任何标志或本文描述的其他任何语义信息。应注意,运动估计单元42和运动补偿单元44可高度集成,但出于概念目的而分别图示。
在一些实施方式中,帧内BC单元48可以以与上文结合运动估计单元42和运动补偿单元44描述的方式类似的方式生成向量并获取预测块,但所述预测块与正在被编码的当前块位于同一帧内,并且所述向量被称为块向量而不是运动向量。具体而言,帧内BC单元48可确定用于对当前块进行编码的帧内预测模式。在一些示例中,帧内BC单元48可以例如在单独的编码通道期间使用各种帧内预测模式对当前块进行编码,并且通过率失真分析来测试其性能。接下来,帧内BC单元48可以在各种经测试的帧内预测模式中选择适当的帧内预测模式来使用并相应地生成帧内模式指示符。例如,帧内BC单元48可以使用针对各种经过测试的帧内预测模式的率失真分析来计算率失真值,并且在经过测试的模式中选择具有最佳率失真特性的帧内预测模式作为适当的帧内预测模式来使用。率失真分析通常确定编码块与原始未编码块之间的失真(或误差)量以及用于产生编码块的比特率(即比特数)。帧内BC单元48可根据各个编码块的失真和速率计算比率以确定哪种帧内预测模式展示出块的最佳速率失真值。
在其他示例中,帧内BC单元48可全部或部分地使用运动估计单元42和运动补偿单元44以根据本文描述的实施方式来执行用于帧内BC预测的此类功能。在任一情况下,对于帧内块复制,预测块可以是就像素差而言,被认为与待编码块紧密匹配的块,所述像素差由绝对差之和(SAD)、平方之和(SSD)或其他差值度量来确定,并且该预测块的识别可包括亚整数像素位置的值的计算。
无论预测块是根据帧内预测来自同一帧,还是根据帧间预测来自不同帧,视频编码器20都可以通过从被编码的当前视频块的像素值中减去该预测块的像素值来形成残差视频块,从而形成像素差值。形成该残差视频块的所述像素差值可包括亮度分量差和色度分量差。
如上文描述的,帧内预测处理单元46可以对当前视频块进行帧内预测,作为由运动估计单元42和运动补偿单元44执行的帧间预测、或者由帧内BC单元48执行的帧内块复制预测的替代方案。具体而言,帧内预测处理单元46可确定用于对当前块进行编码的帧内预测模式。为此,帧内预测处理单元46可以例如在单独的编码通道期间使用各种帧内预测模式对当前块进行编码,并且帧内预测处理单元46(或在一些示例中为模式选择单元)可从经过测试的帧内预测模式中选择适当的帧内预测模式来使用。帧内预测处理单元46可向熵编码单元56提供指示块的所选帧内预测模式的信息。熵编码单元56可对指示比特流中的对所选帧内预测模式的信息进行编码。
在预测处理单元41通过帧间预测或帧内预测确定当前视频块的预测块之后,加法器50通过从当前视频块中减去该预测块来形成残差视频块。该残差块中的残差视频数据可包括在一个或多个变换单元(TU)中并被提供给变换处理单元52。变换处理单元52使用诸如离散余弦变换(DCT)或概念上类似的变换来将残差视频数据变换为残差变换系数。
变换处理单元52可将所得到的变换系数发送到量化单元54。量化单元54将所述变换系数量化以进一步降低比特率。量化过程还可以减小与系数中的一些或所有系数相关联的比特深度。可以通过调整量化参数来修改量化程度。在一些示例中,量化单元54然后可对包含经过量化的变换系数的矩阵进行扫描。可替代地,熵编码单元56可进行这种扫描。
在量化之后,熵编码单元56使用例如上下文自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)、基于语义的上下文自适应二进制算术编码(SBAC)、概率区间分区熵(PIPE)编码或其他熵编码方法或技术将量化的变换系数熵编码成视频比特流。然后这种编码后的比特流可被传送到视频解码器30,或存档在存储装置32中以供以后传送到视频解码器30或由视频解码器30取得。熵编码单元56还可对用于被编码的当前视频帧的所述运动向量和其他语义元素进行熵编码。
逆量化单元58和逆变换处理单元60分别应用逆量化和逆变换以重建像素域中的残差视频块,以生成用于预测其他视频块的参考块。如上所述,运动补偿单元44可从DPB 64中存储的帧的一个或多个参考块生成运动补偿预测块。运动补偿单元44还可将一个或多个内插滤波器应用于该预测块以计算用于运动估计的亚整数像素值。
加法器62将该重建的残差块加到运动补偿单元44产生的该运动补偿预测块相加以产生存储在DPB 64中的参考块。该参考块然后可由帧内BC单元48、运动估计单元42以及运动补偿单元44用作预测块以对后续视频帧中的另一个视频块进行帧间预测。
图3是示出了根据本申请的一些实施方式的示范性视频解码器30的框图。视频解码器30包括视频数据存储器79、熵解码单元80、预测处理单元81、逆量化单元86、逆变换处理单元88、加法器90和DPB 92。预测处理单元81还包括运动补偿单元82、帧内预测单元84和帧内BC单元85。视频解码器30执行解码过程,该解码过程通常与上文结合图2所描述的与视频编码器20有关的编码过程是相反的。例如,运动补偿单元82可基于从熵解码单元80接收的运动向量生成预测数据,而帧内预测单元84可基于从熵解码单元80接收的帧内预测模式指示符生成预测数据。
在一些示例中,视频解码器30的单元可以被分配执行本发明的实施方式的任务。此外,在一些示例中,本发明的实施方式可以在视频解码器30的一个或多个单元之间划分。例如,帧内BC单元85可以单独地或与视频解码器30的其他单元(如运动补偿单元82、帧内预测单元84和熵解码单元80)组合起来执行本发明的实施方式。在一些示例中,视频解码器30可以不包括帧内BC单元85并且帧内BC单元85的功能可由预测处理单元81的其他组件(如运动补偿单元82)执行。
视频数据存储器79可以存储待由视频解码器30的其他部件进行解码的视频数据,如编码视频比特流。可以经由对视频数据进行有线或无线网络传送或者通过访问物理数据存储介质(例如,闪存驱动器或硬盘)从存储设备32、本地视频源(如相机)获得存储在视频数据存储器79中的视频数据。视频数据存储器79可包括存储来自编码视频比特流的编码视频数据的编码图片缓存器(CPB)。视频解码器30的解码图片缓存器(DPB)92存储参考视频数据以在视频解码器30解码(如以帧内或帧间预测编码模式)视频数据时使用。视频数据存储器79和DPB 92可由多种存储器设备中的任一种形成,如动态随机存取存储器(DRAM),包括同步DRAM(SDRAM)、磁阻RAM(MRAM)、电阻RAM(RRAM)或其他类型的存储设备。出于例示目的,在图3中将视频数据存储器79和DPB 92示为视频解码器30的两个不同组件。但是对于本领域中普通的技术人员显而易见的是,视频数据存储器79和DPB 92可以由同一存储器设备或单独的存储器设备提供。在一些示例中,视频数据存储器79可与视频解码器30的其他组件在芯片上,或者相对于所述组件在芯片外。
在该解码过程期间,视频解码器30接收表示编码视频帧的视频块和相关联的语义元素的编码视频比特流。视频解码器30可以在视频帧水平和/或视频块水平接收所述语义元素。视频解码器30的熵解码单元80对该比特流进行熵解码以生成量化系数、运动向量或帧内预测模式指示符以及其他语义元素。熵解码单元80然后将所述运动向量和其他的所述语义元素转发到预测处理单元81。
当该视频帧被编码为帧内预测编码(I)帧或用于其他类型帧中的帧内编码预测块时,预测处理单元81的帧内预测单元84可基于通过信号传输的帧内预测模式和来自当前帧的先前解码块的参考数据来为当前视频帧的视频块生成预测数据。
当该视频帧被编码为帧间预测编码(即,B或P)帧时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的所述运动向量和其他语义元素为当前视频帧的视频块产生一个或多个预测块。每个预测块可从所述参考帧列表中的一个的参考帧产生。视频解码器30可基于存储在DPB 92中的参考帧使用默认的构建技术来构建参考帧列表,即列表0和列表1。
在一些示例中,在根据本文所描述的帧内BC模式编码该视频块时,预测处理单元81的帧内BC单元85基于从熵解码单元80接收的块向量和其他语义元素为当前的视频块产生预测块。所述预测块可以在与由视频编码器20定义的当前视频块相同的图片的重建区域内。
运动补偿单元82和/或帧内BC单元85通过对所述运动向量和其他的语义元素进行解析来确定用于当前视频帧的视频块的预测信息,然后使用该预测信息来产生被解码的当前视频块的预测块。例如,运动补偿单元82使用所接收的语义元素中的一些来确定用于编码该视频帧的视频块的预测模式(如帧内或帧间预测)、帧间预测帧类型(如B或P)、帧的参考帧列表中的一个或多个参考帧列表的构造信息、帧的每个帧间预测编码视频块的运动向量、帧的每个帧间预测编码视频块的帧间预测状态以及用于对当前视频帧中的视频块进行解码的其他信息。
类似地,帧内BC单元85可以使用接收到的语义元素中的一些(如标志)来确定当前视频块是使用以下各项预测的:帧内BC模式、关于帧的视频块处于该重建区域内并应存储在DPB 92中的构造信息、用于该帧的每个帧内BC预测视频块的块向量、用于该帧的每个帧内BC预测视频块的帧内BC预测状态以及用于解码当前视频帧中的所述视频块的其他信息。
运动补偿单元82还可以在所述视频块的编码期间如视频编码器20一样使用所述内插滤波器来进行内插以计算用于参考块的亚整数像素的内插值。在这种情况下,运动补偿单元82可从所接收的语义元素来确定视频编码器20所使用的所述内插滤波器,并且使用所述内插滤波器来产生预测块。
逆量化单元86使用由视频编码器20针对视频帧中的每个视频块计算的用于确定量化程度的相同的量化参数,对在比特流中提供的并且由熵解码单元80进行熵解码的经量化的变换系数进行逆量化。逆变换处理单元88将逆变换(如逆DCT、逆整数变换或概念上类似的逆变换过程)应用于所述变换系数,以重建该像素域中的残差块。
在运动补偿单元82或帧内BC单元85基于所述向量和其他语义元素生成用于当前视频块的预测块之后,加法器90通过将来自逆变换处理单元88的残差块和由运动补偿单元82和帧内BC单元85生成的相应预测块相加来重建用于当前视频块的解码视频块。环内滤波器(未图示)可以位于加法器90与DPB 92之间以对该解码视频块进行进一步的处理。然后将给定帧中的解码视频块存储在DPB 92中,DPB 92存储用于以后的视频块的后续运动补偿的参考帧。DPB 92或与DPB 92分开的存储器设备也可以存储解码视频以供稍后呈现在如图1的显示设备34等显示设备上。
在典型的视频编码过程中,视频序列通常包括帧或图片的有序集合。每个帧可包括三个样本阵列,表示为SL、SCb和SCr。SL是亮度样本的二维阵列。SCb是Cb色度样本的二维阵列。SCr是Cr色度样本的二维阵列。在其他示例下,帧可以是单色的,并且因此仅包括亮度样点的一个二维阵列。
如图4A所示,视频编码器20(或更具体地来讲,分割单元45)通过首先将帧划分为一组编码树单元(CTU)来生成该帧的编码表示。视频帧可包括从左到右和从上到下的光栅扫描顺序连续排序的整数个CTU。每个CTU是最大的逻辑编码单元并且该CTU的宽度和高度由视频编码器20在序列参数集中用信号通知,以使视频序列中的所有CTU具有相同的大小,即128×128、64×64、32×32和16×16中的一个。但需要说明的是,本申请并不一定限于特定的大小。如图4B所示,每个CTU可包括亮度样本的一个编码树块(CTB)、色度样本的两个对应编码树块以及用于对所述编码树块的样本进行编码的语义元素。语义元素描述像素的编码块的不同类型的单元的属性以及如何可以在视频解码器30处重建视频序列,所述语义元素包括帧间或帧内预测、帧内预测模式、运动向量以及其他参数。在单色图片或具有三个单独色彩平面的图片中,CTU可包括单个编码树块和用于对该编码树块的样本进行编码的语义元素。编码树块可以是N×N个样本块。
为了实现更好的性能,视频编码器20可以对该CTU的所述编码树块递归地执行树分割,例如二叉树分割、四叉树分割或二者的组合,并将该CTU分割成较小的编码单元(CU)。如图4C所示,首先将64×64的CTU 400分成四个较小的CU,每个CU的块大小为32×32。在这四个较小的CU中,CU 410和CU 420均按块大小各自划分成四个16×16的CU。两个16×16的CU 430和440分别按块大小进一步划分为四个8×8的CU。图4D示出了一种四叉树数据结构,图中示出了如图4C中描绘的CTU400的分区过程的最终结果,该四叉树的每个叶子节点对应相应大小在32×32到8×8范围内的CU。类似于图4B中所描绘的CTU,每个CU可以包括亮度样点的编码块(CB)和相同大小的帧的色度样点的两个对应的编码块,以及用于对编码块的样点进行编码的语义元素。在单色图片或具有三个单独的色彩平面的图片中,CU可以包括单个编码块和用于对编码块的样点进行编码的语义结构。
在一些实施方式中,视频编码器20可进一步将CU的编码块分割成一个或多个M×N的预测块(PB)。预测块是样本的矩形(正方形或非正方形)块,该块被应用相同的(帧间或帧内)预测。CU的预测单元(PU)可包括亮度样本的预测块、色度样本的两个对应预测块以及用于所述预测块进行预测的语义元素。在单色图片或具有三个单独色彩平面的图片中,PU可包括单个预测块和用于对该预测块进行预测的语义结构。视频编码器20可以为该CU的每个PU的亮度、Cb和Cr预测块生成预测亮度、Cb和Cr块。
视频编码器20可使用帧内预测或帧间预测来生成用于PU的预测块。如果视频编码器20使用帧内预测来生成PU的预测块,则视频编码器20可基于与该PU相关联的帧的解码样本来生成PU的预测块。如果视频编码器20使用帧间预测来生成PU的预测块,则视频编码器20可基于除与PU相关联的帧之外的一个或多个帧的解码样本来生成PU的预测块。
在视频编码器20生成CU的一个或多个PU的预测亮度、Cb和Cr块之后,视频编码器20可通过从CU的原始亮度编码块中减去该CU的预测亮度块来生成该CU的亮度残差块,以使该CU的亮度残差块中的每个样本指示该CU的预测亮度块之一中的亮度样本与该CU的原始亮度编码块中的对应样本之间的差异。类似地,视频编码器20可分别生成该CU的Cb残差块和Cr残差块,以使该CU的Cb残差块中的每个样本指示在CU的预测Cb块之一中的Cb样本与CU的原始Cb编码块中的对应样本之间的差异,并且CU的Cr残差块中的每个样本可以指示CU的预测Cr块之一中的Cr样本与CU的原始Cr编码块中的对应样本之间的差。
此外,如图4C所示,视频编码器20可采用四叉树分割来将CU的亮度、Cb和Cr残差块分解为一个或多个亮度、Cb和Cr变换块。变换块是样本的矩形(正方形或非正方形)块,该块被应用相同的变换。CU的变换单元(TU)可包括亮度样本的变换块、色度样本的两个对应变换块以及用于对所述变换块样本进行变换的语义元素。因此,CU的每个TU可与亮度变换块、Cb变换块和Cr变换块相关联。在一些示例中,与该TU相关联的亮度变换块可以是该CU的亮度残差块的子块。该Cb变换块可以是该CU的Cb残差块的子块。该Cr变换块可以是该CU的Cr残差块的子块。在单色图片或具有三个单独色彩平面的图片中,TU可包括单个变换块和用于对该变换块的样本进行变换的语义结构。
视频编码器20可将一个或多个变换应用于TU的亮度变换块以生成该TU的亮度系数块。系数块可以是多个变换系数的二维阵列。变换系数可以是标量。视频编码器20可将一个或多个变换应用于TU的Cb变换块以生成用于该TU的Cb系数块。视频编码器20可将一个或多个变换应用于TU的Cr变换块以生成用于该TU的Cr系数块。
在生成系数块(如亮度系数块、Cb系数块或Cr系数块)之后,视频编码器20可将该系数块量化。量化通常是指对变换系数进行量化以可能减少用于表示变换系数的数据量从而提供进一步压缩的过程。在视频编码器20将系数块量化之后,视频编码器20可对指示经量化的变换系数的语义元素进行熵编码。例如,视频编码器20可对指示经量化的变换系数的语义元素进行上下文自适应二进制算术编码(CABAC)。最后,视频编码器20可以输出包括形成编码帧和相关联数据的表示的比特序列的比特流,该比特序列被保存在存储设备32中或传输到目标设备14。
在接收由视频编码器20生成的比特流之后,视频解码器30可解析该比特流以从该比特流获得语义元素。视频解码器30可以至少部分地基于从该比特流获得的语义元素来重建该视频数据的帧。重建视频数据的过程通常与视频编码器20执行的编码过程是相互的。例如,视频解码器30可以对与当前CU的TU相关联的系数块进行逆变换,以重建与当前CU的TU关联的残差块。视频解码器30还可以通过将用于当前CU的PU的预测块的样本加到当前CU的TU的变换块的对应样本来重建当前CU的编码块。在重建帧的每个CU的编码块之后,视频解码器30可重建该帧。
如上所述,SEI消息已被用于各种目的的多个视频编码标准。下面的表1列出了基于HEVC的SEI消息类型的一些示例并简要描述了它们的功能。例如,具有“图片快照”类型的SEI消息包含快照ID号,指示具有该快照ID的重建视频内容中的图片被标记用作视频内容的静止图像快照。换言之,该SEI消息本身不包括该图片,并且它只有一个指向存储在该重建的视频内容中的图片的指针(即快照ID)。为了访问该图片,视频解码器30必须重建包括该图片的视频内容的至少一部分,这不仅计算量大而且耗时。此外,该图片快照SEI消息不包括允许进一步处理图片的附加信息,例如照片编辑、徽标、标题、文本、突出显示、质量增强等。通常,来自没有进一步编辑或增强的视频的单个帧不足以用于传达视频的全部内容。
表1:基于HEVC的SEI消息
另一方面,智能手机的普及在互联网上产生越来越多的视频内容,并且在现有的视频编码标准中没有允许内容提供商指定视频的某个部分作为该视频的代表的良好的、轻量级的方法。在本申请中,提出了通过引入一种称为“嵌入图像”的新消息类型来扩展该SEI消息,这种新消息类型允许该SEI消息在编码阶段嵌入该视频的代表图像,以使编码视频比特流具有对应于该视频的代表图像的附加数据。为方便起见,将这种SEI消息称为“嵌入图像SEI消息”。与图片快照类型不同,这种嵌入图像SEI消息包括该代表图像本身的副本。因此,可由视频解码器30或其它工具使该代表图像对终端用户可用,而无需经过如上文结合图3所描述的视频解码过程。应该注意的是,在整个本申请中,术语“代表图像”可以是视频的封面图像或视频的缩略图,这取决于此类代表图像将如何呈现给最终用户,从SEI消息的角度来看,两者都可以被视为可互换的,并且将以相同的方式处理,如下所述。
图5A至5C是示出了根据本申请的一些实施方式的包含多个嵌入图像补充增强信息(SEI)消息的编码视频比特流数据结构、至少一个包含嵌入图像的嵌入SEI消息的数据结构以及嵌入图像的数据结构的框图。具体地,图5A示出了编码视频比特流500的数据结构,该编码视频比特流由视频编码器20生成。如上所述,视频编码器20使用帧内预测模式和/或帧间预测模式将输入视频数据编码成编码视频内容数据520,并且生成对应的视频元数据510,如用于表征视频数据如何被编码的语法元素。SEI消息与其它元数据一起是视频元数据510的一个成员。
如图5A所示,该编码视频比特流500(或更具体地,视频元数据510)可包括一个或多个嵌入图像SEI消息510-1、…、510-N。例如,视频编码器20可以选择视频数据中的10个或100个帧中的每一个(取决于视频的长度)并且使用所选择的帧生成嵌入图像SEI消息。这种时间上二次采样的帧的集合在一个接一个地播放时模拟视频的快进播放,就像该编码视频比特流的概要一样。当然,该编码视频比特流500可以仅包括用作该视频的封面图像的该视频的代表图像的一个嵌入图像SEI消息。但这与上述传统的图片快照类型SEI图像不同,因为这里的嵌入图像SEI消息包括封面图像本身,并且不要求视频比特流500的解码来重建对应于该快照ID的图片。或者,两个连续嵌入图像SEI消息之间的时间间隔可能不是常数。例如,视频编码器20可以为该视频内容内的每个新场景的第一图像之一生成嵌入图像SEI消息,或者根据时间上随机选择的时刻生成嵌入图像SEI消息的集合。
图5B示出了嵌入图像SEI消息530的数据结构,包括message_id 530-1、payload_type 530-3、payload_size 530-5和作为载荷的embedded_image 530-7。应注意,这些参数对于表1中描述的其它SEI消息类型是相同的。换言之,新引入的嵌入图像类型不会更改现有SEI消息的语法,因此无需更改现有语法。嵌入图像类型只是添加到现有的SEI消息语法中,并以与其它SEI消息类型相同的方式处理,如下所示:
sei_payload(payloadType,payloadSize){ |
… |
else if(payloadType==SEI_EMBEDDED_IMAGE) |
embedded_image(payloadSize) |
… |
} |
应注意,如果payload_type是“SEI_EMBEDDED_IMAGE”,则该SEI消息具有作为payload_size 530-5的函数对应的embedded_image 530-7。图5C示出了embedded_image540的数据结构,包括图像格式540-1、图像id 540-3、图像宽度540-5、图像高度540-7和图像数据540-9。在一个实施方式中,这些参数定义如下:
embedded_image(payloadSize){ | 说明 |
embedded_image_format | 用于该嵌入图像的格式 |
embedded_image_id | 具有输出顺序的视频中对应的图片识别号 |
embedded_image_width | 该嵌入图像的宽度 |
embedded_image_height | 该嵌入图像的高度 |
for(i=0;i<payloadSize-7;i++) | |
embedded_image_byte | 该嵌入图像的二进制数据 |
} |
由于embedded_image 540独立于视频内容数据520而存在,所以它可以具有自己的图像格式,该图像格式可能与视频内容数据520相同或不同。例如,嵌入图像格式540-1可以是用于一类图像格式的一个整数,如VIF(VVC帧内编码图像格式)、HEIF(HEVC/AVC帧内编码图像)、JPEG、GIF、BMP、PNG、TIF、WEBP、JP2、YUV。在某些情况下,图片快照类型通过具有特殊的embedding_image_format“SNAPSHOT”而与嵌入图像类型合并。在图像格式540-1是“SNAPSHOT”的情况下,该SEI消息可以具有任何图像数据540-9,因为图像id 540-3用于指代来自该视频的解码图片。
该嵌入图像SEI消息为视频内容提供者提供了一种将所需缩略图/封面图像与该视频比特流绑定的方式,以使相同的嵌入图像可用于不同的平台或应用。这里描述的技术也适用于支持SEI消息的所有视频编码标准,如H.264/AVC、HEVC、VVC、以及支持SEI消息的任何未来的视频编码标准。为了说明的目的,下面描述了两个示例性过程,这两个过程描述了视频编码器或解码器如何将这种嵌入SEI消息生成到编码视频位流中并从该编码视频位流中提取嵌入图像。
图6是示出了根据本申请的一些实施方式的视频编码器(如视频编码器20)实现通过使用图片生成嵌入图像SEI消息并将该SEI消息添加到视频比特流中的技术的示例性过程的流程图。首先,视频编码器20识别图片(610)。需要说明的是,该图片可以是如上所述的要被编码的视频内容的一个图像帧(610-1),也可以是并不是该视频内容的一部分的任意的图片(如视频拍摄者的图像或制作视频内容的公司的标志)(610-3)。在第一种情况下,该视频比特流包括多个嵌入图像SEI消息,每个嵌入图像SEI消息包括对应于编码到该视频比特流中的相应图像帧的图像数据和相应图像帧的图片顺序计数(POC)。在后一种情况下,可将该图像id设置为空值。多个嵌入图像SEI消息中任意两个连续的嵌入图像SEI消息的POC之间的差异可以是常数或变量。
随后,视频编码器20确定用于该图片的参数集合(630)。示例性参数包括如上文结合图5C所描述的图像格式、图像标识符和图像尺寸(630-1)。在一些实施方式中,该图片的图像尺寸由图像宽度、图像高度和图像原点限定,该图像原点可以被限定为该图片的左上角。接着,视频编码器20根据前面结合图5B所描述的该嵌入图像SEI消息的格式使用该参数集合生成嵌入图像SEI消息(650)。最后,视频编码器像在前面结合图5A所描述的那样将该嵌入图像SEI消息添加到该视频比特流的元数据中(670)。应注意,上述各种编码技术,如帧内预测和帧间预测,可用于对该嵌入图像进行编码。
图7是示出了根据本申请的一些实施方式的视频解码器(如视频解码器30)实现从视频比特流提取嵌入图像SEI消息并且使用该嵌入图像SEI消息生成图片的技术的示例性过程的流程图。首先,视频解码器30像在前面结合图5A所描述的那样在该编码视频比特流的视频元数据中识别嵌入图像SEI消息(710)。应注意,可以使用如上所述的各种编码技术对该嵌入图像进行编码,如帧内预测和帧间预测。然后,视频解码器30像在前面结合图5B所描述的那样从该嵌入图像SEI消息中提取参数集合(730)。最后,视频解码器30使用该参数集合从存储在该嵌入图像SEI消息中的图像数据生成图片(750)。所述图片可以被使用作为视频流的封面图像(750-1)。或者,如果该视频流具有多个嵌入图像SEI消息,则视频解码器30可以生成多个图片并将它们形成为序列以作为该编码视频比特流的概要播放(750-3)。通过这种操作,最终用户可以了解视频的内容,而无需将整个视频比特流解码。
在一些实施方式中,用于生成该嵌入图像SEI消息的图片具有与编码到该视频比特流中的对应图像帧相比相同或更低的分辨率。具有相同分辨率的图片可以用作该视频的封面图像,且具有较低分辨率的图片可以用作该视频的缩略图像。该嵌入图像可以是该视频序列中图片的缩小版本,并且具有固定大小或固定缩小比例或固定尺寸。与视频剪辑大小相比,该嵌入图像的开销非常小。例如,为了针对一分钟的1080p SDR30fps视频生成一个嵌入图像,缩小尺寸为960x540的嵌入图像的大小约为50KB(使用JPEG压缩质量75)。
在一些实施方式中,视频编码器20可以仅提取该视频内容中的图片的一部分以生成该嵌入图像。在这种情况下,该嵌入图像的尺寸由图像宽度、图像高度和图像原点限定。在默认情况下,可以选择图片原点为图片的左上角。在这种情况下,视频编码器20不需要将图像原点用信号发送给视频解码器30。或者,图像原点可以是图片中的任意点。在这种情况下,视频编码器20可能需要将图像原点用信号发送给视频解码器30。
通过上述方法,视频比特流与其由内容制作者生成的缩略图图像和封面图像一起打包。这种打包是通过一种新的类型的嵌入SEI消息或通过一种新的类型的元数据来实现的。因此,视频比特流及其由视频制作者生成的缩略图可以在不同平台和设备之间轻松共享。此外,视频制作者可以以非常灵活的方式生成缩略图像。这些缩略图像不必是直接从相关视频中选择的帧。视频制作者可以自由选择任何帧并在为该视频生成这些缩略图像时使用任何视频编辑。
在一个或多个示例中,所描述的功能可以在硬件、软件、固件或其任何组合中实现。如果在软件中实现,则这些功能可以作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质传输并由基于硬件的处理单元执行。计算机可读介质可包括计算机可读存储介质,其对应于诸如数据存储介质之类的有形介质,或者包括便于将计算机程序从一个地方转移到另一个地方的任何介质的通信介质,例如,根据通信协议。在这种方式中,计算机可读介质通常可对应于(1)非暂时性的有形计算机可读存储介质或(2)诸如信号或载波的通信介质。数据存储介质可以是可由一台或多台计算机或一个或多个处理器访问以检索指令、代码和/或数据结构以实现本申请中描述的实施方式的任何可用介质。计算机程序产品可包括计算机可读介质。
在此处的实施方式的描述中使用的术语仅用于描述特定实施方式的目的,并不旨在限制权利要求的范围。在实施方式和所附权利要求的描述中使用的单数形式“一个”和“该/所述”也旨在包括复数形式,除非上下文另有明确指示。还应理解,本文所用的术语“和/或”是指并且涵盖一个或多个相关联的所列项目的任何和所有可能的组合。将会进一步理解,当在本说明书中使用时,术语“包括”指定所陈述的特征、要素和/或组件的存在,但不排除其它一个或多个特征、要素、组件和/或它们的组的存在或添加。
还应理解,虽然术语第一、第二等在本文中可用于描述各种要素,但这些要素不应受限于这些术语。这些术语仅用于区分一种要素与另一种要素。例如,在不脱离实施方式的范围的情况下,第一电极可以被称为第二电极,并且类似地,第二电极可以被称为第一电极。第一电极和第二电极都是电极,但不是同一个电极。
本申请的描述是为了说明和描述的目的而呈现的,并不旨在穷举或限制以所公开形式的本发明。受益于前述描述和相关附图中呈现的教导,本领域普通技术人员将明白许多修改、变化和替代实施方式。选择和描述实施例是为了最好地解释本发明的原理、实际应用,并使本领域的其它技术人员能够理解本发明的各种实施方式,并最好地利用具有各种修改的基本原理和各种实施方式,如适用于预期的特定用途。因此,应当理解,权利要求的范围不限于所公开的实施方式的具体示例,并且修改和其它实施方式旨在包括在所附权利要求的范围内。
Claims (40)
1.一种将图片编码为视频比特流的方法,所述方法包括:
识别图片;
确定用于所述图片的参数集合;
使用所述参数集合生成所述图片的嵌入图像补充增强信息SEI消息,其中,所述嵌入图像SEI消息中嵌入了视频的代表图像,所述代表图像是所述视频的封面图像或所述视频的缩略图;以及
将所述嵌入图像SEI消息添加到所述视频比特流的元数据中。
2.如权利要求1所述的方法,其中,所述图片对应于编码到所述视频比特流中的相应图像帧。
3.如权利要求2所述的方法,其中,所述图片具有与编码到所述视频比特流中的相应图像帧相比相同或更低的分辨率。
4.如权利要求1所述的方法,其中,所述视频比特流包括多个嵌入图像SEI消息,每个嵌入图像SEI消息包括对应于编码到所述视频比特流中的相应图像帧的图像数据和所述相应图像帧的图像顺序计数POC。
5.如权利要求4所述的方法,其中,所述多个嵌入图像SEI消息中任意两个连续的嵌入图像SEI消息的POC之间的差是常数。
6.如权利要求4所述的方法,其中,所述多个嵌入图像SEI消息中任意两个连续的嵌入图像SEI消息的POC之间的差是变量。
7.如权利要求1所述的方法,其中,所述参数集合包括所述图片的图像格式、图像标识符、图像尺寸。
8.如权利要求7所述的方法,其中,所述图片的图像尺寸由图像宽度、图像高度和图像原点限定。
9.如权利要求8所述的方法,其中,所述图片的图像原点被限定为所述图片的左上角。
10.如权利要求1所述的方法,其中,所述图片不对应于编码到所述视频比特流中的任何图像帧。
11.一种电子装置,包括:
一个或多个处理器;以及
耦合到所述一个或多个处理器的存储器;
其中,所述一个或多个处理器被配置为:
识别图片;
确定用于所述图片的参数集合;
使用所述参数集合生成所述图片的嵌入图像补充增强信息SEI消息,其中,所述嵌入图像SEI消息中嵌入了视频的代表图像,所述代表图像是所述视频的封面图像或所述视频的缩略图;以及
将所述嵌入图像SEI消息添加到视频比特流的元数据中。
12.如权利要求11所述的电子装置,其中,所述图片对应于编码到所述视频比特流中的相应图像帧。
13.如权利要求12所述的电子装置,其中,所述图片具有与编码到所述视频比特流中的相应图像帧相比相同或更低的分辨率。
14.如权利要求11所述的电子装置,其中,所述视频比特流包括多个嵌入图像SEI消息,每个嵌入图像SEI消息包括对应于编码到所述视频比特流中的相应图像帧的图像数据和所述相应图像帧的图像顺序计数POC。
15.如权利要求14所述的电子装置,其中,所述多个嵌入图像SEI消息中任意两个连续的嵌入图像SEI消息的POC之间的差是常数。
16.如权利要求14所述的电子装置,其中,所述多个嵌入图像SEI消息中任意两个连续的嵌入图像SEI消息的POC之间的差是变量。
17.如权利要求11所述的电子装置,其中,所述参数集合包括所述图片的图像格式、图像标识符、图像尺寸。
18.如权利要求17所述的电子装置,其中,所述图片的图像尺寸由图像宽度、图像高度和图像原点限定。
19.如权利要求18所述的电子装置,其中,所述图片的图像原点被限定为所述图片的左上角。
20.如权利要求11所述的电子装置,其中,所述图片不对应于编码到所述视频比特流中的任何图像帧。
21.一种非暂时性计算机可读存储介质,所述计算机可读存储介质存储由具有一个或多个处理单元的电子装置执行的多个程序,其中所述多个程序在由所述一个或多个处理单元执行时使得所述电子装置执行如权利要求1-10中任一项所述的方法。
22.一种从编码视频比特流中提取图片的方法,所述方法包括:
在所述编码视频比特流的视频元数据中识别嵌入图像补充增强信息SEI消息,其中,所述嵌入图像SEI消息中嵌入了视频的代表图像,所述代表图像是所述视频的封面图像或所述视频的缩略图;
从所述嵌入图像SEI消息中提取参数集合;以及
使用所述参数集合从存储在所述嵌入图像SEI消息中的图像数据生成图片。
23.如权利要求22所述的方法,其中,所述参数集合包括所述图片的图像格式、图像标识符、图像尺寸。
24.如权利要求23所述的方法,其中,所述图片的图像尺寸由图像宽度、图像高度和图像原点限定。
25.如权利要求24所述的方法,其中,所述图片的图像原点被限定为所述图片的左上角。
26.如权利要求22所述的方法,其中,所述图片被呈现为所述编码视频比特流的封面图像。
27.如权利要求22所述的方法,其中,所述视频比特流包括多个嵌入图像SEI消息,每个嵌入图像SEI消息包括与编码到所述视频比特流中的相应图像帧相对应的图像数据,并且从所述多个嵌入图像SEI消息生成的多个图片作为所述编码视频比特流的概要播放。
28.如权利要求27所述的方法,其中,所述多个图片中的每一个具有与编码到所述视频比特流中的相应图像帧相比相同或更低的分辨率。
29.如权利要求27所述的方法,其中,所述多个图片中任意两个连续的图片之间的时间差是常数。
30.如权利要求27所述的方法,其中,所述多个图片中任意两个连续的图片之间的时间差是变量。
31.一种电子装置,包括:
一个或多个处理器;以及
耦合到所述一个或多个处理器的存储器;
其中,所述一个或多个处理器被配置为:
在编码视频比特流的视频元数据中识别嵌入图像补充增强信息SEI消息,其中,所述嵌入图像SEI消息中嵌入了视频的代表图像,所述代表图像是所述视频的封面图像或所述视频的缩略图;
从所述嵌入图像SEI消息中提取参数集合;以及
使用所述参数集合从存储在所述嵌入图像SEI消息中的图像数据生成图片。
32.如权利要求31所述的电子装置,其中,所述参数集合包括所述图片的图像格式、图像标识符、图像尺寸。
33.如权利要求32所述的电子装置,其中,所述图片的图像尺寸由图像宽度、图像高度和图像原点限定。
34.如权利要求33所述的电子装置,其中,所述图片的图像原点被限定为所述图片的左上角。
35.如权利要求31所述的电子装置,其中,所述图片被呈现为所述编码视频比特流的封面图像。
36.如权利要求31所述的电子装置,其中,所述视频比特流包括多个嵌入图像SEI消息,每个嵌入图像SEI消息包括与编码到所述视频比特流中的相应图像帧相对应的图像数据,并且从所述多个嵌入图像SEI消息生成的多个图片作为所述编码视频比特流的概要播放。
37.如权利要求36所述的电子装置,其中,所述多个图片中的每一个具有与编码到所述视频比特流中的相应图像帧相比相同或更低的分辨率。
38.如权利要求36所述的电子装置,其中,所述多个图片中任意两个连续的图片之间的时间差是常数。
39.如权利要求36所述的电子装置,其中,所述多个图片中任意两个连续的图片之间的时间差是变量。
40.一种非暂时性计算机可读存储介质,所述计算机可读存储介质存储由具有一个或多个处理单元的电子装置执行的多个程序,其中所述多个程序在由所述一个或多个处理单元执行时使得所述电子装置执行如权利要求22-30中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962836597P | 2019-04-19 | 2019-04-19 | |
US62/836,597 | 2019-04-19 | ||
PCT/US2020/028654 WO2020214899A1 (en) | 2019-04-19 | 2020-04-17 | Supplemental enhancement information message for embedded image |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114402623A CN114402623A (zh) | 2022-04-26 |
CN114402623B true CN114402623B (zh) | 2023-06-09 |
Family
ID=72837931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080039661.9A Active CN114402623B (zh) | 2019-04-19 | 2020-04-17 | 用于嵌入图像的补充增强信息消息 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114402623B (zh) |
WO (1) | WO2020214899A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4192018A1 (en) * | 2021-12-03 | 2023-06-07 | Axis AB | Method and device for signing an encoded video sequence |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008035294A (ja) * | 2006-07-29 | 2008-02-14 | Victor Co Of Japan Ltd | 画像データ記録装置及び画像データ符号化装置 |
CN104919802A (zh) * | 2013-01-07 | 2015-09-16 | 高通股份有限公司 | 在视频译码中的非嵌套式补充增强信息消息 |
CN109196868A (zh) * | 2016-05-10 | 2019-01-11 | 高通股份有限公司 | 用于产生用于视频图片的区域嵌套消息的方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101218827B (zh) * | 2005-07-06 | 2013-01-30 | 汤姆森许可贸易公司 | 对包括图像序列和标识的视频内容进行编码的方法和设备 |
FR2894740A1 (fr) * | 2005-12-12 | 2007-06-15 | Thomson Licensing Sa | Dispositif de codage, procede de codage, systeme de decodage procede de decodage de donnees video |
US8934729B2 (en) * | 2006-09-30 | 2015-01-13 | Texas Instruments Incorporated | Method and apparatus for frame coding in vertical raster scan order for HEVC |
US9294777B2 (en) * | 2012-12-30 | 2016-03-22 | Qualcomm Incorporated | Progressive refinement with temporal scalability support in video coding |
KR102423610B1 (ko) * | 2015-02-27 | 2022-07-22 | 소니그룹주식회사 | 송신 장치, 송신 방법, 수신 장치 및 수신 방법 |
US10701400B2 (en) * | 2017-03-21 | 2020-06-30 | Qualcomm Incorporated | Signalling of summarizing video supplemental information |
-
2020
- 2020-04-17 CN CN202080039661.9A patent/CN114402623B/zh active Active
- 2020-04-17 WO PCT/US2020/028654 patent/WO2020214899A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008035294A (ja) * | 2006-07-29 | 2008-02-14 | Victor Co Of Japan Ltd | 画像データ記録装置及び画像データ符号化装置 |
CN104919802A (zh) * | 2013-01-07 | 2015-09-16 | 高通股份有限公司 | 在视频译码中的非嵌套式补充增强信息消息 |
CN109196868A (zh) * | 2016-05-10 | 2019-01-11 | 高通股份有限公司 | 用于产生用于视频图片的区域嵌套消息的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020214899A1 (en) | 2020-10-22 |
CN114402623A (zh) | 2022-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7055745B2 (ja) | ビデオコーディングのためのフィルタのための幾何学的変換 | |
CN110463202B (zh) | 一种用于解码视频数据的方法、装置和设备 | |
US10764587B2 (en) | Intra prediction in video coding | |
CN116193131B (zh) | 一种用于视频编码的方法、电子装置及存储介质 | |
CN114501000B (zh) | 用于视频编码的方法和电子装置 | |
CN114080806B (zh) | 在多跨分量预测(pmc)模式下的色度编解码增强 | |
US20220109886A1 (en) | Methods and system of subblock transform for video coding | |
CN113906749B (zh) | 色度残差联合编码方法和装置 | |
US11943468B2 (en) | Methods and apparatus of video coding using prediction refinement with optical flow | |
CN115209139B (zh) | 视频编解码中的预测模式信令 | |
CN114402623B (zh) | 用于嵌入图像的补充增强信息消息 | |
CN116614625B (zh) | 一种视频编码的方法、装置和介质 | |
CN114175641A (zh) | 在视频编解码中提高无损编解码效率 | |
CN115004706B (zh) | 关于变换和系数信令的方法和装置 | |
US12003729B2 (en) | In-loop filters for video coding | |
CN115004706A (zh) | 关于变换和系数信令的方法和装置 | |
CN114026873A (zh) | 用于视频编解码中预测简化的方法和装置 | |
CN115699770A (zh) | 色度残差的联合编解码中的色度编解码增强 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |