CN109218725B

CN109218725B - 一种视频编码器、视频解码器及视频处理系统

Info

Publication number: CN109218725B
Application number: CN201711019318.4A
Authority: CN
Inventors: 吴明隆; 吴东兴; 陈立恒; 林亭安; 黄翊鑫; 蔡宗桦; 郑佳韵; 周汉良; 张永昌
Original assignee: MediaTek Inc
Current assignee: Xueshan Technology Co.,Ltd.
Priority date: 2016-07-12
Filing date: 2017-10-26
Publication date: 2021-01-26
Anticipated expiration: 2037-10-26
Also published as: CN109218725A; TW201813384A; US10412390B2; TWI652933B; US20180020221A1

Abstract

本发明提供一种视频编码器，包括处理电路和通用二进制熵(UBE)语法编码器。处理电路用于处理视频帧的像素数据以产生编码相关数据，其中所述编码相关数据至少包括量化后的变换系数。通用二进制熵(UBE)语法编码器用于处理多个语法元素以产生UBE语法数据。其中，所述编码相关数据由所述多个语法元素表示，所述处理电路根据视频编码标准进行操作，所述视频编码标准支持算术编码，并且所述UBE语法数据不包含算术编码的语法数据。本发明还提供对应的视频解码器及视频处理系统。本发明可以降低延时和视频编码成本。

Description

一种视频编码器、视频解码器及视频处理系统

技术领域

本发明的所公开实施例涉及视频数据处理，且更具体而言，涉及一种视频编码器、视频解码器及视频处理系统。

背景技术

一个传统的视频系统设计包括视频发送系统(或视频记录系统)和视频接收系统(或视频播放系统)。关于视频发送系统/视频记录系统，其包括视频编码器、音频/视频多路复用电路、发送电路等。关于视频接收系统/视频播放系统，其包括接收电路、音频/视频多路解复用电路、视频解码器、显示器等。然而，由于视频发送系统/视频记录系统中长记录延时以及视频接收系统/视频播放系统中长播放延时，传统的视频系统设计无法满足某些超低延时应用的要求。一般地，熵解码是视频解码的性能瓶颈，并且熵解码的性能对比特率比较敏感。高比特率实现更好质量，但是导致较大延时。另外，当存在多个视频源时，一个视频源使用一组视频编码器和解码器，成本较高。

发明内容

根据本发明的实施例，本发明提出一种视频编码器、视频解码器及视频处理系统来解决上述问题。

根据本发明的第一方面，公开一种实例性的视频编码器。所述实例性的视频编码器包括处理电路和通用二进制熵(universal binary entropy，UBE)语法编码器。处理电路用于处理视频帧的像素数据以产生编码相关数据(encoding-related data)，其中所述编码相关数据至少包括量化后的变换系数(quantized transform coefficients)。通用二进制熵语法编码器用于处理多个语法元素以产生通用二进制熵语法数据。所述编码相关数据由所述多个语法元素表示，所述处理电路根据视频编码标准进行操作，所述视频编码标准支持算术编码，并且所述通用二进制熵语法数据不包含算术编码的语法数据。

根据本发明的第二方面，公开一种实例性的视频解码器。所述实例性的视频解码器包括通用二进制熵语法解码器和处理电路，通用二进制熵语法解码器用于处理通用二进制熵语法数据以产生多个解码语法元素，其中所述多个解码语法元素表示编码相关数据，且所述编码相关数据至少包括量化后的变换系数。处理电路用于处理所述编码相关数据以重构视频帧的像素数据。所述处理电路根据视频编码标准进行操作，所述视频编码标准支持算术编码，并且所述通用二进制熵语法数据不包含算术编码的语法数据。

根据本发明的第三方面，公开一种实例性的视频处理系统。所述实例性的视频处理系统包括合并电路和视频编码器。合并电路用于接收多个输入视频帧，并将多个视频帧进行合并以创建合并视频帧(merged video frame)，其中所述多个视频帧分别从所述多个输入视频帧中获得。视频编码器用于编码所述合并视频帧以输出比特流。

本发明通过使用UBE语法编码器，处理速度快，且硬件实现简单，从而降低延时和视频编码成本。并且通过使用UBE语法解码器，实现更高的解码性能，处理速度快，且硬件实现简单，视频解码无需缓存器，降低成本。

对于已经阅读以下各图式及内容所例示的优选实施例的本领域的技术人员来说，本发明的各目的是明显的。

附图说明

图1是例示根据本发明实施例的视频发送系统和视频接收系统的结构示意图。

图2是例示根据本发明实施例的视频解码器的示意图。

图3是例示根据本发明实施例的具有两阶段语法解析(two-phase syntaxparsing)的视频解码器第一示例的示意图。

图4是例示根据本发明实施例的具有两阶段语法解析的视频解码器第二示例的示意图。

图5是例示根据本发明实施例的视频帧的第一分区设计的示意图。

图6是例示根据本发明实施例的视频帧的第二分区设计的示意图。

图7是例示根据本发明实施例的视频编码器的示意图。

图8是例示根据本发明实施例的修改后的视频编码器的示意图。

图9是例示根据本发明实施例的修改后的视频解码器的示意图。

图10是例示根据本发明实施例的视频处理系统的示意图。

图11是例示根据本发明实施例的第一合并方案(merging scheme)的示意图。

图12是例示根据本发明实施例的第二合并方案的示意图。

图13是例示根据本发明实施例的第三合并方案的示意图。

图14是例示根据本发明实施例的第四合并方案的示意图。

图15是例示根据本发明实施例的第五合并方案的示意图。

图16是例示根据本发明实施例的第六合并方案的示意图。

图17是例示根据本发明实施例的第七合并方案的示意图。

图18是例示根据本发明实施例的第八合并方案的示意图。

具体实施方式

本说明书及权利要求书通篇中所用的某些用语指代特定部件。如所属领域的技术人员可以理解的是，电子设备制造商可利用不同名称来指代同一个部件。本文并非以名称来区分部件，而是以功能来区分部件。在以下说明书及权利要求书中，用语“包括”是开放式的限定词语，因此其应被解释为意指“包括但不限于…”。另外，用语“耦接”旨在意指间接电连接或直接电连接。因此，当一个装置耦接到另一装置时，则这种连接可以是直接电连接或通过其他装置及连接部而实现的间接电连接。

图1是根据本发明实施例的视频发送系统和视频接收系统的结构示意图。通过举例但不用于限制本发明，视频发送系统100和视频接收系统120可以应用于超低延时应用，如虚拟现实(virtual reality，VR)应用。在本实施例中，该视频发送系统100包括源缓存器102、视频编码器104、比特流缓存器106、音频数据路径108、音频/视频多路复用电路(用“A/V MUX”表示)110和发送(transmitting，TX)电路112。视频接收系统120包括接收(receiving，RX)电路122、音频/视频解多路复用电路(用“A/V DEMUX”表示)124、比特流缓存器126、视频解码器128、显示缓存器130、显示引擎132和音频数据路径134。视频发送系统100可用作视频记录系统，其用于编码来自视频源10的视频帧，并产生编码视频帧数据(encoded video frame data)，通过通信链路15传输到视频接收系统120。视频接收系统120可用作视频播放系统，其用于通过通信链路15接收编码视频帧数据并产生解码视频帧(decoded video frame)至显示设备20，以用于视频播放。例如，视频源10可以是摄像机或者服务器，显示设备20可以是VR头盔的显示器。此外，通信链路15可以通过使用有线链路或者无线链路来实现。

视频源10提供待编码的视频帧。源缓存器102接收待编码的视频帧的像素的像素数据。视频编码器104编码来自源缓存器102的视频帧的像素的像素数据，并产生编码视频比特流。比特流缓存器106接收来自于视频编码器104的编码视频比特流。A/V MUX 110接收来自比特流缓存器106的编码视频比特流以及来自音频数据路径108的编码音频比特流，并对该编码视频比特流和编码音频比特流执行音频/视频多路复用，以产生单个比特流(single bitstream)至TX电路112。TX电路112输出该单个比特流(其由编码视频比特流和编码音频比特流构成)，通过通信链路15传输至视频接收系统120的RX电路122。

A/V DEMUX 120接收该单个比特流(其由视频编码器104所生产的编码视频比特流和音频数据路径108所产生的编码音频比特流构成)，并对该单个比特流执行音频/视频解多路复用，以分离出编码视频比特流和编码音频比特流，进而分别将该编码视频比特流和该编码音频比特流发送到比特流缓存器126和音频数据路径134。比特流缓存器126接收该编码视频比特流，并将该编码视频比特流提供给视频解码器128。音频数据路径134解码该编码音频比特流，以获得用于音频播放的音频数据。关于视频处理和播放，视频解码器128解码该编码视频比特流，以重构视频帧。显示缓存器130接收来自视频编码器128的视频帧的解码像素数据，并将该视频帧的解码像素数据提供给显示引擎132。显示引擎132是驱动电路，用于根据该视频帧的解码像素数据驱动显示设备20。最后，在显示设备20上显示该视频帧。

源缓存器102、比特流缓存器106和显示缓存器130中的任何一个可以通过使用内部存储设备、外部存储设备或者其结合来实现。例如，内部存储设备可以是静态随机存取存储器(static random access memory，SRAM)或者触发器(flip-flop)。外部存储设备可以是动态随机存取存储器(dynamic random access memory，DRAM)或者闪存。

通常，熵解码是视频解码的性能瓶颈。在本发明的一些实施例中，视频解码器128可以使用两阶段语法解析方案(two-phase syntax parsing scheme)。图2是根据本发明实施例的视频解码器的示意图。如图1所示的视频解码器128可以由图2所示的视频解码器200来实现。视频解码器200使用两阶段语法解析方案，并包括语法解析(syntax parsing)电路202和后解码电路204。语法解析电路202将算术编码比特流(例如，数据依赖(data-dependency)上下文自适应二进制算术编码(context-adaptive binary arithmeticcoding，CABAC)熵编码比特流)变换成非数据依赖通用二进制熵(universal binaryentropy，UBE)语法比特流，并且在后解码电路204内UBE语法解码可以执行并行的UBE语法解码，以实现更高的解码性能。

编码视频比特流BS是视频编码器(例如，视频发送系统100的视频编码器104)的熵编码输出。例如，视频编码器104可以使用算术编码技术，如CABAC。这样，编码视频比特流BS是算术编码比特流(例如，CABAC编码比特流)。算术编码经常应用于在预测和/或量化之后所产生的比特串(bit string)。并且，需要传输各种的编码参数和系统配置信息。这些编码参数和系统配置信息将被二值化成码元串(bin string)，并被算术编码。总之，算术编码通常应用于与一些语法元素相关的码元串，语法元素如运动向量差(motion vectordifference，MVD)、用于编码单元(coding unit，CU)的分区模式、预测残差的量化后的变换系数(quantized transform coefficient)的符号和绝对值等。如图2所示，语法解析电路202具有算术解码器203。根据两阶段语法解析方案，算术解码器203用作超前比特流重新格式化处理电路(look-ahead bitstream reformatting processing circuit)。将编码视频比特流BS馈入到算术解码器203内，然后对编码视频比特流BS进行算术解码，以恢复码元串(其为算术解码码元串)。该算术解码的码元串也可指非算术的码元串，或者UBE语法数据。

将UBE语法数据存储在UBE语法数据缓存器206内。当UBE语法数据缓存器206内已经缓存足够的UBE语法数据(算术解码码元串)时，从UBE语法数据缓存器206内读取该UBE语法数据，并且后解码电路204对该UBE语法数据进行后解码。如图2所示，后解码电路204包括UBE语法解码器(例如，可变长度解码器(variable length decoder，VLD)或者表查找电路(table look-up circuit))212和处理电路213。UBE语法解码器212解码UBE语法数据以输出表示预测残差的解码语法数据、各种编码参数和系统配置信息。也就是说，解码语法数据包括多个解码语法元素，其中编码相关数据用解码语法元素来表示。例如，编码相关数据可以包括量化后的变换系数、帧内预测数据、运动数据、控制数据等。将该解码语法数据提供给处理电路213以重构视频帧的像素数据。例如，处理电路213可以包括逆量化电路(用“IQ”表示)214、逆变换电路(用“IT”表示)216、重构电路(用“REC”表示)218、运动向量计算电路(用“MV产生”表示)220、运动补偿电路(用“MC”表示)222、帧内预测电路(用“IP”表示)224、帧间/帧内模式选择电路226、环路滤波器(例如，去块滤波器(deblocking filter，DF)228)以及参考帧缓存器230。由于本领域的技术人员很容易理解包含在处理电路213内的这些电路元件214-230，为了简洁，此处将不作进一步描述。

上述两阶段语法解析方案可以通过使用专利申请号为2016/0241854 A1的美国专利申请所提出的算术解码器来实现，该美国专利申请的名称为“METHOD AND APPARATUSFOR ARITHMETIC DECODING”，在此合并参考该专利申请案的申请标的。该美国专利申请的发明人也是本申请的共同发明人。

在一个示例设计中，语法解析电路202所产生的UBE语法数据是算术解码的码元串。例如，在HEVC标准中，语法元素last_sig_coeff_x_prefix指定了变换块内在扫描顺序上的最后一个重要系数(last significant coefficient)的列位置的前缀。根据HEVC标准，对语法元素last_sig_coeff_x_prefix进行算术编码。一元编码可以用于对语法元素last_sig_coeff_x_prefix进行二值化。如表1所示，为用于语法元素last_sig_coeff_x_prefix的示例性的一元编码，其中最长编码有6比特，并且码元位置用binIdx表示。

表1

在编码器侧，用于扫描顺序上的最后一个重要系数的列位置的前缀值prefixVal被二值化为各自的码元串。例如，等于3的前缀值prefixVal被二值化为“1110”。使用算术编码对二值化后的码元串进行进一步编码。根据本发明实施例，在如图3所示的解码器侧，算术解码器203(或超前比特流重新格式化处理电路)处理算术编码比特流。将来自于算术解码器203(或超前比特流重新格式化处理电路)的算术编码的码元串“1110”存储到UBE语法数据缓存器206内。在有足够多的码元串可用之后，将该存储的码元串“1110”提供给UBE语法解码器(例如，不具有算术解码的VLD)212，以恢复语法值，即last_sig_coeff_x_prefix＝3。

可选地，语法解析电路202所产生的UBE语法数据可以包括UBE语法数据缓存器206内的具有特定数据结构的解码语法值(即，解码语法元素值)。例如，在HEVC标准中，语法元素last_sig_coeff_x_prefix指定了变换块内在扫描顺序上的最后一个重要系数的列位置的前缀，语法元素last_sig_coeff_y_prefix指定了变换块内在扫描顺序上的最后一个重要系数的行位置的前缀，语法元素last_sig_coeff_x_suffix指定了变换块内在扫描顺序上的最后一个重要系数的列位置的后缀，以及语法元素last_sig_coeff_y_suffix指定了变换块内在扫描顺序上的最后一个重要系数的行位置的后缀。根据HEVC标准，对语法元素last_sig_coeff_x_prefix,last_sig_coeff_y_prefix,last_sig_coeff_x_suffix和last_sig_coeff_y_suffix进行算术编码。根据本发明的实施例，在如图4所示的解码器侧，算术解码器203(其用作超前比特流重新格式化处理电路)处理算术编码比特流。算术解码器203(其用作超前比特流重新格式化处理电路)获得语法元素last_sig_coeff_x_prefix,last_sig_coeff_y_prefix,last_sig_coeff_x_suffix和last_sig_coeff_y_suffix的算术解码语法值“3”,“2”,“4”和“5”，并根据特定的数据结构将其存储到UBE语法数据缓存器206内指定的存储位置。也就是说，UBE语法数据缓存器206内所分配的第一特定存储空间用于记录语法元素last_sig_coeff_x_prefix的解码前缀值，UBE语法数据缓存器206内所分配的第二特定存储空间用于记录语法元素last_sig_coeff_y_prefix的解码前缀值，UBE语法数据缓存器206内所分配的第三特定存储空间用于记录语法元素last_sig_coeff_x_suffix的解码后缀值，UBE语法数据缓存器206内所分配的第四特定存储空间用于记录语法元素last_sig_coeff_y_suffix的解码后缀值。在有足够多的语法值可用之后，将存储的语法值“3”,“2”,“4”和“5”提供给UBE语法解码器(例如，表查找电路)212，以最终恢复该语法，即，last_sig_coeff_x_prefix＝3,last_sig_coeff_y_prefix＝2,last_sig_coeff_x_suffix＝4和last_sig_coeff_y_suffix＝5。

算术编码过程是有数据依存性的，并且常常引起解码吞吐量的问题。为了解决这个问题，两阶段语法解析方案通过将UBE语法数据(其包括非算术编码的语法数据)存储到UBE语法数据缓存器206内，以将算术解码与UBE语法解码(其为非算术解码)进行分离。相对于算术解码器203，由于UBE语法解码器212相对简单，系统设计仅需要考虑到用于语法解析电路202的吞吐量问题。

编码块是视频编码标准的基本处理单元。例如，当视频编码标准为H.264时，一个编码块为一个宏块(macroblock，MB)。又例如，当视频编码标准是VP9时，一个编码块为一个超级块(super block，SB)。还例如，当视频编码标准为高效视频编码(HEVC，HighEfficiency Video Coding)时，一个编码块是一个编码树单元(coding tree unit，CTU)。一个视频帧可以被分区成多个切片(slice)，从而每个切片包括视频帧的一部分。由于通用术语“切片”在不同的视频编码标准中均已定义，为了简洁此处不在作进一步说明。图5是根据本发明实施例的视频帧的第一分区设计。一个视频帧IMG具有多个编码块行(例如，MB行，SB行或者CTU行)：行0,行1,行2,…,行n，每行具有多个编码块(例如，MB，SB或者CTU)。在第一分区设计中，每个编码块行是一个切片。因此，视频帧IMG被分区成切片0,切片1,切片2,…,切片n。图6是根据本发明实施例的视频帧的第二分区设计。一个视频帧IMG具有多个编码块行(例如，MB行，SB行或者CTU行)：行0,行1,行2,…,行n，每行具有多个编码块(例如，MB，SB或者CTU)。在第二分区设计中，每个编码块行包括多个切片。因此，视频帧IMG被分区成切片0,0-切片0,m,切片1,0-切片1,m,切片2,0-切片2,m,…,切片n,0-切片n,m。在一个视频帧被分区成多个切片的前提下，可以使用视频发送系统100和视频接收系统120，其中，切片可以包含一个编码块行(例如，MB/SB/CTU行)的部分或者全部编码数据，但是不能包含多个编码块行(例如，MB/SB/CTU行)的部分或者全部编码数据。

包含在视频发送系统100内的视频编码器104使用基于流水线结构(pipelinestructure)的编码块(例如，基于流水线结构的CTU行)，以有效降低编码延时。例如，当一个CTU行的像素数据准备好时，视频编码器104可以开始编码视频帧内的该CTU行。图7是根据本发明实施例的视频编码器的示意图。图1中的视频编码器104可以由图7中的视频编码器700来实现，图1中的源缓存器102可以由图7中的基于CTU行的环形缓存器701来实现，并且图1中的比特流缓存器106可以由图7中的基于切片的环形缓存器705来实现。基于CTU行的环形缓存器701能够存储至少一个CTU行的源数据，并且基于切片的环形缓存器705能够存储至少一个切片的编码数据。视频编码器700包括处理电路702和熵编码器703。由于环形缓存器的内部特性，基于CTU行的环形缓存器701内的存储空间用于存储视频帧内的一个CTU行的像素数据，并可重用于存储同一视频帧内的另一个CTU行的像素数据。基于切片的环形缓存器705内的存储空间用于存储视频帧内的一个切片的编码像素数据，并可重用于存储同一视频帧内另一切片的编码像素数据。处理电路702用于处理视频帧的像素数据D_IN(特别是视频帧内的一个CTU的像素数据)以产生编码相关数据(encoding-related data)D_OUT，其中编码相关数据D_OUT至少包括量化后的变换系数。根据所使用的编码标准，编码相关数据D_OUT进一步包括帧内预测数据、环路滤波器控制数据、运动数据和/或控制数据。在本实例中，处理电路702包括残差产生电路712、变换电路(用“T”表示)714、量化电路(用“Q”表示)716、码率失真优化和模式决策电路(用“RDO/模式决策”表示)718、逆量化电路(用“IQ”表示)720、逆变换电路(用“IT”表示)722、重构电路724、环路滤波器(例如，去块滤波器(deblocking filter，DF)726)、参考帧缓存器728、运动估计和运动补偿电路(用ME/MC表示)730、帧内预测电路(用“IP”表示)732和帧间/帧内模式选择电路734。由于本领域的技术人员很容易理解包含在处理电路702内的这些电路元件712-734，为了简洁，此处将不作进一步描述。

熵编码器703具有算术编码引擎704，其用于对处理电路702所产生的编码相关数据D_OUT(其至少包括量化的变换系数)进行算术编码。例如，算术编码引擎704可以是CABAC编码器。因此，熵编码器703所产生的编码视频比特流BS是算术编码比特流(例如，CABAC编码比特流)。编码视频比特流BS的数据存储在基于切片的环形缓存器705内。

为了实现更好的解码性能，上述在解码器部分的两阶段语法解析方案将算术解码与UBE语法解码(其是非算术解码，如霍夫曼(Huffman)解码、一元解码或者指数哥伦布(Exp-Golomb)解码)进行分离。然而，由两阶段语法解析方案的算术解码所引起的延时是不可避免的。为了进一步减低解码延时以满足超低延时应用的严格要求，如VR应用，本发明进一步提出修改后的视频编码器设计和修改后的视频解码器设计。

图8是根据本发明实施例的修改后的视频编码器的示意图。图1中的视频编码器104可以由图8中的视频编码器800来实现。图7中的视频编码器700与图8中的视频编码器800的主要区别在于视频编码器800使用UBE语法编码器803。这样，UBE语法编码器803用于处理多个语法元素以产生视频比特流BS_UBE，该视频比特流BS_UBE由UBE语法数据构成。处理电路702所产生的编码相关数据D_OUT(其至少包括量化后的变换系数)用语法元素表示。UBE语法编码器通过使用非算术编码(如霍夫曼编码、一元编码或者指数哥伦布编码)来产生UBE语法数据。应注意，处理电路702根据视频编码标准(例如HEVC)进行操作，其中视频编码标准支持算术编码(例如CABAC)。但是由于使用非算术编码，UBE语法编码器803所产生的UBE语法数据不包含算术编码后的语法数据。

相对于熵编码器703所使用的算术编码，UBE语法编码器803所使用的非算术编码(例如，霍夫曼编码、一元解码或者指数哥伦布编码)具有更快的处理速度，并且需要更简单的硬件实现。因此，相对于视频编码器700，视频编码器800的成本更低，延时更低。

图9是根据本发明实施例的修改后的视频解码器的示意图。图1中的视频解码器128可以由图9中的视频解码器900来实现，图1中的比特流缓存器126可以由图9中的比特流缓存器901来实现。图2中的视频解码器200与图9中的视频解码器900的主要区别在于，视频解码器900省去了语法解析电路202(其使用算术解码器203)和UBE语法数据缓存器206。因此，视频解码器900直接接收来自于比特流缓存器901(例如，图8中的基于切片的环形缓存器)且由UBE语法数据所构成的视频比特流BS_UBE。UBE语法解码器212处理视频比特流BS_UBE的UBE语法数据以产生多个解码语法元素，其中编码相关数据用编码语法元素来表示，并且至少包括量化后的变换系数。根据所采用的编码标准，编码相关数据可以进一步包括帧内预测数据、环路滤波器控制数据、运动数据和/或控制数据。处理电路213处理该编码相关数据以重构视频帧的像素数据。应注意，处理电路213根据视频编码标准(如HEVC)进行操作。然而，馈入到UBE语法编码器212的UBE语法数据不包含算术编码的语法数据。

相对于语法解析电路202(其使用算术解码器203)所使用的算术解码，UBE语法解码器212所使用的非算术解码(例如，霍夫曼解码、一元解码或者指数哥伦布解码)具有更快的处理速度，并且需要更简单的硬件实现。进一步地，由于视频解码器900没有使用两阶段语法解析方案，视频解码器900无需位于语法解析器与后解码器之间的UBE语法数据缓存器。因此，相对于视频解码器200，视频解码器900的成本更低，延时更低。

当特殊应用(如VR应用)采用图1中的视频发送系统100和视频接收系统120时，视频发送系统100有可能接收来自不止一个视频源10的视频帧。若视频发送系统100具有一个用于视频编码一个视频源的视频编码器104，视频接收系统120具有一个拥有视频解码一个视频源的视频解码器128，则使用多组视频编解码器(encoder and decoder，CODEC)。但是，这样成本高。本发明提出将多个视频帧合并成单个视频帧，然后编码该单个视频帧以用于数据传输。这样，单组视频编解码器能够同时对多个视频源进行视频编码和视频解码。

图10是根据本发明实施例的视频处理系统的示意图。视频处理系统1000可以是视频发送系统的一部分。如图10所示，视频处理系统100包括合并电路1002和视频编码器1004。在一个示例设计中，视频编码器1004可以由图7中的视频编码器700来实现。在另一示例设计中，视频编码器1004可以由图8中的视频编码器800来实现。视频处理系统1000耦接到多个视频源10_1-10_N(例如，摄像机或者服务器)。视频源10_1-10_N提供多个输入视频帧IMG_1-IMG_N给合并电路1002。例如，输入视频帧IMG_1-IMG_N存储在多个源缓存器(未示出)内，并且合并电路1002从源缓存器内获取输入视频帧IMG_1-IMG_N。合并电路1002将多个视频帧进行合并以创建一个合并视频帧IMG_M，其中包含在该合并视频帧IMG_M的视频帧分别来自于输入视频帧IMG_1-IMG_N。例如，包含在该合并视频帧IMG_M的一个视频帧可以是由一个视频源所开始提供的输入视频帧，或者可以是通过缩放由一个视频源所开始提供的输入视频帧所产生的缩放视频帧。

合并视频帧IMG_M是由从输入视频帧IMG_1-IMG_N所提取的像素数据构成的单个视频帧，并且被馈入到视频编码器1004。当视频编码器1004由图7中的视频编码器700来实现时，产生包含算术编码数据的编码视频比特流BS，以用于该合并视频帧IMG_M。当视频编码器1004由图8中的视频编码器800来实现时，产生不包含算术编码数据的视频比特流BS_UBE，以用于该合并视频帧IMG_M。

在本发明的一些实施例中，视频源10_1-10_N可以是同时捕获输入视频帧IMG_1-IMG_N的摄像机。这样，待合并成单个视频帧的输入视频帧IMG_1-IMG_N可以具有相同的时间戳。由于每个合并视频帧由具有相同时间戳的输入视频帧所构成，很容易在不同视频源之间进行时间同步。

不同的视频源10_1-10_N提供输入视频帧。这样，输入视频帧IMG_1-IMG_N的大小无需相同。合并电路1002采用合并方案以组合输入视频帧IMG_1-IMG_N。

图11是根据本发明实施例的第一合并方案的示意图。如图11所示，包含在合并视频帧IMG_M内的视频帧是视频源10_1-10_N所开始提供的输入视频帧IMG₁-IMG_N。此外，输入视频帧IMG₁-IMG_N的底部与该合并视频帧IMG_M的底部对齐。如图11所示，包含在该合并视频帧IMG_M内的第一视频帧(例如输入视频帧IMG₁)的最底像素行是该合并视频帧IMG_M的最底像素行Row_B的第一部分，包含在该合并视频帧IMG_M内的第二视频帧(例如输入视频帧IMG₂)的最底像素行是该合并视频帧IMG_M的最底像素行Row_B的第二部分，包含在该合并视频帧IMG_M内的第三视频帧(例如输入视频帧IMG₃)的最底像素行是该合并视频帧IMG_M的最底像素行Row_B的第三部分，以及包含在该合并视频帧IMG_M内的第N视频帧(例如输入视频帧IMG_N)的最底像素行是该合并视频帧IMG_M的最底像素行Row_B的第N部分。由于输入视频帧IMG₁-IMG_N的高度无需相同，该合并视频帧IMG_M具有没有被输入视频帧IMG₁-IMG_N中任何一个所占用的区域1102，为了改善编码效率，填充到该区域1102内的所有虚拟像素均可以有目的地设置成相同的像素值。

图12是根据本发明实施例的第二合并方案的示意图。如图12所示，包含在该合并视频帧IMG_M内的视频帧包括缩放视频帧，每个缩放视频帧由合并电路1002通过缩放一个由一个视频源初始提供的输入视频帧而产生的。此外，视频帧(其包括缩放视频帧)的底部与该合并视频帧IMG_M的底部对齐。如图12所示，包含在该合并视频帧IMG_M内的第一视频帧(例如输入视频帧IMG₁)的最底像素行是该合并视频帧IMG_M的最底像素行Row_B的第一部分，包含在该合并视频帧IMG_M内的第二视频帧(例如输入视频帧IMG₂)的最底像素行是该合并视频帧IMG_M的最底像素行Row_B的第二部分，包含在该合并视频帧IMG_M内的第三视频帧(例如，由缩放视频帧IMG₃所产生的缩放视频帧IMG₃’)的最底像素行是该合并视频帧IMG_M的最底像素行Row_B的第三部分，以及包含在该合并视频帧IMG_M内的第N视频帧(例如，由缩放视频帧IMG_N所产生的缩放视频帧IMG_N’)的最底像素行是该合并视频帧IMG_M的最底像素行Row_B的第N部分。在本实例中，每个缩放视频帧的高度等于该合并视频帧IMG_M的高度。但是，此仅用作示例目的，并不用于限制本发明。实际上，根据实际设计考虑，可以调整输入视频帧的缩放比例。

图13是根据本发明实施例的第三合并方案的示意图。如图13所示，包含在合并视频帧IMG_M内的视频帧是由视频源10_1-10_N初始提供的输入视频帧IMG₁-IMG_N。此外，输入视频帧IMG₁-IMG_N的顶部与该合并视频帧IMG_M的顶部对齐。如图13所示，包含在该合并视频帧IMG_M内的第一视频帧(例如输入视频帧IMG₁)的最上像素行是该合并视频帧IMG_M的最上像素行Row_T的第一部分，包含在该合并视频帧IMG_M内的第二视频帧(例如输入视频帧IMG₂)的最上像素行是该合并视频帧IMG_M的最上像素行Row_T的第二部分，包含在该合并视频帧IMG_M内的第三视频帧(例如输入视频帧IMG₃)的最上像素行是该合并视频帧IMG_M的最上像素行Row_T的第三部分，以及包含在该合并视频帧IMG_M内的第N视频帧(例如输入视频帧IMG_N)的最上像素行是该合并视频帧IMG_M的最上像素行Row_T的第N部分。由于输入视频帧IMG₁-IMG_N的高度无需相同，该合并视频帧IMG_M具有没有被输入视频帧IMG₁-IMG_N中任何一个所占用的区域1302，为了改善编码效率，填充到该区域1302内的所有虚拟像素均可以有目的地设置成相同的像素值。

图14是根据本发明实施例的第四合并方案的示意图。如图14所示，包含在该合并视频帧IMG_M内的视频帧包括缩放视频帧，每个缩放视频帧由合并电路1002通过缩放一个由一个视频源初始提供的输入视频帧而产生。此外，视频帧(其包括缩放视频帧)的顶部与该合并视频帧IMG_M的顶部对齐。如图14所示，包含在该合并视频帧IMG_M内的第一视频帧(例如输入视频帧IMG₁)的最上像素行是该合并视频帧IMG_M的最上像素行Row_T的第一部分，包含在该合并视频帧IMG_M内的第二视频帧(例如输入视频帧IMG₂)的最上像素行是该合并视频帧IMG_M的最上像素行Row_T的第二部分，包含在该合并视频帧IMG_M内的第三视频帧(例如，通过缩放视频帧IMG₃所产生的缩放视频帧IMG₃’)的最上像素行是该合并视频帧IMG_M的最上像素行Row_T的第三部分，以及包含在该合并视频帧IMG_M内的第N视频帧(例如，通过缩放视频帧IMG_N所产生的缩放视频帧IMG_N’)的最上像素行是该合并视频帧IMG_M的最上像素行Row_T的第N部分。在本实例中，每个缩放视频帧的高度等于该合并视频帧IMG_M的高度。但是，此仅用作示例目的，并不用于限制本发明。实际上，根据实际设计考虑，可以调整输入视频帧的缩放比例。

图15是根据本发明实施例的第五合并方案的示意图。如图15所示，包含在合并视频帧IMG_M内的视频帧是由视频源10_1-10_N初始提供的输入视频帧IMG₁-IMG_N。在第五合并方案中，对视频帧打补丁(patch)以形成该合并视频帧IMG_M。这样，该合并视频帧IMG_M的垂直方向上合并了一些视频帧。在本实例中，输入视频帧IMG₁-IMG_N中的一些的左侧与该合并视频帧IMG_M的同一像素列对齐。如图15所示，包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG₃)的最左像素列是该合并视频帧IMG_M的第一像素列Column_1的第一部分，以及包含在该合并视频帧IMG_M内的另一个视频帧(例如输入视频帧IMG₄)的最左像素列是该合并视频帧IMG_M的第一像素列Column_1的第二部分；包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG₅)的最左像素列是该合并视频帧IMG_M的第二像素列Column_2的第一部分，包含在该合并视频帧IMG_M内的另一个视频帧(例如输入视频帧IMG₆)的最左像素列是该合并视频帧IMG_M的第二像素列Column_2的第二部分，以及包含在该合并视频帧IMG_M内的还另一个视频帧(例如输入视频帧IMG₇)的最左像素列是该合并视频帧IMG_M的第二像素列Column_2的第三部分；包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG_N-2)的最左像素列是该合并视频帧IMG_M的第三像素列Column_3的第一部分，包含在该合并视频帧IMG_M内的另一个视频帧(例如输入视频帧IMG_N-1)的最左像素列是该合并视频帧IMG_M的第三像素列Column_3的第二部分，以及包含在该合并视频帧IMG_M内的还另一个视频帧(例如输入视频帧IMG_N)的最左像素列是该合并视频帧IMG_M的第三像素列Column_3的第三部分。由于输入视频帧IMG₁-IMG_N的宽度无需相同，该合并视频帧IMG_M具有没有被输入视频帧IMG₁-IMG_N中任何一个所占用的区域1502，为了改善编码效率，填充到该区域1502内的所有虚拟像素均可以有目的地设置成相同的像素值。

图16是根据本发明实施例的第六合并方案的示意图。如图16所示，包含在该合并视频帧IMG_M内的视频帧包括缩放视频帧，每个缩放视频帧由合并电路1002通过缩放一个由一个视频源初始提供的输入视频帧而产生。在第六合并方案中，对视频帧(其包括缩放视频帧)打补丁以形成该合并视频帧IMG_M。这样，该合并视频帧IMG_M的垂直方向上合并了一些视频帧(其包括缩放视频帧)。在本实例中，输入视频帧IMG₁-IMG_N中的一些的左侧与该合并视频帧IMG_M的同一像素列对齐。如图16所示，包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG₃)的最左像素列是该合并视频帧IMG_M的第一像素列Column_1的第一部分，以及包含在该合并视频帧IMG_M内的另一个视频帧(例如，由缩放输入视频帧IMG₄所产生的缩放视频帧IMG₄’)的最左像素列是该合并视频帧IMG_M的第一像素列Column_1的第二部分；包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG₅)的最左像素列是该合并视频帧IMG_M的第二像素列Column_2的第一部分，包含在该合并视频帧IMG_M内的另一个视频帧(例如，通过缩放输入视频帧IMG₆所产生的缩放视频帧IMG₆’)的最左像素列是该合并视频帧IMG_M的第二像素列Column_2的第二部分，以及包含在该合并视频帧IMG_M内的还另一个视频帧(例如，通过缩放输入视频帧IMG₇所产生的缩放视频帧IMG₇’)的最左像素列是该合并视频帧IMG_M的第二像素列Column_2的第三部分；包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG_N-2)的最左像素列是该合并视频帧IMG_M的第N像素列Column_3的第一部分，包含在该合并视频帧IMG_M内的另一个视频帧(例如，通过缩放输入视频帧IMG_N-1所产生的缩放视频帧IMG_N-1’)的最左像素列是该合并视频帧IMG_M的第三像素列Column_3的第二部分，以及包含在该合并视频帧IMG_M内的另一个视频帧(例如，通过缩放输入视频帧IMG_N所产生的缩放视频帧IMG_N’)的最左像素列是该合并视频帧IMG_M的第三像素列Column_3的第三部分。在本实例中，关于左侧与该合并视频帧IMG_M的同一像素列对齐的视频帧，每个缩放视频帧的宽度等于一个视频源所开始提供的一个输入视频帧的宽度。但是，此仅用作示例目的，并不用于限制本发明。实际上，根据实际设计考虑，可以调整输入视频帧的缩放比例。

图17是根据本发明实施例的第七合并方案的示意图。如图17所示，包含在合并视频帧IMG_M内的视频帧是由视频源10_1-10_N初始提供的输入视频帧IMG₁-IMG_N。在第七合并方案中，对视频帧打补丁以形成该合并视频帧IMG_M。这样，该合并视频帧IMG_M的垂直方向上合并了一些视频帧。在本实例中，输入视频帧IMG₁-IMG_N中的一些的右侧与该合并视频帧IMG_M的同一像素列对齐。如图17所示，包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG₃)的最右像素列是该合并视频帧IMG_M的第一像素列Column_1的第一部分，以及包含在该合并视频帧IMG_M内的另一个视频帧(例如输入视频帧IMG₄)的最右像素列是该合并视频帧IMG_M的第一像素列Column_1的第二部分；包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG₅)的最右像素列是该合并视频帧IMG_M的第二像素列Column_2的第一部分，包含在该合并视频帧IMG_M内的另一个视频帧(例如输入视频帧IMG₆)的最右像素列是该合并视频帧IMG_M的第二像素列Column_2的第二部分，以及包含在该合并视频帧IMG_M内的还另一个视频帧(例如输入视频帧IMG₇)的最右像素列是该合并视频帧IMG_M的第二像素列Column_2的第三部分；包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG_N-2)的最右像素列是该合并视频帧IMG_M的第三像素列Column_3的第一部分，包含在该合并视频帧IMG_M内的另一个视频帧(例如输入视频帧IMG_N-1)的最右像素列是该合并视频帧IMG_M的第三像素列Column_3的第二部分，以及包含在该合并视频帧IMG_M内的还另一个视频帧(例如输入视频帧IMG_N)的最右像素列是该合并视频帧IMG_M的第三像素列Column_3的第三部分。由于输入视频帧IMG₁-IMG_N的宽度无需相同，该合并视频帧IMG_M具有没有被输入视频帧IMG₁-IMG_N中任何所占用的区域1702，为了改善编码效率，填充到该区域1702内的所有虚拟像素均可以有目的地设置成相同的像素值。

图18是根据本发明实施例的第八合并方案的示意图。如图18所示，包含在该合并视频帧IMG_M内的视频帧包括缩放视频帧，每个缩放视频帧由合并电路1002通过缩放一个由一个视频源初始提供的输入视频帧而产生。在第八合并方案中，对视频帧(其包括缩放视频帧)打补丁以形成该合并视频帧IMG_M。这样，该合并视频帧IMG_M的垂直方向上合并了一些视频帧(其包括缩放视频帧)。在本实例中，输入视频帧IMG₁-IMG_N中的一些的右侧与该合并视频帧IMG_M的同一像素列对齐。如图18所示，包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG₃)的最右像素列是该合并视频帧IMG_M的第一像素列Column_1的第一部分，以及包含在该合并视频帧IMG_M内的另一个视频帧(例如，由缩放输入视频帧IMG₄所产生的缩放视频帧IMG₄’)的最右像素列是该合并视频帧IMG_M的第一像素列Column_1的第二部分；包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG₅)的最右像素列是该合并视频帧IMG_M的第二像素列Column_2的第一部分，包含在该合并视频帧IMG_M内的另一个视频帧(例如，由缩放输入视频帧IMG₆所产生的缩放视频帧IMG₆’)的最右像素列是该合并视频帧IMG_M的第二像素列Column_2的第二部分，以及包含在该合并视频帧IMG_M内的还另一个视频帧(例如，由缩放输入视频帧IMG₇所产生的缩放视频帧IMG₇’)的最右像素列是该合并视频帧IMG_M的第二像素列Column_2的第三部分；包含在该合并视频帧IMG_M内的一个视频帧(例如输入视频帧IMG_N-2)的最右像素列是该合并视频帧IMG_M的第N像素列Column_3的第一部分，包含在该合并视频帧IMG_M内的另一个视频帧(例如，由缩放输入视频帧IMG_N-1所产生的缩放视频帧IMG_N-1’)的最右像素列是该合并视频帧IMG_M的第三像素列Column_3的第二部分，以及包含在该合并视频帧IMG_M内的还另一个视频帧(例如，由缩放输入视频帧IMG_N所产生的缩放视频帧IMG_N’)的最右像素列是该合并视频帧IMG_M的第三像素列Column_3的第三部分。在本实例中，关于右侧与该合并视频帧IMG_M的同一像素列对齐的视频帧，每个缩放视频帧的宽度等于一个视频源所开始提供的一个输入视频帧的宽度。但是，此仅用作示例目的，并不用于限制本发明。实际上，根据实际设计考虑，可以调整输入视频帧的缩放比例。

所属领域的技术人员易知，可在保持本发明的教示内容的同时对装置及方法作出诸多修改及变动。因此，以上公开内容应被视为仅受随附权利要求书的范围的限制。

Claims

1.一种视频处理系统，其特征在于，包括：

合并电路，用于接收多个输入视频帧，并将多个视频帧进行合并以创建合并视频帧，其中所述多个视频帧分别从所述多个输入视频帧中获得；以及

视频编码器，用于编码所述合并视频帧以输出比特流；

其中，所述多个输入视频帧包括具有第一分辨率的第一输入视频帧以及具有第二分辨率的第二输入视频帧，并且所述第一分辨率与所述第二分辨率不同；以及

所述多个视频帧包括从所述第一输入视频帧中获得的第一视频帧以及从所述第二输入视频帧中获得的第二视频帧；包含在所述合并视频帧内的所述第一视频帧的最上像素行是所述合并视频帧的最上像素行的第一部分，以及包含在所述合并视频帧内的所述第二视频帧的最上像素行是所述合并视频帧的最上像素行的第二部分。

2.如权利要求1中所述的视频处理系统，其特征在于，所述合并电路进一步用于缩放所述第一输入视频帧和所述第二输入视频帧中的至少一个以产生至少一个缩放视频帧，且所述第一视频帧和所述第二视频帧包括所述至少一个缩放视频帧。

3.如权利要求1中所述的视频处理系统，其特征在于，所述合并电路分别接收来自不同的视频源的所述多个输入视频帧。

4.如权利要求1中所述的视频处理系统，其特征在于，所述多个输入视频帧具有相同的时间戳。

5.如权利要求1中所述的视频处理系统，其特征在于，所述视频编码器包括：

处理电路，用于处理所述合并视频帧的像素数据以产生编码相关数据，其中所述编码相关数据至少包括量化后的变换系数；

通用二进制熵语法编码器，用于处理多个语法元素以产生通用二进制熵语法数据；

其中，所述编码相关数据由所述多个语法元素表示，所述处理电路根据视频编码标准进行操作，所述视频编码标准支持算术编码，并且所述通用二进制熵语法数据不包含算术编码的语法数据。

6.一种视频处理系统，其特征在于，包括：

视频编码器，用于编码所述合并视频帧以输出比特流；

所述多个视频帧包括从所述第一输入视频帧中获得的第一视频帧以及从所述第二输入视频帧中获得的第二视频帧；包含在所述合并视频帧内的所述第一视频帧的最底像素行是所述合并视频帧的最底像素行的第一部分，以及包含在所述合并视频帧内的所述第二视频帧的最底像素行是所述合并视频帧的最底像素行的第二部分。

7.如权利要求6中所述的视频处理系统，其特征在于，所述合并电路进一步用于缩放所述第一输入视频帧和所述第二输入视频帧中的至少一个以产生至少一个缩放视频帧，且所述第一视频帧和所述第二视频帧包括所述至少一个缩放视频帧。

8.如权利要求6中所述的视频处理系统，其特征在于，所述合并电路分别接收来自不同的视频源的所述多个输入视频帧。

9.如权利要求6中所述的视频处理系统，其特征在于，所述多个输入视频帧具有相同的时间戳。

10.如权利要求6中所述的视频处理系统，其特征在于，所述视频编码器包括：

11.一种视频处理系统，其特征在于，包括：

视频编码器，用于编码所述合并视频帧以输出比特流；

所述多个视频帧包括从所述第一输入视频帧中获得的第一视频帧以及从所述第二输入视频帧中获得的第二视频帧；包含在所述合并视频帧内的所述第一视频帧的最左像素列是所述合并视频帧的像素列的第一部分，以及包含在所述合并视频帧内的所述第二视频帧的最左像素列是所述合并视频帧的像素列的第二部分。

12.如权利要求11中所述的视频处理系统，其特征在于，所述合并电路进一步用于缩放所述第一输入视频帧和所述第二输入视频帧中的至少一个以产生至少一个缩放视频帧，且所述第一视频帧和所述所述第二视频帧包括所述至少一个缩放视频帧。

13.如权利要求11中所述的视频处理系统，其特征在于，所述合并电路分别接收来自不同的视频源的所述多个输入视频帧。

14.如权利要求11中所述的视频处理系统，其特征在于，所述多个输入视频帧具有相同的时间戳。

15.如权利要求11中所述的视频处理系统，其特征在于，所述视频编码器包括：

16.一种视频处理系统，其特征在于，包括：

视频编码器，用于编码所述合并视频帧以输出比特流；

所述多个视频帧包括从所述第一输入视频帧中获得的第一视频帧以及从所述第二输入视频帧中获得的第二视频帧；包含在所述合并视频帧内的所述第一视频帧的最右像素列是所述合并视频帧的像素列的第一部分，以及包含在所述合并视频帧内的所述第二视频帧的最右像素列是所述合并视频帧的像素列的第二部分。

17.如权利要求16中所述的视频处理系统，其特征在于，所述合并电路进一步用于缩放所述第一输入视频帧和所述第二输入视频帧中的至少一个以产生至少一个缩放视频帧，且所述第一视频帧和所述第二视频帧包括所述至少一个缩放视频帧。

18.如权利要求16中所述的视频处理系统，其特征在于，所述合并电路分别接收来自不同的视频源的所述多个输入视频帧。

19.如权利要求16中所述的视频处理系统，其特征在于，所述多个输入视频帧具有相同的时间戳。

20.如权利要求16中所述的视频处理系统，其特征在于，所述视频编码器包括：