CN117356092A

CN117356092A - 用于混合特征视频比特流和解码器的系统、方法和比特流结构

Info

Publication number: CN117356092A
Application number: CN202280036229.3A
Authority: CN
Inventors: V·阿德齐克; H·卡尔瓦; B·富尔赫特
Original assignee: OP Solutions LLC
Current assignee: OP Solutions LLC
Priority date: 2021-04-22
Filing date: 2022-04-20
Publication date: 2024-01-05
Also published as: US20240114147A1; EP4327555A1; JP2024514681A; WO2022226087A1; KR20230175240A

Abstract

提供了用于混合特征视频比特流编码和解码的方法和系统。可以以多种模式中的一种模式执行编码。在一种模式中，经编码比特流的视频分量包含对特征数据与输入视频数据之间的差异进行编码而产生的残余数据。兼容解码器可以以多种解码模式操作。在一种解码模式中，使用比特流中的编码视频和编码特征数据来解码视频分量。编码器和解码器之间的混合比特流由多个混合片段形成，每个混合片段具有指定片段的特征和视频内容的特性的多个分量。

Description

用于混合特征视频比特流和解码器的系统、方法和比特流结构

技术领域

本发明一般涉及视频压缩领域。具体而言，本发明涉及用于混合特征视频比特流和解码器的方法和系统。

背景技术

尽管视频通常被认为是人类消费的媒体，但是在机器应用中使用视频的应用不断增长，诸如先进工业过程、自主车辆、IoT应用等。预期这些应用将继续增长，并继续对视频信道带宽提出越来越高的要求。在一些应用中，期望提供针对人类和机器消费优化的视频内容。此比特流可被称作混合比特流。所提出的比特流和解码器的效用主要用于将比特流发送到人类观看者和分析视觉数据的机器的场景。比特流的视频部分旨在用于人类观看者，比特流的特征部分旨在用于机器分析。因此，开发可以压缩、编码和有效地传输适用于人类和机器应用的视频内容的系统和方法将是有益的。

边缘设备的激增和自动视频分析的增加结合诸如5G和IoT的技术和概念已经提出了对将机器视为终端用户的视频编码标准的需要。

当前的现有技术方法是记录、编码来自边缘设备的所有信号并将其发送到服务器。在服务器上，信号的比特流被解码并传递到机器算法以进行分析和处理。这种方法的示例可以在流行的设备中找到，诸如亚马逊的利用Alexa的Echo、谷歌的利用Assistant的Home以及苹果的利用Siri的设备等。由于这些设备主要处理声音(音频信号)，因此有效载荷不会太大。

然而，对于处理视频的设备(诸如门铃)，对网络带宽和可用性的要求非常高。为了减轻这些禁止的要求，提出了另一种方法：设备本身应当进行处理的一些早期阶段，并且仅将压缩特征发送到服务器。这样，以边缘的计算复杂度为代价显著减少了有效载荷。减少的有效载荷(低网络使用)和计算复杂度(高电池使用)之间的折衷可以通过自适应委派来解决。处理可以完全由边缘设备完成，在边缘设备和服务器之间委派，或者完全在服务器上完成。

视频编解码器可以包括压缩或解压缩数字视频的电子电路或软件。它可以将未压缩的视频转换为压缩格式，反之亦然。在视频压缩的上下文中，压缩视频(和/或执行其某种功能)的设备通常可以被称为编码器，并且解压缩视频(和/或执行其某种功能)的设备可以被称为解码器。

压缩数据的格式可以符合标准视频压缩规范。压缩可能是有损的，因为压缩视频缺少原始视频中存在的一些信息。其结果可能包括解压缩视频可能具有比原始未压缩视频更低的质量，因为没有足够的信息来准确地重构原始视频。

在视频质量、用于表示视频的数据量(例如，由比特率确定)、编码和解码算法的复杂性、对数据丢失和错误的敏感性、编辑的容易程度、随机访问、端到端延迟(例如，等待时间)等之间可能存在复杂的关系。

运动补偿可以包括通过考虑相机和/或视频中的对象的运动来预测给定参考帧(诸如先前和/或未来帧)的情况下预测视频帧或其一部分的方法。它可以在用于视频压缩的视频数据的编码和解码中使用，例如在使用运动图像专家组(MPEG)的高级视频编码(AVC)标准(也称为H.264)的编码和解码中使用。运动补偿可以根据参考图像到当前图像的变换来描述图像。，参考图片可以在与当前图片比较时在时间上是先前的，在与当前图片比较时是来自未来的。当可以从先前发送和/或存储的图像精确地合成图像时，可以提高压缩效率。

发明内容

在一个实施例中，提供了一种用于支持视频分量和特征分量的视频比特流的混合解码器。混合解码器包括解复用器，其接收比特流并将接收的比特流解析为视频分量和特征分量。视频解码器耦合到解复用器并接收比特流的视频分量。特征解码器也耦合到解复用器并接收比特流的特征分量。优选地，特征解码器还耦合到视频解码器，并且选择性地向其提供特征数据以便于视频解码。机器模型耦合到特征解码器。混合解码器优选地具有至少第一解码模式和第二解码模式，第一解码模式用于独立地解码比特流的视频分量和特征分量，第二解码模式用于部分地使用比特流中的特征分量来解码比特流中的视频分量。

在一些实施例中，比特流中的视频分量包括通过对特征数据和输入视频数据之间的差异进行编码而获得的残差数据，并且特征解码器在第二解码模式下向视频解码器提供特征数据。

在一些示例性实施例中，解码模式由解码器基于比特流的属性来确定。

优选地，混合比特流包括多个片段，每个片段包括多个分量，该多个分量在其中定义特征和视频分量。这可以包括混合尺寸分量，并且解码模式可以至少部分地由混合尺寸分量的特性来确定。在某些实施例中，每个片段被单独解码，并且为每个片段确定解码模式。

本发明还提供用于具有特征分量和视频分量的经编码混合视频数据的比特流结构。比特流优选地包括多个混合比特流片段，其中每个比特流片段包括多个分量。示例性部件可以包括：混合尺寸部件；元数据分量；特征报头；特征有效载荷；视频报头；以及视频有效载荷。

本发明还提供一种用于产生混合比特流的混合编码器。混合编码器的一个实施例包括预处理器，该预处理器接收输入视频流并且复用视频流以用于视频处理和特征处理两者。提供视频编码器，用于压缩和编码视频内容以包括在比特流中供人类观看。还提供了一种特征提取器。特征提取器耦合到机器模型，该机器模型为后续机器处理提供用于特征提取的参数。特征提取器优选地可操作地耦合到视频编码器并选择性地向其提供特征数据。特征编码器从特征提取器接收特征数据，并对特征数据进行编码以包括在混合比特流中。复用器耦合到视频编码器和特征编码器，并由此生成混合比特流。

在一些示例性实施例中，混合编码器以至少第一编码模式和第二编码模式操作，第一编码模式用于独立地编码比特流的视频分量和特征分量，第二编码模式用于部分地使用来自特征编码器的特征分量来编码比特流中的视频分量。在一个进一步实例中，在第二编码模式中，视频编码器通过对特征数据与输入视频数据之间的差进行编码来产生残余数据。

混合编码器优选地生成包括多个混合比特流片段的混合比特流。在一个实例中，每一比特流片段包含多个分量。一组示例性分量可以包括：混合尺寸分量；元数据分量；特征报头；特征有效载荷；视频报头；以及视频有效载荷。

在结合附图阅读本发明的具体非限制性实施例的以下描述时，本发明的非限制性实施例的这些和其他方面和特征对于本领域技术人员将变得显而易见。

附图说明

出于说明本发明的目的，附图示出了本发明的一个或多个实施例的各方面。然而，应当理解，本发明不限于附图中所示的精确布置和手段，其中：

图1是适用于混合视频应用的编码器和解码器的示例性实施例的简化框图；

图2是混合比特流结构的示例性实施例的图示；

图3是混合比特流结构的示例性实施例的图示；

图4是用于混合比特流的解码过程的示例性实施例的流程图说明；

图5是示出适用于当前解码过程的示例性实施例的解码模式选择的流程图；

图6是视频解码器的示例性实施例的简化框图；

图7是视频编码器的示例性实施例的简化框图；以及

图8是可以用于实现本文公开的任何一种或多种方法及其任何一个或多个部分的计算系统的框图。

附图不一定按比例绘制，并且可以通过虚线、图解表示和局部视图来示出。在某些情况下，可能已经省略了对于理解实施例不是必需的或使得其他细节难以感知的细节。

具体实施方式

本公开针对用于混合视频数据编码和解码的系统和方法。在机器过程中使用的对视频进行编码的过程通常被称为用于机器或VCM的视频编码。

图1是示出用于混合视频数据的VCM系统的概念架构的简化框图，该VCM系统包括编码器105和解码器110。如图1所示，编码器的输入是视频流115，通常是原始视频的形式，例如来自相机或其他视频生成系统。编码器105输出比特流，该比特流随后被发送到解码器，解码器将其解码成由人和/或机器消耗的输出。VCM编码器105接收输入视频115并将其通过预处理器/视频分离器120。预处理器120将接收到的视频数据流分成两个分量：被传递到视频编码器(例如，RGB到YUV转换)的视频分量，以及被传递到特征提取器130的流。如果需要，将传递到特征提取器130的流转换成适当的格式。它还可以根据特征提取器130的需要被量化或以某种其他方式下采样。

视频编码器125优选地被配置为以两种可用模式压缩/编码视频流，“基本模式”和“特征补偿模式”。当在“基本模式”下操作时，视频编码器125作为标准视频编码器操作，诸如用于H.264、HEVC、AVC、VVC视频编码标准的标准兼容解码器，可选地添加与特征提取器130的双向连接。在此模式中，视频子流可由符合比特流的给定标准的任何解码器解码。从视频编码器125到特征提取器130的这种连接可以用于提供附加信息，该附加信息可以用于更有效的压缩，特别是在感知域中。另一方面，视频编码器125可以向特征提取器130提供有用的反馈，诸如运动信息、场景变化信息等。

在“特征补偿模式”中，视频编码器125优选地接收输入视频和特征提取器反馈两者。基于特征图，它估计并编码图与输入图片之间的残差差。

特征补偿模式(FCM)是一种视频编码/解码模式，其中视频子流由残差数据组成，残差数据是通过对特征数据和输入视频数据之间的差值进行编码而获得的。在解码期间，该残差可以与基线特征数据组合。基线特征数据可以由视频解码器从特征解码器获得。基线特征数据可以等于特征解码器的未修改输出，或者它可以是特征解码器的输出的子集。基线残差数据可以由任何特征或特征和输入视频信号的组合组成。例如，基线特征数据可以由当输入视频数据通过卷积神经网络(CNN)的一个或多个层时产生的特征图组成。它还可以由视觉基元组成，该视觉基元由诸如边缘、拐角或关键点的特征组成。

特征提取器130将来自预处理器120的输入像素流转换成特征空间以供机器使用。该特征空间对应于机器要完成的任务。转换的一些示例包括以下内容：边缘提取-使用诸如Canny边缘检测的计算机视觉算法来检测并且然后提取输入图片中的相关边缘；关键点提取-使用诸如尺度不变特征变换和加速鲁棒特征的算法；信号提取-使用独立分量分析或主分量分析从输入图像或音频中提取频谱的最相关分量；特征图提取-使用神经网络的低层，例如卷积神经网络等。基于机器模型输入135来选择转换的类型。机器模型135的副本可以独立地或作为编码器105的一部分存储在边缘设备上。这允许可配置编码器软件的可扩展部署和当到终端设备的网络连接不可用时的离线操作模式。该输入或者由终端机实时提供，或者由本地存储器提供。另外，特征提取器130可以从优化处理的视频编码器125获取反馈输入

特征编码器140从特征提取器130接收所提取的特征，并经由为类似标准(例如CDVA)开发的标准无损和有损技术来压缩它们。尽管可以使用任何已知的方法，但是优选地，特征编码器主要采用一种熵编码。可以提供优化器145以接收来自视频编码器125和特征编码器140两者的输入，并且向这些相应的块提供信号，该信号指示可以在视频和/或特征比特流中进一步压缩或丢弃的数据中存在重叠和冗余。视频编码器125和特征编码器140的输出被提供给复用器(multiplexer)或复用器(muxer)150，其将两个比特流组合成一个比特流。

混合解码器110接收编码的混合比特流并将其传递到解复用器(demultiplexer)或解复用器(demuxer)155。解复用器155将接收到的混合比特流分成视频和特征比特流，这基本上是复用器150的互补操作。然后将特征比特流提供给一个或多个特征解码器160a、160b。在使用多个不同特征集的情况下，特征集提取器157可以插入在解复用器155和特征解码器之间，以从比特流中分离各个特征集并将它们传递到相应的特征解码器160a、160b。每个特征解码器160接收来自机器模型135的输入和作为输入的单独特征集并对其进行解码。机器模型135可以被提供为来自远程源的输入，或者可以被包括在解码器110中的存储装置中。另外，在“特征补偿模式”中，特征解码器160将特征的特定子集发送到视频解码器165。特征解码器160的输出被发送到终端机170。视频解码器165优选地是“基本模式”中的标准视频解码器，以及“特征补偿模式”中的混合解码器(两者都可以使用基本模式)。

图2是包含视频和特征的比特流的简化示意图，该比特流从编码器105输出并经由传输信道发送到解码器110。因为比特流包含视频和特征两者，所以将其指定为混合比特流。顶行200表示混合比特流，其是由称为混合片段205的单独单元组成的连续流。混合片段205的序列是连续流的时间上按顺序的各部分。每个混合片段205优选地还包括六个分量，混合尺寸210、元数据215、特征报头220、特征有效载荷225、视频报头230和视频有效载荷235。分量通常可以以任何顺序出现，只要混合尺寸210是混合片段205中的第一分量即可。在一个示例中，可以通过使用各个分量中的“类型”和“尺寸”字段来隐式地发信号通知分量顺序。可替换地，分量210-235可以包含“起始码”字段，其代替“尺寸”和“类型”字段，并且替代地用于由解码器进行顺序解析。分量内的字段可以由解码器解释，以初始化或更新用于解码的参数。

混合尺寸分量210优选地是指定序列中的每个分量的长度的数字的单个字段阵列。这可以用标准单位(通常是位或字节)表示。作为示例，[10，30，500，100，5000]可以意味着存在10字节的元数据信息，随后是30字节的特征报头数据，随后是500字节的特征有效载荷，随后是100字节的视频报头数据，随后是5000字节的视频有效载荷。解码器可以使用这些数字来提取属于当前片段的输入比特流的相关部分。如果特征或视频分量中的任一个不存在，则这由阵列中的0值发信号通知。

在另一种解码方案中，“起始码”用于标记由该“起始码”指定的类型的新分量的开始。

元数据分量215包含描述片段内容的字段，例如但不限于：

o视频的输入分辨率。这可以表示为宽度和高度的像素值。

o起始片段：二进制标志，如果片段是可独立解码的片段序列中的第一个，则设置为1，否则设置为0。

o特征补偿模式：二进制标志，如果当前片段以FC模式编码，则设置为1，否则设置为0。

o为将来的扩展保留的自定义字段。

特征报头分量220通常包含描述与特征相关的片段内容的字段，例如但不限于：

o分辨率变化的比例因子。表示输入视频分辨率的乘数的单个数字。

o特征类型：指定有效载荷中存在的特征的类型的索引号。例如：(1-边、2-关键点、3-神经网络等)

o特征类型配置：携带关于特征类型的信息的可选字段集。例如，神经网络的拓扑。

o ROI坐标：四元组的阵列，其(隐式地)指定感兴趣区域(ROI)的存在和显式地指定感兴趣区域(ROI)的位置，诸如围绕感兴趣对象的边界框。每个四元组包含指定以下像素值(ROI的左上角的x坐标、ROI的左上角的y坐标、ROI宽度、ROI高度)的数字。例如[(100，50，200，250)，(400，400，200，300)]指定两个ROI。

o残差：指定视频解码器在FC模式下是否使用当前片段特征有效载荷的标志。

o与特定特征类型相关的各种参数集。

o为将来的扩展保留的自定义字段。

特征有效载荷分量225是比特流的包含重构输出特征所需的编码特征数据的部分。特征数据可以包括例如关键点、边缘、运动信息、对象检测、边界框、神经网络的特征图，以及实现图像和视频分析应用(诸如事件和动作识别、对象检测和跟踪、姿态估计等)的类似数据。可以使用熵和二进制编码(诸如霍夫曼编码、算术编码或VLC编码等)来对特征进行编码。

视频报头分量230通常包含描述与视频相关的片段内容的字段，例如但不限于：

o模式：为当前视频片段的信令基本或FC模式保留的单个数字(比特)。

o参数集：例如，用信号通知视频解码器的配置的图片参数集。也可能是序列参数集。

o量化矩阵：携带用于解码的量化系数的一个或多个矩阵的集合。每个矩阵用其所应用于的区域来标识。区域位置可以与残差信息一起或独立地从特征解码器明确地用信号发送或获得(作为ROI坐标)。

o感知参数：在具有感知显著特性的区域(从特征解码器获得作为ROI区域)中应用的量化缩放和环路滤波器参数。

o为将来的扩展保留的自定义字段。

视频有效负载235是比特流的含有重构输出特征所需的经编码视频数据的部分。

图3还示出了示例性混合比特流结构300。比特流包括混合报头305，其包含例如零个或一个视频流310和零个或多个特征流315a、315b的列表。混合报头305优选地包含相关的高级参数(用于流划分等)，并且还可以包含用信号通知哪种模式用于编码的参数，即“基本”或“特征补偿”。视频流310优选地具有在一个或多个已知视频编码标准中定义的标准结构，诸如序列参数集(SPS)、图片参数集(PPS)等。视频流可以由VCM或VVC解码器解码，这取决于使用哪种模式进行编码。每个特征流315a、315b优选地包含报头信息，诸如特征序列参数集FSPS 320a、320b和特征图片参数集FPPS 325a、325b以及相应的特征有效载荷330a、330b。

结合图4的流程图描述混合比特流的解码过程的概述。解码器110在步骤405中接收比特流片段205，读取元数据215，并且在步骤410中确定当前片段是否是片段序列中的起始片段。如果它是起始片段，则解码过程前进到步骤415，并根据元数据分量215中的其它字段中的值以及特征报头220和视频报头230中的字段的值来设置解码参数。如果在步骤410中接收到的片段不是第一个片段，则解码过程在步骤420中进行当前片段和先前片段之间的差异补偿计算。差异补偿计算可以包括运动补偿或适合于特征集的任何其他类型的补偿。在步骤415和420之后，处理进行到在步骤425中解码有效载荷数据。在步骤430中测试有效载荷数据以确定处理是否已经到达片段的末尾。如果在步骤430中没有到达片段的末尾，则处理返回到步骤420。如果片段是片段序列中的最后一个片段，则它完成当前片段组的解码。在步骤435中，解码器确定最后一个片段是否已经被解码。如果不是，则处理返回到步骤405以解码下一个片段。

每组片段是一个或多个连续片段的序列。每个片段组是可独立解码的。一组片段内的视频片段相对于其他视频片段是可独立解码的，但是可能取决于来自同一组片段的特征片段。

在混合比特流中的每个混合片段或片段组中，可能存在一个或零个特征片段和一个或零个视频片段。可以从“混合尺寸”分量210的值隐式地确定特征和视频片段的存在。解码器的模式可以基于每个片段的“特征补偿模式”(FCM)标志来确定。

结合图5所示的流程图进一步描述了使用用于解析FCM标志的决策过程以及解析用于片段存在确定的尺寸参数的解码模式选择。

解码器在步骤505中接收混合片段，并且在步骤510中通过评估特征尺寸来确定特征片段是否存在。如果特征片段不存在(其尺寸为0)，则解码过程在步骤515中检查尺寸以确定是否存在视频片段。如果不是(其尺寸为0)，则跳过当前片段(步骤520)。如果在步骤510中确定在片段中不存在特征片段之后在步骤515中存在视频片段，则在步骤525中将模式设置为“基本模式”，并且仅解码视频。

如果在步骤510中，存在特征片段(特征尺寸不为0)，并且不存在视频片段(视频尺寸＝0)(步骤30)，则不存在视频解码，仅解码特征(步骤535)。如果特征和视频片段都存在，则在步骤540中，解码器检查来自元数据分量215的FCM标志。如果用信号通知FCM模式(FCM＝1)，则首先解码特征片段(步骤545)，并且将基线特征数据传递到以FC模式操作的视频解码器(步骤550)，从而将基线特征数据与残差组合以获得视频输出。如果在步骤540中FCM标志被设置为0，则独立地解码特征片段和视频片段，并且视频解码器以“基本模式”操作。

图6是示出能够对混合比特流的视频部分进行解码的示例视频解码器600(诸如图1中的视频解码器165所示)的系统框图。解码器600包括熵解码器处理器610、逆量化和逆变换处理器620、解块滤波器630、帧缓冲器640、运动补偿处理器650和帧内预测处理器660。

在操作中，混合比特流的视频部分可以由解码器600接收并输入到熵解码器处理器610，该熵解码器处理器610将比特流的部分熵解码为量化系数。量化系数可以被提供给逆量化和逆变换处理器620，该逆量化和逆变换处理器620可以执行逆量化和逆变换以创建残差信号，该残差信号可以根据处理模式被添加到运动补偿处理器650或帧内预测处理器660的输出。运动补偿处理器650和帧内预测处理器660的输出可以包括基于先前解码的块的块预测。预测和残差的和可以由去块滤波器630处理并存储在帧缓冲器640中。

在实施例中，并且仍然参考图6，解码器600可以包括被配置为以任何顺序并且以任何重复程度在如上所述的任何实施例中实现如上所述的任何操作的电路。例如，解码器600可以被配置为重复执行单个步骤或序列，直到实现期望或命令的结果为止；使用先前重复的输出作为后续重复的输入，聚合重复的输入和/或输出以产生聚合结果，减少或递减诸如全局变量的一个或多个变量，和/或将较大处理任务划分成一组迭代解决的较小处理任务，可以迭代地和/或递归地执行步骤或步骤序列的重复。解码器可以并行地执行如本公开中描述的任何步骤或步骤序列，诸如使用两个或更多个并行线程、处理器核等同时和/或基本上同时执行步骤两次或更多次；可以根据适合于在迭代之间划分任务的任何协议来执行并行线程和/或过程之间的任务划分。本领域技术人员在研究本公开的全部内容时将意识到可以使用迭代、递归和/或并行处理来细分、共享或以其他方式处理步骤、步骤序列、处理任务和/或数据的各种方式。

图7是说明适合于编码混合比特流的视频部分的实例视频编码器700(例如图1中所展示的视频编码器125)的系统框图。示例视频编码器700接收输入视频705，输入视频705可以根据诸如树结构宏块分割方案(例如，四叉树加二叉树)的处理方案被初始分段或划分。树结构宏块分割方案的示例可以包括将图片帧分割成被称为编码树单元(CTU)的大块元素。在一些实施方案中，每一CTU可进一步一或多次分割成称为译码单元(CU)的数个子块。此分割的最终结果可包含可被称作预测单元(PU)的子块群组。也可利用变换单元(TU)。

仍然参考图7，示例视频编码器700包括帧内预测处理器715、能够支持自适应裁剪的运动估计/补偿处理器720(也称为帧间预测处理器)、变换/量化处理器725、逆量化/逆变换处理器730、环内滤波器735、解码图片缓冲器740和熵编码处理器745。比特流参数可以被输入到熵编码处理器745以包括在输出比特流750中。

在操作中，并且继续参考图7，对于输入视频705的帧的每个块，可以确定是经由图片内预测还是使用运动估计/补偿来处理该块。可以将块提供给帧内预测处理器710或运动估计/补偿处理器720。如果要经由帧内预测处理块，则帧内预测处理器710可以执行处理以输出预测器。如果要经由运动估计/补偿来处理块，则运动估计/补偿处理器720可以执行包括使用自适应裁剪(如果适用的话)的处理。

仍然参考图7，可以通过从输入视频中减去预测值来形成残差。残差可以由变换/量化处理器725接收，该变换/量化处理器725可以执行变换处理(例如，离散余弦变换(DCT))以产生可以被量化的系数。量化系数和任何相关联的信令信息可以被提供给熵编码处理器745，用于熵编码并包括在输出比特流750中。熵编码处理器745可以支持对与编码当前块相关的信令信息的编码。此外，量化系数可以被提供给逆量化/逆变换处理器730，其可以再现像素，该像素可以与预测器组合并由环内滤波器735处理，该环内滤波器735的输出被存储在解码图像缓冲器740中，以供能够自适应裁剪的运动估计/补偿处理器720使用。

继续参考图7，尽管上面已经详细描述了一些变型，但是其他修改或添加是可能的。例如，在一些实施方式中，当前块可以包括任何对称块(8×8、16×16、32×32、64×64、128×128等)以及任何不对称块(8×4、16×8等)。

仍参考图7，在一些实施方案中，可实施四叉树加二叉决策树(QTBT)。在QTBT中，在编码树单元级，动态地导出QTBT的分区参数以适应局部特性而不发送任何开销。随后，在编码单元级别，联合分类器决策树结构可以消除不必要的迭代并控制错误预测的风险。在一些实施方式中，LTR帧块更新模式可以用作在QTBT的每个叶节点处可用的附加选项。

在一些实施方案中，且继续参考图7，可在比特流的不同阶层层级处用信号发送额外语法元素。例如，可以通过包括在序列参数集(SPS)中编码的启用标志来为整个序列启用标志。此外，可以在编码树单元(CTU)级对CTU标志进行编码。

仍然参考图7，编码器700可以包括被配置为以任何顺序并且以任何重复程度实现如上所述的任何操作的电路。例如，编码器700可以被配置为重复执行单个步骤或序列，直到实现期望或命令的结果为止；使用先前重复的输出作为后续重复的输入，聚合重复的输入和/或输出以产生聚合结果，减少或递减诸如全局变量的一个或多个变量，和/或将较大处理任务划分成一组迭代解决的较小处理任务，可以迭代地和/或递归地执行步骤或步骤序列的重复。编码器700可以并行地执行如本公开中描述的任何步骤或步骤序列，诸如使用两个或更多个并行线程、处理器核等同时和/或基本上同时执行步骤两次或更多次；可以根据适合于在迭代之间划分任务的任何协议来执行并行线程和/或进程之间的任务划分。本领域技术人员在阅读本公开的全部内容时将意识到可以使用迭代、递归和/或并行处理来细分、共享或以其他方式处理步骤、步骤序列、处理任务和/或数据的各种方式。

继续参考图7，非暂时性计算机程序产品(即，物理地体现的计算机程序产品)可以存储指令，所述指令在由一个或多个计算系统的一个或多个数据处理器执行时使至少一个数据处理器执行本公开中描述的操作和/或其步骤，包括但不限于上述任何操作。类似地，还描述了计算机系统，其可以包括一个或多个数据处理器和耦合到一个或多个数据处理器的存储器。存储器可以临时或永久地存储使至少一个处理器执行本文描述的一个或多个操作的指令。另外，方法可以由单个计算系统内或分布在两个或更多个计算系统之间的一个或多个数据处理器实现。这样的计算系统可以被连接并且可以经由一个或多个连接(包括通过网络(例如，互联网、无线广域网、局域网、广域网、有线网络等)的连接)、经由多个计算系统中的一个或多个之间的直接连接等交换数据和/或命令或其他指令等。

应当注意，本文描述的方面和实施例中的任何一个或多个可以使用数字电子电路、集成电路、专门设计的专用集成电路(ASIC)现场可编程门阵列(FPGA)计算机硬件、固件、软件和/或其组合来方便地实现，如在根据本说明书的教导编程的一个或多个机器(例如，用作电子文档的用户计算设备的一个或多个计算设备、诸如文档服务器的一个或多个服务器设备等)中实现和/或实现的。这对于计算机领域的普通技术人员来说是显而易见的。这些各个方面或特征可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序和/或软件中的实施方式，该可编程系统包括至少一个可编程处理器，其可以是专用的或通用的，被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。

如对于软件领域的普通技术人员将显而易见的，熟练的程序员可以基于本公开的教导容易地准备适当的软件代码。上面讨论的采用软件和/或软件模块的方面和实现方式还可以包括用于辅助软件和/或软件模块的机器可执行指令的实施方式的适当硬件。

这样的软件可以是采用机器可读存储介质的计算机程序产品。机器可读存储介质可以是能够存储和/或编码用于由机器(例如，计算设备)执行的指令序列并且使机器执行本文描述的方法和/或实施例中的任何一个的任何介质。机器可读存储介质的示例包括但不限于磁盘、光盘(例如，CD、CD-R、DVD、DVD-R等)、磁光盘、只读存储器“ROM”设备、随机存取存储器“RAM”设备、磁卡、光卡、固态存储器设备、EPROM、EEPROM、可编程逻辑器件(PLDs)和/或其任何组合。如本文所使用的，机器可读介质旨在包括单个介质以及物理上分离的介质的集合，诸如例如与计算机存储器组合的压缩盘或一个或多个硬盘驱动器的集合。如本文所使用的，机器可读存储介质不包括瞬时形式的信号传输。

这样的软件还可以包括在诸如载波的数据载体上作为数据信号携带的信息(例如，数据)。例如，机器可执行信息可以被包括作为体现在数据载体中的数据承载信号，其中信号对用于由机器(例如，计算设备)执行的指令序列或其部分以及使机器执行本文描述的方法和/或实施例中的任何一个的任何相关信息(例如，数据结构和数据)进行编码。

计算设备的示例包括但不限于电子书阅读设备、计算机工作站、终端计算机、服务器计算机、手持设备(例如，平板计算机、智能电话等)、网络设备、网络路由器、网络交换机、网桥、能够执行指定该机器要采取的动作的指令序列的任何机器及其任何组合。在一个示例中，计算设备可以包括自助服务终端和/或被包括在自助服务终端中。

图8示出了计算机系统800的示例性形式的计算设备的一个实施例的图形表示，在该计算机系统800内可以执行用于使控制系统执行本公开的方面和/或方法中的任何一个或多个的指令集。还可以设想，可以利用多个计算设备来实现专门配置的指令集，用于使一个或多个设备执行本公开的方面和/或方法中的任何一个或多个。计算机系统800包括处理器804和存储器808，它们经由总线812彼此通信并且与其他部件通信。总线812可以包括使用各种总线架构中的任何一种的若干类型的总线结构中的任何一种，包括但不限于存储器总线、存储器控制器、外围总线、本地总线及其任何组合。

存储器808可以包括各种分量(例如，机器可读介质)，包括但不限于随机存取存储器分量、只读分量及其任何组合。在一个示例中，基本输入/输出系统816(BIOS)可以存储在存储器808中，基本输入/输出系统816(BIOS)包括有助于诸如在启动期间在计算机系统800内的元件之间传输信息的基本例程。存储器808还可以包括(例如，存储在一个或多个机器可读介质上)体现本公开的方面和/或方法中的任何一个或多个的指令(例如，软件)820。在另一示例中，存储器808还可以包括任何数量的程序模块，包括但不限于操作系统、一个或多个应用程序、其他程序模块、程序数据及其任何组合。

计算机系统800还可以包括存储设备824。存储设备(例如，存储设备824)的示例包括但不限于硬盘驱动器、磁盘驱动器、与光学介质组合的光盘驱动器、固态存储器设备及其任何组合。存储设备824可以通过适当的接口(未示出)连接到总线812。示例接口包括但不限于SCSI、高级技术附件(ATA)、串行ATA、通用串行总线(USB)、IEEE 1394(FIREWIRE)及其任何组合。在一个示例中，存储设备824(或其一个或多个分量)可以与计算机系统800可移除地接合(例如，经由外部端口连接器(未示出))。特别地，存储设备824和相关联的机器可读介质828可以为计算机系统800提供机器可读指令、数据结构、程序模块和/或其他数据的非易失性和/或易失性存储。在一个示例中，软件820可以完全或部分地驻留在机器可读介质828内。在另一示例中，软件820可以完全或部分地驻留在处理器804内。

计算机系统800还可以包括输入设备832。在一个示例中，计算机系统800的用户可以经由输入设备832将命令和/或其他信息输入到计算机系统800中。输入设备832的示例包括但不限于字母数字输入设备(例如，键盘)、指向设备、操纵杆、游戏手柄、音频输入设备(例如，麦克风、语音响应系统等)、光标控制设备(例如，鼠标)、触摸板、光学扫描仪、视频捕获设备(例如，静态相机、摄像机)、触摸屏及其任何组合。输入设备832可以经由各种接口(未示出)中的任何接口连接到总线812，包括但不限于串行接口、并行接口、游戏端口、USB接口、火线接口、到总线812的直接接口及其任何组合。输入设备832可以包括触摸屏接口，其可以是显示器836的一部分或与显示器836分离，下面进一步讨论。输入设备832可以用作用户选择设备，用于在如上所述的图形界面中选择一个或多个图形表示。

用户还可以经由存储设备824(例如，可移除磁盘驱动器、闪存驱动器等)和/或网络接口设备840向计算机系统800输入命令和/或其他信息。网络接口设备(诸如网络接口设备840)可以用于将计算机系统800连接到各种网络(诸如网络844)中的一个或多个以及与其连接的一个或多个远程设备848。网络接口设备的示例包括但不限于网络接口卡(例如，移动网络接口卡、LAN卡)、调制解调器及其任何组合。网络的示例包括但不限于广域网(例如，互联网、企业网络)、局域网(例如，与办公室、建筑物、校园或其他相对小的地理空间相关联的网络)、电话网络、与电话/语音提供商相关联的数据网络(例如，移动通信提供商数据和/或语音网络)、两个计算设备之间的直接连接及其任何组合。诸如网络844的网络可以采用有线和/或无线通信模式。通常，可以使用任何网络拓扑。信息(例如，数据、软件820等)可以经由网络接口设备840传送到计算机系统800和/或从计算机系统800传送。

计算机系统800还可以包括用于将可显示图像传送到显示设备(诸如显示设备836)的视频显示适配器852。显示设备的示例包括但不限于液晶显示器(LCD)、阴极射线管(CRT)、等离子显示器、发光二极管(LED)显示器及其任何组合。显示适配器852和显示设备836可以与处理器804组合使用，以提供本公开的各方面的图形表示。除了显示设备之外，计算机系统800可以包括一个或多个其他外围输出设备，包括但不限于音频扬声器、打印机及其任何组合。这样的外围输出设备可以经由外围接口856连接到总线812。外围接口的示例包括但不限于串行端口、USB连接、火线连接、并行连接及其任何组合。

应当注意，本文描述的任何一个或多个方面和实施例可以使用根据本说明书的教导编程的一个或多个机器(例如，用作电子文档的用户解码器和/或编码器的一个或多个解码器和/或编码器，诸如文档服务器的一个或多个服务器设备等)来方便地实现，这对于计算机领域的普通技术人员来说是显而易见的。基于本公开的教导，熟练的程序员可以容易地准备适当的软件编码。这对于软件领域的普通技术人员来说是显而易见的。上面讨论的采用软件和/或软件模块的方面和实现方式还可以包括用于辅助软件和/或软件模块的机器可执行指令的实施方式的适当硬件。

以上是本发明的说明性实施例的详细描述。在不脱离本发明的精神和范围的情况下，可以进行各种修改和添加。上述各种实施例中的每一个的特征可以适当地与其他描述的实施例的特征组合，以在相关联的新实施例中提供多种特征组合。此外，虽然前面描述了多个单独的实施例，但是本文描述的内容仅仅是对本发明原理的应用的说明。另外，尽管本文的特定方法可以被示出和/或描述为以特定顺序执行，但是顺序在普通技术范围内是高度可变的，以实现如本文所公开的实施例。

因此，该描述旨在仅作为示例，而不是以其他方式限制本发明的范围。

在以上描述和权利要求中，可以出现诸如“……中的至少一个”或“……中的一个或多个”的短语，随后是元件或特征的连接列表。术语“和/或”也可以出现在两个或更多个元件或特征的列表中。除非另外隐含地或明确地与使用它的上下文相矛盾，否则这样的短语旨在单独地表示所列出的元件或特征中的任一个，或者与任何其他所列举的元件或特征组合的任何所列举的元件或特征。例如，短语“A和B中的至少一个”、“A和B中的一个或多个”以及“A和/或B”各自旨在表示“单独A、单独B或A和B一起”。类似的解释也旨在用于包括三个或更多个项目的列表。例如，短语“A、B和C中的至少一个”、“A、B和C中的一个或多个”和“A、B和/或C”各自旨在表示“单独A、单独B、单独C、A和B一起、A和C一起、B和C一起或A和B和C一起”。另外，上文和权利要求中使用术语“基于”旨在表示“至少部分地基于”，使得未列举的特征或元素也是允许的。

根据期望的配置，本文描述的主题可以体现在系统、装置、方法和/或物品中。在前面的描述中阐述的实施方式不表示与本文描述的主题一致的所有实施方式。相反，它们仅仅是与所描述的主题相关的方面一致的一些示例。尽管上面已经详细描述了一些变型，但是其他修改或添加是可能的。特别地，除了本文阐述的那些之外，还可以提供另外的特征和/或变型。例如，上述实施方式可以针对所公开的特征的各种组合和子组合和/或上面公开的若干另外的特征的组合和子组合。另外，附图中描绘的和/或本文描述的逻辑流程不一定需要所示的特定顺序或相继顺序来实现期望的结果。其他实施方式可以在所附权利要求的范围内。

Claims

1.一种用于支持视频分量和特征分量的视频比特流的混合解码器，包括：

解复用器，所述解复用器接收比特流并将所接收的比特流解析为视频分量和特征分量；

视频解码器，所述视频解码器耦合到所述解复用器并接收所述比特流的所述视频分量；

特征解码器，所述特征解码器耦合到所述解复用器并接收所述比特流的所述特征分量，所述特征解码器还耦合到所述视频解码器并选择性地向所述视频解码器提供特征数据以便于视频解码；

耦合到所述特征解码器的机器模型；

所述混合解码器具有用于独立地解码所述比特流的所述视频分量和所述特征分量的第一解码模式和用于部分地使用所述比特流中的特征分量来解码所述比特流中的视频分量的第二解码模式。

2.根据权利要求1所述的混合解码器，其中，所述比特流中的所述视频分量包括通过对特征数据和输入视频数据之间的差异进行编码而获得的残差数据，并且其中，所述特征解码器在所述第二解码模式下向所述视频解码器提供特征数据。

3.根据权利要求1所述的混合解码器，其中所述解码模式由所述解码器基于所述比特流的属性来确定。

4.根据权利要求3所述的混合解码器，其中，所述混合比特流包括多个片段，每个片段包括多个分量，所述多个分量在其中定义所述特征分量和视频分量，包括混合尺寸分量，并且所述解码模式至少部分地由所述混合尺寸分量的特性确定。

5.根据权利要求4所述的混合解码器，其中，每个片段被单独解码，并且为每个片段确定所述解码模式。

6.一种用于具有特征分量和视频分量的经编码混合视频数据的比特流结构，所述比特流包括：

多个混合比特流片段，每个比特流片段包括多个分量，包括：

混合尺寸分量；

元数据分量；

特征报头；

特征有效载荷；

视频报头；以及

视频有效载荷。

7.一种用于生成混合比特流的混合编码器，包括：

预处理器，所述预处理器接收输入视频流并复用所述视频流以用于视频处理和特征处理；

视频编码器，所述视频编码器对所述视频内容进行压缩和编码以包括在所述比特流中供人类观看，

特征提取器，所述特征提取器耦合到机器模型，所述机器模型提供用于后续机器处理的特征提取的参数，所述特征提取器可操作地耦合到所述视频编码器并选择性地向所述视频解码器提供特征数据；

特征编码器，所述特征编码器从所述特征提取器接收特征数据，并对所述特征数据进行编码以包括在混合比特流中；以及

复用器，所述复用器耦合到所述视频编码器和所述特征编码器，并且从所述视频编码器和所述特征编码器生成混合比特流。

8.根据权利要求7所述的混合编码器，其中，所述编码器以至少第一编码模式和第二编码模式操作，所述第一编码模式用于独立地编码所述比特流的视频分量和特征分量，所述第二编码模式用于部分地使用来自所述特征编码器的特征分量来编码所述比特流中的所述视频分量。

9.根据权利要求8所述的混合编码器，其中，在所述第二编码模式中，所述视频编码器通过对特征数据和输入视频数据之间的差异进行编码来生成残差数据。

10.根据权利要求1所述的混合编码器，其中，所述混合比特流包括多个混合比特流片段，每个比特流片段包括多个分量，包括：

混合尺寸分量；

元数据分量；

特征报头；

特征有效载荷；

视频报头；以及

视频有效载荷。

11.根据权利要求7所述的混合编码器，还包括耦合到所述视频编码器和所述特征编码器的优化器，所述优化器还对所述视频和特征数据进行编码以包括在所述比特流中。