CN113301332A

CN113301332A - 视频解码方法、系统和介质

Info

Publication number: CN113301332A
Application number: CN202110386359.7A
Authority: CN
Inventors: 秦明海; 王佳; 陈平; 李思成; 方元炜; 陈彦光; 顾震宇; 谢文; 张洁靖; 王文特; 张经纬
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-08-24
Anticipated expiration: 2041-04-12
Also published as: CN113301332B

Abstract

本公开提供了一种视频解码方法、系统和介质。视频解码器从比特流获得捕捉视频的编码帧，但与常规解码器行为相反，仅从比特流输出帧的子集，作为基于几个图像数据缩减参数的下采样帧。此外，视频解码器通过来代替重构帧(或除了重构帧之外)输出在视频比特流中编码的运动预测信息，绕过解码路径。减少输出的图像数据可以减轻或消除在实现用于计算机视觉或机器视觉应用的学习模型的计算系统上运行的视频解码器处的多余计算工作负荷，因为计算工作负荷的性质不有助于学习任务的计算。因此，可以提高为计算机视觉或机器视觉应用配置的计算系统的计算效率。

Description

视频解码方法、系统和介质

技术领域

本公开涉及计算机视觉和机器视觉领域，具体涉及一种视频解码方法、系统和介质。

背景技术

计算机视觉和机器视觉技术，在诸如用于自动驾驶车辆的图像识别和对象识别、医学成像、面部识别、基于内容的图像搜索等多种领域中，都依赖于通过视频数据的捕捉来随时间观察对象和场景。然而，由摄像机和传感器等视频捕捉设备捕捉的原始图像的馈送包含许多帧密集的图像数据。

传统上，捕捉的图像数据不是以原始形式，而是以由根据诸如H.264/AVC(高级视频编码)标准、H.265/HEVC(高效视频编码)标准等的视频压缩算法编码的帧序列组成的压缩形式，来逐帧地存储或传输的。原始图像数据被编码以产生比特流，其中未压缩帧被基于先前帧预测运动的数据块替换。然后，对比特流进行解码以重构可显示的压缩图像数据。

然而，即使是压缩视频，通过机器学习技术处理也可能是计算量大的。当前的技术应用经常导致视频数据被大量捕捉，其中很多可能与计算机视觉和机器视觉计算无关。传统的机器学习模型，例如卷积神经网络，一般都是简单地逐帧分析视频数据，而不管任何给定的帧是否是计算应用感兴趣的。这样的行为通常不能在不实质上改变底层网络结构的情况下改变，从而也以不希望的方式改变它们的输出。

因此，需要以适应于广泛的朴素的、传统的机器学习模型的方式，改进基于视频的计算机视觉和基于机器学习的机器视觉的效率。

发明内容

本公开的一个目的是以适应于广泛的朴素的、传统的机器学习模型的方式，改进基于视频的计算机视觉和基于机器学习的机器视觉的效率。

根据本公开的一个方面，提供了一种视频解码方法，包括：

基于比特流的编码帧的运动幅度，确定所述比特流的解码频率参数；

基于所述解码频率参数和所述比特流的图片组(GOP)构成，确定帧排除规则；以及

根据所述帧排除规则，基于所述编码帧产生重构帧或从解码中排除所述编码帧。

可选地，所述运动幅度是基于从所述编码帧中提取的运动信息来确定的。

可选地，所述运动幅度包括所述编码帧的运动预测信息的运动向量的幅度。

可选地，该方法还包括：将所提取的运动信息输出到学习模型。

可选地，所述解码频率参数对于越强的运动幅度越频繁，对于越不强的运动幅度越不频繁。

可选地，所述帧排除规则包括从解码中排除所述比特流的B帧，并且包括从解码中排除所述比特流的P帧。

可选地，该方法还包括：在所产生的重构帧被YUV颜色编码时对所述重构帧进行下采样。

根据本公开的一个方面，还提供了一种视频解码系统，包括：

一个或多个处理器；以及

存储器，所述存储器通信地耦合到所述一个或多个处理器，所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块，所述计算机可执行模块在由所述一个或多个处理器执行时执行相关联的操作，所述计算机可执行模块包括：

比特流解析模块，被配置为基于比特流的编码帧的运动幅度来确定所述比特流的解码频率参数，并且基于所述解码频率参数和所述比特流的图片组(GOP)构成来确定帧排除规则；而且

选择解码模块，其被配置为根据帧排除规则，基于所述编码帧产生重构帧或从解码中排除所述编码帧。

可选地，该系统还包括运动信息分析模块，所述运动信息分析模块被配置为基于从所述编码帧提取的运动信息来确定所述运动幅度。

可选地，所述运动信息分析模块还被配置为将所提取的运动信息输出到学习模型。

可选地，所述解码频率参数对于越强的运动幅度越频繁，而对于越不强的运动幅度更不频繁。

可选地，该系统还包括下采样模块，所述下采样模块被配置为在所产生的重构帧被YUV颜色编码时对所述重构帧进行下采样。

根据本公开的一方面，还提供了一种计算机可读存储介质，其存储可由一个或多个处理器执行的计算机可读指令，所述计算机可读指令当由所述一个或多个处理器执行时，使所述一个或多个处理器执行包括以下的操作：

可选地，所述解码频率参数对于越强的运动幅度越频繁，而对于越不强的运动幅度越不频繁。

可选地，所述操作还包括在所生成的重构帧被YUV颜色编码时对所述重构帧进行下采样。

本公开实施例基于比特流的编码帧的运动幅度，确定所述比特流的解码频率参数，基于所述解码频率参数和所述比特流的图片组(GOP)构成，确定帧排除规则，并根据所述帧排除规则，基于所述编码帧产生重构帧或从解码中排除所述编码帧，从而以适应于广泛的朴素的、传统的机器学习模型的方式，改进了基于视频的计算机视觉和基于机器学习的机器视觉的效率。

附图说明

参考附图阐述详细描述。在图中，标号的最左边的数字标识该标号首次出现的图。在不同的图中使用相同的标号表示相似或相同的项目或特征。

图1A和1B示出了根据本公开的示例性实施例的视频解码器的示例性框图。

图1C示出了来自视频比特流的GOP的典型构成。

图2示出了根据本公开的示例性实施例的安装学习模型的学习系统200的体系结构图。

图3示出了根据本公开的示例性实施例的解码路径的流程图。

图4A和4B示出了根据本公开的示例性实施例的被配置为计算学习任务的系统的系统架构。

图5示出了用于实现在此描述的用于实现输出减少的图像数据的视频解码器的过程和方法的示例系统。

具体实施方式

本文所讨论的系统和方法旨在实现输出减少的图像数据的视频解码器，更具体地，通过视频解码器实现选择性帧输出和下采样，以及通过视频解码器实现运动预测信息的输出。

根据本公开的示例性实施例，学习模型可以是可由计算系统的一个或多个处理器执行以执行学习任务的定义的计算算法，所述学习任务包括处理具有各种参数的输入并输出结果。例如，学习模型可以是诸如深度神经网络的分层模型，其可以具有完全连接的结构，可以具有诸如卷积神经网络(CNN)的前馈结构，可以具有诸如递归神经网络(RNN)的反向传播结构，或者可以具有适合于特定学习任务的计算的其他架构。学习任务可以包括，例如，分类、聚类、匹配、回归、语义分割等。

学习任务可为支持计算机视觉的功能或机器视觉功能的执行提供输出，这些功能例如:识别图像和/或视频中的对象和/或边界；视频中对象运动的实时跟踪；将图像和/或视频中的识别出的对象与其他图像和/或视频匹配；实时提供图像、视频和/或音频的注释或转录；等等。

云计算系统可以提供安装计算资源的服务器的集合，以提供分布式计算、并行计算、物理或虚拟计算资源的改进的可用性等益处。云计算系统可以安装学习模型以为使用学习模型进行计算的应用提供这些益处。

通常，在应用计算机视觉或机器视觉的领域中，学习模型可以被预先训练以提供现成的参数和权重，所述现成的参数和权重可以存储在云计算系统的存储器上，并且在执行时加载到云计算系统的存储器中。例如，关于学习任务的计算，通常可用的预训练图像分类器学习模型包括ResNet、VGGNet、Inception、Xception等。

例如，可以如下实现用于计算机视觉或机器视觉的多种学习模型的体系结构。学习模型可以包括卷积层的堆栈，第一层接收图像数据的样本作为输入。然后可以通过学习模型的附加层对图像数据的样本进行卷积和解卷积。传统地，将图像数据的样本输入到学习模型的第一层中，在学习模型的一些层处从原始分辨率向下采样到较低分辨率；下采样到低于原始分辨率可使学习模型的某些层检测图像数据的粗尺度特征并对其执行操作，所述粗尺度特征例如在图像中捕捉的整个对象或图像中对象之间的关系。

根据计算机视觉或机器视觉的一些应用，学习模型还可以检测图像数据的精细尺度特征，并对其执行操作，这些精细尺度特征只能在较高分辨率下被识别。然而，并不是所有计算机视觉或机器视觉的此类应用都需要如此精细尺度的特征。在学习模型仅需要粗略尺度的特征来计算学习任务的情况下，图像数据从较高分辨率到较低分辨率的下采样可能导致对于计算学习任务是多余的计算负荷。

此外，常规地，对解码器输出的压缩的单个帧执行下采样。然而，在解码器压缩编码视频以输出这些单独静止帧的过程中，存储在编码视频比特流中的运动信息丢失。根据计算机视觉或机器视觉的一些应用，与在图像数据中捕捉的对象随时间的运动有关的信息可能比在每个单独静止帧上捕捉的信息与计算更相关。因此，学习模型可能需要在一系列单独帧上重构对象的运动；如果可以直接获得存储在编码视频比特流中的运动信息，则这可能又导致对于计算学习任务来说是多余的计算负荷。

为计算机视觉或机器视觉应用配置的计算系统不仅可以执行由学习模型生成的计算工作负荷，而且可以执行由对从一个或多个视频捕捉设备馈送的捕捉视频进行编码的视频编码回路生成的计算工作负荷。(如下文所述，这些不同的计算工作负荷可由不同类别的处理器执行，使得不同的工作负荷可同时执行。)捕捉的视频可以由视频编码回路编码，使得由视频编码回路输出的每个帧被输入到学习模型中，用于进一步计算各种学习任务。

在实践中，在实现这种计算系统用于现实生活应用的过程中，由视频编码回路生成的计算工作负荷可能会使计算性能与由学习模型生成的计算工作负荷相比成为瓶颈。对于接收可以实时捕捉的大量视频数据的计算系统来说尤其如此。此外，在计算机视觉或机器视觉的实时应用的情况下，这种瓶颈可能会加剧，在这种实时应用中，学习模型可能需要在短时间范围内计算结果，以便在响应于实时事件的基础上提供计算机视觉或机器视觉功能。

即使在计算机视觉或机器视觉的实时应用的情况下，对海量视频数据进行编码所引起的计算工作负荷和瓶颈对于计算学习任务可能是多余的。在实践中，当捕捉大量视频数据时，这些数据中的大部分可能在语义内容中是多余的，特别是在某些实时应用中；例如，设置在诸如非繁忙街道、非经常光顾的室内空间等公共空间中的摄像机可以在长时间内完全捕捉不到运动。因此，对不包含运动的大量视频数据进行编码，对于学习模型计算学习任务贡献很少语义信息。

在上述所有示例中，生成的计算工作负荷对学习任务的计算没有贡献。因此，这种多余的计算工作负荷的减轻或消除可以提高为计算机视觉或机器视觉应用配置的计算系统的计算效率。

因此，本公开的示例性实施例提供了一种输出减少的图像数据的视频解码器。视频解码器可以从比特流获得捕捉视频的编码帧，但是，与常规解码器行为相反，基于几个图像数据缩减参数，从比特流仅输出帧的子集作为下采样帧(而不是解码每个编码帧并以原始分辨率输出那些帧)，如下文所述。此外，视频解码器可以通过代替重构帧(或者除了重构帧之外还)输出在视频比特流中编码的运动预测信息而完全绕过解码路径。在任一情况下，视频解码器的输出(不同类型的输出随后被统称为“减少的图像数据输出”)可以被输入到如上所述的学习模型中。为了理解本公开的示例性实施例的目的，应当理解，诸如如上所述的分层模型的学习模型可以具有第一层，该第一层具有至少第一输入通道，该第一输入通道适于接收重构帧和其中的图像数据作为输入，该第一层可选地具有第二输入通道，所述第二输入通道适于接收运动信息而不是重构帧作为输入；两个输入通道可以同时接收输入。这种学习模型的结构无需进一步详细描述。

在视频解码过程中，从诸如比特流102的源获得编码帧。可将编码帧104输入到视频解码器106中。在对编码帧104执行各种操作之后，视频解码器106可以输出重构帧108，对编码帧104执行各种操作将在下面描述。根据本公开的示例性实施例，重构的帧108可以被输入到如上所述的学习模型110，其不进一步详细描述。

可替换地，视频解码器106在对编码帧104执行如将在随后描述的各种操作之后，可以以代替重构帧(或除了重构帧之外还)输出编码帧104的运动信息，绕过解码路径。运动信息可以被输入到如上所述的学习模型110，其不进一步详细描述。视频解码器106可以在运动输出模式下操作，其中视频解码器106可以代替重构帧(或者除了重构帧之外)输出运动信息，并且可以在非运动输出模式下操作，其中视频解码器106不代替重构帧或者除了重构帧之外输出运动信息。在如下所述的解码路径期间，视频解码器106可随时在至少这两种模式之间切换。

此外，用户前端114可以接收来自计算系统的操作员的输入(如下文所述)。用户前端114可以以一个或多个图像数据缩减参数的格式将输入传递给视频解码器106。图像数据缩减参数可导致对编码帧104执行的操作改变，从而导致将在随后描述的不同操作。

视频解码器106的其它部件包括：图片组(GOP)分析模块116、比特流解析模块118、选择性解码模块120、下采样模块122、颜色转换模块124、运动信息提取模块126、运动信息分析模块128、解码频率参数化模块130和运动信息参数化模块132。随后将描述视频解码器106和上述模块中的每个模块。

根据本公开的示例性实施例，视频解码器106可实现运动预测编码格式，所述运动预测编码格式参考这样的数据格式，其中帧通过包含对一个或多个其他帧的运动信息和预测单元的一个或多个引用而用帧的运动向量信息和预测信息编码。运动信息可指代描述帧或其单元或子单元的块结构的运动的数据，诸如运动向量和对当前帧或另一帧的块的引用。运动预测编码格式可以包括H.264/avc(高级视频编码)标准、H.265/HEVE(高效视频编码)标准等。

通常，视频解码器可以根据帧间编码的运动预测信息，基于先前的重构帧(参考帧)来生成重构帧。因此，运动预测信息通常使用运动向量描述视频内的帧到帧运动。在将运动预测信息应用于参考帧时，在随后生成的重构帧中不保留运动预测信息。

根据本公开的示例实施例的视频解码器106的模块中的每一个实现视频解码器106的功能中的与常规视频解码器相比的一个或多个差异。这些功能性差异包括输出编码帧的子集作为重构帧；对重构帧进行下采样；以及绕过解码路径，代替重构帧(或除了重构帧之外还)输出编码帧的运动信息。

输入到视频解码器106的编码帧104可由GOP分析模块116、比特流解析模块118和运动信息提取模块126中的一个或多个接收和处理。

GOP分析模块116可以确定比特流102的GOP组成。本领域技术人员通常会理解，比特流的GOP由被称为I帧、P帧和B帧的编码帧组成。I帧是比特流的帧间编码图片，包含一帧的完整图像数据集；P帧是预测图片，其中，参考由运动预测信息(包括运动向量)编码的相同GOP的前一帧来描述图像数据；和B帧是双向预测图片，其中图像数据参照由运动预测信息编码的前一帧和后一帧来描述。

图1C示出了来自视频比特流的GOP的典型组成。所示的每一个细长行代表单个GOP的集合帧，其中I帧没有阴影；P帧带阴影；和B帧交叉阴影。在此，所捕捉的视频应理解为每秒包括60帧，在大多数GOP中为120帧。I帧在比特流GOP中相对较少，而P帧和B帧的频率要高得多。P帧和B帧可以以相对于彼此的各种频率出现；例如，在某些视频比特流中，大约每三个帧中的两个可以是B帧，剩余的编码帧是P帧。这样的信息可以描述GOP组成。

GOP分析模块116可以将比特流102的GOP构成转发到比特流解析模块118。

根据本公开的示例性实施例，运动信息提取模块126可以从编码帧104提取运动信息。如上所述，运动信息可以包括存储在每个编码帧中的图像数据，以及存储在每个编码帧中的运动预测数据。

运动信息提取模块126可以将编码帧104的运动信息转发到运动信息分析模块128。

根据本公开的示例性实施例，运动信息分析模块128可以确定从编码帧104提取的运动信息中的运动幅度。这样的运动幅度可以从例如运动向量的幅度来确定。越大的运动幅度指示在编码帧104中编码了越强的运动；运动幅度越小表示运动强度越小。

运动信息分析模块128可以将运动幅度分类为从最密集到最不密集的若干运动幅度范围之一。

运动信息分析模块128可以将编码帧104的运动幅度分析结果转发到比特流解析模块118。结果可以包括运动幅度、运动幅度范围等。

可替换地和/或附加地，运动信息参数化模块132可基于从用户前端114接收的输入在任何时间设置运动幅度。这种基于输入的运动幅度可以被转发到比特流解析模块118，根据计算系统的操作者的判断来覆盖确定的运动幅度。例如，操作者可以查看正在捕捉的视频的实况馈送，并且手动确定运动幅度的范围，然后在用户前端114处输入适当的参数。

可替换地和/或附加地，运动信息分析模块128可以从学习模型110接收运动幅度反馈信息。根据本公开的示例性实施例的学习模型110可被配置为，在基于某些数目的输入重构帧计算如上所述的学习任务时，确定重构帧上的运动幅度(即，不受益于运动信息，而是通过按顺序彼此比较帧)，并在比特流解析模块118处将这种运动幅度结果输入回视频解码器106。然后，来自学习模型110的运动幅度结果可以覆盖由运动信息参数化模块132确定的运动幅度。

另外，运动信息分析模块128可以将从视频解码器106提取的运动信息输出到学习模型110。根据本公开的示例性实施例，学习模型110可以被配置为在多个模式中的一个中计算学习任务，所述多个模式包括基于运动的模式和非基于运动的模式，在基于运动的模式中，学习模型110将运动信息作为除重构帧之外的输入，在非基于运动的模式中，学习模型110仅将重构帧作为输入。学习模型110可以被配置为除了重构帧中包含的图像数据之外，还使用运动信息(当被作为输入时)来计算如上所述的学习任务。例如，基于运动信息，学习模型110可以确定某些重构帧不包含实质性语义运动信息，并且因此绕过那些重构帧的学习任务的计算以减少计算工作量。学习模型110可随时在至少这两种模式之间切换。

根据本公开的示例性实施例，比特流解析模块118可基于编码帧104的运动幅度分析结果来确定比特流的解码频率参数。解码频率参数可以是根据本公开的示例性实施例的图像数据缩减参数。解码频率参数可以指定选择解码模块120应该从编码帧生成重构帧的间隔，其中所有剩余的编码帧被排除在该解码路径之外。

在给定越强的运动幅度或越强的运动幅度范围的情况下，比特流解析模块118可以将解码频率参数设置得越高。在给定越弱的运动幅度或越弱的运动幅度范围的情况下，比特流解析模块118可以将解码频率参数设置得越低。

例如，对于小的运动幅度，解码频率参数可以设置为每秒8帧。因此，在给定视频比特流中每秒60个编码帧的情况下，每秒52个帧将从解码路径中排除。

当视频编码回路通过视频比特流时，由运动幅度分析模块128确定的运动幅度分析结果可以变化。因此，比特流解析模块118可以连续地更新比特流的解码频率参数。

可替换地和/或附加地，解码频率参数化模块130可基于从用户前端114接收的输入在任何时间设置解码频率参数。这种基于输入的解码频率参数可以根据计算系统的操作者的判断来覆盖所确定的解码频率参数。

比特流解析模块118还可以基于解码频率参数和比特流102的GOP构成来确定帧排除规则。根据本公开的示例性实施例，帧排除规则可以是图像数据缩减参数。帧排除规则可以确定选择解码模块120应该大约根据由解码频率参数指定的解码频率，从解码路径中排除GOP的哪些编码帧。

例如，在给定每三个帧中大约有两个是B帧的GOP构成，以及每秒8帧的解码频率参数的情况下，帧排除规则可将所有B排除在解码路径之外；否则，在假定每60帧中大约有40帧是B帧的情况下，如果以任何频率解码B帧，每秒8帧的解码频率将是不可能的。帧排除规则然后可以从解码路径中排除每隔一个的P帧，从而从剩余的20帧中排除大约10帧；因此，60帧中大约有10帧要被解码，这大约满足每秒8帧的解码频率参数。或者，帧排除规则然后可以从解码路径中排除每个p帧，从而从剩余的10个帧中排除大约9个帧，因为平均而言，大约一个I帧将保留下来。因此，大约60帧中的1个帧要被解码，它满足每秒8帧的解码频率参数，而不超过它。

比特流解析模块118可将帧排除规则和编码帧104转发到选择性解码模块120。

选择性解码模块120可将帧排除规则应用于每个编码帧104。根据帧排除规则，选择性解码模块120可基于编码帧生成重构帧或可排除编码帧。排除的编码帧被忽略，并且视频解码器106不对排除的编码帧采取进一步的动作。

对于被解码的每个编码帧，选择性解码模块将重构帧转发给下采样模块122。

传统地，用颜色的YUV编码生成重构帧--即，重构帧包含亮度(luma)和色度(chroma)分量--但在输出之前被转换为不同的颜色编码表示，最常见的是RGB。然而，根据本公开的示例性实施例，下采样模块122在YUV颜色编码的同时对重构帧下采样。

当分离重构帧的亮度分量和色度分量时，下采样模块可以单独地对任一类别的分量(例如色度分量)进行下采样。因此，具有YUV编码的重构帧可以比具有另一种颜色编码(例如RGB)的重构帧更容易地被下采样，其中帧将由纯像素数据组成，并且因此经受更多计算密集的下采样算法。

下采样模块122将下采样的重构帧转发到颜色转换模块124。

颜色转换模块124将经下采样的重构帧从YUV编码转换为另一种颜色编码，例如RGB。

颜色转换模块124将来自视频解码器106的经颜色转换的重构帧输出到学习模型110。

因此，根据以上在解码路径中描述的操作，视频解码器106向学习模型110在提供运动信息性质的减少的数据的同时，和/或除了提供运动信息性质的减少的数据，还提供基于来自比特流的编码帧的子集的重构的、下采样帧性质的减少的图像数据。以这种方式，通过根据本公开的示例性实施例的视频解码器的操作，可以显著减少由常规视频解码器执行的多余计算工作负荷。因此，由视频解码器执行的计算工作负荷可以不再是相对于由学习模型生成的计算工作负荷的计算性能的瓶颈。

图2示出了根据本公开的示例性实施例的按照学习模型的学习系统200的体系结构图。如上所述,根据本公开的示例实施例,云计算系统可操作以提供服务器主机功能,用于安装由诸如安装学习模型的数据中心的计算主机支持的计算资源。因此，该图示出了如上所述的计算设备的一些可能的架构实施例。

学习系统200可以在通过物理或虚拟网络连接而连接的物理或虚拟服务器节点204(1)、204(2)、…、204(N)(其中任何未指定的服务器节点可被称为服务器节点204)的网络202上实现。此外，网络202终止于位于网络202的物理和/或逻辑边缘处的物理或虚拟边缘节点206(1)、206(2)、…、206(N)(其中任何未指定的边缘节点可被称为边缘节点206)。边缘节点206(1)至206(N)可以连接到任何数量的终端设备208(1)、208(2)、...，208(N)(其中任何未指定的终端设备可以被称为终端设备208)。

在计算主机上实现的学习模型210和视频解码器212可以接收通过在终端设备208上运行的用户前端114的输入，如本公开的示例实施例中所述。学习模型210和视频解码器212可以存储在计算主机214的物理或虚拟存储器(计算主机存储器216)上，并且可以加载到计算主机214的物理或虚拟存储器(计算主机存储器218)中，以便计算主机214的一个或多个物理或虚拟处理器(计算主机处理器220)使用学习模型210执行计算以计算本文所述的学习任务。计算学习任务的计算主机处理器220可以是便于矩阵算术计算任务的计算的专用计算设备。例如，计算主机处理器220可以是如上所述的一个或多个专用处理器204，包括诸如神经网络处理单元(NPU)、图形处理单元(GPU)、张量处理单元(TPU)等的加速器。相反，计算视频解码器212的解码器路径的计算主机处理器220可以是通用计算设备，诸如中央处理单元(CPU)。

根据本公开的示例性实施例,如上所述的视频解码器的不同模块可以由计算主机处理器220的不同处理器执行,或者可以由计算主机处理器220的相同处理器在不同核或不同线程上执行,并且每个模块可以相对于彼此模块并发地执行计算。

图3示出了根据本公开的示例性实施例的解码路径300的流程图。

在步骤302，从视频比特流获得编码帧。

在步骤304，确定比特流的GOP构成。

在步骤306，从编码帧中提取运动信息。

在步骤308，确定从编码帧提取的运动信息中的运动幅度。

在步骤310，可选地，由来自运动信息参数化模块的运动幅度或由来自学习模型的运动幅度覆盖所确定的运动幅度。

在步骤312，可选地，运动信息被输出到学习模型。解码路径可以在此结束，这取决于是否输出运动信息来代替重构帧。

在步骤314，基于确定的运动幅度，确定比特流的解码频率参数。

在步骤316，可选地，解码频率参数由来自解码频率参数化模块的解码频率参数覆盖。

在步骤318，基于解码频率参数和比特流的GOP构成，确定帧排除规则。

在步骤320，根据帧排除规则，或者基于编码帧生成重构帧，或者从解码中排除编码帧。

在步骤322，在YUV颜色编码的同时对重构的帧进行下采样。

在步骤324，从YUV颜色编码转换下采样的重构帧。

在步骤326，将经颜色转换的重构帧输出到学习模型。

图4A和4B示出了根据本公开的示例性实施例的被配置为计算学习任务的系统400的系统架构。

根据本公开的示例性实施例的系统400可包括一个或多个通用处理器402和一个或多个专用处理器404。通用处理器402和专用处理器404可以是物理的，或者可以是虚拟化的和/或分布式的。通用处理器402和专用处理器404可执行存储在计算机可读存储介质上的一个或多个指令,如下所述,以使通用处理器402或专用处理器404执行各种功能。专用处理器404可以是具有有助于如上所述的学习任务的计算的硬件或软件元件的计算设备。例如，专用处理器404可以是加速器，诸如神经网络处理单元(NPU)、图形处理单元(GPU)、张量处理单元(TPU)、使用现场可编程门阵列(FPGA)和专用集成电路(ASIC)的实现等。为了便于诸如矩阵乘法之类的任务的计算，专用处理器404例如可以实现可操作以计算诸如矩阵运算和向量运算之类的数学运算的引擎。

系统400还可以包括系统存储器406，系统存储器406通过系统总线408通信地耦合到通用处理器402和专用处理器404。系统存储器406可以是物理的，或者可以是虚拟化的和/或分布式的。取决于系统400的确切配置和类型,系统存储器406可以是易失性的(例如RAM)、非易失性的(例如ROM)、闪存、微型硬盘驱动器、存储卡等,或者它们的某种组合。

系统总线408可以在通用处理器402和系统存储器406之间、在专用处理器404和系统存储器406之间、以及在通用处理器402和专用处理器404之间传输数据。此外，数据总线410可以在通用处理器402和专用处理器404之间传输数据。数据总线410例如可以是外围组件互连快速(PCIe)连接、相干加速器处理器接口(CAPI)连接等。

图4B示出了包括任何数量的核412的专用处理器404的示例。专用处理器404的处理能力可以在核412之间分配。每个核412可以包括本地存储器414，本地存储器414可以包含预先初始化的数据(例如模型参数)，或者数据结构(例如用于批归一化或量化的常数缓冲器)，以用于执行专用计算。每个核412还可被配置为执行在核412的本地存储器418上预初始化的一组或多组计算机可执行加速引擎模块416，这些模块中的每个可由核412执行，包括由多个核412并行执行，以执行或加速例如算术运算(诸如矩阵乘法或矩阵转置)、函数运算或特殊定义的运算。每个核412可进一步包括指令定序器420，其接收并排序从指令缓冲器422接收的指令。一些核412(例如四个)可以通过数据总线424(例如单向环形总线)通信。控制每个核412的操作的软件驱动器可以控制核412并且通过命令处理器接口426发送可执行命令来同步它们的操作。

数据集可以通过系统总线408或数据总线410传输到专用处理器404，其中学习模型的训练和通过学习模型的学习任务的计算可以由专用处理器404对如本文所述的数据序列本文所述的输出分段执行。

图5示出了用于实现上面描述的用于实现视频解码器输出减少的图像数据的过程和方法的示例系统500。

这里描述的技术和机制可以通过系统500的多个实例以及任何其他计算设备、系统和/或环境来实现。系统500可以是由多个物理联网的计算机或web服务器、物理或虚拟集群、计算云、或本领域技术人员已知的提供物理或虚拟计算资源的其他联网计算架构组成的分布式系统。其示例包括如以上参考图2所述的学习系统。图5所示的系统500仅是系统的一个示例，并不旨在暗示对用于执行上述处理和/或过程的任何计算设备的使用范围或功能的任何限制。可适合于与实施例一起使用的其它公知的计算设备、系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、游戏机、可编程消费电子产品、网络PC、小型机、大型计算机、包括上述系统或设备中的任何一个的分布式计算环境、使用现场可编程门阵列(FPGA)和专用集成电路(ASIC)的实现等。

系统500可以包括一个或多个处理器502和通信地耦合到处理器502的系统存储器504。处理器502和系统存储器504可以是物理的，或者可以是虚拟化的和/或分布式的。处理器502可执行一个或多个模块和/或过程以使处理器502执行各种功能。在实施例中，处理器502可包括CPU、GPU、NPU、TPU、其任何组合、或本领域已知的其他处理单元或组件。另外，处理器502中的每一个可以拥有其自己的本地存储器，其还可以存储程序模块、程序数据和/或一个或多个操作系统。

取决于系统500的确切配置和类型,系统存储器504可以是易失性的(例如RAM)、非易失性的(例如ROM)、闪存、微型硬盘驱动器、存储卡等,或者它们的某种组合。系统存储器504可包括可由处理器502执行的一个或多个计算机可执行模块506。

模块506可以包括但不限于，GOP分析模块508、比特流解析模块510、选择性解码模块512、下采样模块514、颜色转换模块516、运动信息提取模块518、运动信息分析模块520、解码频率参数化模块522和运动信息参数化模块524。

GOP分析模块508可以被配置为确定比特流的GOP构成，如上面参考图1A和图1B所描述的。

比特流解析模块510可以被配置为确定解码频率参数和帧排除规则，如以上参考图1A和图1B所描述的。

选择性解码模块512可以被配置为根据帧排除规则，基于编码帧生成重构帧，或者将编码帧排除在解码之外，如以上参考图1A-1B所述。

下采样模块514可被配置为在如以上参考图1A-1B所述的YUV颜色编码的同时对重构帧进行下采样。

颜色转换模块516可以被配置为从YUV颜色编码转换下采样的重构帧，如上面参考图1A和图1B所描述的。

运动信息提取模块518可以被配置为从编码帧中提取运动信息，如以上参考图1A和图1B所述的。

运动信息分析模块520可以被配置为确定运动幅度，如以上参考图1A和图1B所描述的。

解码频率参数化模块522可以被配置为覆盖所确定的解码频率参数，如上面参考图1A-1B所描述的。

运动信息参数化模块524可以被配置为覆盖确定的运动幅度，如上面参考图1A和图1B所描述的。

系统500还可以包括输入/输出(I/O)接口540和通信模块550，该通信模块550允许系统500通过网络与其他系统和设备通信。网络可以包括因特网、诸如有线网络或直接有线连接的有线媒体、以及诸如声学、射频(RF)、红外和其它无线媒体的无线媒体。

可以通过执行存储在计算机可读存储介质上的计算机可读指令来执行上述方法的一些或所有操作，如下所定义的。在说明书和权利要求书中使用的术语“计算机可读指令”包括例程、应用、应用模块、程序模块、程序、组件、数据结构、算法等。计算机可读指令可以在各种系统配置上实现，包括单处理器或多处理器系统、小型机、大型计算机、个人计算机、手持计算设备、基于微处理器的可编程消费电子产品、其组合等。

计算机可读存储介质可以包括易失性存储器(诸如随机存取存储器(RAM))和/或非易失性存储器(诸如只读存储器(ROM)、闪存等)。计算机可读存储介质还可以包括额外的可移动存储器和/或不可移动存储器，所述可移动存储器和/或不可移动存储器包括但不限于闪存、磁存储、光存储和/或磁带存储，所述可移动存储器和/或不可移动存储器可以提供计算机可读指令、数据结构、程序模块等的非易失性存储。

非瞬态计算机可读存储介质是计算机可读介质的示例。计算机可读介质包括至少两种类型的计算机可读介质，即计算机可读存储介质和通信介质。计算机可读存储介质包括在用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何过程或技术中实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质包括，但不限于相变存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其它存储器技术、致密盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其它光存储器、盒式磁带、磁带、磁盘存储器或其它磁存储设备、或可用于存储供计算设备访问的信息的任何其它非传输介质。相反，通信介质可以在诸如载波的调制数据信号或其它传输机制中体现计算机可读指令、数据结构、程序模块或其它数据。如本文所定义，计算机可读存储介质不包括通信介质。

存储在一个或多个非暂时性计算机可读存储介质上的计算机可读指令，当由一个或多个处理器执行时，可执行以上参考图1-4所述的操作。通常，计算机可读指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的顺序不打算被解释为限制，并且可以以任何顺序和/或并行地组合任何数量的所描述的操作以实现所述过程。

通过上述技术方案，本公开提供了实现视频解码器输出减少的图像数据的系统和方法。视频解码器可从比特流获得捕捉视频的编码帧，但是与常规解码器行为相反，仅基于若干图像数据缩减参数，从比特流输出帧的子集作为下采样帧。此外，视频解码器可以通过代替重构帧(或除了重构帧之外)输出在视频比特流中编码的运动预测信息，完全绕过解码路径。减少输出图像数据可以减轻或消除在实现用于计算机视觉或机器视觉应用的学习模型的计算系统上运行的视频解码器处的多余计算工作负荷，因为计算工作负荷的性质不有助于学习任务的计算。因此，可以提高为计算机视觉或机器视觉应用配置的计算系统的计算效率。

子句示例

A.一种方法，包括：基于比特流的编码帧的运动幅度，确定所述比特流的解码频率参数；基于所述解码频率参数和所述比特流的图片组(GOP)构成，确定帧排除规则；以及根据所述帧排除规则，基于所述编码帧产生重构帧，或从解码中排除所述编码帧。

B.如段落A所述的方法，其中，所述运动幅度是基于从所述编码帧中提取的运动信息来确定的。

C.如段落B所述的方法，其中，所述运动幅度包括所述编码帧的运动预测信息的运动向量的幅度。

D.如段落B所述的方法，还包括：将所提取的运动信息输出到学习模型。

E.如段落A所述的方法，其中，所述解码频率参数对于越强的运动幅度越频繁，而对于越不强的运动幅度越不频繁。

F.如段落A所述的方法，其中，所述帧排除规则包括从解码中排除所述比特流的B帧，并且包括从解码中排除所述比特流的P帧。

G.如段落A所述的方法，还包括：在所产生的重构帧被YUV颜色编码的同时，对所述重构帧进行下采样。

H.一种系统，包括：一个或多个处理器；以及通信地耦合到所述一个或多个处理器的存储器，所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块，当所述计算机可执行模块由所述一个或多个处理器执行时，所述计算机可执行模块执行相关联的操作，所述计算机可执行模块包括：比特流解析模块，所述比特流解析模块被配置为基于比特流的编码帧的运动幅度来确定所述比特流的解码频率参数，并且基于所述解码频率参数和所述比特流的图片组(GOP)构成来确定帧排除规则；以及选择性解码模块，被配置为根据帧排除规则，基于所述编码帧生成重构帧，或者从解码中排除所述编码帧。

I.如段落H所述的系统，还包括：运动信息分析模块，所述运动信息分析模块被配置为基于从所述编码帧提取的运动信息来确定所述运动幅度。

J.如段落I所述的系统，其中，所述运动幅度包括所述编码帧的运动预测信息的运动向量的幅度。

K.如段落I所述的系统，其中，所述运动信息分析模块还被配置为将所提取的运动信息输出到学习模型。

L.如段落H所述的系统，其中，所述解码频率参数对于越强的运动幅度越频繁，而对于越不强的运动幅度越不频繁。

M.如段落H所述的系统，其中，所述帧排除规则包括从解码中排除所述比特流的B帧，并且包括从解码中排除所述比特流的P帧。

N.段落H所述的系统，还包括:下采样模块，所述下采样模块被配置为在所生成的重构帧被YUV颜色编码的同时，对产生的重构帧进行下采样。

O.一种计算机可读存储介质，其存储可由一个或多个处理器执行的计算机可读指令，所述计算机可读指令当由所述一个或多个处理器执行时，使所述一个或多个处理器执行包括以下的操作：基于比特流的编码帧的运动幅度，确定所述比特流的解码频率参数；基于所述解码频率参数和所述比特流的图片组(GOP)构成，确定帧排除规则；以及根据所述帧排除规则，基于所述编码帧产生重构帧，或从解码中排除所述编码帧。

P.如段落O所述的计算机可读存储介质，其中，基于从编码帧提取的运动信息来确定所述运动幅度。

Q.如段落P所述的计算机可读存储介质，其中，所述运动幅度包括所述编码帧的运动预测信息的运动向量的幅度。

R.如段落P所述的计算机可读存储介质，进一步包括：将所提取的运动信息输出到学习模型。

S.如段落O所述的计算机可读存储介质，其中解码频率参数对于越强的运动幅度越频繁，而对于越不强的运动幅度越不频繁。

T.如段落O所述的计算机可读存储介质，其中，所述帧排除规则包括从解码中排除所述比特流的B帧，并且包括从解码中排除所述比特流的P帧。

U.如段落O所述的计算机可读存储介质，其中所述操作还包括：在所生成的重构帧被YUV颜色编码的同时，对所述重构帧进行下采样。

尽管已经以结构特征和/或方法动作特定的语言描述了主题，但是应当理解，在所附权利要求书中定义的主题不一定限于所描述的特定特征或动作。相反，具体特征和动作被公开为实现权利要求的示例性形式。

Claims

1.一种视频解码方法，包括：

2.如权利要求1所述的方法，其中，所述运动幅度是基于从所述编码帧中提取的运动信息来确定的。

3.如权利要求2所述的方法，其中，所述运动幅度包括所述编码帧的运动预测信息的运动向量的幅度。

4.如权利要求1所述的方法，其中，所述解码频率参数对于越强的运动幅度越频繁，对于越不强的运动幅度越不频繁。

5.如权利要求1所述的方法，其中，所述帧排除规则包括从解码中排除所述比特流的B帧，并且包括从解码中排除所述比特流的P帧。

6.一种视频解码系统，包括：

一个或多个处理器；以及

7.如权利要求6所述的系统，还包括运动信息分析模块，所述运动信息分析模块被配置为基于从所述编码帧提取的运动信息来确定所述运动幅度。

8.如权利要求7所述的系统，其中，所述运动幅度包括所述编码帧的运动预测信息的运动向量的幅度。

9.如权利要求7所述的系统，其中，所述运动信息分析模块还被配置为将所提取的运动信息输出到学习模型。

10.如权利要求6所述的系统，其中，所述解码频率参数对于越强的运动幅度越频繁，而对于越不强的运动幅度更不频繁。

11.如权利要求6所述的系统，其中，所述帧排除规则包括从解码中排除所述比特流的B帧，并且包括从解码中排除所述比特流的P帧。

12.如权利要求6所述的系统，还包括下采样模块，所述下采样模块被配置为在所产生的重构帧被YUV颜色编码时对所述重构帧进行下采样。

13.一种计算机可读存储介质，其存储可由一个或多个处理器执行的计算机可读指令，所述计算机可读指令当由所述一个或多个处理器执行时，使所述一个或多个处理器执行包括以下的操作：

14.如权利要求13所述的计算机可读存储介质，其中，所述运动幅度是基于从所述编码帧中提取的运动信息来确定的。