CN111670580B

CN111670580B - 渐进压缩域计算机视觉和深度学习系统

Info

Publication number: CN111670580B
Application number: CN201880088264.3A
Authority: CN
Inventors: 哈米德·R·谢赫; 戴维·刘; 罗谌持; 柳荣俊; 迈克尔·波莉
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2018-02-08
Filing date: 2018-05-14
Publication date: 2023-03-28
Anticipated expiration: 2038-05-14
Also published as: EP3732884A4; US20190246130A1; EP3732884A1; WO2019156287A1; US11025942B2; CN111670580A

Abstract

用于计算机视觉技术的压缩域渐进应用的方法和系统。一种用于解码视频数据的方法，包括：接收被编码用于多阶段解码的视频流。该方法包括通过执行多阶段解码的一个或更多个阶段来部分解码视频流。该方法包括确定是否可以基于部分解码的视频流来识别计算机视觉系统的决策。另外，该方法包括基于对视频流的解码生成计算机视觉系统的决策。用于编码视频数据的系统包括处理器，该处理器被配置为从相机接收视频数据，将从相机接收的视频数据编码为视频流，以供计算机视觉系统消费，并且将元数据包括在编码的视频流中以指示是否可以从元数据中识别出计算机视觉系统的决策。

Description

渐进压缩域计算机视觉和深度学习系统

技术领域

本公开总体上涉及计算机视觉和深度学习系统。更具体地，本公开涉及计算机视觉技术的压缩域渐进应用。

背景技术

使用计算机视觉和深度学习(CV/DL)技术处理相机视频流是人工智能(AI)和机器学习(ML)的新兴和迅速发展的领域。应用级别的目标是通过观察视频流来自动执行各种任务，例如用户感知应用、电子商务、社交媒体、视觉感知、监视和安全、导航等。这些应用使用各种基础的CV技术，例如，对象检测和识别、对象跟踪、人类检测和跟踪等。DL和卷积神经网络(CNN)是一组已被证明可以显著改善传统CV技术的检测率的极有价值的技术。

发明内容

技术问题

本公开的实施例提供了渐进压缩域CV和DL系统。

问题的解决方案

在一个实施例中，提供了一种用于解码视频数据的方法。该方法包括接收被编码用于多阶段解码的视频流。该方法包括通过执行多阶段解码中的一个或更多个阶段来部分解码视频流。该方法包括确定是否可以基于部分解码的视频流识别出CV系统的决策。另外，该方法包括基于对视频流的解码来生成CV系统的决策。

在另一个实施例中，提供了一种用于解码视频数据的系统。该系统包括通信接口和可操作地连接到该通信接口的处理器。该通信接口被配置为接收被编码用于多阶段解码的视频流。该处理器被配置为通过执行多阶段解码中的一个或更多个阶段来部分解码视频流，确定是否可以基于部分解码的视频流识别出CV系统的决策，并基于对视频流的解码生成CV系统的决策。

在另一个实施例中，提供了一种用于编码视频数据的系统。该系统包括处理器，该处理器配置为从相机接收视频数据，将从相机接收到的视频数据编码为视频流，以供CV系统使用，并且将元数据包括在编码的视频流中以指示是否可以从元数据中识别出CV系统的决策。该系统还包括可操作地连接到处理器的通信接口。该通信接口被配置为将编码后的视频流和元数据发送到CV系统的解码器。

本发明的有益效果

本公开的实施例提供了一种渐进压缩域CV和DL系统。

附图说明

为了更全面地理解本公开及其优点，现在参考结合附图的以下描述，其中相同的附图标记表示相同的部分：

图1示出了可以在其中实现本公开的各种实施例的示例联网系统；

图2示出了可以在其中实现本公开的各种实施例的处理系统的示例；

图3A示出了视频解码器系统的框图的示例；

图3B示出了根据本公开的各种实施例的用于CV系统的分级/渐进视频解码的系统的框图的示例；

图4示出了根据本公开的各种实施例的使用运动矢量CNN的渐进压缩域视频解码的示例；

图5示出了根据本公开的各种实施例的使用变换域CNN的渐进压缩域视频解码的示例；

图6示出了根据本公开的各种实施例的用于CV系统的具有元数据处理的分级/渐进视频解码的系统的框图的示例；

图7示出了根据本公开的各种实施例的用于CV系统的视频编码和解码的系统的框图的示例；

图8示出了根据本公开的各种实施例的用于CV系统的解码视频数据的过程的流程图；以及

图9示出了根据本公开的各种实施例的用于CV系统的解码视频数据的过程的流程图。

具体实施方式

根据以下附图、说明书和权利要求书，其他技术特征对于本领域技术人员而言将是显而易见的。

在进行下面的详细描述之前，阐述整个专利文件中使用的某些单词和短语的定义可能是有利的。术语“耦合”及其派生词是指两个或更多个元素之间的任何直接或间接通信，无论这些元素是否彼此物理接触。术语“发送”、“接收”和“通信”及其派生词涵盖直接和间接通信。术语“包括”和“包含”及其派生词是指包括但不限于。术语“或”是包含性的，意味着和/或。短语“与...相关联”及其派生词意指包括、包括在其中、与其互连、包含、包含在其中、连接到或与其连接、耦合到或与其耦合、与其通信、与其协作、交错、并置、接近其、绑定到或与其绑定、具有、具有…属性、具有某种关系或与其具有关系等。短语“至少一个”当与所列项目一起使用时，意味着可以使用一个或更多个所列项目的不同组合，并且可能只需要所列项目中的一个项目。例如，“A、B和C中的至少一个”包括以下组合中的任何一个：A、B、C、A和B、A和C、B和C、以及A和B和C。

此外，下面描述的各种功能可以由一个或更多个计算机程序实现或支持，每个计算机程序由计算机可读程序代码形成并体现在计算机可读介质中。术语“应用”和“程序”是指一个或更多个适于以合适的计算机可读程序代码实现的计算机程序、软件组件、指令集、过程、功能、对象、类、实例、相关数据或其一部分。短语“计算机可读程序代码”包括任何类型的计算机代码，包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任何类型的介质，例如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其他类型的内存。“非暂时性”计算机可读介质不包括传输瞬时电信号或其他信号的有线、无线、光学或其他通信链路。非暂时性计算机可读介质包括可永久存储数据的介质以及可存储数据并随后覆写的介质，例如可重写光盘或可擦除存储装置。

贯穿本专利文件提供了其他某些单词和短语的定义。本领域普通技术人员应该理解，在很多情况下，即使不是大多数情况，这种定义也适用于这种定义的单词和短语的先前以及将来的使用。

在下文中，在本公开的各种实施例中，将以硬件方法为例进行描述。然而，本公开的各种实施例包括使用硬件和软件两者的技术，因此，本公开的各种实施例可以不排除软件的观点。

在下文中，本公开描述了用于无线通信系统中的免授权数据传输的技术。

在以下描述中使用的关于免授权的术语、关于信号的术语、关于信道的术语、关于控制信息的术语、关于网络实体的术语、关于装置的元件的术语仅用于方便说明。因此，本公开不限于以下术语，并且可以使用具有相同技术含义的其他术语。

下面讨论的图1至图9以及用于描述本专利文件中的本公开的原理的各种实施例仅是示例性的，并且不应以任何方式解释为限制本公开的范围。本领域技术人员将理解，可以在任何适当布置的系统或装置中实现本公开的原理。

本公开的实施例还认识并考虑到，DL和CNN技术的一个困难是这些技术在计算上具有挑战性。对于将CV技术连续应用到输入的视频流中尤其如此。而且，为了将这些技术引入功率优化的应用中，必须为要使用的这种技术准备好要分析的视频流。至少，在可以应用任何DL/CNN技术之前，典型的基于压缩的视频流(例如，诸如高效视频编码(HEVC)或H.265编码的视频流)必须被完全解码。这会增加很多计算成本，尤其是在连续录制视频的情况下，其中大多数视频流都不会包含有意义的信息。在这种情况下，即使是检测视频流是否包含有意义的信息，也都需要对输入的视频流进行完全解码。另外，本公开的实施例认识到当前编解码器被设计为针对压缩性能而优化，而不针对基于CV/DL的AI系统的下游消费而优化。

本公开的实施例进一步认识并考虑到大多数视频编码是针对人类消费和压缩而优化的。也就是说，大多数用于视频流的视频编码技术都试图通过例如图像清晰度、颜色以及对比度的形式以最少的数据量将最多的信息传递给人眼，以减少带宽和存储需求。此类视频编码技术(及其解码技术)并未针对使用CV的消费进行优化或设计。结果，使用这些技术，会发生不必要的视频处理，从而导致不必要的功率使用。

因此，本公开的实施例提供了CV和DL系统的渐进压缩域应用。这样做，各种实施例显著降低了CV应用中视频消费的复杂度和功耗。本文公开的渐进压缩域解码系统的实施例可以在任何数量的不同系统或应用中实现或使用。例如但不限于，这样的系统或应用可以包括CV、DL以及AI。为了简洁起见，本公开的某些描述可以讨论在CV系统或解码系统中实现或由CV系统或解码系统使用。然而，这样的描述同样适用于实现或使用本公开的渐进压缩域解码系统的其他系统或应用，包括DL和AI两者，并且术语CV、DL以及AI可以在本公开中互换使用。

图1示出了可以在其中实现本公开的各种实施例的示例联网系统100。图1所示的联网系统100的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用联网系统100的其他实施例。

如图1所示，系统100包括网络102，其促进系统100中的各种组件之间的通信链路。例如，网络102可以在网络地址之间传送互联网协议(IP)分组或其他信息。网络102可以包括一个或更多个局域网(LAN)；城域网(MAN)；广域网(WAN)；全球网络的全部或一部分，例如互联网；或一个或更多个位置的任何一个或多个其他通信系统。

网络102有利于至少一个服务器104与各种其他电子装置106-115之间的通信。每个服务器104包括可以为一个或更多个客户端装置提供计算服务的任何合适的电子装置、计算装置和/或处理装置。每个服务器104可以例如包括一个或更多个处理装置、存储指令和数据的一个或更多个存储器、以及有利于通过网络102进行通信的一个或更多个网络接口。例如，服务器104可以操作一个或更多个应用以为CV和DL系统的渐进压缩域应用编码和/或解码视频数据。

每个电子装置106-115表示通过网络102与服务器104或其他电子装置交互的任何合适的电子计算装置或处理装置。在该示例中，电子装置106-115包括台式计算机106、移动电话或智能电话108、个人数字助理(PDA)110、膝上型计算机112、平板计算机114、相机系统115等。但是，在联网系统100中可以使用任何其他或附加的电子装置。在各种实施例中，电子装置106-115实现用于如下面更详细地讨论的CV和DL系统的渐进压缩域应用的对视频数据进行编码和/或解码的技术。例如，相机系统115可以包括一个或更多个视频相机，该一个或更多个视频相机输出编码的视频流，以供服务器104或一个或更多个电子装置106-114中的任何一个解码。

在该示例中，一些电子装置108-114使用通信链路与网络102间接通信。例如，电子装置108-110经由一个或更多个基站116(诸如，蜂窝基站或eNodeB)进行通信。而且，电子装置112-115使用通信链路以经由一个或更多个无线接入点118(诸如IEEE 802.11无线接入点)进行通信。需要注意的是，这些仅用于说明，此外每个电子装置可以使用到网络102的直接通信链路进行通信，或者经由任何合适的中间装置或网络与网络102间接通信。

尽管图1示出了联网系统100的一个示例，但是可以对图1进行各种改变。例如，系统100可以包括任何合适的布置形式的任意数量的各个组件。通常来说，视频编码和解码系统具有各种各样的配置，并且图1不将本公开的范围限制为任何特定的配置。尽管图1示出了可以使用本专利文件中公开的各种特征的一个操作环境，但是这些特征也可以用在任何其他合适的系统中。

图2示出了根据本公开的各个实施例的可以实现本公开的各个实施例的联网系统中的示例处理系统200。例如，在各种实施例中，图2中的处理系统200是执行视频流编码或解码以实现CV和DL系统的渐进压缩域应用的处理装置。在此说明性示例中，处理系统200代表图1中的服务器104或一个或更多个电子装置106-115中的任意一个。例如，根据本公开的一个或更多个实施例，处理系统200可以是连接至相机系统115或包括相机系统115以编码视频流的编码装置。在另一示例中，根据本公开的一个或更多个实施例，处理系统200可以是连接至服务器104或一个或更多个电子装置106-114或包含在服务器104或一个或更多个电子装置106-114内，以解码视频流和/或实现CV和DL系统的渐进压缩域应用的解码装置。

如图2所示，处理系统200包括总线系统205，该总线系统205支持处理器210、存储装置215、通信接口220、以及输入/输出(I/O)单元225之间的通信。处理器210执行可以被加载到存储器230中的指令。处理器210可以包括任何合适的布置形式的任何合适数量和类型的处理器或其他器件。处理器210的示例类型包括微处理器、微控制器、数字信号处理器、现场可编程门阵列、专用集成电路和分立电路。在一些实施例中，处理器210可以被实现为解码器或编码器，以实现如下面更详细地讨论的CV和DL系统的渐进压缩域应用。

存储器230和永久性存储器235是存储装置215的示例，其表示能够存储和有利于信息检索(例如用于临时或永久缓冲视频流、程序代码和/或其他合适的信息)的任何结构。存储器230可以表示随机存取存储器或任何其他合适的易失性存储装置或非易失性存储装置。例如，如下所述，存储器230包含基于已解码的或部分解码的视频流执行任务的用于CV或AI应用的指令。在另一个示例中，存储器230包含用于实现用于CV和DL系统的分级/渐进式解码器的指令。永久性存储器235可以包含支持长期存储数据的一个或更多个组件或装置，例如只读存储器、硬盘驱动器、闪存、或光盘。

通信接口220支持与其他系统或装置的通信。例如，通信接口220可以包括网络接口卡或有利于通过网络101进行通信的无线收发器。通信接口220可以支持通过任何适当的物理或无线通信链路的通信，例如，去往或来自编码器装置或解码器装置的通信。I/O单元225允许数据的输入和输出。例如，I/O单元225可以通过键盘、鼠标、小键盘、触摸屏或其他合适的输入装置为用户输入提供连接。I/O单元225还可以将输出发送到显示器、打印机、或其他合适的输出装置。

尽管图2示出了处理系统200的一个示例，但是可以对图2进行各种改变。例如，图2中的各种组件可以根据特定需要被组合、进一步细分或省略，并且可以添加其他组件。

如将在下面更详细地讨论的，本公开的实施例提供了CV和DL系统的渐进压缩域应用。本公开的实施例可以通过利用CV技术的压缩域渐进应用来显著降低连续低功率视频视觉的复杂性。特别是各种实施例在部分解码的视频流上使用DL技术(即，压缩域DL)。各种实施例基于包括感兴趣区域(ROI)提取在内的先前检测阶段中的决策来提供对编码视频流的附加部分的渐进解码。

实施例提供还了一种视频编码方案，其中将附加信息编码到比特流中以允许改善CV/DL性能。各种实施例提供了一种编码方案，该编码方案预定感兴趣区域并且对预定区域进行编码，预定区域将要被解码而无需对下游CV/DL系统的整个帧进行解码。实施例还提供了一种编码方案，其中编码器由下游CV/DL系统配置，以优化或改进对诸如人的检测或手检测之类的优选的CV/DL任务的边信息(side information)或ROI选择的编码。各种实施例还提供了一种针对CNN/DL任务设计或优化的利用空间变换的编码器。

图3A示出了视频解码器系统300的框图的示例。例如，这样的视频解码器系统300可以用于解码已经使用诸如高级视频编码(AVC或H.264)或HEVC/H.265的编码标准进行编码的供人类消费的视频。视频解码器系统300包括由不同块实现的多个阶段，以完全解码已编码的视频流。

为了解码输入的比特流，算术解码和解复用(demux)块305执行算术解码和解复用，并将输出提供给逆扫描和解量化块310。逆扫描和解量化块310对接收到的输入进行逆扫描和解量化。空间补偿块315根据从块305接收到的空间预测模式执行空间补偿。运动补偿块320从块305接收运动矢量，并且在来自块315、在块330中缓冲的帧与输出视频之间执行运动补偿。逆变换块325对块310的输出执行逆变换，将其与空间补偿块315和运动补偿320的输出相加，以产生解码的帧差或帧内帧。这些由去块滤波器块355进行去块以产生结果输出视频。

如上所述，视频解码非常复杂并且需要大量的计算资源。对于解码器系统300的后期阶段(例如运动补偿块320和去块滤波器块335)，更是如此，而解码器系统300的早期阶段(例如由块305进行的算术解码和解复用)，就计算的角度而言，相对较不复杂。

对于许多CV或AI任务，本公开的实施例认识到不需要完整的像素域信息，并且执行CV或AI过程或任务的系统可以从部分解码的视频流中获得有用的信息。例如，来自视频流的已解码的运动矢量可以用于识别运动对象的区域及其相对运动。这在解码过程中相对较早发生，并且可以为CV或AI应用提供足够的信息来执行所需的任务。类似地，可以使用变换系数(在去量化之前或之后)来识别重要空间信息的区域，例如高度纹理化的区域等。另外，根据本公开的实施例，对CV技术(例如CNN)进行重新训练来处理已部分地解码的信息，以操作运动矢量、变换系数，和/或解码帧差/帧内预测帧来提取用于执行所需任务的相关信息，而无需解码整个视频流。

图3B示出了根据本公开的各种实施例的用于CV系统的分级/渐进视频解码的系统350的框图的示例。例如，图3B中描绘的解码系统350可以是图2中的处理系统200或者可以是图1中的服务器104或者一个或更多个电子装置106-114中的任意一个的一个实施例。图3B所示的解码系统350的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用解码系统350的其他实施例。

解码系统350通过在视频解码过程的一个或更多个阶段做出CV决策来实现分级/渐进式视频解码技术。如本文中所使用的，在对CV系统正解码的视频流使用决策时，该决策意味着确定在解码的当前阶段是否可以从部分解码的视频流中识别出CV系统的有用信息。例如，部分解码的视频流已解码足够使CV系统用于CV应用或系统正在执行的期望或要求的任务。也就是说，解码系统350实施分级/渐进的“唤醒”方法以在解码过程中“唤醒”CV系统。通过依靠解码过程的较早部分的位置并分析部分解码的流来确定是否需要使用整个CV系统来进行CV决策，可以节省大量电力。该系统对于CV系统长时间运行但仅期望在较短的时间内就做出有意义的决策的应用(例如，使用监控相机的场所监控)更有用。

如图所示，在块305进行算术解码和解复用之后，基于MV的CV决策块355确定是否可以使用运动矢量来做出CV决策。如果是这样，则基于MV的CV决策块355将决策提供给CV系统，以使CV系统基于部分解码的视频流执行CV任务，例如，无需对视频流进行任何进一步解码。例如，基于MV的CV决策块355可以使用运动矢量来确定在场景中是否检测到人类活动，而无需对视频流进行完全解码。

图4示出了根据本公开的各种实施例的使用运动矢量CNN的渐进压缩域视频解码的示例。例如，可以通过图3B中的基于MV的CV决策块355来实现用于CNN的基于运动矢量的对象检测。图4所示的使用运动矢量CNN进行渐进式压缩域视频解码的示例仅用于说明。在不脱离本公开的范围的情况下，可以使用渐进压缩域视频解码的其他应用。

图4示出了用于CNN的基于运动矢量的对象检测的示例。CNN的输入是帧间帧的运动矢量和从前一个帧内帧检测到的对象边界框。训练CNN对帧间帧中的边界框坐标执行回归，并为回归框坐标生成置信度得分。如果置信度得分大于或等于预定阈值，则CV决策块355基于部分解码的视频流将CV决策提供给CV系统以执行CV任务。例如，CV系统可能正在监视场景以检测对象移动。仅使用运动矢量，CNN可以检测对象的运动并将结果提供给CV系统，以使CV系统执行相关联的任务。如果置信度分数小于预定义的阈值，则将唤醒变换域CNN，例如，如下面关于变换域CV决策块360所讨论的。

返回讨论图3B，如果在块355处不能做出CV决策，则基于变换域的CV决策块360确定是否可以使用来自逆扫描和解量化块310的输出来做出CV决策。例如，基于变换域的CV决策块360可以使用由块310输出的离散余弦变换(DCT)系数来确定是否可以做出CV决策。如果可以，则基于变换域的CV决策块360将决策提供给CV系统，以使CV系统基于部分解码的视频流执行CV任务，例如，无需对视频流进行任何进一步解码。例如，变换域CV决策块360可以使用变换系数来在场景中执行面部检测而无需视频流的完全解码。

图5示出了根据本公开的各种实施例的使用变换域CNN的渐进压缩域视频解码的示例。例如，可以通过图3B中的基于变换域的CV决策块360来实现用于CNN的变换域对象检测。图5中所示的使用变换域CNN进行渐进式压缩域视频解码的示例仅用于说明。在不脱离本公开的范围的情况下，可以使用渐进压缩域视频解码的其他应用。

图5示出了用于对象检测的变换域CNN的示例。CNN的输入是变换系数块。CNN被训练来预测对象边界框并为其预测生成置信度得分。如果置信度分数大于或等于预定阈值，则基于变换域的CV决策块360将CV决策提供给CV系统以基于部分解码的视频流来执行CV任务。例如，CV系统可能正在监视场景以识别场景内特定对象的存在。如果置信度分数小于预定阈值，则将唤醒基于完全解码图像的CNN，例如，如下面关于变换域CV决策块360所讨论的。如果置信度分数大于或等于预定义阈值，基于变换域的CV决策块360将CV决策提供给CV系统以基于部分解码的视频流执行CV任务。例如，CV系统可能正在监视场景以检测对象移动。CNN可以使用变换系数来检测对象的移动并将结果提供给CV系统，以使CV系统执行相关任务。如果置信度分数小于预定阈值，则差分域CNN将被唤醒，例如，如下文关于差分域CV决策块365所描述的。

返回讨论图3B，如果在块360处不能做出CV决策，则基于差分域的CV决策块365确定是否可以使用来自逆变换块325的输出做出CV决策。例如，基于差分域的CV决策块365可以使用帧差或帧内帧来确定是否可以做出CV决策。如果可以，则基于差分域的CV决策块365将决策提供给CV系统，以使CV系统基于部分解码的视频流执行CV任务，例如，无需对视频流进行任何进一步解码。另一方面，如果解码系统350不能在解码过程的任何较早阶段做出CV决策，则解码系统350对视频流进行完全解码，并唤醒CV系统来基于完全解码的视频流执行CV任务。

尽管在CNN的上下文中讨论了某些解码决策示例，但是本公开不限于此。例如，可以使用任何神经网络架构，包括递归神经网络(RNN)、注意力模型、和/或存储网络。另外，上面讨论了人类运动和面部检测，并且可以利用CV和DL系统的渐进压缩域应用的其他应用，包括但不限于事件/突发检测、动作识别、对象识别、对象跟踪、像素级场景深度估计、像素级语义对象分割、像素级显著性检测、以及机器人的同时定位和映射(SLAM)。

在一些实施例中，解码器350可以基于对其执行解码的CV系统的应用类型来动态地处理输入的比特流。例如，对于某些应用，可能无法从部分解码的视频流中获得有用的信息。在这些情况下，解码器350可以在不对视频流执行渐进解码的情况下完全解码视频数据。

图6示出了根据本公开的各种实施例的用于CV系统的具有元数据处理的分级/渐进视频解码的系统600的框图的示例。例如，图6中描绘的系统600可以是图2中处理系统200或者是图1中的服务器104或一个或更多个电子装置106-116中的任意一个的一个实施例。图6中所示的系统600的实施例的内容仅用于说明。在不脱离本公开的范围的情况下，可以使用系统600的其他实施例。

在该实施例中，解码系统600包括对于分级/渐进视频解码系统的附加元数据层。在该示例中，输入的比特流具有附加地编码的元数据，其在块605处被提取用于基于元数据的CV决策块610基于该元数据做出CV决策。例如，视频流被增强以提供不同的“边信息”以辅助下游CV/DL任务。这种信息可以包括特征点位置和描述(例如，加速鲁棒特征(SURF)、尺度不变特征变换(SIFT)、来自加速段测试的定向特征(FAST)和旋转二进制鲁棒独立基本特征(BRIEF)(ORB)等)；局部梯度直方图；和/或自定义CV功能，例如梯度、角、线、对象位置或坐标(例如，脸、人、手等)。

如果基于元数据的CV决策块610可以做出CV决策，则系统600将该决策的决策提供给CV系统，以使CV系统基于部分解码的视频流执行CV任务，例如，无需进一步解码视频流。另一方面，如果基于元数据的CV决策块610不能做出CV决策，则解码系统600继续执行分级比特流解码和CV推理，如以上关于解码系统350所讨论的。

图7示出了根据本公开的各种实施例的用于CV系统的视频编码和解码的系统700的框图的示例。图7中所示的系统700的实施例仅用于说明。在不脱离本公开的范围的情况下，可以使用系统700的其他实施例。

在该实施例中，系统700包括相机系统705，该相机系统705包括相机715和CV编码器720。例如，相机系统705可以是图1中的相机系统115的实施例，并且CV编码器720可以通过图2中的处理系统200实现。相机715捕获视频数据以通过CV编码器720进行编码。CV编码器720是对视频数据进行编码以通过对用于CV消费的视频数据进行编码来降低功率的编码器。例如，在一些实施例中，CV编码器720可以使用更适合于用于优化或改善压缩效率以及DL/CNN检测和识别效率的CV/DL任务的变换。在另一个示例中，编码器720可以包括视频流中用于CV解码的任何或所有元数据，如上面关于图6所讨论。在一些实施例中，编码器720可以使用表示可能感兴趣的目标周围的感兴趣区域ROI的标记生成比特流，这些感兴趣区域可以使下游CV系统710仅解码视频图像的相关部分。已编码的视频通过通信链路722(例如，到CV系统710的网络连接)发送。

CV系统710是用于处理视频数据以执行CV任务或用于CV应用的系统。CV系统710包括分级CV解码器725，其如以上关于解码器系统350或600所讨论的，对视频流进行解码并为CV系统710提供CV决策。另外，CV系统710包括应用级控制/配置块730，其为CV系统710执行CV应用提供控制和配置。例如，应用级控制/配置块730可以请求CV编码器720根据对CV系统710的CV任务的需要(例如，诸如用于人类检测和识别的ROI选择、CV/DL特征的选择等)优先对某种类型的元数据进行编码或包括某种类型的元数据。

在各种实施例中，CV编码器720针对CV消费与人类消费进行自适应视频编码。例如，CV编码器720可以仅对关键事件(例如，检测到人)上的帧进行编码以减小带宽。在另一个示例中，CV编码器720可以使用用于如本文所公开的渐进解码/CV消费的定制编解码器对视频进行编码。在其一个示例中，CV编码器720可以将更多比特分配给关键对象以帮助检测(例如，人、汽车等)。在另一个示例中，CV编码器720可以例如通过添加具有增强的分辨率的层来为关键ROI添加附加分辨率。

在视频监视编码和解码的一个示例中，大多数监视视频仅在发生突发事件或重大事件(“阳性”)时由人们进行回顾查看。绝大部分视频录制都不会被人们(“阴性”)查看。在该示例中，CV系统710被用于物体检测或事件/突发检测，其具有大约100％的召回率(召回率是指检测到的阳性的数量)，并且具有中等准确率(准确率是指预测出的阳性中检测到的真阳性的数量)。在该示例中，CV编码器720根据检测分数对具有不同比特率的每个帧进行编码。当得分高时，则使用更高的比特率(以便人类可以消费/查看帧)；当分数低时，该场景很可能是阴性的，因此不需要查看。由于监视视频中的大多数帧都是阴性的，因此这种自适应编码方案不仅可以减少通信带宽，而且可以使解码更加有效。

图8示出了根据本公开的各种实施例的用于CV系统的解码视频数据的过程的流程图。例如，图8中描绘的过程可以由图2中的处理系统200执行；该过程也可以由共同或单独地被称为系统的图1中的服务器104或电子装置106-114中的一个或多个中的任意一个来实现。

该过程开始于系统接收视频流(步骤805)。例如，在步骤805中，将要解码的视频被编码，以用于多阶段解码并且在CV系统的应用中使用。作为该步骤的一部分或在此之前，系统可以基于CV系统的应用，从视频流的编码器(例如，编码器720)请求将元数据包括在视频流中，以尝试简化解码。

然后，系统对视频流部分解码(步骤810)。例如，在步骤810中，系统通过执行诸如上面关于解码器系统350和600所讨论的多阶段解码的一部分来部分地对视频流进行解码。该步骤还可以包括提取视频流中的元数据或提取与视频流一起编码的元数据。例如，在一些实施例中，系统可以在元数据中识别指示视频流的一个或更多个帧中的ROI的一个或更多个标记，并通过识别一个或更多个标记以基于识别出的标记仅对ROI进行解码从而对视频流进行部分解码。在另一示例中，元数据可以指示视频流的当前部分不包含CV系统的相关信息，并且不需要被解码。

此后，系统确定是否可以识别出CV系统的决策(步骤815)。例如，在步骤815，系统基于在解码的当前阶段的部分解码的视频流来确定是否可以做出决策。在视频流中包括CV特定元数据的实施例中，系统可以在部分解码视频流中的实际视频之前，基于提取的元数据确定是否可以识别出CV系统的决策。作为该步骤的一部分，系统可以在一个或更多个解码阶段之后确定是否可以识别CV应用的决策的同时，分阶段渐进解码视频流，直到在步骤825中识别出可以做出决策或完全解码视频为止，如下面所讨论的，以用于确定是否可以基于完全解码的视频流来做出决策。

如果可以识别出该决策，则系统然后生成CV系统的决策(步骤820)。例如，在步骤820中，系统为CV系统提供决策和部分解码的视频流以执行期望的或所需的任务，并停止对视频流的解码而无需完全解码视频流。

然而，如果在步骤815不能基于部分解码的视频流来识别出决策，则系统对视频流进行完全解码(步骤825)。此后，系统基于完全解码的视频流确定是否可以识别出CV系统的决策(步骤830)。如果可以识别出该决策，则系统然后生成CV系统的决策(步骤820)。例如，在步骤820中，系统为CV系统提供决策和已解码的视频流以执行期望或需要的任务。

但是，如果在步骤830无法基于完全解码的视频流识别出决策，则系统返回到步骤805，以继续接收和解码视频流。

图9示出了根据本公开的各种实施例的用于CV系统的解码视频数据的过程的流程图。例如，图9中描绘的过程可以由图2中的处理系统200执行；该过程也可以由共同或单独地称为系统的图1中的相机系统115来实现。

该过程开始于系统从CV系统接收配置信息(步骤902)。例如，在步骤902中，系统可以接收关于如何对视频进行编码，将在视频中包括哪些元数据或者关于是否完全对视频的某些帧进行编码的标准的配置信息。此后，系统从相机接收视频数据(步骤905)。例如，在步骤905中，系统包括相机，诸如生成视频以供CV系统使用的相机715。

然后，系统对视频流进行编码以供CV系统消费(步骤905)。例如，在步骤905中，系统可以在对视频流进行编码之前，基于CV系统的应用，从视频流的解码器接收针对视频流包括元数据的请求，并且将所请求的元数据与编码的视频流包括在一起。在另一示例中，系统可以将元数据包括在编码的视频流中，以指示是否可以从元数据中识别出CV系统的决策。在另一个示例中，系统可以检测到CV系统的事件，然后仅将与检测到的事件相关联的视频帧编码为视频流，从而减少带宽。在另一示例中，系统可以识别CV系统感兴趣的对象并且对包括识别出的对象的帧进行编码以具有针对识别出的对象编码的附加比特。在其他示例中，系统可以包括指示视频流的一个或更多个帧中的一个或更多个ROI的标记。

然后系统发送已编码的视频流(步骤910)。例如，在步骤910，系统将已编码的视频流发送到解码器以用于CV系统的解码。

尽管图8和图9分别示出了用于对视频数据进行解码和编码的过程的示例，但是可以对图8和图9进行各种改变。例如，虽然显示为一系列步骤，但是每个图中的各个步骤可以重叠、并行发生、或者以不同顺序发生、或多次发生。在另一个示例中，步骤可以被省略或被其他步骤代替。

本公开的实施例提供了CV和DL系统的渐进压缩域应用。这样做，各种实施例降低了CV应用中视频消费的复杂度和功耗。

尽管已经利用示例性实施例描述了本公开，但是可以向本领域技术人员暗示各种改变和修改。本公开旨在涵盖落入所附权利要求的范围内的这种改变和修改。

根据本公开的权利要求书和/或说明书中所述的实施例的方法可以以硬件、软件、或硬件和软件的组合来实现。

当通过软件实现所述方法时，可以提供用于存储一个或更多个程序(软件模块)的计算机可读存储介质。可以将存储在计算机可读存储介质中的一个或更多个程序配置为由电子装置内的一个或多个处理器执行。至少一个程序可以包括使电子装置执行根据由所附权利要求限定的和/或本文所公开的本公开的各种实施例的方法的指令。

该程序(软件模块或软件)可以存储在非易失性存储器中，该非易失性存储器包括随机存取存储器和闪存、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、磁盘存储装置、光盘(CD-ROM)、数字多功能光盘(DVD)或其他类型的光学存储装置或磁带。或者，一些或全部的任何组合可以形成存储程序的存储器。此外，在电子装置中可以包括多个这样的存储器。

此外，该程序可以存储在可连接的存储装置中，该装置可通过通信网络访问，例如互联网、内联网、局域网(LAN)、广域网(WAN)和存储区域网(SAN)或它们的组合。这样的存储装置可以经由外部端口访问电子装置。此外，通信网络上的单独的存储装置可以访问便携式电子装置。

在本公开的上述详细实施例中，根据所呈现的详细实施例，本公开中包括的组件以单数或复数表示。然而，为了便于描述，选择单数形式或复数形式以适合于所呈现的情况，并且本公开的各种实施例不限于单个元件或其多个元件。此外，在说明书中表达的多个元件可以被配置成单个元件，或者在说明书中的单个元件可以被配置成多个元件。

尽管已经参照本公开的某些实施例示出和描述了本公开，但是本领域技术人员将理解，在不脱离本公开的范围的情况下，可以在本文中在形式和细节上进行各种改变。因此，本公开的范围不应被限定为限于实施例，而应由所附权利要求及其等同物限定。

Claims

1.一种用于解码视频数据的方法，所述方法包括：

接收被编码用于多阶段解码的视频流；

使用处理器通过执行所述多阶段解码的第一阶段来对所述视频流进行部分解码；

使用所述处理器确定是否可以基于经所述第一阶段部分解码的视频流识别出计算机视觉系统的决策；

当确定不能基于经所述第一阶段部分解码的视频流识别出所述决策时，使用所述处理器通过执行所述多阶段解码的第二阶段来对经所述第一阶段部分解码的视频流进行部分解码；

使用所述处理器确定是否可以基于经所述第二阶段部分解码的视频流识别出所述计算机视觉系统的决策；

当确定不能基于经所述第二阶段部分解码的视频流识别出所述决策时，使用所述处理器通过执行所述多阶段解码的第三阶段来对经所述第二阶段部分解码的视频流进行部分解码；

使用所述处理器确定是否可以基于经所述第三阶段部分解码的视频流识别出所述计算机视觉系统的决策；以及

基于对所述视频流的部分解码生成所述计算机视觉系统的决策。

2.根据权利要求1所述的方法，所述方法还包括：

响应于确定可以在所述多阶段解码的指定阶段之后识别出所述计算机视觉系统的决策，生成所述决策并停止解码所述视频流。

3.根据权利要求1所述的方法，所述方法还包括：

在部分解码所述视频流之前提取所述视频流的元数据；以及

确定是否可以基于提取出的元数据识别出所述计算机视觉系统的决策。

4.根据权利要求3所述的方法，所述方法还包括：在接收所述视频流之前，基于所述计算机视觉系统的应用，向所述视频流的编码器请求将所述元数据包括在所述视频流中。

5.根据权利要求3所述的方法，所述方法还包括：在对所述视频流进行部分解码之前，基于提取出的元数据确定是否需要为所述计算机视觉系统解码所述视频流的帧。

6.根据权利要求1所述的方法，其中：

所述视频流包括指示所述视频流的一个或更多个帧中的感兴趣区域ROI的一个或更多个标记；并且

所述第一阶段的部分解码、所述第二阶段的部分解码和所述第三阶段的部分解码各自包括基于所述一个或更多个标记来对所述ROI进行部分解码。

7.根据权利要求1所述的方法，其中，所述视频流包括基于检测到所述计算机视觉系统的事件而编码的帧。

8.根据权利要求1所述的方法，其中，所述视频流包括帧，所述帧具有针对位于所述帧中的对象而编码的附加比特。

9.一种用于解码视频数据的系统，所述系统包括：

通信接口，所述通信接口被配置为接收被编码用于多阶段解码的视频流；以及

可操作地连接到所述通信接口的处理器，所述处理器被配置为：

通过执行所述多阶段解码的第一阶段来部分解码所述视频流；

确定是否可以基于经所述第一阶段部分解码的视频流识别出计算机视觉系统的决策；

当确定不能基于经所述第一阶段部分解码的视频流识别出所述决策时，通过执行所述多阶段解码的第二阶段来对经所述第一阶段部分解码的视频流进行部分解码；

确定是否可以基于经所述第二阶段部分解码的视频流识别出所述计算机视觉系统的决策；

当确定不能基于经所述第二阶段部分解码的视频流识别出所述决策时，通过执行所述多阶段解码的第三阶段来对经所述第二阶段部分解码的视频流进行部分解码；

确定是否可以基于经所述第三阶段部分解码的视频流识别出所述计算机视觉系统的决策；以及

10.根据权利要求9所述的系统，其中，所述处理器还被配置为：

11.根据权利要求9所述的系统，其中，所述处理器还被配置为：

在部分解码所述视频流之前提取所述视频流的元数据；

12.一种用于编码视频数据的系统，所述系统包括：

处理器，所述处理器被配置为：

从解码器接收包括用于在检测到事件之后仅对与所述事件相关联的视频帧进行编码的一个或更多个标准的配置信息；

从相机接收视频数据；

在接收到所述配置信息之后，在所述视频数据中为计算机视觉系统检测所述事件；

响应于在从所述相机接收到的视频数据中检测到所述事件，基于在检测到所述事件之前接收到的所述一个或更多个标准，将与在所述视频数据中检测到的所述事件相关联的视频帧编码为供所述计算机视觉系统消费的视频流；以及

将元数据包括在编码的视频流中，以指示是否可以从所述元数据中识别出所述计算机视觉系统的决策，其中所述元数据指示是否可以在多阶段解码的第一阶段的部分解码、第二阶段的部分解码和第三阶段的部分解码之后做出所述决策；以及

通信接口，所述通信接口可操作地连接到所述处理器，所述通信接口被配置为将编码的视频流和元数据发送到所述计算机视觉系统的所述解码器。

13.根据权利要求12所述的系统，其中，所述通信接口还被配置为：在编码所述视频流之前，基于所述计算机视觉系统的应用，从所述视频流的所述解码器接收将所述元数据包括在所述视频流中的请求。

14.根据权利要求12所述的系统，其中，为了编码所述视频流，所述处理器还被配置为：

识别所述计算机视觉系统感兴趣的对象；以及对包括识别出的对象的帧进行编码，使之具有针对识别出的对象而编码的附加比特。