CN113438482B

CN113438482B - 基于感兴趣区域的视频编码

Info

Publication number: CN113438482B
Application number: CN202110308271.3A
Authority: CN
Inventors: 裴泰延; 李思成; 吴冠霖; 陈彦光
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-23
Filing date: 2021-03-23
Publication date: 2024-04-19
Anticipated expiration: 2041-03-23
Also published as: US11388423B2; CN113438482A; US20210297678A1

Abstract

一种视频处理单元可包括基于非对象的感兴趣区域检测神经网络、阈值选择模块和感兴趣区域图生成器。所述基于非对象的感兴趣区域检测神经网络可被配置成接收视频帧并生成多个候选基于非对象的感兴趣区域块。所述阈值选择模块可被配置成接收多个候选基于非对象的感兴趣区域块并基于预定阈值标识多个选择的感兴趣区域块。所述感兴趣区域图生成器可被配置成接收所述选择的基于非对象的感兴趣区域块并生成感兴趣区域图。

Description

基于感兴趣区域的视频编码

背景技术

许多技术被用于减少由视频的传输或存储消耗的数据量。一种常见技术是使用视频帧数据的可变比特率编码。例如，第一比特率可用于对一个或多个感兴趣区域(ROI)进行编码，而第二比特率可用于对一个或多个非感兴趣区域进行编码。

参考图1，示出根据常规技术的视频处理系统。该视频处理系统可包括人工智能(AI)加速器110、中央处理单元120和视频编码器130。在一个实现方式中，人工智能(AI)加速器110可以为图形处理单元(GPU)。人工智能(AI)加速器110可包括基于对象的感兴趣区域(OB-ROI)检测器神经网络140。基于对象的感兴趣区域(OB-ROI)检测器神经网络140可接收视频帧150的流。基于对象的感兴趣区域(OB-ROI)检测器神经网络(NN)140可被配置成生成多个候选基于对象的感兴趣区域(OB-ROI)块160。在一个实现方式中，基于对象的感兴趣区域(OB-ROI)检测器神经网络140可以为深度神经网络(DNN)，该DNN包括用于确定基于对象的感兴趣区域(NOB-ROI)块160的回归网络和用于对象检测的分类网络。在一个实现方式中，候选基于对象的感兴趣区域(OB-ROI)块160可包括感兴趣区域的确定概率(例如，置信度分数)、感兴趣区域的对象类型等。在一个实现方式中，关联概率可包括给定感兴趣区域包括给定对象类型的对象的至少一部分的概率。例如，基于对象的感兴趣区域(OB-ROI)检测器神经网络140可确定存储块是否包括多种对象类型中的一种类型的对象和该对象类型的概率。因此，如本文所使用的术语基于对象的感兴趣区域(OB-RIO)检测通常是指对数据集内的对象的标识，其还包括对关联对象类型的标识。可将不包括多种对象类型中的一种类型的对象的存储块分类为非感兴趣区域。存储块可以为像素值的16x16、64x64或类似矩阵。对象分类可能消耗人工智能(AI)加速器上的大量处理带宽。例如，在典型图形处理单元(GPU)上对视频帧的基于mobilenet_v2的流的分类可能消耗图形处理单元(GPU)的处理带宽的大约12％以及对应的功耗量。

中央处理单元120可包括分类和非最大抑制(NMS)模块170。分类和非最大抑制(NMS)模块170可接收多个候选基于对象的感兴趣区域(OB-ROI)块160。多个候选基于对象的感兴趣区域(OB-ROI)块160可包括大量数据，这些数据可消耗人工智能(AI)加速器110与中央处理单元(CPU)120之间的大量通信带宽，且或消耗大量电力以在人工智能(AI)加速器110与中央处理单元(CPU)120之间发送数据。分类和非最大抑制(NMS)模块170可被配置成基于关联概率针对每种对象类型来对候选基于对象的感兴趣区域(OB-ROI)块160进行分类。例如，多个候选基于对象的感兴趣区域(OB-ROI)块160可包括按候选基于对象的感兴趣区域(OB-ROI)块160的对应的置信度分数分类的数百、数千或更多个候选。分类和非最大抑制(NMS)模块170还可被配置成组合多个重叠的基于对象的感兴趣区域(OB-ROI)块160以确定一个或多个感兴趣区域边界框。例如，可选择具有最高置信度分数的给定对象类型的候选存储块(MB)作为初始决定的边界框。具有下一个较低的置信度分数的相同对象类型的每个候选存储块(MB)与当前决定的边界框进行比较以确定它们重叠多少。如果当前候选存储块(MB)与当前决定的边界框重叠超过预定量(例如，50％)，则当前候选存储块(MB)被忽视。如果当前候选存储块(MB)与当前决定的边界框重叠小于预定量，则将当前候选存储块(MB)添加到当前决定的边界框。候选存储块(MB)被处理，直到为每种对象类型确定一个边界框为止。因此，如本文所使用的术语非最大抑制通常是指迭代地执行多个候选块的交并比(intersection over union)以确定感兴趣区域的功能。分类和非最大抑制(NMS)还可能消耗中央处理单元120上的大量处理带宽。例如，在诸如Xeon8163处理器的典型中央处理单元上对视频帧的基于mobilenet_v2的流的分类和非最大抑制(NMS)可能消耗中央处理器(CPU)的处理带宽的大约10％。

视频编码器130可被配置成基于所确定的一个或多个感兴趣区域边界框生成压缩比特流180。在一个实现方式中，视频编码器130可被配置成以第一比特率对一个或多个感兴趣区域边界框中的数据进行编码并以第二比特率对一个或多个非感兴趣区域中的数据进行编码，其中第一比特率大于第二比特率。在另一实现方式中，视频编码器130可被配置成以第一质量对一个或多个感兴趣区域边界框中的数据进行编码并以第二质量对一个或多个非感兴趣区域中的数据进行编码。

用于与可变速率编码一起使用的基于对象的感兴趣区域检测可以是计算密集的。因此，持续需要改进的视频图像的可变比特率编码。

发明内容

可以通过参考以下描述和附图最好地理解本技术，以下描述和附图用于说明针对基于感兴趣区域的视频编码技术的本技术的实施例。

在一个实施例中，一种视频处理单元可包括人工智能加速器，该人工智能加速器包括基于非对象的感兴趣区域检测神经网络、阈值选择模块和感兴趣区域图生成器。基于非对象的感兴趣区域检测神经网络可被配置成接收视频帧并生成多个候选基于非对象的感兴趣区域块。阈值选择模块可被配置成接收多个候选基于非对象的感兴趣区域块并基于预定阈值标识多个选择的感兴趣区域块。感兴趣区域图生成器可被配置成接收所选择的基于非对象的感兴趣区域块并生成感兴趣区域图。人工智能加速器还可任选地包括基于对象的感兴趣区域检测神经网络，该基于对象的感兴趣区域检测神经网络被配置成接收视频帧并生成多个候选基于对象的感兴趣区域块。人工智能加速器被配置成由基于非对象的感兴趣区域检测神经网络选择性地生成多个候选基于非对象的感兴趣区域块或者由基于对象的感兴趣区域检测神经网络生成多个候选基于对象的感兴趣区域块。当由基于对象的感兴趣区域检测神经网络生成候选基于对象的感兴趣区域块时，中央处理单元上的分类和非最大抑制(NMS)模块可被配置成基于关联概率针对相应的对象类型来对多个候选基于对象的感兴趣区域块进行分类，并且组合多个重叠的基于对象的感兴趣区域块以为相应的对象类型确定一个或多个感兴趣区域边界框。视频编码器可基于感兴趣区域图或一个或多个感兴趣区域边界框对视频帧进行差分编码以生成压缩比特流。

在另一实施例中，一种视频处理的方法可包括为视频帧生成多个候选基于非对象的感兴趣区域块。候选基于非对象的感兴趣区域块可各自包括对应的置信度分数。可选择包括候选基于非对象的感兴趣区域块的多个选择的感兴趣区域块，每个选择的感兴趣区域块具有大于预定阈值分数的置信度分数。可基于多个选择的感兴趣区域块生成感兴趣区域图。

本发明内容被提供来以简化形式引入在下面在具体实施方式中进一步描述的一系列构思。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征，它也不旨在用于限制所要求保护的主题的范围。

附图说明

在附图的各图中，通过示例而不通过限制图示本技术的实施例，并且在附图中，相似的附图标记是指类似的元素，而且在附图中：

图1示出根据常规技术的视频处理系统的框图。

图2示出依照本技术的各方面的视频处理系统的框图。

图3示出依照本技术的各方面的感兴趣区域(ROI)图生成器模块的框图。

图4A至图4D图示依照本技术的各方面的人工智能(AI)加速器内的示例性工作流程。

图5示出依照本技术的各方面的视频处理系统的框图。

图6示出依照本技术的各方面的视频处理系统的框图。

图7示出依照本技术的各方面的包括视频处理单元的示例性处理单元的框图。

图8示出依照本技术的各方面的示例性处理核心的框图。

具体实施方式

现在将详细地参考本技术的实施例，其示例被图示在附图中。虽然将结合这些实施例描述本技术，但是应理解，它们不旨在将本技术限于这些实施例。相反，本发明旨在涵盖可以被包括在如由所附权利要求所限定的本发明的范围内的替代方案、修改和等同物。此外，在本技术的以下详细描述中，阐述了许多具体细节以便提供对本技术的透彻理解。然而，应理解，可以在没有这些具体细节的情况下实践本技术。在其他情况下，尚未详细地描述公知方法、过程、组件和电路，以免不必要地使本技术的各方面混淆。

本技术的接下来的一些实施例是按例程、模块、逻辑块以及在一个或多个电子设备中对数据进行的操作的其他符号表示呈现的。这些描述和表示是由本领域的技术人员使用来将其工作的实质最有效地传达给本领域的其他技术人员的手段。在本文中并通常将例程、模块、逻辑块和/或类似物构思为导致期望结果的进程或指令的自洽序列。进程是包括对物理量的物理操纵的那些。通常，尽管不一定，但是这些物理操纵采取能够在电子设备中被存储、转移、比较和以其他方式操纵的电信号或磁信号的形式。出于方便的原因，并参考常见用法，这些信号参考本技术的实施例被称为数据、比特、值、元素、符号、字符、项、数字、字符串和/或类似物。

然而，应该牢记，这些术语将被解释为引用物理操作和量并且仅仅是方便的标签，而且将鉴于本领域中通常使用的术语被进一步解释。除非如从以下讨论中显而易见的那样具体地另外陈述，否则应理解，通过对本技术的讨论，利用诸如“接收”和/或类似物的术语的讨论是指诸如对数据进行操纵和变换的电子计算设备的电子设备的动作和进程。数据被表示为电子设备的逻辑电路、寄存器、存储器和/或类似物内的物理(例如，电子)量，并且被变换成类似地表示为电子设备内的物理量的其他数据。

在本申请中，析取词的使用旨在包括连接词。定冠词或不定冠词的使用不旨在指示基数。特别地，对“该”对象或“一”对象的引用旨在还表示多个可能的此类对象中的一个。术语“包括”、“包括有”、“包含”、“包含有”等的使用指定存在陈述的元素，但是不排除存在或添加一个或多个其他元素和或其组。还应当理解，尽管可以在本文中使用术语第一、第二等来描述各种元素，但是此类元素不应该受这些术语限制。这些术语在本文中用于区分一个元素和另一元素。例如，在不脱离实施例的范围的情况下，能将第一元素称为第二元素，并且类似地能将第二元素称为第一元素。还应当理解，当一个元素被称为“耦合”到另一元素时，它可以直接或间接地连接到另一元素，或者可以存在中间元素。相比之下，当一个元素被称为“直接连接”到另一元素时，不存在中间元素。还应当理解，术语“和或”包括关联元素中的一个或多个的任何和所有组合。还应当理解，本文使用的措词和术语是出于描述的目的，而不应该被认为是限制性的。

参考图2，示出了依照本技术的各方面的视频处理系统。将参考图4A至图4D进一步说明视频处理系统的操作，图4A至图4D图示人工智能(AI)加速器内的示例性工作流程。视频处理系统200可包括通信地耦合到视频编码器215的人工智能(AI)加速器210。在一个实现方式中，人工智能(AI)加速器210可以为图形处理单元(GPU)、神经处理单元(NPU)、矢量处理器、存储器处理单元等或它们的组合。人工智能(AI)加速器210可包括基于非对象的感兴趣区域(NOB-ROI)检测神经网络(NN)220、阈值选择模块225和感兴趣区域(ROI)图生成器230。基于非对象的感兴趣区域(NOB-ROI)检测神经网络(NN)220可接收视频帧235的流。例如，可接收如图4A所示的视频帧。基于非对象的感兴趣区域(NOB-ROI)检测神经网络(NN)220可被配置成生成多个候选基于非对象的感兴趣区域(NOB-ROI)块240。例如，基于非对象的感兴趣区域(NOB-ROI)检测神经网络(NN)可如图4B所示的那样生成多个候选基于非对象的感兴趣区域(NOB-ROI)块410。在一个实现方式中，基于非对象的感兴趣区域(NOB-ROI)检测神经网络(NN)220可以为深度神经网络(DNN)，该DNN包括用于确定基于非对象的感兴趣区域(NOB-ROI)块240和每个基于非对象的感兴趣区域(NOB-ROI)块240的对应的感兴趣概率(例如，置信度分数)的回归网络。例如，基于对象的感兴趣区域(OB-ROI)检测器神经网络140可确定相应的存储块(MB)是感兴趣的概率。

阈值选择模块225可接收多个候选基于非对象的感兴趣区域(NOB-ROI)块240。阈值选择模块225可被配置成标识多个选择的感兴趣区域(ROI)块245，每个ROI块具有大于预定阈值的概率。例如，可将具有大于预定阈值的概率的存储块标识为基于非对象的感兴趣区域(NOB-ROI)块420，如图4C所示。在一个实现方式中，基于非对象的感兴趣区域(NOB-ROI)块420可对应于图像的包括人的部分。可将具有小于预定阈值的概率的存储块标识为非感兴趣区域430。非感兴趣区域423可对应于图像的背景部分。在一个实现方式中，阈值选择模块225可指示选择的感兴趣区域的概率大于1％或其他指定阈值概率的存储块(MB)。例如，如果给定存储块(MB)具有大于阈值的概率，则可将该给定存储块(MB)指示为基于非对象的感兴趣区域(NOB-ROI)。然而，没有为基于非对象的感兴趣区域(NOB-ROI)确定关联对象类型。因此，如本文所使用的术语基于非对象的感兴趣区域(NOB-RIO)检测通常是指在无需标识关联对象类型的情况下对数据集内的对象的标识。如果给定存储块(MB)具有小于阈值的概率，则可将该给定存储块(MB)指示为非感兴趣区域。在一个实现方式中，感兴趣区域可对应于前景，而非感兴趣区域可对应于视频帧中的背景。

在其他实现方式中，阈值选择模块225可被配置成标识具有多个预定阈值范围内的概率的感兴趣区域(ROI)块245。例如，可将关联概率大于20％的存储块(MB)标识为感兴趣区域的第一级别，可将关联概率介于1％与20％之间的存储块(MB)标识为感兴趣区域的第二级别，并且可将关联概率小于1％的存储块(MB)标识为非感兴趣区域。

和常规视频处理系统对比，不将候选基于非对象的感兴趣区域(NOB-ROI)块240发送到中央处理单元(CPU)。另外，不执行候选基于非对象的感兴趣区域(NOB-ROI)块240的分类和非最大抑制(NMS)。因此，依照本技术的各方面的视频处理系统可减少通信带宽利用率和或减少与数据转移相关联的功耗。同样地，依照本技术的实施例的视频处理系统可减少中央处理器单元(CPU)利用率和或与由中央处理器单元(CPU)进行处理相关联的功耗。

感兴趣区域(ROI)图生成器模块230可接收多个选择的感兴趣区域(ROI)块245。感兴趣区域(ROI)图生成器模块230可被配置成生成感兴趣区域(ROI)图250，其包括用于感兴趣或不感兴趣的感兴趣区域(ROI)块的指示符。感兴趣区域(ROI)图可包括数据集的数据块的标识符以及选择和未选择的基于非对象的感兴趣区域(NOB-ROI)的标识符。例如，感兴趣区域(ROI)图可包括图像中的每个存储块的标识符440以及指示存储块是表示基于非对象的感兴趣区域(NOB-ROI)420的选择的块还是表示非感兴趣区域430的未选择的块的标识符450，如图4D所示。

现在参考图3，示出了依照本技术的各方面的感兴趣区域(ROI)图生成器模块230。感兴趣区域(ROI)图生成器模块230可在视频帧310的各块之上循环以确定给定存储块是否被标识为选择的基于非对象的感兴趣区域块。例如，感兴趣区域(ROI)图生成器模块230可确定给定存储块是否被指示为选择的块。如果给定存储块不是选择的存储块，则可将感兴趣区域图中对应的感兴趣区域(ROI)比特设定为第一值330。如果给定存储块是选择的存储块，则可将感兴趣区域图中对应的感兴趣区域(ROI)比特设定为第二值340。例如，如果给定存储块(MB)不是选择的存储块，则可将存储器图中与给定存储块(MB)相对应的感兴趣区域(ROI)比特设定为‘0’。如果给定存储块(MB)是选择的存储块，则可将存储器图中与给定存储块(MB)相对应的感兴趣区域(ROI)比特设定为‘1’。对于多级别感兴趣区域指示，可将感兴趣区域(ROI)图中对应的多比特值设定为对应的比特值。

再次参考图2，视频编码器215可接收视频帧235的流和感兴趣区域(ROI)图250。视频编码器215可被配置成基于感兴趣区域(ROI)图250生成压缩比特流255。在一个实现方式中，视频编码器215可被配置成以第一比特率(例如，低比特率)对具有对应的第一感兴趣区域(ROI)图比特值的存储块(例如，非感兴趣区域存储块)进行编码并以第二比特率(例如，高比特率)对具有对应的第二感兴趣区域(ROI)图比特值的存储块(例如，感兴趣区域存储块)进行编码。例如，可以高比特率对图4B所示的基于非对象的感兴趣区域(NOB-ROI)块410进行编码，然而可以较低的比特率对非感兴趣区域块420进行编码。在另一实现方式中，视频编码器215可被配置成以第一质量(例如，低质量)对具有对应的第一感兴趣区域(ROI)图比特值的存储块(例如，非感兴趣区域存储块)进行编码并以第二质量(例如，高质量)对具有对应的第二感兴趣区域(ROI)图比特值的存储块(例如，感兴趣区域存储块)进行编码。

依照本技术的各方面的基于非对象的感兴趣区域(NOB-ROI)视频处理系统有利地减少计算工作负载，因为对于可变速率视频编码不需要执行常规基于对象的感兴趣区域(OB-ROI)的对象分类。另外，经减少的计算工作负载可导致视频处理系统200的功耗减少。还可有利地完全在人工智能(AI)加速器210中执行基于非对象的感兴趣区域(NOB-ROI)。在基于非对象的感兴趣区域(NOB-ROI)中，不需要分类和非最大抑制(NMS)，因此可减少中央处理单元120的计算工作负载。中央处理单元120的计算工作负载的减少还可减少中央处理单元120中的功耗。另外，因为不需要将数据从人工智能(AI)加速器210转移到中央处理单元120以执行分类和非最大抑制(NMS)，所以有利地减少了人工智能(AI)加速器210与中央处理单元120之间的一个或多个通信链路的带宽利用率。从人工智能(AI)加速器210到中央处理单元120的数据传输的减少还可减少功耗。

现在参考图5，依照本技术的各方面的视频处理系统。视频处理系统500可包括人工智能(AI)加速器505、中央处理单元510和视频编码器515。人工智能(AI)加速器505和中央处理单元510可能可选择性地配置成检测视频帧的流中的基于非对象的感兴趣区域(NOB-ROI)或基于对象的感兴趣区域(OB-ROI)。

对于基于非对象的感兴趣区域(NOB-ROI)检测，人工智能(AI)加速器505可包括基于非对象的感兴趣区域(NOB-ROI)检测神经网络(NN)520、阈值选择模块525和感兴趣区域(ROI)图生成器模块530。基于非对象的感兴趣区域(NOB-ROI)检测神经网络(NN)520可接收视频帧535的流。基于非对象的感兴趣区域(NOB-ROI)检测神经网络520可被配置成生成多个候选基于非对象的感兴趣区域(NOB-ROI)块540。在一个实现方式中，基于非对象的感兴趣区域(NOB-ROI)检测神经网络520可以为深度神经网络(DNN)，该DNN包括用于确定基于非对象的感兴趣区域(NOB-ROI)块540和每个基于非对象的感兴趣区域(NOB-ROI)块540的对应的感兴趣概率(例如，置信度分数)的回归网络。例如，基于非对象的感兴趣区域(NOB-ROI)检测器神经网络520可确定相应的存储块(MB)是感兴趣的概率。

阈值选择模块525可接收多个候选基于非对象的感兴趣区域(NOB-ROI)块540。阈值选择模块525可被配置成标识多个选择的感兴趣区域(ROI)块545，每个ROI块545具有大于预定阈值的概率。在一个实现方式中，阈值选择模块525可指示选择的感兴趣区域的概率大于1％或其他指定阈值概率的存储块(MB)。例如，如果给定存储块(MB)具有大于阈值的概率，则可将该给定存储块(MB)指示为感兴趣区域。如果给定存储块(MB)具有小于阈值的概率，则可将该给定存储块(MB)指示为非感兴趣区域。在其他实现方式中，阈值选择模块525可被配置成标识具有多个预定阈值范围中的概率的选择的感兴趣区域(ROI)块545。例如，可将关联概率大于20％的存储块(MB)标识为感兴趣区域的第一级别，可将关联概率介于1％与20％之间的存储块(MB)标识为感兴趣区域的第二级别，并且可将关联概率小于1％的存储块(MB)标识为非感兴趣区域。

和常规视频处理系统对比，不将候选基于非对象的感兴趣区域(NOB-ROI)块540发送到中央处理单元(CPU)。另外，不执行候选基于非对象的感兴趣区域(NOB-ROI)块540的分类和非最大抑制(NMS)。因此，依照本技术的各方面的视频处理系统可减少通信带宽利用率和或减少与数据转移相关联的功耗。同样地，依照本技术的实施例的视频处理系统可减少中央处理器单元(CPU)利用率和或与由中央处理器单元(CPU)进行处理相关联的功耗。

感兴趣区域(ROI)图生成器530可接收多个选择的感兴趣区域(ROI)块545。感兴趣区域(ROI)图生成器530可被配置成生成感兴趣区域(ROI)图550，其包括用于感兴趣或不感兴趣的感兴趣区域(ROI)块的指示。感兴趣区域(ROI)图生成器530可如以上参考图3所描述的那样生成感兴趣区域(ROI)图550。

视频编码器515可接收视频帧535的流和感兴趣区域(ROI)图550。视频编码器515可被配置成基于感兴趣区域(ROI)图550生成压缩比特流555。在一个实现方式中，视频编码器515可被配置成以第一比特率(例如，低比特率)对具有对应的第一感兴趣区域(ROI)图比特值的存储块(例如，非感兴趣区域存储块)进行编码并以第二比特率(例如，高比特率)对具有对应的第二感兴趣区域(ROI)图比特值的存储块(例如，感兴趣区域存储块)进行编码。在另一实现方式中，视频编码器515可被配置成以第一质量(例如，低质量)对具有对应的第一感兴趣区域(ROI)图比特值的存储块(例如，非感兴趣区域存储块)进行编码并以第二质量(例如，高质量)对具有对应的第二感兴趣区域(ROI)图比特值的存储块(例如，感兴趣区域存储块)进行编码。

对于基于非对象的感兴趣区域(NOB-ROI)检测，人工智能(AI)加速器505还可包括基于对象的感兴趣区域检测器神经网络(NN)560。基于对象的感兴趣区域检测器神经网络560可接收视频帧535的流。基于对象的感兴趣区域(OB-ROI)检测器神经网络(NN)560可被配置成生成多个候选基于对象的感兴趣区域(OB-ROI)块565。在一个实现方式中，基于对象的感兴趣区域(OB-ROI)检测器神经网络560可以为深度神经网络(DNN)，该DNN包括用于确定基于对象的感兴趣区域(NOB-ROI)块565的回归网络和用于对象检测的分类网络。在一个实现方式中，候选基于对象的感兴趣区域(OB-ROI)块565可包括感兴趣区域的确定概率(例如，置信度分数)、感兴趣区域的对象类型等。在一个实现方式中，关联概率可包括给定感兴趣区域包括给定对象类型的对象的至少一部分的概率。例如，基于对象的感兴趣区域(OB-ROI)检测器神经网络560可确定存储块是否包括多种对象类型中的一种类型的对象和该对象类型的概率。可将不包括多种对象类型中的一种类型的对象的存储块分类为非感兴趣区域。每个存储块可以为像素值的预定矩阵大小(例如，16x16、64x64等)。

中央处理单元510可包括分类和非最大抑制(NMS)模块570。分类和非最大抑制(NMS)模块570可接收多个候选基于对象的感兴趣区域(OB-ROI)块565。分类和非最大抑制(NMS)模块570可被配置成基于关联概率对每种对象类型的候选基于对象的感兴趣区域(OB-ROI)块565进行分类。例如，多个候选基于对象的感兴趣区域(OB-ROI)块565可包括针对不同对象类型中的每一种按候选基于对象的感兴趣区域(OB-ROI)块565的对应的置信度分数分类的数百、数千或更多个候选。分类和非最大抑制(NMS)模块570还可被配置成组合多个重叠的基于对象的感兴趣区域(OB-ROI)块565以确定一个或多个感兴趣区域边界框。例如，可选择具有最高置信度分数的候选存储块(MB)作为给定对象类型的初始决定的边界框。具有下一个较低的置信度分数的相同对象类型的每个候选存储块(MB)与当前决定的边界框进行比较以确定它们重叠多少。如果当前候选存储块(MB)与当前决定的边界框重叠超过预定量(例如，50％)，则可忽视当前候选存储块(MB)。如果当前候选存储块(MB)与当前决定的边界框重叠小于预定量，则可将当前候选存储块(MB)添加到当前决定的边界框。候选存储块(MB)被处理，直到为每种对象类型确定一个边界框为止。

对于基于非对象的感兴趣区域(NOB-ROI)检测，视频编码器515可被配置成基于所确定的一个或多个感兴趣区域边界框生成压缩比特流555。在一个实现方式中，视频编码器515可被配置成以第一比特率对一个或多个感兴趣区域边界框中的数据进行编码并以第二比特率对一个或多个非感兴趣区域中的数据进行编码，其中第一比特率大于第二比特率。在另一实现方式中，视频编码器515可被配置成以第一质量对一个或多个感兴趣区域边界框中的数据进行编码并以第二质量对一个或多个非感兴趣区域中的数据进行编码。

对于基于非对象的感兴趣区域(NOB-ROI)检测，因为对于可变速率视频编码不需要执行对象分类，所以可减少视频处理系统500的计算工作负载。另外，经减少的计算工作负载可导致视频处理系统500的功耗减少。还可有利地完全在人工智能(AI)加速器505中执行基于非对象的感兴趣区域(NOB-ROI)。在基于非对象的感兴趣区域(NOB-ROI)中，不需要分类和非最大抑制(NMS)，因此可减少中央处理单元510的计算工作负载。中央处理单元120的计算工作负载的减少还可减少中央处理单元510中的功耗。另外，因为不需要将数据从人工智能(AI)加速器505转移到中央处理单元510以执行分类和非最大抑制(NMS)，所以有利地减少了人工智能(AI)加速器505与中央处理单元510之间的一个或多个通信链路的带宽利用率。从人工智能(AI)加速器505到中央处理单元510的数据传输的减少还可减少功耗。

现在参考图6，依照本技术的各方面的视频处理系统。视频处理系统600可包括人工智能(AI)加速器605、中央处理单元610和视频编码器615。人工智能(AI)加速器605和中央处理单元610可能可选择性地配置成检测视频帧的流中的基于非对象的感兴趣区域(NOB-ROI)或基于对象的感兴趣区域(OB-ROI)。

对于基于非对象的感兴趣区域(NOB-ROI)检测，人工智能(AI)加速器605可包括基于非对象的感兴趣区域(NOB-ROI)检测神经网络620、阈值选择模块625和感兴趣区域(ROI)图生成器模块630。基于非对象的感兴趣区域(NOB-ROI)检测神经网络(NN)620可接收视频帧635的流。基于非对象的感兴趣区域(NOB-ROI)检测神经网络(NN)620可被配置成生成多个候选基于非对象的感兴趣区域(NOB-ROI)块640。在一个实现方式中，基于非对象的感兴趣区域(NOB-ROI)检测神经网络620可以为深度神经网络(DNN)，该DNN包括用于确定基于非对象的感兴趣区域(NOB-ROI)块640和每个基于非对象的感兴趣区域(NOB-ROI)块640的对应的感兴趣概率(例如，置信度分数)的回归网络。例如，基于非对象的感兴趣区域(NOB-ROI)检测器神经网络620可确定给定存储块(MB)是感兴趣的概率。

中央处理单元610可包括简单分类模块675。简单分类模块675可接收多个候选基于非对象的感兴趣区域(OB-ROI)块640。简单分类模块675可被配置成基于关联概率对候选基于非对象的感兴趣区域(OB-ROI)块640进行分类。基于关联概率分类的候选基于非对象的感兴趣区域(OB-ROI)块可由阈值选择模块625接收。阈值选择模块625可被配置成标识具有最高关联概率的预定数量的多个选择的感兴趣区域(ROI)块645。例如，可将具有最高关联概率的100个存储块(MB)指示为感兴趣区域。可将其他存储块(MB)指示为非感兴趣区域。

感兴趣区域(ROI)图生成器模块630可接收多个选择的感兴趣区域(ROI)块645。感兴趣区域(ROI)图生成器模块630可被配置成生成包括用于感兴趣的感兴趣区域(ROI)块的指示的感兴趣区域(ROI)图650。感兴趣区域(ROI)图生成器630可如以上参考图3所描述的那样生成感兴趣区域(ROI)图650。

视频编码器615可接收视频帧635的流和感兴趣区域(ROI)图650。视频编码器615可被配置成基于感兴趣区域(ROI)图650生成压缩比特流655。在一个实现方式中，视频编码器615可被配置成以第一比特率(例如，低比特率)对具有对应的第一感兴趣区域(ROI)图比特值的存储块(例如，非感兴趣区域存储块)进行编码并以第二比特率(例如，高比特率)对具有对应的第二感兴趣区域(ROI)图比特值的存储块(例如，感兴趣区域存储块)进行编码。在另一实现方式中，视频编码器615可被配置成以第一质量(例如，低质量)对具有对应的第一感兴趣区域(ROI)图比特值的存储块(例如，非感兴趣区域存储块)进行编码并以第二质量(例如，高质量)对具有对应的第二感兴趣区域(ROI)图比特值的存储块(例如，感兴趣区域存储块)进行编码。

人工智能(AI)加速器605和中央处理单元(CPU)610基本上与如以上参考图4所描述的那样相同地操作以进行基于非对象的感兴趣区域(NOB-ROI)检测，因此将不在此进一步描述。

对于基于非对象的感兴趣区域(NOB-ROI)检测，因为对于可变速率视频编码不需要执行对象分类，所以可减少视频处理系统600的计算工作负载。另外，经减少的计算工作负载可导致视频处理系统600的功耗减少。还可有利地完全在人工智能(AI)加速器605中执行基于非对象的感兴趣区域(NOB-ROI)。在基于非对象的感兴趣区域(NOB-ROI)中，不需要分类和非最大抑制(NMS)，因此可减少中央处理单元610的计算工作负载。中央处理单元610的计算工作负载的减少还可减少中央处理单元610中的功耗。另外，因为不需要将数据从人工智能(AI)加速器605转移到中央处理单元610以执行分类和非最大抑制(NMS)，所以有利地减少了人工智能(AI)加速器605与中央处理单元610之间的一个或多个通信链路的带宽利用率。从人工智能(AI)加速器605到中央处理单元610的数据传输的减少还可减少功耗。

现在参考图7，示出了依照本技术的各方面的包括视频处理单元的示例性处理单元。处理单元705可包括一个或多个通信接口如外围组件接口(PCIe4)710和集成电路间(I²C)接口715、片上电路测试器如联合测试行动小组(JTAG)引擎720、直接存储器存取引擎725、命令处理器(CP)730和一个或多个核心735-750。一个或多个核心735-750可以方向环总线配置耦合。一个或多个核心735-750可执行一个或多个计算设备可执行指令集以执行一个或多个功能，包括但不限于如上所述的基于非对象的感兴趣区域(NOB-ROI)检测220、阈值选择225和感兴趣区域(ROI)图生成。一个或多个功能可在个别核心735-750上被执行，可以跨多个核心735-750分布，可连同一个或多个核心上的一个或多个其他功能一起被执行等。

处理器单元705可以为中央处理单元(CPU)、图形处理单元(GPU)、神经处理单元(NPU)、矢量处理器、存储器处理单元等或它们的组合。在一个实现方式中，可在诸如但不限于云计算平台、边缘计算设备、服务器、工作站、个人计算机(PC)等的计算设备中实现一个或多个处理器705。

现在参考图8，示出了依照本技术的各方面的示例性处理核心的框图。处理核心800可包括张量引擎(TE)810、池化引擎(PE)815、存储器复制引擎(ME)820、定序器(SEQ)825、指令缓冲器(IB)830、本地存储器(LM)835和常数缓冲器(CB)840。本地存储器835可以被预先安装有模型权重并且可及时存储使用中的激活。常数缓冲器840可存储用于批量归一化、量化等的常数。可利用张量引擎810来加速融合卷积和/或矩阵乘法。池化引擎815可支持池化、内插、感兴趣区域等操作。存储器复制引擎820可被配置用于核心间和核心内数据复制、矩阵转置等。张量引擎810、池化引擎815和存储器复制引擎820可并行地运行。定序器825可根据来自指令缓冲器830的指令来协调张量引擎810、池化引擎815、存储器复制引擎820、本地存储器835和常数缓冲器840的操作。处理单元核心800可在融合了诸如感兴趣区域检测、比特率控制、可变比特率视频编码和或类似物的功能的粗粒度指令的操作的控制下提供视频编译高效计算。示例性处理单元核心800的详细描述不是理解本技术的各方面所必需的，并因此将不在此进一步描述。

已出于说明和描述的目的呈现了本技术的具体实施例的前面的描述。它们并不旨在为详尽的或者将本技术限制为所公开的精确形式，并且显然，许多修改和变化鉴于以上教导是可能的。实施例被选取和描述以便最好地说明本技术的原理及其实际应用，从而使得本领域的其他技术人员能够最好地利用本技术以及具有如适于设想的特定用途的各种修改的各种实施例。本发明的范围旨在由所附权利要求及其等同物来限定。

Claims

1.一种视频处理单元，所述视频处理单元包括：

人工智能加速器，所述人工智能加速器包括：

基于非对象的感兴趣区域检测神经网络，所述基于非对象的感兴趣区域检测神经网络被配置成接收视频帧并生成多个所述视频帧的候选基于非对象的感兴趣区域块；基于非对象的感兴趣区域检测通常是指在无需标识关联对象类型的情况下对数据集内的对象的标识；

阈值选择模块，所述阈值选择模块被配置成接收所述多个候选基于非对象的感兴趣区域块并基于预定阈值标识多个选择的基于非对象的感兴趣区域块；和

感兴趣区域图生成器，所述感兴趣区域图生成器被配置成接收所述多个选择的基于非对象的感兴趣区域块并生成感兴趣区域图。

2.根据权利要求1所述的视频处理单元，其中所述基于非对象的感兴趣区域检测神经网络包括深度神经网络，所述深度神经网络包括被配置成确定所述多个候选基于非对象的感兴趣区域块和所述多个候选基于非对象的感兴趣块的对应的感兴趣概率的回归网络。

3.根据权利要求2所述的视频处理单元，其中所述阈值选择模块被配置成标识具有比所述预定阈值大的对应的感兴趣概率的所述多个选择的非对象的感兴趣区域块。

4.根据权利要求1所述的视频处理单元，其中所述候选基于非对象的感兴趣区域块包括像素值的预定矩阵大小的存储块。

5.根据权利要求1所述的视频处理单元，还包括：

视频编码器，所述视频编码器被配置成接收所述视频帧和所述感兴趣区域图并且基于所述感兴趣区域图对所述视频帧进行差分编码。

6.根据权利要求5所述的视频处理单元，其中所述感兴趣区域图包括与所述视频帧的多个存储块相对应的多个比特，其中第一比特值指示对应的存储块包括感兴趣区域并且第二比特值指示对应的存储块包括非感兴趣区域。

7.根据权利要求6所述的视频处理单元，其中：

与所述感兴趣区域图的具有所述第一比特值的比特相对应的存储块被以第一比特率编码；并且

与所述感兴趣区域图的具有所述第二比特值的比特相对应的存储块被以第二比特率编码，其中所述第二比特率小于所述第一比特率。

8.根据权利要求6所述的视频处理单元，其中：

与所述感兴趣区域图的具有所述第一比特值的比特相对应的存储块被以第一质量编码；并且

与所述感兴趣区域图的具有所述第二比特值的比特相对应的存储块被以第二质量编码，其中所述第二质量小于所述第一质量。

9.一种视频处理单元，所述视频处理单元包括：

人工智能加速器，所述人工智能加速器包括：

阈值选择模块，所述阈值选择模块被配置成接收所述多个候选基于非对象的感兴趣区域块并基于预定阈值标识多个选择的基于非对象的感兴趣区域块；

感兴趣区域图生成器，所述感兴趣区域图生成器被配置成接收所述多个选择的基于非对象的感兴趣区域块并生成感兴趣区域图；和

基于对象的感兴趣区域检测神经网络，所述基于对象的感兴趣区域检测神经网络被配置成接收所述视频帧并生成多个候选基于对象的感兴趣区域块；以及

中央处理单元，所述中央处理单元包括：

分类和非最大抑制（NMS）模块，所述分类和NMS模块被配置成接收所述多个候选基于对象的感兴趣区域块，基于关联概率针对相应的对象类型来对所述多个候选基于对象的感兴趣区域块进行分类，并且组合多个重叠的基于对象的感兴趣区域块以为相应的对象类型确定一个或多个感兴趣区域边界框。

10.根据权利要求9所述的视频处理单元，其中所述基于非对象的感兴趣区域检测神经网络包括深度神经网络，所述深度神经网络包括被配置成确定所述多个候选基于非对象的感兴趣区域块和所述多个候选基于非对象的感兴趣区域块的对应的感兴趣概率的回归网络。

11.根据权利要求9所述的视频处理单元，其中所述阈值选择模块被配置成标识具有比所述预定阈值大的对应的感兴趣概率的所述多个选择的非对象的感兴趣区域块。

12.根据权利要求9所述的视频处理单元，其中基于对象的感兴趣区域检测神经网络包括深度神经网络，所述深度神经网络包括：

回归网络，所述回归网络被配置成确定所述多个候选基于对象的感兴趣区域块和所述多个候选基于对象的感兴趣区域块的对应的感兴趣概率；以及

分类网络，所述分类网络被配置成确定所述多个候选基于对象的感兴趣区域块的对应的对象类型。

13.根据权利要求9所述的视频处理单元，其中所述人工智能加速器被配置成由所述基于非对象的感兴趣区域检测神经网络选择性地生成所述多个候选基于非对象的感兴趣区域块或者由所述基于对象的感兴趣区域检测神经网络生成所述多个候选基于对象的感兴趣区域块。

14.根据权利要求13所述的视频处理单元，还包括：

视频编码器，所述视频编码器被配置成接收所述视频帧并接收所述感兴趣区域图或一个或多个感兴趣区域边界框，并且基于所述感兴趣区域图或所述一个或多个感兴趣区域边界框对所述视频帧进行差分编码。

15.一种视频处理的方法，所述方法包括：

为视频帧生成多个候选基于非对象的感兴趣区域块，其中所述候选基于非对象的感兴趣区域块中的每一个均包括对应的置信度分数；基于非对象的感兴趣区域检测通常是指在无需标识关联对象类型的情况下对数据集内的对象的标识；

标识包括候选基于非对象的感兴趣区域块的多个选择的非对象的感兴趣区域块，每个选择的感兴趣区域块具有大于预定阈值分数的置信度分数；以及

基于所述多个选择的非对象的感兴趣区域块生成感兴趣区域图；

所述方法还包括：

选择性地生成所述多个候选基于非对象的感兴趣区域块或者生成多个候选基于对象的感兴趣区域块，其中所述候选基于对象的感兴趣区域块包括对应的置信度分数和对应的对象类型；

基于所述对应的置信度分数对所述对应的对象类型的多个候选基于对象的感兴趣区域块进行分类；以及

组合所述多个候选基于对象的感兴趣区域块中的多个重叠的候选基于对象的感兴趣区域块以确定一个或多个感兴趣区域边界框。

16.根据权利要求15所述的视频处理方法，其中生成所述感兴趣区域图包括：

对于视频帧的存储块，确定给定存储块是否是选择的感兴趣区域块；

如果所述给定存储块是所述多个选择的基于非对象的感兴趣区域块中的一个，则将所述感兴趣区域图中与所述给定存储块相对应的比特值设定为第一值；以及

如果所述给定存储块不是所述多个选择的非对象的感兴趣区域块中的一个，则将所述感兴趣区域图中与所述给定存储块相对应的所述比特值设定为第二值。

17.根据权利要求16所述的视频处理方法，还包括：

基于所述感兴趣区域图将所述视频帧差分编码为压缩比特流。

18.根据权利要求17所述的视频处理方法，其中对所述视频帧进行差分编码包括：

以第一比特率对与所述感兴趣区域图的设定为第一感兴趣区域图比特值的比特相对应的存储块进行编码；以及

以第二比特率对与所述感兴趣区域图的设定为第二感兴趣区域图比特值的比特相对应的存储块进行编码。

19.根据权利要求15所述的视频处理方法，还包括：

以第一比特率对所述一个或多个感兴趣区域边界框内部的存储块进行编码；以及

以第二比特率对所述一个或多个感兴趣区域边界框外部的存储块进行编码。