CN114616832A

CN114616832A - 基于网络的视觉分析

Info

Publication number: CN114616832A
Application number: CN202080064266.6A
Authority: CN
Inventors: 陈卓; 范逵; 林维斯; 段凌宇; 葛治中
Original assignee: Peking University; Nanyang Technological University
Current assignee: Peking University; Nanyang Technological University
Priority date: 2019-09-11
Filing date: 2020-09-11
Publication date: 2022-06-10
Also published as: WO2021050007A1

Abstract

本申请提供了一种用于基于网络的视觉分析的视觉数据传输方法。所述方法包括：在成像设备处获得与场景相关的传感器数据；基于所述传感器数据从深度学习模型的中间层提取中间深层特征；基于所述中间深层特征生成编码视频数据；以及将所述编码视频数据传送至视觉分析装置，以根据所述编码视频数据进行视觉分析。本申请还提供了相应的基于网络的可视化分析方法。所述方法包括：在视觉分析装置处接收来自成像装置的编码视频数据，所述成像装置被配置为获得与场景相关的传感器数据；基于所述编码视频数据生成解码视频数据；基于所述解码视频数据生成深度学习模型的中间深层特征；并基于所述中间深层特征进行视觉分析。本申请还相应地提供了一种用于基于网络的视觉分析的视觉数据传输的成像设备和一种用于基于网络的视觉分析的视觉分析设备。

Description

基于网络的视觉分析

相关申请的交叉引用

本申请要求于2019年9月11日提交的新加坡专利申请第10201908371Q号的优先权，其内容通过整体引入的方式并入本文以用于所有目的。

技术领域

本申请总体上涉及基于网络的视觉分析，更具体地，涉及一种用于基于网络的视觉分析的视觉数据传输方法、用于基于网络的视觉分析的视觉数据传输的相应成像设备、相应的基于网络的视觉分析方法、相应的基于网络的视觉分析的视觉分析装置以及相应的基于网络的视觉分析系统。

发明背景

随着网络基础设施的进步，近年来基于网络(如基于云)的视觉分析应用呈现爆炸式增长，如监控分析、智慧城市、视觉定位、自动驾驶等。在基于云的视觉分析中，视觉信号由前端(在本文中可互换地称为前端设备、前侧设备、边缘侧设备、边缘设备等)获取，并且分析在服务器端(其可互换称为服务器、云端、云服务器、云端服务器、云端侧服务器等)完成。例如，如图1所示，前端设备可以从用户或物理世界获取信息，这些信息随后可以通过无线网络传输到服务器端(例如，数据中心)以进行进一步的处理和分析。特别地，图1描绘了示例性基于网络的视觉分析应用的示意图。图像和视频可以在前端获取，分析可以在服务器端(例如，云端)进行。随着深度学习模型在计算机视觉(例如各种计算机视觉任务)中表现出无与伦比的性能，视觉分析应用程序(例如基于云的视觉分析)越来越依赖于深层神经网络(DNNs)，例如对象检测、车辆和人员重识别(ReID)、车牌识别、人脸识别、行人检测、地标检索、自动驾驶等。

对于前端和服务器端之间的数据通信，最传统的范例可以被称为“压缩-然后-分析”，例如，如图2A所示。特别地，图2A图示了与传统的“压缩-然后-分析”方法相关的视觉信号传输。通过传输视觉信号，可以在云端执行一系列视觉分析任务。因此，包括特征提取和分析在内的计算负载被强加在云端。因此，视觉信号在前端设备中被捕获和压缩，然后编码比特流被传送到云端服务器。随后，可以根据解码的视觉信号在云端服务器中执行特征提取和视觉分析任务。作为范例的基础架构，图像/视频压缩已经得到了很好的发展和成熟。作为当前一代的视频编码标准，与上一代H.264/MPEG-4高级视频编码(AVC)相比，高效视频编码(HEVC)在相同的感知视觉质量水平下实现了一半的比特率降低。下一代视频编码标准化，多功能视频编码(VVC)正在进行中，并且已经实现了优于HEVC的性能。

尽管得到了完善的标准和基础设施的支持，但当系统扩大规模时，“压缩-然后-分析”的范例是有问题的。例如，在物联网(IoT)和视频监控等应用场景中，成千上万的前端摄像头可以同时生成大量的视觉信号。传输带宽可能是一个瓶颈，因为信号级压缩受到高传输负担的影响。此外，视觉信号的特征提取是计算密集型的，尤其是使用深层神经网络，这使得在云端服务器中同时分析大规模视觉数据变得难以承受。也就是说，信号级视觉压缩带来了很高的传输负担，同时为特征提取而同时执行的众多深度学习模型的计算负载也成为云端的一个重要瓶颈。

图2B描绘了用于前端和服务器端之间的数据通信的另一种策略“分析-然后-压缩”。特别地，图2B说明了与传统的“分析-然后-压缩”方法相关的最终特征(即顶层特征，例如来自深层神经网络的全连接层的深层特征)传输。计算负载可以分配到前端设备。使用这种策略，数据采集和特征提取都发生在前端设备中，并且只有最终使用的特征(即顶层特征，在本文中可以互换地称为最终特征)而不是视觉信号被压缩并传输到云端。特别是，图2B说明了与传统的“分析-然后-压缩”方法相关的最终特征传输。通过这种方法，可以将计算负载分配到前端设备。但是，根据前端使用的深度模型，只能在服务器端执行特定类型的分析。它为大规模的基于云的可视化分析系统提供了一个可行的解决方案，因为它的终极特性是紧凑的，能够在云端直接用于分析。此外，可以提取最终特征以反映抽象语义，这在很大程度上消除了输入信号中的可见信息。

因此，可以通过传达最终特征而不是信号级数据通信来控制隐私泄露的风险。这种范例也得到了一些手工制作的终极特征的特征编码标准的支持。在图像检索应用的背景下，运动图像专家组(MPEG)于2015年发布了用于视觉搜索的紧凑描述符(CDVS)。基于CDVS、MPEG提出了用于视频分析的紧凑描述符标准化(CDVA)来处理视频检索应用程序。

对于手工制作的终极特征，来自MPEG的包括MPEG-CDVS和MPEG-CDVA的标准可以指定特征提取和压缩过程。对于深度学习特征，将深度学习模型的顶层特征(最终特征，例如来自深层神经网络的全连接层的深层特征)传输到云端，因为深度模型的顶层特征是结构紧凑，可以直接用于分析。例如，在人脸识别任务中，人脸的终极特征可能只有脸书换脸软件中的4K、谷歌人脸识别系统中的128、商汤科技DeepID3中的300。在这种场景下，只需要在云服务器上进行特征比较等轻量级操作，而将特征提取的繁重工作量分散到前端。此外，传输终极特征也可能有利于隐私保护。特别是，与其直接传递容易暴露隐私的视觉信号，最终的特征通信可以在很大程度上避免暴露可见信息。

尽管传达最终特征的数据传输策略可能具有许多优点，但可能阻碍最终特征通信的实际实施的一个障碍是最终特征通常位于特定任务的，这使得传输的特征(最终特征)难以应用于各种分析任务。也就是说，可能阻碍深度学习特征压缩应用的一个障碍是，深度学习模型通常是为特定任务设计和训练的，最终特征非常抽象和任务特定，使得这种压缩特征(最终特征)难于通用。这也可能阻碍深层特征编码的进一步标准化，因为标准化的深层特征可能需要很好地泛化以确保在各种应用场景中的互操作性。

因此存在提供基于网络的视觉分析的需要，例如用于基于网络的视觉分析的视觉数据传输方法和基于网络的视觉分析的相应方法，其寻求克服或至少改善传统的基于网络的可视化分析中的一个或多个缺陷，例如但不限于在执行可视化分析时减少服务器端的计算负载，而不会过度或不令人满意地限制不同类型的可视化分析范围内的服务器端的可用性或可应用性的应用程序或任务。正是在这种背景下开发了本申请。

发明内容

根据本申请的第一方面，提供了一种用于基于网络的视觉分析的视觉数据传输方法，所述方法包括：

在成像设备处获得与场景相关的传感器数据；

基于所述传感器数据从深度学习模型的中间层提取中间深层特征；

基于所述中间深层特征生成编码视频数据；和

将所述编码视频数据传输到视觉分析设备，用于基于所述编码视频数据进行视觉分析。

根据本申请的第二方面，提供了一种基于网络的视觉分析方法，所述方法包括：

在视觉分析装置处接收来自成像装置的编码视频数据，所述成像装置被配置为获得与场景相关的传感器数据；

基于所述编码视频数据生成解码视频数据；

基于所述解码视频数据生成深度学习模型的中间深层特征；和

基于所述中间深层特征进行视觉分析。

根据本申请的第三方面，提供了一种用于基于网络的视觉分析的视觉数据传输的成像设备，所述成像设备包括：

一存储器；和

至少一处理器，通信地连接到所述存储器并且被配置为执行根据本申请的上述第一方面的用于基于网络的视觉分析的视觉数据传输方法。

根据本申请的第四方面，提供了一种基于网络的视觉分析的视觉分析装置，所述视觉分析装置包括：

一存储器；和

至少一个处理器，通信地连接到所述存储器并且被配置为执行根据本申请上述第二方面的基于网络的视觉分析方法。

根据本申请的第五方面，提供了一种基于网络的视觉分析系统，所述基于网络的视觉分析系统包括：

一个或多个成像设备，每个成像设备被配置用于根据本申请上述第三方面的基于网络的视觉分析的视觉数据传输；和

一视觉分析设备，用于基于网络的视觉分析，被配置根据本申请的上述第四方面，其中，所述视觉分析设备被配置为分别从一个或多个成像设备接收编码视频数据。

根据本申请的第六方面，提供了一种计算机程序产品，所述产品存储在一个或多个非暂时性计算机可读存储介质中，所述产品包括指令，所述指令可由至少一个处理器运行以执行根据本申请上述第一方面的用于基于网络的视觉分析的视觉数据传输方法。

根据本申请的第七方面，提供了一种计算机程序产品，所述产品存储在一个或多个非暂时性计算机可读存储介质中，所述产品包括指令，所述指令可由至少一个处理器运行以执行根据本申请上述第一方面的用于基于网络的视觉分析的视觉数据传输方法。

附图说明

从以下仅作为示例并结合附图的书面描述中，本申请的各个实施例将更好理解，并对本领域普通技术人员显而易见，其中：

图1描绘了基于网络的视觉分析应用的示例性示意图；

图2A描绘了与传统的“压缩-然后-分析”方法相关的视觉信号传输；

图2B描绘了与传统的“分析-然后-压缩”方法相关的最终特征(即顶层特征)传输；

图3描绘了根据本申请的各种实施例的用于基于网络的视觉分析的视觉数据传输方法的流程图；

图4描绘了根据本申请的各种实施例的基于网络的视觉分析方法的流程图；

图5描绘了根据本申请的各个实施例的用于基于网络的视觉分析的视觉数据传输的成像设备的示意框图；

图6描绘了根据本申请的各个实施例的用于基于网络的视觉分析的视觉分析设备的示意框图；

图7描绘了示例便携式计算设备，所述便携式计算设备为如图5仅作为示例描述的成像设备；

图8描绘了示例性计算机系统的示意性框图，其中，所述视觉分析设备为参照图6仅作为示例描述的视觉分析设备；

图9描绘了根据本申请的各种实施例的基于网络的视觉分析系统900的示意框图；

图10描绘了根据本申请的各种示例实施例的比较与三种数据传输策略或方法相关的各种属性的表(表1)，即传统的“压缩-然后-分析”方法(“传输视频信号”)、“分析-然后-压缩”方法(“传输终极特征”)和数据传输方法(“传输中间特征”)；

图11描绘了根据本申请的各种示例实施例的基于网络的(例如，基于云的)视觉分析系统的示意图；

图12描绘了根据各种示例实施例的总结中间深层特征的可用性的表格(表2)；

图13描绘了根据本申请的各种示例实施例的VGGNet的可视化特征图；

图14A和14B描绘了根据本申请的各种示例实施例的基于网络的视觉分析的示意流程图；

图15A到15D描绘了根据本申请的各种示例实施例的表明VGGNet-16和ResNet-50的特征图的分布图；

图16描绘了根据本申请的各种示例实施例的用于按距离信道级联的方法的算法；

图17A描绘了根据本申请的各种示例实施例的按距离信道级联方法的示例图；

图17B描绘了根据本申请的各种示例实施例的信道平铺方法的示例图；

图18描绘了根据本申请的各种示例实施例的用于计算文档的两个排序序列之间的相似度的方法的算法；

图19描绘了根据本申请的各种示例实施例的显示有损特征压缩结果的表(表3)；

图20A到20E示出了根据本申请的各种示例实施例的比较基线、朴素信道级联、按距离信道级联和信道平铺的关系图；

图21描绘了根据本申请的各种示例实施例，示出了两种预量化方法(均匀和对数)在不同特征类型和位深度上的保真度比较的表(表4)；

图22A和22B描绘了根据本申请的各种示例实施例列出VGGNet-16和ResNet-101上的有损压缩结果的表格(分别为表5和6)；以及

图23描绘了根据本申请的各种示例实施例的基于网络的视觉分析的示意流程图。

具体实施方式

本申请的各个实施例涉及基于网络的视觉分析，更具体地，涉及一种用于基于网络的视觉分析的视觉数据传输方法、一种用于基于网络的视觉分析的视觉数据传输的相应成像设备、相应的基于网络的视觉分析方法、相应的基于网络的可视化分析的视觉分析装置以及相应的基于网络的视觉分析系统。在各种实施例中，基于网络的视觉分析可以指至少基于通过网络传输的视觉数据执行的视觉分析。在各种实施例中，视觉数据可以是包括或由成像设备获得的与以场景相关的传感器数据形成的任何数据，例如由相机的图像传感器捕获或感测的场景的静止或视频图像数据。在各种实施例中，网络可以是任何有线或无线通信网络，例如但不限于以太网、蜂窝或移动通信网络(例如，3G、4G、5G或更高代的移动通信网络)、Wi-Fi、有线或无线传感器网络、卫星通信网络、有线或无线个人或局域网等。在各种实施例中，视觉数据可以是基于任何视频编码/解码技术或技术编码的编码视频数据，例如但不限于高级视频编码(AVC)、高效视频编码(HEVC)或多功能视频编码(VVC)。

如背景所讨论的，关于基于网络的可视化分析，对于前端和服务器端之间的数据通信，传统的范例或方法包括“压缩-然后-分析”方法(例如，如图2A所示)或“分析-然后-压缩”方法(例如，如图2B所示)。相对于“压缩-然后-分析”的方式，信号级的视觉压缩带来了很高的传输负担，而在服务器端同时执行的大量深度学习模型进行特征提取的计算负荷也成为服务器的一个重要瓶颈。关于“分析-然后-压缩”方法(如图2B所示)，最终特征(即顶层特征，例如来自深层神经网络的全连接层的深层特征，在一维(1D)数组的形式(也可以称为一维特征向量))非常抽象和任务特定化，使得这种压缩特征难以泛化，从而阻碍了传输的最终特征的实际实现各种可视化分析应用程序或任务。

因此，本申请的各种实施例提供了基于网络的视觉分析，例如用于基于网络的视觉分析的视觉数据传输方法和基于网络的视觉分析的相应方法，其寻求克服或在至少改善了传统的基于网络的视觉分析中的一个或多个缺陷，例如但不限于在执行视觉分析时减少服务器端的计算负载，而不会过度或不令人满意地限制(例如，没有或最小化限制)在服务器端的不同类型的可视化分析应用程序或任务范围内的可用性或可利用性。

图3描绘了根据本申请的各种实施例的用于基于网络的视觉分析的视觉数据传输方法300的流程图。所述方法300包括：302，在成像设备处获得与场景有关的传感器数据；304，基于所述传感器数据从深度学习模型的中间层提取中间深层特征；306，基于所述中间深层特征生成编码视频数据；以及308，将所述编码视频数据传输到视觉分析设备，以用于基于所述编码视频数据执行视觉分析。

在各种实施例中，关于302，由所述成像设备获得的与场景相关的传感器数据可以是由所述成像设备的图像传感器捕获或感测的场景的静止或视频图像数据。在各种实施例中，成像设备可以是具有图像捕捉组件或单元(例如，图像传感器)、通信功能或能力(例如，有线或无线通信接口)的任何设备(也可以体现为系统或装置)、存储器和至少一个与存储器通信连接的处理器，例如但不限于智能手机、可穿戴设备(例如，智能手表、头戴式显示器(HDM)设备等)和照相机(例如，便携式照相机、监控照相机、车辆或仪表板照相机等)。

在各种实施例中，关于304，深度学习模型可以是深层神经网络，例如，一卷积神经网络(CNN)，其包括输入层、卷积层、全连接层的和一个输出层。本领域技术人员可以理解深度学习模型的中间层。例如，CNN的中间层可能对应于卷积层之一。因此，中间特征是从深度学习模型的中间层获得(提取)的特征，其形式为多维数组(即二维或多维)。在各种实施例中，中间特征包括多个特征图，每个特征图以二维(2D)阵列的形式。例如，来自中间层的激活(例如，通过诸如整流线性单元(ReLU)之类的激活函数)可以被视为或构成多个特征图。传感器数据可以输入到深层神经网络的输入层。

在各种实施例中，关于306，编码视频数据可以通过任何视频编码/解码技术或技术进行编码，例如但不限于高级视频编码(AVC)、高效视频编码(HEVC)或多功能视频编码(VVC)。

在各种实施例中，关于308，编码视频数据可以通过任何有线或无线通信网络传输，例如但不限于以太网、蜂窝或移动通信网络(例如，3G、4G、5G或更新一代移动通信网络)、Wi-Fi、有线或无线传感器网络、卫星通信网络、有线或无线个人或局域网等。

因此，用于基于网络的视觉分析的视觉数据传输方法300有利地减少了视觉分析设备(例如，服务器端)在执行视觉分析时的计算负载，而没有过度或不令人满意的限制(例如，没有或最小化限制)在视觉分析设备的不同类型的视觉分析应用程序或任务范围内的可用性或可利用性。特别地，基于来自基于传感器数据的深度学习模型的中间层的中间深层特征的编码视频数据被有利地传输到视觉分析设备，用于基于编码视频数据执行视觉分析。随着根据本申请的各种实施例或示例实施例更详细地描述基于网络的视觉分析，这些优点或技术效果对于本领域技术人员将变得更加明显。

在各种实施例中，所述编码视频数据是基于视频编解码器生成的。在各种实施例中，视频编解码器可以根据需要或适当地基于任何视频编码/解码技术或科学技术，例如但不限于高级视频编码(AVC)、高效视频编码(HEVC)或通用视频编码(VVC)。

在各种实施例中，中间深层特征包括多个特征图。在这点上，方法300还包括基于多个特征图生成视频格式数据，并且上述生成(在306)编码视频数据包括使用视频编解码器编码视频格式数据以生成编码视频数据。在各种实施例中，视频格式数据可以是被配置为适合或适用视频编解码器的输入以供视频编解码器将视频格式数据编码成编码视频数据的任何数据，例如视频序列格式数据(例如，YUV400格式数据)。

在各种实施例中，上述生成视频格式数据包括基于重新打包技术重新打包多个特征图以生成视频格式数据。在各种实施例中，重新打包技术可以被配置为将多个特征图分组或组织(或重新组合或重新组织)成有序的多个特征图，从而生成视频格式数据。例如，有序的多个特征图可以具有与之前相同或不同的顺序。例如，重新打包技术可以被配置为提高视频编解码器相对于输入到其的视频格式数据的编码效率。

在各种实施例中，重新打包技术基于信道级联或信道平铺。在各种实施例中，信道级联可以是朴素信道级联技术或按距离信道级联技术。下面将根据本申请的各种示例实施例在下文中更详细地描述朴素信道级联技术或按距离信道级联技术。

在各种实施例中，重新打包技术基于上述信道级联，并且更具体地，基于按距离信道级联技术。在这点上，上述信道级联包括确定与多个特征图相关联的多个信道间距离，每个信道间距离与多个特征图的一对特征图相关联，以及以上提及的重新打包多个特征图包括形成多个重新打包的特征图，多个重新打包的特征图通过基于确定的多个信道间距离排序以生成包括多个重新打包的特征图的视频格式数据。在各种实施例中，多个重新打包的特征图可以简单地指代已经通过重新打包技术重新打包的结果的多个特征图。在各种示例实施例中，可以为多个特征图的每对唯一的特征图确定信道间距离。

在各种实施例中，重新打包技术基于上述信道平铺，并且上述信道平铺包括基于多个特征图形成一个或多个重新打包的特征图以生成包括一个或多个重新打包的特征图的视频格式数据，每个重新打包的特征图是一个放大的特征图。在各种实施例中，一个或多个重新打包的特征图可以简单地指代已通过重新打包技术重新打包的结果一个或多个特征图。在各种实施例中，可以通过以平面方式平铺或接合多个特征图中的两个或更多个以形成放大的2D阵列来形成放大的特征图。

在各种实施例中，方法300还包括分别量化(也可以互换地称为预量化)多个特征图以获得多个量化特征图(其也可以互换地称为多个预量化的特征图)。在这点上，基于所述多个量化特征图生成视频格式数据。在各种实施例中，可以执行量化以将多个特征图的数值类型从浮点格式修改为整数格式和/或减少多个特征图的数据量。

在各种实施例中，所述方法300还包括：确定多个特征图是浮点格式还是整数格式；如果确定所述多个特征图为浮点格式，则量化所述多个特征图以分别获得多个量化特征图。在这方面，如果确定多个特征图是整数格式，则所述视频格式数据是基于多个特征图生成的，无需上述提及的量化所述多个特征图；或者，如果所述多个特征图被确定为浮点格式，则所述视频格式数据是基于多个量化特征图生成的。即，如果多个特征图是浮点格式，则可以修改或转换为整数格式，否则(即，如果多个特征图已经是整数格式)，上述量化多个特征图的步骤可以跳过。在各种实施例中，可以基于与多个特征图相关联的数字类型信息(例如，标志或标识符)来确定多个特征图的数字类型(例如，浮点格式或整数格式)。

在各种实施例中，基于均匀量化技术、对数量化技术或基于学习的自适应量化技术对多个特征图进行量化。下面将根据本申请的各种示例实施例在下文中更详细地描述均匀量化技术、对数量化技术或基于学习的自适应量化技术。

图4描绘了基于网络的视觉分析方法400的流程图。所述方法400包括：402，在视觉分析装置处接收来自成像装置的编码视频数据，所述成像装置被配置为获得与场景相关的传感器数据；404，基于所述编码视频数据生成解码视频数据；406，基于所述解码视频数据生成深度学习模型的中间深层特征；并且，408，基于所述中间深层特征执行视觉分析。

在各个实施例中，基于网络的视觉分析方法400对应于上文描述的根据本申请的各个实施例的用于基于网络的视觉分析的视觉数据传输方法300。因此，方法400的各种功能或操作对应于(例如，相反)在上文中描述的根据各种实施例方法300的各种功能或操作。换言之，本文在方法300的上下文中描述的各种实施例对于对应的方法400相应地有效(例如，是相反的)，反之亦然。具体地，用于基于网络的视觉分析的视觉数据传输方法300和基于网络的视觉分析的方法400可以对应于基于网络的视觉分析的编码过程或阶段和解码过程或阶段。因此，可以理解的是，通常，所述方法400的各种功能或操作是根据各种实施例在上文中描述的方法300的各种功能或操作的反过程。

因此，基于网络的视觉分析的视觉数据方法400的方法400有利地减少视觉分析设备(例如，服务器端)在执行视觉分析时的计算负载，而没有过度或不令人满意的限制(例如，没有或最小化限制)在视觉分析设备的不同类型的视觉分析应用程序或任务范围内的可用性或可利用性。具体地，来自基于传感器数据的深度学习模型的中间层的中间深层特征的编码视频数据被所述视觉分析设备有利地接收，来执行基于编码视频数据的视觉分析。随着根据本申请的各种实施例或示例实施例更详细地描述基于网络的视觉分析，这些优点或技术效果对于本领域技术人员将变得更加明显。

在各种实施例中，上述生成(在404处)解码视频数据包括使用视频编解码器解码编码视频数据以生成包括视频格式数据的解码视频数据。在各种实施例中，类似地，所述视频编解码器可以根据需要或适当地基于任何视频编码/解码技术或技术，例如但不限于高级视频编码(AVC)、高效视频编码(HEVC)或多功能视频编码(VVC)。在各种实施例中，视频格式数据可以对应于(例如，相同)由方法300生成的视频格式数据。

在各种实施例中，中间深层特征包括多个特征图。

在各种实施例中，生成(在406处)中间深层特征包括基于解包技术解包视频格式数据以生成多个解包特征图，并且，所述中间深层特征基于所述多个解包特征图生成。在各种实施例中，所述解包技术可以是所述方法300中的重新打包技术的逆过程，其将视频格式数据(例如，对应于包括方法300中的有序多个特征图的视频格式数据)恢复成与多个特征图(在方法400中称为多个解包特征图)的原始的顺序或配置关系。

在各种实施例中，解包技术是基于信道解级联或信道解平铺。在各种实施例中，信道解级联技术可以是方法300中的信道级联技术的逆过程，并且信道解平铺技术可以是方法300中的信道平铺技术的逆过程。

在各种实施例中，所述视频格式数据包括多个重新打包的特征图(例如，对应于包括由方法300中的信道级联生成的有序的多个特征图的视频格式数据)。在这方面，所述解包技术基于上述信道解级联，上述信道解级联包括基于重新打包补充信息对所述多个重新打包的特征图进行排序以生成多个解包特征图。在各种实施例中，对多个重新打包的特征图进行排序可以是基于重新打包的补充信息将多个重新打包的特征图恢复为多个特征图的原始顺序。

在各种实施例中，所述视频格式数据包括一个或多个重新打包的特征图(例如，对应于视频格式数据，所述视频格式数据包括由方法300中的信道平铺生成的一个或多个放大的特征图)。在这方面，所述解包技术是基于上述信道解平铺，上述信道解平铺包括基于一个或多个重新打包的特征图形成多个解包特征图，每个解包特征图是一个减少的特征图。在各种实施例中，形成多个重新打包的特征图可以是基于重新打包的补充信息将一个或多个重新打包的特征图恢复成多个特征图的原始配置。

在各种实施例中，所述方法400进一步包括对多个解包特征图进行去量化(其也可以互换地称为去预量化)以获得多个去量化的特征图(其也可以分别可互换地称为多个去预量化特征图)。在这点上，中间深层特征是基于多个去量化特征图生成的。在各种实施例中，去量化技术可以是方法300中的量化技术的逆过程。在各种实施例中，可以执行去量化技术以从整数格式回到浮点格式。

在各种实施例中，所述方法400还包括：确定所述多个解包特征图是基于浮点格式还是整数格式的多个原始特征图；如果确定多个解包特征图是基于浮点中的多个原始特征图，则对所述多个解包特征图分别进行去量化，以获得多个去量化的特征图格式。在这方面，如果确定所述多个解包特征图是基于整数格式的多个原始特征图，或者，如果确定多个解包特征图是基于浮点格式的多个原始特征图则基于多个去量化的特征图，所述中间深层特征基于所述多个解包特征图而非上述提及多个去量化的特征图生成。也就是说，如果多个解包特征图基于多个原始特征图(例如，对应于方法300中在多个特征图提取的中间深层特征)为浮点格式，则所述多个解包特征图可以被修改或者以浮点形式重新存储，否则，(即，如果多个解包特征图基于多个原始特征图，则基于整数格式的多个原始特征图(即，已经是整数格式)，上述提及的去量化多个解包特征图可以被跳过。在各种实施例中，类似地，所述多个原始特征图的数字类型(例如，浮点格式或整数格式)可以基于与多个特征图相关联的数字类型信息(例如，标志或标识符)来确定，并将其传输到视觉分析设备。

在各种实施例中，基于均匀去量化技术、对数去量化技术或基于学习的自适应去量化技术来去量化多个解包特征图。下面将根据本申请的各种示例实施例在下文中更详细地描述均匀去量化技术、对数去量化技术或基于学习的自适应去量化技术。

图5描绘了根据本申请的各个实施例的用于基于网络的视觉分析的视觉数据传输的成像设备500的示意性框图，其对应于上文描述的根据本申请的各种实施例的用于基于网络的视觉分析的视觉数据传输的方法300。所述成像设备500包括存储器502和至少一个处理器504，所述至少一个处理器504通信地连接到所述存储器502并被配置为执行根据本申请的各种实施例的如上文所述的用于基于网络的视觉分析的视觉数据传输方法300。在各种实施例中，所述至少一个处理器504被配置为：获取与场景相关的传感器数据；基于所述传感器数据从深度学习模型的中间层中提取中间深层特征；基于所述中间深层特征生成编码视频数据；以及将所述编码视频数据传送至视觉分析装置，以根据所述编码视频数据进行视觉分析。

本领域技术人员将理解，所述至少一个处理器504可以被配置为通过可由至少一个处理器504运行的一组或多组指令(例如，软件模块)来执行所需的功能或操作。因此，如图5所示，成像装置500可以包括：

传感器数据获取模块(或传感器数据获取电路)506，用于获取与场景相关的传感器数据；

中间深层特征提取模块(或中间深层特征提取电路)508，用于根据传感器数据从深度学习模型的中间层提取中间深层特征；

视频数据编码模块510，被配置为基于中间深层特征生成编码视频数据；

编码视频数据传输模块512，用于将所述编码视频数据传输到视觉分析设备(例如视觉分析设备600)，以基于所述编码视频数据进行视觉分析。

本领域技术人员可以理解，上述提及的模块不一定是单独的模块，一个或多个模块可以根据需要或者在适当不偏离本申请范围的情况下通过一个功能模块(例如，电路或软件程序)来实现或实施。例如，传感器数据获取模块506、中间深层特征提取模块508、视频数据编码模块510和编码视频数据传输模块512可以实现(例如，一起编译)为一个可执行软件程序(例如，软件应用程序或简称为“app”)，例如，其可以存储在存储器502中并且可由至少一个处理器504执行根据各种实施例执行如本文所述的功能/操作。在各种实施例中，编码视频数据传输模块512可以被配置为通过有线或无线信号发射器或成像设备500的收发器将编码视频数据传输到视觉分析设备。

在各种实施例中，所述成像设备500对应于如上文参考图3描述的用于基于网络的视觉分析的视觉数据传输方法300。参照图3，因此，至少一个处理器504被配置为执行的各种功能或操作可以对应于根据各种实施例的上文描述的方法300的各种步骤，因此，为了简洁扼要，无需针对成像设备500进行重复。换言之，本文在方法的上下文中描述的各种实施例对于相应的设备/系统(例如，成像设备500)类似地有效，反之亦然。

例如，在各种实施例中，存储器502可以在其中存储传感器数据获取模块506、中间深层特征提取模块508、视频数据编码模块510和/或编码视频数据传输模块512，其分别对应于根据各种实施例的如上文所述的方法300的各个步骤，这些步骤可由至少一个处理器504运行以执行如本文所述的对应功能/操作。

图6描绘了根据本申请的各个实施例的用于基于网络的视觉分析的视觉分析设备600的示意框图，对应于根据本申请的各个实施例的如上文所述的基于网络的视觉分析的方法400。所述视觉分析装置600包括：存储器602；至少一个处理器604通信地连接到存储器602并且被配置为执行如上文所述的基于网络的视觉分析的方法400。在各种实施例中，所述至少一个处理器604被配置为：从一成像设备接收编码视频数据，所述成像设备被配置为获得与场景相关的传感器数据；基于所述编码视频数据生成解码视频数据；基于所述解码视频数据生成深度学习模型的中间深层特征；基于所述中间深层特征进行视觉分析。

类似地，本领域技术人员将理解，至少一个处理器604可以被配置为通过由至少一个处理器604执行的一组或者多组指令(例如，软件模块)来执行所需的功能或操作。因此，如图6所示，视觉分析装置600可以包括：

编码视频数据接收模块(或编码视频数据接收电路)606，用于从成像装置(例如，成像装置500)接收编码视频数据，所述成像装置500被配置为获取与场景相关的传感器数据；

视频数据解码模块(或视频数据解码电路)608，被配置为基于所述编码视频数据生成解码视频数据；

中间深层特征生成模块(或中间深层特征生成电路)610，被配置为基于所述解码视频数据生成深度学习模型的中间深层特征；

视觉分析执行模块(或视觉分析执行电路)612，用于基于所述中间深层特征进行视觉分析。

类似地，本领域技术人员可以理解，上述模块不一定是单独的模块，一个或多个模块可以根据需要或者在适当不偏离本申请范围的情况下通过一个功能模块(例如，电路或软件程序)实现或实施。例如，所述编码视频数据接收模块606、视频数据解码模块608、中间深层特征生成模块610和视觉分析执行模块612可以实现(例如，一起编译)为一个可执行软件程序(例如，软件应用程序或简称为“app”)，例如，其可以存储在存储器602中并且可由至少一个处理器604运行以执行根据各种实施例执行如本文所述的功能/操作。在各种实施例中，编码视频数据接收模块606可以被配置为通过视觉分析设备600的有线或无线信号接收器或收发器从成像设备接收编码视频数据。

在各种实施例中，视觉分析设备600对应于如上文参考图4描述的基于网络的视觉分析的方法400，因此，至少一个处理器604被配置为执行的各种功能或操作可以对应于根据各种实施例的上文描述的方法600的各种步骤，因此为了清楚简洁起见，无需针对视觉分析设备600重复。换言之，本文在方法的上下文中描述的各种实施例对于相应的设备/系统(例如，视觉分析设备600)类似地有效，反之亦然。

例如，在各种实施例中，所述存储器502可以在其中存储编码视频数据接收模块606、视频数据解码模块608、中间深层特征生成模块610和/或视觉分析执行模块612，其分别对应于根据各种实施例的如上文所述的方法400的各个步骤，这些步骤可由至少一个处理器604运行以执行如本文所述的对应功能/操作。

根据本申请公开中的各种实施例，可以提供计算系统、控制器、微控制器或提供处理能力的任何其他系统。这样的系统可以被认为包括一个或多个处理器和一个或多个计算机可读存储介质。例如，如上文所述的成像设备500和视觉分析设备600可各自包括处理器(或控制器)和计算机可读存储介质(或存储器)，例如，它们用于如本文所述在其中执行的各种处理。在各种实施例中使用的存储器或计算机可读存储介质可以是易失性存储器，例如DRAM(动态随机存取存储器)或非易失性存储器，例如PROM(可编程只读存储器)、EPROM(可擦除存储器)PROM)、EEPROM(电可擦PROM)或闪存，例如浮栅存储器、电荷俘获存储器、MRAM(磁阻随机存取存储器)或PCRAM(相变随机存取存储器)。

在各种实施例中，“电路”可以理解为任何种类的逻辑实现实体，其可以是专用电路或执行存储在存储器、固件或其任何组合中的软件的处理器。因此，在一个实施例中，“电路”可以是硬连线逻辑电路或可编程逻辑电路，例如可编程处理器，例如微处理器(例如，复杂指令集计算机(CISC)处理器或精简指令集计算机(RISC)处理器)。“电路”也可以是执行软件的处理器，例如任何类型的计算机程序，例如使用虚拟机代码的计算机程序，例如Java。以下将更详细描述的各个功能的任何其他类型的实现也可以被理解为根据各种替代实施例的“电路”。类似地，“模块”可以是根据本申请的各个实施例的系统的一部分，并且可以包括如上的“电路”，或者可以被理解为任何种类的逻辑实现实体。

本申请的一些部分根据算法以及对计算机存储器内的数据的操作的功能或符号表示来明确或隐含地呈现。这些算法描述和功能或符号表示是数据处理领域的技术人员用来最有效地将他们的工作内容传达给本领域的其他技术人员的手段。在这里，算法通常被认为是取得期望结果的自洽步骤序列。这些步骤是需要对物理量进行物理操作的步骤，例如能够存储、传输、组合、比较和以其他方式操作的电、磁或光信号。

除非另有明确说明，并且从下文中显而易见，应理解在整个本说明书中，使用诸如“获得”、“提取”、“生产”、“发射”、“接收”、“生成”、“执行”、“重新包装”、“形成”、“量化”、“解包”、“去量化”等，是指计算机系统或类似电子设备的动作和过程，在计算机系统或其他信息存储、传输或显示设备中，将表示为物理量的数据操作和转换为类似表示为物理量的其他数据。

本说明书还公开了用于执行本文描述的方法的操作/功能的系统(例如，其也可以体现为设备或装置)。这样的系统可以为所需目的专门构建，或者可以包括通用计算机或由存储在计算机中的计算机程序选择性地激活或重新配置的其他设备。本文提出的算法与任何特定的计算机或其他设备没有内在关联。根据本文的教导，各种通用机器可以与计算机程序一起使用。或者，构建更专业的设备来执行所需的方法步骤可能是合适的。

此外，本说明书还至少隐含地公开了一种计算机程序或软件/功能模块，因为对于本领域的技术人员来说显而易见的是可以通过计算机代码实施本文描述的方法的各个步骤。计算机程序不旨在限于任何特定的编程语言及其实现。应当理解，可以使用多种编程语言及其编码来实现这里包含的本公开的教导。此外，计算机程序不旨在限于任何特定的控制流。计算机程序有许多其他变体，它们可以使用不同的控制流而不背离本申请的精神或范围。本领域技术人员可以理解，这里描述的各种模块(例如，与成像装置500相关的传感器数据获取模块506、中间深层特征提取模块508、视频数据编码模块510和/或编码视频数据传输模块512和/或，与视觉分析装置600相关的编码视频数据接收模块606、视频数据解码模块608、中间深层特征生成模块610和/或视觉分析执行模块612可以是一个或多个计算机处理器运行的计算机程序或者指令集实现的软件模块，以执行所需功能，或者可以是设计的功能硬件单元的硬件模块，以用于执行所需的功能。还将理解，可以实现硬件和软件模块的组合。

此外，本文描述的计算机程序/模块或方法的一个或多个步骤可以并行而不是顺序地执行。这样的计算机程序可以存储在任何计算机可读介质上。计算机可读介质可以包括存储设备，例如磁盘或光盘、存储芯片或适合与通用计算机接口的其他存储设备。当在这种通用计算机上加载和执行计算机程序时，所述计算机程序有效地生成了一种实现本文所述方法的步骤的装置。

在各种实施例中，提供了一种计算机程序产品，其存储在一个或多个计算机可读存储介质(非暂时性计算机可读存储介质)中，所述计算机程序产品包括指令(例如，传感器数据获取模块506、中间深层特征提取模块508、视频数据编码模块510和/或编码视频数据传输模块512)可由一个或多个计算机处理器运行以执行用于基于网络的视觉分析的视觉数据传输方法300，其可参考上文图3的描述。因此，本文描述的各种计算机程序或模块可以存储在计算机程序产品中，所述计算机程序产品可由其中的系统(例如，也可以体现为设备或装置)接收，例如，如图5所示的成像设备500，用于由成像设备500的至少一个处理器504运行以执行所需或期望的功能。

在各种实施例中，提供了一种计算机程序产品，其存储在一个或多个计算机可读存储介质(非瞬态计算机可读存储介质)中，所述计算机程序产品包括指令(例如，编码视频数据接收模块606、视频数据解码模块608、中间深层特征生成模块610和/或视觉分析执行模块612)可由一个或多个计算机处理器运行以执行如上文参考图4描述的基于网络的视觉分析的方法400。因此，本文描述的各种计算机程序或模块可以存储在计算机程序产品中，所述计算机程序产品可由其中的系统(例如，也可以体现为设备或装置)接收，例如如图6中所示的视觉分析设备600，用于由成像设备600的至少一个处理器604运行以执行所需或期望的功能。

本文所述的软件或功能模块也可以实现为硬件模块。更具体地说，在硬件意义上，模块是设计用于与其他组件或模块一起使用的功能硬件单元。例如，一个模块可以使用分立的电子元件来实现，或者它可以形成整个电子电路的一部分，例如专用集成电路(ASIC)。存在许多其他可能性。本领域技术人员将理解，这里描述的软件或功能模块也可以实现为硬件和软件模块的组合。

在各种实施例中，所述成像设备500可以由任何一设备实现，所述设备(例如，其可以是系统或者装置)具有图像捕获组件或单元(例如，图像传感器)、通信功能或能力(例如，有线或无线通信接口)、存储器和通信地耦合到存储器的至少一个处理器，例如但不限于智能手机、可穿戴设备(例如，智能手表、头戴式显示器(HDM)设备等)和摄像头(例如，便携式摄像头、监控摄像头、车辆或仪表板摄像头等)。仅作为示例而非限制，成像设备500可以是如图7示意性示出的便携式或移动计算设备700。各种方法/步骤或功能模块(例如，传感器数据获取模块506、中间深层特征提取模块508、视频数据编码模块510和/或编码视频数据传输模块512)可以由软件实现，例如在便携式计算设备700内执行的计算机程序，并指示便携式计算设备700(特别是其中的至少一个处理器)执行本文所述的各种实施例的方法/功能。

所述便携式计算设备700可以包括处理器模块702、输入模块，例如小键盘704和输出模块，例如显示屏706。本领域技术人员可以理解，显示屏706可以是触敏显示屏，因此也可以作为键盘704的补充或替代的输入模块。也就是说，本领域技术人员可以理解，键盘704可以是根据需要或适当时，从便携式计算设备700中省略。处理器模块702耦合到第一通信单元708，用于与蜂窝网络710通信。第一通信单元708可以包括但不限于用户识别模块(SIM)卡装载台。所述蜂窝网络710可以是例如3G、4G或5G网络。处理器模块702可以进一步耦合到第二通信单元712以连接到局域网714。例如，所述连接可以实现有线或无线通信和/或访问例如互联网或其他网络系统，例如局域网(LAN)、无线个域网(WPAN)或广域网(WAN)。第二通信单元712可以包括但不限于无线网卡或以太网网线端口。所述示例中的处理器模块702包括处理器716、随机存取存储器(RAM)718和只读存储器(ROM)720。处理器模块702还包括多个输入/输出(I/O)接口，用于显示显示屏706的示例I/O接口722和键盘704的I/O接口724。处理器模块702的组件通常经由互连总线726并以相关领域技术人员已知的方式通信。各种软件或应用程序(或在本文中可简称为“应用程序”)可以预先安装在移动通信设备700的存储器中，或者可以通过读取存储卡传送到移动通信设备700的存储器中以将应用程序存储在其中或通过从应用服务器(例如，在线应用商店)无线下载。

在各种实施例中，视觉分析设备600可以由任何计算机系统(例如，台式或便携式计算机系统，其也可以体现为设备或装置)来实现，所述计算机系统包括至少一个处理器和存储器，例如在图8中示意性地示出而非限制的计算机系统800。各种方法/步骤或功能模块(编码视频数据接收模块606、视频数据解码模块608、中间深层特征生成模块610和/或视觉分析执行模块612)可以通过软件实施，例如，所述软件为在计算机系统800内执行的程序，并指示计算机系统800(特别是其中的一个或多个处理器)执行本文描述的各种实施例的方法/功能。计算机系统800可以包括计算机模块802、输入模块，例如，键盘804和鼠标806，以及多个输出设备，例如，显示器808和打印机810。计算机模块802可以通过合适的收发器设备814连接到计算机网络812来访问例如网络或者其它网络系统，例如局域网(LAN)或广域网(WAN)。示例中的计算机模块802可以包括用于执行各种指令的处理器318、随机存取存储器(RAM)820和只读存储器(ROM)822。计算机模块802还可以包括多个输入/输出(I/O)接口，例如到显示器808的I/O接口824和到键盘804的I/O接口826。计算机模块802的组件通常经由互连总线828并以相关领域的技术人员已知的方式通信。

图9描绘了根据本申请的各种实施例的基于网络的视觉分析系统900的示意框图。基于网络的视觉分析系统900包括一个或多个成像设备500，每个成像设备500被配置为用于根据参考图5的各种实施例在上文中描述的基于网络的视觉分析的视觉数据传输；以及根据参考图6的各种实施例如上文所述配置的用于基于网络的视觉分析，并且被配置为分别从一个或多个成像设备500接收编码的视频数据视觉分析设备600。

本领域技术人员将理解，本文使用的术语仅出于描述各种实施例的目的，并不旨在限制本申请。如本文所用，单数形式“一个””和“所述”旨在也包括复数形式，除非上下文另有明确指示。将进一步理解，当在本说明书中使用时，术语“包括”和/或“包含”指定了所述特征、整数、步骤、操作、元件和/或组件的存在，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、组件和/或它们的组合。

本文中使用诸如“第一”、“第二”等名称对元素或特征的任何引用并不限制这些元素或特征的数量或顺序。例如，这样的名称在本文中用作区分两个或更多个元素或一个元素的实例的方便方法。因此，对第一和第二元素的引用并不意味着只能使用两个元素，或者第一元素必须在第二元素之前。此外，提及项目列表的“至少一个”的短语是指其中的任何单个项目或其中两个或多个项目的任何组合。

为了使本申请易于理解并付诸实施，以下仅以举例而非限制的方式描述本申请的各种示例性实施例。然而，本领域的技术人员将理解，本申请可以以各种不同的形式或配置来实施，并且不应被解释为限于下文阐述的示例性实施例。相反，提供这些示例性实施例是为了使本公开彻底和完整，并将本申请的范围充分传达给本领域技术人员。

随着深度学习在计算机视觉任务中的空前成功，许多基于网络的(例如，基于云的)视觉分析应用程序由深度学习模型提供支持。然而，深度学习模型还具有计算复杂度高的特点，并且可能是任务特定的，这可能会阻碍传统数据通信范式的大规模实施。为了在带宽使用、计算负载和云端服务器的泛化能力之间实现更好的平衡，各种示例实施例提供了基于网络的视觉分析，更具体地，提供了一种基于网络的视觉分析的视觉数据传输方法，它压缩和传输中间深度学习特征(在本文中可以互换地称为中间深层特征或中间层特征)而不是视觉信号(即，信号级别的视觉数据，例如，由图像传感器生成的直接视觉信号)或最终使用的特征。根据各种示例实施例的方法还为深层特征编码的标准化提供了有希望的方式。在这方面，各种示例实施例提供了有损压缩框架或方法以及用于中间深层特征压缩的评估度量。还呈现了实验结果以显示根据各种示例实施例的方法的有效性以及根据各种示例实施例的数据传输策略或方法的可行性。在各种示例实施例中，根据各种示例实施例的压缩框架(有损压缩框架)和评估度量可以在正在进行的AVS(音频视频编码标准工作组)-视觉特征编码标准中被采用或使用。

图10显示了比较与三种数据传输策略或方法相关的各种属性的表(表1)，即传统的“压缩-然后-分析”方法(“传输视频信号”)，“分析-然后-压缩”方法(“传输终极特征”)和根据本申请的各种示例实施例的上述数据传输方法(“传输中间特征”)。鉴于两种常规范式的各种优缺点(例如，总结在图10所示的表1中)，各种示例实施例提供了一种传输深度学习模型的中间层特征(中间深层特征)的策略或方法，而不是视觉信号或最终特征，已被发现有利于实现计算负载、通信成本和泛化能力之间的平衡。各种示例实施例指出，中间深层特征压缩在文献中没有得到很好的探索，因此在文献中没有解决诸如如何使用统一的压缩框架有效地压缩来自不同深度模型的不同层的中间深层特征以及如何评估压缩方法等问题。

特别地，各种示例实施例：

·提出并分析了基于云的可视化分析应用传输中间深层特征的数据通信策略，使云服务器的传输负载、计算负载和泛化能力得到很好的平衡；

·为中间深层特征编码提供基于视频编解码器的有损压缩框架，在升级通信系统时可以提供良好的性能并充分利用视频编码基础设施；和

·为中间深层特征压缩方法的保真度评估引入新的指标，并报告综合实验结果。

现在将描述根据本申请的各种示例实施例的关于中间深层特征的数据传输和压缩的详细描述。随后，将描述根据各种示例实施例的有损中间深层特征压缩框架和评估度量，以及根据各种示例实施例的方法和度量的实验结果。

中间深层特征的传输和压缩

中间深层特征传输

在基于网络(例如，基于云)视觉分析的上下文中，视觉信号采集和分析可以在分布式设备中进行处理。传感器数据(例如图像和视频)可以在前端(例如监控摄像头和智能手机)捕获，而分析可以在云端服务器中完成。传统上，前端和云端之间的数据通信可以使用如上文参考图2A或2B所描述的视觉信号或最终特征。

如上文所讨论的(例如，在背景中)，关于如图2A所示是我传输视觉信号(即，传统的“压缩-然后-分析”方法)，由于图像/视频数据可用，所有类型的视觉分析，包括手动监控，都运行在云端。然而，由于有损图像/视频压缩导致视觉信号退化，分析任务的性能下降是不可忽略的，尤其是在压缩比较高的情况下。此外，这种信号级通信能否有效处理视觉大数据值得怀疑，因为视觉分析的所有计算负载都分配在云端服务器上。关于传输最终特征(即，传统的“分析-然后-压缩”方法)，如图2B所示，云端的计算负载可以很大程度上转移到前端设备，这使得基于云的可视化分析在大数据环境下变得可行。然而，由于深度学习模型是以数据驱动的方式训练的，因此顶层特征(最终特征)通常是任务特定的，很难推广到不同类型的视觉分析任务。在传统的“分析-然后-压缩”的方式中，要在云端进行多种分析，比如前端设备可能需要部署不同的深度学习模型，导致整个系统臃肿而复杂。换句话说，云端服务器中可视化分析应用程序的可用性受到前端设备中实施的不同深度学习模型的过度或不令人满意的限制。

图11描绘了根据本申请的各种示例实施例的基于网络(例如，基于云)的视觉分析系统1100(例如，对应于如上文根据各种实施例描述的基于网络的视觉分析系统900)的示意图。基于网络的视觉分析系统1100包括一个或多个成像设备1104(在前端，例如，每个成像设备1104对应于如上文各个实施例所述的成像设备500)，每个成像设备1104被配置为视觉分析的视觉数据传输；以及视觉分析设备1108(在服务器或云端，例如，对应于根据各种实施例的如上文所述的视觉分析设备600)，用于基于网络的视觉分析并且被配置为分别从一个或多个成像设备1104接收编码视频数据。在各种示例实施例中，为了平衡前端和云端之间的计算负载而不限制(例如，不过度或不令人满意地限制)云端的分析能力，基于网络的视觉分析系统1100(特别是前端)被配置为传输中间深层特征而不是视觉信号和最终特征。特别地，如图11所示，通用深度模型的中间深层特征可以应用于广泛的任务。对此，例如可以根据云端的分析需求，传输特定层的中间深层特征。除了这些传输的特征之外，可以在服务器端应用浅层任务特定模型进行可视化分析。各种示例实施例指出，深层神经网络具有分层结构，可以将其视为级联特征提取器的组合，而不是单个直接特征提取器。各种示例实施例注意到，来自中间层的上层的中间深层特征更加抽象和任务特定，而来自中间层的下层的中间深层特征可以应用于更广泛的分析任务。因此，根据各种示例实施例，云端服务器可以根据分析任务从前端按需或适当地请求任何中间特征。因此，在各种示例实施例中，其特征可以应用于不同视觉分析任务的通用深度模型可能优选部署在前端，而将传输的中间特征作为输入的轻量级任务特定神经网络，可以在云端实现，以根据需要或适当地执行各种分析任务。

根据各种示例实施例，仅作为示例而非限制，可以应用各种深度学习模型，例如但不限于在许多计算机视觉任务中被广泛采用作为骨干网络的VGGNet和ResNet。例如，特定任务的网络可以建立在骨干网络的特定中间特征之上。这样的骨干网络可以被视为通用部署在前端。仅作为示例而非限制的方式，图12示出了根据各种示例实施例的总结中间深层特征的可用性的表格(在本文中可以被称为表格2)。在表2中，关于conv4或pool4特征，“标注”可以参考在代表文本的预印本：1709.03376，2017中公开的由顾等人著有的“堆栈-标注：用于图像标注的由粗到细的学习模型”，“QA”可以参考在代表文本的预印本：1606.01847，2016中公开的由福井等人著有的“用于视觉问答和视觉定位的多模式融合双线性池”；和“跟踪”可以参考在计算机视觉的IEEE国际会议3119–3127，2015进程中公开的由王等人著有的“使用完全卷积网络的视觉跟踪”的内容。关于conv5或pool5特征，“标注”可以参考在关于机器学习的IEEE国际会议2048–2057，2015中公开的由徐著有的“展示，参与和讲述：具有视觉参与的神经图像标注生成”；“QA”可以参考在2016，神经信息处理系统的进展第289-297页公开的由卢等人著有的“用于视觉问答的分层问题-图像共同参与”；“跟踪”可以参考在关于计算机视觉的IEEE国际会议3119–3127，2015进程中公开的由王等人著有的“使用完全卷积网络的视觉跟踪”；“检测”可以参考在代表文本的预印本：1504.08083，2015中公开的由格希克著有的“快速的区域卷积网络方法”，或可以参考在2015，神经信息处理系统的进展第91-99页中公开的由任等人著有的“快速的区域卷积网络方法：使用区域提议网络实现实时目标检测”；“检索”可以参考在多媒体汇刊19，9(2017)，第1968-1983页中公开的由林等人著有的“Hnip：用于视频匹配、定位和检索的融合深度不变表示”。关于fc(全连接)特征，“检测”可以参考在IEEE模式分析和机器智能交易38，1(2016)，第142-158页公开的由格希克等人，“用于准确的对象检测和分割的基于区域的卷积网络”；和“检索”可以参考在信号处理128(2016)，第426-439页中公开的由钱德拉塞卡尔等人著有的“用于图像实例检索的CNN和Fisher向量的实用指南”。

特别地，在表2中，各种示例实施例指出，神经网络的计算成本可能取决于来自较低中间层的中间特征，而大多数视觉应用程序可以利用来自较高中间层的中间特征。因此，这表明传输根据各种示例实施例的中间特征可以有利地帮助转移大部分计算负载，同时保持数据可用性。例如，从表2可以看出，大多数任务特定的网络可能会将来自中间层的高层特征(例如conv4或更高)作为输入。由于计算负载主要分布在神经网络中的低层，因此利用根据本申请的各种示例实施例的基于网络的视觉分析系统1100可以帮助服务器端节省大量的计算成本。因此，根据本申请的各种示例实施例的基于网络的视觉分析系统1100可以有利地帮助最小化云端的计算负载，同时最大化各种分析应用的可用性。此外，深层神经网络在未来可能会发展得越来越泛化，从而导致基于网络的视觉分析系统1100相对于传统的基于网络的视觉分析系统具有更多的优势，例如图2A和2B所示的那些。

中间深层特征压缩

如上文所讨论的，根据本申请的各种示例实施例传送中间深层特征而不是视觉信号和最终特征，被发现有利于减少云端的计算负载，同时保持各种或不同的视觉分析应用程序。在这点上，各种示例实施例进一步注意到中间深层特征的传输负载是不可忽略的，并且提供了中间深层特征的压缩方法。

通过研究成功的神经网络架构(骨干架构)，例如但不限于AlexNet、VGGNet、ResNet和DenseNet，各种示例实施例注意到或发现此类网络架构共享相似的块结构和特征形状。例如，在卷积神经网络(CNN)中，中间深层特征主要以特征图的形式出现，这些特征图是堆叠的二维(2D)矩阵的组合。特征图的高度和宽度可能会随着推理过程而逐渐减小。例如，一个或几个层可以组成一个块，以将特征图的高度和宽度减半。因此，在输入大小相同的情况下，不同网络架构的某些块应提供具有相同高度和宽度的特征图。此外，中间深层特征的数值分布也具有相似的属性，因为大多数CNN架构使用ReLU作为非线性变换函数，将特征裁剪到相同的数值范围内。鉴于这样的观察，根据各种示例实施例，可以使用统一的压缩方法来压缩不同网络架构的中间深层特征。

中间深层特征压缩的标准化

根据本申请的各种示例实施例，中间深层特征编码可以被标准化以促进基于网络(例如，基于云)的视觉分析应用中中间深层特征的数据通信。

各种示例实施例指出，特征编码标准，例如CDVS(用于视觉搜索的紧凑描述符)和CDVA(用于视频分析的紧凑描述符)，应指定特征提取和压缩过程以充分确保互操作性，作为来自不同提取器可能具有不同的形状、分布和数值类型。通过这样的标准化策略，可以精心设计和指定特征提取器，保证了互操作性，但牺牲了不同特征提取器的兼容性和不同任务的通用性。对于中间深层特征编码，如上文在子标题“中间深层特征压缩”下所讨论的，各种示例实施例注意到来自不同深度学习模型(特征提取器)的特征共享相似的形状和分布，这使得通过仅指定压缩过程获得互操作性成为可能。由于深度学习模型的选择是开放的，因此标准的兼容性和通用性以及互操作性也可以得到保证。此外，这样的标准化策略也有利于保持标准的持久生命力，因为未来任何性能更好的新型深层神经网络都可以无缝地用于系统定制。

压缩和评估方法

各种示例实施例为中间深层特征提供有损压缩。

基于视频编解码器的有损压缩

在CNNs中，中间特征主要是特征图的形式，特征图是堆叠的2D阵列与元素之间的空间相关性的组合，例如，如图13所示。特别地，仅作为示例而非限制，图13描绘了VGGNet的可视化特征图。在各种示例实施例中，单信道2D特征图可以被认为或称为帧(一个帧)，而中间深层特征可以被认为或称为视频序列(一个视频序列)。例如，在图13中，在conv1下，所示的三个示例图像可以对应于从所述中间层提取的中间深层特征的三个特征图，由此每个特征图可以被认为是中间深层特征的一个信道。即，在conv1下，从所述中间层提取的中间深层特征包括三个特征图，类似地示例图像显示在图1所示的其他中间层下。例如，对于一个输入图像，每个中间层可以能够输出一个中间深层特征，并且根据各种示例实施例的编码过程1404可以一次处理一个中间深层特征。在各种示例实施例中，服务器侧的视觉分析设备可以根据视觉分析任务和计算/通信成本等各种因素来决定选择或处理哪个中间深层特征(即，来自哪个中间层)。因此，各种示例实施例有利地应用现有视频编解码器以有损方式压缩深层特征。特别地，各种示例实施例提供了一种用于中间深层特征编码的基于视频编解码器的压缩框架。通过将视频编解码器集成到根据各种示例实施例的压缩框架中，可以借用或采用成熟的视频编码技术来无缝地进行中间特征编码。此外，由于视频编码/解码模块(如芯片、IP核等)已经广泛部署在许多基于云的系统中，使用根据各种示例实施例的压缩框架升级或修改视觉设备和系统以支持中间深层特征传输和分析在经济和技术上是友好的。

图14A描绘了根据本申请的各种示例实施例的基于网络的视觉分析1400(例如，对应于如上文根据各种实施例描述的基于网络的视觉分析)的示意性流程图，更具体地，根据本申请的各种示例实施例的用于基于网络的视觉分析的视觉数据传输方法1404例如，对应于图14A中所示的“编码过程”并且对应于如上文根据各种实施例描述的用于基于网络的视觉分析的视觉数据传输的方法300)，和基于网络的视觉分析方法1408(例如，对应于图14A中所示的“解码过程”并且对应于如上文根据本申请各种实施例描述的基于网络的视觉分析的方法400)。图14B还示出了根据本申请的各种示例实施例的基于网络的视觉分析1400的示意流程图，其与图14A所示的相同，但有额外的示意图。

编码过程(或编码模块)

在编码过程或阶段(或编码模块)1404中，图14A示出了根据本申请的各种示例实施例的用于中间深层特征图的有损压缩方法的示意流程图。如图所示，在编码阶段1404，预量化操作或步骤(或预量化模块)1420(也可以简称为量化，例如对应于如上文根据各个实施例描述的“量化多个特征图以获得多个量化特征图”。在这点上，各种示例实施例指出，数字类型的特征图(或深层特征)可能与视频编解码器的输入不兼容。例如，普通的VGGNets和ResNets特征可能是float32(即浮点格式)，而视频编解码器，例如HEVC，设计用于具有8位或更高位深度的整数输入。因此，可以执行预量化操作1420以将多个特征图(例如，以浮点格式)分别转换为多个量化特征图(例如，以整数格式)。在各种示例实施例中，可以基于中间特征的分布分析来应用不同的量化器。

在量化之后，重新打包操作或步骤(或重新打包模块)1424(也可以简单地称为打包或组织，例如，对应于如上文各个实施例描述的“基于重新打包技术重新打包多个特征图”可用于生成视频格式数据。例如，在量化之后，N个特征图(或N个量化后的特征图)

可以重新打包成类似视频序列(或视频格式数据)

来拟合视频编解码器输入，其中H和W是特征图的高度和宽度，C是特征样本的信道数(即特征图的数量)。由于视频编解码器的输入帧大小通常是非任意的，例如HEVC的输入大小只能是8的整数倍，因此可以通过填充方法将原始特征图大小H×W扩展为H′×W′。特别是，

和

其中

是顶运算。在各种示例实施例中，可以在重新打包阶段期间进一步重新组织帧的顺序，如果考虑帧间相关性，这可能会影响压缩性能。因此，作为示例，重新打包的特征图可以被视为4：0：0视频序列(可以是灰度视频，其中视频的每一帧仅包括重新打包特征的一个信道，而重新打包的特征可以被认为是视频序列的帧)以反馈到视频编码器1428。

解码过程(或解码模块)

在解码过程或阶段(或解码模块)1408，如图14A所示，接收的比特流(例如，对应于如上文根据各种实施例描述的编码视频数据)可以首先由视频解码器1408(例如，对应于视频编码器1428)解码以生成解码视频数据。然后，解包操作或步骤(或解包模块)1440(例如，其可以简单地称为解包，例如对应于如上文根据各种实施例描述的“基于解包技术对视频格式数据进行解包”可以被执行以将重构的类似视频序列数据(包括视频格式数据的解码视频数据、包括一个或多个重新打包的特征图的视频格式数据)转换为原始特征大小(例如，多个解包特征图)。随后，可以执行去量化操作或步骤(或去量化模块)1444以将多个解包特征图(例如，整数特征张量)去量化为浮点类型(例如，多个去量化特征图包含浮点格式的量化特征图)。所述多个去量化特征图然后可以构成多个重构的深层特征图1448，然后可以将其传递到任务特定模型以执行视觉分析。

为了更好地理解，现在将根据本申请的各种示例实施例更详细地描述编码阶段或过程1404和解码阶段或过程1408。图14A描述了根据各种示例实施例的混合编码框架，其集成了传统的视频编解码器，其可以无缝地借用成熟的视频编码技术来帮助特征图压缩。此外，由于视频编解码器广泛部署在现有的视觉分析系统中，因此可以容易地实现根据各种示例实施例的混合编码框架的软件和硬件开发。

如图14A所示，编码阶段1404可以涉及三个模块来编码特征图以生成编码视频数据。在各种示例实施例中，预量化模块1420和重新打包模块1424可以将特征图转换成YUV格式数据(视频格式数据)。之后，可以应用视频编码器1428(例如，本领域已知的适当的传统视频编码器)来压缩YUV格式数据以生成编码视频数据。使用这样的工作流程，由于可以预先开发和指定视频编码器1428，编码性能可以很大程度上取决于如何表示特征数据适合视频编解码器。鉴于此，可以相应地配置预量化和重新打包模块。

在各种示例实施例中，让中间深度学习特征

包括多个2D数组

(即，多个特征图)。在这方面，可以将中间深度学习特征D称为具有C个信道，

表示一组实数，W×H×C可以定义中间深度学习特征的形状。

在各种示例实施例中，可基于均匀量化技术、对数量化技术或基于学习的自适应量化技术(例如，可称为编码工具或模式)来执行预量化操作1420。在各种示例实施例中，重新打包操作1424可以基于朴素信道级联技术、按距离信道级联技术或信道平铺技术(例如，可以称为编码工具或模式)来执行。现在将根据本申请的各种示例实施例在下面进一步描述这些量化技术和重新打包技术。

预量化

各种示例实施例指出，深层神经网络可以是具有高位深度的浮点格式，以确保训练期间的准确反向传播。另一方面，在推理阶段，神经网络的输出结果可能对中间特征的微小变化不敏感。在这点上，各种示例实施例可以执行预量化1420以减少特征图的体积。此外，各种示例实施例还可以执行预量化1420以将特征图的数字类型转换以满足视频编解码器的输入要求，例如从浮点格式转换为整数格式。在这点上，可以执行预量化操作1420以将输入中间深度学习特征D转换为具有较低(或相等)位深度的整数格式，而特征的形状可以保持相同。然后，预量化操作1420可以输出量化特征

其中

表示一组非负整数。

在各种示例实施例中，可以酌情或根据需要应用任何标量量化方法。在这方面，标量量化可以是将指定范围内的每个输入映射到公共或预定值的过程。因此，所述过程可以将不同值范围内的不同输入分别映射到不同的共同或预定值。仅作为示例而非限制，现在将在下面更详细地描述上述均匀量化技术、对数量化技术和基于学习的自适应量化技术。

均匀量化：各种示例实施例可以提供一种均匀量化技术，所述技术被配置为均匀地对特征图的激活进行采样，仅作为示例而非限制，其可以被表达为：

其中D表示具有高位深度的原始特征图，D_quant是量化后的特征。rint(·)将浮点输入四舍五入为最接近的整数。

对数量化：考虑特征图的分布，特征图通常具有如图15A至15D所示的右偏指数行为。各种示例实施例可以提供对数量化技术(或具有对数采样方法的对数量化器)，其可以实现比均匀量化器更好的性能。仅作为示例而非限制，对数量化器可以表示为：

其中log(·)是具有任意底的对数函数。

基于学习的自适应量化：尽管图15A至15D示出了指数行为，但各种示例实施例注意到指数函数可能不能完美地拟合特征图数据的概率分布。为了更准确地描述分布，在各种示例实施例中，可以提供或应用基于学习的量化器，其被配置为从海量特征数据中学习概率函数。

重新打包

在重新打包操作或步骤(或重新打包模块)1424中，可以将多个量化特征图(或量化2D阵列)重新组织为YUV格式数据(视频格式数据)以传输到后续视频编解码器。根据各种示例实施例，重新打包操作可以被配置为启用或促进视频编码器1428更好地消除冗余。

在各种示例实施例中，重新打包操作1424可以被配置为将量化的特征数据(例如，多个量化的特征图)

重新组织成一个或多个重新打包的特征图

以帮助后续视频编解码器更好地探索和消除特征数据的冗余。在重新打包操作1424中，特征数据D_quant的元素的值和数值类型可以不改变。但是，特征数据的形状和元素的索引可能会发生变化。在各种示例实施例中，“重新组织”特征数据的操作可以包括(a)将元素D_quant映射到D_repack(即，改变特征数据的元素的索引)，以及(b)将新元素插入到重新打包的特征D_repack。因此，D_quant(例如，W×H×C)的元素编号可以不必与D_repack(例如，W′×H′×C′)的元素编号相同。仅作为示例而非限制，现在将在下面更详细地描述上述朴素信道级联技术、按距离技术的信道级联和信道平铺技术。

朴素信道连接：一种朴素的简单或方法可以是通过简单地连接所有信道来重新打包特征图

这样，每个信道

可以被认为是一个灰度帧，而整个C个信道可以组成一个视频序列。由于每个信道中的典型空间相关性很丰富，因此可以通过传统视频编解码器中的帧内预测工具巧妙地识别信道内冗余。然而，与视频信号相比，特征图的信道之间不存在显式运动。现有的帧间预测技术，例如运动估算，可能无法有效消除信道之间的冗余。

按距离信道级联：为了实现更好的信道间冗余消除性能，各种示例实施例通过重新组织特征信道的顺序以最小化附近特征图的距离(例如，紧邻的一对特征图)，例如在图16中所示的描述的算法。在各种示例实施例中，L2范数可用于计算信道之间的距离(例如，相邻的一对特征图之间的信道间距离)。通过这种方法，减少了附近信道之间的残留信息，从而提高了压缩比。

因此，在上述朴素信道级联技术和上述通过距离的信道极限技术中，特征图(例如，2D阵列)可以沿信道维度连接。在朴素信道技术技术的情况下，信道(特征图)的顺序在D_repack中可以保持与D_quant相同。在通过距离技术进行信道级联的情况下，例如图17A所示，可以基于与信道相关联的信道间距离(例如，欧几里得距离)来确定信道(特征图)在D_repack的顺序。

因此，在各种示例实施例中，利用上述信道级联技术，特征图(或特征数据)中元素(D_quant[w，h，c])的索引可以仅针对其'C'轴改变。在这点上，可以生成指示多个量化特征图和多个重新打包的特征图之间的映射关系的重新打包补充信息(例如，索引信息)，例如以沿着C轴将D_repack排序为D_repack的索引列表的形式。因此，如稍后将在解包操作(即，重新打包操作的逆操作)中描述的，可以基于索引信息将D_repack反转或恢复为D_repack。

信道平铺：各种示例实施例提供了一种信道平铺技术以促进视频编解码器通过平铺信道(特征图)来识别信道间冗余。例如，在这种技术中，特征的一个信道(即一个特征图)可以被认为是一帧的一个补丁，而不是整个帧。仅作为示例而非限制，图17B示出了根据各种示例实施例的示例信道平铺技术。如图17B所示，信道平铺技术可以被配置为将特征图(2D阵列)组合成一个或多个放大的特征图(放大的2D阵列)。在这点上，每个放大的特征图可以被认为是或者可以构成输入视频序列中的一帧，用于后续的视频编解码。随后可以通过后续视频编解码器的帧内编码工具探索特征图的信道间冗余。

在通过如上所述的重新打包技术重新组织信道(例如，信道级联或信道平铺)之后，多个重新打包的特征图(也可以称为三维(3D)阵列)可以构成视频格式数据(例如，YUV400格式，即可以是灰度视频的4：0：0视频序列)作为后续视频编码器1428的输入。在各种示例实施例中，3D阵列的高度和宽度可以使用复制填充方法将其扩展到8的整数倍。

视频编码器

在各种示例实施例中，重新打包的YUV数据(视频格式数据)可以由视频编码器1428使用传统的视频编解码器进行编码。本领域技术人员将理解，本领域已知的任何视频编解码器可以根据需要或适当地使用。仅作为示例而非限制，可以采用HEVC(高效视频编码)并用于进行本文描述的各种实验。

解码过程

在各种示例实施例中，关于基于网络的视觉分析1400，解码过程或阶段1408(相反地)对应于如上文根据各种示例实施例描述的编码过程或阶段1404，因此，各种功能或被配置为由解码过程1408执行的操作(例如，阶段)可以(相反地)对应于编码过程1404的各种功能或操作，因此为了清楚和简明起见不需要相对于编码过程1404重复。换言之，本文在编码过程1404的上下文中描述的各种示例实施例对于对应的解码过程1408类似地有效(相反地)，反之亦然。因此，在各种示例实施例中，如图14A所示，解码过程1408可以包括与视频编码操作1428相对应(相反)的视频解码操作1436、与重新打包操作1424(相反)对应的解包操作1440、以及与预量化操作1420(相反)对应的重新去量化操作1444。为了仅通过示例的方式进行说明，下面将更详细地描述解码过程1408。

在解码过程或阶段1408中，在接收到的编码视频数据已经由视频解码器1436使用视频编解码器解码之后，解码视频数据(包括视频格式数据，所述视频格式数据包括一个或多个通过重新打包操作1424重新打包的重新打包的特征图)，例如以

的形式，可以被输入到解包操作1440，其可以具有与重新打包操作1424生成的D_repack相同的形状和数字类型。D_repack对应于(例如，相同)D′_repack。在解包操作1440之后，可以将多个解包特征图输入到去预量化操作1440，以生成多个去量化的特征图，例如以

的形式。类似地，D′_quant可以具有与由预量化操作1420生成的D_quant相同的形状和数值类型。因此，多个去量化的特征图可以导致(例如，构成)中间深层特征(即，重构的中间深层特征)，例如以

的形式，其对应于(例如，相同于)编码过程1404中的原始中间深层特征D。因此，类似地，重构的中间深层特征D′可以具有与原始中间深层特征D相同的形状和数值类型。

去预量化

去预量化操作或模块1444可以被配置为对来自解包操作1440的多个解包特征图

进行去量化，以分别获得多个去量化的特征图

如在预量化操作1420中所描述的，标量量化可以应用在编码过程1404中。因此(即，相应地)，去量化D′_quant，可以使用量化补充信息(例如，量化元数据)，其被配置为导出分区和量化过程的编码本。例如，在均匀量化和对数量化的情况下，量化补充数据可以包括D_quant的位深度数和D的最大值。例如，在基于学习的自适应量化的情况下，量化补充信息可以包括分区向量。在各种示例实施例中，类似地，量化补充信息可以与来自前端的比特流(包括编码视频数据)一起被传输到服务器端，或者可以在服务器端预先确定。

评估指标

与视频编码类似，根据各种示例实施例，中间深层特征编码的评估同时考虑了压缩性能和信息损失。在各种示例实施例中，采用压缩率来评估压缩性能，其定义为：

在各种示例实施例中，为了评估信息损失，考虑了在特征传输之后执行的任务的输出结果的比较。这是因为特征的信号级比较(例如，SNR、PSNR)是无用的，因为深层特征具有高级语义信息。利用任务性能指标(例如，图像分类任务的准确性、图像检索任务的平均精度)来评估特征编解码器的性能也可能不合适。例如，原因可能是三方面的。首先，任务性能指标的变化可能无法反映压缩前后特征的保真度水平。具体而言，就变化的方向而言，压缩前后特征的信息丢失可能导致任务性能指标的正或负变化(例如，分类准确度从0.80变化到0.75或0.85)；就变化量而言，同一个任务绩效指标的变化量可能指代不同的信息丢失程度。任务性能指标可能与信息丢失不是线性成比例的。其次，使用任务性能指标来评估信息丢失可能没有很好的规范化。一方面，任务性能指标具有不同的值范围(例如，图像分类准确度在0到1的范围内，而图像标注CIDEr(例如，如韦丹坦等人所揭露的，“Cider：基于共识的图像描述评估(Consensus-based image description evaluation)”，在CVPR，2015)可以达到1以上；另一方面，原始特征上的任务性能值(即参考值)可能会因测试数据集而异，这使得很难将信息丢失与任务性能指标进行比较。第三，使用任务性能指标来评估信息丢失，可能会涉及配对值(压缩前/压缩后)，这并不轻松。

因此，各种示例实施例提供或配置新的度量以评估不同任务上的特征的信息损失。在各种示例实施例中，分别选择了监控应用中的三个流行的计算机视觉任务，即图像分类、图像检索和图像对象检测。对于图像分类，各种示例实施例通过将原始分类DNN输出(即一位分类结果)与从重建的中间深层特征推断的输出进行比较来计算保真度，如下所示：

其中

是从第i个测试图像样本推断出的测试神经网络的原始一位输出，

是从相应的重构中间特征推断出的一位输出，Length(·)返回输入的维度，N表示测试样本的总数。

对于检索任务，给定查询，系统将返回排序的文档序列。在平均精度(mAP)等任务性能指标中，会考虑排序序列的顺序来计算平均精度(AP)。在各种示例实施例中，通过将原始输出文档序列与从重构的中间深层特征推断的序列进行比较来计算保真度：

其中

和

是检索系统返回的具有原始特征的文件的排序序列，所述文件的排序序列还分别为第i个查询重建，N表示测试查询的总数，提供或配置bubble_index(·，·)以通过在用冒泡排序方法将重构序列排序为原始序列期间计算交换操作的次数来测量两个排序序列之间的相似性。“冒泡排序”方法后的相似度测量可以称为“冒泡指数”。冒泡索引的工作流程在图18所示的算法2中描述。值得注意的是，冒泡索引的朴素实施计算量很大(O(n²))，尤其是当输入序列的长度很大时。通过在for循环中应用二分法，可以显着降低(小于(O(nlog(n)))计算复杂度。代码实施可以在博雅斯基等人著有的代表文本的预印本，代表文本：1604.07316(2016)的“自动驾驶汽车的端到端学习”中找到。

对于对象检测任务，检测模型预测检测对象的位置和类别。我们使用交并比(Intersection over Union，IoU)来衡量预测位置的保真度，并使用相对变化率来监控预测的分类置信度。此外，考虑到不同置信度的预测对任务性能的贡献不同，我们用原始特征推断的置信度对每个预测进行加权。总体而言，目标检测任务的保真度计算如下：

其中B是预测的边界框，C是预测类别的置信度值，N是测试图像的数量，M是第i个图像的预测对象数量。实施代码可以在上述博雅斯基文档中找到。

实验结果

为了证明根据本申请的各种示例实施例的传输中间深层特征的方法的可行性和有损压缩框架的有效性，使用两个常用的主干神经网络对三个广泛使用的视觉监控任务进行了中间深层特征压缩实验，实验结果如下所示。

实验设置

评估任务和数据集。如上文在“中间深层特征的传输和压缩”部分所讨论的，根据各种示例实施例的数据传输策略或方法的优势在于中间深层特征具有良好的通用能力，可以应用于广泛范围内的任务。因此，在进行的实验中，各种示例实施例压缩来自统一骨干网络的中间特征，然后分别评估视觉监控中三个显著任务的信息丢失，即图像分类、图像检索和图像对象检测。

图像分类：作为计算机视觉中的一项基本任务，图像分类已广泛用于训练和评估深度学习架构。许多经过图像分类训练的通用网络(例如VGGNet、ResNet)被用作其他计算机视觉任务中的特征提取器或骨干网络。使用ImageNet2012数据集的验证集的子集评估图像分类任务中特征压缩中的信息损失(例如国际计算机视觉杂志115，3(2015)，第211-252页刊登的由罗萨科夫斯基等人著有“Imagenet大规模视觉识别挑战”。为了节省压缩时间，同时保持测试图像类别的多样性，从1000个类别中的每个类别中随机选择一张图像。

图像检索：基于内容的图像检索是计算机视觉中的另一个关键问题。在图像检索问题中，车辆检索作为一种独特的应用，由于对监控安全领域的需求爆增，越来越受到关注。在实验中，PKU车辆识别码数据集的“小”测试拆分(例如，在关于计算机视觉和图案识别，第2167-2175，2016，公开的由刘等人著有的“深度相对距离学习：分辨相似车辆之间的差异”被采用以对图像检索任务执行特征压缩评估，其中包含800个查询图像和5693个参考图像。在实验中，只对从查询图像中提取的特征进行压缩。从参考图像中提取的特征在保真度评估期间用作参考。

图像对象检测：图像对象检测任务同时预测对象位置和类别，其中包含回归和分类。这是监测分析的一项基本任务。根据各种示例实施例的压缩算法在图像对象检测上使用帕斯卡视觉对象类(VOC)2007数据集的测试集进行了测试(由埃弗林厄姆等人著有的“2007年PASCAL视觉对象类挑战赛(VOC2007)结果”，2007年，其中包含4952张图像和12032个对象。

深度学习架构和特征。在实验中，使用VGGNets和ResNets提取中间深层特征，这是许多计算机视觉应用中图像特征提取的常见选择，因为它们的特征可以被认为是通用的。

VGGNet：西蒙尼安和齐塞尔曼在2014年ImageNet大规模视觉识别挑战赛(ILSVRC)上开发了VGGNet。VGGNet-16在VGGNet的六个变体中脱颖而出，因为它在性能和计算复杂性之间取得了良好的平衡。VGG-16非常吸引人，这要归功于它由16个卷积层组成的简洁架构，这些卷积层只执行3×3卷积和2×2池化。目前，从图像中提取特征是计算机视觉社区的首选。在实验中，从VGGNet-16架构中提取conv1到pool5的特征，在图像分类中进行压缩和评估；由于在conv1和pool2中通过设置卷积步长而不是pool3和pool4特征进行了特征下采样，因此pool3和pool4特征未包含在图像检索任务中；由于更快的RCNN的区域提议网络(RPN)建立在VGGNet的conv5特征之上，因此pool5特征未包含在检测任务中。图像分类的实现遵循西蒙尼安等人，具有16个权重层的ILSVRC-2014模型(VGG团队)，图像检索遵循IEEE图像处理汇刊，2019中由娄等人著有的“嵌入对抗学习以进行车辆重新识别”图像对象检测遵循代表文本的预印本：1702.02138，2017中由陈等人著有的“具有区域采样研究的FasterRCNN的实现”。

ResNet：在ILSVRC2015，何等人介绍了残差神经网络(ResNet)(例如，如在关于计算机识别和图像识别的IEEE国际会议进程第770-778页，2016年中，由何等人、张翔宇、任少平和孙健著有的“深度残差学习的图像识别”)，其中包含一种称为“跳过连接”的新技术。由于这种新结构，网络架构能够以比VGGNet更低的复杂度进入非常深的层次。ResNets有三种常用的变体，分别为50、101、152层。在各种示例实施例中，在图像分类和检索任务中研究了conv1到conv5和pool1特征(ResNet没有最后四个块的池化层)，conv1到conv4和pool1(更快的RCNN的RPN建立在ResNets的conv4特征，因此这里不包括conv5特征)特征涉及图像对象检测任务。为了在降低实现难度的同时广泛研究ResNets的三种变体的特征，ResNet-152被应用于继凯明等人的图像分类、“深度残差学习的图像识别”、用于图像检索的ResNet-50遵循由IEEE图像处理汇刊(2019)刊登的由一航等人著有的“车辆重新识别的嵌入对抗学习”，以及用于图像对象检测的ResNet-101遵循在代表文本的预印本：1702.02138(2017)中公开的由陈等人著有的“具有区域采样研究的FasterRCNN的实施”。

用于压缩的配置。在实验中应用了如上文“基于视频编解码器的有损压缩”部分中描述的基于视频编解码器的有损压缩框架。具体来说，对于预量化和预去量化模块(可以分别简称为量化和去量化模块)，所述中间深层特征采用简单的对数采样方法进行量化/去量化：

对于重新打包模块1424，通过在沿每个维度的最后一个数组元素之后用重复的边界元素填充来将特征图的大小扩展为8的整数倍。特征图信道的顺序保持不变，因为随后将应用帧内编码。对于视频编码器/解码器模块1428/1436，实验中使用了HEVC范围扩展(RExt)的参考软件(HM16.12)。使用四个量化参数(QP)值执行压缩，即[12，22，32，42]。

实验结果

在实验中，所述中间深层特征首先由神经网络提取，然后传递给特征编码器以生成紧凑的比特流。随后通过公式(4)使用原始中间深层特征的体积和相应的比特流计算压缩率。至于保真度评估，将重建的特征传递到相应神经网络的出生层以推断网络输出，然后将其与原始输出进行比较，以通过描述的新指标评估有损压缩方法的信息损失“评估指标”部分。详尽的结果列于图19的表3中。

与在代表文本的预印本：1809.06196(2018)公开的由卓等人在“中间深层特征压缩：智能感知的下一个战场”中报告的无损压缩结果相比，可以观察到有损深层特征压缩方法具有比无损方法更有可能将特征数据压缩成更小的体积。在极端情况下，即ResNetconv4特征在检索数据集上的压缩比在QP44时可以达到500倍以上，而无损方法只能达到2-5倍。然而，更大的压缩比会导致更大的信息丢失。对于每种特征类型，保真度值会随着QP值的升高而降低。查看表3，还可以观察到QP22通常可以同时提供高保真度和公平的压缩比。此外，上层特征，例如conv4到pool5，通常对重压缩更稳健。对于中间特征传输的实际实施来说，这是一个很好的特性，因为高层特征可以在很大程度上节省计算负载，同时在云端提供了很好的可用性，如图12中的表2所示。

进一步的实验结果

为了验证重新打包模块1424和预量化模块1420的有效性，使用两个常用的主干神经网络对图像分类任务进行了特征图压缩实验。

实验设置

在实验中，仅对图像分类任务进行特征提取和保真度计算。同样，实验中要压缩的特征是由VGGNet-16和ResNet-50在ILSVRC2012验证数据集的子集上提取的。经过特征压缩和解压缩后，将重构的特征图送回相应深度学习模型中的出生层，以推断分类结果。然后通过比较原始和重建的分类结果来计算压缩保真度，公式为：

其中

是第i个测试样本的一位向量形式的原始分类结果，

是从相应的重建特征图推断的分类结果，C是类数，N表示测试数据集的样本大小。至于压缩性能，压缩率用于反映数据量的减少，如公式(4)中定义的那样。

重新包装方法的比较

在实验中，将分类任务的信道内压缩结果作为基线结果。为了探索信道间冗余，测试了上文在“重新打包”部分中描述的三种重新打包方法以辅助视频编解码器。在实验中，预量化模块1420被设置为8位的对数模式。在视频编码器模块1428中采用了HEVC范围扩展(RExt)的参考软件(HM16.12)。为了启用信道间冗余减少，视频编码器1428被设置为默认随机访问配置。压缩是在五个量化参数(QP)值下执行的，即[0；12；22；32；42]。与基线结果一起，在VGGNet-16的10种类型的特征图上使用三种重新打包方法的压缩结果绘制在图20A至20E。特别是，图20A到20E示出了比较基线、朴素信道级联、按距离信道级联和信道平铺的图。在图20A～20E中，横轴表示压缩率，纵轴表示保真度。这意味着靠近左上角的点具有更高的压缩比和保真度。换句话说，曲线越靠近左上角，相应的方法就越有效。从图20A到20E可以看出，信道内压缩(即基线)和信道间压缩(即朴素信道级联、按距离信道级联和信道平铺)在低层特征图上没有显著的性能差异(即，conv1到pool3)。相反，当层变得更高时，信道间压缩变得优于基线。这很有意义，因为诸如pool4到pool5之类的高层特征是计算机视觉任务中使用最广泛的特征。对于三种重新打包方法，观察到信道平铺在高层特征上明显优于信道级联方法。在低层特征上，三种方法的性能根据不同的特征类型而有所不同，但性能差异并不是性能。对于两种信道级联方法，按距离信道级联通常在高QP(即QP42)下获得更好的性能。

预量化方法的比较

为了比较预量化模块1420的两种方法的性能保持能力，仅对VGGNet-16和ResNet-50的特征图应用了量化和去量化。评估了六个比特深度点下的信息丢失，即[16；12；10；8；6；4]位。均匀量化器和对数量化器在16位和12位的量化特征保真度均等于1：000。从10位到4位的结果列于图21所示的表4中。特别是，表4显示了两种预量化方法(均匀和对数)在不同特征类型和位深度上的保真度比较。如表4所示，在大多数情况下，对数量化方法比特征图上的统一量化方法保持更高的保真度。特别是在低位深度(即4位)和ResNet的低层特征(即conv1和pool1)上，对数量化器的保真度可以比统一方法高13％以上。在对数量化器不如均匀量化器的少数情况下，两种方法的差异小于0：4％。因此，实验结果表明，在大多数情况下，对数采样更适合特征图量化。此外，基于学习的自适应量化通常可以实现比均匀量化和对数量化更好的性能。

图22A和22B描绘了列出VGGNet-16和ResNet-101上的有损压缩结果的表格(可以分别称为表格5和6)，这两个是在计算机视觉领域中最广泛使用的CNN。

上文已经根据各种示例实施例参考图14A描述了用于中间深层特征的有损压缩框架或方法。例如，输入被设计为单精度浮点数(例如float32)的深度学习特征。在各种示例实施例中，预量化模块1420可以将float32数量化为低位整数(例如，int8)。然而，各种示例实施例指出，随着人工智能芯片和深度学习模型量化技术的发展，前端设备可能会采用“整数推理”。这意味着前端设备中生成的中间深层特征可能是整数而不是浮点数。为了与整数输入兼容，各种示例实施例提供了如图23所示的修改的压缩框架或方法2300。

特别地，图23描绘了根据本申请的各种示例实施例的基于网络的视觉分析2300(例如，对应于如上文根据各种实施例描述的基于网络的视觉分析)的示意流程图，更具体地，根据本申请的基于网络的视觉分析的视觉数据传输方法2304，(例如，图23中所示的“编码过程”并且对应于如上文根据各种实施例描述的用于基于网络的视觉分析的视觉数据传输的方法300)和根据本申请的各种示例实施例的基于网络的视觉分析(例如，如图23示出的“解码过程”，并且对应于如上文根据各种实施例描述的基于网络的视觉分析的方法400)方法(2308)。在各种示例实施例中，基于网络的视觉分析2300可以与如图14A或14B所示的相同，除了数字类型确定器2320/2344被添加到如图23所示的编码过程或模块2304和解码过程或模块2308中的每一个之外。

特别地，关于编码过程2304，数值类型确定器2320可以被配置为确定输入到其中的多个特征图是浮点格式(例如，是否是float32数字)还是整数格式.如果它们是浮点格式，则数值类型确定器2320可以被配置为将多个特征图引导到预量化模块1420以根据各种示例实施例对其执行如上文所述的量化。否则，数值类型确定器2320可以被配置为将多个特征图引导到重新打包模块1424以在其上执行根据各种示例实施例的如上文所述的重新打包，即，无需使多个特征图经受用于量化多个特征图的预量化模块1420。在各种实施例中，可以基于与多个特征相关联的数字类型信息(例如，标志或标识符)来确定多个特征图的数字类型(例如，浮点格式或整数格式)映射(例如，与中间深层特征相关联)。

关于解码过程2308，类似地，数字类型确定器2344可以被配置为确定输入到其中的多个解包特征图是否基于浮点格式的多个原始特征图1416(例如，是否float32数字)还是整数格式。如果输入到其中的多个解包特征图基于浮点格式的多个原始特征图1416，则数值类型确定器2344可以被配置为将多个解包特征图引导到预去量化模块1444根据各种示例实施例对其执行如上文所述的预去量化。否则，数值类型确定器2320可以被配置为引导多个解包特征图生成中间深层特征，而不使多个解包特征图经受预去量化模块1444。在各种实施例中，类似地，多个原始特征图1416的数字类型(例如，浮点格式或整数格式)可以基于与多个特征图相关联的数字类型信息(例如，标志或标识符)来确定并且被传送到服务器端的可视化分析设备。

例如，在编码阶段2304中，中间深层特征可以是浮点特征或整数特征。数值类型确定器2320可以被配置为识别深层特征的数据类型(例如，数值类型)。如果深层特征被确定为浮点特征，它们被预量化模块转换为整数以适应视频编码器1428的输入要求并减少数据量。重新打包模块1428可以被配置为修改数据形状以适应视频编码器1428的输入要求以最大化编码效率。对于视频编码器1428，可以根据需要或适当地应用现有的或传统的视频编码器。通过将视频编解码器集成到根据各种示例实施例的压缩框架中，可以借用或采用成熟的视频编码技术来无缝地进行中间特征编码。此外，由于视频编码/解码模块(如芯片、IP核等)已经广泛部署在许多基于云的系统中，升级或修改视觉设备和系统以支持中间深度在经济和技术上都是友好的。使用根据各种示例实施例的压缩框架的特征传送和分析。

因此，各种示例实施例提供了一种在基于网络的(例如，基于云的)视觉分析中压缩和传输中间深层特征而不是视觉信号或最终使用特征的方法。所述方法有助于降低云端的计算负载，同时保持各种可视化分析应用的可用性，从而在计算负载、通信成本和泛化能力方面取得更好的平衡。在各种示例实施例中，提供了基于视频编解码器的有损压缩框架和用于中间深层特征压缩的评估度量。如前所述，实验结果证明了根据本申请的各种示例实施例的基于网络的视觉分析的有效性和数据传输策略的可行性。

虽然本申请的实施例已经参照特定实施例进行了具体展示和描述，但是本领域技术人员应该理解，在不脱离本申请的范围的情况下，可以在其中进行各种形式和细节上的改变，如由所附权利要求定义。因此，本申请的范围由所附权利要求指示，并且因此旨在包含在权利要求的等同意义和范围内的所有变化。

Claims

1.一种基于网络的视觉分析的视觉数据传输方法，所述方法包括：

在成像设备处获得与场景相关的传感器数据；

基于所述中间深层特征生成编码视频数据；和

2.根据权利要求1所述的方法，其特征在于，所述编码视频数据是基于一视频编解码器生成的。

3.根据权利要求2所述的方法，其特征在于，

所述中间深层特征包括多个特征图，

所述方法还包括基于所述多个特征图生成视频格式数据，以及

所述生成编码视频数据包括使用视频编解码器编码视频格式数据以生成所述生编码视频数据。

4.根据权利要求3所述的方法，其特征在于，所述生成视频格式数据包括基于重新打包技术重新打包多个特征图以生成所述视频格式数据。

5.根据权利要求4所述的方法，其特征在于，所述重新打包技术基于信道级联或信道平铺。

6.根据权利要求5所述的方法，其特征在于，

所述重新打包技术基于所述信道级联，所述信道级联包括确定与所述多个特征图相关联的多个信道间距离，每个信道间距离与所述多个特征图的一对特征图相关联，以及

所述重新打包多个特征图包括通过基于确定的多个信道间距离对所述多个特征图进行排序来形成多个重新打包的特征图，以生成包括多个重新打包的特征图的视频格式数据。

7.根据权利要求5所述的方法，其特征在于，

所述重新打包技术基于所述信道平铺，所述信道平铺包括基于所述多个特征图形成一个或多个重新打包的特征图以生成所述视频格式数据，所述视频格式包括一个或多个重新打包的特征图，每个重新打包的特征图是放大的特征图。

8.根据权利要求3至7中任一项所述的方法，还包括：对所述多个特征图进行量化，以分别获得多个量化特征图，其中，所述视频格式数据是基于所述多个量化特征图生成的。

9.根据权利要求3至7中任一项所述的方法，还包括：

判断所述多个特征图是浮点格式还是整数格式；和

当确定所述多个特征图为浮点格式，则对所述多个特征图分别进行量化，

其中，当确定所述多个特征图为整数格式，则基于所述多个特征图生成视频格式数据，而无需对所述多个特征图进行量化，或者当确定所述多个特征图为浮点格式，则基于所述多个量化的特征图生成视频格式数据。

10.根据权利要求8或9所述的方法，其中，所述多个特征图基于均匀量化技术、对数量化技术或基于学习的自适应量化技术进行量化。

11.一种基于网络的视觉分析方法，所述方法包括：

基于所述编码视频数据生成解码视频数据；

基于所述中间深层特征进行视觉分析。

12.根据权利要求11所述的方法，其特征在于，所述生成解码视频数据包括使用视频编解码器解码所述编码视频数据以生成包括视频格式数据的所述解码视频数据。

13.根据权利要求12所述的方法，其特征在于，所述中间深层特征包括多个特征图。

14.根据权利要求13所述的方法，其特征在于，

所述生成中间深层特征包括基于解包技术对所述视频格式数据进行解包以生成多个解包特征图，以及

所述中间深层特征是基于所述多个解包特征图生成的。

15.根据权利要求14所述的方法，其特征在于，所述解包技术基于信道解级联或信道解平铺。

16.根据权利要求15所述的方法，其特征在于，

所述视频格式数据包括多个重新打包的特征图，以及

所述解包技术基于所述信道解级联，所述信道解级联包括基于重新打包补充信息对多个重新打包特征图进行排序以生成所述多个解包特征图。

17.根据权利要求15所述的方法，其中

所述视频格式数据包括一个或多个重新打包的特征图；和

所述解包技术基于所述信道解平铺，所述信道解平铺包括基于一个或多个重新打包的特征图形成多个解包特征图，每个解包特征图是减少的特征图。

18.根据权利要求14至17中任一项所述的方法，还包括：对所述多个解包特征图进行去量化，以分别获得多个去量化的特征图，其中，所述中间深层特征是基于所述多个去量化的特征图。

19.根据权利要求14至17中任一项所述的方法，还包括：

判断所述多个解包特征图是基于浮点格式还是整数格式的多个原始特征图；和

当确定多个解包特征图是基于浮点格式的多个原始特征图，则对所述多个解包特征图进行去量化以分别获得多个去量化的特征图，

其中，如果所述多个解包特征图被确定为基于多个整数格式的原始特征图，则所述中间深层特征是基于多个解包特征图生成的，并没有所述对所述多个解包特征图进行去量化，或者如果确定所述多个解包特征图基于浮点格式的多个原始特征图，则所述中间深层特征是基于所述多个去量化的特征图生成的。

20.根据权利要求18或19所述的方法，其特征在于，基于均匀去量化技术、对数去量化技术或基于学习的自适应去量化技术对所述多个解包特征图进行去量化。

21.一种成像设备，用于基于网络的视觉分析的视觉数据传输，所述成像设备包括：

一存储器；以及

至少一个处理器，其通信连接所述存储器，并被配置为执行权利要求1至10任何一项所述的基于网络的视觉分析的视觉数据传输方法。

22.一种视觉分析装置，用于基于网络的视觉分析，所述视觉分析装置包括：

一存储器；和

至少一处理器，其通信连接所述存储器，并被配置为执行权利要求11至20中任一项所述的基于网络的视觉分析方法。

23.一种基于网络的可视化分析系统，所述基于网络的可视化分析系统包括：

一个或多个成像设备，每个成像设备被配置为用于根据权利要求21所述的基于网络的视觉分析的视觉数据传输；和

一视觉分析设备，用于基于网络的视觉分析，并且所述视觉分析设备被配置为分别从所述一个或多个成像设备接收编码视频数据。

24.一种计算机程序产品，其存储在一个或多个非暂时性计算机可读存储介质中，所述计算机程序产品包括指令，所述指令可被至少一个处理器运行以执行权利要求1～10任何一项所述的用于基于网络的视觉分析的视觉数据传输方法。

25.一种计算机程序产品，存储在一个或多个非暂时性计算机可读存储介质中，所述计算机程序产品包括指令，所述指令可由至少一个处理器运行以执行根据权利要求11至20中任一项所述的基于网络的视觉分析方法。