CN113874877A

CN113874877A - 神经网络及分类器选择系统和方法

Info

Publication number: CN113874877A
Application number: CN202080037835.8A
Authority: CN
Inventors: B·A·小戴蒙德; P·M·布朗热; J·芒卡斯特; J·克林希尔; K·B·梅迪内尼; L·特伦布莱
Original assignee: Flier Business Systems
Current assignee: Flier Business Systems
Priority date: 2019-05-20
Filing date: 2020-05-18
Publication date: 2021-12-31
Also published as: AU2020278660A1; WO2020236764A1; US20220301274A1; US12046031B2; AU2020278660B2; EP3973445A1

Abstract

一种高分辨率图像目标分类系统和方法包括：被配置为接收与场景关联的第一数据集的提议组件，该第一数据集包括场景的至少一个图像；包括多个神经网络的多级神经网络，每个神经网络被训练为接收感兴趣区域并根据关联的资源分配输出对象分类；和注意力协调器，其被配置为根据可用的系统资源确定图像中的感兴趣区域并将每个确定的区域分配给多尺度神经网络中的多个神经网络中的一个。该系统可以被配置为优化在图像中检测到对象的概率，同时最小化通过多尺度神经网络处理的像素数量。

Description

神经网络及分类器选择系统和方法

相关申请的交叉引用

本申请要求于2019年5月20日提交的且题为“神经网络及分类器选择系统和方法”的美国临时专利申请No.62/850,491的优先权及权益，在此通过引用全文并入。

技术领域

本公开的一个或多个实施例总体上涉及成像系统，并且更具体地，例如，涉及用于图像分类系统的机器学习系统和方法。

背景技术

在图像处理领域，一直需要高效且可靠的方法来检测和分类成像设备的视场(例如，场景)内的感兴趣对象。传统的“智能相机”结合了机器视觉成像组件和运行基于规则的图像处理软件的单板计算机。这些系统用于简单的问题，例如条形码读取或识别已知对象的特定特征。

机器学习系统已被实现为提供更复杂的图像分析。在一种方法中，将感兴趣对象的各种图像收集到用于训练神经网络以对对象进行分类的训练数据集中。训练图像可以用相机以各种角度和各种设置捕获对象的图像来生成。训练数据集通常包含每个对象分类的数千个图像，并且生成和更新可能耗时、代价高且繁琐。经训练的神经网络可以加载到服务器系统上，该服务器系统从网络上的成像设备接收图像并对其进行分类。在一些实施方式中，经训练的神经网络可以加载到成像系统上。

可以使用简化的机器视觉和图像分类系统，但这样的系统无法运行稳健的经训练的神经网络，并且难以适应各种用户场景。在实际的实施方式中，存储器、处理和其他系统资源的限制经常会导致系统设计人员产生针对特定任务的分类系统。例如，神经网络通常针对特定分类任务进行训练，并被实现为允许在系统约束内进行实时操作。鉴于上述情况，持续需要改进的对象检测和分类解决方案，以易于适应新的使用情况并提供优于常规系统的性能或其他优势。

发明内容

提供了各种系统和方法来实现具有成像系统的训练神经网络。一种新颖的神经网络目标分类系统使用户可以快速加速的学习技术、框架和工具。

高分辨率图像目标分类系统和方法可以包括被配置为接收与场景关联的第一数据集的提议组件，该第一数据集包括场景的至少一个图像；包括多个神经网络的多级神经网络，每个神经网络被训练为接收感兴趣区域并根据关联的资源分配输出对象分类；以及注意力协调器，该注意力协调器被配置为根据可用的系统资源确定图像中的感兴趣区域并将每个确定的区域分配给多尺度神经网络的多个神经网络中的一个。该系统可以被配置为优化检测到图像中对象的概率，同时最小化通过多尺度神经网络处理的像素数量。

在一些实施例中，系统和方法包括用于使用神经网络对象检测和分类来检测对象的端到端系统。从一个或多个输入设备向系统提供表示场景的图像的视频馈送。外部系统(例如雷达系统)也可用于提供关于感兴趣对象的提议位置的信息。可选地，可以使用内部运动检测器提供感兴趣对象的提议的位置。随机搜索算法可以与大面积神经网络一起使用以找到提议的感兴趣对象(例如，当没有识别出其他提议的位置时)。卷积神经网络注意力协调器可以优化可用的神经网络，以使用多尺度神经网络处理来处理提议。从多尺度神经网络处理和/或运动检测算法识别目标。应用短期目标记忆来预测新的目标位置、消除临时检测不良后果并通过遮挡跟踪。系统可以输出在检测到的感兴趣对象周围带有框的视频或图像。

本发明的范围由权利要求限定，权利要求通过引用并入本部分。通过考虑以下对一个或多个实施例的详细描述，本领域技术人员将更全面地理解本发明的实施例，以及实现其附加优点。将参考将首先简要描述的附图。

附图说明

图1示出了根据本公开的一个或多个实施例的示例神经网络目标分类器。

图2示出了根据本公开的一个或多个实施例的神经网络目标分类器的示例实施方式。

图3示出了根据本公开的一个或多个实施例的用于与神经网络目标分类器一起使用的示例输入设备。

图4A示出了根据本公开的一个或多个实施例的示例神经网络训练过程。

图4B示出了根据本公开的一个或多个实施例的示例经训练的神经网络操作。

图5示出了根据本公开的一个或多个实施例的神经网络目标分类器的示例实施方式。

图6示出了根据本公开的一个或多个实施例的神经网络目标分类器的示例操作。

通过参考下面的详细描述，可以最好地理解本公开的实施例及其优点。应当理解，相似的附图标记用于标识一个或多个图中所示的相似元件。

具体实施方式

本公开的各方面总体上涉及图像分类，并且更具体地，例如，涉及对象检测和分类。在各种实施例中，改进的成像系统接收场景的视频和/或来自场景的与对象位置相关的其他数据。例如，成像设备包括图像传感器、视觉处理单元和用于捕获视频以供神经网络目标分类器进一步处理的接口。在一些实施例中，捕获的图像包括高分辨率图像和视频数据。神经网络目标分类器接收数据并生成潜在对象位置的提议，通过注意力协调器根据可用资源分析提议，识别感兴趣区域以供进一步处理，并将每个感兴趣区域提供给适当的神经网络进行对象检测和分类。

在常规图像分类系统中通过神经网络处理高分辨率图像通常涉及高度复杂的神经网络，其需要处理资源可能超过系统的资源和/或需要处理准确性和细节的降低。本公开的系统和方法克服了这些限制，这使得能够以高灵敏度水平处理感兴趣对象的大分辨率图像或视频。本公开包括用于通过将接收的信息减少到可管理的计算区域来处理大图像和视频文件的方法。在一些实施例中，优化的神经网络生成用于分类的提议的感兴趣区域并且还接收来自外部输入设备的提议请求。该方法还可以选择最优的神经工作分类器来处理提议并对提议区域中的感兴趣对象进行分类。

在各种实施例中，公开了一种具有改进的处理的图像分类系统，其在实现系统目标方面比常规系统更高效和有效。图像分类系统可以接收一个或多个高分辨率视频流并且在可用系统资源的约束内以高细节水平和精度实时(或在一些实施例中离线)地高效处理高分辨率视频流。该系统还被配置为同时处理与捕获的场景关联的其他数据流，例如雷达数据或音频数据，并输出识别和分类出现的对象的标注的视频(例如，视频图像上具有关联对象分类标签的边界框)。

参考图1，将根据本公开的一个或多个实施例描述示例对象检测和分类系统100。系统100包括一个或多个输入设备110，其被配置为感测场景112的特性并生成对应的数据。输入设备110可以包括被配置为捕获场景112的图像和/或视频的可见光谱成像设备、被配置为生成表示场景112中的物理对象的雷达数据信号的雷达系统、被配置为检测来自场景112的红外辐射的红外成像系统和被配置为感测由场景112产生的声音的音频输入系统和/或其他输入设备。

由输入设备110捕获的数据被提供给神经网络目标分类器120用于对象检测和分类。在一些实施例中，捕获的数据114包括一个或多个高分辨率数据流。捕获的数据114可以包括例如来自监视系统中的一个或多个相机的视频馈送。捕获的数据114还可以包括识别感兴趣对象的位置的数据，例如来自输入设备110的运动捕获和/或对象检测组件的数据、来自识别检测到的对象的位置的雷达系统的数据和/或其他对象位置数据。提议单元122还可以包括对象检测、运动检测组件和被配置为在捕获的数据中检测对象的存在和位置的其他组件。例如，随机搜索算法可以与神经网络一起使用，以在捕获的数据114的帧中找到提议的感兴趣对象。

许多系统具有记忆、处理、带宽和实时约束，这使得分析每个提议的对象效率低下和/或不切实际。神经网络目标分类器系统120包括注意力协调器124，其被配置为优化神经网络以处理提议单元122生成的提议。在一些实施例中，注意力协调器124是分配可用系统资源以最大化对象检测和分类结果的神经网络。注意力协调器124生成包括新目标位置边界的注意力感兴趣区域(ROI)126，并分配多尺度神经网络128中的适当神经网络以处理每个目标位置边界。多尺度神经网络128包括不同大小和复杂度的神经网络，从而允许处理缩放到输入数据。神经网络目标分类器120输出目标对象检测和分类结果，其可以包括视频和/或图像输出130，该视频和/或图像输出具有在检测到的感兴趣对象周围的框(例如，框132、框134和框136)。例如，输出可以包括目标标识符、框位置和尺寸、目标分类(例如，无人机、人员、未分类(not_classified))和其他信息。

神经网络目标分类器120被配置为使用被训练为高效处理较小图像的神经网络来处理高分辨率图像进行对象检测和分类。注意力协调器124被配置为生成注意力RIO 126，其限定高分辨率图像的要在每个时间步长处理的一部分(例如，数据的帧或帧序列)。在一些实施例中，注意力协调器124被配置为识别与先前在先前的图像中检测到的已知对象关联的跟踪区域。注意力协调器124还可以被配置为识别用于新对象发现的区域。提议单元122分析来自输入设备110的可用输入数据并生成要对新对象进行分析的区域的提议。可以通过本地接口(例如，具有对象检测能力的图像捕获设备)从一个或多个输入设备110接收提议或通过提议单元122的一个或多个模块确定提议。例如，提议单元122可以检测图像序列中的运动，并提议进行搜索以识别新对象的区域。

现在将参考图2描述对象检测和分类系统的附加细节。对象检测和分类系统200包括多个输入设备210，其可以包括信号处理设备212(例如，雷达系统)、视频捕获设备214(例如，房屋监视系统中的相机或安装在无人机上用于捕获航拍视频的相机)和图像捕获设备216(例如，可见光或红外相机)。每个输入设备210被配置为捕获场景的数据并通过通信网络和/或其他通信连接向神经网络目标分类器240提供对应的数据。输入设备210还可以包括用于识别和/或跟踪感兴趣对象的处理组件。例如，雷达系统可以提供表示场景内对象或结构的位置的数据。视频处理设备可以包括运动检测或其他对象检测组件。

现在将参考图3更详细地描述输入设备的示例实施方式。输入设备300包括被配置为捕获与场景310相关的数据并向图2的提议单元230提供同步数据的多个设备。输入设备300可以包括能够感测场景310中的一个或多个对象的特性的任何设备，例如图像处理和/或信号处理单元。在所示的实施例中，输入设备300包括雷达系统320、视频捕获设备330和视频捕获设备340。雷达系统320被配置为将一系列脉冲或连续波发射到场景310中并检测从场景310中的对象反射回雷达系统320的脉冲/波。雷达系统320产生表示场景中的对象的信号数据322，并且雷达处理324被配置为分析信号数据322以识别对象在场景310内的位置。对象位置被输出到提议单元230(见图2)，以进行进一步处理。视频捕获设备330可以包括成像传感器，其被配置为捕获场景310的可见或红外图像并生成视频图像332的流。视频处理单元334分析视频图像332，视频处理单元334提供对捕获的视频的运动检测和/或对象检测。被识别的对象被提供给提议单元230(见图2)。输入设备300还可以包括视频捕获设备340，其包括成像传感器，该成像传感器被配置为捕获场景310的可见光或红外图像342并产生被传输到提议单元230(参见图2)的对应视频流344。视频流344可以由提议单元230分析，以检测运动和对象。

返回参考图2，在各种实施例中，输入设备210向神经网络目标分类器240的提议单元230输出数据流。提议单元230被配置为接收来自输入设备210的数据并输出提议的目标感兴趣对象(例如，可能包括目标感兴趣对象的捕获图像的区域)的标识。提议单元230可以包括用于接收来自输入设备210的提议的目标对象位置的组件和/或用于分析输入数据以识别附加提议的目标对象位置的组件。在所示实施例中，提议单元包括提议单元应用可编程接口(API)232，用于促进输入设备210和神经网络目标分类器240之间的通信(例如，将外部生成的提议转发到注意协调器250)。提议单元230还可以包括用于分析感兴趣目标的捕获的图像数据的图像处理单元234、用于检测和/或跟踪输入流中一个或多个对象的运动(例如，以生成基于运动的提议)的运动目标指示器236、被配置为针对潜在对象搜索捕获的图像并生成随机搜索提议的随机搜索组件238以及用于跟踪先前在输入数据流中识别的可能包括检测的对象的区域的短期目标记忆239(例如，可能不在视场中的被跟踪对象、建筑物的门口、流量大的区域或之前检测到对象的其他区域)。短期目标记忆239可以为注意力协调器250生成预测提议。

目标对象提议被提供给注意力协调器250，其被配置为优化感兴趣区域，以通过区域优化过程252和用于跟踪/分配计算约束254的过程进行进一步处理。目标对象提议可以包括用于潜在目标的边界框，例如在图像的一部分中限定的矩形，限定可能包含对象的区域。在一个实施例中，注意力协调器250被配置为针对小目标获取和高帧率目标跟随优化的感兴趣区域。注意力协调器250识别注意力感兴趣区域(ROI)260，其包括一组修改的区域(例如，框262、框264和框266)，以供多尺度神经网络270进行处理。在一些实施例中，注意力协调器250被配置为最大化对象检测的概率(例如，在图像中检测到所有对象的概率)，同时最小化总计算处理(例如，通过多尺度神经网络270处理的输入像素的数量)。可以优化注意力ROI以覆盖所有提议，例如，通过对提议区域进行聚类并分配可用的多尺度神经网络资源来优化处理。

多尺度神经网络270包括被优化以处理不同大小的区域的多个神经网络。注意力ROI 260将每个注意力感兴趣区域(例如，框262、264和266)分配给多尺度神经网络270中的神经网络之一。在所示实施例中，各种神经网络被训练以处理不同大小的图像区域，分别包括64×64、128×128、256×256和512×512的图像大小。应当理解，图2中标识的输入图像大小仅仅是说明性的，并且可以根据本公开的教导使用其他神经网络配置和图像大小。在各种实施例中，多尺度神经网络包括不同复杂度的神经网络，并且选择注意力ROI 260以利用可用计算资源优化目标对象检测和分类结果。在一些实施例中，注意力协调器250实现聚类算法，该聚类算法试图最大化检测到每个目标的概率，同时最小化多尺度神经网络270处理的像素总数。

在各种实施例中，与较大的图像相比，较小的图像大小可以用更少的处理资源更高效地处理，并且可以被分配给被配置为处理类似大小的图像的神经网络。在一些实施例中，注意力协调器250分配小神经网络来处理小目标区域，并且分配大神经网络来处理大目标区域。注意力协调器250还可以被配置为将提议的区域聚类以进行高效处理，包括将一个或多个小目标区域与大目标区域聚类以最大化神经网络的效率。注意力ROI还可以包括被分配给具有较小输入图像大小的神经网络的大区域。例如，注意力协调器250可以确定可以用较少的细节处理特定图像区域(例如，可以在没有详细分析的情况下检测和分类大对象)。然后可以调整特定图像区域的大小以输入到分配的神经网络。

如前所述，所示实施例中的各种组件可以使用经训练的神经网络来实现。例如，注意力协调器250可以被实现为被训练以接收多个区域提议和系统资源并产生优化的兴趣区域以供进一步处理的神经网络。多尺度神经网络270可以包括多个神经网络，每个神经网络被训练以检测和/或分类感兴趣区域内的对象。

在各种实施例中，输出包括识别和标记检测到的对象的注释的视频流(例如，通过标记的边界框图像叠加)。在一些实施例中，一部分输出数据被反馈到系统以用于处理下一时间步长。例如，可以将限定有效对象(active object)的区域(例如，围绕检测到的对象的边界框)提供给注意力协调器250，以便可以在下一个时间步长执行相同的优化和/或在限定新注意力ROI时该区域可以与其他提议区域组合。还可以将检测到的对象区域提供给短期目标记忆239，以帮助针对新对象识别潜在区域。还可以将没有检测到的对象的区域提供给注意力协调器250，从而允许将资源引导到其他提议的区域。

参考图4A和4B，现在将描述示例神经网络。图4A示出了用于训练神经网络400的训练过程。神经网络400包括至少一个输入层402、至少一个隐藏层404和至少一个输出层406。神经网络400接收包括表示感兴趣区域中的对象的一系列标记图像的训练数据集410，并输出每个图像的对象分类。训练数据集410可以包括从红外、可见光或与输入设备对应的其他类型的设备捕获的图像和/或输入到对象检测和分类系统的数据。在一些实施例中，训练数据集410包括一个或多个合成地生成或修改的图像。训练数据集410还可以包括系统可用的其他图像分类输入数据(例如，另一经训练的神经网络的输出)。例如，训练数据集410可以包括由注意力协调器生成的注意力感兴趣区域。

对于对象分类，图像可以包括来自包括要识别的对象的捕获图像的感兴趣区域。在一个实施例中，训练开始于通过神经网络400的前向传递，其可以包括通过多个卷积层和池化层的特征提取，然后是多个完全连接的隐藏层和输出层406中的图像分类。接下来，通过神经网络400的反向传递可以用于更新神经网络400的节点的加权参数，以调整前向传递中产生的误差(例如，误分类的对象)。在各种实施例中，根据本公开可以使用其他类型的神经网络和其他训练过程。

参考图4B，然后可以在运行时环境中实现经训练的神经网络450，以对图像的感兴趣区域452中的对象进行分类。运行时环境可以包括本文公开的系统和方法的一个或多个实施方式。

现在将参考图5描述神经网络目标分类器500的示例实施例。神经网络目标分类器500可以在一个或多个系统或服务器上实现，例如执行数据处理和/或其他软件执行操作以生成、存储、分类和检索图像的应用服务器。在一些实施例中，神经网络目标分类器500的组件可以分布在诸如通信网络522的通信网络上。通信网络522可以包括一个或多个局域网，例如无线局域网(WLAN)、广域网(例如因特网)以及适合于促进本文描述的组件之间的通信的其他有线或无线通信路径。神经网络目标分类器500包括通信组件516，其被配置为促进通过通信网络522与一个或多个输入设备520的通信。

在各种实施例中，神经网络目标分类器500可以作为通用图像分类系统进行操作，例如基于云的图像分类系统，或者可以被配置为在专用系统中进行操作，例如存储从多个图像捕获设备实时捕获的视频和图像并识别和分类对象的视频监视系统。神经网络目标分类器500可以被配置为接收来自一个或多个输入设备520的一个或多个图像(例如，从视频监视系统的红外相机捕获的图像或可见光图像)和其他关联数据(例如，来自一个或多个输入设备520的雷达或音频数据)并处理关联的对象识别/分类请求。

在所示实施例中，神经网络目标分类器500包括执行数据处理和/或其他软件执行操作的一个或多个处理器504，以及存储系统使用的数据的数据库502。处理器504可包括逻辑器件、微控制器、处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或可由神经网络目标分类器500使用以执行适当指令(例如存储在存储器506中的软件指令)的其他设备，包括神经网络训练组件508、提议单元组件510、注意力协调器和注意力ROI组件512、经训练的多尺度神经网络组件514和/或其他应用。存储器506可以在存储可执行指令、数据和信息(包括图像数据、视频数据、音频数据、网络信息)的一个或多个存储器设备(例如，存储器组件)中实现。在各种实施例中，神经网络目标分类器500可以被配置为与各种网络设备连接，例如台式计算机或网络服务器、移动计算设备(例如移动电话、平板计算机、膝上型计算机)或具有用于与神经网络目标分类器500中的其他设备连接的通信电路(例如，无线通信电路或有线通信电路)的其他计算设备。

通信组件516可以包括用于使用各种通信协议与其他设备通信的电路。在各种实施例中，出于有线通信目的，通信组件516可以被配置为通过有线通信链路(例如，通过网络路由器、交换机、集线器或其他网络设备)进行通信。例如，有线链路可以用电力线电缆、同轴电缆、光纤缆或支持对应有线网络技术的其他合适的缆或线来实现。通信组件516还可以被配置为经由诸如以太网接口、电力线调制解调器和/或用于有线通信的其他适当组件的有线通信组件与有线网络和/或设备接口连接。通信组件516也可以支持专有的有线通信协议和接口。

现在将参考图6描述使用本公开的神经网络目标分类器的对象检测和分类系统的示例操作。过程600可以在包括一个或多个应用服务器的联网神经网络目标分类系统(例如，图5中所示的实施方式)上、在包括一个或多个图像捕获设备的专用系统(例如，房屋视频监控系统)中或其他图像处理系统中实现。在步骤602中，输入设备捕获与场景关联的数据，包括场景的至少一个图像。该数据还可以包括非图像数据，例如雷达数据、音频数据和其他感测数据。

在步骤604中，基于图像分析、运动检测、雷达信号、音频信号和/或其他数据分析，分析捕获的数据以识别潜在的对象区域。在步骤606中，这些提议的对象区域然后与系统资源信息(记忆、带宽、处理能力)一起被分析，以得出注意力感兴趣区域以进行进一步处理。注意力感兴趣区域可以包括具有两个或更多个提议对象区域的区域。例如，注意力感兴趣区域可以通过限定覆盖多个提议区域的单个区域来减少搜索区域的数量。注意力感兴趣区域还可以排除检测到感兴趣对象的概率低的提议区域。

在步骤608中，根据可用的系统资源将每个注意力感兴趣区域分配给多尺度图像分类神经网络。在一个实施例中，多尺度神经网络包括多个图像分类神经网络，每个图像分类神经网络具有不同级别的计算复杂度。通过以这种方式分配注意力感兴趣区域，系统可以分配资源来完成对象检测和分类目标。在一些实施例中，注意力感兴趣区域具有区域大小和检测到感兴趣对象的概率，并且资源被分配成最大化检测和分类对象的机会、高效地使用可用资源和/或实现其他系统目标。在步骤610中，多尺度神经网络中的神经网络处理每个注意力感兴趣区域以检测和/或分类对象。在步骤612中，系统将对象数据与场景的捕获图像(或视频)关联，包括限定识别检测到的对象位置的区域和检测到的对象的分类标签。

在适用的情况下，可以使用硬件、软件或者硬件和软件的组合来实现本公开提供的各种实施例。此外，在适用的情况下，在不脱离本公开的精神的情况下，本文中阐述的各种硬件组件和/或软件组件可以组合成包括软件、硬件和/或两者的复合组件。在适用的情况下，在不脱离本公开的精神的情况下，本文中阐述的各种硬件组件和/或软件组件可以被分成包括软件、硬件或两者的子组件。

根据本公开的软件，例如非暂时性指令、程序代码和/或数据，可以存储在一个或多个非暂时性机器可读介质上。还预期本文中识别的软件可以使用一个或多个通用或专用计算机和/或联网的和/或不联网的计算机系统来实现。在适用的情况下，本文描述的各个步骤的排序可以改变、组合成复合步骤和/或分成子步骤以提供本文描述的特征。

上述实施例示出但不限制本发明。还应当理解，根据本发明的原理，许多修改和变化是可能的。因此，本发明的范围仅由随附权利要求限定。

Claims

1.一种系统，所述系统包括：

提议组件，所述提议组件被配置为接收与场景关联的第一数据集，所述第一数据集包括所述场景的至少一个图像；

多尺度神经网络，所述多尺度神经网络包括多个神经网络，每个神经网络被训练为接收感兴趣区域并根据关联的资源分配输出对象分类；和

注意力协调器，所述注意力协调器被配置为确定所述图像中的感兴趣区域，并根据可用的系统资源将每个确定的区域分配给所述多尺度神经网络中的所述多个神经网络中的一个。

2.根据权利要求1所述的系统，还包括：

多个输入设备，所述多个输入设备包括：被配置为捕获所述场景的图像的可见光谱图像捕获设备以及被配置为生成与所述场景关联的第二数据集的第二输入设备。

3.根据权利要求2所述的系统，其中，所述第二输入设备包括雷达系统、音频捕获系统和/或红外成像系统。

4.根据权利要求1所述的系统，其中，所述第一数据集还包括至少一个对象区域的标识。

5.根据权利要求1所述的系统，其中，所述提议组件还被配置为分析所述第一数据集并在所述场景的所述至少一个图像中识别多个提议的感兴趣区域。

6.根据权利要求5所述的系统，其中，所述提议组件包括运动目标组件，所述运动目标组件被配置为识别所述至少一个图像中与检测到的运动关联的一个或多个区域。

7.根据权利要求5所述的系统，其中，所述提议组件包括随机搜索组件，所述随机搜索组件被配置为搜索所述至少一个图像并识别与对象关联的一个或多个区域。

8.根据权利要求1所述的系统，其中，所述多个神经网络中的每一个被配置为处理具有输入图像大小的感兴趣区域，并且其中，所述输入图像大小对于所述多个神经网络中的每一个不同。

9.根据权利要求1所述的系统，其中，所述注意力协调器还被配置为：至少部分地基于在所述图像中检测每个感兴趣对象的概率的优化和/或对由所述多尺度神经网络处理的像素数量的最小化，来确定所述图像中的感兴趣区域并将每个确定的区域分配给所述多尺度神经网络中的所述多个神经网络中的一个。

10.根据权利要求1所述的系统，其中，所述提议组件还包括短期目标记忆，所述短期目标记忆被配置为跟踪由所述多尺度神经网络分类的区域关联的对象并生成供所述注意协调器使用以确定所述图像中的感兴趣区域的预测提议。

11.一种方法，所述方法包括：

接收与场景关联的第一数据集，所述第一数据集包括所述场景的至少一个图像；

提供包括多个神经网络的多尺度神经网络，每个神经网络被训练为接收感兴趣区域并根据关联的资源分配输出对象分类；

确定所述图像中的感兴趣区域；和

根据可用的系统资源，将每个确定的区域分配给所述多尺度神经网络中的所述多个神经网络中的一个。

12.根据权利要求11所述的方法，还包括：

捕获所述场景的图像；和

生成与所述场景关联的第二数据集。

13.根据权利要求12所述的方法，其中，所述第二数据集包括与所述场景关联的雷达数据、音频数据和/或红外成像数据。

14.根据权利要求11所述的方法，其中，所述第一数据集还包括至少一个对象区域的标识。

15.根据权利要求11所述的方法，还包括分析所述第一数据集并识别所述场景的所述至少一个图像中的多个提议的感兴趣区域。

16.根据权利要求15所述的方法，还包括识别所述至少一个图像中与检测到的运动关联的一个或多个区域。

17.根据权利要求15所述的方法，还包括使用随机搜索过程搜索所述至少一个图像并识别与对象关联的一个或多个区域。

18.根据权利要求11所述的方法，其中，所述多个神经网络中的每一个被配置为处理具有输入图像大小的感兴趣区域，并且其中，所述输入图像大小对于所述多个神经网络中的每一个不同。

19.根据权利要求11所述的方法，其中，确定所述图像中的感兴趣区域并将每个确定的区域分配给所述多尺度神经网络中的所述多个神经网络中的一个至少部分地基于在所述图像中检测每个感兴趣对象的概率的优化和/或对由所述多尺度神经网络处理的像素数量的最小化。

20.根据权利要求11所述的方法，其中，确定感兴趣区域还包括：使用短期目标记忆跟踪与由所述多尺度神经网络分类的对象关联的区域，以及生成跟踪的区域在所述场景的图像中的位置的预测提议。