CN113168541A

CN113168541A - 用于成像系统的深度学习推理系统和方法

Info

Publication number: CN113168541A
Application number: CN201980078744.6A
Authority: CN
Inventors: S·Y·S·赛; D·M·P·奈斯比特; I·K·斯塔德勒
Original assignee: Flier Business Systems
Current assignee: Flier Business Systems
Priority date: 2018-10-15
Filing date: 2019-10-14
Publication date: 2021-07-23
Also published as: US20210227126A1; WO2020081470A1; EP3867810A1

Abstract

用于成像系统的深度学习推理包括成像设备，该成像设备包括图像捕获部件和视觉处理单元，该视觉处理单元被配置为通过第一经训练的推理网络处理图像以确定第一推理结果。主机系统训练用于图像分类的神经网络并生成第一经训练的推理网络，并将该第一经训练的推理网络传送到成像设备的视觉处理单元。第一经训练的推理网络向成像设备提供独立的图像分类、对象检测和/或置信度得分。视觉处理单元还可以包括两个或更多个经训练的推理网络，其被配置为接收作为输入的推理结果并输出第二推理结果。立体相机系统使用来自一个或多个推理网络的特征和/或结果来控制对检测到的对象的三维数据的处理。

Description

用于成像系统的深度学习推理系统和方法

相关申请的交叉应用

本专利申请要求2018年10月15日提交的题为“DEEP LEARNING INTERFACESYSTEMS AND METHODS FOR IMAGING SYSTEMS”的美国临时专利申请No.62/745,948的优先权和权益，通过引用的方式将其整体并入本文中。

技术领域

本公开的一个或多个实施例总体上涉及成像系统，并且更具体地，例如，涉及用于成像系统的深度学习推理系统和方法。

背景技术

在图像处理领域中，一直需要一种有效且可靠的方式来对成像设备的视场(例如，场景)内的感兴趣对象进行检测和分类。传统的“智能相机”结合了机器视觉成像部件和运行基于规则的图像处理软件的单板计算机。智能相机能够解决诸如条形码读取之类的简单问题或者是解答诸如“该零件应该在其应有的位置上有孔吗？”之类的问题。推理相机擅长解决更复杂或更主观的问题，例如“这是苹果出口等级吗？”。当对已知的良好图像进行训练时，推理相机可以轻松地识别出意外的缺陷，而基于规则的检查系统将无法识别出这些缺陷，从而使推理机对可变性的容忍度更高。

在一种方法中，将感兴趣的对象的各种图像收集到训练数据集中，以训练神经网络对对象进行分类。可以使用相机以各种角度和各种设置捕获对象的图像来生成训练图像。对于每个对象分类，训练数据集通常都包括数千个图像，并且生成和更新训练数据集可能很耗时、昂贵且繁重。可以将经过训练的神经网络加载到服务器系统上，该服务器系统从网络上的成像设备接收图像并对其进行分类。简化的机器视觉和图像分类系统可用于某些成像设备，但是这样的系统不能运行鲁棒的经过训练的神经网络，并且很难适应各种用户场景。鉴于以上所述，仍然需要一种改进的对象检测和分类方案，其易于适应新的用例并提供优于常规系统的性能或其他优势。

发明内容

提供了利用成像系统来实现经过训练的神经网络的各种系统和方法。推理相机使用户能够利用快速加速的深度学习技术、框架和工具。该相机将使工程师能够花费更少的时间来开发复杂的算法，同时提供更能容忍意外缺陷的系统。

在各种实施例中，一种系统包括成像设备，所述成像设备具有：被配置为捕获图像的图像捕获部件，以及被配置为通过第一经训练的推理网络来处理图像以确定第一推理结果(例如，图像分类、对象检测、感兴趣区域、异常检测和/或置信度得分)的视觉处理单元。主机系统被配置为训练用于图像分类的神经网络并生成所述第一经训练的推理网络，并将所述第一经训练的推理网络传输到所述成像设备的视觉处理单元。可以经由通信网络将所述第一经训练的推理网络从主机系统上传到成像设备的视觉处理单元，并且第一经训练的推理网络可以被配置为向成像设备提供独立的图像分类。在一些实施例中，可以将第一推理结果传送到主机系统。

在一些实施例中，第一推理结果是感兴趣区域，并且视觉处理单元还包括多个经训练的推理网络，其被配置为接收作为输入的所述第一推理结果并输出第二推理结果。

所述成像设备还可包括图像处理部件，其被配置为接收所述图像捕获部件捕获的图像并修改所述图像以输入到所述第一经训练的推理网络。所述成像设备还可包括处理部件，其被配置为控制所述成像设备的操作，包括处理所述第一推理结果和/或确定要对所述图像采取的相关动作。在一些实施例中，所述相关动作可以包括：将所述图像串流传输到主机系统，将图像存储到所述成像设备上，和/或执行第二推理网络。

在一些实施例中，对所述第一经训练的推理网络进行加密并将其存储到第一存储器中，并且其中，对所述第一经训练的推理网络进行解密并加载到随机存取存储器中以进行推理。

在一些实施例中，所述图像捕获部件被配置为捕获可见光谱图像、红外图像、彩色图像、高光谱图像、灰度图像和/或单色图像。

在各种实施例中，一种方法包括：将第一经训练的推理网络加载到成像设备的视觉处理单元上；使用所述成像设备的成像部件捕获图像；以及通过所述第一经训练的推理网络处理所述图像以确定第一推理结果。所述方法可以进一步包括由主机系统训练用于图像分类的神经网络以生成所述第一经训练的推理网络，其中加载到所述视觉处理单元上还包括将所述第一经训练的推理网络从主机系统上传到成像设备。在一些实施例中，所述第一经训练的推理网络被配置为向成像设备提供独立的图像分类。

所述方法可以进一步包括：通过通信网络将第一推理结果发送到主机系统；通过第二经训练的推理网络处理第一推断结果，以确定第二推理结果；和/或基于第一推理结果，确定针对所述图像的相关动作。在各种实施例中，所述相关动作可以包括：将所述图像串流传输到主机系统，将图像存储到所述成像设备上，和/或执行第二推理网络。

在一些实施例中，所述方法包括通过图像处理部件处理图像。所述方法还可以包括：对所述第一经训练的推理网络进行加密并将其存储到第一存储器中，以及对所述第一经训练的推理网络进行解密并加载到随机存取存储器中以进行推理。

在各种实施例中，一种系统包括立体成像设备，所述立体成像设备包括：两个或更多个图像捕获部件，其被配置为捕获场景的一对图像；视觉处理单元，其被配置为通过第一经训练的推理网络处理所述图像对以确定第一推理结果；以及处理部件，其被配置为处理所述第一推理结果并基于所述第一结果确定针对图像对进行的动作。所述视觉处理单元还被配置为对图像对中的一个或多个对象进行检测和/或分类，并确定由所述第一经训练的推理网络检测到的对象的二维和/或三维位置。所述两个或更多个图像捕获部件包括双目立体相机系统；并且对所述两个或更多个图像捕获部件进行校准以生成校正后的图像对，以输入到所述第一经训练的推理网络。

在一些实施例中，所述经训练的推理网络检测所述图像对中的感兴趣对象，并在所述图像对中的至少一个图像中生成对应的二维位置的边界框，在深度学习推理期间计算出的图像特征用作进行立体匹配的特征，并且三维数据用于控制机器人系统以与检测到的对象进行交互。视觉处理单元还可以被配置为基于所述边界框对所述图像对中的感兴趣区域执行立体匹配，以生成所述感兴趣对象的空间位置信息，其中，当检测到感兴趣的对象时执行立体匹配，并且所述立体匹配既可以是基于相关的方法来生成密集的三维点云，和/或可以是基于特征的方法来生成稀疏的三维点云。

本发明的范围由权利要求书限定，通过引用的方式将权利要求书的内容并入到本部分。通过考虑下面对一个或多个实施例的详细描述，将向本领域技术人员提供对本发明实施例及其额外优点的实现的更完整理解。将参考首先将简要描述的附图。

附图说明

图1A示出了根据本公开的各种实施例的用于推理成像系统的示例性的训练过程。

图1B示出了根据本公开的各种实施例的推理成像系统的示例性的分类操作。

图2示出了根据本公开的各种实施例的用于推理成像系统的示例性的工作流程。

图3示出了根据本公开的各种实施例的示例性的推理成像系统。

图4示出了根据本公开的实施例的与推理成像设备一起使用的示例性的主机图像分类系统。

图5A示出了根据本公开的各种实施例的示例性的神经网络训练过程。

图5B示出了根据本公开的各种实施例的示例性的神经网络训练过程。

图5C示出了根据本公开的各种实施例的示例性的神经网络推理过程。

图6示出了根据本公开的各种实施例的推理成像系统的示例性的实施方式。

图7示出了根据本公开的各种实施例的推理成像系统的示例性的实施方式。

图8示出了根据本公开的各种实施例的推理成像系统的示例性的实施方式。

图9示出了根据本公开的各种实施例的立体推理相机的示例性的实施方式。

图10示出了根据本公开的各种实施例的用于操作图9的立体推理相机的示例性过程。

通过参考下面的详细描述，将最好地理解本公开的实施例及其优点。应当理解，相同的附图标记用于标识在一个或多个附图中示出的相同的元件。

具体实施方式

本公开的各方面总体上涉及图像分类，并且更具体地，例如，涉及用于成像系统的深度学习推理系统和方法。

在各种实施例中，改进的成像设备(例如，数码相机)包括深度学习技术系统和方法，其使得能够部署经过训练的神经网络以用于多种用途。在各种实施例中，成像设备包括图像传感器、视觉处理单元和将机器视觉与深度学习推理集成的接口。在某些实施例中，视觉处理单元(VPU)是结合了高速硬件图像处理过滤器、通用CPU内核和并行向量处理核的英特尔Movidius Myriad 2VPU或类似的处理器。向量核可用于加速相机上的推理，并且与图形处理单元中更通用的内核相比，进一步优化了神经网络的分支逻辑。这种更高程度的优化使VPU在低功耗设备中实现了较高的性能水平。

深度学习推理使推理应用程序能够对新捕获的、未带标记的真实世界图像进行分类预测。参照图1A，现在将根据一个或多个实施例来描述推理引擎的训练。训练系统100包括被馈送到神经网络110中的带有标记的训练图像数据集(训练数据集102)。神经网络110可以是可用于推理的一种或多种不同类型的神经网络。在一些实施例中，对神经网络进行优化以在移动设备上对图像进行分类和分割。神经网络110对每个训练图像进行预测并将预测结果与图像标记进行比较。将比较结果(例如，图像的标记错误)反馈到网络以修改连接权重并优化预测以提高准确性。

参考图1B，现在将根据一个或多个实施例描述经过训练的推理网络150的操作。将捕获的图像160馈送到经过训练的推理网络150，该经过训练的推理网络150输出每个图像的分类预测和置信度。成像设备然后可以使用图像分类预测来确定进一步的图像处理动作。

推理相机可用于通过丰富的描述性元数据来扩展现有应用程序。例如，推理相机可以给图像打上标记，然后将打上标记的图像传送到执行传统的基于规则的图像处理的主机。通过这种方式，用户能够快速扩展其现有视觉系统的功能。传统智能相机中使用的计算硬件的通用性质意味着它们的功率效率较低，并且在物理上比本文公开的推理相机大得多。在各个实施例中，本文公开的推理相机可以在开放平台上实现，让用户可以灵活的利用深度学习网络及其相关工具链的快速发展来进行训练和优化。相反，传统的智能相机是使用专有工具编程的，这可能会跟不上最新的进展。

在各个实施例中，推理相机实现为连接到较大的联网系统的边缘设备。通过使得能够在视觉系统的“边缘”上进行推理，本公开的推理相机改进了系统速度、可靠性、功率效率以及安全性。推理相机将各种图像处理功能从中央服务器移走并靠近数据源。推理相机可以将需要的描述性数据发送到远程服务器，而不是将整个图像发送到远程服务器，这可以极大地减少系统必须发送的数据量，从而最大程度地减少网络带宽和系统延迟。对于某些应用来说，本文公开的推理相机可以消除系统对服务器和网络基础设施的依赖，从而提高了其可靠性。

借助内置的VPU，推理相机能够作为独立的图像分类系统运行。在某些实施例中，推理相机可以捕获图像并基于这些图像做出决策，然后使用信令(例如，通用输入/输出(GPIO)信令)触发动作。例如，动作可以包括将图像串流传输(streaming)到主机系统、将图像存储到成像设备上、以及通过GPIO将信息(例如，推理结果、置信度、结果的位置)传送到外围设备，和/或执行第二个推理网络。可以通过使用经由GPIO的二进制逻辑值、具有多个GPIO的编码值、脉宽调制、通过GPIO引脚进行的串行端口通信和/或其他通信协议来便于进行通信。

在操作中，推理相机可以被配置为仅在需要时才触发网络视觉系统，这使得可以在传统的基于规则的图像处理和分析上花费更多的处理时间。例如，当满足特定条件时，深度推理可以用于触发高功率图像分析。在一些实施例中，VPU可以通过支持级联网络来节省额外的功率。这使得可以进行多层分析，其中，只有在其满足先前网络的条件的情况下才调用更复杂、功率更高的网络。传输的少量数据也易于加密，从而提高了系统安全性。

参考图2，现在将描述推理相机工作流程200的实施例。将深度学习用于机器视觉应用是合乎需要的，这是因为它不需要传统的基于规则的方法所需的复杂算法开发。例如，具有缺陷的例子比对缺陷的算法描述更容易。在离线训练阶段210，使用标记的图像来训练推理网络以对新图像进行预测。对训练数据集进行编译(步骤212)，该训练数据集包括样本图像和定义所需分类的相应的标记。然后，训练数据集用于训练推理网络(步骤214)，对结果进行评估(步骤216)，并通过离线训练阶段210进行反馈，以使得在适当的情况下更新推理网络的训练数据集和权重。在各种实施例中，相机和捕获的图像可以是可见光谱、红外、单色、高光谱、灰度、彩色和其他成像系统捕获的图像。

然后，将经过预训练的推理网络转换为在推理相机的VPU上运行(步骤220)，然后将其上传到推理相机的VPU(步骤222)。当捕获到图像时，可以将该图像馈送到相机VPU上的推理网络(步骤224)以生成与该图像相关联的分类结果(步骤226)。如图所示，推理相机被配置为捕获高质量图像并在没有主机和云连接的情况下在相机上执行深度学习推理。然后，推理相机可以将分类/检测推理结果发送到外围设备(例如，经由GPIO发送)或通过网络连接发送到主机设备。

在各个实施例中，用户可以将经过预训练的网络上传到深度学习推理相机或对特定于所需应用的新网络进行训练。推理模型可以包括多个模型，其中，将来自一个模型的结果馈送到后续模型以进行进一步分类。在一些实施例中，对推理网络进行加密并将其加载到RAM中进行推理。推理相机可以被配置为在有云或主机连接和/或没有云或主机连接的情况下使用。在一些实施例中，推理相机比传统的智能相机消耗更少的功率，并且使用GPIO(通用输入/输出)与外围设备通信。推理相机还可以被配置为将低等待时间的图像串流传输到主机系统(例如，使用USB3/GigE视觉)，同时在相机上进行推理时，使用丰富的描述性元数据来增强图像。

可以以各种形式将推理结果(例如，分类和/或检测)发送到主机。在一些实施例中，可以通过事件将推理结果发送到主机。可以在完整图像或需要的感兴趣区域上执行推理。推理结果可以包括用于进一步进行决策的初步数据。推论结果可以用于确定将哪些图像串流传输到主机、存储到相机上和/或丢弃。在一些实施例中，推理网络被配置为在推理相机启动时运行。

参考图3，现在将描述推理相机300的实施例。推理相机300可以是例如用于捕获和处理图像以对出现在视场中的对象进行检测、分类和/或计数的成像系统。如图所示，推理相机300可用于对视场中的场景370进行成像。推理相机300包括处理部件310、存储器部件320、图像捕获部件330、光学部件332(例如，被配置为通过相机部件301中的孔334接收电磁辐射，并将电磁辐射传递到图像捕获部件330的一个或多个透镜)、图像捕获接口部件336、可选的显示部件340、控制部件350、通信部件352和其他传感部件。

在各种实施例中，推理相机300可以实现为成像设备(例如，相机部件301)，以捕获例如相机部件301的视场中的场景370的图像帧。在一些实施例中，相机部件301可以包括容纳在保护性外壳中的图像捕获部件330、光学部件332和图像捕获接口部件336。推理相机300可以表示适于对场景370成像并提供相关的图像数据的任何类型的相机系统。推理相机300可以在各种类型的固定位置和环境(例如，在高速公路立交桥上实现，其作为场所监视系统的一部分跟踪交通、监视/跟踪人等)用相机部件301来实现。在一些实施例中，相机部件301可以以固定布置的方式进行安装以捕获场景370的连续图像。推理相机300可以包括便携式设备并且可以实现为例如手持设备和/或在其他示例中耦合到各种类型的交通工具(例如，陆基交通工具、船舶、飞机、航天器或其他交通工具)。

处理部件310可以包括例如微处理器、单核处理器、多核处理器、微控制器、逻辑设备(例如，被配置为执行处理操作的可编程逻辑设备)、数字信号处理(DSP)设备、用于存储可执行指令(例如软件、固件或其他指令)的一个或多个存储器、图形处理单元、和/或用于执行指令从而执行本文所述的各种操作中的任意一种操作的处理设备和/或存储器的任何其他合适组合。处理部件310适于与部件320、330、340和350连接并通信，以执行如本文所述的方法和处理步骤。处理部件310还适于通过图像处理部件380、对象/区域检测模块382和包括经过训练的推理网络384的VPU383，对由图像捕获部件330捕获的图像中的对象进行检测和分类。

应当理解，可以将处理操作和/或指令集成到作为处理部件310的一部分的软件和/或硬件中，或者将其集成到可以存储在存储器部件320中的代码中(例如，软件或配置数据)。可以由机器可读介质以非临时方式(例如，存储器、硬盘驱动器、光盘、数字视频盘或闪存)存储本文公开的操作和/或指令，以由计算机(例如，基于逻辑或基于处理器的系统)执行，从而执行本文公开的各种方法。在各种实施例中，处理操作包括GenICam接口(相机的通用接口)。

在一个实施例中，存储器部件320包括一个或多个存储器设备(例如，一个或多个存储器)以存储数据和信息。该一个或多个存储器设备可以包括各种类型的存储器，包括易失性和非易失性存储器设备，例如，RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除只读存储器)、闪存或其他类型的存储器。在一个实施例中，处理部件310适于执行存储在存储器部件320和/或机器可读介质中的软件，以按照本文所述的方式执行各种方法、过程和操作。

在一个实施例中，图像捕获部件330包括用于捕获表示场景370的图像的图像信号的一个或多个传感器。在一个实施例中，图像捕获部件330的传感器能够将捕获的场景370的红外图像信号表示(例如，转换)为数字数据(例如，通过作为传感器的一部分而包括的模数转换器或作为推理相机300的一部分与传感器分离的模数转换器来执行)。红外传感器可以包括以阵列或其他方式在基板上实现的多个红外传感器(例如，红外检测器)。例如，在一个实施例中，红外传感器可以实现为焦平面阵列(FPA)。红外传感器可以被配置为检测来自目标场景的红外辐射(例如，红外能量)，该红外辐射包括例如中波红外波段(MWIR)、长波红外波段(LWIR)和/或在具体实施中所需的其他热成像波段。红外传感器可以实现为例如微辐射热计或以任何期望的阵列模式布置以提供多个像素的其他类型的热成像红外传感器。

在一些实施例中，推理相机300的图像捕获部件330、处理部件310和其他部件被配置为捕获飞行时间图像。例如，推理相机300可以实现为飞行时间相机，其测量光信号(例如，LED光、激光等)的往返时间并捕获图像的结果，其中，图像上的一个或多个点表示推理相机300和成像对象上的对应点之间的距离。

处理部件310可适于接收来自图像捕获部件330的图像信号、处理图像信号(例如，以提供处理后的图像数据)、将图像信号或图像数据存储到存储器部件320中，和/或从存储器部件320中检索存储的图像信号。在各个方面，如本文所述，处理部件310可位于远程，并且处理部件310可以适于经由与图像捕获接口部件336的有线或无线通信从图像捕获部件330远程接收图像信号。

显示部件340可以包括图像显示设备(例如，液晶显示器(LCD))或通常已知的各种其他类型的视频显示器或监视器。在各种实施例中，控制部件350可以包括用户输入和/或接口设备，例如键盘、控制面板单元、图形用户界面或其他用户输入/输出设备。控制部件350可适于被集成为显示部件340的一部分，以同时操作为用户输入设备和显示设备，举例来说，例如，适于通过用户触摸显示屏的不同部分来接收输入信号的触摸屏设备。

处理部件310可以适于与图像捕获接口部件336通信(例如，通过从图像捕获部件330接收数据和信息)。图像捕获接口部件336可以被配置为从图像捕获部件330接收图像信号(例如，图像帧)，并且直接将图像信号传送到处理部件310或者通过一个或多个有线或无线通信部件(例如，连接337表示的)以本文进一步描述的通信部件352的方式将图像信号传送到处理部件310。在各种实施例中，相机部件301和处理部件310可以彼此靠近或远离。

在一个实施例中，通信部件352可以实现为适于与包括网络中的其他设备的网络进行通信的网络接口部件，并且其可以包括一个或多个有线或无线通信部件。在各种实施例中，网络354可以实现为单个网络或多个网络的组合，并且可以包括有线或无线网络，包括无线局域网、广域网、因特网、云网络服务和/或其他合适类型的通信网络。

在各种实施例中，推理相机300具备对场景370中的对象进行实时检测、分类和/或计数的能力。例如，推理相机300可以被配置为使用相机部件301(例如，红外相机)捕捉场景370的图像。捕获的图像可以由处理部件310接收并存储在存储器部件320中。图像处理部件380和对象/区域检测模块382可以从每个捕获图像中提取与检测到的对象相对应的场景370的像素值的子集。经过训练的推理网络384(例如，经过训练的图像分类神经网络)根据系统偏好对检测到的对象进行分类并将结果存储到存储器部件320、对象数据库或其他存储器中。在一些实施例中，推理相机300可以通过网络354(例如，因特网或云)将图像或检测到的对象发送到服务器系统(例如，图像分类系统356)以远程地进行图像分类。对象/区域检测模块382和经过训练的推理网络384提供对捕获图像的分析，以检测和分类一个或多个对象。在各种实施例中，推理网络是可以在实时环境中实现的经过训练的图像分类系统。

推理相机300可以被配置为与一个或多个计算设备、服务器和/或一个或多个数据库一起操作，并且可以与图像分类系统中的其他部件组合。参考图4，现在将描述主机图像分类系统400的各种实施例。主机图像分类系统400可以在一个或多个服务器上(例如，执行数据处理和/或其他软件执行操作以生成、存储、分类和检索图像的应用服务器)实现。在一些实施例中，主机图像分类系统400的部件可以分布在通信网络上(例如，通信网络422)。通信网络422可以包括例如无线局域网(WLAN)的一个或多个局域网、广域网(例如，因特网)、以及适于便于本文描述的部件之间的通信的其他有线或无线通信路径。主机图像分类系统400包括被配置为便于通过通信网络422与一个或多个推理相机420通信的通信部件414。

在各种实施例中，主机图像分类系统400可以用作通用图像分类系统(例如，基于云的图像分类系统)，或者可以被配置为在专用系统(例如，视频监视系统，其存储通过多个图像捕获设备实时捕获的视频和图像，并使用数据库402识别和分类对象)中运行。主机图像分类系统400可以被配置为从一个或多个推理相机420接收一个或多个图像(例如，通过视频监视系统的红外相机捕获的图像或可见光图像)，并处理相关的对象识别/分类请求。

如图所示，主机图像分类系统400包括一个或多个处理器404，其执行主机图像分类系统400的数据处理和/或其他软件执行操作。处理器404可以包括逻辑设备、微控制器、处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或可由主机图像分类系统400使用以执行合适的指令(例如，存储在存储器406中的软件指令)的其他设备，其中，存储器406包括网络训练和数据集生成部件410和图像分类部件412(例如，由训练数据集训练的神经网络)和/或其他应用程序。存储器406可以在存储可执行指令、数据和信息(包括图像数据、视频数据、音频数据、网络信息)的一个或多个存储器设备(例如，存储器部件)中实现。在各种实施例中，主机图像分类系统400可以被配置为与以下设备接口连接：各种网络设备(例如，台式计算机或网络服务器)、移动计算设备(例如，移动电话、平板电脑、膝上型计算机)或具有通信电路(例如，无线通信电路或有线通信电路)以与主机图像分类系统400中的其他设备连接的其他计算设备。

通信部件414可以包括用于使用各种通信协议与其他设备进行通信的电路。在各种实施例中，通信部件414可以被配置为：为了有线通信的目的而通过有线通信链路(例如，通过网络路由器、交换机、集线器或其他网络设备)进行通信。例如，可以利用电力线电缆、同轴电缆、光纤电缆或支持相应的有线网络技术的其他合适的电缆或电线来实现有线链路。通信部件414可以被进一步配置为经由有线通信部件(例如，以太网接口、电力线调制解调器、数字用户线(DSL)调制解调器、公共交换电话网(PSTN)调制解调器、电缆调制解调器和/或其他用于有线通信的合适部件)与有线网络和/或设备接口连接。通信部件414也可以支持专有的有线通信协议和接口。

现在将参考图5A-C描述神经网络的各种实施例。在图5A中，神经网络500是卷积神经网络(CNN)，其接收训练数据集502并输出每个图像的分类。训练数据集502包括通过红外、可见光或其他类型的相机捕获的图像。在一些实施例中，训练图像包括一个或多个合成生成或修改的图像。训练数据集502还可包括可用于推理相机的其他图像分类输入数据(例如，另一个经过训练的神经网络的输出)。对于对象分类，图像可以包括来自包括要识别的对象的捕获图像的感兴趣区域。在一个实施例中，训练始于前向通过神经网络500，包括在多个卷积层506和池化层508中进行特征提取504，之后是在多个全连接层512和输出层514中进行图像分类510。接下来，考虑到前向通过中产生的错误(例如，错误分类的对象)，可以使用后向通过神经网络500来更新CNN参数。在各种实施例中，根据本公开，可以使用其他神经网络过程。

参考图5B，现在将描述利用训练数据训练神经网络的实施例的更多细节。使用包括本文所述的图像的训练数据集532来训练神经网络530(例如，卷积神经网络)。训练包括前向通过神经网络530以产生图像分类。在所示的实施例中，将热图像(例如，大象的热图像)馈送到神经网络530，以在输出层处产生分类。利用正确的分类对每个图像进行标记，并且将神经网络530的输出与正确的标记进行比较。如果神经网络530对输入图像标记错误(例如，确定该图像是“犀牛”而不是“大象”)，则使用后向通过神经网络530来调节神经网络(例如，权重)以校正错误分类。参考图5C，然后可以在运行时环境上实现经过训练的神经网络540，以对图像542进行分类。运行时环境可以包括推理相机和/或主机图像分类系统。

现在将参考图6-8描述各种实施例。如图6-8所示。如图6所示，推理相机可以被配置为分析图像并产生分类(例如，图像(a)中的“计算机键盘”和图像(b)中的“咖啡杯”)以及置信度得分。可以将对象分类输出从推理相机发送到主机系统，以进行存储或进行进一步处理。推理结果和置信度估计可以是传送给主机的块数据的一部分。置信度值可用于例如滤除低于某个阈值的推理结果，并仅将满足或超过阈值的图像发送给主机。

图7示出了另一个实施例，其中使用推理相机检测对象，然后将检测到的对象发送到主机系统以进行进一步处理。在另一个实施例中，推理相机可以包括用于对检测到的对象进行进一步图像处理的其他推理网络。示出的输出可以包括人的检测(参见，例如，图像(a)中的边界框700a-e)，面部的检测(参见，例如，图像(b)中的边界框710a-f)，或对于系统实现有用的其他对象的检测。置信度值可用于滤除低于特定阈值的检测。

图8示出了在没有外部主机的情况下作为独立系统操作的实施例。如图所示，在机器视觉应用中使用推理相机系统来检查零件，并且如果零件通过检查，则输出“对号”(图像(a))或其他标记，如果零件未通过检查，则输出“X”或其他标记(图像(b))。可将阈值应用于推理网络输出的置信度值，以决定要显示的检查结果。在一个实施例中，推理相机系统通过连接到控制器的GPIO引脚输出检查结果，以传达要采取的相关动作(例如，激活显示器以显示结果)。推理相机系统可以进一步执行异常检测，以识别缺陷和/或指示缺陷在检测到的对象中的位置。检查结果可以包括将图像串流传输到主机系统、将图像存储到成像设备上、以及经由GPIO将信息(例如，推理结果、置信度、结果的位置)传送到外围设备、和/或执行第二推理网络。可以通过使用经由GPIO的二进制逻辑值、使用多个GPIO的编码值、脉宽调制、通过GPIO引脚进行的串行端口通信和/或其他通信协议来便于通信。在一些实施例中，通信协议被配置为允许对诸如自主机器人或平移/倾斜底座上的相机之类的系统进行更高级别的自动化控制。

本文公开的系统和方法可以应用于各种计算机视觉应用，例如，使用立体图像的对象分类和检测。具有两个或更多个相机和/或具有两个或更多个图像捕获部件的单个相机的立体成像可用于获得场景中对象的三维信息。例如，对于许多机器人应用而言，对立体图像的分析可以提供有利的信息，例如，检测到的对象在三维(3D)空间中的位置。在各个实施例中，在立体图像处理系统中实现了本文公开的深度学习推理系统和方法。

在一个实施例中，深度学习立体相机系统被配置为便于用户选择和加载预训练的神经网络。立体相机系统可以包括被配置为接收场景的立体图像的一个或多个相机。立体相机系统可以配备有用于在边缘进行推理的视觉处理单元(VPU)。立体相机捕获高质量的图像，并在立体相机的板上执行深度学习推理。对象检测网络分析捕获的图像，并生成作为感兴趣区域的边界框，以便进行立体处理来确定对象相对于立体相机的3D位置。输出包括类别标记、2D边界框以及感兴趣对象的3D世界坐标。

许多机器人应用程序需要检测感兴趣的对象并确定3D对象的位置，以便机械臂可以抓住特定对象、操纵和/或围绕对象或执行其他与对象有关的任务。虽然可以使用两个单独的视觉系统(例如，一个用于对象检测，另一个用于生成3D点云)获取此信息，但是通过将对象检测和3D位置确定组合到单个系统中，可以获得更多优点。使用单独的系统也有缺点，例如，对通过两个视觉系统获取的图像/信息进行注册的附加步骤。

立体相机可以与主机计算设备一起使用以实现对象检测和3D定位。在各种实施例中，立体相机包括具有板上立体匹配的视觉处理单元和经过训练的深度学习推理系统，可以将其部署在包括工业应用在内的各种应用中。

在各种实施例中，立体深度学习相机系统在单个系统中提供对象检测和分类以及对象定位功能。立体相机系统可以捕获立体图像并且对图像流中的多个图像流之一执行对象检测和分类。来自对象检测的边界框用于帮助将立体处理限制在某些感兴趣的区域。本文中描述的立体成像系统和方法与传统系统相比，处理器密集度将较低，这是因为可以对检测到的对象而不是整个场景执行3D数据的计算。对于高分辨率图像来说，立体处理的计算量很大。所提出的方法允许获得感兴趣对象的高分辨率3D数据，同时避免在整个高分辨率图像上执行立体匹配。

深度学习立体相机系统可以配置有允许用户将预先训练的深度学习网络加载到立体相机上的接口。在一些实施例中，立体相机包括被配置为在边缘上提供推理的视觉处理单元(VPU)。立体相机被配置为捕获高质量图像并在相机的板上执行深度学习推理。深度学习网络有助于对象检测，并且深度学习网络生成作为感兴趣区域的边界框，以输入到立体处理算法。立体处理可以包括使用边界框来识别感兴趣的区域/对象，以进行3D定位处理。深度学习立体相机系统的输出可以包括一个或多个类别标记、一个或多个2D边界框和/或感兴趣对象的3D世界坐标。

现在将更详细地描述深度学习立体相机系统的实施例。在一种实现方式中，将两个独立的能够进行深度学习的相机(例如，如参考图1-8所描述的相机)组合到单个立体系统中。通过使用相机的经过训练的神经网络分析相应的相机捕获的图像，在一个或两个相机的板上执行对象检测。该两个相机同步并一起校准，以使得可以映射立体图像和相关数据。立体匹配可以在相机上或在单独的设备(例如，主机个人计算机)上执行。

在另一实施例中，深度学习立体相机系统包括由一个或多个处理部件控制以捕获立体图像的两个或更多个图像捕获部件和被配置为分析捕获的图像以进行对象检测和3D定位信息的处理单元(例如，视觉处理单元)。合适的视觉处理单元可以包括英特尔Movidius Myriad X和/或安霸(Ambarella)CV2。立体相机系统被配置为从一个或多个图像流中检测和分类对象，并提供通过深度学习推理检测到的感兴趣对象的2D和/或3D位置。立体相机可以包括两个或更多个相机和包括双目立体相机系统在内的各种布置。在一个实施例中，对立体相机进行校准并产生用于深度学习推理的校正图像。

参考图9，现在将进一步详细描述立体相机系统900的各种实施例。立体相机系统900可以包括先前参考图3的推理相机300公开的一个或多个部件。立体相机系统900包括两组相机部件301a(包括部件332a，330a，336a和337a)和301b(包括部件332b，330b，336b和337b)，每组相机部件都被配置为捕获场景370的单独图像。相机部件301a和301b被配置为通过处理部件310同时(或近似同时)捕获图像。将捕获的一对图像提供给处理部件310以进行进一步的处理和分析。VPU 383包括一个或多个推理网络384，其被配置为对图像对中的图像执行对象和/或感兴趣区域检测382以及对象分类385。推理网络384可以被进一步配置为检测图像中的检测到的对象的二维位置，生成用于三维处理部件386的特征数据和/或与对象相关的信息，和/或执行其他任务。三维处理部件386接收图像对和推理数据(例如，提取的特征、对象位置、对象分类)，并确定检测到的对象的空间位置。在一些实施例中，将推理网络384和三维处理部件386输出的数据提供给用于控制机器人和/或机器的处理部件和/或外部系统。

现在将参考图10描述用于操作立体相机系统900的示例性过程1000。在步骤1010和1012，通过立体相机捕获一对图像。将图像流提供给推理网络1014，推理网络1014处理来自图像对的一个或多个图像以检测、分类和定位一个或多个对象。在步骤1016，推理网络输出感兴趣的区域、检测到的对象、对象分类和/或其他推理输出。在一个实施例中，如果检测到对象或区域，则在步骤120对所捕获的图像对执行3D处理，以确定检测到的对象相对于立体相机的位置的真实位置。为了便于有效的、实时处理，在选择的如由推理网络检测到的感兴趣区域上执行3D处理(例如，图像配准、3D位置确定等)。3D处理可以进一步接收从推理网络的特征提取层提取的一个或多个图像特征122。然后，可以在步骤130使用3D处理的结果来控制机器人、机器或其他过程。

深度学习推理检测感兴趣的对象，并由一个或多个立体图像捕获部件提供它们在捕获的图像中的2D位置的边界框。深度学习立体相机基于边界框对整个校正图像或感兴趣区域执行立体匹配，以生成感兴趣对象的3D数据。深度学习推理和立体匹配是在立体相机的板上完成的。如果在主机上执行立体匹配，则在未检测到任何感兴趣的对象时可以将其省略，以减少计算量。立体匹配既可以是基于相关的方法来生成密集的3D点云，也可以是基于特征的方法来生成稀疏3D点云。在深度学习推理期间计算出的图像特征可以用作立体匹配的特征。3D数据将用于控制机械臂抓取对象、对对象进行3D重建等。

在合适的情况下，可以使用硬件、软件或硬件和软件的组合来实现由本公开提供的各种实施例。此外，在不脱离本公开的精神的情况下，在合适的情况下，可以将本文提出的各种硬件部件和/或软件部件组合成包括软件、硬件或两者的复合部件。在不脱离本公开的精神的情况下，在合适的情况下，可以将本文提出的各种硬件部件和/或软件部件被分为包括软件、硬件或两者的子部件。

可以将根据本公开的软件(例如，非暂时性指令、程序代码和/或数据)存储到一个或多个非暂时性机器可读介质上。还可以预期，可以使用联网的和/或其他方式的一个或多个通用或专用计算机和/或计算机系统来实现本文标识的软件。在合适的情况下，可以更改本文描述的各个步骤的顺序，组合为复合步骤和/或分为子步骤以提供本文所述的功能。

上文描述的实施例是举例说明但不限制本发明。还应当理解，根据本发明的原理，可以进行多种修改和变型。因此，本发明的范围仅由所附的权利要求书限定。

Claims

1.一种系统，包括：

成像设备，包括：

图像捕获部件，所述图像捕获部件被配置为捕获图像；

视觉处理单元，所述视觉处理单元被配置为通过第一经训练的推理网络处理所述图像，以确定第一推理结果；和

处理部件，所述处理部件被配置为处理所述第一推理结果并基于第一结果确定针对图像进行的动作。

2.根据权利要求1所述的系统，还包括：

主机系统，所述主机系统被配置为训练用于图像分类的神经网络并生成所述第一经训练的推理网络，并将所述第一经训练的推理网络传输到所述成像设备的视觉处理单元。

3.根据权利要求2所述的系统，其中，所述主机系统还被配置为针对图像分类应用优化所述第一经训练的推理网络，对所优化的第一经训练的推理网络进行转换以在所述成像设备的视觉处理单元上操作，并将转换后的第一经训练的推理网络从所述主机系统上传到所述成像设备的视觉处理单元。

4.根据权利要求1所述的系统，其中，所述第一经训练的推理网络被配置为向所述成像设备提供独立的图像分类；并且其中，所述第一推理结果包括图像分类、对象检测、感兴趣区域、异常检测和/或置信度得分。

5.根据权利要求1所述的系统，其中，所述第一推理结果是感兴趣区域，其中，将所述第一推理结果传送到主机系统，并且其中，所述视觉处理单元还包括第二经训练的推理网络，所述第二经训练的推理网络被配置为接收作为输入的所述第一推理结果并输出第二推理结果。

6.根据权利要求1所述的系统，其中，所述视觉处理单元被配置为通过所述第一经训练的推理网络来处理所述图像的感兴趣区域。

7.根据权利要求1所述的系统，其中，所述成像设备还包括图像处理部件，所述图像处理部件被配置为接收所述图像捕获部件捕获的图像并修改所述图像以输入到所述第一经训练的推理网络。

8.根据权利要求1所述的系统，其中，所述处理部件被配置为对所述图像执行所述动作；并且其中，所述动作包括：将所述图像串流传输到主机系统；将图像存储到所述成像设备上；通过GPIO将所述推理结果传送到外围设备；和/或执行第二推理网络。

9.根据权利要求1所述的系统，其中，所述成像设备被配置为执行机器视觉应用。

10.根据权利要求1所述的系统，其中，对所述第一经训练的推理网络进行加密并将所述第一经训练的推理网络存储到第一存储器中，并且其中，对所述第一经训练的推理网络进行解密并加载到随机存取存储器中以进行推理。

11.根据权利要求1所述的系统，其中，所述图像捕获部件被配置为捕获可见光谱图像、红外图像、彩色图像、高光谱图像、灰度图像、单色图像和/或飞行时间图像。

12.一种方法，包括：

将第一经训练的推理网络加载到成像设备的视觉处理单元上；

使用所述成像设备的成像部件捕获图像；

通过所述第一经训练的推理网络处理所述图像，以确定第一推理结果；以及

基于所述第一推理结果，确定针对所述图像的动作。

13.根据权利要求12所述的方法，还包括：

由主机系统训练用于图像分类的神经网络，以生成所述第一经训练的推理网络；以及

针对图像分类应用优化所述第一经训练的推理网络。

14.根据权利要求13所述的方法，还包括：

对所优化的第一经训练的神经网络进行转换，以在所述成像设备的视觉处理单元上操作；以及

将转换后的所优化的第一经训练的推理网络从所述主机系统上传到所述成像设备的视觉处理单元。

15.根据权利要求12所述的方法，其中，所述第一经训练的推理网络被配置为向所述成像设备提供独立的图像分类；并且其中，所述第一推理结果包括图像分类、对象检测、感兴趣区域、异常检测和/或置信度得分。

16.根据权利要求12所述的方法，还包括将所述第一推理结果发送到主机系统。

17.根据权利要求12所述的方法，还包括通过第二经训练的推理网络处理所述第一推理结果以确定第二推理结果。

18.根据权利要求12所述的方法，其中，所述视觉处理单元被配置为通过所述第一经训练的推理网络来处理所述图像的感兴趣区域。

19.根据权利要求12所述的方法，还包括作为机器视觉应用的一部分执行针对所述图像的动作。

20.根据权利要求12所述的方法，其中，所述动作包括：将所述图像串流传输到主机系统；将图像存储到所述成像设备上；通过GPIO将所述推理结果传送到外围设备；和/或执行第二推理网络。

21.根据权利要求12所述的方法，其中，加载到所述视觉处理单元上还包括：对所述第一经训练的推理网络进行加密并将所述第一经训练的推理网络存储到第一存储器中，并且其中，所述方法还包括对所述第一经训练的推理网络进行解密并加载到随机存取存储器中以进行推理。

22.根据权利要求12所述的方法，其中，所述图像是可见光谱图像、红外图像、彩色图像、高光谱图像、灰度图像、单色图像和/或飞行时间图像。

23.一种系统，包括：

立体成像设备，包括：

两个或更多个图像捕获部件，所述两个或更多个图像捕获部件被配置为捕获场景的一对图像；

视觉处理单元，所述视觉处理单元被配置为通过第一经训练的推理网络处理图像对，以确定第一推理结果；和

处理部件，所述处理部件被配置为处理所述第一推理结果并基于第一结果确定针对图像对进行的动作。

24.根据权利要求23所述的系统，其中，所述视觉处理单元还被配置为对述图像对中的一个或多个对象进行检测和/或分类，并确定由所述第一经训练的推理网络检测到的对象的二维和/或三维位置。

25.根据权利要求23所述的系统，其中，所述两个或更多个图像捕获部件包括双目立体相机系统；以及

其中，对所述两个或更多个图像捕获部件进行校准，并生成校正后的图像对以输入到所述第一经训练的推理网络。

26.根据权利要求23所述的系统，其中，所述第一经训练的推理网络检测所述图像对中的感兴趣对象，并在所述图像对中的至少一个图像中生成对应的二维位置的边界框；

其中，在所述第一经训练的推理网络的操作期间计算的至少一个图像特征用作进行立体匹配的特征；以及

其中，三维数据用于控制机器人系统以与检测到的对象进行交互。

27.根据权利要求26所述的系统，其中，所述视觉处理单元还被配置为基于所述边界框对所述图像对中的感兴趣区域执行立体匹配，以生成所述感兴趣对象的空间位置信息；以及

其中，当检测到感兴趣的对象时执行立体匹配；以及

其中，所述立体匹配能够是基于相关的方法和/或基于特征的方法，以生成三维点云。