CN113449577A

CN113449577A - 使用rgb+事件的稳健对象检测和分类

Info

Publication number: CN113449577A
Application number: CN202011239613.2A
Authority: CN
Inventors: L·坎伯斯马西亚斯; R·德拉冈迪亚冈萨雷斯; D·戈麦斯古铁雷斯; A·K·古兹曼勒格尔; J·I·帕拉比尔奇斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-03-25
Filing date: 2020-11-09
Publication date: 2021-09-28
Also published as: US11455793B2; US20200226377A1; EP3885993A1

Abstract

本发明涉及使用RGB+事件的稳健对象检测和分类。公开了用于促进在自主交通工具中使用静态传感器与基于事件的传感器对场景中的对象进行稳健检测和分类的技术。可以实现经训练的系统架构，并且这两种传感器的融合因此允许考虑曝光过度的场景、曝光不足的场景以及其中没有运动的场景。在这样做时，自主交通工具可以在以下条件下对对象进行检测和分类：如果每个传感器单独地操作，则由于感测环境而无法分类(或以高不确定性分类)。

Description

使用RGB+事件的稳健对象检测和分类

技术领域

本文描述的各方面通常涉及自主交通工具(AV)，并且更具体地，涉及实现不同类型的相机传感器输入数据以对由自主交通工具使用的现有对象检测和分类系统进行改进的技术。

背景技术

AV的感知系统需要在不同的照明和环境条件下是可靠的。并且虽然雷达系统可以用于检测其他交通工具，但对其他道路使用者(诸如行人、骑自行车者、静止对象等)的检测和分类主要依赖于视觉，在夜间或在能见度降低时(诸如在驾驶穿过低光照隧道或在雨、雾、雪中驾驶时)，视觉的置信度可能会下降。利用传统相机进行对象识别还遭受低动态范围、高等待时间、以及运动模糊，这些在来自传感器的图像中经常遇到。因此，当前的AV对象检测系统具有若干缺点，并且在若干方面被证明是不足的。

附图说明

结合到本说明书并构成本说明书的一部分的附图图示本公开的各个方面，并且与说明书一起，进一步用于解释各个方面的原理，并使相关领域的技术人员能够制造和使用各个方面。

在附图中，贯穿不同的视图，相同的附图标记一般指代相同部分。这些附图不一定是按比例的，而是一般着重于说明本公开的原理。在以下描述中，参照以下附图描述本公开的各方面，其中：

图1图示出根据本公开的各个方面的示例性自主交通工具；

图2图示出根据本公开的各个方面的图1的示例性自主交通工具的安全性系统的各种示例性电子组件；

图3图示出根据本公开的各个方面的示例性卷积神经网络架构；

图4A-图4C图示出根据本公开的各个方面，从基于事件的相机传感器数据生成帧通道的图像的示例性编码技术。

图5A-图5C图示出根据本公开的各个方面的示例静态图像以及事件图像输入和对应的对象检测输出。

图6图示出根据本公开的各个方面的示例性本地处理单元。

图7图示出根据本公开的各个方面的示例性流程。

将参照附图描述本公开的示例性方面。其中要素第一次出现的附图通常由对应的附图标记中最左面的(多个)数字指示。

具体实施方式

以下详细描述中对附图进行参考，附图通过图示方式示出了可在其中实施本公开的各方面的示例性细节。在下面的描述中，阐述了众多具体细节以便提供对本公开的各个方面的完全理解。然而，对本领域技术人员将显而易见的是，可以在没有这些具体细节的情况下实践各个方面，所描述各个方面包括结构、系统和方法。本文的描述和表示是由本领域的经验/技术人员使用来向本领域其他技术人员最有效地传递其工作的实质的手段。在其他实例中，未详细地描述公知的方法、过程、组件、和电路，以避免不必要地使本公开的各个方面变得模糊。

如上文所述，当前的AV对象检测系统具有各种缺点。近年来，人们对基于事件的分类的兴趣增长，因为它有望潜在地解决AV对象检测系统中的当前问题中的一些。然而，当前使用基于事件的相机进行分类的技术，以及实现视频的重建和图像合成的技术都在静态视图中失败，因为没有事件被事件相机检测到。因此，为了解决传统AV对象检测和分类的这些缺点和其他缺点，如本文所描述的各方面实现了一种用于对象检测和分类的深度学习方法，该方法将来自基于静态的相机和基于事件的相机的输入结合到若干帧通道输入中，以提供对道路用户的增强的检测和分类。如下文进一步所讨论的，这在无法由两个传感器中的任何一个单独处理的各种条件(诸如照明和相对运动的极端条件)下提供了稳健的检测。

进一步地，如本文所描述的各方面能够使用基于静态的传感器与基于事件的传感器一起对场景中的对象进行稳健的检测和分类。如本文所描述的各方面利用卷积深度神经网络架构的配置和设计。因此，这两种传感器的融合允许考虑具有过度曝光的场景(即其中太阳直接照射静态传感器的情况)、具有曝光不足的场景(即其中光线明显不足的情况)以及其中没有运动的场景。换言之，如本文所描述的各方面允许在以下条件下对对象进行检测和分类：如果每个传感器单独操作，则主要由于感测条件而不能进行分类(或以高不确定性分类)。

在整个公开中，以示例而非限制的方式参考自主交通工具描述了各个方面。例如，尽管本文描述的各方面可能有利地用作AV架构的一部分，但这些方面可被实现为任何合适类型的完全自主交通工具、半自主交通工具或非自主交通工具的一部分。

图1示出根据本公开的各个方面的包括安全性系统200(也参见图2)的交通工具100。交通工具100和安全性系统200本质上是示例性的，并且因此可出于解释的目的而被简化。要素的位置和关系距离(如上文所讨论的，这些图并未按比例绘制)是以示例的方式而提供，并不限于此。取决于特定实现方式的要求，安全性系统200可以包括各种组件。

如图1和图2所示，安全性系统200可以包括一个或多个处理器102、一个或多个图像采集设备104(诸如，例如一个或多个相机)、一个或多个位置传感器106(诸如全球导航卫星系统(GNSS)，例如全球定位系统(GPS))、一个或多个存储器202、一个或多个地图数据库204、一个或多个用户接口206(诸如，例如显示器、触摸屏、麦克风、扬声器、一个或多个按钮和/或开关等)、以及一个或多个无线收发器208、210、212。

无线收发器208、210、212可以根据不同的期望的无线电通信协议或标准来进行配置。作为示例，无线收发器(例如，第一无线收发器208)可以根据短程移动无线电通信标准(诸如，例如蓝牙、Zigbee等)来进行配置。作为另一示例，无线收发器(例如，第二无线收发器210)可以根据中程或宽程移动无线电通信标准(诸如例如，根据对应的多个3GPP(第三代合作伙伴计划)标准的3G(例如，通用移动通信系统(UMTS))、4G(例如，长期演进(LTE))和/或5G移动无线电通信标准)来进行配置。作为进一步地示例，无线收发器(例如，第三无线收发器212)可以根据无线局域网通信协议或标准(诸如例如，根据IEEE 802.11(例如，802.11、802.11a、802.11b、802.11g、802.11n、802.11p、802.11-12、802.11ac、802.11ad、802.11ah等))来进行配置。一个或多个无线收发器208、210、212可以被配置成经由空中接口经由天线系统(未示出)传送信号。

一个或多个处理器102可以包括应用处理器214、图像处理器216、通信处理器218、或任何其他合适的处理设备。类似地，取决于特定应用的要求，图像采集设备104可以包括任意数量的图像采集设备和/或组件。图像采集设备104可以包括一个或多个图像捕获设备(例如，相机、电荷耦合设备(CCD)、或任何其他类型的图像传感器)。安全性系统200还可以包括将一个或多个处理器102通信地连接到一个或多个图像采集设备104的数据接口。例如，第一数据接口可以包括任何有线和/或无线的一个或多个第一链路220，该一个或多个第一链路220用于将由一个或多个图像采集设备104采集的图像数据传送到一个或多个处理器102(例如，传送到图像处理器216)。

无线收发器208、210、212可以经由例如第二数据接口耦合到一个或多个处理器102(例如，耦合到通信处理器218)。第二数据接口可以包括任何有线和/或无线的一个或多个第二链路222，该一个或多个第二链路222用于将由无线收发器208、210、212获取的无线电传送的数据传送至一个或多个处理器102(例如，传送至通信处理器218)。

存储器202以及一个或多个用户接口206可以(例如，经由第三数据接口)耦合到一个或多个处理器102中的每一个处理器。第三数据接口可以包括一个或多个任何有线和/或无线的第三链路224。此外，位置传感器106可例如经由第三数据接口耦合至一个或多个处理器102中的每个处理器102。

此类传输还可以包括交通工具100与交通工具100的环境中的一个或多个其他(目标)交通工具之间的通信(单向或双向)。例如，这些通信可促进交通工具100鉴于在交通工具100的环境中的其他(目标)交通工具或与其他(目标)交通工具一起协作地导航。作为另一示例，此类通信可以包括向发射交通工具100的附近区域中的未指定接收者进行广播传输。

收发器208、210、212中的一个或多个收发器可被配置成实现一个或多个交通工具对外界(V2X)通信协议，该交通工具对外界(V2X)通信协议可以包括交通工具对交通工具(V2V)、交通工具对基础设施(V2I)、交通工具对网络(V2N)、交通工具对行人(V2P)、交通工具对设备(V2D)、交通工具对网格(V2G)，以及任何其他合适的协议。

一个或多个处理器102中的每个处理器214、216、218可包括各种类型的基于硬件的处理设备。作为示例，每个处理器214、216、218可包括微处理器、预处理器(诸如图像预处理器)、图形处理器、中央处理单元(CPU)、支持电路、数字信号处理器、集成电路、存储器，或适于运行应用以及用于数据处理(例如，图像、音频等)和分析的任何其他类型的设备。在一些方面，每个处理器214、216、218可包括任何类型的单核或多核处理器、移动设备微控制器、中央处理单元等。这些处理器类型可各自包括具有本地存储器和指令集的多个处理单元。此类处理器可包括用于从多个图像传感器接收图像数据的视频输入，并且还可包括视频输出能力。

本文中所公开的处理器214、216、218中的任一者可被配置成用于根据可被存储在一个或多个存储器202中的一个存储器中的程序指令来执行某些功能。换言之，一个或多个存储器202中的一个存储器可存储在由处理器(例如，由一个或多个处理器102)执行时控制系统(例如，安全性系统)的操作的软件。例如，一个或多个存储器202中的一个存储器可以存储一个或多个数据库和图像处理软件等，以及经训练的系统(诸如，神经网络、深度神经网络、和/或卷积深度神经网络(CNN))，如本文进一步所讨论。一个或多个存储器202可以包括任何数量的随机存取存储器、只读存储器、闪存、盘驱动器、光盘存储设备、磁带存储设备、可移动存储设备和其它类型的存储设备。

在一些方面，安全性系统200可进一步包括诸如用于测量交通工具100的速度的速度传感器108(例如，速度计)之类的组件。安全性系统还可包括用于测量交通工具100沿一个或多个轴线的加速度的一个或多个(单轴或多轴)加速度计(未示出)。安全性系统200可进一步包括附加传感器或不同传感器类型，诸如超声波传感器、热传感器、一个或多个雷达传感器110、一个或多个激光雷达传感器112(其可集成在交通工具100的前照灯中)、数字罗盘等。雷达传感器110和/或激光雷达传感器112可以被配置成用于提供经预处理的传感器数据，诸如雷达目标列表或激光雷达目标列表。第三数据接口(例如，一个或多个链路224)可以将速度传感器108、一个或多个雷达传感器110、以及一个或多个激光雷达传感器112耦合至一个或多个处理器102中的至少一个处理器。

一个或多个存储器202可以将数据存储在例如数据库中或以任何不同格式存储数据，这些数据例如指示已知地标的位置。一个或多个处理器102可以处理交通工具100的环境的传感信息(诸如来自两个或多个图像的激光雷达或立体处理的图像、雷达信号、深度信息)以及位置信息(诸如GPS坐标、交通工具的自我运动等)，以确定交通工具100相对于已知地标的当前位置和/或定向，并细化对交通工具的位置的确定。该技术的某些方面可以被包括在定位技术(诸如建图和路线选择模型)中。

地图数据库204可包括存储用于交通工具100(例如，用于安全性系统200)的(数字)地图数据的任何合适类型的数据库。地图数据库204可包括与各种项目(包括道路、水景、地理特征、商业、感兴趣的地点、餐馆、加油站等)在参考坐标系中的位置相关的数据。地图数据库204不仅可存储此类项目的位置，而且可存储与这些项目相关的描述符，包括例如与存储的特征中的任何特征相关联的名称。在此类方面中，一个或多个处理器102中的处理器可通过到通信网络的有线或无线数据连接(例如，通过蜂窝网络和/或因特网等)从地图数据库204下载信息。在一些情况下，地图数据库204可存储稀疏数据模型，包括某些道路特征(例如，车道标记)或交通工具100的目标轨迹的多项式表示。地图数据库204还可包括各种识别出的地标的所存储的表示，这些所存储的表示可被提供以确定或更新交通工具100相对于目标轨迹的已知位置。地标表示可包括诸如地标类型、地标位置、以及其他潜在标识符之类的数据字段。

此外，安全性系统200可包括驾驶模型，该驾驶模型也可以被称为“安全性驾驶模型”或“驾驶策略模型”，并且该驾驶模型可以例如在高级驾驶辅助系统(ADAS)和/或驾驶辅助和自动驾驶系统中实现。作为示例，安全性系统200可以包括(例如，作为驾驶模型的一部分的)形式模型(诸如，安全性驾驶模型)的计算机实现方式。安全性驾驶模型可以是对适用于自驾驶(例如地面)交通工具的适用法律、标准、政策等的解释进行形式化的数学模型的实现方式。安全性驾驶模型的主控交通工具中的实现方式可以被设计为实现例如三个目标：首先，法律的解释应该是合理的，即它符合人类如何解释法律；其次，解释应该带来有用的驾驶策略，这意味着它将带来灵活的驾驶政策，而不是过度防御性的驾驶，该过度防御性的驾驶不可避免地会使其他人类驾驶员感到迷惑，并且将阻塞交通，并且进而限制系统部署的可扩展性；以及第三，可以严格地证明自驾驶(自主)交通工具正确地实施法律的解释，从这个意义上说，解释应该是有效地可验证的。说明性地，安全性驾驶模型可以是用于安全性保证的数学模型的实现方式，该数学模型能够标识和执行对危险情况的适当响应，使得可以避免自作主张的事故。

安全性驾驶模型可以实现应用驾驶行为规则的逻辑，诸如以下五条规则：

-不要从后面撞到人。

-不要鲁莽地变道插车。

-通行权是给予的，不是取得的。

-注意能见度有限的区域。

-如果你能避免事故而不引起另一次事故，你必须这样做。

应注意，这些规则不是限制性的并且也不是排他性的，并且可以根据需要在各个方面进行修改。这些规则而是表示社会驾驶合约，取决于地区，该社会驾驶合约可能是不同的并且还可能随着时间的推移而发展。虽然这五条规则当前适用于大多数国家，但它们可能并不完整并且可能会被修改。

如上文所描述，交通工具100可包括安全性系统200，还参考图2来描述该安全性系统200。交通工具100可包括例如与交通工具100的引擎控制单元(ECU)集成或分离的一个或多个处理器102。一般而言，安全性系统200可生成数据来控制或辅助控制ECU和/或交通工具100的其他组件，以直接地或间接地控制对交通工具100的驾驶。

如本文进一步所讨论，自主交通工具(AV)利用对象检测系统作为一类机器视觉，该类机器视觉允许AV检测和标识道路场景中的对象。然后，AV可以将该信息用于各种自动驾驶和/或导航任务，这可能取决于检测到的对象的位置和类型。例如，感测的数据(并且在一些实例中，地图数据)可用于构建环境模型，并且环境模型随后可用于构建由驾驶策略用于确定将由主控交通工具执行的“动作”的“状态”。因此，对于AV而言，准确地并且可靠地标识与特定道路场景相对应的特定视场内的对象的位置以及已经检测到的对象的类型是优选的，并且通常是必要的。例如，道路场景可以对应于与驾驶交通工具的驾驶员将经历的那些视场类似的前视场，或者交通工具周围的任何其他合适的视场，对于这些视场而言，检测对象位置和类型可能对AV驾驶和/或导航是有用的。

事件相机和静态相机的功能和操作

例如，可以使用传感器数据(诸如，雷达和激光雷达)来执行道路场景内的对象的检测。然而，本文所描述的各方面涉及使用基于图像的传感器数据(诸如，经由如上文参照安全性系统200所讨论的一个或多个图像采集设备104生成的基于图像的传感器数据)来提供对象检测和分类。因此，在一方面，图像采集设备104可以包括一个或多个以动态性质操作的图像相机(诸如事件相机)，以及一个或多个以更为“静态”的性质操作的其他相机(例如蓝绿(C)、品红(M)、黄色)相机、红色(R)、绿色(G)、蓝色(B)相机等)。如本文所使用，术语“静态”可以指捕获单个帧中的一组像素的图像数据、并且可以按照所定义的帧速率捕获每个连续帧的图像数据的任何合适类型的相机。因此，与事件相机的动态操作相反，例如，在事件相机中，每个像素报告亮度随时间的个别变化，以静态方式操作的相机提供包括每个像素在一个特定时刻的状态的图像。

事件相机利用检测局部亮度变化的成像传感器，并且对于机器视觉应用特别有用，因为它们有利地具有微秒级的时间分辨率、高动态范围(例如，120dB或更大)，并且不遭受曝光不足/过度曝光或运动模糊。为此，事件相机内部的每个像素通常独立地且与其他像素异步地操作。换言之，每个像素在发生亮度变化时生成指示亮度变化的传感器数据，并且除此之外(例如，通过不输出传感器数据或输出不指示事件的传感器数据)保持沉默。因此，事件相机的每个像素报告一系列时间上的事件，这些事件在被事件相机输出的传感器数据中感应到或以其他方式指示时、指示在该像素处检测到的亮度水平与特定时间的标称值的偏差。

在各个方面，一个或多个事件相机可以被实现为响应于局部亮度变化的任何合适类型的成像传感器，所述任何合适类型的成像传感器可以具有任何合适的像素分辨率和时间分辨率，以生成指示在一段时间内、经由与道路场景相关联的每个像素在各个时刻检测到的事件的传感器数据。例如，事件相机可以被实现为时间对比度传感器(其产生指示极性(亮度增加或亮度减少)的事件)、指示每个事件的瞬时强度的时间图像传感器等。为了提供附加的示例，事件相机可以被实现为(动态和有源像素视觉传感器)(DAVIS)相机，该相机除了包含共享同一光传感器阵列的动态视觉传感器(DVS)之外，还包含全局快门有源像素传感器(APS)，从而使DAVIS相机能够在检测到的事件旁边产生图像帧。

另一方面，与事件相机相比，静态相机具有较低的动态范围，并且本质上更加静态，通过按照静态相机的帧速率以同步方式输出传感器数据来采集图像，对于标准静态相机而言，其帧速率通常在6至60帧每秒(fps)之间，对于更专用的高帧速率静态相机而言，其帧速率可达数千fps。在各个方面中，一个或多个静态相机可以被实现为任何合适类型的成像传感器，该成像传感器按照由实现本文所讨论的各方面的交通工具的安全性系统200控制或以其他方式已知的帧速率、来生成与连续系列的帧内的每个帧相对应的静态图像数据。例如，本文所描述的各方面并不限于特定类型的静态相机或在该方面的特定波长范围内操作的相机，并且可以包括经修改的静态相机(例如，被配置成也检测近红外波长的相机)、基于静态成像的深度相机、基于静态成像的3D相机等。如下文参照图3进一步所讨论的，神经网络系统的训练过程可以根据用于特定应用的动态(例如，事件)和静态(例如CYM、RGB等)相机的特定类型进行适配。

使用事件相机传感器数据和静态相机传感器数据的神经网络架构

图3图示出根据本公开的各个方面的示例性卷积神经网络架构。如图3所示的卷积神经网络(CNN)架构300是通过示例而非限制的方式，并且可以包括与参考图3所示出和所描述的那些层相比而更多的、更少的或替代的层。此外，本文结合CNN的使用来描述这些方面，尽管这也是通过示例而非限制的方式。本文所描述的各方面可以根据任何合适类型的经训练的系统(例如，机器学习算法、本文所描述的CNN(其作为实现神经网络架构的经训练的系统)、任何合适类型的对象分类器系统等)来实现，该经训练的系统被训练或以其他方式被配置成对AV道路场景内的对象进行检测、定位、和分类。

此外，例如，各方面包括经训练的系统(无论实现方式如何)被配置成利用事件相机图像和其他静态相机图像类型(诸如CYM或RGB相机图像)的组合。因此，各方面包括如图3所示的CNN(或其他合适的经训练的系统)被实现为硬件(例如，一个或多个处理器102)、软件(存储在存储器202中的指令)或其组合。例如，如图3中所示的CNN(或其他合适的经训练的系统)可以经由存储软件、可执行指令、逻辑、代码等的一个或多个存储器202来实现，该软件、可执行指令、逻辑、代码等在由一个或多个处理器102(或与一个或多个处理器102相关联的或构成一个或多个处理器102的一部分的ECU)执行时，控制或以其他方式促进如本文所描述的关于例如经由使用事件相机图像和静态相机图像进行对象分类和检测的各方面。

如图3所示，CNN架构300包括输入层302、隐藏层304、以及输出层306。输入层302提供与若干个相应的帧通道相关联的图像作为CNN架构300的输入。经由每个相应的帧通道(例如，Ep、En、C1、C2和C3)输入的图像表示与交通工具安全性系统200的图像采集设备104捕获道路场景相关联的传感器数据。隐藏层304根据任何合适的经训练的神经网络算法来分析图像。CNN架构300还包括全连接输出层306，该全连接输出层306输出由经训练的隐藏层304标识的道路场景内对象的位置(边界框)和类型(类别概率)。如图3所示，CNN架构300包括5个帧通道(两个事件相机帧通道和三个静态相机帧通道)，尽管各方面包括CNN架构300经由任何合适数量的帧通道接收图像，这取决于特定AV使用的相机的实现方式和特定应用的处理能力。

本文所描述的各方面可以根据任何合适类型的颜色阵列使用静态相机数据，该静态相机数据可经由适当经训练的系统的相应通道输入来提供。图3中所示的三种颜色C1、C2和C3的使用是通过示例而非限制性的方式，并且本文所描述的各方面可以使用被配置成根据任何合适的颜色阵列配置来操作并且具有任何合适的颜色通道数的任何合适类型的静态相机。此外，本文所描述的各方面可以实现任何合适类型的颜色过滤器矩阵，诸如RGGB过滤器矩阵、RYYCy、RYYB、RYYY、RYYG、RYYC、CyYYM等。因此，本文所描述的各方面可以实现任何合适数量的阵列颜色。作为附加的示例，静态相机可以提供包括在可见光谱(诸如，红外(IR)和紫外(UV)光谱范围)之外生成的图像数据的静态相机数据。

作为附加的示例，各方面可包括使用单色传感器作为静态相机以生成静态相机图像数据。此类单色传感器可以不包括颜色过滤器，并且因此允许所有入射光到达像素传感器，因此该单色传感器提供了比具有颜色过滤器矩阵的成像器显著地更好的弱光性能。作为示例，一种实现良好的弱光性能并且仍然保留一些颜色信息的过滤器矩阵仅使用红色和透明的颜色过滤器元素。例如，这可以包括RCCC(红色、透明、透明、透明)过滤器矩阵，该过滤器矩阵没有G或B过滤器元素，并且具有仅覆盖每隔一行的每隔一个像素传感器的R过滤器元素。R过滤器元素允许使用该过滤器的相机系统检测红色交通信号和其他交通工具的闯红灯。然而，由于缺乏G过滤器，使得包括RCCC过滤器矩阵的光学系统难以感测其它颜色(诸如，黄色交通标志和/或黄色和绿色交通信号)。

因此，如本文所描述的各方面可以例如通过修改通道输入、并根据预期将根据用于特定应用的静态相机硬件来被处理的特定数据来训练经训练的系统，从而适合于其他静态相机图像类型。例如，颜色C1、C2、C3可以对应于与根据前述CYM颜色阵列、RGB颜色阵列、非可见光、不利用颜色过滤器操作的单色传感器等操作的相机相关联的各个通道输入。

在一方面，帧通道表示与不同的传感器数据集合相关联的图像的组合，传感器数据即经由如上文所讨论的不同的图像采集设备104所采集的传感器数据。例如，静态相机帧通道包括用于接收C1、C2和C3图像的一组三个帧通道。同样，这些C1、C2和C3图像表示与由静态相机传感器根据基于静态相机的传感器数据的特定颜色过滤器布置(或特定颜色过滤器的缺乏)提供的每个通道相关联的图像，该基于静态相机的传感器数据是通过经由图像采集设备104实现的一个或多个静态相机采集的。此外，C1、C2和C3图像经由相应的通道被提供给输入层302。继续该示例，事件相机帧通道包括用于接收Ep和En图像的另一组两个帧通道，所述两个帧通道分别利用多个正事件和多个负事件来编码。使用通过经由图像采集设备104实现的一个或多个事件相机接收到的基于事件的相机传感器数据，来获取该多个正事件和负事件。Ep和En图像也被馈送到CNN架构300的输入层302中，如图3所示。数据可以以各种方式被编码到经由事件相机帧通道提供的Ep、En图像中，如下面进一步所讨论。

同样，CNN架构300包括若干层302、304、306，每个层根据CNN算法执行相应的功能，以提供输出边界框和类别概率。在一方面，CNN架构300包括输入层302、多个隐藏层304、和输出层306，该输入层302被配置成经由如图3所示的帧通道中的每一个帧通道接收图像C1、C2、C3、Ep和En。隐藏层304可以包括根据CNN类型架构针对神经网络功能而一般呈现的一个或多个层，诸如一个或多个卷积(Conv)层、一个或多个修正线性(ReLu)层、一个或多个裁剪池化层等。

CNN架构300所使用的模型或算法可以包括例如任何合适类型的基于CNN的算法，该算法被配置成一旦如本文所讨论的那样被训练就对图像数据的分量进行识别和/或分类。因此，CNN架构300包括隐藏层304，该隐藏层304一旦被训练后可用作经训练的神经网络(例如，根据如图3所示的示例CNN架构300的经训练的卷积神经网络)，该经训练的神经网络包括用于根据如本文所描述的各方面执行对象定位和分类功能的适当的处理电路和神经网络算法。因此，CNN架构300可以用作用于在输入层302处接收图像C1、C2、C3、Ep和En的集合作为分开的通道输入、并对经由这些通道输入接收到的数据进行组合以确定特定道路场景中包括的一个或多个对象的位置和类型的经训练的神经网络。

例如，可以使用不同尺寸和/或形状的各种对象的真实世界示例、在不同的照明条件下等训练形成CNN架构300的神经网络。作为另一示例，可以使用被配置成用于神经网络训练目的的任何合适类型的模拟器(例如，卡拉(Carla)模拟器)生成的大量(例如，100,000、150,000或更多)图像来训练和验证神经网络。CNN的架构和功能一般是已知的，因此本文不进一步讨论关于CNN架构300的操作的附加细节。然而，在输入层302处对由帧通道表示的数据进行编码的特定方式使得CNN架构300能够处理来自不同相机源的图像数据，并且将在下文中参照图4A-4C进一步所讨论。

图4A-图4C图示出根据本公开的各个方面、从基于事件的相机传感器数据生成帧通道的图像的示例性编码技术。图4A、图4B和图4C中的每一者都与关于不同道路场景的不同示例场景相对应。图4A-图4C中的每一者都示出包括与接收到的基于事件的相机传感器数据相关联的经编码的数据的示例图像450。出于简明的目的，可以利用在一个时刻、经由相应的帧通道、作为经编码的图像Ep被提供给输入层302的图像来标识示例图像450，如上文参考图3所示出和所讨论。然而，参照经编码的图像Ep所讨论的相同技术可应用于对图像En的数据(对应于与图像Ep相同的时刻)进行编码。

如图4A-图4C所示，图像450可以包括任何合适数量N的像素452.1-452.N，其中每个像素452在时间窗口402内独立地提供基于事件的相机传感器数据(在本文也称为“原始数据”)。换言之，时间窗口402从初始时间t0跨越到时间t1，该时间t1与事件相机经由每个像素452.1-452.N对原始数据进行采样的特定采样时间段相对应。尽管出于简明的目的在图4A-图4C中示出了单个时间段(时间窗口402)，应该理解，事件相机继续在任何合适数量的连续采样时段内对原始数据进行采样。

与这些连续采样时段中的每一个时段相关联的时间长度可以彼此相等，并且基于预定的或以其他方式已知的时间值。例如，时间窗口402的时间长度(即，t1-t0)可以基于静态相机的帧速率。例如，时间窗口402的时间长度可以等于或基本上等于由如上文参照图3所讨论的用于提供一组图像数据通道C1、C2和C3的静态相机进行采样的连续数据帧之间的时间段(例如，在1％、5％、10％等范围内)。换言之，因为事件相机以比静态相机的帧速率更快的速率对数据进行采样，所以时间窗口402可被用作参考，以使由事件相机和静态相机中的每一者在帧通道上提供的图像时间对准或同步。因此，虽然事件可以由事件相机的每个像素452.1-452.N以近乎连续的方式生成，但各方面包括以恒定的帧速率定期地执行经由CNN架构300实现的神经网络算法，该恒定的帧速率可以与静态相机的帧速率同步或以其他方式使用静态相机的帧速率(例如由静态相机的帧速率触发)。

在一方面，由静态相机生成的基于静态相机的传感器数据(该静态相机用于提供图像C1、C2和C3的集合)可以在时间窗口402的开始和结束时被采样，因为时间段t0和t1被认为与静态相机的帧速率基本上(例如，在0.1％、0.5％、1％、5％等范围内)时间对准。静态相机通常在相应的通道中提供该数据，作为其普通操作的一部分，或者在其他情况下可以从由静态相机采集的合成图像中过滤掉或提取这些波长。此外，虽然使用全帧同步来描述本文的各方面，但这是为了便于解释，并通过示例而非限制性的方式。本文所描述的各方面可以使用任何合适的帧速率或其子帧速率来促进静态相机图像和事件相机图像的时间对准和同步。例如，当静态捕获相机是滚动快门相机时，实现子帧同步的各方面可能是尤其有用的，其中扫描线以时间序列一个接一个地被读取。在任何情况下，将基于静态相机的传感器数据编码成C1、C2和C3图像可以包括分开合成图像数据，或者在可用时在每个连续帧或子帧(视情况而定)开始时(例如，在时间t0和t1时)将每个波长分开的C1、C2和C3(当使用颜色过滤器时)提供给CNN架构302的输入层302。

然而，由于事件相机与静态相机之间的采样率的差异，各方面包括将在时间窗口402内生成的原始数据格式化为经编码的图像，然后该经编码的图像可用作在CNN架构300的输入层302处提供的图像Ep、En。该编码可以以不同的方式执行，如下文进一步所讨论。为此，无论原始数据以何种方式被编码到图像Ep、En中，应注意，事件相机在每个采样时段期间(例如，在时间窗口402内)生成原始数据，该原始数据是典型的大量(例如几百个)被检测到的事件的集合，并且，对于每个被检测到的事件，原始数据还包括时间戳、像素x、y坐标以及事件的极性。考虑到这一点，我们现在转向将原始数据编码成图像Ep、En的方式。

在一方面，通过在时间窗口402内对正事件Ep和负事件En的数量进行计数来对原始数据进行编码。然后，对于每个相应的像素452.1-452.N而言，被计数的Ep事件的数量(对于Ep图像)和被计数的En事件的数量(对于En图像)被标准化以提供基于预定的值的范围的强度梯度值。该值的范围可以是任何合适的范围，这取决于特定应用的所需粒度和准确性。例如，根据8位编码系统，强度值范围可以从0(无事件发生或最小数量的事件发生)到255(最大数量的事件发生)。

现在转到图4A-图4C，图4A中的示例时间窗口402包括没有检测到的事件，图4B中的时间窗口包括五个检测到的事件(三个正事件和两个负事件)，而图4C中的时间窗口402包括八个检测到的事件(七个正事件和一个负事件)。同样，此类事件的数量通常会大得多，而图4A-图4C的示例中所示的少量事件是出于简洁和易于解释的目的。使用Ep帧通道作为示例，如图4A中所示的图像450将被编码以将最小强度梯度值分配给像素452.1，因为没有检测到任何(正或负)事件。然而如图4B中所示的图像450被编码以将(在该示例中)基于三个正事件的标准化的强度梯度值分配给像素452.1。此外，如图4C所示的图像450被编码以将(在该示例中)基于七个正事件的标准化的强度梯度值分配给像素452.1。

换言之，通过聚合时间窗口内发生的正事件通道的多个正事件以生成正事件图像，事件相机的每个像素的原始数据被格式化或被编码为图像Ep，图像Ep经由Ep帧通道作为输入被提供给CNN架构300的输入层302。因此，如通过比较图4A-图4C的各图中像素452.1的阴影所示，强度梯度值随着在时间窗口402内由像素452.1采样的经计数的正事件数量的增加而增加，导致像素452.1的阴影从图4A中的无阴影增加到图4B和图4C中与越大的灰度值相对应的越来越深的颜色。

同样，根据图像450内的每个像素452.1-452.N中的特定像素的原始数据中所指示的该像素的经计数的事件数量，对图像450内的每个像素452.1-452.N重复该过程，并且同样地分别相对于时间窗口402内的计数正、负事件而对每个图像Ep、En重复该过程。然后，随着附加的道路场景被事件相机和静态相机采集而随着时间重复该过程，使得CNN架构302的输入层302在C1、C2和C3图像被提供时的每个静态相机帧处、接收图像Ep、En的集合，该图像Ep、En的集合包含指示自上一个静态相机帧以来分别检测到的正事件数量和负事件数量的经编码的数据。

因此，如上文所述，图像Ep、En基于在与每个像素452.1-452.N相关联的时间窗口402内发生的经计数的正事件和负事件的数量来进行编码。然而，在其他方面，使用在其中使用“时间面(time surface)”来对图像Ep、En进行编码的替代方法。根据此类各方面，如上文所讨论，替代于对时间窗口402期间像素452.1-452.N中的每一个像素上的事件进行累积，将每个事件立即整合到与相应的帧通道相对应的图像中。例如，各方面包括应用具有m像素乘m像素的尺寸的核，该核以Ep事件的像素坐标为中心来编码Ep图像，其中m是任何合适的整数(例如，2像素×2像素、3像素×3像素等)。同样，这些方面包括应用具有以En事件的像素坐标为中心的m像素乘m像素的尺寸的核来编码En帧通道图像。

根据此类各方面，核以与数字图像处理中的空间高通滤波器或边缘检测器类似的方式遮蔽掉不在图像中的对象边界中的像素，但也在时间维度中起作用。由于各方面都包括正被异步地应用的核，所以核用作对发生最近活动的像素区域进行锐化，并抑制最近尚未活动的区域。换言之，核的使用用作将最大权重分配给最近的事件，并将减小的权重分配给既在空间上又在时间上从前面的事件中移除的事件。

各方面包括在CNN架构302的输入层302处，根据所建立的CNN算法采样率(例如，如上文所讨论的静态相机帧速率)提供经编码的Ep、En图像，使得图像在时间窗口402到期时的状态经由每个相应的帧通道作为图像Ep、En被输入到输入层302。

无论以何种方式对Ep、En图像进行编码，如图3所示的C1、C2、C3、En和Ep图像都可被认为是每个相应的帧通道在一个时刻提供的输入，其中随着经由静态相机(例如以静态相机的帧速率)采集更多的静态相机图像以及随着经由事件相机采集更多的原始数据并根据静态相机帧速率对该更多的原始数据进行编码，更多的图像在每个帧处被输入到CNN架构300的输入层302。因此，CNN架构300可用于基于静态相机数据和事件相机数据的组合，周期性地或连续地检测和确定道路场景内检测到的对象的位置和类型。以该方式，CNN架构300可促进在范围广泛的环境和照明条件下以高概率和准确性来检测、定位和标识道路场景内的对象。

因此，各方面包括经由CNN架构300实现的卷积神经网络在输入层302处的五个相应的帧通道上接收C1、C2、C3、Ep和En图像。然后，在预定的时间窗口(例如时间窗口402)内整合不同的C1、C2、C3、Ep和En图像。如上文所讨论，可以通过针对每个像素452.1-452.N、对在每个时间窗口402内分别发生的正事件和负事件进行计数，来对Ep、En图像进行编码。然而，在其他方面，Ep和En图像可以被不同地编码。例如，作为基于被计数的正事件和负事件的数量来执行编码的替代方法，经由CNN架构300实现的卷积神经网络可以转而计算时间窗口402内的正事件和负事件的平均(例如(Ep+En)/N))，其中N表示在该特定像素中发生的改变的数量，以及在时间窗口402内发生的事件的方差。换言之，当以该方式对像素处的正事件和负事件的数量进行平均时，如果在时间窗口402内没有发生任何改变，那么该像素的正事件和负事件的平均将为零。

继续该示例，平均和方差可以被标准化为在强度值的范围内(例如，从0到255)，并且这些值可以被编码到每个Ep、En图像中(例如，被分配为像素强度值)。作为示例，方差可以被表示为特定像素在时间窗口402上变化多少次的计算。换言之，方差计算是指示在每个像素处接收到了多少事件，其中特定像素的较高事件数产生较大的方差值。例如，随后，可以通过利用在0-255之间的方差值对每个像素进行标准化，来在时间窗口402结束时对Ep、En图像进行编码。以该方式，每个相应信道的Ep、En图像中的每一个图像可以表示平均事件和这些事件在每个Ep、En图像内的每个像素位置变化有多大(方差)。

无论以何种方式对Ep、En图像进行编码，各方面都包括经由CNN架构300实现的卷积神经网络在输出层306处输出指示多个边界框的对象检测数据。对象检测数据还可以指示，对于这些边界框中的每一个边界框而言，对应的对象在包括背景的相应边界框内的概率。因此，对于每个边界框而言，所得到的概率是有序的。如果较高的概率超过阈值概率值，则针对该特定边界框，该类别被选择。下面参照图5A-图5C进一步提供具体道路场景情况的示例，来展示根据本文所描述的各方面的对象检测的稳健性。

图5A-图5C图示出根据本公开的各个方面的示例静态图像和事件图像输入与对应的对象检测输出。在图5A-图5C中所示的示例图像集合的每一个图像集合中，左图像表示与静态相机数据相关联的合成图像，静态相机数据可以被编码成将C1、C2、C3图像提供给CNN架构300的输入层302。图5A-图5C中的每个图中的中心图像与事件相机数据相对应，事件相机数据可以被编码成将Ep、En图像提供给CNN架构300的输入层302。右图像与在CNN架构300的输出层306处生成的数据相对应，该右图像提供与每个检测到的对象相关联的位置(边界框)，以及对象类型的标识(分类)和该分类的相关联的概率。为了清楚起见，图5A-图5C中的输出图像中的每个输出图像内的文本已在每个边界框外重现以提供更好地可读性。

在如图5A所示的示例图像集合500中，道路场景中既存在良好的照明又存在运动，并且因此，静态相机图像C1、C2、C3以及事件相机编码的图像Ep、En经由输入层302提供了有关当前道路场景的完整信息集合。所示的输出数据具有检测到的对象的位置(边界框)和经分类的类型。然而，在图5B的示例图像集合525中，道路场景是静态的，并且因此没有事件经由事件相机数据获得。因此，接收到的基于事件的相机传感器数据并不指示正事件或负事件，并且经编码的图像Ep、En不将此类信息提供给输入层302。然而，如图5B所示，CNN架构300的经训练的神经网络仍然可以使用经由帧信道的集合接收到的经组合的数据来确定静态场景中包括的一个或多个对象的位置和类型，因为静态相机图像仍然会提供服务于该目的的数据。最后，在图5C的示例图像集合550中，明亮的照明导致过度曝光的图像，其中C1、C2和C3图像(该示例中的R、G和B)不能可靠地指示对象的存在，尽管来自事件相机的经编码的Ep、En图像仍然可以这样做。因此，CNN架构300的经训练的神经网络仍然可以使用经由帧信道的集合接收到的经组合的数据来确定道路场景中包括的一个或多个对象的位置和类型，因为经由基于事件的相机传感器数据提供的数据仍然服务于该目的。

图6图示出根据本公开的各个方面的示例性本地处理单元。本地处理单元600(本文也称为本地处理电路或本地处理系统)可以利用经由一个或多个静态相机采集的基于静态相机的传感器数据和经由一个或多个事件相机采集的基于事件相机的传感器数据，如本文所讨论。基于静态相机的传感器数据和基于事件相机的传感器数据可由本地处理单元600或AV的实现本地处理单元的另一部分进行编码，从而在如本文所讨论的CNN架构300的输入层302处提供C1、C2、C3、Ep和En图像，这些图像可用于检测道路场景内各种对象的位置和类型。

为此，本地处理单元600可以根据本地处理单元600在其中被实现的自主交通工具的特定应用和/或实现方式以不同的方式实现。例如，本地处理单元600可以利用图2所示的安全性系统200的一个或多个部分进行标识。继续该示例，本地处理单元600可以包括以下各项中的一项或多项：一个或多个处理器102和伴随的图像处理器216、应用处理器214、和通信处理器218、以及一个或多个存储器202。继续该示例，本地处理单元600可以被集成为自主交通工具的一部分，在该自主交通工具中，本地处理单元600被实现为作为以下各项运行的一个或多个虚拟机：相对于交通工具的现有系统中的一个或多个系统的管理程序、AV的控制系统、AV的ECU等。

因此，并且如下文进一步所讨论，本地处理单元600可以使用安全性系统200的这些现有组件来实现，并且经由修改这些处理组件中的一个或多个处理组件的操作和/或功能的软件更新来实现本地处理单元600。在其他方面，本地处理单元600可以包括扩展或补充安全性系统200的操作的一个或多个硬件和/或软件组件。这可以包括添加或改变安全性系统200的一个或多个组件。在又其他方面中，本地处理单元600可以被实现为独立式设备，该独立式设备是作为对本地处理单元600在其中被实现的自主交通工具的售后修改而被安装的。尽管出于简明的目的未在图6中示出，但本地处理单元600可以附加地包括一个或多个通信接口(或实现作为安全性系统200的一部分的此类接口)。这些通信接口可以促进接收基于静态相机的传感器数据和基于事件相机的传感器数据，并且当由分开的设备编码时，可以替代地接收C1、C2、C3、Ep和En图像。这些通信接口可附加地促进将对象检测数据传送到本地处理单元600在其中被实现的AV的一个或多个组件(例如，电子控制单元(ECU)和/或控制系统)。

例如，基于静态相机的传感器数据和基于事件相机的传感器数据可以从本地处理单元600在其中被实现的交通工具的媒体控制单元(MCU)接收。替代地，MCU可以对基于静态相机的传感器数据和基于事件相机的传感器数据进行编码以提供C1、C2、C3、Ep和En图像。MCU可以与本地处理单元600分开、与本地处理单元600集成、形成本地处理单元600的一部分或以其他方式与本地处理单元600一起工作。作为示例，出于简明的目的，MCU未在图中示出，但可以是本地处理单元600在其中被实现的交通工具的组件，诸如专用ECU。作为另一示例，MCU可以形成安全性系统200或本地处理单元600在其中被实现的交通工具的另一个系统的一部分。

无论本地处理单元600的实现方式如何，各方面包括本地处理单元600处理所接收的数据(即，基于静态相机的传感器数据和基于事件相机的传感器数据，或C1、C2、C3、Ep和En图像)，并生成指示如图5A-5C所示的多个边界框的对象检测数据，其中每个边界框包含每个对象处于边界框内的概率，以及针对每个边界框所选择的类别。

为此，本地处理单元600可以包括处理电路602和存储器604。图6中所示的组件是为了易于解释而提供的，并且各方面包括本地处理单元600实现比图6中所示的那些组件更多的、更少的或替代的组件。处理电路602和存储器604可以分别与上文参照安全性系统200所描述的一个或多个处理器102和一个或多个存储器202相同或以基本上相似的方式操作。替代地，如上所述，处理电路602和存储器604可以利用分开的组件来标识。

在任何情况下，处理电路602可被配置成可用于控制本文所讨论的本地处理单元600的任何适当数量和/或类型的计算机处理器。可以利用由本地处理单元600实现的一个或多个处理器(或其合适的部分)来标识处理电路602。例如，可以例如利用一个或多个处理器(诸如主机处理器、数字信号处理器、一个或多个微处理器、图形处理器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)的部分(或全部)等)来标识处理电路602。在任何情况下，各方面包括处理电路602被配置成实行用于执行算术、逻辑和/或输入/输出(I/O)操作、和/或用于控制本地处理单元600的一个或多个组件的操作的指令，以执行与本文所描述的各方面相关联的各种功能。

例如，处理电路602可以包括一个或多个微处理器核、存储器寄存器、缓冲器、时钟等，并且可以生成与电子组件相关联的电子控制信号，以控制和/或修改如本文所讨论的本地处理单元600的一个或多个组件的操作。此外，各方面包括处理电路602与存储器604和/或本地处理单元600的其他组件和/或本地处理单元600在其中被实现的交通工具进行通信、和/或控制与存储器604和/或本地处理单元600的其他组件和/或本地处理单元600在其中被实现的交通工具相关联的功能。这可以包括，例如，将基于静态相机的传感器数据和基于事件相机的传感器数据编码为C1、C2、C3、Ep和En图像，如本文参照图4A-图4C所讨论。在该情况下，处理电路602可以包括如图6中所示的、用于此目的的数据编码电路，该数据编码电路可以构成处理电路602的一部分或例如专用于此目的的分开的处理电路。

在一方面，存储器604存储数据和/或指令，使得当指令被处理电路602执行时，处理电路602执行如本文所描述的各种功能。存储器604可以被实现为任何公知的易失性和/或非易失性存储器，包括例如只读存储器(ROM)、随机存取存储器(RAM)、闪存、磁存储介质、光盘、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)等等。存储器604可以是不可移动的、可移动的、或两者的组合。例如，存储器604可以被实现为存储一个或多个可执行指令(诸如例如，逻辑、算法、代码等)的非暂态计算机可读介质。

如下文进一步所讨论的，存储在存储器604中的指令、逻辑、代码等由图6所示的各种模块表示，这些模块可使本文所公开的各方面能够在功能上被实现。可替代地，如果经由硬件实现本文所描述的各方面，则图6中所示的与存储器604相关联的模块可以包括用于促进控制和/或监测此类硬件组件的操作的指令和/或代码。换言之，图6中所示的模块是为了易于对关于硬件与软件组件之间的功能关联进行解释而提供的。因此，各方面包括处理电路602，该处理电路602与一个或多个硬件组件一起执行存储在这些相应模块中的指令，以执行与如本文进一步讨论的各方面相关联的各种功能。

在一方面，存储在图像编码模块605中的可执行指令可与处理电路602和/或数据编码电路一起促进将基于静态相机的传感器数据和基于事件相机的传感器数据编码为RC1、C2、C3、Ep和En图像，如本文参照图4A-4C所讨论。这还可以包括监测一个或多个静态相机的帧速率和数据采集，确定如上文所讨论的适当的时间窗口和/或将基于事件相机的传感器数据与静态相机数据的帧进行时间对准，以确保CNN架构300的输入层302被适当地格式化以经由经训练的神经网络进行处理。

在一方面，经训练的神经网络可以被实现为处理电路602和由处理电路602对存储在存储器604中的指令的执行的组合。因此，神经网络606可以表示如上文参照图3所讨论的利用输入层302、隐藏层304、和输出层306的神经网络算法。例如，输入层模块607、隐藏层模块609、和输出层模块611可以表示CNN架构300的相应的输入层302、隐藏层304、和输出层306的软件组件，以实现如本文所讨论的经训练的神经网络的功能。因此，CNN架构300可以用作硬件和软件的组合，其中CNN架构300表示神经网络分层结构，并且神经网络606的各个模块表示CNN架构300的可执行软件。

图7图示出根据本公开的各个方面的示例性流程。参考图7，流程700可以是由一个或多个处理器和/或存储设备执行的和/或以其他方式与一个或多个处理器和/或存储设备相关联的计算机实现的方法。这些处理器和/或存储设备可以是例如CNN架构300的一个或多个组件、交通工具安全性系统200的一个或多个组件、或本地处理单元600或本地处理单元600在其中被实现的交通工具的任何其他合适的组件，如本文所讨论。此外，在实施例中，流程700可以经由一个或多个处理器执行存储在合适的存储介质(例如，非暂态计算机可读存储介质)上的指令(诸如处理电路602执行存储在存储器604中的指令)来执行。在一方面，流程700可以描述接收基于静态相机的传感器数据和基于事件相机的传感器数据并且对基于静态相机的传感器数据和基于事件相机的传感器数据进行编码以生成C1、C2、C3、Ep和En图像、并且生成如本文所讨论的对象检测数据的整体操作。出于简明的目的，各方面可以包括未在图7中示出的替代的或附加步骤，并且可以以与图7中所示的示例步骤顺序不同的顺序执行。

当一个或多个处理器接收(框702)基于静态相机的传感器数据和基于事件相机的传感器数据时，流程700可以开始。这可以包括，例如，本地处理单元通过合适的网络或接口、接收由一个或多个相机根据合适的颜色过滤器(或过滤器的缺乏)生成的基于静态相机的传感器数据和由一个或多个事件相机生成的基于事件相机的传感器数据。例如，基于静态相机的传感器数据和基于事件相机的传感器数据可以经由本地交通工具网络或经由一个或多个其他合适的链路(诸如，如上文所描述的链路220)从它们相应的相机中接收。

流程700可以包括一个或多个处理器编码和/或以其他方式获得(框704)基于静态相机的传感器数据和基于事件相机的传感器数据，该基于静态相机的传感器数据和基于事件相机的传感器数据被编码成经由帧通道中的每个帧通道提供的C1、C2、C3、Ep和En图像，如上文参照图4A-图4C所讨论。同样，这里的编码步骤是可选的，并且可以在所接收的(框702)基于静态相机的传感器数据和基于事件相机的传感器数据尚未被编码为图像时执行。

流程700可以包括一个或多个处理器提供(框706)经编码的C1、C2、C3、Ep和En图像，这些图像是在神经网络的输入层处提供的。这可以包括，例如，经由每个帧通道将C1、C2、C3、Ep和En图像提供给CNN架构300的输入层302，如本文所讨论。

流程700可包括一个或多个处理器分析和/或处理(框708)经由通道输入的C1、C2、C3、Ep和En图像以计算对象检测数据。例如，这可以包括将经适当训练的神经网络算法应用到经组合的图像数据。作为示例，这可以包括处理包括基于静态的相机传感器数据的静态相机图像的帧，以及处理事件相机图像中包括的经编码的信息，每一图像经由相应的通道输入被接收，以确定场景中包括的一个或多个对象的位置和类型。同样，可以根据各种条件下的类似类型的道路场景来执行训练，使得CNN可以适当地对C1、C2、C3、Ep和En图像进行卷积、下采样和组合，以检测作为边界框的整体道路中的对象的位置以及道路场景中的对象类型的分类的概率。

流程700可包括一个或多个处理器将所生成的对象检测数据用于(框710)一个或多个自主驾驶和/或导航任务。这可以包括，例如，经由AV的一个或多个ECU和/或控制系统使用每个对象的位置和类型作为任何合适类型的AV算法的一部分，以使交通工具在对象周围转向、应用交通工具制动器、或以其他方式控制一个或多个AV功能并导航AV。

示例

以下示例涉及进一步的各个方面。

示例1是一种自主交通工具(AV)的对象检测和分类系统，该对象检测和分类系统包括：一个或多个处理器；以及存储器，该存储器被配置成用于存储指令，该指令在由一个或多个处理器执行时，使得一个或多个处理器用于：获得与场景相关联的第一图像集合，该第一图像集合使用基于静态的相机传感器数据来编码；获得与场景相关联的第二图像集合，第二图像集合包括使用基于事件的相机传感器数据表示在时间窗口内发生的事件的经编码的信息；接收第一图像集合和第二图像集合作为分开的相应通道输入；处理经由通道输入接收的(i)包括基于静态的相机传感器数据的第一图像集合的帧，以及(ii)包括在第二图像集合中的经编码的信息，以确定场景中包括的一个或多个对象的位置和类型；以及将场景中包括的一个或多个对象的位置和类型提供给AV的控制系统，以执行一个或多个自主导航任务。

在示例2中，如示例1的主题，其中，第二图像集合中包括的经编码的信息表示在基于所接收的基于静态的相机传感器数据的连续帧的时间窗口内发生的事件。

在示例3中，如示例1-2的任何组合的主题，其中，第一图像集合包括蓝绿色波长图像、品红色波长图像和黄色波长图像，并且其中第二图像集合包括正事件图像和负事件图像。

在示例4中，如示例1-3的任何组合的主题，其中，一个或多个处理器被配置成用于：(i)使用在时间窗口内发生的正事件的数量将所接收的基于事件的相机传感器数据编码成正事件图像，以及(ii)使用在时间窗口内发生的负事件的数量将所接收的基于事件的相机传感器数据编码成负事件图像。

在示例5中，如示例1-4的任何组合的主题，其中，一个或多个处理器被配置成用于通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的正事件的数量的强度梯度值分配给正事件图像的每个像素；以及将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的负事件的数量的强度梯度值分配给负事件图像的每个像素。

在示例6中，如示例1-5的任何组合的主题，其中，场景是使得所接收的基于事件的相机传感器数据指示没有正事件且没有负事件的静态道路场景，并且其中，一个或多个处理器被配置成用于使用经由通道输入接收到的第一图像集合和第二图像集合的组合来确定静态场景中包括的一个或多个对象的位置和类型。

在示例7中，如示例1-6的任何组合的主题，其中，一个或多个处理器被配置成用于通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：应用以正事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对正事件图像进行编码，其中m为整数值；以及应用以负事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对负事件图像进行编码，其中m为整数值。

示例8是一种自主交通工具(AV)，包括：媒体控制单元，该媒体控制单元被配置成用于获得(i)与场景相关联的第一图像集合，该第一图像集合使用基于静态的相机传感器数据来编码，以及(ii)与场景相关联的第二图像集合，第二图像集合包括使用基于事件的相机传感器数据表示在时间窗口内发生的事件的经编码的信息；以及电子控制单元(ECU)，该电子控制单元(ECU)被配置成用于：(i)接收第一图像集合和第二图像集合作为分开的相应的通道输入，(ii)处理经由通道输入接收到的包括基于静态的相机传感器数据的第一图像集合的帧，(iii)处理经由通道输入接收到的第二图像集合中包括的经编码的信息，(iv)确定场景中包括的一个或多个对象的位置和类型，以及(v)将场景中包括的一个或多个对象的位置和类型提供给AV的控制系统，以执行一个或多个自主导航任务。

在示例9中，如示例8的主题，其中，第二图像集合中包括的经编码的信息表示在基于所接收的基于静态的相机传感器数据的连续帧的时间窗口内发生的事件。

在示例10中，如示例8-9的任何组合的主题，其中，第一图像集合包括蓝绿色波长图像、品红色波长图像和黄色波长图像，并且其中第二图像集合包括正事件图像和负事件图像。

在示例11中，如示例8-10的任何组合的主题，其中，媒体控制单元被配置成用于：(i)使用在时间窗口内发生的正事件的数量将所接收的基于事件的相机传感器数据编码成正事件图像，以及(ii)使用在时间窗口内发生的负事件的数量将所接收的基于事件的相机传感器数据编码成负事件图像。

在示例12中，如示例8-11的任何组合的主题，其中，媒体控制单元被配置成用于通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的正事件的数量的强度梯度值分配给正事件图像的每个像素；以及将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的负事件的数量的强度梯度值分配给负事件图像的每个像素。

在示例13中，如示例8-12的任何组合的主题，其中，场景是使得所接收的基于事件的相机传感器数据指示没有正事件且没有负事件的静态道路场景，并且其中，ECU被配置成用于使用经由通道输入接收到的第一图像集合和第二图像集合的组合来确定静态场景中包括的一个或多个对象的位置和类型。

在示例14中，如示例8-13的任何组合的主题，其中，媒体控制单元被配置成用于通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：应用以正事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对正事件图像进行编码，其中m为整数值；以及应用以负事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对负事件图像进行编码，其中m为整数值。

示例15是一种具有存储在其上的指令的非暂态计算机可读介质，当该指令由与自主交通工具(AV)相关联的控制系统的一个或多个处理器执行时，使得AV用于：获得与场景相关联的第一图像集合，该第一图像集合使用基于静态的相机传感器数据来编码；获得与场景相关联的第二图像集合，第二图像集合包括使用基于事件的相机传感器数据表示在时间窗口内发生的事件的经编码的信息；接收第一图像集合和第二图像集合作为分开的相应通道输入；处理经由通道输入接收的(i)包括基于静态的相机传感器数据的第一图像集合的帧，以及(ii)包括在第二图像集合中的经编码的信息，以确定场景中包括的一个或多个对象的位置和类型；以及将场景中包括的一个或多个对象的位置和类型提供给AV的控制系统，以执行一个或多个自主导航任务。

在示例16中，如示例15的主题，其中，第二图像集合中包括的经编码的信息表示在基于所接收的基于静态的相机传感器数据的连续帧的时间窗口内发生的事件。

在示例17中，如示例15-16的任何组合的主题，其中，第一图像集合包括蓝绿色波长图像、品红色波长图像和黄色波长图像，并且其中第二图像集合包括正事件图像和负事件图像。

在示例18中，如示例15-17的任何组合的主题，其中，当指令由与AV相关联的控制系统的一个或多个处理器执行时，使得AV用于：(i)使用在时间窗口内发生的正事件的数量将所接收的基于事件的相机传感器数据编码成正事件图像，以及(ii)使用在时间窗口内发生的负事件的数量将所接收的基于事件的相机传感器数据编码成负事件图像。

在示例19中，如示例15-18的任何组合的主题，其中，当指令由与AV相关联的控制系统的一个或多个处理器执行时，使得AV通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的正事件的数量的强度梯度值分配给正事件图像的每个像素；以及将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的负事件的数量的强度梯度值分配给负事件图像的每个像素。

在示例20中，如示例15-19的任何组合的主题，其中，场景是使得所接收的基于事件的相机传感器数据指示没有正事件且没有负事件的静态道路场景，并且其中，当指令由与AV相关联的控制系统的一个或多个处理器执行时，使得AV使用经由通道输入接收到的第一图像集合和第二图像集合的组合来确定静态场景中包括的一个或多个对象的位置和类型。

在示例21中，如示例15-20的任何组合的主题，其中，当指令由与AV相关联的控制系统的一个或多个处理器执行时，使得AV通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：应用以正事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对正事件图像进行编码，其中m为整数值；以及应用以负事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对负事件图像进行编码，其中m为整数值。

示例22是一种用于自主交通工具(AV)的对象检测和分类装置，包括：一个或多个处理装置；以及存储器装置，该存储装置用于存储指令，该指令在由一个或多个处理装置执行时，使得一个或多个处理装置用于：获得与场景相关联的第一图像集合，该第一图像集合使用基于静态的相机传感器数据来编码；获得与场景相关联的第二图像集合，第二图像集合包括使用基于事件的相机传感器数据表示在时间窗口内发生的事件的经编码的信息；接收第一图像集合和第二图像集合作为分开的相应通道输入；处理经由通道输入接收的(i)包括基于静态的相机传感器数据的第一图像集合的帧，以及(ii)包括在第二图像集合中的经编码的信息，以确定场景中包括的一个或多个对象的位置和类型；以及将场景中包括的一个或多个对象的位置和类型提供给AV的控制系统，以执行一个或多个自主导航任务。

在示例23中，如示例22的主题，其中，第二图像集合中包括的经编码的信息表示在基于所接收的基于静态的相机传感器数据的连续帧的时间窗口内发生的事件。

在示例24中，如示例22-23的任何组合的主题，其中，第一图像集合包括蓝绿色波长图像、品红色波长图像和黄色波长图像，并且其中第二图像集合包括正事件图像和负事件图像。

在示例25中，如示例22-24的任何组合的主题，其中，一个或多个处理装置：(i)使用在时间窗口内发生的正事件的数量将所接收的基于事件的相机传感器数据编码成正事件图像，以及(ii)使用在时间窗口内发生的负事件的数量将所接收的基于事件的相机传感器数据编码成负事件图像。

在示例26中，如示例22-25的任何组合的主题，其中，一个或多个处理装置通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的正事件的数量的强度梯度值分配给正事件图像的每个像素；以及将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的负事件的数量的强度梯度值分配给负事件图像的每个像素。

在示例27中，如示例22-26的任何组合的主题，其中，场景是使得所接收的基于事件的相机传感器数据指示没有正事件且没有负事件的静态道路场景，并且其中，一个或多个处理装置使用经由通道输入接收到的第一图像集合和第二图像集合的组合来确定静态场景中包括的一个或多个对象的位置和类型。

在示例28中，如示例22-27的任何组合的主题，其中，一个或多个处理装置通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：应用以正事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对正事件图像进行编码，其中m为整数值；以及应用以负事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对负事件图像进行编码，其中m为整数值。

示例29是一种自主交通工具(AV)，包括：媒体控制装置，该媒体控制装置用于获得(i)与场景相关联的第一图像集合，该第一图像集合使用基于静态的相机传感器数据来编码，以及(ii)与场景相关联的第二图像集合，第二图像集合包括使用基于事件的相机传感器数据表示在时间窗口内发生的事件的经编码的信息；以及电子控制单元(ECU)装置，该电子控制单元(ECU)装置用于：(i)接收第一图像集合和第二图像集合作为分开的相应的通道输入，(ii)处理经由通道输入接收到的包括基于静态的相机传感器数据的第一图像集合的帧，(iii)处理经由通道输入接收到的第二图像集合中包括的信息，(iii)确定场景中包括的一个或多个对象的位置和类型，以及(iv)将场景中包括的一个或多个对象的位置和类型提供给AV的控制装置，以执行一个或多个自主导航任务。

在示例30中，如示例29的主题，其中，第二图像集合中包括的经编码的信息表示在基于所接收的基于静态的相机传感器数据的连续帧的时间窗口内发生的事件。

在示例31中，如示例29-30的任何组合的主题，其中，第一图像集合包括蓝绿色波长图像、品红色波长图像和黄色波长图像，并且其中第二图像集合包括正事件图像和负事件图像。

在示例32中，如示例29-31的任何组合的主题，其中，媒体控制装置(i)使用在时间窗口内发生的正事件的数量将所接收的基于事件的相机传感器数据编码成正事件图像，以及(ii)使用在时间窗口内发生的负事件的数量将所接收的基于事件的相机传感器数据编码成负事件图像。

在示例33中，如示例29-32的任何组合的主题，其中，媒体控制装置通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的正事件的数量的强度梯度值分配给正事件图像的每个像素；以及将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的负事件的数量的强度梯度值分配给负事件图像的每个像素。

在示例34中，如示例29-33的任何组合的主题，其中，场景是使得所接收的基于事件的相机传感器数据指示没有正事件且没有负事件的静态道路场景，并且其中，ECU装置使用经由通道输入接收到的第一图像集合和第二图像集合的组合来确定静态场景中包括的一个或多个对象的位置和类型。

在示例35中，如示例29-34的任何组合的主题，其中，媒体控制装置通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：应用以正事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对正事件图像进行编码，其中m为整数值；以及应用以负事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对负事件图像进行编码，其中m为整数值。

示例36是一种具有存储在其上的指令的非暂态计算机可读装置，当该指令由与自主交通工具(AV)相关联的控制装置的一个或多个处理装置执行时，使得AV：获得与场景相关联的第一图像集合，该第一图像集合使用基于静态的相机传感器数据来编码；获得与场景相关联的第二图像集合，第二图像集合包括使用基于事件的相机传感器数据表示在时间窗口内发生的事件的经编码的信息；接收第一图像集合和第二图像集合作为分开的相应通道输入；处理经由通道输入接收的(i)包括基于静态的相机传感器数据的第一图像集合的帧，以及(ii)包括在第二图像集合中的经编码的信息，以确定场景中包括的一个或多个对象的位置和类型；以及将场景中包括的一个或多个对象的位置和类型提供给AV的控制系统，以执行一个或多个自主导航任务。

在示例37中，如示例36的主题，其中，第二图像集合中包括的经编码的信息表示在基于所接收的基于静态的相机传感器数据的连续帧的时间窗口内发生的事件。

在示例38中，如示例36-37的任何组合的主题，其中，第一图像集合包括蓝绿色波长图像、品红色波长图像和黄色波长图像，并且其中第二图像集合包括正事件图像和负事件图像。

在示例39中，如示例36-38的任何组合的主题，其中，当指令由与AV相关联的控制装置的一个或多个处理装置执行时，使得AV用于：(i)使用在时间窗口内发生的正事件的数量将所接收的基于事件的相机传感器数据编码成正事件图像，以及(ii)使用在时间窗口内发生的负事件的数量将所接收的基于事件的相机传感器数据编码成负事件图像。

在示例40中，如示例36-39的任何组合的主题，其中，当指令由与AV相关联的控制装置的一个或多个处理装置执行时，使得AV用于通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的正事件的数量的强度梯度值分配给正事件图像的每个像素；以及将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的负事件的数量的强度梯度值分配给负事件图像的每个像素。

在示例41中，如示例36-40的任何组合的主题，其中，场景是使得所接收的基于事件的相机传感器数据指示没有正事件且没有负事件的静态道路场景，并且其中，当指令由与AV相关联的控制装置的一个或多个处理装置执行时，使得AV用于使用经由通道输入接收到的第一图像集合和第二图像集合的组合来确定静态场景中包括的一个或多个对象的位置和类型。

在示例42中，如示例36-41的任何组合的主题，其中，当指令由与AV相关联的控制装置的一个或多个处理装置执行时，使得AV用于通过以下操作将所接收的基于事件的相机传感器数据编码成正事件图像和负事件图像：应用以正事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对正事件图像进行编码，其中m为整数值；以及应用以负事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对负事件图像进行编码，其中m为整数值。

如所示出和所描述的设备。

如所示出和所描述的方法。

结论

具体方面的前述描述将如此充分地揭示本公开的一般性质，以至于其他人可以通过应用本领域技术内的知识就容易地修改和/或改变诸如这些具体方面之类的各种应用，而无需过度实验，而不背离本公开的一般概念。因此，基于本文展现的教导教示和指导，这些改编和修改旨在落入所公开各个方面的等同物的含义和范围内。应理解，本文中的措辞或术语是出于描述而非限制的目的，使得本说明书的术语或措辞将由本领域技术人员根据教示和指导来解释。

说明书中对“一个方面”、“方面”、“示例方面”等的引用指示所描述的方面可包括特定的特征、结构或特性，但是每个方面可以不一定包括该特定的特征、结构或特性。而且，此类短语不一定是指同一方面。此外，当结合方面描述特定的特征、结构或特性时，认为结合无论是否被明确描述的其他方面而影响此类特征、结构或特性是在本领域技术人员的知识范围之内的。

本文所描述的示例性方面是出于说明性目的而提供的，而不是限制性的。其他示例性方面是可能的，并且可以对示例性方面进行修改。因此，说明书并不意味着限制本公开。相反，本公开的范围仅根据所附权利要求及其等价物来限定。

各个方面可实现为硬件(例如电路)、固件、软件或其组合。各方面还可实现为储存在机器可读介质上的指令，这些指令可由一个或多个处理器读取和执行。机器可读介质可包括用于存储或传送机器(例如，计算设备)可读形式的信息的任何机制。例如，机器可读介质可包括只读存储器(ROM)；随机存取存储器(RAM)；磁盘存储介质；光存储介质；闪存设备；电、光、声或其他形式的传播信号(例如，载波、红外信号、数字信号等)等等。进一步地，固件、软件、例程、指令在本文中可被描述为执行特定动作。然而，应当理解，此类描述仅仅是出于方便起见，并且此类动作实际上由计算设备、处理器、控制器、或其他设备执行固件、软件、例程、指令等而导致的。进一步地，任何实现方式变体可以由通用计算机执行。

在本申请中使用词“示例性”来意指“充当示例、实例或说明”。在本申请中被描述为“示例性”的任何实施例或设计不一定被解释为相对于其他实施例或设计是优选的或有优势的。

贯穿附图，应注意，除非另有说明，否则相同的附图标记用于描绘相同或相似的要素、特征和结构。

术语“至少一个”和“一个或多个”可被理解为包括大于或等于一的数量(例如，一个、二个、三个、四个、[...]等)。术语“多个(a plurality)”可被理解为包括大于或等于二的数量(例如，二个、三个、四个、五个、[...]等)。

说明书和权利要求书中的词语“复数”和“多个(multiple)”明确地指代大于一的量。因此，任何明确地援引上述词语来指代某个数量的对象的短语(例如，多个“多(plural)[要素],”、“多个(multiple)[要素]”)明确地指代多于一个的所述要素。说明书和权利要求书中的术语“(……的)组”、“(……的)集”、“(……的)集合”、“(……的)系列”、“(……的)序列”、“(……的)分组”等(如果存在)指代等于或大于一的量，即一个或多个。术语“适当的子集”、“减小的子集”、和“较小的子集”指代集合的不等于该集合的子集，说明性地，指代集合的包含比该集合少的元素的子集。

关于一组要素的短语“至少一个”在本文中可用于意指来自由要素组成的组的至少一个要素。例如，关于一组要素的短语“……中的至少一个”在本文中可用于意指以下各项中的选择：所列要素中的一个、多个的所列要素中的一个要素、多个个体所列要素、或多个的数个个体所列要素。

如本文中所使用的术语“数据”可被理解为包括采用任何合适的模拟或数字形式的信息，例如，作为文件、文件的部分、文件集合、信号或流、信号或流的部分、信号或流的集合等等来提供的信息。进一步地，术语“数据”还可用于意指对信息的例如以指针的形式的引用。然而，术语“数据”不限于上述示例，并且可采取各种形式并表示如本领域中理解的任何信息。

例如，如本文中所使用的术语“处理器”或“控制器”可被理解为允许处置数据的任何种类的技术实体。可根据由处理器或控制器执行的一个或多个特定功能来处置数据。进一步地，如本文中所使用的处理器或控制器可被理解为任何种类的电路，例如任何种类的模拟或数字电路。处理器或控制器因此可以是或可包括模拟电路、数字电路、混合信号电路、逻辑电路、处理器、微处理器、中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、集成电路、专用集成电路(ASIC)等，或其任何组合。下文将进一步详细描述的相应功能的任何其他种类的实现方式也可被理解为处理器、控制器或逻辑电路。应理解，本文中详述的处理器、控制器或逻辑电路中的任何两个(或更多个)可被实现为具有等效功能或类似功能的单个实体，并且相反地，本文中详述的任何单个处理器、控制器或逻辑电路可被实现为具有等效功能或类似功能的两个(或更多个)分开的实体。

如本文中所使用，“存储器”被理解为数据或信息可以被存储在其中以供检取的计算机可读介质。对本文中所包括的“存储器”的引用可因此被理解为是指易失性或非易失性存储器，包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、固态存储、磁带、硬盘驱动器、光驱等等、或其任何组合。在本文中，寄存器、移位寄存器、处理器寄存器、数据缓冲器等等也可由术语存储器包含。术语“软件”是指任何类型的可执行指令，包括固件。

在本文所描述的一个或多个示例性方面中，处理电路可以包括存储数据和/或指令的存储器。存储器可以是任何公知的易失性和/或非易失性存储器，包括例如只读存储器(ROM)、随机存取存储器(RAM)、闪存存储器、磁存储介质、光盘、可擦除可编程只读存储器(EPROM)、和可编程只读存储器(PROM)。存储器可以是不可移动的、可移动的、或两者的组合。

除非明确地指定，否则术语“发射”涵盖直接(点对点)和间接(经由一个或多个中间点)的发射两者。类似地，术语“接收”涵盖直接和间接的接收两者。此外，术语“传送”、“接收”、“传递”或其他类似术语涵盖物理传输(例如，对无线电信号的传输)和逻辑传输(例如，通过逻辑软件级连接对数字数据的传输)两者。例如，处理器或控制器可通过软件级连接以无线电信号的形式与另一处理器或传感器对数据进行发射或接收，其中，物理发射和接收由诸如RF收发机和天线之类的无线电层组件处置，并且通过软件级连接的逻辑发射和接收由处理器或控制器执行。术语“传递”涵盖传送和接收中的一者或两者，即，在传入方向和传出方向中的一个或这两个方向上的单向或双向传输。术语“计算”涵盖经由数学表达式/公式/关系进行的‘直接’计算和经由查找表或散列表以及其他数组索引或搜索操作进行的‘间接’计算两者。

可以将“交通工具”理解为包括任何类型的被驱动对象。作为示例，交通工具可以是具有内燃机、反作用式引擎、电驱动对象、混合驱动对象或其组合的被驱动对象。交通工具可以是或者可以包括汽车、公共汽车、小型公共汽车、货车、卡车、房车、交通工具拖车、摩托车、自行车、三轮车、火车机车、火车车厢、移动机器人、个人运输机、船只、船、潜水器、潜艇、无人机、飞机、火箭等等。

“地面交通工具”可理解为包括任何类型的交通工具，如上文所述，在地面上(例如，在街道上、在道路上、在轨道上、在一条或多条轨道上、越野等)驾驶的交通工具。

术语“自主交通工具”可描述这样的交通工具：这些交通工具至少在一些驾驶的一些(重要)部分(空间或时间，例如，在某些区域、或当环境条件尚可时、或在高速公路上、或高于或低于某一速度)期间，实现所有或基本上所有导航改变。有时，将自主交通工具摂与部分自主交通工具摂或半自主交通工具摂区别开来，以指示交通工具能够可能在某些时候、在某些条件下、或在某些区域实现一些(但不是全部)导航改变。导航改变可描述或包括交通工具的转向、制动、或加速/减速中的一种或多种改变。即使在交通工具不是完全自动(例如，在有驾驶员输入或无驾驶员输入的情况下完全操作)的情况下，也可以将交通工具描述为自主的。自主交通工具可以包括可以在某些时间段内在驾驶员控制下操作并且在其他时间段内无需驾驶员控制而操作的那些交通工具。自主交通工具还可包括仅控制交通工具导航的一些方面的交通工具，交通工具导航的一些方面诸如转向(例如，在交通工具车道约束之间维持交通工具路线)或在某些情形下(但并非在所有情形下)进行一些转向操作，但可能将交通工具导航的其他方面留给驾驶员(例如，在某些情形下进行制动或刹车)。自主交通工具还可以包括在某些情形下共同控制交通工具导航的一个或多个方面的交通工具(例如，动手操作(诸如响应驾驶员的输入))和在某些情形下控制交通工具导航的一个或多个方面的交通工具(例如，放手操作(诸如独立于驾驶员的输入))。自主交通工具还可以包括在某些特定情形下(诸如，在某些环境条件下(例如，空间区域、道路条件))控制交通工具导航的一个或多个方面的交通工具。在一些方面，自主交通工具可以处理交通工具的制动、速率控制、速度控制和/或转向的一些或所有方面。自主交通工具可以包括可以在没有驾驶员的情况下操作的那些交通工具。交通工具的自主性级别可以由交通工具的汽车工程师协会(SAE)级别(例如，由SAE例如在SAE J3016 2018中定义：道路机动交通工具的驾驶自动化系统相关术语的分类和定义)或由其他相关专业组织进行描述或确定。SAE级别可以具有范围从最小级别(例如，0级(说明性地，基本上没有驾驶自动化))到最大级别(例如，5级(说明性地，完全驾驶自动化))的值。

Claims

1.一种自主交通工具AV的对象检测和分类系统，所述对象检测和分类系统包括：

一个或多个处理器；以及

存储器，所述存储器被配置成用于存储指令，所述指令在由所述一个或多个处理器执行时，使得所述一个或多个处理器用于：

获得与场景相关联的第一图像集合，所述第一图像集合使用基于静态的相机传感器数据来编码；

获得与所述场景相关联的第二图像集合，所述第二图像集合包括使用基于事件的相机传感器数据表示在时间窗口内发生的事件的经编码的信息；

接收所述第一图像集合和所述第二图像集合作为分开的相应通道输入；

处理经由所述通道输入接收的(i)包括所述基于静态的相机传感器数据的所述第一图像集合的帧，以及(ii)包括在所述第二图像集合中的所述经编码的信息，以确定所述场景中包括的一个或多个对象的位置和类型；以及

将所述场景中包括的所述一个或多个对象的位置和类型提供给所述AV的控制系统，以执行一个或多个自主导航任务。

2.如权利要求1所述的对象检测和分类系统，其特征在于，所述第二图像集合中包括的所述经编码的信息表示在基于所接收的基于静态的相机传感器数据的连续帧的时间窗口内发生的事件。

3.如权利要求1所述的对象检测和分类系统，其特征在于，所述第一图像集合包括蓝绿色波长图像、品红色波长图像和黄色波长图像，并且

其中所述第二图像集合包括正事件图像和负事件图像。

4.如权利要求3所述的对象检测和分类系统，其特征在于，所述一个或多个处理器被配置成用于：

(i)使用在所述时间窗口内发生的正事件的数量将所接收的基于事件的相机传感器数据编码成所述正事件图像，以及(ii)使用在时间窗口内发生的负事件的数量将所接收的基于事件的相机传感器数据编码成所述负事件图像。

5.如权利要求3所述的对象检测和分类系统，其特征在于，所述一个或多个处理器被配置成用于通过以下操作将所接收的基于事件的相机传感器数据编码成所述正事件图像和所述负事件图像：

将基于由基于事件的相机传感器数据指示的事件相机图像的每个相应像素在时间窗口内检测到的经聚合的正事件的数量的强度梯度值分配给所述正事件图像的每个像素；以及

将基于由所述基于事件的相机传感器数据指示的事件相机图像的每个相应像素在所述时间窗口内检测到的经聚合的负事件的数量的强度梯度值分配给负事件图像的每个像素。

6.如权利要求1所述的对象检测和分类系统，其特征在于，所述场景是使得所述所接收的基于事件的相机传感器数据指示没有正事件且没有负事件的静态道路场景，并且

其中，所述一个或多个处理器被配置成用于使用经由所述通道输入接收到的所述第一图像集合和所述第二图像集合的组合来确定所述静态场景中包括的所述一个或多个对象的位置和类型。

7.如权利要求1-6中任一项所述的对象检测和分类系统，其特征在于，所述一个或多个处理器被配置成用于通过以下操作将所述所接收的基于事件的相机传感器数据编码成所述正事件图像和所述负事件图像：

应用以所述正事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对所述正事件图像进行编码，其中m为整数值；以及

应用以所述负事件图像内的每个相应像素坐标为中心的m乘m像素尺寸的核，以根据时间面编码对所述负事件图像进行编码，其中m为整数值。

8.一种自主交通工具AV，所述自主交通工具AV包括：

媒体控制单元，所述媒体控制单元被配置成用于获得(i)与场景相关联的第一图像集合，所述第一图像集合使用基于静态的相机传感器数据来编码，以及(ii)与场景相关联的第二图像集合，所述第二图像集合包括使用基于事件的相机传感器数据表示在时间窗口内发生的事件的经编码的信息；以及

电子控制单元(ECU)，所述电子控制单元(ECU)被配置成用于：(i)接收所述第一图像集合和所述第二图像集合作为分开的相应的通道输入，(ii)处理经由所述通道输入接收到的包括所述基于静态的相机传感器数据的所述第一图像集合的帧，(iii)处理经由所述通道输入接收到的所述第二图像集合中包括的经编码的信息，(iv)确定所述场景中包括的一个或多个对象的位置和类型，以及(v)将所述场景中包括的所述一个或多个对象的位置和类型提供给所述AV的控制系统，以执行一个或多个自主导航任务。

9.如权利要求8所述的AV，其特征在于，所述第二图像集合中包括的所述经编码的信息表示在基于所述所接收的基于静态的相机传感器数据的连续帧的时间窗口内发生的事件。

10.如权利要求8所述的AV，其特征在于，所述第一图像集合包括蓝绿色波长图像、品红色波长图像和黄色波长图像，并且

其中所述第二图像集合包括正事件图像和负事件图像。

11.如权利要求10所述的AV，其特征在于，所述媒体控制单元被配置成用于：(i)使用在所述时间窗口内发生的正事件的数量将所述所接收的基于事件的相机传感器数据编码成所述正事件图像，以及(ii)使用在所述时间窗口内发生的负事件的数量将所述所接收的基于事件的相机传感器数据编码成所述负事件图像。

12.如权利要求11所述的AV，其特征在于，所述媒体控制单元被配置成用于通过以下操作将所述所接收的基于事件的相机传感器数据编码成所述正事件图像和所述负事件图像：

将基于由所述基于事件的相机传感器数据指示的事件相机图像的每个相应像素在所述时间窗口内检测到的经聚合的负事件的数量的强度梯度值分配给所述负事件图像的每个像素。

13.如权利要求8所述的AV，其特征在于，所述场景是使得所述所接收的基于事件的相机传感器数据指示没有正事件且没有负事件的静态道路场景，并且

其中，所述ECU被配置成用于使用经由所述通道输入接收到的所述第一图像集合和所述第二图像集合的组合来确定所述静态场景中包括的所述一个或多个对象的位置和类型。

14.如权利要求8-11中任一项所述的AV，其特征在于，所述媒体控制单元被配置成用于通过以下操作将所述所接收的基于事件的相机传感器数据编码成所述正事件图像和所述负事件图像：

15.一种用于自主交通工具AV的对象检测和分类装置，所述装置包括：

一个或多个处理装置；以及

存储器装置，所述存储装置用于存储指令，所述指令在由所述一个或多个处理装置执行时，使得所述一个或多个处理装置用于：

处理经由所述通道输入接收的(i)包括所述基于静态的相机传感器数据的所述第一图像集合的帧，以及(ii)包括在所述第二组图像中的所述经编码的信息，以确定所述场景中包括的一个或多个对象的位置和类型；以及

16.如权利要求15所述的对象检测和分类装置，其特征在于，所述第二图像集合中包括的所述经编码的信息表示在基于所接收的基于静态的相机传感器数据的连续帧的时间窗口内发生的事件。

17.如权利要求15所述的对象检测和分类装置，其特征在于，所述第一图像集合包括蓝绿色波长图像、品红色波长图像和黄色波长图像，并且其中所述第二图像集合包括正事件图像和负事件图像。

18.如权利要求17所述的对象检测和分类装置，其特征在于，所述一个或多个处理装置：

19.如权利要求17所述的对象检测和分类装置，其特征在于，所述一个或多个处理装置通过以下操作将所接收的基于事件的相机传感器数据编码成所述正事件图像和所述负事件图像：

20.如权利要求15所述的对象检测和分类装置，其特征在于，所述场景是使得所述所接收的基于事件的相机传感器数据指示没有正事件且没有负事件的静态道路场景，并且

其中，所述一个或多个处理装置使用经由所述通道输入接收到的所述第一图像集合和所述第二图像集合的组合来确定所述静态场景中包括的所述一个或多个对象的位置和类型。