CN108334081A

CN108334081A - 用于对象检测的循环深度卷积神经网络

Info

Publication number: CN108334081A
Application number: CN201810047570.4A
Authority: CN
Inventors: 盖伊·霍特森; 维迪亚·那利亚姆布特·穆拉里
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2017-01-20
Filing date: 2018-01-18
Publication date: 2018-07-27
Also published as: US20180211403A1; MX2018000673A; RU2018101859A; GB201800836D0; DE102018101125A1; GB2560620A

Abstract

根据一个实施例，一种系统包括传感器部件以及检测部件。传感器部件配置成获取多个传感器帧，其中多个传感器帧包括随着时间的推移捕捉到的一系列传感器帧。检测部件配置成利用神经网络来检测传感器帧内的对象或特征。神经网络包括环式联系，该环式联系将在第一传感器帧中检测到的对象的指示前馈到神经网络中的一个或多个层中以用于随后的第二传感器帧。

Description

用于对象检测的循环深度卷积神经网络

技术领域

本公开大体上涉及用于检测对象或视觉特征的方法、系统以及设备，并且尤其是涉及利用循环深度卷积神经网络进行对象检测的方法、系统以及设备。

背景技术

机动车为商业、政府以及私人实体提供了很重要一部分运输。目前正在将自主车辆和驾驶辅助系统开发和部署成提供安全性，减少所需的用户输入量，或甚至完全消除用户参与。例如，一些驾驶辅助系统(例如防撞系统)可在人类驾驶时监测车辆和其他对象的驾驶、位置以及速度。当系统检测到即将发生碰撞或撞击时，防撞系统会介入并且施加制动、使车辆转向或者执行其他回避或安全操作。作为另一个示例，自主车辆可在很少或没有用户输入的情况下驾驶和导航车辆。基于传感器数据的对象检测通常是使自动化驾驶系统或驾驶辅助系统能够安全地识别和避开障碍或者安全驾驶所必需的。

发明内容

根据本发明的一方面，提供一种方法，该方法包括：

利用一个或多个神经网络来确定指示对象或特征的存在的第一传感器帧的输出；

前馈第一传感器帧的输出作为用于处理第二传感器帧的输入；以及

基于第一传感器帧的输出来确定指示对象或特征的存在的第二传感器帧的输出。

根据本发明的一个实施例，前馈第一传感器帧的输出包括：利用输出层与一个或多个神经网络的一个或多个层之间的环式联系来进行前馈。

根据本发明的一个实施例，一个或多个神经网络包括包含输入层、一个或多个隐藏层以及分类层的神经网络，其中前馈第一传感器帧的输出包括：在处理第二传感器帧期间将分类层的输出馈送到以下所列的一个或多个中：输入层或者一个或多个隐藏层中的一个隐藏层。

根据本发明的一个实施例，确定第一传感器帧和第二传感器帧的输出包括：确定第一传感器帧和第二传感器帧的多个子区域的输出，其中前馈第一传感器帧的多个子区域的输出作为用于确定第二传感器帧的多个子区域的输出的输入。

根据本发明的一个实施例，确定第一传感器帧和第二传感器帧的多个子区域的输出包括：确定传感器帧的不同大小的子区域的输出以检测不同大小的特征或对象。

根据本发明的一个实施例，第一传感器帧和第二传感器帧的输出各自包括以下所列的一项或多项：

检测到的对象或特征的类型的指示；或者

对象或特征的位置的指示。

根据本发明的一个实施例，方法进一步包括基于检测到的对象或特征来确定驾驶操作。

根据本发明的一个实施例，方法进一步包括训练一个或多个神经网络以利用来自早先的帧的输出来生成基于随后的传感器帧的数据的输出。

根据本发明的一方面，提供一种系统，该系统包括：

传感器部件，该传感器部件配置成获取多个传感器帧，其中多个传感器帧包括随着时间的推移捕捉到的一系列传感器帧；以及

检测部件，该检测部件配置成利用神经网络来检测传感器帧内的对象或特征，其中神经网络包括环式联系，该环式联系将在第一传感器帧中检测到的对象的指示前馈到神经网络中的一个或多个层中以用于随后的第二传感器帧。

根据本发明的一个实施例，神经网络包括输入层、一个或多个隐藏层以及分类层，其中环式联系在处理第二传感器帧期间将分类层的输出馈送到以下所列的一个或多个中：输入层或者一个或多个隐藏层中的一个隐藏层。

根据本发明的一个实施例，检测部件利用神经网络来确定第一传感器帧和第二传感器帧的多个子区域的输出，其中利用包括该环式联系的多个环式联系来前馈第一传感器帧的多个子区域的输出作为用于确定第二传感器帧的多个子区域的输出的输入。

根据本发明的一个实施例，检测部件通过确定传感器帧的不同大小的子区域的输出以检测不同大小的特征或对象来确定第一传感器帧和第二传感器帧的多个子区域的输出。

根据本发明的一个实施例，检测部件利用神经网络来确定以下所列的一项或多项：

检测到的对象或特征的类型的指示；或者

对象或特征的位置的指示。

根据本发明的一方面，提供计算机可读存储介质，该计算机可读存储介质存储指令，该指令在由一个或多个处理器执行时使一个或多个处理器执行以下操作：

获取多个传感器帧，其中多个传感器帧包括随着时间的推移捕捉到的一系列传感器帧；以及

利用神经网络来检测传感器帧内的对象或特征，其中神经网络包括环式联系，该环式联系将在第一传感器帧中检测到的对象的指示前馈到神经网络中的一个或多个层中以用于随后的第二传感器帧。

根据本发明的一个实施例，神经网络包括输入层、一个或多个隐藏层以及分类层，其中环式联系在处理第二传感器帧期间将分类层的输出馈送到以下所列的一个或多个中：输入层或者一个或多个隐藏层中的一个隐藏层的一个或多个中。

根据本发明的一个实施例，指令使一个或多个处理器利用神经网络来确定第一传感器帧和第二传感器帧的多个子区域的输出，其中利用包括环式联系的多个环式联系来前馈第一传感器帧的多个子区域的输出作为用于确定第二传感器帧的多个子区域的输出的输入。

根据本发明的一个实施例，指令使一个或多个处理器通过确定传感器帧的不同大小的子区域的输出以检测不同大小的特征或对象来确定第一传感器帧和第二传感器帧的多个子区域的输出。

根据本发明的一个实施例，指令使一个或多个处理器输出以下所列的一项或多项：

检测到的对象或特征的类型的指示；或者

对象或特征的位置的指示。

根据本发明的一个实施例，指令进一步使一个或多个处理器基于检测到的对象或特征来确定驾驶操作。

根据本发明的一个实施例，第一传感器帧和随后的第二传感器帧包括图像数据、激光雷达数据、雷达数据以及红外图像数据中的一种或多种。

附图说明

参考如下附图来描述本公开的非限制性和非穷举的实施方式，其中，除非另有详细说明，否则相似的附图标记在各视图中始终指的是相似的部件。参照以下描述和附图，本公开的优点将变得更好理解，在附图中：

图1为示出了包括自动化驾驶/辅助系统的车辆控制系统的实施方式的示意性框图；

图2为示出了根据一种实施方式的具有环式联系(recurrent connection)的神经网络的示意性框图；

图3示出了根据一种实施方式的由车辆摄像机捕捉到的道路立体图；

图4为示出了根据一种实施方式在对象检测期间传感器数据的帧之间的时态信息的合并的示意性框图；

图5为示出了根据一种实施方式的对象检测方法的示意性流程图；以及

图6为示出了根据一种实施方式的计算系统的示意性框图。

具体实施方式

出于安全性原因，智能或自主车辆可能需要能够对动态环境中的对象进行分类。深度卷积神经网络在对象识别领域中已取得了巨大的成功，在某些情况下甚至超过了人类的表现。深度卷积神经网络可非常精于提取在图像内高层特征所在的区域的映射。这些特征映射可以从静态图像的卷积中提取，然后用于图像或对象识别。

在图像/视频内的对象检测的当前发展状况已集中在从静态图像中提取特征映射，然后将该特征映射分别馈送到用于对象检测/分类和定位的分类和回归模型中。因此，虽然深度卷积神经网络在对象识别领域中已取得了巨大的成功，但是对场景内的未知数量的对象的检测产生了更大的挑战。虽然最近的创新已在检测静态图像内的对象方面取得了令人印象深刻的结果，但是申请人已经意识到，现有的模型缺乏利用时态信息来在视频或者其他传感器数据串或数据流内进行对象检测的能力。这可能导致不稳定的对象定位，特别是当对象暂时被遮挡时。

在本公开中，申请人公开了在从视频序列中提取特征映射时利用分类和回归模型(例如神经网络)内的环式联系。根据一个实施例，一种系统包括传感器部件和检测部件。传感器部件配置成获取多个传感器帧，其中多个传感器帧包括随着时间的推移捕捉到的一系列传感器帧。检测部件配置成利用神经网络来检测传感器帧内的对象或特征，其中神经网络包括环式联系，该环式联系将在第一传感器帧中检测到的对象的指示(例如，来自前一帧的特征映射或对象预测)前馈到后面的第二传感器帧的神经网络的一个或多个层中。

根据另一个示例实施例，视频(或其他传感器帧串)中的对象检测的方法包括利用一个或多个神经网络来确定指示对象或特征的存在的第一传感器帧的输出。该方法包括前馈第一传感器帧的输出作为用于处理第二传感器帧的输入。该方法还包括基于第一传感器帧的输出来确定指示对象或特征的存在的第二传感器帧的输出。

在一个实施例中，环式联系为使神经网络能够利用来自前一图像帧的输出作为到当前图像帧的输入的联系。本文中公开的环式联系可有效地允许神经网络维持状态信息。例如，如果神经网络在当前图像帧内检测到汽车，则这可能影响该网络的当前状态并且使得在下一帧中更有可能在该位置或附近位置处检测到汽车。在最终的对象分类和定位层之前，可利用循环层来留意动态对象位置。还可以在最终的对象分类阶段期间使用该循环层。这些循环层可接收来自从卷积网络的一个或多个层提取出的特征映射的输入。

虽然特征提取技术可能已包括不同程度的时态信息，但是用于留意和/或分类对象的回归和分类模型已集中于静态图像，而忽略了有价值的时态信息。所提出的利用回归和分类模型内部的环式联系的解决方案将使对象检测器能够结合由前一时间帧对对象位置/类型的估计，从而改善预测。环式联系能够提供在较低层面并且利用神经模型隐含地学习到的置信度度量进行对象跟踪的益处。在一个实施例中，本文中公开的技术可用于端对端(end-to-end)对象检测算法，该端对端对象检测算法将应用于像汽车、自行车以及行人检测这样的任务。

下面将结合附图来讨论另外的实施例和示例。

现在参考附图，图1示出了可用来自动检测、分类和/或定位对象的示例车辆控制系统100。自动化驾驶/辅助系统102可用来使车辆的操作自动化或得到控制或者向人类驾驶员提供帮助。例如，自动化驾驶/辅助系统102可控制车辆的制动、转向、加速、车灯、警报、驾驶员通知、收音机或任何其他辅助系统中的一个或多个。在另一个示例中，自动化驾驶/辅助系统102可能无法提供对驾驶(例如，转向、加速或制动)的任何控制，但是可以提供通知和警报来帮助人类驾驶员安全地驾驶。自动化驾驶/辅助系统102可利用神经网络或其他模型或算法来基于一个或多个传感器收集到的感知数据检测或定位对象。

车辆控制系统100还包括用于检测母车辆(例如，包括车辆控制系统100的车辆)的传感器范围附近或之内的对象的存在的一个或多个传感器系统/装置。例如，车辆控制系统100可包括一个或多个雷达系统106、一个或多个LIDAR(激光雷达)系统108、一个或多个摄像机系统110、全球定位系统(global positioning system，GPS)112和/或超声系统114。车辆控制系统100可包括用于存储相关或有用的导航和安全性数据(例如驾驶历史、地图数据或其他数据)的数据存储器116。车辆控制系统100还可包括用于与移动或无线网络、其他车辆、基础设施或任何其他通信系统进行无线通信的收发器118。

车辆控制系统100可包括用来控制车辆驾驶的各个方面的车辆控制致动器120(例如电动马达、开关或其他致动器)，以便控制制动、加速、转向等。车辆控制系统100还可包括一个或多个显示器122、扬声器124或其他装置，以便可向人类驾驶员或乘客提供通知。显示器122可包括抬头显示器、仪表板显示器或指示器、显示屏或者车辆的驾驶员或乘客可看到的任何其他视觉指示器。扬声器124可包括车辆的音响系统的一个或多个扬声器或者可包括专用于驾驶员通知的扬声器。

应该领会的是，图1的实施例仅通过示例的方式给出。在不脱离本公开的范围的情况下，其他实施例可包括更少或额外的部件。此外，所示部件可进行组合或包含在其他部件内，而不受限制。

在一个实施例中，自动化驾驶/辅助系统102配置成控制母车辆的驾驶或导航。例如，自动化驾驶/辅助系统102可控制车辆控制致动器120以行驶在道路、停车场、行车道或其他位置上的路径。例如，自动化驾驶/辅助系统102可基于部件106至118中的任何部件所提供的信息或感知数据来确定路径。传感器系统/装置106至110以及114可用来获取实时传感器数据，以便自动化驾驶/辅助系统102可实时地帮助驾驶员或驾驶车辆。自动化驾驶/辅助系统102可实现算法或利用模型(例如深度神经网络)来处理传感器数据以检测、识别和/或定位一个或多个对象。可能需要大量的传感器数据和传感器数据的标注，以便训练或测试模型或算法。

自动化驾驶/辅助系统102可包括用于检测传感器数据内的对象、图像特征或对象的其他特征的检测部件104。在一个实施例中，检测部件104可利用在分类或回归模型中的环式联系来检测对象特征或对象。例如，检测部件104可包括或利用经由分类层输出是否存在对象或特征的指示的深度卷积神经网络。该输出然后可前馈到后续的图像或传感器帧。将一个传感器帧的输出馈送到下一个传感器帧可带来类似于对象跟踪的益处，但是是在允许系统从神经网络的能力(例如训练和机器学习)中受益的更低层面。

图2为示出了具有环式联系的深度神经网络200的配置的示意图。深度神经网络近年来已受到关注，这是因为深度神经网络在像图像分类和语音识别这类具有挑战性的任务中已胜过传统的机器学习方法。深度神经网络为具有输入节点(例如输入节点202)、一个或多个隐藏层(例如隐藏层204、206以及208)以及输出节点(例如输出节点210)的前馈计算图。为了关于图像的内容或信息的分类，将输入图像的像素值分配到输入节点，然后通过若干非线性变换经网络的隐藏层204、206、208馈送。在计算结束时，输出节点210产生对应于神经网络推断出的类别的值。类似的操作可用于像素云数据或深度图(例如从像LIDAR、雷达、超声波或其他传感器这样的距离传感器接收到的数据)的分类或特征检测。输入节点202、隐藏层204至208以及输出节点210的数量仅为说明性的。例如，较大的网络可包括用于图像的每个像素的输入节点202，因而可能具有数百、数千或其他数量的输入节点。

根据一个实施例，图2的深度神经网络200可用来将图像的内容分类成四个不同的类别：第一类别、第二类别、第三类别以及第四类别。根据本公开，类似或不同大小的神经网络可输出指示在图像(或馈送到网络200中的图像的子区域)内是否存在特定类型的对象的值。例如，第一类别可对应于是否存在车辆，第二类别可对应于是否存在自行车，第三类别可对应于是否存在行人，并且第四类别可对应于是否存在路沿或障碍。对应于类别的输出可在检测到对应类别中的对象时为高(例如，5或更大)，并且在没有检测到该类别的对象时为低(例如，小于5)。这仅仅是说明性的，这是因为用来对图像中的对象进行分类的神经网络可能包括用来适应数百或数千个像素的输入并且可能需要检测更大量的不同类型的对象。因此，用来对摄像机图像或其他传感器帧中的对象进行检测或分类的神经网络可能需要在输入层的数百或数千个节点和/或多于(或少于)四个的输出节点。

例如，将一部分原始传感器帧(例如，车辆控制系统100的传感器捕捉到的图像、LIDAR帧、雷达帧等)馈送到网络200中可指示在该部分中存在行人。因此，神经网络100可使计算系统能够自动推断出在图像或传感器帧内并且相对于车辆的特定位置处存在行人。可利用类似的技术或原理来推断关于或检测车辆、交通标志、自行车、障碍等的信息。

神经网络200还包括输出节点210与输入节点202之间的多个环式联系。输出节点210处的值可通过延迟器212反馈到一个或多个输入节点。延迟器212可延迟/保存输出值以供在随后的传感器帧期间进行输入。例如，输入节点202的一个子集可接收来自前一传感器帧(例如图像帧)的输出，而其余输入节点202可接收当前传感器帧的像素或点值。因此，前一帧的输出可对是否再次检测到特定对象产生影响。例如，如果在图像中检测到行人，则可将指示存在行人的输出馈送到输入节点202中，以便网络更有可能在随后的帧中检测到行人。这在捕捉到一系列图像并且车辆需要检测和避开障碍的视频中是有用的。此外，提供一系列传感器帧的任何传感器(举例来说，例如激光雷达(LIDAR)或雷达(RADAR))也可受益于环式联系。

虽然显示出神经网络200具有输出节点210与输入节点202之间的环式联系，但是在不同实施例中环式联系可出现在任何节点或层之间。例如，环式联系可将输出节点210的值馈送到隐藏层(例如，204、206以及208)中的节点中或者作为输入馈送到输出节点210中。环式联系可允许对来自前一传感器帧的对象或特征的检测影响对随后的传感器帧的对象或特征的检测。

需要基于示例来训练神经网络，以便使深度神经网络能够区分任何期望的类别。一旦获得带有标签(训练数据)的图像，便可以训练网络。用于训练的一个示例算法包括可利用标记的传感器帧来训练神经网络的反向传播算法。一旦经过训练，神经网络200便可准备好在操作环境中使用。

图3示出了可由驾驶环境中的车辆的摄像机捕捉到的立体图的图像300。例如，图像300示出了车辆正在沿着道路行驶时可捕捉到的车辆前方的道路场景。图像300包括道路上或道路附近的多个关注对象。在一个实施例中，图像300太大以致于不能通过可用的神经网络以全分辨率进行处理。因此，可以一次一个子区域地处理图像。例如，窗口302表示可馈送到神经网络以进行对象或特征检测的一部分图像302。窗口302可滑动到不同位置以有效地处理整个图像302。例如，窗口302可开始于角落，然后从一点连续移动到另一点以检测特征。

在一个实施例中，可利用不同尺寸的滑动窗口来以不同分辨率捕捉特征或对象。例如，利用较大的窗口可更准确地检测更靠近摄像机的特征或对象，而利用较小的窗口可更准确地检测离摄像机更远的特征或对象。较大的窗口可降低分辨率以匹配神经网络的输入节点的数量。

在一个实施例中，对于后续图像上的窗口302的相同或附近位置，可前馈窗口302的每个位置的神经网络输出。例如，如果神经网络在第一图像中的一个位置处检测到行人，则在利用神经网络在随后的第二图像的该位置处进行行人检测期间可前馈在该位置处检测到行人的指示。因此，可在神经网络或模型层中一致地检测和/或跟踪一系列图像中的对象或特征。

在一个实施例中，在利用滑动窗口进行处理之后，可生成指示什么样的特征或对象位于哪些位置的特征映射。特征映射可包括在检测对象或分类对象时可能关注的低层面图像(或其他传感器帧)特征的指示。例如，特征可包括边界、曲线、拐角或者可指示一个位置处的对象类型(例如车辆、行人的脸部等)的其他特征。特征映射然后可用于对象检测或分类。例如，可生成特征映射，然后可处理图像的特征映射和/或区域以识别对象的类型和/或跟踪传感器数据的帧之间的对象的位置。特征映射可指示在图像300中的何处检测到某些类型的特征。在一个实施例中，可利用多个不同的循环神经网络来生成每个特征映射。例如，可利用训练用于行人检测的神经网络来生成用于行人检测的特征映射，而可利用训练用于车辆检测的神经网络来生成用于车辆检测的特征映射。因此，可为图3中所示的单幅图像300生成多个不同的特征映射。如前面所讨论的，可在帧之间前馈相同子区域的检测到的特征以改善特征跟踪和/或对象检测。

图4为示出了在对象检测期间传感器数据的帧之间的时态信息的合并的示意性框图。显示出包括处理不同图像(包括图像0、图像1以及图像2)的第一阶段402、第二阶段404以及第三阶段406的多个处理阶段。第一阶段402显示了用于生成一个或多个特征映射408的图像0的输入。可利用一个或多个神经网络来生成特征映射。对于每个子区域410(例如图3的窗口302的位置)，生成对象预测。特征映射生成和对象预测均可利用一个或多个神经网络来执行。

对象预测可指示对象类型和/或对象位置。例如，对象预测的“0”值可指示不存在对象，“1”可指示对象为汽车，“2”可指示对象为行人，依次类推。还可提供指示对象位于子区域410中的何处的位置值。例如，第二数字可包含在指示子区域410的中心、右边、顶部或底部中的位置的状态中。循环神经网络(Recurrent neural network，RNN)状态0-0是针对在子区域410的对象0产生的预测，RNN状态0-1是针对在子区域410的对象1产生的预测，并且RNN状态0-2是针对在子区域410的对象2产生的预测。因此，对于每个子区域410，可检测或生成多个对象和/或对象预测。

利用环式联系420前馈包括来自阶段402的RNN状态0-0、RNN状态0-1以及RNN状态0-2的状态信息，以供在阶段404时处理下一幅图像——图像1期间使用。例如，在对图像1和/或其特征映射412进行处理期间，可将对象预测和关联值依照环式联系420馈送到神经网络中作为到相同的一个或多个神经网络的一个或多个节点的输入。在阶段404期间，不仅基于图像1和特征映射412而且还基于RNN状态0-0、RNN状态0-1以及RNN状态0-2来生成对象预测。预测的结果产生子区域414的RNN状态1-0、RNN状态1-1以及RNN状态1-2。环式联系420可前馈相同子区域410的状态信息。因此，可仅利用来自前一图像的相同子区域的状态信息来确定对当前图像的对象预测。在一个实施例中，还依照环式联系420前馈特征映射408中的检测到的特征。因此，可利用循环神经网络来生成特征映射以及对象预测。

在阶段406期间，不仅基于图像2和特征映射416而且还基于包括RNN状态1-0、RNN状态1-1以及RNN状态1-2的状态信息来生成对象预测，利用环式联系422前馈该状态信息以供在对图像2的子区域418进行处理期间使用。基于图像2以及来自图像1的包括RNN状态1-0、RNN状态1-1以及RNN状态1-2的状态信息来确定对于RNN状态2-0、RNN状态2-1以及RNN状态2-2的对象预测。此外，可基于之前的第二阶段404的特征映射(或检测到的特征的位置)来生成特征映射416。

在一个实施例中，在每个阶段402、404、406中发生的处理实时地在进入的传感器数据流上发生。例如，当处理视频时，可处理视频的每一帧，并且当接收到视频的下一帧时，可将相应的对象预测、特征检测和/或特征映射保存/输入到模型或神经网络中。因此，环式联系420、422允许从早先的帧延续到随后的帧的对象预测。因此，可在模型或神经网络层面合并时态信息，这允许神经网络被训练成不仅处理当前传感器帧的信息而且还处理先前传感器帧的信息。这与对每个帧重新提取特征然后丢弃该特征的实施例不同。在一个实施例中，在每个阶段期间利用单个神经网络或一组神经网络，使得环式联系420、422仅将来自前一帧的输出作为输入馈送到当前帧中。

图5为示出了对象检测方法500的示意性流程图。方法500可由检测部件或车辆控制系统(例如图1的检测部件104或车辆控制系统100)来执行。

方法500开始，并且检测部件104利用一个或多个神经网络来跟踪确定502指示对象或特征的存在的第一传感器帧的输出。例如，检测部件104可确定502图4的对象预测或状态(例如RNN状态0-0、RNN状态0-1、RNN状态0-2、RNN状态1-0、RNN状态1-1或者RNN状态1-2)的任一者。检测部件104可基于一系列传感器帧中的一个传感器帧中的数据来确定502该状态。传感器部件(其可包括雷达系统106、LIDAR系统108、摄像机系统110或其他传感器)可捕捉或获取包括图像数据、LIDAR数据、雷达数据或红外图像数据的传感器帧。检测部件104前馈504第一传感器帧的输出作为用于处理第二传感器帧的输入。例如，检测部件104可包括或利用神经网络中的环式联系。检测部件104基于第一传感器帧的输出来确定506指示对象或特征的存在的第二传感器帧的输出。例如，检测部件104可基于该状态或前一阶段来确定图4的对象预测或状态(例如RNN状态1-0、RNN状态1-1、RNN状态1-2、RNN状态2-0、RNN状态2-1或者RNN状态2-2)的任一者。

方法500可包括将输出或预测提供到用于做出决定的另一个系统。例如，图1的自动化驾驶/辅助系统102可基于检测到的对象或特征来确定驾驶操作。示例操作包括用来安全驾驶车辆的防撞操作或其他驾驶操作。方法500还可包括训练一个或多个神经网络以利用来自早先的帧的输出来生成基于随后的图像帧的数据的输出。方法500可允许在一系列传感器帧中(例如视频内)更高效和准确地进行对象检测和跟踪。改进的对象检测和跟踪可提高驾驶和乘客的安全性和准确性。

现在参考图6，示出了示例计算装置600的框图。计算装置600可用来执行各种程序(例如本文中所讨论的那些程序)。在一个实施例中，计算装置600可起到检测部件104、自动化驾驶/辅助系统102、车辆控制系统100等的作用。计算装置600可执行如本文中所讨论的各种监测功能，并且可执行一个或多个应用程序(例如本文中所述的应用程序或功能)。计算装置600可为多种计算装置中的任何计算装置(例如台式计算机、内置式计算机、车辆控制系统、笔记本电脑、服务器计算机、手持式计算机、平板电脑等)。

计算装置600包括全部连接到总线612的一个或多个处理器602、一个或多个存储器604、一个或多个接口606、一个或多个大容量存储装置608、一个或多个输入/输出(Input/Output，I/O)装置610以及显示装置630。处理器602包括执行存储在存储器604和/或大容量存储装置608中的指令的一个或多个处理器或控制器。处理器602还可包括各种类型的计算机可读介质(例如高速缓冲存储器)。

存储器604包括各种计算机可读介质，该计算机可读介质例如为易失性存储器(例如，随机存取存储器(random access memory，RAM)614)和/或非易失性存储器(例如，只读存储器(read-only memory，ROM)616)。存储器604还可包括可重写ROM(例如闪速存储器)。

大容量存储装置608包括各种计算机可读介质(例如磁带、磁盘、光盘、固态存储器(例如，闪速存储器)等)。如图6中所示，特定的大容量存储装置为硬盘驱动器624。各种驱动器也可包含在大容量存储装置608中以能够实现从各种计算机可读介质读取和/或写入到各种计算机可读介质。大容量存储装置608包括可移除介质626和/或不可移除介质。

I/O装置610包括允许数据和/或其他信息被输入到计算装置600或者从计算装置600调取数据和/或其他信息的各种装置。示例的I/O装置610包括光标控制装置、键盘、小键盘、麦克风、监视器或者其他显示装置、扬声器、打印机、网络接口卡、调制解调器等。

显示装置630包括可将信息显示给计算装置600的一位或多位用户的任何类型的装置。显示装置630的示例包括监视器、显示终端、视频投影装置等。

接口606包括允许计算装置600与其他系统、装置或者计算环境进行交互的各种接口。示例的接口606可包括任意数量的不同网络接口620，该网络接口620例如为到局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线网络以及互联网的接口。其他接口包括用户界面618和外围设备接口622。接口606还可包括一个或多个用户界面元件618。接口606还可包括一个或多个外围接口(例如用于打印机、定位装置(鼠标、触控板或者本领域普通技术人员现在已知的或以后发现的任何适合的用户界面)、键盘等的接口)。

总线612允许处理器602、存储器604、接口606、大容量存储装置608以及I/O装置610互相通信，也允许其与连接到总线612的其他装置或者部件进行通信。总线612表示几种类型的总线结构的一种或多种(例如，系统总线、外设部件互连(Peripheral ComponentInterconnect，PCI)总线、IEEE(Institute of Electrical and Electronic Engineers，电气与电子工程师协会)总线、USB(Universal Serial Bus，通用串行总线)总线等)。

为了举例说明的目的，程序和其他可执行程序部件在本文中显示为独立的框，尽管应当理解的是这样的程序和部件可能在不同时间驻留在计算装置600的不同存储部件中并且由处理器602来执行。可供选择地，本文中所述的系统和程序可在硬件或者硬件、软件和/或固件的组合中实现。例如，一个或多个专用集成电路(application specificintegrated circuit，ASIC)可编程为执行本文中所述的一个或多个系统和程序。

示例

以下示例涉及进一步的实施例。

示例1为包括利用一个或多个神经网络来确定指示对象或特征的存在的第一传感器帧的输出的方法。该方法包括前馈第一传感器帧的输出作为用于处理第二传感器帧的输入。该方法包括基于第一传感器帧的输出来确定指示对象或特征的存在的第二传感器帧的输出。

在示例2中，如示例1中的前馈第一传感器帧的输出包括利用输出层与一个或多个神经网络的一个或多个层之间的环式联系来进行前馈。

在示例3中，如示例1至2的任一示例中的一个或多个神经网络包括包含输入层、一个或多个隐藏层以及分类层的神经网络。前馈第一传感器帧的输出包括在处理第二传感器帧期间将分类层的输出馈送到以下所列的一个或多个中：输入层或者一个或多个隐藏层中的一个隐藏层。

在示例4中，如示例1至3的任一示例中的确定第一传感器帧和第二传感器帧的输出包括确定第一传感器帧和第二传感器帧的多个子区域的输出，其中前馈第一传感器帧的多个子区域的输出作为用于确定第二传感器帧的多个子区域的输出的输入。

在示例5中，如示例1至4的任一示例中的确定第一传感器帧和第二传感器帧的多个子区域的输出包括确定传感器帧的不同大小的子区域的输出以检测不同大小的特征或对象。

在示例6中，如示例1至5的任一示例中的第一传感器帧和第二传感器帧的输出各自包括以下所列的一项或多项：检测到的对象或特征的类型的指示或者对象或特征的位置的指示。

在示例7中，如示例1至6的任一示例中的方法进一步包括基于检测到的对象或特征来确定驾驶操作。

在示例8中，如示例1至7的任一示例中的方法进一步包括训练一个或多个神经网络以利用来自早先的帧的输出来生成基于随后的传感器帧的数据的输出。

示例9为包括传感器部件的系统，该传感器部件配置成获取多个传感器帧，其中多个传感器帧包括随着时间的推移捕捉到的一系列传感器帧。该系统包括检测部件，该检测部件配置成利用神经网络来检测传感器帧内的对象或特征。神经网络包括环式联系，该环式联系将在第一传感器帧中检测到的对象的指示前馈到神经网络中的一个或多个层中以用于随后的第二传感器帧。

在示例10中，示例9的神经网络包括输入层、一个或多个隐藏层以及分类层，其中环式联系在处理第二传感器帧期间将分类层的输出馈送到以下所列的一个或多个中：输入层或者一个或多个隐藏层中的一个隐藏层。

在示例11中，如示例9至10的任一示例中的检测部件利用神经网络来确定第一传感器帧和第二传感器帧的多个子区域的输出。利用包括该环式联系的多个环式联系来前馈第一传感器帧的多个子区域的输出作为用于确定第二传感器帧的多个子区域的输出的输入。

在示例12中，如示例11中的检测部件通过确定传感器帧的不同大小的子区域的输出以检测不同大小的特征或对象来确定第一传感器帧和第二传感器帧的多个子区域的输出。

在示例13中，如示例9至12的任一示例中的检测部件利用神经网络来确定检测到的对象或特征的类型的指示或者对象或特征的位置的指示的一项或多项。

示例14为存储指令的计算机可读存储介质，该指令在由一个或多个处理器执行时使一个或多个处理器获取多个传感器帧，其中多个传感器帧包括随着时间的推移捕捉到的一系列传感器帧。该指令使一个或多个处理器利用神经网络来检测传感器帧内的对象或特征。神经网络包括环式联系，该环式联系将在第一传感器帧中检测到的对象的指示前馈到神经网络中的一个或多个层中以用于随后的第二传感器帧。

在示例15中，示例14的神经网络包括输入层、一个或多个隐藏层以及分类层。环式联系在处理第二传感器帧期间将分类层的输出馈送到以下所列的一个或多个中：输入层或者一个或多个隐藏层中的一个隐藏层。

在示例16中，如示例14至15的任一示例中的指令使一个或多个处理器利用神经网络来确定第一传感器帧和第二传感器帧的多个子区域的输出。利用包括该环式联系的多个环式联系来前馈第一传感器帧的多个子区域的输出作为用于确定第二传感器帧的多个子区域的输出的输入。

在示例17中，如示例16中的指令使一个或多个处理器通过确定传感器帧的不同大小的子区域的输出以检测不同大小的特征或对象来确定第一传感器帧和第二传感器帧的多个子区域的输出。

在示例18中，如示例14至17的任一示例中的指令使一个或多个处理器输出检测到的对象或特征的类型的指示或者对象或特征的位置的指示的一项或多项。

在示例19中，如示例14至18的任一示例中的指令包括进一步使一个或多个处理器基于检测到的对象或特征来确定驾驶操作。

在示例20中，如示例14至19的任一示例中的第一传感器帧和随后的第二传感器帧包括图像数据、激光雷达数据、雷达数据以及红外图像数据中的一种或多种。

示例21为包括用于实施方法或实现示例1至20的任一示例中的系统或设备的装置的系统或装置。

在以上公开中，已参考构成本发明一部分的附图，并且在附图中通过举例说明的方式示出了可实践本发明的具体实施方式。应该理解的是，可利用其他实施方式，并且在不脱离本发明的范围的情况下可做出结构变化。说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用表明所述的实施例可包括特定特征、结构或者特点，但是每个实施例可不必包括该特定特征、结构或者特点。而且，这种措词未必指的是相同的实施例。进一步地，当与实施例有关地描述特定特征、结构或者特点时，主张的是，不论是否做出明确的描述，影响与其他实施例有关的该特征、结构或者特点是在本领域技术人员的认知内。

本文中所公开的系统、装置以及方法的实施方式可包括或者利用包括计算机硬件的专用或者通用计算机，比如，像本文中所讨论的，该计算机硬件为例如一个或多个处理器和系统存储器。本发明范围内的实施方式还可包括用于携带或者存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。该计算机可读介质可为能够由通用或者专用计算机系统来存取的任何可用的介质。存储计算机可执行指令的计算机可读介质为计算机存储介质(装置)。携带计算机可执行指令的计算机可读介质为传输介质。因此，通过举例并且不受限制的方式，本发明的实施方式可包括至少两种明显不同类型的计算机可读介质：计算机存储介质(装置)和传输介质。

计算机存储介质(装置)包括随机存取存储器(Random-Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory，EEPROM)、光盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)、固态驱动器(Solid State Drive，“SSD”)(例如，基于随机存取存储器)、闪速存储器、相变存储器(Phase-Change Memory，“PCM”)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或者其他磁性存储装置，或者能够用来存储计算机可执行指令或者数据结构形式的期望程序代码手段并且能够由通用或者专用计算机来存取的任何其他介质。

本文中所公开的装置、系统以及方法的实施方式可通过计算机网络进行通信。“网络”定义为能够实现电子数据在计算机系统和/或模块和/或其他电子装置之间进行传输的一条或多条数据链路。当通过网络或者另外的通信连接(硬连线、无线或者硬连线或无线的结合)向计算机传递或者提供信息时，该计算机将该连接适当地视为传输介质。传输介质可包括网络和/或数据链路，其能够用来携带计算机可执行指令或者数据结构形式的期望程序代码手段并且能够由通用或者专用计算机来存取。以上所述的组合也应该包含在计算机可读介质的范围内。

计算机可执行指令包括例如当在处理器执行时使通用计算机、专用计算机或者专用处理装置执行某个功能或者功能组的指令和数据。计算机可执行指令可为例如二进制数、中间格式指令(例如汇编语言)乃至源代码。尽管以特定于结构特征和/或方法动作的语言描述了本发明的主题，但是应该理解的是，所附权利要求中限定的主题未必受限于上文描述的所述特征或者动作。相反，所述特征和动作被公开为实施权利要求的示例形式。

本领域的技术人员将领会的是，可在具有多种计算机系统配置的网络计算环境中实践本发明，该计算机系统配置包括内置式车辆计算机、个人计算机、台式计算机、膝上型计算机、消息处理器、手持式装置、多处理器系统、基于微处理器的或者可编程的消费电子产品、网络个人计算机(Personal Computer，PC)、小型计算机、大型计算机、移动电话、个人数字助理(Personal Digital Assistant，PDA)、平板电脑、寻呼机、路由器、交换机、各种存储装置等。还可在分布式系统环境中实践本发明，在该分布式系统环境中，经由网络(通过硬连线数据链路、无线数据链路或者通过硬连线数据链路和无线数据链路的结合)连接起来的本地和远程计算机系统都执行任务。在分布式系统环境中，程序模块可位于本地和远程存储装置中。

进一步地，在适当的情况下，本文中所述的功能可在硬件、软件、固件、数字部件或者模拟部件的一个或多个中执行。例如，一个或多个专用集成电路(application specificintegrated circuit，ASIC)可编程为实现本文中所述的一个或多个系统和程序。某些术语在说明书和权利要求书中始终用来指特定的系统部件。术语“模块”和“部件”以某些部件的名义用来反映它们在软件、硬件、电路、传感器等中的实施独立性。如本领域的技术人员将领会的，可用不同的名称指称部件。本文并非意在区分名称不同而不是功能不同的部件。

应该注意的是，上文所讨论的传感器实施例可包括用来执行其至少一部分功能的计算机硬件、软件、固件或其任意组合。例如，传感器可包括配置成在一个或多个处理器中执行的计算机代码，并且可包括由该计算机代码控制的硬件逻辑/电气电路。本文中提供这些示例装置的目的是为了举例说明，而非意在做出限制。如相关技术领域的技术人员将已知的，本发明的实施例可在更多类型的装置中实现。

本发明的至少一些实施例是针对包括存储在任何计算机可用介质上的这种逻辑(例如，以软件的形式)的计算机程序产品。当在一个或多个数据处理装置中执行时，这种软件使装置像本文中描述的那样运行。

虽然上文已描述了本发明的各种实施例，但是应该理解的是，这些实施例只是通过示例的方式来呈现，而并非是限制性的。对相关技术领域的技术人员而言，将显而易见的是，在不脱离本发明的精神和范围的情况下，能够对本发明做出各种形式和细节上的改变。因此，本发明的广度和范围不应该受到上述任何示范性实施例的限制，而是应该只根据如下权利要求及其等同范围来限定。呈现前文的描述是为了阐述和说明。其并非意在穷举或者将本发明限制成所公开的确切形式。根据上文的教导可做出很多修改和变化。进一步地，应该注意的是，可通过期望用来形成本发明额外的混合实施方式的任何组合来使用任何或者所有前述替代实施方式。

进一步地，尽管已描述和举例说明了本公开的具体实施方式，但是本公开将不限于如此描述和举例说明的部件的具体形式或设置。本公开的范围将由本文所附的权利要求、本文和不同申请中提交的任何将来的权利要求及其等同范围来限定。

Claims

1.一种方法，包括：

前馈所述第一传感器帧的所述输出作为用于处理第二传感器帧的输入；以及

基于所述第一传感器帧的所述输出来确定指示对象或特征的存在的所述第二传感器帧的输出。

2.根据权利要求1所述的方法，其中所述方法包括以下所列的一项或多项：

前馈所述第一传感器帧的所述输出包括：利用输出层与所述一个或多个神经网络的一个或多个层之间的环式联系来进行前馈；

所述一个或多个神经网络包括包含输入层、一个或多个隐藏层以及分类层的神经网络，其中前馈所述第一传感器帧的所述输出包括：在处理所述第二传感器帧期间将所述分类层的输出馈送到以下所列的一个或多个中：所述输入层或者所述一个或多个隐藏层中的一个隐藏层；

确定所述第一传感器帧和所述第二传感器帧的所述输出包括：确定所述第一传感器帧和所述第二传感器帧的多个子区域的输出，其中前馈所述第一传感器帧的所述多个子区域的所述输出作为用于确定所述第二传感器帧的所述多个子区域的所述输出的输入；以及

确定所述第一传感器帧和所述第二传感器帧的所述多个子区域的所述输出包括：确定所述传感器帧的不同大小的子区域的输出以检测不同大小的特征或对象。

3.根据权利要求1所述的方法，其中所述第一传感器帧和所述第二传感器帧的所述输出各自包括以下所列的一项或多项：

检测到的对象或特征的类型的指示；或者

所述对象或所述特征的位置的指示。

4.根据权利要求1所述的方法，进一步包括基于检测到的对象或特征来确定驾驶操作。

5.根据权利要求1所述的方法，进一步包括训练所述一个或多个神经网络以利用来自早先的帧的输出来生成基于随后的传感器帧的数据的输出。

6.一种系统，包括：

传感器部件，所述传感器部件配置成获取多个传感器帧，其中所述多个传感器帧包括随着时间的推移捕捉到的一系列传感器帧；以及

检测部件，所述检测部件配置成利用神经网络来检测传感器帧内的对象或特征，其中所述神经网络包括环式联系，所述环式联系将在第一传感器帧中检测到的对象的指示前馈到所述神经网络中的一个或多个层中以用于随后的第二传感器帧。

7.根据权利要求6所述的系统，其中所述神经网络包括输入层、一个或多个隐藏层以及分类层，其中所述环式联系在处理所述第二传感器帧期间将所述分类层的输出馈送到以下所列的一个或多个中：所述输入层或者所述一个或多个隐藏层中的一个隐藏层。

8.根据权利要求6所述的系统，其中所述检测部件执行以下所列的一项或多项操作：

利用所述神经网络来确定所述第一传感器帧和所述第二传感器帧的多个子区域的输出，其中利用包括所述环式联系的多个环式联系来前馈所述第一传感器帧的所述多个子区域的所述输出作为用于确定所述第二传感器帧的所述多个子区域的所述输出的输入；以及

通过确定所述传感器帧的不同大小的子区域的输出以检测不同大小的特征或对象来确定所述第一传感器帧和所述第二传感器帧的所述多个子区域的所述输出。

9.根据权利要求6所述的系统，其中所述检测部件利用所述神经网络来确定以下所列的一项或多项：

检测到的对象或特征的类型的指示；或者

所述对象或所述特征的位置的指示。

10.一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行以下所列的操作：

获取多个传感器帧，其中所述多个传感器帧包括随着时间的推移捕捉到的一系列传感器帧；以及

利用神经网络来检测传感器帧内的对象或特征，其中所述神经网络包括环式联系，所述环式联系将在第一传感器帧中检测到的对象的指示前馈到所述神经网络中的一个或多个层中以用于随后的第二传感器帧。

11.根据权利要求10所述的计算机可读存储介质，其中所述神经网络包括输入层、一个或多个隐藏层以及分类层，其中所述环式联系在处理所述第二传感器帧期间将所述分类层的输出馈送到以下所列的一个或多个中：所述输入层或者所述一个或多个隐藏层中的一个隐藏层。

12.根据权利要求10所述的计算机可读存储介质，其中所述指令使所述一个或多个处理器利用所述神经网络来确定所述第一传感器帧和所述第二传感器帧的多个子区域的输出，其中利用包括所述环式联系的多个环式联系来前馈所述第一传感器帧的所述多个子区域的所述输出作为用于确定所述第二传感器帧的所述多个子区域的所述输出的输入。

13.根据权利要求12所述的计算机可读存储介质，其中所述指令使所述一个或多个处理器通过确定所述传感器帧的不同大小的子区域的输出以检测不同大小的特征或对象来确定所述第一传感器帧和所述第二传感器帧的所述多个子区域的所述输出。

14.根据权利要求10所述的计算机可读存储介质，其中所述指令使所述一个或多个处理器输出以下所列的一项或多项：

检测到的对象或特征的类型的指示；或者

所述对象或所述特征的位置的指示。

15.根据权利要求10所述的计算机可读存储介质，其中所述指令进一步使所述一个或多个处理器基于检测到的对象或特征来确定驾驶操作；或者其中所述第一传感器帧和随后的所述第二传感器帧包括图像数据、激光雷达数据、雷达数据以及红外图像数据中的一种或多种。