CN107527092B

CN107527092B - 使用听觉数据训练用于碰撞躲避的算法

Info

Publication number: CN107527092B
Application number: CN201710427219.3A
Authority: CN
Inventors: 艾希莉·伊丽莎白·米克斯; 吉内什·J·杰恩; 韩正圭; 哈珀丽特辛格·班瓦伊特
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2016-06-15
Filing date: 2017-06-08
Publication date: 2023-05-05
Anticipated expiration: 2037-06-08
Also published as: US10055675B2; CN107527092A; MX2017007817A; RU2017120682A; GB2552885A; GB201709380D0; US20170364776A1; DE102017112992A1

Abstract

通过限定包括车辆模型和典型驾驶环境的场景，来训练机器学习模型。将主体车辆模型加入到场景并且在主体车辆上限定传感器位置。模拟在传感器位置通过传感器进行的场景感知。场景还包括发动机运行的停泊车辆的模型。将停泊车辆的位置和感知场景的传感器的模拟输出输入到机器学习算法，机器学习算法训练模型来根据传感器输出探测停泊车辆的位置。车辆控制器之后与机器学习模型结合并且根据输入到机器学习模型的实际传感器输出来估算发动机运行的停泊车辆的存在和/或位置。

Description

使用听觉数据训练用于碰撞躲避的算法

技术领域

本发明涉及在自主车辆中执行障碍躲避。

背景技术

自主车辆装备有探测其周边环境的传感器。算法评估传感器的输出并且识别障碍。然后导航系统可以操纵车辆转向、制动和/或加速，从而既躲避识别的障碍物又到达期望的目的地。传感器可以既包括成像系统(如视频摄像机)又包括雷达(RADAR)或激光雷达(LIDAR，Light Detection And Ranging)传感器。

本申请文件公开的系统和方法提供了一种用于探测障碍的改善途径。

发明内容

根据本发明，提供一种方法，包含：

通过计算机系统限定三维(3D)模型；

通过计算机系统根据从发动机运行的停泊车辆传入到三维模型中主体车辆的两个或多个传感器位置的声音来模拟两个或多个传感器输出；和

通过计算机系统使用三维模型中停泊车辆的位置和两个或多个传感器输出来训练机器学习模型。

根据本发明的一个实施例，还包含：

在主体车辆上限定一个或多个摄像机位置；

模拟在一个或多个摄像机位置的图像探测；和

使用图像和两个或多个传感器输出来训练机器学习模型。

根据本发明的一个实施例，还包含：

在主体车辆上限定雷达传感器位置；

根据三维模型模拟雷达传感器输出；和

使用图像、雷达传感器输出和两个或多个传感器输出中的全部来训练机器学习模型。

根据本发明的一个实施例，还包含：

在主体车辆上限定激光雷达传感器位置；

模拟从三维模型的激光雷达传感器位置探测的点云序列；和

使用图像、雷达传感器输出、点云序列和两个或多个传感器输出中的全部来训练机器学习模型。

根据本发明的一个实施例，其中限定三维模型还包括在停泊车辆和主体车辆之间限定多个居间车辆。

根据本发明的一个实施例，其中机器学习模型是深度神经网络。

根据本发明的一个实施例，其中根据多个车辆传入到两个或多个传感器位置的声音来模拟两个或多个传感器输出，包含模拟从停泊车辆的发动机，到围绕停泊车辆和主体车辆之间的一个或多个居间车辆，并且传入主体车辆的声音传播。

根据本发明的一个实施例，其中将停泊车辆建模为发出对应于运行的车辆发动机的声音的车辆。

根据本发明的一个实施例，还包含：

提供包括车辆控制器和两个或多个麦克风的车辆；

通过机器学习模型编程车辆控制器；

通过车辆控制器接收来自两个或多个麦克风的两个或多个音频流；

通过车辆控制器将两个或多个音频流输入到机器学习模型；

(a)通过车辆控制器确定机器学习模型表明两个或多个音频流当前指示存在发动机运行的实际停泊车辆；

响应于(a)，而关于实际停泊车辆的潜在路径执行障碍躲避。

根据本发明的一个实施例，还包含：

(b)在(a)之后，通过车辆控制器确定机器学习模型表明两个或多个音频流没有指示第二实际停泊车辆的发动机在运行；

响应于(b)，避免关于第二实际停泊车辆的潜在路径执行障碍躲避。

根据本发明，提供一种系统，包含一个或多个处理器和连接到一个或多个处理器的一个或多个存储装置，一个或多个存储装置存储用于进行以下操作的可执行代码：

限定三维模型，三维模型包括停车区域和多个不动的停泊车辆、运行的停泊车辆和位于停车区域中的主体车辆，主体车辆包括两个或多个传感器位置；

根据从运行的停泊车辆传入到两个或多个传感器位置的声音来模拟两个或多个传感器输出；和

使用不动的停泊车辆的位置和随着时间变化的两个或多个传感器输出来训练机器学习模型；

根据本发明的一个实施例，其中可执行代码还用于使一个或多个处理器进行以下操作：

在主体车辆上限定一个或多个摄像机位置；

模拟在一个或多个摄像机位置的图像探测；和

使用图像和两个或多个传感器输出二者训练机器学习模型。

在主体车辆上限定雷达传感器位置；

根据三维模型模拟雷达传感器输出；和

在主体车辆上限定激光雷达传感器位置；

模拟从三维模型的激光雷达传感器位置探测的点云序列；和

使用图像、雷达传感器输出、点云序列和两个或多个传感器输出中的全部来训练所述机器学习模型。

根据本发明的一个实施例，其中可执行代码还用于使一个或多个处理器限定在停泊车辆和主体车辆之间限定有多个居间车辆的三维模型。

根据本发明的一个实施例，其中可执行代码还用于使一个或多个处理器根据多个车辆传入到两个或多个传感器位置的声音，通过模拟多普勒效应和声音的传播距离来模拟两个或多个传感器输出。

根据本发明的一个实施例，其中可执行代码还用于使一个或多个处理器将停泊车辆建模为发出对应于运行车辆发动机声音的车辆。

根据本发明的一个实施例，还包含包括车辆控制器和两个或多个麦克风的车辆；

其中车辆控制器被编程有机器学习模型；

其中车辆控制器还编程为：

接收来自两个或多个麦克风的两个或多个音频流；

将两个或多个音频流输入到机器学习模型；

如果机器学习模型表明两个或多个音频流当前指示发动机运行

的实际停泊车辆，则关于实际停泊车辆的潜在路径执行障碍躲避。

根据本发明的一个实施例，还包含：

如果机器学习模型表明两个或多个音频流当前没有指示存在发动机运行的实际停泊车辆，则进行避免通过车辆控制器输出警报和许可、与避免关于实际停泊车辆的潜在路径执行障碍躲避中至少一个。

附图说明

为容易理解本发明的益处，将参考附图中所示的具体实施例来对以上简要描述的本发明进行更具体说明。应该了解，这些附图仅描述了本发明的典型实施例，因此不应认为是对其范围的限制，通过使用附图，用额外的明确性和细节来描述和解释本发明，图中：

图1是根据本发明实施例的用于实现训练算法的系统的示意框图；

图2是包括结合有根据本发明实施例训练的模型的车辆的示意框图；

图3是适于实现根据本发明实施例的方法的示例计算装置的示意框图；

图4是根据本发明实施例的用于训练探测发动机运行的车辆的模型的方法的过程流程图；

图5A和5B是根据本发明实施例的用于训练模型的场景的示意图；

图6是用于使用听觉数据完成障碍探测的部件的示意框图；

图7是根据本发明实施例的基于听觉数据实现碰撞躲避的方法的过程流程图。

具体实施方式

应该容易理解是，总体上描述的和本申请文件附图所示的本发明的部件能够设置和设计为各种不同的形态。因此，如附图所示，对本发明的实施例的如下更详细的描述，并不旨在限制本发明所要求保护的范围，而是仅根据本发明对当前构思实施例的某些示例进行描述。通过参考附图将对当前描述的实施例进行最好地理解，其中相同的部件始终由相同的附图标记表示。

根据本发明的实施例可以具体为装置、方法或计算机程序产品。因此，本发明可以采用完全硬件实施例、完全软件实施例(包括固件、常驻软件或微代码等)的形式，或可以采用本文中总体上提及为“模块”或“系统”的结合软件和硬件方面的实施例。此外，本发明可以采用体现在任何实体介质中具有计算机可用程序代码的表达的计算机程序产品的形式，计算机可用程序代码在介质中体现。

可以使用一个或多个计算机可用或计算机可读介质的任何组合。例如，计算机可读介质可以包括一个或多个便携式计算机软盘、硬盘、随机存取存储器(RAM)装置、只读存储器(ROM)装置、可擦除可编程只读存储器(EPROM或闪速存储器)装置、便携式只读光盘存储器(CDROM)、光存储设备和磁性存储设备。在所选择的实施例中，计算机可读介质可以包含任何非暂时介质，该非暂时介质能容纳、存储、传送、传播或输送由指令执行系统、设备或装置使用或与指令执行系统、设备或装置关联的程序。

用于执行本发明操作的计算机程序代码可以采用一种或多种编程语言的任何组合来编写，包括面向对象编程语言(如Java、Smalltalk、C++等)和常规程序性编程语言(如“C”编程语言或类似的编程语言)。程序代码可以作为独立软件包完全在计算机系统上执行、在独立的硬件单元上执行、部分在与该计算机间隔一定距离的远程计算机上执行、或完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型的网络连接到计算机，或者远程计算机可以通过设置到外部计算机的连接(例如，通过使用互联网服务提供商的互联网)来连接到计算机。

下面参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述本发明。应该理解的是，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机程序指令或代码来实现。可以将这些计算机程序指令提供给通用计算机或专用计算机的处理器或者其他可编程数据处理设备来生产机器，使得经由计算机的处理器或其他可编程数据处理设备执行的指令产生用于实现流程图和/或框图的一个或多个框中规定的功能/动作的手段。

这些计算机程序指令还可以存储在非暂时的计算机可读介质中，该计算机可读介质可以引导计算机或其他可编程数据处理设备以特定方式工作，使得存储在计算机可读介质中的指令产生包括实现流程图和/或框图的一个或多个框中规定的功能/动作的指令手段的产品。

还可以将计算机程序指令加载到计算机或其他可编程数据处理设备上，使一系列操作步骤在计算机或其他可编程设备上执行来产生计算机实现的过程，使得在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图的一个或多个框中规定的功能/动作的过程。

参考图1，网络环境100可以包括可以托管或访问数据库104的服务器系统102，数据库104包括足以限定用于探测系统训练的场景的数据。具体地，数据库104可以存储包括车辆的几何结构数据108a的车辆模型106a，车辆的几何结构数据108a例如是车身、轮胎和车辆的任何其他可视特征的形状。几何结构数据108a还可以包括如硬度或材料类型的材料数据。车辆模型106a还可以包括声音配置文件108b，声音配置文件108b包括车辆在某种情况(如怠速、发动机启动、停止后的开始移动、以不同速度移动和以不同速度在不同加速度水平下移动)下产生的音频文件或声音的其他数据参数。车辆模型106a还可以包括指示车辆的操作限制(如转弯半径、加速度分布(如从静止开始的最大加速度)等)的动力模型108c。车辆模型106a可以基于实际的车辆，并且场地108a-108c可以使用从测量实际车辆获得的数据被填充。

在一些实施例中，数据库104可以存储有用于结合有一个或多个用于障碍探测的传感器的车辆的车辆模型106a。如下所述，可以将这些传感器的输出输入到使用数据库104的模型训练的模型。因此，车辆模型106b此外可以包括传感器模型108d，传感器模型108d指示车辆上传感器位置、传感器的方向和传感器的一个或多个描述符。例如，对于麦克风，传感器模型108d可以包括增益、信号噪声比、灵敏度分布(灵敏度对频率)等。对于摄像机，传感器模型108d可以包括视野、分辨率、缩放、帧速率或摄像机的其他操作限制。对于雷达或激光雷达传感器，传感器模型108d可以包括分辨率、视野和系统的扫描速率。

数据库104可以包括环境模型106c，环境模型106c包括各种地形的模型，如露天停车场、室内停车场、带有交叉口的城市街道、建筑物、行人、树木等这样的模型。模型可以限定地形中物体的几何结构和位置，并且还可以包括其他方面，如激光、雷达、声音、光等的反射率，以便能模拟传感器对物体的探知。

数据库104可以存储机器学习模型110。可以根据本文描述的方法用模型106a-106c训练机器学习模型110。机器学习模型110可以是深度神经网络、贝叶斯(Bayesian)网络或其他类型的机器学习模型。

服务器系统102可以执行训练引擎112。训练引擎112可以包括场景模块114a。场景模块114a可以检索模型106a-106c并且生成各种停泊情况(露天停车场、室内停车场、停在街道上)中以各种相互关系停放的车辆的场景模型，该场景还可以限定围绕停泊车辆移动或者移进或移出停车位的一个或多个车辆的模型。场景模块114a可以手动生成这些场景，或者接收指定车辆的初始位置、车辆的速度等的人为输入。在一些实施例中，可以基于视频或实际位置的其他测量(如区域观测、该区域停泊车辆的位置、该区域中车辆的移动、该区域其他物体的位置等)来建模场景。

训练引擎112可以包括传感器模拟模块114b。具体地，对于场景和包括在包括有传感器模型数据108d的场景中的车辆，通过传感器感知的场景可以被如下文更详细描述的传感器模拟模块114b模拟。

训练引擎112可以包括机器学习模块114c。机器学习模块114c可以训练机器学习模型110。例如，可以将机器学习模型110训练为通过输入模拟传感器输出以及场景中发动机运行的停泊车辆模型的位置和作为发动机运行的停泊车辆的分类，来识别发动机运行的停泊车辆及其位置(在一些实施例中)。具体地，可以提供传感器输出作为输入数据组，和可以为输入数据组提供车辆运行的停泊车辆的分类作为期望输出。在一些实施例中，还可以为输入数据组提供发动机运行的停泊车辆的相对位置作为期望输出。

参考图2，控制器202可以容纳在车辆中。车辆可以包括现有技术已知的任何车辆。车辆可以具有任何现有技术已知的车辆的所有结构和特征，包括车轮、连接到车辆的传动系、连接到传动系的发动机、转向系统、制动系统和其他现有技术已知的包括在车辆中的系统。

如本文更详细地讨论，控制器202可以执行自动导航和躲避碰撞。具体地，可以分析图像数据和音频数据来识别障碍。具体地，音频数据可以用于识别如下面关于图6和7详细描述的不在一个或多个摄像机或其他成像传感器的视野内的车辆。

控制器202可以接收来自一个或多个成像装置204的图像流。例如，可以将一个或多个摄像机安装在车辆上并且可以输出由控制器202接收的图像流。控制器202可以从一个或多个麦克风206接收一个或多个音频流。例如，可以将一个或多个麦克风或麦克风阵列安装到车辆上并且可以输出由控制器202接收的音频流。麦克风206可以包括具有随角度变化的灵敏度的定向麦克风。

控制器202可以执行接收图像流和音频流并且识别可能的障碍并且采取措施来躲避障碍的碰撞躲避模块208。可以用如雷达(RADAR，Radio Detection and Ranging)、激光雷达(LIDAR，Light Detection and Ranging)、声纳(SONAR，Sound Navigation andRanging)等的其他成像装置204来探测障碍。因此，控制器202接收的“图像流”可以包括以下一个或二者：摄像机探测的视觉图像；以及使用一个或多个其他传感器装置感测的物体和拓扑结构。然后控制器202可以分析图像和感测的物体和拓扑结构，以便识别潜在障碍。

碰撞躲避模块208可以包括音频探测模块210a。音频探测模块210a可以包括编程为处理一个或多个音频流以便识别可能对应于车辆的特征的音频预处理模块212a。音频探测模块210a还可以包括机器学习模块212b，机器学习模块212b实现评估来自预处理模块212a的处理过的音频流中的特征并且尝试将音频特征分类的模型。机器学习模块212b可以输出指示分类正确的可能性的置信度分数。下面关于图7的方法700来更加具体地描述音频探测模块210a的模块212a、212b的功能。

音频探测模块210a还可以包括图像关联模块212c，图像关联模块212c编程为评估来自一个或多个成像装置204的图像输出并且尝试识别图像数据中到对应车辆的声音来源的估算方向上的角度公差内的车辆，例如在运行但没有移动的停泊车辆。如果指示车辆在角度公差内，那么声音对应车辆的置信度是增加的。

音频探测模块210a还可以包括地图关联模块212d。地图关联模块212d评估地图数据来确定停车位、车道或其他停车区域是否位于到对应发动机运行的车辆的声音来源的方向上的角度公差内，具体的，该发动机运行的车辆是停泊的车辆。如果这样，那么声音对应发动机运行的停泊车辆的置信度是增加的。

碰撞躲避模块208还可以包括障碍识别模块210b、碰撞预测模块210c和决策模块210d。障碍识别模块210b分析一个或多个图像流并且识别潜在的障碍，包括人、动物、车辆、建筑物、路缘以及其他物体和结构。具体地，障碍识别模块210b可以在图像流中识别车辆图像。

碰撞预测模块210c根据车辆当前的轨迹或当前计划的路径预测有可能与车辆碰撞的障碍图像。碰撞预测模块210c可以评估与通过障碍识别模块210b识别的物体和用音频探测模块210a探测的障碍碰撞的可能性。具体地，可以将音频探测模块210a识别为高于阈值置信度的发动机运行的车辆加入到一组潜在障碍中，具体是这样车辆的潜在移动。决策模块210d可以做出停止、加速、转向等的决定，便于躲避障碍。碰撞预测模块210c预测潜在碰撞的方式和决策模块210d采取避免潜在碰撞的行动的方式可以依照现有技术中的自主车辆已知的任何方法或系统。

决策模块210d可以通过致动一个或多个控制车辆的方向和速度的致动器214来控制车辆的轨迹。例如，致动器214可以包括转向致动器216a、加速器致动器216b和制动致动器216c。致动器216a-216c的配置可以按照现有技术中的自主车辆已知的任何致动器实现。

控制器202可以是能够使用网络的并且通过网络218检索信息。例如，可以从服务器系统222访问地图数据220，以便识别在容纳有控制器202的自主车辆附近的潜在停车空间。

图3是示出示例计算装置300的框图。可以用计算装置300执行如本文讨论的各种程序。服务器系统102和控制器202可以具有计算装置300的一些或所有的属性。

计算装置300包括一个或多个处理器302、一个或多个存储装置304、一个或多个接口306、一个或多个大容量存储装置308、一个或多个输入/输出(I/O)装置310和显示装置330，所有这些装置都连接到总线312。处理器302包括一个或多个处理器或控制器，处理器或控制器执行存储在存储装置304或大容量存储装置308中的指令。处理器302还可以包括如高速缓存的各种类型计算机可读介质。

存储装置304包括各种计算机可读介质，例如易失性存储器(如随机存取存储器(RAM)314)和/或非易失性存储器(如只读存储器(ROM)316)。存储装置304还可以包括如闪存的可重写只读存储器。

大容量存储装置308包括各种计算机可读介质，例如磁带、磁盘、光盘、固态存储器(如闪存)等等。如图3所示，具体的大容量存储装置308是硬盘驱动器324。在大容量存储装置308中还可以包括各种驱动器，从而能对各种计算机可读介质进行读取和/或写入操作。大容量存储装置308包括可移动介质326和/或不可移动介质。

输入/输出装置310包括允许将数据和/或其他信息输入到计算装置300，或者从计算装置300检索数据和/或其他信息的各种装置。示例的输入/输出装置310包括光标控制装置、键盘、键板、麦克风、显示器或其他显示设备、扬声器、打印机、网络接口卡、调制解调器、镜头、CCD(电荷耦合器件)或其他图像捕获装置等等。

显示装置330包括能将信息显示给计算装置300的一个或多个使用者的任何类型装置。显示装置330的示例包括显示器、显示终端、视频投影装置等。

接口306包括允许计算装置300与其他系统、装置或计算环境交互的各种接口。示例的接口306包括任何数量的不同网络接口320，如局域网(LAN)接口、广域网(WAN)接口、无线网络和互联网接口。其他接口包括使用者接口318和外围装置接口322。接口306还可以包括一个或多个外围接口，如打印机接口、指点装置(鼠标、触控板等)接口、键盘接口等。

总线312允许处理器302、存储装置304、接口306、大容量存储装置308、输入/输出310和显示装置330之间相互通信以及与允许连接到总线312的其他装置或部件通信。总线312代表几种总线结构(如系统总线、PCI(peripheral component interconnect，外部设备互连)总线、IEEE(Institute of Electrical and Electronics Engineers，美国电气和电子工程师协会)1394总线、USB(Universal Serial Bus，通用串行总线)总线等等)中的一个或多个。

为说明目的，在本文中用离散框显示程序和其他可执行程序部件，然而应该理解的是，这些程序和部件可以在不同时间驻留于计算装置300的不同存储部件中，并且由处理器302执行。可选地，本文描述的系统和程序可以通过硬件或硬件、软件和/或固件的组合实现。例如，一个或多个专用集成电路(ASIC)可以编程为实现本文描述的一个或多个系统或程序。

参考图4，为了训练机器学习模型110，所示方法400可以由服务器系统102执行。方法400可以包括限定402场景模型。例如，如图5A和5B所示，环境模型包括停车区域500，如露天停车场、立体停车场、路边或车辆可以停泊的其他区域。停车区域500可以与放置在停车区域500的停车位中的车辆502模型结合。模型还包括发动机运行的并且因此可以出乎意料地开始移动的车辆504模型。场景模型还可以限定停泊车辆504在场景模型演示期间起动的加速度。

还可以将主体车辆506放置在模型中并且可以具有从一时间步长到下一时间步长变化的速度和加速度。可以从主体车辆506的观察点模拟通过麦克风、成像装置和/或其他传感器对场景的感知。具体地，可以依照传感器模型108d将成像装置508a-508、麦克风510a、510b和其他传感器512(如激光雷达、雷达、声纳)的位置和方向限定在主体车辆506上。

在所示示例中，主体车辆506和车辆502、504是停泊的。然而，主体车辆506还可以建模为相对于停泊车辆502、504(见虚线表示514)移动。其他未停泊的车辆(见虚线表示516)可以包括在场景中，当场景演示时，车辆516的移动和加速度被建模。

方法400可以包括演示404场景模型动态。具体地，模型中的每个车辆502、504、506、514、516可以具有预限定速度或位置配置文件，预限定速度或位置配置文件限定速度和/或配置文件如何随着时间变化。因此，演示404场景模型动态可以包括模拟多个离散时间步长，其中对于每个时间步长，每个车辆502、504、506根据预限定速度或位置配置文件移动到模型中的不同位置。演示404场景模型动态还可以包括模拟来自不同声源的声音的产生和传播，该声源例如是场景模型中发动机运行的停泊车辆504和任何移动车辆514、516。产生的声音还可以包括模拟由于车辆514、516的移动带来的道路噪音和风噪。

方法400还可以包括模拟406场景的传感器感知。例如，对于每个时间步长，可以从特定传感器的观察点捕获模型的状态(如在该时间步长下车辆502、504、506的位置和速度)。具体地，根据主体车辆506上传感器模型108d的传感器位置和限定在传感器模型108d中的传感器的操作性能可以用来模拟传感器输出。

例如，对于每个成像装置，可以生成从主体车辆506上成像装置观察点呈现的场景。对于麦克风，可以模拟在时间步长期间从车辆502、504、506传入到主体车辆上麦克风位置的传入麦克风的声音。模拟声音可以仅包括模拟来自声音来源的行驶时间和任何多普勒(Doppler)效应。

模拟声音还可以包括模拟能抵达麦克风位置的车辆、地面或建筑物的反射。具体地，因为车辆504不可能处在任何摄像机508a-508c或其他传感器512的直线视线中，所以从车辆504到麦克风510a-510d的声音路径也不可能是直线。因此，由于从声音声源到麦克风510a-510d的多重路径，麦克风510a-510d的模拟输出可能包括回声和相位差。多个场景模型优选如此使用，至少场景模型的一部分这样设置：在声音声源(车辆504)与主体车辆506的麦克风510a-510d之间没有光或声音的直达路径。以这种方式，将困难的真实情况纳入考虑。

对于激光雷达传感器，可以模拟来自激光雷达传感器观察点的点云，点云的点是位于场景的环境或车辆502、504、506、514、516的结构点，该结构点在场景模型演示404期间给定时间步长中处在激光雷达传感器的视野中。在一些激光雷达系统中，测量点可以包括三维坐标和反射率值两者。在一些实施例中，模型106a、106b可以包括其外表面的反射率值。因此，对于激光雷达系统的视野中的点云的点，包括每个点的结构的反射率值可以被包括在内。还可以包括各种其他传感器对场景模型的感知。对于雷达或声纳系统，可以为一些或所有时间步长模拟来自场景中的物体和车辆的反射。

相比更新场景模型的时间步长，各种传感器可以具有不同的帧率或扫描率。因此，生成的输出可以比时间步长的数量更多或更少。例如，对于声音，为了精确模拟声音探测而需要采样的数量可能比时间步长更多。因此，可以为每个时间步长进行多重采样。例如，可以将时间步长细分为更小的时间步长并且可以记录通过场景模型传播的并且传入麦克风位置的模拟声音采样。以相似的方式，可以在比时间步长更小或更大的不同时周期模拟来自成像装置的图像、来自激光雷达的点云、来自雷达或声纳的反射。

在步骤406传感器感知的模拟结果可以是传感器输出流，例如一系列图像、音频信号、一组点云、一组在不同时间点上的反射等。可以将传感器输出流输入408到机器学习算法。同样地，可以将作为发动机运行的停泊车辆的车辆分类输入410到机器学习算法。在一些实施例中，也将发动机运行的停泊车辆504的位置作为期望输出输入410到机器学习算法。

例如，对于每个时间步长，可以将针对该时间步长模拟的每个类型传感器的一个或多个传感器输出，输入408到机器学习算法。同样地，可以将在该时间步长的一个或多个车辆504的位置输入到模型，如在场景模型中车辆504在该时间步长下相对车辆506的位置。对于音频信号，时间步长可能太短而不能用于有意义的分析。因此，在步骤408，可以将模拟声音的采样输入408到模型，来用于每个时间步长之前和/或之后的多重时间步长，即包括每个时间步长的时间步长窗口。

然后可以通过针对每个时间步长的传感器输出输入408和在每隔时间步长的车辆504位置更新模型110，以生成412机器学习模型110。机器学习算法训练模型110的方式可以根据任何现有技术已知的机器学习方式实现。同样地，可以将传感器输出以连续方式输入到机器学习算法，而不是作为用于单独时间步长的离散数据组。

方法400的结果是机器学习模型110，训练机器学习模型110来针对数据输入流输出以下至少一个：(a)车辆附近是否感知有发动机运行的停泊车辆，(b)朝向发动机运行的停泊车辆的方向，若存在发动机运行的停泊车辆，和(c)发动机运行的停泊车辆的位置。许多机器学习算法还输出指示模型输出正确可能性是多少的置信度分数。因此，对于(a)-(c)中任一个，置信度分数还可以通过模型输出。

参考图6，麦克风206可以包括多个麦克风206a-206d，麦克风206a-206d可以作为麦克风阵列共同运行，或者麦克风206a-206d中每一个也具体为麦克风阵列。可以将每个麦克风206a-206d的输出信号输入到相应的预处理模块212a-1-212a-4中。还可以通过噪声消除滤波器600a-600d处理每个预处理模块212a-1-212a-4的输出。然后可以将噪声消除滤波器600a-600d的输出输入到机器学习模型212b中。具体地，可以将噪声消除滤波器600a-600d的输出输入到根据以上描述的方法400训练的机器学习模型110中。如上所述，机器学习模型110接收传感器输出，处理传感器输出，并且输出以下至少一个：(a)车辆附近是否感知有发动机运行的停泊车辆，(b)朝向发动机运行的停泊车辆的方向，若存在发动机运行的停泊车辆，和(c)发动机运行的停泊车辆的位置。许多机器学习算法还输出指示模型输出正确可能性是多少的置信度分数。因此，对于(a)-(c)中任一个，置信度分数还可以通过模型输出。

预处理模块212a-1-212a-4可以处理来自麦克风206a-206d的原始输出并且生成处理过的输出，将处理过的输出输入到噪声消除模块600a-600d或直接输入到机器学习模块112b。处理过的输出可以是原始输出的过滤版本，处理过的输出相对于原始输出具有增强音频特征。增强音频特征可以是音段、频段或原始输出中可能与车辆有关的其他组成部分。因此，预处理模块212a-1-212a-4可以包括带通滤波器，带通滤波器使原始输出中对应车辆和车辆发动机产生的声音的频段的部分通过，同时阻断该频段之外的原始输出部分。预处理模块212a-1-212a-4可以是具有选择通过一信号的系数的数字滤波器，该信号具有对应于车辆发动机或其他车辆噪声的频谱内容和/或时间配置文件，如带有实验选择的系数的自适应滤波器，该自适应滤波器使车辆产生的声音通过，同时削弱其他声音。预处理模块212a-1-212a-4的输出可以是时间域信号或频域信号，或者时间域信号与频域信号二者。预处理模块212a-1-212a-4的输出可以包括多重信号，多重信号包括在时间域和频域中一个或两者的信号。例如，可以将使用不同带通滤波器滤波后的信号输出进频域或时间域中。

噪声消除模块600a-600d可以包括现有技术已知的任何噪声消除滤波器或者实现现有技术已知的任何噪声消除的方法。具体地，噪声消除模块600a-600d还可以将以下信息作为输入：结合有控制器202的车辆(以下记作主体车辆)的速度、主体车辆的发动机转速或描述发动机状态的其他信息、主体车辆通风扇的速度或其他信息。噪声消除模块600a-600d使用该信息来移除发动机、风扇导致的噪声和车辆风噪。

机器学习模块212b还可以包括麦克风阵列处理模块602。麦克风阵列处理模块602可以评估来自各种麦克风206a-206d的音频特征的抵达时序，以便评估音频特征源的方向。例如，音频特征可以是噪声消除模块600a-600d的输出中于时间T1、T2、T3和T4开始的车辆声音。因此，知道麦克风206a-206d的相应位置和声音S的速度，可以确定麦克风206a-206d距离声源的距离差，例如D2＝S/(T2-T1)，D3＝S/(T3-T1)，D4＝S/(T4-T1)，其中D2、D3、D4是估算的音频特征相对于参考麦克风行进的距离差，在该示例中参考麦克风是麦克风206a。

例如，可以通过计算Asin(D2/R2)，Asin(D3/R3)和Asin(D4/R4)的平均值来计算到声源的角度A，其中R2是麦克风206a与麦克风206b之间的间隔，R3是麦克风206a与麦克风206c之间的间隔，以及R4是麦克风206a与麦克风206d之间的间隔。这个方法假定声源距离麦克风206a-206d有很大距离，以至于传入的声波可以近似于平面波。也可以使用现有技术中已知的基于不同抵达时间来识别到声音的方向的其他方法。同样地，不是仅确定方向，而是可以估算角度的扇形或范围，即，关于任何估算方向的不确定范围，不确定范围是指使用的方向估算技术的准确性方面的限制。

然后可以提供通过麦克风阵列处理模块404估算的方向以及通过机器学习模型110生成的分类(如作为发动机运行的停泊车辆)和置信度分数以作为来自机器学习模块212b的输出604。在一些实施例中，将机器学习模型110训练为识别发动机运行的停泊车辆及到发动机运行的停泊车辆的方向两者。因此，这样的实施例中，可以省略麦克风阵列处理模块404。

由于麦克风206a-206d中形成有多重音频流，可以如使用GPU(图形处理器，graphics processing unit)或其他并行处理配置来并行处理多重音频流。例如，可以使用GPU或其他并行处理装置来实现预处理模块212a-1-212a-4、噪声消除模块600a-600d和麦克风阵列处理模块602。

在一些实施例中，障碍识别模块210b可以增加具有分类并且定位在距离一组潜在障碍的估算方向上的车辆，该分类是由机器学习模型110确定，一组潜在障碍包括通过如使用成像装置104的其他手段识别的任何障碍。然后碰撞预测模块210c可以执行识别与一组潜在障碍的潜在碰撞，并且决策模块210d之后可以确定要执行的来避免潜在碰撞的动作，如车辆转向、施加制动、加速等。

图7示出了，控制器202通过处理来自麦克风206a-206d的音频信号而实现的方法700。方法700可以包括接收702音频信号并且预处理704这些音频信号来增强音频特征，音频信号表示用麦克风206a-206d探测的声音。这可以包括实现以上关于预处理模块212a-1-212a-4描述的任何过滤功能。具体地，预处理704可以包括在时间域或频域中生成一个或多个预处理信号，每个输出可以是来自麦克风206a-206d中一个的音频信号的带通过滤版本，或者可以是用其他技术过滤过或其他处理过的，其他技术例如是使用自适应滤波器或其他音频处理技术。预处理704还可以包括在如上关于噪声消除模块600a-600d所述的对预处理模块212a-1-212a-4的输入或输出执行噪音消除。

方法700还可以包括将预处理信号输入706到机器学习模型110中。机器学习模型110之后将声音来源进行分类708，即，根据机器学习模型110处理预处理信号中的声音特征属性，机器学习模型110之后输出一个或多个分类和用于一个或多个分类的置信度分数。

方法700还可以包括估算710到声音来源的方向。如上所述，这可以包括调用麦克风阵列处理模块602的功能，来评估预处理输出中音频特征抵达的时间差，从而确定到音频特征的源头的方向或音频特征的源头的可能角度范围。

方法700还可以包括尝试使用一个或多个其他信息源来确认步骤708执行的分类。例如，方法700可以包括尝试将到声音来源的方向与图像传感器204的输出中在关于声音来源方向上的位置处的车辆图像相互关联712。例如，可以在步骤712中识别定位在包括该方向的角区域中的任何车辆图像。如果在图像传感器204的图像流中在该角区域内发现车辆图像，那么可以增加置信度值。

方法可以包括尝试714将声音来源的方向与地图数据相互关联。例如，如果发现地图数据指示停车位或其他合法停车区域位于自主车辆附近并且处在包括到声音来源方向的角区域中，那么可以增加可信值，否则根据地图数据不增加。用于确定停车区域是否在到声音来源的方向公差内的角区域可以与步骤712使用的角区域相同或不同。

还可以根据来自分类步骤708的置信度分数来增加置信度值。具体地，可以按照置信度分数数值的比例或根据其来增加置信度分数。如本文所述的，可以探测到发动机运行的停泊车辆。因此，分类步骤708处指示对发动机运行的停泊车辆的探测，那么将根据步骤708的置信度分数以及根据步骤712和714的置信度分数来增加置信度值。

方法700可以包括评估716步骤708的置信度分数是否超过阈值。例如，步骤708中分类的置信度分数没有超过阈值，方法700可以包括确定作为分类基础的音频特征可能不对应车辆。否则，如果置信度分数超过阈值，那么方法700可以包括将潜在障碍加入718到一组被如使用成像装置204的其他手段识别的障碍中。可以将潜在障碍限定为位于在步骤710确定的方向或角度范围中的潜在障碍。

对于指示发动机运行的停泊车辆的分类，如果根据所有步骤708、712和714的置信度值超过对应停泊车辆的阈值，那么步骤716可以包括确定停泊车辆是潜在障碍并且可能从其当前位置移动。具体地，可以将停泊车辆的潜在路径或潜在路径的范围加入718到一组潜在障碍中。例如，由于距离停泊车辆的估算方向是已知的，可以将停泊车辆向估算方向的两侧的潜在移动认为是潜在的障碍。

例如，使用图像传感器204识别到停泊车辆，但是在步骤708中确定停泊车辆的发动机没有在运行，可以确定该停泊车辆是不动的并且不会认为该停泊车辆的潜在路径是障碍躲避目标。

步骤716的每个结果中，障碍是使用如成像装置204的其他感知系统探测的，并且将使用这些感知系统探测的障碍加入720到障碍组中。关于障碍组来执行722碰撞躲避。如上所述，这可以包括探测潜在碰撞并且触发转向致动器216a、加速致动器216b和制动致动器216c中的一个或多个，以便躲避障碍组中的障碍并且引导车辆到期望的目的地。

在不脱离本发明的精神或本质特征的情况下，本发明可以以其他具体形式实施。所描述的实施例在所有方面被认为只是说明性的而不是限制性的。因此，通过所附权利要求而不是前述说明来表示本发明的范围。权利要求的含义和等同范围内的所有变化将被包括在其范围内。

Claims

1.一种使用听觉数据训练用于碰撞躲避的算法的方法，包含：

通过计算机系统限定三维(3D)模型；

通过所述计算机系统根据从发动机运行的停泊车辆传入到所述三维模型中主体车辆的两个或更多个传感器位置的声音来模拟两个或更多个传感器输出；和

通过所述计算机系统使用所述三维模型中停泊车辆的位置和所述两个或更多个传感器输出来训练机器学习模型。

2.根据权利要求1所述的方法，还包含：

在所述主体车辆上限定一个或多个摄像机位置；

模拟在所述一个或多个摄像机位置的图像探测；和

使用所述图像和所述两个或更多个传感器输出来训练所述机器学习模型。

3.根据权利要求2所述的方法，还包含：

在所述主体车辆上限定雷达传感器位置；

根据所述三维模型模拟雷达传感器输出；和

在所述主体车辆上限定激光雷达传感器位置；

模拟从所述三维模型的所述激光雷达传感器位置探测的点云序列；和

使用所述图像、所述雷达传感器输出、所述点云序列和所述两个或更多个传感器输出中的全部来训练所述机器学习模型。

4.根据权利要求1所述的方法，其中限定所述三维模型还包括在所述停泊车辆和所述主体车辆之间限定多个居间车辆。

5.根据权利要求1所述的方法，其中根据多个车辆传入到所述两个或更多个传感器位置的声音来模拟所述两个或更多个传感器输出，包含模拟从所述停泊车辆的发动机，到围绕所述停泊车辆和所述主体车辆之间的一个或多个居间车辆，并且传入所述主体车辆的声音传播。

6.根据权利要求1所述的方法，其中将所述停泊车辆建模为发出对应于运行的车辆发动机的声音的车辆。

7.根据权利要求1所述的方法，还包含：

提供包括车辆控制器和两个或更多个麦克风的车辆；

通过所述机器学习模型编程所述车辆控制器；

通过所述车辆控制器接收来自所述两个或更多个麦克风的两个或更多个音频流；

通过所述车辆控制器将所述两个或更多个音频流输入到所述机器学习模型；

(a)通过所述车辆控制器确定所述机器学习模型表明所述两个或更多个音频流当前指示存在发动机运行的实际停泊车辆；

响应于(a)，而关于所述实际停泊车辆的潜在路径执行障碍躲避。

8.根据权利要求7所述的方法，还包含：

(b)在(a)之后，通过所述车辆控制器确定所述机器学习模型表明所述两个或更多个音频流没有指示第二实际停泊车辆的发动机在运行；

响应于(b)，而避免关于所述第二实际停泊车辆的潜在路径执行障碍躲避。

9.一种使用听觉数据训练用于碰撞躲避的算法的系统，包含一个或多个处理器和连接到所述一个或多个处理器的一个或多个存储装置，所述一个或多个存储装置存储用于进行以下操作的可执行代码：

限定三维模型，所述三维模型包括停车区域和多个不动的停泊车辆、运行的停泊车辆和位于所述停车区域中的主体车辆，所述主体车辆包括两个或更多个传感器位置；

根据从所述运行的停泊车辆传入到所述两个或更多个传感器位置的声音来模拟两个或更多个传感器输出；和

使用所述不动的停泊车辆的位置和随着时间变化的所述两个或更多个传感器输出来训练机器学习模型。

10.根据权利要求9所述的系统，其中所述可执行代码还用于使所述一个或多个处理器进行以下操作：

在所述主体车辆上限定一个或多个摄像机位置；

模拟在所述一个或多个摄像机位置的图像探测；和

在所述主体车辆上限定雷达传感器位置；

根据所述三维模型模拟雷达传感器输出；和

在所述主体车辆上限定激光雷达传感器位置；

11.根据权利要求9所述的系统，其中所述可执行代码还用于使所述一个或多个处理器限定在所述停泊车辆与所述主体车辆之间限定有多个居间车辆的三维模型。

12.根据权利要求9所述的系统，其中所述可执行代码还用于使所述一个或多个处理器根据多个车辆传入到所述两个或更多个传感器位置的声音，通过模拟多普勒效应和所述声音的传播距离来模拟所述两个或更多个传感器输出。

13.根据权利要求9所述的系统，其中所述可执行代码还用于使所述一个或多个处理器将所述停泊车辆建模为发出对应于运行车辆发动机声音的车辆。

14.根据权利要求9所述的系统，还包含包括车辆控制器和两个或更多个麦克风的车辆；

其中所述车辆控制器被编程有所述机器学习模型；

其中所述车辆控制器还编程为：

接收来自所述两个或更多个麦克风的两个或更多个音频流；

将所述两个或更多个音频流输入到所述机器学习模型；

如果所述机器学习模型表明所述两个或更多个音频流当前指示发动机运行的实际停泊车辆，则关于所述实际停泊车辆的潜在路径执行障碍躲避。

15.根据权利要求14所述的系统，其中所述车辆控制器还编程为：

如果所述机器学习模型表明所述两个或更多个音频流当前没有指示存在发动机运行的实际停泊车辆，则进行避免通过所述车辆控制器输出警报和许可、避免关于所述实际停泊车辆的潜在路径执行障碍躲避中至少一个。