CN114586084A

CN114586084A - 应急车辆检测

Info

Publication number: CN114586084A
Application number: CN202080074185.4A
Authority: CN
Inventors: 赵南国; S·S·苏巴辛哈; J·T·多德尔; V·S·C·S·奇比亚姆
Original assignee: Zoox Inc
Current assignee: Zoox Inc
Priority date: 2019-10-23
Filing date: 2020-10-20
Publication date: 2022-06-03
Also published as: US11322019B2; JP2022553086A; EP4049260A4; WO2021080989A1; US20210125494A1; EP4049260A1

Abstract

详细描述了用于确定紧急情况的波达方向的技术。车辆的多个音频传感器可以接收与车辆相关联的音频数据。可以从多个音频传感器中选择音频传感器配对以生成表示在车辆所处环境中的声音的音频数据。基于音频数据，可以确定与音频传感器配对相关联的角谱。基于角谱和/或音频数据本身，可以确定与音频数据相关联的特征。基于该特征使用机器学习模型，可以确定与声音相关联的波达方向(DoA)值。在音频数据中可以检测到紧急声音(例如警报声)，并且基于该特征和DoA值，可以确定与紧急情况相关联的相对于车辆的方向。

Description

应急车辆检测

相关申请

本专利申请要求于2019年10月23日提交的、发明名称为“应急车辆检测”、申请号为16/661,898的美国专利申请的优先权，其全部内容通过引用并入本说明书。

背景技术

车辆经常在环境中遇到应急车辆。在紧急情况下，应急车辆可能快速行驶并且可能使用灯光和/或警报器来宣示其存在。由于应急车辆的行驶优先级较高，非应急车辆应为应急车辆让行。在自主车辆的背景下，对于自主车辆而言可能重要的是，具有检测到应急车辆并针对在其环境中出现的应急车辆做出响应的方案。

附图说明

以下将参考附图来进行详细描述。在图中，参考编号的最左侧数字标识参考编号首次出现的图。在不同的图中使用相同的附图标记表示相似或相同的部件或特征。

图1是示出根据本公开的示例、用于在自主车辆所处环境中检测应急车辆的示例实施方案的示意图。

图2是示出根据本公开的示例、用于在自主车辆所处环境中检测应急车辆的示例实施方案的场景示图。

图3是根据本公开的示例、选择音频传感器配对以检测自主车辆所处环境中的应急车辆的图示。

图4描绘了根据本公开的示例、用于在自主车辆所处环境中检测应急车辆的示例实施方案的框图。

图5是根据本公开的示例、与由四个音频传感器配对检测到的音频信号相关联的示例特征的图示。

图6是根据本公开的示例、与由其它四个音频传感器配对检测到的音频信号相关联的示例特征的图示。

图7描绘了根据本公开的示例、用于基于由音频传感器配对检测到的音频信号来检测应急车辆的示例过程。

图8描绘了用于实现本文描述的技术的示例系统的框图。

具体实施方式

本公开针对用于在车辆的环境中确定紧急情况的波达方向(DoA)的技术。车辆可以是包括音频传感器的自主车辆，音频传感器用以从环境中捕获声音。在一些示例中，紧急情况可包括在环境中的一辆或多辆应急车辆。音频传感器可以捕获由应急车辆的警报器产生的声音，并且可以将与警报器相关联的音频数据传输到车辆计算装置以确定警报器的DoA，车辆计算装置被实现在车辆上或被远程实现在服务器上。由于车辆的环境包括各种类型的声音，例如汽车噪音、警报器、人的语音、音乐、雷鸣声等，为了有效和准确地响应警报器，可以使用一对或多对音频传感器来捕获与这些声音相关联的音频数据。在一些示例中，音频传感器配对可以设置在车辆的前部区域、后部区域、左侧和右侧以覆盖车辆周围的所有方向。每个音频传感器配对可以覆盖180度角的区域。例如，设置在车辆前部区域的音频传感器配对可以覆盖180度角的前部区域，设置在车辆后部区域的音频传感器配对可以覆盖180度角的后部区域，设置在车辆左侧的音频传感器配对可以覆盖180度角的左侧，设置在车辆右侧的音频传感器配对可以覆盖180度角度的右侧。因此，四个音频传感器配对可以覆盖车辆周围的所有方向。

在一些示例中，可以分析由音频传感器配对捕获的音频数据以估计音频传感器配对的角谱。在一些示例中，可以使用多于两个的音频传感器来估计角谱。角谱可以是具有关于在由横坐标指定的方向上存在声源的可能性的信息的参数，例如，从DOA或TDOA撞击车辆的声音的强度。作为非限制性示例，可以实施广义互相关相位变换(GCC-PHAT)算法来估计音频传感器配对的角谱。然而，也可以应用其他算法来估计角谱，例如，互功率谱相位(CPS)算法、具有快速傅里叶变换(FFT)的GCC-PHAT、基于机器学习的算法、多重信号分类(MUSIC)、状态相干变换(SCT)等。角谱的估计可以基于这样的假设：车辆周围的听觉场景中的每个源的DoA由单个角度表示，音频信号按照该角度从远场中的音频源撞击到音频传感器配对，音频信号在自由场中从音频源传播到每个音频传感器，在DoA和波达时间差(TDoA)之间存在一对一的映射关系。TDoA的每个峰值可以指示与声源相关联的TDoA。在一些示例中，可以针对可能的TDoA范围内的所有离散差值，在每个时间-频率仓中执行计算。GCC-PHAT算法可以计算与音频数据相关联的时频仓中的每个TDoA的值，并基于音频数据输出音频传感器配对的角谱。由于样本中计算的TDoA可以被转换为角度的DoA，因此可以至少部分基于TDoA的峰值来确定应急车辆的DoA。在一些示例中，当实现两个以上的音频传感器时，可以直接使用DoA而不是TDoA。

在一些示例中，基于角谱选择与音频数据相关联的至少一个特征。在一些示例中，至少一个特征可以选自音频传感器配对本身的角谱、音频传感器配对的角谱的峰值、角谱的峰值处的TDoA值、音频传感器配对的能量值等。在一些示例中，从角谱中选择一个以上的特征以提供更准确的DoA估计。

在一些示例中，可以对实时接收的音频数据实施神经网络组件(例如回归或分类)以生成DoA值。可以设置内部缓冲空间，以流式传输音频数据以进行处理。由音频传感器捕获的音频数据可以在每个帧时间以先进先出的顺序发送到缓冲空间。例如，内部缓冲空间可以设置为存储至少3秒的数据，尽管缓冲空间可以存储任何时间长度的数据。在一些示例中，可以将帧时间设置为30毫秒，尽管可以将帧时间设置为任何时间长度。对于每30毫秒音频帧，音频数据可以流式传输到内部缓冲空间中。内部缓冲空间可以包括对应于重叠时间间隔的音频数据。例如，内部缓冲区空间可能每过10毫秒就被更新，这会导致重叠窗口中有20毫秒的音频数据。对于每30毫秒的音频帧，可以至少部分地基于包含在音频帧中的数据、至少部分地基于角谱确定的特征和/或特征融合，来对音频传感器配对执行角谱估计，以生成与30毫秒音频帧相关联的DoA值。

在一些示例中，基于DoA值和音频事件分类器，可以确定音频事件的类别。例如，音频事件分类器可以将事件分类为紧急事件或非紧急事件，并且可以在每个大类内更具体地对音频事件进行分类。可以训练音频事件分类器以确定事件的类别。音频事件分类器的训练可以至少部分地基于与曾发生在车辆的环境中的过去事件、和/或曾用于识别这些过去事件的特征/参数相关联的历史数据。至少部分地基于由车辆捕获的音频数据和/或视频数据，可以确定曾用于识别过去事件的特征/参数。对于应急车辆，音频事件分类器可以是使用训练数据进行预训练的机器学习模型。训练数据可以包括由应急车辆生成的过去确定的警报器、与过去确定的警报器相关联的音频数据、以及从音频数据中提取的曾用于确定应急车辆的过去确定的警报器的特征。可以使用来自实时识别的紧急情况的反馈，定期训练音频事件分类器。

在一些示例中，可以将音频事件至少部分地定义为与事件相关联的开始时间(例如，事件的开始呈现(on-set))和事件的结束时间(例如，事件的结束呈现(off-set))。在一些示例中，可以基于DoA值来确定指示紧急情况开始呈现的开始时间帧和/或指示紧急情况结束呈现的结束帧。在一些示例中，可以基于DoA值确定应急车辆是否正在接近该车辆，或者应急车辆是否正在离开该车辆。在一些示例中，可以使用多普勒频移函数来执行关于应急车辆是否正在接近车辆、或应急车辆正在离开车辆的确定。在一些示例中，关于应急车辆是否正在接近车辆或应急车辆是否正在离开车辆的确定，可以跨越多个帧使用音频传感器数据功率跟踪器来执行。在一些示例中，上述因素的组合，即跨多个帧的功率跟踪器，可用于确定应急车辆是接近车辆还是离开车辆。在一些示例中，音频数据可以与其他感知数据(例如，图像数据、激光雷达数据、雷达数据、飞行时间数据等)和车辆的速度信息整合在一起，以帮助对音频事件进行分类、确定与音频事件相关的方向等。

在一些示例中，基于收集的表示环境中各种类型的声音的音频数据，可以确定环境中发生的多个事件。为了消除歧义，使车辆能够快速准确地响应警报器，可以根据预设规则对多个事件进行审查。与环境中的所有其他声音相比时，应急车辆的警报器通常具有显著的声级，并且可以在数百米外被听到，甚至在可以看到应急车辆之前被听到。当车辆捕获表示环境中的应急车辆的音频数据时，可以评估声音的长度以确定声音是否对应于音频事件。偶尔在环境中，可能有其他声源会产生类似警报器的声音，或者应急车辆的驾驶员可能会意外操作警报器。为了避免这种潜在的虚假警报器引起的混乱，与这些潜在的虚假警报器相关联的音频数据可以被移除以进行分析。在一些示例中，可以将在时域中连续接收的音频数据离散化为多个音频帧。音频事件可以被确定为发生在开始时间帧上以及结束在结束时间帧，在该开始时间帧期间确定声音的开始呈现，在该结束时间帧期间确定声音的结束呈现。可以将多个音频帧输入到内部缓冲空间。如果与音频事件相关联的音频帧的计数小于阈值，则可以确定该事件为非事件。在一些示例中，尽管应急车辆可能不得不连续鸣响警报器直到到达目的地(有时是数英里之外)，但在鸣响之间可能会出现一些间歇性静音。为了解决音频中的这种潜在间隙，如果两个相邻事件之间的音频帧的计数小于最小帧间隙(可以针对警报器信号进行预先定义)，则可以移除音频帧间隙，并且相邻的事件可以被合并。在解决音频中潜在间隙的替代解决方案中，即使在静音期间，也可以使用基于状态或长范围机器学习模型来维持检测状态。该机器学习模型可以在包括具有间歇性间隙的警报器声音的数据上进行训练，因此可以学习为具有针对间隙的鲁棒性。

本文讨论的技术可以以多种方式改进车辆的计算装置的功能。由于车辆的音频传感器可以在其他传感器(如相机、激光雷达和雷达等)之前捕获警报器产生的声音，因此利用车辆上的音频传感器收集的音频数据，可以提高对紧急情况的响应速度。例如，在生成紧急情况的波达方向的背景中，利用各种音频传感器配对来收集音频数据并分析与各种音频传感器配对的角谱相关联的特征，可以提高车辆响应环境中紧急情况的准确性和/或减少车辆响应环境中紧急情况的延迟。此外，一些应急车辆，例如执行秘密任务的车辆，可能不提供紧急情况的视觉指示。本文所讨论的技术可以促进车辆对紧急情况做出响应，即使是在应急车辆被遮挡和/或在夜间黑暗中的情况下。

这里描述的技术可以以多种方式实现。下面参考以下附图提供示例实施方案。尽管在自主车辆的背景下进行了讨论，但本文描述的方法、设备和系统可以应用于各种系统并且不限于自主车辆。在另一个示例中，这些技术可以在航空或航海背境中使用，或者在使用音频数据的任何系统中使用。此外，本文描述的技术可以与真实数据(例如，使用传感器捕获的数据)、模拟数据(例如，由模拟器生成的数据)或两者的任何组合一起使用。

图1是示出根据本公开的实施例、用于在自主车辆所处环境中检测应急车辆的示例实施方案100的示意图。

如图1所示，车辆102可以包括一个或多个音频传感器(例如，110-1、110-2、110-3、110-4、110-5、110-6、110-7和110-8)，这些音频传感器生成表示车辆102所处环境中的声音的音频数据。

为了说明的目的，车辆102可以是被配置为根据美国国家公路交通安全管理局发布的5级分类来操作的自主车辆，该分类描述了能够在整个行程中执行所有安全关键功能的车辆，在任何时候都不会期望驾驶员(或乘员)控制车辆。在这样的示例中，由于车辆102可以被配置为控制从启动到停止的所有功能，包括所有停车功能，所以它可以是无人使用的。这仅是一个示例，本文描述的系统和方法可以结合到任何陆上、空中或水上交通工具中，包括从需要始终由驾驶员手动控制的车辆到部分或完全自主控制的交通工具。下面描述与车辆102相关的附加细节。

在至少一个示例中，车辆可以与可以设置在车辆102上的传感器系统108相关联。传感器系统108可以包括光检测和测距(激光雷达)传感器、无线电检测和测距(雷达)传感器、超声波换能器、声音导航和测距(声纳)传感器、位置传感器(例如，全球定位系统(GPS)、指南针等)、惯性传感器(例如，惯性测量单元、加速度计、磁力计、陀螺仪等)、相机(例如，RGB、IR、强度、深度、飞行时间相机等)、轮式编码器、音频传感器(例如，音频传感器110-1、110-2、110-3、110-4、110-5、110-6、110-7和110-8)、环境传感器(例如，温度传感器、湿度传感器、光传感器、压力传感器等)等。传感器系统108可以生成传感器数据，这些数据可以由与车辆102相关联的车辆计算装置110使用。

在至少一个示例中，车辆计算装置110可以至少部分地基于从与车辆102相关联的传感器系统108接收的音频数据，来确定环境中音频源的波达方向(DoA)。参考图2，车辆102的计算装置110可以识别环境200中的一个或多个音频源。音频源可以至少包括在与车辆102相同的方向上行驶的车辆204、在与车辆102相反方向行驶的车辆206和车辆216、来自天空的雷声218等。在如图2所示的一些示例中，在与车辆102相同的方向上行驶的车辆204和在与车辆102相反的方向上行驶的车辆206可以是应急车辆。被指定和授权在危及生命的情况下应对紧急情况的应急车辆可能包括但不限于警车、警用摩托车、特种武器和战术(SWAT)车辆、消防设备、救护车等。应急车辆可配备听觉和视觉警告装置，这些装置被设计为促进应急车辆的直通交通到达目的地或在现场提供一定的保护。

车辆102的计算装置110可以接收表示由环境中的音频源产生的声音的音频数据，例如来自应急车辆206的声音212、来自车辆216的声音222、来自雷鸣218的声音220、来自应急车辆204的声音208等。声音222可以是从车辆216产生的声音，例如发动机声音、皮带噪音、轮胎噪音、音乐、人说话、狗叫声等。声音212可以是从应急车辆206产生的声音，例如警报器声、发动机声、皮带噪声、轮胎噪声、音乐、人说话、狗叫声等。警报器声可能在应急车辆产生的所有声音中是显著的(dominant)。

来自车辆102环境中的音频源的音频数据(即，原始音频数据)，可由音频传感器110-1、110-2、110-3、110-4、110-5、110-6、110-7和110-8收集、捕获、接收或以其他方式确定。原始音频数据或原始数据可以指由音频传感器捕获的音频数据或数据，它们可能未被压缩。或者，原始音频数据和原始数据可以指由音频传感器捕获的音频数据或数据，它们可以被压缩，但是以其它方式保持未被处理。如图1所示，音频传感器配对[110-1、110-2]设置在车辆102的前部区域上，音频传感器配对[110-3、110-4]设置在车辆102的后部区域上，音频传感器配对[110-5、110-6]设置在车辆102的右侧，以及音频传感器配对[110-7、110-8]设置在车辆102的左侧。前部区域、后部区域、左侧和右侧是相对于车辆102的行驶方向的。音频传感器配对中的每一个配对可以覆盖180度角的区域，尽管音频传感器可以关联任何覆盖范围。在一些示例中，音频传感器配对[110-1、110-2]可以180度角覆盖车辆102的前部区域，音频传感器配对[110-3、110-4]可以180度角覆盖车辆102的后部区域，音频传感器配对[110-5、110-6]可以180度角覆盖车辆102的右侧，音频传感器配对[110-7、110-8]可以180度角覆盖车辆102的左侧。因此，图1所示的音频传感器可以覆盖车辆102周围的所有方向，即360度角。

应当理解，图1中的音频传感器是为了说明的目的。车辆上可以设置不同数量的音频传感器。设置在车辆上的那些音频传感器的位置可能会有所不同。可以根据车辆计算装置110的大小和/或计算能力，来确定音频传感器配对的形成或包括两个以上音频传感器的一组音频传感器的形成。还应理解，图2中车辆102所处的环境是为了说明的目的。环境中可能存在也有助于生成音频信号的其他音频源，例如，行驶路径上或附近建筑物中的施工、行驶路径上的车辆事故等。本公开并非旨在限制。

在一些示例中，车辆102的计算装置110可以包括声学信号处理组件118，其处理音频数据或表示环境中的声音的音频信号。声学信号处理组件118可以包括DoA检测组件120。DoA检测组件120可以从音频传感器110-1、110-2、110-3、110-4、110-5、110-6、110-7和110-8接收表示来自环境的声音的音频数据。DoA检测组件120可以从上述四个音频传感器配对中选择一个或多个音频传感器配对。在一些示例中，DoA检测组件120可以通过将分别选自上述音频传感器110-1至110-8的两个音频传感器配对来形成一个或多个附加的音频传感器配对。例如，DoA检测组件120可以形成额外的音频传感器配对[110-1、110-7]，其中音频传感器110-1和音频传感器110-7分别选自音频传感器配对[110-1、110-2]和音频传感器配对[110-7、110-8]。DoA检测组件120可以至少部分地基于音频数据来估计音频传感器配对的角谱。在一些示例中，DoA检测组件120可以使用广义互相关与相位变换(GCC-PHAT)算法来估计音频传感器配对的角谱，尽管本文讨论了其他技术。

在一些示例中，DoA检测组件120可以至少部分地基于以下假设来执行角谱的估计：1)DoA由单个角度表示，音频信号从该角度从远场中的音频源撞击音频传感器配对，2)音频信号在自由场中从音频源传播到每个音频传感器，和/或3)在DoA和波达时间差(TDoA)之间存在一对一的映射。GCC-PHAT算法可以计算与音频数据相关联的每个DoA的值，并且至少部分地基于音频数据输出音频传感器配对的角谱。应当理解，使用GCC-PHAT算法是为了说明的目的。也可以应用其他算法来估计角谱，例如，互功率谱相位(CPS)算法、具有快速傅里叶变换(FFT)的GCC-PHAT等。

DoA检测组件120可以至少部分地基于角谱来确定与音频数据相关联的特征。在一些示例中，该特征可以选自音频传感器配对本身的角谱、音频传感器配对的角谱的峰值、角谱峰值处的TDoA值、音频传感器配对的能量值等。在一些示例中，DoA检测组件120可以从角谱中选择一个或多个特征以提供更准确的DoA估计。在一些其他示例中，DoA检测组件120可以至少部分地基于原始音频数据来确定与音频数据相关联的特征。该特征可以选自音频传感器配对本身的角谱、音频传感器配对的角谱的峰值、角谱峰值处的TDoA值、音频传感器配对的能量值、频谱、本底噪声、噪声谱、零交叉、能量分布、互相关、机器学习嵌入等。DoA检测组件120可以至少部分地基于一个或多个特征来执行DoA值确定。在一些示例中，DoA检测组件120可以至少部分地基于一个或多个特征和DoA值，来确定紧急情况(或非紧急情况)的发生以及相对于环境中的车辆与音频事件相关联的方向。

在一些示例中，DoA检测组件120可以将音频数据输入到机器学习模型中，例如神经网络，以生成DoA值。可以设置内部缓冲区空间，以流式传输音频数据以进行处理。由音频传感器接收的音频数据可以被输入到缓冲区空间中(例如，以先进先出(FIFO)的顺序)，由此音频数据可以与音频帧相关联。例如，内部缓冲空间可以对应于3秒的音频数据，而音频帧可以对应于30毫秒的数据，尽管可以使用任何时间段。对于每个音频帧，DoA检测组件120可以至少部分地基于包含在音频帧中的数据、至少部分地基于角谱的特征确定、和/或特征融合来执行针对音频传感器配对的角谱估计，以生成与音频帧关联的DoA值。

在一些示例中，可以至少部分地基于DoA值和音频事件分类器(例如，图4中的410)来确定紧急情况(或非紧急情况)的类别。音频事件分类器可以是用于确定事件类别的预训练组件。音频事件分类器的训练可以至少部分地基于与曾发生在车辆环境中的过去事件、和用于识别过去事件的特征/参数相关联的历史数据。至少部分地基于由车辆捕获的音频数据、视频数据、激光雷达数据、雷达数据等，可以确定曾用于识别过去事件的特征/参数。对于应急车辆，可以使用过去的应急车辆和曾用于识别那些过去的应急车辆并且与表示应急车辆的警报器的音频数据(或其他数据)相关联的特征，来训练音频事件分类器。可以使用来自实时识别的紧急情况的反馈，定期训练音频事件分类器。

在一些示例中，音频事件的分类可以包括紧急音频事件类别或非紧急音频事件类别，紧急音频事件类别包含救护车警报器类别、警用警报器类别、消防车警报器类别等，非紧急音频事件类别包括发动机声音类别、音乐声音类别、雷鸣声音类别、语音声音类别等。

在一些示例中，基于收集的表示环境中各种类型声音的音频数据，DoA检测组件120可以确定多个事件。为了消除歧义，使车辆能够快速准确地响应警报器，DoA检测组件120还可以根据预设规则对多个事件进行分析。相对于环境中的所有其他声音，应急车辆的警报器通常具有显著的声级。应急车辆可以通过拉响警报器来警告环境中的其他车辆和/或对象(例如，行人、动物等)，并且可以将警报器声音的长度预设在阈值以上，从而可以提醒其他车辆。短的警报器声音，即低于阈值的警报声长度可能不被其他车辆察觉或可能导致混乱。为了避免这种潜在的虚假警报声引起的混乱，如果基于音频数据检测到事件，但与该事件相关联的音频帧的计数小于阈值，则该事件可以被确定为非事件。当确定音频数据对应于非事件时，可以将与非事件相关联的音频帧移除，避免用以确定波达方向的进一步处理。

在一些示例中，尽管应急车辆可能不得不连续鸣响警报器直到到达目的地(有时是数英里之外)，但在鸣响之间可能会出现一些间歇性静音。在一些示例中，如果两个相邻事件之间的音频帧的计数小于最小帧间隙(可以针对警报器信号进行预先定义)，则可以将潜在的静音帧(可以称为音频帧间隙)移除，并且可以合并相邻的事件。

在一些示例中，DoA检测组件120可以通过将音频数据与和应急车辆相关联的闪光灯的检测结合在一起，来确定应急车辆，例如，如图2所示的闪光灯信号210和214或者来自其他感知系统422的传感器数据，如图4所示。应该理解，其他感知管线也可以与音频数据结合，以确定应急车辆的出现。在一个示例中，可以捕获图像数据，并且可以在图像数据中检测到应急车辆。

图3是根据本公开的实施例的示例性音频传感器配对的图示300，示例性音频传感器配对用于实施以检测自主车辆所处环境中的应急车辆。

如图3所示，事件1和事件2可以发生在车辆102的环境中。事件1和事件2可以表示从它们各自的方向产生的警报器信号(或其他声音)。为了在存在事件1的情况下确定事件2的方向，可以形成多个音频传感器配对来捕获警报器信号。在一些示例中，DoA检测组件120可以确定警报器信号的大致方向，并且至少部分地基于警报器信号的大致方向来选择音频传感器配对。如图3所示，形成了八个音频传感器配对，以在存在事件1的情况下确定事件2的方向：配对[110-1、110-2]、[110-7、110-8]、[110-5、110-6]、[110-3、110-4]、[110-1、110-7]、[110-1、110-6]、[110-6、110-4]和[110-4,110-7]。应当理解，音频传感器配对可以基于设置在车辆102上的音频传感器的任意组合来形成。选择某些音频传感器配对来确定警报器信号的方向，可以允许车辆102实现针对应急车辆的快速高效响应。还应理解，形成包括两个音频传感器的音频传感器配对是出于说明的目的。在一些示例中，可以使用多于两个传感器来确定音频事件的波达方向。

图4描绘了根据本公开的实施例、用于在自主车辆所处环境中检测应急车辆的示例实施方案的框图400。

如图所示，DoA检测组件120可以包括角谱估计组件402，用以接收由音频传感器420收集的音频数据并且至少部分地基于音频数据来估计音频传感器配对的角谱。在一些示例中，DoA检测组件120可以使用具有相位变换的广义互相关(GCC-PHAT)算法来估计音频传感器配对的角谱。角谱估计组件402可以至少部分地基于以下假设执行角谱的估计：DoA由单个角度表示，音频信号从该角度从远场中的音频源撞击音频传感器配对，音频信号在自由场中从音频源传播到每个音频传感器，在DoA和波达时间差(TDoA)之间存在一对一的映射关系。角谱估计组件402可以计算与音频数据相关联的每个DoA的值，并且至少部分地基于音频数据输出音频传感器配对的角谱。应该理解，GCC-PHAT算法是用于说明的目的。也可应用其他算法(包括涉及使用从两个或更多个麦克风收集的数据的算法)来估计角谱，例如，互功率谱相位(CPS)算法、具有快速傅里叶变换(FFT)的GCC-PHAT等等。

在一些示例中，DoA检测组件120可以包括特征确定组件404，其至少部分地基于角谱和/或音频数据来确定与音频数据相关联的特征。在一些示例中，角谱的计算可以作为DoA检测组件120的一部分被完全跳过。在这种情况下，DoA检测组件120可以直接基于由音频传感器420收集的音频数据来确定DoA，即基于原始音频数据。在一些示例中，特征确定组件404可以至少部分地基于音频传感器配对的角谱来确定与音频数据相关联的特征。在一些其他示例中，特征确定组件404可以至少部分地基于原始音频数据来确定与音频数据相关联的特征。在一些示例中，该特征可以选自音频传感器配对本身的角谱、音频传感器配对的角谱的峰值、角谱的峰值处的TDoA值、音频传感器配对的能量值、频谱、本底噪声、噪声谱、零交叉、能量分布、互相关、机器学习嵌入等。在一些示例中，可以至少基于原始数据输入(例如，音频数据)使用机器学习模型来执行特征选择。在一些示例中，特征确定组件404可以从角谱中选择一个或多个特征，以提供更准确的DoA估计。在一些其他示例中，特征确定组件404可以至少部分地基于原始音频数据来确定与音频数据相关联的特征。该特征可以选自音频传感器配对本身的角谱、音频传感器配对的角谱的峰值、角谱的峰值处的TDoA值、音频传感器配对的能量值、频谱、本底噪声、噪声谱、零交叉、能量分布、互相关、机器学习嵌入等。在一些示例中，特征确定组件404可以构建一组向量，作为要输入到DoA检测组件120的融合组件406的特征集。

融合组件406对一个或多个特征执行融合操作，以生成与音频相关联的DoA值。在一些示例中，融合组件406可以将实时接收的音频数据输入到机器学习模型以生成DoA值。DoA值可以指示声音发起所源自的角度方向。可以设置内部缓冲器以流式传输音频数据以进行处理。由音频传感器接收到的音频数据可以按先进先出的顺序推送到缓冲器中。缓冲器可以被细分为多个帧。例如，内部缓冲器可以被设置为3秒数据提示，并可被划分为若干个30毫秒的帧。对于每个音频帧，角谱估计组件402可以至少部分地基于包含在音频帧中的数据，来执行针对音频传感器配对的角谱估计，并且特征确定组件404可以至少部分地基于角谱和/或缓冲器数据来执行特征确定，构建一组向量作为特征集。融合组件406可以执行特征融合以生成与音频帧相关联的DoA值。应当理解，这里描述的内部缓冲器的大小是为了说明的目的。内部缓冲器的大小可以设计为存储5秒、10秒或任何其他数量的音频数据。本公开并非旨在进行限制。

在一些示例中，DoA检测组件120可以包括检测组件408，该检测组件408至少部分地基于特征和DoA值，来确定紧急情况的出现以及与紧急情况相关联的相对于车辆的方向。在一些示例中，检测组件408可以至少部分地基于DoA值和音频事件分类器410来确定紧急情况的类别。在一些示例中，来自其他感知系统422的传感器数据可以被输入到检测组件408，以确定音频声音的波达方向。来自其他感知系统422的传感器数据可以包括由激光雷达(光检测和测距)传感器、雷达(无线电检测和测距)传感器、图像传感器、飞行时间传感器、声纳传感器等中的一个或多个捕获的数据。在一些示例中，可以接收额外的环境数据(例如，环境编码部分的地图数据，例如车道、参考线、人行横道、交通装置和/或标志等)。可以至少部分地基于紧急情况相对于车辆的方向来进一步控制车辆。例如，可以控制车辆响应于紧急情况来降低速度、停止、开到路边或改变到另一车道。

音频事件分类器410可以是预先训练的模块，用以确定音频事件的类别(例如，音频是否包括应急车辆和/或应急车辆的类型-救护车、消防车、警用警报器等)。音频事件分类器的训练可以至少部分地基于训练数据430，该训练数据430包括与过去事件相关联的历史数据(例如，其可以来自先前记录的数据的日志)和与其相关联的特征/参数。可以至少部分地基于由车辆捕获的音频数据和/或视频数据，来确定用于识别过去事件的特征/参数。在一些示例中，训练数据430可以包括过去的音频事件分类结果(例如，音频事件是紧急音频事件还是非紧急音频事件，紧急音频事件是否与消防车、救护车、警车等相关)。对于应急车辆，可以使用与过去的应急车辆相关联的音频数据以及从其导出的与表示应急车辆的警报器的音频数据相关联的特征，来训练音频事件分类器410。可以使用来自实时识别的紧急情况的反馈，来周期性地训练音频事件分类器410。检测组件408可以至少部分地基于DoA值来确定指示紧急情况的开始呈现的开始时间帧，和至少部分地基于DoA值来确定指示紧急情况的结束呈现的结束帧。在一些示例中，检测组件408可以使用多普勒频移函数，至少部分地基于DoA值来确定应急车辆是否正在接近车辆102，或者应急车辆是否正在离开车辆102。

在一些示例中，可以移除帧之间的间隙，以组合相邻的音频事件，和/或可以移除与低于阈值的时间段或帧数相关联的音频事件，如本文所讨论的。在一些示例中，这样的处理可以由检测组件408或本文讨论的其他组件来执行。

在一些示例中，检测组件408可以通过将音频数据与来自其他感知系统422的传感器数据相结合，来确定音频事件包括紧急事件，如本文所讨论的。例如，可以捕获和处理图像数据，以确定与车辆相关联的环境中是否存在闪光灯。与音频事件相关联的DoA值可以与环境中相对于车辆的第一方向相关联。如果图像数据指示闪光灯(例如，指示应急车辆)位于第一方向，则检测组件408可以增加音频事件与紧急事件相关联的置信度值。在一些示例中，可以确定闪光灯的颜色，以帮助对紧急情况类别进行分类。例如，如果闪光灯被确定为全是红色，则紧急情况分类可能与消防车有关。在另一个示例中，如果闪光灯被确定为红色和蓝色，则紧急情况分类可能与警车有关。应该理解，其他感知管道也可以与音频数据相结合，以确定应急车辆的出现。例如，可以接收激光雷达传感器数据并将其输入到机器学习模型，机器学习模型经过训练以确定在环境中应急车辆的存在。如图4所示，用于在环境中检测音频事件和/或紧急事件的示例实施方案的框图可以包括处理其他感知数据以估计DoA的一个或多个组件。

图5是根据本公开的示例、与由四个音频传感器配对检测到的音频信号相关联的特征的图示500。

图5说明了与由四个音频传感器配对(即：[110-1、110-2]、[110-7、110-8]、[110-3、110-4]和[110-5、110-6])收集的音频数据相关联的特征，用以估计图3中所示的事件2的DoA。纵向图列502示出了在音频传感器配对处接收到的两个通道音频信号。纵向图列504示出了两个通道音频信号的频谱分析以及它们的音频信号能量的平均值。纵向图列506示出了表示峰值和峰值出现处的角度的角谱。出于说明目的，纵向图列506中所示的角度值是从TDoA值转换而来的。

当事件2发生在车辆102的前部区域时，设置在车辆102的前部区域的音频传感器配对[110-1、110-2]在事件2存在的时间段内展示了四个音频传感器配对中最强的音频信号，如纵向图列502所示。设置在车辆102的前部区域上的音频传感器配对[110-1、110-2]进一步展示了在事件2存在的时间段内四个音频传感器配对中的最高能量水平，如纵向图列504所示。

纵向图列506还显示在音频传感器配对[110-1、110-2]处接收到的音频信号在79.1度角处以466.2的能量为峰值。设置在车辆102左侧的音频传感器配对[110-7、110-8]在事件2存在的时间段内显示四个音频传感器配对中第二强的音频信号，以及比音频传感器配对[110-1、110-2]更低的能量水平。纵向图列506还示出，在音频传感器配对[110-7、110-8]处接收的音频信号在90.6度角处以450.6的能量为峰值。两个音频传感器配对[110-1、110-2]和[110-7、110-8]展示了代表事件2的显著音频信号，即使事件1也存在于附近，如纵向图列502所示。设置在车辆102右侧的音频传感器配对[110-5、110-6]展示了表示事件1和事件2的混合音频信号。音频传感器配对[110-5、110-6]展示了与音频传感器配对[110-7、110-8]相似的能量水平；然而，在音频传感器配对[110-5、110-6]处接收到的音频信号在偏离音频传感器配对[110-1、110-2]和[110-7、110-8]的角度处达到峰值。设置在车辆102的后部区域的音频传感器配对[110-3、110-4]在四个音频传感器配对中表现出最弱的音频信号和最低的能量水平；然而，在音频传感器配对[110-3、110-4]处接收到的音频信号在以接近音频传感器配对[110-1、110-2]和[110-7、110-8]的峰值角度的角度处达到峰值。

图6是根据本公开的示例、与由其他四个音频传感器配对检测到的音频信号相关联的特征的图示600。纵向图列602说明在音频传感器配对处接收到的两个通道音频信号。纵向图列604示出了两个通道音频信号的频谱分析及其音频信号能量的平均值。纵向图列606示出了表示峰值和峰值出现的角度的角谱。出于说明目的，纵向图列506中所示的角度值是从TDoA值转换而来的。

图6说明了与由四个音频传感器配对(即，[110-1、110-7]、[110-1、110-6]、[110-6、110-4]和[110-4、110-7])收集的音频数据相关的特征，用来估计图3所示的事件2的DoA。音频传感器配对[110-1、110-7]由来自车辆102的前部区域的一个音频传感器和来自车辆102左侧的一个音频传感器组成。与设置在车辆102的前部区域的音频传感器配对[110-1、110-2]相比，音频传感器配对[110-1、110-7]表现出较低的能量水平，并且在音频传感器配对[110-1、110-7]处接收的音频信号在偏离音频传感器配对[110-1、110-2]的角度处达到峰值。音频传感器配对[110-1、110-6]由来自车辆102的前部区域的一个音频传感器和来自车辆102右侧的一个音频传感器形成。与设置在车辆102的前部区域的音频传感器配对[110-1、110-2]相比，音频传感器[110-1、110-6]展示了代表事件1和事件2、较低的能量水平的混合音频信号，并且在音频传感器配对[110-1、110-6]处接收到的音频信号在偏离音频传感器配对[110-1、110-2]的角度处达到峰值。音频传感器配对[110-6、110-4]由来自车辆102右侧的一个音频传感器和来自车辆102的后部区域的一个音频传感器形成。与设置在车辆102的前部区域的音频传感器配对[110-1、110-2]相比，音频传感器配对[110-6、110-4]还示出了表示事件1和事件2、较低能量水平的混合音频信号，并且在音频传感器配对[110-6、110-4]处接收的音频信号在偏离音频传感器配对[110-1、110-2]的角度处达到峰值。音频传感器配对[110-4、110-7]由来自车辆102的后部区域的一个音频传感器和来自车辆102左侧的一个音频传感器形成。与设置在车辆102的前部区域的音频传感器配对[110-1、110-2]相比，音频传感器配对[110-4、110-7]在纵向图列502中展示了显著的音频信号，但具有较低的能量水平，并且在音频传感器配对[110-4、110-7]处接收到的音频信号在偏离音频传感器配对[110-1、110-2]的角度处达到峰值。

如图5和图6所示，在音频传感器配对[110-1、110-2]、[110-3、110-4]、[110-1、110-7]和[110-6、110-4]处接收到的音频信号显示出单个峰值，而在音频传感器配对[110-7、110-8]、[110-5、110-6]、[110-1、110-6]和[110-4、110-7]处接收到的音频信号在多于一个的角度处出现峰值。多个峰值会导致在确定应急车辆的DoA时产生不明确性。此外，通过比较能量水平和峰值角度，设置在车辆102的前部区域的音频传感器配对[110-1、110-2]提供了对紧急情况出现的方位的最佳估计。因为音频传感器配对[110-1、110-2]在一个角度展示了具有最高能量的单个峰值，并且其余音频配对并不一致，DoA组件可以根据音频传感器配对[110-1、110-2]确定声音的波达方向。应当理解，可以基于设置在车辆上的音频传感器的所有可能组合，来选择或形成音频传感器配对。图5和图6中所示的示例是出于说明的目的。本公开并非旨在进行限制。

图7描绘了根据本公开的实施例、用于基于由音频传感器配对检测到的音频信号来检测应急车辆的示例过程700。本文描述的关于用于检测应急车辆的过程的操作可以由车辆计算装置110执行，如图1所示。在一些示例中，这些操作可以由车辆计算装置110的波达方向(DoA)检测组件120执行，如图1所示。

作为示例而非限制，过程700被图示为逻辑上的流程图，其每个操作表示可以在硬件、软件或其组合中实现的操作序列。在软件的背景中，这些操作表示存储在一个或多个计算机可读存储介质上的计算机可执行指令，当由一个或多个处理器执行这些指令时，执行所述操作。通常，计算机可执行指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的顺序并非旨在被解释为限制，并且可以按任何顺序和/或并行地组合(或省略)任何数量的所描述的操作，以实现该过程。在一些示例中，多个分支表示可单独使用或与本文讨论的其他操作组合使用的替代实施方案。

在操作702，该过程可以包括从与车辆相关联的多个音频传感器接收音频数据。在一些示例中，音频数据可以由设置在车辆102上的音频传感器110-1、110-2、110-3、110-4、110-5、110-6、110-7和110-8收集，如图1所示。多个音频传感器可以被设置为覆盖车辆周围的360度区域。音频数据可以表示来自车辆102所处环境中的各种音频源的声音。音频数据可以表示来自与车辆102相同方向行驶的车辆的声音、来自与车辆102相反方向行驶的车辆的声音、来自应急车辆的警报声、环境中的音乐、环境中的人类语音、环境中的狗叫声、环境中的施工噪音等。在一些示例中，警报器声可能在环境中产生的所有声音中是显著的。

在操作704，该过程可以包括从多个音频传感器中确定音频传感器配对。在一些示例中，可以基于设置在车辆上的音频传感器的所有排列或变化来任意选择或形成音频传感器配对。在一些示例中，操作704可以由DoA检测组件120的角谱估计组件402执行，如图4所示。在一些示例中，可以将多个音频传感器预先配置为设置在车辆上以面向车辆外部的不同区域的一对或多对音频传感器。例如，如图1所示，音频传感器配对[110-1、110-2]设置在车辆102的前部区域，音频传感器配对[110-3、110-4]设置在车辆102的后部区域，音频传感器配对[110-5、110-6]设置在车辆102的右侧，音频传感器配对[110-7、110-8]设置在车辆102的左侧。前部区域、后部区域、左侧和右侧是相对于车辆102的行驶方向的。在一些示例中，通过配对分别选自上述四个音频传感器配对的两个音频传感器，可以形成一个或多个附加的音频传感器配对。例如，可以形成附加的音频传感器配对[110-1、110-7]，其中音频传感器110-1和音频传感器110-7分别选自音频传感器配对[110-1、110-2]和音频传感器配对[110-7、110-8]。应当理解，基于设置在车辆102上的音频传感器的任何组合，可以形成音频传感器配对。

在操作730，该过程可以包括将音频数据离散化为多个音频帧。音频帧的长度可以预设，例如30毫秒，尽管音频帧可以与任何时间长度相关联。

在操作732，该过程可以包括将多个音频帧输入到缓冲空间中，如本文所讨论的。可以以先进先出的方式从缓冲器处理音频数据。

在操作706，该过程可以包括：至少部分地基于每个音频帧中的音频数据来估计音频传感器配对的角谱。在一些示例中，操作706可以由DoA检测组件120的角谱估计组件402执行，如图4所示。在一些示例中，可以实施具有相位变换的广义互相关(GCC-PHAT)算法，以估计音频传感器配对的角谱。角谱的估计可以至少部分地基于如下假设：DoA由单个角度表示，音频信号从该角度从远场中的音频源撞击音频传感器配对，音频信号在自由场中从音频源传播到每个音频传感器。由于可以将所计算的样本中的TDoA转换为角度的DoA，音频事件的DoA可以至少部分地基于TDoA的峰值来确定。GCC-PHAT算法(或本文讨论的其他算法)可以被实施以估计与音频传感器配对相关联的角谱，并至少部分地基于音频数据输出音频传感器配对的角谱。

在操作708，该过程可以包括：至少部分地基于角谱(或音频数据本身)来确定与音频数据相关联的特征。在一些示例中，操作708可以由DoA检测组件120的特征确定组件404执行，如图4所示。与音频数据相关联的特征可以至少部分地基于角谱来确定。在一些示例中，该特征可以选自：音频传感器配对本身的角谱、音频传感器配对的角谱的峰值、角谱的峰值处的TDoA值、音频传感器配对的能量值、频谱、本底噪声、零交叉、能量分布、互相关、机器学习嵌入等。

在一些示例中，可以对实时接收的音频数据实施机器学习组件以生成DoA值。可以设置内部缓冲器，以流式传输音频数据用于处理。由音频传感器接收的音频数据可以在每个帧时间按先进先出的顺序输入到内部缓冲器。音频数据可以以预设长度的音频帧流式输入内部缓冲器。对于每个音频帧，可以执行角谱估计，并且可以基于包含在音频帧中的数据或估计的角谱，来确定至少一个特征。在一些示例中，可以移除音频帧间隙，以组合音频事件，和/或可以移除低于阈值时间量或帧数的音频事件。

在操作710，该过程可以包括至少部分地基于特征来确定波达方向(DoA)值。在一些示例中，操作708可以由DoA检测组件120的检测组件408执行，如图4所示。参考操作706的描述，可以实施GCC-PHAT算法来估计与音频传感器配对相关联的角谱，并且至少部分地基于音频数据输出音频传感器配对的角谱。可以至少部分地基于每个音频传感器配对的估计角谱来提取一个或多个特征。在一些示例中，可以直接从音频数据中提取一个或多个特征。可以将一个或多个特征输入到机器学习模型，以融合一个或多个特征来生成DoA值。机器学习模型可以包括神经网络回归(NNR)模型。

在操作712，该过程可以包括至少部分地基于该特征来确定音频事件的发生。在一些示例中，操作708可以由DoA检测组件120的检测组件408执行，如图4所示。在一些示例中，可以至少部分地基于DoA值和音频事件分类器来确定音频事件的类别。

在操作714，该过程可以包括至少部分地基于DoA值来确定音频事件相对于车辆的方向。在一些示例中，操作708可以由DoA检测组件120的检测组件408执行，如图4所示。在一些示例中，可以至少部分地基于DoA值来确定指示音频事件的开始呈现的开始时间帧，以及至少部分地基于DoA值来确定指示音频事件的结束呈现的结束帧。在一些示例中，DoA检测组件120可以使用多普勒频移函数，至少部分地基于DoA值来确定与音频事件相关联的应急车辆是否正在接近车辆102，或者应急车辆是否正在离开车辆102。

在一些示例中，与音频数据相关联的特征可以基于原始音频数据来确定。在操作716，该过程可以包括至少部分地基于每个音频帧中的音频数据来确定与音频数据相关联的特征。

在操作718，该过程可以包括从与车辆相关联的第二感知传感器接收传感器数据。与车辆相关联的第二感知传感器可以包括激光雷达传感器、雷达传感器、图像传感器、飞行时间传感器、声纳传感器和位置传感器等中的一个或多个。在一些示例中，传感器数据还可以包括由环境传感器捕获的环境数据。在一些示例中，操作718可以包括接收其他数据，诸如对象的分割信息、分类信息、检测、对象的大小、对象的速度等。在一些示例中，操作718可以包括接收环境的地图数据，由此可以确定应急车辆的可能位置。

在操作720，该过程可以包括至少部分地基于传感器数据和特征来确定音频事件的发生。在一些示例中，传感器数据和与音频数据相关联的特征可以作为不同的参数来确定紧急情况的出现。基于传感器数据的确定和基于与音频数据相关联的特征的确定可以被分配具有不同的权重，以计算紧急情况出现的可能性，例如概率值。在至少一个示例中，可以应用图像数据来确定紧急情况的出现。DoA检测组件120可以基于图像数据确定是否捕获了应急车辆的图像。在另一个示例中，可以应用光信号，即闪光灯，来确定紧急情况的出现。闪光灯的颜色可以进一步用于确定紧急情况分类。应当理解，上述示例是出于说明的目的，本公开内容并非旨在限制。

在操作722，该过程可以包括至少部分地基于音频事件相对于车辆的方向来控制车辆。例如，可以控制车辆减速或在当前位置停止、靠路边停车、或改变到另一条车道，以为应急车辆提供通过的空间。在一些示例中，操作722可以包括生成车辆要遵循的轨迹。在一些示例中，操作722可以包括从远程计算装置(例如，远程操作员)接收指令以控制车辆。

应当理解，过程700是为了说明的目的。本公开并非旨在进行限制。在一些示例中，可以检测到多个紧急音频事件。过程700还可包括为多个紧急音频事件中的每一个紧急音频事件确定DoA或TDoA的操作。

应当理解，用于检测应急车辆DoA的音频传感器配对可以根据实时需要进行选择。应急车辆出现的不同位置可能会产生不同的音频传感器配对以用于检测。因此，一旦执行了针对应急车辆的检测，例如，操作714完成，该过程可以返回到操作704，以准备检测未来的紧急情况。

图8描绘了用于实施本文描述的技术的示例系统800的框图。

车辆102可包括一个或多个车辆计算装置804(也称为车辆计算装置804，或一个或多个车辆计算装置804)、一个或多个传感器系统806、一个或多个发射器808、一个或多个通信连接810、至少一个直接连接812和一个或多个驱动系统814。

车辆计算装置804可以包括一个或多个处理器816和与一个或多个处理器816通信耦合的存储器818。在所示示例中，车辆102是自主车辆；然而，车辆102可以是任何其他类型的车辆。在所示示例中，车辆计算装置804的存储器818存储定位组件820、感知组件822、一个或多个地图824、一个或多个系统控制器826、至少包括DoA检测组件830的声学信号处理组件828和机器学习组件832。尽管出于说明性目的在图8中将其描绘为驻留在存储器818中，但可以预期的是，定位组件820、感知组件822、一个或多个地图824、一个或多个系统控制器826、声学信号处理组件828、DoA检测组件830和机器学习组件832可以附加地，或者替代地，由车辆102可访问(例如，远程存储)。

在至少一个示例中，定位组件820可以包括从传感器系统806接收数据以确定车辆102的位置和/或方位(例如，x-、y-、z-位置、滚动、俯仰或偏航)的功能。例如，定位组件820可以包括和/或请求/接收环境的地图，并且可以连续地确定自主车辆在地图内的位置和/或方位。在一些实例中，定位组件820可以利用SLAM(同时定位和映射)、CLAMS(同时校准、定位和映射)、相对SLAM、束调整、非线性最小二乘优化等来接收图像数据、激光雷达数据、雷达数据、IMU数据、GPS数据、轮式编码器数据等，以准确确定自主车辆的位置。在一些实例中，定位组件820可以向车辆102的各个组件提供数据以确定自主车辆的初始位置，以用于生成轨迹和/或用于生成或接收地图数据，如本文所讨论的。

在一些实例中，感知组件822可以包括执行对象检测、分割和/或分类的功能。在一些示例中，感知组件822可以提供经处理的传感器数据，该数据指示靠近车辆102的实体的存在、和/或实体的分类作为实体类型(例如，汽车、行人、骑自行车的人、动物、建筑物、树木、路面、路边缘、人行横道、未知等)。在附加或替代示例中，感知组件822可以提供经处理的传感器数据，其指示与检测到的实体(例如，被跟踪的对象)和/或实体所处的环境相关联的一个或多个特征。在一些示例中，与实体相关联的特征可以包括但不限于：x位置(全局和/或局部位置)、y位置(全局和/或局部位置)、z位置(全局和/或局部位置)、方位(例如，滚动、俯仰、偏航)、实体类型(例如，分类)、实体的速度、实体的加速度、实体的范围(尺寸)等。与环境相关联的特征可以包括但不限于：环境中另一个实体的存在、环境中另一个实体的状态、一天中的某个时间、一周中的一天、季节、天气状况、黑暗/光亮的指示等。

存储器818还可包括可由车辆102用于在环境中导航的一个或多个地图824。出于讨论的目的，地图可以是在二维、三维或N维中建模的任意数量的数据结构，它们能够提供有关环境的信息，例如但不限于：拓扑结构(例如十字路口)、街道、山脉、道路、地形和一般环境。在某些实例中，地图可以包括但不限于：纹理信息(例如，颜色信息(例如，RGB颜色信息、Lab颜色信息、HSV/HSL颜色信息)等)、强度信息(例如，激光雷达信息、雷达信息等)、空间信息(例如，投影到网格上的图像数据、单个“面元”(例如，与单个颜色和/或强度相关的多边形))、反射率信息(例如，镜面反射信息、回射率信息、BRDF信息、BSSRDF信息等)。在一个示例中，地图可以包括环境的三维网格。在一些实例中，地图可以以瓦片化的格式存储，使得地图的各个瓦片表示环境的离散部分，并且可以根据需要加载到工作存储器中，如本文所讨论的。在至少一个示例中，一个或多个地图824可以包括至少一个地图(例如，图像和/或网格)。在一些示例中，可以至少部分地基于地图824来控制车辆102。在一些示例中，一个或多个地图824可以存储在远程计算装置(例如计算装置842上)，经由网络840可访问。在一些示例中，可以基于例如特征(例如，实体的类型、一天中的时间、星期几、一年中的季节等)来存储多个地图824。存储多个地图824可能具有相似的存储器需求，但增加了可以访问地图中的数据的速度。

在至少一个示例中，车辆计算装置804可以包括一个或多个系统控制器826，其可以被配置为控制车辆102的转向、推进、制动、安全、发射器、通信和其他系统。这些系统控制器826可以与驱动系统814的相应系统和/或车辆102的其他组件通信，和/或控制驱动系统814的相应系统和/或车辆102的其他组件。

在一些示例中，声学信号处理组件828可以处理由与车辆102相关联的多个音频传感器接收的音频数据，并且至少部分地基于音频数据来确定紧急情况的出现以及相对于车辆的紧急情况的方向。这样的声学信号处理组件828可以包括如本文所述的DoA检测组件(例如，图1、图4等中的DoA检测组件120)。DoA检测组件830可以接收由传感器系统806中的音频传感器收集的音频数据，以确定在考虑到各种传感器数据对的情况下的波达方向，如本文所述。

在一些示例中，声学信号处理组件828还可以包括机器学习组件832(也称为机器学习模型组件832)，其可以包括从DoA检测组件830(和/或从任何一个或多个传感器)接收与音频数据相关联的一个或多个特征并生成DoA值的功能，如本文所讨论的。

在一些实例中，本文讨论的一些或所有组件的方面可以包括任何模型、算法和/或机器学习算法。例如，在某些实例中，存储器818(以及下文讨论的存储器846)中的组件可以被实现为神经网络。

如本文所述，示例性神经网络是一种仿生算法，其将输入数据传递通过一系列连接层以产生输出。神经网络中的每一层还可以包括另一个神经网络，或可以包括任意数量的层(无论是否卷积)。如在本公开的上下文中可以理解的，神经网络可以利用机器学习，机器学习可以指代这样的算法的广泛类别，其中基于学习的参数生成输出。

尽管在神经网络的背景中进行了讨论，但可以使用与本公开一致的任何类型的机器学习。例如，机器学习算法可以包括但不限于：回归算法(例如，普通最小二乘回归(OLSR)、线性回归、逻辑回归、逐步回归、多元自适应回归样条(MARS)、局部估计散点图平滑(LOESS))，基于实例的算法(例如，岭回归，最小绝对收缩和选择算子(LASSO)，弹性网络，最小角度回归(LARS))，决策树算法(例如，分类和回归树(CART)、迭代二分法3(ID3)、卡方自动交互检测(CHAID)、决策树桩、条件决策树)、贝叶斯算法(例如，朴素贝叶斯、高斯朴素贝叶斯、多项朴素贝叶斯、平均单依赖估计器(AODE)、贝叶斯信念网络(BNN)，贝叶斯网络)，聚类算法(例如，k均值，k中值，期望最大化(EM)，层次聚类)，关联规则学习算法(例如，感知器，反向传播，跳场网络，径向基函数网络(RBFN))、深度学习算法(例如，深度玻尔兹曼机(DBM)，深度信念网络(DBN)，卷积神经网络(CNN)，堆叠自动编码器)，降维算法(例如，主成分分析(PCA)、主成分回归(PCR)、偏最小二乘回归(PLSR)、Sammon映射、多维缩放(MDS)、投影追踪、线性判别分析(LDA)、混合判别分析(MDA)、二次判别分析(QDA)、灵活判别分析(FDA))、集成算法(例如，提升、自举聚合(Bagging)、Ada提升、堆叠泛化(混合)、梯度提升机(GBM)、梯度提升回归树(GBRT)、随机森林)、SVM(支持向量机)、监督学习、无监督学习、半监督学习等。

架构的其他示例包括神经网络，例如ResNet-50、ResNet-101、VGG、DenseNet、PointNet等。

在至少一个示例中，传感器系统806可以包括激光雷达(光检测和测距)传感器、雷达(无线电检测和测距)传感器、超声换能器、声纳传感器、位置传感器(例如，GPS、指南针等)、惯性传感器(例如，惯性测量单元(IMU))、加速度计、磁力计、陀螺仪等)、相机(例如RGB、IR、强度、深度等相机)、飞行时间传感器、音频传感器、轮式编码器、环境传感器(例如温度传感器、湿度传感器、光传感器，压力传感器等)。传感器系统806可以包括这些或其他类型的传感器中的每一个的多个实例。例如，激光雷达传感器可以包括位于车辆102的拐角、前部、后部、侧部和/或顶部的各个单独的激光雷达传感器。作为另一个示例，相机传感器可以包括设置在车辆102的外部和/或内部的周围的不同位置处的多个相机。传感器系统806可以向车辆计算装置804提供输入。附加地或替代地，传感器系统806可以经由一个或多个网络840以特定频率、在预定时间段过去之后、近乎实时地等方式向一个或多个计算装置发送传感器数据。

如上所述，车辆102还可包括用于发射光和/或声音的一个或多个发射器808。该示例中的发射器808包括用于与车辆102的乘客进行通信的内部音频发射器和视觉发射器。作为示例而非限制，内部发射器可以包括扬声器、灯、标志、显示屏、触摸屏、触觉发射器(例如，振动和/或力反馈)、机械致动器(例如，座位安全带张紧器、座椅定位器、头枕定位器等)等。该示例中的发射器808还包括外部发射器。作为示例而非限制，该示例中的外部发射器包括发出行驶方向信号的灯或车辆动作的其他指示器(例如，指示灯、标志、灯阵列等)，以及一个或多个音频发射器(例如，扬声器、扬声器阵列、喇叭等)，用以与行人或其他附近的车辆以可听见的方式进行通信，其中一种或多种包括声束转向技术。

车辆102还可以包括一个或多个通信连接810，其实现车辆102与一个或多个其他本地或远程计算装置之间的通信。例如，通信连接810可以促进与车辆102和/或驱动系统814上的其他本地计算装置的通信。而且，通信连接810可以允许车辆与其他附近的计算装置(例如，其他附近的车辆、交通信号灯等)进行通信。通信连接810还使车辆102能够与远程遥操作计算装置或其他远程服务进行通信。

通信连接810可以包括物理和/或逻辑接口，用于将车辆计算装置804连接到另一个计算装置或网络，例如网络840。例如，通信连接810可以实现基于Wi-Fi的通信，例如通过IEEE 802.11标准定义的频率、例如蓝牙的短距无线频率、蜂窝通信(例如，2G、3G、4G、4GLTE、5G等)或任何合适的有线或无线通信协议，这些使相应的计算装置能够与其他计算装置通过接口连接。

在至少一个示例中，车辆102可以包括一个或多个驱动系统814。在一些示例中，车辆102可以具有单个驱动系统814。在至少一个示例中，如果车辆102具有多个驱动系统814，各个驱动系统814可以被定位在车辆102的相对端(例如，前部和后部等)。在至少一个示例中，驱动系统814可以包括一个或多个传感器系统，用以检测驱动系统814的状况和/或车辆102的周围环境。作为示例而非限制，传感器系统可以包括：一个或多个轮式编码器(例如，旋转编码器)，以感测驱动系统的轮组的旋转；惯性传感器(例如，惯性测量单元、加速度计、陀螺仪、磁力计等)，用以测量驱动系统的方位和加速度；相机或其他图像传感器；超声波传感器，用于以声学方式检测驱动系统的周围中的对象；激光雷达传感器；雷达传感器等。某些传感器(例如轮式编码器)可能是驱动系统814独有的。在一些情况下，驱动系统814上的传感器系统可以重叠或补充车辆102的相应系统(例如，传感器系统806)。

驱动系统814可以包括许多车辆系统，包括：高压电池；推进车辆的发动机；将来自电池的直流电转换成交流电以供其他车辆系统使用的逆变器；转向系统，包括转向马达和转向齿条(可以是电动的)；包括液压或电动致动器的制动系统；包括液压和/或气动元件的悬架系统；用于分配制动力以减轻牵引力损失并保持控制的稳定性控制系统；HVAC系统；灯光(例如，用于照亮车辆外部环境的头灯/尾灯等照明)和一个或多个其他系统(例如，冷却系统、安全系统、车载充电系统、其他电气组件，例如DC/DC转换器、高压接头、高压电缆、充电系统、充电端口等)。另外，驱动系统814可以包括驱动系统控制器，该驱动系统控制器可以接收和预处理来自传感器系统的数据并且控制各种车辆系统的操作。在一些示例中，驱动系统控制器可以包括一个或多个处理器、和与一个或多个处理器通信耦合的存储器。存储器可以存储一个或多个组件以执行驱动系统814的各种功能。此外，驱动系统814还可以包括一个或多个通信连接，其使相应驱动系统能够与一个或多个其他本地或远程计算装置进行通信。

在至少一个示例中，直接连接812可以提供物理接口，用以将一个或多个驱动系统814与车辆102的车身耦合。例如，直接连接812可以允许在驱动系统814和车辆之间传递能量、流体、空气、数据等。在一些情况下，直接连接812可以进一步将驱动系统814以可释放的方式固定到车辆102的车身。

在一些示例中，车辆102可以经由网络840向一个或多个计算装置842发送传感器数据。在一些示例中，车辆102可以向计算装置842发送原始传感器数据。在其他示例中，车辆102可以将处理后的传感器数据和/或传感器数据的表示信息发送到计算装置842。在一些示例中，车辆102可以以特定频率、在预定时间段过去之后、接近实时等方式发送传感器数据到计算装置842。在一些情况下，车辆102可以将传感器数据(原始的或已处理的)作为一个或多个日志文件发送到计算装置842。

计算装置842可以包括一个或多个处理器844和存储训练组件848的存储器846。

在一些实例中，训练组件848可以包括训练机器学习模型以生成与检测到的应急车辆相关联的DoA值的功能。例如，训练组件848可以接收与紧急事件相关联的一组音频数据，以及与其相关联的特征/参数。在一些情况下，该组音频数据可以表示环境中在一段时间内的声音，例如5分钟、5小时、1天、1周等。该组音频数据的至少一部分可以用作训练机器学习模型的输入，并且该组音频数据的至少一部分可以用作训练机器学习模型的基准真相(ground truth)信息。作为非限制性示例，可以将音频数据帧序列的第一组(例如，3、4、5或更多)输入到机器学习模型中。紧接在先的第一组的音频数据帧序列中，第二组音频数据(或与之相关的特征信息--例如，通过提取角谱、角谱的峰值和/或角谱峰值处的TDoA值等)然后可以用作训练模型的基准真相。因此，通过提供环境中过去检测到的应急车辆的音频数据，DoA检测组件可以有效地检测应急车辆的出现和应急车辆的方位，如本文所讨论的。

在一些示例中，训练组件848可以包括已经由模拟器生成的训练数据。例如，模拟的训练数据可以表示在环境中测试音频源的示例，以提供额外的训练示例。

车辆102的处理器816和计算装置842的处理器844可以是能够执行指令以处理数据并执行如本文所述的操作的任何合适的处理器。作为示例而非限制，处理器816和844可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)、或处理电子数据以将该电子数据转换为可存储在寄存器和/或存储器中的其他电子数据的任何其他器件或器件的一部分。在一些示例中，集成电路(例如，ASIC等)、门阵列(例如，FPGA等)和其他硬件器件也可以被认为是处理器，只要它们被配置为实施编码的指令。

存储器818和846是非暂时性计算机可读介质的示例。存储器818和846可以存储操作系统和一个或多个软件应用程序、指令、程序和/或数据，用以实现本文描述的方法和归属于各种系统的功能。在各种实施方式中，存储器可以使用任何合适的存储器技术来实施，例如静态随机存取存储器(SRAM)、同步动态RAM(SDRAM)、非易失性/闪存型存储器、或能够存储信息的任何其他类型的存储器。这里描述的架构、系统和各个元件可以包括许多其他逻辑的、编程的和物理的组件，其中在附图中示出的那些组件仅仅是与这里的讨论相关的示例。

在一些情况下，存储器818和846可以至少包括工作存储器和储存存储器。例如，工作存储器可以是用于存储要由处理器816和844操作的数据的容量有限的高速存储器(例如，高速缓冲存储器)。在一些实例中，存储器818和846可以包括储存存储器，该储存存储器可以是用于长期存储数据的容量相对较大的低速存储器。在一些情况下，处理器816和844可能不直接对存储在储存存储器中的数据进行操作，并且可能需要将数据加载到工作存储器中以基于数据执行操作，如本文所讨论的。

应当注意，虽然图8被示为分布式系统，但在替代示例中，车辆102的组件可以与计算装置842相关联，和/或计算装置842的组件可以与车辆102相关联。即，车辆102可以执行与计算装置842相关联的一个或多个功能，反之亦然。

示例条款

A.一种系统，包括：一个或多个处理器；以及一个或多个计算机可读介质，存储可由所述一个或多个处理器执行的指令，其中所述指令在被执行时使所述系统执行以下操作，包括：从与车辆相关的一对音频传感器接收音频数据；至少部分地基于音频数据的一部分来确定角谱数据；至少部分地基于角谱数据确定与音频数据相关联的特征；将特征输入到机器学习模型中；从机器学习模型接收与音频数据相关联的波达方向(DoA)值；至少部分地基于音频数据确定与应急车辆相关联的声音的出现；以及至少部分地基于DoA值确定应急车辆相对于车辆的方向。

B.根据段落A所述的系统，其中：音频数据包括随时间的过去而捕获的多个音频帧，确定角谱数据包括确定多个角谱，该多个角谱中的角谱与多个音频帧中的音频帧相关联，确定特征包括确定多个特征，该多个特征中的特征与多个角谱中的角谱相关联，以及将特征输入到机器学习模型中包括将多个特征输入到机器学习模型中。

C.根据段落A或B所述的系统，其中，特征包括以下至少之一：角谱数据的分布；角谱数据的峰值；波达时间差(TDoA)；或音频数据的能量值。

D.根据段落A至C中任一段所述的系统，其中：将音频数据离散化为多个音频帧；其中确定声音的出现包括：将至少一部分音频数据输入到分类器中；以及从分类器接收声音的分类，该分类包括救护车警报器类别、警察用警报器类别、或消防车警报器类别中的一个或多个，并且其中操作进一步包括：确定指示声音的开始呈现的开始时间帧；以及确定指示声音的结束呈现的结束时间帧。

E.根据段落A至D中任一段所述的系统，该操作还包括：确定在声音的开始呈现处开始并在声音的结束呈现处结束的事件；确定与事件相关联的音频帧的计数；当与事件相关联的音频帧的计数小于阈值时，移除该事件。

F.一种方法，包括：从与车辆相关的第一音频传感器和第二音频传感器接收音频数据；确定与音频数据相关联的特征；至少部分地基于特征确定与音频数据相关联的波达方向(DoA)值；至少部分地基于音频数据确定音频事件的发生；至少部分地基于DoA值确定音频事件相对于车辆的方向；以及至少部分地基于音频事件相对于车辆的方向来控制车辆。

G.根据段落F所述的方法，其中，与车辆相关联的第一音频传感器和第二音频传感器包括以下中的至少一个：与车辆的前部区域相关联的两个音频传感器；与车辆左侧相关联的两个音频传感器；与车辆的后部区域相关联的两个音频传感器；或与车辆右侧相关联的两个音频传感器；其中，前部区域、后部区域、左侧和右侧是相对于车辆的行驶方向的。

H.根据段落F或G所述的方法，进一步包括：确定音频事件包括紧急事件；进一步至少部分地基于包括紧急事件的音频事件来控制车辆，其中控制车辆包括停止车辆或将车辆改变到另一车道中的至少一项。

I.根据段落F至H中任一段所述的方法，进一步包括：至少部分基于广义互相关相位变换算法(GCC-PHAT)、多重信号分类(MUSIC)算法、或状态相干变换(SCT)算法之一来确定角谱，其中：至少部分地基于角谱确定与音频数据相关联的特征。

J.根据段落F至I中任一段所述的方法，其中：音频数据包括多个音频帧，该方法还包括：至少部分地基于多个音频帧中的音频帧来确定第一音频传感器和第二音频传感器的角谱；至少部分地基于角谱确定与音频帧相关联的一个或多个参数；以及至少部分地基于一个或多个参数来确定与音频帧相关联的波达方向(DoA)值。

K.根据段落F至J中任一段所述的方法，其中：一个或多个参数包括以下至少一项：与角谱相关联的分布；与角谱相关联的峰值；波达时间差(TDoA)值；音频数据的能量值；频谱；本底噪声；噪声谱；零交叉；能量分布；互相关；或机器学习嵌入。

L.根据段落F至K中任一段所述的方法，其中，音频数据被离散化为多个音频帧；其中确定音频事件的发生包括：将至少一部分音频数据输入到分类器中；从分类器接收音频事件的分类，该分类包括救护车警报器类别、警察用警报器类别、或消防车警报器类别中的一种或多种，其中该方法还包括：确定指示音频事件的开始呈现的开始音频帧；以及确定指示音频事件的结束呈现的结束音频帧。

M.根据段落F至L中任一段所述的方法，进一步包括：确定在第一开始音频帧和第一结束音频帧之间发生的第一音频事件；确定与第一音频事件相关联的音频帧的计数；以及当与第一音频事件相关联的音频帧的计数小于阈值时，移除第一音频事件。

N.根据段落F至M中任一段所述的方法，进一步包括：确定在第二开始音频帧和第二结束音频帧之间发生的第二音频事件；确定在第三开始音频帧和第三结束音频帧之间发生的第三音频事件；确定第二音频事件和第三音频事件之间的音频帧的计数；以及当音频帧的计数小于阈值时，移除第二音频事件与第三音频事件之间的音频帧的计数。

O.根据段落F至N中任一段所述的方法，进一步包括：至少部分地基于多普勒频移，确定接近车辆的音频事件或在远离车辆的方向行进的音频事件中的至少一项。

P.根据段落F至O中任一段所述的方法，其中，音频事件包括以下至少之一：紧急声音类别，包括救护车警报器类别、警察用警报器类别、或消防车警报器类别中的至少一种；或非紧急声音类别，包括发动机声音类别、音乐声音类别、雷鸣声音类别或语音声音类别中的至少一种。

Q.一种存储指令的非暂时性计算机可读介质，当执行所述指令时，使一个或多个处理器执行操作，包括：从与车辆相关联的第一音频传感器和第二音频传感器接收音频数据；确定与音频数据相关联的特征；至少部分地基于特征确定与音频数据相关联的波达方向(DoA)值；至少部分地基于音频数据确定音频事件的发生；以及至少部分地基于DoA值确定音频事件相对于车辆的方向；以及至少部分地基于音频事件相对于车辆的方向来控制车辆。

R.根据段落Q所述的非暂时性计算机可读介质，其中，音频数据包括多个音频帧，该操作还包括：至少部分地基于多个音频帧中的音频帧，确定第一音频传感器和第二音频传感器的角谱；至少部分地基于角谱确定与音频帧相关联的一个或多个参数；以及至少部分地基于一个或多个参数来确定与音频帧相关联的波达方向(DoA)值。

S.根据段落Q或R所述的非暂时性计算机可读介质，其中，一个或多个参数包括以下至少之一：角谱的分布；角谱的峰值；波达时间差(TDoA)值；音频数据的能量值；频谱；本底噪声；噪声谱；零交叉；能量分布；互相关；或机器学习的嵌入。

T.根据段落Q至S中任一段所述的非暂时性计算机可读介质，其中，音频数据被离散化为多个音频帧；其中确定音频事件的发生包括：将至少一部分音频数据输入到分类器中；以及从分类器接收音频事件的分类，该分类包括救护车警报器类别、警察用警报器类别、或消防车警报器类别中的一个或多个，以及其中操作进一步包括：确定指示音频事件的开始呈现的开始时间帧；以及确定指示音频事件的结束呈现的结束时间帧。

虽然上述示例条款是针对一种特定实现方案进行描述的，但应理解，在本文的上下文中，示例条款的内容还可以通过方法、装置、系统、计算机可读介质和/或其他实现方式来实现。此外，示例A-T中任一示例可以单独实施或与示例A-T中任何其他一个或多个组合实施。

结论

尽管已经描述了本文描述的技术的一个或多个示例，但其各种改变、添加、排列和等同元素都包括在本文描述的技术的范围内。

在示例的描述中，参考了构成其一部分的附图，这些附图通过图解的方式示出了要求保护的主题的具体示例。应当理解，可以使用其他示例并且可以进行改变或变型，例如结构改变。这样的示例、改变或变型不一定脱离关于预期要求保护的主题的范围。尽管本文中的步骤可以以特定顺序呈现，但在某些情况下，可以改变顺序以便在不同时间或以不同顺序提供某些输入，而不改变所描述的系统和方法的功能。公开的程序过程也可以按不同的顺序执行。另外，本文中的各种计算不需要按照所公开的顺序执行，并且可以容易地实现使用计算的替代排序的其他示例。除了重新排序之外，这些计算还可以分解为具有相同结果的子计算。

Claims

1.一种系统，包括：

一个或多个处理器；以及

一个或多个计算机可读介质，存储可由所述一个或多个处理器执行的指令，其中所述指令在被执行时使所述系统执行操作，所述操作包括：

从与车辆相关联的一对音频传感器接收音频数据；

确定与所述音频数据相关联的特征；

将所述特征输入到机器学习模型中；

从所述机器学习模型接收与所述音频数据相关联的波达方向(DoA)值；

至少部分地基于所述音频数据，确定与音频事件相关联的声音的出现；以及

至少部分地基于所述DoA值，确定所述音频事件相对于所述车辆的方向。

2.根据权利要求1所述的系统，还包括：

至少部分地基于所述音频数据的一部分来确定角谱数据，

其中：所述音频数据包括随着时间推移而捕获的多个音频帧，所述角谱数据包括多个角谱，所述多个角谱中的角谱与所述多个音频帧中的音频帧相关联，

确定所述特征包括确定多个特征，所述多个特征中的特征与所述多个角谱中的角谱相关联，以及

将所述特征输入到所述机器学习模型中包括：将所述多个特征输入到所述机器学习模型中。

3.根据权利要求1或2所述的系统，其中：

所述特征包括以下各项中的至少一项：

所述角谱数据的分布；

所述角谱数据的峰值；

波达时间差(TDoA)；或者

所述音频数据的能量值；

所述音频事件包括以下各项中的至少一项：

紧急声音类别，包括救护车用警报器类别、警察用警报器类别、或消防车用警报器类别中的至少一种；或者

非紧急声音类别，包括发动机声音类别、音乐声音类别、雷鸣声音类别或说话声音类别中的至少一种。

4.根据权利要求1至3所述的系统，其中：

所述音频数据被离散化为多个音频帧；

其中确定所述声音的出现包括：

将至少一部分所述音频数据输入分类器；以及

从所述分类器接收所述声音的分类，所述分类包括救护车用警报器类别、警察用警报器类别、或消防车用警报器类别中的一个或多个，以及

其中所述操作还包括：

确定指示所述声音的开始呈现的开始时间帧；以及

确定指示所述声音的结束呈现的结束时间帧。

5.根据权利要求4所述的系统，所述操作还包括：

确定在所述声音的开始呈现处开始、并在所述声音的结束呈现处结束的事件；

确定与所述事件相关联的音频帧的计数；以及

当与所述事件相关联的音频帧的计数小于阈值时，移除所述事件。

6.一种方法，包括：

从与车辆相关联的第一音频传感器和第二音频传感器接收音频数据；

确定与所述音频数据相关联的特征；

至少部分地基于所述特征，确定与所述音频数据相关联的波达方向(DoA)值；

至少部分地基于所述音频数据，确定音频事件的发生；

至少部分地基于所述DoA值，确定所述音频事件相对于所述车辆的方向；以及

至少部分地基于所述音频事件相对于所述车辆的方向，控制所述车辆。

7.根据权利要求6所述的方法，其中，与所述车辆相关联的第一音频传感器和第二音频传感器包括以下各项中的至少一项：

与所述车辆的前部区域相关联的两个音频传感器；

与所述车辆的左侧相关联的两个音频传感器；

与所述车辆的后部区域相关联的两个音频传感器；或者

与所述车辆的右侧相关联的两个音频传感器；

其中，所述前部区域、所述后部区域、所述左侧和所述右侧是相对于所述车辆的行驶方向的。

8.根据权利要求6或7所述的方法，还包括：以下各项中的至少一项：

(i)确定所述音频事件包括紧急事件；以及进一步至少部分地基于包括所述紧急事件的音频事件来控制所述车辆，其中，控制所述车辆包括停止所述车辆、或将所述车辆改变到另一车道中的至少一项，或者

(ii)至少部分地基于多普勒频移，确定接近所述车辆的音频事件、或在远离所述车辆的方向上行进的所述音频事件中的至少一项。

9.根据权利要求6或7所述的方法，还包括：至少部分地基于广义互相关相位变换算法(GCC-PHAT)、多重信号分类(MUSIC)算法或状态相干变换(SCT)算法中的一种算法来确定角谱，其中：

至少部分地基于所述角谱，确定与所述音频数据相关联的所述特征。

10.根据权利要求6或7所述的方法，其中：

所述音频数据包括多个音频帧，所述方法还包括：

至少部分地基于所述多个音频帧中的音频帧，确定所述第一音频传感器和所述第二音频传感器的角谱；

至少部分地基于所述角谱，确定与所述音频帧相关联的一个或多个参数；以及

至少部分地基于所述一个或多个参数，确定与所述音频帧相关联的波达方向(DoA)值。

11.根据权利要求10所述的方法，其中，所述一个或多个参数包括以下各项中的至少一项：

与所述角谱相关联的分布；

与所述角谱相关联的峰值；

波达时间差(TDoA)值；

所述音频数据的能量值；

频谱；

本底噪声；

噪声谱；

零交叉；

能量分布；

互相关；或者

机器学习嵌入。

12.根据权利要求6或7所述的方法，其中

将所述音频数据离散化为多个音频帧；

其中确定所述音频事件的发生包括：

将所述音频数据的至少一部分输入到分类器；以及

从所述分类器接收所述音频事件的分类，所述分类包括救护车用警报器类别、警察用警报器类别、或消防车用警报器类别中的一个或多个，以及

其中所述方法还包括：

确定指示所述音频事件的开始呈现的开始音频帧；以及

确定指示所述音频事件的结束呈现的结束音频帧。

13.根据权利要求12所述的方法，还包括：

确定在第一开始音频帧和第一结束音频帧之间发生的第一音频事件；

确定与所述第一音频事件相关联的音频帧的计数；以及

当与所述第一音频事件相关联的音频帧的计数小于阈值时，移除所述第一音频事件。

14.根据权利要求12所述的方法，还包括：

确定在第二开始音频帧和第二结束音频帧之间发生的第二音频事件；

确定在第三开始音频帧和第三结束音频帧之间发生的第三音频事件；

确定所述第二音频事件和所述第三音频事件之间的音频帧的计数；以及

当所述音频帧的计数小于阈值时，移除所述第二音频事件和所述第三音频事件之间的音频帧的所述计数。

15.一种计算机程序产品，包括编码的指令，当所述编码的指令在计算机上运行时，实施根据权利要求6至14中任一项所述的方法。