CN109803207A

CN109803207A - 对周围声音中的音频信号的标识以及响应于该标识的对自主交通工具的引导

Info

Publication number: CN109803207A
Application number: CN201811208638.9A
Authority: CN
Inventors: S·阿科特卡; M·拉姆泰克; T·伯克莱特; S·森达拉姆
Original assignee: Intel Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2017-11-17
Filing date: 2018-10-17
Publication date: 2019-05-24
Also published as: DE102018125713A1; US10747231B2; US20190049989A1; CN115038018A

Abstract

描述了对周围声音中的音频信号的标识以及响应于该标识的对自主交通工具的引导。实施例包括用于计算机辅助或自主驾驶(CA/AD)系统的装置、系统和方法，该计算机辅助或自主驾驶(CA/AD)系统用于标识和响应音频信号，例如紧急警报信号。在实施例中，CA/AD驱动系统可包括多个麦克风，这多个麦克风被设置成包括在周围声音中的音频信号捕捉到半自主或自主(SA/AD)车辆。在实施例中，音频分析单元可接收音频信号以从音频信号提取音频特征。在实施例中，诸如深度神经网络(DNN)之类的神经网络可从音频分析单元接收所提取音频特征并且生成概率得分以允许对音频信号的标识。在实施例中，CA/AD驾驶系统可响应于标识来控制SA/AD车辆的驾驶元件以自主或半自主地驾驶SA/AD车辆。也描述和要求保护其它实施例。

Description

对周围声音中的音频信号的标识以及响应于该标识的对自主交通工具的引导

技术领域

本发明的实施例一般涉及音频分析的技术领域，并且更具体地涉及至少部分地基于对可环绕或邻近于半自主或自主(SA/AD交通工具)的音频信号的分析来检测SA/AD交通工具的环境中的紧急交通工具和/或其他特殊交通工具或急迫情形。

背景技术

本文中所提供的背景描述是出于总体上呈现本公开的上下文的目的。当前的发明者所署名的文献，就其在本背景技术部分所描述的程度，以及其在本申请提交之时不可作为现有技术的说明书的诸方面，既不可明显地，也不可隐含地被承认是本公开的现有技术。除非在本文中另外指出，本部分中所描述的方法不是本公开的权利要求的现有技术，也不通过被包括在本部分内的方式被承认是现有技术。

专家预测，在未来几年内，约有1000万辆半自主或自主驾驶(SA/AD)交通工具可能在路上行驶。对于SA/AD交通工具，监视环境并在很少或没有人为输入的情况下对各种危险或不可预见的事故作出响应是至关重要的。一个示例包括对急迫情形(诸如例如，发出警报和/或闪烁车灯的逼近的紧急交通工具或其他特定交通工具)的适当响应。

附图简述

通过下列具体实施方式并结合所附附图，可容易地理解实施例。为了便于该描述，同样的参考编号指示同样的结构元件。在所附附图的图中以示例方式而不以限制方式说明实施例。

图1是根据各实施例的与半自主或自主驾驶(SA/AD)交通工具的计算机辅助或自主(CA/AD)驾驶系统相关联的框图100。

图2是例示出根据各实施例的图1的CA/AD驾驶系统的框图200。

图3是进一步详细例示出与图1和2的CA/AD驾驶系统相关联的实施例的框图300。

图4是根据各种实施例的与图1-3相关联的示例神经网络分类器400的图。

图5例示出根据各实施例的示例系统500。

图6示出根据各实施例的具有用于实施参考图1-5所述的方法的指令的存储介质600。

图7例示出其中可实施各实施例的示例环境700。

具体实施方式

在下列具体实施方式中，参考了形成本文一部分的所附附图，其中，自始至终，同样的参考标号表示同样的部分，并且其中通过可实施的说明性实施例来示出。应理解，可利用其它实施例并作出结构或逻辑改变而不背离本公开的范围。因此，以下具体实施方式不旨在作为限制，并且实施例的范围由所附权利要求及其等效方案来限定。

按照在理解要求保护的主题时最有帮助的方式，可将各操作依次描述为多个分立的动作或操作。然而，不应当将描述的次序解释为暗示这些操作必然取决于次序。具体而言，可以不按照呈现的次序来执行这些操作。能以不同于所描述的实施例的次序执行所描述的操作。在附加的实施例中，可执行各种附加操作和/或可省略所描述的操作。

为了本公开的目的，短语“A和/或B”和“A或B”的意思是(A)、(B)或(A和B)。为了本公开的目的，短语“A、B、和/或C”意思是(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。

说明书可使用短语“在实施例中”或“在诸实施例中”，它们各自可指代相同或不同实施例中的一个或多个。此外，相对于本公开的实施例使用的术语“包含”、“包括”、“具有”等是同义的。还要注意“邻近”可意指接近、在...上、在...上方、在….下方、附连、耦合至、附近、环绕、部分环绕等。如本文中所使用的，术语“电路系统”可指代一部分或包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享的、专用的、或组)和/或存储器(共享的、专用的、或组)、组合逻辑电路和/或提供所描述的功能的其他合适的硬件组件。如本文中所使用的“计算机实现的方法”可指代由一个或多个处理器、具有一个或多个处理器的计算机系统、诸如智能手机(其可包括一个或多个处理器)、平板电脑、膝上型计算机、机顶盒、游戏主机之类的移动设备等所执行的任何方法。本文描述的实施例包括用于标识和响应在半自主或自主驾驶(SA/AD)交通工具外部或邻近处产生的音频信号的计算机辅助或自主驾驶(CA/AD)系统。在实施例中，音频信号可被包括在SA/AD交通工具可行进通过的周围声音中。相应地，在实施例中，SA/AD交通工具可包括能被设置成捕捉音频信号的多个麦克风。在实施例中，音频分析单元或模块可从多个麦克风或从多个麦克风中的一个或多个的适当组合接收音频信号，并将音频信号划分成多个帧(还被称为“音频分析帧”)以允许从多个帧中的一个或多个提取音频特征。在实施例中，神经网络分类器(诸如，深度神经网络(DNN))可被耦合至音频分析模块以接收所提取音频特征并生成针对多个帧中的一个或多个的概率得分，以对多个帧中的一个或多个进行分类，从而允许对音频信号的标识。在实施例中，CA/AD驾驶系统可进一步包括耦合至SA/AD交通工具的视频处理相机，用于在与音频信号相关联的警报帧可被捕捉的方向上捕捉视频。在实施例中，CA/AD驾驶系统不仅可标识与紧急交通工具相关联的警报信号，还可辅助SA/AD交通工具响应警报信号。如本文所使用的，术语半自主驾驶与计算机辅助驾驶同义。该术语并不意指确有50％的驾驶功能是自动化的。自动化驾驶功能的百分比可以是驾驶操作的百分比的一小部分至100％，和/或对小部分驾驶操作可暂时是100％。

图1是根据各实施例的与计算机辅助或自主(CA/AD)驾驶系统101相关联的框图100。在实施例中，半自主或自主驾驶(SA/AD)交通工具102的CA/AD驾驶系统101可在其他事物之中标识音频信号(例如，可源于SA/AD交通工具102的外部或邻近处的紧急交通工具的音频信号104)。在实施例中，CA/AD驾驶系统101可包括耦合至或以其他方式与SA/AD交通工具102相关联并被设置成捕捉音频信号104的多个麦克风(图2中所示)。在实施例中，SA/AD交通工具102可行进通过周围声音且音频信号104可被包括在周围声音中。注意，在各种其他实施例中，音频信号104可以是源于除紧急交通工具之外的源的音频信号，例如来自经过或接近SA/AD交通工具的另一SA/AD或其他交通工具的广播消息。在实施例中，第一框108的传感器中的多个(例如，多个麦克风)可被设置在SA/AD交通工具102中、上或周围以捕捉周围声音中的音频信号104。在实施例中，通信接口可从多个麦克风接收包括在邻近于SA/AD交通工具的周围声音中的音频信号。

在实施例中，如所示，CA/AD驾驶系统101可进一步包括下一框110处的音频分析模块，用于从多个麦克风或其他源接收音频信号并将音频信号划分成多个帧，例如实施例中的音频信号的有限数量的数据样本。在实施例中，框110的音频分析模块随后可从多个帧中的一个或多个提取音频特征。接下来，对于该实施例，可耦合框112的分类器(诸如例如，诸如深度神经网络(DNN)之类的神经网络)以从音频分析模块接收所提取音频特征。在实施例中，DNN可生成针对多个帧中的一个或多个的概率得分以允许对音频信号104的标识。在实施例中，在框114处，决策单元可确认音频信号104的身份和/或随后控制SA/AD交通工具102的驾驶元件来对与音频信号104相关联的情形(例如，SA/AD交通工具102的位置)作出响应。

图2是进一步例示出根据各实施例的图1的CA/AD驾驶系统101的框图200。如上文参考图1的框图简要描述的，在实施例中，SA/AD交通工具102的CA/AD驾驶系统101可包括多个麦克风201，这多个麦克风201可包括耦合至交通工具控制系统或机载计算机218的一个或多个麦克风阵列。注意为了易于例示，机载计算机218位于交通工具102的前部，然而，在各种实施例中，机载计算机218可位于交通工具102的任何其他合适位置中。类似地，在各种实施例中，多个麦克风201可分布于交通工具102中、上或周围的各种位置以捕捉来自基本360度范围的信号。在一些实施例中，音频分析模块和分类器(例如，图1的框110的音频分析模块和框112的分类器)可与多个麦克风201中的麦克风中的一个或多个集成，和/或被包括在多个麦克风201中的麦克风中的一个或多个之中、之上，或者以其他方式设置于或耦合至多个麦克风201中的麦克风中的一个或多个以对音频信号(例如，从多个麦克风201接收的音频信号104)执行音频分析。因此，在此类实施例中，多个麦克风201可包括用于对音频信号执行音频分析模块和/或分类器的功能的本地处理单元。在其他实施例中，音频分析模块和分类器可被包括在SA/AD交通工具102中的机载计算机中以从多个麦克风201接收音频信号。在一些实施例中，一个或多个通信接口206可被配置成从多个麦克风201接收音频信号104。通信接口206可与进一步参考图5讨论的通信接口510类似。在实施例中，一个或多个通信接口206还可接收其他传感器数据(诸如，分别由相机收集的视频相机数据、GPS数据)或者帮助CA/AD驾驶系统标识音频信号的其他数据。

在实施例中，CA/AD驾驶系统101可进一步包括驾驶元件209。在实施例中，驾驶元件209可包括引擎211、电马达213、传动装置215、制动系统219、电池221和轮子223。在实施例中，机载计算机218可包括决策单元220、通信控制模块222、导航控制系统226、以及操纵控制模块228。注意在一些实施例中，如202处指示的，多个麦克风201可包括其自己的决策单元220。因此，在此类实施例中，多个麦克风201可包括用于执行与决策单元220相关联的功能和/或音频分析模块和分类器的功能(如上所述)的本地处理单元。注意在一些实施例中，多个麦克风201可以是半智能的并且可提供例如从分类器(结合图4)到机载计算机218的中间分类输出。在各实施例中，机载计算机218依然可包括其自己的决策单元220。在一些实施例中，除以下描述的功能之外，决策单元220可巩固和处理由多个麦克风201中的一个或多个递送的信息。在实施例中，CA/AD驾驶系统101可包括SA/AD交通工具102。相应地，在实施例中，机载计算机218可被耦合以响应于来自决策单元220的指导来自主或半自主地驾驶SA/AD交通工具102。在实施例中，CA/AD驾驶系统200可包括机载计算机218的输出接口(未示出)，该输出接口被耦合以响应于检测到的音频信号(参考图4进一步讨论)中的一个或多个帧的分类来自主或半自主地控制SA/AD交通工具102的导航。注意在一些实施例中，多个麦克风201中的一个或多个可执行波束成形以与检测到的音频信号相关联的方向上操纵音频束。

相应地，在实施例中，决策单元220可被耦合以从分类器接收概率得分并实现低通滤波器和阈值比较模块来确定相关联音频信号是否包括紧急警报信号(“警报信号”)。相应地，在多个麦克风201可与决策单元220集成和/或包括决策单元220的实施例中，决策或下一动作可由多个麦克风201独立地确定，并且随后可通知框218。在实施例中，决策单元220还可响应于警报信号来帮助确定用于SA/AD交通工具102的下一动作。例如，在一些实施例中，决策单元220可与导航控制系统226以及来自云(例如，图7的云705)的信息一起工作以确定警报信号的位置并且因此紧急交通工具可能正在逼近。例如，在一些实施例中，其他SA/AD交通工具102可直接或经由云来提供对包括在其他SA/AD交通工具102的附近的周围声音中的音频信号的音频分析的结果以帮助SA/AD交通工具102标识音频信号。类似地，SA/AD交通工具102可直接或经由云向区域中的其他SA/AD交通工具102提供对包括在SA/AD交通工具102附近的周围声音中的音频信号的其特有的音频分析的结果。相应地，在实施例中，除由决策单元220从DNN获得的概率得分之外，决策单元220可接收来自包括在其他SA/AD交通工具102(未示出)中的其他CA/AD驾驶系统101的数据分组、来自云和/或网络基础结构(例如，蜂窝通信网络的核网络元件等)的数据分组和/或数据流、来自机载导航系统(例如，全球导航卫星系统(GNSS)、全球定位系统(GPS)等)的导航信令/数据等。

此外，在实施例中，导航控制系统226可根据上文控制操纵控制模块228来帮助控制特定驾驶元件209以引导SA/AD交通工具102。例如，导航控制系统226可接收紧急交通工具的大致位置并控制操纵控制模块228来允许与音频信号相关联的紧急交通工具经过SA/AD交通工具102。相应地，在实施例中，诸如各自可位于例如SA/AD交通工具102上的225的基于视觉的相机、雷达以及光检测和测距(LIDAR)传感器可被耦合至导航控制系统226以响应于警报信号来帮助将SA/AD交通工具102引导至一位置。注意，前述技术是出于示例性目的而呈现的，并且可预期能提供合适的图像捕捉或传感器数据以辅助SA/AD交通工具102进行导航的任何合适的技术。

因此，决策单元220可进一步与导航控制系统226一起工作以确定SA/AD交通工具102应该如何以及何时响应警报信号，例如，是否减速或停靠路边或采取其他行动。在一些实施例中，决策单元220可确定应该启动与紧急交通工具的通信。因此，通信控制模块222(将结合图5和图7进一步描述其组件)可向紧急交通工具传送消息或从紧急交通工具接收消息以协调SA/AD交通工具102对紧急交通工具的位置的响应。

接下来，图3是进一步详细例示出与图1和2的CA/AD驾驶系统相关联的实施例的框图300。如图所示，在实施例中，在框305处，SA/AD交通工具102可包括多个麦克风301，包括安装或设置在SA/AD交通工具102外部之中、之上或邻近处的一个或多个麦克风或麦克风阵列。在实施例中，多个麦克风301可被设置成将周围声音中的音频信号捕捉到SA/AD交通工具。例如，如图3所示，在实施例中，多个麦克风301可包括安装或设置在SA/AD交通工具102尾部之中、之上或邻近处的一个或多个麦克风，安装或设置在SA/AD交通工具102的一个或多个侧面之中、之上或邻近处的麦克风中的一个或多个，以及安装或设置在SA/AD交通工具102的前部之中、之上或邻近处的一个或多个麦克风。在实施例中，多个麦克风301可包括以捕捉环绕SA/AD交通工具102的基本360度范围的音频信号的方式设置的麦克风。注意，虽然在一些实施例中预期基本360度的范围，但应该理解在其他实施例中所选麦克风可被用于获得较小采样区域。例如，在一些实施例中，特定分析可需要较少输入或者较多的焦点输入，诸如接收并分析与SA/AD交通工具102的特定区域(例如，轮舱或其他交通工具组件)有关的声音。

在一些实施例中，音频分析模块和神经网络分类器可被包括在麦克风301中的一个或多个中、与麦克风301中的一个或多个集成、和/或被包括在麦克风301中的一个或多个之中或之上、邻近地位于或者以其他方式设置于或耦合至麦克风301中的一个或多个以执行对音频信号(例如，从多个麦克风201接收的图1的音频信号104)的音频分析。在其他实施例中，音频分析模块和神经网络分类器可被包括在机载计算机218或嵌入或耦合至SA/AD交通工具102的其他计算机中以从多个麦克风201接收音频信号。因此，在实施例中，在框307处，音频分析模块可从多个麦克风301接收音频信号并且可将音频信号划分成多个帧。在一些实施例中，音频分析模块可用适当步进(step)大小将音频信号划分成具有大致20-70毫秒(ms)的持续时间的帧。在实施例中，音频分析模块经由窗口函数将音频信号划分成固定长度的区段。在实施例中，区段可重叠使得步进大小可与窗口大小不同。例如，在一些实施例中，窗口大小可包括大致20-70ms的范围，其中步进大小范围为大致5-20ms。应该理解，这些范围都是大致的且仅被提供用于示例性目的，如窗口大小和/步进大小可针对特定音频信号的音频分析的性能而变化。

在实施例中，音频分析模块然后可从一个或多个帧提取音频特征(例如，Mel(梅尔)频率倒谱系数(MFCC))音频特征。在实施例中，MFCC音频特征可对噪声具有稳健性。因此，在实施例中，可每隔例如10毫秒(ms)提取多个MFCC(例如，13个MFCC)，然后通过倒谱均值标准化来进一步处理。在实施例中，快速傅里叶变换(FFT)可将10ms的汉明或汉宁取窗(hamming or hanning-windowed)信号变换到频域中。然后，在各种实施例中，可将其转换为Mel尺度并通过具有例如24的输出特征尺寸的离散余弦变换(DCT)来进一步处理。在实施例中，在下一框309处，音频分析模块可将多个帧的多个MFCC特征向量堆叠到一个或多个音频分析帧的左侧和右侧，以捕捉与音频信号相关联的时间模式。在实施例中，音频分析模块可堆叠多个帧以对应于音频信号的持续时间。例如，在实施例中，与例如在当前分析帧之前发生的37个音频帧中的每一个相关联的MFCC特征向量和例如在当前分析帧之后出现的37个音频帧中的每一个的MFCC特征向量可被堆叠一起，得到总共75个MFCC特征向量。在实施例中，音频分析模块可将MFCC特征向量堆叠在一起以计算与一个或多个音频帧相关联的空间特征向量。在当前实施例中，可以计算例如1800的空间特征向量(75×24)。

因此，在实施例中，在框311处，音频分析模块可通过附加DCT来进一步减小1800的维度向量。例如，在一些实施例中，可通过0.16的帧缩减比率来减小维度向量，以得到288的输出特征维度。在一些实施例中，附加DCT可减少多个输出特征维度，以便简化或减少计算。应当理解，上面提供的数字中的每一个仅用于示例性目的，并且可以根据例如音频信号的持续时间和/或要应用的分析类型来预期任何其他合适的值范围。

接下来，图4是根据各种实施例的与图1-3相关联的示例神经网络分类器的图。在实施例中，神经网络分类器400可以是包括多个隐藏层405的深度神经网络(DNN)。在实施例中，在左侧框402处，288的输出特征维度(例如，在图3的示例中的每10ms提取13个MFCC以及输出特征尺寸24的情况下)可以是神经网络分类器400的输入。在实施例中，如所示，神经网络分类器400可包括多个隐藏层405，每个隐藏层可包括多个神经元(诸如例如，96个神经元)。如图4实施例所示，神经网络分类器400可包括具有九个输出类别409的四个隐藏层。在一些实施例中，可以使用具有大量肯定音频样本(例如，警报信号)和否定样本(例如，非警报信号)的反向传播来训练神经网络分类器400。同样，如结合图3类似地指出的，应当理解，上面提供的数字中的每一个仅用于示例性目的，并且DNN的隐藏层的任何其他合适的值范围、每层内的神经元的数量、以及输出类别可能会有所不同。

在实施例中，神经网络分类器400可包括先前用多个音频输出样本训练的DNN，这多个音频输出样本包括以下中的至少一者：警报声音、脉冲声音、动物声音、家庭背景声音、婴儿和儿童声音、成人声音、包括语音、电视、无线电的媒体声音、以及其他常发生的音频信号。在一些实施例中，可用能帮助DNN生成概率得分的前述多个音频输出样本和/或声音类别中的某个或多个来预先训练DNN。注意，在实施例中，尽管图4中仅示出了四个隐藏层405，但是隐藏层405可表示具有不同数量以及不同数量的神经元和输出类别的多个隐藏层。如结合图1所述，在实施例中，DNN可生成概率得分以指示一个或多个多个帧是包括警报还是非警报帧。

注意，在各种实施例中，神经网络分类器可延伸超过前馈DNN，并且可包括卷积神经网络(CNN)、递归神经网络(RNN)、长短期记忆(LSTM)神经网络和/或其组合中的一个或多个。注意，上面使用反向传播用于示例性目的，并且可使用其他训练。例如，在一些实施例中，可以使用附加方法和规则化来有效地训练神经网络分类器。在实施例中，一些示例可以包括权重衰减、L1/L2正则化、小批量学习，退出和预训练。在各种实施例中，这种各种附加方法和规则化可防止过度拟合。

图5例示了可适于使用以实践本公开的所选方面的示例计算设备500。在实施例中，计算设备500可被包括如上面参考图1-4所描述的SA/AD交通工具的CA/AD驾驶系统中。在实施例中，CA/AD驾驶系统可被包括在行进通过周围声音的自主或自主驾驶(SA/AD)交通工具中，并且CA/AD驾驶系统可包括被设置成捕捉包括在周围声音中的音频信号的多个麦克风。在一些实施例中，计算设备500可包括交通工具控制系统或机载计算机，例如机载计算机218。在一些实施例中，计算设备500的一个或多个元件可被包括在多个麦克风(例如，多个麦克风201或301)中。

在所例示的实施例中，系统500可包括一个或多个处理器或处理器核502、以及存储器504。出于本申请(包括权利要求书)的目的，术语“处理器”指的是物理处理器，且术语“处理器”和“处理器核”可被认为是同义的，除非上下文另外清楚地作出要求。另外，计算设备500可包括大容量存储设备506(诸如，软盘、硬盘驱动器、光盘只读存储器(CD-ROM)等)、通信接口510(诸如，网络接口卡、调制解调器、红外接收器、无线电接收器(例如，蓝牙)等)。可经由系统总线512将这些元件彼此耦合，系统总线512可表示一个或多个总线。在多个总线的情况下，可由一个或多个总线桥(未示出)来桥接它们。

在实施例中，通信接口510可被包括在例如图2的通信控制模块222中，并且包括一个或多个通信芯片，并且可实现用于往返于计算设备500的数据传输的有线和/或无线通信。在一些实施例中，通信接口510可包括包含传送器和接收器的收发机，或者包括收发机的通信芯片。术语“无线”和其衍生物可用于描述可使用通过非固态介质调制的电磁辐射来传递数据的电路、设备、系统、方法、技术、通信信道等。尽管相关联的设备在一些实施例中可能不包含任何线，但是该术语并不暗示相关联的设备不包含任何线。通信接口510可实现多种无线标准或协议的任何一个，包括但不限于IEEE 702.20、长期演进(LTE)、LTE高级(LTE-A)、通用分组无线服务(GPRS)、演进数据最优化(Ev-DO)、演进型高速分组接入(HSPA+)、演进型高速下行链路分组接入(HSDPA+)、演进型高速上行链路分组接入(HSUPA+)、全球移动通信系统(GSM)、GSM演进增强型数据速率(EDGE)、码分多址(CDMA)、时分多址(TDMA)、数字增强型无绳电信(DECT)、全球微波互联接入(WiMAX)、蓝牙、其衍生物和称为3G、4G、5G以及进一步的任何其他无线协议。通信接口510可包括多个通信芯片。例如，第一通信芯片可专用于较短程的无线通信(诸如Wi-Fi和蓝牙)，而第二通信芯片可专用于较长程的无线通信(诸如GPS、EDGE、GPRS、CDMA、WiMAX、LTE、Ev-DO以及其它)。

上述这些元件中的每一个可执行其本领域中已知的常规功能。具体而言，CA/AD驾驶系统可被用于存储和主持(host)对实现与以下相关联的操作的编程指令的执行：捕捉音频信号、从音频信号的一个或多个音频帧提取音频特征、以及由DNN基于所提取音频特征来将一个或多个音频帧分类成警报或非警报帧以指示紧急交通工具的存在或不存在，如结合图1-4所描述的那样。在其他实施例中，CA/AD驾驶系统可被用于存储和主持对实现与以下相关联的操作的编程指令的执行：确定响应、以及响应于如结合图1-4描述的紧急警报信号来控制SA/AD交通工具的驾驶元件以自主或半自主地驾驶SA/AD交通工具。

在实施例中，前述编程指令可被统称为计算逻辑522，该计算逻辑522提供当前公开中描述的实施例的能力。可通过由(诸)处理器502支持的汇编指令或可编译成此类指令的诸如例如C之类的高级语言来实现各种元件。可在硬件中(例如，经由硬件加速器505)实现与基于针对要在不以软件实现的一个或多个处理器上操作的应用的功率信息来控制功耗相关联的操作。可在硬件加速器中实现与控制驾驶元件或确定未在软件中实现的服务提供商指派(如结合图1-4来描述的)相关联的操作的方面。

这些元件502-522的数量、能力和/或容量可根据计算设备500被配置成支持的其他设备的数量来变化。在其他方面，元件502-522的构成是已知的，并相应地将不作进一步描述。

如本领域技术人员将理解的那样，本公开可以具体化为方法或计算机程序产品。相应地，除了如先前所述被具体化在硬件中之外，本公开还可采取以下的至少部分形式：软件实施例(包括固件、驻留软件、微代码等)、或组合一般可被统称为“电路”、“模块”或“系统”的软件和硬件方面的实施例。

此外，本公开可采取计算机程序产品的形式，该计算机程序产品具体化在表达的任何有形的或非瞬态介质中，该表达具有具体化在该介质中的计算机可用的程序代码。图6示出示例计算机可读的非瞬态存储介质，其适用于存储指令，响应于由设备对这些指令的执行，这些指令使该设备实施本公开的所选择的多个方面。如图所示，非瞬态计算机可读存储介质602可包括数条编程指令604。编程指令604可被配置成响应于对编程指令的执行使设备(例如，CA/AD驾驶系统101)执行例如如图1-4中讨论的各种操作。

在替代实施例中，相反，可将这些编程指令604设置在多个计算机可读非瞬态存储介质602上。在替代实施例中，可将编程指令604设置在诸如信号之类的计算机可读瞬态存储介质602上。可以利用一种或多种计算机可用或计算机可读介质的任何组合。计算机可用或计算机可读介质可以是例如但不限于，电子、磁、光、电磁、红外或半导体系统、装置、设备或传播介质。计算机可读介质的更具体的示例(非排他性列表)将包括下述项：具有一条或多条线的电连接件、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式压缩盘只读存储器(CD-ROM)、光存储设备、诸如支持互联网或内联网的传动装置介质的传动装置介质或磁存储设备。注意，计算机可用或计算机可读介质甚至可以是在其上打印有程序的纸张或另一合适的介质，因为程序可以经由例如对纸张或其他介质的光学扫描而被电子地捕获，随后被编译、被解释，或以其他合适的方式被处理，如有必要，并随后被存储在计算机存储器中。在本文档的上下文中，计算机可用或计算机可读介质可以是可以包含、存储、通信、传播、或传动装置程序以供指令执行系统、装置或设备使用或结合指令执行系统、装置或设备一起使用的任何介质。计算机可用介质可包括被传播的数据信号与随其具体化在基带中或作为载波的一部分的计算机可用程序代码。可使用任何合适的介质来传送该计算机可用程序代码，该任何合适的介质包括但不限于无线、有线、光纤缆线、RF等。

用于执行本公开的操作的计算机程序代码可以一种或多种编程语言的任意组合来编写，包括面向对象编程语言(例如Java、Smalltalk、C++等等)以及常规程序化编程语言(诸如“C”编程语言或类似的编程语言)。该程序代码可完全在用户的计算机上执行，部分地在用户的计算机上执行，作为独立式软件包执行，部分地在用户的计算机上并且部分地在远程计算机上执行，或完全在远程计算机或服务器上执行。在后一场景中，可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))将远程计算机连接至用户的计算机，或可作出至外部计算机的该连接(例如，通过使用互联网服务提供商的互联网)。

参照根据本公开的各实施例的流程图说明和/或方法、装备(系统)和计算机程序产品的框图描述了本公开。将会理解，可由计算机程序指令来实现流程图说明和/或框图的每一个框以及流程图说明和/或框图中的框的组合。可将这些计算机程序指令提供给通用计算机、专用计算机、或其他可编程数据处理装置的处理器来生产机器，使得经由计算机或其他可编程数据处理装置的处理器执行的这些指令创建用于实现流程图和/或框图的一个或多个框中所指定的功能/动作的装置。

也可将这些计算机程序指令存储在可指示计算机或其他可编程数据处理装置按照特定方式运作的计算机可读介质中，使得存储在该计算机可读介质中的这些指令生产制品，该制品包括实现流程图和/或框图的一个或多个框中所指定的功能/动作的指令装置。

也可将这些计算机程序指令加载到计算机或其他可编程数据处理装置上以使一系列操作步骤在该计算机或其他可编程装置上执行来产生计算机实现的进程，使得在该计算机或其他可编程装置上执行的这些指令提供用于实现流程图和/或框图的一个或多个框中所指定的功能/动作的进程。

多个图中的流程图和框图示出根据本公开的各实施例的系统、方法和计算机程序产品的可能的实现的架构、功能和操作。在这方面，流程图或框图中的每一个框可表示包括用于实现所指定的逻辑功能的一条或多条可执行指令的代码模块、代码段或代码部分。还应当注意，在一些替代实现中，框中所标注的多个功能可不按图中所标注的顺序发生。例如，取决于所涉及的功能，实际上可基本上同时执行连续地示出的两个框，或者有时可按相反的顺序来执行这些框。也将注意，可由执行所指定功能或动作的专用基于硬件的系统或专用硬件和计算机指令的多种组合来实现框图和/或流程图说明中的每一个框和框图和/或流程图说明中的多个框的组合。

图7示出了环境700，其中可实践参考图1-6描述的各种实施例。环境700包括交通工具702、无线接入节点703和云计算服务/系统705。在实施例中，交通工具702可以是SA/AD交通工具，包括包含驾驶元件的CA/AD驾驶系统711以及用于检测音频信号的多个麦克风和被耦合以从多个麦克风接收检测到的音频信号并从检测到的音频信号提取音频特征的处理引擎。在实施例中，DNN可对检测到的音频信号的一个或多个帧进行分类。在实施例中，SA/AD交通工具可包括机载计算机的输出接口，该输出接口被耦合以响应于对检测到的音频信号的一个或多个帧的分类来向驾驶元件发送信号以自主地或半自主地控制SA/AD交通工具的导航。

在一些实施例中，CA/AD驾驶系统711可确定应该启动与紧急交通工具的通信。因此，CA/AD驾驶系统711可包括通信控制模块，该通信控制模块可向紧急交通工具传送消息或从紧急交通工具接收消息以协调SA/AD交通工具702对紧急交通工具的位置的响应。在实施例中，CA/AD驾驶系统711可包括交通工具控制系统，用于响应于紧急警报信号的方向或紧急交通工具的确定位置将SA/AD交通工具的元件驾驶到一位置。在各种实施例中，决策单元(例如，决策单元220)可与云705通信以辅助确定用于对警报信号作出响应的动作过程。

出于示例性目的，已经提供了以下描述，其将交通工具702例示为道路环境中的客车。然而，本文描述的实施例也适用于任何类型的交通工具，例如卡车、公共汽车、摩托车、船或摩托艇、和/或可受益于如结合附图1-6所描述的CA/AD驾驶系统的任何其他机动设备。例如，诸如船、快艇、渡船、驳船、气垫船、其他水上交通工具等之类的水上交通工具也可受益于对周围声音中的音频信号的识别。本文描述的实施例还可以在所描述的实施例的精神内适用于飞行物体，诸如太空火箭、飞机、无人机、无人驾驶飞行器(UAV)、和/或可受益于对可被包括在邻近于此类机动设备的周围声音中的音频信号的标识的任何其他类似的机动设备。

交通工具702可以是用于运输人员或货物的任何类型的机动交通工具或设备，其可配备用于驾驶、停车、乘客舒适性和/或安全性等的控制。如本文所用的术语“马达”、“机动的”可指将一种形式的能量转换成机械能的设备，并且可包括内燃机(ICE)、压缩内燃机(CCE)、电动机和混合动力(例如，包括ICE/CCE和电动机)。尽管图7仅示出了单个交通工具702，但是交通工具702可以表示具有不同品牌、型号、装饰等的多个体机动交通工具，这些交通工具在本文中可以统称为“交通工具702”。

在实施例中，交通工具702可包括CA/AD驾驶系统711，该CA/AD驾驶系统711可包括耦合至机载计算机的驾驶元件和机载计算机的输出接口，该输出接口机载被耦合来向驾驶元件发送信号以将交通工具自主地或半自主地驾驶至服务提供商来对警报信号作出响应。在实施例中，机载计算机可以是安装在交通工具上、构建至交通工具中或以其他方式嵌入于交通工具中的并且能够控制复杂命令和与半自主或自主交通工具相关联的控制功能的任何类型的计算机设备。如上所述，在实施例中，由机载计算机获得的数据可包括来自嵌入于交通工具702之中、之上或周围的一个或多个麦克风的传感器数据、来自包括在其他交通工具702(未示出)中的其他机载计算机的数据分组、来自云705和/或网络基础结构(例如，蜂窝通信网络的核网络元件等)的数据分组和/或数据流、来自机载导航系统(例如，全球导航卫星系统(GNSS)、全球定位系统(GPS)等)的导航信令/数据等。

例如，如结合图2所述的，交通工具702可包括例如LIDAR传感器725(例如，用于在环境中定位其本身和其他物体)。在实施例中，来自LIDAR传感器725以及一个或多个视频相机(未示出)的信号可包括对机载计算机的传入传感器数据。注意，出于示例性的目的呈现LIDAR技术，并且可预期能提供合适图像捕捉或传感器数据以辅助交通工具进行导航的任何合适的技术。在实施例中，高性能敏感设备(例如，诸如例如但不限于中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA))可协作以分析传入传感器数据。

在实施例中，CA/AD系统711的机载计算机还可包括以下各项或结合以下各项来操作以便获得针对各种源的数据：通信电路系统和/或输入/输出(I/O)接口电路系统。交通工具702的通信电路系统可经由无线接入节点703与云705通信。无线接入节点703可以是被配置成向与无线接入节点703相关联的覆盖区域或单元内的移动设备(例如，交通工具702中的机载计算机或某些其他合适设备)提供无线通信服务的一个或多个硬件计算机设备。无线接入节点703可包括传送器/接收器(或替代地，收发机)，该传送器/接收器被连接至一个或多个天线、一个或多个存储器设备、一个或多个处理器、一个或多个网络接口控制器和/或其他类似组件。一个或多个传送器/接收器可被配置成经由链路(例如，链路707)向一个或多个移动设备传送数据信号/从一个或多个移动设备接收数据信号。此外，一个或多个网络接口控制器可被配置成在另一回程连接(未示出)上与各种网络元件(例如，核网络内的一个或多个服务器等)进行传送/接收。在实施例中，机载计算机可生成数据并通过链路707将数据传送至无线接入节点703，并且无线接入节点703可通过回程链路709将数据提供至云705。因此，在交通工具702的操作期间，无线接入节点703可通过链路709从云705获得用于机载计算机的数据，并且可通过链路707向机载计算机提供此数据，例如用于补充关于紧急交通工具的位置的信息的附加数据(或者用于辅助决策单元220确定下一动作的附加信息)。交通工具702中的通信电路系统可根据如本文讨论的一个或多个无线通信协议来与无线接入节点703通信。

作为示例，无线接入节点703可以是与蜂窝网络相关联的基站(例如，LTE网络中的eNB、新无线电访问技术(NR)网络中的gNB、WiMAX基站等)、RSU、远程无线电头端、中继无线电设备、小蜂窝基站(例如，毫微微蜂窝、微微蜂窝、家庭演进型节点B(HeNB)等)、或其他类似网络元件。在其中无线接入节点是基站的实施例中，无线接入节点703可被部署在门外以在交通工具702在大范围内操作时(例如，当被部署在公共道路、街道、高速公路上时，等等)为交通工具702提供通信。

在一些实施例中，无线接入节点703可以是网关(GW)设备，该网关设备可包括一个或多个处理器、通信系统(例如，包括网络接口控制器、连接至一个或多个天线的一个或多个传送器/接收器，等等)以及计算机可读介质。在此类实施例中，GW可以是无线接入点(WAP)、家庭/商业服务器(具有或不具有射频(RF)通信电路)、路由器、交换机、集线器、无线电信标和/或任何其他类似网络设备。在其中无线接入节点703是GW的实施例中，无线接入节点703可被部署在室内环境中，诸如车库、工厂、实验室或测试设施，并且可被用于在停放时、在开放市场上出售之前、或以其他方式不在大范围内操作时提供通信。

在实施例中，云705可表示因特网、一个或多个蜂窝网络、局域网(LAN)或广域网(WAN)，包括专有和/或企业网络、传输控制协议(TCP)/基于因特网协议(IP)的网络、或其组合。在此类实施例中，云705可与拥有或控制提供网络相关服务所必需的装备和其他元件的网络操作者相关联，诸如一个或多个基站或接入点(例如，无线接入节点703)、用于路由数字数据或电话呼叫的一个或多个服务器(例如，核网络或骨干网络)等。用于经由此类服务进行通信的实现、组件和协议可以是本领域已知的，并且为了简洁起见而在此省略。

在一些实施例中，云705可以是提供对计算资源池的访问的计算机设备(例如，数据中心或数据仓库内或与数据中心或数据仓库相关联的服务器、存储设备、应用等)的系统。术语“计算资源”可以指计算环境内和/或特定计算机设备内的物理或虚拟组件，诸如存储器空间、处理器时间、电功率、输入/输出操作、端口或网络插座等。在这些实施例中，云705可以是：私有云，其向单个组织提供云服务；公共云，其向公众提供计算资源并在所有客户/用户之间共享计算资源；或者混合云或虚拟私有云，其使用一部分资源来提供公共云服务同时使用其他专用资源来提供私有云服务。例如，混合云可包括私有云服务，该私有云服务也为某些应用或用户利用一个或多个公共云服务，诸如提供从各种数据存储或数据源获得数据。在实施例中，公共云管理平台(例如，被实现为跨云705和数据库系统而主存的各种虚拟机和应用)可协调向交通工具702的机载计算机的数据递送。用于经由此类服务进行通信的实现、组件和协议可以是本领域已知的，并且为了简洁而在此省略。

以下提供一些非限制性示例。

示例1是一种计算机辅助或自主驾驶(CA/AD)装置，用于标识被包括在邻近于半自主或自主驾驶(SA/AD)交通工具的周围声音中的音频信号，该CA/AD驾驶装置包括：通信接口，该通信接口用于从耦合至SA/AD交通工具的多个麦克风接收音频信号；音频分析单元，该音频分析单元被耦合以从通信接口接收音频信号并且用于将音频信号划分成多个帧，以及从多个帧中的一个或多个帧提取音频特征；以及神经网络分类器，该神经网络分类器被耦合以从音频分析单元接收所提取特征并且生成多个帧中的一个或多个帧的概率得分来对多个帧中的一个或多个帧进行分类，以允许对音频信号的标识。

示例2是示例1的CA/AD驾驶装置，进一步包括多个麦克风，并且将包括设置在SA/AD交通工具外部之中、之上、周围或邻近处的一个或多个麦克风。

示例3是示例1的CA/AD驾驶装置，其中神经网络分类器包括先前用多个音频输入样本训练的深度神经网络(DNN)，多个音频输入样本包括以下中的至少一者：警报声音、脉冲声音、动物声音、家庭背景声音、婴儿和儿童声音、成人声音、媒体声音，媒体声音包括语音、电视、无线电等。

示例4是示例1的CA/AD驾驶装置，其中概率得分用于指示多个帧中的一个或多个包括警报帧还是非警报帧，并且CA/AD驾驶装置进一步包括机载计算机，该机载计算机用于接收概率得分并且用于确定音频信号是否与紧急交通工具相关联。

示例5是示例1的CA/AD驾驶装置，其中音频分析单元用于提取包括多个mel频率倒谱系数(MFCC)帧向量的音频特征。

示例6是示例1的CA/AD驾驶装置，进一步包括多个麦克风，以及与多个麦克风集成、耦合至多个麦克风、或者以其他方式邻近于多个麦克风的本地处理单元，其中本地处理单元将包括音频分析单元和神经网络分类器。

示例7是示例1的CA/AD驾驶装置，其中述多个麦克风中的一个或多个麦克风用于执行波束成形来在与音频信号相关联的方向上操纵音频束。

示例8是示例1的CA/AD驾驶装置，进一步包括耦合至SA/AD交通工具的视频处理相机，视频处理相机用于从捕捉到与音频信号相关联的警报帧的方向捕捉视频。

示例9是示例1-8中任一项的CA/AD驾驶装置，其中CA/AD驾驶装置包括SA/AD交通工具并且其中驾驶元件包括以下中的一者或多者：引擎、电马达、制动系统、驾驶系统、轮子、传动装置、以及电池。

示例10是示例1-8中任一项的CA/AD驾驶装置，其中CA/AD驾驶装置包括SA/AD交通工具并且进一步包括导航控制模块，该导航控制模块用于接收紧急交通工具的大致位置，以及用于控制操纵模块，该操纵模块用于允许与音频信号相关联的紧急交通工具经过SA/AD交通工具。

示例11是示例1-8中任一项的CA/AD驾驶装置，其中CA/AD驾驶装置包括SA/AD交通工具，并且CA/AD驾驶装置将响应于对音频信号的标识来控制SA/AD交通工具的驾驶元件以自主地或半自主地驾驶SA/AD交通工具。

示例12是示例1-8中任一项的CA/AD驾驶装置，进一步包括耦合至导航控制模块以辅助引导SA/AD交通工具对与音频信号相关联的紧急交通工具的位置作出响应的、基于视觉的相机、雷达、以及光检测和测距(LIDAR)传感器中地至少一者。

示例13是一种用于标识警报信号以向半自主或自主驾驶(SA/AD)交通工具警告紧急交通工具的存在的方法，该方法包括：由耦合至SA/AD交通工具并且被设置成捕捉的麦克风阵列捕捉至少部分地环绕或邻近于SA/AD交通工具的音频信号；由麦克风阵列将音频信号提供至分析单元；由分析单元从麦克风阵列接收音频信号；由分析单元从音频信号的一个或多个音频帧提取音频特征并将音频特征提供至神经网络；以及由神经网络基于所提取音频特征将一个或多个音频帧分类成警报帧或非警报帧以指示紧急交通工具的存在或不存在。

示例14是示例13的方法，其中神经网络是深度神经网络(DNN)，并且其中由DNN将一个或多个音频帧分类成警报帧或非警报帧包括生成与一个或多个音频帧中的每个音频帧相关联的概率得分。

示例15是示例13的方法，其中由分析单元提取音频特征包括从一个或多个音频帧提取多个mel频率倒谱系数(MFCC)特征向量。

示例16是示例15的方法，其中由分析单元提取音频特征包括将针对多个帧的多个MFCC特征向量堆叠至一个或多个音频帧的左侧和右侧以计算与一个或多个音频帧相关联的维度特征向量。

示例17是示例16的方法，进一步包括执行离散余弦变换(DCT)来降低维度特征向量的维数。

示例18是一种或多种非瞬态计算机可读介质，包含存储于其上的指令，响应于对指令的执行，该指令使计算机辅助或自主驾驶(CA/AD)系统：由多个麦克风捕捉音频信号，其中多个麦克风将被耦合至SA/AD交通工具并被设置成捕捉包括在SA/AD交通工具的周围声音中的音频信号；由多个麦克风将音频信号提供至音频分析单元；由音频分析模块从音频信号的一个或多个音频帧提取音频特征以指示紧急交通工具邻近于SA/AD交通工具而存在的可能性；以及当紧急交通工具的存在的可能性被指示时，由CA/AD驾驶系统控制交通工具控制系统来半自主或自主地驾驶SA/AD交通工具以对紧急交通工具的位置作出响应。

示例19是示例18的计算机可读介质，其中用于由CA/AD驾驶系统控制交通工具控制系统来半自主或自主地驾驶SA/AD交通工具的指令包括用于由导航控制系统响应于紧急交通工具的存在确定SA/AD交通工具的导航的指令。

示例20是示例18的计算机可读介质，其中用于由音频分析模块从音频信号的一个或多个音频帧提取音频特征的指令包括用于从一个或多个音频帧提取多个mel频率倒谱系数(MFCC)特征向量的指令。

示例21是示例18-20中任一项的计算机可读介质，其中用于由CA/AD驾驶系统从一个或多个音频帧提取音频特征的指令进一步包括用于向深度神经网络(DNN)提供音频特征以供分类成警报帧或非警报帧的指令。

示例22是示例18-21中任一项的计算机可读介质，其中用于由CA/AD驾驶系统从一个或多个音频帧提取音频特征的指令进一步包括用于将音频信号划分成具有大致20-30毫秒的持续时间的帧的指令。

示例23是一种系统，该系统包括：用于捕捉包括在半自主或自主驾驶(SA/AD)交通工具的周围声音中的音频信号的装置，其中SA/AD交通工具用于行进通过周围声音；以及用于从音频信号的一个或多个音频帧提取音频特征以指示紧急交通工具邻近于SA/AD交通工具而存在的可能性的装置。

示例24是示例23的系统，进一步包括用于控制交通工具控制系统来控制SA/AD交通工具的驾驶元件以对紧急交通工具的存在作出响应的装置。

示例25是示例23的系统，其中用于捕捉音频信号的装置将包括用于执行波束成形来在与音频信号相关联的方向上操纵音频束的装置。

示例26是一种计算机辅助或自主驾驶(CA/AD)系统，用于辅助半自主或自主驾驶(SA/AD)交通工具标识SA/AD交通工具的周围声音中的音频信号，CA/AD系统包括：驾驶元件；多个麦克风，这多个麦克风被耦合至驾驶元件并且位于SA/AD交通工具外部的邻近处以检测音频信号；机载计算机，该机载计算机被耦合以从多个麦克风接收检测到的音频信号，并且用于：从检测到的音频信号提取音频特征，以及将所提取音频特征提供至深度神经网络(DNN)以允许DNN对检测到的音频信号的一个或多个帧进行分类；以及机载计算机的输出接口，该输出接口被耦合以响应于对检测到的音频信号的一个或多个帧的分类向驾驶元件发送信号来自主或半自主地控制SA/AD交通工具的导航。

示例27是示例26的CA/AD系统，其中CA/AD系统包括SA/AD交通工具并且其中驾驶元件包括以下中的一者或多者：引擎、电马达、制动系统、驾驶系统、轮子、传动装置、以及电池。

示例28是示例26的CA/AD系统，其中CA/AD系统包括SA/AD交通工具并且进一步包括导航控制模块，用于接收逼近的紧急交通工具的大致位置并控制操纵模块来驾驶SA/AD交通工具以允许逼近的紧急交通工具经过SA/AD交通工具。

示例29是示例26的CA/AD系统，其中机载计算机包括DNN和机载计算机，用于进一步提供与包括在至少九个输出类别中的一个中的声音类型相关联的概率得分。

示例30是示例26的CA/AD系统，其中机载计算机进一步实现低通滤波器和阈值比较模块以确定与概率得分相关联的声音类型。

示例31是示例26-30中任一项的CA/AD系统，其中CA/AD系统包括SA/AD交通工具并且进一步包括导航控制模块，该导航控制模块用于接收与检测到的音频信号相关联的紧急交通工具的大致位置，以及用于控制驾驶元件以紧急交通工具对紧急交通工具的位置作出响应。

示例32是示例31的CA/AD系统，进一步包括耦合至导航控制模块以辅助将SA/AD交通工具引导至响应于音频信号的大致方向而确定的物理位置的、基于视觉的相机、雷达、以及光检测和测距(LIDAR)传感器中的至少一者。

示例33是示例26的CA/AD系统，其中DNN包括先前用多个音频输入样本训练的DNN，多个音频输入样本包括以下中的一者或多者：警报声音、脉冲声音、动物声音、家庭背景声音、婴儿和儿童声音、成人声音、媒体声音，该媒体声音包括语音、电视、无线电等。

虽然出于描述目的已在本文中说明和描述了某些实施例，但是本申请旨在包含本文所讨论的实施例的任何改编或变型。因此，明确地旨在仅由权利要求来限定本文所描述的实施例。其中本公开记载“一个”或“第一”元件或其等效物，这种公开包括一个或多个这种元件，既不要求也不排除两个或多个这种元件。此外，对于被标识的元件的按顺序的指示(例如，第一、第二或第三)是用于在元件之间区分，而不指示或暗示要求或限制数量的这种元件，它们也不指示这种元件的特定位置或顺序，除非以其他方式具体说明。

如前述，多个图中的流程图和框图示出根据本公开的各实施例的系统、方法和计算机程序产品的可能的实现的架构、功能和操作。在这方面，流程图或框图中的每一个框可表示包括用于实现所指定的逻辑功能的一条或多条可执行指令的代码模块、代码段或代码部分。还应当注意，在一些替代实现中，框中所标注的多个功能可不按图中所标注的顺序发生。例如，取决于所涉及的功能，实际上可基本上同时执行连续地示出的两个框，或者有时可按相反的顺序来执行这些框。也将注意，可由执行所指定功能或动作的专用基于硬件的系统或专用硬件和计算机指令的多种组合来实现框图和/或流程图说明中的每一个框和框图和/或流程图说明中的多个框的组合。如本文中所使用的“计算机实现的方法”可指代由一个或多个处理器、具有一个或多个处理器的计算机系统、诸如智能手机(其可包括一个或多个处理器)、平板电脑、膝上型计算机、机顶盒、游戏主机之类的移动设备等所执行的任何方法。

Claims

1.一种计算机辅助或自主驾驶CA/AD装置，用于标识被包括在邻近于半自主或自主驾驶SA/AD交通工具的周围声音中的音频信号，所述CA/AD驾驶装置包括：

通信接口，所述通信接口用于从耦合至所述SA/AD交通工具的多个麦克风接收音频信号；

音频分析单元，所述音频分析单元被耦合以从所述通信接口接收所述音频信号，并且用于：

将所述音频信号划分成多个帧；以及

从所述多个帧中的一个或多个帧提取音频特征；以及

神经网络分类器，所述神经网络分类器被耦合以从所述音频分析单元接收所提取特征并且生成所述多个帧中的一个或多个帧的概率得分来对所述多个帧中的一个或多个帧进行分类，以允许对所述音频信号的标识。

2.如权利要求1所述的CA/AD驾驶装置，其特征在于，进一步包括多个麦克风，并且包括设置在所述SA/AD交通工具外部之中、之上、周围或邻近处的一个或多个麦克风。

3.如权利要求1所述的CA/AD驾驶装置，其特征在于，所述神经网络分类器包括先前用多个音频输入样本训练的深度神经网络DNN，所述多个音频输入样本包括以下中的至少一者：警报声音、脉冲声音、动物声音、家庭背景声音、婴儿和儿童声音、成人声音、媒体声音，所述媒体声音包括语音、电视、无线电等。

4.如权利要求1所述的CA/AD驾驶装置，其特征在于，所述概率得分用于指示所述多个帧中的一个或多个包括警报帧还是非警报帧，并且其中所述CA/AD驾驶装置进一步包括机载计算机，所述机载计算机用于接收所述概率得分以及用于确定所述音频信号是否与紧急交通工具相关联。

5.如权利要求1所述的CA/AD驾驶装置，其特征在于，所述音频分析单元用于提取包括多个mel频率倒谱系数MFCC帧向量的音频特征。

6.如权利要求1所述的CA/AD驾驶装置，其特征在于，进一步包括所述多个麦克风，以及与所述多个麦克风集成、耦合至所述多个麦克风、或者以其他方式邻近于所述多个麦克风的本地处理单元，其中所述本地处理单元包括所述音频分析单元和所述神经网络分类器。

7.如权利要求1所述的CA/AD驾驶装置，其特征在于，所述多个麦克风中的一个或多个麦克风用于执行波束成形来在与所述音频信号相关联的方向上操纵音频束。

8.如权利要求1所述的CA/AD驾驶装置，其特征在于，进一步包括耦合至所述SA/AD交通工具的视频处理相机，所述视频处理相机用于从捕捉到与所述音频信号相关联的警报帧的方向捕捉视频。

9.如权利要求1-8中任一项所述的CA/AD驾驶装置，其特征在于，所述CA/AD驾驶装置包括SA/AD交通工具并且其中所述驾驶元件包括以下中的一者或多者：引擎、电马达、制动系统、驾驶系统、轮子、传动装置、以及电池。

10.如权利要求1-8中任一项所述的CA/AD驾驶装置，其特征在于，所述CA/AD驾驶装置包括所述SA/AD交通工具并且进一步包括导航控制模块，所述导航控制模块用于接收紧急交通工具的大致位置，以及用于控制操纵模块，所述操纵模块用于允许与所述音频信号相关联的紧急交通工具经过所述SA/AD交通工具。

11.如权利要求1-8中任一项所述的CA/AD驾驶装置，其特征在于，所述CA/AD驾驶装置包括SA/AD交通工具，并且所述CA/AD驾驶装置响应于对所述音频信号的标识来控制所述SA/AD交通工具的驾驶元件以自主地或半自主地驾驶所述SA/AD交通工具。

12.如权利要求1-8中任一项所述的CA/AD驾驶装置，其特征在于，进一步包括耦合至导航控制模块以辅助引导所述SA/AD交通工具来对与所述音频信号相关联的紧急交通工具的位置作出响应的、基于视觉的相机、雷达、以及光检测和测距LIDAR传感器中的至少一者。

13.一种用于标识警报信号以向半自主或自主驾驶SA/AD交通工具警报紧急交通工具的存在的方法，所述方法包括：

由耦合至所述SA/AD交通工具并且被设置成捕捉的麦克风阵列捕捉至少部分地环绕或邻近于所述SA/AD交通工具的音频信号；

由所述麦克风阵列将所述音频信号提供至分析单元；

由所述分析单元从所述麦克风阵列接收所述音频信号；

由所述分析单元从所述音频信号的一个或多个音频帧提取音频特征并将所述音频特征提供至神经网络；以及

由所述神经网络基于所提取音频特征将所述一个或多个音频帧分类成警报帧或非警报帧以指示紧急交通工具的存在或不存在。

14.如权利要求13所述的方法，其特征在于，所述神经网络是深度神经网络DNN，并且其中由所述DNN将所述一个或多个音频帧分类成所述警报帧或所述非警报帧包括生成与所述一个或多个音频帧中的每个音频帧相关联的概率得分。

15.如权利要求13所述的方法，其特征在于，由所述分析单元提取音频特征包括从所述一个或多个音频帧提取多个mel频率倒谱系数MFCC特征向量。

16.如权利要求15所述的方法，其特征在于，由所述分析单元提取音频特征包括将多个帧的多个MFCC特征向量堆叠至所述一个或多个音频帧的左侧和右侧以计算与所述一个或多个音频帧相关联的维度特征向量。

17.如权利要求15所述的方法，其特征在于，进一步包括执行离散余弦变换DCT来降低所述维度特征向量的维数。

18.一种或多种非瞬态计算机可读介质，包含存储于其上的指令，响应于对所述指令的执行，所述指令使计算机辅助或自主驾驶CA/AD系统：

由多个麦克风捕捉音频信号，其中所述多个麦克风将被耦合至SA/AD交通工具并被设置成捕捉包括在所述SA/AD交通工具的周围声音中的音频信号；

由所述多个麦克风将所述音频信号提供至音频分析模块；

由所述音频分析模块从所述音频信号的一个或多个音频帧提取音频特征以指示紧急交通工具邻近于所述SA/AD交通工具而存在的可能性；以及

当所述紧急交通工具的存在的可能性被指示时，由所述CA/AD驾驶系统控制交通工具控制系统来半自主或自主地驾驶所述SA/AD交通工具以对紧急交通工具的位置作出响应。

19.如权利要求18所述的计算机可读介质，其特征在于，用于由所述CA/AD驾驶系统控制所述交通工具控制系统来半自主或自主地驾驶所述SA/AD交通工具的指令包括用于由导航控制系统响应于所述紧急交通工具的存在而确定所述SA/AD交通工具的导航的指令。

20.如权利要求18所述的计算机可读介质，其特征在于，用于由所述音频分析模块从所述音频信号的一个或多个音频帧提取音频特征的指令包括用于从所述一个或多个音频帧提取多个mel频率倒谱系数MFCC特征向量的指令。

21.如权利要求18-20中任一项所述的计算机可读介质，其特征在于，用于由所述CA/AD驾驶系统从所述一个或多个音频帧提取音频特征的指令进一步包括用于向深度神经网络DNN提供所述音频特征以供分类成警报帧或非警报帧的指令。

22.如权利要求18-21中任一项所述的计算机可读介质，其特征在于，用于由所述CA/AD驾驶系统从所述一个或多个音频帧提取音频特征的指令进一步包括用于将所述音频信号划分成具有大致20-30毫秒的持续时间的帧的指令。

23.一种系统，包括：

用于捕捉包括在半自主或自主驾驶SA/AD交通工具的周围声音中的音频信号的装置，其中所述SA/AD交通工具将会行进通过所述周围声音；以及

用于从所述音频信号的一个或多个音频帧提取音频特征以指示紧急交通工具邻近于所述SA/AD交通工具而存在的可能性的装置。

24.如权利要求23所述的系统，其特征在于，进一步包括用于控制交通工具控制系统来控制所述SA/AD交通工具的驾驶元件以对紧急交通工具的存在作出响应的装置。

25.如权利要求23和24中任一项所述的系统，其特征在于，用于捕捉所述音频信号的装置包括用于执行波束成形来在与所述音频信号相关联的方向上操纵音频束的装置。