CN109286875B

CN109286875B - 用于定向拾音的方法、装置、电子设备和存储介质

Info

Publication number: CN109286875B
Application number: CN201811148552.1A
Authority: CN
Inventors: 欧阳能钧; 赵科; 宋晔
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2021-01-01
Anticipated expiration: 2038-09-29
Also published as: CN109286875A

Abstract

本公开的实施例提供了一种用于定向拾音的方法、装置、电子设备和存储介质。在该方法中，生成包括音频信号和音频信号的多个瞬时到达方向值的音频数据流，音频信号与麦克风阵列从声源接收的声学信号相对应，瞬时到达方向值指示声学信号到达麦克风阵列的瞬时方向；确定音频信号中是否包括预定的语音指令；响应于确定音频信号包括语音指令，基于多个瞬时到达方向值来获得音频信号的实际到达方向值，实际到达方向值指示声学信号到达麦克风阵列的实际方向；以及基于实际到达方向值，使麦克风阵列形成指向实际方向的定向拾音波束。本公开的实施例通过将智能设备的唤醒功能和定向拾音功能相结合而实现动态的定向拾音，从而改进拾音效果并提升用户体验。

Description

用于定向拾音的方法、装置、电子设备和存储介质

技术领域

本公开的实施例一般地涉及信息处理的技术领域，并且更特别地，涉及一种用于定向拾音的方法、装置、电子设备和计算机可读存储介质。

背景技术

随着智能网联汽车的磅礴发展，语音控制功能在汽车里的应用已经越来越普遍，人们已经逐渐依赖语音助手完成一些简单的车辆控制，比如调节空调温度、语音发起导航等。此外，当今的各种各样的电子设备中也广泛地实现了语音控制功能。

然而，对于语音控制功能在车辆中的应用，车内空间是狭小且封闭的。因此，在车辆中的某个用户使用语音控制功能时，一般需要车内的其他乘员保持安静，以免干扰语音识别。此外，当前的语音控制设备已经实现了语音唤醒功能和定向拾音功能，但是传统的语音控制设备没有将这两种功能有效地结合，从而使得语音控制设备的语音控制性能较差，导致了不良的用户体验。

发明内容

本公开的实施例涉及一种用于定向拾音的方法、装置、电子设备和计算机可读存储介质。

在本公开的第一方面，提供了一种用于定向拾音的方法。该方法包括：生成包括音频信号和与音频信号相关联的多个瞬时到达方向值的音频数据流，音频信号与麦克风阵列从声源接收的声学信号相对应，瞬时到达方向值指示声学信号到达麦克风阵列的瞬时方向。该方法还包括：确定音频信号中是否包括预定的语音指令。该方法进一步包括：响应于确定音频信号包括语音指令，基于多个瞬时到达方向值来获得音频信号的实际到达方向值，实际到达方向值指示声学信号到达麦克风阵列的实际方向。该方法进一步包括：基于实际到达方向值，使麦克风阵列形成指向实际方向的定向拾音波束。

在本公开的第二方面，提供了一种用于定向拾音的装置。该装置包括：生成模块，被配置为生成包括音频信号和与音频信号相关联的多个瞬时到达方向值的音频数据流，音频信号与麦克风阵列从声源接收的声学信号相对应，瞬时到达方向值指示声学信号到达麦克风阵列的瞬时方向。该装置还包括：确定模块，被配置为确定音频信号中是否包括预定的语音指令。该装置进一步包括：获得模块，被配置为响应于确定音频信号包括语音指令，基于多个瞬时到达方向值来获得音频信号的实际到达方向值，实际到达方向值指示声学信号到达麦克风阵列的实际方向。该装置进一步包括：波束形成模块，被配置为基于实际到达方向值，使麦克风阵列形成指向实际方向的定向拾音波束。

在本公开的第三方面，提供了一种电子设备。该电子设备包括一个或多个处理器；以及存储装置，用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施例，其中：

图1示出了本公开的一些实施例能够在其中实现的示例环境的示意图。

图2示出了根据本公开的实施例的用于定向拾音的方法的示意性流程图。

图3示出了根据本公开的一种实施例的车载语音控制设备的语音控制单元和语音处理单元之间的示例交互图。

图4示出了根据本公开的另一种实施例的车载语音控制设备的内部数据流和控制流的示意图。

图5A-图5C示出了根据本公开的实施例的用于动态拾音的接收波束转换图。

图6示出了根据本公开的实施例的用于定向拾音的装置的示意性框图。

图7示出了一种可以被用来实施本公开的实施例的设备的示意性框图。

贯穿所有附图，相同或者相似的参考标号被用来表示相同或者相似的组件。

具体实施方式

下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解，描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开，而并非以任何方式限制本公开的范围。

在传统的语音控制设备中，前端的语音信号采集方式一般使用以下两种方案。第一种方案是使用单指向麦克风，该方案采用单指向驻极体麦克风，使得拾音角度对准驾驶员，对其他车内乘客的声音抑制能可以达到6dB。另一种方案是使用麦克风阵列，该方案采用至少两个麦克风组成的阵列，通过波束形成算法，使得麦克风阵列的拾音角度固定在驾驶员位置，对其他乘客的声音抑制可以达到15-20dB。

然而，上述两种方案也有诸多不足。具体地，单指向麦克风方案对其他方向的声源隔离度只能达到6dB，隔离度相对较低，难以帮助语音控制设备区分目标声源和干扰声源。不仅如此，单指向麦克风一般是驻极体麦克风，其生产工艺无法保障麦克风拾音性能的一致性，从而影响语音识别的准确度。

另一方面，麦克风阵列方案对其他方向的声源隔离度能够达到15-20dB，隔离度比较强，可以有效帮助语音系统区分目标声源和干扰声源。然而，这种方案只能拾取固定方向的声源，一般是驾驶员方向，即车内的语音控制功能只能由驾驶员使用，其他乘员基本上无法使用车内的语音控制功能。

除了定向拾音功能以外，当前的语音控制设备一般还具有语音唤醒功能。例如，语音控制设备在接收到用户的发出的特定语音唤醒指令后，才可以进一步接收用户的语音控制指令并执行相应的控制操作。然而，传统的语音控制设备的语音唤醒功能和定向拾音功能是单独且分别实现的，两者之间没有交互或结合。这也降低了语音控制设备，尤其是车载语音控制设备的用户体验。

可见，传统的语音控制设备的语音控制性能在许多场合下达不到用户的使用需求，导致了不良的用户体验。有鉴于此，本公开的实施例提供了一种定向拾音的方法、装置、电子设备和计算机可读存储介质，其有效地结合了语音控制设备的语音唤醒功能和定向拾音功能，从而实现了根据唤醒声源的方向来进行动态的定向拾音。

根据本公开的实施例，可以使得语音控制设备可以准确地识别车内乘员的语音指令，而不必让其他成员保持安静。特别地，相对于单指向麦克风方案，本公开的实施例对接收波束的旁瓣方向有足够的声学抑制效果，抑制高达15-20dB，从而保障足够的抗干扰能力。此外，对比传统的解决方案，本公开的实施例更加灵活。例如，相比双麦克风阵列方案，本公开的实施例实现了动态的声源定位，使得语音控制设备不只是采集驾驶员的声音，也可以由其他乘客所用。下面结合附图来描述本公开的若干实施例。

图1示出了本公开的一些实施例能够在其中实现的示例环境100的示意图。如图1所示，示例环境100包括车辆110。车辆110可以是诸如机动车辆、非机动车辆等能够移动的任何实体。虽然在文本中以车辆100为例进行了描述，但是应当理解，本公开的实施例也可以应用到类似车辆具有封闭空间的类似环境中。更一般地，本公开的实施例还可以应用到存在语音控制设备的任何其他环境中。

示例环境100还包括用户(也可以称为乘客或乘员)120和130。在图1描绘的示例中，用户120和130分别乘坐在车辆110的主驾驶位116-1和副驾驶位116-2上，而后排座位116-3和116-4上没有乘客乘坐。尽管图1的示例环境100示出了车辆110具有特定数目的座位和乘客，并且乘客乘坐在特定的座位上，但是将理解这些特定数目和乘客位置仅是示例性的，无意以任何方式限制本公开的范围。在其他实施例中，车辆110可以具有更多或更少的座位和乘客，乘客也可以乘坐在其他座位上。

为了实现用户120或130通过语音来控制车辆110的某些功能，车辆110包括车载语音控制设备112。具体地，用户120或130可以通过发出语音(也称为声学信号)来控制车载语音控制设备112执行某些操作。例如，用户120可以向车载语音控制设备112发出声学信号125。作为示例，声学信号125可以包括但不限于，打开收音机、换台、打开导航、开始导航、播放歌曲、暂停、快进、快退、下一首、上一首、音量增大、音量减小、静音、关机，等等。

通常，在对车载语音控制设备112的发出语音控制命令之前，用户120或130需要首先发出语音唤醒指令来唤醒车载语音控制设备112，以使其进入到准备好检测并接收用户120或130的语音控制指令的状态。在唤醒之前，车载语音控制设备112例如可能处于待机状态以节省能源。

为了检测用户120或130发出的语音，车载语音控制设备112具有麦克风阵列114。相比于单个麦克风，使用麦克风阵列114可以在存在噪声、多径反射和混响的现实环境中更好地拾取语音信息，提高语音识别率。此外，车载语音控制设备112还可以利用波束形成技术通过麦克风阵列114来实现定向的接收波束，以便针对特定的方向进行拾音。

为了实现定向拾音，车载语音控制设备112需要首先确定声源(例如，用户120)的方向。该方向可以通过确定声学信号125相对于麦克风阵列114的达到方向。如后文将详细描述的，该达到方向可以通过实际到达方向值140来指示。例如，实际到达方向值140可以使用角度值来表示。

尽管图1中以示例性的方式示出并讨论了车载语音控制设备112，但是如本文中使用的，语音控制设备或电子设备或智能设备可以包括以下各项的至少一种：智能电话，平板个人计算机(PC)，移动电话，视频电话，电子书阅读器，台式PC，膝上型PC，上网本计算机，个人数字助理(PDA)，便携式多媒体播放器(PMP)，运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器，移动医疗设备，照相机，可穿戴设备(例如，诸如电子眼镜的头戴式设备(HMD))，电子衣服，电子手环，电子项链，电子配件，电子纹身，智能手表等。

此外，根据本公开的各种实施例，语音控制设备或电子设备或智能设备也可以是智能家电。智能家电可以包括以下各项的至少一种：例如电视(TV)，数字通用光盘(DVD)播放器，音频，冰箱，空调，清洁器，烤箱，微波炉，洗衣机，空气净化器，机顶盒，电视盒，游戏控制台，电子词典，电子钥匙，摄像机，电子相框等。

此外，根据本公开的各种实施例，语音控制设备或电子设备或智能设备还可以包括以下各项的至少一种：医疗设备(例如，磁共振血管造影术(MRA)，磁共振成像(MRI)，计算机断层摄影(CT)，扫描器和超声波装置)，导航装置，GPS接收器，事件数据记录器(EDR)，飞行数据记录器(FDR)，车辆信息娱乐装置，船舶电子设备(例如导航系统和陀螺罗盘)，航空电子设备，安全装置，车辆的头部单元，工业或家庭机器人，自动柜员机(ATM)和销售点(POS)。

此外，语音控制设备或电子设备或智能设备还可以包括以下各项的至少一种：具有通信功能的家具或建筑物/结构的部件，电子板，电子签名接收装置，投影仪和测量仪器(例如，水表，电表，气量计和波形计)。语音控制设备或电子设备或智能设备也可以是上述设备的一个或多个组合。此外，语音控制设备或电子设备或智能设备也可以是柔性设备。上述各种设备仅为示例性的列举，语音控制设备或电子设备或智能设备不限于这些设备。

此外，如本文中使用的，术语“用户”可以是指使用语音控制设备或电子设备或智能设备的人，或者可以是指与语音控制设备或电子设备或智能设备交互的其他设备(例如，人工电子设备)，还可以是指能够与语音控制设备或电子设备或智能设备进行交互的其他任何实体。

图2示出了根据本公开的实施例的用于定向拾音的方法200的示意性流程图。在一些实施例中，方法200可以由图1的车载语音控制设备112来实现，例如可以由车载语音控制设备112的处理器或处理单元来实现。在其他实施例中，方法200的全部或部分也可以由独立于车载语音控制设备112的计算设备来实现，或者可以由示例环境100中的其他单元来实现。为便于讨论，将结合图1来描述方法200。

在210处，为了将语音唤醒功能和定向拾音功能有效地结合，车载语音控制设备112生成音频数据流150。例如，音频数据流150可以在实现语音唤醒功能的模块和用于实现定向拾音功能的模块之间传输，从而实现这两种功能的协同。音频数据流150包括音频信号152和与音频信号相关联的多个瞬时到达方向值154-1至154-N(也可以统称为瞬时到达方向值154)。音频信号150与麦克风阵列114从声源(即用户120)接收的声学信号125相对应。例如，音频信号150可以是经由麦克风阵列114从声学信号125转换得到的电信号，也可能是麦克风阵列114输出的电信号经处理后的信号。

另外，多个瞬时到达方向值154-1至154-N中的每个指示声学信号125到达麦克风阵列114的瞬时方向。也就是说，以瞬时到达方向值154-1和154-N为例，瞬时到达方向值154-1可以表示声学信号125在某个瞬间到达麦克风阵列114处的到达方向，而瞬时到达方向值154-N可以表示声学信号125在另一瞬间到达麦克风阵列114处的到达方向。在一些实施例中，瞬时到达方向值可以是通过角度值来表示。

在一些实施例中，由于麦克风阵列114包括位于不同位置的多个个体的麦克风，因此麦克风阵列114可能占据一定大小的空间范围。在这种情况下，瞬时到达方向值(例如瞬时到达方向值154-1)可以指示相对于麦克风阵列114所占据的空间中某个点的方向，该空间点可以由技术人员根据麦克风阵列114中的个体麦克风的具体位置和其他设计因素来确定。

在其他实施例中，瞬时到达方向值154-1也可以基于声学信号125到达多个个体麦克风的多个瞬时到达方向值来确定。例如，瞬时到达方向值154-1可以指示声学信号125到达多个个体麦克风的多个瞬时到达方向值的平均值。在又其他的实施例中，瞬时到达方向值154-1可以指示声学信号125到达处于麦克风阵列114中心位置的个体麦克风的瞬时到达方向值。总之，本公开的实施例对瞬时到达方向值如何定义没有限制，只要其能够体现出声学信号125相对于麦克风阵列114的瞬时到达方向即可。

在一些实施例中，在声学信号125的持续时间内，车载语音控制设备112以预定的时间间隔来测量声学信号125的多个瞬时到达方向值154-1至154-N。例如，车载语音控制设备112可以始终保持以预定的时间间隔来计算所检测到的声学信号的瞬时到达方向值，该时间间隔例如可以是80ms。也即，车载语音控制设备112保持每80ms计算一次瞬时到达方向值。将理解，此处使用的具体数值仅为示例，无意以任何方式限制本公开的实施例。通过这样的方式，可以在车载语音控制设备112的计算负荷与确定声源方向的准确性之间取得平衡。

在一些实施例中，为了获得音频信号152，车载语音控制设备112可以从麦克风阵列114接收与声学信号125对应的原始音频信号。然后，车载语音控制设备112可以对该原始音频信号执行语音增强，以获得经语音增强的音频信号152。例如，语音增强可以包括但不限于回声消除、噪声抑制、或幅度控制，等等。由于音频信号152后续将用于识别声学信号125，所以通过上述方式，可以提高车载语音控制设备112对声学信号125的识别准确性。

在一些实施例中，音频数据流150可以采用立体声格式以用于传输。在该传输方式下，音频数据流150中的音频信号152和多个瞬时到达方向值154-1至154-N可以在不同声道上传播。例如，音频信号152可以在立体声传输通道的左声道上传输，而多个瞬时到达方向值154-1至154-N可以在右声道上传输，反之亦然。通过这样的方式，可以重用音频信号152的传输通道以提高通道资源的利用率，并且同时保持音频信号152和多个瞬时到达方向值154-1至154-N之间的关联性。

在220处，车载语音控制设备112确定音频信号152中是否包括预定的语音指令。在一些实施例中，车载语音控制设备112可以通过语音识别功能来进行该确定。在该情况下，预定的语音指令可以是特定模式的词语或语句，例如，其可以是“小度，小度”，也即将词语“小度”重复地说两次。如果车载语音控制设备112识别出音频信号152中包括“小度，小度”，则车载语音控制设备112将被唤醒而进入实现语音控制的就绪状态。反之，车载语音控制设备112可以保持在待机状态以节省能源。

在230处，如果音频信号152包括该特定的语音指令，则车载语音控制设备112基于多个瞬时到达方向值154-1至154-N来获得音频信号125的实际到达方向值140。如上文指出的，实际到达方向值140指示声学信号125到达麦克风阵列114的实际方向。与瞬时到达方向值相类似，本公开的实施例对实际到达方向如何定义没有限制，只要其能够体现出声学信号125相对于麦克风阵列114的实际到达方向即可。

本公开的实施例使用多个瞬时到达方向值154-1至154-N来确定实际到达方向值140的原因在于：在车载语音控制设备112确定瞬时到达方向值154-1至154-N的每个瞬时，可能存在各种不同的因素影响到达方向值的准确性。这些因素例如包括但不限于用户120的移动，其他用户(例如，用户130)同时说话的干扰、车辆内部或外部的其他声音造成的干扰、用户120的声音的回声和混响，等等。因此，车载语音控制设备112基于多个瞬时到达方向值154-1至154-N来确定实际到达方向值140可以最大可能地消除各种干扰因素的影响，从而提高最终确定的实际到达方向值140的准确性。

在一些实施例中，为了获得声学信号125的实际到达方向值140，车载语音控制设备112可以计算多个瞬时到达方向值154-1至154-N的平均值。然后，车载语音控制设备112可以在多个瞬时到达方向值154-1至154-N中选择与该平均值最接近的瞬时到达方向值作为实际到达方向值140。通过这样方式，可以提高实际到达方向值140的准确性和有效性。应当理解，该计算方式仅为示例，在其他实施例中，车载语音控制设备112可以使用其他的方式从多个瞬时到达方向值154-1至154-N计算实际到达方向值140。

在240处，车载语音控制设备112基于实际到达方向值140，使麦克风阵列114形成指向声学信号125到达麦克风阵列114的实际方向的定向拾音波束。在一些实施例中，为了形成该定向接收波束，车载语音控制设备112可以调整来自麦克风阵列114中的各个麦克风的加权权重。

在一些实施例中，为了实现更加人性化的语音交互，车载语音控制设备112可以基于实际到达方向值140，使扬声器(未示出)播放与实际到达方向值140相对应的预定语音应答信号。例如，在图1示出的场景中，所确定得出的实际到达方向值140落在属于主驾驶位116-1方向的角度范围内，则车载语音控制设备112可以基于实际到达方向值140来确定是车辆110的驾驶员发出了语音唤醒指令。因此，车载语音控制设备112可以相应地发出针对驾驶员的预定语音应答信号，例如，“司机，您好！”类似地，如果车载语音控制设备112确定唤醒指令从乘员座位116-2至116-4方向发出，则车载语音控制设备112可以发出针对乘员的预定语音应答信号，例如，“乘客，您好！”以此方式，改进了车载语音控制设备112的用户体验。

作为一种具体的实施方式，车载语音控制设备112可以包括语音控制单元和语音处理单元。例如，语音控制单元可以用于主要实现车载语音控制设备112的语音唤醒功能，而语音处理单元可以用于主要实现车载语音控制设备112的定向拾音功能。

图3示出了根据本公开的一种实施例的车载语音控制设备112的语音控制单元(由302指示)和语音处理单元(由304指示)之间的示例交互图300。将理解，尽管图3中以特定的顺序示出了各种动作，但是这仅是示例性的，无意对本公开的实施例进行任何限制。在其他实施例中，图3中描绘的各种动作可以按不同的顺序执行，或者并发地执行。下面将结合图1来描述图3。

如图3所示，语音处理单元304可以按预定的时间间隔循环地计算305车载语音控制设备112所接收到的声学信号的瞬时到达方向值。如果语音控制单元302确定某个音频信号(例如，音频信号152)包括语音唤醒指令，则语音控制单元302唤醒310语音处理单元304。

此外，语音处理单元304向语音控制单元302传送315与音频信号152相关联的多个瞬时到达方向值154。在语音处理单元304被唤醒的情况下，语音控制单元302将它确定的实际到达方向值140传送320给语音处理单元304，用于定向拾音。在接收到实际到达方向值140后，语音处理单元304基于实际到达方向值140执行325接收波束形成。

图4示出了根据本公开的另一种实施例的车载语音控制设备112的内部数据流和控制流的示意图。将理解，图4中描绘的各种组件仅为示例，无意以任何方式限制本公开。在其他实施例中，车载语音控制设备112可以包括更多或更少的组件，图4中描绘的各种数据流和控制流也可能在其他组件之间实现。

如图4所示，作为另一种实施方式，车载语音控制设备112可以包括数字信号处理器(DSP)410、操作系统(OS)420、语音控制应用程序(APP)430、以及自动语音识别(ASR)引擎。例如，DSP 410和操作系统420两者可以对应于图3中的语音处理单元304，语音控制APP430和ASR引擎440两者可以对应于图3中的语音控制单元。

DSP 410可以接收由麦克风阵列114生成的原始音频信号，并且对该原始音频信号进行语音增强处理而形成音频信号152。在一些实施例中，音频信号152可以采用脉冲编码调制(PCM)格式。在其他实施例中，音频信号152也可以采用其他格式。此外，DSP 410还可以按预定的时间间隔计算与音频信号152相关联的多个瞬时到达方向值154。

然后，DSP 410可以将音频信号152和多个瞬时到达方向值154以立体声传输方式(例如，音频信号152在左声道，瞬时到达方向值154以立体声传输方式在右声道)传送给操作系统420，操作系统420再将它们转发给语音控制APP 430。在一些实施例中，操作系统420在转发音频信号152和多个瞬时到达方向值154之前可以对它们进行有利于转发的处理。

接着，语音控制APP 430可以调用ASR引擎440来识别音频信号152中是否包括预定的唤醒指令。例如，语音控制APP 430可以将音频信号152转发给ASR引擎440用于执行语音识别。在一些实施例中，在该转发之前，语音控制APP 430可以对音频信号152进行有利于转发的处理。

如果ASR引擎440识别出音频信号152包括预定的唤醒指令，则向语音控制APP 430发送唤醒指示402，从而语音控制APP 430可以将车载语音控制设备112的操作系统420唤醒。在接收到唤醒指示402后，语音控制APP 430基于多个瞬时到达方向值154来计算实际到达方向值140，然后在唤醒操作系统420的同时或之后，将实际到达方向值140发送给操作系统420。

最后，操作系统420将实际到达方向值140发送给DSP 410，从而车载语音控制设备112可以通过麦克风阵列114执行波束形成。例如，DSP 410可以基于实际到达方向值140来计算麦克风阵列114中各个麦克风的在形成定向波束时的加权权重。

图5A-图5C示出了根据本公开的实施例的用于动态拾音的接收波束转换图。将理解，图5A-图5C中描绘的具体数值仅为示例，无意以任何方式限制本公开的范围。在其他实施例中，可以采用任何其他合适的数值。下文将结合图1-4来描述图5。

如本文中使用的，动态拾音功能主要是指利用麦克风阵列114提供的对声源方向的估计以及波束形成技术，使得用户在唤醒车载语音控制设备112时，麦克风阵列114能锁定用户的方向。利用这个方向信息来产生定向的接收波束，从而进一步抑制波束外的语音或者噪声，提高波束内的有效语音的识别率。

图5A-图5C示出了车载语音控制设备112的一种典型的使用场景。如图5A所示，在车载语音控制设备112被唤醒前，其可以通过波束形成技术形成了一个广角的拾音波束510(例如，120°波束)进行拾音。此时，车载语音控制设备112通过声源定位技术(例如，通过DSP)持续保持在后台实时地计算瞬时到达方向值。

如图5B所示，在车载语音控制设备112被主驾驶位的用户唤醒后，车载语音控制设备112可以获取此时的语音唤醒指令的实际到达方向值140，并根据实际到达方向值140调整拾音角度，抑制其他方向的声音，放大该方向上的声音，从而形成指向主驾驶位的定向拾音波束520。通过这样的方式，车载语音控制设备112对其他方向的声源抑制的幅度能够达到15-20dB，从而在语音控制车载语音控制设备112时，不必要求车内其他人保持安静。在主驾驶位的定向语音识别结束后，车载语音控制设备112又恢复到待唤醒状态，执行广角拾音，继续计算到达方向值。

类似地，如图5C所示，在副驾驶位唤醒后，车载语音控制设备112获取到被唤醒时的实际到达方向值，根据实际到达方向值调整拾音角度，对主方向声源进行加权处理，对其他方向声源进行抑制处理，从而形成指向副驾驶位的定向拾音波束530。

图6示出了根据本公开的实施例的用于定向拾音的装置600的示意性框图。在一些实施例中，装置600可以被包括在图1的车载语音控制设备112中或者被实现为车载语音控制设备112。

如图6所示，装置600包括生成模块610、确定模块620、获得模块630和波束形成模块640。生成模块610被配置为生成包括音频信号和与音频信号相关联的多个瞬时到达方向值的音频数据流，音频信号与麦克风阵列从声源接收的声学信号相对应，瞬时到达方向值指示声学信号到达麦克风阵列的瞬时方向。确定模块620被配置为确定音频信号中是否包括预定的语音指令。获得模块630被配置为响应于确定音频信号包括语音指令，基于多个瞬时到达方向值来获得音频信号的实际到达方向值，实际到达方向值指示声学信号到达麦克风阵列的实际方向。波束形成模块640被配置为基于实际到达方向值，使麦克风阵列形成指向实际方向的定向拾音波束。

在一些实施例中，装置600进一步包括测量模块。测量模块被配置为在声学信号的持续时间内，以预定的时间间隔来测量声学信号的多个瞬时到达方向值。

在一些实施例中，装置600进一步包括接收模块和语音增强模块。接收模块被配置为从麦克风阵列接收与声学信号对应的原始音频信号。语音增强模块被配置为对原始音频信号执行语音增强以获得音频信号。

在一些实施例中，音频数据流为立体声格式，其中音频信号和多个瞬时到达方向值在不同声道上传播。

在一些实施例中，获得模块630包括计算模块和选择模块。计算模块被配置为计算多个瞬时到达方向值的平均值。选择模块被配置为在多个瞬时到达方向值中选择与平均值最接近的瞬时到达方向值作为实际到达方向值。

在一些实施例中，装置600进一步包括播放模块。播放模块被配置为基于实际到达方向值，使扬声器播放与实际到达方向值相对应的预定语音应答信号。

图7示意性地示出了一种可以被用来实施本公开的实施例的设备700的框图。如图7中所示出的，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储设备(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储设备(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200可由处理单元701来执行。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM703并由CPU 701执行时，可以执行上文描述的方法200的一个或多个步骤。

如本文所使用的，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。本文还可能包括其他明确的和隐含的定义。

如本文所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可以包括运算、计算、处理、导出、调查、查找(例如，在表格、数据库或另一数据结构中查找)、查明等。此外，“确定”可以包括接收(例如，接收信息)、访问(例如，访问存储器中的数据)等。此外，“确定”可以包括解析、选择、选取、建立等。

应当注意，本公开的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。

此外，尽管在附图中以特定顺序描述了本公开的方法的操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤组合为一个步骤执行，和/或将一个步骤分解为多个步骤执行。还应当注意，根据本公开的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

虽然已经参考若干具体实施例描述了本公开，但是应当理解，本公开不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

Claims

1.一种用于定向拾音的方法，包括：

生成包括音频信号和与所述音频信号相关联的多个瞬时到达方向值的音频数据流，所述音频信号与麦克风阵列从声源接收的声学信号相对应，所述瞬时到达方向值指示所述声学信号到达所述麦克风阵列的瞬时方向，其中所述音频信号和所述多个瞬时到达方向值在不同声道上传输；

确定所述音频信号中是否包括预定的语音指令；

响应于确定所述音频信号包括所述语音指令，基于所述多个瞬时到达方向值来获得所述音频信号的实际到达方向值，所述实际到达方向值指示所述声学信号到达所述麦克风阵列的实际方向；以及

基于所述实际到达方向值，使所述麦克风阵列形成指向所述实际方向的定向拾音波束。

2.根据权利要求1所述的方法，进一步包括：

在所述声学信号的持续时间内，以预定的时间间隔来测量所述声学信号的所述多个瞬时到达方向值。

3.根据权利要求1所述的方法，进一步包括：

从所述麦克风阵列接收与所述声学信号对应的原始音频信号；以及

对所述原始音频信号执行语音增强以获得所述音频信号。

4.根据权利要求1所述的方法，其中所述音频数据流为立体声格式。

5.根据权利要求1所述的方法，其中基于所述多个瞬时到达方向值来获得所述音频信号的实际到达方向值包括：

计算所述多个瞬时到达方向值的平均值；以及

在所述多个瞬时到达方向值中选择与所述平均值最接近的瞬时到达方向值作为所述实际到达方向值。

6.根据权利要求1所述的方法，进一步包括：

基于所述实际到达方向值，使扬声器播放与所述实际到达方向值相对应的预定语音应答信号。

7.一种用于定向拾音的装置，包括：

生成模块，被配置为生成包括音频信号和与所述音频信号相关联的多个瞬时到达方向值的音频数据流，所述音频信号与麦克风阵列从声源接收的声学信号相对应，所述瞬时到达方向值指示所述声学信号到达所述麦克风阵列的瞬时方向，其中所述音频信号和所述多个瞬时到达方向值在不同声道上传输；

确定模块，被配置为确定所述音频信号中是否包括预定的语音指令；

获得模块，被配置为响应于确定所述音频信号包括所述语音指令，基于所述多个瞬时到达方向值来获得所述音频信号的实际到达方向值，所述实际到达方向值指示所述声学信号到达所述麦克风阵列的实际方向；以及

波束形成模块，被配置为基于所述实际到达方向值，使所述麦克风阵列形成指向所述实际方向的定向拾音波束。

8.根据权利要求7所述的装置，进一步包括：

测量模块，被配置为在所述声学信号的持续时间内，以预定的时间间隔来测量所述声学信号的所述多个瞬时到达方向值。

9.根据权利要求7所述的装置，进一步包括：

接收模块，被配置为从所述麦克风阵列接收与所述声学信号对应的原始音频信号；以及

语音增强模块，被配置为对所述原始音频信号执行语音增强以获得所述音频信号。

10.根据权利要求7所述的装置，其中所述音频数据流为立体声格式。

11.根据权利要求7所述的装置，其中所述获得模块包括：

计算模块，被配置为计算所述多个瞬时到达方向值的平均值；以及

选择模块，被配置为在所述多个瞬时到达方向值中选择与所述平均值最接近的瞬时到达方向值作为所述实际到达方向值。

12.根据权利要求7所述的装置，进一步包括：

播放模块，被配置为基于所述实际到达方向值，使扬声器播放与所述实际到达方向值相对应的预定语音应答信号。

13.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。