CN112216299A

CN112216299A - 双麦克风阵列波束形成方法、装置及设备

Info

Publication number: CN112216299A
Application number: CN201910629128.7A
Authority: CN
Inventors: 杨晓霞; 刘溪
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-01-12
Anticipated expiration: 2039-07-12
Also published as: CN112216299B

Abstract

本发明实施例公开了一种双麦克风阵列波束形成方法、装置及设备。该方法包括：根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系，确定两个所述预设固定波束形成参数；其中，两个所述预设固定波束形成参数与两个所述预设目标方位一一对应；根据所述预设固定波束形成参数与麦克风原始数据，确定分别对应两个所述预设目标方位的初级固定波束形成结果；根据两个所述初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果。本发明实施例的技术方案，实现不增加成本和麦克风阵列线路布置难度的情况下，减少目标方向语音失真，获得较为干净的语音信号，提高语音识别率。

Description

双麦克风阵列波束形成方法、装置及设备

技术领域

本发明实施例涉及语音信号处理技术，尤其涉及一种双麦克风阵列波束形成方法、装置及设备。

背景技术

基于麦克风阵列的语音增强技术己经广泛应用于通信、人机交互、语音识别系统等方面。

语音增强技术在某些使用场景下，语音的来源方向相对固定，如此情况下，需要对预设目标方位的语音进行增强，降低噪声干扰。例如，在车载语音交互场景中，驾驶席和副驾驶席是主要的语音信息来源，那么，要实现驾驶员和车机的语音交互，需要对来自副驾方向的声音进行抑制。针对这种需求，一般需要基于麦克风阵列，并采用波束形成(beamforming，BF)技术来实现对目标方向的定向拾音。

汽车厂商在设计麦克风阵列摆放时，往往考虑摆放位置及线路布放等因素，多数情况下倾向将麦克风布置在车内前排阅读灯处，而且由于空间狭小，仅能摆放两个麦克风。而从技术实现角度拉看，双麦波束形成较为困难，对干扰方向的抑制效果也不近理想。但增加麦克风阵列中麦克风的数量，会导致成本的增加和麦克风阵列线路布置的难度。

发明内容

本发明实施例提供一种双麦克风阵列波束形成方法、装置及设备，以实现不增加成本和麦克风阵列线路布置难度的情况下，减少目标方向语音失真，获得较为干净的语音信号，提高语音识别率。

第一方面，本发明实施例提供了一种双麦克风阵列波束形成方法，包括：

根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系，确定两个所述预设固定波束形成参数；其中，两个所述预设固定波束形成参数与两个所述预设目标方位一一对应；

根据所述预设固定波束形成参数与麦克风原始数据，确定分别对应两个所述预设目标方位的初级固定波束形成结果；

根据两个所述初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果。

第二方面，本发明实施例还提供了一种双麦克风阵列波束形成装置，包括：

预设固定波束形成参数确定模块，用于根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系，确定两个所述预设固定波束形成参数；其中，两个所述预设固定波束形成参数与两个所述预设目标方位一一对应；

初级固定波束形成结果确定模块，用于根据所述预设固定波束形成参数与麦克风原始数据，确定分别对应两个所述预设目标方位的初级固定波束形成结果；

固定波束形成结果得到模块，用于根据两个所述初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

双麦克风阵列，用于获取音频数据；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的双麦克风阵列波束形成方法。

本发明实施例通过非线性降噪处理，抑制干扰方向声音，解决双麦波束形成较为困难，对干扰方向的抑制效果不近理想的问题，实现不增加成本和麦克风阵列线路布置难度的情况下，减少目标方向语音失真，获得较为干净的语音信号，提高语音识别率的效果。

附图说明

图1是本发明实施例一中的一种双麦克风阵列波束形成方法的流程图；

图2是本发明实施例一中的双麦克风阵列所在坐标系示意图；

图3是本发明实施例二中的一种双麦克风阵列波束形成方法的流程图；

图4是本发明实施例三中的一种双麦克风阵列波束形成装置的结构示意图；

图5是本发明实施例四中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种双麦克风阵列波束形成方法的流程图，本实施例可适用于采用双麦克风阵列，对预设方向的干扰语音信号进行抑制，增强预设目标方向的语音信号的情况，例如车载环境的语音识别，该方法可以由双麦克风阵列波束形成装置来执行，该装置可以由硬件和/或软件来实现，具体包括如下步骤：

步骤110、根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数；

其中，两个预设固定波束形成参数与两个预设目标方位一一对应。预设目标方位是相对于双麦克风阵列所处位置需要进行增强的方向，对于车载人机交互系统，麦克风阵列多布置在前排阅读灯位置，两个麦克风处于同一水平高度，左右横向布置。在这种车内环境下，预设目标方位就是指向主驾驶席和副驾驶席。预设坐标系可以为空间坐标系，并可以按照如下方式建立，以两个麦克风的连线中点为原点，x轴正向指向车尾方向，且x轴穿过主驾驶席头枕和副驾驶席头枕连线的中点，y轴穿过两个麦克风，y轴正向指向车辆向前行驶时的右方。示例的，如图2所示，在预设坐标系下，主驾驶员和副驾驶员所在位置对应的预设目标方位分别为-45°和45°。在预先确定了预设目标方位之后，计算分别指向这两个预设目标方位的预设固定波束形成参数。可选的，根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数，包括：在预设坐标系下，根据双麦克风阵列和预设目标方位，确定预设目标方位对应的目标方位角；根据第一表达式

通过凸优化方法得到ω(θ₀，f)的最优解，其中，目标方位角为θ₀，波束宽度为θ_d，双麦克风阵列的导向矢量为α(θ，f)，其中θ，f分别为方位角和频点，预设固定波束形成参数为ω(θ₀，f)。

步骤120、根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果；

其中，麦克风原始数据是双麦克风阵列中每个麦克风拾取声波而输出的数字信号。在得到预设固定波束形成参数之后，利用该参数对每个传感器信号进行时移，并进行求和，得到指向第一预设目标方位拾音的波束形成之后的信号和指向第二预设目标方位拾音的波束形成之后的信号，作为初级固定波束形成结果，初级固定波束形成结果是采用权值固定不变的滤波器进行处理后的结果。初级固定波束形成结果还是会包含环境噪声，因此，需要进行降噪处理，以获得较为干净的语音信号。可选的，根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果，包括：将获得的预设固定波束形成参数ω(θ₀，f)与两路麦克风原始数据分别相乘之后，进行相加，得到增强第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果

和增强第二预设目标方位的第n帧频点f处的第二初级固定波束形成结果

步骤130、根据两个初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果。

其中，对于两个初级固定波束形成结果进行非线性降噪处理，可以减少语音信号中的干扰，将其中一个预设目标方位作为目标方向数据，另一个预设目标方位作为干扰方向数据，分别对两个初级固定波束形成结果进行降噪处理。可以利用类似维纳滤波降噪的方法来得到非线性降噪处理的增益参数，然后根据增益参数，对初级固定波束形成结果进行处理，得到固定波束形成结果。

本实施例的技术方案，通过非线性降噪处理，抑制干扰方向声音，解决双麦波束形成较为困难，对干扰方向的抑制效果不近理想的问题，实现不增加成本和麦克风阵列线路布置难度的情况下，减少目标方向语音失真，获得较为干净的语音信号，提高语音识别率的效果。

实施例二

图3为本发明实施例二提供的一种双麦克风阵列波束形成方法的流程图，本实施例的技术方案在上述技术方案的基础上进一步细化，该方法包括：

步骤310、根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数；

步骤320、根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果；

步骤330、根据两个初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果。

其中，通过至少两级非线性降噪处理，可以更好地实现目标方向语音增强，干扰方向语音抑制。每级非线性降噪处理的方式是相同的，后一级的处理在前一级处理结果的基础上进行。可选的，根据两个初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果，包括：

以第一预设目标方位为目标方向，第二预设目标方位为干扰方向，根据第二表达式

得到第一级非线性降噪处理第n帧频点f处的第一增益参数

其中，

为增强所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果，

为增强所述第二预设目标方位的第n帧频点f处的第二初级固定波束形成结果；

根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果。

可选的，所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果，包括：

根据第三表达式

得到第一级非线性降噪处理指向所述第一预设目标方位第n帧频点f处的所述第一预设目标方位一级降噪固定波束形成结果。

可选的，在所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果之后，还包括：

以所述第一预设目标方位作为目标方向，所述第二预设目标方位为干扰方向，根据第四表达式

得到第二级非线性降噪处理第n帧频点f处的第二增益参数

其中，200Hz≤f≤2500Hz；

根据第五表达式

得到第二级非线性降噪处理指向所述第一预设目标方位第n帧频点f处的第一预设目标方位二级降噪固定波束形成结果，并作为指向所述第一预设目标方位的所述固定波束形成结果。

可选的，所述根据两个所述初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果，包括：

以所述第二预设目标方位为目标方向，所述第一预设目标方位为干扰方向，根据第六表达式

得到第一级非线性降噪处理第n帧频点f处的第三增益参数

其中，

根据第七表达式

得到第一级非线性降噪处理指向所述第二预设目标方位的第n帧频点f处的第二预设目标方位一级降噪固定波束形成结果；

以所述第二预设目标方位为目标方向，所述第一预设目标方位为干扰方向，根据第八表达式

得到第二级非线性降噪处理第n帧频点f处的第四增益参数

其中，200Hz≤f≤2500Hz；

根据第九表达式

得到第二级非线性降噪处理指向所述第二预设目标方位的第n帧频点f处的第二预设目标方位二级降噪固定波束形成结果，并作为指向所述第二预设目标方位的所述固定波束形成结果。固定波束形成结果包括指向第一预设目标方位的固定波束形成结果和指向第二预设目标方位的固定波束形成结果。

本实施例的技术方案，采用至少两级非线性降噪处理，提高对干扰方向的抑制效果，增强目标方向语音，从而得到较为干净的语音信号。

实施例三

图4为本发明实施例三提供的一种双麦克风阵列波束形成装置的结构示意图，该装置包括：

预设固定波束形成参数确定模块410，用于根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数；其中，两个预设固定波束形成参数与两个预设目标方位一一对应；

初级固定波束形成结果确定模块420，用于根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果；

固定波束形成结果得到模块430，用于根据两个初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果。

可选的，预设固定波束形成参数确定模块410，包括：

目标方位角确定单元，用于在预设坐标系下，根据双麦克风阵列和预设目标方位，确定预设目标方位对应的目标方位角；

预设固定波束形成参数计算单元，用于根据第一表达式

可选的，初级固定波束形成结果确定模块420，具体用于：

将获得的预设固定波束形成参数ω(θ₀，f)与两路麦克风原始数据分别相乘之后，进行相加，得到增强第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果

可选的，固定波束形成结果得到模块430，包括：

固定波束形成结果得到单元，用于根据两个初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果。

可选的，固定波束形成结果得到单元，具体用于：

得到第一级非线性降噪处理第n帧频点f处的第一增益参数

其中，

可选的，固定波束形成结果得到单元，具体用于：

根据第三表达式

可选的，固定波束形成结果得到单元，还具体用于：

在所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果之后，以所述第一预设目标方位作为目标方向，所述第二预设目标方位为干扰方向，根据第四表达式

得到第二级非线性降噪处理第n帧频点f处的第二增益参数

其中，200Hz≤f≤2500Hz；

根据第五表达式

可选的，固定波束形成结果得到单元，具体用于：

得到第一级非线性降噪处理第n帧频点f处的第三增益参数

其中，

根据第七表达式

得到第二级非线性降噪处理第n帧频点f处的第四增益参数

其中，200Hz≤f≤2500Hz；

根据第九表达式

得到第二级非线性降噪处理指向所述第二预设目标方位的第n帧频点f处的第二预设目标方位二级降噪固定波束形成结果，并作为指向所述第二预设目标方位的所述固定波束形成结果。

本发明实施例所提供的双麦克风阵列波束形成装置可执行本发明任意实施例所提供的双麦克风阵列波束形成方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种设备的结构示意图，如图5所示，该设备包括处理器510、存储器520和双麦克风阵列530；设备中处理器510的数量可以是一个或多个，图5中以一个处理器510为例；设备中的处理器510、存储器520和双麦克风阵列530可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的双麦克风阵列波束形成方法对应的程序指令/模块(例如，双麦克风阵列波束形成装置中的预设固定波束形成参数确定模块410、初级固定波束形成结果确定模块420和固定波束形成结果得到模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的双麦克风阵列波束形成方法。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

双麦克风阵列530用于获取音频数据，该音频数据中包括指向预设目标方位的语音信息。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种双麦克风阵列波束形成方法，其特征在于，包括：

2.根据权利要求1所述的双麦克风阵列波束形成方法，其特征在于，所述根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系，确定两个所述预设固定波束形成参数，包括：

在预设坐标系下，根据所述双麦克风阵列和所述预设目标方位，确定所述预设目标方位对应的目标方位角；

根据第一表达式

通过凸优化方法得到ω(θ₀，f)的最优解，其中，所述目标方位角为θ₀，波束宽度为θ_d，所述双麦克风阵列的导向矢量为α(θ，f)，其中θ，f分别为方位角和频点，所述预设固定波束形成参数为ω(θ₀，f)。

3.根据权利要求2所述的双麦克风阵列波束形成方法，其特征在于，所述根据所述预设固定波束形成参数与麦克风原始数据，确定分别对应两个所述预设目标方位的初级固定波束形成结果，包括：

将获得的所述预设固定波束形成参数ω(θ₀，f)与两路麦克风原始数据分别相乘之后，进行相加，得到增强第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果

4.根据权利要求1所述的双麦克风阵列波束形成方法，其特征在于，所述根据两个所述初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果，包括：

根据两个所述初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果。

5.根据权利要求4所述的双麦克风阵列波束形成方法，其特征在于，所述根据两个所述初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果，包括：

得到第一级非线性降噪处理第n帧频点f处的第一增益参数

其中，

6.根据权利要求5所述的双麦克风阵列波束形成方法，其特征在于，所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果，包括：

根据第三表达式

7.根据权利要求5或6所述的双麦克风阵列波束形成方法，其特征在于，在所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果之后，还包括：

得到第二级非线性降噪处理第n帧频点f处的第二增益参数

其中，200Hz≤f≤2500Hz；

根据第五表达式

8.根据权利要求4所述的双麦克风阵列波束形成方法，其特征在于，所述根据两个所述初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果，包括：

得到第一级非线性降噪处理第n帧频点f处的第三增益参数

其中，

根据第七表达式

得到第二级非线性降噪处理第n帧频点f处的第四增益参数

其中，200Hz≤f≤2500Hz；

根据第九表达式

9.一种双麦克风阵列波束形成装置，其特征在于，包括：

10.根据权利要求9所述的双麦克风阵列波束形成装置，其特征在于，所述预设固定波束形成参数确定模块，包括：

目标方位角确定单元，用于在预设坐标系下，根据所述双麦克风阵列和所述预设目标方位，确定所述预设目标方位对应的目标方位角；

预设固定波束形成参数计算单元，用于根据第一表达式

11.根据权利要求10所述的双麦克风阵列波束形成装置，其特征在于，所述初级固定波束形成结果确定模块，具体用于：

12.根据权利要求9所述的双麦克风阵列波束形成装置，其特征在于，所述固定波束形成结果得到模块，包括：

固定波束形成结果得到单元，用于根据两个所述初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果。

13.根据权利要求12所述的双麦克风阵列波束形成装置，其特征在于，所述固定波束形成结果得到单元，具体用于：

得到第一级非线性降噪处理第n帧频点f处的第一增益参数

其中，

14.根据权利要求13所述的双麦克风阵列波束形成装置，其特征在于，所述固定波束形成结果得到单元，具体用于：

根据第三表达式

15.根据权利要求13或14所述的双麦克风阵列波束形成装置，其特征在于，所述固定波束形成结果得到单元，还具体用于：

在所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果之后，

得到第二级非线性降噪处理第n帧频点f处的第二增益参数

其中，200Hz≤f≤2500Hz；

根据第五表达式

16.根据权利要求12所述的双麦克风阵列波束形成装置，其特征在于，所述固定波束形成结果得到单元，具体用于：

得到第一级非线性降噪处理第n帧频点f处的第三增益参数

其中，

根据第七表达式

得到第二级非线性降噪处理第n帧频点f处的第四增益参数

其中，200Hz≤f≤2500Hz；

根据第九表达式

17.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

双麦克风阵列，用于获取音频数据；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的双麦克风阵列波束形成方法。