CN112216298A

CN112216298A - 双麦克风阵列声源定向方法、装置及设备

Info

Publication number: CN112216298A
Application number: CN201910628826.5A
Authority: CN
Inventors: 杨晓霞; 刘溪
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2021-01-12
Anticipated expiration: 2039-07-12
Also published as: CN112216298B

Abstract

本发明实施例公开了一种双麦克风阵列声源定向方法、装置及设备。该方法包括：根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数；根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果；根据两个所述初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果；根据两个所述固定波束形成结果，确定分别与两个所述预设目标方位对应的信号能量；根据两个所述信号能量和所述信号能量与所述预设目标方位的对应关系，确定声源方位。本发明实施例的技术方案，实现在麦克风距离较近的情况，提高声源定向准确性。

Description

双麦克风阵列声源定向方法、装置及设备

技术领域

本发明实施例涉及语音信号处理技术，尤其涉及一种双麦克风阵列声源定向方法、装置及设备。

背景技术

基于麦克风阵列的语音增强技术己经广泛应用于通信、人机交互、语音识别系统等方面。

语音增强技术在某些使用场景下，语音的来源方向会多于一个，如此情况下，需要判断语音指令的来源，以便基于判断结果做出对应反馈。这种场景下基于麦克风阵列的声源定向(direction of arrival，DOA)显得尤为重要。现有技术中，基于声波到达麦克风阵列的相位差来计算得到声音方向。

但是这种方法对麦克风阵列的间距有很大关系，间距越大，DOA的估计精度越高。当麦克风阵列间距较小时，DOA的估计精度较低。例如在车载语音交互系统中，麦克风阵列的间距往往较小，有的间距仅有1-2cm，这会导致声源定向的准确性受到影响。

发明内容

本发明实施例提供一种双麦克风阵列声源定向方法、装置及设备，以实现在麦克风距离较近的情况，提高声源定向准确性。

第一方面，本发明实施例提供了一种双麦克风阵列声源定向方法，包括：

根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系，确定两个所述预设固定波束形成参数；其中，两个所述预设固定波束形成参数与两个所述预设目标方位一一对应；

根据所述预设固定波束形成参数与麦克风原始数据，确定分别对应两个所述预设目标方位的初级固定波束形成结果；

根据两个所述初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果；

根据两个所述固定波束形成结果，确定分别与两个所述预设目标方位对应的信号能量；

根据两个所述信号能量和所述信号能量与所述预设目标方位的对应关系，确定声源方位。

第二方面，本发明实施例还提供了一种双麦克风阵列声源定向装置，包括：

预设固定波束形成参数确定模块，用于根据两个预设目标方位、双麦克风阵列的导向矢量和所述导向矢量与预设固定波束形成参数的预设关系，确定两个所述预设固定波束形成参数；其中，两个所述预设固定波束形成参数与两个所述预设目标方位一一对应；

初级固定波束形成结果确定模块，用于根据所述预设固定波束形成参数与麦克风原始数据，确定分别对应两个所述预设目标方位的初级固定波束形成结果；

固定波束形成结果得到模块，用于根据两个所述初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果；

信号能量确定模块，用于根据两个所述固定波束形成结果，确定分别与两个所述预设目标方位对应的信号能量；

声源方位确定模块，用于根据两个所述信号能量和所述信号能量与所述预设目标方位的对应关系，确定声源方位。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

双麦克风阵列，用于获取音频数据；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任意实施例所提供的双麦克风阵列声源定向方法。

本发明实施例，根据波束形成结果，基于信号能量判断声源方向，解决了基于声波到达麦克风阵列的相位差来计算得到声音方向，在麦克风阵列间距较小时，准确性不高的问题，实现提高声源定向准确性的效果。

附图说明

图1是本发明实施例一中的一种双麦克风阵列声源定向方法的流程图；

图2是本发明实施例一中的双麦克风阵列所在坐标系示意图；

图3是本发明实施例二中的一种双麦克风阵列声源定向方法的流程图；

图4是本发明实施例三中的一种双麦克风阵列声源定向方法的流程图；

图5是本发明实施例四中的一种双麦克风阵列声源定向装置的结构示意图；

图6是本发明实施例五中的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种双麦克风阵列声源定向方法的流程图，本实施例可适用于采用双麦克风阵列，判断声源方向的情况，例如车载环境的语音识别，该方法可以由双麦克风阵列声源定向装置来执行，该装置可以由硬件和/或软件来实现，具体包括如下步骤：

步骤110、根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数；

其中，两个预设固定波束形成参数与两个预设目标方位一一对应。预设目标方位是相对于双麦克风阵列所处位置需要进行增强的方向，对于车载人机交互系统，麦克风阵列多布置在前排阅读灯位置，两个麦克风处于同一水平高度，左右横向布置。在这种车内环境下，预设目标方位就是指向主驾驶席和副驾驶席。预设坐标系可以为空间坐标系，并可以按照如下方式建立，以两个麦克风的连线中点为原点，x轴正向指向车尾方向，且x轴穿过主驾驶席头枕和副驾驶席头枕连线的中点，y轴穿过两个麦克风，y轴正向指向车辆向前行驶时的右方。示例的，如图2所示，在预设坐标系下，主驾驶员和副驾驶员所在位置对应的预设目标方位分别为-45°和45°。在预先确定了预设目标方位之后，计算分别指向这两个预设目标方位的预设固定波束形成参数。可选的，根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数，包括：在预设坐标系下，根据双麦克风阵列和预设目标方位，确定预设目标方位对应的目标方位角；根据第一表达式

通过凸优化方法得到ω(θ₀，f)的最优解，其中，目标方位角为θ₀，波束宽度为θ_d，双麦克风阵列的导向矢量为α(θ，f)，其中θ，f分别为方位角和频点，预设固定波束形成参数为ω(θ₀，f)。

步骤120、根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果；

其中，麦克风原始数据是双麦克风阵列中每个麦克风拾取声波而输出的数字信号。在得到预设固定波束形成参数之后，利用该参数对每个传感器信号进行时移，并进行求和，得到指向第一预设目标方位拾音的波束形成之后的信号和指向第二预设目标方位拾音的波束形成之后的信号，作为初级固定波束形成结果，初级固定波束形成结果是采用权值固定不变的滤波器进行处理后的结果。初级固定波束形成结果还是会包含环境噪声，因此，需要进行降噪处理，以获得较为干净的语音信号。可选的，根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果，包括：将获得的预设固定波束形成参数ω(θ₀，f)与两路麦克风原始数据分别相乘之后，进行相加，得到增强第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果

和增强第二预设目标方位的第n帧频点f处的第二初级固定波束形成结果

步骤130、根据两个初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果；

其中，对于两个初级固定波束形成结果进行非线性降噪处理，可以减少语音信号中的干扰，将其中一个预设目标方位作为目标方向数据，另一个预设目标方位作为干扰方向数据，分别对两个初级固定波束形成结果进行降噪处理。可以利用类似维纳滤波降噪的方法来得到非线性降噪处理的增益参数，然后根据增益参数，对初级固定波束形成结果进行处理，得到固定波束形成结果。

步骤140、根据两个固定波束形成结果，确定分别与两个预设目标方位对应的信号能量；

其中，根据固定波束形成结果中声音信号的振幅，可以得到声音信号的能量。而两个固定波束形成结果是与两个预设目标方位一一对应的。如此一来，得到的两个信号能量也就与两个预设目标方位一一对应。预设目标方位、固定波束形成结果和信号能量三者之间就具有确定的对应关系。

步骤150、根据两个信号能量和信号能量与预设目标方位的对应关系，确定声源方位。

其中，根据两个信号能量的大小关系，就可以确定声源方位，通常与较强的信号能量对应的预设目标方位即为声源方位。在确定了声源方位的情况下，如果接收到的语音指令，可以根据声源方位确定语音指令的控制对象，进而由控制对象做出相应操作。例如，在车载语音交互系统中，语音指令的发出者一般是前排的驾驶员和副驾驶员，预设目标方位也就是分别指向驾驶席和副驾驶席。那么，如果驾驶员发出语音指令，想要调节座椅加热的温度，那么，指向驾驶席的信号能量是强于指向副驾驶席的信号能量的，由此可以确定需要调节座椅加热温度的是驾驶席。这样，对于某些需要指明控制对象的指令，可以省略控制对象，方便用户通过语音指令进行控制操作。

本实施例的技术方案，根据波束形成结果，基于信号能量判断声源方向，解决了基于声波到达麦克风阵列的相位差来计算得到声音方向，在麦克风阵列间距较小时，准确性不高的问题，实现提高声源定向准确性的效果。

实施例二

图3为本发明实施例二提供的一种双麦克风阵列波束形成方法的流程图，本实施例的技术方案在上述技术方案的基础上进一步细化，该方法包括：

步骤310、根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数；

步骤320、根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果；

步骤330、根据两个初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果。

其中，通过至少两级非线性降噪处理，可以更好地实现目标方向语音增强，干扰方向语音抑制。每级非线性降噪处理的方式是相同的，后一级的处理在前一级处理结果的基础上进行。可选的，根据两个初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果，包括：

以第一预设目标方位为目标方向，第二预设目标方位为干扰方向，根据第二表达式

得到第一级非线性降噪处理第n帧频点f处的第一增益参数

其中，

为增强所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果，

为增强所述第二预设目标方位的第n帧频点f处的第二初级固定波束形成结果；

根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果。

可选的，所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果，包括：

根据第三表达式

得到第一级非线性降噪处理指向所述第一预设目标方位第n帧频点f处的所述第一预设目标方位一级降噪固定波束形成结果。

可选的，在所述根据所述第一预设目标方位的第n帧频点f处的第一初级固定波束形成结果和所述第一增益参数，确定指向所述第一预设目标方位第n帧频点f处的第一预设目标方位一级降噪固定波束形成结果之后，还包括：

以所述第一预设目标方位作为目标方向，所述第二预设目标方位为干扰方向，根据第四表达式

得到第二级非线性降噪处理第n帧频点f处的第二增益参数

其中，200Hz≤f≤2500Hz；

根据第五表达式

得到第二级非线性降噪处理指向所述第一预设目标方位第n帧频点f处的第一预设目标方位二级降噪固定波束形成结果，并作为指向所述第一预设目标方位的所述固定波束形成结果。

可选的，所述根据两个所述初级固定波束形成结果，进行至少两级非线性降噪处理，得到固定波束形成结果，包括：

以所述第二预设目标方位为目标方向，所述第一预设目标方位为干扰方向，根据第六表达式

得到第一级非线性降噪处理第n帧频点f处的第三增益参数

其中，

根据第七表达式

得到第一级非线性降噪处理指向所述第二预设目标方位的第n帧频点f处的第二预设目标方位一级降噪固定波束形成结果；

以所述第二预设目标方位为目标方向，所述第一预设目标方位为干扰方向，根据第八表达式

得到第二级非线性降噪处理第n帧频点f处的第四增益参数

其中，200Hz≤f≤2500Hz；

根据第九表达式

得到第二级非线性降噪处理指向所述第二预设目标方位的第n帧频点f处的第二预设目标方位二级降噪固定波束形成结果，并作为指向所述第二预设目标方位的所述固定波束形成结果。固定波束形成结果包括指向第一预设目标方位的固定波束形成结果和指向第二预设目标方位的固定波束形成结果。

其中，第二级非线性降噪处理仅对语音能量分布较大的频谱段进行处理，可以减少运算量，降低处理器的负担，也有助于提高效率。

步骤340、根据两个固定波束形成结果，确定分别与两个预设目标方位对应的信号能量；

步骤350、根据两个信号能量和信号能量与预设目标方位的对应关系，确定声源方位。

本实施例的技术方案，采用至少两级非线性降噪处理，提高对干扰方向的抑制效果，增强目标方向语音，从而得到较为干净的语音信号，提高语音指令的识别率。

实施例三

图4为本发明实施例三提供的一种双麦克风阵列声源定向方法的流程图，本实施例的技术方案是在上述技术方案的基础上进一步细化，该方法包括：

步骤410、根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数；

步骤420、根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果；

步骤430、根据两个初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果。

步骤440、根据两个固定波束形成结果，计算分别指向两个预设目标方位的单帧信号能量；

步骤450、根据单帧信号能量，采用能量平滑的方式，确定分别指向两个预设目标方位的信号能量；

其中，可以根据表达式

计算分别指向两个所述预设目标方位的信号能量

和

其中，λ为预设平滑因子，

分别为当前第n帧信号指向两个预设目标方位的所述单帧信号能量。可选的，预设平滑因子λ的取值为0.85-0.95，优选为0.9。对于单帧信号能量，可能有数值突变的情况，影响声源定位的判断，而信号能量

作为指向第一预设目标方位的累计信号能量，

作为指向第二预设目标方位的累计信号能量，是在一定预设时间内的信号能量，通过比较一定预设时间内的信号能量，来判断声源方位，可以保证语音交互系统运行的稳定性。

步骤460、根据两个信号能量和信号能量与预设目标方位的对应关系，确定声源方位。

可选的，当指向第一预设目标方位的第一信号能量大于等于指向第二预设目标方位的第二信号能量，确定声源方位为第一预设目标方位；

当指向第一预设目标方位的第一信号能量小于指向第二预设目标方位的第二信号能量，确定声源方位为第二预设目标方位。

本实施例的技术方案，通过判断预设时间内的信号能量，提高声源方位的准确性，避免信号突变的影响，保证语音交互系统运行的稳定性。

实施例四

图5为本发明实施例四提供的一种双麦克风阵列声源定向装置的结构示意图，该装置包括：

预设固定波束形成参数确定模块510，用于根据两个预设目标方位、双麦克风阵列的导向矢量和导向矢量与预设固定波束形成参数的预设关系，确定两个预设固定波束形成参数；其中，两个预设固定波束形成参数与两个预设目标方位一一对应；

初级固定波束形成结果确定模块520，用于根据预设固定波束形成参数与麦克风原始数据，确定分别对应两个预设目标方位的初级固定波束形成结果；

固定波束形成结果得到模块530，用于根据两个初级固定波束形成结果，进行非线性降噪处理，得到固定波束形成结果；

信号能量确定模块540，用于根据两个固定波束形成结果，确定分别与两个预设目标方位对应的信号能量；

声源方位确定模块550，用于根据两个信号能量和信号能量与预设目标方位的对应关系，确定声源方位。

可选的，信号能量确定模块540，包括：

单帧信号能量计算单元，用于根据两个所述固定波束形成结果，计算分别指向两个所述预设目标方位的单帧信号能量；

信号能量确定单元，用于根据所述单帧信号能量，采用能量平滑的方式，确定分别指向两个所述预设目标方位的所述信号能量。

可选的，信号能量确定单元，具体用于：

根据表达式

计算分别指向两个所述预设目标方位的所述信号能量

和

其中，λ为预设平滑因子，

分别为当前第n帧信号指向两个所述预设目标方位的所述单帧信号能量。

可选的，预设平滑因子的取值为0.85-0.95，优选为0.9。

可选的，声源方位确定模块550，具体用于：

当指向第一预设目标方位的第一信号能量大于等于指向第二预设目标方位的第二信号能量，确定所述声源方位为所述第一预设目标方位；

当指向所述第一预设目标方位的所述第一信号能量小于指向所述第二预设目标方位的所述第二信号能量，确定所述声源方位为所述第二预设目标方位。

本发明实施例所提供的双麦克风阵列波束形成装置可执行本发明任意实施例所提供的双麦克风阵列波束形成方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6为本发明实施例四提供的一种设备的结构示意图，如图6所示，该设备包括处理器610、存储器620和双麦克风阵列630；设备中处理器610的数量可以是一个或多个，图6中以一个处理器610为例；设备中的处理器610、存储器620和双麦克风阵列630可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器620作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的双麦克风阵列声源定向方法对应的程序指令/模块(例如，双麦克风阵列声源定向装置中的预设固定波束形成参数确定模块510、初级固定波束形成结果确定模块520、固定波束形成结果得到模块530、信号能量确定模块540和声源方位确定模块550)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的双麦克风阵列声源定向方法。

存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

双麦克风阵列630用于获取音频数据，该音频数据中包括指向预设目标方位的语音信号。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。