CN104464739B

CN104464739B - 音频信号处理方法及装置、差分波束形成方法及装置

Info

Publication number: CN104464739B
Application number: CN201310430978.7A
Authority: CN
Inventors: 李海婷; 张德明
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-09-18
Filing date: 2013-09-18
Publication date: 2017-08-11
Anticipated expiration: 2033-09-18
Also published as: CN104464739A; WO2015039439A1; US20160173978A1; US9641929B2

Abstract

本发明公开了一种音频信号处理方法及装置、差分波束形成方法及装置，以解决现有的音频信号处理系统无法同时对多种应用场景下音频信号处理的问题。本发明中确定超指向差分波束形成权系数；根据当前应用场景所需输出信号类型获取当前应用场景对应的权系数，利用获取的权系数对音频输入信号进行超指向差分波束形成处理，得到当前应用场景下的超指向差分波束形成信号；对形成信号进行处理，得到当前应用场景所需的最终音频信号。通过本发明能够满足不同应用场景需要不同音频信号处理方式的需求。

Description

音频信号处理方法及装置、差分波束形成方法及装置

技术领域

本发明涉及音频技术领域，尤其涉及一种音频信号处理方法及装置、差分波束形成方法及装置。

背景技术

随着麦克风阵列处理技术的不断发展，利用麦克风阵列进行音频信号采集的应用范围越来越广泛，例如可应用于高清通话、音视频会议、语音交互、空间声场录制等多种应用场景下，并将逐步被应用到车载系统、家庭媒体系统、视频会议系统等更广泛的应用场景下。

一般的，不同的应用场景具有不同的音频信号处理装置，并采用不同的麦克风阵列处理技术，例如需要单声道信号的高性能人机交互以及高清话音通信场景下，一般利用基于自适应波束形成技术的麦克风阵列进行音频信号的采集，对麦克风阵列采集到的音频信号处理后输出单声道信号，即这种应用于单声道信号输出的音频信号处理系统只能获取单声道信号，无法应用于需求双声道信号的场景，例如无法实现空间声场的录制。

随着一体化进程的发展，集高清通话、音视频会议、语音交互、空间声场录制等多种功能为一体的终端已被应用，在终端工作在不同应用场景下就需要不同的麦克风阵列处理系统进行音频信号的处理，以得到不同的输出信号，技术实现相对较复杂，因此设计一种音频信号处理装置，使其同时满足高清话音通信、音视频会议、语音交互以及空间声场录制等多种应用场景，是麦克风阵列处理技术的研究方向。

发明内容

本发明实施例提供一种音频信号处理方法及装置、差分波束形成方法及装置，以解决现有的音频信号处理装置无法同时满足多种应用场景下音频信号处理的问题。

第一方面，提供一种音频信号的处理装置，包括权系数存储模块、信号获取模块、波束形成处理模块和信号输出模块，其中：

所述权系数存储模块，用于存储超指向差分波束形成权系数；

所述信号获取模块，用于获取音频输入信号，并向所述波束形成处理模块输出所述音频输入信号，还用于确定当前应用场景以及当前应用场景所需输出信号类型，并向所述波束形成处理模块传输所述当前应用场景以及当前应用场景所需输出信号类型；

所述波束形成处理模块，用于根据当前应用场景所需输出信号类型从所述权系数存储模块获取与当前应用场景对应的权系数，利用获取的所述权系数对所述音频输入信号进行超指向差分波束形成处理，得到超指向差分波束形成信号，并向所述信号输出模块传输所述超指向差分波束形成信号；

所述信号输出模块，用于输出所述超指向差分波束形成信号。

结合第一方面，在第一种可能的实现方式中，所述波束形成处理模块，具体用于：

当所述当前应用场景所需输出信号类型为双声道信号时，从所述权系数存储模块获取左声道超指向差分波束形成权系数以及右声道超指向差分波束形成权系数；

根据所述左声道超指向差分波束形成权系数对所述音频输入信号进行超指向差分波束形成处理，得到左声道超指向差分波束形成信号；以及

根据所述右声道超指向差分波束形成权系数对所述音频输入信号进行超指向差分波束形成处理，得到右声道超指向差分波束形成信号；

向所述信号输出模块传输所述左声道超指向差分波束形成信号和所述右声道超指向差分波束形成信号；

所述信号输出模块，具体用于：

输出所述左声道超指向差分波束形成信号和所述右声道超指向差分波束形成信号。

结合第一方面，在第二种可能的实现方式中，

所述波束形成处理模块，具体用于：

当所述当前应用场景所需输出信号类型为单声道信号时，从所述权系数存储模块获取当前应用场景对应的单声道超指向差分波束形成权系数；

根据所述单声道超指向差分波束形成权系数对所述音频输入信号进行超指向差分波束形成处理，形成一路单声道超指向差分波束形成信号；

向所述信号输出模块传输所述一路单声道超指向差分波束形成信号；

所述信号输出模块，具体用于：

输出所述一路单声道超指向差分波束形成信号。

结合第一方面，在第三种可能的实现方式中，所述音频信号处理装置还包括麦克风阵列调整模块，其中：

所述麦克风阵列调整模块，用于调整麦克风阵列为第一子阵列与第二子阵列，所述第一子阵列的端射方向与所述第二子阵列的端射方向不同；

所述第一子阵列与所述第二子阵列分别采集原始音频信号，并将所述原始音频信号作为音频输入信号向所述信号获取模块传输。

结合第一方面，在第四种可能的实现方式中，所述音频信号处理装置还包括麦克风阵列调整模块，其中：

所述麦克风阵列调整模块，用于调整麦克风阵列的端射方向，使所述端射方向指向目标声源；

所述麦克风阵列采集所述目标声源发出的原始音频信号，并将所述原始音频信号作为音频输入信号向所述信号获取模块传输。

结合第一方面，第一方面的第一种可能的实现方式，第一方面的第二种可能的实现方式，在第五种可能的实现方式中，所述音频信号处理装置还包括权系数更新模块，其中，

所述权系数更新模块，具体用于：

判断音频采集区域是否被调整；

若所述音频采集区域被调整，则确定麦克风阵列的几何形状、扬声器位置以及调整后的音频采集有效区域；

根据所述音频采集有效区域调整波束形状，或者根据所述音频采集有效区域和所述扬声器位置调整波束形状，得到调整的波束形状；

根据所述麦克风阵列的几何形状、所述调整的波束形状，确定超指向差分波束形成权系数，得到调整权系数，并将所述调整权系数向所述权系数存储模块传输；

所述权系数存储模块，具体用于：存储所述调整权系数。

结合第一方面，在第六种可能的实现方式中，所述音频信号处理装置还包括回声消除模块，其中，

所述回声消除模块，具体用于：

缓存扬声器播放信号，对麦克风阵列采集的原始音频信号进行回声消除，得到回声消除音频信号，并所述回声消除音频信号作为音频输入信号向所述信号获取模块传输；或者

对波束形成处理模块输出的超指向差分波束形成信号进行回声消除，得到回声消除超指向差分波束形成信号，并向所述信号输出模块传输所述回声消除超指向差分波束形成信号；

所述信号输出模块，具体用于：

输出所述回声消除超指向差分波束形成信号。

结合第一方面，在第七种可能的实现方式中，所述音频信号处理装置还包括回声抑制模块和噪声抑制模块，其中，

所述回声抑制模块，用于对所述波束形成处理模块输出的超指向差分波束形成信号进行回声抑制处理，或者对所述噪声抑制模块输出的噪声抑制超指向差分波束形成信号进行回声抑制处理，得到回声抑制超指向差分波束形成信号，并向所述信号输出模块传输所述回声抑制超指向差分波束形成信号；

所述噪声抑制模块，用于对波束形成处理模块输出的超指向差分波束形成信号进行噪声抑制处理，或者对所述回声抑制模块输出的所述回声抑制超指向差分波束形成信号进行噪声抑制处理，得到噪声抑制超指向差分波束形成信号，并向所述信号输出模块传输所述噪声抑制超指向差分波束形成信号；

所述信号输出模块，具体用于：

输出所述回声抑制超指向差分波束形成信号或者所述噪声抑制超指向差分波束形成信号。

结合第一方面的第七种可能实现方式，在第八种可能的实现方式中，所述波束形成处理模块，还用于：

在麦克风阵列能够调整的端射方向中、除声源方向以外的其它方向上，形成至少一个波束形成信号作为参考噪声信号，并向所述噪声抑制模块传输所述参考噪声信号。

第二方面，提供一种音频信号处理方法，包括：

确定超指向差分波束形成权系数；

获取音频输入信号，并确定当前应用场景以及当前应用场景所需输出信号类型；

根据当前应用场景所需输出信号类型获取当前应用场景对应的权系数，利用获取的所述权系数对所述音频输入信号进行超指向差分波束形成处理，得到超指向差分波束形成信号，并输出所述超指向差分波束形成信号。

结合第二方面，在第一种可能的实现方式中，所述根据当前应用场景所需输出信号类型获取当前应用场景对应的权系数，利用获取的所述权系数对所述音频输入信号进行超指向差分波束形成处理，得到超指向差分波束形成信号，并输出所述超指向差分波束形成信号，具体包括：

在当前应用场景所需输出信号类型为双声道信号时，获取左声道超指向差分波束形成权系数以及右声道超指向差分波束形成权系数；

根据所述左声道超指向差分波束形成权系数对所述音频输入信号进行超指向差分波束形成处理，得到左声道超指向差分波束形成信号；

结合第二方面，在第二种可能的实现方式中，所述根据当前应用场景所需输出信号类型获取当前应用场景对应的权系数，利用获取的所述权系数对所述音频输入信号进行超指向差分波束形成处理，得到超指向差分波束形成信号，并输出所述超指向差分波束形成信号，具体包括：

在当前应用场景所需输出信号类型为单声道信号时，获取当前应用场景形成单声道信号的单声道超指向差分波束形成权系数；

根据获取的单声道超指向差分波束形成权系数，对所述音频输入信号进行超指向差分波束形成处理，形成一路单声道超指向差分波束形成信号，并输出所述一路单声道超指向差分波束形成信号。

结合第二方面，在第三种可能的实现方式中，获取音频输入信号之前，该方法还包括：

调整麦克风阵列为第一子阵列与第二子阵列，所述第一子阵列的端射方向与所述第二子阵列的端射方向不同；

利用所述所述第一子阵列与所述第二子阵列分别采集原始音频信号，将所述原始音频信号作为音频输入信号。

结合第二方面，在第四种可能的实现方式中，获取音频输入信号之前，该方法还包括：

调整麦克风阵列的端射方向，使所述端射方向指向目标声源；

采集目标声源的原始音频信号，并将所述原始音频信号作为音频输入信号。

结合第二方面，第二方面的第一种可能的实现方式，第二方面的第二种可能的实现方式，在第五种可能的实现方式中，根据当前应用场景所需输出信号类型获取当前应用场景对应的权系数之前，该方法还包括：

判断音频采集区域是否被调整；

根据所述麦克风阵列的几何形状、所述调整的波束形状，确定超指向差分波束形成权系数，得到调整权系数；

利用所述调整权系数对所述音频输入信号进行超指向差分波束形成处理。

结合第二方面，在第六种可能的实现方式中，该方法还包括：

对麦克风阵列采集的原始音频信号进行回声消除；或者

对所述超指向差分波束形成信号进行回声消除。

结合第二方面，在第七种可能的实现方式中，形成超指向差分波束形成信号之后，该方法还包括：

对所述超指向差分波束形成信号进行回声抑制处理，和/或噪声抑制处理。

结合第二方面，在第八可能的实现方式中，该方法还包括：

在麦克风阵列能够调整的端射方向中、除声源方向以外的其它方向上，形成至少一个波束形成信号作为参考噪声信号；

利用所述参考噪声信号对所述超指向差分波束形成信号进行噪声抑制处理。

第三方面，提供一种差分波束形成方法，包括：

根据麦克风阵列的几何形状和设定的音频采集有效区域，确定差分波束形成权系数并存储；或者根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定差分波束形成权系数并存储；

根据当前应用场景所需输出信号类型获取当前应用场景对应的权系数，利用获取的所述权系数对音频输入信号进行差分波束形成处理，得到超指向差分波束。

结合第三方面，在第一种可能的实现方式中，所述确定差分波束形成权系数的过程，具体包括：

根据麦克风阵列的几何形状和设定的音频采集有效区域，确定D(ω,θ)和β；或根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定D(ω,θ)和β；

根据确定的D(ω,θ)和β，按照公式：h(ω)=D^H(ω,θ)[D(ω,θ)D^H(ω,θ)]^-1β，确定超指向差分波束形成的权系数；

其中，h(ω)为权系数，D(ω,θ)为任意几何形状的麦克风阵列所对应的转向矩阵，由不同入射角度下声源到达麦克风阵列中各麦克风间的相对时延决定的，D^H(ω,θ)表示D(ω,θ)的共轭转置矩阵，ω为音频信号的频率，θ为声源入射角度，β为入射角度为θ时的响应向量。

结合第三方面的第一种可能的实现方式，在第二种可能的实现方式中，所述根据麦克风阵列的几何形状和设定的音频采集有效区域，确定D(ω,θ)和β，具体包括：

根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向；

根据转换的所述极点方向以及所述零点方向，确定不同应用场景下的D(ω,θ)和β；

其中，所述极点方向为使超指向差分波束在该方向上响应值为1的入射角度，所述零点方向为使超指向差分波束在该方向上响应值为0的入射角度。

结合第三方面的第一种可能的实现方式，在第三种可能的实现方式中，所述根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定D(ω,θ)和β，具体包括：

根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，将扬声器位置转换为零点方向；

结合第三方面的第二种可能实现方式，或者结合第三方面的第三种可能实现方式，在第四种可能的实现方式中，所述根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，具体包括：

当应用场景所需输出信号类型为单声道信号时，设定麦克风阵列的端射方向为极点方向，并设定M个零点方向，其中M≤N-1，N为麦克风阵列中的麦克风数量；

当应用场景所需输出信号类型为双声道信号时，设定麦克风阵列的0度方向为极点方向，并将麦克风阵列的180度方向设定为零点方向，以确定其中一个声道对应的超指向差分波束形成权系数，并设定麦克风阵列的180度方向为极点方向，并将麦克风阵列的0度方向设定为零点方向，以确定另一个声道对应的超指向差分波束形成权系数。

第四方面，提供一种差分波束形成装置，包括：权系数确定单元和波束形成处理单元；

所述权系数确定单元，用于根据麦克风阵列的几何形状和设定的音频采集有效区域，确定差分波束形成权系数，并将形成的所述权系数向所述波束形成处理单元传输；或根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定差分波束形成权系数，并将形成的所述权系数向所述波束形成处理单元传输；

所述波束形成处理单元，根据当前应用场景所需输出信号类型从所述权系数确定单元获取当前应用场景对应的权系数，利用获取的所述权系数对音频输入信号进行差分波束形成处理。

结合第四方面，在第一种可能的实现方式中，所述权系数确定单元，具体用于：

结合第四方面的第一种可能的实现方式，在第二种可能的实现方式中，所述权系数确定单元，具体用于：

根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，并根据得到的极点方向以及零点方向，确定不同应用场景下的D(ω,θ)和β；或者根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，将扬声器位置转换为零点方向，并根据得到的极点方向以及零点方向，确定不同应用场景下的D(ω,θ)和β；

结合第四方面的第二种可能的实现方式，在第三种可能的实现方式中，所述权系数确定单元，具体用于：

本发明提供的音频信号处理装置，波束形成处理模块根据当前应用场景所需的输出信号类型，从权系数存储模块获取与当前应用场景对应的权系数，并利用获取的权系数对信号获取模块输出的音频输入信号进行超指向差分波束处理，形成当前应用场景下的超指向差分波束形成信号，对超指向差分波束进行相应的处理即可得到最终所需的音频输出信号，能够满足不同应用场景需要不同音频信号处理方式的需求。

附图说明

图1为本发明实施例提供的音频信号处理方法流程图；

图2A-图2F为本发明实施例提供的直线形麦克风布放示意图；

图3A-图3C为本发明实施例提供的麦克风阵列示意图；

图4A-图4B为本发明实施例提供的麦克风阵列端射方向与扬声器角度相关性示意图；

图5为本发明实施例中形成两路音频信号麦克风阵列角度示意图；

图6为本发明实施例麦克风阵列拆分为两个子阵列后的示意图；

图7为本发明实施例人机交互和高清话音通信过程中音频信号处理方法流程图；

图8为本发明实施例提供的空间声场录制过程中音频信号处理方法流程图；

图9为本发明实施例提供的立体声通话中音频信号处理方法流程图；

图10A为空间声场录制过程中音频信号的处理方法；

图10B为立体声通话过程中音频信号处理方法流程图；

图11A-图11E为本发明实施例提供的音频信号处理装置结构示意图；

图12为本发明实施例提供的差分波束形成流程示意图；

图13为本发明实施例提供的差分波束形成装置构成示意图；

图14为本发明实施例提供的控制器构成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例一提供一种音频信号处理方法，如图1所示，包括：

S101：确定超指向差分波束形成权系数。

具体的，本发明实施例中涉及的应用场景可以包括高清通话、音视频会议、语音交互、空间声场录制等多种应用场景，根据不同应用场景所需的音频信号处理方式，则可确定不同的超指向差分波束形成权系数，本发明实施例中超指向差分波束为根据麦克风阵列的几何形状、预先设定的波束形状，构建的差分波束。

S102：获取当前应用场景所需的音频输入信号，并确定当前应用场景以及当前应用场景所需输出信号类型。

具体的，本发明实施例中形成超指向差分波束时，可根据当前应用场景下是否需要对麦克风阵列采集的原始音频信号进行回声消除处理，确定不同的音频输入信号，该音频输入信号可以是根据当前应用场景确定的麦克风阵列采集的原始音频信号经过回声消除的音频信号，或者麦克风阵列采集的原始音频信号。

不同应用场景需要的输出信号类型是不同的，比如人机交互和高清话音通信应用场景下需要的是单声道信号，在空间声场录制以及立体声通话应用场景下，则需要双声道信号，本发明实施例中根据确定的当前应用场景，确定当前应用场景所需输出信号类型。

S103：获取当前应用场景对应的权系数。

具体的，本发明实施例中根据当前应用场景所需输出信号类型获取对应的权系数，在当前应用场景所需输出信号类型为双声道信号时，获取当前应用场景对应的左声道超指向差分波束形成权系数以及当前应用场景对应的右声道超指向差分波束形成权系数；在当前应用场景所需输出信号类型为单声道信号时，获取形成单声道信号的当前应用场景的单声道超指向差分波束形成权系数。

S104：利用S103中获取的权系数对S102中获取的音频输入信号进行超指向差分波束形成处理，得到超指向差分波束形成信号。

具体的，本发明实施例中在当前应用场景所需输出信号类型为双声道信号时，获取当前应用场景对应的左声道超指向差分波束形成权系数以及当前应用场景对应的右声道超指向差分波束形成权系数；根据当前应用场景对应的左声道超指向差分波束形成权系数对音频输入信号进行超指向差分波束形成处理，得到当前应用场景对应的左声道超指向差分波束形成信号；以及根据当前应用场景对应的右声道超指向差分波束形成权系数对音频输入信号进行超指向差分波束形成处理，得到当前应用场景对应的右声道超指向差分波束形成信号。

本发明实施例中，在当前应用场景所需输出信号类型为单声道信号时，获取单声道信号的当前应用场景对应的超指向差分波束形成权系数，根据获取的差分波束形成权系数，对音频输入信号进行超指向差分波束形成处理，形成一路单声道超指向差分波束形成信号。

S105：输出S104中得到的超指向差分波束形成信号。

具体的，本发明实施例中输出S104中得到的超指向差分波束形成信号后，可对超指向差分波束形成信号进行处理，得到当前应用场景所需的最终音频信号，可以按照当前应用场景下所需的信号处理方式对超指向差分波束形成信号进行处理，例如对超指向差分波束形成信号进行噪声抑制处理、回声抑制处理等，最终得到当前应用场景下所需的音频信号。

本发明实施例预先确定不同应用场景下超指向差分波束形成权系数，在需要对不同应用场景的音频信号进行处理时，可以利用确定的当前应用场景下超指向差分波束形成权系数以及当前应用场景的音频输入信号，形成当前应用场景下的超指向差分波束，对超指向差分波束进行相应的处理即可得到最终所需的音频信号，能够满足不同应用场景需要不同音频信号处理方式的需求。

实施例二

本发明以下将结合附图对实施例一涉及的音频信号处理方法进行详细说明。

一、确定超指向差分波束形成权系数

本发明实施例中可根据麦克风阵列的几何形状以及设定的波束形状确定不同输出信号类型在不同应用场景对应的各超指向差分波束形成权系数，其中，波束形状为根据不同输出信号类型在不同应用场景下对波束形状的要求确定，或者根据不同输出信号类型在不同应用场景下对波束形状的要求和扬声器位置确定。

本发明实施例中，进行超指向差分波束形成权系数的确定时，需要构建用于采集音频信号的麦克风阵列，根据麦克风阵列的几何形状得到不同入射角度下声源到达麦克风阵列中各麦克风间的相对时延，并根据设定的波束形状，确定超指向差分波束形成权系数。

根据全指向麦克风阵列的几何形状以及设定的波束形状确定不同输出信号类型在不同应用场景对应的各超指向差分波束形成权系数，可按照如下公式进行计算：

h(ω)=D^H(ω,θ)[D(ω,θ)D^H(ω,θ)]^-1β

在具体应用时，一般对频率ω进行离散化处理，也就是在信号的有效频带内离散的采样一些频率点，对于不同的频率ω_k，分别求取对应的权系数h（ω_k），组成系数矩阵。k的取值范围与超指向差分波束形成时有效频点数有关。假设超指向差分波束形成时快速离散傅里叶变换的长度为FFT_LEN，有效频点个数为FFT_LEN/2+1。假设信号的采样率为AHz，则

进一步的，本发明实施例中构建的麦克风阵列几何形状可灵活设置，具体构建的麦克风阵列几何形状并不做限定，只要能够得到不同入射角度下声源到达麦克风阵列中各麦克风间的相对时延，确定D(ω,θ)，然后根据设定的波束形状，通过上述公式即可确定权系数。

具体的，本发明实施例中根据不同应用场景所需输出信号类型需要确定不同的权系数，在应用场景所需输出信号为双声道信号时，则需要按照上述公式确定左声道超指向差分波束形成权系数以及右声道超指向差分波束形成权系数。在应用场景所需输出信号为单声道信号时，则需要按照上述公式确定形成单声道信号的单声道超指向差分波束形成权系数。

进一步的，本发明实施例中选择对应的权系数之前，还包括：判断音频采集区域是否被调整；若音频采集区域被调整，则确定麦克风阵列的几何形状、扬声器位置以及调整后的音频采集有效区域；根据调整后的音频采集有效区域调整波束形状，或者根据调整后的音频采集有效区域和扬声器位置调整波束形状，得到调整的波束形状；然后根据麦克风阵列的几何形状、调整的波束形状，按照公式h(ω)=D^H(ω,θ)[D(ω,θ)D^H(ω,θ)]^-1β确定超指向差分波束形成权系数，得到调整权系数，以利用调整权系数对音频输入信号进行超指向差分波束形成处理。

本发明实施例中根据构建的麦克风阵列的几何形状不同，可得到不同的D(ω,θ)，以下举例进行说明。

本发明中可以构建包括N个麦克风的直线形阵列，本发明实施例中设置的直线形麦克风阵列中麦克风与扬声器的布放方式可以有很多种不同的方式，本发明实施例为能实现麦克风端射方向的调整，将麦克风设置在可转动的平台上，如图2A-图2F所示，将扬声器放置在两侧，两个扬声器之间的部分分两层，上层为可转动的，并在其上面布放N个麦克风，N为大于等于2的正整数，并且N个麦克风可以是直线型等间距的，可以是直线型非等间距的。

图2A和图2B为第一种麦克风与扬声器布放的示意图，麦克风的开孔超正上方，其中图2A为麦克风与扬声器布放的俯视图，图2B为麦克风与扬声器布放的正面示意图。

图2C和图2D为本发明提出的另一种麦克风与扬声器布放的俯视图和正面示意图，与图2A和图2B，不同之处在于麦克风的开孔朝向正前方。

图2E和图2F为是本发明提出的第三种麦克风与扬声器布放的俯视图和正面示意图，与前两种情况相比，不同之处在于麦克风的开孔在上层部分的边线上。

本发明实施例中麦克风阵列可以是除直线形阵列以外的其他几何形状的麦克风阵列，如圆形阵列、三角形阵列、矩形阵列或其他多边形阵列，当然，本发明实施例中麦克风与扬声器的布放位置不限于以上几个情况，这里只是举例说明。

本发明实施例中根据构建的麦克风阵列几何形状的不同，则有不同的确定D(ω,θ)方式，例如：

本发明实施例中当麦克风阵列为包括N个麦克风的直线形阵列时，如图3A所示，可采用如下公式进行D(ω,θ)和β的确定，其中：

其中，

其中，θ_i为第i个设定的声源入射角度，上角标T表示转置，c为声速，一般可以取342m/s或者340m/s，d_k为第k个麦克风与设定的阵列原点位置之间的距离，一般情况下，麦克风阵列阵列的原点位置取阵列的几何中心，也可以取阵列中的某一个麦克风位置为原点（如第一个麦克风），ω为音频信号的频率，N为麦克风阵列中麦克风的数量，M为设定的声源入射角度的个数，M≤N。

响应向量β的公式：

，

其中β_i,i＝1,2,...,M，为第i个设定的声源入射角度对应的响应值。

当麦克风阵列为包括N个麦克风的均匀圆形阵列，如图3B所示，假设b为均匀圆阵的半径，θ为声源入射角度，r_s为声源与麦克风阵列中心位置之间的距离，麦克风阵列采集信号的采样频率为f，c为声速，假定感兴趣声源的位置S，则位置S在均匀圆阵所在平面上的投影为S’，S’与第一个麦克风之间的夹角称为水平角，记作α₁。那么第n个麦克风的水平角α_n,则

则声源S距离麦克风阵列第n个麦克风的距离为r_n,则

则时延调整参数为：

超指向差分波束形成权系数的设计方法计算权系数的公式如下：

h(ω)=D^H(ω,θ)[D(ω,θ)D^H(ω,θ)]^-1β

其中转向阵D(ω,θ)的公式：

其中，

响应矩阵β的公式：

b为均匀圆阵的半径，θ_i为第i个设定的声源入射角度，r_s为声源与麦克风阵列中心位置之间的距离，α₁为设定声源位置在均匀圆阵所在平面上的投影与第一个麦克风之间的夹角，c为声速，ω为音频信号的频率，上角标T表示转置，N为麦克风阵列中麦克风的数量，M为设定的声源入射角度的个数；其中β_i,i＝1,2,...,M，为第i个设定的声源入射角度对应的响应值。

当麦克风阵列为包括N个麦克风的均匀矩形阵列，如图3C所示，以矩形阵列的几何中心为原点，假设麦克风阵列的第n个麦克风的坐标为(x_n,y_n)，设定的声源的入射角度为θ，声源与麦克风阵列中心位置的距离为r_s。

则声源S距离麦克风阵列第n个阵元的距离为r_n,

则时延调整参数为：

h(ω)=D^H(ω,θ)[D(ω,θ)D^H(ω,θ)]^-1β

其中转向阵D(ω,θ)的公式：

其中，

响应矩阵β的公式：

其中，x_n为麦克风阵列中第n个麦克风的横坐标，y_n为麦克风阵列中第n个麦克风的纵坐标，θ_i为第i个设定的声源入射角度，r_s为声源与麦克风阵列中心位置之间的距离，ω为音频信号的频率，c为声速，N为麦克风阵列中麦克风的数量，M为设定的声源入射角度的个数，β_i,i＝1,2,...,M，为第i个设定的声源入射角度对应的响应值。

进一步的，本发明实施例中进行差分波束形成权系数确定时，通过考虑扬声器位置和不考虑扬声器位置两种方式来确定，当不考虑扬声器位置时，可根据麦克风阵列的几何形状和设定的音频采集有效区域，确定D(ω,θ)和β。当考虑扬声器位置时，可根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定D(ω,θ)和β。

具体的，本发明实施例中根据麦克风阵列的几何形状和设定的音频采集有效区域，确定D(ω,θ)和β时，根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向；根据转换的极点方向以及零点方向，确定不同应用场景下的D(ω,θ)和β；其中，极点方向为使超指向差分波束在该方向上的响应值为1的入射角度，零点方向为使超指向差分波束在该方向上的响应值为0的入射角度。

进一步的，本发明实施例中根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定D(ω,θ)和β时，根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，将扬声器位置转换为零点方向；根据转换的极点方向以及零点方向，确定不同应用场景下的D(ω,θ)和β；其中，极点方向为使超指向差分波束在该方向上的响应值为1的入射角度，零点方向为使超指向差分波束在该方向上的响应值为0的入射角度。

更进一步的，本发明实施例中根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，具体包括：

本发明实施例中进行波束形状设置时，可设定波束响应向量为1的角度、波束响应向量为0的个数（以下简称零点的个数）以及每一个零点的角度，也可以设置不同角度下的响应程度，或者是设定感兴趣区域的角度范围。本发明实施例中以麦克风阵列为N个麦克风的直线形阵列为例进行说明。

假设设定波束形成零点的个数为L，每一个零点的角度为θ_l时，l＝＝1,2,....,L,L≤N-1。根据余弦函数的周期性，θ_l可以取任意角度，由于余弦函数具有对称性，一般只取(0,180]之间的角度。

进一步的，当麦克风阵列为包括N个麦克风的直线形阵列，可调整麦克风阵列的端射方向，使端射方向朝向设定的方向，比如使端射方向朝向声源方向，调整方法可以是手动调整，也可以是自动调整，可以预先设定一个旋转角度，比较常见的旋转角度为顺时针旋转90度，当然也可以利用麦克风阵列进行声源方位检测，然后将麦克风阵列的端射方向转向声源，如图3A所示为调整后的麦克风阵列方向示意图，本发明实施例中取麦克风阵列的端射方向即0度方向作为极点方向，响应向量为1，此时转向阵D(ω,θ)变为：

响应矩阵β变为：

假设设定感兴趣区域的角度范围[-γ,γ]时，γ为0度到180度之间的角度，此时，可设定端射方向为极点方向，响应向量为1，第1个零点为γ，即θ₁＝γ，其余的零点此时转向阵D(ω,θ)变为：

响应矩阵β变为：β＝[10...0]^T。

当设定感兴趣区域的角度范围[-γ,γ]时，也可设定端射方向为极点方向，响应向量为1，第1个零点为γ，即θ₁＝γ，其余的零点个数和零点位置根据预先设定零点距离σ确定。

但是要保证如果不满足此条件，则z的最大取值截止到N-2。

进一步的，本发明实施例中为了有效去除扬声器播放声音引起的回声问题对整个装置性能的影响，可以预先设定扬声器的角度为零点方向的角度，并且本发明实施例中扬声器可采用装置内部的扬声器，也可采用外设的扬声器。

如图4A所示为本发明实施例中采用装置内部扬声器时，麦克风阵列端射方向与扬声器角度相关性示意图，假设麦克风阵列逆时针旋转角度记为，则旋转以后扬声器相对于麦克风的角度就从原来的0度和180度变为度和度。这个时候度和180度就为默认的零点，响应向量为0，则进行零点设置时，可将度和180度设置为零点，即在进行零点个数设定时，可设定的角度值就减少了2个，此时转向阵D(ω,θ)变为：

M为正整数。

如图4B所示为本发明实施例中采用装置外部扬声器时，麦克风阵列端射方向与扬声器角度相关性示意图，假设左侧扬声器与麦克风阵列原始位置水平线之间夹角为δ₁，右侧扬声器与麦克风阵列原始位置之间夹角为δ₂，麦克风阵列逆时针旋转角度为则麦克风阵列旋转以后左侧扬声器相对于麦克风阵列的角度就从原来的-δ₁度变为度，右侧麦克风相对于麦克风阵列的角度就从原来的180-δ₂变为度，则和就为默认的零点，响应向量为0，则进行零点设置时，可将度和度设置为零点，即在进行零点个数设定时，可设定的角度值就减少了2个，此时转向阵D(ω,θ)变为：

M为正整数。

需要说明的是，本发明实施例中上述确定权系数的过程适用于应用场景所需输出信号类型为单声道信号的情况下，形成单声道超指向差分波束形成权系数。

在应用场景所需输出信号类型为双声道信号时，确定当前应用场景对应的左声道的超指向差分波束形成权系数和当前应用场景对应的右声道的超指向差分波束形成权系数时，可采用如下方式确定转向阵D(ω,θ)：

如图5所示，为本发明实施例中用于形成双声道音频信号麦克风阵列角度示意图，对于当前应用场景对应的左声道的超指向差分波束形成权系数设计时取0度方向为极点方向，响应向量为1，180度方向为零点方向，响应向量为0。此时转向阵D(ω,θ)变为：

响应矩阵β变为：

对于当前应用场景对应的右声道的超指向差分波束形成权系数设计时取180度方向为极点方向，响应向量为1，0度方向为零点方向，响应向量为0。此时转向阵D(ω,θ)变为：

响应矩阵β变为：

进一步的，由于左右声道的超指向差分波束的零点方向与极点方向是相对称的，因此可以只计算左声道或右声道的权系数，另一未计算的权系数可用同样的权系数，只不过在使用的时候将输入各路麦克风信号的顺序变为逆序即可。

需要说明的是，本发明实施例中进行权系数确定时上述设定的波束形状，可以是预先设定的波束形状，也可以是调整的波束形状。

二、进行超指向差分波束形成处理，得到超指向差分波束形成信号

本发明实施例中根据获取的权系数以及音频输入信号，形成当前应用场景下的超指向差分波束形成信号。其中，不同的应用场景下音频输入信号不同，当应用场景需要对麦克风阵列采集的原始音频信号进行回声消除处理，则音频输入信号为根据当前应用场景确定的麦克风阵列采集的原始音频信号经过回声消除后的音频信号，当应用场景不需要对麦克风阵列采集的原始音频信号进行回声消除处理，则将麦克风阵列采集的原始音频信号作为音频输入信号。

进一步的，当确定了音频输入信号和权系数后，则根据确定的权系数和音频输入信号，进行超指向差分波束形成处理，得到处理后的超指向差分波束形成输出信号。

具体的，一般对音频输入信号进行快速离散傅里叶变换，得到每一路音频输入信号对应的频域信号X_i(k)，i=1,2,…,N，k=1,2,…,FFT_LEN,其中，FFT_LEN为快速离散傅里叶变换的变换长度。根据离散傅里叶变换的性质，变换后的信号具有复对称特性，X_i(FFT_LEN+2-k)＝X_i ^*(k)，k=2,…,FFT_LEN/2，其中，*表示共轭。因此离散傅里叶变换后得到信号的有效频点数为FFT_LEN/2+1。一般情况下只存储有效频点对应的超指向差分波束形成的权系数。按照公式:Y(k)＝h^T(ω_k)X(k)，k=1,2,…,FFT_LEN/2+1，和Y_i(FFT_LEN+2-k)＝Y^*(k)，k=2,…,FFT_LEN/2，对频域上的音频输入信号进行超指向差分波束处理，得到频域上的超指向差分波束形成信号。其中，Y(k)为频域上的超指向差分波束形成信号，h(ω_k)为第k组权系数，X(k)＝[X₁(k),X₂(k),...,X_N(k)]^T,X_i(k)为麦克风阵列采集的原始音频信号经过回声消除的第i路音频信号对应的频域信号，或者麦克风阵列采集的第i路原始音频信号对应的频域信号。

进一步的，本发明实施例中当应用场景需要的声道信号为单声道信号时，则获取当前应用场景形成单声道信号的单声道超指向差分波束形成权系数，根据获取的单声道超指向差分波束形成权系数，对音频输入信号进行超指向差分波束形成处理，形成一路单声道超指向差分波束形成信号；在应用场景所需声道信号为双声道信号时，则分别获取当前应用场景对应的左声道超指向差分波束形成权系数以及当前应用场景对应的右声道超指向差分波束形成权系数；根据获取的当前应用场景对应的左声道超指向差分波束形成权系数对音频输入信号进行超指向差分波束形成处理，得到当前应用场景对应的左声道超指向差分波束形成信号；根据获取的当前应用场景对应的右声道超指向差分波束形成权系数对音频输入信号进行超指向差分波束形成处理，得到当前应用场景对应的右声道超指向差分波束形成信号。

进一步的，本发明实施例中为较好的采集原始音频信号，在当前应用场景所需输出信号类型为单声道信号时；调整麦克风阵列的端射方向，使端射方向指向目标声源，采集目标声源的原始音频信号，并将采集的原始音频信号作为音频输入信号。

更进一步的，本发明实施例中当应用场景所需声道信号为双声道信号时，例如空间声场录制以及立体声录制时，可将麦克风阵列拆分为两个子阵列，分别为第一子阵列和第二子阵列，第一子阵列的端射方向与第二子阵列的端射方向不同，利用第一子阵列与述第二子阵列分别采集原始音频信号，根据两个子阵列采集的原始音频信号与左声道超指向差分波束形成权系数以及右声道超指向差分波束形成权系数，或根据对两个子阵列采集的原始音频信号进行回声消除后的音频信号与左声道超指向差分波束形成权系数以及右声道超指向差分波束形成权系数，形成当前应用场景下的超指向差分波束形成信号，麦克风阵列拆分为两个子阵列后的示意图，如图6所示，其中一个子阵列采集的音频信号用于左声道超指向差分波束形成信号的形成，另一个子阵列采集的音频信号用于右声道超指向差分波束形成信号的形成。

三、对形成的超指向差分波束进行处理

本发明实施例中在形成超指向差分波束后，可根据实际的应用场景选择是否对超指向差分波束进行噪声抑制和/或回声抑制处理，具体的噪声抑制处理方式和回声抑制处理方式可采用多种实现方式。

本发明实施例中为达到更高的方向性抑制效果，本发明实施例中在形成超指向差分波束的时候，可以计算出不同于上述形成超指向差分波束权系数的Q个权系数，以在麦克风阵列能够调整的端射方向中、除声源方向以外的其他任意方向，同样利用超指向差分波束权系数得到Q个波束形成信号作为参考噪声信号，其中Q为不小于1的整数，进行噪声抑制，以达到更好的方向性噪声抑制效果。

本发明实施例提供的音频信号处理方法，确定超指向差分波束的权系数时，可灵活设置麦克风阵列的几何形状，并且无需设置多组麦克风阵列，由于对麦克风阵列的布放方式没有太大要求，降低了麦克风布放的成本，并且在调整了音频采集区域时，根据调整的音频采集有效区域重新确定权系数，根据调整权系数进行超指向差分波束形成处理，能够提升体验。

本发明实施例以下结合具体的应用场景，例如人机交互、高清话音通信、空间声场录制以及立体声通话等应用场景，对应用上述音频信号处理方法进行举例说明，当然并不因以为限。

实施例三

本发明实施例中以需要单声道信号的人机交互和高清话音通信过程中的音频信号处理方法进行举例说明。

如图7所示，为本发明实施例提供的人机交互和高清话音通信过程中音频信号处理方法流程图，包括：

S701：调整麦克风阵列，使麦克风阵列端射方向指向目标说话人即声源。

本发明实施例中进行麦克风阵列调整时可以是手动调整，也可以是根据预先设定的旋转角度自动调整，还可以利用麦克风阵列进行说话人方位检测，然后将麦克风阵列的端射方向转向目标说话人。利用麦克风阵列进行说话人方位检测的方法有很多种，如基于MUSIC算法的声源定位技术、SRP-PHAT转向响应能量相位变换技术或者GCC-PHAT广义互相关相位变换等技术。

S702：判断用户是否调整了音频采集有效区域，当用户调整了音频采集有效区域，则转S703重新确定超指向差分波束形成权系数，否则不进行超指向差分波束权系数的更新，利用预先确定的超指向差分波束形成权系数进行S704.。

S703：根据用户设定的音频采集有效区域与麦克风扬声器位置，重新确定超指向差分波束形成权系数。

本发明实施例中当用户重新设定了音频采集有效区域，则可按照实施例二中涉及的确定超指向差分波束的权系数计算方法重新确定超指向差分波束形成权系数。

S704：采集原始音频信号。

本发明实施例利用包括N个麦克风的麦克风阵列，采集N路麦克风拾取到的原始音频信号，并同步缓存扬声器播放的数据信号，以扬声器播放的数据信号作为回声抑制和回声消除的参考信号，并对信号进行分帧处理。设N路麦克风拾取到的原始音频信号为x_i(n)，i=1,2,…,N，同步缓存扬声器播放的数据为ref_j(n),j＝1,2,...,Q，j=1,2,…,Q，Q为扬声器播放数据的声道数。

S705：进行回声消除处理。

本发明实施例中对麦克风阵列中，每一个麦克风拾取到的原始音频信号，根据同步缓存的扬声器播放数据，进行回声消除，回声消除后的每一路音频信号记为x'_i(n)，i=1,2,…,N，具体的回声消除算法这里不再赘述，可采用多种实现方式。

需要说明的是，本发明实施例中如果扬声器播放数据的声道数大于1，这个时候需要采用多声道回声消除算法进行处理；如果扬声器播放数据的声道数等于1，这个时候可以使用单声道回声消除算法进行处理。

S706：形成超指向差分波束。

本发明实施例中对每一路回声消除后的信号分别进行快速离散傅里叶变换，得到每一路回声消除后的信号对应的频域信号X'_i(k)，i=1,2,…,FFT_LEN。FFT_LEN为快速离散傅里叶变换的变换长度，根据离散傅里叶变换的性质，变换后的信号具有复对称特性，X_i(FFT_LEN+2-k)＝X_i ^*(k)，k=2,…,FFT_LEN/2，其中，*表示共轭。因此离散傅里叶变换后得到信号的有效频点数为FFT_LEN/2+1点。一般情况下只存储有效频点对应的超指向差分波束形成的权系数。按照公式:

Y(k)＝h^T(ω_k)X(k)，k=1,2,…,FFT_LEN/2+1，

Y_i(FFT_LEN+2-k)＝Y^*(k)，k=2,…,FFT_LEN/2，

对回声消除后的音频输入信号的频域信号进行超指向差分波束处理，得到频域上的超指向差分波束形成信号。其中，Y(k)为频域上的超指向差分波束形成信号，h(ω_k)为第k组权系数，X(k)＝[X₁(k),X₂(k),...,X_N(k)]^T。最后将频域上的超指向差分波束形成信号利用快速离散傅里叶变换的反变换变换到时域，得到超指向差分波束形成的输出信号y(n)。

进一步的，本发明实施例中还可以在除目标说话人方向以外的其他任意方向，利用同样的方式得到Q个波束形成信号作为参考噪声信号，但是用于生成Q个参考噪声信号所对应的Q个超指向差分波束形成的权系数需要重新计算，计算方法与上面的方法类似。例如，可以将选定的除目标说话人方向以外的方向作为波束的极点方向，响应向量为1，与极点方向相反的方向为零点方向，响应向量为0，根据选取的Q个方向就可以计算出Q组超指向差分波束形成的权系数。

S707：进行噪声抑制处理。

对超指向差分波束形成的输出信号y(n)进行噪声抑制处理，得到噪声抑制后的信号y'(n)。

进一步的，本发明实施例中若S706中在形成超指向差分波束的同时，形成了Q个参考噪声信号，则可以利用Q个参考噪声信号做进一步的噪声抑制处理，以达到更好的方向性噪声抑制的效果。

S708：进行回声抑制处理。

根据同步缓存的扬声器播放数据和噪声抑制后的信号y'(n)进行回声抑制处理，得到最终的输出信号z(n)。

需要说明的是，本发明实施例中S708为可选的项，可以进行回声抑制处理，也可以不进行回声抑制处理。另外，本发明实施例中S707和S706的执行顺序不作要求，可以先进行噪声抑制处理然后进行回声抑制处理，也可以是先进行回声抑制处理然后再进行噪声抑制处理。

进一步的，本发明实施例中，S705和S706的执行顺序也可互换，此时，进行超指向差分波束形成时，音频输入信号由每一路回声消除后的信号x'_i(n)变为采集到的原始音频信号x_i(n)，i=1,2,…,N，进行超指向差分波束形成处理后，得到的不再是根据N路回声消除后的信号得到的超指向差分波束形成输出信号，而是根据N路采集到的原始音频信号得到的超指向差分波束形成输出信号y(n)。另外，进行回声消除处理时，输入信号由采集到的N路原始音频信号x_i(n)，i=1,2,…,N变为超指向差分波束形成信号y(n)。

上述音频信号的处理方式，在进行回声抑制处理过程中，可以将原来的N路处理降低为一路处理。

需要说明的是，如果使用超指向差分波束形成的方法产生Q个参考噪声信号，则需要将零点设置在左右扬声器的位置，避免回声信号对于噪声抑制性能的影响。

本发明实施例中经过上述处理后的音频输出信号，如果应用在高清话音通信中，则将最终的输出信号进行编码，并传输到通话另一方。如果是应用在人机交互，则将最终的输出信号作为语音识别的前端采集信号进行进一步处理。

实施例四

本发明实施例中以需要双声道信号的空间声场录制中的音频信号处理方法进行举例说明。

如图8所示，为本发明实施例提供的空间声场录制过程中音频信号处理方法流程图，包括：

S801：采集原始音频信号。

具体的，本发明实施例中采集N路麦克风拾取到的原始信号，并对信号进行分帧处理，作为原始音频信号，设N路原始音频信号为x_i(n)，i=1,2,…,N。

S802：分别进行左声道超指向差分波束形成处理和右声道差分波束形成处理。

本发明实施例中当前应用场景对应的左声道的超指向差分波束形成权系数和当前应用场景对应的右声道的超指向差分波束形成权系数是预先计算好并存储下来的，利用存储的当前应用场景对应的左声道的超指向差分波束形成权系数和当前应用场景对应的右声道的超指向差分波束形成权系数，以及S801中的原始音频采集信号，分别进行当前应用场景对应的左声道超指向差分波束形成处理和当前应用场景对应的右声道差分波束形成处理，则可得到当前应用场景对应的左声道超指向差分波束形成信号y_L(n)以及当前应用场景对应的右声道超指向差分波束形成信号y_R(n)。

具体的，本发明是实施例中左声道的超指向差分波束形成权系数和右声道的超指向差分波束形成权系数可采用实施例二中应用场景所需输出信号类型为双声道信号时，确定权系数的方法进行确定，在此不再赘述。

进一步的，本发明实施例中进行左声道超指向差分波束形成和右声道差分波束形成处理过程与上述实施例涉及的超指向波束形成处理过程相似，音频输入信号为采集到的N路麦克风的原始音频信号x_i(n)，权系数则分别为左声道或右声道对应的超指向差分波束形成权系数。

S803：进行多通道联合噪声抑制。

本发明实施例中采用多通道联合噪声抑制，以左声道超指向差分波束形成信号y_L(n)以及右声道超指向差分波束形成信号y_R(n)为输入信号进行多通道联合噪声抑制，能够在噪声抑制的同时，使非背景噪声信号的声像不发生漂移，并且保证左右声道残留噪声不会影响处理后的立体声信号的听感。

需要说明的是，本发明实施例中进行多通道联合噪声抑制是可选的，可以不进行多通道联合噪声抑制，直接将左声道超指向差分波束形成信号y_L(n)以及右声道超指向差分波束形成信号y_R(n)组成立体声信号，作为最终的空间声场录制信号输出。

实施例五

本发明实施例中以立体声通话中的音频信号处理方法进行举例说明。

如图9所示，为本发明实施例提供的立体声通话中音频信号处理方法流程图，包括：

S901：采集N路麦克风拾取到的原始音频信号，并同步缓存扬声器播放数据，作为多通道联合回声抑制和多通道联合回声消除的参考信号，并对原始音频信号和参考信号进行分帧处理。设N路麦克风拾取到的原始音频信号为x_i(n)，i=1,2,…,N，同步缓存扬声器播放的数据为ref_j(n),j＝1,2,...,Q，Q为扬声器播放数据的声道数，本发明实施例中Q=2。

S902：进行多通道联合回声消除。

对每一路麦克风拾取到的原始音频信号，根据同步缓存的扬声器播放数据ref_j(n),j＝1,2，进行多通道联合回声消除，每一路回声消除后的信号记为X'_i(n)，i=1,2,…,N。

S903：分别进行左声道超指向差分波束形成和右声道差分波束形成处理。

具体的，本发明实施例中进行左声道超指向差分波束形成和右声道差分波束形成处理的过程，与实施例四中空间声场录制处理流程中的S802相似，只不过输入信号变为每一路回声消除后的信号x'_i(n)，i=1,2,…,N。处理后得到左声道超指向差分波束形成信号y_L(n)以及右声道超指向差分波束形成信号y_R(n)。

S904：进行多通道联合噪声抑制处理。

具体的，本发明实施例中进行多通道联合噪声抑制处理过程与实施例四中S803过程相同，在此不再赘述。

S905：进行多通道联合回声抑制处理。

具体的，本发明实施例中根据同步缓存的扬声器播放数据和多通道联合噪声抑制后的信号进行回声抑制处理，得到最终的输出信号。

需要说明的是，本发明实施例中进行多通道联合回声抑制处理是可选的，可以进行此项处理，也可以不进行此项处理。另外，本发明实施例中对于多通道联合回声抑制处理过程与多通道联合噪声抑制处理过程的执行顺序并不作要求，可以先进行多通道联合噪声抑制处理再进行多通道联合回声抑制处理，也可以是先进行多通道联合回声抑制处理再进行多通道联合噪声抑制处理。

实施例六

本发明实施例提供一种音频信号处理方法，应用于空间声场录制以及立体声通话中，本发明实施例中可以根据用户的需要进行声场采集方式的调整，在进行音频信号采集之前，将麦克风阵列拆分为两个子阵列，分别调整子阵列的端射方向，以通过拆分的两个子阵列进行原始音频信号的采集。

具体的，本发明实施例中，将麦克风阵列拆分为两个子阵列，分别调整子阵列的端射方向，调整方法可以是用户进行手动调整，也可以是根据用户设定角度后进行自动调整，还可以预先设定一个旋转角度，当装置启动空间声场录制功能后将麦克风阵列拆分为2个子阵列，并将子阵列的端射方向自动调整为预先设定的方向。一般的，可将旋转角度设定为左侧逆时针旋转45度，右侧顺时针旋转45度，当然也可以根据用户设定任意调整。麦克风阵列拆分后形成两个子阵列，一个子阵列采集到的信号用于左声道超指向差分波束形成，采集到的原始信号记为X_i(n),i＝1,2,...,N₁。另一个子阵列采集到的信号用于左声道超指向差分波束形成，采集到的原始信号记为X_i(n),i＝1,2,...,N₂，其中N₁+N₂＝N。

本发明实施例中将麦克风拆分为两个子阵列的音频信号处理方法，如图10A和图10B所示，图10A为空间声场录制过程中音频信号的处理方法，图10B为立体声通话过程中音频信号处理方法流程图。

实施例七

本发明实施例七提供一种音频信号处理装置，如图11A所示，该装置包括权系数存储模块1101、信号获取模块1102、波束形成处理模块1103和信号输出模块1104，其中：

权系数存储模块1101，用于存储超指向差分波束形成权系数；

信号获取模块1102，用于获取音频输入信号，并向波束形成处理模块1103传输获取到的音频输入信号；还用于确定当前应用场景以及当前应用场景所需输出信号类型，并向波束形成处理模块1103传输当前应用场景以及当前应用场景所需输出信号类型。

波束形成处理模块1103，用于根据当前应用场景所需输出信号类型从权系数存储模块1101中选取与当前应用场景对应的权系数，利用选取的权系数对信号获取模块1102输出的音频输入信号进行超指向差分波束形成处理，得到超指向差分波束形成信号，并向信号输出模块1104传输超指向差分波束形成信号；

信号输出模块1104，用于输出波束形成处理模块1103传输的超指向差分波束形成信号。

其中，波束形成处理模块1103，具体用于：

在当前应用场景所需输出信号类型为双声道信号时，从权系数存储模块1101获取左声道超指向差分波束形成权系数以及右声道超指向差分波束形成权系数，并根据获取的左声道超指向差分波束形成权系数对音频输入信号进行超指向差分波束形成处理，得到左声道超指向差分波束形成信号，以及根据右声道超指向差分波束形成权系数对音频输入信号进行超指向差分波束形成处理，得到右声道超指向差分波束形成信号，向信号输出模块1104传输左声道超指向差分波束形成信号和右声道超指向差分波束形成信号。

信号输出模块1104，具体用于：

输出左声道超指向差分波束形成信号和右声道超指向差分波束形成信号。

其中，波束形成处理模块1103，具体用于：

在当前应用场景所需输出信号类型为单声道信号时，从权系数存储模块1101获取形成单声道信号的当前应用场景对应的单声道超指向差分波束形成权系数，当获取到单声道超指向差分波束形成权系数时，根据单声道超指向差分波束形成权系数对音频输入信号进行超指向差分波束形成处理，形成一路单声道超指向差分波束形成信号；向信号输出模块1104传输得到的一路单声道超指向差分波束形成信号。

信号输出模块1104，具体用于：

输出一路单声道超指向差分波束形成信号。

进一步的，该装置还包括麦克风阵列调整模块1105，如图11B所示，其中：

麦克风阵列调整模块1105，用于调整麦克风阵列为第一子阵列与第二子阵列，第一子阵列的端射方向与第二子阵列的端射方向不同；第一子阵列与第二子阵列分别采集原始音频信号，并将原始音频信号作为音频输入信号向信号获取模块1102传输。

在当前应用场景所需输出信号类型为双声道信号时，调整麦克风阵列为两个子阵列，并使调整得到的两个子阵列的端射方向指向不同的方向，以分别采集用于进行左声道超指向差分波束形成处理与右声道超指向差分波束形成处理所需的原始音频采集信号。

更进一步的，该装置包括的麦克风阵列调整模块1105，用于调整麦克风阵列的端射方向，使端射方向指向目标声源，麦克风阵列采集目标声源发出的原始音频信号，并将原始音频信号作为音频输入信号向信号获取模块1102传输。

进一步的，该装置还包括权系数更新模块1106，如图11C所示，其中：

权系数更新模块1106，用于判断音频采集区域是否被调整；若音频采集区域被调整，则确定麦克风阵列的几何形状、扬声器位置以及调整后的音频采集有效区域；根据音频采集有效区域调整波束形状，或者根据音频采集有效区域和所述扬声器位置调整波束形状，得到调整的波束形状；根据麦克风阵列的几何形状、调整的波束形状，确定超指向差分波束形成权系数，得到调整权系数，并将调整权系数向权系数存储模块1101传输；

权系数存储模块1101，具体用于：存储调整权系数。

其中，权系数更新模块1106，具体用于：

其中，h(ω)为权系数，D(ω,θ)为任意几何形状的麦克风阵列所对应的转向矩阵，由不同入射角度下声源到达麦克风阵列中各麦克风间的相对时延决定，D^H(ω,θ)表示D(ω,θ)的共轭转置矩阵，ω为音频信号的频率，θ为声源入射角度，β为入射角度为θ时的响应向量。

其中，权系数更新模块1106，具体用于：

在根据麦克风阵列的几何形状和设定的音频采集有效区域，确定D(ω,θ)和β时，或根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定D(ω,θ)和β时，根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，并根据得到的极点方向以及零点方向，确定不同应用场景下的D(ω,θ)和β；或者根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，将扬声器位置转换为零点方向，并根据得到的极点方向以及零点方向，确定不同应用场景下的D(ω,θ)和β；

其中，极点方向为使超指向差分波束形成超指向差分波束响应值为1的入射角度，零点方向为使超指向差分波束形成超指向差分波束响应值为0的入射角度。

其中，权系数更新模块1106，具体用于：

根据得到的极点方向以及零点方向，确定不同应用场景下的D(ω,θ)和β时，当应用场景所需输出信号类型为单声道信号时，设定麦克风阵列的端射方向为极点方向，并设定M个零点方向，其中M≤N-1，N为麦克风阵列中的麦克风数量；

进一步的，该装置还包括回声消除模块1107，如图11D所示，其中：

回声消除模块1107，用于缓存扬声器播放信号，对麦克风阵列采集的原始音频信号进行回声消除，得到回声消除音频信号，并将回声消除音频信号作为音频输入信号向信号获取模块1102传输；或者对波束形成处理模块1103输出的超指向差分波束形成信号进行回声消除，得到回声消除超指向差分波束形成信号，并向信号输出模块1104传输回声消除超指向差分波束形成信号。

信号输出模块1104，具体用于：

输出回声消除超指向差分波束形成信号。

其中，信号获取模块1102获取的当前应用场景所需音频输入信号为：

麦克风阵列采集的原始音频信号经过回声消除模块1107进行回声消除后的音频信号，或者麦克风阵列采集的原始音频信号；

进一步的，该装置还包括：回声抑制模块1108和噪声抑制模块1109，如图11E所示，其中：

回声抑制模块1108，用于对波束形成处理模块1103输出的超指向差分波束形成信号进行回声抑制处理；

噪声抑制模块1109，用于对回声抑制模块1108输出的回声抑制处理后的超指向差分波束形成信号进行噪声抑制处理。或者

噪声抑制模块1109，用于对波束形成处理模块1103输出的超指向差分波束形成信号进行噪声抑制处理；

回声抑制模块1108，用于对噪声抑制模块1109输出的噪声抑制处理后的超指向差分波束形成信号进行回声抑制处理。

进一步的，回声抑制模块1108，用于对波束形成处理模块1103输出的超指向差分波束形成信号进行回声抑制处理；

噪声抑制模块1109，用于对波束形成处理模块1103输出的超指向差分波束形成信号进行噪声抑制处理。

信号输出模块1104，具体用于：

输出回声抑制超指向差分波束形成信号或者噪声抑制超指向差分波束形成信号。

具体的，波束形成处理模块1103，还用于：

在信号输出模块1104包括噪声抑制模块1109时，在麦克风阵列能够调整的端射方向中、除声源方向以外的其它方向上，形成至少一个波束形成信号作为参考噪声信号，并将形成的参考噪声信号向噪声抑制模块1109传输。

进一步的，波束形成处理模块1103进行超指向差分波束形成处理时，所用的超指向差分波束为：根据克风阵列的几何形状、设定的波束形状，构建的差分波束。

本发明实施例提供的音频信号处理装置，波束形成处理模块根据当前应用场景所需的输出信号类型，在权系数存储模块中选择对应的权系数，并利用选择的权系数对信号获取模块输出的音频输入信号进行超指向差分波束处理，形成当前应用场景下的超指向差分波束，对超指向差分波束进行相应的处理即可得到最终所需的音频信号，能够满足不同应用场景需要不同音频信号处理方式的需求。

需要说明的是，本发明实施例中上述音频信号处理装置，可以是独立的部件，也可以是集成于其他部件中。

进一步需要说明的是，本发明实施例中上述音频信号处理装置中各个模块/单元的功能实现以及交互方式可以进一步参照相关方法实施例的描述。

实施例八

本发明实施例提供一种差分波束形成方法，如图12所示，包括：

S1201：根据麦克风阵列的几何形状和设定的音频采集有效区域，确定差分波束形成权系数并存储；或者根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定差分波束形成权系数并存储；

S1202：根据当前应用场景所需输出信号类型获取当前应用场景对应的差分波束形成权系数，利用获取的权系数对音频输入信号进行差分波束形成处理，得到超指向差分波束。

其中，确定差分波束形成权系数的过程，具体包括：

其中，根据麦克风阵列的几何形状和设定的音频采集有效区域，确定D(ω,θ)和β，或根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定D(ω,θ)和β时，具体包括：

具体的，根据得到的极点方向以及零点方向，确定不同应用场景下的D(ω,θ)和β，具体包括：

本发明实施例中提供的差分波束形成方法，能够根据不同场景所需的音频信号输出类型，确定不同的权系数，进行差分波束处理后形成的差分波束具有较高的适应性，可满足不同场景对于所产生的波束形状的要求。

需要说明的是，本发明实施例中差分波束形成的过程，可进一步参照相关方法实施例中对于差分波束形成过程的描述，在此不再赘述。

实施例九

本发明实施例提供一种差分波束形成装置，如图13所示，包括：权系数确定单元1301和波束形成处理单元1302；

权系数确定单元1301，用于根据全指向麦克风阵列的几何形状、设定的音频采集有效区域，确定差分波束形成权系数，并将形成的差分波束形成权系数向波束形成处理单元1302传输；或者用于根据全指向麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定差分波束形成权系数，并将形成的差分波束形成权系数向波束形成处理单元1302传输。

波束形成处理单元1302，根据当前应用场景所需输出信号类型在权系数确定单元1301中选择对应的权系数，利用选择的权系数对音频输入信号进行差分波束形成处理。

其中，权系数确定单元1301，具体用于：

根据确定的D(ω,θ)和β，按照公式：h(ω)=D^H(ω,θ)[D(ω,θ)D^H(ω,θ)]^-1β，重新确定超指向差分波束形成的权系数；

其中，权系数确定单元1301，具体用于：

根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，并根据得到的极点方向以及零点方向，确定不同应用场景下的D(ω,θ)和β；

其中，极点方向为使待形成超指向差分波束响应值为1的入射角度，零点方向为使待形成超指向差分波束响应值为0的入射角度。

进一步的，权系数确定单元1301，具体用于：

本发明实施例中提供的差分波束形成装置，能够根据不同场景所需的音频信号输出类型，确定不同的权系数，进行差分波束处理后形成的差分波束具有较高的适应性，可满足不同场景对于所产生的波束形状的要求。

需要说明的是，本发明实施例中差分波束形成装置涉及的差分波束形成过程，可进一步参照相关方法实施例中对于差分波束形成过程的描述，在此不再赘述。

实施例十

基于本发明实施例提供的音频信号处理方法及装置、差分波束形成方法及装置，本发明实施例提供了一种控制器，如图14所示，该控制器包括处理器1401和I/O接口1402，其中：

处理器1401，用于确定不同输出信号类型在不同应用场景对应的各超指向差分波束形成权系数并进行存储，当获取到音频输入信号，并确定了当前应用场景以及当前应用场景所需输出信号类型时，根据当前应用场景所需输出信号类型获取与当前应用场景对应的权系数，利用获取的权系数对获取到的音频输入信号进行超指向差分波束形成处理，得到超指向差分波束形成信号，并将该超指向差分波束形成信号传输至I/O接口1402。

I/O接口1402，用于将处理器1401处理后得到的超指向差分波束形成信号进行输出。

本发明实施例提供的控制器，根据当前应用场景所需的输出信号类型，获取对应的权系数，并利用获取的权系数对音频输入信号进行超指向差分波束处理，形成当前应用场景下的超指向差分波束，对超指向差分波束进行相应的处理即可得到最终所需的音频信号，能够满足不同应用场景需要不同音频信号处理方式的需求。

需要说明的是，本发明实施例中上述控制器，可以是独立的部件，也可以是集成于其他部件中。

进一步需要说明的是，本发明实施例中上述控制器各个模块/单元的功能实现以及交互方式可以进一步参照相关方法实施例的描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频信号处理装置，其特征在于，包括权系数存储模块、信号获取模块、波束形成处理模块和信号输出模块，其中：

其中，所述超指向差分波束为根据麦克风阵列的几何形状、预先设定的波束形状，构建的差分波束；

2.如权利要求1所述的装置，其特征在于，

所述波束形成处理模块，具体用于：

所述信号输出模块，具体用于：

3.如权利要求1所述的装置，其特征在于，

所述波束形成处理模块，具体用于：

所述信号输出模块，具体用于：

输出所述一路单声道超指向差分波束形成信号。

4.如权利要求1所述的装置，其特征在于，所述音频信号处理装置还包括麦克风阵列调整模块，其中：

5.如权利要求1所述的装置，其特征在于，所述音频信号处理装置还包括麦克风阵列调整模块，其中：

6.如权利要求1-3任一项所述的装置，其特征在于，所述音频信号处理装置还包括权系数更新模块，其中，

所述权系数更新模块，具体用于：

判断音频采集区域是否被调整；

所述权系数存储模块，具体用于：存储所述调整权系数。

7.如权利要求1所述的装置，其特征在于，所述音频信号处理装置还包括回声消除模块，其中，

所述回声消除模块，具体用于：

缓存扬声器播放信号，对麦克风阵列采集的原始音频信号进行回声消除，得到回声消除音频信号，并将所述回声消除音频信号作为音频输入信号向所述信号获取模块传输；或者

所述信号输出模块，具体用于：

输出所述回声消除超指向差分波束形成信号。

8.如权利要求1所述的装置，其特征在于，所述音频信号处理装置还包括回声抑制模块和噪声抑制模块，其中，

所述信号输出模块，具体用于：

9.如权利要求8所述的装置，其特征在于，所述波束形成处理模块，还用于：

10.一种音频信号处理方法，其特征在于，包括：

确定超指向差分波束形成权系数；

11.如权利要求10所述的音频信号处理方法，其特征在于，所述根据当前应用场景所需输出信号类型获取当前应用场景对应的权系数，利用获取的所述权系数对所述音频输入信号进行超指向差分波束形成处理，得到超指向差分波束形成信号，并输出所述超指向差分波束形成信号，具体包括：

12.如权利要求10所述的音频信号处理方法，其特征在于，所述根据当前应用场景所需输出信号类型获取当前应用场景对应的权系数，利用获取的所述权系数对所述音频输入信号进行超指向差分波束形成处理，得到超指向差分波束形成信号，并输出所述超指向差分波束形成信号，具体包括：

13.如权利要求10所述的音频信号处理方法，其特征在于，获取音频输入信号之前，该方法还包括：

利用所述第一子阵列与所述第二子阵列分别采集原始音频信号，将所述原始音频信号作为音频输入信号。

14.如权利要求10所述的音频信号处理方法，其特征在于，获取音频输入信号之前，该方法还包括：

15.如权利要求10-12任一项所述的音频信号处理方法，其特征在于，根据当前应用场景所需输出信号类型获取当前应用场景对应的权系数之前，该方法还包括：

判断音频采集区域是否被调整；

16.如权利要求10所述的音频信号处理方法，其特征在于，该方法还包括：

对麦克风阵列采集的原始音频信号进行回声消除；或者

对所述超指向差分波束形成信号进行回声消除。

17.如权利要求10所述的音频信号处理方法，其特征在于，形成超指向差分波束形成信号之后，该方法还包括：

18.如权利要求10所述的音频信号处理方法，其特征在于，该方法还包括：

19.一种差分波束形成方法，其特征在于，包括：

20.如权利要求19所述的方法，其特征在于，所述确定差分波束形成权系数的过程，具体包括：

根据确定的D(ω,θ)和β，按照公式：h(ω)＝D^H(ω,θ)[D(ω,θ)D^H(ω,θ)]^-1β，确定超指向差分波束形成的权系数；

21.如权利要求20所述的方法，其特征在于，所述根据麦克风阵列的几何形状和设定的音频采集有效区域，确定D(ω,θ)和β，具体包括：

22.如权利要求20所述的方法，其特征在于，所述根据麦克风阵列的几何形状、设定的音频采集有效区域和扬声器位置，确定D(ω,θ)和β，具体包括：

23.如权利要求21或22所述的方法，其特征在于，所述根据不同应用场景所需输出信号类型，将设定的音频有效区域转换为极点方向以及零点方向，具体包括：

24.一种差分波束形成装置，其特征在于，包括：权系数确定单元和波束形成处理单元；

25.如权利要求24所述的装置，其特征在于，所述权系数确定单元，具体用于：

26.如权利要求25所述的装置，其特征在于，所述权系数确定单元，具体用于：

27.如权利要求26所述的装置，其特征在于，所述权系数确定单元，具体用于：