CN106898360B

CN106898360B - 音频信号处理方法、装置和电子设备

Info

Publication number: CN106898360B
Application number: CN201710221731.2A
Authority: CN
Inventors: 徐荣强
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2023-08-08
Anticipated expiration: 2037-04-06
Also published as: CN106898360A

Abstract

公开了一种音频信号处理方法、装置和电子设备。所述方法应用于包括麦克风阵列的电子设备，并且包括：从麦克风阵列接收多路输入信号，所述麦克风阵列包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号；确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标；使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标；以及根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。因此，可以很好地分离输入信号中的信号分量和噪声分量。

Description

音频信号处理方法、装置和电子设备

技术领域

本申请涉及音频技术领域，且更具体地，涉及一种音频信号处理方法、音频信号处理装置、和电子设备。

背景技术

无论是智能化的语音识别系统(例如，智能家电、机器人等)，还是传统的语音通信系统(例如，会议系统、因特网协议传送话音VoIP系统等)，都会遇到噪声干扰的问题。

目前现有的噪声消除技术是基于麦克风阵列和波束形成算法的结合。波束形成是天线技术与数字信号处理技术的结合，目的用于定向信号的传输或接收。也就是说，多个麦克风可以配置成阵列，形成定向响应，以做到对于来自单角度的声源进行增强。

然而，上述技术在降噪处理中存在以下局限，即无法对声源的类型进行区分，单纯地利用空域算法消除噪声，对一个声源角度增强，对其余声源角度进行削弱。如果噪声源和信号源处于同一方向，则波束形成将无法进行进一步的噪声分离。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种音频信号处理方法、音频信号处理装置、电子设备、计算机程序产品和计算机可读存储介质，其可以很好地分离输入信号中的信号分量和噪声分量。

根据本申请的一个方面，提供了一种音频信号处理方法，应用于包括麦克风阵列的电子设备，所述方法包括：从麦克风阵列接收多路输入信号，所述麦克风阵列包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号；确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标；使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标；以及根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。

根据本申请的另一方面，提供了一种音频信号处理装置，应用于包括麦克风阵列的电子设备，所述装置包括：信号接收单元，用于从麦克风阵列接收多路输入信号，所述麦克风阵列包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号；麦克风位置确定单元，用于确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标；信号源位置确定单元，用于使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标；以及信号分离单元，用于根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。

根据本申请的另一方面，提供了一种电子设备，包括：麦克风阵列，所述麦克风阵列包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号；处理器；存储器；以及存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行上述的音频信号处理方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的音频信号处理方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行上述的音频信号处理方法。

与现有技术相比，采用根据本申请实施例的音频信号处理方法、音频信号处理装置、电子设备、计算机程序产品和计算机可读存储介质，可以从麦克风阵列接收多路输入信号，确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标，使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标，并且根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。因此，可以很好地分离输入信号中的信号分量和噪声分量。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的音频信号处理方法的流程图。

图2图示了根据本申请实施例的麦克风位置坐标确定步骤的流程图。

图3图示了根据本申请实施例的电子设备的示意图。

图4图示了根据本申请实施例的信号源位置坐标确定步骤的流程图。

图5图示了根据本申请实施例的麦克风位置坐标确定步骤的流程图。

图6图示了根据本申请实施例的音频信号处理装置的框图。

图7图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，传统的麦克风阵列结合波束形成算法的噪声消除方案无法区分声源的类型，单纯地利用空域算法进行处理，对一个声源角度增强，对其余声源角度进行削弱，如果噪声源和信号源处于同一方向，则波束形成将无法进行进一步的噪声分离。

针对该技术问题，本申请的基本构思是提出一种音频信号处理方法、音频信号处理装置、电子设备、计算机程序产品和计算机可读存储介质，其可以利用由麦克风阵列形成的音频信号处理系统对信号源进行精准定位，准确地提取来自信号源的信号分量，对来自噪声源的噪声分量进行精确消除，以实现信号噪声分离操作等。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

首先，将描述根据本申请实施例的音频信号处理方法。

根据本申请实施例的音频信号处理方法可以应用于包括麦克风阵列的电子设备，所述麦克风阵列可以包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号。

取决于不同的功能目的，该麦克风阵列在电子设备上可以具有不同的结构设计，通常来说其满足以下原则：在所述电子设备的正常使用状态下，所述麦克风阵列中的每个麦克风均处于信号源(例如，发出语音指令的用户)的近场范围内，并且其中的一个或多个麦克风与信号源的距离较近，另外的一个或多个麦克风与信号源的距离较远。进一步地，还期望所述麦克风阵列中的至少一个麦克风(优选为，所有的麦克风)可以处于噪声源的近场范围外，即处于噪声源的远场。

这样做是考虑到：从原理上说，声源在某点所产生的声压与该点到声源的距离成反比例关系，即，距声源越近，声压变化越大，衰减越小；而距声源越远，声压变化越小，衰减越大。当麦克风远距离拾音时，振膜处在平面声场中，到达振膜两表面声波仅仅存在声压差，因而只能确定出声源与麦克风阵列之间的相对方向；而当麦克风近距离拾音时，振膜处在球面声场中，到达振膜两表面声波除了声压差之外还有振幅差，因而能够同时确定出声源与麦克风阵列之间的相对距离和方向。本申请正是利用了麦克风阵列的近场特性实现了对来自信号源的信号分量和来自噪声源的噪声分量进行精确分离。

一般地，近场可以是指声源距离麦克风阵列110的阵元中心在2-3米的范围内；而远场则可以是指上述范围之外的区域。

图1图示了根据本申请实施例的音频信号处理方法的流程图。

如图1所示，根据本申请实施例的音频信号处理方法可以包括：

在步骤S110中，从麦克风阵列接收多路输入信号。

可以从各个麦克风接收包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号。

由于信号源处于麦克风阵列的近场、而噪声源处于麦克风阵列的远场，所以在每路输入信号中，信号分量的能量(幅度值)可能往往会大于噪声分量的能量(幅度值)。此外，由于尽管同样在近场的情况下，一部分麦克风距离信号源较近并且另一部分麦克风距离噪声源较远，所以同一个信号分量在一部分输入信号中的能量(幅度值)可能往往会大于它在另一部分输入信号中的能量(幅度值)。

接下来，例如，可以直接进入步骤S120，以开始执行该音频信号处理方法的后续步骤。

替换地，为了节省功率，防止该方法被频繁唤醒执行而消耗功率，也可以先检测所接收到的输入信号中是否包括唤醒词(例如，具有预定波形的音频信号)。只有当从声源接收到的音频信号包括唤醒词时，才确定当前的声源是正在关注的信号源，继而继续执行后续处理，以在当前接收到的音频信号中提取该信号源的信号分量。相反地，当从声源接收到的音频信号不包括唤醒词时，认为当前的声源可能是噪声源，或者当前只需简单地录制音频信号即可，而无需执行分离信号分量和噪声分量的音频处理操作，继而不再触发执行后续处理。

在步骤S120中，确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标。

在步骤S110之前、之后或与之同时地，可以确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标。

在第一示例中，电子设备可以具有固定的形态，并且该麦克风阵列中的各个麦克风分布在电子设备的固定位置处，因而，所述麦克风阵列中的各个麦克风其相互之间的位置关系是保持不变的。此外，麦克风阵列的基准位置可以是取决于各个麦克风的位置而预先设置的。例如，在平面阵列的情况下，该基准位置可以是麦克风阵列的平面中心、重心或其他位置。在空间阵列的情况下，该基准位置可以是麦克风阵列的空间中心、重心或其他位置。

例如，该电子设备可以是其上设置有麦克风阵列的直板移动电话、平板电脑、个人数字助理(PDA)等。

在此情况下，由于该每个麦克风相对于基准位置的位置是固定不变的，所以其位置坐标可以是基于基准位置的位置坐标而预先设置并直接读取得到的。

在第二示例中，电子设备可以具有可变的形态，并且该麦克风阵列中的各个麦克风分布在电子设备的固定位置处，因而，所述麦克风阵列中的各个麦克风其相互之间的位置关系可以随着电子设备自身形态的改变而发生变化。此外，麦克风阵列的基准位置可以是部分取决于各个麦克风的位置而预先设置的，并且其具有空间稳定性，即该基准位置不会由于电子设备的形态改变而发生改变。

在一个实施例中，所述电子设备可以包括：第一壳体、第二壳体、和连接所述第一壳体和所述第二壳体的枢转机构，所述麦克风阵列中的一部分麦克风设置在所述第一壳体上的固定位置，所述麦克风阵列中的另一部分麦克风设置在所述第二壳体上的固定位置。例如，所述基准位置可以与各个麦克风的固定位置相关联地设置在所述枢转机构上，或者设置在不发生运动的一个壳体上。

例如，该电子设备可以是其上设置有麦克风阵列的笔记本计算机、折叠移动电话等。

在此情况下，由于该每个麦克风相对于基准位置的位置可能会发生变化，所以其位置坐标可以通过实时计算得到。

下面，详细地描述后一示例。

如图2所示，该步骤S120可以包括：

在子步骤S121中，根据所述枢转机构的转动角度来确定所述第一壳体与所述第二壳体之间的壳体夹角。

例如，所述电子设备还可以包括角度传感器，用于检测所述枢转机构的转动角度。

这样，可以接收角度传感器检测到的枢转机构的转动角度，并且根据该转动角度来确定所述第一壳体与所述第二壳体之间的壳体夹角。

在子步骤S122中，根据所述壳体夹角、所述一部分麦克风在所述第一壳体上的固定位置、和所述另一部分麦克风在所述第一壳体上的固定位置来计算每个麦克风相对于所述基准位置的位置坐标。

例如，根据已知的各个麦克风在壳体上的固定位置、以及检测的壳体之间的当前夹角，可以实时地计算出各个麦克风的几何位置。

下面，在图3的示例中，具体描述如何在电子设备具有可变形态时确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标。

图3图示了根据本申请实施例的电子设备的示意图。

如图3所示，该电子设备10包括第一壳体PO1和第二壳体PO2，第一壳体PO1和第二壳体PO2通过枢转机构HI连接。该枢转机构HI可以固定连接到第一壳体PO1和第二壳体PO2，并且可以通过自身旋转使得第一壳体PO1和第二壳体PO2形成不同的夹角。例如，该枢转机构可以是简单的合页结构、铰链结构等，也可以是其他复杂的机械结构，只要其使得第一壳体PO1和第二壳体PO2相互之间能够产生位置变化即可。例如，该第一壳体PO1和第二壳体PO2可以通过一个枢转机构直接连接，也可以在其间包括一个或多个中间壳体并通过多个枢转结构间接连接。

例如，该电子设备10可以是笔记本计算机。在此情况下，该第一壳体可以是设置有键盘的底座，该第二壳体可以是设置有显示器的盖体。该底座和/或盖体可以可拆卸地连接到所述枢转机构上。在该第一壳体和第二壳体的一个或两者中还可以设置有诸如鼠标、触摸板、处理器、存储器、线缆接口等其他硬件电路。

假设该电子设备10包括三个麦克风MIC1到MIC3，分别位于第一壳体PO1上的位置A、第二壳体PO2上的位置B、和第二壳体PO2上的位置C，三者形成平面阵列。

当然，本申请不限于此，例如，MIC1到MIC3中的任何一个或两个可以位于第一壳体PO1上，而另外的两个或一个可以位于第二壳体PO2上，替换地或附加地，该电子设备10还可以包括更多的麦克风。

在一个示例中，如图3所示，位置A可以位于所述第一壳体上远离枢转机构HI的一侧，并且优选地在第一壳体的中轴线上或附近(例如，触摸板或键盘外靠近用户的一侧、或者底座的侧立面上，以尽可能地接近用户的嘴部)，位置B和位置C可以位于所述第二壳体上远离枢转机构HI的一侧，并且优选地，位置B和位置C的两点连线方向与枢转机构HI的延伸方向可以是平行的。此外，所述第一壳体和所述第二壳体的中轴线共线，所述第二麦克风和所述第三麦克风以所述中轴线为中心对称。例如，位置A在位置B和位置C两点连线BC上的投影点为M，并且位置B和位置C可以以点M为中心对称。

当然，本申请不限于此，例如，连线BC的延长线与枢转机构HI的延伸方向也可以是相交的，替换地或附加地，位置B到点M的距离BM和位置C到点M的距离CM也可以不等。

第二壳体PO2(例如，其上可以设置有显示器)可以围绕枢转机构HI与第一壳体PO1(例如，其上可以设置有键盘)产生相互转动。因此，如果仅仅以位置A、位置B、和位置C来直接确定麦克风阵列的基准位置，可能会导致该基准位置会随着壳体转动而发生改变，造成位置计算基准不固定。

为了使得麦克风阵列的基准位置能够固定，以保证算法的持续鲁棒性，在确定基准位置时，进一步引入枢转机构。例如，可以将位置A在枢转机构HI上的投影点确定为麦克风阵列的基准位置O。

当然，本申请不限于此，例如，也可以直接将枢转机构上的任何其他点(例如，左端点、右端点等)或者位置通常保持恒定的第一壳体上的任何点确定为基准位置。

这样，可以以基准位置O为原点(0,0,0)、以线段OA方向为X轴正方、以枢转机构HI的右向延长线为Y轴正方、以XY平面的垂直向上方向为Z轴正方，确定为一空间坐标系。

假设该第二壳体PO2与第一壳体PO1的夹角为θ(即，图3中第二壳体PO2的右边缘与第一壳体PO1的右边缘延长线X’之间的夹角，X’平行于X轴)，由于设置有角度传感器，所以当用户改变笔记本计算机底座与盖体之间的角度的时候，新的夹角会记录在系统当中。

假设AO距离为n，OM距离为m，BM距离为d，CM距离为d。在此情况下，可以确定出，该三个麦克风MIC1到MIC3的位置A到位置C的坐标分别为：A(n,0,0)、B(-mcosθ,-d,msinθ)、和C(-mcosθ,d,msinθ)。

在步骤S130中，使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标。

接下来，由于假设在电子设备的正常使用形态下，信号源处于麦克风阵列的近场情况，所以可以使用麦克风阵列的近场模型，即声波的传输满足球面波特性，到达麦克风振膜表面的声波除了声压差之外还有振幅差，来同时确定出声源与麦克风阵列之间的相对距离和方向。

这样，可以基于上述的近场特性来计算出所述信号源相对于所述基准位置的位置坐标。

如图4所示，该步骤S130可以包括：

在子步骤S131中，根据所述多路输入信号来确定所述信号分量到每个麦克风之间的延时差和幅度差。

例如，各个麦克风可以记录所采集到的输入信号，其中包括来自近场信号源的信号分量和来自远场噪声源的噪声分量。然后，可以通过自相关算法、语音活动检测(VAD)算法等，计算信号源(图3中的P点)发出的音频信号到达各个麦克风MIC1到MIC3的时间T_PA、T_PB、T_PC之间的延时差、以及到达各个麦克风MIC1到MIC3的幅度P_PA、P_PB、P_PC之间的幅度差。

例如，在信号源为发出语音指令的用户的情况下，可以从MIC1到MIC3接收到的三路输入信号中识别用户语音的端点。在确定出语音段的端点之后，可以根据语音段在时域和幅度域上的坐标差值判断出上述的延时差和幅度差。

假设用户同一段语音在MIC1到MIC3中检测到的延时差为Δt_AB和Δt_AC，该延时差Δt_AB和Δt_AC分别是语音信号在MIC1和MIC2中被检测到的延时差和该语音信号在MIC1和MIC3中被检测到的延时差，其反映了信号源所处的位置P到MIC1所处的位置A的距离PA和信号源所处的位置P到MIC2所处的位置B的距离PB之差、以及信号源所处的位置P到MIC1所处的位置A的距离PA和信号源所处的位置P到MIC3所处的位置C的距离PC之差。

另外，假设用户同一段语音在MIC1到MIC3中检测到的能量差为Δp_AB和Δp_AC，该能量差Δp_AB和Δp_AC分别是语音信号在MIC1和MIC2中被检测到的能量差和该语音信号在MIC1和MIC3中被检测到的能量差，其同样反映了距离PA和距离PB之差、以及距离PA和距离PC之差。根据近场声波球面波传输原理：距离增大一倍，能量衰减6dB，因此，可以根据该能量差确定出上述距离之差。换言之，根据能量差Δp_AB和Δp_AC，可以计算出距离PA和距离PB之间的关系为PB＝aPA，距离PA和距离PC之间的关系为PC＝bPA。例如当Δp_AB为6dB时，a＝2，即PB距离是PA距离的两倍；而当Δp_AC为12dB时，b＝4，即PC距离是PA距离的四倍。

在子步骤S132中，根据所述延时差、幅度差、和每个麦克风的位置坐标来计算所述信号源的位置坐标。

在确定了延时差Δt_AB和Δt_AC和能量差Δp_AB和Δp_AC之后，可以建立以下关系式：

PB–PA＝(a–1)PA＝Δt_AB×c；

PC–PA＝(b–1)PA＝Δt_AC×c；

其中，c为光速。

由此，可以获得距离PA、PB、和PC，即得到了信号源到麦克风MIC1到MIC3的三个距离。由于在步骤S120中已经获得了位置A到位置C的三点坐标，所以可以确定出可疑信号源可能处于麦克风MIC1到MIC3所构成的平面ABC前侧和后侧的两点之一，该两点相对于该平面ABC呈面对称。

由于电子设备的正常操作习惯，通常认为信号源(通常为用户)一定会面朝该电子设备，因而，该信号源必然会处于平面ABC的前侧一点。这样，信号源P点的位置坐标(x,y,z)即可获知。

在步骤S140中，根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。

在获得信号源的位置坐标之后，可以根据各个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量，去除噪声分量。

在一个示例中，可以直接假设该信号源处于麦克风阵列的近场范围内，直接执行信号分量分离操作，如接下来的子步骤S143所描述的。

然而，由于信号源(例如，用户)在说话的过程中，可能会偶尔产生移动(例如，走到远处取水杯或者资料等)，这时，如果继续基于上述假设执行分量分离操作，可能会导致出现错误的结果。

因此，在另一示例中，可以首先判断该信号源是否处于麦克风阵列的近场范围内，或较佳地，为了保证更好的分离效果，可以判断该信号源是否处于该近场内的一个预定范围内，如果是，再执行上述分离操作。

下面，将基于后一示例继续描述。

如图5所示，该步骤S140可以包括：

在子步骤S141中，根据所述信号源的位置坐标来确定所述信号源到所述基准位置的相对距离。

由于已知信号源的位置坐标P(x,y,z)，又已知麦克风阵列中基准位置的位置坐标O(0,0,0)，所以可以计算出信号源与基准位置之间的距离，即OP已知。

在子步骤S142中，比较所述相对距离与预定阈值。

尽管近场的通常定义为2-3米，但是为了获得更好的分离效果，可以选择一个更小的预定阈值。例如，50厘米(cm)。

如果OP小于或等于50cm，则当前的场景可以定义为分离效果较好的超近场，并继续执行后续的适用信噪分离步骤S143，相反地，如果OP大于50cm，则当前的场景可以定义为分离效果一般的非超近场，并不再执行后续子步骤S143。在后者情况下，例如，可以跳转执行后续子步骤S144。

在子步骤S143中，响应于所述相对距离小于或等于所述预定阈值，根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。

首先，可以根据所述信号源的位置坐标和每个麦克风的位置坐标来计算所述信号源到每个麦克风的相对距离。

例如，由于已知信号源的位置坐标P(x,y,z)，又已知各个麦克风的位置坐标A(n,0,0)、B(-mcosθ,-d,msinθ)、和C(-mcosθ,d,msinθ)，所以可以进一步计算出信号源与各个麦克风之间的距离，即PA、PB、PC距离已知。

然后，可以根据所述信号源到每个麦克风的相对距离来确定所述信号源到每个麦克风的衰减系数。其中，所述信号源到一个麦克风的相对距离越大，所述信号源到所述麦克风的衰减系数越大；而所述信号源到一个麦克风的相对距离越小，所述信号源到所述麦克风的衰减系数越小。

如上所述，根据近场声波球面波传输原理，距离增大一倍，能量衰减6dB。因此，基于已知的PA、PB、PC关系，可以得到A、B、C三点麦克风MIC1到MIC3接收P点信号源传输过来的信号分量(例如，语音信号)Ep的能量比例关系。

例如，Es_a＝αEp；Es_b＝βEp；Es_c＝γEp，其中α、β、γ为A、B、C三点麦克风MIC1到MIC3的衰减系数，其可以根据PA、PB、PC的比例关系得到。

最后，可以根据所述衰减系数来从所述多路输入信号中分离所述信号分量。

A、B、C三点麦克风MIC1到MIC3接收到的输入信号E_a、E_b、E_c如下式所示：

E_a＝ES_a+En_a＝αEp+En_a

E_b＝E_sb+En_b＝βEp+En_b

E_c＝Es_c+En_c＝γEp+En_c

其中，MIC1到MIC3接收到的输入信号E_a、E_b、E_c已知，MIC1到MIC3的衰减系数α、β、γ已知，并且MIC1到MIC3接收到的环境噪声均相等，即En_a＝En_b＝En_c＝En。

因此，联立上述等式，即可求出信号分量Ep，亦可求出噪声分量En，从而可以分离信号源和噪声源的波形。

此外，如图5所示，该步骤S140还可以包括：

在子步骤S144中，响应于所述相对距离大于所述预定阈值，根据信号源的位置坐标来对所述麦克风阵列进行波束形成。

例如，当信号源与基准位置之间的距离OP大于50cm，则当前的场景可以定义为麦克风阵列的非超近场。由于信号源与基准位置距离相对较远，如果继续使用子步骤S143中的信噪分离操作，由于各个麦克风之间的能量差值较小，可能无法得到很好的分离效果。因此，在此情况下，A、B、C三点麦克风MIC1到MIC3中的至少一部分可以根据信号源P的位置做波束形成，简单地利用空域算法消除噪声，对一个声源角度增强，对其余声源角度进行削弱，以防止勉强进行信噪分离，反而削弱信号分量的幅度。

例如，如图3所示，由于位于位置B和位置C的麦克风MIC2和MIC3的相对位置保持恒定，又由于它们的中心位置往往正对用户，因此，可以控制麦克风MIC2和MIC3根据信号源的位置来进行波束形成。

更进一步地，该音频信号处理方法还可以根据从麦克风阵列接收到的多路输入信号实时地判断信号源的位置是否发生改变，根据信号源与麦克风阵列中的各个麦克风之间的距离关系来切换信号处理算法。

由此可见，采用根据本申请实施例的音频信号处理方法，可以从麦克风阵列接收多路输入信号，确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标，使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标，并且根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。因此，可以很好地分离输入信号中的信号分量和噪声分量。

具体地，本申请的实施例具有以下优点：

1.可以根据麦克风阵列来确定信号源的准确位置坐标；

2.适配第一壳体和第二壳体之间的旋转角度；

3.可以根据准确的位置坐标来进行不同的算法切换，在超近场，采用信号噪声分离技术，可以进一步分离噪声源的噪声分量En和信号源的信号分量Ep；在非超近场(中远场)，此时噪声分离技术效果不佳，由于平面波传输，麦克风之间的能量差小，故而采用波束形成技术，以获得更好的用户体验。

示例性音频信号处理装置

图6图示了根据本申请实施例的音频信号处理装置的框图。

如图6所示，根据本申请实施例的所述音频信号处理装置100可以包括：信号接收单元110，用于从麦克风阵列接收多路输入信号，所述麦克风阵列包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号；麦克风位置确定单元120，用于确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标；信号源位置确定单元130，用于使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标；以及信号分离单元140，用于根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。

在一个示例中，所述电子设备还可以包括：第一壳体、第二壳体、和连接所述第一壳体和所述第二壳体的枢转机构，所述麦克风阵列中的一部分麦克风设置在所述第一壳体上的固定位置，所述麦克风阵列中的另一部分麦克风设置在所述第二壳体上的固定位置。这时，所述麦克风位置确定单元120可以根据所述枢转机构的转动角度来确定所述第一壳体与所述第二壳体之间的壳体夹角；并且根据所述壳体夹角、所述一部分麦克风在所述第一壳体上的固定位置、和所述另一部分麦克风在所述第一壳体上的固定位置来计算每个麦克风相对于所述基准位置的位置坐标。

在一个示例中，所述信号源位置确定单元130可以根据所述多路输入信号来确定所述信号分量到每个麦克风之间的延时差和幅度差；并且根据所述延时差、幅度差、和每个麦克风的位置坐标来计算所述信号源的位置坐标。

在一个示例中，所述信号分离单元140可以根据所述信号源的位置坐标来确定所述信号源到所述基准位置的相对距离；比较所述相对距离与预定阈值；并且响应于所述相对距离小于或等于所述预定阈值，根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。

在一个示例中，所述信号分离单元140可以响应于所述相对距离小于或等于所述预定阈值，根据所述信号源的位置坐标和每个麦克风的位置坐标来计算所述信号源到每个麦克风的相对距离；根据所述信号源到每个麦克风的相对距离来确定所述信号源到每个麦克风的衰减系数；并且根据所述衰减系数来从所述多路输入信号中分离所述信号分量。

在一个示例中，所述信号源到一个麦克风的相对距离越大，所述信号源到所述麦克风的衰减系数可以越大；而所述信号源到一个麦克风的相对距离越小，所述信号源到所述麦克风的衰减系数可以越小。

在一个示例中，所述信号分离单元140还可以响应于所述相对距离大于所述预定阈值，根据所述信号源的位置坐标来对所述麦克风阵列进行波束形成。

上述音频信号处理装置100中的各个单元和模块的具体功能和操作已经在上面参考图1到图5描述的音频信号处理方法中详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的音频信号处理装置100以应用于电子设备中，以用于实现信号噪声分离操作等。

在一个示例中，根据本申请实施例的音频信号处理装置100可以作为一个软件模块和/或硬件模块而集成到该电子设备中。例如，该音频信号处理装置100可以是该电子设备的操作系统中的一个软件模块，或者可以是针对于该电子设备所开发的一个应用程序；当然，该音频信号处理装置100同样可以是该电子设备的众多硬件模块之一。

替换地，在另一示例中，该音频信号处理装置100与该电子设备也可以是分立的设备，并且该音频信号处理装置100可以通过有线和/或无线网络连接到该电子设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图7来描述根据本申请实施例的电子设备。该电子设备可以是计算机或服务器或其他设备。例如，所述电子设备可以是笔记本计算机、折叠移动电话等。

图7图示了根据本申请实施例的电子设备的框图。

如图7所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的音频信号处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如各个麦克风的位置等信息。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以包括例如键盘、鼠标、以及通信网络及其所连接的远程输入设备等等。替换地或附加地，该输入装置13也可以包括麦克风阵列，与所述处理器电连接，其包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号，并向所述处理器发送所述输入信号。

例如，该电子设备10还可以包括：第一壳体，所述麦克风阵列中的一部分麦克风设置在所述第一壳体上的固定位置；第二壳体，所述麦克风阵列中的另一部分麦克风设置在所述第二壳体上的固定位置；以及枢转机构，用于连接所述第一壳体和所述第二壳体。

在一个示例中，所述麦克风阵列可以包括三个麦克风，第一麦克风设置在所述第一壳体上，第二麦克风和第三麦克风设置在所述第二壳体上。所述第一麦克风可以设置在所述第一壳体上远离所述枢转机构的一侧处。所述第二麦克风和所述第三麦克风可以设置在所述第二壳体上远离所述枢转机构的一侧处。所述第二麦克风所在位置和所述第三麦克风所在位置的连线方向与所述枢转机构的延伸方向可以是平行的。所述第一麦克风可以设置在所述第一壳体的中轴线上或附近。所述第一壳体和所述第二壳体的中轴线可以共线，所述第二麦克风和所述第三麦克风可以以所述中轴线为中心对称。并且，所述第一壳体可以是底座，所述第二壳体可以是盖体。所述第一壳体和/或所述第二壳体可以可拆卸地连接到所述枢转机构上。

该输入装置13也可以包括角度传感器，与所述处理器电连接，用于检测所述枢转机构的转动角度，并向所述处理器发送所述转动角度。

输出装置14可以向外部(例如，用户)输出各种信息，包括信号分量、噪声分量、信号源的位置等。该输出设备14可以包括例如扬声器、显示器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。应当注意，图7所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，电子设备10也可以具有其他组件和结构。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频信号处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的音频信号处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种音频信号处理方法，应用于包括麦克风阵列的电子设备，所述方法包括：

从麦克风阵列接收多路输入信号，所述麦克风阵列包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号；

确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标；

使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标；以及

根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。

2.如权利要求1所述的方法，其中，所述电子设备还包括：第一壳体、第二壳体、和连接所述第一壳体和所述第二壳体的枢转机构，所述麦克风阵列中的一部分麦克风设置在所述第一壳体上的固定位置，所述麦克风阵列中的另一部分麦克风设置在所述第二壳体上的固定位置，并且

确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标包括：

根据所述枢转机构的转动角度来确定所述第一壳体与所述第二壳体之间的壳体夹角；以及

根据所述壳体夹角、所述一部分麦克风在所述第一壳体上的固定位置、和所述另一部分麦克风在所述第一壳体上的固定位置来计算每个麦克风相对于所述基准位置的位置坐标。

3.如权利要求1所述的方法，其中，使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标包括：

根据所述多路输入信号来确定所述信号分量到每个麦克风之间的延时差和幅度差；以及

根据所述延时差、幅度差、和每个麦克风的位置坐标来计算所述信号源的位置坐标。

4.如权利要求1所述的方法，其中，根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量包括：

根据所述信号源的位置坐标来确定所述信号源到所述基准位置的相对距离；

比较所述相对距离与预定阈值；以及

响应于所述相对距离小于或等于所述预定阈值，根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。

5.如权利要求4所述的方法，其中，响应于所述相对距离小于或等于所述预定阈值，根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量包括：

响应于所述相对距离小于或等于所述预定阈值，根据所述信号源的位置坐标和每个麦克风的位置坐标来计算所述信号源到每个麦克风的相对距离；

根据所述信号源到每个麦克风的相对距离来确定所述信号源到每个麦克风的衰减系数；以及

根据所述衰减系数来从所述多路输入信号中分离所述信号分量。

6.如权利要求5所述的方法，其中，所述信号源到一个麦克风的相对距离越大，所述信号源到所述麦克风的衰减系数越大；而所述信号源到一个麦克风的相对距离越小，所述信号源到所述麦克风的衰减系数越小。

7.如权利要求4所述的方法，还包括：

响应于所述相对距离大于所述预定阈值，根据所述信号源的位置坐标来对所述麦克风阵列进行波束形成。

8.一种音频信号处理装置，应用于包括麦克风阵列的电子设备，所述装置包括：

信号接收单元，用于从麦克风阵列接收多路输入信号，所述麦克风阵列包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号；

麦克风位置确定单元，用于确定每个麦克风相对于所述麦克风阵列的基准位置的位置坐标；

信号源位置确定单元，用于使用所述麦克风阵列的近场模型，根据所述多路输入信号和每个麦克风的位置坐标来计算所述信号源相对于所述基准位置的位置坐标；以及

信号分离单元，用于根据所述信号源的位置坐标和每个麦克风的位置坐标来从所述多路输入信号中分离所述信号分量。

9.一种电子设备，包括：

麦克风阵列，所述麦克风阵列包括三个或更多麦克风，每个麦克风用于采集包括来自信号源的信号分量和来自背景噪声源的噪声分量的一路输入信号；

处理器；

存储器；以及

存储在所述存储器中的计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的方法。

10.如权利要求9所述的设备，还包括：

第一壳体，所述麦克风阵列中的一部分麦克风设置在所述第一壳体上的固定位置；

第二壳体，所述麦克风阵列中的另一部分麦克风设置在所述第二壳体上的固定位置；以及

枢转机构，用于连接所述第一壳体和所述第二壳体。

11.如权利要求10所述的设备，还包括：

角度传感器，用于检测所述枢转机构的转动角度。

12.一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的方法。