CN117153180A

CN117153180A - 声音信号处理方法、装置、存储介质及电子设备

Info

Publication number: CN117153180A
Application number: CN202210942421.0A
Authority: CN
Inventors: 陈俊彬
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2023-12-01

Abstract

本申请公开了一种声音信号处理方法、装置、存储介质及电子设备，该方法应用于电子设备中，包括：接收多个麦克风采集的声音信号，对声音信号对应的频域信号进行声源定位处理，以得到目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向，根据目标语音方向对多个频域信号进行波束成形处理，以得到多个频域信号在目标语音方向上的波束，根据多个麦克风两两之间形成的麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向和噪音方向，确定滤波系数，根据滤波系数对波束进行滤波处理，得到清晰的目标语音，本申请实施例降低了噪音影响，有效提高了目标语音的清晰度。

Description

声音信号处理方法、装置、存储介质及电子设备

技术领域

本申请涉及通信数据处理技术领域，尤其涉及一种声音信号处理方法、装置、存储介质及电子设备。

背景技术

随着人工智能的发展，越来越多的生活环境将体现更多的智能化，如车载环境、家居环境、教室环境等。这些环境中通常会应用多种智能化设备，如在家中使用的智能交互式设备，或者在教室、会议室使用的拾音设备等。不论是交互式设备还是拾音设备，都有对应的麦克风，对麦克风采集到的语音信号进行处理，以准确地得到较为清晰的目标语音。

目前的处理语音的算法要么语音损伤严重，要么降噪及去混响效果较弱，总之得到的目标语音的清晰度不够。

发明内容

本申请实施例提供一种声音信号处理方法、装置、存储介质及电子设备，能提高得到的目标语音的清晰度。

本申请实施例提供了一种声音信号处理方法，包括：

接收多个麦克风采集的声音信号，多个麦克风两两之间形成至少一个麦克风对；

对多个麦克风采集的声音信号对应的多个频域信号进行声源定位处理，以得到目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向；

根据所述目标语音方向对所述多个频域信号进行波束成形处理，以得到多个频域信号在所述目标语音方向上的波束；

根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、所述目标语音方向和所述噪音方向，确定滤波系数；

根据滤波系数对所述波束进行滤波处理，以得到目标语音。

本申请实施例还提供了一种声音信号处理装置，包括：

至少一个麦克风对；

声源定位模块，用于对多个麦克风采集的声音信号对应的多个频域信号进行声源定位处理，以得到目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向；

波束处理模块，用于根据所述目标语音方向对所述多个频域信号进行波束成形处理，以得到多个频域信号在所述目标语音方向上的波束；

系数确定模块，用于根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、所述目标语音方向和所述噪音方向，确定滤波系数；

滤波模块，用于根据滤波系数对所述波束进行滤波处理，以得到目标语音。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有多条指令，所述指令适于由处理器加载以执行上述任一项声音信号处理方法。

本申请实施例还提供了一种电子设备，包括处理器和存储器，所述处理器与所述存储器电性连接，所述存储器用于存储指令和数据，所述处理器用于上述任一项所述的声音信号处理方法中的步骤。

本申请提供的声音信号处理方法、装置、存储介质及电子设备，通过接收多个麦克风采集的声音信号，对声音信号对应的频域信号进行声源定位处理，以得到目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向，根据目标语音方向对多个频域信号进行波束成形处理，以得到多个频域信号在目标语音方向上的波束，根据多个麦克风两两之间形成的麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向和噪音方向，确定滤波系数，根据滤波系数对波束进行滤波处理，得到清晰的目标语音，其中，在确定滤波系数时，不仅考虑了每个麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向，同时还考虑了方向性噪音的噪音方向，对噪音方向的方向性噪音进行降噪处理，当麦克风对不仅一个时，同时实现每个麦克风对的降噪处理，降低了噪音影响，有效提高了目标语音的清晰度。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其它有益效果显而易见。

图1为本申请实施例提供的声音信号处理方法的流程示例图。

图2为本申请实施例提供的在角频谱中找出5个峰值的示意图。

图3为本申请实施例提供的声音信号处理方法的另一流程示意图。

图4为本申请实施例提供的声音信号处理装置的结构示意图。

图5为本申请实施例提供的电子设备的结构示意图。

图6为本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种声音信号处理方法、装置、存储介质及电子设备。本申请实施例提供的任一种声音信号处理装置，可以集成在电子设备中，本申请实施例提供的任一种声音信号处理方法，可以应用在电子设备中，该电子设备可以包括智能手机、Pad(平板电脑)、掌上电脑、穿戴式设备、机器人、智能电视、智能车载设备、智能音响、智能交互式设备等具有拾音设备的电子设备中。

基于相干散射比的加权(CDRW，Coherent to Diffuse Ratio based Weighting)算法可以用于降噪、去混响，而且资源消耗很小，很适用于工程化。CDRW算法目前限定使用两个麦克风，然而在两个麦克风的情况下，CDRW算法的处理结果要么语音损伤严重，要么降噪及去混响效果很弱，通常通过调整参数，来折衷选择需要的处理结果，使得使用CDRW算法的发展受到很大限制。

本申请实施例中的以CDRW算法为基础，对至少两个麦克风采集的声音信号进行处理，以提高降噪和去混响效果，提高最终得到的目标语音的清晰度。

下面将对本申请实施例中的声音信号处理方法、装置、计算机可读存储介质和电子设备进行描述，需要注意的是，以下实施例的序号不作为对实施例优选顺序的限定。

图1是本申请实施例提供的声音信号处理方法的流程示意图，该声音信号处理方法包括如下步骤。

101，接收多个麦克风采集的声音信号，多个麦克风两两之间形成至少一个麦克风对。

其中，多个麦克风可以是两个麦克风，也可以是两个以上的麦克风，本申请实施例以两个以上的麦克风为例进行说明。多个麦克风形成麦克风阵列，麦克风阵列可以呈任意形状排列，如规则性的排列，或者是不规则的排列。例如，麦克风阵列可以呈圆形排列，或者麦克风阵列呈线性排列等。

当呈圆形排列时，将圆形的圆心作为麦克风空间的坐标原点，当呈线性排列时，将线性排列的中点作为麦克风空间的坐标原点，在其他实施例中，也可以按照其他方式来确定坐标原点等。其中，麦克风空间在后文中会涉及，后文中涉及时会描述。

其中，在一实施例中，多个麦克风也可以理解为麦克风的多个通道数。

多个麦克风两两之间形成至少一个麦克风对。例如，当多个麦克风为两个麦克风时，该两个麦克风形成一个麦克风对，当多个麦克风为三个麦克风时，该三个麦克风两两之间形成三个麦克风对，当多个麦克风为M个麦克风时，M个麦克风两两之间形成M*(M-1)个麦克风对。

102，对多个麦克风采集的声音信号对应的多个频域信号进行声源定位处理，以得到目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向。

其中，对多个麦克风采集的声音信号进行频域处理，以得到多个频域信号，再对多个频域信号进行声源定位处理，以得到目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向。

首先，对多个麦克风采集的声音信号进行频域处理，以得到多个频域信号。

将多个麦克风用M来表示，多个麦克风采集的声音信号用x(l)来表示，x(l)＝{x₁(l)；x₂(l)；...；x_M(l)}，其中，l为帧序号，可表示为第l帧，可以理解地，采集的声音信号为一帧一帧的。

对x(l)进行加窗处理，帧长为T，通过快速傅里叶变换(fast Fourier transform，FFT)得到频域信号X(l,k),k＝1,2,...,K，K为FFT点数，其中，X(l,k)＝{X₁(l,k)；...；X_M(l,k)}。

其次，利用X(l,k),k＝1,2,...,K进行声源方向的测定。

可利用预设声源定位算法，来对声源方向进行测定。预设声源定位算法可以为相位变换加权的可控响应功率声源定位(Steered Response Power-Phase Transform，SRP-PHAT)算法。

对应地，在多个麦克风所在的空间中，确定多个方向；利用预设声源定位算法，确定频域信号与多个方向对应的多个声源测定值；将多个声源测定值按照从大到小排列之后，获取前预设数量的声源测定值所对应的方向向量集合。

例如，按照预设的角度范围，在多个麦克风所在空间中均匀选取N个方向向量，求取与该方向向量对应的多个声源测定值，即SRP-PHAT值，然后在多个SRP-PHAT值里面寻找大小排前的S个峰值所对应的方向向量集合d_peak。

其中，X(l,k)在d_n方向的SRP-PHAT值可按照公式(1)来确定。

其中，F(d_n,X(l,k))表示X(l,k)在d_n方向的SRP-PHAT值，R_a,b[τ_a,b(d_n)]为第a和第b个麦克风所对应的频域信号的基于相位变换加权的广义互相关函数GCC-PHAT。

其中，R_a,b[τ_a,b(d_n)]可使用如下公式(2)来确定。

其中，(·)^*表示共轭，为角频率，其中，F_s为声音信号的采样频率，τ_a,b(d_n)表示方向向量d_n到达第a个和第b个麦克风的达到时间差(Time Difference ofArrival，TDOA)。实际应用的时候可以选择直达语音最强的频段，以减少混响和噪音的影响。例如，由于K是FFT的点数，代表着每个频率的索引，比如k＝1，对应0hz，k＝2对应0～65Hz，k＝3对应65～130Hz……，而低频的时候受混响影响比较重，大概100hz～4000Hz的频段直达语音最强，因此，选k＝3～61这个区间进行累加。需要注意的是，此处所有的数据都是举例说明，并不构成限定。

τ_a,b(d_n)可以使用如下公式(3)来确定。

其中，c为声速，c＝342m/s，||·||表示向量的2-范数，r_a和r_b分别表示第a个和第b个麦克风的直角坐标向量，例如，多个麦克风陈列呈圆形排列时，原点在中心点，以原点为起点，以麦克风所在的坐标为终点，连接原点和终点的向量即为对应的直角坐标向量。

在得到SRP-PHAT值之后，确定在多个SRP-PHAT值里面寻找大小排前的S个峰值所对应的方向向量集合d_peak。

例如，将多帧声音信号得到的SRP-PHAT值进行平滑，也可以是求平均值的方式，并搜索S个峰值，得到其对应的方向向量集合d_peak。在空间坐标下，每个方向向量d_n都可以分解为俯仰角φ_n和方位角θ_n。将(θ_n，φ_n，SRP-PHAT值)三者的对应表，在二维平面上平铺、可视化，可以得到角频谱(angular spectrum)。

如图2所示，为在角频谱中找到5个峰值的示意图。其中，横坐标为(-180°,180°)的方位角、纵坐标为(-90°,90°)俯仰角，角度分辨率为1°，灰度的深浅表示每个位置上SRP-PHAT值的大小，越深则值越小。

最后，从S个峰值所对应的方向向量集合d_peak中，确定目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向，其中，目标语音方向和噪音方向都可以用方向向量来表示。例如，将SRP-PHAT值最大的方向向量确定为目标语音信号对应的目标语音方向向量将SRP-PHAT值第二大的方向向量确定为方向性噪音信号对应的噪音方向向量/>

将目标语音方向向量所对应的语音信号/声音信号确定为目标语音信号，将噪音方向向量所对应的语音信号/声音信号确定为方向性噪音信号。

其中，本申请实施例中的目标语音信号和方向性噪音信号都属于预测值，即通过上述方式所确定出来的对应方向向量上的信号值，而不是指实际的语音信号和噪音信号的值。

其中，从S个峰值所对应的方向向量集合只确定出一个目标语音方向向量和一个噪音方向向量，是因为CDRW算法中只支持一个目标语音方向向量和一个噪音方向向量。

103，根据目标语音方向对多个频域信号进行波束成形处理，以得到多个频域信号在目标语音方向上的波束。

根据目标语音方向，利用多个频域信号做波束成形处理，以得到多个频域信号在目标语音方向上的波束。其中，波束成形处理可以是多个波束成形处理中的任意一种，如超指向型波束成形(Super Directive Beamforming，SDBF)。

可利用如下公式(4)来得到多个频域信号在目标语音方向上的波束输出。

其中，W_target(k)为空域滤波系数，为W_target(k)的共轭转置。

其中，空域滤波系数可通过如下公式(5)来确定。

其中，α_target(k)为对应的第k个频点的导向向量，Γ(k)为散射噪音场的协方差矩阵。

其中，Γ(k)可通过如下公式(6)来确定。

其中，l_a,b是第a个麦克风到第b个麦克风的距离，该距离可以通过麦克风之间的坐标来表示，/>c为声速。

104，根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向和噪音方向，确定滤波系数。

需要注意的是，该步骤中的噪音方向指的是方向性噪音信号对应的噪音方向，这是本申请实施例中的一个重要创新点，目前在去噪时，对应的噪音类型一般是散射噪音，本申请实施例中将噪音类型扩展至方向性噪音，相对于散射噪音来说，降噪效果、去混响效果明显，且大大降低了语音损伤，提高目标语音的清晰度。

具体地，根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向和噪音方向，确定各麦克风对所对应的基于相干散射比；根据各麦克风所对应的基于相干散射比确定每个麦克风所对应的基于相干散射比的均值；将均值作为信噪比，根据信噪比确定滤波系数。

即对于每个麦克风对，都计算麦克风对所对应的基于相干散射比，在计算每个麦克风对所对应的基于相干散射比之后，确定每个麦克风对所对应的基于相干散射比的均值，如此，利用均值更能代表每个麦克风对所对应的基于相关散射比，将均值作为信噪比，使得信噪比更准确，所确定的滤波系数更准确。

在一实施例中，上述根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向和噪音方向，确定各麦克风对所对应的基于相干散射比的步骤，包括：对于每个麦克风对，根据麦克风对中的两个麦克风所对应的频域信号，确定两个麦克风采集的声音信号的第一互相干；根据两个麦克风之间的距离和目标语音方向，确定目标语音信号在两个麦克风之间的第二互相干；根据两个麦克风之间的距离和噪音方向，确定方向性噪音信号在两个麦克风之间的第三互相干；根据第一互相干、第二互相干和第三互相干来确定麦克风对所对应的基于相干散射比。

其中，每个麦克风对中的两个麦克风，都需要确定两个麦克风采集的声音信号的第一互相干、目标语音信号在两个麦克风之间的第二互相干、方向性噪音信号在两个麦克风之间的第三互相关，再根据第一互相关、第二互相干和第三互相干确定两个麦克风所对应的基于相干散射比。

如图3所示，对于每个麦克风对，确定每个麦克风对中的两个麦克风所对应的基于相干散射比可通过如下步骤201至204来实现。

201，根据麦克风对中的两个麦克风所对应的频域信号，确定两个麦克风采集的声音信号的第一互相干。

即确定麦克风对中的两个麦克风采集的声音信号的第一互相关。其中，声音信号为观测值，即实际采集到的值。

例如，上述根据麦克风对中的两个麦克风所对应的频域信号，确定两个麦克风采集的声音信号的第一互相干的步骤，包括：根据两个麦克风中的第一麦克风的频域信号和第一麦克风对应的上一帧的第一自功率谱，确定第一麦克风在当前帧对应的第一自功率谱；根据两个麦克风中的第二麦克风的频域信号和第二麦克风对应的上一帧的第二自功率谱，确定第二麦克风在当前帧对应的第二自功率谱；根据第一麦克风的频域信号、第二麦克风的频域信号和第一麦克风和第二麦克风对应的上一帧的互功率谱，确定第一麦克风和第二麦克风对应在当前帧对应的互功率谱；根据第一自功率谱、第二自功率谱和互功率谱，确定两个麦克风采集的声音信号的第一互相干。

在每个麦克风对中，有两个麦克风，分别为第一麦克风和第二麦克风。在每一帧中，可确定第一麦克风对应的自功率谱，称为第一自动率谱，确定第二麦克风对应的自功率谱，称为第二自功率谱，确定第一麦克风与第二麦克风之间对应的互功率谱等。

其中，第一麦克风假设为第a个麦克风，第二麦克风假设为第b个麦克风。对应的，第一麦克风在第l帧所对应的自功率谱可按照如下公式(7)来确定，第二麦克风在第l帧所对应的自功率谱可按照如下公式(8)来确定。

其中，x_a和x_b分别为第a个麦克风和第b个麦克风所采集的声音信号，表示第a个麦克风在第l帧的自功率谱，/>表示第a个麦克风在第l-1帧的自功率谱，X_a(l,k)表示第a个麦克风在第l帧的频域信号，/>表示第b个麦克风在第l帧的自功率谱，/>表示第b个麦克风在第l-1帧的自功率谱，X_b(l,k)表示第b个麦克风在第l帧的频域信号，λ为系数，(·)^*表示共轭。

第一麦克风和第二麦克风之间对应的互功率谱可按照如下公式(9)来确定。

其中，表示第a个麦克风和第b个麦克风在第l帧的互功率谱，表示第a个麦克风和第b个麦克风在第l-1帧的互功率谱，X_a(l,k)表示第a个麦克风在第l帧的频域信号，X_b(l,k)表示第b个麦克风在第l帧的频域信号。

再确定了第一麦克风对应的第一自动率谱、第二麦克风所对应的第二自功率谱、以及第一麦克风和第二麦克风之间的互功率谱之后，根据第一自动率谱、第二自功率谱和互功率谱来确定第一麦克风和第二麦克风采集的声音信号之间的第一互相干。

可按照如下公式(10)的方式来确定在第l帧中，第一麦克风和第二麦克风采集的声音信号之间的第一互相干

202，根据两个麦克风之间的距离和目标语音方向，确定目标语音信号在两个麦克风之间的第二互相干。

即确定麦克风对中的目标语音信号在两个麦克风之间的第二互相关，其中，目标语音信号为预测值。

例如，上述根据两个麦克风之间的距离和目标语音方向，确定目标语音信号在两个麦克风之间的第二互相干的步骤，包括：根据两个麦克风之间的距离和目标语音方向确定两个麦克风接收到目标语音信号的延迟因子；根据接收到目标语音信号的延迟因子来确定目标语音信号在两个麦克风之间的第二互相干。

其中，所述根据两个麦克风之间的距离和目标语音方向确定两个麦克风接收到目标语音信号的延迟因子的步骤，包括：获取声速、声音信号的采样频率；根据目标语音信号确定目标语音方向所对应的角度，以将目标语音方向转换为对应的角度；根据角度、声速、采样频率和两个麦克风之间的距离，确定两个麦克风接收到目标语音信号的延迟因子。

其中，所述根据接收到目标语音信号的延迟因子来确定目标语音信号在两个麦克风之间的第二互相干的步骤，包括：将接收到目标语音信号的延迟因子进行归一化处理，以得到目标语音信号在两个麦克风之间的第二互相干。

其中，可按照如下公式(11)来确定目标语音信号在第一麦克风和第二麦克风之间的第二互相关

其中，θ_target为目标语音方向向量对应的角度，j表示目标语音信号所对应的相位角值，/>F_s表示采样频率，l_a,b表示第a个麦克风和第b个麦克风、即第一麦克风和第二麦克风之间的距离，exp(jΩl_a,bsin(θ_target)/c)表示第一麦克风和第二麦克风接收到目标语音信号的延迟因子，c为声速，|*|表示绝对值。

203，根据两个麦克风之间的距离和噪音方向，确定方向性噪音信号在两个麦克风之间的第三互相干。

即确定麦克风对中的方向性噪音信号在两个麦克风之间的第三互相关，其中，方向性噪音信号为预测值。得到第三互相干以对已知方向性噪音信号进行抑制，以作为抑制的对象。

例如，上述根据两个麦克风之间的距离和噪音方向，确定方向性噪音信号在两个麦克风之间的第三互相干的步骤，包括：根据两个麦克风之间的距离和噪音方向确定两个麦克风接收到方向性噪音信号的延迟因子；根据接收到方向性噪音信号的延迟因子来确定方向性噪音信号在两个麦克风之间的第三互相干。

其中，所述根据两个麦克风之间的距离和噪音方向确定两个麦克风接收到方向性噪音信号的延迟因子的步骤，包括：获取声速、声音信号的采样频率；根据方向性噪音信号确定噪音方向所对应的角度，以将噪音方向转换为对应的角度；根据角度、声速、采样频率和两个麦克风之间的距离，确定两个麦克风接收到方向性噪音信号的延迟因子。

其中，所述根据接收到方向性噪音信号的延迟因子来确定方向性噪音信号在两个麦克风之间的第三互相干的步骤，包括：将接收到方向性噪音信号的延迟因子进行归一化处理，以得到方向性噪音信号在两个麦克风之间的第三互相干。

其中，可按照如下公式(12)来确定方向性噪音信号在第一麦克风和第二麦克风之间的第三互相关

其中，θ_{interference1}为目标语音方向向量对应的角度，j表示目标语音信号所对应的相位角值，/>F_s表示采样频率，l_a,b表示第a个麦克风和第b个麦克风、即第一麦克风和第二麦克风之间的距离，exp(jΩl_a,bsin(θ_{interference1})/c)表示第一麦克风和第二麦克风接收到方向性噪音信号的延迟因子，c为声速，|*表示绝对值。

204，根据第一互相干、第二互相干和第三互相干来确定麦克风对所对应的基于相干散射比。

其中，可按照公式来确定麦克风对所对应的基于相干散射比，该公式为需要注意的是，还可可以按照其他方式来确定麦克风对所对应的基于相干散射比。

得到各麦克风对所对应的基于相干散射比之后，根据各麦克风对所对应的基于相干散射比确定每个麦克风对所对应的基于相干散射比均值。

其中，基于相干散射比均值CDR(l,k)可通过如下公式(13)来确定。

其中，arg(·)为求复数辐角，M为麦克风数量，或者麦克风的通道数。

公式(13)只是使用一种基于相干散射比的示例说明，还可以使用其他的基于相干散射比的公式来确定基于相干散射比均值。

得到基于相干散射比均值后，将基于相干散射比均值作为信噪比，根据信噪比来确定滤波系数。例如，可根据信噪比，利用谱减法来确定滤波系数。

其中，滤波系数可按照如下公式(14)来确定。

至此，得到根据CDRW算法得到滤波系数。

105，根据滤波系数对波束进行滤波处理，以得到目标语音。

可按照如下公式(15)来进行滤波处理，得到目标语音Y(l,k)。

Y(l,k)＝B(l,k)W_CDR(l,k) (15)

上述在确定滤波系数时，不仅考虑了每个麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向，同时还考虑了方向性噪音的噪音方向，对噪音方向的方向性噪音进行降噪处理，当麦克风对不仅一个时，同时实现每个麦克风对的降噪处理，降低了噪音影响，有效提高了目标语音的清晰度。

上述每个麦克风对中的两个麦克风之间的第三互相干是通过方向性噪音信号来确定的，即对应的噪音类型为方向性噪音。在一实施例中，噪音类型也可以是散射噪音，当噪音类型为散热噪音时，根据环境的不同采用不同的方式来确定每个麦克风对中的两个麦克风之间的第三互相关。

对应的，根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离和目标语音方向，确定滤波系数。具体地，例如，根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向，确定各麦克风对所对应的基于相干散射比；根据各麦克风对所对应的基于相干散射比确定每个麦克风对所对应的基于相干散射比均值；将基于相干散射比均值作为信噪比，根据信噪比确定滤波系数。

与上文中的不同在于每个麦克风对中的两个麦克风之间的第三互相关的确定方式的不同。

例如，当环境为散射场时，可根据两个麦克风之间的距离，确定散射噪音信号在两个麦克风之间的第三互相干，具体地，例如，获取声速、声音信号的采样频率；根据声速、采样频率和两个麦克风之间的距离，确定散射场的散射噪音在两个麦克风之间的第三互相干。

散射场的散射噪音在两个麦克风之间的第三互相干可按照如下公式(16)来确定。

例如，当环境为半散射场时，可获取声速、声音信号的采样频率、第一类贝塞尔函数；根据声速、采样频率、第一类贝塞尔函数和两个麦克风之间的距离，确定半散射场的散射噪音在两个麦克风之间的第三互相干。

半散射场的散射噪音在两个麦克风之间的第三互相干可按照如下公式(17)来确定。

其中，J₀(·)为0阶的第一类贝塞尔函数。

上述实施例中实现了噪音类型为方向性噪音的情形，且实现可使用多个麦克风或者多通道麦克风的情况，该多个麦克风为大于两个的麦克风，多通道为多于两个的通道。

上述实施例可任意结合，以得到对应的方案。根据上述实施例所描述的方法，本实施例将从声音信号处理装置的角度进一步进行描述，该声音信号处理装置具体可以作为独立的实体来实现，也可以集成在电子设备中来实现。

请参阅图4，图4具体描述了本申请实施例提供的声音信号处理装置，应用于电子设备中，该电子设备中包括多个麦克风如麦克风阵列或者多个通道的麦克风。该声音信号处理装置可以包括：接收模块301、声源定位模块302、波束处理模块303、系数确定模块304和滤波模块305。

接收模块301，用于接收多个麦克风采集的声音信号，多个麦克风两两之间形成至少一个麦克风对。

声源定位模块302，用于对多个麦克风采集的声音信号对应的多个频域信号进行声源定位处理，以得到目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向。

在一实施例中，声源定位模块302，具体用于对多个麦克风采集的声音信号进行频域处理，以得到多个频域信号；在多个麦克风所在的空间中，确定多个方向；利用预设声源定位算法，确定所述频域信号与多个方向对应的多个声源测定值；将所述多个声源测定值中最大的声源测定值对应的方向确定为目标语音信号对应的目标语音方向，将所述多个声源测定值中第二大的声源测定值对应的方向确定为方向性噪音信号对应的噪音方向。

波束处理模块303，用于根据所述目标语音方向对所述多个频域信号进行波束成形处理，以得到多个频域信号在所述目标语音方向上的波束。

系数确定模块304，用于根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、所述目标语音方向和所述噪音方向，确定滤波系数。

滤波模块305，用于根据滤波系数对所述波束进行滤波处理，以得到目标语音。

在一实施例中，系数确定模块304，具体用于根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、所述目标语音方向和所述噪音方向，确定各麦克风对所对应的基于相干散射比；根据各麦克风对所对应的基于相干散射比确定每个麦克风对所对应的基于相干散射比均值；将所述基于相干散射比均值作为信噪比，根据所述信噪比确定滤波系数。

在一实施例中，系数确定模块304，在执行根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、所述目标语音方向和所述噪音方向，确定各麦克风对所对应的基于相干散射比的步骤时，具体执行：对于每个麦克风对，根据麦克风对中的两个麦克风所对应的频域信号，确定所述两个麦克风采集的声音信号的第一互相干；根据所述两个麦克风之间的距离和所述目标语音方向，确定所述目标语音信号在所述两个麦克风之间的第二互相干；根据所述两个麦克风之间的距离和所述噪音方向，确定所述方向性噪音信号在所述两个麦克风之间的第三互相干；根据所述第一互相干、所述第二互相干和所述第三互相干来确定所述麦克风对所对应的基于相干散射比。

在一实施例中，系数确定模块304，在执行对于每个麦克风对，根据麦克风对中的两个麦克风所对应的频域信号，确定所述两个麦克风采集的声音信号的第一互相干的步骤时，具体执行：根据所述两个麦克风中的第一麦克风的频域信号和所述第一麦克风对应的上一帧的第一自功率谱，确定所述第一麦克风在当前帧对应的第一自功率谱；根据所述两个麦克风中的第二麦克风的频域信号和所述第二麦克风对应的上一帧的第二自功率谱，确定所述第二麦克风在当前帧对应的第二自功率谱；根据所述第一麦克风的频域信号、所述第二麦克风的频域信号和所述第一麦克风和所述第二麦克风对应的上一帧的互功率谱，确定所述第一麦克风和所述第二麦克风对应在当前帧对应的互功率谱；根据所述第一自功率谱、所述第二自功率谱和所述互功率谱，确定所述两个麦克风采集的声音信号的第一互相干。

在一实施例中，系数确定模块304，在执行根据所述两个麦克风之间的距离和所述目标语音方向，确定所述目标语音信号在所述两个麦克风之间的第二互相干的步骤时，具体执行：根据两个麦克风之间的距离和目标语音方向确定两个麦克风接收到目标语音信号的延迟因子；根据接收到目标语音信号的延迟因子来确定目标语音信号在两个麦克风之间的第二互相干。

在一实施例中，系数确定模块304，在执行根据所述两个麦克风之间的距离和所述噪音方向，确定所述方向性噪音信号在所述两个麦克风之间的第三互相干的步骤时，具体执行：根据两个麦克风之间的距离和噪音方向确定两个麦克风接收到方向性噪音信号的延迟因子；根据接收到方向性噪音信号的延迟因子来确定方向性噪音信号在两个麦克风之间的第三互相干。

在一实施例中，当噪音类型为散热噪音时，系数确定模块304，还用于根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离和所述目标语音方向，确定滤波系数。

对应地，在一实施例中，系数确定模块304，在执行根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离和所述目标语音方向，确定滤波系数的步骤时，具体执行：根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向，确定各麦克风对所对应的基于相干散射比；根据各麦克风对所对应的基于相干散射比确定每个麦克风对所对应的基于相干散射比均值；将基于相干散射比均值作为信噪比，根据信噪比确定滤波系数。

对应地，在一实施例中，系数确定模块304，在执行根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、目标语音方向，确定各麦克风对所对应的基于相干散射比的步骤时，具体执行：对于每个麦克风对，根据麦克风对中的两个麦克风所对应的频域信号，确定所述两个麦克风采集的声音信号的第一互相干；根据所述两个麦克风之间的距离和所述目标语音方向，确定所述目标语音信号在所述两个麦克风之间的第二互相干；根据所述两个麦克风之间的距离，确定所述方向性噪音信号在所述两个麦克风之间的第三互相干；根据所述第一互相干、所述第二互相干和所述第三互相干来确定所述麦克风对所对应的基于相干散射比。

具体地，当环境为散射场时，所述根据所述两个麦克风之间的距离，确定所述方向性噪音信号在所述两个麦克风之间的第三互相干的步骤，包括：获取声速、声音信号的采样频率；根据声速、采样频率和两个麦克风之间的距离，确定散射场的散射噪音在两个麦克风之间的第三互相干。

具体地，当环境为散射场时，所述根据所述两个麦克风之间的距离，确定所述方向性噪音信号在所述两个麦克风之间的第三互相干的步骤，包括：获取声速、声音信号的采样频率、第一类贝塞尔函数；根据声速、采样频率、第一类贝塞尔函数和两个麦克风之间的距离，确定半散射场的散射噪音在两个麦克风之间的第三互相干。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，具体可以达到的有益效果也请参看前面的方法实施例中的有益效果，在此不再赘述。

另外，本申请实施例还提供一种电子设备，如图5所示，电子设备400包括处理器401、存储器402。该电子设备中包括多个麦克风如麦克风阵列或者多个通道的麦克风。其中，处理器401与存储器402电性连接。

处理器401是电子设备400的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器402内的应用程序，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序/计算机程度，从而实现各种功能，如：

根据滤波系数对所述波束进行滤波处理，以得到目标语音。

该电子设备可以实现本申请实施例所提供的声音信号处理方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一声音信号处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

图6示出了本发明实施例提供的电子设备的具体结构框图，该电子设备可以用于实施上述实施例中提供的声音信号处理方法。该电子设备包括以下的模块/单元。

RF电路510用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。RF电路510可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路510可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication，GSM)、增强型移动通信技术(Enhanced DataGSM Environment，EDGE)，宽带码分多址技术(Wideband Code Division MultipleAccess，WCDMA)，码分多址技术(Code Division Access，CDMA)、时分多址技术(TimeDivision Multiple Access，TDMA)，无线保真技术(Wireless Fidelity，Wi-Fi)(如美国电气和电子工程师协会标准IEEE802.11a，IEEE 802.11b，IEEE802.11g和/或IEEE 802.11n)、网络电话(Voice over Internet Protocol，VoIP)、全球微波互联接入(WorldwideInteroperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

存储器520可用于存储软件程序(计算机程序)以及模块，如上述实施例中对应的程序指令/模块，处理器580通过运行存储在存储器520内的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器520可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器520可进一步包括相对于处理器580远程设置的存储器，这些远程存储器可以通过网络连接至电子设备500。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入单元530可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元530可包括触敏表面531以及其他输入设备532。触敏表面531，也称为触摸显示屏(触摸屏)或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面531上或在触敏表面531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面531。除了触敏表面531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及电子设备500的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元540可包括显示面板541，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板541。进一步的，触敏表面531可覆盖显示面板541，当触敏表面531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图中，触敏表面531与显示面板541是作为两个独立的部件来实现输入和输出功能，但是可以理解地，将触敏表面531与显示面板541集成而实现输入和输出功能。

电子设备500还可包括至少一种传感器550，比如光传感器、方向传感器、接近传感器以及其他传感器。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用、振动识别相关功能(比如计步器、敲击)等；至于电子设备500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与电子设备500之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一电子设备，或者将音频数据输出至存储器520以便进一步处理。音频电路560还可能包括耳塞插孔，以提供外设耳机与电子设备500的通信。

电子设备500通过传输模块570(例如Wi-Fi模块)可以帮助用户接收请求、发送信息等，它为用户提供了无线的宽带互联网访问。虽然图示出了传输模块570，但是可以理解的是，其并不属于电子设备500的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是电子设备500的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序(计算机程序)和/或模块，以及调用存储在存储器520内的数据，执行电子设备500的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器580可包括一个或多个处理核心；在一些实施例中，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解地，上述调制解调处理器也可以不集成到处理器580中。

电子设备500还包括给各个部件供电的电源590(比如电池)，在一些实施例中，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源590还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备500还包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备的显示单元是触摸屏显示器，电子设备还包括有存储器，以及一个或者一个以上的程序(计算机程序)，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令：

接收多个麦克风采集的声音信号，多个麦克风两两之间形成至少一个麦克风对；对多个麦克风采集的声音信号对应的多个频域信号进行声源定位处理，以得到目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向；根据所述目标语音方向对所述多个频域信号进行波束成形处理，以得到多个频域信号在所述目标语音方向上的波束；根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、所述目标语音方向和所述噪音方向，确定滤波系数；根据滤波系数对所述波束进行滤波处理，以得到目标语音。

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令(计算机程序)来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的声音信号处理方法中任一实施例的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的声音信号处理方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任声音信号处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种声音信号处理方法、装置、存储介质和电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种声音信号处理方法，其特征在于，包括：

根据滤波系数对所述波束进行滤波处理，以得到目标语音。

2.根据权利要求1所述的方法，其特征在于，所述根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、所述目标语音方向和所述噪音方向，确定滤波系数的步骤，包括：

根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、所述目标语音方向和所述噪音方向，确定各麦克风对所对应的基于相干散射比；

根据各麦克风对所对应的基于相干散射比确定每个麦克风对所对应的基于相干散射比均值；

将所述基于相干散射比均值作为信噪比，根据所述信噪比确定滤波系数。

3.根据权利要求2所述的方法，其特征在于，根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离、所述目标语音方向和所述噪音方向，确定各麦克风对所对应的基于相干散射比的步骤，包括：

对于每个麦克风对，根据麦克风对中的两个麦克风所对应的频域信号，确定所述两个麦克风采集的声音信号的第一互相干；

根据所述两个麦克风之间的距离和所述目标语音方向，确定所述目标语音信号在所述两个麦克风之间的第二互相干；

根据所述两个麦克风之间的距离和所述噪音方向，确定所述方向性噪音信号在所述两个麦克风之间的第三互相干；

根据所述第一互相干、所述第二互相干和所述第三互相干来确定所述麦克风对所对应的基于相干散射比。

4.根据权利要求3所述的方法，其特征在于，根据所述两个麦克风之间的距离和所述噪音方向，确定所述方向性噪音信号在所述两个麦克风之间的第三互相干的步骤，包括：

获取声速、所述声音信号的采样频率；

确定所述噪音方向所对应的角度；

根据所述角度、所述声速、所述采样频率和所述两个麦克风之间的距离，确定所述两个麦克风接收到所述方向性噪音信号的延迟因子；

将所述延迟因子进行归一化处理，以得到所述两个麦克风之间的第三互相干。

5.根据权利要求3所述的方法，其特征在于，所述根据麦克风对中的两个麦克风所对应的频域信号，确定所述两个麦克风采集的声音信号的第一互相干的步骤，包括：

根据所述两个麦克风中的第一麦克风的频域信号和所述第一麦克风对应的上一帧的第一自功率谱，确定所述第一麦克风在当前帧对应的第一自功率谱；

根据所述两个麦克风中的第二麦克风的频域信号和所述第二麦克风对应的上一帧的第二自功率谱，确定所述第二麦克风在当前帧对应的第二自功率谱；

根据所述第一麦克风的频域信号、所述第二麦克风的频域信号和所述第一麦克风和所述第二麦克风对应的上一帧的互功率谱，确定所述第一麦克风和所述第二麦克风对应在当前帧对应的互功率谱；

根据所述第一自功率谱、所述第二自功率谱和所述互功率谱，确定所述两个麦克风采集的声音信号的第一互相干。

6.根据权利要求1至5任一项所述的方法，其特征在于，当噪音类型为散热噪音时，所述方法还包括：

根据各麦克风对中的两个麦克风所对应的频域信号、两个麦克风之间的距离和所述目标语音方向，确定滤波系数。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述对多个麦克风采集的声音信号对应的多个频域信号进行声源定位处理，以得到目标语音信号对应的目标语音方向和方向性噪音信号对应的噪音方向的步骤，包括：

对多个麦克风采集的声音信号进行频域处理，以得到多个频域信号；

在多个麦克风所在的空间中，确定多个方向；

利用预设声源定位算法，确定所述频域信号与多个方向对应的多个声源测定值；

将所述多个声源测定值中最大的声源测定值对应的方向确定为目标语音信号对应的目标语音方向，将所述多个声源测定值中第二大的声源测定值对应的方向确定为方向性噪音信号对应的噪音方向。

8.一种声音信号处理装置，其特征在于，包括：

接收模块，用于接收多个麦克风采集的声音信号，多个麦克风两两之间形成至少一个麦克风对；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有多条指令，所述指令适于由处理器加载以执行权利要求1至7任一项所述的声音信号处理方法中的步骤。

10.一种电子设备，其特征在于，包括处理器和存储器，所述处理器与所述存储器电性连接，所述存储器用于存储指令和数据，所述处理器用于执行权利要求1至7任一项所述的声音信号处理方法中的步骤。