CN114023307A

CN114023307A - 声音信号处理方法、语音识别方法、电子设备和存储介质

Info

Publication number: CN114023307A
Application number: CN202210002730.XA
Authority: CN
Inventors: 黄伟隆; 冯津伟
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-02-08
Anticipated expiration: 2042-01-05
Also published as: CN114023307B

Abstract

本申请实施例提供了一种声音信号处理方法、语音识别方法、电子设备和存储介质，该声音信号处理方法包括：获取同心圆麦克风阵列采集到的输入声音信号；根据所述同心圆麦克风阵列中每个麦克风的声学特征，对所述输入声音信号进行波束形成，获得输出声音信号。本方案能够提高对声音信号进行处理的效果。

Description

声音信号处理方法、语音识别方法、电子设备和存储介质

技术领域

本申请实施例涉及声学技术领域，尤其涉及一种声学信号处理方法、语音识别方法、电子设备和存储介质。

背景技术

在音视频会议、智能音箱、智能家电（比如带语音控制功能的电视机、电冰箱）等产品中，可以采用由多个麦克风构成的同心圆麦克风阵列（CCDMA）进行拾音。同心圆麦克风阵列中各麦克风采集到的声音信号输入波束形成器，由波束形成器计算声源的估计值，从而达到降噪、声源分离、去混响、空间录音以及源定位和跟踪等目的。

目前，同心圆麦克分阵列由多个全向麦克风构成，为了提高波束形成器的鲁棒性，通常使波束形成器的白噪声增益（WNG）最大化，然而波束形成器在处理低频噪声分量时具有较低的白噪声增益，无法有效处理同心圆麦克风阵列所采集声音信号中的低频噪声分量，导致对声音信号进行处理的效果较差。

发明内容

有鉴于此，本申请实施例提供一种声音信号处理方法、语音识别方法、电子设备和存储介质，以至少解决或缓解上述问题。

根据本申请实施例的第一方面，提供了一种声音信号处理方法，包括：获取同心圆麦克风阵列采集到的输入声音信号；根据所述同心圆麦克风阵列中每个麦克风的声学特征，对所述输入声音信号进行波束形成，获得输出声音信号。

根据本申请实施例的第二方面，提供了一种语音识别方法，包括：获取同心圆麦克风阵列采集到的语音信号，其中，所述语音信号包括以下之一：会议语音数据、智能音箱控制语音数据和审讯语音数据；根据所述同心圆麦克风阵列中每个麦克风的声学特征，对所述语音信号进行波束形成，获得待识别语音信号；对所述待识别语音信号进行语音识别，获得识别结果。

根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如上述第一方面所述的声音信号处理方法对应的操作或上述第二方面所述的语音识别方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的声音信号处理方法或上述第二方面所述的语音识别方法。

根据本申请实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如上述第一方面所述的声音信号处理方法对应的操作或上述第二方面所述的语音识别方法对应的操作。

由上述技术方案可知，同心圆麦克风阵列中麦克风的声学特征会影响麦克风所采集到的声音信号，将同心圆麦克风阵列中每个麦克风的声学特征，作为对输入声音信号进行波束形成的依据，由于增加了对输入声音信号进行波束形成的依据，通过波束形成算法可以对更大频率范围内的声音信号进行优化，可以有效对输入声音信号中的低频噪声分量，从而可以提高对声音信号进行处理的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例的同心圆麦克风阵列系统的示意图；

图2是本申请一个实施例的同心圆麦克风阵列的示意图；

图3是本申请一个实施例的声音信号处理方法的流程图；

图4是本申请一个实施例的语音识别方法的流程图；

图5是本申请一个实施例的声音信号处理装置的示意图；

图6是本申请一个实施例的电子设备的示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

首先，对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

全向麦克风：可以等量接收各个方向的声音的麦克风。

指向性麦克风：一种能够在特定方向进行拾音的声学器件，此方向为麦克风的目标方向或指向性方向，此方向的声音可以被不失真地拾取，其他方向的声音被一定程度的抑制。

同心圆麦克风阵列：利用多颗麦克风排列成环形阵列形态，每个环上均匀或非均匀地分布多个麦克风，各麦克风同时进行声音采集。

短时傅里叶变换：短时傅里叶变换（Short-Time Fourier Transform，STFT）是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位，是一种将信号在时域和时频域之间变换的方法。

波束形成器：波束形成器是一种空间滤波器，其使用麦克风阵列接收到的声音信号的多个版本来根据预设的优化规则识别声源。

同心圆麦克风阵列系统

图1示出一种适用于本申请实施例的声音信号处理方法的同心圆麦克风阵列系统。如图1所示，该同心圆麦克分阵列系统包括同心圆麦克风阵列102、模数转换器104和声音信号处理装置106。

同心圆麦克风阵列102包括多个具有公共中心点（O）的麦克风环，每个麦克风环包括一个或多个麦克风。例如，如图1所示，同心圆麦克风阵列102包括P个麦克风环，第p麦克风环的半径为r_p，第p麦克风环包括M_p个麦克风，1≤p≤P，P为大于或等于2的自然数，M_p为大于或等于1的自然数。

同心圆麦克风阵列102中的麦克风从特定距离和角度接收到来自声源的声音信号。声音信号包括来自声源的第一分量x(k)和来自环境噪声的第二分量v(k)，其中k为时域。由于麦克风之间的空间距离，每个麦克风处理除了第二分量外，还可以接收不同版本的第一分量（不同麦克风接收到的第一分量相对于参考麦克风具有不同的延迟量）。

图2示出本申请实施例的同心圆麦克风阵列的详细布置。如图2所示，该同心圆麦克风阵列102包括布置在x-y平面上的P环麦克风，其中，第p（p=1,2,…,P）环的半径为r_p，第p麦克风环包括M_p个麦克风。对于第p环，M_p个麦克风沿第p环的圆周均匀或非均匀分布。为了便于说明，假设同心圆麦克风阵列102的中心点与二维笛卡尔坐标系的原点重合，方位角从x轴的逆时针方向进行测量，不同环的第一麦克风可相对于x轴以不同的角度放置。

对于第p环，当第p环上的M_p个麦克风沿第p环的圆周均匀分布时，第p环上第m麦克风的角位置为

，其中

为第p环上第1麦克风的角位置。

同心圆麦克风阵列200中的麦克风可以是全向麦克风或指向性麦克风，同心圆麦克风阵列200可以由全向麦克风或指向性麦克风构成，还可以由全向麦克风与指向性麦克风混合构成。指向性麦克风包括心形麦克风、双向麦克风等。当第p环上的第m麦克风为指向性麦克风时，该麦克风的指向性方向与第p环的向外径向方向之间的夹角为α _m,p。另外，假设远场中的源信号（平面波）以空气中的音素（c）从方向θ（方位角）到达同心圆麦克风阵列200，例如c=340m/s。

同心圆麦克风阵列102中的每个麦克风接收到的声音信号包括第一分量x(k)和第二分量v(k)，第一分量x(k)来自声源，第二分量v(k)来自环境噪声和干扰。麦克风的电子电路可将接收到的声音信号转换成可以输入到模数转换器104的电子信号，模数转换器104可以将电子信号转换为数字信号。例如，同心圆麦克风阵列102包括M个麦克风，M个麦克风中的第n麦克风所接收到声音信号包括第一分量x(k)和第二分量v _n (k)，模数转换器104可以将第n麦克风将接收到的第一分量x(k)和第二分量v _n (k)转换为数字信号y _n (k)，其中1≤n≤M。

声音信号处理装置106接收模数转换器104输出的数字信号y _n (k)，处理装置106根据接收到的数字信号y _n (k)，根据同心圆麦克风阵列102中每个麦克风的声学特征，对数字信号y _n (k)进行波束形成，获得输出声音信号z(k)。由于声音信号处理装置106在对输入声音信号的数字信号进行处理时，可以根据同心圆麦克风阵列102中每个麦克风的声学特征对数字信号进行波束形成，由于波束形成过程增加了额外的自由度（麦克风的声学特征），从而可以增大波束形成过程中对于低频信号的白噪声增益，提高对同心圆麦克风阵列102所采集声音信号进行处理的效果。

需要说明的是，声音信号处理装置106对输入声音信号进行波束形成，获得输出声音信号的具体实现过程，在后续声音信号处理方法实施例中进行详细说明。

声音信号处理方法

基于上述系统，本申请实施例提供了一种声音信号处理方法，以下通过多个实施例对该声音信号处理方法进行详细说明。

图3是本申请实施例提供的一种声音信号处理方法的流程示意图。如图3所示，该方法包括如下步骤：

步骤301、获取同心圆麦克风阵列采集到的输入声音信号。

同心圆麦克风阵列中的每个麦克风采集来自声源的声音信号，麦克风所采集到的声音信号包括来自声源的第一分量和由于噪声或干扰形成的第二分量。麦克风的电子电路可以将声波的振动信号转换为相应电子信号，各麦克风分别将接收到的振动信号转换为电子信号。通过模数转换器可以将麦克风输出的电子信号转换为数字信号，同心圆麦克风阵列中各麦克风分别将输出的电子信号发送给模数转换器，由模数转换器分别将各麦克风输出的电子信号转换数字信号，所获取到的输入声音信号包括模数转换器输出的对应于各麦克风所输出电子信号的数字信号。

步骤302、根据同心圆麦克风阵列中每个麦克风的声学特征，对输入声音信号进行波束形成，获得输出声音信号。

在获得输入声音信号后，根据同心圆麦克风阵列中每个麦克风的声学特征，对输入声音信号进行波束形成，增强声源方向的信号，并抑制声源方向之外其他方向的信号，获得输出声音信号。

在本申请实施例中，同心圆麦克风阵列中麦克风的声学特征会影响麦克风所采集到的声音信号，将同心圆麦克风阵列中每个麦克风的声学特征，作为对输入声音信号进行波束形成的依据，由于增加了对输入声音信号进行波束形成的依据，通过波束形成算法可以对更大频率范围内的声音信号进行优化，可以有效对输入声音信号中的低频噪声分量进行抑制，从而可以提高对声音信号进行处理的效果。

在一种可能的实现方式中，同心圆麦克风阵列中每个麦克风的声学特征，可以通过同心圆麦克风阵列的幅度响应向量进行表征，幅度响应向量用于在对输入声音信号进行波束形成的过程中调整输入声音信号的幅度。

在对输入声音信号进行波束形成时，需要将输入声音信号从时域变换至频域，进而在频域对输入声音信号进行波束形成，以增强声源方向的信号，并抑制声源方向之外的其他方向的信号。在对频域的输入声音信号进行波束形成后，再将所获得的声音信号从频域变换至时域，获得时域的输出声音信号。

如图1所示，声音信号处理装置106包括频域变换模块108、波束形成器110和时域变换模块112。模数转换器104将数字信号y _n (k)输入频域变换模块108，频域变换模块108将数字信号y _n (k)从时域变换至频域，获得数字信号Y _n (ω)，并将数字信号Y _n (ω)输入波束形成器110，波束形成器110对数字信号Y _n (ω)进行波束形成，获得数字信号Z _n (ω)，对n取值为1-M的数字信号Z _n (ω)进行求和获得数字信号z(ω)，将数字信号z(ω)输入时域变换模块112后，时域变换模块112将数字信号z(ω)从频域变换至时域，获得输出声音信号z(k)。

可选地，频域变换模块108可以通过短时傅里叶变换（STFT）将数字信号y _n (k)从时域变换至频域，时域变换模块112可以通过短时傅里叶逆变换（InverseSTFT）将数字信号z(ω)从频域变换至时域。对于频域变换模块108和时域变换模块112进行时频域转换的算法，除了可以使用短时傅里叶变换和短时傅里叶逆变换外，还可以使用其他任何合适类型的时频域变换算法，对此本申请实施例不进行限定。

由于在对在频域对输入声音信号进行波束形成，而输入声音信号中低频噪声具有较小的频率，通过同心圆麦克风阵列的幅度响应向量表征声学特征，在对输入声音信号进行波束形成的过程中，通过幅度响应向量调整输入声音信号的幅度，可以更加有效的抑制输入声音信号中的低频噪声分量，使得波束形成过程在低频处仍具有较高的白噪声增益，从而提高对声音信号进行处理的效果。

在一种可能的实现方式中，同心圆麦克风阵列的幅度响应向量可以根据同心圆麦克风阵列中每个麦克风的指向性参数和方向参数中的至少一个获得，其中，指向性参数用于指示麦克风的指向性，方向参数用于指示麦克风的指向性方向与同心圆麦克风阵列的径向方向的夹角。

同心圆麦克风阵列中的麦克风可以是全向麦克风或指向性麦克风，指向性会影响麦克风所采集到的声音信号，将麦克风的指向性参数作为幅度响应向量的一个参数，可以基于麦克风的指向性对输入声音信号进行波束形成，由于增加了对输入声音信号进行波束形成过程中可参考的因素，从而可以更加准确地对输入声音信号进行波束形成，以增强声源方向的信号，并抑制声源方向之外的其他方向的信号，保证对输入声音信号进行增强、降噪等处理的效果。

对于指向性麦克风，麦克风的指向性方向与同心圆麦克风阵列的径向方向的夹角不同，会影响麦克风所采集到的声音信号，而麦克风的方向参数用于指示麦克风的指向性方向与同心圆麦克风阵列的径向方向的夹角，因此将麦克风的方向参数作为幅度响应向量的另一个参数，可以基于麦克风的指向性方向与同心圆麦克风阵列的相对角度，对输入声音信号进行波束形成，由于增加了对输入声音信号进行波束形成过程中可参考的因素，从而可以更加准确地对输入声音信号进行波束形成，以增强声源方向的信号，并抑制声源方向之外的其他方向的信号，保证对输入声音信号进行降噪、声源分离、去混响等处理的效果。

在本申请实施例中，指向性麦克风的方向参数，可以是指向性麦克风的指向性方向与同心圆麦克风阵列的向外径向方向的夹角，如图2所示，α _m,p为第p环上第m麦克风的指向性方向与同心圆麦克风阵列的向外径向方向的夹角，即α _m,p为第p环上第m麦克风的方向参数。需要说明的是，同心圆麦克风阵列中不同的指向性麦克风可以具有相同或不同的方向参数。

在本申请实施例中，可以通过指向性参数的数值来区别具有不同指向性的麦克风，比如，对于一阶同心圆差分麦克风阵列，全向麦克风的指向性参数q=1，次心形（Subcardioid）指向麦克风的指向性参数q=0.7，心形（Cardioid）指向麦克风的指向性参数q=0.5，超心形（Supercardioid）指向麦克风的指向性参数q=0.37，高心形（hypercardioid）指向麦克风的指向性参数q=0.25，双（Bi-Directional）指向麦克风的指向性参数q=0。

根据麦克风的指向性参数和方向参数中的至少一个确定同心圆麦克风阵列的幅度响应向量，在设计同心圆麦克风整列时，可以根据需求选择具有不同指向性的麦克风来构成同心圆麦克风阵列，而且还可以设置每个指向性麦克风的指向性方向相对于同心圆麦克风阵列的角度，提升了同心圆麦克风阵列设计的自由度，进而能够满足不同应用场景对于声音信号进行处理的需求，并保证对声音信号进行处理的效果。

在一种可能的实现方式中，同心圆麦克风阵列的幅度响应向量可以如下公式（1）所示：

其中

用于表征同心圆麦克风阵列的幅度响应向量，u _p (q _p ,θ)用于表征同心圆麦克风阵列中第p环上麦克风的响应向量，u _p (q _p ,θ)由第p环上麦克风的指向性参数和方向参数中的至少一个确定，P用于表征同心圆麦克风阵列所包括环的数量，1≤p≤P，T用于表征转置运算符。

对于同心圆麦克风阵列包括的每个环，根据该环上麦克风的指向性参数和方向参数中的至少一个，可以确定该环上麦克风的响应向量，即该环对应的响应向量。在确定同心圆麦克风阵列中每个环对应的响应向量后，通过上述公式（1）构建同心圆麦克风阵列的幅度响应向量。基于同心圆麦克风阵列中每个环的响应向量，构建同心圆麦克风阵列的幅度响应向量，使得幅度响应向量包括同心圆麦克风阵列中每个环的声学特征，进而在根据幅度响应向量对输入声音信号进行波束形成时，可以基于同心圆麦克风阵列中每个环的声学特征进行波束形成，充分利用同心圆麦克风阵列中每个环的声学特征，提升对输入声音信号进行波束形成的准确性。

在一种可能的实现方式中，同心圆麦克风阵列中每个环的响应向量可以如下公式（2）所示：

其中，u _p (q _p ,θ)用于表征同心圆麦克风阵列中第p环上麦克风的响应向量，u _m,p用于表征同心圆麦克风阵列中第p环上第m麦克风的幅度响应，u _m,p由第p环上第m麦克风的指向性参数和方向参数中的至少一个确定，M _p用于表征第p环上麦克风的数量。

对于同心圆麦克风阵列中的每个麦克风，可以确定该麦克风的指向性参数和方向参数，根据该麦克风的指向性参数和方向参数中的至少一个，可以确定该麦克风的幅度响应。在确定同心圆麦克风阵列中每个麦克风对应的幅度响应后，通过上述公式（2）构建同心圆麦克风阵列中每个环对应的响应向量，进而根据每个环对应的响应向量，通过上述公式（1）构建同心圆麦克风阵列的幅度响应向量。基于同心圆麦克风阵列中每个麦克风对应的幅度响应，构建同心圆麦克风阵列中每个环对应的响应向量，进而根据每个环对应的响应向量构建同心圆麦克风阵列的幅度响应向量，使得幅度响应向量包括同心圆麦克风阵列中每个麦克风的指向性参数和/或方向参数，进而在根据幅度响应向量对输入声音信号进行波束形成时，可以基于同心圆麦克风阵列中每个麦克风的指向性参数和/或方向参数对输入声音信号进行波束形成，充分利用同心圆麦克风阵列中每个麦克风的声学特征，提升对输入声音信号进行波束形成的准确性。

在一种可能的实现方式中，同心圆麦克风阵列中每个麦克风对应的幅度响应可以如下公式（3）所示：

其中，u _m,p用于表征同心圆麦克风阵列中第p环上第m麦克风的幅度响应，

用于表征第p环上第m麦克风在第p环上的角位置，N用于表征同心圆麦克风阵列的差分阶数，q _i,p用于表征第p环上第m麦克风对应于第i阶的指向性参数，α _m,p用于表征第p环上第m麦克风的方向参数，θ用于表征输入声音信号的声源的期望方向。

当同心圆麦克风阵列为一阶同心圆差分麦克风阵列时，即N=1时，第p环上第m麦克风的幅度响应为

，q _p为第p环上第m麦克风的指向性参数。当同心圆麦克风阵列为二阶同心圆差分麦克风阵列时，即N=2时，第p环上第m麦克风的幅度响应为

，q _1,p为第p环上第m麦克风对应于第一阶的指向性参数，q _2,p为第p环上第m麦克风对应于第二阶的指向性参数。

在本申请实施例中，对于同心圆麦克风阵列中的每个麦克风，根据该麦克风在同心圆麦克风阵列中的角位置以及该麦克风的指向性参数和方向参数，通过上述公式（3）计算该麦克风对应的幅度响应。在确定同心圆麦克风阵列中每个麦克风对应的幅度响应后，通过上述公式（2）构建同心圆麦克风阵列中每个环对应的响应向量，鸡儿根据每个环对应的响应向量，通过上述公式（1）构建同心圆麦克风阵列的幅度响应向量。基于同心圆模块阵列中每个麦克风对应的角位置、指向性参数和方向参数，构建同心圆麦克风阵列的幅度响应向量，使得幅度响应向量包括同心圆麦克风阵列中每个麦克风的角位置、指向性参数和方向参数，进而在根据幅度响应向量对输入声音信号进行波束形成时，可以基于同心圆麦克风阵列中每个麦克风的角位置、指向性参数和方向参数对输入声音信号进行波束形成，充分利用同心圆麦克风阵列中每个麦克风的声学特征，提升对输入声音信号进行波束形成的准确性。

在一种可能的实现方式中，在根据同心圆麦克风阵列中每个麦克风的声学特征，对输入声音信号进行波束形成，获得输出声音信号时，可以根据同心圆麦克风阵列的相位响应向量和幅度响应向量，对输入声音信号进行波束形成，获得输出声音信号。对于同心圆麦克风阵列的幅度响应向量，以在上述实施例中进行了详细说明，而同心圆麦克风阵列的相位响应向量用于在对输入声音信号进行波束形成的过程中，对输入声音信号的相位进行调整。

在对输入声音信号进行波束形成的过程中，对声音信号的处理包括相位调整和幅度调整，基于同心圆麦克风阵列的幅度响应向量对输入声音信号的幅度进行调整，基于同心圆麦克风阵列的相位响应向量对输入声音信号的相位进行调整，可以更加全面的对输入声音信号进行处理，以增强声源方向的信号，并抑制声源方向之外的其他方向的信号，从而提高对输入声音信号进行处理的效果。

在一种可能的实现方式中，在根据相位响应向量和幅度响应向量对输入声音信号进行波束形成，以获得输出声音信号时，可以获取输入声音信号的频率表示，进而将获取到的频率表示输入包括相位响应向量和幅度响应向量的波束形成器，获得波束形成器输出的频域估计值，然后根据频域估计值生成输出声音信号。

在获取输入声音信号的频率表示时，可以通过短时傅里叶变换对输入声音信号进行处理，将输入声音信号从时域转换至频域，获得输入声音信号的频率表示。将输入声音信号的频率表示输入波束形成器后，波束形成器基于相位响应向量和幅度响应向量对输入声音信号的频率表示进行波束形成，获得频域估计值。通过短时傅里叶逆变换对频域估计值进行处理，将频域估计值从频域转换至时域，获得输出声音信号。

波束形成器基于相位响应向量和幅度响应向量对输入声音信号进行波束形成，由于幅度响应向量包括同心圆麦克风阵列中每个麦克风的指向性参数和方向参数，增加了对输入声音信号进行波束形成过程所依据的参数，从而可以更好地对输入声音信号中的低频噪声分量进行抑制，提高波束形成在低频噪声分量处的白噪声增益，提高对输入声音信号进行处理的效果。

同心圆麦克风阵列的导向向量可表示同心圆麦克风阵列中的麦克风上的入射远场波形的相对相移，因此导向向量是同心圆麦克风阵列对脉冲输入的响应。对于一阶同心圆差分麦克风阵列，其导向向量可以为如下公式（4）所示：

其中，T用于表征转置运算符，d _p (ω,θ)为同心圆麦克风阵列中第p环的导向向量，第p环的导向向量d _p (ω,θ)可以为如下公式（5）所示：

其中，d _m,p为同心圆麦克风阵列中第p环上第m麦克风的导向响应，M _p为第p环上麦克风的数量，第p环上第m麦克风的导向响应d _m,p可以为如下公式（6）所示：

其中，j为虚数单元，j ²=-1，ω为输入声音信号的频率表示（角频率），ω=2πf，f为时间频率，q _m,p用于表征所述第p环上第m麦克风对应于指向性参数。

一阶同心圆差分麦克风阵列的相位响应向量可以为如下公式（7）所示：

其中，a _p (ω,θ)为同心圆麦克风阵列中第p环的相位响应向量，第p环的相位响应向量a _p (ω,θ)可以为如下公式（8）所示：

其中，α _m,p为同心圆麦克风阵列中第p环上第m麦克风的相位响应，第p环上第m麦克风的相位响应α _m,p可以为如下公式（9）所示：

根据上述公式（1）至公式（9）可知，一阶同心圆差分麦克风阵列的导向向量可以表示为如下公式（10）：

其中，

用于表征同心圆麦克风阵列的导向向量，

用于表征同心圆麦克风阵列的幅度响应向量，

用于表征同心圆麦克风阵列的相位响应阵列，ω用于表征输入声音信号的频率表示，θ用于表征声源的期望方向，〇用于表征哈达玛积运算符。

在一种可能的实现方式中，用于对输入声音信号进行波束形成的波束形成器为具有零约束的差分波束形成器，该波束形成器可以表示为如下公式（11）：

其中，R(ω,θ)用于表征约束矩阵，h(ω)为波束形成器，c _θ是长度为（2N+1）的向量，c _θ为第一个元素为1且其他元素为0的列矩阵。约束矩阵R(ω,θ)可以为如下公式（12）所示：

θ定义了约束为1的期望方向，Δθ ₁至Δθ ₂用于表征预设的与期望方向的角间距，Δθ ₁至Δθ ₂对应的约束均为零，N用于表征同心圆麦克风阵列的阶数。为了实现公式（11）高度的鲁棒性，将波束形成器的设计公式化为如下公式（13）的优化问题：

上述公式（13）的优化问题为使h ^H (ω)h(ω)最小时满足R(ω,θ)h(ω)=c _θ，因此可以得到用于同心圆麦克风阵列的波束形成器如下公式（14）所示：

结合上述公式（9）和公式（11），可以得到约束矩阵R(ω,θ)的表示如下公式（15）所示：

其中，U(q,θ)即为包括同心圆麦克风阵列的幅度响应向量的幅度响应矩阵，A(ω, θ)即为包括同心圆麦克风阵列的相位响应向量的相位响应矩阵。

幅度响应矩阵U(q,θ)由公式（1）中的幅度响应向量

组成，幅度响应矩阵U (q,θ)可以表示为如下公式（16）所示：

其中，

用于表征幅度响应向量，θ用于表征声源的期望方向，Δθ ₁至Δθ ₂用于表征预设的与期望方向的角间距，N用于表征同心圆麦克风阵列的阶数。当同心圆麦克风阵列为一阶同心圆差分麦克风阵列时，幅度响应矩阵U(q,θ)由

、

和

三个元素组成。

相位响应矩阵A(ω,θ)由公式（7）中的相位响应向量

组成，相位响应矩阵A (ω,θ)可以表示为如下公式（17）所示：

通过组合上述公式（14）和公式（15），同心圆麦克风阵列的波束形成器可以为如下公式（18）所示：

其中，h _ccddma (ω)用于表征波束形成器输出的频域估计值，A(ω,θ)用于表征包括相位响应向量的相位响应矩阵，U(q,θ)用于表征包括幅度响应向量的幅度响应矩阵，c _θ用于表征第一个元素为1且其他元素为0的列矩阵，ω用于表征频率表示，〇用于表征哈达玛积运算符，H用于表征共轭转置运算符。

当同心圆麦克风阵列中所有的麦克风均为全向麦克风时，同心圆麦克风阵列中各麦克风的指向性参数q均为1，公式（16）中的U(q=1,θ)变成大小为N×M的全1矩阵。此时同心圆麦克风阵列的波束形成器被简化为如下公式（19）所示：

语音识别方法

针对本申请实施例提供的方案在语音识别领域的应用场景，本申请实施例提供了一种语音识别方法，如图4所示，该语音识别方法包括如下步骤：

步骤401、获取同心圆麦克风阵列采集到的语音信号，其中，语音信号包括以下之一：会议语音数据、智能音箱控制语音数据和审讯语音数据。

在音视频会议、智能音箱、智能家电以及司法审讯等应用场景中，通过同心圆麦克风阵列采集语音信号，通过对语音信号进行波束形成，以实现降噪、声源分离、去混响等处理，进而基于波束形成获得的声音信号进行语音识别，提高语音识别的准确性。

同心圆麦克风阵列可以包括一个或多个环，每个环上均匀和非均匀地设置一个或多个麦克风。同心圆麦克风阵列可以仅包括一种类型的麦克风，比如同心圆麦克风阵列全部由全向麦克风、心形指向麦克风或双向麦克风构成，同心圆麦克风阵列还可以包括多种类型的麦克风，比如同心圆麦克风阵列由全向麦克风、心形指向麦克风和双向麦克风中的至少两种麦克风构成。同心圆麦克风阵列中同一环上的麦克风可以是同种类型的麦克风，也可以是不同种类型的麦克风。同心圆麦克风阵列可以设置在电子设备中，也可以布置在桌面或天花板上，对此本申请实施例不进行限定。

步骤402、根据同心圆麦克风阵列中每个麦克风的声学特征，对语音信号进行波束形成，获得待识别语音信号。

对语音信号进行波束形成获得待识别语音信号的具体过程，可参见上述各声音信号处理方法实施例中的描述，在此不再进行赘述。

步骤403、对待识别语音信号进行语音识别，获得识别结果。

在音视频会议的应用场景，对基于波束形成获得的声音信号进行语音识别后，可以将识别结果录入到关联的会议记录文件中。在智能音箱和智能家电的应用场景后，对基于波束形成获得的声音信号进行语音识别后，可以基于识别结果控制智能音箱和智能家电执行相应的反馈动作，比如播放天气预报、调节音量、播放歌曲、调节冰箱温度、展示菜单等。在司法审讯应用场景，可以对基于波束形成获得的声音信号作为证据进行存储，还可以对基于波束形成获得的声音信号进行语音识别后，基于识别结果生成笔录文件。

声音信号处理装置

对应于上述方法实施例，图5示出了一种声音信号处理装置的示意图，如图5所示，该声音信号处理装置包括：

获取单元501，用于获取同心圆麦克风阵列采集到的输入声音信号；

处理单元502，用于根据同心圆麦克风阵列中每个麦克风的声学特征，对输入声音信号进行波束形成，获得输出声音信号。

需要说明的是，本实施例的声音信号处理装置用于实现前述方法实施例中相应的声音信号处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

电子设备

图6是本申请实施例提供的一种电子设备的示意性框图，本申请具体实施例并不对电子设备的具体实现做限定。如图6所示，该电子设备可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。其中：

处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。

通信接口604，用于与其它电子设备或服务器进行通信。

处理器602，用于执行程序610，具体可以执行前述任一语音识别方法实施例中的相关步骤。

具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序610具体可以用于使得处理器602执行前述任一实施例中的声音信号处理方法。

程序610中各步骤的具体实现可以参见前述任一声音信号处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本申请实施例的电子设备，同心圆麦克风阵列中麦克风的声学特征会影响麦克风所采集到的声音信号，将同心圆麦克风阵列中每个麦克风的声学特征，作为对输入声音信号进行波束形成的依据，由于增加了对输入声音信号进行波束形成的依据，通过波束形成算法可以对更大频率范围内的声音信号进行优化，可以有效对输入声音信号中的低频噪声分量，从而可以提高对声音信号进行处理的效果。

计算机存储介质

本申请还提供了一种计算机可读存储介质，存储用于使一机器执行如本文所述的声音信号处理方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机（或CPU或MPU）读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本申请的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘（如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW）、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

计算机程序产品

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种声音信号处理方法，包括：

获取同心圆麦克风阵列采集到的输入声音信号；

根据所述同心圆麦克风阵列中每个麦克风的声学特征，对所述输入声音信号进行波束形成，获得输出声音信号。

2.根据权利要求1所述的声音信号处理方法，其中，所述声学特征通过所述同心圆麦克风阵列的幅度响应向量表征，其中，所述幅度响应向量用于在对所述输入声音信号进行波束形成的过程中调整所述输入声音信号的幅度。

3.根据权利要求2所述的声音信号处理方法，其中，所述幅度响应向量根据每个麦克风的指向性参数和方向参数中的至少一个获得，所述指向性参数用于指示麦克风的指向性，所述方向参数用于指示麦克风的指向性方向与所述同心圆麦克风阵列的径向方向的夹角。

4.根据权利要求3所述的声音信号处理方法，其中，所述幅度响应向量包括：

用于表征所述幅度响应向量，u _p (q _p ,θ)用于表征所述同心圆麦克风阵列中第p环上麦克风的响应向量，u _p (q _p ,θ)由所述第p环上麦克风的指向性参数和方向参数中的至少一个确定，P用于表征所述同心圆麦克风阵列所包括环的数量，1≤p≤P，T用于表征转置运算符。

5.根据权利要求4所述的声音信号处理方法，其中，所述同心圆麦克风阵列中第p环上麦克风的响应向量包括：

u _m,p用于表征所述同心圆麦克风阵列中第p环上第m麦克风的幅度响应，u _m,p由所述第p环上第m麦克风的所述指向性参数和方向参数中的至少一个确定，M _p用于表征所述第p环上麦克风的数量。

6.根据权利要求5所述的声音信号处理方法，其中，所述第p环上第m麦克风的幅度响应包括：

用于表征所述第p环上第m麦克风在所述第p环上的角位置，N用于表征所述同心圆麦克风阵列的差分阶数，q _i,p用于表征所述第p环上第m麦克风对应于第i阶的指向性参数，α _m,p用于表征所述第p环上第m麦克风的所述方向参数，θ用于表征所述输入声音信号的声源的期望方向。

7.根据权利要求2-6中任一所述的声音信号处理方法，其中，所述根据所述同心圆麦克风阵列中每个麦克风的声学特征，对所述输入声音信号进行波束形成，获得输出声音信号，包括：

根据所述同心圆麦克风阵列的相位响应向量和所述幅度响应向量，对所述输入声音信号进行波束形成，获得输出声音信号，其中，所述相位响应向量用于在对所述输入声音信号进行波束形成的过程中调整所述输入声音信号的相位。

8.根据权利要求7所述的声音信号处理方法，其中，所述根据所述同心圆麦克风阵列的相位响应向量和所述幅度响应向量，对所述输入声音信号进行波束形成，获得输出声音信号，包括：

获取所述输入声音信号的频率表示；

将所述频率表示输入包括所述相位响应向量和所述幅度响应向量的波束形成器，获得所述波束形成器输出的频域估计值；

根据所述频域估计值生成所述输出声音信号。

9.根据权利要求8所述的声音信号处理方法，其中，所述波束形成器包括：

h _ccddma (ω)用于表征所述波束形成器输出的频域估计值，A(ω,θ)用于表征包括所述相位响应向量的相位响应矩阵，U(q,θ)用于表征包括所述幅度响应向量的幅度响应矩阵，c _θ用于表征第一个元素为1且其他元素为0的列矩阵，ω用于表征所述频率表示，〇用于表征哈达玛积运算符，H用于表征共轭转置运算符。

10.根据权利要求9所述的声音信号处理方法，其中，所述幅度响应矩阵包括：

U(q,θ)用于表征所述幅度响应矩阵，

用于表征所述幅度响应向量，θ用于表征声源的期望方向，Δθ ₁至Δθ ₂用于表征预设的与所述期望方向的角间距，N用于表征所述同心圆麦克风阵列的阶数。

11.一种语音识别方法，包括：

获取同心圆麦克风阵列采集到的语音信号，其中，所述语音信号包括以下之一：会议语音数据、智能音箱控制语音数据和审讯语音数据；

根据所述同心圆麦克风阵列中每个麦克风的声学特征，对所述语音信号进行波束形成，获得待识别语音信号；

对所述待识别语音信号进行语音识别，获得识别结果。

12.一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如权利要求1-10中任一项的声音信号处理方法对应的操作或如权利要求11所述的语音识别方法对应的操作。

13.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-10中任一的声音信号处理方法或如权利要求11所述的语音识别方法。

14.一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-10中任一的声音信号处理方法对应的操作。