CN110600051B

CN110600051B - 用于选择麦克风阵列的输出波束的方法

Info

Publication number: CN110600051B
Application number: CN201911097476.0A
Authority: CN
Inventors: 赵杨
Original assignee: Espressif Systems Shanghai Co Ltd
Current assignee: Espressif Systems Shanghai Co Ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-03-31
Anticipated expiration: 2039-11-12
Also published as: WO2021093798A1; CN110600051A; US20220399028A1

Abstract

用于选择麦克风阵列的输出波束的方法，包括：（a）从包括多个麦克风的麦克风阵列接收多个声音信号，对其进行波束成形以得到多个波束及对应的波束输出信号；（b）对各波束执行下述操作：将当前波束的波束输出信号从时域转换至频域，以得出当前波束的频谱向量和功率谱向量；基于该频谱向量和功率谱向量，计算当前波束的综合语音信号能量，其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积，综合能量指示当前波束的波束输出信号的能量水平，综合语音存在概率指示当前波束的波束输出信号中存在语音的概率，且综合语音存在概率和综合能量为标量；及（c）选取综合语音信号能量值最大的波束作为输出波束。

Description

用于选择麦克风阵列的输出波束的方法

技术领域

本发明涉及麦克风阵列的输出波束选择，具体涉及一种基于语音存在概率的麦克风阵列输出波束选择方法。

背景技术

麦克风阵列可以进行多个方向的波束成形，但是，由于输出端硬件资源或应用场景的限制，通常只允许选择某一个方向上的波束作为输出信号。麦克风阵列的输出波束选择本质上是对语音信号来源方向的估计。正确判断语音信号的方向，可以最大化波束成形算法的应用效果；反之，选择非最优的波束作为输出将会大大降低波束成形算法对噪声的抑制效果。因此，在实践中，输出波束选择机制作为波束成形算法的后继环节，对使用麦克风阵列的语音信号处理系统的研究与开发具有非常重要的意义。

发明人注意到，虽然现有技术中已尝试提出不同的麦克风阵列输出波束选择方法，但这些现有方法至少还存在以下不足：

1）依赖于预先存储的说话人信息或依赖于在识别波达方向之前进行唤醒词识别；

2）难以同时应对音量较大的噪声干扰和小音量非稳定信号干扰；以及

3）未针对物联网微控制单元（MCU）等资源受限设备或应用场景进行充分优化以降低计算复杂度。

例如，中国专利CN103888861B号公开了一种麦克风阵列指向性调节方法，其中该方法首先接收语音信息，并根据所述语音信息判断预讲话人的信息，根据判断结果，确定所述预讲话人所在的方向。该方法需要预先存储说话人的身份信息，而对未存储的说话人无法进行波束指向调节。

又如，中国专利申请公开CN109119092A号公开了一种基于麦克风阵列的波束指向切换方法，其中该方法只利用了各麦克风之间的相位延时信息和各波束的能量信息，无法区分人声和非人声信号，因而容易被音量较大的噪声干扰。

再如，中国专利申请公开CN109473118A号公开了一种双通道语音增强方法，其中仅根据目标波束中待增强声音的存在概率对所述目标波束进行增强，并基于各波束相互之间语音存在概率的比值进行波束选择。在实践中，该方法存在容易受到小音量非稳定信号干扰的缺点。

另如，中国专利申请公开CN108899044A号公开了一种语音信号处理方法，其中利用唤醒词存在概率确定语音信号与内容的关联性，具体包括先将语音信号输入至唤醒引擎中，并获取唤醒引擎输出的语音信号置信度，然后再计算语音存在概率并计算原始输入信号的波达方向。然而，在能够对波达方向进行判断之前，该方法依赖于唤醒引擎计算得到特定字词或语句的存在概率，这需要依赖语音识别技术实现，因此只能应用于带有唤醒功能的语音信号处理系统。另外，该方法所要求的唤醒词存在概率计算以及向量运算，增加了该方法的计算复杂度，不利于在例如物联网微控制单元（MCU）等资源受限设备上实施。

综上，现有技术中需要一种用于选择麦克风阵列的输出波束的方法，以解决现有技术中存在的上述问题。应理解，上述所列举的技术问题仅作为示例而非对本发明的限制，本发明并不限于同时解决上述所有技术问题的技术方案。本发明的技术方案可以实施为解决上述或其他技术问题中的一个或多个。

发明内容

针对上述问题，本发明的目的在于提供一种用于选择麦克风阵列的输出波束的方法，其不依赖于预先存储的说话人信息、不需要在识别波达方向之前进行唤醒词识别、能够减轻音量较大的噪声干扰和小音量非稳定信号干扰两者，以及具有降低的计算复杂度。

在本发明的一方面，提供一种用于选择麦克风阵列的输出波束的方法，所述方法包括下述步骤：（a）从包括多个麦克风的麦克风阵列接收多个声音信号，对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号；（b）对于所述多个波束中的每个波束，执行下述操作：将当前波束的波束输出信号从时域转换至频域，以得出当前波束的频谱向量和功率谱向量；基于当前波束的频谱向量和功率谱向量，计算当前波束的综合语音信号能量，其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积，其中所述综合能量指示当前波束的波束输出信号的能量水平，所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率，且所述综合语音存在概率和所述综合能量为标量；以及（c）选取综合语音信号能量值最大的波束作为输出波束。

可选地，所述频谱向量是对当前波束的波束输出信号进行短时傅里叶变换或短时离散余弦变换得出的。

可选地，在步骤（b）中，在得出当前波束的频谱向量和功率谱向量之后，根据下述公式用频谱向量更新功率谱向量：

，

其中：t表示帧索引；f表示频点；

为当前波束的功率谱向量在第t-1帧在频点f处的元素对应的功率谱；

为当前波束的功率谱向量在第t帧上在频点f处的元素对应的功率谱；α ₁为大于0且小于1的参数；以及

为当前波束的频谱向量在第t帧上在频点f处的元素对应的频谱。

优选地，α ₁大于等于0.9且小于等于0.99。

可选地，在步骤（b）中，在基于当前波束的频谱向量和功率谱向量，计算当前波束的综合语音信号能量之前，确定当前波束的功率谱向量中的每个元素对应的局部能量最低值。

可选地，确定当前波束的功率谱向量中的每个元素对应的局部能量最低值包括：维护两个长度与频谱向量相同且初始值为零的向量S _b,min和S _b,tmp；

对向量S _b,min和S _b,tmp的每个元素，按下述公式进行更新：

其中：t表示帧索引；f表示频点；

表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量最低值；

表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量最低值；

表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的功率谱；

表示当前波束的功率向量谱的元素在第t帧上在频点f处对应的局部能量临时最低值；

表示当前波束的功率向量谱的元素在第t-1帧上在频点f处对应的局部能量临时最低值；且

每当L个元素按上述公式进行更新之后，按下述方式对向量S _b,min和S _b,tmp进行重置：

；

在对向量S _b,min和S _b,tmp的每个元素进行更新之后，得出当前波束的功率谱向量中的每个元素对应的局部能量最低值。

优选地，所述L设置为使得L帧信号包含200毫秒至500毫秒的信号。

可选地，所述综合能量是按照下述步骤得出的：对所述功率谱向量的所有元素求平均值以作为所述综合能量。

可选地，对所述功率谱向量的所有元素求平均值以作为所述综合能量包括：

对所述功率谱向量的所有元素进行加权平均以作为所述综合能量，其中对于所述功率谱向量中的每个元素，若该元素对应的频点位于0至5kHz范围内，则对该元素赋予权重1，否则赋予权重0。

可选地，所述综合语音存在概率是按照下述步骤得出的：对于当前波束的信号功率谱向量中的每个元素，根据语音存在概率模型，计算对应于信号功率谱向量中的每个元素的语音存在概率，以生成当前波束的语音存在概率向量；以及执行下述步骤以更新当前波束的语音存在概率向量的每个元素：

其中：t表示帧索引；f表示频点；

为当前波束的语音存在概率向量；

为当前波束的语音存在概率向量在第t-1帧上在频点f处的元素对应的语音存在概率；

为当前波束的语音存在概率向量在第t帧上在频点f处的元素对应的语音存在概率；α ₂为大于0且小于1的参数；以及

函数

的取值是

；

为当前波束的功率谱向量的元素对应的功率谱；

为当前波束的功率谱向量的元素对应的局部能量最低值；

为用于判定当前帧是否带有语音信号的阈值；

对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率。

优选地，α ₂大于等于0.8且小于等于0.99。

可选地，对所述语音存在概率向量的所有元素求平均值以作为所述综合语音存在概率包括：对所述语音存在概率向量的所有元素进行加权平均以作为所述综合语音存在概率，其中对于所述语音存在概率向量中的每个元素，若该元素对应的频点位于0至5 kHz范围内，则对该元素赋予权重1，否则赋予权重0。

优选地，在步骤（b）中，在计算出当前波束的综合语音信号能量之后，按照下述操作对当前波束的综合语音信号能量进行更新：

，

其中：

为当前波束在第t-1帧上的综合语音信号能量；

为当前波束在第t帧上的综合语音信号能量；

函数

代表当前帧的语音信号能量，其取值为：

，

其中δ ₂为用于决定是否将函数

的值置零的阈值。

优选地，α ₃大于等于0.8且小于等于0.99。

本发明的方案计算每个波束的综合语音信号能量，以据此选择麦克风阵列的输出波束。特别是，该综合语音信号能量充分考虑到波束的综合能量以及综合语音存在概率，通过波束能量与语音存在概率两者进行波束选择，既不需要预先获取说话人信息，也克服了非人声的噪声干扰，同时也不需要在识别波达方向之前进行任何语音识别。此外，该综合语音信号能量为标量的乘积，减少了向量计算，降低了计算复杂度。

应理解，上述对背景技术以及发明内容概要的描述仅仅是示意性的而非限制性的。

附图说明

图1是根据本发明的用于选择麦克风阵列的输出波束的方法的一个示例实施例的示意性流程图；

图2是根据本发明的用于选择麦克风阵列的输出波束的方法的一个详细示例实施例的示意性流程图；及

图3是在根据本发明的用于选择麦克风阵列的输出波束的方法的一个实施例中，更新局部能量最低值估计的示意性流程图。

具体实施方式

在下文中将参考附图更全面地描述本发明，附图构成本发明公开的一部分并通过图示的方式示出示例性的实施例。应理解，附图所示以及下文所述的实施例仅仅是说明性的，而不作为对本发明的限制。

图1是根据本发明的用于选择麦克风阵列的输出波束的方法的一个示例实施例的示意性流程图。

图1所示方法100包括：（a）如步骤102所示，从包括多个麦克风的麦克风阵列接收多个声音信号，对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号。

该方法100还包括：（b）如步骤104至108所示，对于所述多个波束中的每个波束，执行下述操作：将当前波束的波束输出信号从时域转换至频域，以得出当前波束的频谱向量和功率谱向量（步骤104）；基于当前波束的频谱向量和功率谱向量，计算当前波束的综合语音信号能量（步骤106），其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积，其中所述综合能量指示当前波束的波束输出信号的能量水平，所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率，且所述综合语音存在概率和所述综合能量为标量。

该方法还包括：（c）如步骤110所示，选取综合语音信号能量值最大的波束作为输出波束。

图2是根据本发明的用于选择麦克风阵列的输出波束的方法的一个详细示例实施例的示意性流程图。

方法200开始于步骤202，在其中将波束成形算法输出的波束变换到STFT域，并用频谱信息更新各个波束的功率谱向量。具体地，假设波束成形算法输出B个波束，分别被变换到F点的短时傅里叶变换（STFT，Short-Time Fourier Transform）域中，则第b个波束（b= 1, 2, …, B）的输出信号可在STFT域中表示为F维频谱向量Y _b，向量Y _b的第f个元素Y _b(f)表示该信号在频点f处的频谱信息。对向量Y _b的各频点取模，并与功率谱向量S _b加权相加，根据下述公式更新后者：

其中自变量t表示时间（即帧索引），如S _b(f,t-1)和S _b(f,t)分别表示S _b在第t-1帧和第t帧在频点f处的值，下文中S _b,min和S _b,tmp等变量也采用这种表示方法。参数α ₁介于0和1之间，取值越大，功率谱的更新程度越小，从而可以更好地抵抗瞬态噪声的影响，但更容易与真实的当前的瞬时能量值失配，优选的取值为0.9到0.99。向量Y _b在频率f上的模，|Y _b(f)|²，代表当前帧（即第t帧，下同）信号在频率f上的功率谱；通过用|Y _b(f)|²更新S _b(f)，后者仍表示与前者相同的物理意义（信号能量），但由于是平滑地更新的，可以更好地抵抗瞬态噪声的影响。后面的步骤优选地可以用更新后的功率谱向量进行计算，从而使系统相对稳定。

在步骤204，更新当前波束的局部能量最低值S _b,min的估计。例如，可根据图3所示的方法300，更新局部能量最低值估计。应理解，虽然图3示出了一种具体的方法，但本发明的实施并不限于此。例如，可以采用马丁·R的《基于最小统计的谱减法》（Martin, R.:Spectral subtraction based on minimum statistics. 1994, Proceedings of 7 ^th EUSIPCO, 1182-1185）或该方法的变体来更新当前波束的局部能量最低值S _b,min的估计。

在步骤302，维护两个长度为F的向量S _b,min和S _b,tmp（其初始值均为0，即对所有f，有S _b,min(f,0)=S _b,tmp(f,0)=0）。

在步骤304，判断当前波束的功率谱向量

中是否存在下一元素。如果是，则进入步骤306；如果否，则表明当前波束的功率谱向量的每个元素已处理完毕，进入步骤312，得出每个元素对应的局部能量最低值。

在步骤306，对各频点对应的当前元素按如下方式进行更新，

在步骤308，判断是否已处理L帧信号，即，判断t是否是L的倍数。每当L帧信号被处理之后，在步骤310，按照如下方式对S _b,min和S _b,tmp进行重置，

；

其中向量S _b,min是局部（L帧信号）的最小值。由于在任何时刻，信号一定是噪声或者噪声和语音的累加，因此，可近似地认为S _b,min代表噪声能量的强度。这种方法本质上是基于语音信号是非稳定信号、而噪声是稳定信号这一假设的，L的取值越小，对噪声的稳定性要求越低，但噪声信号和语音信号之间的区分度越小；该参数取值也和每帧信号的长度设定有关。在本发明的优选实施例中，大致应使得L帧信号约包含200毫秒到500毫秒之间的信号。

回到图2，在步骤206，更新当前波束的各频点上的语音存在概率。具体地，可以将各频点上语音信号存在的概率用向量p _b表示，并按照如下方式进行更新，

其中参数α ₂介于0和1之间，推荐设置为0.8到0.99；

函数I(b, f)的取值是

；

其中参数δ ₁代表用于判定当前帧是否带有语音信号的阈值。

应理解，步骤206可以采用科恩·I和伯杜戈·B的《采用最小统计控制递归平均的噪声估计进行鲁棒语音增强》（ Cohen, I. and Berdugo, B.: Noise estimation byminima controlled recursive averaging for robust speech enhancement. 2002,IEEE Signal Processing Letters, 9(1): 12-15）或其变体来执行，也可以用其它语音信号概率估计的算法来替代。类似地，需要该算法的输入为信号功率谱S _b，输出为0到1之间的语音概率p _b。

在步骤208中，对语音存在概率向量进行加权平均，得出当前波束的综合语音概率。具体地，对向量p _b做加权平均。对位于0-5kHz范围内的频点赋予权重1，否则赋予权重0，得到波束b的综合语音存在概率q _b。之后的步骤中会使用标量q _b而不是向量p _b进行计算，会使计算得到简化；同时，由于人声频率几乎不可能超过5kHz，可认为舍弃高于该频率的信号不会影响最终结果。

步骤210中，对功率谱向量进行加权平均，得出当前波束的综合能量。类似地，对向量S _b做同样的加权平均，得到波束b的综合能量e _b。具体地，对向量S _b做加权平均。对位于0-5kHz范围内的频点赋予权重1，否则赋予权重0。

在步骤212中，计算当前波束的综合语音信号能量。定义d _b为波束b的语音信号能量，其初始值为0（即d _b(0)=0），在每一帧按照如下方式进行更新：

参数α ₃介于0和1之间，推荐设置为0.8到0.99，函数J(b)代表当前帧的语音信号能量，其取值是

，

其中参数δ ₂代表用于决定是否将函数值置0的阈值。

步骤214，判断是否存在下一波束。如果是，则返回步骤204，对下一波束执行步骤204-212；如果否，则进入步骤218。

在步骤218中，确定综合语音信号能量最大的波束，作为输出波束。具体地，取综合语音信号能量集合{d _b}（b = 1, 2, …, B）中的最大值所对应的波束b，作为输出波束。

以上实施例以示例的方式给出了具体操作过程，但应理解，本发明的保护范围不限于此。

虽然出于本公开的目的已经描述了本发明各方面的各种实施例，但是不应理解为将本公开的教导限制于这些实施例。在一个具体实施例中公开的特征并不限于该实施例，而是可以和不同实施例中公开的特征进行组合。此外，应理解，上文所述方法步骤可以顺序执行、并行执行、合并为更少步骤、拆分为更多步骤，以不同于所述方式组合和/或省略。本领域技术人员应理解，还存在可能的更多可选实施方式和变型，可以对上述部件和构造进行各种改变和修改，而不脱离由本发明权利要求所限定的范围。

Claims

1.一种用于选择麦克风阵列的输出波束的方法，所述方法包括下述步骤：

（a）从包括多个麦克风的麦克风阵列接收多个声音信号，对所述多个声音信号进行波束成形以得到多个波束以及对应的波束输出信号；

（b）对于所述多个波束中的每个波束，执行下述操作：

将当前波束的波束输出信号从时域转换至频域，以得出当前波束的频谱向量和功率谱向量；

基于当前波束的频谱向量和功率谱向量，计算当前波束的综合语音信号能量，其中综合语音信号能量为当前波束的综合能量和综合语音存在概率的乘积，其中所述综合能量指示当前波束的波束输出信号的能量水平，所述综合语音存在概率指示当前波束的波束输出信号中存在语音的概率，且所述综合语音存在概率和所述综合能量为标量；以及

（c）选取综合语音信号能量值最大的波束作为输出波束。

2.根据权利要求1所述的方法，其特征在于，所述频谱向量是对当前波束的波束输出信号进行短时傅里叶变换或短时离散余弦变换得出的。

3.根据权利要求1所述的方法，其特征在于，在步骤（b）中，在得出当前波束的频谱向量和功率谱向量之后，根据下述公式用频谱向量更新功率谱向量：