CN106340305B

CN106340305B - 自校准的远场语音交互设备及远场语音自校准方法

Info

Publication number: CN106340305B
Application number: CN201610974245.3A
Authority: CN
Inventors: 陈日林; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2016-11-04
Filing date: 2016-11-04
Publication date: 2024-03-19
Anticipated expiration: 2036-11-04
Also published as: CN106340305A

Abstract

本发明提供了一种自校准的远场语音交互设备及远场语音自校准方法，麦克风阵列采集远场语音信号，自校准和语音识别终端对由麦克风通道增益和信号传播衰减引起的误差进行校准，得到增强语音输出。本发明利用通道增益校准的方式，保证各个麦克风通道相对增益一致，提高了后端GSC的性能；采用语音段作为校准声源，后续处理保证语音损伤较小，有利于目标信号的消除和噪声干扰信号的保留；还可以自动判断麦克风工作状态，能够保证在麦克风损坏情况下，设备仍然能够正常工作，提高了设备的稳健性。

Description

自校准的远场语音交互设备及远场语音自校准方法

技术领域

本发明总体上涉及语音处理技术领域，尤其涉及自校准的远场语音交互设备及远场语音自校准方法。

背景技术

麦克风阵列技术近几十年来受到了研究者的广泛关注，特别是最近几年来

受到人工智能繁荣发展的驱动，远场语音识别技术得到更大的关注，对作为远场语音识别前端的麦克风阵列技术提出了更大的要求。目前针对远场语音识别的主要方法包括MVDR(Minimum Variance Distortionless Response，最小方差无畸变响应)和多通道维纳滤波方法，不管哪一种方法都是进行了远场假设，通常认为通道到达每个麦克风的幅度一致，只是声波到达时间不同，但实际中通常不同通道麦克风增益不同，同时由于距离衰减等因素造成幅度差异，因此需要对麦克风增益及信号幅度衰减进行补偿，才能保证算法性能。同时上述算法都需要明确麦克风的准确位置，大量方法与研究也是基于麦克风准确位置设计的，并且所有麦克风都能正常工作，极端情况下，一旦麦克风无法正常录音工作，将导致算法性能急剧下降，在实际产品应用中，麦克风位置通常是已知的，但在使用过程中很难保证其中的某个麦克风发生问题，无法正常录音，这种情形下需要剔除问题麦克风，此时原有的麦克风位置信息需要更新，为保证阵列算法仍然能够正常工作，此时需要校准确定正常麦克风阵列构成的新麦克风阵列及其相关信息。

现有技术对麦克风信号的校准，通常采用大型校准设备在专用的实验室内完成，非常费时费力，并不适用于消费电子。例如，现有技术一(CN200810213962，一种麦克风阵列及麦克风阵列校准的方法和模块)采用静默期的背景噪声作为校准声源，计算不同通道的增益，调整不同通道到相同增益。该技术方案采用静默期的相干性较低的背景噪声作为校准声源，麦克风接收信号的信噪比较低，校准误差较大，同时只考虑麦克风自身的增益，没有考虑传播衰减等造成的幅度误差，特别对于远场情形下，各麦克风的语音信号之间仍然存在较大幅度误差，不适合于麦克风阵列信号处理。

现有技术二“Robust speech recognition using beamforming with adaptivemicrophone gains and multichannel noise reduction”采用语音段信号作为校准声源，计算不同通道的增益。该技术方案一方面在增益计算中没有剔出噪声的影响，噪声增益计算不准确，另一方面对于极端情况，即麦克风损坏无法正常工作的情形下，针对麦克风阵列没有提出解决方案。

发明内容

(一)要解决的技术问题

本发明提供了一种自校准的远场语音交互设备及远场语音自校准方法。

(二)技术方案

本发明提供了一种自校准的远场语音交互设备，包括：麦克风阵列与自校准和语音识别终端，所述麦克风阵列与所述自校准和语音识别终端电性连接；所述麦克风阵列采集远场语音信号，并将所述远场语音信号传输至所述自校准和语音识别终端，其中，所述远场语音信号包含由麦克风通道增益和信号传播衰减引起的误差；所述自校准和语音识别终端对所述误差进行校准，得到增强语音输出。

本发明还提供了一种远场语音交互设备的自校准方法，包括：采集步骤：采集远场语音信号；校准步骤：对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准；处理步骤：对校准后的远场语音信号进行处理，得到增强语音输出。

(三)有益效果

从上述技术方案可以看出，本发明的自校准的远场语音交互设备及远场语音自校准方法具有以下有益效果：

(1)利用通道增益校准的方式，保证各个麦克风通道相对增益一致，使得进入GSC的各个通道期望目标信号幅度一致，提高了后端GSC的性能；

(2)采用语音段作为校准声源，不仅有利于固定波束形成，同时对于阻塞矩阵模块，当语音段幅度保持一致时，阻塞矩阵模块处理后残留的语音段较少，后续处理保证语音损伤较小，有利于目标信号消除，而保留噪声或者干扰信号；

(3)还可以自动判断麦克风工作状态，能够保证在麦克风损坏情况下，设备仍然能够正常工作，提高了设备的稳健性。

附图说明

为了更完整地理解本发明及其优势，现在将参考结合附图的以下描述，其中：

图1为本发明实施例的自校准的远场语音交互设备的整体结构图；

图2为本发明实施例的自校准的远场语音交互设备的结构示意图；

图3为本发明另一实施例的自校准的远场语音交互设备的结构示意图；

图4为本发明又一实施例的自校准的远场语音交互设备的结构示意图；

图5为本发明再一实施例的自校准的远场语音交互设备的整体结构图；

图6为本发明实施例的远场语音自校准方法的流程图。

【符号说明】

10-麦克风阵列；

20-自校准和语音识别终端；

21-语音活动检测模块；22-相对增益计算模块；23-增益校准模块；24-固定波束形成参数校准模块；25-信噪比计算模块；

31-固定波束形成模块；32-阻塞矩阵模块；33-自适应噪声抵消模块；34-增强语音输出；

35-语音段判定模块；

40-控制端。

具体实施方式

根据结合附图对本发明示例性实施例的以下详细描述，本发明的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。

在本发明中，术语“包括”和“含有”及其派生词意为包括而非限制；术语“或”是包含性的，意为和/或。

在本说明书中，下述用于描述本发明原理的各种实施例只是说明，不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解，但这些细节应认为仅仅是示例性的。因此，本领域普通技术人员应认识到，在不背离本发明的范围和精神的情况下，可以对本文中描述的实施例进行多种改变和修改。此外，为了清楚和简洁起见，省略了公知功能和结构的描述。此外，贯穿附图，相同参考数字用于相似功能和操作。

语音信号的校准，目标包含麦克风自身增益差异和由传播衰减等造成的幅度衰减构成的误差，这些误差将造成远场语音增强性能下降。极端情况下，麦克风的损坏将使得远场语音增强完全失效。因此，本发明不但对麦克风的误差进行校准，同时也对麦克风阵列进行校准，使得远场语音增强在某个麦克风损坏情形下仍然能够正常工作。

本发明实施例的一种远场语音交互设备，参见图1，其带有自校准功能，该远场语音交互设备包括：麦克风阵列10、与自校准和语音识别终端20，麦克风阵列10与自校准和语音识别终端20电性连接。

自校准和语音识别终端20包括：自校准模块和广义旁瓣对消器(GSC，GeneralSidelobe Cancellation)，麦克风阵列10连接自校准模块，自校准模块连接GSC，其中，

麦克风阵列10采集远场语音信号，并将远场语音信号传输至自校准模块，自校准模块对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准，并且检测麦克风阵列的工作状态，校准固定波束形成(FBF，Fixed Beamforming)参数，校准后的远场语音信号传输至GSC，GSC利用校准后的FBF参数对校准后的远场语音信号进行处理，得到增强语音输出34。

麦克风阵列10是由多个麦克风组成的封闭式阵列，在图1中，麦克风阵列包括4个麦克风(mic1、mic2、mic3、mic4)，但麦克风的数量可以根据需要设置，例如大于等于5个，麦克风阵列的形状可以是矩形、圆形、椭圆形等。麦克风阵列的各个麦克风用于采集原始的远场语音信号，由于各个麦克风的通道增益有所差异，使得远场语音信号经过麦克风阵列10后，各个麦克风输出的远场语音信号之间存在幅度差异；另外由于远场语音信号是由音源传播到麦克风阵列10的，由于远场语音信号在传播过程中存在衰减，到达各个麦克风的远场语音信号之间也会存在由传播衰减引起的幅度差异。同时，麦克风阵列10也可能存在损坏的麦克风，麦克风无法正常工作的情况，如果不能及时检测并更新FBF参数，也将会影响语音增强的效果。上述由麦克风通道增益和信号传播衰减引起的幅度差异、以及FBF参数将由自校准模块进行校准。

自校准和语音识别终端20可以采用计算机、服务器等具有数据处理能力的设备。参见图2，自校准模块包括：语音活动检测(VAD)模块21、相对增益计算模块22、增益校准模块23和固定波束形成参数校准模块24。

其中，VAD模块21从麦克风阵列10中选取一个麦克风通道作为参考通道，利用该参考通道对远场语音信号进行检测，提取远场语音信号中的语音段，采用语音段作为校准声源进行后续的校准。

相对增益计算模块22利用语音段计算麦克风阵列10中的其他麦克风通道相对于参考通道的相对增益。

增益校准模块23根据相对增益，将其他麦克风通道的语音段调整到参考通道的增益水平，从而消除麦克风通道增益和信号传播衰减引起的幅度差异，得到校准后的远场语音信号。

FBF参数校准模块24根据相对增益，检测无法正常工作的麦克风，据此更新FBF参数，得到校准后的FBF参数。

其中，VAD模块21可以选取麦克风阵列10中的任一个麦克风作为参考通道，以下以4个麦克风通道为例，说明如何计算相对增益和校准远场语音信号。

4个麦克风通道的语音段当前帧信号分别为s₁(t)，s₂(t)，s₃(t)，s₄(t)，其频域信号分别为S₁(jω)，S₂(jω)，S₃(jω)，S₄(jω)，选择第1个麦克风通道作为参考通道。

通过下述滤波器计算其他3个通道的相对增益，滤波器如下：

其中，μ是一限制系数，其限制了相对增益的最小值，保证相对增益不过大；α是一阶平滑因子，n(n＝2，3，4…)为信号帧序号，P_xx、P_xy分别为帧信号的自功率谱和互功率谱；表示二阶范数，P_nn为噪声功率谱，可以参考现有的各种不同的方法计算获得，其中P_xx(jω，1)、P_xy(jω，1)的初值可以设定为第一帧语音的功率谱及互功率普。

因此校准后的各个麦克风通道的远场语音信号为：

虽然以上以4个麦克风通道为例，说明如何计算相对增益和校准远场语音信号，但显然上述方式同样适用于2个、3个或大于等于5个麦克风组成的麦克风阵列。

FBF参数校准模块24根据各个通道的相对增益判断是否存在无法正常工作的麦克风，具体包括：

如果各个麦克风通道的相对增益接近，且均大于一相对增益阈值，则判断参考通道对应的麦克风为无法正常工作的麦克风；

如果某个麦克风通道的相对增益与其他麦克风通道的相对增益相差较大，且该麦克风通道的相对增益小于一相对增益阈值，则判断该麦克风通道对应的麦克风无法正常工作；

如果各个麦克风通道的相对增益接近，且均小于一相对增益阈值，则判断所有麦克风均正常工作。

FBF参数校准模块24根据上述判断结果，更新FBF参数，包括麦克风位置信息、麦克风阵列加权以及其他与阵列相关的信息(如果判断所有麦克风均正常工作，则无需更新FBF参数)，并将校准后的FBF参数发送给GSC。

在本发明中，不仅可以利用相对增益检测麦克风的工作状态，同时可以采用其他的判断方式，例如能量法等，或者多种方法联合判定，从而提高检测的准确性。

GSC采用标准的广义旁瓣对消器，包括固定波束形成(FBF)模块31、阻塞矩阵(BM，Block Matrix)模块32、自适应噪声抵消模块33。

校准后的远场语音信号分别进入FBF模块31和BM模块32，FBF模块31利用校准后的FBF参数对校准后的远场语音信号进行处理，生成语音参考信号，BM模块32对校准后的远场语音信号进行处理，生成噪声参考信号，语音参考信号与经过自适应噪声抵消模块的噪声参考信号求差，得到增强语音输出34。

其中，本发明的GSC还包括一除法器和语音段判定模块35，利用除法器得到语音参考信号与噪声参考信号的比值，并将比值反馈至语音段判定模块35，语音段判定模块35根据该比值提取远场语音信号中的语音段，具体来说，当该比值小于一阈值时认为该段信号为噪声或干扰，而大于该阈值时认为该段信号为语音段。

由此可见，本发明的远场语音交互设备，利用通道增益校准的方式，保证各个麦克风通道相对增益一致，使得进入GSC的各个通道期望目标信号幅度一致，提高了后端GSC的性能。同时，采用语音段作为校准声源，不仅有利于固定波束形成，同时对于阻塞矩阵模块，当语音段幅度保持一致时，阻塞矩阵模块处理后残留的语音段较少，后续处理保证语音损伤较小，有利于目标信号消除，而保留噪声或者干扰信号。并且还可以自动判断麦克风工作状态，能够保证在麦克风损坏情况下，设备仍然能够正常工作，提高了设备的稳健性。

本发明另一个实施例的远场语音交互设备，参见图3，其与上述实施例的远场语音交互设备的结构和功能基本相同，不同之处在于，校准后的远场语音信号仅传输至BM模块32而不传输至FBF模块31，麦克风阵列10采集的远场语音信号直接传输给FBF模块31，FBF模块31利用校准后的FBF参数对麦克风阵列10采集的远场语音信号进行处理，生成语音参考信号，并与经过自适应噪声抵消模块的噪声参考信号求差，得到增强语音输出34。

本发明又一个实施例的远场语音交互设备，参见图4，其与上述实施例的远场语音交互设备的结构和功能基本相同，不同之处在于，自校准模块还包括一信噪比计算模块25，其计算各个麦克风通道的远场语音信号的信噪比，并将麦克风阵列10采集的远场语音信号发送给FBF模块31，FBF参数校准模块24根据信噪比更新FBF参数，并将校准后的FBF参数发送给FBF模块31，FBF模块31利用校准后的FBF参数对麦克风阵列10采集的远场语音信号进行处理，生成语音参考信号，并与经过自适应噪声抵消模块的噪声参考信号求差，得到增强语音输出34。

本发明上述两个实施例的远场语音交互设备同样可以提高后端GSC的性能，保证后续处理的语音损伤较小，提高设备的稳健性。

由于麦克风出现无法正常工作的故障属于较为极端的情况，因此，FBF参数校准模块24可以只在远场语音交互设备开机时启动并工作，完成麦克风阵列检测以及FBF参数更新后即可关闭，即只在远场语音交互设备开机时进行麦克风阵列的检测以及更新FBF参数，而不必在设备运行过程中实时进行，以节省运算资源，降低设备功耗。

另外，本发明还可以通过远程控制来进行麦克风阵列的检测，参见图5，远场语音交互设备还可以包括一控制端40，自校准和语音识别终端20还可以包括一控制模块。

控制端40可以是手机，其与控制模块无线连接，控制端与控制模块可以通过例如Wi-Fi或蓝牙等无线协议通信。当需要进行麦克风阵列检测时，用户可以通过控制端40的特定应用程序向自校准和语音识别终端20发送控制信号，自校准和语音识别终端的控制模块接收到控制信号后，控制FBF参数校准模块24启动并工作，进行麦克风阵列检测以及FBF参数更新。或者，用户可以通过控制端40的特定应用程序设定麦克风阵列的检测周期，例如每天或者每周进行一次麦克风阵列检测，并将检测周期发送至控制模块，当到达检测时间时，控制模块控制FBF参数校准模块24启动并工作，进行麦克风阵列检测以及FBF参数更新。

除此之外，还可以在麦克风上设置实体按键或者触摸键，当需要进行麦克风阵列检测时，用户可以手动按压麦克风上的按键以产生一触发信号，控制模块接收到触发信号后，控制FBF参数校准模块24启动并工作，进行麦克风阵列检测以及FBF参数更新。

由此可见，本发明可以通过多种方式启动麦克风阵列检测和FBF参数更新，方便灵活，便于用户操作。

本发明再一个实施例还提供了一种远场语音交互设备的自校准方法，参见图6，其利用上述远场语音交互设备进行自校准，包括：

利用麦克风阵列10采集远场语音信号，并将远场语音信号传输至自校准模块；

利用自校准模块对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准，并且检测麦克风阵列10的工作状态，校准FBF参数；

校准后的远场语音信号传输至GSC，GSC利用校准后的FBF参数对校准后的远场语音信号进行处理，得到增强语音输出34。

其中，在该自校准方法中，GSC还可以利用校准后的FBF参数对麦克风阵列10采集远场语音信号进行处理，得到增强语音输出34。

在该自校准方法中，根据各个通道的相对增益或远场语音信号的信噪比来检测麦克风阵列10的工作状态，校准FBF参数。

至此，已经结合附图对本实施例进行了详细描述。依据以上描述，本领域技术人员应当对本发明的自校准的远场语音交互设备及远场语音自校准方法有了清楚的认识。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换，例如：

(1)VAD和麦克风工作状态检测还可以采用其他方式；

(2)实施例中提到的方向用语，例如“上”、“下”、“前”、“后”、“左”、“右”等，仅是参考附图的方向，并非用来限制本发明的保护范围；

(3)上述实施例可基于设计及可靠度的考虑，彼此混合搭配使用或与其他实施例混合搭配使用，即不同实施例中的技术特征可以自由组合形成更多的实施例。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自校准的远场语音交互设备，其特征在于，包括：麦克风阵列与自校准和语音识别终端，所述麦克风阵列与所述自校准和语音识别终端电性连接；

所述麦克风阵列采集远场语音信号，并将所述远场语音信号传输至所述自校准和语音识别终端，其中，所述远场语音信号包含由麦克风通道增益和信号传播衰减引起的误差；

所述自校准和语音识别终端包括：

自校准模块，包括：

语音活动检测模块：选取麦克风阵列的一个麦克风作为参考通道，利用所述参考通道提取远场语音信号中的语音段；

相对增益计算模块：连接所述语音活动检测模块，利用所述语音段计算麦克风阵列中的其他麦克风相对于所述参考通道的相对增益；

增益校准模块：连接所述相对增益计算模块，根据所述相对增益，将其他麦克风的语音段调整到参考通道的增益水平，得到校准后的远场语音信号；

固定波束形成参数校准模块：连接所述相对增益计算模块，根据所述相对增益检测无法正常工作的麦克风，得到校准后的固定波束形成参数；

广义旁瓣对消器：对所述误差进行校准，利用校准后的固定波束形成参数对校准后的远场语音信号进行处理，得到增强语音输出。

2.如权利要求1所述的远场语音交互设备，其特征在于，所述广义旁瓣对消器包括：固定波束形成模块、阻塞矩阵模块、自适应噪声抵消模块；其中，

校准后的远场语音信号分别进入固定波束形成模块和阻塞矩阵模块；

固定波束形成模块对校准后的远场语音信号进行处理，生成语音参考信号；

阻塞矩阵模块对校准后的远场语音信号进行处理，生成噪声参考信号，语音参考信号与经过自适应噪声抵消模块的噪声参考信号求差，得到增强语音输出。

3.如权利要求2所述的远场语音交互设备，其特征在于，所述广义旁瓣对消器还包括：除法器和语音段判定模块，

所述除法器得到所述语音参考信号与所述噪声参考信号的比值，并将所述比值反馈至所述语音段判定模块；

所述语音段判定模块根据所述比值提取远场语音信号中的语音段。

4.如权利要求1所述的远场语音交互设备，其特征在于，还包括：控制端，所述控制端控制所述固定波束形成参数校准模块的开启。

5.如权利要求1所述的远场语音交互设备，其特征在于，所述麦克风阵列的麦克风设置有按键，通过所述按键控制所述固定波束形成参数校准模块的开启。

6.一种远场语音交互设备的自校准方法，其特征在于，利用权利要求1所述的远场语音交互设备进行自校准，包括：

采集步骤：采集远场语音信号；

校准步骤：对远场语音信号的由麦克风通道增益和信号传播衰减引起的误差进行校准，包括：

选取麦克风阵列的一个麦克风作为参考通道，利用所述参考通道提取远场语音信号中的语音段；

利用所述语音段计算麦克风阵列中的其他麦克风相对于所述参考通道的相对增益；

根据所述相对增益，将其他麦克风的语音段调整到参考通道的增益水平，得到校准后的远场语音信号；

连接所述相对增益计算模块，根据所述相对增益检测无法正常工作的麦克风，得到校准后的固定波束形成参数；以及

处理步骤：对校准后的远场语音信号进行处理，利用校准后的固定波束形成参数对校准后的远场语音信号进行处理，得到增强语音输出。