CN115831145B

CN115831145B - 一种双麦克风语音增强方法和系统

Info

Publication number: CN115831145B
Application number: CN202310123145.XA
Authority: CN
Inventors: 白炳潮; 宛敏红; 宋伟; 朱世强
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-27
Anticipated expiration: 2043-02-16
Also published as: CN115831145A

Abstract

本发明公开一种双麦克风语音增强方法和系统，该方法包括：步骤一，对两个麦克风通道的信号进行分帧，加窗，快速傅里叶变换的操作，使得信号从时域转换到频域；步骤二，利用互相关函数对两个通道在频域的信号进行语音活跃检测，若检测为无语音段，则更新噪声互功率谱；若检测为有语音段，则对语音信号进行降噪处理；步骤三，使用降噪后的语音信号来估计晚期混响功率谱，并抑制混响，即使用晚期混响功率谱对降噪后的语音信号做去混响处理；步骤四，将降噪去混响后的信号从频域转换回时域后输出。本发明进行语音活跃检测、噪声互功率谱更新和噪声抑制，同时进行去混响处理，增加了混响抑制的有效性；结合降噪抑制和混响抑制，有效的提高了语音质量。

Description

一种双麦克风语音增强方法和系统

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种双麦克风语音增强方法和系统。

背景技术

随着科技的发展，语音增强在车载系统、手机、助听器和智能家电等领域中具有重要的应用前景。在实际的应用环境中，噪声和混响的存在降低了语音信号的可懂度和语音质量。单麦克风语音增强技术已经取得了很多研究成果，但是由于环境的复杂性，单麦克风处理噪声和混响的效果常常不如人意。因此，双麦克风语音增强技术得到了迅速的发展并且逐渐成为一种常用的方案。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种双麦克风语音增强方法和系统，其具体技术方案如下：

一种双麦克风语音增强方法，包括以下步骤：

步骤一，对两个麦克风通道的信号进行分帧，加窗，快速傅里叶变换的操作，使得信号从时域转换到频域；

步骤二，利用互相关函数对两个通道在频域的信号进行语音活跃检测，若检测为无语音段，则更新噪声互功率谱；若检测为有语音段，则对语音信号进行降噪处理；

步骤三，使用降噪后的语音信号来估计晚期混响功率谱，并抑制混响，即使用晚期混响功率谱对降噪后的语音信号做去混响处理；

步骤四，将降噪去混响后的信号从频域转换回时域后输出。

进一步的，所述步骤一，具体为：先对输入的双麦克风即两个通道的时域信号进行分帧，得到分帧后时域信号

，利用快速傅里叶变换将两个麦克风的时域信号转换到频域，频域信号表达式为：/>

，/>

，/>

，其中i表示第i个麦克风即i通道，m表示第m个采样点，/>

表示第/>

帧，/>

表示窗函数；k表示频域第k个频点，K表示频域的频点数，j为虚数单位，w表示角频率，w_k即表示第k个角频率。

进一步的，所述步骤二，具体包括以下子步骤：

步骤2.1，计算两个通道的自功率谱和互功率谱；

步骤2.2，计算互相关函数均值；

步骤2.3，利用互相函数均值和预先设定门限判断语音是否活跃，即：根据互相关函数均值是否大于预设阈值，来判断语音是否活跃；

步骤2.4，更新噪声互功率谱；

步骤2.5：使用噪声互功率谱对语音信号进行降噪，获得降噪后的语音信号。

进一步的，所述步骤2.1，具体为：对两个通道进行延迟对齐操作后，利用当前帧的双麦克风频域信号和前一帧的自功率谱计算当前帧的自功率谱，以及利用当前帧的双麦克风频域信号和前一帧的互功率谱计算当前帧的互功率谱，并施加平滑，表达式如下：

其中，两个通道的自功率谱为：

；

两个通道的互功率谱为：

；

其中

。

进一步的，所述步骤2.2，具体为：利用步骤2.1计算出的自功率谱和互功率谱计算互相关函数，互相关函数表达式如下：

；

利用互相关函数和预先选取的频率范围进一步计算互相关函数均值，互相关函数均值的表达式如下：

，

其中

，/>

，/>

表示向下取整，/>

表示采样率。

进一步的，所述步骤2.3，具体为：设定阈值，判断互相关函数均值

是否大于所述阈值，如果大于阈值，则判断语音活跃即有语音段，进入步骤2.5；反之则判断无语音段，进入步骤2.4。

进一步的，所述步骤2.4，具体为：使用前一帧的噪声互功率谱和当前帧的双麦克风的频域信号计算当前帧的噪声互功率谱，噪声互功率谱的表达式如下：

。

进一步的，所述步骤2.5，具体为：使用步骤2.4更新的噪声互功率谱对信号的每个频点计算降噪增益，降噪增益的表达式如下：

；

对计算出的降噪增益做下限约束，表达式如下：

；

对双麦克风的频域信号即语音信号做降噪处理，获的降噪后的麦克风频域信号

，表达式如下：

。

进一步的，所述步骤三，具体为：结合单通道的晚期混响功率谱指数衰减模型和双麦克风的频域信号，将该模型扩张到双通道，计算晚期混响功率谱

，表达式如下：

，

；

其中

是衰减系数，/>

表示衰减指数系数，/>

，T是混响时间，/>

是计算出的晚期混响功率谱；

通过晚期混响功率谱

进一步计算混响抑制增益/>

，表达式如下：

；

其中

，表示基于晚期混响的后验信噪比；

通过混响抑制增益

对降噪后的语音信号/>

做抑制混响处理，获得去混响后的幅度谱：/>

；对/>

做最小下限保护：

。

一种双麦克风语音增强系统，包括：

获取模块，用于获取待增强的双麦克风信号；

噪声抑制模块，与获取模块连接，用于利用双麦克风的互功率谱和自功率谱来估计噪声互功率谱，并抑制噪声；

混响抑制模块，与噪声抑制模块连接，用于对降噪后的语音信号估计双麦克风晚期混响功率谱，并利用晚期混响功率谱抑制混响，得到增强后的信号。

有益效果：

本发明利用双麦克风自功率谱和互功率谱计算互相关，并进一步使用互相关函数进行语音活跃检测、噪声互功率谱更新和噪声抑制，对互相关函数的信息进行了充分的利用；同时，还将双麦克风信号结合指数衰减的晚期混响功率谱模型进行去混响处理，增加了混响抑制的有效性；结合降噪抑制和混响抑制，最终达到增强双麦克风语音信号的目的，有效的提高了语音质量。

附图说明

图1是本发明的一种双麦克风语音增强方法流程示意图；

图2是本发明实施例的一种双麦克风语音增强方法的详细实现流程示意图；

图3是本发明实施例的一种双麦克风语音增强系统模块示意图；

图4是本发明实施例的一种双麦克风语音增强装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1和图2所示，本发明实施例的一种双麦克风语音增强方法，包括以下步骤：

步骤一，对两个麦克风通道的信号进行分帧，加窗，快速傅里叶变换（FFT）的操作，使得信号从时域转换到频域。

具体的，先对输入的双麦克风即两个通道的时域信号进行分帧，得到分帧后时域信号

，根据公式/>

，/>

，/>

，利用快速傅里叶变换将两个麦克风的时域信号转换到频域，其中i表示第i个麦克风即i通道，m表示第m个采样点，/>

表示第/>

帧，/>

表示窗函数，可以选择汉宁窗等；k表示频域第k个频点，K表示频域的频点数；j为虚数单位，w表示角频率，w_k即表示第k个角频率，共有K个离散的角频率。

其中，麦克风的信号包括语音信号和噪声信号，等于噪声信号和目标语音信号之和，麦克风的时域信号和频域信号分别表示式为

和

，/>

表示时间，/>

表示振幅，X表示频率，N表示峰值振幅。

步骤二，利用互相关函数对两个通道在频域的信号进行语音活跃检测，若检测为无语音段，则更新噪声互功率谱；若检测为有语音段，则对语音信号进行降噪处理，具体包括以下子步骤：

步骤2.1，计算两个通道的自功率谱和互功率谱，具体为：

利用当前帧的双麦克风频域信号和前一帧的自功率谱计算当前帧的自功率谱，利用当前帧的双麦克风频域信号和前一帧的互功率谱计算当前帧的互功率谱；

两个通道：通道1和通道2，其中通道1和通道2已经通过延迟对齐操作，计算通道1和通道2的自功率谱和互功率谱，并施加平滑，表达式如下：

通道1和2的自功率谱为：

；

通道1和2的互功率谱为：

；

其中

。

步骤2.2，计算互相关函数均值，具体为：

利用步骤2.1计算出的自功率谱和互功率谱计算互相关函数，互相关函数表达式如下：

；

，

其中

，/>

，/>

表示向下取整，/>

表示采样率。

步骤2.3，利用互相函数均值和预先设定门限判断语音是否活跃，即：根据互相关函数均值是否大于预设阈值，来判断语音是否活跃，具体为：

设定阈值为0.2，判断互相关函数均值

是否大于阈值，如果大于阈值，则判断语音活跃即有语音段，进入步骤2.5；反之则判断无语音段，进入步骤2.4。

步骤2.4，更新噪声互功率谱，具体为：

使用前一帧的噪声互功率谱和当前帧的双麦克风的频域信号计算当前帧的噪声互功率谱，噪声互功率谱的表达式如下：

。

步骤2.5：使用噪声互功率谱对语音信号进行降噪，获得降噪后的语音信号，具体为：

使用步骤2.4更新的噪声互功率谱对信号的每个频点计算降噪增益，降噪增益的表达式如下：

；

对计算出的降噪增益做下限约束，表达式如下：

；

，表达式如下：

。

步骤三，使用降噪后的语音信号来估计晚期混响功率谱，并抑制混响，即使用晚期混响功率谱对降噪后的语音信号做去混响处理，具体为：

结合单通道的晚期混响功率谱指数衰减模型和双麦克风的频域信号，将该模型扩张到双通道，计算晚期混响功率谱

，表达式如下：

，

；

其中

是衰减系数，/>

表示衰减指数系数，用于控制衰减，控制沿着指数曲线的衰减速度；/>

，T是混响时间，可以选择的范围在0.3到0.8之间，/>

是计算出的晚期混响功率谱；

通过晚期混响功率谱

进一步计算混响抑制增益/>

，表达式如下：

；

其中

，表示基于晚期混响的后验信噪比；

通过混响抑制增益

对降噪后的语音信号/>

做抑制混响处理，获得去混响后的幅度谱：/>

；对/>

做最小下限保护：

。

步骤四，将降噪去混响后的信号从频域转换回时域后输出。

用麦克风通道1的频域信号

的相位和估计出的降噪去混响后的幅度谱

使用傅里叶逆变换转换到时域，最终高输出结果。

如图3所示，本发明实施例还提供一种实用的双麦克风语音增强系统，具体包括：

获取模块，用于获取待增强的双麦克风信号；

噪声抑制模块，与获取模块连接，用于利用双麦克风的互功率谱和自功率谱估计噪声互功率谱，并抑制噪声；

混响抑制模块，与噪声抑制模块连接，用于对降噪后的语音信号估计双麦克风晚期混响功率谱，并利用晚期混响功率谱抑制混响。

与前述一种双麦克风语音增强方法的实施例相对应，本发明还提供了一种双麦克风语音增强装置的实施例。

参见图4，本发明实施例提供的一种双麦克风语音增强装置，包括一个或多个处理器，用于实现上述实施例中的一种双麦克风语音增强方法。

本发明一种双麦克风语音增强装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种双麦克风语音增强装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种双麦克风语音增强方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。