CN117133307A

CN117133307A - 低功耗单声道语音降噪方法、计算机装置及计算机可读存储介质

Info

Publication number: CN117133307A
Application number: CN202311066060.9A
Authority: CN
Inventors: 王天策; 徐超; 李正平
Original assignee: Zhuhai Spacetouch Ltd; Shenzhen Research Institute Tsinghua University
Current assignee: Zhuhai Spacetouch Ltd; Shenzhen Research Institute Tsinghua University
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-11-28

Abstract

本发明提供一种低功耗单声道语音降噪方法、计算机装置及计算机可读存储介质，该方法包括获取初始音频数据并进行转换，获取时域数字信号，对时域数字信号进行分帧和傅里叶变换获得复值时频图；将复值时频图输入至卷积神经网络编码器，卷积神经网络编码器将复值时频图的编码结果输出至挤压激活层，挤压激活层的输出结果传送至平行循环神经网络层，并将平行循环神经网络层输出的结果用全连接层映射成与复值时频图相同的维度，分别对复值时频图的实部和虚部进行掩模计算；将掩模计算获得的值进行傅里叶逆变换。本发明还提供实现上述方法的计算机装置及存储介质。本发明能减小降噪的计算量并减小系统功耗，延长降噪耳机等电池供电设备的使用时间。

Description

低功耗单声道语音降噪方法、计算机装置及计算机可读存储介质

技术领域

本发明涉及基于语音降噪的技术领域，具体地，是一种将低功耗单声道语音降噪方法，还涉及实现该方法的计算机装置及计算机可读存储介质。

背景技术

诸如无线耳机、游戏耳机、音箱、会议系统等电子设备大多具有语音采集的功能，这些电子设备设置有麦克风，通过麦克风采集语音信号，并且需要对所采集的语音信号进行降噪后输出。现有的对语音信号进行降噪的算法分为两类：基于数字信号处理(DSP)的算法与基于神经网络的算法。

基于数字信号处理算法利用数字信号处理技术，通过噪声估计以及自适应滤波器等方法达到降噪效果，对计算资源消耗较小，但是难以实现对人声和非人声的准确区分，存在噪声过滤得不干净、难以过滤非稳态噪声、人声输出较为模糊等缺点。在具有多个麦克风构成的麦克风阵列的电子设备上，可以使用波束成形技术区分声音方位并只接收特定方向上传来的声音。但是这种方式硬件成本较高，且当人声和噪声来自同一方向时无法消除噪声。

基于神经网络的算法是近年来逐渐流行的趋势与未来技术发展的方向。根据输入数据类型不同，基于神经网络的算法又进一步分为以时频域信号为输入与以语音特征(如MFCC,BFCC,filterbank等)为输入两类。前者可让算法获得完整的声音信息，从而达到更好的降噪效果，但参数量和计算量较大，神经网络网络结构复杂，只能在手机、电脑等高算力高成本的设备上实现，无法在低成本、低功耗的ASIC芯片上运行。后者对语音信息进行有损压缩后输入神经网络，虽然能够减少数据量和计算量，但是对频域划分较为粗糙，无法准确获得每一个频段的信息，降噪效果不够理想，导致较多的噪声残留或者人声被错误消除，从而降低了用户的体验。

现有的一种基于双神经网络模型的语音降噪方法根据嵌入式系统所能提供的资源确定系统的总计算量和总参数量，对接收到的语音数字信号进行分帧和FFT(快速傅里叶)变换，将每帧的FFT谱作为两个神经网络模型的输入，两个神经网络模型分别使用卷积结构的多层网络和RNN结构的多层网络，利用两个神经网络模型的输出和预设的分频带混合参数计算得到每个频带的总语音保留系数，分频带混合参数与该帧的FFT谱对应的频带值相乘，得到处理后每帧FFT谱，逆快速傅里叶变换和去帧后成为时域输出。

但是，这种方法需要使用两个神经网络进行计算，对电子设备的硬件要求较高，如果电子设备采用低成本的芯片则难以应用上述的方法进行语音降噪，限制了该方法的应用。

发明内容

本发明的第一目的是提供一种计算量少、对硬件资源要求较低的低功耗单声道语音降噪方法。

本发明的第二目的是提供一种实现上述低功耗单声道语音降噪方法的计算机装置。

本发明的第三目的是提供一种实现上述低功耗单声道语音降噪方法的计算机可读存储介质。

为实现本发明的第一目的，本发明提供的低功耗单声道语音降噪方法包括获取初始音频数据，对初始音频数据进行转换，获取时域数字信号，对时域数字信号进行分帧和傅里叶变换获得复值时频图；其中，将复值时频图输入至卷积神经网络编码器，卷积神经网络编码器将复值时频图的编码结果输出至挤压激活层，挤压激活层的输出结果传送至平行循环神经网络层，并将平行循环神经网络层输出的结果用全连接层映射成与复值时频图相同的维度，分别对复值时频图的实部和虚部进行掩模计算；将掩模计算获得的值进行傅里叶逆变换，获得降噪后的语音信号。

由上述方案可见，本发明是对传统的语音降噪算法进行改进，具体的，是对传统的语音降噪算法的卷积层、循环层、全连接层等进行轻量化改造，提高神经网络计算的数据复用性，将神经网络参数量从数百万级别压缩到十万以下级别，从而解决了基于神经网络的降噪算法参数量和计算量过大的问题。这样，本发明的方法可以在主频较低的芯片上实现实时运行，同时保证了优异的降噪效果，使得本发明的方法能够应用于无线耳机、游戏耳机、音箱、会议系统等电子设备上应用。

一个优选的方案是，卷积神经网络编码器将编码结果输出至挤压激活层后，挤压激活层对编码结果进行如下处理：通过全局平均池化层将编码结果中的频域维度缩为1；用线性层将通道维度压缩为编码结果通道维度的四分之一或者八分之一，再用线性层将通道维度映射至编码结果通道维度，应用sigmoid函数或者hard sigmoid函数进行激活，获得激活向量；将激活向量与编码结果相乘。

由此可见，使用挤压激活层后，激活向量的每一个点均包含了来自所有频段的信息，所以输出可接收到所有频段的信息，因而，挤压激活层可以弥补卷积层无法学习全局频域信息的缺陷，同时计算量与参数量远小于双向循环神经网络或自注意力等常见架构。

进一步的方案是，用线性层将通道维度压缩为编码结果通道维度的四分之一或者八分之一后，使用Relu函数进行激活。

进一步的方案是，对复值时频图的实部和虚部进行掩模计算包括：将权重张量与初始音频数据的频域进行相乘计算。

可见，通过简单的相乘计算方法可以实现复值时频图的实部和虚部进行掩模计算，从而简化掩膜计算的计算量，有利于本发明的方法在低频的芯片上实现。

一个优选的方案是，权重张量的尺寸与复值时频图的尺寸相同，且权重张量对应于每一时频点的值在0至1之间。

由此可见，将权重张量的尺寸与复值时频图的尺寸相同，可以确保掩膜计算的准确性。

优选的方案是，权重张量对应于每一时频点的值基于历史声音信息和当前的声音信息确定，并根据每一个时频点的信噪比的估计获得该时频点对应的权重张量。

可见，依据每一个时频点的信噪比的估计获得该时频点对应的权重张量，可以确保掩膜计算后的结果能够实现对噪声的有效降低，提升降噪的效果。

进一步的方案是，时频点对应的权重张量正比于该时频点的信噪比。这样，信噪比较低的时频点的权重张量较小，从而降低信噪比较低的时频点的模量，有效去除语音信号中的噪声。

进一步的方案是，卷积神经网络由多个因果卷积层构成。这样，可以保障卷积神经网络编码器输出的实时性，有效减小降噪后的语音数据输出延时。

为实现上述的第二目的，本发明提供的计算机装置包括处理器以及存储器，存储器存储有计算机程序，计算机程序被处理器执行时实现上述低功耗单声道语音降噪方法的各个步骤。

为实现上述的第三目的，本发明提供计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述低功耗单声道语音降噪方法的各个步骤。

附图说明

图1是本发明低功耗单声道语音降噪方法实施例的技术路线图。

图2是本发明低功耗单声道语音降噪方法实施例的流程图。

以下结合附图及实施例对本发明作进一步说明。

具体实施方式

本发明的低功耗单声道语音降噪方法主要应用在低成本、低功耗芯片系统上，以电池供电的方式实现实时运行。应用本发明的方法，仅仅需一路麦克风输出的信号，同时保证了优异的降噪效果。本发明提供的计算机装置具有处理器以及存储器，处理器可以执行计算机程序并实现上述的低功耗单声道语音降噪方法。

低功耗单声道语音降噪方法实施例：

本实施例应用在具有麦克风等语音信号采集装置的电子设备上，通过音频采集装置采集初始的语音信号，并且对所接收到的语音信号进行降噪处理，并输出降噪后的语音信号。

下面结合图1与图2对本实施例的具体流程进行详细说明。首先，执行步骤S1，接收初始音频数据，所接收的收初始音频数据是麦克风所采集的音频信号经过简单处理获得的音频数据，也就是未经降噪的音频数据。接收到麦克风输出的音频信号后，需要对该音频信号进行转换，例如将该音频数据转换成16位位深、采样率在16kHz至48kHz之间的时域数字信号。

然后，执行步骤S2，对初始音频信号进行分帧、加窗和傅里叶变换的处理，并输出复值时频图。步骤S2中所采用的分帧、加窗和傅里叶变换都是采用已知的方法实现，即采用已知的分帧、加窗和傅里叶变换方法实现。并且，步骤S2所输出的时频图是复值时频图，由于一部分降噪算法输出的时频图时仅仅输出时频图的幅值，忽略了相位信息，而本实施例需要将时频图的实部信息和虚部信息一起输入至卷积神经网络编码器，因此，步骤S2需要输出复值时频图，即包含有实部信息和虚部信息。

然后，执行步骤S3，将复值时频图输入至卷积神经网络编码器，本实施例中，卷积神经网络由多个因果卷积层构成，通过这种方式来以保证卷积神经网络编码器的输出结果的实时性。这样，可以减少整个算法的延时，可以确保降噪后的语音信号的实时输出。从图1可以看出，经过傅里叶变换获得的复值时频图既输出至卷积神经网络编码器，还用于与全连接层的输出结果进行掩膜计算。

通过卷积神经网络编码器对复值时频图进行编码计算，获得编码结果。然后，执行步骤S4，将卷积神经网络编码器的编码结果输出至挤压激活层，由挤压激活层对编码结果进行处理。挤压激活层是卷积神经网络的一层，用于对卷积神经网络编码器的编码结果的维度进行处理。

具体的，假设卷积神经网络编码器输出的编码结果是一个维度为(C,F,T)的张量，其中，C是通道数，F是频率维度，T是时间维度。挤压激活层进行处理时，首先通过全局平均池化层编码结果的频域维度缩为1，输出结果的维度是(C,1,T)。然后，用线性层将通道维度压缩为C/4或C/8，也就是将通道维度压缩至编码结果通道维度的四分之一或者八分之一，然后进行Relu激活操作，此时，输出结果的维度是(C/4,1,T)或(C/8,1,T)。接着，用线性层将通道维度映射回C，也就是将通道维度映射回到编码结果的通道数量，然后再做sigmoid或者hard sigmoid激活的操作，此时，输出结果的维度是(C,1,T)，该结果称为激活向量。最后，将激活向量与卷积神经网络编码器的编码结果相乘，所获得的输出结果输入至平行循环神经网络。

由于卷积层的特点在于学习局部的关联性，以一个N层的3×3卷积网络为例，每一个输出点最多使用2N+1个相邻频段的信息。使用挤压激活层后，激活向量的每一个点均包含了来自所有频段的信息，所以输出可接收到所有频段的信息。因而，挤压激活层可以弥补卷积层无法学习全局频域信息的缺陷，同时计算量与参数量远小于双向循环神经网络或自注意力等常见架构，从而减少卷积神经网络计算所使用的参数，提高计算效率。

然后，执行步骤S5，将挤压激活层输出的结果输入至平行循环神经网络。由于平行循环神经网络对于不同的频段共享矩阵权重，因此，本实施例所使用的参数的数量比传统的循环神经网络能够大幅度减少，从而减少语音降噪计算的计算量。

接着，执行步骤S6，将平行循环神经网络层的输出结果输入至全连接层，通过全连接层映射为与复值时频图相同的维度。参见图1，本实施例的全连接层包括通道全连接层和频域全连接层，平行循环神经网络层的输出结果分别经过通道全连接层和频域全连接层后，获得与复值时频图相同的维度的输出结果。

然后，执行步骤S7，使用全连接层的输出结果分别对经过傅里叶变换获得的复值时频图的实部和虚部进行掩模计算。具体的，掩模时，将权重张量和原始获得的音频信号的频域表示相乘。本实施例中，权重张量是一个尺寸和复值时频图的尺寸相同的张量，对应于复值时频图中的每一个时频点，权重张量的值都在0到1之间。并且，权重张量对应于每一时频点的值基于历史声音信息和当前的声音信息确定，并根据每一个时频点的信噪比的估计获得该时频点对应的权重张量。也就是，如果一个时频点信噪比高，则权重张量接近于1，如果一个时频点的信噪比低，则权重张量接近于0。这样，可以很好的抑制信噪比较低的信号，从而实现对音频信号的降噪。

最后，执行步骤S8，将掩模后的值进行傅里叶逆变换，恢复为时域信号，也就是获得降噪后的音频数据。

本实施例的算法特别针对具有卷积神经网络加速器的低成本芯片进行优化。低成本芯片的卷积神经网络加速器一般具有内存带宽低、数据输入输出时间长、乘累加器效率不饱和的问题，应用本实施例的方法能够降低降噪的计算量，能够应用在低成本的芯片上。

由于本实施例在帧间关联性建模上，用平行循环神经网络取代传统循环神经网络，能够大幅提升参数复用性和并行计算的效率。并且，本实施例仅使用一层循环神经网络，压缩了计算时间。最后，在帧内关联性建模上，用挤压激活层取代了常见方案中卷积神经网络加速器执行效率较低的双向循环神经网络，且本实施例的卷积神经网络编码器模块和平行循环神经网络模块为串联关系，因此能够减少计算的参数量。

计算机装置实施例：

本实施例的计算机装置可以是智能终端设备，也可以是台式计算机，该计算机装置具有处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序，例如用于实现上述信息处理方法的信息处理程序，处理器执行计算机程序时实现上述低功耗单声道语音降噪方法的各个步骤。

例如，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明的各个模块。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。

需要说明的是，终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，本发明的示意图仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

本发明所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

计算机可读存储介质：

计算机装置所存储的计算机程序如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述低功耗单声道语音降噪方法的各个步骤。

其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

最后需要强调的是，本发明不限于上述实施方式，例如挤压激活层对数据处理方式的变化，或者掩膜计算的具体步骤的变化，这些改变也应该包括在本发明权利要求的保护范围内。

Claims

1.低功耗单声道语音降噪方法，包括：

获取初始音频数据，对所述初始音频数据进行转换，获取时域数字信号，对所述时域数字信号进行分帧和傅里叶变换获得复值时频图；

其特征在于：

将所述复值时频图输入至卷积神经网络编码器，所述卷积神经网络编码器将所述复值时频图的编码结果输出至挤压激活层，所述挤压激活层的输出结果传送至平行循环神经网络层，并将所述平行循环神经网络层输出的结果用全连接层映射成与所述复值时频图相同的维度，分别对所述复值时频图的实部和虚部进行掩模计算；

将掩模计算获得的值进行傅里叶逆变换，获得降噪后的语音信号。

2.根据权利要求1所述的低功耗单声道语音降噪方法，其特征在于：

所述卷积神经网络编码器将所述编码结果输出至所述挤压激活层后，所述挤压激活层对所述编码结果进行如下处理：

通过全局平均池化层将所述编码结果中的频域维度缩为1；

用线性层将通道维度压缩为所述编码结果通道维度的四分之一或者八分之一，再用线性层将通道维度映射至所述编码结果通道维度，应用sigmoid函数或者hard sigmoid函数进行激活，获得激活向量；

将所述激活向量与所述编码结果相乘。

3.根据权利要求2所述的低功耗单声道语音降噪方法，其特征在于：

用线性层将通道维度压缩为所述编码结果通道维度的四分之一或者八分之一后，使用Relu函数进行激活。

4.根据权利要求1至3任一项所述的低功耗单声道语音降噪方法，其特征在于：

对所述复值时频图的实部和虚部进行掩模计算包括：将权重张量与初始音频数据的频域进行相乘计算。

5.根据权利要求4所述的低功耗单声道语音降噪方法，其特征在于：

所述权重张量的尺寸与所述复值时频图的尺寸相同，且所述权重张量对应于每一时频点的值在0至1之间。

6.根据权利要求5所述的低功耗单声道语音降噪方法，其特征在于：

所述权重张量对应于每一时频点的值基于历史声音信息和当前的声音信息确定，并根据每一个时频点的信噪比的估计获得该时频点对应的权重张量。

7.根据权利要求6所述的低功耗单声道语音降噪方法，其特征在于：

所述时频点对应的权重张量正比于该时频点的信噪比。

8.根据权利要求1至3任一项所述的低功耗单声道语音降噪方法，其特征在于：

所述卷积神经网络由多个因果卷积层构成。

9.计算机装置，其特征在于，包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述低功耗单声道语音降噪方法的各个步骤。

10.计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述低功耗单声道语音降噪方法的各个步骤。