CN113178204B

CN113178204B - 一种单通道降噪的低功耗方法、装置及存储介质

Info

Publication number: CN113178204B
Application number: CN202110467314.2A
Authority: CN
Inventors: 李庆龙; 关海欣; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2023-05-30
Anticipated expiration: 2041-04-28
Also published as: CN113178204A

Abstract

本发明涉及一种所述单通道语音的处理方法、装置及存储介质，其中，所述单通道语音的处理方法包括：采集带有噪声的语音信号；根据短时离散余弦变换STDCT提取所述带有噪声的语音信号的第一特征；输入所述第一特征至训练模型中以得到目标模型；获取待处理语音信号，并提取所述待处理语音信号的第二特征；输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号。本发明适用于计算机领域，用于通过上述单通道语音的处理方法，降低计算量，进而减少功耗，并且提升降噪效果。

Description

一种单通道降噪的低功耗方法、装置及存储介质

技术领域

本发明涉计算机领域，具体涉及一种单通道降噪的低功耗方法、装置及存储介质。

背景技术

单通道降噪是前端信号处理的重要技术之一。其作用是在嘈杂的环境下能对噪声有效抑制，同时最大程度的恢复语音信号，让人或机器能够听到最干净的语音，这对于语音交互非常重要。

传统的单通道降噪技术处理平稳噪声的性能较好，但处理类似于敲击的冲击类噪声却是无能为力，且在低信噪比环境下的性能急剧下降。

目前，单通道降噪模型中有些虽然可以对噪声有抑制，但其需要每秒需3.75G MAC的计算量，这无疑给计算资源带来巨大的挑战。

因此，如何在降低降噪模型的计算量，是本领域的技术难点之一。

发明内容

本发明提供一种单通道降噪的低功耗方法、装置及存储介质，用于降低计算量进而降低功耗。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供一种单通道语音的处理方法，所述单通道语音的处理方法包括：

采集带有噪声的语音信号；

根据短时离散余弦变换STDCT提取所述带有噪声的语音信号的第一特征；

输入所述第一特征至训练模型中以得到目标模型；

获取待处理语音信号，并提取所述待处理语音信号的第二特征；

输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号。

可选的，所述根据短时离散余弦变换STDCT提取所述带有噪声的语音信号的第一特征，包括：

其中，F(μ)表示所述短时离散余弦变换STDCT；f(x)表示所述带有噪声的语音信号的时域向量，N表示所述带有噪声的语音信号的时域向量的长度；并且，

c(μ)表示所述短时离散余弦变换STDCT的参数。

可选的，所述输入所述第一特征至训练模型中以得到目标模型，包括：

将所述第一特征作为输入信号输入至所述训练模型中以得到第一估计掩蔽值；

根据所述第一特征和所述第一估计掩蔽值计算得到第一估计纯净语音信号；

根据所述第一估计纯净语音信号训练所述训练模型以得到所述目标模型。

可选的，所述根据所述第一估计纯净语音信号训练所述训练模型以得到所述目标模型，包括：

根据干净语音信号和所述第一估计纯净语音信号计算所述训练模型的损失函数；

根据所述损失函数，调整所述训练模型参数以得到所述目标模型。

可选的，所述根据干净语音信号和所述第一估计纯净语音信号计算所述训练模型的损失函数，包括：

对所述第一估计纯净语音信号进行逆短时离散余弦变换ISTDCT得到时域上的第一估计纯净语音信号；

根据所述时域上的第一估计纯净语音信号和所述干净语音信号计算所述损失函数。

可选的，所述根据所述时域上的第一估计纯净语音信号和所述干净语音信号计算所述损失函数，包括：

其中，s表示干净语音信号，

表示所述时域上的第一估计纯净语音信号，<,>表示向量的点乘，/>

表示欧几里得范数，SI-SNR表示损失函数。

可选的，所述根据所述损失函数，调整所述训练模型参数以得到所述目标模型，包括：

当所述损失函数收敛后，确定所述训练模型的参数；

根据确定参数后的训练模型得到所述目标模型。

可选的，所述对所述第一估计纯净语音信号进行逆短时离散余弦变换ISTDCT得到时域上的第一估计纯净语音信号，包括：

c(μ)表示所述短时离散余弦变换STDCT的参数。

可选的，所述输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号，包括：

将所述第二特征作为输入信号输入至所述目标模型中以得到第二估计掩蔽值；

根据所述第二特征和所述第二估计掩蔽值计算得到第二估计纯净语音信号；

对所述第二估计纯净语音信号进行反向短时离散余弦变换ISTDCT得到时域上的第二估计纯净语音信号，所述第二估计纯净语音信号为所述目标语音信号。

可选的，所述带有噪声的语音信号包括环境噪声信号和干净语音信号。

第二方面，本发明实施例提供一种单通道语音的处理装置，所述单通道语音的处理装置，包括：

采集模块，所述采集模块用于采集带有噪声的语音信号；

提取模块，所述提取模块用于根据短时离散余弦变换STDCT提取所述带有噪声的语音信号的第一特征；

输入模块，所述输入模块用于输入所述第一特征至训练模型中以得到目标模型；

获取模块，所述获取模块用于获取待处理语音信号，并提取所述待处理语音信号的第二特征；

所述输入模块还用于输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号。

第三方面，本发明实施例提供一种单通道语音的处理装置，所述单通道语音的处理装置包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于上述第一方面任一步骤的指令。

第四方面本发明实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述第一方面所述的单通道语音的处理方法。

上述发明中的任一个实施例具有如下优点或有益效果：

在本发明实施例中，采集带有噪声的语音信号，以便对语音信号进行训练，根据短时离散余弦变换STDCT提取所述带有噪声的语音信号的第一特征，并且输入所述第一特征至训练模型中以得到目标模型，目标模型可以理解为经过训练后，参数最优的模型。本实施例中由于使用短时离散余弦变换STDCT来提取第一特征，其能够有效地处理冲击类噪声，在低信噪比下的性能也能达到比较令人满意的程度。进一步的，获取待处理语音信号，并提取所述待处理语音信号的第二特征；输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号。待处理语音信号可以理解为需要进行降噪处理的语音信号，将第二特征输入进目标模型后，输出的即为训练后的降噪的目标语音信号。

附图说明

图1为本发明实施例涉及到的语音增强算法模型示意图；

图2为本发明实施例所提供的单通道语音的处理方法的一种流程示意图；

图3为本发明实施例提供的单通道语音的处理方法的另一种流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。以下所举实例只用于解释本发明的方法特征、流程步骤或者原理特征等，并非用于限定本发明的范围。

需要说明的是，本申请实施例提供的技术方案，各步骤的执行主体可为计算机设备，该计算机设备可以是智能手机、平板电脑、个人计算机之类的终端设备，也可以是服务器。该服务器可以是一台服务器，也可以是多台服务器组成的服务器集群，还可以是一个云计算服务中心，本发明并不对其进行特别限定。

在详细的阐述本发明之前，对本发明涉及到的模型进行简单介绍，以便本领域技术人员可以更好的了解本发明的主旨：

如图1所示，其为本发明实施例涉及到的语音增强算法模型示意图；

本发明涉及到的语音增强算法是在深度余弦变换卷积递归网络(Deep CosineTransform Convolutional Recurrent Network，简称DCTCRN)，此模型将短时离散余弦变换STDCT作为输入，以便提升语音清晰度和感知质量。

本发明实施例提供一种单通道语音的处理方法，所述单通道语音的处理方法，如图2所示，其为本发明实施例所提供的单通道语音的处理方法的一种流程示意图，所述方法包括：

S11、采集带有噪声的语音信号；

S12、根据短时离散余弦变换STDCT提取所述带有噪声的语音信号的第一特征；

S13、输入所述第一特征至训练模型中以得到目标模型；

S14、获取待处理语音信号，并提取所述待处理语音信号的第二特征；

S15、输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号。

需要说明的是，本实施例中，带有噪声的语音信号，可以理解为训练数据，也就是说，将原始的特定词数据和多种类型的噪声以不同的信噪比混合，进而将干净语音数据和噪声以不同的信噪比混合，将混合后的语音数据作为训练数据，训练数据对目标模型进行训练。

另外，还需要补充的是，为了验证目标模型的降噪效果，还需要对训练好的目标模型进行验证，因此可通过如上制备带有噪声的语音信号的方法生产验证集，但训练集和验证集的噪声类型、信噪比、说话人均不同，可使用验证集对目标模型监督但不参与误差回传，以保证目标模型参数的准确性。

本实施例中需要解释的是，短时离散余弦变换STDCT(Short-Time DiscreteCosine Transform,以下简称STDCT)，是把时域信号转换到酉空间，且变换过程中不会有信息丢失，变换后的信号比原始信号具有更好的区分性，更容易深度学习，进一步的，由于深度学习效果好，因此其最终的降噪效果也好。而通常的降噪模型采用的是短时傅里叶变换(Short-Time Fourier transform,以下简称STFT)，STFT的数据是复数(包含实部和虚部)，但是模型能够识别并深度学习实数，因此，输入条件变为只能将实数输入到模型中以深度学习带有噪音的语音信号和干净语音信号之间的映射关系。为了满足上述输入条件，就需要人工设计网络结构来整合实部和虚部信息，而模型性能的优劣也取决于人工设计的好坏，虽然能够满足一定程度的降噪，但效果还取决于人工设计的干预，稳定性不佳。

本实施例中，STDCT变换的数据是实数，这就避免了人工整合实部和虚部的问题，和复数训练模型相比，本实施中只包含实数训练，因此可大大降低模型的复杂度，便于深度学习，进而更容易得到更好的降噪性能。

还需要理解的是，本实施例基于深度学习的降噪弥补了传统方法的不足，能够有效处理冲击类噪声，在低信噪比下的性能也比较令人满意。并且，由于采用STDCT进行第一特征提取，其计算量显著降低，有效的降低了计算量，进而降低了功耗，并且也可提升了设备的使用寿命。

本实施例中，为了验证降噪效果，发明人于DCCRN模型进行了对比验证，与DCCRN相比，本实施的计算量降低了1.6倍左右，计算量为1.45GMACs/秒(本实施例)vs 3.75G MACs/秒(DCCRN)，将模型转化为ONNX格式，在酷睿i5-7500台式机上使用单线程，本实施例的目标模型计算1秒的语音需要0.058秒，而DCCRN需要0.158秒。二者性能上也有所差异，相比于DCCRN，本实施中的方法得到的目标模型其PESQ平均绝对提升0.03(2.79->2.82)，STOI平均绝对提升0.39％(87.16％->87.55％),SNR平均提升1.15dB(9.61->10.76)。

如上，本实施中，实验数据验证了本实施所提供的单通道语音的处理方法，可以降低计算量，降低功耗，并且可以提升降噪效果。

为了使本领域技术人员更好的了解本发明，举例进行阐述：

假设一帧语音的长度是512，即向量的长度为512，名为x，x经过STFT变换以后输出的是一个512维的复数STFT(x)＝a+b*j，其中j是虚部单位。但是这个复数的第2维到第256维和其后面的部分是共轭对称的，所以选择其前257维用来训练模型。但是，模型并不支持复数运算，只能把实部和虚部分开看做两部分来做，如果用实数运算模拟复数运算的话就需要增加很多计算量，因为最终结果依赖的是实部和虚部，比如(a+bj)*(c+dj)＝a*c+ad*j+bc*j+cdj*j，就要做4部分运算得到。但如果是实数只需要做一部分操作a*b。DCCRN模型中使用两个实数滤波器模拟复数滤波器，假设输入是两个257维的实数向量，两个滤波器的长度为1，步长也为1，那么做一次运算需要的计算量是257*1+257*1+257*1+257*1＝1028。

而STDCT变换则不然，STDCT变换后还是512维的实数，此时只需要一个滤波器就够，假设其长度为1，总共需要512次计算即可。所以用STDCT作为输入，模型的计算量会小很多。

并且，干净语音的相位信息对效果有很大的帮助，但是STFT的相位由实部和虚部共同决定，且没有一个明确的结构信息，模型学习起来就很困难。

但是STDCT变换为实数，其相位信息是隐含在实数里的，由一个数决定，这样模型就更容易学习从带有噪声的语音信号到干净语音信号的映射，使得降噪效果更好。

c(μ)表示所述短时离散余弦变换STDCT的参数。

将STDCT作为输入，模型就计算量降低，并且会得到更好的降噪效果。

可选的，如图3所示，其为本发明实施例所提供的单通道语音的处理方法的另一种流程示意图，所述输入所述第一特征至训练模型中以得到目标模型，包括：

S131、将所述第一特征作为输入信号输入至所述训练模型中以得到第一估计掩蔽值；

S132、根据所述第一特征和所述第一估计掩蔽值计算得到第一估计纯净语音信号；

S133、根据所述第一估计纯净语音信号训练所述训练模型以得到所述目标模型。

第一特征可理解为，将训练集的每一句语音信号分别进行短时离散余弦变换以作为模型的输入。

进一步的，所述根据所述第一估计纯净语音信号训练所述训练模型以得到所述目标模型，包括：

更进一步的，所述根据干净语音信号和所述第一估计纯净语音信号计算所述训练模型的损失函数，包括：

依然更进一步的，所述根据所述时域上的第一估计纯净语音信号和所述干净语音信号计算所述损失函数，包括：

其中，s表示干净语音信号，

表示欧几里得范数，SI-SNR表示损失函数。

当所述损失函数收敛后，确定所述训练模型的参数；

根据确定参数后的训练模型得到所述目标模型。

可以理解的是，

和s越接近SI-SNR的值越大。并且，为了方便模型训练，取负值作为损失函数，故当二者越接近的时候损失函数值越小。当损失函数不下降时，模型训练收敛，此时保存模型参数，作为最优的模型。

c(μ)表示所述短时离散余弦变换STDCT的参数。

采集模块，所述采集模块用于采集带有噪声的语音信号；

本实施例中，单通道语音的处理装置用于执行处理单通道语音的处理方法，因此其可实现上述方法的全部有益效果：采集带有噪声的语音信号，以便对语音信号进行训练，根据短时离散余弦变换STDCT提取所述带有噪声的语音信号的第一特征，并且输入所述第一特征至训练模型中以得到目标模型，目标模型可以理解为经过训练后，参数最优的模型。本实施例中由于使用短时离散余弦变换STDCT来提取第一特征，其能够有效地处理冲击类噪声，在低信噪比下的性能也能达到比较令人满意的程度。进一步的，获取待处理语音信号，并提取所述待处理语音信号的第二特征；输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号。待处理语音信号可以理解为需要进行降噪处理的语音信号，将第二特征输入进目标模型后，输出的即为训练后的降噪的目标语音信号。

第三方面，本发明实施例提供一种单通道语音的处理装置，所述单通道语音的处理装置包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行单通道语音的处理方法中任一步骤的指令。

第四方面本发明实施例提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现单通道语音的处理方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种单通道语音的处理方法，其特征在于，所述单通道语音的处理方法包括：

采集带有噪声的语音信号；

输入所述第一特征至训练模型中以得到目标模型；

输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号；

其中，所述输入所述第一特征至训练模型中以得到目标模型，包括：将所述第一特征作为输入信号输入至所述训练模型中以得到第一估计掩蔽值；根据所述第一特征和所述第一估计掩蔽值计算得到第一估计纯净语音信号；根据所述第一估计纯净语音信号训练所述训练模型以得到所述目标模型；

其中，所述根据所述第一估计纯净语音信号训练所述训练模型以得到所述目标模型，包括：根据干净语音信号和所述第一估计纯净语音信号计算所述训练模型的损失函数；根据所述损失函数，调整所述训练模型参数以得到所述目标模型；

所述根据干净语音信号和所述第一估计纯净语音信号计算所述训练模型的损失函数，包括：对所述第一估计纯净语音信号进行逆短时离散余弦变换ISTDCT得到时域上的第一估计纯净语音信号；根据所述时域上的第一估计纯净语音信号和所述干净语音信号计算所述损失函数；

所述根据所述时域上的第一估计纯净语音信号和所述干净语音信号计算所述损失函数，包括：

其中，s表示干净语音信号，

表示欧几里得范数，SI-SNR表示损失函数。

2.根据权利要求1所述的单通道语音的处理方法，其特征在于，所述根据短时离散余弦变换STDCT提取所述带有噪声的语音信号的第一特征，包括：

c(μ)表示所述短时离散余弦变换STDCT的参数。

3.根据权利要求1所述的单通道语音的处理方法，其特征在于，所述根据所述损失函数，调整所述训练模型参数以得到所述目标模型，包括：

当所述损失函数收敛后，确定所述训练模型的参数；

根据确定参数后的训练模型得到所述目标模型。

4.根据权利要求1所述的单通道语音的处理方法，其特征在于，所述对所述第一估计纯净语音信号进行逆短时离散余弦变换ISTDCT得到时域上的第一估计纯净语音信号，包括：

c(μ)表示所述短时离散余弦变换STDCT的参数。

5.根据权利要求1所述的单通道语音的处理方法，其特征在于，所述输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号，包括：

6.根据权利要求1所述的单通道语音的处理方法，其特征在于，所述带有噪声的语音信号包括环境噪声信号和干净语音信号。

7.一种单通道语音的处理装置，其特征在于，所述单通道语音的处理装置，包括：

采集模块，所述采集模块用于采集带有噪声的语音信号；

所述输入模块还用于输入所述第二特征至所述目标模型中以得到降噪后的目标语音信号；

其中，所述输入模块还拥有执行如下操作：将所述第一特征作为输入信号输入至所述训练模型中以得到第一估计掩蔽值；根据所述第一特征和所述第一估计掩蔽值计算得到第一估计纯净语音信号；根据所述第一估计纯净语音信号训练所述训练模型以得到所述目标模型；

根据干净语音信号和所述第一估计纯净语音信号计算所述训练模型的损失函数；根据所述损失函数，调整所述训练模型参数以得到所述目标模型；

对所述第一估计纯净语音信号进行逆短时离散余弦变换ISTDCT得到时域上的第一估计纯净语音信号；根据所述时域上的第一估计纯净语音信号和所述干净语音信号计算所述损失函数；

其中，s表示干净语音信号，

表示欧几里得范数，SI-SNR表示损失函数。

8.一种单通道语音的处理装置，其特征在于，所述单通道语音的处理装置包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行权利要求1-6中任一步骤的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1-6中任一项所述的单通道语音的处理方法。