CN113808613B

CN113808613B - 一种轻量化的语音去噪方法、系统、设备及存储介质

Info

Publication number: CN113808613B
Application number: CN202110880947.6A
Authority: CN
Inventors: 陈刚; 周兆恒; 何晨宇
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2023-12-12
Anticipated expiration: 2041-08-02
Also published as: CN113808613A

Abstract

本发明公开了一种轻量化的语音去噪方法、系统、设备及存储介质，方法包括：获取混合音源数据；通过VoiceBit计算框架对所述混合音源数据进行分类处理，确定所述混合音源数据中不同类型的音源数据；将所述分类处理的结果传输至目标终端，由所述目标终端播放相应类型的音源数据。本发明能够实现在移动端的低延时以及低功耗的音源分离，可广泛应用于音频数据处理技术领域。

Description

一种轻量化的语音去噪方法、系统、设备及存储介质

技术领域

本发明涉及音频数据处理技术领域，尤其是一种轻量化的语音去噪方法、系统、设备及存储介质。

背景技术

深度学习音频分离网络：用深度学习技术可以将一段音乐中不同乐器的音轨分离出来(音源分离)，将一个混合的音频输入到神经网络中，输出一个分离后的音频。

手机端语音模型推理框架：由于神经网络包含许多复杂的运算，所以需要编写专门的框架来对这些复杂的算子进行加速。尤其像手机这种性能较弱的设备上，特殊的加速优化更加重要。

对转置卷积的加速：就是将大众化的转置卷积操作变得细化，换一种方式进行运算，减少内存消耗以及加快处理速度。

由于拥有过大的计算量以及模型大小，现有的音源分离神经网络模型都部署在大型的服务器中，以离线的方式对声音进行处理，仍然缺少能够在低性能移动设备上(例如手机)在线实时分离并传输的有效解决方案。

发明内容

有鉴于此，本发明实施例提供一种轻量化的语音去噪方法、系统、设备及存储介质，以实现在移动端的低延时以及低功耗的音源分离。

本发明的一方面提供了一种轻量化的语音去噪方法，包括：

获取混合音源数据；

通过VoiceBit计算框架对所述混合音源数据进行分类处理，确定所述混合音源数据中不同类型的音源数据；

将所述分类处理的结果传输至目标终端，由所述目标终端播放相应类型的音源数据。

可选地，所述通过VoiceBit计算框架对所述混合音源数据进行分类处理，确定所述混合音源数据中不同类型的音源数据，包括：

将所述混合音源数据输入第一层卷积，得到特征向量；

通过下采样层对所述特征向量进行逐层编码；

将经过编码后的数据通过跳跃连接与部分未经过编码的数据相结合，得到待解码数据；

通过上采样层对所述待解码数据进行解码，得到卷积后的多种音源类型的PCM编码数据。

可选地，所述下采样层包括二值卷积层、批标准化层以及低通滤波卷积层；

所述上采样层包括转置卷积层、深度可分离卷积层以及批标准化层。

可选地，所述VoiceBit计算框架包括音源分离网络；

所述音源分离网络为类U-Net结构，所述音源分离网络包括5个下采样块，1个瓶颈层，5个上采样块和1个输出卷积。

可选地，所述音源分离网络的训练过程包括：

在前向传播时使用Sign函数对二值层的权重以及输入进行二值化；

在反向传播时使用近似函数代替Sign函数求得反向梯度，所述反向梯度用于更新权重及进一步向下反向传播；

其中，所述反向传播的过程包括：

训练时同时保留全精度权重以及经过Sign函数二值化后的权重，在前向传播时使用二值化函数进行计算，而反向传播时对近似函数求梯度，并更新全精度权重。

可选地，所述方法还包括：

利用OpenCL，调用手机GPU对神经网络模型中的计算进行并行加速。

可选地，所述方法还包括：

在所述VoiceBit计算框架中，转置卷积的计算方法采用并行计算方法，具体包括：

将一个转置卷积分为两步进行计算；

在第一步计算中，将卷积核与输入的每个点逐一相乘，得到临时矩阵，所述临时矩阵的大小与所述卷积核的大小相同；

将所述临时矩阵进行堆叠，确定输出结果中任一点，其中，输出结果中的每个点均由三个临时矩阵的点累加得到；

将所有临时矩阵分为三个组，其中，每个组在输出内存中的位置并不相交；

每个组并行地将不相交的临时矩阵叠加到输出内存中，当进行完一组后串行执行下一组的叠加操作，执行完毕后得到即得到最终输出。

本发明实施例还提供了一种轻量化的语音去噪系统，包括：处理终端和目标终端，其中，所述处理终端包括：

获取模块，用于获取混合音源数据；

处理模块，用于通过VoiceBit计算框架对所述混合音源数据进行分类处理，确定所述混合音源数据中不同类型的音源数据；

通讯模块，用于将所述分类处理的结果传输至目标终端，由所述目标终端播放相应类型的音源数据。

本发明实施例还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例获取混合音源数据；通过VoiceBit计算框架对所述混合音源数据进行分类处理，确定所述混合音源数据中不同类型的音源数据；将所述分类处理的结果传输至目标终端，由所述目标终端播放相应类型的音源数据。本发明能够实现在移动端的低延时以及低功耗的音源分离。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的完整步骤流程图；

图2为本发明实施例提供的音源分离网络的结构示意图；

图3为本发明实施例提供的转置卷积并行化计算过程中第一个计算步骤的示意图；

图4为本发明实施例提供的转置卷积并行化计算过程中第二个计算步骤的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明提出一个轻量化的模型，降低其需要的计算量及模型大小，并且开发出一个在手机上进行高效计算的平台，实现移动端低延时、低功耗的音源分离。

首先，本发明的一方面提供了一种轻量化的语音去噪方法，包括：

获取混合音源数据；

将所述混合音源数据输入第一层卷积，得到特征向量；

通过下采样层对所述特征向量进行逐层编码；

可选地，所述VoiceBit计算框架包括音源分离网络；

可选地，所述音源分离网络的训练过程包括：

其中，所述反向传播的过程包括：

可选地，所述方法还包括：

将一个转置卷积分为两步进行计算；

获取模块，用于获取混合音源数据；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面所述的方法。

下面结合说明书附图，对本发明的语音去噪方法的具体实现过程进行详细描述：

如图1所示，首先手机A调用其麦克风，录制得到n种音源混合后的16位立体声PCM编码数据，对数据进行归一化处理，转换为用32位表示的，位于[-1,1]的浮点输入。将其作为输入传递到VoiceBit计算框架中，通过预加载好的类U-Net结构的编-解码神经网络模型进行计算。

模型先将输入的数据用第一层卷积得到特征向量，再使用由二值卷积，批标准化，低通sinc滤波卷积组成的下采样层对特征向量逐层编码，经过编码后的数据通过跳跃连接与部分未经过编码的数据相结合，再使用由转置卷积，深度可分离卷积，批标准化组成的上采样层进行解码，经过输出卷积后得到n个音源的PCM编码。

最终手机A将得到的PCM编码音源经过蜂窝网络或者WIFI传输到手机B，由手机B播放。

具体地，本发明实施例中VoiceBit计算框架下的音源分离网络是一个类U-Net结构，如图2所示，由5个下采样块，1个瓶颈层，5个上采样块和1个输出卷积构成。为了保证精度，第一层输入卷积为全精度卷积。

网络中的下采样部分高度量化，二值化后的卷积层将输入特征向量以及权重通过Sign函数量化为+1或者-1。Sign函数可表示为：

在训练时，由于二值卷积层中使用到的Sign激活函数没有梯度，所以本发明使用了梯度近似的方法来保证网络的正常训练。具体操作为：在前向传播时使用Sign函数对二值层的权重以及输入进行二值化，而在反向传播时使用近似函数(ApproxSign)代替Sign函数求得反向梯度，用于更新权重及进一步向下反向传播。

训练时使用的梯度近似函数公式如下。具体反向传播方法可总结为：训练时同时保留全精度权重以及经过Sign函数二值化后的权重，在前向传播时使用二值化函数进行计算，而反向传播时对近似函数求梯度，并更新全精度权重。

为了能在手机上以更快的速度对神经网络模型进行计算(或称推理)，本发明创新性地提出了一个手机端的网络推理系统——VoiceBit。本系统运用OpenCL，调用手机GPU(图像处理单元)，对神经网络模型中的计算进行并行加速，实现低延时，低功耗的神经网络部署。

由于转置卷积消耗的计算量相当大，本发明提出了一种创新的转置卷积并行化计算方法。以网络中的一维转置卷积为例，本实施例将一个转置卷积模块分为两步进行计算。输入I的大小为I_h×I_w×I_c，卷积核K的大小为K_h×K_w，其中I_h＝_h，经过第一步计算后得到I_w个大小为K_h×K_w的临时矩阵，并保存到全局内存中。其计算公式如下。

将临时矩阵重叠部分叠加后，得到大小为O_h×O_w的输出0，

O_h＝I_h＝K_h

O_w＝(I_w-1)×stride-2×pad+dilation(K_w-1)+1

当stride为1，pad为1，dilation为1，K_h，K_w为3时，第一步如图3所示，将卷积核与输入的每个点逐一相乘，得到和输入大小相同个临时矩阵。这些临时矩阵大小与卷积核大小一致。

由转置卷积特性可得，最终输出等于临时矩阵堆叠得到。其中输出的某一点可以表示为O_ih，iw＝T_ih，iw-2+T_ih，iw-1+T_ih，iw，i∈[3，O_w-3]

由上式可得，输出中的某个点由三个临时矩阵的点累加得到。通过如图4所示的第二步，本发明将所有临时矩阵分为三个组，每个组在输出内存中的位置并不相交。通过这种方式，本发明可以使用“组内并行，组间串行”的方式，每个组并行地将不相交的临时矩阵叠加到输出内存中，当进行完一组后串行执行下一组的叠加操作，执行完毕后得到即得到最终输出。这种方式能保证在只开辟一块输出内存的同时，尽可能地提高并行率，降低内存消耗，提高执行速度。

综上所述，相较于现有技术，本发明具有以下优点：

1)、本发明在目前流行的基于频域数据作为输入的大规模音频分离网络中，提出了一个基于时域数据的，轻量化的音频分离网络。相比起其它网络，该网络参数量更少，计算延迟更短。

2)、本发明提出了一个手机端进行实时声音分离网络推理系统VoiceBit。本系统对大量的算子进行了特殊优化，保证手机端录制声音的低延时，低功耗分离及传输。

3)、在VoiceBit中，特别地，本发明对转置卷积进行了创新性的特殊优化，使用OpenCL调用手机GPU，用高效的并行化算法进行转置卷积的运算，相比传统方法，速度更快，内存消耗更小。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种轻量化的语音去噪方法，其特征在于，包括：

获取混合音源数据；

将所述分类处理的结果传输至目标终端，由所述目标终端播放相应类型的音源数据；

其中，所述VoiceBit计算框架包括音源分离网络；所述音源分离网络为U-Net结构，所述音源分离网络包括5个下采样块，1个瓶颈层，5个上采样块和1个输出卷积；

将一个转置卷积分为两步进行计算；

2.根据权利要求1所述的一种轻量化的语音去噪方法，其特征在于，所述通过VoiceBit计算框架对所述混合音源数据进行分类处理，确定所述混合音源数据中不同类型的音源数据，包括：

将所述混合音源数据输入第一层卷积，得到特征向量；

通过下采样层对所述特征向量进行逐层编码；

3.根据权利要求2所述的一种轻量化的语音去噪方法，其特征在于，

所述下采样层包括二值卷积层、批标准化层以及低通滤波卷积层；

4.根据权利要求1所述的一种轻量化的语音去噪方法，其特征在于，所述音源分离网络的训练过程包括：

其中，所述反向传播的过程包括：

5.根据权利要求1所述的一种轻量化的语音去噪方法，其特征在于，所述方法还包括：

6.一种轻量化的语音去噪系统，其特征在于，包括：处理终端和目标终端，其中，所述处理终端包括：

获取模块，用于获取混合音源数据；

通讯模块，用于将所述分类处理的结果传输至目标终端，由所述目标终端播放相应类型的音源数据；

所述处理模块还用于在所述VoiceBit计算框架中采用并行计算方法计算转置卷积，具体还用于：

将一个转置卷积分为两步进行计算；

7.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-5中任一项所述的方法。