CN112509593B

CN112509593B - 一种语音增强网络模型、单通道的语音增强方法及系统

Info

Publication number: CN112509593B
Application number: CN202011283692.7A
Authority: CN
Inventors: 康洪涛; 欧阳鹏
Original assignee: Beijing Qingwei Intelligent Technology Co ltd
Current assignee: Beijing Qingwei Intelligent Technology Co ltd
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2024-03-08
Anticipated expiration: 2040-11-17
Also published as: CN112509593A

Abstract

本发明提供一种单通道的语音增强方法，该方法通过语音增强网络模型实现。语音增强网络模型包括：一个分析层、一个编码器、一个时间卷积模块、一个解码器和一个合成层。本发明中一种单通道的语音增强方法，通过加入了基于卷积层设计的准短时加窗傅里叶变换的分析层和准逆短时加窗傅里叶变换的合成层，进而在变换域内更好地挖掘语音的特性。此外，采用门控卷积层搭建编码器和解码器以扩大感受野，更好地控制信息在层级结构中的传递，在编码器和解码器中间加入时间卷积模块以更好地学习语音的长时记忆特性，从而提高语音增强效果。同时，本发明提供了一种单通道的语音增强系统及一种语音增强网络模型。

Description

一种语音增强网络模型、单通道的语音增强方法及系统

技术领域

本发明涉及语音信号处理技术领域，特别是涉及一种单通道的语音增强方法、一种单通道的语音增强系统及一种语音增强网络模型。

背景技术

语音增强是指利用音频信号处理技术及各种算法提高失真语音信号的可懂度或整体感知质量，从而进一步在语音识别、语音通话、听力辅助以及声纹识别等场景中改善应用效果。传统的单通道语音增强算法包括谱减法、基于统计模型的算法和子空间算法等。但这类算法通常需要对语音信号和噪声各自的特性以及彼此是否相关等方面做出一定的前提假设，使其增强性能受到了限制。基于深度学习的语音增强算法目前大多采用的都是频域特征，如短时傅里叶变换幅度谱或者是对数功率谱，而增强语音的相位则由带噪语音的相位来代替，使得增强语音中相位和幅度存在一定的不匹配，导致“不一致语谱”问题。

发明内容

本发明的目的是提供一种单通道的语音增强方法，其通过加入了基于卷积层设计的准短时加窗傅里叶变换的分析层和准逆短时加窗傅里叶变换的合成层，进而在变换域内更好地挖掘语音的特性。此外，采用门控卷积层搭建编码器和解码器以扩大感受野，更好地控制信息在层级结构中的传递，在编码器和解码器中间加入时间卷积模块以更好地学习语音的长时记忆特性，从而提高语音增强效果。

本发明一方面提供了一种单通道的语音增强方法，该方法通过语音增强网络模型实现。语音增强网络模型包括：一个分析层、一个编码器、一个时间卷积模块、一个解码器和一个合成层。

分析层配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征。

编码器设置于分析层的输出端且从分析层接收初始维度的采样语音时域特征。编码器具有多层的门控卷积层。编码器通过多层的门控卷积层识别初始维度的采样语音时域特征，获取采样语音时域特征的第一识别权重值。

编码器的门控卷积层具有两个数据流。两个数据流对应两个残差连接。两个残差连接分别为门控残差连接和非门控残差连接。

时间卷积模块设置于编码器的输出端且能够从编码器接收第一识别权重值。时间卷积模块通过空洞卷积第一识别权重值获取第二识别权重值。

解码器设置于时间卷积模块的输出端且接收第二识别权重值。解码器具有多层的门控反卷积层。多层的门控反卷积层连接门控残差连接和非门控残差连接。解码器反卷积第二识别权重值获取具有初始维度的增强后语音时域特征。以及

合成层设置于解码器的输出端且从解码器获取增强后语音时域特征。合成层根据增强后语音时域特征获取增强后的语音数据。

本发明的第二方面，提供了一种语音增强网络模型，其包括：一个分析层、一个编码器、一个时间卷积模块、一个解码器和一个合成层。

解码器设置于时间卷积模块的输出端且接收第二识别权重值。解码器具有多层的门控反卷积层。多层的门控反卷积层连接门控残差连接和非门控残差连接。解码器反卷积第二识别权重值获取具有初始维度的增强后语音时域特征。

本发明的第三方面提供了一种单通道的语音增强系统，该系统包括：本发明中的语音增强网络模型。一个噪音语音信号输入单元和一个增强语音信号输出单元。

噪音语音信号输入单元，其配置于接收或采集多个采样点的带噪音采样数据且将采样点的带噪音采样数据输入语音增强网络模型。

语音增强网络模型，配置为根据带噪音采样数据获取增强后的语音数据。增强语音信号输出单元，配置为输出增强后的语音数据。

下文将以明确易懂的方式，结合附图对一种单通道的语音增强方法、一种单通道的语音增强系统及一种语音增强网络模型的特性、技术特征、优点及其实现方式予以进一步说明。

附图说明

图1是用于说明在本发明一种实施方式中，单通道的语音增强方法中的语音增强网络模型的组成及处理示意图。

图2是用于说明在本发明另一种实施方式中单通道的语音增强系统的组成示意图。

图3是用于说明在本发明再一种实施方式中，时间卷积模块中的残差块结构示意图。

图4是用于说明在本发明又一种实施方式中，基于门控线性单元的门控卷积结构框示意图。

具体实施方式

为了对发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式，在各图中相同的标号表示结构相同或结构相似但功能相同的部件。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中只示意性地表示出了与本示例性实施例相关的部分，它们并不代表其作为产品的实际结构及真实比例。

本发明一方面，提供了一种单通道的语音增强方法，该方法通过语音增强网络模型实现。如图1所示，语音增强网络模型包括：一个分析层101、一个编码器102、一个时间卷积模块103、一个解码器104和一个合成层105。

分析层101配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征。

编码器102设置于分析层101的输出端且从分析层101接收初始维度的采样语音时域特征。编码器102具有多层的门控卷积层。编码器102通过多层的门控卷积层识别初始维度的采样语音时域特征，获取采样语音时域特征的第一识别权重值。

编码器102的门控卷积层具有两个数据流。两个数据流对应两个残差连接。两个残差连接分别为门控残差连接和非门控残差连接。

时间卷积模块103设置于编码器102的输出端且能够从解码器104接收第一识别权重值。时间卷积模块103通过空洞卷积第一识别权重值获取第二识别权重值。

解码器104设置于时间卷积模块103的输出端且接收第二识别权重值。解码器104具有多层的门控反卷积层。多层的门控反卷积层连接门控残差连接和非门控残差连接。解码器104反卷积第二识别权重值获取具有初始维度的增强后语音时域特征。以及

合成层105设置于解码器104的输出端且从解码器104获取增强后语音时域特征。合成层105根据增强后语音时域特征获取增强后的语音数据。

在本发明单通道的语音增强方法的一种实施方式中，分析层101为一维卷积层。分析层101通过一维卷积层实现准短时加窗傅里叶变换。一维卷积层的初始权重值根据准短时加窗傅里叶变换的实部和虚部初始化。

分析层101通过一维卷积层卷积带噪音采样数据，获取初始维度的采样语音时域特征。

在本发明单通道的语音增强方法的另一种实施方式中，合成层105为一维反卷积层。合成层105通过一维反卷积层实现准逆短时加窗傅里叶变换。一维反卷积层的初始权重值根据准逆短时加窗傅里叶变换的实部和虚部初始化。

合成层105通过一维反卷积层卷积增强后语音时域特征，获取增强后的语音数据。

在本发明单通道的语音增强方法的再一种实施方式中，编码器102中多层的门控卷积层为二维的门控卷积层。在每层门控卷积层间包括依次处理的批量归一化层和激活函数层。

解码器104中多层的门控反卷积层为二维的门控反卷积层。在每两层门控反卷积层间设置一个随机失活层。在每层门控反卷积层间包括依次处理的批量归一化层和激活函数层。

在本发明单通道的语音增强方法的又一种实施方式中，时间卷积模块103采用一维卷积层。

时间卷积模块103由3个空洞模块组成。每个空洞模块由6个残差块依次连接组成。残差块的深度卷积层采用了空洞卷积。6个残差块的深度卷积层的扩张率依次为1，2，4，8，16，32。

时间卷积模块103通过3个空洞模块空洞卷积第一识别权重值获取第二识别权重值。

在本发明单通道的语音增强方法的又一种实施方式中，6个残差块中的每个残差块包括：输入卷积层、深度卷积层和输出卷积层。在输入卷积层和深度卷积层后加入依次处理的批量归一化层和激活函数层。

本发明的第二方面，提供了一种语音增强网络模型，如图1所示，其包括：一个分析层101、一个编码器102、一个时间卷积模块103、一个解码器104和一个合成层105。

解码器104设置于时间卷积模块103的输出端且接收第二识别权重值。解码器104具有多层的门控反卷积层。多层的门控反卷积层连接门控残差连接和非门控残差连接。解码器104反卷积第二识别权重值获取具有初始维度的增强后语音时域特征。

在本发明语音增强网络模型的一种实施方式中，分析层101为一维卷积层。分析层101通过一维卷积层实现准短时加窗傅里叶变换。一维卷积层的初始权重值根据准短时加窗傅里叶变换的实部和虚部初始化。

在本发明语音增强网络模型的另一种实施方式中，合成层105为一维反卷积层。合成层105通过一维反卷积层实现准逆短时加窗傅里叶变换。一维反卷积层的初始权重值根据准逆短时加窗傅里叶变换的实部和虚部初始化。

本发明的第三方面提供了一种单通道的语音增强系统，如图2所示，该系统包括：本发明中的语音增强网络模型202。一个噪音语音信号输入单元201和一个增强语音信号输出单元301。

噪音语音信号输入单元201，其配置于接收或采集多个采样点的带噪音采样数据且将采样点的带噪音采样数据输入语音增强网络模型。语音增强网络模型202配置为根据带噪音采样数据获取增强后的语音数据。增强语音信号输出单元301配置为输出增强后的语音数据。

本发明是一种针对单通道的基于全卷积神经网络的端到端语音增强方法。网络模型主要由编码器和解码器构成，并且在编码器的输入端和解码器的输出端分别加入了基于卷积层设计的准短时加窗傅里叶变换的分析层和准逆短时加窗傅里叶变换的合成层，进而在变换域内更好地挖掘语音的特性。此外，采用门控卷积层搭建编码器和解码器以扩大感受野，更好地控制信息在层级结构中的传递，在编码器和解码器中间加入时间卷积模块以更好地学习语音的长时记忆特性。整个模型的输入和输出都是时域信号。整个模型的网络框图如图1所示。

在本发明的一种实施方式中，本发明的具体内容包括：

首先，包含L个采样点的带噪语音数据被输入到模型中，经过分析层得到维度为2×T×257的特征作为编码器的输入特征，其中T表示帧的数目，采样率为16kHz。编码器由7层的门控卷积层组成，它的第一层将特征的通道数由2增加到16，因此第一层的输出特征维度为64×T×257。紧接着的6层都是不断进行特征压缩，同时扩大通道数，最后编码器的输出特征维度为64×T×4，在编码器中每一层的卷积层后都衔接着BN处理和PReLU函数。

其次，时间卷积模块位于编码器与解码器的中间，它采用一维卷积层，编码器的输出特征的维度由64×T×4改为256×T。时间卷积模块由3个空洞模块组成，每个空洞模块由6个如图3所示的残差块组成，这里的残差块的深度卷积层采用了空洞卷积，6个残差块的深度卷积层的扩张率依次为1，2，4，8，16，32。

最后，解码器与编码器相对应，它由7层的门控反卷积层组成。不同于简单的卷积层，门控卷积有2个数据流，因此也带来了2个残差连接分别为非门控残差连接和门控残差连接，如图1中所示。在训练阶段，解码器每两层会设置一个随机失活(Dropout)层，失活率为0.2。与编码器相同，解码器的每层卷积层后都会衔接BN处理和PReLU函数。

本发明中的单通道的语音增强方法在实验时，采用DNS数据集，验证了所提出算法的有效性。语音增强之前STOI和PESQ分别是0.9147和2.4498，经过本算法增强之后的STOI和PESQ分别是0.9520和3.0844。可见，语音质量和可懂度大大提升。

在本发明的一种实施方式中:

分析层ConvSTFT是由1层一维卷积层Conv1d组成。其权重由STFT的变换系数的实部和虚部来初始化。合成层ConvISTFT是由1层一维反卷积层DConv1d组成。其权重由ISTFT的变换系数的实部和虚部来初始化。

基于门控线性单元(Gated Linear Units,GLUs)的门控卷积层的框图如图3所示。我们分别采用二维的门控卷积层(GConv2d)和门控反卷积层(GDConv2d)来搭建编码器Encoder和解码器Decoder。这里在每一层卷积层和反卷积层之后都紧接着批量归一化层(Batch Normalization,BN)和激活函数PRelu层。

时间卷积模块(Temporal Convolutional Module，TCM)由3个因果空洞卷积块堆叠在一起，每个因果空洞卷积块由6个残差块组成。每个残差块包含3层卷积层：输入1×1卷积(Pointwise Convolution)层，深度卷积(Depthwise Convolution)层和输出1×1卷积(Pointwise Convolution)层，其结构图如图4所示。这里的深度卷积层采用了空洞卷积设计。6个残差块的深度卷积层的扩张率依次为1，2，4，8，16，32。在输入1×1卷积(PointwiseConvolution)层和深度卷积层之后紧接着激活函数PRelu层和批量归一化(BatchNormalization,BN)层。

其中，模型的结构和具体参数，如下表1所示：表1：模型的结构与具体参数。

分析层ConvSTFT/合成层ConvISTFT和时间卷积模块TCM中的参数格式对应为：

“filterHeight,dilatioRate,outputChannels”,每个小括号代表一个模块。

编码器/解码器层中的参数格式对应为：

“filterHeight,filterWidth,(stride along frame,stride alongfrequency)”。

表1

应当理解，虽然本说明书是按照各个实施方式中描述的，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种单通道的语音增强方法，其特征在于，该方法通过语音增强网络模型实现；

所述语音增强网络模型包括：

一个分析层，其配置为根据具有多个采样点的带噪音采样数据获取初始维度的采样语音时域特征；

一个编码器，其设置于所述分析层的输出端且从所述分析层接收所述初始维度的采样语音时域特征；所述编码器具有多层的门控卷积层；所述编码器通过多层的门控卷积层识别所述初始维度的采样语音时域特征，获取采样语音时域特征的第一识别权重值；

所述编码器的门控卷积层具有两个数据流；所述两个数据流对应两个残差连接；所述两个残差连接分别为门控残差连接和非门控残差连接；

一个时间卷积模块，其设置于所述编码器的输出端且能够从所述编码器接收所述第一识别权重值；所述时间卷积模块通过空洞卷积所述第一识别权重值获取第二识别权重值；

一个解码器，其设置于所述时间卷积模块的输出端且接收所述第二识别权重值；所述解码器具有多层的门控反卷积层；所述多层的门控反卷积层连接所述门控残差连接和非门控残差连接；所述解码器反卷积所述第二识别权重值获取具有所述初始维度的增强后语音时域特征；以及

一个合成层，其设置于所述解码器的输出端且从所述解码器获取增强后语音时域特征；所述合成层根据所述增强后语音时域特征获取增强后的语音数据。

2.根据权利要求1所述的语音增强方法，其特征在于，所述分析层为一维卷积层；所述分析层通过所述一维卷积层实现准短时加窗傅里叶变换；所述一维卷积层的初始权重值根据所述准短时加窗傅里叶变换的实部和虚部初始化；

所述分析层通过所述一维卷积层卷积所述带噪音采样数据，获取初始维度的采样语音时域特征。

3.根据权利要求2所述的语音增强方法，其特征在于，所述合成层为一维反卷积层；所述合成层通过所述一维反卷积层实现准逆短时加窗傅里叶变换；所述一维反卷积层的初始权重值根据所述准逆短时加窗傅里叶变换的实部和虚部初始化；

所述合成层通过所述一维反卷积层卷积所述增强后语音时域特征，获取增强后的语音数据。

4.根据权利要求2所述的语音增强方法，其特征在于，所述编码器中多层的门控卷积层为二维的门控卷积层；在每层门控卷积层间包括依次处理的批量归一化层和激活函数层；

所述解码器中多层的门控反卷积层为二维的门控反卷积层；在每两层门控反卷积层间设置一个随机失活层；在每层门控反卷积层间包括依次处理的批量归一化层和激活函数层。

5.根据权利要求1所述的语音增强方法，其特征在于，所述时间卷积模块采用一维卷积层；所述时间卷积模块由3个空洞模块组成；每个空洞模块由6个残差块依次连接组成；所述残差块的深度卷积层采用了空洞卷积；6个残差块的深度卷积层的扩张率依次为1，2，4，8，16，32；

所述时间卷积模块通过所述3个空洞模块空洞卷积所述第一识别权重值获取第二识别权重值。

6.根据权利要求5所述的语音增强方法，其特征在于，所述6个残差块中的每个残差块包括：输入卷积层、深度卷积层和输出卷积层；在输入卷积层和深度卷积层后加入依次处理的批量归一化层和激活函数层。

7.语音增强网络模型，其特征在于，包括：

一个解码器，其设置于所述时间卷积模块的输出端且接收所述第二识别权重值；所述解码器具有多层的门控反卷积层；所述多层的门控反卷积层连接所述门控残差连接和非门控残差连接；所述解码器反卷积所述第二识别权重值获取具有所述初始维度的增强后语音时域特征；

8.根据权利要求7所述的语音增强网络模型，其特征在于，所述分析层为一维卷积层；所述分析层通过所述一维卷积层实现准短时加窗傅里叶变换；所述一维卷积层的初始权重值根据所述准短时加窗傅里叶变换的实部和虚部初始化；

9.根据权利要求8所述的语音增强网络模型，其特征在于，所述合成层为一维反卷积层；所述合成层通过所述一维反卷积层实现准逆短时加窗傅里叶变换；所述一维反卷积层的初始权重值根据所述准逆短时加窗傅里叶变换的实部和虚部初始化；

10.一种单通道的语音增强系统，其特征在于，该系统包括：权利要求7～9中任一项的语音增强网络模型；一个噪音语音信号输入单元和一个增强语音信号输出单元；

所述噪音语音信号输入单元，其配置于接收或采集多个采样点的带噪音采样数据且将所述采样点的带噪音采样数据输入所述语音增强网络模型；

所述语音增强网络模型，配置为根据所述带噪音采样数据获取增强后的语音数据；

所述增强语音信号输出单元，配置为输出增强后的语音数据。