CN115206331B

CN115206331B - 基于锥形残差密集网络的语音超分辨率方法

Info

Publication number: CN115206331B
Application number: CN202210663104.5A
Authority: CN
Inventors: 杨俊美; 彭一鸣; 林灏森; 陈习坤
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2024-04-05
Anticipated expiration: 2042-06-13
Also published as: CN115206331A

Abstract

本发明公开了一种基于锥形残差密集网络的语音超分辨率方法，包括：获取原始低分辨率语音信号LR；构建锥形残差密集网络，锥形残差密集网络包括三个特征提取及融合分支EFB和一个主干融合分支，三个特征提取及融合分支分别专注于低分辨率语音信号的不同特征进行语音超分辨率建模，提取原始语音信号的频域的幅值特征、频域的相位特征和时域像素点位特征，最终由主干融合分支各个层次及各种类型的特征图谱，最终输出高分辨率语音信号HR。本发明方法引入了残差密集块，设计了锥形残差密集网络，该网络以较低的参数量在频域和时域指标方面取得优于主流算法的语音超分辨率恢复效果。

Description

基于锥形残差密集网络的语音超分辨率方法

技术领域

本发明属于语音超分辨率技术领域，具体涉及一种基于锥形残差密集网络的语音超分辨率方法。

背景技术

语音超分辨率是从低分辨率(Low-Resolution，LR)语音重建和恢复高分辨率(High-Resolution，HR)语音，提高语音质量的任务。具体而言，语音超分辨率任务从时域的角度看，它通过建立从低分辨率语音波形到高分辨率语音波形的映射关系，提高音频信号在单位时间的时域采样率；从频域的角度看，它通过重建音频信号缺失的高频分量，扩展窄带宽信号的带宽。因此，语音超分辨率任务也被称为时间序列超分辨率或语音带宽扩展。

受图像超分辨率任务的启发，Kuleshov.V等人首次在语音超分辨率任务中引入了深度卷积神经网络的架构，并取得了在各方面指标都优于传统信号处理方法的成果。由于该网络是一个利用一维卷积直接作用于一维语音信号的U-Net，所以也被广泛地称作AudioUNet。此后，众多学者在AudioUNet的框架和结构上作出了不同程度的改进，推进了语音超分辨率任务的研究。

然而，现有的研究中，还未跳出U-Net这一整体框架的限制，仅在具备相同特征尺寸的两层对称编码器和解码器使用跳跃链接，而这样限制性的特征融合方案难以充分利用各个卷积层的提取的信息。除此之外，在语音超分辨率这一领域，同时针对语音信号的时域和频域信息进行建模和特征提取也未得到充分的重视，根据语音任务的时频特性进行网络设计的研究还不深入。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出一种基于锥形残差密集网络的语音超分辨率方法，引入了残差密集块，设计了锥形残差密集网络，该网络以较低的参数量在频域和时域指标方面取得优于主流算法的语音超分辨率恢复效果。

为了达到上述目的，本发明采用以下技术方案：

基于锥形残差密集网络的语音超分辨率方法，包括：

获取原始低分辨率语音信号LR；

构建锥形残差密集网络，锥形残差密集网络包括下层的三个特征提取及融合分支EFB和上层的一个主干融合分支，三个特征提取及融合分支分别专注于低分辨率语音信号的不同特征进行语音超分辨率建模，提取原始语音信号的频域的幅值特征、频域的相位特征和时域像素点位特征，最终由主干融合分支融合各个层次及各种类型的特征图谱，最终输出高分辨率语音信号HR。

进一步的，三个特征提取及融合分支，具体为：频域幅值EFB、频域相位EFB以及时域EFB，是适配于一维语音信号特征的语音超分辨率子网络，输入维度为L×c的单通道或多通道的低分辨率特征图谱，输出维度为(L×sca)×1的单通道高分辨率特征矢量，其中第一个维度表示特征图谱的时间维度，第二个维度表示特征图谱的特征通道维度，L表示低分辨率语音信号的长度，sca表示语音信号的放大倍数，c表示输出的特征通道数量。

进一步的，频域幅值EFB和频域相位EFB在根据语音信号的频域幅值和频域相位信息进行建模时，对原始语音信号进行特征提取，经过多个RDB块和一个局部特征融合层LFF，分别输出频域幅值和频域相位超分辨率特征矢量，再利用频域特征融合层分别从这两组超分辨率特征矢量提取DFT的幅值信息和相位信息，然后使用离散时间傅立叶逆变换将幅值和相位信息融合为频域融合超分辨率特征矢量，使EFB学习不同类型的特征；

时域EFB直接以原始低分辨率语音信号的波形作为输入，分别经过多个RDB块和一个局部特征融合层LFF，然后输出时域超分辨率特征矢量；

对时域EFB输出的时域超分辨率特征矢量和两个频域EFB合成的频域融合超分辨率特征矢量进行像素逆洗牌操作，将两组特征矢量分别重新映射为L×d的特征图谱，两者在特征通道维度进行拼接后，即得到主干融合分支的输入，保证三个下层EFB与主干融合分支在内部各个层次间产生相同尺寸的特征图谱；

时域EFB的输出、频域特征融合层的输出以及主干融合分支的输出之间设置加性跳跃连接，形成上层主干融合分支和下层EFB的最终输出之间的残差连接。

进一步的，特征提取及融合分支EFB的结构依次包括：

一个一维卷积层、K个串联的RDB块、局部特征融合层LFF以及上采样块；RDB块之间设置堆叠式的跳跃连线，对特征进行级联拼接；

局部特征融合层具体包括特征通道串联拼接层、一维卷积层以及LeakyReLu单元；局部特征融合层的卷积层包含低数量的卷积核，自适应地融合前面各个RDB块产生的特征图谱，缩短在反向传播的过程中梯度抵达各RDB块所经过的传播距离，减少特征信息经过各卷积层的损耗，从而高效地利用各RDB块产生的特征图谱；

上采样块具体包括一维卷积层、LeakyReLu单元以及亚像素卷积层；上采样块用于完成超分辨率语音信号的重建，进一步压缩局部特征融合层输出的特征通道数量，然后将sca个特征通道的特征图谱整合到时间维度，最终输出在时间维度放大后的超分辨率特征矢量；

主干融合分支具体结构包括：

一个一维卷积层、K个串联的RDB块和特征拼接层Concat、局部特征融合层LFF以及上采样块；RDB块之间设置堆叠式的跳跃连线，对特征进行级联拼接；Concat层对前一RDB块和下层EFB中同一层次RDB输出的特征图谱进行串联拼接，充分利用各个层次提取的信息。

进一步的，RDB块，即残差密集块，具体为多个卷积及LeakyReLu单元组成的层级联而成，每个卷积层的输入由上一卷积层的输出和输入在特征通道维度串联拼接而成，同时在RDB块的输入和输出间增加加性跳跃连接，形成残差学习；

RDB块的每一层都获得来自本RDB块内前面各层的输出，同时将前一个RDB块的输出传递到当前RDB块的每一层，从而在RDB块的内部形成了密集连接的残差网络；

对于由K个RDB块组成的网络，令各个RDB块内部的卷积层层数为T，则第k个RDB块的第t个卷积层的输出C_k,t建模为：

C_k,t＝σ(W_k,t[C_k-1,C_k,1,…,C_k,t-1])

其中，W_k,t为第k个RDB块的第t个卷积层的卷积核权重，G_k-1表示第(k-1)个RDB块的输出特征图谱，[G_k-1,C_k,1,…,C_k,t-1]表示特征通道的级联拼接，σ表示非线性激活函数LeakyReLu，表示为：

其中，λ为负斜率系数。

进一步的，在局部特征融合层，特征图谱的融合表示为：

V_LF＝σ(W_LFF([G₁,…,G_k,…,G_K]))

其中，W_LFF为局部特征融合层的卷积核权重，G_k表示第k个RDB块输出的特征图谱，[G₁,…,G_k,…,G_K]表示对EFB前部1到K个RDB块产生的特征图谱进行特征通道的级联拼接。

进一步的，亚像素层具体进行像素洗牌和逆洗牌操作，像素洗牌具体为：

将L×d的特征图谱映射为(L×sca)×(d/sca)的特征图谱，sca为语音超分辨率任务中的放大倍数；

逆洗牌操作是洗牌操作的逆过程，将(L×sca)×(d/sca)的特征图谱重新映射为L×d的特征图谱。

进一步的，频域特征融合层的操作为：

频域幅值EFB及频域相位EFB，分别学习语音信号的频域幅值和相位信息，具体如下：

对于频域幅值EFB输出的超分辨率特征矢量V_EFB,1进行DFT变换，并取各个频点的DFT幅值：

V_mag＝|DFT(V_EFB,1)|

对于频域相位EFB输出的超分辨率特征矢量V_EFB,2进行DFT变换，并取各个频点的DFT相位：

V_arg＝atan2(DFT(V_EFB,1))

利用欧拉公式融合特征矢量V_mag和V_arg：

对融合后的特征矢量V_mix执行DFT逆变换，恢复出时域上的频域融合超分辨率特征矢量：

X_fre＝IDFT(V_fre)。

进一步的，频域特征融合层对频域幅值EFB和频域相位EFB输出的超分辨率特征矢量进行频域上的融合；

对于长度为N的离散序列x(n)，其DFT表示如下：

X(m)的实部和虚部分别为：

则x(n)的DFT幅值及相位表示为：

X_arg(m)＝atan2(X_i(m),X_r(m)),

其中，atan2(y,x)所表达的几何含义是，以坐标原点为起点，指向(x,y)的矢量在平面坐标轴上与x轴正方向的夹角的弧度，其值域为(-π,π]；具体含义为，当y＞0时，atan2(y,x)表示指向坐标(y,x)的射线与x轴正方向绕逆时针方向到达射线的旋转角的弧度；当y＜0时，atan2(y,x)表示指向坐标(y,x)的射线与x轴正方向绕顺时针方向到达射线的旋转角的弧度。

进一步的，主干融合分支的第k个RDB块的第t个卷积层的输出建模为：

其中和/>分别为频域幅值EFB、频域相位EFB和时域EFB的第(k-1)层RDB块的输出；/>表示主干融合分支的第(k-1)个RDB块的输出；

最终输出的超分辨率语音信号表示为：

X_SR＝X_fre+X_time+X_main,

其中，X_main为主干融合分支输出的特征矢量。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明首次在语音超分辨率领域引入了残差密集块，该结构能充分地利用网络不同层次提取的特性，并进行了适配于一维语音信号的改动和设计；设计了一种在不同分支分别依据频域幅值信息、频域相位信息和时域像素点位信息进行建模和特征提取，并在最后的输出主分支进行特征融合的锥形网络架构，该架构与残差密集块共同组成锥形残差密集网络，该网络以较低的参数量即可在频域和时域指标方面取得优于主流算法的语音超分辨率恢复效果。

附图说明

图1是锥形残差密集网络的平面结构示意图；

图2是锥形残差密集网络的立体结构示意图；

图3是残差密集块RDB结构示意图；

图4是特征提取及融合分支示意图；

图5是一维像素洗牌和逆洗牌示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明，基于锥形残差密集网络的语音超分辨率方法，包括：

获取原始低分辨率语音信号LR(Low-Resolution,LR)；

构建锥形残差密集网络；

如图1、图2所示，锥形残差密集网络(Taper residual dense Net,TNet)包括下层的三个特征提取及融合分支EFB(feature Extraction and Fusion Branch,EFB)和上层的一个主干融合分支，三个特征提取及融合分支分别专注于低分辨率语音信号的不同特征进行语音超分辨率建模，提取原始语音信号的频域的幅值特征、频域的相位特征和时域像素点位特征，最终由主干融合分支各个层次及各种类型的特征图谱，最终输出高分辨率语音信号HR(High-Resolution,HR)。

在本实施例中，如图2所示，三个特征提取及融合分支，具体为频域幅值EFB、频域相位EFB以及时域EFB，是适配于一维语音信号特征的语音超分辨率子网络，输入维度为L×c的单通道或多通道的低分辨率特征图谱，输出维度为(L×sca)×1的单通道高分辨率特征矢量，其中第一个维度表示特征图谱的时间维度，第二个维度表示特征图谱的特征通道维度，L表示低分辨率语音信号的长度，sca表示语音信号的放大倍数，c表示输出的特征通道数量；

频域幅值EFB和频域相位EFB在根据语音信号的频域幅值和频域相位信息进行建模时，对原始语音信号进行特征提取，经过多个RDB块和一个局部特征融合层LFF，分别输出频域幅值和频域相位超分辨率特征矢量，再利用频域特征融合层分别从这两组超分辨率特征矢量提取DFT的幅值信息和相位信息，然后使用离散时间傅立叶逆变换将幅值和相位信息融合为频域融合超分辨率特征矢量，使EFB学习不同类型的特征；这样的设计能够带来两方面的好处，一方面，可以最大限度地保留原始低分辨率语音信号的特征，避免人为的特征工程，即DFT变换，可能带来的特征损失和畸变；另一方面，能够保持三个EFB以及主干融合分支特征维度大小的一致性，使得下层三个EFB的内部RDB块所产生的特征图谱，可以通过跳跃连接直接传递到主干融合分支内部的RDB块，从而实现对特征的高效利用。

如图4所示，特征提取及融合分支EFB的结构依次包括：

一个一维卷积层、K个串联的RDB块、局部特征融合层LFF(Local Feature Fusion,LFF)以及上采样块；RDB块之间设置堆叠式的跳跃连线，对特征进行级联拼接；

上采样块具体包括一维卷积层、LeakyReLu单元以及亚像素卷积层(sub-pixelconvolution)；上采样块用于完成超分辨率语音信号的重建，进一步压缩局部特征融合层输出的特征通道数量，然后将sca个特征通道的特征图谱整合到时间维度，最终输出在时间维度放大后的超分辨率特征矢量；

主干融合分支具体结构为：

一个一维卷积层、K个串联的RDB块和特征拼接层Concat、局部特征融合层LFF以及上采样块；RDB块之间设置堆叠式的跳跃连线，对特征进行级联拼接；Concat层对前一RDB块和下层EFB中同一层次RDB块输出的特征图谱进行串联拼接，充分利用各个层次提取的信息。

如图3所示，RDB块，即残差密集块(Residual dense block,RDB)，

具体为多个卷积及LeakyReLu单元组成的层级联而成，每个卷积层的输入由上一卷积层的输出和输入在特征通道维度串联拼接而成，同时在RDB块的输入和输出间增加加性跳跃连接，形成残差学习；

RDB块的每一层都获得来自本RDB块内前面各层的输出，同时将前一个RDB块的输出传递到当前RDB块的每一层，从而在RDB块的内部形成了密集连接的残差网络；实现了连续记忆机制(Contiguous Memory,CM)。这意味着RDB的每一层都能获得最初的输入及前面各层输出的特征图谱(Feature vectors)，使得网络能够充分利用各层产生的数据，形成了多个残差网络。从效果上，相当于鼓励本层自适应地去学习前面各层尚未学习到的“残余”信息，从而高效地利用了卷积神经网络所有层次输出的特征。

C_k,t＝σ(W_k,t[C_k-1,C_k,1,…,C_k,t-1])

其中，W_k,t为第k个RDB块的第t个卷积层的卷积核权重，G_k-1表示第(k-1)个RDB块的输出特征图谱，[G_k-1,C_k,1,…,C_k,t-1]表示特征通道的级联拼接，σ表示非线性激活函数，本实施例中使用的激活函数为LeakyRelu，表示为：

其中，λ为负斜率系数。

在局部特征融合层，特征图谱的融合表示为：

V_LF＝σ(W_LFF([G₁,…,G_k,…,G_K]))

其中，W_LFF为局部特征融合层的卷积核权重，G_k表示第k个RDB块输出的特征图谱，[G₁,…,G_k,…,G_K]表示对EFB前部1到K个RDB产生的特征图谱进行特征通道的级联拼接。局部特征融合层的拼接和卷积操作，使得EFB能够通过调整卷积层的可训练权重，自适应地融合一系列不同层次的特征图谱，减少特征信息经过各卷积层的损耗，从而高效地利用各RDB块产生的特征图谱。同时，缩短在反向传播的过程中梯度抵达各RDB块所经过的传播距离，降低深度卷积网络发生梯度消失和梯度爆炸的可能性。

亚像素层具体进行像素洗牌和逆洗牌操作，如图5所示，像素洗牌具体为：

频域特征融合层的操作为：

V_mag＝|DFT(V_EFB,1)|

V_arg＝atan2(DFT(V_EFB,1))

利用欧拉公式融合特征矢量V_mag和V_arg：

X_fre＝IDFT(V_fre)。

这样的频域幅值及相位特征融合方式能够强制网络根据语音信号的频谱幅度和相位特征进行建模，同时，有选择地从不同的EFB子网络分别提取频谱幅值和相位特征，也可以使得不同的分支专注于学习语音信号不同类型的潜在特征，避免学习到同质化的冗余信息，从而增强整体的网络对于潜在样本空间的拟合能力。

频域特征融合层对频域幅值EFB和频域相位EFB输出的高分辨率特征矢量进行频域上的融合；

对于长度为N的离散序列x(n)，其DFT表示如下：

X(m)的实部和虚部分别为：

则x(n)的DFT幅值及相位表示为：

X_arg(m)＝atan2(X_i(m),X_r(m)),

主干融合分支的第k个RDB块的第t个卷积层的输出建模为：

最终输出的超分辨率语音信号表示为：

X_SR＝X_fre+X_time+X_main,

其中，X_main为主干融合分支输出的特征矢量。

还需要说明的是，在本说明书中，诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.基于锥形残差密集网络的语音超分辨率方法，其特征在于，包括：

获取原始低分辨率语音信号LR；

构建锥形残差密集网络，锥形残差密集网络包括下层的三个特征提取及融合分支EFB和上层的一个主干融合分支，三个特征提取及融合分支EFB分别专注于低分辨率语音信号的不同特征进行语音超分辨率建模，提取原始语音信号的频域的幅值特征、频域的相位特征和时域像素点位特征，最终由主干融合分支融合各个层次及各种类型的特征图谱，最终输出高分辨率语音信号HR；

三个特征提取及融合分支EFB，具体为：频域幅值EFB、频域相位EFB以及时域EFB，是适配于一维语音信号特征的语音超分辨率子网络，输入维度为L×c的单通道或多通道的低分辨率特征图谱，输出维度为(L×sca)×1的单通道高分辨率特征矢量，其中第一个维度表示特征图谱的时间维度，第二个维度表示特征图谱的特征通道维度，L表示低分辨率语音信号的长度，sca表示语音信号的放大倍数，c表示输出的特征通道数量；

频域幅值EFB和频域相位EFB在根据语音信号的频域幅值和频域相位信息进行建模时，对原始语音信号进行特征提取，经过多个RDB块和一个局部特征融合层LFF，分别输出频域幅值和频域相位超分辨率特征矢量，再利用频域特征融合层分别从这两组超分辨率特征矢量提取DFT的幅值信息和相位信息，然后使用离散时间傅立叶逆变换将幅值和相位信息融合为频域融合超分辨率特征矢量，使EFB学习不同类型的特征；

时域EFB的输出、频域特征融合层的输出以及主干融合分支的输出之间设置加性跳跃连接，形成上层主干融合分支和下层EFB的最终输出之间的残差连接；

特征提取及融合分支EFB的结构依次包括：

主干融合分支具体结构包括：

2.根据权利要求1所述的基于锥形残差密集网络的语音超分辨率方法，其特征在于，RDB块，即残差密集块，具体为多个卷积及LeakyReLu单元组成的层级联而成，每个卷积层的输入由上一卷积层的输出和输入在特征通道维度串联拼接而成，同时在RDB块的输入和输出间增加加性跳跃连接，形成残差学习；

C_k,t＝σ(W_k,t[C_k-1,C_k,1,…,C_k,t-1])

其中，λ为负斜率系数。

3.根据权利要求1所述的基于锥形残差密集网络的语音超分辨率方法，其特征在于，在局部特征融合层，特征图谱的融合表示为：

V_LF＝σ(W_LFF([G₁,…,G_k,…,G_K]))

4.根据权利要求1所述的基于锥形残差密集网络的语音超分辨率方法，其特征在于，亚像素层具体进行像素洗牌和逆洗牌操作，像素洗牌具体为：

5.根据权利要求1所述的基于锥形残差密集网络的语音超分辨率方法，其特征在于，频域特征融合层的操作为：

V_mag＝|DFT(V_EFB,1)|

V_arg＝atan2(DFT(V_EFB,1))

利用欧拉公式融合特征矢量V_mag和V_arg：

X_fre＝IDFT(V_fre)。

6.根据权利要求4所述的基于锥形残差密集网络的语音超分辨率方法，其特征在于，频域特征融合层对频域幅值EFB和频域相位EFB输出的超分辨率特征矢量进行频域上的融合；

对于长度为N的离散序列x(n)，其DFT表示如下：

X(m)的实部和虚部分别为：

则x(n)的DFT幅值及相位表示为：

X_arg(m)＝atan2(X_i(m),X_r(m)),

7.根据权利要求1所述的基于锥形残差密集网络的语音超分辨率方法，其特征在于，主干融合分支的第k个RDB块的第t个卷积层的输出建模为：

最终输出的超分辨率语音信号表示为：

X_SR＝X_fre+X_time+X_main,

其中，X_main为主干融合分支输出的特征矢量。