CN113571074A

CN113571074A - 基于多波段结构时域音频分离网络的语音增强方法及装置

Info

Publication number: CN113571074A
Application number: CN202110910066.4A
Authority: CN
Inventors: 刘文璟; 展华益
Original assignee: Sichuan Cric Technology Co ltd
Current assignee: Sichuan Cric Technology Co ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-10-29
Anticipated expiration: 2041-08-09
Also published as: CN113571074B

Abstract

本发明公开了一种基于多波段结构时域音频分离网络的语音增强方法及装置，方法包括：采集待增强的单通道语音数据；利用时域音频分离网络将待增强语音信号分解为各子波段内的时域增强信号；通过基于多波段结构的信号处理框架中的多波段信号合成网络将各子波段内的时域增强信号重构为单通道增强语音。本发明具有多种实现架构的时域音频分离网络与多波段结构信号处理框架的结合显著增加了该语音增强方法的灵活性以及鲁棒性。本发明极大提高了增强语音信号的信噪比、语音质量感知评价等语音质量指标，能够对待增强语音中的非平稳噪声部分进行有效抑制，大幅提升了短时客观可懂度，主观平均意见分等语音可懂度及听感指标。

Description

基于多波段结构时域音频分离网络的语音增强方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于多波段结构时域音频分离网络的语音增强方法及装置。

背景技术

随着人工智能等技术在语音处理领域的广泛普及，以语音识别技术(ASR)、语音合成技术(TTS)为代表的智能语音技术得到了飞速发展，对语音增强技术的需求也急剧上升，特别是在伴随着大量噪声的远场语音应用相关场景中。语音增强的主要目标是去除待增强语音信号中的噪声部分，从而还原出纯净语音部分，改善语音质量，进一步提高语音的听感和可懂度等指标。

以谱减法、维纳滤波为代表的基于传统语音处理的技术是最为常见的单通道语音增强方案。比如CN105489226A提供了一种基于多窗谱估计的维纳滤波语音增强方法，通过多窗谱估计和小波阈值去除噪声项得到近似纯净的语音谱，然后与维纳滤波处理后的语音谱相比较，根据不同的失真类型选择相应的谱作为最终增强的语音谱。

近年来，基于深度学习的语音增强逐渐成为了业界的主流方案，其中涉及的深度学习网络包含全连接神经网络、卷积神经网络、全卷积神经网络、循环神经网络、生成对抗网络等各式各样的框架。基于深度学习的单通道语音增强又主要分为变换域掩模(mask)估计方法和时域端到端方法。其中变换域掩模估计方法中较为常用的是基于短时傅里叶变换(STFT)幅度谱的理想浮值掩模(IRM)，以及基于复数谱的复数浮值掩模(cIRM)。前者通过结合对STFT幅度谱的估计以及带噪相位，利用STFT逆变换对语音进行增强，后者则是同时对STFT的幅度谱和相位进行估计来重建增强信号。例如CN111754983A提供了一种语音去噪方法、装置、电子设备及存储介质，采用神经网络模型利用信号的STFT频谱图对纯净语音的幅度谱进行估计，再结合带噪相位通过STFT逆变换完成增强信号重建，达到语音去噪的目的。

现有的语音增强方法，主要存在着以下问题：

(1)传统语音增强方法等对非平稳噪音抑制作用不佳，在复杂的声音环境中，如商场、酒吧等嘈杂场景难以取得理想的噪声抑制效果。

(2)基于STFT时频掩模深度学习方法存在着未充分利用相位信息或相位预测不准等问题，并且模型的参数量及运算量过高容易引入系统时延，在落地部署上存在着一定的困难。

(3)基于时域端到端的深度学习语音增强方法，例如生成对抗网络语音增强方法则在信噪比、听感相关的指标上和变换域掩模估计的方法存在一定的差距。

发明内容

本发明提供了一种基于多波段结构时域音频分离网络的语音增强方法及装置，以解决基于传统语音处理技术的增强方法对非平稳噪声处理效果不理想以及基于深度学习的语音增强方法中普遍存在的一系列问题。

本发明采用的技术方案是：提供一种基于多波段结构时域音频分离网络的语音增强方法，包括：

采集待增强的单通道语音数据；

利用时域音频分离网络将待增强语音信号分解为各子波段内的时域增强信号；

通过基于多波段结构的信号处理框架中的多波段信号合成网络将各子波段内的时域增强信号重构为单通道增强语音。

作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式，由时域音频分离网络和多波段信号合成网络共同组成的神经网络模型的训练步骤包括：

获取用于训练的纯净语音数据和带噪语音数据，其中，所述带噪语音数据是通过将纯净语音数据与噪音数据按随机分配的信噪比进行混合获得；

将带噪语音信号输入至神经网络模型获得增强语音及其各子波段内的时域增强信号；

利用基于多波段结构的信号处理框架中的多波段信号分解将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号，作为带噪语音各子波段内对应的时域增强信号的标签；

计算多波段损失函数并通过反向传播对神经网络模型进行训练，直至多波段损失函数达到收敛。

作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式，所述计算多波段损失函数的方法包括：

对增强语音及其各子波段内对应的时域增强信号与相应标签之间的基本损失函数进行加权平均，其中所述基本损失函数的设定至少包括：幂压缩短时傅里叶时频谱均方差、尺度不变信噪比。

作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式，所述时域音频分离网络的构建方法包括：

提取待增强语音信号的特征表示；

对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测，并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计；

将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。

作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式，对提取待增强语音信号的特征表示的方法包括：利用基于一维卷积网络的线性编码器。

作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式，所述将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号的方法包括：利用基于一维反卷积网络和重叠相加法的解码器。

作为基于多波段结构时域音频分离网络的语音增强方法的一种优选方式，所述基于多波段结构的信号处理框架包括：

由倍率为子波段总数的下采样操作和完美重建滤波器组中的合成滤波器实现的多波段信号合成网络将各子波段内通过解码获得的时域增强信号重构为单通道增强语音；

由完美重建滤波器组中的分解滤波器实现的多波段信号分解将纯净语音信号分解为各子波段内的时域波形，作为待增强语音信号各子波段内时域增强信号的对应标签。

本发明还提供一种基于多波段结构时域音频分离网络的语音增强装置，所述装置包括：

语音数据采集模块，用于采集待增强的单通道语音数据；

时域音频分离网络模块，用于将待增强语音信号分解为各子波段内的时域增强信号；

多波段信号合成模块，用于将待增强信号各子波段内的时域增强信号重构为单通道增强语音。

作为基于多波段结构时域音频分离网络的语音增强装置的一种优选方式，还包括神经网络模型训练单元，所述训练单元包括：

语音数据获取模块，用于获取用于训练的纯净语音数据和带噪语音数据；

语音增强模块，用于将带噪语音信号输入至神经网络模型获得增强语音及其各子波段内的时域增强信号；

多波段信号分解模块，基于多波段结构的信号处理框架中的多波段信号分解用于将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号，作为带噪语音各子波段内对应的时域增强信号的标签；

损失函数计算模块，计算多波段损失函数并通过反向传播对神经网络模型进行训练，直至多波段损失函数达到收敛。

作为基于多波段结构时域音频分离网络的语音增强装置的一种优选方式，还包括时域音频分离网络的构建单元，所述时域音频分离网络的构建单元包括：

提取模块，用于提取待增强语音信号的特征表示；

特征表示估计模块，用于对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测，并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计；

解码模块，用于将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。

本发明的有益效果是：

(1)区别于传统单通道语音增强方法中对信号进行整体处理的思路，本发明提出了采取信号分解与合成思路的语音信号增强方法，利用时域音频分离网络取代基于多波段结构信号处理的完美重建滤波器组中的分解滤波器，并且在线性编码器的特征表示空间中利用掩模预测的方式实现了对输入语音信号的增强过程，最后再与相对应的合成滤波器相结合完成对时域增强信号的重建。具有多种实现架构的时域音频分离网络与多波段结构信号处理框架的结合显著增加了该语音增强方法的灵活性以及鲁棒性，并在不同数据集上进行了多项性能指标测试，相较于传统语音增强方法，去噪性能获得了大幅度提升。

(2)利用时域音频分离网络中的编码器-解码器结构取代传统语音增强方法中的短时傅里叶变换及逆变换操作，实现了对信号的自适应学习的编码和解码，能够通过数据驱动的方式更好地学习语音信号的特征表示。相较于时频域方法中常用的短时傅里叶变换及逆变换，通过一维卷积和反卷积运算实现的线性编码器-解码器结构回避了时频域方法中相位信息缺失和相位估计不准确等问题所造成的影响，急剧提高了增强语音信号的信噪比(SNR)、语音质量感知评价(PESQ)等语音质量指标。

(3)使用与多波段结构信号处理框架相匹配的损失函数对神经网络模型进行训练，通过在增强信号与纯净信号整体差异的基础上增加它们在各子波段内对应部分的差异来进一步对神经网络的参数进行调整，从而能够对待增强语音中的非平稳噪声部分进行有效抑制，大幅提升了短时客观可懂度(STOI)，主观平均意见分(MOS)等语音可懂度及听感指标。

附图说明

图1为本发明公开的基于多波段结构时域音频分离网络的语音增强方法的流程示意图。

图2为本发明公开的神经网络模型的训练方法的流程示意图。

图3为本发明公开的时域音频分离网络的构建方法的流程示意图。

图4为本发明公开的基于多波段结构时域音频分离网络的语音增强装置的结构框图。

图5为本发明公开的神经网络模型训练单元的结构框图。

图6为本发明公开的时域音频分离网络的构建单元的结构框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步详细描述，但本发明的实施方式不限于此。

实施例1：

参见图1，本实施例提供一种基于多波段结构时域音频分离网络的语音增强方法，该方法包括如下步骤：

S110：采集待增强的单通道语音数据。

具体实施例中，以Fs＝16kHz的采样率采集任意长度的待增强语音片段，输入到训练好的神经网络模型中。

S111：利用时域音频分离网络将待增强语音信号分解为各子波段内的时域增强信号。

具体实施例中，通过时域音频分离网络获得的各子波段内时域增强信号的采样率与待增强语音片段相同。

S112：通过基于多波段结构的信号处理框架中的多波段信号合成网络将各子波段内的时域增强信号重构为单通道增强语音。

具体的，所述基于多波段结构的信号处理框架包括：

由倍率为子波段总数的下采样操作和完美重建滤波器组中的合成滤波器实现的多波段信号合成网络将各子波段内通过解码获得的时域增强信号重构为单通道增强语音。

其中完美重建滤波器组的具体方案可采用4通道的Pseudo-QMF或GammatoneFilterbank。

进一步的，参见图2，由S111和S112共同组成的神经网络模型的训练步骤包括：

S210：获取用于训练的纯净语音数据和带噪语音数据，其中，所述带噪语音数据是通过将纯净语音数据与噪音数据按随机分配的信噪比进行混合获得。

具体实施例中，可选用Fs＝16k采样率的纯净语音数据集及噪音数据集，首先将每条纯净语音信号分割为时长为4s的纯净语音片段，再从噪声数据集中随机截取一段相同长度的噪音信号进行匹配，并随机分配一个-5dB到20dB范围内的信噪比进行混合，依照随机分配的信噪比大小分别对纯净语音和噪音进行相应的幅度变换，最终通过叠加生成相应的带噪语音片段，最终将对应的带噪语音片段和纯净语音片段分别作为输入和标签，按照一定比例划分出训练集、验证集以及测试集。

S211：将带噪语音信号输入到所述神经网络模型获得增强语音及其各子波段内的时域增强信号。

S212：利用基于多波段结构的信号处理框架中的多波段信号分解将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号，作为带噪语音各子波段内对应的时域增强信号的标签。

具体实施例中，多波段信号分解可由与多波段信号合成相同的完美重建滤波器组中的分解滤波器实现。此外还需要注意的是，假设子波段总数为M,通过多波段信号分解获得的时域增强信号的标签的采样率为Fs/M。

S213：计算多波段损失函数并通过反向传播对神经网络模型进行训练，直至多波段损失函数达到收敛。

具体实施例中，计算多波段损失函数是对增强语音及其各子波段内对应的时域增强信号与相应标签之间的基本损失函数进行加权平均，其中所述基本损失函数可以采用幂压缩短时傅里叶时频谱均方差(Power law compressed STFT MSE)、尺度不变信噪比(SI-SNR)等损失函数。

进一步的，参见图3，S111中，所述时域音频分离网络的构建方法包括：

S220：提取待增强语音信号的特征表示。

对所述提取待增强语音信号的特征表示的方法，包括：利用基于一维卷积网络的线性编码器。

具体实施例中，所述一维卷积网络由一个卷积核大小为L＝40,步长为L/2＝20，输入通道数为1，输出通道数为D＝256的一维卷积网络层和一个线性整流层实现。

S221：对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测，并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计。

具体的，对掩模进行预测的方法，包括利用多层堆叠的时域卷积网络或多层堆叠的双路循环神经网络。

具体的，以堆叠的时域卷积网络为例，每层时域卷积网络根据其层数设置对应层卷积的扩张系数以提高感受视野，此外每层的输入和输出之间存在跳跃连接。掩模预测将重复3次8层结构的时域卷积网络层，每层时域卷积层先通过1*1卷积模块进行特征维度变换，再采用尺寸为P＝3,步长为1的卷积核沿时间维度进行一维卷积，第X层的扩张系数设置为2^(X-1)；每个卷积层前均采用层归一化和参数化线性整流激活函数进行处理，最后再通过1*1卷积将特征维度还原，预测出与编码器特征表示相同结构的纯净信号对应掩模。

S222：将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。

具体的，是将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号的方法包括：利用基于一维反卷积网络和重叠相加法的解码器。

具体的，一维反卷积网络由输入通道为D＝256，输出通道为L＝40的全连接网络层实现。另外，重叠相加法是基于短时傅里叶逆变换进行时域信号重建过程中的必要操作，本领域技术人员可以理解重叠相加法的具体实施方式，本实施例在此不做赘述。

实施例2

参见图4，一种基于多波段结构时域音频分离网络的语音增强装置，所述装置包括：

语音数据采集模块110，用于采集待增强的单通道语音数据。

时域音频分离网络模块111，用于将待增强语音信号分解为各子波段内的时域增强信号。

多波段信号合成模块112，用于将待增强信号各子波段内的时域增强信号重构为单通道增强语音。

参见图5，具体的，还包括神经网络模型训练单元，所述训练单元包括：

语音数据获取模块210，用于获取用于训练的纯净语音数据和带噪语音数据；

语音增强模块211，用于将带噪语音信号输入到神经网络模型获得增强语音及其各子波段内的时域增强信号。

多波段信号分解模块212，利用基于多波段结构的信号处理框架中的多波段信号分解将每段带噪语音信号所对应的纯净语音信号分解为各子波段内的时域信号，作为带噪语音各子波段内对应的时域增强信号的标签。

损失函数计算模块213，用于计算多波段损失函数对神经网络模型进行训练，直至多波段损失函数达到收敛。

参见图6，具体的，还包括时域音频分离网络的构建单元，所述时域音频分离网络的构建单元包括：

提取模块220，用于提取待增强语音信号的特征表示。

特征表示估计模块221，用于对待增强语音信号各子波段内纯净语音部分所对应的掩模进行预测，并与待增强语音信号的特征表示逐点相乘获得各子波段内纯净语音部分所对应的特征表示估计。

解码模块222，用于将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多波段结构时域音频分离网络的语音增强方法，其特征在于，包括：

采集待增强的单通道语音数据；

2.根据权利要求1所述的基于多波段结构时域音频分离网络的语音增强方法，其特征在于，由时域音频分离网络和多波段信号合成网络共同组成的神经网络模型的训练步骤包括：

3.根据权利要求2所述的基于多波段结构时域音频分离网络的语音增强方法，其特征在于，所述计算多波段损失函数的方法包括：

4.根据权利要求1所述的基于多波段结构时域音频分离网络的语音增强方法，其特征在于，所述时域音频分离网络的构建方法包括：

提取待增强语音信号的特征表示；

5.根据权利要求4所述的基于多波段结构时域音频分离网络的语音增强方法，其特征在于，对提取待增强语音信号的特征表示的方法包括：利用基于一维卷积网络的线性编码器。

6.根据权利要求4所述的基于多波段结构时域音频分离网络的语音增强方法，其特征在于，所述将待增强语音信号各子波段内纯净语音部分的特征表示估计解码为对应的时域增强信号的方法包括：利用基于一维反卷积网络和重叠相加法的解码器。

7.根据权利要求1或2所述的基于多波段结构时域音频分离网络的语音增强方法，其特征在于，所述基于多波段结构的信号处理框架包括：

8.一种基于多波段结构时域音频分离网络的语音增强装置，其特征在于，所述装置包括：

语音数据采集模块，用于采集待增强的单通道语音数据；

9.根据权利要求8所述的基于多波段结构时域音频分离网络的语音增强装置，其特征在于，还包括神经网络模型训练单元，所述训练单元包括：

10.根据权利要求8或9所述的基于多波段结构时域音频分离网络的语音增强装置，其特征在于，还包括时域音频分离网络的构建单元，所述时域音频分离网络的构建单元包括：

提取模块，用于提取待增强语音信号的特征表示；