CN117437932A

CN117437932A - 一种基于双路径网络的语音频带扩展方法

Info

Publication number: CN117437932A
Application number: CN202310396230.3A
Authority: CN
Inventors: 汝家伟; 贾懋珅; 王纯熙; 赵宇豪
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2024-01-23

Abstract

本发明提出一种基于双路径网络的语音频带扩展方法，针对于现有频域频带扩展方法无法准确估计高频相位信息这一问题，能够同时预测高频幅度谱和复数谱信息并融合，以实现频带扩展任务中高频信息的准确估计。本发明包括模型训练阶段和测试阶段，训练阶段包括语音预处理、构建双路径频带扩展神经网络、构建双路径特征交互模块、双路径输出融合、网络损失计算，更新参数模型收敛。模型测试阶段则包括测试语音预处理、测试语音频带扩展。

Description

一种基于双路径网络的语音频带扩展方法

技术领域

本发明属于声学领域的频带扩展部分，尤其涉及基于神经网络的盲式频带扩展技术。

背景技术

语音频带扩展在音频信号处理领域中是一个非常重要的研究课题。频带扩展是指通过低频语音信息来恢复丢失的高频信息的一种技术，提高给定低分辨率语音信号的采样率。早期的频谱扩展工作是由低频段的频谱参数估计高频段的频谱参数，例如其谱包络和增益系数。其中使用的技术包括非负矩阵分解、线性预测编码、隐马尔科夫模型和高斯混合模型等。近些年来，深度学习方法在频带扩展领域中的应用也取得了巨大的成功。一般来说，这些方法可以分为两类：频域方法和时域方法。频域方法通常学习语音信号的低频幅度谱到高频幅度谱的映射，为了在高频段生成缺失的相位信息，可以将低频段的相位谱镜像复制到高频段，并与预测的幅度相结合并重建时域信号。另一方面，时域方法则直接利用神经网络去建立波形到波形间的映射关系，通过输入原始的低采样率时域信号或者经过插值后的时域信号并输出预测的高采样率波形。该方法在时域中工作，因此隐含了对于高频信息的相位估计。现有的频域方法能够有效补偿缺失高频信息的幅度信息，但是其对高频成分的相位估计不够准确。针对此问题，本发明设计了一种联合幅度和相位估计的一种双路径频带扩展神经网络，其中一路完成对高频幅度谱的幅度估计，另一路完成对高频复数谱的估计，最后通过融合两路输出的幅度和相位信息得到最终估计的高频信息。本发明通过双路径神经网络的方法同时预测高频信号的幅度和相位信息，再与低频谱结合，最终重建高分辨率的音频信号。

频带扩展技术的应用十分广泛，它能够提高语音质量，利于许多语音处理任务。如文本到语音合成、自动语音识别、说话人识别和语音增强等。

发明内容

本发明针对于现有频域频带扩展方法无法准确估计高频相位信息这一问题，提出了一种双路径神经网络结构，能够同时预测高频幅度和复数谱信息并融合，以实现频带扩展任务中高频信息的准确估计。

本发明为解决频带扩展问题，提出一种双路径频带扩展神经网络方法，主要分为以下几个步骤：

步骤1，对训练集中低采样率语音信号进行预处理，首先对其进行预插值至目标采样率，然后利用短时傅里叶变换对插值信号和原始高采样率信号进行时频变换，获得它们的对数幅度谱和对数复数谱。

步骤2：构建一个双路径频带扩展网络，一个分支为幅值预测网络，另一分支为复值预测网络。

步骤3：构建特征交互模块，促进双分支间的特征融合和复用。

步骤4：融合幅度预测网络和复值预测网络的输出，计算双路径频带扩展网络最终输出。

步骤5：根据模型损失函数计算网络预测高采样率语音信号和实际高采样率语音信号的损失。

步骤6：使用Adam优化器，通过最小化损失更新网络参数在训练数据集上训练，训练完毕，得到双路径频带扩展网络。

步骤7：对测试低采样率语音信号进行预处理，首先对其进行预插值，然后利用短时傅里叶变换对插值信号进行时频变换，获得信号的对数幅度谱和对数复数谱。

步骤8：将步骤7得到的幅度谱和复数谱分别输入训练完毕的双路径频带扩展网络中，得到两个分支网络的输出，融合双路径网络输出得到最终频带扩展的结果。

1.在步骤1中，对于训练集合为s＝{(z¹,y¹),(z²,y²),…,(z^N,y^N)}，表示有N个训练样本，其中第i个训练样本表示为(zⁱ,yⁱ)，zⁱ为低采样率语音信号，，yⁱ为对应的目标高采样率语音信号。

训练语音的预处理分为两步：首先对第i个低采样率语音信号zⁱ进行插值，将低采样率的语音信号插值至目标采样率得到插值信号xⁱ；然后对xⁱ进行分帧处理，利用短时傅里叶变换对其进行时频变换并将其幅值取对数得到语音信号的对数复数时频谱Cⁱ＝(cⁱ(t,f))_T×F，cⁱ(t,f)为xⁱ短时傅里叶变换得到的对数复数谱系数，t,f分别表示帧号和频点号。进一步，对复数谱取模得到对应对数幅度谱Mⁱ＝(mⁱ(t,f))_T×F，其中，T，F分别表示第i段数据的帧数和每帧频点数，mⁱ(t,f)＝|cⁱ(t,f)|。目标高采样率语音信号的复数时频谱集合Y＝(Y¹,Y²,…,Y^N)，Yⁱ＝(yⁱ(t,f))_T×F，yⁱ(t,f)是原始高采样率语音信号的对数复数谱系数。

在步骤2中，构建一个双路径频带扩展网络，一个分支为幅值预测网络，另一分支为复值预测网络。

幅值预测网络包括卷积编码模块、循环时域建模模块和卷积解码模块。该网络的输入为语音信号预处理后的幅度谱M＝(M¹,M²,…,M^N)，输出预测得到的包含高频信息的语音幅度谱其中，/> 是预测得到的包含高频信息的语音幅度谱系数；

复值预测网络也由卷积编码模块、循环时域建模模块和卷积解码模块组成，其中，网络参数与幅值预测网络独立。该网络的输入为语音预处理后得到的复数时频谱集合C＝(C¹,C²,…,C^N)，网络输出预测得到的包含高频信息的语音复数谱其中，是预测得到的包含高频信息的语音复数谱系数。

3.在步骤3中，模型对两分支网络中除最后一个卷积块以外的每个卷积块输出特征执行特征交互。每个分支的特征通过特征交互模块获得另一分支的特征信息并融合，其中特征交互模块的输入分别为两分支网络中卷积块的输出特征，输出为融合另一分支信息后的特征。

4.在步骤4中，双路径频带扩展网络分为幅值预测网络和复数预测网络，根据幅值预测网络的输出和复值预测网络的输出可以融合两路输出得到预测的频带扩展后的复数谱/> 是频带扩展后的复数谱系数，为复数谱的指数形式，其中e为自然常数，j表示虚数单位，为幅度，/>为相位信息，通过下式得到：

其中，f_phase(·)表示取复数相位操作。

5.在步骤5中，模型的损失函数定义为网络预测幅值压缩时频谱和实际幅值时压缩频谱的损失，损失函数包含两项，即：

L＝L_mag+L_RI

其中，L_mag表示预测压缩频谱与实际压缩频谱的均方误差损失，L_RI表示预测压缩复数谱与实际压缩复数谱实部和虚部上的均方误差损失，定义如下：

其中，Re(·)和Im(·)分别表示取实部和取虚部操作。

6.在步骤6中，使用Adam优化器，通过最小化损失更新网络参数在训练数据集上训练，训练完毕，得到双路径频带扩展网络。

7.在步骤7中，对测试低采样率语音信号进行预处理，首先对其进行预插值，然后利用短时傅里叶变换对插值信号进行时频变换，获得信号的对数幅度谱和对数复数谱。

8.在步骤8中，将预处理后的幅度谱和复数谱分别输入训练好的双路径频带扩展网络中，得到两个分支网络的输出，融合双路径网络输出得到频带扩展的结果。

附图说明

图1是本发明方法的流程步骤。

图2是本发明方法的双路径频带扩展网络结构。

图3是网络特征交互模块的结构。

具体实施方式

本发明为解决频带扩展问题，提出一种双路径频带扩展神经网络方法，包括模型训练阶段和测试阶段，如附图1所示，训练阶段包括语音预处理、双路径频带扩展神经网络搭建、双路径输出融合、网络损失计算，更新参数模型收敛。模型测试阶段则包括测试语音预处理、测试语音频带扩展。具体实施方法说明如下。

步骤1：预处理训练语音，对其进行预插值和时频变换。

训练集合为s＝{(z¹,y¹),(z²,y²),…,(z^N,y^N)}，表示有N个训练样本，其中第i个训练样本表示为(zⁱ,yⁱ)，zⁱ为低采样率语音信号，yⁱ为对应的目标高采样率语音信号。训练语音的预处理分为两步：首先对第i个低采样率语音信号zⁱ进行插值，将低采样率的语音信号插值至目标采样率得到插值信号xⁱ，本实施例中，采用sinc插值对低采样率信号进行插值；然后对xⁱ进行分帧处理，利用短时傅里叶变换对其进行时频变换并进行对数幅值压缩得到语音信号的复数时频谱Cⁱ＝(cⁱ(t,f))_T×F，cⁱ(t,f)为xⁱ短时傅里叶变换得到的对数复数谱系数，t,f分别表示帧号和频点号。进一步，对复数谱取模得到对应幅度谱Mⁱ＝(mⁱ(t,f))_T×F，其中，T，F分别表示第i段数据的帧数和每帧频点数，mⁱ(t,f)＝|cⁱ(t,f)|。

目标高采样率语音信号的复数时频谱集合Y＝(Y¹,Y²,…,Y^N)，Yⁱ＝(yⁱ(t,f))_T×F，yⁱ(t,f)是原始高采样率语音信号的对数复数谱系数。

步骤2：双路径频带扩展网络搭建。

构建一个双路径频带扩展网络，一个分支为幅值预测网络，另一分支为复值预测网络。

复值预测网络也由卷积编码模块、循环时域建模模块和卷积解码模块组成，其中，网络层参数与幅值预测网络独立。该网络的输入为语音预处理后得到的复数时频谱集合C＝(C¹,C²,…,C^N)，网络输出预测得到的包含高频信息的语音复数谱其中，/> 是预测得到的包含高频信息的语音复数谱系数。

如附图2所示，本实施例中卷积编码模块由3个卷积块构成，其中每个卷积块都包含二维卷积层、批标准化层以及参数修正线性单元构成，其中二维卷积层的卷积核尺寸为(2，5)，步长为(2，1)，每层卷积都在频率尺度上对时频谱进行2倍下采样，三个卷积块的输出通道依次为16，32，64；循环时域建模模块由一个两层长短时记忆网络构成，其中每一层长短时记忆网络的隐藏层单元数为128；卷积解码模块的结构与卷积编码模块对称，由对应转置卷积块构成，参数与卷积编码模块相同。本实施例中幅值预测网络与幅值预测网络结构只区别卷积编码模块的第一个卷积块输入通道数和对应卷积解码模块的最后一个卷积块的输出通道数，幅值预测网络中的通道数为1而复值预测网络中的通道数为2。

步骤3：构建双路径特征交互模块。

在双路径网络中，特征交互模块能够促进分支间的特征融合和复用，使得训练更有效。模型对两分支网络中除最后一个卷积块以外的每个卷积块输出特征进行特征交互。每个特征交互模块的输入为两分支网络中卷积块的输出特征，交互后的各分支输出作为下一卷积块的输入。

本实施例中，特征交互模块如附图3所示，包含特征拼接、卷积层、批标准化层以及Sigmoid激活函数，其中卷积层的卷积核大小为(1，1)，步长为(1，1)，输入通道数为单个输入分支特征通道数的两倍，输出通道数等于单个输入分支特征通道数。

步骤4：双路径输出融合。

双路径频带扩展网络分为幅值预测网络和复数预测网络，根据幅值预测网络的输出和复值预测网络的输出可以融合两路输出得到预测的频带扩展后的复数谱是频带扩展后的复数谱系数，/> 为复数谱的指数形式，其中e为自然常数，j表示虚数单位，/>为幅度，为相位信息，通过下式得到：

其中，f_phase(·)表示取复数相位操作。

步骤5：定义损失函数，计算网络损失。

模型的损失函数定义为网络预测幅值压缩时频谱和实际幅值时压缩频谱的损失，损失函数包含两项，即：

L＝L_mag+L_RI

其中，Re(·)和Im(·)分别表示取实部和取虚部操作。

步骤6：更新参数模型收敛。

使用Adam优化器，通过最小化损失L更新网络参数在训练数据集上训练，训练完毕，得到双路径频带扩展网络。

本实施例中，Adam优化器的学习率设置为0.0002，以32的批量大小在训练数据集上训练200轮。

步骤7：预处理测试语音，对其进行预插值和时频变换。

对测试低采样率语音信号进行预处理，首先对其进行预插值，然后利用短时傅里叶变换对插值信号进行时频变换，获得信号的对数幅度谱和对数复数谱。

步骤8：测试语音频带扩展。

将预处理后的幅度谱和复数谱分别输入训练好的双路径频带扩展网络中，得到两个分支网络的输出，融合双路径网络输出得到频带扩展的结果。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种双路径频带扩展神经网络方法，包括模型训练阶段和测试阶段，其特征在于：

步骤1，对训练集中低采样率语音信号进行预处理，首先对其进行预插值至目标采样率，然后利用短时傅里叶变换对插值信号和原始高采样率信号进行时频变换，获得它们的对数幅度谱和对数复数谱；

步骤2：构建一个双路径频带扩展网络，一个分支为幅值预测网络，另一分支为复值预测网络；

步骤3：构建特征交互模块，促进双分支间的特征融合和复用；

步骤4：融合幅度预测网络和复值预测网络的输出，计算双路径频带扩展网络最终输出；

步骤5：根据模型损失函数计算网络预测高采样率语音信号和实际高采样率语音信号的损失；

步骤6：使用Adam优化器，通过最小化损失更新网络参数在训练数据集上训练，训练完毕，得到双路径频带扩展网络；

步骤7：对测试低采样率语音信号进行预处理，首先对其进行预插值，然后利用短时傅里叶变换对插值信号进行时频变换，获得信号的对数幅度谱和对数复数谱；

2.如权利要求1所述的一种双路径频带扩展神经网络方法，其特征在于：在步骤1中，对于训练集合为s＝{(z¹，y¹)，(z²，y²)，…，(z^N，y^N)}，表示有N个训练样本，其中第i个训练样本表示为(zⁱ，yⁱ)，zⁱ为低采样率语音信号，yⁱ为对应的目标高采样率语音信号；训练语音的预处理分为两步：首先对第i个低采样率语音信号zⁱ进行插值，将低采样率的语音信号插值至目标采样率得到插值信号xⁱ；然后对xⁱ进行分帧处理，利用短时傅里叶变换对其进行时频变换并将其幅值取对数得到语音信号的对数复数时频谱Cⁱ＝(cⁱ(t，f))_T×F，cⁱ(t，f)为xⁱ短时傅里叶变换得到的对数复数谱系数，t，f分别表示帧号和频点号；进一步，对复数谱取模得到对应对数幅度谱Mⁱ＝(mⁱ(t，f))_T×F，其中，T，F分别表示第i段数据的帧数和每帧频点数，mⁱ(t，f)＝|cⁱ(t，f)|；目标高采样率语音信号的复数时频谱集合Y＝(Y¹，Y²，...，Y^N)，Yⁱ＝(yⁱ(t，f))_T×F，yⁱ(t，f)是原始高采样率语音信号的对数复数谱系数。

3.如权利要求1所述的一种双路径频带扩展神经网络方法，其特征在于：在步骤2中，构建一个双路径频带扩展网络，一个分支为幅值预测网络，另一分支为复值预测网络；幅值预测网络包括卷积编码模块、循环时域建模模块和卷积解码模块；该网络的输入为语音信号预处理后的幅度谱M＝(M¹，M²，...，M^N)，输出预测得到的包含高频信息的语音幅度谱其中，/> 是预测得到的包含高频信息的语音幅度谱系数；复值预测网络也由卷积编码模块、循环时域建模模块和卷积解码模块组成，其中，网络参数与幅值预测网络独立；该网络的输入为语音预处理后得到的复数时频谱集合C＝(C¹，C²，...，C^N)，网络输出预测得到的包含高频信息的语音复数谱/> 其中，/> 是预测得到的包含高频信息的语音复数谱系数。

4.如权利要求1所述的一种双路径频带扩展神经网络方法，其特征在于：在步骤3中，模型对两分支网络中除最后一个卷积块以外的每个卷积块输出特征执行特征交互；每个分支的特征通过特征交互模块获得另一分支的特征信息并融合，其中特征交互模块的输入分别为两分支网络中卷积块的输出特征，输出为融合另一分支信息后的特征。

5.如权利要求1所述的一种双路径频带扩展神经网络方法，其特征在于：在步骤5中，双路径频带扩展网络分为幅值预测网络和复数预测网络，根据幅值预测网络的输出和复值预测网络的输出融合两路输出得到预测的频带扩展后的复数谱/> 是频带扩展后的复数谱系数，/>为复数谱的指数形式，其中e为自然常数，j表示虚数单位，/>为幅度，/>为相位信息，通过下式得到：

其中，f_phase(·)表示取复数相位操作。