CN111508518B

CN111508518B - 一种基于联合字典学习和稀疏表示的单通道语音增强方法

Info

Publication number: CN111508518B
Application number: CN202010454159.6A
Authority: CN
Inventors: 叶中付; 绍希杜尔·伊斯兰姆穆罕默德
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-05-18
Filing date: 2020-05-26
Publication date: 2022-05-13
Anticipated expiration: 2040-05-26
Also published as: CN111508518A

Abstract

本发明提供一种基于联合字典学习和稀疏表示的单通道语音增强方法，对干净语音做双树复数小波变换得到一组子带信号，对子带信号做短时傅里叶变换得到其时频谱，利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典，同样学习出干净噪声的联合字典；对带噪语音做双树复数小波变换和短时傅里叶变换，获得每个子带信号时频谱，保留相位和实部虚部符号，提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影，得到语音和噪声的稀疏表示系数，利用该系数、时频谱相位和实部虚部符号以及掩码、权值等，得到该子带语音时频谱的最终估计，做短时傅里叶逆变换和双树复数小波逆变换，得到增强后的语音信号，提高了语音增强能力。

Description

一种基于联合字典学习和稀疏表示的单通道语音增强方法

技术领域

本发明涉及单通道语音增强领域，尤其涉及一种基于联合字典学习和稀疏表示的单通道语音增强方法。

背景技术

在人们的交流活动中，语音发挥着主导作用。由于受到形形色色噪声的污染，人耳和相关智能装置收到的是带噪语音，语音的质量和可懂度会有明显的下降，影响了人们的主观听觉感受和智能装置的语音识别率。语音增强技术就是解决这类问题的主要方法。如何从带噪语音中恢复出干净语音一直都是信号处理领域的热点问题。近年来研究者相继提出了一些基于字典学习和稀疏表示的单通道语音增强算法，这些算法利用语音信号在时频域上的稀疏特性，通过学习训练数据样本的结构特征并构造相应的字典，将带噪语音在字典上投影，进而估计出干净语音。但大多数算法只利用了语音时频谱的幅度信息，很少利用相位信息，因而语音增强的性能也就受到了限制。

发明内容

本发明的目的是提供一种基于联合字典学习和稀疏表示的单通道语音增强方法，将双树复数小波变换应用于干净语音信号得到一组子带信号，对每个子带信号进行短时傅里叶变换得到其时频谱，充分利用时频谱幅度、实部和虚部以及语音的稀疏性学习训练语音样本的结构特征，构造出干净语音的联合字典，采用同样思路构造出干净噪声的联合字典；针对带噪语音信号，同样采用双树复数小波变换和短时傅里叶变换，获得每个子带信号时频谱，保留相位和实部虚部符号，提取幅度、实部和虚部绝对值并分别在干净语音联合字典和干净噪声联合字典上进行投影，得到语音和噪声的稀疏表示系数，利用稀疏表示系数、保留的时频谱相位和实部虚部符号以及掩码、权值等进行一系列运算，得到该子带语音时频谱的最终估计，然后进行短时傅里叶逆变换和双树复数小波逆变换，得到增强后的语音信号，提高了语音增强能力。

本发明的目的是通过以下技术方案实现的：一种基于联合字典学习和稀疏表示的单通道语音增强方法，包括：

训练阶段，构建干净语音和干净噪声的训练数据集；针对干净语音训练数据集，用双树复数小波变换(DTCWT)将语音信号分解为一组子带信号，对每个子带信号进行短时傅里叶变换(STFT)，获得时频谱，提取相应的幅度、实部和虚部绝对值，采用LARC算法和K-SVD算法学习训练数据样本的结构特征，获得干净语音每个子带的幅度、实部和虚部的联合字典；针对干净噪声训练数据集，采用同样思路获得干净噪声每个子带的幅度、实部和虚部的联合字典；

检测阶段，针对带噪语音信号，用双树复数小波变换(DTCWT)将语音信号分解为一组子带信号，对每个子带信号进行短时傅里叶变换(STFT)，获得时频谱，提取相应的幅度、实部和虚部绝对值，保留相位信息以及实部、虚部符号，并分别在干净语音联合字典和干净噪声联合字典上进行投影，得到语音和噪声的稀疏表示系数，利用稀疏表示系数、保留的时频谱相位和实部虚部符号以及掩码等进行一系列运算，得到该子带语音时频谱的初始估计和更新估计，进一步通过加权得到最终估计，然后进行短时傅里叶逆变换(ISTFT)和双树复数小波逆变换(IDTCWT)，得到增强后的语音信号。

本发明与现有技术相比的优点在于：

由上述本发明提供的技术方案可以看出，本方法在训练阶段，首先用双树复数小波变换将单通道干净语音信号分解成一组子信号，增加了信号的时频表征能力；其次用短时傅里叶变换将每个子带信号变换成时频谱，充分利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典；对于干净噪声信号，采用同样过程学习出干净噪声的联合字典；本方法在检测阶段，用双树复数小波变换将带噪语音分解为一组子带信号，对每个子带信号进行短时傅里叶变换，获得时频谱的幅度相位、实部和虚部及其符号，将时频谱的幅度、实部和虚部绝对值在干净语音的联合字典和干净噪声的联合字典上投影获得最优稀疏表示系数，结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计，采用掩码得到时频谱的两种更新估计，进一步对两种更新估计加权平均，这些过程明显降低了估计误差，得到时频谱的最终的精确估计，最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的估计。增强后的语音信号的质量得到了提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于联合字典学习和稀疏表示的单通道语音增强方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

不同于已有的大多数单通道语音增强算法，本发明实施例提供一种基于联合字典学习和稀疏表示的单通道语音增强方法，本方法首先将单通道信号分解成一组子信号，增加信号的表征能力；其次充分利用信号各子带时频谱的幅度、实部和虚部信息来学习干净语音的联合字典和干净噪声的联合字典；接着对带噪语音变换后的每个子带信号时频谱，保留相位和实部虚部符号，提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影，得到语音和噪声的稀疏表示系数，结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计，采用掩码得到时频谱的两种更新估计，进一步对两种更新估计加权平均，这些过程明显降低了估计误差，得到时频谱的最终的精确估计，最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的估计。提高了语音增强能力。如图1所示，其主要包括：

步骤1、训练阶段

步骤11、构建干净语音和干净噪声的训练数据集；

步骤12、用双树复数小波变换(DTCWT)分别将干净语音和干净噪声的训练数据集中的干净语音信号s^tr(t)和干净噪声训练信号n^tr(t)分解为一组子带信号

和

即：

其中，DTCWT{}为双树复数小波变换算子，J，b,tl分别表示DTCWT的层数、子带数和树层数；

步骤13、对语音和噪声的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱，即：

其中，STFT{}为短时傅里叶变换算子，tf,f分别为时间帧和频率点，

分别为

幅度、实部和虚部，

分别为

的幅度、实部和虚部；

步骤14、采用LARC算法和K-SVD算法分别学习干净语音和干净噪声复数谱的幅度、实部和虚部绝对值，得到相应的联合字典

和

字典的学习过程如下：

其中，

分别是干净语音子带信号

的幅度、实部和虚部字典；

是干净语音子带信号的稀疏表示系数；干净语音子带信号的稀疏表示系数为矩阵形式，

为

的第g列；

分别是干净噪声子带信号

的幅度、实部和虚部字典；

是干净噪声子带信号的稀疏表示系数；干净噪声子带信号的稀疏表示系数为矩阵形式，

为

的第g列，q为稀疏约束；

代表的是弗罗贝尼乌斯范数，||·||₁代表的是1-范数。

步骤2、检测阶段

步骤21、带噪语音信号为x(t)＝s(t)+n(t)，用双树复数小波变换(DTCWT)将其分解为一组子带信号，即：

步骤22，对带噪语音信号的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱，即：

分别为

幅度、实部和虚部，提取相应的幅度、实部和虚部绝对值，并保留相位信息以及实部、虚部符号留待进一步处理；

步骤23，把带噪语音信号的每一子带信号的复数谱的幅度、实部和虚部绝对值组织起来，

并在干净语音和干净噪声的联合字典

和

上分别进行对应投影，获得投影的语音和噪声稀疏表示系数，计算如下：

其中，

分别为

在联合字典

上的候选稀疏表示系数，

为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数；稀疏表示系数为矩阵形式，

分别为

的第g列；

分别为

在联合字典

上的候选稀疏表示系数，

分别为

的第g列；q为稀疏约束；

步骤24，对带噪语音的每一子带语音信号复数谱的初始估计。

首先，利用稀疏表示系数计算出各个字典重建出的语音和噪声复数谱的幅度、实部和虚部绝对值，如下式所示：

其次，由

和保留的

相位重建出第一种子带语音信号复数谱

由

和

以及保留的

和

符号重建出第二种子带语音信号复数谱

称之为初始估计；

同样，可以得到两种子带噪声信号复数谱的初始估计：

步骤25，对带噪语音的每一子带语音信号复数谱的最终估计。

首先，根据带噪语音的每一子带信号的复数谱的两种初始估计，分别计算比例掩码：

其次，完成带噪语音的每一子带语音信号的复数谱的更新估计：

其中，

为矩阵对应元素乘法算子。

最后采用基尼系数

对两种更新估计进行加权，得到带噪语音的每一子带语音信号的复数谱的最终估计：

步骤26，获得时域语音信号的估计

首先，对每个子带语音信号的复数谱估计进行短时傅里叶逆变换(ISTFT)：

其中，ISTFT{}为短时傅里叶逆变换算子。

对上述一组语音子信号估计做双树复数小波逆变换(IDTCWT)，得到语音信号的估计：

其中，IDTCWT{}为双树复数小波逆变换算子。

本发明实施例上述方案，在训练阶段，针对干净语音，通过双树复数小波变换(DTCWT)将其分解为一组子带信号，对每个子带信号进行短时傅里叶变换(STFT)，获得时频谱，充分利用时频谱的幅度、实部和虚部信息以及语音和噪声的稀疏性，学习到干净语音联合字典；针对干净噪声，采用相同的思路学习到干净语音联合字典；在检测阶段，针对带噪语音，通过双树复数小波变换(DTCWT)将其分解为一组子带信号，对每个子带信号进行短时傅里叶变换(STFT)，获得时频谱的幅度相位、实部和虚部及其符号，将时频谱的幅度、实部和虚部绝对值在干净语音的联合字典和干净噪声的联合字典上投影获得最优稀疏表示系数，结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计，采用掩码得到时频谱的两种更新估计，进一步对两种更新估计加权平均，得到时频谱的最终估计，最后通过短时傅里叶逆变换(ISTFT)和双树复数小波逆变换(IDTCWT)获得时域语音信号的估计。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。