CN111710343B

CN111710343B - 一种在双变换域上的单通道语音分离方法

Info

Publication number: CN111710343B
Application number: CN202010492043.1A
Authority: CN
Inventors: 叶中付; 穆罕默德·伊姆兰·侯赛因
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2022-09-30
Anticipated expiration: 2040-06-03
Also published as: CN111710343A

Abstract

本发明提供一种在双变换域上的单通道语音分离方法，对每一个说话人的训练语音做双树复数小波变换得到一组子带信号，对每一个子带信号做短时傅里叶变换得到其时频谱，并利用稀疏非负矩阵分解方法获得该语音的基矩阵；对多个说话人的混合语音做双树复数小波变换和短时傅里叶变换，获得每个子带信号时频谱，提取其幅度，并在各个说话人语音的基矩阵上分解得到相应的权矩阵，通过各个说话人语音的基矩阵和权矩阵，得到该子带各个语音时频谱幅度的初始分离，进一步利用掩码得到该子带各个语音时频谱的最终估计，做短时傅里叶逆变换和双树复数小波逆变换，得到分离后的各个语音信号。

Description

一种在双变换域上的单通道语音分离方法

技术领域

本发明涉及语音分离领域，尤其涉及一种在双变换域上的单通道语音分离方法。

背景技术

在人们的交流活动中，语音发挥着主导作用。针对对话和讨论场景，人耳和相关智能装置收到的是多个说话人的混合语音，语音的质量和可懂度会有明显的下降，影响了人们的主观听觉感受和智能装置的语音识别率，也会影响智能会议系统的转写性能。语音分离技术就是解决这类问题的主要方法。如何从混合语音中分离出各个语音一直都是信号处理领域的热点问题。近年来研究者相继提出了一些在短时傅里叶变换域基于非负矩阵分解的单通道语音分离算法，这些算法利用各个说话人语音在时频域上的稀疏特性，通过学习训练数据样本的结构特征并构造相应的基矩阵，将混合语音在基矩阵上分解，获得相应的权系数，进而分离出各个语音。但大多数算法只利用了单通道语音时频谱的幅度，语音分离性能就受到了一定限制。

发明内容

本发明的目的是提供一种在双变换域上的单通道语音分离方法，将双树复数小波变换应用于每一个说话人语音信号得到一组子带信号，对每个子带信号进行短时傅里叶变换得到其时频谱，通过稀疏非负矩阵分解方法分别学习各个语音时频谱的幅度特征，得到相应的基矩阵；针对多个说话人混合语音信号，通过双树复数小波变换将其分解为一组子带信号，对每个子带信号进行短时傅里叶变换，获得时频谱，将时频谱的幅度在各个语音基矩阵上分解，得到相应的权矩阵，利用每个语音的基矩阵和权矩阵，得到其时频谱幅度的初始分离结果，采用掩码得到时频谱的最终分离，最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的分离结果。

本发明的目的是通过以下技术方案实现的：一种在双变换域上的单通道语音分离方法，包括：

训练阶段，对于多个说话人，构建每一个说话人语音的训练数据集；针对语音训练数据集的每一个说话人语音，用双树复数小波变换将语音信号分解为一组子带信号，对每个子带信号进行短时傅里叶变换，获得时频谱，通过稀疏非负矩阵分解方法分别学习各个语音时频谱的幅度特征，得到相应的基矩阵；

检测阶段，针对多个说话人混合语音信号，用双树复数小波变换将语音信号分解为一组子带信号，对每个子带信号进行短时傅里叶变换，获得时频谱，将时频谱的幅度在各个语音基矩阵上分解，得到相应的权矩阵，利用每个语音的基矩阵和权矩阵，得到其时频谱幅度的初始分离结果，采用掩码得到时频谱的最终分离，最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的分离结果。

本发明与现有技术相比的优点在于：

由上述本发明提供的技术方案可以看出，用双树复数小波变换将单通道语音信号分解成一组子信号，接着用短时傅里叶变换将每个子带信号变换成时频谱，稀疏非负矩阵分解方法具有分解的非负性和稀疏性，综合利用以上几点，增加了信号的时频表征能力和各个语音的区分性，使得分离后的语音信号的质量得到了提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种在双变换域上的单通道语音分离方法的流程图。

图2为本发明提出的方法与其它几种方法对比的一个实验结果。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

不同于已有的大多数单通道语音分离算法，本发明实施例提供一种在双变换域上的单通道语音分离方法，本方法首先用双树复数小波变换将单通道语音信号分解成一组子信号，接着用短时傅里叶变换将每个子带信号变换成时频谱，充分利用稀疏非负矩阵分解方法具有分解的非负性和稀疏性，增加了信号的时频表征能力和各个语音的区分性，提升了语音分离信号性能。如图1所示，其主要包括：

步骤1、训练阶段

步骤11、对于多个说话人，构建每一个说话人语音的训练数据集。现在以两个说话人为例，第一个说话人语音(以下简称第一个语音)的训练数据集为{x^tr(t)}，第二个说话人语音(以下简称第二个语音)的训练数据集为{y^tr(t)}；

步骤12、用双树复数小波变换(DTCWT)将第一个语音训练数据集中的语音信号x^tr(t) 分解为一组子带信号

即：

其中，DTCWT{}为双树复数小波变换算子，J，b,tl分别表示DTCWT的层数、子带数和树层数；

同样，用双树复数小波变换将第二个语音训练信号y^tr(t)分解为一组子带信号

即：

步骤13、对第一个语音的每一子带信号做短时傅里叶变换(STFT)，得到时频域上的时频谱，即：

其中，STFT{}为短时傅里叶变换算子，tf,f分别为时间帧和频率点；

同样，对第二个语音的每一子带信号做短时傅里叶变换，得到时频域上的时频谱，即：

的幅度，

的幅度；

步骤14、采用稀疏非负矩阵分解(SNMF)方法分别学习第一个语音时频谱的幅度特征，得到相应的基矩阵

基矩阵通过如下的分解获得：

其中，

分别是第一个语音子带信号

的幅度权矩阵，μ为稀疏参数，|·|₁表示1范数；

同样，采用稀疏非负矩阵分解方法分别学习第二个语音时频谱的幅度特征，得到相应的基矩阵

基矩阵通过如下的分解获得：

其中，

分别是第二个语音子带信号

的幅度权矩阵；

进一步形成复合基矩阵：

步骤2、检测阶段

步骤21、混合语音信号为z(t)＝x(t)+y(t)，记录了两个说话人的混合语音。用双树复数小波变换将其分解为一组子带信号

即：

步骤22，对混合语音的每一子带信号分别做短时傅里叶变换，得到时频域上的时频谱，即：

其中，STFT{}为短时傅里叶变换算子，tf,f分别为时间帧和频率点，

分别为

的幅度；

步骤23，把混合语音的每一子带信号的时频谱的幅度

在复合基矩阵

上分别进行稀疏非负矩阵分解，获得相应的权矩阵，计算如下：

进一步表示为：

其中，

分别是

在复合基矩阵

上分解得到的复合权矩阵，

分别是

在第一个语音基矩阵

上分解得到的权矩阵，

分别是

在第二个语音基矩阵

上分解得到的权矩阵，μ为稀疏参数，|·|₁表示1范数；

步骤24，对混合语音的每一子带语音信号时频谱幅度进行初始分离；

首先，利用在第一个语音基矩阵

分解得到的权矩阵

分离出第一个语音信号时频谱幅度，如下式所示：

其次，利用在第二个语音基矩阵

分解得到的权矩阵

分离出第二个语音信号时频谱幅度，如下式所示：

步骤25，对混合语音中的每一个语音的每一子带语音信号时频谱进行分离；

首先，依据初始分离结果，计算第一个语音的每一子带语音信号时频谱的比例掩码：

对混合语音中的第一个语音的每一子带语音信号时频谱完成分离：

其中，

为矩阵对应元素乘法算子。

其次，依据初始分离结果，计算第二个语音的每一子带语音信号时频谱的比例掩码：

对混合语音中的第二个语音的每一子带语音信号时频谱完成分离：

步骤26，获得分离后的时域的各个语音信号；

首先，对第一个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换(ISTFT)，得到：

其中，ISTFT{}为短时傅里叶逆变换算子；

同样，对第二个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换，得到：

其次，对第一个语音的一组语音子信号估计做双树复数小波逆变换(IDTCWT)，得到分离后的第一个语音：

其中，IDTCWT{}为双树复数小波逆变换算子；

同样，对第二个语音的一组语音子信号估计做双树复数小波逆变换，得到分离后的第二个语音：

本发明实施例上述方案，在训练阶段，对于多个说话人，构建每一个说话人语音的训练数据集；针对语音训练数据集的每一个说话人语音，用双树复数小波变换将语音信号分解为一组子带信号，对每个子带信号进行短时傅里叶变换，获得时频谱，通过稀疏非负矩阵分解方法分别学习各个语音时频谱的幅度特征，得到相应的基矩阵；在检测阶段，针对多个说话人混合语音信号，用双树复数小波变换将语音信号分解为一组子带信号，对每个子带信号进行短时傅里叶变换，获得时频谱，将时频谱的幅度在各个语音基矩阵上分解，得到相应的权矩阵，利用每个语音的基矩阵和权矩阵，得到其时频谱幅度的初始分离结果，采用掩码得到时频谱的最终分离，最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的分离结果。

从网格视听语料库(GRID audio-visual corpus)中采集语音作为训练和测试数据(包括不同的男性语音和女性语音)。有34个说话人(18男、16女)说了1000句话。随机抽取500个话语进行训练，并选用每个说话人200个话语进行测试。在仿真实验中，使用了两种类型的语音组合，一种是同性(男性-男性或女性-女性)语音分离，另一种是异性(男性-女性)语音分离。在同性语音分离中，用8个同性说话人的话语组成一个实验组，用另外8个不同的同性说话人的话语组成另一个实验组。对于异性语音分离，选择16名男性说话人的话语组成一个实验组， 16名女性说话人的话语组成另一个实验组。训练语音的长度约为60秒，测试语音的长度约为 10秒。语音信号的采样率为8000Hz，使用50％重叠的512点STFT将信号转换为时频域。

首先，给出本发明提出的方法与其它几种方法对比的一个实验结果，如图2所示。图中，水平坐标为时间单位为秒，记为Time(s)；垂直坐标为频率，记为Frequency。原始的男性语音谱图(Origina lMale Speech)和原始的女性语音图谱(Original FemaleSpeech)分别如图2(a) 和图2(b)所示，将它们直接相加起来形成混合语音；采用离散小波变换-短时傅里叶变换-稀疏非负矩阵分解方法(DWT-STFT-SNMF)分离出的男性语音谱图(Male Speech Estimated by DWT-STFT-SNMF)和女性语音谱图(Female SpeechEstimated by DWT-STFT-SNMF)分别如图2(c)和图2(d)所示；采用平稳小波变换-稀疏非负矩阵分解方法(SWT-SNMF)分离出的男性语音谱图(Male Speech Estimated by SWT-SNMF)和女性语音谱图(Female Speech Estimated by SWT-SNMF)分别如图2(e)和图2(f)所示；采用本专利提出的方法分离出的男性语音谱图 (Male Speech Estimated byProposed Method)和女性语音谱图(Female Speech Estimated by Proposed Method)分别如图2(g)和图2(h)所示。从图中可以看出，本方法分离出的男性和女性语音谱图与原始的男性和女性语音谱图最相似。

然后分别用SIR、SDR、fwsegSNR、STOI、PESQ、HASPI、HASQI指标对各组实验进行评价，结果如表1所示(M：男，F：女)：

表1各组实验结果

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种在双变换域上的单通道语音分离方法，其特征在于，包括：在训练阶段，针对每一个说话人的语音，通过双树复数小波变换将其分解为一组子带信号，对每个子带信号进行短时傅里叶变换，获得时频谱，通过稀疏非负矩阵分解方法分别学习各个语音时频谱的幅度特征，得到相应的基矩阵；在检测阶段，针对多个说话人的混合语音，通过双树复数小波变换将其分解为一组子带信号，对每个子带信号进行短时傅里叶变换，获得时频谱，将时频谱的幅度在各个说话人语音基矩阵上分解，得到相应的权矩阵，利用每个语音的基矩阵和权矩阵，得到其时频谱幅度的初始分离结果，采用掩码得到时频谱的最终分离，最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的分离结果；

该方法具体包括：

步骤1、训练阶段

步骤11、对于多个说话人，构建每一个说话人语音的训练数据集；现在以两个说话人为例，第一个说话人语音以下简称第一个语音的训练数据集为{x^tr(t)}，第二个说话人语音以下简称第二个语音的训练数据集为{y^tr(t)}；

步骤12、用双树复数小波变换(DTCWT)将第一个语音训练数据集中的语音信号x^tr(t)分解为一组子带信号