CN115862659A

CN115862659A - 基于双向级联框架的迭代式基频估计与语音分离方法和装置

Info

Publication number: CN115862659A
Application number: CN202211184250.6A
Authority: CN
Inventors: 陈婧; 吴玺宏; 李想; 孙溢凡; 栗楠
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-03-28

Abstract

本发明公开了一种基于双向级联框架的迭代式基频提取与语音分离方法和装置，对混合语音逐帧迭代地进行“基频预测‑语音分离‑基频更新”，在迭代中提升二者的性能。基频预测模块为后续模块提供基频线索，解决了多个输出带来的置换问题和说话人数目不确定的问题。语音分离模块利用有条件的生成对抗网络进行生成式语音分离，提升分离的语音质量。基频更新模块从已分离出的干净语音中，重新提取基频，更新基频预测的预测值，实现了“预测‑分离‑更新”过程的闭环。在本发明提出的双向级联框架下，语音分离与基频提取这两个任务以迭代的方法交替更新，互相依赖、互相促进，两个任务都取得了更好的性能。

Description

基于双向级联框架的迭代式基频估计与语音分离方法和装置

技术领域

本发明属于语音信号处理技术领域，涉及基频提取技术和语音分离技术，具体涉及一种基于双向级联框架的迭代式基频估计与语音分离方法和装置。

背景技术

人的发音器官在发浊音时，声带振动具有周期性，基频由声带振动的频率所决定，刻画了声音的音高。语音信号的频率成分通常由基频和一系列谐波构成，而谐波是基频的整数倍，这一特性被称为“谐波性”。基频提取任务旨在从人的语音中提取对应的基频轨迹，对于单个说话人的基频提取，传统方法已经取得不错的性能，但对于复杂声环境下多说话人的基频提取，则还没有足够准确的基频提取方法。语音分离任务旨在使机器在复杂声学场景中，提取特定说话人的语音，忽略背景干扰音，同样，在复杂环境下的多说话人语音分离任务也是人们关注的重点问题。二者对于语音信号处理领域，例如语音识别，关键词唤醒，智能音箱等技术均具有重要意义。

现有的串联算法可以顺序实现基频估计和语音分离。该串联算法首先估计输入混合语音中频带间相关性较高的时频片段的基频，再利用时间连续性原则将属于同一个说话人的帧级别的基频串联，然后将估计的基频用于对应语音的分离。然而，其中基频估计的部分仅是基于传统信号处理的方法，比如自相关的计算和基于包络的特征提取，这在提取信号周期性的方法中是过于简单的。当输入的混合语音中不同说话人的语音重叠片段较多时，该类方法性能较差。此外，上述算法只能针对发音的片段进行分离，因为只有这些片段才有基频值，对于清音的部分，该算法无法提取基频，因而不能进一步的分离。

也有方法将语音分离作为多说话人基频提取的前端，以提升后者的性能，其结果表明“语音分离-提取基频”的串联方法比仅使用混合语音作为输入，能够提升基频提取的性能。但现有方法大多旨在解决语音增强问题，针对的是语音和非语音噪声的混合信号，即输入中仅包含单个说话人的基频以及环境噪声，而本发明针对的多说话人混合语音的基频提取和语音分离显然是更具有挑战的任务。

现有研究表明语音分离系统可以作为多说话人基频提取任务的前端，能够有效地提升后者的性能。反过来，多说话人基频提取系统又能作为语音分离任务的前端，显著提升后者的分离效果。总结来说，准确的基频提取依赖于语音的预先分离，而语音分离的性能提升又得益于准确提取出的基频。因此，二者是一种互相依赖、互相促进的关系，它们处在一个闭环的循环关系中。

发明内容

针对现有问题，围绕着基频提取和语音分离之间相互依赖和促进的关系，本发明提出了一种双向级联的迭代式“预测基频-分离语音-更新基频”框架，使这两个任务以迭代的方法交替更新，起到了互相依赖和促进的作用，建模了闭环循环过程，两个任务都取得了更好的性能。

本发明的技术方案为：

一种基于双向级联框架的迭代式基频估计与语音分离方法，其步骤包括：

1)对于给定的混合语音，依次进行分帧、加窗、短时傅里叶变换操作，得到混合语音频谱图，然后逐帧地循环执行步骤2)～步骤4)，直至遍历完所有帧；

2)利用基频预测模块，以当前时刻的混合语音和历史时刻的基频预测值为条件，预测当前时刻的基频值，从而提取混合语音中某一说话人的基频序列；

3)利用语音分离模块，以混合语音和步骤2)得到的基频序列为输入，通过条件生成对抗网络，生成对应该基频序列的说话人语音；

4)利用基频更新模块，以步骤3)生成的分离后的说话人语音作为输入，提取基频轨迹，并用以更新步骤2)输出的当前帧的基频预测值；

5)经过步骤1)所述循环，可得到混合语音中完整的某一说话人的基频轨迹，该说话人由混合语音中领先的说话人决定，将该基频轨迹作为基频条件，联合混合语音频谱，输入到步骤3)中的条件生成对抗网络，即可分离出对应基频条件的说话人语音；

6)从混合语音中减去步骤5)中已分离的说话人语音，对残差语音再次执行步骤1)～5)的迭代过程，如此循环，直到残差语音中不包含任何语音，以上循环过程停止，从而分离出混合语音中各说话人的语音。

进一步地，所述基频预测模块包括编码器、预测网络和联合网络，编码器使用2层二维卷积神经网络后接4层的双向长短期记忆网络，预测网络采用2层的长短期记忆网络，联合网络为一层的全连接网络，整个框架同时训练、联合优化，其优化目标为分类交叉墒损失。

进一步地，所述条件生成对抗网络由生成器和判别器组成，生成器旨在从混合语音的幅度谱中生成对应基频条件的时域信号，判别器由多个作用在语音信号的不同频带子判别器组成。

进一步地，所述基频更新模块旨在从语音分离模块的输出结果中提取基频并用以更新基频预测模块的输出结果；所述基频更新模块利用卷积神经网络对输入频谱的局部特性进行建模，捕捉频率成分之间的谐波结构，后接全连接层建模每一帧的谐波与基频之间的映射关系，优化目标为分类交叉墒损失函数。

进一步地，本发明采用逐帧迭代式“基频预测-语音分离-基频更新”的框架，将基频提取与语音分离任务进行双向级联，同时提高二者性能，其循环迭代处理的规则为：

对于给定的混合语音，每运行该框架一次，将输出某个说话人的分离语音，该说话人由混合语音中领先的说话人决定，将上一轮已分离的说话人语音从混合语音中减去，对残差语音再次执行上述的迭代过程，如此循环，直到残差语音中不包含任何语音，即一旦剩余信号中没有预测出基频值，则该循环过程停止；或者，循环停止的条件由剩余信号的能量值决定，如果该能量小于某个阈值，则满足停止条件。

一种基于双向级联框架的迭代式基频估计与语音分离装置，其包括信号预处理模块、基频提取模块、语音分离模块、基频更新模块、循环分离模块；

所述信号预处理模块用于对给定的混合语音，依次进行分帧、加窗、短时傅里叶变换操作，得到混合语音时频谱；

所述基频预测模块用于以当前时刻的混合语音帧和历史时刻的基频预测值为条件，预测当前时刻的基频值，提取混合语音中某一说话人的基频序列；

所述语音分离模块用于以混合语音和所述基频预测模块得到的某一说话人的基频序列为输入，利用条件生成对抗网络，生成对应该基频序列的说话人语音；

所述基频更新模块用于以生成的说话人语音作为输入，提取基频轨迹，并用以更新所述基频预测模块输出的当前帧的基频预测值；

所述循环分离模块用于对于给定的混合语音，运行所述基频预测模块、所述语音分离模块和所述基频更新模块，得到某个说话人的分离语音，该说话人由混合语音中领先的说话人决定，将上一轮已分离的说话人语音从混合语音中减去，对残差语音再次执行所述基频预测模块、所述语音分离模块和所述基频更新模块的迭代过程，如此循环，直到残差语音中不包含任何语音，循环过程停止，从而分离出混合语音中各说话人的语音。

与现有技术相比，本发明的积极效果为：

本方法通过迭代的方式将基频提取与语音分离两个任务整合为一个框架，旨在刻画二者之间相互依赖、相互促进的关系。具体地，本发明提出双向级联框架来迭代式联合优化基频提取与语音分离两个任务，相比于现有方法中的单向串联式框架，该框架能够显著提升这两个任务的性能。

附图说明

图1为本发明流程框架示意图；

图2为本发明使用的基频预测模块框架图；

图3为本发明循环分离流程示意图。

具体实施方式

下面将更详细地描述本发明的具体实施方式。

本发明提出一种同时解决基频估计与语音分离的迭代式框架，可以概括为“预测基频-分离语音-更新基频”的过程，如图1所示，包含三个模块：基频预测、语音分离和基频更新。具体来说，基频预测模块旨在利用当前时刻的混合语音和上一时刻更新的基频预测当前时刻的基频，语音分离模块以混合语音作为输入，当前时刻预测的基频及所有历史时刻更新后的基频作为条件，利用条件生成对抗网络生成到当前时刻为止的分离语音。基频更新模块以语音分离模块的输出结果作为输入，提取基频轨迹，并用该基频轨迹更新基频更新模块输出的当前时刻的基频预测值。如此迭代地、逐帧地预测、分离并更新当前帧的基频，最终得到一条句子级别更新后的基频轨迹，并生成对应说话人的分离后语音。在这一框架中，两个任务形成双向级联的关系，相互促进，相互依赖，取得了更好的性能。

本发明一个实施例的一种基于双向级联框架的迭代式基频估计与语音分离方法，其步骤包括：

1)对于给定的混合语音，依次进行分帧、加窗、短时傅里叶变换操作，得到混合语音频谱图，然后逐帧地循环执行步骤2)～步骤4)，直至遍历完所有帧。循环框架如图1所示。

2)利用基频预测模块，以当前时刻的混合语音和历史时刻的基频预测值为条件，预测当前时刻的基频值，从而提取混合语音中某一说话人的基频序列。基频预测模块框架如图2所示。

3)利用语音分离模块，以混合语音和步骤2)得到的基频序列为输入，通过条件生成对抗网络，生成对应该基频序列的说话人语音。

4)利用基频更新模块，以步骤3)生成的分离后的说话人语音作为输入，提取基频轨迹，并用以更新步骤2)输出的当前帧的基频预测值。

5)经过步骤1)所述循环，可得到混合语音中完整的某一说话人的基频轨迹，该说话人由混合语音中领先的说话人决定。将该基频轨迹作为基频条件，联合混合语音频谱，输入到步骤3)中的条件生成对抗网络，即可分离出对应基频条件的说话人语音。

6)从混合语音中减去步骤5)中已分离的说话人语音，对残差语音再次执行步骤1)～5)所述的迭代过程。如此循环，直到残差语音中不包含任何语音，以上循环过程停止，从而分离出混合语音中各说话人的语音。循环分离过程如图3所示。

本发明方法的具体实现步骤包括信号预处理、基频提取、语音分离、基频更新、循环分离等几部分。各步骤的具体实现过程如下：

1.语音信号预处理

本方法首先对混合语音进行短时傅里叶变换(STFT)作为后续输入，使用分析窗w(n)和窗长N、帧移R对信号进行短时傅里叶变化，变换公式如下：

其中，X(t，f)表示频谱X的第t帧，第f个频带对应的值，x(n)表示信号x的第n个采样点对应的值，n表示信号采样点的索引，t和f分别表示帧和频带的索引，经过变换得到STFT频谱，具体实现中，使用的帧长为32ms，帧移为16ms，窗函数为汉明窗。对变换后的混合语音频谱将逐帧迭代地进行以下“基频预测-语音分离-基频更新”等步骤。

2.基频预测

基频预测模块，以当前时刻的混合语音和历史时刻的基频预测值为条件，预测当前时刻的基频值。此模块功能可以用以下公式表达(以当前时刻t为例)：

其中，

表示t时刻基频的预测结果，Prediction表示基频预测模块，x_t表示第t帧的混合语音，p_t-1表示t-1时刻得到的基频预测结果。

此模块框架如图2所示，主要由一个编码器(encoder)、预测网络(predictionnetwork)和联合网络(joint network)构成。其中，预测网络和联合网络可被看作一个整体，充当解码器的作用。编码器采用递归神经网络(RNN)的网络结构，将输入第t帧的混合语音x_t映射为更加高维的表示，

不仅取决于当前时刻的输入，也取决于上一时刻的隐层输出，可以说依赖于整个历史输入序列x₀，...，x_t。

其中，

表示输入序列经过编码得到的第t帧的高维表示，f^enc表示编码器。

在传统的基于循环网络的框架中，当前时刻的输出是与历史时刻的输出无关的。在本发明中，通过引入预测网络，使得当前时刻的输出同时还依赖于历史时刻的输出。具体地，预测网络以前一时刻的预测结果

作为输入，解码当前时刻的隐层输出/>

其中，f^dec表示解码器。

接着，使用一个联合网络将上述编码器和预测网络的输出整合，得到对当前时刻基频的预测结果

它是以当前时刻的混合语音和前一时刻的基频预测为条件的联合概率分布/>

此处的联合网络由若干前向层(Feed forward layer)组成。

其中，

表示t时刻联合网络输出的隐层表示向量，f^joint表示联合网络。

最终的输出概率分布通过一个softmax层得到：

上述包括编码器、预测网络和联合网络的整个框架是同时训练、联合优化的，其优化目标为分类交叉墒损失：

其中，t为帧索引，s为68个基频对应频率的索引，O为68分类的线性输出层，O_t(s)表示第m帧幅度谱对应第s个频率值的概率，该线性层后接softmax激活函数，

为给定x_t和/>

输入，/>

落在第s个频率的后验概率。

具体实现中，首先对混合语音进行拼帧操作，将连续7帧(3-1-3)的STFT谱进行拼接，输入到编码网络中，对中间帧的输出进行编码。该编码网络首先使用2层二维卷积神经网络(CNN)，卷积核大小为6×6，后接4层的双向长短期记忆网络层(BLSTM)，其中每个cell的隐层节点数为256。在历史基频输入端的预测网络中，采用2层的单向LSTM层，其中每个cell的隐层节点数为512。联合网络为一层的全连接层FCN，隐层节点数为512。

3.语音分离

语音分离模块以混合语音序列和基频序列作为输入，利用条件生成对抗网络，生成对应该基频的说话人语音。此模块功能可以用以下公式表达(以当前时刻t为例)：

其中，y_0～t表示0时刻到t时刻目标说话人语音信号序列，Separation表示语音分离模块，x_0～t表示0时刻到t时刻混合语音信号序列，p_0～(t-1)表示0时刻到t时刻目标说话人基频序列。

具体地，给定整句话的混合语音序列(x₀，...，x_N)和对应“基频预测模块”输出的说话人基频序列

生成器输出对应该说话人的语音(y₀，...，y_N)，其中第0帧到当前时刻第t帧的基频值被基频预测模块的预测结果替换，N为总帧数。

该模块主要包括两个部分：生成器和判别器，生成器旨在从混合语音的幅度谱中生成对应基频条件的时域信号，具体地，它包含两个阶段：第一阶段目的是从输入混合语音的幅度谱中生成对应基频条件的说话人的幅度谱；第二阶段是利用一组堆叠的反卷积模块和一维卷积将第一阶段的输出幅度谱上采样为对应时域信号的维度，上采样的倍数由输入幅度谱的帧移(hop size)决定。每个反卷积模块之后都会接着一个残差模块(residualblocks)，它由三层带有扩张(dilation)的一维卷积构成，通过设置不同的dilation系数(1，3，9)，可以获得大小为27的感受野，以扩大对信号时间维度的感受能力，更好地建模时间维度的长距离依赖关系。生成器部分最后使用一层的一维卷积和tanh激活函数，输出满足时域信号数值范围的表示，该一维卷积的输出通道设置为1，对应全频带的时域信号。

在判别器部分，采用了多尺度的策略，即使用多个判别器而非传统的单个判别器进行真/伪判别。前人的研究表明，仅使用单个判别器生成的语音会带有金属噪声。由于语音信号在不同的频率范围具有不同的频谱特性，因此，针对不同的频带，将使用不同的判别器，这里的“多尺度”概念是指不同的频带。具体地，多尺度的判别器将共享同一套网络结构和参数，但作用在语音信号的不同频带。当采用K个判别器时，判别器和生成器的训练目标分别为：

判别器：

生成器：

其中，G是生成器，G(x|y)表示给定混合语音的幅度谱x和基频条件y，生成器G生成的时域信号；D_k是第k个判别器，x是输入混合语音的幅度谱，y是给定的基频条件，s是对应该基频的说话人时域波形，

表示真实时域波形信号为s条件下公式(D_k(s|y)-1)²的数学期望，D_k(s|y)表示给定基频条件y和对应该基频说话人时域波形s的第k个判别器的输出值，

表示混合语音的幅度谱为x条件下公式(D_k(G(x|y)))²的数学期望，D_k(G(x|y))表示第k个判别器针对生成器生成的时域信号G(x|y)的输出结果。

本发明在对抗生成网络(GAN)的损失函数的基础上，引入了多分辨率(multi-resolution)的STFT损失。前人研究表明该损失函数不仅能够有效地度量真、伪时域波形在潜在特征空间的差异，还能稳定GAN的训练并加速收敛。对于单个STFT的损失，目标为最小化估计真实目标信号s和生成器估计的信号

之间的频谱收敛误差L_sc和对数幅度谱误差

其中，||·||_F和||·||₁分别是Frobenius和L1归一化，|STFT(·)|表示信号经STFT变换后的幅度谱，N是幅度谱中元素的总个数。

多分辨率的STFT损失由M个单个STFT损失组成，其中每个STFT损失对应不同的FFT大小、窗长和帧移参数，将这M个损失进行平均，得到最终多分辨率的STFT损失函数：

其中，

表示真实目标信号为s，生成器估计的信号为/>

的条件下，公式

所得结果的数学期望；/>

表示真实目标信号s和生成器估计的信号/>

之间的频谱收敛误差；/>

表示真实目标信号s和生成器估计的信号/>

之间的对数幅度谱误差。

因此，整个对抗-生成网络的目标函数可表示为：

其中，λ表示人工根据经验设置的网络训练权重参数。

在网络结构方面，生成器首先使用三层二维卷积，卷积核的大小为3，步长为2，每一层采用带有残差连接的ResNet结构，后接4层Transformer模块，每一层的输入特征维度为512，其中自注意力部分使用8个head(M＝1，d_model＝512，H＝8)，前向层的维度为1024。卷积模块与Transformer模块之间加入线性层使得前者的输出维度与后者的输入维度匹配。至此为止的部分记为G1，它是以幅度谱(频谱)作为生成目标的生成器的基础模块。在此基础上，后续的上采样模块使用三个上采样层将输入维度逐步上采样为原先的64倍(由帧移的长度决定)，每一层的上采样系数为[4x，4x，4x]，输出通道数分别为256，128和64。每一个上采样层都由一层反卷积和残差扩张卷积模块(ResStack)构成，其中，反卷积的kernelsize为stride的两倍，ResStack模块由4层带有扩张(dilation)的一维卷积构成，其kernelsize为3，扩张(dilation)的大小随着层数的增加为1，3，9，27，最终可以获得对应81帧的感受野。前人研究表明，将卷积的感受野扩大至合理的范围，可以提升生成语音的音质。上述模块记为G2，它作为G1的后续，与G1拼接，构成以时域信号作为生成目标的方法的生成器。

对于判别器，首先使用2层的二维卷积将输入频谱分解为12*5个patch，卷积核大小和步长均为7*5。再通过一个线性flatten层将时间维度和频率维度合并，得到一个一维序列，其序列长度为12*5，特征维为上述二维卷积后的通道维，在该序列的开头添加位置编码和一个用于判别分类的符号[cls]。将上述结果输入到Transformer层中。

4.基频更新

基频更新模块旨在从语音分离模块的输出结果中提取基频并用以更新基频预测模块的输出结果。此模块功能可以用以下公式表达(以当前时刻t为例)：

p_0～t＝UpdatePitch(y_0～t)， (16)

其中，p_0～t表示0时刻到t时刻目标说话人基频序列，UpdatePitch表示基频更新模块，y_0～t表示0时刻到t时刻目标说话人语音信号序列。

具体地，给定语音分离模块的输出(y₀，...，y_N)作为该模块的输入，利用帧级别基频提取网络输出基频结果(p₀，...，p_t，...，p_N)。由于该基频是从相对干净的分离后的语音上提取得到，因此，该模块的输出可以作为更加准确的结果以更新基频预测模块对当前时刻的预测值。随着逐帧“预测-分离-更新”过程的进行，所有历史时刻的基频都将被更新，并被作为基频预测模块的条件，最终可以得到一条更加准确的基频轨迹。

具体地，给定单个说话人语音，通过短时傅里叶变换得到对应的每一帧的幅度谱y_m，将其作为神经网络的输入，估计每一帧基频的后验概率，即p(z_m|y_m)。将60～404Hz频率范围以对数尺度按照每24个频点为一个倍频程量化为67个频率范围，这一过程将基频可能落入的频率范围由连续的频率值量化为离散的频率值，该值由67个频率范围的中心频率决定。此外，静音和清音作为额外的一类基频范围，总共68个离散的频率范围，则p(z_m|y_m)表示给定输入第m帧混合语音的幅度谱，该帧基频对应这68个频率中某个值的概率。如果第m帧的基频标签对应第s个频率值，那么p(z_m(s)|y_m)等于1。在网络结构设计方面，首先利用卷积神经网络对输入频谱的局部特性进行建模，捕捉频率成分之间的谐波结构。后接全连接层建模每一帧的谐波与基频之间的映射关系。用分类的交叉墒作为损失函数，定义如下：

其中，O_m(s)表示第m帧幅度谱对应第s个频率值的概率。

5.循环分离

上述三个模块构成本发明提出的迭代式基频估计与语音分离框架，给定一句混合语音，运行该框架一次，将输出某个说话人的基频轨迹，该说话人由混合语音中领先的说话人决定。该基频轨迹作为条件，联合混合语音频谱，输入到语音分离模块的条件生成对抗网络中，得到对应基频条件的说话人语音。该说话人取决于混合语音起始时刻领先的说话人。对于混合语音中剩余的待分离说话人，将上一轮已分离的说话人语音从混合语音中减去，对残差语音再次执行上述的迭代过程。如此循环，直到残差语音中不包含任何语音，即一旦剩余信号中没有预测出基频值，则该循环过程停止。循环停止的条件可由剩余信号的能量值决定，如果该能量小于某个阈值，则满足停止条件。整个循环分离的过程如图3所示。

下面结合具体实施例说明本发明的优点。使用本方法在实验数据集上进行了语音分离性能测试。本方法的结果将与前人的方法进行比较，此外，也与其他使用语音分离或基频提取作为彼此的前后端的方法进行比较。

1)实验设置

实验数据集基于华尔街日报语音数据(WSJ0)混合而成的两个说话人语音(WSJ0-2mix)和三个说话人语音(WSJ0-3mix)。其中，每一类混合语音包含约30个小时的训练数据、10个小时的验证数据和5个小时的测试数据，信噪比范围为0dB～10dB。另外，利用Praat工具在单个说话人的语音上提取基频，得到基频标签。采用相对原始语音的提升值(SDRi)、音质客观指标(PESQ)和短时客观可懂度(STOI)作为语音分离任务的评价指标，使用E_Total作为基频提取任务的评价指标，该指标能够同时评价基频估计和说话人分配的准确性，它是发音判别错误(无基频的帧判断为有基频的帧，或者相反)、置换错误(不同说话人之间基频分配错误)、粗粒度错误和细粒度错误的结合，该指标越小越好。

语音分离模块和基频更新模块的设置如前文具体实施方式中所述，其参数使用训练数据训练好并固定，不与基频预测模块联合训练。而基频预测模块各组成部分，包括编码器、预测网络和联合网络的整个框架是同时训练、联合优化的。

2)实验结果

将本发明的方法与前人方法进行比较，结果如表1所示。该方法能取得优于传统方法(uPIT和DPCL)、以及和目前最好的方法(Conv-TasNet)可比的性能。在SDRi、PESQ和STOI上的指标都有所提升，但针对两个说话人的混合语音，在SDRi上的表现稍差于Conv-TasNet，原因可能是，在基频预测模块中，在针对混合语音输入的编码器结构上，使用了BLSTM，而Conv-TasNet在对输入混合语音的编码中，采用了更强大的时域卷积TCN，于是，在本发明模型的基础上，将基频预测模块中的编码器改为TCN结构，对比结果如表2所示，本发明性能得到提升，略高于Conv-TasNet方法。

与已知分离语音(标签)的IRM和IBM方法相比，本方法在SDRi指标上体现了优越性，但在客观感知指标PESQ和STOI上稍差。IRM/IBM方法对分离语音幅度谱的估计较为准确，在基于信号幅度谱计算的PESQ和STOI指标上更有优势；但该类方法利用混合语音的相位重构时域信号，导致基于时域信号能量的SDRi指标较差。本发明直接输出分离语音的时域信号，有利于提升SDRi指标。

本发明也与其他以语音分离或基频提取作为前后端的方法进行了比较，如表3所示。其中作为比较的系统是以“基频-分离”为框架的单向过程(提取各个说话人的基频轨迹，与混合语音拼接后输入到语音分离系统中，得到每个说话人分离的语音)，和以“分离-基频”为框架的单向过程(先从混合语音中分离出每个说话人的语音，再将其与混合语音拼接，输入到基频提取的系统中，提取每个说话人的基频轨迹)。上述两个系统可以看作是面向某个任务的一轮迭代过程。而本发明中循环迭代的框架能够刻画两个任务之间相互依赖、相互促进的关系，从实验结果上也体现了该框架的优越性，能够同时提升二者的性能。

表1.本发明与其他方法在语音分离性能上的比较

表2.本发明基频预测模块的编码器采用不同结构对语音分离性能上的影响

表3.本发明与其他利用语音分离或基频提取为前后端的方法比较结果

模型	SDRi(dB)	E<sub>Total</sub>(％)
			Pitch-cGAN(our method)	16.1	18.7
Pitch-SS	12.0	-
			SS-Picth	-	19.6

本发明的另一个实施例提供一种基于双向级联框架的迭代式基频估计与语音分离装置，其包括信号预处理模块、基频提取模块、语音分离模块、基频更新模块、循环分离模块；

其中各模块的具体实施过程参见前文对本发明方法的描述。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于双向级联框架的迭代式基频估计与语音分离方法，其步骤包括：

1)对于给定的混合语音，依次进行分帧、加窗、短时傅里叶变换操作，得到混合语音时频谱，然后逐帧地循环执行步骤2)～步骤4)，直至遍历过所有帧；

2)利用基频预测模块，以当前时刻的混合语音帧和历史时刻的基频预测值为条件，预测当前时刻的基频值，提取混合语音中某一说话人的基频序列；

3)利用语音分离模块，以混合语音和步骤2)得到的基频序列为输入，利用条件生成对抗网络，生成对应该基频序列的说话人语音；

4)利用基频更新模块，以步骤3)生成的说话人语音作为输入，提取基频轨迹，并用以更新步骤2)输出的当前帧的基频预测值；

5)经过步骤1)所述循环，可得到混合语音中完整的某一说话人的基频轨迹，该说话人由混合语音中领先的说话人决定，将该基频轨迹作为基频条件，联合混合语音频谱，输入到步骤3)中的条件生成对抗网络，分离出对应基频条件的说话人语音；

2.如权利要求1所述的方法，其特征在于，所述基频预测模块包括编码器、预测网络和联合网络，编码器使用2层二维卷积神经网络后接4层的双向长短期记忆网络，预测网络采用2层的长短期记忆网络，联合网络为一层的全连接网络，整个框架同时训练、联合优化，其优化目标为分类交叉墒损失。

3.如权利要求1所述的方法，其特征在于，所述条件生成对抗网络由生成器和判别器组成，生成器旨在从混合语音的幅度谱中生成对应基频条件的时域信号，判别器由多个作用在语音信号的不同频带子判别器组成，二者优化目标分别为：

判别器：

生成器：

其中，G为生成器，D_k是第k个判别器，x是输入混合语音的幅度谱，y是给定的基频条件，s是对应该基频的说话人时域波形；G(x|y)表示给定x和y，生成器G生成的时域信号；

表示真实时域波形信号为s条件下公式(D_k(s|y)-1)²的数学期望，D_k(s|y)表示给定y和s的第k个判别器的输出值，/>

表示混合语音的幅度谱为x条件下公式(D_k(G(x|y)))²的数学期望；D_k(G(x|y))表示第k个判别器针对生成器生成的时域信号G(x|y)的输出结果。

4.如权利要求1所述的方法，其特征在于，所述基频更新模块旨在从语音分离模块的输出结果中提取基频并用以更新基频预测模块的输出结果；所述基频更新模块利用卷积神经网络对输入频谱的局部特性进行建模，捕捉频率成分之间的谐波结构，后接全连接层建模每一帧的谐波与基频之间的映射关系，优化目标为分类交叉墒损失函数。

5.如权利要求1所述的方法，其特征在于，采用逐帧迭代式“基频预测-语音分离-基频更新”的框架，将基频提取与语音分离任务进行双向级联，同时提高二者性能，其循环迭代处理的规则为：

6.一种基于双向级联框架的迭代式基频估计与语音分离装置，其特征在于，包括信号预处理模块、基频提取模块、语音分离模块、基频更新模块、循环分离模块；

7.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～5中任一项所述方法的指令。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～5中任一项所述的方法。