CN115910091A

CN115910091A - 引入基频线索的生成式语音分离方法和装置

Info

Publication number: CN115910091A
Application number: CN202211184016.3A
Authority: CN
Inventors: 陈婧; 吴玺宏; 李想; 孙溢凡; 栗楠
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-04-04

Abstract

本发明公开了一种引入基频线索的生成式语音分离方法和装置。本发明开创性地利用基频线索作为条件，结合混合语音提供的频谱细节信息，使用生成式神经网络生成目标说话人语音，与传统通过估计混合语音的时频掩膜来提取目标语音的方法相比，分离语音的音质和可懂度得到提高。相比于同时分离所有说话人语音的方法，本发明通过引入基频线索解决了现有方法中说话人数目不确定和难以确定网络输出与真实说话人之间对应关系的问题。本发明依托于听觉加工机制和神经网络结构，取得了与当前最优方法可比的性能，为机器在复杂场景中解决语音分离任务提供了可能。

Description

引入基频线索的生成式语音分离方法和装置

技术领域

本发明属于语音信号处理技术领域，涉及语音分离技术，具体涉及一种引入基频线索的生成式语音分离方法和装置。

背景技术

语音作为交互媒介体现出高效性和直接性的优势，随着人工智能算法的进步和应用，以语音作为交互方式的智能设备得到了飞速的应用和发展，国外有苹果的Siri、谷歌的Google Home和亚马逊的Echo，国内有百度的小度、小米的小爱和天猫精灵。然而，真实的声学场景通常是复杂的，环境噪声、人声干扰以及回声、混响都会严重降低语音的可懂度和音质，影响智能语音设备的功能，如语音识别、说话人识别等进一步影响人机交互的体验。因此，在复杂声学场景下，从混合语音信号中分离目标语音是至关重要的。

人的听觉系统具有强大的抗干扰能力，即在复杂的声学场景中能够识别特定说话人的语音，而忽略其他声音(人声或非人声)的干扰，这一现象也被称为“鸡尾酒会问题”。但对于机器来说，具备这样的抗干扰能力却十分困难，复杂声学场景下的语音交互仍然具有挑战。

近年来，随着深度学习的进步，深度神经网络开始被应用于解决上述问题，这加速了该领域的发展。研究者们将上述“鸡尾酒会问题”抽象为语音分离任务，目标是构建从多说话人的混合语音到分离语音的映射。现有的方法大多遵循以下范式：多说话人混合语音作为输入，通过深度神经网络学习每个说话人的语音表示，即将每个说话人的语音都进行分离。但不管是从可解释性还是泛化性，当前方法的性能与人类水平相比还存在一定的差距。

另外，目前基于神经网络的语音分离方法大都先对混合语音进行变换得到混合语音频谱作为输入，以目标说话人的时频掩膜作为网络输出，再将该时频掩膜与输入混合语音的频谱相乘，得到估计目标的频谱表示。该类方法存在的问题是，在某些时频区域，当前景语音(待分离语音)在较大程度上或完全被背景声(噪声等干扰声)掩蔽时，前景语音将无法从混合语音中恢复，背景声也无法完全去除。一方面，网络以时频掩膜而非直接以语音信号作为估计目标，掩膜估计的准确性会影响重构语音信号的性能。另一方面，时频掩膜要与混合语音的频谱经过额外的相乘操作后才能得到目标语音的频谱，这会进一步降低目标语音的信噪比。

多数语音分离的方法遵循将每个说话人都分离开的范式，分离系统缺乏条件作为指导，无法判断待分离的说话人，只能将所有说话人的语音都分离并一次性输出。再通过后续处理模块，如说话人识别，决定待分离的目标说话人语音。由于缺少条件，无法确定待分离的目标，从而难以确定网络的多个输出与目标说话人标签之间的对应关系，有些方法需要预先确定说话人数目，难以应对说话人数目未知的情形。

发明内容

针对现有方法的缺点，本发明提出一种引入基频线索的生成式语音分离方法和装置。

本发明提出了一种以听觉线索(基频)为条件的语音分离框架：输入为混合语音频谱和待分离说话人的基频线索，该线索将作为条件，引导着对应说话人语音的分离。该待分离的说话人可以是混合语音中包含的任意某个说话人，在实际应用中也可以是某个指定的说话人。

本发明开创性地利用基频线索作为条件，结合混合语音提供的频谱细节信息，将对应该基频的语音以生成的方式而非时频掩膜的方式得出。通过引入基频线索解决了说话人数目不确定和难以确定网络输出与真实说话人之间的对应关系的问题。从听觉层面来说，是模拟人耳根据存留在记忆中的对听觉目标的表示和显著性特征(此处指基频)，将目标语音在脑中生成出来。因此，整个语音分离的过程不只是对目标语音的编码过程(现有的方法大多只包含这一过程)，还包括基于给定说话人的基频线索。

本发明的技术方案为：

1)对于给定的混合语音，依次进行分帧、加窗、短时傅里叶变换操作，得到混合语音的短时傅里叶变换频谱(STFT频谱)；

2)将1)中得到的频谱与目标说话人的基频轨迹序列输入生成器G1中，通过基频条件约束生成器生成目标说话人的语音频谱；

3)将2)中得到的目标说话人的语音频谱输入到生成器G2中，输入频谱经过一维反卷积模块、上采样模块和残差模块，再通过一维卷积和激活函数层，输出满足时域信号数值范围的表示，即目标说话人的语音；

4)将3)中生成的目标说话人的语音和目标说话人的基频轨迹序列输入到判别器中，判别器判断生成语音是否是真实目标说话人语音(即输出1/0表示真伪)，以此为结果计算生成器G1、G2的优化目标函数值(即损失函数值)，并以此为依据调整生成器G1、G2的参数，同时根据训练数据的真实标签计算判别器的优化目标函数值，以此为依据调整判别器参数；

5)训练时，循环执行步骤1)～4)，直至生成器G1、G2和判别器各自的损失函数值趋于稳定，即达到收敛状态，此时固定生成器与判别器的参数设置；

6)测试时(即实际应用时)，对于待进行语音分离的混合语音，以收敛状态下生成器G1、 G2的参数设置为标准，执行步骤1)～3)，步骤3)中输出的语音即为最终分离出的目标说话人语音。

进一步地，生成器G1的输入为混合语音和基频条件，该基频约束生成器G1生成对应说话人语音的表示；生成器G1首先使用三层二维卷积，卷积核的大小为3，步长为2，每一层采用带有残差连接的残差网络结构，后接4层Transformer模块，每一层的输入特征维度为 512，其中自注意力部分使用8个head，前向层的维度为1024；卷积模块与Transformer模块之间加入线性层使得前者的输出维度与后者的输入维度匹配。

进一步地，生成器G2利用一组堆叠的反卷积模块和一维卷积将G1的输出幅度谱上采样为对应时域信号的维度，上采样的倍数由输入幅度谱的帧移决定；每个反卷积模块之后都连接一个残差模块，残差模块由三层带有扩张的一维卷积构成，通过设置不同的系数(1,3,9)，获得大小为27的感受野，以扩大对信号时间维度的感受能力，更好地建模时间维度的长距离依赖关系；生成器G2最后使用一层的一维卷积和tanh激活函数，输出满足时域信号数值范围的表示，该一维卷积的输出通道设置为1，对应全频带的时域信号。

进一步地，判别器D采用Transformer结构，采用基于分块级别的判别，即将输入时频表示看作是一张二维图，具有两个通道，第一个通道表示真或伪的目标语音幅度谱，第二个通道对应拼接的条件基频；将该输入分解为若干块，通过一个线性层将其展开成一个一维序列，在该序列的开头添加可学的位置编码和一个分类符号[cls]，将其输入到一个3层的 Transformer模块中，最终，使用分类符[cls]给出真假判别结果。

进一步地，以混合语音序列和目标说话人的基频轨迹序列作为输入条件，利用条件生成对抗网络，生成对应该基频的目标说话人的语音；所述条件对抗生成网络由生成器和判别器组成，生成器旨在从混合语音的幅度谱中生成对应基频条件的时域信号，判别器由多个作用在语音信号的不同频带子判别器组成。

一种引入基频线索的生成式语音分离装置，其包括：

训练单元，用于训练生成器G1、生成器G2和判别器，训练过程包括：对于给定的混合语音，依次进行分帧、加窗、短时傅里叶变换操作，得到混合语音的短时傅里叶变换频谱；将得到的频谱与目标说话人的基频轨迹序列输入生成器G1中，通过基频条件约束生成器生成目标说话人的语音频谱；将得到的目标说话人的语音频谱输入到生成器G2中，输入频谱经过一维反卷积模块、上采样模块和残差模块，再通过一维卷积和激活函数层，输出满足时域信号数值范围的表示，即目标说话人的语音；将生成的目标说话人的语音和目标说话人的基频轨迹序列输入到判别器中，判别器判断生成语音是否是真实目标说话人语音，以此为结果计算生成器G1、G2的优化目标函数值，并以此为依据调整生成器G1、G2的参数，同时根据训练数据的真实标签计算判别器的优化目标函数值，以此为依据调整判别器参数；循环执行以上步骤，直至生成器G1、G2和判别器各自的损失函数值趋于稳定，即达到收敛状态，此时固定生成器与判别器的参数设置；

语音分离单元，用于对于待进行语音分离的混合语音，利用收敛状态下生成器G1、G2 得到分离出的目标说话人语音。

与现有技术相比，本发明的积极效果为：

本发明以听觉场景分析为理论基础，从条件生成对抗网络得到实现层面的启发，提出了一种基于基频线索的生成式语音分离框架：给定混合语音中任一说话人的基频轨迹作为条件，通过“生成”过程获得该说话人分离语音。该框架具有以下几个优点：(1)避免了现有的语音分离框架中由于缺乏条件而无法确定待分离的说话人的问题，本发明给定某一说话人的基频线索作为条件，仅分离对应条件的说话人语音，与输入混合语音中包含的说话人个数无关，因而解决了输出置换和说话人数目未知的问题；(2)完全抛弃现有的基于时频掩膜的框架，将得到分离语音的过程看作生成过程而非编码过程，提高了分离语音的质量与可懂度。

附图说明

图1为本发明的思路流程示意图；

图2为本发明的具体流程框架示意图。

具体实施方式

下面将更详细地描述本发明的具体实施方式。

本发明方法的思路框架图如图1所示，具体流程框架图如图2所示。本发明方法的具体实现模块包括信号预处理模块、生成器G1、生成器G2、判别器等几部分。各模块的组成结构和具体实现如下：

1.语音信号预处理

本方法首先对混合语音进行短时傅里叶变换(STFT)作为后续输入，使用分析窗w(n) 和窗长N、帧移R对信号进行短时傅里叶变化，变换公式如下：

其中，X(t,f)表示频谱X的第t帧，第f个频带对应的值，x(n)表示信号x的第n个采样点对应的值，n表示信号采样点的索引，t和f分别表示帧和频带的索引，经过变换得到STFT 频谱，具体实现中，使用的帧长为32ms，帧移为16ms，窗函数为汉明窗。STFT频谱中包含了这一段语音信号在时间维度和频率维度上的幅度信息和相位信息(即可以由STFT频谱推导出语音的幅度谱和相位谱)。

2.生成器G1

生成器G1的输入为混合语音和基频条件，该基频将约束生成器生成对应说话人语音的表示。对于输入混合语音幅度谱X和待分离说话人的基频Y，前者包含T帧和F个频带，后者包含T帧和N个频带(将基频可能的频率范围量化为N个离散频率)。按照临界带准则，如果该帧基频落在以f_c(对应X中的各个频点)为中心频率的频带内，则将该基频分配给f_c(对应的频带，于是Y可以扩展为和X相同的频带数。此外，再扩展出一个额外的通道维C(C＝1)，使得两者在通道维拼接得到Z(C＝2)。整个生成器包括以下几个模块：卷积模块、Transformer模块、线性层。

其中，CNN(·)是一系列堆叠的二维卷积，目的是为了对输入语音的时频表示进行局部建模，捕捉其局部频谱特性，将其输出的通道维和频率维合并为一个维度(C₀×F₀)，得到的E_CNN被看作一个T₀帧、特征维为C₀×F₀的序列。接着使用四层的Transformer模块对序列E_CNN的时间维度进行建模。该Transformer模块由两个部件组成，包括一个多头自注意力模块和一个具有GELU非线性函数的前馈层。最后，Transformer的输出经过一层线性层，将频率特征的维度D映射为目标幅度谱对应的维度F。实际上，以上三个模块的时间维度是不变的，等于输入频谱的帧数，即T＝T₀＝T₁＝T₂。

在网络结构方面，生成器G1首先使用三层二维卷积，卷积核的大小为3，步长为2，每一层采用带有残差连接的ResNet结构，后接4层Transformer模块，每一层的输入特征维度为512，其中自注意力部分使用使用8个子注意力模块组成总注意力模块，也称8头注意力模块，前向层的维度为1024。卷积模块与Transformer模块之间加入线性层使得前者的输出维度与后者的输入维度匹配，ResNet结构与Transformer均为领域公知的网络模块，本方法针对实际问题进行了组合使用。

3.生成器G2

生成器G2利用一组堆叠的反卷积模块和一维卷积将第一阶段(即G1)的输出幅度谱上采样为对应时域信号的维度，上采样的倍数由输入幅度谱的帧移决定。每个反卷积模块之后都会接着一个残差模块，它由三层带有扩张的一维卷积构成，通过设置不同的系数(1,3,9)，可以获得大小为27的感受野，以扩大对信号时间维度的感受能力，更好地建模时间维度的长距离依赖关系。生成器G2部分最后使用一层的一维卷积和tanh激活函数，输出满足时域信号数值范围的表示，该一维卷积的输出通道设置为1，对应全频带的时域信号。

在网络结构方面，生成器G2的上采样模块使用三个上采样层将输入维度逐步上采样为原先的64倍(由帧移的长度决定)，每一层的上采样系数为[4x,4x,4x]，输出通道数分别为 256,128和64。每一个上采样层都由一层反卷积和残差扩张卷积模块(ResStack)构成，其中，反卷积的kernel size(卷积核尺寸)为stride(步长)的两倍，ResStack模块由4层带有扩张(dilation)的一维卷积构成，其kernel size为3，扩张(dilation)的大小随着层数的增加为1,3,9,27，最终可以获得对应81帧的感受野。有研究表明，将卷积的感受野扩大至合理的范围，可以提升生成语音的音质。

4.判别器

判别器D框架图如图2所示，具体地，判别器采用Transformer结构，与常见的基于整个时频表示进行判别的方法不同，这里采用基于分块级别(patch level)的判别，即将输入时频表示看作是一张二维图，具有两个通道，第一个通道表示真或伪的目标语音幅度谱，第二个通道对应拼接的条件基频。将该输入分解为若干块(patch)，通过一个线性层将其展开成一个一维序列，在该序列的开头添加了可学的位置编码和一个分类符号[cls]，将其输入到一个3层的Transformer模块中，其组成结构与上述生成器一样。最终，使用分类符[cls]给出真假判别结果。

具体地，首先使用2层的二维卷积将输入频谱分解为12*5个patch，卷积核大小和步长均为7*5。再通过一个线性展开层将时间维度和频率维度合并，得到一个一维序列，其序列长度为12*5，特征维为上述二维卷积后的通道维，在该序列的开头添加位置编码和一个用于判别分类的符号[cls]。将上述结果输入到Transformer层中。

5.目标函数定义

采用了多尺度的策略刻画目标函数，利用条件生成对抗网络生成对应基频的目标说话人的语音，G1、G2将联合为生成器G，同时使用多个判别器而非传统的单个判别器进行真/伪判别。仅使用单个判别器生成的语音会带有金属噪声。由于语音信号在不同的频率范围具有不同的频谱特性，因此，针对不同的频带，将使用不同的判别器，这里的“多尺度”概念是指不同的频带。具体地，多尺度的判别器将共享同一套网络结构和参数，但作用在语音信号的不同频带。当采用K个判别器时，判别器和生成器的训练目标分别为：

判别器：

生成器：

其中，D_k是第k个判别器，x是输入混合语音的幅度谱，y是给定的基频条件，s是对应该基频的说话人时域波形；

表示真实时域波形信号为s条件下公式(D_k(s|y)-1)²的数学期望；D_k(s|y)表示给定基频条件y和对应该基频说话人时域波形s的第k个判别器的输出值；

表示混合语音的幅度谱为x条件下公式(D_k(G(x|y)))²的数学期望；D_k(G(x|y))表示第k个判别器针对生成器生成的时域信号G(x|y)的输出结果。

本发明在生成对抗网络(GAN)的损失函数的基础上，引入了多分辨率(multi-resolution) 的STFT损失。前人研究表明该损失函数不仅能够有效地度量真、伪时域波形在潜在特征空间的差异，还能稳定GAN的训练并加速收敛。对于单个STFT的损失，目标为最小化估计真实目标信号s和生成器估计的信号

之间的频谱收敛误差L_sc和对数幅度谱误差

其中，‖·‖_F和‖·‖₁分别是Frobenius和L1归一化，|STFT(·)|表示信号经STFT变换后的幅度谱，N是幅度谱中元素的总个数。

多分辨率的STFT损失由M个单个STFT损失组成，其中每个STFT损失对应不同的FFT大小、窗长和帧移参数，将这M个损失进行平均，得到最终多分辨率的STFT损失函数：

其中，

表示真实目标信号为s，生成器估计的信号为

的条件下，公式

所得结果的数学期望，

表示真实目标信号s和生成器估计的信号

之间的频谱收敛误差，

表示真实目标信号s和生成器估计的信号

之间的对数幅度谱误差。

因此，整个对抗-生成网络的目标函数可表示为：

其中，λ表示人工根据经验设置的网络训练权重参数。

本发明一个实施例的一种基于基频线索的生成式语音分离方法，其步骤包括：

1)对于给定的混合语音，依次进行分帧、加窗、短时傅里叶变换操作，得到混合语音的短时傅里叶变换频谱(STFT频谱)。

2)将1)中得到的频谱与目标说话人的基频轨迹序列输入生成器G1中，基频条件将约束生成器生成对应说话人的语音频谱。

3)将2)中得到的目标说话人语音频谱输入到生成器G2中，输入频谱经过一维反卷积模块、上采样模块和残差模块，再通过一维卷积和激活函数层，输出满足时域信号数值范围的表示，即对应目标说话人的语音。

4)将3)中生成的目标说话人语音和目标说话人的基频轨迹序列输入到判别器中，判别器判断生成语音是否是真实目标说话人语音(即输出1/0表示真伪)，以此为结果计算生成器 G1、G2的优化目标函数值(即损失函数值)，并以此为依据调整生成器G1、G2的参数，同时根据训练数据的真实标签计算判别器的优化目标函数值，以此为依据调整判别器参数。

5)训练时，循环执行步骤1)～4)，直至生成器G1、G2和判别器各自的损失函数值趋于稳定，即达到收敛状态，此时固定生成器与判别器的参数设置。

6)测试时(即实际应用时)，以收敛状态下生成器G1、G2的参数设置为标准，执行步骤1)～3)，步骤3)中输出的语音即为最终分离出的目标说话人语音。

下面结合具体实施例说明本发明的优点。使用本方法在实验数据集上进行了语音分离性能测试，比较本方法与前人方法的性能。

1)实验设置

实验数据集基于华尔街日报语音数据(WSJ0)混合而成的两个说话人语音(WSJ0-2mix)和三个说话人语音(WSJ0-3mix)。其中，每一类混合语音包含约30个小时的训练数据、10个小时的验证数据和5个小时的测试数据，信噪比范围为0dB～10dB。输入语音的采样率由原始的16kHz重采样为8kHz，提取短时傅里叶变换(STFT)特征采用的帧长为32ms，帧移为16ms，窗函数为汉明窗，进一步得到频率维度为129的幅度谱作为输入特征。另外，利用Praat工具在单个说话人的语音上提取基频，得到基频轨迹线索。基频序列的长度即帧数，与输入混合语音幅度谱的帧数相同，每一帧具有一个具体的基频值，利用临界带准则将该基频值分配给 129个频带中对应频带，即与该基频值对应的频带将被置为1，其余值为0。最终得到一个和幅度谱维度相同的由0和1构成的二维表示。采用相对原始语音的提升值(SDRi)、音质客观指标(PESQ)和短时客观可懂度(STOI)作为语音分离任务的评价指标。

2)实验结果

实验结果如表1所示，本发明提出的方法(Pitch-cGAN)在利用上采样模块直接使生成器输出时域信号，可以与基于时域的目前最先进的方法(TasNet系列模型)进行比较。同时本发明表现出的性能强于利用混合语音的相位重构时域信号的代表性方法(uPIT和DPCL)。可能的原因是，以uPIT和DPCL为代表的这类频域方法通常以掩膜作为估计目标，训练过程旨在最小化估计结果和真实标签之间样本层面(时频点)的均方误差，该训练目标这并不能保证对于所有客观指标都是合适的，即训练目标(损失函数)与评价指标之间还是有差异的。本发明则避免了挑选合适的损失函数这一步骤，而是使用判别器、通过深度神经网络判断生成器的输出与真实标签之间是否足够接近。结果证明本发明方法在各项指标上都有所提升，可以认为网络隐式地学到了对应的相位信息。

表1.本发明与其他方法在语音分离性能上的比较

在两个说话人混合语音的条件下，本方法在SDRi指标上还是不及目前最先进的方法 (Conv-TasNet)，可能是因为后者是直接以该类指标作为损失函数进行优化。但在音质和可懂度两类客观指标上，本方法优于Conv-TasNet，认为这是使用判别器替代人工定义的损失函数带来的优势。在三个说话人混合语音的条件下，本方法在各项指标上都优于Conv-TasNet，这是得益于本方法与输入混合语音中说话人数目无关，而是利用给定的条件每次只输出一个说话人的分离语音。

从结果分析可得出，本发明提出的方法有以下几点优势。第一，利用判别器替代了损失函数的作用，避免了人工设计的损失函数与平均指标不一致的问题。因为评价指标涉及分离后信号的各个方面，包括信噪比、可懂度和音质，难以用一个简单加权求和的损失函数来定义，而生成对抗网络不需要人为定义的损失函数。第二，选择了基频作为条件，而非常见的说话人特征。前者保留了语音在时间上的局部变化，后者是一种全局特征，失去了时间和频率维度的特性，理论上，对于音色相近或者训练中未见过的说话人，使用说话人特征的方法得到的结果应不如使用基频信息得到的结果。

基于同一发明构思，本发明的另一实施例提供一种引入基频线索的生成式语音分离装置，其包括：

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种引入基频线索的生成式语音分离方法，其步骤包括：

1)对于给定的混合语音，依次进行分帧、加窗、短时傅里叶变换操作，得到混合语音的短时傅里叶变换频谱；

4)将3)中生成的目标说话人的语音和目标说话人的基频轨迹序列输入到判别器中，判别器判断生成语音是否是真实目标说话人语音，以此为结果计算生成器G1、G2的优化目标函数值，并以此为依据调整生成器G1、G2的参数，同时根据训练数据的真实标签计算判别器的优化目标函数值，以此为依据调整判别器参数；

6)对于待进行语音分离的混合语音，以收敛状态下生成器G1、G2的参数设置为标准，执行步骤1)～3)，步骤3)中输出的语音即为最终分离出的目标说话人语音。

2.如权利要求1所述的方法，其特征在于，生成器G1的输入为混合语音和基频条件，该基频约束生成器G1生成对应说话人语音的表示；生成器G1首先使用三层二维卷积，卷积核的大小为3，步长为2，每一层采用带有残差连接的残差网络结构，后接4层Transformer模块，每一层的输入特征维度为512，其中自注意力部分使用8个head，前向层的维度为1024；卷积模块与Transformer模块之间加入线性层使得前者的输出维度与后者的输入维度匹配。

3.如权利要求1所述的方法，其特征在于，生成器G2利用一组堆叠的反卷积模块和一维卷积将G1的输出幅度谱上采样为对应时域信号的维度，上采样的倍数由输入幅度谱的帧移决定；每个反卷积模块之后都连接一个残差模块，残差模块由三层带有扩张的一维卷积构成，通过设置不同的系数(1,3,9)，获得大小为27的感受野，以扩大对信号时间维度的感受能力，更好地建模时间维度的长距离依赖关系；生成器G2最后使用一层的一维卷积和tanh激活函数，输出满足时域信号数值范围的表示，该一维卷积的输出通道设置为1，对应全频带的时域信号。

4.如权利要求1所述的方法，其特征在于，判别器D采用Transformer结构，采用基于分块级别的判别，即将输入时频表示看作是一张二维图，具有两个通道，第一个通道表示真或伪的目标语音幅度谱，第二个通道对应拼接的条件基频；将该输入分解为若干块，通过一个线性层将其展开成一个一维序列，在该序列的开头添加可学的位置编码和一个分类符号[cls]，将其输入到一个3层的Transformer模块中，最终，使用分类符[cls]给出真假判别结果。

5.如权利要求1所述的方法，其特征在于，以混合语音序列和目标说话人的基频轨迹序列作为输入条件，利用条件生成对抗网络，生成对应该基频的目标说话人的语音；所述条件对抗生成网络由生成器和判别器组成，生成器旨在从混合语音的幅度谱中生成对应基频条件的时域信号，判别器由多个作用在语音信号的不同频带子判别器组成，二者优化目标分别为：

判别器：

生成器：

其中，G为生成器，由G1、G2组成，D_k是第k个判别器，x是输入混合语音的幅度谱，y是给定的基频条件，s是对应该基频的说话人时域波形；

表示真实时域波形信号为s条件下公式(D_k(s|y)-1)²的数学期望；D_k(s|y)表示给定y和s的第k个判别器的输出值；

表示x条件下公式(D_k(G(x|y)))²的数学期望；D_k(G(x|y))表示第k个判别器针对生成器生成的时域信号G(x|y)的输出结果。

6.如权利要求5所述的方法，其特征在于，在条件生成对抗网络的损失函数的基础上，引入多分辨率的STFT损失，多分辨率的STFT损失由M个单个STFT损失组成，其中每个STFT损失对应不同的FFT大小、窗长和帧移参数，将M个单个STFT损失进行平均，得到多分辨率的STFT损失函数。

7.一种引入基频线索的生成式语音分离装置，其特征在于，包括：

语音分离单元，用于对于待进行语音分离的混合语音，利用收敛状态下生成器G1、G2得到分离出的目标说话人语音。

8.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～6中任一项所述方法的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～6中任一项所述的方法。