CN112331218A

CN112331218A - 一种针对多说话人的单通道语音分离方法和装置

Info

Publication number: CN112331218A
Application number: CN202011057899.2A
Authority: CN
Inventors: 史慧宇; 欧阳鹏; 尹首一
Original assignee: Beijing Qingwei Intelligent Technology Co ltd
Current assignee: Beijing Qingwei Intelligent Technology Co ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-02-05
Anticipated expiration: 2040-09-29
Also published as: CN112331218B

Abstract

本发明为一种针对多说话人的单通道语音分离方法和装置，包括：获取混合语音的频谱幅值和频谱相位。将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中，获取生成式对抗网络模型的多个估计幅值掩蔽。根据多个估计幅值掩蔽和混合语音的频谱幅值，获取多个目标频谱幅值。逐个重构多个目标频谱幅值和频谱相位，生成多个目标语音。本发明能得到每一个说话人对应的目标语音分离结果，快速判断出混合语音中的说话人数目，提高分离的准确度，降低语音的失真率，有效地提高了分离出每一个说话人对应的目标语音的可懂度。

Description

一种针对多说话人的单通道语音分离方法和装置

技术领域

本发明涉及语音信号处理领域，具体为一种针对多说话人的单通道语音分离方法和装置。

背景技术

随着语音交互的发展，语音分离技术作为语音信号处理的关键环节得到重点研究。在智能音箱、助听器、会议记录等应用设备中，麦克风接收到的语音信号常常伴随着背景噪音或者其他说话人声的干扰，若是不能将其中的目标语音分离出来，将会严重影响到后端的应用，出现语义识别不准或记录不准确的问题，因此研究语音分离技术从而对混合语音中的目标语音正确分离至关重要。语音分离算法中研究和应用最广泛的是单通道语音分离。单通道语音分离主要利用单个麦克风采集的信号，借助目标语音和干扰信号之间的时频域声学和统计特性的差异进行建模，相比多通道语音分离任务，硬件要求和成本较低，运算量较小，但是难度更高。

目前运用深度学习的单通道语音分离算法主要有深度聚类算法(DPCL)、置换不变训练(PIT)和深度提取算法(DANet)等。其中深度聚类算法(DPCL)将语音分离的回归问题转化为时频域单元的聚类问题，深度聚类的利用深度神经网络提取出每一个时频域点的嵌入向量，设计相应的聚类代价函数，在高维的嵌入输出空间上使属于同一说话人的嵌入向量聚为一类。

目前的深度聚类算法多是在先验信息条件下，将重点放在语音分离后的准确程度，无法正确辨别混合语音中每个说话人的语音。

发明内容

本发明的目的是提供一种针对多说话人的单通道语音分离方法和装置，能够分离得到每一个说话人对应的目标语音。

为了实现上述目的，采用的技术方案为：一种针对多说话人的单通道语音分离方法，包括：

S101：获取训练语音样本集，训练语音样本集中单个训练语音样本包括至少两个说话人的混合语音样本和每个说话人的语音样本。

S102：对训练语音样本的时域信号采样，分别获取混合语音样本时域信号和每个说话人的语音样本时域信号。

S103：对混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱，对每个说话人的语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱。

S104：根据混合语音样本和每个说话人的语音样本的幅度谱，获取每个说话人的语音样本分别对应的一个理想幅值掩蔽，将合并的多个理想幅值掩蔽作为训练目标。

S105：将混合语音的幅度谱和训练目标输入生成式对抗网络模型中进行当次有监督训练，完成当次有监督训练后继续进行下一次训练，直至生成式对抗网络模型收敛。

S106：麦克风接收端接收待分离的混合语音。获取混合语音的频谱幅值和频谱相位。

S107：将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中，获取生成式对抗网络模型的多个估计幅值掩蔽。

S108：根据多个估计幅值掩蔽和混合语音的频谱幅值，获取多个目标频谱幅值。

S109：逐个重构多个目标频谱幅值和频谱相位，生成多个目标语音。

与现有技术相比，本发明的技术效果为：将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中，获取生成式对抗网络模型输出的每路语音对应一个估计幅值掩蔽，然后将估计幅值掩蔽与最初混合语音的幅度谱相乘，再与相位谱结合经短时傅里叶逆变换和重叠帧的恢复后得到每一个说话人对应的目标语音分离结果。

相比现有的单通道语音分离算法，本发明能得到每一个说话人对应的目标语音分离结果，快速判断出混合语音中的说话人数目，提高分离的准确度，降低语音的失真率，有效地提高了分离出每一个说话人对应的目标语音的可懂度。

附图说明

图1为本发明针对多说话人的单通道语音分离方法的流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述。

本发明一实施例为一种针对多说话人的单通道语音分离方法，包括S101至S109。

训练语音样本集中包含大量的训练语音样本，在单个训练语音样本中可以包括第一说话人和第二说话人的混合语音样本、第一说话人的语音样本和第二说话人的语音样本。

单个训练语音样本中也可以是三个说话人的混合语音样本和每个说话人的语音样本。

对训练语音样本的时域信号进行16kHz下采样。

通过加窗分帧和短时傅里叶变换分别得到混合语音样本时域信号y(t)和干净语音样本时域信号xi(t)，(i＝1,2,…,N)的幅度谱Y(t,f)和Xi(t,f)(i＝1,2,…,N)、相位谱及幅度最大值。

语音信号是一个准稳态的信号，若把它分成较短的帧，每帧中可将其看作稳态信号，可用处理稳态信号的方法来处理。为了使一帧与另一帧之间的参数能够平稳过渡，应在相邻两帧之间互相有部分重叠。一般情况下，帧长取10～30ms，所以每秒的帧数约为33～100帧。帧移与帧长的比值一般取0～1/2。

将语音信号分帧后，需要对每一帧信号进行分析处理。窗函数一般具有低通特性，加窗函数的目的是减少频域中的泄漏。在语音信号分析中常用的窗函数有矩形窗、汉明窗和汉宁窗，可根据不同的情况选择不同的窗函数。本发明选择汉宁窗进行计算。

比如第一说话人的语音样本对应第一理想幅值掩蔽，第二说话人的语音样本对应第二理想幅值掩蔽，当然也可以为三个说话人的语音样本，或者更多。

理想幅值掩蔽可以理解为，在的混合的频谱幅值中既存在噪声信号又存在干净语音信号，因此，将频谱幅值中噪声信号的幅值掩蔽掉，而剩下的就是干净语音信号。

沿用上例，在混合语音样本中通过第一理想幅值掩蔽可以将第二说话人的语音信号掩蔽，而得到的就是第一说话人的语音信号。

具体地，本步骤中对混合语音和每个说话人的语音样本的幅度谱归一化处理。根据归一化处理后的混合语音样本和每个说话人的语音样本的幅度谱，获取每个说话人的语音样本分别对应的一个理想幅值掩蔽。

S107：将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中，获取生成式对抗网络模型输出的多个估计幅值掩蔽。

估计幅值掩蔽即为生成式对抗网络模型根据混合语音的频谱幅值预测的幅值掩蔽。

将多个估计幅值掩蔽与混合语音的频谱幅值相乘获取多个目标频谱幅值。将多个目标频谱幅值分别和目标频谱相位结合，通过短时傅里叶逆变换和帧重叠恢复得到多个目标语音。

具体地，将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中，获取生成式对抗网络模型输出的每路语音对应一个估计幅值掩蔽，然后将估计幅值掩蔽与最初混合语音的幅度谱相乘，再与相位谱结合经短时傅里叶逆变换和重叠帧的恢复后得到每一个说话人对应的目标语音分离结果。

生成式对抗网络模型的训练具体过程如下。

S105包括：随机初始化生成式对抗网络模型的参数。神经网络模型的训练阶段包括前向传播阶段和反向传播阶段。

前向传播阶段包括初始化生成式对抗网络模型中神经元节点之间的权重和偏置。反向传播阶段中，计算神经网络模型的损失函数。通过梯度下降法更新生成式对抗网络模型的参数。

生成式对抗网络整体上包含两部分结构分别为生成器和分辨器。因此，生成式对抗网络使用梯度下降法对模型参数进行交替更新。生成式对抗网络的实际使用过程中只包括生成器部分。

构建生成式对抗网络的生成器和分辨器。生成器能够根据单个训练数据输出多个数据。生成器包括输入层、三个隐藏层和输出层。分辨器包括输入层、两个隐藏层和输出层。

生成器的参数更新后固定设定的一段时间，计算分辨器输出层损失函数的梯度。根据分辨器的输出层损失函数的梯度，计算每一层所对应的梯度。更新分辨器的权重和偏置。

固定分辨器的权重和偏置，计算生成器输出层损失函数的梯度。根据生成器输出层损失函数的梯度，计算生成器每一层所对应的梯度，更新生成器的权重和偏置，整个过程重复多次，以使所述生成器和分辨器的参数交替更新。

公式(1)为分辨器训练时的代价函数，公式(2)为生成器训练时的代价函数。

其中，G(z)是生成器输出的估计频谱。D是一个用来判断生成器的输出是真还是假的分类器。

生成器的输入层为深度嵌入式特征提取层，深度嵌入式特征提取层能够提取混合语音的幅度谱以生成深度嵌入式特征。

深度嵌入式特征提取层的损失函数如下所示。

其中，V表示深度嵌入式特征，Y表示理想幅值掩蔽，|| ||_F为弗罗贝尼乌斯范数，T为转置。

生成器输出层的损失函数为：

其中，|Y|为混合语音的幅度谱，|X|_i为第i个说话人幅度谱，M～为理想幅值掩蔽,i＝1,2,…,N。

本发明另一实施例还提供一种针对多说话人的单通道语音分离装置，包括：

样本集获取模块，其被配置为获取训练语音样本集，训练语音样本集中单个训练语音样本包括至少两个说话人的混合语音样本和每个说话人的语音样本。

第一处理模块，其被配置为对训练语音样本的时域信号采样，分别获取混合语音样本时域信号和每个说话人的语音样本时域信号。

第二处理模块，其被配置为对混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱，对每个说话人的语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱。

获取模块，其被配置为根据混合语音样本和每个说话人的语音样本的幅度谱，获取每个说话人的语音样本分别对应的一个理想幅值掩蔽，将合并的多个理想幅值掩蔽作为训练目标。

模型训练模块，其被配置为将混合语音的幅度谱和训练目标输入生成式对抗网络模型中进行当次有监督训练，完成当次有监督训练后继续进行下一次训练，直至生成式对抗网络模型收敛。

接收模块，其被配置为麦克风接收端接收待分离的混合语音。获取混合语音的频谱幅值和频谱相位。

估计幅值掩蔽获取模块，其被配置为将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中，获取生成式对抗网络模型的多个估计幅值掩蔽。

目标频谱幅值获取模块，其被配置为根据多个估计幅值掩蔽和混合语音的频谱幅值，获取多个目标频谱幅值。

目标语音生模块，其被配置为逐个重构多个目标频谱幅值和频谱相位，生成多个目标语音。

本实施例的针对多说话人的单通道语音分离装置与上述针对多说话人的单通道语音分离装置方法为同一发明构思，具体参见上述针对多说话人的单通道语音分离装置方法的具体说明，此处不再赘述。

Claims

1.一种针对多说话人的单通道语音分离方法，其特征在于，包括：

S101：获取训练语音样本集，所述训练语音样本集中单个训练语音样本包括至少两个说话人的混合语音样本和每个说话人的语音样本；

S102：对所述训练语音样本的时域信号采样，分别获取混合语音样本时域信号和每个说话人的语音样本时域信号；

S103：对所述混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱，对每个说话人的语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱；

S104：根据所述混合语音样本和每个说话人的语音样本的幅度谱，获取每个说话人的语音样本分别对应的一个理想幅值掩蔽，将合并的多个所述理想幅值掩蔽作为训练目标；

S105：将所述混合语音的幅度谱和所述训练目标输入生成式对抗网络模型中进行当次有监督训练，完成当次有监督训练后继续进行下一次训练，直至所述生成式对抗网络模型收敛；

S106：麦克风接收端接收待分离的混合语音；获取所述混合语音的频谱幅值和频谱相位；

S107：将所述混合语音的频谱幅值输入至训练好的生成式对抗网络模型中，获取所述生成式对抗网络模型的多个估计幅值掩蔽；

S108：根据多个所述估计幅值掩蔽和所述混合语音的频谱幅值，获取多个目标频谱幅值；

S109：逐个重构多个所述目标频谱幅值和所述频谱相位，生成多个目标语音。

2.根据权利要求1所述的针对多说话人的单通道语音分离方法，其特征在于，所述S104中根据所述混合语音样本和每个说话人的语音样本的幅度谱，获取每个说话人的语音样本分别对应的一个理想幅值掩蔽，包括：

对所述混合语音和每个说话人的语音样本的幅度谱归一化处理；根据归一化处理后的混合语音样本和每个说话人的语音样本的幅度谱，获取每个说话人的语音样本分别对应的一个理想幅值掩蔽。

3.根据权利要求1所述的针对多说话人的单通道语音分离方法，其特征在于，所述S105包括：

随机初始化所述生成式对抗网络模型的参数；

所述神经网络模型的训练阶段包括前向传播阶段和反向传播阶段；

所述前向传播阶段包括初始化所述生成式对抗网络模型中神经元节点之间的权重和偏置；

所述反向传播阶段中，计算神经网络模型的损失函数；通过梯度下降法更新所述生成式对抗网络模型的参数。

4.根据权利要求3所述的针对多说话人的单通道语音分离方法，其特征在于，包括：

构建生成式对抗网络的生成器和分辨器；所述生成器能够根据单个训练数据输出多个数据；所述生成器包括输入层、三个隐藏层和输出层；所述分辨器包括输入层、两个隐藏层和输出层；

所述生成器的参数更新后固定设定的一段时间，计算所述分辨器输出层损失函数的梯度；

根据所述分辨器的输出层损失函数的梯度，计算每一层所对应的梯度；更新所述分辨器的权重和偏置。

固定所述分辨器的权重和偏置，计算所述生成器输出层损失函数的梯度；

根据所述生成器输出层损失函数的梯度，计算所述生成器每一层所对应的梯度，更新所述生成器的权重和偏置，整个过程重复多次，以使所述生成器和分辨器的参数交替更新。

5.根据权利要求1所述的针对多说话人的单通道语音分离方法，其特征在于，所述生成器的输入层为深度嵌入式特征提取层，所述深度嵌入式特征提取层能够提取所述混合语音的幅度谱以生成深度嵌入式特征；

所述深度嵌入式特征提取层的损失函数如下所示；

6.根据权利要求1所述的针对多说话人的单通道语音分离方法，其特征在于，S109中逐个重构多个所述目标频谱幅值和所述频谱相位，生成多个目标语音，包括：

将多个所述估计幅值掩蔽与所述混合语音的频谱幅值相乘获取多个目标频谱幅值；

将多个所述目标频谱幅值分别和目标频谱相位结合，通过短时傅里叶逆变换和帧重叠恢复得到多个目标语音。

7.一种针对多说话人的单通道语音分离装置，其特征在于，包括：

样本集获取模块，其被配置为获取训练语音样本集，所述训练语音样本集中单个训练语音样本包括至少两个说话人的混合语音样本和每个说话人的语音样本；

第一处理模块，其被配置为对所述训练语音样本的时域信号采样，分别获取混合语音样本时域信号和每个说话人的语音样本时域信号；

第二处理模块，其被配置为对所述混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱，对每个说话人的语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱；

获取模块，其被配置为根据所述混合语音样本和每个说话人的语音样本的幅度谱，获取每个说话人的语音样本分别对应的一个理想幅值掩蔽，将合并的多个所述理想幅值掩蔽作为训练目标；

模型训练模块，其被配置为将所述混合语音的幅度谱和所述训练目标输入生成式对抗网络模型中进行当次有监督训练，完成当次有监督训练后继续进行下一次训练，直至所述生成式对抗网络模型收敛；

接收模块，其被配置为麦克风接收端接收待分离的混合语音；获取所述混合语音的频谱幅值和频谱相位；

估计幅值掩蔽获取模块，其被配置为将所述混合语音的频谱幅值输入至训练好的生成式对抗网络模型中，获取所述生成式对抗网络模型的多个估计幅值掩蔽；

目标频谱幅值获取模块，其被配置为根据多个所述估计幅值掩蔽和所述混合语音的频谱幅值，获取多个目标频谱幅值；

目标语音生模块，其被配置为逐个重构多个所述目标频谱幅值和所述频谱相位，生成多个目标语音。