CN109712611A

CN109712611A - 联合模型训练方法及系统

Info

Publication number: CN109712611A
Application number: CN201811623998.5A
Authority: CN
Inventors: 钱彦旻; 张王优; 周瑛
Original assignee: AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-05-03
Anticipated expiration: 2038-12-28
Also published as: CN109712611B

Abstract

本发明实施例提供一种联合模型训练方法。该方法包括：隐式地提取带噪语音训练集的相位谱以及对数幅度谱；利用对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征，利用带噪语音训练集和干净语音训练集确定用于训练时频掩模网络的目标掩模标签，基于输入特征和目标掩模标签，训练时频掩模网络，估计出软阈值掩模；利用软阈值掩模对带噪语音训练集的相位谱进行增强，将增强后的相位谱作为波达方向估计网络的输入特征，以训练波达方向估计网络。本发明实施例还提供一种联合模型训练系统。本发明实施例通过设立目标掩模标签，隐式的提取输入特征，并将时频掩模和DOA估计网络联合训练更适合DOA估计任务。

Description

联合模型训练方法及系统

技术领域

本发明涉及声源定位领域，尤其涉及一种联合模型训练方法及系统。

背景技术

声源定位是根据接收的语音信号估计扬声器DOA(Direction of arrival，波达方向)的任务，DOA估计对于各种应用是必不可少的，例如人机交互和电话会议，并且还广泛用于语音增强的波束形成。例如，在聊天视频中加入了声源定位，随着聊天用户位置的变化，另一端的用户接收的声音可以感受到对方位置的变化，提升用户的体验。

为了确定波达方向可以使用基于关键词的目标说话人定位方法：用神经网络单独估计时频掩模，然后利用估计出的掩模对波达方向估计方法的输入特征进行增强，或者使用基于声学矢量传感器的时频掩模与波达方向估计网络联合训练方法：将时频掩模网络和波达方向估计网络共同训练进而确定波达方向。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

基于关键词的目标说话人定位方法：由于它单独训练掩模网络，得到的时频掩模与定位任务是相互独立的，不能保证达到最好的定位性能；而且它采用的输入特征是预提取的正-余弦通道间相位差特征，增加了额外的计算量。基于声学矢量传感器的时频掩模与波达方向估计网络联合训练方法：它采用的是声学矢量传感器，相比于普通麦克风阵列更加复杂，成本更高；估计的时频掩模是在复数域上，相比实数域更加复杂，且计算量大；采用的输入特征是分频带的通道间数据比值、功率谱、相干矢量等，需要预先显式地进行特征提取，增加了额外的计算量。

发明内容

为了至少解决现有技术中单独训练掩模网络和定位任务是相互独立了，波达方向定位性能不佳，时频掩模和波达方向估计联合训练由于使用多个特征进行复数域的训练，没有训练的目标使得需要预先显示地特征提取，额外增大了计算量。

第一方面，本发明实施例提供一种联合模型训练方法，包括：

隐式地提取带噪语音训练集的相位谱以及对数幅度谱；

利用所述对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征，利用带噪语音训练集和干净语音训练集确定用于训练所述时频掩模网络的目标掩模标签，基于所述输入特征和所述目标掩模标签，训练所述时频掩模网络，估计出软阈值掩模；

利用所述软阈值掩模对所述带噪语音训练集的相位谱进行增强，将增强后的相位谱作为所述波达方向估计网络的输入特征，以训练所述波达方向估计网络。

第二方面，本发明实施例提供一种联合模型训练系统，包括：

特征提取程序模块，用于隐式地提取带噪语音训练集的相位谱以及对数幅度谱；

软阈值掩模估计程序模块，用于利用所述对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征，利用带噪语音训练集和干净语音训练集确定用于训练所述时频掩模网络的目标掩模标签，基于所述输入特征和所述目标掩模标签，训练所述时频掩模网络，估计出软阈值掩模；

波达方向估计程序模块，用于利用所述软阈值掩模对所述带噪语音训练集的相位谱进行增强，将增强后的相位谱作为所述波达方向估计网络的输入特征，以训练所述波达方向估计网络。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的联合模型训练方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的联合模型训练方法的步骤。

本发明实施例的有益效果在于：通过将时频掩模与DOA估计相结合，排除了输入特征中大量的噪声干扰，由于掩模和DOA估计网络是联合训练的，得到的时频掩模更适合DOA估计任务，从而能够实现更加准确和鲁棒的DOA估计效果，由于设立目标掩模标签，降低计算量。同时在DOA估计后，可以进一步与语音后端相结合，将估计出的DOA信息用于语音增强，从而获得更加干净的语音信号，进而输入到语音识别系统，便可极大提高真实环境下语音识别的准确率，使得语音交互效果得到进一步改善。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种联合模型训练方法的流程图；

图2是本发明一实施例提供的一种联合模型训练方法的声学条件匹配时的段级精度(％)列表数据图；

图3是本发明一实施例提供的一种联合模型训练方法的声学条件不匹配时的段级精度(％)列表数据图；

图4是本发明一实施例提供的一种联合模型训练系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种联合模型训练方法的流程图，包括如下步骤：

S11：隐式地提取带噪语音训练集的相位谱以及对数幅度谱；

S12：利用所述对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征，利用带噪语音训练集和干净语音训练集确定用于训练所述时频掩模网络的目标掩模标签，基于所述输入特征和所述目标掩模标签，训练所述时频掩模网络，估计出软阈值掩模；

S13：利用所述软阈值掩模对所述带噪语音训练集的相位谱进行增强，将增强后的相位谱作为所述波达方向估计网络的输入特征，以训练所述波达方向估计网络。

在本实施方式中，利用CNN(Convolutional Neural Networks，卷积神经网络)直接从输入的信号频谱中隐式提取特征，采用时频掩模与DOA(Direction of arrival，波达方向)估计联合训练网络架构，将估计出的软阈值淹没对波达方向估计网络的输入特征进行增强。

对于步骤S11，在训练阶段中，利用带噪语音隐式地提取带噪语音训练集的相位谱以及对数幅度谱，其中，信号的相位谱和信号的幅度谱一样，是信号的重要特征之一。相位谱的特点和性质是信号谱分析的一个基本问题，尤其是在多点激励、载荷建立以及传递路径识别等方面问题的研究中，相位谱起着重要的作用。相位谱是调整声音相位的，最容易理解的就是左右声道的位置调整，实际上相位还决定着其他很多声音的属性。对于一个系统，能够通过其相位谱来判断该系统是否为线性相位系统。线性相位系统故名思义，看相位是否随频率线性变化。但相位谱的作用不仅限于此，信号的相位包含的信息大于幅度，实际上从最初的最小相位系统，倒谱分析，到现在系统辨识，高阶谱估计等理论都是以相位谱为突破口。

作为一种实施方式，在本实施例中，所述隐式地提取带噪语音训练集的相位谱以及对数幅度谱包括：通过短时傅里叶变换提取出所述带噪语音训练集的相位谱以及对数幅度谱。其中任何连续测量的时序或信号，都可以表示为不同频率的正弦波信号的无限叠加。而根据该原理创立的傅立叶变换算法利用直接测量到的原始信号，以累加方式来计算该信号中不同正弦波信号的频率、振幅和相位。

对于步骤S12，利用所述对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征，例如，对所述对数幅度谱按帧进行拆分，然后对每一帧进行左右各5帧的拓展，这样可以得到若干各11帧的幅度谱片段，用作时频掩模网络的输入特征。利用带噪语音训练集和干净语音训练集确定用于训练所述时频掩模网络的目标掩模标签，其中，干净语音训练集和带噪语音训练集作为训练掩模标签的目标，通过不断训练，使其逐渐趋近于目标掩模标签基于所述输入特征和所述目标掩模标签，训练所述时频掩模网络，估计出软阈值掩模；其中，干净语音训练集和带噪语音训练集可以按照一定的比率进行确定目标淹没标签。作为一种实施方式，在本实施例中，所述带噪语音训练集包括带噪的训练音频，所述干净语音训练集包括与所述带噪的训练音频内容相同的干净的训练音频。为了保证训练的准确性，在选取音频内容相同，但是区别仅为带噪和不带噪。

对于步骤S13，利用在步骤S12中训练的软阈值掩模对所述带噪语音训练集的相位谱进行增强，将增强后的相位谱作为所述波达方向估计网络的输入特征，以训练所述波达方向估计网络。在训练好波达方向估计网络后，实际应用中，即DOA估计阶段，可以直接接收生活中的带噪语音，将计算得到的相位谱和对数幅度谱输入到卷积神经网络中，即可得到带噪语音中每一帧音频对应的DOA估计。

通过该实施方式可以看出，通过将时频掩模与DOA估计相结合，排除了输入特征中大量的噪声干扰，由于掩模和DOA估计网络是联合训练的，得到的时频掩模更适合DOA估计任务，从而能够实现更加准确和鲁棒的DOA估计效果，由于设立目标掩模标签，降低计算量。同时在DOA估计后，可以进一步与语音后端相结合，将估计出的DOA信息用于语音增强，从而获得更加干净的语音信号，进而输入到语音识别系统，便可极大提高真实环境下语音识别的准确率，使得语音交互效果得到进一步改善。

在本实施方式中，所述利用所述软阈值掩模对所述带噪语音训练集的相位谱进行增强包括：

将所述软阈值掩模与所述带噪语音训练集的相位谱相乘，得到增强后的相位谱。

在本实施方式中，语音掩模在特征恢复、语音分离、语音感知和噪声估计方面得到了广泛应用，在这些情况下，语音掩模被视为一个表征语音信号在时频域内存在与否的状态矩阵，是影响系统性能的重要因素。语音掩模包含两类，一类是二值掩模，其状态矩阵中的每个元素取值为0或1，表示对时域中某个位置上语音信号存在与否的硬性判决，另一类是软掩模，其状态矩阵中的每个元素采用一个0,1之间的数值，表示语音出现概率，进而可以将所述软阈值掩模与所述带噪语音训练集的相位谱相乘，得到增强后的相位谱。

通过该实施方式可以看出，通过将软阈值掩模与所述带噪语音训练相位谱相乘得到增强后的相位谱，提高了波达方向估计的准确率。

作为对上述实施方式的进一步详细说明，假设阵列的几何结构已知且存在单个目标源，则在嘈杂和混响环境中接收的信号可以在T-F(time-frequency，时频)域中建模为：

Y(t，f)＝r(f)S(t，f)+H(t，f)+N(t，f)

其中Y(t，f)表示接收信号，r(f)S(t，f)，H(t，f)和N(t，f)分别代表其直接，混响和噪声分量。S(t，f)是从参考麦克风接收的信号，r(f)是相对传递函数，可以表示为：

其中τi是从第i个和参考麦克风接收的两个信号之间的到达时间差(TDOA)，并且A_i(f)表示第i个麦克风的相对增益。真正的DOA信息包含在直接信号中，并且与每个麦克风对的TDOA有关系，其反映在T-F域中的直接信号的相位部分中。因此，相位信息是DOA估计任务的本质。

传统的MUSIC算法使用信号协方差矩阵的特征向量来构建目标函数，该函数可以表示为：

其中，是导向矢量，V_n是跨越噪声空间的信号的协方差矩阵的第n个本征向量。然后，信号源的方向对应于目标函数的峰值。

在基于卷积神经网络(CNN)的框架中，DOA估计通常被表述为I类分类问题，其中I表示类的数量。相位相关的特征被馈送到CNN，并且学习从输入特征到相应的DOA标签的映射。

波达方向估计的体系结构是卷积神经网络，具有3个卷积层和3个完全连接的层。输入矢量是每个麦克风处的接收信号的STFT系数的相位分量，而不是显式提取的特征。输出是I×1向量，表示I类DOA的后验概率。每个I类对应于离散化的DOA值。交叉熵损失函数用于训练。在推理阶段，给定测试麦克风阵列信号，每个DOA类的后验概率可以由训练的DOA估计器生成。

本方法稍微改变了上述架构中几层的大小，以构建基线系统，因为本方法使用的麦克风阵列是一个6麦克风的圆形阵列，而不是4麦克风均匀线性阵列。选择6麦克圆形阵列是因为它可以从声源接收更多信息并从0°到360°解析DOA，而4麦克只能检测从0°到180°的DOA，因为它的对称方向性。因此，I类的数量是72，并且离散的DOA空间对应于基线架构中的集合。

尽管基本的CNN架构具有强大的表示能力，但其性能在噪声和高混响环境中仍可能显着降低。此外，它通常需要数据预处理，例如语音活动检测，以消除非语音帧，这可能不准确，并且不能消除不同频带中的噪声影响。因此，本方法来改善基于CNN的方法的性能。

为了利用T-F时频掩模，直观的想法是提前训练掩模估计网络，然后使用估计的掩模来增强DOA网络训练的输入特征。掩模模型和DOA模型分别建立：首先，训练掩模估计网络以导出幅度相关掩模，其表示每个T-F区间由目标语音信号支配的概率。然后，使用估计的掩模增强输入特征，并使用这些新特征训练DOA估计网络。

为了增强输入功能，可以简单地将掩模附加到6声道输入作为附加功能。此外，还尝试将输入乘以掩模以最小化噪声主导的T-F区间的影响，因此掩模被视为输入特征中每个T-F区间的权重。

掩模估计网络也是具有架构的CNN，其是将噪声对数幅度特征映射到对应的干净掩模的回归模型。输入矢量由每个麦克风处的接收信号的对数幅度谱的11个连续帧(当前帧之前5个和之后5个)组成，并且输出是当前帧的估计软掩码。为了计算每帧的目标掩模标签，我们考虑并行干净语音信号功率谱和噪声信号功率谱的比率，可以表示为

其中S(t，f)和N(t，f)分别表示第t时间帧和第f个频率仓的干净语音信号和噪声信号的幅度谱。MSE(mean squared error，均方误差)损失函数用于训练掩模估计网络。

用于DOA估计的所提出的多任务学习架构。输入一端是11帧幅度谱，输入另一端是1帧相位谱。输出一端是估计的掩码，输出另一端是DOA分类结果。由于掩模和DOA估计网络在3.2节中单独训练，估计的掩模可能不完全。

估计的掩模可能与DOA估计的任务不完全匹配。因此，本方法提出了一种多任务学习架构来缓解这两个模块之间的不匹配问题，并且联合训练这两个网络将迫使他们立即学习更合适的DOA任务掩模和准确的DOA估计。

该架构中有两个输入和两个输出。第一个输入是对数幅度谱，它被送入T-F掩模网络，第二个输入是相位谱，它首先乘以预测的掩模输出，然后送入DOA网络。两个输出分别是估计的T-F掩模和DOA分类，用于计算优化的损耗。训练的损失函数是掩模估计网络的均方误差损失和DOA估计网络的交叉熵损失的组合：

其中α是常数并且在实验中设定为0.01。

对于标准的多任务架构，两个任务的损失都被认为是即时优化两个任务。但是，如果我们只关心DOA估算任务，我们可以将另一个视为辅助任务，并使用DOA分类丢失来更新整个网络。因此，本方法提出了一种伪多任务学习架构，去除了掩模输出的训练损耗。另一个动机是幅度相关的掩模可能不是DOA估计任务的最佳选择。因此，删除了掩码估计输出的显式约束，以便网络可以学习与DOA估计任务最匹配的掩码，并且将此架构称为伪多任务学习，α设定为0。

为了验证实验效果，所提出的方法使用6麦克风圆形阵列进行评估，麦克风间距离为3.6厘米。通过STFT(shorttime Fourier transform，短时傅立叶变换)将输入信号变换为时频域，采样率为16kHz，DFT(Discrete Fourier Transform，离散傅里叶变换)长度为256，重叠率为50％。对于每个时间范围，应用汉宁窗函数。DOA范围被离散化为72级，5°分辨率。

为了模拟不同的声学条件，使用图像方法生成房间脉冲响应。两种配置用于训练和测试数据生成，因此可以在匹配和不匹配条件下评估方法。有两种配置：在匹配条件下的训练和测试数据生成的配置，所有客房均高2.5米；在不匹配条件下测试数据生成的配置，所有客房均高3米。

要生成匹配条件的数据，使用匹配条件下配置。为房间大小，源阵列距离和RT₆₀的每种组合模拟500个不同的阵列位置，并总共生成4000个RIR(room impulse responses，房间脉冲响应)。然后我们从TIMIT数据库中选择6300个干净的话语，将它们与RIR进行卷积，并使用从CHiME-3数据库中随机选择的噪声进行叠加。总的来说，数据包括37,800个话语，持续时间约为32.3小时。从这些数据中随机选择7,800个话语作为一个测试集，其余作为训练数据来评估匹配声学条件下的DOA估计算法。此外，利用不匹配条件下的配置生成的数据用于在不匹配声学条件下的另一个测试集，并且在不匹配的测试数据中有3,000个话语并且持续时间约为2.5小时。

对于CNN训练，输入对数幅度特征都归一化为[-1,1]，输入相位特征全部归一化到(-π，π)。均方误差损失函数用于掩模估计网络。DOA估计网络使用交叉熵损失函数。所有CNN都使用Adam优化器训练20个时期，学习率为0.00003，小批量大小为128。对于每个完全连接的层，丢失速率为0.5用于避免过度拟合。

将所有测试数据划分为段，持续时间为500毫秒，并且根据段级精度评估DOA估计方法的性能。如果预测与真实DOA之间的差异小于或等于5，则认为预测是正确的。

首先，在匹配的声学条件下评估不同DOA估计方法的性能，结果如图2所示。我们可以看到所有基于CNN的方法都优于传统的MUSIC方法，并且本方法显示出比基本CNN方法更高的精度。正如预期的那样，结果表明T-F掩模是一种提高鲁棒性的有效方法，特别是在低信噪比条件下。多任务方法在所有SNR(signal-to-noise ratio，信噪比)条件下几乎具有最佳性能，这证实了先前的假设，即相位相关掩模可以更好地匹配DOA估计任务。

然后评估这些方法在不匹配的声学条件下的泛化能力。在图3中，可以看到所有方法的性能由于不匹配而降低，并且基于CNN的方法在所有情况下仍然优于MUSIC方法。新提出的具有T-F掩蔽的CNN预测器在不匹配的情况下仍然可以很好地工作，并且特别是对于低SNR水平的改善是显而易见的。该观察结果显示了所提出的DOA方法的良好推广。

对于两种类型的多任务学习，伪多任务方法在匹配和不匹配的声学条件下都具有良好的性能，尽管仅使用一个损失用于模型优化。此外，还观察到伪多任务学习比其他学习收敛得快得多，只有其他人的一半时间。

如图4所示为本发明一实施例提供的一种联合模型训练系统的结构示意图，该系统可执行上述任意实施例所述的联合模型训练方法，并配置在终端中。

本实施例提供的一种联合模型训练系统包括：特征提取程序模块11，软阈值掩模估计程序模块12和波达方向估计程序模块13。

其中，特征提取程序模块11用于隐式地提取带噪语音训练集的相位谱以及对数幅度谱；软阈值掩模估计程序模块12用于利用所述对数幅度谱拓展后的幅度谱片段作为时频掩模网络的输入特征，利用带噪语音训练集和干净语音训练集确定用于训练所述时频掩模网络的目标掩模标签，基于所述输入特征和所述目标掩模标签，训练所述时频掩模网络，估计出软阈值掩模；波达方向估计程序模块13用于利用所述软阈值掩模对所述带噪语音训练集的相位谱进行增强，将增强后的相位谱作为所述波达方向估计网络的输入特征，以训练所述波达方向估计网络。

进一步地，所述带噪语音训练集包括带噪的训练音频，所述干净语音训练集包括与所述带噪的训练音频内容相同的干净的训练音频。

进一步地，所述波达方向估计程序模块用于：

进一步地，所述特征提取程序模块用于：

通过短时傅里叶变换提取出所述带噪语音训练集的相位谱以及对数幅度谱。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的联合模型训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

隐式地提取带噪语音训练集的相位谱以及对数幅度谱；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的联合模型训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的联合模型训练方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种联合模型训练方法，包括：

隐式地提取带噪语音训练集的相位谱以及对数幅度谱；

2.根据权利要求1所述的方法，其中，所述带噪语音训练集包括带噪的训练音频，所述干净语音训练集包括与所述带噪的训练音频内容相同的干净的训练音频。

3.根据权利要求1所述的方法，其中，所述利用所述软阈值掩模对所述带噪语音训练集的相位谱进行增强包括：

4.根据权利要求1所述的方法，其中，所述隐式地提取带噪语音训练集的相位谱以及对数幅度谱包括：

5.一种联合模型训练系统，包括：

6.根据权利要求5所述的系统，其中，所述带噪语音训练集包括带噪的训练音频，所述干净语音训练集包括与所述带噪的训练音频内容相同的干净的训练音频。

7.根据权利要求5所述的系统，其中，所述波达方向估计程序模块用于：

8.根据权利要求5所述的系统，其中，所述特征提取程序模块用于：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。