CN113611292A

CN113611292A - 用于语音分离、识别的短时傅里叶变化的优化方法及系统

Info

Publication number: CN113611292A
Application number: CN202110902505.7A
Authority: CN
Inventors: 钱彦旻; 曲博文; 李晨达
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-11-05
Anticipated expiration: 2041-08-06
Also published as: CN113611292B

Abstract

本发明实施例提供一种用于语音分离的短时傅里叶变化的优化方法。该方法包括：通过设定窗长上限的窗函数控制短时傅里叶变换的滑动窗口长度，使滑动窗口长度连续可变；利用短时傅里叶变换的滑动窗口长度对混合噪声训练语音进行处理，得到音频幅度谱；将音频幅度谱输入至语音分离模型进行有监督训练，根据有监督训练的收敛结果从长度连续可变的滑动窗口中确定备选窗口长度。本发明实施例还提供一种用于语音分离的短时傅里叶变化的优化系统。本发明实施例通过控制窗内参数将不能训练离散窗长转换为连续的量，这样即可实现训练窗长的目的。可以通过训练得到适合该数据集的最优窗长，进而提升语音分离和识别的效果。

Description

用于语音分离、识别的短时傅里叶变化的优化方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种用于语音分离、识别的短时傅里叶变化的优化方法及系统。

背景技术

由于深度学习的进步，端到端训练已成为基于深度学习的许多语音处理任务的趋势。虽然模型中的大部分参数可以在训练阶段使用端到端的损失函数进行优化，但由于不可微分，短时傅立叶变换(STFT)的参数仍然需要手动设置计算。STFT通过时域数据滑动窗口并计算窗口内数据的傅立叶变换。不可微的参数包括窗口长度、跳跃大小等。STFT的滑动窗口长度是语音处理中极其重要的参数。一方面，语音信号只能看作是小窗口中的静止信号。因此过大的窗口可能会使语音信号不稳定；另一方面，STFT的滑动窗口长度影响时间分辨率、频率分辨率和重建精度。窄窗口导致精细的时间分辨率和重建精度，但会导致粗糙的频率分辨率。宽窗口导致良好的频率分辨率，但时间分辨率和重建精度较差。因此，为语音信号选择一个好的STFT窗口大小对网络的性能很重要。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

大多数与语音相关的任务都使用人工设定的STFT(短时傅立叶变换)参数，这可能导致无法得到最优模型。也有一些相关的工作寻找最优STFT参数，但大多是基于附加算法，不能与主要任务进行端到端的训练。

发明内容

为了至少解决现有技术中短时傅里叶变换的窗口长度都是人工设定，应用于语音处理任务中可能过宽或过小或无法得到最优模型的问题。

第一方面，本发明实施例提供一种用于语音分离的短时傅里叶变化的优化方法，包括：

通过设定窗长上限的窗函数控制短时傅里叶变换的滑动窗口长度，使所述滑动窗口长度连续可变；

利用所述短时傅里叶变换的滑动窗口长度对混合噪声训练语音进行处理，得到音频幅度谱；

将所述音频幅度谱输入至语音分离模型进行有监督训练，根据所述有监督训练的收敛结果从长度连续可变的滑动窗口中确定备选窗口长度。

第二方面，本发明实施例提供一种用于语音识别的短时傅里叶变化的优化方法，包括：

利用所述短时傅里叶变换的滑动窗口长度，将训练语音转换为时频谱；

将所述时频谱输入至语音识别模型，根据预测识别结果与预设实际识别结果的误差进行端到端训练，根据训练结果从长度连续可变的滑动窗口中确定备选窗口长度。

第三方面，本发明实施例提供一种用于语音分离的短时傅里叶变化的优化系统，包括：

窗长设定程序模块，用于通过设定窗长上限的窗函数控制短时傅里叶变换的滑动窗口长度，使所述滑动窗口长度连续可变；

音频处理程序模块，用于利用所述短时傅里叶变换的滑动窗口长度对混合噪声训练语音进行处理，得到音频幅度谱；

训练程序模块，用于将所述音频幅度谱输入至语音分离模型进行有监督训练，根据所述有监督训练的收敛结果从长度连续可变的滑动窗口中确定备选窗口长度。

第四方面，本发明实施例提供一种用于语音识别的短时傅里叶变化的优化系统，包括：

频谱确定程序模块，用于利用所述短时傅里叶变换的滑动窗口长度，将训练语音转换为时频谱；

训练程序模块，用于将所述时频谱输入至语音识别模型，根据预测识别结果与预设实际识别结果的误差进行端到端训练，根据训练结果从长度连续可变的滑动窗口中确定备选窗口长度。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音分离的短时傅里叶变化的优化方法、用于语音识别的短时傅里叶变化的优化方法的步骤。

第六方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音分离的短时傅里叶变化的优化方法、用于语音识别的短时傅里叶变化的优化方法的步骤。

本发明实施例的有益效果在于：通过控制窗内参数将不能训练离散窗长转换为连续的量，这样即可实现训练窗长的目的。可以通过训练得到适合该数据集的最优窗长，进而提升语音分离和识别的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音分离的短时傅里叶变化的优化方法的流程图；

图2是本发明一实施例提供的一种用于语音识别的短时傅里叶变化的优化方法的流程图；

图3是本发明一实施例提供的一种用于语音分离的短时傅里叶变化的优化方法的用于WSJ0-2mix数据集语音分离的STOI和SDR的数据图；

图4是本发明一实施例提供的一种用于语音识别的短时傅里叶变化的优化方法的WSJ数据集语音识别的WER[％]和CER[％]数据图；

图5是本发明一实施例提供的一种用于语音分离的短时傅里叶变化的优化方法的在前40个时期用模型训练不同初始值的窗长数据图；

图6(a)和图6(b)是本发明一实施例提供的一种用于语音识别的短时傅里叶变化的优化方法的不同窗长(256、360，521、900)的语音分离谱图；

图7是本发明一实施例提供的一种用于语音分离的短时傅里叶变化的优化系统的结构示意图；

图8是本发明一实施例提供的一种用于语音识别的短时傅里叶变化的优化系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音分离的短时傅里叶变化的优化方法的流程图，包括如下步骤：

S11：通过设定窗长上限的窗函数控制短时傅里叶变换的滑动窗口长度，使所述滑动窗口长度连续可变；

S12：利用所述短时傅里叶变换的滑动窗口长度对混合噪声训练语音进行处理，得到音频幅度谱；

S13：将所述音频幅度谱输入至语音分离模型进行有监督训练，根据所述有监督训练的收敛结果从长度连续可变的滑动窗口中确定备选窗口长度。

在本实施方式中，对短时傅里叶变换进行说明，设x＝[k]是k个样本的输入序列，F_W[k,w]是时域k个样本和频域w个样本的STFT分析的输出。STFT计算信号局部部分的正弦频率和相位内容，因为它随时间变化。STFT的关键思想是通过时域数据滑动窗口并计算窗口内数据的傅立叶变换。STFT分析计算如下：

其中m是滑动窗口的指数，N是傅里叶变换的大小，w是0的频率≤w<N，Wm是短重叠窗口。在执行STFT时，对信号应用具有固定整数窗口长度的窗口函数W_m[n]。由于窗长是一个离散整数，因此既不能优化连续窗长，也不能优化可导窗长。因此，与其直接优化窗口大小，不如采用子级连续参数间接控制窗口长度。

对于步骤S11，在窗函数设定时，使用了高斯窗口，其中，子级参数s隐式确定窗口长度：

默认情况下，高斯窗函数使用s＝N/6。本方法没有直接改变窗口长度，而是将窗口长度设置为一个足够大的整数，并使用连续子级参数σ作为替代。对于6σ中的数据占99.74％，可以将6σ视为实际窗口长度。σ是连续且可推导的，因此可以作为训练模型的参数。

对于步骤S12，语音分离在本方法中主要关注单通道语音分离任务。考虑一个线性混合的单声道信号y[n]，其中，S个说话者同时讲话：

其中x_s[n]，s＝1，…，S是来自每个说话人的单个源信号。单耳语音分离的目标是从噪声语音y[n]中估计出每个说话人的

基于有监督深度学习的T-F(时频)域掩蔽是语音分离的传统方法。分离通常分三步进行。通过STFT变换将混合语音信号转换到T-F域。在T-F域中，混合信号的音频幅度谱可以写成

对于步骤S13，利用深度学习模型对幅度谱|γ(t，f)|进行处理，预测每个说话人的T-F掩模

估计的幅度谱可表示为：

其中，⊙是逐元素乘法运算。估计幅度

利用混合信号∠Y的相位谱重构说话人s的STFT谱。然后执行逆STFT(iSTFT)以将估计的STFT频谱转换回时域。

在有监督的训练过程中，分离模型为每个目标说话者同时输出s个预测的语音流和相同的输入混合语音。通过将预测的语音和预设的参考语音进行比对，进行有监督的训练，使比对结果收敛，从而将收敛时的滑动窗口长度，作为备选窗口长度。

作为一种实施方式，所述将所述音频幅度谱输入至语音分离模型进行有监督训练包括：通过所述语音分离模型确定所述音频幅度谱中每个说话人的预测语音；将每个说话人的预测语音和预设每个说话人的参考语音确定的损失与滑动窗口长度联合训练，直至所述损失收敛。

在本实施方式中，对于每个预测语音，对应的参考语音是事先未知的(位置对应)。为了解决这个标签歧义问题，提出了置换不变训练(PIT)方法。在PIT方法中，使用了预测和参考语音的最佳排列：

其中P表示{1，…，S}上所有置换的集合。π(s)是置换π的第s个元素。L是网络输出O和参考标签R的损失函数。那么，优化对象可以定义为：

本方法选择尺度不变信噪比(SI-SNR)作为训练损失

应用可训练STFT和iSTFT时，STFT中的窗口大小与分离损失函数联合训练。这样，实现了语音分离模型的训练。

作为一种实施方式，所述方法包括：当所述窗长上限为单个时，将所述备选窗口长度作为有效窗口长度。

当所述窗长上限为多个时，确定每个窗长上限的备选窗口长度以及所述备选窗口长度对应的短时客观可懂度和信号失真比；

基于所述短时客观可懂度和信号失真比从多个备选窗口长度中选取有效窗口长度。

在本实施方式中，考虑到设立单一的窗长上限虽然可以得到该上限内最优的窗口长度，但是对于语音分离模型不一定是最佳的。因此，在设立上限时，可以根据项目需求，或者设备处理能力的强弱进行多方面选择。如果需求最佳的效果，处理性能较强，可以设定多个窗长上限进行分别训练。从而得到在每个窗长上限下的备选窗口长度。

当由于设定多个窗长上限存在多个备选窗口长度时，可以考虑到在对于语音分离较为重要的因素作为选取的基准。例如，可以是语音分离拆分后的可懂度和信号失真比，可懂度越高，说明语音分离的效果好，失真比越低确保分离后语音的质量更清楚。具体的试验对比结果在下文统一说明。

在本实施方式中，通过控制窗内参数将不能训练离散窗长转换为连续的量，这样即可实现训练窗长的目的。可以通过训练得到适合该数据集的最优窗长，进而提升语音分离效果。

如图2所示为本发明一实施例提供的一种用于语音识别的短时傅里叶变化的优化方法的流程图，包括如下步骤：

S21：通过设定窗长上限的窗函数控制短时傅里叶变换的滑动窗口长度，使所述滑动窗口长度连续可变；

S22：利用所述短时傅里叶变换的滑动窗口长度，将训练语音转换为时频谱；

S23：将所述时频谱输入至语音识别模型，根据预测识别结果与预设实际识别结果的误差进行端到端训练，根据训练结果从长度连续可变的滑动窗口中确定备选窗口长度。

在本实施方式中，短时傅里叶变换以及滑动窗口的设定在步骤S11中已经说明，在此不再赘述。

对于步骤S22，语音识别的目标是将语音信号映射到相应的文本。在语音识别任务中，首先要对训练语音的原始波形信号进行特征提取。这主要是因为时域信号样本量大、冗余信息多。最常见的ASR(自动语音识别)特征包括Mel频率倒谱系数(MFCC)，Mel尺度滤波器组(fbank)等。fbank和MFCC基于已知的人耳临界带宽随频率的变化。通过确定滑动窗口长度的短时傅立叶变换将原始信号转换为时频谱。

对于步骤S23，由于已经输入至语音识别模型，可以使用三角重叠窗口将光谱的功率映射到mel尺上。取mel频率下的功率对数，提取fbank特征。如果随后执行离散余弦变换并取系数，则可以获得MFCC特征。通过对这一过程的分析，发现除了STFT之外，所有的计算都是可微的。因此，通过STFT替换原来的STFT，可以用端到端ASR损失函数来训练STFT参数。也是通过损失函数进行反向训练，直至训练结束，在训练结束后将收敛时的滑动窗口长度，作为备选窗口长度。在训练时可以使用连接主义时间分类(CTC)和注意解码器作为本方法的基线ASR模型。

当所述窗长上限为多个时，确定每个窗长上限的备选窗口长度以及所述备选窗口长度对应的字错率；

选取所述字错率最低的备选窗口长度作为有效窗口长度。

在本实施方式中，同样考虑到设立单一的窗长上限虽然可以得到该上限内最优的窗口长度，但是对于语音分离模型不一定是最佳的。因此，在设立上限时，可以根据项目需求，或者设备处理能力的强弱进行多方面选择。如果需求最佳的效果，处理性能较强，可以设定多个窗长上限进行分别训练。从而得到在每个窗长上限下的备选窗口长度。对于语音识别来说，字错率较为重要，通过比较字错率来选择最优的有效窗口长度。

在本实施方式中，通过控制窗内参数将不能训练离散窗长转换为连续的量，这样即可实现训练窗长的目的。可以通过训练得到适合该数据集的最优窗长，进而提升语音识别效果。

对本方法进行试验，对于数据集，本方法使用公开可用的WSJ0-2mix数据集上评估了本方法的分离实验，该数据集是语音分离中广泛使用的单通道语音分离数据集。它在30小时的训练集、10小时的验证集和5小时的测试集中包含20000、5000和3000条话语。这些混合是由华尔街日报(WSJ0)中随机选择的两个演讲者的两次话语随机生成的。验证集中的说话人也包含在训练集中，因此将其表示为封闭说话人条件(CSC)。测试集中的说话人与训练集中的说话人不同，因此将其表示为开放说话人条件(OSC)。每种混合物的信噪比(SNR)在0dB和10dB之间变化。采样率为8kHz。

在识别实验方面，在《华尔街日报》上对本方法进行了评价，该方法拥有一个81小时的官方数据集“si284”，共有37416个话语，官方测试数据集“dev93”。

对于网络配置，语音分离的网络配置参数包括STFT层、分隔网和iSTFT层。在STFT层中，采用高斯窗和128点窗移位的STFT将时域信号转换为T-F域信号。为了调整窗口长度，首先将STFT点固定为1024，并将初始窗口长度设置为256、512和900，其中包含了max窗口。然后，用固定高斯窗对STFT进行了256、512和900点的比较。观察不同初始窗口长度收敛到窗口长度并运行的位置，并与其他实验进行比较。从输入端提取出129维谱幅值的特征。iSTFT层是一个ISTF，其参数与编码器层相同。对于分离器层，采用RNN作为分离器。实验采用相同的分离器，每层共有3层BLSTM，每层896个单元，辍学率为0.5。用ReLU激活函数估计掩模。划时代数设为100，每批小批量的容量为8个话语。该模型使用Adam优化器，并使用ESPnet和Pytorch工具包实现。

至于语音识别配置，参数涉及前端层、编码器层、解码器层和CTC层。在前端层，使用不同点的初始高斯窗口大小和128点窗口偏移的2048点STFT得到时频频谱。为了调整窗口长度，首先将窗口长度固定为2048，并将初始窗口长度设置为512、1024和1536。将最佳窗口长度与初始点的固定窗口长度进行比较。然后使用80log-mel滤波器组系数和每帧音高来提取特征。编码器层采用变压器模型。它有12层，2048个单元，辍学率为0.1。编码器的输入是一个卷积层，输出是一个具有四个头的256维向量。解码器层也采用了transformer模型，有6层，2048个单元，dropout率为0.1。至于CTC层，使用了多任务学习，权重为0.3的CTC损失和权重为0.1的lsm损失。epoch数设置为100，每个mini-batch的容量为32个话语。该模型使用Adam优化器，并使用ESPnet和Pytorch工具包实现。

对于评估指标，为了与以前的研究进行比较，本方法评估了同时具有短时目标清晰度(STOI)和SDR的分离系统和同时具有CER和WER的识别系统。

试验结果，为了与以前的语音分离工作保持一致，测试了“eval92”评估数据的结果。为了调整窗口长度，选择固定窗口长度256、512、900和从这些窗口长度点初始化的可训练窗口长度。结果见如图3。

可以看到具有不同初始值的窗口长度从[0,1024]收敛到接近360度，并且得到了很差的改进甚至更差的指标。这可能是因为当窗口长度快速变化时，训练模型对特征的理解有误。因此，当设置收敛值为360的固定窗口长度时，它获得了最佳性能，并且在SDR上比512固定窗口长度的最佳固定窗口性能提高了0.2dB，具体的，几组固定的窗长(固定256、固定512、固定900)中，失真比最大的是固定512，在验证集和测试集上为11.47和11.19；最后一行360是确定的备选结果，在验证集和测试集上为11.62和11.34，在每个集上约提升了0.2个dB。。

图4显示了本方法模型应用于语音识别的性能。为了调整窗口长度，选择固定窗口长度512、1024、1536、2048和从这些窗口长度点初始化的可训练窗口长度。

在图5中，不同的初始窗口长度在不到20个时期内迅速收敛到1312并围绕它波动。为了消除训练中改变窗口长度的影响，将收敛值1312设置为固定窗口长度，WER和CER平均提高0.1％。

图6(a)和图6(b)显示了测试集中混合信号通过不同窗口长度的STFT的幅度谱。显然，收敛窗长度360的频谱是最清楚的。窗口长度256和512的频谱无法区分，窗口长度900是模糊的。

总的来说，探索了用于语音分离和语音识别任务的可训练STFT窗口大小。通过使用高斯窗口并通过连续子级参数s控制窗口长度，为这两个任务找到合适的窗口长度。实验表明，本方法对语音分离任务和ASR任务的性能略有改进。

如图7所示为本发明一实施例提供的一种用于语音分离的短时傅里叶变化的优化系统的结构示意图，该系统可执行上述任意实施例所述的用于语音分离的短时傅里叶变化的优化方法，并配置在终端中。

本实施例提供的一种用于语音分离的短时傅里叶变化的优化系统10包括：窗长设定程序模块11，音频处理程序模块12和训练程序模块13。

其中，窗长设定程序模块11用于通过设定窗长上限的窗函数控制短时傅里叶变换的滑动窗口长度，使所述滑动窗口长度连续可变；音频处理程序模块12用于利用所述短时傅里叶变换的滑动窗口长度对混合噪声训练语音进行处理，得到音频幅度谱；训练程序模块13用于将所述音频幅度谱输入至语音分离模型进行有监督训练，根据所述有监督训练的收敛结果从长度连续可变的滑动窗口中确定备选窗口长度。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音分离的短时傅里叶变化的优化方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

如图8所示为本发明一实施例提供的一种用于语音识别的短时傅里叶变化的优化系统的结构示意图，该系统可执行上述任意实施例所述的用于语音识别的短时傅里叶变化的优化方法，并配置在终端中。

本实施例提供的一种用于语音识别的短时傅里叶变化的优化系统20包括：窗长设定程序模块21，频谱确定程序模块22和训练程序模块23。

其中，窗长设定程序模块21用于通过设定窗长上限的窗函数控制短时傅里叶变换的滑动窗口长度，使所述滑动窗口长度连续可变；频谱确定程序模块22用于利用所述短时傅里叶变换的滑动窗口长度，将训练语音转换为时频谱；训练程序模块23用于将所述时频谱输入至语音识别模型，根据预测识别结果与预设实际识别结果的误差进行端到端训练，根据训练结果从长度连续可变的滑动窗口中确定备选窗口长度。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音识别的短时傅里叶变化的优化方法；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音分离、识别的短时傅里叶变化的优化方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音分离、识别的短时傅里叶变化的优化方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音分离的短时傅里叶变化的优化方法，包括：

2.根据权利要求1所述的方法，其中，所述方法包括：当所述窗长上限为单个时，将所述备选窗口长度作为有效窗口长度。

3.根据权利要求1所述的方法，其中，所述方法还包括：当所述窗长上限为多个时，确定每个窗长上限的备选窗口长度以及所述备选窗口长度对应的短时客观可懂度和信号失真比；

4.根据权利要求1所述的方法，其中，所述将所述音频幅度谱输入至语音分离模型进行有监督训练包括：

通过所述语音分离模型确定所述音频幅度谱中每个说话人的预测语音；

将每个说话人的预测语音和预设每个说话人的参考语音确定的损失与滑动窗口长度联合训练，直至所述损失收敛。

5.一种用于语音识别的短时傅里叶变化的优化方法，包括：

6.根据权利要求5所述的方法，其中，所述方法包括：当所述窗长上限为单个时，将所述备选窗口长度作为有效窗口长度。

7.根据权利要求5所述的方法，其中，所述方法还包括：当所述窗长上限为多个时，确定每个窗长上限的备选窗口长度以及所述备选窗口长度对应的字错率；

选取所述字错率最低的备选窗口长度作为有效窗口长度。

8.一种用于语音分离的短时傅里叶变化的优化系统，包括：

9.一种用于语音识别的短时傅里叶变化的优化系统，包括：

10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。