CN116665692B

CN116665692B - 语音降噪方法和终端设备

Info

Publication number: CN116665692B
Application number: CN202310928304.3A
Authority: CN
Inventors: 黄雅婷
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2023-10-20
Anticipated expiration: 2043-07-27
Also published as: CN116665692A

Abstract

本申请提供了一种语音降噪方法和终端设备，有利于解决语音中的目标语音不清晰或目标语音丢字的问题，进而提高语音保真度，提高用户体验。该方法包括：获取待处理语音信号；对待处理语音信号进行预处理，得到第一频谱信号；将第一频谱信号输入至训练完成的神经网络模型，得到第一掩蔽值，训练完成的神经网络模型是基于带噪语音信样本号和监督语音样本信号训练得到的，带噪语音样本信号是在纯净语音样本信号上叠加噪音信号得到的，监督语音样本信号是在纯净语音样本信号上叠加预设权重的带噪语音样本信号得到的，预设权重的取值大于0且小于1；利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号。

Description

语音降噪方法和终端设备

技术领域

本申请涉及语音技术领域，尤其涉及一种语音降噪方法和终端设备。

背景技术

随着终端技术和语音技术的发展，语音处理在终端设备上的应用越来越重要。例如，在终端设备上播放音视频时，需要通过语音降噪技术来增强语音中的人声。

语音降噪是指当语音信号被各种各样的噪声干扰后，从噪声背景中提取目标语音信号，并对目标语音信号进行增强的技术。语音降噪也可以称为语音增强。相关技术中通过在计算能力较弱和存储空间较小的终端设备设计参数量较小、模型复杂度较低的模型（例如计算复杂度小于或等于100MACC（每秒运算乘加次数小于或等于100次）的模型）进行语音降噪。但终端设备利用上述模型进行语音降噪，可能会对需要增强的目标语音（人声）过度抑制，造成目标语音的部分频段的信号丢失或者目标语音在部分时间段内的信号丢失，即目标语音受损，从而导致语音中的目标语音不清晰或目标语音丢字（内容丢失），从而影响保真度。

因此，需要一种语音降噪的方法，有利于解决语音中的目标语音不清晰或目标语音丢字问题。

发明内容

本申请提供了一种语音降噪方法和终端设备，有利于解决语音中的目标语音不清晰或目标语音丢字的问题，进而提高语音保真度，提高用户体验。

第一方面，提供了一种语音降噪方法，该方法可以由终端设备执行，该方法包括：获取待处理语音信号；对待处理语音信号进行预处理，得到第一频谱信号，预处理包括时域到频域的转换和/或声学特征的提取；将第一频谱信号输入至训练完成的神经网络模型，得到第一掩蔽值，训练完成的神经网络模型是基于带噪语音信样本号和监督语音样本信号训练得到的，带噪语音样本信号是在纯净语音样本信号上叠加噪音信号得到的，监督语音样本信号是在纯净语音样本信号上叠加预设权重的带噪语音样本信号得到的，预设权重的取值大于0且小于1；利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号。

本申请提供的语音降噪方法，通过在纯净语音样本信号上叠加预设权重的带噪语音样本信号的作为监督语音样本信号训练神经网络模型，利用训练得到的神经网络模型对待处理语音进行语音降噪。这样，可以在终端设备对待处理语音降噪时，保留待处理语音的部分噪音，有利于避免对待处理语音中的目标语音过度抑制，造成目标语音的部分频段的信号丢失或者目标语音在部分时间段内的信号丢失，导致目标语音不清晰或目标语音丢字的问题出现，从而提高保真度。

应理解，终端设备在对待处理语音进行降噪后，可以直接播放该降噪后的语音，也可以将该降噪后的语音发送给其他设备，以便其他设备播放该降噪后的语音，本申请实施例对此不作限定。

具体地，上述待处理语音可以是一段包括目标语音和噪音的音频，目标语音为音频中目标对象的声音，噪音为除目标对象的语音之外声音。

可选地，待处理语音信号可以是时域信号，也可以是频域信号（也可称为时频域信号）本申请对此不作限定。

示例性地，待处理语音可以是一个歌曲片段，目标语音为歌曲片段中演唱者的声音，噪音为除演唱者声音之外的声音，例如噪音可以是音乐背景声、混响等。待处理语音也可以是一个视频片段中的音频片段，在一种可能的情况中，在该音频片段中仅有1个人说话，目标语音为该说话者的声音，噪音为除说话者声音之外的声音，例如噪音可以是背景声。在另一种可能的情况中，在该音频片段中有多人同时说话，目标语音为说话声音分贝最高的人的声音，噪音为除说话声音分贝最高的人之外的声音，例如噪音可以是其他人说话者的声音。待处理语音还可以是语音通话时说话者的声音，噪音为除说话者的声音之外的声音。在一种可能的情况中，语音通话过程中一段时间内仅有1个人说话，目标语音为该说话者的声音，噪音为除说话者声音之外的声音。在另一种可能的情况中，在语音通话过程中一段时间内有多人同时说话，目标语音为说话声音分贝最高的人的声音，噪音为除说话声音分贝最高的人之外的声音。

应理解，上述预设权重的取值越小，监督语音样本信号越接近纯净语音样本信号，得到语音降噪模型的保真度越低。预设权重的取值越大，监督语音样本信号越接近带噪语音样本信号，得到语音降噪模型的保真度越高。因此，预设权重的取值不同，训练得到的语音降噪模型也不同。在实际应用中，可以根据需求，设置预设权重的取值，以使本申请实施例的方法灵活适应多种不同的场景。

可选地，终端设备对待处理语音信号进行预处理得到第一频谱信号可以包括多种可能的实现方式。

在一种可能的实现方式中，待处理语音信号为时域信号，终端设备可以对待处理语音信号进行时域到频域的转换，得到第一频谱信号。在终端设备利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号之后，上述方法还包括：终端设备对目标语音信号进行频域到时域的转换，得到目标语音信号的时域信号。

可选地，在对待处理语音信号进行时域到频域的转换之前，终端设备对待处理语音信号进行分帧处理，得到多帧语音信号。终端设备对多帧语音信号中的每帧语音信号进行时域到频域的转换，得到多帧语音信号的中每帧语音信号的频谱。终端设备合并多帧语音信号的频谱，得到第一频谱信号。

通过对待处理语音信号进行分帧处理，有利于提高后续在进行语音降噪时语音信号的稳定性，以提高语音降噪效果。

可选地，终端设备可以合并多帧语音信号的频谱，并对合并后的多帧语音信号的频谱进行声学特征提取，得到声学特征信息。终端设备对合并后的频谱信号和声学特征信息进行编码处理，得到第一频谱信号。

在另一种可能的实现方式中，待处理语音信号为频域信号，终端设备可以对待处理语音信号进行声学特征提取，得到声学特征信息。对待处理语音信号和声学特征信息进行编码处理，得到第一频谱信号。

结合第一方面，在第一方面的某些实现方式中，终端设备利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号，包括：终端设备将第一掩蔽值与待处理语音信号相乘，得到目标语音信号。

结合第一方面，在第一方面的某些实现方式中，终端设备利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号，包括：终端设备将第一掩蔽值和预设阈值中的较大值确定为第一掩蔽值的截断值；将第一掩蔽值的截断值与待处理语音信号相乘，得到目标语音信号。

通过设置预设阈值，可以在第一掩蔽值小于预设阈值的情况下，通过预设阈值与待处理语音信号相乘得到目标语音信号。这样，有利于在对待处理语音进行降噪时，保留更多待处理语音信号中的噪音，避免对待处理语音信号的目标语音过度抑制，造成目标语音的部分频段的信号丢失或者目标语音在部分时间段内的信号丢失，导致目标语音不清晰或目标语音丢字的问题出现，从而提高保真度。

结合第一方面，在第一方面的某些实现方式中，上述神经网络模型包括2个阶段的神经网络，即第一阶段神经网络和第二阶段神经网络，其中，第一阶段神经网络的运算在第二阶段神经网络的运算之前，第二阶段神经网络的输出为该神经网络模型的输出。终端设备将第一频谱信号输入至训练完成的神经网络模型，得到第一掩蔽值，包括：终端设备将第一频谱信号输入至训练完成的第一阶段神经网络，得到第二掩蔽值，第二掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数；终端设备基于第一频谱信号和第二掩蔽值，得到第一降噪语音信号；终端设备将第一降噪语音信号输入至训练完成的第二阶段神经网络，得到第一掩蔽值，第一掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。

应理解，第一阶段神经网络和第二阶段神经网络的参数设置可以相同，也可以不同，本申请对此不作限定。

可选地，第一阶段神经网络可以用于对待处理语音的第一预设频段进行降噪，第二阶段神经网络可以用于对待处理语音的第二预设频段进行降噪。

应理解，第一预设频段和第二预设频段可以相同，也可以不同，本申请对此不作限定。例如，第一预设频段和第二预设频段的范围均可以是30HZ ~20000HZ。再例如，第一预设频段的范围可以是30HZ ~20000HZ，第二预设频段的频率范围可以是5000HZ ~20000HZ。

可选地，终端设备可以通过以下四种方式得到第一降噪语音信号。

方式1，终端设备将第一频谱信号和第二掩蔽值相乘，得到第一降噪语音信号。

方式2，终端设备将第二掩蔽值和预设阈值中的较大值确定为第二掩蔽值的截断值，并将第二掩蔽值的截断值和第一频谱信号相乘，得到第一降噪语音信号。

通过设置预设阈值，可以在第二掩蔽值小于预设阈值的情况下，将预设阈值与第一频谱信号相乘，得到的第一降噪语音信号可以保留更多待处理语音信号中的噪音，有利于避免对待处理语音信号的目标语音过度抑制。

方式3，终端设备将第二掩蔽值与第一预设比例之和与第一频谱信号相乘，得到第一降噪语音信号，第一预设比例的取值大于0且小于1。

通过将第二掩蔽值与第一预设比例之和与第一频谱信号相乘，得到的第一降噪语音信号保留了更多待处理语音信号中的噪音，有利于避免对待处理语音信号的目标语音过度抑制。

方式4，终端设备将第二掩蔽值和预设阈值中的较大值确定为第二掩蔽值的截断值，将第二掩蔽值的截断值与第二预设比例之和与第一频谱信号相乘，得到第一降噪语音信号，第二预设比例的取值大于0且小于1。

通过设置预设阈值，并且在第二掩蔽值小于预设阈值的情况下，将预设阈值与第一预设比例之和与第一频谱信号相乘，得到的第一降噪语音信号保留了更多待处理语音信号中的噪音，有利于避免对待处理语音信号的目标语音过度抑制。

应理解，上述第二预设比例和上述第一预设比例可以相同，也可以不同，本申请对此不作限定。

结合第一方面，在第一方面的某些实现方式中，上述神经网络模型可以包括更多阶段的神经网络（后续简称为多阶段神经网络模型），即该神经网络模型除了包括第一阶段神经网络和第二阶段神经网络之外，还包括其他阶段神经网络，其中，第一阶段神经网络的运算在第二阶段神经网络的运算之前，最后一阶段神经网络的输出为该神经网络模型的输出，神经网络的命名按照运算顺序依次排序。终端设备可以将第一频谱信号输入至训练完成的第一阶段神经网络，得到第二掩蔽值，第二掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。终端设备可以基于第一频谱信号和第二掩蔽值，得到第一降噪语音信号。终端设备可以将第一降噪语音信号输入至训练完成的第二阶段神经网络，得到第五掩蔽值，第五掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。接着，终端设备可以基于第一降噪语音信号和第五掩蔽值，得到第三降噪语音信号，将第三降噪语音信号输入至下一阶段神经网络，依次类推，得到最后一阶段神经网络的输出结果为第一掩蔽值，第一掩蔽值为待处理语音信号在最后一阶段神经网络预测得到的降噪系数。

可选地，终端设备可以通过以下四种方式得到第三降噪语音信号。

方式1，终端设备将第一降噪语音信号和第五掩蔽值相乘，得到第三降噪语音信号。

方式2，终端设备将第五掩蔽值和预设阈值中的较大值确定为第五掩蔽值的截断值，并将第五掩蔽值的截断值和第一降噪语音信号相乘，得到第三降噪语音信号。

方式3，终端设备将第五掩蔽值与第三预设比例之和与第一降噪语音信号相乘，得到第三降噪语音信号，第三预设比例的取值大于0且小于1。

应理解，第三预设比例与上述第一预设比例可以相同，也可以不同，本申请对此不做限定。例如，在包括3个阶段的神经网络模型（后续简称“三阶段神经网络模型”）中，第一预设比例和第三预设比例的取值均为0.2。再例如，在三阶段神经网络模型中，第一预设比例的取值为0.2，第三预设比例的取值可以为0.4。

方式4，终端设备将第五掩蔽值和预设阈值中的较大值确定为第五掩蔽值的截断值，将第五掩蔽值的截断值与第四预设比例之和与第一降噪语音信号相乘，得到第三降噪语音信号，第三预设比例的取值大于0且小于1。

应理解，第四预设比例与上述第三预设比例可以相同，也可以不同，本申请对此不做限定。

应理解，在多阶段神经网络模型中，还需要计算其他神经网络阶段的输入信号，其他神经网络阶段的输入信号的计算方式与上述第三降噪语音信号的计算方式相同，此处不再赘述。还应理解，多阶段神经网络模型的每个阶段的输入信号中的预设比例可以相同，也可以不同，本申请对此不做限定。

应理解，神经网络模型中所包括的阶段数量可以与终端设备的运算能力、负载、内存等参数相关，本申请实施例对此不作限定。

通过多阶段神经网络模型进行语音降噪，在多阶段神经网络模型的不同阶段设置不同的频段，可以精细化的对不同频段的语音分别进行降噪，以提高语音降噪的精确度，同时，适用于对语音信号降噪要求较高的场景。

结合第一方面，在第一方面的某些实现方式中，上述方法还包括：终端设备对带噪语音样本信号进行预处理，得到第二频谱信号；终端设备将第二频谱信号输入至神经网络模型中，得到第三掩蔽值，第三掩蔽值为带噪语音样本信号的降噪系数；终端设备利用第三掩蔽值对带噪语音样本信号进行处理，得到估计语音信号；根据估计语音信号和监督语音样本信号，对神经网络模型进行训练，得到训练完成的神经网络模型。

应理解，终端设备对带噪语音样本信号进行预处理的方式与上述终端设备对待处理语音信号进行预处理的方式相同，此处不再赘述。

结合第一方面，在第一方面的某些实现方式中，终端设备将带噪语音样本信号和第三掩蔽值相乘，得到估计语音信号。

结合第一方面，在第一方面的某些实现方式中，上述神经网络模型包括2个阶段的神经网络，即第一阶段神经网络和第二阶段神经网络。终端设备将第二频谱信号输入至神经网络模型中，得到第三掩蔽值，包括：终端设备将第二频谱信号输入至第一阶段神经网络，得到第四掩蔽值，第四掩蔽值为带噪语音样本信号在第一阶段神经网络预测得到的降噪系数；终端设备基于第二频谱信号和第四掩蔽值，得到第二降噪语音信号；终端设备将第二降噪语音信号输入至第二阶段神经网络，得到第三掩蔽值，第三掩蔽值为带噪语音样本信号在第二阶段神经网络预测得到的降噪系数。

可选地，终端设备将第二频谱信号和第四掩蔽值相乘，得到第二降噪语音信号。

结合第一方面，在第一方面的某些实现方式中，上述神经网络模型为多阶段神经网络模型，即该神经网络模型除了包括第一阶段神经网络和第二阶段神经网络之外，还包括其他阶段神经网络。终端设备可以将第二频谱信号输入至第一阶段神经网络，得到第四掩蔽值，第四掩蔽值为带噪语音样本信号在第一阶段神经网络预测得到的降噪系数。终端设备可以基于第二频谱信号和第四掩蔽值，得到第二降噪语音信号。终端设备可以将第二降噪语音信号输入至第二阶段神经网络，得到第六掩蔽值，第六掩蔽值为带噪语音样本信号在第二阶段神经网络预测得到的降噪系数。接着，终端设备可以将第二降噪语音信号和第六掩蔽值相乘，得到第四降噪语音信号，将第四降噪语音信号输入至下一阶段神经网络，依次类推，得到最后一阶段神经网络的输出结果为第三掩蔽值，第三掩蔽值为待处理语音信号在最后一阶段神经网络预测得到的降噪系数。

应理解，在多阶段神经网络模型中，还需要计算其他神经网络阶段的输入信号，其他神经网络阶段的输入信号的计算方式与上述第四降噪语音信号的计算方式相似，此处不再赘述。

第二方面，提供了另一种语音降噪方法，该方法可以由终端设备执行，该方法包括：获取待处理语音信号；对待处理语音信号进行预处理，得到第一频谱信号，预处理包括时域到频域的转换和/或声学特征的提取；将第一频谱信号输入至训练完成的神经网络模型，得到第一掩蔽值，第一掩蔽值为待处理语音信号的降噪系数，训练完成的神经网络模型是基于带噪语音信样本号和监督语音样本信号训练得到的，带噪语音样本信号是在纯净语音样本信号上叠加噪音信号得到的，监督语音样本信号是纯净语音样本信号；利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号。

结合第二方面，在第二方面的某些实现方式中，利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号，包括：终端设备第一掩蔽值与待处理语音信号相乘，得到目标语音信号。

结合第二方面，在第二方面的某些实现方式中，利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号，包括：终端设备将第一掩蔽值和预设阈值中的较大值确定为第一掩蔽值的截断值，将第一掩蔽值的截断值与待处理语音信号相乘，得到目标语音信号。

结合第二方面，在第二方面的某些实现方式中，上述神经网络模型包括2个阶段的神经网络，即第一阶段神经网络和第二阶段神经网络，其中，第一阶段神经网络的运算在第二阶段神经网络的运算之前，第二阶段神经网络的输出为该神经网络模型的输出。终端设备可以将第一频谱信号输入至第一阶段神经网络，得到第二掩蔽值，第二掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。终端设备可以基于第一频谱信号和第二掩蔽值，得到第一降噪语音信号。终端设备可以将第一降噪语音信号输入至第二阶段神经网络，得到第一掩蔽值，第一掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。

可选地，终端设备可以通过以下三种方式得到第一降噪语音信号。

方式1，终端设备将第二掩蔽值和预设阈值中的较大值确定为第二掩蔽值的截断值，并将第二掩蔽值的截断值和第一频谱信号相乘，得到第一降噪语音信号。

方式2，终端设备将第二掩蔽值与第一预设比例之和与第一频谱信号相乘，得到第一降噪语音信号，第一预设比例的取值大于0且小于1。

方式3，终端设备将第二掩蔽值和预设阈值中的较大值确定为第二掩蔽值的截断值，将第二掩蔽值的截断值与第二预设比例之和与第一频谱信号相乘，得到第一降噪语音信号，第二预设比例的取值大于0且小于1。

结合第二方面，在第二方面的某些实现方式中，上述神经网络模型可以包括更多阶段的神经网络（后续简称为多阶段神经网络模型），即该神经网络模型除了包括第一阶段神经网络和第二阶段神经网络之外，还包括其他阶段神经网络，其中，第一阶段神经网络的运算在第二阶段神经网络的运算之前，最后一阶段神经网络的输出为该神经网络模型的输出，神经网络的命名按照运算顺序依次排序。终端设备可以将第一频谱信号输入至第一阶段神经网络，得到第二掩蔽值，第二掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。终端设备可以基于第一频谱信号和第二掩蔽值，得到第一降噪语音信号。终端设备可以将第一降噪语音信号输入至第二阶段神经网络，得到第三掩蔽值，第三掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。接着，终端设备可以基于将第三掩蔽值与第一降噪语音信号，得到第二降噪语音信号。接着，将第二降噪语音信号输入至下一阶段神经网络，依次类推，得到最后一阶段神经网络的输出结果为第一掩蔽值，第一掩蔽值为待处理语音信号在最后一阶段神经网络预测得到的降噪系数。

可选地，终端设备可以通过以下三种方式得到第二降噪语音信号。

方式1，终端设备将第三掩蔽值和预设阈值中的较大值确定为第三掩蔽值的截断值，并将第三掩蔽值的截断值和第一降噪语音信号相乘，得到第二降噪语音信号。

方式2，终端设备将第三掩蔽值与第三预设比例之和与第一降噪语音信号相乘，得到第二降噪语音信号，第三预设比例的取值大于0且小于1。

应理解，第三预设比例与第一预设比例可以相同，也可以不同，本申请对此不做限定。例如，在三阶段神经网络模型中，第一预设比例和第三预设比例的取值均为0.2。再例如，在三阶段神经网络模型中，第一预设比例的取值为0.2，第三预设比例的取值可以为0.4。

方式3，终端设备将第三掩蔽值和预设阈值中的较大值确定为第三掩蔽值的截断值，将第三掩蔽值的截断值与第四预设比例之和与第一降噪语音信号相乘，得到第二降噪语音信号，第三预设比例的取值大于0且小于1。

应理解，第四预设比例与第三预设比例可以相同，也可以不同，本申请对此不做限定。

还应理解，在多阶段神经网络模型中，还需要计算其他神经网络阶段的输入信号，其他神经网络阶段的输入信号的计算方式与上述第二降噪语音信号的计算方式相同，此处不再赘述。还应理解，多阶段神经网络模型的每个阶段的输入信号中的预设比例可以相同，也可以不同，本申请对此不做限定。

第三方面，提供了一种终端设备，用于执行上述第一方面或第二方面中任一种可能的实现方式中的方法。具体地，该终端设备包括用于执行上述第一方面或第二方面中任一种可能的实现方式中的方法的模块。

在一种设计中，该终端设备可以包括执行上述第一方面或第二方面中所描述的方法/操作/步骤/动作所一一对应的模块，该模块可以是硬件电路，也可是软件，也可以是硬件电路结合软件实现。

第四方面，提供了一种终端设备，包括：处理器和存储器，该处理器用于读取存储器中存储的指令，以执行上述第一方面或第二方面中的任一种可能实现方式中的方法。

可选地，处理器为一个或多个，存储器为一个或多个。

可选地，存储器可以与处理器集成在一起，或者存储器与处理器分离设置。

在具体实现过程中，存储器可以为非瞬时性（non-transitory）存储器，例如只读存储器（read only memory，ROM），其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。

上述第三方面中的终端设备可以是一个芯片，该处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于该处理器之外，独立存在。

第五方面，提供了一种计算机程序产品，计算机程序产品包括：计算机程序（也可以称为代码，或指令），当计算机程序被运行时，使得计算机执行上述第一方面或第二方面中的任一种可能实现方式中的方法。

第六方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序（也可以称为代码，或指令）当其在计算机上运行时，使得计算机执行上述第一方面或第二方面中的任一种可能实现方式中的方法。

附图说明

图1是本申请实施例的终端设备的结构示意图；

图2是本申请实施例的终端设备的软件结构框图；

图3是本申请实施例提供的一种语音降噪方法的示意性流程图；

图4是本申请实施例提供的一种语音降噪模型的训练方法的示意性流程图；

图5是本申请实施例提供的一种语音降噪模型的训练方法的示意性框图；

图6是本申请实施例提供的一种语音降噪方法的示意性框图；

图7是本申请实施例提供的又一语音降噪方法的示意性框图；

图8是本申请实施例提供的一种终端设备的示意性框图；

图9是本申请实施例提供的另一种终端设备的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。

需要说明的是，本申请中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

此外，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项（个）”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a、b和c中的至少一项（个），可以表示：a，或b，或c，或a和b，或a和c，或b和c，或a、b和c，其中a，b，c可以是单个，也可以是多个。

在本申请实施例中，“当……时”、“在……的情况下”、“若”以及“如果”等描述均指在某种客观情况下设备会做出相应的处理，并非是限定时间，且也不要求设备在实现时一定要有判断的动作，也不意味着存在其它限定。

为了更好的理解本申请实施例中的终端设备，下面结合图1对本申请实施例的终端设备的硬件结构进行详细说明。

图1为本申请实施例提供的终端设备100的结构示意图。如图1所示，终端设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线（universalserial bus，USB）接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，语音模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块（subscriber identification module，SIM）卡接口195等。

可以理解的是，本申请实施例示意的结构并不构成对终端设备100的具体限定。在本申请另一些实施例中，终端设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器（application processor，AP），调制解调处理器，图形处理器（graphics processingunit，GPU），图像信号处理器（image signal processor，ISP），控制器，视频编解码器，数字信号处理器（digital signalprocessor，DSP），基带处理器，和/或神经网络处理器（neural-network processing unit，NPU）等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路（inter-integrated circuit，I2C）接口，集成电路内置语音（inter-integratedcircuitsound，I2S）接口，脉冲编码调制（pulse code modulation，PCM）接口，通用异步收发传输器（universal asynchronous receiver/transmitter，UART）接口，移动产业处理器接口（mobile industry processor interface，MIPI），通用输入输出（general-purposeinput/output，GPIO）接口，用户标识模块（subscriber identity module，SIM）接口，和/或通用串行总线（universal serial bus，USB）接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线（serial data line，SDA）和一根串行时钟线（derail clock line，SCL）。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别充电器，闪光灯，摄像头193等。

I2S接口可以用于语音通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与语音模块170耦合，实现处理器110与语音模块170之间的通信。在一些实施例中，语音模块170可以通过I2S接口向无线通信模块160传递语音信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于语音通信，将模拟信号抽样，量化和编码。在一些实施例中，语音模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，语音模块170也可以通过PCM接口向无线通信模块160传递语音信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于语音通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，语音模块170可以通过UART接口向无线通信模块160传递语音信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口（camera serial interface，CSI），显示屏串行接口（displayserialinterface，DSI）等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，语音模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端设备100充电，也可以用于终端设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放语音。该接口还可以用于连接其他终端设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端设备100的结构限定。在本申请另一些实施例中，终端设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态（漏电，阻抗）等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器（low noise amplifier，LNA）等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过语音设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端设备100上的包括无线局域网（wirelesslocal area networks，WLAN）（如无线保真（wireless fidelity，Wi-Fi）网络），蓝牙（bluetooth，BT），全球导航卫星系统（global navigation satellite system，GNSS），调频（frequency modulation，FM），近距离无线通信技术（near fieldcommunication，NFC），红外技术（infrared，IR）等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统（global system for mobile communications，GSM），通用分组无线服务（general packet radio service，GPRS），码分多址接入（codedivision multipleaccess，CDMA），宽带码分多址（wideband code division multipleaccess，WCDMA），时分码分多址（time-division codedivision multiple access，TD-SCDMA），长期演进（long term evolution，LTE），BT，GNSS，WLAN，NFC ，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统（global positioning system ，GPS），全球导航卫星系统（global navigation satellitesystem，GLONASS），北斗卫星导航系统（beidounavigation satellite system，BDS），准天顶卫星系统（quasi-zenith satellitesystem，QZSS）和/或星基增强系统（satellite based augmentation systems，SBAS）。

终端设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏（liquid crystal display，LCD），有机发光二极管（organic light-emittingdiode，OLED），有源矩阵有机发光二极体或主动矩阵有机发光二极体（active-matrixorganiclight emitting diode，AMOLED），柔性发光二极管（flex light-emitting diode，FLED），Miniled，MicroLed，Micro-oLed，量子点发光二极管（quantum dot light emittingdiodes，QLED）等。在一些实施例中，终端设备100可以包括1个或N个显示屏194，N为大于1的正整数。

终端设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP 用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端设备100可以支持一种或多种视频编解码器。这样，终端设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组（moving picture experts group，MPEG）1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络（neural-network ，NN）计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序（比如声音播放功能，图像播放功能等）等。存储数据区可存储终端设备100使用过程中所创建的数据（比如语音数据，电话本等）等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器（universal flash storage，UFS）等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行终端设备100的各种功能应用以及数据处理。

终端设备100可以通过语音模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现语音功能。例如音乐播放，录音等。

语音模块170用于将数字语音信息转换成模拟语音信号输出，也用于将模拟语音输入转换为数字语音信号。语音模块170还可以用于对语音信号编码和解码。在一些实施例中，语音模块170可以设置于处理器110中，或将语音模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将语音电信号转换为声音信号。终端设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将语音电信号转换成声音信号。当终端设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端设备100可以设置至少一个麦克风170C。在另一些实施例中，终端设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端设备平台（open mobile terminal platform，OMTP）标准接口，美国蜂窝电信工业协会（cellulartelecommunications industry association of the USA，CTIA）标准接口。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端设备100可以接收按键输入，产生与终端设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，语音播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和终端设备100的接触和分离。终端设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端设备100中，不能和终端设备100分离。终端设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。

终端设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明终端设备设备100的软件结构。

图2是本发明实施例的终端设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如: MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层用于驱动硬件，使得硬件工作。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动等，本申请实施例对此不做限制。例如，音频驱动可以驱动扬声器将语音电信号转换为声音信号，以使用户收听声音。

本申请实施例的终端设备为可以进行语音降噪处理的设备，例如可以为手机、平板、以及音箱等，本申请实施例对此不作限定。

为便于理解，首先对本申请实施例所涉及的术语进行简单介绍。

1、傅里叶变换

傅里叶变换能将满足一定条件的某个函数表示成三角函数（正弦和/或余弦函数）或者它们的积分的线性组合。而时域分析与频域分析是对信号的两个观察面。时域分析是以时间轴为坐标表示动态信号的关系；频域分析是把信号变为以频率轴为坐标表示出来。

2、短时傅里叶变换（short-time fourier transform，STFT）

STFT是一种将信号分段处理的方法。通过将时域信号分成若干个长度相等的窗口，对每个创库进行傅里叶变换，得到该窗口内的频域信息。通过短时傅里叶变换，可以得到整个信号在不同时间段内的频域信息，从而更好地分析信号的时变特性。

3、分帧、帧移

分帧是指根据指定的长度（时间段或者采样数）对语音数据进行分段。分段后得到至少两帧语音段，分帧时相邻的两帧语音段之间可以具一定长度的重叠，相邻语音段之间的交叠部分可以称为帧移。通过设置帧移，可以使得分帧后的语音段更好的与实际的语音接近。

4、声学特征

声学特征指表示语音声学特性的物理量，也是声音诸要素声学表现的统称。声学特征可以包括等效矩形带宽（equivalent rectangular bandwidth，ERB）特征、梅尔刻度（mel scale）特征、以及巴克刻度（bark scale）特征等。等效矩形带宽是一种心理声学的度量方法，它提供了一个近似于人耳听觉的对带宽的过滤方法，这个方法使用了矩形频带通滤波器的一个理想化但方便的简化模型。梅尔刻度是一种由听众判断不同频率音高彼此相等的感知刻度，表示人耳对等距音高变化的感知。巴克刻度表征了人耳对频率感知的非线性特性。

5、神经网络的训练

通过比较当前神经网络的预测值和目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量，以使预测值接近目标值。比如，如果神经网络的预测值高了，就调整权重向量以使神经网络输出的预测值低一些。通过不断的调整，直到神经网络的预测结果满足要求。

6、损失函数

损失函数是用于衡量预测值和目标值的差异的重要方程。在神经网络的训练过程中，可以通过损失函数（loss function）比较预测值和目标值之间的差异情况。损失函数的输出值（loss）越高表示差异越大，根据损失函数训练神经网络即就是不断缩小loss的过程。

语音降噪是指当语音信号被各种各样的噪声干扰后，从噪声背景中提取目标语音信号，并对目标语音信号进行增强的技术。语音降噪也可以称为语音增强。相关技术中可以采用神经网络进行语音降噪，神经网络模型的参数量越大、模型复杂度越高，语音降噪的性能越高。但是，参数量越大、模型复杂度越高的模型（例如计算复杂度大于100MACC（每秒运算乘加次数小于或等于100次）的模型）只能在计算能力强和存储空间大的终端设备中运行，无法在计算能力较弱和存储空间较小的终端设备实现。相关技术中可以通过在计算能力较弱和存储空间较小的终端设备设计参数量较小、模型复杂度较低的模型（例如计算复杂度小于或等于100MACC（每秒运算乘加次数小于或等于100次）的模型）进行语音降噪。但终端设备利用上述模型进行语音降噪，可能会对需要增强的目标语音（人声）过度抑制，造成目标语音的部分频段的信号丢失或者目标语音在部分时间段内的信号丢失，即目标语音受损，导致语音中的目标语音不清晰或目标语音丢字（内容丢失），从而影响保真度。

为此，本申请提供了一种语音降噪方法，通过在纯净语音样本信号上叠加预设权重的带噪语音样本信号的作为监督语音样本信号训练神经网络模型，利用训练得到的神经网络模型对待处理语音进行语音降噪。这样，可以在对待处理语音降噪时，保留待处理语音的部分噪音，有利于避免对待处理语音中的目标语音过度抑制，造成目标语音的部分频段的信号丢失或者目标语音在部分时间段内的信号丢失，导致目标语音不清晰或目标语音丢字的问题出现，从而提高保真度。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立实现，也可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图3是本申请实施例提供的一种语音降噪方法300的示意性流程图。方法300可以由终端设备执行，该方法300所涉及的终端设备的硬件结构可以如图1所示，该方法300所涉及的终端设备的软件架构可以如图2所示。该方法300可以包括下列步骤：

S301，获取待处理语音信号。

具体地，待处理语音可以是一段包括目标语音和噪音的音频，目标语音为音频中目标对象的声音，噪音为除目标对象的语音之外声音。

S302，对待处理语音信号进行预处理，得到第一频谱信号。

可选地，预处理包括时域到频域的转换和/或声学特征的提取。终端设备对待处理语音信号进行预处理得到第一频谱信号可能包括多种实现方式。

在一种可能的实现方式中，待处理语音信号为时域信号，终端设备可以对待处理语音信号进行时域到频域的转换，得到第一频谱信号。

可选地，时域到频域的转换可以为短时傅里叶变换。

可选地，在对待处理语音信号进行时域到频域的转换之前，终端设备可以对待处理语音信号进行分帧处理，得到多帧语音信号。终端设备可以对多帧语音信号中的每帧语音信号进行时域到频域的转换，得到多帧语音信号的中每帧语音信号的频谱。终端设备可以合并多帧语音信号的频谱，得到第一频谱信号。

具体地，终端设备可以将待处理语音信号按照预设帧长进行分段。例如，帧长取值范围可以为[10，40]ms。

可选地，终端设备还可以按照与预设帧长和预设帧移进行分段，预设帧移与预设帧长的比值在预设范围。例如，预设帧移与预设帧长的比值b，b的取值范围可以是[0，1/2]。

可选地，终端设备可以合并多帧语音信号的频谱，并对合并后的多帧语音信号的频谱进行声学特征提取，得到声学特征信息。终端设备可以对合并后的频谱信号和声学特征信息进行编码处理，得到第一频谱信号。

可选地，该声学特征可以是等效矩形带宽特征、巴克刻度特征、以及梅尔刻度特征中的任一种特征。本申请对此不做限定。

示例性地，终端设备可以通过等效矩形带宽滤波器进行声学特征提取，得到等效矩形带宽特征。或者，终端设备可以通过巴克刻度滤波器进行声学特征提取，得到巴克刻度特征。或者，终端设备可以通过梅尔刻度滤波器进行声学特征提取，得到梅尔刻度特征。该编码器用于将待处理语音信号的频谱和待处理语音信号的声学特征转换为多阶神经网络可接收的信号格式。

在另一种可能的实现方式中，待处理语音信号为频域信号，终端设备可以对待处理语音信号进行声学特征提取，得到声学特征信息。终端设备可以对待处理语音信号和声学特征信息进行编码处理，得到第一频谱信号。

S303，将第一频谱信号输入训练完成的神经网络模型，得到第一掩蔽值，第一掩蔽值为待处理语音信号降噪系数。

具体地，该神经网络模型是基于带噪语音样本信号和监督语音样本信号训练得到的，带噪语音样本信号是在纯净语音样本信号上叠加噪音信号得到的，监督语音样本信号是在纯净语音样本信号上叠加预设权重的带噪语音样本信号得到的，预设权重的取值大于0且小于1。

S304，利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号。

本申请实施例提供的语音降噪方法，通过在纯净语音样本信号上叠加预设权重的带噪语音样本信号的作为监督语音样本信号训练神经网络模型，利用训练得到的神经网络模型对待处理语音进行语音降噪。这样，可以在终端设备对待处理语音降噪时，保留待处理语音的部分噪音，有利于避免对待处理语音中的目标语音过度抑制，造成目标语音的部分频段的信号丢失或者目标语音在部分时间段内的信号丢失，导致目标语音不清晰或目标语音丢字的问题出现，从而提高保真度。

本申请实施例的语音降噪方法可以应用于如下三种业务场景：

业务场景1：终端设备器可以接收到用户对音乐应用程序播放音乐的操作，该音乐应用程序调用应用框架层的接口，启动音乐应用程序，获取待播放音频，并通过处理器对待播放音频进行降噪处理，接着通过调用内核层启动音频驱动，通过扬声器播放处理后的音频。其中，处理器可以如图1中处理器110所示，扬声器可以如图1中扬声器170A所示，音乐应用程序、以及音频驱动可以如图2所示。

业务场景2：终端设备可以接收到用户对视频应用程序播放视频的操作，该视频应用程序调用应用框架层的接口，启动视频应用程序，获取待播放视频对应的音频，并通过处理器对待播放视频对应的音频进行降噪处理，接着通过调用内核层启动音频驱动，通过扬声器播放处理后的音频。其中，处理器可以如图1中处理器110所示，扬声器可以如图1中扬声器170A所示，视频应用程序、以及音频驱动可以如图2所示。

业务场景3：终端设备之间可以通过通话应用程序实现通信。在一种可能的方式中，第二终端设备向第一终端设备发起通话请求，第一终端设备在接收到通话请求后，显示接听界面。第一终端设备响应于用户在接听界面的接听操作后，与第二终端设备进行通信。第一终端设备上的通话应用程序调用第一终端设备上的应用框架层的接口，启动第一终端设备上的通话应用程序。第一终端设备获取来自第二终端设备的语音信号，并通过处理器对来自第二终端设备的语音信号进行降噪处理，接着通过调用第一终端设备的内核层启动第一终端设备的音频驱动，通过第一终端设备的扬声器播放处理后的语音信号。其中，处理器可以如图1中处理器110所示，扬声器可以如图1中扬声器170A所示，视频应用程序、以及音频驱动可以如图2所示。

可选地，在上述S304中，利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号可以包括下列两种实现方式。

在一种可能的实现方式中，终端设备可以将第一掩蔽值与待处理语音信号相乘，得到目标语音信号。

在另一种可能的实现方式中，终端设备可以将第一掩蔽值和预设阈值中的较大值确定为第一掩蔽值的截断值，将第一掩蔽值的截断值与待处理语音信号相乘，得到目标语音信号。

通过设置预设阈值，可以在第一掩蔽值小于预设阈值的情况下，将预设阈值与待处理语音信号相乘得到目标语音信号。这样，有利于在对待处理语音进行降噪时，保留更多待处理语音信号中的噪音，避免对待处理语音信号的目标语音过度抑制，造成目标语音的部分频段的信号丢失或者目标语音在部分时间段内的信号丢失，导致目标语音不清晰或目标语音丢字的问题出现，从而提高保真度。

作为一个可选的实施例，在上述S303中，该训练完成的神经网络模型可以包括一个阶段，也可以包括更多数量的阶段，本申请对此不做限定。神经网络模型的阶段数量不同，确定第一掩蔽值的方式也不同。

在一种可能的实现方式中，上述神经网络模型包括1个阶段的神经网络。终端设备可以将第一频谱信号输入至该神经网络模型，得到第一掩蔽值，第一掩蔽值为待处理语音信号在该神经网络模型中预测得到的降噪系数。

在另一种可能的实现方式中，上述神经网络模型包括2个阶段的神经网络，即第一阶段神经网络和第二阶段神经网络，其中，第一阶段神经网络的运算在第二阶段神经网络的运算之前，第二阶段神经网络的输出为该神经网络模型的输出。终端设备可以将第一频谱信号输入至训练完成的第一阶段神经网络，得到第二掩蔽值，第二掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。终端设备可以基于第一频谱信号和第二掩蔽值，得到第一降噪语音信号。终端设备可以将第一降噪语音信号输入至训练完成的第二阶段神经网络，得到第一掩蔽值，第一掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。

应理解，第一预设频段和第二预设频段可以相同，也可以不同，本申请对此不作限定。例如，第一预设频段和第二预设频段的范围均可以是30HZ ~20000HZ。再例如，第一预设频段的范围可以是30HZ ~20000HZ。第二预设频段的频率范围可以是5000HZ ~20000HZ。

在又一种可能的实现方式中，上述神经网络模型可以包括更多阶段的神经网络（后续简称为多阶段神经网络模型），即该神经网络模型除了包括第一阶段神经网络和第二阶段神经网络之外，还包括其他阶段神经网络，其中，第一阶段神经网络的运算在第二阶段神经网络的运算之前，最后一阶段神经网络的输出为该神经网络模型的输出，神经网络的命名按照运算顺序依次排序。终端设备可以将第一频谱信号输入至训练完成的第一阶段神经网络，得到第二掩蔽值，第二掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。终端设备可以基于第一频谱信号和第二掩蔽值，得到第一降噪语音信号。终端设备可以将第一降噪语音信号输入至训练完成的第二阶段神经网络，得到第五掩蔽值，第五掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。接着，终端设备可以基于第一降噪语音信号和第五掩蔽值，得到第三降噪语音信号，将第三降噪语音信号输入至下一阶段神经网络，依次类推，得到最后一阶段神经网络的输出结果为第一掩蔽值，第一掩蔽值为待处理语音信号在最后一阶段神经网络预测得到的降噪系数。

应理解，第三预设比例与上述第一预设比例可以相同，也可以不同，本申请对此不做限定。例如，在三阶段神经网络模型中，第一预设比例和第三预设比例的取值均为0.2。再例如，在三阶段神经网络模型中，第一预设比例的取值为0.2，第三预设比例的取值可以为0.4。

还应理解，在多阶段神经网络模型中，还需要计算其他神经网络阶段的输入信号，其他神经网络阶段的输入信号的计算方式与上述第三降噪语音信号的计算方式相同，此处不再赘述。还应理解，多阶段神经网络模型的每个阶段的输入信号中的预设比例可以相同，也可以不同，本申请对此不做限定。

在本申请实施例中，神经网络模型中所包括的阶段数量可以与终端设备的运算能力、负载、内存等参数相关，本申请实施例对此不作限定。

作为一个可选的实施例，待处理语音信号为时域信号，终端设备对待处理语音信号进行时域到频域的转换，得到第一频谱信号。在终端设备利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号之后，所述方法还包括：终端设备对目标语音信号进行频域到时域的转换，得到目标语音信号的时域信号。

在上述方法300的基础之上，终端设备还可以对神经网络模型进行训练，在训练完成之后，使用该训练完成的神经网络模型，即执行上述方法300。作为一个可选的实施例，上述方法还包括：终端设备可以对带噪语音样本信号进行预处理，得到第二频谱信号。终端设备可以将第二频谱信号输入至神经网络模型中，得到第三掩蔽值，第三掩蔽值为带噪语音样本信号的降噪系数。终端设备可以利用第三掩蔽值对带噪语音样本信号进行处理，得到估计语音信号。终端设备可以根据估计语音信号和监督语音样本信号，对神经网络模型进行训练，得到训练完成的神经网络模型。

可选地，终端设备可以将带噪语音样本信号和第三掩蔽值相乘，得到估计语音信号。

应理解，上述神经网络模型可以包括一个阶段，也可以包括更多数量的阶段，本申请对此不做限定。神经网络模型的阶段数量不同，确定第三掩蔽值的方式也不同。

在一种可能的实现方式中，上述神经网络模型包括1个阶段的神经网络。终端设备可以将第二频谱信号输入至该神经网络模型，得到第三掩蔽值，第三掩蔽值为带噪语音样本信号在该神经网络模型中预测得到的降噪系数。

在另一种可能的实现方式中，上述神经网络模型包括2个阶段的神经网络，即第一阶段神经网络和第二阶段神经网络。终端设备将第二频谱信号输入至第一阶段神经网络，得到第四掩蔽值，第四掩蔽值为带噪语音样本信号在第一阶段神经网络预测得到的降噪系数；终端设备基于第二频谱信号和第四掩蔽值，得到第二降噪语音信号；终端设备将第二降噪语音信号输入至第二阶段神经网络，得到第三掩蔽值，第三掩蔽值为带噪语音样本信号在第二阶段神经网络预测得到的降噪系数。

在又一种可能的实现方式中，上述神经网络模型为多阶段神经网络模型，即该神经网络模型除了包括第一阶段神经网络和第二阶段神经网络之外，还包括其他阶段神经网络。终端设备可以将第二频谱信号输入至第一阶段神经网络，得到第四掩蔽值，第四掩蔽值为带噪语音样本信号在第一阶段神经网络预测得到的降噪系数。终端设备可以基于第二频谱信号和第四掩蔽值，得到第二降噪语音信号。终端设备可以将第二降噪语音信号输入至第二阶段神经网络，得到第六掩蔽值，第六掩蔽值为带噪语音样本信号在第二阶段神经网络预测得到的降噪系数。接着，终端设备可以将第二降噪语音信号和第六掩蔽值相乘，得到第四降噪语音信号，将第四降噪语音信号输入至下一阶段神经网络，依次类推，得到最后一阶段神经网络的输出结果为第三掩蔽值，第三掩蔽值为待处理语音信号在最后一阶段神经网络预测得到的降噪系数。

在本申请的其他可能实现方式中，神经网络模型的训练可以由其他设备完成，下面，结合图4对本申请的语音降噪模型的训练方法进行描述。

图4是本申请实施例提供的一种语音降噪模型训练方法400的流程图。方法400可以由电子设备执行，该电子设备可以为上述终端设备，也可以为其他设备，例如服务器，本申请实施例对此不作限定。该方法400可以包括下列步骤：

S401，获取训练样本，训练样本包括监督语音样本信号和带噪语音样本信号。

具体地，监督语音样本信号和带噪语音样本信号可以均为时域信号，监督语音样本信号和带噪语音样本信号也可以均为频域信号，本申请对此不做限定。

S402，对带噪语音样本信号进行预处理，得到第二频谱信号。

电子设备对带噪语音样本信号进行预处理得到第二频谱信号的方式与上述终端设备对带噪语音样本信号进行预处理得到第二频谱信号的方式相同，此处不再赘述。

S403，将第二频谱信号输入神经网络模型中，得到第三掩蔽值。

应理解，该第三掩蔽值可以用于预测带噪语音样本信号降噪后的信号，该第三掩蔽值也可以称为掩膜或者掩码。第三掩蔽值也可以称为带噪语音样本信号的保留系数，或者第三掩蔽值也可以称为带噪语音样本信号的增强系数。

具体地，电子设备将第二频谱信号输入神经网络模型中得到第三掩蔽值的方式与上述终端设备将第二频谱信号输入神经网络模型中，得到第三掩蔽值的方式相同，此处不再赘述。

S404，利用第三掩蔽值对带噪语音样本信号进行处理，得到估计语音信号。

可选地，电子设备可以将第三掩蔽值与带噪语音样本信号的掩蔽值相乘，得到估计语音信号。

S405，根据估计语音信号和监督语音样本信号训练神经网络模型进行训练，得到训练完成的神经网络模型。

可选地，电子设备可以根据估计语音信号和监督语音样本信号计算损失函数结果，损失函数可以为L1（loss 1）损失函数、均方误差（mean squared error，MSE）损失函数、或信噪比损失函数等常用损失函数，本申请对此不做限定。

示例性地，通过MSE损失函数计算损失可以通过下述公式：

其中，k表示样本的个数，表示第i个样本的真实值（即监督语音样本信号），/>表示第i个样本的预测值（即估计语音信号）。

应理解，通过L1损失函数和信噪比损失函数来计算损失函数的方式可以采用本领域的通用方式，本申请不再赘述。

具体地，在损失函数结果小于或等于预设阈值的情况下，电子设备确定神经网络模型训练完成。

应理解，在损失函数结果大于预设阈值的情况下，电子设备可以调整神经网络的参数，再次执行上述训练过程（S401~S404、以及S405中的根据估计语音信号和监督语音样本信号训练神经网络模型进行训练），直至损失函数结果等于或小于预设阈值，确定神经网络模型训练完成，得到训练完成的神经网络模型。

通过在纯净语音样本信号上叠加预设权重的带噪语音样本信号得到的监督语音样本信号进行模型训练，得到的神经网络模型对噪音的保留度更高。通过该模型对待处理语音进行语音降噪时，有利于避免对待处理语音中的目标语音的过度抑制，造成目标语音的部分频段的信号丢失或者目标语音在部分时间段内的信号丢失，导致目标语音不清晰或目标语音丢字的问题出现，从而提高保真度。

应理解，上述语音降噪模型的训练过程和上述利用语音降噪模型对待处理语音进行降噪的过程是可以解耦的。终端设备可以只执行上述神经网络模型的训练过程，也可以在神经网络模型训练完成后直接使用该神经网络模型进行语音降噪，本申请对此不做限定。

还应理解，上述使用神经网络模型进行语音降噪方法的执行主体和上述语音降噪模型的训练方法可以是同一个终端设备执行的，也可以是两个不同设备执行的。例如，语音降噪模型的训练方法可以是在终端设备上训练的，也可以是其他设备（例如服务器）训练完成之后发送至终端设备的，还可以是终端设备在使用时从服务器获取的，本申请实施例对此不作限定。

下面以带噪语音样本信号为时域信号、待处理语音信号为时域信号、多阶段神经网络模型为三阶段神经网络模型为例，结合图5至图7对本申请提供的语音降噪模型的训练方法和语音降噪方法进行详细描述。

图5示出了一种语音降噪模型的训练方法的示意性框图。在图5中，训练样本包括带噪语音样本信号和监督语音样本信号/>，其中，t代表时间，t<T，T为带噪语音样本信号/>的总长。/>为在纯净语音/>上叠加了噪音的带噪语音样本信号。/>为在纯净语音/>上叠加了预设权重的带噪语音样本信号/>的监督语音样本信号，即/>，/>。

如图5所示，终端设备可以对带噪语音样本信号按照帧长为L，帧移为1/2L进行分帧，得到n段语音信号：/>，n为大于1的整数。终端设备可以对/>分别进行短时傅里叶变换，得到/>，合并后得到初始频谱/>。终端设备可以对初始频谱/>进行声学特征提取，得到声学特征为/>。终端设备可以将初始频谱/>和声学特征/>输入编码器，得到待处理语音的第一频谱/>。终端设备可以将第一频谱/>输入三阶段神经网络模型的第一阶段神经网络中，得到第一掩蔽值/>，该第一掩蔽值为带噪语音样本信号在第一阶段神经网络预测得到的降噪系数。终端设备可以将第一掩蔽值/>和第一频谱/>相乘，得到第二频谱/>。终端设备可以将第二频谱/>输入至第二阶段神经网络，得到第二掩蔽值/>，该第二掩蔽值为带噪语音样本信号在第二阶段神经网络预测得到的降噪系数。终端设备可以将第二掩蔽值/>和第二频谱/>相乘，得到第三频谱/>。终端设备可以将第三频谱/>输入至第三阶段神经网络，得到第三掩蔽值/>，该第三掩蔽值为带噪语音样本信号在第三阶段神经网络预测得到的降噪系数。将初始频谱/>和第三掩蔽值/>相乘，得到估计语音的频谱/>。终端设备可以对目标语音的频谱进行短时傅里叶逆变换得到估计语音信号/>。终端设备可以根据估计语音信号和监督语音样本信号/>通过下述公式计算损失函数的结果：

上述公式中，k表示样本的个数，表示第i个样本的监督语音样本信号，/>表示第i个样本估计语音信号。

在损失函数的结果大于预设阈值的情况下，研发人员可以调整该三阶段神经网络模型的多个阶段中的任意阶段的参数，以使终端设备按照调整后地参数可以执行上述训练步骤，重复多次训练，直至损失函数的结果等于或小于预设阈值，终端设备确定神经网络模型训练结束，得到训练完成的三阶段神经网络模型。

在三阶段神经网络模型训练完成之后，终端设备可以利用该训练完成的三阶段神经网络模型对待处理语音信号进行降噪处理，具体可以包括下列四种方式：

方式1：该训练完成的三阶段神经网络模型的第一阶段神经网络的输入为：待处理语音信号的初始频谱，该训练完成的第二阶段神经网络的输入为：初始频谱与第一阶段神经网络得到的掩蔽值的乘积，该训练完成的第三阶段神经网络的输入为：第一降噪语音信号与第二阶段神经网络得到的掩蔽值的乘积。

示例性地，图6示出了一种语音降噪方法的示意性框图。如图6所示，对待处理语音信号按照帧长为L，帧移为1/2L进行分帧，得到n段语音信号：/>，n为大于1的整数。对/>分别进行短时傅里叶变换，得到/>，合并后得到待处理语音的初始频谱/>。对频谱/>进行声学特征提取，得到声学特征为/>。将初始频谱/>和声学特征/>输入编码器，得到待处理语音的第一频谱/>。将第一频谱输入该训练完成的三阶段神经网络模型的第一阶段神经网络中，得到第四掩蔽值（即第一阶段神经网络得到的掩蔽值），该第四掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。将第四掩蔽值/>和第一频谱/>相乘，得到第二频谱/>。将第二频谱/>输入至该训练完成的第二阶段神经网络，得到第五掩蔽值/>（即第二阶段神经网络得到的掩蔽值），该第五掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。将第五掩蔽值/>和第二频谱/>相乘，得到第三频谱/>。将第三频谱/>输入至该训练完成的第三阶段神经网络，得到第六掩蔽值/>，该第六掩蔽值为待处理语音信号在第三阶段神经网络预测得到的降噪系数。将初始频谱/>和第六掩蔽值/>相乘，得到目标语音的频谱/>。对目标语音的频谱进行短时傅里叶逆变换得到目标语音信号。

方式2：该训练完成的三阶段神经网络模型的第一阶段神经网络的输入为：待处理语音信号的初始频谱。该训练完成的第二阶段神经网络的输入为：初始频谱与第一阶段神经网络得到的掩蔽值的截断值的乘积。该训练完成的第三阶段神经网络的输入为：第一降噪语音信号与第二阶段神经网络得到的掩蔽值的截断值的乘积。

示例性地，图7示出了又一种语音降噪方法的示意图。如图7所示，对待处理语音信号按照帧长为L，帧移为1/2L进行分帧，得到n段语音信号：/>，n为大于1的整数。对/>分别进行短时傅里叶变换，得到/>，合并后得到待处理语音的初始频谱/>。对频谱/>进行声学特征提取，得到声学特征为/>。将初始频谱/>和声学特征/>输入编码器，得到待处理语音的第一频谱/>。将第一频谱/>输入该训练完成的三阶段神经网络模型的第一阶段神经网络中，得到第四掩蔽值/>（即第一阶段神经网络得到的掩蔽值），该第四掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。对第四掩蔽值进行第一阶段掩蔽截断，即比较预设阈值为/>和第四掩蔽值/>，确定第四掩蔽值的截断值为/>。将该第四掩蔽值的截断值/>和第一频谱/>相乘，得到第二频谱/>，将第二频谱/>输入至该训练完成的第二阶段神经网络，得到第五掩蔽值/>（即第二阶段神经网络得到的掩蔽值），该第五掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。接着，对第五掩蔽值进行第二阶段掩蔽截断，即比较预设阈值为/>和第五掩蔽值/>，确定第五掩蔽值的截断值为/>。接着，将第五掩蔽值的截断值/>和第二频谱相乘，得到第三频谱/>。将第三频谱/>输入至该训练完成的第三阶段神经网络，得到第六掩蔽值/>，该第六掩蔽值为待处理语音信号在第三阶段神经网络预测得到的降噪系数。接着，对第六掩蔽值进行第三阶段掩蔽截断，即比较预设阈值为/>和第六掩蔽值/>，确定第六掩蔽值的截断值为/>。将初始频谱和第六掩蔽值的截断值/>相乘，得到目标语音的频谱/>。对目标语音的频谱进行短时傅里叶逆变换得到目标语音/>。

方式3：该训练完成的三阶段神经网络模型的第一阶段神经网络的输入为：待处理语音信号的初始频谱。该训练完成的第二阶段神经网络的输入为：待处理语音信号在第一阶段神经网络得到的掩蔽值与初始频谱的乘积与第一预设比例的初始频谱之和。该训练完成的第三阶段神经网络的输入为：第二阶段神经网络得到的掩蔽值与第一降噪语音信号的乘积与第二预设比例的第一降噪语音信号之和。

示例性地，如图6所示，对待处理语音信号按照帧长为L，帧移为1/2L进行分帧，得到n段语音信号：/>，n为大于1的整数。对/>分别进行短时傅里叶变换，得到/>，合并后得到初始频谱/>。对初始频谱/>进行声学特征提取，得到声学特征为/>。将初始频谱/>和声学特征/>输入编码器，得到待处理语音的第一频谱/>。将第一频谱/>输入该训练完成的三阶段神经网络模型的第一阶段神经网络中，得到第四掩蔽值/>（第一阶段神经网络得到的掩蔽值），该第四掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。将第四掩蔽值/>和第一频谱/>相乘，再与/>相加，得到第二频谱/>。将第二频谱输入至该训练完成的第二阶段神经网络，得到第五掩蔽值/>（即第二阶段神经网络得到的掩蔽值），该第五掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。将第五掩蔽值/>和第二频谱/>相乘，再与/>相加，得到第三频谱。接着，将第三频谱/>输入该训练完成的第三阶段神经网络，得到第六掩蔽值/>，该第六掩蔽值为待处理语音信号在第三阶段神经网络预测得到的降噪系数。将初始频谱/>和第六掩蔽值/>相乘，得到目标语音的频谱。对目标语音的频谱进行短时傅里叶逆变换得到目标语音信号/>。

方式4：该训练完成的三阶段神经网络模型的第一阶段神经网络的输入为：待处理语音信号的初始频谱。该训练完成的第二阶段神经网络的输入为：待处理语音信号在第一阶段神经网络得到的掩蔽值的截断值与初始频谱的乘积与第一预设比例的初始频谱之和。该训练完成的第三阶段神经网络的输入为：第二阶段神经网络得到的掩蔽值的截断值与第一降噪语音信号的乘积与第二预设比例的第一降噪语音信号之和。

示例性地，如图7所示，对待处理语音信号按照帧长为L，帧移为1/2L进行分帧，得到n段语音信号：/>，n为大于1的整数。对/>分别进行短时傅里叶变换，得到/>，合并后得到待处理语音的初始频谱/>。对频谱/>进行声学特征提取，得到声学特征为/>。将初始频谱/>和声学特征/>输入编码器，得到待处理语音的第一频谱/>。将第一频谱/>输入该训练完成的三阶段神经网络模型的第一阶段神经网络中，得到第四掩蔽值/>（即第一阶段神经网络得到的掩蔽值），该第四掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。对第四掩蔽值进行第一阶段掩蔽截断，即比较预设阈值为/>和第四掩蔽值/>，确定第四掩蔽值的截断值为/>。将该第四掩蔽值的截断值/>和第一频谱/>相乘，再与相加，得到第二频谱/>，将第二频谱/>输入至该训练完成的第二阶段神经网络，得到第五掩蔽值/>（即第二阶段神经网络得到的掩蔽值），该第五掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。接着，对第五掩蔽值进行第二阶段掩蔽截断，即比较预设阈值为/>和将第五掩蔽值/>，确定为第五掩蔽值的截断值为/>。接着，将第五掩蔽值的截断值/>和第二频谱相乘，再与/>相加，得到第三频谱/>。将第三频谱输入至该训练完成的第三阶段神经网络，得到第六掩蔽值/>，该第六掩蔽值为待处理语音信号在第三阶段神经网络预测得到的降噪系数。接着，对第六掩蔽值进行第三阶段掩蔽截断，即比较预设阈值/>和第六掩蔽值/>，确定第六掩蔽值的截断值为。将初始频谱/>和第六掩蔽值的截断值/>相乘，得到目标语音的频谱/>。对目标语音的频谱进行短时傅里叶逆变换得到目标语音。

上述以三阶段神经网络模型为例，对三阶段神经网络模型的训练过程和利用三阶段神经网络模型进行语音降噪的过程进行了说明，对于更多阶段的模型，具体执行过程类似，此处不再一一列举。

本申请还提出了另一种语音降噪方法，由上述终端设备执行，该方法包括：

步骤一，获取待处理语音信号。

步骤二，对待处理语音信号进行预处理，得到第一频谱信号，预处理包括时域到频域的转换和/或声学特征的提取。

步骤三，将第一频谱信号输入至训练完成的神经网络模型，得到第一掩蔽值，第一掩蔽值为待处理语音信号的降噪系数，训练完成的神经网络模型是基于带噪语音信样本号和监督语音样本信号训练得到的，带噪语音样本信号是在纯净语音样本信号上叠加噪音信号得到的，监督语音样本信号是纯净语音样本信号。

步骤四，利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号。

应理解，上述神经网络模型可以是该终端设备自身训练完成的，也可以是其他设备训练完成后发送至该终端设备的，本申请实施例对此不作限定。

可选地，终端设备第一掩蔽值与待处理语音信号相乘，得到目标语音信号。

可选地，终端设备将第一掩蔽值和预设阈值中的较大值确定为第一掩蔽值的截断值，将第一掩蔽值的截断值与待处理语音信号相乘，得到目标语音信号。

应理解，上述神经网络模型可以包括一个阶段，也可以包括更多数量的阶段，本申请对此不做限定。神经网络模型的阶段数量不同，确定第一掩蔽值的方式也不同。

通过设置预设阈值，可以在第一掩蔽值小于预设阈值的情况下，将预设阈值与待处理语音信号相乘得到目标语音信号。这样，无需训练新模型，在利用现有模型进行语音降噪时就可以保留更多待处理语音信号中的噪音，避免对待处理语音信号的目标语音过度抑制，造成目标语音的部分频段的信号丢失或者目标语音在部分时间段内的信号丢失，导致目标语音不清晰或目标语音丢字的问题出现，从而提高保真度。

在另一种可能的实现方式中，上述神经网络模型包括2个阶段的神经网络，即第一阶段神经网络和第二阶段神经网络。终端设备可以将第一频谱信号输入至第一阶段神经网络，得到第二掩蔽值，第二掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。终端设备可以基于第一频谱信号和第二掩蔽值，得到第一降噪语音信号；终端设备可以将第一降噪语音信号输入至第二阶段神经网络，得到第一掩蔽值，第一掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。

在又一种可能的实现方式中，上述神经网络模型为多阶段神经网络模型，即该神经网络模型除了包括第一阶段神经网络和第二阶段神经网络之外，还包括其他阶段神经网络。终端设备可以将第一频谱信号输入至第一阶段神经网络，得到第二掩蔽值，第二掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数。终端设备可以基于第一频谱信号和第二掩蔽值，得到第一降噪语音信号。终端设备可以将第一降噪语音信号输入至第二阶段神经网络，得到第三掩蔽值，第三掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。接着，终端设备可以基于将第三掩蔽值与第一降噪语音信号，得到第二降噪语音信号。接着，将第二降噪语音信号输入至下一阶段神经网络，依次类推，得到最后一阶段神经网络的输出结果为第一掩蔽值，第一掩蔽值为待处理语音信号在最后一阶段神经网络预测得到的降噪系数。

上文结合图3至图7，详细描述了本申请实施例的语音降噪方法和语音模型训练方法，下面，结合8和图9，详细描述本申请实施例的终端设备。

图8是本申请实施例提供的终端设备800，该终端设备800包括：获取模块801和处理模块802。该终端设备800用于实现上述方法中终端设备对应的步骤。该终端设备800涉及的软件架构可以如图2所示，也可以是其他形式的软件架构，本申请对此不做限定。

获取模块801，用于获取待处理语音信号。

处理模块802，用于对待处理语音信号进行预处理，得到第一频谱信号，预处理包括时域到频域的转换和/或声学特征的提取；将第一频谱信号输入至训练完成的神经网络模型，得到第一掩蔽值，训练完成的神经网络模型是基于带噪语音信样本号和监督语音样本信号训练得到的，带噪语音样本信号是在纯净语音样本信号上叠加噪音信号得到的，监督语音样本信号是在纯净语音样本信号上叠加预设权重的带噪语音样本信号得到的，预设权重的取值大于0且小于1；利用第一掩蔽值对待处理语音信号进行处理，得到目标语音信号。

可选地，处理模块802还用于，将第一掩蔽值与待处理语音信号相乘，得到目标语音信号。

可选地，处理模块802还用于，将第一掩蔽值和预设阈值中的较大值确定为第一掩蔽值的截断值；将第一掩蔽值的截断值与待处理语音信号相乘，得到目标语音信号。

可选地，神经网络模型包括第一阶段神经网络和第二阶段神经网络；处理模块802还用于，将第一频谱信号输入至训练完成的第一阶段神经网络，得到第二掩蔽值，第二掩蔽值为待处理语音信号在第一阶段神经网络预测得到的降噪系数；基于第一频谱信号和第二掩蔽值，得到第一降噪语音信号；将第一降噪语音信号输入至训练完成的第二阶段神经网络，得到第一掩蔽值，第一掩蔽值为待处理语音信号在第二阶段神经网络预测得到的降噪系数。

可选地，处理模块802还用于，将第二掩蔽值和预设阈值中的较大值确定为第二掩蔽值的截断值；将第二掩蔽值的截断值和第一频谱信号相乘，得到第一降噪语音信号。

可选地，处理模块802还用于，将第二掩蔽值与第一预设比例之和与第一频谱信号相乘，得到第一降噪语音信号，第一预设比例的取值大于0且小于1。

可选地，处理模块802还用于，将第二掩蔽值和预设阈值中的较大值确定为第二掩蔽值的截断值；将第二掩蔽值的截断值与第二预设比例之和与第一频谱信号相乘，得到第一降噪语音信号，第二预设比例的取值大于0且小于1。

可选地，处理模块802还用于，对带噪语音样本信号进行预处理，得到第二频谱信号；将第二频谱信号输入至神经网络模型中，得到第三掩蔽值，第三掩蔽值为带噪语音样本信号的降噪系数；利用第三掩蔽值对带噪语音样本信号进行处理，得到估计语音信号；根据估计语音信号和监督语音样本信号，对神经网络模型进行训练，得到训练完成的神经网络模型。

可选地，处理模块802还用于，将带噪语音样本信号和第三掩蔽值相乘，得到估计语音信号。

可选地，处理模块802还用于，将第二频谱信号输入至第一阶段神经网络，得到第四掩蔽值，第四掩蔽值为带噪语音样本信号在第一阶段神经网络预测得到的降噪系数；基于第二频谱信号和第四掩蔽值，得到第二降噪语音信号；将第二降噪语音信号输入至第二阶段神经网络，得到第三掩蔽值，第三掩蔽值为带噪语音样本信号在第二阶段神经网络预测得到的降噪系数。

可选地，待处理语音信号为时域信号，处理模块802还用于，对待处理语音信号进行时域到频域的转换，得到第一频谱信号；对目标语音信号进行频域到时域的转换，得到目标语音信号的时域信号。

可选地，处理模块802还用于，对待处理语音信号进行分帧处理，得到多帧语音信号；对多帧语音信号中的每帧语音信号进行时域到频域的转换，得到多帧语音信号的频谱；合并多帧语音信号的频谱，得到第一频谱信号。

可选地，处理模块802还用于，合并多帧语音信号的频谱，并对合并后的频谱信号进行声学特征提取，得到声学特征信息；对合并后的频谱信号和声学特征信息进行编码处理，得到第一频谱信号。

应理解，这里的终端设备800以功能模块的形式体现。这里的术语“模块”可以指应用特有集成电路（application specific integrated circuit，ASIC）、电子电路、用于执行一个或多个软件或固件程序的处理器（例如共享处理器、专有处理器或组处理器等）和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，终端设备800可以具体为上述实施例中的终端设备，终端设备800可以用于执行上述方法实施例中与终端设备对应的各个流程和/或步骤，为避免重复，在此不再赘述。

上述终端设备800具有实现上述方法中终端设备执行的相应步骤的功能；上述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。例如，上述处理模块802可以用于实现上述处理模块对应的用于执行处理动作的各个步骤和/或流程。

在本申请的实施例，图8中的终端设备800也可以是芯片或者芯片系统，例如：片上系统（system on chip，SOC）。对应的，处理模块802可以是该芯片的处理电路，在此不做限定。

图9示出了本申请实施例提供的另一种终端设备900。该终端设备900包括处理器901、通信接口902和存储器903。其中，处理器901、通信接口902和存储器903通过内部连接通路互相通信，该存储器903用于存储指令，该处理器901用于执行该存储器903存储的指令，通信接口902可以用于从其他模块接收信号（例如，存储器903），通信接口902也可以用于向其他模块发送信号。

应理解，终端设备900可以具体为上述实施例中的终端设备，并且可以用于执行上述方法实施例中与终端设备对应的各个步骤和/或流程。可选地，该存储器903可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。该处理器901可以用于执行存储器中存储的指令，并且当该处理器901执行存储器中存储的指令时，该处理器901用于执行上述与该终端设备对应的方法实施例的各个步骤和/或流程。示例性地，通信接口902可读取存储器903中存储的指令，并将该指令发送处理器901。当所示指令被处理器901执行时，可使终端设备执行上述实施例中终端设备执行的各个步骤。

应理解，在本申请实施例中，该处理器可以是中央处理单元（central processingunit，CPU），该处理器还可以是其他通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器执行存储器中的指令，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，该计算机程序用于实现上述实施例中与终端设备对应的方法。

本申请还提供了一种计算机程序产品，该计算机程序产品包括计算机程序（也可以称为代码，或指令），当该计算机程序在计算机上运行时，该计算机可以执行上述实施例所示的终端设备对应的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种语音降噪方法，其特征在于，所述方法包括：

获取待处理语音信号；

对所述待处理语音信号进行预处理，得到第一频谱信号，所述预处理包括时域到频域的转换和/或声学特征的提取；

将所述第一频谱信号输入至训练完成的神经网络模型，得到第一掩蔽值，所述第一掩蔽值为所述待处理语音信号的降噪系数，所述训练完成的神经网络模型是基于带噪语音样本信号和监督语音样本信号训练得到的，所述带噪语音样本信号是在纯净语音样本信号上叠加噪音信号得到的，所述监督语音样本信号是在所述纯净语音样本信号上叠加预设权重的所述带噪语音样本信号得到的，所述预设权重的取值大于0且小于1；

利用所述第一掩蔽值对所述待处理语音信号进行处理，得到目标语音信号。

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一掩蔽值对所述待处理语音信号进行处理，得到目标语音信号，包括：

将所述第一掩蔽值与所述待处理语音信号相乘，得到所述目标语音信号。

3.根据权利要求1所述的方法，其特征在于，所述利用所述第一掩蔽值对所述待处理语音信号进行处理，得到目标语音信号，包括：

将所述第一掩蔽值和预设阈值中的较大值确定为所述第一掩蔽值的截断值；

将所述第一掩蔽值的截断值与所述待处理语音信号相乘，得到所述目标语音信号。

4.根据权利要求1所述的方法，其特征在于，所述神经网络模型包括第一阶段神经网络和第二阶段神经网络；

所述将所述第一频谱信号输入至训练完成的神经网络模型，得到第一掩蔽值，包括：

将所述第一频谱信号输入至训练完成的所述第一阶段神经网络，得到第二掩蔽值，所述第二掩蔽值为所述待处理语音信号在所述第一阶段神经网络预测得到的降噪系数；

基于所述第一频谱信号和所述第二掩蔽值，得到第一降噪语音信号；

将所述第一降噪语音信号输入至训练完成的所述第二阶段神经网络，得到所述第一掩蔽值，所述第一掩蔽值为所述待处理语音信号在所述第二阶段神经网络预测得到的降噪系数。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述第二掩蔽值和预设阈值中的较大值确定为所述第二掩蔽值的截断值；

所述基于所述第一频谱信号和所述第二掩蔽值，得到第一降噪语音信号，包括：

将所述第二掩蔽值的截断值和所述第一频谱信号相乘，得到所述第一降噪语音信号。

6.根据权利要求4所述的方法，其特征在于，所述基于所述第一频谱信号和所述第二掩蔽值，得到第一降噪语音信号，包括：

将所述第二掩蔽值与第一预设比例之和与所述第一频谱信号相乘，得到所述第一降噪语音信号，所述第一预设比例的取值大于0且小于1。

7.根据权利要求4所述的方法，其特征在于，所述方法还包括：

将所述第二掩蔽值的截断值与第二预设比例之和与所述第一频谱信号相乘，得到所述第一降噪语音信号，所述第二预设比例的取值大于0且小于1。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述带噪语音样本信号进行所述预处理，得到第二频谱信号；

将所述第二频谱信号输入至所述神经网络模型中，得到第三掩蔽值，所述第三掩蔽值为所述带噪语音样本信号的降噪系数；

利用所述第三掩蔽值对所述带噪语音样本信号进行处理，得到估计语音信号；

根据所述估计语音信号和所述监督语音样本信号，对所述神经网络模型进行训练，得到所述训练完成的神经网络模型。

9.根据权利要求8所述的方法，其特征在于，所述利用所述第三掩蔽值对所述带噪语音样本信号进行处理，得到估计语音信号，包括：

将所述带噪语音样本信号和所述第三掩蔽值相乘，得到所述估计语音信号。

10.根据权利要求8或9所述的方法，其特征在于，所述神经网络模型包括第一阶段神经网络和第二阶段神经网络；

所述将所述第二频谱信号输入至所述神经网络模型中，得到第三掩蔽值，包括：

将所述第二频谱信号输入至所述第一阶段神经网络，得到第四掩蔽值，所述第四掩蔽值为所述带噪语音样本信号在所述第一阶段神经网络预测得到的降噪系数；

基于所述第二频谱信号和所述第四掩蔽值，得到第二降噪语音信号；

将所述第二降噪语音信号输入至所述第二阶段神经网络，得到所述第三掩蔽值，所述第三掩蔽值为所述带噪语音样本信号在所述第二阶段神经网络预测得到的降噪系数。

11.根据权利要求1所述的方法，其特征在于，所述待处理语音信号为时域信号，所述对所述待处理语音信号进行预处理，得到第一频谱信号，包括：

对所述待处理语音信号进行时域到频域的转换，得到所述第一频谱信号；

在所述利用所述第一掩蔽值对所述待处理语音信号进行处理，得到目标语音信号之后，所述方法还包括：

对所述目标语音信号进行频域到时域的转换，得到目标语音信号的时域信号。

12.根据权利要求11所述的方法，其特征在于，在对所述待处理语音信号进行时域到频域的转换之前，所述方法还包括：

对所述待处理语音信号进行分帧处理，得到多帧语音信号；

所述对所述待处理语音信号进行时域到频域的转换，得到所述第一频谱信号，包括：

对所述多帧语音信号中的每帧语音信号进行时域到频域的转换，得到所述多帧语音信号的频谱；

合并所述多帧语音信号的频谱，得到所述第一频谱信号。

13.根据权利要求12所述的方法，其特征在于，所述合并所述多帧语音信号的频谱，得到所述第一频谱信号，包括：

合并所述多帧语音信号的频谱，并对合并后的频谱信号进行声学特征提取，得到声学特征信息；

对所述合并后的频谱信号和所述声学特征信息进行编码处理，得到所述第一频谱信号。

14.一种终端设备，其特征在于，包括：处理器，所述处理器与存储器耦合，所述存储器用于存储计算机程序，当所述处理器调用所述计算机程序时，使得所述终端设备执行如权利要求1至13任一所述的方法。

15.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于实现如权利要求1至13任一所述的方法的指令。