CN108346433A

CN108346433A - 一种音频处理方法、装置、设备及可读存储介质

Info

Publication number: CN108346433A
Application number: CN201711466056.6A
Authority: CN
Inventors: 文仕学
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-07-31

Abstract

本发明实施例提供了一种音频处理方法、装置、设备及可读存储介质，该方法包括：获取麦克风采集到的语音时域信号，所述语音时域信号包含带时域信息的噪语音信号和目标用户的语音信号；依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；依据所述目标语音信号进行输出。本发明实施例能够提升语音增强的鲁棒性。

Description

一种音频处理方法、装置、设备及可读存储介质

技术领域

本发明涉及通信技术领域，特别是涉及一种音频处理方法、一种音频处理装置、一种设备和一种可读存储介质。

背景技术

随着通信技术的快速发展，诸如手机、平板电脑等终端越来越普及，给人们的生活、学习、工作带来了极大的便利。

这些终端通常可以通过麦克风收集语音信号，使用语音增强技术对收集到的语音信号进行处理，以降低噪声干扰的影响。具体的，麦克风收集到的语音信号通常夹杂着环境噪声等干扰语音信号，因此终端需要使用语音增强技术对收集到的语音信号进行处理。

目前，已有的基于深度学习的语音增强技术通常都是先提取语音的频域特征，即将输入的语音信号从时域变换到频域，确定出语音的频域特征，然后再使用深度学习方法对语音的频域特征进行降噪处理，得到增强后的语音信号，随后再将增强后的语音信号从频域变换回时域进行输出。

发明内容

本发明实施例所要解决的技术问题是提供一种音频处理方法，以提升语音增强的鲁棒性。

相应的，本发明实施例还提供了一种音频处理装置、一种设备以及一种可读存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种音频处理方法，包括：获取麦克风采集到的语音时域信号，所述语音时域信号包含带时域信息的噪语音信号和目标用户的语音信号；依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；依据所述目标语音信号进行输出。

可选地，所述依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号，包括：将所述语音时域信号输入到预先训练的语音增强模型；通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

可选地，所述通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号，包括：基于所述语音时域信号的时域波形，确定时域特征信息；通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

可选地，所述通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号，包括：依据所述时域特征信息，通过所述语音增强模型中的生成器对所述语音时域信号进行模拟，生成模拟语音时域信号；通过所述语音增强模型中的辨别器，判断所述模拟语音时域信号是否是符合预设的干净语音信号条件；若所述模拟语音时域信号不符合所述干净语音信号条件，则通过所述生成器对所述模拟语音时域信号重新进行模拟，直到生成的模拟语音时域信号符合预设的干净语音信号条件；将符合预设的干净语音信号条件的模拟语音时域信号，确定为所述目标用户对应的目标语音信号。

可选地，还包括：对预先设置的干净语音时域信号进行噪声加噪，生成对应的带噪语音时域信号；确定所述干净语音时域信号对应的时域特征信息；依据所述时域特征信息和所述带噪语音时域信号进行模型训练，生成所述语音增强模型，其中，所述语音增强模型包括：卷积神经网络模型或生成对抗网络模型。

可选地，依据所述目标语音信号进行输出，包括：依据所述目标语音信号进行语音输出；和/或者，对所述目标语音信号进行语音识别，生成识别结果；输出所述识别结果。

本发明实施例还公开了一种音频处理装置，包括：时域信号获取模块，用于获取麦克风采集到的语音时域信号，所述语音时域信号包含时域信息的带噪语音信号和目标用户的语音信号；时域信号处理模块，用于依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；输出模块，用于依据所述目标语音信号进行输出。

可选地，所述时域信号处理模块包括：输入子模块，用于将所述语音时域信号输入到预先训练的语音增强模型；降噪子模块，用于通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

可选地，降噪子模块包括：时域特征确定单元，用于基于所述语音时域信号的时域波形，确定时域特征信息；降噪处理单元，用于通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

可选地，所述降噪处理单元，具体可以用于依据所述时域特征信息，通过所述语音增强模型中的生成器对所述语音时域信号进行模拟，生成模拟语音时域信号；通过所述语音增强模型中的辨别器，判断所述模拟语音时域信号是否是符合预设的干净语音信号条件；若所述模拟语音时域信号不符合所述干净语音信号条件，则通过所述生成器对所述模拟语音时域信号重新进行模拟，直到生成的模拟语音时域信号符合预设的干净语音信号条件；以及，将符合预设的干净语音信号条件的模拟语音时域信号，确定为所述目标用户对应的目标语音信号。

可选地，还包括：噪声加噪模块，用于对预先设置的干净语音时域信号进行噪声加噪，生成对应的带噪语音时域信号；时域特征确定模块，用于确定所述干净语音时域信号对应的时域特征信息；模型训练模块，用于依据所述时域特征信息和所述带噪语音时域信号进行模型训练，生成所述语音增强模型，其中，所述语音增强模型包括：卷积神经网络模型或生成对抗网络模型。

可选地，所述输出模块包括：语音输出子模块，用于依据所述目标语音信号进行语音输出；和/或者，语音识别子模块，用于对所述目标语音信号进行语音识别，生成识别结果；输出所述识别结果。

本发明实施例还公开了一种设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取麦克风采集到的语音时域信号，所述语音时域信号包含时域信息的带噪语音信号和目标用户的语音信号；依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；依据所述目标语音信号进行输出。

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：对预先设置的干净语音时域信号进行噪声加噪，生成对应的带噪语音时域信号；确定所述干净语音时域信号对应的时域特征信息；依据所述时域特征信息和所述带噪语音时域信号进行模型训练，生成所述语音增强模型，其中，所述语音增强模型包括：卷积神经网络模型或生成对抗网络模型。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由设备的处理器执行时，使得设备能够执行本发明实施例中的一个或多个所述的音频处理方法。

本发明实施例包括以下优点：

首先，本发明实施例在获取到语音时域信号后，可以通过预先训练的语音增强模型度对该语音时域信号进行处理，不需要进行频域特征变换，从而能够解决现有语音增强技术中存在相位丢失的问题。

其次，本发明实施例不需使用原始带噪语音信号的相位信息对语音增强后的目标语音信号进行输出，因此能够提高语音增强后的语音听感质量，提升了语音增强的鲁棒性。

附图说明

图1是本发明的一种音频处理方法实施例的步骤流程图；

图2是本发明一个示例中的一种端到端的神经网络模型进行语音增强的示意图；

图3是本发明的一种音频处理方法可选实施例的步骤流程图；

图4是本发明一个示例中采集到的一种混合语音的示意图；

图5是本发明的一种音频处理装置实施例的结构框图；

图6是根据一示例性实施例示出的一种用于音频处理的设备的结构框图；

图7是本发明实施例中一种设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

目前，已有的语音增强技术在对语音信号进行加噪处理之前，通常是将原始语音信号从时域变换到频域中，然后在使用深度学习方法对语音信号的频域特征进行降噪处理，随后再将降噪处理后的语音信号从频域变换回时域，丢失了语音增强后的相位信息，需要使用原始带有噪声的语音信号的相位信息对增强后的语音信号进行输出，导致增强后的语音质量受到限制。

本发明实施例的核心构思之一在于，针对已有的语音曾强技术存在相位丢失等技术问题，提出了一种基于端到端(End to end)的语音增强方法，可以直接在时域上对语音信号进行降噪处理，不需要将语音信号变换到频域，从而能够避免相位信息丢失的问题，提高增强后的语音质量，进而提高语音增强的鲁棒性。

需要说明的是，端到端可以是指：与传统的语音增强方法相比，省略了频域特征提取的步骤，直接在时域上对语音信号进行语音增强。其中，语音增强可以是指：当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。

参照图1，示出了本发明的一种音频处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，获取麦克风采集到的语音时域信号，所述语音时域信号包含带时域信息的噪语音信号和目标用户的语音信号。

本发明实施例可以在语音输入过程中，使用麦克风进行语音采集，从而可以基于采集到的语音生成对应的语音时域信号。例如，在拾音阶段，可以通过至少一个麦克风进行语音采集，从而可以获取到一个或多个麦克风采集到的语音时域信号，该语音时域信号可以包含有时域信息的带噪语音信号和目标用户的语音信号等等。其中，目标用户的语音信号可以是指目标用户说话的干净语音对应的时域信号，如目标说话人语音对应的时域信号；带噪语音信号可以是噪声所对应的时域信号，如可以是其他说话人所说的干扰语音对应的时域信号等等，本发明实施例对此不作限制。

步骤104，依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号。

在本发明实施例中，可以将获取到的语音时域信号作为预先训练的语音增强模型的输入，随后可直接将该语音时域信号输入到预先训练的语音增强模型，以通该语音增强模型对获取到的语音时域信号进行语音增强，去除该语音时域信号中的噪声，得到语音增强后的时域信号。该语音增强后的时域信号可以仅包含有目标用户的干净语音的信号，因此可以将该语音增强后的时域信号确定为目标用户对应的目标语音信号。该目标语音信号可以用于表征目标用户的干净语音对应的时域信号，如可以是指目标说话人语音对应的干净语音信号等。

在一种可选实施方式中，在获取到语音时域信号后，可以将该语音时域信号输入到预先训练的语音增强模型中，然后可以通过语音增强模型对该语音时域信号进行降噪处理，得到降噪后的语音的时域信号。具体而言，通过语音增强模型对该语音时域信号进行降噪处理，可以将语音时域信号中所包含的带噪语音信号去除，同时可以保留该语音时域信号中所包含的目标用户的语音信号，以及可以将该目标用户的语音信号作为降噪后的语音的时域信号，随后可以将降噪后的语音的时域信号确定为目标用户对应的目标语音信号，以依据目标用户对应的目标语音信号进行输出。

步骤106，依据所述目标语音信号进行输出。

例如，可以依据该目标语音信号进行语音输出，以输出该用户所说的语音；又如，可以依据目标语音信号进行语音识别，以识别出该用户所说的语音，还可以将识别到的语音转换为文字信息，然后依据文字信息进行输出，如在设备的屏幕上展示文字、展示文字对应的搜索结果等等。

综上，本发明实施例在获取到语音时域信号后，可以通过预先训练的语音增强模型度对该语音时域信号进行处理，不需要进行频域特征变换，从而能够解决现有语音增强技术中存在相位丢失的问题。

本发明实施例不需使用原始带噪语音信号的相位信息对语音增强后的目标语音信号进行输出，因此能够提高语音增强后的语音听感质量，提升了语音增强的鲁棒性。

本发明实施例中，可选地，可以在语音增强模型的训练阶段，将语音的时域信号直接作为输入，而不使用语音变换后的频域特征作为输入，如将带噪语音的时域信号和/或干净语音的时域信号作为输入，送入到基于端到端的模型进行训练，随后可以将训练好的基于端到端的模型作为语音增强模型，以便后续处理中可以通过该语音增强模型进行语音增强，从而能够去除语音时域信号中的噪声，得到更加干净的目标语音信号。

在本发明一个可选实施例中，还可以包括：对预先设置的干净语音时域信号进行噪声加噪，生成对应的带噪语音时域信号；确定所述干净语音时域信号对应的时域特征信息；依据所述时域特征信息和所述带噪语音时域信号进行模型训练，生成所述语音增强模型。其中，所述语音增强模型可以包括：卷积神经网络模型或生成对抗网络模型。

本发明实施例中，带噪语音时域信号可用于表征经过噪声加噪后的带噪语音，即带有噪声。干净语音时域信号可以是指干净语音在时域上的信号，可以用于表征不包含噪声的干净语音。

在具体实现中，获取预先设置的一段干净语音的时域信号，即获取预先设置的干净语音时域信号，然后可以对该干净语音时域信号进行噪声加噪，以为干净语音添加噪声，生成对应的带噪语音时域信号；同时可以对该干净语音时域信号进行时域特征提取，确定该干净语音时域信号对应的时域特征信息，如可以将干净语音的时域信号波形作为时域特征信息等等，随后可以依据时域特征信息和带噪语音时域信号进行模型训练，生成语音增强模型，如生成卷积神经网络(Convolutional Neural Network，CNN)、生成对抗网络(Generative Adversarial Net，GAN)模型等，本发明实施例对此不作限制。

在一种可选实施方式中，可以使用基于端到端的神经网络作为建模工具，以通过神经网络对语音的时域信号进行模型训练，从而生成语音增强模型。可选地，建模的步骤可以包括训练和测试这两个阶段。在训练阶段，可以将带噪语音的时域信号和干净语音的时域信号作为输入，送入到基于端到端的神经网络模型中进行训练，从而得到训练好的增强模型。其中，输入的干净语音时域信号可以用于表征输入的干净语音，即没有噪声。在测试阶段，可以将待测试的带噪语音的时域信号直接作为输入，以通过训练阶段训练好的神经网络模型进行降噪处理，得到降噪后的语音的时域信号。当降噪后的语音的时域信号与预先设置的干净语音时域信号之间的误差在预设允许的误差范围内时，如在降噪后的语音的时域信号与预先设置的干净语音时域信号之间的误差小于预设的误差阈值时，可以将该降噪后的语音的时域信号确定为干净的语音的时域信号，以及可以将当前训练得到的神经网络模型确定为语音增强模型，以在应用阶段采用该语音增强模型进行语音增强，提示语音增强的鲁棒性。

需要说明的是，基于端到端的神经网络模型可以具有监督学习功能，可使用诸如后向传播算法等算法，自动学习到这种从输入带有噪声的带噪语音信号，到输出干净的语音信号之间的对应关系。

一个可选示例中，基于端到端的神经网络模型可以基于预设的监督学习功能，使用深度学习技术，自动学习从有噪声到没有噪声的对应关系。例如，如图2所示，在训练阶段，即在训练模型的时候，可以对输入的干净语音时域信号进行噪声加噪，即为输入的干净语音信号添加噪声语音信号，形成带噪语音时域信号，随后，可将添加了噪声的带噪语音时域信号输入到神经网络中进行模型训练，如基于输入的带噪语音时域信号进行神经网络的设计以及训练，得到训练好的神经网络模型。从而，在语音增强阶段，可以将获取到的混合信号，如麦克风采集到的带有噪声的语音时域信号Y[t]，输入到该神经网络模型中，以通过该神经网络模型对该混合信号进行降噪，自动去除混合信号中的噪声，输出目标用户对应的目标语音信号X[t]。

其中，神经网络模型可以基于学习到从输入的带有噪声的带噪语音时域信号到输出干净的语音信号之间的对应关系，自动去除噪声，从而输出降噪后的语音的时域信号。优选的，降噪后的语音的时域信号可仅包含目标用户的干净语音的信号。

在本发明的一个可选实施例中，所述依据所述时域特征信息和所述带噪语音时域信号进行模型训练，生成所述语音增强模型，可以包括：基于时域特征信息，采用所述带噪语音时域信号进行训练，生成语音模型；通过所述语音模型对所述带噪语音时域信号进行降噪处理，得到降噪语音信号；判断所述降噪后语音信号与干净语音时域信号之间的误差是否小于预设的误差阈值；若所述误差不小于所述误差阈值，则调整所述语音模型的参数，基于调整后的参数，采用所述带噪语音时域信号重新进行训练，以及采用训练生成的语音模型对所述带噪语音时域信号进行降噪处理，直到降噪处理后得到的降噪语音信号与所述干净语音时域信号之间的误差小于所述误差阈值；在所述误差小于所述误差阈值时，将训练生成的语音模型确定为所述语音增强模型。

在具体实现中，语音模型可以包括具有监督学习功能的神经网络模型。在训练阶段，神经网络模型可以通过监督学习，自动学习从有干扰的带噪语音到干净语音之间的映射关系。其中，干净语音可以是指无噪声的语音，如可以是目标说话人的语音。从而，可在神经网络模型的测试阶段，基于学习到的映射关系，从带噪语音中预测出干净语音，如在输入信号是带有环境中各种可能的噪声的带噪语音时域信号时，可以通过神经网络模型自动地去掉噪声，得到降噪语音信号。该降噪语音信号可以是表征神经网络模型当前预测出的干净语音对应的时域信号。若降噪语音信号与预先设置的干净语音时域信号之间的误差小于预设的误差阈值，则可以确定神经网络模型当前预测出的干净语音与预期输出的干净语音一致，进而可以将该神经网络模型确定为语音增强模型。若降噪语音信号与预先设置的干净语音时域信号之间的误差不小于预设的误差阈值，则可以确定神经网络模型当前预测出的干净语音与预期输出的干净语音不一致，然后可使用梯度下降法更新神经网络模型的参数，如使用梯度下降法修改CNN模型的网络模型参数，随后可采用更新后的参数对神经网络模型进行更新，以及采用更新后的神经网络模型重新对带噪语音时域信号进行降噪处理，使得降噪语音信号与预先设置的干净语音时域信号之间的误差越来越小，直到降噪语音信号与预先设置的干净语音时域信号之间的误差小于预设的误差阈值。

例如，在训练阶段中，可以向该CNN模型输入一句带噪语音，即将带噪语音时域信号的时域波形图输入到CNN模型中，以通过CNN模型对带噪语音时域信号进行降噪处理，输出一句干净语音的时域波形图。该干净语音的时域波形图可以用于表征CNN模型对带噪语音时域信号进行降噪处理后得到的降噪语音信号。随后，可获取输入的带噪语音对应预置的干净语音信号，将输出的降噪语音信号与预置的干净语音信号进行比较，如对降噪语音信号和预置的干净语音信号进行误差计算，并且可以梯度下降法更新CNN模型的网络参数，从而实现CNN模型的更新，以及可以采用更新后的CNN模型重新对带噪语音进行降噪处理，使得误差越来越小。当误差小于预置的误差阈值时，可以确定神经网络模型输出的降噪语音信号已经很接近干净语音信号，可以停止模型训练，并且可将当前训练得到的神经网络模型确定为语音增强模型。其中，误差阈值可以根据语音增强质量要求进行设置，本发明实施例对此不作限制。

参照图3，示出了本发明的一种音频处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤302，获取麦克风采集到的语音时域信号。

其中，语音时域信号可包含时域信息的带噪语音信号和目标用户的语音信号，如麦克风采集到的混合语音的时域信号。

步骤304，将所述语音时域信号输入到预先训练的语音增强模型。

步骤306，通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

在本发明实施例中，可以将语音时域信号的时域波形作为特征，将该语音时域信号送入到预先设置的语音增强模型进行降噪处理，以去除该语音时域信号中所包含的带噪语音信号，得到干净的语音信号，并且可以将该干净的语音信号作为目标用户对应的目标语音信号。

在一种可选实施例中，通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号，可以包括：基于所述语音时域信号的时域波形，确定时域特征信息；通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

例如，在GAN模型中，可以包含两个模型，其中一个模型可以称为生成式模型(Generative Model)，另一个模型可以称为判别式模型(Discriminative Model)。这两个模型可以像左右手互相博弈，即两个模型可以互相博弈，互相进步。在具体实现中，GAN可以通过学习，将服从某种分布Z的样本z映射为服从另外一种分布X的样本x，如可以将服从带噪语音的分布射为服从干净语音的分布。其中，生成式模型可以负责学习这种映射关系。

具体而言，生成式模型可以作为生成器(Generator，G)，其主要任务是从带噪语音到真实的干净语音之间的映射关系，从而可以生成与训练集相关的新样本，如可以利用输入的带噪语音生成干净语音。判别式模型(Discriminative Model)可以作为辨别器(Discriminator,D)，可以用于判断生成器生成的干净语音是否是符合要求的干净语音，如该辨别器可以是典型的二类分类器等等，本发明实施例对此不作限制。

需要说明的是，G并不是通过记住输入输出对来实现从带噪语音到干净语音的输出，而是将输入的带噪语音的分布特征映射到预先训练得到的或者预先定义的干净语音的分布特征，从而生成模拟干净语音信号。G可以通过与辨别器的对抗训练,学习到带噪语音与干净语音之间的映射关系。

在本发明的一个可选实施例中，通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号，可以包括：依据所述时域特征信息，通过所述语音增强模型中的生成器对所述语音时域信号进行模拟，生成模拟语音时域信号；随后，可通过所述语音增强模型中的辨别器，判断所述模拟语音时域信号是否是符合预设的干净语音信号条件。若所述模拟语音时域信号不符合所述干净语音信号条件，则通过所述生成器对所述模拟语音时域信号重新进行模拟，直到生成的模拟语音时域信号符合预设的干净语音信号条件。若模拟语音时域信号符合所述干净语音信号条件，则可以将符合预设的干净语音信号条件的模拟语音时域信号，确定为所述目标用户对应的目标语音信号。

以GAN模型为例，在训练阶段中，可以将一个或多个真实的干净语音输入到辨别器中，使得辨别器可以获取到一个或多个很多真实的干净语音。在辨别器获取到多个真实的干净语音后，如在辨别器获取到很多真实的干净语音后，可以基于获取到的多个真实的干净语音，学习到的真实的干净语音的概率分布，即可以确定出真实的干净语音的时域特征。

生成器可以基于干净语音的时域特征，对输入的带噪语音对应的语音时域信号进行模拟，生成模拟干净语音信号，然后将该模拟干净语音信号送给辨别器进行判断。辨别器可以基于学习到真实的干净语音的时域特征，判断该模拟干净语音信号是否符合预设的干净语音信号条件，以判断出该模拟干净语音信号是否是干净语音信号。若模拟干净语音信号不符合预设的干净语音信号条件，则可以确定该模拟干净语音信号包含有干扰噪声，不是干净语音的结果，如可以将该模拟干净语音信号判断为错误语音信号，然后可以调整生成器的网络参数，使得生成器可依据调整后的网络参数重新进行模拟，以再次生成新的模拟干净语音信号，直到生成的模拟干净语音信号符合预设的干净语音信号条件。若生成的模拟干净语音信号符合预设的干净语音信号条件，则生成的模拟干净语音信号可作为干净的目标语音信号进行输出。

具体的，生成器在辨别器将其生成的模拟干净语音信号判断为错误语音信号后，可以继续调整自己的网络参数，以依据调整后的网络参数对模拟干净语音信号进行下一次的模拟，生成新的模拟干净语音信号，随后可通过辨别器判断新的模拟干净语音信号是否符合预设的干净语音信号条件。当新模拟出的模拟干净语音信号符合预设的干净语音信号条件时，可以确定生成器当前新模拟出的模拟干净语音信号已经很像真实的干净语音，辨别器可将生成器当前新模拟出的模拟干净语音信号判断为干净语音信号，然后可以将该模拟干净语音信号作为目标用户对应的目标语音信号，执行步骤308。

步骤308，依据所述目标语音信号进行输出。

在一种可选实施方式中，依据所述目标语音信号进行输出，可以包括：依据所述目标语音信号进行语音输出。具体而言，本发明实施例可以应用在带噪环境中语音对话的产品中，如可以应用在语音通话场景中的电话手表，使得通话双方可以只听到其所关心的主说话人的纯净语音。例如，在家长使用电话手表给参加活动的孩子打电话，应用本发明实施例提供的音频处理方法，可以让家长只听到自己孩子的清晰声音，降低其他孩子说话的影响，即能够降低噪声干扰的影响。

当然，本发明实施例还可以应用在其他场景中，如可以应用在语音输入场景中，也可以应用在语音识别场景等等，本发明实施例对此不作限制。

在另一种可选实施方式中，依据所述目标语音信号进行输出，可以包括：对所述目标语音信号进行语音识别，生成识别结果；输出所述识别结果。

例如，在目标说话人的语音为图4中的第一个虚线框41中的句子“大家好，我叫李XX，很高兴认识大家。”；而噪声为鸟叫声，如图4中的第二个虚线框42中的“叽叽喳喳叽叽喳喳”。如图4所示，目标说话人说的语音和噪声(即鸟叫声)在时间轴上有大量的重合部分。在开始部分，由于没有鸟叫声，因而目标说话人所说的“大家”两个字还没有被干扰，因此这两个字可以听清；而目标说话人在后面说的“好，我叫李XX”部分被鸟叫声“叽叽喳喳”干扰，这就导致目标说话人说的“好，我叫李XX”可能听不清楚。此时，应用本发明实施例提供的音频处理方法，如使用基于端到端的语音增强模型，可去掉“叽叽喳喳”这句干扰语音，只留下目标语音即“大家好，我叫李XX，很高兴认识大家”，从而达到语音增强的目的。

随后，可采用语音增强后的目标语音信号进行语音识别，即采用目标说话人的纯净语音进行语音识别，以识别出该目标说话人所说的语音，如结合上述例子，可以采用语音增强模型输出的目标语音“大家好，我叫李XX，很高兴认识大家”进行语音识别，从而可以提升语音识别效果。然后，可以依据识别到的识别结果进行输出，如输出识别到的语音对应的文字“大家好，我叫李XX，很高兴认识大家”、“李XX”的个人相片等等。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明的一种音频处理装置实施例的结构框图，具体可以包括如下模块：

时域信号获取模块502，用于获取麦克风采集到的语音时域信号，所述语音时域信号包含时域信息的带噪语音信号和目标用户的语音信号；

时域信号处理模块504，用于依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；

输出模块506，用于依据所述目标语音信号进行输出。

在本发明的一个可选实施例中，所述时域信号处理模块504，可以包括如下子模块：

输入子模块，用于将所述语音时域信号输入到预先训练的语音增强模型；

降噪子模块，用于通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

在本发明实施例中，可选地，降噪子模块可以包括如下单元：

时域特征确定单元，用于基于所述语音时域信号的时域波形，确定时域特征信息；

降噪处理单元，用于通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

在本发明的一个可选实施例中，所述降噪处理单元，具体可以用于依据所述时域特征信息，通过所述语音增强模型中的生成器对所述语音时域信号进行模拟，生成模拟语音时域信号；通过所述语音增强模型中的辨别器，判断所述模拟语音时域信号是否是符合预设的干净语音信号条件；若所述模拟语音时域信号不符合所述干净语音信号条件，则通过所述生成器对所述模拟语音时域信号重新进行模拟，直到生成的模拟语音时域信号符合预设的干净语音信号条件；以及，将符合预设的干净语音信号条件的模拟语音时域信号，确定为所述目标用户对应的目标语音信号。

在本发明的一个可选实施例中，还包括如下模块：

噪声加噪模块，用于对预先设置的干净语音时域信号进行噪声加噪，生成对应的带噪语音时域信号；

时域特征确定模块，用于确定所述干净语音时域信号对应的时域特征信息；

模型训练模块，用于依据所述时域特征信息和所述带噪语音时域信号进行模型训练，生成所述语音增强模型，其中，所述语音增强模型包括：卷积神经网络模型或生成对抗网络模型。

在本发明的一个可选实施例中，模型训练模块可以包括如下子模块：

训练子模块，用于基于时域特征信息，采用所述带噪语音时域信号进行训练，生成语音模型；

降噪子模块，用于通过所述语音模型对所述带噪语音时域信号进行降噪处理，得到降噪语音信号；

判断子模块，用于判断所述降噪后语音信号与干净语音时域信号之间的误差是否小于预设的误差阈值；若所述误差不小于所述误差阈值时，则调整所述语音模型的参数，并触发所述训练子模块基于调整后的参数，采用所述带噪语音时域信号重新进行训练，以及触发所述降噪子模块采用训练生成的语音模型对所述带噪语音时域信号进行降噪处理，直到降噪处理后得到的降噪语音信号与所述干净语音时域信号之间的误差小于所述误差阈值；在所述误差小于所述误差阈值时，将训练生成的语音模型确定为所述语音增强模型。

在本发明的一个可选实施例中，所述输出模块506可以包括如下子模块：

语音输出子模块，用于依据所述目标语音信号进行语音输出；和/或，

语音识别子模块，用于对所述目标语音信号进行语音识别，生成识别结果；输出所述识别结果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图6是根据一示例性实施例示出的一种用于音频处理的设备600的结构框图。例如，设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理、服务器等。

参照图6，设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为设备600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为设备600的显示器和小键盘，传感器组件614还可以检测设备600或设备600一个组件的位置改变，用户与设备600接触的存在或不存在，设备600方位或加速/减速和设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于设备600和其他设备之间有线或无线方式的通信。设备600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由设备600的处理器620执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种音频处理方法，所述方法包括：获取麦克风采集到的语音时域信号，所述语音时域信号包含时域信息的带噪语音信号和目标用户的语音信号；依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；依据所述目标语音信号进行输出。

图7是本发明实施例中一种设备的结构示意图。该设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对设备中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在设备700上执行存储介质730中的一系列指令操作。

设备700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，一个或一个以上键盘756，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

在示例性实施例中，设备经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取麦克风采集到的语音时域信号，所述语音时域信号包含时域信息的带噪语音信号和目标用户的语音信号；依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；依据所述目标语音信号进行输出。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种音频处理方法和装置、一种设备，以及一种可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取麦克风采集到的语音时域信号，所述语音时域信号包含带时域信息的噪语音信号和目标用户的语音信号；

依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；

依据所述目标语音信号进行输出。

2.根据权利要求1所述的方法，其特征在于，所述依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号，包括：

将所述语音时域信号输入到预先训练的语音增强模型；

通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

3.根据权利要求2所述的方法，其特征在于，所述通过所述语音增强模型对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号，包括：

基于所述语音时域信号的时域波形，确定时域特征信息；

通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号。

4.根据权利要求3所述的方法，其特征在于，所述通过所述语音增强模型，依据所述时域特征信息对所述语音时域信号进行降噪处理，得到所述目标用户对应的目标语音信号，包括：

依据所述时域特征信息，通过所述语音增强模型中的生成器对所述语音时域信号进行模拟，生成模拟语音时域信号；

通过所述语音增强模型中的辨别器，判断所述模拟语音时域信号是否是符合预设的干净语音信号条件；

若所述模拟语音时域信号不符合所述干净语音信号条件，则通过所述生成器对所述模拟语音时域信号重新进行模拟，直到生成的模拟语音时域信号符合预设的干净语音信号条件；

将符合预设的干净语音信号条件的模拟语音时域信号，确定为所述目标用户对应的目标语音信号。

5.根据权利要求1至4任一所述的方法，其特征在于，还包括：

对预先设置的干净语音时域信号进行噪声加噪，生成对应的带噪语音时域信号；

确定所述干净语音时域信号对应的时域特征信息；

依据所述时域特征信息和所述带噪语音时域信号进行模型训练，生成所述语音增强模型，其中，所述语音增强模型包括：卷积神经网络模型或生成对抗网络模型。

6.根据权利要求1至4任一所述的方法，其特征在于，依据所述目标语音信号进行输出，包括：

依据所述目标语音信号进行语音输出；和/或者，

对所述目标语音信号进行语音识别，生成识别结果；输出所述识别结果。

7.一种音频处理装置，其特征在于，包括：

时域信号获取模块，用于获取麦克风采集到的语音时域信号，所述语音时域信号包含时域信息的带噪语音信号和目标用户的语音信号；

时域信号处理模块，用于依据预先训练的语音增强模型对所述语音时域信号进行处理，得到所述目标用户对应的目标语音信号；

输出模块，用于依据所述目标语音信号进行输出。

8.根据权利要求7所述的装置，其特征在于，所述时域信号处理模块包括：

9.一种设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取麦克风采集到的语音时域信号，所述语音时域信号包含时域信息的带噪语音信号和目标用户的语音信号；

依据所述目标语音信号进行输出。

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由设备的处理器执行时，使得设备能够执行如方法权利要求1-6中的一个或多个所述的音频处理方法。