CN110232909B

CN110232909B - 一种音频处理方法、装置、设备及可读存储介质

Info

Publication number: CN110232909B
Application number: CN201810175710.6A
Authority: CN
Inventors: 文仕学
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-03-02
Filing date: 2018-03-02
Publication date: 2024-07-23
Anticipated expiration: 2038-03-02
Also published as: CN110232909A

Abstract

本发明实施例提供了一种音频处理方法、装置、设备及可读存储介质，涉及通信技术领域，该方法包括：对获取到的文本数据进行语音合成，得到合成语音数据；为所述合成语音数据添加噪声数据，生成带噪语音数据；依据所述带噪语音数据进行模型训练，生成对应的语音增强模型。

Description

一种音频处理方法、装置、设备及可读存储介质

技术领域

本发明涉及通信技术领域，特别是涉及一种音频处理方法、一种音频处理装置、一种设备和一种可读存储介质。

背景技术

随着通信技术的快速发展，诸如手机、平板电脑等终端越来越普及，给人们的生活、学习、工作带来了极大的便利。

这些终端可以通过麦克风收集语音信号，使用语音增强技术对收集到的语音信号进行处理，以降低噪声干扰的影响。其中，语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。

具体而言，语音增强技术通常是基于深度学习的有监督语音增强性能的神经网络模型进行语增强。但是，传统语音增强方法在训练过程中，需要使用大量的真实语音作为训练数据。因此，传统语音增强方法需要收集大量真实语音，增加语音增强的成本。

发明内容

本发明实施例所要解决的技术问题是提供一种音频处理方法，以降低语音增强成本。

相应的，本发明实施例还提供了一种音频处理装置、一种设备以及一种可读存储介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种音频处理方法，包括：对获取到的文本数据进行语音合成，得到合成语音数据；为所述合成语音数据添加噪声数据，生成带噪语音数据；依据所述带噪语音数据进行模型训练，生成对应的语音增强模型。

可选地，为所述合成语音数据添加噪声数据，生成带噪语音数据，包括：针对所述合成语音数据，获取噪声数据，所述噪声数据包括：仿真噪声数据，和/或，收集噪声数据；采用所述噪声数据对所述合成语音数据进行加噪处理，生成带噪语音数据。

可选地，还包括：依据预设的噪声基生成仿真噪声数据，所述仿真噪声数据包括以下至少一种噪声类型：固定频率噪声类、高斯白噪声类、非高斯白噪声类、高斯色噪声类。

可选地，依据所述带噪语音数据进行模型训练，生成对应的语音增强模型，包括：确定所述合成语音数据对应的特征信息；采用所述带噪语音数据和所述特征信息进行模型训练，生成语音增强模型。

可选地，还包括：获取用户语音数据；为所述用户语音数据添加噪声数据，生成带噪语音数据。

可选地，依据所述带噪语音数据进行模型训练，包括：采用所述用户语音数据和所述带噪语音数据进行模型训练；和/或，采用所述合成语音数据和所述带噪语音数据进行模型训练。

可选地，还包括：对所述用户语音数据进行特征提取，确定用户语音特征。其中，采用所述用户语音数据和所述带噪语音数据进行模型训练，包括：针对所述用户语音特征，使用所述用户语音数据和所述带噪语音数据进行模型训练。

可选地，还包括：获取混合语音数据；通过所述语音增强模型对所述混合语音数据进行语音增强，得到目标语音数据；依据所述目标语音数据进行输出。

本发明实施例还公开了一种音频处理装置，包括：

语音合成模块，用于对获取到的文本数据进行语音合成，得到合成语音数据；

噪声添加模块，用于为所述合成语音数据添加噪声数据，生成带噪语音数据；

模型训练模块，用于依据所述带噪语音数据进行模型训练，生成对应的语音增强模型。

可选地，所述噪声添加模块包括：

噪声获取子模块，用于针对所述合成语音数据，获取噪声数据，所述噪声数据包括：仿真噪声数据，和/或，收集噪声数据；

加噪处理子模块，用于采用所述噪声数据对所述合成语音数据进行加噪处理，生成带噪语音数据。

可选地，还包括：仿真噪声生成模块。该仿真噪声生成模块，用于依据预设的噪声基生成仿真噪声数据，所述仿真噪声数据包括以下至少一种噪声类型：固定频率噪声类、高斯白噪声类、非高斯白噪声类、高斯色噪声类。

可选地，所述模型训练模块包括：特征确定子模块，用于确定所述合成语音数据对应的特征信息；语音增强模型生成子模块，用于采用所述带噪语音数据和所述特征信息进行模型训练，生成语音增强模型。

可选地，还包括：用户语音获取模块。该用户语音获取模块，用于获取用户语音数据。其中，所述噪声添加模块还用于为所述用户语音数据添加噪声数据，生成带噪语音数据。

可选地，所述模型训练模块包括：第一模型训练子模块，用于采用所述用户语音数据和所述带噪语音数据进行模型训练；和/或，第二模型训练子模块，用于采用所述合成语音数据和所述带噪语音数据进行模型训练。

可选地，还包括：特征提取模块。特征提取模块，用于对所述用户语音数据进行特征提取，确定用户语音特征。其中，所述第一模型训练子模块，具体用于针对所述用户语音特征，使用所述用户语音数据和所述带噪语音数据进行模型训练。

可选地，还包括：语音数据获取模块，用于获取混合语音数据；语音增强模块，用于通过所述语音增强模型对所述混合语音数据进行语音增强，得到所述目标用户对应的目标语音数据；输出模块，用于依据所述目标语音数据进行输出。

本发明实施例还公开了一种设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对获取到的文本数据进行语音合成，得到合成语音数据；为所述合成语音数据添加噪声数据，生成带噪语音数据；依据所述带噪语音数据进行模型训练，生成对应的语音增强模型。

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：依据预设的噪声基生成仿真噪声数据，所述仿真噪声数据包括以下至少一种噪声类型：固定频率噪声类、高斯白噪声类、非高斯白噪声类、高斯色噪声类。

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：获取用户语音数据；为所述用户语音数据添加噪声数据，生成带噪语音数据。

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：对所述用户语音数据进行特征提取，确定用户语音特征。其中，采用所述用户语音数据和所述带噪语音数据进行模型训练，包括：针对所述用户语音特征，使用所述用户语音数据和所述带噪语音数据进行模型训练。

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：获取混合语音数据；通过所述语音增强模型对所述混合语音数据进行语音增强，得到目标语音数据；依据所述目标语音数据进行输出。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由设备的处理器执行时，使得设备能够执行本发明实施例中的一个或多个所述的音频处理方法。

本发明实施例包括以下优点：

本发明实施例通过对获取到的文本数据进行语音合成，得到合成语音数据，随后可为该合成语音数据添加噪声数据，生成带噪语音数据，以依据生成的带噪语音数据进行模型训练，生成语音增强模型，即基于合成语音数据完成语音增强模型的训练，从而能够避免收集大量真实语音数据作为训练数据导致语音增强模型训练成本高的问题，降低了语音增强成本。

附图说明

图1是本发明的一种音频处理方法实施例的步骤流程图；

图2是本发明的一种音频处理方法可选实施例的步骤流程图；

图3是本发明的一个示例中采集到的一种混合语音的示意图；

图4是本发明的一种音频处理装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于音频处理的设备的结构框图；

图6是本发明实施例中服务器的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于，基于人工合成语音技术提出了一种新的音频处理方法，可以采用人工合成语音进行语音增强模型训练，从而降低语音增强成本，解决了收集大量真实语音导致语音增强成本高的问题。

参照图1，示出了本发明的一种音频处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，对获取到的文本数据进行语音合成，得到合成语音数据。

在语音增强模型的训练阶段，可以获取文本数据，以采用该获取到的文本数据进行语音合成，得到对应的合成语音数据，如可以文语转换(Text toSpeech)技术将获取的文本数据转换成对应的合成语音数据。该合成语音数据可以表征语音合成后的语音，如可以是人工合成语音。其中，获取到的文本数据可以是用户当前输入的文本数据，也可以是预先设置的文本数据等等，本发明实施例对此不作限制。

步骤104，为所述合成语音数据添加噪声数据，生成带噪语音数据。

本发明实施例中，可以将合成语音数据作为语音增强模型的训练数据，以使用该合成语音数据进行模型训练，降低语音增强模型的训练成本。具体的，可以基于合成语音数据进行噪声加噪，以为该合成语音数据添加噪声数据，生成噪声后的带噪语音数据。

例如，在得到合成语音数据后，可针对该合成语音数据获取噪声数据，随后可采用获取到的噪声数据对合成语音数据进行加噪处理，生成带噪语音数据。其中，噪声数据可以包括：仿真噪声数据和/或收集噪声数据等等，本发明实施例对此不作限制。需要说明的是，仿真噪声数据可以表征人工合成的噪声，收集噪声数据可以表征收集到的真实噪声。

步骤106，依据所述带噪语音数据进行模型训练，生成对应的语音增强模型。

在具体实现中，可以针对生成的带噪语音数据进行特征提取，确定该带噪语音数据对应的语音特征信息，以结合语音特征信息进行模型训练，生成语音增强模型。其中，语音特征信息可以包括：时域特征信息和/或频域特征信息，本发明实施例对此不作限制。需要说明的是，时域特征信息可以用于表征语音的时域特征，频域特征信息可以用于表征语音的频域特征。

综上，本发明实施例通过对获取到的文本数据进行语音合成，得到合成语音数据，随后可为该合成语音数据添加噪声数据，生成带噪语音数据，以依据生成的带噪语音数据进行模型训练，生成语音增强模型，即基于合成语音数据完成语音增强模型的训练，从而能够避免收集大量真实语音数据作为训练数据导致语音增强模型训练成本高的问题，降低了语音增强成本。

参照图2，示出了本发明的一种音频处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤202，对获取到的文本数据进行语音合成，得到合成语音数据。

在具体实现中，可以利用预设规则对获取到的文本数据进行语音合成，生成与真实语音的频谱特性相关的合成语音数据，以采用生成的合成语音数据作为语音增强模型的训练数据，以降低语音增强模型的训练成本。例如，可以采用诸如参数合成、波形拼接等语音合成方法，将获取到的文本数据转换为对应的合成语音数据。

步骤204，针对所述合成语音数据，获取噪声数据，所述噪声数据包括：仿真噪声数据，和/或，收集噪声数据。

本发明实施例在得到合成语音数据后，可针对该合成语音数据获取收集噪声数据和/或仿真语音数据，以基于获取到的噪声数据对该合成语音数据进行加噪处理。其中，收集噪声数据可以包括预先收集的真实噪声数据，如在人群中录制的噪声数据；仿真噪声数据可以包括：按照预设规则生成的人工合成噪声，如使用频域滤波生成法生成的人工噪声。

在本发明的一个可选实施例中，该音频处理方法还可以包括：依据预设的噪声基生成仿真噪声数据，所述仿真噪声数据包括以下至少一种噪声类型：固定频率噪声类、高斯白噪声类、非高斯白噪声类、高斯色噪声类。具体而言，本发明实施例可以利用预设规则生成大量的、与真实噪声的频谱特性相关的一种或多种类型的仿真噪声数据，以采用生成的仿真噪声数据进行加噪处理，进一步降低语音增强成本，能够避免收集大量真实的噪声数据导致语音增强模型训练成本高的问题。其中，固定频率噪声类的仿真噪声数据可以用于表征拥有特定频率特征的噪声，如电话拨号噪声、警报噪声等。高斯白噪声类的仿真噪声数据可以用于表征在时域上服从高斯分布、在整个频谱上服从均匀分布的高斯白噪声。高斯色噪声类的仿真噪声数据可以用于表征在时域上服从高斯分布、而在整个频谱上不服从均匀分布的高斯色噪声，如高斯粉红噪声、高斯褐噪声等。非高斯白噪声类的仿真噪声数据可以用于表征在时域上不同于高斯分布，而服从其他分布的白噪声。

在一种可选实施方式中，可预先针对真实噪声类型，构造一套完备的具有表征性和区分性的噪声基，以便后续可采用这些预先构造的噪声基生成仿真噪声数据。例如，可基于噪声的随机性和频率响应特性，预先构造四种类型的噪声基，分别为：第一噪声基NB1，第二噪声基NB2，第三噪声基NB3和第四噪声基NB4。其中，第一噪声基NB1可以是使用确定性信号构造的，可以包括确定性单频信号和确定性宽信号，可以用于构造在真实声学环境下拥有特定频率特征的噪声；第二噪声基NB2可以是使用高斯白噪声及其子带构造的；第三噪声基NB3可以是使用高斯色噪声及其子带构造的；第四噪声基NB4可以是使用在时域上不同于高斯分布，而服从其他分布的白噪声构造的。在合成噪声的过程中，可以采用一种或多种噪声基进行合成，从而可以得到合成后的仿真噪声数据。

步骤206，采用所述噪声数据对所述合成语音数据进行加噪处理，生成带噪语音数据。

本发明实施例可基于预先收集的真实噪声数据和/或预先合成的仿真噪声数据对该合成语音数据进行加噪处理，以依据加噪处理后生成的带噪语音数据进行模型训练。具体的，在没有收集到真实噪声的情况下，可以使用仿真噪声数据对该合成语音数据进行加噪处理，以依据加噪处理后生成的带噪语音数据进行模型训练。当然，在收集到真实噪声的情况下，也可以使用收集到的真实噪声对合成语音数据进行加噪处理，如可以使用获取到的收集噪声数据对合成语音数据进行加噪处理；又如可以使用部分收集到的真实噪声以及合成的仿真噪声数据，对合成语音数据进行加噪处理，等等，本发明实施例对此不作具体限制。

步骤208，依据所述带噪语音数据进行模型训练，生成对应的语音增强模型。

本发明实施例在生成合成语音数据对应的带噪语音数据后，可基于该带噪语音数据和其对应的语音特征信息进行模型训练，从而可以训练得到语音增强模型。该语音增强模型可以用于对输入的混合语音数据进行语音增强，如可以对输入的混合语音数据进行降噪处理，以将混合语音数据中所包含的噪声去除，同时可以保留该语音数据中所包含的用户的干净语音数据，随后可将保留的干净语音数据作为目标语音数据，并依据该目标语音数据进行输出。

在具体实现中，可以使用语音时域信号的数据进行模型训练，以生成基于端到端的语音增强模型，以便后续可以使用该语音增强模型在时域上对获取到的混合语音数据进行语音增强，即不需要进行频域变换，可规避频域特征变换所导致的语音信号相位丢失的问题，且不需要使用原始的混合语音数据对应的相位信息对语音增强后的目标语音数据进行输出，从而提高音增强后的语音听感质量，提升了语音增强的鲁棒性。需要说明的是，端到端可以是指：与传统的语音增强方法相比，省略了频域特征提取的步骤，直接在时域上对语音信号进行语音增强。

在本发明的一种可选实施例中，合成语音数据可以表征人工合成语音在时域上的数据，如可以是合成的干净语音时域信号对应的数据。上述依据所述带噪语音数据进行模型训练，生成对应的语音增强模型，可以包括：确定所述合成语音数据对应的特征信息；采用所述带噪语音数据和所述特征信息进行模型训练，生成语音增强模型。具体而言，在得到合成语音数据后，可对合成语音数据进行特征提取，确定该合成语音数据对应的特征信息，如可以将合成语音数据的时域信号波形作为时域特征信息；又如可以基于合成语音数据的频域信号进行频域特征提取，确定频域域特征信息等等。随后，可以依据特征信息和带噪语音数据进行模型训练，生成语音增强模型，如生成卷积神经网络(Convolutional NeuralNetwork，CNN)、生成对抗网络(Generative Adversarial Net，GAN)模型等，本发明实施例对此不作限制。

在具体实现中，本发明实施例还可以使用部分真实的用户语音和合成语音数据进行模型训练，从而解决现有技术只使用真实的用户语音和真实噪声进行模型训练所存在的局限性问题。可选地，还可以包括：获取用户语音数据；为所述用户语音数据添加噪声数据，生成带噪语音数据。

具体的，在用户讲话的过程中，可以使用麦克风进行语音采集，以基于采集到的语音生成对应的语音数据，如在拾音阶段，可以通过一个或多个麦克风进行语音采集，以基于采集到的语音生成对应的语音数据。在模型训练之前，可以对麦克风采集到的语音数据进行初步处理，以从该语音数据中提取出尽量干净的用户语音数据进行模型训练。例如，在获取到麦克风所采集的语音数据后，可以对该麦克风采集到的语音数据进行处理，形成干净的用户语音数据，随后，可为该干净的用户语音数据添加噪声数据，生成对应的带噪语音数据，以及可以采用该带噪语音数据和干净的用户语音数据进行模型训练。其中，干净的用户语音数据可以为依据预设的波束形成算法生成的指向性语音信号的数据。该指向性语音信号的波束主要指向用户的干净语音，可以用于对干扰语音进行屏蔽，从而降低干扰语音的影响。

在本发明的一个可选实施例中，依据所述带噪语音数据进行模型训练，可以包括：采用所述用户语音数据和所述带噪语音数据进行模型训练；和/或，采用所述合成语音数据和所述带噪语音数据进行模型训练。

具体的，可以针对用户语音数据获取仿真噪声数据和/或收集语音数据，以使用获取到的仿真噪声数据和/或收集语音数据对干净的用户语音数据进行加噪处理，生成对应的带噪语音数据。该带噪语音数据包含有添加的噪声数据和用户语音数据等。随后，可以采用该带噪语音数据以及干净的用户语音数据进行训练，生成对应的语音增强模型。

同理，生成合成语音数据对应的带噪语音数据后，也可以采用该合成语音数据和其对应的带噪语音数据进行模型训练。例如，在获取到有合成语音数据和干净的用户语音数据的情况下，在生成合成语音数据对应的带噪语音数据和干净的用户语音数据对应的带噪语音数据后，可以同时采用合成语音数据和其对应的带噪语音数据，以及，干净的用户语音数据和该用户语音数据对应的带噪语音数据，进行模型训练。

本发明实施例在模型训练阶段，可以使用预设的深度学习算法学习用户的语音特征；以及可以结合声纹技术，采用用户的语音特征对应的语音进行训练，得到一个针对该用户训练的语音增强模型，即训练得到用户的语音特征对应的语音增强模型。可选地，该音频处理方法还可以包括：对用户语音数据进行特征提取，确定用户语音特征。其中，采用所述用户语音数据和所述带噪语音数据进行模型训练，包括：针对所述用语音特征，使用所述用户语音数据和所述带噪语音数据进行模型训练。

在具体实现中，可以对干净的用户语音数据进行噪声加噪，以为该干净的用户语音数据添加噪声数据，然后可以基于加噪处理后的带噪语音数据进行特征提取，确定用户语音特征。该用户语音特征可以是用户语音的频域特征，也可以是用户语音的时域特征，本发明实施例对此不作限制。随后，可结合用户语音特征，采用干净的用户语音数据和其对应的带噪语音数据进行训练，同时可以采用合成语音数据以及合成语音数据对应的带噪语音数据进行训练，得到该用户语音特征对应的神经网络模型，并且可以将该神经网络模型作为针对该用户训练的语音增强模型。可见，本发明实施例可在模型训练过程中添加用户的语音特征，以结合用户的语音特征生成该用户对应的语音增强模型，提高语音增强质量。

在本发明的一个可选实施例中，该音频处理方法还可以包括：获取混合语音数据；通过所述语音增强模型对所述混合语音数据进行语音增强，得到目标语音数据；依据所述目标语音数据进行输出。具体的，在语音输入过程中，可以使用麦克风进行语音采集，以基于采集到的语音生成用户对应的混合语音数据。

例如，在目标用户讲话的过程中，可通过一个或多个麦克风进行语音采集，从而可以获取到一个或多个麦克风采集到的混合语音数据，该混合语音数据可以包含有真实的噪声数据和真实的用户语音数据等等。其中，用户语音数据可以表征用户说话的干净语音，如说话人语音对应的时域信号；噪声数据可以是噪声所对应的时域信号，如可以是其他干扰语音对应的时域信号、麦克风产生的噪声等等，本发明实施例对此不作限制。

在一种可选实施方式中，可以将获取到的混合语音数据作为语音增强模型的输入，即可直接将获取到混合语音数据输入到预先训练的语音增强模型，不需要进行频域变换就可以通过该语音增强模型对获取到的混合语音数据进行语音增强，去除该混合语音数据中的噪声，得到语音增强后的语音数据。

可选地，在获取到混合语音数据之后，可以对该混合语音数据进行初步分离，以从该混合语音数据中提取出尽量干净的用户语音，去除其他干扰语音。例如，在获取到麦克风所采集的语音数据后，可以依据预设的波束形成算法对该麦克风采集到的语音数据进行处理，以降低干扰语音的能量，形成比较干净的语音数据，从而降低了干扰语音的影响。随后，可依据预先训练的语音增强模型对该比较干净的语音数据进行语音增强，以进一步去除干扰语音，得到语音增强后的语音数据。其中，麦克风采集到的语音数据可以为混合语音数据，具体可以包括干净的用户语音数据和干扰语音数据等等。

本发明实施例中，语音增强后的语音数据可以仅包含有干净的用户语音数据，因此可以将该语音增强后的语音数据确定为目标语音数据。目标语音数据可以是用户的干净语音对应的时域信号，可以用于表征说话人语音对应的干净语音信号等。本发明实施例可依据得到的目标语音数据进行输出，如依据该目标语音信号进行语音输出，以输出该用户所说的语音；又如，可以依据目标语音信号进行语音识别，以识别出该用户所说的语音，还可以将识别到的语音转换为文字信息，然后依据文字信息进行输出，如在设备的屏幕上展示文字、展示文字对应的搜索结果等等。

在一种可选实施方式中，依据所述目标语音数据进行输出，可以包括：依据所述目标语音数据进行语音输出。具体而言，本发明实施例可以应用在带噪环境中语音对话的产品中，如可以应用在语音通话场景中的电话手表，使得通话双方可以只听到其所关心的目标说话人的纯净语音。例如，在家长使用电话手表给参加活动的孩子打电话，应用本发明实施例提供的音频处理方法，可以让家长只听到自己孩子的清晰声音，降低噪声干扰的影响。

当然，本发明实施例还可以应用在其他场景中，如可以应用在语音输入场景中，也可以应用在语音识别场景等等，本发明实施例对此不作限制。

在另一种可选实施方式中，依据所述目标语音数据进行输出，可以包括：对所述目标语音数据进行语音识别，生成识别结果；输出所述识别结果。

例如，在目标说话人的语音为图3中的第一个虚线框31中的句子“大家好，我叫李XX，很高兴认识大家。”；而噪声为鸟叫声，如图3中的第二个虚线框32中的“叽叽喳喳叽叽喳喳”。如图3所示，目标说话人说的语音和噪声(即鸟叫声)在时间轴上有大量的重合部分。在开始部分，由于没有鸟叫声，因而目标说话人所说的“大家”两个字还没有被干扰，因此这两个字可以听清；而目标说话人在后面说的“好，我叫李XX”部分被鸟叫声“叽叽喳喳”干扰，这就导致目标说话人说的“好，我叫李XX”可能听不清楚。此时，应用本发明实施例提供的音频处理方法，如通过语音增强模型可去掉“叽叽喳喳”这句干扰语音，只留下目标语音即“大家好，我叫李XX，很高兴认识大家”，从而达到语音增强的目的。

随后，可采用语音增强后的目标语音数据进行语音识别，即采用目标说话人的纯净语音进行语音识别，以识别出该目标说话人所说的语音，如结合上述例子，可以采用语音增强模型输出的目标语音“大家好，我叫李XX，很高兴认识大家”进行语音识别，从而可以提升语音识别效果。然后，可以依据识别到的识别结果进行输出，如输出识别到的语音对应的文字“大家好，我叫李XX，很高兴认识大家”、“李XX”的个人相片等等。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种音频处理装置实施例的结构框图，具体可以包括如下模块：

语音合成模块410，用于对获取到的文本数据进行语音合成，得到合成语音数据；

噪声添加模块420，用于为所述合成语音数据添加噪声数据，生成带噪语音数据；

模型训练模块430，用于依据所述带噪语音数据进行模型训练，生成对应的语音增强模型。

在本发明的一个可选实施例中，所述噪声添加模块420，可以包括如下子模块：

在本发明实施例中，可选地，该音频处理装置还可以包括仿真噪声生成模块。该仿真噪声生成模块，用于依据预设的噪声基生成仿真噪声数据，所述仿真噪声数据包括以下至少一种噪声类型：固定频率噪声类、高斯白噪声类、非高斯白噪声类、高斯色噪声类。

在本发明的一个可选实施例中，所述模型训练模块430可以包括如下子模块：

特征确定子模块，用于确定所述合成语音数据对应的特征信息；

语音增强模型生成子模块，用于采用所述带噪语音数据和所述特征信息进行模型训练，生成语音增强模型。

在本发明的一个可选实施例中，还包括：用户语音获取模块。该用户语音获取模块，用于获取用户语音数据。其中，所述噪声添加模块420还用于为所述用户语音数据添加噪声数据，生成带噪语音数据。

第一模型训练子模块，用于采用所述用户语音数据和所述带噪语音数据进行模型训练；和/或，

第二模型训练子模块，用于采用所述合成语音数据和所述带噪语音数据进行模型训练。

在本发明的一个可选实施例中，音频处理装置还可以包括：特征提取模块。特征提取模块，用于对所述用户语音数据进行特征提取，确定用户语音特征。其中，所述第一模型训练子模块，具体用于针对所述用户语音特征，使用所述用户语音数据和所述带噪语音数据进行模型训练。

在本发明的一个可选实施例中，音频处理装置还可以包括如下模块：

语音数据获取模块，用于获取混合语音数据；

语音增强模块，用于通过所述语音增强模型对所述混合语音数据进行语音增强，得到所述目标用户对应的目标语音数据；

输出模块，用于依据所述目标语音数据进行输出。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图5是根据一示例性实施例示出的一种用于音频处理的设备500的结构框图。例如，设备500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理、服务器等。

参照图5，设备500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为设备500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为设备500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为设备500的显示器和小键盘，传感器组件514还可以检测设备500或设备500一个组件的位置改变，用户与设备500接触的存在或不存在，设备500方位或加速/减速和设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于设备500和其他设备之间有线或无线方式的通信。设备500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由设备500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种音频处理方法，所述方法包括：对获取到的文本数据进行语音合成，得到合成语音数据；为所述合成语音数据添加噪声数据，生成带噪语音数据；依据所述带噪语音数据进行模型训练，生成对应的语音增强模型。

图6是本发明实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种音频处理方法和装置、一种设备，以及一种可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

对获取到的文本数据进行语音合成，得到合成语音数据；

为所述合成语音数据添加噪声数据，生成带噪语音数据；

依据所述带噪语音数据进行模型训练，生成对应的语音增强模型；

所述依据所述带噪语音数据进行模型训练，生成对应的语音增强模型，包括：

确定所述合成语音数据对应的特征信息；其中，所述特征信息包含时域特征信息；

采用所述带噪语音数据和所述特征信息进行模型训练，生成基于端到端的语音增强模型；其中，所述端到端的语音增强模型仅在时域上对语音信号进行语音增强；

针对所述合成语音数据，获取噪声数据，所述噪声数据包括：仿真噪声数据，和/或，收集噪声数据；

依据预设的噪声基生成仿真噪声数据，所述仿真噪声数据包括以下至少一种噪声类型：固定频率噪声类、高斯白噪声类、非高斯白噪声类、高斯色噪声类；其中，固定频率噪声类用于构造在真实声学环境下拥有特定频率特征的噪声，高斯白噪声类使用高斯白噪声及其子带构造；非高斯白噪声类使用在时域上服从其他分布的白噪声构造，高斯色噪声类使用高斯色噪声及其子带构造；

采用所述噪声数据对所述合成语音数据进行加噪处理，生成带噪语音数据；

获取用户语音数据；

为所述用户语音数据添加噪声数据，生成带噪语音数据；

依据所述带噪语音数据进行模型训练，包括：

采用所述用户语音数据和所述带噪语音数据进行模型训练；和/或，

采用所述合成语音数据和所述带噪语音数据进行模型训练。

2.根据权利要求1所述的方法，其特征在于，还包括：

对所述用户语音数据进行特征提取，确定用户语音特征；

其中，采用所述用户语音数据和所述带噪语音数据进行模型训练，包括：针对所述用户语音特征，使用所述用户语音数据和所述带噪语音数据进行模型训练。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取混合语音数据；

通过所述语音增强模型对所述混合语音数据进行语音增强，得到目标语音数据；

依据所述目标语音数据进行输出。

4.一种音频处理装置，其特征在于，包括：

模型训练模块，用于依据所述带噪语音数据进行模型训练，生成对应的语音增强模型；

所述模型训练模块包括：

特征确定子模块，用于确定所述合成语音数据对应的特征信息；其中，所述特征信息包含时域特征信息；

语音增强模型生成子模块，用于采用所述带噪语音数据和所述特征信息进行模型训练，生成基于端到端的语音增强模型；其中，所述端到端的语音增强模型仅在时域上对语音信号进行语音增强；

仿真噪声生成模块，用于依据预设的噪声基生成仿真噪声数据，所述仿真噪声数据包括以下至少一种噪声类型：固定频率噪声类、高斯白噪声类、非高斯白噪声类、高斯色噪声类；其中，固定频率噪声类用于构造在真实声学环境下拥有特定频率特征的噪声，高斯白噪声类使用高斯白噪声及其子带构造；非高斯白噪声类使用在时域上服从其他分布的白噪声构造，高斯色噪声类使用高斯色噪声及其子带构造；

加噪处理子模块，用于采用所述噪声数据对所述合成语音数据进行加噪处理，生成带噪语音数据；

用户语音获取模块，用于获取用户语音数据；

其中，所述噪声添加模块还用于为所述用户语音数据添加噪声数据，生成带噪语音数据；

所述模型训练模块包括：

5.根据权利要求4所述的音频处理装置，其特征在于，所述音频处理装置包括：

特征提取模块，用于对所述用户语音数据进行特征提取，确定用户语音特征；

其中，所述第一模型训练子模块，具体用于针对所述用户语音特征，使用所述用户语音数据和所述带噪语音数据进行模型训练。

6.根据权利要求4所述的音频处理装置，其特征在于，所述装置还包括：

语音数据获取模块，用于获取混合语音数据；

语音增强模块，用于通过所述语音增强模型对所述混合语音数据进行语音增强，得到目标用户对应的目标语音数据；

输出模块，用于依据所述目标语音数据进行输出。

7.一种设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对获取到的文本数据进行语音合成，得到合成语音数据；

为所述合成语音数据添加噪声数据，生成带噪语音数据；

依据所述带噪语音数据进行模型训练，生成对应的语音增强模型，包括：