CN111916105A

CN111916105A - 语音信号处理方法、装置、电子设备及存储介质

Info

Publication number: CN111916105A
Application number: CN202010682351.0A
Authority: CN
Inventors: 王超; 陈孝良; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-11-10
Anticipated expiration: 2040-07-15
Also published as: CN111916105B

Abstract

本公开提供了一种语音信号处理方法、装置、电子设备及存储介质，属于信号处理技术领域。方法包括：响应于对第一语音信号进行目标操作，对第一类型的第一语音信号进行频谱处理，得到第一语音信号对应的语谱图；调用目标音频转换模型，目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的；根据语谱图，通过目标音频转换模型，将第一语音信号转换为第二类型的第二语音信号；对第二语音信号执行目标操作。通过上述方法，使待处理的语音信号可以符合目标操作要求的语音信号，从而简化了语音信号的处理流程，提高了语音信号处理的效率。

Description

语音信号处理方法、装置、电子设备及存储介质

技术领域

本公开涉及信号处理技术领域，特别涉及一种语音信号处理方法、装置、电子设备及存储介质。

背景技术

随着信号处理技术的发展，通过对语音信号进行处理来获取信息已经成为重要的信息获取方式。其中，语音识别成为了一种重要的语音信号处理方式。

在相关技术中，电子设备进行语音识别时，常通过语音识别模型对语音信号进行识别。其中，语音识别模型为根据目标类型的语音信号进行训练得到的语音识别模型，在进行语音识别时，通常需要通过语音识别模型识别相应目标类型的语音信号。例如，在对语音信号进行识别时，当该语音信号为近场类型的语音信号时，调用识别近场语音信号的语音识别模型；当该语音信号为远场类型的语音信号时，调用识别远场语音信号的语音识别模型。

上述相关技术中，语音识别模型为根据目标类型的语音信号进行训练得到的语音识别模型。因此，在进行语音识别的过程中，只能对目标类型的语音信号进行语音识别，当待识别的语音信号的类型为其他类型时，需要再次训练其他类型对应的语音识别模型，工作量大，操作繁琐，导致语音信号处理的效率低。

发明内容

本公开实施例提供了一种语音信号处理方法、装置、电子设备及存储介质，能够提高语音信号处理的效率。所述技术方案如下：

一方面，提供了一种语音信号处理方法，所述方法包括：

响应于对第一语音信号进行目标操作，对所述第一语音信号进行频谱处理，得到所述第一语音信号对应的语谱图，所述第一语音信号为第一类型的语音信号；

调用目标音频转换模型，所述目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的，所述第一音频转换模型用于将所述第一类型的语音信号转换为所述第二类型的语音信号，所述第二音频转换模型用于将所述第二类型的语音信号转换为所述第一类型的语音信号；

根据所述语谱图，通过所述目标音频转换模型，将所述第一语音信号转换为所述第二类型的第二语音信号；

对所述第二语音信号执行所述目标操作。

在一种可能的实现方式中，所述目标操作为训练所述第一类型对应的第一语音识别模型；

所述对所述第二语音信号执行所述目标操作，包括：

根据所述第一语音信号和所述第二语音信号进行模型泛化训练，得到所述第一语音识别模型。

在另一种可能的实现方式中，所述目标操作为语音识别；

所述对所述第二语音信号执行所述目标操作，包括：

调用所述第二类型对应的第二语音识别模型，对所述第二语音信号进行语音识别，得到语音识别结果；

将所述语音识别结果作为所述第一语音信号的语音识别结果。

在另一种可能的实现方式中，所述对所述第一语音信号进行频谱处理，得到所述第一语音信号对应的语谱图，包括：

对所述第一语音信号进行分帧处理，得到第三语音信号；

对所述第三语音信号进行傅里叶变换，确定所述第三语音信号对应的频率点；

根据所述频率点，生成所述第一语音信号对应的语谱图。

在另一种可能的实现方式中，所述对所述第三语音信号进行傅里叶变换，确定所述第三语音信号对应的频率点，包括：

对所述第三语音信号进行傅里叶变换，得到所述第三语音信号对应的频率特征点；

从所述第三语音信号对应的频率特征点中选择目标频率特征点；

对所述目标频率特征点的幅值进行频谱运算，得到所述第三语音信号对应的频率点。

在另一种可能的实现方式中，所述调用目标音频转换模型之前，所述方法还包括：

获取第一样本语音信号，所述第一样本语音信号为所述第一类型的语音信号；调用所述第一音频转换模型，将所述第一样本语音信号转换为所述第二类型的第二样本语音信号，调用所述第二音频转换模型，将所述第二样本语音信号转换为所述第一类型的第三样本语音信号；

获取第四样本语音信号，所述第四样本语音信号为所述第二类型的语音信号；调用所述第二音频转换模型，将所述第四样本语音信号转换为所述第一类型的第五样本语音信号，调用所述第一音频转换模型，将所述第五样本语音信号转换为所述第二类型的第六样本语音信号；

根据所述第一样本语音信号和所述第三样本语音信号，以及，所述第四样本语音信号和所述第六样本语音信号，进行模型训练，得到所述目标音频转换模型。

在另一种可能的实现方式中，所述根据所述第一样本语音信号和所述第三样本语音信号，以及，所述第四样本语音信号和所述第六样本语音信号，进行模型训练，得到所述目标音频转换模型，包括：

根据所述第一样本语音信号、所述第三样本语音信号和第一转换损失函数，确定所述第一音频转换模型的第一转换损失值；

根据所述第四样本语音信号、所述第六样本语音信号和第二转换损失函数，确定所述第二音频转换模型的第二转换损失值；

根据用于训练所述目标音频转换模型的损失函数，确定所述目标音频转换模型的模型损失值；

根据所述第一转换损失值、所述第二转换损失值和所述模型损失值，确定目标损失值；

根据所述目标损失值，进行模型训练，得到所述目标音频转换模型。

在另一种可能的实现方式中，所述根据所述第一转换损失值、所述第二转换损失值和所述模型损失值，确定目标损失值，包括：

将所述第一转换损失值、所述第二转换损失值和所述模型损失值进行加权求和，得到所述目标损失值。

在另一种可能的实现方式中，所述根据所述第一样本语音信号、所述第三样本语音信号和转换损失函数，确定所述第一音频转换模型的第一转换损失值，包括：

确定所述第一样本语音信号和所述第三样本语音信号之间的转换差值；

将所述转换差值带入所述第一音频转换模型的转换损失函数中，得到所述第一转换损失值。

另一方面，提供了一种语音信号处理装置，所述装置包括：

频谱处理模块，被配置为响应于对第一语音信号进行目标操作，对所述第一语音信号进行频谱处理，得到所述第一语音信号对应的语谱图，所述第一语音信号为第一类型的语音信号；

模型调用模块，被配置为调用目标音频转换模型，所述目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的，所述第一音频转换模型用于将所述第一类型的语音信号转换为所述第二类型的语音信号，所述第二音频转换模型用于将所述第二类型的语音信号转换为所述第一类型的语音信号；

语音转换模块，被配置为根据所述语谱图，通过所述目标音频转换模型，将所述第一语音信号转换为所述第二类型的第二语音信号；

操作执行模块，被配置为对所述第二语音信号执行所述目标操作。

所述操作执行模块包括：

泛化训练单元，被配置为根据所述第一语音信号和所述第二语音信号进行模型泛化训练，得到所述第一语音识别模型。

在另一种可能的实现方式中，所述目标操作为语音识别；

所述操作执行模块包括：

语音识别单元，被配置为调用所述第二类型对应的第二语音识别模型，对所述第二语音信号进行语音识别，得到语音识别结果；将所述语音识别结果作为所述第一语音信号的语音识别结果。

在另一种可能的实现方式中，所述频谱处理模块包括：

分频处理单元，被配置为对所述第一语音信号进行分帧处理，得到第三语音信号；

傅里叶变换单元，被配置为对所述第三语音信号进行傅里叶变换，确定所述第三语音信号对应的频率点；

语谱图生成单元，被配置为根据所述频率点，生成所述第一语音信号对应的语谱图。

在另一种可能的实现方式中，所述傅里叶变换单元，被配置为对所述第三语音信号进行傅里叶变换，得到所述第三语音信号对应的频率特征点；从所述第三语音信号对应的频率特征点中选择目标频率特征点；对所述目标频率特征点的幅值进行频谱运算，得到所述第三语音信号对应的频率点。

在另一种可能的实现方式中，所述装置还包括：

第一获取模块，被配置为获取第一样本语音信号，所述第一样本语音信号为所述第一类型的语音信号；调用所述第一音频转换模型，将所述第一样本语音信号转换为所述第二类型的第二样本语音信号，调用所述第二音频转换模型，将所述第二样本语音信号转换为所述第一类型的第三样本语音信号；

第二获取模块，被配置为获取第四样本语音信号，所述第四样本语音信号为所述第二类型的语音信号；调用所述第二音频转换模型，将所述第四样本语音信号转换为所述第一类型的第五样本语音信号，调用所述第一音频转换模型，将所述第五样本语音信号转换为所述第二类型的第六样本语音信号；

模型训练模块，被配置为根据所述第一样本语音信号和所述第三样本语音信号，以及，所述第四样本语音信号和所述第六样本语音信号，进行模型训练，得到所述目标音频转换模型。

在另一种可能的实现方式中，所述模型训练模块包括：

第一确定单元，被配置为根据所述第一样本语音信号、所述第三样本语音信号和第一转换损失函数，确定所述第一音频转换模型的第一转换损失值；

第二确定单元，被配置为根据所述第四样本语音信号、所述第六样本语音信号和第二转换损失函数，确定所述第二音频转换模型的第二转换损失值；

第三确定单元，被配置为根据用于训练所述目标音频转换模型的损失函数，确定所述目标音频转换模型的模型损失值；

第四确定单元，被配置为根据所述第一转换损失值、所述第二转换损失值和所述模型损失值，确定目标损失值；

模型训练单元，被配置为根据所述目标损失值，进行模型训练，得到所述目标音频转换模型。

在另一种可能的实现方式中，所述第四确定单元，被配置为将所述第一转换损失值、所述第二转换损失值和所述模型损失值进行加权求和，得到所述目标损失值。

在另一种可能的实现方式中，所述第一确定单元，被配置为确定所述第一样本语音信号和所述第三样本语音信号之间的转换差值；将所述转换差值带入所述第一音频转换模型的转换损失函数中，得到所述第一转换损失值。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述任一种可能实现方式中的语音信号处理方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述任一种可能实现方式中的语音信号处理方法中电子设备执行的操作。

本公开实施例提供的技术方案带来的有益效果是：

在本公开实施例中，在第一语音信号的信号类型与能够执行目标操作的第二类型不同的情况下，通过目标音频转换模型，对第一语音信号的语谱图进行转换，得到第二类型的第二语音信号，对第二语音信号执行目标操作，因此，在不能对第一语音信号执行目标操作时，能够通过转换第一语音信号的信号类型来实现对第一语音信号的目标操作，而不需要重新优化目标操作，从而简化了语音信号的处理流程，提高了语音信号处理的效率。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种语音信号处理方法的流程图；

图2是本公开实施例提供的一种语音信号处理方法的流程图；

图3是本公开实施例提供的一种语音信号处理方法的流程图；

图4是本公开实施例提供的一种语音信号处理方法的流程图；

图5是本公开实施例提供的一种语音信号处理方法的流程图；

图6是本公开实施例提供的一种语音信号处理方法的流程图；

图7是本公开实施例提供的一种语音信号处理装置的框图；

图8是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

首先对说明书中涉及到的专业术语做出解释：

生成对抗网络(Generative Adversarial Networks，简称GAN)：是一种计算机视觉技术，基本思想是用两个神经网络来进行对抗训练，生成网络用来拟合数据的分布，判别网络用来判别所输入的数据是否是生成网络合成出来的伪数据。生成对抗网络可以用来做很多事情，例如，生成人脸照片，图像超分辨率重建，图像去噪，图图转化(风格迁移)等。

循环生成对抗网络(Cycle Generative Adversarial Networks，简称CycleGAN)：可以用来处理图像到图像的翻译，即图图转换或者是风格迁移，也就是说，把一个域中的图像映射到另一个域中。基本思想是利用两个GAN网络来进行，将X域转换到Y域，再转回X域，结果应该和输入相似。CycleGAN 不需要成对的标签，只需要两个域中的数据，就可以训练。

X域和Y域：指不同信号类型的数据，相同信号类型的语音信号可以为同一域中的信号。

在对第一语音信号进行目标操作时，可以通过本公开提供的方案，对第一类型的第一语音信号的信号类型进行转换，得到第二类型的第二语音信号，对该第二语音信号进行信号处理。

其中，在一种可能的实现方式中，该目标操作可以为训练该第一类型对应的第一语音识别模型。也即，在对第一语音识别模型进行模型训练的过程中，获取作为训练样本的第一语音信号。例如，在对用于识别近场的语音信号的语音识别模型进行训练时，可以获取近场的样本语音信号，通过目标音频转换模型将该近场的样本语音信号转换成远场的样本语音信号，从而丰富样本语音信号的类型，通过近场的样本语音信号和远场的样本语音信号对语音识别模型进行模型训练，得到语音识别模型。通过本公开提供的方案，对该第一语音信号的信号类型进行转换得到第二类型的第二语音信号，通过第一语音信号和第二语音信号对模型进行模型泛化训练，得到第一语音识别模型，使得训练得到的第一语音识别模型可以识别更多类型的语音信号，从而丰富了模型训练的训练样本，提高第一语音识别模型的泛化性能的同时，不需要获取其他的训练样本，进而提高了语音信号处理的效率。

在另一种可能的实现方式中，该目标操作可以为语音识别。也即，在对第一语音信号进行语音识别时，响应于当前的第二语音识别模型为第二类型的语音信号进行识别的模型。例如，当前需要对变速后的语音信号进行识别，但当前的语音识别模型识别原速的语音信号更准确时，可以采用目标音频转换模型将变速后的语音信号转换成原速的语音信号，再通过语音识别模型对原速的语音信号进行识别，从而得到相应的变速后的语音信号的识别结果。通过本公开提供的方案对第一语音信号的信号类型进行转换得到第二类型的第二语音信号，通过第二语音识别模型对第二语音信号进行识别，得到第一语音信号的语音识别结果，从而通过对第一语音信号的信号类型进行转换，使得第二语音识别模型可以对第二类型的第二语音信号进行识别，从而无需训练其他语音识别模型也可以准确得到第一语音信号的语音识别结果，不仅提高了语音识别的准确度，还节省了语音识别的成本。

图1是本公开实施例提供的一种语音信号处理方法的流程图。参见图1，该实施例包括：

步骤101：响应于对第一语音信号进行目标操作，对该第一语音信号进行频谱处理，得到该第一语音信号对应的语谱图，该第一语音信号为第一类型的语音信号。

步骤102：调用目标音频转换模型，该目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的，该第一音频转换模型用于将该第一类型的语音信号转换为该第二类型的语音信号，该第二音频转换模型用于将该第二类型的语音信号转换为该第一类型的语音信号。

步骤103：根据该语谱图，通过该目标音频转换模型，将该第一语音信号转换为该第二类型的第二语音信号。

步骤104：对该第二语音信号执行该目标操作。

在一种可能的实现方式中，该目标操作为训练该第一类型对应的第一语音识别模型；

该对该第二语音信号执行该目标操作，包括：

根据该第一语音信号和该第二语音信号进行模型泛化训练，得到该第一语音识别模型。

在另一种可能的实现方式中，该目标操作为语音识别；

该对该第二语音信号执行该目标操作，包括：

调用该第二类型对应的第二语音识别模型，对该第二语音信号进行语音识别，得到语音识别结果；

将该语音识别结果作为该第一语音信号的语音识别结果。

在另一种可能的实现方式中，该对该第一语音信号进行频谱处理，得到该第一语音信号对应的语谱图，包括：

对该第一语音信号进行分帧处理，得到第三语音信号；

对该第三语音信号进行傅里叶变换，确定该第三语音信号对应的频率点；

根据该频率点，生成该第一语音信号对应的语谱图。

在另一种可能的实现方式中，该对该第三语音信号进行傅里叶变换，确定该第三语音信号对应的频率点，包括：

对该第三语音信号进行傅里叶变换，得到该第三语音信号对应的频率特征点；

从该第三语音信号对应的频率特征点中选择目标频率特征点；

对该目标频率特征点的幅值进行频谱运算，得到该第三语音信号对应的频率点。

在另一种可能的实现方式中，该调用目标音频转换模型之前，该方法还包括：

获取第一样本语音信号，该第一样本语音信号为该第一类型的语音信号；调用该第一音频转换模型，将该第一样本语音信号转换为该第二类型的第二样本语音信号，调用该第二音频转换模型，将该第二样本语音信号转换为该第一类型的第三样本语音信号；

获取第四样本语音信号，该第四样本语音信号为该第二类型的语音信号；调用该第二音频转换模型，将该第四样本语音信号转换为该第一类型的第五样本语音信号，调用该第一音频转换模型，将该第五样本语音信号转换为该第二类型的第六样本语音信号；

根据该第一样本语音信号和该第三样本语音信号，以及，该第四样本语音信号和该第六样本语音信号，进行模型训练，得到该目标音频转换模型。

在另一种可能的实现方式中，该根据该第一样本语音信号和该第三样本语音信号，以及，该第四样本语音信号和该第六样本语音信号，进行模型训练，得到该目标音频转换模型，包括：

根据该第一样本语音信号、该第三样本语音信号和第一转换损失函数，确定该第一音频转换模型的第一转换损失值；

根据该第四样本语音信号、该第六样本语音信号和第二转换损失函数，确定该第二音频转换模型的第二转换损失值；

根据用于训练该目标音频转换模型的损失函数，确定该目标音频转换模型的模型损失值；

根据该第一转换损失值、该第二转换损失值和该模型损失值，确定目标损失值；

根据该目标损失值，进行模型训练，得到该目标音频转换模型。

在另一种可能的实现方式中，该根据该第一转换损失值、该第二转换损失值和该模型损失值，确定目标损失值，包括：

将该第一转换损失值、该第二转换损失值和该模型损失值进行加权求和，得到该目标损失值。

在另一种可能的实现方式中，该根据该第一样本语音信号、该第三样本语音信号和转换损失函数，确定该第一音频转换模型的第一转换损失值，包括：

确定该第一样本语音信号和该第三样本语音信号之间的转换差值；

将该转换差值带入该第一音频转换模型的转换损失函数中，得到该第一转换损失值。

电子设备在对第一语音信号进行目标操作时，当该第一语音信号不符合当前目标操作对应的信号类型时，可以通过目标音频转换模型将第一语音信号转换成目标操作对应的信号类型的第二语音信号。相应的，在此之前，电子设备需要先获取目标音频转换模型。电子设备可以先对第一音频转换模型和第二音频转换模型进行模型训练，得到目标音频转换模型。图2是本公开实施例提供的一种语音信号处理方法的流程图。本实施例以对第一音频转换模型和第二音频转换模型进行训练，得到目标音频转换模型为例进行说明。参见图2，该实施例包括：

步骤201：电子设备获取第一样本语音信号，该第一样本语音信号为该第一类型的语音信号。

其中，该第一样本语音信号用于对第一音频转换模型进行模型训练。该第一样本语音信号可以为与第一语音信号的信号类型相同的样本语音信号。在对第一音频转换模型和第二音频转换模型进行对抗训练前，获取第一音频转换模型和第二音频转换模型的第一样本语音信号和第四样本语音信号。其中，该第一样本语音信号和第二样本语音信号为信号类型不同的两种样本语音信号。该第一类型可以为未处理原始信号类型，例如，任一信道类型、远场类型、近场类型、任一声调类型、任一语速类型、加噪类型或加混响类型等信号类型中的至少一个。

另外，电子设备还可以接收用户输入的第一样本语音信号。相应的，电子设备接收用户输入的第一类型的第一样本语音信号。电子设备还可以从服务器中获取第一样本语音信号。相应的，电子设备通过数据接口或无线网络从数据库中获取第一类型的样本数据。其中，该数据库中存储的第一样本语音信号可以为其他电子设备上传的语音信号。通过获取其他电子设备上传的第一样本语音信号，从而丰富了第一样本语音信号的来源，降低了第一样本语音信号的获取难度。

该第一样本语音信号的信号时长可以根据需要确定，在本公开实施例中，对该第一样本语音信号的信号时长不作具体限定。例如，该第一样本语音信号的信号时长可以为2s、2.5s或3s等。

该电子设备可以为终端也可以为服务器。相应的，当该电子设备为终端时，该电子设备可以为手机、电脑、平板电脑或可穿戴设备等。当该电子设备为服务器时该电子设备可以为单独的服务器，也可以是多个服务器组成的服务器集群，还可以是云服务器等。在本公开实施例中，对此不作具体限定。

步骤202：电子设备调用第一音频转换模型，将该第一样本语音信号转换为第二类型的第二样本语音信号，调用该第二音频转换模型，将该第二样本语音信号转换为该第一类型的第三样本语音信号。

在本步骤中，电子设备获取第一音频转换模型和第二音频转换模型。其中，该第一音频转换模型用于将该第一类型的语音信号转换为该第二类型的语音信号，该第二音频转换模型用于将该第二类型的语音信号转换为该第一类型的语音信号。

其中，第一类型为可以为未处理的语音信号的任一信道类型、远场类型、近场类型、任一声调类型、任一语速类型、加噪类型或加混响类型等信号类型中的一种；第二类型为与第一类型不同的任一信道类型、远场类型、近场类型、任一声调类型、任一语速类型、加噪类型或加混响类型等信号类型中的任一种信号类型。例如，第一类型可以为第一信道类型，则第二类型可以为第二信道类型。

该第一音频转换模型和第二音频转换模型为目标音频转换模型对应的两个神经网络，该第一音频转换模型和第二音频转换模型可以为相同类型的神经网络。例如，该第一音频转换模型和第二音频转换模型均可以为GAN网络。通过第一音频转换模型和第二音频转换模型对第一样本语音信号进行拟合，生成该第一样本语音信号对应的相同信号类型的第三样本语音信号。其中，该拟合过程为电子设备通过第一音频转换模型将第一样本语音信号转换为第二样本语音信号，通过第二音频转换模型将该第二样本语音信号再转换为第一类型的第三样本语音信号。参见图3，该第一样本语音信号为图3中X域中的第一样本语音信号，通过第一音频转换模型F将第一样本语音信号转换到Y域中，得到第二样本语音信号，再通过第二音频转换模型G将第二样本语音信号转换为X域中的第三样本语音信号。其中，X域为第一类型的样本语音信号所在的域，Y 域为第二类型的样本语音信号所在的域。

需要说明的一点是，电子设备可以通过第一音频转换模型和第二音频转换模型可以直接对音频格式的音频信号进行音频转换。相应的，在本步骤中，电子设备可以直接将第一样本语音信号输入至第一音频转换模型中，得到第一样本语音信号对应的第二类型的第二样本语音信号。电子设备还可以通过第一音频转换模型和第二音频转换模型对语谱图格式的音频信号进行音频转换。相应的，电子设备可以直接获取语谱图格式的第一样本语音信号。电子设备还可以获取音频格式的第一样本语音信号，再对音频格式的第一样本语音信号进行傅里叶变换，将音频格式的第一样本语音信号转换成语谱图格式的第一样本语音信号。相应的，当该第一样本语音信号为语音信号时，电子设备在通过第一音频转换模型将第一样本语音信号转换为第二样本语音信号之前，确定该第一样本语音信号的第一语谱图。该电子设备确定该第一样本语音信号的第一语谱图的过程可以通过以下步骤(1)-(3)实现，包括：

(1)电子设备对该第一样本语音信号进行分帧处理，得到第七样本语音信号。

电子设备可以根据预设帧长和预设帧移对第一样本语音信号进行分帧处理。在本步骤中，电子设备将第一样本语音信号分帧成预设帧长对应的第七样本语音信号。其中，每个第七样本语音信号的信号长度为预设帧长，每个第七样本语音信号的起始位置的差值为预设帧移。该预设帧长和预设帧移可以根据第一样本语音信号的信号时长进行设置并调整。例如，该预设帧长可以为25ms，预设帧移可以为10ms等。

(2)电子设备对该第七样本语音信号进行傅里叶变换，确定该第七样本语音信号对应的频率点。

电子设备可以采用任一种傅里叶变换来确定第七样本语音信号对应的频率点。例如，电子设备可以采用短时傅里叶变换对第七样本语音信号进行傅里叶变换。本步骤可以通过以下步骤(2-1)-(2-3)实现，包括：

(2-1)电子设备对该第七样本语音信号进行傅里叶变换，得到该第七样本语音信号对应的频率特征点。

电子设备将第七样本语音信号中进行傅里叶变换后得到多个频率特征点。例如，电子设备采用512点的短时傅里叶变换法，对第七样本语音信号进行傅里叶变换，得到该第七样本语音信号对应的512个频率特征点。

(2-2)电子设备从该第七样本语音信号对应的频率特征点中选择目标频率特征点。

在一种可能的实现方式中，电子设备可以从第七样本语音信号对应的频率特征点中随机选择目标频率特征点。在另一种可能的实现方式中，该第七样本语音信号对应的频率特征点为复数形式的共轭对称的频率特征点，因此，电子设备可以选择共轭对称的频率特征点中的一个作为目标频率特征点。例如，电子设备采用512点的短时傅里叶变换法，对第七样本语音信号进行傅里叶变换，得到该第七样本语音信号对应的512个频率特征点，该512个频率特征点为共轭对称的频率特征点，因此，可以从该512个频率特征中，选择共轭对称的一半特征点，以及无共轭对称点的频率特征点，得到257个目标频率特征点。

(2-3)电子设备对该目标频率特征点的幅值进行频谱运算，得到该第七样本语音信号对应的频率点。

在本步骤中，电子设备可以分别确定每个目标频率特征点对应的幅值，对每个目标频率特征点对应的幅值进行取对数操作，也即对该幅值进行log运算，得到第七样本语音信号对应的频率点。

(3)电子设备根据该频率点，生成该第一样本语音信号对应的第一语谱图。

对于第一样本语音信号分帧得到的T帧第七样本语音信号，通过上述步骤 (2-1)-(2-3)，确定每帧第七样本语音信号对应的频率点，将该T帧第七样本语音信号对应的频率点组成第一样本语音信号对应的第一语谱图。

在本实现方式中，通过将第一样本语音信号转换成第一音频转换模型可以处理的第一语谱图，从而使得第一音频转换模型可以对语音信号进行转换处理。

需要说明的一点是，电子设备在通过第一音频转换模型将第一样本语音信号转换成第二样本语音信号后，第二样本语音信号可以为对应的第二语谱图，也可以为语音信号，相应的，在第二音频转换模型将第二样本语音信号转换第三样本语音信号时，该第三样本语音信号可以为第三样本语音信号对应的语谱图。在本公开实施例中，对此不作具体限定。

步骤203：电子设备获取第四样本语音信号，该第四样本语音信号为该第二类型的语音信号。

本步骤与步骤201相似，在此不再赘述。

步骤204：电子设备调用该第二音频转换模型，将该第四样本语音信号转换为该第一类型的第五样本语音信号，调用该第一音频转换模型，将该第五样本语音信号转换为该第二类型的第六样本语音信号。

请继续参见图3，本步骤与步骤202相似，在此不再赘述。

需要说明的一点是，电子设备可以先对第一样本语音信号进行转换，再对第四样本语音信号进行转换。电子设备也可以先对第四样本语音信号进行转换，再对第一样本语音信号进行转换。电子设备还可以同时对第一样本语音信号和第四样本语音信号进行转换。也即，电子设备可以先执行步骤201和202，再执行步骤203和204。电子设备也可以先执行步骤203和204，再执行不走201和 202。电子设备还可以同执行步骤201和202，以及步骤203和204。在本公开实施例中，对步骤201-202和步骤203-204的执行顺序不作具体限定。

步骤205：电子设备根据该第一样本语音信号、该第三样本语音信号和第一转换损失函数，确定该第一音频转换模型的第一转换损失值。

在本步骤中，电子设备根据该第一样本语音信号和第三样本语音信号之间的差值，确定第一样本语音信号转换成第三样本语音信号后的差值，根据该差值确定第一转换损失值。本步骤可以通过以下步骤(1)-(2)实现，包括：

(1)电子设备确定该第一样本语音信号和该第三样本语音信号之间的转换差值。

在本步骤中，电子设备分别计算第一样本语音信号和第三样本语音信号的之间的转换差值。其中，该第一样本语音信号和第三样本语音信号都可以为语谱图，相应的，在本步骤中，电子设备可以确定第一样本语音信号对应的第一语谱图和第三样本语音信号对应的第二语谱图，通过对比第一语谱图和第二语谱图中相同频率点，确定第一样本语音信号和第三样本语音信号之间的转换差值。

(2)电子设备将该转换差值带入该第一音频转换模型的第一转换损失函数中，得到该第一转换损失值。

其中，第一音频转换模型由生成网络和判别网络组成。其中，生成网络用于拟合数据分布，判别网络用于判断输入的数据是否为生成网络合成出来的。因此，该第一音频转换模型对应的第一转换损失函数由生成网络的损失函数和判别网络的损失函数组成。其中，生成网络的损失函数可以由判别网络固定时生成网络的损失函数表示，判别网络的损失函数可以由生成网络固定时判别网络的损失函数表示。其中，这两种损失函数均可以为期望形式的损失函数，相应的，该第一转换损失值可以通过以下公式一计算。

公式一：

其中，L_GAN(F，D_X，X，Y)表示第一转换损失值；

表示第一语音信号转换模型的生成网络一定时，判别网络的损失函数，

表示第一语音信号转换模型的判别网络一定时，生成网络的损失函数，D_X表示第一音频转换模型的判别网络，F为第一音频转换模型的生成网络。

步骤206：电子设备根据该第四样本语音信号、该第六样本语音信号和第二转换损失函数，确定该第二音频转换模型的第二转换损失值。

本步骤与步骤205相似，在此不再赘述。

步骤207：电子设备根据用于训练该目标音频转换模型的损失函数，确定该目标音频转换模型的模型损失值。

其中，该目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练的到的音频转换模型，也即该目标音频转换模型为通过CycleGAN 训练得到的。相应的，该目标音频转换模型的损失函数可以为第一音频转换模型和第二音频转换模型的损失函数的和。其中，第一音频转换模型的损失函数和第二音频转换模型的损失函数可以为相同的损失函数也可以为不同的损失函数，在本公开实施例中，对此不作具体限定。其中，该目标音频转换模型的损失函数可以分别根据第一类型的语音信号进行转化后仍属于第一类型的期望值，以及第二类型的语音信号进行转化后仍属于第二类型的期望值。相应的，该损失函数可以通过以下公式二表示。

公式二：

其中，L_cyc(G，F)标识目标音频转换模型的损失值，

表示第一类型的语音信号进行转化后仍属于第一类型的期望值，

表示第二类型的语音信号进行转化后仍属于第二类型的期望值，G为第二音频转换模型的生成网络，F为第一音频转换模型的生成网络。

步骤208：电子设备根据该第一转换损失值、该第二转换损失值和该模型损失值，确定目标损失值。

电子设备将第一转换损失值、第二转换损失值和模型损失值求和得到目标损失值。其中，电子设备可以将该第一转换损失值、该第二转换损失值和该模型损失值进行加权求和，得到该目标损失值。

其中，该第一转换损失值、该第二转换损失值和该模型损失值对应的权重可以根据需要进行设置，并且，该第一转换损失值、该第二转换损失值和该模型损失值的权重可以相同也可以不同。相应的，该目标损失值可以由以下公式三表示。

公式三：

L(G，F，D_X，D_Y)＝L_GAN(G，D_Y，X，Y)+L_GAN(F，D_X，Y，X)+λL_cyc(G，F)

其中，L(G，F，D_X，D_Y)表示目标损失值，L_GAN(G，D_Y，X，Y)表示第一转换损失值，L_GAN(F，D_X，Y，X)表示第二转换损失值，L_cyc(G，F)表示目标音频转换模型的模型损失值，λ表示目标音频转换模型的模型损失值的权重，G为第二音频转换模型的生成网络，F为第一音频转换模型的生成网络，D_X第一音频转换模型的判别网络，D_Y第二音频转换模型的判别网络。

步骤209：电子设备根据该目标损失值，进行模型训练，得到该目标音频转换模型。

在本步骤中，电子设备根据该目标损失值，确定本次训练的目标损失值与上一次训练的目标损失值之间的差值，将该差值确定为损失梯度，训练过程中电子设备根据损失梯度确定当前参数的调整方式是否正确。相应的，当该损失梯度减小时，说明当前损失梯度调整方式正确，则电子设备可以继续以当前的参数调整方式调整该第一音频转换模型和第二音频转换模型的模型参数。当该损失梯度增大时，说明当前损失梯度的调整方式不正确，则电子设备调整当前的参数调整方式，通过新的参数调整方式继续调整第一音频转换模型和第二音频转换模型的模型参数，直到该损失梯度小于预设梯度值完成模型训练，得到所述目标音频转换模型。

需要说明的一点是，上述对目标音频转换模型进行模型训练的过程还可以由其他电子设备进行。相应的，电子设备获取目标音频转换模型的过程可以为：电子设备向其他电子设备发送模型获取请求，其他电子设备接收该模型获取请求，根据该模型获取请求获取目标音频转换模型，将该目标音频转换模型发送给电子设备，电子设备接收其他电子设备发送的目标音频转换模型。其中，其他电子设备训练目标音频转换模型的过程与电子设备训练目标音频转换模型的过程相似，在此不再赘述。

在本公开实施例中，通过第一音频转换模型和第二音频转换模型，将第一音频转换模型和第二音频转换模型对第一样本语音信号和第四样本语音信号机型转换，从而根据转换得到的第三样本语音信号和第六样本语音信号对第一音频转换模型和第二音频转换模型进行转换，完成目标音频转换模型的训练，以便可以根据该目标音频转换模型对语音信号进行转换，从而无需增加其他音频识别模型就可以识别多种类型的语音信号，并且，可以通过该目标音频转换模型对语音信号的信号类型进行转换，从而实现丰富语音识别模型的训练样本。

图4是本公开实施例提供的一种语音信号处理方法的流程图。本实施例以在对第一语音信号进行目标操作时，对第一语音信号进行音频转换为例进行说明。参见图4，该实施例包括：

步骤401：响应于对第一语音信号进行目标操作，电子设备对该第一语音信号进行分帧处理，得到第三语音信号。

在对第一语音信号进行目标操作时，确定该第一语音信号的信号类型是否满足音频信号的信号类型，当第一语音信号的信号类型满足目标操作对应的类型时，电子设备可以直接对第一语音信号执行目标操作。当第一语音信号的信号类型不满足目标操作对应的信号类型时，将该第一语音信号转换成目标操作对应的信号类型。

响应于电子设备接收到目标操作指令，确定对第一语音信号进行目标操作。其中，该目标操作指令可以为训练该第一类型对应的第一语音识别模型的指令，或者，该目标操作指令可以为语音识别指令。

相应的，在一种可能的实现方式中，电子设备可以通过该目标音频转换模型对训练语音识别模型所需的样本数据进行扩展，则该第一语音信号为模型训练过程中，需要的样本语音信号。在另一种可能的实现方式中，电子设备可以通过该目标音频转换模型对待识别的语音信号的信号类型进行转换，则第一语音信号为待识别的语音信号。例如，电子设备可以对问答系统中的接收到的语音信号进行转换，转换成问答系统中识别准确率更高的类型的语音信号。

在本步骤之前，电子设备需要获取第一语音信号。该第一语音信号可以为在对第一语音识别模型进行模型训练时需要使用的语音信号。相应的，该第一语音信号可以为从样本数据库中获取的语音信号。该第一语音信号还可以为第二语音识别模型待识别的语音信号，相应的，第一语音信号可以为用户输入的待识别的语音信号。

另外，电子设备对该第一语音信号进行分帧处理的操作与步骤202中的步骤(1)相似，在此不再赘述。

步骤402：电子设备对该第三语音信号进行傅里叶变换，确定该第三语音信号对应的频率点。

本步骤与步骤202中的步骤(2)相似，在此不再赘述。

步骤403：电子设备根据该频率点，生成该第一语音信号对应的语谱图。

本步骤与步骤202中的步骤(3)相似，在此不再赘述。

步骤404：电子设备调用目标音频转换模型，该目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的，该第一音频转换模型用于将该第一类型的语音信号转换为该第二类型的语音信号，该第二音频转换模型用于将该第二类型的语音信号转换为该第一类型的语音信号。

在本步骤中，电子设备确定当前第一语音信号的第一类型；以及确定目标操作对应的第二类型，确定该第一类型和第二类型，根据该第一类型和第二类型调用可以对第一类型和第二类型进行转换的目标音频转换模型。

在一种可能的实现方式中，电子设备中可以存储多个音频转换模型，其中，不同的音频转换模型对应不同类型的语音信号转换功能。相应的，在本步骤中，电子设备根据第一类型和第二类型从多个音频转换模型中，获取用于对第一类型和第二类型进行转换的目标音频转换模型。

在本实现方式中，电子设备中存储多个音频转换模型，从而可以在音频转换的过程中，选择任一音频转化模型进行音频转换，从而使音频转换过程更符合音频中语音信号类型，提高了音频转换的准确性。

在另一种可能的实现方式中，目标音频转换模型中集成了多种类型的音频转换网络，相应的，在本步骤中，电子设备获取目标音频转换模型，通过第一类型和第二类型确定目标音频转换模型中的音频转换网络，从而通过该音频转换网络将对第一语音信号进行音频转换。

在本实现方式中，电子设备将多了音频转换网络集成在同一目标音频转换模型中，从而节省了电子设备存储目标音频转换模型的存储空间。

步骤405：电子设备根据该语谱图，通过该目标音频转换模型，将该第一语音信号转换为该第二类型的第二语音信号。

在本步骤中，电子设备通过目标音频转换模型将该第一语音信号对应的语谱图转换成第二类型的语谱图，电子设备可以直接将该第二类型的语谱图作为第二语音信号。电子设备还可以将该第二类型的语谱图转换成第二语音信号。在本公开实施例中，对此不作具体限定。

其中，电子设备将第二类型的语谱图转换成第二语音信号的过程可以为：电子设备可以直接通过该目标音频转换模型将该第二类型的语谱图转换成第二语音信号。电子设备还可以获取目标音频转换模型输出的第二类型的语谱图，再将该第二类型的语谱图转换成第二语音信号。

步骤406：电子设备对该第二语音信号执行该目标操作。

在本步骤中，电子设备根据目标操作对第二语音信号进行语音信号处理。

该目标操作可以为训练该第一类型对应的第一语音识别模型。在对第一语音识别模型进行模型训练的过程中，获取作为训练样本的第一语音信号。相应的，参见图5，图5是本公开实施例提供的一种语音信号处理方法的流程图。在本公开实施例中，以通过第一语音信号对第一语音识别模型进行模型训练为例进行说明。该实施例包括：

步骤501：电子设备获取第一语音识别模型。

其中，该第一语音识别模型可以为任一类型的语音识别模型。例如，该语音识别模型可以为语义理解模型、语音翻译模型等。

步骤502：响应于对第一语音识别模型进行模型训练，电子设备获取第一类型的第一语音信号。

本步骤与步骤401中，电子设备获取第一语音信号的过程相似，在此不再赘述。

步骤503：电子设备根据该第一语音信号，获取第二类型的第二语音信号。

本步骤可以通过步骤401-405实现，在此不再赘述。

步骤504：电子设备根据该第一语音信号和该第二语音信号进行模型泛化训练，得到该第一语音识别模型。

在本步骤中，电子设备分别根据第一类型的第一语音信号和第二类型的第二语音信号对第一语音识别模型进行模型训练。

其中，该第二类型可以为与第一类型不同的任一信号类型。并且，在本公开实施例中，可以通过目标音频转换模型将第一语音信号转换成多种不同信号类型的第二语音信号，从而通过多种不同类型的第二语音信号对第一语音识别模型进行模型训练。

在本公开实施例中，通过在对第一语音识别模型进行模型训练的过程中，获取作为训练样本的第一语音信号，通过本公开提供的方案，对该第一语音信号的信号类型进行转换得到第二类型的第二语音信号，通过第一语音信号和第二语音信号对模型进行模型泛化训练，得到第一语音识别模型，使得训练得到的第一语音识别模型可以识别更多类型的语音信号，从而丰富了模型训练的训练样本，提高第一语音识别模型的泛化性能的同时，不需要获取其他的训练样本。

该目标操作可以为对第一语音信号进行语音识别。在对第一语音信号进行识别的过程中，将第一语音信号转换为符合第二语音识别模型的识别类型的语音信号。相应的，参见图6，图6是本公开实施例提供的一种语音信号处理方法的流程图。在本公开实施例中，以通过第二语音识别模型对第一语音信号进行识别为例进行说明。该实施例包括：

步骤601：电子设备获取第二语音识别模型。

其中，该第二语音识别模型可以为任一类型的语音识别模型。例如，该语音识别模型可以为语义理解模型、语音翻译模型等。并且，该第二语音识别模型可以准确识别第二类型的语音信号。

步骤602：响应于通过第二语音信号识别模型对第一语音信号进行语音识别，电子设备获取第一类型的第一语音信号。

步骤603：电子设备根据该第一语音信号，获取第二类型的第二语音信号。

本步骤可以通过步骤401-405实现，在此不再赘述。

步骤604：电子设备调用该第二类型对应的第二语音识别模型，对该第二语音信号进行语音识别，得到语音识别结果，将该语音识别结果作为该第一语音信号的语音识别结果。

该第二语音识别模型为用于识别第二类型的语音信号的语音识别模型。其中，该语音识别结果可以为语音信号对应的文本结果、语音信号对应的用户的年龄、性别、意图等结果。

在一种可能的实现方式中，电子设备通过第二语音识别模型对第二语音信号进行识别，将第二语音信号对应的语音识别结果作为第一语音信号的识别结果。在另一种可能的实现方式中，电子设备通过该第二语音识别模型分别识别第一语音信号和第二语音信号，响应于第一语音信号和第二语音信号对应的识别结果相同时，将该相同的语音识别结果作为该第一语音信号的云识别结果、响应于该第一语音信号和第二语音信号对应的识别结果不同时，分别展示该第一语音信号和第二语音信号对应的语音识别结果，响应于接收到语音识别结果的确定操作，将该语音识别结果的确定操作对应的语音识别结果确定为第一语音信号对应的语音识别结果。

在本公开实施例中，通过在对第一语音信号进行语音识别时，响应于当前的第二语音识别模型为第二类型的语音信号进行识别的模型，通过本公开提供的方案对第一语音信号的信号类型进行转换得到第二类型的第二语音信号，通过第二语音识别模型对第二语音信号进行识别，得到第一语音信号的语音识别结果，从而通过对第一语音信号的信号类型进行转换，使得第二语音识别模型可以对第二类型的第二语音信号进行识别，从而无需训练其他语音识别模型也可以准确得到第一语音信号的语音识别结果，不仅提高了语音识别的准确度，还节省了语音识别的成本。

图7是本公开实施例提供的一种语音信号处理装置的框图。参见图7，该装置包括：

频谱处理模块701，被配置为响应于对第一语音信号进行目标操作，对该第一语音信号进行频谱处理，得到该第一语音信号对应的语谱图，该第一语音信号为第一类型的语音信号；

模型调用模块702，被配置为调用目标音频转换模型，该目标音频转换模型为通过第一音频转换模型和第二音频转换模型进行对抗训练得到的，该第一音频转换模型用于将该第一类型的语音信号转换为该第二类型的语音信号，该第二音频转换模型用于将该第二类型的语音信号转换为该第一类型的语音信号；

语音转换模块703，被配置为根据该语谱图，通过该目标音频转换模型，将该第一语音信号转换为该第二类型的第二语音信号；

操作执行模块704，被配置为对该第二语音信号执行该目标操作。

该操作执行模块704包括：

泛化训练单元，被配置为根据该第一语音信号和该第二语音信号进行模型泛化训练，得到该第一语音识别模型。

在另一种可能的实现方式中，该目标操作为语音识别；

该操作执行模块704包括：

语音识别单元，被配置为调用该第二类型对应的第二语音识别模型，对该第二语音信号进行语音识别，得到语音识别结果；将该语音识别结果作为该第一语音信号的语音识别结果。

在另一种可能的实现方式中，该频谱处理模块701包括：

分频处理单元，被配置为对该第一语音信号进行分帧处理，得到第三语音信号；

傅里叶变换单元，被配置为对该第三语音信号进行傅里叶变换，确定该第三语音信号对应的频率点；

语谱图生成单元，被配置为根据该频率点，生成该第一语音信号对应的语谱图。

在另一种可能的实现方式中，该傅里叶变换单元，被配置为对该第三语音信号进行傅里叶变换，得到该第三语音信号对应的频率特征点；从该第三语音信号对应的频率特征点中选择目标频率特征点；对该目标频率特征点的幅值进行频谱运算，得到该第三语音信号对应的频率点。

在另一种可能的实现方式中，该装置还包括：

第一获取模块，被配置为获取第一样本语音信号，该第一样本语音信号为该第一类型的语音信号；调用该第一音频转换模型，将该第一样本语音信号转换为该第二类型的第二样本语音信号，调用该第二音频转换模型，将该第二样本语音信号转换为该第一类型的第三样本语音信号；

第二获取模块，被配置为获取第四样本语音信号，该第四样本语音信号为该第二类型的语音信号；调用该第二音频转换模型，将该第四样本语音信号转换为该第一类型的第五样本语音信号，调用该第一音频转换模型，将该第五样本语音信号转换为该第二类型的第六样本语音信号；

模型训练模块，被配置为根据该第一样本语音信号和该第三样本语音信号，以及，该第四样本语音信号和该第六样本语音信号，进行模型训练，得到该目标音频转换模型。

在另一种可能的实现方式中，该模型训练模块包括：

第一确定单元，被配置为根据该第一样本语音信号、该第三样本语音信号和第一转换损失函数，确定该第一音频转换模型的第一转换损失值；

第二确定单元，被配置为根据该第四样本语音信号、该第六样本语音信号和第二转换损失函数，确定该第二音频转换模型的第二转换损失值；

第三确定单元，被配置为根据用于训练该目标音频转换模型的损失函数，确定该目标音频转换模型的模型损失值；

第四确定单元，被配置为根据该第一转换损失值、该第二转换损失值和该模型损失值，确定目标损失值；

模型训练单元，被配置为根据该目标损失值，进行模型训练，得到该目标音频转换模型。

在另一种可能的实现方式中，该第四确定单元，被配置为将该第一转换损失值、该第二转换损失值和该模型损失值进行加权求和，得到该目标损失值。

在另一种可能的实现方式中，该第一确定单元，被配置为确定该第一样本语音信号和该第三样本语音信号之间的转换差值；将该转换差值带入该第一音频转换模型的转换损失函数中，得到该第一转换损失值。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的语音信号处理装置在进行语音信号处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音信号处理装置与语音信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本公开一个示例性实施例提供的电子设备800的结构框图。该电子设备800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备800还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA (Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801 可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括 AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的语音信号处理方法。

在一些实施例中，电子设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口 803相连。具体地，外围设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置电子设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在电子设备800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在电子设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、 OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路 804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807 还可以包括耳机插孔。

定位组件808用于定位电子设备800的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件808可以是基于美国的 GPS(Global Positioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源809用于为电子设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以电子设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测电子设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对电子设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应 (比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在电子设备800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在电子设备800的侧边框时，可以检测用户对电子设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814 采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置电子设备800的正面、背面或侧面。当电子设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在电子设备800的前面板。接近传感器816用于采集用户与电子设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变大时，由处理器 801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对电子设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，上述至少一条指令可由服务器中的处理器执行以完成上述实施例中的语音信号处理方法。例如，所述计算机可读存储介质可以是ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(CompactDisc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本公开还提供了一种计算机程序产品，当计算机程序产品中的指令由终端或服务器的处理器执行时，使得终端或服务器能够执行上述各个方法实施例提供的语音信号处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种语音信号处理方法，其特征在于，所述方法包括：

对所述第二语音信号执行所述目标操作。

2.根据权利要求1所述的方法，其特征在于，所述目标操作为训练所述第一类型对应的第一语音识别模型；

所述对所述第二语音信号执行所述目标操作，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标操作为语音识别；

所述对所述第二语音信号执行所述目标操作，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述第一语音信号进行频谱处理，得到所述第一语音信号对应的语谱图，包括：

对所述第一语音信号进行分帧处理，得到第三语音信号；

根据所述频率点，生成所述第一语音信号对应的语谱图。

5.根据权利要求4所述的方法，其特征在于，所述对所述第三语音信号进行傅里叶变换，确定所述第三语音信号对应的频率点，包括：

6.根据权利要求1所述的方法，其特征在于，所述调用目标音频转换模型之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一样本语音信号和所述第三样本语音信号，以及，所述第四样本语音信号和所述第六样本语音信号，进行模型训练，得到所述目标音频转换模型，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一转换损失值、所述第二转换损失值和所述模型损失值，确定目标损失值，包括：

9.根据权利要求7所述的方法，其特征在于，所述根据所述第一样本语音信号、所述第三样本语音信号和转换损失函数，确定所述第一音频转换模型的第一转换损失值，包括：

10.一种语音信号处理装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求9任一项所述的语音信号处理方法所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的语音信号处理方法所执行的操作。