CN112289330A

CN112289330A - 一种音频处理方法、装置、设备及存储介质

Info

Publication number: CN112289330A
Application number: CN202010873874.3A
Authority: CN
Inventors: 王柯柯; 李为
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2021-01-29

Abstract

本公开实施例涉及一种音频处理方法、装置、设备及存储介质，其中该方法包括：获取变调音频的频谱和频谱包络线；获取变调音频对应的变调前音频的频谱包络线；基于变调前音频的频谱包络线与变调音频的频谱包络线之间的比例关系，对变调音频的频谱进行修正，得到修正后频谱；基于修正后频谱确定修正后音频。本公开能够在音频变调之后改善音色变化，明显提升声音的自然度。

Description

一种音频处理方法、装置、设备及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种音频处理方法、装置、设备及存储介质。

背景技术

在诸如变声软件、音乐的后期修音等多种声音的应用场景中，通常需要对用户的声音进行变调处理，以改变音频信号的音高，而不改变音频信号的音色。然而现有技术中，在对音频进行变调处理后，会同时带来音色的改变，比如男生的声音音调变高会导致音色偏向于女性化，女性声音音调调低会导致音色偏向于男性化，使得声音的自然度较低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种音频处理方法、装置、设备及存储介质，能够在音频变调之后改善音色变化，明显提升声音的自然度。

本公开实施例提供了一种音频处理方法，所述方法包括：获取变调音频的频谱和频谱包络线；获取所述变调音频对应的变调前音频的频谱包络线；基于所述变调前音频的频谱包络线与所述变调音频的频谱包络线之间的比例关系，对所述变调音频的频谱进行修正，得到修正后频谱；基于所述修正后频谱确定修正后音频。

可选的，所述基于所述变调前音频的频谱包络线与所述变调音频的频谱包络线之间的比例关系，对所述变调音频的频谱进行修正，得到修正后频谱，包括：获取所述变调音频的音频帧信号对应在所述变调音频的频谱中的频谱值；确定所述变调前音频中与所述音频帧信号对应的目标帧信号，并确定所述音频帧信号和所述目标帧信号分别对应的频谱包络线以及，确定所述目标帧信号对应的频谱包络线与所述音频帧信号对应的频谱包络线的频谱加权系数；将所述频谱值与所述频谱加权系数的乘积，确定为修正后频谱中与所述音频帧信号对应的频谱值。

可选的，所述获取所述变调音频对应的变调前音频的频谱包络线，包括：基于所述变调音频对应的变调系数，确定所述变调音频的频谱包络线的调整因子；基于所述调整因子对所述变调音频的频谱包络线进行插值处理，得到所述变调音频对应的变调前音频的频谱包络线。

可选的，所述获取变调音频的频谱和频谱包络线，包括：对变调音频进行加窗和分帧处理后，对所述变调音频的音频帧信号进行傅里叶变换，得到所述变调音频的频谱；基于所述变调音频的频谱，获取所述变调音频的频谱包络线。

可选的，所述基于所述变调音频的频谱，获取所述变调音频的频谱包络线，包括：对所述变调音频的频谱中的音频帧信号对应的频谱，进行取幅度值后取对数以及逆傅里叶变换的处理，得到所述变调音频对应的倒谱序列；将所述变调音频对应的倒谱序列中音频帧信号对应的倒谱序列，经过窗函数、傅里叶变换以及取指数的依次处理后，得到所述变调音频对应的频谱包络线。

可选的，所述修正后频谱与所述变调前音频的频谱的共振峰的位置的相似度大于预设阈值。

本公开实施例还提供了一种音频处理装置，所述装置包括：第一获取模块，用于获取变调音频的频谱和频谱包络线；第二获取模块，用于获取所述变调音频对应的变调前音频的频谱包络线；频谱修正模块，用于基于所述变调前音频的频谱包络线与所述变调音频的频谱包络线之间的比例关系，对所述变调音频的频谱进行修正，得到修正后频谱；音频确定模块，用于基于所述修正后频谱确定修正后音频。

可选的，所述频谱修正模块包括：频谱值获取单元，用于获取所述变调音频的音频帧信号对应在所述变调音频的频谱中的频谱值；确定单元，用于确定所述变调前音频中与所述音频帧信号对应的目标帧信号，并确定所述音频帧信号和所述目标帧信号分别对应的频谱包络线；以及，确定所述目标帧信号对应的频谱包络线与所述音频帧信号对应的频谱包络线的频谱加权系数；频谱值修正单元，用于将所述频谱值与所述频谱加权系数的乘积，确定为修正后频谱中与所述音频帧信号对应的频谱值。

本公开实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现上述的音频处理方法。

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的音频处理方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例涉及一种音频处理方法、装置、设备及存储介质，其中该方法包括：首先获取变调音频的频谱和频谱包络线，以及变调音频对应的变调前音频的频谱包络线；然后基于变调前音频的频谱包络线与变调音频的频谱包络线之间的比例关系，对变调音频的频谱进行修正，得到修正后频谱；最后基于修正后频谱确定修正后音频。本实施例提供的上述方式，基于变调前后音频的频谱包络线之间的比例关系对变调音频的频谱进行修正，能够修正该频谱的共振峰位置，使得修正后频谱与变调前音频的频谱保持共振峰位置基本不变，即变调前后音频的音色保持不变，明显提升声音的自然度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例所述音频处理方法的流程图；

图2为本公开实施例所述音频处理过程的示意图；

图3为本公开实施例所述音频处理装置的结构框图；

图4为本公开实施例提供的一种音频处理设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

图1为本公开实施例提供的一种音频处理方法的流程图，该方法可以由音频处理装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤S102，获取变调音频的频谱和频谱包络线。

可以理解，在获取变调音频之前，首先获取的是变调音频对应的变调前音频；为便于描述，可以将变调音频对应的变调前音频称为原始音频。原始音频可以是音频采集设备采集的音频，也可以是由网络下载、本地存储或人工上传的音频等，在此不做具体限制。基于此，对原始音频进行变调处理即可得到变调音频。

以原始音频为预先采集的用户的干声为例，可参照如下所示获取变调音频：根据变调系数对用户的干声进行变调处理，得到变调音频。其中，变调系数可以是一个标量s，表征每一帧音频信号的变调系数一致；变调系数也可以是一组向量[s₁,s₂,s₃,...,s_n]，表征每一帧音频信号的变调系数不一致，依次为向量中各个维度的值，比如第n帧音频的变调系数为s_n；其中，上述的每一帧音频信号也可称为音频帧信号。

关于变调音频的频谱和频谱包络线的获取方式，将在下文中进行详细介绍，在此不再展开描述。

步骤S104，获取变调音频对应的变调前音频的频谱包络线。

由于音频的音色与共振峰位置相关，共振峰位置一般可以认为是频谱包络线中极大值出现的位置。根据原始音频计算得到的频谱包络线可得到用户当前帧音频信号的共振峰位置，它可用来表征当前帧音频信号的音色相关信息。与之相对的，针对变调音频，因为当前帧音频信号基频发生改变，同时引起了共振峰位置的偏移，导致用户音色发生改变，如果能够做一定处理，将共振峰位置进行校准，校正到与原始音频信号当前帧音频信号的共振峰位置一致，来消除偏移量，从而实现音色的保持，保证用户声音的自然度。

步骤S106，基于变调前音频的频谱包络线与变调音频的频谱包络线之间的比例关系，对变调音频的频谱进行修正，得到修正后频谱。

在本实施例中，可以针对变调音频的每一帧音频信号，先获取音频信号对应的频谱的频谱值，然后基于原始音频的频谱包络线(可表示为env_original)与变调音频的频谱包络线(可表示为env_pitchshift) 之间的比例关系(该比例关系诸如为频谱加权系数)，以及上述频谱值，确定音频信号对应的修正后频谱中的音频片段的频谱的频谱值。

基于比例关系对变调音频的频谱进行修正的方式，能够修正变调音频的频谱。频谱包络线能够对应于音频的音色，主要是由于包含在频谱包络线之中的共振峰，一般认为频谱包络线中的极大值为共振峰。在此情况下，修正后频谱与变调前音频的频谱的共振峰的位置的相似度大于预设阈值，表示修正后频谱的共振峰位置与原始音频的频谱的共振峰位置大致相同。由此，变调前后音频的音色保持不变，在听感上，变调音频给用户的体验与原始音频给用户的体验能够保持较高的一致性。

步骤S108，基于修正后频谱确定修正后音频。

在一种可能的实现方式中，可以对修正后频谱进行逆傅里叶变换 (IDFT，InverseDiscrete Fourier Transform)后，得到修正后音频。对修正后频谱进行逆傅里叶变换，即将修正后频谱进行时频转换，得到修正后音频；该修正后音频为对变调音频进行修正后得到的音频，能够与原始音频保持较高的音色一致性，明显提升了音频的自然度。

本公开实施例提供的音频处理方法，首先获取变调音频的频谱和频谱包络线，以及变调音频对应的变调前音频的频谱包络线；然后基于变调前音频的频谱包络线与变调音频的频谱包络线之间的比例关系，对变调音频的频谱进行修正，得到修正后频谱；最后基于修正后频谱确定修正后音频。本实施例提供的上述方式，通过根据比例关系对变调音频的频谱进行修正，能够修正该频谱的共振峰位置，从而使得修正后频谱与变调前音频的频谱保持共振峰位置基本不变，也即变调前后音频的音色保持不变；进而经过逆傅里叶变换后得到的修正后音频，能够在音频变调之后改善音色变化，明显提升声音的自然度，在听感上提升了变调音频给用户的体验。

为了更好地理解上述实施例所提供的音频处理方法，下面对本公开实施例提供的方案进行详细描述。

在本公开实施例中，参照图2所示的音频处理过程的示意图，提供一种变调音频的频谱和频谱包络线的获取方式，包括如下步骤1和步骤2。

步骤1，对变调音频进行分帧和加窗处理后，对变调音频的音频帧信号(也即每一帧音频信号)进行傅里叶变换(DFT，Discrete Fourier Transform)，得到变调音频的频谱。

在一种实现方式中，可以对变调音频(表示为X)进行分帧和加窗处理，得到多帧音频信号，且第i帧音频信号表示为x_i(n)。具体的，可以按照预设帧长(N)和预设帧移将变调音频划分为多个语音段，每个语音段即为一帧音频信号。

参照如下公式(1)，对每帧音频信号x_i(n)进行傅里叶变换，得到每帧音频信号x_i(n)对应的频谱X_i(k)，并基于各频谱X_i(k) 得到变调音频的频谱：

其中，N为傅里叶变换的点数，k用于表示傅里叶变换的第k个频谱。

步骤2，基于变调音频的频谱，获取变调音频的频谱包络线。

在具体实现时，首先对变调音频的频谱中每一帧音频信号对应的频谱X_i(k)，进行取幅度值后取对数以及逆傅里叶变换的处理，得到变调音频对应的倒谱序列。

具体的，参照公式(2)，对频谱X_i(k)进行取幅度值后取对数得到

参照公式(3)，对

进行逆傅里叶变换，得到变调音频的第i 帧音频信号x_i(n)对应的倒谱序列

接下来，将变调音频对应的倒谱序列中每一帧音频信号对应的倒谱序列

经过窗函数、傅里叶变换以及取指数的依次处理后，得到变调音频对应的频谱包络线。

具体的，参照公式(4)得到

经过窗函数处理后的倒谱序列h_i(n)：

其中，窗函数window(n)可按需选取。在此不作限制。

参照公式(5)进行傅里叶变换即可得到变调音频的第i帧音频信号x_i(n)对应的频谱包络线H_i(k)：

参照公式(6)对频谱包络线H_i(k)进行取指数的处理，得到变调音频的频谱包络线env_pitchshift：

至此，经过上述步骤1和步骤2即可得到的变调音频的频谱包络线。

在本公开实施例中，提供一种变调音频对应的原始音频的频谱包络线的获取方法，该方法可参照前述实施例中变调音频的频谱包络线的获取方法，主要包括如下三个步骤：

步骤1)，对变调音频对应的变调前音频进行分帧和加窗处理后，对变调前音频的每一帧音频信号进行傅里叶变换，得到变调前音频的频谱；

步骤2)，对变调前音频的频谱中每一帧音频信号对应的频谱，进行取幅度值后取对数以及逆傅里叶变换的处理，得到变调前音频对应的倒谱序列；

步骤3)，将变调前音频对应的倒谱序列中每一帧音频信号对应的倒谱序列，经过窗函数、傅里叶变换以及取指数的依次处理后，得到变调前音频对应的频谱包络线。

以上获取变调前音频的频谱包络线的具体实现方式，可参照上述获取变调音频的频谱包络线的实施例，在此不再展开描述。

在本公开实施例中，还可以提供另一种变调音频对应的变调前音频的频谱包络线的获取方法，参照如下所示：基于变调音频对应的变调系数，确定变调音频的频谱包络线的调整因子，基于调整因子对变调音频的频谱包络线进行插值处理，得到变调音频对应的变调前音频的频谱包络线。

插值处理的实现过程可以为：基于变调系数确定调整因子、采样频率，再利用有限带宽插值算法对变调音频的频谱包络线进行重采样；诸如，当变调系数s＝2时，则频谱包络线的调整因子为1/s＝0.5，此时对应的采样频率为0.5，基于该采样频率和有限带宽插值算法在变调音频的频谱包络线env_pitchshift之间插入新的频谱信号，由此得到变调音频对应的原始音频的频谱包络线env_original。利用有限带宽插值算法，能够准确度较高地还原到变调前音频的频谱包络线env_original。

基于变调前音频的频谱包络线env_original与变调音频的频谱包络线env_pitchshift之间的比例关系，本实施例提供一种对变调音频的频谱进行修正的具体方式，包括：针对变调音频的每一帧音频信号，均执行如下步骤(I)至(III)：

(I)获取变调音频的音频帧信号对应在变调音频的频谱中的频谱值X；

(II)确定变调前音频中与音频帧信号对应的目标帧信号，并确定音频帧信号和目标帧信号分别对应的频谱包络线；以及，确定目标帧信号对应的频谱包络线与音频帧信号对应的频谱包络线的频谱加权系数λ；

(III)参照如下公式(7)，将频谱值与频谱加权系数的乘积，确定为修正后频谱中与音频帧信号对应的频谱值X_modify。

至此，完成对变调音频的频谱的修正并得到修正后频谱。基于此，对该修正后频谱进行逆傅里叶变换，得到保持音色的修正后音频，使得修正后音频具有较高的自然度。

综上，上述实施例提供的音频处理方法，利用比例关系对变调音频的频谱进行修正，能够使得修正后频谱保持共振峰位置不变，也即变调前后音频的音色保持不变；进而基于修正后频谱确定的修正后音频，能够在音频变调之后改善音色变化，明显提升声音的自然度。因此，改善了音频变调之后对音色带来的不良影响，在升高或降低音调的同时，较好地保持音频的音色不变，提升了修正后音频的自然度。

另外，本实施例还提供一种音频处理装置，用于实现上述实施例提供的音频处理方法，参照图3，该装置包括：

第一获取模块302，用于获取变调音频的频谱和频谱包络线；

第二获取模块304，用于获取变调音频对应的变调前音频的频谱包络线；

频谱修正模块306，用于基于变调前音频的频谱包络线与变调音频的频谱包络线之间的比例关系，对变调音频的频谱进行修正，得到修正后频谱；

音频确定模块308，用于基于修正后频谱确定修正后音频。

本公开实施例提供的音频处理装置，通过根据比例关系对变调音频的频谱进行修正，能够修正该频谱的共振峰位置，从而使得修正后频谱与变调前音频的频谱保持共振峰位置基本不变，也即变调前后音频的音色保持不变；进而基于修正后频谱确定的修正后音频，能够在音频变调之后改善音色变化，明显提升声音的自然度。

在一些实施例中，上述频谱修正模块306包括：频谱值获取单元，用于获取变调音频的音频帧信号对应在变调音频的频谱中的频谱值；确定单元，用于确定变调前音频中与音频帧信号对应的目标帧信号，并确定音频帧信号和目标帧信号分别对应的频谱包络线；以及，确定目标帧信号对应的频谱包络线与音频帧信号对应的频谱包络线的频谱加权系数；频谱值修正单元，用于将频谱值与频谱加权系数的乘积，确定为修正后频谱中与音频帧信号对应的频谱值。

在一些实施例中，上述第二获取模块304还用于：基于变调音频对应的变调系数，对变调音频的频谱包络线进行插值处理，得到变调音频对应的变调前音频的频谱包络线。

在一些实施例中，上述第一获取模块302还用于：对变调音频进行分帧和加窗处理后，对变调音频的音频帧信号进行傅里叶变换，得到变调音频的频谱；基于变调音频的频谱，获取变调音频的频谱包络线。

在一些实施例中，上述第一获取模块302进一步用于：对变调音频的频谱中的音频帧信号对应的频谱，进行取幅度值后取对数以及逆傅里叶变换的处理，得到变调音频对应的倒谱序列；将变调音频对应的倒谱序列中音频帧信号对应的倒谱序列，经过窗函数、傅里叶变换以及取指数的依次处理后，得到变调音频对应的频谱包络线。

在一些实施例中，上述修正后频谱与所述变调前音频的频谱的共振峰的位置的相似度大于预设阈值。

图4为本公开实施例提供的一种电子设备的结构示意图。如图4 所示，电子设备400包括一个或多个处理器401和存储器402。

处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备 400中的其他组件以执行期望的功能。

存储器402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行所述程序指令，以实现上文所述的本公开的实施例的音频处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备400还可以包括：输入装置403和输出装置404，这些组件通过总线系统和/或其他形式的连接机构(未示出) 互连。

此外，该输入装置403还可以包括例如键盘、鼠标等等。

该输出装置404可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图4中仅示出了该电子设备400中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备400还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机可读存储介质，计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现本公开实施例所述的音频处理方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的音频处理方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

获取变调音频的频谱和频谱包络线；

获取所述变调音频对应的变调前音频的频谱包络线；

基于所述变调前音频的频谱包络线与所述变调音频的频谱包络线之间的比例关系，对所述变调音频的频谱进行修正，得到修正后频谱；

基于所述修正后频谱确定修正后音频。

2.根据权利要求1所述的方法，其特征在于，所述基于所述变调前音频的频谱包络线与所述变调音频的频谱包络线之间的比例关系，对所述变调音频的频谱进行修正，得到修正后频谱，包括：

获取所述变调音频的音频帧信号对应在所述变调音频的频谱中的频谱值；

确定所述变调前音频中与所述音频帧信号对应的目标帧信号，并确定所述音频帧信号和所述目标帧信号分别对应的频谱包络线；以及，确定所述目标帧信号对应的频谱包络线与所述音频帧信号对应的频谱包络线的频谱加权系数；

将所述频谱值与所述频谱加权系数的乘积，确定为修正后频谱中与所述音频帧信号对应的频谱值。

3.根据权利要求1或2所述的方法，其特征在于，所述获取所述变调音频对应的变调前音频的频谱包络线，包括：

基于所述变调音频对应的变调系数，确定所述变调音频的频谱包络线的调整因子；

基于所述调整因子对所述变调音频的频谱包络线进行插值处理，得到所述变调音频对应的变调前音频的频谱包络线。

4.根据权利要求1或2所述的方法，其特征在于，所述获取变调音频的频谱和频谱包络线，包括：

对变调音频进行加窗和分帧处理后，对所述变调音频的音频帧信号进行傅里叶变换，得到所述变调音频的频谱；

基于所述变调音频的频谱，获取所述变调音频的频谱包络线。

5.根据权利要求4所述的方法，其特征在于，所述基于所述变调音频的频谱，获取所述变调音频的频谱包络线，包括：

对所述变调音频的频谱中的音频帧信号对应的频谱，进行取幅度值后取对数以及逆傅里叶变换的处理，得到所述变调音频对应的倒谱序列；

将所述变调音频对应的倒谱序列中音频帧信号对应的倒谱序列，经过窗函数、傅里叶变换以及取指数的依次处理后，得到所述变调音频对应的频谱包络线。

6.根据权利要求1所述的方法，其特征在于，所述修正后频谱与所述变调前音频的频谱的共振峰的位置的相似度大于预设阈值。

7.一种音频处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取变调音频的频谱和频谱包络线；

第二获取模块，用于获取所述变调音频对应的变调前音频的频谱包络线；

频谱修正模块，用于基于所述变调前音频的频谱包络线与所述变调音频的频谱包络线之间的比例关系，对所述变调音频的频谱进行修正，得到修正后频谱；

音频确定模块，用于基于所述修正后频谱确定修正后音频。

8.根据权利要求7所述的装置，其特征在于，所述频谱修正模块包括：

频谱值获取单元，用于获取所述变调音频的音频帧信号对应在所述变调音频的频谱中的频谱值；

确定单元，用于确定所述变调前音频中与所述音频帧信号对应的目标帧信号，并确定所述音频帧信号和所述目标帧信号分别对应的频谱包络线；以及，确定所述目标帧信号对应的频谱包络线与所述音频帧信号对应的频谱包络线的频谱加权系数；

频谱值修正单元，用于将所述频谱值与所述频谱加权系数的乘积，确定为修正后频谱中与所述音频帧信号对应的频谱值。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备实现如权利要求1-6任一项所述的音频处理方法。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6中任一所述的音频处理方法。