CN113257211A

CN113257211A - 音频调节方法、介质、装置和计算设备

Info

Publication number: CN113257211A
Application number: CN202110524260.9A
Authority: CN
Inventors: 陈梦; 曹偲; 朱一闻; 李鹏; 白杨; 郑博; 刘华平
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-13
Anticipated expiration: 2041-05-13
Also published as: CN113257211B

Abstract

本公开的实施方式提供了一种音频调节方法、介质、装置和计算设备。该方法包括：从待调节音频文件中提取第一特征序列，第一特征序列包括各个第一音频片段的音高包络；其中，待调节音频文件包括连续多个第一音频片段；利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列；其中，标准音高序列包括连续多个第一标准音高，每个第一标准音高对应一个第一音频片段；音高调节序列包括多个音高调节数值，每个音高调节数值对应一个第一音频片段；利用音高调节序列及待调节音频文件的第一频谱包络，对待调节音频文件进行音高调节和频谱包络调整。本公开实施例能够对音频文件进行音调调节，并保证调节后音色不变。

Description

音频调节方法、介质、装置和计算设备

技术领域

本公开的实施方式涉及音频处理技术领域，更具体地，本公开的实施方式涉及音频调节方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是相关技术。

相关技术中，在对用户演唱歌曲的音频文件进行修音处理时，可以参考歌曲素材库中的歌曲以及其他修音时用作参考标准使用的歌曲信息文件，对用户演唱的音频文件进行音高调节和/或节奏调整。

常用的音高调节方法包括传统的信号处理算法，比如升降调算法。这种方法可以调节音频文件的音高，但同时会导致音频文件的频谱包络发生变化；而由于频谱包络中蕴含着音色信息，因此会出现调节后音频文件的音色明显变化的情况。

发明内容

本公开期望提供一种音频调节方法和装置。

在本公开实施方式的第一方面中，提供了一种音频调节方法，包括：

从待调节音频文件中提取第一特征序列，第一特征序列包括各个第一音频片段的音高包络；其中，待调节音频文件包括连续多个第一音频片段；

利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列；其中，标准音高序列包括连续多个第一标准音高，每个第一标准音高对应一个第一音频片段；音高调节序列包括多个音高调节数值，每个音高调节数值对应一个第一音频片段；

利用音高调节序列及待调节音频文件的第一频谱包络，对待调节音频文件进行音高调节和频谱包络调整。

在本公开的一个实施例中，利用音高调节序列及待调节音频文件的第一频谱包络，对待调节音频文件进行音高调节和频谱包络调整，包括：

分别利用音高调节序列中的各个音高调节数值，对待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件；

获取音高调节后的音频文件的第二频谱包络；

利用第一频谱包络和第二频谱包络，对音高调节后的音频文件进行第一频谱包络调整。

在本公开的一个实施例中，利用第一频谱包络和第二频谱包络，对音高调节后的音频文件进行第一频谱包络调整，包括：

将音高调节后的音频文件的信号频谱除以第二频谱包络，并乘以第一频谱包络，得到第一频谱包络调整后的音频文件的信号频谱。

利用音高调节序列计算各个音频帧对应的升降调系数；其中，每个第一音频片段包括多个音频帧；

利用各个音频帧对应的升降调系数和第一频谱包络，计算各个音频帧对应的预修改序列；

采用各个音频帧对应的预修改序列，分别对各个音频帧的信号频谱进行预修改操作，得到预修改之后的待调节音频文件，以实现对待调节音频文件的第二频谱包络调整；

分别利用音高调节序列中的各个音高调节数值，对预修改之后的待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件。

在本公开的一个实施例中，待调节音频文件的第一频谱包络的提取方式包括：

将待调节音频文件由时域信号转换为频域信号；

计算频域信号的频谱能量；

对频谱能量取对数，并进行傅里叶逆变换，得到倒频谱；

对倒频谱进行低通滤波，得到频谱包络相关信息；其中，低通滤波的边界是根据待调节音频文件的基频和信号采样率所确定；

对频谱包络相关信息进行傅里叶变换，并进行指数运算，得到待调节音频文件的第一频谱包络。

在本公开的一个实施例中，采用重采样和时间尺度调整TSM算法结合的方式进行音高调节。

在本公开的一个实施例中，利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列，包括：

分别利用第一特征序列和标准音高序列，确定待调节音频文件的第一音域区间和标准音高序列的第二音域区间；

在第一音域区间与第二音域区间相同的情况下，利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列。

在本公开的一个实施例中，利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列，还包括：

在第一音域区间与第二音域区间不同的情况下，将标准音高序列的音域区间调整至第一音域区间，得到调整后的标准音高序列；

利用第一特征序列及调整后的标准音高序列，确定待调节音频文件的音高调节序列。

在本公开的一个实施例中，分别利用第一特征序列和标准音高序列，确定待调节音频文件的第一音域区间和标准音高序列的第二音域区间，包括：

计算第一特征序列中包含的第一音频片段的音高包络的平均值，得到待调节音频文件的第一音域区间；并且，计算标准音高序列中包含的第一标准音高的平均值，得到标准音高序列的第二音域区间。

在本公开的一个实施例中，第一特征序列还包括各个第一音频片段的第一时间戳信息，标准音高序列还包括各个第一标准音高的第二时间戳信息；

上述方法还包括：

利用第一时间戳信息和第二时间戳信息，计算待调节音频文件的节奏调节序列，节奏调节序列包括多个节奏调节数值，每个节奏调节数值对应一个第一音频片段；

利用节奏调节序列，对待调节音频文件进行节奏调节。

在本公开的一个实施例中，还包括：

接收音频信号，音频信号中包含歌曲伴奏和用户演唱的歌曲；

从音频信号中提取用户演唱的歌曲，将用户演唱的歌曲作为待调节音频文件；

从音频信号中提取歌曲伴奏，将歌曲伴奏的音域区间调整至第一音域区间；

将调整后的歌曲伴奏与调整后的待调节音频文件进行混音操作。

在本公开实施方式的第二方面中，提供了一种音频调节装置，包括：

特征提取模块，用于从待调节音频文件中提取第一特征序列，第一特征序列包括各个第一音频片段的音高包络；其中，待调节音频文件包括连续多个第一音频片段；

数据分析模块，用于利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列；其中，标准音高序列包括连续多个第一标准音高，每个第一标准音高对应一个第一音频片段；音高调节序列包括多个音高调节数值，每个音高调节数值对应一个第一音频片段；

声音变换技术模块，用于利用音高调节序列及待调节音频文件的第一频谱包络，对待调节音频文件进行音高调节和频谱包络调整。

在本公开的一个实施例中，声音变换技术模块，包括：

第一音高调节子模块，用于分别利用音高调节序列中的各个音高调节数值，对待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件；

第一频谱包络调整子模块，用于获取音高调节后的音频文件的第二频谱包络；利用第一频谱包络和第二频谱包络，对音高调节后的音频文件进行第一频谱包络调整。

在本公开的一个实施例中，第一频谱包络调整子模块用于，将音高调节后的音频文件的信号频谱除以第二频谱包络，并乘以第一频谱包络，得到第一频谱包络调整后的音频文件的信号频谱。

在本公开的一个实施例中，声音变换技术模块，包括：

第二频谱包络调整子模块，用于利用音高调节序列计算各个音频帧对应的升降调系数；其中，每个第一音频片段包括多个音频帧；利用各个音频帧对应的升降调系数和第一频谱包络，计算各个音频帧对应的预修改序列；采用各个音频帧对应的预修改序列，分别对各个音频帧的信号频谱进行预修改操作，得到预修改之后的待调节音频文件，以实现对待调节音频文件的第二频谱包络调整；

第二音高调节子模块，用于分别利用音高调节序列中的各个音高调节数值，对预修改之后的待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件。

在本公开的一个实施例中，声音变换技术模块包括：

频谱包络提取子模块，用于将待调节音频文件由时域信号转换为频域信号；计算频域信号的频谱能量；对频谱能量取对数，并进行傅里叶逆变换，得到倒频谱；对倒频谱进行低通滤波，得到频谱包络相关信息；其中，低通滤波的边界是根据待调节音频文件的基频和信号采样率所确定；对频谱包络相关信息进行傅里叶变换，并进行指数运算，得到待调节音频文件的第一频谱包络。

在本公开的一个实施例中，声音变换技术模块采用重采样和时间尺度调整(TSM)算法结合的方式进行音高调节。

在本公开的一个实施例中，数据分析模块包括：

音域区间计算子模块，用于分别利用第一特征序列和标准音高序列，确定待调节音频文件的第一音域区间和标准音高序列的第二音域区间；

音高调节序列确定子模块，用于在第一音域区间与第二音域区间相同的情况下，利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列。

在本公开的一个实施例中，音高调节序列确定子模块还用于：

在本公开的一个实施例中，音域区间计算子模块用于，计算第一特征序列中包含的第一音频片段的音高包络的平均值，得到待调节音频文件的第一音域区间；并且，计算标准音高序列中包含的第一标准音高的平均值，得到标准音高序列的第二音域区间。

数据分析模块还包括：节奏调节序列确定子模块，用于利用第一时间戳信息和第二时间戳信息，计算待调节音频文件的节奏调节序列，节奏调节序列包括多个节奏调节数值，每个节奏调节数值对应一个第一音频片段；

声音变换技术模块还包括：节奏调节子模块，用于利用节奏调节序列，对待调节音频文件进行节奏调节。

在本公开的一个实施例中，上述装置还包括：

音频提取模块，用于接收音频信号，音频信号中包含歌曲伴奏和用户演唱的歌曲；从音频信号中提取用户演唱的歌曲，将用户演唱的歌曲作为待调节音频文件；

伴奏调节模块，用于从音频信号中提取歌曲伴奏，将歌曲伴奏的音域区间调整至第一音域区间；

混音模块，用于将调整后的歌曲伴奏与调整后的待调节音频文件进行混音操作。

在本公开实施方式的第三方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现上述音频调节方法的步骤。

在本公开实施方式的第四方面中，提供了一种计算设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现音频调节方法的步骤。

根据本公开实施方式的音频调节方法和装置，可以利用音高调节序列及待调节音频文件的频谱包络，对待调节音频文件进行音高调节和频谱包络调整，从而消除音高调节所导致的频谱包络变化，保证音高调节后音频文件的频谱包络不变，保证调节后音色不变。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了根据本公开一实施方式的音频调节方法实现流程图一；

图2示意性地示出了根据本公开一实施方式的音频调节方法中，待调节音频文件的波形示意图；

图3示意性地示出了根据本公开一实施方式的音频调节方法中，步骤S12的一种实现流程图；

图4示意性地示出了根据本公开一实施方式的音频调节方法中，确定音高调节序列及调节音高的实现方式示意图；

图5示意性地示出了根据本公开一实施方式的音频调节方法中，调节音高及节奏的实现方式示意图；

图6示意性地示出了根据本公开一实施方式的音频调节方法中，实现音色保护的一种实现流程图；

图7A示意性地示出了一种待调节音频文件(记为X)的音高和频谱包络示意图；

图7B示意性地示出了对该待调节音频文件进行音高调节后的音频文件(记为Y)的音高和频谱包络示意图；

图7C示意性地示出了对该待调节音频文件进行音高调节和第一频谱包络调整后的音频文件(记为Y′)的音高和频谱包络示意图；

图8示意性地示出了根据本公开一实施方式的音频调节方法中，实现音色保护的另一种实现流程图；

图9示意性地示出了根据本公开一实施方式的音频调节方法中，提取待调节音频文件的第一频谱包络的一种实现流程图；

图10示意性地示出了浊音发生过程；

图11示意性地示出了根据本公开一实施方式的音频调节方法中，提取频谱包络的一种实现流程图；

图12示意性地示出了根据一种倒频谱的示意图；

图13示意性地示出了根据本公开一实施方式的对用户演唱歌曲进行修音操作的实现流程图；

图14示意性地示出了根据本公开一实施方式的用于音频调节方法的介质示意图；

图15示意性地示出了根据本公开一实施方式的音频调节装置结构示意图；

图16示意性地示出了根据本公开一实施方式的计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种音频调节方法、介质、装置和计算设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

现有的音频调节技术中，在对音频文件进行音高调节时，会导致调节后音频文件的音色发生明显变化。

有鉴于此，本公开提供一种音频调节方法和装置，利用音高调节序列及待调节音频文件的频谱包络，对待调节音频文件进行音高调节和频谱包络调整，从而消除音高调节所导致的频谱包络变化，使音高调节后音频文件的频谱包络不变，从而保证调节后音色不变。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本公开示例性实施方式的音频调节方法。

图1示意性地示出了根据本公开一实施方式的音频调节方法实现流程图，如图1所示，本公开实施例的音频调节方法包括以下步骤：

S11：从待调节音频文件中提取第一特征序列，该第一特征序列包括各个第一音频片段的音高包络；其中，该待调节音频文件包括连续多个第一音频片段；

S12：利用该第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列；其中，该标准音高序列包括连续多个第一标准音高，每个第一标准音高对应一个第一音频片段；音高调节序列包括多个音高调节数值，每个音高调节数值对应一个第一音频片段；

S13：利用音高调节序列及待调节音频文件的第一频谱包络，对待调节音频文件进行音高调节和频谱包络调整。

通过上述过程，本公开实施例利用待调节音频文件的第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列；再利用该音高调节序列和待调节音频文件的第一频谱包络，对待调节音频文件进行音高调节和频谱包络调整。由于对待调节音频文件进行频谱包络调整，消除了音高调节所导致的频谱包络变化，保证音高调节后音频文件的频谱包络不变，从而实现了对音频文件的音色保护，保证调节后的音频文件与待调节音频文件的音色相比不会发生明显变化。

图2示意性地示出了根据本公开一实施方式的音频调节方法中，待调节音频文件的波形示意图。本公开在获得用户演唱的待调节音频文件后，首先可以对待调节音频文件进行特征提取，提取的信息可以包括音高包络，还可以包括歌词每个字的时间戳信息。其中，获取时间戳信息的目的是与标准音高序列进行时长对齐操作。

如图2所示，“啦啦啦啦…”是用户演唱的调节音频文件中的一段，该段音频文件包括连续的多个第一音频片段；每个第一音频片段可以为固定时间长度的片段，或者每个第一音频片段对应歌曲中一个字的全部或部分。待调节音频文件的第一特征序列包括各个第一音频片段的音高包络。

图3示意性地示出了根据本公开一实施方式的音频调节方法中，步骤S12的一种实现流程图。如图3所示，在一种可能的实施方式中，利用待调节音频文件的第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列的过程包括：

S31：分别利用第一特征序列和标准音高序列，确定待调节音频文件的第一音域区间和标准音高序列的第二音域区间；

S32：在第一音域区间与第二音域区间相同的情况下，利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列。

如图3所示，在一种可能的实施方式中，上述过程还可以包括：

S33：在第一音域区间与第二音域区间不同的情况下，将标准音高序列的音域区间调整至第一音域区间，得到调整后的标准音高序列；利用第一特征序列及调整后的标准音高序列，确定待调节音频文件的音高调节序列。

可选地，本公开计算第一特征序列中包含的第一音频片段的音高包络的平均值，将该平均值作为待调节音频文件的第一音域区间。

可选地，本公开计算标准音高序列中包含的第一标准音高的平均值，将该平均值作为标准音高序列的第二音域区间。

例如，本公开采用以下式子(1)，确定待调节音频文件的第一音域区间：

其中，

表示待调节音频文件的第一音域区间；

X_sut,i表示待调节音频文件的第一特征序列中，第i个第一音频片段的音高包络的音高值；

N表示待调节音频文件中包含的第一音频片段的个数，也就是第一特征序列所包含的音高包络的个数。

例如，本公开可以采用以下式子(2)，确定标准音高序列的第二音域区间：

其中，

表示标准音高序列的第二音域区间；

X_ref,i表示标准音高序列的第i个第一标准音高；

N表示标准音高序列中包含的第一标准音高的个数。

之后，利用式子(3)，计算第一音域区间和第二音域区间的差异：

其中，X_diff表示第一音域区间和第二音域区间的差异；

表示标准音高序列的第二音域区间；

表示待调节音频文件的第一音域区间。

可选地，当X_diff不超过预设阈值时，认为第一音域区间与第二音域区间相同；当X_diff超过预设阈值时，认为第一音域区间与第二音域区间不同。例如，该预设阈值设置为1个半音。

如果第一音域区间与第二音域区间不同，则首先可以将标准音高序列的音域区间调整至与第一特征序列相同，也就是将标准音高序列由第二音域区间调整至第一音域区间。如采用以下式子(4)进行调整：

其中，X_ref表示标准音高序列；

表示调整后的标准音高序列；

X_diff表示第一音域区间和第二音域区间的差异。

之后，利用第一特征序列及调整后的标准音高序列，确定待调节音频文件的音高调节序列(如上述步骤S32)；如果不需要调整标准音高序列，则利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列(如上述步骤S31)。

图4示意性地示出了根据本公开一实施方式的音频调节方法中，确定音高调节序列及调节音高的实现方式示意图。在图4中，围绕音频文件波形的上方或下方存在多个不规则曲线，每个不规则曲线表示待调节音频文件的第一特征序列中的一个音高包络。横穿各个音高包络的直线表示该音高包络的音高平滑值。在采用第一特征序列及标准音高序列确定音高调节序列的情况下，各个音高平滑值上方的直线表示标准音高序列中对应的第一标准音高；在采用第一特征序列及调整后的标准音高序列确定音高调节序列的情况下，各个音高平滑值上方的直线表示调整后的标准音高序列中对应的第一标准音高。

针对图4中待调节音频文件的各个第一音频片段，计算各个第一音频片段的音高平滑值与对应的第一标准音高之间的音程差，得到整个待调节音频文件的音高调节序列。例如，图4中，音高平滑值最大的第一音频片段，其音高平滑值与第一标准音高之间的音程差为4.05个半音，表示用户演唱的该第一音频片段的音高比标准音高低4.05个半音；则将该第一音频片段对应的音高调节数值确定为4.05个半音。后续是在音高调节时，将该第一音频片段的音高包络向高调节4.05个半音。采用前述方式依次计算待调节音频文件中每个第一音频片段对应的音高调节数值，构成整个待调节音频文件的音高调节序列。后续即可利用音高调节序列依次对每个第一音频片段进行调节，从而完成对整个待调节音频文件的音高调节。

除了音高调节之外，本公开还可以对待调节音频文件进行节奏调整。例如，本公开的第一特征序列还包括第一音频片段的第一时间戳信息，标准音高序列还包括各个第一标准音高的第二时间戳信息；

本公开提出的音频调节方法还可以包括：

利用上述第一时间戳信息和第二时间戳信息，计算待调节音频文件的节奏调节序列，该节奏调节序列包括多个节奏调节数值，每个节奏调节数值对应一个第一音频片段；

利用上述节奏调节序列，对待调节音频文件进行节奏调节。

例如，本公开采用以下式子(5)，确定待调节音频文件的各个第一音频片段对应的节奏调节数值：

其中，Duration_ratio表示某个第一音频片段的节奏调节数值；

Duration_sut表示该第一音频片段的持续时长；

Duration_ref表示对应该第一音频片段的第一标准音高的持续时长。

上述第一时间戳信息和第二时间戳信息的目的是对待调节音频文件与标准音高序列进行对齐操作，并计算待调节音频文件中各个第一音频片段的持续时长，以及计算标准音高序列中各个第一标准音高的持续时长。

例如，对于待调节音频文件的某个第一音频片段，如果计算出节奏调节数值为1.2，则表示第一音频片段(对应歌曲中的一个字或一个字中的一个音)的标准时长与用户演唱的实际时长的比值为1.2；那么在进行节奏调整时，将待调节音频文件中该第一音频片段的时长拉长为原来的 1.2倍。采用同样的方式依次对待调节音频文件中的各个第一音频片段进行持续时长的调整，即实现了对整个待调节音频文件的节奏调整。

图5示意性地示出了根据本公开一实施方式的音频调节方法中，调节音高及节奏的实现方式示意图。图5上半部分示出了待调节音频文件各个第一音频片段的音高包络及对应的第一标准音高，下半部分示出了经过音高调节和节奏调整后的音频文件的音高包络。

在一些实施方式中，本公开采用重采样和时间尺度调整(TSM，Time ScaleModification)算法结合的方式进行音高调节。TSM可以对音频进行时域的拉伸，改变音频长度，而重采样则可以在对音频拉伸的同时改变音频音高。比如，如果需要将原始音频文件的音高提升一个八度，原始音频文件的时长为L，可以首先进行重采样，将音频文件的时长变为 L/2，相应地音高也提升了一个八度；之后通过TSM算法将音频文件拉伸，将音频文件的时长由L/2恢复到L。这样，既改变了音频文件的音高，又保持音频文件的时长不变。常用的TSM算法包括波形相似重叠相加算法(Wsola，Waveform Similarity Overlap-Add)、相似重叠相加算法(Sola， Similarity Overlap-Add)、相位声码器(Phase vocoder)等。

由于音高的变化伴随着频谱包络(spectral envelope)的变化，而频谱包络的结构中蕴含着声源的音色信息，因此对待调节音频文件的音高调节会导致音色发生变化。为了消除对音色的影响，本公开可以利用待调节音频文件的第一频谱包络，实现对待调节音频文件的音色保护。

本公开至少可以采用以下两种方式进行实现音色保护：

第一种，首先利用上述音高调节序列对待调节音频文件进行音高调节，再修改音高调节后的音频文件的频谱包络，使修改后的频谱包络与待调节音频文件的频谱包络相同，从而保证音高调节后的音频文件的音色与待调节音频文件的音色相比不会发生明显变化。

第二种，首先对待调节音频文件各个音频帧的信号频谱进行预修改操作，预修改操作的目的是抵消后续音高调节过程对待调节音频文件的频谱包络的影响；之后，对预修改之后的待调节音频文件中的各个音频帧进行音高调节，音高调节后的音频文件的频谱包络与待调节音频文件的频谱包络相同，从而保证音高调节后的音频文件的音色与待调节音频文件的音色相比不会发生明显变化。

图6示意性地示出了根据本公开一实施方式的音频调节方法中，实现音色保护的一种实现流程图。如图6所示，在一些实施方式中，上述实现音色保护的第一种方式具体包括：

S61：分别利用音高调节序列中的各个音高调节数值，对待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件；

S62：获取音高调节后的音频文件的第二频谱包络；

S63：利用该第一频谱包络和该第二频谱包络，对音高调节后的音频文件进行第一频谱包络调整。

具体地，上述步骤S63可以包括：将音高调节后的音频文件的信号频谱除以第二频谱包络，并乘以第一频谱包络，得到第一频谱包络调整后的音频文件的信号频谱。

例如，采用以下式子(6)计算第一频谱包络调整后的音频文件的信号频谱：

其中，Y'表示第一频谱包络调整后的音频文件的信号频谱；

Y表示音高调节之后的音频文件的信号频谱；

X表示待调节音频文件的信号频谱；

Env_x表示第一频谱包络；

Env_y表示第二频谱包络。

在得到第一频谱包络调整后的音频文件的信号频谱Y'之后，再对Y' 进行傅里叶逆变换，即可将信号由频域转换至时域，得到音高调节和第一频谱包络调整后的音频文件。

图7A至图7C显示了音高调节和第一频谱包络调整的效果图。其中，图7A示意性地示出了一种待调节音频文件(记为X)的音高和频谱包络示意图，7B示意性地示出了对该待调节音频文件进行音高调节后的音频文件(记为Y)的音高和频谱包络示意图。可以看出，在进行音高调节后，Y的频率比X的频率要小，因为周期变大了；Y的频谱包络与X的频谱包络不同，频谱包络的峰值位置和形状都发生了改变。图7C示意性地示出了对该待调节音频文件进行音高调节和第一频谱包络调整后的音频文件(记为Y′)的音高和频谱包络示意图。可以看出，在进行第一频谱包络调整后，Y′的音高与Y的音高相同，Y′的频谱包络与X的频谱包络相同。图7C显示的就是对原始的待调节音频文件进行音高调节和音色保护后最终输出的频谱。

图8示意性地示出了根据本公开一实施方式的音频调节方法中，实现音色保护的另一种实现流程图。如图8所示，在一些实施方式中，上述实现音色保护的第二种方式具体包括：

S81：利用音高调节序列计算各个音频帧对应的升降调系数；其中，每个第一音频片段包括多个音频帧；

S82：利用各个音频帧对应的升降调系数和第一频谱包络，计算各个音频帧对应的预修改序列；

S83：采用各个音频帧对应的预修改序列，分别对各个音频帧的信号频谱进行预修改操作，得到预修改之后的待调节音频文件，以实现对待调节音频文件的第二频谱包络调整；

S84：分别利用音高调节序列中的各个音高调节数值，对预修改之后的待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件。

例如，采用以下式子(7)计算上述预修改序列：

p(k)＝Env_x(k*alpha)/Env_x(k) …(7)

其中，p(k)为预修改序列；括号中的k表示序列号，取值从1到N， N指某个音频帧X的采样点数；

Env_x表示该音频帧X的第一频谱包络，括号中的参数表示第一频谱包络的采样索引；

alpha表示该音频帧X对应的升降调系数。

计算出音频帧X的预修改序列后，可以采用以下式子(8)对音频帧 X的信号频谱进行预修改操作：

X'＝X*p(k) …(8)

其中，X'表示对音频帧X进行预修改操作之后的信号；

X表示音频帧，其中X是一个长度为N的向量，向量中的每个元素表示音频帧的一个采样点；

符号“*”表示两个向量中对应位置的元素分别相乘，得到新的向量。

预修改的目的是对原始信号的频谱包络进行一个幅度调整，用以抵消由于音高调节产生了频谱包络变化。

采用上述方式，分别对各个音频帧进行预修改操作，并将预修改之后的信号拼接起来，得到预修改之后的待调节音频文件，以实现对待调节音频文件的第二频谱包络调整。之后，分别利用音高调节序列中的各个音高调节数值，对预修改之后的待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件。

需要说明的时，上述音高调节前的第二频谱包络调整与音高调节后的第一频谱包络调整可以只选其中之一的方案，也可以两者并存。

上述两种方式中，均需使用待调节音频文件的第一频谱包络。图9 示意性地示出了根据本公开一实施方式的音频调节方法中，提取待调节音频文件的第一频谱包络的一种实现流程图，包括：

S91：将待调节音频文件由时域信号转换为频域信号；

S92：计算该频域信号的频谱能量；

S93：对该频谱能量取对数，并进行傅里叶逆变换，得到倒频谱；

S94：对该倒频谱进行低通滤波，得到频谱包络相关信息；其中，该低通滤波的边界是根据待调节音频文件的基频和信号采样率所确定；

S95：对该频谱包络相关信息进行傅里叶变换，并进行指数运算，得到待调节音频文件的第一频谱包络。

声学理论中，语音分为清音和浊音两种。浊音是一种准周期脉冲激励所发出的声音，清音则是由不稳定气流激励产生的。图10示意性地示出了浊音发生过程。图10中，第一幅图像表示浊音发声过程中声门产生的气流，如图10所示，在浊音发声过程中，声门产生的气流相当于激励信号。第二幅图像表示声道的响应(也就是频谱包络)。声道则类似于一个滤波器，激励信号通过滤波器调制的输出就是我们听见的声音，如图10中的第三幅图像所示。如果用e(t)表示声音的输入激励(基频信号)， h(t)表示声道的响应(即频谱包络)。通过解卷积，可以将声门激励和声道响应分离开，通道声码器(Channel Vocoder)、线性预测编码(LPC， Linear Predictive Coding)分析和倒谱(Cepstrum)分析是3种比较常用的解卷积方法。本公开中采取的是倒谱分析法。

图11示意性地示出了根据本公开一实施方式的音频调节方法中，提取频谱包络的一种实现流程图。如图11所示，e(t)表示基频信号，h(t)表示频谱包络，e(t)经h(t)调整后，得到待调节音频文件x(t)。首先对待调节音频文件x(t)(即原始的语音信号)进行快速傅里叶变换(FFT)，将信号从时域变到频域，时域卷积在频域上就是相乘，如下式(9)：

X(ω)＝E(ω)*H(ω) …(9)

其中，X(ω)表示x(t)转换到频域后的信号，E(ω)表示e(t)转换到频域后的信号，H(ω)表示h(t)转换到频域后的信号。

由于频域分析中只关注频谱(spectrum)的能量，忽略其相位信息，可以对上式取模值，取模的结果如下式(10)：

||X(ω)||＝||E(ω)||*||H(ω)|| …(10)

之后对频谱取对数，取对数的结果如下式(11)：

log(||X(ω)||)＝log(||E(ω)||)+log(||H(ω)||) …(11)

由上式(11)可见，频谱取对数后由两个部分组成，由于该两部分存在的频谱区域不同，在进行傅里叶逆变换(IFFT)后，可以通过低通滤波(cepstral liftering)的方式，获得聚集在低频段的频谱包络信息。对信号功率谱的对数值进行傅里叶逆变换的结果，就是倒频谱(Cepstrum)。本公开可以采用式子(12)对信号功率谱的对数值进行傅里叶逆变换：

Cepstrum＝ifft(log(||X(ω)||)) …(12)

图12示意性地示出了根据一种倒频谱的示意图，如图12所示，倒频谱包含两部分的信息，虚线左边的低频部分就是频谱包络信息，高频部分就是声门激励信息，图12的声门激励信息中的三个脉冲信号表示激励频谱，其中第一个最强的峰值对应的频率值就是基频。因此，在倒谱域中，可以使用低通滤波操作将频谱包络从倒谱信息中提取出来。低通滤波的边界值(截至频率)可以通过式子(13)确定：

其中，P表示低通滤波的边界；

F_s表示待调节音频文件的信号采样率；

F表示待调节音频文件的基频。

之后，继续参照图11所示，将倒谱域中低通滤波获得的频谱包络相关信息通过傅里叶变换(FFT)转回频域，其中，w(t)表示提取频谱包络相关信息所使用的低通滤波；然后进行指数运算(抵消前期做的对数运算)就获得了频域中的频谱信息。以原始信号x为例，通过傅里叶变换可以获得频谱X，通过倒谱分析法可以获得频谱包络，即Env_X。如式子(14)确定频谱包络的计算式：

Env_x＝exp(fft(Cepstrum*w(t)))) …(14)

以上介绍了对待调节音频文件进行调节的方法，该调节可以包括音高调节和节奏调整。在进行音高调节时，本公开对待调节音频文件进行频谱包络调整，以音频文件的音色不变。前述待调节音频文件可以为用户演唱的歌曲。

本公开可以应用于对用户演唱歌曲的修音操作，具体地，本公开提出的音频调节方法还可以包括：

接收音频信号，该音频信号中包含歌曲伴奏和用户演唱的歌曲；

从该音频信号中提取用户演唱的歌曲，将该用户演唱的歌曲作为待调节音频文件；

从音频信号中提取歌曲伴奏，将歌曲伴奏的音域区间调整至上述第一音域区间；

采用上述方式，实现了对用户演唱歌曲的修音操作。

图13示意性地示出了根据本公开一实施方式的对用户演唱歌曲进行修音操作的实现流程图。如图13所示，获得用户干声音频后(干声音频指未经任何混音或其他处理的用户录音音频)，提取用户干声音频中的特征序列。将用户干声音频中的特征序列与歌曲模板的已有特征一起输入数据分析模块。数据分析模块首先对用户干声音频和歌曲模板进行时长对齐，在时长对齐操作之后，对用户干声音频和歌曲模板进行音高对比和节奏对比，从而计算出音高调节序列和节奏调节序列，并将计算出的音高调节序列和节奏调节序列输入声音变换技术模块。声音变换技术模块根据音高调节序列和节奏调节序列对用户干声音频进行音高以及节奏的修正，并且在音高变化的同时还进行频谱包络调整，以实现音色保护。数据分析模块还将用户干声音频和歌曲模板之间的音程差发送至伴奏调节模块，伴奏调节模块根据该音程差对歌曲伴奏进行调节，并输出调节后的歌曲伴奏，调节后的歌曲伴奏的音域区间与用户干声音频的音域区间一致。最后，将声音变换技术模块输出的调节后的用户音频与伴奏调节模块输出的调节后的歌曲伴奏进行混音操作，得到最终输出的音频文件。

综上可见，本公开在升降调算法实现音高修正的方案中，加入了音频文件频谱包络的调整，以实现对音频文件的音色保护，从而在实现音高变化的同时，音色不会发生明显变化，修音后的人声会更加自然。并且，本公开在频谱包络的提取过程中，根据待调节音频文件的基频和信号采样率确定低通滤波的截至频率，实现了根据待调节音频文件的自适应设置，从而能够准确提取待调节音频文件的频谱包络。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图14对本公开示例性实施方式的介质进行说明。

在一些可能的实施方式中，本公开的各个方面还可以实现为一种计算机可读介质，其上存储有程序，当该程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的音频调节方法中的步骤。

具体地，上述处理器执行上述程序时用于实现如下步骤：

从待调节音频文件中提取第一特征序列，该第一特征序列包括各个第一音频片段的音高包络；其中，该待调节音频文件包括连续多个第一音频片段；

需要说明的是：上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图14所示，描述了根据本公开的实施方式的介质140，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序，并可以在设备上运行。然而，本公开不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算设备。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图15对本公开示例性实施方式的装置进行说明。

如图15所示，本公开实施例的音频调节装置可以包括：

特征提取模块1510，用于从待调节音频文件中提取第一特征序列，第一特征序列包括各个第一音频片段的音高包络；其中，待调节音频文件包括连续多个第一音频片段；

数据分析模块1520，用于利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列；其中，标准音高序列包括连续多个第一标准音高，每个第一标准音高对应一个第一音频片段；音高调节序列包括多个音高调节数值，每个音高调节数值对应一个第一音频片段；

声音变换技术模块1530，用于利用音高调节序列及待调节音频文件的第一频谱包络，对待调节音频文件进行音高调节和频谱包络调整。

在一种可能的实施方式中，上述声音变换技术模块1530，包括：

第一音高调节子模块1531，用于分别利用音高调节序列中的各个音高调节数值，对待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件；

第一频谱包络调整子模块1532，用于获取音高调节后的音频文件的第二频谱包络；利用第一频谱包络和第二频谱包络，对音高调节后的音频文件进行第一频谱包络调整。

在一种可能的实施方式中，上述第一频谱包络调整子模块1532用于，将音高调节后的音频文件的信号频谱除以第二频谱包络，并乘以第一频谱包络，得到第一频谱包络调整后的音频文件的信号频谱。

第二频谱包络调整子模块1533，用于利用音高调节序列计算各个音频帧对应的升降调系数；其中，每个第一音频片段包括多个音频帧；利用各个音频帧对应的升降调系数和第一频谱包络，计算各个音频帧对应的预修改序列；采用各个音频帧对应的预修改序列，分别对各个音频帧的信号频谱进行预修改操作，得到预修改之后的待调节音频文件，以实现对待调节音频文件的第二频谱包络调整；

第二音高调节子模块1534，用于分别利用音高调节序列中的各个音高调节数值，对预修改之后的待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件。

在一种可能的实施方式中，上述声音变换技术模块1530包括：

频谱包络提取子模块1535，用于将待调节音频文件由时域信号转换为频域信号；计算频域信号的频谱能量；对频谱能量取对数，并进行傅里叶逆变换，得到倒频谱；对倒频谱进行低通滤波，得到频谱包络相关信息；其中，低通滤波的边界是根据待调节音频文件的基频和信号采样率所确定；对频谱包络相关信息进行傅里叶变换，并进行指数运算，得到待调节音频文件的第一频谱包络。

在一种可能的实施方式中，上述声音变换技术模块1530采用重采样和TSM算法结合的方式进行音高调节。

在一种可能的实施方式中，上述数据分析模块1520包括：

音域区间计算子模块1521，用于分别利用第一特征序列和标准音高序列，确定待调节音频文件的第一音域区间和标准音高序列的第二音域区间；

音高调节序列确定子模块1522，用于在第一音域区间与第二音域区间相同的情况下，利用第一特征序列及标准音高序列，确定待调节音频文件的音高调节序列。

在一种可能的实施方式中，上述音高调节序列确定子模块1522还用于：

在一种可能的实施方式中，上述音域区间计算子模块1521用于，计算第一特征序列中包含的第一音频片段的音高包络的平均值，得到待调节音频文件的第一音域区间；并且，计算标准音高序列中包含的第一标准音高的平均值，得到标准音高序列的第二音域区间。

在一种可能的实施方式中，上述第一特征序列还包括各个第一音频片段的第一时间戳信息，标准音高序列还包括各个第一标准音高的第二时间戳信息；

上述数据分析模块1520还包括：节奏调节序列确定子模块1523，用于利用第一时间戳信息和第二时间戳信息，计算待调节音频文件的节奏调节序列，节奏调节序列包括多个节奏调节数值，每个节奏调节数值对应一个第一音频片段；

在一种可能的实施方式中，上述声音变换技术模块1530还包括：节奏调节子模块1536，用于利用节奏调节序列，对待调节音频文件进行节奏调节。

在一种可能的实施方式中，上述装置还包括：

音频提取模块1540，用于接收音频信号，音频信号中包含歌曲伴奏和用户演唱的歌曲；从音频信号中提取用户演唱的歌曲，将用户演唱的歌曲作为待调节音频文件；

伴奏调节模块1550，用于从音频信号中提取歌曲伴奏，将歌曲伴奏的音域区间调整至第一音域区间；

混音模块1560，用于将调整后的歌曲伴奏与调整后的待调节音频文件进行混音操作。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图16对本公开示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、 “模块”或“系统”。

在一些可能的实施方式中，根据本公开实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中，存储单元存储有程序代码，当程序代码被处理单元执行时，使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开的各种示例性实施方式的音频调节方法中的步骤。

下面参照图16来描述根据本公开的这种实施方式的计算设备160。图16显示的计算设备160仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图16所示，计算设备160以通用计算设备的形式表现。计算设备160的组件可以包括但不限于：上述至少一个处理单元1601、上述至少一个存储单元1602，连接不同系统组件(包括处理单元1601和存储单元1602)的总线1603。

总线1603包括数据总线、控制总线和地址总线。

存储单元1602可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)16021和/或高速缓存存储器16022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)16023。

存储单元1602还可以包括具有一组(至少一个)程序模块16024的程序/实用工具16025，这样的程序模块16024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备160也可以与一个或多个外部设备1604(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口1605进行。并且，计算设备160还可以通过网络适配器1606与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图16所示，网络适配器1606通过总线1603与计算设备160的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备160使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了音频调节装置的若干单元/ 模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音频调节方法，其特征在于，包括：

从待调节音频文件中提取第一特征序列，所述第一特征序列包括各个第一音频片段的音高包络；其中，所述待调节音频文件包括连续多个所述第一音频片段；

利用所述第一特征序列及标准音高序列，确定所述待调节音频文件的音高调节序列；其中，所述标准音高序列包括连续多个第一标准音高，每个所述第一标准音高对应一个所述第一音频片段；所述音高调节序列包括多个音高调节数值，每个音高调节数值对应一个所述第一音频片段；

利用所述音高调节序列及所述待调节音频文件的第一频谱包络，对所述待调节音频文件进行音高调节和频谱包络调整。

2.根据权利要求1所述的方法，其特征在于，所述利用所述音高调节序列及所述待调节音频文件的第一频谱包络，对所述待调节音频文件进行音高调节和频谱包络调整，包括：

分别利用所述音高调节序列中的各个所述音高调节数值，对所述待调节音频文件中的各个所述第一音频片段进行音高调节，得到音高调节后的音频文件；

获取所述音高调节后的音频文件的第二频谱包络；

利用所述第一频谱包络和所述第二频谱包络，对所述音高调节后的音频文件进行第一频谱包络调整。

3.根据权利要求2所述的方法，其特征在于，所述利用所述第一频谱包络和所述第二频谱包络，对所述音高调节后的音频文件进行第一频谱包络调整，包括：

将所述音高调节后的音频文件的信号频谱除以所述第二频谱包络，并乘以所述第一频谱包络，得到第一频谱包络调整后的音频文件的信号频谱。

4.根据权利要求1所述的方法，其特征在于，所述利用所述音高调节序列及所述待调节音频文件的第一频谱包络，对所述待调节音频文件进行音高调节和频谱包络调整，包括：

利用所述音高调节序列计算各个音频帧对应的升降调系数；其中，每个所述第一音频片段包括多个所述音频帧；

利用各个所述音频帧对应的升降调系数和所述第一频谱包络，计算所述各个音频帧对应的预修改序列；

采用各个所述音频帧对应的预修改序列，分别对各个所述音频帧的信号频谱进行预修改操作，得到预修改之后的待调节音频文件，以实现对所述待调节音频文件的第二频谱包络调整；

分别利用所述音高调节序列中的各个所述音高调节数值，对所述预修改之后的待调节音频文件中的各个第一音频片段进行音高调节，得到音高调节后的音频文件。

5.根据权利要求1至4任一所述的方法，其特征在于，所述待调节音频文件的第一频谱包络的提取方式包括：

将所述待调节音频文件由时域信号转换为频域信号；

计算所述频域信号的频谱能量；

对所述频谱能量取对数，并进行傅里叶逆变换，得到倒频谱；

对所述倒频谱进行低通滤波，得到频谱包络相关信息；其中，所述低通滤波的边界是根据所述待调节音频文件的基频和信号采样率所确定；

对所述频谱包络相关信息进行傅里叶变换，并进行指数运算，得到所述待调节音频文件的第一频谱包络。

6.根据权利要求1至4任一所述的方法，其特征在于，采用重采样和时间尺度调整TSM算法结合的方式进行所述音高调节。

7.根据权利要求1至4任一所述的方法，其特征在于，所述利用所述第一特征序列及标准音高序列，确定所述待调节音频文件的音高调节序列，包括：

分别利用所述第一特征序列和所述标准音高序列，确定所述待调节音频文件的第一音域区间和所述标准音高序列的第二音域区间；

在所述第一音域区间与所述第二音域区间相同的情况下，利用所述第一特征序列及所述标准音高序列，确定所述待调节音频文件的音高调节序列。

8.一种音频调节装置，其特征在于，包括：

特征提取模块，用于从待调节音频文件中提取第一特征序列，所述第一特征序列包括各个第一音频片段的音高包络；其中，所述待调节音频文件包括连续多个所述第一音频片段；

数据分析模块，用于利用所述第一特征序列及标准音高序列，确定所述待调节音频文件的音高调节序列；其中，所述标准音高序列包括连续多个第一标准音高，每个所述第一标准音高对应一个所述第一音频片段；所述音高调节序列包括多个音高调节数值，每个音高调节数值对应一个所述第一音频片段；

声音变换技术模块，用于利用所述音高调节序列及所述待调节音频文件的第一频谱包络，对所述待调节音频文件进行音高调节和频谱包络调整。

9.一种介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

10.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。