CN116229996A

CN116229996A - 音频制作方法、装置、终端、存储介质及程序产品

Info

Publication number: CN116229996A
Application number: CN202310075514.2A
Authority: CN
Inventors: 刘洲; 陈琳琳; 彭学杰; 马植薇; 陈传艺
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-06-06

Abstract

本申请实施例提供了一种音频制作方法、装置、终端、存储介质及程序产品，涉及应用开发技术领域。所述方法包括：显示待制作的第一音频文件的标识信息；接收用户发出的针对第一音频文件的音色制作指令；基于所述音色制作指令调整所述第一音频文件的音色，生成第二音频文件；其中，第二音频文件是基于第一音频文件的唱功特征及用户的音色特征合成的。采用本申请实施例提供的技术方案，能够提升音频内容的丰富性。

Description

音频制作方法、装置、终端、存储介质及程序产品

技术领域

本申请实施例涉及应用开发技术领域，特别涉及一种音频制作方法、装置、终端、存储介质及程序产品。

背景技术

目前，随着技术的发展，音频制作越来越便捷。

在相关技术中，用户可以通过某个音频制作应用程序给自己录音、调音并播放制作的音频。

在上述相关技术中，用户只能采用自己录音得到的音频进行音频制作，制作得到的音频内容较为单一。

发明内容

本申请实施例提供了一种音频制作方法、装置、终端、存储介质及程序产品，能够提升音频内容的丰富性。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种音频制作方法，所述方法包括：

显示待制作的第一音频文件的标识信息；

接收用户发出的针对所述第一音频文件的音色制作指令；

基于所述音色制作指令调整所述第一音频文件的音色，生成第二音频文件；其中，所述第二音频文件是基于所述第一音频文件的唱功特征及所述用户的音色特征合成的。

根据本申请实施例的一个方面，提供了一种音频制作装置，所述装置包括：

信息显示模块，用于显示待制作的第一音频文件的标识信息；

指令接收模块，用于接收用户发出的针对所述第一音频文件的音色制作指令；

文件生成模块，用于基于所述音色制作指令调整所述第一音频文件的音色，生成第二音频文件；其中，所述第二音频文件是基于所述第一音频文件的唱功特征及所述用户的音色特征合成的。

根据本申请实施例的一个方面，提供了一种终端设备，所述终端设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述音频制作方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述音频制作方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，所述计算机程序产品由处理器加载并执行以实现上述音频制作方法。

本申请实施例提供的技术方案可以包括如下有益效果：

通过用户发出的针对第一音频文件的音色制作指令，将该用户的音色特征与第一音频文件融合，生成具有该用户音色的第二音频文件，实现了对音频进行音色修改的功能，从而提升了音频内容的丰富性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的音频制作方法的流程图；

图3是本申请一个实施例提供的界面示意图；

图4是本申请另一个实施例提供的界面示意图；

图5是本申请另一个实施例提供的界面示意图；

图6是本申请另一个实施例提供的界面示意图；

图7是本申请另一个实施例提供的界面示意图；

图8是本申请另一个实施例提供的界面示意图；

图9是本申请另一个实施例提供的界面示意图；

图10是本申请另一个实施例提供的界面示意图；

图11是本申请一个实施例提供的第二音频文件的生成过程的流程图；

图12是本申请一个实施例提供的音素的示意图；

图13是本申请一个实施例提供的声学模型的示意图；

图14是本申请一个实施例提供的音频制作装置的框图；

图15是本申请另一个实施例提供的音频制作装置的框图；

图16是本申请一个实施例提供的终端设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图，该实施环境可以实现为音频制作系统。如图1所示，该系统10可以包括：终端设备11。

终端设备11中安装并运行有目标应用程序，如目标应用程序的客户端。可选地，客户端中登录有用户帐号。终端设备是具备数据计算、处理和存储能力的电子设备。终端设备可以是智能手机、平板电脑、PC(Personal Computer，个人计算机)、可穿戴设备等等，本申请实施例对此不作限定。该目标应用程序可以是音频类应用程序，如音乐制作应用程序、音频播放应用程序、音频直播应用程序、K歌应用程序等，本申请实施例对此不作具体限定。该目标应用程序还可以是社交应用程序、支付应用程序、视频应用程序、购物应用程序、新闻应用程序、游戏应用程序等任何具有音频制作功能的应用程序。本申请实施例提供的方法，各步骤的执行主体可以是终端设备11，如运行在该终端设备11中的客户端。

在一些实施例中，该系统10还包括服务器12，服务器12与终端设备11建立有通信连接(如网络连接)，服务器12用于为目标应用程序提供后台服务。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。本申请实施例提供的方法步骤，也可以由终端设备11和服务器12交替执行，本申请实施例对此不作具体限定。

下面，通过几个实施例对本申请技术方案进行介绍说明。

请参考图2，其示出了本申请一个实施例提供的音频制作方法的流程图。在本实施例中，主要以该方法应用于上文介绍的客户端中来举例说明。该方法可以包括如下几个步骤(210～230)：

步骤210，显示待制作的第一音频文件的标识信息。

在一些实施例中，如图3所示，在目标应用程序的客户端中显示第一音频文件13的标识信息，以便于将第一音频文件13与其他音频文件进行区分。其中，第一音频文件的标识信息包括但不限于以下至少之一：第一音频文件的名称、封面、编号、图标、乐谱。第一音频文件可以是歌曲、配音、诗朗诵、有声读物、广播剧、相声、评书、戏曲等类型的音频，本申请实施例对此不作具体限定。

在一些实施例中，第一音频文件可以是通过有线或无线传输(如网络连接)获取到的音频文件，也可以是通过目标应用程序的客户端录制和/或制作得到的音频文件。

步骤220，接收用户发出的针对第一音频文件的音色制作指令。

在一些实施例中，音色制作指令可以是用户针对第一音频文件的触摸操作，如点击操作、长按操作、滑动操作等；音色制作指令还可以是针对第一音频文件的语音触发指令，或其他形式的指令，本申请实施例对此不作具体限定。

步骤230，基于音色制作指令调整第一音频文件的音色，生成第二音频文件；其中，第二音频文件是基于第一音频文件的唱功特征及用户的音色特征合成的。

在一些实施例中，第二音频文件具有用户的音色。也即，响应于针对第一音频文件的音色制作指令，将第一音频文件与用户的音色融合以得到第二音频文件。

其中，音色是指不同声音的声音特点，在物理上表现为声波的波形特点，也可以称为声纹特征。不同人说话的声音的音色各不相同。

在一些实施例中，第一音频文件可以是一个音频文件，也可以是多个音频文件。也即，可以对一个第一音频文件进行音色制作，生成一个经过音色修改后的音频文件(即生成一个第二音频文件)；也可以对多个第一音频文件同时进行音色制作，生成多个经过音色修改后的音频文件(即生成多个第二音频文件)，从而提升音频制作效率。在一些实施例中，对多个第一音频文件同时进行音色制作后，将多个第一音频文件合并进行音色制作，生成一个第二音频文件。

在一些实施例中，第二音频文件与第一音频文件的音频类型相同。例如，若第一音频文件为歌曲，则第二音频文件也是歌曲；若第一音频文件为广播剧，则第二音频文件也是广播剧。

在一些可能的实现方式中，该方法还包括如下步骤：

1、显示至少一个候选的音色特征的描述信息，描述信息用于指示候选的音色特征对应的用户特征，每个候选的音色特征为用户的一种声线对应的音色特征；

2、响应于针对至少一个候选的音色特征中的该用户的声学模型的选择指令，确定采用用户的音色特征进行音频制作。

在一些实施例中，客户端获取有一个或多个候选的音色特征，每个候选的音色特征都对应有描述信息，用于描述并区分各个候选的音色特征对应的用户特征。描述信息可以包括：用户信息(如用户的名称、年龄、性别等)、音色特征的生成时间、用于生成音色特征的音频文件、音色特征的音高特征等等。例如，至少一个候选的音色特征的描述信息分别为：用户1、用户2、用户3；又例如，至少一个候选的音色特征的描述信息分别为：18岁、20岁、22岁；又例如，至少一个候选的音色特征的描述信息分别为：30岁&男低音、40岁&女高音、60岁&男高音；又例如，至少一个候选的音色特征的描述信息分别为：2020年10月31日、2021年10月31日、2022年10月31日；又例如，每个候选的音色特征对应于用户的一种声线，至少一个候选的音色特征是用户不同声线分别对应的音色特征，可选地，至少一个候选的音色特征的描述信息分别为：正常声线、低沉声线、粗犷声线、夹子音声线、温柔声线等。当然，描述信息还可以是其他形式，本申请实施例对此不作具体限定。

在一些实施例中，从至少一个候选的音色特征中选择出用户的音色特征，并确定采用用户的音色特征进行音频制作，以生成具有用户的音色特征的音频文件，如第二音频文件。

在上述实现方式中，可以从至少一个候选的音色特征中按需选取所需要的音色特征，从而使得客户端中可以提前预备多个候选的音色特征(如预先存储多个候选的音色特征)，从而提升了音频制作过程中音色特征的选择多样性。

在一些实施例中，从至少一个候选的音色特征中选择出用户对应的多个音色特征，多个音色特征可以对应于第一音频中的不同部分。例如，从至少一个候选的音色特征中选择出用户对应的高音音色特征、中音音色特征和低音音色特征这三个音色特征，并基于该三个音色特征和第一音频文件生成第二音频文件。其中，用户对应的高音音色特征，可以通过学习有用户的高音声学特征的声学模型来表示(如学习有用户演唱高音歌曲内容时的音色的声学模型)；用户对应的中音音色特征，可以通过学习有用户的中音声学特征的模型来表示(如学习有用户演唱中音歌曲内容时的音色的声学模型)；用户对应的低音音色特征，可以通过学习有用户的低音声学特征的模型来表示(如学习有用户演唱低音歌曲内容时的音色的声学模型)。对于第二音频文件，第二音频文件中的高音内容部分，是基于第一音频文件的高音内容部分和用户对应的高音音色特征得到的；第二音频文件中的中音内容部分，是基于第一音频文件的中音内容部分和用户对应的中音音色特征得到的；第二音频文件中的低音内容部分，是基于第一音频文件的低音内容部分和用户对应的低音音色特征得到的。不同音高模型分别用于指示用户在不同音区(即高音音区、中音音区、低音音区)上的声学特征(即不同音区上的音色特征)，从而将不同侧重点的音色特征与第一音频文件中对应的音频内容结合，使得得到的第二音频文件中的用户的音色更为准确写实、生动。

在一些实施例中，用户的音色特征，可以仅指一个用户的音色特征，也可以指多个用户的音色特征。

在一些实施例中，对于双人合唱的歌曲(如一男一女对唱的歌曲)或多人合唱的歌曲，需要有两个或多个不同的音色来区分一个歌曲中的不同演唱者的音色。例如，第一音频文件为一男一女对唱的歌曲，则该歌曲与包含有一男一女的音色特征进行合成，得到第二音频文件，第二音频文件中包含的音色对应的用户数量，与第一音频文件中包含的音色对应的用户数量相同。

在一些实施例中，显示通过用户的音色特征根据第一音频文件生成的第二音频文件之后，响应于针对第二音频文件的播放指令，播放第二音频文件。例如，通过触发音频播放控件生成针对第二音频文件的播放指令、并播放第二音频文件。可选地，在第二音频文件生成完成后就自动播放第二音频文件，从而使得用户可以在第一时间听到刚制作完成的音频文件，节省用户的操作步骤。

在一些实施例中，显示通过用户的音色特征根据第一音频文件生成的第二音频文件之后，响应于针对第二音频文件的分享指令，向目标用户或目标群组分享第二音频文件。目标用户或目标群组可以是目标应用程序中存在关联关系的用户或群组，也可以是其他应用程序(如社交应用程序)中建立有社交关系的用户或群组。目标用户或目标群组中的用户通过对应的终端设备(或终端设备中的客户端)可以打开第二音频文件或第二音频文件对应的音频链接，以显示如图4所示的第二音频文件的界面15，并通过触发音频播放控件16可以播放第二音频文件17。

在一些可能的实现方式中，响应于针对第二音频文件的变调指令，显示音调调整界面，音调调整界面中显示有用于调整音调的音调调整控件；响应于针对音调调整控件的操作，对第二音频文件的音调进行调整。

在上述实现方式中，通过显示音调调整界面，可以将对第二音频文件的整体和/或局部片段的音调进行升高、降低、减速、加速等调整，从而进一步优化制作得到的音频内容，提升音频播放效果。

综上所述，本申请实施例提供的技术方案中，通过用户发出的针对第一音频文件的音色制作指令，将该用户的音色特征与第一音频文件融合，生成具有该用户音色的第二音频文件，实现了对音频进行音色修改的功能，从而提升了音频内容的丰富性。

在一些可能的实现方式中，在开始音频制作之前，需要先生成用户的音色特征，具体可以包括如下步骤：

1、显示由用户录制的至少一个第三音频文件。

在一些实施例中，获取并显示由用户录制的至少一个第三音频文件，如用户演唱的至少一个第一目标歌曲。第三音频文件可以是用户之前录制并存储的音频文件，也可以是用户当场录制的音频文件。

在一些实施例中，如图5所示，显示音频选择界面18，音频选择界面18中显示有用户录制的至少一个音频文件；将至少一个音频文件中被选中的音频文件作为第三音频文件，并显示第三音频文件。在一些实施例中，响应于针对至少一个音频文件中的第三音频文件的选择指令19，显示处于被选择状态的第三音频文件20。

在一些实施例中，如图5所示，除了选择已经录制并存储的音频文件，也可以通过触发控件21以录制新的音频文件、以供选择并生成用户的音色特征，从而丰富可供选择的音频文件范围。

在一些实施例中，显示音频选择界面之后，响应于针对音频选择界面中显示的任一音频文件的试听指令，播放音频文件。例如，如图5所示，响应于针对音频选择界面18中显示的音频文件22的试听指令(如触发音频文件22对应的播放控件23)，播放音频文件22。一方面，通过试听音频文件，帮助用户更精准地选择质量相对较好的音频文件，从而提升制作得到的第二音频文件的音频质量；另一方面，即便是对于同一个用户，唱不同的歌曲所采用的音色也是有所差别的，因而可以通过试听音频文件，帮助用户选择所需的音色对应的音频文件，从而提升第二音频文件与用户的心意的符合程度、并提升第二音频文件的制作效率。

2、响应于音色生成指令，如图6所示，显示与用户的音色特征的提取进度有关的提示信息24。

其中，用户的音色特征是从第三音频文件中提取得到声学特征。

在一些实施例中，如图6所示，在获得用户的音色特征之后(或用户的音色特征提取完成之后)，显示示例音频文件的标识信息；其中，示例音频文件是基于设定音频文件的唱功特征及用户的音色特征合成的；响应于针对示例音频文件的播放指令，播放示例音频文件。

在一些实施例中，在用户的音色特征生成之后，基于用户的音色特征和参考音频文件，自动生成示例音频的音频文件；之后再显示示例音频播放界面以供用户通过试听示例音频，体验音频与刚生成的用户的音色特征结合后的效果。在一些实施例中，示例音频播放界面44中显示有播放控件45，响应于针对播放控件控制45的触发操作，播放示例音频。其中，播放控制控件用于播放示例音频和暂停播放示例音频。可选地，示例音频可以是示例歌曲。

在一些实施例中，在用户的音色特征生成完之后，显示示例音频播放界面并自动播放示例音频，从而减少用户操作步骤，提升操作效率。若用户不想播放该示例音频了，可以通过针对示例音频的关闭操作(如点击播放控制控件的操作、关闭示例音频播放界面的操作等)，停止播放示例音频。

在该实施例中，用户的音色特征生成好之后，用户可以通过播放示例音频，试听应用了用户的声学模型得到的音频文件的听感体验、快速了解用户的声学模型的质量。从而有助于帮助用户在升学模型生成完成后的第一时间，快速判断该声学模型是否是用户想要的、满意的声学模型；若不满意，用户可以对该声学模型不满意的地方进行调整、或重新生成声学模型，减少了生成用户满意的声学模型所需的总时间、提高了生成用户满意的声学模型的效率。

在上述实现方式中，响应于音色生成指令，基于被选择的至少一个第三音频文件生成用户的声学模型，并显示相关提示信息以提示用户的音色特征的生成进度，帮助用户规划时间，以免用户长时间等待，节省用户时间。

在一些可能的实现方式中，如图7所示，该方法还包括如下步骤：

1、响应于针对用户的音色特征的调整指令，显示音频选择界面25，音频选择界面中显示有用户录制的至少一个音频文件；

2、响应于针对至少一个音频文件中的至少一个第四音频文件的选择指令26，显示处于被选择状态的第四音频文件27；

3、响应于音色修改指令，显示与用户的音色特征的修改进度有关的提示信息；其中，调整后的用户的音色特征从第四音频文件中提取得到的。

如图7所示，音色修改指令可以是基于针对音色修改控件28的触发操作生成的。可选地，至少一个第四音频文件，与至少一个第三音频文件相比，至少存在一个音频文件不相同。

该实施例的部分内容可以参考上文内容，此处不再赘述。

在上述实现方式中，生成用户的音色特征之后，若需要调整用户的音色特征，可以重新显示音频选择界面并选择至少一个第四音频文件，以对用户的音色特征进行调整，得到调整后的用户的音色特征。在一些实施例中，用户的音色特征可以包括至少一个编码器和至少一个解码器，用户的音色特征也可以是单层神经网络。一方面，用户的音色特征是可以不断更新调整的，从而提升音色特征的灵活性和多样性，便于更新得到所需音色对应的音色特征，从而提升音频制作的灵活性和便捷性；另一方面，由于用户的音色特征是可以不断更新优化的，从而提升音色特征的准确性，进而提升通过音频制作得到的音频文件的音频质量。

在一些可能的实现方式中，该方法还包括如下步骤：

1、响应于针对第一音频文件的音色制作指令，若当前登录帐户不具备第一音频文件的制作权限，则如图8或图9所示，显示权限兑换界面29，权限兑换界面29中显示有兑换第一音频文件的制作权限所需的资源；

2、响应于权限兑换指令，显示第一音频文件的制作权限的兑换结果。

在一些实施例中，兑换第一音频文件的制作权限所需的资源，可以是目标应用程序中的虚拟资源40，可选地，该虚拟资源可以通过采用现实货币兑换，也可以通过完成目标应用程序内的相关任务获取。在一些实施例中，兑换第一音频文件的制作权限所需的资源，还可以是如图9所示的现实货币41。

在一些实施例中，如图10所示，在兑换完第一音频文件的制作权限所需的资源之后，显示提示信息42以显示第一音频文件的制作权限的成功兑换结果。

在上述实现方式中，通过显示音频文件的制作权限的兑换结果，以提示用户权限兑换是否成功，从而节省用户时间；同时也通过设置制作权限门槛来，避免了音频文件的制作权限被滥用，从而降低了服务器的处理开销。

请参考图11，其示出了本申请一个实施例提供的音频处理方法的流程图。该过程可以应用于上文介绍的终端设备单独执行，也可以由上文介绍的服务器单独执行，还可以由上文介绍的终端设备和服务器交替执行，本申请实施例对此不作具体限定。该过程至少可以包括如下几个步骤(1110～1120)：

步骤1110，提取第一音频文件的音频特征。

在一些实施例中，获取一个或多个第一音频文件。也即，可以对单个音频文件进行音色制作；也可以对多个音频文件同时进行音色制作，从而提升音色制作效率。

在一些实施例中，第一音频文件可以是通过有线或无线传输(如网络连接)获取到的音频文件。在一些实施例中，该方法应用于终端设备的目标应用程序中(如目标应用程序的客户端)。该目标应用程序可以是音频类应用程序，如音乐制作应用程序、音频播放应用程序、音频直播应用程序、K歌应用程序等，本申请实施例对此不作具体限定。该目标应用程序还可以是社交应用程序、支付应用程序、视频应用程序、购物应用程序、新闻应用程序、游戏应用程序等任何具有音频处理功能的应用程序。在一些实施例中，第一音频文件可以是通过目标应用程序的客户端录制和/或制作得到的音频文件。

在一些实施例中，音频特征包括以下至少之一：

音素特征，用于表征第一音频文件中的音频内容的音素信息；

音高特征，用于表征第一音频文件中的音频内容的音高信息。

其中，音素是指是根据语音的自然属性划分出来的最小语音单位，是从音质的角度划分出来的最小的线性的语音单位。音素是具体存在的物理现象。依据音节里的发音动作来分析，一个动作构成一个音素。在一些实施例中，音素分为元音与辅音两大类。例如，汉语音节啊(ā)只有一个音素，爱(ài)有两个音素，代(dài)有三个音素。在一些实施例中，音素信息包括第一音频文件中的音频内容包含的音素、以及各个音素的发音时长，这些特征共同组成了音素特征。例如，有些人发音较为饱满，则在正常语速下，元音对应的音素发音时间就相对较长；又例如，有些人语速较快，发音较为短促，则每个音素的时长都比较短；又例如，受生理音素或生活环境影响，有些人很难发出某些音素(如“h”、“n”等)。

在一些实施例中，如图12所示，各个音素可以用音素块表示，音素块的长度用于表示对应音素的发音时长；例如，音素块43的长度a₁用于表示音素a的发音时长。

其中，音高是指声音的音调高低，音高由声波的频率和波长决定。频率越高、波长越短，则音高越高；反之，频率越低、波长越长，则音高越低。

在一些实施例中，音频特征还可以包括第一音频文件中的音频内容的能量特征、气声特征、张力特征等，本申请对此不作限定。其中，能量特征可以用于指示第一音频文件中的音频内容的音量/响度大小；气声是指声带不振动或几乎不振动的发音方式，气声特征可以指示用户使用气声发音的规律或节奏；张力特征是指第一音频文件中的音频内容的低音与高音之间、弱音与强音之间的变化特征。

步骤1120，通过用户的声学模型对音频特征进行处理，生成第二音频文件。

在一些实施例中，声学模型是学习有用户的音色特征的人工智能AI(ArtificialIntelligence，人工智能)模型。用户的声学特征包括用户的音色特征。在一些实施例中，采用学习有用户的音色特征的声学模型，对第一音频文件的音频特征进行处理，生成第二音频文件。也即，将用户的音色与第一音频文件的音频特征(如音素特征、音高特征等)融合，生成兼具用户音色、第一音频文件的音素和音高特征的第二音频文件。

在一些实施例中，该步骤1120还包括：通过用户的声学模型对音频特征进行处理，生成梅尔频谱(mel spectrogram)；根据梅尔频谱，生成第二音频文件。研究表明，人类对声音频率的感知并不是线性的，并且对低频信号的感知要比高频信号敏感。例如，人们可以比较容易地感知到500和1000Hz(Hertz，赫兹)的区别，却很难发现7500和8000Hz的区别。针对这种情况提出的梅尔标度(the Mel Scale)，是针对声音频率的非线性变换，对于以梅尔标度为单位的信号(如声音信号)，可以模拟人对于声音信号变化的线性感知。

在一些实施例中，梅尔频谱也可以替换为其他可行的频谱，本申请实施例对此不作具体限定。

在一些实施例中，如图13所示，声学模型30包括编码器31和解码器32；通过用户的声学模型对音频特征进行处理，生成梅尔频谱，包括如下步骤：

1、通过编码器31对音频特征中的音素特征进行处理，得到编码后的音素特征；其中，音素特征用于表征第一音频文件中的音频内容的音素信息；

2、将编码后的音素特征与音频特征中的音高特征进行融合，得到融合特征；

3、通过解码器32对融合特征进行处理，得到梅尔频谱。

在一些实施例中，编码器31通过获取音频特征中的音素特征，对音素特征进行编码处理，得到编码后的音素特征33(也可以称为中间层变量)。可选地，由于音素的发音时长并不完全一致，在对音素特征进行编码处理时，通过长度调节器对不同音素特征的编码后长度进行调节，从而使得编码后的音素特征长度相同。例如，对音素特征进行初步编码处理后得到的各个音素特征的长度还不统一，则以长度最长的初步编码处理后的音素特征的长度为标准长度，将其他初步编码处理后的音素特征相对于标准长度短缺/不足的部分补全，如将短缺的部分用“0”填充补全，从而将所有音素特征的长度统一，得到长度统一编码后的音素特征。又例如，预先设定一个标准长度，将各个音素特征相对于标准长度短缺的部分补全，从而将所有编码后的音素特征的长度都统一为标准长度。其中，标准长度可以由相关技术人员根据实际情况进行设定，本申请实施例对此不作具体限定。可选地，标准长度不短于长度最长的初步编码处理后的音素特征的长度。

在一些实施例中，将编码后的音素特征与音频特征中的音高特征进行融合，得到融合特征之后，还包括：从融合特征中截取设定长度的切片特征；其中，切片特征用于作为解码器32的输入，得到梅尔频谱。也即，融合特征不会全部作为解码器32的输入，而是将其截取出设定长度的连续的特征片段，并将该特征片段进行切片处理，得到多个切片特征，并将该多个切片特征输入解码器32，得到梅尔频谱。在一些实施例中，音频是由多个音频帧(即多个音频片段)组成的。可选地，每个音频帧的长度(即时长)相等，一个音频帧的长度可以认为是1，则100个连续音频帧的长度就是100。在一些实施例中，每个切片特征的长度相同(即每个切片特征的中包含的音频帧的数量相同)。例如，融合特征长度为3000，从融合特征中截取多个连续的切片特征输入解码器32，每一个切片特征的长度均为500。

在上述实施例中，仅从融合特征中截取出设定长度的切片特征进行处理，无需对整个融合特征进行处理，根据实验结果，这样处理对模型精度的影响较小，从而在保证声学模型精度的前提下，节省处理资源、并提升模型的处理效率。

在一些实施例中，获取用户的声纹特征；通过解码器对融合特征和用户的声纹特征进行处理，得到梅尔频谱。从而将第一音频文件的音频内容的音频特征，与用户的声纹特征进行融合，得到兼具用户的声纹特征、第一音频文件的音素特征和音高特征的第二音频文件。对于唱歌场景，可以得到听上去像是用户按照第一音频文件中的演唱者的唱法演唱出的歌曲(即第二音频文件)，从而提升处理得到的音频文件的内容丰富性。

综上所述，本申请实施例提供的技术方案中，通过第一音频文件的相关信息、音色制作指令和用户的音色特征，将该用户的声学特征与第一音频文件融合，生成具有该用户音色的第二音频文件，实现了对音频进行音色修改的功能，从而提升了音频内容的丰富性。

在一些可能的实现方式中，该方法还包括：

1、获取用户的音频文件，用户的音频文件是指对用户的音频内容进行录制得到的文件；

2、采用用户的音频文件，对预训练的声学模型进行调整，得到用户的声学模型。

在一些实施例中，用户通过演唱歌曲、诗朗诵、配音等方式录制得到用户的音频文件。并基于用户的音频文件，对预训练的声学模型进行调整，得到用户的声学模型。

在一些实施例中，采用用户的音频文件，对预训练的声学模型进行调整，得到用户的声学模型，包括：

(1)提取用户的音频文件对应的音频特征、声纹特征和标准梅尔频谱；

(2)通过预训练的声学模型根据用户的音频文件对应的音频特征和声纹特征，生成预测梅尔频谱；

(3)根据预测梅尔频谱和标准梅尔频谱，对预训练的声学模型的参数进行调整，得到用户的声学模型。

在上述实施例中，采用用户的音频文件对预训练的声学模型进行微调。将从用户的音频文件中提取出来的音频特征和声纹特征输入预训练的声学模型中，预训练的声学模型输出对应的预测梅尔频谱；基于预测梅尔频谱和标准梅尔频谱计算损失，并根据损失计算结果调整预训练的声学模型的参数，使其损失函数的呈梯度下降的趋势，直到预训练的声学模型微调完成，则得到用户的声学模型。从而可以对音频文件的音频特征进行处理，将该音频文件中人发出的语音(如演唱的歌曲、朗诵内容、配音内容等)的声纹/音色，修改为用户的声纹/音色，实现音色的修改和替换。

在一些实施例中，用户的音频文件对应的音频特征和声纹特征，预加载进GPU(Graphics Processing Unit，图形处理器)显存中，从而无需从别处花更多时间获取用户的音频文件对应的音频特征和声纹特征，从而提升数据加载速度，节省模型的训练时间。

在一些实施例中，该方法还包括：获取样本音频文件；采用样本音频文件对初始的声学模型进行训练，得到预训练的声学模型。在上述实施例中，提取样本音频文件对应的音频特征、声纹特征和标准梅尔频谱；通过初始的声学模型根据样本音频文件对应的音频特征和声纹特征，生成样本音频文件对应的预测梅尔频谱；再根据样本音频文件对应的预测梅尔频谱和样本音频文件对应的标准梅尔频谱，对初始的声学模型的参数进行调整，得到预训练的声学模型。采用样本音频文件对初始的声学模型进行训练、得到预训练的声学模型的过程，可以参考上文实施例中对预训练的声学模型的参数进行调整、得到用户的声学模型的相关内容，此处不再赘述。

其中，样本音频文件可以是较大规模的音频文件。在音频文件为歌曲的情况下，样本音频文件可以包括明星、歌手演唱的歌曲，也可以包括普通人演唱的歌曲，本申请实施例对此不作具体限定。

在上述实现方式中，基于用户的音频文件，对预训练的声学模型进行调整，得到用户的声学模型；由于用户的音频文件的数量较少，可以采用小样本数据对预训练的声学模型进行快速调整，从而快速得到专属于用户的个性化声学模型。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图14，其示出了本申请一个实施例提供的音频制作装置的框图。该装置具有实现上述音频制作方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是上文介绍的终端设备，也可以设置在终端设备上。所述装置1400可以包括：信息显示模块1410、文件显示模块1420和文件生成模块1430。

所述信息显示模块1410，用于显示待制作的第一音频文件的标识信息。

所述文件显示模块1420，用于接收用户发出的针对所述第一音频文件的音色制作指令。

所述文件生成模块1430，用于基于所述音色制作指令调整所述第一音频文件的音色，生成第二音频文件；其中，所述第二音频文件是基于所述第一音频文件的唱功特征及所述用户的音色特征合成的。

在一些实施例中，所述文件显示模块1420，还用于显示由所述用户录制的至少一个第三音频文件。

所述信息显示模块1410，还用于响应于音色生成指令，显示与所述用户的音色特征的提取进度有关的提示信息；其中，所述用户的音色特征是从所述第三音频文件中提取得到的。

在一些实施例中，所述文件显示模块1420，用于：

显示音频选择界面，所述音频选择界面中显示有所述用户录制的至少一个音频文件；

将所述至少一个音频文件中被选中的音频文件作为第三音频文件，并显示所述第三音频文件。

在一些实施例中，如图15所示，所述装置1400还包括：音频播放模块1440。

所述音频播放模块1440，用于响应于针对所述音频选择界面中显示的任一音频文件的试听指令，播放所述音频文件。

在一些实施例中，

所述信息显示模块1410，还用于在获得所述用户的音色特征之后，显示示例音频文件的标识信息；其中，所述示例音频文件是基于设定音频文件的唱功特征及所述用户的音色特征合成的。

所述音频播放模块1440，还用于响应于针对所述示例音频的播放指令，播放所述示例音频。

在一些实施例中，如图15所示，所述装置1400还包括：界面选择模块1450。

所述界面选择模块1450，用于响应于针对所述用户的音色特征的调整指令，显示音频选择界面，所述音频选择界面中显示有所述用户录制的至少一个音频文件。

所述文件显示模块1420，还用于响应于针对所述至少一个音频文件中的至少一个第四音频文件的选择指令，显示处于被选择状态的所述第四音频文件。

所述信息显示模块1410，还用于响应于音色修改指令，显示与所述用户的音色特征的修改进度有关的提示信息；其中，调整后的所述用户的音色特征是从所述第四音频文件中提取得到的。

在一些实施例中，如图15所示，所述装置1400还包括：模型确定模块1460。

所述信息显示模块1410，还用于显示至少一个候选的音色特征的描述信息，所述描述信息用于指示所述候选的音色特征对应的用户特征，每个候选的音色特征为所述用户的一种声线对应的音色特征；

所述模型确定模块1460，用于响应于针对所述至少一个候选的音色特征中的所述用户的音色特征的选择指令，确定采用所述用户的音色特征进行音频制作。

在一些实施例中，如图15所示，所述装置1400还包括：结果显示模块1470。

所述界面选择模块1450，还用于响应于针对所述第一音频文件的音色制作指令，若当前登录帐户不具备所述第一音频文件的制作权限，则显示权限兑换界面，所述权限兑换界面中显示有兑换所述第一音频文件的制作权限所需的资源。

所述结果显示模块1470，用于响应于权限兑换指令，显示所述第一音频文件的制作权限的兑换结果。

在一些实施例中，如图15所示，所述装置1400还包括：音调调整模块1480。

所述界面选择模块1450，还用于响应于针对所述第二音频文件的变调指令，显示音调调整界面，所述音调调整界面中显示有用于调整音调的音调调整控件。

所述音调调整模块1480，用于响应于针对所述音调调整控件的操作，对所述第二音频文件的音调进行调整。

在一些实施例中，如图15所示，所述音频播放模块1440，还用于响应于针对所述第二音频文件的播放指令，播放所述第二音频文件。

在一些实施例中，如图15所示，所述装置1400还包括：文件分享模块1490。

所述文件分享模块1490，用于响应于针对所述第二音频文件的分享指令，向目标用户或目标群组分享所述第二音频文件。

在一些实施例中，如图15所示，所述装置1400还包括：特征提取模块1492和文件生成模块1495。

所述特征提取模块1492，用于提取所述第一音频文件的音频特征。

所述文件生成模块1495，用于通过所述用户的声学模型对所述音频特征进行处理，生成所述第二音频文件，所述声学模型用于描述所述用户的音色特征；其中，所述音频特征包括以下至少之一：音素特征、音高特征；所述音素特征用于表征所述第一音频文件中的音频内容的音素信息，所述音高特征用于表征所述第一音频文件中的音频内容的音高信息。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图16，其示出了本申请一个实施例提供的终端设备1600的结构框图。该终端设备1600可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、PC等电子设备。该终端用于实施上述实施例中提供的音频制作方法。该终端可以是图1所示实施环境中的终端设备11。具体来讲：

通常，终端设备1600包括有：处理器1601和存储器1602。

处理器1601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1602中的非暂态的计算机可读存储介质用于存储计算机程序，且经配置以由一个或者一个以上处理器执行，以实现上述音频制作方法。

在一些实施例中，终端设备1600还可选包括有：外围设备接口1603和至少一个外围设备。处理器1601、存储器1602和外围设备接口1603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1603相连。具体地，外围设备包括：射频电路1604、显示屏1605、摄像头组件1606、音频电路1607、定位组件1608和电源1609中的至少一种。

本领域技术人员可以理解，图16中示出的结构并不构成对终端设备1600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序在被处理器执行时以实现上述音频制作方法。

在一些实施例中，还提供了一种计算机程序产品，所述计算机程序产品由处理器加载并执行以实现上述音频制作方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频制作方法，其特征在于，所述方法包括：

显示待制作的第一音频文件的标识信息；

接收用户发出的针对所述第一音频文件的音色制作指令；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

显示由所述用户录制的至少一个第三音频文件；

响应于音色生成指令，显示与所述用户的音色特征的提取进度有关的提示信息；其中，所述用户的音色特征是从所述第三音频文件中提取得到的。

3.根据权利要求2所述的方法，其特征在于，所述显示由所述用户录制的至少一个第三音频文件，包括：

4.根据权利要求3所述的方法，其特征在于，所述显示音频选择界面之后，还包括：

响应于针对所述音频选择界面中显示的任一音频文件的试听指令，播放所述音频文件。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在获得所述用户的音色特征之后，显示示例音频文件的标识信息；其中，所述示例音频文件是基于设定音频文件的唱功特征及所述用户的音色特征合成的；

响应于针对所述示例音频文件的播放指令，播放所述示例音频文件。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于针对所述用户的音色特征的调整指令，显示音频选择界面，所述音频选择界面中显示有所述用户录制的至少一个音频文件；

响应于针对所述至少一个音频文件中的至少一个第四音频文件的选择指令，显示处于被选择状态的所述第四音频文件；

响应于音色修改指令，显示与所述用户的音色特征的修改进度有关的提示信息；其中，调整后的所述用户的音色特征是从所述第四音频文件中提取得到的。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

显示至少一个候选的音色特征的描述信息，所述描述信息用于指示所述候选的音色特征对应的用户特征，每个候选的音色特征为所述用户的一种声线对应的音色特征；

响应于针对所述至少一个候选的音色特征中的所述用户的音色特征的选择指令，确定采用所述用户的音色特征进行音频制作。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于针对所述第一音频文件的音色制作指令，若当前登录帐户不具备所述第一音频文件的制作权限，则显示权限兑换界面，所述权限兑换界面中显示有兑换所述第一音频文件的制作权限所需的资源；

响应于权限兑换指令，显示所述第一音频文件的制作权限的兑换结果。

9.根据权利要求1所述的方法，其特征在于，所述基于所述音色制作指令调整所述第一音频文件的音色，生成第二音频文件之后，还包括：

响应于针对所述第二音频文件的变调指令，显示音调调整界面，所述音调调整界面中显示有用于调整音调的音调调整控件；

响应于针对所述音调调整控件的操作，对所述第二音频文件的音调进行调整。

10.根据权利要求1所述的方法，其特征在于，所述基于所述音色制作指令调整所述第一音频文件的音色，生成第二音频文件之后，还包括：

响应于针对所述第二音频文件的播放指令，播放所述第二音频文件；

或者，

响应于针对所述第二音频文件的分享指令，向目标用户或目标群组分享所述第二音频文件。

11.根据权利要求1所述的方法，其特征在于，所述第二音频文件的生成过程如下：

提取所述第一音频文件的音频特征；

通过所述用户的声学模型对所述音频特征进行处理，生成所述第二音频文件，所述声学模型是学习有所述用户的音色特征的人工智能AI模型；其中，所述音频特征包括以下至少之一：音素特征、音高特征；所述音素特征用于表征所述第一音频文件中的音频内容的音素信息，所述音高特征用于表征所述第一音频文件中的音频内容的音高信息。

12.一种音频制作装置，其特征在于，所述装置包括：

13.一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现上述权利要求1至11任一项所述的音频制作方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现上述权利要求1至11任一项所述的音频制作方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品由处理器加载并执行以实现上述权利要求1至11任一项所述的音频制作方法。