CN111276122A

CN111276122A - 音频生成方法及装置、存储介质

Info

Publication number: CN111276122A
Application number: CN202010039094.9A
Authority: CN
Inventors: 刘佳泽; 罗忠岚
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-12
Anticipated expiration: 2040-01-14
Also published as: CN111276122B

Abstract

本申请公开一种音频生成方法及装置、存储介质，属于电子技术应用领域。该方法包括：在音频配置界面中，接收用户触发的第一音频生成指令，该第一音频生成指令携带目标文本、第一音频参数和第一音乐标识，第一音乐标识指示第一背景音乐；根据第一音频参数，将目标文本转换为第一音频；根据第一音乐标识，从背景音乐库中获取第一背景音乐；将第一音频与第一背景音乐合成，得到第一目标音频。本申请有助于提高音频生成的灵活性。

Description

音频生成方法及装置、存储介质

技术领域

本申请涉及电子技术应用领域，特别涉及一种音频生成方法及装置、存储介质。

背景技术

音频生成是指通过各种手段获得音频的过程。例如，将文字转换为音频就属于音频生成的范畴，各种听书应用程序(英文：Application；简称：App)、语音播报App都涉及将文字转换为音频的过程。

目前，通常由专业技术人员，采用专门的音频转换设备将文字转换为音频。也即是，由专门的音频转换设备将文字读出来。这样的音频生成方案的灵活性较差。

发明内容

本申请提供一种音频生成方法及装置、存储介质，有助于提高音频生成的灵活性。本申请的技术方案如下：

第一方面，提供一种音频生成方法，应用于用户终端，所述方法包括：

在音频配置界面中，接收用户触发的第一音频生成指令，所述第一音频生成指令携带目标文本、第一音频参数和第一音乐标识，所述第一音乐标识指示第一背景音乐；

根据所述第一音频参数，将所述目标文本转换为第一音频；

根据所述第一音乐标识，从背景音乐库中获取所述第一背景音乐；

将所述第一音频与所述第一背景音乐合成，得到第一目标音频。

可选地，在接收用户触发的第一音频生成指令之后，所述方法还包括：

存储所述目标文本；

在所述音频配置界面中，接收所述用户触发的第二音频生成指令，所述第二音频生成指令携带所述目标文本、第二音频参数和第二音乐标识，所述第二音乐标识指示第二背景音乐；

根据所述第二音频参数，将所述目标文本转换为第二音频；

根据所述第二音乐标识，从所述背景音乐库中获取所述第二背景音乐；

将所述第二音频与所述第二背景音乐合成，得到第二目标音频。

可选地，所述根据所述第一音频参数，将所述目标文本转换为第一音频，包括：根据所述第一音频参数，基于从文本到语音(英文：Text To Speech；简称：TTS)技术，将所述目标文本转换为第一音频；

所述根据所述第二音频参数，将所述目标文本转换为第二音频，包括：根据所述第二音频参数，基于TTS技术，将所述目标文本转换为第二音频。

可选地，在将所述第一音频与所述第一背景音乐合成，得到第一目标音频之后，所述方法还包括：

在所述音频配置界面中，接收所述用户触发的音频更改指令，所述音频更改指令携带第三音频参数或第三音乐标识中的至少一种，所述第三音乐标识指示第三背景音乐；

根据所述音频更改指令，将所述第一目标音频的音频参数更改为所述第三音频参数，和/或，将所述第一目标音频的背景音乐更改为所述第三背景音乐，得到第三目标音频。

可选地，所述第一音频参数、所述第二音频参数和所述第三音频参数分别包括：声音类型、语速或语调中的至少一种。

第二方面，提供一种音频生成装置，应用于用户终端，所述装置包括：

第一接收模块，用于在音频配置界面中，接收用户触发的第一音频生成指令，所述第一音频生成指令携带目标文本、第一音频参数和第一音乐标识，所述第一音乐标识指示第一背景音乐；

第一转换模块，用于根据所述第一音频参数，将所述目标文本转换为第一音频；

第一获取模块，用于根据所述第一音乐标识，从背景音乐库中获取所述第一背景音乐；

第一合成模块，用于将所述第一音频与所述第一背景音乐合成，得到第一目标音频。

可选地，所述装置还包括：

存储模块，用于存储所述目标文本；

第二接收模块，用于在所述音频配置界面中，接收所述用户触发的第二音频生成指令，所述第二音频生成指令携带所述目标文本、第二音频参数和第二音乐标识，所述第二音乐标识指示第二背景音乐；

第二转换模块，用于根据所述第二音频参数，将所述目标文本转换为第二音频；

第二获取模块，用于根据所述第二音乐标识，从所述背景音乐库中获取所述第二背景音乐；

第二合成模块，用于将所述第二音频与所述第二背景音乐合成，得到第二目标音频。

可选地，所述第一转换模块，用于根据所述第一音频参数，基于TTS技术，将所述目标文本转换为第一音频；

所述第二转换模块，用于根据所述第二音频参数，基于TTS技术，将所述目标文本转换为第二音频。

可选地，所述装置还包括：

第三接收模块，用于在所述音频配置界面中，接收所述用户触发的音频更改指令，所述音频更改指令携带第三音频参数或第三音乐标识中的至少一种，所述第三音乐标识指示第三背景音乐；

更改模块，用于根据所述音频更改指令，将所述第一目标音频的音频参数更改为所述第三音频参数，和/或，将所述第一目标音频的背景音乐更改为所述第三背景音乐，得到第三目标音频。

第三方面，提供一种音频生成装置，包括：处理器和存储器，

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器上所存储的计算机程序，实现第一方面或第一方面的任一可选方式所述的音频生成方法。

第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的程序由处理器执行时，实现第一方面或第一方面的任一可选方式所述的音频生成方法。

本申请提供的技术方案带来的有益效果是：

本申请提供的音频生成方法及装置、存储介质，用户终端在音频配置界面中接收用户触发的第一音频生成指令，根据该第一音频生成指令携带的第一音频参数将该第一音频生成指令携带的目标文本转换为第一音频，根据该第一音频生成指令携带的第一音乐标识从背景音乐库中获取第一背景音乐，将第一音频与第一背景音乐合成得到第一目标音频。由于可以由用户终端根据用户触发的第一音频生成指令生成音频，且可以由用户自定义音频参数以及背景音乐，因此有助于提高音频生成的灵活性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频生成方法的方法流程图；

图2是本申请实施例提供的另一种音频生成方法的方法流程图；

图3是本申请实施例提供的一种音频配置界面的示意图；

图4是本申请实施例提供的一种音频生成方法的示意图；

图5是本申请实施例提供的一种音频生成装置的框图；

图6是本申请实施例提供的另一种音频生成装置的框图；

图7是本申请实施例提供的一种音频生成装置的结构示意图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

具体实施方式

为了使本申请的原理、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

目前的音频生成方案通常由专业的技术人员，采用专门的音频转换设备将文字转换为音频，技术门槛较高，难以适用于普通用户进行音频创作，并且生成音频的过程中用户的参与度较低，生成的音频形态单一，难以满足用户对音频在听和看方面的要求，灵活性较差。

本申请实施例提供的音频生成方案生成音频的技术门槛较低，可以适用于普通用户进行音频创作，并且用户可以根据需要设置音频参数以及添加背景音乐，生成音频的过程中用户的参与度较高，生成的音频形态多样，能够满足用户对音频在听和看方面的要求，灵活性较高。

本申请实施例提供的音频处理方法可以由用户终端执行，该用户终端可以是智能手机、平板电脑、智能电视、动态影像专家压缩标准音频层面5(英文：Moving PictureExperts Group Audio Layer V；简称：MP5)播放器、膝上型便携计算机或台式计算机等等。可选地，该用户终端中可以安装有音频处理客户端，由该音频处理客户端进行音频生成，在一些实施场景中，客户端又称为App，本申请实施例对此不做限定。

请参考图1，其示出了本申请实施例提供的一种音频生成方法的方法流程图，该音频生成方法可以由用户终端执行。参见图1，该方法可以包括如下步骤：

步骤101、在音频配置界面中，接收用户触发的第一音频生成指令，该第一音频生成指令携带目标文本、第一音频参数和第一音乐标识，第一音乐标识指示第一背景音乐。

步骤102、根据第一音频参数，将目标文本转换为第一音频。

步骤103、根据第一音乐标识，从背景音乐库中获取第一背景音乐。

步骤104、将第一音频与第一背景音乐合成，得到第一目标音频。

综上所述，本申请实施例提供的音频生成方法，用户终端接收用户触发的第一音频生成指令后，根据该第一音频生成指令携带的第一音频参数将该第一音频生成指令携带的目标文本转换为第一音频，根据该第一音频生成指令携带的第一音乐标识从背景音乐库中获取第一背景音乐，将第一音频与第一背景音乐合成得到第一目标音频。由于可以由用户终端根据用户触发的第一音频生成指令生成音频，且可以由用户自定义音频参数以及背景音乐，因此有助于提高音频生成的灵活性。

请参考图2，其示出了本申请实施例提供的另一种音频生成方法的方法流程图，该音频生成方法可以由用户终端执行。参见图2，该方法可以包括如下步骤：

步骤201、在音频配置界面中，接收用户触发的第一音频生成指令，该第一音频生成指令携带目标文本、第一音频参数和第一音乐标识，第一音乐标识指示第一背景音乐。

在本申请实施例中，用户终端可以提供音频配置界面，用户可以在音频配置界面中触发第一音频生成指令，该第一音频生成指令可以携带目标文本、第一音频参数和第一音乐标识，该第一音频参数可以包括声音类型、语速或语调中的至少一种，第一音乐标识可以是第一背景音乐的名称。其中，声音类型可以包括男声、女声、温柔、尖锐和低沉等，语速指的是文字或人类表达意义的语言符号在单位时间内所呈现的词汇速度，例如，语速可以是在单位时间内阅读的文字数，语调指的是说话时语音高低轻重配置而形成的腔调，语调可以包括升调和降调等。为了便于描述，本申请实施例将第一音频参数中的声音类型称为第一声音类型，将第一音频参数中的语速称为第一语速，将第一音频参数中的语调称为第一语调。

可选地，音频配置界面可以包括文本控件、音频参数控件以及音乐控件，用户可以通过文本控件触发用户终端获取目标文本，通过音频参数控件触发用户终端获取第一音频参数，通过音乐控件触发用户终端选择第一背景音乐，并在音频配置界面中触发第一音频生成指令，第一音频生成指令可以携带目标文本、第一音频参数以及第一音乐标识，该第一音乐标识指示第一背景音乐。其中，音频参数控件可以包括声音类型控件、语速控件或语调控件中的至少一种。

可选地，文本控件可以是文本输入框，用户可以在文本输入框中输入目标文本，用户终端获取该目标文本；或者，文本控件可以是文本选择按键，用户可以通过文本选择按键从文本库中选择目标文本，用户终端获取该目标文本。可选地，用户可以通过文本选择按键触发用户终端获取文本库，并展示该文本库，用户从用户终端展示的该文本库中选择目标文本。

可选地，声音类型控件可以是声音选择按键，用户可以通过声音选择按键从声音类型库中选择第一声音类型，用户终端获取该第一声音类型。可选地，用户可以通过声音选择按键触发用户终端获取声音类型库，并展示该声音类型库，用户从用户终端展示的该声音类型库中选择第一声音类型。其中，该第一声音类型可以是用户喜爱的主播的声音类型。

可选地，语速控件可以是语速输入框，用户可以在语速输入框中输入第一语速，用户终端获取该第一语速；或者，语速控件可以是语速选择按键，用户可以通过语速选择按键从语速列表中选择第一语速，用户终端获取该第一语速。可选地，用户可以通过语速选择按键触发用户终端获取语速列表，并展示该语速列表，用户从用户终端展示的该语速列表中选择第一语速。

可选地，语调控件可以是语调选择按键，用户可以通过语调选择按键从语速列表中选择第一语调，用户终端获取该第一语调。可选地，用户可以通过语调选择按键触发用户终端获取语调列表，并展示该语调列表，用户从用户终端展示的该语调列表中选择第一语调。

可选地，音乐控件可以是音乐选择按键，用户可以通过音乐选择按键从背景音乐库中选择第一背景音乐，用户终端获取该第一背景音乐的标识(也即是第一音乐标识)。可选地，用户可以通过音乐选择按键触发用户终端获取背景音乐库，并展示该背景音乐库中的各个背景音乐的标识，用户根据该背景音乐库中的各个背景音乐的标识从该背景音乐库中选择第一背景音乐。其中，背景音乐的标识例如可以是背景音乐的名称。

示例地，请参考图3，其示出了本申请实施例提供的一种音频配置界面310的示意图，如图3所示，该音频配置界面310包括文本控件311、声音类型控件312、语速控件313、语调控件314、音乐控件315、确定控件316以及取消控件317，文本控件311为文本输入框，声音类型控件312、语速控件313、语调控件314和音乐控件315均为选择按键，且声音类型控件312、语速控件313和语调控件314均为音频参数控件。用户可以通过文本控件311输入目标文本，通过声音类型控件312选择第一声音类型，通过语速控件313选择第一语速，通过语调控件314选择第一语调，通过音乐控件315选择第一背景音乐，之后通过点击确定控件316触发第一音频生成指令。可选地，用户还可以点击取消控件317取消本次设置。如图3所示，该音频配置界面310还可以包括关闭控件318，用户可以点击关闭控件318关闭音频配置界面310，本申请实施例对此不做限定。

步骤202、根据第一音频参数，将目标文本转换为第一音频。

可选地，用户终端可以根据第一音频参数，基于TTS技术，将目标文本转换为第一音频。可选地，目标文本可以包括至少一个句子，用户终端根据第一音频参数，基于TTS技术对目标文本逐句转换，得到第一音频。其中，该第一音频的音频参数为第一音频参数。示例地，该第一音频的声音类型为第一声音类型，该第一音频的语速为第一语速，该第一音频的语调为第一语调。

步骤203、根据第一音乐标识，从背景音乐库中获取第一背景音乐。

其中，第一音乐标识可以是第一背景音乐的标识，例如是第一背景音乐的名称，用户终端可以根据第一音乐标识，从背景音乐库中查找第一背景音乐，在查找到第一背景音乐后，获取该第一背景音乐。

可选地，该背景音乐库可以位于用户终端中，也可以位于服务器中。用户终端可以根据第一音乐标识从本地的背景音乐库中获取第一背景音乐，若本地的背景音乐库中不存在该第一背景音乐，用户终端根据该第一音乐标识从服务器的背景音乐库中获取该第一背景音乐。

可选地，用户终端可以从服务器获取背景音乐库，根据第一音乐标识从获取到的背景音乐库中获取第一背景音乐，或者，用户终端根据第一音乐标识直接从服务器的背景音乐库中获取第一背景音乐，本申请实施例对此不做限定。

步骤204、将第一音频与第一背景音乐合成，得到第一目标音频。

可选地，用户终端可以基于音频合成技术，将第一音频与第一背景音乐合成，得到第一目标音频。可选地，用户终端在第一音频的播放时间轨道上添加该第一背景音乐，以将该第一音频与该第一背景音乐合成，得到第一目标音频。

在本申请实施例中，第一背景音乐的播放时长可以大于、等于或小于第一音频的播放时长。若第一背景音乐的播放时长大于第一音频的播放时长，用户终端可以从第一背景音乐中截取播放时长等于第一音频的播放时长的音乐段，将第一音频与该音乐段合成得到第一目标音频，其中，该音乐段的起始播放时刻可以是该第一背景音乐的任一播放时刻，例如该音乐段的起始播放时刻是第一背景音乐的起始播放时刻。若第一背景音乐的播放时长等于第一音频的播放时长，用户终端可以根据第一音频的起始播放时刻与第一背景音乐的起始播放时刻，直接将第一音频与第一背景音乐合成得到第一目标音频。若第一背景音乐的播放时长小于第一音频的播放时长，用户终端可以根据第一背景音乐的播放时长与第一音频的播放时长的差值，从第一背景音乐中截取音乐段，将该音乐段与第一背景音乐拼接形成拼接背景音乐，根据第一音频的起始播放时刻与该拼接背景音乐的起始播放时刻将第一音频与该拼接背景音乐合成得到第一目标音频，其中，该音乐段的播放时长可以等于第一背景音乐的播放时长与第一音频的播放时长的差值，该音乐段的起始播放时刻可以是该第一背景音乐的任一播放时刻，例如该音乐段的起始播放时刻是第一背景音乐的起始播放时刻。

本领域技术人员容易理解，该步骤204中提供的将第一音频与第一背景音乐合成的方案仅仅是示例性的，实际应用中，用户终端还可以采用其他方式将第一音频与第一背景音乐合成，例如，用户终端可以分析第一音频的语义，根据该第一音频的语义将该第一音频与第一背景音乐合成，本申请实施例不对用户终端将第一音频与第一背景音乐合成的方案进行限定。

需要说明的是，第一目标音频是根据声音类型、语速和语调等音频参数对目标文本进行转换得到且添加有背景音乐的音频，第一目标音频具有一定感情色彩，用户终端得到第一目标音频后，可以存储、播放和/或分享该第一目标音频。例如用户终端可以将该第一目标音频分享至视频分享平台(例如朋友圈)，或者，用户终端可以向好友分享该第一目标音频，本申请实施例对此不做限定。

还需要说明的是，在本申请实施例中，用户终端针对目标文本创作第一目标音频后，还可以针对该目标文本创作第二目标音频，使得针对同一文本，用户终端可以创作出不同的音频，提高音频产品形态的多样化。并且用户终端还可以对第一目标音频的音频参数和/或背景音乐进行更改，以生成不同形态的音频。其中，用户终端针对目标文本创作第二目标音频的过程可以参考下述步骤206至步骤209，用户终端对第一目标音频的音频参数和/或背景音乐进行更改的过程可以参考下述步骤210至步骤211。

步骤205、存储目标文本。

可选地，用户终端可以具有存储单元，用户终端可以将目标文本写入存储单元，以存储该目标文本。其中，该存储单元可以是存储器，该存储器可以是内存储器(又称内存)或外存储器(又称外存)，本申请实施例对此不做限定。

需要说明的是，该步骤205可以在步骤201与步骤202之间执行，也可以在步骤204后执行，也即是，用户终端是否存储目标文本与用户终端是否生成第一目标视频并无直接关系，本申请实施例对此不做限定。

步骤206、在音频配置界面中，接收用户触发的第二音频生成指令，该第二音频生成指令携带目标文本、第二音频参数和第二音乐标识，第二音乐标识指示第二背景音乐。

在本申请实施例中，用户可以在音频配置界面中触发第二音频生成指令，该第二音频生成指令可以携带目标文本、第二音频参数和第二音乐标识，该第二音频参数可以包括声音类型、语速或语调中的至少一种，第二音乐标识可以是第二背景音乐的名称。为了便于描述，本申请实施例将第二音频参数中的声音类型称为第二声音类型，将第二音频参数中的语速称为第二语速，将第二音频参数中的语调称为第二语调，其中，第二声音类型与第一声音类型可以相同或不同，第二语速与第一语速可以相同或不同，第二语调与第一语调可以相同或不同，第二背景音乐与第一背景音乐可以相同或不同，本申请实施例对此不做限定。

可选地，音频配置界面可以包括音频参数控件以及音乐控件，用户可以通过音频参数控件触发用户终端获取第二音频参数，通过音乐控件触发用户终端选择第二背景音乐，并在该音频配置界面中触发第二音频生成指令，该第二音频生成指令可以携带目标文本、第二音频参数以及第二音乐标识。其中，音频参数控件可以包括声音类型控件、语速控件或语调控件中的至少一种。

可选地，声音类型控件可以是声音选择按键，用户可以通过声音选择按键从声音类型库中选择第二声音类型，用户终端获取该第二声音类型。语速控件可以是语速输入框，用户可以在语速输入框中输入第二语速，用户终端获取该第二语速；或者，语速控件可以是语速选择按键，用户可以通过语速选择按键从语速列表中选择第二语速，用户终端获取该第二语速。语调控件可以是语调选择按键，用户可以通过语调选择按键从语速列表中选择第二语调，用户终端获取该第二语调。音乐控件可以是音乐选择按键，用户可以通过音乐选择按键从背景音乐库中选择第二背景音乐，用户终端获取该第二背景音乐的标识(也即是第二音乐标识)。需要说明的是，该步骤206中的目标文本可以是步骤201中用户终端获取到的目标文本，并且在该步骤206之前，用户终端已经存储目标文本，因此在该步骤206中用户终端获取第二音频参数以及第二音乐标识后，可以从用户终端的存储单元中获取目标文本，根据目标文本、第二音频参数以及第二音乐标识生成该第二音频生成指令，而不需再根据用户的触发获取目标文本，本申请实施例对此不做限定。

示例地，如图3所示，在前述步骤201的基础上，文本控件311中已经记录有目标文本，在该步骤206中用户可以通过声音类型控件312选择第二声音类型，通过语速控件313选择第二语速，通过语调控件314选择第二语调，通过音乐控件315选择第二背景音乐，之后通过点击确定控件316触发第二音频生成指令。可选地，用户还可以点击取消控件317取消本次设置，点击关闭控件318关闭该音频配置界面310，本申请实施例对此不做限定。

步骤207、根据第二音频参数，将目标文本转换为第二音频。

可选地，用户终端可以根据第二音频参数，基于TTS技术，将目标文本转换为第二音频。可选地，目标文本可以包括至少一个句子，用户终端根据第二音频参数，基于TTS技术对目标文本逐句转换，得到第二音频。其中，该第二音频的音频参数为第二音频参数。示例地，该第二音频的声音类型为第二声音类型，该第二音频的语速为第二语速，该第二音频的语调为第二语调。

步骤208、根据第二音乐标识，从背景音乐库中获取第二背景音乐。

步骤209、将第二音频与第二背景音乐合成，得到第二目标音频。

该步骤208至步骤209的实现过程可以参考前述步骤203至步骤204，本申请实施例在此不再赘述。

需要说明的是，第二目标音频是根据声音类型、语速和语调等音频参数对目标文本转换得到且添加有背景音乐的音频，第二目标音频具有一定感情色彩，用户终端得到第二目标音频后，可以存储、播放和/或分享该第二目标音频。例如用户终端可以将该第二目标音频分享至视频分享平台，或者，用户终端可以向好友分享该第二目标音频，本申请实施例对此不做限定。

步骤210、在音频配置界面中，接收用户触发的音频更改指令，该音频更改指令携带第三音频参数或第三音乐标识中的至少一种，第三音乐标识指示第三背景音乐。

用户可以在音频配置界面中触发音频更改指令，用户终端可以在音频配置界面中接收用户触发的音频更改指令，该音频更改指令可以携带第三音频参数或第三音乐标识中的至少一种，该第三音频参数可以包括声音类型、语速或语调中的至少一种，第三音乐标识可以是第三背景音乐的名称。在本申请实施例中，第三音频参数与第一音频参数不同，第三背景音乐与第一背景音乐不同。为了便于描述，本申请实施例将第三音频参数中的声音类型称为第三声音类型，将第三音频参数中的语速称为第三语速，将第三音频参数中的语调称为第三语调。其中，第三音频参数与第一音频参数不同可以是第三音频参数中的至少一个与第一音频参数中的至少一个不同，例如，第三声音类型与第一声音类型不同，第三语速与第一语速相同，且第三语调与第一语调相同；或者，第三声音类型与第一声音类型不同，第三语速与第一语速不同，且第三语调与第一语调相同；或者，第三语调与第一语调不同，第三声音类型与第一声音类型相同，且第三语速与第一语速相同，本申请实施例对此不做限定。

可选地，音频配置界面可以包括音频参数控件以及音乐控件，用户可以通过音频参数控件触发用户终端获取第三音频参数，通过音乐控件触发用户终端选择第三背景音乐，并在该音频配置界面中触发音频更改指令，该第三音频生成指令可以携带第三音频参数以及第三音乐标识，该第三音乐标识指示第三背景音乐。其中，音频参数控件可以包括声音类型控件、语速控件或语调控件中的至少一种。

可选地，声音类型控件可以是声音选择按键，用户可以通过声音选择按键从声音类型库中选择第三声音类型，用户终端获取该第三声音类型。语速控件可以是语速输入框，用户可以在语速输入框中输入第三语速，用户终端获取该第三语速；或者，语速控件可以是语速选择按键，用户可以通过语速选择按键从语速列表中选择第三语速，用户终端获取该第三语速。语调控件可以是语调选择按键，用户可以通过语调选择按键从语速列表中选择第三语调，用户终端获取该第三语调。音乐控件可以是音乐选择按键，用户可以通过音乐选择按键从背景音乐库中选择第三背景音乐，用户终端获取该第三背景音乐的标识(也即是第三音乐标识)。

示例地，如图3所示，该音频配置界面310还包括更改控件319，用户可以通过声音类型控件312选择第三声音类型，通过语速控件313选择第三语速，通过语调控件314选择第三语调，通过音乐控件315选择第三背景音乐，之后通过点击更改控件319触发音频更改指令。

步骤211、根据该音频更改指令，将第一目标音频的音频参数更改为第三音频参数，和/或，将第一目标音频的背景音乐更改为第三背景音乐，得到第三目标音频。

可选地，用户终端接收到音频更改指令后，若该音频更改指令携带第三音频参数，用户终端根据该音频更改指令，将第一目标音频的音频参数更改为第三音频参数，若该音频更改指令携带第三音乐标识，用户终端根据该第三音乐标识获取第三背景音乐，根据该音频更改指令，将第一目标音频的背景音乐更改为第三背景音乐。

可选地，若该音频更改指令携带第三音乐标识而不携带第三音频参数，用户终端根据该音频更改指令，从第一目标音频中分离出第一音频，将该第一音频与第三背景音乐合成，得到第三目标音频。用户终端将第一音频与第三背景音乐合成的过程可以参考前述步骤204，本申请实施例在此不再赘述。

可选地，若该音频更改指令携带第三音频参数而不携带第三音乐标识，用户终端根据该音频更改指令，将第一目标音频分离为第一音频和第一背景音乐，将该第一音频还原为目标文本，根据第三音频参数，将目标文本转换为第三音频，之后将第三音频与第一背景音乐合成得到第三目标音频。用户终端根据第三音频参数将目标文本转换为第三音频的过程可以参考步骤202，将第三音频与第一背景音乐合成的过程可以参考步骤204，本申请实施例在此不再赘述。

可选地，若该音频更改指令携带第三音频参数和第三音乐标识，用户终端根据该音频更改指令，从第一目标音频中分离出第一音频，将该第一音频还原为目标文本，根据第三音频参数，将目标文本转换为第三音频，之后将第三音频与第三背景音乐合成得到第三目标音频。用户终端根据第三音频参数将目标文本转换为第三音频的过程可以参考步骤202，将第三音频与第三背景音乐合成的过程可以参考步骤204，本申请实施例在此不再赘述。

在本申请实施例中，第三目标音频是用户终端对第一目标音频进行音频参数和/或背景音乐更改得到的音频，第三目标音频具有一定感情色彩，用户终端得到第三目标音频后，可以存储、播放和/或分享该第三目标音频。例如用户终端可以将该第三目标音频分享至视频分享平台，或者，用户终端可以向好友分享该第三目标音频，本申请实施例对此不做限定。其中，用户终端对第一目标音频进行音频参数和/或背景音乐更改，可以得到满足用户需要的音频，提升用户体验。

本申请实施例中，上述步骤210至步骤211可以认为是对音频进行二次加工的过程，本申请实施例可以向用户提供更改音频参数以及背景音乐并合成新音频的能力，通过对音频进行二次加工，用户终端可以生成多种不同形态的音频，更好的满足用户对音频在声音类型、语速、语调等方面的要求。

需要说明的是，本申请实施例提供的音频生成方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

综上所述，本申请实施例提供的音频生成方法，用户终端接收用户触发的第一音频生成指令后，根据该第一音频生成指令携带的第一音频参数将该第一音频生成指令携带的目标文本转换为第一音频，根据该第一音频生成指令携带的第一音乐标识从背景音乐库中获取第一背景音乐，将第一音频与第一背景音乐合成得到第一目标音频。由于可以由用户终端根据用户触发的第一音频生成指令生成音频，且可以由用户自定义音频参数以及背景音乐，因此有助于提高音频生成的灵活性。本申请实施例通过TTS技术向普通用户提供音频创作的能力，可以使普通用户快速创作出专业的AI人工智能(英文：ArtificialIntelligence；简称：AI)音频。

请参考图4，其示出了本申请实施例提供的一种音频生成方法的示意图，下面结合图4，以一个示例来对本申请实施例的音频生成方法的流程进行说明。

如图4所示，用户可以向用户终端输入目标文本，设置声音类型、语速和语调等音频参数，并选择背景音乐后触发音频生成指令，用户终端根据该音频参数，基于TTS技术将该目标文本转换为音频，并将背景音乐与该音频合成得到有感情、有背景音乐的目标音频。之后，用户终端可以对该目标音频进行二次加工，更改该目标音频的音频参数(包括声音类型、语速和语调)以及背景音乐，得到二次加工后的目标音频。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图5，其示出了本申请实施例提供的一种音频生成装置500的框图，该音频生成装置500可以为用户终端中的程序组件。参见图5，该音频生成装置500可以包括但不限于：

第一接收模块501，用于在音频配置界面中，接收用户触发的第一音频生成指令，该第一音频生成指令携带目标文本、第一音频参数和第一音乐标识，第一音乐标识指示第一背景音乐；

第一转换模块502，用于根据第一音频参数，将目标文本转换为第一音频；

第一获取模块503，用于根据第一音乐标识，从背景音乐库中获取第一背景音乐；

第一合成模块504，用于将第一音频与第一背景音乐合成，得到第一目标音频。

综上所述，本申请实施例提供的音频生成装置，用户终端接收用户触发的第一音频生成指令后，根据该第一音频生成指令携带的第一音频参数将该第一音频生成指令携带的目标文本转换为第一音频，根据该第一音频生成指令携带的第一音乐标识从背景音乐库中获取第一背景音乐，将第一音频与第一背景音乐合成得到第一目标音频。由于可以由用户终端根据用户触发的第一音频生成指令生成音频，且可以由用户自定义音频参数以及背景音乐，因此有助于提高音频生成的灵活性。

可选地，请参考图6，其示出了本申请实施例提供的另一种音频生成装置500的框图，参见图6，在图5的基础上，该音频生成装置500还包括：

存储模块505，用于存储目标文本；

第二接收模块506，用于在音频配置界面中，接收用户触发的第二音频生成指令，该第二音频生成指令携带目标文本、第二音频参数和第二音乐标识，第二音乐标识指示第二背景音乐；

第二转换模块507，用于根据第二音频参数，将目标文本转换为第二音频；

第二获取模块508，用于根据第二音乐标识，从背景音乐库中获取第二背景音乐；

第二合成模块509，用于将第二音频与第二背景音乐合成，得到第二目标音频。

可选地，第一转换模块502，用于根据第一音频参数，基于TTS技术，将目标文本转换为第一音频；

第二转换模块507，用于根据第二音频参数，基于TTS技术，将目标文本转换为第二音频。

可选地，请继续参考图5，该音频生成装置500还包括：

第三接收模块510，用于在音频配置界面中，接收用户触发的音频更改指令，该音频更改指令携带第三音频参数或第三音乐标识中的至少一种，第三音乐标识指示第三背景音乐；

更改模块511，用于根据音频更改指令，将第一目标音频的音频参数更改为第三音频参数，和/或，将第一目标音频的背景音乐更改为第三背景音乐，得到第三目标音频。

可选地，第一音频参数、第二音频参数和第三音频参数分别包括：声音类型、语速或语调中的至少一种。

本申请实施例提供了一种音频生成装置，包括：处理器和存储器，

该存储器，用于存储计算机程序。

该处理器，用于执行该存储器上所存储的计算机程序，实现上述实施例提供的音频生成方法。

请参考图7，其示出了本申请实施例提供的一种音频生成装置700的结构示意图。该装置700可以是用户终端，比如：智能手机、平板电脑、动态影像专家压缩标准音频层面4(英文：Moving Picture Experts Group Audio Layer IV；简称：MP4)播放器、笔记本电脑或台式电脑。装置700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，装置700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、7核心处理器等。处理器701可以采用数字信号处理(英文：Digital Signal Processing；简称：DSP)、现场可编程门阵列(英文：Field－Programmable Gate Array；简称：FPGA)、可编程逻辑阵列(英文：Programmable Logic Array；简称：PLA)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(英文：Central Processing Unit；简称：CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有音频合成器(英文：Graphics Processing Unit；简称：GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括人工智能(英文：ArtificialIntelligence；简称：AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请实施例提供的音频生成方法。

在一些实施例中，装置700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708或电源709中的至少一种。

外围设备接口703可被用于将输入/输出(英文：Input/Output；简称：I/O)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射射频(英文：Radio Frequency；简称：RF)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或无线保真(英文：Wireless Fidelity；简称：WiFi)网络。在一些实施例中，射频电路704还可以包括近距离无线通信(英文：Near FieldCommunication；简称：NFC)有关的电路，本申请对此不加以限定。

显示屏705用于显示用户界面(英文：User Interface；简称：UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置装置700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在装置700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在装置700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以为有机发光二极管(英文：Organic Light-Emitting Diode；简称：OLED)显示屏。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(英文：Virtual Reality；简称：VR)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在装置700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位装置700的当前地理位置，以实现导航或基于位置的服务(英文：Location Based Service；简称：LBS)。定位组件708可以是基于美国的全球定位系统(英文：Global Positioning System；简称：GPS)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源709用于为装置700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，装置700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以装置700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测装置700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对装置700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在装置700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在装置700的侧边框时，可以检测用户对装置700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置装置700的正面、背面或侧面。当装置700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在装置700的前面板。接近传感器716用于采集用户与装置700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与装置700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与装置700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对装置700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例提供了一种计算机可读存储介质，当该计算机可读存储介质中的程序由处理器执行时，实现上述实施例提供的音频生成方法。该计算机可读存储介质可以是非暂态的。例如，该计算机可读存储介质可以是只读存储器(英文：Read-Only Memory；简称：ROM)、随机存取存储器(英文：Random Access Memory；简称：RAM)、紧凑型光盘只读储存器(英文：Compact Disc Read-Only Memory；简称：CD-ROM)、磁带、软盘和光数据存储设备等。

本申请中术语“A或B的至少一种”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A或B的至少一种，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。同理，“A、B或C的至少一种”表示可以存在七种关系，可以表示：单独存在A，单独存在B，单独存在C，同时存在A和B，同时存在A和C，同时存在C和B，同时存在A、B和C这七种情况。同理，“A、B、C或D的至少一种”表示可以存在十五种关系，可以表示：单独存在A，单独存在B，单独存在C，单独存在D，同时存在A和B，同时存在A和C，同时存在A和D，同时存在C和B，同时存在D和B，同时存在C和D，同时存在A、B和C，同时存在A、B和D，同时存在A、C和D，同时存在B、C和D，同时存在A、B、C和D，这十五种情况。

本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请中术语“第一”、“第二”、“第三”和“第四”用于描述目的，而不能理解为指示或暗示相对重要性。

本申请中术语“多个”指两个或两个以上，除非另有明确的限定。术语“至少一种”表示一种或多种，多种表示两种或两种以上。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频生成方法，其特征在于，应用于用户终端，所述方法包括：

根据所述第一音频参数，将所述目标文本转换为第一音频；

2.根据权利要求1所述的方法，其特征在于，在接收用户触发的第一音频生成指令之后，所述方法还包括：

存储所述目标文本；

根据所述第二音频参数，将所述目标文本转换为第二音频；

3.根据权利要求2所述的方法，其特征在于，

所述根据所述第一音频参数，将所述目标文本转换为第一音频，包括：

根据所述第一音频参数，基于从文本到语音TTS技术，将所述目标文本转换为第一音频；

所述根据所述第二音频参数，将所述目标文本转换为第二音频，包括：

根据所述第二音频参数，基于TTS技术，将所述目标文本转换为第二音频。

4.根据权利要求1所述的方法，其特征在于，在将所述第一音频与所述第一背景音乐合成，得到第一目标音频之后，所述方法还包括：

5.根据权利要求1至4任一所述的方法，其特征在于，

所述第一音频参数包括：声音类型、语速或语调中的至少一种。

6.一种音频生成装置，其特征在于，应用于用户终端，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

存储模块，用于存储所述目标文本；

8.根据权利要求7所述的装置，其特征在于，

所述第一转换模块，用于根据所述第一音频参数，基于TTS技术，将所述目标文本转换为第一音频；

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6至9任一所述的装置，其特征在于，

11.一种音频生成装置，其特征在于，包括：处理器和存储器，

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器上所存储的计算机程序，实现权利要求1至5任一所述的音频生成方法。

12.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序由处理器执行时，实现权利要求1至5任一所述的音频生成方法。