CN110992927B

CN110992927B - 音频生成方法、装置、计算机可读存储介质及计算设备

Info

Publication number: CN110992927B
Application number: CN201911277700.4A
Authority: CN
Inventors: 肖纯智; 劳振锋
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2024-02-20
Anticipated expiration: 2039-12-11
Also published as: CN110992927A

Abstract

本申请是关于一种音频生成方法、装置、计算机可读存储介质及计算设备，属于电子技术应用领域。所述方法包括：获取多个发音信息；将所述多个发音信息输入音频合成模型，得到所述音频合成模型输出的目标音频；其中，每个所述发音信息包括：所述发音信息对应的第一音频帧的音高、所述第一音频帧对应的第一音素的内容以及所述第一音素的时长信息，任一音素的时长信息用于指示所述任一音素在发音过程中的持续时长，所述第一音频帧为所述目标音频中的一个音频帧。本申请能够提高输出音频的质量。

Description

音频生成方法、装置、计算机可读存储介质及计算设备

技术领域

本申请涉及电子技术应用领域，特别涉及一种音频生成方法、装置、计算机可读存储介质及计算设备。

背景技术

音频合成模型是一种用于进行音频合成的模型。通过音频合成模型可以合成歌曲等音频。

目前采用音频合成模型生成音频的过程包括：经过模型训练过程，得到音频合成模型，将多个发音信息(condition)输入音频合成模型，由音频合成模型输出目标音频。该多个发音信息与输出的目标音频包括的多个音频帧一一对应，每个发音信息用于描述对应的音频帧的音频特征。通常，每个发音信息包括：对应的音频帧的音高，对应的音频帧所对应的目标音素的内容，目标音素的前一个音素的内容和后一个音素的内容。

但是，由于发音信息对应的内容较为单一，采用前述音频合成模型生成的歌曲，无法有效反映人的声腔变化过程，导致输出音频的质量较差。

发明内容

本申请实施例提供了一种音频生成方法、装置、计算机可读存储介质及计算设备，能够提高生成的音频的质量。所述技术方案如下：

根据本申请实施例的第一方面，提供一种音频生成方法，包括：

获取多个发音信息；

将所述多个发音信息输入音频合成模型，得到所述音频合成模型输出的目标音频；

其中，每个所述发音信息包括：所述发音信息对应的第一音频帧的音高、所述第一音频帧对应的第一音素的内容以及所述第一音素的时长信息，任一音素的时长信息用于指示所述任一音素在发音过程中的持续时长，所述第一音频帧为所述目标音频中的一个音频帧。

可选地，每个所述发音信息还包括：对应的第一音频帧的位置信息，任一音频帧的位置信息用于标识所述任一音频帧在所对应的音素对应的音频帧集合中的位置，任一音素对应的音频帧集合为所述任一音素在发音过程中所形成的音频帧的集合。

可选地，所述多个发音信息与所述目标音频的多个音频帧一一对应，所述时长信息包括：归一化音素时长，所述位置信息包括浮点位置值；

所述归一化音素时长满足时长计算公式：

其中，T1为归一化音素时长，T2为音素在发音过程中的持续时长，所述T为指定时长，R为指定归一化阈值；

所述浮点位置值满足位置计算公式：

Li＝i/m；

其中，Li为音素所对应的音频帧集合中第i个音频帧所对应的发音信息中的浮点位置值，m为所述音素所对应的音频帧集合中音频帧的总数。

可选地，在所述获取多个发音信息之前，所述方法还包括：

对样本音频进行分析，得到多个样本发音信息，其中，所述多个样本发音信息与所述样本音频中多个音频帧分别对应，每个所述样本发音信息包括：所述样本发音信息对应的第二音频帧的音高，所述第二音频帧对应的第二音素的内容、所述第二音素的时长信息以及所述第二音频帧的位置信息，所述第二音频帧为所述样本音频中的一个音频帧；

基于所述多个样本发音信息，进行模型训练，得到所述音频合成模型。

可选地，所述对样本音频进行分析，得到多个样本发音信息，包括：

获取所述样本音频中每个音频帧的音高；

获取所述样本音频中每个音素在发音过程中的时长信息；

获取所述样本音频中每个音素对应的音频帧集合；

基于所述每个音频帧的音高、所述每个音素的时长信息以及所述每个音素对应的音频帧集合，生成所述多个样本发音信息。

根据本申请实施例的第二方面，提供一种音频生成装置，其特征在于，包括：

获取模块，用于获取多个发音信息；

处理模块，用于将所述多个发音信息输入音频合成模型，得到所述音频合成模型输出的目标音频；

所述归一化音素时长满足时长计算公式：

所述浮点位置值满足位置计算公式：

Li＝i/m；

可选地，所述装置还包括：

分析模块，用于在所述获取多个发音信息之前，对样本音频进行分析，得到多个样本发音信息，其中，所述多个样本发音信息与所述样本音频中多个音频帧分别对应，每个所述样本发音信息包括：所述样本发音信息对应的第二音频帧的音高，所述第二音频帧对应的第二音素的内容、所述第二音素的时长信息以及所述第二音频帧的位置信息，所述第二音频帧为所述样本音频中的一个音频帧；

训练模块，用于基于所述多个样本发音信息，进行模型训练，得到所述音频合成模型。

可选地，所述分析模块，用于：

获取所述样本音频中每个音频帧的音高；

获取所述样本音频中每个音素在发音过程中的时长信息；

获取所述样本音频中每个音素对应的音频帧集合；

根据本申请实施例的第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序在被处理器执行时使得所述处理器实现如前述第一方面任一所述的音频生成方法。

根据本申请实施例的第四方面，提供一种计算设备，所述计算设备包括处理器和存储器；

所述存储器存储计算机指令；所述处理器执行所述存储器存储的计算机指令，使得所述计算设备执行第一方面任一所述的音频生成方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请实施例提供的音频生成方法、装置、计算机可读存储介质及计算设备，由于输入音频合成模型中的发音信息包括第一音素的时长信息，因此，丰富了发音信息的内容，并且该音频合成模型合成的音频可以反映各个音素的发音时长，从而提高声音的清晰度，有效反映了人的声腔变化过程，提高输出音频的质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请的实施例，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种音频生成方法的流程图。

图2是根据一示例性实施例示出的另一种音频生成方法的流程图。

图3是根据一示例性实施例示出的一种音频生成装置的框图。

图4是根据一示例性实施例示出的另一种音频生成装置的框图。

图5是根据一示例性实施例示出的一种终端的结构示意图。

图6是根据一示例性实施例示出的一种服务器的结构示意图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

音素(phoneme)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。在不同的发音规则中，音素的类型不同。示例的，对于英文发音规则，音素包括元音音素和辅音音素两类，每一个类中又细分为多个具体音素，国际音标(由国际语音学会制定，用来统一标示各国语音的字母。也称为“国际语音学字母”或“万国语音学字母”)的音标符号与音素一一对应；对于中文发音规则，每个中文汉字的发音都可以分解成声母和韵母，音素包括声母音素和韵母音素两类，每一个类中又细分为多个具体音素，中文的声母韵母表中的符号与音素一一对应。

不同音素的发音需要将声腔改变成不同的形状，而声腔的变化是需要一个过程的。例如，对于一个音素的发音，声腔的变化过程可以包括开口、平稳、闭口三个阶段，不同的音素或相同的音素在不同的发声时长下三个阶段所占的时长比例是不同的。传统的音频合成模型在生成音频时，采用的多个发音信息中每个发音信息包括：对应的音频帧的音高，对应的音频帧所对应的目标音素的内容，目标音素的前一个音素的内容以及后一个音素的内容。该音频合成模型合成的音频无法反映各个音素的发音过程，导致声音的清晰度较差。因此，无法有效反映人的声腔变化过程，导致输出音频的质量较差。

本申请实施例提供一种音频生成方法，能够解决前述问题，该方法可以应用于多种类型的音频的生成，例如中文歌曲、英文歌曲或者其他包括人声的音频，例如评书或曲艺音频等。通过该音频生成方法可以实现对人声的模拟，从而为用户提供虚拟歌姬等人工智能演唱功能。

如图1所示，图1是该音频生成方法的流程图，包括：

步骤101、获取多个发音信息，其中，每个发音信息包括：该发音信息对应的第一音频帧的音高、该第一音频帧对应的第一音素的内容以及第一音素的时长信息。

其中，多个发音信息与待生成的目标音频的多个音频帧分别对应，第一音频帧为目标音频中的一个音频帧，任一音素的时长信息用于指示任一音素在发音过程中的持续时长。例如，音素：韵母“i”在发音过程中持续200ms(毫秒)，则音素：韵母“i”的时长信息指示音素“i”在发音过程中的持续时长为200ms。

其中，时长信息可以由一个或多个字符组成。该字符可以为二进制字符、十进制字符或者其他类型字符，本申请实施例对此不做限定。

步骤102、将多个发音信息输入音频合成模型，得到音频合成模型输出的目标音频。

综上所述，本申请实施例提供的音频生成方法，由于输入音频合成模型中的发音信息包括第一音素的时长信息，因此，丰富了发音信息的内容，并且该音频合成模型合成的音频可以反映各个音素的发音时长，从而提高声音的清晰度，实现人的声腔变化过程的有效反映，提高输出音频的质量。

本申请实施例提供另一种音频生成方法，该方法可以由音频生成装置执行，该音频生成装置可以为终端或服务器，该终端可以为显示器、计算机、智能手机、平板电脑和膝上型便携计算机等等。服务器可以为一台服务器或者由若干台服务器组成的服务器集群。该方法涉及模型训练过程和模型使用过程，如图2所示，图2是该音频生成方法的流程图，该方法包括：

步骤201、对样本音频进行分析，得到多个样本发音信息。

样本音频可以是预先录制的一个或多个指定音频，该指定音频可以为歌曲音频或者其他包括人声的音频，如评书或者曲艺音频。

其中，该样本音频可以包括多个音频帧，该多个音频帧与样本音频的多个样本发音信息分别对应，通常为一一对应，每个样本发音信息用于表示对应音频帧的音频特征。每个样本发音信息包括：样本发音信息对应的第二音频帧的音高，第二音频帧对应的第二音素的内容、第二音素的时长信息以及第二音频帧的位置信息。其中，任一音素的时长信息用于指示任一音素在发音过程中的持续时长。第二音频帧为样本音频中的一个音频帧。第二音频帧与第二音素对应指的是，第二音频帧是第二音素在发音过程中所形成的音频帧中的一帧，该第二音频帧的语音内容中包含第二音素的内容，因此两者存在对应关系。

示例的，该时长信息包括：归一化音素时长；该归一化音素时长满足时长计算公式：

其中，T1为归一化音素时长，T2为音素在发音过程中的持续时长，T为指定时长，R为指定归一化阈值。其中，指定时长T通常为预设的固定值。例如，其取值范围可以为3至5s(秒)。R通常为预设的固定值。例如，其取值范围为1至2，通常R＝1。

假设音素按照中文发音规则划分，第二音素为“我们”这个发音内容中的声母“w”，发音时长为70ms，指定时长为4s，即4000ms，则T1＝7/400。

基于该时长计算公式可知，该归一化音素时长为小于或等于R的数值。采用如此方式表示时长信息，可以减少用于表示时长信息的数据量，从而减少对内存的占用，在后续模型训练过程中，可以实现模型的快速收敛，提高模型训练速度。例如，R＝1。当音素在发音过程中的持续时长小于或等于指定时长时，该归一化音素时长为小于或等于1的数值，当音素在发音过程中的持续时长大于指定时长时，该归一化音素时长为等于1的数值，因此，该归一化音素时长为小于或等于1的数值。进一步可选地，每个样本发音信息还可以包括：第二音素的相邻音素的内容，任一音素的相邻音素包括该任一音素的前一个音素和后一个音素。该前一个音素以及后一个音素通常分别与该任一音素不同。以中文发音规则为例，“你好”中包括的音素为“n，i，h，ao”。对于音素“i”，其前一个音素为“n”，后一个音素为“h”。

值得说明的是，前述样本发音信息还可以根据实际情况，添加其他描述其对应音频帧的信息。示例的，样本发音信息还包括：对应的第二音频帧的位置信息，任一音频帧的位置信息用于标识该任一音频帧在所对应的音素对应的音频帧集合中的位置。

本申请实施例中，任一音素对应的音频帧集合为该任一音素在发音过程中所形成的音频帧的集合。为了便于读者理解，后续实施例中，将样本音频中，任一音素在发音过程中所形成的音频帧的集合称为该任一音素对应的样本音频帧集合；将目标音频中，任一音素在发音过程中所形成的音频帧的集合称为该任一音素对应的目标音频帧集合。

在第一种可选方式中，第二音频帧的位置信息可以由第二音频帧在所对应的音素(即第二音素)对应的音频帧集合中的分段位置表示。其中，音频帧集合按照固定比例划分为若干段，前述分段位置用于指示对应的音频帧所在的具体分段。

可选地，该第二音素对应的样本音频帧集合(即样本音频中该第二音素在发音过程中所形成的音频帧的集合)可以按照预设分段规则(例如该分段规则为平均分段规则)划分为w段，w为正整数，分段位置即为该w段中的一段。例如，w为固定值，且w>1。示例的，w＝3，也即是，样本音频帧集合分成3段，该3段按照平均分段规则划分为时长相等(或相近)的开口段、平稳段和闭口段。则假设样本发音信息对应的音频帧处于开口段，对应第二音频帧的位置信息用于指示该开口段。

示例的，前述位置信息可以采用一个或多个字符标识分段位置。该字符可以为二进制字符，例如位置信息包括：00、01和10三种类型。示例的，可以采用00表示开口段，采用01表示平稳段，采用10表示闭口段。该字符也可以为其他类型的字符，如字母，本申请实施例对此不做限定。前述位置信息可以在发音信息中占用一个字段。

在第二种可选方式中，多个发音信息与目标音频的多个音频帧一一对应，位置信息包括浮点位置值；浮点位置值满足位置计算公式：

Li＝i/m；

其中，Li为音素所对应的音频帧集合中第i个音频帧所对应的发音信息中的浮点位置值，m为音素所对应的音频帧集合中音频帧的总数。

假设音素按照中文发音规则划分，第二音素为“快乐”这个发音内容中的声母“k”，发音时长为80ms，1个音频帧的时长时10ms，则对于音素“k”，m＝8，假设位置计算公式中的i＝1，则第一个音频帧所对应的发音信息中的浮点位置值为1/8。

基于该位置计算公式可知，浮点位置值为小于或等于1的数值。采用如此方式表示位置信息，可以减少用于表示位置信息的数据量，从而减少对内存的占用，在后续模型训练过程中，可以实现模型的快速收敛，提高模型训练速度。

需要说明的是，前述第一种可选方式中，通常w为固定值，则对于任一音素对应的音频帧集合，该音频帧集合均按照等分原则进行划分，得到对应的分段位置。但是，不同的音素，或者相同音素在不同的发音时长下，其发音状态是不同的。如果按照固定的比例进行音频帧集合的划分，无法准确反映每个发音信息所对应的音频帧处于音频帧集合的哪个位置。这样容易导致音频合成模型没有学习到音素在发音的声腔状态变化过程，从而导致合成的音频存在发音咬字不清的问题。而采用前述第二种可选方式获取的发音信息，由于发音信息所对应的浮点位置值能够精确标定对应的音频帧在音频帧集合中的位置，从而使得音频合成模型学习到音素在发声的声腔状态变化过程，避免合成的音频存在发音咬字不清的问题。

可选地，对样本音频进行分析，得到多个样本发音信息的过程可以包括：

步骤A1、获取样本音频中每个音频帧的音高。

示例的，可以采用指定软件识别样本音频中每个音频帧的音高。其中，在样本音频的无声段、清音段及非连音的短暂音素过渡区等等，由于人的声带没有振动，音频不具有周期性，无法提取音高；而在浊音段及连音的音素过渡区(即存在连音的两个音素中一个音素到另一个音素之间的区域)声带是持续振动的，音频具有周期性，可提取出音高。该音高可以采用音高值序列的方式或者音高图表的方式记录。

步骤A2、获取样本音频中每个音素在发音过程中的时长信息。

其中，获取样本音频中每个音素在发音过程中的时长信息的方式有多种。本申请实施例以以下两种可选方式为例进行说明：

在第一种可选方式中，通过指定软件识别样本音频中每个音素在发音过程中的时长信息。示例的，通过该指定软件遍历样本音频中的每个音频帧，从而检测到每个音素的发音开始的音频帧和发音结束的音频帧，并将每个音素的发音结束的音频帧与发音开始的音频帧之间的时长差确定为每个音素的时长信息。

在第二种可选方式中，通过人工标定的方式确定样本音频中每个音素在发音过程中的时长信息。

如步骤A1，音频帧的音高可以采用音高值序列的方式或者音高图表的方式记录。音频生成装置可以以前述记录的方式呈现样本音频的音高以及对应的各个音频帧的序号(或图标)。编程人员或者用户可以通过人为标定的方式标注每个音素发音开始的音频帧和发音结束的音频帧。相应的，音频生成装置接收标注指令，基于标注指令将每个音素的发音结束的音频帧与发音开始的音频帧之间的时长差确定为每个音素的时长信息。

步骤A3、获取样本音频中每个音素对应的音频帧集合。

任一音素对应的音频帧集合为任一音素在发音过程中所形成的音频帧的集合，该集合中的每个音频帧包含的语音内容均包括该任一音素。如步骤A2，在获取了每个音素发音开始的音频帧和发音结束的音频帧后，将每个音素对应的从发音开始的音频帧到发音结束的音频帧中的所有音频帧确定为该音素对应的音频帧集合。

示例的，假设音素：声母“n”发音较短时，仅持续70ms(毫秒)，而一个音频帧的持续时长为10ms，则音频帧集合有7个音频帧，每个音频帧的语音内容都包含该音素“n”；又例如，假设音素：韵母“i”发音较长，持续300ms，则音频帧集合有30个音频帧，每个音频帧的语音内容都包含该音素“i”。

步骤A4、基于每个音频帧的音高、每个音素的时长信息以及每个音素对应的音频帧集合，生成多个样本发音信息。

音频生成装置可以基于每个音频帧的音高、每个音素的时长信息以及每个音素对应的音频帧集合，为所有音频帧生成多个样本发音信息。其中，时长信息和位置信息可以参考前述公式计算得到。

步骤202、基于多个样本发音信息，进行模型训练，得到音频合成模型。

由于样本音频已知，可以将样本音频作为标签，采用多个样本发音信息作为输入信息，进行模型训练，直至预设的损失函数对应的损失值收敛至目标范围，得到音频合成模型。

通过采用该多个样本发音信息进行模型训练，可以有效地帮助音频合成模型学习音素在不同的发音时长下，所形成的不同发音状态，有效提升训练得到的音频合成模型所生成的音频的发音咬字清晰度。

步骤203、获取多个发音信息，每个发音信息包括：发音信息对应的第一音频帧的音高、第一音频帧对应的第一音素的内容以及第一音素的时长信息。

其中，第一音频帧为待生成的目标音频(即后续步骤204中所需生成的目标音频)中的一个音频帧。第一音素的内容和第一音素的时长信息的解释可以参考前述步骤201中的解释，例如，时长信息包括：归一化音素时长；该归一化音素时长满足前述时长计算公式。进一步可选地，每个样本发音信息还可以包括：第一音素的相邻音素帧的内容，该相邻音素的解释可以参考前述步骤201中的解释。

参考步骤201，前述样本发音信息还可以根据实际情况，添加其他描述其对应音频帧的信息。相应的，步骤203所获取的发音信息与样本发音信息中的信息内容一致，也可以添加其他描述其对应音频帧的信息。示例的，发音信息还包括：对应第一音频帧的位置信息，该位置信息用于描述对应音频帧(即待生成的音频帧)在第一音素对应的音频帧集合中的位置。其中，第一音素对应的音频帧集合为目标音频帧集合，即目标音频中该第一音素在发音过程中所形成的音频帧的集合。例如，第一音频帧的位置信息可以由第一音频帧在所对应的音素对应的目标音频帧集合中的分段位置表示，又例如，位置信息包括浮点位置值；浮点位置值满足前述位置计算公式。本申请实施例对此不做限定。

其中，后续需要合成的目标音频可以包括多个音频帧，该多个音频帧与该多个发音信息分别对应，通常为一一对应，每个发音信息用于表示对应音频帧的音频特征。基于该发音信息能够对应生成音频帧。

在本申请实施例中，获取多个发音信息的过程可以有多种实现方式：

在第一种实现方式中，音频生成装置可以接收多个发音信息。例如，该音频生成装置为手机、笔记本电脑或台式电脑等，用户(或程序员)可以通过I/O(Input/Output，输入/输出)，如键盘或触摸屏，输入该多个发音信息，相应的，音频生成装置接收该多个发音信息。可选地，音频生成装置接收多个发音信息的过程可以有以下两种可选示例：在第一种可选示例中，音频生成装置接收第一待编辑信息，例如，该第一待编辑信息包括：各个待生成的目标音频帧的音高，目标音频帧所对应的音素的内容以及每个音素的时长信息。可选地，第一待编辑信息还包括：各个音素的相邻音素的内容和/或每个音频帧的位置信息；音频生成装置对接收的第一待编辑信息以音频帧为单位进行编码得到多个发音信息，也即是，为每个音频帧生成一个发音信息。在一种可选示例中，音频生成装置可以采用onehot编码方式或者emmbebing编码方式来进行前述第一待编辑信息的编码；在另一种可选示例中，音频生成装置可以对第一待编码信息中每个音频帧对应的部分信息进行编码，将每个音频帧的编码后的信息与未编码的信息进行拼接得到前述每个音频帧对应的发音信息。例如，音频生成装置可以对第一待编码信息中每个音频帧对应的音高、第一音素的内容、第一音素的相邻音素的内容进行编码，将每个音频帧的编码后的信息与每个音频帧对应的未编码信息，如时长信息以及位置信息，进行拼接得到前述每个音频帧对应的发音信息。

在第二种可选示例中，音频生成装置可以直接接收多个发音信息，每个发音信息是经过onehot编码方式或者emmbebing编码方式等编码得到的信息。

在第二种实现方式中，音频生成装置可以接收至少一个初始音频，并对至少一个初始音频分析，得到多个发音信息。可选地，该初始音频可以为用户自己录制的音频，也可以是通过其他方式获取的音频，例如，从网络下载的音频。用户可以基于自身需求获取不同类型的初始音频，由此生成的后续的目标音频，可以有效满足用户需求，实现音频合成的定制化和个性化，提高用户体验。

对每个初始音频的分析过程可以参考前述步骤201中对样本音频进行分析的过程。可选地，对至少一个初始音频分析，得到多个发音信息的过程可以包括：对至少一个初始音频分析，得到第二待编辑信息，该第二待编辑信息包括：各个待生成的目标音频帧的音高，目标音频帧所对应的音素的内容以及每个音素的时长信息。可选地，第二待编辑信息还包括：各个音素的相邻音素的内容和/或每个音频帧的位置信息；音频生成装置对接收的第二待编辑信息进行编码得到多个发音信息。在一种可选示例中，音频生成装置可以采用onehot编码方式或者emmbebing编码方式来进行前述第二待编辑信息的编码。在另一种可选示例中，音频生成装置可以对第二待编码信息中每个音频帧对应的部分信息进行编码，将每个音频帧的编码后的信息与未编码的信息进行拼接得到前述每个音频帧对应的发音信息。例如，音频生成装置可以对第二待编码信息中每个音频帧对应的音高、第一音素的内容、第一音素的相邻音素的内容进行编码，将每个音频帧的编码后的信息与每个音频帧对应的未编码信息，如时长信息以及位置信息，进行拼接得到前述每个音频帧对应的发音信息。

本申请实施例在实际实现时，音频生成装置可以接收多个初始音频，并对多个初始音频分析，得到多个发音信息，如此后续过程中，合成的目标音频相当于该多个初始音频组合得到的音频。

为了便于读者理解，表1示意性地示出多个发音信息的内容，该多个发音信息为中文文字内容“一样”的发音信息，表1以中文发音规则进行音素的划分，如表1所示，假设位置信息由浮点位置值表示，时长信息由归一化音素时长表示，两者的取值范围均为0至1，指定时长为4s。“null”表示不存在。以对应音频帧的序号为4的发音信息为例，其包含的内容为：音高为150Hz，目标音素为韵母“i”(表示序号为4音频帧的语音内容中包含音素“i”)，前一个音素为声母“y”，后一个音素为声母“y”，归一化音素时长为1/20，浮点位置值为1/3。其他发音信息的解释可以参考该发音信息的解释，本申请实施例对此不再赘述。

表1

步骤204、将多个发音信息输入音频合成模型，得到音频合成模型输出的目标音频。

音频生成装置将多个发音信息输入音频合成模型，该音频合成模型输出的音频即为目标音频。本申请实施例中，音频合成模型是一种用于进行音频合成的模型，通过音频合成模型可以合成歌曲等音频。音频合成模型通常为深度学习(Deep Learning)模型。示例的，该音频合成模型可以为wavenet模型，或者NPSS模型。

步骤201至步骤202属于模型训练过程，步骤203至步骤204属于模型使用过程。本申请实施例提供的音频生成方法，由于输入音频合成模型中的发音信息包括第一音素的时长信息，因此，该音频合成模型合成的音频可以反映各个音素的发音时长，从而提高声音的清晰度。因此，本申请实施例中，对发音信息进行了扩充，增加了该发音信息中的音素的时长信息，进一步的增加了音频帧的位置信息，从而有效地帮助音频合成模型学习音素在不同发音时长下各个发音状态的组成，有效提升发音清晰度，从而可以有效反映人的声腔变化过程，提高输出音频的质量。

进一步的，前述时长信息可以为小于或等于指定归一化阈值的值，前述位置信息可以为小于或等于1的数值，基于此确定的发音信息，可以在模型训练过程中，实现模型的快速收敛，提高模型训练速度。

值得说明的是，前述音频合成方法可以由终端执行，也可以由服务器执行，还可以由终端和服务器配合执行。在第一种情况中，当前述音频合成方法由终端执行时，前述音频合成装置为终端，步骤201至204由终端执行。在第二种情况中，当前述音频合成方法由服务器执行时，前述音频合成装置为服务器，步骤201至204由服务器执行，其中，步骤201中的样本音频可以是终端发送至服务器的，也可以由服务器自行获取；步骤203中的第一种实现方式中，多个发音信息可以是终端发送至服务器的，也可以由服务器自行获取；步骤203中的第二种实现方式中，至少一个初始音频可以是终端发送至服务器的，也可以由服务器自行获取。在步骤204之后，服务器可以将生成的目标音频发送至终端。在第三种情况中，当前述音频合成方法由由终端和服务器配合执行时，前述音频合成装置视为终端和服务器组成的系统，步骤201至202由服务器执行，步骤203至204由终端执行，在步骤202之后，服务器将训练完成的音频合成模型发送至终端。

本申请实施例提供的音频生成方法的步骤先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

本申请实施例提供一种音频生成装置30，如图3所示，包括：

获取模块301，用于获取多个发音信息。

处理模块302，用于将多个发音信息输入音频合成模型，得到音频合成模型输出的目标音频。

其中，多个发音信息与目标音频的多个音频帧分别对应，每个发音信息包括：发音信息对应的第一音频帧的音高、第一音频帧对应的第一音素的内容以及第一音素的时长信息，任一音素的时长信息用于指示任一音素在发音过程中的持续时长。

本申请实施例提供的音频生成装置，由于输入音频合成模型中的发音信息包括第一音素的时长信息，因此，该音频合成模型合成的音频可以反映各个音素的发音时长，从而提高声音的清晰度，实现人的声腔变化过程的有效反映，提高输出音频的质量。

可选地，每个发音信息还包括：对应的第一音频帧的位置信息，任一音频帧的位置信息用于标识任一音频帧在所对应的音素对应的音频帧集合中的位置，任一音素对应的音频帧集合为任一音素在发音过程中对应音频帧的集合。

可选地，多个发音信息与多个音频帧一一对应，时长信息包括：归一化音素时长，位置信息包括浮点位置值；

归一化音素时长满足时长计算公式：

其中，T1为归一化音素时长，T2为音素在发音过程中的持续时长，T为指定时长，R为指定归一化阈值；

浮点位置值满足位置计算公式：

Li＝i/m；

如图4所示，装置30还包括：

分析模块303，用于在获取多个发音信息之前，对样本音频进行分析，得到多个样本发音信息，其中，多个样本发音信息与样本音频中多个音频帧分别对应，每个样本发音信息包括：样本发音信息对应的第二音频帧的音高，第二音频帧对应的第二音素的内容，第二音素的时长信息以及第二音频帧的位置信息；

训练模块304，用于基于多个样本发音信息，进行模型训练，得到音频合成模型。

可选地，分析模块303，用于：获取样本音频中每个音频帧的音高；获取样本音频中每个音素在发音过程中的时长信息；获取样本音频中每个音素对应的音频帧集合；基于每个音频帧的音高、每个音素的时长信息以及每个音素对应的音频帧集合，生成多个样本发音信息。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由计算设备的处理器执行以完成本申请各个实施例所示的音频生成方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例提供一种计算设备，计算设备包括处理器和存储器；

存储器存储计算机指令；处理器执行存储器存储的计算机指令，使得计算设备执行本申请实施例提供的任一的音频生成方法。

本申请实施例中，前述计算设备可以为终端，图5示出了本申请一个示例性实施例提供的终端500的结构框图。该终端500可以是：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的音频生成方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、触摸显示屏505、摄像头506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在再一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制触摸显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或触摸显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在触摸显示屏505的下层时，由处理器501根据用户对触摸显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制触摸显示屏505的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏505的显示亮度；当环境光强度较低时，调低触摸显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制触摸显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制触摸显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例中，前述计算设备可以为服务器，图6是根据一示例性实施例示出的一种服务器的结构示意图。所述服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说，所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本申请的各种实施例，所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器601通过执行该一个或一个以上程序来实现本申请实施例提供的音频生成方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

在本申请中，术语“第一”和“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。“A参考B”，指的是A与B相同，或者A在B的基础上进行简单变形。本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种音频生成方法，其特征在于，包括：

获取多个发音信息；

其中，每个所述发音信息包括：所述发音信息对应的第一音频帧的音高、所述第一音频帧对应的第一音素的内容以及所述第一音素的时长信息，任一音素的时长信息用于指示所述任一音素在发音过程中的持续时长，所述第一音频帧为所述目标音频中的一个音频帧；

在所述获取多个发音信息之前，所述方法还包括：

对样本音频进行分析，得到多个样本发音信息，其中，所述多个样本发音信息与所述样本音频中多个音频帧分别对应，每个所述样本发音信息包括：所述样本发音信息对应的第二音频帧的音高，所述第二音频帧对应的第二音素的内容、所述第二音素的时长信息以及所述第二音频帧的位置信息，所述第二音频帧为所述样本音频中的一个音频帧；其中，所述位置信息包括浮点位置值，以使所述音频合成模型学习所述音素在发声的声腔变化过程，所述浮点位置值满足位置计算公式：

Li＝i/m；

其中，Li为音素所对应的音频帧集合中第i个音频帧所对应的发音信息中的浮点位置值，m为音素所对应的音频帧集合中音频帧的总数；

2.根据权利要求1所述的方法，其特征在于，每个所述发音信息还包括：对应的第一音频帧的位置信息，任一音频帧的位置信息用于标识所述任一音频帧在对应的音素对应的音频帧集合中的位置，任一音素对应的音频帧集合为所述任一音素在发音过程中所形成的音频帧的集合。

3.根据权利要求2所述的方法，其特征在于，所述多个发音信息与所述目标音频的多个音频帧一一对应，所述时长信息包括：归一化音素时长，所述位置信息包括浮点位置值；

所述归一化音素时长满足时长计算公式：

所述浮点位置值满足位置计算公式：

Li＝i/m；

4.根据权利要求1所述的方法，其特征在于，所述对样本音频进行分析，得到多个样本发音信息，包括：

获取所述样本音频中每个音频帧的音高；

获取所述样本音频中每个音素在发音过程中的时长信息；

获取所述样本音频中每个音素对应的音频帧集合；

5.一种音频生成装置，其特征在于，包括：

获取模块，用于获取多个发音信息；

所述装置还包括：

分析模块，用于在所述获取多个发音信息之前，对样本音频进行分析，得到多个样本发音信息，其中，所述多个样本发音信息与所述样本音频中多个音频帧分别对应，每个所述样本发音信息包括：所述样本发音信息对应的第二音频帧的音高，所述第二音频帧对应的第二音素的内容、所述第二音素的时长信息以及所述第二音频帧的位置信息，所述第二音频帧为所述样本音频中的一个音频帧；其中，所述位置信息包括浮点位置值，以使所述音频合成模型学习所述音素在发声的声腔变化过程，所述浮点位置值满足位置计算公式：

Li＝i/m；

6.根据权利要求5所述的装置，其特征在于，每个所述发音信息还包括：对应的第一音频帧的位置信息，任一音频帧的位置信息用于标识所述任一音频帧在所对应的音素对应的音频帧集合中的位置，任一音素对应的音频帧集合为所述任一音素在发音过程中所形成的音频帧的集合。

7.根据权利要求6所述的装置，其特征在于，所述多个发音信息与所述目标音频的多个音频帧一一对应，所述时长信息包括：归一化音素时长，所述位置信息包括浮点位置值；

所述归一化音素时长满足时长计算公式：

所述浮点位置值满足位置计算公式：

Li＝i/m；

8.根据权利要求5所述的装置，其特征在于，所述分析模块，用于：

获取所述样本音频中每个音频帧的音高；

获取所述样本音频中每个音素在发音过程中的时长信息；

获取所述样本音频中每个音素对应的音频帧集合；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序在被处理器执行时使得所述处理器实现如权利要求1至4任一所述的音频生成方法。

10.一种计算设备，其特征在于，所述计算设备包括处理器和存储器；

所述存储器存储计算机指令；所述处理器执行所述存储器存储的计算机指令，使得所述计算设备执行如权利要求1至4任一所述的音频生成方法。