CN112164387A

CN112164387A - 音频合成方法、装置及电子设备和计算机可读存储介质

Info

Publication number: CN112164387A
Application number: CN202011002477.5A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2021-01-01

Abstract

本申请公开了一种音频合成方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取目标干声音频，并生成目标干声音频对应的音素信息；从目标干声音频中提取音频特征；其中，音频特征包括基频特征、能量特征和感知线性预测特征中任一项或任几项的组合；将目标干声音频、音素信息和音频特征输入训练完成的神经网络模型中得到合成干声音频。由此可见，本申请提供的音频合成方法，将音频特征嵌入到神经网络模型的合成过程中，提升神经网络模型合成干声音频的效率和精准程度，能够增强神经网络模型对目标干声音频的刻画能力，使得训练完成的神经网络模型能够生成音质更好、声音细节更丰富的合成干声音频，从而提高了最终合成歌曲的音质。

Description

音频合成方法、装置及电子设备和计算机可读存储介质

技术领域

本申请涉及声音合成技术领域，更具体地说，涉及音频合成方法、装置及电子设备和计算机可读存储介质。

背景技术

随着深度学习技术和音频信号处理技术的发展，人工合成的歌声逐渐成为了可能，人们可以通过技术生成干声，即无音乐的纯人声。这些合成出来的干声配上伴奏，即可得到歌曲。

在相关技术中，采用基于参数合成的方法合成干声，在参数准确的情况下可以达到发音时间准确、节奏可控的效果，但是在音质上一般较差，进而导致合成音频的音质较差。可见，在实现本发明过程中，发明人发现相关技术中至少存在如下问题：合成音频的音质较差。

因此，如何提高合成音频的音质是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种音频合成方法、装置及一种电子设备和一种计算机可读存储介质，提高了合成音频的音质。

为实现上述目的，本申请第一方面提供了一种音频合成方法，包括：

获取目标干声音频，并生成所述目标干声音频对应的音素信息；

从所述目标干声音频中提取音频特征；其中，所述音频特征包括基频特征、能量特征和感知线性预测特征中任一项或任几项的组合；

将所述目标干声音频、所述音素信息和所述音频特征输入训练完成的神经网络模型中得到合成干声音频。

为实现上述目的，本申请第二方面提供了一种音频合成装置，包括：

获取模块，用于获取目标干声音频，并生成所述目标干声音频对应的音素信息；

提取模块，用于从所述目标干声音频中提取音频特征；其中，所述音频特征包括基频特征、能量特征和感知线性预测特征中任一项或任几项的组合；

输入模块，用于将所述目标干声音频、所述音素信息和所述音频特征输入训练完成的神经网络模型中得到合成干声音频。

为实现上述目的，本申请第三方面提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述音频合成方法的步骤。

为实现上述目的，本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述音频合成方法的步骤。

通过以上方案可知，本申请提供的一种音频合成方法，包括：获取目标干声音频，并生成所述目标干声音频对应的音素信息；从所述目标干声音频中提取音频特征；其中，所述音频特征包括基频特征、能量特征和感知线性预测特征中任一项或任几项的组合；将所述目标干声音频、所述音素信息和所述音频特征输入训练完成的神经网络模型中得到合成干声音频。

本申请提供的音频合成方法，首先获取目标干声音频，其为不包含伴奏的人声演唱声音，然后对目标干声音频进行音频特征提取，可以包括基频特征、能量特征和感知线性预测特征等。将目标干声音频、对应的音素信息和音频特征作为训练完成的神经网络模型的输入，以便得到合成干声音频。由于音频特征与目标干声音频的音质密切相关，这些音频特征在神经网络模型确定的情况下，有助于神经网络模型更好更快地对目标干声音频的发声特点与音质细节进行建模，有利于提升合成干声音频的音质。由此可见，本申请提供的音频合成方法，将音频特征嵌入到神经网络模型的合成过程中，提升神经网络模型合成干声音频的效率和精准程度，能够增强神经网络模型对目标干声音频的刻画能力，使得训练完成的神经网络模型能够生成音质更好、声音细节更丰富的合成干声音频，从而提高了最终合成歌曲的音质。本申请还公开了一种音频合成装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本申请实施例提供的一种音频合成系统的架构图；

图2为本申请实施例提供的一种音频合成方法的流程图；

图3为本申请实施例提供的一种提取目标干声音频的基频特征的方法流程图；

图4为本申请实施例提供的一种提取目标干声音频的能量特征的方法流程图；

图5为本申请实施例提供的一种提取目标干声音频的感知线性预测特征的方法流程图；

图6为本申请实施例提供的一种神经网络模型的训练方法的流程图；

图7为本申请实施例提供的一种音频合成装置的结构图；

图8为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请提供的音频合成方法，下面对其使用的系统进行介绍。参见图1，其示出了本申请实施例提供的一种音频合成系统的架构图，如图1所示，包括音频采集设备10和服务器20。

音频采集设备10用于采集目标干声音频，服务器20用于生成目标干声音频的音素信息，并对目标干声音频进行音频特征提取。将目标干声音频、对应的音素信息和音频特征作为训练完成的神经网络模型的输入以便得到合成干声音频。

当然，音频合成系统还可以客户端30，可以包括PC(中文全称：个人计算机，英文全称：Personal Computer)等固定终端和手机等移动终端，客户端30上可以设置扬声器，用于输出合成干声音频或基于合成干声音频合成的歌曲。

本申请实施例公开了一种音频合成方法，提高了合成音频的音质。

参见图2，本申请实施例提供的一种音频合成方法的流程图，如图2所示，包括：

S101：获取目标干声音频，并生成所述目标干声音频对应的音素信息；

本实施例的执行主体为上述实施例提供的音频合成系统中的服务器，目的为合成干声音频。在本步骤中，音频采集设备采集目标干声音频，将其发送至服务器，服务器生成目标干声音频对应的音素信息。目标干声音频为用户录制的干声波形文件，音频格式为WAV(Waveform Audio File Format)。需要说明的是，由于MP3等有损编码方式会因为不同解码器的差异导致实际读取的音频在音频开头或结尾有时间偏移，因此为了保证干声波形的不变性，以WAV格式进行保存。

在具体实施中，获取目标干声音频对应的歌词文本，可以直接获取该目标干声音频对应的歌词文件，也可以直接在从目标干声音频中提取歌词文本，即从目标干声音频中直接识别干声对应的歌词文本，在此不进行具体限定。可以理解的是，由于目标干声音频在录制过程中可能包含噪音导致识别歌词不准确，因此可以在识别歌词文本之前对目标干声音频进行降噪处理。其次，从训练歌词文本中获取目标干声音频中的每个歌词字，根据每个歌词字的文字类型确定每个歌词字的音标，若歌词字的文字类型为汉字，则其对应的音标为拼音，例如，对于歌词文本“太，阳，当，空，照”来说，其对应的拼音为“tai yang dangkong zhao”，若歌词字的文字类型为英文，则其对应的音标为英文音标。根据每个歌词字的音标可以生成训练干声音频的音素信息，该音素信息描述了目标干声音频中每个音素的起止时间。例如，音素“t”的起止时间分别为10ms和30ms，音素“ai”的起止时间分别为30ms和60ms。本实施例不对音素信息的具体表示方式进行限定，例如可以表示为info＝[10,30,t；30,60,ai；…]这样的形式，分号代表一个音素的结尾。

S102：从所述目标干声音频中提取音频特征；其中，所述音频特征包括基频特征、能量特征和感知线性预测特征中任一项或任几项的组合；

本步骤的目的在于提取目标干声音频的音频特征，该音频特征与目标干声音频的发声特点与音质密切相关。此处的音频特征可以包括基频特征、能量特征和感知线性预测特征等。基频特征是指一段干声音频的最低振动频率，反映的是干声音频的音高，基频的数值越大，干声音频的音调越高。能量特征是指干声音频的能量值。感知线性预测特征(Perceptual Linear Prediction，plp)具体较好的语音识别准确度以及噪声鲁棒性。本领域技术人员在特征提取时可以灵活选择上述任一音频特征，也可以选择多个音频特征，在此不进行具体限定。

S103：将所述目标干声音频、所述音素信息和所述音频特征输入训练完成的神经网络模型中得到合成干声音频。

在本步骤中，将音频特征作为特征嵌入干声音频的合成过程中，即将目标干声音频、对应的音素信息和音频特征输入训练完成的神经网络模型中以便合成目标干声音频。本实施例中的神经网络模型可以包括CNN(中文全称：卷积神经网络，英文全称：Convolutional Neural Networks)、DNN(中文全称：深度神经网络，英文全称：Deep NeuralNetworks)、waveRNN(中文全称：单层循环神经网络，英文全称：wave Recurrent NeuralNetwork)等，在此不进行具体限定。

本申请实施例提供的音频合成方法，首先获取目标干声音频，其为不包含伴奏的人声演唱声音，然后对目标干声音频进行音频特征提取，可以包括基频特征、能量特征和感知线性预测特征等。将目标干声音频、对应的音素信息和音频特征作为训练完成的神经网络模型的输入，以便得到合成干声音频。由于音频特征与目标干声音频的音质密切相关，这些音频特征在神经网络模型确定的情况下，有助于神经网络模型更好更快地对目标干声音频的发声特点与音质细节进行建模，有利于提升合成干声音频的音质。由此可见，本申请实施例提供的音频合成方法，将音频特征嵌入到神经网络模型的合成过程中，提升神经网络模型合成干声音频的效率和精准程度，能够增强神经网络模型对目标干声音频的刻画能力，使得训练完成的神经网络模型能够生成音质更好、声音细节更丰富的合成干声音频，从而提高了最终合成歌曲的音质。

在上述实施例的基础上，作为一种优选实施方式，所述利用训练完成的神经网络模型合成目标干声音频之后，还包括：利用音效器件为所述合成干声音频增加音效；获取所述合成干声音频对应的伴奏音频，将所述伴奏音频与增加音效后的合成干声音频按照预设方式进行叠加得到合成音频。

可以理解的是，合成干声音频可以结合伴奏生成最终的歌曲，合成的歌曲可以在服务器的后台进行存储、输出至客户端或通过扬声器进行播放。

在具体实施中，可以通过混响器、均衡器等音效器件对合成干声音频进行处理，得到有一定音效的干声音频。这里的音效器有很多可以选择的方式，例如通过音效插件、音效算法等方式处理，在此不进行具体限定。由于合成干声音频为纯人声音频，没有器乐的声音，这其实和生活中常见的歌曲有区别，例如不包含没有人声唱的前奏部分，如果没有伴奏，前奏部分为一段静音。因此需要将增加效后的合成干声音频与伴奏音频按照预设方式进行叠加得到合成音频即歌曲。

此处不对具体的叠加方式进行限定，本领域技术可以根据实际情况进行灵活选择。作为一种可行的实施方式，将所述伴奏音频与增加音效后的合成干声音频按照预设方式进行叠加得到合成音频，包括：对所述伴奏音频与增加音效后的合成干声音频进行功率归一化处理，得到中间伴奏音频和中间干声音频；按照预设的能量比例对所述中间伴奏音频和所述中间干声音频进行叠加得到所述合成音频。在具体实施中，对伴奏音频与增加音效后的合成干声音频分别进行功率归一化处理，得到中间伴奏音频accom和中间干声音频vocal，其均为时域波形，若预设的能量比例为0.6:0.4，则合成音频W＝0.6×vocal+0.4×accom。

由此可见，本实施方式设计了一种基于音频特征的提升合成歌声音质的方法。利用算法的高效、稳健和准确的优势，在确定的数据集和神经网络模型的前提下，通过提供更多准确的声音特征信息，提升模型对歌声音质的建模能力，最终提高模型合成声音的音质。这些有更高音质的合成歌曲，不仅可以丰富现有的用户听歌体验，提升用户使用的满意度，而且可以扩充现有的高品质歌曲数量，提升平台提供商的影响力和竞争力。

本申请实施例公开了一种提取目标干声音频的基频特征的方法，具体的：

参见图3，本申请实施例提供的一种提取目标干声音频的基频特征的方法流程图，如图3所示，包括：

S201：将所述目标干声音频分解为多段音频波形；

S202：利用滤波器在预设频率范围内提取每段所述音频波形的基频；

S203：基于所有所述音频波形的基频确定所述目标干声音频的基频特征。

本实施例的目的在于提取目标干声音频的基频特征。在具体实施中，目标干声音频可以分解为多段连续的音频波形，若目标干声音频audio＝[y₁,y₂,y₃,…,y_n]，则y_n是第n段的音频波形，它包含多个采样点，每个采样点为时域波形在每个时刻的数值。基频特征可以利用滤波器进行提取，在计算过程中，当滤波器的频率和需要提取的基频吻合时，输出的能量最大。一般的，基频提取的准确性影响最终合成效果的音准，基频越准确，合成声音的音调也越准确。需要说明的是，在一段音频波形的基频提取过程中，可以限制的预设频率范围为65Hz至750Hz，该频率范围不仅包括了常见男声的音域范围，也包括了常见女声的音域范围，有利于在实际场景中唱高音或者唱低音的情况下，同样能够对基频的准确提取。通过基频提取，可以得到目标干声音频的基频特征A＝[f₁,f₂,f₃,…,f_n]，其中f_n为提取第n段音频波形y_n的基频。

本申请实施例公开了一种提取目标干声音频的能量特征的方法，具体的：

参见图4，本申请实施例提供的一种提取目标干声音频的能量特征的方法流程图，如图4所示，包括：

S301：将所述目标干声音频分解为多段音频波形；

S302：计算每段所述音频波形的梅尔频谱，将所述梅尔频谱以分贝值进行表示，并对所有所述分贝值进行最大值归一化处理，得到每段所述音频波形对应的能量数据；

S303：将每段所述音频波形在预设频率范围内的能量数据相加得到每段所述音频波形的能量特征；

S304：基于所有所述音频波形的能量特征确定所述目标干声音频的能量特征。

本实施例的目的在于提取目标干声音频的能量特征。在具体实施中，首先同样将目标干声音频分解为多段连续的音频波形，其次对每段音频波形计算梅尔频谱，记为b1，然后将b1转换为以分贝(dB)为单位的数据，记为b2，接着对b2进行最大值归一化，即将最大值控制在0dB，得到b3，最后将b3在指定频率范围内的数值进行能量相加，得到预设频率范围内的能量值，记为这一段音频波形的能量特征。此处的预设频率范围同样可以为65Hz至750Hz。

例如，第n段波形y_n，通过计算梅尔频谱、分贝转换和归一化，得到b3＝[e₁,e₂,e₃,e_m]，其中e_m是第m个频率时的能量，单位为dB。若预设频率范围65Hz至750Hz，分别对应第10个和第50个频率，记这个区间的数据为tmp＝[e₁₀,e₁₁,e₁₂,…,e₅0]，则第n段波形y_n对应的能量特征B_n的计算公式为B_n＝10×log₁₀(∑(10^tmp/10))，可以得到目标干声音频的能量特征B＝[B₁,B₂,B₃,…,B_n]。

本申请实施例公开了一种提取目标干声音频的感知线性预测特征的方法，具体的：

参见图5，本申请实施例提供的一种提取目标干声音频的感知线性预测特征的方法流程图，如图5所示，包括：

S401：将所述目标干声音频分解为多段音频波形；

S402：提取每段所述音频波形的感知线性预测特征，并计算每段所述音频波形的感知线性预测特征的一阶差分均值和二阶差分均值；

S403：基于所有所述音频波形的感知线性预测特征的一阶差分均值和二阶差分均值确定所述目标干声音频的感知线性预测特征。

本实施例的目的在于提取目标干声音频的感知线性预测特征。在具体实施中，首先同样将目标干声音频分解为多段连续的音频波形，其次计算每段所述音频波形的感知线性预测特征的一阶差分均值和二阶差分均值。一阶差分是指在时间维度对plp特征进行相邻值的相减计算，二阶差分就是在时间维度对一阶差分结果进行相邻值的相减计算，然后将一阶差分结果和二阶差分结果分别计算频率维度的均值，得到时间维度的特征。

例如，第n段波形y_n的plp特征为P_n＝[h₁,h₂,h₃,…,h_k]，其中h_k是P_n在频率维度的第k个特征。在计算一阶差分和二阶差分后，分别得到plp的一阶差分结果dPn，和plp的二阶差分结果ddPn，然后计算频率维度的均值，即计算dPn中的第1个至第k个数值的均值，记为d1，以及ddPn中的第1个至第k个数值的均值，记为d2，则C_n＝[d1,d2]，训练干声音频的感知线性预测特征C＝[C₁,C₂,C₃,…,C_n]。

本申请实施例公开了一种神经网络模型的训练方法，具体的：

参见图6，本申请实施例提供的一种神经网络模型的训练方法的流程图，如图6所示，包括：

S501：获取训练干声音频，并生成所述训练干声音频对应的训练音素信息；

S502：从所述训练干声音频中提取训练音频特征；其中，所述训练音频特征包括基频特征、能量特征和感知线性预测特征中任一项或任几项的组合；

S503：利用所述训练干声音频、所述训练音素信息和所述训练音频特征训练神经网络模型，以便得到所述训练完成的神经网络模型。

在本实施例中，将训练干声音频、对应的训练音素信息和训练音频特征输入神经网络模型以得到训练完成的神经网络模型。此处的神经网络模型可以包括CNN、DNN、waveRNN等，在此不进行具体限定。具体训练音素信息的生成过程和训练音频特征的提取过程与前述实施例中介绍的过程类似，在此不再赘述。

当然，在训练过程中还可以输入一些其他的必要信息，如干声编号、声音信息等。相比于相关技术中直接利用训练干声音频的频谱信息进行神经网络模型训练的方案相比，在训练过程中嵌入训练过程中，可以有效增强神经网络模型对输入数据的学习能力，提升模型对音质细节的建模能力，从而在合成阶段，可以使用更好的训练模型合成出更高音质的干声音频。

在本实施例中，由于在神经网络模型的训练过程中嵌入了训练干声音频的音频特征，该音频特征与干声音频的音质密切相关，这些音频特征在神经网络模型确定的情况下，有助于神经网络模型更好更快地对训练干声音频的发声特点与音质细节进行建模，利用训练完成的神经网络模型合成的干声音频音质较高，进而有效地提升合成歌声的音质和自然度，从而有助于提升用户使用的满意度，也有助于平台提供商获得更高质量的合成歌声，提升平台提供商的影响力和竞争力。另外，本实施例既可以通过计算机后台处理，也可以通过云端处理，处理效率高，运行速度快。

本申请实施例提供的神经网络模型的训练方法，首先获取训练干声音频，其为不包含伴奏的人声演唱声音，然后对训练干声音频进行音频特征提取，可以包括基频特征、能量特征和感知线性预测特征等。将训练干声音频、对应的训练音素信息和训练音频特征作为神经网络模型的输入进行模型训练。由于训练音频特征与训练干声音频的音质密切相关，这些训练音频特征在神经网络模型确定的情况下，有助于神经网络模型更好更快地对训练干声音频的发声特点与音质细节进行建模，有利于提升神经网络模型合成歌声的音质，由此可见，本申请实施例提供的神经网络模型的训练方法，将音频特征嵌入到神经网络模型的训练过程中，提升神经网络模型训练的效率和精准程度，能够增强神经网络模型对目标干声音频的刻画能力，使得训练完成的神经网络模型能够生成音质更好、声音细节更丰富的目标干声音频，从而提高了最终合成歌曲的音质。

下面对本申请实施例提供的一种音频合成装置进行介绍，下文描述的一种音频合成装置与上文描述的一种音频合成方法可以相互参照。

参见图7，本申请实施例提供的一种音频合成装置的结构图，如图7所示，包括：

第一获取模块100，用于获取目标干声音频，并生成所述目标干声音频对应的音素信息；

第一提取模块200，用于从所述目标干声音频中提取音频特征；其中，所述音频特征包括基频特征、能量特征和感知线性预测特征中任一项或任几项的组合；

输入模块300，用于将所述目标干声音频、所述音素信息和所述音频特征输入训练完成的神经网络模型中得到合成干声音频。

本申请实施例提供的音频合成装置，首先获取目标干声音频，其为不包含伴奏的人声演唱声音，然后对目标干声音频进行音频特征提取，可以包括基频特征、能量特征和感知线性预测特征等。将目标干声音频、对应的音素信息和音频特征作为训练完成的神经网络模型的输入，以便得到合成干声音频。由于音频特征与目标干声音频的音质密切相关，这些音频特征在神经网络模型确定的情况下，有助于神经网络模型更好更快地对目标干声音频的发声特点与音质细节进行建模，有利于提升合成干声音频的音质。由此可见，本申请实施例提供的音频合成装置，将音频特征嵌入到神经网络模型的合成过程中，提升神经网络模型合成干声音频的效率和精准程度，能够增强神经网络模型对目标干声音频的刻画能力，使得训练完成的神经网络模型能够生成音质更好、声音细节更丰富的合成干声音频，从而提高了最终合成歌曲的音质。

在上述实施例的基础上，作为一种优选实施方式，还包括：

第二获取模块，用于获取训练干声音频，并生成所述训练干声音频对应的训练音素信息；

第二提取模块，用于从所述训练干声音频中提取训练音频特征；其中，所述训练音频特征包括基频特征、能量特征和感知线性预测特征中任一项或任几项的组合；

训练模块，用于利用所述训练干声音频、所述训练音素信息和所述训练音频特征训练神经网络模型，以便得到所述训练完成的神经网络模型。

在上述实施例的基础上，作为一种优选实施方式，还包括：

增加模块，用于利用音效器件为所述合成干声音频增加音效；

叠加模块，用于获取所述合成干声音频对应的伴奏音频，将所述伴奏音频与增加音效后的合成干声音频按照预设方式进行叠加得到合成音频。

在上述实施例的基础上，作为一种优选实施方式，所述叠加模块包括：

获取单元，用于获取所述合成干声音频对应的伴奏音频；

归一化单元，用于对所述伴奏音频与增加音效后的合成干声音频进行功率归一化处理，得到中间伴奏音频和中间干声音频；

叠加单元，用于按照预设的能量比例对所述中间伴奏音频和所述中间干声音频进行叠加得到所述合成音频。

在上述实施例的基础上，作为一种优选实施方式，若所述音频特征包括基频特征，则所述提取模块200包括：

分解单元，用于将所述目标干声音频分解为多段音频波形；

第一提取单元，用于利用滤波器在预设频率范围内提取每段所述音频波形的基频；

第一确定单元，用于基于所有所述音频波形的基频确定所述目标干声音频的基频特征。

在上述实施例的基础上，作为一种优选实施方式，若所述音频特征包括能量特征，则所述提取模块200包括：

分解单元，用于将所述目标干声音频分解为多段音频波形；

第一计算单元，用于计算每段所述音频波形的梅尔频谱，将所述梅尔频谱以分贝值进行表示，并对所有所述分贝值进行最大值归一化处理，得到每段所述音频波形对应的能量数据；

第二计算单元，用于将每段所述音频波形在预设频率范围内的能量数据相加得到每段所述音频波形的能量特征；

第二确定单元，用于基于所有所述音频波形的能量特征确定所述目标干声音频的能量特征。

在上述实施例的基础上，作为一种优选实施方式，若所述音频特征包括感知线性预测特征，则所述提取模块200包括：

分解单元，用于将所述目标干声音频分解为多段音频波形；

第二提取单元，用于提取每段所述音频波形的感知线性预测特征，并计算每段所述音频波形的感知线性预测特征的一阶差分均值和二阶差分均值；

第三确定单元，用于基于所有所述音频波形的感知线性预测特征的一阶差分均值和二阶差分均值确定所述目标干声音频的感知线性预测特征。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图8，本申请实施例提供的一种电子设备80的结构图，如图8所示，可以包括处理器81和存储器82。

其中，处理器81可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器81可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器81也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器81可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器81还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器82可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器82还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器82至少用于存储以下计算机程序821，其中，该计算机程序被处理器81加载并执行之后，能够实现前述任一实施例公开的由服务器侧执行的音频合成方法中的相关步骤。另外，存储器82所存储的资源还可以包括操作系统822和数据823等，存储方式可以是短暂存储或者永久存储。其中，操作系统822可以包括Windows、Unix、Linux等。

在一些实施例中，电子设备80还可包括有显示屏83、输入输出接口84、通信接口85、传感器86、电源87以及通信总线88。

当然，图8所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备可以包括比图8所示的更多或更少的部件，或者组合某些部件。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任一实施例电子设备所执行的音频合成方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种音频合成方法，其特征在于，包括：

2.根据权利要求1所述音频合成方法，其特征在于，还包括：

获取训练干声音频，并生成所述训练干声音频对应的训练音素信息；

从所述训练干声音频中提取训练音频特征；其中，所述训练音频特征包括基频特征、能量特征和感知线性预测特征中任一项或任几项的组合；

利用所述训练干声音频、所述训练音素信息和所述训练音频特征训练神经网络模型，以便得到所述训练完成的神经网络模型。

3.根据权利要求1所述音频合成方法，其特征在于，将所述目标干声音频、所述音素信息和所述音频特征输入训练完成的神经网络模型中得到合成干声音频之后，还包括：

利用音效器件为所述合成干声音频增加音效；

获取所述合成干声音频对应的伴奏音频，将所述伴奏音频与增加音效后的合成干声音频按照预设方式进行叠加得到合成音频。

4.根据权利要求3所述音频合成方法，其特征在于，将所述伴奏音频与增加音效后的合成干声音频按照预设方式进行叠加得到合成音频，包括：

对所述伴奏音频与增加音效后的合成干声音频进行功率归一化处理，得到中间伴奏音频和中间干声音频；

按照预设的能量比例对所述中间伴奏音频和所述中间干声音频进行叠加得到所述合成音频。

5.根据权利要求1至4中任一项所述音频合成方法，其特征在于，若所述音频特征包括基频特征，则从所述目标干声音频中提取音频特征，包括：

将所述目标干声音频分解为多段音频波形；

利用滤波器在预设频率范围内提取每段所述音频波形的基频；

基于所有所述音频波形的基频确定所述目标干声音频的基频特征。

6.根据权利要求1至4中任一项所述音频合成方法，其特征在于，若所述音频特征包括能量特征，则从所述目标干声音频中提取音频特征，包括：

将所述目标干声音频分解为多段音频波形；

计算每段所述音频波形的梅尔频谱，将所述梅尔频谱以分贝值进行表示，并对所有所述分贝值进行最大值归一化处理，得到每段所述音频波形对应的能量数据；

将每段所述音频波形在预设频率范围内的能量数据相加得到每段所述音频波形的能量特征；

基于所有所述音频波形的能量特征确定所述目标干声音频的能量特征。

7.根据权利要求1至4中任一项所述音频合成方法，其特征在于，若所述音频特征包括感知线性预测特征，则从所述目标干声音频中提取音频特征，包括：

将所述目标干声音频分解为多段音频波形；

提取每段所述音频波形的感知线性预测特征，并计算每段所述音频波形的感知线性预测特征的一阶差分均值和二阶差分均值；

基于所有所述音频波形的感知线性预测特征的一阶差分均值和二阶差分均值确定所述目标干声音频的感知线性预测特征。

8.一种音频合成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述音频合成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述音频合成方法的步骤。