CN112071299A

CN112071299A - 神经网络模型训练方法、音频生成方法及装置和电子设备

Info

Publication number: CN112071299A
Application number: CN202010942196.1A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2020-12-11
Anticipated expiration: 2040-09-09
Also published as: CN112071299B

Abstract

本申请公开了一种神经网络模型训练方法、装置及一种音频生成方法、装置、电子设备和计算机可读存储介质，该神经网络模型训练方法包括：获取训练干声音频，确定训练干声音频中的所有音标，并将每个音标转换为国际音标；根据所有音标中每个清音音标的后续音标和每个清音音标对应的国际音标确定每个清音音标对应的分化国际音标；基于清音音标对应的分化国际音标和除清音音标之外的音标对应的国际音标生成训练干声音频对应的音素信息；利用训练干声音频和对应的音素信息训练神经网络模型，从而建立音素信息与干声音频的映射关系。由此可见，本申请提高了合成干声的音质。

Description

神经网络模型训练方法、音频生成方法及装置和电子设备

技术领域

本申请涉及声音合成技术领域，更具体地说，涉及一种神经网络模型训练方法、装置及一种音频生成方法、装置、电子设备和计算机可读存储介质。

背景技术

随着深度学习技术和音频信号处理技术的发展，人工合成的歌声逐渐成为了可能，人们可以通过技术生成干声，即无音乐的纯人声。这些合成出来的干声配上伴奏，即可得到歌曲。

在相关技术中，采用基于参数合成的方法合成干声，在参数准确的情况下可以达到发音时间准确、节奏可控的效果，但是在音质上一般较差。可见，在实现本发明过程中，发明人发现相关技术中至少存在如下问题：合成干声的音质较差。

因此，如何提高合成干声的音质是本领域技术人员需要解决的技术问题。

发明内容

本申请的目的在于提供一种神经网络模型训练方法、装置及一种音频生成方法、装置、电子设备和计算机可读存储介质，提高了合成干声的音质。

为实现上述目的，本申请第一方面提供了一种神经网络模型训练方法，包括：

获取训练干声音频，确定所述训练干声音频中的所有音标，并将每个所述音标转换为国际音标；

根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标；

基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息；

利用所述训练干声音频和对应的音素信息训练神经网络模型，从而建立音素信息与干声音频的映射关系。

为实现上述目的，本申请第二方面提供了一种音频生成方法，包括：

获取歌词文本，确定歌词文本中每个歌词字的音标，并将每个所述音标转换为国际音标；

基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成目标音素信息；

将所述目标音素信息输入如上述神经网络模型训练方法训练得到的神经网络模型中进行处理，以生成目标干声音频。

为实现上述目的，本申请第三方面提供了一种神经网络模型训练装置，包括：

第一获取模块，用于获取训练干声音频，确定所述训练干声音频中的所有音标，并将每个所述音标转换为国际音标；

第一确定模块，用于根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标；

第一生成模块，用于基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息；

训练模块，用于利用所述训练干声音频和对应的音素信息训练神经网络模型，从而建立音素信息与干声音频的映射关系。

为实现上述目的，本申请第四方面提供了一种音频生成装置，包括：

第二获取模块，用于获取歌词文本，确定歌词文本中每个歌词字的音标，并将每个所述音标转换为国际音标；

第二确定模块，用于根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标；

第二生成模块，用于基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成目标音素信息；

第三生成模块，用将所述目标音素信息输入如上述神经网络模型训练装置训练得到的神经网络模型中进行处理，以生成目标干声音频。

为实现上述目的，本申请第五方面提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述音频生成方法的步骤。

为实现上述目的，本申请第六方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述音频生成方法的步骤。

通过以上方案可知，本申请提供的一种神经网络模型训练方法，包括：获取训练干声音频，确定所述训练干声音频中的所有音标，并将每个所述音标转换为国际音标；根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标；基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息；利用所述训练干声音频和对应的音素信息训练神经网络模型，从而建立音素信息与干声音频的映射关系。

清音音标由于其后续音标的不同导致各清音音标的发音方式的不同，因此在本申请中，根据清音音标的后续音标将清音音标对应的国际音标进行分化处理，发音方式不同的清音音标对应不同的分化国际音标，即一个清音音标对应多个分化国际音标，得到各清音音标对应的颗粒度更高的音素信息，相比于相关技术中清音音标与国际音标之间的单一映射关系，颗粒度更高的因素信息不仅能够更加丰富地刻画清音的实际发音方式，而且能够有利于神经网络模型在训练过程中学习到更准确的信息，从而提升神经网络模型对数据的深度建模能力，最终提高神经网络模型合成干声的音质。本申请还公开了一种神经网络模型训练装置、一种音频生成方法、装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本申请实施例提供的一种音频生成系统的架构图；

图2为本申请实施例提供的第一种神经网络模型训练方法的流程图；

图3为本申请实施例提供的第二种神经网络模型训练方法的流程图；

图4为本申请实施例提供的第三种神经网络模型训练方法的流程图；

图5为本申请实施例提供的第四种神经网络模型训练方法的流程图；

图6为本申请实施例提供的一种音频生成方法的流程图；

图7为本申请实施例提供的一种神经网络模型训练装置的结构图；

图8为本申请实施例提供的一种音频生成装置的结构图；

图9为本申请实施例提供的一种电子设备的结构图。

具体实施方式

本申请的申请人经研究发现，清音音标在发声时没有声带振动，由于其后续音标的不同导致各清音音标的发音方式的不同。例如，对于汉字“春”和“茶”来说，对应的拼音分别为“chun”和“cha”，其中包含相同的清音音标“ch”。在对“春”和“茶”进行口型发音时，虽然清音是相同的，但是由于清音之后的浊音是不同的，即“un”和“a”是不同的，导致清音“ch”对应不同的口型，也就是说，在不同的汉字中对于相同的清音“ch”，声音的产生方式是不同的。

在相关技术中，一个清音音标对应一个国际音标，在上述例子中，清音音标“ch”对应的国际音标为

拼音“chun”和“cha”对应的国际音标分别为

和

清音音标与国际音标之间的单一映射关系没有考虑到相同清音音标的不同发音方式，导致清音音标对应的音素信息颗粒度较低，由此进行神经网络模型的训练和干声的合成导致干声音质较差。因此，在本申请中，为了准确刻画不同发音带来的区别，根据清音音标的后续音标将清音音标对应的国际音标进行分化处理，发音方式不同的清音音标对应不同的分化国际音标，得到各清音音标对应的颗粒度更高的音素信息，进而提高了神经网络模型合成干声的音质。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请提供的神经网络模型训练和音频生成方法，下面对其使用的系统进行介绍。参见图1，其示出了本申请实施例提供的一种音频生成系统的架构图，如图1所示，包括音频采集设备10和服务器20。

音频采集设备10用于采集训练干声音频，服务器20用于提取训练干声音频的音素信息，利用训练干声音频和其对应的音素信息训练神经网络模型，并利用训练完成的神经网络模型合成目标干声音频。

当然，音频生成系统还可以客户端30，可以包括PC(中文全称：个人计算机，英文全称：Personal Computer)等固定终端和手机等移动终端，客户端30上可以设置扬声器，用于输出目标干声音频或基于目标干声音频合成歌曲。

本申请实施例公开了一种神经网络模型训练方法，提高了神经网络模型合成干声的音质。

参见图2，本申请实施例提供的第一种神经网络模型训练方法的流程图，如图2所示，包括：

S101：获取训练干声音频，确定所述训练干声音频中的所有音标，并将每个所述音标转换为国际音标；

本实施例的执行主体为上述实施例提供的音频生成系统中的服务器，目的为得到训练完成的神经网络模型，其用于合成干声音频。在本步骤中，音频采集设备采集训练干声音频，将其发送至服务器，服务器识别训练干声音频中干声对应的音标。训练干声音频为用户录制的干声波形文件，音频格式为WAV(Waveform Audio File Format)。需要说明的是，由于MP3等有损编码方式会因为不同解码器的差异导致实际读取的音频在音频开头或结尾有时间偏移，因此为了保证干声波形的不变性，以WAV格式进行保存。

作为一种可行的实施方式，所述确定所述训练干声音频中的所有音标的步骤包括：获取所述训练干声音频对应的训练歌词文本；其中，所述歌词文本包括多个歌词字；根据每个所述歌词字的文字类型确定每个所述歌词字的音标，以便确定所述训练干声音频中的所有音标。在具体实施中，服务器首先获取训练干声音频对应的训练歌词文本，可以直接获取该训练干声音频对应的歌词文件，也可以直接在从训练干声音频中提取训练歌词文本，即从训练干声音频中直接识别干声对应的训练歌词文本，在此不进行具体限定。可以理解的是，由于训练干声音频中可能包含噪音导致识别歌词不准确，因此可以在识别歌词文本之前对训练干声音频进行降噪处理。其次，从训练歌词文本中获取训练干声音频中的每个歌词字，歌词一般以歌词字和歌词起止时间的方式进行存储，例如，一段歌词文本的表现形式为：太[0,1000]阳[1000,1500]当[1500,3000]空[3000,3300]照[3300,5000]，中括号中的内容代表每个歌词字的起止时间，单位为毫秒，即“太”的起始时间为0毫秒，终止时间为1000毫秒，“阳”的起始时间为1000毫秒，终止时间为1500毫秒等，据此提取的歌词文本为“太，阳，当，空，照”。当然，歌词也可以为其他语言类型，以英语为例，提取的歌词文本为“the,sun,is,rising”。最后根据每个歌词字的文字类型确定每个歌词字的音标，若歌词字的文字类型为汉字，则其对应的音标为拼音，例如，对于歌词文本“太，阳，当，空，照”来说，其对应的拼音为“tai yang dang kong zhao”，若歌词字的文字类型为英文，则其对应的音标为英文音标。

服务器识别训练干声音频中干声对应的音标后，将每个音标转换为国际音标(International Phonetic Alphabet，IPA，是一套用来标音的系统，以拉丁字母为基础，由国际语音学学会设计作为口语声音的标准化标示方法)，音标与国际音标一一对应。例如，“tai”对应的国际音标为“t^h a I”，“yang”对应的国际音标“jɑη”。

S102：根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标；

清音音标为发声时声带不振动的音标，由于其后续音标的不同导致各清音音标的发音方式的不同，因此需要根据每个清音音标的后续音标对每个清音音标对应的国际音标进行分化，发音方式不同的清音音标对应不同的分化国际音标，即一个清音音标对应多个分化国际音标。汉语拼音中的清音音标包括：p、t、k、c、q、f、s、sh、h和ch，对应的国际音标分别为：p^h、t^h、k^h、ts^h、

f、s、

x和

在上述例子中，清音“ch”对应的国际音标为

其对应的分化国际音标为

这些分化国际音标在原始国际音标

的基础上，通过发音方式差异而分化得到，单一的国际音标

被就分化为新的N种形式。在相关技术中一个清音音标对应一个国际音标，即颗粒度为1，而本实施例提供的分化方案根据发音原理的不同，将单一清音音标对应的国际音标分化为N种新的国际音标对应，颗粒度为N。

需要说明的是，本实施例不对具体的分化方式进行限定，可以根据清音音标的后续音标的具体类型进行分化，也可以根据后续音标的首字母进行分化，当然本领域技术人员可以选择其他分化方式。对清音音标对应的国际音标进行分化后，根据训练干声音频对应的音标中每个清音音标的后续音标和每个清音音标对应的国际音标确定每个清音音标对应的分化国际音标。

S103：基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息；

本步骤的目的在于生成训练干声音频对应的音素信息，其中可以包括每个音标对应的国际音标，对于清音音标，取其对应的分化国际音标。例如，歌词文本“喝茶”的音素信息为“x2,γ”,

其中“x2,γ”对应“喝”，

对应“茶”，由于“h”和“ch”为清音音标，需要对其对应的国际音标“x”和

当然，音素信息还可以包括每个国际音标或分化国际音标对应的起止时间，在此不进行具体限定。

S104：利用所述训练干声音频和对应的音素信息训练神经网络模型，从而建立音素信息与干声音频的映射关系。

在本步骤中，将音素数据作为特征分别嵌入训练过程中，即将训练干声音频和对应的音素信息输入神经网络模型以得到训练完成的神经网络模型。本实施例中的神经网络模型可以包括CNN(中文全称：卷积神经网络，英文全称：Convolutional NeuralNetworks)、DNN(中文全称：深度神经网络，英文全称：Deep Neural Networks)、waveRNN(中文全称：单层循环神经网络，英文全称：wave Recurrent Neural Network)等，在此不进行具体限定。

由此可见，在本申请实施例中，根据清音音标的后续音标将清音音标对应的国际音标进行分化处理，发音方式不同的清音音标对应不同的分化国际音标，即一个清音音标对应多个分化国际音标，得到各清音音标对应的颗粒度更高的音素信息，相比于相关技术中清音音标与国际音标之间的单一映射关系，颗粒度更高的因素信息不仅能够更加丰富地刻画清音的实际发音方式，而且能够有利于神经网络模型在训练过程中学习到更准确的信息，从而提升神经网络模型对数据的深度建模能力，最终提高神经网络模型合成干声的音质。

本申请实施例公开了一种神经网络模型训练方法，相对于上述实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图3，本申请实施例提供的第二种神经网络模型训练方法的流程图，如图3所示，包括：

S201：获取训练干声音频，确定所述训练干声音频中的所有音标，并将每个所述音标转换为国际音标；

S202：确定每个所述清音音标的所有候选后续音标，并基于所有所述候选后续音标对每个所述清音音标对应的国际音标进行分化，得到所述国际音标对应的多个分化国际音标；

在具体实施中，清音音标的后续音标不同导致各清音音标的发音方式的不同，因此需要基于每个清音音标的所有候选后续音标对其对应的国际音标进行分化。一个清音音标的候选后续音标为其后续可能的所有音标，以清音“ch”为例，常见的汉字中包含清音“ch”的拼音有如下几种类型：cha，chai，chan，chang，chao，che，chen，cheng，chi，chong，chou，chu，chuai，chuan，chuang，chui，chun，chuo，即清音“ch”的候选后续音标包括：a，ai，an，ang，ao，e，en，eng，i，ong，ou，u，uai，uan，uang，ui，un，uo。上述拼音的开头都是清音“ch”，但是其后续音标不尽相同，导致开头的清音部分发音方式不同。

需要说明的是，本实施例不对具体的分化方式进行限定，分化方式可以为一个候选后续音标对应一个分化国际音标，也可以为多个候选后续音标对应一个分化国际音标，若多个候选后续音标对应一个分化国际音标，可以以候选后续音标的前n个字母(例如首字母)进行区分，将在后续实施例进行详细介绍。

S203：确定每个所述清音音标在所述训练干声音频中的后续音标，并根据所述后续音标确定每个所述清音音标对应的分化国际音标；

S204：基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息；

S205：利用所述训练干声音频和对应的音素信息训练神经网络模型，从而建立音素信息与干声音频的映射关系。

由此可见，相比于相关技术中清音音标与国际音标单一对应的简单方式，本实施例提供的国际音标的分化策略不仅可以提高清音的颗粒度，丰富清音的发音种类，而且可以通过国际音标分化的方式使得基于深度学习的神经网络模型在训练过程中学习到更准确的标注信息，从而有利于神经网络模型的生成效果，提升神经网络模型在干声合成时的声音音质。

参见图4，本申请实施例提供的第三种神经网络模型训练方法的流程图，如图4所示，包括：

S301：获取训练干声音频，确定所述训练干声音频中的所有音标，并将每个所述音标转换为国际音标；

S302：确定每个所述清音音标的所有候选后续音标，并基于所有所述候选后续音标对每个所述清音音标对应的国际音标进行分化，得到所述国际音标对应的多个分化国际音标；其中，所述国际音标对应的分化国际音标与所述国际音标对应的清音音标的候选后续音标一一对应。

在本实施例中，一个候选后续音标对应一个分化国际音标，以清音“ch”为例，其对应18个候选后续音标，因此清音“ch”对应18个分化国际音标，分别为：

S303：确定每个所述清音音标在所述训练干声音频中的后续音标，并根据所述后续音标确定每个所述清音音标对应的分化国际音标；

S304：基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息；

S305：利用所述训练干声音频和对应的音素信息训练神经网络模型，从而建立音素信息与干声音频的映射关系。

由此可见，在本实施例中，清音音标的一个候选后续音标对应一个分化国际音标，清音音标对应的国际音标分化的颗粒度较高，进而提高了训练干声音频对应的音素信息的颗粒度，据此训练得到的神经网络模型预测准确度较高，提高了神经网络模型合成干声的音质。

本申请实施例公开了一种神经网络模型训练方法，相对于第二实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图5，本申请实施例提供的第四种神经网络模型训练方法的流程图，如图5所示，包括：

S401：获取训练干声音频，确定所述训练干声音频中的所有音标，并将每个所述音标转换为国际音标；

S402：确定每个所述清音音标的所有候选后续音标，并确定所有所述候选音标的所有首字母；

S403：基于所有所述首字母对每个所述清音音标对应的国际音标进行分化，得到所述国际音标对应的多个分化国际音标；其中，所述国际音标对应的分化国际音标与所述国际音标对应的清音音标的候选后续音标的首字母一一对应；

在本实施例中，多个候选后续音标对应一个分化国际音标，以候选后续音标的首字母进行区分。以清音“ch”为例，其对应的候选后续音标包括5种首字母：a、e、i、o和u，因此清音“ch”对应5个分化国际音标，分别为：

首字母为a的候选后续音标对应国际音标

首字母为e的候选后续音标对应国际音标

首字母为i的候选后续音标对应国际音标

首字母为o的候选后续音标对应国际音标

首字母为u的候选后续音标对应国际音标

即cha、chai、chan、chang、chao对应的国际音标为

che、chen、cheng对应的国际音标为

chi对应的国际音标为

chong、chou对应的国际音标为

chu、chuai、chuan、chuang、chui、chun、chuo对应的国际音标为

S404：确定每个所述清音音标在所述训练干声音频中的后续音标，并根据所述后续音标的首字母确定每个所述清音音标对应的分化国际音标；

S405：基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息；

S406：利用所述训练干声音频和对应的音素信息训练神经网络模型，从而建立音素信息与干声音频的映射关系。

在本实施例中，多个候选后续音标对应一个分化国际音标，以候选后续音标的首字母进行区分。虽然清音音标对应的国际音标分化的颗粒度低于上一实施例，但是分化颗粒度低可以提高国际音标的分化效率。由此可见，本实施例平衡了国际音标的分化颗粒度和分化效率，在保证生成音素信息效率的同时提高了音素信息的颗粒度，平衡了神经网络模型训练速度和训练精度，在保证神经网络模型训练速度的同时，提高了神经网络模型的预测能力。

本申请实施例公开了一种音频生成方法，提高了神经网络模型合成干声的音质。

参见图6，本申请实施例提供的一种音频生成方法的流程图，如图6所示，包括：

S501：获取歌词文本，确定歌词文本中每个歌词字的音标，并将每个所述音标转换为国际音标；

S502：根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标；

S503：基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成目标音素信息；

S504：将所述目标音素信息输入如上述任一项实施例提供的神经网络模型训练方法训练得到的神经网络模型中进行处理，以生成目标干声音频。

本实施例的执行主体为上述实施例提供的音频生成系统中的服务器，目的为合成干声音频。在具体实施中，通过训练完成的神经网络模型和目标干声音频对应的目标音素信息可以得到合成的目标干声音频。可以理解的是，在目标干声音频对应的目标音素信息中，同样需要对清音音标对应的国际音标进行分化，具体的分化过程与上述实施例中介绍的分化过程类似，在此不再赘述。合成的目标干声音频可以结合伴奏生成最终的歌曲，合成的歌曲可以在服务器的后台进行存储、输出至客户端或通过扬声器进行播放。

由此可见，在本实施例中，由于训练干声音频对应的音素信息的颗粒度较高，将其应用于神经网络模型的训练可以使得神经网络模型学习到更加准确的信息，利用训练完成的神经网络模型合成的干声音频音质较高，进而有效地提升合成歌声的音质和自然度，从而有助于提升用户使用的满意度，也有助于平台提供商获得更高质量的合成歌声，提升平台提供商的影响力和竞争力。另外，本实施例既可以通过计算机后台处理，也可以通过云端处理，处理效率高，运行速度快。

下面对本申请实施例提供的一种神经网络模型训练装置进行介绍，下文描述的一种神经网络模型训练装置与上文描述的一种神经网络模型训练方法可以相互参照。

参见图7，本申请实施例提供的一种神经网络模型训练装置的结构图，如图7所示，包括：

第一获取模块701，用于获取训练干声音频，确定所述训练干声音频中的所有音标，并将每个所述音标转换为国际音标；

第一确定模块702，用于根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标；

第一生成模块703，用于基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成所述训练干声音频对应的音素信息；

训练模块704，用于利用所述训练干声音频和对应的音素信息训练神经网络模型，从而建立音素信息与干声音频的映射关系。

在本申请实施例中，根据清音音标的后续音标将清音音标对应的国际音标进行分化处理，发音方式不同的清音音标对应不同的分化国际音标，即一个清音音标对应多个分化国际音标，得到各清音音标对应的颗粒度更高的音素信息，相比于相关技术中清音音标与国际音标之间的单一映射关系，颗粒度更高的因素信息不仅能够更加丰富地刻画清音的实际发音方式，而且能够有利于神经网络模型在训练过程中学习到更准确的信息，从而提升神经网络模型对数据的深度建模能力，最终提高神经网络模型合成干声的音质。

在上述实施例的基础上，作为一种优选实施方式，所述获取模块100包括：

第一获取单元，用于获取训练干声音频；

第二获取单元，用于获取所述训练干声音频对应的训练歌词文本；其中，所述歌词文本包括多个歌词字；

第一确定单元，用于根据每个所述歌词字的文字类型确定每个所述歌词字的音标，以便确定所述训练干声音频中的所有音标；

转换单元，用于将每个所述音标转换为国际音标。

在上述实施例的基础上，作为一种优选实施方式，若目标歌词字的文字类型为汉字，则所述目标歌词字的音标为拼音。

在上述实施例的基础上，作为一种优选实施方式，所述第二获取单元具体为从所述训练干声音频中提取训练歌词文本的单元。

在上述实施例的基础上，作为一种优选实施方式，还包括：

分化模块，用于确定每个所述清音音标的所有候选后续音标，并基于所有所述候选后续音标对每个所述清音音标对应的国际音标进行分化，得到所述国际音标对应的多个分化国际音标；

相应的，所述确定模块200具体为确定每个所述清音音标在所述训练干声音频中的后续音标，并根据所述后续音标确定每个所述清音音标对应的分化国际音标的模块。

在上述实施例的基础上，作为一种优选实施方式，所述国际音标对应的分化国际音标与所述国际音标对应的清音音标的候选后续音标一一对应。

在上述实施例的基础上，作为一种优选实施方式，所述分化模块包括：

第二确定单元，用于确定每个所述清音音标的所有候选后续音标；

分化单元，用于确定所有所述候选音标的所有首字母，并基于所有所述首字母对每个所述清音音标对应的国际音标进行分化，得到所述国际音标对应的多个分化国际音标；其中，所述国际音标对应的分化国际音标与所述国际音标对应的清音音标的候选后续音标的首字母一一对应；

相应的，所述确定模块200具体为确定每个所述清音音标在所述训练干声音频中的后续音标，并根据所述后续音标的首字母确定每个所述清音音标对应的分化国际音标的模块。

下面对本申请实施例提供的一种音频生成装置进行介绍，下文描述的一种音频生成装置与上文描述的一种音频生成方法可以相互参照。

参见图8，本申请实施例提供的一种音频生成装置的结构图，如图8所示，包括：

第二获取模块801，用于获取歌词文本，确定歌词文本中每个歌词字的音标，并将每个所述音标转换为国际音标；

第二确定模块802，用于根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标；

第二生成模块803，用于基于所述清音音标对应的分化国际音标和除所述清音音标之外的音标对应的国际音标生成目标音素信息；

第三生成模块804，用将所述目标音素信息输入如上述神经网络模型训练装置训练得到的神经网络模型中进行处理，以生成目标干声音频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图9，本申请实施例提供的一种电子设备90的结构图，如图9所示，可以包括处理器91和存储器92。

其中，处理器91可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器91可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器91也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器91可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器91还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器92可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器92还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器92至少用于存储以下计算机程序921，其中，该计算机程序被处理器91加载并执行之后，能够实现前述任一实施例公开的由服务器侧执行的音频生成方法中的相关步骤。另外，存储器92所存储的资源还可以包括操作系统922和数据923等，存储方式可以是短暂存储或者永久存储。其中，操作系统922可以包括Windows、Unix、Linux等。

在一些实施例中，电子设备90还可包括有显示屏93、输入输出接口94、通信接口95、传感器96、电源97以及通信总线98。

当然，图9所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备可以包括比图9所示的更多或更少的部件，或者组合某些部件。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任一实施例电子设备所执行的音频生成方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种神经网络模型训练方法，其特征在于，包括：

2.根据权利要求1所述神经网络模型训练方法，其特征在于，所述确定所述训练干声音频中的所有音标，包括：

获取所述训练干声音频对应的训练歌词文本；其中，所述训练歌词文本包括多个歌词字；

根据每个所述歌词字的文字类型确定每个所述歌词字的音标，以便确定所述训练干声音频中的所有音标。

3.根据权利要求2所述神经网络模型训练方法，其特征在于，若目标歌词字的文字类型为汉字，则所述目标歌词字的音标为拼音。

4.根据权利要求2所述神经网络模型训练方法，其特征在于，所述获取所述训练干声音频对应的训练歌词文本，包括：

从所述训练干声音频中提取训练歌词文本。

5.根据权利要求1至4中任一项所述神经网络模型训练方法，其特征在于，还包括：

确定每个所述清音音标的所有候选后续音标，并基于所有所述候选后续音标对每个所述清音音标对应的国际音标进行分化，得到所述国际音标对应的多个分化国际音标；

相应的，所述根据所有所述音标中每个清音音标的后续音标和每个所述清音音标对应的国际音标确定每个所述清音音标对应的分化国际音标，包括：

确定每个所述清音音标在所述训练干声音频中的后续音标，并根据所述后续音标确定每个所述清音音标对应的分化国际音标。

6.根据权利要求5所述神经网络模型训练方法，其特征在于，所述国际音标对应的分化国际音标与所述国际音标对应的清音音标的候选后续音标一一对应。

7.根据权利要求5所述神经网络模型训练方法，其特征在于，所述基于所有所述候选音标对每个所述清音音标对应的国际音标进行分化，得到所述国际音标对应的多个分化国际音标，包括：

确定所有所述候选音标的所有首字母，并基于所有所述首字母对每个所述清音音标对应的国际音标进行分化，得到所述国际音标对应的多个分化国际音标；其中，所述国际音标对应的分化国际音标与所述国际音标对应的清音音标的候选后续音标的首字母一一对应；

相应的，所述根据所述后续音标确定每个所述清音音标对应的分化国际音标，包括：

根据所述后续音标的首字母确定每个所述清音音标对应的分化国际音标。

8.一种音频生成方法，其特征在于，包括：

将所述目标音素信息输入如权利要求1至7任一项所述神经网络模型训练方法训练得到的神经网络模型中进行处理，以生成目标干声音频。

9.一种神经网络模型训练装置，其特征在于，包括：

10.一种音频生成装置，其特征在于，包括：

第三生成模块，用将所述目标音素信息输入如权利要求9所述神经网络模型训练装置训练得到的神经网络模型中进行处理，以生成目标干声音频。

11.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求8所述音频生成方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求8所述音频生成方法的步骤。