CN112542155A

CN112542155A - 歌曲合成方法及模型训练方法、装置、设备与存储介质

Info

Publication number: CN112542155A
Application number: CN202011353300.XA
Authority: CN
Inventors: 左晨; 孙子涵; 孙涛; 孙晨曦
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-23
Anticipated expiration: 2040-11-27
Also published as: CN112542155B

Abstract

本申请公开了一种歌曲合成方法及模型训练方法、装置、设备与存储介质，涉及深度学习和智能语音等人工智能技术领域。具体实现方案为：基于待合成歌曲的乐谱，获取所述待合成歌曲的音素序列和音符序列；根据所述音素序列和所述音符序列，基于对齐准则，采用预先训练的声学模型，生成所述待合成歌曲的声学特征信息；根据所述待合成歌曲的声学特征信息，采用预先训练的声码器，合成所述歌曲。本申请由于采用了预先训练的声学模型和声码器，不仅能够有效地保证合成的歌曲的准确性，不会出现“跑调”、“拖拍”等问题，同时歌曲合成过程非常地简单、方便，不需要专业人士参与，便能够实现，歌曲合成的效率非常高。

Description

歌曲合成方法及模型训练方法、装置、设备与存储介质

技术领域

本申请涉及计算机技术领域，具体涉及深度学习和智能语音等人工智能技术领域，尤其涉及一种歌曲合成方法及模型训练方法、装置、设备与存储介质。

背景技术

随着语音合成技术的发展，歌曲合成作为语音合成中重要的分支之一，也越来越受到市场和研究者的关注。

歌曲合成相比目前较为成熟的说话合成技术，主要有两个难点：一、歌曲合成因为乐谱的规范，对合成音频的音高、节拍有明确的要求，不能出现“跑调”、“拖拍”等问题。二、一般歌曲合成对歌曲数据的标注有较高要求，标注难度更大。因此限制了歌曲合成技术数据获取的难度和在产品上落地。

发明内容

本申请提供了一种歌曲合成方法及模型训练方法、装置、设备与存储介质。

根据本申请的一方面，提供了一种歌曲合成方法，其中，所述方法包括：

基于待合成歌曲的乐谱，获取所述待合成歌曲的音素序列和音符序列；

根据所述音素序列和所述音符序列，基于对齐准则，采用预先训练的声学模型，生成所述待合成歌曲的声学特征信息；

根据所述待合成歌曲的声学特征信息，采用预先训练的声码器，合成所述歌曲。

根据本申请的另一方面，提供了一种声学模型的训练方法，其中，所述方法包括：

基于数个训练歌曲的音频，采集数条训练数据，各条所述训练数据中包括对应的所述训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息；

根据各所述训练数据中的所述训练歌曲的训练音素序列、所述训练音符序列、以及所述目标声学特征信息，基于对齐准则，对歌曲合成中的声学模型进行训练。

根据本申请的再一方面，提供了一种歌曲合成装置，其中，所述装置包括：

获取模块，用于基于待合成歌曲的乐谱，获取所述待合成歌曲的音素序列和音符序列；

生成模块，用于根据所述音素序列和所述音符序列，基于对齐准则，采用预先训练的声学模型，生成所述待合成歌曲的声学特征信息；

合成模块，用于根据所述待合成歌曲的声学特征信息，采用预先训练的声码器，合成所述歌曲。

根据本申请的又一方面，提供了一种声学模型的训练装置，其中，所述装置包括：

采集模块，用于基于数个训练歌曲的音频，采集数条训练数据，各条所述训练数据中包括对应的所述训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息；

训练模块，用于根据各所述训练数据中的所述训练歌曲的训练音素序列、所述训练音符序列、以及所述目标声学特征信息，基于对齐准则，对歌曲合成中的声学模型进行训练。

根据本申请的再另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的歌曲合成方法，或者，执行如上所述的声学模型的训练方法。

根据本申请的再又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的歌曲合成方法，或者，执行如上所述的声学模型的训练方法。

根据本申请的又另一方面，提供了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行如上所述的歌曲合成方法，或者，执行如上所述的声学模型的训练方法。

根据本申请的技术，由于采用了预先训练的声学模型和声码器，不仅能够有效地保证合成的歌曲的准确性，不会出现“跑调”、“拖拍”等问题，同时歌曲合成过程非常地简单、方便，不需要专业人士参与，便能够实现，歌曲合成的效率非常高；而且本申请的技术方案中，歌曲合成周期短、成本低，有利于歌曲合成在直播、短视频、音箱、语音助手、虚拟人物等各领域更快速地落地。

根据本申请实施例的技术方案，采集训练数据的过程中，无需人工标注，不仅能够保证训练数据的获取过程较为容易，且能够有效地保证获取的训练数据的准确性，进而能够有效地保证训练的声学模型的准确性。而且，本申请通过对声学模型进行有效地训练，还能够有效地加快歌曲合成相关产品的开发和落地等。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的示意图；

图2是根据本申请第二实施例的示意图；

图3是根据本申请第三实施例的示意图；

图4是根据本申请第四实施例的示意图；

图5是根据本申请第五实施例的示意图；

图6是本实施例的声学模型的训练架构图；

图7是根据本申请第六实施例的示意图；

图8是本实施例的声学模型的训练架构图；

图9是根据本申请第七实施例的示意图；

图10是根据本申请第八实施例的示意图；

图11是根据本申请第八实施例的示意图；

图12是根据本申请第十实施例的示意图；

图13是根据本申请第十一实施例的示意图；

图14是根据本申请第十二实施例的示意图；

图15是用来实现本申请实施例的上述方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图；如图1所示，本实施例提供一种歌曲合成方法，具体可以包括如下步骤：

S101、基于待合成歌曲的乐谱，获取待合成歌曲的音素序列和音符序列；

S102、根据音素序列和音符序列，基于对齐准则，采用预先训练的声学模型，生成待合成歌曲的声学特征信息；

S103、根据待合成歌曲的声学特征信息，采用预先训练的声码器，合成歌曲。

本实施例的歌曲合成方法的执行主体为歌曲合成装置，该歌曲合成装置可以为电子实体，或者该装置也可以为软件集成的应用。该歌曲合成装置中采用预先训练的声学模型和声码器，基于待合成歌曲的音素序列和音符序列来实现歌曲的合成。

具体地，本实施例中，待合成歌曲的乐谱中不仅包括有歌词，还可以标注有音符。例如，本实施例的音符中可以包括音高和各对应的时长，其中音高用于来控制发哪个音，对应时长用于控制发音的时长，即用于实现节拍的控制。基于待合成歌曲的乐谱中的歌词序列，可以抽取出相应音素序列，该音素序列中包括歌词中各个字或者单词中的所有音素，且所有音素按照在歌词序列中的从前向后的顺序排列。例如，若歌词为中文时，需要先标注中文歌词中每个字对应的拼音，然后基于每个字的拼音，获取相应的音素，以此类推，对歌词中的所有字按照从前向后的顺序进行处理，可以获取到待合成歌曲的音素序列。也就是说，该音素序列，可以按照句子各个字的先后顺序以及每个字中的各音素的先后顺序将句子中各字的各音素依次排列构成。实际应用中，该音素序列，不仅仅包含每个音素的音素名称、还包含了音素相关的文本信息。例如每一个音素在其所属句子中的位置信息，每个音素在其所属的字中的位置信息。基于音素序列，可以分析出其对应的句子中共有多少个字，也可以分析对应的句子一共有多少音素。基于待合成歌曲的乐谱中的音符，可以抽取出相应的音符序列。需要注意的是，根据音乐原理，可以对音素序列进行一定的补充，例如，音符中有休止符，表示停顿，不发声唱歌，没有对应的歌词文字，但是在音素序列中，也是有对应的音素名称与其对应的。

本实施例的歌曲合成装置根据音素序列和音符序列，基于对齐准则，采用预先训练的声学模型，可以生成待合成歌曲的声学特征信息，例如，该声学特征信息可以采用梅尔频谱序列的形式。该声学特征信息基于声学模型生成的，可以携带该声学模型训练时采用的训练数据的音色信息、发音方式等等声学特征，进而在生成的待合成歌曲的声学特征信息中携带这些声学特征。最后根据待合成歌曲的声学特征信息，采用预先训练的声码器，合成歌曲。本实施例的声码器可以采用循环神经网络(Recurrent Neural Network,RNN)的结构来实现，如WaveRNN模型，该声码器的训练可以参考现有相关WaveRNN的训练方式，在此不再赘述。

本实施例的声学模型和声码器均为端到端的模型，在使用之前，需要经过预先训练。使用时，本实施例的歌曲合成装置，基于待合成歌曲的乐谱，获取相应的音素序列和音符序列，并采用预选训练的声学模型和声码器，便可以实现歌曲合成，

本实施例的歌曲合成方法，通过基于待合成歌曲的乐谱，获取待合成歌曲的音素序列和音符序列；根据音素序列和音符序列，基于对齐准则，采用预先训练的声学模型，生成待合成歌曲的声学特征信息；根据待合成歌曲的声学特征信息，采用预先训练的声码器，合成歌曲，能够基于任意待合成歌曲的乐谱，实现相应的歌曲的准确合成，由于采用了预先训练的声学模型和声码器，不仅能够有效地保证合成的歌曲的准确性，不会出现“跑调”、“拖拍”等问题，同时歌曲合成过程非常地简单、方便，不需要专业人士参与，便能够实现，歌曲合成的效率非常高；而且本实施例的技术方案中，歌曲合成周期短、成本低，有利于歌曲合成在直播、短视频、音箱、语音助手、虚拟人物等各领域更快速地落地。

图2是根据本申请第二实施例的示意图；如图2所示，本实施例的歌曲合成方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。如图2所示，本实施例的歌曲合成方法，具体可以包括如下步骤：

S201、基于待合成歌曲的乐谱，获取待合成歌曲的音素序列和音符序列；

参考上述图1所示实施例的步骤S101的具体实现方式。

S202、将音素序列和音符序列，输入至预先训练的声学模型中；

S203、获取声学模型根据音素序列和音符序列，基于对齐准则生成的待合成歌曲的声学特征信息；

S204、根据待合成歌曲的声学特征信息，采用预先训练的声码器，合成歌曲。

本实施例的对齐准则可以认为是预先训练的声学模型采用的准则，该声学模型基于该对齐准则，可以实现将音素序列和音高序列，分别与生成的待合成歌曲的声学特征信息对齐，进而可以有效地保证生成的声学特征信息的准确性。

本实施例中，声学模型在根据音素序列和音符序列，基于对齐准则生成的待合成歌曲的声学特征信息的过程中，首先需要先将音素序列和音符序列进行特征表达。例如，可以采用独热编码的方式，将每个音素或者每个音符编码为一个向量。其中每个音符中包括一个音高和该音高对应的时长，在进行向量化时，需要将该音高和对应的时长都进行编码，转换成对应的向量。这样，对于包括多个音素的音素序列和包括多个音符的音符序列，分别可以得到对应的矩阵形式的特征表达。然后声学模型可以根据矩阵形式表达的音素序列和音符序列，基于对齐准则生成的待合成歌曲的声学特征信息。需要说明的是，生成的该声学特征信息可以采用梅尔频谱序列的形式，即依次包括合成的歌曲中的每一帧的梅尔频谱。最后根据声码器，基于每一帧的梅尔频谱，可以准确地合成该歌曲。

其中步骤S202-S203为上述图1所示实施例的步骤S102的一种实现方式。

本实施例的歌曲合成方法，通过采用上述技术方案，能够基于任意待合成歌曲的乐谱，实现相应的歌曲的准确合成，由于采用了预先训练的声学模型和声码器，不仅能够有效地保证合成的歌曲的准确性，不会出现“跑调”、“拖拍”等问题，同时歌曲合成过程非常地简单、方便，不需要专业人士参与，便能够实现，歌曲合成的效率非常高；而且本实施例的技术方案中，歌曲合成周期短、成本低，有利于歌曲合成在直播、短视频、音箱、语音助手、虚拟人物等各领域更快速地落地。

图3是根据本申请第三实施例的示意图；如图3所示，本实施例的歌曲合成方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。如图3所示，本实施例的歌曲合成方法，具体可以包括如下步骤：

S301、基于待合成歌曲的乐谱，获取待合成歌曲的音素序列和音符序列；

参考上述图1所示实施例的步骤S101的具体实现方式。

S302、根据音素序列和音符序列，基于对齐准则，构建音素音符组合特征；

与上述图2所示实施例不同的是，本实施例中，在采用声学模型生成待合成歌曲的声学特征信息之前，需要先进行特征处理。例如本实施例中，需要先根据音素序列和音符序列，基于对齐准则，构建音素音符组合特征。即本实施例中的对齐准则是用于限定音素序列和音符序列的对齐，进而可以基于对齐准则，构建音素音符组合特征。例如，在待合成歌曲的乐谱中记录有歌词和音符序列，且明确记录有歌词中的每个词对应音符序列中的哪个音高，进而可以实现音素序列和音符序列的对齐。

例如，该步骤S302具体可以包括如下步骤：

(a1)基于对齐准则，建立音素序列和音符序列的对应关系；

(b1)基于对应关系、音素序列和音符序列，构建音素音符组合特征。

例如，构建音素音符组合特征时可以采用独热编码的方式，将音素序列和音符序列中具有对应关系的音素和音符分别编码为一个向量；然后可以拼接起来形成一个长向量作为该音素音符的组合特征。对于音素序列和音符序列中的多个音素和多个音符，可以将拼接起来，构成矩阵形式表达的音素音符组合特征。其中每个音符中包括一个音高和该音高对应的时长。需要注意的是：音符序列中有休止符，表示停顿，不发声唱歌，没有对应的歌词文字。但是，在音素序列中也是有对应的音素名称与其对应的。

S303、基于音素音符组合特征和预先训练的声学模型，生成待合成歌曲的声学特征信息；

S304、根据待合成歌曲的声学特征信息，采用预先训练的声码器，合成歌曲。

具体地，将构建的音素音符组合特征输入至训练好的声学模型中，该声学模型可以生成并输出待合成歌曲的声学特征信息。其中合成的该声学特征信息可以采用梅尔频谱序列的形式，即依次包括合成的歌曲中的每一帧的梅尔频谱。最后根据声码器，基于每一帧的梅尔频谱，可以准确地合成该歌曲。

其中步骤S302-S303为上述图1所示实施例的步骤S102的一种实现方式。

本实施例的歌曲合成方法在歌曲合成时，可以通过人工更改歌谱中的歌词和音符，理论上可以合成符合发音人音域的任意歌曲。包括同曲修改歌词，同歌词修改音符的音高、时长等更广泛的应用。例如“祝你生日快乐”经过修改后唱成“祝某某生日快乐”，灵活性非常高。

图4是根据本申请第四实施例的示意图；如图4所示，本实施例提供一种声学模型的训练方法，具体可以包括如下步骤：

S401、基于数个训练歌曲的音频，采集数条训练数据，各条训练数据中包括训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息；

S402、根据各训练数据中的训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息，基于对齐准则，对歌曲合成中的声学模型进行训练。

本实施例的声学模型的训练方法的执行主体可以为声学模型的训练装置，该装置可以为电子实体，或者也可以为采用软件集成的应用。本实施例的声学模型可以为上述图1-图3任一实施例所述的声学模型。

本实施例中，基于数个训练歌曲的音频，采集数条训练数据时，可以从各训练歌曲的音频中抽取该训练歌曲的训练音素序列和训练音符序列。例如，可以通过对训练歌曲的音频进行自动语音识别技术(Automatic Speech Recognition；ASR)获取其中的每一句歌词，得到相应的歌词文本序列，并进一步基于歌词文本序列，抽取相应的训练音素序列。并可以采用自动化的音符提取方法，从训练歌曲的音频中抽取每一个音符，进而按照前后顺序组合得到相应的训练音符序列。并进一步从训练歌曲的音频中抽取梅尔频谱序列，作为该训练歌曲的目标声学特征信息，作为一条训练数据。对于数个训练歌曲的音频，对应可以抽取数条相应的训练数据。本实施例中，采集的数条训练数据可以达到千、万、甚至百万以上的数量级。采集的训练数据的条数越多，训练的声学模型越准确。

本实施例中采集的数个训练歌曲的音频可以为同一音色的音频，这样，训练的声学模型可以学习到该音色的声学特征信息，在后续歌曲合成的时候，对应合成的也是该音色的声学特征信息。且本实施例的训练歌曲可以为清唱干声歌曲，以避免较多的背景音乐影响训练数据的抽取。

对于每一条训练数据，可以包括训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息，其中，训练歌曲的训练音素序列和训练音符序列用作训练声学模型时的输入数据，目标声学特征信息用作有监督训练的标注数据，实现对该声学模型的训练。

本实施例的声学模型的训练方法，通过基于数个训练歌曲的音频，采集数条训练数据，各条训练数据中包括训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息；根据各训练数据中的训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息，基于对齐准则，对歌曲合成中的声学模型进行训练。本实施例中采集训练数据的过程中，无需人工标注，不仅能够保证训练数据的获取过程较为容易，且能够有效地保证获取的训练数据的准确性，进而能够有效地保证训练的声学模型的准确性。而且，本实施例通过对声学模型进行有效地训练，还能够有效地加快歌曲合成相关产品的开发和落地等。

图5是根据本申请第五实施例的示意图；如图5所示，本实施例的声学模型的训练方法，在上述图4所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。如图5所示，本实施例的声学模型的训练方法，具体可以包括如下步骤：

S501、基于数个训练歌曲的音频，采集数条训练数据，各条训练数据中包括训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息；

参考上述图4所示实施例的步骤S401的具体实现方式。

S502、对于各训练数据，将训练数据中的训练歌曲的训练音素序列、训练歌曲的训练音符序列输入至声学模型中；

S503、获取声学模型根据训练音素序列和训练音符序列，基于对齐准则生成的训练歌曲的预测声学特征信息；

S504、基于预测声学特征信息和目标声学特征信息，构建第一损失函数；

S505、检测第一损失函数是否收敛；若未收敛，执行步骤S506；若收敛，执行步骤S507；

S506、调整声学模型的参数，使得第一损失函数趋于收敛；返回步骤S502，选择下一条训练数据，继续训练；

S507、检测在连续预设轮数的训练中第一损失函数是否始终收敛、或者训练轮数是否到达预设阈值；若是，确定声学模型的参数，进而确定声学模型；否则返回步骤S502，选择下一条训练数据，继续训练。

本实施例的步骤S502-S506为上述图4所示实施例的步骤S402的一种具体实现方式，其中步骤S507为训练截止条件。本实施例中以训练截止条件包括两种情况为例，第一种训练截止条件中，在连续预设轮数的训练中第一损失函数是否始终收敛，若始终收敛，则可以认为该声学模型已经训练完毕。其中该连续预设轮数可以根据实际需求来设置，例如可以为连续80轮、100轮、200轮或者其他正整数，在此不做限定。第二种训练截止条件中，防止第一损失函数一直在趋于收敛，但是永远无法达到收敛的情况。此时，可以设置一个训练的最大轮数，在训练轮数达到最大训练轮数时，可以认为声学模型已经训练完毕。例如根据实际需求，预设阈值可以设置为百万级或者其他更大数量级的数值，在此不做限定。

本实施例的声学模型的训练方法，适用于训练图2所示实施例采用的声学模型。需要说明的是，为了能够清晰描述训练原理，本实施例的上述训练过程中是以训练过程中每次采用一条训练数据为例，实际应用中，为了提高训练效率和效果，每次训练过程中，可以选择一组训练数据同时进行训练，训练原理同上，在此不再赘述。

图6是本实施例的声学模型的训练架构图。如图6所示，在本实施例的训练过程中，可以分三块内容来介绍，第一块为特征提取，主要用于实现从训练歌曲的音频中进行特征提取，得到相应的训练数据。如上述图5所示实施例的步骤S501，主要用于基于各训练歌曲的音频，提取各训练歌曲对应的训练音素序列、训练音符序列、以及目标声学特征信息，作为对应的训练数据。第二块为声学模型内的编码器，如图6所示，以该编码器内包括第一编码单元、第二编码单元、第一注意力机制单元和第二注意力机制单元为例。该编码器主要用于实现编码处理以及特征对齐处理，参考下述步骤(a2)-(d2)的记载。第三块为声学模型内的解码器，用于实现声学特征信息的预测，参考下述步骤(e2)的记载。

结合图6所示的结构，步骤S503获取声学模型根据训练音素序列和训练音符序列，基于对齐准则生成的训练歌曲的预测声学特征信息，具体实现时，可以包括如下步骤：

(a2)获取声学模型的编码器中的第一编码单元对训练音素序列进行编码的第一编码特征信息；

例如，声学模型的编码器中的第一编码单元可以采用独热编码的方式，对音素序列中的音素进行编码。对每个音素编码可以得到一个一维向量。

(b2)获取声学模型的编码器中的第一注意力机制单元，基于对齐准则将第一编码特征信息向预测声学特征信息对齐，得到的音素对齐特征；

如图6所示，解码器中解码得到的预测声学特征信息可以返回至第一注意力机制单元内，由第一注意力机制单元基于对齐准则将第一编码特征信息向预测声学特征信息对齐，得到音素对齐特征。

(c2)获取声学模型的编码器中的第二编码单元对训练音符序列进行编码的第二编码特征信息；

同理，第二编码单元也可以采用独热编码的方式，对音符序列中的每个音符进行编码。对每个音符编码也可以得到一个一维向量。

(d2)获取声学模型的编码器中的第二注意力机制单元，基于对齐准则将第二编码特征信息向预测声学特征信息对齐，得到的音符对齐特征；

同理，如图6所示，解码器中解码得到的预测声学特征信息也可以返回至第二注意力机制单元内，由第二注意力机制单元基于对齐准则将第二编码特征信息向预测声学特征信息对齐，得到音符对齐特征。

(e2)获取声学模型的解码器，基于音素对齐特征和音符对齐特征的组合特征进行解码得到的预测声学特征信息。

具体地，步骤(b2)得到的音素对齐特征和步骤(d2)得到的音符对齐特征都输入至解码器内。由于得到的音素对齐特征已将音素与预测声学特征信息对齐，音符对齐特征已将音符与预测声学特征信息对齐，则得到的音素对齐特征和音符对齐特征是互相对应的。此时如图6所示，可以直接将音素对齐特征和音符对齐特征进行组合，得到一个组合特征，输入至解码器内，解码器根据组合特征预测并输出预测声学特征信息。该预测声学特征信息采用梅尔频谱的形式来表示。如图6所示，生成的预测声学特征信息，再分别返回至第一注意力机制单元和第二注意力机制单元内，用于分别实现下一循环内的音素和音符的对齐。

也就是说，如上述图6所示的结构所示，本实施例的该声学模型在预测声学特征信息的过程中是一个循环执行的过程，每执行一次循环，仅基于音素序列和音符序列的一部分，预测一帧的预测声学特征信息。且预测的每一帧的预设声学特征信息，都参与下一帧的预测声学特征信息的过程。具体地，用于作为参考，在下一次循环中实现音素对齐和音符对齐。以此类推，通过多次循环，可以依次得到所有帧拼接的预测声学特征信息，对应为一个梅尔频谱序列。此时可以根据步骤S504基于预测声学特征信息和目标声学特征信息，构建第一损失函数，并进一步检测第一损失函数是否收敛；若未收敛，调整声学模型的参数如具体可以调整图6所示的声学模型中的第一编码单元、第二编码单元、第一注意力机制单元、第二注意力机制和解码器的参数，使得第一损失函数趋于收敛，并进一步采用下一条训练数据按照类似的训练方式继续训练，直至达到训练截止条件，训练完毕。

本实施例的声学模型的训练方法，通过采用上述技术方案，采集训练数据的过程中，无需人工标注，不仅能够保证训练数据的获取过程较为容易，且能够有效地保证获取的训练数据的准确性，进而能够有效地保证训练的声学模型的准确性。而且，本实施例的训练过程中，可以通过对声学模型内的两个编码单元、两个注意力机制单元以及解码器的参数进行调整，实现在对齐准则的约束下，训练声学模型合成待合成歌曲的声学特征信息，有效地保证歌曲合成的准确性。另外，本实施例通过对声学模型进行有效地训练，还能够有效地加快歌曲合成相关产品的开发和落地等。

图7是根据本申请第六实施例的示意图；如图7所示，本实施例的声学模型的训练方法，在上述图4所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。如图7所示，本实施例的声学模型的训练方法，具体可以包括如下步骤：

S701、基于数个训练歌曲的音频，采集数条训练数据，各条训练数据中包括训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息；

参考上述图4所示实施例的步骤S401的具体实现方式。

S702、对于各训练数据，根据训练音素序列和训练音符序列，基于对齐准则，构建对应的训练音素音符组合特征；

例如，可以参考上述图3所示实施例的构建音素音符组合特征的方法，构建该步骤的训练音素音符组合特征，具体可以包括如下步骤：

(a3)对于各训练数据，基于对齐准则，建立训练音素序列和训练音符序列的对应关系；

(b3)基于对应关系、训练音素序列和训练音符序列，构建训练音素音符组合特征。

该步骤(a3)和(b3)的实现过程，可以参考上述图3所示实施例的步骤(a1)和(b1)的实现过程，在此不再赘述。

S703、将训练音素音符组合特征输入至声学模型中；

S704、获取声学模型根据训练音素音符组合特征，生成的训练歌曲的预测声学特征信息；

S705、基于预测声学特征信息和目标声学特征信息，构建第二损失函数；

S706、检测第二损失函数是否收敛；若未收敛，执行步骤S707；否则，若收敛，执行步骤S708；

S707、调整声学模型的参数，使得第二损失函数趋于收敛；返回步骤S702，选择下一条训练数据，继续训练；

S708、检测在连续预设轮数的训练中第二损失函数是否始终收敛、或者训练轮数是否到达预设阈值；若是，确定声学模型的参数，进而确定声学模型；否则返回步骤S702，选择下一条训练数据，继续训练。

本实施例的步骤S702-S707为上述图4所示实施例的步骤S402的一种具体实现方式，其中步骤S708为训练截止条件，与上述图5所示实施例中的步骤S507的训练截止条件相同，详细可以参考上述步骤S507的相关记载，在此不再赘述。

本实施例的声学模型的训练方法，适用于训练图3所示实施例采用的声学模型。同理，为了能够清晰描述训练原理，本实施例的上述训练过程中是以训练过程中每次采用一条训练数据为例，实际应用中，为了提高训练效率和效果，每次训练过程中，可以选择一组训练数据同时进行训练，训练原理同上，在此不再赘述。

图8是本实施例的声学模型的训练架构图。如图8所示，相对于上述图6，本实施例的训练过程主要包括两块内容。第一块为特征提取，主要用于实现从训练歌曲的音频中进行特征提取，得到相应的训练数据；并进一步参考步骤S702构建对应的训练音素音符组合特征，详细可以参考上述图3所示实施例中的相关步骤，在此不再赘述。第二块为声学模型的训练，本实施例中不对声学模型的内部结构进行剖析。

本实施例的声学模型的训练方法，通过采用上述技术方案，采集训练数据的过程中，无需人工标注，不仅能够保证训练数据的获取过程较为容易，且能够有效地保证获取的训练数据的准确性，进而能够有效地保证训练的声学模型的准确性。而且，本实施例通过对声学模型进行有效地训练，还能够有效地加快歌曲合成相关产品的开发和落地等。

图9是根据本申请第七实施例的示意图；如图9所示，本实施例提供一种歌曲合成装置900，具体可以包括：

获取模块901，用于基于待合成歌曲的乐谱，获取待合成歌曲的音素序列和音符序列；

生成模块902，用于根据音素序列和音符序列，基于对齐准则，采用预先训练的声学模型，生成待合成歌曲的声学特征信息；

合成模块903，用于根据待合成歌曲的声学特征信息，采用预先训练的声码器，合成歌曲。

本实施例的歌曲合成装置900，通过采用上述模块实现歌曲合成的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图10是根据本申请第八实施例的示意图；如图10所示，本实施例的歌曲合成装置900，在上述图9所示实施例的基础上，进一步更加详细地描述本申请的技术方案。

如图10所示，本实施例的歌曲合成装置900中，生成模块902，包括：

输入单元9021，用于将音素序列和音符序列，输入至预先训练的声学模型中；

获取单元9022，用于获取声学模型根据音素序列和音符序列，基于对齐准则生成的待合成歌曲的声学特征信息。

图11是根据本申请第八实施例的示意图；如图11所示，本实施例的歌曲合成装置900，在上述图9所示实施例的基础上，进一步更加详细地描述本申请的技术方案。

如图11所示，本实施例的歌曲合成装置900中，生成模块902，包括：

构建单元9023，用于根据音素序列和音符序列，基于对齐准则，构建音素音符组合特征；

生成单元9024，用于基于音素音符组合特征和预先训练的声学模型，生成待合成歌曲的声学特征信息。

进一步可选地，构建单元9023，用于：

基于对齐准则，建立音素序列和音符序列的对应关系；

基于对应关系、音素序列和音符序列，构建音素音符组合特征。

图12是根据本申请第十实施例的示意图；如图12所示，本实施例提供一种声学模型的训练装置1200，具体可以包括：

采集模块1201，用于基于数个训练歌曲的音频，采集数条训练数据，各条训练数据中包括对应的训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息；

训练模块1202，用于根据各训练数据中的训练歌曲的训练音素序列、训练音符序列、以及目标声学特征信息，基于对齐准则，对歌曲合成中的声学模型进行训练。

本实施例的声学模型的训练装置1200，通过采用上述模块实现声学模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图13是根据本申请第十一实施例的示意图；如图13所示，本实施例的声学模型的训练装置1200，在上述图12所示实施例的基础上，进一步更加详细地描述本申请的技术方案。

如图13所示，本实施例的声学模型的训练装置1200中，训练模块1202，包括：

第一输入单元1202a，用于对于各训练数据，将训练数据中的训练歌曲的训练音素序列、训练歌曲的训练音符序列输入至声学模型中；

第一获取单元1202b，用于获取声学模型根据训练音素序列和训练音符序列，基于对齐准则生成的训练歌曲的预测声学特征信息；

第一函数构建单元1202c，用于基于预测声学特征信息和目标声学特征信息，构建第一损失函数；

第一检测单元1202d，用于检测第一损失函数是否收敛；

第一调整单元1202e，用于若未收敛，调整声学模型的参数，使得第一损失函数趋于收敛。

进一步可选地，第一获取单元1202b，用于：

获取声学模型的编码器中的第一编码单元对训练音素序列进行编码的第一编码特征信息；

获取声学模型的编码器中的第一注意力机制单元，基于对齐准则将第一编码特征信息向预测声学特征信息对齐，得到的音素对齐特征；

获取声学模型的编码器中的第二编码单元对训练音符序列进行编码的第二编码特征信息；

获取声学模型的编码器中的第二注意力机制单元，基于对齐准则将第二编码特征信息向预测声学特征信息对齐，得到的音符对齐特征；

获取声学模型的解码器，基于音素对齐特征和音符对齐特征的组合特征进行解码得到的预测声学特征信息。

图14是根据本申请第十二实施例的示意图；如图14所示，本实施例的声学模型的训练装置1200，在上述图12所示实施例的基础上，进一步更加详细地描述本申请的技术方案。

如图14所示，本实施例的声学模型的训练装置1200中，训练模块1202，包括：

特征构建单元1202f，用于对于各训练数据，根据训练音素序列和训练音符序列，基于对齐准则，构建对应的训练音素音符组合特征；

第二输入单元1202g，用于将训练音素音符组合特征输入至声学模型中；

第二获取单元1202h，用于获取声学模型根据训练音素音符组合特征，生成的训练歌曲的预测声学特征信息；

第二函数构建单元1202i，用于基于预测声学特征信息和目标声学特征信息，构建第二损失函数；

第二检测单元1202j，用于检测第二损失函数是否收敛；

第二调整单元1202k，用于若未收敛，调整声学模型的参数，使得第二损失函数趋于收敛。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质以及一种计算机程序产品。

如图15所示，是本申请实施例的实现上述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图15所示，该电子设备包括：一个或多个处理器1501、存储器1502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图15中以一个处理器1501为例。

存储器1502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的歌曲合成方法或者声学模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的歌曲合成方法或者声学模型的训练方法。

存储器1502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的歌曲合成方法或者声学模型的训练方法对应的程序指令/模块(例如，附图9、附图10、附图11和附图12所示的相关模块)。处理器1501通过运行存储在存储器1502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的歌曲合成方法或者声学模型的训练方法。

存储器1502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据实现歌曲合成方法或者声学模型的训练方法的电子设备的使用所创建的数据等。此外，存储器1502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1502可选包括相对于处理器1501远程设置的存储器，这些远程存储器可以通过网络连接至实现歌曲合成方法或者声学模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现歌曲合成方法或者声学模型的训练方法的电子设备还可以包括：输入装置1503和输出装置1504。处理器1501、存储器1502、输入装置1503和输出装置1504可以通过总线或者其他方式连接，图15中以通过总线连接为例。

输入装置1503可接收输入的数字或字符信息，以及产生与实现歌曲合成方法或者声学模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以分布式系统的服务器，或者是结合了区块链的服务器。

根据本申请实施例的技术方案，由于采用了预先训练的声学模型和声码器，不仅能够有效地保证合成的歌曲的准确性，不会出现“跑调”、“拖拍”等问题，同时歌曲合成过程非常地简单、方便，不需要专业人士参与，便能够实现，歌曲合成的效率非常高；而且本申请的技术方案中，歌曲合成周期短、成本低，有利于歌曲合成在直播、短视频、音箱、语音助手、虚拟人物等各领域更快速地落地。

根据本申请实施例的技术方案，通过采用上述技术方案，采集训练数据的过程中，无需人工标注，不仅能够保证训练数据的获取过程较为容易，且能够有效地保证获取的训练数据的准确性，进而能够有效地保证训练的声学模型的准确性。而且，本申请的训练过程中，可以通过对声学模型内的两个编码单元、两个注意力机制单元以及解码器的参数进行调整，实现在对齐准则的约束下，训练声学模型合成待合成歌曲的声学特征信息，有效地保证歌曲合成的准确性。另外，本申请通过对声学模型进行有效地训练，还能够有效地加快歌曲合成相关产品的开发和落地等。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种歌曲合成方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，根据所述音素序列和所述音符序列，基于对齐准则，采用预先训练的声学模型，生成所述待合成歌曲的声学特征信息，包括：

将所述音素序列和所述音符序列，输入至预先训练的所述声学模型中；

获取所述声学模型根据所述音素序列和所述音符序列，基于对齐准则生成的所述待合成歌曲的声学特征信息。

3.根据权利要求1所述的方法，其中，根据所述音素序列和所述音符序列，基于对齐准则，采用预先训练的声学模型，生成所述待合成歌曲的声学特征信息，包括：

根据所述音素序列和所述音符序列，基于对齐准则，构建音素音符组合特征；

基于所述音素音符组合特征和预先训练的所述声学模型，生成所述待合成歌曲的声学特征信息。

4.根据权利要求3所述的方法，其中，根据所述音素序列和所述音符序列，基于对齐准则，构建音素音符组合特征，包括：

基于对齐准则，建立所述音素序列和所述音符序列的对应关系；

基于所述对应关系、所述音素序列和所述音符序列，构建所述音素音符组合特征。

5.一种声学模型的训练方法，其中，所述方法包括：

6.根据权利要求5所述的方法，其中，根据各所述训练数据中的所述训练歌曲的训练音素序列、所述训练音符序列、以及所述目标声学特征信息，基于对齐准则，对歌曲合成中的声学模型进行训练，包括：

对于各所述训练数据，将所述训练数据中的所述训练歌曲的训练音素序列、所述训练歌曲的训练音符序列输入至所述声学模型中；

获取所述声学模型根据所述训练音素序列和所述训练音符序列，基于对齐准则生成的所述训练歌曲的预测声学特征信息；

基于所述预测声学特征信息和所述目标声学特征信息，构建第一损失函数；

检测所述第一损失函数是否收敛；

若未收敛，调整所述声学模型的参数，使得所述第一损失函数趋于收敛。

7.根据权利要求6所述的方法，其中，获取所述声学模型根据所述训练音素序列和所述训练音符序列，基于对齐准则生成的所述训练歌曲的预测声学特征信息，包括：

获取所述声学模型的编码器中的第一编码单元对所述训练音素序列进行编码的第一编码特征信息；

获取所述声学模型的编码器中的第一注意力机制单元，基于对齐准则将所述第一编码特征信息向所述预测声学特征信息对齐，得到的音素对齐特征；

获取所述声学模型的编码器中的第二编码单元对所述训练音符序列进行编码的第二编码特征信息；

获取所述声学模型的编码器中的第二注意力机制单元，基于对齐准则将所述第二编码特征信息向所述预测声学特征信息对齐，得到的音符对齐特征；

获取所述声学模型的解码器，基于所述音素对齐特征和所述音符对齐特征的组合特征进行解码得到的所述预测声学特征信息。

8.根据权利要求5所述的方法，其中，根据各所述训练数据中的所述训练歌曲的训练音素序列、所述训练音符序列、以及所述目标声学特征信息，基于对齐准则，对歌曲合成中的声学模型进行训练，包括：

对于各所述训练数据，根据所述训练音素序列和所述训练音符序列，基于对齐准则，构建对应的训练音素音符组合特征；

将所述训练音素音符组合特征输入至所述声学模型中；

获取所述声学模型根据所述训练音素音符组合特征，生成的所述训练歌曲的预测声学特征信息；

基于所述预测声学特征信息和所述目标声学特征信息，构建第二损失函数；

检测所述第二损失函数是否收敛；

若未收敛，调整所述声学模型的参数，使得所述第二损失函数趋于收敛。

9.一种歌曲合成装置，其中，所述装置包括：

10.根据权利要求9所述的装置，其中，所述生成模块，包括：

输入单元，用于将所述音素序列和所述音符序列，输入至预先训练的所述声学模型中；

获取单元，用于获取所述声学模型根据所述音素序列和所述音符序列，基于对齐准则生成的所述待合成歌曲的声学特征信息。

11.根据权利要求9所述的装置，其中，所述生成模块，包括：

构建单元，用于根据所述音素序列和所述音符序列，基于对齐准则，构建音素音符组合特征；

生成单元，用于基于所述音素音符组合特征和预先训练的所述声学模型，生成所述待合成歌曲的声学特征信息。

12.根据权利要求11所述的装置，其中，所述构建单元，用于：

13.一种声学模型的训练装置，其中，所述装置包括：

14.根据权利要求13所述的装置，其中，所述训练模块，包括：

第一输入单元，用于对于各所述训练数据，将所述训练数据中的所述训练歌曲的训练音素序列、所述训练歌曲的训练音符序列输入至所述声学模型中；

第一获取单元，用于获取所述声学模型根据所述训练音素序列和所述训练音符序列，基于对齐准则生成的所述训练歌曲的预测声学特征信息；

第一函数构建单元，用于基于所述预测声学特征信息和所述目标声学特征信息，构建第一损失函数；

第一检测单元，用于检测所述第一损失函数是否收敛；

第一调整单元，用于若未收敛，调整所述声学模型的参数，使得所述第一损失函数趋于收敛。

15.根据权利要求14所述的装置，其中，所述获取单元，用于：

16.根据权利要求13所述的装置，其中，所述训练模块，包括：

特征构建单元，用于对于各所述训练数据，根据所述训练音素序列和所述训练音符序列，基于对齐准则，构建对应的训练音素音符组合特征；

第二输入单元，用于将所述训练音素音符组合特征输入至所述声学模型中；

第二获取单元，用于获取所述声学模型根据所述训练音素音符组合特征，生成的所述训练歌曲的预测声学特征信息；

第二函数构建单元，用于基于所述预测声学特征信息和所述目标声学特征信息，构建第二损失函数；

第二检测单元，用于检测所述第二损失函数是否收敛；

第二调整单元，用于若未收敛，调整所述声学模型的参数，使得所述第二损失函数趋于收敛。

17.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述的歌曲合成方法，或者，执行权利要求5-8中任一项所述的声学模型的训练方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的歌曲合成方法，或者，执行权利要求5-8中任一项所述的声学模型的训练方法。

19.一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行权利要求1-4中任一项所述的歌曲合成方法，或者，执行权利要求5-8中任一项所述的声学模型的训练方法。