CN113053355A

CN113053355A - 佛乐的人声合成方法、装置、设备及存储介质

Info

Publication number: CN113053355A
Application number: CN202110285838.XA
Authority: CN
Inventors: 蒋慧军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-29

Abstract

本发明涉及人工智能技术领域，公开了一种佛乐的人声合成方法、装置、设备及存储介质。该方法通过利用音乐轨道抓取算法，提取乐谱信息中的乐理数据、歌词和歌词中每个字在乐理数据中的位置信息，基于歌词查询预设的佛学知识词典，将歌词转换为拼音序列，识别拼音序列中每个字的拼音的音节，并根据乐理数据，确定每个音节的人声发音，得到歌词对应的声学特征序列，通过声码合成器将声学特征序列合成与乐谱信息对应的佛乐音频，基于拼音的音节来对佛乐的乐谱信息进行人声的转换，并进行合成，采用该种方式进行人声的合成，其产生的佛乐音频音高和气息都较为稳定，提升了用户的听觉体验，以及提高可人声合成效率。

Description

佛乐的人声合成方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种佛乐的人声合成方法、装置、设备及存储介质。

背景技术

音乐作为人类智慧活动的高级产物，具有相当复杂的结构。随着语音合成技术的趋向成熟，在交通、教育、医疗和社交等领域得到了广泛的应用。如交通语音导航、语言学习发音、医疗语音控制等，便利了人们的工作和生活。而更进一步的歌声合成技术，考虑到乐谱的影响，各音符的发音丰富多样，大大增加了歌声合成的技术难度。

目前，对于歌曲的合成主要是通过录制一些声音，然后通过软件将录制到的声音进行适当的编辑后进行简单合成，而对于人声的合成虽然存在一些唱声合成模型可以实现，但是需要额外输入许多声音特征，并且其更多的是实现一种声音转换的功能，直接由谱到唱声，尤其是中文的唱声合成是一个相当具有挑战性的工作，当前的唱声合成模型的处理效率。尤其是在佛教领域，尚无歌声合成技术应用于唱经场景。

发明内容

本发明的主要目的是解决现有的唱声合成模型的人声合成效率低的技术问题。

本发明第一方面提供了一种佛乐的人声合成方法，所述佛乐的人声合成方法包括：

获取待合成佛乐的乐谱信息；

利用音乐轨道抓取算法，提取所述乐谱信息中的乐理数据、歌词和所述歌词中每个字在乐理数据中的位置信息；

在预设的佛学知识词典中查询与所述歌词匹配的拼音，并按照所述歌词将查询到的拼音转换为拼音序列；

识别所述拼音序列中每个字的拼音的音节，并根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列；

通过声码合成器将所述声学特征序列合成为与所述乐谱信息对应的佛乐音频。

可选地，在本发明第一方面的第一种实现方式中，所述识别所述拼音序列中每个字的拼音的音节包括：

将所述拼音序列与预设的拼音表进行匹配，识别出所述拼音序列中的声母和韵母，并对所述声母和韵母分别进行标记，得到识别标志；

利用分词算法，按照所述识别标志对标识有识别标志的拼音序列进行分切，得到音节序列。

可选地，在本发明第一方面的第二种实现方式中，在所述利用分词算法，按照所述识别标志对标识有识别标志的拼音序列进行分切，得到音节序列之后，还包括：

识别所述音节序列中韵母的音调，并结合所述声母生成音调序列；

利用预设的ID字典为音调序列中的声母和韵母配置单独的数字ID，生成ID序列。

可选地，在本发明第一方面的第三种实现方式中，所述根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列包括：

根据所述音调序列中每个音节的位置信息，查询所述位置信息对应的音节在所述乐理数据中的持续时间；

利用预设的长度控制器对所述音调序列中对应的音节的持续时间的长度进行调整，得到持续时间序列；

根据所述韵母的音调和所述韵母在所述乐理数据中的音阶，生成所述韵母的音乐的声学特征；

在所述拼音序列中所有的韵母均转换成声学特征后，将所有的声学特征按照所述拼音序列的排序进行拼接，得到声学特征序列，其中，所述声学特征序列为MIDI格式的高音数据文件。

可选地，在本发明第一方面的第四种实现方式中，在所述根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列之后，还包括：

将所述ID序列、所述持续时间序列和所述声学特征序列，通过相加的方式进行首尾拼接，得到佛乐特征序列；

将所述佛乐特征序列输入至预设的编-解码器中进行位置编码和解码处理，得到梅尔谱。

可选地，在本发明第一方面的第五种实现方式中，所述通过声码合成器将所述声学特征序列合成为与所述乐谱信息对应的佛乐音频包括：

将所述梅尔谱输入至预设的声码合成器中，所述声码合成器对所述梅尔谱进行音频轨道和人声轨道的合成，得到与所述乐谱信息对应的佛乐音频。

可选地，在本发明第一方面的第六种实现方式中，在所述将所述佛乐特征序列输入至预设的编-解码器中进行位置编码和解码处理，得到梅尔谱之后，还包括：

将所述乐谱信息输入至所述编-解码器中进行编解码处理，得到隐藏状态信息；

根据所述隐藏状态信息，利用所述长度控制器将所述ID序列、所述持续时间序列和所述声学特征序列的长度调整至于所述梅尔谱的长度相同

本发明第二方面提供了一种佛乐的人声合成装置，所述佛乐的人声合成装置包括：

获取模块，用于获取待合成佛乐的乐谱信息；

提取模块，用于利用音乐轨道抓取算法，提取所述乐谱信息中的乐理数据、歌词和所述歌词中每个字在乐理数据中的位置信息；

查询模块，用于在预设的佛学知识词典中查询与所述歌词匹配的拼音，并按照所述歌词将查询到的拼音转换为拼音序列；

识别模块，用于识别所述拼音序列中每个字的拼音的音节，并根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列；

合成模块，用于通过声码合成器将所述声学特征序列合成为与所述乐谱信息对应的佛乐音频。

可选地，在本发明第二方面的第一种实现方式中，所述识别模块包括：

匹配单元，用于将所述拼音序列与预设的拼音表进行匹配，识别出所述拼音序列中的声母和韵母，并对所述声母和韵母分别进行标记，得到识别标志；

分词单元，用于利用分词算法，按照所述识别标志对标识有识别标志的拼音序列进行分切，得到音节序列。

可选地，在本发明第二方面的第二种实现方式中，所述识别模块还包括：

识别单元，用于识别所述音节序列中韵母的音调，并结合所述声母生成音调序列；

配置单元，用于利用预设的ID字典为音调序列中的声母和韵母配置单独的数字ID，生成ID序列。

可选地，在本发明第二方面的第三种实现方式中，所述识别模块包括：

查询单元，用于根据所述音调序列中每个音节的位置信息，查询所述位置信息对应的音节在所述乐理数据中的持续时间；

调整单元，用于利用预设的长度控制器对所述音调序列中对应的音节的持续时间的长度进行调整，得到持续时间序列；

转换单元，用于根据所述韵母的音调和所述韵母在所述乐理数据中的音阶，生成所述韵母的音乐的声学特征；以及在所述拼音序列中所有的韵母均转换成声学特征后，将所有的声学特征按照所述拼音序列的排序进行拼接，得到声学特征序列，其中，所述声学特征序列为MIDI格式的高音数据文件。

可选地，在本发明第二方面的第四种实现方式中，所述识别模块还包括：

拼接单元，用于将所述ID序列、所述持续时间序列和所述声学特征序列，通过相加的方式进行首尾拼接，得到佛乐特征序列；

编解码单元，用于将所述佛乐特征序列输入至预设的编-解码器中进行位置编码和解码处理，得到梅尔谱。

可选地，在本发明第二方面的第五种实现方式中，所述合成模块具体用于：

可选地，在本发明第二方面的第六种实现方式中，所述识别模块，还用于：

根据所述隐藏状态信息，利用所述长度控制器将所述ID序列、所述持续时间序列和所述声学特征序列的长度调整至于所述梅尔谱的长度相同。

本发明第三方面提供了一种佛乐的人声合成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述佛乐的人声合成设备执行上述的佛乐的人声合成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述的佛乐的人声合成方法。

本发明提供的技术方案中，通过利用音乐轨道抓取算法，提取乐谱信息中的乐理数据、歌词和歌词中每个字在乐理数据中的位置信息，基于歌词查询预设的佛学知识词典，将歌词转换为拼音序列，识别拼音序列中每个字的拼音的音节，并根据乐理数据，确定每个音节的人声发音，得到歌词对应的声学特征序列，通过声码合成器将声学特征序列合成与乐谱信息对应的佛乐音频，基于拼音的音节来对佛乐的乐谱信息进行人声的转换，并进行合成，这样不再需要对人的声音进行处理，降低了机器人唱歌的成本，同时采用该种方式进行人声的合成，其产生的佛乐音频音高和气息都较为稳定，提升了用户的听觉体验，以及提高可人声合成效率。

附图说明

图1为本发明实施例中佛乐的人声合成方法的第一个流程示意图；

图2为本发明实施例中佛乐的人声合成方法的第二个流程示意图；

图3为本发明实施例中佛乐的人声合成方法的第三个流程示意图；

图4为本发明实施例中佛乐的人声合成装置的一个实施例示意图；

图5为本发明实施例中佛乐的人声合成装置的另一个实施例示意图；

图6为本发明实施例中佛乐的人声合成设备的一个实施例示意图。

具体实施方式

针对于上述的问题，本申请通过提出将乐谱信息转换成单个特征序列的方式来实现乐谱到人声的转换，并将转换后的数据通过声码合成器合成与乐谱信息对应的佛乐音频，这样的方式有利于把乐谱中的信息能够考虑到一起，同时，在音素的部分我们把中文的韵角考虑在内，这更加符合中文的发音，同时采用该种方式进行人声的合成，其产生的佛乐音频音高和气息都较为稳定，提升了用户的听觉体验，以及提高可人声合成效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中佛乐的人声合成方法的第一个实施例包括：

101、获取待合成佛乐的乐谱信息；

该乐谱信息指的是完整的佛乐曲谱，该曲谱中包括有具体可以根据待合成歌曲的电子乐谱中获取，具体可以包括“音调”、“谱号”、“拍号”、“速度”以及每个音符的“音高”、“时长”、“声部”、“音符类型”和“歌词”等。

在本实施例中，所述乐谱信息具体可以是作曲家编曲得到的完整乐谱数据，也可以是现有的包含唱声的佛教音乐歌曲，若是佛教音乐歌曲，则需要对该佛教音乐歌曲进行唱声和电子乐谱进行分离，其分离具体可以通过音乐的轨道分离工具来进行处理。

102、利用音乐轨道抓取算法，提取乐谱信息中的乐理数据、歌词和歌词中每个字在乐理数据中的位置信息；

在本实施例中，其音乐轨道抓取算法可以理解为是音乐制作软件，在获取到乐谱信息后，可以通过指令来调用音乐制作软件在后台运行，对乐谱信息进行乐谱特征的提取，该乐谱特征具体是通过对乐谱信息进行特征提取，过滤无用冗余信息处理后得到。

103、在预设的佛学知识词典中查询与所述歌词匹配的拼音，并按照所述歌词将查询到的拼音转换为拼音序列；

该步骤中，所述佛学知识词典指的是包含有所有的中文单词的佛学发音的专业领域中文词典，通过从该词典中查询出歌词中佛学发音，基于发音拼写出对应的平阴，从而构建出所述歌词的佛学发音的拼音序列。

在实际应用中，在将歌词转换为拼音序列时，具体是通过对查询到的歌词的佛学发音进行特征提取，提取发音中的韵母的发音声调，然后过滤无用冗余信息处理后得到，具体可以基于线性预测分析算法、感知线性预测系数算法、梅尔频率倒谱系数算法等语音特征提取算法，从歌词的发音中提取具体的拼音发音特征，例如中文中一个韵母会存在四个声调，如；a的声调分别为第一声调、第二声调、第三声调和第四声调，根据识别发音确定韵母属于第几声调，将声调和韵母组合成一个发音特征。

104、识别拼音序列中每个字的拼音的音节，并根据乐理数据，确定每个音节的人声发音，得到歌词对应的声学特征序列；

该步骤中，根据上述得到的拼音序列利用人工智能中发音识别算法，对拼音序列中的每个拼音进行识别，具体是按照拼音的组成结构声母+韵母的结构进行识别，声母加韵母组成一个字发音，并标志该字的发音的声母和韵母，得到音节序列，然后将音节序列输入到人声发生器中匹配满足条件的人声，并输出对应的声学特征，将所有的声学特征拼接组合得到该歌词的声学特征序列。

在实际应用中，在通过人声发生器进行人声匹配具体是匹配到对应音调的发音序列，基于发音序列进行人声的模拟，得到音高和发音的稳定度且与对应的乐谱特征的匹配程度大于预设值的模拟人声，对该模拟人声进行声音特征的提取，形成声学特征序列。

105、通过声码合成器将声学特征序列合成与乐谱信息对应的佛乐音频。

在本实施例中，所述声码合成器具体是通过wavernn或waveglow结构的声码器，该种结构的声码器可以最大程度地模拟合成高质量的唱声，在合成的过程中，具体包括首先对乐理数据中的每个音符的持续时间进行识别，得到持续时间序列，基于持续时间序列对声学特征序列的持续时间进行调整，然后将调整后的声学特征序列输入到声码合成器中合成，得到与该乐谱信息对应的佛乐音频。

通过对上述提供的方法的执行，通过利用音乐轨道抓取算法，提取乐谱信息中的乐理数据、歌词和歌词中每个字在乐理数据中的位置信息，基于歌词查询预设的佛学知识词典，将歌词转换为拼音序列，识别拼音序列中每个字的拼音的音节，并根据乐理数据，确定每个音节的人声发音，得到歌词对应的声学特征序列，通过声码合成器将声学特征序列合成与乐谱信息对应的佛乐音频，基于拼音的音节来对佛乐的乐谱信息进行人声的转换，并进行合成，这样不再需要对人的声音进行处理，降低了机器人唱歌的成本，同时采用该种方式进行人声的合成，其产生的佛乐音频音高和气息都较为稳定，提升了用户的听觉体验，以及提高可人声合成效率。

请参阅图2，本发明实施例中佛乐的人声合成方法的第二个实施例包括：

201、获取待合成佛乐的乐谱信息；

202、利用音乐轨道抓取算法，提取乐谱信息中的乐理数据、歌词和歌词中每个字在乐理数据中的位置信息；

203、在预设的佛学知识词典中查询与所述歌词匹配的拼音，并按照所述歌词将查询到的拼音转换为拼音序列；

204、将拼音序列与预设的拼音表进行匹配，识别出拼音序列中的声母和韵母，并对声母和韵母分别进行标记，得到识别标志；

在该步骤中，具体可以通过标注模型来实现，具体的首先根据预设的拼音表通过神经网络进行学习，学习表中的声母和韵母的发音，以及中文字的拼音组成规律，得到与佛学相关的标注模型，在使用时，将拼音序列输入至标注模型中，标注模型通过对拼音的发音识别出声母和韵母，并识别出来的声母和韵母分别标志上不同的识别标志，然后生成新的标识拼音序列。

205、利用分词算法，按照识别标志对标识有识别标志的拼音序列进行分切，得到音节序列；

在本实施例中，该分词算法可以采用微软小冰模型，该模型结合分词算法进行训练学习转换为中文拼音的分割模型，基于该分割模型对标识的拼音序列按照识别标志进行切分，以实现音素化，得到音素集合，以该音素集合作为音节序列输出。

在该步骤中，在得到音素集合之后，还包括：识别所述音节序列中韵母的音调，并结合所述声母生成音调序列；

在实际应用中，根据中文中四种不同的发声，在识别分切声母部分时考虑韵角的信息(如：大是第一声，其音素就拆为d、a1，达是第二声，其音素拆为d、a2，而a1和a2会给与不同的音素ID)。音素会通过对应的ID字典转换为数字ID。音高会转换为Midi中的0-127个数字。时值部分还考虑节奏来做标准化同时韵母和声母会以1：2的比例，切分一个音符。

以下表格为“我和你”的举例：

Tempo＝120

206、根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列；

该步骤中，具体可以利用预先训练好的卷积自编码网络中的解码网络，对高维卷积特征进行解码，得到声学特征。

在得到高维卷积特征后，进行解码处理，得到声学特征，声学特征反映了音节的发音音色。具体地，解码处理可以由卷积自编码网络中隐藏层之后的网络，即解码网络实现。其中，卷积自编码网络具备自我复现能力，即其输入和输出相同，将卷积自编码网络中隐藏层之前的网络作为编码网络，即实现对输入的自编码处理，并将卷积自编码网络中隐藏层之后的网络作为解码网络，从而可以对自编码处理的结果进行解码处理，得到网络输出，即原输入。则编码网络可以根据输入的音频特征输出高维特征，而解码网络可以根据编码网络输出的高维特征，解码输出发音特征。本实施例中，利用解码网络对得到的高维卷积特征进行解码，得到声学特征序列。

207、通过声码合成器将所述声学特征序列合成与所述乐谱信息对应的佛乐音频。

通过上述方案的实施，通过将拼音序列转换为音调序列和ID序列，使得在匹配输出人声是考虑了更多的声学特征，训练模型生成真实声音特征的能力，这在歌声生成中是至关重要的，由于歌声相较于人声更加的富含特征，尤其是在音高上面，因此，考虑了更多的特征能使机器生成的歌声更加具有真实性。

请参阅图3，本发明实施例中佛乐的人声合成方法的另一种实施例包括：

301、获取待合成佛乐的乐谱信息；

302、利用音乐轨道抓取算法，提取乐谱信息中的乐理数据、歌词和歌词中每个字在乐理数据中的位置信息；

303、在预设的佛学知识词典中查询与所述歌词匹配的拼音，并按照所述歌词将查询到的拼音转换为拼音序列；

304、将拼音序列与预设的拼音表进行匹配，识别出拼音序列中的声母和韵母，并对声母和韵母分别进行标记，得到识别标志；

305、利用分词算法，按照识别标志对标识有识别标志的拼音序列进行分切，得到音节序列；

306、根据所述音调序列中每个音节的位置信息，查询所述位置信息对应的音节在所述乐理数据中的持续时间；

307、利用预设的长度控制器对所述音调序列中对应的音节的持续时间的长度进行调整，得到持续时间序列；

308、根据所述韵母的音调和所述韵母在所述乐理数据中的音阶，生成所述韵母的音乐的声学特征；

309、在所述拼音序列中所有的韵母均转换成声学特征后，将所有的声学特征按照所述拼音序列的排序进行拼接，得到声学特征序列；

其中，所述声学特征序列为MIDI格式的高音数据文件；

310、将所述ID序列、持续时间序列和声学特征序列，通过相加的方式进行首尾拼接，得到佛乐特征序列；

311、将所述佛乐特征序列输入至预设的编-解码器中进行位置编码和解码处理，得到梅尔谱；

在该步骤中，将这部分乐谱中的特征做ID化以后，得到三个序列：ID、pitch、duration。这三个序列的长度是相同的，他们会先分别经过嵌入层，把序列映射到512维的空间中，在把三个序列通过相加得到一个新的序列，在加上位置编码。

312、将所述梅尔谱输入至预设的声码合成器中，所述声码合成器对所述梅尔谱进行音频轨道和人声轨道的合成，得到与所述乐谱信息对应的佛乐音频。

在本实施例中，在所述将所述佛乐特征序列输入至预设的编-解码器中进行位置编码和解码处理，得到梅尔谱之后，还包括：

根据所述隐藏状态信息，利用所述长度控制器将所述ID序列、持续时间序列和声学特征序列的长度调整至于所述梅尔谱的长度相同。

然后将调整后带有隐藏状态信息的三个序列合并成一个新的序列后输入至声码合成器进行佛乐音频的合成。

在实际应用中，上述的编-解码器主要是采用了fastspeech2的结构来实现，具体的使用FFT模块作为encoder。当然也可以使用其他模块，比如Tractron等，将经过encoder以后，得到了乐谱中信息的隐藏状态信息(hidden state)，在通过fastspeech2的varianceadaptor结构进行编码后，得到隐藏状态信息，比如wo这个发音是在谱子上是1s，那么我们读wo这个字的时候，实际发音会是1s吗，就算真的是1s，那么“我”的音素w和o它们的持续时间是多少，谱子里也不会有，所以我们需要训练duration predictor，通过输入乐谱里的时值判断每个音素的实际时间，这个信息才是最符合发声的。音高也是一样，A的音高是440HZ,但人唱A这个音的时候是不能发出准确的440HZ的，而且差距会很大，我们不能把乐谱上的音高当作实际的音高，所以需要一个pitch predictor，通过谱子里的音高来判断人唱出来的频率应该是怎么样的。而上述乐谱中的信息，都存在于encoder出来的hiddenstate,即乐谱的representation。这个结构是为了训练机器通过乐谱得到实际的声学上的各种特征。

乐谱的隐状态会首先通过长度控制器来把序列的长度调整和声音的梅尔谱长度一致，这个过程中我们会预测duration,pitch，energy这3个从声音中提取的特征，目的是为了让模型学会根据乐谱发出实际的人声。相较而言，小冰的模型只有一个durationpredictor而没有考虑其他的声学特征。

例如w o的ID是1 2 3，音素w o ai的实际持续时间是15ms 30ms 45ms，而梅尔谱的一个frame是15ms，梅尔谱一共是90ms，6个frame。

那么duratiuon predictor预测出的结果会是1 2 3(训练时1 2 3是groundtruth)

在实际应用中，训练会训练predictor,而在使用时是ground truth,只有预测时，我们没有了ground truth，那么predictor就会起左右，这个就是教师法。那么经过长度控制器上述的预测调整后，序列就变成了2 2 3 3 3，其和梅尔谱的长度6一致。

在训练过程中并不会使用这三个模块得到的值，而是使会用实际的值来代替，目的是防止后面的模块受到前面模块的错误的影响，在预测的时候，这些predictor才会发挥作用。

在通过variance adaptor后会再加上一个位置编码，具体是采用加法，位置编码的值就是transformer论文使用的正弦余弦函数的。使用原因是fastspeech2和小冰都使用了这个结构。我猜想是因为decoder也使用了fft模块，fft类似于transformer而transformer本身是没有考虑位置信息的，所以要在进入decoder前先加上position的encoding。

进一步的，在通过该声码合成器解码得到佛乐音频过程中，首先通过FFT模块加上线性层来的到声音的梅尔谱，再将梅尔谱通过wavernn,waveglow等声码器生成模块来得到高质量的唱声。其中考虑到并没有专门针对中文唱声的预训练模型，这里还单独训练一个从梅尔谱到声音的声码器，这不同于fastspeech2s中的直接将waveform作为decoder来生成声音。

综上，通过使用data representation，三个特征序列的长度相同，有利于把乐谱中的信息能够考虑到一起，同时，在音素的部分我们把中文的韵角考虑在内，这更加符合中文的发音。在variance adaptor的部分，还考虑了更多的声学特征，训练模型生成真实声音特征的能力，这在歌声生成中是至关重要的，由于歌声相较于人声更加的富含特征，尤其是在音高上面，因此，考虑了更多的特征能使机器生成的歌声更加具有真实性。这样不仅解决了产生的佛乐音频音高和气息不稳定问题，还提升了用户的听觉体验，以及提高可人声合成效率。

上面对本发明实施例中佛乐的人声合成方法进行了描述，下面对本发明实施例中佛乐的人声合成装置进行描述，请参阅图4，本发明实施例中佛乐的人声合成装置的第一个实施例包括：

获取模块401，用于获取待合成佛乐的乐谱信息；

提取模块402，用于利用音乐轨道抓取算法，提取所述乐谱信息中的乐理数据、歌词和所述歌词中每个字在乐理数据中的位置信息；

查询模块403，用于在预设的佛学知识词典中查询与所述歌词匹配的拼音，并按照所述歌词将查询到的拼音转换为拼音序列；

识别模块404，用于识别所述拼音序列中每个字的拼音的音节，并根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列；

合成模块405，用于通过声码合成器将所述声学特征序列合成与所述乐谱信息对应的佛乐音频。

在本实施例中，所述佛乐的人声合成装置运行上述佛乐的人声合成方法，该方法通过利用音乐轨道抓取算法，提取乐谱信息中的乐理数据、歌词和歌词中每个字在乐理数据中的位置信息，基于歌词查询预设的佛学知识词典，将歌词转换为拼音序列，识别拼音序列中每个字的拼音的音节，并根据乐理数据，确定每个音节的人声发音，得到歌词对应的声学特征序列，通过声码合成器将声学特征序列合成与乐谱信息对应的佛乐音频，基于拼音的音节来对佛乐的乐谱信息进行人声的转换，并进行合成，这样不再需要对人的声音进行处理，降低了机器人唱歌的成本，同时采用该种方式进行人声的合成，其产生的佛乐音频音高和气息都较为稳定，提升了用户的听觉体验，以及提高可人声合成效率。

请参阅图5，本发明实施例中佛乐的人声合成装置的第二个实施例，该佛乐的人声合成装置具体包括：

获取模块401，用于获取待合成佛乐的乐谱信息；

查询模块403，用于基于所述歌词，查询预设的佛学知识词典，将所述歌词转换为拼音序列；

可选地，所述识别模块404包括：

匹配单元4041，用于将所述拼音序列与预设的拼音表进行匹配，识别出所述拼音序列中的声母和韵母，并对所述声母和韵母分别进行标记，得到识别标志；

分词单元4042，用于利用分词算法，按照所述识别标志对标识有识别标志的拼音序列进行分切，得到音节序列。

可选地，所述识别模块404还包括：

识别单元4043，用于识别所述音节序列中韵母的音调，并结合所述声母生成音调序列；

配置单元4044，用于利用预设的ID字典为音调序列中的声母和韵母配置单独的数字ID，生成ID序列。

可选地，所述识别模块404包括：

查询单元4045，用于根据所述音调序列中每个音节的位置信息，查询所述位置信息对应的音节在所述乐理数据中的持续时间；

调整单元4046，用于利用预设的长度控制器对所述音调序列中对应的音节的持续时间的长度进行调整，得到持续时间序列；

转换单元4047，用于根据所述韵母的音调和所述韵母在所述乐理数据中的音阶，生成所述韵母的音乐的声学特征；以及在所述拼音序列中所有的韵母均转换成声学特征后，将所有的声学特征按照所述拼音序列的排序进行拼接，得到声学特征序列，其中，所述声学特征序列为MIDI格式的高音数据文件。

可选地，所述识别模块404还包括：

拼接单元4048，用于将所述ID序列、所述持续时间序列和所述声学特征序列，通过相加的方式进行首尾拼接，得到佛乐特征序列；

编解码单元4049，用于将所述佛乐特征序列输入至预设的编-解码器中进行位置编码和解码处理，得到梅尔谱。

可选地，所述合成模块405具体用于：

将所述梅尔谱输入至声码合成器中，所述声码合成器对所述梅尔谱进行音频轨道和人声轨道的合成，得到与所述乐谱信息对应的佛乐音频。

可选地，所述识别模块404，还用于：

上面图4和图5从模块化功能实体的角度对本发明实施例中的佛乐的人声合成装置进行详细描述，下面从硬件处理的角度对本发明实施例中佛乐的人声合成设备进行详细描述。

图6是本发明实施例提供的一种佛乐的人声合成设备的结构示意图，该佛乐的人声合成设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对佛乐的人声合成设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在佛乐的人声合成设备600上执行存储介质630中的一系列指令操作,以实现上述佛乐的人声合成方法的步骤。

佛乐的人声合成设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的佛乐的人声合成设备结构并不构成对本申请提供的佛乐的人声合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行上述各实施例提供的佛乐的人声合成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种佛乐的人声合成方法，其特征在于，所述佛乐的人声合成方法包括：

获取待合成佛乐的乐谱信息；

2.根据权利要求1所述的佛乐的人声合成方法，其特征在于，所述识别所述拼音序列中每个字的拼音的音节包括：

3.根据权利要求2所述的佛乐的人声合成方法，其特征在于，在所述利用分词算法，按照所述识别标志对标识有识别标志的拼音序列进行分切，得到音节序列之后，还包括：

4.根据权利要求3所述的佛乐的人声合成方法，其特征在于，所述根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列包括：

利用预设的长度控制器对所述音调序列中音节的持续时间的长度进行调整，得到持续时间序列；

5.根据权利要求4所述的佛乐的人声合成方法，其特征在于，在所述根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列之后，还包括：

6.根据权利要求5所述的佛乐的人声合成方法，其特征在于，所述通过声码合成器将所述声学特征序列合成为与所述乐谱信息对应的佛乐音频包括：

7.根据权利要求5所述的佛乐的人声合成方法，其特征在于，在所述将所述佛乐特征序列输入至预设的编-解码器中进行位置编码和解码处理，得到梅尔谱之后，还包括：

8.一种佛乐的人声合成装置，其特征在于，所述佛乐的人声合成装置包括：

获取模块，用于获取待合成佛乐的乐谱信息；

查询模块，用于基于所述歌词，查询预设的佛学知识词典，将所述歌词转换为拼音序列；

9.一种佛乐的人声合成设备，其特征在于，所述佛乐的人声合成设备包括：存储器和至少一个处理器，所述存储器中存储有计算机程序，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述佛乐的人声合成设备执行如权利要求1-7中任一项所述的佛乐的人声合成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的佛乐的人声合成方法。