CN110570876B

CN110570876B - 歌声合成方法、装置、计算机设备和存储介质

Info

Publication number: CN110570876B
Application number: CN201910695214.8A
Authority: CN
Inventors: 王健宗; 曾振; 罗剑
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2024-03-15
Anticipated expiration: 2039-07-30
Also published as: CN110570876A

Abstract

本申请涉及一种歌声合成方法、装置、计算机设备和存储介质。所述方法涉及语音合成技术，包括：获取歌词录音数据和乐谱数据，并从歌词录音数据中提取语音音频特征，从乐谱数据中提取乐谱特征；利用预先训练好的卷积自编码网络中的编码网络，对语音音频特征进行自编码，得到语音音频特征对应的语音高维卷积特征；利用预先训练好的全连接神经网络，对乐谱特征和语音高维卷积特征进行耦合处理，得到歌声高维卷积特征；利用预先训练好的卷积自编码网络中的解码网络，对歌声高维卷积特征进行解码，得到歌声音频特征；对歌声音频特征进行音频还原处理，得到合成歌声。采用本方法能够提高合成歌声的处理效率。

Description

歌声合成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种歌声合成方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，语音合成技术在趋向成熟，在交通、教育、医疗和社交等领域得到了广泛的应用。如交通语音导航、语言学习发音、医疗语音控制等，便利了人们的工作和生活。而更进一步的歌声合成技术，考虑到乐谱的影响，各音符的发音丰富多样，大大增加了歌声合成的技术难度，限制了歌声合成处理效率。例如，目前通过将歌词各个字节的发音拼接，再通过相应平滑处理，并基于乐谱进行拟合的歌声合成中，歌声合成处理过程繁杂，极大影响了歌声合成的处理效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高合成歌声处理效率的歌声合成方法、装置、计算机设备和存储介质。

一种歌声合成方法，所述方法包括：

获取歌词录音数据和乐谱数据，并从歌词录音数据中提取语音音频特征，从乐谱数据中提取乐谱特征；

利用预先训练好的卷积自编码网络中的编码网络，对语音音频特征进行自编码，得到语音音频特征对应的语音高维卷积特征；

利用预先训练好的全连接神经网络，对乐谱特征和语音高维卷积特征进行耦合处理，得到歌声高维卷积特征；

利用预先训练好的卷积自编码网络中的解码网络，对歌声高维卷积特征进行解码，得到歌声音频特征；

对歌声音频特征进行音频还原处理，得到合成歌声。

在其中一个实施例中，从歌词录音数据中提取语音音频特征包括：

对歌词录音数据进行分帧加窗处理，得到录音特征数据；

对录音特征数据进行频谱变换，得到语音音频特征。

在其中一个实施例中，从乐谱数据中提取乐谱特征包括：

从乐谱数据中提取音符特征数据；

对音符特征数据进行特征编码处理，得到音符特征编码；

连接音符特征编码，得到乐谱特征。

在其中一个实施例中，利用预先训练好的卷积自编码网络中的编码网络，对语音音频特征进行自编码，得到语音音频特征对应的语音高维卷积特征包括：

获取卷积自编码网络中编码网络的输出，作为语音音频特征对应的语音高维卷积特征；

其中，卷积自编码网络通过以下过程得到：

获取歌词录音训练数据和歌声录音训练数据，并从歌词录音训练数据中提取语音音频训练特征，从歌声录音训练数据中提取歌声音频训练特征；

通过语音音频训练特征和歌声音频训练特征，训练待训练音频网络，得到卷积自编码网络。

在其中一个实施例中，在利用预先训练好的全连接神经网络，对乐谱特征和语音高维卷积特征进行耦合处理，得到歌声高维卷积特征之前，还包括：

根据卷积自编码网络，获取语音音频训练特征对应的语音高维卷积训练特征，及歌声音频训练特征对应的歌声高维卷积训练特征；

训练语音高维卷积训练特征、歌声高维卷积训练特征和预设的乐谱训练数据对应的乐谱训练特征，得到全连接神经网络。

在其中一个实施例中，利用预先训练好的卷积自编码网络中的解码网络，对歌声高维卷积特征进行解码，得到歌声音频特征包括：

获取卷积自编码网络中解码网络的输出，作为歌声音频特征。

在其中一个实施例中，对歌声音频特征进行音频还原处理，得到合成歌声包括：

对歌声音频特征进行频谱逆变换，得到歌声音频数据；

对歌声音频数据进行分帧加窗逆处理，得到合成歌声。

一种歌声合成装置，所述装置包括：

特征提取模块，用于获取歌词录音数据和乐谱数据，并从歌词录音数据中提取语音音频特征，从乐谱数据中提取乐谱特征；

自编码处理模块，用于利用预先训练好的卷积自编码网络中的编码网络，对语音音频特征进行自编码，得到语音音频特征对应的语音高维卷积特征；

耦合处理模块，用于利用预先训练好的全连接神经网络，对乐谱特征和语音高维卷积特征进行耦合处理，得到歌声高维卷积特征；

歌声解码处理模块，用于利用预先训练好的卷积自编码网络中的解码网络，对歌声高维卷积特征进行解码，得到歌声音频特征；

歌声还原处理模块，用于对歌声音频特征进行音频还原处理，得到合成歌声。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对歌声音频特征进行音频还原处理，得到合成歌声。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对歌声音频特征进行音频还原处理，得到合成歌声。

上述歌声合成方法、装置、计算机设备和存储介质，利用语音音频特征进行自编码得到语音高维卷积特征，结合乐谱特征进行耦合处理，得到歌声高维卷积特征，再对歌声高维卷积特征进行解码和音频还原处理，得到合成歌声。在歌声合成处理过程中，直接利用乐谱特征和语音音频特征对应的语音高维卷积特征进行歌声高维卷积特征耦合处理，可以直接根据已有歌词录音数据中提取的语音音频特征和乐谱特征进行歌声合成，得到与歌词录音数据对应的合成歌声，简化了歌声合成处理过程，改善了合成歌声的处理效率。

附图说明

图1为一个实施例中歌声合成方法的应用场景图；

图2为一个实施例中歌声合成方法的流程示意图；

图3为一个实施例中乐谱特征提取的流程示意图；

图4为一个实施例中音符在电子乐谱的保存方式；

图5为一个实施例中歌声合成装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的歌声合成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102向服务器104发送歌词录音数据和乐谱数据，服务器104从歌词录音数据中提取语音音频特征，从乐谱数据中提取乐谱特征，并利用语音音频特征进行自编码得到语音高维卷积特征，结合乐谱特征进行耦合处理，得到歌声高维卷积特征，再对歌声高维卷积特征进行解码和音频还原处理，得到合成歌声并将其返回终端102。此外，也可以由服务器104直接从本地数据库中获取歌词录音数据和乐谱数据，还可以由终端102直接对歌词录音数据和乐谱数据进行歌声合成处理。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种歌声合成方法，以该方法应用于图1中的终端102或服务器104为例进行说明，包括以下步骤：

步骤S201：获取歌词录音数据和乐谱数据，并从歌词录音数据中提取语音音频特征，从乐谱数据中提取乐谱特征。

歌词录音数据预先根据用户基于待合成歌曲的歌词进行录音得到，具体可以在确定待合成歌曲后，获取其歌词，由用户基于该歌词进行录音，得到歌词录音数据，其可以反映该用户的音色；乐谱数据则可以为待合成歌曲的乐谱信息，其反映了待合成歌曲的旋律。乐谱数据具体可以根据待合成歌曲的电子乐谱中获取，具体可以包括“音调”、“谱号”、“拍号”、“速度”以及每个音符的“音高”、“时长”、“声部”、“音符类型”和“歌词”等。语音音频特征可以对歌词录音数据进行特征提取，过滤无用冗余信息处理后得到，具体可以基于LPC(LinearPredictionCoefficients，线性预测分析)算法、PLP(PerceptualLinearPredictive，感知线性预测系数)算法、MFCC(MelFrequencyCepstrumCoefficient，梅尔频率倒谱系数)算法等语音特征提取算法，从歌词录音数据中提取语音音频特征；乐谱特征也可以对乐谱数据进行特征提取，过滤无用冗余信息处理后得到。

步骤S203：利用预先训练好的卷积自编码网络中的编码网络，对语音音频特征进行自编码，得到语音音频特征对应的语音高维卷积特征。

得到语音音频特征后，进行自编码处理，得到语音音频特征对应的语音高维卷积特征。具体可以通过预先训练的卷积自编码网络对语音音频特征进行处理，卷积自编码网络通过歌词录音训练数据和歌声录音训练数据训练得到，使卷积自编码网络具备自我复现能力，即其输入和输出相同，即输入语音音频特征后，得到的输出也是相同的语音音频特征。并从卷积自编码网络的隐藏层中获取语音音频特征对应的语音高维卷积特征，语音高维卷积特征即为经过编码网络进行自编码后的编码结果。其中，卷积自编码网络可以实现对输入的自我耦合处理，其输入和输出相同，即输入语音音频特征后，得到的输出也是相同的语音音频特征。通过提取卷积自编码网络中隐藏层的输出，可以作为音音频特征对应的语音高维卷积特征。将卷积自编码网络中隐藏层之前的网络作为编码网络，即实现对输入的自编码处理，并将卷积自编码网络中隐藏层之后的网络作为解码网络，从而可以对自编码处理的结果进行解码处理，得到网络输出，即原输入。

步骤S205：利用预先训练好的全连接神经网络，对乐谱特征和语音高维卷积特征进行耦合处理，得到歌声高维卷积特征。

得到语音高维卷积特征后，结合乐谱特征进行耦合处理，得到歌声高维卷积特征。具体地，耦合处理可以由预先训练的全连接神经网络实现，全连接神经网络可以基于歌词录音训练数据、歌声录音训练数据和乐谱训练数据训练得到，其训练了输入的乐谱特征和语音高维卷积特征，与输出的歌声高维卷积特征之间的映射关系，即可以根据输入的乐谱特征和语音高维卷积特征进行耦合处理，输出歌声高维卷积特征。

步骤S207：利用预先训练好的卷积自编码网络中的解码网络，对歌声高维卷积特征进行解码，得到歌声音频特征。

得到歌声高维卷积特征后，进行解码处理，得到歌声音频特征，歌声音频特征反映了合成歌声的特征。具体地，解码处理可以由卷积自编码网络中隐藏层之后的网络，即解码网络实现。其中，卷积自编码网络具备自我复现能力，即其输入和输出相同，将卷积自编码网络中隐藏层之前的网络作为编码网络，即实现对输入的自编码处理，并将卷积自编码网络中隐藏层之后的网络作为解码网络，从而可以对自编码处理的结果进行解码处理，得到网络输出，即原输入。则编码网络可以根据输入的音频特征输出高维特征，而解码网络可以根据编码网络输出的高维特征，解码输出音频特征。本实施例中，利用解码网络对得到的高维卷积特征进行解码，得到歌声音频特征。

步骤S209：对歌声音频特征进行音频还原处理，得到合成歌声。

对得到的歌声音频特征进行音频还原处理，如进行频谱逆变换、分帧、加窗的逆处理，得到合成歌声。得到的合成歌声结合了乐谱特征，不仅可以体现乐谱规律，还与歌词录音数据的特征，即用户的音色特征对应，使合成的歌声更加自然，从而改善了合成歌声的效果。此外，通过直接利用乐谱特征和语音音频特征对应的语音高维卷积特征进行歌声高维卷积特征耦合处理，可以直接根据已有歌词录音数据中提取的语音音频特征和乐谱特征进行歌声合成，得到与歌词录音数据对应的合成歌声，也改善了合成歌声的处理效率。

上述歌声合成方法中，利用语音音频特征进行自编码得到语音高维卷积特征，结合乐谱特征进行耦合处理，得到歌声高维卷积特征，再对歌声高维卷积特征进行解码和音频还原处理，得到合成歌声。在歌声合成处理过程中，直接利用乐谱特征和语音音频特征对应的语音高维卷积特征进行歌声高维卷积特征耦合处理，可以直接根据已有歌词录音数据中提取的语音音频特征和乐谱特征进行歌声合成，得到与歌词录音数据对应的合成歌声，简化了歌声合成处理过程，改善了合成歌声的处理效率。

在一个实施例中，从歌词录音数据中提取语音音频特征包括：对歌词录音数据进行分帧加窗处理，得到录音特征数据；对录音特征数据进行频谱变换，得到语音音频特征。

语音音频特征反映了用户的音色特征。从歌词录音数据中提取语音音频特征时，对歌词录音数据进行预处理，具体可以包括分帧加窗处理，得到录音特征数据，再对录音特征数据进行频谱变换，如进行快速傅里叶变换得到歌词录音数据的频谱图，并可以将该频谱图作为歌词录音数据的语音音频特征。

在一个实施例中，如图3所示，乐谱特征提取的步骤，即从乐谱数据中提取乐谱特征包括：

步骤S301：从乐谱数据中提取音符特征数据。

本实施例中，乐谱数据为待合成歌曲的乐谱信息，其反映了待合成歌曲的旋律，具体从待合成歌曲的电子乐谱中获取。“音调”、“谱号”、“拍号”、“速度”以及每个音符的“音高”、“时长”、“声部”、“音符类型”和“歌词”等乐谱信息均被记录于电子乐谱中，乐谱特征提取过程就是将这些信息从电子乐谱中挑选出来。具体而言，对于MuseScore格式标准的电子乐谱，其本质是一个特殊格式的文本文件。一首完整歌曲的乐谱是将许多的音符连接起来，在电子乐谱中就是将这些音符的文本保存方式拼接起来。提取乐谱特征就是从每个音符文本中筛选出我们所需要的文本信息，并将其组合起来，作为音符特征数据。从电子乐谱中提取出我们所需要的音符特征数据，并将其进行特征编码，以作为乐谱特征。特征编码是以音符为单位逐个进行，每个音符会得到一个音符特征编码，将所有音符的特征编码组合起来，即为乐谱特征。

具体地，从乐谱数据中提取乐谱特征时，从乐谱数据中提取音符特征数据，具体可以为提取电子乐谱中音符对应的乐谱信息。

步骤S303：对音符特征数据进行特征编码处理，得到音符特征编码。

得到音符特征数据后，对其进行特征编码处理，得到音符特征编码。如图4所示，为电子乐谱中一个音符的保存方式。在进行乐谱特征提取时，会提取出音符信息为“C5-2-4-wo”,其具体含义就是这个音符的音高为“C5”，时长为“2”个单位(乐谱文件的最开始会规定一个单位是具体多少时长)，音符类型为“1/4音符”，音节(歌词)为“wo3”(拼音)；然后，为了方便后续的处理，我们需要将音符信息用数字表示，即将“C5”与“wo”用合适的数字表示，分别用“72”(C5在音高列表中排在第72)，“102-0”(音节wo在音节字典中排在第102位，‘0’表示没有音调，轻音)；最后将每个音符的特征编码组合起来，得到乐谱特征。

步骤S305：连接音符特征编码，得到乐谱特征。

得到乐谱数据中音符特征数据对应的音符特征编码后，将其连接起来，得到乐谱特征，乐谱特征反映了待合成歌曲的旋律。

在一个实施例中，利用预先训练好的卷积自编码网络中的编码网络，对语音音频特征进行自编码，得到语音音频特征对应的语音高维卷积特征包括：获取卷积自编码网络中编码网络的输出，作为语音音频特征对应的语音高维卷积特征；其中，卷积自编码网络通过以下过程得到：获取歌词录音训练数据和歌声录音训练数据，并从歌词录音训练数据中提取语音音频训练特征，从歌声录音训练数据中提取歌声音频训练特征；通过语音音频训练特征和歌声音频训练特征，训练待训练音频网络，得到卷积自编码网络。

本实施例中，通过预设的卷积自编码网络对语音音频特征进行自编码处理。具体地，对语音音频特征进行自编码处理时，将语音音频特征输入预设的卷积自编码网络中，并获取卷积自编码网络中编码网络的输出，作为语音音频特征对应的语音高维卷积特征。其中，卷积自编码网络可以实现对输入的自我映射处理，其输入和输出相同，即输入语音音频特征后，得到的输出也是相同的语音音频特征。

进一步地，卷积自编码网络通过歌词录音训练数据和歌声录音训练数据训练得到，使卷积自编码网络具备自我复现能力。具体地，获取歌词录音训练数据和歌声录音训练数据，并从歌词录音训练数据中提取语音音频训练特征，从歌声录音训练数据中提取歌声音频训练特征。其中，语音音频训练特征和歌声音频训练特征的提取方法可以与语音音频特征的提取方法一样，即进行分帧加窗处理、频谱变换处理后得到。再通过语音音频训练特征和歌声音频训练特征，训练待训练音频网络，得到卷积自编码网络。具体同时将语音音频训练特征和歌声音频训练特征作为待训练音频网络的输入和输出，使待训练音频网络在输入语音音频训练特征后可以输出语音音频训练特征，而在输入歌声音频训练特征后对应输出歌声音频训练特征。

在一个实施例中，在利用预先训练好的全连接神经网络，对乐谱特征和语音高维卷积特征进行耦合处理，得到歌声高维卷积特征之前，还包括：根据卷积自编码网络，获取语音音频训练特征对应的语音高维卷积训练特征，及歌声音频训练特征对应的歌声高维卷积训练特征；训练语音高维卷积训练特征、歌声高维卷积训练特征和预设的乐谱训练数据对应的乐谱训练特征，得到全连接神经网络。

本实施例中，通过预设的全连接神经网络对乐谱特征语音高维卷积特征进行耦合处理，得到歌声高维卷积特征。具体地，根据乐谱特征和语音高维卷积特征进行耦合处理时，将乐谱特征和语音高维卷积特征输入预设的全连接神经网络中，得到全连接神经网络输出的歌声高维卷积特征。

其中，全连接神经网络基于歌词录音训练数据、歌声录音训练数据和乐谱训练数据训练得到。具体地，训练全连接神经网络时，根据卷积自编码网络，获取语音音频训练特征对应的语音高维卷积训练特征，即将语音音频训练数据中提取的语音音频训练特征输入卷积自编码网络中，并将卷积自编码网络中编码网络的输出作为语音音频训练特征对应的语音高维卷积训练特。基于相同操作，获取歌声音频训练数据中提取的歌声音频训练特征对应的歌声高维卷积训练特征。通过训练语音高维卷积训练特征、歌声高维卷积训练特征和预设的乐谱训练数据对应的乐谱训练特征，得到全连接神经网络。其中，语音高维卷积训练特征、歌声高维卷积训练特征和乐谱训练数据对应的乐谱训练特征均可以基于与语音音频特征提取方法相同的操作获得。全连接神经网络可以根据输入的乐谱特征和语音高维卷积特征进行耦合处理，输出歌声高维卷积特征。

在具体应用中，训练得到卷积自编码网络和全连接神经网络后，可以再将两个网络统一进行训练，同时优化卷积自编码网络和全连接神经网络的网络参数，具体可以采用随机梯度下降算法实现，从而提高网络处理的精确度。

在一个实施例中，利用预先训练好的卷积自编码网络中的解码网络，对歌声高维卷积特征进行解码，得到歌声音频特征包括：获取卷积自编码网络中解码网络的输出，作为歌声音频特征。

本实施例中，得到歌声高维卷积特征后，对其进行解码处理时，通过卷积自编码网络对歌声高维卷积特征进行解码处理，得到歌声音频特征。具体地，可以将歌声高维卷积特征输入卷积自编码网络中解码网络中，得到解码网络输出的歌声音频特征。

在一个实施例中，对歌声音频特征进行音频还原处理，得到合成歌声包括：对歌声音频特征进行频谱逆变换，得到歌声音频数据；对歌声音频数据进行分帧加窗逆处理，得到合成歌声。

得到的歌声音频特征为合成歌声的频谱图，对其进行音频还原处理后得到合成歌声。具体地，对歌声音频特征进行频谱逆变换，如进行傅里叶反变换，得到歌声音频数据。再对歌声音频数据进行分帧加窗逆处理，如按窗合帧，即分帧、加窗的逆操作，得到合成歌声。合成歌声结合了乐谱特征，不仅可以体现乐谱规律，还与歌词录音数据的特征，即用户的音色特征对应，使合成的歌声更加自然，从而改善了合成歌声的效果。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种歌声合成装置，包括：特征提取模块501、自编码处理模块503、耦合处理模块505、歌声解码处理模块507和歌声还原处理模块509，其中：

特征提取模块501，用于获取歌词录音数据和乐谱数据，并从歌词录音数据中提取语音音频特征，从乐谱数据中提取乐谱特征；

自编码处理模块503，用于利用预先训练好的卷积自编码网络中的编码网络，对语音音频特征进行自编码，得到语音音频特征对应的语音高维卷积特征；

耦合处理模块505，用于利用预先训练好的全连接神经网络，对乐谱特征和语音高维卷积特征进行耦合处理，得到歌声高维卷积特征；

歌声解码处理模块507，用于利用预先训练好的卷积自编码网络中的解码网络，对歌声高维卷积特征进行解码，得到歌声音频特征；

歌声还原处理模块509，用于对歌声音频特征进行音频还原处理，得到合成歌声。

在一个实施例中，特征提取模块501包括预处理单元和频谱变换单元；其中，预处理单元，用于对歌词录音数据进行分帧加窗处理，得到录音特征数据；频谱变换单元，用于对录音特征数据进行频谱变换，得到语音音频特征。

在一个实施例中，特征提取模块501包括音符特征数据单元、音符编码单元和编码连接单元；其中，音符特征数据单元，用于从乐谱数据中提取音符特征数据；音符编码单元，用于对音符特征数据进行特征编码处理，得到音符特征编码；编码连接单元，用于连接音符特征编码，得到乐谱特征。

在一个实施例中，自编码处理模块503包括语音卷积特征单元，用于获取卷积自编码网络中编码网络的输出，作为语音音频特征对应的语音高维卷积特征；其中，卷积自编码网络通过以下过程得到：获取歌词录音训练数据和歌声录音训练数据，并从歌词录音训练数据中提取语音音频训练特征，从歌声录音训练数据中提取歌声音频训练特征；通过语音音频训练特征和歌声音频训练特征，训练待训练音频网络，得到卷积自编码网络。

在一个实施例中，还包括训练特征获取模块和全连接网络训练模块；其中：训练特征获取模块，用于根据卷积自编码网络，获取语音音频训练特征对应的语音高维卷积训练特征，及歌声音频训练特征对应的歌声高维卷积训练特征；全连接网络训练模块，用于训练语音高维卷积训练特征、歌声高维卷积训练特征和预设的乐谱训练数据对应的乐谱训练特征，得到全连接神经网络。

在一个实施例中，歌声解码处理模块507包括歌声音频特征单元，用于获取卷积自编码网络中解码网络的输出，作为歌声音频特征。

在一个实施例中，歌声还原处理模块509包括频谱逆处理单元和按窗合帧单元；其中，频谱逆处理单元，用于对歌声音频特征进行频谱逆变换，得到歌声音频数据；按窗合帧单元，用于对歌声音频数据进行分帧加窗逆处理，得到合成歌声。

关于歌声合成装置的具体限定可以参见上文中对于歌声合成方法的限定，在此不再赘述。上述歌声合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种歌声合成方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

对歌声音频特征进行音频还原处理，得到合成歌声。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对歌词录音数据进行分帧加窗处理，得到录音特征数据；对录音特征数据进行频谱变换，得到语音音频特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：从乐谱数据中提取音符特征数据；对音符特征数据进行特征编码处理，得到音符特征编码；连接音符特征编码，得到乐谱特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取卷积自编码网络中编码网络的输出，作为语音音频特征对应的语音高维卷积特征；其中，卷积自编码网络通过以下过程得到：获取歌词录音训练数据和歌声录音训练数据，并从歌词录音训练数据中提取语音音频训练特征，从歌声录音训练数据中提取歌声音频训练特征；通过语音音频训练特征和歌声音频训练特征，训练待训练音频网络，得到卷积自编码网络。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据卷积自编码网络，获取语音音频训练特征对应的语音高维卷积训练特征，及歌声音频训练特征对应的歌声高维卷积训练特征；训练语音高维卷积训练特征、歌声高维卷积训练特征和预设的乐谱训练数据对应的乐谱训练特征，得到全连接神经网络。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取卷积自编码网络中解码网络的输出，作为歌声音频特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对歌声音频特征进行频谱逆变换，得到歌声音频数据；对歌声音频数据进行分帧加窗逆处理，得到合成歌声。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

对歌声音频特征进行音频还原处理，得到合成歌声。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对歌词录音数据进行分帧加窗处理，得到录音特征数据；对录音特征数据进行频谱变换，得到语音音频特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：从乐谱数据中提取音符特征数据；对音符特征数据进行特征编码处理，得到音符特征编码；连接音符特征编码，得到乐谱特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取卷积自编码网络中编码网络的输出，作为语音音频特征对应的语音高维卷积特征；其中，卷积自编码网络通过以下过程得到：获取歌词录音训练数据和歌声录音训练数据，并从歌词录音训练数据中提取语音音频训练特征，从歌声录音训练数据中提取歌声音频训练特征；通过语音音频训练特征和歌声音频训练特征，训练待训练音频网络，得到卷积自编码网络。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据卷积自编码网络，获取语音音频训练特征对应的语音高维卷积训练特征，及歌声音频训练特征对应的歌声高维卷积训练特征；训练语音高维卷积训练特征、歌声高维卷积训练特征和预设的乐谱训练数据对应的乐谱训练特征，得到全连接神经网络。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取卷积自编码网络中解码网络的输出，作为歌声音频特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对歌声音频特征进行频谱逆变换，得到歌声音频数据；对歌声音频数据进行分帧加窗逆处理，得到合成歌声。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种歌声合成方法，所述方法包括：

获取歌词录音数据和乐谱数据，并从所述歌词录音数据中提取语音音频特征，从所述乐谱数据中提取乐谱特征；

利用预先训练好的卷积自编码网络中的编码网络，对所述语音音频特征进行自编码，将所述编码网络的输出作为所述语音音频特征对应的语音高维卷积特征；其中，所述卷积自编码网络通过以下过程得到：获取歌词录音训练数据和歌声录音训练数据，并从所述歌词录音训练数据中提取语音音频训练特征，从所述歌声录音训练数据中提取歌声音频训练特征；通过所述语音音频训练特征和所述歌声音频训练特征，训练待训练音频网络，得到所述卷积自编码网络；

根据所述卷积自编码网络，获取所述语音音频训练特征对应的语音高维卷积训练特征，及所述歌声音频训练特征对应的歌声高维卷积训练特征；

训练所述语音高维卷积训练特征、所述歌声高维卷积训练特征和预设的乐谱训练数据对应的乐谱训练特征，得到全连接神经网络；

利用所述全连接神经网络，对所述乐谱特征和所述语音高维卷积特征进行耦合处理，得到歌声高维卷积特征；

利用所述预先训练好的卷积自编码网络中的解码网络，对所述歌声高维卷积特征进行解码，将所述解码网络的输出作为歌声音频特征；

对所述歌声音频特征进行音频还原处理，得到合成歌声。

2.根据权利要求1所述的方法，其特征在于，所述从所述歌词录音数据中提取语音音频特征包括：

对所述歌词录音数据进行分帧加窗处理，得到录音特征数据；

对所述录音特征数据进行频谱变换，得到语音音频特征。

3.根据权利要求1所述的方法，其特征在于，所述从所述乐谱数据中提取乐谱特征包括：

从所述乐谱数据中提取音符特征数据；

对所述音符特征数据进行特征编码处理，得到音符特征编码；

连接所述音符特征编码，得到乐谱特征。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述对所述歌声音频特征进行音频还原处理，得到合成歌声包括：

对所述歌声音频特征进行频谱逆变换，得到歌声音频数据；

对所述歌声音频数据进行分帧加窗逆处理，得到合成歌声。

5.一种歌声合成装置，其特征在于，所述装置包括：

特征提取模块，用于获取歌词录音数据和乐谱数据，并从所述歌词录音数据中提取语音音频特征，从所述乐谱数据中提取乐谱特征；

自编码处理模块，用于利用预先训练好的卷积自编码网络中的编码网络，对所述语音音频特征进行自编码，将所述编码网络的输出作为所述语音音频特征对应的语音高维卷积特征；其中，所述卷积自编码网络通过以下过程得到：获取歌词录音训练数据和歌声录音训练数据，并从所述歌词录音训练数据中提取语音音频训练特征，从所述歌声录音训练数据中提取歌声音频训练特征；通过所述语音音频训练特征和所述歌声音频训练特征，训练待训练音频网络，得到所述卷积自编码网络；

训练特征获取模块，用于根据所述卷积自编码网络，获取所述语音音频训练特征对应的语音高维卷积训练特征，及所述歌声音频训练特征对应的歌声高维卷积训练特征；

全连接网络训练模块，用于训练所述语音高维卷积训练特征、所述歌声高维卷积训练特征和预设的乐谱训练数据对应的乐谱训练特征，得到全连接神经网络；

耦合处理模块，用于利用所述全连接神经网络，对所述乐谱特征和所述语音高维卷积特征进行耦合处理，得到歌声高维卷积特征；

歌声解码处理模块，用于利用所述预先训练好的卷积自编码网络中的解码网络，对所述歌声高维卷积特征进行解码，将所述解码网络的输出作为歌声音频特征；

歌声还原处理模块，用于对所述歌声音频特征进行音频还原处理，得到合成歌声。

6.根据权利要求5所述的装置，其特征在于，所述特征提取模块包括：

预处理单元，用于对所述歌词录音数据进行分帧加窗处理，得到录音特征数据；

频谱变换单元，用于对所述录音特征数据进行频谱变换，得到语音音频特征。

7.根据权利要求5所述的装置，其特征在于，所述特征提取模块包括：

音符特征数据单元，用于从所述乐谱数据中提取音符特征数据；

音符编码单元，用于对所述音符特征数据进行特征编码处理，得到音符特征编码；

编码连接单元，用于连接所述音符特征编码，得到乐谱特征。

8.根据权利要求5至7任意一项所述的装置，其特征在于，所述歌声还原处理模块包括：

频谱逆处理单元，用于对所述歌声音频特征进行频谱逆变换，得到歌声音频数据；

按窗合帧单元，用于对所述歌声音频数据进行分帧加窗逆处理，得到合成歌声。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。