CN110148394A

CN110148394A - 歌声合成方法、装置、计算机设备及存储介质

Info

Publication number: CN110148394A
Application number: CN201910345012.0A
Authority: CN
Inventors: 王健宗; 曾振; 罗剑
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-20
Anticipated expiration: 2039-04-26
Also published as: CN110148394B

Abstract

本发明公开一种歌声合成方法、装置、计算机设备及存储介质，该歌声合成方法包括：对待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，按照第一时间标签的顺序，将待合成乐谱特征输入到目标时间模型中进行识别，获取每一待合成音节对应的识别时间信息；将待合成乐谱特征和待合成音节对应的识别时间信息输入到目标基频模型中进行识别，获取每一待合成音节对应的识别基频特征；将待合成乐谱特征、每一待合成音节对应的识别时间信息和每一待合成音节对应的识别基频特征输入到目标音色模型中进行识别，获取待合成音节对应的识别音色特征；采用语音处理工具对识别基频特征和识别音色特征进行逐帧合成，获取目标音频，该方法可有效提高歌声合成精度。

Description

歌声合成方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种歌声合成方法、装置、计算机设备及存储介质。

背景技术

随着信息技术的不断创新和完善，许多人机交互方面的音乐多媒体应用也逐渐走入我们的日常生活，例如计算机点歌、谱曲、修饰歌声，以及手机上的听歌识曲等。如何使计算机更加人性化，能够像人类一样“唱歌”，已经成为一种新的需求。目前，传统的歌声合成技术是基于波形拼接来实现，其核心是预先录制每个音节在不同音高的唱法，然后按照歌词和乐谱将预先录制好的音节音频拼接起来，但这项技术在拼接部分极易产生波形扭曲，造成声音不自然，另外，波形拼接依赖于非常庞大的录音数据，这就需要耗费时间与人力来收集歌曲录音数据。相比之下，基于声学参数的歌声合成技术就能很好的避免这些问题，但是它需要构建合适的声学模型来学习音节、乐谱与歌声发音规律之间的规律。传统的声学模型是基于隐马尔可夫模型实现，隐马尔可夫模型作为一种统计模型，它是以训练数据中的一些统计特征作为模型参数，不能很好的学习到乐谱音高与发音线性相关规律。

发明内容

本发明实施例提供一种歌声合成方法、装置、计算机设备及存储介质，以解决目前采用统计模型进行歌声合成准确度不高的问题。

一种歌声合成方法，包括：

获取待合成乐谱，对所述待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，所述待合成乐谱特征包括待合成音节和对应的第一时间标签；

按照所述第一时间标签的顺序，将所述待合成乐谱特征输入到目标时间模型中进行识别，获取每一所述待合成音节对应的识别时间信息；

将所述待合成乐谱特征和所述待合成音节对应的识别时间信息输入到目标基频模型中进行识别，获取每一所述待合成音节对应的至少一帧识别基频特征；

将所述待合成乐谱特征、每一所述待合成音节对应的识别时间信息和每一所述待合成音节对应的识别基频特征输入到目标音色模型中进行识别，获取所述待合成音节对应的至少一帧识别音色特征；

采用语音处理工具对所述识别基频特征和所述识别音色特征进行逐帧合成处理，获取目标音频。

一种歌声合成装置，包括：

待合成乐谱特征获取模块，用于获取待合成乐谱，对所述待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，所述待合成乐谱特征包括待合成音节和对应的第一时间标签；

识别时间信息获取模块，用于按照所述第一时间标签的顺序，将所述待合成乐谱特征输入到目标时间模型中进行识别，获取每一所述待合成音节对应的识别时间信息；

识别基频特征获取模块，用于将所述待合成乐谱特征和所述待合成音节对应的识别时间信息输入到目标基频模型中进行识别，获取每一所述待合成音节对应的至少一帧识别基频特征；

识别音色特征获取模块，用于将所述待合成乐谱特征、每一所述待合成音节对应的识别时间信息和每一所述待合成音节对应的识别基频特征输入到目标音色模型中进行识别，获取所述待合成音节对应的至少一帧识别音色特征；

目标音频获取模块，用于采用语音处理工具对所述识别基频特征和所述识别音色特征进行逐帧合成处理，获取目标音频。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述歌声合成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述歌声合成方法的步骤。

上述歌声合成方法、装置、计算机设备及存储介质歌声合成中，通过获取待合成乐谱，对待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，以便根据待合成乐谱特征中每一待合成音节对应的第一时间标签的顺序，将待合成乐谱特征输入到目标时间模型中，以使目标时间模型根据待合成乐谱特征预测每一待合成音节对应的识别时间信息，再将待合成乐谱特征和待合成音节对应的识别时间信息输入到目标基频模型中进行识别，以使目标基频特征模型根据待合成乐谱特征和待合成音节对应的识别时间信息逐帧预测与每一待合成音节对应的至少一帧识别基频特征，以便将待合成乐谱特征和每一待合成音节对应的至少一帧识别基频特征输入到目标音色模型中进行识别，以使目标音色模型根据合成乐谱特征和每一待合成音节对应的至少一帧识别基频特征逐帧预测每一待合成音节对应的至少一帧识别音色特征，最后，采用语音处理工具对识别基频特征和识别音色特征进行逐帧合成处理，获取目标音频，以提高目标音频能够更加贴合实际人类发出的声音，提高歌声合成的精准度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中歌声合成方法的一应用环境示意图；

图2是本发明一实施例中歌声合成方法的一流程图；

图3是图2中步骤S10的一具体流程图；

图4是本发明一实施例中歌声合成方法的一流程图；

图5是本发明一实施例中歌声合成方法的一流程图；

图6是本发明一实施例中歌声合成方法的一流程图；

图7是本发明一实施例中歌声合成装置的一示意图；

图8是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的歌声合成方法可应用在一种歌声合成系统中，用于采用深度学习乐谱音高与发音线性相关规律的发音规律，以进行歌声合成，提高歌声合成的精准度。该歌声合成方法可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

在一实施例中，如图2所示，提供一种歌声合成方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取待合成乐谱，对待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，待合成乐谱特征包括待合成音节和对应的第一时间标签。

其中，待合成乐谱是用户通过歌声合成系统中提供的信息采集模块选择或上传的需要进行歌声合成的乐谱。待合成音节是指待合成乐谱对应歌词的音节，音节是由一个或几个音素组成的语音单位。例如：待合成乐谱对应的歌词为我爱你，其对应的待合成音节为wo、ai、ni。第一时间标签是指待合成乐谱中每一待合成音节对应发音的时间标签，也可理解为歌词顺序标签。待合成乐谱特征是指从待合成乐谱中提取出来的曲谱特征，包括但不限于待合成乐谱中的“音调”、“谱号”、“拍号”、“速度”以及每个音符的“音高”、“时长”、“声部”、“音符类型”和“歌词文本”等特征信息，这些信息均被记录于musicxml格式的待合成乐谱中。musicxml格式文件是一种关于音乐标记的特殊xml文件。

具体地，用户可通过歌声合成系统中提供的信息采集模块进行本地上传原创歌曲或选择系统中预先存储的乐谱列表，并上传至服务器，以使服务器获取待合成乐谱。然后，对待合成乐谱进行特征提取，以获取待合成乐谱特征，以便后续将待合成乐谱特征作为模型输入进行识别。

S20：按照第一时间标签的顺序，将待合成乐谱特征输入到目标时间模型中进行识别，获取每一待合成音节对应的识别时间信息。

其中，目标时间模型是预先采用因果卷积神经网络训练好的用于根据待合成乐谱特征预测待合成乐谱特征中每一待合成音节对应的识别时间信息的模型。识别时间信息是采用目标时间模型对待合成乐谱特征进行预测所得到的输出结果。本实施例中，该识别时间信息包括每一待合成音节的发音时长和发音起始时间。

其中，因果卷积神经网络(WaveNet)是一个时间序列预测模型，它每一时刻的预测值不仅与当前的模型输入有关，还与以往的预测值有关。声音文件也即待合成乐谱是时间上的一维数组也即一组时间序列，不可采用普通卷积神经网络进行训练，故本实施例中通过采用因果卷积神经网络训练模型，以提高后续歌声合成的精度。

具体地，将待合成乐谱特征按照每一待合成音节在待合成乐谱中的第一时间标签的顺序输入至目标时间模型中进行识别，以获取每一待合成音节的所对应的识别时间信息即发音时长和发音起始时间，为后续识别基频特征提供技术来源。

S30：将待合成乐谱特征和待合成音节对应的识别时间信息输入到目标基频模型中进行识别，获取每一待合成音节对应的至少一帧识别基频特征。

其中，识别基频特征是指通过目标基频模型对待合成乐谱特征和待合成音节对应的识别时间信息进行识别所得到的待合成音节对应的基频特征。基频特征是一种反映声带的大小、厚薄、松紧程度，声门上下之间的气压差的效应以及声调变化的声学特征。目标基频模型是预先采用因果卷积神经网络训练好的用于根据待合成乐谱特征和待合成音节对应的识别时间信息预测待合成乐谱特征中每一待合成音节对应的至少一帧识别基频特征的模型。

具体地，将待合成乐谱特征和待合成音节对应的识别时间信息输入至目标时间模型中进行识别，以使目标基频模型根据待合成音节对应的识别时间信息截取的录音片段逐帧预测每一帧识别基频特征，以获取每一待合成音节所对应的至少一帧识别基频特征，为后续识别音色特征提供技术来源。

S40：将待合成乐谱特征、每一待合成音节对应的识别时间信息和每一待合成音节对应的识别基频特征输入到目标音色模型中进行识别，获取待合成音节对应的至少一帧识别音色特征。

其中，识别音色特征是指通过目标音色模型对待合成乐谱特征、每一待合成音节对应的识别时间信息和每一待合成音节对应的识别基频特征进行识别所得到的待合成音节对应的音色特征。音色特征是一种反映发声体或结构特性的声学特征。根据不同的音色，即使在同一音高和同一声音强度的情况下，也能区分出是不同乐器或人发出的声音。目标音色模型是预先采用因果卷积神经网络用于根据待合成乐谱特征和待合成音节对应的识别基频特征预测待合成乐谱特征中每一待合成音节对应的至少一帧识别音色特征的模型。

具体地，将待合成乐谱特征和每一待合成音节对应的识别基频特征输入到目标音色模型中进行识别，以使目标音色模型根据待合成乐谱特征和每一待合成音节对应的至少一帧识别基频特征预测每一帧识别音色特征，以获取待合成音节对应的至少一帧识别音色特征，为后续进行歌声合成提供技术来源。

S50：采用语音处理工具对识别基频特征和识别音色特征进行逐帧合成处理，获取目标音频。

具体地，由于识别基频特征和识别音色特征能够反映声音的特性，因此本实施例中，采用语音处理工具对识别基频特征和识别音色特征进行逐帧合成处理，获取目标音频，以提高目标音频能够更加贴合实际人类发出的声音，提高歌声合成的精准度。

本实施例中，通过获取待合成乐谱，对待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，以便根据待合成乐谱特征中每一待合成音节对应的第一时间标签的顺序，将待合成乐谱特征输入到目标时间模型中，以使目标时间模型根据待合成乐谱特征预测每一待合成音节对应的识别时间信息，再将待合成乐谱特征和待合成音节对应的识别时间信息输入到目标基频模型中进行识别，以使目标基频特征模型根据待合成乐谱特征和待合成音节对应的识别时间信息逐帧预测与每一待合成音节对应的至少一帧识别基频特征，以便将待合成乐谱特征和每一待合成音节对应的至少一帧识别基频特征输入到目标音色模型中进行识别，以使目标音色模型根据合成乐谱特征和每一待合成音节对应的至少一帧识别基频特征逐帧预测每一待合成音节对应的至少一帧识别音色特征，最后，采用语音处理工具对识别基频特征和识别音色特征进行逐帧合成处理，获取目标音频，以使目标音频能够更加贴合实际人类发出的声音，提高歌声合成的精准度。

在一实施例中，如图3所示，步骤S10，即对待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，具体包括如下步骤：

S11：采用文件解析方法对待合成乐谱进行解析，获取与待合成乐谱相对应的音符信息。

其中，文件解析方法是用于对待合成乐谱进行解析，获取与待合成乐谱相对应的音符信息的解析方法。

本实施例中，文件解析方法包括但不限于采用DOM4J方法对muxisxml格式的电子乐谱进行解析。Dom4j是目前最流行和最好用的XML解析工具，解析XML的速度最快。具体地，待合成乐谱中包括根节点和子节点，通过采用Dom4j方法按照从根节点开始遍历待合成乐谱中根节点下的每一子节点，以获取每一子节点对应的子节点信息也即音符信息，该子节点信息可包括电子乐谱中每一音符对应的属性信息(即音符信息)，如“音调”、“谱号”、“拍号”、“速度”以及每个音符的“音高”、“时长”、“声部”、“音符类型”和“歌词文本”等。本实施例中只需提取其中的部分音符信息，即提取出的音符信息为“C5-2-4-wo”,其具体含义就是该音符的音高为“C5”，时长为“2”个单位(乐谱文件的会预先规定一个单位具体是多少时长)，音符类型为“1/4音符”,音节(歌词)为“wo”(拼音)。

S12：采用预设编码规则对音符信息进行编码，获取每一音符信息相对应的待合成乐谱特征。

具体地，由于上述示例中，音符信息中的“C5”和“wo”，这两种特征信息的表达方式不可作为模型输入，因此需预先设定编码规则，对这两种特征信息进行特征编码，才可作为模型的输入。其中，预设编码规则是预先设定的用于对音符信息进行特征编码的规则。例如，可将“C5”中的字母C(音阶)以阿拉伯数字的顺序进行编码，即乐理中的A-G对应数字1-7，“wo”可按照中文字符集编码进行编写。需要说明的是，此编码规则可按实际需要自行调整或编写，在此不做限定。本实施例中，通过采用预设编码规则对音符信息进行编码，以形成特征向量即为待合成乐谱特征，以便后续作为模型的输入。

本实施例中，通过采用文件解析方法对待合成乐谱进行解析，以快速获取与待合成乐谱相对应的音符信息，以便采用预设编码规则对音符信息进行编码，以形成特征向量即为待合成乐谱特征，为后续模型输入提供技术来源。

在一实施例中，如图4所示，步骤S10之前，该歌声合成方法还包括如下步骤：

S111：获取电子乐谱和预先标记的电子乐谱中每一训练音节对应的标注时间信息。

其中，电子乐谱是指专业音乐人士根据目前公开的歌曲旋律通过歌谱软件(如MuseScore)进行谱写的五线谱，以使模型结果更加贴合实际。具体地，电子乐谱的具体格式可包括musicxml格式(xml文件)或者MIDI格式(二进制文件)。本实施例中，具体采用musicxml格式文件的电子乐谱，musicXML是一种关于音乐标记(music notition)的特殊xml文件，其与MIDI格式的文件相比具有如下优点：1、一方面它可以替代MIDI文件，记录时间和事件序列，指导发声；另一方面，也可以记录图形显示相关的内容，帮助显示；同时，在乐曲和弦以及旋律等方面也有所涉及，协助分析乐曲。2、结构化且接口方便。由于各种需要标记的元素是以标记的形式保存的，而不是以属性的形式报存的，保证了等级有序性，且作为一种xml(extended markup language)文件，可以文本形式打开，通过文件读取接口读取，与二进制文件的读取相比，更加简单。可理解地，将专业音乐人士制作好的电子乐谱通过歌谱软件导出即可获取musicxml格式的电子乐谱。

具体地，专业歌手根据电子乐谱进行演唱，以获取音频文件，可理解地，该音频文件只包含人声。专业音乐人士通过仔细倾听音频文件，以便对电子乐谱中每一训练音节所对应的时间区间进行标记，以获取电子乐谱中每一音节的实际发音时长和起始时间即每一音节对应的标注时间信息。

S112：对电子乐谱进行乐谱特征提取，获取训练乐谱特征，训练乐谱特征包括训练音节和对应的第二时间标签。

其中，训练乐谱特征是指是指从电子乐谱中提取出来的曲谱特征。包括但不限于电子乐谱中的“音调”、“谱号”、“拍号”、“速度”以及每个音符的“音高”、“时长”、“声部”、“音符类型”和“歌词文本”等特征信息。训练音节是是指电子乐谱对应歌词的音节，第二时间标签是指电子乐谱中每一训练音节对应的发音时间，也可理解为歌词顺序标签。

具体地，对电子乐谱进行乐谱特征提取，获取训练乐谱特征的提取过程与步骤S10的提取过程一致，为避免重复，在此不再赘述。

S113：按照第二时间标签的顺序，将训练音节和对应的标注时间信息输入到因果卷积神经网络中进行训练，获取原始时间模型。

S114：对原始时间模型进行测试，获取第一测试结果，若第一测试结果大于第一阈值，则获取目标时间模型。

其中，第一测试结果是对原始时间模型进行测试所得到的测试结果。第一阈值是用于判断原始时间模型是否符合标准的阈值。具体地，对原始时间模型进行测试是指将若干个训练乐谱特征输入至原始时间模型得到对应的输出，以统计实际输出结果正确(即实际输出结果与标准输出相同或相似，相似的判断标准可采用R相关性判断，在此不做限定)的概率即为第一测试结果。

本实施例中，因果卷积神经网络包括输入层、隐藏层和输出层，隐藏层包括预设扩张系数，输出层包括残差块。

可理解地，由于因果卷积神经网络的每一时刻的预测值与以往的预测值有关，故为了更多的拟合以往的观测值，一般可通过增加卷积网络层数以实现，但由于卷积网络层数增加会导致梯度消失，训练复杂以及拟合效果差的问题，故本实施例中，为了更多的拟合以往的观测值，且不增加卷积网络层数的情况下，通过对因果卷积神经网络增加扩张系数，以实现不通过池化层降维即可增大因果卷积神经网络的感受野的目的，并可有效解决池化层降维导致信息丢失的问题，使网络能够更多的拟合以往的观测值，增强声音的连续性，提供后续歌声合成的精度。

本实施例中，因果卷积网络可设置N个隐藏层，且每一隐藏层对应不同的预设扩张系数，例如1,2,4,8,16,32,64,128,256,512……。其中，预设扩张系数是指感受野的扩大倍数。感受野即为卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。可理解地，因果卷积网络不包含传统卷积网络中的池化层，只需通过在每一隐藏层对应设置不同的预设扩张系数，即可扩大感受野，无需增加网络层数。

可理解地，当网络层数加深时，网络的表现越来越差，很大程度上的原因是因为当层数加深时，梯度消散得越来越严重，以至于反向传播很难训练到浅层的网络，为了解决此问题，本实施例中的因果卷积神经网络还会通过在因果卷积神经网络的输出层构建残差块，以形成残差神经网络，解决在模型层数加深时，容易造成梯度消失，导致模型训练准确率大大降低的问题。具体地，本实施例中的残差神经网络可采用多层的残差神经网络，且残差神经网络的状态通道数为与因果卷积神经网络的状态通道相同，以统一输入、输出维度，以避免维度不同导致需额外计算量以统一维度的问题，加快训练速度。其中，残差块是指每两个卷积层、恒等映射以及激活函数所组成的残差块。恒等映射是指将期望输出直接跳转加入到另外一层激活函数处理前的输出层中，然后再进行激活处理，以获取第二卷积层的输出并通过输出层输出，例如，x表示标准输出，F(x)表示残差块在第二卷积层激活函数之前的输出，H(x)表示第二卷积层在激活函数之前的输出，F(x)＝W2σ(W1x)，其中，W1和W2表示第一卷积层和第二卷积层的权重，σ表示ReLU激活函数，恒等映射即H(x)＝F(x)+x。

具体地，将电子乐谱特征作为模型输入，将音节序列中的每一训练音节对应的标注时间信息作为模型标准输出，并按照电子乐谱的音符顺序即每一训练音节的第二时间标签顺序输入至因果卷积神经网络进行训练，获取原始时间模型，再对原始时间模型进行测试，获取第一测试结果，若第一测试结果大于第一阈值，则获取目标时间模型，以使实际输出尽可能接近标准输出(即第一测试结果大于第一阈值)，该目标时间模型是用于预测每一音节对应的时间信息(即每一音节对应的发音时长和起始时间)的模型。

本实施例中，先获取电子乐谱和预先标记的电子乐谱中每一训练音节对应的标注时间信息即模型标准输出。再对电子乐谱进行乐谱特征提取，以获取向量化表示的训练乐谱特征，便于模型计算。最后，按照第二时间标签的顺序，将训练乐谱特征中的训练音节和对应的标注时间信息输入到因果卷积神经网络中进行训练，再对原始时间模型进行测试，获取目标时间模型，为歌声合成的实现提供技术支持。

在一实施例中，如图5所示，步骤S111之后中，该歌声合成方法还包括如下步骤：

S211：获取与电子乐谱相对应的原始音频信息。

其中，原始音频信息是指专业歌手根据电子乐谱进行录制的只包含人声的未经处理过的音频信息。具体地，专业歌手可根据电子乐谱进行演唱，通过系统提供的录音设备(如麦克风)采集歌手录制的歌声并保存成音频文件也即原始音频信息上传至服务器，以使服务器获取原始音频信息。本案中，原始音频信息的格式为“单声道48KHz”的wav音频。可理解地，原始音频信息只录制人声，不包括伴奏等与人声无关的声音，尽量避免环境噪声。

S212：基于每一训练音节对应的标注时间信息对原始音频信息进行截取，获取每一训练音节相对应的第一音频信息。

具体地，服务器基于每一训练音节对应的标注时间信息对原始音频信息进行截取，获取与电子乐谱相对应的第一音频信息即与每一音节相关的录音片段即每一训练音节相对应的第一音频信息，以便后续针对每一训练音节对应的录音片段进行训练。

S213：对第一音频信息进行降噪处理，获取第二音频信息。

具体地，由于采集到的第一音频信息一般都带有噪声，包括背景环境中的噪声以及录音设备(如，麦克风)录音过程中产生的噪声。这些携带噪声的第一音频信息在后续进行特征提取时，会影响特征提取准确性，因此，需要对第一音频信息进行降噪处理，以排除噪声干扰，从该第一音频信息中尽可能提取到更纯净的第一音频信息，使特征提取获得的声学特征(即基频特征和音色特征)更加准确。其中，对第一音频信息进行降噪的方法包括但不限于采用谱减法、EEMD分解算法和SVD奇异值算法等。

S214：对第二音频信息进行预加重和分帧处理，获取每一训练音节对应的至少一帧目标音频信息。

其中，预加重是第二音频信息通过一个高通滤波器H(Z)＝1-μz^-1，其中，μ值介于0.9-1.0之间，Z表示第二音频信息，分帧是将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20-30ms左右。为避免相邻两帧的变化过大，通过使相邻两帧之间有一段重叠区域，此重叠区域包含了M个采样点，通常M的值约为N的1/2或1/3，此过程称为分帧。具体地，首先对第二音频信息进行预加重，以提升第二音频信息中的高频音量，使信号的频谱更平滑，突出高频的共振峰。然后再对预加重后的第二音频信息进行分帧，获取至少一帧目标音频信息，以减少第二音频信息整体的非稳态和时变的影响，提高后续声学特征(即基频特征和音色特征)提取的准确率。

S215：采用语音处理工具对每一训练音节对应的至少一帧目标音频信息进行特征提取，获取每一训练音节对应的标准基频特征。

其中，语音处理工具(Speech Processing Tool Kit，SPTK)是用于进行语音信号处理的开源工具包，包括基频提取、LPC分析与合成、MGCC(音色特征)参数估计与波形合成等多种用于语音信号处理的基本工具，本实施例中，采用语音处理工具对每一训练音节对应的至少一帧目标音频信息进行特征提取，以获取每一训练音节对应的标准基频特征，为后续进行目标基频模型训练提供技术来源。

S216：按照第二时间标签的顺序，将训练乐谱特征、每一训练音节对应的标注时间信息和每一训练音节对应的标准基频特征输入到因果卷积神经网络中进行训练，获取原始基频模型。

S217：对原始基频模型进行测试，获取第二测试结果，若第二测试结果大于第二阈值，则获取目标基频模型。

其中，第二测试结果是对原始基频模型进行测试所得到的测试结果。第二阈值是用于判断原始基频模型是否符合标准的阈值。具体地，对原始基频模型进行测试的测试过程与原始时间模型的测试过程一致，为避免重复，再次不再赘述。

具体地，模型在进行训练时会根据每一训练音节对应的录音片段进行训练，并将该段录音对应的标准基频特征作为模型的标准输出输入因果卷积神经网络进行训练，获取原始基频模型，再对原始基频模型进行测试，获取第二测试结果，若第二测试结果大于第二阈值，则获取目标基频模型，以使实际输出尽可能接近标准输出(即第二测试结果大于第二阈值)，该目标基频模型是用于逐帧预测原始音频信息中每一音节对应的基频特征。需要说明的是，本实施例中的因果卷积神经网络结构与步骤S113中的因果卷积神经网络结构保持一致。

本实施例中，服务器通过获取与电子乐谱相对应的只包含人声的原始音频信息，以便基于每一训练音节对应的标注时间信息对原始音频信息截取对应的录音片段，以获取每一训练音节相对应的第一音频信息，以得到模型训练的标准输出，由于第一音频信息带有噪声，故还需对对第一音频信息进行降噪处理，获取第二音频信息，以排除噪声干扰，提高训练的准确率，然后，再对对第二音频信息进行预加重和分帧处理，以获取更加平滑的语音数据即目标音频信息，进一步提高模型训练的准确率。接着，采用语音处理工具对每一训练音节对应的至少一帧目标音频信息进行特征提取，获取每一训练音节对应的标准基频特征，以便将训练乐谱特征和每一训练音节对应的标注时间信息作为模型的输入，每一训练音节对应的标准基频特征作为模型的标准输出输入到因果卷积神经网络中进行训练，再对原始基频模型进行测试，以获取目标基频模型，以实现声学特征的预测，为歌声合成提供技术支持。

在一实施例中，如图6所示，步骤S214之后中，该歌声合成方法还包括如下步骤：

S311：采用语音处理工具对每一训练音节对应的至少一帧目标音频信息进行特征提取，获取每一训练音节对应的标准音色特征。

其中，语音处理工具与步骤S215中的语言处理工具一致，具体地，采用语音处理工具对每一训练音节对应的至少一帧目标音频信息进行特征提取，获取每一训练音节对应的标准音色特征，为后续进行目标音色模型训练提供技术来源。

S312：按照第二时间标签的顺序，将训练乐谱特征、每一训练音节对应的识别时间信息、每一训练音节对应的基频特征和每一训练音节对应的标准音色特征输入到因果卷积神经网络中进行训练，获取原始音色模型。

S313：对原始音色模型进行测试，获取第三测试结果，若第三测试结果大于第三阈值，则获取目标音色模型。

其中，第三测试结果是对原始基频模型进行测试所得到的测试结果。第三阈值是用于判断原始音色模型是否符合标准的阈值。具体地，对原始音色模型进行测试的测试过程与原始时间模型的测试过程一致，为避免重复，再次不再赘述。

具体地，模型在进行训练时会将乐谱特征和每一音节对应的N帧基频特征作为模型的输入，将该音节对应的每一帧标准音色特征作为模型的标准输出，以输入至因果卷积神经网络中进行训练，获取原始音色模型，再对原始音色模型进行测试，获取第三测试结果，若第三测试结果大于第三阈值，则获取目标音色模型，以让实际输出尽可能接近标准输出(即第三测试结果大于第三阈值)。需要说明的是，本实施例中的因果卷积神经网络结构与步骤S113中的因果卷积神经网络结构保持一致。

本实施例中，通过采用语音处理工具对每一训练音节对应的至少一帧目标音频信息进行特征提取，以获取每一训练音节对应的至少一帧标准音色特征，再将训练乐谱特征、每一训练音节对应的基频特征和每一训练音节对应的识别时间信息作为模型的输入，将每一训练音节对应的至少一帧标准音色特征作为模型的标准输出，按照第二时间标签的顺序输入至因果卷积神经网络中进行训练，再对原始音色模型进行测试，获取目标音色模型，以实现声学特征的预测，为歌声合成提供技术支持。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种歌声合成装置，该歌声合成装置与上述实施例中歌声合成方法一一对应。如图7所示，该歌声合成装置包括待合成乐谱特征获取模块10、识别时间信息获取模块20、识别基频特征获取模块30、识别音色特征获取模块40和目标音频获取模块50。各功能模块详细说明如下：

待合成乐谱特征获取模块10，用于获取待合成乐谱，对待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，待合成乐谱特征包括待合成音节和对应的第一时间标签。

识别时间信息获取模块20，用于按照第一时间标签的顺序，将待合成乐谱特征输入到目标时间模型中进行识别，获取每一待合成音节对应的识别时间信息。

识别基频特征获取模块30，用于将待合成乐谱特征和待合成音节对应的识别时间信息输入到目标基频模型中进行识别，获取每一待合成音节对应的至少一帧识别基频特征。

识别音色特征获取模块40，用于将待合成乐谱特征、每一待合成音节对应的识别时间信息和每一待合成音节对应的识别基频特征输入到目标音色模型中进行识别，获取待合成音节对应的至少一帧识别音色特征。

目标音频获取模块50，用于采用语音处理工具对识别基频特征和识别音色特征进行逐帧合成处理，获取目标音频。

具体地，待合成乐谱特征获取模块10包括音符信息获取单元11和待合成乐谱特征获取单元12。

音符信息获取单元11，用于采用文件解析方法对待合成乐谱进行解析，获取与待合成乐谱相对应的音符信息。

待合成乐谱特征获取单元12，用于采用预设编码规则对音符信息进行编码，获取每一音符信息相对应的待合成乐谱特征。

具体地，该歌声合成装置包括数据获取单元、特征提取单元、原始时间模型获取单元和目标时间模型获取单元。

数据获取单元，用于获取电子乐谱和预先标记的电子乐谱中每一训练音节对应的标注时间信息。

特征提取单元，用于对电子乐谱进行乐谱特征提取，获取训练乐谱特征，训练乐谱特征包括训练音节和对应的第二时间标签。

原始时间模型获取单元，用于按照第二时间标签的顺序，将训练音节和对应的标注时间信息输入到因果卷积神经网络中进行训练，获取原始时间模型。

目标时间模型获取单元，对原始时间模型进行测试，获取第一测试结果，若第一测试结果大于第一阈值，则获取目标时间模型。

具体地，该歌声合成装置还包括原始音频信息获取单元、第一音频信息获取单元、第二音频信息获取单元、目标音频信息获取单元、标准基频特征获取单元、原始基频模型获取单元和目标基频模型获取单元。

原始音频信息获取单元，用于获取与电子乐谱相对应的原始音频信息。

第一音频信息获取单元，用于基于每一训练音节对应的标注时间信息对原始音频信息进行截取，获取每一训练音节相对应的第一音频信息。

第二音频信息获取单元，用于对第一音频信息进行降噪处理，获取第二音频信息。

目标音频信息获取单元，用于对第二音频信息进行预加重和分帧处理，获取每一训练音节对应的至少一帧目标音频信息。

标准基频特征获取单元，用于采用语音处理工具对每一训练音节对应的至少一帧目标音频信息进行特征提取，获取每一训练音节对应的标准基频特征。

原始基频模型获取单元，用于按照第二时间标签的顺序，将训练乐谱特征、每一训练音节对应的标注时间信息和每一训练音节对应的标准基频特征输入到因果卷积神经网络中进行训练，获取原始基频模型。

目标基频模型获取单元，用于对原始基频模型进行测试，获取第二测试结果，若第二测试结果大于第二阈值，则获取目标基频模型。

具体地，该歌声合成装置还包括标准音色特征获取单元、原始音色模型获取单元和目标音色模型获取单元。

标准音色特征获取单元，用于采用语音处理工具对每一训练音节对应的至少一帧目标音频信息进行特征提取，获取每一训练音节对应的标准音色特征。

原始音色模型获取单元，用于按照第二时间标签的顺序，将训练乐谱特征、每一训练音节对应的识别时间信息、每一训练音节对应的基频特征和每一训练音节对应的标准音色特征输入到因果卷积神经网络中进行训练，获取原始音色模型。

目标音色模型获取单元，用于对原始音色模型进行测试，获取第三测试结果，若第三测试结果大于第三阈值，则获取目标音色模型。

关于歌声合成装置的具体限定可以参见上文中对于歌声合成方法的限定，在此不再赘述。上述歌声合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机可读存储介质、内存储器。该计算机可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行歌声合成方法过程中生成或获取的数据，如待训练图像。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种歌声合成方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的歌声合成方法的步骤，例如图2所示的步骤S10-S50，或者图3至图6中所示的步骤。或者，处理器执行计算机程序时实现歌声合成装置这一实施例中的各模块/单元的功能，例如图7所示的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中用户帐号解锁方法的步骤，例如图2所示的步骤S10-S50，或者图3至图6中所示的步骤，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述歌声合成装置这一实施例中的各模块/单元的功能，例如图7所示的各模块/单元的功能，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种歌声合成方法，其特征在于，包括：

2.如权利要求1所述歌声合成方法，其特征在于，所述对所述待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，包括：

采用文件解析方法对所述待合成乐谱进行解析，获取与所述待合成乐谱相对应的音符信息；

采用预设编码规则对所述音符信息进行编码，获取每一音符信息相对应的待合成乐谱特征。

3.如权利要求1所述歌声合成方法，其特征在于，在所述获取待合成乐谱之前，所述歌声合成方法还包括：

获取电子乐谱和预先标记的所述电子乐谱中每一训练音节对应的标注时间信息；

对所述电子乐谱进行乐谱特征提取，获取训练乐谱特征，所述训练乐谱特征包括训练音节和对应的第二时间标签；

按照所述第二时间标签的顺序，将所述训练音节和对应的标注时间信息输入到因果卷积神经网络中进行训练，获取原始时间模型；

对所述原始时间模型进行测试，获取第一测试结果，若所述第一测试结果大于第一阈值，则获取所述目标时间模型。

4.如权利要求3所述歌声合成方法，其特征在于，所述歌声合成方法还包括：所述因果卷积神经网络包括输入层、隐藏层和输出层，所述隐藏层包括预设扩张系数，所述输出层包括残差块。

5.如权利要求3所述歌声合成方法，其特征在于，在所述获取电子乐谱和预先标记的所述电子乐谱中每一训练音节对应的标注时间信息之后，所述歌声合成方法还包括：

获取与所述电子乐谱相对应的原始音频信息；

基于每一所述训练音节对应的标注时间信息对所述原始音频信息进行截取，获取每一训练音节相对应的第一音频信息；

对所述第一音频信息进行降噪处理，获取第二音频信息；

对所述第二音频信息进行预加重和分帧处理，获取每一所述训练音节对应的至少一帧目标音频信息；

采用语音处理工具对每一所述训练音节对应的至少一帧目标音频信息进行特征提取，获取每一所述训练音节对应的标准基频特征；

按照所述第二时间标签的顺序，将所述训练乐谱特征、每一所述训练音节对应的标注时间信息和每一所述训练音节对应的所述标准基频特征输入到所述因果卷积神经网络中进行训练，获取原始基频模型；

对所述原始基频模型进行测试，获取第二测试结果，若所述第二测试结果大于第二阈值，则获取目标基频模型。

6.如权利要求5所述歌声合成方法，其特征在于，在所述获取每一所述训练音节对应的至少一帧目标音频信息之后，所述歌声合成方法还包括：

采用语音处理工具对每一所述训练音节对应的至少一帧目标音频信息进行特征提取，获取每一训练音节对应的标准音色特征；

按照所述第二时间标签的顺序，将所述训练乐谱特征、每一所述训练音节对应的识别时间信息、每一所述训练音节对应的所述基频特征和每一所述训练音节对应的标准音色特征输入到所述因果卷积神经网络中进行训练，获取原始音色模型；

对所述原始音色模型进行测试，获取第三测试结果，若所述第三测试结果大于第三阈值，则获取目标音色模型。

7.一种歌声合成装置，其特征在于，包括：

8.如权利要求7所述的歌声合成装置，其特征在于，所述待合成乐谱特征获取模块，包括：

音符信息获取单元，用于采用文件解析方法对所述待合成乐谱进行解析，获取与所述待合成乐谱相对应的音符信息；

待合成乐谱特征获取单元，用于采用预设编码规则对所述音符信息进行编码，获取每一音符信息相对应的待合成乐谱特征。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述歌声合成方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述歌声合成方法的步骤。