CN110364140B

CN110364140B - 歌声合成模型的训练方法、装置、计算机设备以及存储介质

Info

Publication number: CN110364140B
Application number: CN201910500699.0A
Authority: CN
Inventors: 王健宗; 曾振; 罗剑
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2024-02-06
Anticipated expiration: 2039-06-11
Also published as: CN110364140A; WO2020248388A1

Abstract

本申请公开了一种人工智能的歌声合成模型的训练方法、装置、计算机设备以及存储介质，歌声合成模型的训练方法包括：对乐谱数据和歌声数据进行预处理，以提取乐谱数据中的乐谱特征和歌声数据中的第一声学特征参数；将乐谱特征输入歌声合成模型中以生成合成歌声；判断合成歌声在歌声评判模型中的评分值是否低于第一声学特征参数在歌声评判模型中的评分值；若判断为是，则根据合成歌声的评分值对歌声合成模型进行第一模型参数优化，直至优化后的歌声合成模型生成合成歌声的评分值大于等于第一声学特征参数在优化后的歌声评判模型中的评分值为止。通过上述方式，本申请能够提升歌声合成模型的合成效果。

Description

歌声合成模型的训练方法、装置、计算机设备以及存储介质

技术领域

本申请涉及歌唱领域的音频信号处理技术领域，特别是涉及一种歌声合成模型的训练方法、装置、计算机设备以及存储介质。

背景技术

歌声合成技术指通过提供乐谱与歌词，机器自动合成出拟人的歌声的过程。其中，歌声合成的过程与语音合成非常类似，不同之处在于歌声合成引入了乐谱信息，其合成的声音不仅与歌词相关，而且与乐谱也有着很大的联系。同时，由于乐谱信息的引入，数据的复杂度增加，而且歌声的发音规律相比于语音也要更加的复杂多变，因此相较于语音合成，歌声合成的难度大大增加。为了获得更好的歌声合成效果，可以使用更多的歌声数据来训练模型，或者使用更复杂的歌声合成模型。然而，录制歌声数据是需要耗费大量的人力、财力，因此需要研究人员会在模型上不断进行优化。

发明内容

本申请主要解决的技术问题是提供一种歌声合成模型的训练方法、装置、计算机设备以及存储介质，能够解决现有技术中歌声合成模型的训练需要大量耗费人力财力来录制歌声数据的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种歌声合成模型的训练方法，所述歌声合成模型的训练方法包括：对乐谱数据和录制的歌声数据进行预处理，以提取所述乐谱数据中的乐谱特征和所述歌声数据中的第一声学特征参数；将所述乐谱特征输入歌声合成模型中以生成合成歌声；判断所述合成歌声在歌声评判模型中的评分值是否低于所述第一声学特征参数在所述歌声评判模型中的评分值；若判断为是，则根据所述合成歌声的评分值对所述歌声合成模型进行第一模型参数优化，直至优化后的歌声合成模型生成合成歌声的评分值大于等于所述第一声学特征参数在优化后的歌声评判模型中的评分值为止。

其中，所述对乐谱数据和歌声数据进行预处理，以提取所述乐谱数据中的乐谱特征和所述歌声数据中的第一声学特征参数包括：对所述歌声数据进行预加重处理，以使得所述歌声数据的信号频谱平坦；将预加重处理后的所述歌声数据分割成整数帧；获取每一帧所述歌声数据的频谱信息，以得到每一帧所述歌声数据的第一声学特征参数。

其中，所述将所述乐谱特征输入歌声合成模型中以生成合成歌声包括：将所述乐谱特征依序输入歌声合成模型；根据述乐谱特征获取每一帧的第二声学特征参数；将所述第二声学特征参数输入语音合成声码器中以生成所述合成歌声。

其中，所述判断所述合成歌声在歌声评判模型中的评分值是否低于所述第一声学特征参数在所述歌声评判模型中的评分值包括：分别将所述第一声学特征参数和所述第二声学特征参数输入所述歌声评判模型；通过二分类算法将所述第二声学特征参数与所述第一声学特征参数进行区分，以分别获取所述第一声学特征参数和所述第二声学特征参数在所述歌声评判模型中的评分值：将所述第一声学特征参数和所述第二声学特征参数在所述歌声评判模型中的评分值进行比较。

其中，所述根据所述合成歌声的评分值对所述歌声合成模型进行第一模型参数优化包括：根据所述第二声学特征参数的评分值获取所述歌声合成模型的偏差；对所述歌声合成模型进行参数优化以减小所述歌声合成模型的偏差。

其中，所述对所述歌声合成模型进行参数优化以减小所述歌声合成模型的偏差包括：对所述歌声合成模型采用线性回归处理，以使得所述歌声合成模型拟合适度；获取所述模第一模型参数的梯度下降距离；判断所有所述第一模型参数的梯度下降距离是否都小于终止距离；若判断为是，则停止对所述歌声合成模型的所述第一模型参数进行优化；若判断为否，则更新所述第一模型参数。

其中，所述歌声合成模型的训练方法进一步包括：根据所述合成歌声的评分值对所述歌声评判模型进行第二模型参数优化。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种歌声合成模型的训练装置，所述歌声合成装置包括：处理模块，用于对乐谱数据和歌声数据进行预处理，以提取所述乐谱数据中的乐谱特征和所述歌声数据中的第一声学特征参数；生成模块，用于将将所述乐谱特征输入歌声合成模型中以生成合成歌声；判断模块，用于判断所述合成歌声在歌声评判模型中的评分值是否低于所述第一声学特征参数在所述歌声评判模型中的评分值；优化模块，用于在判断所述合成歌声在歌声评判模型中的评分值低于所述第一声学特征参数在所述歌声评判模型中的评分值时，根据所述评分值对所述歌声合成模型进行第一模型参数优化。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机设备，所述计算机设备包括处理器以及存储器，所述存储器中存储有计算机可读指令，所述处理器在工作时执行计算机可读指令以实现上述任一项所述的歌声合成模型的训练方法。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行以实现如上述任一项所述的歌声合成模型的训练方法。

本申请的有益效果是：区别于现有技术的情况，本申请提供一种歌声合成模型的训练方法、装置、计算机设备以及存储介质，通过将乐谱特征输入歌声合成模型进行歌声合成，再获取合成歌声在歌声评判模型中的评分值，将合成歌声的评分值和录制歌声的评分值进行比较，若合成歌声的评分值小于录制歌声的评分值，则根据合成歌声的评分值对歌声合成模型的参数进行优化和调整，以使得合成歌声的评分值大于或者等于录制歌声在歌声评判模型中的评分值，从而不断提升歌声合成模型的合成效果，使得合成歌声更加逼真。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1是本申请歌声合成模型的训练方法一实施方式的流程示意图；

图2是图1中步骤S100一实施方式的流程示意图；

图3是本申请歌声合成模型训练方法一实施方式的框架示意图；

图4是图1中步骤S200一实施方式的流程示意图；

图5是本申请因果卷积网络结构的示意图；

图6是图1中步骤S300一实施方式的流程示意图；

图7是图1中步骤S400一实施方式的流程示意图；

图8是图7中步骤S420一实施方式的流程示意图；

图9是本申请提供的歌声合成模型的训练装置第一实施例的示意框图；

图10是本申请提供的计算机设备实施例的示意框图；

图11是本申请提供的计算机可读存储介质实施例的示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参阅图1，图1为本申请歌声合成模型的训练方法一实施方式的流程示意图，如图1所示，本申请歌声合成模型的训练方法包括如下步骤：

S100，对乐谱数据和录制的歌声数据进行预处理，以提取乐谱数据中的乐谱特征和歌声数据中的第一声学特征参数。

可选地，歌声合成所需的数据主要包括乐谱数据以及歌声数据。其中，本申请中的歌声数据指的是通过歌手录制而成的音频数据，而非通过机器合成的歌声数据，且其预处理流程可以结合图2，图2为本申请步骤S100一实施方式的流程示意图，如图2步骤S100进一步包括如下子步骤：

S110，对歌声数据进行预加重处理，以使得歌声数据的信号频谱平坦。

步骤S110中，对歌声数据进行预加重处理的目的是为了提升歌声数据中的高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿歌声数据(语音信号)受到发音系统所抑制的高频部分，也为了突出高频的共振峰，预加重处理其实是将歌声数据通过一个高通滤波器。

S120，将预加重处理后的歌声数据分割成整数帧。

进一步，将预加重处理后的歌声数据的N个采样点集合成一个观测单位，称为帧。通常情况下N的值可以为256或512，涵盖的时间约为 20～30ms左右。为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N 的1/2或1/3。

可选地，将上述每一帧歌声数据信号进行加窗处理。其中，对于窗函数的选择，应考虑被分析信号的性质与处理要求，本实施例中可以采用矩形窗、三角窗亦称费杰窗、汉宁窗、汉明窗或高斯窗的一种，此处不做具体限定。不同的窗函数对信号频谱的影响是不一样的，主要是因为不同的窗函数，产生泄漏的大小不一样，频率分辨能力也不一样。在本申请一具体实施方式中，窗函数选用汉明窗，将每一帧歌声数据信号分别乘以汉明窗，以增加每一帧左端和右端的连续性。

S130，获取每一帧歌声数据的频谱信息，以得到每一帧歌声数据的第一声学特征参数。

由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同歌声数据信号的特性。所以在乘上汉明窗后，每帧的歌声数据信号还必须再经过快速傅里叶变换以得到在频谱上的能量分布，对分帧加窗后的各帧歌声数据信号进行快速傅里叶变换得到每一帧的频谱信息，从而获取每一帧歌声数据的第一声学特征参数，其中，所述第一声学特征参数至少包括谱线能量、基频特征以及梅尔频率倒谱系数(MFCC)。

其中，谱线能量和梅尔频率倒谱系数的获取是通过如下方式：

谱线能量的获取通过对每一帧歌声数据信号的频谱取模平方得到歌声数据信号的谱线能量。梅尔频率倒谱系数的获取是通过将上面的频谱通过Mel滤波器组得到Mel频谱，通过Mel频谱，可以将线形的自然频谱转换为体现人类听觉特性的Mel频谱，在Mel频谱上面进行倒谱分析，即取对数，做逆变换，实际逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数，获得梅尔频率倒谱系数。

进一步，步骤S100中还包括对乐谱数据的预处理以获得乐谱特征。具体地，系统提取乐谱数据中的歌词、音符音高序列、音符时长序列等信息，接着歌词文本可以通过文本分析程序生成文本标注序列，进而通过训练得到的语音合成模型生成歌词对应的隐马尔科夫模型(HMM) 序列，并进一步从该系列中预测出谱线参数，即告诉处理器(计算机) 这段歌词在说话中是如何发音的。

进一步，由于每个音节的发音时长是有乐谱的音符时长和音符类型共同决定的，所以需要由乐谱给定的音符时长约束来拉伸或者收缩语音的谱特征序列，生成对应歌声的谱特征序列，再由于歌声的基频是有乐谱的音符音高确定的，所以需要由乐谱给定的音符音高和音符时长生成初始的离散阶跃的基频轨迹，通过基频控制模型增加基频过冲、预备动态特征和颤音后，生成对应歌声的基频轨迹，最后使用语音声码器由特征序列和基频轨迹合成出歌声。

S200，将乐谱特征输入歌声合成模型中以生成合成歌声。

请一并结合图3和图4，图3为本申请歌声合成训练方法一实施方式的框架示意图，图4为本申请步骤S200一实施方式的流程示意图，步骤S200进一步包括如下子步骤：

S210，将乐谱特征依序输入歌声合成模型。

将步骤S100中从乐谱数据中提取到的乐谱特征，即根据乐谱数据中的歌词、音符音高序列、音符时长序列等信息生成的HMM序列、谱特征序列等输入至歌声合成模型。

可选地，结合图3本申请中歌声合成系统主要可以包括两个模型，分别是歌声合成模型以及歌声判别式模型。其中，歌声合成模型可以由因果卷积网络(WaveNet)构建。结合图5，图5为本申请因果卷积网络结构的示意图，图5示意了因果卷积神经网络的网络结构，具体包括输入层(Input)、多个隐藏层(Hidden Layer)以及输出层(Output)。其中，WaveNet是一种自回归(autoregression)的深度生成模型，它直接在语音波形层面建模，将波形序列的联合概率分解为条件概率连乘。

可选地，本申请中歌声判别式模型也可以采用因果卷积网络构建，在具体实施方式中，将一段音频数据的声学特征参数逐帧输入该歌声判别式模型中，歌声判别式模型能够给出这段音频数据的自然度评分。其中，评分越高则说明歌声合成模型的合成效果越好，或者表示该声学参数代表的该段音频数据为歌手录制的。

S220，根据乐谱特征获取每一帧的第二声学特征参数。

可选地，将乐谱特征参数依序输入至歌声合成模型中后，会得到每一帧对应的第二声学特征参数。其中，该第二声学特征参数和歌声数据在中的第一声学特征参数相同，且数据处理的过程类似，详见第一声学特征参数的获取过程，此处不再赘述。也即是，本实施例中的第二声学特征参数也包括谱线能量、基频特征以及梅尔频率倒谱系数。

S230，将第二声学特征参数输入语音合成声码器中以生成合成歌声。

可选地，利用语音合成声码器将第二声学特征参数转化成合成歌声。

S300，判断合成歌声在歌声评判模型中的评分值是否低于第一声学特征参数在歌声评判模型中的评分值。

可选地，结合图6，图6为本申请步骤S300一实施方式的流程示意图，如图6步骤S300进一步包括如下子步骤：

S310，分别将第一声学特征参数和第二声学特征参数输入歌声评判模型。

具体地，歌声评判模型一般是对一段歌声或者录音歌声进行自然度评分，数学角度上理解就是一个分类模型，尝试将合成歌声与录制歌声尽可能区分开。

S320，通过二分类算法将第二声学特征参数与第一声学特征参数进行区分，以分别获取第一声学特征参数和第二声学特征参数在歌声评判模型中的评分值。

进一步，歌声评判模型通过二分类算法将第二声学特征参数与第一声学特征参数进行区分，本申请中可以采用的二分类算法包括决策树算法、随机森林算法、朴素贝叶斯以及逻辑回归等等，此处不做具体限定。

可选地，本申请中第一声学特征参数为不是通过合成的歌声的声学特征参数，而是通过录制而成的歌声的声学特征参数，用作评判第二声学特征参数的标准。

可选地，歌声评判模型分别对第一声学特征参数和第二声学特征参数进行评分，以获取二者的评分值。其中，声学特征参数在歌声评判模型中的评分值代表歌声的自然度和拟人度，从而区分机器合成的歌声和歌手录制的歌声。其中，拟人度表示第二声学参数代表的合成歌声与第一声学特征参数代表的歌声数据的相似度。当然，在具体实施方式中，评分值越高则说明歌声越自然。

S330，将第一声学特征参数和第二声学特征参数在歌声评判模型中的评分值进行比较。

可选地，本申请中以第一声学特征参数的评分值作为参考基准，将第二声学特征参数的评分值和第一声学特征参数的评分值作比较，若第二声学特征参数的评分值小于第一声学特征参数的评分值，则合成歌声的自然度和拟人度效果差于录制歌声数据的自然度和拟人度，则此时需要对歌声合成模型进行第一模型参数优化，即进入步骤S400。反之，若判断第二声学特征参数的评分值大于或者等于第一声学特征参数的评分值，则说明该歌声合成模型合成的歌声自然度和拟人度高，表明所述第二声学特征参数与第一声学特征参数的区分度越小，此时可以无需调整歌声合成模型的参数，则进入步骤S500，结束。

S400，则根据合成歌声的评分值对歌声合成模型进行第一模型参数优化,直至优化后的歌声合成模型生成合成歌声的评分值大于等于第一声学特征参数在优化后的歌声评判模型中的评分值为止。

结合图7，图7为本申请步骤S400一实施方式的流程示意图，步骤 S400进一步包括如下子步骤：

S410，根据第二声学特征参数的评分值获取歌声合成模型的偏差。

获取歌声合成模型的偏差：

其中，为录制歌声数据y与合成歌声/>的声学参数均方误差，/>反应了歌声评判模型对合成歌声的评分。

S420，对歌声合成模型进行参数优化以减小所述歌声合成模型的偏差。

本申请中可以采用梯度下降算法优化模型，以让上式的值不断减少，减少合成模型的偏差。

结合图8，图8为本申请步骤S420一实施方式的流程示意图，步骤 S420进一步包括如下子步骤：

在获取第一模型参数的梯度下降距离之前还需要预先对歌声合成模型进行拟合处理，具体地，已知假设函数为：

以及确定对歌声合成模型进行参数优化的损失函数为：

其中，所述假设函数、所述损失函数的选择与优化时应用的梯度下降算法所采用的回归方式相关。当应用线性回归时，所采用的假设函数、损失函数如上式所示。也即采用了不同的回归方式就会有不同的假设函数和损失函数。所述假设函数对应的曲线与数据实际的分布存在差异，使得模型无法拟合(拟合的过程称为回归)，因此需要所述损失函数来弥补，使得模型得出的估计值与实际值之间的差异最小。

其中，θ_i(i＝0,1,2，…，n)为第一模型参数；x_i(i＝0,1,2，…，n)为样本的n个特征。

S421，获取第一模型参数的梯度下降距离。

具体地，具体通过步长α乘以所述损失函数的梯度，其中，其中/>为损失函数的梯度表达式。

S422，判断所有第一模型参数的梯度下降距离是否都小于终止距离。

步骤S422中判断所有第一模型参数θ_i的的梯度下降距离li是否都小于终止距离ε，若判断为是，则进入步骤S423。反之，则进入步骤 S424。

S423，停止对歌声合成模型的第一模型参数进行优化。

当所有所述第一模型参数θ_i的梯度下降距离li小于终止距离ε时，停止对歌声合成模型的所述第一模型参数进行优化。

S424，更新第一模型参数。

可选地，根据梯度下降算法的思想，所述第一模型参数θ_i在i等于1 时取的是峰值。所述第一模型参数θ_i的值会随着梯度下降的次数的增加而逐渐减小，同时梯度下降距离li的取值也会逐渐减小，因此也就能越来越逼近终止距离ε。

按照公式更新所述第一模型参数θ_i。

其中，公式中的等号应当理解成赋值。

通过上述以梯度下降的方式对第一模型参数θ_i进行优化，有利于所述歌声合成模型的拟合，并且避免了所述第一模型参数θ_i错过最佳值，造成歌声合成模型过拟合。

可选地，本申请中的歌声合成模型的训练方法还可以进一步包括根据合成歌声的评分值对歌声评判模型进行第二模型参数优化。

具体地，在本申请中歌声评判模型也采用了因果卷积神经网络，对歌声评判模型进行第二模型参数的优化过程可以参考对歌声合成模型进行第一模型参数优化的过程。需要说明的是，歌声评判模型进行的是梯度上升损失，以尽可能拉大第二声学参数与第一声学特征参数之间的差异，即让录制歌声数据的评分值高，合成歌声的评分值低，且歌声合成模型与歌声评判模型在训练过程中相互竞争，对抗学习，从而不断提升歌声合成模型的合成效果。

上述实施方式中，通过将乐谱特征输入歌声合成模型进行歌声合成，再获取合成歌声在歌声评判模型中的评分值，将合成歌声的评分值和录制歌声的评分值进行比较，若合成歌声的评分值小于录制歌声的评分值，则根据合成歌声的评分值对歌声合成模型的参数进行优化和调整，以使得歌声合成模型合成出的歌声其评分值尽可能的大于或者等于录制歌声在歌声评判模型中的评分值，从而不断提升歌声合成模型的合成效果，使得合成歌声更加逼真。

参阅图9，图9是本申请提供的歌声合成模型的训练装置第一实施例的示意框图，本实施例中的信息生成装置包括处理模块31、生成模块 32、判断模块33及优化模块34。

其中，处理模块31用于对乐谱数据和歌声数据进行预处理，以提取乐谱数据中的乐谱特征和歌声数据中的第一声学特征参数。

具体地，处理模块31用于对歌声数据进行预加重处理，以使得歌声数据的信号频谱平坦；将预加重处理后的歌声数据分割成整数帧；获取每一帧歌声数据的频谱信息，以得到每一帧歌声数据的第一声学特征参数。

生成模块32用于将乐谱特征输入歌声合成模型中以生成合成歌声。

具体地，生成模块32用于将乐谱特征依序输入歌声合成模型；根据乐谱特征获取每一帧的第二声学特征参数；将第二声学特征参数输入语音合成声码器中以生成合成歌声。

判断模块33用于判断合成歌声在歌声评判模型中的评分值是否低于第一声学特征参数在歌声评判模型中的评分值。

具体地，判断模块33用于分别将第一声学特征参数和第二声学特征参数输入歌声评判模型；通过二分类算法将第二声学特征参数与第一声学特征参数进行区分，以分别获取第一声学特征参数和第二声学特征参数在歌声评判模型中的评分值；将第一声学特征参数和第二声学特征参数在歌声评判模型中的评分值进行比较。

优化模块34用于在判断合成歌声在歌声评判模型中的评分值低于所述第一声学特征参数在所述歌声评判模型中的评分值时，根据评分值对歌声合成模型进行第一模型参数优化。

具体地，优化模块34用于根据第二声学特征参数的评分值获取歌声合成模型的偏差；对歌声合成模型进行参数优化以减小歌声合成模型的偏差，包括获取模第一型参数的梯度下降距离；判断所有第一模型参数的梯度下降距离是否都小于终止距离；若判断为是，则停止对歌声合成模型的第一模型参数进行优化；若判断为否，则更新第一模型参数。

可以理解的是，本实施例中处理模块31、生成模块32、判断模块 33及优化模块34与上述第一实施例中步骤S100～步骤S400相对应，具体可参阅上述第一实施例中步骤S100～步骤S400的相关描述，在此不再赘述。

参阅图10，图10是本申请提供的计算机设备实施例的示意框图，本实施例中的计算机设备包括处理器51及存储器52，存储器52中存储有计算机可读指令，处理器51在工作时执行计算机可读指令以实现上述任一实施例中的歌声合成模型的训练方法。

具体的，处理器51用于对乐谱数据和歌声数据进行预处理，以提取乐谱数据中的乐谱特征和歌声数据中的第一声学特征参数；将乐谱特征输入歌声合成模型中以生成合成歌声；判断合成歌声在歌声评判模型中的评分值是否低于第一声学特征参数在歌声评判模型中的评分值；若判断为是，则根据合成歌声的评分值对歌声合成模型进行第一模型参数优化，直至优化后的歌声合成模型生成合成歌声的评分值大于等于所述第一声学特征参数在优化后的歌声评判模型中的评分值为止。

本实施例中关于处理器51的具体执行方式可参阅上述歌声合成模型的训练方法实施例中的相关描述，在此不再赘述。

其中，处理器51控制移动终端的操作，处理器51还可以称为CPU (CentralProcessing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器，但不仅限于此。

参阅图11，图11为本申请计算机可读存储介质一实施方式的结构示意图。本申请的计算机可读存储介质存储有能够实现上述所有方法的计算机可读指令21，其中，该计算机可读指令21可以以软件产品的形式存储在上述存储装置中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

综上所述，本领域技术人员容易理解，本申请提供一种歌声合成模型的训练方法、装置、计算机设备以及存储介质，通过将乐谱特征输入歌声合成模型进行歌声合成，再获取合成歌声在歌声评判模型中的评分值，将合成歌声的评分值和录制歌声的评分值进行比较，若合成歌声的评分值小于录制歌声的评分值，则根据合成歌声的评分值对歌声合成模型的参数进行优化和调整，以使得所述歌声合成模型合成出的歌声其评分值大于或者等于录制歌声在歌声评判模型中的评分值，从而不断提升歌声合成模型的合成效果，使得合成歌声更加逼真。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种歌声合成模型的训练方法，其特征在于，所述歌声合成模型的训练方法包括：

对乐谱数据和录制的歌声数据进行预处理，以提取所述乐谱数据中的乐谱特征和所述歌声数据中的第一声学特征参数；

将所述乐谱特征输入歌声合成模型中以生成合成歌声；

判断所述合成歌声在歌声评判模型中的评分值是否低于所述第一声学特征参数在所述歌声评判模型中的评分值；

若判断为是，则根据所述合成歌声的评分值对所述歌声合成模型进行第一模型参数优化，直至优化后的歌声合成模型生成合成歌声的评分值大于等于所述第一声学特征参数在优化后的歌声评判模型中的评分值为止；

其中，所述对乐谱数据和歌声数据进行预处理，以提取所述乐谱数据中的乐谱特征和所述歌声数据中的第一声学特征参数包括：

对所述歌声数据进行预加重处理，以使得所述歌声数据的信号频谱平坦；

将预加重处理后的所述歌声数据分割成整数帧；

获取每一帧所述歌声数据的频谱信息，以得到每一帧所述歌声数据的第一声学特征参数；其中，所述第一声学特征参数至少包括谱线能量、基频特征以及梅尔频率倒谱系数。

2.根据权利要求1所述的歌声合成模型的训练方法，其特征在于，所述将所述乐谱特征输入歌声合成模型中以生成合成歌声包括：

将所述乐谱特征依序输入歌声合成模型；

根据所述乐谱特征获取每一帧的第二声学特征参数；

将所述第二声学特征参数输入语音合成声码器中以生成所述合成歌声。

3.根据权利要求2所述的歌声合成模型的训练方法，其特征在于，所述判断所述合成歌声在歌声评判模型中的评分值是否低于所述第一声学特征参数在所述歌声评判模型中的评分值包括：

分别将所述第一声学特征参数和所述第二声学特征参数输入所述歌声评判模型；

通过二分类算法将所述第二声学特征参数与所述第一声学特征参数进行区分，以分别获取所述第一声学特征参数和所述第二声学特征参数在所述歌声评判模型中的评分值；

将所述第一声学特征参数和所述第二声学特征参数在所述歌声评判模型中的评分值进行比较。

4.根据权利要求2所述的歌声合成模型的训练方法，其特征在于，所述根据所述合成歌声的评分值对所述歌声合成模型进行第一模型参数优化包括：

根据所述第二声学特征参数的评分值获取所述歌声合成模型的偏差；

对所述歌声合成模型进行参数优化以减小所述歌声合成模型的偏差。

5.根据权利要求4所述的歌声合成模型的训练方法，其特征在于，所述对所述歌声合成模型进行参数优化以减小所述歌声合成模型的偏差包括：

获取所述第一模型参数的梯度下降距离；

判断所有所述第一模型参数的梯度下降距离是否都小于终止距离；

若判断为是，则停止对所述歌声合成模型的所述第一模型参数进行优化；

若判断为否，则更新所述第一模型参数。

6.根据权利要求1所述的歌声合成模型的训练方法，其特征在于，所述歌声合成模型的训练方法进一步包括：

根据所述合成歌声的评分值对所述歌声评判模型进行第二模型参数优化。

7.一种歌声合成模型的训练装置，用于实现如权利要求1至6任一项所述的歌声合成模型的训练方法，其特征在于，所述歌声合成模型的训练装置包括：

处理模块，用于对乐谱数据和录制的歌声数据进行预处理，以提取所述乐谱数据中的乐谱特征和所述歌声数据中的第一声学特征参数；

生成模块，用于将所述乐谱特征输入歌声合成模型中以生成合成歌声；

判断模块，用于判断所述合成歌声在歌声评判模型中的评分值是否低于所述第一声学特征参数在所述歌声评判模型中的评分值；

优化模块，用于在判断所述合成歌声在歌声评判模型中的评分值低于所述第一声学特征参数在所述歌声评判模型中的评分值时，根据所述评分值对所述歌声合成模型进行第一模型参数优化，直至优化后的歌声合成模型生成合成歌声的评分值大于等于所述第一声学特征参数在优化后的歌声评判模型中的评分值为止。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器，所述处理器耦合所述存储器，所述存储器中存储有计算机可读指令，所述处理器在工作时执行计算机可读指令以实现如权利要求1～6任一项所述的歌声合成模型的训练方法。

9.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行以实现如权利要求1～6任一项所述的歌声合成模型的训练方法。