CN112837670B

CN112837670B - 语音合成方法、装置及电子设备

Info

Publication number: CN112837670B
Application number: CN202110071250.4A
Authority: CN
Inventors: 李婉; 李健; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2024-05-10
Anticipated expiration: 2041-01-19
Also published as: CN112837670A

Abstract

本申请公开了一种语音合成方法、装置及电子设备，属于音频处理技术领域。所述方法包括：对接收到的目标语音信息进行特征提取处理，获得声学特征参数；基于第一损失函数对生成模型进行训练，更新得到生成模型参数；基于第二损失函数对判别模型进行训练，更新得到判别模型参数；重复执行参数更新处理，直至所述生成模型达到收敛状态，将所述声学特征参数输入达到收敛状态的所述生成模型，得到合成语音。本申请实施例可以实现基于第一损失函数和第二损失函数，以及通过增加判别模型，使得生成模型达到收敛状态，降低了语音合成过程中的噪声或其他容易引起听感不适的合成效应，提高了非自回归结构神经声码器的稳定性和可靠性，提高了用户体验。

Description

语音合成方法、装置及电子设备

技术领域

本申请属于音频处理技术领域，具体涉及一种语音合成方法、装置及电子设备。

背景技术

随着音频处理技术领域的不断发展，声码器作为音频处理技术领域的一个分支也得到了快速发展。声码器指的是一种语音信号的合成系统，其输入为声学特征，输出为还原的音频。

目前，声码器可以包括自回归结构的神经声码器和非自回归结构神经声码器，自回归结构的神经声码器所合成的音频质量同原音频几乎相同，但是，自回归结构的神经声码器的实施率过于缓慢，通常合成一秒的音频需要几分钟甚至十几分钟的时间，无法达到生产实际实时性的需求。

非自回归结构神经声码器的转换速度快，可以满足实时性的工作需求，但合成的音频容易引人明显的噪声或者出现其他引起听感不适的合成效应，降低非自回归结构神经声码器的稳定性和可靠性，降低用户体验。

发明内容

本申请实施例的目的是提供一种语音合成方法、装置及电子设备，能够解决现有技术中非自回归结构神经声码器的转换速度快，可以满足实时性的工作需求，但合成的音频容易引人明显的噪声或者出现其他引起听感不适的合成效应，降低非自回归结构神经声码器的稳定性和可靠性，降低用户体验的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种语音合成方法，该方法包括：

对接收到的目标语音信息进行特征提取处理，获得声学特征参数；

基于第一损失函数对生成模型进行训练，更新得到生成模型参数；

基于第二损失函数对判别模型进行训练，更新得到判别模型参数；

重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数；

将所述声学特征参数输入达到收敛状态的所述生成模型，完成语音合成过程，得到合成语音；

其中，所述第一损失函数指的是特征图的损失变量、所述判别模型的判别结果为真的判断变量以及多尺度损失变量之间函数关系的损失函数；

所述第二损失函数指的是所述判别模型对所述目标语音信息进行数据真假判断的损失函数。

可选地，所述判别模型包括依次通信连接的卷积层、平均池化层、标准池化层、非线性变换层和全连接层；

所述基于第二损失函数对判别模型进行训练，更新得到判别模型参数，包括：

将所述声学特征参数输入至所述判别模型，得到判别模型输出；

基于所述第二损失函数对所述判别模型输出进行计算，得到梯度值；

控制所述梯度值反传回所述判别模型，更新得到所述判别模型参数。

可选地，在所述对接收到的目标语音信息进行特征提取处理，获得声学特征参数之后，还包括：

对所述生成模型和所述判别模型进行参数初始化处理。

可选地，所述第一损失函数，包括：

其中，/>表示所述第一损失函数，λ表示权重系数，L_c表示所述判别模型的判别结果为真的所述判断变量，L_feature表示所述特征图的所述损失变量，L_s表示所述多尺度损失变量。

可选地，所述第二损失函数，包括：

其中，所述/>表示所述第二损失函数，所述w表示所述目标语音信息对应的语音序列，所述D(w)表示所述语音序列输入至所述判别模型后输出的第一对应参数，所述c表示所述声学特征参数，所述G(c)表示所述语音序列输入至所述生成模型后输出的第二对应参数，所述D(G(c))表示所述第二对应参数输入至所述判别模型后输出的第三对应参数。

第二方面，本申请实施例提供了一种语音合成装置，该装置包括：

声学特征参数获取模块，用于对接收到的目标语音信息进行特征提取处理，获得声学特征参数；

生成模型参数更新模块，用于基于第一损失函数对生成模型进行训练，更新得到生成模型参数；

判别模型参数更新模块，用于基于第二损失函数对判别模型进行训练，更新得到判别模型参数；

更新处理重复执行模块，用于重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数；

合成语音模块，用于将所述声学特征参数输入达到收敛状态的所述生成模型，完成语音合成过程，得到合成语音；

所述判别模型参数更新模块包括：

将判别模型输出得到子模块，用于所述声学特征参数输入至所述判别模型，得到判别模型输出；

梯度值获取子模块，用于基于所述第二损失函数对所述判别模型输出进行计算，得到梯度值；

判别模型参数更新子模块，用于控制所述梯度值反传回所述判别模型，更新得到所述判别模型参数。

可选地，所述装置还包括：

参数初始化处理模块，用于对所述生成模型和所述判别模型进行参数初始化处理。

可选地，所述第一损失函数，包括：

可选地，所述第二损失函数，包括：

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的语音合成方法。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的语音合成方法。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的语音合成方法。

在本申请实施例中，通过对接收到的目标语音信息进行特征提取处理，获得声学特征参数；基于第一损失函数对生成模型进行训练，更新得到生成模型参数；基于第二损失函数对判别模型进行训练，更新得到判别模型参数；重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数；将所述声学特征参数输入达到收敛状态的所述生成模型，完成语音合成过程，得到合成语音，可以实现基于第一损失函数和第二损失函数，以及通过增加判别模型，使得生成模型达到收敛状态，降低了语音合成过程中的噪声或其他容易引起听感不适的合成效应，提高了非自回归结构神经声码器的稳定性和可靠性，提高了用户体验。

附图说明

图1为本申请实施例一提供的一种语音合成方法的步骤流程图；

图2示出了本申请实施例提供的一种NFS声码器中的NFS模型的结构示意图；

图3示出了本申请实施例提供的一种判别模型的结构示意图；

图4为本申请实施例二提供的一种语音合成方法的步骤流程图；

图5示出了本申请实施例四提供的一种语音合成装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的参数调整方案进行详细地说明。

参照图1，示出了本申请实施例一提供的一种语音合成方法的步骤流程图，如图1所示，该语音合成方法具体可以包括如下步骤：

步骤101：对接收到的目标语音信息进行特征提取处理，获得声学特征参数。

电子设备中可以对接收到的目标语音信息进行特征提取，从目标语音信息中提取出声学特征参数，其中，声学特征参数可以包括基频F0和谱特征(SpectralFeatures)。

在本申请中，电子设备可以是基于神经源滤波器的语音波形模型(NeuralSource-Filter-based SpeechWaveform Model，NFS)声码器，还可以是其他结构的神经声码器，本申请实施例对此不作限定，可以根据实际应用场景做调整选择。

一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，该最低震动产生的音是基音(fundamental tone)。基频F0是指基音的频率，决定声音的音高。

在对接收到的目标语音信息进行特征提取处理，获得声学特征参数之后，执行步骤102。

步骤102：基于第一损失函数对生成模型进行训练，更新得到生成模型参数。

示例的，当电子设备是NFS声码器的情况下，图2示出了本申请实施例提供的一种NFS声码器中的NFS模型的结构示意图，NFS的输入为FO和谱特征两个声学特征参数，NFS模型可以包括三个模块，分别是状态模型(Condition Module)01、来源模型(Source Module)02和过滤模型(Filter Module)03。

其中，ConditionModule 01主要负责对声学特征参数建立时序关联性和升维步骤；Source Module 02主要负责将F0转化为激励特征，Filter Module 03主要负责根据激励特征和建立时序关联性后的声学特征参数进行合成，得到最终的合成语音，其中，关于其多尺度损失函数的计算可以包括：

其中，L_s表示多尺度损失函数，y表示声学特征参数做傅里叶变换(STFT)得到的结果，K表示傅里叶变换的点数，N表示声学特征参数的帧数，Re表示实部，Im表示虚部。声学特征参数X在做STFT时需要设置点数(K)，帧长(Frame Length)和帧移(Frame Shift)三个参数，对同一目标语音信息对应的声学特征参数，选定多组参数同时进行变换，求得的损失能够更好地捕捉合成语音在不同尺度的细节。

可选地，一般可以选择至少3组参数对声学特征参数做STFT，按照公式1的方式分别计算多尺度损失，将得到的值相加，作为多尺度损失函数的最终结果。

示例的，以所述目标语音信息的采样率为16K为例，不同尺度STFT的参数可以设置为：点数为512，帧长为320，帧移为80；点数为128，帧长为80，帧移为40；点数为2048，帧长为1920，帧移为640。

这类多尺度损失函数还可以被称为多尺度STFT损失(Multi-scale STFTLossFunction)。多尺度损失函数对于不同结构的声码器均可以起到均衡模型的效果，可以作为不同神经声码器的损失函数或损失函数中的一部分。

其中，所述第一损失函数指的是特征图的损失变量、所述判别模型的判别结果为真的判断变量以及多尺度损失变量之间函数关系的损失函数。

所述第一损失函数，包括：

其中，

L_c＝(D(G(c))-1)² (4)；

MSE表示最小均方误差,FM表示特征图值,c表示输入生成模型的声学特征参数，所述G(c)表示所述语音序列输入至所述生成模型后输出的第二对应参数，所述D(G(c))表示所述第二对应参数输入至所述判别模型后输出的第三对应参数。

λ表示权重系数，表示L_s的重要程度高于L_feature和L_c。

其中λ可以设置为10，还可以设置为11，本申请实施例对此不作具体限定，可以根据实际应用场景做调整标记。

在本申请中，判别模型是把生成模型输出的结果或者原始的目标语音信息的声学特征参数作为输入，在针对声码器的任务的生成对抗结构中具有以下两个作用，一是可以通过一系列不同尺度的特征抽取，从不同于生成模型损失函数，也即是不同于多尺度损失函数的角度，反映真假数据之间的差距，二是可以对输入进行判别，判断输入的数据为真数据，还是假数据，其中真数据指的是原始的目标语音信息，假数据指的是生成模型合成的数据。

具体地，图3示出了本申请实施例提供的一种判别模型的结构示意图，如图3所示，判别模型的结构由多个特征提取及降采样模块串行组成，输入真假数据，其中卷积层(Conv1d)201的作用是特征提取，平均池化层(AvgPool1d)202的作用是降采样，标准化层(LayerNorm)203和非线性变换层(LeakRelu)204为模型进行标准化和提供非线性变换。在最后一层添加全连接层(Linear)205进行真假判别，其中真值判断为1，假值判断为0。对应的真假数据依次输入，每一个降采样模块会输出一个特征图n(feature map n)Y，藉由均方误差(MES Loss)得到生成模型的输出和原始训练的在该特征图下的距离，由此得到的梯度反传回生成模型，帮助生成模型的训练结果进一步接近原始数据的真实值，输出真假数剧判定结果。

在基于第一损失函数对生成模型进行训练，更新得到生成模型参数之后，执行步骤103。

步骤103：基于第二损失函数对判别模型进行训练，更新得到判别模型参数。

所述第二损失函数指的是所述判别模型对所述目标语音信息进行数据真假判断的损失函数，也即是判别模型将真实输入判别为1，将生成模型生成的数据判别为0。

所述第二损失函数，包括：

在基于第二损失函数对判别模型进行训练，更新得到判别模型参数之后，执行步骤104。

步骤104：重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数。

可选地，可以重复执行步骤102和步骤103，其中，步骤102和步骤103是同时进行的，直至生成模型收敛。

在重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数之后，执行步骤105。

步骤105：将所述声学特征参数输入达到收敛状态的所述生成模型，完成语音合成过程，得到合成语音。

将所述声学特征参数输入达到收敛状态的所述生成模型，可以仅通过声学特征参数完成语音合成过程，得到合成语音，在不降低非自回归神经声码器性能的前提下，提高了非自回归神经声码器的合成效果。

本申请实施例提供的语音合成方法，通过对接收到的目标语音信息进行特征提取处理，获得声学特征参数；基于第一损失函数对生成模型进行训练，更新得到生成模型参数；基于第二损失函数对判别模型进行训练，更新得到判别模型参数；重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数；将所述声学特征参数输入达到收敛状态的所述生成模型，完成语音合成过程，得到合成语音，可以实现基于第一损失函数和第二损失函数，以及通过增加判别模型，使得生成模型达到收敛状态，降低了语音合成过程中的噪声或其他容易引起听感不适的合成效应，提高了非自回归结构神经声码器的稳定性和可靠性，提高了用户体验。

参照图4，示出了本申请实施例二提供的一种语音合成方法的步骤流程图，该语音合成方法应用于电子设备，如图4所示，该语音合成方法具体可以包括如下步骤：

步骤301：对接收到的目标语音信息进行特征提取处理，获得声学特征参数。

可选地，可以准备约10小时单个说话人的数据库作为目标语音信息。

在对接收到的目标语音信息进行特征提取处理，获得声学特征参数之后，执行步骤302。

步骤302：对所述生成模型和所述判别模型进行参数初始化处理。

电子设备可以对生成模型和判别模型进行参数初始化处理，保证接下来的参数更加准确。

在对所述生成模型和所述判别模型进行参数初始化处理之后，可以执行步骤303和/或步骤304。

步骤303：基于第一损失函数对生成模型进行训练，更新得到生成模型参数。

所述第一损失函数，包括：

示例的，以所述目标语音信息的采样率为16K为例，不同尺度STFT的参数可以设置为：点数为512，帧长为330，帧移为80；点数为128，帧长为80，帧移为40；点数为3048，帧长为1930，帧移为640。

这类多尺度损失函数还可以被称为多尺度STFT损失(Multi-scale STFT LossFunction)。多尺度损失函数对于不同结构的声码器均可以起到均衡模型的效果，可以作为不同神经声码器的损失函数或损失函数中的一部分。

所述第一损失函数，包括：

其中，

L_c＝(D(G(c))-1)² (4)；

λ表示权重系数，表示L_s的重要程度高于L_feature和L_c。

步骤304：基于第二损失函数对判别模型进行训练，更新得到判别模型参数。

所述第二损失函数，包括：

可选地，所述判别模型包括依次通信连接的卷积层、平均池化层、标准池化层、非线性变换层和全连接层。

具体地，图3示出了本申请实施例提供的一种判别模型的结构示意图，如图3所示，判别模型的结构由多个特征提取及降采样模块串行组成，输入真假数据，其中卷积层(Conv1d)301的作用是特征提取，平均池化层(AvgPool1d)302的作用是降采样，标准化层(LayerNorm)303和非线性变换层(Leak Relu)304为模型进行标准化和提供非线性变换。在最后一层添加全连接层(Linear)305进行真假判别，其中真值判断为1，假值判断为0。对应的真假数据依次输入，每一个降采样模块会输出一个特征图n(feature map n)Y，藉由均方误差(MES Loss)得到生成模型的输出和原始训练的在该特征图下的距离，由此得到的梯度反传回生成模型，帮助生成模型的训练结果进一步接近原始数据的真实值，输出真假数剧判定结果。

在基于第二损失函数对判别模型进行训练，更新得到判别模型参数之后，可以执行步骤305。

步骤305：重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数。

可选地，可以重复执行步骤303和步骤304，其中，步骤303和步骤304是同时进行的，直至生成模型收敛。

在重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数之后，执行步骤306。

步骤306：将所述声学特征参数输入达到收敛状态的所述生成模型，完成语音合成过程，得到合成语音。

需要说明的是，本申请实施例提供的语音合成方法，执行主体可以为语音合成装置，或者该语音合成装置中的用于执行加载语音合成方法的控制模块。本申请实施例中以语音合成装置执行加载语音合成方法为例，说明本申请实施例提供的语音合成方法。

参照图5，示出了本申请实施例四提供的一种语音合成装置的结构示意图，该语音合成装置可以应用于电子设备，如图5所示，该语音合成装置具体可以包括如下模块：

声学特征参数获取模块401，用于对接收到的目标语音信息进行特征提取处理，获得声学特征参数；

生成模型参数更新模块402，用于基于第一损失函数对生成模型进行训练，更新得到生成模型参数；

判别模型参数更新模块403，用于基于第二损失函数对判别模型进行训练，更新得到判别模型参数；

更新处理重复执行模块404，用于重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数；

合成语音模块405，用于将所述声学特征参数输入达到收敛状态的所述生成模型，完成语音合成过程，得到合成语音；

所述判别模型参数更新模块包括：

可选地，所述装置还包括：

可选地，所述第一损失函数，包括：

可选地，所述第二损失函数，包括：

本申请实施例提供的语音合成装置，通过对接收到的目标语音信息进行特征提取处理，获得声学特征参数；基于第一损失函数对生成模型进行训练，更新得到生成模型参数；基于第二损失函数对判别模型进行训练，更新得到判别模型参数；重复执行参数更新处理，直至所述生成模型达到收敛状态，其中所述参数更新处理包括：基于第一损失函数对生成模型进行训练更新得到生成模型参数，基于第二损失函数对判别模型进行训练更新得到判别模型参数；将所述声学特征参数输入达到收敛状态的所述生成模型，完成语音合成过程，得到合成语音，可以实现基于第一损失函数和第二损失函数，以及通过增加判别模型，使得生成模型达到收敛状态，降低了语音合成过程中的噪声或其他容易引起听感不适的合成效应，提高了非自回归结构神经声码器的稳定性和可靠性，提高了用户体验。

本申请实施例中的语音合成装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语音合成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语音合成装置能够实现图1至图4的方法实施例中语音合成方法实现的各个过程，为避免重复，这里不再赘述。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的转换歌曲音色的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的转换歌曲音色的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种转换歌曲音色的方法、系统、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音合成方法，其特征在于，包括：

所述第二损失函数指的是所述判别模型对所述目标语音信息进行数据真假判断的损失函数；

所述第一损失函数，包括：

2.根据权利要求1所述的方法，其特征在于，所述判别模型包括依次通信连接的卷积层、平均池化层、标准池化层、非线性变换层和全连接层；

3.根据权利要求1所述的方法，其特征在于，在所述对接收到的目标语音信息进行特征提取处理，获得声学特征参数之后，还包括：

对所述生成模型和所述判别模型进行参数初始化处理。

4.根据权利要求1所述的方法，其特征在于，所述第二损失函数，包括：

5.一种语音合成装置，其特征在于，包括：

所述第一损失函数，包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的装置，其特征在于，所述第二损失函数，包括：

8.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现权利要求1至4任一项所述的语音合成方法。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现权利要求1至4任一项所述的语音合成方法。