CN113327577B

CN113327577B - 语音合成方法、装置和电子设备

Info

Publication number: CN113327577B
Application number: CN202110632585.9A
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2024-01-16
Anticipated expiration: 2041-06-07
Also published as: CN113327577A

Abstract

本公开提供了一种语音合成方法、装置和电子设备，涉及语音、人工智能技术领域，尤其涉及语音合成、自然语言处理、深度学习技术领域。具体实现方案为：获取目标用户的模型参数；将第一目标语音合成模型的待更新模型参数更新为目标用户的模型参数，生成第二目标语音合成模型；将待合成文本输入至第二目标语音合成模型，其中，第二目标语音合成模型用于合成目标语音，目标语音具有所述目标用户的语音特征。由此，只需利用目标用户的模型参数对模型进行更新，大大减少了模型训练次数和语音合成的运算量，节省语音合成的成本。

Description

语音合成方法、装置和电子设备

技术领域

本公开涉及计算机技术领域，尤其涉及一种语音合成方法、语音合成模型的训练方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

目前，语音合成方法可将文本转换为具有目标用户语音特征的音频，在语音聊天、智能家居等领域得到了广泛应用。然而相关技术中的语音合成方法需要根据目标用户的语音片段进行模型的训练和更新，之后根据更新后的模型进行语音合成，模型训练次数较多，且模型训练所需的运算量较大，语音合成的成本也较大。

发明内容

本公开提供了一种语音合成方法、语音合成模型的训练方法、装置、电子设备、存储介质和计算机程序产品。

根据第一方面，提供了一种语音合成方法，包括：获取目标用户的模型参数；将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数，生成第二目标语音合成模型；获取待合成文本，并将所述待合成文本输入至所述第二目标语音合成模型，其中，所述第二目标语音合成模型用于合成目标语音，所述目标语音具有所述目标用户的语音特征。

根据第二方面，提供了一种语音合成模型的训练方法，包括：获取样本用户的样本语音和所述样本语音对应的标注文本；根据所述样本语音和所述标注文本对初始语音合成模型进行训练，生成候选语音合成模型；为所述候选语音合成模型配置待更新的模型参数；根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练，生成第一目标语音合成模型。

根据第三方面，提供了一种语音合成装置，包括：第一获取模块，用于获取目标用户的模型参数；更新模块，用于将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数，生成第二目标语音合成模型；合成模块，用于获取待合成文本，并将所述待合成文本输入至所述第二目标语音合成模型，其中，所述第二目标语音合成模型用于合成目标语音，所述目标语音具有所述目标用户的语音特征。

根据第四方面，提供了一种语音合成模型的训练装置，包括：第二获取模块，用于获取样本用户的样本语音和所述样本语音对应的标注文本；第一训练模块，用于根据所述样本语音和所述标注文本对初始语音合成模型进行训练，生成候选语音合成模型；配置模块，用于为所述候选语音合成模型配置待更新的模型参数；第二训练模块，用于根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练，生成第一目标语音合成模型。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面所述的语音合成方法，或者执行本公开第二方面所述的语音合成模型的训练方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开第一方面所述的语音合成方法，或者执行本公开第二方面所述的语音合成模型的训练方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本公开第一方面所述的语音合成方法，或者执行本公开第二方面所述的语音合成模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的语音合成方法的流程示意图；

图2根据本公开第二实施例的语音合成方法中获取目标用户的模型参数之前的流程示意图；

图3根据本公开第三实施例的语音合成方法中获取待合成文本的目标声学特征的流程示意图；

图4根据本公开第四实施例的语音合成方法中第二目标语音合成模型的示意图；

图5是根据本公开第一实施例的语音合成模型的训练方法的流程示意图；

图6是根据本公开第一实施例的语音合成装置的框图；

图7是根据本公开第一实施例的语音合成模型的训练装置的框图；

图8是用来实现本公开实施例的语音合成方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

语音可包括语音识别、语音分离、语音交互、语音合成等技术领域，是人工智能领域中的一个重要方向。

语音合成(Voice Synthesis)是一种让机器将文字信息转化为可输出的语音的技术，涉及声学、语言学、数字信号处理、计算机科学等领域。

AI(Artificial Intelligence，人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前，AI技术具有自动化程度高、精确度高、成本低的优点，得到了广泛的应用。

NLU(Natural Language Processing，自然语言处理)是研究能有效地实现自然语言通信的计算机系统，特别是其中的软件系统的一门科学，是计算机科学领域与人工智能领域中的一个重要方向。

深度学习(Deep Learning)是机器学习(Machine Learning)领域中一个新的研究方向，是学习样本数据的内在规律和表示层次，使得机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据的一门科学，广泛应用于语音和图像识别。

图1是根据本公开第一实施例的语音合成方法的流程示意图。

如图1所示，本公开第一实施例的语音合成方法，包括：

S101，获取目标用户的模型参数。

需要说明的是，本公开实施例的语音合成方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地，执行主体可包括工作站、服务器，计算机、用户终端及其他智能设备。其中，用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。

本公开的实施例中，目标用户的模型参数可表征目标用户的语音特征，不同的目标用户可对应不同的模型参数。

需要说明的是，本公开的实施例中，对用户的模型参数的类型、数量等均不做限定，比如，用户的模型参数可包括缩放参数scale和偏差参数bias，此时用户的模型参数的数量为2个。

在一种实施方式中，目标用户的模型参数可预先存储在本地，从而语音合成时可从本地的存储空间中获取目标用户的模型参数，即可离线获取目标用户的模型参数，有效减少了语音合成的运算量。

在一种实施方式中，可预先建立目标用户的用户标识和目标用户的模型参数之间的映射关系或者映射表，则可获取目标用户的用户标识，基于用户标识在上述映射关系或者映射表中查询该用户标识映射的模型参数，作为目标用户的模型参数。

S102，将第一目标语音合成模型的待更新模型参数更新为目标用户的模型参数，生成第二目标语音合成模型。

需要说明的是，本公开的实施例中，第一目标语音合成模型可根据实际情况预先设置，且第一目标语音合成模型包括待更新模型参数。

本公开的实施例中，可将第一目标语音合成模型的待更新模型参数更新为目标用户的模型参数，生成第二目标语音合成模型。也就是说，该方法仅需获取目标用户的模型参数，并利用目标用户的模型参数对第一目标语音合成模型的待更新模型参数进行更新，得到第二目标语音合成模型，用于语音合成。

S103，获取待合成文本，并将待合成文本输入至第二目标语音合成模型，其中，第二目标语音合成模型用于合成目标语音，目标语音具有目标用户的语音特征。

本公开的实施例中，可获取待合成文本。需要说明的是，本公开的实施例中，对待合成文本的语言、类型等不做过多限定，例如，待合成文本的语言包括但不限于中文、英文等，待合成文本的类型包括但不限于聊天文本、演讲文本等。

本公开的实施例中，可将待合成文本输入至第二目标语音合成模型，第二目标语音合成模型用于合成目标语音，目标语音具有目标用户的语音特征，即该方法可合成具有目标用户的语音特征的目标语音，可实现个性化语音合成。

综上，根据本公开实施例的语音合成方法，仅需获取目标用户的模型参数，并利用目标用户的模型参数对第一目标语音合成模型的待更新模型参数进行更新，得到第二目标语音合成模型，并利用第二目标语音合成模型对待合成文本进行语音合成，相较于相关技术中语音合成方法大多需要根据目标用户的样本数据实时训练语音合成模型，大大减少了模型训练次数和语音合成的运算量，易于实现，有助于节省语音合成的成本。

在上述任一实施例的基础上，第一目标语音合成模型包括归一化(Normalization)层，归一化层的模型参数包括待更新模型参数。

需要说明的是，本公开的实施例中，归一化层采用的归一化方式可根据实际情况进行设置，对此不做过多限定。

在一种实施方式中，归一化层采用的归一化方式如下：

其中，x为待归一化处理的数据，x^’为归一化处理之后的数据，mean为待归一化处理的数据的均值，var为待归一化处理的数据的方差，scale为缩放参数，bias为偏差参数。应说明的是，scale、bias为待更新模型参数。

在一种实施方式中，归一化层采用的归一化方式如下：

其中，x为待归一化处理的数据，x^’为归一化处理之后的数据，min为待归一化处理的数据中的最小值，max为待归一化处理的数据中的最大值，scale为缩放参数，bias为偏差参数。应说明的是，scale、bias为待更新模型参数。

步骤S101中获取目标用户的模型参数之后，可将第一目标语音合成模型的归一化层中的待更新模型参数更新为目标用户的模型参数，生成第二目标语音合成模型。

继续以归一化层采用的归一化方式为为例，若获取的目标用户的模型参数scale为1，bias为2，则可将第一目标语音合成模型的归一化层采用的归一化方式/>中的scale更新为1，bias更新为2，即归一化方式更新为/>则生成的第二目标语音合成模型的归一化层采用的归一化方式为/>

在上述任一实施例的基础上，第二目标语音合成模型用于获取待合成文本的目标声学特征，并根据目标用户的模型参数对目标声学特征进行归一化处理，根据归一化处理后的目标声学特征合成目标语音。

在一种实施方式中，目标语音合成模型包括声学特征提取层、归一化层和声学特征解码层，可基于声学特征提取层获取待合成文本的目标声学特征，基于归一化层中的目标用户的模型参数对目标声学特征进行归一化处理，基于声学特征解码层对归一化处理后的目标声学特征进行解码，以合成目标语音。

在一种实施方式中，获取待合成文本的目标声学特征，可包括获取待合成文本的发音标注，根据发音标注得到待合成文本的目标声学特征。其中，发音标注由多个发音单元组成。例如，待合成文本的语言为中文时，发音单元可为声韵母，待合成文本的语言为英文时，发音单元可为音标。

本公开的实施例中，对声学特征的类型不做过多限定，比如，声学特征包括但不限于梅尔(Mel)特征、MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)特征、PLP(Perceptual Linear Predict，感知线性预测)特征等。

由此，该方法中第二目标语音合成模型用于获取待合成文本的目标声学特征，并根据目标用户的模型参数对目标声学特征进行归一化处理，根据归一化处理后的目标声学特征合成目标语音。

在上述任一实施例的基础上，如图2所示，步骤S101中获取目标用户的模型参数之前，包括：

S201，获取目标用户的样本语音和样本语音对应的标注文本。

本公开的实施例中，目标用户的样本语音可通过录制、网络传输等方式来获取。

在一种实施方式中，当采用录制的方式获取目标用户的样本语音时，设备上具有语音采集装置，语音采集装置包括但不限于麦克风(Microphone)、麦克风阵列(MicrophoneArray)等。

在一种实施方式中，当采用网络传输的方式获取目标用户的样本语音时，设备上具有联网装置，可通过联网装置与其他设备或者服务器进行网络传输，以获取其他设备或者服务器上的目标用户的样本语音。

在一种实施方式中，获取目标用户的样本语音之后，可对样本语音进行语音识别，以获取样本语音对应的标注文本。例如，可采用语音识别模型对样本语音进行语音识别，其中，语音识别模型可根据实际情况进行设置。

在一种实施方式中，获取目标用户的样本语音之后，可对样本语音的文本内容进行人工标注，以获取样本语音对应的标注文本。

S202，根据样本语音和标注文本对第一目标语音合成模型中的待更新模型参数进行调整，直至达到调整结束条件，将最后一次调整后的待更新模型参数作为目标用户的模型参数。

本公开的实施例中，调整结束条件可根据实际情况进行设置，例如模型收敛，或者模型精度达到预设精度阈值等，这里不做过多限定。

在一种实施方式中，根据样本语音和标注文本对第一目标语音合成模型中的待更新模型参数进行调整，可包括将标注文本输入至第一目标语音合成模型，由第一目标语音合成模型获取所述标注文本的样本声学特征，并根据待更新模型参数对样本声学特征进行归一化处理，根据归一化处理后的样本声学特征合成样本目标语音，根据样本目标语音和样本语音对待更新模型参数进行调整，重复执行上述步骤，直至达到调整结束条件，将最后一次调整后的待更新模型参数作为目标用户的模型参数。其中，调整结束条件可为样本目标语音和样本语音的相似度达到预设阈值。

由此，该方法可利用目标用户的样本语音和样本语音对应的标注文本，对第一目标语音合成模型中的待更新模型参数进行调整，以获取目标用户的模型参数。

在上述任一实施例的基础上，步骤S101中获取目标用户的模型参数之前，还包括获取目标用户的用户标识，将目标用户的模型参数存储至目标存储空间，并建立目标存储空间的目标空间标识与用户标识之间的关联关系。

可以理解的是，可预先设置用于存储目标用户的模型参数的目标存储空间，并获取目标用户的用户标识，将目标用户的模型参数存储至目标存储空间，建立目标存储空间的目标空间标识与用户标识之间的关联关系，该方法可根据用户标识和目标空间标识来存储目标用户的模型参数，便于管理目标用户的模型参数的存储。

可以理解的是，不同的目标用户的模型参数可存储至不同的目标存储空间，则不同的用户标识可关联不同的目标空间标识。

进一步地，步骤S101中获取目标用户的模型参数，可包括获取目标用户的用户标识，以目标用户的用户标识作为查询键值，获取目标空间标识，根据目标空间标识，在目标存储空间中获取目标用户的模型参数。

例如，目标用户A的用户标识为a，目标存储空间B的目标空间标识为b，可将目标用户A的模型参数存储至目标存储空间B，并建立目标存储空间B的目标空间标识b与用户标识a之间的关联。

进一步地，可获取目标用户A的用户标识为a，以目标用户A的用户标识a作为查询键值，若存在目标空间标识b与用户标识a之间的关联，则可获取目标空间标识b，并根据目标空间标识b，在目标存储空间B中获取目标用户A的模型参数。

由此，该方法可根据目标用户的用户标识，确定存储目标用户的模型参数的目标存储空间，进而在目标存储空间中获取目标用户的模型参数。

在上述任一实施例的基础上，如图3所示，步骤S103中获取待合成文本的目标声学特征，包括：

S301，获取待合成文本的音素特征。

在一种实施方式中，获取待合成文本的音素特征，可包括获取待合成文本的发音标注，发音标注由多个发音单元组成，每个发音单元可包括至少一个音素，可根据待合成文本所包括的音素获取音素特征。

在一种实施方式中，第二目标语音合成模型可包括音素特征提取层，则获取待合成文本的音素特征，可包括将待合成文本输入至第二目标语音合成模型中的音素特征提取层，基于音素特征提取层对待合成文本进行音素特征提取，得到待合成文本的音素特征。

其中，音素特征提取层可根据实际情况进行设置。在一种实施方式中，音素特征提取层可包括音素向量化(Phoneme Embedding)层和音素编码(Phoneme Encoder)层，可基于音素向量化层对待合成文本所包括的音素进行特征提取，得到音素特征向量，并基于音素编码层对音素特征向量进行编码，得到音素特征。

S302，获取目标用户的样本语音的第一声学特征。

在一种实施方式中，第二目标语音合成模型包括声学特征提取层，则获取目标用户的样本语音的第一声学特征，可包括将目标用户的样本语音输入至第二目标语音合成模型中的声学特征提取层，基于声学特征提取层对目标用户的样本语音进行特征提取，得到第一声学特征。

在一种实施方式中，第一声学特征包括用户粒度的声学特征、句子粒度的声学特征和音素粒度的声学特征中的至少一种。其中，用户粒度的声学特征可表征用户的整体语音特征，句子粒度的声学特征可表征用户的每个句子的语音特征，音素粒度的声学特征可表征用户的每个句子中的每个音素的语音特征。由此，该方法可获取用户粒度、句子粒度和音素粒度中的至少一种粒度的声学特征，能够全面反映目标用户的样本语音的声学特征，有助于提升语音合成的效果。

在一种实施方式中，声学特征提取层包括用户粒度的声学特征提取层、句子粒度的声学特征提取层和音素粒度的声学特征提取层，可基于用户粒度的声学特征提取层对目标用户的样本语音进行特征提取，获取用户粒度的声学特征，基于句子粒度的声学特征提取层对目标用户的样本语音进行特征提取，获取句子粒度的声学特征，基于音素粒度的声学特征提取层对目标用户的样本语音进行特征提取，获取音素粒度的声学特征。

S303，根据音素特征和第一声学特征，得到目标声学特征。

本公开的实施例中，可根据音素特征和第一声学特征，得到目标声学特征，音素特征是待合成文本的音素特征，第一声学特征是目标用户的样本语音的声学特征，则目标声学特征可同时表征待合成文本的音素特征和目标用户的语音特征。

在一种实施方式中，根据音素特征和第一声学特征，得到目标声学特征，可包括将音素特征和第一声学特征的和值，作为目标声学特征。例如，若第一声学特征包括用户粒度的声学特征、句子粒度的声学特征和音素粒度的声学特征，则可将音素特征、用户粒度的声学特征、句子粒度的声学特征和音素粒度的声学特征的和值，作为目标声学特征。

在一种实施方式中，根据音素特征和第一声学特征，得到目标声学特征，可包括根据音素特征和第一声学特征，得到第二声学特征，对第二声学特征进行至少一个特征维度的调整，得到目标声学特征。由此，该方法可对声学特征进行至少一个特征维度的调整，使得目标声学特征更加准确。

其中，根据音素特征和第一声学特征，得到第二声学特征，可包括将音素特征和第一声学特征的和值，作为第二声学特征。

其中，特征维度包括时长、基音频率、能量中的至少一种。由此，该方法可对声学特征进行时长、基音频率、能量中的至少一种特征维度的调整，使得目标声学特征的时长、基音频率、能量等特征更加准确。

在一种实施方式中，第二目标语音合成模型包括特征调整层，则对第二声学特征进行至少一个特征维度的调整，得到目标声学特征，可包括将第二声学特征输入至第二目标语音合成模型中的特征调整层，基于特征调整层对第二声学特征进行至少一个特征维度的调整，得到目标声学特征。

在一种实施方式中，特征调整层包括时长调整层、基因频率调整层、能量调整层等，可基于时长调整层对第二声学特征进行时长维度的调整，基于基因频率调整层对第二声学特征进行基因频率维度的调整，基于能量调整层对第二声学特征进行能量维度的调整。

由此，该方法可根据待合成文本的音素特征和目标用户的样本语音的第一声学特征，得到待合成文本的目标声学特征。

如图4所示，在本公开的一个实施例中，第二目标语音合成模型包括音素特征提取层、声学特征提取层、特征调整层、归一化层、声学特征解码层。其中，音素特征提取层用于获取待合成文本的音素特征，声学特征提取层用于获取目标用户的样本语音的第一声学特征，并将音素特征和第一声学特征的和值作为第二声学特征，特征调整层用于对第二声学特征进行至少一个特征维度的调整，得到目标声学特征，归一化层用于对目标声学特征进行归一化处理，声学特征解码层用于根据归一化处理后的目标声学特征合成目标语音。

图5是根据本公开第一实施例的语音合成模型的训练方法的流程示意图。

如图5所示，本公开第一实施例的语音合成模型的训练方法，包括：

S501，获取样本用户的样本语音和样本语音对应的标注文本。

在一种实施方式中，可获取训练样本集，训练样本集包括多个样本用户的样本语音及其对应的标注文本。

可以理解的是，为了增强语音合成模型的鲁棒性，样本用户、样本语音的数量均较大。例如，样本用户的数量为1000个，每个样本用户的样本语音的数量为1000句。

S502，根据样本语音和标注文本对初始语音合成模型进行训练，生成候选语音合成模型。

本公开的实施例中，可预先建立初始语音合成模型，应说明的是，初始语音合成模型的归一化层未配置有待更新的模型参数。并利用样本语音和标注文本对初始语音合成模型进行训练，生成候选语音合成模型。可以理解的是，候选语音合成模型可根据文本合成语音，但无法实现个性化语音合成。

S503，为候选语音合成模型配置待更新的模型参数。

本公开的实施例中，为了实现个性化语音合成，可为候选语音合成模型配置待更新的模型参数。

在一种实施方式中，语音合成模型具有归一化层，为候选语音合成模型配置待更新的模型参数，可包括为候选语音合成模型的归一化层配置待更新的模型参数。

在一种实现方式中，初始语音合成模型的归一化层采用的归一化方式如下：

其中，x为待归一化处理的数据，x^’为归一化处理之后的数据，mean为待归一化处理的数据的均值，var为待归一化处理的数据的方差。

则为候选语音合成模型的归一化层配置待更新的模型参数之后，候选语音合成模型的归一化层采用的归一化方式如下：

其中，x为待归一化处理的数据，x^’为归一化处理之后的数据，mean为待归一化处理的数据的均值，var为待归一化处理的数据的方差，scale为缩放参数，bias为偏差参数。应说明的是，scale、bias为配置的待更新模型参数。

S504，根据样本语音和标注文本对配置有待更新的模型参数的候选语音合成模型进行训练，生成第一目标语音合成模型。

本公开的实施例中，可根据样本语音和标注文本对配置有待更新的模型参数的候选语音合成模型进行训练，生成第一目标语音合成模型。

在一种实施方式中，继续以为候选语音合成模型的归一化层配置待更新的模型参数为例，根据样本语音和标注文本对配置有待更新的模型参数的候选语音合成模型进行训练，生成第一目标语音合成模型，可包括根据样本语音和标注文本对配置有待更新的模型参数的归一化层进行训练，生成第一目标语音合成模型。应说明的是，对归一化层进行训练的过程中，仅对归一化层的模型参数进行更新，保持其他模型参数不变。

可以理解的是，通过对归一化层配置待更新的模型参数，并对配置有待更新的模型参数的归一化层进行训练，生成的第一目标语音合成模型可实现个性化语音合成。

综上，根据本公开实施例的语音合成模型的训练方法，可先对初始语音合成模型进行训练，得到候选语音合成模型，然后对配置有待更新的模型参数的候选语音合成模型进行训练，得到第一目标语音合成模型，生成的第一目标语音合成模型可实现个性化语音合成。

本公开还提供了一种语音合成装置，用于实现上述任一语音合成方法。

图6是根据本公开第一实施例的语音合成装置的框图。

如图6所示，本公开实施例的语音合成装置600，包括：第一获取模块601、更新模块602和合成模块603。

第一获取模块601，用于获取目标用户的模型参数；

更新模块602，用于将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数，生成第二目标语音合成模型；

合成模块603，用于获取待合成文本，并将所述待合成文本输入至所述第二目标语音合成模型，其中，所述第二目标语音合成模型用于合成目标语音，所述目标语音具有所述目标用户的语音特征。

在本公开的一个实施例中，所述第二目标语音合成模型用于获取所述待合成文本的目标声学特征，并根据所述目标用户的模型参数对所述目标声学特征进行归一化处理，根据归一化处理后的所述目标声学特征合成所述目标语音。

在本公开的一个实施例中，所述第一获取模块601，还用于：获取所述目标用户的样本语音和所述样本语音对应的标注文本；所述语音合成装置600还包括：调整模块，用于根据所述样本语音和所述标注文本对所述第一目标语音合成模型中的所述待更新模型参数进行调整，直至达到调整结束条件，将最后一次调整后的所述待更新模型参数作为所述目标用户的模型参数。

在本公开的一个实施例中，所述语音合成装置600还包括：存储模块，用于：获取所述目标用户的用户标识；将所述目标用户的模型参数存储至目标存储空间，并建立所述目标存储空间的目标空间标识与所述用户标识之间的关联关系。

在本公开的一个实施例中，所述第一获取模块601，还用于：获取所述目标用户的用户标识；以所述目标用户的用户标识作为查询键值，获取所述目标空间标识；根据所述目标空间标识，在所述目标存储空间中获取所述目标用户的模型参数。

在本公开的一个实施例中，所述合成模块603，还用于：获取所述待合成文本的音素特征；获取所述目标用户的样本语音的第一声学特征；根据所述音素特征和所述第一声学特征，得到所述目标声学特征。

在本公开的一个实施例中，所述合成模块603，还用于：根据所述音素特征和所述第一声学特征，得到第二声学特征；对所述第二声学特征进行至少一个特征维度的调整，得到所述目标声学特征。

在本公开的一个实施例中，所述合成模块603，还用于：将所述待合成文本输入至所述第二目标语音合成模型中的音素特征提取层，基于所述音素特征提取层对所述待合成文本进行音素特征提取，得到所述待合成文本的音素特征；将所述音素特征、所述目标用户的样本语音输入至所述第二目标语音合成模型中的声学特征提取层，基于所述声学特征提取层对所述目标用户的样本语音进行特征提取，得到第一声学特征，将所述音素特征和所述第一声学特征的和值作为第二声学特征；将所述第二声学特征输入至所述第二目标语音合成模型中的特征调整层，基于所述特征调整层对所述第二声学特征进行至少一个特征维度的调整，得到所述目标声学特征。

在本公开的一个实施例中，所述第一声学特征包括用户粒度的声学特征、句子粒度的声学特征和音素粒度的声学特征中的至少一种。

在本公开的一个实施例中，所述特征维度包括时长、基音频率、能量中的至少一种。

综上，本公开实施例的语音合成装置，仅需获取目标用户的模型参数，并利用目标用户的模型参数对第一目标语音合成模型的待更新模型参数进行更新，得到第二目标语音合成模型，并利用第二目标语音合成模型对待合成文本进行语音合成，相较于相关技术中语音合成方法大多需要根据目标用户的样本数据实时训练语音合成模型，大大减少了模型训练次数和语音合成的运算量，易于实现，有助于节省语音合成的成本。

本公开还提供了一种语音合成模型的训练装置，用于实现上述任一语音合成模型的训练方法。

图7是根据本公开第一实施例的语音合成模型的训练装置的框图。

如图7所示，本公开实施例的语音合成模型的训练装置700，包括：第二获取模块701、第一训练模块702、配置模块703和第二训练模块704。

第二获取模块701，用于获取样本用户的样本语音和所述样本语音对应的标注文本；

第一训练模块702，用于根据所述样本语音和所述标注文本对初始语音合成模型进行训练，生成候选语音合成模型；

配置模块703，用于为所述候选语音合成模型配置待更新的模型参数；

第二训练模块704，用于根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练，生成第一目标语音合成模型。

在本公开的一个实施例中，所述配置模块，还用于：为所述候选语音合成模型的归一化层配置所述待更新的模型参数；所述第二训练模块，还用于：根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述归一化层进行训练，生成第一目标语音合成模型。

综上，本公开实施例的语音合成模型的训练装置，可先对初始语音合成模型进行训练，得到候选语音合成模型，然后对配置有待更新的模型参数的候选语音合成模型进行训练，得到第一目标语音合成模型，生成的第一目标语音合成模型可实现个性化语音合成。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如图1至图4所述的语音合成方法。例如，在一些实施例中，语音合成方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的语音合成方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音合成方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现本公开上述实施例所述的语音合成方法，或者执行本公开上述实施例所述的语音合成模型的训练方法。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音合成方法，包括：

获取目标用户的模型参数；

将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数，生成第二目标语音合成模型，所述待更新模型参数为所述第一目标语音合成模型的归一化层的模型参数；

获取待合成文本，并将所述待合成文本输入至所述第二目标语音合成模型，其中，所述第二目标语音合成模型用于合成目标语音，所述目标语音具有所述目标用户的语音特征；所述第二目标语音合成模型还用于获取所述待合成文本的目标声学特征，并根据所述目标用户的模型参数对所述目标声学特征进行归一化处理，根据归一化处理后的所述目标声学特征合成所述目标语音。

2.根据权利要求1所述的方法，其中，所述方法还包括：

获取所述目标用户的样本语音和所述样本语音对应的标注文本；

根据所述样本语音和所述标注文本对所述第一目标语音合成模型中的所述待更新模型参数进行调整，直至达到调整结束条件，将最后一次调整后的所述待更新模型参数作为所述目标用户的模型参数。

3.根据权利要求1所述的方法，其中，所述方法还包括：

获取所述目标用户的用户标识；

将所述目标用户的模型参数存储至目标存储空间，并建立所述目标存储空间的目标空间标识与所述用户标识之间的关联关系。

4.根据权利要求3所述的方法，其中，所述获取目标用户的模型参数，包括：

获取所述目标用户的用户标识；

以所述目标用户的用户标识作为查询键值，获取所述目标空间标识；

根据所述目标空间标识，在所述目标存储空间中获取所述目标用户的模型参数。

5.根据权利要求1所述的方法，其中，所述获取所述待合成文本的目标声学特征，包括：

获取所述待合成文本的音素特征；

获取所述目标用户的样本语音的第一声学特征；

根据所述音素特征和所述第一声学特征，得到所述目标声学特征。

6.根据权利要求5所述的方法，其中，所述根据所述音素特征和所述第一声学特征，得到所述目标声学特征，包括：

根据所述音素特征和所述第一声学特征，得到第二声学特征；

对所述第二声学特征进行至少一个特征维度的调整，得到所述目标声学特征。

7.根据权利要求6所述的方法，其中，所述获取所述待合成文本的目标声学特征，包括：

将所述待合成文本输入至所述第二目标语音合成模型中的音素特征提取层，基于所述音素特征提取层对所述待合成文本进行音素特征提取，得到所述待合成文本的音素特征；

将所述音素特征、所述目标用户的样本语音输入至所述第二目标语音合成模型中的声学特征提取层，基于所述声学特征提取层对所述目标用户的样本语音进行特征提取，得到第一声学特征，将所述音素特征和所述第一声学特征的和值作为第二声学特征；

将所述第二声学特征输入至所述第二目标语音合成模型中的特征调整层，基于所述特征调整层对所述第二声学特征进行至少一个特征维度的调整，得到所述目标声学特征。

8.根据权利要求5所述的方法，其中，所述第一声学特征包括用户粒度的声学特征、句子粒度的声学特征和音素粒度的声学特征中的至少一种。

9.根据权利要求6或7所述的方法，其中，所述特征维度包括时长、基音频率、能量中的至少一种。

10.一种语音合成模型的训练方法，包括：

获取样本用户的样本语音和所述样本语音对应的标注文本；

根据所述样本语音和所述标注文本对初始语音合成模型进行训练，生成候选语音合成模型；

为所述候选语音合成模型配置待更新的模型参数；

根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练，生成第一目标语音合成模型，所述第一目标语音合成模型用于如权利要求1-9任一项所述的语音合成方法。

11.根据权利要求10所述的方法，其中，所述为所述候选语音合成模型配置待更新的模型参数，包括：

为所述候选语音合成模型的归一化层配置所述待更新的模型参数；

所述根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练，生成第一目标语音合成模型，包括：

根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述归一化层进行训练，生成第一目标语音合成模型。

12.一种语音合成装置，包括：

第一获取模块，用于获取目标用户的模型参数；

更新模块，用于将第一目标语音合成模型的待更新模型参数更新为所述目标用户的模型参数，生成第二目标语音合成模型，所述待更新模型参数为所述第一目标语音合成模型的归一化层的模型参数；

合成模块，用于获取待合成文本，并将所述待合成文本输入至所述第二目标语音合成模型，其中，所述第二目标语音合成模型用于合成目标语音，所述目标语音具有所述目标用户的语音特征，所述第二目标语音合成模型还用于获取所述待合成文本的目标声学特征，并根据所述目标用户的模型参数对所述目标声学特征进行归一化处理，根据归一化处理后的所述目标声学特征合成所述目标语音。

13.根据权利要求12所述的装置，其中，所述第一获取模块，还用于：

所述装置还包括：调整模块，用于根据所述样本语音和所述标注文本对所述第一目标语音合成模型中的所述待更新模型参数进行调整，直至达到调整结束条件，将最后一次调整后的所述待更新模型参数作为所述目标用户的模型参数。

14.根据权利要求12所述的装置，其中，所述装置还包括：存储模块，用于：

获取所述目标用户的用户标识；

15.根据权利要求14所述的装置，其中，所述第一获取模块，还用于：

获取所述目标用户的用户标识；

16.根据权利要求12所述的装置，其中，所述合成模块，还用于：

获取所述待合成文本的音素特征；

获取所述目标用户的样本语音的第一声学特征；

17.根据权利要求16所述的装置，其中，所述合成模块，还用于：

18.根据权利要求17所述的装置，其中，所述合成模块，还用于：

19.根据权利要求16所述的装置，其中，所述第一声学特征包括用户粒度的声学特征、句子粒度的声学特征和音素粒度的声学特征中的至少一种。

20.根据权利要求17或18所述的装置，其中，所述特征维度包括时长、基音频率、能量中的至少一种。

21.一种语音合成模型的训练装置，包括：

第二获取模块，用于获取样本用户的样本语音和所述样本语音对应的标注文本；

第一训练模块，用于根据所述样本语音和所述标注文本对初始语音合成模型进行训练，生成候选语音合成模型；

配置模块，用于为所述候选语音合成模型配置待更新的模型参数；

第二训练模块，用于根据所述样本语音和所述标注文本对配置有所述待更新的模型参数的所述候选语音合成模型进行训练，生成第一目标语音合成模型，所述第一目标语音合成模型用于如权利要求1-9任一项所述的语音合成方法。

22.根据权利要求21所述的装置，其中，所述配置模块，还用于：

所述第二训练模块，还用于：

23. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的语音合成方法，或者执行权利要求10-11中任一项所述的语音合成模型的训练方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的语音合成方法，或者执行权利要求10-11中任一项所述的语音合成模型的训练方法。