CN112992177B

CN112992177B - 语音风格迁移模型的训练方法、装置、设备及存储介质

Info

Publication number: CN112992177B
Application number: CN202110192901.5A
Authority: CN
Inventors: 孙奥兰; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2023-10-17
Anticipated expiration: 2041-02-20
Also published as: CN112992177A

Abstract

本申请涉及人工智能技术领域，公开了一种语音风格迁移模型的训练方法、装置、设备及存储介质，该方法包括：通过基于预置神经网络模型，根据第一梅尔语谱信息和第二梅尔语谱信息得到第一更新参数；将第一梅尔语谱信息和第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；通过第二梅尔语谱信息确定第一内容奖励参数；根据第一风格奖励参数和第一内容奖励参数，获取第二更新参数；通过第一更新参数和第二更新参数对预置神经网络模型的模型参数进行更新生成对应的语音风格迁移模型，实现音频到音频的风格迁移，且分类器可以实现细粒度的风格迁移，还从风格奖励和内容奖励两个维度完成源音频到目标音频的转换，无需收集大量目标音频语料。

Description

语音风格迁移模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音风格迁移模型的训练方法、装置、计算机设备及计算机可读存储介质。

背景技术

近年来，随着神经网络的成功，文本转语音(Text-To-Speech TTS)的发展也搭上了快班车，基本上实现了端到端的语音合成。基于声谱预测网络(Tacotron2)改进的各种模型一定程度上改进了合成语音的自然度，但缺乏对说话人韵律和风格的控制，随着信息社会需求的快速发展，对语音交互提出了更高的要求，其细分领域包括风格迁移、跨语种合成等。

所谓语音风格迁移即对说话人的音色、风格、情感等特征进行抽取，在推理阶段对抽取的特征向量进行特定操作后再生成声音波形，以实现细粒度的风格迁移。如谷歌提出的无监督风格建模，通过Global Style Tokens实现风格迁移。又如腾讯AILab提出的Duration Informed Attention Network For Multimodal Synthesis(DurIAN)对styleembedding进行建模，把嵌入向量的方向看作不同的情绪属性，把数值大小看作情绪的强弱程度，然后固定向量的方向只改变数值大小即可完成细粒度风格迁移。但由于语音的情感数据集以及平行说话人数据集较为缺乏，无法通过少量的语音的情感数据集以及平行说话人数据集完成语音风格迁移模型的训练。

发明内容

本申请的主要目的在于提供一种语音风格迁移模型的训练方法、装置、计算机设备及计算机可读存储介质，旨在解决现有语音的情感数据集以及平行说话人数据集较为缺乏，无法通过少量的语音的情感数据集以及平行说话人数据集完成语音风格迁移模型的训练的技术问题。

第一方面，本申请提供一种语音风格迁移模型的训练方法，所述语音风格迁移模型的训练方法包括以下步骤：

将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息；

基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数；

将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；

通过所述第二梅尔语谱信息确定第一内容奖励参数；

根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数；

通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数；

通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型。

第二方面，本申请还提供一种语音风格迁移模型的训练装置，所述语音风格迁移模型的训练装置包括：

第一获取模块，用于将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息；

第二获取模块，用于基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数；

第三获取模块，用于将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；

第一确定模块，用于通过所述第二梅尔语谱信息确定第一内容奖励参数；

第二确定模块，用于根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数；

第四获取模块，用于通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数；

生成模块，用于通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上述的语音风格迁移模型的训练方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上述的语音风格迁移模型的训练方法的步骤。

本申请提供一种语音风格迁移模型的训练方法、装置、计算机设备及计算机可读存储介质，通过将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息；基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数；将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；通过所述第二梅尔语谱信息确定第一内容奖励参数；根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数；通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数；通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型，实现音频到音频的风格迁移，且针对分类器作进调整可以实现细粒度的风格迁移，还从风格奖励和内容奖励两个维度完成源音频到目标音频的转换，仅需一条目标音频即可实现源音频到目标音频的转换，无需收集大量目标音频语料。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音风格迁移模型的训练方法的流程示意图；

图2为图1中的语音风格迁移模型的训练方法的子步骤流程示意图；

图3为本申请实施例提供的另一种语音风格迁移模型的训练方法的流程示意图；

图4为图3中的语音风格迁移模型的训练方法的子步骤流程示意图；

图5为本申请实施例提供的另一种语音风格迁移模型的训练方法的流程示意图；

图6为本申请实施例提供的一种语音风格迁移模型的训练装置的示意性框图；

图7为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请实施例提供一种语音风格迁移模型的训练方法、装置、计算机设备及计算机可读存储介质。其中，该语音风格迁移模型的训练方法可应用于计算机设备中，该计算机设备可以是笔记本电脑、台式电脑等电子设备。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请的实施例提供的一种语音风格迁移模型的训练方法的流程示意图。

如图1所示，该语音风格迁移模型的训练方法包括步骤S101至步骤S107。

步骤S101、将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息。

示范性的，获取第一风格音频和第二风格音频，其中，获取的方式包括通过预置存储路径获取预先存储的第一风格音频和第二风格音频，或者，从预置区块链中获取预先存储的第一风格音频和第二风格音频。第一风格音频和第二风格音频为相同内容的不同说话人音频。例如，第一人用高兴风格读取目标文本的音频为第一风格音频，第二人用户悲伤风格读取目标文本的音频为第二风格音频。在获取到第一风格音频和第二风格音频时，分别对第一风格音频和第风格音频进行处理，得到第一风格音频音频的第一梅尔语谱信息和第二风格音频对应的第二梅尔语谱信息，其中处理的方式包括短时傅里叶变换等。

步骤S102、基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数。

示范性的，获取预置神经网络模型，通过第一梅尔语谱信息和第二梅尔语谱信息对预置神经网络模型进行训练，获取训练后该预置神经网络模型当前的模型参数，将该模型参数作为第一更新参数。

在一实施例中，具体地，参照图2，步骤S102包括：子步骤S1021至子步骤S1022。

子步骤S1021、将所述第一梅尔语谱信息和所述第二梅尔语谱信息分别输入所述第一预置神经网络模型。

示范性的，在获取到第一梅尔语谱信息和第二梅尔语谱信息时，分别将第一梅尔语谱信息和第二梅尔语谱信息输入到第一预置神经网络模型中，该第一预置神经网络模型可以表示为f_θ。

子步骤S1022、通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数。

示范性的，将第一梅尔语谱信息和第二梅尔语谱信息输入到第一预置神经网络模型f_θ中，通过第一梅尔语谱信息和第二梅尔语谱信息对第一预置神经网络模型f_θ进行模型训练，得到训练后的模型参数，将该模型参数作为第一更新参数。例如，通过第一梅尔语谱信息和第二梅尔语谱信息训练第一预置神经网络模型f_θ的权重矩阵，得到损失函数。通过计算损失函数得到模型参数，将模型参数作为第一更新参数。

在一实施例中，所述第一预置神经网络模型包括第一解码器、第一编码器和第一全连接层；通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数，包括：通过所述第一编码器对所述第一梅尔语谱信息进行编码，得到对应的第一隐状态矩阵信息；通过所述第一解码器对所述隐状态矩阵信息和所述第二梅尔语谱信息解码，获取对应的第一隐状态向量信息；将所述第一隐状态向量信息输入所述第一全连接层，并通过所述第一全连接层中的激活函数，得到对应的第一更新参数。

示范性的，该第一预置神经网络模型f_θ包括第一编码器，当将第一梅尔语谱信息输入到第一预置神经网络模型f_θ中时，通过该第一预置神经网络模型f_θ中的第一编码器对该第一梅尔语谱信息进行编码，得到对应的第一隐状态矩阵信息。例如，输入的梅尔语谱信息包括数量、帧长、维度向量，其中数量为32，帧长按最大帧长做补齐到最大帧长，维度向量80，最后一层的输出即第一编码器编码后的第一隐状态矩阵h。

该第一预置神经网络模型f_θ包括第一解码器，在获取到第一隐状态矩阵信息时，将输入的第二梅尔语谱信息与该第一隐状态矩阵信息输入到第一解码器中，通过该第一解码器对该第二梅尔语谱信息与该第一隐状态矩阵信息进行解码，得到对应的第一隐状态向量信息。例如，第一解码器接收两个输入，一个来自源说话人梅尔声谱经过第一编码器编码后的第一隐状态矩阵h、另外一个输入是目标说话人的第二梅尔语谱信息，其中，该第二梅尔语谱信息为插起始帧，80维全为-1的列向量，通过第一解码器对第一隐状态矩阵h和第二梅尔语谱信息进行解码，得到对应的隐状态向量信息。

该第一预置神经网络模型f_θ包括第一全连接层，在获取到第一隐状态向量信息时，将该第一隐状态向量信息输入到第一全连接层中，通过该第一全连接层中的激活函数对该第一隐状态向量信息进行计算，得到对应的第一更新参数。

步骤S103、将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数。

示范性的，将获取到的第一梅尔语谱信息和第二梅尔语谱信息输入到预置分类器中，通过该预置分类器中的激活函数对该第一梅尔语谱信息和第二梅尔语谱信息计算，得到对应的第一风格奖励参数，其中，该预置分类器为预先通过不同梅尔语谱信息进行训练得到的。例如，预训练一个风格分类器，该分类器以梅尔声谱图作为输入，叠加两层Conv2D和MaxPooling2D，最后接上两个全连接层输入风格分类的概率。其中，风格分类器结构为两层Cov2D和MaxPooling堆叠，然后接2层Dense层，最后一层神经元为1，激活函数为sigmoid。接收的输入为经过padding后的目标说话人梅尔声谱，形状为batch_size,、mel_frames、mel_dims、1，最后一维的1表示灰度图，图像只有一个channel。网络输出的概率小于0.5表示源说话人风格，大于等于0.5表示目标说话人风格。

通过将该第一梅尔语谱信息和第二梅尔语谱信息输入到预置分类器中，通过该预置分类器中的sigmoid激活函数计算出对应的概率，该概率即第一风格奖励参数R_s。

步骤S104、通过所述第二梅尔语谱信息确定第一内容奖励参数。

示范性的，在获取到第二梅尔语谱信息时，确定该第二梅尔语谱信息的第一内容奖励参数R_c为1。例如，当获取到第二梅尔语谱信息时，该第二梅尔语谱信息没有相似的梅尔语谱信息时，确定该第二梅尔语谱信息的第一内容奖励参数R_c为1。

步骤S105、根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数。

示范性的，在获取到第一风格奖励参数R_s和第一内容奖励参数R_c时，通过预置调和平均把参数，确定对应的第一调和平均参数。例如，获取到预置调和平均参数为其中，R_s为第一风格奖励参数，R_c为第一内容奖励参数，R为第一调和平均参数。

步骤S106、通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数。

示范性的，在获取到第一调和平均参数时，通过预置策略梯度算法对该第一调和平均参数进行计算，得到对应的第二更新参数。

步骤S107、通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型。

示范性的，在获取到第一更新参数和第二更新参数时，通过该第一更新参数和第一更新参数对预置模型的模型参数进行更新，生成的语音风格迁移模型。

在一实施例中，所述预置神经网络模型包括第一预置神经网络模型；所述通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型，包括：通过所述第一更新参数和所述第二更新参数对所述第一预置神经网络模型的模型参数进行更新；确定所述第一预置神经网络模型是否处于收敛状态；若所述第一预置神经网络处于收敛状态，则将所述第一预置神经网络作为语音风格迁移模型。

示范性的，通过第一更新参数和第二更新参数对第一预置神经网络模型的模型参数进行更新，当对该第一预置神经网络模型进行更新后，检测更新后的第一预置神经网络模型，确定该第一预置神经网络模型是否处于收敛撞状态，若确定该第一预置神经网络模型处于收敛状态，则将该第一预置神经网络模型作为语音风格迁移模型。例如，确定该第一预置神经网模型的是否处于收敛状态包括获取当前第一预置神经网络模型的梯度值，将该梯度值与预置梯度值进行比对，若该梯度值小于或等于预置梯度值，则确定该第一预置神经网络模型处于收敛状态；若该梯度值大于预置梯度值，则确定第一预置神经网络模型不处于收敛状态。

在本申请实施例中，通过第一风格音频和第二风格音频训练预置神经网络模型，得到对应的第一更新参数，以及通过第一风格音频和第二风格音频得到第一风格奖励参数，通过第二风格音频确定第一内容奖励参数，通过第一风格奖励参数和第一内容奖励参数得到第二更新参数，并通过第一更新参数和第二更新参数对预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型，实现音频到音频的风格迁移，且针对分类器作进调整可以实现细粒度的风格迁移，还从风格奖励和内容奖励两个维度完成源音频到目标音频的转换，仅需一条目标音频即可实现源音频到目标音频的转换，无需收集大量目标音频语料。

请参照图3，图3为本申请的实施例提供的另一种语音风格迁移模型的训练方法的流程示意图。

如图3所示，该语音风格迁移模型的训练方法包括步骤S201至步骤S207。

步骤S201、若所述第一预置神经网络模型不处于收敛状态，则获取第三风格音频对应的第三梅尔语谱信息。

示范性的，若确定该第一预置神经网络模型不处于收敛状态时，则获取第三风格音频对应的第三梅尔语谱信息。例如，在确定该第一预置神经网络模型f_θ不处于收敛状态，则获取第三风格音频。在获取到第三风格音频时，通过短时傅里叶对该第三风格音频进行变换，得到对应的第三梅尔语谱信息。

步骤S202、通过所述第三风格音频对所述第一预置神经网络模型进行训练，得到对应的第三更新参数和第四梅尔语谱信息。

示范性的，该第一预置神经网络模型f_θ包括第一编码器，当将第三梅尔语谱信息输入到第一预置神经网络模型f_θ中时，通过该第一预置神经网络模型f_θ中的第一编码器对该第三梅尔语谱信息进行编码，得到对应的第三隐状态矩阵信息。例如，输入的第三梅尔语谱信息包括数量、帧长、维度向量，其中数量为32，帧长按最大帧长做补齐到最大帧长，维度向量80，最后一层的输出即第一编码器编码后的第三隐状态矩阵h。

该第一预置神经网络模型f_θ包括第一解码器，在获取到第二隐状态矩阵信息时，将输入的第二梅尔语谱信息与该第三隐状态矩阵信息输入到第一解码器中，通过该第一解码器对第三隐状态矩阵信息进行解码，得到对应的第三隐状态向量信息。例如，第一解码器接收来自源说话人梅尔声谱经过第一编码器编码后的第三隐状态矩阵h，得到对应的第三隐状态向量信息。

该第一预置神经网络模型f_θ包括第一全连接层，在获取到第三隐状态向量信息时，将该第三隐状态向量信息输入到第一全连接层中，通过该第一全连接层中的激活函数对该第三隐状态向量信息进行计算，得到对应的第三更新参数，并输出该第三梅尔语谱信息对应的第四梅尔语谱信息。

步骤S203、将所述第三梅尔语谱信息和所述第四梅尔语谱信息输入所述预置分类器，得到对应第二风格奖励参数。

示范性的，将获取到的第三梅尔语谱信息和第四梅尔语谱信息输入到预置分类器中，通过该预置分类器中的激活函数对该第三梅尔语谱信息和第四梅尔语谱信息计算，得到对应的第二风格奖励参数，其中，该预置分类器为预先通过不同梅尔语谱信息进行训练得到的。例如，预训练一个风格分类器，该分类器以梅尔声谱图作为输入，叠加两层Conv2D和MaxPooling2D，最后接上两个全连接层输入风格分类的概率。其中，风格分类器结构为两层Cov2D和MaxPooling堆叠，然后接2层Dense层，最后一层神经元为1，激活函数为sigmoid。接收的输入为经过padding后的目标说话人梅尔声谱，形状为batch_size,、mel_frames、mel_dims、1，最后一维的1表示灰度图，图像只有一个channel。网络输出的概率小于0.5表示源说话人风格，大于等于0.5表示目标说话人风格。

通过将该第三梅尔语谱信息和第四梅尔语谱信息输入到预置分类器中，通过该预置分类器中的sigmoid激活函数计算出对应的概率，该概率即第二风格奖励参数R_s。

步骤S204、根据所述第二预置神经网络模型和所述第四梅尔语谱信息，获取第二内容奖励参数。

示范性的，该预置神经网络模型包括第二预置神经网络模型g_θ，在获取到第四梅尔语谱信息时，将第四梅尔语谱信息输入到第二预置神经网络模型g_θ中，该第二预置神经模型g_θ与该第一预置神经网络模型f_θ的模型结构相同。例如，第一预置神经网络模型f_θ将源说话人风格音频迁移为目标说话人风格风格音频，第二预置神经模型g_θ将目标说话人风格风格音频迁移为源说话人风格音频。通过第二预置神经模型g_θ，得到该第四梅尔语谱信息对应的第五梅尔语谱信息，通过第三梅尔语谱信息和第五梅尔语谱信息，得到对应的第二内容奖励参数。

在一实施例中，具体地，参照图4，步骤S204包括：子步骤S2041至子步骤S2044。

子步骤S2041、通过所述第二编码器对所述第四梅尔语谱信息进行编码，得到对应的第二隐状态矩阵信息。

示范性的，该第二预置神经网络模型g_θ包括第二编码器，当将第四梅尔语谱信息输入到第二预置神经网络模型g_θ中时，通过该第二预置神经网络模型g_θ中的第二编码器对该第四梅尔语谱信息进行编码，得到对应的第二隐状态矩阵信息。例如，输入的第四梅尔语谱信息包括数量、帧长、维度向量，其中数量为32，帧长按最大帧长做补齐到最大帧长，维度向量80，最后一层的输出即第二编码器编码后的第二隐状态矩阵h。

子步骤S2042、将所述隐状态矩阵信息输入所述第二解码器，获取对应的第二隐状态向量信息。

示范性的，该第二预置神经网络模型g_θ包括第二解码器，在获取到第二隐状态矩阵信息时，将输入该第二隐状态矩阵信息输入到第二解码器中，通过该第二解码器对该第二隐状态矩阵信息进行解码，得到对应的第二隐状态向量信息。例如，第二解码器接收来自源说话人梅尔声谱经过第二编码器编码后的第二隐状态矩阵h，得到对应的第二隐状态向量信息。

子步骤S2043、将所述第二隐状态向量信息输入所述第二全连接层，获取第五梅尔语谱信息。

示范性的，该第二预置神经网络模型g_θ包括第二全连接层，在获取到第二隐状态向量信息时，将该第二隐状态向量信息输入到第二全连接层中，通过该第二全连接层中的激活函数对该第二隐状态向量信息进行计算，输出第四梅尔语谱信息对应的第五梅尔语谱信息。

子步骤S2044、计算所述第三梅尔语谱信息与所述第五梅尔语谱信息之间的相似度，将所述相似度作为第二内容奖励参数。

示范性的，在获取到第五梅尔语谱信息时，将获取到的第五梅尔语谱信息与第三梅尔语谱信息进行比对，确定该第三梅尔语谱信息与第五梅尔语谱信息之间的相似度。在得到第三梅尔语谱信息与第五梅尔语谱信息之间的相似度时，将该第三梅尔语谱信息与第五梅尔语谱信息之间的相似度作为第二内容奖励参数。

步骤S205、根据所述第二风格奖励参数和所述第二内容奖励参数，确定第二调和平均参数。

示范性的，在获取到第二风格奖励参数R_s和第二内容奖励参数R_c时，通过预置调和平均把参数，确定对应的第二调和平均参数。例如，获取到预置调和平均参数为其中，R_s为第二风格奖励参数，R_c为第二内容奖励参数，R为第二调和平均参数。

步骤S206、通过预置策略梯度算法对所述第二调和平均参数进行计算，获取第四更新参数。

示范性的，在获取到第二调和平均参数时，通过预置策略梯度算法对该第二调和平均参数进行计算，得到对应的第四更新参数。

步骤S207、通过所述第三更新参数和所述第四更新参数继续更新所述第一预置神经网络模型的模型参数，使所述第一预置神经网络模型处于收敛状态，并生成对应的语音风格迁移模型。

示范性的，在获取到第三更新参数和第四更新参数时，通过该第三更新参数和第四更新参数对第一预置模型的模型参数进行更新，使第一预置神经网络模型处于收敛状态，生成的语音风格迁移模型。

在本申请实施例中，在第一预置神经网络模型不处于收敛状态时，通过获取第三梅尔语谱信息训练第一预置神经网络模型，得到第三更新参数以及第四梅尔语谱信息，并通过第四梅尔语谱信息和第二预置神经网络模型，得到第二内容奖励参数，通过第三梅尔语谱信息和第四梅尔语谱信息，得到第二风格奖励参数，通过第二内容奖励参数和第二风格奖励参数，得到第四更新参数，通过第三更新参数和第四更新参数更新第一预置神经网络模型，以使第一预置神经网络模型处于收敛状态，生成的语音风格迁移模型，从而实现在模型没有处于收敛状态时，通过获取第三梅尔语谱信息以及第二预置神经网络模型，得到第三更新参数和第四更系参数，使模型达到收敛状态，提高语音风格迁移模型的准确率。

请参照图5，图5为本申请的实施例提供的另一种语音风格迁移模型的训练方法的流程示意图。

如图5所示，该语音风格迁移模型的训练方法包括步骤S301至步骤S302。

步骤S301、获取待风格迁移音频，并将所述待风格迁移音频转换为待风格迁移梅尔语谱信息；

示范性的，获取待风格迁移音频，并将待风格迁移音频转换为待风格迁移梅尔语谱信息，该转换的方式包括短时傅里叶变换。例如，通过短时傅里叶变换将待风格迁移音频转换为待风格迁移梅尔语谱信息。

步骤S302、将所述待风格迁移梅尔语谱信息输入所述语音风格迁移模型，获取所述语音风格迁移模型输出对应的风格迁移音频。

示范性的，将待风格迁移梅尔语谱信息输入语音风格迁移模型，通过该语音风格迁移模型中的编码器、解码器以及全连接层对该待风格迁移梅尔语谱信息进行处理，得到对应的风格迁移梅尔语谱信息，并输出该风格迁移梅尔语谱信息对应的风格迁移音频。

在本发明实施例中，通过生成的语音风格迁移模型，快速的将待风格迁移梅尔语谱信息变换为对应的风格迁移音频，实现音频到音频的风格迁移。

请参照图6，图6为本申请实施例提供的一种语音风格迁移模型的训练装置的示意性框图。

如图6所示，该语音风格迁移模型的训练装置400，包括：第一获取模块401、第二获取模块402、第三获取模块403、第一确定模块404、第二确定模块405、第四获取模块406、生成模块407。

第一获取模块401，用于将获取到的第一风格音频和第二风格音频分别进行预处理，得到所述第一风格音频对应的第一梅尔语谱信息和所述第二风格音频对应的第二梅尔语谱信息；

第二获取模块402，用于基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数；

第三获取模块403，用于将所述第一梅尔语谱信息和所述第二梅尔语谱信息输入到预置分类器，得到对应第一风格奖励参数；

第一确定模块404，用于通过所述第二梅尔语谱信息确定第一内容奖励参数；

第二确定模块405，用于根据所述第一风格奖励参数和所述第一内容奖励参数，确定第一调和平均参数；

第四获取模块406，用于通过预置策略梯度算法对所述第一调和平均参数进行计算，获取第二更新参数；

生成模块407，用于通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型。

其中，第二获取模块402具体还用于：

将所述第一梅尔语谱信息和所述第二梅尔语谱信息分别输入所述第一预置神经网络模型；

通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数。

其中，第二获取模块402具体还用于：

通过所述第一编码器对所述第一梅尔语谱信息进行编码，得到对应的第一隐状态矩阵信息；

通过所述第一解码器对所述隐状态矩阵信息和所述第二梅尔语谱信息解码，获取对应的第一隐状态向量信息；

将所述第一隐状态向量信息输入所述第一全连接层，并通过所述第一全连接层中的激活函数，得到对应的第一更新参数。

其中，生成模块407具体还用于：

通过所述第一更新参数和所述第二更新参数对所述第一预置神经网络模型的模型参数进行更新；

确定所述第一预置神经网络模型是否处于收敛状态；

若所述第一预置神经网络处于收敛状态，则将所述第一预置神经网络作为语音风格迁移模型。

其中，语音风格迁移模型的训练装置还用于：

若所述第一预置神经网络模型不处于收敛状态，则获取第三风格音频对应的第三梅尔语谱信息；

通过所述第三风格音频对所述第一预置神经网络模型进行训练，得到对应的第三更新参数和第四梅尔语谱信息；

将所述第三梅尔语谱信息和所述第四梅尔语谱信息输入所述预置分类器，得到对应第二风格奖励参数；

根据所述第二预置神经网络模型和所述第四梅尔语谱信息，获取第二内容奖励参数；

根据所述第二风格奖励参数和所述第二内容奖励参数，确定第二调和平均参数；

通过预置策略梯度算法对所述第二调和平均参数进行计算，获取第四更新参数；

通过所述第三更新参数和所述第四更新参数继续更新所述第一预置神经网络模型的模型参数，使所述第一预置神经网络模型处于收敛状态，并生成对应的语音风格迁移模型。

其中，语音风格迁移模型的训练装置还用于：

通过所述第二编码器对所述第四梅尔语谱信息进行编码，得到对应的第二隐状态矩阵信息；

将所述隐状态矩阵信息输入所述第二解码器，获取对应的第二隐状态向量信息；

将所述第二隐状态向量信息输入所述第二全连接层，获取第五梅尔语谱信息；

计算所述第三梅尔语谱信息与所述第五梅尔语谱信息之间的相似度，将所述相似度作为第二内容奖励参数。

其中，语音风格迁移模型的训练装置还用于：

获取待风格迁移音频，并将所述待风格迁移音频转换为待风格迁移梅尔语谱信息；

将所述待风格迁移梅尔语谱信息输入所述语音风格迁移模型，获取所述语音风格迁移模型输出对应的风格迁移音频。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述语音风格迁移模型的训练方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。

如图7所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种语音风格迁移模型的训练方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种语音风格迁移模型的训练方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

通过所述第二梅尔语谱信息确定第一内容奖励参数；

在一个实施例中，所述处理器所述预置神经网络模型包括第一预置神经网络模型；

所述基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数实现时，用于实现：

在一个实施例中，所述处理器所述第一预置神经网络模型包括第一解码器、第一编码器和第一全连接层；

通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数实现时，用于实现：

所述通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型实现时，用于实现：

确定所述第一预置神经网络模型是否处于收敛状态；

在一个实施例中，所述处理器所述预置神经网络模型包括第二预置神经网路模型；

所述确定所述第一预置神经网络模型是否处于收敛状态之后实现时，用于实现：

在一个实施例中，所述处理器所述第二预置神经网络模型包括第二解码器、第二编码器和第二全连接层；

根据所述第二预置神经网络模型和所述第四梅尔语谱信息，获取第二内容奖励参数实现时，用于实现：

在一个实施例中，所述处理器所述生成对应的语音风格迁移模型之后实现时，用于实现：

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请语音风格迁移模型的训练方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是预置神经网络模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音风格迁移模型的训练方法，其特征在于，包括：

通过所述第二梅尔语谱信息确定第一内容奖励参数；

2.如权利要求1所述的语音风格迁移模型的训练方法，其特征在于，所述预置神经网络模型包括第一预置神经网络模型；

所述基于预置神经网络模型，根据所述第一梅尔语谱信息和所述第二梅尔语谱信息得到第一更新参数，包括；

3.如权利要求2所述的语音风格迁移模型的训练方法，其特征在于，所述第一预置神经网络模型包括第一解码器、第一编码器和第一全连接层；

通过所述第一梅尔语谱信息和所述第二梅尔语谱信息对所述第一预置神经网络模型进行训练，得到对应的第一更新参数，包括：

4.如权利要求1所述的语音风格迁移模型的训练方法，其特征在于，所述预置神经网络模型包括第一预置神经网络模型；

所述通过所述第一更新参数和所述第二更新参数对所述预置神经网络模型的模型参数进行更新，生成对应的语音风格迁移模型，包括：

确定所述第一预置神经网络模型是否处于收敛状态；

5.如权利要求4所述的语音风格迁移模型的训练方法，其特征在于，所述预置神经网络模型包括第二预置神经网络模型；

所述确定所述第一预置神经网络模型是否处于收敛状态之后，还包括：

6.如权利要求5所述的语音风格迁移模型的训练方法，其特征在于，所述第二预置神经网络模型包括第二解码器、第二编码器和第二全连接层；

根据所述第二预置神经网络模型和所述第四梅尔语谱信息，获取第二内容奖励参数，包括：

7.如权利要求1或5所述的语音风格迁移模型的训练方法，其特征在于，所述生成对应的语音风格迁移模型之后，包括：

8.一种语音风格迁移模型的训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的语音风格迁移模型的训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的语音风格迁移模型的训练方法的步骤。