CN115273777A

CN115273777A - 声音转换模型的更新方法及应用方法

Info

Publication number: CN115273777A
Application number: CN202210871827.4A
Authority: CN
Inventors: 王斌
Original assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Current assignee: Shanghai Movu Technology Co Ltd; Mofa Shanghai Information Technology Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-01

Abstract

本申请公开了一种声音转换模型的更新方法及应用方法，涉及计算机技术领域，该方案无需花费大量时间和成本采集新音色的样本音频。该方法包括：步骤A：调用声音转换模型对第一音频信号和目标音色的第二音频信号进行特征处理得到第三音频信号；步骤B：调用声音转换模型对第一音频信号和第三音频信号进行特征处理得到重构的第一音频信号；步骤C：确定第一音频信号与重构的第一音频信号的接近程度参数是否满足终止条件；步骤D：若不满足终止条件则基于接近程度参数对声音转换模型的参数进行更新，并在更新后重复执行步骤A至步骤C直至确定满足终止条件；在满足终止条件的情况下获取最后一次更新的声音转换模型。

Description

声音转换模型的更新方法及应用方法

技术领域

本申请涉及计算机技术领域，尤其涉及一种声音转换模型的更新方法及应用方法。

背景技术

目前，基于声音转换(voice conversion，VC)算法训练得到的声音转换模型，可实现在语义内容不变的情况下对音色的转换。比如，基于VC算法训练得到的声音转换模型可实现将动漫人物A的声音转换为动漫人物B的音频，但原始声音中所具备的韵律信息(如顿挫、重读、语速等)却无法进行灵活调整。

由于在训练声音转换模型的过程中无法采集所有可能的音色的音频，所以声音转换模型难以实现对任意音色的转换功能，并且对于训练音频数据需要原始音色和目标音色内容一致或者对于训练数据的语义范围有限制，训练数据量大，成本高。

现有的，当需要增加新的目标音色的转换功能时，需采集新音色的样本音频重新对声音转换模型进行更新，以使更新后的声音转换模型支持对新音色的转换功能。然而，现有在对声音转换模型进行更新时，需要花费大量的时间和成本采集较多的新音色的样本音频。

发明内容

本申请提供一种声音转换模型的更新方法及应用方法，该方案无需花费大量时间和成本采集新音色的样本音频，即可以实现对输入的音频信号进行音色转换，生成具有目标音色的音频。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请提供一种声音转换模型的更新方法，包括：步骤A：调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号；第二音频信号为目标音色的音频信号；步骤B：调用声音转换模型对第一音频信号和第三音频信号进行特征处理，得到重构的第一音频信号；步骤C：确定第一音频信号与重构的第一音频信号的接近程度参数是否满足终止条件；步骤D：在确定接近程度参数不满足终止条件的情况下，基于接近程度参数对声音转换模型的参数进行更新，并在更新后重复执行步骤A至步骤C，直至确定接近程度参数满足终止条件；在确定接近程度参数满足终止条件的情况下，获取最后一次更新的声音转换模型。

本申请提供的技术方案中，为了实现对输入音色转换为目标音色的功能，可以调用声音转换模型对第一音频信号和目标音色对应的第二音频信号进行特征处理得到第三音频信号，然后可以基于得到的第三音频信号和第一音频信号重构第一音频信号，之后可以基于第一音频信号与重构的第一音频信号的接近程度参数对声音转换模型的参数进行更新，反复执行上述步骤直至接近程度参数满足终止条件，在确定所述接近程度参数满足所述终止条件的情况下，获取最后一次更新的声音转换模型。当第一音频信号与重构的第一音频信号的接近程度参数满足终止条件时，表示当前声音转换模型可以很好的实现对第一音频信号的重构，也即是当前声音转换模型对声音转换过程中的各种特征(包括目标音色)有很好的捕获能力，可以实现对目标音色的转换功能。可以看出，本申请提供的技术方案中，通过对第一音频信号进行重构，并基于第一音频信号与重构的第一音频信号的接近程度参数对声音转换模型进行更新，可以实现对输入的音频信号进行音色转换，生成具有目标音色的音频，同时可以实现将输入的音频信号的音色转换成新增目标音色的转换功能，这样，无需花费大量的时间和成本采集较多的新音色的样本音频。

而本申请实施例中，能够实现在转换音色的同时按照用户的需求对输出声音的韵律特征进行有针对性的调整，从而能够进一步提升直播场景中声音的丰富性和表达力。

可选的，在一种可能的设计方式中，声音转换模型由预设声音识别模型、第一编码器、第二编码器和解码器构成，上述“调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号”可以包括：通过预设声音识别模型提取第一音频信号的第一语义内容，并通过第一编码器提取第一音频信号的至少一个第一韵律特征向量，且通过第二编码器提取第二音频信号的第二音色特征向量；通过解码器对第一语义内容、至少一个第一韵律特征向量和第二音色特征向量进行音频合成处理，得到第三音频信号；

调用声音转换模型对第一音频信号和第三音频信号进行特征处理，得到重构的第一音频信号可以包括：通过预设声音识别模型提取第三音频信号的第二语义内容，并通过第一编码器提取第三音频信号的至少一个第二韵律特征向量，且通过第二编码器提取第一音频信号的第一音色特征向量；通过解码器对第二语义内容、至少一个第二韵律特征向量和第一音色特征向量进行音频合成处理，得到重构的第一音频信号。

可选的，在另一种可能的设计方式中，接近程度参数至少包括第一音频信号与重构的第一音频信号的第一损失值，上述“确定第一音频信号与重构的第一音频信号的接近程度参数是否满足终止条件”可以包括：确定第一损失值是否达到第一预设条件；若第一损失值达到第一预设条件，则确定接近程度参数满足终止条件。

可选的，在另一种可能的设计方式中，接近程度参数还包括第一语义内容和第二语义内容的第二损失值、至少一个第一韵律特征向量和至少一个第二韵律特征向量的第三损失值以及第一音色特征向量和第三音色特征向量的第四损失值；第三音色特征向量通过调用第二编码器对重构的第一音频信号进行特征提取得到；

本申请提供的方法还可以包括：

确定第一损失值是否达到第一预设条件，确定第二损失值是否达到第二预设条件，并确定第三损失值是否达到第三预设条件，且确定第四损失值是否达到第四预设条件；

若第一损失值达到第一预设条件，第二损失值达到第二预设条件，第三损失值达到第三预设条件，且第四损失值达到第四预设条件，则确定接近程度参数满足终止条件。

可选的，在另一种可能的设计方式中，第二编码器为变分自编码器，本申请提供的声音转换模型的更新方法还可以包括：步骤E：调用变分自编码器对第一音频信号进行特征处理，得到高维高斯空间中的第四音色特征向量，并通过KL散度计算高维高斯空间中的第四音色特征向量与标准高维高斯概率分布的第五损失值；步骤F：确定第五损失值是否满足第五预设条件；步骤G：在确定第五损失值不满足第五预设条件的情况下，基于第五损失值对变分自编码器的参数进行更新，并在更新后重复执行步骤E至步骤F，直至第五损失值满足第五预设条件；在确定第五损失值满足第五预设条件的情况下，获取最后一次更新的变分自编码器，并基于更新的变分自编码器对声音转换模型进行更新。

可选的，在另一种可能的设计方式中，至少一个第一韵律特征向量至少用于表征第一音频信号的基频、音量、语速以及顿挫中的至少一个，至少一个第二韵律特征向量至少用于表征第三音频信号的基频、音量、语速以及顿挫中的至少一个。

可选的，在另一种可能的设计方式中，基于接近程度参数对声音转换模型的参数进行更新可以包括：基于接近程度参数，结合梯度下降法则、反向传播算法和链式法则对声音转换模型的参数进行更新。

第二方面，本申请提供一种声音转换模型的应用方法，包括：获取输入音频信号；调用最后一次更新的声音转换模型中的预设声音识别模型，从输入音频信号中提取第三语义内容；调用最后一次更新的声音转换模型中的第一编码器，从输入音频信号中提取至少一个第四韵律特征向量，并根据调整信息获取调整后的至少一个第四韵律特征向量；获取目标音色的参考音频信号，调用最后一次更新的声音转换模型中的第二编码器提取参考音频信号的第五音色特征向量；调用最后一次更新的声音转换模型中的解码器对第三语义内容、调整后的至少一个第四韵律特征向量以及第五音色特征向量进行音频合成处理，得到目标音频信号。

第三方面，本申请提供一种声音转换模型的更新装置，包括：处理模块、确定模块以及更新模块；

具体的，处理模块，用于执行步骤A：调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号；第二音频信号为目标音色的音频信号；

处理模块，还用于执行步骤B：调用声音转换模型对第一音频信号和第三音频信号进行特征处理，得到重构的第一音频信号；

确定模块，用于执行步骤C：确定第一音频信号与处理模块处理得到的重构的第一音频信号的接近程度参数是否满足终止条件；

更新模块，用于执行步骤D：在确定模块确定接近程度参数不满足终止条件的情况下，基于接近程度参数对声音转换模型的参数进行更新，并在更新后重复执行步骤A至步骤C，直至确定模块确定接近程度参数满足终止条件；在确定模块确定接近程度参数满足终止条件的情况下，获取最后一次更新的声音转换模型。

可选的，在一种可能的设计方式中，声音转换模型由预设声音识别模型、第一编码器、第二编码器和解码器构成，处理模块具体用于：

通过预设声音识别模型提取第一音频信号的第一语义内容，并通过第一编码器提取第一音频信号的至少一个第一韵律特征向量，且通过第二编码器提取第二音频信号的第二音色特征向量；通过解码器对第一语义内容、至少一个第一韵律特征向量和第二音色特征向量进行音频合成处理，得到第三音频信号；调用声音转换模型对第一音频信号和第三音频信号进行特征处理，得到重构的第一音频信号可以包括：通过预设声音识别模型提取第三音频信号的第二语义内容，并通过第一编码器提取第三音频信号的至少一个第二韵律特征向量，且通过第二编码器提取第一音频信号的第一音色特征向量；通过解码器对第二语义内容、至少一个第二韵律特征向量和第一音色特征向量进行音频合成处理，得到重构的第一音频信号。

可选的，在另一种可能的设计方式中，接近程度参数至少包括第一音频信号与重构的第一音频信号的第一损失值，确定模块具体用于：

确定第一损失值是否达到第一预设条件；若第一损失值达到第一预设条件，则确定接近程度参数满足终止条件。

确定模块具体用于：确定第一损失值是否达到第一预设条件，确定第二损失值是否达到第二预设条件，并确定第三损失值是否达到第三预设条件，且确定第四损失值是否达到第四预设条件；

可选的，在另一种可能的设计方式中，第二编码器为变分自编码器，处理模块还用于执行步骤E：调用变分自编码器对第一音频信号进行特征处理，得到高维高斯空间中的第四音色特征向量，并通过KL散度计算高维高斯空间中的第四音色特征向量与标准高维高斯概率分布的第五损失值；确定模块还用于执行步骤F：确定第五损失值是否满足第五预设条件；更新模块还用于执行步骤G：在确定模块确定第五损失值不满足第五预设条件的情况下，基于第五损失值对变分自编码器的参数进行更新，并在更新后重复执行步骤E至步骤F，直至确定模块确定第五损失值满足第五预设条件；在确定第五损失值满足第五预设条件的情况下，获取最后一次更新的变分自编码器，并基于更新的变分自编码器对声音转换模型进行更新。

可选的，在另一种可能的设计方式中，更新模块具体用于：基于接近程度参数，结合梯度下降法则、反向传播算法和链式法则对声音转换模型的参数进行更新。

第四方面，本申请提供一种声音转换模型的应用装置，包括：获取模块，用于获取输入音频信号；处理模块，用于调用最后一次更新的声音转换模型中的预设声音识别模型，从输入音频信号中提取第三语义内容；处理模块，还用于调用最后一次更新的声音转换模型中的第一编码器，从输入音频信号中提取至少一个第四韵律特征向量，并根据调整信息获取调整后的至少一个第四韵律特征向量；处理模块，还用于通过获取模块获取目标音色的参考音频信号，并调用最后一次更新的声音转换模型中的第二编码器提取参考音频信号的第五音色特征向量；处理模块，还用于调用最后一次更新的声音转换模型中的解码器对第三语义内容、调整后的至少一个第四韵律特征向量以及第五音色特征向量进行音频合成处理，得到目标音频信号。

第五方面，本申请提供一种电子设备，包括存储器、处理器、总线和通信接口；存储器用于存储计算机执行指令，处理器与存储器通过总线连接；当电子设备运行时，处理器执行存储器存储的计算机执行指令，以使电子设备执行如上述第一方面提供的声音转换模型的更新方法或执行如上述第二方面提供的声音转换模型的应用方法。

可选的，该电子设备可以是用于实现对声音转换模型进行更新或应用的物理机，也可以是物理机中的一部分装置，例如可以是物理机中的芯片系统。该芯片系统用于支持电子设备实现第一方面或第二方面中所涉及的功能，例如，接收，发送或处理上述声音转换模型的更新方法中所涉及的数据和/或信息。该芯片系统包括芯片，也可以包括其他分立器件或电路结构。

第六方面，本申请提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当计算机执行指令时，使得计算机执行如第一方面提供的声音转换模型的更新方法或执行如上述第二方面提供的声音转换模型的应用方法。

第七方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在计算机上运行时，使得计算机执行如第一方面提供的声音转换模型的更新方法或执行如上述第二方面提供的声音转换模型的应用方法。

需要说明的是，上述计算机指令可以全部或者部分存储在计算机可读存储介质上。其中，计算机可读存储介质可以与电子设备的处理器封装在一起的，也可以与电子设备的处理器单独封装，本申请对此不做限定。

本申请中第二方面至第七方面的描述，可以参考第一方面的详细描述；并且，第二方面至第七方面的描述的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

在本申请中，对于上述涉及到的设备或功能模块的名称不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似，均属于本申请权利要求及其等同技术的范围之内。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

附图说明

图1为本申请实施例提供的一种声音转换模型的更新方法的流程示意图；

图2为本申请实施例提供的一种得到重构的第一音频信号的简化流程示意图；

图3为本申请实施例提供的一种声音转换模型的应用方法的流程示意图；

图4为本申请实施例提供的一种声音转换模型的更新装置的结构示意图；

图5为本申请实施例提供的一种声音转换模型的应用装置的结构示意图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图对本申请实施例提供的声音转换模型的更新方法及应用方法进行详细地描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。

此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选的还包括其他没有列出的步骤或单元，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请的描述中，除非另有说明，“多个”的含义是指两个或两个以上。

另外，本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

目前，基于VC算法训练得到的声音转换模型，可以实现在语义内容不变的情况下对音色的转换。比如，基于VC算法训练得到的声音转换模型可以实现将动漫人物A的声音转换为动漫人物B的声音，但是原始声音中所具备的韵律信息(如顿挫、重读、语速等)却无法进行灵活调整。由于在训练声音转换模型的过程中无法采集所有可能的音色的音频，所以声音转换模型难以实现对任意音色的转换功能，并且对于训练音频数据需要原始音色和目标音色内容一致或者对于训练数据的语义范围有限制，训练数据量大，成本高。

针对上述现有技术中存在的问题，本申请实施例提供了一种声音转换模型的更新方法，该方法通过第一音频信号和目标音色对应的第二音频信号对第一音频信号进行重构，并基于第一音频信号与重构的第一音频信号的接近程度参数对声音转换模型进行更新，可以实现对输入的音频信号进行音色转换，生成具有目标音色的音频，同时可以实现将输入的音频信号的音色转换成新增目标音色的转换功能，无需花费大量的时间和成本采集较多的新音色的样本音频。

本申请实施例提供的声音转换模型的更新方法的执行主体可以是声音转换模型的更新装置。示例性的，声音转换模型的更新装置可以为物理机(如服务器)，也可以为部署在物理机上的虚拟机(virtual machine，VM)，该声音转换模型的更新装置可以通过对音频信号进行特征处理，实现对声音转换模型的更新。

下面结合附图对本申请提供的声音转换模型的更新方法进行说明。

参照图1，本申请实施例提供的声音转换模型的更新方法包括S101-S105：

S101、调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号。

其中，声音转换模型可以是具备流式处理能力的网络模型，用于实现对音频信号的转换功能。示例性的，声音转换模型可以是卷积神经网络或者线性映射网络等，本申请实施例对此不做限定。

其中，第一音频信号可以是样本音频库中任意一段样本音频，比如可以是动漫人物A的3分钟的样本音频。第二音频信号为目标音色的音频信号，该目标音色的音频信号也可以是样本音频库中的任意一段样本音频，比如，当想要增加声音转换模型对动漫人物B的音频的转换功能时，第二音频信号可以是动漫人物B对应的目标音色的音频，比如可以是动漫人物B的3分钟的样本音频。本申请实施例中得到的第三音频信号，具备与第一音频信号相同的语义内容，且具备与第一音频信号相同的音色。

可以理解的是，本申请实施例中对每对音频信号的处理过程相同，本申请实施例中将以对一对音频信号(本申请实施例中的第一音频信号和第二音频信号为一对音频信号)的处理过程为例展开说明。

S102、调用声音转换模型对第一音频信号和第三音频信号进行特征处理，得到重构的第一音频信号。

可选的，在一种可能的实现方式中，声音转换模型由预设声音识别模型、第一编码器、第二编码器和解码器构成，本申请实施例可以通过如下方式得到第三音频信号：通过预设声音识别模型提取第一音频信号的第一语义内容，并通过第一编码器提取第一音频信号的至少一个第一韵律特征向量，且通过第二编码器提取第二音频信号的第二音色特征向量；通过解码器对第一语义内容、至少一个第一韵律特征向量和第二音色特征向量进行音频合成处理，得到第三音频信号。

另外，本申请实施例可以通过如下方式得到重构的第一音频信号：通过预设声音识别模型提取第三音频信号的第二语义内容，并通过第一编码器提取第三音频信号的至少一个第二韵律特征向量，且通过第二编码器提取第一音频信号的第一音色特征向量；通过解码器对第二语义内容、至少一个第二韵律特征向量和第一音色特征向量进行音频合成处理，得到重构的第一音频信号。

可选的，至少一个第一韵律特征向量至少用于表征第一音频信号的基频、音量、语速以及顿挫中的至少一个，至少一个第二韵律特征向量至少用于表征第三音频信号的基频、音量、语速以及顿挫中的至少一个。当然，在实际应用中，至少一个第一韵律特征向量和至少一个第二韵律特征向量还可以包括其他韵律特征向量，本申请实施例对此不做限定。

预设声音识别模型可以是事先训练好的用于提取音频信号中与音色无关的语义内容的模型。示例性的，预设声音识别模型可以是事先训练好的自动语音识别(AutomaticSpeech Recognition，ASR)模型。第一编码器可以是用于提取与音色无关的韵律特征的编码器，第一编码器可以包括一个或多个编码器，一个编码器用于提取一种韵律特征，一个编码器可以由一个或多个深度学习网络模型构成。比如，第一编码器可以包括四个编码器，分别用于提取音频信号的基频、音量、语速以及顿挫。第二编码器可以是用于提取音色特征的编码器，第二编码器可以包括一个编码器，一个编码器可以由一个或多个深度学习网络模型构成。解码器可以是用于进行声音合成的解码器，解码器可以包括一个解码器，一个解码器可以由一个或多个深度学习网络模型构成。

示例性的，参照图2，本申请实施例提供了一种得到重构的第一音频信号的简化流程示意图。如图2所示，在从样本音频库中获取到第一音频信号S_A后，可以通过预设声音识别模型ASR提取S_A的第一语义内容L_A，并通过第一编码器M_A提取S_A的N个第一韵律特征向量P_A1-AN。另外，采集到目标音色的第二音频信号R_B后，可以通过第二编码器M_B提取R_B的第二音色特征向量T_B，然后可以通过解码器M_C对L_A、P_A1-AN以及T_B进行音频合成处理，得到第三音频信号S_B。之后，可以通过ASR提取S_B的第二语义内容L_B，并通过M_A提取S_B的N个第二韵律特征向量P_B1-BN，且通过M_B提取S_A的第一音色特征向量T_A，然后可以通过解码器M_C对L_B、P_B1-BN以及T_A进行音频合成处理，得到重构的第一音频信号S_A′。

在一具体实施例中，本申请实施例可以利用时空编码器(temporal-spatialencoder)将不等长的样本音频信号压缩至隐空间中获得固定长度的音色特征向量，从而实现对音色信息的准确表达。

S103、确定第一音频信号与重构的第一音频信号的接近程度参数是否满足终止条件。

在确定接近程度参数不满足终止条件的情况下，执行步骤S104；在确定接近程度参数满足终止条件的情况下，执行步骤S105。

可选的，接近程度参数至少包括第一音频信号与重构的第一音频信号的第一损失值，确定第一音频信号与重构的第一音频信号的接近程度参数是否满足终止条件可以包括：确定第一损失值是否达到第一预设条件；若第一损失值达到第一预设条件，则确定接近程度参数满足终止条件。

其中，第一预设条件可以是人为事先确定的条件，比如可以是第一损失值小于事先设定的值或者还可以是迭代次数达到设定的数值。示例性的，可以基于均方误差(MeanSquare Error，MSE)函数来计算第一音频信号与重构的第一音频信号的第一损失值。

音频信号的语义内容、韵律特征及音色特征是构成一段音频信号的关键特征，在训练声音转换模型的过程中，若其能够很好的重构原始的第一音频信号，说明训练的声音转换模型具备准确提取语义内容、韵律特征及音色特征的能力。所以，本申请实施例中，可以通过基于第一音频信号与重构的第一音频信号的第一损失值来判断是否达到迭代的终止条件。

S104、基于接近程度参数对声音转换模型的参数进行更新。

在步骤S104之后，返回执行步骤S101。

可选的，本申请实施例中可以基于接近程度参数，结合梯度下降法则、反向传播算法和链式法则对声音转换模型的参数进行更新。

示例性的，以基于S_A′和S_A的第一损失值对声音转换模型的参数进行更新为例，可以先基于MSE函数计算S_A′和S_A的第一损失值(该第一损失值可以是一个无参的损失函数)，然后可以计算该第一损失值相对于S_A′的偏导数，得到一个梯度A，该梯度A是与S_A′相关的函数，S_A′与声音转换模型中的参数相关，然后可以用反向传播算法和链式法则更新声音转换模型中的第一编码器、第二编码器和解码器中的所有参数。具体地，可以计算梯度A相对于声音转换模型中每个参数的梯度，利用梯度下降的方式，根据每个参数自身的梯度去更新声音转换模型中的每个参数(每个参数减去参数自身的梯度＝更新后的参数值)。由于采用了梯度下降的方式，所以S_A′和S_A的第一损失值会逐渐变小。本申请实施例中可以不断迭代上述过程，直到第一损失值达到第一预设条件。

可选的，接近程度参数还可以包括第一语义内容和第二语义内容的第二损失值、至少一个第一韵律特征向量和至少一个第二韵律特征向量的第三损失值以及第一音色特征向量和第三音色特征向量的第四损失值；第三音色特征向量通过调用第二编码器对重构的第一音频信号进行特征提取得到；本申请实施例提供的声音转换模型的更新方法还可以包括：确定第一损失值是否达到第一预设条件，确定第二损失值是否达到第二预设条件，并确定第三损失值是否达到第三预设条件，且确定第四损失值是否达到第四预设条件；若第一损失值达到第一预设条件，第二损失值达到第二预设条件，第三损失值达到第三预设条件，且第四损失值达到第四预设条件，则确定接近程度参数满足终止条件。

在一种可能的实现方式中，本申请实施例中涉及的损失值可以是距离函数，例如，L1距离。

其中，第三音色特征向量通过调用第二编码器对重构的第一音频信号进行特征提取得到；第二损失值、第三损失值以及第四损失值均可以用于表征接近程度参数的大小。第二损失值具体用于表征第一语义内容和第二语义内容的差距大小，第三损失值具体用于表征至少一个第一韵律特征向量和至少一个第二韵律特征向量的差距大小，第四损失值具体用于表征第一音色特征向量和第三音色特征向量的差距大小。第二预设条件可以是第二损失值小于事先设定的值，第三预设条件可以是第三损失值小于事先设定的值，第四预设条件可以是第四损失值小于事先设定的值。

可以理解的是，基于第二损失值、第三损失值以及第四损失值对声音转换模型的参数进行更新的过程与前述基于S_A′和S_A的第一损失值对声音转换模型的参数进行更新的过程类似，本申请实施例在此不再赘述。另外，由于至少一个第一韵律特征向量和至少一个第二韵律特征向量为多维向量，在计算过程中可以对两组韵律特征向量进行归一化处理后再计算第三损失值。

本申请实施例中，基于第二损失值对声音转换模型的参数进行更新，可以保证声音转换前后的语义内容的一致性。并且，基于第三损失值对声音转换模型的参数进行更新，可以保证声音转换后的韵律特征的连贯性。另外，基于第四损失值对声音转换模型的参数进行更新，可以提升声音转换后的音色的逼真度。

可选的，本申请实施例还可以包括：通过第二编码器提取重构的第一音频信号的至少一个第四韵律特征向量，然后基于至少一个第一韵律特征向量和至少一个第四韵律特征向量的损失值对声音转换模型的参数进行更新。这样，可以进一步保证声音转换后的韵律特征的连贯性。

进一步可选的，本申请实施例的声音转换模型的更新方法还可以包括：利用音频信号分析算法或深度学习算法提取第一音频信号的至少一个真实第一韵律特征向量，并确定至少一个第一韵律特征向量和至少一个真实第一韵律特征向量的第六损失值是否达到第六预设条件，进而基于第六损失值实现对声音转换模型的参数的更新。

其中，第六损失值具体用于表征至少一个第一韵律特征向量和至少一个真实第一韵律特征向量的差距大小，第六预设条件可以是第六损失值小于事先设定的值。示例性的，音频信号分析算法可以采用PYIN基频提取算法或对数域梅尔谱能量进行计算等方法，本申请实施例在此不做限定。

现有技术在训练声音转换模型时，样本音频库中的训练数据为成对的音频信号(即每对音频信号包括两个以不同音色生成的相同语义内容的样本音频)，在本申请实施例提供的声音转换模型的更新方法中，样本音频库中的训练数据可以是多条不同音色的任意语义内容的样本音频。这样，可以进一步降低样本音频的采集难度，提高模型训练的效率。为了进一步保证利用本申请提供的声音转换模型转换音频的准确度，本申请实施例还可以对训练过程中产生的中间结果(即第三音频信号)的真实性进行约束。具体的，可以基于对抗式训练，利用一个判别器对第三音频信号的真实性进行约束，判断第三音频信号是否满足真实的语音信号的特点。利用判别器来判断第三音频信号真实性的强弱，对声音转换模型中的参数进行更新，直至第三音频信号满足事先设定的条件。

进一步可选的，第一编码器可以是变分自编码器(VAE)，比如，可以是矢量量化变分自动编码器(VQ-VAE)，用于在高斯空间中对不同韵律特征进行提取，将在时序空间一维的音频信号转换成时序空间多维的韵律特征向量。

进一步的可选的，第二编码器可以为变分自编码器，本申请实施例提供的声音转换模型的更新方法还可以包括：步骤E：调用变分自编码器对第一音频信号进行特征处理，得到高维高斯空间中的第四音色特征向量，并通过KL散度(Kullback-Leibler Divergenc)计算高维高斯空间中的第四音色特征向量与标准高维高斯概率分布的第五损失值；步骤F：确定第五损失值是否满足第五预设条件；步骤G：在确定第五损失值不满足第五预设条件的情况下，基于第五损失值对变分自编码器的参数进行更新，并在更新后重复执行步骤E至步骤F，直至第五损失值满足第五预设条件；在确定第五损失值满足第五预设条件的情况下，获取最后一次更新的变分自编码器，并基于更新的变分自编码器对声音转换模型进行更新。可选的，第二编码器也可以为时空编码器。

其中，变分自编码器可以利用机器学习中具备时序信号处理能力的网络结构对输入的第一音频信号进行处理，得到一个与第一音频信号相对应的固定尺寸的特征向量T，该特征向量T可视作在高维高斯空间中的一个采样样例。本申请实施例可以通过KL散度计算采样样例与标准高维高斯概率分布的第五损失值，然后可以结合梯度下降法则、反向传播算法和链式法则，对声音转换模型中的第二编码器进行更新。

第五损失值用于表征第一音频信号对应的特征向量T与标准高维高斯概率分布的差距，第五预设条件可以是第五损失值小于事先设定的值。

可以理解的是，本申请实施例在实际应用中，调用变分自编码器不仅可以对第一音频信号进行特征处理，还可以对其他音频信号进行处理，比如对第二音频信号及重构的第一音频信号等均可以做类似的特征处理。具体处理方式可以参照调用变分自编码器对第一音频信号的处理过程，此处不再赘述。

在变分自编码器训练完成后，得到的变分自编码器具备从目标音色的音频信号中抽取音色特征的能力，该音色特征符合高斯分布。对音色高斯空间进行随机采样可以得到音色特征向量，因此生成更多目标音色未知的音频信号。所以，通过本申请实施例提供的技术方案，可以尽可能的增加声音转换模型所能支持的音色范围，同时，可以使得声音转换模型有能生成不存在于样本训练库中的训练数据内的一些音色以及通过少量样本快速生成对应音色的数据。

可以理解的是，本申请实施例中，可以先单独对第二编码器进行训练，之后可以将第一编码器、第二编码器及解码器再一同进行训练。也可以先将第一编码器、第二编码器及解码器一同进行训练，之后再单独训练第二编码器。

S105、获取最后一次更新的声音转换模型。

在获取到最后一次更新的声音转换模型后，即可以应用该声音转换模型将其他音色的音频信号转换为目标音色的音频信号，即更新的声音转换模型支持对新音色(目标音色)的转换功能。

可选的，本申请实施例中的韵律特征可以包括显式特征和残差特征。其中，显式特征是指具有明确定义和计算方法的特征，如基频、能量、相位等；残差特征是指没有明确定义或计算方法，但可能对韵律特征发生干扰的信息。为了保证声音转换后的自然度和真实性，本申请实施例中可以采用残差特征对将显式特征无法表达的信息进行补充，从而保证转换后的声音质量。具体的，对于显式特征向量的提取，本申请实施例可以采用的方法包括但不限于音频信号分析算法(如PYIN基频提取或对数域梅尔谱能量进行计算)和深度学习算法等。而对于残差特征的提取，本申请可以通过VAE架构对原始语音(第一音频信号)信号进行分析，生成一个残差韵律特征向量的时间序列，用于表达每个时刻语音信号的残差特征。进一步的，可以采用KL散度将残差韵律特征向量约束至高斯空间，根据KL散度，利用梯度下降法和链式法则调整第一编码器、第二编码器和解码器中的参数。这样，方便声音转换模型更新完成后，在此高斯空间内对韵律特征向量进行随机采样，以实现对韵律特征向量的人工调整目的。

与传统VC技术中的训练模型的方法相比，本申请实施例中提供的模型更新方法在训练时无需成对的音频数据(每对数据包括两个以不同音色生成相同内容的音频)，且不对各音色所包含的音频中的语义范围做硬性要求，从而降低了数据采集和制作的门槛。传统的方法中需要原始音色和目标音色，且要保证两者的内容一致，训练数据数量多，且难采集，成本较高。本申请实施例中，训练样本数据库中包含了N条不同音色的，任意语义内容的音频。

综合以上描述，本申请实施例提供的声音转换模型的更新方法中，为了实现对输入音色转换为目标音色的功能，，可以调用声音转换模型对第一音频信号和目标音色对应的第二音频信号进行特征处理得到第三音频信号，然后可以基于得到的第三音频信号和第一音频信号重构第一音频信号，之后可以基于第一音频信号与重构的第一音频信号的接近程度参数对声音转换模型的参数进行更新，反复执行上述步骤直至接近程度参数满足终止条件，在确定所述接近程度参数满足所述终止条件的情况下，获取最后一次更新的声音转换模型。当第一音频信号与重构的第一音频信号的接近程度参数满足终止条件时，表示当前声音转换模型可以很好的实现对第一音频信号的重构，也即是当前声音转换模型对声音转换过程中的各种特征(包括目标音色)有很好的捕获能力，可以实现对目标音色的转换功能。而评价声音转换模型是否可以很好的捕获声音转换过程中的各种特征(包括目标音色)，在上述循环过程中，通过第一音频信号和目标音色对应的第二音频信号就可以进行判断。可以看出，本申请实施例中，通过对第一音频信号进行重构，并基于第一音频信号与重构的第一音频信号的接近程度参数对声音转换模型进行更新，可以实现对输入的音频信号进行音色转换，生成具有目标音色的音频，同时可以实现将输入的音频信号的音色转换成新增目标音色的转换功能，这样，无需花费大量的时间和成本采集较多的新音色的样本音频。

可选的，参照图3，本申请实施例还提供了一种声音转换模型的应用方法，该方法可以应用于声音转换模型的应用装置，该方法可以包括S301-S305：

S301、获取输入音频信号。

其中，输入音频信号可以通过话筒、拾音器、手机麦克风等声音采集设备获取。

S302、调用最后一次更新的声音转换模型中的预设声音识别模型，从输入音频信号中提取第三语义内容。

第三语义内容可以作为后续合成目标音频信号的原始语料信息。

S303、调用最后一次更新的声音转换模型中的第一编码器，从输入音频信号中提取至少一个第四韵律特征向量，并根据调整信息获取调整后的至少一个第四韵律特征向量。

其中，至少一个第四韵律特征向量可以包括从输入音频信号中提取的与音色无关的基频、语速、顿挫及音量等韵律特征向量。

具体地，调整信息可以是事先根据实际需求设置的信息。通过第一编码器提取到输入音频信号的至少一个第四韵律特征向量后，还可以根据需求对至少一个第四韵律特征向量进行线性调整，比如，可以放慢语速、加强顿挫或者提高音量等等。通过线性调整，可以实现声音风格的变化，比如将低沉的声音风格变换为明快的声音风格，这样可以满足用户的个性化需求。另外，还可以改善对韵律特征的提取效果。

在一实施例中，可以通过空间线性距离约束实现高斯空间隐特征的线性变换特性。具体地，对韵律特征进行调整时，可以对上述的时序空间多维的韵律特征向量在高斯空间进行线性变化，最终获得调整变换后的韵律特征向量。

S304、获取目标音色的参考音频信号，调用最后一次更新的声音转换模型中的第二编码器提取参考音频信号的第五音色特征向量。

示例性的，目标音色的参考音频信号的时长可以大于或等于3秒。

S305、调用最后一次更新的声音转换模型中的解码器对第三语义内容、调整后的至少一个第四韵律特征向量以及第五音色特征向量进行音频合成处理，得到目标音频信号。

目标音频信号具有输入音频信号的语义内容及韵律特征，并具备参考音频信号的音色。

通过本申请实施例得到的声音转换模型，可以实现从各种不同音色的原始声音中提取可用于声音转换的有效信息，并保持原有的语义内容不发生改变。并且可以支持在各种场景下的音色转换，包括单音色-单音色(One-to-One)、多音色-单音色(Many-to-One)、单音色-多音色(One-to-Many)以及多音色-多音色(Many-to-Many)。另外，本申请实施例提供的技术方案可以支持对具有目标音色的输出音频的韵律特征的调整，从而可以进一步提升各种声音转换场景(比如直播场景)中对声音的丰富性和表达力。示例性的，现有的声音转换模型仅可以支持将动画人物A开心的声音转换成动画人物B开心的声音，且两者语速、节奏等特征相同。而本申请实施例得到的声音转换模型可以支持将动画人物A开心的声音转换成动画人物B忧郁的声音，且两者语速、节奏等特征不同。

如图4所示，本申请实施例还提供了一种声音转换模型的更新装置，该装置可以包括：处理模块11、确定模块21以及更新模块31。

其中，处理模块11执行上述方法实施例中的S101和S102，确定模块21执行上述方法实施例中的S103，更新模块31执行上述方法实施例中的S104和S105。

具体地，处理模块11，用于执行步骤A：调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号；第二音频信号为目标音色的音频信号；

处理模块11，还用于执行步骤B：调用声音转换模型对第一音频信号和第三音频信号进行特征处理，得到重构的第一音频信号；

确定模块21，用于执行步骤C：确定第一音频信号与处理模块11处理得到的重构的第一音频信号的接近程度参数是否满足终止条件；

更新模块31，用于执行步骤D：在确定模块21确定接近程度参数不满足终止条件的情况下，基于接近程度参数对声音转换模型的参数进行更新，并在更新后重复执行步骤A至步骤C，直至确定模块21确定接近程度参数满足终止条件；在确定模块21确定接近程度参数满足终止条件的情况下，获取最后一次更新的声音转换模型。

可选的，在一种可能的设计方式中，声音转换模型由预设声音识别模型、第一编码器、第二编码器和解码器构成，处理模块11具体用于：

可选的，在另一种可能的设计方式中，接近程度参数至少包括第一音频信号与重构的第一音频信号的第一损失值，确定模块21具体用于：

确定模块21具体用于：确定第一损失值是否达到第一预设条件，确定第二损失值是否达到第二预设条件，并确定第三损失值是否达到第三预设条件，且确定第四损失值是否达到第四预设条件；

可选的，在另一种可能的设计方式中，第二编码器为变分自编码器，处理模块11还用于执行步骤E：调用变分自编码器对第一音频信号进行特征处理，得到高维高斯空间中的第四音色特征向量，并通过KL散度计算高维高斯空间中的第四音色特征向量与标准高维高斯概率分布的第五损失值；确定模块21还用于执行步骤F：确定第五损失值是否满足第五预设条件；更新模块31还用于执行步骤G：在确定模块21确定第五损失值不满足第五预设条件的情况下，基于第五损失值对变分自编码器的参数进行更新，并在更新后重复执行步骤E至步骤F，直至确定模块21确定第五损失值满足第五预设条件；在确定第五损失值满足第五预设条件的情况下，获取最后一次更新的变分自编码器，并基于更新的变分自编码器对声音转换模型进行更新。

可选的，在另一种可能的设计方式中，更新模块31具体用于：基于接近程度参数，结合梯度下降法则、反向传播算法和链式法则对声音转换模型的参数进行更新。

可选的，声音转换模型的更新装置还可以包括存储模块，存储模块用于存储该声音转换模型的更新装置的程序代码等。

如图5所示，本申请实施例还提供了一种声音转换模型的应用装置，该装置可以包括：获取模块32和处理模块33。

其中，获取模块32执行上述方法实施例中的S301，处理模块33执行上述方法实施例中的S302、S303、S304和S305。

具体地，获取模块32，用于获取输入音频信号；处理模块33，用于调用最后一次更新的声音转换模型中的预设声音识别模型，从输入音频信号中提取第三语义内容；处理模块33，还用于调用最后一次更新的声音转换模型中的第一编码器，从输入音频信号中提取至少一个第四韵律特征向量，并根据调整信息获取调整后的至少一个第四韵律特征向量；处理模块33，还用于通过获取模块32获取目标音色的参考音频信号，并调用最后一次更新的声音转换模型中的第二编码器提取参考音频信号的第五音色特征向量；处理模块33，还用于调用最后一次更新的声音转换模型中的解码器对第三语义内容、调整后的至少一个第四韵律特征向量以及第五音色特征向量进行音频合成处理，得到目标音频信号。

如图6所示，本申请实施例还提供一种电子设备，包括存储器41、处理器42(42-1和42-2)、总线43和通信接口44；存储器41用于存储计算机执行指令，处理器42与存储器41通过总线43连接；当电子设备运行时，处理器42执行存储器41存储的计算机执行指令，以使电子设备执行如上述实施例提供的声音转换模型的更新方法或声音转换模型的应用方法。

在具体的实现中，作为一种实施例，处理器42可以包括一个或多个中央处理器(central processing unit，CPU)，例如图6中所示的CPU0和CPU1。且作为一种实施例，电子设备可以包括多个处理器42，例如图6中所示的处理器42-1和处理器42-2。这些处理器42中的每一个CPU可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器42可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

存储器41可以是只读存储器41(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器41可以是独立存在，通过总线43与处理器42相连接。存储器41也可以和处理器42集成在一起。

在具体的实现中，存储器41，用于存储本申请中的数据和执行本申请的软件程序对应的计算机执行指令。处理器42可以通过运行或执行存储在存储器41内的软件程序，以及调用存储在存储器41内的数据，电子设备的各种功能。

通信接口44，使用任何收发器一类的设备，用于与其他设备或通信网络通信，如控制系统、无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。通信接口44可以包括接收单元实现接收功能，以及发送单元实现发送功能。

总线43，可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component interconnect，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。该总线43可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

作为一个示例，结合图4，声音转换模型的更新装置中的处理模块实现的功能与图6中的处理器实现的功能相同。当声音转换模型的更新装置包括有存储模块时，存储模块实现的功能与图6中的存储器实现的功能相同。

本实施例中相关内容的解释可参考上述方法实施例，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，设备和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有指令，当计算机执行该指令时，使得计算机执行上述实施例提供的声音转换模型的更新方法或声音转换模型的应用方法。

其中，计算机可读存储介质，例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、可擦式可编程只读存储器(erasable programmable read only memory，EPROM)、寄存器、硬盘、光纤、CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合、或者本领域熟知的任何其它形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(application specificintegrated circuit，ASIC)中。在本申请实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种声音转换模型的更新方法，其特征在于，包括：

步骤A：调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号；所述第二音频信号为目标音色的音频信号；

步骤B：调用所述声音转换模型对所述第一音频信号和所述第三音频信号进行特征处理，得到重构的第一音频信号；

步骤C：确定所述第一音频信号与所述重构的第一音频信号的接近程度参数是否满足终止条件；

步骤D：在确定所述接近程度参数不满足所述终止条件的情况下，基于所述接近程度参数对所述声音转换模型的参数进行更新，并在更新后重复执行步骤A至步骤C，直至确定所述接近程度参数满足所述终止条件；在确定所述接近程度参数满足所述终止条件的情况下，获取最后一次更新的声音转换模型。

2.根据权利要求1所述的方法，其特征在于，所述声音转换模型由预设声音识别模型、第一编码器、第二编码器和解码器构成，所述调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号，包括：

通过所述预设声音识别模型提取所述第一音频信号的第一语义内容，并通过所述第一编码器提取所述第一音频信号的至少一个第一韵律特征向量，且通过所述第二编码器提取所述第二音频信号的第二音色特征向量；通过所述解码器对所述第一语义内容、所述至少一个第一韵律特征向量和所述第二音色特征向量进行音频合成处理，得到所述第三音频信号；

所述调用所述声音转换模型对所述第一音频信号和所述第三音频信号进行特征处理，得到重构的第一音频信号，包括：通过所述预设声音识别模型提取所述第三音频信号的第二语义内容，并通过所述第一编码器提取所述第三音频信号的至少一个第二韵律特征向量，且通过所述第二编码器提取所述第一音频信号的第一音色特征向量；通过所述解码器对所述第二语义内容、所述至少一个第二韵律特征向量和所述第一音色特征向量进行音频合成处理，得到所述重构的第一音频信号。

3.根据权利要求2所述的方法，其特征在于，所述接近程度参数至少包括所述第一音频信号与所述重构的第一音频信号的第一损失值，所述确定所述第一音频信号与所述重构的第一音频信号的接近程度参数是否满足终止条件，包括：

确定所述第一损失值是否达到第一预设条件；

若所述第一损失值达到所述第一预设条件，则确定所述接近程度参数满足所述终止条件。

4.根据权利要求3所述的方法，其特征在于，所述接近程度参数还包括所述第一语义内容和所述第二语义内容的第二损失值、所述至少一个第一韵律特征向量和所述至少一个第二韵律特征向量的第三损失值以及所述第一音色特征向量和第三音色特征向量的第四损失值；所述第三音色特征向量通过调用所述第二编码器对所述重构的第一音频信号进行特征提取得到，所述方法还包括：

确定所述第一损失值是否达到所述第一预设条件，确定所述第二损失值是否达到第二预设条件，并确定所述第三损失值是否达到第三预设条件，且确定所述第四损失值是否达到第四预设条件；

若所述第一损失值达到所述第一预设条件，所述第二损失值达到所述第二预设条件，所述第三损失值达到所述第三预设条件，且所述第四损失值达到所述第四预设条件，则确定所述接近程度参数满足所述终止条件。

5.根据权利要求2所述的方法，其特征在于，所述第二编码器为变分自编码器，所述方法还包括：

步骤E：调用所述变分自编码器对所述第一音频信号进行特征处理，得到高维高斯空间中的第四音色特征向量，并通过KL散度计算所述高维高斯空间中的第四音色特征向量与标准高维高斯概率分布的第五损失值；

步骤F：确定所述第五损失值是否满足第五预设条件；

步骤G：在确定所述第五损失值不满足所述第五预设条件的情况下，基于所述第五损失值对所述变分自编码器的参数进行更新，并在更新后重复执行步骤E至步骤F，直至所述第五损失值满足所述第五预设条件；在确定所述第五损失值满足所述第五预设条件的情况下，获取最后一次更新的所述变分自编码器，并基于更新的所述变分自编码器对所述声音转换模型进行更新。

6.根据权利要求2所述的方法，其特征在于，所述至少一个第一韵律特征向量至少用于表征所述第一音频信号的基频、音量、语速以及顿挫中的至少一个，所述至少一个第二韵律特征向量至少用于表征所述第三音频信号的基频、音量、语速以及顿挫中的至少一个。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述接近程度参数对所述声音转换模型的参数进行更新，包括：

基于所述接近程度参数，结合梯度下降法则、反向传播算法和链式法则对所述声音转换模型的参数进行更新。

8.一种声音转换模型的应用方法，其特征在于，包括：

获取输入音频信号；

调用最后一次更新的声音转换模型中的预设声音识别模型，从所述输入音频信号中提取第三语义内容；

调用所述最后一次更新的声音转换模型中的第一编码器，从所述输入音频信号中提取至少一个第四韵律特征向量，并根据调整信息获取调整后的至少一个第四韵律特征向量；

获取目标音色的参考音频信号，调用所述最后一次更新的声音转换模型中的第二编码器提取所述参考音频信号的第五音色特征向量；

调用所述最后一次更新的声音转换模型中的解码器对所述第三语义内容、所述调整后的至少一个第四韵律特征向量以及所述第五音色特征向量进行音频合成处理，得到目标音频信号。

9.一种声音转换模型的更新装置，其特征在于，包括：

处理模块，用于执行步骤A：调用声音转换模型对第一音频信号和第二音频信号进行特征处理，得到第三音频信号；所述第二音频信号为目标音色的音频信号；

所述处理模块，还用于执行步骤B：调用所述声音转换模型对所述第一音频信号和所述第三音频信号进行特征处理，得到重构的第一音频信号；

确定模块，用于执行步骤C：确定所述第一音频信号与所述处理模块处理得到的所述重构的第一音频信号的接近程度参数是否满足终止条件；

更新模块，用于执行步骤D：在所述确定模块确定所述接近程度参数不满足所述终止条件的情况下，基于所述接近程度参数对所述声音转换模型的参数进行更新，并在更新后重复执行步骤A至步骤C，直至所述确定模块确定所述接近程度参数满足所述终止条件；在所述确定模块确定所述接近程度参数满足所述终止条件的情况下，获取最后一次更新的声音转换模型。

10.一种声音转换模型的应用装置，其特征在于，包括：

获取模块，用于获取输入音频信号；

处理模块，用于调用最后一次更新的声音转换模型中的预设声音识别模型，从所述输入音频信号中提取第三语义内容；

所述处理模块，还用于调用所述最后一次更新的声音转换模型中的第一编码器，从所述输入音频信号中提取至少一个第四韵律特征向量，并根据调整信息获取调整后的至少一个第四韵律特征向量；

所述处理模块，还用于通过所述获取模块获取目标音色的参考音频信号，并调用所述最后一次更新的声音转换模型中的第二编码器提取所述参考音频信号的第五音色特征向量；

所述处理模块，还用于调用所述最后一次更新的声音转换模型中的解码器对所述第三语义内容、所述调整后的至少一个第四韵律特征向量以及所述第五音色特征向量进行音频合成处理，得到目标音频信号。

11.一种电子设备，其特征在于，包括存储器、处理器、总线和通信接口；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接；

当所述电子设备运行时，处理器执行所述存储器存储的所述计算机执行指令，以使所述电子设备执行如权利要求1-7任意一项所述的声音转换模型的更新方法或执行如权利要求8所述的声音转换模型的应用方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当计算机执行所述指令时，使得所述计算机执行如权利要求1-7任意一项所述的声音转换模型的更新方法或执行如权利要求8所述的声音转换模型的应用方法。