CN116416964A

CN116416964A - 语音转换方法、装置、存储介质及电子设备

Info

Publication number: CN116416964A
Application number: CN202310349539.7A
Authority: CN
Inventors: 黄鹤
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-11

Abstract

本公开涉及一种语音转换方法、装置、存储介质及电子设备。可以获取待转换语音信号和目标发音对象的音色指示信息；通过韵律编码模型提取所述待转换语音信号的韵律特征，所述韵律编码模型包括通过多语种音频数据预先训练得到的自监督语音识别模型；提取所述待转换语音信号的第一音高特征和文本特征；根据所述音色指示信息、所述韵律特征、所述第一音高特征以及所述文本特征通过预先训练得到的语音转换模型将所述待转换语音信号转换为具有目标音色的目标语音信号，所述目标音色为所述目标发音对象的音色。

Description

语音转换方法、装置、存储介质及电子设备

技术领域

本公开涉及音频处理技术领域，具体地，涉及一种语音转换方法、装置、存储介质及电子设备。

背景技术

近年来，作为音频处理技术领域的一个分支的语音转换发展迅速。其中，语音转换是指将待处理音频转换为具有目标说话人的音色的目标语音。目前，语音转换可以广泛应用于包括计算机辅助发音修剪系统的定制反馈、语音障碍主体的个性化说话辅助开发、利用各种人声的电影配音等在内的多个领域。

相关技术中的语音转换方法有对多种声学参数进行建模，提取声学参数后合成目标说话人的声音；另外，也有基于模板的生成方法，该方法需要一个高质量的音乐库来提取各种音乐的参数，另外需要高质量的音乐作为模板。

发明内容

本公开的目的是提供一种语音转换方法、装置、存储介质及电子设备。

第一方面，本公开提供一种语音转换方法，所述方法包括：

获取待转换语音信号和目标发音对象的音色指示信息；

通过韵律编码模型提取所述待转换语音信号的韵律特征，所述韵律编码模型包括通过多语种音频数据预先训练得到的自监督语音识别模型；

提取所述待转换语音信号的第一音高特征和文本特征；

根据所述音色指示信息、所述韵律特征、所述第一音高特征以及所述文本特征通过预先训练得到的语音转换模型将所述待转换语音信号转换为具有目标音色的目标语音信号，所述目标音色为所述目标发音对象的音色。

可选地，所述自监督语音识别模型包括编码器和解码器，所述编码器的输出作为所述解码器的输入，所述通过韵律编码模型提取所述待转换语音信号的韵律特征包括：

将所述待转换语音信号输入所述自监督语音识别模型后，通过所述自监督语音识别模型中编码器的倒数第二层或者倒数第三层输出所述韵律特征。

可选地，所述方法还包括：

提取所述目标发音对象的第二音高特征；

根据所述第二音高特征对所述第一音高特征进行调整，得到目标音高特征；

所述根据所述音色指示信息、所述韵律特征、所述第一音高特征以及所述文本特征通过预先训练得到的语音转换模型将所述待转换语音信号转换为具有目标音色的目标语音信号包括：

根据所述音色指示信息、所述韵律特征、所述文本特征以及所述目标音高特征通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号。

可选地，所述根据所述第二音高特征对所述第一音高特征进行调整，得到目标音高特征包括：

通过以下公式对所述第一音高特征进行调整：

Pitch_src＝ln(Pitch_src)

Pitch_adjusted＝Pitch_src+mean(Pitch_target)-mean(Pitch_src)

其中，Pitch_src表示第一音高特征，ln表示取自然对数，Pitch_target表示第二音高特征，Pitch_adjusted表示调整后的目标音高特征。

可选地，所述方法还包括：

获取预先设置的音高最小值、音高最大值以及音高特征维度；

根据所述音高最小值、所述音高最大值以及所述音高特征维度对所述目标音高特征进行量化处理；

所述根据所述音色指示信息、所述韵律特征、所述文本特征以及所述目标音高特征通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号包括：

根据所述音色指示信息、所述韵律特征、所述文本特征以及量化处理后的目标音高特征通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号。

可选地，根据所述音高最小值、所述音高最大值以及所述音高特征维度，通过以下公式对所述目标音高特征进行量化处理：

Pitch_adjusted＝ln(Pitch_adjusted)

Pitch_normal＝(Pitch_adjusted-ln(Pitch_min))/(ln(Pitch_max)-ln(Pitch_min))

Pitch_quantised1＝round(Pitch_normal*Pitch_dim)

Pitch_quantised2＝Pitch_quantised1+1

Pitch_uv＝0

其中，Pitch_adjusted表示调整后的目标音高特征，ln表示取自然对数，Pitch_min表示音高最小值，Pitch_max表示音高最大值，Pitch_normal表示归一化之后的音高值，Pitch_dim表示音高特征维度，round表示四舍五入，Pitch_quantized1表示四舍五入后的音高值，Pitch_quantized2表示量化处理后的目标音高特征，Pitch_uv表示无语音帧的音高。

可选地，所述方法还包括：

提取所述待转换语音信号的能量特征，所述能量特征包括对所述待转换语音信号进行分帧加窗处理后，每帧语音信号的帧能量；

获取预先设置的能量最小值、能量最大值以及能量特征维度；

根据所述能量最小值、所述能量最大值以及所述能量特征维度对所述能量特征进行量化处理；

根据所述音色指示信息、所述韵律特征、所述文本特征、所述目标音高特征以及量化处理后的目标能量特征通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号。

可选地，根据所述能量最小值、所述能量最大值以及所述能量特征维度，通过以下公式对所述能量特征进行量化处理包括：

P_src＝ln(P_src)

P_normal＝(P_src-ln(P_min))/(ln(P_max)-ln(P_min))

P_quantised1＝round(P_normal*P_dim)

P_quantised2＝P_quantised1+1

P_uv＝0

其中，P_src表示待量化的能量特征；ln表示取自然对数，P_min表示能量最小值，P_max表示能量最大值，P_normal表示归一化之后的能量值，P_dim表示能量特征维度，round表示四舍五入，P_quantized1表示四舍五入后的能量值，P_quantized2表示量化处理后的目标能量特征，P_uv表示无语音帧的能量。

可选地，所述文本特征包括所述待转换语音信号的文本向量表征，提取所述待转换语音信号的文本特征包括：

通过语音识别模型中的编码器提取所述文本向量表征。

可选地，所述根据所述音色指示信息、所述韵律特征、所述文本特征、所述目标音高特征以及量化处理后的目标能量特征通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号包括：

根据所述音色指示信息确定所述目标发音对象的目标声纹特征；

根据所述目标声纹特征、所述韵律特征、所述文本特征、所述目标音高特征以及所述目标能量特征，通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号。

可选地，所述语音转换模型包括音色转换编码模型和音色转换解码模型，所述根据所述目标声纹特征、所述韵律特征、所述文本特征、所述目标音高特征以及所述目标能量特征，通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号包括：

根据所述韵律特征、所述文本特征、所述目标音高特征以及所述目标能量特征，通过所述音色转换编码模型确定所述待转换语音信号的上下文特征；

将所述上下文特征和所述目标声纹特征输入所述音色转换解码模型后，输出所述目标语音信号。

可选地，所述音色转换编码模型包括编码子模型和隐变量拼接子模型，所述编码子模型包括韵律特征编码子模型、文本特征编码子模型、音高特征编码子模型以及能量特征编码子模型，所述根据所述韵律特征、所述文本特征、所述目标音高特征以及所述目标能量特征，通过所述音色转换编码模型确定所述待转换语音信号的上下文特征包括：

针对每个目标编码子模型，通过所述目标编码子模型对输入至所述目标编码子模型的目标特征进行特征维度压缩后，输出所述目标特征对应的隐变量，所述目标编码子模型为所述韵律特征编码子模型、所述文本特征编码子模型、所述特征编码子模型以及所述能量特征编码子模型中的任一模型，所述目标特征为与所述目标编码子模型对应的音频特征；

通过所述隐变量拼接子模型对每个所述目标编码子模型输出的所述隐变量进行拼接后，得到所述上下文特征。

可选地，所述目标编码子模型包括卷积下采样层、与所述卷积下采样层的输出端连接的位置编码层，与所述位置编码层的输出端连接的预设数量的Conformer层以及与所述Conformer层连接的卷积瓶颈层。

可选地，所述音色转换解码模型包括卷积反瓶颈层、反卷积上采样层，预设数量的Conformer层以及HiFi-GAN结构生成器。

第二方面，本公开提供一种语音转换装置，所述装置包括：

获取模块，用于获取待转换语音信号和目标发音对象的音色指示信息；

第一特征提取模块，用于通过韵律编码模型提取所述待转换语音信号的韵律特征，所述韵律编码模型包括通过多语种音频数据预先训练得到的自监督语音识别模型；

第二特征提取模块，用于提取所述待转换语音信号的第一音高特征和文本特征；

语音转换模块，用于根据所述音色指示信息、所述韵律特征、所述第一音高特征以及所述文本特征通过预先训练得到的语音转换模型将所述待转换语音信号转换为具有目标音色的目标语音信号，所述目标音色为所述目标发音对象的音色。

第三方面，本公开提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所述方法的步骤。

通过上述技术方案，获取待转换语音信号和目标发音对象的音色指示信息；通过韵律编码模型提取所述待转换语音信号的韵律特征，所述韵律编码模型包括通过多语种音频数据预先训练得到的自监督语音识别模型；提取所述待转换语音信号的第一音高特征和文本特征；根据所述音色指示信息、所述韵律特征、所述第一音高特征以及所述文本特征通过预先训练得到的语音转换模型将所述待转换语音信号转换为具有目标音色的目标语音信号，所述目标音色为所述目标发音对象的音色，这样，在进行语音转换的过程中，使用自监督语音识别模型提取待转换语音信号的韵律特征，能提取更多的发音细节和韵律情感，并且由于自监督语音识别模型是由多语种音频数据训练得到的，编码内容与语种无关，跨域性能更好，能够避免传统音素后验概率PPG的方法导致跨语种发音不准而产生的类似带口音的现象，另外，还加入了待转换语音信号的第一音高特征，由于音高特征可以反应待转换音频信号中各种音调高低不同的声音，因此加入待转换语音信号的音高特征，可以避免转换后的音频跑掉，提高语音转换的一致性和稳定性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种语音转换方法的流程图。

图2是根据图1所示实施例示出的一种语音转换方法的流程图。

图3是根据图1所示实施例示出的一种语音转换方法的流程图。

图4是根据图3所示实施例示出的一种语音转换方法的流程图。

图5是根据图4所示实施例示出的一种语音转换方法的流程图。

图6是根据图1所示实施例示出的一种语音转换方法的流程图。

图7是根据一示例性实施例示出的一种语音转换模型的结构示意图。

图8是根据一示例性实施例示出的一种音色转换编码模型中编码子模型的模型结构示意图。

图9是根据一示例性实施例示出的一种音色转换解码模型的模型结构示意图。

图10是根据一示例性实施例示出的一种语音转换方法的架构示意图。

图11是根据一示例性实施例示出的一种语音转换装置的框图。

图12是根据图11所示实施例示出的一种语音转换装置的框图。

图13是根据图12所示实施例示出的一种语音转换装置的框图。

图14是根据图11所示实施例示出的一种语音转换装置的框图。

图15是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

本公开主要应用于将输入的音频转换为具有目标说话人音色的目标语音信号的场景中，该技术可以应用于机器人或者虚拟人上，例如，可以让机器人或者虚拟人学会唱歌。

现有语音转换方案中，主要存在以下几方面的问题：

一、传统方法无法有效解耦语音的语言特征、内容特征、音色特征、节奏特征、韵律特征，无法保证转换后音频内容的正确性，也无法实现跨语言的转换，并且传统的基于音素后验概率(PPG)的方法获取待转换语音信号的韵律特征，会存在跨语种发音不准而产生类似带口音的现象。

二、传统的语音转换方法(或者称之为音色转换方法)由于缺少表征语音情感特征的音高和/或韵律信息，转换后的语音跑掉、机械感严重，音质较差，例如，传统方法转换歌声后变为普通朗读声。

三、传统方法常将原始音频的梅尔频谱先转换为目标说话人的梅尔频谱，然后使用预训练的声码器将梅尔频谱转换为音频，这种两阶段方法导致转换效率低，预训练的声码器接收数据与训练数据的不一致导致结果的不准确性和不稳定性。

四、传统方法下的神经网络模型由于训练数据有限，无法覆盖不同语言不同说话人语音特征的分布，导致无法保证任意说话人音色转换的鲁棒性。

为解决上述存在的问题，本公开提供一种语音转换方法、装置、存储介质及电子设备，下面结合附图对本公开的具体实施方式进行详细说明。

图1是根据一示例性实施例示出的一种语音转换方法的流程图，如图1所示，该方法包括以下步骤：

在步骤S101中，获取待转换语音信号和目标发音对象的音色指示信息。

在本步骤中，可以通过音频采集装置(如麦克风)获取用户输入的该待转换语音信号。该目标发音对象例如可以包括机器人或者虚拟人(如游戏人物)等。该音色指示消息用于指示后续的语音转换模型将待转换语音信号转换为具有目标音色(该目标音色是指目标发音对象的音色)的目标语音信号，例如，该音色指示消息可以包括该目标发音对象的标识信息，该标识信息可以唯一的表征该目标发音对象；该音色指示消息也可以包括该目标发音对象的目标音频，这样，语音转换模型可以根据该标识信息或者该目标音频确定该目标发音对象的目标声纹特征，以便根据该目标声纹特征将待转换语音信号转换为具有目标音色的目标语音信号。

在步骤S102中，通过韵律编码模型提取该待转换语音信号的韵律特征，该韵律编码模型包括通过多语种音频数据预先训练得到的自监督语音识别模型。

其中，该自监督语音识别模型包括编码器和解码器，该编码器的输出作为该解码器的输入，该自监督语音识别模型例如可以包括Hubert、wav2vec等模型。

在本步骤中，可以将该待转换语音信号输入该自监督语音识别模型后，通过该自监督语音识别模型中编码器的倒数第二层或者倒数第三层输出该韵律特征，其中，该韵律特征可以表征待转换语音信号的韵律情感，通过加入该韵律特征，可以提高转换后目标语音信号的自然度，也提升了音质。另外，通过自监督语音识别模型中编码器的倒数第二层或者倒数第三层输出的韵律特征的特征维度更全面，从而可以更好的反应待转换语音信号的韵律情感。

本公开通过使用自监督语音识别模型作为韵律编码器，相比于传统单纯使用基于音素后验概率(PPG)的方法，能提取更多发音细节、韵律情感。

本公开可以采用相关技术中提供的各类语音自监督的训练方法训练得到该韵律编码模型，举例来说，可以采用Hubert、wav2vec、SpeechT5等训练方法，另外，采用自监督的训练方法无需标注大量的标注训练数据，可以节省训练成本。

在本公开一种实施例中，该韵律编码模型可以通过预先设置的多语种音频数据预先训练得到，这样使得韵律编码模型的编码内容与语种无关，跨域性能更好，避免传统PPG的方法导致跨语种发音不准而产生的类似带口音的现象。

在步骤S103中，提取该待转换语音信号的第一音高特征和文本特征。

在本步骤中，可以通过预先训练得到的语音识别模型提取该待转换语音信号的文本特征，通过预先训练得到的音高预测模型提取该待转换语音信号的第一音高特征。

图2是根据图1所示实施例示出的一种语音转换方法的流程图，如图2所示，步骤S103包括以下子步骤：

在步骤S1031中，通过该语音识别模型提取该待转换语音信号的该文本特征。

其中，该文本特征也可以称之为内容特征，可以包括待转换语音信号的文本向量表征。在本步骤中，可以通过语音识别模型中的编码器提取该文本向量表征。

举例来说，该语音识别模型可以包括预先训练得到的编码器(也可以称之为文本编码器)，例如可以包括Transducers、U2++、RNNT-T等编码器模型。

本公开在预先训练该语音识别模型的过程中，可以使用带噪声的文本标注音频数据训练一个端到端的编码器-解码器结构的ASR(自动语音识别，Automatic SpeechRecognition)模型，并且训练语料可以使用中文、外语的混合音频，保证对各种语言的通用性。这样，在训练完成该ASR模型后，可以将ASR模型中的编码器作为训练后的文本编码器，在将待转换语音信号输入该文本编码器后，将该文本编码器的最后一层的输出，作为提取的文本特征。

需要说明的是，本公开使用了预训练的语音识别网络(即ASR模型)中的编码器来提取待转换语音信号的文本内容，保证了文本内容的正确率，也不限制输入的待转换语音信号，从而可以实现任意语音信号的音色转换，例如可以将任意歌声转换成具备目标音色的歌声。

在步骤S1032中，通过该音高预测模型提取该待转换语音信号的该第一音高特征。

其中，该音高预测模型也可以包括预先训练得到的深度神经网络模型，例如CREPE模型。

本公开在预先训练该音高预测模型的过程中，可以使用传统信号处理的方法提取无噪训练语料的音高信息作为音频数据的音高标注，对训练语料进行加噪处理后利用深度神经网络进行训练，具体的网络结构比较多，例如可以使用CREPE的方法，并且CREPE方法相比于传统信号处理的方法，对噪声鲁棒性更强。

在步骤S104中，根据该音色指示信息、该韵律特征、该第一音高特征以及该文本特征通过预先训练得到的语音转换模型将该待转换语音信号转换为具有目标音色的目标语音信号，该目标音色为该目标发音对象的音色。

采用上述方法，在进行语音转换的过程中，使用自监督语音识别模型提取待转换语音信号的韵律特征，能提取更多的发音细节和韵律情感，并且由于自监督语音识别模型是由多语种音频数据训练得到的，编码内容与语种无关，跨域性能更好，能够避免传统音素后验概率PPG的方法导致跨语种发音不准而产生的类似带口音的现象，另外，还加入了待转换语音信号的第一音高特征，由于音高特征可以反应待转换音频信号中各种音调高低不同的声音，因此加入待转换语音信号的音高特征，可以避免转换后的音频跑掉，提高语音转换的一致性和稳定性。

图3是根据图1所示实施例示出的一种语音转换方法的流程图，如图3所示，该方法还包括以下步骤：

在步骤S105中，提取该目标发音对象的第二音高特征。

在本步骤中，可以通过音高预测模型提取该目标发音对象的第二音高特征。

实际的音色转换应用场景中，涉及到源说话人和目标说话人两个角色，其中，源说话人是指待转换语音信号的说话人，目标说话人是指转换后的目标语音信号的说话人，该目标发音对象包括该目标说话人。在本公开中，考虑到源说话人和目标说话人之间的音高差异很大，语音转换过程中，若单纯使用源说话人的音高特征(即第一音高特征)，会导致合成后的目标语音信号的音高与目标说话人的音高相似度变差的情况出现，所以需要获取目标发音对象的第二音高特征，以便根据该第二音高特征对该第一音高特征进行调整。

在步骤S106中，根据该第二音高特征对该第一音高特征进行调整，得到目标音高特征。

举例来说，可以通过以下公式根据该第二音高特征对该第一音高特征进行调整，得到调整后的目标音高特征：

Pitch_src＝ln(Pitch_src)(1)

Pitch_adjusted＝Pitch_src+mean(Pitch_target)-mean(Pitch_src)(2)

其中，Pitch_src表示第一音高特征，ln表示取自然对数，Pitch_target表示第二音高特征，Pitch_adjusted表示调整后的目标音高特征。这样，通过公式(1)对第一音高特征Pitch_src取对数，然后通过公式(2)对取对数后的第一音高特征Pitch_src加上目标说话人的第二音高特征Pitch_target的平均值后，再减去源说话人的第一音高特征Pitch_src的平均值后，即可得到调整后的目标音高特征Pitch_adjusted。

这样，在执行步骤S104的过程中，可以根据该音色指示信息、该韵律特征、该文本特征以及该目标音高特征通过该语音转换模型将该待转换语音信号转换为该目标语音信号。

另外，在本公开中，为了提升语音转换模型对被转换音频波动的鲁棒性，减少训练语料和语音转换推理阶段的输入音频之间数据分布的不匹配问题，实现将任意音频转换为具有目标音色的音频，本公开可以对调整后的目标音高特征进行量化处理。

图4是根据图3所示实施例示出的一种语音转换方法的流程图，如图4所示，该方法还包括以下步骤：

在步骤S107中，获取预先设置的音高最小值、音高最大值以及音高特征维度；根据该音高最小值、该音高最大值以及该音高特征维度对该目标音高特征进行量化处理。

举例来说，可以通过以下几个公式对调整后的音高特征进行量化处理：

Pitch_adjusted＝ln(Pitch_adjusted) (3)

Pitch_normal＝(Pitch_adjusted-ln(Pitch_min))/(ln(Pitch_max)-ln(Pitch_min)) (4)

Pitch_quantised1＝round(Pitch_normal*Pitch_dim) (5)

Pitch_quantised2＝Pitch_quantised1+1 (6)

Pitch_uv＝0 (7)

其中，Pitch_adjusted表示调整后的目标音高特征，ln表示取自然对数；Pitch_min和Pitch_max是预先设定的音高最小和最大值，例如，在本公开中根据实验数据可以设置Pitch_min＝65，设置Pitch_max＝650；Pitch_normal表示归一化0-1之后的音高值；Pitch_dim表示预先设定的音高特征维度，例如可以设定为254；round表示四舍五入，公式(5)中的Pitch_quantized1表示四舍五入后的音高值，公式(6)中的Pitch_quantized2表示量化处理后的目标音高特征，Pitch_uv表示无语音帧的音高。经过以上处理，音高被量化为1-255的值，最后使用0来指代无语音帧的音高。

这样，在执行步骤S104的过程中，可以根据该音色指示信息、该韵律特征、该文本特征以及量化处理后的目标音高特征，通过该语音转换模型将该待转换语音信号转换为该目标语音信号。

图5是根据图4所示实施例示出的一种语音转换方法的流程图，如图5所示，该方法还包括以下步骤：

在步骤S108中，提取该待转换语音信号的能量特征，该能量特征包括对该待转换语音信号进行分帧加窗处理后，每帧语音信号的帧能量。

其中，本步骤中提到的待转换语音信号的能量特征是指对待处理语音信号进行分帧加窗处理后，计算的每帧的能量，该能量特征可以还原原始语音的幅度变化，优化语音的情感和旋律，使得发音更抑扬顿挫。

示例地，将待转换语音信号进行分帧加窗处理，如公式(8)所示。

x_w(n)＝x(n)w(n)(8)

其中，w(n)表示窗函数，x_w(n)表示被截短以后的信号，x(n)为输入的待转换语音信号。其中窗函数使用简单的矩形窗，其定义为：

其中L取800，窗帧移为320。

接着，计算每帧的能量，并取对数，一帧的能量计算如公式(10)所示。

其中，P_x(t)是第t帧输入，ln表示取自然对数，max(1,...)是为了保证取对数后的能量最小为0。

在将该能量特征输入至后续的语音识别模型之前，也需要将该能量特征进行量化处理，从而可以进一步提升语音转换模型对被转换音频波动的鲁棒性，减少训练语料和语音转换推理阶段的输入音频之间数据分布的不匹配问题，实现将任意音频转换为具有目标音色的音频。

在步骤S109中，获取预先设置的能量最小值、能量最大值以及能量特征维度，并根据该能量最小值、该能量最大值以及该能量特征维度对该能量特征进行量化处理。

示例地，可以通过以下几个公式对能量特征进行量化处理：

P_src＝ln(P_src) (11)

P_normal＝(P_src-ln(P_min))/(ln(P_max)-ln(P_min)) (12)

P_quantised1＝round(P_normal*P_dim) (13)

P_quantised2＝P_quantised1+1 (14)

P_uv＝0 (15)

在对能量特征进行量化处理后，可以将量化处理后的目标能量特征输入至语音转换模型。这样，在执行步骤S104的过程中，可以根据该音色指示信息、该韵律特征、该文本特征、该目标音高特征以及量化处理后的目标能量特征通过该语音转换模型将该待转换语音信号转换为该目标语音信号。

图6是根据图1所示实施例示出的一种语音转换方法的流程图，如图6所示，步骤S104包括以下子步骤：

在步骤S1041中，根据该音色指示信息确定该目标发音对象的目标声纹特征。

在本公开中，可以使用目标发音对象的目标声纹特征控制转换后的目标音色，避免转换后的音色不稳定以及相似度较差的问题。

本步骤可以通过以下两种方式中的任一方式确定该目标声纹特征：

方式一：该音色指示信息包括该目标发音对象的标识信息，这样可以根据该标识信息从该语音转换模型对应的多个发音对象对应的声纹特征中确定该目标声纹特征。

采用方式一的前提在于在模型训练阶段，需要选用多个发音对象的声纹特征作为待训练语音转换模型的输入，使得训练后的语音转换模型可以具备将待转换语音信号转换成多种不同音色的语音信号的功能。

也就是说，在模型训练阶段可以提取多个发音对象的声纹特征，这样可以将该多个发音对象的声纹特征进行保存，使得实际的语音转换场景中(即推理阶段)，可以根据该目标发音对象的标识信息直接获取该目标发音对象的目标声纹特征，以便根据该目标声纹特征控制转换后的目标语音信号具备该目标发音对象的该目标音色。其中，语音转换模型对应的多个发音对象中包括该目标发音对象。

方式二、该音色指示信息包括该目标发音对象的目标音频，这样，可以通过预先训练得到的声纹识别模型提取该目标音频对应的该目标声纹特征。

采用方式二，可以获取一段目标发音对象的目标音频，该目标音频具备该目标音色，然后通过预先训练得到的声纹识别模型提取该目标音频对应的该目标声纹特征。

一种可能的实现方式中，可以使用带说话人标注的数据训练一个端到端的声纹识别(Voiceprint Recognition，VPR)模型。训练语料使用中外混合，保证对不同语言的通用性。训练方法可以相关技术中提供的端到端方法，如GE2E。训练完毕后，可以使用模型提取每个说话人语料的声纹特征，之后可以将目标声纹特征作为后续语音转换模型的输入进行音色转换。

在步骤S1042中，根据该目标声纹特征、该韵律特征、该文本特征、该目标音高特征以及该目标能量特征，通过该语音转换模型将该待转换语音信号转换为该目标语音信号。

其中，该语音转换模型可以包括音色转换编码模型和音色转换解码模型。该音色转换编码模型可以使用带瓶颈结构的Conformer深度学习网络。该音色转换解码模型可以为生成器，该生成器可以使用Conformer组成的神经网络与HiFi-GAN结构的神经网络进行拼接得到。

在本步骤中，根据该韵律特征、该文本特征、该目标音高特征以及该目标能量特征，通过该音色转换编码模型确定该待转换语音信号的上下文特征；将该上下文特征和该目标声纹特征输入该音色转换解码模型后，输出该目标语音信号。

在本步骤中，可以将待转换语音信号的文本特征、目标音高特征、韵律特征以及目标能量特征输入该音色转换编码模型后，通过该音色转换编码模型对输入的文本特征、韵律特征、目标音高特征、目标能量特征进行压缩，利用注意力机制提取待转换语音信号最重要的部分，利用信息最大化原理去除冗余信息，并通过调节输出维度来改变各个输入特征的权重，最后将压缩后的特征进行拼接后得到该上下文特征，以便将该上下文特征作为音色转换解码模型的输入。

一种可能的实现方式中，该音色转换编码模型可以包括编码子模型和隐变量拼接子模型，该编码子模型包括韵律特征编码子模型、文本特征编码子模型、音高特征编码子模型以及能量特征编码子模型，这样，可以按照以下方式根据该韵律特征、该文本特征、该目标音高特征以及该目标能量特征，通过该音色转换编码模型确定该待转换语音信号的上下文特征：

针对每个目标编码子模型，通过该目标编码子模型对输入至该目标编码子模型的目标特征进行特征维度压缩后，输出该目标特征对应的隐变量，该目标编码子模型为该韵律特征编码子模型、该文本特征编码子模型、该特征编码子模型以及该能量特征编码子模型中的任一模型，该目标特征为与该目标编码子模型对应的音频特征；例如，若该目标编码子模型为韵律特征编码子模型，该目标特征即为韵律特征；之后可以通过隐变量拼接子模型对每个该目标编码子模型输出的该隐变量进行拼接后，得到该上下文特征。

示例地，图7是根据一示例性实施例示出的一种语音转换模型的架构示意图，如图7所示，该语音转换模型可以包括音色转换编码模型和音色转换解码模型，其中，音色转换编码模型可以包括韵律特征编码子模型、文本特征编码子模型、音高特征编码子模型、能量特征编码子模型以及隐变量拼接子模型，这样，韵律特征、文本特征、音高特征、能量特征分别基于各自对应的编码子模型经过信息压缩之后生成隐变量，然后每种特征的隐变量在隐变量拼接子模型进行拼接之后可以输出上下文特征，该上下文特征可以作为音色转换解码模型的输入，上述示例仅是举例说明，本公开对此不作限定。

在一种可能的实施方式中，该目标编码子模型可以包括卷积下采样层、与该卷积下采样层的输出端连接的位置编码层，与该位置编码层的输出端连接的预设数量(如3层)的Conformer层以及与该Conformer层连接的卷积瓶颈层。

示例地，图8是根据一示例性实施例示出的一种音色转换编码模型中编码子模型(即韵律特征编码子模型、文本特征编码子模型、音高特征编码子模型以及能量特征编码子模型中的任一编码子模型)的模型结构示意图，如图8所示，该编码子模型包括卷积下采样层、位置编码层、多个Conformer层以及卷积瓶颈层，这样，卷积下采样层可以对输入的特征帧数进行压缩，然后经过位置编码层引入时序信息，接着经过多层Conformer层，利用自注意力机制来捕捉最重要的上下文信息，最后经过卷积瓶颈层对输出维度进行压缩后，得到目标特征对应的隐变量。

这样，编码子模型通过对输出特征进行压缩，去除多余的噪声、杂音信息，同时去除输入特征中残留的说话人音色信息，来提高转换后语音与目标说话人音色的相似度，并避免将杂音、噪声转换过去。需要注意的是，各个特征所经过的编码子模型结构相同，但参数可以不同，最后输出隐变量的维度代表各个特征所占的权重，该权重可以根据转换后的结果进行调节。

另外，在本公开中，述音色转换解码模型包括卷积反瓶颈层、反卷积上采样层，预设数量的Conformer层以及HiFi-GAN结构生成器。

示例地，图9是根据一示例性实施例示出的一种音色转换解码模型的模型结构示意图，如图9所示，该音色转换解码模型可以包括卷积反瓶颈层、反卷积上采样层，多个Conformer层、HiFi-GAN结构生成器以及线性层，这样，编码后的隐变量经过卷积反瓶颈层对输入隐变量维度进行扩增，然后经过反卷积上采样层对隐变量帧数进行还原，之后通过多层Conformer，利用自注意力机制来捕捉最重要的上下文信息，最后通过与HiFi-GAN生成器相同结构的网络来将隐变量输出为目标语音信号。

其中，声纹特征通过不同参数的线性层后，分别与卷积上采样层的输出以及Conformer层输出相加后，输入至HiFiGAN结构的生成器。采用这种多层声纹特征相加的网络结构，有助于提高声纹特征在整个网络中的权重，提升转换后的目标语音信号的与目标说话人的音色相似度。

需要说明的是，在音色转换编码模型的训练阶段，采用的训练语料可以为纯净的歌声语料和普通说话语料的混合，然后根据说话人进行分类，需要注意的是目标说话人训练语料可以不包含歌声语料，这可以大大降低采集语料的成本。

另外，在将该上下文特征和该目标声纹特征输入该音色转换解码模型后，输出该目标语音信号的过程中，可以将目标声纹特征作为条件输入，将输入的上下文特征转换为具有目标音色的目标语音信号。

本公开在对该音色转换编码模型进行训练的过程中可以使用生成器、判别器的对抗学习方式，该判别器可以采用HiFi-GAN的多尺度、多周期的判别器结构。

举例来说，由于使用对抗学习的方法，分为对生成器的更新和对判别器的更新。首先对生成器进行更新时，可以训练生成器到收敛状态。生成器损失函数可以使用短时傅立叶损失(STFT Loss)与特征匹配损失(Feature Match Loss)、GAN原始的生成对抗损失(GANLoss)的加权和。生成器优化器可以使用RAdam。然后在每一步中同时对生成器和判别器进行更新。判别器损失函数使用HiFi-GAN中采用的生成对抗损失，判别器优化器同样使用RAdam。

需要说明的是，相比较于相关技术，本公开将声码器模型融于解码器中，避免由于声码器训练语料输入特征与实际输入特征分布不同造成的声音发颤、发抖的现象。另外，针对传统方法常将原始音频的梅尔频谱先转换为目标说话人的梅尔频谱，然后使用预训练的声码器将梅尔频谱转换为音频，这种两阶段方法导致转换效率低，预训练的声码器接收数据与训练数据的不一致导致结果的不准确性和不稳定性，本公开中的语音转换模型采用音色转换编码模型-音色转换解码模型实现端到端的语音转换，提高了转换效率，并且保证了语音转换的准确性和稳定性。

示例地，表1列举了几种语音转换方法分别对应的转换结果，其中，MOS表示主观平均意见值，该值越大表征语音转换效果越好(或者称之为音质最佳)，如表1所示，采用本公开提供的语音转换方法相比较于其它的转换方法来说，转换后的语音的音质最佳。

方法	MOS
		AutoVC	3
EA-SVC	3.52
		C-SVC	3.21
本公开方法	4.13

表1

示例地，图10是根据一示例性实施例示出的一种语音转换方法的架构示意图，如图10所示，该架构包括待处理语音信号获取单元1001，特征提取单元1002，目标音频获取单元1003，声纹特征提取单元1004，音色转换编码单元1005，音色转换解码单元1006以及目标语音信号输出单元1007。

其中，待处理语音信号获取单元1001用于获取待转换语音信号；特征提取单元1002进一步包括文本特征提取部分、韵律特征提取部分、音高特征提取部分以及能量特征提取模块，其中文本特征提取部分用于通过预先训练得到的语音识别模型的编码模块提取待转换语音信号的文本特征，韵律特征提取部分用于通过预先训练得到的韵律编码模型提取待转换语音信号的韵律特征，音高特征提取部分用于通过预先训练得到的音高预测模型提取待转换语音信号的第一音高特征，能量特征提取部分用于计算待转换语音信号的每帧信号的能量。如图10所示，该架构还包括音色转换编码单元1005，用于将特征提取单元1002提取的文本特征、韵律特征、第一音高特征以及能量特征整合后得到待转换语音信号的上下文特征。

如图10所示，该架构还包括目标音频获取单元1003，用户获取目标发音对象的目标音频。将该目标音频输入如图10所示的声纹特征提取单元1004后，可以提取目标音频对应的目标声纹特征。之后可以将声纹特征提取单元1004输出的目标声纹特征以及音色转换编码单元1005输出的待转换语音信号的上下文特征输入音色转换解码单元1006后，通过目标语音信号输出单元1007输出转换后的具有目标音色的目标语音信号。上述示例仅是举例说明，本公开对此不作限定。

图11是根据一示例性实施例示出的一种语音转换装置的框图，如图11所示，该装置包括：

获取模块1101，用于获取待转换语音信号和目标发音对象的音色指示信息；

第一特征提取模块1102，用于通过韵律编码模型提取所述待转换语音信号的韵律特征，所述韵律编码模型包括通过多语种音频数据预先训练得到的自监督语音识别模型；

第二特征提取模块1103，用于提取所述待转换语音信号的第一音高特征和文本特征；

语音转换模块1104，用于根据所述音色指示信息、所述韵律特征、所述第一音高特征以及所述文本特征通过预先训练得到的语音转换模型将所述待转换语音信号转换为具有目标音色的目标语音信号，所述目标音色为所述目标发音对象的音色。

可选地，所述自监督语音识别模型包括编码器和解码器，所述编码器的输出作为所述解码器的输入，所述第一特征提取模块1102，用于将所述待转换语音信号输入所述自监督语音识别模型后，通过所述自监督语音识别模型中编码器的倒数第二层或者倒数第三层输出所述韵律特征。

可选地，图12是根据图11所示实施例示出的一种语音转换装置的框图，如图12所示，该装置还包括：

音高特征调整模块1105，用于提取所述目标发音对象的第二音高特征；根据所述第二音高特征对所述第一音高特征进行调整，得到目标音高特征；

所述语音转换模块1104，用于根据所述音色指示信息、所述韵律特征、所述文本特征以及所述目标音高特征通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号。

可选地，所述音高特征调整模块1105，用于通过以下公式对所述第一音高特征进行调整：

Pitch_src＝ln(Pitch_src)

Pitch_adjusted＝Pitch_src+mean(Pitch_target)-mean(Pitch_src)

可选地，图13是根据图12所示实施例示出的一种语音转换装置的框图，如图13所示，该装置还包括：

音高特征量化模块1106，用于获取预先设置的音高最小值、音高最大值以及音高特征维度；根据所述音高最小值、所述音高最大值以及所述音高特征维度对所述目标音高特征进行量化处理；

所述语音转换模块1104，用于根据所述音色指示信息、所述韵律特征、所述文本特征以及量化处理后的目标音高特征，通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号。

可选地，所述音高特征量化模块1106，用于通过以下公式对所述目标音高特征进行量化处理：

Pitch_adjusted＝ln(Pitch_adjusted)

Pitch_normal＝(Pitch_adjusted-ln(Pitch_min))/(ln(Pitch_max)-ln(Pitch_min))

Pitch_quantised1＝round(Pitch_normal*Pitch_dim)

Pitch_quantised2＝Pitch_quantised1+1

Pitch_uv＝0

可选地，图14是根据图11所示实施例示出的一种语音转换装置的框图，如图14所示，该装置还包括：

能量特征处理模块1107，用于提取所述待转换语音信号的能量特征，所述能量特征包括对所述待转换语音信号进行分帧加窗处理后，每帧语音信号的帧能量；获取预先设置的能量最小值、能量最大值以及能量特征维度；根据所述能量最小值、所述能量最大值以及所述能量特征维度对所述能量特征进行量化处理；

所述语音转换模块1104，用于根据所述音色指示信息、所述韵律特征、所述文本特征、所述目标音高特征以及量化处理后的目标能量特征通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号。

可选地，所述能量特征处理模块1107，用于通过以下公式对所述能量特征进行量化处理包括：

P_src＝ln(P_src)

P_normal＝(P_src-ln(P_min))/(ln(P_max)-ln(P_min))

P_quantised1＝round(P_normal*P_dim)

P_quantised2＝P_quantised1+1

P_uv＝0

可选地，所述文本特征包括所述待转换语音信号的文本向量表征，所述第二特征提取模块1103，用于通过语音识别模型中的编码器提取所述文本向量表征。

可选地，所述语音转换模块1104，用于根据所述音色指示信息确定所述目标发音对象的目标声纹特征；根据所述目标声纹特征、所述韵律特征、所述文本特征、所述目标音高特征以及所述目标能量特征，通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号。

可选地，所述语音转换模型包括音色转换编码模型和音色转换解码模型，所述语音转换模块1104，用于根据所述韵律特征、所述文本特征、所述目标音高特征以及所述目标能量特征，通过所述音色转换编码模型确定所述待转换语音信号的上下文特征；将所述上下文特征和所述目标声纹特征输入所述音色转换解码模型后，输出所述目标语音信号。

可选地，所述音色转换编码模型包括编码子模型和隐变量拼接子模型，所述编码子模型包括韵律特征编码子模型、文本特征编码子模型、音高特征编码子模型以及能量特征编码子模型，所述语音转换模块1104，用于针对每个目标编码子模型，通过所述目标编码子模型对输入至所述目标编码子模型的目标特征进行特征维度压缩后，输出所述目标特征对应的隐变量，所述目标编码子模型为所述韵律特征编码子模型、所述文本特征编码子模型、所述特征编码子模型以及所述能量特征编码子模型中的任一模型，所述目标特征为与所述目标编码子模型对应的音频特征；对每个所述目标编码子模型输出的所述隐变量进行拼接后，得到所述上下文特征。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种电子设备的框图。如图15所示，该电子设备1500可以包括：处理器1501，存储器1502。该电子设备1500还可以包括多媒体组件1503，输入/输出(I/O)接口1504，以及通信组件1505中的一者或多者。

其中，处理器1501用于控制该电子设备1500的整体操作，以完成上述的语音转换方法中的全部或部分步骤。存储器1502用于存储各种类型的数据以支持在该电子设备1500的操作，这些数据例如可以包括用于在该电子设备1500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件1503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1502或通过通信组件1505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口1504为处理器1501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1505用于该电子设备1500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件1505可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备1500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的语音转换方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音转换方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1502，上述程序指令可由电子设备1500的处理器1501执行以完成上述的语音转换方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的语音转换方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音转换方法，其特征在于，所述方法包括：

获取待转换语音信号和目标发音对象的音色指示信息；

提取所述待转换语音信号的第一音高特征和文本特征；

2.根据权利要求1所述的方法，其特征在于，所述自监督语音识别模型包括编码器和解码器，所述编码器的输出作为所述解码器的输入，所述通过韵律编码模型提取所述待转换语音信号的韵律特征包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述目标发音对象的第二音高特征；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二音高特征对所述第一音高特征进行调整，得到目标音高特征包括：

通过以下公式对所述第一音高特征进行调整：

Pitch_src＝ln(Pitch_src)

Pitch_adjusted＝Pitch_src+mean(Pitch_target)-mean(Pitch_src)

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述音色指示信息、所述韵律特征、所述文本特征以及量化处理后的目标音高特征，通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号。

6.根据权利要求5所述的方法，其特征在于，根据所述音高最小值、所述音高最大值以及所述音高特征维度，通过以下公式对所述目标音高特征进行量化处理：

Pitch_adjusted＝ln(Pitch_adjusted)

Pitch_normal＝(Pitch_adjusted-ln(Pitch_min))/(ln(Pitch_max)-ln(Pitch_min))

Pitch_quantised1＝round(Pitch_normal*Pitch_dim)

Pitch_quantised2＝Pitch_quantised1+1

Pitch_uv＝0

7.根据权利要求3所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，根据所述能量最小值、所述能量最大值以及所述能量特征维度，通过以下公式对所述能量特征进行量化处理包括：

P_src＝ln(P_src)

P_normal＝(P_src-ln(P_min))/(ln(P_max)-ln(P_min))

P_quantised1＝round(P_normal*P_dim)

P_quantised2＝P_quantised1+1

P_uv＝0

9.根据权利要求1-8任一项所述的方法，其特征在于，所述文本特征包括所述待转换语音信号的文本向量表征，提取所述待转换语音信号的文本特征包括：

通过语音识别模型中的编码器提取所述文本向量表征。

10.根据权利要求7所述的方法，其特征在于，所述根据所述音色指示信息、所述韵律特征、所述文本特征、所述目标音高特征以及量化处理后的目标能量特征通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号包括：

11.根据权利要求10所述的方法，其特征在于，所述语音转换模型包括音色转换编码模型和音色转换解码模型，所述根据所述目标声纹特征、所述韵律特征、所述文本特征、所述目标音高特征以及所述目标能量特征，通过所述语音转换模型将所述待转换语音信号转换为所述目标语音信号包括：

12.根据权利要求11所述的方法，其特征在于，所述音色转换编码模型包括编码子模型和隐变量拼接子模型，所述编码子模型包括韵律特征编码子模型、文本特征编码子模型、音高特征编码子模型以及能量特征编码子模型，所述根据所述韵律特征、所述文本特征、所述目标音高特征以及所述目标能量特征，通过所述音色转换编码模型确定所述待转换语音信号的上下文特征包括：

13.根据权利要求12所述的方法，其特征在于，所述目标编码子模型包括卷积下采样层、与所述卷积下采样层的输出端连接的位置编码层，与所述位置编码层的输出端连接的预设数量的Conformer层以及与所述Conformer层连接的卷积瓶颈层。

14.根据权利要求11所述的方法，其特征在于，所述音色转换解码模型包括卷积反瓶颈层、反卷积上采样层，预设数量的Conformer层以及HiFi-GAN结构生成器。

15.一种语音转换装置，其特征在于，所述装置包括：

16.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-14中任一项所述方法的步骤。

17.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-14中任一项所述方法的步骤。