CN116741144A

CN116741144A - 一种语音音色转换方法和系统

Info

Publication number: CN116741144A
Application number: CN202310607980.0A
Authority: CN
Inventors: 李雅; 韩易辰; 高迎明
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-09-12

Abstract

本发明提供一种语音音色转换方法和系统，所述方法包括：输入一对训练语音至初始网络模型。利用长短时记忆网络和残差向量量化提取参考音频的音色特征，利用内容向量提取模型去除样本语音的音色，利用基频编码器提取基频特征，利用文本编码器提取样本语音的文本特征。将音色特征、基频特征和文本特征输入先验编码器，将样本语音的线性谱输入后验编码器，利用Flow模型对齐先验编码器和后验编码器的输出，计算概率分布距离作为损失函数，最小化损失以优化各模型的参数。将待转换语音输入训练好的模型中，模型通过声码器输出音色转换后的语音。该方法改进了现有技术中音色未完全转换、生成音色过于机械的问题，可以对任意说话人的音色建模，适用性更广。

Description

一种语音音色转换方法和系统

技术领域

本发明涉及人工智能中语音转换技术领域，尤其涉及一种语音音色转换的方法和系统。

背景技术

语音转换技术旨在将说话人的语音特征转换为另一个说话人的语音特征，同时保持语音内容的一致性。为了实现有效的语音转换，需要提取目标说话人的音色特征，最终将原始语音转换成与目标说话人音色相似的语音。现有的语音转换技术，在提取原始语音文本特征时，或者没有去除原始语音的音色信息导致音色没有转换，或者缺失了原始语音的韵律信息导致转换得到的语音太过机械。并且，现有技术只能处理训练数据集中有标注的音色，对于未见过的音色，存在转换得到的语音音质变差或是音色不像的问题。

发明内容

鉴于此，本发明实施例提供了一种语音音色转换方法和系统，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种语音音色转换模型的训练方法，该方法包括以下步骤：

获取训练样本集，所述训练样本集中有多个样本，每个样本包含一对音色相同的参考音频和样本语音；

获取初始网络模型，所述初始网络模型中，将所述样本语音输入内容向量提取模型以输出内容向量，将所述内容向量输入基于transformer的文本编码器以输出文本特征；将所述参考音频输入长短时记忆网络后通过残差向量量化模块输出音色特征；将所述音色特征和所述内容向量同时输入基频编码器以输出基频特征；将所述音色特征、所述基频特征与所述文本特征一同输入先验编码器以输出先验声学特征；

提取所述样本语音的线性谱，将所述线性谱与所述音色特征输入后验编码器以输出的后验声学特征；将所述后验声学特征和所述音色特征输入Flow模型，计算所述Flow模型的输出与所述先验声学特征的距离作为损失；

通过最小化所述损失，采用所述训练样本集对所述初始网络模型、所述Flow模型和所述后验编码器的参数进行更新；

将更新后所述初始网络模型中所述先验编码器和所述残差向量量化模块的输出连接至所述Flow模型，将所述Flow模型的输出连接至声码器，得到语音音色转换模型。

在本发明的一些实施例中，所述内容向量提取模型的训练步骤如下：

获取初始内容向量提取模型，其中包括老师模块和学生模块；

将训练语音集输入到所述老师模块和所述学生模块中；

通过所述老师模块中预设的语音转换模型，将所述训练语音集转换为同一音色的学习语音集；

将所述同一音色的学习语音集输入到所述老师模块中预训练的第一hubert模型，对输出结果进行聚类；

将聚类结果作为所述学生模块的标签进行学习，其中学生模块包括预训练的第二hubert模型；

训练得到的所述初始内容向量提取模型，作为所述内容向量提取模型。

在本发明的一些实施例中，所述文本编码器为transformer中的encoder结构。

在本发明的一些实施例中，计算所述Flow模型的输出与所述先验声学特征的距离作为损失，包括：计算所述Flow模型的输出与所述先验声学特征的KL散度作为损失。

在本发明的一些实施例中，所述声码器为HiFi-GAN声码器。

在本发明的一些实施例中，所述训练样本集包括，多种音色、多种语速、多种情感、多种音调、多种音量的语音数据。

在本发明的一些实施例中，所述先验编码器和所述后验编码器采用wavenet结构，其中卷积层包含膨胀空洞卷积层；所述Flow模型中，每一个耦合层包括四个wavenet层构成。

本发明的另一方面提供了一种语音音色转换的方法，包括如下步骤：

获取参考音频和待转换的原始语音；

将所述参考音频和所述原始语音输入上述方法所述语音音色转换模型的训练方法中的语音音色转换模型，以输出目标语音，所述目标语音与所述参考音频音色一致，所述目标语音与所述原始语音内容一致。

本发明的另一方面提供了一种语音音色转换系统，包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现上述方法的步骤。

本发明的另一方面提供了计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明的有益效果至少是：

本发明所述的一种语音音色转换方法和系统，将相同音色的参考音频和待转换的样本语音输入待训练模型，利用长短时记忆网络和残差向量量化模块提取参考音频的音色特征，利用内容向量提取模型得到去除了音色特征的内容特征向量，将输入音色特征和内容特征向量一同输入基频编码器提取基频特征，将内容特征向量输入文本编码器提取文本特征，将音色特征、基频特征和文本特征一同输入先验编码器以输出先验声学特征。提取样本语音的线性谱输入到后验编码器，将后验编码器输出的后验声学特征输入到FLOW模型中，基于先验编码器输出的先验声学特征和Flow模型输出的结果，计算两者之间的KL散度作为损失，最小化该损失以优化模型各部分的参数，以此方法训练得到语音音色转换模型。将参考音频和待转换的原始语音输入到训练好的语音音色转换模型，其中FLOW模型连接声码器，由声码器输出转换后的目标语音，完成语音音色转换。该方法和系统改进了现有技术由于没有去除原始语音音色，导致音色没有完全转换的缺陷，以及由于缺失韵律信息导致最终生成的语音音色机械、缺乏情感的缺陷。并且该方法和系统利用长短时记忆网络与残差向量量化结合的方式，对说话人的音色特征建模，可以对任意音色进行提取，模型的适用更广泛。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例中所述语音音色转换模型的训练流程图。

图2为本发明另一实施例中所述语音音色转换模型的推理流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

语音音色转换指改变原语音说话人的声音特征，在保持语音内容和语音质量的同时，改变说话人的音调、音色等语音特征，转化为另一个目标音色的语音。现有技术包括：基于统计模型的转换方法，通过大量训练数据对齐原始语音和目标说话人的语音数据，估计转换函数以实现音色转换；基于神经网络的转换方法，利用深度学习模型对声学特征建模，训练大量原始语音和目标说话人的语音数据，以学习到两者的声学特征之间的映射关系，实现音色转换；基于Flow模型的转换方法，Flow模型是可逆的深度生成模型，通过建立概率密度函数，学习原始语音和目标说话人之间的映射关系，实现语音的生成和转换。

现有方法中使用的模型，或是没有将音色特征去除，或是只保留了文本特征缺失了韵律信息，导致生成出的结果音色没有转换或是太过机械没有情感等问题。而且现有的模型无法复刻任意语音的音色，现有模型只能很好的处理训练数据集中有标注的音色，对于未见过的目标音频音色在转换时，会出现音质变差或是音色不像的问题。

本发明提供一种语音音色转换方法和系统，针对现有技术存在的缺陷做出了改进。所述方法引入长短时记忆网络和残差向量量化模块作为音色特征提取器，能够更好地对说话人的音色特征进行建模，能适应任意音色语音，模型适用范围更广。同时，本发明利用内容向量提取模型，去除待转换的原始语音的音色的同时，保留了原始语音其他特征信息，解决了音色没有完全转换的问题，最终合成的目标语音更自然、富有情感。

具体的，本发明的实施例提供了一种语音音色转换模型的训练方法，如图1所示，该方法包括以下步骤S101～105：

步骤S101：获取训练样本集，训练样本集中有多个样本，每个样本包含一对音色相同的参考音频和样本语音。

步骤S102：获取初始网络模型，初始网络模型中，将样本语音输入内容向量提取模型以输出内容向量，将内容向量输入基于transformer的文本编码器以输出文本特征；将参考音频输入长短时记忆网络后通过残差向量量化模块输出音色特征；将音色特征和内容向量同时输入基频编码器以输出基频特征；将音色特征、基频特征与所述文本特征一同输入先验编码器以输出先验声学特征。

步骤S103：提取样本语音的线性谱，将线性谱与音色特征输入后验编码器以输出的后验声学特征；将后验声学特征和音色特征输入Flow模型，计算所述Flow模型的输出与先验声学特征的距离作为损失。

步骤S104：通过最小化损失，采用训练样本集对初始网络模型、Flow模型和后验编码器的参数进行更新。

步骤S105：将更新后初始网络模型中先验编码器和残差向量量化模块的输出连接至Flow模型，将Flow模型的输出连接至声码器，得到语音音色转换模型。

在步骤S101中，训练样本集中的样本包括，多种音色、多种语速、多种情感、多种音调、多种音量的语音数据。

为使语音数据没有额外噪音或干扰，可以在获取语音数据时进行如下操作，包括：使用专业录音设备录制语音数据，捕捉清晰的语音信号；控制录制环境，减少或消除噪音来源；使用降噪算法消除或减少背景噪音；对录制后的语音数据进行滤波降噪处理。

在步骤S102中，将参考音频输入长短时记忆网络后，通过残差向量量化模块输出音色特征。参考音频以帧的形式输入长短时记忆网络，音频数据是一个长序列，长短时记忆网络可以有效地捕捉序列中的长期依赖关系，提取序列的高层抽象表示。因为音色信息是全局化信息，再使用残差向量量化模块对长短时记忆网络编码后的特征进行编码，可以提取到音色特征。

文本编码器使用的结构是transformer的encoder部分的结构。transformer模型是一种基于自注意力机制的序列到序列模型，其中encoder(编码器)用于将输入序列编码为一个中间表示。

基频编码器用于估计输入信息中基频信息。基频是指声音中周期性振动的频率，表示音调高低，基频信息可以包含说话人特征、情绪状态信息。初始网络模型中，基频编码器与文本编码器并列，输入的是参考音频通过残差向量量化模块输出音色特征与内容向量，输出是与内容向量等长的基频序列。

在步骤S103中，采用短时傅里叶变换提取样本语音的线性谱。

后验编码器采用wavenet结构，其中卷积层包含膨胀空洞卷积层。

Flow模型是可逆的生成式模型，Flow模型中每一个耦合层包括四个wavenet层。

计算Flow模型的输出与先验声学特征的距离作为损失，是指计算Flow模型的输出与先验声学特征的KL散度，计算公式为Flow模型输出的分布与先验声学特征的分布的商取log后的期望。

在步骤S105中，由于Flow模型是可逆结构，模型训练完成后的推理过程中，初始网络模型中先验编码器的输出作为Flow模型的输入，Flow模型的输出作为声码器的输入。

其中，声码器为HiFi-GAN声码器。

在本发明的一些实施例中，内容向量提取模型的训练包括以下步骤S201～206：

步骤S201：获取初始内容向量提取模型，其中包括老师模块和学生模块。

步骤S202：将训练语音集输入到所述老师模块和所述学生模块中。

步骤S203：通过所述老师模块中预设的语音转换模型，将所述训练语音集转换为同一音色的学习语音集。

其中，预设的语音转换模型可以是任意的any2one的模型。

步骤S204：将所述同一音色的学习语音集输入到所述老师模块中预训练的hubert模型，对输出结果进行聚类。

其中，聚类算法可以是K-Means聚类算法、DBSCAN聚类算法、高斯混合模型聚类算法。

步骤S205：将聚类结果作为所述学生模块的标签进行学习。

其中，学生模块包括预训练的hubert模型。

步骤S206：训练得到的所述初始内容向量提取模型，作为所述内容向量提取模型。

本发明的另一方面提供了一种语音音色转换的方法，如图2所示，包括以下步骤S301～302：

步骤S301：获取参考音频和待转换的原始语音。

步骤S302：将参考音频和所述原始语音输入训练得到的语音音色转换模型，以输出目标语音，目标语音与所述参考音频音色一致，目标语音与所述原始语音内容一致。

本发明的另一方面提供了一种语音音色转换系统，包括处理器和存储器，存储器中存储有计算机指令，处理器用于执行所述存储器中存储的计算机指令，当计算机指令被处理器执行时该系统实现上述方法的步骤。

具体的，本发明的实施例提出一种语音音色转换的方法和系统，具体实施方法如下：

残差向量量化(residualvectorquatization)：翻译为“残差向量量化”，向量量化表示表示从一个码本中提取出最接近的向量。残差向量量化表示使用多个码本对向量以及量化后的向量与原向量的残差进行逐级量化。

Wavenet：是一种在语音合成中常用的模块。使用膨胀因果卷积扩大卷积的感受野，通过全局信息预测每个采样点。

KL散度：用于衡量两个分布之间的距离。公式为两个分布的商取log后的期望。

hifigan：一种声码器结构。通过多尺度判别器(multiscalediscriminator)与多周期判别器(multiperioddiscriminator)实现逼真的频谱到波形的转换。

长短时记忆网络：基于循环神经网络添加了长时记忆与短时记忆和相应的门控开关，可以对较长的序列进行建模。

Flow:一种网络结构，特点是具有可逆性。通过耦合层实现了可逆的网络结构，在语音转换模型中中被用来进行先验分布与后验分布的对齐。

内容向量提取模型(Contentvec)：是Hubert模型的变体。Hubert是一种常用的语音预训练模型。该预训练模型在训练过程中使用自监督的方法来进行训练。其中主要有两个模块，一是老师模型二是学生模型。老师模型在训练过程中会通过一个语音转换模型将输入的所有语音都变为同一个人的声音再输入到预训练的Hubert模型中输出进行聚类，学生模型使用老师模型的聚类作为标签进行学习。这样可以达成去除输入语音中说话人信息的目的。

现有的方法主要存在两点问题：一是，在语音转换时输入经常使用的是PPG或是Hubert，wav2vec2等特征，这些模型中提取出的特征或是没有将音色特征去除或是只保留了文本特征缺失了韵律信息。导致生成出的结果音色没有转换或是太过机械没有情感等问题。二是，模型无法复刻任意一段语音的声音，输入语音可能包含数据集中没有的音色，但现有的大部分方法只能很好的处理数据集中有标注的音色，对于未见过的参考音频与音色会导致音质变差或是音色不像的问题。

针对上述两点，提出两个改进方法。首先是使用内容向量进行内容信息的提取。内容向量相较之间方法的优势在于可以提供帧级别的与说话人音色无关的信息，生成的语音更加自然并且不容易出现音色泄露的情况。另一方面使用残差向量量化进行说话人音色的建模，为了网络能够处理任意说话人的音色作为参考音频进行单样本的推理，使用长短时记忆网络作为音色编码器，再使用残差向量量化对得到的说话人向量进行编码，这样可以在保证音质的情况下根据参考音频进行合成。

本实施例包含两个重要方法，内容特征的提取与说话人音色编码。使用预训练的内容向量提取模型进行说话内容的提取，使用文本编码器结构进行文本特征的提取，使用wavenet结构加入说话人特征。训练过程中使用flow去除后验编码器提取的特征中的说话人信息。在后验编码器之后使用声码器进行线性谱到波形的转换。

示例的，本实施例提出一种语音音色转换的方法，如图1所示，包括如下步骤S401～405：

步骤S401：使用内容向量提取模型进行内容特征的提取。

步骤S402：使用基频编码器，预测帧级别的基频信息。

其中，基频编码器器与图中的文本编码器并列，输入是参考音频经过长短时记忆网络和残差向量量化编码后的特征与内容向量，输出是与内容向量等长的基频序列，之后会把基频序列加到文本编码器的输出上再输入到先验编码器中。

步骤S403：使用文本编码器将内容特征中转为声学特征。

步骤S404：使用后验编码器去除后验线性谱中的音色信息。

步骤S405：使用Flow进一步去除后验特征中的音色信息，在推理时负责添加音色信息。

步骤S406：使用声码器进行从线性谱到波形转换。

进一步的，内容向量提取模型是指，提取内容向量的预训练语音模型，得到的特征为一个时间序列，可以看作是另一种线性谱特征。通过复制可以将不同采样率的内容向量和线性谱长度对齐。内容向量在训练过程中通过teacher模型将所有输入的语音都转换为同一个人的音色并进行聚类得到标签来监督student模型的学习。这样获取到的特征与说话人无关，而只与内容相关。

进一步的，使用长短时记忆网络提取参考音频中包含的说话人信息，并使用残差向量量化进行编码，这样做的好处是有更强的泛化性与更好的音色。

其中，长短时记忆网络可以处理变长的数据，将参考音频从变长的向量序列处理为一个单独的说话人表征向量，再经过残差向量量化后，说话人表征为一维向量。得到的结果会输入到基频编码器与Flow与后验编码器中。

其中，残差向量量化会从码本中查找与当前向量最相似的向量，之后从当前向量中减去查找到的向量，再从下一个码本中找与剩余的向量最相似的向量，这样逐级进行残差的预测。得到的结果会输入到基频编码器与flow与后验编码器中。

进一步的，文本编码器使用了transformer的结构，通过自注意力进行文本特征的提取。

进一步的，先验编码器和后验编码器，使用wavenet结构进行线性谱的编码，通过膨胀空洞卷积对全局频率信息进行学习。在每层的输出上会加上使用线性层处理后的说话人信息。

进一步的，Flow模型具有可逆的结构。在训练过程中使用flow模型将后验编码器中的音色信息进一步去除。在推理过程中负责向文本编码器的输出添加说话人信息。Flow模型中每一个耦合层由四个wavenet层构成。

进一步的，声码器使用对抗神经网络将线性谱转换到波形，使用hifigan的结构，可以将后验编码器的输出重新生成回波形。在训练过程中会在声码器部分添加说话人信息。

可选的，内容向量模型也可替换为其他预训练模型的输出或是语音识别模型的中间层等特征。

可选的，残差向量量化模块可以替换为向量量化，整个对参考音频的编码可以使用说话人识别模型的特征进行替换。

综上所述，本发明提供一种语音音色转换方法和系统，将相同音色的参考音频和待转换的样本语音输入待训练模型，利用长短时记忆网络和残差向量量化模块提取参考音频的音色特征，利用内容向量提取模型得到去除了音色特征的内容特征向量，将输入音色特征和内容特征向量一同输入基频编码器提取基频特征，将内容特征向量输入文本编码器提取文本特征，将音色特征、基频特征和文本特征一同输入先验编码器以输出先验声学特征。提取样本语音的线性谱输入到后验编码器，将后验编码器输出的后验声学特征输入到FLOW模型中，基于先验编码器输出的先验声学特征和FLOW模型输出的结果，计算两者之间的KL散度作为损失，最小化该损失以优化模型各部分的参数，以此方法训练得到语音音色转换模型。将参考音频和待转换的原始语音输入到训练好的语音音色转换模型，其中FLOW模型连接声码器，由声码器输出转换后的目标语音，完成语音音色转换。该方法和系统改进了现有技术由于没有去除原始语音音色，导致音色没有完全转换的缺陷，以及由于缺失韵律信息导致最终生成的语音音色机械、缺乏情感的缺陷。并且该方法和系统利用长短时记忆网络与残差向量量化结合的方式，对说话人的音色特征建模，可以对任意音色进行提取，模型的适用更广泛。

与上述方法相应地，本发明还提供了一种装置/系统，该装置/系统包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置/系统实现如前所述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音音色转换模型的训练方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的语音音色转换模型的训练方法，其特征在于，所述内容向量提取模型的训练步骤如下：

将训练语音集输入到所述老师模块和所述学生模块中；

3.根据权利要求1所述的语音音色转换模型的训练方法，其特征在于，所述文本编码器为transformer中的encoder结构。

4.根据权利要求1所述的语音音色转换模型的训练方法，其特征在于，计算所述Flow模型的输出与所述先验声学特征的距离作为损失，包括：计算所述Flow模型的输出与所述先验声学特征的KL散度作为损失。

5.根据权利要求1所述的语音音色转换模型的训练方法，其特征在于，所述声码器为HiFi-GAN声码器。

6.根据权利要求1所述的语音音色转换模型的训练方法，其特征在于，所述训练样本集包括，多种音色、多种语速、多种情感、多种音调、多种音量的语音数据。

7.根据权利要求1所述的语音音色转换模型的训练方法，其特征在于，所述先验编码器和所述后验编码器采用wavenet结构，其中卷积层包含膨胀空洞卷积层；所述Flow模型中，每一个耦合层包括四个wavenet层构成。

8.一种语音音色转换方法，其特征在于，包括如下步骤：

获取参考音频和待转换的原始语音；

将所述参考音频和所述原始语音输入权利要求1至7任意一项所述语音音色转换模型的训练方法中的语音音色转换模型，以输出目标语音，所述目标语音与所述参考音频音色一致，所述目标语音与所述原始语音内容一致。

9.一种语音音色转换系统，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。