CN117672254A

CN117672254A - 语音转换方法、装置、计算机设备及存储介质

Info

Publication number: CN117672254A
Application number: CN202311644856.8A
Authority: CN
Inventors: 周思逸; 舒景辰
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-03-08

Abstract

本申请公开了一种语音转换方法、装置、计算机设备及存储介质，涉及语音处理技术领域。该方法包括：对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据、第一静音/非静音数据；将所述第一梅尔频谱输入至语音识别模型中，得到第一语义特征数据；将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱；将所述目标梅尔频谱输入至声码器中，得到目标语音，所述目标语音音频中的音色为所述目标用户的音色。本申请可以直接将用户说话的语音转换成语音内容不变但具有目标用户的音色的语音。

Description

语音转换方法、装置、计算机设备及存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种语音转换方法、及装置、计算机设备及存储介质。

背景技术

随着互联网技术的发展，虚拟偶像(如洛天依)开始变得流行。当前虚拟偶像与用户进行交流时，一般是通过歌声合成引擎语调合成的歌声来进行交流的。然而，在一些场景中，用户希望可以将自己的说话声音转换为与虚拟偶像歌声高度一致的说话声音。

现有技术中，为了实现将用户的说话声音转换为与虚拟偶像歌声高度一致的说话声音，可以利用虚拟偶像的歌声音库，使用Vocaloid等音频合成软件，按照真人说话的韵律规则，手动调出具有虚拟偶像音色的说话音频。

然而，发明人发现，上述调教方法虽然能语调出虚拟偶像的音色，但是这个方案费时费力，且需要调教师有较高水平的语音调校经验。

发明内容

有鉴于此，现提供一种语音转换方法、装置、计算机设备及计算机可读存储介质，以解决上述问题。

本申请提供了一种语音转换方法，所述方法包括：

对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据，所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧；

将所述第一梅尔频谱输入至预训练好的语音识别模型中，得到第一语义特征数据；

将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱；

将所述目标梅尔频谱输入至声码器中，得到目标语音，所述目标语音音频中的音色为所述目标用户的音色。

可选地，所述语音转换模型包括音调网络、编码器及解码器，所述将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱包括：

将所述第一音调数据及所述第一静音/非静音数据输入至语音转换模型的音调网络中，得到第一音调特征数据；

将所述第一语义特征数据及所述第一音调特征数据输入至所述语音转换模型的编码器中，得到第一编码特征数据；

将所述第一编码特征数据及目标用户的第一音色特征数据输入至所述语音转换模型的解码器中，得到目标梅尔频谱。

可选地，所述语音转换模型通过以下方式训练得到：

获取多个训练样本数据，每一个训练样本数据包括音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二音色特征数据及第二梅尔频谱，其中，所述多个训练样本数据为对多个音频样本进行预处理后得到的，所述多个音频样本包括所述目标用户的唱歌音频、非目标用户的说话音频及非目标用户的唱歌音频；

将所述训练样本数据中的第二音调数据、第二静音/非静音数据输入至所述音调网络中，得到第二音调特征数据；

将所述训练样本数据中的第二语义特征数据及所述第二音调特征数据输入至所述编码器中，得到第二编码特征数据；

将所述第二编码特征数据及所述训练样本数据中的第二音色特征数据输入至所述解码器中，得到预测梅尔频谱；

根据所述训练样本数据中的第二梅尔频谱与所述预测梅尔频谱的损失值调整所述语音转换模型的参数，直到满足训练预设条件，得到训练好的语音转换模型。

可选地，所述对多个音频样本进行预处理包括：

分别对所述多个音频样本进行特征提取处理，得到各个音频样本的第二梅尔频谱、第二音调数据及第二静音/非静音数据；

将各个音频样本的第二梅尔频谱输入至所述语音识别模型中，得到各个音频样本的第二语义特征数据；

获取发出各个音频样本的发音人的第二音色特征数据；

将各个音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二梅尔频谱及发出各个音频样本的发音人的第二音色特征数据组合形成训练样本数据。

可选地，对音频样本进行特征提取处理，得到音频样本的第二音调数据及第二静音/非静音数据包括：

对音频样本进行分帧处理，得到多个音频帧；

分别提取多个所述音频帧的基频，并将提取到的所有基频作为音频样本的第二音调数据；

分别对多个所述音频帧进行静音检测，并将得到的所有检测结果作为音频样本的第二静音/非静音数据，其中，检测结果采用01向量表示。

可选地，所述语音转换模型通过引入生成对抗网络进行训练得到，其中，所述语音转换网络作为所述生成对抗网络的生成器，所述生成对抗网络中的判别器为多频带判别器及/或多窗口判别器。

可选地，所述编码器中包含有实例归一化层，所述语音转换模型中的编码器与解码器的结构为类变分自编码器结构。

可选地，所述解码器中包含有风格自适应归一化层。

可选地，所述对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据的步骤之前，还包括：

接收音调调整指令，所述音调调整指令包括所述目标用户的音调均值；

将所述第一音调数据及第一静音/非静音数据输入至语音转换模型的音调网络中，得到第一音调特征数据包括：

获取对待转换语音进行特征提取处理后得到的第一音调数据；

计算所述第一音调数据的音调均值；

根据所述第一音调数据、所述第一音调数据的音调均值及所述目标用户的音调均值确定驱动音调数据；

将所述驱动音调数据及所述第一静音/非静音数据输入至所述音调网络中，得到第一音调特征数据。

本申请还提供了一种语音转换装置，所述语音转换装置包括：

提取模块，用于对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据，所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧；

语义处理模块，用于将所述第一梅尔频谱输入至预训练好的语音识别模型中，得到第一语义特征数据；

语音转换模块，用于将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱；

声码模块，用于将所述目标梅尔频谱输入至声码器中，得到目标语音，所述目标语音音频中的音色为所述目标用户的音色。

本申请还提供了一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例语音转换方法，通过对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据，所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧；将所述第一梅尔频谱输入至预训练好的语音识别模型中，得到第一语义特征数据；将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱；将所述目标梅尔频谱输入至声码器中，得到目标语音，所述目标语音音频中的音色为所述目标用户的音色。上述语音转换方法可以直接将用户说话的语音转换成语音内容不变但具有目标用户的音色的语音，由此提高了语音转换速度，降低了语音转换成本。此外，本申请在通过语音识别网络提取语义特征以外，还通过引入实例归一化层，变分信息瓶颈等理论来确保音色、语义、音调等特征的有效解耦。在解码器中引入风格自适应归一化层，以便更好地捕捉音色特性，提高输出音频与目标音频的音色相似度。此外。在训练时，会引入判别器来促使模型更关注频谱细节，提高合成音质。除此之外，通过上述语音转换方法得到目标数据后也可进行语音合成模型的训练，进一步降低数据生成成本。

附图说明

图1为本申请实施例的语音转换方法的一实施例的应用环境示意图；

图2为本申请所述的语音转换方法的一种实施例的流程图；

图3为本申请一实施方式中对编码器及解码器进行训练的流程示意图；

图4为本申请一实施方式中对多个音频样本进行预处理的步骤细化示意图；

图5为本申请一实施方式中对音频样本进行特征提取处理，得到音频样本的第二音调数据及第二静音/非静音数据的步骤细化示意图；

图6为本申请一实施方式中将所述第一音调数据及第一静音/非静音数据输入至预设的音调网络中，得到第一音调特征数据的步骤细化示意图；

图7为本申请所述的语音转换装置的一种实施例的程序模块图；

图8为本申请实施例提供的执行语音转换方法的计算机设备的硬件结构示意图。

具体实施方式

以下结合附图与具体实施例进一步阐述本申请的优点。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

以下为本申请的术语解释：

语音转换：在不改变语音内容的情况下，将一个人的声音转换成另一个人的声音。

语音合成(TTS)：输入文本经过机器转换生成相对应的音频内容的技术，一般会输出pcm、wav、mp3、aac等格式的音频文件。

预训练好：预先训练好的。

语调：可以利用歌声声库，使用Vocaloid(一种电子音乐制作语音合成软件)等音频合成软件，按照真人说话的韵律规则，手动调出说话音频，俗称语调。

下面提供本申请的示例性应用环境。图1示意性示出了根据本申请实施例的语音转换方法的应用环境示意图。

在示例性的实施例中，该应用环境的系统可包括终端设备10、服务器20。其中，终端设备10与服务器20通过无线或有线网络连接。终端设备10包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。服务器20可以将终端设备10发送的待转换语音转换为目标语音。服务器20可以为机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。网络可以包括各种网络设备，例如路由器、交换机、多路复用器、集线器、调制解调器、网桥、中继器、防火墙和/或代理设备等。网络还可以包括物理链路，例如同轴电缆链路、双绞线电缆链路、光纤链路及其组合和/或类似物。

需要说明的是，本申请的实施例所提供的语音转换方法可以由服务器20执行，也可以由终端设备10执行，还可以由服务器20和终端设备10彼此配合执行。相应地，用于语音转换的装置包括的各个部分(例如各个模块)可以全部设置于服务器20中，也可以全部设置于终端设备10中，还可以分别设置于服务器20和终端设备10中。

相关技术中，为了得到与虚拟偶像歌声音色一致的说话声音，可以利用虚拟偶像的歌声音库，使用Vocaloid等音频合成软件，按照真人说话的韵律规则，手动调出具有虚拟偶像音色的说话音频。

基于上述问题，本申请通过对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据，所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧；将所述第一梅尔频谱输入至预训练的语音识别模型中，得到第一语义特征数据；将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱；将所述目标梅尔频谱输入至声码器中，得到目标语音，所述目标语音音频中的音色为所述目标用户的音色。上述语音转换方法可以直接将任意用户说话的语音转换成语音内容不变但具有目标音色的语音，由此提高了语音转换速度，降低了语音转换成本。此外，本申请在通过语音识别网络提取语义特征以外，还通过引入实例归一化层，变分信息瓶颈等理论来确保音色、语义、音调等特征的有效解耦。在解码器中引入风格自适应归一化层，以便更好地捕捉音色特性，提高输出音频与目标音频的音色相似度。此外。在训练时，会引入判别器来促使模型更关注频谱细节，提高合成音质。除此之外，通过上述语音转换方法得到目标数据后也可进行语音合成模型的训练，进一步降低数据生成成本。

下面，将在上述示例性应用环境下提供若干个实施例，来说明本申请中的语音转换方案。参阅图2，其为本申请一实施例的语音转换方法的流程示意图。本方法实施例中的流程图不用于对执行步骤的顺序进行限定。从图中可以看出，本实施例中所提供的语音转换方法包括：

步骤S20、对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据，所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧。

具体地，所述待转换语音为用户发出的语音，其可以为用户的说话语音，也可以为用户的唱歌语音。所述待转换语音可以通过有线连接方式或者无线连接方式从其他电子设备获取，也可以通过本地的语音拾取设备采集获取。

梅尔频谱是声音的特征数据，其是一个在mel scale(梅尔标度)下的spectrogram(频谱)，是通过spectrogram与若干个梅尔滤波器点乘得到的。

音调(Pitch)指的是声音频率的高低，其是声音的三个主要的主观属性，即音量(响度)、音调、音色(也称音品)之一。音调的高低是由声音的基频决定的。

第一静音/非静音数据(voice/unvoice)是用于判定所述待转换语音中的语音帧是否为静音帧的数据，在一具体实施方式中，该第一静音/非静音数据用01向量表示，比如，当判定出语音帧为静音帧时，对应的静音数据为“1”，当判定出语音帧不为静音帧时，对应的非静音数据为“0”。

在本实施例中，在获取到所述待转换语音后，会对所述待转换语音进行特征提取，从而得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据。

其中，所述待转换语音的梅尔频谱可以通过对所述待转换语音进行以下几个步骤处理得到：

1、对所述待转换语音进行预加重处理；

2、对经过预加重处理的语音信号分帧处理，得到多个语音帧；

3、对每一个语音帧进行加窗处理；

4、对经过加窗处理后的每帧语音帧进行短时傅立叶变换STFT，得到短时幅度谱；

5、对短时幅度谱通过Mel滤波器组得到梅尔频谱。

在本实施例中，在得到多个语音帧后，可以对每一个语音帧进行基频提取，并将提取到的基频作为当前语音帧的音调数据。在完成所有语音帧的基频提取后，将所有语音帧对应的音调数据按照顺序组合，得到所述待转换语音的第一音调数据。其中，可以采用时域法或频域法对语音帧进行基频提取操作，具体的提取算法在本实施例中不作限定。

此外，在本实施例中，在得到多个语音帧后，还可以对各个语音帧进行静音检测，并将检测结果作为当前语音帧的第一静音/非静音数据。在完成所有语音帧的检测后，将所有语音帧的检测结果按照顺序组合，得到所述待转换语音帧的第一静音/非静音数据。其中，可以采用基于能量的算法或基于短时过零率的算法对语音帧进行静音检测，具体的静音检测算法在本实施例中不作限定。

需要说明的是，上述所述的按照顺序组合指的是根据各个语音帧对应的语音时间戳进行顺序组合。

步骤S21，将所述第一梅尔频谱输入至预训练好的语音识别模型中，得到第一语义特征数据。

具体地，语音识别模型(ASR)为可以将声音转换为文本内容的模型，所述语音识别模型可以为现有技术中的任意一种预先训练好的语音识别模型，比如为哔哩哔哩自研的语音识别模型。

所述第一语义特征数据为用于表征语音内容的特征数据，其可以为为PhoneticPosteriorGram(PPG)语音后验图特征，也叫作语音后验概率特征。所述第一语义特征数据还可以是模型输出的其它特征，例如瓶颈特征(bottleneck features)和嵌入式特征embedding等。

步骤S22，将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱。

具体地，所述语音转换模型是预先通过多个训练样本数据对初始的语音转换模型进行训练后得到的。所述语音转换模型可以根据输入的第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据还原出具有目标用户的音色的的目标梅尔频谱。

在一示例性的实施方式中，所述语音转换模型包括音调网络、编码器及解码器，所述将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱包括如下步骤1-3。

步骤1，将所述第一音调数据及所述第一静音/非静音数据输入至语音转换模型的音调网络中，得到第一音调特征数据。

本实施例中，通过音调网络对第一音调数据及第一静音/非静音数据进行向量化处理，从而方便后续编码器对得到的第一音调特征数据进行编码处理。

在一具体实施方式中，所述音调网络可以为卷积神经网络结构。

在一实施方式中，为了便于音调网络对第一音调数据及第一静音/非静音数据进行处理，在将第一音调数据及第一静音/非静音数据输入至所述音调网络之前，可以先将第一音调数据及第一静音/非静音数据进行拼接，得到拼接后的数据，之后，将拼接后的数据输入至所述音调网络中进行向量化处理，得到第一音调特征数据。

步骤2，将所述第一语义特征数据及所述第一音调特征数据输入至所述语音转换模型的编码器中，得到第一编码特征数据。

具体地，所述编码器用于对语义特征数据及所述音调特征数据进行编码，从而得到第一编码特征数据。所述编码器可以为是任意的语音生成模型中的编码器，如自回归语音合成模型Tacotron中的编码器，或非自回归语音合成模型Fastspeech中的编码器等，在本实施例中不作限定。

在一示例性的实施方式中，所述编码器中包含有实例归一化层(InstanceNormalization)，通过在编码器中添加实例归一化层从而可以实现对编码器网络中的每个通道和每个样本在空间维度上独立计算，以保证每一个样本实例之间的独立性，减少音色信息的干扰。

在一示例性的实施方式中，为了对特征数据进行压缩，进一步剥离残留音色信息，所述语音转换模型中的编码器与解码器结构为类VAE(Variational Auto-Encoder,变分自编码器)结构。

其中，变分自编码器也是一种由编码器和解码器组成的结构，经过训练以使编码解码后的数据与初始数据之间的重构误差最小。变分自编码器修改了编码-解码过程，其不是将输入编码为隐空间中的单个点，而是将其编码为隐空间中的概率分布。

作为示例，变分自编码器的训练过程如下：

1.首先通过均值方差计算模块计算出输入的数据的均值和方差；

2.将计算得到的方差值和均值编码为在隐空间上的分布；

3.然后从该分布中采样隐空间中的一个点；

4.接着对采样点进行解码并计算出重建误差；

5.最后重建误差通过网络反向传播。

步骤3，将所述第一编码特征数据及目标用户的第一音色特征数据输入至所述语音转换模型的解码器中，得到目标梅尔频谱。

具体地，所述解码器可以结合编码后的第一编码特征数据及目标用户的第一音色特征数据来重构目标梅尔谱图。

所述解码器也可以为是任意的语音生成模型中的解码器，比如，非自回归语音合成模型Fastspeech中的解码器，所述解码器的具体结构在本实施例中不作限定。

其中，所述目标用户为指定的对象，比如，用户想将自己的说话声音转换为虚拟偶像洛天依的声音，则所述目标用户为洛天依。同理，若用户想将自己的说话声音转换为用户X的声音，则所述目标用户为所述用户X。

所述目标用户的第一音色特征数据可以预先进行提取，并将提取到的第一音色特征数据与目标用户的speaker id关联保存至预设位置。这样，在获取所述目标用户的第一音色特征数据时，可以通过用户指定所述目标用户的speaker id，然后根据该speaker id获取到所述目标用户的第一音色特征数据。

在一实施方式中，第一音色特征数据可以通过预先训练好的说话人识别模型(声纹识别模型)对目标用户的语音进行特征提取得到。其中，该第一音色特征数据可以为声纹识别模型的中间层的输出结果。

在一示例性的实施方式中，为了提高解码器重构目标梅尔谱图的表达能力，所述解码器中包含有SALN(style adaptive layer nornalization，风格自适应归一化层)。通过在解码器中添加SALN层可以更好地捕捉到目标用户的音色特征，从而高度还原出目标用户的音色。

步骤S23，将所述目标梅尔频谱输入至声码器中，得到目标语音，所述目标语音音频中的音色为所述目标用户的音色。

具体地，在得到目标梅尔谱图后，声码器(vocoder)可以将目标梅尔谱图还原成目标语音。该目标语音的语音内容与待转换语音的语音内容相同，但该目标语音的音色为目标用户的音色。

本申请通过对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据，所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧；将所述第一梅尔频谱输入至预训练好的语音识别模型中，得到第一语义特征数据；将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱；将所述目标梅尔频谱输入至声码器中，得到目标语音，所述目标语音音频中的音色为所述目标用户的音色。上述语音转换方法可以直接将用户说话的语音转换成语音内容不变但具有目标用户的音色的语音，由此提高了语音转换速度，降低了语音转换成本。此外，本申请在通过语音识别模型提取语义特征以外，还通过引入实例归一化层，变分信息瓶颈等理论来确保音色、语义、音调等特征的有效解耦。在解码器中引入风格自适应归一化层，以便更好地捕捉音色特性，提高输出音频与目标音频的音色相似度。此外。在训练时，会引入判别器来促使模型更关注频谱细节，提高合成音质。

在一示例性的实施方式中，参阅图3，所述语音转换模型包括音调网络、编码器及解码器，所述语音转换模型通过以下方式训练得到：

步骤S30，获取多个训练样本数据，每一个训练样本数据包括音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二音色特征数据及第二梅尔频谱，其中，所述多个训练样本数据为对多个音频样本进行预处理后得到的，所述多个音频样本包括所述目标用户的唱歌音频、非目标用户的说话音频及非目标用户的唱歌音频。

具体地，为了让语音转换模型中的编码器及解码器可以学习到不同发音人之间音色、语义、唱腔等的差异和关联，从而提高语音转换模型对于说话和唱歌声音的理解和转换能力，本实施例中在选取训练样本数据时，可以将多个非目标用户的多个说话音频、多个唱歌音频以及目标用户的多个唱歌音频作为音频样本，然后，对每一个音频样本进行预处理，从而得到音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二音色特征数据及第二梅尔频谱。之后，将每一个音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二音色特征数据及第二梅尔频谱组成一条训练样本数据。

在一示例性的实施方式中，参阅图4，对多个音频样本进行预处理包括：

步骤S40，分别对所述多个音频样本进行特征提取处理，得到各个音频样本的第二梅尔频谱、第二音调数据及第二静音/非静音数据。

具体地，对音频样本进行特征提取处理，得到第二梅尔频谱、第二音调数据、第二静音/非静音数据的方式与步骤S20一致，在本实施例中不再赘述。

在一示例性的实施方式中，参阅图5，对音频样本进行特征提取处理，得到音频样本的第二音调数据及第二静音/非静音数据包括：步骤S50，对音频样本进行分帧处理，得到多个音频帧；步骤S51，分别提取多个所述音频帧的基频，并将提取到的所有基频作为音频样本的第二音调数据；步骤S52，分别对多个所述音频帧进行静音检测，并将得到的所有检测结果作为音频样本的第二静音/非静音数据，其中，检测结果采用01向量表示。

具体地，由于音调是由声音的基频决定的，而声音的基频往往随时间而变化，所以在进行基频提取操作之前，需要先对音频样本进行分帧处理。

在得到多个语音帧后，可以对每一个语音帧进行基频提取，并将提取到的基频作为当前语音帧的音调数据。在完成所有语音帧的基频提取后，将所有语音帧对应的音调数据按照顺序组合，得到所述待转换语音的第一音调数据。其中，可以采用时域法或频域法对语音帧进行基频提取操作，具体的提取算法在本实施例中不作限定。

在本实施例中，在得到多个语音帧后，还可以对各个语音帧进行静音检测，并将检测结果作为当前语音帧的第一静音/非静音数据。在完成所有语音帧的检测后，将所有语音帧的检测结果按照顺序组合，得到所述待转换语音帧的第一静音/非静音数据。其中，可以采用基于能量的算法或基于短时过零率的算法对语音帧进行静音检测，具体的静音检测算法在本实施例中不作限定。

步骤S41，将各个音频样本的第二梅尔频谱输入至所述语音识别模型中，得到各个音频样本的第二语义特征数据。

具体地，对第二梅尔频谱进行处理，得到第二语音特征数据的方式与上述步骤S21一致，在本实施例中不再赘述。

步骤S42，获取发出各个音频样本的发音人的第二音色特征数据。

具体地，针对不同发音人的第二音色特征数据，可以通过预先训练好的说话人识别模型(声纹识别模型)对发音人语音进行特征提取得到。其中，该第二音色特征数据可以为声纹识别模型的中间层的输出结果。

在提取到各个发音人的第二音色特征数据后，可以将所述第二音色特征数据与该发音人的speaker id关联保存在预设位置中。这样，在后续需要目标发音人的第二音色特征数据时，可以通过用户指定的所述目标发音人的speaker id进行查表，从而获取到所述目标发音人的第二音色特征数据。

步骤S43，将各个音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二梅尔频谱及发出各个音频样本的发音人的第二音色特征数据组合形成训练样本数据。

具体地，在得到每一个音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二梅尔频谱后，会继续获取发出该音频样本的发音人的第二音色特征数据，然后，将每一个音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二梅尔频谱及对应的第二音色特征数据组成一条训练样本数据。

步骤S31，将所述训练样本数据中的第二音调数据、第二静音/非静音数据输入至所述音调网络中，得到第二音调特征数据。

具体地，对第二音调数据、第二静音/非静音数据进行处理，得到第二音调特征数据的方式与上述步骤1一致，在本实施例中不再赘述。

步骤S32，将所述训练样本数据中的第二语义特征数据及所述第二音调特征数据输入至所述编码器中，得到第二编码特征数据。

具体地，对第二语义特征数据及第二音调特征数据进行处理，得到第二编码特征数据的方式与上述步骤2一致，在本实施例中不再赘述。

步骤S33，将所述第二编码特征数据及所述训练样本数据中的第二音色特征数据输入至所述解码器中，得到预测梅尔频谱。

具体地，对第二编码特征数据及所述第二音色特征数据进行处理，得到预测梅尔频谱的方式与上述步骤3一致，在本实施例中不再赘述。

步骤S34，根据所述训练样本数据中的第二梅尔频谱与所述预测梅尔频谱的损失值调整所述语音转换模型的参数，直到满足训练预设条件，得到训练好的语音转换模型。

具体地，可以通过预设的损失函数计算出所述训练样本数据中的第二梅尔频谱与所述预测梅尔频谱的损失值。

其中，所述损失函数可以为均方误差(mean squared error,MSE)，即计算模型输出的预测梅尔频谱和第二梅尔频谱真值的MSE。

在另一实施方式中，损失函数也可以为L1范数损失函数，即计算模型输出的预测梅尔频谱和第二梅尔频谱真值的L1范数损失。

在另一实施方式中，损失函数也可以为L2正则化损失函数(L2 regularizationloss)。

可以理解的是，在其它实施方式中，损失函数也可以为上述所述的多个损失函数计算出的损失值的和值作为模型最终的损失值。

其中，所述训练预设条件为预先设定的停止训练的条件。

在本实施方式中，在对语音转换模型中的参数进行调整时，会对音调网络、编码器及解码器的参数进行调整。

在一示例性的实施方式中，为了使得训练好的语音转换模型可以更关注频谱细节，得到更好的音质，在对所述语音转换模型进行训练时，所述语音转换模型可以通过引入生成对抗网络进行训练得到，其中，所述语音转换模型作为所述生成对抗网络的生成器，所述生成对抗网络中的判别器为多频带判别器及/或多窗口判别器。在对生成对抗网络进行训练时，对生成器和判别器交替训练。

其中，多频带判别器指的是一种在判别过程中会将生成器生成的预测梅尔频谱以及真实的梅尔频谱先划分为多个频带的梅尔频谱，然后分别对多个频带的梅尔频谱进行判别的判别器。

其中，多窗口判别器指的是一种在判别过程中会将生成器生成的预测梅尔频谱以及真实的梅尔频谱先按照时间区间划分为多个时间窗口的梅尔频谱，然后分别对多个时间窗口的梅尔频谱进行判别的判别器。

本实施例中，通过使用多频带和多窗口判别器对梅尔频谱进行判别，从而可以使得训练得到的语音转换模型可以更加关注频谱细节，从而进一步提高了合成音频的音质。

在一示例性的实施方式中，所述对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据的步骤之前，还包括：接收音调调整指令，所述音调调整指令包括所述目标用户的音调均值。

具体地，所述音调均值为目标用户的音调数据求平均值后得到。比如，目标用户的音调数据包含6个基频，分别为f1、f2、f3、f4、f5、f6，则所述目标用户的音调均值＝(f1+f2+f3+f4+f5+f6)/6。

在本实施例中，为了便于用户对目标语音的音调进行控制，可以提供一个音调调整界面，用户通过该音调调整界面可以指定目标用户的音调均值。

相应地，参照图6，将所述第一音调数据及第一静音/非静音数据输入至语音转换模型的音调网络中，得到第一音调特征数据包括：

步骤S60，获取对待转换语音进行特征提取处理后得到的第一音调数据。

步骤S61，计算所述第一音调数据的音调均值。

具体地，第一音调数据的音调均值与上述计算目标用户的音调均值的方式相同，在本实施例中不再赘述。

步骤S62，根据所述第一音调数据、所述第一音调数据的音调均值及所述目标用户的音调均值确定驱动音调数据。

具体地，驱动音调数据＝第一音调数据-所述第一音调数据的音调均值+所述目标用户的音调均值。

步骤S63，将所述驱动音调数据及所述第一静音/非静音数据输入至所述音调网络中，得到第一音调特征数据。

具体地，对所述驱动音调数据及所述第一静音/非静音数据进行处理，得到第一音调特征数据的方式与上述步骤S22一致，在本实施例中不再赘述。

本实施例中，通过指定目标用户的音调均值，从而实现模型对音调的控制。

在一示例性的实施方式中，在得到目标音频后，可以用得到的目标音频进行TTS的训练，进一步降低了语音生成成本。

参阅图7所示，是本申请语音转换装置70一实施例的程序模块图。

本实施例中，语音转换装置70包括一系列的存储于存储器上的计算机程序指令，当该计算机程序指令被处理器执行时，可以实现本申请各实施例的语音转换功能。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，语音转换装置70可以被划分为一个或多个模块，具体可以划分的模块如下：

提取模块71，用于对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据，所述第一静音/非静音数据用于判定所述待转换语音中的语音帧是否为静音帧；

语义处理模块72，用于将所述第一梅尔频谱输入至预训练好的语音识别模型中，得到第一语义特征数据；

语音转换模块73，用于将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱；

声码模块74，用于将所述目标梅尔频谱输入至声码器中，得到目标语音，所述目标语音音频中的音色为所述目标用户的音色。

在一示例性的实施方式中，所述语音转换模型包括音调网络、编码器及解码器，语音转换模块73，用于将所述第一音调数据及所述第一静音/非静音数据输入至语音转换模型的音调网络中，得到第一音调特征数据；将所述第一语义特征数据及所述第一音调特征数据输入至所述语音转换模型的编码器中，得到第一编码特征数据；将所述第一编码特征数据及目标用户的第一音色特征数据输入至所述语音转换模型的解码器中，得到目标梅尔频谱。

在一示例性的实施方式中，语音转换装置70还包括训练模块。

所述训练模块，用于获取多个训练样本数据，每一个训练样本数据包括音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二音色特征数据及第二梅尔频谱，其中，所述多个训练样本数据为对多个音频样本进行预处理后得到的，所述多个音频样本包括所述目标用户的唱歌音频、非目标用户的说话音频及非目标用户的唱歌音频；将所述训练样本数据中的第二音调数据、第二静音/非静音数据输入至所述音调网络中，得到第二音调特征数据；将所述训练样本数据中的第二语义特征数据及所述第二音调特征数据输入至所述编码器中，得到第二编码特征数据；将所述第二编码特征数据及所述训练样本数据中的第二音色特征数据输入至所述解码器中，得到预测梅尔频谱；根据所述训练样本数据中的第二梅尔频谱与所述预测梅尔频谱的损失值调整所述语音转换模型的参数，直到满足训练预设条件，得到训练好的语音转换模型。

在一示例性的实施方式中，所述训练模块，还用于分别对所述多个音频样本进行特征提取处理，得到各个音频样本的第二梅尔频谱、第二音调数据及第二静音/非静音数据；将各个音频样本的第二梅尔频谱输入至所述语音识别模型中，得到各个音频样本的第二语义特征数据；获取发出各个音频样本的发音人的第二音色特征数据；将各个音频样本的第二语义特征数据、第二音调数据、第二静音/非静音数据、第二梅尔频谱及发出各个音频样本的发音人的第二音色特征数据组合形成训练样本数据。

在一示例性的实施方式中，所述训练模块，还用于对音频样本进行分帧处理，得到多个音频帧；分别提取多个所述音频帧的基频，并将提取到的所有基频作为音频样本的第二音调数据；分别对多个所述音频帧进行静音检测，并将得到的所有检测结果作为音频样本的第二静音/非静音数据，其中，检测结果采用01向量表示。

在一示例性的实施方式中，所述语音转换模型通过引入生成对抗网络进行训练得到，其中，所述语音转换模型作为所述生成对抗网络的生成器，所述生成对抗网络中的判别器为多频带判别器及/或多窗口判别器。

在一示例性的实施方式中，所述编码器中包含有实例归一化层，所述语音转换模型中的编码器与解码器的结构为类变分自编码器结构。

在一示例性的实施方式中，所述解码器中包含有风格自适应归一化层。

在一示例性的实施方式中，语音转换装置70还包括接收模块。

所述接收模块，用于接收音调调整指令，所述音调调整指令包括所述目标用户的音调均值。

所述音调处理模块73，还用于获取对待转换语音进行特征提取处理后得到的第一音调数据；计算所述第一音调数据的音调均值；根据所述第一音调数据、所述第一音调数据的音调均值及所述目标用户的音调均值确定驱动音调数据；将所述驱动音调数据及所述第一静音/非静音数据输入至所述音调网络中，得到第一音调特征数据。

图8示意性示出了根据本申请实施例的适于实现语音转换方法的计算机设备8的硬件架构示意图。本实施例中，计算机设备8是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。如图8所示，计算机设备8至少包括但不限于：可通过系统总线相互通信链接存储器120、处理器121、网络接口122。其中：

存储器120至少包括一种类型的计算机可读存储介质，该可读存储介质可以是易失性的，也可以是非易失性的，具体而言，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器120可以是计算机设备8的内部存储模块，例如该计算机设备8的硬盘或内存。在另一些实施例中，存储器120也可以是计算机设备8的外部存储设备，例如该计算机设备8上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器120还可以既包括计算机设备8的内部存储模块也包括其外部存储设备。本实施例中，存储器120通常用于存储安装于计算机设备8的操作系统和各类应用软件，例如语音转换方法的程序代码等。此外，存储器120还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器121在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其它语音转换芯片。该处理器121通常用于控制计算机设备8的总体操作，例如执行与计算机设备8进行数据交互或者通信相关的控制和处理等。本实施例中，处理器121用于运行存储器120中存储的程序代码或者处理数据。

网络接口122可包括无线网络接口或有线网络接口，该网络接口122通常用于在计算机设备8与其它计算机设备之间建立通信链接。例如，网络接口122用于通过网络将计算机设备8与外部终端相连，在计算机设备8与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(GlobalSystem of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code DivisionMultiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图8仅示出了具有部件120～122的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器120中的语音转换方法可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器121)所执行，以完成本申请。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的语音转换方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中的语音转换方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少两个网络单元上。可以根据实际的需要筛选出其中的部分或者全部模块来实现本申请实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种语音转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音转换方法，其特征在于，所述语音转换模型包括音调网络、编码器及解码器，所述将所述第一音调数据、所述第一静音/非静音数据及目标用户的第一音色特征数据输入至训练好的语音转换模型中，得到目标梅尔频谱包括：

3.根据权利要求2所述的语音转换方法，其特征在于，所述语音转换模型通过以下方式训练得到：

4.根据权利要求3所述的语音转换方法，其特征在于，所述对多个音频样本进行预处理包括：

获取发出各个音频样本的发音人的第二音色特征数据；

5.根据权利要求3所述的语音转换方法，其特征在于，对音频样本进行特征提取处理，得到音频样本的第二音调数据及第二静音/非静音数据包括：

对音频样本进行分帧处理，得到多个音频帧；

6.根据权利要求1所述的语音转换方法，其特征在于，所述语音转换模型通过引入生成对抗网络进行训练得到，其中，所述语音转换模型作为所述生成对抗网络的生成器，所述生成对抗网络中的判别器为多频带判别器及/或多窗口判别器。

7.根据权利要求2至6任一项所述的语音转换方法，其特征在于，所述编码器中包含有实例归一化层，所述语音转换模型中的编码器与解码器的结构为类变分自编码器结构。

8.根据权利要求2至6任一项所述的语音转换方法，其特征在于，所述解码器中包含有风格自适应归一化层。

9.根据权利要求2所述的语音转换方法，其特征在于，所述对待转换语音进行特征提取处理，得到所述待转换语音的第一梅尔频谱、第一音调数据及第一静音/非静音数据的步骤之前，还包括：

计算所述第一音调数据的音调均值；

10.一种语音转换装置，其特征在于，所述语音转换装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的方法的步骤。