CN113724718B

CN113724718B - 目标音频的输出方法及装置、系统

Info

Publication number: CN113724718B
Application number: CN202111019704.XA
Authority: CN
Inventors: 司马华鹏; 龚雪飞; 毛志强
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2022-07-29
Anticipated expiration: 2041-09-01
Also published as: WO2023030235A1; US20230197061A1; US11763801B2; CN113724718A

Abstract

本申请实施例提供了一种目标音频的输出方法及装置、系统，所述方法包括：将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，PPG特征向量用于指示每一帧源音频对应的音素标签，PPG特征向量包含源音频的文本信息和韵律信息；将PPG特征向量输入声音转换网络模型，根据PPG特征向量对应的音素标签输出目标音频的声学特征向量，其中，目标音频包含多个不同音色的音频；将目标音频的声学特征向量输入声码器，通过声码器输出目标音频。

Description

目标音频的输出方法及装置、系统

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种目标音频的输出方法及装置、系统。

背景技术

相关技术中，语音转换技术是：将A说话人(源说话人)的语音转换成B说话人(目标说话人)的声音。根据目标说话人的数量，可以将语音转换系统分为To One(目标说话人是一个)，To Many(目标说话人是多个)两种类型，语音转换系统在具体实现过程中，通常采用以下方案：

一，自动语音识别(Automatic Speech Recognition，简称为ASR)技术与从文本到语音(Text To Speech，简称为TTS)相结合：首先通过ASR模型将音频转换成文本，文本送入目标说话人的TTS模型，从而达到转换成目标说话人的效果；

二，通过生成式对抗网络(Generative Adversarial Networks，简称为GAN)提取音频的(瓶颈层)BNF特征，再经过vocoder(声码器)还原BNF特征，输出音频。

上述两个方案在实用上均存在较大问题，对于方案一：如果ASR识别错误，则TTS也必然转换错误；并且若需要实现多目标说话人转换，需要配置多个TTS模型，消耗大，并且多个TTS的韵律，语速均不一致。方案二：虽然该方案思路简单，但是模型收敛难以保证，效果停留在实验阶段。

针对相关技术中，语音转换系统在目标说话人是多个的场景下无法高效且准确的实现语音转换的技术问题，相关技术中尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种目标音频的输出方法及装置、系统，以至少解决相关技术中语音转换系统在目标说话人是多个的场景下无法高效且准确的实现语音转换的技术问题。

在本申请的一个实施例中，提出了一种目标音频的输出方法，包括：将源音频输入语音后验图PPG(Phonetic posteriorgrams)分类网络模型，得到PPG特征向量，其中，所述PPG特征向量用于指示所述每一帧源音频对应的音素标签，所述PPG特征向量包含所述源音频的文本信息和韵律信息；将所述PPG特征向量输入声音转换网络模型，根据所述PPG特征向量对应的所述音素标签输出目标音频的声学特征向量，其中，所述目标音频包含多个不同音色的音频；将所述目标音频的声学特征向量输入声码器，通过所述声码器输出所述目标音频。

在本申请的一个实施例中，还提出了一种目标音频的输出装置，包括：输入模块，配置为将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，所述PPG特征向量用于指示所述每一帧源音频对应的音素标签；处理模块，配置为将所述PPG特征向量输入声音转换网络模型，根据所述PPG特征向量对应的所述音素标签输出目标音频的声学特征向量，其中，所述目标音频包含多个不同音色的音频；输出模块，配置为将所述目标音频的声学特征向量输入声码器，通过所述声码器输出所述目标音频。

在本申请的一个实施例中，还提出了一种目标音频的输出系统，包括：语音后验图PPG分类网络模型，配置为根据输入的源音频输出对应的PPG特征向量，其中，所述PPG特征向量用于指示所述每一帧源音频对应的音素标签，所述PPG特征向量包含所述源音频的文本信息和韵律信息；声音转换网络模型，配置为根据所述PPG特征向量对应的所述音素标签输出至少两个不同音色的目标音频的声学特征向量；声码器，配置为根据至少两个所述目标音频的声学特征向量输出至少两个所述目标音频。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，PPG特征向量用于指示每一帧源音频对应的音素标签，PPG特征向量包含源音频的文本信息和韵律信息；将PPG特征向量输入声音转换网络模型，根据PPG特征向量对应的音素标签输出多个不同音色的目标音频的声学特征向量；将所述目标音频的声学特征向量输入声码器，通过声码器输出目标音频。解决了相关技术中语音转换系统在目标说话人是多个的场景下无法高效且准确的实现语音转换的技术问题，通过PPG分类网络模型得到指示每一帧源音频对应的音素标签的PPG特征向量，然后通过声音转换网络模型得到与音素标签对应的多个不同音色的目标音频的声学特征向量，最后通过声码器输出多个不同音色的目标音频，实现了目标说话人是多个的场景下高效且准确地进行语音转换。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的目标音频的输出方法的流程图；

图2是根据本申请实施例的一种可选的PPG分类网络模型结构示意图；

图3是根据本申请实施例的一种可选的声音转换网络模型结构示意图；

图4是根据本申请实施例的又一种可选的PPG分类网络模型结构示意图；

图5是根据本申请实施例的一种可选的目标音频的输出装置的结构框图；

图6是根据本申请实施例的一种可选的目标音频的输出系统的结构框图；

图7是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1是根据本申请实施例的一种可选的目标音频的输出方法的流程图，如图1所示，本申请实施例提供的一种目标音频的输出方法，包括：

步骤S102，将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，PPG特征向量用于指示每一帧源音频对应的音素标签，PPG特征向量包含源音频的文本信息和韵律信息；

步骤S104，将PPG特征向量输入声音转换网络模型，根据PPG特征向量对应的音素标签输出目标音频的声学特征向量，其中，目标音频包含多个不同音色的音频；

步骤S106，将目标音频的声学特征向量输入声码器，通过声码器输出目标音频。

需要说明的是，通过PPG分类网络模型得到指示每一帧源音频对应的音素标签的PPG特征向量，然后通过声音转换网络模型得到与音素标签对应的多个不同音色的目标音频的声学特征向量，最后通过声码器输出多个不同音色的目标音频，可以实现目标说话人是多个的场景下高效且准确地进行语音转换。

本申请实施例提出一种基于语音后验图PPG特征多人转换的声音转换网络模型，摆脱对平行语料的依赖，通过一个变换网络可以实现多目标说话人的声音转换。同时本申请实施例还可以包括转换模块，用于搭载本申请实施例所涉及的PPG分类网络模型；转换模块可以设置在服务器或终端中，本申请实施例对此不作限定。

此外，本申请实施例还可配套有相应的拾音设备与播音设备，如麦克风与扬声器等，分别用于获取源说话人的输入音频，以及输出目标说话人的输出音频。

本申请实施例中涉及到的训练模型主要包括2个，分别是PPG分类网络模型和声音转换网络模型，其中，在训练声音转换网络模型时需要用到训练好的PPG分类网络模型，因此，需要先对PPG分类网络模型进行训练。

在一实施例中，在将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量之前，所述方法还包括：

建立PPG分类网络模型，其中，PPG分类网络模型包括依次连接的抽象映射层、模块层、PPG层和分类层，模块层包括至少两个串联的模块；

通过第一训练样本训练PPG分类网络模型，其中，第一训练样本包括第一音频特征和第一音频特征对应的第一音素标签。

图2是根据本申请实施例的一种可选的PPG分类网络模型结构示意图。如图2所示，PPG分类网络模型包括：FC层(相当于前述抽象映射层)，用于将输入特征(梅尔普特征)进行第一步的抽象映射；block块(相当于模块层)，block块包括FFM层，单向LSTM层，CNN层，FFM层；PPG层；softmax分类层。

在一实施例中，通过第一训练数据训练所述PPG分类网络模型之前，所述方法还包括：

获取第一训练语料，其中，第一训练语料包括第一音频和第一音频对应的第一文本；

将第一音频转换为第一音频特征，并将第一文本转换为第一音素；

根据第一音频和第一文本的对齐关系，以及第一音素的时长信息，确定每一帧第一音频特征对应的第一音素标签，其中，第一音素标签用于标识第一音素的类别；

将第一音频特征确定为第一训练样本的输入，将第一音素标签确定为第一训练样本的输出。

需要说明的是，关于PPG分类网络模型，本申请实施例中利用ASR训练语料作为训练语料，其中包含音频，以及音频对应的文本标签。需要说明的是，为了后续使用方便，此处的训练语料并未进行降噪等处理，也不必进行分片处理，以此，后续通过完成训练的系统进行变声时，可直接将相应音频输入至系统中进行对应的特征提取。

在一实施例中，通过第一训练样本训练所述PPG分类网络模型，包括：

将第一音频特征输入所述抽象映射层，进行第一步抽象映射；

通过模块对单个第一训练样本的每一层第一音频特征在通道方向上做归一化，然后通过抽象映射层进行第二步抽象映射；

通过模块采用线性序列结构不断从前往后收集输入的第一音频特征的信息，提取第一音频特征之间的全局依赖信息；

通过模块提取第一音频特征之间的局部依赖信息；

整合全局依赖信息和局部依赖信息，并对第一音频特征做第三步抽象映射；

根据第一音素标签对应的音素类别的总数，通过PPG层对经过第三步抽象映射输出特征向量进行分类，得到第一PPG特征向量，其中，第一PPG特征向量的维度与音素类别的总数一致，第一PPG特征向量的每一维用于指示一种音素类别的概率；

将第一音频特征作为输入，将第一PPG特征向量作为输出，通过反向传播将PPG分类网络模型训练至收敛。

需要说明的是，结合图2所示的模型结构，PPG分类网络模型的训练过程如下：

第一：使用MFA(Montreal Forced Aligner)对齐工具对训练语料进行训练，生成语料的对齐时长特征(音频的音素的发音时长)，根据音素的发音时长提取音频每帧的音素类别。

第二：提取音频的声学特征(可以是80维的mel特征)，这样构造训练样本(样本输入为X：80维的mel特征，样本输出为Y：音频每一帧对于的音素类别)

第三：构建一个多分类的深度网络(PPG分类网络模型)。PPG网络的结构示意图如图2所示，PPG网络首先包括一个FC层，其次是4个block，每个block由4个子模块构成(4个子模块依次：FFM模块，LSTM模块，CNN模块，FFM模块)，再次连接一个FC层，最后是一个softmax分类器。以下对于上述PPG分类网络模型的各部分的工作方式进行详细说明：

a.FC层，用于将输入特征(梅尔普特征)进行第一步的抽象映射；

b.block块：

1)FFM模块：通过LayerNormlization层对单个样本的每一层特征在通道方向上做归一化，加速模型的收敛速度；通过FC层对特征进一步的抽象映射；通过Residual层防止网络加深引起的梯度消失；

2)LSTM模块：用于通过LSTM网络的长短期记忆功能，采用线性序列结构不断从前往后收集输入信息，学习特征之间的全局依赖信息；

3)CNN模块：通过CNN提取特征之间的局部依赖关系；

4)FFM模块：对上述提取的全局依赖信息、局部依赖信息进行整合，做一个抽象映射。

整体而言，上述各个block块考虑到效率与性能的综合，block值设置偏大比较好，但由于block值过大会导致网络训练及推断效率降低，故针对后期流式使用，本申请实施例中将block值(block值指每一个block包含的子模块的数量)设置为4；多个block块之间使用串联结构，下一个block块都是对上一个block块的输出特征进一步的特征整合。

c.PPG层：包括一FC层，用于通过该FC层提取PPG特征；具体而言，以音素类别的总数作为依据，对前述block的输出进行分类，以提取PPG特征。

PPG特征的物理含义可以理解为音频的文本信息与韵律信息。通常而言，不同人说同一句话，语义信息是一致的，但音色信息是不一样的；PPG特征即用于表征将音频中的音色信息去除，仅保留音频的语义信息与韵律信息的特征。例如，音素类别＝214，则PPG特征的维度等于214，具体的含义，每一维代表属于该类别的概率。在网络训练过程中，PPG特征实际代表该帧属于每个音素类别的概率值(0-1之间)，相较于纯粹的类别值有更强的容错性及泛化性。

本申请实施例中将训练语料中每一帧音频对应的梅尔普特征(X)作为输入，将每一音频对应的音素类别(Y)作为输出对上述PPG分类网络模型进行训练，通过反向传播，将其训练至收敛为止。

下面介绍关于声音转换网络模型的训练过程。图3是根据本申请实施例的一种可选的声音转换网络模型结构示意图。如图3所示，声音转换网络模型包括encoder(相当于编码层)，decoder(相当于解码层)，pitch-encoder(相当于声波编码层)，pitch-predict(相当于声波预测层)四个部分。

在一实施例中，在将PPG特征向量输入声音转换网络模型，根据PPG特征向量对应的音素标签输出目标音频的声学特征向量之前，所述方法还包括：

建立声音转换网络模型，其中，声音转换网络模型包括编码层、解码层、声波编码层和声波预测层；

通过第二训练样本训练声音转换网络模型，其中，第二训练样本包括第二音频对应的第二PPG特征向量和所述第二音频对应的样本声学特征向量，第二音频包括多种不同音色的音频，声音转换网络模型包含多个目标标识，每一目标标识用于标识一种音色。

在一实施例中，在通过第二训练样本训练声音转换网络模型之前，所述方法还包括：

获取第二音频；

将第二音频输入训练好的PPG分类网络模型，得到第二音频对应的第二PPG特征向量，并将第二PPG特征向量确定为第二训练样本的输入；

对经过清洗处理的第二音频，提取样本声学特征向量，并将样本声学特征向量确定为第二训练样本的输出。

在一实施例中，通过第二训练样本训练声音转换网络模型，包括：

将第二PPG特征向量输入编码层，通过编码层提取第二PPG特征向量之间的短时关联信息和长时关联信息；

通过解码层，对短时关联信息、长时关联信息、第二PPG特征向量对应的目标标识和第二PPG特征向量的声波信息进行整合，并提取不同帧第二PPG特征向量之间的依赖信息；

通过声波编码模块对第二PPG特征向量对应的第二音频的基频特征进行抽象提取，并对提取的基频特征进行维度转换，以在声音转换网络模型中嵌入第二音频的基频特征；

将编码层输出的特征向量作为输入，将样本声学特征向量作为输出，训练声波预测层。

下面结合图3，对上述声音转换网络模型的训练过程进行描述。

第一：准备声音转换网络模型的训练样本，获取多目标说话人的音频，对音频进行清洗(降噪，去除呼吸声，标准化等处理)，提取多说话人音频的声学特征。此处的声学特征为LPC特征，该声学特征作为声音转换网络模型的训练用的输出(即标签)。

第二：获取多说话人的PPG特征，将多说话人的音频提取80维度的mel特征送入第三步训练好的PPG网络，得到对应的PPG特征。该PPG特征作为声音转换网络模型训练用的输入。

第三：构建一个多人版VC的深度网络(声音转换网络模型)，每一个说话人标识一个自己的SpeakID(相当于目标标识)。

如图3所示，声音转换网络模型的具体工作方式为：

encoder：包括CNN网络与LSTM网络；encoder输入PPG特征后，CNN网络用于提取PPG特征之间的局部信息(短时关联信息)，LSTM网络用于提取PPG特征的全局信息(长时的关联信息)；

decoder：采用两层双向的LSTM网络对encoder的输出特征+speakID信息+pitch信息三组信息做一个整合(即将上述三类特征拼接在一起)，并提取帧与帧之间的依赖信息；并进一步通过FC层对特征进行一个整合及高度抽象；上述speakID信息指示某一目标说话人的编号，pitch信息指示该目标说话人对应的声学波形或声学特征；

pitch-encoder：用于对训练样本对应的音频的F0特征(音频的基频特征)进行一次抽象提取并进行一个维度的转换，以在声音转换网络模型中嵌入训练样本的音频的F0特征；

pitch-predict：用于将encoder的输出作为该模块的输入，将前述训练样本的LPC特征作为输出，以对pitch-predict进行训练。

上述LPC特征为20维特征，通常包括18维的BFCC以及2维的pitch特征。上述18维BFCC特征的获取方式为：

a.波形数据通过FFT到频谱；

b.频谱按Bark频率分成18个频带，计算每个频带内的能量(通过三角窗加权，也可以理解为三角滤波获取频谱包络)；

c.Log压缩动态范围得到倒谱；

d.DCT去相关得到最终的BFCC。

将声音转换网络模型的输出(LPC特征)，送入声码器(例如，LPC vocoder)，可以得到目标说话人的转换音频。其中，LPC vocoder是一个开源的模型。

需要说明的是，为了实现转换音频的流式输出，可以在将源音频输入训练好的PPG分类网络模型时采用分片输入的方式。

在一实施例中，将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，包括：

将源音频数据分片输入语音后验图PPG分类网络模型，其中，PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，模块层包括至少两个串联的模块，模块中设置单向长短期记忆功能LSTM层，单向LSTM层配置为学习特征之间的全局依赖信息；

通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；

根据当前片源音频数据和所述第一缓存区域以及第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征向量。

需要说明的是，每一片源音频数据可以包括m帧数据，m帧数据中的位于后面的n帧数据可以保留在第二缓存区域中，例如，一片源音频数据包括10帧数据，其中后4帧数据保留在第二缓存区域中，在下一片源音频数据输入时将与下一片源音频数据拼接在一起。

在一实施例中，根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征，包括：

通过第一缓存区域保存第一片源音频数据在单向LSTM层中的状态数据；

在进行第二片源音频数据推断时，通过第一缓存区域初始化单向LSTM层的状态数据，其中，第一片源音频数据和第二片源音频数据为相邻片的数据，且第一片源音频数据时序在前；

通过第二缓存区域保存第一片源音频数据的后面n帧数据；

在进行第二片源音频数据推断时，将第一片源音频数据的后面n帧数据拼接在第二片源音频数据前面后，输入PPG分类网络模型。

需要说明的是，将源音频数据分片输入PPG分类网络模型，以及缓存区域的设置，是实现PPG特征流式输出的关键步骤。

图4是根据本申请实施例的又一种可选的PPG分类网络模型结构示意图。如图4所示，PPG分类网络模型包括：FC层(相当于前述抽象映射层)，用于将输入特征(梅尔普特征)进行第一步的抽象映射；block块(相当于模块层)，block块包括FFM层，LSTM层，CNN层，FFM层；PPG(单音素)层；PPG(三音素)层。

在一实施例中，在将源音频输入语音后验图PPG分类网络模型之前，所述方法还包括：

建立PPG分类网络模型；

通过训练样本训练PPG分类网络模型，其中，训练样本包括样本音频特征和样本音频特征对应的样本音素标签。

本申请实施例的流式提取PPG特征网络包括PPG分类网络模型与缓存区域，缓存区域包括第一缓存区域和第二缓存区域。

关于PPG分类网络模型，本申请实施例中利用ASR训练语料作为训练语料，其中包含音频，以及音频对应的文本标签。需要说明的是，为了后续使用方便，此处的训练语料并未进行降噪等处理，也不必进行分片处理，以此，后续通过完成训练的系统进行变声时，可直接将相应音频输入至系统中进行对应的特征提取。

模型的训练：

第一：使用MFA(Montreal Forced Aligner)对齐工具对训练语料进行训练，生成语料的对齐时长特征(音频的音素的发音时长)，根据音素的发音时长提取音频每帧的单音素类别和三音素类别。

需要说明的是，三音素属于音素的一种，与单音素(如t，iy，n)不同，三音素表示为如t-iy+n，即由三个单音素组成，与单音素iy类似，但其考虑了上下文的关系，即，上文为t，下文为n。

第二：提取音频的声学特征(可以是80维的mel特征)，这样构造训练样本(样本输入为X：80维的mel特征，样本输出为Y1：音频每一帧对于的单音素类别，样本输出为Y2：音频每一帧对于的三音素类别)。

第三：构建一个多分类的深度网络(PPG网络)。PPG网络的结构示意图见后，如图4所示，PPG网络首先包括一个FC层，其次是4个block，每个block由4个子模块构成(4个子模块依次：FFM层，LSTM层，CNN层，FFM层)，再次连接一个FC层(单音素层)，最后链接一个FC层(三音素层)。

在一实施例中，通过第一训练数据训练PPG分类网络模型之前，所述方法还包括：

获取训练语料，其中，训练语料包括训练音频和训练音频对应的训练文本；

将训练音频转换为训练音频特征，并将训练文本转换为训练音素；

根据训练音频和训练文本的对齐关系，以及训练音素的时长信息，确定每一帧训练音频特征对应的单音素标签和三音素标签，其中，单音素标签用于标识训练音素的单音素类别，三音素标签用于标识训练音素的三音素类别；

将训练音频特征确定为训练样本的样本音频特征，将单音素标签和三音素标签确定为训练样本的样本音素标签。

在一实施例中，通过训练样本训练PPG分类网络模型，包括：

将样本音频特征输入抽象映射层，进行第一步抽象映射；

通过模块对单个训练样本的每一层样本音频特征在通道方向上做归一化，然后通过抽象映射层进行第二步抽象映射；

通过模块的单向LSTM层，采用线性序列结构不断从前往后收集输入的样本音频特征的信息，提取样本音频特征之间的全局依赖信息；

通过模块的卷积层，提取样本音频特征之间的局部依赖信息；

整合全局依赖信息和局部依赖信息，并对样本音频特征做第三步抽象映射；

根据样本音素标签对应的单音素类别的总数，通过PPG层的单音素层对经过第三步抽象映射输出特征进行分类，得到第一PPG特征，其中，第一PPG特征的维度与单音素类别的总数一致，第一PPG特征的每一维用于指示一种单音素类别的概率；

根据样本音素标签对应的三音素类别的总数，通过PPG层的三音素层对经过第三步抽象映射输出特征进行分类，得到第二PPG特征，其中，第二PPG特征的维度与三音素类别的总数一致，第二PPG特征的每一维用于指示一种三音素类别的概率；

将样本音频特征作为输入，将第一PPG特征和第二PPG特征作为输出，通过反向传播将PPG分类网络模型训练至收敛。

需要说明的是，PPG分类网络模型的各个模块的功能如下：

FC层，用于将输入特征(梅尔普特征)进行第一步的抽象映射；

block块：

1)FFM层：通过LayerNormlization层对单个样本的每一层特征在通道方向上做归一化，加速模型的收敛速度；通过FC层对特征进一步的抽象映射；通过Residual层防止网络加深引起的梯度消失；

2)LSTM层：用于通过LSTM网络的长短期记忆记忆功能，采用线性序列结构不断从前往后收集输入信息，学习特征之间的全局依赖信息；

3)CNN层：通过CNN提取特征之间的局部依赖关系，CNN操作时不进行pad；

4)FFM层：对上述提取的全局依赖信息、局部依赖信息进行整合，做一个抽象映射。

PPG(单音素)层：包括一FC层，用于通过该FC层提取PPG特征；具体而言，以音素类别的总数作为依据，该层的输出与Y1做一个交叉熵多分类，以提取PPG特征。

PPG(三音素)层：包括一FC层，通过三音素的类别矫正PPG层的输出；具体而言，以三音素类别的总数作为依据，对单因素层的输出进行分类。三音素相较于单因素容错率更高，泛化性更好，但是由于其维度更大，后期使用不方便，因此三音素层作为单因素的矫正作用，提升单因素层的准确率；具体而言，以三音素类别的总数作为依据，该层的输出与Y2做一个交叉熵多分类。

需要说明的是，缓存区域主要在模型推断过程，实现无损流式输出，缓存区域可以是独立于PPG分类网络模型，以工程模块的形式设置。

需要实现流式输出，因此在模型推断时，音频数据是分数据片送入，在分片的连接时，需要使用上一分片的信息。

block的LSTM模块，需要设置一个缓存区Cache_lstm_state(保留上一分片lstm的最后状态)，进行下一分片数据推断时，使用Cache_lstm_state初始化LSTM的状态；

block的CNN模块，训练时不进行pad，推断的时候会导致丢帧，需要设置一个缓存区Cache_cnn(保留上一片段的后面几帧数据)，进行下一分片数据推断时，Cache_cnn拼接在分片数据前。

如图5所示，根据本申请的另一实施例，还提供了一种目标音频的输出装置，用于实现上述任一项方法实施例中所述的方法，已经描述的内容此处不再赘述，所述装置包括：

输入模块502，配置为将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，所述PPG特征向量用于指示所述每一帧源音频对应的音素标签；

处理模块504，配置为将所述PPG特征向量输入声音转换网络模型，根据所述PPG特征向量对应的所述音素标签输出目标音频的声学特征向量，其中，所述目标音频包含多个不同音色的音频；

输出模块506，配置为将所述目标音频的声学特征向量输入声码器，通过所述声码器输出所述目标音频。

如图6所示，根据本申请的另一实施例，还提供了一种目标音频的输出系统，用于承载上述输出装置，包括：

语音后验图PPG分类网络模型602，配置为根据输入的源音频输出对应的PPG特征向量，其中，所述PPG特征向量用于指示所述每一帧源音频对应的音素标签，所述PPG特征向量包含所述源音频的文本信息和韵律信息；

声音转换网络模型604，配置为根据所述PPG特征向量对应的所述音素标签输出至少两个不同音色的目标音频的声学特征向量；

声码器606，配置为根据至少两个所述目标音频的声学特征向量输出至少两个所述目标音频。

本申请实施例中的基于PPG特征的目标音频的输出系统相较于相关技术中的相关技术，一方面，相关技术的声音转换需要经过两个网络ASR与TTS，这两个网络都很大，耗时高，而本方案中PPG网络与VC网络较于ASR与TTS得以精简，网络小，时效性更佳。

另一方面，对于多说话人，相关技术需要配置多个TTS，本方案的VC网络本身可实现多说话人，通过speakID可以指定输出为特定说话人。

另一方面，相关技术音频经过ASR转换为文本，丢失了原始音频的韵律信息(说话快慢，抑扬顿挫等)，本方案中，PPG特征是与音频帧对齐的，其保留原始音频的韵律信息。

另一方面，相关技术最终的准确性取决于ASR系统的准确率，本方案中，通过使用PPG特征显著改善了准确率，且不受ASR系统的影响。(PPG其实是一种概率值，结合VC(声音转换)多人训练变身系统，能够增强整个系统的准确性，在aidatatang_200zh数据集下，ASR的错误率15％，PPG+VC系统错误率：7％)

此外，本申请实施例中的基于PPG特征的目标音频的输出系统可以很容易的接入到人机交互系统当中。

下面通过一示例性实施例对本申请实施例的目标音频的输出方法进行说明。

训练阶段：

首先进行语料选取，选取精度在98％以上的ASR语料，大概4000人左右，总时长在800小时左右，采样率16k，16bit的wav格式的音频作为分类网络原始语料。选取目标说话人干净的音频，例如，20个人每人3000条(1个小时)干净TTS语音，采样率16k，16bi的wav格式音频作为声音转换网络模型原始语料。

PPG分类网络模型的训练：

S1.0，对上述PPG分类网络模型原始语料进行预处理，具体而言，对于PPG分类网络模型语料进行增强，为泛化PPG分类网络模型原始语料的代表性，选取随机加噪声的形式，给PPG分类网络模型原始语料注入各种常见噪声，得到PPG分类网络模型增强语音。实验表明，该方式可以很成功的获取说话人音素特征，并显著提升后续变声阶段的说话人变声效果。

S1.1，采用上述PPG分类网络模型原始语料训练MFA对齐工具，通过训练完成的MFA对齐工具提取PPG分类网络模型原始语料中音素的时长信息。

需要说明的是，在预处理阶段进行增强的过程中，仅在PPG分类网络模型原始语料中随机诸如噪音而并未改变语料的时长，因而，上述S1.1中PPG网络原始语料中音素的时长信息可直接作为PPG分类网络模型增强语料中音素的时长信息。

S1.2，采用上述PPG分类网络模型增强语料，一方面对其中音频转化为梅尔谱特征，如80维度的梅尔普特征；另一方面，将音频对应的文本转换为音素；具体而言，对文本进行正则化，处理数字，字母，及其特殊符号，然后将其转化为拼音，通过音素映射表，将拼音映射为音素。需要说明的是，上述将文本转换为音素的过程中，需要根据时长将文本进行拉伸。

S1.3，由于音素的时长信息已知，故可获取音频中音素对应的位置，即每一个音素的起始时间，进而根据该起始时间确定每一帧音频对应的音素，以最终得到音频中每一帧音频所对应的音素类别。

音素类别可以理解为对音素进行编码，使得每一个音素有一个对应ID，该ID即为音素类别，或可称为音素标签。

S1.4，采用上述S1.3中每一帧音频对应的音素类别，对PPG分类网络模型进行训练，利用反向传播来训练直至收敛。PPG分类网络模型的结构如前述，在此不再赘述。

VC(声音转换)网络的训练：

S2.0，对声音转换网络模型原始语料进行正则化处理。之后进行mel特征，LPC特征，F0特征的提取，记为目标说话人音频特征。

S2.1，通过前述训练完成的PPG网络，对上述目标说话人音频特征(mel)提取对应的PPG特征。

S2.2，通过上述目标说话人PPG特征与对应的LPC特征，F0特征，SpeakID训练VC网络，利用反向传播直至收敛。VC网络的结构如前述，在此不再赘述。

S2.3，通过上步输出LPC特征，接入一个LPC vocoder还原成音频。

变声阶段：

通过上述完成训练的声音转换网络模型，即可将源说话人的音频变换为目标说话人的音频。具体而言，我们通过上述部分中训练完成的PPG网络将源说话人的音频转换为PPG特征，然后通过第二部分输出LPC特征接入LPC vocoder还原为音频输出。

根据本申请实施例的又一个方面，还提供了一种用于实施上述目标音频的输出方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图7所示，该电子装置包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，PPG特征向量用于指示每一帧源音频对应的音素标签，PPG特征向量包含源音频的文本信息和韵律信息；

S2，将PPG特征向量输入声音转换网络模型，根据PPG特征向量对应的音素标签输出目标音频的声学特征向量，其中，目标音频包含多个不同音色的音频；

S3，将目标音频的声学特征向量输入声码器，通过声码器输出目标音频。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本申请实施例中的目标音频的输出方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标音频的输出方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器702具体可以但不限于用于储存目标音频的输出方法的程序步骤。

可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器708，用于显示目标音频的输出过程；和连接总线710，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种目标音频的输出方法，其特征在于，包括：

将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，所述PPG 特征向量用于指示每一帧源音频对应的音素标签，所述PPG 特征向量包含所述源音频的文本信息和韵律信息；

将所述PPG特征向量输入声音转换网络模型，根据所述PPG特征向量对应的所述音素标签输出目标音频的声学特征向量，其中，所述目标音频包含多个不同音色的音频；

将所述目标音频的声学特征向量输入声码器，通过所述声码器输出所述目标音频；

其中，在将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量之前，所述方法还包括：

建立所述PPG分类网络模型，其中，所述PPG分类网络模型包括依次连接的抽象映射层、模块层、PPG层和分类层，所述模块层包括至少两个串联的模块；

通过第一训练样本训练所述PPG分类网络模型，其中，所述第一训练样本包括第一音频特征和所述第一音频特征对应的第一音素标签；

所述通过第一训练样本训练所述PPG分类网络模型，包括：

将所述第一音频特征输入所述抽象映射层，进行第一步抽象映射；

通过所述模块对单个所述第一训练样本的每一层第一音频特征在通道方向上做归一化，然后通过所述抽象映射层进行第二步抽象映射；

通过所述模块采用线性序列结构不断从前往后收集输入的所述第一音频特征的信息，提取所述第一音频特征之间的全局依赖信息；

通过所述模块提取所述第一音频特征之间的局部依赖信息；

整合所述全局依赖信息和所述局部依赖信息，并对所述第一音频特征做第三步抽象映射；

根据所述第一音素标签对应的音素类别的总数，通过所述PPG层对经过第三步抽象映射输出特征向量进行分类，得到第一PPG特征向量，其中，所述第一PPG特征向量的维度与所述音素类别的总数一致，所述第一PPG特征向量的每一维用于指示一种音素类别的概率；

将所述第一音频特征作为输入，将所述第一PPG特征向量作为输出，通过反向传播将所述PPG分类网络模型训练至收敛。

2.根据权利要求1所述的方法，其特征在于，通过第一训练数据训练所述PPG分类网络模型之前，所述方法还包括：

获取第一训练语料，其中，所述第一训练语料包括第一音频和所述第一音频对应的第一文本；

将所述第一音频转换为第一音频特征，并将所述第一文本转换为第一音素；

根据所述第一音频和所述第一文本的对齐关系，以及所述第一音素的时长信息，确定每一帧所述第一音频特征对应的第一音素标签，其中，所述第一音素标签用于标识所述第一音素的类别；

将所述第一音频特征确定为所述第一训练样本的输入，将所述第一音素标签确定为所述第一训练样本的输出。

3.根据权利要求1所述的方法，其特征在于，在将所述PPG特征向量输入声音转换网络模型，根据所述PPG特征向量对应的所述音素标签输出目标音频的声学特征向量之前，所述方法还包括：

建立所述声音转换网络模型，其中，所述声音转换网络模型包括编码层、解码层、声波编码层和声波预测层；

通过第二训练样本训练所述声音转换网络模型，其中，所述第二训练样本包括第二音频对应的第二PPG特征向量和所述第二音频对应的样本声学特征向量，所述第二音频包括多种不同音色的音频，所述声音转换网络模型包含多个目标标识，每一所述目标标识用于标识一种音色。

4.根据权利要求3所述的方法，其特征在于，在通过第二训练样本训练所述声音转换网络模型之前，所述方法还包括：

获取所述第二音频；

将所述第二音频输入训练好的所述PPG分类网络模型，得到所述第二音频对应的所述第二PPG特征向量，并将所述第二PPG特征向量确定为所述第二训练样本的输入；

对经过清洗处理的所述第二音频，提取所述样本声学特征向量，并将所述样本声学特征向量确定为所述第二训练样本的输出。

5.根据权利要求3所述的方法，其特征在于，所述通过第二训练样本训练所述声音转换网络模型，包括：

将所述第二PPG特征向量输入所述编码层，通过所述编码层提取所述第二PPG特征向量之间的短时关联信息和长时关联信息；

通过所述解码层，对所述短时关联信息、所述长时关联信息、所述第二PPG特征向量对应的目标标识和所述第二PPG特征向量的声波信息进行整合，并提取不同帧所述第二PPG特征向量之间的依赖信息；

通过声波编码模块对所述第二PPG特征向量对应的所述第二音频的基频特征进行抽象提取，并对提取的所述基频特征进行维度转换，以在所述声音转换网络模型中嵌入所述第二音频的基频特征；

将所述编码层输出的特征向量作为输入，将所述样本声学特征向量作为输出，训练所述声波预测层。

6.根据权利要求1所述的方法，其特征在于，所述将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，包括：

将源音频数据分片输入语音后验图PPG分类网络模型，其中，所述PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，所述模块层包括至少两个串联的模块，所述模块中设置单向长短期记忆功能LSTM层，所述单向LSTM层配置为学习特征之间的全局依赖信息；

根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应PPG特征向量。

7.根据权利要求6所述的方法，其特征在于，所述根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应PPG特征，包括：

通过所述第一缓存区域保存第一片源音频数据在所述单向LSTM层中的状态数据；

在进行第二片源音频数据推断时，通过所述第一缓存区域初始化所述单向LSTM层的状态数据，其中，所述第一片源音频数据和所述第二片源音频数据为相邻片的数据，且所述第一片源音频数据时序在前；

通过第二缓存区域保存所述第一片源音频数据的后面n帧数据；

在进行所述第二片源音频数据推断时，将所述第一片源音频数据的后面n帧数据拼接在所述第二片源音频数据前面后，输入所述PPG分类网络模型。

8.一种目标音频的输出装置，其特征在于，包括：

输入模块，配置为将源音频输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，所述PPG 特征向量用于指示每一帧源音频对应的音素标签；

处理模块，配置为将所述PPG特征向量输入声音转换网络模型，根据所述PPG特征向量对应的所述音素标签输出目标音频的声学特征向量，其中，所述目标音频包含多个不同音色的音频；

输出模块，配置为将所述目标音频的声学特征向量输入声码器，通过所述声码器输出所述目标音频；

其中，所述装置还包括：

建立模块，配置为建立所述PPG分类网络模型，其中，所述PPG分类网络模型包括依次连接的抽象映射层、模块层、PPG层和分类层，所述模块层包括至少两个串联的模块；

训练模块，配置为通过第一训练样本训练所述PPG分类网络模型，其中，所述第一训练样本包括第一音频特征和所述第一音频特征对应的第一音素标签；

所述训练模块还配置为：

通过所述模块提取所述第一音频特征之间的局部依赖信息；

9.一种目标音频的输出系统，其特征在于，包括：

语音后验图PPG分类网络模型，配置为根据输入的源音频输出对应的PPG特征向量，其中，所述PPG 特征向量用于指示每一帧源音频对应的音素标签，所述PPG 特征向量包含所述源音频的文本信息和韵律信息；

声音转换网络模型，配置为根据所述PPG特征向量对应的所述音素标签输出至少两个不同音色的目标音频的声学特征向量；

声码器，配置为根据至少两个所述目标音频的声学特征向量输出至少两个所述目标音频；

其中，所述PPG分类网络模型包括依次连接的抽象映射层、模块层、PPG层和分类层，所述模块层包括至少两个串联的模块，所述PPG分类网络模型的训练过程包括：

所述通过第一训练样本训练所述PPG分类网络模型包括：

通过所述模块提取所述第一音频特征之间的局部依赖信息；

10.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至7任一项中所述的方法。

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项中所述的方法。