CN113724690B

CN113724690B - Ppg特征的输出方法、目标音频的输出方法及装置

Info

Publication number: CN113724690B
Application number: CN202111019691.6A
Authority: CN
Inventors: 司马华鹏; 龚雪飞; 毛志强
Original assignee: Suqian Silicon Based Intelligent Technology Co ltd
Current assignee: Suqian Silicon Based Intelligent Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2023-01-03
Anticipated expiration: 2041-09-01
Also published as: CN113724690A

Abstract

本申请实施例提供了一种PPG特征的输出方法、目标音频的输出方法及装置，所述方法包括：将源音频数据分片输入语音后验图PPG分类网络模型，其中，PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，模块层包括至少两个串联的模块，模块中设置单向长短期记忆功能LSTM层，单向LSTM层配置为学习特征之间的全局依赖信息；通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据；根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征。

Description

PPG特征的输出方法、目标音频的输出方法及装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种PPG特征的输出方法、目标音频的输出方法及装置。

背景技术

语音转换技术是：将A说话人(源说话人)的语音转换成B说话人(目标说话人)的声音。语音转换是语音信号处理的一个研究分支，它涵盖了说话人识别、语音识别及语音合成等领域的内容，拟在保留原有的语义信息不变的情况下改变语音的个性化信息，使特定说话人(即源说话人)的语音听起来像另一个特定说话人(即目标说话人)的语音。

语音转换在实现过程中，其中最核心的任务就是提取原始说话人音频的文本信息、韵律信息，本质上就是剔除音频特征中的音色信息，即Phonetic posteriorgrams(PPG)特征。。

目前提取PPG特征方法：

一、使用与说话者无关的自动语音识别(SI-ASR)系统来提取PPG：首先需要训练一个自动语音识别(Automatic Speech Recognition，简称为ASR)系统，把ASR声学模型最后一层作为PPG层，提取PPG特征；

二、通过生成式对抗网络(Generative Adversarial Networks，简称为GAN)提取音频的(瓶颈层)BNF特征，把BNF特征等价于PPG特征。

上述两个方案在实用上均存在较大问题，对于方案一：ASR系统过于复杂，网络的准确性还受到语言模型的影响，并且很难实现流式输出；对于方案二：虽然该方案思路简单，但是模型收敛难以保证，效果停留在实验阶段，目前并未有流式的解决方案。

针对相关技术中，语音转换系统在提取原始说话人的PPG特征时无法流式输出的技术问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种PPG特征的输出方法、目标音频的输出方法及装置，以至少解决相关技术中语音转换系统在提取原始说话人的PPG特征时无法流式输出的技术问题。

在本申请的一个实施例中，提出了一种语音后验图PPG特征的输出方法，包括：将源音频数据分片输入语音后验图PPG分类网络模型，其中，所述PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，所述模块层包括至少两个串联的模块，所述模块中设置单向长短期记忆功能LSTM层，所述单向LSTM层配置为学习特征之间的全局依赖信息；通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应PPG特征，其中，所述PPG特征用于指示所述每一帧源音频对应的音素标签，所述PPG特征包含所述源音频的文本信息和韵律信息。

在本申请的一个实施例中，还提出了一种目标音频的输出方法，包括：将源音频数据分片输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，所述PPG特征向量用于指示所述每一帧源音频对应的音素标签，所述PPG特征向量包含所述源音频的文本信息和韵律信息，所述PPG分类网络模型配置为，根据上一片源音频数据和当前片源音频数据输出所述当前片源音频数据对应的PPG特征向量；将所述PPG特征向量输入声音转换网络模型，根据所述PPG特征向量对应的所述音素标签输出目标音频的声学特征向量，其中，所述目标音频包含多个不同音色的音频；将所述目标音频的声学特征向量输入声码器，通过所述声码器输出所述目标音频。

在本申请的一个实施例中，还提出了一种目标音频的输出装置，包括：PPG分类网络模型，包括依次连接的抽象映射层、模块层和PPG层，所述模块层包括至少两个串联的模块，所述模块中设置单向长短期记忆功能LSTM层，所述单向LSTM层配置为学习特征之间的全局依赖信息，所述PPC分类网络模型配置为，接收分片输入的源音频数据；缓存区域，包括第一缓存区域和第二缓存区域，所述第一缓存区域配置为，保留上一片源音频数据在单向LSMT中的状态数据，所述第二缓存区域配置为，保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；输出模块，配置为根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应PPG特征，其中，所述PPG特征用于指示所述每一帧源音频对应的音素标签，所述PPG特征包含所述源音频的文本信息和韵律信息。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，将源音频数据分片输入语音后验图PPG分类网络模型，通过单向LSTM层学习特征之间的全局依赖信息；通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据；根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征。解决了相关技术中语音转换系统在提取原始说话人的PPG特征时无法流式输出的技术问题，通过源音频数据的分片输入，以及单向LSTM层和缓存区域的设置，实现了语音转换系统在提取原始说话人的PPG特征时的流式输出，进而实现转换后的目标音频的流式输出。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的PPG特征的输出方法流程图；

图2是根据本申请实施例的一种可选的PPG分类网络模型结构示意图；

图3是根据本申请实施例的一种可选的目标音频的输出方法流程图；

图4是根据本申请实施例的一种可选的目标音频的输出装置结构框图；

图5是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

如图1所示，本申请实施例提供了一种语音后验图PPG特征的输出方法，包括：

步骤S102，将源音频数据分片输入语音后验图PPG分类网络模型，其中，PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，模块层包括至少两个串联的模块，模块中设置单向长短期记忆功能LSTM层，单向LSTM层配置为学习特征之间的全局依赖信息；

步骤S104，通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；

步骤S106，根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征，其中，PPG特征用于指示每一帧源音频对应的音素标签，PPG特征包含源音频的文本信息和韵律信息。

需要说明的是，每一片源音频数据可以包括m帧数据，m帧数据中的位于后面的n帧数据可以保留在第二缓存区域中，例如，一片源音频数据包括10帧数据，其中后4帧数据保留在第二缓存区域中，在下一片源音频数据输入时将与下一片源音频数据拼接在一起。

需要说明的是，本申请实施例提供的一种流式提取PPG特征的方法，可以摆脱对平行语料的依赖，实现实时提取PPG特征的需求。同时本申请实施例还可以包括转换模块，用于搭载本申请实施例所涉及的PPG分类网络模型；转换模块可以设置在服务器或终端中，本申请实施例对此不作限定。

此外，本申请实施例还可配套有相应的拾音设备与播音设备，如麦克风与扬声器等，分别用于获取源说话人的输入音频，以及输出目标说话人的输出音频。

需要说明的是，将源音频数据分片输入PPG分类网络模型，以及缓存区域的设置，是实现PPG特征流式输出的关键步骤。

图2是根据本申请实施例的一种可选的PPG分类网络模型结构示意图。如图2所示，PPG分类网络模型包括：FC层(相当于前述抽象映射层)，用于将输入特征(梅尔普特征)进行第一步的抽象映射；block块(相当于模块层)，block块包括FFM层，LSTM层，CNN层，FFM层；PPG(单音素)层；PPG(三音素)层。

在一实施例中，在将源音频输入语音后验图PPG分类网络模型之前，所述方法还包括：

建立PPG分类网络模型；

通过训练样本训练PPG分类网络模型，其中，训练样本包括样本音频特征和样本音频特征对应的样本音素标签。

本申请实施例的流式提取PPG特征网络包括PPG分类网络模型与缓存区域，缓存区域包括第一缓存区域和第二缓存区域。

关于PPG分类网络模型，本申请实施例中利用ASR训练语料作为训练语料，其中包含音频，以及音频对应的文本标签。需要说明的是，为了后续使用方便，此处的训练语料并未进行降噪等处理，也不必进行分片处理，以此，后续通过完成训练的系统进行变声时，可直接将相应音频输入至系统中进行对应的特征提取。

模型的训练：

第一：使用MFA(Montreal Forced Aligner)对齐工具对训练语料进行训练，生成语料的对齐时长特征(音频的音素的发音时长)，根据音素的发音时长提取音频每帧的单音素类别和三音素类别。

需要说明的是，三音素属于音素的一种，与单音素(如t，iy，n)不同，三音素表示为如t-iy+n，即由三个单音素组成，与单音素iy类似，但其考虑了上下文的关系，即，上文为t，下文为n。

第二：提取音频的声学特征(可以是80维的mel特征)，这样构造训练样本(样本输入为X：80维的mel特征，样本输出为Y1：音频每一帧对于的单音素类别，样本输出为Y2：音频每一帧对于的三音素类别)。

第三：构建一个多分类的深度网络(PPG网络)。PPG网络的结构示意图见后，如图2所示，PPG网络首先包括一个FC层，其次是4个block，每个block由4个子模块构成(4个子模块依次：FFM层，LSTM层，CNN层，FFM层)，再次连接一个FC层(单音素层)，最后链接一个FC层(三音素层)。

在一实施例中，通过第一训练数据训练PPG分类网络模型之前，所述方法还包括：

获取训练语料，其中，训练语料包括训练音频和训练音频对应的训练文本；

将训练音频转换为训练音频特征，并将训练文本转换为训练音素；

根据训练音频和训练文本的对齐关系，以及训练音素的时长信息，确定每一帧训练音频特征对应的单音素标签和三音素标签，其中，单音素标签用于标识训练音素的单音素类别，三音素标签用于标识训练音素的三音素类别；

将训练音频特征确定为训练样本的样本音频特征，将单音素标签和三音素标签确定为训练样本的样本音素标签。

在一实施例中，通过训练样本训练PPG分类网络模型，包括：

将样本音频特征输入抽象映射层，进行第一步抽象映射；

通过模块对单个训练样本的每一层样本音频特征在通道方向上做归一化，然后通过抽象映射层进行第二步抽象映射；

通过模块的单向LSTM层，采用线性序列结构不断从前往后收集输入的样本音频特征的信息，提取样本音频特征之间的全局依赖信息；

通过模块的卷积层，提取样本音频特征之间的局部依赖信息；

整合全局依赖信息和局部依赖信息，并对样本音频特征做第三步抽象映射；

根据样本音素标签对应的单音素类别的总数，通过PPG层的单音素层对经过第三步抽象映射输出特征进行分类，得到第一PPG特征，其中，第一PPG特征的维度与单音素类别的总数一致，第一PPG特征的每一维用于指示一种单音素类别的概率；

根据样本音素标签对应的三音素类别的总数，通过PPG层的三音素层对经过第三步抽象映射输出特征进行分类，得到第二PPG特征，其中，第二PPG特征的维度与三音素类别的总数一致，第二PPG特征的每一维用于指示一种三音素类别的概率；

将样本音频特征作为输入，将第一PPG特征和第二PPG特征作为输出，通过反向传播将PPG分类网络模型训练至收敛。

需要说明的是，PPG分类网络模型的各个模块的功能如下：

FC层，用于将输入特征(梅尔普特征)进行第一步的抽象映射；

block块：

1)FFM层：通过LayerNormlization层对单个样本的每一层特征在通道方向上做归一化，加速模型的收敛速度；通过FC层对特征进一步的抽象映射；通过Residual层防止网络加深引起的梯度消失；

2)LSTM层：用于通过LSTM网络的长短期记忆记忆功能，采用线性序列结构不断从前往后收集输入信息，学习特征之间的全局依赖信息；

3)CNN层：通过CNN提取特征之间的局部依赖关系，CNN操作时不进行pad；

4)FFM层：对上述提取的全局依赖信息、局部依赖信息进行整合，做一个抽象映射。

整体而言，上述各个block块考虑到效率与性能的综合，block值设置偏大比较好，但由于block值过大会导致网络训练及推断效率降低，故针对后期流式使用，本申请实施例中将block值(block值指每一个block包含的子模块的数量)设置为4；多个block块之间使用串联结构，下一个block块都是对上一个block块的输出特征进一步的特征整合。

PPG(单音素)层：包括一FC层，用于通过该FC层提取PPG特征；具体而言，以音素类别的总数作为依据，该层的输出与Y1做一个交叉熵多分类，以提取PPG特征。

PPG特征的物理含义可以理解为音频的文本信息与韵律信息。通常而言，不同人说同一句话，语义信息是一致的，但音色信息是不一样的；PPG特征即用于表征将音频中的音色信息去除，仅保留音频的语义信息与韵律信息的特征。例如，音素类别＝214，则PPG特征的维度等于214，具体的含义，每一维代表属于该类别的概率。在网络训练过程中，PPG特征实际代表该帧属于每个音素类别的概率值(0-1之间)，相较于纯粹的类别值有更强的容错性及泛化性。

PPG(三音素)层：包括一FC层，通过三音素的类别矫正PPG层的输出；具体而言，以三音素类别的总数作为依据，对单因素层的输出进行分类。三音素相较于单因素容错率更高，泛化性更好，但是由于其维度更大，后期使用不方便，因此三音素层作为单因素的矫正作用，提升单因素层的准确率；具体而言，以三音素类别的总数作为依据，该层的输出与Y2做一个交叉熵多分类。

本申请实施例中将训练语料中每一帧音频对应的梅尔普特征(X)作为输入，将每一音频对应的音素类别(Y)作为输出对上述PPG分类网络模型进行训练，通过反向传播，将其训练至收敛为止。

在一实施例中，根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征，包括：

通过第一缓存区域保存第一片源音频数据在单向LSTM层中的状态数据；

在进行第二片源音频数据推断时，通过第一缓存区域初始化单向LSTM层的状态数据，其中，第一片源音频数据和第二片源音频数据为相邻片的数据，且第一片源音频数据时序在前；

通过第二缓存区域保存第一片源音频数据的后面n帧数据；

在进行第二片源音频数据推断时，将第一片源音频数据的后面n帧数据拼接在第二片源音频数据前面后，输入PPG分类网络模型。

需要说明的是，缓存区域主要在模型推断过程，实现无损流式输出，缓存区域可以是独立于PPG分类网络模型，以工程模块的形式设置。

需要实现流式输出，因此在模型推断时，音频数据是分数据片送入，在分片的连接时，需要使用上一分片的信息。

block的LSTM模块，需要设置一个缓存区Cache_lstm_state(保留上一分片lstm的最后状态)，进行下一分片数据推断时，使用Cache_lstm_state初始化LSTM的状态；

block的CNN模块，训练时不进行pad，推断的时候会导致丢帧，需要设置一个缓存区Cache_cnn(保留上一片段的后面几帧数据)，进行下一分片数据推断时，Cache_cnn拼接在分片数据前。

如图3所示，根据本申请的另一实施例，还提供了一种目标音频的输出方法，包括：

步骤S302，将源音频数据分片输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，PPG特征向量用于指示每一帧源音频对应的音素标签，PPG特征向量包含源音频的文本信息和韵律信息，PPG分类网络模型配置为，根据上一片源音频数据和当前片源音频数据输出当前片源音频数据对应的PPG特征向量；

步骤S304，将PPG特征向量输入声音转换网络模型，根据PPG特征向量对应的音素标签输出目标音频的声学特征向量，其中，目标音频包含多个不同音色的音频；

步骤S306，将目标音频的声学特征向量输入声码器，通过声码器输出目标音频。

在一实施例中，将源音频数据分片输入语音后验图PPG分类网络模型，得到PPG特征向量，包括：

通过第一缓存区域保留上一片源音频数据在PPG分类网络模型的单向LSMT层中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据，其中，n为大于1的整数；

根据当前片源音频数据和第一缓存区域以及所述第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征。

如图4所示，根据本申请的另一实施例，还提供了一种目标音频的输出装置，用于实现上述任一项方法实施例中所述的方法，已经描述的内容此处不再赘述，所述装置包括：

PPG分类网络模型402，包括依次连接的抽象映射层、模块层和PPG层，所述模块层包括至少两个串联的模块，所述模块中设置单向长短期记忆功能LSTM层，所述单向LSTM层配置为学习特征之间的全局依赖信息，所述PPC分类网络模型配置为，接收分片输入的源音频数据；

缓存区域404，包括第一缓存区域和第二缓存区域，所述第一缓存区域配置为，保留上一片源音频数据在单向LSMT中的状态数据，所述第二缓存区域配置为，保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；

输出模块406，配置为根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应PPG特征，其中，所述PPG特征用于指示所述每一帧源音频对应的音素标签，所述PPG特征包含所述源音频的文本信息和韵律信息。

下面通过一示例性实施例对本申请中的PPG分类网络模型的训练过程以及PPG特征输出过程进行描述。

训练阶段：

首先进行语料选取，选取精度在98％以上的ASR语料，大概8000人左右，总时长在3000小时左右，采样率16k，16bit的wav格式的音频作为分类网络原始语料。

PPG网络的训练：

S1.0，对上述PPG网络原始语料进行预处理，具体而言，对于PPG网络语料进行增强，为泛化PPG网络原始语料的代表性，选取随机加噪声的形式，给PPG网络原始语料注入各种常见噪声，得到PPG网络增强语音。实验表明，该方式可以很成功的获取说话人音素特征。

S1.1，采用上述PPG网络原始语料训练MFA对齐工具，通过训练完成的MFA对齐工具提取PPG网络原始语料中对齐信息(每帧对应的单音素类别、三音素类别)。

需要说明的是，在预处理阶段进行增强的过程中，仅在PPG网络原始语料中随机诸如噪音而并未改变语料的时长，因而，上述S1.1中PPG网络原始语料中音素的对齐信息可直接作为PPG网络增强语料中音素的对齐信息。

S1.2，采用上述PPG网络增强语料，一方面对其中音频转化为梅尔谱特征，如80维度的梅尔普特征；另一方面，将音频对应的文本转换为音素；具体而言，对文本进行正则化，处理数字，字母，及其特殊符号，然后将其转化为拼音，通过音素映射表，将拼音映射为音素。需要说明的是，上述将文本转换为音素的过程中，需要根据时长将文本进行拉伸。

S1.3，由于音素的对齐信息已知，故可获取音频中音素对应的位置，即每一个音素的起始时间，进而根据该起始时间确定每一帧音频对应的音素，以最终得到音频中每一帧音频所对应的单/三音素类别。

音素类别可以理解为对音素进行编码，使得每一个音素有一个对应ID，该ID即为音素类别，或可称为音素标签，单音素和三音素使用不同的ID序列。

S1.4，采用上述S1.3中每一帧音频对应的音素类别，对PPG网络进行训练，利用反向传播来训练直至收敛。PPG网络的结构如前述，在此不再赘述。

推断阶段

送入mel特征，设置缓存，网络进行前向推断，输出PPG特征。

本申请实施例中提取PPG特征的相关技术中的现有方案，一方面，现有方案的提取PPG需要一个独立的ASR系统，而ASR系统复杂，繁琐，而本方案中PPG网络简单，时效性更佳。

另一方面，独立ASR系统目前还没有见到流式提取PPG的实现，即使实现起来也很复杂，而本方法中，只需要推断设置两个缓存，简单，高效。

另一方面，现有方案最终的准确性取决于ASR系统的准确率，本方案中，通过单因素、三音素两个对齐特征的叠加使用，明显提升了PPG特征的准确率。(PPG其实是一种概率值，转换成音素类别，在aidatatang_200zh数据集下，ASR的错误率15％，PPG系统错误率：5％)

此外，本申请实施例提供的PPG特征的输出方法以及目标音频的输出方法可以很容易的接入到人机交互系统当中。

根据本申请实施例的又一个方面，还提供了一种用于实施上述PPG特征的输出方法或目标音频的输出方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图5所示，该电子装置包括存储器502和处理器504，该存储器502中存储有计算机程序，该处理器504被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，将源音频数据分片输入语音后验图PPG分类网络模型，其中，PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，模块层包括至少两个串联的模块，模块中设置单向长短期记忆功能LSTM层，单向LSTM层配置为学习特征之间的全局依赖信息；

S2，通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；

S3，根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征，其中，PPG特征用于指示每一帧源音频对应的音素标签，PPG特征包含源音频的文本信息和韵律信息。

可选地，在本实施例中，上述处理器还可以被设置为通过计算机程序执行以下步骤：

S1，源音频数据分片输入语音后验图PPG分类网络模型，得到PPG特征向量，其中，PPG特征向量用于指示每一帧源音频对应的音素标签，PPG特征向量包含源音频的文本信息和韵律信息，PPG分类网络模型配置为，根据上一片源音频数据和当前片源音频数据输出当前片源音频数据对应的PPG特征向量；

S2，将PPG特征向量输入声音转换网络模型，根据PPG特征向量对应的音素标签输出目标音频的声学特征向量，其中，目标音频包含多个不同音色的音频；

S3，将目标音频的声学特征向量输入声码器，通过声码器输出目标音频。

可选地，本领域普通技术人员可以理解，图5所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图5中所示更多或者更少的组件(如网络接口等)，或者具有与图5所示不同的配置。

其中，存储器502可用于存储软件程序以及模块，如本申请实施例中的目标音频的输出方法和装置对应的程序指令/模块，处理器504通过运行存储在存储器502内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标音频的输出方法。存储器502可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器502可进一步包括相对于处理器504远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器502具体可以但不限于用于储存目标音频的输出方法的程序步骤。

可选地，上述的传输装置506用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置506包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置506为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器508，用于显示目标音频的输出过程；和连接总线510，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音后验图PPG特征的输出方法，其特征在于，包括：

建立语音后验图PPG分类网络模型；

通过训练样本训练所述PPG分类网络模型，其中，所述训练样本包括样本音频特征和所述样本音频特征对应的样本音素标签；

将源音频数据分片输入所述PPG分类网络模型，其中，所述PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，所述模块层包括至少两个串联的模块，每个所述模块中设置单向长短期记忆功能LSTM层，所述单向LSTM层配置为学习特征之间的全局依赖信息；

通过第一缓存区域保留上一片源音频数据在所述单向LSTM层中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；

根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音状态频数据对应PPG特征，其中，所述PPG 特征用于指示每一帧源音频对应的音素标签，所述PPG 特征包含所述源音频的文本信息和韵律信息，所述第一缓存区域以及所述第二缓存区域独立于所述PPG分类网络模型，以工程模块的形式设置；

其中，所述通过训练样本训练所述PPG分类网络模型，包括：

将所述样本音频特征输入所述抽象映射层，进行第一步抽象映射；

通过所述模块对单个所述训练样本的每一层样本音频特征在通道方向上做归一化，然后通过抽象映射层进行第二步抽象映射；

通过所述模块的单向LSTM层，采用线性序列结构不断从前往后收集输入的所述样本音频特征的信息，提取所述样本音频特征之间的全局依赖信息；

通过所述模块的卷积层，提取所述样本音频特征之间的局部依赖信息；

整合所述全局依赖信息和所述局部依赖信息，并对所述样本音频特征做第三步抽象映射；

根据所述样本音素标签对应的单音素类别的总数，通过所述PPG层的单音素层对经过第三步抽象映射输出特征进行分类，得到第一PPG特征，其中，所述第一PPG特征的维度与所述单音素类别的总数一致，所述第一PPG特征的每一维用于指示一种单音素类别的概率；

根据所述样本音素标签对应的三音素类别的总数，通过所述PPG层的三音素层对经过第三步抽象映射输出特征进行分类，得到第二PPG特征，其中，所述第二PPG特征的维度与所述三音素类别的总数一致，所述第二PPG特征的每一维用于指示一种三音素类别的概率；

将所述样本音频特征作为输入，将所述第一PPG特征和所述第二PPG特征作为输出，通过反向传播将所述PPG分类网络模型训练至收敛。

2.根据权利要求1所述的方法，其特征在于，通过第一训练数据训练所述PPG分类网络模型之前，所述方法还包括：

获取训练语料，其中，所述训练语料包括训练音频和所述训练音频对应的训练文本；

将所述训练音频转换为训练音频特征，并将所述训练文本转换为训练音素；

根据所述训练音频和所述训练文本的对齐关系，以及所述训练音素的时长信息，确定每一帧所述训练音频特征对应的单音素标签和三音素标签，其中，所述单音素标签用于标识所述训练音素的单音素类别，所述三音素标签用于标识所述训练音素的三音素类别；

将所述训练音频特征确定为所述训练样本的样本音频特征，将所述单音素标签和所述三音素标签确定为所述训练样本的样本音素标签。

3.根据权利要求1所述的方法，其特征在于，所述根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应PPG特征，包括：

通过所述第一缓存区域保存第一片源音频数据在所述单向LSTM层中的状态数据；

在进行第二片源音频数据推断时，通过所述第一缓存区域初始化所述单向LSTM层的状态数据，其中，所述第一片源音频数据和所述第二片源音频数据为相邻片的数据，且所述第一片源音频数据时序在前；

通过第二缓存区域保存所述第一片源音频数据的后面n帧数据；

在进行所述第二片源音频数据推断时，将所述第一片源音频数据的后面n帧数据拼接在所述第二片源音频数据前面后，输入所述PPG分类网络模型。

4.一种语音后验图PPG特征的输出装置，其特征在于，包括：

建立模块，配置为建立PPG分类网络模型；

训练模块，配置为通过训练样本训练所述PPG分类网络模型，其中，所述训练样本包括样本音频特征和所述样本音频特征对应的样本音素标签；

PPG分类网络模型，包括依次连接的抽象映射层、模块层和PPG层，所述模块层包括至少两个串联的模块，所述模块中设置单向长短期记忆功能LSTM层，所述单向LSTM层配置为学习特征之间的全局依赖信息，所述PPC分类网络模型配置为，接收分片输入的源音频数据；

缓存区域，包括第一缓存区域和第二缓存区域，所述第一缓存区域配置为，保留上一片源音频数据在单向LSTM中的状态数据，所述第二缓存区域配置为，保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；

输出模块，配置为根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应PPG特征，其中，所述PPG 特征用于指示每一帧源音频对应的音素标签，所述PPG 特征包含所述源音频的文本信息和韵律信息；

其中，所述训练模块还配置为：

5.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至3任一项中所述的方法。

6.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至3任一项中所述的方法。