CN110223705A

CN110223705A - 语音转换方法、装置、设备及可读存储介质

Info

Publication number: CN110223705A
Application number: CN201910506086.8A
Authority: CN
Inventors: 王燕南; 黄�俊; 陈家君; 王青
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-09-10
Anticipated expiration: 2039-06-12
Also published as: CN110223705B

Abstract

本申请公开了一种语音转换方法、装置、设备及可读存储介质，涉及音频处理领域。该方法包括：获取源语音，源语音为以第一人声发出的语音；提取源语音的音素后验概率；通过编码器对音素后验概率进行编码处理，得到编码层特征；通过解码器对编码层特征进行解码处理，得到频谱特征，编码器和解码器是通过第二人声的样本语音训练得到的；将频谱特征进行语音合成处理，得到第二人声的目标语音。通过编码器和解码器对PPGs进行处理，得到频谱特征后，通过频谱特征对目标语音进行合成，由编码器和解码器两层结构对PPGs进行处理，提高了对第二人声的语音情感以及语音韵律的把控，提高了目标语音与第二人声实际发出的声音之间的相似度。

Description

语音转换方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及音频处理领域，特别涉及一种语音转换方法、装置、设备及可读存储介质。

背景技术

语音转换技术是一种保持语义内容不变的情况下，将源语音转换为目标语音的技术，其中，源语音为第一人声发出的语音，目标语音为第二人声发出的语音，也即将第一人声发出的源语音通过语音转换技术，转换为语义相同的第二人声发出的目标语音。

相关技术中，语音转换技术的实现中，首先通过自动语音识别(Automatic SpeechRecognition，ASR)系统提取第二人声的音素后验概率(Phonetic Posterior Grams，PPGs)，并根据第二人声的PPGs训练得到双向长短时记忆模型(Bidirectional LongShort-Term Memory，BLSTM)，该BLSTM用于输出生成第二人声的语音分量。在转换过程中，通过上述ASR系统提取源语音对应的第一人声的PPGs，并将第一人声的PPGs输入上述BLSTM，输出得到用于生成目标语音的语音分量，将语音分量输入解码器得到与源语音对应语义相同的目标语音。

然而，通过上述方式进行语音转换时，通过BLSTM对第二人声的语音分量进行生成无法对第二人声的语音情感以及语音韵律进行把控，导致转换得到的目标语音与第二人声实际发出的语音相似度较低的问题。

发明内容

本申请实施例提供了一种语音转换方法、装置、设备及可读存储介质，可以解决通过BLSTM对第二人声的语音分量进行生成无法对第二人声的语音情感以及语音韵律进行把控，导致转换得到的目标语音与第二人声实际发出的语音相似度较低的问题。所述技术方案如下：

一方面，提供了一种语音转换方法，所述方法包括：

获取源语音，所述源语音为以第一人声发出且待转换为第二人声的语音；

提取所述源语音的音素后验概率，所述音素后验概率用于表示所述源语音的文本特征；

通过编码器对所述音素后验概率进行编码处理，得到编码层特征；

通过解码器对所述编码层特征进行解码处理，得到所述编码层特征对应的频谱特征，所述编码器和所述解码器是通过所述第二人声的样本语音进行训练后得到的；

将所述频谱特征通过声码器进行语音合成处理，得到与所述源语音对应的所述第二人声的目标语音。

另一方面，提供了一种语音转换装置，所述装置包括：

获取模块，用于获取源语音，所述源语音为以第一人声发出且待转换为第二人声的语音；

提取模块，用于提取所述源语音的音素后验概率，所述音素后验概率用于表示所述源语音的文本特征；

编码模块，用于通过编码器对所述音素后验概率进行编码处理，得到编码层特征；

解码模块，用于通过解码器对所述编码层特征进行解码处理，得到所述编码层特征对应的频谱特征，所述编码器和所述解码器是通过所述第二人声的样本语音进行训练后得到的；

合成模块，用于将所述频谱特征通过声码器进行语音合成处理，得到所述第二人声的目标语音。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的语音转换方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的语音转换方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中提供的语音转换方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在提取得到源语音的音素后验概率后，通过编码器和解码器对PPGs进行处理，得到频谱特征后，通过频谱特征对目标语音进行合成，由编码器和解码器两层结构对PPGs进行处理，提高了对第二人声的语音情感以及语音韵律的把控，提高了目标语音与第二人声实际发出的声音之间的相似度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的相关技术中语音转换方法示意图；

图2是本申请一个示例性实施例提供的实施环境示意图；

图3是本申请一个示例性实施例提供的语音转换方法流程图；

图4是本申请另一个示例性实施例提供的语音转换方法流程图；

图5是基于图4示出的实施例提供的编码器和解码器的结构示意框图；

图6是本申请另一个示例性实施例提供的语音转换方法流程图；

图7是本申请一个示例性实施例提供的语音转换系统的示意图；

图8是本申请一个示例性实施例提供的语音转换装置的结构框图；

图9本申请另一个示例性实施例提供的语音转换装置的结构框图；

图10是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

语音转换技术：是指保持语义内容不变的情况下，将源语音转换为目标语音的技术，其中，源语音为第一人声发出的语音，目标语音为第二人声发出的语音，也即将第一人声发出的源语音通过语音转换技术，转换为语义相同的第二人声发出的目标语音。可选地，在对源语音转换为目标语音的过程中，通常需要先提取该源语音的文本特征，并根据训练好的神经网络模型确定文本特征对应的语音分量后，根据语音分量合成得到目标语音。

音素后验概率(Phonetic Posterior Grams，PPGs)：用于表达源语音的文本特征，可选地，该PPGs是通过语音识别系统对源语音进行提取得到的，该语音识别系统为通过样本语音进行训练得到的系统，可选地，将标注有实际PPGs的样本语音输入该语音识别系统后，通过语音识别系统识别得到的PPGs和标注的实际PPGs对该语音识别系统进行训练，并通过训练得到的语音识别系统对源语音进行PPGs提取。

相关技术中，在将第一人声的源语音转换为第二人声的目标语音时，需要通过三个阶段，图1是本申请一个示例性实施例提供的相关技术中将源语音转换为目标语音的过程示意图，如图1所示，该转换过程包括第一训练阶段110、第二训练阶段120以及转换阶段130；

其中，在第一训练阶段110中，通过自动语音识别(Automatic SpeechRecognition，ASR)语料训练得到一个说话人无关(Speaker Independent，SI)的ASR系统111。在第二训练阶段120中，通过训练后的该SI ASR系统111从第二人声的样本语音中提取该第二人声的PPGs，并通过该PPGs训练得到一个双向长短时记忆模型122(BidirectionalLong Short-Term Memory，BLSTM)，该BLSTM122用于学习第二人声的梅尔倒谱系数(MelCepstral Coefficients，MCC)、基频(fundamental frequency，F0)和非周期分量(aperiodic component，AP)。在转换阶段130，通过SI ASR系统111提取源语音的PPGs后，将该PPGs输入上述BLSTM122，输出得到MCC、F0和AP，并将该MCC、F0和AP输入解码器133后生成与该源语音语义对应的目标语音。

然而，通过上述方式进行语音转换时，通过BLSTM对第二人声的语音分量进行生成时，生成语音分量的过程较为单一，无法对第二人声的语音情感以及语音韵律进行把控，导致转换得到的目标语音与第二人声实际发出的语音相似度较低的问题。

本申请实施例中提供的语音转换方法，在提取得到源语音的PPGs后，通过编码器和解码器对PPGs进行处理，得到梅尔频谱后，对目标语音进行合成，由编码器和解码器两层结构对PPGs进行处理，提高了对第二人声的语音情感以及语音韵律的把控，提高了目标语音与第二人声实际发出的声音之间的相似度。

可选地，本申请实施例可以应用于终端中，也可以应用于终端和服务器的交互环境中。

可选地，当本申请实施例应用于终端中时，终端中包括语音转换系统，可选地，该终端还包括麦克风，终端通过麦克风对第一人声的源语音进行采集后，将源语音通过语音转换系统进行转换，得到第二人声的目标语音。可选地，上述第一人声的源语音还可以是终端通过下载、蓝牙传输、有线传输方式获取的语音，本申请实施例对此不加以限定。

可选地，当本申请实施例应用于终端和服务器的交互环境时，如图2所示，该实施环境中包括终端210、服务器220和通信网络230；

终端210中包括麦克风211，终端210通过麦克风211对第一人声的源语音进行采集后，将采集得到的源语音通过通信网络230发送至服务器220，服务器220中包括语音转换系统221，服务器220将接收到的源语音通过语音转换系统221进行转换后，得到第二人声的且与该源语音的语义相同的目标语音，服务器220将该目标语音通过通信网络230发送至终端210后，终端210对该目标语音进行播放。其中，终端210还可以通过下载、蓝牙传输、有线传输方式获取上述源语音；以及终端210可以通过扬声器或耳机对目标语音进行播放。

其中，上述终端210可以实现为台式终端，也可以实现为手机、平板电脑、便携式膝上笔记本电脑等移动终端；上述服务器220可以实现为一台服务器，也可以实现为多台服务器组成的服务器群组，服务器220可以实现为物理服务器，也可以实现为云服务器，本申请实施例对此不加以限定。

可选地，上述终端210通过通信网络230向服务器220发送源语音，以及服务器220通过通信网络230向终端210发送目标语音。该通信网络230可以实现为有线网络，也可以实现为无线网络，本申请实施例对此不加以限定。

结合上述说明，对本申请实施例提供的语音转换方法进行说明，图3是本申请一个示例性实施例提供的语音转换方法的流程图，以该方法应用于如图2所示的服务器220中为例进行说明，如图3所示，该方法包括：

步骤301，获取源语音，该源语音为以第一人声发出且待转换为第二人声的语音。

可选地，当该语音转换方法应用于终端中时，该源语音可以通过录制、蓝牙传输、有线传输、下载的方式获取，且当该源语音通过录制的方式获取时，该终端对应配置有麦克风，并通过该麦克风进行音频采集从而实现对源语音的录制。

可选地，当该语音转换方法应用于服务器中时，该源语音可以是由终端上传至服务器的，也可以是服务器从其他服务器中下载的。

可选地，该源语音为第一人声发出的语音，且该源语音待转换为由第二人声发出的语音。

可选地，在对人声进行区分时，可以通过音色进行区分，不同的人的声带以及声带的振动方式不同，导致声音的振动频率、振动幅度等参数也不同，从而导致不同的人声的音色不同。

步骤302，提取源语音的音素后验概率，该音素后验概率用于表示该源语音的文本特征。

可选地，语音通常由音色特征和文本特征组成，由于需要将第一人声的源语音转换为第二人声的目标语音，也即保持语音不变的情况下将第一人声转换为第二人声，则对该源语音进行提取时，提取得到与文本特征对应的音素后验概率，并通过对音素后验概率匹配第二人声对应的音色特征，从而实现将第一人声的源语音转换为第二人声的目标语音。

步骤303，通过编码器对音素后验概率进行编码处理，得到编码层特征。

可选地，该编码器中包括级联的卷积神经网络(Convolutional Neural Network,CNN)和双向长短时记忆神经网络。

其中，卷积神经网络是包含卷积计算且具有深度结构的前馈神经网络，该卷积神经网络具有表征学习能力。可选地，该卷积神经网络中包括特征映射层(英文：featureembedding)，该特征映射层用于对音素后验概率进行特征映射，将低维特征映射为高维特征，其中，映射后的维数可以是预先设定的，也可以是根据映射前的维数确定的。

双向长短时记忆神经网络用于确定按序排列的n段音素后验概率中，当前音素后验概率与之前的音素后验概率以及之后的音素后验概率之间的联系。可选地，长短时记忆神经网络是一种时间递归神经网络，能够解决前后特征之间的时间序列问题。

可选地，该编码器中还包括平均池化层(英文：average pool1D)，该平均池化层用于对音素后验概率进行池化处理。

步骤304，通过解码器对编码层特征进行解码处理，得到编码层特征对应的频谱特征。

可选地，该解码器中包括级联的自回归长短时记忆神经网络和特征映射网络。

其中，自回归长短时记忆神经网络用于建立当前音素后验概率与在其之前的音素后验概率和在其之后的音素后验概率之间的时域关系；特征映射网络用于对编码层特征进行映射。

可选地，该解码器中还包括残差连接层，该残差连接层用于对特征映射网络输出的频谱特征进行调整。

可选地，上述编码器和解码器是通过第二人声的样本语音进行训练后的大的。可选地，在训练过程中，将第二人声的样本语音输入至上述编码器和解码器进行处理后，得到频谱特征，将该频谱特征与样本语音的实际频谱特征进行比对，并根据比对结果对编码器和解码器中的参数进行调整，从而实现对编码器和解码器中各个神经网络层的训练。

步骤305，将频谱特征通过声码器进行语音合成处理，得到源语音对应的第二人声的目标语音。

可选地，该频谱特征可以实现为梅尔频谱，将梅尔频谱通过声码器进行语音合成处理后，得到该第二人声的目标语音。

综上所述，本实施例提供的语音转换方法，在提取得到源语音的音素后验概率后，通过编码器和解码器对PPGs进行处理，得到频谱特征后，通过频谱特征对目标语音进行合成，由编码器和解码器两层结构对PPGs进行处理，提高了对第二人声的语音情感以及语音韵律的把控，提高了目标语音与第二人声实际发出的声音之间的相似度。

本实施例提供的方法，仅需要通过第二人声的样本语音对编码器和解码器进行训练，从而通过非平行语料实现一对多的语音转换方法。

在一个可选的实施例中，上述编码器中包括级联的平均池化层、卷积神经网络以及双向长短时记忆神经网络；上述解码器中包括级联的自回归长短时记忆神经网络、特征映射网络和残差连接层，图4是本申请另一个示例性实施例提供的语音转换方法的流程图，以该方法应用于如图2所示的服务器220中为例进行说明，如图4所示，该方法包括：

步骤401，获取源语音，该源语音为以第一人声发出且待转换为第二人声的语音。

可选地，获取该源语音的方式在上述步骤301中已进行了详细说明，此处不再赘述。

步骤402，提取源语音的音素后验概率，该音素后验概率用于表示该源语音的文本特征。

可选地，在对音素后验概率进行提取时，分段提取该源语音的音素后验概率，得到源语音的n段子后验概率，n为正整数。

步骤403，通过平均池化层对音素后验概率进行池化处理，得到池化处理后的音素后验概率。

可选地，该平均池化层用于解决音素后验概率中的毛刺问题，该毛刺问题是指存在与前一帧音频帧和后一帧音频帧存在明显区别的音频帧的问题，该平均池化层用于通过对音素后验概率中每帧音频帧的特征进行下采样，从而减少该音素后验概率中的毛刺问题。

步骤404，将音素后验概率输入卷积神经网络进行特征映射，得到映射特征。

可选地，该卷积神经网络中包括特征映射层，通过特征映射层对音素后验概率进行特征映射。

可选的，该卷积神经网络为三层卷积神经网络，该三层卷积神经网络中包括特征映射层用于对音素后验概率进行特征提取，得到映射特征。

步骤405，将映射特征输入双向长短时记忆神经网络，得到编码层特征。

可选地，根据源语音的总长度，每预设长度提取得到一段源语音片段的音素后验概率，得到n段子后验概率，对该n段子后验概率进行池化处理并通过卷积神经网络进行特征映射后，得到n个映射特征，该双向长短时记忆神经网络用于在n个映射特征中确定当前映射特征与其前后的映射特征之间的时域关系。

步骤406，将编码层特征输入自回归长短时记忆神经网络，得到解码层特征。

可选地，该自回归长短时记忆神经网络用于建模，并建立当前编码层特征与其前后的编码层特征之间的时域关系。

可选地，该解码器中还包括在前结果复用层，该在前结果复用层用于将特征映射网络最近一个输出的频谱特征输入至自回归长短时记忆神经网络进行建模。可选地，在训练过程中，该在前结果复用层输入自回归长短时记忆神经网络的频谱特征可以是训练语音的实际频谱特征，从而实现对解码器更为准确的训练。

步骤407，将解码层特征输入特征映射网络，得到频谱特征。

可选地，该特征映射网络用于对编码层特征进行映射得到频谱特征，该频谱特征用于合成得到第二人声且与源语音语义相同的目标语音。

可选地，编码器中的双向长短时记忆神经网络将编码层特征输入该特征映射网络，特征映射网络根据编码层特征和自回归长短时记忆神经网络输出的解码层特征得到该频谱特征。

步骤408，将频谱特征输入残差连接层，得到辅助构建参数。

可选地，该残差连接层用于根据特征映射网络输出的频谱特征对该频谱特征进行调整。

步骤409，通过辅助构建参数对频谱特征进行调整，得到调整后的频谱特征。

步骤410，将频谱特征通过声码器进行语音合成处理，得到源语音对应的第二人声的目标语音。

可选地，针对n段子后验概率，通过编码器进行编码处理后，通过解码器进行解码处理，得到n个频谱特征，并将该n个频谱特征通过声码器进行语音合成处理，得到第二人声的目标语音。可选地，该频谱特征可以实现为梅尔频谱，也即，将n个梅尔频谱通过声码器进行语音合成，得到第二人声的目标语音。

本实施例提供的方法，通过编码器中的卷积神经网络、双向长短时记忆神经网络以及平均池化层对音素后验概率进行编码处理，提高了对第二人声的语音情感以及语音韵律的把控，提高了目标语音与第二人声实际发出的声音之间的相似度。

本实施例提供的方法，通过解码器中的自回归长短时记忆神经网络、特征映射网络和残差连接层对编码特征进行解码处理，提高了对第二人声的语音情感以及语音韵律的把控，提高了目标语音与第二人声实际发出的声音之间的相似度。

示意性的，图4所示的实施例中的编码器和解码器请参考图5，图5是本申请一个示例性实施例提供的编码器和解码器的示意图，如图5所示，编码器510中包括级联的平均池化层511、卷积神经网络512和双向长短时记忆神经网络513，解码器520中包括自回归长短时记忆神经网络521、特征映射网络522、残差连接层523和在前结果复用层524，在语音转换过程中，将已提取得到的源语音的PPGs输入平均池化层511开始转换过程，依次经过平均池化层511、卷积神经网络512和双向长短时记忆神经网络513处理后，得到编码层特征，并将该编码层特征输入自回归长短时记忆神经网络521和特征映射网络522，自回归长短时记忆神经网络521对编码层特征处理后得到解码层特征输入特征映射网络522，特征映射网络522根据编码层特征和解码层特征得到梅尔频谱，并通过残差连接层523对该梅尔频谱进行调整，得到调整后的梅尔频谱；可选地，特征映射网络522还用于将输出的梅尔频谱通过在前结果复用层524输入自回归长短时记忆神经网络521后，得到解码层特征。

在一个可选的实施例中，在提取源语音的音素后验概率之前，还需要对源语音进行降噪处理，图6是本申请另一个示例性实施例提供的语音转换方法的流程图，以该方法应用于如图2所示的服务器220中为例进行说明，如图6所示，该方法包括：

步骤601，获取源语音，该源语音为以第一人声发出且待转换为第二人声的语音。

步骤602，将源语音输入语音分离模型进行降噪处理，得到降噪处理后的源语音。

可选地，该语音分离模型是一种端到端的语音分离模型网络，该网络利用一种多目标的训练方案将深度聚类网络和掩码推断网络相结合，并利用了可迭代的相位重构方法提高语音分离质量。

可选地，该语音分离模型用于将源语音中的说话人源和噪声源进行分离，从而实现降噪处理。

可选地，在训练过程中，通过标注有说话人源和噪声源的样本语音对该语音分离模型进行训练，从而通过训练后的语音分离模型对源语音中的说话人源和噪声源进行分离。

步骤603，分段提取源语音的音素后验概率，得到源语音的n段子后验概率，n为正整数。

可选地，提取过程中，从源语音中提取n个预设时长的源语音片段，如：从源语音中提取n个25ms的源语音片段，示意性的，第一个源语音片段为0-25ms，第二个源语音片段为25-50ms，以此类推。可选地，该预设时长中可以包括帧长和帧移，该帧移是指相邻两个源语音片段之间重合的帧长。

示意性的，在提取过程中，单次提取该源语音中25毫秒(ms)帧长和5ms的帧移，示意性的，第1个子后验概率为0-30ms(0-25ms及25-30ms)的源语音片段的音素后验概率，第2个子后验概率为25-55ms(25-50ms及50-55ms)的源语音片段的音素后验概率，第3个子后验概率为50-80ms(50-75ms及75-80ms)的源语音片段的音素后验概率，以此类推。

可选地，通过一个4层全连接神经网络(Deep Neural Network，DNN)对每一个语音片段的子后验概率进行提取，可选地，该DNN中每一层的节点数为1024，且标注采用单音素建模。

步骤604，通过平均池化层对n段子后验概率进行池化处理，得到池化处理后的音素后验概率。

可选地，该平均池化层用于解决音素后验概率中的毛刺问题，该毛刺问题是指存在与前一帧音频帧和后一帧音频帧存在明显区别的音频帧的问题。

可选地，该池化处理后的音素后验概率中包括n段处理后的子后验概率。

步骤605，将音素后验概率输入卷积神经网络进行特征映射，得到映射特征。

可选地，通过卷积神经网络对n段子后验概率中的每段子后验概率依次进行特征映射，得到n个映射特征。

步骤606，将映射特征输入双向长短时记忆神经网络，得到编码层特征。

可选地，该双向长短时记忆神经网络用于确定n个映射特征中，当前映射特征与其前后的映射特征之间的时域关系。

可选地，通过将n个映射特征依次输入该双向长短时记忆神经网络，得到n个映射特征对应的n个编码层特征。

步骤607，将编码层特征输入自回归长短时记忆神经网络，得到解码层特征。

可选地，该自回归长短时记忆神经网络用于建模，并建立当前子后验概率与其前后的子后验概率之间的时域关系。

可选地，通过将n个编码层特征依次输入该自回归长短时记忆神经网络，得到n个编码层特征对应的n个解码层特征。

可选地，该解码器中还包括在前结果复用层，该在前结果复用层用于将特征映射网络最近一个输出的频谱特征输入至自回归长短时记忆神经网络进行建模，如：第i个编码层特征输入该自回归长短时记忆神经网络时，同时将第i-1个频谱特征输入该自回归长短时记忆神经网络进行建模。可选地，在训练过程中，该在前结果复用层输入自回归长短时记忆神经网络的频谱特征可以是训练语音的实际频谱特征，从而实现对解码器更为准确的训练。

步骤608，将解码层特征输入特征映射网络，得到频谱特征。

可选地，将n个解码层特征依次输入该特征映射网络后，得到n个频谱特征。

可选地，上述n个子后验概率在进行转换的过程中，单次在单个神经网络中仅能对单个特征进行处理，如：第i个子后验概率通过卷积神经网络进行特征映射，得到第i个映射特征后，第i个映射特征通过双向长短时记忆神经网络得到第i个编码层特征，且第i+1个子后验概率通过卷积神经网络进行特征映射，得到第i+1个映射特征，以此类推。

步骤609，将频谱特征输入残差连接层，得到辅助构建参数。

步骤610，通过辅助构建参数对频谱特征进行调整，得到调整后的频谱特征。

步骤611，将频谱特征通过声码器进行语音合成处理，得到源语音对应的第二人声的目标语音。

可选地，该频谱特征可以实现为梅尔频谱，将n个梅尔频谱通过声码器进行语音合成处理后，得到该第二人声的目标语音。

可选地，本申请实施例中采用语音合成中的WaveGlow网络作为声码器。

本实施例提供的方法，通过对源语音进行去噪处理，避免提取得到的PPGs中涉及噪音内容，导致目标语音的语义有误的问题。

图7是本申请一个示例性实施例提供的语音转换方法的整体过程示意图，如图7所示，语音转换系统700中包括语音增强模块710、语音识别模块720、语音转换模块730以及声码器740；

其中，语音增强模块710用于对第一人声的源语音进行去噪处理，可选地，该语音增强模块710用于将源语音中的说话人源和噪声源进行分离，从而实现降噪处理，得到降噪处理后的源语音。

语音识别模块720用于提取源语音的PPGs，可选地，语音识别模块720将源语音分成25ms帧长和5ms帧移的片段进行PPGs的提取。

语音转换模块730用于根据语音识别模块720提取得到的PPGs将源语音转换为第二人声的目标语音，可选地，该语音转换模块730中包括编码器和解码器，编码器中包括级联的平均池化层、卷积神经网络以及双向长短时记忆神经网络，解码器中包括级联的自回归长短时记忆神经网络、特征映射网络和残差连接层；通过语音转换模块730以及语音识别模块720提取得到的n个PPGs，转换得到n个梅尔频谱，并将n个梅尔频谱输入声码器740合成得到第二人声的目标语音。

图8是本申请一个示例性实施例提供的语音转换装置的结构框图，以该装置应用于如图2所示的服务器220中为例进行说明，如图8所示，该装置包括：

获取模块810，用于获取源语音，所述源语音为以第一人声发出且待转换为第二人声的语音；

提取模块820，用于提取所述源语音的音素后验概率，所述音素后验概率用于表示所述源语音的文本特征；

编码模块830，用于通过编码器对所述音素后验概率进行编码处理，得到编码层特征；

解码模块840，用于通过解码器对所述编码层特征进行解码处理，得到所述编码层特征对应的频谱特征，所述编码器和所述解码器是通过所述第二人声的样本语音进行训练后得到的；

合成模块850，用于将所述频谱特征通过声码器进行语音合成处理，得到所述第二人声的目标语音。

在一个可选的实施例中，所述编码器中包括级联的卷积神经网络和双向长短时记忆神经网络；

所述编码模块830，还用于将所述音素后验概率输入所述卷积神经网络进行特征映射，得到映射特征；将所述映射特征输入所述双向长短时记忆神经网络，得到所述编码层特征。

在一个可选的实施例中，所述编码器中还包括平均池化层；

所述编码模块830，还用于通过所述平均池化层对所述音素后验概率进行池化处理，得到所述池化处理后的所述音素后验概率。

在一个可选的实施例中，所述解码器中包括级联的自回归长短时记忆神经网络和特征映射网络；

所述解码模块840，还用于将所述编码层特征输入所述自回归长短时记忆神经网络，得到解码层特征；将所述解码层特征输入所述特征映射网络，得到所述频谱特征。

在一个可选的实施例中，所述解码器中还包括残差连接层；

所述解码模块840，还用于将所述频谱特征输入所述残差连接层，得到辅助构建参数；通过所述辅助构建参数对所述频谱特征进行调整，得到调整后的所述频谱特征。

在一个可选的实施例中，如图9所示，所述装置，还包括：

去噪模块860，用于将所述源语音输入语音分离模型进行降噪处理，得到降噪处理后的所述源语音；

其中，所述语音分离模型用于将所述源语音中的说话人源和噪声源进行分离，从而实现所述降噪处理。

在一个可选的实施例中，所述提取模块820，还用于分段提取所述源语音的音素后验概率，得到所述源语音的n段子后验概率，n为正整数；

所述合成模块850，还用于针对所述n段子后验概率，通过所述编码器进行所述编码处理后，通过所述解码器进行所述解码处理，得到n个所述频谱特征；将所述n个频谱特征通过所述声码器进行语音合成处理，得到所述第二人声的所述目标语音。

综上所述，本实施例提供的语音转换装置，在提取得到源语音的音素后验概率后，通过编码器和解码器对PPGs进行处理，得到频谱特征后，通过频谱特征对目标语音进行合成，由编码器和解码器两层结构对PPGs进行处理，提高了对第二人声的语音情感以及语音韵律的把控，提高了目标语音与第二人声实际发出的声音之间的相似度。

需要说明的是：上述实施例提供的语音转换装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音转换装置与语音转换方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的语音转换方法。需要说明的是，该服务器可以是如下图10所提供的服务器。

请参考图10，其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：所述服务器1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1001执行，一个或多个程序包含用于实现上述语音转换方法的指令，中央处理单元1001执行该一个或多个程序实现上述各个方法实施例提供的语音转换方法。

根据本发明的各种实施例，所述服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的语音转换方法中由服务器所执行的步骤。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述语音转换方法。可选地，该计算机设备可以实现为如图2所示的终端210，也可以实现为如图2所示的服务器220。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述语音转换方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的语音转换方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述语音转换方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述编码器中包括级联的卷积神经网络和双向长短时记忆神经网络；

所述通过编码器对所述音素后验概率进行编码处理，得到编码层特征，包括：

将所述音素后验概率输入所述卷积神经网络进行特征映射，得到映射特征；

将所述映射特征输入所述双向长短时记忆神经网络，得到所述编码层特征。

3.根据权利要求2所述的方法，其特征在于，所述编码器中还包括平均池化层；

所述将所述音素后验概率输入所述卷积神经网络进行特征映射之前，还包括：

通过所述平均池化层对所述音素后验概率进行池化处理，得到所述池化处理后的所述音素后验概率。

4.根据权利要求1所述的方法，其特征在于，所述解码器中包括级联的自回归长短时记忆神经网络和特征映射网络；

通过解码器所述对所述编码层特征进行解码处理，得到所述编码层特征对应的频谱特征，包括：

将所述编码层特征输入所述自回归长短时记忆神经网络，得到解码层特征；

将所述解码层特征输入所述特征映射网络，得到所述频谱特征。

5.根据权利要求4所述的方法，其特征在于，所述解码器中还包括残差连接层；

所述将所述解码层特征输入所述映射层，得到所述频谱特征之后，还包括：

将所述频谱特征输入所述残差连接层，得到辅助构建参数；

通过所述辅助构建参数对所述频谱特征进行调整，得到调整后的所述频谱特征。

6.根据权利要求1至5任一所述的方法，其特征在于，所述提取所述源语音的音素后验概率之前，还包括：

将所述源语音输入语音分离模型进行降噪处理，得到降噪处理后的所述源语音；

7.根据权利要求1至5任一所述的方法，其特征在于，所述提取所述源语音的音素后验概率，包括：

分段提取所述源语音的音素后验概率，得到所述源语音的n段子后验概率，n为正整数；

所述方法还包括：

针对所述n段子后验概率，通过所述编码器进行所述编码处理后，通过所述解码器进行所述解码处理，得到n个所述频谱特征；

将所述n个频谱特征通过所述声码器进行语音合成处理，得到所述第二人声的所述目标语音。

8.一种语音转换装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的语音转换方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的语音转换方法。