CN107610717A

CN107610717A - 基于语音后验概率的多对一语音转换方法

Info

Publication number: CN107610717A
Application number: CN201710541962.1A
Authority: CN
Inventors: 孙立发; 李坤; 王昊; 康世胤; 蒙美玲
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2016-07-11
Filing date: 2017-07-05
Publication date: 2018-01-19
Anticipated expiration: 2037-07-05
Also published as: CN107610717B; US10176819B2; US20180012613A1

Abstract

一种使用语音后验概率(PPG)实现音色转换的方法。首先，从目标说话者的语音中，使用与说话者无关的自动语音识别(SI‑ASR)系统来提取PPG。提取到的PPG用作映射不同的说话者之间的关系。PPG包括与时间范围和语音类别范围相对应的值集合，该语音类别对应于音素状态。深度学习模型用于对PPG与目标语音声学特征之间的对应关系建模。完成模型训练之后，任何一个源语音可以作为输入，首先用SI‑ASR提取PPG，然后将PPG输入到训练得到的深度学习模型即可获得转换后的语音，转换后的语音的内容与源语音相同，音色与目标说话者几乎相同。

Description

基于语音后验概率的多对一语音转换方法

相关申请的交叉引用

本申请要求于2016年7月11日提交的题为“Phonetic Posteriorgrams for Many-To-One Voice Conversion”的美国临时专利申请No.62/360,571的优先权，其全部内容通过引用并入本文以用于所有目的。

背景技术

语音转换旨在修改一个说话者的语音，使其听起来好像是由另一特定说话者发出的。语音转换可以广泛应用于包括计算机辅助发音修剪系统的定制反馈、语音障碍主体的个性化说话辅助开发、利用各种人声的电影配音等在内的多个领域。

发明内容

提供了一种用于转换语音的计算机实现的方法。所述方法可以包括：获得目标语音和源语音。所述方法还可以包括：基于所述目标语音的声学特征生成语音后验概率(Phonetic PosteriorGram)(PPG)。在一些实施例中，所述PPG可以包括与时间范围和语音类别范围相对应的值集合。所述方法还可以包括：生成所述PPG与所述目标语音的声学特征之间的映射。在一些实施例中，所述方法可以包括：基于所述PPG和所述映射将所述源语音转换为所转换的语音。

在一些实施例中，所述语音类别范围可以对应于音素状态范围。在一些实施例中，针对所述时间范围中的每个时间，所述值集合可以对应于所述语音类别范围中的每个语音类别的后验概率。在一些实施例中，所述PPG可以包括矩阵。在一些实施例中，所述源语音可以不同于所述目标语音。在一些实施例中，生成PPG可以包括：使用说话者无关的自动语音识别(SI-ASR)系统来对不同的说话者进行映射。

在一些实施例中，生成所述PPG与所述目标语音的声学特征之间的映射可以包括：使用基于双向长短期记忆的递归神经网络(DBLSTM)结构对所述映射进行建模。在一些实施例中，所述映射可以在所述PPG与所述目标语音的对应声学特征之间。在一些实施例中，将所述源语音转换为所转换的语音可以包括：使用所训练的DBLSTM模型将所述PPG转换为一个或更多个梅尔倒谱系数(MCEP)。

附图说明

被包括以提供对本发明的进一步理解的附图被并入并构成本说明书的一部分，示出了本发明的实施例，并且与详细描述一起用于解释本发明的原理。没有尝试以比对于本发明的基本理解和可以实践本发明的各种方式所必需的细节更详细的方式显示本发明的结构细节。

图1示出了根据本公开一些实施例的DBLSTM架构的示图。

图2示出了根据本公开一些实施例的利用平行训练数据的基于DBLSTM的语音转换方法的示图。

图3示出了根据本公开一些实施例的利用非平行训练数据的基于PPG的语音转换方法的示图。

图4示出了根据本公开一些实施例的PPG的表示。

图5示出了根据本公开一些实施例的DBLSTM模型训练的示图。

图6A和图6B示出了根据本公开一些实施例的基于DBLSTM的语音转换方法和基于PPG的语音转换方法的实验结果。

图7A和图7B示出了根据本公开一些实施例的基于DBLSTM的语音转换方法和基于PPG的语音转换方法的实验结果。

图8示出了用于执行语音转换的方法的实施例。

图9示出了根据本公开一些实施例的简化计算机系统。

具体实施方式

典型的语音转换训练方法如下：首先，对具有相同说话内容的语音片段(例如，帧)进行对齐。其次，找到从源声学特征到目标声学特征的映射。在一些方法中，语音转换依赖于平行训练数据，其中语音记录由发出相同句子的源说话者和目标说话者成对地进行。在一种方法中，使用基于高斯混合模型(GMM)的连续概率变换方法。在另一种方法中，可以通过使用全局方差减轻过平滑效应，来提高基于GMM的方法的性能。另一种方法涉及基于非负矩阵分解的方法以使用语音样本直接合成所转换的语音。另一种方法使用深度神经网络(DNN)将源和目标映射到高阶空间。另一种方法采用基于DBLSTM的方法，以通过使用频谱特征及其上下文信息来对源语音和目标语音之间的关系进行建模。

虽然这些方法中的每种方法都提供了相当好的结果，但平行数据并不容易获得。因此，期望利用非平行数据的语音转换方法。这些方法中的一些方法着重于找到合适帧对齐，这并不简单。一种方法使用迭代对齐方法对来自非并行话语的语音等效声向量进行配对。另一种方法采用监督数据对齐方法，其中在对齐期间使用语音信息作为约束。另一种方法通过将其与迭代对齐算法相结合采用用于非平行数据的基于动态内核偏最小二乘回归的方法。另一种方法使用时间上下文信息来提高非平行数据的迭代对齐精度。一般来说，依赖于非平行数据的语音转换方法往往不如依赖于平行数据的方法。

本公开提出了一种使用非平行训练和易于得到的PPG的新颖方法，其表现优于平行数据方法。PPG是一个时间对类别的矩阵，其表示对于一个话语的每个特定时间帧，每个语音类别的后验概率。本公开的实施例通过采用用于映射说话者差异的说话者无关的自动语音识别(SI-ASR)系统来生成PPG。然后，使用DBLSTM结构对所获得的PPG和目标说话者的相应声学特征之间的映射进行建模以生成语音参数。最后，通过使用源说话者的PPG(从相同的SI-ASR获得)驱动所训练的DBLSTM模型来执行语音转换。重要的是，要注意，在本公开的一些实施例中，在语音转换中可以不使用来自SI-ASR的PPG后面的语言模型和任何文本信息。本公开中描述的方法的三个优点如下。第一，不需要平行训练数据。第二，不需要对齐过程(例如，DTW)，这避免了可能的对齐误差的影响。第三，只要目标说话者是固定的(如在多对一转换中)，所训练的模型可以应用于任何其它源说话者。在使用平行数据的许多语音转换方法中，所训练的模型仅适用于特定的源说话者(如在一对一转换中)。

图1示出了根据本公开一些实施例的包括存储块102和递归连接104的DBLSTM架构100的示图。如图1所示，DBLSTM可以是序列到序列映射模型。中间部分、左侧部分和右侧部分(分别标记为“t”、“t-1”和“t+1”)分别代表当前帧、前一帧和下一帧。图1中的每个正方形表示一个存储块102，其包含自连接存储单元和可以分别提供写入、读取和复位操作的三个门单元(即，输入、输出和忘记门)。此外，每个层的双向连接可以充分利用前向和后向方向上的上下文信息。包括存储块102和递归连接104的DBLSTM网络架构100使得可以在更长的时间段上存储信息并且学习最佳量的上下文信息。

图2示出了根据本公开一些实施例的利用平行训练数据的基于DBLSTM的语音转换方法200的示图。基于DBLSTM的方法200可以划分为训练阶段202和转换阶段204，如图2所示。在训练阶段202中，通过STRAIGHT分析提取频谱包络。提取梅尔倒谱系数(MCEP)以表示频谱包络，然后通过动态时间扭曲(DTW)对来自源语音和目标语音的相同句子的MCEP特征进行对齐。然后，将源语音和目标语音的配对MCEP特征视为训练数据。使用时间反向传播(BPTT)来训练DBLSTM模型。

在转换阶段204中，首先对于一个源语音提取基频(F0)、MCEP和非周期分量(AP)。接下来，如下生成所转换的语音的参数：通过所训练的DBLSTM模型映射MCEP。通过映射源语音和目标语音的均值和标准差来转换F0。直接复制AP。最后，使用STRAIGHT声码器来合成语音波形。尽管其性能良好，但基于DBLSTM的方法具有以下限制。首先，它依赖于收集成本高的平行训练数据。其次，DTW错误对语音转换输出质量的影响是不可避免的。

基于DBLSTM的语音转换方法200在2015年国际声学、语音和信号处理会议(ICASSP)上发表的“VOICE CONVERSION USING DEEP BIDIRECTIONAL LONG SHORT-TERMMEMORY BASED RECURRENT NEURAL NETWORKS”中进一步描述，其公开内容通过引用并入本文。

图3示出了根据本公开一些实施例的利用非平行训练数据的基于PPG的语音转换方法300的示图。在训练过程中只用到目标说话者的语音数据，不需要任何源说者的语音数据。基于PPG的方法300解决了基于DBLSTM的方法200的许多限制，并且部分地基于以下假设：从SI-ASR系统获得的PPG可跨越说话者(SI代表与说话者无关)。如图3所示，基于PPG的方法300划分为三个阶段：第一训练阶段302(标记为“训练阶段1”)、第二训练阶段304(标记为“训练阶段2”)和转换阶段306。SI-ASR模型的作用是获得输入语音的PPG表示。第二训练阶段304对用于语音参数生成的目标说话者的PPG特征和MCEP特征之间的关系进行建模，并执行DBLSTM模型训练308。转换阶段306利用源语音(从相同的SI-ASR获得)的PPG来驱动所训练的DBLSTM模型310以进行语音转换。

图4示出了根据本公开一些实施例的PPG 400的表示。PPG是一个时间对类别的矩阵，其表示对于一个话语的每个特定时间帧，每个语音类别的后验概率。语音类别可以指词、音素或音素状态(senone)。图4示出了说出的短语“particular case(具体情况)”的PPG表示的示例，其中，音素状态被视为语音类别。横轴表示以秒为单位的时间，纵轴包含语音类别的索引。音素状态的数量为131，较暗的阴影意味着较高的后验概率。在不同语音话语的语言内容/发音相同的地方，从SI-ASR获得的PPG相同。在一些实施例中，从SI-ASR获得的PPG可以表示语音数据在说话者归一化空间中的可听清晰度(articulation)，并且独立于说话者与语音内容相对应。因此，这些PPG被视为源说话者和目标说话者之间的桥梁。

在第一训练阶段302中，使用多说话者ASR语料库来训练用于生成PPG的SI-ASR系统。通过一句话的示例示出等式。输入是第t个帧的MFCC特征向量，表示为X_t。输出是后验概率的向量P_t＝(p(s|X_t)|s＝1，2，...，C)，其中，p(s|X_t)是每个语音类别s的后验概率。

图5示出了根据本公开一些实施例的DBLSTM模型训练308的示图。对于第二训练阶段304，训练数据是目标语音，并且不需要任何语言模型或语音信息。如图5所示，第二训练阶段304训练DBLSTM模型(语音参数生成模型)以获得PPG和MCEP序列之间的映射关系。对于来自目标说话者的给定话语，t表示该序列的帧索引。输入是由所训练的SI-ASR模型计算的PPG(P₁，…，P_t，…，P_N)。在一些实施例中，输出层的理想值可以是从目标语音提取的MCEP序列输出层的实际值可以是在一些实施例中，第二训练阶段304的成本函数是：

通过前面提到的BPTT技术对该模型进行训练，以最小化成本函数。注意，仅使用目标说话者的MCEP特征和与说话者无关的PPG对DBLSTM模型进行训练，而不使用任何其他语言模型或者文本信息。

在图3的转换阶段306中，F0转换通过线性模型来实现，即通过映射源语音和目标语音的均值和标准差来转换。由于AP不带有说话者信息，因此可以直接复制即可。为了获得转换的MCEP，首先，提取源语音的MFCC特征。其次，从所训练的SI-ASR模型获得PPG，在所训练的SI-ASR模型中，输入是MFCC特征。第三，由所训练的DBLSTM模型将PPG转换为MCEP。最后，转换的MCEP与转换的F0和AP一起被合成器用于合成输出语音。

图6A、图6B、图7A和图7B示出了根据本公开一些实施例的比较基于DBLSTM的语音转换方法200和基于PPG的语音转换方法300的实验结果(在图6A、图6B、图7A和图7B中，基于DBLSTM的方法200被标记为“基线”，基于PPG的方法300被标记为“PPG”)。

进行性别内转换实验(男性至男性：BDL至RMS)和跨性别转换实验(男性至女性：BDL至SLT)。基于DBLSTM的方法使用源说话者和目标说话者的平行语音，而基于PPG的方法仅使用目标说话者的语音进行模型训练。基于PPG的方法使用PPG来增强DBLSTM。所使用的训练数据为593个句子(约42分钟)。使用单通道在16kHZ处对信号采样，以25ms对信号进行加窗，并且每隔5ms将信号平移一次。通过STRAIGHT分析来提取声学特征，包括频谱包络、F0(1个维度)和AP(513个维度)。提取第39阶MCEP和一维的对数能量来表示频谱包络。

在基于PPG的方法中，使用具有TIMIT语料库的Kaldi语音识别工具包实现SI-ASR系统。该系统具有DNN架构，该DNN架构具有4个隐藏层，每个隐藏层包含1024个单元。音素状态被视为PPG的语音类别。音素状态的数量是131，其是通过第一训练阶段中的聚类而获得的。SI-ASR模型训练的硬件配置是8核、2.6GHZ的双英特尔Xeon E5-2640。训练时间约为11小时。

接下来，采用DBLSTM模型来映射PPG序列和MCEP序列的关系，以用于语音参数生成。该实现基于机器学习库CURRENNT。每层中单元的数量分别为[1316464646439]，其中每个隐藏层包含一个前向LSTM层和一个后向LSTM层。BPTT用于以1.0×10^-6的学习率和0.9的动量来训练该模型。NVIDIA Tesla K40GPU加速了DBLSTM模型的训练过程，对于100个句子的训练集，DBLSTM模型的训练过程大约花了4个小时。基线基于DBLSTM的方法具有相同的模型配置，除了其输入仅具有39个维度(而不是131)。对于100个句子的训练集，它大约花了3个小时。

梅尔倒谱失真(MCD)用于测量所转换的语音与目标语音的接近程度。MCD是所转换的语音和目标语音的MCEP之间的欧几里德距离，表示为

其中N是MCEP的维度(不包括能量特征)。c_d和分别是目标MCEP和所转换的MCEP的第d个系数。为了探索训练数据大小的影响，使用不同数量的训练数据(5、20、60、100和200个句子)训练所有系统。对于基于DBLSTM的方法，训练数据由来自源说话者和目标说话者的并行句子对组成。对于基于PPG的方法，训练数据仅由来自目标说话者的句子组成。测试数据集具有来自源说话者的80个句子。

图6A示出了针对男性到男性转换实验的基于DBLSTM的语音转换方法(标记为“基线”)和基于PPG的语音转换方法的平均MCD。图6B示出了针对男性到女性转换实验的基于DBLSTM的语音转换方法和基于PPG的语音转换方法的平均MCD。如图所示，当训练大小为5、20和60个句子时，随着数据大小的增加，MCD值变小。当训练大小大于60个句子时，MCD值趋于收敛。结果表明，基于DBLSTM的方法和基于PPG的方法在客观评价方面具有相似的性能。

还进行了比较基于DBLSTM的方法和基于PPG的方法的主观评估。进行了平均意见得分(MOS)测试和ABX偏好测试，作为用于测量所转换的语音的自然度和说话者相似度的主观评估。使用100个句子训练每个系统，并随机选择10个句子(不在训练集中)进行测试。二十一名参与者被要求进行MOS测试和ABX测试。在MOS测试中，听众被要求以5分量表(5：优秀，4：良好，3：一般，2：差，1：不好)对所转换的语音的自然度和清晰度进行评价。MOS测试的结果如图7A所示。基于DBLSTM的方法和基于PPG的方法的平均得分分别为3.20和3.87。以95％置信区间示出了MOS测试结果。

对于ABX偏好测试，听众被要求选择(由这两种方法生成的)所转换的话语A和B中的哪个听起来更像目标说话者的录音X，或者他们是否没有偏好。对每对A和B进行置乱以避免优先偏倚。如图7B所示，基于PPG的方法通常优于基线方法。这两个实验的p值分别为2.94×10^-16和4.94×10^-3。

MOS测试和ABX测试的结果表明，基于PPG的方法在语音质量和说话者相似度方面表现优于基于DBLSTM的方法。可能的原因包括：1)基于PPG的方法不需要对齐(例如，DTW)，这避免了由可能的对齐错误引起的影响；2)仅使用说话者归一化的PPG和目标说话者的声学特征对基于PPG的方法的DBLSTM模型进行训练。这使得来自源说话者的信号的干扰最小化。

图8示出了用于执行语音转换的方法800的实施例。在操作802，获得目标语音。在操作804，获得源语音。在操作806，基于目标语音的声学特征生成PPG。在操作808，生成PPG与目标语音的一个或更多个片段之间的映射。在操作810，基于PPG和该映射将源语音转换为所转换的语音。

图9示出了根据本公开一些实施例的简化计算机系统。图9所示的计算机系统900可以并入诸如便携式电子设备、移动电话或本文所述的其他设备之类的设备中。图9提供了可以执行由各种实施例提供的方法的一些或全部步骤的计算机系统900的一个实施例的示意图。应当注意，图9仅用于提供各种组件的一般化图示，其中任何或全部组件可以适当地使用。因此，图9广义地说明了如何以相对分开或相对更集成的方式实现各个系统元件。

计算机系统900被示出为包括可以经由总线905电耦接或者可以以其他方式适当地通信的硬件元件。硬件元件可以包括：一个或更多个处理器910，包括但不限于一个或更多个通用处理器和/或一个或更多个专用处理器，例如数字信号处理芯片、图形加速处理器等；一个或更多个输入设备915，其可以包括但不限于鼠标、键盘、相机等；以及一个或更多个输出设备920，其可以包括但不限于显示设备、打印机等。

计算机系统900还可以包括一个或更多个非暂时性存储设备925和/或与一个或更多个非暂时性存储设备925通信，非暂时性存储设备925可以包括但不限于本地和/或网络可访问的存储器，和/或可以包括但不限于磁盘驱动器、驱动器阵列、光学存储设备、诸如可编程、可闪存更新等的随机存取存储器(“RAM”)和/或只读存储器(“ROM”)的固态存储设备。这样的存储设备可以被配置为实现任何适当的数据存储，包括但不限于各种文件系统、数据库结构等。

计算机系统900还可以包括通信子系统930，其可以包括但不限于调制解调器、网卡(无线或有线)、红外通信设备、无线通信设备和/或诸如蓝牙^TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设施等的芯片组等。通信子系统930可以包括一个或更多个输入和/或输出通信接口，以允许与诸如下述网络的网络交换数据，举一个示例，其他计算机系统、电视机和/或本文所述的任何其他设备。根据期望的功能和/或其他实施问题，便携式电子设备或类似设备可以经由通信子系统930传送图像和/或其他信息。在其他实施例中，便携式电子设备(例如，第一电子设备)可以并入计算机系统900中，例如作为输入设备915的电子设备。在一些实施例中，计算机系统900还将包括工作存储器935，其可以包括如上所述的RAM或ROM设备。

计算机系统900还可以包括被示出为当前位于工作存储器935内的软件元件，包括操作系统940、设备驱动器、可执行库和/或其他代码，诸如一个或更多个应用程序945，其可以包括由各种实施例提供的计算机程序和/或可以被设计为实现如本文所述的其他实施例提供的方法和/或配置系统。仅作为示例，关于上述方法描述的一个或更多个过程(例如，关于图9描述的那些过程)可以被实现为可由计算机和/或计算机内的处理器执行的代码和/或指令；然后，在一个方面，这样的代码和/或指令可以用于根据所描述的方法来配置和/或适配通用计算机或其他设备以执行一个或更多个操作。

这些指令和/或代码的集合可以存储在诸如上述存储设备925的非暂时性计算机可读存储介质上。在一些情况下，存储介质可以并入计算机系统内，例如计算机系统900。在其他实施例中，存储介质可以与计算机系统分离，例如可移动介质(诸如致密盘)，和/或设置在安装包中，使得存储介质可以用于使用存储在其上的指令/代码对通用计算机进行编程、配置和/适配。这些指令可以采用可由计算机系统900执行的可执行代码的形式，和/或可以采用源代码和/或可安装代码的形式，其在例如使用各种通用编译器、安装程序、压缩/解压缩实用程序等中的任何一个在计算机系统900上进行编译和/或安装时，则采用可执行代码的形式。

本领域技术人员将清楚的是，可以根据具体要求进行实质性的修改。例如，还可以使用定制硬件，和/或特定元件可以实现在硬件、包括便携式软件(诸如小应用程序等)的软件或者两者中。此外，可以采用与其他计算设备(例如，网络输入/输出设备)的连接。

如上所述，在一个方面，一些实施例可以采用诸如计算机系统900的计算机系统来执行根据该技术的各种实施例的方法。根据一组实施例，这些方法的一些或全部过程由计算机系统900响应于处理器910执行一个或更多个指令的一个或更多个序列来执行，这些指令可以并入操作系统940和/或工作存储器935中所包含的其他代码中，诸如应用程序945。这样的指令可以从另一计算机可读介质(诸如一个或更多个存储设备925)读入工作存储器935中。仅作为示例，包含在工作存储器935中的指令序列的执行可导致处理器910执行本文描述的方法的一个或更多个过程。附加地或替代地，本文描述的方法的部分可以通过专门的硬件来执行。

本文所使用的术语“机器可读介质”和“计算机可读介质”是指参与提供使机器以特定方式操作的数据的任何介质。在使用计算机系统900实现的实施例中，各种计算机可读介质可涉及向处理器910提供指令/代码以供执行和/或可用于存储和/或承载这样的指令/代码。在许多实现中，计算机可读介质是物理和/或有形的存储介质。这样的介质可以采用非易失性介质或易失性介质的形式。非易失性介质包括例如光盘或磁盘，诸如存储设备925。易失性介质包括但不限于动态存储器，诸如工作存储器935。

物理和/或有形计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带或任何其他磁介质、CD-ROM、任何其他光学介质、穿孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或盒、或计算机可从其读取指令和/或代码的任何其它介质。

各种形式的计算机可读介质可涉及将一个或更多个指令的一个或更多个序列承载到处理器910以供执行。仅作为示例，指令可以最初承载在远程计算机的磁盘和/或光盘上。远程计算机可以将指令加载到其动态存储器中，并且通过传输介质将指令作为信号发送以由计算机系统900接收和/或执行。

通信子系统930和/或其组件通常将接收信号，并且总线905随后可以将信号和/或由信号承载的数据、指令等承载到工作存储器935，处理器910从工作存储器935检索并执行指令。在处理器910执行由工作存储器935接收的指令之前或之后，可以将该指令可选地存储在非暂时性存储设备925上。

上面讨论的方法、系统和设备是示例。各种配置可以视情况省略、替代或添加各种过程或组件。例如，在备选配置中，可以以与所描述的顺序不同的顺序执行方法，和/或可以添加、省略和/或组合各个阶段。此外，关于某些配置描述的特征可以组合在各种其他配置中。配置的不同方面和元件可以以类似的方式组合。此外，技术在发展，因此许多元件是示例而不限制本公开或权利要求的范围。

在描述中给出具体细节以提供对包括实施方式的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置。例如，在没有不必要细节的情况下示出了众所周知的电路、过程、算法、结构和技术，以避免模糊配置。该描述仅提供了示例配置，并不限制权利要求的范围、适用性或配置。更确切地，对配置的前述描述将向本领域技术人员提供实现所描述的技术的启用性描述。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置进行各种改变。

此外，可以将配置描述为被示为示意性流程图或框图的过程。虽然每个配置可以将操作描述为顺序过程，但这些操作中的多个操作可以并行或并发地执行。此外，操作的顺序可以被重新排列。过程可具有附图中未包括的附加步骤。此外，方法的示例可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或其任何组合来实现。当用软件、固件、中间件或微代码实现时，用于执行必要任务的程序代码或代码段可以存储在诸如存储介质的非暂时性计算机可读介质中。处理器可以执行所描述的任务。

已经描述了几个示例配置，在不脱离本公开的精神的情况下，可以使用各种修改、备选构造和等同物。例如，上述元件可以是较大系统的组件，其中其他规则可以优先于或以其他方式修改该技术的应用。此外，在考虑上述元件之前、期间或之后，可以进行若干步骤。因此，上述描述并不限制权利要求的范围。

如在此和所附权利要求书中所使用的，除非上下文另有明确说明，否则单数形式“一”、“一个”和“所述”包括复数指示物。因此，例如，对“用户”的引用包括多个这样的用户，并且对“处理器”的引用包括对本领域技术人员已知的一个或更多个处理器及其等同物的引用等等。

此外，当在本说明书和所附权利要求中使用时，词语“包括”、“包含”、“具有”等旨在指定存在所述特征、整数、组件或步骤，但它们并不排除存在或添加一个或更多个其他特征、整数、组件、步骤、动作或组。

Claims

1.一种计算机实现的方法，包括：

获得目标语音；

获得源语音；

基于所述目标语音的声学特征生成语音后验概率PPG，所述PPG包括与时间范围和语音类别范围相对应的值集合；

生成所述PPG与所述目标语音的声学特征之间的映射；以及

基于所述PPG和所述映射将所述源语音转换为所转换的语音。

2.根据权利要求1所述的计算机实现的方法，其中，所述语音类别范围对应于音素状态范围。

3.根据权利要求1所述的计算机实现的方法，其中，针对所述时间范围中的每个时间，所述值集合对应于所述语音类别范围中的每个语音类别的后验概率，并且其中，所述PPG包括矩阵。

4.根据权利要求1所述的计算机实现的方法，其中，所述源语音不同于所述目标语音。

5.根据权利要求1所述的计算机实现的方法，其中，生成所述PPG包括：使用说话者无关的自动语音识别SI-ASR系统来对不同的说话者进行映射。

6.根据权利要求5所述的计算机实现的方法，其中，使用多说话者ASR语料库对所述SI-ASR系统进行训练以生成PPG，输入是第t个帧的MFCC特征向量，表示为X_t，并且输出是由P_t＝(p(s|X_t)|s＝1，2，...，C)定义的后验概率的向量，其中，p(s|X_t)是每个语音类别s的后验概率。

7.根据权利要求5所述的计算机实现的方法，其中，生成所述PPG与所述目标语音的声学特征之间的映射包括：使用深度学习模型(以基于双向长短期记忆的递归神经网络DBLSTM结构为例)对所述映射进行建模，并且其中，所述映射在所述PPG与所述目标语音的对应声学特征之间。

8.根据权利要求7所述的计算机实现的方法，其中，将所述源语音转换为所述的转换语音包括：使用所训练的DBLSTM模型将所述PPG转换为一个或更多个梅尔倒谱系数MCEP。

9.一种包括指令的非暂时性计算机可读介质，所述指令在由处理器执行时，使所述处理器执行包括以下各项的操作：

获得目标语音；

获得源语音；

生成所述PPG与所述目标语音的声学特征之间的映射；以及

基于所述PPG和所述映射将所述源语音转换为所转换的语音。

10.根据权利要求9所述的非暂时性计算机可读介质，其中，所述语音类别范围对应于音素状态范围。

11.根据权利要求9所述的非暂时性计算机可读介质，其中，针对所述时间范围中的每个时间，所述值集合对应于所述语音类别范围中的每个语音类别的后验概率，并且其中，所述PPG包括矩阵。

12.根据权利要求9所述的非暂时性计算机可读介质，其中，所述源语音不同于所述目标语音。

13.根据权利要求9所述的非暂时性计算机可读介质，其中，生成所述PPG包括：使用说话者无关的自动语音识别SI-ASR系统来对不同的说话者进行映射。

14.根据权利要求13所述的非暂时性计算机可读介质，其中，生成所述PPG与所述目标语音的声学特征之间的映射包括：使用基于双向长短期记忆的递归神经网络DBLSTM结构对所述映射进行建模，并且其中，所述映射在所述PPG与所述目标语音的对应声学特征之间。

15.根据权利要求14所述的非暂时性计算机可读介质，其中，将所述源语音转换为所转换的语音包括：使用所训练的DBLSTM模型将所述PPG转换为一个或更多个梅尔倒谱系数MCEP。

16.一种系统，包括：

处理器；

与所述处理器进行数据通信的计算机可读介质，所述计算机可读介质包括指令，所述指令在由所述处理器执行时，使所述处理器执行包括以下各项的操作：

获得目标语音；

获得源语音；

生成所述PPG与所述目标语音的声学特征之间的映射；以及

基于所述PPG和所述映射将所述源语音转换为所转换的语音。

17.根据权利要求16所述的系统，其中，所述语音类别范围对应于音素状态范围。

18.根据权利要求16所述的系统，其中，针对所述时间范围中的每个时间，所述值集合对应于所述语音类别范围中的每个语音类别的后验概率，并且其中，所述PPG包括矩阵。

19.根据权利要求16所述的系统，其中，生成所述PPG包括：使用说话者无关的自动语音识别SI-ASR系统来对不同的说话者进行映射。

20.根据权利要求19所述的系统，其中，生成所述PPG与所述目标语音的声学特征之间的映射包括：使用基于双向长短期记忆的递归神经网络DBLSTM结构对所述映射进行建模，并且其中，所述映射在所述PPG与所述目标语音的对应声学特征之间。