CN107240401A

CN107240401A - 一种音色转换方法及计算设备

Info

Publication number: CN107240401A
Application number: CN201710443089.2A
Authority: CN
Inventors: 张康; 方博伟; 卓鹏鹏; 尤嘉华; 张伟
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2017-06-13
Filing date: 2017-06-13
Publication date: 2017-10-10
Anticipated expiration: 2037-06-13
Also published as: CN107240401B

Abstract

本发明公开了一种音色转换方法，该方法适于根据待处理语音的音素从预置的源‑目标音素特征单元对中搜索匹配的语音进行转换，包括步骤：提取待处理语音中每一帧语音的特征；计算待处理语音中每一帧语音所属音素，将同一音素内的连续帧作为一个音素集；按顺序将一个音素集分成一个或多个第一帧长的音素单元，其中相邻音素单元之间相互重叠第二帧长；根据每帧语音的特征拼接得到对应音素单元的特征；对于每个音素单元，根据其音素和特征从源‑目标音素特征单元对中选取出代价最小的目标音素特征单元，作为最优音素特征单元；对多个音素单元对应的多个最优音素特征单元进行时域拼接处理，得到音色转换后的语音。本发明一并公开了相应的计算设备。

Description

一种音色转换方法及计算设备

技术领域

本发明涉及音频处理技术领域，尤其是一种音色转换方法及计算设备。

背景技术

在现有电影或电视剧的配音中，演员需要根据电影或电视剧的剧本台词进行语音录入，这种情形下，若是电影或电视剧稍有改动就需要演员再重新录制配音，而演员一般排期紧、价位高，这对制片方或者演员来说都是非常不划算的。

现有的语音合成技术，大部分都只能合成某个固定人的声音；另有一些语音合成技术可以合成需要的说话人声音，但是计算量非常大，运行时间长，无法用于实际。

而在实际生活中，人们常常会对一些诸如男女音色转换的应用表现出很大的兴趣。因此，需要一种能够将用户的语音转换成具有另一种音色的语音的方法。

现有的音色转换方法，主要分为基于高斯混合模型的音色转换方法和基于音素拼接的音色转换方法。前者主要的缺点是存在过拟合或欠拟合的毛病，表现为音质单薄、音色与目标音色有较大差距；而后者虽然可以使转换后的语音更加符合目标音色，但拼接上存在衔接不流畅的情况。

故而，需要一种音色转换方法，能够使得转换后的语音逼近目标说话人自己说的话。

发明内容

为此，本发明提供了一种音色转换方法及计算设备，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种音色转换方法，该方法适于根据待处理语音的音素从预置的源-目标音素特征单元对中搜索到匹配的语音进行转换，该方法包括步骤：提取待处理语音中每一帧语音的特征；计算待处理语音中每一帧语音所属的音素，将同一音素内的连续帧作为一个音素集；按照顺序将一个音素集分成一个或多个第一帧长的音素单元，其中相邻音素单元之间相互重叠第二帧长；根据每帧语音的特征拼接得到对应音素单元的特征；对于每个音素单元，根据其音素和特征从源-目标音素特征单元对中选取出代价最小的目标音素特征单元，作为最优音素特征单元；以及对多个音素单元对应的多个最优音素特征单元进行时域拼接处理，得到音色转换后的语音。

可选地，在根据本发明的音色转换方法中，还包括建立源语音库和目标语音库的步骤，其中，所述源语音库和目标语音库是平行语料库；在建立源语音库和目标语音库的步骤之后，还包括步骤：根据源语音库和目标语音库中对应语句的特征生成源-目标音素特征单元对，其中，一个源-目标音素特征单元对中包含一个源音素特征单元和与其对应的一个目标音素特征单元。

可选地，在根据本发明的音色转换方法中，根据源语音库和目标语音库中的对应语句的特征生成源-目标音素特征单元对的步骤包括：对源语音库和目标语音库中的对应语句分别进行分帧处理，得到每个语句的源语音序列和目标语音序列；分别提取源语音序列和目标语音序列中每帧语音的特征；根据所提取的特征对源语音序列和目标语音序列进行动态时间规整处理，得到一一对应的源-目标特征帧对；计算目标语音序列中每一帧语音所属的音素；将同一音素内连续帧的目标特征帧所属的源-目标特征帧对作为一个源-目标音素集；以及按照顺序将一个源-目标音素集分成一个或多个第一帧长的源-目标音素特征单元对，其中相邻源-目标音素特征单元对之间相互重叠第二帧长。

可选地，在根据本发明的音色转换方法中，分别提取源语音序列和目标语音序列中每帧语音的特征的步骤包括：分别提取源语音序列和目标语音序列中每帧语音的梅尔倒谱系数；提取待处理语音的特征的步骤包括：提取待处理语音的梅尔倒谱系数。

可选地，在根据本发明的音色转换方法中，根据音素单元的音素和特征从源-目标音素特征单元对中选取出代价最小的目标音素特征单元的步骤包括：对于每个音素单元，选取与其具有相同音素的目标音素特征单元所属的源-目标音素特征单元对，作为候选音素单元特征对；从候选音素单元特征对中选出与该音素单元相似的第一数目个源-目标音素特征单元对；以及从第一数目个源-目标音素特征单元对中选取代价最小的目标音素特征单元。

可选地，在根据本发明的音色转换方法中，从候选音素单元特征对中选出与该音素单元相似的第一数目个源-目标音素特征单元对的步骤包括：计算候选音素单元特征对中源音素特征单元的特征与该音素单元的特征的距离值；以及按照距离值从小到大的顺序选取第一数目个源音素特征单元所属的源-目标音素特征单元对。

可选地，在根据本发明的音色转换方法中，从第一数目个源-目标音素特征单元对中选取代价最小的目标音素特征单元的步骤包括：对于第一数目个源-目标音素特征单元对中的每个目标音素特征单元，计算该目标音素特征单元的特征与该音素单元的特征的距离值，作为第一代价；计算该目标音素特征单元的特征与相邻的下一个目标音素特征单元的特征的距离值，作为第二代价；以及根据维特比搜索算法从第一代价与第二代价之和中选取中代价最小的目标音素特征单元。

可选地，在根据本发明的音色转换方法中，对多个音素单元对应的多个最优音素特征单元进行时域拼接处理的步骤包括：根据每个最优音素单元的特征值生成对应的时域音素单元；对每个时域音素单元进行平滑处理；以及按照顺序将多个时域音素单元拼接，其中相邻时域音素单元之间相互重叠第三帧长。

可选地，在根据本发明的音色转换方法中，对每个时域音素单元进行平滑处理的步骤包括：采用三角窗函数对每个时域音素单元进行平滑处理。

可选地，在根据本发明的音色转换方法中，第三帧长由第一帧长和第二帧长得出。

根据本发明的又一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的又一方面，提供了一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得计算设备执行如上所述的方法中的任一方法。

根据本发明的音色转换方案，可以直接利用目标说话人的原始材料，最大程度的保留了目标说话人的音色信息，使得音色转换后的语音逼近目标说话人自己说的话。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的构造示意图；

图2示出了根据本发明一个实施例的音色转换方法200的流程图；

图3示出了根据本发明实施例的音素集、音素单元和帧之间的关系图；

图4示出了根据本发明实施例的生成源-目标音素特征单元对的流程图；以及

图5示出了根据本发明实施例的获取最优候选单元的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行音色转换方法200，该方法200能够根据待处理语音的音素从预置的源-目标音素特征单元对中搜索到匹配的语音进行转换，程序数据124中包含了用于执行该方法200的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。在本方案中，可以通过诸如语音输入设备实时获取待处理的语音数据，也可以通过通信设备146获取待处理的语音数据。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令，如根据本发明的实施例，计算设备100通过所述指令来执行音色转换方法200。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

图2示出了根据本发明一个实施例的音色转换方法200的流程图。方法200适于根据待处理语音的音素从预置的源-目标音素特征单元对中搜索到匹配的语音进行转换。如图2所示，该方法始于步骤S210，提取待处理语音中每一帧语音的特征。

具体地，步骤S210包括：对待处理的语音数据S，以frame_len为帧长，先对其进行分帧处理，得到待处理语音帧序列S＝{s₁,s₂,s₃,…,s_p}。一般地，frame_len取10ms的语音样本点数。

可选地，对待处理语音进行静音段检测，例如，取待处理语音中前面多帧(无声段)语音的平均能量作为静音段的参考能量，若后面帧的能量不大于该参考能量，就认为是静音帧。以下对待处理语音帧序列的处理都是基于有声段的语音，即去除了静音帧。关于静音检测和能量计算都是本领域常规做法，此处不再解释。任何静音检测手段都可以与本方案的实施例相结合，以达到音色转换的目的。

对待处理语音帧序列中每一帧语音，提取其梅尔倒谱系数，即MFCC特征。由于MFCC是语音识别领域中的一种常见特征，并且在许多语音识别系统中广泛使用，是本领域技术人员所公知的，因此将不再对其细节进行描述。

随后在步骤S220中，计算待处理语音中每一帧语音所属的音素，将同一音素内的连续帧作为一个音素集。

音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作即形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。一般认为，相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。

这样的话，语音中的每一个字都可以划为一个或多个音素，如国际英语音标中的音素有48个，如/p/，/t/，/k/，/f/，/t∫/，/s/等。计算待处理语音帧序列S中每一帧对应的音素，将同一个音素内的连续帧作为一个音素集，这样，待处理语音帧序列就可以划分为多个音素集。

随后在步骤S230中，按照顺序将一个音素集分成一个或多个第一帧长的音素单元，其中相邻音素单元之间相互重叠第二帧长。换句话说，以第一帧长的滑动窗口对一个音素集进行划分，每次滑动步长为第二帧长，如图3，示出了音素集、音素单元和帧之间的关系。可选地，第一帧长，即音素单元的长度取unit_len＝2*t+1，其中，1≤t≤10，第二帧长取1。

随后在步骤S240中，根据每帧语音的特征拼接得到对应音素单元的特征。根据本发明的实施例，每个音素单元的MFCC特征由每帧语音的MFCC连接得到。

随后在步骤S250中，对于每个音素单元，根据其音素和特征从预置的源-目标音素特征单元对中选取出代价最小的目标音素特征单元，作为最优音素特征单元。

下面首先阐述根据本发明的实施例，预先设置源-目标音素特征单元对的过程。根据一种实施方式，可以将预置的多个源-目标音素特征单元对称为一个语音音素特征数据集。

第一，要建立源语音库和目标语音库，其中，源语音库和目标语音库是平行语料库，即源语音库和目标语音库具有相同的语句数，并且对应语句的内容相同。

第二，根据源语音库和目标语音库中对应语句的特征生成源-目标音素特征单元对，其中，一个源-目标音素特征单元对中包含一个源音素特征单元和与其对应的一个目标音素特征单元。具体地，结合图4，示出了根据源语音库和目标语音库中的对应语句的特征生成源-目标音素特征单元对的方法400的执行步骤。

在步骤S410中，对源语音库和目标语音库中的对应语句分别进行分帧处理，得到每个语句的源语音序列，记为X＝{x₁,x₂,x₃,…,x_N}，和目标语音序列，记为Y＝{y₁,y₂,y₃,…,y_M}。对语句进行分帧处理的过程可参考步骤S210，此处不作展开。需要说明的是，由于不同人发音习惯不同，所以说话时长也会存在差异，故而，源语音帧序列中帧数N和目标语音帧序列中帧数M是不相等的。

随后在步骤S420中，分别提取源语音序列X和目标语音序列Y中每帧语音的特征。为了达到源语音语句和目标语音语句在说话时间上的一致性，提取源语音语句和目标语音语句每帧的语音特征梅尔倒谱系数MFCC，来作为达到一致性的特征。

随后在步骤S430中，根据所提取的特征对源语音序列X和目标语音序列Y进行动态时间规整处理，得到一一对应的源-目标特征帧对。动态时间规整算法(DTW)基于动态规划的思想，通过把时间序列进行延伸和缩短来计算两个时间序列中间的相似性，从而解决发音长短不一的模板匹配问题。也就是说，DTW算法的核心是找到使X和Y两个序列距离最短的最优配对方案。作为语音识别中较为经典的算法，此处不再展开进行讨论。经DTW算法后，针对每个语句的X序列和Y序列，得到源-目标帧一一对应的特征对，A＝{(x_n1,y_m1),(x_n2,y_m2),…,(x_nw,y_mw),…}，其中，nw∈[1,2,…,N]，mw∈[1,2,…,M]。其中，(x_n1,y_m1)称为一一对应的源-目标特征帧对。

随后在步骤S440中，计算目标语音序列Y中每一帧语音所属的音素。对音素的划分可参考步骤S220。

随后在步骤S450中，经上一步得到同一音素内的连续帧，根据步骤S430推算算出这些连续帧的目标特征帧所属的源-目标特征帧对，作为一个源-目标音素集。例如，若判断相邻的y_m1和y_m2属于同一音素，那么可以得到与之对应的源-目标特征帧对(x_n1,y_m1),(x_n2,y_m2)构成一个源-目标音素集。

随后在步骤S460中，按照顺序将一个源-目标音素集分成一个或多个第一帧长的源-目标音素特征单元对，其中相邻源-目标音素特征单元对之间相互重叠第二帧长。根据本发明的实施例，对源-目标音素集的处理同步骤S220中对音素集的处理，以第一帧长的滑动窗口对一个音素集进行划分，每次滑动步长为第二帧长，可选地，第一帧长取unit_len＝2*t+1，其中，1≤t≤10，第二帧长取1。

至此，得到了多个源-目标音素特征单元对。根据本发明的实施例，若{(x_n2,y_m2),(x_n3,y_m3),…,(x_n6,y_m6)}构成一个源-目标音素特征单元对，那么，其中的{x_n2,x_n3,…,x_n6}就是一个源音素特征单元，{y_m2,y_m3,…,y_m6}就是一个目标音素特征单元。

然后，根据前面计算出的待处理语音中音素单元的音素和特征从源-目标音素特征单元对中选取出代价最小的目标音素特征单元的。具体流程可以分为以下1)2)3)三步：

1)对于每个音素单元，选取与其具有相同音素的目标音素特征单元所属的源-目标音素特征单元对，作为候选音素单元特征对。换言之，通过目标序列的音素选取出与待处理语音序列中每个音素单元具有相同音素的源-目标音素特征单元对，作为候选。

2)从候选音素单元特征对中选出与该音素单元相似的第一数目个源-目标音素特征单元对。根据本发明的实施例，相似性的判断采用如下方式：计算候选音素单元特征对中源音素特征单元的特征与该音素单元的特征的距离值；按照距离值从小到大的顺序选取第一数目个源音素特征单元所属的源-目标音素特征单元对。可选地，距离值可以采用欧氏距离进行标定。本发明对此不做限制。

3)从第一数目个源-目标音素特征单元对中选取代价最小的目标音素特征单元。根据本发明的实施例，选取最优候选单元的过程如下：

对于第一数目个源-目标音素特征单元对中的每个目标音素特征单元，

先计算该目标音素特征单元的特征(如，MFCC特征)与该音素单元的特征的距离值，作为第一代价，称为转移代价；

再计算该目标音素特征单元的特征与相邻的下一个目标音素特征单元的特征的距离值，作为第二代价，称为拼接代价；

根据上述第一代价和第二代价，得到总代价，总代价最小的一组特征就是最优候选值，通过维特比搜索算法确定最小代价对应的目标音素单元，就是最优候选单元。

结合图5和如下公式，可进一步理解上述过程。

转移代价：

拼接代价：

总代价：

其中，K代表第一数目，L表征总的音素单元个数，表示第l个音素单元的特征，表示与第l个音素单元对应的第k个目标音素特征单元的特征，表示与相邻的下一个目标音素特征单元的特征。

最后，根据维特比搜索算法确定最小代价对应的目标音素单元：

需要说明的是，在图5中，以加粗箭头的方式示出了最终确定的每个音素单元下的最优音素特征单元：候选单元11→候选单元22→候选单元34……。

随后在步骤S260中，对多个音素单元对应的多个最优音素特征单元进行时域拼接处理，得到音色转换后的语音。也就是说，根据每个最优音素单元的特征值生成对应的时域音素单元，对时域音素单元进行拼接输出转换后的语音。

根据本发明的实施例，时域音素单元不能直接拼接，要先进行平滑处理。具体地，采用三角窗函数对每个时域音素单元进行平滑处理，再按照顺序将多个时域音素单元拼接，其中相邻时域音素单元之间相互重叠第三帧长，其中，第三帧长由第一帧长和第二帧长得出。可选地，第三帧长＝第一帧长-第二帧长，根据本发明的一个实施例，第三帧长为2*t。也就是说，时域拼接按照最初分音素单元的方式，每次移动1帧重叠2t帧相加，依次拼接上所有的时域音素单元。

根据本发明的音色转换方案，可以大大缩减配音费用；也可以让普通用户体验音色转换类的应用。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明一并公开了：

A9、如A7或8所述的方法，其中，从第一数目个源-目标音素特征单元对中选取代价最小的目标音素特征单元的步骤包括：对于所述第一数目个源-目标音素特征单元对中的每个目标音素特征单元，计算该目标音素特征单元的特征与该音素单元的特征的距离值，作为第一代价；计算该目标音素特征单元的特征与相邻的下一个目标音素特征单元的特征的距离值，作为第二代价；以及根据维特比搜索算法从第一代价与第二代价之和中选取中代价最小的目标音素特征单元。

A10、如A1-9中任一项所述的方法，其中，所述对多个音素单元对应的多个最优音素特征单元进行时域拼接处理的步骤包括：根据每个最优音素单元的特征值生成对应的时域音素单元；对每个时域音素单元进行平滑处理；以及按照顺序将多个时域音素单元拼接，其中相邻时域音素单元之间相互重叠第三帧长。

A11、如A10所述的方法，其中，所述对每个时域音素单元进行平滑处理的步骤包括：采用三角窗函数对每个时域音素单元进行平滑处理。

A12、如A10或11所述的方法，其中，所述第三帧长由第一帧长和第二帧长得出。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种音色转换方法，所述方法适于根据待处理语音的音素从预置的源-目标音素特征单元对中搜索到匹配的语音进行转换，所述方法包括步骤：

提取待处理语音中每一帧语音的特征；

计算所述待处理语音中每一帧语音所属的音素，将同一音素内的连续帧作为一个音素集；

按照顺序将一个音素集分成一个或多个第一帧长的音素单元，其中相邻音素单元之间相互重叠第二帧长；

根据每帧语音的特征拼接得到对应音素单元的特征；

对于每个音素单元，根据其音素和特征从所述源-目标音素特征单元对中选取出代价最小的目标音素特征单元，作为最优音素特征单元；以及

对多个音素单元对应的多个最优音素特征单元进行时域拼接处理，得到音色转换后的语音。

2.如权利要求1所述的方法，还包括建立源语音库和目标语音库的步骤，其中，所述源语音库和目标语音库是平行语料库。

3.如权利要求2所述的方法，其中，在建立源语音库和目标语音库的步骤之后，还包括步骤：

根据源语音库和目标语音库中对应语句的特征生成源-目标音素特征单元对，其中，一个源-目标音素特征单元对中包含一个源音素特征单元和与其对应的一个目标音素特征单元。

4.如权利要求3所述的方法，其中，所述根据源语音库和目标语音库中的对应语句的特征生成源-目标音素特征单元对的步骤包括：

对源语音库和目标语音库中的对应语句分别进行分帧处理，得到每个语句的源语音序列和目标语音序列；

分别提取所述源语音序列和目标语音序列中每帧语音的特征；

根据所提取的特征对所述源语音序列和目标语音序列进行动态时间规整处理，得到一一对应的源-目标特征帧对；

计算所述目标语音序列中每一帧语音所属的音素；

将同一音素内连续帧的目标特征帧所属的源-目标特征帧对作为一个源-目标音素集；以及

按照顺序将一个源-目标音素集分成一个或多个第一帧长的源-目标音素特征单元对，其中相邻源-目标音素特征单元对之间相互重叠第二帧长。

5.如权利要求4所述的方法，其中，所述分别提取源语音序列和目标语音序列中每帧语音的特征的步骤包括：

分别提取源语音序列和目标语音序列中每帧语音的梅尔倒谱系数。

6.如权利要求1-5中任一项所述的方法，其中，所述提取待处理语音的特征的步骤包括：

提取待处理语音的梅尔倒谱系数。

7.如权利要求4-6中任一项所述的方法，其中，根据音素单元的音素和特征从源-目标音素特征单元对中选取出代价最小的目标音素特征单元的步骤包括：

对于每个音素单元，选取与其具有相同音素的目标音素特征单元所属的源-目标音素特征单元对，作为候选音素单元特征对；

从所述候选音素单元特征对中选出与该音素单元相似的第一数目个源-目标音素特征单元对；以及

从所述第一数目个源-目标音素特征单元对中选取代价最小的目标音素特征单元。

8.如权利要求7所述的方法，其中，所述从候选音素单元特征对中选出与该音素单元相似的第一数目个源-目标音素特征单元对的步骤包括：

计算候选音素单元特征对中源音素特征单元的特征与该音素单元的特征的距离值；以及

按照距离值从小到大的顺序选取第一数目个源音素特征单元所属的源-目标音素特征单元对。

9.一种计算设备，包括：

一个或多个处理器；和

存储器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-8所述方法中的任一方法的指令。

10.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当计算设备执行时，使得所述计算设备执行根据权利要求1-8所述的方法中的任一方法。