CN103035251A

CN103035251A - 一种建立语音转换模型的方法、语音转换的方法及系统

Info

Publication number: CN103035251A
Application number: CN2011102970687A
Authority: CN
Inventors: 杨晨; 蔡莲红; 周卫
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2011-09-30
Filing date: 2011-09-30
Publication date: 2013-04-10

Abstract

本发明公开了一种建立语音转换模型的方法和实现第一语言与第二语言之间的语音转换方法和装置，该转换方法包括：对待转换的第一语言语音进行语音切分得到至少一个第一语言音节，并记录通过语音切分得到的各个第一语言音节的音节时长参数；提取各个第一语言音节的基频参数；按照第一语言和第二语言的语音转换模型，根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长；对应各个第二语言音节，用其基频参数和音节时长调整所对应第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出。应用本发明进行语音转换时，能够基本保持输入语音和经转换后输出语音音质的一致性，且能够实时转换。

Description

一种建立语音转换模型的方法、语音转换的方法及系统

技术领域

本发明涉及利用计算机实现不同语音转换的技术，特别涉及一种建立语音转换模型的方法以及实现第一语言与第二语言之间语音转换的方法及系统。

背景技术

目前，从中国普通话到方言之间的转换有两种实现方式。第一种常用的转换方式是完全的人工转换，这就是说，如果想把普通话语音转换成相应的方言语音，需要知道普通话语音的内容，再将用方言读出的所述语音内容的每个句子录制下来。由于普通话语音内容的多少是没有限制的，这就导致转换工作既费时又费力。

第二种是利用计算机的语音合成技术来实现，典型的如申请号为200610038587.0的中国专利申请就公开了一种在方言语音合成系统中进行文本方言化处理的方法。该方法首先建立普通话与目标方言之间的同意翻译的方言化规则，然后根据该规则，将输入方言语音合成系统的普通话文本转换为方言文本，再将方言文本输入到语音合成模块，由语音合成模块将方言文本转换为方言语音输出。该方法在刚开始方言化规则建立阶段，需要对所有的方言和普通话建立标注句库，这等于新建了一个文本语音系统，因此也很费时。

虽然，第二种实现方式比第一种实现方式提高了适应性，能够将任意的普通话文本转换为方言语音，但是，第二种方式一个明显的问题就是由语音合成系统转换的方言语音是固定的音质，再有就是只能将普通话文本转换为方言语音，而不能实现普通话语音与方言语音之间的实时转换。

发明内容

有鉴于此，本发明提供了一种建立语言转换模型的方法以及实现第一语言与第二语言之间的语音转换方法及系统，应用该方法及系统能够实现第一语言语音与第二语言语音之间的实时转换，且能够基本保持输入语音和经转换后输出语音音质的一致性。

本发明的实施例提供的建立语言转换模型的方法包括：建立存储第一语言语音和针对同一文本的第二语言语音的语音数据库；对语音数据库中存储的第一语言语音进行语音切分得到第一语言音节，并对针对同一文本的第二语言语音进行语音切分得到第二语言音节；记录通过语音切分得到的各个第一语言音节和各个第二语言音节的音节时长参数；分别提取通过语音切分得到的各个第一语言音节和各个第二语言音节的基频参数；以及根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型。

上述根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型包括：根据各个第一语言音节和各个第二语言音节的基频参数，建立第一语言和第二语言之间的基频转换模型；以及分别统计第一语言音节以及第二语言音节的音节时长参数，并根据音节时长参数的统计结果建立第一语言和第二语言之间的时长转换模型。

上述基频参数包括：每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息；其中，建立第一语言和第二语言之间的基频转换模型包括：分别根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数，其中，基频曲线特征参数包括：基频的均值特征参数、基频开始位置以及四个调型特征参数，其中，所述四个调型特征参数为用三次多项式Ax³+Bx²+Cx+D＝y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数；应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类，得到至少一个第一基频曲线类别；分别根据各个第二语言音节的基频参数确定各个第二语言音节的基频曲线特征参数，应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类，得到至少一个第二基频曲线类别；其中，第一基频曲线类别和第二基频曲线类别一一对应；针对每一对一一对应的第一基频曲线类别和第二基频曲线类别，建立属于该第一基频曲线类别的第一语言音节的基频曲线特征参数与属于该第二基频曲线类别的第二语言音节的基频曲线特征参数之间的对应关系。

特别地，应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类包括：为各个第一语音音节的基频曲线特征参数设置相同或不同的权重，并应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类；以及应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类包括：为各个第二语音音节的基频曲线特征参数设置相同或不同的权重，并应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类。

上述音节时长参数包括：每个音节的音节时长、每个音节的韵律位置特征参数以及该音节各个该韵律位置下的声调值；其中，所述韵律位置特征参数表示该音节在句中的位置，包括：句首韵律词、句尾韵律词、句中非韵律短语边界或句中韵律短语边界；此时，建立第一语言和第二语言之间的时长转换模型包括：统计出各个第一语言音节和各个第二语言音节在各个韵律位置、各声调下的平均音节时长；对平均音节时长进行归一化处理后，再求出各个韵律位置同声调下第二语言音节与第一语言音节的平均音节时长的比值，得到如下公式所示的时长变换系数矩阵：

根据上述时长变换系数矩阵，处于i韵律位置具有声调值j的音节的音节时长调整公式为：T_Dij＝T_Mij×a_ij，其中，T_Mij为第一语言音节的音节时长，T_Dij为经过转换后第二语言音节的音节时长；i＝0～m代表不同的韵律位置特征参数，j＝0～n代表不同的声调值。

上述方法进一步包括：通过个性化语音训练过程建立个性化语音数据库，其中，所述个性化语音数据库存储第二语言的特殊词汇的语音波形。

本发明实施例所述的语音转换方法包括：对待转换的第一语言语音进行语音切分得到至少一个第一语言音节，并记录通过语音切分得到的各个第一语言音节的音节时长参数；提取通过语音切分得到的各个第一语言音节的基频参数；按照第一语言和第二语言之间的语音转换模型，根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长；对应各个第二语言音节，用其基频参数和音节时长调整所对应第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出所获得的各个第二语言音节的语音波形。

上述根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长包括：按照第一语言和第二语言之间的基频转换模型，根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数；以及按照第一语言和第二语言之间的音节时长转换模型，根据各个第一语言音节的音节时长参数确定所对应各个第二语言音节的音节时长。

上述根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数包括：根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数；其中，所述基频参数包括：每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息；所述基频曲线特征参数包括：基频的均值特征参数、基频开始位置以及四个调型特征参数；其中，所述四个调型特征参数为用三次多项式Ax³+Bx²+Cx+D＝y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数(A、B、C、D)；根据各个第一语言音节的基频曲线特征参数，与所建立的语音转换模型中的各个基频曲线类别进行匹配，分别找到各个第一语言音节对应的基频曲线类型，从而得到各个第一语言音节的基频曲线特征参数和第二语言音节的基频曲线特征参数之间的对应关系；按照各个第一语言音节的基频曲线特征参数与第二语言音节的基频曲线特征参数之间的对应关系，获得与各个第一语言音节对应的第二语言音节的基频曲线特征参数；以及根据各个第一语言音节对应的第二语言语音的基频曲线特征参数，确定各个第一语言音节所对应的第二语言音节的基频参数。

上述确定各个第一语言音节所对应的第二语言音节的基频参数包括：记录各个第一语言音节对应的第二语言音节的基频曲线特征参数中的基频开始位置；根据各个第二语言音节的基频曲线特征参数中的基频开始位置以及四个调型特征参数分别进行三次多项式插值，获得各个第二语言音节的基频值；用各个第一语言音节的基频峰值点信息以及对应的第二语言音节的基频值进行计算，获得各个第二语言音节的基频峰值点信息。

在对待转换的第一语言语音进行语音切分后，上述方法进一步包括：对待转换各个第一语言音节进行语音识别，对识别出的特殊词汇，到个性化语音数据库查找对应的第二语言音节的语音波形；对除特殊词汇之外的各个第一语言音节，根据各个第一语言音节的基频参数和音节时长参数，按照所述语音转换模型，确定各个第二语言音节的基频参数和音节时长，对第一语言的语音波形进行调整，获得各个第二语言音节的语音波形。

需要说明的是，上述第一语言为中国普通话，第二语言为北方方言；或者第一语言为北方方言，第二语言为中国普通话。

本发明实施例所述的语音转换系统包括：第一语言语音输入模块310、语音转换模块320以及第二语言语音输出模块330；其中，第一语言语音输入模块310用于接收用户输入的待转换的第一语言语音，并发送给语音转换模块320；语音转换模块320用于对接收的第一语言语音进行语音切分得到至少一个第一语言音节，并记录各个第一语言音节的音节时长参数，然后提取各个第一语言音节的基频参数，再按照存储的语音转换模型确定各个第一语言音节对应的第二语言音节的基频参数和音节时长，再用各个第二语言音节的基频参数和音节时长调整对应各个第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出给第二语言语音输出模块330；

第二语言语音输出模块330用于将各个第二语言音节的语音波形输出给用户。

上述语音转换模块320包括：语音切分单元321、语音转换单元322、语音转换模型存储单元323和波形调整单元324；其中，

语音切分单元321对接收的第一语言语音进行语音切分得到至少一个第一语言音节，并将第一语言音节发送给语音转换单元322；

语音转换单元322记录各个第一语言音节的音节时长参数，提取各个第一语言音节的基频参数，再按照语音转换模型存储单元323中存储的语音转换模型，确定与各个第一语言音节对应的第二语言音节的基频参数和音节时长，并各个将第二语言音节的基频参数和音节时长发给波形调整单元324；以及

波形调整单元324用各个第二语言音节的基频参数和音节时长调整所对应各个第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出给第二语言语音输出模块330。

上述进一步包括：个性化语音数据库450，用于存储与第一语言特殊词汇对应的第二语言特殊词汇的每个音节的语音波形；此时语音转换模块420将对接收的待转换的第一语言语音进行语音切分得到至少一个第一语言音节，然后对第一语言音节进行识别判断是否有特殊词汇，如果有，则真对特殊词汇音节到个性化语音数据库450查找对应音节的第二语言语音波形，并对除特殊词汇语音段外的每个第一语言音节，记录各个第一语言音节的音节时长参数，然后提取各个第一语言音节的基频参数，再按照存储的语音转换模型确定各个第一语言音节对应的第二语言音节的基频参数和音节时长，再用各个第二语言音节的基频参数和音节时长调整对应各个第一语言音节的语音波形，获得各个第二语言音节的语音波形，而对特殊词汇音节，用第二语言音节的语音波形替换对应第一语言音节语音波形，然后将获得各个第二语言音节的语音波形输出给第二语言语音输出模块430。

由上述的方案可知，本发明利用了第一语言与第二语言读音基本相同，而声调不同的特点。在进行语音转换时，不改变原始语音与目标语音的基本读音，而用目标语音的声调参数调整原始语音的波形的方式，保持了待转换第一语言与第二语言的基本读音，能够基本保持输入语音和经转换后输出语音音质的一致性，而且不需要将语音转换为文本，能够实现第一语言语音与第二语言语音之间的直接转换。

附图说明

图1为本发明实施例所述语音转换方法中建立语音转换模型的流程示意图；

图2为本发明实施例所述语音转换方法中进行语音转换的流程示意图；

图3为本发明实施例所述的语音转换系统的内部结构示意图；

图4为本发明另一实施例所述的语音转换系统的内部结构示意图。

具体实施方式

为使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明的方案作进一步地详细说明。

本发明实施例提出了一种建立语音转换模型的方法以及实现第一语言与第二语言之间语音转换的方法及语音转换系统，其中，本发明实施例要求进行语音转换的第一语言与第二语言的读音基本相同，而声调和音节时长不同，例如中国普通话和北方方言就存在上述特点。因此，在本发明中，上述第一语言可以是中国普通话，第二语言可以是北方方言；或者反过来，上述第一语言是北方方言，第二语言是中国普通话。当进行语音转换的第一语言与第二语言具有读音基本相同、但声调和音节时长不同的特点时，就可以以第一语言语音和第二语言语音的基频和时长参数为主要参数建立语音转换模型。这样，在进行语音转换时，按照建立的语音转换模型，找到第二语言语音的基频和时长参数，并用第二语言语音的基频和时长参数调整第一语言的语音波形，从而将第一语言语音转换为第二语言语音。

为了实现第一语言与第二语言之间的语音转换需要预先建立语音转换模型，该语音转换模型用于记录第一语言语音中各音节的基频曲线特征参数和音节时长与针对同一文本的第二语言语音中各音节的基频曲线特征参数和音节时长之间的对应关系。建立语音转换模型是实现实时语音转换的准备阶段，该阶段工作完成后，就可以利用建立的语音转换模型进行实时语音转换。因此，在第一语音与第二语言之间的语音转换过程中，不需要重复执行建立语音转换模型的过程。在本发明实施例中，语音转换模型包括基频转换模型和时长转换模型。

以下对本发明的建立语音转换模型的方法以及实现第一语言与第二语言之间语音转换的方法和语音转换系统进行详细说明。

图1为本发明实施例所述的语音转换方法中建立语音转换模型的流程示意图。如图1所示，该流程主要包括以下步骤：

步骤101，建立存储第一语言语音和针对同一文本的第二语言语音的语音数据库。

本步骤是一个语言录制过程，分别对第一语言语音和针对同一文本的第二语言一句话一句话的录制，并存储到上述语音数据库中，也即在语音数据库中存储的每一个第一语言语音或第二语言语音都是一句话。这里，录制的语音应当尽可能覆盖所有汉字。为了描述方便，下文将上述针对同一文本的第二语言语音简称为对应的第二语言语音。同理，在下文中，在描述与第二语言语音针对同一文本的第一语言语音时，也将针对同一文本的第一语言语音简称为对应的第一语言语音。

步骤102，对语音数据库中存储的第一语言语音进行语音切分，得到第一语言音节；对针对同一文本的第二语言语音进行语音切分得到第二语言音节，并记录通过语音切分得到的各个第一语言音节和各个第二语言音节的音节时长参数。

本步骤中，可以利用现有的语音切分算法将语音数据库中存储的第一语言语音和对应的第二语言语音分别进行语音切分，分别得到第一语言音节和第二语言音节。

在本实施例中，上述音节时长参数包括：每个音节的音节时长、每个音节的韵律位置特征参数以及该音节各个该韵律位置下的声调值等。其中，上述韵律位置特征参数表示该音节在句中的位置，包括：句首韵律词、句尾韵律词、句中非韵律短语边界或句中韵律短语边界。例如一个句子包含6个字，切分后得到6个音节，其中第一个字是单音节词、第二个和第三个字组合为一个双音节词、第四个字是个单音节词、第五个和第六个字组合为一个双音节词，则第一个音节的韵律特征就是句首韵律词、第二个音节和第五个音节的韵律特征就是句中非韵律短语边界、第三个音节和第四个音节的韵律特征就是句中韵律短语边界，第六个音节的韵律特征是句尾韵律词。上述声调值包括五种声调：阴平、阳平、上声、去声、轻声。

步骤103，分别提取通过语音切分得到的各个第一语言音节和各个第二语言音节的基频参数。

本步骤中，上述基频参数包括：包括：每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息。其中，上述基频值表示基频的频率值；上述基频开始位置表示基频在音节中开始的时间点；上述基频峰值点信息表示音节内出现波形峰值时的时间点组成的序列。这些参数可以由人工提取，也可以利用现有的基频参数提取算法提取。

步骤104，根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型。

上述步骤104具体包括：子步骤1041：根据各个第一语言音节和各个第二语言音节的基频参数，建立第一语言和第二语言之间的基频转换模型；以及子步骤1042：分别统计第一语言音节以及第二语言音节的音节时长参数，并根据音节时长参数的统计结果建立第一语言和第二语言之间的时长转换模型。需要说明的是，上述两个子步骤1041和1042可以串行执行也可以并行执行。下面将详细描述上述两个子步骤的实现过程。

总体来讲，在子步骤1041中，首先根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数，然后按照确定的各个第一语言音节的基频曲线特征参数将各个第一语言音节对应的基频曲线划分为至少一个第一基频曲线类别；然后根据各个第二语言音节的基频参数确定各个第二语言音节的基频曲线特征参数，然后按照确定的各个第二语言音节的基频曲线特征参数将各个第二语言音节对应的基频曲线划分为至少一个第二基频曲线类别，其中，所划分的第一基频曲线类别与所划分的第二基频曲线类别一一对应；最后，针对每一对一一对应的第一基频曲线类别和第二基频曲线类别，建立属于该第一基频曲线类别的第一语言音节的基频曲线特征参数与属于该第二基频曲线类别的第二语言音节的基频曲线特征参数之间的对应关系。

具体而言，建立第一语言音节和第二语言音节之间的基频转换模型主要包括以下步骤：

第一步，分别根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数，在这里，所述的基频曲线特征参数具体包括：

1、基频的均值特征参数，该参数是对该音节内所有的基频点的基频值进行平均得到的。

2、基频开始位置，该参数就是指上述基频参数中的基频开始位置。

3、四个调型特征参数，这四个参数就是用三次多项式Ax³+Bx²+Cx+D＝y拟合该第一语言音节的基频曲线获得的该三次多项式的四个系数：A、B、C、D。用三次多项式来拟合曲线是现有技术，在本发明实施例中应用于基频曲线，其中x为时间，y为基频的频率值。

第二步，应用各个第一语言音节的基频曲线特征参数，对各个第一语言音节对应的基频曲线进行聚类，得到至少一个第一基频曲线类别。

在本步骤中，可以采用现有的聚类算法，例如凝聚聚类算法对上述所有音节对应的基频曲线进行聚类。此外，为了得到更好的聚类效果，在对各个第一语言音节对应的基频曲线进行聚类时，可以进一步为各个特征参数设置相同或不同的权重，例如，设置四个调型特征参数的权重都为3，设置基频的均值特征参数的权重为2，而基频开始位置的权重为1。

第三步，使用相同的方法对各个第二语言音节对应的基频曲线进行聚类，得到至少一个第二基频曲线类别。需要说明的是，该步骤得到的第二基频曲线类别应当与通过上述第二步得到的第一基频曲线类别一一对应。

具体而言，在本步骤中，首先确定第二语言音节的基频曲线特征参数，再应用各个第二语言音节的基频曲线特征参数，对各个第二语言音节对应的基频曲线进行聚类，得到至少一个第二基频曲线类别。同样，在对各个第二语言音节对应的基频曲线进行聚类时，可以进一步为各个特征参数设置相同或不同的权重。

第四步，针对每一对一一对应的第一基频曲线类别和第二基频曲线类别，建立属于该第一基频曲线类别的第一语言音节的基频曲线特征参数与属于该第二基频曲线类别的第二语言音节的基频曲线特征参数之间的对应关系。例如，分别针对每一对一一对应的第一基频曲线类别和第二基频曲线类别，可以将属于该第一基频曲线类别的第一语言音节的基频曲线的特征参数与属于与该第二基频曲线类别的第二语言基频曲线特征参数存储到一张如表1所示的参数对应表中。也就是说，所建立的基频转换模型可以包括至少一个如下表1所示的参数对应表，其中每一个参数对应表对应一对一一对应的第一基频曲线类别和第二基频曲线类别。

本发明实施例在建立语音转换模型中的基频转换模型时，可以进一步记录属于每种第一基频曲线类别的第一语言音节的声调值，如下表1所示，在如表1所示的参数对应表中增加声调值一项，这样，在对每个待转换的第一语言音节进行实时语音转换的音节时长转换时，首先根据第一语言音节所对应基频曲线的基频曲线类别，获得基频转换模型中此基频曲线类别对应的第一语言音节的声调值。具体的音节时长转换方法将在下面详细说明。

参数名称	第一语言参数值	第二语言参数值
			基频均值特征
基频开始位置
			三次多项式系数A
三次多项式系数B
			三次多项式系数C
三次多项式系数D
			声调值	空

表1

在子步骤1042，所建立的时长转换模型只有一个，该时长转换模型是根据各个第一语言音节和第二语言音节在每种声调下持续时间的统计结果得到的一个音节时长调整公式，它的建立比较简单。具体地，先统计出对各个第一语言音节和各个第二语言音节在各个韵律位置、各声调下的平均音节时长，该平均音节时长是对五种声调：阴平、阳平、上声、去声和轻声的统计得到的，然后对平均音节时长进行归一化处理后，再求出各个韵律位置同声调下第二语言音节与第一语言音节的平均音节时长的比值，即为时长变换系数。可以得到如下公式(1)所示的时长变换系数矩阵：

因此，处于i韵律位置具有声调值j的音节的音节时长调整公式为：T_Dij＝T_Mij×a_ij，其中，T_Mij为第一语言音节的音节时长，T_Dij为经过转换后第二语言音节的音节时长；上述时长变换系数矩阵公式中i＝0～m代表不同的韵律位置特征参数，通常m小于或等于3，j＝0～n代表不同的声调值，通常n小于或等于5，该5种声调值：阴平、阳平、上声、去声、轻声。

通过上述方法可以建立第一语言和第二语言之间基频转换模型和时长转换模型，也即语音转换模型。从上述语音转换模型可以看出，通过上述方法建立的语音转换模型只与基频参数和时长参数有关，而与读音无关，也即不同读音的汉字，得到的语音转换模型是一个。

本实施例中建立语音数据库的目的就是为了建立语音转换模型，其并不提供给用户。语音转换过程中，只需根据语音转换模型即可进行语音转换。

参见图2，图2为本发明实施例所述进行语音转换的流程示意图。该流程主要包括以下步骤：

步骤201，对待转换的第一语言语音进行语音切分得到至少一个第一语言音节，并记录通过语音切分得到的各个第一语言音节的音节时长参数。

本步骤与图1所示步骤102中对语音数据库中存储的语音进行语音切分的方法相同，即利用现有的音节切分算法，将接收到的第一语言语音切分为至少一个第一语言音节。此外，通常情况下，在本步骤中记录的各个第一语言音节的音节时长参数只包括每个音节的音节时长和每个音节的韵律位置特征参数。

此外，与语音转换模型建立过程中对应，这里所述的待转换的第一语言语音是用第一语言读出的一句话的语音。

步骤202，提取通过语音切分得到的各个第一语言音节的基频参数。

本步骤中，提取通过语音切分得到的各个第一语言音节的基频参数的方法与步骤103所述的方法相同，在此不再赘述。

步骤203，按照第一语言和第二语言的语音转换模型，根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长。

本步骤具体包括两个子步骤：子步骤2031：按照第一语言和第二语言的基频转换模型，根据各个第一语言音节的基频参数确定所对应各个第二语言音节的基频参数；子步骤2032：按照第一语言和第二语言的音节时长转换模型，根据各个第一语言音节的音节时长参数确定所对应各个第二语言音节的音节时长。下面将详细描述上述两个子步骤的实现方法。

上述子步骤2031具体包括：

首先，根据各个第一语言音节的基频参数，例如基频点值和基频点开始位置，确定各个第一语言音节的基频曲线特征参数，包括：基频的均值特征参数、基频开始位置以及四个调型特征参数即四个多项式系数。本步骤中，获得这6个基频曲线的特征参数的方法与上述步骤104中获取第一语言语音的基频曲线的特征参数的方法相同，这里不再重复。

然后，根据各个第一语言音节的基频曲线特征参数，与所建立的语音转换模型中的各个基频曲线类别进行匹配，分别找到各个第一语言音节对应的基频曲线类型，从而得到各个第一语言音节的基频曲线特征参数和第二语言音节的基频曲线特征参数之间的对应关系。

再然后，按照各个第一语言音节的基频曲线特征参数与第二语言音节的基频曲线特征参数之间的对应关系，获得与各个第一语言音节对应的第二语言音节的基频曲线特征参数。具体地，该步骤可以直接通过查参数对应表得到。

最后，根据各个第一语言音节对应的第二语言语音的基频曲线特征参数，确定各个第一语言音节所对应的第二语言音节的基频参数。

本步骤具体可以包括：首先，记录各个第一语言音节对应的第二语言音节的基频曲线特征参数中的基频开始位置；并根据各个第二语言音节的基频曲线特征参数中的基频开始位置以及四个调型特征参数分别进行三次多项式插值，获得各个第二语言音节的基频值；然后用各个第一语言音节的基频峰值点信息以及对应的第二语言音节的基频值进行计算，获得各个第二语言音节的基频峰值点信息。本步骤具体可以采用现有的算法来实现。

上述子步骤2032具体包括：按照第一语言和第二语言之间的音节时长转换模型，根据各个第一语言音节的音节时长参数(音节时长、韵律位置特征参数和声调值)确定第二语言音节的音节时长。

需要说明的是，在本步骤中，上述各个第一语言音节的音节时长、韵律位置特征参数是在上述步骤202中记录的，而上述第一语言音节的声调值是从基频转换模型中读取的该第一语言音节的声调值。

步骤204，对应各个第二语言音节，用其基频参数和音节时长调整所对应第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出所获得的各个第二语言音节的语音波形。

本步骤中，就是用各个第二语言音节的基频参数(具体为基频峰值点信息)及音节时长来调整所对应各个第一语言音节的语音波形，从而获得第二语言语音波形。具体的波形调整属于现有技术，这里不再赘述。至此，完成了一句话的语音转换。

由于有的第二语言会有一些特殊词汇，与第一语言语音不仅声调不同，读音也有所不同。例如：第一语言的“我”，在山东话中是“俺”。对于这类特殊词汇，本发明的实施例可以通过个性化语音训练过程，建立了一个个性化语音数据库，其中存储了第二语言的特殊词汇的语音波形。

本实施例中，为了保持第一语言语音与第二语言语音音质的一致性，这个个性化训练过程由用户来参与完成，使得个性化语音数据库中的语音都是用户自己的语音，这样在语音转换时，特殊词汇也保持了用户自己的音质。

个性话语音训练过程很简单，就是对那些不能通过声调变化直接转化，而需要先进行语音识别的特殊词，用户按照语音转换系统提示读音，将用户读出的特殊词汇的语音，存储到个性化语音数据库中。

本实施例中，在语音转换过程中，在对待转换的第一语言语音进行语音切分后，提取基频参数之前，先对待转换各个第一语言音节进行语音识别，对识别出的特殊词汇的音节，到所述个性化语音数据库查找对应的第二语言音节的语音波形；然后对除特殊词汇之外的各个第一语言音节，根据每个第一语言音节的基频参数和音节时长参数，按照所述基频转换模型和时长转换模型，确定每个第二语言音节的基频参数。然后，再对各个第一语言音节的语音波形进行调整，获得各个相对应第二语言音节的语音波形。在此过程中，对第一语言中的特殊词汇，用查找到相对应的第二语言音节的语音波形替换第一语言音节的语音波形；对除特殊词汇之外的各个第一语言音节，用第二语言音节的基频参数和音节时长调整相对应第一语言音节的语音波形；获得各个第二语言音节的语音波形。其他实现细节与上述方法相同，这里不再重复。

以下，对本发明实施例所述的实现第一语言与第二语言之间的语音转换系统进行详细说明。

本实施例与图1、图2所示的语音转换方法相对应，具体参见图3，图3为本发明实施例所述语音转换系统的内部结构示意图，该语音转换系统包括：第一语言语音输入模块310、语音转换模块320、第二语言语音输出模块330以及可选的功能选择模块340。

其中，第一语言语音输入模块310用于接收用户输入的待转换的第一语言语音，并发送给语音转换模块320。具体可以采用话筒等语音输入设备实现。

语音转换模块320首先对接收的第一语言语音进行语音切分得到至少一个第一语言音节，并记录各个第一语言音节的音节时长参数，然后提取各个第一语言音节的基频参数，再按照存储的语音转换模型确定各个第一语言音节对应的第二语言音节的基频参数和音节时长，再用各个第二语言音节的基频参数和音节时长调整对应各个第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出给第二语言语音输出模块330。其具体的实现原理，参见上述语言转换方法的步骤202～步骤205。

如图3所示，本实施例中的语音转换模块320具体包括：语音切分单元321、语音转换单元322、语音转换模型存储单元323和波形调整单元324。其中，语音切分单元321对接收的第一语言语音进行语音切分得到至少一个第一语言音节，并将第一语言音节发送给语音转换单元322；语音转换单元322记录各个第一语言音节的音节时长参数，提取各个第一语言音节的基频参数，再按照语音转换模型存储单元323中存储的语音转换模型，确定与各个第一语言音节对应的第二语言音节的基频参数和音节时长，并将各个第二语言音节的基频参数和音节时长发送给波形调整单元324；波形调整单元324用各个第二语言音节的基频参数和音节时长调整所对应各个第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出给第二语言语音输出模块330。

第二语言语音输出模块330用于将各个第二语言音节的语音波形输出给用户。具体可以采用喇叭、耳机等语音输出设备实现。

本实施例中，如果只实现第一语言语音到一种第二语言语音的单方向语音转换，可以不设置功能选择模块340，如果要实现第一语言语音与多种第二语言语音的多方向语音转换，则需要设置功能选择模块340，语音转换模块320中的语音转换模型存储单元323将分别存储第一语言到多种第二语言及多种第二语言到第一语言的语音转换模型。

此时，功能选择模块340将根据用户的选择，向语音转换模块320发送语音转换命令，如从第一语言语音到第一种第二语言语音的语音转换命令、第二种第二语言语音到第一语言语音的转换命令等，语音转换模块320根据该命令确定哪种语音为待转换的第一语言语音，哪种语音为转换后的第二语言语音，并用与转换命令对应的语音转换模型进行语音转换。

为了对特殊词汇进行处理，上述语音转换系统还可以进一步包括：个性化语音数据库450。

上述个性化语音数据库450存储了第一语言特殊词汇和其对应第二语言特殊词汇的每个音节的语音波形。

在本实施例中，语音转换模块420将首先对接收的待转换的第一语言语音进行语音切分得到至少一个第一语言音节，然后对第一语言音节进行识别判断是否有特殊词汇，如果有，则真对特殊词汇音节到个性化语音数据库460查找对应音节的第二语言语音波形，并对除特殊词汇语音段外的每个第一语言音节，记录各个第一语言音节的音节时长参数，然后提取各个第一语言音节的基频参数，再按照存储的语音转换模型确定各个第一语言音节对应的第二语言音节的基频参数和音节时长，再用各个第二语言音节的基频参数和音节时长调整对应各个第一语言音节的语音波形，获得各个第二语言音节的语音波形，而对特殊词汇音节，用第二语言音节的语音波形替换对应第一语言音节语音波形，然后将获得各个第二语言音节的语音波形输出给第二语言语音输出模块430。

如图4所示，在这种情况下语音转换模块420进一步包括：特殊词汇识别单元425。在本实施例中，语音转换单元422首先将通过语音切分得到的第一语言音节发送给特殊词汇识别单元425进行识别；特殊词汇识别单元425进行语音识别，将语音识别的结果返回给语音转换单元422；此后，语音转换单元422判断如果有特殊词汇，则对特殊词汇音节到个性化语音数据库460查找对应的第二语言音节的语音波形，并对除特殊词汇音节外的各个第一语言音节，按照语音转换模型确定各个对应的第二语言音节的基频参数和音节时长，然后将特殊词汇的第二语言音节的语音波形和除特殊词汇音节外的各个第二语言音节的基频参数和音节时长发送给波形调整单元423；如果没有特殊词汇，则按照语音转换模型存储单元424中的语音转换模型确定各个第二语言音节的基频参数和音节时长，发送给波形调整单元423；波形调整单元423对有特殊词汇的句子，用特殊词汇的第二语言音节的语音波形替换第一语言音节的语音波形，对非特殊词汇音节用对应的第二语言音节的基频参数和音节时长调整第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出给第二语言语音输出模块430；对没有特殊词汇的句子，用对应的第二语言音节的基频参数和音节时长调整第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出给第二语言语音输出模块430。

由此可以看出，本发明实施例提出的实现第一语言与第二语言之间的语音转换方法及系统，可以实现第一语言语音和第二语言之间的一句话一句话的实时转换，而且能够基本保持输入语音与输出语音的音质一致性。

本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本文所述的建立语音转换模型的方法以及语音转换方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

本发明公开了一种建立语音转换模型的方法和实现第一语言与第二语言之间的语音转换方法和装置。其中转换方法包括：对待转换的第一语言语音进行语音切分得到至少一个第一语言音节，并记录通过语音切分得到的各个第一语言音节的音节时长参数；提取各个第一语言音节的基频参数；按照第一语言和第二语言的语音转换模型，根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长；对应各个第二语言音节，用其基频参数和音节时长调整所对应第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出。应用本发明进行语音转换时，能够基本保持输入语音和经转换后输出语音音质的一致性，且能够实时转换。

Claims

1.一种建立语音转换模型的方法，所述方法包括：

建立存储第一语言语音和针对同一文本的第二语言语音的语音数据库；

对所述语音数据库中存储的第一语言语音进行语音切分得到第一语言音节，并对针对同一文本的第二语言语音进行语音切分得到第二语言音节；

记录通过语音切分得到的各个第一语言音节和各个第二语言音节的音节时长参数；

分别提取通过语音切分得到的各个第一语言音节和各个第二语言音节的基频参数；以及

根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型。

2.根据权利要求1所述的方法，其中，所述根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型，包括：

根据各个第一语言音节和各个第二语言音节的基频参数，建立第一语言和第二语言之间的基频转换模型；以及

分别统计第一语言音节以及第二语言音节的音节时长参数，并根据所述音节时长参数的统计结果建立第一语言和第二语言之间的时长转换模型。

3.根据权利要求2所述的方法，其中，

所述基频参数包括：每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息；

所述建立第一语言和第二语言之间的基频转换模型包括：

分别根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数，其中，所述基频曲线特征参数包括：基频的均值特征参数、基频开始位置以及四个调型特征参数；其中，所述四个调型特征参数为用三次多项式Ax³+Bx²+Cx+D＝y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数(A、B、C、D)；

应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类，得到至少一个第一基频曲线类别；

分别根据各个第二语言音节的基频参数确定各个第二语言音节的基频曲线特征参数，应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类，得到至少一个第二基频曲线类别；其中，所述第一基频曲线类别和所述第二基频曲线类别一一对应；

针对每一对一一对应的第一基频曲线类别和第二基频曲线类别，建立属于该第一基频曲线类别的第一语言音节的基频曲线特征参数与属于该第二基频曲线类别的第二语言音节的基频曲线特征参数之间的对应关系。

4.根据权利要求3所述的方法，其中，所述应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类包括：为各个第一语音音节的基频曲线特征参数设置相同或不同的权重，并应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类；以及

所述应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类包括：为各个第二语音音节的基频曲线特征参数设置相同或不同的权重，并应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类。

5.根据权利要求2所述的方法，其中，所述音节时长参数包括：每个音节的音节时长、每个音节的韵律位置特征参数以及该音节各个该韵律位置下的声调值；其中，所述韵律位置特征参数表示该音节在句中的位置，包括：句首韵律词、句尾韵律词、句中非韵律短语边界或句中韵律短语边界；

所述建立第一语言和第二语言之间的时长转换模型包括：

统计出各个第一语言音节和各个第二语言音节在各个韵律位置、各声调下的平均音节时长；

对平均音节时长进行归一化处理后，再求出各个韵律位置同声调下第二语言音节与第一语言音节的平均音节时长的比值，得到如下公式所示的时长变换系数矩阵：

6.根据权利要求1所述的方法，其中，该方法进一步包括：通过个性化语音训练过程建立个性化语音数据库，其中，所述个性化语音数据库存储第二语言的特殊词汇的语音波形。

7.一种语音转换方法，该方法包括：

对待转换的第一语言语音进行语音切分得到至少一个第一语言音节，并记录通过语音切分得到的各个第一语言音节的音节时长参数；

提取通过语音切分得到的各个第一语言音节的基频参数；

按照根据权利要求1至6中任一项所建立的第一语言和第二语言之间的语音转换模型，根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长；

对应各个第二语言音节，用其基频参数和音节时长调整所对应第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出所获得的各个第二语言音节的语音波形。

8.根据权利要求7所述的方法，其中，所述根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长包括：

按照第一语言和第二语言之间的基频转换模型，根据各个第一语言音节的基频参数确定所对应各个第二语言音节的基频参数；以及

按照第一语言和第二语言的之间音节时长转换模型，根据各个第一语言音节的音节时长参数确定所对应各个第二语言音节的音节时长。

9.根据权利要求8所述的方法，其中，所述根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数包括：

根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数；其中，所述基频参数包括：每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息；所述基频曲线特征参数包括：基频的均值特征参数、基频开始位置以及四个调型特征参数；其中，所述四个调型特征参数为用三次多项式Ax³+Bx²+Cx+D＝y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数(A、B、C、D)；

根据各个第一语言音节的基频曲线特征参数，与所建立的语音转换模型中的各个基频曲线类别进行匹配，分别找到各个第一语言音节对应的基频曲线类型，从而得到各个第一语言音节的基频曲线特征参数和第二语言音节的基频曲线特征参数之间的对应关系；

按照各个第一语言音节的基频曲线特征参数与第二语言音节的基频曲线特征参数之间的对应关系，获得与各个第一语言音节对应的第二语言音节的基频曲线特征参数；以及

根据各个第一语言音节对应的第二语言语音的基频曲线特征参数，确定各个第一语言音节所对应的第二语言音节的基频参数。

10.根据权利要求9所述的方法，其中，所述确定各个第一语言音节所对应的第二语言音节的基频参数包括：

记录各个第一语言音节对应的第二语言音节的基频曲线特征参数中的基频开始位置；

根据各个第二语言音节的基频曲线特征参数中的基频开始位置以及四个调型特征参数分别进行三次多项式插值，获得各个第二语言音节的基频值；

用各个第一语言音节的基频峰值点信息以及对应的第二语言音节的基频值进行计算，获得各个第二语言音节的基频峰值点信息。

11.根据权利要求7所述的方法，其特征在于，在对待转换的第一语言语音进行语音切分后，进一步包括：

对待转换各个第一语言音节进行语音识别，对识别出的特殊词汇，到个性化语音数据库查找对应的第二语言音节的语音波形；

对除特殊词汇之外的各个第一语言音节，根据各个第一语言音节的基频参数和音节时长参数，按照所述语音转换模型，确定各个第二语言音节的基频参数和音节时长，对第一语言的语音波形进行调整，获得各个第二语言音节的语音波形。

12.根据权利要求1至11中任一项所述的方法，其特征在于，所述第一语言为中国普通话，所述第二语言为北方方言；或者所述第一语言为北方方言，所述第二语言为中国普通话。

13.一种语音转换系统，该系统包括：第一语言语音输入模块(310)、语音转换模块(320)以及第二语言语音输出模块(330)；其中，

所述第一语言语音输入模块(310)用于接收用户输入的待转换的第一语言语音，并发送给所述语音转换模块(320)；

所述语音转换模块(320)用于对接收的第一语言语音进行语音切分得到至少一个第一语言音节，并记录各个第一语言音节的音节时长参数，然后提取各个第一语言音节的基频参数，再按照存储的根据权利要求1至6任一项所建立的语音转换模型确定各个第一语言音节对应的第二语言音节的基频参数和音节时长，再用各个第二语言音节的基频参数和音节时长调整对应各个第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出给所述第二语言语音输出模块(330)；

所述第二语言语音输出模块(330)用于将各个第二语言音节的语音波形输出给用户。

14.根据权利要求13所述的系统，其中，所述语音转换模块(320)包括：语音切分单元(321)、语音转换单元(322)、语音转换模型存储单元(323)和波形调整单元(324)；其中，

所述语音切分单元(321)对接收的第一语言语音进行语音切分得到至少一个第一语言音节，并将该第一语言音节发送给所述语音转换单元(322)；

所述语音转换单元(322)记录各个第一语言音节的音节时长参数，提取各个第一语言音节的基频参数，再按照所述语音转换模型存储单元(323)中存储的语音转换模型，确定与各个第一语言音节对应的第二语言音节的基频参数和音节时长，并各个将第二语言音节的基频参数和音节时长发送给所述波形调整单元(324)；以及

所述波形调整单元(324)用各个第二语言音节的基频参数和音节时长调整所对应各个第一语言音节的语音波形，获得各个第二语言音节的语音波形，并输出给所述第二语言语音输出模块(330)。

15.根据权利要求13所述的系统，其中，进一步包括：个性化语音数据库(450)，用于存储与第一语言特殊词汇对应的第二语言特殊词汇的每个音节的语音波形；

所述语音转换模块(420)将对接收的待转换的第一语言语音进行语音切分得到至少一个第一语言音节，然后对第一语言音节进行识别判断是否有特殊词汇，如果有，则针对特殊词汇音节到个性化语音数据库(450)查找对应的第二语言语音波形，并对除特殊词汇语音段外的每个第一语言音节，记录各个第一语言音节的音节时长参数，然后提取各个第一语言音节的基频参数，再按照存储的语音转换模型确定各个第一语言音节对应的第二语言音节的基频参数和音节时长，再用各个第二语言音节的基频参数和音节时长调整对应各个第一语言音节的语音波形，获得各个第二语言音节的语音波形，而对特殊词汇音节，用第二语言音节的语音波形替换对应第一语言音节语音波形，然后将获得各个第二语言音节的语音波形输出给第二语言语音输出模块(430)。

16.一种机器可读的存储介质，存储用于使一机器执行如权利要求1至12中任意一项所述方法的指令。

17.一种计算机程序，当所述计算机程序运行于一机器中时使所述一机器执行如权利要求1至12中任意一项所述方法。