CN1629933B

CN1629933B - 用于语音合成的设备、方法和转换器

Info

Publication number: CN1629933B
Application number: CN200310123795A
Authority: CN
Inventors: 俞振利; 黄建成; 岳东剑
Original assignee: Motorola Inc
Current assignee: Serenes Operations
Priority date: 2003-12-17
Filing date: 2003-12-17
Publication date: 2010-05-26
Anticipated expiration: 2023-12-17
Also published as: CN1629933A

Abstract

一种双语连接语音合成的移动电话60，合成并连接从基本和辅助库存22，64选择的声单元Xpp和Xss。辅助语言库存64的声单元是从第一和第二组声单元Xsp和Yss获得的改善的声单元，它是从使用辅助语言的不同人记录的。第二组声单元Yss改善得听起来更像是由讲相应第一组声单元Xsp的讲话者所说。这是通过将第二组声单元Yss的子单元Uss，Vss的特定谱和基音成分乘以一个比值而获得的，该比值是相应第一组声单元Xsp的多个子单元Usp，Vsp的相应谱和基音成分的平均值与第二组声单元Yss的多个子单元Uss，Vss的相应谱和基音成分的平均值的比例。改善的第二组声单元形成第三组声单元Xss，它存储在辅助语言库存64中。

Description

用于语音合成的设备、方法和转换器

技术领域

本发明涉及用于语音合成的声单元。本发明尤其用于(但并不局限于)双语连接语音合成，例如双语文语转换(TTS)连接语音合成。

背景技术

语音合成是从非语音音频信号开始的语音音频信号的产物。文语转换(TTS)合成的形式最常用，其中文字流被转换为语音音频信号。这包括接收文本流，将其分析并转换为音标，接着产生对应于该音标的信号。产生这种信号的途径通常分两种：(i)从语音信号的模型中产生，和(ii)连接预记录好的声音信号。后一种通常被称为连接语音合成。

几乎所有的高质量的文语转换系统目前都以连接语音合成为基础。因为这种方法易于产生更自然输出的合成语音。这通过使用声单元的声音库存实现。声单元是声音数据单元，其对于将用到的特定语言，映射人类语音的所有的或者比较有用的完整范围。

获得声单元的声音库存需要来自一个人话语的记录的音频信号。为产生高质量自然动听的语音输出，这些记录最好是从单一声源(人)并理想条件是从一个说母语且专业的讲话者提取。记录下这人花费几个小时朗读的一篇预定的文字。指定这篇文字是为了尽可能记录下多个音素序列的组合，特别是记录每个期望的组合的几次出现。被记录的朗读经语音分割工具处理来确定音素的起始和结束。由于文字是已知的，每个音素和音素的组合位置也是已知的，有可能从语音中将正确的记录找出来提供给期望的声单元，而不管其是否与单音、双音、三音或者其它音，甚至这些发音串或音节相一致。特定音素或音素组合有多个样本，选其中最好的。被选的声单元记录被压缩并存储在数据库。

在一种有时被称为单元选择合成方法中，对于英语和大多数基于字母的语言，作为基本声音数据单元的语音单元是音素，而对于汉语方言以及其它的基于字符的语言，语音单元通常是音节。在作为单元选择合成的子集的双音合成中，语音单元是双音素，它是一个音素的后半部分，其后跟随着下一音素的前半部分。

在TTS连接语音合成中，文本被输入到语言处理器中，进行归一化，句法解析，映射到一个适当的语音单元的串中，指定如持续时间及语调模式的韵律格式。语音单元接着被送到声音选择器，它从声音库存中选择合适的声音单元，以匹配语音和输入文本的韵律输入。这些被选择的声音单元被连接并作为合成语音信号被输出。

在单元选择合成中，声单元选择通常基于两个代价函数，(i)在库存中的声音单元(孤立的)和输入文本的语音及韵律内容的语音单元之间的目标代价(即，它们的相似度)；和(ii)定义在一对声单元之间的连接代价(即，单元连接起来的平滑度)。选择的声单元序列是给出的语音及韵律输入中使目标和连接代价总和最小的一个。

双语TTS正逐渐变得非常有用，特别是英语单词可被采纳而进入到外语中，比如英语技术和软件有关的单词被直接使用，不再试图翻译成普通话。典型的双语TTS方案简单地在两个独立的TTS引擎中交替，适合两种不同的语言。每种引擎选择声单元来与它匹配语音和韵律输入，这是其适合的语言文本。采用这种方法的系统如图1所示的框图。

将双语输入文本Ti输入到语音合成装置10。语言处理器和分离器12将该文本流处理为语音单元并将其分为两个数据流，基本语言语音单元流Rp和辅助语言语音单元流R_s。将基本语言语音单元流Rp输入到基本语言声单元选择器14，将辅助语言语音单元流R_s输入到辅助语言声单元选择器16。

存储器20包括两个声单元库存：基本语言声单元库存22，其保存基本语言声单元的库存，以及辅助语言声单元库存24，其保存辅助语言声单元的库存。基本语言声单元从第一讲话者记录，而辅助语言声单元从第二讲话者记录。

响应基本语言语音单元流Rp，基本语言声单元选择器14从基本语言声单元库存22中选择合适的基本语言声单元AUp。响应辅助语言语音单元流R_s，辅助语言声单元选择器16从辅助语言声单元库存24中选择合适的辅助语言声单元AUs。

选择的基本语言声单元AUp被基本语言连接器32连接为基本语言信号流Sp，选择的辅助语言声单元AUs被辅助语言连接器34连接为辅助语言信号流Ss。基本和辅助语言信号流Sp和Ss被加法器36合并，同时相应的两个语言信号流部分的文本出现在原始双语输入文本Ti中。这产生了所期望的双语合成输出声音信号Si，该信号Si是对应于输入文本的语音信号。

对于这种方法，双语输出声音信号Si包含来自两个不同库存的两个声音。理想的双语方案是同一个人提供两种语言的声库存。然而，很难识别一个能以母语和专业的方式讲两种语言的讲话者。因此，如果用同一人，第二语言听起来像听错了或夹杂着第一语言的声音，听起来有些怪，产生令人不愉快的听觉效果。可选择地，选用不同讲话者，合成语音内的单独的句子听起来好像是几句话。因此尽管采用先进的技术，对于用户来说，其效果听起来退步了并有些怪异。

发明内容

在说明书，包括权利要求书中，术语‘包括(comprises、comprising)’或类似的术语意旨非排他性的包括，如一种包括一系列组件的方法或装置，不只包括这些组件，还可包括其它未列出的组件。

根据本发明的一方面，提供包含多个第三组声单元的一组声单元。第三组声单元是从包含多个第一组声单元的第一组的声单元和包括对应于多个第一组声单元的多个第二组声单元的第二组的声单元中获得的。单个第三组声单元是通过改善单个第二组声单元声特征成分，使其在数值上接近单个相应第一组声单元的声特征成分而获得的。

根据本发明的另一方面，提供存储根据本发明第一方面的一组声单元的存储设备。

根据本发明的又一方面，提供用于声单元的语音合成的移动电子设备。该设备包括声单元的第一和第二库存，第一和第二声单元选择器和连接器。声单元的第一库存存储一组第四组声单元。声单元的第二库存存储一组第三组声单元。第一选择器从声单元的第一库存选择一个或多个第四组声单元。第二选择器从声单元的第二库存选择一个或多个第三组声单元。连接器连接所选的一个或多个第一组声单元与所选的一个或多个第二组声单元。而且，第三组声单元是从多个第一组声单元和对应于多个第一组声单元的多个第二组声单元获得的，单个第三组声单元是通过改善单个第二组声单元的声特征成分，使其在数值上接近单个相应第一组声单元的声特征成分而获得的。比如，该设备可包括电话。

根据本发明的又一方面，提供用于语音合成的声单元的方法。该方法包括提供包含多个第一组声单元的第一组的声单元；提供包含对应于多个第一组声单元的多个第二组声单元的第二组的声单元；和改善第二组声单元。改善第二组声单元的声特征成分，使其在数值上接近单个相应第一组声单元的声特征成分，由此提供第三组声单元。

根据本发明的又一方面，提供一语音转换器，用来改善包含多个第二组声单元的一组声单元。该语音转换器包括提供包含第一和第二输入和一个改善器。第一输入接收第一组声单元。第二输入接收对应于接收到的第一组声单元的第二组声单元。对于第二组声单元的声特征成分，改善器利用它们相应的第一组声单元的相应的声特征成分来使它们改善，由此单个第二组声单元听起来更像由一个能发出相应第一组声单元的讲话者所说的一样。

典型地，所用的声特征成分是谱成分和/或基音成分。

附图简要说明

为了容易理解本发明并将其付诸实际效果，现在将结合附图参考引用所示的优选、非限制性实施例。

图1是现有技术的双语连接TTS语音合成系统的方框图；

图2说明根据本发明实施例的用于改善声单元的系统；

图3是说明图2系统的示范操作的流程图；

图4A和4B是说明图3改善步骤的基本操作的流程图；

图5是说明根据本发明实施例的双语连接TTS语音合成系统的方框图；

图6是说明图5系统的基本操作的流程图；和

图7是根据本发明又一实施例的无线电话的方框图。

具体实施例

在附图中，不同附图的相同的标记号始终用来指示相同的组件。

本发明的一实施例提供双语连接语音合成移动电话，其能合成并连接从基本和辅助语言库存中选择的声单元。辅助语言库存的声单元是改善的声单元，其从第一和第二组声单元得出，记录自使用第二语言的不同人。，第二组声单元被改善得听起来更像是由发出第一组声单元的讲话者来说它的声音，同时仍保持发出第二组声单元的讲话者的发音。这是通过改变第二组声单元的子单元的谱和基音成分的数值而获得的，这个改变是基于它们相应的第一组声单元的子单元的谱和基音成分的相应数值的。改善后的第二组声单元形成第三组声单元，其储存在辅助语言库存中。

图2说明根据本发明实施例、用来改善声单元的系统40。在这个实施例，将修改的声单元是用于记录第二语言的。图2的系统是以来自第一讲话者的第一组第二语言声单元Xsp和来自第二讲话者的第二组第二语言声单元Yss开始的。第一讲话者不是第二语言的地道讲话者，而第二讲话者是第二语言的地道讲话者。

系统40根据相应的第一组声单元Xsp的特性，特别是根据相应的声单元的第一组Xsp的声音特性，来改善第二组声单元Yss。用这种方式，从第二讲话者记录的改善的辅助语言声单元听起来更像是由第一讲话者说的，同时仍保持第二讲话者更准确的发音。在这个实施例中的第二组声单元Yss的改善是基于话音/非话音(voiced/unvoiced)子单元分解和作为声特性的基音/谱特性的。

在这个优选实施例，第一讲话者是选择的第一、基本语言的地道讲话者，第一组声单元是从用第二语言朗读一文本的第一讲话者记录的，如刚才所述。第二讲话者是选择的第二、辅助语言的地道讲话者，第二组声单元是从用第二语言朗读一文本的第二讲话者记录的，如刚才所述。

对于系统40，第二组声单元的每个声单元Yss与其相应的在第一组声单元内的声单元Xsp同时下载。第一组声单元Xsp和相应的第二组声单元Yss输入到第一分解器42和第二分解器44。第一分解器42将单独的第一组声单元Xsp分解为第一组非话音子单元Usp和第一组话音子单元Vsp。第二分解器44将单独的第二组声单元Yss分解为第二组非话音子单元Uss和第二组话音子单元Vss。比如，如果第二组声单元包含15帧，有3帧是非话音，下面8帧是话音，最后4帧是非话音，那么第二组声单元被分解为3个子单元(两个非话音和一个话音)。第一子单元将是第二组非话音子单元Uss，包含开始的3帧。第二子单元是第二组话音子单元Vss，包含接下来的8帧。第三子单元是第二组非话音子单元Uss，包含最后的4帧。声单元中子单元的数目是变化的。如果使用音节来作为声单元，可能典型地包括1至3个子单元。如果使用字来作为声单元，那么每个声单元的子单元的数目范围可能更大。

谱改善器46根据各自的第一组非话音子单元Usp来改善第二组非话音子单元Uss。基音和谱改善器48根据各自的第一组话音子单元Vsp来改善第二组话音子单元Vss。第二组非话音子单元Uss的谱改善将第二组非话音子单元Uss的谱特性改善得更像各自第一组非话音子单元Usp的谱特性。第二组话音子单元Vss的谱改善将第二组话音子单元Vss的谱特性改善得更像各自第一组话音子单元Vsp的谱特性。第二组话音子单元Vss的基音改善将第二组话音子单元Vss的基音特性改善得更像各自第一组话音子单元Vsp的基音特性。经改善的第二组子单元Vss和Uss由加法器50组合为第三组改善的声单元Xss。

在第一和第二组声单元Xsp和Yss中的每个声单元包含许多帧。帧的个数决定于瞬时单元。每个帧包含固定数量的信号采样(信号采样的典型数量是每帧240，典型的采样率为16kHz)。声单元Xsp和Yss由特征矢量表征，特征矢量是从每帧的信号中获得的。

使用一帧中的信号采样来估算该帧话音/非话音信息和该帧的谱特征矢量(包含许多元素)。如果该帧是话音帧，也可使用该帧内的信号采样来估算该帧的基音特征值(提供时标)。

在语音转换器40中的谱改善是改善谱矢量，而语音转换器40中的基音改善是改善基音值。

更具体地说，谱改善器46是通过乘以一个非话音谱比例矢量来改善第二组非话音子单元Uss的谱矢量的元素。第二组非话音子单元Uss的非话音谱比例矢量是一个比例矢量。矢量的每个比例元素是相应第一组非话音子单元Usp所有帧上相应谱元素的平均值与第二组非话音子单元Uss所有帧上自身相应谱元素平均值的比例。

基音和谱改善器48，通过乘以一个话音谱比例矢量来改善第二组话音子单元Vss的谱矢量元素。第二组话音子单元Vss的话音谱比例矢量是一个比例矢量。矢量中的每个比例元素是相应第一组话音子单元Vsp所有帧上相应谱元素的平均值与第二组话音子单元Vss所有帧上自身相应谱元素的平均值的比例。

基音和谱改善器48进一步通过乘以一个话音基音比例来改善第二组话音子单元Vss的基音值。第二组话音子单元Vss的话音基音比例是相应第一组话音子单元Vsp所有帧上相应基音的平均值与第二组话音子单元Vss所有帧上自身相应基音的平均值的比例。

比如，话音子单元(第一组或第二组)包含N个帧。从每一帧中估算谱特征矢量(比如，有M个元素的矢量，如10个元素)和基音值(刻度)。因此，对于这样的子单元，谱矢量和基音矢量(基音值)可表示为：

X＝{S(n，i)，i＝1，...M；n＝1，...N}

(其中一个维度是帧，另一维度是频率)，和

P＝{p(n)，n＝1，...N}

其中i是谱元素的下标(频域)，n是子单元内帧的下标。

谱矢量成分的平均是由所有帧确定的，而不是从帧内确定的，并且是由下面这个公式得出：

\overset{&OverBar;}{X} = {\overset{&OverBar;}{S} (i) = [Σ_{n = 1}^{N} s (n, i)] / N, i = 1, . . . M} .

基音平均值是从下面公式得出：

\overset{&OverBar;}{P} = [Σ_{n = 1}^{n} p (n)] / N .

和指第一组子单元和第二组子单元各自谱矢量的平均。

谱比例矢量R_s，用来改善帧的谱矢量，可如下得出：

R_{s} = {\overset{&OverBar;}{S_{1}} (i) / \overset{&OverBar;}{S_{2}} (i), i = 1, . . . M}

基音比例R_p，用来改善帧基音值的，可如下得出：

R_{p} = \overset{&OverBar;}{P_{1}} / \overset{&OverBar;}{P_{2}} .

比如，假定三个非话音帧的第二组子单元，每个具有在[0，32767]内归一化的谱元素，其中谱矢量为：

第一帧：[2509，5320，8679，11638，14181，17497，20703，24383，26938，30012]，

第二帧：[2221，5621，8098，12231，12123，18964，23122，22592，27000，30369]，和

第三帧：[2332，5781，8590，12642，12984，18091，22166，23098，27111，29876]。

根据帧内谱元素的位置，谱元素形成组S₂(i)。对于上述帧：

S₂(1)＝{2509，2221，2332}，

…

S₂(5)＝{14181，12123，12984}，

…

S₂(10)＝{30012，30369，29876}.

(所有子单元的帧内，第二组子单元的谱矢量的第i个元素[第i组]的平均值)是：

\overset{&OverBar;}{S_{2}} (1) = (2509 + 2221 + 2332) / 3 = 2354

\overset{&OverBar;}{S_{2}} (10) = (30012 + 30369 + 29876) / 3 = 30085.7

因此，

\overset{&OverBar;}{X_{2}} = {2354, . . . . . ., 30085.7} .

如果通过相似途径获得相应第一组子单元的基音比例矢量可如下得出：

Rs = {\frac{\overset{&OverBar;}{S_{1}} (1)}{\overset{&OverBar;}{S_{2}} (1)}, . . ., \frac{\overset{&OverBar;}{S_{1}} (10)}{\overset{&OverBar;}{S_{2}} (10)}} = {\frac{3129}{2345}, . . . \frac{27845.3}{30085.7}} = {1.33, . . . . . . 0.93}

帧的第二组子单元的谱矢量改善是如下执行的：

第一帧：[2509*1.33，...，...，......，30012*0.93]

第二帧：[2221*1.33，...，...，......，30369*0.93]

第三帧：[2332*1.33，...，...，......，29876*0.93]

相似地，如果第二组子单元的基音矢量是：

第一帧：150，

第二帧：145和

第三帧：142，

那么第二组子单元的基音平均值是，

\overset{&OverBar;}{P_{2}} = (150 + 145 + 142) / 3 = 145.7

如果第一组子单元的基音平均值是用相似的方式获得，如

\overset{&OverBar;}{P_{1}} = 152.2

那么基音比例为

R_p＝152.2/145.7＝1.05

因此，第二组子单元的基音值将被改善为：

第一帧：150*1.05，

第二帧：145*1.05和

第三帧：142*1.05。

这样的改善可对每个第二组声单元的子单元执行。

第二组声单元的改善使得它们具有与第一讲话者提供的第一组声单元相似的讲话者特征，同时由于子单元的持续时间未变化，所以保持第二讲话者的瞬时动态发音。

现参照图3描述图2声单元改善系统的示范操作。在步骤S102，输入的第一组声单元Xsp被分解为第一组非话音子单元Usp和第一组话音子单元Vsp。在步骤S104，输入的第二组声单元Yss被分解为第二组非话音子单元Uss和第二组话音子单元Vss。在步骤S106，基于第一组非话音子单元Usp改善第二组非话音子单元Uss。在步骤S108，基于第一组话音子单元Vsp改善第二组话音子单元Vss。经改善的非话音和话音子单元在步骤S110被组合为改善的声单元Xss。这形成第三声单元，其接着被按需存储，比如储存在许多移动电子设备(如移动电话)中每个的库存中。

现参照图4A描述图3的第二组非话音子单元改善步骤S106的基本操作。在步骤112，第二组非话音子单元Uss的谱矢量乘以非话音谱比例矢量，非话音谱比例矢量是相应第一组非话音子单元Usp所有帧上谱矢量成分的相应元素的平均值与第二组非话音子单元Uss自身所有帧上相应谱矢量成分的相应元素的平均值的比例。

现参照图4B描述图3的第二组话音子单元改善步骤108的基本操作。在步骤122，第二组话音子单元Vss的谱矢量乘以话音谱比例矢量，话音谱比例矢量是相应第一组话音子单元Vsp所有帧上谱矢量成分的相应元素的平均值与第二组话音子单元Vss自身所有帧上相应谱矢量成分的相应元素的平均值的比例。

在步骤124，第二组话音子单元Vss的基音矢量乘以话音基音比例，话音基音比例是相应第一组话音子单元Vsp的平均基音值与第二组话音子单元Vss自身的平均基音值的比例。

参照图5，描述根据本发明一实施例的双语连接TTS语音合成系统。这大体上与图1的系统相同，不同在于辅助库存内的不同内容。

从输入的电话信号产生双语输入文本信号Ti并将其输入到语音合成装置60。语言处理器和分离器12处理该文本流，将其分离为两个流，基本语言语音单元流Rp和辅助语言语音单元流Rs，并接着产生该文本的语言说明。

输入文本的每一部分指定一语言。当输入文本是英文和中文的组合时，将基于按输入文本特征机器码识别并分离来自不同语言的文本。相似的方法可用在选用不同字符集的不同语言的其它组合上。

接着对语言处理进行归一化、句法分析并在这个实施例的电话中，把输入文本在声单元的两个合适串内进行映射，指定持续时间及语调的模式。在相关语言字典内查找不同语言的单词，词典规定发音，指示声单元的串。如果一个词没有出现在词典里，就由此在字符接字符的基础上产生声单元。对每个声单元产生语调，重音，音高升降，持续时间等，作为声序列规范的参数。

当语言不能只基于字符区分时，可使用词典来查找单个词(或者它们的词根)。如果一个词不能在任何词典里找到，就假定其来自于基本语言，并且由此在字符接字符的基础上产生声单元。

在上述实施例中，首先分离，然后声单元的单独流进行语言处理。在可替换的实施例中，分离操作可基于在语言处理期间做出的语言判定而将声单元的流分为两个流。

将基本语言语音单元流Rp输入到基本语言声单元选择器14，并且将辅助语言语音单元流Rs输入到辅助语言声单元选择器16。

存储器62包含两个声单元库存：保存基本语言声单元库存的基本语言声单元库存22和保存辅助语言声单元库存的辅助语言声单元库存64。基本语言声单元Xpp组成第四组声单元。这是从对基本语言很专业并是母语的第一讲话者记录的(如前)。辅助语言声单元Xss是从图2描述的改善系统40输出的，它是如前所述的第三组声单元。因此，它们是从对辅助语言很专业并是母语的第二讲话者记录的，但使用从对基本语言很专业并是母语的第一讲话者记录的声单元对其进行了改善。通常，在基本语言声单元库存22中记录的基本语言声单元的讲话者是相同的。

响应于基本语言语音单元流Rp，基本语言声单元选择器14在基本语言声单元库存22中(基于目标和连接代价)从第四组声单元选择最适合的基本语言声单元Xpp。

响应于辅助语言语音单元流Rs，辅助语言声单元选择器16在辅助语言声单元库存64中(基于目标和连接代价)从第三组声单元Xss选择最适合的辅助语言声单元。

选择的基本语言第四组声单元Xpp和选择的辅助语言第三组声单元Xss被输入到连接的合成器56。

连接的合成器66以与出现在最初双语输入文本Ti、两种语言的信号流部分所对应的文本相同的时序，连接选择的第四组声单元Xpp和选择的第三组声单元Xss同时。同时根据在语言处理器和分离器12中产生的声序列参数来改善这一系列的连接单元。

连接的合成器66如图5的一个单独盒状结构(box)所示，但具有与图1的两个连接器32，34和加法器36全部相同的功能。结果是期望的合成双语输出声信号S，是对应于输入文本的语音。

当辅助语言库存64中的第三组改善的声单元与基本语言库存22的基本语言第四组声单元连接时，在双语输出声信号S内产生改善的话音连贯性，如同全文是由一个讲话者说的。从辅助讲话者记录的第三组声单元Xss，具有与从基本讲话者记录的声单元相似的讲话者特征。然而，该改善仍允许第三组声单元Xss保持辅助讲话者的瞬时动态发音。如上所述，这是通过前面改善第二组声单元而取得的，在这种情况下，将第二组声单元Yss的子单元Uss，Vss的特定成分乘以一个比值，该比值是相应选择的第一组声单元Xsp的子单元Usp，Vsp的相同特定成分的平均值与第二组声单元Yss的子单元Uss，Vss自身那些特定成分的平均值的比例。

现参照图6来描述图5双语连接TTS语音合成系统的基本操作。在步骤S142，输入一双语输入文本信号，比如该文本可以是“我选B号”。在步骤144，输入文本信号被分离为两种语言，中文文本“我选”和“号”及英文文本“B”。在步骤S144内，这两个文本流都进行语言处理。对于中文文本“我选”和“号”，语言处理器得到声单元流“wo3xuan3”和“hao4”，其中“wo3”“xuan3”和“hao4”是‘我选’和‘号’发音的音节符号(拼音)。对于英文文本“B”，语言处理器提供声单元流“b iy1”，其中“b”和“iy1”是“B”发音的音素符号。在步骤S146，分别将对应于“wo3”“xuan3”和“hao4”的基本语言声单元Upp1，Upp2和Upp3从第四组声单元中选出。在步骤S148，分别将对应于“1”和“iy1”的辅助语言声单元Uss1和Uss2从第三组声单元中选出。选择的第四组声单元Xpp和选择的第三组声单元Xss被连接成序列：Upp1Upp2 Uss1Uss2Upp3，并在步骤S105合成，合成的信号在步骤S152输出。

在上述的实施例中，改善的声特征成分是谱成分和基音成分，其中基音成分的改善是最有效的。根据又一实施例，基音成分的改善没必要包括任何谱成分的改善。这可通过根本不改善非话音子单元，而只改善话音子单元来获得。甚至单独谱改善也提供一些改进。因此，在又一实施例中，谱成分的改善没必要包括任何基音成分的改善。这可通过让所有子单元通过谱改善器而不让任何子单元通过基音改善器来得到。在又一实施例中，声单元的其它特征也可被改善。

参照图7，描述本发明可用上的无线电话300。无线电话300有与处理器304通信连接的射频通信单元302。形式上为屏幕306和键盘308的输入界面也通信连接到处理器304。

处理器304包括一个具有相关的只读存储器(ROM)312的编码器/解码器310，ROM 312存储对将由无线电话300传送或接收的话音或其它信号进行编码和解码的数据。处理器304还包括微处理器314，微处理器314通过共用数据地址总线316连接到编码器/解码器310及其相关的字符只读存储器(ROM)318、声单元库存只读存储器(ROM)320(如图5示范实施例的存储器54的操作)、随机存取存储器(RAM)320、静态可编程存储器324和可拆卸SIM模块326。其中，静态可编程存储器324和SIM模块326每个都能存储选择的输入文本信息和电话号码的电话薄数据库。

微处理器314有与键盘308、屏幕306、提示模块328、麦克风330和扩音器332连接的端口，提示模块包括一个振动马达和相关的驱动。

字符ROM 318存储用于解码或编码文本信息的代码，它可通过通信单元302接收，由键盘308输入。字符ROM 318和库存ROM 320都存储微处理器314的操作码(OC)，库存ROM 320中的OC用于TTS合成。特别地，它包含的OC允许微处理器314如图5的语音合成装置一样运转。

射频通信单元302是具有公共天线334的组合接收器和发送器。射频通信单元302具有通过射频放大器338与天线334连接的收发器336。收发器336也连接到组合的调制/解调器340，它将通信单元302连接到处理器304。

在上述的实施例中，在移动电话中实施语音合成。本发明不限制在这种用途，可覆盖其它用处，比如在个人数字助理(PDA)、计算机或其它设备，无论是另一方发出的、由用户在输入存储器上输入的信号的结果，还是其它所提供的。

上述实施例用于双语语音合成。然而本发明不限制在这两种语言。比如如果只能获得从第一讲话者有限的录音，一种语言也是适用的。超过两种语言也是适用的，其中输入信号可被分离为每种语言和其它语言的库存，并提供声单元选择器用于每种语言。连接的合成可以是两种、或者两种或三种以上、或者更多种语言的连接。

在上述实施例中，无论基本语言包括输入信号的大部分还是小部分，辅助语言的改善声单元连接的都是基本语言。

在又一示范实施例中，基本语言库存中的第四组声单元是声单元的改善组，基于讲基本语言的辅助讲话者改善。这与上面描述的将第二组改善为第三组的方法相类似。用这种方法，该单元听起来更像是来自同一讲话者。在这种情况下，该文本主要是基本还是辅助语言就无关紧要了。

在又一实施例中，还有两组声单元，一组在基本语言库存，一组在辅助语言库存。在基本语言库存中的另一组是改善组，以与改善的辅助语言的第三组相似的方式改善。在辅助语言库存中的另一组是非改善组，等价于未改善的基本语言库存的第四组。基本语言的改善组与辅助语言的非改善组一起使用，其使用方式与辅助语言的改善组与基本语言的非改善组一起使用相类似。比如，很可能当该文本或至少它的当前部分主要来自辅助语言时就是这样的。提供比较器，用于判断哪路分离的文本流将作为多数文本流，哪路作为少数文本流。比如，这能基于完整的分离信号，如果不要求即刻的语音合成，基于在信号的各种不同点或在输入信号的最初几秒的随机采样。对少数文本流选择的声单元来自改善的声单元的相关组。

在本发明又一可替换实施例中，在电子设备中，将一种语言的声单元改善得听起来更像其它语言的声单元的改善是在使用点上进行的。这个实施例采用如图5所示系统的改善版本。因此改善的辅助语言库存包含来自第一和第二讲话者的辅助语言声单元组。改善的辅助语言声单元选择器从两组中选择声单元。当前如图2所示的转换过程(参照图3和4描述)是在改善的辅助语言声单元选择器和合成连接器之间的语音转换器中进行的。在上述提及大部分实施例中可进行进一步的修改和替换。在存储器的使用上，这个实施例比主要实施例更繁重。

在上述实施例中，声单元是单音。其它实施例可使用其它声单元类型，比如，双音、三音或一些其它单元，甚或这些串或音节。

在上述实施例中，用来乘各种帧的成分的改善器是平均的比值。可替换地，可以以不同方式设计该改善器，比如使它们加权以产生与第一组声单元更相近或者可能不那么相近的结果。

在上述实施例中，谱特征在话音和非话音子单元都被改善，同时基音值只对话音子单元改善。在可替换实施例中，基音值可以对所有子单元或不对子单元改善。这可以通过乘一个相关的比例，或通过其它改善，以与对谱特征和基音特征相同的方法来实现。可替换地，这种改善可通过其它方式，比如通过时域基音同步叠加(TD-PSOLA：TimeDomain Pitch Synchronous Overlap and Add)，这是一种公知的方法。

上述的示范实施例和上面提及的替换例包括许多步骤，可以用几种形式实现，比如作为专用硬件部分或作为机器可执行的指令，在通用或专用编程处理器或逻辑电路中执行。在其它实施例中，多个附图所示的那些不同方框中的某些或全部被解释为对应于特定软件模块、模块的部分或多个模块，该模块提供指定的功能。本发明的示范实施例还包括由硬件和软件的组合所执行的各种步骤。

可提供又一实施例，作为计算机程序产品，比如存储在互联网或其它网络或可机读介质上、具有存储在其上的指令的计算机程序。这样的指令可用于对移动电话或其它便携、非便携设备或计算机内的微处理器编程。示例的可机读介质包括：盘、卡、存储棒和其它存储装置，无论光的还是磁的，只读的还是可写的。

有利地，本发明实施例能使双语TTS系统产生优雅和自然动听的语音输出，让人感觉像来自一个讲话者的声音，有时称为单一讲话者双语TTS(SSBL-TTS)。

上面的详细说明只是为了提供优选的示范实施例，而并不想限制本发明的范围、适用性或结构。对优选示范实施例的详细说明是为了向本领域技术人员提供一个使其能够实现本发明的优选实施例的说明。应该可以理解，在不背离所附权利要求中所阐述的本发明的精神和范围的前提下，可以对组件的功能和结构做出多种不同的改变。

Claims

1.一种用于声单元的语音合成的移动电子设备，其包括：

第一选择器，用于从声单元的第一库存选择一个或多个第四组声单元，所述声单元的第一库存以基本语言记录；

第二选择器，用于从声单元的第二库存选择一个或多个第三组声单元，所述声单元的第二库存以辅助语言记录；和

连接器，用于连接并合成被选择的一个或多个第三组声单元和被选择的一个或多个第四组声单元；其中

所述第三组声单元从多个第一组声单元和对应于多个第一组声单元的多个第二组声单元获得，所述单个第三组声单元是通过改善单个第二组声单元的基音和谱特征，使其在数值上接近单个相应第一组声单元的基音和谱特征而获得的。

2.根据权利要求1所述的设备，其中

所述第一组声单元和所述第四组声单元是从相同的第一人获得的；和

所述第二组声单元是从不是所述第一人的第二人获得的。

3.根据权利要求1所述的设备，其中所述第三和第四组声单元是从不同语言获得的。

4.根据权利要求1所述的设备，其中在所述第一和第二组的声单元内的声单元是从同一语言获得的。

5.一种提供用于语音合成的声单元的方法，其包括：

提供包含多个第一组声单元的第一组的声单元，所述第一组的声单元以基本语言记录；

提供包含对应于多个第一组声单元的多个第二组声单元的第二组的声单元，所述第二组的声单元以辅助语言记录；和

改善所述第二组声单元的基音和谱特征，使其在数值上接近单个相应第一组声单元的声特征成分，由此提供第三组的声单元。