CN101373592A

CN101373592A - 语音翻译装置和方法

Info

Publication number: CN101373592A
Application number: CNA2008101611365A
Authority: CN
Inventors: 徐大威; 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-08-21
Filing date: 2008-08-21
Publication date: 2009-02-25
Also published as: US20090055158A1; JP2009048003A

Abstract

一种语音翻译装置，包括：用于识别第一语言的输入语音以生成第一语言的第一文本的语音识别单元，用于比较输入语音的原始韵律信息和基于第一文本的第一合成韵律信息以提取关于第一文本的第一组词的每一个的副语言信息的提取单元，用于将第一文本翻译成第二语言的第二文本的机器翻译单元，用于根据同义性将关于第一组词的每一个的副语言信息分配给第二文本的第二组词的每一个的映射单元，用于基于分配给第二组词的每一个的副语言信息生成第二合成韵律信息的生成单元，以及用于基于第二合成韵律信息合成输出语音的语音合成单元。

Description

语音翻译装置和方法

相关申请的交叉引用

本申请基于并要求申请日为2007年8月21日、申请号为2007-214956的在先日本专利申请的优先权，其全部内容在此被包含以作为参考。

技术领域

本发明涉及语音翻译装置和方法，其执行语音识别、机器翻译和语音合成，从而将第一语言的输入语音翻译成第二语言的输出语音。

背景技术

至今已开发的任何语音翻译装置都执行三个步骤，即语音识别、机器翻译和语音合成，从而将第一语言的输入语音翻译成第二语言的输出语音。也就是说，其执行:步骤(a)，识别第一语言的输入语音，生成第一语言的文本；步骤(b)，对第一语言的文本进行机器翻译，生成第二语言的文本；以及步骤(c)，对第二语言的文本执行语音合成，生成第二语言的输出语音。

输入语音不仅包含由文本表示的语言信息，而且包括所谓的副语言(paralinguistic)信息。副语言信息是显示说话人的重点、强度和态度的韵律信息。副语言信息不能由文本表示，并将在识别输入语音的过程中丢失。不可避免地，传统的语音翻译装置很难生成反映副语言信息的输出语音。

JP-A H6-332494(公开号)公开了一种语音翻译装置，其分析输入语音，从输入语音中提取带有重音的词，并将重音添加到输出语音中与从输入语音中提取的词等同的那些词上。JP-A 2001-117922(公开号)公开了一种语音翻译装置，其生成翻译后的语音，在该语音中，词顺序被改变，并且使用了合适的格助词，从而反映韵律信息。

JP-A H6-332494(公开号)公开的语音翻译装置仅仅基于输入语音中包含的语言信息分析了带有重音的词，然后将重音添加到翻译后的语音所包括的等同的词上。其在输出语音中没有反映副语言信息。

JP-A 2001-117922(公开号)公开的语音翻译装置的缺点在于:输入语音被限制为韵律信息可通过改变词顺序和使用合适的格助词来表示的语言。因此，如果输入语音采用例如一种词序变化很小的西方语言或者没有格助词的中文，则该语音翻译装置不能生成充分反映韵律信息的翻译后的语音。

发明内容

根据本发明的一个方面，提供了一种语音翻译装置，其包括:用于识别第一语言的输入语音以生成所述第一语言的第一文本的语音识别单元；用于分析所述输入语音的韵律以获得原始韵律信息的韵律分析单元；用于将第一文本分割成第一组词以获得第一语言信息的第一语言-分析单元；用于基于所述第一语言信息生成第一合成韵律信息的第一生成单元；用于比较所述原始韵律信息和所述第一合成韵律信息以提取关于所述第一组词的每一个的副语言信息的提取单元；用于将所述第一文本翻译成第二语言的第二文本的机器翻译单元；用于将所述第二文本分割成第二组词以获得第二语言信息的第二语言-分析单元；用于根据同义性将关于所述第一组词的每一个的副语言信息分配给所述第二组词的每一个的映射单元；用于基于所述第二语言信息和分配给所述第二组词的每一个的副语言信息生成第二合成韵律信息的第二生成单元；以及用于基于所述第二语言信息和所述第二合成韵律信息合成输出语音的语音合成单元。

附图说明

图1是示出根据一个实施例的语音翻译装置的方框图；

图2是说明图1的语音翻译装置如何工作的流程图；

图3是表示通过利用图1中所示的韵律分析单元分析原始韵律信息而获得的示例性对数基频轮廓线的曲线图；

图4是表示由图1中所示的第一生成单元生成的第一合成韵律信息的示例性的对数基频轮廓线的曲线图；

图5是表示由图1中所示的第二生成单元仅根据第二语言信息生成的合成韵律信息的示例性的对数基频轮廓线的曲线图；

图6是表示通过使用副语言信息校正图5的对数基频轮廓线而获得的合成韵律信息的示例性的对数基频轮廓线的曲线图。

具体实施方式

本发明的实施例将参照附图进行描述。

(第一实施例)

如图1所示，根据本发明的实施例的语音翻译装置具有语音识别单元101、韵律分析单元102、第一语言-分析单元103、第一生成单元104、提取单元105、机器翻译单元106、第二语言-分析单元107、映射单元108、第二生成单元109以及语音合成单元110。

语音识别单元101识别第一语言的输入语音120，并生成最忠实地描述输入语音120的识别文本121。尽管语音识别单元101没有在操作方面被详细定义，但其具有接收输入语音120并根据输入语音120生成语音信号的麦克风。语音识别单元101对语音信号执行模数转换以生成数字语音信号，然后从数字语音信号中提取一系列特征量，诸如线性预测系数或频率倒谱系数，并通过使用声学模型来识别输入语音120。该声学模型例如是隐马尔可夫模型(HMM)。

韵律分析单元102接收输入语音120并逐个分析构成输入语音120的词。更具体地，单元102分析每一个词的韵律信息，例如，基频和平均功率的变化。这个分析的结果作为原始韵律信息122输入到提取单元105。

第一语言-分析单元103接收识别文本121，并分析关于文本121的语言信息，例如词边界、词性和句子结构，从而生成第一语言信息123。第一语言信息123被输入到第一生成单元104。第一生成单元104根据第一语言信息123生成第一合成韵律信息124。第一合成韵律信息124被输入到提取单元105。

提取单元105比较原始韵律信息122和第一合成韵律信息124，并提取副语言信息125。原始韵律信息122已经通过直接分析输入语音120而获得。因此，原始韵律信息122不仅包括语言信息，而且包括副语言信息，例如，说话人的重点、强度和态度。另一方面，第一合成韵律信息124已经根据通过分析识别文本121而获得的第一语言信息123生成。然而，第一合成韵律信息124不包含副语言信息，该副语言信息包含在输入语音120中，并且在输入语音120在语音识别单元101中被转换为识别文本121时丢失。因此，原始韵律信息122和第一合成韵律信息124之间的差异对应于副语言信息125。基于这个差异，提取单元105逐词地提取副语言信息125。这样提取的副语言信息125被输入到映射单元108。

由非特定的人讲的输入语音具有特殊的非语言特征。因此，提取单元105对原始韵律信息122和第一合成韵律信息124都进行归一化。例如，提取单元105对原始韵律信息122中的每个词的峰值与原始韵律信息122的线性回归值的比率(例如，基频和平均功率随时间的变化)进行归一化，作为原始韵律信息122的特征量。提取单元105也以相似的方式对第一合成韵律信息124进行归一化。然后，提取单元105按照特征量将这些词进行相互比较，并提取副语言信息125。更准确地，单元105提取通过从利用对原始韵律信息122进行归一化来对每个词计算的特征量中减去利用对第一合成韵律信息124进行归一化来对该词计算的特征量而获得的值，作为副语言信息125。

机器翻译单元106执行机器翻译，将识别文本121翻译成第二语言的文本，即翻译文本126，翻译文本126被输入到第二语言-分析单元107。也就是说，机器翻译单元106使用例如词典数据库、分析语法数据库、语言转换数据库等等(未示出)，对识别文本121执行语素分析和结构分析。这样，单元106将识别文本121转换成翻译文本126。进一步地，机器翻译单元106将表示识别文本121的每个词与翻译文本126的等同词之间的关系的信息和翻译文本126一起输入到第二语言-分析单元107。

正如第一语言-分析单元103那样，第二语言-分析单元107分析关于翻译文本126的语言信息，例如词边界、词性和句子结构，从而生成第二语言信息127。第二语言信息127被输入到映射单元108、第二生成单元109和语音合成单元110。

映射单元108将提取单元105已提取的关于每个词的副语言信息125应用于第二语言的等同词(翻译词)。也就是说，映射单元108根据同义性将副语言信息125分配给每一个翻译词。更具体地，映射单元108参考从第二语言-分析单元107提供的第二语言信息127，获取表示识别文本121中的每个第一语言的词和翻译文本126中的等同第二语言的词之间的对应关系的信息。根据该对应关系，映射单元108将副语言信息125分配给翻译文本126中的等同词(翻译词)，从而映射副语言信息125。映射单元108可根据预先设置的转换规则分配副语言信息125，该转换规则在第一语言的词不能简单地只对应第二语言的一个词，或者对应于第二语言的两个不同的词的情况下应用。这样，被映射单元108映射的副语言信息125或者被映射的副语言信息128被输入到第二生成单元109。

第二生成单元109根据第二语言信息127和被映射的副语言信息128生成第二合成韵律信息129。更具体地，第二生成单元109只根据第二语言信息127生成合成韵律信息，并然后将副语言信息128应用于合成韵律信息，从而生成第二合成韵律信息129。副语言信息128可以是例如在前述的峰值与线性回归值的比率方面的差异。在这种情况下，第二生成单元109将副语言信息128添加到只根据第二语言信息生成的合成韵律信息的比率上，从而校正该比率，并基于这样被校正的比率生成第二合成韵律信息129。第二合成韵律信息129被输入到语音合成单元110。

语音合成单元110使用第二语言信息127和第二合成韵律信息129来合成输出语音130。

参照图2的流程图解释图1所示的语音翻译装置如何工作。

首先，语音120被输入到语音识别单元101(步骤S301)。假设语音120输入例如是口语英语文本“Today’s game is wonderful”，其中，说话人将重点落在单词“Today’s”上。语音识别单元101识别在步骤S301输入的语音120，并输出识别文本121“Today’s game is wonderful”(步骤S302)。

接着，图1的语音翻译装置进行并行处理。换句话说，图1的语音翻译装置并行地执行步骤S303到S305的处理和步骤S306的处理。随后，语音翻译装置执行步骤307。

在步骤S303，韵律分析单元102分析关于输入语音120的韵律信息。单元102在基频随时间变化方面逐个地分析构成输入语音120的词，生成原始韵律信息122。原始韵律信息122被输入到提取单元105。

第一语言-分析单元103分析关于识别文本121的语言信息，生成第一语言信息123。第一语言信息123被输入到第一生成单元104。第一生成单元104根据第一语言信息123生成第一合成韵律信息124。第一合成韵律信息124被输入到提取单元105(步骤S304)。注意，步骤S303和S304可以按倒序执行。

然后，提取单元105比较原始韵律信息122和第一合成韵律信息124，并提取副语言信息125(步骤S305)。更准确地，提取单元105通过使用下面将描述的方法来提取副语言信息125。

图3是表示在成年男子产生重点在“Today’s”上的口语文本“Today’sgame is wonderful”的情况下分析基频的结果的图。在图3中，时间(ms)被标示在横坐标上，底数是2的对数基频被标示在纵坐标上。在图3中，点表示分析的结果，并且绘制了线性回归线。图3中所示的基频的峰值与线性回归值的比率(以下称为第一特征量)在下面的表1中给出。

表1

词	第一特征量
词	第一特征量	Today’s	1.047
Game	1.013	Today’s	1.047
Game	1.013	is	1.026

wonderful

1.011

图4是表示对根据通过分析文本“Today’s game is wonderful”而获得的语言信息合成的成年女子声音进行的基频分析的结果的图。在图4中，时间(ms)被标示在横坐标上，底数是2的对数基频被标示在纵坐标上，点表示分析的结果，并且绘制了线性回归线。图4中所示的基频的峰值与线性回归值的比率(以下称为第二特征量)在下面的表2中给出。

表2

词	第二特征量
词	第二特征量	Today’s	1.012
game	1.003	Today’s	1.012
game	1.003	is	1.052
wonderful	1.052	is	1.052

提取单元105比较源自原始韵律信息122的第一特征量和源自第一合成韵律信息124的第二特征量，从而提取副语言信息125。例如，提取单元105从第一特征量中减去第二特征量，如表3所示，生成副语言信息125。副语言信息125被输入到映射单元108。

表3

词	副语言信息
词	副语言信息	Today’s	0.035
game	0.011	Today’s	0.035
game	0.011	is	-0.025
wonderful	-0.041	is	-0.025

在步骤S306中，机器翻译单元106对识别文本121执行机器翻译。在本例中，单元106将识别文本121翻译成第二语言的翻译文本126“Kyou noshiai ha subarashikatta”。在生成翻译文本126的过程中，机器翻译单元106保持识别文本121中的每个词与翻译文本126中的等同词之间的对应关系，并将如表4所示的这种词到词的对应关系与翻译文本126一起输入到第二语言-分析单元107。

表4

词	翻译词
词	翻译词	Today’s	Kyou no
Game	Shiai ha	Today’s	Kyou no
Game	Shiai ha	is
Wonderful	Subarashikatta	is

在步骤S307，映射单元108将在步骤S305中对每个词提取的副语言信息125分配给翻译文本126中的等同翻译词。为了以这种方式分配副语言信息125，映射单元108使用从第二语言-分析单元107输入的第二语言信息127和如表4所示的词到词的对应关系。首先，映射单元108使用第二语言信息127，从而检测构成翻译文本126的词。然后，映射单元108参考表4，将表3中所示的副语言信息125分配给第二语言的词，其分别地等同于构成识别文本121的词“Today’s”、“game”、“is”和“wonderful”。已在步骤S305中提取的副语言信息125的所有项目当然可被分配给翻译文本126。另一方面，只有正值的项目可以分配给翻译文本126，这种方式将在下面说明。在表3的情况下，例如，词“is”和“wonderful”的副语言信息项具有负值。因此，映射单元108不向翻译词“subarashikatta”分配副语言信息125，并执行如表5所示的分配。接下来的说明是基于映射单元108执行表5所示的分配的假设。

表5

翻译词	副语言信息
翻译词	副语言信息	Kyou no	0.035
Shiai ha	0.011	Kyou no	0.035
Shiai ha	0.011	Subarashikatta

接下来，第二生成单元109根据已在步骤S307中分配的副语言信息128生成第二合成韵律信息129(步骤S308)。更具体地，第二生成单元109首先仅根据第二语言信息127生成合成韵律信息。图5示出了对根据通过分析文本“Kyou no shiai ha subarashikatta”而获得的语言信息合成的成年女子的声音进行的基频分析的结果。在图5中，时间(ms)被标示在横坐标上，底数是2的对数基频被标示在纵坐标上，点表示分析的结果，并且绘制了线性回归线。图5所示的基频的峰值与线性回归值的比率(以下称为第三特征量)在下面的表6中给出。

表6

翻译词	第三特征量
翻译词	第三特征量	Kyou no	1.008
Shiai ha	0.979	Kyou no	1.008
Shiai ha	0.979	Subarashikatta	0.966

第二生成单元109通过使用第四特征量来生成第二合成韵律信息129，其中，第四特征量通过在根据合成韵律信息获得的第三特征量中反映副语言信息128而获得，而该合成韵律信息已经只根据第二语言信息127生成。例如，第二生成单元109将副语言信息128添加到第三特征量，从而生成第四特征量。如果通过将表5所示的副语言信息128添加到表6所示的第三特征量来产生，则第四特征量将具有表7中所示的值。

表7

翻译词	第四特征量
翻译词	第四特征量	Kyou no	1.044
Shiai ha	0.99	Kyou no	1.044
Shiai ha	0.99	Subarashikatta	0.966

使用第四特征量，第二生成单元109按照下面的公式(1)计算对于第i个词w_i(i是正整数)的第二合成韵律信息129的对数基频的峰值f_peak(w_i)。

f_peak(w_i)＝f_linear(w_i)×P_paralingual(w_i) (1)

其中，f_linear(w_i)是词w_i所在的对数基频的线性回归值，合成韵律信息在词w_i的峰值处具有峰值，P_paralingual(w_i)是词w_i具有的第四特征量。

使用前述的值f_peak(w_i)，第二生成单元109按照下面的公式(2)计算第二合成韵律信息的对数基频的目标轮廓线f_paralingual(t，w_i)。

f_{paralingual} (t, w_{i}) = \frac{(f_{normal} (t, w_{i}) - f_{min} (w_{i})) \times (f_{peak} (w_{i}) - f_{min} (w_{i}))}{f_{max} (w_{i}) - f_{min} (w_{i})} + f_{min} (w_{i}) - - - (2)

其中，f_normal(t，w_i)是只根据第二语言信息127生成的合成韵律信息中词w_i处的对数基频的轮廓线，f_min(w_i)和f_max(w_i)分别是轮廓线f_normal(t，w_i)的最小值和最大值。

如果目标轮廓线f_paralingual(t，w_i)上升超过规定的对数基频的上限或者下降低于规定的对数基频的下限，则第二生成单元109按照下面给出的公式(3)调整该轮廓线。上限和下限取决于输出语音的类型而改变。也就是说，其具有根据假设为产生输出语音的人的性别和年龄而预先设置的合适的值。

f_{final} (t) = \frac{(f_{paralingual} (t) - F_{bottom}) \times (F_{top} - F_{bottom})}{f_{MAX} - F_{bottom}} + F_{bottom} - - - (3)

其中，F_top和F_bottom分别是输出语音的对数基频的上限和下限，f_paralingual(t)是通过添加前述的目标轮廓线f_paralingual(t，w_i)而获得的翻译文本的对数基频的目标轮廓线，f_MAX是目标轮廓线f_paralingual(t)的最大值，f_final(t)是最终用作第二合成韵律信息129的对数基频的轮廓线。图6示出按照公式(1)-(3)根据图5所示的对数基频轮廓线和表7所示的第四特征量计算的对数基频轮廓线。在图6中，圆点表示图5所示的对数基频轮廓线，方点表示通过在图5的对数基频轮廓线中反映第四特征量而获得的轮廓线。

接下来，语音合成单元110通过合成在步骤S308中获得的第二合成韵律信息129和从第二语言-分析单元107输入的第二语言信息127来生成输出语音130(步骤S309)。在步骤S309中生成的输出语音130从扬声器(未示出)输出(步骤S310)。

如上所述，根据本实施例的语音翻译装置对于每一个词比较原始韵律信息和基于识别文本合成的韵律信息，从而提取副语言信息，并在等同于该词的翻译词中反映副语言信息。因此，该装置可以生成反映诸如说话人的重点、强度和态度的副语言信息的输出语音。因此，语音翻译装置可以帮助其用户促进顺畅的交流。此外，该装置能够在输出语音中反映副语言信息，即使第一语言是词序变化很小的西方语言或者没有格助词的中文。在上述说明的方案中，韵律信息从表示基频随时间的变化的原始韵律信息中提取，作为副语言信息。替代地，副语言信息可从表示平均功率随时间的变化的原始韵律信息中提取。

(第二实施例)

在前面描述的第一实施例中，副语言信息从基频随时间的变化和平均功率随时间的变化中提取，作为韵律信息，然后反映在输出语音中。将描述根据本发明的第二实施例的语音翻译装置，其中，副语言信息从输入语音的每一个词的时长中提取，并反映在输出语音中。下面的说明主要集中于与第一实施例不同的部分。

每一个词的时长不能用任何随时间的变化表示。因此，在本实施例中，副语言信息是向量，其中一个分量是根据每一个词的时长计算的特征量。更具体地，韵律分析单元102分析输入语音120中的每个词，以测量构成该词的语音单元的时长。语音单元可以根据第一语言的类型，即输入语音120的语言，而不同。如果第一语言是英语或中文，则音节适合作为语音单元。如果第一语言是日语，则音拍适合作为语音单元。

表8示出了构成口语文本“Today’s game is wonderful”的音节(即语音单元)的时长，其中该口语文本由成年男子产生，并且他将重点放在词“Today’s”上。

表8

在本实施例中，每个音节的时长被归一化成时长与平均音节时长的比率(以下称为归一化时长)。表9示出了通过对表8中列出的音节时长进行归一化而获得的归一化时长。

表9

在这个实施例中，提取单元105基于上面所定义的归一化时长确定各个词的特征量。特征量对不同的语言可不同。例如，英语单词的特征量可以是具有内容词的主重音的音节的归一化时长。如果输入语音是口语日语文本，则构成任意内容词的音拍的归一化时长的平均值是该词的特征量。表10示出了各个内容词的特征量(以下称为第一特征量)，其已从原始韵律信息122中获得，即表9中所示的归一化时长。

表10

词	第一特征量
词	第一特征量	Today’s	1.75
game	1.53	Today’s	1.75
game	1.53	wonderful	0.83

因此，根据本实施例的语音翻译装置的提取单元105确定各个词的特征量。提取单元105也以相似的方式确定第一合成韵律信息124中的各个词的特征量(以下称为第二特征量)。表11示出了在关于文本“Today’sgame is wonderful”的第一合成韵律信息124中的各个音节的时长和这些音节的平均时长。

表11

音节	内容词的主重音	时长(秒)
音节	内容词的主重音	时长(秒)	To		0.13
day’s	O	0.34	To		0.13
day’s	O	0.34	game	O	0.35
is		0.15	game	O	0.35
is		0.15	won	O	0.24
der		0.12	won	O	0.24
der		0.12	ful		0.31
平均值		0.23	ful		0.31

表12示出各个音节的归一化时长，其中每一个都是时长与平均音节时长的比率。

表12

表13示出这些词的第二特征量，其中每一个都从具有主重音的每个内容词的音节中获得。

表13

词	第二特征量
词	第二特征量	Today’s	1.45
game	1.50	Today’s	1.45
game	1.50	wonderful	1.03

提取单元105提取在源自原始韵律信息122的第一特征量和源自第一合成韵律信息124的第二特征量之间的差异，作为副语言信息125。表14示出了从表10所示的第一特征量和表13所示的第二特征量中提取的副语言信息125。

表14

词	副语言信息
词	副语言信息	Today’s	0.30
game	0.03	Today’s	0.30
game	0.03	wonderful	-0.20

映射单元108在映射副语言信息125的过程中，将翻译文本中的每个词乘以用于校正语言之间在特征上的不同的系数。更准确地，映射单元108在从英语到日语的翻译中将副语言信息125乘以0.5，在从日语到英语的翻译中将副语言信息乘以2.0(即0.5的倒数)。如果副语言信息125的绝对值变得小于预先设置的阈值，则任何词都可以不进行映射。也就是说，0.0可以应用于这个词。映射单元108只对正值或者对正值和负值两者进行映射。下面的说明涉及映射单元108对正值和负值两者进行映射的情况。表15示出了副语言信息映射的结果，其中校正系数0.5被应用于表14所示的副语言信息，并且适用前面提到的阈值。

表15

翻译词	副语言信息
翻译词	副语言信息	Kyou no	0.15
Shiai ha	0.00	Kyou no	0.15
Shiai ha	0.00	Subarashikatta	-0.10

假设第二生成单元109仅根据通过分析口语日语文本“Kyou no shiaiha subarashikatta”而获得的第二语言信息127生成关于采用女声的合成日语语音的合成韵律信息。表16示出了由该合成韵律信息表示的各个音拍的时长，以及这些时长的平均值。在此，在表16和后面提到的表17、20和21中，“Q”表示双辅音或长辅音。

表16

表17示出通过用平均时长对各个音拍的时长(即表16中示出的时长)进行归一化而获得的值。

表17

正如已经指出的，任何日语文本中的每个内容词的特征量是构成该内容词的音拍的归一化时长的平均值。表18示出了从关于第二生成单元109仅根据第二语言信息127生成的合成韵律的信息中获得的特征量。这些特征量(以下称为第三特征量)从表17所示的各个音拍的时长中获得。

表18

翻译词	第三特征量
翻译词	第三特征量	Kyou no	1.11
Shiai ha	0.94	Kyou no	1.11
Shiai ha	0.94	Subarashikatta	0.99

第二生成单元109将副语言信息128反映在如前面所描述而获得的只基于第二语言信息127的第三特征量中。表19示出特征量(以下称为第四特征量)，其中，每一个特征量都是反映表15所示的副语言信息的第三特征量。

表19

翻译词	第四特征量
翻译词	第四特征量	Kyou no	1.26
Shiai ha	0.94	Kyou no	1.26
Shiai ha	0.94	Subarashikatta	0.89

第二生成单元109基于反映了副语言信息128的第四特征量校正每个音拍的归一化的时长。更准确地，第二生成单元109将每个词的归一化的音拍时长(表17所示)和第四特征量与第三特征量的比率相乘，从而增加或者减少归一化的音拍时长。表20示出了这样被校正的归一化时长。

表20

然后，第二生成单元109根据这样被校正的归一化时长计算每个音拍的时长。更具体地，第二生成单元109将这样被校正的归一化时长乘以音拍的平均时长(＝0.13秒)，得到第二合成韵律信息129中每个音拍的时长。表21示出了第二合成韵律信息129中各个音拍的时长。

表21

语音合成单元110通过使用从第二语言-分析单元107输出的第二语言信息127和从第二生成单元109输出的第二合成韵律信息129中音拍的时长来合成输出语音的波形。取决于用于生成输出语音的波形的方案，音拍的时长必须被分割成诸如辅音和元音的音素的时长。在第二生成单元109开始时的每个音拍的时长与在第二生成单元109结束时的对应的每个音拍的时长之间的差异可根据预先设置的辅音与元音之间的分配比率，进一步分配给每个辅音或元音。如何将音拍的时长差异分配成辅音或元音的时长差异将不进行详细描述。

正如已经描述的，在根据本实施例的语音翻译装置中，副语言信息通过使用每个语音单元的时长与语音单元的平均时长的比率来提取。因此，该装置可以生成反映诸如说话人的重点、强度和态度的副语言信息的输出语音，如根据第一实施例的语音翻译装置一样。因此，该装置可以帮助用户促进顺畅的交流。另外，该装置可以在输出语音中反映副语言信息，即使输入语音是采用词序改化很小的西方语言或者没有格助词的中文产生的。

语音翻译装置可以使用例如通用计算机作为其主要硬件。换句话说，该语音翻译装置的许多部件可以被实现为包含在执行各种程序的计算机中的微处理器。程序可以存储在计算机可读存储器中，安装在计算机上，并从诸如CD-ROM的记录介质中读入计算机，或者经由网络分发后读入计算机。

其它优点和修改对于本领域技术人员来说是易于想到的。因此，本发明在更宽的方面并不限制于在这里所示出和描述的特定的细节和典型实施例。因此，在不脱离由附加权利要求及其等同物所限定的总的发明构思的精神或者范围下，可以进行各种修改。

Claims

1.一种语音翻译装置，包括：

语音识别单元，用于识别第一语言的输入语音以生成所述第一语言的第一文本；

韵律分析单元，用于分析所述输入语音的韵律以获得原始韵律信息；

第一语言-分析单元，用于将所述第一文本分割成第一组词以获得第一语言信息；

第一生成单元，用于基于所述第一语言信息生成第一合成韵律信息；

提取单元，用于比较所述原始韵律信息和所述第一合成韵律信息以提取关于所述第一组词的每一个的副语言信息；

机器翻译单元，用于将所述第一文本翻译成第二语言的第二文本；

第二语言-分析单元，用于将所述第二文本分割成第二组词以获得第二语言信息；

映射单元，用于根据同义性将关于所述第一组词的每一个的副语言信息分配给所述第二组词的每一个；

第二生成单元，用于基于所述第二语言信息和分配给所述第二组词的每一个的副语言信息生成第二合成韵律信息；以及

语音合成单元，用于基于所述第二语言信息和所述第二合成韵律信息合成输出语音。

2.如权利要求1所述的装置，其中，所述提取单元对所述原始韵律信息进行归一化以对所述第一组词的每一个计算第一特征量，对所述第一合成韵律信息进行归一化以对所述第一组词的每一个计算第二特征量，并比较所述第一特征量和所述第二特征量，以提取关于所述第一组词的每一个的副语言信息。

3.如权利要求1所述的装置，其中，所述提取单元对所述原始韵律信息进行归一化以对所述第一组词的每一个计算第一特征量，对所述第一合成韵律信息进行归一化以对所述第一组词的每一个计算第二特征量，并比较所述第一特征量和所述第二特征量，以提取关于所述第一组词的每一个的副语言信息；所述第二生成单元基于所述第二语言信息生成第三合成韵律信息，对所述第三合成韵律信息进行归一化以对所述第二组词的每一个计算第三特征量，基于所述副语言信息校正所述第三特征量以计算第四特征量，并使用所述第四特征量以生成所述第二合成韵律信息。

4.如权利要求3所述的装置，其中，所述副语言信息是通过从所述第一特征量中减去所述第二特征量而获得的值，所述第四特征量是通过将所述副语言信息加到所述第三特征量而获得的值。

5.如权利要求4所述的装置，其中，所述映射单元只在所述副语言信息是正值时将所述副语言信息分配给所述第二组词的每一个。

6.如权利要求3所述的装置，其中，所述第一特征量是所述第一组词的每一个的原始韵律信息的基频的峰值与线性回归值的比率；所述第二特征量是所述第一组词的每一个的第一合成韵律信息的基频的峰值与线性回归值的比率；所述第三特征量是所述第二组词的每一个的第三合成韵律信息的基频的峰值与线性回归值的比率。

7.如权利要求3所述的装置，其中，所述第一特征量是所述第一组词的每一个的原始韵律信息的平均功率的峰值与线性回归值的比率；所述第二特征量是所述第一组词的每一个的第一合成韵律信息的平均功率的峰值与线性回归值的比率；所述第三特征量是所述第二组词的每一个的第三合成韵律信息的平均功率的峰值与线性回归值的比率。

8.如权利要求3所述的装置，其中，所述第一特征量由通过分割所述第一组词的每一个而获得的第一组语音单元的每一个的时长与有关所述原始韵律信息的第一组语音单元的平均时长的比率确定；所述第二特征量由所述第一组语音单元的每一个的时长与关于所述第一合成韵律信息的第一组语音单元的平均时长的比率确定；所述第三特征量由通过分割所述第二组词的每一个而获得的第二组语音单元的每一个的时长与有关所述第三合成韵律信息的第二组语音单元的平均时长的比率确定。

9.一种语音翻译方法，包括：

识别第一语言的输入语音以生成所述第一语言的第一文本；

分析所述输入语音的韵律以获得原始韵律信息；

将所述第一文本分割成第一组词以获得第一语言信息；

基于所述第一语言信息生成第一合成韵律信息；

比较所述原始韵律信息和所述第一合成韵律信息，以提取关于所述第一组词的每一个的副语言信息；

将所述第一文本翻译成第二语言的第二文本；

将所述第二文本分割成第二组词以获得第二语言信息；

根据同义性将关于所述第一组词的每一个的副语言信息分配给所述第二组词的每一个；

基于所述第二语言信息和分配给所述第二组词的每一个的副语言信息，生成第二合成韵律信息；以及

基于所述第二语言信息和所述第二合成韵律信息，合成输出语音。

10.一种计算机可读存储介质，其存储计算机程序的指令，该程序在由计算机执行时导致以下步骤的执行，所述步骤包括：