CN1356687A

CN1356687A - 语音合成装置和方法

Info

Publication number: CN1356687A
Application number: CN01139332A
Authority: CN
Inventors: 野敏幸; 西村洋文
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-11-29
Filing date: 2001-11-26
Publication date: 2002-07-03
Also published as: EP1213704A2; EP1213704A3; JP2002169581A; US20020065659A1

Abstract

公开了一种语音合成装置和一种语音合成方法,用于根据输入其中的文本数据合成语音,以输出由记录的语音部分和具有与记录的语音部分一致的回声特性的合成的语音部分组成的语音,其中具有回声特性的合成的语音部分在幅值上比记录的语音部分实质上大,以减少由于记录的语音部分和合成的语音部分之间音质的不同引起的奇怪的感觉。

Description

语音合成装置和方法

技术领域

本发明涉及一种语音合成装置和一种语音合成方法，用于根据输入其中的文本数据合成语音，尤其涉及这样一种语音合成装置和一种语音合成方法，用于根据输入其中的文本数据合成语音，以输出由记录的语音部分和合成的语音部分组成的语音，该合成的语音部分具有与记录的语音部分一致的回声特性，以减少由于记录的语音部分和合成的语音部分之间音质的不同引起的奇怪的感觉。

背景技术

近年来，已经发展和使用了各种的语音合成装置用于根据输入其中的文本数据合成语音。该类型的语音合成装置通常包括一个数据库，其工作以便将某种语言中的语音分为多个语音段，每个至少包括该语言中的一个音素，将每个语音段分解为多个音调波形，将这些音调波形与每个语音段相关联，然后在数据库中存储与这些音调波形相联系的每个语音段。当合成语音时，使用在数据库中与每个语音段相联系而存储的音调波形。

例如，一个这样的传统语音合成装置被公开在日本专利申请公开出版物No.27789/1993中。

参考附图中的图5，其示出了一种传统的语音合成装置500，包括文本输入单元501、文本判断单元502、合成方法选择单元503、合成单元504、再现单元505、语音叠加单元506和输出单元507。

文本输入单元501适于输入文本数据。文本判断单元502适于分解文本数据，例如，将由文本输入单元501输入的“This is a pen”分解为多个文本数据元素，例如“This”、“is”、“a”和“pen”，并分析每个文本数据元素。合成方法选择单元503适于基于由文本判断单元502进行的分析从合成方法和再现方法中选择每个文本数据元素的合成方法。然后，合成方法选择单元503被操作以输出文本数据元素(例如，为合成方法所选择的“a”和“pen”)到合成单元504，和输出文本数据元素(例如，为再现方法所选择的“this”和“is”)到再现单元505。合成单元504适于根据从合成方法选择单元503输入的文本数据元素(即，“a”和“pen”)产生合成的语音部分。再现单元505适于根据从合成方法选择单元503输入的文本数据元素(即，“this”和“is”)再现记录的语音部分。

语音叠加单元506适于输入和叠加由合成单元504产生的合成的语音部分和由再现单元505再现的记录的语音部分的波形，以输出由表示“this”和“is”的记录的语音部分和表示“a”和“pen”的合成的语音部分组成的语音“this is a pen”。输出单元507适于输出从语音叠加单元506输入的语音到外部设备，诸如扬声器(未示出)。

这样构造的传统的语音合成装置500可以根据输入其中的文本数据合成由记录的语音部分和合成的语音部分组成的语音。而且，上面提到的传统的语音合成装置500部分再现了记录的语音部分，例如“this”和“is”，其是记录的自然的话音，因而能够合成类似于对听者而言言语清晰的自然语音的语音。

然而，传统的语音合成装置500带来的问题是，构成相同语音的记录的语音部分和合成的语音部分在音质上是不同的。在记录的语音部分和合成的语音部分之间音质上的不同会引起听者被奇怪的感觉所困扰。在记录的语音部分和合成的语音部分之间音质上的不同变得越大，听者越需要仔细听该语音，从而使她或他对专注于理解该言语感到疲惫。

每种自然的声音在声源已经被切断后因为重复的反射都有声音延续。在声源已经被切断后的声音延续以后被称为“回声”。合成的语音部分没有回声，而另一方面记录的语音部分有回声。在声音质量中的前述不同，部分是由于在记录的语音部分和合成的语音部分之间出现或不出现回声的不同。这意味着在记录的语音部分和合成的语音部分之间出现或不出现回声的不同会引起听者被奇怪的感觉所困扰。该不同变得越大，听者越需要仔细听该语音，从而使她或他对专注于理解该言语感到疲惫。

另外，合成的语音部分比记录的语音部分发音更加不清晰。在声音质量中的前述不同，还由于在记录的语音部分和合成的语音部分之间发音清晰度上的不同。这意味着在记录的语音部分和合成的语音部分之间发音清晰度上的不同会引起听者被奇怪的感觉所困扰。该不同变得越大，听者越需要仔细听该语音，从而使她或他对专注于理解该言语感到疲惫。

考虑到要克服传统的语音合成装置内在的前述缺陷，提出了本发明。

发明内容

因此本发明的一个目的是提供一种语音合成装置，用于根据输入其中的文本数据合成由记录的语音部分和合成的语音部分组成的语音，该合成的语音部分具有与记录的语音部分一致的回声特性。根据本发明的语音合成装置能够合成语音，且其中在记录的语音部分和合成的语音部分之间的回声上的不同大大减少，从而帮助听者专注地和舒适地收听该言语。

本发明的另一个目的是提供一种语音合成装置，用于合成由记录的语音部分和具有回声特性的合成的语音部分组成的语音，其中具有回声特性的合成的语音部分在幅值上比记录的语音部分实质上大。这样调节的具有回声特性的合成的语音部分在发音清晰度上提高了。这意味着根据本发明的语音合成装置可以合成语音，且其中在记录的语音部分和合成的语音部分之间的发音清晰度上的不同大大减少，从而帮助听者专注地和舒适地收听该言语。

本发明的另一个目的是提供一种语音合成方法，用于根据输入其中的文本数据合成由记录的语音部分和合成的语音部分组成的语音，该合成的语音部分具有与记录的语音部分一致的回声特性。根据本发明的语音合成方法能够合成语音，且其中在记录的语音部分和合成的语音部分之间的回声上的不同大大减少，从而帮助听者专注地和舒适地收听该言语。

本发明的另一个目的是提供一种语音合成方法，用于合成由记录的语音部分和具有回声特性的合成的语音部分组成的语音，其中具有回声特性的合成的语音部分在幅值上比记录的语音部分实质上大。这样调节的具有回声特性的合成的语音部分在发音清晰度上提高了。这意味着根据本发明的语音合成方法可以合成语音，且其中在记录的语音部分和合成的语音部分之间的发音清晰度上的不同大大减少，从而帮助听者专注地和舒适地收听该言语。

附图说明

通过结合附图的以下描述，根据本发明的语音合成装置和语音合成方法的特征和优点将被更清楚地理解，附图中：

图1是根据本发明的语音合成装置100的第一个实施例的方框图；

图2是示出由图1所示的语音合成装置100执行的语音合成方法的流程图；

图3是根据本发明的语音合成装置200的第二个实施例的方框图；

图4是示出由图3所示的语音合成装置200执行的语音合成方法的流程图；和

图5是传统的语音合成装置500的方框图。

具体实施方式

参考附图，特别是图1和图2，其示出了实施了本发明的第一个实施例的语音合成装置100，用于根据输入其中的文本数据合成语音。图1所示的第一个实施例的语音合成装置100包括文本存储单元101、语音部分存储单元102、语音段存储单元103、文本输入单元104、判断单元105、拆分单元106、记录的语音装载单元107、语音合成单元108、回声特性赋予单元109、语音叠加单元110和语音输出单元111。

文本存储单元101适于在其中存储多个记录的文本数据元素，其将在后面描述。语音部分存储单元102适于在其中存储分别对应于记录的文本数据元素的多个记录的语音部分。语音段存储单元103适于存储多个语音段。这里，语音段意味着包括至少一个音素的语音的段。文本输入单元104适于输入文本数据。

判断单元105适于从文本输入单元104输入文本数据，并将文本数据分解为多个文本数据元素。这里，文本数据元素意味着文本数据的成分单位。

判断单元105然后被操作以便一个文本数据元素接一个地判断是否文本数据元素与存储在文本存储单元101中的记录的文本数据元素的任一个一致。拆分单元106适于基于判断单元105的判断结果，将文本数据元素拆分为由记录的文本部分和未记录的文本部分组成的两个文本部分，记录的文本部分包括与存储在文本存储单元101中的文本数据元素一致的记录的文本数据元素，未记录的文本部分包括与未存储在文本存储单元101中的文本数据元素一致的未记录的文本数据元素。

记录的语音装载单元107适于输入由拆分单元106拆分的包括与文本数据元素一致的记录的文本数据元素的记录的文本部分，并从存储在语音部分存储单元102中的记录的语音部分中，选择性地装载分别对应于记录的文本部分的记录的文本数据元素的记录的语音部分。

语音合成单元108适于输入由拆分单元106拆分的包括与文本数据元素一致的未记录的文本数据元素的未记录的文本部分，并根据未记录的文本部分的未记录的文本数据元素合成在语音段存储单元103中存储的语音段，以产生合成的语音部分。

回声特性赋予单元109适于将与存储在语音部分存储单元102中的记录的语音部分一致的回声特性，赋予由语音合成单元108产生的合成的语音部分，从而构造具有回声特性的合成的语音部分。

语音叠加单元110适于叠加由记录的语音装载单元107装载的记录的语音部分和由回声特性赋予单元109构造的具有回声特性的合成的语音部分，以产生由记录的语音部分和具有回声特性的合成的语音部分组成的语音。

语音输出单元111适于输出由语音叠加单元110叠加的由记录的语音部分和具有回声特性的合成的语音部分组成的语音。

下面参考图2描述语音合成装置100的操作。

为了简化描述和帮助了解语音合成装置100的整个操作，假定文本输入单元104被操作以输入文本数据“this is a pen”，判断单元105被操作以分解文本数据“this is a pen”为多个文本数据元素，即“this”、“is”、“a”和“pen”，且文本数据元素“this”和“is”已经存储在文本存储单元101中。然而，根据本发明，文本数据不限于“this is a pen”，文本数据元素也不限于“this is a pen”和“this”、“is”、“a”和“pen”。

在步骤S201，文本输入单元104被操作以输入文本数据，即“this is apen”。步骤S201前进到步骤S202，其中判断单元105被操作以从文本输入单元104输入文本数据，即“this is a pen”，并分解该文本数据为多个文本数据元素的成分单位，即“this”、“is”、“a”和“pen”。判断单元105然后被操作以便一个文本数据元素接一个地判断是否文本数据元素与存储在文本存储单元101中的记录的文本数据元素的任一个一致。在该实施例中，如上所述，文本数据元素“this”和“is”存储在文本存储单元101中。因此，判断单元105被操作以判断，文本数据元素“this”和“is”与存储在文本存储单元101中的记录的文本数据元素的任一个一致。拆分单元106基于判断单元105的判断结果，被操作以拆分文本数据元素“this is a pen”为由记录的文本部分和未记录的文本部分组成的两个文本部分，记录的文本部分包括与存储在文本存储单元101中的文本数据元素“this”和“is”相一致的记录的文本数据元素，未记录的文本部分包括与未存储在文本存储单元101中的文本数据元素“a”和“pen”相一致的未记录的文本数据元素。这意味着在该阶段，记录的文本数据部分包括记录的文本数据元素“this”和“is”，未记录的文本数据部分包括未记录的文本数据元素“a”和“pen”。

在步骤S202中执行的操作将被详细描述。

在步骤S202，例如，如果判断单元105判断文本数据元素(例如，“this”)与存储在文本存储单元101中的记录的文本数据元素的任一个相一致，则拆分单元106基于判断单元105的结果被操作以将文本数据元素“this”拆分为记录的文本部分，该记录的文本部分包括与存储在文本存储单元101中的文本数据元素“this”一致的记录的文本数据元素，并输出记录的文本数据元素“this”到记录的语音装载单元107。

另一方面，如果判断单元105判断文本数据元素(例如，“a”)与存储在文本存储单元101中的记录的文本数据元素的任一个都不一致，则拆分单元106基于判断单元105的结果被操作以将文本数据元素“a”拆分为未记录的文本部分，该未记录的文本部分包括与未存储在文本存储单元101中的文本数据元素“a”一致的未记录的文本数据元素，并输出未记录的文本数据元素“a”到语音合成单元108。

在步骤S203，记录的语音装载单元107被操作以输入记录的文本部分，该记录的文本部分包括由拆分单元106拆分的记录的文本数据元素，即“this”和“is”，并从语音部分存储单元102中存储的记录的语音部分中，选择性地装载分别对应于记录的文本部分的记录的文本数据元素，即，“this”和“is”的记录的语音部分。

在步骤S204，语音合成单元108被操作以输入未记录的文本部分，该未记录的文本部分包括由拆分单元106拆分的未记录的文本数据元素，即“a”和“pen”，并根据未记录的文本部分的未记录的文本数据元素，即“a”和“pen”合成存储在语音段存储单元103中的语音段，以产生合成的语音部分。

下面的描述将针对语音段存储单元103和语音合成单元108的操作。

语音段存储单元103被操作以存储多个语音段，每个语音段至少包括一个音素，且可拆分为多个音调波形。在语音段存储单元103中，语音段被分别在音素上与音调波形相联系。语音合成单元108被操作以便根据由拆分单元106拆分的未记录的文本部分的未记录的文本数据元素，即“a”和“pen”，通过叠加在音素上与语音段相联系的音调波形，合成这样存储在语音段存储单元103中的语音段，以产生代表文本数据元素，即“a”和“pen”的合成的语音部分。

步骤S204前进到步骤S205，其中回声特性赋予单元109被操作以便将与存储在语音部分存储单元102中的记录的语音部分一致的回声特性赋予由语音合成单元108产生的合成的语音部分，从而构造具有回声特性的合成的语音部分。回声特性意味着记录的语音部分所固有的回声特性。更具体说，存储在语音部分存储单元102中的记录的语音部分的回声特性已经被预先测量。基于这样预先测量的存储在语音部分存储单元102中的记录的语音部分的回声特性，回声特性赋予单元109被操作以便将与记录的语音部分一致的回声特性赋予合成的语音部分。

步骤S203和步骤S205前进到步骤S206，其中判断是否已经输入了所有文本数据。根据本发明，可以由任何合适的组成部件(例如，诸如语音叠加单元110)进行是否已经输入了所有文本数据的判断。例如，如果判断还没有输入了所有文本数据，则步骤S206返回到步骤S202，将对剩余的文本数据元素一个文本数据元素接一个地重复从步骤S202到步骤S206的步骤中的上述处理。

另一方面，如果判断已经输入了所有的文本数据，则步骤S206前进到步骤S207，其中语音叠加单元110被操作以便一个文本数据元素接一个地叠加由记录的语音装载单元107这样装载的记录的语音部分和由回声特性赋予单元109构造的具有回声特性的合成的语音部分，以便产生由记录的语音部分和具有回声特性的合成的语音部分组成的语音。根据本发明，语音叠加单元110可以根据文本数据元素，通过叠加与记录的语音部分和合成的语音部分相联系的音调波形，叠加记录的语音部分和合成的语音部分。

步骤S207前进到步骤S208，其中语音叠加单元110将这样叠加的由记录的语音部分和合成的语音部分组成的语音输出到语音输出单元111。然后语音输出单元111被操作以输出由语音叠加单元110这样叠加的由记录的语音部分和具有回声特性的合成的语音部分组成的语音到外部设备，例如扬声器(未示出)。

从前面的描述可以看出，应该理解根据本发明的语音合成装置100能够合成语音，其中在记录的语音部分和合成的语音部分之间在回声上的不同将大大减少，从而帮助听者专注地和舒适地收听该言语。

参考附图，特别是图3和图4，其示出了实施了本发明的第二个实施例的语音合成装置200，用于根据输入其中的文本数据合成语音。图3所示的第二个实施例的语音合成装置200包括文本存储单元101、语音部分存储单元102、语音段存储单元103、文本输入单元104、判断单元105、拆分单元106、记录的语音装载单元107、语音合成单元108、回声特性赋予单元109、噪声测量单元210、语音叠加单元110和语音输出单元111。回声特性赋予单元109还包括幅值调节单元209。

第二个实施例的语音合成装置200几乎与第一个实施例的语音合成装置100在结构上相同，除了幅值调节单元209和噪声测量单元210以外。与第一个实施例的语音合成装置100相同的部分就不详细描述了。

噪声测量单元210适于测量可听见地输出该语音的环境中的噪声电平。幅值调节单元209适于基于由噪声测量单元210测量的噪声电平和由记录的语音装载单元107装载的记录的语音部分的幅值，调节由回声特性赋予单元109构造的具有回声特性的合成的语音部分的幅值，使得具有回声特性的合成的语音部分在幅值上与噪声电平成比例地比记录的语音部分实质上大。

语音合成装置200的操作将参考图4详细描述。语音合成装置200的操作几乎与语音合成装置100的操作相同，除了步骤S210以外。与语音合成装置100相同的步骤就不详细描述了。

在步骤S210，噪声测量单元210被操作以测量可听见地输出该语音的环境中的噪声电平。然后幅值调节单元209被操作以基于由噪声测量单元210测量的噪声电平和由记录的语音装载单元107装载的记录的语音部分的幅值，调节由回声特性赋予单元109构造的具有回声特性的合成的语音部分的幅值，使得具有回声特性的合成的语音部分在幅值上与噪声电平成比例地比记录的语音部分实质上大。

如果可听见地输出该语音的环境中的噪声电平高，则记录的语音部分和合成的语音部分之间的发音清晰度上的不同就大，而另一方面，如果可听见地输出该语音的环境中的噪声电平低，则记录的语音部分和合成的语音部分之间的发音清晰度上的不同就小。

这意味着，如果噪声电平高，幅值调节单元209被操作以增加具有回声特性的合成的语音部分的幅值，使得具有回声特性的合成的语音部分的幅值变得比记录的语音部分的幅值大得多，这样，相对于记录的语音部分，合成的语音部分就发音足够清晰到使得听者可以理解。另一方面，如果噪声电平低，幅值调节单元209被操作以增加具有回声特性的合成的语音部分的幅值，使得具有回声特性的合成的语音部分的幅值变得比记录的语音部分的幅值稍微大一些，这样，相对于记录的语音部分，合成的语音部分就发音足够清晰到使得听者可以理解。

步骤S203和步骤S210前进到步骤S206，其中判断是否已经输入了所有文本数据。例如，如果判断还没有输入了所有文本数据，则步骤S206返回到步骤S202，将对剩余的文本数据元素一个文本数据元素接一个地重复从步骤S202到步骤S206的步骤中的上述处理。

另一方面，如果判断已经输入了所有的文本数据，则步骤S206前进到步骤S207，其中语音叠加单元110被操作以便一个文本数据元素接一个地叠加由记录的语音装载单元107这样装载的记录的语音部分和由幅值调节单元209调节的具有回声特性的合成的语音部分，以便产生由记录的语音部分和具有回声特性的合成的语音部分组成的语音。

从前面的描述可以看出，应该理解根据本发明的语音合成装置能够合成语音，其中在记录的语音部分和合成的语音部分之间在清晰度上的不同将大大减少，从而帮助听者专注地和舒适地收听该言语。

通过详细的说明，本发明的许多特征和优点是很清楚的，因此，所附权利要求的目的是覆盖所有落入其真正精神和范围内的发明的特征和优点。另外，对本领域的技术人员而言，由于各种修正和改变将易于发生，因此其不是要限制本发明到其中图示或描述的特定结构和操作，相应地所有适合的修改和等价物可以被构造为包括在本发明的范围内。

Claims

1.一种语音合成装置，用于根据输入其中的文本数据合成语音，该装置包括：

文本存储单元，用于在其中存储多个记录的文本数据元素；

语音部分存储单元，用于在其中存储分别对应于所述记录的文本数据元素的多个记录的语音部分；

语音段存储单元，用于存储多个语音段；

文本输入单元，用于输入所述文本数据；

判断单元，用于将由所述文本输入单元输入的所述文本数据分解为多个文本数据元素，一个文本数据元素接一个地判断是否所述文本数据元素与存储在所述文本存储单元中的所述记录的文本数据元素的任一个一致；

拆分单元，用于基于所述判断单元的判断结果，将所述文本数据元素拆分为由记录的文本部分和未记录的文本部分组成的两个文本部分，所述记录的文本部分包括与存储在所述文本存储单元中的所述文本数据元素一致的记录的文本数据元素，所述未记录的文本部分包括与未存储在所述文本存储单元中的所述文本数据元素一致的未记录的文本数据元素；

记录的语音装载单元，用于输入由所述拆分单元拆分的包括与所述文本数据元素一致的所述记录的文本数据元素的所述记录的文本部分，并从存储在所述语音部分存储单元中的记录的语音部分中，选择性地装载分别对应于所述记录的文本部分的所述记录的文本数据元素的记录的语音部分；

语音合成单元，用于输入由所述拆分单元拆分的包括与所述文本数据元素一致的所述未记录的文本数据元素的所述未记录的文本部分，并根据所述未记录的文本部分的所述未记录文本数据元素合成在所述语音段存储单元中存储的所述语音段，以产生合成的语音部分；

回声特性赋予单元，用于将与存储在所述语音部分存储单元中的所述记录的语音部分的回声特性一致的回声特性，赋予由所述语音合成单元产生的所述合成的语音部分，从而构造具有所述回声特性的合成的语音部分；

语音叠加单元，用于叠加由所述记录的语音装载单元装载的所述记录的语音部分和由所述回声特性赋予单元构造的具有所述回声特性的所述合成的语音部分，以产生由所述记录的语音部分和具有所述回声特性的所述合成的语音部分组成的所述语音；和

语音输出单元，用于输出由所述记录的语音部分和具有回声特性的所述合成的语音部分组成的所述语音。

2.如权利要求1所述的语音合成装置，还包括噪声测量单元，用于测量可听见地输出所述语音的环境中的噪声电平，其中所述回声特性赋予单元还包括幅值调节单元，用于基于由所述噪声测量单元测量的所述噪声电平和由所述记录的语音装载单元装载的所述记录的语音部分的幅值，调节由所述回声特性赋予单元构造的具有所述回声特性的所述合成的语音部分的幅值，使得具有所述回声特性的所述合成的语音部分在幅值上与所述噪声电平成比例地比所述记录的语音部分实质上大；

从而所述语音叠加单元被操作以叠加由所述记录的语音装载单元装载的所述记录的语音部分和由所述幅值调节单元调节的具有所述回声特性的所述合成的语音部分，以便产生由包括所述记录的语音部分和具有回声特性的所述合成的语音部分的所述语音部分组成的所述语音。

3.如权利要求1或2所述的语音合成装置，其中所述语音段存储单元被操作以存储多个语音段，每个语音段至少包括一个音素，且可拆分为多个音调波形，所述语音段被分别在所述音素上与所述音调波形相关联，且所述语音合成单元被操作以便根据由所述拆分单元拆分的所述未记录的文本部分的所述未记录的文本数据元素，通过叠加在所述音素上与所述语音段相关联的所述音调波形，合成存储在所述语音段存储单元中的所述语音段，以产生合成的语音部分。

4.一种语音合成方法，用于根据输入其中的文本数据合成语音，该方法包括以下步骤：

(a)在其中存储多个记录的文本数据元素；

(b)其中存储分别对应于所述记录的文本数据元素的多个记录的语音部分；

(c)存储多个语音段；

(d)输入所述文本数据；

(e)将在所述步骤(d)输入的所述文本数据分解为多个文本数据元素，一个文本数据元素接一个地判断是否所述文本数据元素与在所述步骤(a)中存储的所述记录的文本数据元素的任一个一致；

(f)基于在所述步骤(e)中的判断结果，将所述文本数据元素拆分为由记录的文本部分和未记录的文本部分组成的两个文本部分，所述记录的文本部分包括与在所述步骤(a)中存储的所述文本数据元素一致的记录的文本数据元素，所述未记录的文本部分包括与未在所述步骤(a)中存储的所述文本数据元素一致的未记录的文本数据元素；

(g)输入在所述步骤(f)中拆分的包括与所述文本数据元素一致的所述记录的文本数据元素的所述记录的文本部分，并从在所述步骤(b)中存储的记录的语音部分中，选择性地装载分别对应于所述记录的文本部分的所述记录的文本数据元素的记录的语音部分；

(h)输入在所述步骤(f)中拆分的包括与所述文本数据元素一致的所述未记录的文本数据元素的所述未记录的文本部分，并根据所述未记录的文本部分的所述未记录的文本数据元素合成在所述步骤(c)中存储的所述语音段，以产生合成的语音部分；

(i)将与在所述步骤(b)中存储的所述记录的语音部分的回声特性一致的回声特性，赋予在所述步骤(h)中产生的所述合成的语音部分，从而构造具有所述回声特性的合成的语音部分；

(j)叠加在所述步骤(g)中装载的所述记录的语音部分和在所述步骤(i)中构造的具有所述回声特性的所述合成的语音部分，以产生由所述记录的语音部分和具有所述回声特性的所述合成的语音部分组成的所述语音；和

(k)输出由所述记录的语音部分和具有回声特性的所述合成的语音部分组成的所述语音。

5.如权利要求4所述的语音合成方法，还包括以下步骤(1)测量可听见地输出所述语音的环境中的噪声电平，其中所述步骤(i)还包括步骤：(i-1)基于在所述步骤(1)中测量的所述噪声电平和在所述步骤(g)中装载的所述记录的语音部分的幅值，调节在所述步骤(i)中构造的具有所述回声特性的所述合成的语音部分的幅值，使得具有所述回声特性的所述合成的语音部分在幅值上与所述噪声电平成比例地比所述记录的语音部分实质上大；

从而所述步骤(j)具有以下步骤：叠加在所述步骤(g)中装载的所述记录的语音部分和在所述步骤(i-1)中调节的具有所述回声特性的所述合成的语音部分，以便产生由包括所述记录的语音部分和具有回声特性的所述合成的语音部分的所述语音部分组成的所述语音。

6.如权利要求4或5所述的语音合成方法，其中所述步骤(c)具有以下步骤：存储多个语音段，每个语音段至少包括一个音素，且可拆分为多个音调波形，所述语音段被分别在所述音素上与所述音调波形相联系，且所述步骤(h)具有以下步骤，根据在所述步骤(f)中拆分的所述未记录的文本部分的所述未记录的文本数据元素，通过叠加在所述音素上与所述语音段相联系的所述音调波形，合成在所述步骤(c)中存储的所述语音段，以产生合成的语音部分。