CN102810310B

CN102810310B - 语音合成设备

Info

Publication number: CN102810310B
Application number: CN201210179123.7A
Authority: CN
Inventors: 才野庆二郎
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-06-01
Filing date: 2012-06-01
Publication date: 2014-10-22
Anticipated expiration: 2032-06-01
Also published as: JP6047922B2; CN102810310A; EP2530672B1; US20120310651A1; EP2530672A2; US9230537B2; EP2530672A3; JP2013011862A

Abstract

本发明提供了一种语音合成设备，其被设计来用于使用多个语音段数据合成语音信号，每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段。在该设备中，语音段调整器根据第一语音段和第二语音段来形成目标片段，以便将第一语音段和第二语音段相互连接，使得所述目标片段由第一语音段的后部音素片段和第二语音段的前部音素片段形成，并且所述语音段调整部分将所述目标片段扩展到目标时间长度以形成调整片段，使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分，从而产生具有所述目标时间长度的调整片段的合成语音段数据。语音合成器根据由所述语音段调整部分产生的合成语音段数据来产生语音信号。

Description

语音合成设备

技术领域

本发明涉及一种用于将多个语音段互连以合成一个诸如谈话语音或歌唱语音之类的语音的技术。

背景技术

在用于将多个语音段互连以合成期望语音的语音段连接类型语音合成技术中，将语音段扩展和压缩到目标时间长度是必要的。日本专利申请公开No.H7-129193公开了这样一种结构，其中将多种语音段分类为稳定部分和过渡部分，并在正常部分和过渡部分中分别对每个语音段的时间长度进行调整。例如，将正常部分扩展和压缩得比过渡部分更大。

在日本专利申请公开No.H7-129193的技术中，在被分到正常部分或过渡部分中的语音段的范围内，时间长度是以固定的扩展和压缩率来调整的。然而，在实际发音时，扩展的程度会以一个片段接一个片段为基础发生变化，甚至在一个语音段（音素）范围内也如此。因此，在日本专利申请公开No.H7-129193的技术中，在扩展语音段的情况中将会合成出听起来不自然的语音（即，与实际发出的声音不同的语音）。

发明内容

已经考虑到上述问题作出了本发明，并且本发明的一个目的是即使在扩展语音段的情况中也能合成听起来自然的语音。

将要描述的是为了解决上述问题而在本发明中所采用的手段。同时，在以下描述中，为了便于理解本发明，与本发明各组件对应的实施例中的组件在括号中显示；然而本发明的范围并不限于所述实施例。

根据本发明第一方面的语音合成设备被设计来用于使用多个语音段数据合成语音信号，每个语音段数据表示含有至少两个对应于不同音素的音素片段（例如音素片段S₁和音素片段S₂）的语音段。所述设备包括：语音段调整部分（例如语音段调整部分26），其根据第一语音段（例如语音段V₁）和第二语音段（例如语音段V₂）来形成目标片段（例如目标片段W_A）以便将第一语音段和第二语音段相互连接，使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成，并且所述语音段调整部分执行用于将所述目标片段扩展到目标时间长度以形成调整片段（例如调整片段W_B）的扩展处理，使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分，从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据（例如合成语音段数据D_B）；以及语音合成部分（例如语音合成部分28），其根据由所述语音段调整部分产生的合成语音段数据来产生语音信号。

在上述构造中，在对应于辅音音素的目标片段中改变扩展率，因此，与其中扩展和压缩率在语音段范围内保持固定的日本专利申请公开No.H7-129193的构造相比，可以合成出听起来自然的语音。

在本发明的一个优选方面，每个语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据。在所述目标片段对应于浊辅音音素的情况下，所述语音段调整部分将所述目标片段扩展成所述调整片段，使得所述调整片段包含与所述目标片段的前部分（例如前部分σ1）对应的单位数据的时间序列、通过对与所述目标片段的中心点（例如时间点tAc）对应的单位数据进行重复而得到的多个重复单位数据的时间序列、以及与所述目标片段的后部分（例如后部分σ2）对应的多个单位数据的时间序列。

在上述方面中，将与目标片段的前部分对应的多个单位数据的时间序列和与目标片段的后部分对应的多个单位数据的时间序列用作调整片段的每个帧的单位数据，因此与例如对前部分和后部分两者进行扩展的构造相比，简化了扩展处理。根据上述方面的目标片段的扩展在目标片段对应于浊辅音音素的情况下尤为优选。

在本发明的一个优选方面中，浊辅音音素的帧的单位数据包括对语音的频谱的包络线中的形状的特性进行指示的包络数据和对该语音的频谱进行表示的频谱数据。语音段调整部分产生与所述目标片段的中心点对应的单位数据，使得产生的单位数据包括通过对所述目标片段的中心点前后的单位数据的包络数据进行内插而得到的包络数据以及恰在该中心点前后的单位数据的频谱数据。

在上述方面中，在扩展后的单位数据中包括了通过对目标片段的中心点前后的单位数据的包络数据进行内插而得到的包络数据，因此可以合成其中对目标片段中心点的语音成分进行了适当扩展的自然语音。

在本发明的一个优选方面中，语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据。在所述目标片段对应于清辅音音素的情况下，所述语音段调整部分顺序地选择所述目标片段的每个帧的单位数据来作为所述调整片段的每个帧的单位数据，以产生合成语音段数据，其中根据所述调整片段中的时间流逝对所述目标片段中与所述调整片段中的每个帧对应的每个帧进行改变所采用的速度（例如前进速度ν）从所述调整片段的前部分到中心点（例如中心点tBc）是减小的，而从所述调整片段的中心点到后部分是增大的。

根据上述方面的目标片段的扩展在目标片段对应于清辅音音素的情况下是尤为优选的。

在本发明的一个优选方面中，清音的帧的单位数据包括了表示清音频谱的频谱数据。语音段调整部分产生所述调整片段的帧的单位数据，使得产生的单位数据包括了含有预定噪声成分（例如噪声成分μ）的频谱的频谱数据，其中根据由所述目标片段中的帧的单位数据的频谱数据所表示的频谱的包络线（例如包络线E_NV）对所述预定噪声成分进行了调整。

例如，优选的是语音段调整部分顺序地选择目标片段的每个帧的单位数据，并产生合成语音段数据以使得其单位数据包括含有预定噪声成分的频谱的频谱数据，其中基于由目标片段中所选的每个帧的单位数据的频谱数据所表示的频谱的包络线对所述预定噪声成分进行了调整（第二实施例）。

可选地，语音段调整部分选择目标片段的特定帧（例如与目标片段的中心点对应的一个帧）的单位数据，并产生合成语音段数据以使得其单位数据包括含有预定噪声成分的频谱的频谱数据，其中基于由在目标片段中所选的该特定帧的单位数据的频谱数据所表示的频谱的包络线对所述预定噪声成分进行了调整（第三实施例）。

在上述方面中，产生了其中基于由目标片段的单位数据表示的频谱的包络线来对噪声成分（典型的为白噪声）进行了调整的频谱的单位数据，因此，即使当在调整片段中的多个帧的范围中对目标片段中的帧进行重复的情况下，也可以合成其声学特性针对每一帧改变的自然语音。

顺便地说，实际发出的音素的扩展方式根据音素类型而不同。然而在日本专利申请公开No.H7-129193的技术中，扩展率仅在正常部分与过渡部分之间不同，结果是不能根据音素类型合成自然语音。考虑到上述问题，根据本发明第二方面的语音合成设备被设计来用于使用多个语音段数据合成语音信号，每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段，所述设备包括语音段调整部分，该语音段调整部分基于由语音段数据表示的音素的类型而使用不同的扩展处理。在上述方面中，根据要扩展的音素的类型来选择适当的扩展处理，因此其与日本专利申请公开No.H7-129193相比可以合成自然的语音。

例如，在将第一方面和第二方面相结合的一个优选示例中，与第一类型（例如类型C1a或类型C1b）的辅音音素相对应的、位于语音段后部处并且通过声道的短暂变形而发音的音素片段（例如音素片段S₂）包括恰在声道变形前的预备过程（例如预备过程pA1或预备过程pB1），位于语音段前部处并且与该第一类型的辅音音素对应的音素片段（例如音素片段S₁）包括其中作为声道短暂变形的结果而发出该音素的发音过程（例如发音过程pA2或发音过程pB2），与第二类型（例如第二类型C2）的辅音音素对应的位于语音段后部处并能正常延续的音素片段包括该音素的发音开始的过程（例如前部分pC1），位于语音段前部处并且与第二类型的辅音音素对应的音素片段包括该音素的发音结束的过程（例如后部分pC2）。

基于上述情形，在目标片段的辅音音素属于包括摩擦音和半元音的一种类型（即第二类型C2）的情况下，语音段调整部分执行已描述的扩展处理来将目标片段扩展到目标时间长度以形成调整片段，使得以比目标片段的前部和后部的扩展率高的扩展率来扩展目标片段的中间部分，并且，在目标片段的辅音音素属于包括爆破音、塞擦音、鼻音和流音的另一种类型（即第一类型C1）的情况下，语音段调整部分执行另一扩展处理，以在所述目标片段中的第一语音段的后部音素片段与第二语音段的前部音素片段之间插入中间片段。

在上述方面中，获得了与第一方面相同的效果，并且另外还可以适当地扩展通过声道短暂变形发音的第一类型的音素。

例如，在对应于目标片段的辅音音素是其中空气流在预备过程（例如预备过程pA1）中被阻塞的第一类型的音素（例如爆破音或塞擦音）的情况下，语音段调整部分插入无声片段作为中间片段。

此外，在对应于目标片段的辅音音素是其中在预备过程（例如预备过程pB1）中以气流通过来维持发音的第一类型的音素（例如流音或鼻音）的情况下，语音段调整部分在所述目标片段的辅音音素是鼻音或流音的情况下插入一个中间片段，该中间片段包含了对从第一语音段的后部音素片段或第二语音段的前部音素片段中选择的一个帧进行的重复。例如，语音段调整部分插入的中间部分包含了对第一语音段的后部音素片段的最后帧进行的重复。作为替代，语音段调整部分插入的中间片段包含了对第二语音段的前部音素片段的最前帧进行的重复

根据上述每个方面的语音合成设备通过比如专用于合成语音的数字信号处理器（DSP）之类的硬件（电子电路）来实现，并且另外还可以通过比如中央处理单元（CPU）之类的通用处理单元与程序的结合来实现。本发明的程序（例如程序P_GM）由计算机运行来执行一种使用多个语音段数据合成语音信号的方法，每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段，所述方法包括：根据第一语音段和第二语音段来形成目标片段以便将第一语音段和第二语音段相互连接，使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成；执行用于将所述目标片段扩展到目标时间长度以形成调整片段的扩展处理，使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分，从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据；以及根据所述合成语音段数据来产生语音信号。

如上所述的程序实现了与根据本发明的语音合成设备相同的功能和效果。以将该程序存储在可由计算机读取的可机读记录介质中从而可以将该程序安装在计算机中的方式来将根据本发明的程序提供给用户，并且另外还以经由通信网络分发该程序从而可以将该程序安装在计算机中的方式来从服务器提供该程序。

附图说明

图1是根据本发明第一实施例的语音合成设备的框图。

图2是存储在存储单元中的语音段组的典型示图。

图3是示出音素的分类的示意图。

图4是示出爆破音或塞擦音的时域波形与语音段的每个音素片段之间的关系的典型示图。

图5是示出流音或鼻音的时域波形与语音段的每个音素片段之间的关系的典型示图。

图6是示出摩擦音或半元音的时域波形与语音段的每个音素片段之间的关系的典型示图。

图7是示出语音段的选择和合成时间长度的设定的示意图。

图8是示出目标片段的扩展的示图。

图9是示出由语音段调整部分执行的扩展辅音音素的操作的流程图。

图10是示出第一插入处理的示图。

图11是示出第二插入处理的示图。

图12是示出扩展处理的曲线图。

图13是示出扩展处理的内容的流程图。

图14是示出对浊音的音素执行的扩展处理的示图。

图15是示出对浊音的音素执行的扩展处理的示图。

图16是示出对清音的音素执行的扩展处理的曲线图。

图17是示出在第二实施例中对清音的音素执行的扩展处理的示图。

具体实施方式

<A：第一实施例>

图1是根据本发明第一实施例的语音合成设备100的框图。语音合成设备100是一种通过语音段连接类型的语音合成处理来产生诸如谈话语音或歌唱语音之类的语音的信号处理设备。如图1所示，语音合成设备100是通过包括中央处理单元12、存储单元14以及声音输出单元16的计算机系统来实现的。

中央处理单元（CPU）12运行存储单元14中所存储的程序P_GM，以执行用于产生表示了合成声音波形的语音信号V_OUT的多个功能（语音段选择部分22、音素长度设定部分24、语音段调整部分26、以及语音合成部分28）。同时，中央处理单元12的各个功能可通过多个集成电路来单独实现，或者一个诸如DSP之类的专用电子电路可实现一些功能。声音输出单元16（例如耳机或扬声器）输出与中央处理单元12所产生的语音信号V_OUT相对应的声波。

存储单元14存储由中央处理单元12运行的程序P_GM以及由中央处理单元12使用的各种数据（语音段组G_A和合成信息G_B）。可采用诸如半导体记录介质或磁记录介质之类的已知记录介质或者多种记录介质的组合来作为存储单元14。

如图2所示，存储在存储单元14中的语音段组G_A是与不同语音段V对应的多个语音段数据D_A的一个集合（语音合成库）。如图2所示，第一实施例中的语音段V是将对应于不同音素的两个音素片段S（S₁和S₂）互连的双连音（音素链）。音素片段S₁是包括语音段V的起始点的片段。音素片段S₂是包括语音段V的结束点的片段。音素片段S₂跟在音素片段S₁之后。下文为了方便起见将无声描述为一种音素。

如图2所示，每段语音段数据D_A均包括分类信息D_C和多个单位数据U_A的时间序列。分类信息D_C指定了分别对应于语音段V的音素片段S₁和音素片段S₂的音素的类型（以下称为“音素类型”）。例如，如图3所示，分类信息D_C指定了音素类型，比如元音/a/、/i/和/u/、爆破音/t/、/k/和/p/、塞擦音/ts/、鼻音/m/和/n /、流音/r /、摩擦音/s/和/f/、以及半元音/w/和/y/。语音段V的语音段数据D_A中所包括的多个单位数据U_A的每一个指示了在时间轴上被划分出的语音段V（音素片段S₁和音素片段S₂）的每个帧的语音的频谱。如下文将描述的那样，与浊音的音素（元音或浊辅音）相对应的单位数据U_A的内容和与清音（清辅音）相对应的单位数据U_A的内容彼此不同。

如图2所示，与浊音的音素相对应的一段单位数据U_A包括包络数据R和频谱数据Q。包络数据R包括形状参数R、音高pF和音量（能量）E。形状参数R是指示语音的频谱（音色）的信息。形状参数包括对语音频谱的包络线（音色）的形状特性进行指示的多个变量。包络数据R的第一实施例例如是激发共振（EpR）参数，其包括激励波形包络r1、胸腔共振r2、声道共振r3、以及差频谱r4。EpR参数通过公知的频谱模拟合成（SMS）分析来产生。同时，例如在日本专利No.3711880和日本专利申请公开No.2007-226174中公开了EpR参数和SMS分析。

激励波形包络（激励曲线）r1是近似于声带振动的频谱包络线的变量。胸腔谐振r2指示了近似于胸腔共振特性的预定数量的共振（带通滤波器）的带宽、中心频率以及幅值。声道共振r3指示了近似于声道共振特性的多个共振的每一个的带宽、中心频率以及幅值。差频谱r4意指近似于激励波形包络r1、胸腔共振r2以及声道共振r3的频谱与语音频谱之间的差异（误差）。

如图2所示，对应于一个清音音素的一个单位数据U_A包括频谱数据Q。该清音的单位数据U_A不包括包络数据R。在浊音和清音两者的单位数据U_A中包括的频谱数据Q是表示语音频谱的数据。具体地说，频谱数据Q包括频率轴上多个频率的每一个的强度（功率和幅值）的序列。

如图3所示，基于清晰度法将属于每个音素类型的辅音音素分类为第一类型C1（C1a和C1b）和第二类型C2。在声道从预定预备状态短暂变形的状态下发出第一类型C1的音素。第一类型C1被划分成类型C1a和类型C1b。类型C1a的音素是在发音前的预备状态下空气在口腔和鼻腔两者中均完全被阻塞的音素。具体地说，爆破音/t/、/k/和/p/以及塞擦音/ts/属于类型C1a。类型C1b的音素是在预备状态下使气流通过受到限制、然而即使在预备状态下还是以气流通过口腔或鼻腔的一部分来维持发音的音素。具体地说，鼻音/m/和/n/以及流音/r/属于类型C1b。另一方面，第二类型C2的音素是正常发音可以持续的音素。具体地说，摩擦音/s/和/f/以及半元音/w/和/y/属于第二类型C2。

在图4至图6的部分(A)中示出了各个类型C1a、C1b和C2的音素的时域波形。如图4中的部分(A)所示，一个类型C1a的音素（例如爆破音/t/）在时间轴上被划分为预备过程pA1和发音过程pA2。预备过程pA1是对用于音素发音的声道进行封闭的过程。由于声道被封闭以阻塞气流通过，因此预备过程p A1具有几乎无声的状态。另一方面，发音过程pA2是短暂且快速地将声道从预备过程pA1变形以释放空气流从而实际发出音素的过程。具体地说，通过在发音过程pA2中例如在舌尖处移动上颚来将预备过程pA1中被压缩在声道上游侧中的空气立即释放。

在其中语音段V后部的音素片段S₂对应于类型C1a的音素的情况下，如图4中的部分(B)所示，音素片段S₂包括该音素的预备过程pA1。同样，如图4中的部分(C)所示，在语音段V的前部的与类型C1a的音素对应的音素片段S₁包括该音素的发音过程pA2。即，在图4的部分(B)的音素片段S₂后面跟随图4的部分(C)的音素片段S₁，以合成类型C1a的一个音素（例如爆破音/t/）。

如图5的部分(A)所示，一个类型C1b的音素（例如鼻音/n/）在时间轴上被划分成预备过程pB1和发音过程pB2。预备过程pB1是对用于音素发音的声道的气流通过进行限制的过程。类型C1b的音素的预备过程pB1与类型C1a的音素的其中阻塞了气流通过因而几乎维持无声状态的预备过程pA1不同之处在于，来自声门（vocal chink）的气流通过受到限制，但是仍然以气流通过口腔或鼻腔的一部分来维持发音。另一方面，发音过程pB2是以与发音过程pA2相同的方式短暂且快速地将声道从预备过程pB1变形以实际发出音素的过程。如图5的部分(B)所示，类型C1b的音素的预备过程pB1包括在位于语音段V的后部处的音素片段S₂中，并且类型C1b的音素的发音过程pB2包括在位于语音段V的前部处的音素片段S₁中。在图5的部分(B)的音素片段S₂后面跟随图5的部分(C)的音素片段S₁，以合成类型C1b的一个音素（例如鼻音/n/）。

如图6的部分(A)所示，一个第二类型C2的音素（例如摩擦音/s/）在时间轴上被划分为前部分pC1和后部分pC2。前部分pC1是该音素的发音开始过渡到稳定持续状态的过程，并且后部分pC2是该音素的发音从正常持续状态结束的过程。如图6的部分(B)所示，前部分pC1包括在位于语音段V的后部处的音素片段S₂中，并且如图6的部分(A)所示，后部分pC2包括在位于语音段V的前部处的音素段S₁中。为了满足上述条件，从特定讲话者的语音提取每个语音段V，对每个音素片段S划界，并制作每个语音段V的语音段数据D_A。

如图1所示，在存储单元14中存储了指示时间序列中的合成声音的合成信息（评分数据）G_B。合成信息G_B例如针对每个音符来指示时间序列中的合成声音的发音文字X₁、发音时段X₂、和音高X₃。发音文字X₁是例如在合成歌唱语音的情况中的歌词的字母序列，并且发音时段X₂例如被指定为发音起始时间和持续时段。例如根据用户通过各种输入设备的操作来产生合成信息G_B，并随后将其存储在存储单元14中。同时，通过通信网络从另一通信终端接收到的合成信息G_B或者从移动记录介质发送来的合成信息G_B可被用来产生语音信号V_OUT。

图1的语音段选择部分22按时间序列从语音段组G_A中顺序地选择与合成信息G_B所指示的每个发音文字X₁相对应的语音段数据V。例如，如图7所示，在将短语“go straight”指定为合成信息G_B的发音文字X₁的情况中，语音段选择部分22选择八个语音段V，比如[Sil-gh]、[gh-U]、[U-s]、[s-t]、[t-r]、[r-eI]、[eI-t]和[t-Sil]。其中，每个音素的符号基于机读音标（SAMPA，speech assessmentmethods phonetic alphabet）。X-SAMPA（扩展SAMPA）也采用相同的符号系统。其中，图7的符号“Sil”表示无声。

图1的音素长度设定部分24在用于针对由语音段选择部分22顺序选择的语音段V的每个音素片段S（S₁和S₂）来合成语音信号V_OUT时可变地设定时间长度T（以下称为“合成时间长度”）。根据时间序列中由合成信息G_B指示的发音时段X₂来选择每个音素片段S的合成时间长度T。具体地说，如图7所示，音素长度设定部分24将每个音素片段S的合成时间长度T（T(Sil)、T(gh)、T(U)、…）设定为使得构成发音文字X₁的基本元音的音素（图7的斜体音素）的起始点与发音文字X₁的发音时段X₂的起始点一致，并且在时间轴上无间隙地排列前后音素片段S。

图1的语音段调整部分26基于音素长度设定部分24针对由语音段选择部分22选择的语音段V的音素片段S而设定的合成时间长度T来对每个音素片段S进行扩展和压缩。例如，在语音段选择部分22选择了语音段V₁和语音段V₂的情况下，如图8所示，语音段调整部分26将通过对作为语音段V₁后部音素的后部音素片段S₂与作为语音段V₂前部音素的前部音素片段S₁进行互连而得到的时间长度L_A的片段（以下称为“目标片段”）W_A扩展和压缩成覆盖目标时间长度L_B的片段（以下称为“调整片段”）W_B，以产生对扩展和压缩之后的调整片段W_B的语音进行表示的合成语音段数据D_B。同时，图8中示出了扩展目标片段W_A（L_A＜L_B）的情况。调整片段W_B的时间长度T_B是语音段V₁的音素片段S₂的合成时间长度T与语音段V₂的音素片段S₁的合成时间长度T之和。如图8所示，由语音段调整部分26产生的合成语音段数据D_B是与调整片段W_B的时间长度L_B相对应的许多（N个）单位数据U_B的时间序列。如图7和图8所示，针对每一个第一语音段V₁的后部音素片段S₂和紧跟于其后的第二语音段V₂的前部音素片段S₁对（即针对每一音素）来产生一个合成语音段数据D_B。

图1的语音合成部分28使用由语音段调整部分26针对每个音素产生的合成语音段数据D_B来产生语音信号V_OUT。具体地说，语音合成部分28将构成各个合成语音段数据D_B的各个单位数据U_B所表示的频谱转化为时域波形，将这些帧的转化后的频谱互连，并且基于合成信息G_B的音高X₃来调整声音的高度，以产生语音信号V_OUT。

图9是示出语音段调整部分26扩展一个辅音音素来产生合成语音段数据D_B的处理的流程图。只要针对辅音音素（以下称为“目标音素”）执行由语音段选择部分22进行的语音段V的选择和由音素长度设定部分24进行的合成时间长度T的设定，图9的处理就开始。如图8所示，假设由与语音段V₁的目标音素对应的音素片段S₂和与语音段V₂的目标音素对应的音素片段S₁所构成的具有时间长度L_A的目标片段W_A被扩展到调整片段W_B的时间长度L_B，以产生合成语音段数据D_B（与调整片段W_B的各个帧对应的N个单位数据U_B的时间序列）。

一旦图9的处理开始，语音段调整部分26就确定目标音素是否属于类型C1a（SA1）。具体地说，语音段调整部分26在步骤SA1基于由语音段V₁的语音段数据D_A的分类信息D_C针对目标音素的音素片段S₁所指示的音素类型是否与属于类型C1a的预定类别（爆破音或塞擦音）相对应，来执行确定。在目标音素属于类型C1a的情况下（SA1：是），语音段调整部分26执行第一插入处理来产生调整部分W_B的合成语音段数据D_B（SA2）。

如图10所示，第一插入处理是在处于语音段V₁的后部处的音素片段S₂与处于紧随其后的语音段V₂的前部处的音素片段S₁之间插入中间片段M_A，以将目标片段W_A扩展成具有时间长度L_B的调整片段W_B的处理。如参照图4而描述的那样，在与类型C1a的音素对应的音素片段S₂中包括了具有几乎无声的状态的预备过程pA1。因此，在步骤SA2的第一插入处理中，语音段调整部分26插入了多个表示无声的单位数据U_A的时间序列来作为中间片段M_A。即，如图10所示，在通过步骤SA2的第一插入处理产生的合成语音段数据D_B由这样的N个单位数据U_B的时间序列构成，其中依次排列了语音段V₁的音素片段S₂的各个单位数据U_A、中间片段（无声片段）M_A的各个单位数据U_A、和语音段V₂的音素片段S₁的各个单位数据U_A。

在目标音素不属于类型C1a的情况下（SA1：否），语音段调整部分26确定目标音素是否属于类型C1b（流音或鼻音）（SA3）。步骤SA3的确定方法与步骤SA1的相同。在目标音素属于类型C1b的情况下（SA3：是），语音段调整部分26执行第二插入处理以产生调整片段W_B的合成语音段数据D_B（SA4）。

如图11所示，第二插入处理是在处于语音段V₁的后部处的音素片段S₂与处于紧随其后的语音段V₂的前部处的音素片段S₁之间插入中间片段M_B以将目标片段W_A扩展成具有时间长度L_B的调整片段W_B的处理。如参照图5而描述的那样，在与类型C1b的音素对应的音素片段S₂中包括了通过口腔或鼻腔的一部分维持发音的预备过程pB1。因此，在步骤SA4的第二插入处理中，语音段调整部分26插入这样的多个单位数据U_A的时间序列来作为中间片段M_B，其中该多个单位数据U_A的时间序列是重复地排列了位于语音段V₁的最末部分处的帧的单位数据U_A（图11的阴影部分）。因此，通过步骤SA4的第二插入处理而产生的合成语音段数据D_B由如下N个单位数据U_B的时间序列构成：其中依次排列了语音段V₁的音素片段S₂的各个单位数据U_A、音素片段S₂的最末部分处的多个单位数据U_A、和语音段V₂的音素片段S₁的各个单位数据U_A。

在如上所述目标音素属于第一类型C1（C1a和C1b）的情况下，语音段调整部分26在处于语音段V₁的后部处的音素片段S₂与处于语音段V₂的前部处的音素片段S₁之间插入中间片段M（M_A和M_B）以产生调整片段W_B的合成语音段数据D_B。同时，在处在属于类型C 1a的音素的预备过程pA1（语音段V₁的音素片段S₂）的最末部分处的帧几乎是无声的，因此，在目标音素属于类型C1a的情况下，还可以以与步骤SA4相同的方式执行第二插入处理，即插入处在音素片段S₂的最末部分处的帧的单位数据U_A的时间序列来作为中间片段M_B。

在目标音素属于第二类型C2的情况下（SA1为否并且SA3也为否），语音段调整部分26执行对目标片段W_A进行扩展的扩展处理，以使得在目标音素的目标片段W_A的时间轴方向上的中间部分的扩展率高于目标片段W_A的前部分和后部分的扩展率（目标片段W_A的中间部分比目标片段W_A的前部分和后部分扩展得更多），以产生具有时间长度L_B的调整片段W_B的合成语音段数据D_B（SA5）。

图12是示出在通过步骤SA5的扩展处理而进行了扩展之后的调整片段W_B（水平轴）与扩展之前的目标片段W_A（垂直轴）之间的基于时间的对应关系的曲线图。在目标片段W_A中与调整片段W_B中的每个帧相对应的每个时间点由黑点来表示。如图12中的轨迹z1（虚线）和轨迹z2（实线）所示，调整片段W_B中的每个帧对应于目标片段W_A中的时间点。具体地说，调整片段W_B的起始点tBs的帧对应于目标片段W_A的起始点tAs的帧，并且调整片段W_B的结束点tBe的帧对应于目标片段W_A的结束点tAe的帧。同样，调整片段W_B的中点tBc的帧对应于目标片段W_A的中点tAc的帧。基于处在与目标片段W_A中的帧相对应的时间点处的单位数据U_A来产生与调整片段W_B中的每个帧相对应的单位数据U_A。

以下将把目标片段W_A中与调整片段W_B中的预定单位时间相对应的时间长度（时间轴上的距离）表达为前进速度ν。即，前进速度ν是目标片段W_A中与调整片段W_B中的每个帧对应的每个帧根据调整片段W_B中时间的经过而改变的速度。因此，在前进速度ν为1的片段（例如调整片段W_B的前部分和后部分）中，目标片段W_A中的每个帧与调整片段W_B中的每个帧彼此一一对应，并且，在前进速度ν为0的片段（例如调整片段W_B中的中间部分）中，调整片段W_B中的多个帧对应于目标片段W_A中的单个帧（即，目标片段W_A中的帧没有根据调整片段W_B中的时间经过而改变）。

在图12中还示出了显示调整片段W_B中的前进速度ν的基于时间的变化的曲线。如图12所示，语音段调整部分26使得调整片段W_B中的每个帧与目标片段W_A中的每个帧对应，从而从调整片段W_B的起始点tBs到中点tBc的前进速度ν从1减小到0，并且从调整片段W_B的中点tBc到结束点tBe的前进速度ν从0增大到1。

具体地说，前进速度ν在从调整片段W_B的起始点tBs到特定时间点tB1维持在1，随后从时间点tB1开始随时间减小，并在调整片段W_B的中点tBc处达到0。在中点tBc之后，前进速度ν以这样的轨迹来变化：该轨迹是通过将从起始点tBs到中点tBc的片段在时间轴方向上关于中点tBc以线对称方式反转而得到的。作为前进速度ν如上增大和减小的结果，目标片段W_A被扩展，使得目标音素的目标片段W_A在时间轴方向上的中间部分的扩展率如前所述高于目标片段W_A的前部分和后部分的扩展率。

如图12所示，前进速度ν的变化率（倾斜度）在处于时间点tB1与中点tBc之间的特定时间点tB2处改变（减小）。时间点tB2对应于从起始点tBs开始已过了目标片段W_A的时间长度的一半（L_A/2）的时间点。时间点tB1是将时间点tB2缩短了时间长度α·(L_A/2)的时间点。变量α选自于从0到1的范围内。为了使调整片段W_B的中点tBc与目标片段W_A的中点tAc彼此对应，图12的三角形γ1和三角形γ2必须具有相同面积，根据变量α来选择处于时间点tB 1处的前进速度νREF以便满足上述条件。

从图12可以得知，随着变量α接近于1，调整片段W_B中的前进速度ν开始降低的时间点tB1向起始点tBs靠拢。即，在将变量α设定为1的情况下，前进速度ν从调整片段W_B的起始点tBs减小，并且在将变量α设定为0的情况下（tB1=tB2），前进速度ν在时间点tB2处不连续地从1改变为0。即，变量α是一个决定目标片段W_A的待扩展片段的宽窄的数值（例如，随着变量α接近于1，整个目标片段W_A被均匀地扩展）。图12中的虚线示出的轨迹z1代表在将变量α设定为0的情况下调整片段W_B与目标片段W_A之间的关系，并且图12中的实线示出的轨迹z2代表在将变量α设定为从0到1的数值（例如0.75）的情况下调整片段W_B与目标片段W_A之间的关系。

图13是示出在图9的步骤SA5执行的扩展处理的流程图。一旦开始该扩展处理，语音段调整部分26就确定目标音素是否为浊音（在考虑针对辅音来执行图9的处理的情况下，确定目标音素是否为浊辅音）（SB1）。在目标音素为浊音的情况下（SB1：是），语音段调整部分26扩展目标片段W_A以使得调整片段W_B和目标片段W_A满足轨迹z1的关系，从而产生调整片段W_B的合成语音段数据D_B（SB2）。以下将详细描述步骤SB2的具体示例。

首先，如图14所示，假设目标片段W_A包括奇数（2K+1）个帧F_A[1]至F_A[2K+1]。图14示出了目标片段W_A包括7个帧F_A[1]至F_A[7]的（K=3）的情况。将目标片段W_A划分成与其中心点的时间点tAc对应的帧F_A[K+1]、包括了时间点tAc之前的K个帧F_A[1]至F_A[K]的前部分σ1、和包括了时间点tAc之后的K个帧F_A[K+2]至F_A[2K+1]的后部分σ2。语音段调整部分26产生如下N个单位数据U_B（帧F_B[1]至F_B[N]）的时间序列来作为合成语音段数据D_B：在该时间序列中，依次排列了目标语音段的(2K+1)个单位数据U_A的前部分σ1的K个帧F_A[1]至F_A[K]的单位数据U_A的时间序列、与中心点tAc对应的被重复了多次的帧F_A[K+1]的单位数据UA的时间序列、和后部分σ2的K个帧F_A[K+2]至F_A[2K+1]的单位数据U_A的时间序列。

接下来，如图15所示，假设目标片段W_A包括偶数（2K）个帧F_A[1]至F_A[2K]。在图15中示出了目标片段W_A包括6个帧F_A[1]至F_A[6]的（K=3）的情况。包括偶数个帧F_A的目标片段W_A被划分成包括K个帧F_A[1]至F_A[K]的前部分σ1和包括K个帧F_A[K+1]至F_A[2K]的后部分σ2。与目标片段W_A的中心点tAc对应的帧F_A[K+0.5]不存在。因此，语音段调整部分26使用恰在中心点tAc之前的帧F_A[K]的单位数据U_A和恰在中心点tAc之后的帧F_A[K+1]的单位数据U_A来产生与目标片段W_A的中心点tAc的帧F_A[K+0.5]对应的单位数据U_A。

如上所述，浊音的单位数据U_A包括包络数据R和频谱数据Q。包络数据R可以针对各个变量r1至r4被内插在帧之间。另一方面，由频谱数据Q表示的频谱对于每一帧而言时刻在变化，结果是在帧之间内插频谱数据Q的情况中，会计算出其特性与内插前的频谱的特性不同的频谱。也就是说，难以适当地内插频谱数据Q。

考虑到上述问题，第一实施例的语音段调整部分26通过在恰在中心点tAc之前的帧F_A[K]与恰在中心点tAc之后的帧F_A[K+1]之间内插包络数据R的各个变量r1至r4，来计算目标片段W_A的中心点tAc的帧F_A[K+0.5]的单位数据U_A的包络数据R。例如，在图15的例示中，通过内插帧F_A[3]的包络数据R和帧F_A[4]的包络数据R来产生帧F_A[3.5]的单位数据UA的包络数据R。例如，任意采用各种内插处理（比如线性内插）来内插包络数据R。

同样，语音段调整部分26将恰在目标片段W_A的中心点tAc之后的帧F_A[K+1]的单位数据U_A的频谱数据Q（或者恰在目标片段W_A的中心点tAc之前的帧F_A[K]的单位数据U_A的频谱数据Q）充当与目标片段W_A的中心点tAc对应的帧F_A[K+0.5]的单位数据U_A的频谱数据Q。例如，在图15的例示中，将帧F_A[4]（或帧F_A[3]）的单位数据U_A的频谱数据Q选择为帧F_A[3.5]的单位数据U_A的频谱数据Q。从以上描述可以理解，语音段调整部分26产生的合成语音段数据D_B包括N个单位数据U_B（帧F_B[1]至F_B[N]），其中依次排列了目标语音段的2K个单位数据U_A的前部分σ1的K个帧F_A[1]至F_A[K]的单位数据U_A的时间序列、通过内插而产生的被重复了多次的帧F_A[K+0.5]的单位数据U_A的时间序列、和后部分σ2的K个帧F_A[K+1]至F_A[2K]的单位数据U_A的时间序列。

另一方面，在目标音素是清音的情况下（SB1：否），语音段调整部分26扩展目标片段W_A，以使得调整片段W_B和目标片段W_A满足轨迹z2的关系，从而产生调整片段W_B的合成语音段数据D_B（SB3）。如前文所述，清音的单位数据U_A包括频谱数据Q但是不包括包络数据R。语音段调整部分26选择相对于构成目标片段W_A的多个帧的调整片段W_B中的各个帧而言与轨迹z2最接近的帧的单位数据U_A作为调整片段W_B的N个帧的每一个的单位数据U_B，从而产生包括N个单位数据U_B的合成语音段数据D_B。

图16示出了与调整片段W_B的任意帧F_B[n]对应的目标片段W_A中的时间点tAn。当在目标片段W_A中不存在对于调整片段W_B的帧F_B[n]而言满足轨迹z2的关系的时间点tAn的帧的情况下，语音段调整部分26选择与目标片段W_A中的时间点tAn最接近的帧F_A的单位数据U_A来作为调整片段W_B的帧F_B[n]的单位数据U_B，而不进行单位数据U_A的内插。即，选择时间点tAn近旁的帧F_A（即，恰在目标片段W_A中的时间点tAn之前的帧F_A[m]或者恰在目标片段W_A中的时间点tAn之后的帧F_A[m+1]）的单位数据U_A来作为合成语音段数据D_B的帧F_B[n]的单位数据U_B。因此，调整片段W_B中的每个帧与目标片段W_A中的每个帧之间的对应关系是由沿着轨迹z2的虚线所表示的轨迹z2a的关系。

如上所述，在第一实施例中，在与辅音音素对应的目标片段W_A中扩展率发生改变，因此，其与日本专利申请公开No.H7-129193中在语音段的范围内始终不变地维持扩展率的情况相比，可以合成听起来更自然的语音。

另外，在第一实施例中，扩展方法根据辅音音素的类型C1a、C1b和C2而改变，因此，可以在不过度改变每个音素的特性（尤其是在听众区分一个音素时很重要的片段）的情况下扩展每个音素。

例如，对于类型C1a的一个音素（爆破音或塞擦音），在预备过程pA1与发音过程pA2之间插入无声的中间片段M_A，因此，可以扩展目标片段W_A而同时几乎不改变发音过程pA2的特性，这在听众区分一个音素时尤为重要。以相同的方式，对于类型C1b的一个音素（流音或鼻音），在预备过程pB1与发音过程pB2之间插入将预备过程pB1的最后帧进行重复的中间片段M_B，因此，可以扩展目标片段W_A而同时几乎不改变发音过程pB2的特性，这在区分一个音素时尤为重要。对于第二类型C2的一个音素（摩擦音或半元音），将目标片段W_A扩展来使得目标音素的目标片段W_A的中间部分的扩展率高于目标片段W_A的前部分和后部分的扩展率，因此，可以扩展目标片段W_A而不会过度改变前部分或后部分的特性，这在听众区分一个音素时尤为重要。

另外，在第二类型C2的音素的扩展处理中，对于难以进行内插的频谱数据Q，将语音段数据D_A中的单位数据U_A的频谱数据Q施加到合成语音段数据D_B，并且对于包络数据R，将通过对目标片段W_A中的中心点tAc之前和之后的帧进行内插而计算出的包络数据R包括在合成语音段数据D_B的单位数据U_B中。因此，与不对包络数据R内插的结构相比可以合成听起来自然的语音。

同时，例如可以采用通过内插来对调整片段W_B中的每个帧的包络数据R进行计算以使得包络数据R跟随轨迹z1、并且从语音段数据D选择频谱数据Q以使得频谱数据Q跟随轨迹z2的方法（以下称为“比较示例”），作为对浊辅音的音素进行扩展的方法。然而，在比较示例的方法中，包络数据R和频谱数据Q的特性彼此不同，结果合成声音听起来可能不自然。在第一实施例中，产生合成语音段数据D_B的每个单位数据，以使得包络数据R和频谱数据Q跟随轨迹z2，因此，与比较示例相比可以合成听起来更自然的语音。但是，这并非意在将比较示例排除在本发明的范围之外。

<B：第二实施例>

下文将描述本发明的第二实施例。其中，将要描述的各个实施例中的其操作或功能与第一实施例中相同的那些组件使用以上描述中相同的参考标号进行表示，并且适当地省略了对它们的详细描述。

在第一实施例中，在目标音素为清音的情况下，选择了对于构成目标片段W_A的多个帧当中的调整片段W_B中的每个帧而言满足轨迹z2的关系的帧的单位数据U_A。在第一实施例的构造中，在调整片段W_B中的多个帧（图16的重复片段τ）的范围中重复地选择了目标片段W_A中的一个帧的单位数据U_A。但是，由其中对一个单位数据U_A进行重复的合成语音段数据D_B所产生的合成声音可能是造作和不自然的。提供第二实施例来减小由一个单位数据U_A的重复而导致的合成声音的不自然。

图17是示出第二实施例的语音段调整部分26的操作的示图。在目标音素为清音的情况下（SB1：否），语音段调整部分26针对调整片段W_B中的N个帧的每个F_B[n]执行以下处理来产生对应于每个帧的N个单位数据U_B。

首先，语音段调整部分26以与第一实施例中相同的方式选择目标片段W_A的多个帧F_A当中最接近于与调整片段W_B中的帧F_B[n]对应的时间点tAn的帧F_A，并且如图17所示计算由所选帧F_A的单位数据U_A的频谱数据Q表示的频谱的包络线E_NV。接着，语音段调整部分26基于包络线E_NV来计算其中对时间轴上随机地时刻改变的预定噪声成分μ进行了调整的语音成分的频谱q。在频率轴上宽的范围内其强度几乎保持均匀的白噪声优选地作为该噪声成分μ。例如通过将噪声成分μ的频谱乘以包络线E_NV来计算频谱q。语音段调整部分26产生包括了表示频谱q的频谱数据Q的单位数据U_A来作为调整片段W_B中的帧F_B[n]的单位数据U_B。

如上所述，在第二实施例中，在目标音素为清音的情况下，将目标片段W_A的单位数据U_A所指示的频谱的频率特性（包络线E_NV）添加到噪声成分μ中以产生合成语音段数据D_B的单位数据U_B。每个频率处的噪声成分μ的强度在时间轴上每秒随机地改变，因此，即使当在调整片段W_B中的多个帧的范围中重复地选择目标片段W_A中的一个单元数据U_A的情况下，合成声音的特性也在时间上（每一帧）时刻地改变。因此根据第二实施例，除了具有与第一实施例相同的效果之外，其与第一实施例相比还可以减小由一个单位数据U_A的重复而导致的合成声音的不自然。

<C：第三实施例>

如在第二实施例中所述的那样，对于清辅音，可以在调整片段W_B中的多个帧的范围中重复目标片段W_A的一个单位数据U_A。另一方面，清辅音的每个帧基本是清音，但是可能混有浊音的帧。当在一个清辅音音素的合成声音中重复一个浊音帧的情况下，会发出非常刺耳的周期性噪声（嗡嗡声）。提供第三实施例以解决上述问题。

第三实施例的语音段调整部分26针对在调整片段W_B的轨迹z2处的与目标片段W_A中的帧连续对应的重复片段τ中的每个帧来选择对应于目标片段W_A中的中心点tAc的帧的单位数据U_A。接着，语音段调整部分26计算对与目标片段W_A的中心点tAc对应的一个单位数据U_A的频谱数据Q进行表示的频谱的包络线E_NV，并且基于包络线E_NV来产生包括其中对预定噪声成分μ进行了调整的频谱的频谱数据Q在内的单位数据U_A，以作为在调整片段W_B的重复片段τ中的每个帧的单位数据U_B。即，频谱的包络线E_NV对于重复片段τ中的多个帧而言是共同的。其中，将与目标片段W_A的中心点tAc对应的单位数据U_A选择作为包络线E_NV的计算源的原因在于，在目标片段W_A的中心点tAc附近能够稳定且容易地发出清辅音（存在清音的很大可能性）。

第三实施例也具有与第一实施例相同的效果。而且，在第三实施例中，使用根据目标片段W_A中的一个单位数据U_A（具体地为对应于中心点tAc的单位数据U_A）而指定的包络线E_NV来产生重复片段τ中的每个帧的单位数据U_B，因此，减小了在一个清辅音音素的合成声音中重复一个浊音帧的可能性。因此，可以抑制由浊音帧的重复导致的周期性噪声的发生。

<D：变型>

可以以各种方式来修改上述实施例的每一个。下面将例示具体的变型。可以适当地组合从以下示例中随意选择的两个或多个变型。

（1）尽管在每个上述实施例中根据辅音音素的类型C1a、C1b和C2来使用对目标片段W_A进行扩展的不同方法，然而还可以使用共同的方法来扩展每个类型的音素的目标片段W_A。例如，还可以使用用于扩展目标片段W_A以使得目标音素的目标片段W_A的中间部分的扩展率高于目标片段W_A的前部分和后部分的扩展率的扩展处理（图9的步骤SA5）来扩展类型C1a或类型C1b的音素的目标片段W_A。

（2）可以适当改变在图9的步骤SA5处执行的扩展处理。例如，在目标音素为浊音的情况下（SB1：是），还可以扩展目标片段W_A以使得调整片段W_B的每个帧和目标片段W_A的每个帧满足轨迹z2的关系。通过在各个帧之间对目标片段W_A中的各个单位数据U_A进行内插来产生调整片段W_B中的每个帧的单位数据U_B的包络形状参数R，并且将目标片段W_A中的单位数据U_A的频谱数据Q选择为单位数据U_B中的频谱数据Q。同样，在目标音素为清音的情况下（SB1：否）还可以扩展目标片段W_A以使得调整片段W_B的每个帧和目标片段W_A的每个帧满足轨迹z1的关系。

（3）在上述实施例的第二插入处理中，通过重复排列语音段V₁的最后帧的单位数据U_A（图11的阴影部分），来生成中间片段M_B。在第二插入处理中有利的是自由改变单位数据U_A在时间轴上的位置（帧）、用于生成中间片段M_B的单位数据U_A。例如，可以通过重复地排列语音段V₂的最前帧的单位数据U_A来生成中间片段M_B。从上面的示例可以理解，第二插入处理包括用于插入中间片段的处理，该中间片段是通过重复排列第一语音段V₁或第二语音段V₂的一个特定帧或多个帧而得到的。

（4）尽管在第二实施例中使用了从目标片段W_A选择的一个单位数据U_A所表示的频谱的包络线E_NV来调整噪声成分μ，然而还可以基于通过在帧之间内插而计算出的包络线E_NV来调整噪声成分μ。例如，当在目标片段W_A中不存在对于调整片段W_B的帧F_B[n]而言满足轨迹z1的关系的时间点tAn的帧时，如参照图16所示，对由恰在时间点tAn之前的帧F_A[m]的单位数据U_A所表示的频谱的包络线E_NV[m]和由恰在时间点tAn之后的帧F_A[m+1]的单位数据U_A所表示的频谱的包络线E_NV[m+1]进行内插，以产生时间点tAn的包络线E_NV，并且以与第二实施例相同的方式基于内插之后的包络线来调整噪声成分μ。

（5）语音段数据D_A或合成语音段数据D_B的形式是可选的。例如，尽管在上述每个实施例中使用表示了语音段V每个帧的频谱的单位数据U的时间序列作为语音段数据D_A，然而还可以使用时间轴上语音段V的采样序列来作为语音段数据D_A。

（6）尽管在上述每个实施例中用于存储语音段数据组G_A的存储单元14安装在语音合成设备100中，然而还可以存在独立于语音合成设备100的外部装置（例如服务器装置）来存储语音段数据组G_A的配置。在这样的情况下，语音合成设备100（音素段选择部分22）通过例如通信网络从外部装置获取语音段V（语音段数据D_A）以产生语音信号V_OUT。采用类似方式，可以将合成信息G_B存储在独立于语音合成设备100的外部装置中。从上述描述可理解，诸如上述用于存储语音段数据D_A和合成信息G_B的存储单元之类的装置并非语音合成设备100的不可或缺的组件。

Claims

1.一种用于使用多个语音段数据合成语音信号的设备，每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段，所述设备包括：

语音段调整部分，其根据第一语音段和第二语音段来形成目标片段以便将第一语音段和第二语音段相互连接，使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成，并且所述语音段调整部分执行用于将所述目标片段扩展到目标时间长度以形成调整片段的扩展处理，使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分，从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据；以及

语音合成部分，其根据由所述语音段调整部分产生的合成语音段数据来产生语音信号，

其中所述语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据，

其中在所述目标片段对应于清辅音音素的情况下，所述语音段调整部分顺序地选择所述目标片段的每个帧的单位数据来作为所述调整片段的每个帧的单位数据，以产生合成语音段数据，并且

其中随着所述调整片段中的时间流逝对所述目标片段中与所述调整片段中的每个帧对应的每个帧进行改变所采用的速度从所述调整片段的前部分到中心点是减小的，而从所述调整片段的中心点到后部分是增大的。

2.根据权利要求1的设备，

其中每个语音段数据包括与排列在时间轴上的多个帧对应的多个单位数据，并且

其中，在所述目标片段对应于浊辅音音素的情况下，所述语音段调整部分将所述目标片段扩展成所述调整片段，使得所述调整片段包含与所述目标片段的前部分对应的单位数据的时间序列、通过对与所述目标片段的中心点对应的单位数据进行重复而得到的多个重复单位数据的时间序列、以及与所述目标片段的后部分对应的多个单位数据的时间序列。

3.根据权利要求2的设备，

其中所述浊辅音音素的帧的单位数据包括对语音频谱的包络线中的形状的特性进行指示的包络数据和对该语音的频谱进行表示的频谱数据，并且

其中所述语音段调整部分产生与所述目标片段的中心点对应的单位数据，使得产生的单位数据包括通过对所述目标片段的中心点前后的单位数据的包络数据进行内插而得到的包络数据以及恰在该中心点前后的单位数据的频谱数据。

4.根据权利要求1的设备，

其中清音的帧的单位数据包括了表示清音频谱的频谱数据，并且

其中所述语音段调整部分产生所述调整片段的帧的单位数据，使得所产生的单位数据包括了含有预定噪声成分的频谱的频谱数据，其中根据由所述目标片段中的帧的单位数据的频谱数据所表示的频谱的包络线对所述预定噪声成分进行了调整。

5.根据权利要求1的设备，其中所述语音段调整部分在所述目标片段的辅音音素属于包括摩擦音和半元音的一种类型的情况下执行所述扩展处理，并且在所述目标片段的辅音音素属于包括爆破音、塞擦音、鼻音和流音的另一种类型的情况下执行另一扩展处理，所述另一扩展处理用于在所述目标片段中的第一语音段的后部音素片段与第二语音段的前部音素片段之间插入中间片段。

6.根据权利要求5的设备，其中在所述目标片段的辅音音素是爆破音或塞擦音的情况下，所述语音段调整部分在第一语音段的后部音素片段与第二语音段的前部音素片段之间插入无声片段来作为中间片段。

7.根据权利要求5的设备，其中在所述目标片段的辅音音素是鼻音或流音的情况下，所述语音段调整部分插入包含了对从第一语音段的后部音素片段或第二语音段的前部音素片段中选择的一个帧进行的重复的中间片段。

8.根据权利要求7的设备，其中所述语音段调整部分插入包含了对第一语音段的后部音素的最后帧进行的重复的中间片段。

9.根据权利要求7的设备，其中所述语音段调整部分插入包含了对第二语音段的前部音素片段的最前帧进行的重复的中间片段。

10.一种使用多个语音段数据合成语音信号的方法，每个语音段数据表示含有至少两个对应于不同音素的音素片段的语音段，所述方法包括：

根据第一语音段和第二语音段来形成目标片段以便将第一语音段和第二语音段相互连接，使得所述目标片段由与辅音音素对应的第一语音段的后部音素片段和与所述辅音音素对应的第二语音段的前部音素片段形成；

执行用于将所述目标片段扩展到目标时间长度以形成调整片段的扩展处理，使得以比所述目标片段的前部分和后部分的扩展率高的扩展率来扩展所述目标片段的中间部分，从而产生具有所述目标时间长度并且与所述辅音音素对应的调整片段的合成语音段数据；以及

根据所述合成语音段数据来产生语音信号，

其中在所述目标片段对应于清辅音音素的情况下，顺序地选择所述目标片段的每个帧的单位数据来作为所述调整片段的每个帧的单位数据，以产生合成语音段数据，并且