CN102810309A

CN102810309A - 语音合成设备

Info

Publication number: CN102810309A
Application number: CN2012101754789A
Authority: CN
Inventors: 若尔迪·博纳达; 梅利因·布洛乌; 橘诚
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-05-30
Filing date: 2012-05-30
Publication date: 2012-12-05
Anticipated expiration: 2032-05-30
Also published as: US20120310650A1; JP6024191B2; EP2530671A2; US8996378B2; CN102810309B; JP2013011863A; EP2530671A3; EP2530671B1

Abstract

本发明提供了语音合成设备和语音合方法。在该语音合成设备中，音素段内插器部分获取音素段的与声音特性的第一值对应的第一音素段数据并获取该音素段的与该声音特性的第二值对应的第二音素段数据。第一音素段数据和第二音素段数据表示音素段的每个帧的频谱。音素段内插器在第一音素段数据的每个帧和与第一音素段数据的每个帧相对应的第二音素段数据的每个帧之间进行内插，从而产生音素段的与声音特性的目标值对应的音素段数据，其中该目标值不同于声音特性的第一值和第二值。语音合成器根据所产生的音素段数据来生成具有声音特性的目标值的语音信号。

Description

语音合成设备

技术领域

本发明涉及一种用于将多个音素段互连以合成一个诸如谈话语

音或歌唱语音之类的语音的技术。

背景技术

已经提出了一种音素段连接类型的语音合成技术，用于互连表示音素段的多个音素段以合成期望的语音。对于具有期望音高（声音的高度）的语音而言，优选地是使用以该音高发音的音素段的音素段数据来进行合成；然而实际上很难关于所有的音高水平准备音素段数据。为此，日本专利申请公开第2010-169889号公开了这样一种结构，其中关于几个代表性音高来准备音素段数据，并且将音高最接近目标音高的一段音素段数据调整为目标音高以合成语音。例如，假设关于图12所示的音高E3和音高G3来准备音素段数据，通过提升音高E3的音素段数据的音高来产生音高F3的音素段数据，并且通过降低音高G3的音素段数据的音高来产生音高F#3的音素段数据。

然而，在日本专利申请公开第2010-169889号中所描述的调整原始音素段数据以产生具有目标音高的新的音素段数据的结构中出现了这样的问题，即具有彼此相邻音高的合成声音的音色互不相似，因此这样的合成声音不自然。例如，音高F3的合成声音与音高F#3的合成声音彼此相邻，并且自然的是这两个合成声音的音色应当互相类似。然而，构成音高F3基础的原始音素段数据（音高E3）与构成音高F#3基础的原始音素段数据（音高G3）是分别发音并被记录的，结果是音高F3的合成声音的音色与音高F#3的合成声音的音色可能不自然地互不相似。特别是在音高F3的合成声音与音高F#3的合成声音是连续产生的情况下，听众会在这两个合成声音间的交界处的转变时间点察觉到音色的突然变化。

同时，尽管以上描述的是音素段数据音高的调整，但是连诸如音量之类的其他声音特性的调整的情况下也都会发生相同的问题。本发明正是考虑了上述问题而作出的，本发明的目的是使用现存音素段数据来产生诸如音高之类的声音特性不同于现存音素段数据的声音特性的合成声音，从而使得合成声音具有自然的音色。

发明内容

将要描述的是为了解决上述问题而在本发明中所采用的手段。同时，在以下描述中，为了便于理解本发明，在括号中示出了与本发明各组件对应的下述实施例中的组件；然而本发明的范围并不限于所述实施例。

根据本发明第一方面的语音合成设备包括：音素段内插部分（例如，音素段内插部分24），其获取一个音素段的第一音素段数据（例如音素段数据V₁）以及该音素段的第二音素段数据（例如音素段数据V₂），所述第一音素段数据包括多个帧的序列并且对应于声音特性（例如，音高）的第一值，所述第二音素段数据包括多个帧的序列并且对应于与所述声音特性的第一值不同的该声音特性的第二值，所述第一音素段数据和所述第二音素段数据表示了所述音素段的每个帧的频谱，并且该音素段内插部分在第一音素段数据的每个帧和与第一音素段数据的每个帧相对应的第二音素段数据的每个帧之间进行内插，从而产生所述音素段的对应于声音特性的目标值（例如，目标音高Pt）的音素段数据，其中所述目标值不同于所述声音特性的第一值和第二值；以及语音合成部分（例如，语音合成部分26），其根据由音素段内插部分所产生的音素段数据来生成具有所述声音特性的目标值的语音信号。

在上述结构中，其声音特性的值彼此不同的多个音素段数据被执行内插，从而产生目标值的音素段数据，因此与根据单段音素段数据来产生目标值的音素段数据的结构相比，本发明可以产生具有自然音色的合成音。

在本发明的优选形式中，音素段内插部分能够选择性地执行第一内插处理或第二内插处理。第一内插处理以与声音特性的目标值对应的内插率（例如，内插率α）来在第一音素段数据（例如，音素段数据V₁）的帧的频谱和第二音素段数据（例如，音素段数据V₂）的对应帧的频谱之间进行内插，从而产生目标值的音素段数据。第二内插处理以与声音特性的目标值对应的内插率来在第一音素段数据的帧的音量（例如，音量E）和第二音素段数据的对应帧的音量之间进行内插，并且根据内插后的音量来对第一音素段数据的帧的频谱进行校正，从而产生目标值的音素段数据。

清音（unvoiced sound）的频谱强度是不规则分布的。因此，在对清音的频谱进行内插的情况下，可能会出现内插后的语音的频谱与内插前的音素段数据的每一个都不相似的情况。为此，优选的是，针对浊音（voiced sound）帧的内插方法与针对清音帧的内插方法互不相同。

也就是说，在本发明的优选方面中，在第一音素段数据的一个帧和与第一音素段数据的这个帧相对应的第二音素段数据的一个帧都表示浊音的情况下（也就是说，对于在时间轴上的第一音素段数据的帧和与第一音素段数据的这个帧相对应的第二音素段数据的帧都表示浊音的情况而言），音素段内插部分以与声音特性的目标值对应的内插率（例如，内插率α）来在第一音素段数据的帧的频谱和第二音素段数据的对应帧的频谱之间进行内插。

在第一音素段数据的帧和与第一音素段数据的这个帧相对应的第二音素段数据的帧二者中的任一表示清音的情况下（也就是说，对于在时间轴上的第一音素段数据的帧和与第一音素段数据的这个帧相对应的第二音素段数据的帧二者中的任一表示清音的情况而言），音素段内插部分以与声音特性的目标值对应的内插率来在第一音素段数据的帧的音量（例如，音量E）和第二音素段数据的对应帧的音量之间进行内插，并且根据内插后的音量来对第一音素段数据的帧的频谱进行校正，从而产生目标值的音素段数据。

在上述结构中，对于其中第一音素段数据和第二音素段数据都对应于浊音的帧，通过对频谱进行内插而产生了目标值的音素段数据，并且对于其中第一音素段数据和第二音素段数据二者中的任一对应于清音的帧，通过对音量进行内插而产生了目标值的音素段数据。因此，即使是在音素段既包括浊音又包括清音的情况下也可以适当地产生目标值的音素段数据。同时，可以关于第二音素段数据来对音量进行内插。可对第二音素段数据而非第一音素段数据施加利用音量进行的校正。

在一个具体方面中，第一音素段数据和第二音素段数据包括表示了浊音的每个帧的频谱形状特性的形状参数（例如，形状参数R），并且音素段内插部分以与声音特性的目标值对应的内插率来在第一音素段数据的帧的频谱的形状参数和第二音素段数据的对应帧的频谱的形状参数之间进行内插。

第一音素段数据和第二音素段数据包括代表清音的每个帧的频谱的频谱数据（例如，频谱数据Q），并且音素段内插部分根据内插后的音量来对第一音素段数据的频谱数据所表示的频谱进行校正，从而产生目标值的音素段数据。

在上述方面中，在音素段数据中针对音素段当中具有浊音的片段内的每个帧包括了形状参数，因此与在音素段数据中甚至针对浊音也包括表示频谱本身的频谱数据的结构相比，本发明可以减小音素段数据的数据量。而且还可以通过对形状参数进行内插来容易且适当地产生对第一音素段数据和第二音素段数据都有所反映的频谱。

在本发明的优选方面中，对于第一音素段数据或第二音素段数据表示清音的帧而言，音素段内插部分根据内插后的音量来对第一音素段数据（或第二音素段数据）的频谱数据所表示的频谱进行校正，从而产生目标值的音素段数据。在上述方面中，除了对于第一音素段数据和第二音素段数据都表示清音的帧以外，即使是对于第一音素段数据或第二音素段数据表示清音的帧而言（也就是说，在第一音素段数据和第二音素段数据之一表示清音，而第一音素段数据和第二音素段数据中的另一个表示浊音的情况下），也会通过对音量进行内插来产生目标值的音素段数据。因此，即使在第一音素段数据的浊音和清音之间的边界不同于第二音素段数据的浊音和清音之间的边界的情况下，也可以适当地产生目标值的音素段数据。同时，在第一音素段数据和第二音素段数据之一表示清音，而第一音素段数据和第二音素段数据中的另一个表示浊音的情况下，可以采用通过对帧的音量进行内插来产生目标值的音素段数据的构造，而对于第一音素段数据的帧和第二音素段数据的帧都表示清音的情况而言则忽略这样的内插。同时，上述第一方面的具体示例将在以下描述中例如被示意性示出为第一实施例。

如上所述，根据本发明的一种方式，语音合成设备包括：音素段内插部分，在第一音素段数据的一个帧和与第一音素段数据的这个帧相对应的第二音素段数据的一个帧都表示浊音的情况下（也就是说，对于在时间轴上的第一音素段数据的帧和与第一音素段数据的这个帧相对应的第二音素段数据的帧都表示浊音的情况而言），该音素段内插部分以与声音特性的目标值对应的内插率来在第一音素段数据的帧的频谱和第二音素段数据的对应帧的频谱之间进行内插；以及语音合成部分，其根据由音素段内插部分所产生的音素段数据来生成具有所述声音特性的目标值的语音信号。

如上所述，根据本发明的另一方面，语音合成设备包括：音素段内插部分，在第一音素段数据的帧或者与第一音素段数据的这个帧相对应的第二音素段数据的帧表示清音的情况下（也就是说，对于在时间轴上的第一音素段数据的帧和与第一音素段数据的这个帧相对应的第二音素段数据的帧二者中的任意一个表示清音的情况而言），该音素段内插部分以与声音特性的目标值对应的内插率来在第一音素段数据的帧的音量和第二音素段数据的对应帧的音量之间进行内插，并且根据内插后的音量来对第一音素段数据的帧的频谱进行校正，从而产生目标值的音素段数据；以及语音合成部分，其根据由音素段内插部分所产生的音素段数据来生成具有所述声音特性的目标值的语音信号。

同时，在第一音素段数据的诸如音量、频谱包络或语音波形之类的声音特性与第二音素段数据的这些声音特性差异很大的情况下，通过对第一音素段数据和第二音素段数据进行内插而产生的音素段数据可能既不相似于第一音素段数据也不相似于第二音素段数据。

为此，在本发明的优选方面，在第一音素段数据的一个帧和与第一音素段数据的这个帧相对应的第二音素段数据的一个帧之间的声音特性的差异很大的情况下（例如，对于第一音素段数据的一个帧和与第一音素段数据的这个帧相对应的第二音素段数据的一个帧之间的音量差大于预定阈值的情况而言），音素段内插部分产生这样的目标值的音素段数据，从而使得第一音素段数据和第二音素段数据之一在所产生的音素段数据中相比第一音素段数据和第二音素段数据中的另一个更占优势。具体而言，在第一音素段数据和第二音素段数据的对应帧之间的声音特性差异较大的情况下（例如，表示差异程度的指标值超过阈值的情况下），音素段内插部分将内插率设定为接近最大值或最小值。

在上述方面中，在第一音素段数据和第二音素段数据之间的声音特性的差异较大的情况下，将内插率设定为对第一音素段数据或第二音素段数据给予优先级，因此可以通过内插产生对第一音素段数据或第二音素段数据进行适当反映的音素段数据。同时，上述方面的具体示例将在以下描述中例如被示意性示出为第三实施例。

根据本发明第二方面的语音合成设备，还包括连续音内插部分（例如，连续音内插部分44），该连续音内插部分获取第一连续音数据（例如，连续音数据S）和第二连续音数据，并且在第一连续音数据和第二连续音数据之间进行内插以产生对应于目标值（例如，目标音高Pt）的连续音数据，所述第一连续音数据表示了一个连续音的第一波动成分并且对应于声音特性（例如，音高）的第一值，所述第二连续音数据表示了该连续音的第二波动成分并且对应于声音特性的第二值，其中语音合成部分（例如，语音合成部分26）使用由音素段内插部分所产生的音素段数据以及由连续音内插部分所产生的连续音数据来产生语音信号。

在上述结构中，对声音特性的值互不相同的多个连续音数据进行内插，以产生目标值的连续音数据，因此与根据单段连续音数据来产生目标值的连续音数据的结构相比，可以产生具有自然音色的合成声音。

例如，连续音内插部分从第一连续音数据中提取各自具有给定时间长度的多个第一单位片段，并沿时间轴排列这些第一单位片段以产生第一中间数据，并且连续音内插部分从第二连续音数据中提取各自具有与第一单位片段的时间长度相等的时间长度的多个第二单位片段，并沿时间轴排列这些第二单位片段以产生第二中间数据，并且连续音内插部分在第一中间数据和第二中间数据之间进行内插从而产生与所述声音特性的目标值对应的连续音数据。同时，上述第二方面的具体示例将在以下描述中例如被示意性示出为第二实施例。

根据上述各个方面的语音合成设备可通过硬件（电路）来实现，例如专用于合成语音的数字信号处理器（DSP），另外可通过中央处理单元（CPU）之类的通用处理单元与程序的组合来实现。

由用于执行语音合成处理的计算机来执行根据本发明第一方面的程序（例如，程序P_GM），该语音合成处理包括：获取一个音素段的第一音素段数据，该第一音素段数据包括多个帧的序列并且对应于声音特性的第一值，该第一音素段数据表示了所述音素段的每个帧的频谱；获取所述音素段的第二音素段数据，该第二音素段数据包括多个帧的序列并且对应于与所述声音特性的第一值不同的该声音特性的第二值，该第二音素段数据表示了所述音素段的每个帧的频谱；在第一音素段数据的一个帧和与第一音素段数据的这个帧相对应的第二音素段数据的一个帧都表示浊音的情况下，以与所述声音特性的一个目标值对应的内插率来在第一音素段数据的帧的频谱和与第一音素段数据的这个帧相对应的第二音素段数据的帧的频谱之间进行内插，从而产生所述音素段的对应于目标值的音素段数据，其中所述目标值不同于所述声音特性的第一值和第二值；以及根据所产生的音素段数据来生成具有所述声音特性的目标值的语音信号。

而且，根据本发明第二方面的程序能够使得包括了音素段存储部分和连续音存储部分的计算机执行连续音内插处理和语音合成处理，其中该音素段存储部分用于存储表示了针对声音特性不同值的音素段的音素段数据，而该连续音存储部分用于存储表示了针对声音特性的不同值的连续音波动成分的连续音数据，所述连续音内插处理用于对存储在连续音存储部分中的多个连续音数据进行内插，以产生对应于目标值的连续音数据，所述语音合成处理用于使用音素段数据和通过连续音内插处理产生的连续音数据来产生语音信号。如上所述的程序实现了与根据本发明的语音合成设备相同的操作和效果。根据本发明的程序通过存储在记录介质（机器可读存储介质）的形式提供给用户，该记录介质能通过计算机读取从而来将程序安装在计算机中，另外根据本发明的程序还可通过经通信网络发布的程序的形式来由服务器提供，从而将程序安装在计算机中。

附图说明

图1是根据本发明第一实施例的语音合成设备的框图。

图2是音素段数据组和每个音素段数据的典型表示。

图3是示出使用音素段数据的语音合成的示意图。

图4是音素段内插部分的框图。

图5是示出内插率基于时间变化的典型示图。

图6是示出内插处理部分的操作的流程图。

图7是根据本发明第二实施例的语音合成设备的框图。

图8是在根据本发明第二实施例的语音合成设备中的连续音数据组和连续音数据的典型表示。

图9是示出连续音数据的内插的示意图。

图10是连续音内插部分的框图。

图11是示出在根据本发明第三实施例的语音合成设备中内插率基于时间变化的示图。

图12是示出根据现有技术对音素段数据进行调整的示图。

具体实施方式

<A：第一实施例>

图1是根据本发明第一实施例的语音合成设备100的框图。语音合成设备100是一种通过音素段连接型的语音合成处理来产生诸如谈话语音或歌唱语音之类的语音的信号处理设备。如图1所示，语音合成设备100是通过包括中央处理单元12、存储单元14以及声音输出单元16的计算机系统来实现的。

中央处理单元（CPU）12运行存储单元14中所存储的程序P_GM，以执行用于产生表示了合成声音波形的语音信号V_OUT的多个功能（音素段选择部分22、音素段内插部分24、以及语音合成部分26）。同时，中央处理单元12的各个功能可通过集成电路来单独实现，或者一个诸如DSP之类的专用电路可实现各个功能。声音输出单元16（例如耳机或扬声器）输出与中央处理单元12所产生的语音信号V_OUT相对应的声波。

存储单元14存储由中央处理单元12执行的程序P_GM以及被中央处理单元12使用的各种数据（音素段数据组G_A和合成信息G_B）。可采用诸如半导体记录介质或磁记录介质之类的已知记录介质或者多种记录介质的组合来作为机器可读存储单元14。

如图2所示，音素段数据组G_A是被用作语音信号V_OUT的素材的多个音素段数据V的集合（语音合成库）。针对每个音素段来预先记录对应于不同音高P（P1、P2、......）的多个音素段数据V并将其存储在存储单元14中。音素段是等同于语音的最小语言单位的单个音素，或者是其中多个音素彼此连接的音素序列（例如由两个音素构成的双连音）。下文为了方便起见将无声描述为一种清音的音素（符号为Sil）。

如图2所示，由多个音素/a/和/s/构成的音素段（双连音）的音素段数据V包括边界信息B和音高P，以及与音素段在时间轴上被分割出的各个帧相对应的多个单位数据U（UA和UB）的时间序列。边界信息B指示了音素段的帧序列中的边界点tB。例如，制造音素段数据V的人在检查该音素段的时域波形的同时设置边界点tB，从而该边界点tB与构成音素段的各个音素之间的每个边界一致。音高P是音素段的总音高（例如，在记录音素段数据V期间讲话者想要的音高）。

每段单位数据U都指示一帧中的语音频谱。音素段数据V的多个单位数据U被分成多个单位数据UA和多个单位数据UB，其中单位数据UA对应于包括了该音素段的浊音的片段中的各个帧，单位数据UB对应于包括了该音素段的清音的片段中的各个帧。边界点tB等同于单位数据UA的序列和单位数据UB的序列之间的边界。例如，如图2所示，其中清音音素/s/紧随浊音音素/a/的一个双连音的音素段数据V包括与边界点tB之前片段（浊音音素/a/）的各个帧相对应的单位数据UA以及与边界点tB之后片段（清音音素/s/）的各个帧相对应的单位数据UB。如上所述，单位数据UA的内容与单位数据UB的内容彼此不同。

如图2所示，对应于浊音的一个帧的一段单位数据UA包括形状参数R、音高pF以及音量（能量）E。音高pF表示一个帧中的语音的音高（基频），而音量E表示一个帧中的语音的平均能量。

形状参数R是表示语音频谱（音色）的信息。形状参数包括指示了语音频谱包络（谐波成分）的形状特性的多个变量。形状参数R的第一实施例例如是包括了激励波形包络r1、胸腔共振r2、声道共振r3、以及差频谱r4的激励共振（EpR）参数。EpR参数通过公知的频谱模拟合成（SMS）分析来产生。同时，例如在日本专利第3711880号和日本专利申请公开第2007-226174号中公开了EpR参数和SMS分析。

激励波形包络（激励曲线）r1是近似于声带振动的频谱包络的变量。胸腔共振r2指示了近似于胸腔共振特性的预定数量共振（带通滤波器）的带宽、中心频率以及幅值。声道共振r3指示了近似于声道共振特性的多个共振的每一个的带宽、中心频率以及幅值。差频谱r4意指近似于激励波形包络r1、胸腔共振r2以及声道共振r3的频谱与语音频谱之间的差异（误差）。

如图2所示，对应于清音的一个帧的单位数据UB包括频谱数据Q和音量E。该音量E与单位数据UA中的音量E一样都是指一个帧中的语音的能量。频谱数据Q是表示语音频谱（非谐波成分）的数据。具体来说，频谱数据Q包括频率轴上多个频率的每一个的强度的序列（功率和幅值）。也就是说，单位数据UA中的形状参数R间接表示了一个语音频谱（共振成分），而单位数据UB中的频谱数据Q直接表示了一个语音频谱（非共振成分）。

存储在存储单元14中的合成信息（评分数据）G_B指示了合成声音的发音文字X₁和发音时段X₂，以及时间序列中的一个音高Pt的目标值（以下称为“目标音高”）。例如在合成歌唱语音的情况下，发音文字X₁是歌词的字母序列。发音时段X₂例如被指定为发音起始时间和持续时间。例如根据用户通过各种输入设备进行的操作来创建合成信息G_B，并且随后将该合成信息G_B存储在存储单元14中。同时，通过通信网络从另一通信终端接收到的合成信息G_B或者从各种记录介质发送来的合成信息G_B可被用来创建语音信号V_OUT。

图1的音素段选择部分22从存储单元14的音素段数据组G_A中顺序选择与合成信息G_B的发音文字X₁相对应的音素段的音素段数据V。对应于目标音高Pt的音素段数据V是从针对相同音素段的每个音高P而准备的多个音素段数据V当中选择的。具体来说，在关于发音文字X₁的音素段来将符合目标音高Pt的音高P的音素段数据V存储在存储单元14中的情况下，音素段选择部分22从音素段数据组G_A中选择该音素段数据V。另一方面，在没有关于发音特性X₁的音素段来将符合目标音高Pt的音高P的音素段数据V存储在存储单元14中的情况下，音素段选择部分22从音素段数据组G_A中选择其音高P都接近目标音高Pt的多个音素段数据V。具体来说，音素段选择部分22选择具有不同音高P的两段音素段数据V₁和V₂，其中目标音高Pt位于这两段音素段数据之间。也就是说，选择了这样的音素段数据V₁和V₂，其中在目标音高Pt位于音素段数据V₁的音高P与音素段数据V₂的音高P之间的状态下，音素段数据V₁的音高P最接近目标音高Pt，而音素段数据V₂的另一音高P在音素段数据V₁的音高P的相反范围内最接近目标音高Pt。

在没有音素段数据V的音高P与目标音高Pt一致的情况下，图1的音素段内插部分24对音素段选择部分22所选择的两段音素段数据V₁和V₂进行内插，以产生对应于目标音高Pt的新的音素段数据V。下面将对音素段内插部分24的操作进行详细描述。

语音合成部分26使用由音素段选择部分22选择的目标音高Pt的音素段数据V和由音素段内插部分24产生的音素段数据V来产生语音信号V_OUT。具体来说，如图3所示，语音合成部分26根据由合成信息G_B所指示的发音时段X₂（发音起始时间）来确定各个音素段数据V在时间轴上的位置，并将音素段数据V的每段单位数据U所表示的频谱转换成时域波形。具体来说，对于单位数据UA而言，由形状参数R指定的频谱被转换成时域波形，而对于单位数据UB而言，由频谱数据Q直接表示的频谱被转换成时域波形。而且，语音合成部分26对根据音素段数据V产生的各时域波形在音素段数据V前部的帧与后部的帧之间进行互连，以产生语音信号V_OUT。如图3所示，在其中的音素（典型的是浊音）稳定连续的片段H（以下称为“稳定发音片段”）中，音素段数据V当中随后紧跟着该稳定发音片段的那个最后帧的单位数据U被重复。

图4是音素段内插部分24的框图。如图4所示，第一实施例的音素段内插部分24包括内插率设定部分32、音素段扩展和压缩部分34、以及内插处理部分36。内插率设定部分32根据由合成信息G_B所指示的时间序列中的目标音高Pt来针对每个帧顺序地设定对音素段数据V₁和音素段数据V₂的内插所应用的内插率α（0≤α≤1）。具体来说，如图5所示，内插率设定部分32针对每个帧设定内插率α，从而可以依据目标音高Pt来在0到1之间的范围内改变内插率α。例如随着目标音高Pt接近音素段数据V₁的音高P，将内插率α设定为近似为1的值。

构成音素段数据组G_A的多个音素段数据V的时间长度可能互不相同。音素段扩展和压缩部分34对音素段选择部分22所选择的每段音素段数据V进行扩展和压缩，从而使音素段数据V₁和音素段数据V₂的音素段具有相同的时间长度（相同的帧数）。具体来说，音素段扩展和压缩部分34将音素段数据V₂扩展和压缩为与音素段数据V₁相同的帧数M。例如，在音素段数据V₂比音素段数据V₁长的情况下，使音素段数据V₂的多个单位数据U针对每一预定数量来被稀释，从而调整音素段数据V₂使其具有与音素段数据V₁相同的帧数M。另一方面，在音素段数据V₂比音素段数据V₁短的情况下，使音素段数据V₂的多个单位数据U针对每一预定数量来被重复，从而调整音素段数据V₂使其具有与音素段数据V₁相同的帧数M。

图4的内插处理部分36基于由内插率设定部分32设定的内插率α来对经过了音素段扩展和压缩部分34处理的音素段数据V₁和音素段数据V₂进行内插，从而产生具有目标音高Pt的音素段数据。图6是示出内插处理部分36的操作的流程图。图6的处理是针对每一对彼此在时间上对应的音素段数据V₁和音素段数据V₂执行的。

内插处理部分36从音素段数据V（V₁和V₂）的M个帧中选择一个帧（以下称为“所选帧”）（SA1）。每当执行步骤SA1来一个接一个地对M个帧的每一个进行顺序选择时，针对每一个所选帧来执行通过内插产生具有目标音高Pt的单位数据U（以下称为“内插的单位数据Ui”）的处理（SA1至SA6）。一旦指定了所选帧，内插处理部分36就确定音素段数据V₁和音素段数据V₂二者的所选帧是否与浊音的帧（以下称为“浊音帧”）对应（SA2）。

在由音素段数据V的边界信息B所指定的边界点tB与音素段内的实际音素的边界完全一致的情况下（也就是说，在浊音与清音之间的差异和单位数据UA与单位数据UB之间的差异彼此完全对应的情况下），可以将具有准备好的单位数据UA的帧确定为浊音帧，且另外将具有准备好的单位数据UB的帧确定为清音的帧（以下称为“清音帧”）。然而，对于单位数据UA与单位数据UB之间的边界点tB实际上不同于音素段中实际浊音与实际清音之间的边界的结果而言，由制造音素段数据V的人来手动地指定单位数据UA与单位数据UB之间的边界点tB。因此，甚至可能针对一个与清音实际对应的帧来准备浊音的单位数据UA，以及甚至可能针对一个与浊音实际对应的帧来准备清音的单位数据UB。为此，在图6的步骤SA2中，如果单位数据UA的音高pF不具有有效值（significant value）（也就是说，由于该帧是清音，所以具有适当值的音高pF未被检测到），则内插确定部分36将具有准备好的单位数据UB的帧确定为清音，且另外将具有准备好的单位数据UA的帧也确定为清音。即，在具有所准备的单位数据UA的多个帧当中其音高pH具有有效值的帧被确定为浊音帧，而其音高pH具有零值（表示未检测到音高的值）的帧被确定为清音帧。

在音素段数据V₁和音素段数据V₂二者的所选帧对应于浊音帧的情况下（SA2：是），内插处理部分36根据内插率α对由音素段数据V₁当中的所选帧的单位数据UA所表示的频谱以及由音素段数据V₂当中的所选帧的单位数据UA所表示的频谱进行内插，以产生内插单位数据Ui（SA3）。另一种情况是，内插处理部分36根据内插率α对由音素段数据V₁的所选帧的单位数据UA所表示的频谱以及由音素段数据V₂的所选帧的单位数据UA所表示的频谱进行加权求和，以产生内插单位数据Ui（SA3）。

例如，内插处理部分36执行由以下的表达式（1）所表示的内插来计算内插单位数据Ui的形状参数R的各个变量xi，其中所述表达式（1）是关于音素段数据V₁当中的所选帧的形状参数R的各个变量x1（r1至r4）和音素段数据V₂当中的所选帧的形状参数R的各个变量x2（r1至r4）。

xi=α·x1+(1-α)·x2...(1)

也就是说，在音素段数据V₁和音素段数据V₂二者的所选帧对应于浊音帧的情况下，执行对语音的频谱（即，音色）的内插，以与单位数据UA相同的方式产生包括形状参数R的内插单位数据Ui。

此时，可以通过对形状参数R（r1至r4）的一部分进行内插，同时对于形状参数R的剩余部分从第一音素段数据V₁和第二音素段数据V₂之一中取得数字值，从而产生内插单位数据Ui。例如，在各个形状参数R当中，在第一音素段数据V₁和第二音素段数据V₂之间针对激励波形包络r1、胸腔共振r2和声阈共振r3来执行内插。对于剩下的差频谱r4，从第一音素段数据V₁和第二音素段数据V₂之一中选出一个数字值。

另一方面，在音素段数据V₁和/或音素段数据V₂的所选帧对应于清音帧的情况下，不能应用步骤SA3中的频谱内插，这是因为清音的频谱强度不规则分布。为此，在第一实施例中，在音素段数据V₁和/或音素段数据V₂的所选帧对应于清音帧的情况下，只对所选帧的音量E进行内插而不对所选帧的频谱执行内插（SA4和SA5）。

例如，在音素段数据V₁和/或音素段数据V₂的所选帧对应于清音帧的情况下（SA2：否），内插处理部分36首先根据内插率α对由音素段数据V₁当中的所选帧的单位数据U所表示的音量E1和由音素段数据V₂当中的所选帧的单位数据U所表示的音量E2进行内插，以计算内插音量Ei（SA4）。例如通过以下表达式（2）来计算内插音量Ei。

Ei=α·E1+(1-α)·E2...(2)

第二，内插处理部分36根据内插音量Ei对由音素段数据V₁的所选帧的单位数据U所表示的频谱进行校正，以产生包括了校正频谱的频谱数据Q的内插单位数据Ui（SA5）。具体来说，对单位数据U的频谱进行校正，从而音量变为内插音量Ei。在音素段数据V₁的所选帧的单位数据U是包括了形状参数R的单位数据UA的情况下，根据形状参数R指定的频谱变成了要根据内插音量Ei来进行校正的目标。在音素段数据V₁的所选帧的单位数据U是包括了频谱数据Q的单位数据UB的情况下，由频谱数据Q直接表示的频谱变成了要根据内插音量Ei校正的目标。也就是说，在音素段数据V₁和/或音素段数据V₂的所选帧对应于清音帧的情况下，只对音量E进行内插，以与单位数据UB相同的方式产生包括了频谱数据Q的内插单位数据Ui。

一旦产生了所选帧的内插单位数据Ui，内插处理部分36就确定该内插单位数据Ui是否已关于所有（M个）帧而被产生（SA6）。在还存在未被处理的（一个或多个）帧的情况下（SA6：否），内插处理部分36将紧接在当前步骤的所选帧之后的帧选为新的所选帧（SA1），并且执行从步骤SA2至SA6的处理。在已经关于所有的帧执行了处理的情况下（SA6：是），内插处理部分36结束图6的处理。包括了M个针对各个帧产生的内插单位数据Ui的时间序列的音素段数据V被语音合成部分26用来产生语音信号V_OUT。

由以上描述能够明显看出，在第一实施例中，具有不同音高P的多个音素段数据V被内插（合成）以产生目标音高Pt的音素段数据V。因此，与对单段音素段数据进行调整以产生目标音高的音素段数据的结构相比，能够产生具有自然音色的合成音。例如，假设关于图12所示的音高E3和音高G3来准备音素段数据V，通过对具有音高E3的音素段数据V和具有音高G3的音素段数据V进行内插（然而，它们的内插率α却互不相同），产生了位于它们之间的具有音高F3和音高F#3的音素段数据V。因此，可以产生彼此具有相似且自然的音色的音高F3的合成声音和音高F#3的合成声音。

同样对于在音素段数据V₁和音素段数据V₂之间的两个关于时间彼此对应的帧都对应于浊音的情况，通过对形状参数R进行内插来产生内插单位数据Ui。另一方面，对于在音素段数据V₁和音素段数据V₂之间的两个关于时间彼此对应的帧之一或二者对应于清音的情况，通过对音量E进行内插来产生内插单位数据Ui。由于如上所述对于浊音帧和清音帧的内插方法彼此不同，所以可通过内插来针对浊音和清音二者来产生实际自然的音素段数据，以下将对此进行详细描述。

例如，即使在音素段数据V₁和音素段数据V₂二者的所选帧均对应于浊音帧的情况下，对于其中根据音素段数据V₁和音素段数据V₂之间的内插音量Ei来校正音素段数据V₁的频谱这样的结构（比较例1）而言，该结构可能会以与在所选帧对应于清音的情况下相同的方式而使内插之后的音素段数据V与音素段数据V₁的音色相似但与音素段数据V₂的音色不相似，这导致了合成音实际不自然。在第一实施例中，对于音素段数据V₁和音素段数据V₂二者的所选帧对应于浊音帧的情况，通过在音素段数据V₁和音素段数据V₂之间内插形状参数R来产生音素段数据V，因此与比较例1相比能够产生自然的合成音。

同样，即使是在音素段数据V₁和/或音素段数据V₂的所选帧对应于清音帧的情况下，对于其中内插音素段数据V₁的频谱以及音素段数据V₂的频谱这样的结构（比较例2）而言，该结构可能会以与在所选帧对应于浊音的情况下相同的方式而使内插之后的音素段数据V的频谱既不同于音素段数据V₁也不同于音素段数据V₂。在第一实施例中，对于音素段数据V₁和/或音素段数据V₂二者的所选帧对应于清音帧的情况，根据音素段数据V₁和音素段数据V₂之间的内插音量Ei来对音素段数据V₁的频谱进行校正，因此可以产生其中的音素段数据V₁被适当反映的自然的合成音。

<B：第二实施例>

以下将描述本发明的第二实施例。根据第一实施例，在其中对稳定连续的语音（以下称为“连续音”）进行合成的稳定发音片段H中，对音素段数据V当中随后紧跟着该稳定发音片段H的那个最后单位数据U进行排列。在第二实施例中，将连续音的波动成分（例如颤音成分）添加到稳定发音片段H中的多个单位数据U的时间序列中。同时，将要描述的各个实施例中的其操作或功能与第一实施例中相同的那些组成要素使用以上描述中相同的参考标号进行表示，并且适当地省略了对它们的详细描述。

图7是根据本发明第二实施例的语音合成设备100的框图。如图7所示，第二实施例的存储单元14除了存储程序P_GM、音素段数据组G_A以及合成信息G_B以外，还存储连续音数据组G_C。

如图8所示，连续音数据组G_C是表示连续音的波动成分的多个连续音数据S的集合。波动成分相当于声学特性稳定持续的语音（连续音）随着时间的过去而发生细微波动的成分。如图8所示，对应于不同音高P（P1、P2、...）的多个连续音数据S针对浊音的每个音素段（每个音素）而被预先记录并被存储在存储单元14中。一段连续音数据S包括波动成分的标称（平均）音高P以及与连续音波动成分的在时间轴上分割出的各个帧相对应的形状参数R的时间序列。每个形状参数R都由多个表示了连续音波动成分的频谱形状特性的变量r1至r4组成。

如图7所示，中央处理单元12除了作为与第一实施例中相同的组件（音素段选择部分22、音素段内插部分24、以及语音合成部分26）之外还被用作连续音选择部分42以及连续音内插部分44的功能。连续音选择部分42针对每个稳定发音片段H来顺序选择连续音数据S。具体来说，在与合成信息G_B的目标音高Pt一致的音高P的连续音数据S关于发音文字X₁的音素段被存储在存储单元14中的情况下，该连续音选择部分42从连续音数据组G_C中选择一段连续音数据S。另一方面，在与目标音高Pt一致的音高P的连续音数据S未关于发音文字X₁的音素段被存储在存储单元14中的情况下，该连续音选择部分42以与音素段选择部分22所用相同的方式来选择不同音高P的两段连续音数据S（S₁和S₂），其中目标音高Pt位于这两个不同音高P之间。具体来说，对具有最接近目标音高Pt的音高P的连续音数据S₁和在连续音数据S₁的音高P的相反范围内的最接近目标音高Pt的另一音高P的连续音数据S₂进行选择，其中目标音高Pt位于连续音数据S₁的音高P和连续音数据S₂的音高P之间。

如图9所示，连续音内插部分44在其音高P与目标音高Pt相一致的连续音数据S不存在的情况下将由连续音选择部分42所选择的两段连续音数据S（S₁和S₂）进行内插，以产生对应于目标音高Pt的一段连续音数据S。通过由连续音内插部分44执行的内插而产生的连续音数据S由与基于发音时段X₂的稳定发音片段H中的各个帧相对应的多个形状参数R构成。

如图9所示，语音合成部分26对由连续音选择部分42所选择的具有目标音高Pt的连续音数据S或由连续音内插部分44所产生的连续音数据S关于稳定发音片段H中的多个单位数据U的时间序列来进行合成，以产生语音信号V_OUT。具体来说，语音合成部分26将由稳定发音片段H中的每段单位数据U所表示的频谱时域波形和由连续音数据S的每个形状参数R所表示的频谱时域波形添加到相应的帧之间，从而产生连接在之前的帧和之后的帧之间的语音信号V_OUT。

图10是连续音内插部分44的框图。如图10所示，连续音内插部分44包括内插率设定部分52、连续音扩展和压缩部分54、以及内插处理部分56。内插率设定部分52按照与第一实施例的内插率设定部分32相同的方式来针对每个帧设定基于目标音高Pt的内插率α（0≤α≤1）。同时，尽管在图10中为了方便的目的而将内插率设定部分32和内插率设定部分52示为独立的组件，但音素段内插部分24和连续音内插部分44可以共用内插率设定部分32。

图10的连续音扩展和压缩部分54对由连续音选择部分42选择的连续音数据S（S₁和S₂）进行扩展和压缩，以产生中间数据s（s₁和s₂）。如图9所示，连续音扩展和压缩部分54从连续音数据S₁的多个形状参数R的时间序列中提取N个单位片段σ1[1]至σ1[N]并将它们连接，从而产生其中排列了与稳定发音片段H的时间长度相当的多个形状参数R的中间数据s₁。从连续音数据S₁中提取N个单位片段σ1[1]至σ1[N]，以使得这N个单位片段σ1[1]至σ1[N]能在时间轴上彼此覆盖，并且各自的时间长度（帧数）被随机设定。

同样如图9所示，连续音扩展和压缩部分54从连续音数据S₂的多个形状参数R的时间序列中提取N个单位片段σ2[1]至σ2[N]并将它们连接，从而产生中间数据s₂。第n个（n=1至N）单位片段σ2[n]的时间长度（帧数）被设定为与中间数据s₁的第n个（n=1至N）单位片段σ1[n]的时间长度（帧数）相等。因此，按照与中间数据s₁相同的方式，与稳定发音片段H的时间长度相当的多个形状参数R组成了中间数据s₂。

图10的内插处理部分56对中间数据s₁和中间数据s₂进行内插以产生具有目标音高Pt的连续音数据S。具体来说，内插处理部分56根据由内插率设定部分52设定的内插率σ来对中间数据s₁和中间数据s₂之间的对应帧的形状参数R进行内插，以产生内插形状参数Ri，并在时间序列中对多个内插形状参数Ri进行排列以产生具有目标音高Pt的连续音数据S。将以上表达式[1]应用于对形状参数R的内插。将根据内插处理部分56产生的连续音数据S所指定的连续音波动成分的时域波形与根据稳定发音片段H中的每段单位数据U所指定的语音的时域波形进行合成，以产生语音信号V_OUT。

第二实施例同样具有与第一实施例相同的效果。而且，在第二实施例中，具有目标音高Pt的连续音数据S是根据现有连续音数据S产生的，因此与其中针对目标音高Pt的所有值来准备连续音数据S的结构相比，第二实施例可以减小连续音数据组G_C的数据量（存储单元14的容量）。而且，对多个连续音数据S进行内插来产生具有目标音高Pt的连续音数据S，因此与按照第一实施例对音素段数据V进行内插同样的方式来根据单段连续音数据S产生具有目标音高Pt的连续音数据S的结构相比，可以产生自然的合成声音。

同时，可以采用将连续音数据S₁扩展和压缩到稳定发音片段H的时间长度（将形状参数R稀释或重复）以产生中间数据s₁的方法来作为根据连续音数据S₁来产生与稳定发音片段H的时间长度相当的中间数据s₁的方法。然而对于在时间轴上扩展和压缩连续音数据S₁的情况，波动成分的时段在扩展和压缩前后发生改变，这样的结果是稳定发音片段H中的合成音可能听起来不自然。在以上对提取自连续音数据S₁的单位片段σ1[n]进行排列来产生中间数据s₁的结构中，在单位片段σ1[n]中对形状参数R进行的排列与对连续音数据S₁的排列是一样的，因此可以产生保持波动成分的时段的自然的合成音。以相同方式产生中间数据s₂。

<C：第三实施例>

对于当对音素段数据V₁和音素段数据V₂进行内插时音素段数据V₁所表示的语音的音量（能量）与音素段数据V₂所表示的语音的音量差异极大的情况而言，可能会产生声学特性既不像音素段数据V₁也不像音素段数据V₂的音素段数据V，这样的结果是合成音可能不自然。在第三实施例中，考虑到上述问题，对内插率α进行控制，从而在音素段数据V₁与音素段数据V₂之间的音量差大于预定阈值的情况下使得以优先级为基础将音素段数据V₁和音素段数据V₂都反映在内插中。

如上所述，在第一音素段数据V₁的帧与对应于第一音素段数据V₁的帧的第二音素段数据V₂的帧之间的声音特性差异大于预定阈值的情况下，音素段内插部分产生具有目标值的音素段数据，从而使第一音素段数据与第二音素段数据之一在所产生的音素段数据中相比另一个更占优势。

图11是示出由内插率设定部分32所设定的内插率α基于时间变化的曲线图。在图11中，将分别由音素段数据V₁和音素段数据V₂表示的音素段波形在共用时间轴上示为跟随内插率α基于时间的变化。由音素段数据V₂表示的音素段的音量几乎保持一致，而由音素段数据V₁表示的音素段则有一个片段其音素段的音量下降到零。

在如图11所示的音素段数据V₁与音素段数据V₂的对应帧之间的音量差（能量差）大于预定阈值的情况下，对第三实施例的内插率设定部分32进行操作来使内插率α接近最大值1或最小值0。例如，内插率设定部分32针对每个帧来对由音素段数据V₁的单位数据U所指定的音量E1与由音素段数据V₂的单位数据U所指定的音量E2之间的音量差ΔE（例如ΔE＝E1-E2）进行计算，以确定该音量差ΔE是否超过了预定阈值。而且，在具有超过阈值的音量差ΔE的帧持续了预定长度的时间段的情况下，随着在该时间段内时间的过去，内插率设定部分32将内插率α改为最大值1而不考虑目标音高Pt。因此，根据优先级将音素段数据V₁应用于由内插处理部分36所执行的内插（也就是说，停止对音素段数据V的内插）。而在具有小于阈值的音量差ΔE的帧持续超过了预定时间段的情况下，在该时间段内，内插率设定部分32将内插率α从最大值1改为对应于目标音高Pt的值。

第三实施例同样具有与第一实施例相同的效果。在第三实施例中，对内插率α进行控制，从而在音素段数据V₁与音素段数据V₂之间的音量差极大的情况下，音素段数据V₁和音素段数据V₂都能以优先级为基础被反映在内插中。因此，可以减小内插之后音素段数据V既不与音素段数据V₁相似也不与音素段数据V₂相似的可能性以及由此引起的合成音不自然的可能性。

<D：变型>

上述任何一个实施例都可通过各种方式进行修改。以下将描述具体的变型。从以下描述中任意选择的两个或多个变型可被适当组合。

（1）尽管在上述各个实施例中针对音高P的每个水平来准备音素段数据V，但是也可以针对其它声音特性的每个值来准备音素段数据V。该声音特性是一个包括了表示语音声学特性的各种指标值的概念。例如，除了上述实施例中所使用的音高P以外，还可采用一个诸如音量（力度变化）或语音声调之类的变量来作为声音特性。有关语音声调的变量例如包括语音的清晰度、气息音程度、发声时口腔打开的程度等。从上面的描述能够了解到，所包含的音素段内插部分24是这样一个组件，其用来对与声音特性的不同值相对应的多个音素段数据V进行内插，从而产生与声音特性的目标值（例如目标音高Pt）一致的音素段数据V。第二实施例所包含的音素段内插部分44是这样一个组件，其通过上述相同的方法来对与声音特性的不同值相对应的多个连续音数据S进行内插，从而产生与声音特性的目标值一致的连续音数据S。

（2）尽管在上述每个实施例中都要根据单位数据UA的音高pF来确定所选帧是浊音还是清音，但用来确定所选帧是浊音还是清音的方法可以适当改变。例如，在单位数据UA和单位数据UB之间的边界与浊音和清音之间的边界彼此相符程度很高或差异可被忽略的情况下，还可以根据形状参数R的存在与否来确定所选帧是浊音还是清音（是单位数据UA还是单位数据UB）。也就是说，还可以将音素段数据V当中的对应于包括形状参数R的单位数据UA的每个帧确定为浊音帧，而将对应于不包括形状参数R的单位数据UB的每个帧确定为清音帧。

而且，尽管在上述每个实施例中，单位数据UA包括形状参数R、音高pF和音量E，而单位数据UB包括频谱数据Q和音量E，但也可以采用所有的单位数据U都包括形状参数R、音高pF、频谱数据Q以及音量E的结构。在无法适当检测到形状参数R或音高pF的清音帧中，将形状参数R或音高pF设置为异常值（例如，表示错误的特定值或零值）。在上述结构中，可以根据形状参数R或音高pF是否具有有效值来确定所选帧是浊音还是清音。

（3）上述实施例都并非意在对执行通过形状参数R的内插来产生内插单位数据Ui的操作以及通过音量E的内插来产生内插单位数据Ui的操作所要满足的条件进行限制。例如，关于浊音连续音之类的特定类型音素的帧而言，即使这些帧属于浊音，也可以通过音量的内插来产生内插单位数据Ui。对于登记在预先准备的参照表中的音素的帧而言，不管这些帧是浊音的还是清音的，都可以通过音量E的内插来产生内插单位数据Ui。另外，尽管包含在清音连续音的音素段数据中的帧通常属于清音的范畴，但在这样的音素段数据中还可能混入了一些浊音的帧。因此，优选的是即使具有浊音特性的一些帧被混入到清音连续音的音素段中，还是通过针对清音连续音的所有音素段的帧对音量E进行内插来产生内插单位数据Ui。

（4）音素段数据V或连续音数据S的数据结构是可选的。例如，在上述每个实施例中，尽管针对每个帧的音量E都被包括在单位数据U中，但音量E也可不必包括在单位数据U中而是根据由单位数据U所表示的频谱（形状参数R和频谱数据Q）或其时域波形而计算得出。同样，尽管在上述每个实施例中，在产生语音信号V_OUT时根据形状参数R或频谱数据Q来产生时域波形，但针对每个帧的时域波形数据也可包括在音素段数据V中而不依赖于形状参数R或频谱数据Q，并且可以在产生语音信号V_OUT时使用时域波形数据。在时域波形数据被包括在音素段数据V的结构中，不必将形状参数R或频谱数据Q所表示的频谱转换成时域波形。同样也可使用其它频谱表达方式来表达频谱形状，例如可以使用线谱频率（LSF）来代替上述各个实施例中的形状参数R。

（5）尽管在第三实施例中对于音素段数据V₁与音素段数据V₂之间的音量差极大的情况而对音素段数据V₁或音素段数据V₂给定了优先级，但对音素段数据V₁或音素段数据V₂给定优先级并不限于它们之间的音量差较大这一种情况。例如，在音素段数据V₁与音素段数据V₂所表示的语音频谱包络的形状（共振峰构造）彼此差异很大的情况下，将采用对音素段数据V₁或音素段数据V₂给定优先级的结构。具体来说，在音素段数据V₁与音素段数据V₂的频谱包络的形状彼此不同以致内插后的语音的共振峰构造与内插前的每段音素段数据V极不相似的情况下，这种情况就好像从音素段数据V₁和音素段数据V₂中选出的一个语音具有清晰的共振峰构造而从音素段数据V₁和音素段数据V₂中选出的另一个语音不具有清晰的共振峰构造（例如该语音几乎为无声），在这样的情况下音素段内插部分24对音素段数据V₁或音素段数据V₂给予优先级（也就是停止内插）。而且，在由音素段数据V₁和音素段数据V₂分别表示的语音波形彼此差异极大的情况下，也可对音素段数据V₁或音素段数据V₂给予优先级。从前述描述中能够理解，所包含的第三实施例的结构是用来在音素段数据V₁和音素段数据V₂的对应帧之间的声音特性差异较大的情况下（例如，表示差异程度的指标值超过阈值的情况下）将内插率α设定为接近最大值或最小值（也就是停止内插）的结构。上述音量、频谱包络形状或语音波形都是用于进行确定的声音特性的示例。

（6）尽管在上述各个实施例中音素段扩展和压缩部分34通过稀释或重复单位数据U来将音素段数据V₂调整到与音素段数据V₁一致的M个帧，但用来调整音素段数据V₂的方法是任意的。例如，对于使音素段数据V₂与音素段数据V₁一致，还可以使用诸如动态程序设计（DP）匹配之类的技术。相同的方法还可以用于连续音数据S。

另外，音素段数据V₂中的一对彼此相邻的单位数据U在时间轴上被内插以扩展该音素段数据V₂。例如通过在音素段数据V₂的第二帧和第三帧之间进行内插来产生新的单位数据U。随后，在已扩展的音素段数据V₂的每个单位数据U与音素段数据V₁的相应单位数据U之间以一帧接一帧的方式执行内插。如果存储在存储单元14中的各个音素段数据的时间长度是恒定的，则无需提供用于对各个音素段数据V进行扩展或压缩的音素段扩展和压缩部分34。

同样，尽管在第二实施例中从连续音数据S₁的形状参数R的时间序列中提取了单位片段σ1[n]，但形状参数R的时间序列可被扩展和压缩到稳定发音片段H的时间长度，从而产生中间数据s₁。相同的方式还可被用于连续音数据S₂。例如，在连续音数据S₂的时间长度比连续音数据S₁的时间长度短的情况下，可在时间轴上对连续音数据S₂进行扩展以产生中间数据s₂。

（7）尽管在上述各个实施例中用于对音素段数据V₁和音素段数据V₂进行内插的内插率α在0到1的范围内变化，但该内插率α的变化范围能够被自由设定。例如，可将一个内插率1.5用于音素段数据V₁和音素段数据V₂之一，而将另一个内插率-0.5用于音素段数据V₁和音素段数据V₂中的另一个。在本发明的内插方法中也可包括这样的外推法操作。

（8）尽管在上述各个实施例中将用于存储音素段数据组G_A的存储单元14安装在语音合成设备100中，但也存在用独立于语音合成设备100的外部装置（例如服务器装置）来存储音素段数据组G_A的的其它构造。在这样的情况下，语音合成设备100（音素段选择部分22）例如通过通信网络来从外部装置获取音素段数据V，从而产生语音信号V_OUT。以类似的方式，可以将合成信息G_B存储在独立于语音合成设备100的外部装置中。从上述描述能够理解到，诸如前述用于存储音素段数据V和合成信息G_B的存储单元14之类的装置并非构成语音合成设备100必不可少的组件。

Claims

1.一种语音合成设备，包括：

音素段内插部分，其获取一个音素段的第一音素段数据以及该音素段的第二音素段数据，所述第一音素段数据包括多个帧的序列并且对应于声音特性的第一值，所述第二音素段数据包括多个帧的序列并且对应于与所述声音特性的第一值不同的该声音特性的第二值，所述第一音素段数据和所述第二音素段数据表示了所述音素段的每个帧的频谱，

其中，在第一音素段数据的一个帧和第二音素段数据的与第一音素段数据的这个帧相对应的一个帧都表示浊音的情况下，音素段内插部分以与所述声音特性的一个目标值对应的内插率来在第一音素段数据的帧的频谱和第二音素段数据的与第一音素段数据的这个帧相对应的帧的频谱之间进行内插，以产生所述音素段的对应于所述目标值的音素段数据，其中所述目标值不同于所述声音特性的第一值和第二值；以及

语音合成部分，其根据由所述音素段内插部分所产生的音素段数据来生成具有所述声音特性的目标值的语音信号。

2.根据权利要求1所述的语音合成设备，其中第一音素段数据和第二音素段数据包括表示了每个帧的频谱形状特性的形状参数，并且其中音素段内插部分以与所述声音特性的目标值对应的内插率来在第一音素段数据的帧的频谱的形状参数和第二音素段数据的与第一音素段数据的这个帧相对应的帧的频谱的形状参数之间进行内插。

3.根据权利要求1所述的语音合成设备，其中在第一音素段数据的帧或第二音素段数据的与第一音素段数据的这个帧相对应的帧表示清音的情况下，音素段内插部分以与所述声音特性的目标值对应的内插率来在第一音素段数据的帧的音量和第二音素段数据的与第一音素段数据的这个帧相对应的帧的音量之间进行内插，并且根据内插后的音量来对第一音素段数据的帧的频谱进行校正，以产生目标值的音素段数据。

4.根据权利要求1或2所述的语音合成设备，还包括连续音内插部分，该连续音内插部分获取第一连续音数据和第二连续音数据，并且在第一连续音数据和第二连续音数据之间进行内插以产生对应于目标值的连续音数据，所述第一连续音数据表示了一个连续音的第一波动成分并且对应于所述声音特性的第一值，所述第二连续音数据表示了该连续音的第二波动成分并且对应于所述声音特性的第二值，其中所述语音合成部分使用由音素段内插部分所产生的音素段数据以及由连续音内插部分所产生的连续音数据来产生语音信号。

5.根据权利要求4所述的语音合成设备，其中连续音内插部分从第一连续音数据中提取各自具有时间长度的多个第一单位片段，并沿时间轴排列这些第一单位片段以产生第一中间数据，并且连续音内插部分从第二连续音数据中提取各自具有与第一单位片段的时间长度相等的时间长度的多个第二单位片段，并沿时间轴排列这些第二单位片段以产生第二中间数据，并且连续音内插部分在第一中间数据和第二中间数据之间进行内插以产生与所述声音特性的目标值对应的连续音数据。

6.根据权利要求1至5中任一项所述的语音合成设备，其中在第一音素段数据的一个帧和第二音素段数据的与第一音素段数据的这个帧相对应的一个帧之间的声音特性的差异大于预定阈值的情况下，音素段内插部分产生这样的目标值的音素段数据：使得第一音素段数据和第二音素段数据之一在所产生的音素段数据中相比第一音素段数据和第二音素段数据中的另一个更占优势。

7.一种语音合成方法，包括：

获取一个音素段的第一音素段数据，该第一音素段数据包括多个帧的序列并且对应于声音特性的第一值，该第一音素段数据表示了所述音素段的每个帧的频谱；

获取所述音素段的第二音素段数据，该第二音素段数据包括多个帧的序列并且对应于与所述声音特性的第一值不同的该声音特性的第二值，该第二音素段数据表示了所述音素段的每个帧的频谱；

在第一音素段数据的一个帧和第二音素段数据的与第一音素段数据的这个帧相对应的一个帧都表示浊音的情况下，以与所述声音特性的一个目标值对应的内插率来在第一音素段数据的帧的频谱和第二音素段数据的与第一音素段数据的这个帧相对应的帧的频谱之间进行内插，以产生所述音素段的对应于目标值的音素段数据，其中所述目标值不同于所述声音特性的第一值和第二值；以及

根据所产生的音素段数据来生成具有所述声音特性的目标值的语音信号。