CN1581290A

CN1581290A - 歌唱声音合成方法

Info

Publication number: CN1581290A
Application number: CNA031275516A
Authority: CN
Inventors: 剑持秀纪; 若尔迪·博纳达; 亚历克斯·洛斯科斯
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2003-08-06
Filing date: 2003-08-06
Publication date: 2005-02-16
Anticipated expiration: 2023-08-06
Also published as: CN100524456C

Abstract

通过分析对应于由音素或音素链构成的声音合成单元的声音波形的频率来检测得频谱。在频谱上检测局部峰值，指定包括局部峰值的谱分布区域。对于每个谱分布区域，生成代表依频率轴而定的振幅谱分布的振幅谱数据，和依频率轴而定的相位谱分布的相位谱数据。调整振幅谱数据，以便根据输入音调音高沿频率轴移动由振幅谱数据表示的振幅谱分布，根据振幅谱数据的调整来调整由相位谱数据表示的相位谱分布。将谱密度和与所需音调音色对应的频谱包络调整到一起。将调整后的振幅谱数据和调整后的相位谱数据转换成时域的合成声音信号。

Description

歌唱声音合成方法

本申请以2002年2月27日提交的、申请号为2002-052006的日本专利申请为基础，在此引入该申请一并作为参考。

技术领域

本发明涉及一种歌唱声音的合成方法，歌唱声音合成装置，以及使用相位声音合成器技术的存储媒体。

背景技术

传统上，作为歌唱声音合成技术，使用公知的美国专利No.5029509说明书所描述的谱模式合成(SMS)技术的歌唱声音合成较为常见(例如，参见日本专利No2906970)。

图21示出了采用日本专利申请No.2906970中所述技术的歌唱声音合成装置的流程图。在步骤S1，输入一个歌唱声音信号，在步骤S2，输入的歌唱声音信号被进行SMS分析处理和片段分割处理。

在SMS分析处理中，输入的歌唱声音信号被分成为一系列时间帧，对应于每一帧，通过快速傅立叶变换(FFT)等生成一组量值谱数据，线性谱按每一帧与从一组量值谱数据获得的多个峰值相对应。代表这些线性谱的幅值和频率的数据被称为确定性成分(DeterministicComponent)。随后，从输入声音波形的谱中减去该确定性成分的谱，以获得一剩余差分谱。此剩余差分谱被称为随机成分(StochasticComponent)。

在片断分割处理中，对应于一声音合成单元，确定成分数据和由SMS分析处理所获得随机数据被分开。声音合成单元是歌词的结构元素。例如，声音合成单元由诸如[a]或[i]之类的单音素，或诸如[a_i]或[a_p]之类的音素链(一个多音素的链)所组成。

在声音合成单元数据库DB中，为每个声音合成单元储存着确定性成分数据和随机成分数据。

在歌唱声音合成中，在步骤S3，输入歌词数据和旋律数据。随后，在步骤S4，对歌词数据所代表的音素序列进行音素序列/声音合成单元转换处理，从而将音素序列分割为声音合成单元。而后，为每个声音合成单元从数据库DB中读取确定性成分数据和随机成分数据作为声音合成单元数据。

在步骤S5，对从数据库DB中读取的声音合成单元数据(确定性成分数据和随机成分数据)进行声音合成单元连接处理，从而将声音合成单元数据以一定发音顺序连接起来。在步骤S6，为每个声音合成单元在确定性成分数据和旋律数据所指定的音调音高基础上，生成适合于该音调音高的新的确定性成分数据。此时，如果接收到的谱密度被调整成在步骤S5确定性成分数据所处理的频谱包络的形式，在步骤S1所输入的声音信号的音调就能够通过新的确定性成分数据复制出来。

在步骤S7，在每个声音合成单元中，步骤S6所生成的确定性成分数据被加到步骤S5所处理的随机成分数据上。而后，在步骤S8，在每个声音合成单元中，步骤S7中被进行加处理的数据，通过反快速傅立叶变化(FFT)等转换成时域内合成的声音信号。

例如，为了合成歌唱声音[saita]，需要从数据库DB中读取对应于[#s]，[s_a]，[a]，[a_i]，[l]，[i_t]，[a]，[a#](#代表静音)的声音合成单元，并将它们在步骤S5中相互连接起来。而后，在步骤S6，在每个声音合成单元中，生成具有对应于输入音调音高的确定性成分数据。在步骤S7的叠加过程和步骤S8的转换过程之后，就可获得[saita]的歌唱声音信号。

根据上述现有技术，确定性成分与随机成分之间的一致性趋向并不能令人满意。更准确的说，因为在步骤S1输入的声音信号音高根据步骤S6的输入音调音高进行转换，而且随机成分数据与转换后的音高在步骤S7一起加到确定性成分数据中，从而使得歌唱的声音具有类似人工声音的趋势。例如，在发[saita]中[i]这样的长音时，随机成分数据所发出的声音就被分割开。

为了消除这种趋向，本发明的发明人建议将随机成分数据所代表的较弱区域的振幅谱分布根据先前输入的音调音高进行调整(参考日本专利申请2000-401041)。然而，如果根据上述方法调整随机成分数据，随机成分的分割和回响就较难完全控制。

同样，在SMS技术中，分析摩擦音和爆破音非常困难，合成的声音将会非常人工化。SMS技术基于声音信号完全由确定性成分和随机成分组成的假设，根据SMS技术，其基本的问题在于声音信号并不能够分割为确定性成分和随机成分。

另一方面，相位声码器(vocoder)技术在美国专利No.3360610的说明书中进行了描述。在相位声码器技术中，信号以往由滤波器组所代表，目前由作为输入信号的快速傅立叶变换结果的频率范围所代表。目前，相位声码器技术广泛的应用于时间延展(不改变原始音高而延展或压缩时间轴)，音高变换(不改变时间长度而改变音高)等。在这种音高变换技术中，输入信号的快速傅立叶变化结果并没有按其原本形式被采用。众所周知，音高变换是在将FFT谱分割为局部峰值周围的多个谱分布后，通过在每个谱分布区域频率轴上移动谱分布而实现的(例如，参考J.Laroche与M.Dolson发表于J.Audio Eng.Soc.1999年11期47卷上的“用于实时音高变换，合唱，和声与其他外来声音修正的新相位合成器技术”)。然而，音高变换技术与歌唱声音合成技术之间的关联并不明确。

发明内容

本发明的目的是提供通过使用相位声码器技术和存储媒体以实现自然和高质量声音合成的新的歌唱声音合成方法和装置。

根据本发明的一个方面，提供一种歌唱声音合成方法，该方法包括下列步骤：(a)通过分析对应于要被合成声音的声音合成单元的声音波形频率，检测频谱；(b)检测该频谱上谱密度的多个局部峰值；(c)为多个局部峰值中的每一个指定包括局部峰值和频谱上前和后谱的谱分布区域；和相对每个谱分布区域，生成表示依频率轴而定的振幅谱分布的振幅谱数据；(d)相对每个谱分布区域，生成表示依频率轴而定的相位谱分布的相位谱数据；(e)为要被合成的声音指定音高；(f)相对每个谱分布区域，调整振幅谱数据，从而根据音高沿频率轴移动由振幅谱数据所代表的振幅谱分布；(g)相对每个谱分布区域，根据振幅谱数据的调整，对由相位谱数据所代表的相位谱分布进行调整；和(h)将调整后的振幅谱数据和相位谱数据转换成时域的合成声音信号。

根据第一歌唱声音合成方法，对声音合成单元(音素或者音素链)相对应的声音波形进行频率分析，和对频谱进行检测。而后，以频谱为基础生成振幅谱数据和相位谱数据。当指定需要的音高后，根据指定的音高调整振幅谱数据和相位谱数据，以调整后的振幅谱数据和相位谱数据为基础生成时域内的合成声音信号。因为在声音合成的过程中，无需将声音波形的频率分析结果分割为确定性成分和随机成分，所以随机成分可以不用分割和回响。从而，能够获得自然的合成声音。此外，摩擦音和爆破音也可以获得自然的合成声音。

根据本发明的另一个方面，提供一种歌唱声音合成方法，该方法包括下列步骤：(a)对应于要被合成的声音的一个合成单元获得振幅谱数据和相位谱数据，其中该振幅谱数据是表示依每个谱分布区域的频率轴而定的振幅谱分布的数据，谱密度的多个局部峰值中的每一个包括该峰值和通过对声音合成单元的声音波形的频率分析获得的在一频谱前和后的谱，所述相位谱数据是表示依每个谱分布区域的频率轴而定的相位谱分布的数据；(b)为要被合成的声音指定音高；(c)相对每个谱分布区域，调整振幅谱数据，用以根据音调沿频率轴移动由振幅谱数据表示的振幅谱分布；(d)相对每个谱分布区域，根据振幅谱数据的调整，对由相位谱数据表示的相位谱分布进行调整；和(e)将调整的振幅谱数据和调整的相位谱数据转换成时域的合成声音信号

第二歌唱声音合成方法对应于在执行至生成相位谱数据步骤之后，振幅谱数据与相位谱数据按每个声音合成单元存储在数据库中的情况，或者至生成相位谱数据之后的过程由其他装置完成的情况。具体的说，在第二歌唱声音合成方法中，在获取步骤，从其他装置或者数据库获得对应于要被合成声音的声音合成单元的振幅谱数据与相位谱数据，指定音高步骤后的过程与第一歌唱声音合成方法相同。因此，根据第二歌唱声音合成方法，能够获得与第一歌唱声音合成方法相同的自然合成声音。

根据本发明的另一方面，提供一种歌唱声音合成装置，该装置包括：为每个要被合成的声音指定声音合成单元和音高的指定装置；从声音合成单元数据库中读取表示对应于声音合成单元波形的声音波形数据，作为声音合成单元数据的读取装置；通过分析由声音波形数据所表示的声音波形的频率，以检测频谱的第一检测装置；检测频谱上谱密度的多个局部峰值的第二检测装置；相对多个局部峰值的每一个，指定包括局部峰值和频谱上前后谱的谱分布区域，并为每个谱分布区域生成代表依频率轴而定的振幅谱分布的振幅谱数据的第一生成装置；相对每个谱分布区域，生成依频率轴而定的相位谱分布的相位谱数据的第二生成装置；相对每个谱分布区域，调整振幅谱数据，用以根据音高沿频率轴移动由振幅谱数据所表示的振幅谱分布的第一调整装置；相对每个谱分布区域，根据振幅谱数据的调整，对由相位谱数据所表示的相位谱分布进行调整的第二调整装置；将调整后的振幅谱数据和相位谱数据转换成时域的合成声音信号的转换装置。

根据本发明的另一方面，提供一个歌唱声音合成装置，该装置包括：为每个要被合成的声音指定声音合成单元和音高的指定装置；从声音合成单元数据库中读取表示对应于声音合成单元波形的声音波形数据，作为声音合成单元数据的读取装置，其中该振幅谱数据是表示依每个谱分布区域的频率轴而定的振幅谱分布的数据，谱密度的多个局部峰值中的每一个包括该峰值和通过对声音合成单元的声音波形的频率分析获得的在一频谱前的后的谱，所述相位谱数据是表示依每个谱分布区域的频率轴而定的相位谱分布的数据；相对每个谱分布区域，调整振幅谱数据，用以根据音高沿频率轴移动由振幅谱数据所代表的振幅谱分布的第一调整装置；相对每个谱分布区域，根据振幅谱数据的调整，调整由相位谱数据所代表的相位谱分布的第二调整装置；将调整后的振幅谱数据和相位谱数据转换成时域的合成声音信号的转换装置。

第一和第二歌唱声音合成装置通过使用声音合成单元数据库执行前述的第一和第二歌唱声音合成方法，从而获得自然的歌唱合成声音。

根据本发明的又一个方面，提供一种歌唱声音合成装置，该装置包括：为每个要被顺序合成的声音指定声音合成单元和音高的指定装置；从声音合成单元数据库中读取对应于指定装置所指定的每个声音合成单元的声音波形数据的读取装置；通过分析对应于每个声音波形的声音波形频率，以检测频谱的第一检测装置；检测对应于每个声音波形频谱的谱密度的多个局部峰值的第二检测装置；相对每个声音合成单元的多个局部峰值中的每一个，指定包括局部峰值和频谱上前后谱的谱分布区域，并相对每个谱分布区域生成代表依频率轴而定的振幅谱分布的振幅谱数据的第一生成装置；相对每个声音合成单元的每个谱分布区域，生成代表依频率轴而定的相位谱分布的相位谱数据的第二生成装置；相对每个声音合成单元的每个谱分布区域，调整振幅谱数据，用以根据音高沿频率轴移动由振幅谱数据所代表的振幅谱分布的第一调整装置；相对每个声音合成单元的每个谱分布区域，根据振幅谱数据的调整，调整由相位谱数据所代表的相位谱分布的第二调整装置；将调整后的振幅谱数据根据要被顺序合成的声音的发音序列，连接到相应的顺序声音合成单元的第一连接装置，其中在顺序声音合成单元的连接点上，各谱密度被调整到相互一致或者近似一致；将调整后的相位谱数据根据要被顺序合成的声音的发音序列，连接到相应的顺序声音合成单元的第二连接装置，其中在顺序声音合成单元的连接点上，各相位被调整到相互一致或者近似一致；将连接后的振幅谱数据和连接后的相位谱数据转换成时域的合成声音信号的转换装置。

根据本发明的另一个方面，提供一种歌唱声音合成装置，该装置包括：为每个要被顺序合成的声音指定声音合成单元和音高的指定装置；从声音合成单元数据库中读取对应于指定装置所指定的每个声音合成单元的声音波形数据的读取装置，其中该振幅谱数据是表示依每个谱分布区域的频率轴而定的振幅谱分布的数据，谱密度的多个局部峰值中的每一个包括该峰值和通过对声音合成单元的声音波形的频率分析获得的在一频谱前后的谱，所述相位谱数据是表示依每个谱分布区域的频率轴而定的相位谱分布的数据；相对每个声音合成单元的每个谱分布区域，调整振幅谱数据，用以根据音高沿频率轴移动由振幅谱数据所代表的振幅谱分布的第一调整装置；相对每个声音合成单元的每个谱分布区域，根据振幅谱数据的调整，调整由相位谱数据所代表的相位谱分布的第二调整装置；将调整后的振幅谱数据根据被顺序合成的声音的发音序列，连接到相应的顺序声音合成单元的第一连接装置，其中在顺序声音合成单元的连接点上，各谱密度被调整到相互一致或者近似一致；将调整后的相位谱数据根据被顺序合成的声音的发音序列，连接到相应的顺序声音合成单元的第二连接装置，其中在顺序声音合成单元的连接点上，各相位被调整到相互一致或者近似一致；将连接后的振幅谱数据和连接后相位谱数据转换成时域的合成声音信号的转换装置。

第三和第四歌唱声音合成装置通过使用声音合成数据库来执行前述的第一或第二歌唱声音合成方法，从而获得自然的歌唱合成声音。此外，在以一定的发音序列连接声音合成单元的过程中，在连接要被修改的振幅谱数据和相位谱数据时，顺序声音合成单元的连接部的谱密度与相位被调整到相互一致或者近似一致；因而，就能够防止在生成合成声音时产生噪音。

根据本发明，振幅谱数据和相位谱数据以对应于声音合成单元的声音波形的频率分析结果为基础而生成，而且根据指定的音高被进行调整。然后，因为合成声音信号以调整后的振幅谱数据和相位谱数据为基础而生成，传统实例中因频率分析结果被分割为确定性成分和随机成分而导致的随机成分分割和回响的情况原则上不会发生，因而能够获得自然或高质量歌唱声音合成的效果。

附图说明

图1是显示根据本发明一个实施例的歌唱声音合成装置电路结构的方框图。

图2是显示一个歌唱声音分析过程实例的流程图。

图3是显示声音合成单元数据库存储状态的图表。

图4是显示一个歌唱声音合成过程实例的流程图。

图5是显示图4中的步骤76转换过程实例的流程图。

图6是显示另一个歌唱声音分析过程实例的流程图。

图7是显示另一个歌唱声音合成过程实例的流程图。

图8A是显示输入声音信号作为分析目标的波形图。图8B是显示频率分析结果的频谱图。

图9A是显示音高变换前谱分布区域点的频谱图。图9B是显示音高变换后谱分布区域点的频谱图。

图10A是显示音高变换前振幅谱和相位谱分布的图表。图10B是显示音高变换后振幅谱和相位谱分布的图表。

图11是解释音高被调低时谱分布指定过程的图表。

图12A是显示音高变化前局部峰值点和频谱包络的图表。图12B是显示音高变化后局部峰值点和频谱包络的图表。

图13是显示一个频谱包络线实例的图表。

图14是显示音高变换过程和长音音调调整过程的方框图。

图15是显示一个长音音调调整过程实例的方框图。

图16是显示另一个长音音调调整过程实例的方框图。

图17是解释频谱包络模型化的图表。

图18是解释在连接声音合成单元时出现的音调与等级不匹配的图表。

图19是解释平滑过程的图表。

图20是解释等级调整的图表。

图21是显示一个传统歌唱声音合成过程实例的方框图。

具体实施方式

图1是显示根据本发明一个实施例的歌唱声音合成装置电路结构的方框图。此歌唱声音合成装置具有小型计算机10控制操作的结构。

中央处理单元(CPU)12，只读存储器(ROM)14，随机存取存储器(RAM)16，歌唱声音输入单元17，歌词/旋律输入单元18，控制参数输入单元20，外部存储单元22，显示单元24，定时器26，数/模(D/A)转换单元28，乐器数字(MIDI)接口30，通信接口32等都连接到总线11。

中央处理单元(CPU)根据储存于ROM14中的程序，执行各种与歌唱声音合成相关的处理。与歌唱声音合成相关的各种处理将随后参照图2至7等进行解释。

RAM16包括了各种不同的存储区域，例如在CPU12中的各种处理的时的工作区域。作为根据本发明实施例的存储区域，例如，输入数据储存区域分别对应于输入单元17，18和20。随后将详细解释。

歌唱声音输入单元17包含有一麦克风，和用于输入歌唱声音信号的声音输入终端等等，并配备有数/模转换(D/A)装置，用以将输入歌唱声音信号转换成数字波形数据。被输入的数字波形数据存储于RAM16的预定区域。

歌词/旋律输入单元18配备有用以输入字符和数字的键盘，和能够读取乐谱的读取装置。它能够输入表示构成歌词数据的一系列音符(包括休止符)的旋律数据，和表示构成所需歌唱声音歌词的音素序列的旋律。被输入的歌词数据和旋律数据存储于RAM16的预定区域。

控制参数输入单元20配备有诸如开关和音量调节器等的参数设定装置，能够设定控制合成歌唱声音放送的控制参数。音调，音高等级(高，中，低等)，音高脉动(throb)(弯音轮(pitch bend)，颤音等)，动态等级(高，中，低等音量)，节拍等级(快，中，慢节拍)等都能够被设定为控制参数。代表被设定的控制参数的控制参数数据存储于RAM16的预定区域。

外部存储单元22包括一种或者多种类型的可移动存储媒体，例如软盘(FD)，密致盘(CD)，数字多能盘(DVD)，磁光盘(MO)等等。当外部存储单元22装载有所需的存储媒体时，数据能够从存储媒体传送到RAM16。当装载的存储媒体是可复写式的硬盘(HD)和软盘(FD)时，数据能够从RAM16传送到存储媒体。

外部存储单元的存储媒体能够用来替代ROM14作为程序存储单元。在这种情况下，存储于存储媒体的程序由外部存储单元22传送到RAM16。而后，CPU根据RAM16所储存的程序执行操作。通过这种方法能够轻易的完成程序附加和版本升级。

显示单元24包括诸如液晶显示器等的显示装置，能够显示例如前述的频率分析结果等的多种类型信息。

定时器26根据节拍数据TM所指定的节拍周期生成节拍时钟信号TCL，节拍时钟信号TCL被提供给中央处理单元CPU12。CPU12根据节拍时钟信号TCL对数/模转换单元28执行信号输出处理。节拍数据TM所指定的节拍能够通过输入单元20内的节拍设定装置改变设定。

数/模转换单元28将合成的数字声音信号转换成模拟声音信号。由数/模转换单元28所传送的模拟声音信号通过诸如放大器，扬声器等的音响系统34，转换成音频声音。

MIDI接口30向独立于此歌唱声音合成装置的MIDI装置36执行MIDI通信，并用于从本发明中的MIDI装置36接收歌唱声音合成数据。作为歌唱声音合成数据，接收到的数据包括所需歌唱声音的歌词数据和旋律数据，以及控制音乐放送的控制参数数据。这些歌唱声音合成数据根据MIDI格式生成，MIDI格式更加适合由数据单元18所输入的歌词数据和旋律数据，以及由输入单元20所输入的控制参数数据。

至于经MIDI接口30所接收的歌词数据、旋律数据和控制参数数据，可由制造商定义的具有专用格式的MIDI系统专用数据能够先于其他数据被读取。同样，相对于由输入单元20所输入的控制参数数据和由MIDI接口30所接收的控制参数数据，当为每个歌手(或音调)将声音合成单元数据储存到后面所述的数据库时，需要使用一歌手(或音调)指定参数。在这种情况下，相对于歌手(或音调)指定数据，需要使用MIDI程序变更数据。

通信接口32通过通信网络(例如局域网，互联网和电话线)37向另一电脑38提供数据通信。执行本发明所需的各种程序和数据(例如歌词数据，旋律数据，声音合成单元数据等)能够根据下载要求通过通信网络37由计算机38加载到RAM16或者外部存储单元22。

以下参照图2介绍一个歌唱声音合成过程实例。在步骤40，对由麦克风或者声音输入终端输入到输入单元17的歌唱声音信号进行A/D转换，表示输入信号声音波形的数字波形数据被储存于RAM16。图8A示出了一个输入声音波形的实例。此外，在图8A以及其他图表中的“t”代表时间。

在步骤42，对要被储存的数字波形数据(分割数字波形数据)，将对应于每个声音合成单元(音素或者音素链)的每个片断分割成片断波形。对于声音合成单元，存在着元音音素，元音与辅音或者辅音与元音音素链，辅音与辅音音素链，元音与元音音素链，静音与辅音或元音音素链，元音或辅音与静音音素链等。对于元音音素，还存在着延长元音发音的长音音素。例如，对于歌唱声音[saita]，片断波形与[#s]，[a]，[a_i]，[l]，[i_t]，[a]，[a#]中的每一个相对应被分割开。

在步骤44，一个或者多个时间帧被每个片断波形所固定，对每帧通过快速傅立叶变换(FFT)进行频率分析，从而获得频谱(振幅谱和相位谱)。而后，代表频谱的数据被储存于RAM16的预定区域。每帧的长度是固定或者可变的。为了使时间帧的长度可变，在以固定长度对一帧进行完频率分析后，通过频率分析结果检测到一个音高，对应于检测到的音高的帧长度被设定后，对此帧可再次进行频率分析。在另外一种情况下，以固定长度对一帧进行完频率分析后，通过频率分析结果检测到一个音高，对应于检测到的音高的下一帧长度被设定，而后再对下一帧进行频率分析。由元音构成的单音素，帧的数量可以是一或者多帧；而对音素链，则是多帧。图8B示出对图8A中声音波形运算快速傅立叶变换(FFT)执行频率分析后所获得的频谱。此外，在图8B和其他图表中的“f”代表频率。

而后，在步骤46，声音合成单元在振幅谱基础上检测到一个音高，生成代表检测到的音高的音高数据，该数据储存于RAM16的预定区域。音高检测通过每帧所获得音高的所有帧的取平均法进行。

在步骤48，按每帧检测振幅谱的谱密度(振幅)的多个局部峰值。为了检测局部峰值，可使用从续多个峰值(例如4个)检测振幅值最大的峰值的方法。在图8B中，示出了检测到的多个局部峰值P₁，P₂，P₃.....。

在步骤50，指定对应于振幅谱的每帧的每个局部峰值的谱分布区域，依频率轴而定的代表振幅谱分布区域的振幅谱数据储存在RAM16的预定区域。指定谱分布区域的方法包括，一种方法是将在两个相邻局部峰值之间分开的每一半频率轴分配给包括更接近该半轴的局部峰值的谱分布区域；另一种方法是将两个局部峰值之间振幅最低处设为底部，该底部的频率作为相邻谱分布区域的边界。图8B示出了前一种方法的实例，其中谱分布区域R₁，R₂，R₃......分别被分配给局部峰值P₁，P₂，P₃......。

在步骤52，生成代表基于相位谱的每一帧依频率轴而定的每个谱分布的相位分布的相位谱数据，该数据储存在RAM16的预定区域。在图10A中，一个谱分布区域的一帧的振幅谱分布和相位谱分布分别由曲线AM₁和PH₁示出。

在步骤54，每个声音合成单元将音高数据，振幅谱数据和相位谱数据储存到声音合成单元数据库中。RAM16或者外部存储器22都可以被用作声音合成单元数据库。

图3示出了一个声音合成单元数据库DBS存储状态的实例。各对应于诸如[a]，[i]等单音素的声音合成单元，与各对应于诸如[a_i]，[s_a]等音素链的声音合成单元被储存在数据库DBS中。在步骤54，音高数据，振幅谱数据和相位谱数据被储存为声音合成单元数据。

在储存声音合成单元数据时，通过储存每个具有不同于其他声音合成单元的歌手(音调)、音高等级、动态等级和节拍等级的声音合成单元数据，能够合成自然(或高质量)的歌唱声音。例如，对声音合成单元[a]，通过让歌手A在节拍等级“慢”，“中”，“快”，音高等级“高”，“中”，“低”和动态等级“大”，“中”，“小”的所有组合下演唱，纪录下当音高等级为“低”，动态等级为“小”时的对应于节拍等级“慢”，“中”和“快”的声音合成单元数据M1，M2，M3。对应于其他组合的声音合成数据也通过同样方式纪录。步骤46所生成的音高数据用来判定声音合成单元数据属于“高”，“中”，“低”音高等级中的哪一个。

对于与歌手A具有不同声音的歌手B，通过让歌手B用类似于前述的歌手A的方法进行演唱，而将具有不同音高等级，动态等级和音高等级的多种声音合成单元数据纪录于数据库DBS。同样，不同于[a]的声音合成单元也通过前述的方式纪录。

尽管在前述的实例中，声音合成单元数据根据输入单元17所输入的歌唱声音信号所生成，声音合成单元数据也能够根据接口30和32所输入的歌唱声音信号所生成。此外，数据库DBS不仅能被储存于RAM16或外部存储单元22，还能够被储存于ROM14，MIDI装置36的存储单元和计算机38的存储单元等处。

图4示出了一个歌唱声音合成过程的实例。在步骤60，所需歌曲的歌词数据和旋律数据从输入单元18输入并被储存于RAM16。歌词数据和旋律数据也能够通过接口30和32输入。

在步骤62，对应于输入的歌词数据的音素序列被转换成单独的声音合成单元。其后，在步骤64，对应于每个声音合成单元的声音合成单元数据(音高数据，振幅谱数据和相位数据)被从数据库DBS中读取出来。在步骤64，音色，音高等级，动态等级和节拍等级等能够通过输入单元20输入作为控制参数，和与由该数据指向的控制参数对应的声音合成单元数据。

此外，声音合成单元的发音持续时间对应于声音合成单元数据的数量。也就是说，当不加修改地使用储存的声音合成单元数据进行声音合成时，能够获得对应于声音合成单元数据的数量的发音持续时间。然而，依靠音调持续时间(输入音调长度)和节拍设定等的发音持续时间并不合适，需要调整发音持续时间。为了满足此种需要，声音合成单元数据的读取帧数量能够根据输入音调长度和节拍设定等进行控制。

例如，为了缩短声音合成单元的发音持续时间，读取声音合成单元数据时将跳过一部分帧。同样，为了延长声音合成单元的发音持续时间，将重复读取声音合成单元数据。此外，当合成诸如[a]的单音素长音时，发音持续时间往往被修改。长音的合成将在后面参照图14到16详细解释。

在步骤66，根据每个声音合成单元的输入音调音高调整每帧的振幅谱数据。也就是说，每个谱分布区域的由振幅谱数据所代表的振幅谱分布将在频率轴上移动，从而生成对应于输入音调音高的音高。

图10A和图10B示出了一个为升高具有局部峰值频率f_i的谱分布区域的音高，而将谱分布区域由AM₁移动到AM₂的实例，低和高限频率分别为f_i和f_u。

在这种情况下，对于谱分布AM₂，局部峰值的频率为F_i＝T，f_i，音高转换率为T＝F_i/f_i。同样，低限频率F_i和高限频率F_u由相应的每个频率偏差“fi-fi”和“fu-fi”所决定。

图9A示出了具有对应于局部峰值P₁，P₂，P₃的谱分布区域R₁，R₂，R₃(同图8B所示)，图9B示出了一个向频率轴上高音调方向移动谱分布区域的实例。在图9B中所示的谱分布区域R₁中，局部峰值P₁的频率，低限频率f₁₁和高限频率f₁₂都通过前面参照图10所述的相同方法所决定。它同样可以应用于其他的谱分布区域。

尽管在前述的实例中，谱分布区域为了升高音高而向频率轴的高音高方向移动，其也能够向频率轴的低音高方向移动用以降低音高。在这种情况下，图11示出了部分重叠的两个谱分布区域R_a和R_b。

在图11所示的实例中，局部峰值P_b和对谱分布区域具有低限频率f_b1(f_b1＜f_a2)、高限频率f_b2(f_b2＞f_a2)的谱分布区域Pb，在频率区域f_a1到f_a2之间有部分重叠。为了避免这种情况，例如可将频率区域f_b1到f_a2从中心频率分割为两部分，将区域R_a的高限频率f_a2转换成一个低于f_c的预定频率，将区域R_b的低限频率f_b1转换成一个高于f_c的预定频率。由此，就能够在区域R_a的低于f_c的频率区域，和区域R_b的高于f_c的频率区域使用谱分布AMa。

如前所述，当包括局部峰值的谱分布在频率轴上移动时，频谱包络仅能通过频率设定而延伸和缩短，因此存在着音调不同于所输入声音波形的问题。为了能够复制输入声音波形的音调，就需要沿对应于每帧的一系列谱分布的局部峰值的连接线的频谱包络，调整一个或者多个谱分布区域的谱密度。

图12示出了一个谱密度调整的实例，图12A示出了一个对应于音高转换前的局部峰值P₁₁到P₁₈的频谱包络EV。为了根据输入音调音高比例升高音高，谱密度在局部峰值P₁₁到P₁₈被移动到频率轴上如图12B所示的P₂₁到P₂₈时，随着频谱包络一起上升或下降到频谱包络EV。由此而获得与输入声音波形相同的音调。

在图12A中，R_f是缺少频谱包络的频率区域。当上升音高时，可能会需要将诸如P₂₇，P₂₈的局部峰值转移到如图12B所示的频率区域R_f。为了避免这种情况，频率区域R_f的频谱包络可以通过如图12B所示的插值法所获得，根据所获得频谱包络EV可调整局部峰值的谱密度。

在前述的实例中，再现了输入声音波形的音调，可将与输入声音波形不同的音调加到合成音中。这样，可利用变换如图12所示的频谱包络EV的频谱包络或者新的频谱包络来调整频谱强度。

为了简化使用频谱包络的过程，频谱包络最好被表示为曲线或者直线。图13示出了两种不同的频谱包络曲线EV₁和EV₂。曲线EV₁仅通过由直线连接每个局部峰值的直线图来表示频谱包络。同样，曲线EV₂使用三次样条函数表示频谱包络。在使用曲线EV₂时，能够精确地进行内插。

随后，在图4中的步骤68，根据每帧的振幅谱数据的调整，对每个声音合成单元的相位谱数据进行调整。也就是说，在图10A所示的包括一帧的第i个局部峰值的谱分布区域内，相位谱分布PH₁对应于振幅谱分布AM₁。在步骤66，在振幅谱分布AM₁被移动到AM₂时，需要根据振幅谱分布AM₂来调整相位谱分布PH₁。这是为了使相位谱分布PH₁在移动目标位置的局部峰值的频率上成为正弦波。

当每帧之间的时间间隔为Δt，局部峰值频率为f_i，音高转换比率为T时，与包含第i个局部峰值的谱分布区域有关的相位插值量Δψ₁由以下等式A1获得：

Δψ_i＝2πf_i(T-1)Δt........(A1)

如图10B所示，由等式A1所获得的插值量Δψi被叠加到区域F_i到F_u内的每个相位谱的相位上，频率为F_i的局部峰值的相位为ψ_i+Δψ_i。

对于每个谱分布区域都将进行上述的相位插值。例如，当一帧的局部峰值频率是完美的谐波时(谐波频率是基波频率的绝对整数倍)，输入声音的基波频率(声音合成单元数据中音高数据所代表的音高)是f₀。当谱分布区域的数量为k＝1，2，3...时，相位插值量ψ_i由以下等式A2获得。

Δψ_i＝2πf₀(T-1)Δt........(A2)

在步骤70，根据每个声音合成单元的设定节拍等决定复制开始时间。复制开始时间取决于设定节拍和输入音调长度，并且由节拍时钟信号TCL的时钟计数值所代表。例如歌唱声音[saita]，声音合成单元[s_a]的再现开始时间被设定为在由输入音调长度和设定节拍所决定的发音时间开始[a]音而不是[s]音。在步骤60，歌词数据和旋律数据被实时输入。当进行实时歌唱声音合成时，需要先于发音时间输入歌词数据和旋律数据，用以设定前述的复制开始时间。

在步骤72，在声音合成单元间调节谱密度等级。通过对振幅谱数据和相位谱数据都进行等级调整过程，从而防止在下一步骤74中通过数据连接合成声音时产生噪音。此处存在着平滑过程，等级调节或者类似的过程，将在后面参照图17到20详细解释这些过程。

在步骤74，振幅谱数据被相互连接起来，相位谱数据也同样被相互连接到一起。而后，在步骤76，振幅谱数据和相位谱数据被每个声音合成单元转换成时域的合成声音信号(数字波形数据)。

图5示出了步骤76中的转换过程的实例。在步骤76a，对频率区域的每一帧数据(振幅谱数据和相位谱数据)进行反快速傅立叶变化(FFT)，从而获得时域的合成声音信号。而后，在步骤76b，对时域的合成声音信号进行窗口化处理。在此过程中，对时域的合成声音信号乘以一个时间窗函数。在步骤76c，对时域的合成声音信号进行重叠处理。在此过程中，通过根据一定的顺序重叠声音合成单元的波形，而将时域的合成声音信号连接起来。

在步骤78，参照步骤78所决定的再现开始时间，合成的声音信号被输出到数/模转换单元28。由此，通过音响系统34生成合成歌唱声音。

图6示出了另一个歌唱声音分析过程的实例。在步骤80，以与步骤40所述的相同方法输入歌唱声音信号，代表输入信号声音波形的数字波形数据储存于RAM16的预定区域。歌唱声音信号也能够通过接口30和32输入。

在步骤82，为被保存的数字波形数据，将每个片断以与步骤42所述的相同方法分割成片断波形。

在步骤83，每个声音合成单元代表片断波形的片断波形数据(声音合成单元数据)被储存到声音合成单元数据库中。RAM16和外部存储单元22都可作为声音合成单元数据库，另外也可根据需要使用ROM14，MIDI装置36的存储装置和计算机38的存储装置。在储存声音合成单元数据时，针对歌手(音调)，音高等级，动态等级和节拍等级等而不同的片断波形数据m1，m2，m3...由每个声音合成单元以与前面参照图3所述的相同方法储存到声音合成单元数据库DBS中。

下面参照图7解释另一个歌唱声音合成过程的实例。在步骤90，通过步骤60所述的相同方法输入要被合成歌唱声音的歌词数据和旋律数据。

在步骤92，通过与步骤62所述的相同方法，将歌词数据所代表的音素序列转换成单独的声音合成单元。而后在步骤94，从在步骤84执行存储过程的数据库中，读取每个声音合成单元的片断波形数据。在这种情况下，诸如音调，音高等级，动态等级和节拍等级的数据从输入单元20输入作为控制参数，对应于这些参数所形成的控制参数的片断波形数据也同时被读出。同样，通过步骤64所述的相同方法，能够根据输入音调长度和设定节拍改变发音持续时间。这样，在读取声音波形之后，有可能会通过省略一部分声音波形、重复一部分或整个声音波形的方式来持续读取声音波形，从而获得所需的发音持续时间。

在步骤96，由要读取的每个片断波形数据为片断波形决定一个或者多个时间帧，并且通过快速傅立叶变换(FFT)等按每帧进行频率分析以检测频谱(振幅谱和相位谱)。然后，将代表频谱的数据储存于RAM16的预定区域。

在步骤98，通过执行与图2中步骤46到52的相同过程，由每个声音合成单元生成音高数据，振幅谱数据和相位谱数据。而后在步骤100，通过执行与图4中步骤66到78的相同过程，合成并再现歌唱声音。

比较图4与图7中所示的两个歌唱声音合成过程。图4所示的歌唱声音合成过程，通过由数据库获取的每个声音合成单元的振幅谱数据和相位谱数据进行歌唱声音合成。另一方面，图7所示的歌唱声音合成过程，通过由数据库获取的每个声音合成单元的片断波形数据进行歌唱声音合成。虽然两者具有上述的不同点，但是它们的歌唱声音合成过程实质上是相同的。图4和图7所示的歌唱声音合成过程，因为未将输入声音波形的频率分析结果分割为确定性成分和随机成分，就不会出现随机成分的分割与回响。因而，就能够获得自然(高质量)的合成声音。同样也可获得摩擦音和爆破音的自然合成声音。

图14示出了类似[a]的单音素长音的音高转换过程和音调调节过程(对应于图4中的步骤66)。此时，数据库提供如图3所示的由音高数据，振幅谱数据和相位谱数据所组成的一组数据。同样，针对歌手(音调)，音高等级，动态等级和节拍等级而不同的声音合成单元数据也储存在数据库中。当输入单元20指定诸如所需歌手(所需音调)，音高等级，动态等级和节拍等级等的控制参数后，将读取控制参数所指定的声音合成单元数据。

在步骤110，对由长音合成单元数据SD所得的振幅谱数据FSP进行与步骤66相同的音高改变过程。具体地讲，是在与振幅谱数据FSP有关的每帧的每个谱分布区域，将谱分布移动到对应于输入音调音高数据PT在频率轴上所示的输入音调音高的位置。

在需要发音持续时间比声音合成单元数据SD的时间长度长的的长音的情况下，在读取声音合成单元数据SD到结束后，操作将返回并从头再次读取该数据。通过此种方式，可采用根据需要以一定时序重复读取的方法。作为另一种方法，当其读取到结尾后，从结尾到开始读取声音合成单元数据，可以采用根据需要按一定时序重复读取或按相反的时序读取的方法。在这种方法中，能够随意设定反向时序中读取时间的读取开始点。

在步骤110的音高改变过程中，例如，对应于诸如[a]之类的每个长音合成单元数据M1(或m1)，M2(或m2)，M3(或m3)等，将代表时间持续音高改变的音高脉动数据储存在图3所示的数据库DBS中。在这种情况下，在步骤112，把要读取的音高脉动数据加到输入的音调音高上，根据作为叠加结果的音高控制数据，控制步骤110的音高改变。通过这种方法，可以将音高脉动(如弯音轮，颤音等)叠加到合成声音上，从而获得自然的合成声音。而且，通过诸如音调，音高等级，动态等级和节拍等级等的控制参数能够改变音高脉动风格，从而提高合成声音的自然度。音高脉动数据的使用是通过根据诸如音调等控制参数进行插值，而修改与声音合成单元对应的一个或者多个音高脉动数据。

在步骤114，对在步骤110执行音高改变过程的振幅谱数据FSP′进行音调调整过程。此过程通过前面参照图12所述的每帧根据频谱包络来设定调整谱密度的合成声音的音调。

图15示出了步骤114的音调调整过程的实例。在此实例中，例如，代表对应于长音[a]的声音合成单元的一个典型的频谱包络的频谱包络数据被储存在图3所示的数据库中。

在步骤116，从数据库DBS中读取对应于长音合成单元的频谱包络数据。而后在步骤118，根据读取出的频谱包络数据进行频谱包络设定过程。也就是说，为了长音帧组FR中的n个帧振幅谱数据FRi到FRn中的每个帧的每个振幅谱数据的频谱包络数据指示的频谱包络一起而通过调整谱密度来设定谱包络。由此，可将一合适的音调添加在长音上。

在步骤118的频谱包络设定过程中，对应于诸如[a]之类的每个长音合成单元数据M1(m1)，M2(m2)，M3(m3)，将例如代表时间持续频谱包络改变的频谱包络脉动数据储存到图3所示的数据库DBS中，响应在输入单元20中指定诸如音调，音高等级，动态等级和节拍等级等，可读取与要被指定的控制参数对应的频谱包络脉动数据。在这种情况下，在步骤118，要被读取的频谱包络脉动数据VE被加到步骤116所读取的频谱包络脉动数据上，对应于作为叠加结果的谱包络控制数据，控制步骤118的频谱包络设定。通过此种方法，能够将音调脉动(如弯音轮等)叠加到合成声音上，从而获得自然合成声音。而且，由于可对应诸如音调，音高等级，动态等级和节拍等级之类的控制参数改变音高脉动风格，从而提高了合成声音的自然度。可通过与诸如音调之类的控制参数对应的插值，通过修改与声音合成单元对应的一个或者多个音高脉动数据来使用音高脉动数据。

图16示出了步骤114的音调调节过程的另一个实例。在歌唱声音合成中，一个典型的实例就是例如前面所述的歌唱[saita]，即一音素序列(例如，[s_a])-单音素(例如[a])-一音素序列(例如[a_i])的歌唱声音合成，图16示出了此典型歌唱声音合成的实例。在图16中，前一音符最后一帧的振幅谱数据PFR中的前一音符对应于例如音素序列[s_a]，长音的n个帧的振幅谱数据FR_i到FR_n的长音对应于例如单音素[a]，后一音符的第一帧的振幅谱数据PFR中的后一音符对应于例如音素链[a_i]。

在步骤120，从前一音符最后一帧的振幅谱数据PFR中提取谱包络，和从后一音符的第一帧的振幅谱数据NFR中提取谱包络。而后，对这两个提取出的谱包络进行时间插值，并形成表示长音谱包络的谱包络数据。

在步骤122，通过调整谱密度来设定该谱包络，以便与要在步骤120形成的谱包络数据表示的频谱包络一起指示n个帧的振幅谱数据FR_i到FR_n中的每个帧的每个振幅谱数据，由此，可将一合适的音调加在两个音素链之间的长音上。

另外，在步骤122，通过上面参照步骤118描述的相同过程，通过从数据库DBS读取对应于诸如音调之类的控制参数来控制频谱包络设定。通过这种方法，可获得自然的合成声音。

以下参照图17到19解释平滑过程(对应于步骤72)的实例。在此实例中，为了使数据易于操作并简化计算，将声音合成单元每帧的频谱包络分析为如图17所示的一条由直线(或指数函数)所代表的斜率成分，和一个或多个由指数函数所代表的谐波成分。也就是说，在斜率成分基础上经计算而得谐波成分密度，频谱包络通过添加斜率成分和谐波成分而获得。同样，延长斜率成分到0Hz所得的值称为斜率成分增益。

作为实例，如图18所示的两个声音合成单元[a_i]和[i_a]被相互连接。因为这两个声音合成单元最初是从不同的录音所提取的，所以在连接部[i]的音调和等级互相不匹配。因而，在图18所示的连接部形成了一个波形台阶，使得其听起来为一噪音。通过对两个声音合成单元数据以连接点为中心的前后几帧的斜率成分和谐波成分参数进行交叉衰弱，能够消除连接点处的台阶从而防止产生噪音。

例如，如图19所示，为了交叉衰弱谐波分量的参数，两个声音合成单元数据的谐波成分参数被乘以一函数(交叉衰弱参数)，使连接点上的参数变为0.5，并且将两个乘积再相加到一起。图19为一个通过使波形相加进行交叉衰弱的实例，其中每个波形都代表声音合成单元[a_i]或[i_a]的一次谐波成分密度的时间持续改变，而且每个波形都被乘以交叉衰弱参数。

对其他类似于上述谐波成分和斜率成分的参数也可进行交叉衰弱。

图20示出了一个等级调整过程(对应于步骤72)的实例。在此实例中，如前所述，将解释连接[a_i]和[i_a]以进行合成的情况下的等级调整过程。

这种情况下，由等级调整代替交叉衰弱使得声音合成单元连接点前后的振幅近乎相同。等级调整可以通过将声音合成单元振幅乘以固定或可变系数来进行。

在此实例中，解释了两个声音合成单元斜率成分增益的连接。首先，如图20A和20B所示，对于声音合成单元[a_i]和[i_a]，通过对第一帧和最后一帧之间的斜率成分增益进行插值，以及实际斜率成分与插值后参数之差值来计算参数(图中虚线所示)。

此后，计算每个音素[a]和[i]的典型样本(斜率成分和每个谐波成分参数)。作为典型样本，可计算[a_i]的第一和最后一帧的振幅谱数据。

根据[a]和[i]的典型样本，如图20C中虚线所示，获得由[a]和[i]之间的斜率成分的增益的线性插值计算的参数，并获得由[i]和[a]之间的斜率成分的增益的线性插值计算的参数。接下来，通过将利用图20A和图20B所计算而得的差值分别加到插值后参数，可使得插值后参数每当在边界时一致；因而就不会产生斜率成分增益的不连续性。通过同样方法，也可防止其他如谐波成分参数等的参数出现中断。

在前述的步骤72，为了调整相位，不仅对振幅谱数据而且对相位谱数据也进行前述的平滑过程和等级调整过程。因而，防止产生噪音以便获得高质量的合成歌唱声音。此外，在平滑过程和等级调整过程中，尽管谱密度在连接点上完全相同，但整个谱密度只是大致相同。

已参照特定实施例描述了本发明。本发明不仅限于以上几个实施例。各种改进，改善和组合等对本领域的技术人员来说是显而易见的。

Claims

1.一种歌唱声音合成方法，包括步骤：

(a)通过分析与要被合成的声音的声音合成单元对应的声音波形频率来频谱进行检测；

(b)检测频谱上谱密度的多个局部峰值：

(c)对于该多个局部峰值中的每一个，指定频谱上包括该局部峰值和此前和此后的谱的谱分布区域，依据每个谱分布区域的频率轴生成表示振幅谱分布的振幅谱数据；

(d)依据每个谱分布区域的频率轴生成表示相位谱分布的相位谱数据；

(e)为要被合成的声音指定音高；

(f)对于每个谱分布区域，调整振幅谱数据，以便根据音高沿频率轴移动由振幅谱数据表示的振幅谱分布；

(g)对于每个谱分布区域，根据振幅谱数据的调整，调整由相位谱数据表示的相位谱分布；和

(h)将调整后的振幅谱数据和调整后的相位谱数据转换成时域的合成声音信号。

2.一种歌唱声音合成方法，包括步骤：

(a)获得与要被合成的声音的声音合成单元对应的振幅谱数据和相位谱数据，其中该振幅谱数据是表示依据谱密度的多个局部峰值中的每一个峰值的每个谱分布区域的频率轴而定的振幅谱分布的数据，谱密度的多个局部峰值中的每一个包括该峰值和通过对声音合成单元的声音波形的频率分析获得的频谱中此前和此后的谱，所述相位谱数据是表示依据每个谱分布区域的频率轴而定的相位谱分布的数据；

(b)为要被合成的声音指定音高；

(c)对于每个谱分布区域，调整振幅谱数据，以便根据音高沿频率轴移动由振幅谱数据表示的振幅谱分布；

(d)对于每个谱分布区域，根据振幅谱数据的调整，调整由相位谱数据表示的相位谱分布；和

(e)将调整后的振幅谱数据和调整后的相位谱数据转换成时域的合成声音信号。

3.根据权利要求1所述的歌唱声音合成方法，其中的音高指定步骤(e)根据表示一个时序中的音高变化的音高脉动数据来指定音高。

4.根据权利要求3所述的歌唱声音合成方法，其中音高脉动数据对应于用于控制要被合成的声音的音乐表达的控制参数。

5.根据权利要求1所述的歌唱声音合成方法，其中振幅谱数据调整步骤(f)把在调整前与连接该多个局部峰值中的每一个的谱线对应的频谱包络不在一起的局部峰值的谱密度调整成与该谱包络在一起。

6.根据权利要求1所述的歌唱声音合成方法，其中振幅谱调整步骤(f)把与一预定谱包络不在一起的局部峰值的谱密度调整成与该预定谱包络在一起。

7.根据权利要求5所述的歌唱声音合成方法，其中振幅谱调整步骤(f)根据表示频谱包络的变化的频谱包络脉动数据，通过针对连续时间帧的时序调整该密度来设定在时序中变化的频谱包络。

8.根据权利要求7所述的歌唱声音合成方法，其中频谱包络脉动数据对应于用于控制要被合成的声音的音乐表达的控制参数。

9.一种歌唱声音合成装置，包括：

指定装置，用于为要被合成的声音指定声音合成单元和音高；

读取装置，用于从声音合成单元数据库中读取代表对应于声音合成单元的波形的声音波形数据作为声音合成单元数据；

第一检测装置，通过分析由声音波形数据表示的声音波形的频率来检测频谱；

第二检测装置，用于检测频谱上谱密度的多个局部峰值；

第一生成装置，用于针对多个局部峰值中的每一个，指定包括该局部峰值和频谱上此前和此后的谱的谱分布区域，并依据每个谱分布区域的频率轴生成表示振幅谱分布的振幅谱数据；

第二生成装置，用于针对每个谱分布区域，依据频率轴生成表示相位谱分布的相位谱数据；

第一调整装置，用于针对每个谱分布区域，调整振幅谱数据，以便根据音高沿频率轴移动由振幅谱数据表示的振幅谱分布；

第二调整装置，用于针对每个谱分布区域，根据振幅谱数据的调整，调整由相位谱数据表示的相位谱分布；和

转换装置，用于将调整后的振幅谱数据和调整后的相位谱数据转换成时域的合成声音信号。

10.一种声音合成装置，包括：

指定装置，用于为要被合成的声音指定声音合成单元和音高

读取装置，用于从声音合成单元数据库中读取对应于声音合成单元的振幅谱数据和相位谱数据作为声音合成单元数据，其中该振幅谱数据是表示依据谱密度的多个局部峰值中的每一个峰值的每个谱分布区域的频率轴而定的振幅谱分布的数据，谱密度的多个局部峰值中的每一个包括该峰值和通过对声音合成单元的声音波形的频率分析获得的频谱中此前和此后的谱，所述相位谱数据是表示依据每个谱分布区域的频率轴而定的相位谱分布的数据；

第二调整装置，用于针对每个谱分布区域，根据振幅谱数据的调整来调整由相位谱数据表示的相位谱分布；和

11.根据权利要求9所述的歌唱声音合成装置，其中

指定装置指定用于控制要被合成的声音的音乐表达的控制参数，和

读取装置读取对应于声音合成单元和控制参数的声音合成单元数据。

12.根据权利要求9所述的歌唱声音合成装置，其中

指定装置指定要被合成的声音的音调长度和/或节拍，和

读取装置通过省略一部分，或重复一部分或整个声音合成单元数据来读取与音调长度和/或节拍对应的时间的声音合成单元数据。

13.一种歌唱声音合成装置，包括：

指定装置，用于为要被顺序合成的每个声音指定声音合成单元和音高；

读取装置，用于从声音合成单元数据库中读取与由指定装置所指定的每个声音合成单元对应的声音波形数据；

第一检测装置，用于通过分析对应于每个声音波形的声音波形的频率来检测频谱；

第二检测装置，用于检测对应于每个声音波形的频谱上的谱密度的多个局部峰值；

第一生成装置，用于针对每个声音合成单元的多个局部峰值中的每一个，指定包括局部峰值和频谱上此前和此后的谱的谱分布区域，并依据每个谱分布区域的频率轴生成表示振幅谱分布的振幅谱数据；

第二生成装置，用于依据每个声音合成单元的每个谱分布区域的频率轴生成表示相位谱分布的相位谱数据；

第一调整装置，用于针对每个声音合成单元的每个谱分布区域，调整振幅谱数据，以便根据音高沿频率轴移动由振幅谱数据表示的振幅谱分布；

第二调整装置，用于针对每个声音合成单元的每个谱分布区域，根据振幅谱数据的调整来调整由相位谱数据表示的相位谱分布；

第一连接装置，用于连接调整后的振幅谱数据，以便根据要按发音顺序依次合成的声音分别连接连续的声音合成单元，其中在连续的声音合成单元的连接点上，各谱密度被调整到相互一致或者近似一致；

第二连接装置，用于连接调整后的相位谱数据，以便根据要按发音顺序依次合成的声音的分别连接连续的声音合成单元，其中在连续的声音合成单元的连接点上，各相位被调整到相互一致或者近似一致；

转换装置，用于将连接后的振幅谱数据和连接后的相位谱数据转换成时域的合成声音信号。

14.一种歌唱声音合成装置，包括：

读取装置，用于从声音合成单元数据库中读取与由指定装置所指定的每个声音合成单元对应的声音波形数据，其中该振幅谱数据是表示依据谱密度的多个局部峰值中的每一个峰值的每个谱分布区域的频率轴而定的振幅谱分布的数据，谱密度的多个局部峰值中的每一个包括该峰值和通过对声音合成单元的声音波形的频率分析获得的频谱中此前和此后的谱，所述相位谱数据是表示依据每个谱分布区域的频率轴而定的相位谱分布的数据；

15.一种存储用于歌唱声音合成装置的程序的存储介质，该程序包括指令：

(c)检测频谱上谱密度的多个局部峰值；

(f)依据每个谱分布区域的频率轴生成表示相位谱分布的相位谱数据；

(g)为要被合成的声音指定音高；

16.一种存储用于歌唱声音合成装置的程序的存储介质，该程序包括指令：

(b)为要被合成的声音指定音高；

17.一种用于歌唱声音合成装置的存储介质，存储与要被合成的声音的声音合成单元对应的振幅谱数据和相位谱数据，其中该振幅谱数据是表示依据谱密度的多个局部峰值中的每一个峰值的每个谱分布区域的频率轴而定的振幅谱分布的数据，谱密度的多个局部峰值中的每一个包括该峰值和通过对声音合成单元的声音波形的频率分析获得的频谱中此前和此后的谱，所述相位谱数据是表示依据每个谱分布区域的频率轴而定的相位谱分布的数据。