CN102486921A

CN102486921A - 语音合成信息编辑设备

Info

Publication number: CN102486921A
Application number: CN2011103968190A
Authority: CN
Inventors: 入山达也
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-12-02
Filing date: 2011-12-02
Publication date: 2012-06-06
Anticipated expiration: 2031-12-02
Also published as: TWI471855B; EP2461320B1; KR101542005B1; JP5728913B2; US20120143600A1; CN102486921B; JP2012118385A; EP2461320A1; TW201230009A; US9135909B2; KR20140075652A

Abstract

本发明提供了语音合成信息编辑设备。在语音合成信息编辑设备中，音素存储单元存储音素信息，所述音素信息指示要合成的语音的每个音素的持续时间。特征存储单元存储特征信息，所述特征信息指示语音的特征的时间变化。编辑处理单元根据扩展/压缩度改变由所述音素信息指示的每个音素的持续时间，所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。

Description

语音合成信息编辑设备

技术领域

本发明涉及一种对用于语音合成的信息(语音合成信息)进行编辑的技术。

背景技术

在传统的语音合成技术中，作为合成对象的语音(下文中称为合成语音)的每个音素的持续时间被指定为可变。日本专利申请公开No.Hei06-67685描述了如下技术，其中当指示对根据目标任意字符串指定的音素的时间序列在时间轴上进行扩展或压缩时，以取决于音素类型(元音/辅音)的扩展/压缩度来增大/减小每个音素的持续时间。

不过，由于实际语音中每个音素的持续时间不仅仅取决于音素类型，因此难以利用日本专利申请公开No.Hei06-67685中描述的以仅取决于音素类型的扩展/压缩度来对每个音素的持续时间进行扩展/压缩的构造来合成听起来自然的语音。

发明内容

鉴于上述情况，本发明的一个目的是生成语音合成信息，其即使在时间轴上执行扩展/压缩的情况下也能够合成听起来自然的语音(下文称为合成自然语音)。

本发明通过如下手段来实现该目的。在后续说明中，尽管将对应于本发明要素的后述实施例的要素引用在括号中以利于更好的理解，但是这种括号引用并非意在将本发明的范围限制为这些实施例。

根据本发明第一方面的语音合成信息编辑设备包括：音素存储单元(例如存储装置12)，其存储音素信息(例如音素信息SA)，所述音素信息指示要合成的语音的每个音素的持续时间；特征存储单元(例如存储装置12)，其存储特征信息(例如特征信息SB)，所述特征信息指示语音的特征的时间变化；和编辑处理单元(例如编辑处理器24)，其根据扩展/压缩度(例如扩展/压缩度K(n))改变由所述音素信息指示的每个音素的持续时间，所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。与仅取决于音素类型来设置扩展/压缩度的构造相比，通过上述构造可以生成能够合成听起来自然的语音的语音合成信息，因为以取决于每个音素特征的扩展/压缩度来改变(扩展/压缩)相应音素的持续时间。

例如，在特征信息指示音高(pitch)的时间变化的构造中，当扩展要合成的语音时，优选的是编辑处理单元将扩展/压缩度设置为根据特征可变，于是音素持续时间的扩展度随着特征信息所指示的音素的音高变高而增大。通过这种方式可以生成自然语音，其中反映了随着音高升高而增大扩展度的倾向。另外，在压缩合成语音时，编辑处理单元可以将扩展/压缩度设置为在压缩语音时随特征可变，于是音素的持续时间的压缩度随着特征信息所指示的音素的音高变低而增大。通过这种方式可以生成自然语音，其中反映了随着音高降低而增大压缩度的倾向。

另外，在特征信息指示音量的时间变化的构造中，在扩展合成语音时，期望编辑处理单元将扩展/压缩度设置为根据特征可变，于是音素持续时间的扩展度随着特征信息所指示的音素的音量变大而增大。通过这种方式可以生成自然语音，其中反映了随着音量增大而增大扩展度的倾向。另外，在压缩合成语音时，编辑处理单元可以将扩展/压缩度设置为随特征可变，于是音素的持续时间的压缩度随着特征信息所指示的音素的音量变小而增大。通过这种方式可以生成自然语音，其中反映了随着音量变小而增大压缩度的倾向。

同时，特征与扩展/压缩度之间的关系不限于上述示例。例如，假设扩展度随着音高降低而增大，则将扩展/压缩度设置为对于具有较高音高的音素而降低扩展度，并且假设扩展度随着音量增大而降低，将扩展/压缩度设置为对于具有较大音量的音素而降低扩展度。

根据本发明的优选实施例的语音合成信息编辑设备还包括显示控制单元，其在显示装置上显示包括音素序列图像(例如音素序列图像32)和特征轮廓图像(例如特征轮廓图像34)的编辑屏幕，所述音素序列图像是在时间轴上排列的与语音的音素对应的音素指示符(例如音素指示符42)的序列，每个音素指示符具有根据特征信息所指示的持续时间而设置的长度，所述特征轮廓图像表示在同一时间轴上排列的由特征信息指示的特征的时间序列，所述显示控制单元还基于编辑处理单元的处理结果更新编辑屏幕。通过这种方式，用户可以直观地了解每个音素的扩展/压缩，这是因为音素序列图像和特征轮廓图像以共同的时间轴显示在显示装置上。

在本发明的优选方面中，特征信息指示针对在时间轴上排列的音素的每个编辑点(例如编辑点α)的特征，并且所述编辑处理单元对特征信息进行更新，以使得编辑点相对音素的发声区间的位置在每个音素的持续时间改变前后得以保持。根据该方面，可以在保持时间轴上的编辑点在每个音素的发声区间中的位置的同时对每个音素进行扩展/压缩。

在本发明的优选方面中，在更新特征的时间变化时，编辑处理单元将音素信息所表示的音素发声区间内的编辑点在时间轴上的位置移动一个取决于音素类型的量。通过这种方式，由于时间轴上的编辑点位置移动了一个取决于与编辑点对应的音素的类型的量，因此可以容易地实现如下复杂的编辑处理，其中针对元音音素的编辑点在时间轴上的移动量不同于针对辅音音素的编辑点的移动量。于是可以减轻用户编辑特征的时间变化的负担。此方面的详细示例将在后文中的第二实施例中说明。

已经提出了允许用户指定合成语音的特征(例如音高)的时间变化的传统语音合成技术。在显示装置上，将特征的时间变化显示为连接排列在时间轴上的多个编辑点(断点)的虚线。不过，用户需要单独移动各编辑点以改变(编辑)特征的时间变化，从而增加了用户负担。有鉴于此，本发明第二实施例的语音合成信息编辑设备包括：音素存储单元(例如存储装置12)，其存储音素信息(例如音素信息SA)，所述音素信息指示构成要合成的语音的在时间轴上排列的多个音素；特征存储单元(例如存储装置12)，其存储特征信息(例如特征信息SB)，所述特征信息指示位于排列在时间轴上并且分配给各音素的编辑点(例如编辑点α[m])处的语音特征；和编辑处理单元(例如编辑处理器24)，其将处在音素的发声区间内的编辑点(例如编辑点α[m])在时间轴上的位置在时间轴的方向上移动一个取决于音素类型的量(例如量δT[m])。根据这种构造，由于时间轴上的编辑点位置移动了与编辑点的音素的类型对应的量，因此可以容易地实现如下复杂编辑处理：其中时间轴上针对元音音素的编辑点的移动量不同于针对辅音音素的编辑点的移动量。于是可以减轻用户编辑特征的时间变化的负担。此方面的详细示例将在后文第二实施例中说明。

上述各方面的语音合成信息编辑设备通过专用于生成语音合成信息的诸如数字信号处理器(DSP)的硬件(电子电路)来实现，还可以通过诸如中央处理器(CPU)的通用运算处理装置及程序来共同实现。根据本发明第一方面的程序通过计算机运行来执行语音合成信息编辑处理，所述语音合成信息编辑处理包括：提供音素信息，其指示要合成的语音的每个音素的持续时间；提供特征信息，其指示语音特征的时间变化；和根据扩展/压缩度改变由所述音素信息指示的每个音素的持续时间，所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。另外，根据本发明第二方面的程序通过计算机运行来执行语音合成信息编辑处理，所述语音合成信息编辑处理包括：提供音素信息，其指示构成要合成的语音的在时间轴上排列的多个音素；提供特征信息，其指示位于排列在时间轴上、并且分配给音素的编辑点处的语音特征；以及将处在音素的发声区间内的编辑点在时间轴上的位置在时间轴的方向上移动一个取决于音素类型的量。根据上述方面的程序，可以得到与本发明的语音合成信息编辑设备相同的操作和效果。本发明的程序存储在计算机可读记录介质中，提供给用户并安装在计算机中。另外，这些程序可以从服务器装置通过通信网络以传输方式提供，并且安装在计算机中。

本发明可以指定为用于生成语音合成信息的方法。本发明第一方面的语音合成信息编辑方法包括：提供音素信息，其指示要合成的语音的每个音素的持续时间；提供特征信息，其指示语音特征的时间变化；和根据扩展/压缩度改变由所述音素信息指示的每个音素的持续时间，所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。另外，根据本发明第二方面的语音合成信息编辑方法包括：提供音素信息，其指示构成要合成的语音的在时间轴上排列的多个音素；提供特征信息，其指示位于排列在时间轴上、并且分配给音素的编辑点处的语音特征；以及将处在音素的发声区间内的编辑点在时间轴上的位置在时间轴的方向上移动一个取决于音素类型的量。根据上述方面的语音合成信息编辑方法，可以得到与本发明的语音合成信息编辑设备相同的操作和效果。

附图说明

图1是根据本发明第一实施例的语音合成设备的框图。

图2是编辑屏幕的示意图。

图3是语音合成信息(音素信息、特征信息)的示意图。

图4是用于说明扩展/压缩合成语音的过程的示图。

图5(A)及图5(B)是用于说明根据第二实施例对编辑点的时

间序列进行编辑的过程的示图。

图6是用于说明编辑点的移动的示图。

具体实施方式

<A：第一实施例>

图1是根据本发明第一实施例的语音合成设备100的框图。语音合成设备100是合成期望的合成语音的声音处理设备，并且实现为包括运算处理装置10、存储装置12、输入装置14、显示装置16和声音输出装置18的计算机系统。输入装置14(例如鼠标或键盘)从用户接收指令。显示装置16(例如液晶显示器)显示运算处理装置10所指示的图像。声音输出装置18(例如扬声器或耳机)基于语音信号X再现声音。

存储装置12存储通过运算处理装置10执行的程序PGM以及信息(例如语音元素组V和语音合成信息S)。可以任意采用已知的记录介质(如半导体记录介质或磁记录介质或者多种类型的记录介质的组合)来作为存储装置12。

语音元素组V是由对应于不同语音元素的多个元素数据(例如语音元素波形的样本序列)构成的语音合成库，其用作语音合成的材料。语音元素是对应于用于识别语言含义的最小单位(例如元音或辅音)的音素，或者是由多个连接在一起的音素构成的音素链。语音合成信息S指示要合成的语音的音素和特征(将在下文详细说明)。

运算处理装置10通过执行存储在存储装置12中的程序PGM来实现生成语音信号X所需的多个功能(显示控制器22、编辑处理器24、和语音合成器26)。语音信号X表示合成语音的波形。尽管在此构造中将运算处理装置10的功能实现为专用电子电路DSP，但也可以采用将运算处理装置10的功能分布至多个集成电路的构造。

显示控制器22在显示装置16上显示图2所示的编辑屏幕30，其在编辑要合成的语音时由用户视觉识别。如图2所示，编辑屏幕30包括音素序列图像32和特征轮廓图像34，其中音素序列图像32将构成合成语音的多个音素的时间序列显示给用户，特征轮廓图像34显示合成语音的特征的时间变化。音素序列图像32和特征轮廓图像34共同地基于时间轴52(横轴)而排列。第一实施例示出了合成语音的音高来作为特征轮廓图像34所显示的特征。

音素序列图像32包括分别表示合成语音的各个音素的音素指示符42，其在时间轴52的方向上按时间序列排列。一个音素指示符42在时间轴52的方向上的位置(例如一个音素指示符42的左端点)是每个音素发声的起始点，一个音素指示符42在时间轴52的方向上的长度表明每个音素持续发声的时间长度(下文中称为“持续时间”)。用户可以通过在确认编辑屏幕30的同时适当地操作输入装置14来指示对音素序列图像32进行编辑。例如，用户指示将音素指示符42添加到音素序列图像32上的任意点处、删除已有的音素指示符42、指定针对特定音素指示符42的音素、或者改变指定的音素。显示控制器22根据来自用户的针对音素序列图像32的指令来更新音素序列图像32。

图2所示的特征轮廓图像34在设有时间轴52和音高轴(竖轴)54的平面上示出了表示合成语音的音高的时间变化(轨迹)的转移线56。转移线56是连接在时间轴52上按时间序列排列的多个编辑点(断点)的虚线。用户可以在确认编辑屏幕30的同时通过适当地操作输入装置14来指示要编辑的特征轮廓图像34。例如，用户指示将编辑点α添加至特征轮廓图像34上的任意点处、或者移动或删除已有的编辑点α。显示控制器22根据来自用户的针对特征轮廓图像34的指令来更新特征轮廓图像34。例如，当用户指示移动编辑点α时，更新特征轮廓图像34以移动特征轮廓图像34的编辑点α，并且更新转移线56以使得转移线56经过移动后的编辑点α。

图1所示的编辑处理器24生成与编辑屏幕30的内容对应的语音合成信息S、将语音合成信息S存储在存储装置12中、并且在用户编辑编辑屏幕30的指示下更新语音合成信息S。图3是语音合成信息S的示意图。如图3所示，语音合成信息S包括对应于音素序列图像32的音素信息SA以及对应于特征轮廓图像34的特征信息SB。音素信息SA包含表示排列在时间轴上的多个音素的音素序列信息。

音素信息SA指示构成合成语音的音素的时间序列，并且由与设置在音素序列图像32中的每个音素对应的单位信息UA的时间序列构成。单位信息UA指示音素的识别信息a1、发声起始时刻a2、和持续时间(即音素持续发声的持续时间)a3。当把音素指示符42添加至音素序列图像32时，编辑处理器24将对应于音素指示符42的单位信息UA添加至音素信息SA，并根据用户指令更新单位信息UA。具体来说，编辑处理器24针对对应于每个音素指示符42的单位信息UA来设置由每个音素指示符42指示的音素的识别信息a1，并且根据音素指示符42在时间轴52的方向上的位置和长度来设置发声起始时刻a2和持续时间a3。可以采用其中单位信息UA包括发声起始时刻和结束时刻的构造(将处在发声起始时刻和结束时刻之间的时间指定为持续时间a3的构造)。

特征信息SB指示合成语音的音高(特征)的时间变化，并且由与特征轮廓图像34的不同编辑点α对应的多个单位信息项UB的时间序列构成，如图3所示。每个单位信息UB指定编辑点α的时刻b1和分配给编辑点α的音高b2。当把编辑点α添加至特征轮廓图像34时，编辑处理器24将对应于编辑点α的单位信息UB添加至特征信息SB，并且根据用户指令更新单位信息UB。具体来说，编辑处理器24针对对应于编辑点α的单位信息UB，根据每个编辑点α在时间轴52上的位置来设置时刻b1，并且根据编辑点α在音高轴54上的位置来设置音高b2。

图1所示的语音合成单元26生成由存储在存储装置12中的语音合成信息S所指示的合成语音的语音信号X。具体来说，语音合成单元26从语音元素组V顺序获取与语音合成信息S的音素信息SA的单位信息UA所指示的识别信息a1相对应的元素数据，将元素数据调整为单位信息UA的持续时间a3和特征信息SB的单位信息UB所表示的音高b2，连接这些元素数据项，并将元素数据配置在单位信息UA的发声起始时刻a2，从而生成语音信号X。当参照编辑屏幕30指示合成语音的用户通过操作输入装置14来指示执行语音合成时，通过语音合成单元26执行语音信号X的生成处理。通过语音合成单元26生成的语音信号X提供至声音输出装置18并且再现为声波。

当指定了音素序列图像32的音素指示符42的时间序列和特征轮廓图像34的编辑点α的时间序列时，可以通过操作输入装置14来指定包含相位连续的多个(N个)音素的任意区间(下文中称为目标扩展/压缩区间)，并且同时指示对此目标扩展/压缩区间进行扩展或者压缩。图4(A)示出了其中用户指定与发音“sonanoka”对应的8个(N＝8)音素σ[1]至σ[N]的时间序列(/s/、/o/、/n/、/a/、/n/、/o/、/k/、/a/)来作为目标扩展/压缩区间的一个编辑屏幕30。为了简明起见，图4(A)中的目标扩展/压缩区间中的N个音素σ[1]至σ[N]具有相同的持续时间a3。

在实际生成话语的情况下(例如交谈时)对语音进行扩展或压缩时，根据语音的音高来改变扩展/压缩度的倾向是根据经验获取的。具体来说，对高音部分(通常是在交谈时需要强调的部分)进行扩展并对低音部分(例如不必强调的部分)进行压缩。鉴于上述倾向，目标扩展/压缩区间中每个音素的持续时间a3(音素指示符42的长度)以取决于分配给该音素的音高b2的程度而增大/减小。此外，考虑到元音比辅音更易于扩展和压缩，对元音音素进行比辅音音素更明显的压缩和扩展。下面将详细说明对目标扩展/压缩区间中的每个音素的扩展/压缩。

图4(B)示出了在对图4(A)所示的目标扩展/压缩区间进行扩展时的编辑屏幕30。当用户指示对目标扩展/压缩区间进行扩展时，以如下方式扩展目标扩展/压缩区间中的音素，其中随着特征信息SB所指示的音高b2升高而增大扩展度，并且对目标扩展/压缩区间中的元音音素的扩展度比辅音音素更大，如图4(B)所示。例如，由特征信息SB指示的第二音素σ[2]的音高b2比第六音素σ[6]高，尽管这两个音素在图4(B)中具有相同类型/o/，于是第二音素σ[2]扩展至比第六音素σ[6]的持续时间a3(＝Lb[6])更长的持续时间a3(＝Lb[2])。此外，由于音素σ[2]是元音/o/而第三音素σ[3]是辅音/n/，于是音素σ[2]扩展至比音素σ[3]的持续时间a3(＝Lb[3])更长的持续时间a3(＝Lb[2])。

图4(C)示出了对图4(A)所示的目标扩展/压缩区间进行压缩的编辑屏幕30。当用户指示对目标扩展/压缩区间进行压缩时，以如下方式压缩目标扩展/压缩区间中的音素，其中随着特征信息SB所指示的音高b2降低而增大压缩度，并且对目标扩展/压缩区间中的元音音素的压缩度比辅音音素更大，如图4(C)所示。例如，音素σ[6]的音高b2低于音素σ[2]的音高，于是将音素σ[6]压缩至比音素σ[2]的持续时间a3(＝Lb[2])更短的持续时间a3(＝Lb[6])。此外，将音素σ[2]压缩至比音素σ[3]的持续时间a3(＝Lb[3])更短的持续时间a3(＝Lb[2])。

上述通过编辑处理器24执行的对音素进行扩展和压缩的操作将在下面详细描述。当指示对目标扩展/压缩区间进行扩展时，编辑处理器24根据如下公式(1)计算第n个音素σ[n](n＝1至N)的扩展/压缩系数k[n]。

k[n]＝La[n]·R·P[n] (1)

公式(1)中的符号La[n]表示单位信息UA所指示的对应于扩展前的音素σ[n]的持续时间a3，如图4(A)所示。公式(1)中的符号R表示预先针对每个音素(针对每个音素类型)设置的音素扩展/压缩率。音素扩展/压缩率R(表格)被预先选择，并且存储在存储装置12中。编辑处理器24在存储装置12中搜索与单位信息UA所指示的识别信息a1的音素σ[n]对应的音素扩展/压缩率R，并将此音素扩展/压缩率R应用于公式(1)的计算。以使得元音音素比辅音音素的音素扩展/压缩率R高的方式来设置每个音素的音素扩展/压缩率R。因此，将元音音素的扩展/压缩系数k[n]设置为比辅音音素高的值。

公式(1)中的符号P[n]表示音素σ[n]的音高。例如，编辑处理器24将由音素σ[n]的发音区间内的转移线56所指示的音高的平均值、或者转移线56中音素σ[n]的发声区间中特定点(例如起始点或者中点)处的音高确定为公式(1)的音高P[n]，然后将所确定的值应用于公式(1)的计算。

编辑处理器24通过如下公式(2)来计算扩展/压缩度K[n]，在公式(2)中应用了公式(1)的扩展/压缩系数k[n]。

K[n]＝k[n]/∑(k[n]) (2)

公式(2)中的符号∑(k[n])表示目标扩展/压缩区间中所包含的全部(N个)音素的扩展/压缩系数k[n]的和(∑(k[n])＝k[1]+k[2]+...+k[n])。也即，公式(2)对应于将扩展/压缩系数k[n]归一化为小于等于1的正数的计算。

编辑处理器24通过计算如下公式(3)来计算音素σ[n]扩展后的持续时间Lb[n]，在公式(3)中应用了公式(2)的扩展/压缩度K[n]。

Lb[n]＝La[n]+K[n]·ΔL (3)

公式(3)中的符号ΔL表示目标扩展/压缩区间的扩展/压缩量(绝对值)，并且根据用户对输入装置14的操作设置为可变值。如图4(A)和4(B)所示，目标扩展/压缩区间扩展后的总长度Lb[1]+Lb[2]+...+Lb[N]与目标扩展/压缩区间扩展前的总长度La[1]+La[2]+...+La[N]之差的绝对值对应于扩展/压缩量ΔL。从公式(3)可知，扩展/压缩度K[n]表示音素σ[n]的扩展部分与目标扩展/压缩区间的整体扩展/压缩量ΔL的比率。通过公式(3)的计算，以如下方式设置扩展后的每个音素σ[n]的持续时间Lb[n]，其中扩展度随着音素σ[n]具有高的音高P[n]而增大，并且元音音素σ[n]的扩展度大于辅音音素的扩展度。

在指示对目标扩展/压缩区间进行压缩时，编辑处理器24根据如下公式(4)计算目标扩展/压缩区间中第n个音素σ[n]的扩展/压缩系数k[n]。

k[n]＝La[n]·R/P[n] (4)

公式(4)中的变量La[n]、R和P[n]的含义与公式(1)相同。编辑处理器24将通过公式(4)得到的扩展/压缩系数k[n]应用于公式(2)来计算扩展/压缩度K[n]。从公式(4)可知，具有较低音高P[n]的音素σ[n]的扩展/压缩度K[n](扩展/压缩系数k[n])被设置为较大值。

编辑处理器24通过计算如下公式(5)来计算压缩后的音素σ[n]的持续时间Lb[n]，在公式(5)中应用了扩展/压缩度K[n]。

Lb[n]＝La[n]-K[n]·ΔL (5)

从公式(5)中可知，每个压缩后的音素σ[n]的持续时间Lb[n]均被设置为使得压缩度随着音素σ[n]具有低的音高P[n]而增大的可变值，并且元音音素σ[n]的压缩度大于辅音音素的压缩度。

以上对扩展和压缩后的持续时间Lb[n]的计算进行了说明。当通过上述过程计算目标扩展/压缩区间中的N个音素σ[1]至σ[n]的持续时间Lb[n]时，编辑处理器24将由音素信息SA中与每个音素σ[n]对应的单位信息UA所指定的持续时间a3从扩展/压缩前的持续时间La[n]变为扩展/压缩后的持续时间Lb[n](公式(3)或(5)的计算值)，并且针对扩展/压缩后的每个音素σ[n]的持续时间a3更新每个音素σ[n]的发声起始时刻a2。此外，显示控制器22将编辑屏幕30的音素序列图像32改变为与通过编辑处理器24更新之后的音素信息SA相对应的内容。

如图4(B)和4(C)所示，编辑处理器24更新特征信息SB，显示控制器22更新特征轮廓图像34，使得编辑点α相对每个音素σ[n]的发声区间的位置在目标扩展/压缩区间的扩展/压缩前后保持不变。换句话说，对应于由特征信息SB指定的编辑点α的时刻b1被适当地或者按比例改变，从而在扩展/压缩之后保持了在扩展/压缩之前的时刻b1与每个音素σ[n]的发声区间之间的关系。因此，将编辑点α所指定的转移线56扩展/压缩为对应于每个音素σ[n]的扩展/压缩。

在上述第一实施例中，根据每个音素σ[n]的音高P[n]来可变地设置每个音素σ[n]的音素扩展/压缩度K[n]。因此，与日本专利申请公开No.Hei06-67685所公开的仅基于音素类型(元音/辅音)来设置扩展/压缩度K[n]的构造相比，可以生成能够合成听起来自然的语音的语音合成信息S(以及进一步使用语音合成信息S生成自然语音)。

具体来说，在扩展目标扩展/压缩区间时，将随着音素的音高升高而使扩展度增大的倾向应用于自然语音，而在压缩目标扩展/压缩区间时，将随着音素的音高降低而使压缩度增大的倾向应用于自然语音。

<B：第二实施例>

下面对本发明的第二实施例进行说明。第二实施例是基于对特征信息SB所指示的编辑点α的时间序列(表示音高的时间变化的转移线56)进行编辑。在下文中，使用上文中所用的标号并适当地省略对与第一实施例中的元素具有相同操作和功能的元素的详细说明。当指令对音素的时间序列进行扩展/压缩时的操作与第一实施例相对应。

图5(A)和图5(B)是用于对多个编辑点α的时间序列(转移线56)的编辑过程进行说明的示图。图5(A)例示了对应于发音“kai”的多个音素/k/、/a/、/i/的时间序列和音高的时间变化，这些由用户指定。用户通过适当地操作输入装置14在特征轮廓图像34中指定要编辑的矩形区域60(下文中称为“选择区域”)。将选择区域60指定为包括多个(M个)相邻的编辑点α[1]至α[M]。

如图5(B)所示，用户可以通过例如操作输入装置14移动选择区域60的角ZA以扩展/压缩(在图5(B)的情况下为扩展)选择区域60。当用户扩展/压缩选择区域60时，编辑处理器24更新特征信息SB，显示控制器22更新特征轮廓图像34，以使得选择区域60中包含的M个编辑点α[1]至α[M]响应于选择区域60的扩展/压缩而移动(也即，M个编辑点α[1]至α[M]分布在扩展/压缩后的选择区域60中)。由于对选择区域60的扩展/压缩是出于更新转移线56的目的进行的编辑，因此每个音素的持续时间a3(音素序列图像32中的每个音素指示符42的长度)不变。

下面对选择区域60扩展或压缩时每个编辑点α的移动进行详细说明。尽管下述说明是基于图6所示第m个编辑点α[m]的移动，但实际上如图5(B)所示，选择区域60中的M个编辑点α[1]至α[M]根据相同规则移动。

如图6所示，用户可以在固定与角ZA相对的角Zref(下文中称为“基准点”)的同时通过操作输入装置14移动选择区域60的角ZA以扩展/压缩(在图6的情况下为扩展)选择区域60。

具体来说，假设选择区域60在音高轴54的方向上的长度LP扩展一个扩展/压缩量ΔLP，在时间轴52的方向上的长度LT扩展一个扩展/压缩量ΔLT。

编辑处理器24对编辑点α[m]在音高轴54的方向上的移动量δP[m]以及编辑点α[m]在时间轴52的方向上的移动量δT[m]进行计算。在图6中，音高差PA[m]表示移动之前编辑点α[m]和基准点Zref之间的音高差，时间差TA[m]表示移动之前编辑点α[m]和基准点Zref之间的时间差。

编辑处理器24通过如下公式(6)的计算来计算移动量δP[m]。

δP[m]＝PA[m]·ΔLP/LP (6)

也即，根据移动之前相对于基准点Zref的音高差PA[m]以及选择区域60在音高轴54的方向上的扩展/压缩度(ΔLP/LP)来可变地设置编辑点α[m]在音高轴54的方向上的移动量δP[m]。

此外，编辑处理器24通过公式(7)的计算来计算移动量δT[m]。

δT[m]＝R·TA[m]·ΔLT/LT (7)

也即，除了根据移动之前相对基准点Zref的时间差TA[m]以及选择区域60在时间轴52的方向上的扩展/压缩度(ΔLT/LT)，还根据音素扩展/压缩率R来可变地设置编辑点α[m]在时间轴52的方向上的移动量δT[m]。

如第一实施例中的情形一样，每个音素的音素扩展/压缩率R预先存储在存储装置12中。编辑处理器24在存储装置12中从音素信息SA所指示的多个音素的发声区间中搜索与包括移动前的编辑点α[m]的一个音素对应的音素扩展/压缩率R，并将搜索到的音素扩展/压缩率R应用于公式(7)的计算。如第一实施例中的情形一样，每个音素的音素扩展/压缩率R被设置为元音音素的音素扩展/压缩率R比辅音音素的高。因此，如果针对基准点Zref的时间差TA[m]以及选择区域60在时间轴52的方向上的扩展/压缩度ΔLT/LT为恒定，则编辑点α[m]在时间轴52的方向上的移动量δT[m]在编辑点α[m]对应于元音音素的情况下相比编辑点α[m]对应于辅音音素的情况下更大。

在针对选择区域60中的M个编辑点α[1]至α[M]中的每一个计算移动量δP[m]和移动量δT[m]时，编辑处理器24更新单位信息UB，使得特征信息SB的单位信息UB所指示的每个编辑点α[m]在音高轴54的方向上移动了移动量δP[m]，同时在时间轴52的方向上移动了移动量δT[m]。具体来说，从图6可知，编辑处理器24在特征信息SB中编辑点α[m]的单位信息UB所指示的时刻b 1处加上了公式(7)的移动量δT[m]，并且从单位信息UB所指示的音高b2中减去了公式(6)的移动量δP[m]。显示处理器22将编辑屏幕30的特征轮廓图像34更新为取决于通过编辑处理器24更新后的特征信息SB的内容。也即，移动选择区域60中的M个编辑点α[1]至α[M]，并将转移线56更新为经过移动后的编辑点α[1]至α[M]，如图5(B)所示。

如上文所述，在第二实施例中，编辑点α[m]在时间轴52的方向上移动一个取决于音素类型(音素扩展/压缩率R)的移动量δT[m]。也即，如图5(B)所示，对应于元音音素/a/和/i/的编辑点α[m]根据选择区域60的扩展/压缩而在时间轴52的方向上移动的量相比对应于辅音音素/k/的编辑点α[m]的移动量更大。因此，可以通过扩展或压缩选择区域60的简单操作来实现复杂的编辑，即在时间轴52上移动对应于元音音素的编辑点α[m]而同时限制对应于辅音音素的编辑点α[m]的移动。

尽管上述示例包括第一实施例(其中每个音素σ[n]根据音高P[n]来扩展/压缩)和第二实施例(其中基于音素类型来移动编辑点α[m])的构造，但是第一实施例的构造(针对每个音素的扩展/压缩)也可以省略。

同时，在通过上述方法移动每个编辑点α时，可能使得靠近选择区域60边缘的编辑点α(例如图5(B)中的编辑点α[M])以及选择区域60外的编辑点α(例如图5(B)右侧的第二编辑点α)在选择区域60扩展/压缩前后在时间轴52上的位置发生变化。另外，即使在选择区域60内部，由于音素的音素扩展/压缩率R之间的差异(例如当对应于前一个编辑点α的音素的扩展/压缩率R显著高于对应于后一个编辑点α的音素时)，编辑点α的位置也可能在选择区域60的扩展/压缩前后发生变化。因此，优选地设置约束，以使编辑点α在时间轴52上的位置关系或顺序关系在选择区域60的扩展/压缩前后不发生变化。具体来说，公式(7)的移动量δT[m]的计算要满足如下公式(7a)的约束。

TA[m-1]+δT[m-1]≤TA[m]+δT[m] (7a)

例如可以适当地采用如下构造之一，如其中用户对选择区域60的扩展/压缩限制在公式(7a)的约束范围内的构造，其中对应于每个编辑点α的音素扩展/压缩率R被动态调整为满足公式(7a)的约束的构造，或者其中对通过公式(7)计算的移动量δT[m]进行校正以满足公式(7a)的约束的构造。

<C：变型例>

上述实施例可以各种形式做出修改。修改的详细内容将在下文说明。从下文示例中选择的两个或多个方面可以任意组合。

(1)变型例1

尽管在第一实施例中根据音高P[n]对每个音素σ[n]进行扩展或压缩，但是反映在每个音素的扩展/压缩度K[n]中的合成语音的特征不限于音高P[n]。例如，假设音素的扩展/压缩度随着语音的音量而变化(例如大音量部分易于扩展)，则可以采用如下构造，其中生成特征信息SB以指示音量(动态特性)的时间变化，并且第一实施例中描述的每个计算的音高P[n]由特征信息SB所表示的音量D[n]来代替。也即，根据音量D[n]来可变地设置扩展/压缩度K[n]，使得具有大音量D[n]的音素σ[n]扩展较多，并且具有小音量D[n]的音素σ[n]压缩较多。除了音高P[n]和音量D[n]以外，语音的清晰度也可以认为是适合于计算扩展/压缩度K[n]的特征。

(2)变型例2

尽管在第一实施例中针对每个音素设置扩展/压缩度K[n]，但也存在不适于对每个音素单独进行扩展/压缩的情况。例如，如果词“string”的前三个音素/s/、/t/和/r/根据不同的扩展/压缩度K[n]来进行扩展或压缩，则所得的语音可能不自然。因此可以采用如下构造，其中将目标扩展/压缩区间中的特定音素(例如用户选择的音素或者符合特定条件的音素)的扩展/压缩度K[n]设置为相同值。例如，当三个或更多辅音音素连续时，将其扩展/压缩度K[n]设置为相同值。

(3)变型例3

在第一实施例中，可能存在应用于公式(1)或(4)的音素扩展/压缩率R在相邻音素σ[n-1]和σ[n]之间出现突变的情况。因此，优选采用如下构造，其中将多个音素的音素扩展率R的移动平均值(例如音素σ[n-1]的音素扩展/压缩率R和音素σ[n]的音素扩展/压缩率R的平均值)用作公式(1)或(4)的音素扩展/压缩率R。对于第二实施例，可以采用将针对编辑点α[m]确定的音素扩展/压缩率R的移动平均值应用于公式(7)的计算的构造。

(4)变型例4

尽管在第一实施例中将根据特征信息SB计算的音高直接应用为公式(1)或(4)的音高，但也可以采用如下构造，其中通过对特征信息SB所指定的音高p执行预定的计算来计算音高P[n]。例如，优选采用将音高p的幂(例如p²)用作音高P[n]的构造、或者将音高p的对数值(例如log p)用作音高P[n]的构造。

(5)变型例5

尽管在上述实施例中将音素信息SA和特征信息SB存储在单个存储装置12中，但也可以采用将音素信息SA和特征信息SB分别存储在分离的存储装置12中的构造。也即，本发明涵盖存储音素信息SA的元件(音素存储单元)和存储特征信息SB的元件(特征存储单元)的分离/集成。

(6)变型例6

尽管在上述实施例中描述了包括语音合成单元26的语音合成设备100，但可以省略显示控制器22或语音合成单元26。在省略了显示控制器22的构造(其中省略了对编辑屏幕30以及来自用户的对编辑屏幕30进行编辑的指令进行显示的构造)中，自动执行语音合成信息S的生成与编辑，无需来自用户的编辑指令。在上述构造中，优选由编辑处理器24根据来自用户的指令来开启/关闭语音合成信息S的生成与编辑。

此外，在省略了显示控制器22或语音合成单元26的设备中，编辑处理器24可以构造为对语音合成信息S进行创建和编辑的装置(语音合成信息编辑装置)。通过该语音合成信息编辑装置生成的语音合成信息S提供至分离的语音合成设备(语音合成单元26)以生成语音信号X。例如，在包括存储装置12和编辑处理器24的语音合成信息编辑装置(服务器装置)与包括显示控制器22或语音合成单元26的通信终端(例如个人计算机或者便携式通信终端)通过通信网络彼此通信的通信系统中，可以将本发明应用于从语音合成信息编辑装置向终端提供创建和编辑语音合成信息S的服务(云计算服务)的情况。也即，语音合成信息编辑装置的编辑处理器24响应于通信终端的请求生成和编辑语音合成信息S，并将语音合成信息S传输至通信终端。

Claims

1.一种语音合成信息编辑设备，包括：

音素存储单元，其存储音素信息，所述音素信息指示要合成的语音的每个音素的持续时间；

特征存储单元，其存储特征信息，所述特征信息指示语音的特征的时间变化；和

编辑处理单元，其根据扩展/压缩度改变由所述音素信息指示的每个音素的持续时间，所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。

2.根据权利要求1的语音合成信息编辑设备，其中所述特征信息所指示的特征是音高，并且所述编辑处理单元在扩展语音时将扩展/压缩度设置为根据特征可变，使得音素的持续时间的扩展度随着特征信息所指示的音素的音高升高而增大。

3.根据权利要求1的语音合成信息编辑设备，其中所述特征信息所指示的特征是音高，并且所述编辑处理单元在压缩语音时将扩展/压缩度设置为根据特征可变，使得音素的持续时间的压缩度随着特征信息所指示的音素的音高降低而增大。

4.根据权利要求1的语音合成信息编辑设备，其中所述特征信息所指示的特征是音量，并且所述编辑处理单元在扩展语音时将扩展/压缩度设置为根据特征可变，使得音素的持续时间的扩展度随着特征信息所指示的音素的音量变大而增大。

5.根据权利要求1的语音合成信息编辑设备，其中所述特征信息所指示的特征是音量，并且所述编辑处理单元在压缩语音时将扩展/压缩度设置为根据特征可变，使得音素的持续时间的压缩度随着特征信息所指示的音素的音量变小而增大。

6.根据权利要求1至5中任一项的语音合成信息编辑设备，还包括显示控制单元，其在显示装置上显示包括音素序列图像和特征轮廓图像的编辑屏幕，所述音素序列图像是沿时间轴排列的与语音的音素对应的音素指示符的序列，每个音素指示符具有根据音素信息所指示的持续时间设置的长度，所述特征轮廓图像表示沿同一时间轴排列并由特征信息指示的特征的时间序列，所述显示控制单元还基于编辑处理单元的处理结果更新编辑屏幕。

7.根据权利要求1至6中任一项的语音合成信息编辑设备，其中特征信息指示针对在时间轴上排列的各音素的每个编辑点的特征，并且所述编辑处理单元对特征信息进行更新，以使得编辑点相对于音素发声区间的位置在每个音素的持续时间改变前后保持不变。

8.根据权利要求7的语音合成信息编辑设备，其中在更新特征的时间变化时，编辑处理单元将音素信息所表示的音素发声区间内的编辑点在时间轴上的位置移动一个取决于音素类型的量。

9.根据权利要求8的语音合成信息编辑设备，其中编辑处理单元将音素发声区间内的编辑点的位置移动一个取决于音素类型的量，使得针对元音类型的音素的编辑点的移动量不同于针对辅音类型的音素的编辑点的移动量。

10.根据权利要求1至5中任一项的语音合成信息编辑设备，其中编辑处理单元针对由音素信息指示的多个音素中的多个特定音素来将扩展/压缩度设置为相同值。

11.一种语音合成信息编辑设备，包括：

音素存储单元，其存储音素信息，所述音素信息指示构成要合成的语音的在时间轴上排列的多个音素；

特征存储单元，其存储特征信息，所述特征信息指示位于排列在时间轴上、并且分配给各音素的各编辑点处的语音的特征；和

编辑处理单元，其将处在音素发声区间内的编辑点在时间轴上的位置在时间轴的方向上移动一个取决于音素类型的量。

12.根据权利要求11的语音合成信息编辑设备，其中编辑处理单元将音素发声区间内的编辑点的位置移动一个取决于音素类型的量，使得针对元音类型的音素的编辑点的移动量不同于针对辅音类型的音素的编辑点的移动量。

13.一种语音合成信息编辑方法，包括：

提供音素信息，其指示要合成的语音的每个音素的持续时间；

提供特征信息，其指示语音特征的时间变化；和

根据扩展/压缩度改变由所述音素信息指示的每个音素的持续时间，所述扩展/压缩度取决于与音素对应的特征信息所指示的特征。

14.一种语音合成信息编辑方法，包括：

提供音素信息，其指示构成要合成的语音的在时间轴上排列的多个音素；

提供特征信息，其指示位于排列在时间轴上、并且分配给各音素的各编辑点处的语音的特征；以及

将处在音素发声区间内的编辑点在时间轴上的位置在时间轴的方向上移动一个取决于音素类型的量。