CN1269104C

CN1269104C - 语音合成方法和语音合成设备

Info

Publication number: CN1269104C
Application number: CNB038061244A
Authority: CN
Inventors: 陸野将弘; 深田俊明
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-04-02
Filing date: 2003-04-02
Publication date: 2006-08-09
Anticipated expiration: 2023-04-02
Also published as: KR100591655B1; EP1490861B1; ES2316786T3; KR20040086432A; EP1490861A1; EP1490861A4; WO2003088208A1; US20050065795A1; US7487093B2; AU2003226446A1; JP2003295882A; DE60325191D1; CN1643572A

Abstract

在一种语音合成设备中，通过用例如开始标记“<morphing type＝‘emotion’start＝‘happy’end＝‘angry’>”和结束标记</morphing>来限定要输出的输入文本的所需范围，连续地改变合成语音的特征，在输出合成语音时将语音从愉快的语音逐渐变化为愤怒的语音。

Description

语音合成方法和语音合成设备

技术领域

本发明涉及从扬声器将输入的句子(文本)作为合成语音输出的语音合成设备的技术领域。

背景技术

已经提出过将输入的句子(文本)作为合成语音(合成声音，合成话语)从扬声器输出的语音合成设备。

为了用这样的设备从文本产生表达丰富的合成语音，必须给定关于力度、速度、音调等的控制信息，以便作为听者的用户能够听到自然的语音。

为此，即使基于包含在文本字符串中的预定规则输出合成语音时，也尝试向该文本添加所需的语言信息。

在这种情况下，被赋予该文本的附加信息使用这样的格式：使用标记限定附加信息的边界，所述标记例如表示为“<>”，就如在所谓的HTML(超文本标记语言)中使用的标记那样。并且提出了一种使用这些标记的控制与输入的文本对应的合成语音音调的方法。

但是，在这种传统的标记方法中，由于对各离散单元比如句子、单词等设置标记以设置预定的固定值，要被实际输出的合成语音只是被施加了离散的变化，而该方法的目的本来是要输出与输入文本中的各种字符和单词对应的合成语音，同时连续地改变适当的语调。结果，对于听者来说合成语音并不自然。

作为一种连续改变语音的特定语调的技术，日本专利公开No.9-244693提出了一种语音变态方法。但是，使用这种方法，只能对音调模式进行内插。

另外，使用这些方法，当要连续改变输入文本中由标记限定的部分的合成语音时，必须充分地分配标记，以改变合成语音的各点。这样，标记操作很麻烦，因而只能获得离散的变化。

发明内容

本发明的提出就是为了解决上述传统中的问题，目的在于连续和容易地改变所需范围内的合成语音的特征。

为了实现上述目的，本发明的语音合成方法的特征在于以下方案。也就是，提供了一种用于合成语音波形的语音合成方法，以在输出对应于输入的文本的合成语音时，连续地改变包括在输入的文本中、被分配了预定标识符的范围的合成语音的特征，该方法的特征在于包括：

设置步骤，使用预定的包括属性信息的标识符设置要输出的文本的所需范围，在该范围中的合成语音的特征要被连续地改变，所述属性信息表示合成语音的所述特征的变化模式；识别步骤，从带有在所述设置步骤设置的标识符的文本识别所述预定标识符以及包含在该预定标识符中的属性信息的类型；以及语音合成步骤，根据所述识别步骤的识别结果，对带有所述标识符的文本在所需范围内的文本所对应的合成语音进行内插，从而根据包含在所述预定标识符中的属性信息合成具有连续变化的合成语音特征的语音波形。

在一个优选实施例中，包含在所述预定标识符中的所述属性信息表示在所述标识符设置的所述范围的开始位置处，合成语音的特征的变化模式，以及在结束位置处合成语音的特征的变化模式。

例如，由所述属性信息表示的合成语音的特征的变化模式是下述中的至少一个：音量的变化，发话者的变化，输出设备的变化，发话者数目的变化，情绪的变化，语速的变化，以及基频的变化。

例如，语音合成步骤包括下述步骤：基于预定标识符所包含的与标识符设置的范围的开始和结束位置相关的属性信息，以及所述开始位置之前合成语音的特征的模式，产生所需范围内文本所对应的合成语音。

更具体地说，所述语音合成步骤最好包括下述步骤：

根据被设置为与开始位置和结束位置相关的属性信息的表示语速的值与表示所述开始位置之前的语速的值的比，产生与所需范围内的文本对应的合成语音，或者：

根据被设置为与开始位置和结束位置相关的属性信息的表示音量的值与表示所述开始位置之前的音量的值的比，产生与所需范围内的文本对应的合成语音。

或者，为了达到上述目的，提供了一种用于语音合成的文本结构，其中，分配预定的标识符，以改变要通过语音合成输出的文本的所需范围的合成语音的特征，其特征在于所述预定标识符包含表示连续改变所述合成语音特征时的变化模式的属性信息。

注意，上述目的还可以由对应于具有上述方案的语音合成方法的语音合成设备实现。另外，上述目的还可以由使得计算机实现具有上述结构的语音合成方法或者设备的程序代码实现，或者由存储所述程序代码的计算机可读存储介质实现。

结合附图阅读下面的说明可以知道本发明的其它特征和优点。在附图中，相同的附图标记表示相同或者类似的部件。

附图说明

附图构成说明书的一部分，用于图示本发明的实施例，并与说明书一起用来说明本发明的原理。

图1是第一实施例的语音合成设备的框图；

图2是被赋予文本的标记的示例；

图3A和3B是表示第一实施例的语音合成设备的控制过程的流程图；

图4的曲线图用于解释在输出合成语音时对语速进行内插的一个例子；

图5的曲线图用于解释在输出合成语音时对音量进行内插的一个例子；

图6的曲线图用于解释在输出合成语音时对发话者数量进行内插的一个例子；

图7是第二实施例中被分配了文本的标记的示例；

图8是第三实施例中被分配了文本的标记的示例；

图9是表示第三实施例的语音合成设备的控制过程的流程图；

图10是第四实施例中被分配了文本的标记的示例；

图11是第五实施例中被分配了文本的标记的示例；

图12是表示第五实施例的语音合成设备的控制过程的流程图；

图13是第六实施例中被分配了文本的标记的示例；

具体实施方式

下面结合附图详细描述本发明的优选实施例。

(第一实施例)

下面结合图1简要说明根据本实施例的语音合成设备的结构。

图1是第一实施例的语音合成设备的框图。作为可以采用的硬件，可以使用通用信息处理设备比如个人计算机或者类似设备。

见图1，该设备包括用于产生文本体的文本产生模块101，以及通过在该文本的所需位置插入预定标记来产生被标记文本103的标记产生模块102，与要作为语音被输出的被标记文本的产生相关联，该标记产生模块还产生这些标记中的属性。该文本产生模块101基于各种信息源比如邮件消息、新闻文章、杂志、印刷书籍等来产生文本。在这种情况下，用于写入标记和文本的编辑软件没有特别的限制。

注意，所谓“模块”指的是由本实施例的语音合成设备的硬件执行的软件程序的功能单元。

注意，所述文本产生模块101和标记产生模块102既可以是语音合成设备本身的外部模块，也可以是其内部模块。

被标记文本103通过通信线路或者便携式存储介质(CD-R或者类似设备)被输入到文本输入模块104中。被输入到所述文本输入模块104的被标记文本103的文本部分由文本分析模块105加以分析，其标记部分由标记分析模块106加以分析。另外，在本实施例中，由标记属性分析模块107对包含在标记中的属性信息加以分析(详述见后)。

语言处理模块108参考预先存储了语言信息的语言词典110处理输出语音所需的语言信息(例如重音或者类似信息)。语言合成模块109参考预先存储了语调音素(prosodic phoneme)或者类似信息的语调模型/波形词典111，产生表示要实际输出的语音的合成波形，并基于所述合成波形从扬声器(未图示)输出合成语音。

下面描述本实施例的特征结构。

所述标记产生模块102在文本产生模块101产生的文本中插入预定标记和属性。在这个例子中，标记可以插入到用户选择的位置，并可以被分配给合成语音的特征需要象图像处理中的所谓变态(变形，过渡，morphing)那样平滑变化的部分。在每一个标记中，可以写入称为属性的附加信息(属性信息)。更具体地，可以将预定标记“<morphing...>”和“</morphing>”分配给文本(其中排列字符和单词)的合成语音特征需要平滑变化的部分的开始点和结束点，并在每一个标记中写入属性信息，所述属性信息表示要连续改变合成语音特征的对象，换句话说，是写入连续改变所述合成语音特征时的变化模式。

在本实施例中，合成语音特征的变化不仅包括语音的所谓语调，还包括发话者、发话者数量、情绪等。

注意，用户在生成文本时写入属性信息。还有，用户设置标记和标记中的各种属性。注意，标记或者属性值也可以由多功能编辑器等自动地或者半自动地设置。

嵌在每一个标记中的属性信息是表示合成语音特征的，与例如音量、发话者、输出设备、发话者数量、情绪、语速、基频等相关的信息。另外，也可以使用在输出合成语音时可以连续变化(在本实施例中称为“变态”(morphing))的其它事项。设置在文本中的开始点和结束点标记可以具有相同或者不同的属性信息种类。当开始点和结束点具有相同的属性信息时，在实际输出合成语音时，根据开始点标记设置的属性信息输出语音，不改变与该属性信息相关的任何合成语音特征。

如果属性是音量，则嵌在每一标记中的属性信息对应的值是一个数字值。如果属性是发话者，则可以指定男性或者女性，或者发话者的标识号(ID)。

图2图示了被分配给文本的标记的一个例子。在该例子中，要连续改变合成语音特征的范围对应于开始标记″<morphing...>″和结束标记″</morphing>″所限定的范围。开始标记″<morphing...>″中的属性描述作为要连续改变合成语音特征的对象的情绪(emotion)，在开始点(start)的情绪(happy)，以及在结束点(end)的情绪(angry)。这样，当实际输出该文本的合成语音时，当说出所述标记限定的句子时，输出的语音逐渐从愉快(happy)的语音变化到愤怒(angry)的语音。

本实施例的语音合成设备的文本输入模块104接收如上所述被分配了标记的被标记文本103，所述文本分析模块105根据输入的被标记文本103的格式和文本标题字段(header field)中的信息获取与文本的类型、内容等相关的信息。

所述标记分析模块106确定嵌在输入的被标记文本103中的标记的类型。标记属性分析模块107分析在标记中描述的属性和属性值。

所述语言处理模块108和语音合成模块109基于所述标记属性分析模块107获取的属性值，将从所述语调模型/波形词典111读出的数据处理为对应于所述文本分析模块105所分析的文本的音素，从而产生要输出的语音波形，并根据该语音波形输出合成语音(注意，基于属性值的处理在下面描述)。

下面结合图3A和图3B说明用标记分析模块106提取″<morphing>...</morphing>″标记中的属性值的方法。

图3A和图3B是表示第一实施例的语音合成设备的控制过程的流程图，也就是要由该设备的CPU(未图示)执行的处理的序列。

现在看图3A和图3B。由文本分析模块105、标记分析模块106和标记属性分析模块107对文本输入模块104输入的被标记文本103进行文本分析、标记分析和标记属性分析(步骤S301到S303)。

检查开始标记″<morphing...>″是否包括对象以及开始和结束点(步骤S304)。首先检查是否包括要变态(be morphed)的属性值。如果没有找到要变态的属性值，则根据在该标记之前朗读句子的语音来朗读由所述开始和结束标记限定的字符和单词(步骤S305)。相反，如果找到了要变态的属性值，则检查是否找到了开始和结束点的任一属性(步骤S306)。如果开始和结束点都没有属性，则使用一种根据要变态的默认属性值的合成音调读出由所述开始和结束标记限定的字符和单词(步骤S307)。所述要变态的默认属性值是预先设置的。另一方面，如果开始或者结束点具有属性值，则检查是否是开始点的属性值(步骤S308)。如果不是开始点的属性值，则检查结束点的属性值和要被变态的属性值是否匹配，从而判断它们是否有效(匹配)(步骤S309)。如果两个值匹配，则使用结束点的属性值(步骤S311)。在步骤S309，例如，如果要被变态的对象是音量，则检查结束点的属性值是否是音量值，如果匹配的话，则基于结束点的信息读出开始标记和结束标记所限定的字符和单词；如果不匹配，则用与对象的属性值对应的预先准备的默认合成音调来读出开始和结束标记所限定的字符和单词(步骤S310)。

如果在步骤S308判定开始点具有一个属性值，并且结束点没有属性值，则根据开始点的属性值读出文本(步骤S312，步骤S315)。在这种情况下，类似地检查对象的有效性，如果两个值匹配，则根据开始点的属性值读出文本(步骤S313，步骤S314)。

如果开始点和结束点都有属性值，并且它们针对对象的值是有效的(匹配)，则基于所述属性值进行内插之后输出合成音调(步骤S316，S320)。也就是，如果对象是音量，则仅当开始点和结束点都采用了音量值时才判定开始点和结束点的属性值是有效的。例如，如果开始点和结束点的属性值不同(例如，开始点是音量值，结束点是情绪)，则使用与对象匹配的属性值(步骤S317，步骤S319)。如果开始和结束点的属性值不同，并且也不同于要变态的对象，则用对应于对象的属性值的默认合成音调读出由所述开始和结束标记所限定的字符和单词(步骤S318)。当被检查的标记具有不同的属性值时，语音输出的优先顺序是″对象(object)″>″开始点(start point)″>″结束点(end point)″。

下面结合图4描述基于属性值进行的作为语音生成的序列的内插。

图4是一个曲线图，用于解释对输出合成语音时的语速进行内插的例子。

作为内插方法的一种例子，当要对语速进行内插时，根据要输出的文本计算输出全文本(图4中的a，i，u，e)的波形所需的时间，还计算构成该文本的各音素的时间长度t。在本实施例中，由于预先在语调模型/波形词典111中登记了标准语音模型和语音波形，可以通过计算从所述语调模型/波形词典111读出的合成语音的输出所需的各音素(图4中的a，i，u，e)的时间长度t的和，来计算要输出的全文本的波形的输出所需的时间。

然后，计算被设置为开始和结束点的属性值的值和当前语速之间的比r。在这种情况下，如果被设置为开始点和结束点的属性值的值等于当前速度，由于r＝1，就不需要进行该内插过程。

基于计算出的比值，通过“内插值＝t×r”来计算每一个音素的内插函数。通过根据计算出的内插值来缩短或者延迟波形的时间长度来改变语速。或者，可以进行一个改变与每一个音素的特定特征部分对应的时间长度的过程。

在进行音量的内插时，象在语速的内插中一样，根据该文本使用构成要输出的文本(图5中的a，i，u，e)的各音素的时间长度t。然后，计算被设置为开始和结束点的属性值的值和当前音量之间的比r’。

图5是用于解释输出合成语音时音量的内插的曲线图。在图5中，用“内插值＝f×r’”来计算内插函数。注意，f是从音素/波形词典111获得的合成语音波形的幅度。

根据计算出来的内插值，减小或者扩展幅度f。也可以不改变幅度，采用直接改变输出硬件的音量的方法。同样的方法适用于基频。

另外，通过对情绪或者发声风格进行内插，可以对被设置为要输出的文本的开始和结束点的属性值的值所对应的语音合成数据进行内插，从而产生合成语音。

例如，在一种基于波形编辑方法比如PSOLA或者类似方法的语音合成方法中，对于所需的持续时间长度和基频，对语音波形词典中对应于在要输出的文本的开始点设置的情绪的语音片断，以及语音波形词典中对应于在结束点位置设置的情绪的语音片断，进行PSOLA处理，从而根据以与音量相同的方式获得的内插函数，对所述语音波形片断或者合成语音波形进行内插。

另外，在基于参数分析合成方法比如对数倒频谱(cepstrum)等的语音合成方法中，对从语音波形词典获得的对应于在要输出的文本的开始位置设置的情绪的参数序列，以及从语音波形词典获得的对应于在结束位置设置的情绪的参数序列，进行内插以产生一个参数，用该参数产生对应于所需的持续时间长度和基频的合成语音。

另外，比如在从男声到女声的变化中，可以用类似的方法在发话者之间进行内插。另外，当输出设备包括立体声扬声器时，输出可以从左扬声器连续变化到右扬声器。或者，当输出设备包括耳机和外部扬声器时，输出可以从耳机连续变化到外部扬声器。

在对发话者数量(说话的人的数量)进行内插时，计算如图6所示的内插函数。

图6是用于解释在输出合成语音时对发话者数量进行内插的例子。在图6所示的例子中，实施了从一个发话者到五个发话者的变化。在这个例子中，从要输出的文本获得波形的持续时间被分为五段。每当过去一个分割的时间段时，发话者数量就增加一个，并基于图6所示的内插函数(一个在0和1之间变化的函数)改变合成音调的音量。另外，对波形电平(波形声平，waveform level)进行归一化，以防止幅度超过预定值。

注意，发话者添加的顺序可以是预定顺序或者随机顺序。

在本实施例中，根据执行上述各种内插处理而得到的语音波形输出合成语音。这样，与传统的语音合成设备(其中，合成语音的特征的变化是离散的)相比，可以实现自然的合成语音，也就是，其合成语音特征是连续变化的。

(第二实施例)

下面描述上述第一实施例的语音合成设备的第二实施例。在下面的说明中，对与第一实施例中相同的部件的重复描述被省略了，只是主要描述本实施例的不一样的特征。

在本实施例中，除了与第一实施例一样的两个标记″<morphing...>″和″</norphing>”之外，被包含在被标记文本103中的预定标记采用一种标记嵌套结构，如图7所示，从而设置多个要变化的对象。使用这种嵌套结构，可以实现改变多个对象的语音合成变态。也就是，在图7所示的例子中，要作为合成语音输出的文本发声时的合成语音特征一开始是大音量的愉快的语调，然后变为愤怒的语调，同时音量比最初变小了。

由于其它方面与第一实施例是一样的，因此省略了重复的说明。

根据具有上述方案的本实施例，可以连续而容易地改变要输出的文本的所需范围的合成语音特征。

(第三实施例)

下面描述基于上述第一实施例的语音合成设备的第三实施例。在下面的说明中，对与第一实施例中相同的部件的重复描述被省略了，只是主要描述本实施例的不一样的特征。

在上述第一和第二实施例中，包含在开始标记″<morphing...>”中的属性信息描述要连续改变合成语音特征的对象，以及该对象的开始和结束点的属性值。相反，在第三实施例中，开始标记″<morphing...>″描述要在开始和结束点变化的对象的标签(label)。

图8图示了第三实施例中被分配给文本的标记的一个例子，被标记限定的文本本身与图7所示的第二实施例是一样的。在本实施例中，要改变的对象是情绪(emotion)。这样，开始和结束点描绘了要被改变的对象的标签″emotionstart″和″emotionend″。由于第三实施例的语音合成设备的结构与第一实施例是一样的，因此省略了重复的说明。下面描述第一和第三实施例之间的区别。

与第一实施例中一样，文本分析模块105基于文本的格式和标题信息分析输入的被标记文本103的类型、内容等，从而获得与它们相关的信息。标记分析模块105判断嵌在文本中的标记的类型。标记属性分析模块107分析所述标记中描述的属性和属性值。在本实施例中，只分析开始点和结束点，所述标记属性分析模块107检查开始和结束点的对象。语音合成模块109基于标记属性分析模块107获得的属性值进行内插，根据作为内插的结果获得的语音波形产生对应于文本内容的合成语音。

由于嵌在每一个标记中的属性信息具有与第一实施例相同的结构，省略其重复说明。下面说明第一和第三实施例之间的区别。这就是，在描述作为合成语音特征要连续变化的对象的情绪(emotion)、开始点(start)的情绪和结束点(end)的情绪时，开始点被分配一个要变化的对象的标签″emotionstart″，结束点被分配一个要变化的对象的标签“emotionend″。在本实施例中，由于，与标签格式的这种变化相应，排除过程部分地不同，下面结合图9来说明这种差异。

图9的流程图图解了第三实施例中的语音合成设备的控制过程，也就是由该设备的CPU(未图示)执行的过程序列。

见图9，由文本分析模块105、标记分析模块106和标记属性分析模块107对文本输入模块104输入的被标记文本103进行文本分析、标记分析和标记属性分析(步骤S901到S903)。

检查开始标记″<morphing...>″是否包括开始和结束点。检查是否开始点或者结束点具有属性(步骤S904)。如果开始点和结束点都没有属性值，则根据在该标记之前朗读句子的语音来朗读文本(步骤S905)。然后检查开始点是否具有属性值，如果开始点没有属性值，则使用结束点的属性值(步骤S906，S907)。相反，如果开始点具有属性值而结束点没有属性值，则根据开始点的属性值读出文本(步骤S908，S909)。如果开始点和结束点都有属性值，并且它们不是不相同，则基于这些属性值进行内插，输出合成语音(步骤S910，5912)。

作为开始点和结束点的属性值，如果要连续改变合成语音特征的对象是音量，则开始点和结束点都应采用音量值。如果开始点和结束点的属性值的类型不同(例如开始点是音量值，结束点是情绪)，则使用开始点的属性值(步骤S911)。当标记具有错误的属性值时，语音输出的优先顺序是：开始点的指定>结束点的指定。

(第四实施例)

下面描述基于上述第一实施例的语音合成设备的第四实施例。在下面的说明中，对与第一实施例中相同的部件的重复描述被省略了，只是主要描述本实施例的不一样的特征。

在第一到第三实施例中，变态的变化是恒定的，也就是，取决于变态算法本身的变化率。但是，第四实施例的特征在于也可以添加用于变态变化的属性。图10图示了该例子。

图10图示了第四实施例中被分配给文本的标记的例子。在该实施例中，在开始标记″<morphing...>″中的属性中还设置用于变态的变化率的属性信息。作为表示变态的变化率的属性值，在“function(函数)”中设置在变化中使用的函数类型，比如线性(linear)、非线性(non-linear)算法等。

在本实施例中，在分析标记时，标记属性分析模块107不仅分析对象和开始点、结束点，而且根据表示变态的变化率的属性值分析变态变化的属性。作为分析的结果，如果在“function”字段中描述了属性值比如线性、非线性算法等，则根据该属性值给出的变化率进行内插，并根据内插获得的合成波形输出合成语音。另一方面，如果没有描述该属性值，则根据由变态算法(morphing algorithm)预先确定的变化方法进行内插。

(第五实施例)

下面描述基于上述第一实施例的语音合成设备的第五实施例。在下面的说明中，对与第一实施例中相同的部件的重复描述被省略了，只是主要描述本实施例的不一样的特征。

在第一到第三实施例中，变态的变化是恒定的，也就是，取决于变态算法本身的变化率。但是，第五实施例的特征在于也可以在标记中单独地添加用于变态变化的属性。图11图示了该例子。

图11图示了第五实施例中被分配给文本的标记的例子。在该实施例中，在由″<morphing...>...</morphing>”标记限定的文本中进一步插入用于变态变化的中间标记。

在本实施例中，在分析标记时，标记分析模块106不仅分析″<morphing>″标记，而且分析产生变态变化的中间标记。中间标记使用诸如″<rate value＝“*.*”/>”之类的标记，在“value(值)”属性字段中描述从0到1的变化率。然后，将这样的中间标记单独地嵌入合成语音特征要连续变化的文本中的所需位置。这样，在内插之后实际输出合成语音时，合成语音的特征可以有更复杂的变化，如图12所示。

需要注意的是，插有标记比如″<rate value＝″*.*″/>″的每一部分的顺序之所以如图11所示，是因为在从原始日本申请翻译为英文的PCT申请时，日文和英文之间的词序不同。因此图12中的曲线图也是按照图11的方式安排的，以便清楚而适当地解释本发明。

当也指定了在第四实施例中使用的用于变态变化的函数“function”时，早先指定的函数被用作从给定的″<rate/>″标记到下一个″<rate/>″标记的内插函数。

(第六实施例)

下面描述基于上述第一实施例的语音合成设备的第六实施例。在下面的说明中，对与第一实施例中相同的部件的重复描述被省略了，只是主要描述本实施例的不一样的特征。

在前述各实施例中，开始点和结束点的属性值是在开始标记″<morphing...>″中设置的。但是，在本实施例中，结束点的属性值在标记的结束部分设置，如图13所示。

图13图示了第六实施例中被分配给文本的标记的一个例子。

在第一实施例的标记结构中，描述了″<morphing type＝″emotion″start＝″happy″>″，作为开始标记″<morphing...>″中的开始点和对象的属性，并在结束标记中描述结束点的属性，比如″</morphing end＝″angry″>″。相反，在本实施例中，在开始标记中描述″<morphing emotionstart＝″happy″>″，在结束标记中描述″</morphing emotionend＝″angry″>″。当在本实施例中指定第四实施例的内插函数时，在开始标记中对其进行描述。

(第七实施例)

在本实施例中，如果标记中的开始点和结束点的属性相互不同，则判定出错，禁止随后的处理，这与上述其它实施例不同。

下面以第一实施例的标记结构作为例子。也就是，如果“start”和“end”的属性相互不同，比如″<morphing type＝″emotion″start＝″happy″end＝10”>”，则判定出错，不进行处理。

如果开始点和结束点都没有属性或者如果开始点和结束点之一没有属性，则执行与第一实施例相同的处理。在第三实施例中，如果开始点和结束点都没有属性或者如果开始点和结束点之一没有属性，则执行与第三实施例相同的处理。

由于其它方面与第五实施例是一样的，因此省略了重复的说明。

(第八实施例)

下面描述基于上述第一实施例的语音合成设备的第八实施例。在下面的说明中，对与第一实施例中相同的部件的重复描述被省略了，只是主要描述本实施例的不一样的特征。

在前述各实施例中，即使在要被设置在标记中的多个属性信息中的至少一个没有被找到时，也输出合成语音。但是，在本实施例中，当开始点和结束点的属性相互不同时，以及当开始点和结束点的属性与对象的属性不同时，判定出错，不进行处理。

由于其它方面与第一到第七实施例是一样的，因此省略了重复的说明。

因此，根据前述各实施例，通过用标记限定输入文本的要被输出的所需范围，能够在输出合成语音时象在变态(morphing)中那样连续地改变合成语音的特征，从而，与产生离散的语音的现有技术不同，对于听者来说，可以实现自然的文本到语音的转换功能。

(其它实施例)

上面已经描述了本发明的优选实施例。本发明可以应用于由多个设备构成的系统或者由单个装置构成的设备。

注意，本发明包括这样的情况：通过向系统或者设备直接或者远程地提供实现前述各实施例的功能的软件程序，并由该系统或者设备的计算机读出和执行所提供的程序代码，从而实现本发明。在这种情况下，只要具有程序的功能，形式上不限于程序。

因此，安装在计算机中的用以使用计算机实现本发明的功能过程的程序代码本身实现本发明。也就是，本发明的权利要求包括用以实现本发明的功能处理的计算机程序本身。

在这种情况下，所述程序的形式没有限制，只要具有程序功能，可以使用目标代码、由解释器执行的程序、要提供给OS的脚本数据，等等。

作为提供所述程序的记录介质，例如，可以使用软盘、硬盘、光盘、磁光盘、MO、CD-ROM、CD-R、CD-RW、磁带、非易失性存储卡、ROM、DVD(DVD-ROM，DVD-R)等等。

作为另一种程序提供方法，可以以下述方式提供所述程序：用客户计算机上的浏览器建立到因特网上的主页的连接，从所述主页将本发明的计算机程序本身或者包含自动安装功能的压缩文件下载到记录介质比如硬盘等上。

另外，构成本发明的程序的程序代码可以被分割为多个文件，这些文件可以从不同的主页下载。也就是，本发明的权利要求包括使得多个用户能够下载由计算机实现本发明的功能处理所需的程序文件的WWW(万维网)服务器。

另外，还可以将存储本发明的加密程序的存储介质比如CD-ROM等发送给用户，完成了预定条件的用户可以通过因特网从主页下载用来将所述程序解密的密钥信息，可以使用所述密钥信息执行所述加密程序以安装到计算机上，从而实现本发明。

上述各实施例的功能不仅可以由计算机执行读出的程序代码来实现，而且可以基于所述程序的指令，由在计算机上运行的OS等执行部分或者全部实际处理操作。

另外，还可以在将从所述记录介质读出的程序写入插入或者连接到计算机的功能扩展板或者功能扩展单元的存储器中之后，由功能扩展板或者功能扩展单元中设置的CPU等执行部分或者全部实际处理，以实现前述各实施例的功能。

如上所述，根据上述各实施例，可以连续而容易地改变要输出的文本的所需范围的合成语音特征。

由于可以做出本发明的许多范围广泛的不同实施例而不脱离本发明的实质精神和范围，应当理解，本发明不限于这里的特定实施例，而应由所附权利要求限定其范围。

Claims

1.一种用于合成语音波形的语音合成方法，用以在输出对应于输入的文本的合成语音时，连续地改变被包括在输入的文本中、被分配了预定标识符的范围的合成语音的特征，该方法的特征在于包括：

设置步骤，使用预定的包括属性信息的标识符设置要输出的文本的所需范围，在该范围中的合成语音的特征要被连续地改变，所述属性信息表示合成语音的所述特征的变化模式；

识别步骤，从带有在所述设置步骤设置的标识符的文本识别所述预定标识符以及包含在该预定标识符中的属性信息的类型；以及

语音合成步骤，根据所述识别步骤的识别结果，对带有所述标识符的文本的所需范围内的文本所对应的合成语音进行内插，从而根据包含在所述预定标识符中的属性信息合成具有连续变化的合成语音特征的语音波形，

其中，所述合成语音的特征的变化模式是下述中的至少一个：语速的变化，音量的变化，发话者的变化，输出设备的变化，发话者数目的变化，以及情绪的变化。

2.如权利要求1所述的语音合成方法，其特征在于，包含在所述预定标识符中的所述属性信息表示在所述标识符设置的所述范围的开始位置处，合成语音的特征的变化模式，以及在结束位置处合成语音的特征的变化模式。

3.如权利要求1所述的语音合成方法，其特征在于所述语音合成步骤包括下述步骤：

基于预定标识符所包含的与标识符设置的范围的开始和结束位置相关的属性信息，以及所述开始位置之前合成语音的特征的模式，产生所需范围内文本所对应的合成语音。

4.如权利要求3所述的语音合成方法，其中，所述合成语音的特征的变化模式包括语速的变化，并且所述语音合成步骤包括下述步骤：根据被设置为与开始位置和结束位置相关的属性信息的表示语速的值与表示所述开始位置之前的语速的值的比，产生与所需范围内的文本对应的合成语音。

5.如权利要求3所述的语音合成方法，其中，所述合成语音的特征的变化模式包括音量的变化，并且所述语音合成步骤包括下述步骤：根据被设置为与开始位置和结束位置相关的属性信息的表示音量的值与表示所述开始位置之前的音量的值的比，产生与所需范围内的文本对应的合成语音。

6.一种用于合成语音波形的语音合成设备，用以在输出对应于输入的文本的合成语音时，连续地改变被包括在输入的文本中、被分配了预定标识符的范围的合成语音的特征，该设备的特征在于包括：

识别装置，从带有标识符的文本识别所述预定标识符以及包含在该预定标识符中的属性信息的类型，所述预定标识符表示要连续改变合成语音的特征的所需范围，并包含表示所述合成语音特征的变化模式的属性信息；以及

语音合成装置，根据所述识别装置的识别结果，对带有所述标识符的文本的所需范围内的文本所对应的合成语音进行内插，从而根据包含在所述预定标识符中的属性信息合成具有连续变化的合成语音特征的语音波形，