CN106898345A

CN106898345A - 语音合成方法及语音合成装置

Info

Publication number: CN106898345A
Application number: CN201611180346.XA
Authority: CN
Inventors: 石川克己; 大岛治; 赤泽英治; 山本尚希; 村上祐辉
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-12-18
Filing date: 2016-12-19
Publication date: 2017-06-27
Also published as: US20170178622A1; JP6784022B2; JP2017111372A; US10204617B2

Abstract

本申请提供了语音合成方法及语音合成装置，其确定是否已经满足关于信息处理的预定条件，当已经满足该预定条件时改变发声字符，并且产生通过使已经改变的发声字符发声而获得的合成语音的声音信号。

Description

语音合成方法及语音合成装置

技术领域

本发明涉及语音合成控制。

背景技术

用于对从给定字符串(例如歌词)的发声获得的语音的合成的技术已经被提出了。例如，日本专利申请公开No.2013-205638公开了一种用于对通过歌唱具有由用户选择的歌词的乐曲而获得的歌声进行合成的技术。

当仅通过发声预先准备的歌词来产生合成语音时，对于由此产生的被听众所感知的合成语音而言存在听起来单调的趋势。虽然通过预先准备许多组不同的歌词能够在某种程度上克服这个问题，从而能够产生具有不同歌词的各种合成语音，但是该技术的固有问题在于，预先准备多组歌词会产生过多的工作负荷。

发明内容

鉴于上述问题，本发明的目的在于容易地产生具有丰富的发音内容的合成语音。

鉴于现有技术的问题，作为本发明的一个方面，提供了由计算机执行的语音合成方法，该方法包括：确定是否已经满足关于信息处理的预定条件；当已经满足预定条件时改变发声字符；以及产生通过发声已经改变的发声字符而获得的合成语音的声音信号。

根据本发明的另一方面的语音合成方法由计算机执行，并且该方法可包括：根据当已经满足关于信息处理预定条件时所确定的改变内容来改变发声字符；以及产生通过发声已经改变的发声字符而获得的合成语音的声音信号。

根据本发明的又一方面的语音合成装置可包括：合成管理器，其配置为根据当已经满足关于信息处理的预定条件时所确定的改变内容来改变发声字符；以及语音合成器，其配置为产生通过发声已经改变的发声字符而获得的合成语音的声音信号。

附图说明

图1是示出根据第一实施例的信息处理装置的配置的示意图。

图2是一组语音合成数据的示意图。

图3是示出信息处理装置的配置的示意图，其重点在于装置的功能。

图4是根据第一实施例的字符串改变的示意图。

图5是示出信息处理装置的整体操作的流程的流程图。

图6是示出根据第二实施例的操作的流程的流程图。

图7是根据第三实施例的发声字符串中的改变的示意图。

图8是根据第三实施例的变形例的发声字符串中的改变的示意图。

图9是根据第四实施例的发声字符串中的改变的示意图。

具体实施方式

第一实施例

图1是示出根据本发明的第一实施例的信息处理装置100的配置的示意图。第一实施例的信息处理装置100是产生表示合成语音的声音信号V的信号处理装置。信号处理装置100由包括控制装置10、存储装置12、显示装置14、输入装置16和发声装置18的计算机系统实现。例如，便携式终端装置(比如，移动电话或智能电话)以及便携式或固定的终端装置(比如，个人计算机)可用作为信息处理装置100。第一实施例的信息处理装置100产生从被歌唱的特定乐曲(在下文中称为“目标乐曲”)中获得的语音的声音信号V。信息处理装置100可形成为集成装置(即，作为单个单元)，或者可替换地，其可由例如计算机系统中的各自独立配置的多个离散装置形成。

控制装置10是集成了对信息处理装置100的不同元件的控制的计算机，并且可通过使用例如中央处理单元(CPU)来实现。显示装置14(例如，液晶显示面板)显示由控制装置100命令的画面。输入装置16是能够接收来自用户的指令的用户接口，并且例如通过能够检测用户操作的多个操作器的实施，或者通过使用能够在用户触摸显示装置14的显示屏时进行检测的触摸面板来对其进行配置。发声装置18(例如，扬声器或耳机)播放与由信息处理装置100产生的声音信号V相对应的合成语音。为了鉴于本领域中的常识便于描述，附图中已经省略了将声音信号V由数字信号转换成模拟信号的D/A转换器的描述和细节。

存储装置12将由控制装置10执行的程序与由控制装置10使用的各种数据一起存储起来。例如，可自由地选择公知记录介质(比如，半导体记录介质或磁记录介质，或者多种类型的记录介质的组合)以用作为存储装置12。还可以配置独立于信息处理装置100的存储装置的存储装置12(例如，云存储)，并且实施控制装置10，以便经由通信网络(比如，移动通信网络或者互联网)从存储装置12中读取信息以及向存储装置12中写入信息。换言之，可以可选地将存储装置12从信息处理装置100的内含物中省略。

第一实施例的存储装置12存储声音单元组L和语音合成数据D。声音单元组L是预先从特定个人的语音中记录的多个声音单元的集合(语音合成库)。每个声音单元是一个音素(例如，元音或辅音)或者在其中多个音素连接在一起的音素链(例如，双音素或三音素)。声音单元存储在存储装置12中，并且每个声音单元能够被存储为例如表示频域中的频谱或者表示时域中的波形的数据。

语音合成数据D是用于指定作为语音合成的目标的目标语音的时间序列数据。在图2中，以时间序列的方式示出了k段单元数据U，其中k表示等于或大于1的整数，其中每段单元数据U与目标乐曲中的音符相对应，每个音符不同于其他音符。每段单元数据U与给定的音符相对应，并且每个音符包括以下特性：该音符的音调N(N1、N2、N3、…、或Nk)、发声持续时间T(T1、T2、T3、…、或Tk)和发声字符Q(Q1、Q2、Q3、…、或Qk)。音调N是例如符合乐器数字接口(MIDI)标准的音符编号。发声持续时间T是目标乐曲中对应音符被发声的持续时间，并且例如通过音符的开始和结束或通过音符的持续时间(连续时间长度)来指定。从上述说明可以理解，横跨多段单元数据U的音调N和发声持续时间T的时间序列与组成目标乐曲的音符序列相对应。

发声字符Q是表示合成语音的发声内容(即，歌词)的代码。使用字素或语音符号来指定给定的发声字符Q。语音符号是表示诸如元音或者辅音成分的音素的符号，并且例如以符合扩展语音评估方法语音字母表(X-SAMPA)的格式表示。在下面给定的说明中，符合X-SAMPA的语音符号附在方括号中。如图2中所示，与k段单元数据U相对应的发声字符Q的时间序列(在下文中称为“发声字符串W”)组成目标乐曲的歌词。

如图1中所示，第一实施例的存储装置12中存储有程序P。程序P是用于针对特定目的而执行信息处理的软件程序，并且例如从分配装置(比如网络服务器)处被分配后经由通信网络转移至存储装置12。也可以将存储在诸如半导体记录介质或光盘的便携式记录介质中的程序P转移至存储装置12。

第一实施例的程序P包括控制程序PA和语音合成程序PB。控制程序PA是实现针对特定目的的信息处理的程序模块(应用程序)。语音合成程序PB是用于在控制程序PA的控制下产生合成语音的声音信号V的程序模块。语音合成程序PB是例如作为用于开发控制程序PA的软件开发包(SDK)而提供的插件模块。

图3是示出信息处理装置100的配置的示意图，其重点在于其功能。如图3中所示，通过由控制装置10执行程序P来实现多个功能(回放控制器22、信息处理器24、条件确定器26、改变决定器28、合成管理器32和语音合成器34)。更具体地，通过控制装置10和控制程序PA之间的协调来实现回放控制器22、信息处理器24、条件确定器26和改变决定器28，并且通过控制装置10和语音合成程序PB之间的协调来实现合成管理器32和语音合成器34。本实施例可采用这样一种配置，其中在多个离散装置(即，计算机系统)中实现控制装置10的功能，或者这样一种配置，其中将控制装置10的一部分功能分配给专用的电子电路。

图3中的合成管理器32是顺序地处理语音合成数据D的k段单元数据U中的每一个的定序器。语音合成器34产生与由语音合成数据D指定的发声字符串W相对应的合成语音的声音信号V，这通过语音合成多段单元数据U来实现，每段单元数据U被合成管理器32顺序地处理。第一实施例的语音合成器34通过采用拼接语音合成处理来产生声音信号V，通过该拼接语音合成处理将所选择的存储在存储装置12中的声音单元组L中的声音单元进行拼接。更具体地，每当合成管理器32处理一段单元数据U时，语音合成器34就从声音单元组L中选择与由该段单元数据U指定的发声字符Q相对应的声音单元，并且在对由该段单元数据U指定的对应音调N和发声持续时间T进行调整之后，将所选择的声音单元进行拼接，从而产生声音信号V。语音合成器34产生声音信号V的方法(语音合成处理)不限于上述示例。例如，可以通过使用了诸如隐马尔可夫模型的统计模型的语音合成来产生与发声字符串W相对应的声音信号V。

回放控制器22通过向发声装置18提供由语音合成器34产生的声音信号V来使发声装置18播放合成的语音。回放控制器22还可以执行能够赋予声音信号V各种声音效果(比如，回音效果)的效果处理或使目标乐曲的伴奏与合成的语音同步的伴奏回放处理。

信息处理器24执行各种类型的信息处理。第一实施例的信息处理器24执行例如针对在其中由用户操作的人物出现在虚拟空间中的视频游戏的信息处理(游戏处理)，并且同时使显示装置14显示与处理结果相对应的游戏画面。更具体地，信息处理器24控制与人物状态相关的各种参数(在下文中称为“状态参数”)，以便根据游戏的进程可变；其中，游戏根据由用户输入至输入装置16中的指令来进行。状态参数的示例包括：表示人物能力是高还是低的技能等级；表示该人物的疲劳程度的疲劳等级；以及表示存在于该人物中的特定情感的水平的情感值。例如，在第一实施例中播放的合成语音是由虚拟空间中的人物发声的歌声。在这种情况下，信息处理器24命令语音处理器34在与游戏中的进程点相关的定时处执行语音处理。

条件确定器26确定是否已经满足关于由信息处理器24执行的信息处理的预定条件(在下文中称为“特定条件”)。作为示例，第一实施例中给定的特定条件是这样一种情况，其中随着状态参数增加，状态参数超过预定阈值。换言之，条件确定器26在诸如疲劳等级或情感值的状态参数之一降到对应阈值以下时，确定不满足特定条件，并且在该状态参数之一超过对应阈值时，确定满足特定条件。可从状态参数之中选择的另一个特定条件是随着人物技能等级降低而降到预定阈值以下的技能等级。由条件确定器26关于是否已经满足特定条件而做出的确定在例如每个预定时间段处被重复执行。

当条件确定器26确定已经满足特定条件时，改变决定器28产生改变指令X，以改变由存储在存储单元12中的语音合成数据D指定的发声字符串W。换言之，当满足特定条件时，产生改变指令X以用于改变发声字符串W。改变指令X是针对合成管理器32的指令，以改变发声字符串W。更具体地，第一实施例的改变指令X对作为发声字符串W中的改变目标的发声字符Q的位置(在下文中称为“改变位置”)X1进行指定。改变指令X还能够指定改变内容X2，即，与用于改变的原始目标字符的字符不同的字符被指定为要被改变的发声字符Q的字符。

第一实施例的改变决定器28通过参照存储在存储装置12中的改变规则数据C来决定改变位置X1和改变内容X2。改变规则数据C由规定用于改变语音合成数据D中的发声字符串W的规则的数据构成。图4是说明由改变规则数据C指定的发声字符串W的改变规则的示意图。第一实施例的改变规则数据C规定用于改变发声字符串W的规则，使得伴随声音的听众将感知到已经改变了的发声字符串W的合成语音是发声错误(例如，歌唱改变之前的发声字符串W的不正确的歌词)的结果。更具体地，第一实施例的改变规则数据C规定将由辅音和元音两者形成的发声字符Q改变为仅由元音形成的另一个发声字符Q。例如，如图4中所示，改变规则数据C规定将由辅音“s”和元音“a”形成的发声字符Q[sa]改变为仅由元音“a”形成的发声字符Q[a]。根据上述规则，例如，通过省略第一个发声字符Q[sa]的辅音，将发声字符串W(sanpuru：[sa][m][pM][4M])(日语中的“sample(样本)”一词)改变为发声字符串W(anpuru：[a][m][pM][4M])。根据由改变规则数据C规定的规则，图3中的改变决定器28在发声字符串W中搜索将作为改变目标的发声字符Q，将作为目标而发现的发声字符Q的位置确定为改变位置X1，并且确定与由改变规则数据C指定的改变规则相对应的改变内容X2。然后，改变决定器28产生指定如所决定的改变位置X1和改变内容X2的改变指令X。

改变决定器28已经产生的改变指令X被提供至上述合成管理器32。换言之，改变决定器28将改变指令X传输至合成管理器32，并且合成管理器32从该改变决定器28接收该改变指令X。根据该改变指令X，合成管理器32改变存储在存储装置12中的语音合成数据D的发声字符串W。更具体地，合成管理器32在发声字符串W中搜索处于由改变指令X指定的改变位置X1处的发声字符Q，并且根据由改变指令X指定的改变内容X2来改变发声字符Q。例如，如上述图4中所示，将发声字符串W(sanpuru：[sa][m][pM][4M])改变为发声字符串W(anpuru：[a][m][pM][4M])，其中由改变位置X1指定的发声字符Q[sa]已经被由改变内容X2指定的发声字符Q[a]所代替。

语音合成器34产生由已经具有根据改变指令X而改变的发声字符串W的语音合成数据D所表示的合成语音的声音信号V。如上所述，当已经满足特定条件时产生改变指令X。因此，当未满足特定条件时，第一实施例的语音合成器34产生与具有还未经历满足特定条件时所应用的改变的发声字符串W的语音合成数据D相对应的声音信号V，然而，相反，当已经满足特定条件时，语音合成器34产生与已经具有根据改变指令X而改变的发声字符串W的语音合成数据D相对应的声音信号V。换言之，当已经满足特定条件时，合成语音的听众感知到人物相对于目标曲目而言唱了错误的歌词。由上述说明可以理解，第一实施例的合成管理器32和语音合成器34用作改变发声字符串W并产生通过使已经改变的发声字符串W发声而获得的合成语音的声音信号V的元件(合成处理器)。

图5是示出由第一实施例的信息处理装置100执行的声音信号V的产生处理的流程的流程图。例如通过输入至输入装置16中的用户的指令或通过来自信息处理器24的指令来触发启动图5的处理。当该处理启动时，合成管理器32将语音合成数据D读入存储装置12，并且如图3中所示，将语音合成数据D的副本(在下文中称为“复制数据”)DC存储在存储装置12中(SA1)。

信息处理器24与图5中示出的处理并行地执行视频游戏的信息处理，该信息处理包括对人物的状态参数的控制。条件确定器26确定是否已经满足关于由信息处理器24执行的信息处理的特定条件(SA2)。例如，条件确定器26确定人物的任何状态参数是否超过对应阈值。

当条件控制器26确定已经满足特定条件时(SA2：是)，改变决定器28产生改变指令X以改变发声字符串W(SA3)。更具体地，改变决定器28从复制数据DC的发声字符串W中搜索与由改变规则数据C指定的规则相匹配的发声字符Q，并且产生包括与发声字符Q相对应的改变位置X1和改变内容X2的改变指令X。合成管理器32根据由改变决定器28产生的改变指令X来改变存储在存储装置12中的语音合成数据D的发声字符串W(SA4)。另一方面，当条件确定器26确定未满足特定条件时(SA2：否)，不执行通过改变决定器28的改变指令X的产生(SA3)和通过合成管理器32的发声字符串W的改变(SA4)。换言之，由于满足特定条件，语音合成数据D的发声字符串W被改变。在第一实施例中，每当满足特定条件时就改变发声字符串W。

信息处理器24命令语音合成器34在例如与游戏中的进程点相关的定时处使用目标乐曲的语音合成数据D来开始语音合成。语音合成器34确定信息处理器24是否已经命令其开始语音合成(SA5)。当还没有命令语音合成器34开始语音合成时(SA5：否)，处理移至步骤SA2，并且重复关于是否已经满足特定条件的确定(SA2)和根据该确定结果的发声字符串W的改变(SA3和SA4)。换言之，每当满足特定条件时，以累积的方式改变发声字符串W。

当已经命令语音合成器34开始语音合成时(SA5：是)，其通过使用当前语音合成数据D的语音合成处理来产生声音信号V(SA6)。回放控制器22使发声装置18播放由语音合成器34产生的声音信号V的合成语音。由上述说明可以理解，在未满足特定条件的阶段，播放通过使最初准备的发声字符串W(例如，对于目标乐曲来说正确的歌词)发声而获得的合成语音，并且通过满足特定条件来触发播放根据由改变规则数据C指定的规则而改变了的发声字符串W的合成语音(例如，歌唱对于目标乐曲来说错误的歌词的语音)。

如上所述，在第一实施例中，当已经满足特定条件时，发声字符串W部分地改变，并且播放通过使已经改变的发声字符串W发声而获得的合成语音的声音信号V。因此，可以容易地产生其发声内容丰富的合成语音。此外，在第一实施例中，当已经满足特定条件时，发声字符串W改变，并且产生通过使已经改变的发声字符串W发声而获得的合成语音的声音信号V，然而，当未满足预定条件时，产生通过使未经历当已经满足预定条件时执行的改变的发声字符串W发声而获得的合成语音的声音信号V。因此，可以产生其发声内容丰富的合成语音，其中一些语音的最初发声字符串W被改变并且其他语音的最初发声字符串W未改变。

第二实施例

将描述本发明的第二实施例。在下面的示例性实施例中，对于其效果和功能与第一实施例中的元件实质上相同的元件，使用与第一实施例的元件相同的附图标记，并且适当地省略这些效果和功能的详细说明。

图6是示出第二实施例的信息处理装置100的操作的流程的流程图。如图6中所示为例，当以与第一实施例中的相同的方式读取语音合成数据D时(SB1)，第二实施例的语言合成器34开始通过使用语音合成数据D的语音合成处理来产生声音信号V(SB2)。回放控制器22通过向发声装置18提供由语音合成器34产生的声音信号V来使发声装置18播放合成语音(SB3)。

在第二实施例中，由满足特定条件而触发的发声字符串W的改变(SB4-SB6)与由语音合成器34产生声音信号V(SB2)以及由回放控制器22回放合成语音(SB3)并行地实时执行。更具体地，条件确定器26确定是否已经满足关于通过信息处理器24的信息处理的特定条件(SB4)。当条件确定器26确定已经满足特定条件时(SB4：是)，通过改变决定器28的改变指令X的产生(SB5)和通过合成管理器32的发声字符串W的改变(SB6)以与第一实施例中类似的方式被执行。相反，当条件确定器26确定未满足特定条件时(SB4：否)，改变指令X的产生(SB5)和发声字符串W的改变(SB6)不被执行。

合成管理器32确定是否结束合成语音的回放(SB7)。例如，当已经完成针对目标乐曲的整个持续时间的合成语音的回放时、当已经从信息处理器24给出了用以结束合成语音的回放的指令时、或者当用户已经将用以结束合成语音的回放的指令输入至输入装置16中时(SB7：是)，合成语音的回放结束。当不结束合成语音的回放时(SB7：否)，处理移至步骤SB2。因此，继续声音信号V的产生(SB2)和合成语音的回放(SB3)，并且执行由满足特定条件而触发的发声字符串W的改变(SB4-SB6)。换言之，在播放通过使发声字符串W发声而获得的合成语音的过程之中，由满足特定条件来触发以动态方式改变发声字符串W。

通过第二实施例实现了与第一实施例的效果相同的效果。此外，由于对应于声音信号V的产生(SB2)而动态地改变发声字符串W，通过第二实施例可以产生其发声内容丰富的合成语音，其反应了通过信息处理器24的信息处理的结果(例如，游戏中进程的水平)。例如，可以根据虚拟空间中人物的状态参数来动态地改变发声字符串W，使游戏更令人兴奋。

第三实施例

图7是说明第三实施例中的发声字符串W的改变的示意图。如图7中所示，在第三实施例中，当已经满足特定条件时，将语音合成数据D的发声字符串W中的特定字符串(在下文中称为“目标字符串”)改变为预先选择作为替换候选的另一字符串(在下文中称为“替换字符串”)。更具体地，如图7中所示，在第三实施例的改变规则数据C中，与发声字符串W中的目标字符串(tsujo：[tsM][M][dZo][M])(日语中“ordinary(普通的)”一词)对应地登记了替换字符串(tokubetsu:[to][kM][be][tsM])(日语中“special(特别的)”一词)。

当已经满足特定条件时(SA2：是)，第三实施例的改变决定器28从复制数据DC的发声字符串W中搜索登记在改变规则数据C中的目标字符串。然后，改变决定器28产生包括发声字符串W中的目标字符串的改变位置X1和指定与目标字符串相对应的替换字符串的改变内容X2的改变指令X(SA3)。合成管理器32将语音合成数据D的发声字符串W中已经由改变指令X的改变位置X1指定的目标字符串改变为由改变内容X2指定的替换字符串(SA4)。用于产生与已经改变的发声字符串W相对应的声音信号V的处理(SA5和SA6)实质上与第一实施例中的处理的方式相同。通过第三实施例取得与第一实施例的效果相同的效果。

图7中，给定这样一种示例配置，其中在改变规则数据C中一个目标字符串与一个替换字符串相对应，但也可以对应于一个目标字符串来登记多个替换字符串。例如，在图8中作为示例示出的改变规则数据C中，相对于目标字符串(ringo：[4'i][N][go])(日语中的“apple(苹果)”一词)登记多个替换字符串(mikan：[m'i][ka][N￥]，日语中的“mikanorange(米坎橙)”一词，和(banana:[ba][na][na])，日语中的“banana(香蕉)”一词)。当已经满足特定条件时，改变决定器28产生包括发声字符串W中的目标字符串的改变位置X1和指定与目标字符串相对应的替换字符串的改变内容X2的改变指令X(SA3)。可以以自由选择的方式选择与一个目标字符串相对应的多个替换字符串中的一个作为改变内容X2，并且从多个替换字符串中随机地选择一个替换字符串是如何执行选择的示例。

第四实施例

图9是说明第四实施例中的发声字符串W的改变的示意图。如图9中所示，在第四实施例中，当已经满足特定条件时，语音合成数据D的发声字符串W中的特定目标字符串(第一部分)被发声字符串W中包含的另一个字符串(替换字符串或第二部分)替换。更具体地，假设目标乐曲由两首旋律(第一旋律和第二旋律)构成，则将发声字符串W中的目标乐曲的第一旋律的目标字符串改变为目标乐曲的第二旋律的替换字符串。例如，将包含在目标乐曲中的第一旋律中的目标字符串(ichiban：[i][tSi][ba][N￥])(日语中的“first(第一)”一词)改变为包含在目标乐曲的第二旋律中的替换字符串(niban：[Ji][-][ba][N￥])(日语中的“second(第二)”一词)。目标字符串或替换字符串可以是诸如上述的单词，或者可替代地，可以是由多个单词形成的乐句或整首旋律。在整首旋律是替换目标的情况下，示例实施例将是第一旋律的整个歌词为目标字符串并且第二旋律的歌词为替换字符串的实施例。因此，可以理解，根据第四实施例的改变规则数据C规定发声字符串W的第一部分作为目标字符串，并且发声字符串W的第二部分(第二部分与第一部分不同)作为替换字符串。

当已经满足特定条件时，第四实施例的改变决定器28产生包括发声字符串W中的目标字符串的改变位置X1和指定与发声字符串W中的目标字符串相对应的替换字符串的改变内容X2的改变指令X(SA3)。合成管理器32将语音合成数据D的发声字符串W中由改变位置X1指定的目标字符串改变为由改变内容X2指定的替换字符串(SA4)。用于产生通过使已经改变了的发声字符串W发声而获得的合成语音的声音信号V的处理(SA5和SA6)类似于第一实施例的处理。通过第四实施例能够实现与第一实施例的效果相同的效果。

上述第三实施例和第四实施例使第一实施例作为其基础，但是，在其中将发声字符串W的目标字符串改变为替换字符串的第三实施例的配置或第四实施例的配置可同样适用于在其中发声字符串W与由语音合成器34产生声音信号V并行地动态改变的第二实施例。

变形例

可以以各种方式修改上述实施例。下面作为示例来描述具体的变形例。可以对从下面的示例中自由选择的两个以上的实施例进行适当地组合。

(1)上述实施例中所述的示例特定条件之一是随着状态参数增加人物的状态参数超过阈值的条件，但是特定条件中的细节不限于上述示例。更具体地，可以采用用户在视频游戏中赢得的分数超过(或者低于)预定阈值的条件作为特定条件。例如，当赢得的分数超过阈值时，将发声字符串W的目标字符串改变为如第三实施例中所例示的特定替换字符串。此外，假设随着视频游戏进行发生各种事件(游戏事件)，可以通过用作特定条件的游戏中的特定事件的发生来触发改变发声字符串W。

还可以采用通过用户对输入装置16执行特定操作的动作的发生作为特定条件。更具体地，当用户通过操作输入装置16来选择多个图像中的任何一个时，将发声字符串W的目标字符串改变为如第三实施例中例示的特定替换字符串。例如，参照图8中所例示的情况，当用户从多个候选中选出米坎橙的图像时，将与苹果相对应的目标字符串(ringo：[4’i][N][go])改变为与该图像相对应的替换字符串(mikan：[m’i][ka][N￥])。可替代地，当用户选择香蕉的图像时，将与苹果相对应的目标字符串(ringo：[4'i][N][go])改变为与该图像相对应的替换字符串(banana：[ba][na][na])。

可将声音收集装置(例如，麦克风)收集具有超过预定阈值的强度的声音的条件、或者诸如触摸传感器之类的某种传感器检测特定条件的条件选择为特定条件，并且通过满足这种特定条件可触发改变发声字符串W。从上述说明可以理解，将上述每个实施例的条件确定器26(步骤SA2)全面地表示为一种确定是否满足关于由信息处理器24执行的信息处理的特定条件的元件，并且可自由地选择特定条件的具体内容。然而，在优选实施例中，可从特定条件中排除已经由用户命令改变(即，编辑)发声字符串W的条件。因此，例如，已经由用户直接命令发声字符串W的具体改变位置或改变内容的条件不包括在特定条件之内。换言之，条件确定器26可根据与由用户输入针对发声字符串W的改变指令而造成的条件不同的某一条件来优选地确定是否已经满足特定条件。除了将上述各种特定条件中的一个设置为特定条件的配置之外，还可以采用其中将满足多个条件中的两个或两个以上设置为单个特定条件的配置，或者其中将满足多个条件中的任一个设置为特定条件的配置。

(2)在上述各实施例中,以示例的形式给定这样一种情况，其中根据改变规则数据C来确定要被改变的一部分(例如，发声字符Q或目标字符串)的情况。然而，在发声字符串W中选择要被改变的一部分不限于此。例如，可以从用户对输入装置16的操作而被指定的发声字符串W中选择一部分作为要被改变的一部分。

(3)在第三实施例中，预先指定替换发声字符串W中的目标字符串的替换字符串。在第四实施例中，发声字符串W中的目标字符串被也包括在相同的发声字符串W中的替换字符串替换。然而，用于改变发声字符串W的替换字符串不限于这些示例。例如，可以利用由于用户对输入装置16的操作而指定的替换字符串、或者利用由于通过声音收集装置所收集的说话声的语音识别而识别的替换字符串来替换发声字符串W中的目标字符串。

(4)在上述各实施例中，条件确定器26仅确定是否已经满足特定条件。然而，对于改变决定器28来说还可以根据与信息处理相关的各种参数(例如，状态参数)的值来改变发声字符串W中的目标字符串。例如，可能存在这样一种的配置，其中状态参数的值越大，则发声字符串W中要被改变的字符的数目越大。

(5)当发声字符串W中的目标字符串与替换字符串之间的字符数目不同时，可能会发生目标乐曲中音符的数量过剩或者短缺。例如，可能会发生未分配给任何发声字符Q的音符的过剩，因为当目标字符串中的字符的数目超过替换字符串中的字符的数目时，由于发声字符串W中的改变而使字符的数目减少。在这种情况下，存在这样一种优选的配置，其中通过合成管理器32从语音合成数据D中删除与过剩音符相对应的多段单元数据U。相反，在目标字符串中的字符数目小于替换字符串的字符的数目的情况下，可能会发生与发声字符Q相对应的音符的短缺，从而由于发声字符串W中的改变，字符数目增加。在这种情况下，存在这样一种优选的配置，其中合成管理器32向语音合成数据D添加与分配有过剩发声字符Q的音符相对应的多段单元数据U，或者是这样的一种优选配置，其中合成管理器32分割由相应的一段或者多段单元数据U指定的现有的一个或者多个音符，并且向分割后的音符分配过剩的发声字符Q。

(6)还可以通过规定彼此互不相同的规则的多个改变规则数据C的选择性地应用来产生改变指令X(改变位置X1和改变内容X2)。更具体地，预先将具有用于发声字符串W的不同改变规则的多个改变规则数据C存储在存储装置12中，并且改变决定器28通过使用一个改变规则数据C(例如由用户从多个改变规则数据C中选择该个改变规则数据C)来产生改变指令X。选择特定改变规则数据C的方法不限于上述示例。另一个示例配置是这样的配置：其中根据关于由信息处理器24执行的信息处理的内容或者进程，换言之，根据游戏中不同的进程阶段来自动地选择多个改变规则数据C中的任何一个。此外，在可以选择性地执行存储在存储装置12中的多个控制程序PA的配置中，可以根据实际上由控制装置10执行的控制程序PA中的对应一个来自动地选择改变规则数据C中的任何一个。可替代地，可以使用两个或两个以上特定改变规则数据C的配置来代替选择性地使用多个改变规则数据C中的任何一个的配置。更具体地，例如，可使用图4中例示的第一实施例的改变规则数据C和图9中例示的第四实施例的改变规则数据C。

(7)在上述各实施例中，作为示例示出了包括控制程序PA和语音合成程序PB两者的程序P。然而，控制程序PA和语音合成程序PB可以彼此独立地提供。可以将上述各实施例中例示的信息处理装置100设想为由协调工作的控制程序PA和计算机实现的组合装置(语音合成控制装置)或为由协调工作的语音合成程序PB和计算机实现的装置。

(8)在上述各实施例中，给出了产生表示目标乐曲的歌声的声音信号V的示例。然而，由声音信号V表示的合成语音可能不一定是歌声。例如，可以将上述实施例应用于自由地选择的诸如说话声的合成语音的产生。换言之，可以省略语音合成数据D的音调N和发声持续时间T。

(9)在上述各实施例中例示的信息处理装置100可以通过如先前所述的协调工作的控制装置10和程序P来实现。由各实施例的说明可以理解，程序P使计算机(例如，控制装置10)用作：确定是否已经满足特定条件的条件确定器26、当满足特定条件时改变发声字符串W的合成管理器32、以及产生声音信号V的语音合成器34。程序P(或者，控制程序PA和/或语音合成程序PB)可以以存储在计算机可读记录介质中存储的格式提供，并且安装在计算机中。记录介质可以是例如作为优选示例的非暂时性记录介质、诸如CD-ROM的光学记录介质(光学装置)，不过也可以是诸如半导体记录介质或者磁记录介质的公知类型的记录介质。本说明书中提及的“非暂时性”记录介质指的是可由计算机读取的除了暂时性以外的所有类型的记录介质，但传播信号和易失性记录介质不排除在外。此外，可以经由通信网络以可分配格式将程序分配至计算机。

从前面的描述可以得出本发明的以下方面。根据本发明的一个方面的语音合成方法由计算机执行，并且该方法可包括：确定是否已经满足关于信息处理的预定条件；当已经满足预定条件时改变发声字符；以及产生通过使已经改变的发声字符发声而获得的合成语音的声音信号。发声字符是用于发声的文本的字符(文本字符)，其示例包括字母、汉字、数字、日本汉字、平假名和片假名、或任何其他语言的书写符号或字母。根据上述方法，当已经满足关于信息处理的预定条件时，改变发声字符，并且产生通过使已经改变的发声字符发声而获得的合成语音的声音信号。因此，可以产生具有丰富的发声内容的合成语音。

在优选实施例中，该方法还包括：当未满足预定条件时，产生通过使还未经历在满足预定条件时执行的改变的发声字符发声而获得的合成语音的声音信号。根据上述实施例，当已经满足预定条件时，改变发声字符，并且产生通过使已经改变的发声字符发声而获得的合成语音的声音信号；然而，当未满足预定条件时，产生通过使还未经历在满足预定条件时执行的改变的发声字符发声而获得的合成语音的声音信号。因此，可以产生具有丰富的发声内容的合成语音，其中一些语音的一个或者多个初始发声字符被改变，并且其他语音的初始发声字符未改变。

在另一个优选实施例中，发声字符的改变可以包括当已经满足预定条件时改变发声字符，该改变与合成语音的声音信号的产生并行地执行。根据本实施例，由于对应于声音信号的产生而动态地改变发声字符，可以产生具有丰富的发声内容的反映信息处理结果的合成语音。

优选地，预定条件是与游戏相关的条件。此外，与游戏相关的条件可以是与游戏中的进程相关的条件，或者可以是与游戏中的进程相对应的特定事件(即，游戏事件)的发生。可替代地，与游戏相关的条件可以是这样的条件，其中随着状态参数增加状态参数超过阈值，或者其中随着状态参数降低状态参数下降到阈值以下，状态参数表示由用户操作的人物的状态。根据上述实施例中的任何一个，对应于与游戏相关的各种条件(比如，游戏中的进程、游戏中的事件)或者参与游戏的人物的条件，发声字符串能够以动态的方式改变，并且在一些情况下，也可以以累积的方式改变。通过实施这些规定，能够将游戏做的更有趣和更令人兴奋。

优选地，预定条件可以是与由用户输入针对发声字符的改变指令而引起的动作的发生不同的条件。用户针对发声字符的改变指令是例如响应于用户对发声字符的编辑的改变指令，并且改变指令不包括选择指令，用户通过该选择指令选择已经预先准备的多个替换字符串中任何一个。根据本方面，用户对发声字符串的改变指令不是必须的，因此在不需要用户进行复杂的编辑的情况下可以容易地产生具有丰富的发声内容的合成语音。

根据优选实施例，改变发声字符可以包括改变由包括该发声字符的两个或两个以上发声字符构成的目标字符串。参照上述第三实施例的图7示出了本实施例的非限制性示例。根据另一优选实施例，发声字符的改变可以包括将包括该发声字符的目标字符串改变为已经预先登记的多个替换字符串中的一个。参照上述第三实施例的图8也示出了本实施例的非限制性示例。此外，发声字符的改变可以包括将包括该发声字符的发声字符串的第一部分改变为该发声字符串中的第二部分(第二部分不同于第一部分)。参照上述第四实施例的图9示出了本实施例的非限制性示例。

根据这些实施例中的任何一个，可以容易地对发声字符做出各种改变。

根据本发明的另一实施例的语音合成方法由计算机执行，并且该方法可包括：根据当已经满足关于信息处理的预定条件时确定的改变内容来改变发声字符；以及产生通过使已经改变的发声字符发声而获得的合成语音的声音信号。

根据本发明的又一方面的语音合成装置可包括：合成管理器，其配置为根据当已经满足关于信息处理的预定条件时确定的改变内容来改变发声字符；以及语音合成器，其配置为产生通过使已经改变的发声字符发声而获得的合成语音的声音信号。

附图标记说明

100：信息处理装置

10：控制装置

12：存储装置

14：显示装置

16：输入装置

18：发声装置

22：回放控制器

24：信息处理器

26：条件确定器

28：改变决定器

32：合成管理器

34：语音合成器

Claims

1.一种由计算机执行的语音合成方法，包括：

确定是否已经满足关于信息处理的预定条件；

当已经满足所述预定条件时改变发声字符；以及

产生通过使已经改变的所述发声字符发声而获得的合成语音的声音信号。

2.根据权利要求1所述的语音合成方法，还包括：当未满足所述预定条件时，产生通过使未经历在满足所述预定条件时所执行的改变的所述发声字符发声而获得的合成语音的声音信号。

3.根据权利要求1或2所述的语音合成方法，其中，所述发声字符的改变包括：当已经满足所述预定条件时改变所述发声字符，所述改变与所述合成语音的所述声音信号的产生并行地执行。

4.根据权利要求1或2所述的语音合成方法，其中，所述预定条件是与游戏相关的条件。

5.根据权利要求4所述的语音合成方法，其中，所述与游戏相关的条件是与所述游戏中的进程相关的条件。

6.根据权利要求5所述的语音合成方法，其中，所述与游戏相关的条件是与所述游戏中的进程相对应的特定事件的发生。

7.根据权利要求4所述的语音合成方法，其中，所述与游戏相关的预定条件是在其中随着状态参数增加状态参数超过阈值或随着状态参数降低状态参数下降到阈值以下的条件，所述状态参数表示由用户操作的人物的状态。

8.根据权利要求1或2所述的语音合成方法，其中，所述预定条件是不同于通过用户输入针对发声字符的改变指令而引起的动作的发生的条件。

9.根据权利要求1或2所述的语音合成方法，其中，所述发声字符的改变包括：改变由两个或两个以上的包括所述发声字符的发声字符构成的目标字符串。

10.根据权利要求1或2所述的语音合成方法，其中，所述发声字符的改变包括：将包括所述发声字符的目标字符串改变为已经预先登记的多个替换字符串中的一个。

11.根据权利要求1或2所述的语音合成方法，其中，所述发声字符的改变包括：将包括所述发声字符的发声字符串的第一部分改变为所述发声字符串中的第二部分，所述第二部分不同于所述第一部分。

12.一种由计算机执行的语音合成方法，包括：

根据当已经满足关于信息处理的预定条件时所确定的改变内容来改变发声字符；以及

13.一种语音合成装置，包括：

合成管理器，其配置为根据当已经满足关于信息处理的预定条件时所确定的改变内容来改变发声字符；以及

语音合成器，其配置为产生通过使已经改变的所述发声字符发声而获得的合成语音的声音信号。