具体实施方式
下面根据附图示出的实施方式对本发明予以详细说明。
图1为示出适于实现本实施方式的语音合成技术的计算机装置的硬件构成例的示意图。
图1所示的计算机装置的构成包括:CPU(中央处理装置)101、经系统总线与CPU101相连接的M/B(主板)芯片组102及主存储器103、经PCI总线等高速总线与M/B(主板)芯片组102相连接的视频卡104、声卡105、硬盘106及网络接口107、还有从此高速总线经桥接电路110及ISA总线等低速总线与M/B(主板)芯片组102相连接的软盘驱动器108及键盘109。另外,声卡105与进行语音输出的扬声器111相连接。
另外,图1不过是实现本实施方式的计算机装置的构成的示例,如果可以应用本实施方式,也可以采取其他种种的系统构成。比如,可以设置语音机构作为M/B(主板)芯片组102的功能来代替声卡105。
图2为示出利用图1所示的计算机装置实现的本实施方式的语音合成系统的构成图。
参照图2,可知本实施方式的语音合成系统包含:分析作为语音合成的对象的文本的文本分析单元10;用来添加语音合成的讲话的韵律的韵律控制单元20;生成语音波形的语音生成单元30以及存储利用实际讲话产生的语调的F0模式的F0形状数据库40。
图2所示的文本分析单元10及韵律控制单元20,是通过由扩展到图1所示的主存储器103的程序控制CPU101而实现的虚拟软件块。控制CPU101而使这些功能实现的该程序,可通过存储于磁盘及光碟、半导体存储器及其他记录媒体上进行分发或经由网络分发而提供。在本实施方式中,是经图1所示的网络接口107及软盘驱动器108、未图示的CD-ROM驱动器等输入该程序而存放于硬盘106中。于是,将存放于硬盘106中的程序读入到主存储器103、进行扩展并由CPU101执行而实现图2所示的各构成单元的功能。
文本分析单元10,输入成为语音合成的对象的文本(输入文本串)进行句法分析等语言分析处理。由此,作为处理对象的输入的文本串被分解为各个单词而被赋予有关读音及重音的信息。
韵律控制单元20,根据由文本分析单元10产生的分析结果,进行添加讲话韵律的处理,具体言之,就是对构成发声的各音素确定音高、音长及音强,进行语音位置的设定处理。在本实施方式中,为了实施这一处理,如图2所示,设置有轮廓预测单元21、最优形状元素选择单元22及形状元素连接单元23。
语音生成单元30,比如,由图1所示的声卡105实现,接受由韵律控制单元20进行的处理的结果,将音素相应于以音节等存储的合成单位进行连接并进行生成语音波形(语音信号)的处理。所生成的语音波形,经扬声器111输出。
F0形状数据库40,比如,由图1所示的硬盘106实现,将利用预先收集的实际讲话产生的语调的F0模式分类为韵律范畴进行存储。并且,此F0形状数据库40,相应于意欲合成的语音的风格准备数个种类,可以切换使用。比如,除了存储标准的朗读调的F0模式的F0形状数据库40之外,可以还准备阳刚调的讲话及阴沉调的讲话、包含发怒的讲话这样一些带有感情的讲话的F0模式的F0形状数据库40。另外,也可以使用存储有以动画及电影的配音方式进行的那种带有特定的角色的特征的特殊的讲话的F0模式的F0形状数据库40。
下面对本实施方式的韵律控制单元20的功能予以详细说明。
韵律控制单元20,对于每一句都将由文本分析单元10分析的对象文本取出,通过应用存储于F0形状数据库40中的语调的F0模式而生成该对象文本的语调(关于韵律的重音及停顿的信息可由利用文本分析单元10分析的语言信息得到)。
在本实施方式中,在由存储于数据库中的实际讲话的语调的F0模式中抽出F0模式之际,进行不取决于韵律范畴的检测。不过,在本实施方式中,取决于这一韵律范畴的文本的区别本身对于利用轮廓预测单元21进行F0形状目标预测的处理也是必需的。
然而,由于对韵律范畴的选择,重音的位置及短音节、以及在语音的前后是否有停顿这样的语言信息具有很大的影响,所以如果在抽取F0模式之际也利用韵律范畴,则除了语调的模式形状之外,重音的位置及有无短音节这样的要素对检索都有影响,具有最优模式形状的F0模式会从检索中漏掉。
因此,在确定F0模式的阶段,本实施方式提供的不取决于模式形状的只与模式形状对称的检索是有用的。
下面,对于在本实施方式的韵律控制中,作为针对对象文本应用F0模式之际的单位的F0形状元素单位予以定义。
在本实施方式中,不管在实际的讲话中是否形成重音短语,是以可形成重音短语的语言上的音段单位(以下称此音段单位为假定重音短语)切出的实际语音的F0音段作为F0形状元素的单位。各F0形状元素,是由在构成短音节的元音的中心部的F0值(三点中值)采样表示的。另外,在F0形状数据库40中,以此F0形状元素作为单位存储实际讲话的语调的F0模式。
在本实施方式的韵律控制单元20中,轮廓预测单元21,输入有关作为利用文本分析单元10产生的语言处理的结果给出的假定重音短语的语言信息(重音型、短语的长度(短音节数)、构成短语的短音节的音韵类)和关于在假定重音短语之间有无停顿的信息,根据这些信息,预测每个假定重音短语的F0模式的轮廓。将此预测的F0模式的轮廓称为F0形状目标。
此处,预定的假定重音短语的F0形状目标,是由该假定重音短语的音段内的频率级的最大值(最大F0值)、自模式始端点的最大F0值的相对级偏移(始端偏移)、自模式终端点的最大F0值的相对级偏移(终端偏移)三个参数规定的。
就是说,F0形状目标的预测,是根据以上述语言信息进行分类的韵律范畴,利用统计模型对此三个参数进行预测的处理。
预测的F0形状目标,临时保持于图1所示的CPU101的高速缓存及主存储器103中。
另外,在本实施方式中,在上述语言信息之外,将讲话方面的限制组合到预测模型中。就是说,采纳一直到现在的假定重音短语的紧前方实现的语调对下一个讲话的语调级等给予影响的假定,将对于紧前方的假定重音短语的音段的预测结果反映在对于处理中的假定重音短语的音段的F0形状目标的预测上。
图3为说明将讲话方面的限制组合到预测模型中的方式的说明图。
如图3所示,对于正在执行预测的假定重音短语(当前假定重音短语)的最大F0值的预测上合并已经结束预测的紧前方的假定重音短语的最大F0值。另外,在当前假定重音短语的始端偏移及终端偏移的预测上合并紧前方的假定重音短语的最大F0值及当前假定重音短语的最大F0值。
另外,轮廓预测单元21的预测模型的学习,是利用对每个假定重音短语得到的最大F0值的实测值范畴化的值。就是说,轮廓预测单元21,将F0形状目标作为预测之际的预测主要因素,在基于上述的语言信息的韵律范畴之上增加此假定重音短语每一个的最大F0值的实测值的范畴执行用于预测的统计处理。
最优形状元素选择单元22,从存储于F0形状数据库40中的F0形状元素(F0模式)之中,选择对处理中的当前假定重音短语适用的F0形状元素的候补。此选择,包括根据利用轮廓预测单元21预测的F0形状目标大致抽取F0形状元素的预备选择和根据当前假定重音短语的音韵类进行适用于该当前假定重音短语的最佳F0形状元素的选择。
在预备选择中,最优形状元素选择单元22,首先取得利用轮廓预测单元21预测的当前假定重音短语的F0形状目标,在规定该F0形状目标的参数之中,利用两个始端偏移和终端偏移,计算始端和终端间的距离。于是,从存储于F0形状数据库40中的F0形状目标之中,选择计算出的始端终端间距离接近F0形状目标的始端终端间距离(比如小于预先设定的阈值)的全部F0形状元素作为最优F0形状元素的候补。所选择的F0形状元素,相应于与F0形状目标的轮廓的距离进行排位,并保持于CPU101的高速缓存及主存储器103中。
此处所谓的F0形状元素和F0形状目标的轮廓之间的距离,是规定该F0形状目标的参数之中的始端偏移及终端偏移和与所选择的F0形状元素的参数相当的值互相近似的程度。利用这两个参数,表示F0形状元素和F0形状目标的轮廓的形状的差异。
之后,最优形状元素选择单元22,对作为通过预备选择按照和目标轮廓的距离进行排位的最优F0形状元素的候补的各F0形状元素,计算构成当前假定重音短语的音韵类的距离。此处所谓的音韵类的距离,是F0形状元素和当前假定重音短语的音韵(音素)的排列上的近似的程度。在此音韵排列的评价中,使用对每个短音节定义的音韵类。此音韵类,是考虑到有无辅音及对辅音进行调音的样式的差异对短音节进行分类的结果。
就是说,此处,对于在预备选择中所选择的全部F0形状元素,计算与当前假定重音短语的短音节序列的音韵类的一致度,求出音韵类的距离,对各F0形状元素的音韵的排列进行评价。于是,将所得到的音韵类的距离最小的F0形状元素选择为最优F0形状元素。利用此音韵类间距离的比较,可反映出F0形状易于受到与该F0形状元素相对应的假定重音短语的构成音韵的影响。所选择的最优F0形状元素,保持于CPU101的高速缓存及主存储器103中。
形状元素连接单元23,利用最优形状元素选择单元22取得所选择的最优F0形状元素进行顺序连接,可得到针对作为韵律控制单元20的处理单位的一句的最终的语调模式。
最优F0形状元素的连接,具体言之,可通过下面的两种处理进行。
首先,将所选择的最优F0形状元素设定在合适的频率级上。这就是使所选择的最优F0形状元素的频率级的最大值与经过轮廓预测单元21处理而得到的对应的假定重音短语的音段的最大F0值匹配。此时,该最优F0形状元素本身没有任何变形。
其次,形状元素连接单元23,对每个短音节调整F0形状元素的时间轴,以使与应该合成的音韵串的时间配置相符合。此处所谓的应该合成的音韵串的时间配置,是根据对象文本的音韵串设定的各个音韵的持续时长。此音韵串的时间配置,是利用未图示的现有技术的音韵时长预测模块进行设定的。
之后,在此阶段,对F0的实际模式(由实际讲话产生的语调模式)施加变形。不过,在本实施方式中,因为是由最优形状元素选择单元22利用音韵类间距离选择最优F0形状元素,对该F0模式而言难以产生过度的变形。
以如上所述方式生成全部对象文本的语调模式并输出到语音生成单元30。
如上所述,在本实施方式中,利用最优形状元素选择单元22,从存储于F0形状数据库40中的全部F0形状元素之中,与韵律范畴无关地选择模式形状最近似F0形状目标的F0形状元素,用作假定重音短语的语调模式。就是说,作为最优F0形状元素选择的F0形状元素,与重音的位置及有无停顿等语言信息分离,只根据F0模式的形状进行选择。
因此,从生成语调模式的观点出发,可以不受语言信息的影响而有效地活用存储于F0形状数据库40中的F0形状元素。
此外,由于在选择F0形状元素时不考虑韵律范畴,在对开放数据的文本进行语音合成时,即使是不存在适合预定的假定重音短语的韵律范畴,也可以选择与F0形状目标相对应的F0形状元素而应用于该假定重音短语。在此场合,由于该假定重音短语不与既存的韵律范畴相当,可以认为该F0形状目标的预测本身的准确度降低。不过,与历来在这种场合,由于韵律范畴不能分类而不能合适地使用存储于数据库中的F0模式的情况不同,根据本实施方式,由于是只根据F0形状元素的模式形状进行检索,在预测的F0形状目标的准确度范围内,可以选择合适的F0形状元素。
另外,在本实施方式中,从存储于F0形状数据库40中的实际讲话产生的全部F0形状元素之中,选择最优F0形状元素而不进行平均化及模型化的处理。所以,虽然通过调整形状元素连接单元23的时间轴多少可使F0形状元素发生变形,但由实际讲话产生的F0模式的细节可以在合成语音上得到一定程度的反映。
因此,可以生成接近实际讲话的自然性高的语调模式。特别是,可以灵活而正确地再现由于语尾的音高上扬或延伸的语调的微妙的差异而产生的讲话特征(讲话者的习惯)。
由此,可以准备存储包含感情的讲话的F0形状元素的F0形状数据库40及存储动画等的配音的具有特征的角色的特殊的讲话的F0形状元素的F0形状数据库40,通过适当地切换,可能合成讲话特征不同的多种语音。
图4为说明利用上述的韵律控制单元20进行的语音合成的动作的流程的流程图。另外,图5至图7为示出在图4所示的动作的各个阶段取得的F0模式的形状的示图。
如图4所示,韵律控制单元20,如果将关于对象文本的由文本分析单元10得到的分析结果输入(步骤401),则首先,由轮廓预测单元21,对每一个假定重音短语进行F0形状目标的预测。
就是说,根据作为由文本分析单元10产生的分析结果的语言信息,预测假定重音短语的音段内的最大F0值(步骤402),接着,根据由该语言信息及在步骤402中决定的最大F0值来预测始端偏移及终端偏移(步骤403)。此F0形状目标的预测,是从前头开始顺序地对构成对象文本的假定重音短语执行。所以,关于第二个以下的假定重音短语,由于在其紧前方已经存在预测处理结束的假定重音短语,如上所述,最大F0值、始端偏移及终端偏移的预测,也可利用此紧前方的假定重音短语的预测结果。
图5为示出如此得出的F0形状目标的模式形状的一例。
之后,关于各假定重音短语,根据F0形状目标,由最优形状元素选择单元22进行预备选择(步骤404)。具体说,首先,将始端终端间距离接近F0形状目标的F0形状元素,从F0形状数据库40中检出作为最优F0形状元素。于是,对于所选择的全部F0形状元素,将作为始端偏移及终端偏移的要素的二维矢量定义为形状矢量。其次,对F0形状目标和各F0形状元素,计算形状矢量间的距离,并将F0形状元素按照其距离降序排列。
之后,对于通过预备选择抽取的最优F0形状元素的候补,进行音韵排列评价,将与F0形状目标对应的假定重音短语的音韵排列中的音韵类的距离最小的F0形状元素选作最优F0形状元素(步骤405)。
图6为示出如此选择的最优F0形状元素的模式形状的示例的示图。
其后,由形状元素连接单元23将对于各假定重音短语选择的最优F0形状元素进行连接。
就是说,对各最优F0形状元素的频率级的最大值进行设定使其与对应的F0形状目标的最大F0值符合(步骤406),接着,对各最优F0形状元素的时间轴进行调整使其与应该合成的音韵串的时间配置符合(步骤407)。
图7为示出将图6所示的最优F0形状元素的F0模式与位于其紧前方的假定重音短语的F0模式相连接的情况的示图。
下面,对于将本实施方式应用于实际的文本而生成语调模式的具体示例予以说明。
图8为示出利用本实施方式生成的语调模式和实际讲话生成的语调模式的比较例的示图。
在图8中,对“それは泥沼のような逆境から抜け出したという、切ないほどの願望たろうか”这样的文本进行语调模式比较。
如图所示,这一段文本,可分解为10个假定重音短语“それわ”、“どろぬまの”、“よ^—な”、“ぎやつきよ—”、“から”、“ぬけだした^いと”、“いう”、“せつな^いほどの”、“がんぼ—”及“だろおか”。
于是,以各假定重音短语作为对象,进行最优F0形状元素的检出。
图9为示出利用本实施方式对上述的每个对象文本的假定重音短语选择的最优F0形状元素的示图。在各假定重音短语的一栏中,上段表示输入的假定重音短语的环境属性,下段表示所选择的最优F0形状元素的属性信息。
参照图9,可见,对于上述10个假定重音短语分别选择的F0形状元素并列如下:
“それわ”对“これが”、“どろぬまの”对“よろこびも”、
“よ^—な”对“ま^つき”、“ぎやつきよ—”对“しゆつきん”、
“から”对“よび”、“ぬけだした^いと”对“ねじまげた^のだ”、
“いう”对“いう”、“せつな^いほどの”对“じゆつぷ^んかんの”、
“がんぼ—”对“ほんぼい”、“だろ^おか”对“みえ^ると”。
连接这些F0形状元素而得到的文本的全部语调模式,如图8所示,成为极接近实际讲话的同一文本的语调模式。
如上合成的语音合成系统,可以用在将合成语音作为输出的种种系统中及采用这种系统的服务中。比如,向作为来自电话网的访问提供电话对应型的服务的语音服务器的TTS(Text-speech Synthesis)引擎,就可以采用本实施方式的语音合成系统。
图10为示出安装本实施方式的语音合成系统的语音服务器的构成例的示图。
图10所示的语音服务器1010,在与WEB应用服务器1020相连接的同时,经过VoIP(Voice over IP)(基于网际协议的语音传输)网关1030与公共线路电话网(PSTN:公用交换电话网)1040相连接而提供电话对应型的服务。
另外,在图10所示的构成中,分别设置有语音服务器1010、WEB应用服务器1020及VoIP网关1030,实际上也可能是在一台硬件(计算机装置)中设置各种功能的构成。
语音服务器1010,是对经过电话网1040实现的访问提供利用语音对话的服务(内容)的服务器,可由个人计算机及工作站、其他计算机装置实现。如图10所示,语音服务器1010,具备由该计算机装置的硬件及软件实现的系统管理部件1011、电话/媒体部件1012以及VoiceXML(语音可扩展置标语言)浏览器1013。
WEB应用服务器1020,容纳作为以VoiceXML记述的电话对应型的应用软件群的VoiceXML应用软件1021。
另外,VoIP网关1030,接受来自既有的电话网1040的访问,进行变换连接处理,以便接受利用语音服务器1010的指向IP网络的语音服务。为了实现这一功能,VoIP网关1030,主要备有作为和IP网络之间的接口的VoIP软件1031和作为和电话网1040之间的接口的电话接口1032。
在此构成中,如后所述,VoiceXML浏览器1013的功能,由图2所示的文本分析单元10、韵律控制单元20及语音生成单元30实现。于是,不是从扬声器111输出语音,语音信号是经VoIP网关1030输出到电话网1040。另外,虽然在图10中未明示记载,但语音服务器1010,具备与F0形状数据库40相当的存放实际讲话的语调的F0模式的数据存放单元,在利用VoiceXML浏览器1013进行语音合成之际进行参照。
在语音服务器1010的构成中,进行对系统管理部件1011、VoiceXML浏览器1013的启动、停止及监视。
电话/媒体部件1012,在VoIP网关1030和VoiceXML浏览器1013之间进行电话呼叫的电话管理。
VoiceXML浏览器1013,由经电话网1040及VoIP网关1030接收到的来自电话机1050的电话呼叫的发出而启动并执行WEB应用服务器1020上的VoiceXML应用软件1021。
此处,VoiceXML浏览器1013,为了执行此对话处理,具有TTS引擎1014及Reco引擎1015。
TTS引擎1014,对于由VoiceXML应用软件1021输出的文本进行语音合成处理。作为这一TTS引擎1014,可采用本实施方式的语音合成系统。
Reco引擎1015,对经电话网1040及VoIP网关1030输入的电话语音进行识别。
在包含如上构成的语音服务器1010的提供电话对应型的服务的系统中,在从电话机1050发送电话呼叫经电话网1040及VoIP网关1030访问语音服务器1010时,在系统管理部件1011及电话/媒体部件1012的控制下,VoiceXML浏览器1013,执行WEB应用服务器1020上的VoiceXML应用软件1021。于是,按照VoiceXML应用软件1021指定的VoiceXML文档的描述,执行各呼叫的对话处理。
在此对话处理中,装载于VoiceXML浏览器1013上的TTS引擎1014,利用与图2所示的韵律控制单元20的轮廓预测单元21相当的功能预测F0形状目标,利用与最优形状元素选择单元22相当的功能从F0形状数据库40选择最优F0形状元素,利用与形状元素连接单元23相当的功能连接各F0形状元素的语调模式而生成句子单位的语调模式。于是,根据所生成的语调模式合成语音,输出到VoIP网关1030。
下面对利用上述的语音合成方法对录音语音和合成语音进行无缝平滑连接的其他实施方式予以说明。
图11为示出利用本实施方式的语音合成系统的构成的示图。
参照图11。本实施方式的语音合成系统的构成包括对作为语音合成对象的的文本进行分析的文本分析单元10、用来生成输出的语音的韵律特征(音韵时长及F0模式)的音韵时长预测单元50及F0模式生成单元60、用来生成输出的语音的音响特征(合成单位元素)的合成单位选择单元70以及生成输出的语音的语音波形的语音生成单元30。另外,还设置有用来存放在音韵时长预测单元50、F0模式生成单元60及合成单位选择单元70的处理中使用的声音类型的声音类型数据库80及存放录音语音的域语音数据库90。此处,图11的音韵时长预测单元50及F0模式生成单元60相当于图2的韵律控制单元20,F0模式生成单元60具有图2所示的韵律控制单元20的功能(与轮廓预测单元21、最优形状元素选择单元22及形状元素连接单元23相对应的功能)。
另外,本实施方式的语音合成系统,与图2所示的语音合成系统一样,是以图1所示的计算机装置等实现的。
在上述构成中,文本分析单元10及语音生成单元30,与图2所示的实施方式的对应的构成要素相同。因此,采用同样的符号,而其说明省略。
音韵时长预测单元50,F0模式生成单元60及合成单位选择单元70,是由扩展到图1所示的主存储器103的程序通过对CPU101进行控制而实现的虚拟软件块。通过控制CPU101而使这些功能实现的该程序,可通过存储于磁盘及光碟、半导体存储器及其他记录媒体上进行分发或经由网络分发而提供。
另外,在图11的构成中,声音类型数据库80,比如,由图1所示的硬盘106实现,存放有关从语音素材中抽出并生成的讲话者的讲话特征的信息(声音类型)。另外,图2所示的F0形状数据库40,包含于此声音类型数据库80中。
域语音数据库90,比如,由图1所示的硬盘106实现,存放有关适用任务用而收录的录音语音的数据。此域语音数据库90,可以说,是包含一直到录音语音的韵律、波形为止的扩展的用户辞典,在登录条目中,除了导词、读法、重音、品词这些信息之外,还存放分层次的波形及韵律信息这些信息。
在本实施方式中,文本分析单元10,对作为处理对象的文本进行语言分析,将读法及重音等的音素信息发送到音韵时长预测单元50,将F0元素音段(假定重音音段)发送到F0模式生成单元60,而将该文本的音素串的信息发送到合成单位选择单元70。另外,在进行语言分析之际,调研各个短语(与假定重音音段相当于)是否登录在域语音数据库90之中。于是,在语言分析中命中登录条目时,就将在域语音数据库90存在有关该短语的韵律特征(音韵时长、F0模式)以及音响特征(合成单位元素)这一点通知音韵时长预测单元50、F0模式生成单元60及合成单位选择单元70。
音韵时长预测单元50,根据从文本分析单元10接收到的音素信息,生成应该合成的音韵串的时长(时间配置),存放于CPU101的高速缓存及主存储器103的预定区域中。该时长,在F0模式生成单元60、合成单位选择单元70及语音生成单元30中读出,在各个处理中使用。时长的生成方法可以采用公知的既有技术。
此处,在由文本分析单元10对于与要生成时长的F0元素音段相对应的短语存放于域语音数据库90中这一点进行通知的场合,不生成有关该短语的音韵串的时长,而代之以访问域语音数据库90取得该短语的时长并存放于CPU101的高速缓存及主存储器103的预定区域中,供F0模式生成单元60、合成单位选择单元70及语音生成单元30使用。
F0模式生成单元60,具有与图2所示的语音合成系统的韵律控制单元20的轮廓预测单元21、最优形状元素选择单元22以及形状元素连接单元23相对应的功能同样的功能,将利用文本分析单元10分析的对象文本按照F0元素音段读入,通过命中存储于与声音类型数据库80的F0形状数据库40相对应的部分中的语调的F0模式而生成对象文本的语调。所生成的语调模式保持于CPU101的高速缓存及主存储器103的预定区域中。
此处,与F0模式生成单元60的轮廓预测单元21相对应的功能,在由文本分析单元10就与要生成语调的F0元素音段相对应的短语存放于域语音数据库90中这一点进行通知的场合,不生成语言信息和有关有无停顿的信息,而代之以访问域语音数据库90取得该短语的F0值作为F0模式的轮廓。
图2的语音处理系统的韵律控制单元20的轮廓预测单元21,如参照图3所说明的,假设针对紧前方的假定重音短语的音段的预测结果可反映于处理中的对于假定重音短语的音段(F0元素音段)的F0形状目标的预测中。所以,在紧前方的F0元素音段的F0模式的轮廓是从域语音数据库90取得的场合,在处理中的对于F0元素音段的F0形状目标中将会反映出该紧前方的F0元素音段的录音语音的F0值。
在此之上,在本实施方式中,在处理中的F0元素音段的紧后方存在从域语音数据库90取得的F0值的场合,该紧后方的F0元素音段即F0值还反映在处理中的对F0元素音段的F0形状目标的预测中。另一方面,对于从域语音数据库90取得的F0值,不反映在从语言信息等的信息预测的F0模式的轮廓的预测结果中。由此,在由F0模式生成单元60生成的语调模式中,更进一步反映存放于域语音数据库90中的录音语音的讲话上的特征。
图12为说明在利用录音语音产生的两个短语中间插入由合成语音产生的短语时的F0模式的轮廓预测的示图。
如图12所示,在夹着要进行F0模式的轮廓的合成语音产生的的假定重音短语的前后存在录音语音的短语的场合,在合成语音产生的的假定重音短语的最大F0值、始端及终端偏移的预测上要加上前方的录音语音的最大F0值,同时还要加上后方的录音语音的F0值。
虽然在图中未示出,与此相反,在对夹着录音语音产生的预定的短语的由合成语音产生的假定重音短语的F0模式的轮廓进行预测的场合,由该录音语音产生的短语的最大F0值将加到前后的假定重音短语的F0模式的轮廓预测中。
此外,在合成语音产生的短语是连续的的场合,位于前头的假定重音短语的紧前方的录音语音的F0再的特征,也顺序反映在各假定重音短语中。
另外,F0模式的轮廓预测的预测模型的学习,是利用对每个假定重音短语得到的最大F0值的实测值的范畴化的值进行的。就是说,作为对轮廓预测的F0形状目标进行预测之际的预测要因,对根据上述语言信息的韵律范畴加上此假定重音短语每一个的最大F0值的实测值的范畴而执行用于预测的统计处理。
其后,F0模式生成单元60,利用与图2所示的韵律控制单元20的最优形状元素选择单元22及形状元素连接单元23相对应的功能,选择最优F0形状元素,顺序进行连接而得到作为处理对象的句子的F0模式(语调模式)。
图13为说明利用F0模式生成单元产生的F0模式的生成处理的流程的流程图。
如图13所示,首先在文本分析单元10中,调研与作为处理对象的F0元素音段相对应的短语是否登录在域语音数据库90上(步骤1301、1302)。
在与作为处理对象的F0元素音段相对应的短语未在域语音数据库90中登录的场合(未从文本分析单元10接受到通知的场合),F0模式生成单元60,调研与处理中的F0元素音段的紧后方的F0元素音段相对应的短语是否在域语音数据库90中登录(步骤1303)。于是,如果未登录,在反映对紧前方的F0元素音段的F0形状目标的轮廓预测的结果(在与紧前方的F0元素音段相对应的短语在域语音数据库90中登录的场合该短语的F0值)的同时,对该处理中的F0元素音段预测F0形状目标的轮廓(步骤1305)。之后,选择最优F0形状元素(步骤1306),对所选择的最优F0形状元素的频率级进行设定(步骤1307),根据由音韵时长预测单元50得到的时长的信息进行时间轴的调整而对最优F0形状元素进行连接(步骤1308)。
在步骤1303中,在与处理中的F0元素音段的紧后方的F0元素音段相对应的短语登录在域语音数据库90中的场合,除了对紧前方的F0元素音段的F0形状目标的轮廓预测的结果之外,还反映在从域语音数据库90取得的与该紧后方的F0元素音段相对应的短语的F0值上,对该处理中的F0元素音段的F0形状目标的轮廓进行预测(步骤1304、1305)。于是,像通常一样,选择最优F0形状元素(步骤1306),对所选择的最优F0形状元素进行频率级设定(步骤1307),根据由音韵时长预测单元50得到的时长的信息进行时间轴的调整而对最优F0形状元素进行连接(步骤1308)。
另外,在步骤1302中,与作为处理对象的F0元素音段相对应的短语已在域语音数据库90中登录的场合,不通过上述处理选择最优F0形状元素,而代之以取得登录在域语音数据库90中的该短语的F0值(步骤1309)。于是,将所取得的F0值用作最优F0形状元素,根据在音韵时长预测单元50中得到的时长的信息进行时间轴的调整而进行连接(步骤1308)。
如上取得的整个句子的语调模式,保持于CPU101的高速缓存及主存储器103的预定区域中。
合成单位选择单元70,接受由音韵时长预测单元50得到的时长信息和由F0模式生成单元60得到的语调模式的F0值的输入,访问声音类型数据库80,选择并取得作为处理对象的F0元素音段的各音的合成单位元素(波形元素)。此处,在实际讲话中,预定的短语的边界部分的语音,受到连接的其他短语的语音及有无停顿的影响。因此,合成单位选择单元70,根据连接的其他F0元素音段的边界部分的语音及有无停顿选择预定的F0元素音段的边界部分的音的合成单位元素,以使F0元素音段的语音平滑连接。这一影响,在短语的终端部分的语音中表现得特别显著。因此,至少关于F0元素音段的终端部分的音的合成单位元素,最好是考虑到紧后方的F0元素区间的始端的音的影响进行选择。所选择的合成单位元素,保持于CPU101的高速缓存及主存储器103的预定区域中。
另外,合成单位选择单元70,在对于与要生成合成单位元素的F0元素音段相对应的短语存放于域语音数据库90中这一点进行通知的场合,不从声音类型数据库80选择合成单位元素,而代之以访问域语音数据库90取得该短语的波形元素。这种场合也与该F0元素音段的终端的音的场合一样,相应于该F0元素音段的紧后方的状态进行调整。就是说,作为合成单位选择单元70的处理,只不过是添加域语音数据库90的波形元素作为选择候补而已。
图14为说明由合成单位选择单元70产生的合成单位元素的生成处理的流程的流程图。
如图14所示,合成单位选择单元70,首先将作为处理对象的文本的音素串分割为合成单位(步骤1401),并调研所关注的合成单位是否是与登录到域语音数据库90上的短语相对应(步骤1402)。这一判断,可以根据来自文本分析单元10的通知进行。
假如了解到与所关注的合成单位相对应的短语未登录在域语音数据库90上,则合成单位选择单元70,其次,就进行合成单位的预备选择(步骤1403)。此处,参照声音类型数据库80,选择应该合成的最优合成单位元素。作为选择条件,考虑音素环境的适合性和韵律环境的适合性。所谓音素环境,是指通过文本分析单元10的分析得到的音素环境和各个合成单位的音素数据的原环境的类似性。另外,所谓韵律环境的适合性,是指作为目标给予的各音素的F0值及时长和各个合成单位的音素数据的F0值及时长的类似性。
假如通过预备选择找到合适的合成单位,就将该合成单位选作最优合成单位元素(步骤1404、1405)。所选择的合成单位元素,保持于CPU101的高速缓存及主存储器103的预定区域中。
另一方面,在找不到合适的合成单位的场合,就改变选择条件,反复进行预备选择,一直到找到合适的合成单位为止(步骤1404、1406)。
在步骤1402中,假如通过来自文本分析单元10的通知判断与所关注的合成单位相对应的短语已登录在域语音数据库90中,之后,合成单位选择单元70就调研所关注的合成单位是否是该短语的边界部分(步骤1407)。在是边界部分的单位的场合,合成单位选择单元70,就将登录到域语音数据库90的该短语的该语音的波形元素加到候补中,执行合成单位的预备选择(步骤1403)。以下的处理与对合成语音的处理相同(步骤1404-1406)。
另一方面,在所关注的合成单位,虽然包含于登录到域语音数据库90的短语之中,但却不是其边界部分的单位时,合成单位选择单元70,为了忠实地再现该短语的录音语音,就将存放于域语音数据库90中的该语音的波形元素按照原样选择作为合成单位元素(步骤1407、1408)。所选择的合成单位元素,保持于CPU101的高速缓存及主存储器103的预定区域中。
语音生成单元30,按照以上方式接受由音韵时长预测单元50得到的时长信息、由F0模式生成单元60得到的语调模式的F0值以及由合成单位选择单元70得到的合成单位元素的输入,利用波形重叠法进行语音合成。所合成的语音波形,经图1所示的扬声器111作为语音输出。
如上所述,根据本实施方式,由于在生成合成语音的语调模式之际,可使其充分反映录音的实际语音的讲话上的特征,所以可以生成更接近录音语音的合成语音。
特别是,在本实施方式中,录音语音不是原样照用,而是作为韵律信息的数据进行处理,为了在文本分析中在检出作为录音语音登录的短语之际,利用该录音语音的数据合成语音,可以藉助与生成录音语音以外的自由的合成语音的场合一样的处理进行语音合成,作为系统的处理,没有必要去意识录音语音或合成语音。所以,可以削减系统的开发成本。
另外,在本实施方式中,由于不区别录音语音和合成语音,是根据F0元素音段的终端偏移的值和紧后方的的状态进行调整,所以对于与各F0元素音段的相对应的语音可进行语音合成而得到平滑连接的自然性较高的无错感的合成语音。
如上所述,根据本发明,在生成语音合成的语调模式中,可以实现灵活而正确地再现讲话者的讲话特征的语音合成系统。
另外,根据本发明,在语音合成中,对于实际讲话的语调的F0模式的数据库(素材库),通过与韵律范畴无关的缩小到F0模式,可以有效地活用存储于数据库中的实际讲话的F0模式。
此外还有,根据本发明,可以将录音语音和合成语音的语调适当混合而进行平滑连接的语音合成。