CN102341842B

CN102341842B - 用于语者调适的基频移动量学习装置和方法及基频生成装置和方法

Info

Publication number: CN102341842B
Application number: CN2010800101996A
Authority: CN
Inventors: 立花隆辉; 西村雅史
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-05-28
Filing date: 2010-03-16
Publication date: 2013-06-05
Anticipated expiration: 2030-03-16
Also published as: EP2357646B1; EP2357646A1; JP5226867B2; WO2010137385A1; US20120059654A1; CN102341842A; US8744853B2; TW201108203A; EP2357646A4; JPWO2010137385A1

Abstract

本发明提供一种能够基于仅少量学习(learning)数据高精度地再现目标语者语音(voice)的基频的特征的技术。学习装置学习目标语者的目标基频图形(F pattern)相对于作为基准的源基频图形(F0 pattern)的移动量。该学习装置通过将与学习文本(text)对应的源基频图形及与同一学习文本对应的目标基频图形，以其波峰与波峰及波谷与波谷相对应的方式相关联，针对目标基频图形上的各点，该学习装置参照该关联的结果而求出相对于源基频图形上的相应点的在时间轴方向上及在频率轴方向上的移动量，且使用作为学习文本的解析结果的语言信息作为输入特征量、使用计算出的移动量作为输出特征量而学习决策树。

Description

用于语者调适的基频移动量学习装置和方法及基频生成装置和方法

技术领域

本发明涉及一种合成语音的语者调适技术，尤其涉及一种基于基频的语者调适技术。

背景技术

以往，公知有一种将语音合成成与系统的基准语音不同、听起来与目标语者的说话声相似的合成语音的语者调适技术(例如参照专利文献1、2)。还公知有一种当将所输入的文本变换成语音信号时，生成具有指定说话风格的合成语音的语话风格调适(speaking-styleadaptation)的技术(例如参照专利文献3及4)。

在这样的语者调适及话语风格调适中，再现语音的音高、即再现基频(FO)对于再现该语音的效果尤为重要。作为再现基频的以往方法包括：线性变换基频的简单方法(例如参照非专利文献1)；该简单方法的变型(例如参照非专利文献2)；采用高斯(Gaussian)混合模型(GMM)来模型化频谱及频率的连结特征矢量的方法(例如参照非专利文献3)。

在先技术文献

专利文献

专利文献1：日本特开11-52987号公报

专利文献2：日本特开2003-337592号公报

专利文献3：日本特开7-92986号公报

专利文献4：日本特开10-11083号公报

非专利文献

非专利文献1：Z.Shuang、R.Bakis、S.Shechtman、D.Chazan、 Y.Qin、“Frequency warping based on mapping format parameters”，Proc.ICSLP，2006年9月，Pittsburg PA，USA。

非专利文献2：B.Gillet、S.King、“Transforming F0、Contours”，in Proc.EUROSPEECH 2003。

非专利文献3：宇藤陽介、南角吉彦、李晃伸、德田惠一、「声質変換のためのスペクトル·F0の同時モデリング」、信学技報NLC2007-50、SP2007-117(2007-12)

发明内容

然而，在非专利文献1的技术中，仅移动表示基频的时间变化的基频图形的曲线，而该基频图形的形状没有变化，因此表现于形状起伏中的语者的特征无法表现。另一方面，非专利文献3的技术与非专利文献1、2的技术相比精度高。

然而，由于需要结合频谱学习基频的模型，非专利文献3的技术存在需要大量学习数据的问题。非专利文献3的技术还具有不能够考虑诸如重音类型及音拍位置(mora position)等的重要背景信息(context information)的问题及不能够表现如重音核(accent nucleus)的提前出现或延迟上升这样的在时间轴方向上的偏差(移动)的问题。

上述专利文献1至4中公开了通过使用表示目标语者或指定说话风格的特征的频率图形的差别数据来校正作为基准的语音的频率图形的技术。然而，上述文献中的任一者中均未说明用以校正该作为基准的语音频率图形的差别数据自身的具体计算方法。

本发明是为解决上述问题点而做出的，其目的在于提供一种能够基于仅少量的学习数据来高精度地再现目标语者语音的基频的特征的技术。另外，本发明的另一目的在于提供一种能够在再现目标语者语音的基频的特征时，考虑重音类型、音拍位置等重要背景信息的技术。此外，本发明的又一目的在于提供一种对于如重音核的提前出现或延迟上升那样的在时间轴方向上的偏差(移动)，也能再现目标语者语音的基频的特征的技术。

为了解决上述问题，本发明的第一方案提供一种学习装置，学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量，上述基频图形表示基频的时间变化，该学习装置包括：关联部，将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形，以波峰与波峰对应及波谷与波谷对应的方式相关联；移动量计算部，其对上述目标语者语音的基频图形上的各点，参照关联结果，计算上述各点相对于上述作为基准的语音的基频图形上的对应点在时间轴方向上的移动量及在频率轴方向上的移动量；学习部，使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用计算出的上述移动量作为输出特征量，学习决策树。

在此，作为基准的语音的基频图形可为由作为基准的特定语者(以下称为源语者)的统计模型而得的合成语音的基频图形。由移动量计算部计算出的在该频率轴方向上的该移动量可为频率的对数的移动量。

优选是，上述关联部包括：仿射变换计算部，其计算如下这样的仿射变换集合，该仿射变换集合对上述作为基准的语音的基频图形进行变换以使上述作为基准的语音的基频图形与上述目标语者语音的基频图形之差最小；仿射变换部，其用于在将基频图形的时间轴方向没为X轴、将频率轴方向设为Y轴的情况下，将上述作为基准的语音的基频图形上的各点与上述目标语者语音的基频图形上的点相关联，上述目标语者语音的基频图形上的点的X坐标值为使用对应的上述仿射变换对该作为基准的语音的基频图形上的点的X坐标值进行变换而得的值。

更优选是，上述仿射变换计算部在用于求出上述仿射变换的处理单位的初始值设定语调片段(intonation phrase)，并递归地等分上述处理单位直至求出将上述作为基准的语音的基频图形变换成与上述目标语者语音的基频图形之差最小的图形的仿射变换为止。

优选是，由上述关联部进行的关联及由移动量计算部进行的移动量计算基于帧单位或音声单元单位来执行。

优选是，该学习装置还包括变化量计算部，该变化量计算部用于对计算出的上述移动量中的每一者的相邻点之间的变化量进行计算，上述学习部将作为静态特征量的上述移动量及作为动态特征量的上述移动量的变化量作为输出特征量来学习决策树。

更优选是，上述移动量的变化量包括：作为上述移动量的斜率的一次动态特征量和作为上述移动量的曲率的二次动态特征量。

上述变化量计算部进一步计算上述目标语者语音的基频图形上的各点中相邻点之间的在时间轴方向上及在频率轴方向上的变化量，上述学习部将上述目标语者语音的基频图形上的各点的在时间轴方向及在该频率轴方向上的值与上述静态特征量相加、将在上述时间轴方向上及在频率轴方向上的变化量与上述动态特征量相加，学习上述决策树，针对所学习的上述决策树的各叶节点，求得分配给该叶节点的各输出特征量及上述输出特征量的组合的分布。在上述频率轴方向上的值及在上述频率轴方向上的变化量可分别为频率的对数或频率的对数的变化量。

更优选是，上述学习部针对上述决策树的各叶节点使用多维单一或高斯混合模型(GMM)来将分配给该叶节点的输出特征量的分布模型化。

更优选是，针对上述目标语者语音的基频图形上的各点计算出的上述移动量是基于帧单位或音声单元单位来计算出的移动量。

上述语言信息包括与重音类型、词性(part of speech)、音素(phoneme)及音拍(mora)位置中的至少一者相关的信息。

为解决上述问题，本发明的第二方案提供一种基频图形生成装置，其基于作为基准的语音的基频图形来生成目标语者语音的基频图形，上述基频图形表示基频的时间变化，该基频图形生成装置包括：关联部，将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形，以波峰与波峰对应及波谷与波谷对应的方式相关联；移动量计算部，其对构成上述目标语者语音的基频图形的各时间序列点，参照关联结果，计算相对于构成成为上述基准的语音的基频图形的各时间序列点中对应的点在时间轴方向上的移动量及在频率轴方向上的移动量；变化量计算部，其对计算出的上述移动量分别计算相邻时间序列点之间的变化量；学习部，使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用作为静态特征量的上述移动量和作为动态特征量的上述移动量的变化量作为输出特征量，学习决策树，对于所学习的上述决策树的各叶节点，求出分配给该叶节点的输出特征量的分布；分布序列预测部，其将作为合成文本的解析结果的语言信息输入至上述决策树，预测上述各时间序列点处的上述输出特征量的分布；最优化处理部，其通过求出使根据所预测的上述输出特征量的分布序列计算出的似然度最大的移动量的序列来最优化上述移动量；目标语者基频图形生成部，其通过将上述移动量的序列与同合成文本对应的作为基准的语音的该基频图形相加来生成与上述合成文本对应的上述目标语者语音的基频图形。由移动量计算部计算出的在该频率轴方向上的移动量可为频率的对数的移动量。

为解决上述问题，本发明的第三方案提供一种基频图形生成装置，基于作为基准的语音的基频图形来生成目标语者语音的基频图形，上述基频图形表示基频的时间变化，该基频图形生成装置包括：关联部，将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形，以波峰与波峰对应及波谷与波谷对应的方式相关联；移动量计算部，其对构成上述目标语者语音的基频图形的各时间序列点，参照关联结果，计算相对于构成上述作为基准的语音的基频图形的各时间序列点中对应的点在时间轴方向上的移动量及在频率轴方向上的移动量；变化量计算部，其对计算出的上述移动量和上述目标语者语音的基频图形的各点分别计算相邻时间序列点之间的变化量；学习部，使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用作为静态特征量的上述移动量和上述目标语者语音的基频图形上的各点的值及作为动态特征量的上述移动量的变化量和上述目标语者语音的基频图形上的各点的变化量作为输出特征量，学习决策树，对于所学习的上述决策树的各叶节点，求出分配给该叶节点的各输出特征量及上述输出特征量的组合的分布；分布序列预测部，其将作为合成文本的解析结果的语言信息输入至上述决策树，预测上述各时间序列点处的上述各输出特征量及上述输出特征量的组合的分布；最优化处理部，其通过求出使根据所预测的上述输出特征量及该输出特征量的组合的分布序列计算出的似然度最大的、上述目标语者语音的基频图形上的各点在时间轴方向上及频率轴方向上的值，进行最优化处理；目标语者基频图形生成部，其通过按时间排序由上述最优化处理求出的时间轴方向上的值与对应的在频率轴方向上的值的组合，来生成上述目标语者语音的基频图形。同样，在频率轴方向上的值及在该频率轴方向上的变化量可分别为频率的对数及频率的对数的变化量。

上文基于学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量或该移动量与目标语者语音的基频图形的组合的学习装置、及利用这样的学习装置的学习结果的目标语者语音的基频图形生成装置，说明了本发明，但亦可将本发明理解为：用于使计算机执行的、一种学习目标语者语音的基频图形的移动量或上述移动量与该目标语者语音的基频图形的组合的学习方法、生成目标语者语音的基频图形的生成方法、及一种学习目标语者语音的基频图形的移动量或上述移动量与目标语者语音的基频图形的组合的学习程序。

在本发明中，为了通过校正作为基准的语音的频率图形而获得目标语者语音的频率图形，学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量，或者学习该移动量与目标语者语音的基频图形的组合，在进行上述学习时，通过将作为基准的语音的基频图形与目标语者语音的基频图形以它们的波峰与波峰对应及波谷与波谷对应的方式而相关联，以获得移动量。因此，使用上述所学习的移动量而生成的目标语者语音的基频图形能够再现表现为形状起伏的语者的特征，从而能够高精度地再现目标语者的基频特征。对于本发明的其他效果，能够根据各实施方式而理解。

附图说明

图1表示本实施方式的学习装置50及基频图形生成装置100的功能构成。

图2为表示利用本发明的实施方式的学习装置50进行的移动量的学习处理的流程的实例的流程图。

图3为表示计算图2中所示的流程图的步骤225中F0图形的关联的前半部分即仿射变换集合的处理流程的实例的流程图。

图4为表示在图3中所示的流程图的步骤305及345中执行的仿射变换最优化的处理细节的流程图。

图5为表示图2中所示的流程图的步骤225中F0图形的关联的后半部分处理即使用仿射变换集合的F0图形的关联处理流程的实例的流程图。

图6的(a)为表示与学习文本对应的作为基准的语音的F0图形及与同一学习文本对应的目标语者语音的F0图形的一个实例的图。图6的(b)为表示对各处理单位的仿射变换的实例的图。

图7的(a)为表示通过使用图6的(b)所示的仿射变换集合来变换后的、图6的(a)所示的作为基准的语音的F0图形的图。图7的(b)为表示自图6的(a)所示的作为基准的语音的F0图形至图6的(a)所示的目标语者语音的F0图形的移动量的图。

图8为表示利用本发明实施方式的基频图形生成装置100进行的基频图形生成处理的流程的实例的流程图。

图9的(a)表示应用本发明而获得的目标语者的F0图形。图9的(b)表示应用本发明而获得的目标语者的其他F0图形。

图10为表示用于实现本发明实施方式的学习装置50及基频图形生成装置100的优选信息处理装置的硬件构成的实例的图。

具体实施方式

以下，基于附图详细说明用于实施本发明的实施方式。以下的实施方式不是限定保护范围，上述实施方式中所说明的特征组合并非全部为本发明的解决方案所必需。在对实施方式的所有说明中，对于相同要素标注相同附图标记。

图1表示本实施方式的学习装置50及基频图形生成装置100的功能构成。根据本实施方式的学习装置50为一种学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量或是学习该目标语者语音的基频图形与其移动量的组合的学习装置，上述基频图形表示基频的时间变化(以下称为F0图形)。本实施方式的基频图形生成装置100为一种包括该学习装置50且使用学习结果基于作为基准的语音的F0图形来生成目标语者的语音的F0图形(以下称为目标F0图形)的基频图形生成装置。在本实施例中，作为成为基准的语音的F0图形采用源语者的语音的F0图形(以下称为源F0图形)。关于源F0图形，利用已知技术而基于源语者的大量语音数据预先获得源F0图形的统计模型。

如图1所示，本实施例的学习装置50包括文本解析部105、语言信息存储部110、F0图形分析部115、源语者模型信息存储部120、F0图形预测部122、关联部130、移动量计算部140、变化量计算部145、移动量/变化量学习部150及决策树信息存储部155。本实施例的关联部130包括仿射变换集合计算部134及仿射变换部136。

此外，如图1所示，本实施方式的基频图形生成装置100包括学习装置50，以及分布序列预测部160、最优化部165及目标F0图形生成部170。以下，作为第一实施方式说明学习目标语者的语音的F0图形的移动量的学习装置50，其后，作为第二实施方式说明使用第一实施方式的学习装置50的学习结果的基频图形生成装置100。第二实施方式的基频图形生成装置100，通过在学习处理中生成“移动量”的模型，在生成处理首先预测“移动量”且接着将上述“移动量”与“源F0图形”相加，从而生成“目标F0图形”。

最后，作为第二实施方式，说明学习目标语者语音的F0图形与其移动量的组合的学习装置50及利用其学习结果的基频图形生成装置100。第三实施方式的基频图形生成装置100，在学习处理将“移动量”与“目标F0图形”组合而模型化，在生成处理通过最优化而参照“源F0图形”直接生成“目标F0图形”。

(第一实施方式)

文本解析部105对所输入的文本执行构词分析、语法分析等，生成语言信息。语言信息包括重音类型、词性、音素及音拍位置等背景信息。第一实施方式的输入至文本解析部105的文本为用于学习目标F0图形相对于源F0图形的移动量的学习文本。

语言信息存储部110存储由文本解析部105生成的语言信息。如上所述，语言信息包括含有重音类型、词性、音素及音拍位置中的至少一者的背景信息。

F0图形分析部115接收读取学习文本的目标语者的语音信息作为输入，且分析目标语者语音的F0图形。由于可使用公知技术进行F0图形分析，因此省略其详细说明。例如可使用praat等自相关的、基于小波等技术的工具。其后，作为分析结果的F0图形从F0图形分析部115传递至后述的关联部130。

源语者模型信息存储部120存储使用并学习源语者的大量语音数据而获得的源语者的源F0图形的统计模型。可使用决策树、数量化理论I(quantification theory I)等来获得F0图形统计模型。由于这样的F0图形统计模型的学习是公知技术，因此在本文记载的是预先准备了该模型，例如可使用C4.5、weka等工具。

F0图形预测部122通过使用存储于源语者模型信息存储部120中的源语者的F0图形的统计模型来预测与学习文本对应的源语者的F0图形。具体而言，F0图形预测部122自语言信息存储部110读取与学习文本对应的语言信息，将该语言信息输入至源语者的F0图形的统计模型中。并且，F0图形预测部122从源语者的F0图形的统计模型取得源语者的F0图形作为输出。其后，将所预测的源F0图形从F0图形预测部122传递至后述的关联部130。

关联部130将与学习文本对应的源F0图形及对应于同一学习文本的目标F0图形以波峰与波峰对应及波谷与波谷对应的方式相关联。作为将两个不同F0图形相关联的方法有称为动态时间扭曲(Dynamic Time Warping)的方法。在该方法中，将一语音的各帧与另一语音的相应帧基于其倒频谱(cepstrum)及F0相似度而相关联。根据相似度的定义，可以是将F0图形的波峰、波谷的形状相关联，也可以是着重于其倒频谱、F0图形的绝对值而相关联。本申请的发明人为达成更准确的关联而进行努力研究，结果提出与上述方法不同的新方法，其使用将源F0图形变换成近似于目标F0图形的图形仿射变换。由于动态时间扭曲自身为公知方法，因此本实施例中采用使用仿射变换的关联。下文说明使用仿射变换的关联。

使用仿射变换的本实施方式的关联部130包括仿射变换集合计算部134及仿射变换部136。

仿射变换集合计算部134计算用于将源F0图形变换成与目标F0图形之差最小的图形的仿射变换集合。具体而言，该仿射变换集合计算部134将语调片段(出气段)设定为用以获得仿射变换的处理F0图形的处理单位的初始值。接着，仿射变换集合计算部134递归地等分该处理单位，直至求出将源F0图形变换成具有与目标F0图形之差为最小的图形的仿射变换，并对新的处理单位求出仿射变换。最终，仿射变换集合计算部134针对每一语调片段获得1个以上的仿真变换。所求得的仿射变换分别连同在求得该仿射变换时使用的处理单位和其源F0图形上的处理范围的起始信息临时地存储于存储区域中。稍后将说明用于计算仿射变换集合的详细程序。

在此，参照图6及图7，说明由仿射变换集合计算部134计算出的仿射变换集合。首先，图6的(a)所示的曲线图表示与同一学习文本对应的源F0图形(参照附图标记A)及目标F0图形(参照附图标记B)的一例。在图6的(a)中，曲线图的横轴表示时间，其单位为音素。曲线图的纵轴表示频率，其单位为赫兹(Hz)。如图6所示，横轴可使用音素数目或音节数目而代替秒。图6的(b)表示用于将由附图标记A表示的源F0图形变换成近似于由附图标记B表示的目标F0图形的形状的仿射变换集合。如图6的(b)所示，各仿射变换所对应的处理单位在以语调片段为最大值的每一处理范围彼此不同。

图7的(a)表示使用图6的(b)所示的仿射变换集合来实际变换后的源F0图形(参照附图标记C)。如自图7的(a)清楚地看到，变换后源F0图形的形状近似于目标F0图形(参照附图标记B)的形状。

在将F0图形的时间轴及频率轴分别视作X轴及Y轴的情况下，仿射变换部136将源F0图形上的各点与目标F0图形上的相应点相关联，目标F0图形上的该点的X坐标值是通过使用相应的仿射变换来变换源F0图形上的该点的X坐标值而获得的点。即，针对源F0图形上的各点(X_s，Y_s)的X坐标Xs，仿射变换部136通过使用关于其范围获得的仿射变换进行变换来求得X坐标X_t。接着，仿射变换部136求得X坐标为X_t的目标F0图形上的点(X_t，Y_t)，将该点(X_t，Y_t)与源F0图形上的点(X_s，Y_s)相关联。关联结果临时存储于存储区域。可基于帧单位或基于音声单元单位进行关联。

针对目标F0图形上的各点(X_t，Y_t)，移动量计算部140参照由关联部130进行的关联的结果，计算出相对于源F0图形上的点(X_s，Y_s)在时间轴方向上及在频率轴方向上的移动量(x_d，y_d)＝(Xt，Yt)-(X_s，Y_s)。在此，在频率轴方向上的移动量可为从目标F0图形上的频率对数减去源F0图形上的对应点的频率对数而获得的值。基于帧单位或音声单元单位计算出的各移动量在其后被从移动量计算部140传递至后述的变化量计算部145和移动量/变化量学习部150。

图7的(b)中的箭头(参照附图标记D)表示参照由关联部130进行的关联的结果而求得的、目标F0图形(参照附图标记B)上的每一点相对于源F0图形(参照附图标记A)的移动量。图7的(b)中所示的关联结果是通过使用图6的(b)及图7的(a)所示的仿射变换集合而获得的。

针对由移动量计算部140计算出的在时间轴方向上及在频率轴方向上的移动量中的每一个，变化量计算部145计算上述移动量与相邻点的移动量之间的变化量。如上所述，频率轴方向上的移动量的变化量可以是通过频率对数的移动量的变化量。在本实施例中，移动量的变化量包括作为移动量的斜率的一次动态特征量及作为移动量的曲率的二次动态特征量。在此，在完成三个帧的近似且第i个帧或音素的值为V[i]的情况下，通常可如下这样表达某值V的一次动态特征量及二次动态特征量：

AV[i]＝0.5*(V[i+1]-V[i-1])

Δ²V[i]＝0.5*(-V[i+1]+2V[i]-V[i-1])。

变化量计算部145将计算出的一次及二次动态特征量分布传递至后述的移动量/变化量学习部150。

移动量/变化量学习部150使用自语言信息存储部110读取的与学习文本对应的语言信息作为输入特征量及使用计算出的在时间轴方向上及在频率轴方向上的移动量作为输出特征量来学习决策树。在决策树的学习中，优选是输出特征量不仅包括作为静态特征量的移动量，还包括作为动态特征量的移动量的变化量。此时，在其后的生成目标F0图形的阶段，可能预测整个片语的最优移动量序列。

针对决策树的各叶节点，移动量/变化量学习部150使用多维单一或高斯混合模型来将分配给该叶节点的输出特征量中的分布模型化。模型化的结果是可获得每一输出特征量的平均值、方差及协方差。由于如上所述决策树的学习方法是公知技术，因此省略其详细说明，例如可使用C4.5、Weka等工具用于该学习。

决策树信息存储部155存储由移动量/变化量学习部150学习到的该决策树的信息及该决策树的每一叶节点的输出特征量的分布信息(平均值、方差及协方差)。如上所述，本实施例中的输出特征量包括在时间轴方向上的移动量及在频率轴方向上的移动量，以及该移动量的变化量(一次及二次动态特征量)。

接着，参照图2，说明第一实施方式的通过学习装置50来学习目标F0图形的移动量的学习处理的流程。下文说明中所述的“在频率轴方向上的移动量”及“移动量的变化量”分别包括频率的对数的移动量及频率对数的移动量的变化量。图2为表示由作为学习装置50的计算机执行的、学习目标F0图形相对于源F0图形的移动量的处理的整体流程的实例的流程图。处理开始于步骤200，学习装置50读取由使用者提供的学习文本。使用者可经由例如键盘等输入装置、记录介质读取装置或通信接口而将该学习文本提供至学习装置50。

接着，读取学习文本的学习装置50对其进行解析，获得包括重音类型、音素、词性、音拍位置等背景信息的语言信息(步骤205)。接着，学习装置50自源语者模型信息存储部120读取源语者的统计模型的信息，并输入所获得的语言信息，作为输出获取与学习文本对应的源F0图形(步骤210)。

学习装置50还获取读取同一学习文本的目标语者的语音信息(步骤215)。使用者可经由例如麦克风等输入装置、记录介质读取装置或通信接口而将目标语者语音的信息提供至学习装置50。然后，学习装置50分析所获得的目标语者的语音信息，获得目标语者的F0图形，即目标F0图形(步骤220)。

接着，学习装置50通过将与学习文本对应的源F0图形及与同一学习文本对应的目标F0图形以波峰与波峰对应及波谷与波谷对应的方式相关联，将对应关系存储于存储区域中(步骤225)。稍后将参照图3及图4说明关联的处理程序的详细说明。随后，针对构成目标F0图形的时间序列点，学习装置50参照所存储的对应关系，求出构成目标F0图形的时间序列点相对于构成源F0图形的时间序列点中的对应时间序列点在时间轴方向上及在频率轴方向上的移动量，即对应时间序列点之间的在时间轴方向上及在频率轴方向上的差，并将所获得的移动量存储于存储区域中(步骤230)。

学习装置50自存储区域读取所获得的在时间轴方向上及在频率轴方向上的移动量，针对时间序列点中的每一点，计算移动量的一次动态特征量及二次动态特征量作为在时间轴方向上及在频率轴方向上的变化量，并将其存储于存储区域(步骤235)。

最后，学习装置50使用作为学习文本的解析结果的语言信息作为输入特征量、使用包括在时间轴方向上及在频率轴方向上的移动量的静态特征量及与该静态特征量对应的一次及二次动态特征量作为输出特征量来学习决策树(步骤240)。并且，针对学习的决策树的各叶节点，学习装置50求得分配给该叶节点的输出特征量的分布，且所学习的决策树的信息及各叶节点中的分布信息存储于决策树信息存储部155中(步骤245)。接着，该处理结束。

在此，说明本申请的发明人最新提出的一种方法，其用于递归地求得用于将源F0图形变换成近似于目标F0图形的形式的仿射变换集合。

在该方法中，分别以语调片段来划分对应于同一学习文本的源F0图形及目标F0图形中的两F0图形，且针对通过该划分而获得的两F0图形的处理范围，分别独立地求得最优的1个以上仿射变换。在此，最优仿射变换是指使该仿射变换后的源F0图形与目标F0图形在处理范围中的误差最小的仿射变换。针对每一处理单位求得一个这样的仿射变换。

即，例如在等分处理单位以生成两个较小处理单位时，分别针对两个新处理单位重新求得一个最优仿射变换。因此，为了判定哪一仿射变换为最优仿射变换，在等分处理单位之前与之后比较仿射变换后源F0图形与目标F0图形的误差平方和(等分处理单位时的误差平方和是指对等分之前部分和等分之后部分分别求得的误差平方和之和)。但是，在可等分源F0图形的点与可等分目标F0图形的点的所有组合中，仅对可使误差平方和最小的两个点的组合作出比较，以避免做无用功。

若在等分之后的误差平方和未被判定为足够小，则针对等分之前的处理单位求得的仿射变换为最优仿射变换。因此，递归地执行上述一系列处理，直至判定在等分之后的误差平方和不足够小或在等分之后的处理单位不足够大为止。

接着，参照图3至图5详细说明将分别对应于同一学习文本的源F0图形与目标F0图形相关联的处理。图3为表示由仿射变换集合计算部134执行的、仿射变换集合的计算处理的流程的实例的流程图。图3所示的仿射变换集合的计算处理是对基于语调片段划分的两个F0图形的每一处理单位来执行。图4为表示由仿射变换集合计算部134执行的、仿射变换的最优化处理的流程的实例的流程图。图4表示在图3中所示的流程图中的步骤305及345中执行的处理的细节。

图5为表示由仿射变换部136执行的、仿射变换及关联处理的流程的实例的流程图。图5所示的处理是在对所有处理范围执行图3所示的处理之后加以执行。图3至图5表示图2所示的流程图的步骤225中所执行的处理的细节。

在图3中，处理开始于步骤300，仿射变换集合计算部134在源F0图形的处理单位U_s(0)的初始值及目标F0图形的处理单位U_t(0)的初始值分别设定语调片段。接着，仿射变换集合计算部134针对当前的处理单位求得最优仿射变换(步骤305)。稍后将参照图4说明仿射变换最优化处理的细节。在获得仿射变换之后，仿射变换集合计算部134使用计算出的仿射变换来变换源F0图形，获得变换后源F0图形与目标F0图形的误差平方和e(0)(步骤310)。

接着，仿射变换集合计算部134判定当前处理单位是否足够大(步骤315)，当判定当前处理单位并不足够大(步骤315：否)时，该处理结束。另一方面，当判定当前处理单位足够大(步骤315：是)时，仿射变换集合计算部134将各源F0图形上的可等分当前处理单位内的F0图形的所有点作为临时点，并分别存储于P_s(j)、P_t(k)(步骤320)。在此，变量j取整数1至N，变量k取整数1至M。

接着，仿射变换集合计算部134将变量j及变量k的初始值设定为1(步骤325，步骤330)，将在等分U_t(0)中的目标F0图形的点P_t(1)之前的处理范围设定为U_t(1)，将在等分U_t(0)中的目标F0图形的点P_t(1)之后的处理范围设定U_t(2)(步骤335)。同样，仿射变换集合计算部134将在等分U_s(0)中的源F0图形的点 P_s(1)之前的处理范围设定为U_s(1)，将在等分U_s(0)中的源F0图形的点P_s(1)之后的处理范围设定U_s(2)(步骤340)。并且，仿射变换集合计算部134针对U_t(1)与U_s(1)的组合及U_t(2)与U_s(2)的组合分别求出最优仿射变换(步骤345)。稍后将参照图4说明仿射变换最优化处理的细节。

在针对各组合求出仿射变换后，仿射变换集合计算部134使用计算出的仿射变换来变换各组合的源F0图形，分别求出各组合中的变换后源F0图形与目标F0图形之间的误差平方和e(1)及e(2)(步骤350)。在此，e(1)为针对等分之前部分的组合而求得的误差平方和，e(2)为针对等分之后部分的组合而求得的误差平方和。仿射变换集合计算部134将计算出的误差平方和e(1)与e(2)的总和存储于E(1，1)。重复上述的一系列处理，即自步骤325至355的处理，直至变量j的最终值为N且变量k的最终值为M为止，变量j及k的初始值及增量各为1。变量j及k的增量彼此独立地进行。

在满足结束该环的条件时，该处理继续进行至步骤360，仿射变换集合计算部134特定E(j，k)的值为最小的组合(l，m)。并且，仿射变换集合计算部134判定E(l，m)是否足够小于在等分处理单位之前求得的误差平方和e(0)(步骤365)。当E(l，m)并不足够小(步骤365：否)时，该处理结束。另一方面，当E(l，m)足够小于误差平方和e(0)(步骤365：是)时，该处理分别进行至两个不同步骤，即，步骤370及375。

在步骤370中，仿射变换集合计算部134将在等分Ut(0)中的目标F0图形的点P_s(l)之前的处理范围设定为目标F0图形的处理范围的新初始值U_t(0)，将在等分U_s(0)中的源F0图形的点P_s(m)之前的处理范围设定为源F0图形的处理范围的新初始值U_s(0)。同样，在步骤375中，仿射变换集合计算部134将在等分U_t(0)中的目标F0图形的点P_s(l)之后的处理范围设定为目标F0图形的处理范围的新初始值U_t(0)，将在等分U_s(0)中的源F0图形的点P_s(m)之后的处理范围设定为源F0图形的处理范围的新初始值U_s(0)。该处理自步骤370及375独立地返回至步骤305，以递归地执行上述一系列处理。

接着，参照图4说明用于仿射变换的最优化处理。在图4中，该处理开始于步骤400，仿射变换集合计算部134重新取样一个F0图形，以使得对于处理单位使上述F0图形数目一致。并且，仿射变换集合计算部134计算变换源F0图形以使得源F0图形与目标F0图形之间的误差最小的仿射变换(步骤405)。下文说明这样的仿射变换的计算方法。

设X轴表示时间、Y轴表示频率，在时间轴上的刻度标记对应于一帧或音素。在此，将取得关联的范围中构成源F0图形的时间序列点的(X，Y)坐标设为(U_xi，U_yi)，将构成目标F0图形的时间序列点的(X，Y)坐标设为(V_xi，V_yi)。其中，变量i取整数1至N。由于已完成重新取样，因此源F0图形及目标F0图形的时间序列点的数目相同，或各点在X轴方向上等间隔并列。在此成为问题的是是否能使用下文给定的表达式1来求得用于将(U_xi，U_yi)变换成近似于(V_xi，V_yi)的(W_xi，W_yi)的变换参数(a，b，c，d)。

[表达式1]

(\begin{matrix} w_{x, i} \\ w_{y, i} \end{matrix}) = (\begin{matrix} a & 0 \\ 0 & b \end{matrix}) (\begin{matrix} u_{x, i} - u_{x, 1} \\ u_{y, i} \end{matrix}) + (\begin{matrix} c \\ d \end{matrix})

首先，论述X分量。由于前导点的X坐标V_x1必须与W_x1一致，因此自动地求出参数c。即，c＝V_x1。同样，由于最后点的X坐标亦需要相互一致，因此如下求出参数a。

[表达式2]

a = \frac{v_{x, n} - v_{x, 1}}{u_{x, n} - u_{x, 1}}

接着，论述Y分量。按照以下表达式定义通过变换而获得的Y坐标W_yi与目标F0图形上的点的Y坐标V_yi的误差平方和。

[表达式3]

E = Σ_{i = 1}^{n} {(w_{y, i} - v_{y, i})}^{2} = Σ_{i = 1}^{n} {(b u_{y, i} + d) - v_{y, i}}^{2}

通过解出偏微分方程序，分别通过以下表达式求出使误差平方和最小的参数b及d。

[表达式4]

b = \frac{Σ_{i = 1}^{n} u_{y, i} v_{y, i} - \frac{1}{n} Σ_{i = 1}^{n} u_{y, i} Σ_{i = 1}^{n} v_{y, i}}{Σ_{i = 1}^{n} {u_{y, i}}^{2} - \frac{1}{n} {(Σ_{i = 1}^{n} u_{y, i})}^{2}}

[表达式5]

d = \frac{Σ_{i = 1}^{n} v_{y, i} - b Σ_{i = 1}^{n} u_{y, i}}{n + 1}

如上所述，求出对于处理单位的最优仿射变换。

返回图4，处理自步骤405进行至步骤410，仿射变换集合计算部134判定当前的用于求得最优仿射变换的处理是否针对处理单位U_s(0)及U_t(0)。若当前处理并非针对处理单位U_s(0)及U_t(0)(步骤410：否)，则该处理结束。另一方面，若当前处理是针对处理单位U_s(0)及U_t(0)(步骤410：是)，则仿射变换集合计算部134将在步骤405中计算出的仿射变换与当前处理单位和源F0图形上的当前处理位置相关联，并将结果临时地存储于存储区域中(步骤415)。然后，该处理结束。

接着参照图5说明仿射变换部136的仿射变换及关联处理。在图5，该处理开始于步骤500，仿射变换部136读取由仿射变换集合计算部134计算并存储的仿射变换集合。当存在多个所对应处理位置重复的仿射变换时，仅保存所对应处理单位最小的仿射变换，删除其余仿射变换(步骤505)。

其后，对于构成源F0图形的各点(X_s，Y_s)，仿射变换部136使用对其处理范围求得的仿射变换来变换X坐标X_s，分别获得值X_t(步骤510)。X轴表示时间，Y轴表示频率。接着，对于计算出的各X_t，仿射变换部136获得X坐标为X_t时的目标F0图形的Y坐标Y_t(步骤515)。最后，仿射变换部136将计算出的各点(X_t，Y_t)与作为取得该值的基础的(X_s，Y_s)相关联，并存储于存储区域中(步骤520)。接着，该处理结束。

(第二实施方式)

返回参照图1，接着说明使用第一实施方式的学习装置50的学习结果的基频图形生成装置100的功能构成。基频图形生成装置100中所包含的学习装置50的各构成部分与第一实施方式中所说明的相同，因此在此不进行说明。然而，基频图形生成装置100中所包含的学习装置50的构成部分之一的文本解析部105还作为输入文本而接收合成文本，该合成文本希望对其生成目标语者的F0图形。因此，语言信息存储部110存储与学习文本对应的语言信息及与合成文本对应的语言信息。

此外，在合成时的F0图形预测部122使用存储于源语者模型信息存储部120中的源语者的F0图形的统计模型来预测对应于合成文本的源语者的F0图形。即，F0图形预测部122自语言信息存储部110读取与合成文本对应的语言信息，将该语言信息输入至源语者的F0图形的统计模型中。并且，F0图形预测部122从源语者F0图形的统计模型获取源语者的F0图形作为输出。所预测的源F0图形其后从F0图形预测部122传递至后述的目标F0图形生成部170。

分布序列预测部160将与合成文本对应的语言信息输入至学习结果的决策树，预测各时间序列点的输出特征量的分布。即，分布序列预测部160从决策树信息存储部155读取决策树的信息及决策树的每一叶节点的输出特征量的分布信息(平均值、方差及协方差)。分布序列预测部160从语言信息存储部110读取与合成文本对应的语言信息。并且，分布序列预测部160将与合成文本对应的语言信息输入至所读取的决策树，获取各时间序列点的输出特征量的分布(平均值、方差及协方差)作为来自决策树的输出。

如上所述在本实施例中，作为输出特征量包括静态特征量及其动态特征量。并且，该静态特征量包括在时间轴方向上的移动量及在频率轴方向上的移动量。此外，对应于静态特征量的动态特征量包括一次动态特征量及二次动态特征量。所预测的输出特征量的分布(平均值、方差及协方差)的序列、即输出特征量的平均值向量及方差协方差矩阵在其后从分布序列预测部160传递至后述的最优化部165。

最优化部165通过获得使自输出特征量的分布序列计算出的似然度最大的移动量序列来最优化移动量。在下文中说明最优化处理的程序。下文说明的最优化处理的程序是针对在时间轴方向上的移动量及在频率轴方向上的移动量分别执行的。

首先，设输出特征值的变量为C_i。在此，i表示时间索引。即，在针对时间轴方向的最优化处理的状况下，Ci为在时间轴方向上的第i个帧或第i个音素的移动量。同样，在针对频率轴方向的最优化处理的状况下，C_i为第i个帧或第i个音素的频率的对数的移动量。另外，对应于C_i的一次动态特征量及二次动态特征量分别由ΔC_i及Δ²C_i表示。如下定义具有这些静态及动态特征值的观测矢量o。

[表达式6]

o = [\begin{matrix} . \\ . \\ . \\ {[c_{i - 1}, Δ c_{i - 1}, Δ^{2} c_{i - 1}]}^{T} \\ {[c_{i}, Δ c_{i}, Δ^{2} c_{i}]}^{T} \\ {[c_{i + 1}, Δ c_{i + 1}, Δ^{2} c_{i + 1}]}^{T} \\ . \\ . \\ . \end{matrix}]

如第一实施方式中所说明，ΔC_i及Δ²C_i为C_i的简单线性总和。因此，可通过使用具有所有时间点的C_i的特征矢量c来按照o＝W_c表达观测矢量o。在此，矩阵W满足以下表达式。

[表达式7]

= {w_{i, j}}

= [\begin{matrix} . & . & . \\ . & . & . \\ . & . & . \\ . . . & w_{i 3 + 1, j - 1}, & w_{i 3 + 1, j}, & w_{i 3 + 1, j + 1}, & . . . \\ . . . & w_{i 3 + 2, j - 1}, & w_{i 3 + 2, j}, & w_{i 3 + 2, j + 1}, & . . . \\ . . . & w_{i 3 + 3, j - 1}, & w_{i 3 + 3, j}, & w_{i 3 + 3, j + 1}, & . . . \\ . & . & . \\ . & . & . \\ . & . & . \end{matrix}]

= [\begin{matrix} . & . & . \\ . & . & . \\ . & . & . \\ . . . & 0, & 1, & 0, & . . . \\ . . . & - 1 / 2, & 0, & 1 / 2, & . . . \\ . . . & - 1, & 2, & - 1, & . . . \\ . & . & . \\ . & . & . \\ . & . & . \end{matrix}]

其中，i3＝3(i-1)。

由分布序列预测部160求出观测矢量o的分布的序列λ_o。于是，由于在本实施方式中观测矢量o的分量符合高斯分布，因此可按照以下表达式表达观测矢量o相对于观测矢量o的所预测的分布序列λ_o的似然度。

[表达式8]

L_{1} &equiv; \log P_{r} (o | λ_{o})

= \log P_{r} (Wc | λ_{o})

= \log P_{r} (Wc; N (μ_{o}, Σ_{o}))

= - \frac{{(Wc - μ_{o})}^{T} {Σ_{o}}^{- 1} (Wc - μ_{o})}{2} + const .,

在上述表达式中，μ_o及∑_o分别为平均值向量及方差协方差矩阵，即是由分布序列预测部160计算出的分布序列λ_o的内容。并且，用于将L₁最大化的输出特征矢量c满足以下表达式。

[表达式9]

\frac{&PartialD; L_{1}}{&PartialD; c} = \frac{W^{T} Σ_{o}^{- 1} (Wc - μ_{o})}{2} = 0

可通过使用丘列斯基(Cholesky)分解或最陡下降法等的重复计算来解答此方程序以获得特征矢量c，因此，可针对在时间轴方向上的移动量及在频率轴方向上的移动量中分别求出最优解。如此，最优化部165从输出特征量的分布的序列求出在时间轴方向上及在频率轴方向上的移动量的最有可能的序列。计算出的在时间轴方向上及在频率轴方向上的各个移动量序列在其后从最优化部165传递至后述的目标F0图形生成部。

目标F0图形生成部170通过将在时间轴方向上及在频率轴方向上的各移动量序列与对应于合成文本的源F0图形相加而生成对应于合成文本的目标F0图形。

接着参照图8，说明由本发明的第二实施方式的基频图形生成装置100进行的目标F0图形的生成处理的流程。图8为表示由作为基频图形生成装置100的计算机执行的、对应于源F0图形的目标F0图形的生成处理的整体流程的实例的流程图。处理开始于步骤800，基频图形生成装置100读取由使用者提供的合成文本。使用者可经由例如键盘等输入装置、记录介质读取装置或通信接口而将合成文本提供至基频图形生成装置100。

读取了合成文本的基频图形生成装置100接着解析该合成文本，取得包括重音类型、音素、词性及音拍位置等背景信息的语言信息(步骤805)。并且，基频图形生成装置100自源语者模型信息存储部120读取源语者的统计模型信息，将所获得的语言信息输入至该统计模型中，作为输出而取得对应于合成文本的源F0图形(步骤810)。

随后，基频图形生成装置100自决策树信息存储部155读取关于决策树信息，对其输入与合成文本对应的语言信息，作为其输出而取得在时间轴方向上及在频率轴方向上的移动量及上述移动量的变化量(包括一次及二次动态特征量)的分布序列(步骤815)。并且，基频图形生成装置100求出使自取得的移动量及移动量的变化量的分布序列计算出的似然度最大的移动量序列，从而取得最优化的移动量序列(步骤820)。

最后，基频图形生成装置100将在时间轴方向上及在频率轴方向上的最优化移动量与对应于合成文本的源F0图形相加，由此生成对应于同一合成文本的目标F0图形(步骤825)。然后，该处理结束。

图9表示应用如第二实施方式所说明的本发明而获得的目标F0图形。其中，图9的(a)中作为合成文本使用学习文本中所包含的句子，而图9的(b)中作为合成文本使用并不在学习文本中的句子。在图9的(a)及图9的(b)中的任一者中，附图标记A的实线图形表示作为基准的源语者语音的F0图形，附图标记B的点划线图形表示通过分析实际的目标语者语音而获得的F0图形，附图标记C的点线图形表示应用本发明而生成的目标语者的F0图形。

首先，论述图9的(a)。对附图标记B表示的F0图形与附图标记A表示的F0图形进行比较可看到该目标语者具有以下趋势：在片语的结束处具有高频率的趋势(参照附图标记P1)，及频率波谷向前移动的趋势(参照附图标记P2)。因此观察由附图标记C表示的F0图形，这些趋势必然再现于应用本发明而生成的目标语者的F0图形中(参照附图标记P1及P2)。

接着，论述图9的(b)。对附图标记B表示的F0图形与附图标记A表示的F0图形进行比较可看到目标语者具有在片语的结束处频率提高的趋势(参照附图标记P3)。因此观察附图标记C表示的F0图形，该趋势恰当地再现于应用本发明而生成的目标语者的F0图形中(参照附图标记P3)。图9的(b)中所示的附图标记B表示的F0图形的特性在于：在第三个语调片段中，第二个重音片语(第二个频率波峰)具有比第一个重音片语(第一个频率波峰)的波峰高的波峰(参照附图标记P4及P4′)。因此观察附图标记C表示的F0图形可看出在应用本发明而生成的目标语者的F0图形中，减小第一个重音片语而增大第二个重音片语的倾向(参照附图标记P4及P4′)。若强调位置(在此状况下为第二个重音片语)包括于语言信息，可能可更明显地表现该部分的特性。

(第三实施方式)

返回图1，说明学习目标语者语音的F0图形与其移动量的组合的学习装置50、及使用其学习结果的基频图形生成装置100。第三实施方式的学习装置50的各构成部分与第一及第二实施方式中所说明的学习装置50的各构成部分基本上相同。因此，仅说明具有不同功能的构成部分，即变化量计算部145、移动量/变化量学习部150及决策树信息存储部155。

第三实施方式的变化量计算部145除了具有第一实施方式的变化量计算部145的功能之外，还具有以下功能：即，第三实施方式的变化量计算部145还针对目标F0图形上的各点计算该点与相邻点之间的在时间轴方向上的变化量及在频率轴方向上的变化量。在此的变化量包括一次及二次动态特征量。频率轴方向上的变化量可为频率对数的变化量。计算出的一次及二次动态特征量分别被传递至后述的移动量/变化量学习部150。

第三实施方式的移动量/变化量学习部150使用自语言信息存储部110读取的作为学习文本的解析结果的语言信息作为输入特征量、及将作为静态特征量的移动量和目标F0图形上的各点的值及作为动态特征量的移动量的变化量和目标F0图形上的各点的变化量作为输出特征量，来学习决策树，并针对所学习的决策树的每一叶节点，求出分配给该叶节点的各输出特征量及上述输出特征量的组合的分布。该情况下，在使用该学习结果生成目标F0图形的阶段，可在绝对值比移动量具特性的位置处生成绝对值的模型。目标F0图形上的在频率轴方向上的值可为频率的对数。

在本实施例中，移动量/变化量学习部150针对决策树的各叶节点，使用多维单一或高斯混合模型(GMM)来生成分配给该叶节点的输出特征量的分布的模型。模型化的结果，可获得输出特征量及输出特征量的组合的各自的平均值、方差及协方差。由于如上所述决策树的学习方法是公知技术，因此省略其详细说明，例如可使用C4.5 及weka等工具用于该决策树学习。

第三实施方式的决策树信息存储部155存储由移动量/变化量学习部150学习的决策树的信息，以及决策树的每一叶节点的输出特征量及输出特征量的组合的分布信息(平均值、方差及协方差)。具体而言，存储的分布信息包括关于以下各者的分布：在时间轴方向上及在频率轴方向上的移动量；在时间轴方向上及在频率轴方向上的目标F0图形上的各点的值；这些移动量与值的组合，即在时间轴方向上的移动量与在时间轴方向上的目标F0图形上的相应点的值的组合，及在频率轴方向上的移动量与在频率轴方向上的目标F0图形上的该相应点的值的组合。另外，决策树信息存储部155存储关于上述移动量及目标F0图形上的各点的变化量的(一次及二次动态特征量)分布信息。

由第三实施方式的学习装置50进行的移动量的学习处理的流程与由第一实施方式的学习装置50进行的移动量的学习处理的流程基本上相同。然而，第三实施方式的学习装置50在图2中所示的流程图的步骤235中还执行以下处理，即，学习装置50对目标F0图形上的在时间轴方向上及在频率轴方向上的值计算一次动态特征量及二次动态特征量，且将计算出的量存储于存储区域中。

在之后的步骤240中，第三实施方式的学习装置50将作为学习文本的解析结果的语言信息作为输入特征量及将包括在时间轴方向上及在频率轴方向上的移动量和目标F0图形的在时间轴方向上及在频率轴方向上的值的静态特征量、及对应于该静态特征量的一次动态特征量及二次动态特征量作为输出特征量，来学习一决策树。在最后的步骤245中，第三实施方式的学习装置50针对所学习的决策树的每一叶节点，求得分配给该叶节点的输出特征量及输出特征量的组合的分布，将所学习的决策树的信息及每一叶节点的分布信息存储于决策树信息存储部155中，该处理结束。

接着，说明使用第三实施方式的学习装置50的学习结果的基频图形生成装置100的构成部分中的除学习装置50的外的构成部分。第三实施方式的分布序列预测部160将与合成文本对应的语言信息输入至学习结果的决策树，预测各时间序列点的输出特征量及输出特征量的组合的分布。

即，分布序列预测部160自决策树信息存储部155读取关于决策树的信息及决策树的每一叶节点的输出特征量及输出特征量的组合的分布信息(平均值、方差及协方差)，分布序列预测部160自语言信息存储部110读取与合成文本对应的语言信息。然后，分布序列预测部160将与合成文本对应的语言信息输入至读取的决策树，作为其输出取得各时间序列点的输出特征量及输出特征量的组合的分布(平均值、方差及协方差)。

如上所述，在本实施例中，作为输出特征量包括静态特征量及动态特征量。静态特征量包括在时间轴方向上及在频率轴方向上的移动量，以及目标F0图形上的在时间轴方向上及在频率轴方向上的值。另外，对应于静态特征量的动态特征量包括一次动态特征量及二次动态特征量。预测的输出特征量及输出特征量的组合的分布序列(平均值、方差及协方差)即输出特征量及输出特征量的组合的平均值向量和方差协方差矩阵在其后从分布序列预测部160传递至后述的最优化部165。

最优化部165通过求出使自输出特征量的组合的分布序列计算出的似然度最大的移动量序列来最优化移动量。在下文中说明最优化处理的程序。下文说明的最优化处理的程序是分别针对在时间轴方向上的移动量与在时间轴方向上的目标F0图形上的值的组合、及在频率轴方向上的移动量与在频率轴方向上的目标F0图形上的值的组合而单独执行。

首先，设目标F0图形上的值为y_t[j]，移动量的值为δ_y[i]。y_t[j]与δ_y[i]具有关系δ_y[i]＝y_t[j]-y_s[i]，其中y_s[i]为在源F0图形上的对应于y_t[j]的点的值。在此，j表示时间索引。即，当针对时间轴方向执行最优化处理时，y_t[j]为第j个帧或第j个音素的在时间轴方向上的值(位置)。同样，当针对频率轴方向执行最优化处理时，y_t[j]为在第 j个帧或第j个音素处的频率的对数。另外，Δy_t[j]及Δ²y_t[j]分别表示对应于y_t[j]的一次动态特征量及二次动态特征量。同样，Δδ_y[i]及Δ²δ_y[i]分别表示对应于δ_y[i]的一次动态特征量及二次动态特征量。如下定义具有这些组合量的观测矢量o。

[表达式10]

{(z_{yt} {[j]}^{T}, d_{y} {[i]}^{T})}^{T}

= (\begin{matrix} {(y_{t} [j], Δ y_{t} [j], Δ^{2} y_{t} [j])}^{T} \\ {(δ_{y} [i], Δ δ_{y} [i], Δ^{2} δ_{y} [i])}^{T} \end{matrix})

可如下表达如上文所定义的观测矢量o。

[表达式11]

o = (\begin{matrix} z_{yt} \\ d_{y} \end{matrix}) = (\begin{matrix} {Wy}_{t} \\ {Wδ}_{y} \end{matrix})

= (\begin{matrix} {Wy}_{t} \\ W (y_{t} - y_{s}) \end{matrix})

= {Uy}_{t} - {Vy}_{s}

其中，U＝(W^TW^T)^T、V＝(0^TW^T)^T，在此0表示零矩阵，矩阵W满足表达式7。

通过分布序列预测部160求出观测矢量o的分布序列λ_o。于是，可按照以下表达式表达观测矢量o相对于观测矢量o的所预测的分布序列λ_o的似然度。

[表达式12]

L = - \frac{1}{2} {(o - μ_{o})}^{T} Σ_{o}^{- 1} (o - μ_{o})

= - \frac{1}{2} {{Uy}_{t} - {Vy}_{s} - μ_{o}}^{T} Σ_{o}^{- 1} {{Uy}_{t} - {Vy}_{s} - μ_{o}}

= - \frac{1}{2} {({Uy}_{t} - {μ_{o}}^{'})}^{T} Σ_{o}^{- 1} ({Uy}_{t} - {μ_{o}}^{'})

其中，μ_o′＝Vy_s+μ_o。另外，如上所述，ys为源F0图形上的在时间轴方向上或频率轴方向上的值。

在上述表达式中，μ_o及∑_o分别为平均值向量及方差协方差矩阵，且为由分布序列预测部160计算出的分布序列λ_o的内容。具体而言，如下表达μ_o及∑_o。

[表达式13]

μ_{o} = (\begin{matrix} μ_{zy} \\ μ_{dy} \end{matrix})

其中，μ_zy为zy的平均值向量，μ_dy为dy的平均值向量，在此zy＝Wy_s、dy＝Wδ_y。在此，矩阵W也满足表达式7。

[表达式14]

Σ_{o} = (\begin{matrix} Σ_{z_{yt}} & Σ_{z_{yt} d_{y}} \\ Σ_{z_{yt} d_{y}} & Σ_{d_{y}} \end{matrix})

其中，∑_zyt为目标F0图形(在时间轴方向上或在频率轴方向上)的协方差矩阵，∑_dy为移动量(在时间轴方向上或在频率轴方向上)的协方差矩阵，∑_zytdy为目标F0图形和移动量(时间轴方向彼此或频率轴方向彼此的组合)的协方差矩阵。

另外，可通过以下表达式求得将L最大化的y_t的最优解。

[表达式15]

{\tilde{y}}_{t} = {(U^{T} Σ_{o}^{- 1} U)}^{- 1} U^{T} Σ_{o}^{- 1} {μ_{o}}^{'}

= R^{- 1} r

其中，R＝U^T∑o^-1U，r＝U^T∑o^-1μo′。需要获得∑_o的反矩阵以得到R，若协方差矩阵∑_zyt、∑_zytdy及∑_dy分别为对角矩阵，则可容易地获得∑_o的反矩阵。例如，若对角分量依次为a[i]、b[i]及c[i]，则可通过c[i]/(a[i]c[i]-b[i]²)获得∑_o的反矩阵的对角分量。

如上所述，在本实施例中，可利用最优化处理而非使用移动量来直接求得目标F0图形。应注意，在求得y_t的最优解时，需要参照y_s即源F0图形的值。所计算出的在时间轴方向上及在频率轴方向上的各值的序列在稍后从最优化部165传递至后述的目标F0图形生成部170。

目标F0图形生成部170通过按时间排序排列由最优化部165求出的在时间轴方向上的值及对应的在频率轴方向上的值的组合，来生成对应于合成文本的目标F0图形。

利用第三实施方式的基频图形生成装置100进行的目标F0图形的生成处理的流程与利用第二实施方式的基频图形生成装置100进行的目标F0图形的生成处理的流程基本上相同。然而，在图8中所示的流程图的步骤815中，第三实施方式的基频图形生成装置100自决策树信息存储部155读取决策树信息，将与合成文本对应的语言信息输入至决策树中，作为其输出而取得输出特征量及输出特征量的组合的分布(平均值、方差及协方差)的序列。

然后，在其后的步骤820中，基频图形生成装置100通过自输出特征量的组合的分布序列当中求出使所计算出的似然度最大的目标F0图形在时间轴方向上的值的序列及目标F0图形在频率轴方向上的值的序列，来执行最优化处理。

在最后的步骤825中，基频图形生成装置100通过按时间排序排列在由最优化部165求出的时间轴方向上的值及对应的在频率轴方向上的值的各组合，来生成对应于合成文本的目标F0图形。

图10为表示用于实现本发明的实施方式的实施学习装置50及基频图形生成装置100的优选的计算机硬件构成的实例的图式。该计算机包括：与总线2连接的CPU(中央处理装置)1及主存储器4。硬盘装置13和30、CD-ROM装置26和29、软盘装置20、MO装置28以及DVD装置31这样的可卸除式存储器(允许更换记录介质的外部存储系统)经由软盘控制器19、IDE控制器25、SCSI控制器27等而与总线2连接。

软盘、MO、CD-ROM及DVD-ROM这样的存储介质插入可卸除式存储器中。可将对与操作系统协作的CPU等给予指令、执行用于实施本发明的计算机程序的代码记录于这些存储介质、硬盘装置13 及30或ROM14上。即，本发明的移动量或该移动量与目标F0图形的组合的学习程序、基频图形生成程序、上文所说明的源语者模型信息等数据可存储于作为学习装置50或基频图形生成装置100的计算机的上文所说明的各种存储装置中。接着，通过将多个计算机程序载入主存储器4上来执行计算机程序。计算机程序可以压缩形式存储，或可划分为多个部分而存储于多个介质中。

计算机经由键盘/鼠标控制器5而接收来自键盘6及鼠标7那样的输入装置的输入。计算机经由音频控制器21而接收来自麦克风24的输入，自扬声器23输出语音。计算机经由图形控制器10而与用于向使用者呈现视觉数据的显示装置11连接。计算机可通过经由网络适配器18(乙太网络(注册商标)卡、符记环卡)等与网络连接，与另一计算机等通信。

自上述说明应易于理解：用于实现本发明的实施方式的学习装置50及基频图形生成装置100的优选计算机，可通过通常的个人计算机、工作站或计算机主机等信息处理装置或通过这些装置的组合来实现。上文所说明的构成部分仅为实例，且并非所有上述构成部分均为本发明所必需。

上文已使用实施方式说明了本发明，然而，本发明的保护范围不限于上述实施方式记载的范围。作为本领域技术人员显而易见，可对上述实施方式作出各种变更及改良。例如，在本实施例中，基频图形生成装置100包括学习装置50。然而，该基频图形生成装置100可仅包括学习装置50的一部分(文本解析部105、语言信息存储部110、源语者模型信息存储部120、F0图形预测部122及决策树信息存储部155)。通过作出这样的变更及改良而获得的方案自然包括于本发明的保护范围中。

Claims

1.一种学习装置，学习目标语者语音的基频图形相对于作为基准的语音的基频图形的移动量，上述基频图形表示基频的时间变化，该学习装置包括：

关联部，将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形，以波峰与波峰对应及波谷与波谷对应的方式相关联；

移动量计算部，其对上述目标语者语音的基频图形上的各点，参照关联结果，计算上述各点相对于上述作为基准的语音的基频图形上的对应点在时间轴方向上的移动量及在频率轴方向上的移动量；

学习部，其使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用计算出的上述移动量作为输出特征量来学习决策树。

2.根据权利要求1所述的学习装置，其中

上述关联部包括：

仿射变换计算部，其计算如下这样的仿射变换集合，该仿射变换集合对上述作为基准的语音的基频图形进行变换以使上述作为基准的语音的基频图形与上述目标语者语音的基频图形之差最小；

仿射变换部，其用于在将基频图形的时间轴方向设为X轴、将频率轴方向设为Y轴的情况下，将上述作为基准的语音的基频图形上的各点与上述目标语者语音的基频图形上的点相关联，该目标语者语音的基频图形上的点的X坐标值为使用对应的上述仿射变换对该作为基准的语音的基频图形上的点的X坐标值进行变换而得的值。

3.根据权利要求2所述的学习装置，其中

上述仿射变换计算部将语调片段设定为用于求出上述仿射变换的处理单位的初始值，并递归地等分上述处理单位直至求出对上述作为基准的语音的基频图形进行变换以使得与上述目标语者语音的基频图形之差最小的仿射变换为止。

4.根据权利要求1所述的学习装置，其中

由上述关联部进行的关联及由移动量计算部进行的移动量计算基于帧单位或音声单元单位来执行。

5.根据权利要求1所述的学习装置，其中，

还包括变化量计算部，该变化量计算部用于对计算出的上述移动量中的每一者的相邻点之间的变化量进行计算，

上述学习部将作为静态特征量的上述移动量及作为动态特征量的上述移动量的变化量作为输出特征量来学习决策树。

6.根据权利要求5所述的学习装置，其中

上述移动量的变化量包括：作为上述移动量的斜率的一次动态特征量和作为上述移动量的曲率的二次动态特征量。

7.根据权利要求5所述的学习装置，其中

上述变化量计算部进一步计算上述目标语者语音的基频图形上的各点中相邻点之间的在时间轴方向上及在频率轴方向上的变化量，上述学习部将上述目标语者语音的基频图形上的各点的在时间轴方向及在该频率轴方向上的值与上述静态特征量相加、将在上述时间轴方向上及在频率轴方向上的变化量与上述动态特征量相加，学习上述决策树，针对所学习的上述决策树的各叶节点，求得分配给该叶节点的各输出特征量及上述输出特征量的组合的分布。

8.根据权利要求5所述的学习装置，其中

上述学习部针对上述决策树的各叶节点使用多维单一或高斯混合模型来将分配给该叶节点的输出特征量的分布模型化。

9.根据权利要求5所述的学习装置，其中

针对上述目标语者语音的基频图形上的各点计算出的上述移动量是基于帧单位或音声单元单位来计算出的移动量。

10.根据权利要求1所述的学习装置，其中

上述语言信息包括与重音类型、词性、音素及音拍位置中的至少一者相关的信息。

11.一种基频图形生成装置，其基于作为基准的语音的基频图形来生成目标语者语音的基频图形，上述基频图形表示基频的时间变化，该基频图形生成装置包括：

移动量计算部，其对构成上述目标语者语音的基频图形的各时间序列点，参照关联结果，计算相对于构成成为上述基准的语音的基频图形的各时间序列点中对应的点在时间轴方向上的移动量及在频率轴方向上的移动量；

变化量计算部，其对计算出的上述移动量分别计算相邻时间序列点之间的变化量；

学习部，使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用作为静态特征量的上述移动量和作为动态特征量的上述移动量的变化量作为输出特征量，学习决策树，对于所学习的上述决策树的各叶节点，求出分配给该叶节点的输出特征量的分布；

分布序列预测部，其将作为合成文本的解析结果的语言信息输入至上述决策树，预测上述各时间序列点处的上述输出特征量的分布；

最优化处理部，其通过求出使根据所预测的上述输出特征量的分布序列计算出的似然度最大的移动量的序列来最优化上述移动量；

目标语者基频图形生成部，其通过将上述移动量的序列与同合成文本对应的作为基准的语音的该基频图形相加来生成与上述合成文本对应的上述目标语者语音的基频图形。

12.根据权利要求11所述的基频图形生成装置，其中

上述关联部包括：

仿射变换部，其用于在将基频图形的时间轴方向设为X轴、将频率轴方向设为Y轴的情况下，将上述作为基准的语音的基频图形上的上述各时间序列点与上述目标语者语音的基频图形上的上述各时间序列点相关联，上述目标语者语音的基频图形上的各时间序列点的X坐标值为使用对应的上述仿射变换对该作为基准的语音的基频图形上的时间序列点的X坐标值进行变换而得的值。

13.根据权利要求11所述的基频图形生成装置，其中

上述学习部求得分配给上述叶节点的输出特征量的平均值、方差及协方差。

14.一种基频图形生成装置，基于作为基准的语音的基频图形来生成目标语者语音的基频图形，上述基频图形表示基频的时间变化，该基频图形生成装置包括：

移动量计算部，其对构成上述目标语者语音的基频图形的各时间序列点，参照关联结果，计算相对于构成上述作为基准的语音的基频图形的各时间序列点中对应的点在时间轴方向上的移动量及在频率轴方向上的移动量；

变化量计算部，其对计算出的上述移动量和上述目标语者语音的基频图形的各点分别计算相邻时间序列点之间的变化量；

学习部，使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用作为静态特征量的上述移动量和上述目标语者语音的基频图形上的各点的值及作为动态特征量的上述移动量的变化量和上述目标语者语音的基频图形上的各点的变化量作为输出特征量，学习决策树，对于所学习的上述决策树的各叶节点，求出分配给该叶节点的各输出特征量及上述输出特征量的组合的分布；

分布序列预测部，其将作为合成文本的解析结果的语言信息输入至上述决策树，预测上述各时间序列点处的上述各输出特征量及上述输出特征量的组合的分布；

最优化处理部，其通过求出使根据所预测的上述输出特征量及该输出特征量的组合的分布序列计算出的似然度最大的、上述目标语者语音的基频图形上的各点在时间轴方向上及频率轴方向上的值，进行最优化处理；

目标语者基频图形生成部，其通过按时间排序由上述最优化处理求出的时间轴方向上的值与对应的在频率轴方向上的值的各组合，来生成上述目标语者语音的基频图形。

15.根据权利要求14所述的基频图形生成装置，其中

上述关联部包括：

16.一种学习方法，通过计算机的计算处理，学习目标语者语音的基频图形相对于作为基准的语音的基频图形之间的移动量，上述基频图形表示基频的时间变化，该学习方法包括以下步骤：

将与学习文本对应的作为基准的语音的基频图形与同上述学习文本对应的目标语者语音的基频图形，以波峰与波峰对应及波谷与波谷对应的方式相关联，并将关联关系存储于上述计算机的存储区域；

从上述存储区域读出上述关联关系，对上述目标语者语音的基频图形上的各点，求出上述各点相对于上述作为基准的语音的基频图形上的对应点在时间轴方向上的移动量及在频率轴方向上的移动量，并将该移动量存储于上述存储区域；

从上述存储区域读出上述移动量，使用作为上述学习文本的解析结果的语言信息作为输入特征量、使用上述移动量作为输出特征量，学习决策树。

17.根据权利要求16所述的学习方法，其中

上述关联包括以下子步骤：

第一子步骤，其计算如下这样的仿射变换集合，该仿射变换集合对上述作为基准的语音的基频图形进行变换以使上述作为基准的语音的基频图形与上述目标语者语音的基频图形之差最小；

第二子步骤，其在将基频图形的时间轴方向设为X轴、将频率轴方向设为Y轴的情况下，将上述基准的基频图形上的各点与上述目标语者语音的基频图形上的点相关联，该目标语者语音的基频图形上的点的X坐标值为使用对应的上述仿射变换对上述基准的基频图形上的各点的X坐标值进行变换而得的值。