CN104347080B

CN104347080B - 语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质

Info

Publication number: CN104347080B
Application number: CN201410392430.2A
Authority: CN
Inventors: 橘诚
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-08-09
Filing date: 2014-08-11
Publication date: 2018-08-10
Anticipated expiration: 2034-08-11
Also published as: US9355628B2; EP2838082B1; JP6171711B2; EP2980786A1; EP2983168A1; EP2980786B1; CN104347080A; EP2838082A1; JP2015034920A; US20150040743A1; EP2983168B1

Abstract

本发明公开了语音分析装置和语音分析方法，该语音分析方法包括产生相对音高的时间序列的变量提取步骤。所述相对音高是从乐曲数据产生的在时间轴上连续波动的音高和参考语音的音高之差。所述乐曲数据按时间序列指定乐曲的各个音符。所述参考语音是通过歌唱所述乐曲而得到的语音。通过对其中未检测到音高的无语音区间进行插值处理来处理所述参考语音的音高。所述语音分析方法还包括特性分析步骤，其产生定义了用于表示在所述变量提取步骤中产生的相对音高的时间序列的模型的歌唱特性数据。

Description

语音分析方法和装置、语音合成方法和装置、以及存储语音分析程序的介质

相关申请的交叉引用

本申请要求于2013年8月9日提交的日本申请JP 2013-166311的优先权，其全部内容通过引用合并到本申请中。

技术领域

本发明涉及语音分析方法、语音分析装置、语音合成方法、语音合成装置、以及存储语音分析程序的计算机可读介质。

背景技术

现已提出通过使用表示多个状态之间的概率转变的概率模型来产生声音的特征量的时间序列的技术。例如，在日本专利申请公开第2011-13454号所公开的技术中，采用隐式马尔可夫模型(hidden Markov model,HMM)的概率模型被用来产生音高的时间序列(音高曲线)。通过根据从概率模型产生的音高的时间序列驱动声音产生器(例如，正弦波产生器)并执行与歌词的音素相对应的滤波器处理来合成期望乐曲的歌唱语音。然而，在日本专利申请公开第2011-13454号所公开的技术中，对相邻音符的每个组合产生概率模型，因此，为了对各种各样的乐曲产生歌唱语音，需要对大量的音符组合产生概率模型。

日本专利申请公开第2012-37722号公开了如下配置：其用于产生形成乐曲的每个音符的音高和该乐曲的歌唱语音的音高之间的相对值(相对音高)的概率模型。在日本专利申请公开第2012-37722号所公开的技术中，通过使用相对音高来产生概率模型，其优点在于，无需为大量音符组合的每一个提供概率模型。

发明内容

然而，在日本专利申请公开第2012-37722号所公开的技术中，乐曲的每个音符的音高离散地(不连续地)波动，因此，相对音高在音高相异的各音符之间的分界时间点处不连续地波动。因此，通过施加相对音高产生的合成语音可能发出听感不自然的语音。鉴于上述情况，本发明的一个或多个实施例的目标是产生能够产生听感自然的合成语音的相对音高的时间序列。

在本发明的一个或多个实施例中，语音分析方法包括产生相对音高的时间序列的变量提取步骤。所述相对音高是从乐曲数据中产生的在时间轴上连续地波动的音高和参考语音的音高之差。所述乐曲数据按时间序列指定乐曲的各个音符。所述参考语音是通过歌唱所述乐曲而得到的语音。通过对未检测到音高的无语音区间进行插值处理来处理参考语音的音高。所述语音处理方法还包括特性分析步骤，其产生定义了用于表示在所述变量提取步骤中产生的相对音高的时间序列的模型的歌唱特性数据。

在本发明的一个或多个实施例中，语音分析装置包括变量提取单元，其被配置为产生相对音高的时间序列。所述相对音高是从乐曲数据产生的在时间轴上连续波动的音高和参考语音的音高之差。所述乐曲数据按时间序列指定乐曲的各个音符。所述参考语音是通过歌唱所述乐曲而得到的语音。通过对未检测到音高的无语音区间进行插值处理来处理参考语音的音高。所述语音处理装置还包括特性分析单元，其被配置为产生定义了表示在所述变量提取单元中产生的相对音高的时间序列的模型的歌唱特性数据。

在本发明的一个或多个实施例中，非瞬时计算机可读记录介质上存储有语音分析程序，该语音分析程序包括用于产生相对音高的时间序列的变量提取指令。所述相对音高是从乐曲数据产生的在时间轴上连续波动的音高和参考语音的音高之差。所述乐曲数据按时间序列指定乐曲的各个音符。所述参考语音是通过歌唱所述乐曲而得到的语音。通过对未检测到音高的无语音区间进行插值处理来处理参考语音的音高。所述语音分析程序还包括特性分析指令，其用于产生定义了表示由所述变量提取指令产生的相对音高的时间序列的模型的歌唱特性数据。

在本发明的一个或多个实施例中，语音合成方法包括变量设置步骤，其基于用于合成的乐曲数据和至少一个歌唱特性数据来产生相对音高转变(relative pitchtransition)。所述用于合成的乐曲数据按时间序列指定要受到语音合成的第一乐曲的各个音符。所述至少一个歌唱特性数据定义了表示相对音高的时间序列的模型。所述相对音高是第一音高和第二音高之差。所述第一音高从乐曲数据产生并且在时间轴上连续波动，所述乐曲数据按时间序列指定第二乐曲的各个音符。第二音高是通过歌唱第二乐曲而获得的参考语音的音高。通过对未检测到音高的无语音区间进行插值处理来处理第二音高。所述语音合成方法还包括语音合成步骤，其基于用于合成的乐曲数据、表示各个音素的语音段组和相对音高转变来产生语音信号。

在本发明的一个或多个实施例中，语音合成装置包括变量设置单元，其被配置为基于用于合成的乐曲数据和至少一个歌唱特性数据来产生相对音高转变。所述用于合成的乐曲数据按时间序列指定要受到语音合成的第一乐曲的各个音符。所述至少一个歌唱特性数据定义了表示相对音高的时间序列的模型。相对音高是第一音高和第二音高之差。所述第一音高从乐曲数据产生并且在时间轴上连续波动，所述乐曲数据按时间序列指定第二乐曲的各个音符。第二音高是通过歌唱第二乐曲而获得的参考语音的音高。第二音高通过对未检测到音高的无语音区间进行插值处理来处理。所述语音合成装置还包括语音合成单元，其被配置为基于用于合成的乐曲数据、表示各个音素的语音段组以及相对音高转变来产生语音信号。

为了解决上述问题，根据本发明的一个实施例的语音分析装置包括变量提取单元，其被配置为产生相对音高的时间序列，该相对音高是从用于按时间序列对乐曲的每个音符进行指定的乐曲数据产生的音高和通过歌唱乐曲而获得的参考语音的音高之差；特性分析单元，其被配置为产生定义了用于表示通过变量提取单元产生的相对音高的时间序列的概率模型的歌唱特性数据。在上述配置中，作为从乐曲数据产生的在时间轴上连续波动的音高和参考语音的音高之差的相对音高的时间序列被表示为概率模型，因此，与其中乐曲的每个音符的音高和参考语音的音高之差被计算为相对音高的配置相比，相对音高的不连续波动被抑制。因此，可以产生听感自然的合成语音。

根据本发明的优选实施例，所述变量提取单元包括：转变产生单元，其被配置为从乐曲数据产生在时间轴上连续波动的音高；音高检测单元，其被配置为检测通过歌唱乐曲而获得的参考语音的音高；插值处理单元，其被配置为对参考语音的未检测到音高的无语音区间设置音高；以及差计算单元，其被配置为计算由转变产生单元产生的音高和通过插值处理产生的音高之差以作为相对音高。在上述配置中，对没有检测到参考语音的音高的无语音区间设置音高，由此缩短静音区间。因此，优点在于，能够有效抑制相对音高的不连续波动。根据本发明的另一优选实施例，插值处理单元被进一步配置为：根据紧接无语音区间前的第一区间内的音高的时间序列，设置紧接该无语音区间的紧接该第一区间后的第一插值区间内的音高；以及根据紧接所述无语音区间后的第二区间内的音高的时间序列，设置该无语音区间的紧接该第二区间前的第二插值区间内的音高。在上述实施例中，根据在无语音区间之前和之后的有语音区间内的音高来近似地设置所述无语音区间内的音高，因此，抑制由乐曲数据指定的乐曲的有语音区间内的相对音高的不连续的波动的上述效果是显著的。

根据本发明的优选实施例，所述特性分析单元包括：区间设置单元，其被配置为通过使用预定持续时间作为单位来将乐曲分成多个单位区间；分析处理单元，其被配置为针对概率模型的多个状态的每一个来产生歌唱特性数据，该歌唱特性数据包括：决策树，其将通过所述区间设置单元划分而获得的多个单位区间分类到多个集合中；和变量信息，其定义了被分类到各个集合的每个单位区间内的相对音高的时间序列的概率分布。在上述实施例中，概率模型是通过使用预定持续时间作为单位来定义的，其优点在于，例如，与其中通过使用音符作为单位来分配概率模型的配置相比，可以与持续时间的长度无关地精确控制歌唱特性(相对音高)。

当针对概率模型的多个状态的每一个来产生完全独立的决策树时，单位区间内的相对音高的时间序列特性可能在状态间不同，结果合成的语音可能变成给出听起来不自然的印象的语音(例如，实际无法发出的语音或者与实际发声不同的语音)。鉴于上述情况，根据本发明的优选实施例的分析处理单元从概率模型的多个状态共同的基本决策树产生每个状态的决策树。在上述实施例中，从概率模型的多个状态共同的基本决策树来产生每个状态的决策树，与其中针对概率模型的多个状态的每一个来产生相互独立的决策树的配置相比，其优点在于，相邻状态之间的相对音高的转变特性显著不同的可能性被降低，可以产生听感自然的合成语音(例如，可以如实际那样发声的语音)。需要注意，从共同的基本决策树产生的针对各个状态的决策树彼此部分或完全共同。

根据本发明的优选实施例，每个状态的决策树包括与通过在时间轴上划分乐曲所获得的每个乐句和单位区间之间的关系相对应的条件。在上述实施例中，针对决策树的每个节点设置与单位区间和乐句之间的关系相关的条件，因此可以产生将单位区间和乐句之间的关系考虑在内的听感自然的合成语音。

附图说明

图1是根据本发明的第一实施例的语音处理系统的框图。

图2是变量提取单元的操作的说明图。

图3是该变量提取单元的框图。

图4是插值处理单元的操作的说明图。

图5是特性分析单元的框图。

图6是概率模型和歌唱特性数据的说明图。

图7是决策树的说明图。

图8是语音分析装置的操作的流程图。

图9是乐谱图像和转变图像的示意图。

图10是语音合成装置的操作的流程图。

图11是第一实施例的效果的说明图。

图12是根据本发明的第二实施例的乐句的说明图。

图13是根据本发明的第三实施例的示出相对音高和控制变量之间的关系的曲线图。

图14是根据本发明的第四实施例的校正相对音高的说明图。

图15是根据第四实施例的变量设置单元的操作的流程图。

图16是根据本发明的第五实施例的产生决策树的说明图。

图17是根据第五实施例的用于决策树的共同条件的说明图。

图18是根据本发明的第六实施例的特性分析单元的操作的流程图。

图19是根据第六实施例的产生决策树的说明图。

图20是根据本发明的第七实施例的变量设置单元的操作的流程图。

具体实施方式

(第一实施例)

图1是根据本发明的第一实施例的语音处理系统的框图。语音处理系统是产生和使用用于语音合成的数据的系统，其包括语音分析装置100和语音合成装置200。语音分析装置100产生表示特定歌唱者(以下称作“参考歌唱者”)的歌唱风格的歌唱特性数据Z。歌唱风格意思是，例如，诸如参考歌唱者独特的歌唱方式(例如，声调曲线(expressioncontour))或音乐表现力(例如，准备音、过调音(overshoot)和颤音)之类的表现方法。语音合成装置200通过用于施加由语音分析装置100所产生的歌唱特性数据Z的语音合成来产生反映了参考歌唱者的歌唱风格的任意乐曲的歌唱语音的语音信号V。即，即使当对于期望的乐曲不存在参考歌唱者的歌唱语音时，也可以针对该乐曲产生添加了参考歌唱者的歌唱风格的歌唱语音(即，歌唱该乐曲的参考歌唱者的语音)。需注意，在图1中，语音分析装置100和语音合成装置200被例示为分开的装置，但是语音分析装置100和语音合成装置200可以实现为单个装置。

(语音分析装置100)

如图1例示，语音分析装置100通过包括处理器单元12和存储装置14的计算机系统来实现。存储装置14存储由处理器单元12执行的语音分析程序GA和由处理器单元12使用的各种数据。可任意地采用诸如半导体记录介质或磁记录介质之类的公知记录介质或多种记录介质的组合来作为存储装置14。

根据第一实施例的存储装置14存储用于产生歌唱特性数据Z的参考乐曲数据XB和参考语音数据XA。如图2例示，参考语音数据XA表示歌唱特定乐曲(下文中称作“参考乐曲”)的参考歌唱者的语音(下文称作“参考语音”)的波形。另一方面，参考乐曲数据XB表示与参考语音数据XA相对应的参考乐曲的乐谱。具体地，从图2可知，参考乐曲数据XB是对形成该参考乐曲的每个音符按时间序列指定音高、发声时段和歌词(发声字符)的时间序列数据(例如，VSQ格式的文件、MusicXML、SMF(标准MIDI文件))。

图1中示出的处理器单元12执行存储在存储装置14中的语音分析程序GA，并实现用于产生参考歌唱者的歌唱特性数据Z的多个功能(变量提取单元22和特性分析单元24)。需注意，也可以采用其中处理器单元12的各个功能被分派给多个装置的配置或者其中处理器单元12的一部分功能通过专用电路(例如，DSP)实现的配置。

变量提取单元22获取由参考语音数据XA表示的参考语音的特征量的时间序列。根据第一实施例的变量提取单元22连续地计算通过施加了参考乐曲数据XB的语音合成而产生的语音(下文称作“合成语音”)的检测PB和由参考语音数据XA表示的参考语音的音高PA之间的差(下文称作“相对音高”)R，以作为特征量。即，相对音高R也可以释译为参考语音的音高弯曲的数值(参考语音的音高PA相对于合成语音的音高PB的波动量)。如图3例示，根据第一实施例的变量提取单元22包括转变产生单元32、音高检测单元34、插值处理单元36和差计算单元38。

转变产生单元32设置通过施加了参考乐曲数据XB的语音合成产生的合成语音的音高PB的转变(下文称作“合成音高转变”)CP。在施加了参考乐曲数据XB的拼接语音合成中，根据由参考乐曲数据XB针对各个音符指定的音高和发声时段来产生合成音高转变(音高曲线)CP，并将与各个音符的歌词相对应的语音段调整为将要彼此拼接的合成音高转变CP的音高PB，从而产生合成语音。转变产生单元32根据参考乐曲的参考乐曲数据XB来产生合成音高转变CP。从上述说明可以理解，合成音高转变CP通过歌唱语音与参考乐曲的音高CP的模型(典型)轨迹相对应。需注意，合成音高转变CP可以用于上述的语音合成，但是对于根据第一实施例的语音分析装置100，只要产生与参考乐曲数据相对应的合成音高转变CP即可，不必实际产生合成语音。

图2示出了从参考乐曲数据XB产生的合成音高转变CP。如图2例示的，由参考乐曲数据XB针对每个音符指定的音高离散地(不连续地)波动，而音高PB在合成语音的合成音高转变CP中连续地波动。即，合成语音的音高PB从与任意一个音符相对应的音高的数值连续地波动到与下一个音符相对应的音高的数值。从上述说明可以理解，根据第一实施例的转变产生单元32产生合成音高转变CP使得合成语音的音高PB在时间轴上连续地波动。需注意，可以使用例如日本专利申请公开第2003-323188号第0074段到0081段中所公开的技术来产生合成音高转变CP。在该技术中，在执行语音合成过程中，通过在语音单位的变化之前和之后将音高模型赋予给不连续的音高变化曲线，从而音高在语音单位发生变化的时间点处自然地变化。在这种情况下，在日本专利申请第2003-323188中公开的“被赋予了音高模型的音高变化曲线”与例如根据本实施例的“合成音高转变”相对应。

图3示出的音高检测单元34依次地检测由参考语音数据XA表示的参考语音的音高PA。可任意地采用公知技术以检测音高PA。从图2可以理解，从参考语音中不存在谐波结构的无语音区间(例如，辅音区间或静音区间)没有检测到音高PA。图3示出的插值处理单元36对参考语音的无语音区间设置(插入)音高PA。

图4是插值处理单元36的操作的说明图。图4中例示出了其中检测到参考语音的音高PA的有语音区间σ1和有语音区间σ2以及它们之间的无语音区间(辅音区间或静音区间)σ0。插值处理单元36根据有语音区间σ1和有语音区间σ2内的音高PA的时间序列来设置无语音区间σ0内的音高PA。

具体地，插值处理单元36根据具有预定长度且位于有语音区间σ1的终点端的区间(第一区间)ηA1内的音高PA的时间序列，来设置具有预定长度且位于无语音区间σ0的起点端的插值区间(第一插值区间)ηA2内的音高PA的时间序列。例如，区间ηA1内的音高PA的时间序列的近似线(例如，回归线)L1上的每个数值被设置为紧接在区间ηA1后的插值区间ηA2内的音高PA。即，有语音区间σ1内的音高PA的时间序列也被扩展到无语音区间σ0，使得音高PA的转变从有语音区间σ1(区间ηA1)继续穿过随后的无语音区间σ0(插值区间ηA2)。

类似地，插值处理单元36根据具有预定长度且位于有语音区间σ2的起点端的区间(第二区间)ηB1内的音高PA的时间序列，来设置具有预定长度且位于无语音区间σ0的终点端的插值区间(第二插值区间)ηB2内的音高PA的时间序列。例如，区间ηB1内的音高PA的时间序列的近似线(例如，回归线)L2上的每个数值被设置为紧接在区间ηB1后的插值区间ηB2内的音高PA。即，有语音区间σ2内的音高PA的时间序列也被扩展到无语音区间σ0，使得音高PA的转变从有语音区间σ2(区间ηB1)继续穿过紧接于前的无语音区间σ0(插值区间ηB2)。需注意，区间ηA1和插值区间ηA2被设置为相等的时间长度，区间ηB1和区间ηB2被设置为相等的时间长度。但是，各区间之间的时间长度可以不同。此外，区间ηA1和区间ηB1之间的时间长度可以不同或相同，插值区间ηA2和插值区间ηB2之间的时间长度可以不同或相同。

如图2和图4例示的，图3示出的差计算单元38依次地计算将由转变产生单元32计算的合成语音的音高PB(合成音高转变CP)和通过插值处理单元36处理的参考语音的音高PA之差，以作为相对音高R(R＝PB-PA)。如图4例示的，当插值区间ηA2和插值区间ηB2在无语音区间σ0内彼此隔开时，差计算单元38将在插值区间ηA2和插值区间ηB2之间的间隔内的相对音高R设置成预定数值(例如，0)。根据第一实施例的变量提取单元22通过上述配置和处理产生相对音高R的时间序列。

图1示出的特性分析单元24分析由变量提取单元22产生的相对音高R的时间序列以产生歌唱特性数据Z。如图5例示的，根据第一实施例的特性分析单元24包括区间设置单元42和分析处理单元44。

区间设置单元42将由变量提取单元22产生的相对音高R的时间序列在时间轴上分隔成多个区间(下文称作“单位区间”)UA。具体地，如从图2理解的，根据第一实施例的区间设置单元42通过使用预定持续时间(下文称作“片段”)作为单位来将相对音高R的时间序列在时间轴上分隔成多个单位区间UA。片段具有例如与16分音符相对应的时间长度。即，一个单位区间UA包括参考乐曲内与片段相对应的区间上的相对音高R的时间序列。区间设置单元42通过参照参考乐曲数据XB来在参考乐曲内设置多个单位区间UA。

图5示出的分析处理单元44根据由区间设置单元42产生的每个单位区间UA的相对音高R来产生参考歌唱者的歌唱特性数据Z。图6示出的概率模型M被用来产生歌唱特性数据Z。根据第一实施例的概率模型M是由N个状态St(N是等于或大于2的自然数)定义的隐式半马尔可夫模型(HSMM)。如图6例示的，歌唱特性数据Z包括与概率模型M的相互不同的状态St相对应的N个单位数据z[n](z[1]到z[N])。与概率模型M的第n个(n＝1至N)状态St相对应的一个单位数据z[n]包括决策树T[n]和变量信息D[n]。

分析处理单元44通过机器学习(决策树学习)来产生决策树T[n]以依次地确定是否满足与单位区间UA相关的预定条件(问题)。决策树T[n]是用于将单位区间UA分类(聚类)到多个集合中的分类树，其被表示为多个节点ν(νa，νb，νc)在多个层级上相互链接的树状结构。如图7例示的，决策树T[n]包括作为分类的起点位置的根节点va、与最终级分类相对应的多个(K)叶节点νc以及位于从根节点νa到每个叶节点νc的路径上的分支点处的中间节点(内部节点)νb。

在根节点νa和中间节点νb处，例如，确定是否满足诸如以下条件(上下文)：单位区间UA是否是静音区间、单位区间UA内的音符是否比16分音符更短、单位区间UA是否位于音符的起点端以及单位区间UA是否位于音符的终点端。根据例如最小描述长度(MDL)基准来确定停止各个单位区间UA的分类的时间点(确定决策树T[n]的时间点)。概率模型M的各个状态St之间的决策树T[n]的结构(例如，中间节点νb的数量、其条件以及叶节点νc的数量k)是不同的。

图6示出的关于单位数据z[n]的变量信息D[n]是定义与概率模型的第n个状态St相关的变量(概率)的信息，如图6例示的，该信息包括与决策树T[n]的相互不同的叶节点νc相对应的K个变量组Ω[k](Ω[1]到Ω[K])。变量信息D[n]的第k个(k＝1到K)变量组Ω[k]是与决策树T[n]的K个叶节点νc之中的被分类到第k个叶节点νc的每个单位区间UA内的相对音高R相对应的变量的集合，该变量组Ω[k]包括变量ω0、变量ω1、变量ω2和变量ωd。变量ω0、变量ω1和变量ω2的每一个是定义与相对音高R相关的发生概率的概率分布的变量(例如，概率分布的平均值和分布)。具体地，变量ω0定义相对音高R的概率分布，变量ω1定义相对音高R的时间变化(微分值)△R的概率分布，以及变量ω2定义相对音高的二次微分值△²R的概率分布。此外，变量ωd是定义状态St的持续时间的概率分布的变量(例如，概率分布的平均值和分布)。分析处理单元44设置单位数据z[n]的变量信息D[n]的变量组Ω[k](ω0至ω2和ωd)，使得被分类到与概率模型M的第n个状态St相对应的决策树T[n]的第k个叶节点νc中的多个单位区间UA的相对音高R的发生概率变得最大。针对概率模型M的每个状态St由上述过程产生的包括决策树T[n]和变量信息D[n]在内的歌唱特性数据Z被存储到存储装置14上。

图8是通过语音分析装置100(处理器单元12)执行处理以产生歌唱特性数据Z的流程图。例如，当语音分析程序GA被指示启动时，开始图8的处理。当启动语音分析程序GA时，转变产生单元32从参考乐曲数据XB产生合成音高转变CP(音高PB)(SA1)。此外，音高检测单元34检测由参考语音数据XA表示的参考语音的音高PA(SA2)，并且插值处理单元36通过使用由音高检测单元34检测的音高PA进行插值来设置参考语音的无语音区间中的音高PA(SA3)。差计算单元38计算在步骤SA1中产生的音高PB和在步骤SA3中受到插值每个音高PA之差，以作为相对音高R(SA4)。

另一方面，区间设置单元42参照参考乐曲数据XB，以便针对每个片段将参考乐曲分隔成多个单位区间UA(SA5)。分析处理单元44针对概率模型M的每个状态St通过机器学习来产生施加了每个单位区间UA的决策树T[n](SA6)，并产生与被分类到决策树T[n]的每个叶节点νc中的每个单位区间UA内的相对音高相对应的变量信息D[n](SA7)。之后，分析处理单元44针对概率模型M的每个状态St，将包括单位数据z[n](其包括在步骤SA6中产生的决策树T[n]和在步骤SA7中产生的变量信息D[n])的歌唱特性数据Z存储到存储装置14上。针对参考歌唱者(参考语音数据XA)和参考乐曲数据XB的每个组合重复进行上述操作，以便在存储装置54上积累与相互不同的参考歌唱者相对应的多个歌唱特性数据Z。

(语音合成装置200)

如上所述，图1示出的语音合成装置200是通过施加了由语音分析装置100产生的歌唱特性数据Z的语音合成来产生语音信号V的信号处理装置。如图1例示的，通过包括处理器单元52、存储装置54、显示装置56、输入装置57和发声装置58的计算机系统(例如，移动电话或个人计算机之类的信息处理装置)来实现语音合成装置200。

显示装置56(例如，液晶显示面板)按照处理器单元52的指示来显示图像。输入装置57是用于接收由用户发布给语音合成装置200的指令的操作装置，其包括，例如，用户将操作的多个操作器。需注意，可以采用与显示装置56一体构成的触摸面板作为输入装置57。发声装置58(例如，扬声器和耳机)将通过施加了歌唱特性数据Z的语音合成产生的语音信号V再现为声音。

存储装置54存储由处理器单元52执行的程序(GB1、GB2和GB3)以及由处理器单元52使用的各种数据(语音段组YA和用于合成的乐曲数据YB)。可以任意地采用诸如半导体记录介质或磁记录介质之类的公知记录介质或多种记录介质的组合作为存储装置54。由语音分析装置100产生的歌唱特性数据Z通过例如Internet之类的通信网络或者便携式记录介质等媒介从语音分析装置100传输到语音合成装置200的存储装置54。与不同参考歌唱者相对应的多个歌唱特性数据Z可以存储在存储装置54中。

根据第一实施例的存储装置54存储了语音段组YA和用于合成的音乐数据YB。语音段组YA是用作用于拼接语音合成的材料的多个语音段的集合(语音合成库)。语音段是用作区分语言学意义的最小单位的音素(例如，元音或辅音)或拼接多个音素的音素链(例如，双音素或三音素)。需注意，每个语音段的讲话者和参考歌唱者可以相同或不同。用于合成的乐曲数据YB表示将要进行语音合成的乐曲(下文称作“用于合成的乐曲”)的乐谱。具体地，用于合成的乐曲数据YB是按时间序列指定形成用于合成的乐曲的每个音符的音高、发声时段和歌词的时间序列数据(例如，VSQ格式的文件)。

根据第一实施例的存储装置54存储编辑程序GB1、特性赋予程序GB2和语音合成程序GB3。编辑程序GB1是用于创建和编辑用于合成的乐曲数据YB的程序(乐谱编辑器)。特性赋予程序GB2是用于将歌唱特性数据Z施加到语音合成的程序，并被提供为例如嵌入软件以增强编辑程序GB1的功能。语音合成程序GB3是通过执行语音合成来产生语音信号V的程序(语音合成引擎)。需注意，特性赋予程序GB2也可以与编辑程序GB1或语音合成程序GB3部分地结合到一起。

处理器单元52执行存储在存储装置54中的程序(GB1、GB2和GB3)并实现用于编辑用于合成的乐曲数据YB和用于产生语音信号V的多个功能(信息编辑单元62、变量设置单元64和语音合成单元66)。信息编辑单元62通过编辑程序GB1实现，变量设置单元64通过特性赋予程序GB2实现，语音合成单元66通过语音合成程序GB3实现。需注意，也可采用其中处理器单元52的各个功能被分派给多个装置的配置或其中处理器单元52的部分功能通过专用电路(例如，DSP)实现的配置。

信息编辑单元62根据由用户通过输入装置57发出的指令来编辑用于合成的乐曲数据YB。具体地，信息编辑单元62在显示装置56上显示图9所示的表示用于合成的乐曲数据YB的乐谱图像562。乐谱图像562是通过在设置有时间轴和音高轴的区域内排列表示由用于合成的乐曲数据YB指定的各个音符的图形符号而获得的图像(钢琴条形屏幕(piano rollscreen))。信息编辑单元62根据用户在乐谱图像562上发出的指令来编辑存储装置54内的用于合成的乐曲数据YB。

用户适当地操作输入装置57以便指示特性赋予程序GB2的启动(即，歌唱特性数据Z的施加)，并从存储装置54内的多个歌唱特性数据Z中选择期望参考歌唱者的歌唱特性数据Z。图1所示的并通过特性赋予程序GB2实现的变量设置单元64设置与由信息编辑单元62产生的用于合成的乐曲数据YB和由用户选择的歌唱特性数据Z相对应的相对音高R的时间变化(下文称作“相对音高转变”)CR。相对音高转变CR是通过将歌唱特性数据Z的歌唱风格赋予给由用于合成的乐曲数据YB指定的用于合成的乐曲而获得的歌唱语音的相对音高R的轨迹，其还可以释译为在由参考歌唱者歌唱用于合成的乐曲数据YB的用于合成的乐曲的情况下而获得的相对音高R的转变(反映了参考歌唱者的歌唱风格的音高弯曲曲线)。

具体地，变量设置单元64参照用于合成的乐曲数据YB，并将用于合成的乐曲在时间轴上分成多个单位区间UB。具体地，如从图9可以理解的那样，根据第一实施例的变量设置单元64将用于合成的乐曲分成多个与上述单位区间UA相似的单位区间UB(例如，十六分音符)。

之后，变量设置单元64将每个单位区间UB施加到歌唱特性数据Z内与概率模型的第n个状态St相对应的单位数据z[n]的决策树T[n]，从而从决策树T[n]的K个叶节点νc之中识别出每个单位区间UB所属的一个叶节点νc，并使用变量信息D[n]内与该一个叶节点νc相对应的变量组Ω[k]的各个变量ω(ω0、ω1、ω2和ωd)来识别相对音高R的时间序列。针对概率模型M的每个状态St依次地执行上述处理，从而识别单位区间UB内的相对音高R的时间序列。具体地，根据变量组Ω[k]的变量ωd来设置每个状态St的持续时间，并计算每个相对音高R以获得由变量ω0定义的相对音高R的发生概率、由变量ω1定义的相对音高R的时间变化△R的发生概率、以及由变量ω2定义的相对音高R的二次微分值△²R的发生概率的最大同时概率。通过在时间轴上跨越多个单位区间UB拼接相对音高R的时间序列来产生在用于合成的乐曲的整个范围上的相对音高转变CR。

信息编辑单元62将由变量设置单元64产生的相对音高转变CR添加到存储装置54内的用于合成的乐曲数据YB，并如图9例示的，在显示装置56上与乐谱图像562一起显示表示相对音高转变CR的转变图像564。图9例示的转变图像564是将相对音高转变CR表示为与乐谱图像562的每个音符的时间序列共享时间轴的折线的图像。用户可通过使用输入装置57来指示改变相对音高转变CR(每个相对音高R)以适当地改变转变图像564。信息编辑单元62根据用户发出的指令来编辑相对音高转变CR的每个相对音高R。

图1示出的语音合成单元66根据存储在存储装置54中的语音段组YA和用于合成的乐曲数据YB以及由变量设置单元54设置的相对音高转变CR来产生语音信号V。具体地，利用与变量提取单元22的转变产生单元32相同的方式，语音合成单元66根据由用于合成的乐曲数据YB对每个音符指定的音高和发声时段来产生合成音高转变(音高曲线)CP。合成音高转变CP是在时间轴上连续地波动的音高PB的时间序列。语音合成单元66根据由变量设置单元64设置的相对音高转变CR来校正合成音高转变CP。例如，相对音高转变CR的每个相对音高R被添加到合成音高转变CP的每个音高PB。之后，语音合成单元66针对每个音符从语音段组YA依次地选择与歌词相对应的语音段，并且，通过将各个语音段调整为已进行了与相对音高转变CR相对应的校正的合成音高转变CP的各个音高PB并将各个语音段相互拼接，来产生语音信号V。由语音合成单元66产生的语音信号V被提供给发声装置58以被再现为声音。

参考歌手的歌唱风格(例如，参考歌手独特的歌唱方式，诸如声调曲线之类)反映在从歌唱特性数据Z产生的相对音高转变CR上，因此，与由相对音高转变CR校正的合成音高转变CP相对应的语音信号V的再现声音被感知为被赋予了参考歌手的歌唱风格的用于合成的乐曲的歌唱语音(即，如通过参考歌手歌唱用于合成的乐曲而得到的语音)。

图10是通过语音合成装置200(处理器单元52)执行处理以编辑用于合成的乐曲数据YB并产生语音信号V的流程图。例如，当指示启动编辑程序GB1(编辑用于合成的乐曲数据YB)时开始图10的处理。当启动编辑程序GB1时，信息编辑单元62在显示装置56上显示与存储在存储装置54中的用于合成的乐曲数据YB相对应的乐谱图像562，并根据由用户对乐谱图像562发出的指令来编辑用于合成的乐曲数据YB。

处理器单元52确定用户是否已指示启动特性赋予程序GB2(赋予与歌唱特性数据Z相对应的歌唱风格)。当指示启动特性赋予程序GB2时(SB2：是)，变量设置单元64产生与当前时间点的用于合成的乐曲数据YB和用户选择的歌唱特性数据Z相对应的相对音高转变CR(SB3)。由变量设置单元64产生的相对音高转变CR在下一个步骤SB1中在显示装置56上显示为转变图像564。另一方面，当未指示启动特性赋予程序GB2时(SB2：否)，不执行相对音高转变CR的产生(SB3)。需注意，上文中通过使用用户的指令作为触发来产生相对音高CR，但是相对应高CR也可以无关用户的指令而提前(例如，在后台)产生。

处理器单元52确定是否已指示开始语音合成(启动语音合成程序GB3)(SB4)。当指示开始语音合成时(SB4：是)，语音合成单元66首先根据当前时间点的用于合成的乐曲数据YB产生合成音高转变CP(SB5)。第二，语音合成单元66根据在步骤SB3中产生的相对音高转变CR的每个相对音高R来校正合成音高转变CP的每个音高PB(SB6)。第三，语音合成单元66通过将语音段组YA内与由用于合成的乐曲数据YB指定的歌词相对应的语音段调整为在步骤SB6中受到校正的合成音高转变CP的各个音高PB并将各个语音段相互拼接，以产生语音信号V(SB7)。当语音信号V被提供给发声装置58时，被赋予了参考歌唱者的歌唱风格的用于合成的乐曲的歌唱语音被再现。另一方面，当未指示开始语音合成时(SB4：否)，不执行从步骤SB5到步骤SB7的处理。需注意，合成音高转变CP的产生(SB5)、每个音高PB的校正(SB6)以及语音信号V的产生(SB7)可以无关用户的指令而提前(例如，在后台)执行。

处理器单元52确定是否已指示结束处理(SB8)。当未指示结束时(SB8：否)，处理器单元52将处理返回到步骤SB1以重复上述处理。另一方面，当指示结束处理时(SB8：是)，处理器单元52结束图10的处理。

如上所述，在第一实施例中，与从参考乐曲数据XB产生的合成音高转变CP的每个音高PB和参考语音的每个音高PA之差相对应的相对音高R被用于产生反映参考歌唱者的歌唱风格的歌唱特性数据Z。因此，与其中根据参考语音的音高PA的时间序列来产生歌唱特性数据Z的配置相比，可以减少必要的概率模型(变量信息D[n]内的变量组Ω[k]的数量)。此外，合成音高转变CP的相对音高PA在时间轴上是连续的，其优点还在于，如下文所详细描述的那样，在音高不同的各个音符之间的分界时间点处的相对音高R的不连续波动被抑制。

图11是集中示出由参考乐曲数据XB指定的每个音符的音高PN(音符编号)、由参考语音数据XA表示的参考语音的音高PA、从参考乐曲数据XB产生的音高PB(合成音高转变CP)以及通过根据第一实施例的变量提取单元22按照音高PB和音高PA计算的相对音高R的示意图。在图11中，根据每个音符的音高PN和参考语音的音高PA计算出的相对音高r作为对比示例1示出。在根据对比示例1的相对音高r中，在各音符之间的分界时间点处发生不连续的波动，而从图11可以清楚地确定，根据第一实施例的相对音高R即使在各音符之间的分界时间点处也连续地波动。如上所述，其优点在于，通过使用时间上连续波动的相对音高R产生了听感自然的合成语音。

此外，在第一实施例中，用有效音高PA补充未检测到参考语音的音高PA的无语音区间σ0。即，参考语音的不存在音高PA的无语音区间σ0的时间长度被缩短。因此，可以有效地抑制由参考乐曲数据XB指定的参考乐曲(合成语音)的无语音区间σX之外的有语音区间内的相对音高R的不连续波动。特别是在第一实施例中，根据该无语音区间σ0之前和之后的有语音区间(σ1和σ2)内的音高PA近似地设置无语音区间σ0内的音高PA，因此上述抑制相对音高R的不连续波动的效果是显著的。需注意，从图4可以理解，即使在以音高PA补充参考语音的无语音区间σ0的第一实施例中，相对音高R也可能在无语音区间σX内(插值区间ηA2和插值区间ηB2之间的间隔内)不连续地波动。但是，相对音高R可能在未感知到语音的音高的无语音区间σX内不连续地波动，相对音高R的不连续性对用于合成的乐曲的歌唱语音的影响被充分抑制。

需注意，在第一实施例中，通过以每单位片段来划分参考乐曲或用于合成的乐曲而获得的各个单位区间U(UA或UB)由一个概率模型M表示，但是也可以想到采用其中一个音符由一个概率模型M表示的配置(下文称作“对比示例2”)。但是，在对比示例2中，音符与持续时间无关地通过相等数量的状态St来表示，因此难以通过概率模型M精确地表示具有长持续时间的音符的参考语音的歌唱风格。在第一实施例中，通过以每单位片段来划分乐曲而获得的各个单位区间U(UA或UB)被赋予一个概率模型。在上述配置中，由于音符具有更长的持续时间，表示音符的概率模型M的状态St的总数量增加。因此，与对比示例2相比，优点在于，与持续时间长度无关地精确控制相对音高R。

(第二实施例)

本发明的第二实施例描述如下。需注意，每个下面例示的实施例中与第一实施例相同的操作和功能的部件由第一实施例的说明中引用的相同参考标记表示，并适当省略其详细说明。

图12是第二实施例的说明图。如图12例示的，以与第一实施例中相同的方式，根据第二实施例的语音分析装置100的区间设置单元42将参考乐曲分成多个单位区间UA，并且还在时间轴上将参考乐曲分成多个乐句Q。乐句Q是参考乐曲内由听众感知为音乐块的旋律区间(多个音符的时间序列)。例如，区间设置单元42通过将超出预定长度的静音区间(例如，等于或长于四分休止符的静音区间)作为分界来将参考乐曲分成多个乐句Q。

由根据第二实施例的分析处理单元44针对每个状态St产生的决策树T[n]包括节点ν，其中针对各节点ν设置了与各个单位区间UA和包括各个单位区间UA的乐句Q之间的关系相关的条件。具体地，在每个中间节点νb(或根节点νa)处确定是否满足与单位区间U内的音符和乐句Q内的每个音符之间的关系相关的条件，如下例示：

·单位区间UA内的音符是否位于乐句Q内的起点端上；

·单位区间UA内的音符是否位于乐句Q内的终点端上；

·单位区间UA内的音符与乐句Q内的最高声音之间的距离是否超过预定数值；

·单位区间UA内的音符与乐句Q内的最低声音之间的距离是否超过预定数值；以及

·单位区间UA内的音符与乐句Q内的最频繁声音之间的距离是否超过预定数值。

在上述每个条件中的“距离”可以具有时间轴上的距离(时间差)和音高轴上的距离(音高差)两个含义，当涉及乐句Q内的多个音符时，例如，该“距离”可以是距单位区间UA内的音符最短的距离。此外，“最频繁声音”意即在乐句Q内具有最多发声次数或最大发声时间的音符(或两者相乘获得的数值)。

语音合成装置200的变量设置单元64以与第一实施例相同的方式将用于合成的乐曲分成多个单位区间UB，并进一步将用于合成的乐曲在时间轴上分成多个乐句Q。之后，如上所述，变量设置单元64将每个单位区间UB施加到其中针对每个节点ν设置了与乐句Q相关的条件的决策树，从而识别每个单位区间UB所属的一个叶节点νc。

第二实施例同样实现与第一实施例相同的效果。此外，在第二实施例中，针对决策树T[n]的每个节点ν设置与单位区间U(UA或UB)和乐句Q之间的关系相关的条件。因此，其优点在于，可以产生其中每个单位区间U的音符和乐句Q内的每个音符之间的关系被考虑在内的听感自然的合成语音。

(第三实施例)

根据本发明的第三实施例的语音合成装置200的变量设置单元64以与第一实施例相同的方式产生相对音高转变CR，并将向由语音合成单元66执行的语音合成施加的控制变量设置为可根据相对音高转变CR的每个相对音高R而变化。控制变量是用于控制将赋予给合成语音的音乐表现力的变量。例如，优选诸如发声速度或音色(例如，清晰度)之类的变量作为控制变量，但是在下面的说明中，动态Dyn被例示为控制变量。

图13是例示相对音高转变CR的每个相对音高R和动态Dyn之间的关系的曲线图。变量设置单元64针对相对音高转变CR的每个相对音高R来设置动态Dyn以建立图13示出的关系。

从图13可以理解，动态Dyn随着相对音高R变高而大致增加。当歌唱语音的音高低于乐曲的原始音高时(相对音高R是负数时)，与歌唱语音的音高较高时(相对音高R为正数时)相比，歌唱通常趋向于被感知为欠佳。考虑到上述趋势，如图13例示的，变量设置单元64根据相对音高R设置动态Dyn，使得动态Dyn的减少量和在负数范围内的相对音高R的减少量之比(倾斜度的绝对值)超过动态Dyn的增加量和在正数范围内的相对音高R的增加量之比。具体地，变量设置单元64通过如下例示的表达式(A)计算动态Dyn(0≤Dyn≤127)。

Dyn＝tanh(R×β/8192)×64+64……(A)

表达式(A)的系数β是用于使得动态Dyn的变化与相对音高R之比在相对音高的正侧和负侧相异的变量。具体地，当相对音高R是负数时，系数β被设置成4，当相对音高是非负数(0或正数)时，系数β被设置成1。需注意，系数β的数值和表达式(A)的内容仅是为了便于示例，其可以适当变化。

第三实施例也可以实现与第一实施例相同的效果。此外，在第三实施例中，根据相对音高R设置控制变量(动态Dyn)，其优点在于，用户不需要手动设置控制变量。需注意，在上述说明中根据相对音高R设置控制变量(动态Dyn)，但是控制变量的数值的时间序列可以通过例如概率模型表示。需注意，第二实施例的配置可以用于第三实施例。

(第四实施例)

当适当设置了决策树T[n]的每个节点ν的条件时，反映了参考语音的颤音特性的相对音高R的时间上的波动出现在与歌唱特性数据Z相对应的相对音高转变CR中。但是，当使用歌唱特性数据Z产生相对音高转变CR时，相对音高R的波动周期性不一定保证，因此，如图14的部分(A)中例示的，相对音高转变CR的每个相对音高R可在乐曲内被赋予颤音的区间中不规则地波动。鉴于上述情况，根据本发明的第四实施例的语音合成装置200的变量设置单元64将由于用于合成的乐曲内的颤音而引起的相对音高R的波动校正为周期波动。

图15是根据第四实施例的变量设置单元64的操作的流程图。根据第一实施例的图10的步骤SB3替换为图15的步骤SC1到步骤SC4。当开始图15的处理时，变量设置单元64以与第一实施例相同的方法产生相对音高转变CR(SC1)，并在相对音高转变CR内识别与颤音相对应的区间(下文称作“校正区间”)B(SC2)。

具体地，变量设置单元64计算相对音高转变CR的相对音高R的微分值△R的过零数。相对音高R的微分值△R的过零数对应于相对音高转变CR内的时间轴上的波峰部分(最大点)和波谷部分(最小点)的总数。在对歌唱语音赋予了颤音的区间中，相对音高R趋于以适当频率在正数和负数之间交替波动。考虑到上述趋势，变量设置单元64将其中单位时间内微分值△R的过零数(即，单位时间内波峰部分和波谷部分的数量)落入预定范围内的区间识别为校正区间B。但是，识别校正区间B的方法不限于上述示例。例如，在由用于合成的乐曲数据YB指定的多个音符之中超过预定长度的音符的后半区间(即，很可能被赋予颤音的区间)可以被识别为校正区间B。

当校正区间B被识别时，变量设置单元64设置校正后的颤音的周期(下文称作“目标周期”)τ(SC3)。目标周期τ是，例如，以校正区间B内的相对音高R的波峰部分或波谷部分的数目(波数)除以校正区间B的时间长度而获得的数值。之后，变量设置单元64校正相对音高转变CR的每个相对音高R，使得校正区间内相对音高转变CR的各个波峰部分(或各个波谷部分)之间的间隔接近(理想情况，匹配)目标周期τ(SC4)。如从上述说明可以理解的那样，如图14的部分(A)所示，相对音高转变CR中波峰部分和波谷部分之间的间隔在校正之前是不一致的，而如图14的部分(B)所示，相对应高转变CR中的波峰部分和波谷部分之间的间隔在步骤SC4的校正之后变得一致。

第四实施例也可以实现与第一实施例相同的效果。此外，在第四实施例中，相对音高转变CR的波峰部分和波谷部分之间的间隔在时间轴上变得一致。因此，其优点在于，产生了被赋予听觉自然的颤音的合成语音。需注意，在上述说明中校正区间B和目标周期τ是自动设置的(即，与用户的指令无关)，但是颤音的特性(区间、时段和幅度)也可以根据用户发出的指令可变地设置。此外，第二实施例或第三实施例的配置可以用于第四实施例。

(第五实施例)

在第五实施例中，概率模型M的每个状态St独立的决策树T[n]被用作示例。从图16可以理解，根据本发明的第五实施例的语音分析装置100的特性分析单元24(分析处理单元44)从概率模型M的N个状态St共同的单个决策树(下文称作“基本决策树”)T0产生每个状态St的决策树T[n](T[1]到T[n])。因此，中间节点νb或叶节点νc的存在或不存在在各个决策树T[n]之间相异(因此，叶节点νc的数量K与第一实施例中一样在各个决策树T[n]之间相异)，但是与各个决策树T[n]中彼此相对应的中间节点νb的条件的内容是共同的。需注意，在图16中，共享条件的各个节点ν以相同方式(影线)示出。

如上所述，在第五实施例中，从作为起源的共同基本决策树T0衍生地产生N个决策树T[1]到T[N]，因此针对位于上层的各个节点ν(根节点νa和中间节点νb)设置的条件(下文称作“共同条件”)在N个决策树T[1]到T[N]上是共同的。图17是N个决策树T[1]到T[N]共同的树结构的示意图。在根节点νa处确定单位区间U(UA或UB)是否是其中不存在音符的静音区间。在根节点νa的确定结果为否之后紧随的中间节点νb1处，确定单位区间U内的音符是否比十六分音符短。在中间节点νb1的确定结果为否之后紧随的中间节点νb2处，确定单位区间U是否位于音符的起点端。在中间节点νb2的确定结果为否之后紧随的中间节点νb3处，确定单位区间U是否位于音符的终点端。上述根节点νa和多个中间节点νb(νb1至νb3)的条件(共同条件)的每一个在N个决策树T[1]至T[N]上是共同的。

第五实施例也实现与第一实施例相同的效果。针对概率模型M的各个状态St完全独立地产生决策树T[n]，单位区间U内的相对音高R的时间序列的特性可以在状态St前和状态St后不同，因此合成语音可能是得到听起来不自然的效果的语音(例如，无法如实际那样发声的语音或与实际发声不同的语音)。在第五实施例中，与概率模型M的相异状态St相对应的N个决策树T[1]至T[n]从共同的基本决策树T0产生。因此，其优点在于，与其中N个决策树T[1]至T[n]的每一个均独立地产生的配置相比，相对音高R的转变的特性在相邻特性St之间极其不同的概率被降低，并且产生了听感自然的合成语音(例如，可以如实际那样发出的语音)。应当理解的是，其中针对概率模型M的每个状态St独立地产生决策树T[n]的配置可以包括在本发明的范围之内。

需注意，在上述说明中，其中各个状态St的决策树T[n]是部分共同的配置被采用为示例，但是各个状态St的所有决策树T[n]也可以都是共同的(各状态St的决策树T[n]完全共同)。此外，第二实施例到第四实施例中的任意一个的配置可用于第五实施例。

(第六实施例)

在上述实施例中，为方便起见，将其中通过使用从一个参考乐曲的参考语音检测到的音高PA来产生决策树T[n]的情况用作示例，但是实际上，通过使用从多个相互不同的参考乐曲的参考语音检测到的音高PA来产生决策树T[n]。在如上所述其中从多个参考乐曲产生各个决策树T[n]的配置中，可以将包括在相互不同的参考乐曲中的多个单位区间UA以共存状态的方式分类到决策树T[n]的一个叶片节点νc中，并且可以用于产生该叶片节点νc的变量组Ω[k]。另一方面，在其中通过语音合成装置200的变量设置单元64来产生相对音高转变CR的情况中，将用于合成的乐曲内的一个音符中包含的多个单位区间UB分类到决策树T[n]的相互不同的叶节点νc中。因此，相互不同的参考乐曲的音高PA的趋势会被反映在与用于合成的乐曲的一个音符相对应的多个单位区间UB的每一个上，并且合成语音(特别是，颤音的特性等)会被感知为给出听感不自然的效果。

鉴于上述情况，在本发明的第六实施例中，语音分析装置100的特性分析单元24(分析处理单元44)产生各个决策树T[n]以将用于合成的乐曲内的一个音符(与多个片段相对应的音符)中包含的多个单位区间UB的每一个分类到决策树T[n]内与共同参考音乐相对应的叶节点νc的每一个(即，当产生决策树T[n]时只将参考乐曲内的单位区间UB分类至的叶节点νc)。

具体地，在第六实施例中，针对决策树T[n]的每个中间节点νb设置的条件(上下文)被分成音符条件和区间条件两种。音符条件是针对作为单位的一个音符确定成功/失败的条件(与一个音符的属性相关的条件)，而区间条件是针对作为单位的一个单位区间U(UA或UB)确定成功/失败的条件(与一个单位区间U的属性相关的条件)。

具体地，音符条件由下面的条件(A1至A3)例示。

A1：与包括单位区间U的一个音符的音高或持续时间相关的条件

A2：与包括单位区间U的一个音符之前或之后的音符的音高或持续时间相关的条件

A3：与乐句Q内一个音符的位置(时间轴上的位置或音高轴上的位置)相关的条件

条件A1例如是关于包括单位区间U的一个音符的音高或持续时间是否落入预定范围内的条件。条件A2例如是关于包括单位区间U的一个音符和紧接在该一个音符之前或之后的音符之间的音高差是否落入预定范围内的条件。条件3例如是关于包括单位区间U的一个音符是否位于乐句Q的起点端的条件或关于该一个音符是否位于乐句Q的终点端的条件。

另一方面，区间条件例如是与涉及一个音符的单位区间U的位置相关的条件。例如，关于单位区间U是否位于音符的起点端的条件或关于单位区间U是否位于音符的终点端的条件优选作为区间条件。

图18是根据第六实施例的由分析处理单元44执行的产生决策树T[n]的处理的流程图。根据第一实施例的图8的步骤SA6替换为图18中示出的各个处理。如图18例示的，分析处理单元44通过以第一分类处理SD1和第二分类处理SD2两个阶段对分区设置单元44所定义的多个单位区间UA的每一个进行分类，来产生决策树T[n]。图19是第一分类处理SD1和第二分类处理SD2的说明图。

第一分类处理SD1是通过采用上述音符条件产生图19的临时决策树(下文称作“临时决策树”)TA[n]的处理，从图19可以理解，区间条件未用于产生临时决策树TA[n]。因此，包括在共同参考乐曲中的多个单位区间UA趋于被分类到临时决策树TA[n]的一个叶节点νc中。即，与相互不同的参考乐曲相对应的多个单位区间UA可能被混合地分类到一个叶节点νc中的概率被降低。

第二分类处理SD2是通过采用上述区间条件进一步将临时决策树TA[n]的各个叶节点νc进行分支的处理，从而产生最终的决策树T[n]。具体地，从图19可以理解，根据第六实施例的分析处理单元44通过包括区间条件和音符条件两者的多个条件将被分类到临时决策树TA[n]的叶节点νc的每一个中的多个单位区间UA进行分类，以产生决策树T[n]。即，临时决策树TA[n]的每个叶节点νc可对应于决策树T[n]的中间节点νb。从上述说明中可以理解，分析处理单元44产生具有如下树状结构的决策树T[n]：其中，在设置了区间条件和音符条件的多个中间节点νb的上层中，排列有只设置了音符条件的多个中间节点νb。共同的参考乐曲内的多个单位区间UA被分类到临时决策树TA[n]的一个叶节点νc中，因此共同的参考乐曲内的多个单位区间UA也被分类到由第二分类处理SD2产生的决策树T[n]的一个叶节点νc中。根据第六实施例的分析处理单元44如上所述地操作。第六实施例与第一实施例的共同点在于，从被分类到一个叶节点νc中的多个单位区间UA的相对音高R产生变量组Ω[k]。

另一方面，以与第一实施例相同的方式，语音合成装置200的变量设置单元64将通过划分由用于合成的乐曲数据YB指定的用于合成的乐曲获得的各个单位区间UB施加到通过上述过程产生的每个决策树T[n]，从而将各个单位区间UB分类到一个叶节点νc中，并根据与该一个叶节点νc对应的变量组Ω[k]产生单位区间UB的相对音高R。如上所述，在决策树T[n]中，音符条件优先于区间条件确定，因此，当产生决策树T[n]时，包括在用于合成的乐曲的一个音符中的多个单位区间UB的每一个被分类到只有共同的参考乐曲的每个单位区间UA被分类到的每个叶节点νc。即，与共同的参考乐曲的参考语音的特性相对应的变量组Ω[k]被施加，以产生包括在用于合成的乐曲的一个音符中的多个单位区间UB内的相对音高R。因此，与其中不区分音符条件和区间条件而产生决策树T[n]的配置相比，其优点在于，产生了给出听感自然的效果的合成语音。

第二实施例到第五实施例的配置以相同方式应用于第六实施例。需注意，当其中决策树T[n]的上层条件被固定的第五实施例的配置被应用于第六实施例时，与考虑音符条件还是区间条件无关，在树状结构的上层中固定地设置第五实施例的共同条件，并且以与第六实施例相同的方法对位于设置了共同条件的每个节点ν的下层中的每个节点ν设置音符条件或区间条件。

(第七实施例)

图20是本发明的第七实施例的操作的说明图。根据第七实施例的语音合成装置200的存储装置54存储了其中参考歌手是共同的歌唱特性数据Z1和歌唱特性数据Z2。歌唱特性数据Z1的任意一个单位数据z[n]包括决策树T1[n]和变量信息D1[n]，歌唱特性数据Z2的任意一个单位数据z[n]包括决策树T2[n]和变量信息D2[n]。决策树T1[n]和决策树T2[n]是从共同参考语音产生的树状结构，但从图20可以理解，两者的尺寸(树状结构的层级数量或者节点ν的总数量)不同。具体的，决策树T1[n]的尺寸小于决策树T2[n]的尺寸。例如，当由特性分析单元24产生决策树T[n]时，树结构通过相互不同的条件停止分支，从而产生不同尺寸的决策树T1[n]和决策树T2[n]。需注意，不仅在用于停止决策树分支的条件不同时，而且在对各个节点ν设置的条件的内容和排列(问题集合)不同(例如，与乐句Q相关的条件未包括在它们中的一个之中)时，决策树T1[n]和决策树T2[n]可以尺寸不同或结构(对每个节点设置的条件的内容或排列)不同。

当产生决策树T1[n]时，大量的单位区间U被分类到一个叶节点νc中，特性被平等化，使得与歌唱特性数据Z2相比，歌唱特性数据Z1具有能针对各种各样的用于合成的乐曲YB稳定地产生相对音高R的优势。另一方面，在决策树T2[n]中单位区间U的分类被细化，使得与歌唱特性数据Z1相比，歌唱特性数据Z2具有通过概率模型表示参考语音的细微特征的优势。

通过适当地操作输入装置57，用户不仅可以使用歌唱特性数据Z1和歌唱特性数据Z2的每一个来指示语音合成(产生相对音高转变CR)，还可以指示将歌唱特性数据Z1和歌唱特性数据Z2混合。当指示混合歌唱特性数据Z1和歌唱特性数据Z2时，如图20例示的，根据第七实施例的变量设置单元64将歌唱特性数据Z1与歌唱特性数据Z2混合，从而产生表示两者之间的中间歌唱风格的歌唱特性数据Z。即，由歌唱特性数据Z1定义的概率模型M和由歌唱特性数据Z2定义的概率模型M被混合(插值)。采用由操作输入装置57的用户指定的混合比λ来混合歌唱特性数据Z1和歌唱特性数据Z2。混合比λ意即歌唱特性数据Z1(或歌唱特性数据Z2)对混合后的歌唱特性数据Z的贡献度，其被设置为，例如，大于等于0并小于等于1的范围内。需注意，以上说明中将每个概率模型M的插值选作示例，但是也可以对由歌唱特性数据Z1定义的概率模型M和由歌唱特性数据Z2定义的概率模型M进行外推。

具体地，变量设置单元64根据混合比λ对由歌唱特性数据Z1的决策树T1[n]和歌唱特性数据Z2的决策树T2[n]之间的相互对应的叶节点νc的变量组Ω[k]定义的概率分布进行插值(例如，对概率分布的平均值和分布进行插值)，来产生歌唱特性数据Z。使用歌唱特性数据Z产生相对音高转变CR以及其他这样的处理与第一实施例中的相同。需注意，由歌唱特性数据Z定义的概率模型M的插值也在例如如下文献中有详细描述：2005年出版的IEICETRANS.Information and Systems(信息与系统)，E88-D，No.11，第2484-2491页由M.Tachibana等人撰写的文章“Speech Synthesis with Various Emotional Expressionsand Speaking by Style Interpolation and Morphing”。

需注意，在合成决策树T[n]时的动态尺寸调整也可以采用回退(back-off)平滑。但是，其中在不使用回退平滑的情况下对概率模型M进行插值的配置的优点在于，不需要使得决策树T1[n]和决策树T2[n]之间具有共同的树状结构，其优点在于，叶节点νc的概率分布被插值(无需考虑中间节点νb的统计量)，使得算数运算负荷降低。需注意，回退平滑也在例如如下文献中详细描述：2003年8月出版的TECHNICAL REPORT OF IEICE SP2003-76，Corporate Juridical Person,The Institute of Electronics,Information andCommunication Engineers中由Kataoka和另三人撰写的文章“Decision-Tree Backing-off in HMM-Based Speech Synthesis”。

第七实施例也实现与第一实施例相同的效果。此外，在第七实施例中，歌唱特性数据Z1和歌唱特性数据Z2混合之后产生表示两者之间的中间歌唱风格的歌唱特性数据Z，与其中仅通过单独地使用歌唱特性数据Z1或歌唱特性数据Z2产生相对音高转变CR的配置相比，其优点在于，产生了各种歌唱风格的合成语音。需注意，第二到第六实施例的配置可以同样用于第七实施例。

(修改示例)

以上例示的每个实施例可以进行各种改变。具体变化的实施例例示如下。可以适当组合从下面示例中任意选择的至少两个实施例。

(1)在每个上述实施例中，相对音高转变CR(音高弯曲曲线)是从提前对参考乐曲设置的参考语音数据XA和参考乐曲数据XB计算出的，但是变量提取单元22可以通过任意方法获取相对音高转变CR。例如，通过使用公知歌唱分析技术从任意参考语音估计的相对音高转变CR也可以通过变量提取单元22获取并施加到由特性分析单元24执行的歌唱特性数据Z的产生。作为估计相对音高转变CR(音高弯曲曲线)的歌唱分析技术，优选地例如使用如下文献中公开的技术：2011年Speech and Signal Processing,In Proceedings of the36^thInternational Conference on Acoustics(ICASSP2011)第453-456页由T.Nakano和M.Goto发表的“VOCALISTENER 2：A SINGING SYNTHESIS SYSTEM ABLE TO MIMIC A USER’SSINGING IN TERMS OF VOICE TIMBRE CHANGES AS WELL AS PITH AND DYNAMICS”。

(2)在每个上述实施例中，通过将语音段相互拼接以产生语音信号V的拼接语音合成被选取作为示例，但是可以采用任意公知技术来产生语音信号V。例如，语音合成单元66产生被调整为添加了由变量设置单元64产生的相对音高转变CR的合成相对音高转变CP的每个音高PB的基本信号(例如，表示声带的发声声音的正弦波信号)，并对该基本信号执行与由用于合成的乐曲数据YB指定的歌词的语音段相对应的滤波器处理(例如，近似口腔内共振的滤波器处理)，从而产生语音信号V。

(3)如上述第一实施例中描述的，语音合成装置200的用户可通过适当操作输入装置57来指示改变相对音高转变CR。改变相对音高转变CR的指示也可以反映在存储在语音分析装置100的存储装置14中的歌唱特性数据Z上。

(4)在每个上述实施例中，相对音高R被选取作为参考语音的特征量的示例，但是对于不把抑制相对音高R的不连续波动的预期目标作为前提的配置(例如，特征在于产生决策树T[n]的配置)而言，其中特征量为相对音高R的配置不是必须的。例如，在其中针对每个片段将乐曲分成多个单位区间U(UA或UB)的第一实施例的配置中、其中乐句Q考虑到每个节点ν的条件的第二实施例的配置中、其中从基本决策树T0产生N个决策树T[1]至T[N]的第五实施例的配置中、其中在第一分类处理SD1和第二分类处理SD2两个阶段中产生决策树T[n]的第六实施例的配置中、或者其中多个歌唱特性数据Z被混合的第七实施例的配置中，由变量提取单元22获取的特征量不限于相对音高R。例如，变量提取单元22也可以提取参考语音的相对音高PA，特性分析单元24也可以产生定义与音高PA的时间序列相对应的概率模型M的歌唱特性数据Z。

根据每个上述实施例的语音分析装置通过诸如专用于声音信号处理的数字信号处理器(DSP)之类的硬件(电路)来实现，也可以通过诸如中央处理单元(CPU)之类的通用处理器单元和程序之间的协作来实现。根据本发明的程序可以通过以存储在计算机可读记录介质中的形式提供而被安装到计算机上。该记录介质是例如非瞬时记录介质(优选示例包括CD-ROM之类的光记录介质(光盘))，可包括诸如半导体记录介质或磁记录介质之类的任意格式的公知记录介质。此外，例如，根据本发明的程序可以通过以经由通信网络分发的形式提供而被安装到计算机上。此外，本发明也定义为根据上述各个实施例的语音分析装置的操作方法(语音分析方法)。

Claims

1.一种语音分析方法，包括：

变量提取步骤，其产生相对音高的时间序列，

其中所述相对音高是从乐曲数据产生的在包括音高相异的各音符之间的分界时间点的时间轴上连续波动的音高和参考语音的音高之差，

其中所述乐曲数据按时间序列指定乐曲的各个音符，

其中所述参考语音是通过歌唱所述乐曲而得到的语音，并且

其中通过对未检测到音高的无语音区间进行插值处理来处理所述参考语音的音高；和

特性分析步骤，其产生歌唱特性数据，所述歌唱特性数据定义了用于表示在所述变量提取步骤中产生的所述相对音高的时间序列的模型。

2.根据权利要求1所述的语音分析方法，其中所述变量提取步骤包括：

转变产生步骤，其从所述乐曲数据产生在时间轴上连续波动的音高；

音高检测步骤，其检测所述参考语音的音高；

插值处理步骤，其对所述参考语音的未检测到音高的无语音区间设置音高；和

差计算步骤，其计算在所述转变产生步骤中产生的音高和在所述插值处理步骤中处理的音高之差，以作为所述相对音高，

其中所述插值处理步骤根据紧接所述无语音区间之前的第一区间内的音高的时间序列来设置所述无语音区间的紧接该第一区间之后的第一插值区间内的音高，并且

其中所述插值处理步骤根据紧接所述无语音区间之后的第二区间内的音高的时间序列来设置所述无语音区间的紧接该第二区间之前的第二插值区间内的音高。

3.根据权利要求1所述的语音分析方法，其中所述特性分析步骤包括：

区间设置步骤，其通过使用预定持续时间作为单位将所述乐曲分成多个单位区间；和

分析处理步骤，其产生所述歌唱特性数据，

其中对于所述模型的多个状态的每一个而言，所述歌唱特性数据包括分类信息和变量信息，

其中所述分类信息用于将由所述区间设置步骤划分的所述多个单位区间分类到多个集合中，并且

其中所述变量信息定义了被分类到所述多个集合的每一个中的所述多个单位区间的每一个内的所述相对音高的时间序列的概率分布。

4.根据权利要求3所述的语音分析方法，其中所述分类信息包括决策树。

5.根据权利要求4所述的语音分析方法，其中所述分析处理步骤包括从对于所述模型的多个状态共同的基本决策树产生每个状态的决策树。

6.根据权利要求5所述的语音分析方法，其中每个状态的决策树包括与所述乐曲在时间轴上划分的每个乐句和所述多个单位区间的每一个之间的关系相对应的条件。

7.根据权利要求3所述的语音分析方法，其中通过基于与所述音符的属性相关的条件的第一分类处理和通过基于与所述多个单位区间的每一个的属性相关的条件的第二分类处理来产生所述分类信息。

8.根据权利要求1所述的语音分析方法，其中所述模型是用于表示多个状态之间的概率转变的概率模型。

9.一种语音分析装置，包括：

变量提取单元，其被配置为产生相对音高的时间序列，

其中所述乐曲数据按时间序列指定乐曲的各个音符，

其中所述参考语音是通过歌唱所述乐曲而得到的语音，并且

特性分析单元，其被配置为产生歌唱特性数据，所述歌唱特性数据定义了用于表示由所述变量提取单元产生的所述相对音高的时间序列的模型。

10.根据权利要求9所述的语音分析装置，其中所述变量提取单元包括：

转变产生单元，其被配置为从所述乐曲数据产生在时间轴上连续波动的音高；

音高检测单元，其被配置为检测所述参考语音的音高；

插值处理单元，其被配置为对所述参考语音的未检测到音高的无语音区间设置音高；和

差计算单元，其被配置为计算由所述转变产生单元产生的音高和由所述插值处理单元处理的音高之差，以作为所述相对音高，

其中所述插值处理单元根据紧接所述无语音区间之前的第一区间内的音高的时间序列来设置所述无语音区间的紧接该第一区间之后的第一插值区间内的音高，并且

其中所述插值处理单元根据紧接所述无语音区间之后的第二区间内的音高的时间序列来设置所述无语音区间的紧接该第二区间之前的第二插值区间内的音高。

11.根据权利要求9所述的语音分析装置，其中所述特性分析单元包括：

区间设置单元，其被配置为通过使用预定持续时间作为单位将所述乐曲分成多个单位区间；和

分析处理单元，其被配置为产生所述歌唱特性数据，

其中所述分类信息用于将由所述区间设置单元划分的所述多个单位区间分类到多个集合中，并且

12.根据权利要求11所述的语音分析装置，其中所述分类信息包括决策树。

13.根据权利要求12所述的语音分析装置，其中所述分析处理单元被配置为从对于所述模型的多个状态共同的基本决策树产生每个状态的决策树。

14.根据权利要求13所述的语音分析装置，其中每个状态的决策树包括与由所述乐曲在时间轴上划分的每个乐句和所述多个单位区间的每一个之间的关系相对应的条件。

15.根据权利要求11所述的语音分析装置，其中通过基于与所述音符的属性相关的条件的第一分类处理和通过基于与所述多个单位区间的每一个的属性相关的条件的第二分类处理来产生所述分类信息。

16.根据权利要求9所述的语音分析装置，其中所述模型是用于表示多个状态之间的概率转变的概率模型。

17.一种其上存储有语音分析程序的非瞬时计算机可读记录介质，所述语音分析程序包括：

变量提取指令，其用于产生相对音高的时间序列，

其中所述乐曲数据按时间序列指定乐曲的各个音符，

其中所述参考语音是通过歌唱所述乐曲而得到的语音，并且

特性分析指令，其用于产生歌唱特性数据，所述歌唱特性数据定义了用于表示通过所述变量提取指令产生的所述相对音高的时间序列的模型。

18.一种语音合成方法，包括：

变量设置步骤，其基于用于合成的乐曲数据和至少一个歌唱特性数据来产生相对音高转变，

其中所述用于合成的乐曲数据按时间序列指定要受到语音合成的第一乐曲的各个音符，

其中所述至少一个歌唱特性数据定义了表示相对音高的时间序列的模型，

其中所述相对音高是第一音高和第二音高之差，

其中所述第一音高从乐曲数据产生并且在包括音高相异的各音符之间的分界时间点的时间轴上连续波动，所述乐曲数据按时间序列指定第二乐曲的各个音符，

其中所述第二音高是通过歌唱所述第二乐曲而得到的参考语音的音高，并且

其中通过对未检测到音高的无语音区间进行插值处理来处理所述第二音高；和

语音合成步骤，其基于所述用于合成的乐曲数据、表示各个音素的语音段组、和所述相对音高转变来产生语音信号。

19.根据权利要求18所述的语音合成方法，进一步包括信息编辑步骤，其根据用户的指令来编辑所述相对音高转变。

20.根据权利要求18所述的语音合成方法，其中所述至少一个歌唱特性数据包括包含第一决策树的第一歌唱特性数据以及包含第二决策树的第二歌唱特性数据，

其中所述变量设置步骤将所述第一歌唱特性数据和所述第二歌唱特性数据混合，

其中所述变量设置步骤基于所述模型来产生与所述用于合成的乐曲数据和所述混合的歌唱特性数据相对应的所述相对音高转变，并且

其中所述第一决策树和所述第二决策树在尺寸、结构和分类中的一个方面有所不同。

21.一种语音合成装置，包括：

变量设置单元，其被配置为基于用于合成的乐曲数据和至少一个歌唱特性数据来产生相对音高转变，

其中所述相对音高是第一音高和第二音高之差，

语音合成单元，其被配置为基于所述用于合成的乐曲数据、表示各个音素的语音段组、和所述相对音高转变来产生语音信号。

22.根据权利要求21所述的语音合成装置，进一步包括信息编辑单元，其被配置为根据用户的指令来编辑所述相对音高转变。

23.根据权利要求21所述的语音合成装置，其中至少一个歌唱特性数据包括包含第一决策树的第一歌唱特性数据以及包含第二决策树的第二歌唱特性数据，并且

其中所述变量设置单元将所述第一歌唱特性数据和所述第二歌唱特性数据混合，

其中所述变量设置单元基于所述模型来产生与所述用于合成的乐曲数据和所述混合的歌唱特性数据相对应的所述相对音高转变，以及