JP6390690B2

JP6390690B2 - 音声合成方法および音声合成装置

Info

Publication number: JP6390690B2
Application number: JP2016235759A
Authority: JP
Inventors: 誠橘; 橘　　誠
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2016-12-05
Filing date: 2016-12-05
Publication date: 2018-09-19
Anticipated expiration: 2033-08-09
Also published as: JP2017045073A

Description

本発明は、歌唱音声の特性を解析する技術に関する。

複数の状態間の確率的な遷移を表現する確率モデルを利用して音響の特徴量の時系列を生成する技術が従来から提案されている。例えば特許文献１に開示された技術では、隠れマルコフモデル（HMM: Hidden Markov Model）を利用した確率モデルが音高の時系列（ピッチカーブ）の生成に利用される。確率モデルから生成された音高の時系列に応じた音源（例えば正弦波発生器）の駆動と歌詞の音素に応じたフィルタ処理とを実行することで所望の楽曲の歌唱音声を合成することが可能である。しかし、特許文献１の技術では、相前後する音符の組合せ毎に確率モデルが生成されるから、多様な楽曲の歌唱音声を生成するには多数の音符の組合せについて確率モデルを生成する必要がある。

特許文献２には、楽曲を構成する各音符の音高と当該楽曲の歌唱音声のピッチとの相対値（相対ピッチ）の確率モデルを生成する構成が開示されている。特許文献２の技術では、相対ピッチを利用して確率モデルが生成されるから、多数の音符の組合せについて確率モデルを用意する必要がないという利点がある。

特開２０１１−１３４５４号公報特開２０１２−３７７２２号公報

しかし、特許文献２の技術では、楽曲の各音符の音高は離散的（不連続）に変動するから、音高が相違する各音符の境界の時点にて相対ピッチが不連続に変動する。したがって、相対ピッチを適用して生成される合成音声が聴感的に不自然な音声となる可能性がある。以上の事情を考慮して、本発明は、聴感的に自然な合成音声を生成することを目的とする。

以上の課題を解決するために、本発明の音声合成方法は、合成楽曲の楽譜を表現する合成楽曲データと、相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データとに応じて、合成楽曲における相対ピッチの時間変化を設定する変数設定ステップと、合成楽曲データから生成されたピッチの遷移と、変数設定ステップで設定した相対ピッチの時間変化とに応じて音声信号を生成する音声合成ステップとを含み、変数設定ステップにおいては、合成楽曲を区分した複数の単位区間を複数の集合に分類する決定木と、各集合に分類された各単位区間内の相対ピッチの時系列の確率分布を規定する変数情報とを含む確率モデルにより相対ピッチの時間変化を設定する。以上の態様では、単位区間毎に相対ピッチが設定されるから、歌唱特性（相対ピッチ）を精細に制御できるという利点がある。

本発明の好適な態様に係る音声解析装置は、楽曲の各音符を時系列に指定する楽曲データから生成されて時間軸上で連続に変動するピッチと楽曲を歌唱した参照音声のピッチとの差分である相対ピッチの時系列を生成する変数抽出手段と、変数抽出手段が生成した相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データを生成する特性解析手段とを具備する。以上の構成では、楽曲データから生成されて時間軸上で連続に変動するピッチと参照音声のピッチとの差分である相対ピッチの時系列が確率モデルが表現されるから、楽曲の各音符の音高と参照音声のピッチとの差分を相対ピッチとして算定する構成と比較して相対ピッチの不連続な変動が抑制される。したがって、聴感的に自然な合成音声を生成することが可能である。

本発明の好適な態様において、変数抽出手段は、時間軸上で連続に変動するピッチを楽曲データから生成する遷移生成手段と、楽曲を歌唱した参照音声のピッチを検出するピッチ検出手段と、参照音声のうちピッチが検出されない無声区間についてピッチを設定する補間処理手段と、遷移生成手段が生成したピッチと補間処理手段による処理後のピッチとの差分を相対ピッチとして算定する差分算定手段とを含む。以上の構成では、参照音声のピッチが検出されない無声区間についてピッチが設定されることで無音区間が短縮される。したがって、相対ピッチの不連続な変動を有効に抑制できるという利点がある。更に好適な態様において、補間処理手段は、無声区間の直前の第１区間内のピッチの時系列に応じて無声区間のうち第１区間の直後の第１補間区間内のピッチを設定するとともに、無声区間の直後の第２区間内のピッチの時系列に応じて無声区間のうち第２区間の直前の第２補間区間内のピッチを設定する。以上の態様では、無声区間内のピッチが前後の有声区間内のピッチに応じて近似的に設定されるから、楽曲データが指定する楽曲の有声区間内における相対ピッチの不連続な変動を抑制するという前述の効果は格別に顕著である。

本発明の好適な態様において、特性解析手段は、所定の音価を単位として楽曲を複数の単位区間に区分する区間設定手段と、区間設定手段が区分した複数の単位区間を複数の集合に分類する決定木と、各集合に分類された各単位区間内の相対ピッチの時系列の確率分布を規定する変数情報とを、確率モデルの複数の状態の各々について含む歌唱特性データを生成する解析処理手段とを含む。以上の態様では、所定の音価を単位として確率モデルが規定されるから、例えば音符を単位として確率モデルを割当てる構成と比較して、音価の長短に関わらず歌唱特性（相対ピッチ）を精細に制御できるという利点がある。

ところで、確率モデルの複数の状態の各々について完全に独立に決定木を生成した場合には、単位区間内の相対ピッチの時系列の特性が状態間で顕著に相違し、結果的に合成音声が不自然な印象の音声（例えば現実には発音できないような音声や実際の発音とは異なる音声）となる可能性がある。以上の事情を考慮して、本発明の好適な態様における解析処理手段は、確率モデルの複数の状態にわたり共通する基礎決定木から状態毎の決定木を生成する。以上の態様では、確率モデルの複数の状態にわたり共通する基礎決定木から状態毎の決定木が生成されるから、確率モデルの状態毎に相互に独立に決定木を生成する構成と比較して、相前後する状態間で相対ピッチの遷移の特性が過度に相違する可能性が低減され、聴感的に自然な合成音声（例えば実際に発音され得る音声）を生成できるという利点がある。なお、共通の基礎決定木から生成される各状態の決定木は、部分または全体が相互に共通する。

本発明の好適な態様において、状態毎の決定木は、楽曲を時間軸上で区分した各フレーズと単位区間との関係に応じた条件を包含する。以上の態様では、単位区間とフレーズとの関係に関する条件が決定木の各節点に設定されるから、単位区間とフレーズとの関係が加味された聴感的に自然な合成音声を生成することが可能である。

以上の各態様に係る音声解析装置は、音響信号の処理に専用されるDSP（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、CPU（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声解析装置の動作方法（音声解析方法）としても特定される。

本発明の第１実施形態に係る音声処理システムのブロック図である。変数抽出部の動作の説明図である。変数抽出部のブロック図である。補間処理部の動作の説明図である。特性解析部のブロック図である。確率モデルおよび歌唱特性データの説明図である。決定木の説明図である。音声解析装置の動作のフローチャートである。楽譜画像および遷移画像の模式図である。音声合成装置の動作のフローチャートである。第１実施形態の効果の説明図である。第２実施形態におけるフレーズの説明図である。第３実施形態における相対ピッチと制御変数との関係を示すグラフである。第４実施形態における相対ピッチの修正の説明図である。第４実施形態における変数設定部の動作のフローチャートである。第５実施形態における決定木の生成の説明図である。第５実施形態の決定木における共通条件の説明図である。第６実施形態における特性解析部の動作のフローチャートである。第６実施形態における決定木の生成の説明図である。第７実施形態における変数設定部の動作のフローチャートである。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声処理システムのブロック図である。音声処理システムは、音声合成用のデータを生成および利用するためのシステムであり、音声解析装置１００と音声合成装置２００とを具備する。音声解析装置１００は、特定の歌唱者（以下「参照歌唱者」という）の歌唱スタイルを表す歌唱特性データＺを生成する。歌唱スタイルは、例えば参照歌唱者に特有の歌い廻し（例えばしゃくり）や表情等の表現法を意味する。音声合成装置２００は、音声解析装置１００が生成した歌唱特性データＺを適用した音声合成で、参照歌唱者の歌唱スタイルを反映した任意の楽曲の歌唱音声の音声信号Ｖを生成する。すなわち、所望の楽曲について参照歌唱者の歌唱音声が存在しない場合でも、参照歌唱者の歌唱スタイルが付与された当該楽曲の歌唱音声（すなわち参照歌唱者が当該楽曲を歌唱したような音声）を生成することが可能である。なお、図１では音声解析装置１００と音声合成装置２００とを別体の装置として例示したが、音声解析装置１００と音声合成装置２００とを単体の装置で実現することも可能である。

＜音声解析装置１００＞
図１に例示される通り、音声解析装置１００は、演算処理装置１２と記憶装置１４とを具備するコンピュータシステムで実現される。記憶装置１４は、演算処理装置１２が実行する音声解析プログラムＧAや演算処理装置１２が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置１４として任意に採用され得る。

第１実施形態の記憶装置１４は、歌唱特性データＺの生成に利用される参照音声データＸAと参照楽曲データＸBとを記憶する。参照音声データＸAは、図２に例示される通り、参照歌唱者が特定の楽曲（以下「参照楽曲」という）を歌唱した音声（以下「参照音声」という）の波形を表現する。他方、参照楽曲データＸBは、参照音声データＸAに対応する参照楽曲の楽譜を表現する。具体的には、参照楽曲データＸBは、図２から理解される通り、参照楽曲を構成する音符毎に音高と発音期間と歌詞（発音文字）とを時系列に指定する時系列データ（例えばVSQ形式のファイル）である。

図１の演算処理装置１２は、記憶装置１４に記憶された音声解析プログラムＧAを実行することで、参照歌唱者の歌唱特性データＺを生成するための複数の機能（変数抽出部２２，特性解析部２４）を実現する。なお、演算処理装置１２の各機能を複数の装置に分散した構成や、専用の電子回路（例えばDSP）が演算処理装置１２の一部の機能を実現する構成も採用され得る。

変数抽出部２２は、参照音声データＸAが表す参照音声の特徴量の時系列を取得する。第１実施形態の変数抽出部２２は、参照楽曲データＸBを適用した音声合成で生成される音声（以下「合成音声」という）のピッチＰBと参照音声データＸAが表す参照音声のピッチＰAとの差分（以下「相対ピッチ」という）Ｒを特徴量として順次に算定する。すなわち、相対ピッチＲは、参照音声のピッチベンドの数値（基準となる合成音声のピッチＰBに対する参照音声のピッチＰAの変動量）とも換言され得る。図３に例示される通り、第１実施形態の変数抽出部２２は、遷移生成部３２とピッチ検出部３４と補間処理部３６と差分算定部３８とを含んで構成される。

遷移生成部３２は、参照楽曲データＸBを適用した音声合成で生成される合成音声のピッチＰBの遷移（以下「合成ピッチ遷移」という）ＣPを設定する。参照楽曲データＸBを適用した素片接続型の音声合成では、参照楽曲データＸBが音符毎に指定する音高と発音期間とに応じて合成ピッチ遷移（ピッチカーブ）ＣPが生成され、各音符の歌詞に対応する音声素片を合成ピッチ遷移ＣPの各ピッチＰBに調整して相互に連結することで合成音声が生成される。遷移生成部３２は、参照楽曲の参照楽曲データＸBに応じて合成ピッチ遷移ＣPを生成する。以上の説明から理解される通り、合成ピッチ遷移ＣPは、参照楽曲の歌唱音声の模範的（標準的）なピッチＰBの軌跡に相当する。なお、前述の通り合成ピッチ遷移ＣPは音声合成に利用され得るが、第１実施形態の音声解析装置１００では、参照楽曲データＸBに応じた合成ピッチ遷移ＣPさえ生成されれば、実際の合成音声の生成までは必須ではない。

図２には、参照楽曲データＸBから生成される合成ピッチ遷移ＣPが図示されている。図２に例示される通り、参照楽曲データＸBが音符毎に指定する音高は離散的（不連続）に変動するのに対し、合成音声の合成ピッチ遷移ＣPではピッチＰBが連続に変動する。すなわち、合成音声のピッチＰBは、任意の１個の音符に対応する音高の数値から直後の音符の音高に対応する数値まで連続的に変動する。以上の説明から理解される通り、第１実施形態の遷移生成部３２は、合成音声のピッチＰBが時間軸上で連続に変動するように合成ピッチ遷移ＣPを生成する。

図３のピッチ検出部３４は、参照音声データＸAが表す参照音声のピッチＰAを順次に検出する。ピッチＰAの検出には公知の技術が任意に採用される。図２から理解される通り、参照音声のうち調波構造が存在しない無声区間（例えば子音区間や無音区間）ではピッチＰAが検出されない。図３の補間処理部３６は、参照音声の無声区間についてピッチＰAを設定（補間）する。

図４は、補間処理部３６の動作の説明図である。参照音声のピッチＰAが検出された有声区間σ1および有声区間σ2と、両者間の無声区間（子音区間または無音区間）σ0とが図４では例示されている。補間処理部３６は、有声区間σ1および有声区間σ2のピッチＰAの時系列に応じて無声区間σ0内のピッチＰAを設定する。

具体的には、補間処理部３６は、有声区間σ1のうち終点側に位置する所定長の区間（第１区間）ηA1内のピッチＰAの時系列に応じて、無声区間σ0のうち始点側に位置する所定長の補間区間（第１補間区間）ηA2内のピッチＰAの時系列を設定する。例えば、区間ηA1内のピッチＰAの時系列の近似線（例えば回帰直線）Ｌ1上の各数値が区間ηA1の直後の補間区間ηA2内のピッチＰAとして設定される。すなわち、有声区間σ1（区間ηA1）から直後の無声区間σ0（補間区間ηA2）にわたりピッチＰAの遷移が連続するように有声区間σ1内のピッチＰAの時系列が無声区間σ0内にも拡張される。

同様に、補間処理部３６は、有声区間σ2のうち始点側に位置する所定長の区間（第２区間）ηB1内のピッチＰAの時系列に応じて、無声区間σ0のうち終点側に位置する所定長の補間区間（第２補間区間）ηB2内のピッチＰAの時系列を設定する。例えば、区間ηB1内のピッチＰAの時系列の近似線（例えば回帰直線）Ｌ2上の各数値が区間ηB1の直前の補間区間ηB2内のピッチＰAとして設定される。すなわち、有声区間σ2（区間ηB1）から直前の無声区間σ0（補間区間ηB2）にわたりピッチＰAの遷移が連続するように有声区間σ2内のピッチＰAの時系列が無声区間σ0内にも拡張される。なお、区間ηA1と補間区間ηA2とは相等しい時間長に設定され、区間ηB1と補間区間ηB2とは相等しい時間長に設定される。ただし、各区間の時間長を相違させることも可能である。また、区間ηA1と区間ηB1との時間長の異同や補間区間ηA2と補間区間ηB2との時間長の異同も不問である。

図３の差分算定部３８は、図２および図４に例示される通り、遷移生成部３２が算定した合成音声のピッチＰB（合成ピッチ遷移ＣP）と補間処理部３６による処理後の参照音声のピッチＰAとの差分を相対ピッチＲとして順次に算定する（Ｒ＝ＰB−ＰA）。図４の例示のように、無声区間σ0内で補間区間ηA2と補間区間ηB2とが相互に離間する場合、差分算定部３８は、補間区間ηA2と補間区間ηB2との間隔内の相対ピッチＲを所定値（例えばゼロ）に設定する。第１実施形態の変数抽出部２２は、以上の構成および処理により相対ピッチＲの時系列を生成する。

図１の特性解析部２４は、変数抽出部２２が生成した相対ピッチＲの時系列を解析することで歌唱特性データＺを生成する。第１実施形態の特性解析部２４は、図５に例示される通り、区間設定部４２と解析処理部４４とを含んで構成される。

区間設定部４２は、変数抽出部２２が生成した相対ピッチＲの時系列を時間軸上で複数の区間（以下「単位区間」という）ＵAに区分する。具体的には、第１実施形態の区間設定部４２は、図２から理解される通り、所定の音価（以下「単位音価」という）を単位として相対ピッチＲの時系列を時間軸上で複数の単位区間ＵAに区分する。単位音価は、例えば１６分音符に相当する時間長である。すなわち、１個の単位区間ＵAには、参照楽曲内の単位音価に相当する区間にわたる相対ピッチＲの時系列が包含される。区間設定部４２は、参照楽曲データＸBを参照することで参照楽曲内に複数の単位区間ＵAを設定する。

図５の解析処理部４４は、区間設定部４２が生成した単位区間ＵA毎の相対ピッチＲに応じて参照歌唱者の歌唱特性データＺを生成する。歌唱特性データＺの生成には図６の確率モデルＭが利用される。第１実施形態の確率モデルＭは、Ｎ個（Ｎは２以上の自然数）の状態Ｓtで規定される隠れセミマルコフモデル（HSMM：Hidden Semi Markov Model）である。図６に例示される通り、歌唱特性データＺは、確率モデルＭの相異なる状態Ｓtに対応するＮ個の単位データｚ[n]（ｚ[1]〜ｚ[N]）を包含する。確率モデルＭのうち第ｎ番目（ｎ＝１〜Ｎ）の状態Ｓtに対応する１個の単位データｚ[n]は、決定木Ｔ[n]と変数情報Ｄ[n]とを含んで構成される。

解析処理部４４は、単位区間ＵAに関連する所定の条件（質問）の成否を順次に判定する機械学習（決定木学習）により決定木Ｔ[n]を生成する。決定木Ｔ[n]は、単位区間ＵAを複数の集合に分類（クラスタリング）するための分類木であり、複数の節点（ノード）ν（νa，νb，νc）を複数の階層にわたり相互に連結した木構造で表現される。図７に例示される通り、決定木Ｔ[n]は、分類の開始点となる始端節（ルートノード）νaと、最終的な分類に対応する複数（Ｋ個）の終端節（リーフノード）νcと、始端節νaから各終端節νcまでの経路上の分岐点に位置する中間節（内部ノード）νbとを含んで構成される。

始端節νaおよび中間節νbでは、例えば単位区間ＵAが無音区間であるか否か、単位区間ＵA内の音符が１６分音符未満であるか否か、単位区間ＵAが音符の始点側に位置するか否か、単位区間ＵAが音符の終点側に位置するか否か、といった条件の成否（コンテキスト）が判定される。各単位区間ＵAの分類を停止する時点（決定木Ｔ[n]を確定する時点）は、例えば最小記述長（MDL：Minimum Description Length）基準に応じて決定される。決定木Ｔ[n]の構造（例えば中間節νbの個数や条件、終端節νcの個数Ｋ）は確率モデルＭの状態Ｓt毎に相違する。

図６の単位データｚ[n]の変数情報Ｄ[n]は、確率モデルＭの第ｎ番目の状態Ｓtに関連する変数（確率）を規定する情報であり、図６に例示される通り、決定木Ｔ[n]の相異なる終端節νcに対応するＫ個の変数群Ω[k]（Ω[1]〜Ω[K]）を含んで構成される。変数情報Ｄ[n]のうち第ｋ番目（ｋ＝１〜Ｋ）の変数群Ω[k]は、決定木Ｔ[n]のＫ個の終端節νcのうち第ｋ番目の１個の終端節νcに分類された各単位区間ＵA内の相対ピッチＲに応じた変数の集合であり、変数ω0と変数ω1と変数ω2と変数ωdとを含んで構成される。変数ω0と変数ω1と変数ω2との各々は、相対ピッチＲに関連する出現確率の確率分布を規定する変数（例えば確率分布の平均および分散）である。具体的には、変数ω0は相対ピッチＲの確率分布を規定し、変数ω1は相対ピッチＲの時間変化（微分値）ΔＲの確率分布を規定し、変数ω2は相対ピッチの２階微分値Δ²Ｒの確率分布を規定する。また、変数ωdは、状態Ｓtの継続長の確率分布を規定する変数（例えば確率分布の平均および分散）である。解析処理部４４は、確率モデルＭの第ｎ番目の状態Ｓtに対応する決定木Ｔ[n]のうち第ｋ番目の終端節νcに分類された複数の単位区間ＵAの相対ピッチＲの出現確率が最大となるように単位データｚ[n]の変数情報Ｄ[n]の変数群Ω[k]（ω0〜ω2，ωd）を設定する。以上の手順で生成された決定木Ｔ[n]と変数情報Ｄ[n]とを確率モデルＭの状態Ｓt毎に含む歌唱特性データＺが記憶装置１４に格納される。

図８は、音声解析装置１００（演算処理装置１２）が歌唱特性データＺを生成するために実行する処理のフローチャートである。例えば音声解析プログラムＧAの起動が指示された場合に図８の処理が開始される。音声解析プログラムＧAが起動されると、遷移生成部３２は、参照楽曲データＸBから合成ピッチ遷移ＣP（ピッチＰB）を生成する（ＳA1）。また、ピッチ検出部３４は、参照音声データＸAが表す参照音声のピッチＰAを検出し（ＳA2）、補間処理部３６は、ピッチ検出部３４が検出したピッチＰAを利用した補間で参照音声の無声区間内のピッチＰAを設定する（ＳA3）。差分算定部３８は、ステップＳA1で生成された各ピッチＰBとステップＳA3による補間後の各ピッチＰAとの差分を相対ピッチＲとして算定する（ＳA4）。

他方、区間設定部４２は、参照楽曲データＸBを参照することで参照楽曲を単位音価毎に複数の単位区間ＵAに区分する（ＳA5）。解析処理部４４は、各単位区間ＵAを適用した機械学習で確率モデルＭの状態Ｓt毎の決定木Ｔ[n]を生成するとともに（ＳA6）、決定木Ｔ[n]の各終端節νcに分類された各単位区間ＵA内の相対ピッチＲに応じた変数情報Ｄ[n]を生成する（ＳA7）。そして、解析処理部４４は、ステップＳA6で生成した決定木Ｔ[n]とステップＳA7で生成した変数情報Ｄ[n]とを含む単位データｚ[n]を確率モデルＭの状態Ｓt毎に包含する歌唱特性データＺを記憶装置１４に格納する（ＳA8）。参照歌唱者（参照音声データＸA）と参照楽曲データＸBとの組合せ毎に以上の動作が反復されることで、相異なる参照歌唱者に対応する複数の歌唱特性データＺが記憶装置５４に蓄積される。

＜音声合成装置２００＞
図１の音声合成装置２００は、前述の通り、音声解析装置１００が生成した歌唱特性データＺを適用した音声合成で音声信号Ｖを生成する信号処理装置である。図１に例示される通り、音声合成装置２００は、演算処理装置５２と記憶装置５４と表示装置５６と入力装置５７と放音装置５８とを具備するコンピュータシステム（例えば携帯電話機やパーソナルコンピュータ等の情報処理装置）で実現される。

表示装置５６（例えば液晶表示パネル）は、演算処理装置５２から指示された画像を表示する。入力装置５７は、音声合成装置２００に対する利用者からの指示を受付ける操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置５６と一体に構成されたタッチパネルを入力装置５７として採用することも可能である。放音装置５８（例えばスピーカやヘッドホン）は、歌唱特性データＺを適用した音声合成で生成された音声信号Ｖを音響として再生する。

記憶装置５４は、演算処理装置５２が実行するプログラム（ＧB1，ＧB2，ＧB3）や演算処理装置５２が使用する各種のデータ（音声素片群ＹA，合成楽曲データＹB）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置５４として任意に採用され得る。音声解析装置１００が生成した歌唱特性データＺが、例えばインターネット等の通信網や可搬型の記録媒体等を媒体として音声解析装置１００から音声合成装置２００の記憶装置５４に転送される。別個の参照歌唱者に対応する複数の歌唱特性データＺが記憶装置５４には格納され得る。

第１実施形態の記憶装置５４は、音声素片群ＹAと合成楽曲データＹBとを記憶する。音声素片群ＹAは、素片接続型の音声合成の素材として利用される複数の音声素片の集合（音声合成用ライブラリ）である。音声素片は、言語的な意味の区別の最小単位である音素（例えば母音や子音）、または複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。なお、各音声素片の発声者と参照歌唱者との異同は不問である。合成楽曲データＹBは、音声合成の対象となる楽曲（以下「合成楽曲」という）の楽譜を表現する。具体的には、合成楽曲データＹBは、合成楽曲の音符毎に音高と発音期間と歌詞とを時系列に指定する時系列データ（例えばVSQ形式のファイル）である。

第１実施形態の記憶装置５４は、編集プログラムＧB1と特性付与プログラムＧB2と音声合成プログラムＧB3とを記憶する。編集プログラムＧB1は、合成楽曲データＹBを作成および編集するためのプログラム（スコアエディタ）である。特性付与プログラムＧB2は、歌唱特性データＺを音声合成に適用するためのプログラムであり、例えば、編集プログラムＧB1の機能を拡張するためのプラグインソフトウェアとして提供される。音声合成プログラムＧB3は、音声合成の実行で音声信号Ｖを生成するプログラム（音声合成エンジン）である。なお、特性付与プログラムＧB2を編集プログラムＧB1や音声合成プログラムＧB3の一部として統合することも可能である。

演算処理装置５２は、記憶装置５４に記憶されたプログラム（ＧB1，ＧB2，ＧB3）を実行することで、合成楽曲データＹBの編集や音声信号Ｖの生成を実行するための複数の機能（情報編集部６２，変数設定部６４，音声合成部６６）を実現する。情報編集部６２は編集プログラムＧB1で実現され、変数設定部６４は特性付与プログラムＧB2で実現され、音声合成部６６は音声合成プログラムＧB3で実現される。なお、演算処理装置５２の各機能を複数の装置に分散した構成や、専用の電子回路（例えばDSP）が演算処理装置５２の一部の機能を実現する構成も採用され得る。

情報編集部６２は、入力装置５７に対する利用者からの指示に応じて合成楽曲データＹBを編集する。具体的には、情報編集部６２は、合成楽曲データＹBを表象する図９の楽譜画像５６２を表示装置５６に表示させる。楽譜画像５６２は、時間軸と音高軸とが設定された領域内に、合成楽曲データＹBが指定する各音符を表象する図像を配置した画像（ピアノロール画面）である。情報編集部６２は、楽譜画像５６２に対する利用者からの指示に応じて記憶装置５４内の合成楽曲データＹBを編集する。

利用者は、入力装置５７を適宜に操作することで、特性付与プログラムＧB2の起動（すなわち歌唱特性データＺの適用）を指示するとともに記憶装置５４内の複数の歌唱特性データＺのうち所望の参照歌唱者の歌唱特性データＺを選択することが可能である。特性付与プログラムＧB2により実現される図１の変数設定部６４は、情報編集部６２が生成した合成楽曲データＹBと利用者が選択した歌唱特性データＺとに応じた相対ピッチＲの時間変化（以下「相対ピッチ遷移」という）ＣRを設定する。相対ピッチ遷移ＣRは、合成楽曲データＹBが指定する合成楽曲について歌唱特性データＺの歌唱スタイルを付与した歌唱音声の相対ピッチＲの軌跡であり、合成楽曲データＹBの合成楽曲を参照歌唱者が歌唱した場合の相対ピッチＲの遷移（参照歌唱者の歌唱スタイルを反映したピッチベンドカーブ）とも換言され得る。

具体的には、変数設定部６４は、合成楽曲データＹBを参照して合成楽曲を時間軸上で複数の単位区間ＵBに区分する。具体的には、第１実施形態の変数設定部６４は、図９から理解される通り、前述の単位区間ＵAと同様の単位音価（例えば１６分音符）毎に合成楽曲を複数の単位区間ＵBに区分する。

そして、変数設定部６４は、歌唱特性データＺのうち確率モデルＭの第ｎ番目の状態Ｓtに対応する単位データｚ[n]の決定木Ｔ[n]に各単位区間ＵBを適用することで、決定木Ｔ[n]のＫ個の終端節νcのうち当該単位区間ＵBが所属する１個の終端節νcを特定し、変数情報Ｄ[n]のうち当該終端節νcに対応する変数群Ω[k]の各変数ω（ω0，ω1，ω2，ωd）を利用して相対ピッチＲの時系列を特定する。以上の処理を確率モデルＭの状態Ｓt毎に順次に実行することで、単位区間ＵB内の相対ピッチＲの時系列が特定される。具体的には、各状態Ｓtの継続長が変数群Ω[k]の変数ωdに応じて設定され、変数ω0で規定される相対ピッチＲの出現確率と、変数ω1で規定される相対ピッチＲの時間変化ΔＲの出現確率と、変数ω2で規定される相対ピッチＲの２階微分値Δ²Ｒの出現確率との同時確率が最大となるように各相対ピッチＲが算定される。複数の単位区間ＵBにわたり相対ピッチＲの時系列を時間軸上で連結することで合成楽曲の全域にわたる相対ピッチ遷移ＣRが生成される。

情報編集部６２は、変数設定部６４が生成した相対ピッチ遷移ＣRを記憶装置５４内の合成楽曲データＹBに付加するとともに、図９に例示される通り、相対ピッチ遷移ＣRを表象する遷移画像５６４を楽譜画像５６２とともに表示装置５６に表示させる。図９に例示された遷移画像５６４は、楽譜画像５６２の各音符の時系列と時間軸が共通する折線として相対ピッチ遷移ＣRを表現した画像である。利用者は、入力装置５７を利用して遷移画像５６４を適宜に変更することで相対ピッチ遷移ＣR（各相対ピッチＲ）の変更を指示することが可能である。情報編集部６２は、利用者からの指示に応じて相対ピッチ遷移ＣRの各相対ピッチＲを編集する。

図１の音声合成部６６は、記憶装置５４に記憶された音声素片群ＹAおよび合成楽曲データＹBと、変数設定部６４が設定した相対ピッチ遷移ＣRとに応じて音声信号Ｖを生成する。具体的には、音声合成部６６は、変数抽出部２２の遷移生成部３２と同様に、合成楽曲データＹBが音符毎に指定する音高と発音期間とに応じて合成ピッチ遷移（ピッチカーブ）ＣPを生成する。合成ピッチ遷移ＣPは、時間軸上で連続に変動するピッチＰBの時系列である。音声合成部６６は、変数設定部６４が設定した相対ピッチ遷移ＣRに応じて合成ピッチ遷移ＣPを補正する。例えば合成ピッチ遷移ＣPの各ピッチＰBに相対ピッチ遷移ＣRの各相対ピッチＲが加算される。そして、音声合成部６６は、各音符の歌詞に対応する音声素片を音声素片群ＹAから順次に選択し、相対ピッチ遷移ＣRに応じた補正後の合成ピッチ遷移ＣPの各ピッチＰBに各音声素片を調整して相互に連結することで音声信号Ｖを生成する。音声合成部６６が生成した音声信号Ｖが放音装置５８に供給されることで音響として再生される。

歌唱特性データＺから生成される相対ピッチ遷移ＣRには参照歌唱者の歌唱スタイル（例えば参照歌唱者に特有のしゃくり等の歌い廻し）が反映されるから、相対ピッチ遷移ＣRで補正された合成ピッチ遷移ＣPに応じた音声信号Ｖの再生音は、参照歌唱者の歌唱スタイルが付与された合成楽曲の歌唱音声（すなわち参照歌唱者が合成楽曲を歌唱したような音声）と知覚される。

図１０は、音声合成装置２００（演算処理装置５２）が合成楽曲データＹBの編集と音声信号Ｖの生成とのために実行する処理のフローチャートである。例えば編集プログラムＧB1の起動（合成楽曲データＹBの編集）が指示された場合に図１０の処理が開始される。編集プログラムＧB1が起動されると、情報編集部６２は、記憶装置５４に記憶された合成楽曲データＹBに応じた楽譜画像５６２を表示装置５６に表示させるとともに、楽譜画像５６２に対する利用者からの指示に応じて合成楽曲データＹBを編集する（ＳB1）。

演算処理装置５２は、特性付与プログラムＧB2の起動（歌唱特性データＺに応じた歌唱スタイルの付与）が利用者から指示されたか否かを判定する（ＳB2）。特性付与プログラムＧB2の起動が指示された場合（ＳB2：YES）、変数設定部６４は、現時点の合成楽曲データＹBと利用者が選択した歌唱特性データＺとに応じた相対ピッチ遷移ＣRを生成する（ＳB3）。変数設定部６４が生成した相対ピッチ遷移ＣRは、次回のステップＳB1で遷移画像５６４として表示装置５６に表示される。他方、特性付与プログラムＧB2の起動が指示されていない場合（ＳB2：NO）、相対ピッチ遷移ＣRの生成（ＳB3）は実行されない。なお、以上の説明では利用者からの指示を契機として相対ピッチ遷移ＣRを生成したが、利用者からの指示とは無関係に事前に（例えばバックグラウンドで）相対ピッチ遷移ＣRを生成することも可能である。

演算処理装置５２は、音声合成の開始（音声合成プログラムＧB3の起動）が指示されたか否かを判定する（ＳB4）。音声合成の開始が指示された場合（ＳB4：YES）、音声合成部６６は、第１に、現時点の合成楽曲データＹBに応じて合成ピッチ遷移ＣPを生成する（ＳB5）。第２に、音声合成部６６は、ステップＳB3で生成した相対ピッチ遷移ＣRの各相対ピッチＲに応じて合成ピッチ遷移ＣPの各ピッチＰBを補正する（ＳB6）。第３に、音声合成部６６は、音声素片群ＹAのうち合成楽曲データＹBが指定する歌詞に対応する音声素片を、ステップＳB6の補正後の合成ピッチ遷移ＣPの各ピッチＰBに調整して相互に連結することで音声信号Ｖを生成する（ＳB7）。音声信号Ｖが放音装置５８に供給されることで、参照歌唱者の歌唱スタイルが付与された合成楽曲の歌唱音声が再生される。他方、音声合成の開始が指示されない場合（ＳB4：NO）、ステップＳB5からステップＳB7までの処理は実行されない。なお、利用者からの指示とは無関係に事前に（例えばバックグラウンドで）、合成ピッチ遷移ＣPの生成（ＳB5）や各ピッチＰBの補正（ＳB6）や音声信号Ｖの生成（ＳB7）を実行することも可能である。

演算処理装置５２は、処理の終了が指示されたか否かを判定する（ＳB8）。終了が指示されていない場合（ＳB8：NO）、演算処理装置５２は、処理をステップＳB1に移行して前述の処理を反復する。他方、処理の終了が指示された場合（ＳB8：YES）、演算処理装置５２は、図１０の処理を終了する。

以上に説明した通り、第１実施形態では、参照楽曲データＸBから生成される合成ピッチ遷移ＣPの各ピッチＰBと参照音声の各ピッチＰAとの差分に相当する相対ピッチＲを利用して、参照歌唱者の歌唱スタイルを反映した歌唱特性データＺが生成される。したがって、参照音声のピッチＰAの時系列に応じて歌唱特性データＺを生成する構成と比較して、必要な確率モデル（変数情報Ｄ[n]内の変数群Ω[k]の個数）を削減することが可能である。また、合成ピッチ遷移ＣPの各ピッチＰAは時間軸上で連続するから、以下に詳述する通り、音高が相違する各音符の境界の時点における相対ピッチＲの不連続な変動が抑制されるという利点もある。

図１１は、参照楽曲データＸBが指定する各音符の音高ＰN（ノートナンバ）と、参照音声データＸAが表す参照音声のピッチＰAと、参照楽曲データＸBから生成されるピッチＰB（合成ピッチ遷移ＣP）と、第１実施形態の変数抽出部２２がピッチＰBとピッチＰAとに応じて算定する相対ピッチＲとを併記した模式図である。図１１では、各音符の音高ＰNと参照音声のピッチＰAとに応じて算定された相対ピッチｒが対比例１として図示されている。対比例１の相対ピッチｒには音符間の境界の時点に不連続な変動が発生するのに対し、第１実施形態の相対ピッチＲは音符間の境界の時点でも連続に変動することが図１１からも明確に確認できる。以上のように時間的に連続に変動する相対ピッチＲを利用することで、聴感的に自然な合成音声を生成できるという利点がある。

また、第１実施形態では、参照音声のピッチＰAが検出されない無声区間σ0について有意なピッチＰAが補充される。すなわち、参照音声のうちピッチＰAが存在しない無声区間σ0の時間長が短縮される。したがって、参照楽曲データＸBが指定する参照楽曲（合成音声）のうち無声区間σX以外の有声区間内における相対ピッチＲの不連続な変動を有効に抑制することが可能である。第１実施形態では特に、無声区間σ0内のピッチＰAが前後の有声区間（σ1，σ2）内のピッチＰAに応じて近似的に設定されるから、相対ピッチＲの不連続な変動を抑制するという前述の効果は格別に顕著である。なお、図４から理解される通り、参照音声の無声区間σ0についてピッチＰAを補充する第１実施形態の構成でも、無声区間σX内（補間区間ηA2と補間区間ηB2との間隔内）では相対ピッチＲが不連続に変動し得る。しかし、相対ピッチＲが不連続に変動し得るのは、音声のピッチが知覚されない無声区間σX内であるから、合成楽曲の歌唱音声に対する相対ピッチＲの不連続の影響は充分に抑制される。

なお、第１実施形態では、参照楽曲や合成楽曲を単位音価毎に区分した各単位区間Ｕ（ＵA，ＵB）を１個の確率モデルＭで表現したが、１個の音符を１個の確率モデルＭで表現する構成（以下「対比例２」という）も想定され得る。しかし、対比例２では、音価に関わらず相等しい個数の状態Ｓtで音符が表現されるから、音価が長い音符については参照音声の歌唱スタイルを確率モデルＭで精細に表現することが困難である。第１実施形態では、楽曲を単位音価毎に区分した各単位区間Ｕ（ＵA，ＵB）に１個の確率モデルＭが付与される。以上の構成では、音価が長い音符ほど、当該音符を表現する確率モデルＭの状態Ｓtの総数は増加する。したがって、対比例２と比較すると、音価の長短に関わらず相対ピッチＲを精細に制御できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図１２は、第２実施形態の説明図である。図１２に例示される通り、第２実施形態の音声解析装置１００の区間設定部４２は、第１実施形態と同様に参照楽曲を複数の単位区間ＵAに区分するほか、参照楽曲を時間軸上で複数のフレーズＱに区分する。フレーズＱは、参照楽曲のうち音楽的な纏まりが受聴者に知覚される旋律（複数の音符の時系列）の区間である。例えば、区間設定部４２は、所定長を上回る無音区間（例えば４分休符以上の無音区間）を境界として参照楽曲を複数のフレーズＱに区分する。

第２実施形態の解析処理部４４が状態Ｓt毎に生成する決定木Ｔ[n]は、各単位区間ＵAと当該単位区間ＵAを包含するフレーズＱとの関係に関する条件が設定された節点νを包含する。具体的には、以下に例示される通り、単位区間Ｕ内の音符とフレーズＱ内の各音符との関係に関する条件の成否が各中間節νb（または始端節νa）で判定される。
・単位区間ＵA内の音符がフレーズＱ内の始点側に位置するか否か。
・単位区間ＵA内の音符がフレーズＱ内の終点側に位置するか否か。
・単位区間ＵA内の音符とフレーズＱ内の最高音との距離が所定値を上回るか否か。
・単位区間ＵA内の音符とフレーズＱ内の最低音との距離が所定値を上回るか否か。
・単位区間ＵA内の音符とフレーズＱ内の最頻音との距離が所定値を上回るか否か。
以上の各条件における「距離」は、時間軸上の距離（時間差）および音高軸上の距離（音高差）の双方を含意し、フレーズＱ内の複数の音符が該当する場合には例えば単位区間ＵA内の音符との最短距離である。また、「最頻音」は、フレーズＱ内での発音回数または発音時間（または両者の乗算値）が最大となる音符を意味する。

音声合成装置２００の変数設定部６４は、第１実施形態と同様に合成楽曲を複数の単位区間ＵBに区分するほか、合成楽曲を時間軸上で複数のフレーズＱに区分する。そして、変数設定部６４は、前述の通りフレーズＱに関連する条件が各節点νに設定された決定木に各単位区間ＵBを適用することで、当該単位区間ＵBが所属する１個の終端節νcを特定する。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、単位区間Ｕ（ＵA，ＵB）とフレーズＱとの関係に関する条件が決定木Ｔ[n]の各節点νに設定されるから、各単位区間Ｕの音符とフレーズＱ内の各音符との関係が加味された聴感的に自然な合成音声を生成できるという利点がある。

＜第３実施形態＞
第３実施形態における音声合成装置２００の変数設定部６４は、第１実施形態と同様に相対ピッチ遷移ＣRを生成するほか、音声合成部６６による音声合成に適用される制御変数を相対ピッチ遷移ＣRの各相対ピッチＲに応じて可変に設定する。制御変数は、合成音声に付与される音楽的な表情を制御するための変数である。例えば発音の強弱（ベロシティ）や音色（例えば明瞭度等）の変数が制御変数として好適であるが、以下の説明では音量（ダイナミクス）Ｄynを制御変数として例示する。

図１３は、相対ピッチ遷移ＣRの各相対ピッチＲと音量Ｄynとの関係を例示するグラフである。変数設定部６４は、相対ピッチ遷移ＣRの各相対ピッチＲに対して図１３の関係が成立するように音量Ｄynを設定する。

図１３から理解される通り、概略的には、相対ピッチＲが大きいほど音量Ｄynが増加する。歌唱音声のピッチが楽曲の本来の音高と比較して低い場合（相対ピッチＲが負数である場合）には、歌唱音声のピッチが高い場合（相対ピッチＲが正数である場合）と比較して歌唱が下手と知覚され易いという傾向がある。以上の傾向を考慮して、図１３に例示される通り、負数の範囲内での相対ピッチＲの減少に対して音量Ｄynが減少する割合（勾配の絶対値）が、正数の範囲内での相対ピッチＲの増加に対して音量Ｄynが増加する割合を上回るように、変数設定部６４は相対ピッチＲに応じて音量Ｄynを設定する。具体的には、変数設定部６４は、以下に例示された数式(A)で音量Ｄyn（０≦Ｄyn≦１２７）を算定する。
Ｄyn＝tanh（Ｒ×β／8192）×64＋64 ……(A)
数式(A)の係数βは、相対ピッチＲに対する音量Ｄynの変化の割合を相対ピッチＲの正側と負側とで相違させるための変数であり、具体的には相対ピッチＲが負数である場合には４に設定されるとともに、相対ピッチＲが非負数（ゼロまたは正数）である場合には１に設定される。なお、係数βの数値や数式(A)の内容は便宜的な例示であり適宜に変更され得る。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、相対ピッチＲに応じて制御変数（音量Ｄyn）が設定されるから、利用者が制御変数を手動で設定する必要がないという利点がある。なお、以上の説明では相対ピッチＲに応じて制御変数（音量Ｄyn）を設定したが、制御変数の数値の時系列を例えば確率モデルで表現することも可能である。なお、第２実施形態の構成を第３実施形態に採用することも可能である。

＜第４実施形態＞
決定木Ｔ[n]の各節点νの条件を適切に設定することで、歌唱特性データＺに応じた相対ピッチ遷移ＣRには、参照音声のビブラートの特性を反映した相対ピッチＲの時間的な変動が現れる。しかし、歌唱特性データＺを利用した相対ピッチ遷移ＣRの生成では、相対ピッチＲの変動の周期性が必ずしも担保されないから、図１４の部分(A)に例示される通り、楽曲内のビブラートを付与すべき区間にて相対ピッチ遷移ＣRの各相対ピッチＲが不規則に変動する可能性がある。以上の事情を考慮して、第４実施形態の音声合成装置２００の変数設定部６４は、合成楽曲のうちビブラートに起因した相対ピッチＲの変動を周期的な変動に修正する。

図１５は、第４実施形態の変数設定部６４の動作のフローチャートである。第１実施形態における図１０のステップＳB3が図１５のステップＳC1からステップＳC4に置換される。図１５の処理を開始すると、変数設定部６４は、第１実施形態と同様の方法で相対ピッチ遷移ＣRを生成し（ＳC1）、相対ピッチ遷移ＣRのうちビブラートに相当する区間（以下「修正区間」という）Ｂを特定する（ＳC2）。

具体的には、変数設定部６４は、相対ピッチ遷移ＣRの相対ピッチＲの微分値ΔＲの零交差数を算定する。相対ピッチＲの微分値ΔＲの零交差数は、相対ピッチ遷移ＣRのうち時間軸上の山部（極大点）および谷部（極小点）の総数に相当する。歌唱音声にビブラートが付加される区間では、相対ピッチＲが適度な頻度で正数および負数に交互に変動するという傾向がある。以上の傾向を考慮して、変数設定部６４は、単位時間内の微分値ΔＲの零交差数（すなわち単位時間内の山部および谷部の個数）が所定の範囲内にある区間を修正区間Ｂとして特定する。ただし、修正区間Ｂの特定方法は以上の例示に限定されない。例えば、合成楽曲データＹBが指定する複数の音符のうち所定長を上回る音符の後半区間（すなわちビブラートが付加される可能性が高い区間）を修正区間Ｂとして特定する構成も採用される。

修正区間Ｂを特定すると、変数設定部６４は、修正後のビブラートの周期（以下「目標周期」という）τを設定する（ＳC3）。目標周期τは、例えば、修正区間Ｂ内の相対ピッチＲの山部または谷部の個数（波数）で修正区間Ｂの時間長を除算した数値である。そして、変数設定部６４は、相対ピッチ遷移ＣRのうち修正区間Ｂ内の各山部（または各谷部）の間隔が目標周期τに近付く（理想的には一致する）ように相対ピッチ遷移ＣRの各相対ピッチＲを修正する（ＳC4）。以上の説明から理解される通り、修正前の相対ピッチ遷移ＣRでは図１４の部分(A)のように山部および谷部の間隔が不均等であるのに対し、ステップＳC4の修正後の相対ピッチ遷移ＣRでは、図１４の部分(B)のように山部および谷部の間隔が均等化される。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、時間軸上における相対ピッチ遷移ＣRの山部および谷部の間隔が均等化されるから、聴感的に自然なビブラートが付与された合成音声を生成できるという利点がある。なお、以上の説明では修正区間τおよび目標周期τを自動的に（すなわち利用者からの指示とは無関係に）設定したが、ビブラートの特性（区間，周期，振幅）を利用者からの指示に応じて可変に設定することも可能である。また、第２実施形態または第３実施形態の構成を第４実施形態に採用することも可能である。

＜第５実施形態＞
第１実施形態では、確率モデルＭの状態Ｓt毎に独立の決定木Ｔ[n]を例示した。第５実施形態における音声解析装置１００の特性解析部２４（解析処理部４４）は、図１６から理解される通り、確率モデルＭのＮ個の状態Ｓtにわたり共通する単一の決定木（以下「基礎決定木」という）Ｔ0から状態Ｓt毎の決定木Ｔ[n]（Ｔ[1]〜Ｔ[N]）を生成する。したがって、中間節νbや終端節νcの有無は決定木Ｔ[n]毎に相違する（したがって終端節νcの個数Ｋは第１実施形態と同様に決定木Ｔ[n]毎に相違する）が、各決定木Ｔ[n]にて相対応する各中間節νbの条件の内容は共通する。なお、図１６では、条件が共通する各節点νは同態様（ハッチング）で図示されている。

以上の通り、第５実施形態では共通の基礎決定木Ｔ0を起源としてＮ個の決定木Ｔ[1]〜Ｔ[N]が派生的に生成されるから、上位層に位置する各節点ν（始端節νa，中間節νb）に設定される条件（以下「共通条件」という）はＮ個の決定木Ｔ[1]〜Ｔ[N]にわたり共通する。図１７は、Ｎ個の決定木Ｔ[1]〜Ｔ[N]にわたり共通する木構造の模式図である。始端節νaでは、単位区間Ｕ（ＵA，ＵB）が音符の存在しない無音区間であるか否かが判定される。始端節νaの結果が否定である場合の中間節νb1では、単位区間Ｕ内の音符が１６分音符未満であるか否かが判定される。中間節νb1の結果が否定である場合の中間節νb2では、単位区間Ｕが音符の始点側に位置するか否かが判定され、中間節νb2の結果が否定である場合の中間節νb3では、単位区間Ｕが音符の終点側に位置するか否かが判定される。以上に説明した始端節νaおよび複数の中間節νb（νb1〜νb3）の各々における条件（共通条件）はＮ個の決定木Ｔ[1]〜Ｔ[N]にわたり共通する。

第５実施形態においても第１実施形態と同様の効果が実現される。ところで、確率モデルＭの状態Ｓt毎に完全に独立に決定木Ｔ[n]を生成する構成では、単位区間Ｕ内の相対ピッチＲの時系列の特性が前後の状態Ｓt間で顕著に相違し、結果的に合成音声が不自然な印象の音声（例えば現実には発音できないような音声や実際の発音とは異なる音声）となる可能性がある。第５実施形態では、確率モデルＭの相異なる状態Ｓtに対応するＮ個の決定木Ｔ[1]〜Ｔ[N]が共通の基礎決定木Ｔ0から生成されるから、Ｎ個の決定木Ｔ[1]〜Ｔ[N]の各々を独立に生成する構成と比較して、相前後する状態Ｓt間で相対ピッチＲの遷移の特性が過度に相違する可能性が低減され、聴感的に自然な合成音声（例えば実際に発音され得る音声）を生成できるという利点がある。もっとも、確率モデルＭの状態Ｓt毎に独立に決定木Ｔ[n]を生成する構成も本発明の範囲には包含され得る。

なお、以上の説明では、各状態Ｓtの決定木Ｔ[n]を部分的に共通させた構成を例示したが、各状態Ｓtの決定木Ｔ[n]の全体を共通させる（状態Ｓt間で決定木Ｔ[n]を完全に共通させる）ことも可能である。また、第２実施形態から第４実施形態の構成を第５実施形態に採用することも可能である。

＜第６実施形態＞
前述の各形態では、１個の参照楽曲の参照音声から検出されたピッチＰAを利用して決定木Ｔ[n]を生成する場合を便宜的に例示したが、実際には、相異なる複数の参照楽曲の参照音声から検出されたピッチＰAを利用して決定木Ｔ[n]が生成される。以上のように複数の参照楽曲から各決定木Ｔ[n]を生成する構成では、相異なる参照楽曲に包含される複数の単位区間ＵAが決定木Ｔ[n]の１個の終端節νcに混在した状態で分類されて当該終端節νcの変数群Ω[k]の生成に利用され得る。他方、音声合成装置２００の変数設定部６４による相対ピッチ遷移ＣRの生成の場面では、合成楽曲内の１個の音符に包含される複数の単位区間ＵBが決定木Ｔ[n]の相異なる終端節νcに分類される。したがって、合成楽曲の１個の音符に対応する複数の単位区間ＵBの各々に、相異なる参照楽曲のピッチＰAの傾向が反映され、合成音声（特にビブラート等の特性）が聴感的に不自然な印象に知覚される可能性がある。

以上の事情を考慮して、本発明の第６実施形態では、合成楽曲内の１個の音符（単位音価の複数個分の音符）に包含される複数の単位区間ＵBの各々が、決定木Ｔ[n]のうち共通の参照楽曲に対応する各終端節νc（すなわち、決定木Ｔ[n]の生成時に当該参照楽曲内の単位区間ＵBのみが分類された終端節νc）に分類されるように、音声解析装置１００の特性解析部２４（解析処理部４４）が各決定木Ｔ[n]を生成する。

具体的には、第６実施形態では、決定木Ｔ[n]の各中間節νbに設定される条件（コンテキスト）が、音符条件と区間条件との２種類に区分される。音符条件は、１個の音符を単位として成否が判定される条件（１個の音符の属性に関する条件）であり、区間条件は、１個の単位区間Ｕ（ＵA，ＵB）を単位として成否が判定される条件（１個の単位区間Ｕの属性に関する条件）である。

具体的には、音符条件としては以下の条件（Ａ1〜Ａ3）が例示される。
Ａ1：単位区間Ｕを内包する1個の音符の音高や継続長に関する条件
Ａ2：単位区間Ｕを内包する１個の音符の前後の音符の音高や継続長に関する条件
Ａ3：フレーズＱ内の１個の音符の位置（時間軸上または音高軸上の位置）に関する条件
条件Ａ1は、例えば、単位区間Ｕを内包する１個の音符の音高や継続長が所定の範囲にあるか否かという条件である。条件Ａ2は、例えば、単位区間Ｕを内包する１個の音符と直前または直後の音符との音高差が所定の範囲にあるか否かという条件である。また、条件Ａ3は、例えば、単位区間Ｕを内包する１個の音符がフレーズＱの始点側に位置するか否かという条件や、当該音符がフレーズＱの終点側に位置するか否かという条件である。

他方、区間条件は、例えば、１個の音符に対する単位区間Ｕの位置に関する条件である。例えば、単位区間Ｕが音符の始点側に位置するか否かという条件や、単位区間Ｕが音符の終点側に位置するか否かという条件が区間条件として好適である。

図１８は、第６実施形態の解析処理部４４が決定木Ｔ[n]を生成する処理のフローチャートである。第１実施形態における図８のステップＳA6が図１８の各処理に置換される。図１８に例示される通り、解析処理部４４は、区間設定部４２が画定した複数の単位区間ＵAの各々を、第１分類処理ＳD1および第２分類処理ＳD2の２段階で分類して決定木Ｔ[n]を生成する。図１９は、第１分類処理ＳD1および第２分類処理ＳD2の説明図である。

第１分類処理ＳD1は、前述の音符条件を利用して図１９の暫定的な決定木（以下「暫定決定木」という）ＴA[n]を生成する処理である。図１９から理解される通り、暫定決定木ＴA[n]の生成に区間条件は利用されない。したがって、暫定決定木ＴA[n]の１個の終端節νcには、共通の参照楽曲に含まれる複数の単位区間ＵAが分類されるという傾向がある。すなわち、相異なる参照楽曲に対応する複数の単位区間ＵAが１個の終端節νcに混在して分類される可能性が低減される。

第２分類処理ＳD2は、前述の区間条件を利用して暫定決定木ＴA[n]の各終端節νcを更に分岐させることで最終的な決定木Ｔ[n]を生成する処理である。具体的には、第６実施形態の解析処理部４４は、図１９から理解される通り、暫定決定木ＴA[n]の各終端節νcに分類された複数の単位区間ＵAを、区間条件と音符条件との双方を含む複数の条件により分類することで決定木Ｔ[n]を生成する。すなわち、暫定決定木ＴA[n]の各終端節νcは、決定木Ｔ[n]では中間節νbに該当し得る。以上の説明から理解される通り、解析処理部４４は、区間条件および音符条件が設定された複数の中間節νbの上位層に、音符条件のみが設定された複数の中間節νbを配置した木構造の決定木Ｔ[n]を生成する。暫定決定木ＴA[n]の１個の終端節νcには共通の参照楽曲内の複数の単位区間ＵAが分類されるから、第２分類処理ＳD2で生成される決定木Ｔ[n]の１個の終端節νcにも、共通の参照楽曲内の複数の単位区間ＵAが分類される。第６実施形態における解析処理部４４の動作は以上の通りである。１個の終端節νcに分類された複数の単位区間ＵAの相対ピッチＲから変数群Ω[k]が生成される点は第１実施形態と同様である。

他方、音声合成装置２００の変数設定部６４は、第１実施形態と同様に、合成楽曲データＹBが指定する合成楽曲を区分した各単位区間ＵBを、以上の手順で生成された各決定木Ｔ[n]に適用することで１個の終端節νcに分類し、当該終端節νcに対応する変数群Ω[k]に応じて単位区間ＵBの相対ピッチＲを生成する。前述の通り、決定木Ｔ[n]では音符条件が区間条件と比較して優先的に判定されるから、合成楽曲の１個の音符に包含される複数の単位区間ＵBの各々は、決定木Ｔ[n]の生成時に共通の参照楽曲の各単位区間ＵAのみが分類された各終端節νcに分類される。すなわち、合成楽曲の１個の音符に包含される複数の単位区間ＵB内の相対ピッチＲの生成には、共通の参照楽曲の参照音声の特性に応じた変数群Ω[k]が適用される。したがって、音符条件と区間条件とを区別せずに決定木Ｔ[n]を生成する構成と比較して、聴感的に自然な印象の合成音声を生成できるという利点がある。

第２実施形態から第５実施形態の構成は第６実施形態にも同様に適用される。なお、決定木Ｔ[n]の上位層の条件を固定した第５実施形態の構成を第６実施形態に適用する場合には、音符条件および区間条件の何れに該当するかに関わらず木構造の上位層には第５実施形態の共通条件が固定的に設定され、共通条件が設定された各節点νの下層に位置する各節点νに第６実施形態と同様の方法で音符条件や区間条件が設定される。

＜第７実施形態＞
図２０は、第７実施形態の動作の説明図である。第７実施形態の音声合成装置２００の記憶装置５４には、参照歌唱者が共通する歌唱特性データＺ1と歌唱特性データＺ2とが記憶される。歌唱特性データＺ1の任意の単位データｚ[n]は、決定木Ｔ1[n]と変数情報Ｄ1[n]とを含んで構成され、歌唱特性データＺ2の任意の単位データｚ[n]は、決定木Ｔ2[n]と変数情報Ｄ2[n]とを含んで構成される。決定木Ｔ1[n]と決定木Ｔ2[n]とは、共通の参照音声から生成された木構造であるが、図２０からも理解される通りサイズ（木構造の階層数や節点νの総数）が相違する。具体的には、決定木Ｔ1[n]のサイズは決定木Ｔ2[n]のサイズを下回る。例えば特性解析部２４による決定木Ｔ[n]の生成時に、相異なる条件で木構造の分岐を停止させることで、サイズが相違する決定木Ｔ1[n]と決定木Ｔ2[n]とが生成される。なお、木構造の分岐を停止させる条件を相違させた場合のほか、各節点νに設定される条件の内容や配列（質問セット）を相違させた場合（例えばフレーズＱに関する条件を一方には含ませない場合）にも、決定木Ｔ1［n］と決定木Ｔ2[n]とでサイズや構造（各節点νに設定される条件の内容や配列）が相違し得る。

決定木Ｔ1[n]の生成時には１個の終端節νcに多数に単位区間Ｕが分類されて特性が平準化されるから、歌唱特性データＺ1には、歌唱特性データＺ2と比較して多様な合成楽曲データＹBに対して安定的に相対ピッチＲを生成できるという優位性がある。他方、決定木Ｔ2[n]では単位区間Ｕの分類が細分化されるから、歌唱特性データＺ2には、歌唱特性データＺ1と比較して参照音声の微細な特徴を確率モデルＭで表現できるという優位性がある。

利用者は、入力装置５７を適宜に操作することで、歌唱特性データＺ1および歌唱特性データＺ2の各々を利用した音声合成（相対ピッチ遷移ＣRの生成）を指示できるほか、歌唱特性データＺ1と歌唱特性データＺ2との合成を指示することが可能である。歌唱特性データＺ1と歌唱特性データＺ2との合成が指示されると、第７実施形態の変数設定部６４は、図２０に例示される通り、歌唱特性データＺ1と歌唱特性データＺ2とを合成することで、両者の中間的な歌唱スタイルを表す歌唱特性データＺを生成する。すなわち、歌唱特性データＺ1で規定される確率モデルＭと歌唱特性データＺ2で規定される確率モデルＭとが合成（補間）される。歌唱特性データＺ1と歌唱特性データＺ2とは、入力装置５７に対する操作で利用者が指示した合成比λのもとで合成される。合成比λは、合成後の歌唱特性データＺに対する歌唱特性データＺ1（または歌唱特性データＺ2）の寄与度を意味し、例えば０以上かつ１以下の範囲内で設定される。なお、以上の説明では各確率モデルＭの補間を例示したが、歌唱特性データＺ1で規定される確率モデルＭと歌唱特性データＺ2で規定される確率モデルＭとを補外することも可能である。

具体的には、変数設定部６４は、歌唱特性データＺ1の決定木Ｔ1[n]と歌唱特性データＺ2の決定木Ｔ2[n]との間で、相対応する終端節νcの変数群Ω[k]で規定される確率分布を合成比λに応じて補間する（例えば確率分布の平均や分散を補間する）ことで歌唱特性データＺを生成する。歌唱特性データＺを利用した相対ピッチ遷移ＣRの生成等の他の処理は第１実施形態と同様である。なお、歌唱特性データＺで規定される確率モデルＭの補間については、例えばM. Tachibana, et al., "Speech Synthesis with Various Emotional Expressions and Speaking Styles by Style Interpolation and Mophing", IEICE TRANS. Information and Systems, E88-D, No. 11, p.2484-2491, 2005にも詳述されている。

なお、決定木Ｔ[n]の合成時の動的なサイズ調整にはバックオフ平滑化を適用することも可能である。ただし、バックオフ平滑化を利用せずに確率モデルＭを補間する構成では、決定木Ｔ1[n]と決定木Ｔ2[n]とで木構造（各節点νの条件や配列）を共通させる必要がないという利点や、終端節νcの確率分布を補間すればよい（中間節νbの統計量を考慮する必要がない）ため演算負荷が低減されるという利点がある。なお、バックオフ平滑化については、例えば、片岡他３名，“決定木のバックオフに基づくＨＭＭ音声合成”，社団法人電子情報通信学会，信学技法 TECHNICAL REPORT OF IEICE SP2003-76（2003-08）にも詳述されている。

第７実施形態においても第１実施形態と同様の効果が実現される。また、第７実施形態では、歌唱特性データＺ1と歌唱特性データＺ2との合成で両者の中間的な歌唱スタイルを表す歌唱特性データＺが生成されるから、歌唱特性データＺ1または歌唱特性データＺ2を単独で利用して相対ピッチ遷移ＣRを生成する構成と比較して、多様な歌唱スタイルの合成音声を生成できるという利点がある。なお、第２実施形態から第６実施形態の構成は第７実施形態にも同様に適用され得る。

＜変形例＞
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の各形態では、参照楽曲について事前に用意された参照音声データＸAと参照楽曲データＸBとから相対ピッチ遷移ＣR（ピッチベンドカーブ）を算定したが、変数抽出部２２が相対ピッチ遷移ＣRを取得する方法は任意である。例えば、公知の歌唱解析技術を利用して任意の参照音声から推定された相対ピッチ遷移ＣRを、変数抽出部２２が取得して特性解析部２４による歌唱特性データＺの生成に適用することも可能である。相対ピッチ遷移ＣR（ピッチベンドカーブ）の推定に利用される歌唱解析技術としては、例えば、T. Nakano and M. Goto, VOCALISTENER 2: A SINGING SYNTHESIS SYSTEM ABLE TO MIMIC A USER'S SINGING IN TERMS OF VOICE TIMBRE CHANGES AS WELL AS PITCH AND DYNAMICS", In Proceedings of the 36th International Conference on Acoustics, Speech and Signal Processing (ICASSP2011),p. 453-456, 2011に開示された技術が好適である。

（２）前述の各形態では、音声素片を相互に連結して音声信号Ｖを生成する素片接続型の音声合成を例示したが、音声信号Ｖの生成には公知の技術が任意に採用される。例えば、音声合成部６６は、変数設定部６４が生成した相対ピッチ遷移ＣRの付加後の合成ピッチ遷移ＣPの各ピッチＰBに調整された基礎信号（例えば声帯の発声音を表す正弦波信号）を生成し、合成楽曲データＹBが指定する歌詞の音声素片に対応したフィルタ処理（例えば口腔内での共鳴を近似するフィルタ処理）を基礎信号に対して実行することで音声信号Ｖを生成する。

（３）第１実施形態で説明した通り、音声合成装置２００の利用者は、入力装置５７を適宜に操作することで相対ピッチ遷移ＣRの変更を指示することが可能である。相対ピッチ遷移ＣRに対する変更の指示を、音声解析装置１００の記憶装置１４に記憶された歌唱特性データＺに反映させることも可能である。

（４）前述の各形態では、参照音声の特徴量として相対ピッチＲを例示したが、相対ピッチＲの不連続な変動を抑制するという所期の課題を前提としない構成（例えば決定木Ｔ[n]の生成に特徴がある構成）にとっては、特徴量が相対ピッチＲである構成は必須ではない。例えば、楽曲を単位音価毎に複数の単位区間Ｕ（ＵA，ＵB）に区分する第１実施形態の構成や、各節点νの条件にフレーズＱを加味する第２実施形態の構成や、基礎決定木Ｔ0からＮ個の決定木Ｔ[1]〜Ｔ[N]を生成する第５実施形態の構成や、第１分類処理ＳD1と第２分類処理ＳD2との２段階で決定木Ｔ[n]を生成する第６実施形態の構成や、複数の歌唱特性データＺを合成する第７実施形態の構成では、変数抽出部２２が取得する特徴量は相対ピッチＲに限定されない。例えば、変数抽出部２２が参照音声のピッチＰAを抽出し、特性解析部２４が、ピッチＰAの時系列に応じた確率モデルＭを規定する歌唱特性データＺを生成することも可能である。

１００……音声解析装置、１２……演算処理装置、１４……記憶装置、２２……変数抽出部、２４……特性解析部、３２……遷移生成部、３４……ピッチ検出部、３６……補間処理部、３８……差分算定部、４２……区間設定部、４４……解析処理部、２００……音声合成装置、５２……演算処理装置、５４……記憶装置、５６……表示装置、５７……入力装置、５８……放音装置、６２……情報編集部、６４……変数設定部、６６……音声合成部。

Claims

合成楽曲の楽譜を表現する合成楽曲データと、参照楽曲の各音符を時系列に指定する参照楽曲データから生成されて時間軸上で連続に変動する合成音声のピッチと前記参照楽曲を歌唱した参照音声のピッチとの差分である相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データとに応じて、前記合成楽曲における相対ピッチの時間変化を設定する変数設定ステップと、
前記合成楽曲データから生成された合成音声のピッチの遷移と、前記変数設定ステップで設定した相対ピッチの時間変化とに応じて音声信号を生成する音声合成ステップとを含む
音声合成方法。
合成楽曲の楽譜を表現する合成楽曲データと、相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データとに応じて、前記合成楽曲における相対ピッチの時間変化を設定する変数設定ステップと、
前記合成楽曲データから生成された音声合成のピッチの遷移と、前記変数設定ステップで設定した相対ピッチの時間変化とに応じて音声信号を生成する音声合成ステップとを含み、
前記変数設定ステップにおいては、前記合成楽曲のうちビブラートに起因した相対ピッチの変動を周期的な変動に修正する
音声合成方法。
合成楽曲の楽譜を表現する合成楽曲データと、相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データとに応じて、前記合成楽曲における相対ピッチの時間変化を設定する変数設定ステップと、
前記合成楽曲データから生成された音声合成のピッチの遷移と、前記変数設定ステップで設定した相対ピッチの時間変化とに応じて音声信号を生成する音声合成ステップとを含み、
前記変数設定ステップにおいては、相異なる複数の歌唱特性データを合成することで、前記歌唱特性データを生成する
音声合成方法。
前記変数設定ステップにおいては、前記合成楽曲を区分した複数の単位区間を複数の集合に分類する決定木と、各集合に分類された各単位区間内の相対ピッチの時系列の確率分布を規定する変数情報とを含む前記確率モデルにより前記相対ピッチの時間変化を設定する
請求項１から請求項３の何れかの音声合成方法。
前記変数設定ステップにおいては、前記音声合成ステップによる音声合成に適用される制御変数を、前記相対ピッチの時間変化の各相対ピッチに応じて可変に設定する
請求項１から請求項４の何れかの音声合成方法。
前記合成楽曲の音符の時系列を表す楽譜画像と、前記相対ピッチの時間変化を表す遷移画像とを、共通の時間軸のもとで表示装置に表示させる情報編集ステップを含む
請求項１から請求項５の何れかの音声合成方法。
合成楽曲の楽譜を表現する合成楽曲データと、参照楽曲の各音符を時系列に指定する参照楽曲データから生成されて時間軸上で連続に変動する音声合成のピッチと前記参照楽曲を歌唱した参照音声のピッチとの差分である相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データとに応じて、前記合成楽曲における相対ピッチの時間変化を設定する変数設定部と、
前記合成楽曲データから生成された音声合成のピッチの遷移と、前記変数設定部が設定した相対ピッチの時間変化とに応じて音声信号を生成する音声合成部とを含む
音声合成装置。
合成楽曲の楽譜を表現する合成楽曲データと、相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データとに応じて、前記合成楽曲における相対ピッチの時間変化を設定する変数設定部と、
前記合成楽曲データから生成された音声合成のピッチの遷移と、前記変数設定部で設定した相対ピッチの時間変化とに応じて音声信号を生成する音声合成部とを含み、
前記変数設定部においては、前記合成楽曲のうちビブラートに起因した相対ピッチの変動を周期的な変動に修正する
音声合成装置。
合成楽曲の楽譜を表現する合成楽曲データと、相対ピッチの時系列を表現する確率モデルを規定する歌唱特性データとに応じて、前記合成楽曲における相対ピッチの時間変化を設定する変数設定部と、
前記合成楽曲データから生成された音声合成のピッチの遷移と、前記変数設定部で設定した相対ピッチの時間変化とに応じて音声信号を生成する音声合成部とを含み、
前記変数設定部においては、相異なる複数の歌唱特性データを合成することで、前記歌唱特性データを生成する
音声合成装置。