<第1実施形態>
図1は、本発明の第1実施形態に係る音声処理システムのブロック図である。音声処理システムは、音声合成用のデータを生成および利用するためのシステムであり、音声解析装置100と音声合成装置200とを具備する。音声解析装置100は、特定の歌唱者(以下「参照歌唱者」という)の歌唱スタイルを表す歌唱特性データZを生成する。歌唱スタイルは、例えば参照歌唱者に特有の歌い廻し(例えばしゃくり)や表情等の表現法を意味する。音声合成装置200は、音声解析装置100が生成した歌唱特性データZを適用した音声合成で、参照歌唱者の歌唱スタイルを反映した任意の楽曲の歌唱音声の音声信号Vを生成する。すなわち、所望の楽曲について参照歌唱者の歌唱音声が存在しない場合でも、参照歌唱者の歌唱スタイルが付与された当該楽曲の歌唱音声(すなわち参照歌唱者が当該楽曲を歌唱したような音声)を生成することが可能である。なお、図1では音声解析装置100と音声合成装置200とを別体の装置として例示したが、音声解析装置100と音声合成装置200とを単体の装置で実現することも可能である。
<音声解析装置100>
図1に例示される通り、音声解析装置100は、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。記憶装置14は、演算処理装置12が実行する音声解析プログラムGAや演算処理装置12が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。
第1実施形態の記憶装置14は、歌唱特性データZの生成に利用される参照音声データXAと参照楽曲データXBとを記憶する。参照音声データXAは、図2に例示される通り、参照歌唱者が特定の楽曲(以下「参照楽曲」という)を歌唱した音声(以下「参照音声」という)の波形を表現する。他方、参照楽曲データXBは、参照音声データXAに対応する参照楽曲の楽譜を表現する。具体的には、参照楽曲データXBは、図2から理解される通り、参照楽曲を構成する音符毎に音高と発音期間と歌詞(発音文字)とを時系列に指定する時系列データ(例えばVSQ形式のファイル)である。
図1の演算処理装置12は、記憶装置14に記憶された音声解析プログラムGAを実行することで、参照歌唱者の歌唱特性データZを生成するための複数の機能(変数抽出部22,特性解析部24)を実現する。なお、演算処理装置12の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置12の一部の機能を実現する構成も採用され得る。
変数抽出部22は、参照音声データXAが表す参照音声の特徴量の時系列を取得する。第1実施形態の変数抽出部22は、参照楽曲データXBを適用した音声合成で生成される音声(以下「合成音声」という)のピッチPBと参照音声データXAが表す参照音声のピッチPAとの差分(以下「相対ピッチ」という)Rを特徴量として順次に算定する。すなわち、相対ピッチRは、参照音声のピッチベンドの数値(基準となる合成音声のピッチPBに対する参照音声のピッチPAの変動量)とも換言され得る。図3に例示される通り、第1実施形態の変数抽出部22は、遷移生成部32とピッチ検出部34と補間処理部36と差分算定部38とを含んで構成される。
遷移生成部32は、参照楽曲データXBを適用した音声合成で生成される合成音声のピッチPBの遷移(以下「合成ピッチ遷移」という)CPを設定する。参照楽曲データXBを適用した素片接続型の音声合成では、参照楽曲データXBが音符毎に指定する音高と発音期間とに応じて合成ピッチ遷移(ピッチカーブ)CPが生成され、各音符の歌詞に対応する音声素片を合成ピッチ遷移CPの各ピッチPBに調整して相互に連結することで合成音声が生成される。遷移生成部32は、参照楽曲の参照楽曲データXBに応じて合成ピッチ遷移CPを生成する。以上の説明から理解される通り、合成ピッチ遷移CPは、参照楽曲の歌唱音声の模範的(標準的)なピッチPBの軌跡に相当する。なお、前述の通り合成ピッチ遷移CPは音声合成に利用され得るが、第1実施形態の音声解析装置100では、参照楽曲データXBに応じた合成ピッチ遷移CPさえ生成されれば、実際の合成音声の生成までは必須ではない。
図2には、参照楽曲データXBから生成される合成ピッチ遷移CPが図示されている。図2に例示される通り、参照楽曲データXBが音符毎に指定する音高は離散的(不連続)に変動するのに対し、合成音声の合成ピッチ遷移CPではピッチPBが連続に変動する。すなわち、合成音声のピッチPBは、任意の1個の音符に対応する音高の数値から直後の音符の音高に対応する数値まで連続的に変動する。以上の説明から理解される通り、第1実施形態の遷移生成部32は、合成音声のピッチPBが時間軸上で連続に変動するように合成ピッチ遷移CPを生成する。
図3のピッチ検出部34は、参照音声データXAが表す参照音声のピッチPAを順次に検出する。ピッチPAの検出には公知の技術が任意に採用される。図2から理解される通り、参照音声のうち調波構造が存在しない無声区間(例えば子音区間や無音区間)ではピッチPAが検出されない。図3の補間処理部36は、参照音声の無声区間についてピッチPAを設定(補間)する。
図4は、補間処理部36の動作の説明図である。参照音声のピッチPAが検出された有声区間σ1および有声区間σ2と、両者間の無声区間(子音区間または無音区間)σ0とが図4では例示されている。補間処理部36は、有声区間σ1および有声区間σ2のピッチPAの時系列に応じて無声区間σ0内のピッチPAを設定する。
具体的には、補間処理部36は、有声区間σ1のうち終点側に位置する所定長の区間(第1区間)ηA1内のピッチPAの時系列に応じて、無声区間σ0のうち始点側に位置する所定長の補間区間(第1補間区間)ηA2内のピッチPAの時系列を設定する。例えば、区間ηA1内のピッチPAの時系列の近似線(例えば回帰直線)L1上の各数値が区間ηA1の直後の補間区間ηA2内のピッチPAとして設定される。すなわち、有声区間σ1(区間ηA1)から直後の無声区間σ0(補間区間ηA2)にわたりピッチPAの遷移が連続するように有声区間σ1内のピッチPAの時系列が無声区間σ0内にも拡張される。
同様に、補間処理部36は、有声区間σ2のうち始点側に位置する所定長の区間(第2区間)ηB1内のピッチPAの時系列に応じて、無声区間σ0のうち終点側に位置する所定長の補間区間(第2補間区間)ηB2内のピッチPAの時系列を設定する。例えば、区間ηB1内のピッチPAの時系列の近似線(例えば回帰直線)L2上の各数値が区間ηB1の直前の補間区間ηB2内のピッチPAとして設定される。すなわち、有声区間σ2(区間ηB1)から直前の無声区間σ0(補間区間ηB2)にわたりピッチPAの遷移が連続するように有声区間σ2内のピッチPAの時系列が無声区間σ0内にも拡張される。なお、区間ηA1と補間区間ηA2とは相等しい時間長に設定され、区間ηB1と補間区間ηB2とは相等しい時間長に設定される。ただし、各区間の時間長を相違させることも可能である。また、区間ηA1と区間ηB1との時間長の異同や補間区間ηA2と補間区間ηB2との時間長の異同も不問である。
図3の差分算定部38は、図2および図4に例示される通り、遷移生成部32が算定した合成音声のピッチPB(合成ピッチ遷移CP)と補間処理部36による処理後の参照音声のピッチPAとの差分を相対ピッチRとして順次に算定する(R=PB−PA)。図4の例示のように、無声区間σ0内で補間区間ηA2と補間区間ηB2とが相互に離間する場合、差分算定部38は、補間区間ηA2と補間区間ηB2との間隔内の相対ピッチRを所定値(例えばゼロ)に設定する。第1実施形態の変数抽出部22は、以上の構成および処理により相対ピッチRの時系列を生成する。
図1の特性解析部24は、変数抽出部22が生成した相対ピッチRの時系列を解析することで歌唱特性データZを生成する。第1実施形態の特性解析部24は、図5に例示される通り、区間設定部42と解析処理部44とを含んで構成される。
区間設定部42は、変数抽出部22が生成した相対ピッチRの時系列を時間軸上で複数の区間(以下「単位区間」という)UAに区分する。具体的には、第1実施形態の区間設定部42は、図2から理解される通り、所定の音価(以下「単位音価」という)を単位として相対ピッチRの時系列を時間軸上で複数の単位区間UAに区分する。単位音価は、例えば16分音符に相当する時間長である。すなわち、1個の単位区間UAには、参照楽曲内の単位音価に相当する区間にわたる相対ピッチRの時系列が包含される。区間設定部42は、参照楽曲データXBを参照することで参照楽曲内に複数の単位区間UAを設定する。
図5の解析処理部44は、区間設定部42が生成した単位区間UA毎の相対ピッチRに応じて参照歌唱者の歌唱特性データZを生成する。歌唱特性データZの生成には図6の確率モデルMが利用される。第1実施形態の確率モデルMは、N個(Nは2以上の自然数)の状態Stで規定される隠れセミマルコフモデル(HSMM:Hidden Semi Markov Model)である。図6に例示される通り、歌唱特性データZは、確率モデルMの相異なる状態Stに対応するN個の単位データz[n](z[1]〜z[N])を包含する。確率モデルMのうち第n番目(n=1〜N)の状態Stに対応する1個の単位データz[n]は、決定木T[n]と変数情報D[n]とを含んで構成される。
解析処理部44は、単位区間UAに関連する所定の条件(質問)の成否を順次に判定する機械学習(決定木学習)により決定木T[n]を生成する。決定木T[n]は、単位区間UAを複数の集合に分類(クラスタリング)するための分類木であり、複数の節点(ノード)ν(νa,νb,νc)を複数の階層にわたり相互に連結した木構造で表現される。図7に例示される通り、決定木T[n]は、分類の開始点となる始端節(ルートノード)νaと、最終的な分類に対応する複数(K個)の終端節(リーフノード)νcと、始端節νaから各終端節νcまでの経路上の分岐点に位置する中間節(内部ノード)νbとを含んで構成される。
始端節νaおよび中間節νbでは、例えば単位区間UAが無音区間であるか否か、単位区間UA内の音符が16分音符未満であるか否か、単位区間UAが音符の始点側に位置するか否か、単位区間UAが音符の終点側に位置するか否か、といった条件の成否(コンテキスト)が判定される。各単位区間UAの分類を停止する時点(決定木T[n]を確定する時点)は、例えば最小記述長(MDL:Minimum Description Length)基準に応じて決定される。決定木T[n]の構造(例えば中間節νbの個数や条件、終端節νcの個数K)は確率モデルMの状態St毎に相違する。
図6の単位データz[n]の変数情報D[n]は、確率モデルMの第n番目の状態Stに関連する変数(確率)を規定する情報であり、図6に例示される通り、決定木T[n]の相異なる終端節νcに対応するK個の変数群Ω[k](Ω[1]〜Ω[K])を含んで構成される。変数情報D[n]のうち第k番目(k=1〜K)の変数群Ω[k]は、決定木T[n]のK個の終端節νcのうち第k番目の1個の終端節νcに分類された各単位区間UA内の相対ピッチRに応じた変数の集合であり、変数ω0と変数ω1と変数ω2と変数ωdとを含んで構成される。変数ω0と変数ω1と変数ω2との各々は、相対ピッチRに関連する出現確率の確率分布を規定する変数(例えば確率分布の平均および分散)である。具体的には、変数ω0は相対ピッチRの確率分布を規定し、変数ω1は相対ピッチRの時間変化(微分値)ΔRの確率分布を規定し、変数ω2は相対ピッチの2階微分値Δ2Rの確率分布を規定する。また、変数ωdは、状態Stの継続長の確率分布を規定する変数(例えば確率分布の平均および分散)である。解析処理部44は、確率モデルMの第n番目の状態Stに対応する決定木T[n]のうち第k番目の終端節νcに分類された複数の単位区間UAの相対ピッチRの出現確率が最大となるように単位データz[n]の変数情報D[n]の変数群Ω[k](ω0〜ω2,ωd)を設定する。以上の手順で生成された決定木T[n]と変数情報D[n]とを確率モデルMの状態St毎に含む歌唱特性データZが記憶装置14に格納される。
図8は、音声解析装置100(演算処理装置12)が歌唱特性データZを生成するために実行する処理のフローチャートである。例えば音声解析プログラムGAの起動が指示された場合に図8の処理が開始される。音声解析プログラムGAが起動されると、遷移生成部32は、参照楽曲データXBから合成ピッチ遷移CP(ピッチPB)を生成する(SA1)。また、ピッチ検出部34は、参照音声データXAが表す参照音声のピッチPAを検出し(SA2)、補間処理部36は、ピッチ検出部34が検出したピッチPAを利用した補間で参照音声の無声区間内のピッチPAを設定する(SA3)。差分算定部38は、ステップSA1で生成された各ピッチPBとステップSA3による補間後の各ピッチPAとの差分を相対ピッチRとして算定する(SA4)。
他方、区間設定部42は、参照楽曲データXBを参照することで参照楽曲を単位音価毎に複数の単位区間UAに区分する(SA5)。解析処理部44は、各単位区間UAを適用した機械学習で確率モデルMの状態St毎の決定木T[n]を生成するとともに(SA6)、決定木T[n]の各終端節νcに分類された各単位区間UA内の相対ピッチRに応じた変数情報D[n]を生成する(SA7)。そして、解析処理部44は、ステップSA6で生成した決定木T[n]とステップSA7で生成した変数情報D[n]とを含む単位データz[n]を確率モデルMの状態St毎に包含する歌唱特性データZを記憶装置14に格納する(SA8)。参照歌唱者(参照音声データXA)と参照楽曲データXBとの組合せ毎に以上の動作が反復されることで、相異なる参照歌唱者に対応する複数の歌唱特性データZが記憶装置54に蓄積される。
<音声合成装置200>
図1の音声合成装置200は、前述の通り、音声解析装置100が生成した歌唱特性データZを適用した音声合成で音声信号Vを生成する信号処理装置である。図1に例示される通り、音声合成装置200は、演算処理装置52と記憶装置54と表示装置56と入力装置57と放音装置58とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。
表示装置56(例えば液晶表示パネル)は、演算処理装置52から指示された画像を表示する。入力装置57は、音声合成装置200に対する利用者からの指示を受付ける操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置56と一体に構成されたタッチパネルを入力装置57として採用することも可能である。放音装置58(例えばスピーカやヘッドホン)は、歌唱特性データZを適用した音声合成で生成された音声信号Vを音響として再生する。
記憶装置54は、演算処理装置52が実行するプログラム(GB1,GB2,GB3)や演算処理装置52が使用する各種のデータ(音声素片群YA,合成楽曲データYB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置54として任意に採用され得る。音声解析装置100が生成した歌唱特性データZが、例えばインターネット等の通信網や可搬型の記録媒体等を媒体として音声解析装置100から音声合成装置200の記憶装置54に転送される。別個の参照歌唱者に対応する複数の歌唱特性データZが記憶装置54には格納され得る。
第1実施形態の記憶装置54は、音声素片群YAと合成楽曲データYBとを記憶する。音声素片群YAは、素片接続型の音声合成の素材として利用される複数の音声素片の集合(音声合成用ライブラリ)である。音声素片は、言語的な意味の区別の最小単位である音素(例えば母音や子音)、または複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。なお、各音声素片の発声者と参照歌唱者との異同は不問である。合成楽曲データYBは、音声合成の対象となる楽曲(以下「合成楽曲」という)の楽譜を表現する。具体的には、合成楽曲データYBは、合成楽曲の音符毎に音高と発音期間と歌詞とを時系列に指定する時系列データ(例えばVSQ形式のファイル)である。
第1実施形態の記憶装置54は、編集プログラムGB1と特性付与プログラムGB2と音声合成プログラムGB3とを記憶する。編集プログラムGB1は、合成楽曲データYBを作成および編集するためのプログラム(スコアエディタ)である。特性付与プログラムGB2は、歌唱特性データZを音声合成に適用するためのプログラムであり、例えば、編集プログラムGB1の機能を拡張するためのプラグインソフトウェアとして提供される。音声合成プログラムGB3は、音声合成の実行で音声信号Vを生成するプログラム(音声合成エンジン)である。なお、特性付与プログラムGB2を編集プログラムGB1や音声合成プログラムGB3の一部として統合することも可能である。
演算処理装置52は、記憶装置54に記憶されたプログラム(GB1,GB2,GB3)を実行することで、合成楽曲データYBの編集や音声信号Vの生成を実行するための複数の機能(情報編集部62,変数設定部64,音声合成部66)を実現する。情報編集部62は編集プログラムGB1で実現され、変数設定部64は特性付与プログラムGB2で実現され、音声合成部66は音声合成プログラムGB3で実現される。なお、演算処理装置52の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置52の一部の機能を実現する構成も採用され得る。
情報編集部62は、入力装置57に対する利用者からの指示に応じて合成楽曲データYBを編集する。具体的には、情報編集部62は、合成楽曲データYBを表象する図9の楽譜画像562を表示装置56に表示させる。楽譜画像562は、時間軸と音高軸とが設定された領域内に、合成楽曲データYBが指定する各音符を表象する図像を配置した画像(ピアノロール画面)である。情報編集部62は、楽譜画像562に対する利用者からの指示に応じて記憶装置54内の合成楽曲データYBを編集する。
利用者は、入力装置57を適宜に操作することで、特性付与プログラムGB2の起動(すなわち歌唱特性データZの適用)を指示するとともに記憶装置54内の複数の歌唱特性データZのうち所望の参照歌唱者の歌唱特性データZを選択することが可能である。特性付与プログラムGB2により実現される図1の変数設定部64は、情報編集部62が生成した合成楽曲データYBと利用者が選択した歌唱特性データZとに応じた相対ピッチRの時間変化(以下「相対ピッチ遷移」という)CRを設定する。相対ピッチ遷移CRは、合成楽曲データYBが指定する合成楽曲について歌唱特性データZの歌唱スタイルを付与した歌唱音声の相対ピッチRの軌跡であり、合成楽曲データYBの合成楽曲を参照歌唱者が歌唱した場合の相対ピッチRの遷移(参照歌唱者の歌唱スタイルを反映したピッチベンドカーブ)とも換言され得る。
具体的には、変数設定部64は、合成楽曲データYBを参照して合成楽曲を時間軸上で複数の単位区間UBに区分する。具体的には、第1実施形態の変数設定部64は、図9から理解される通り、前述の単位区間UAと同様の単位音価(例えば16分音符)毎に合成楽曲を複数の単位区間UBに区分する。
そして、変数設定部64は、歌唱特性データZのうち確率モデルMの第n番目の状態Stに対応する単位データz[n]の決定木T[n]に各単位区間UBを適用することで、決定木T[n]のK個の終端節νcのうち当該単位区間UBが所属する1個の終端節νcを特定し、変数情報D[n]のうち当該終端節νcに対応する変数群Ω[k]の各変数ω(ω0,ω1,ω2,ωd)を利用して相対ピッチRの時系列を特定する。以上の処理を確率モデルMの状態St毎に順次に実行することで、単位区間UB内の相対ピッチRの時系列が特定される。具体的には、各状態Stの継続長が変数群Ω[k]の変数ωdに応じて設定され、変数ω0で規定される相対ピッチRの出現確率と、変数ω1で規定される相対ピッチRの時間変化ΔRの出現確率と、変数ω2で規定される相対ピッチRの2階微分値Δ2Rの出現確率との同時確率が最大となるように各相対ピッチRが算定される。複数の単位区間UBにわたり相対ピッチRの時系列を時間軸上で連結することで合成楽曲の全域にわたる相対ピッチ遷移CRが生成される。
情報編集部62は、変数設定部64が生成した相対ピッチ遷移CRを記憶装置54内の合成楽曲データYBに付加するとともに、図9に例示される通り、相対ピッチ遷移CRを表象する遷移画像564を楽譜画像562とともに表示装置56に表示させる。図9に例示された遷移画像564は、楽譜画像562の各音符の時系列と時間軸が共通する折線として相対ピッチ遷移CRを表現した画像である。利用者は、入力装置57を利用して遷移画像564を適宜に変更することで相対ピッチ遷移CR(各相対ピッチR)の変更を指示することが可能である。情報編集部62は、利用者からの指示に応じて相対ピッチ遷移CRの各相対ピッチRを編集する。
図1の音声合成部66は、記憶装置54に記憶された音声素片群YAおよび合成楽曲データYBと、変数設定部64が設定した相対ピッチ遷移CRとに応じて音声信号Vを生成する。具体的には、音声合成部66は、変数抽出部22の遷移生成部32と同様に、合成楽曲データYBが音符毎に指定する音高と発音期間とに応じて合成ピッチ遷移(ピッチカーブ)CPを生成する。合成ピッチ遷移CPは、時間軸上で連続に変動するピッチPBの時系列である。音声合成部66は、変数設定部64が設定した相対ピッチ遷移CRに応じて合成ピッチ遷移CPを補正する。例えば合成ピッチ遷移CPの各ピッチPBに相対ピッチ遷移CRの各相対ピッチRが加算される。そして、音声合成部66は、各音符の歌詞に対応する音声素片を音声素片群YAから順次に選択し、相対ピッチ遷移CRに応じた補正後の合成ピッチ遷移CPの各ピッチPBに各音声素片を調整して相互に連結することで音声信号Vを生成する。音声合成部66が生成した音声信号Vが放音装置58に供給されることで音響として再生される。
歌唱特性データZから生成される相対ピッチ遷移CRには参照歌唱者の歌唱スタイル(例えば参照歌唱者に特有のしゃくり等の歌い廻し)が反映されるから、相対ピッチ遷移CRで補正された合成ピッチ遷移CPに応じた音声信号Vの再生音は、参照歌唱者の歌唱スタイルが付与された合成楽曲の歌唱音声(すなわち参照歌唱者が合成楽曲を歌唱したような音声)と知覚される。
図10は、音声合成装置200(演算処理装置52)が合成楽曲データYBの編集と音声信号Vの生成とのために実行する処理のフローチャートである。例えば編集プログラムGB1の起動(合成楽曲データYBの編集)が指示された場合に図10の処理が開始される。編集プログラムGB1が起動されると、情報編集部62は、記憶装置54に記憶された合成楽曲データYBに応じた楽譜画像562を表示装置56に表示させるとともに、楽譜画像562に対する利用者からの指示に応じて合成楽曲データYBを編集する(SB1)。
演算処理装置52は、特性付与プログラムGB2の起動(歌唱特性データZに応じた歌唱スタイルの付与)が利用者から指示されたか否かを判定する(SB2)。特性付与プログラムGB2の起動が指示された場合(SB2:YES)、変数設定部64は、現時点の合成楽曲データYBと利用者が選択した歌唱特性データZとに応じた相対ピッチ遷移CRを生成する(SB3)。変数設定部64が生成した相対ピッチ遷移CRは、次回のステップSB1で遷移画像564として表示装置56に表示される。他方、特性付与プログラムGB2の起動が指示されていない場合(SB2:NO)、相対ピッチ遷移CRの生成(SB3)は実行されない。なお、以上の説明では利用者からの指示を契機として相対ピッチ遷移CRを生成したが、利用者からの指示とは無関係に事前に(例えばバックグラウンドで)相対ピッチ遷移CRを生成することも可能である。
演算処理装置52は、音声合成の開始(音声合成プログラムGB3の起動)が指示されたか否かを判定する(SB4)。音声合成の開始が指示された場合(SB4:YES)、音声合成部66は、第1に、現時点の合成楽曲データYBに応じて合成ピッチ遷移CPを生成する(SB5)。第2に、音声合成部66は、ステップSB3で生成した相対ピッチ遷移CRの各相対ピッチRに応じて合成ピッチ遷移CPの各ピッチPBを補正する(SB6)。第3に、音声合成部66は、音声素片群YAのうち合成楽曲データYBが指定する歌詞に対応する音声素片を、ステップSB6の補正後の合成ピッチ遷移CPの各ピッチPBに調整して相互に連結することで音声信号Vを生成する(SB7)。音声信号Vが放音装置58に供給されることで、参照歌唱者の歌唱スタイルが付与された合成楽曲の歌唱音声が再生される。他方、音声合成の開始が指示されない場合(SB4:NO)、ステップSB5からステップSB7までの処理は実行されない。なお、利用者からの指示とは無関係に事前に(例えばバックグラウンドで)、合成ピッチ遷移CPの生成(SB5)や各ピッチPBの補正(SB6)や音声信号Vの生成(SB7)を実行することも可能である。
演算処理装置52は、処理の終了が指示されたか否かを判定する(SB8)。終了が指示されていない場合(SB8:NO)、演算処理装置52は、処理をステップSB1に移行して前述の処理を反復する。他方、処理の終了が指示された場合(SB8:YES)、演算処理装置52は、図10の処理を終了する。
以上に説明した通り、第1実施形態では、参照楽曲データXBから生成される合成ピッチ遷移CPの各ピッチPBと参照音声の各ピッチPAとの差分に相当する相対ピッチRを利用して、参照歌唱者の歌唱スタイルを反映した歌唱特性データZが生成される。したがって、参照音声のピッチPAの時系列に応じて歌唱特性データZを生成する構成と比較して、必要な確率モデル(変数情報D[n]内の変数群Ω[k]の個数)を削減することが可能である。また、合成ピッチ遷移CPの各ピッチPAは時間軸上で連続するから、以下に詳述する通り、音高が相違する各音符の境界の時点における相対ピッチRの不連続な変動が抑制されるという利点もある。
図11は、参照楽曲データXBが指定する各音符の音高PN(ノートナンバ)と、参照音声データXAが表す参照音声のピッチPAと、参照楽曲データXBから生成されるピッチPB(合成ピッチ遷移CP)と、第1実施形態の変数抽出部22がピッチPBとピッチPAとに応じて算定する相対ピッチRとを併記した模式図である。図11では、各音符の音高PNと参照音声のピッチPAとに応じて算定された相対ピッチrが対比例1として図示されている。対比例1の相対ピッチrには音符間の境界の時点に不連続な変動が発生するのに対し、第1実施形態の相対ピッチRは音符間の境界の時点でも連続に変動することが図11からも明確に確認できる。以上のように時間的に連続に変動する相対ピッチRを利用することで、聴感的に自然な合成音声を生成できるという利点がある。
また、第1実施形態では、参照音声のピッチPAが検出されない無声区間σ0について有意なピッチPAが補充される。すなわち、参照音声のうちピッチPAが存在しない無声区間σ0の時間長が短縮される。したがって、参照楽曲データXBが指定する参照楽曲(合成音声)のうち無声区間σX以外の有声区間内における相対ピッチRの不連続な変動を有効に抑制することが可能である。第1実施形態では特に、無声区間σ0内のピッチPAが前後の有声区間(σ1,σ2)内のピッチPAに応じて近似的に設定されるから、相対ピッチRの不連続な変動を抑制するという前述の効果は格別に顕著である。なお、図4から理解される通り、参照音声の無声区間σ0についてピッチPAを補充する第1実施形態の構成でも、無声区間σX内(補間区間ηA2と補間区間ηB2との間隔内)では相対ピッチRが不連続に変動し得る。しかし、相対ピッチRが不連続に変動し得るのは、音声のピッチが知覚されない無声区間σX内であるから、合成楽曲の歌唱音声に対する相対ピッチRの不連続の影響は充分に抑制される。
なお、第1実施形態では、参照楽曲や合成楽曲を単位音価毎に区分した各単位区間U(UA,UB)を1個の確率モデルMで表現したが、1個の音符を1個の確率モデルMで表現する構成(以下「対比例2」という)も想定され得る。しかし、対比例2では、音価に関わらず相等しい個数の状態Stで音符が表現されるから、音価が長い音符については参照音声の歌唱スタイルを確率モデルMで精細に表現することが困難である。第1実施形態では、楽曲を単位音価毎に区分した各単位区間U(UA,UB)に1個の確率モデルMが付与される。以上の構成では、音価が長い音符ほど、当該音符を表現する確率モデルMの状態Stの総数は増加する。したがって、対比例2と比較すると、音価の長短に関わらず相対ピッチRを精細に制御できるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図12は、第2実施形態の説明図である。図12に例示される通り、第2実施形態の音声解析装置100の区間設定部42は、第1実施形態と同様に参照楽曲を複数の単位区間UAに区分するほか、参照楽曲を時間軸上で複数のフレーズQに区分する。フレーズQは、参照楽曲のうち音楽的な纏まりが受聴者に知覚される旋律(複数の音符の時系列)の区間である。例えば、区間設定部42は、所定長を上回る無音区間(例えば4分休符以上の無音区間)を境界として参照楽曲を複数のフレーズQに区分する。
第2実施形態の解析処理部44が状態St毎に生成する決定木T[n]は、各単位区間UAと当該単位区間UAを包含するフレーズQとの関係に関する条件が設定された節点νを包含する。具体的には、以下に例示される通り、単位区間U内の音符とフレーズQ内の各音符との関係に関する条件の成否が各中間節νb(または始端節νa)で判定される。
・単位区間UA内の音符がフレーズQ内の始点側に位置するか否か。
・単位区間UA内の音符がフレーズQ内の終点側に位置するか否か。
・単位区間UA内の音符とフレーズQ内の最高音との距離が所定値を上回るか否か。
・単位区間UA内の音符とフレーズQ内の最低音との距離が所定値を上回るか否か。
・単位区間UA内の音符とフレーズQ内の最頻音との距離が所定値を上回るか否か。
以上の各条件における「距離」は、時間軸上の距離(時間差)および音高軸上の距離(音高差)の双方を含意し、フレーズQ内の複数の音符が該当する場合には例えば単位区間UA内の音符との最短距離である。また、「最頻音」は、フレーズQ内での発音回数または発音時間(または両者の乗算値)が最大となる音符を意味する。
音声合成装置200の変数設定部64は、第1実施形態と同様に合成楽曲を複数の単位区間UBに区分するほか、合成楽曲を時間軸上で複数のフレーズQに区分する。そして、変数設定部64は、前述の通りフレーズQに関連する条件が各節点νに設定された決定木に各単位区間UBを適用することで、当該単位区間UBが所属する1個の終端節νcを特定する。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、単位区間U(UA,UB)とフレーズQとの関係に関する条件が決定木T[n]の各節点νに設定されるから、各単位区間Uの音符とフレーズQ内の各音符との関係が加味された聴感的に自然な合成音声を生成できるという利点がある。
<第3実施形態>
第3実施形態における音声合成装置200の変数設定部64は、第1実施形態と同様に相対ピッチ遷移CRを生成するほか、音声合成部66による音声合成に適用される制御変数を相対ピッチ遷移CRの各相対ピッチRに応じて可変に設定する。制御変数は、合成音声に付与される音楽的な表情を制御するための変数である。例えば発音の強弱(ベロシティ)や音色(例えば明瞭度等)の変数が制御変数として好適であるが、以下の説明では音量(ダイナミクス)Dynを制御変数として例示する。
図13は、相対ピッチ遷移CRの各相対ピッチRと音量Dynとの関係を例示するグラフである。変数設定部64は、相対ピッチ遷移CRの各相対ピッチRに対して図13の関係が成立するように音量Dynを設定する。
図13から理解される通り、概略的には、相対ピッチRが大きいほど音量Dynが増加する。歌唱音声のピッチが楽曲の本来の音高と比較して低い場合(相対ピッチRが負数である場合)には、歌唱音声のピッチが高い場合(相対ピッチRが正数である場合)と比較して歌唱が下手と知覚され易いという傾向がある。以上の傾向を考慮して、図13に例示される通り、負数の範囲内での相対ピッチRの減少に対して音量Dynが減少する割合(勾配の絶対値)が、正数の範囲内での相対ピッチRの増加に対して音量Dynが増加する割合を上回るように、変数設定部64は相対ピッチRに応じて音量Dynを設定する。具体的には、変数設定部64は、以下に例示された数式(A)で音量Dyn(0≦Dyn≦127)を算定する。
Dyn=tanh(R×β/8192)×64+64 ……(A)
数式(A)の係数βは、相対ピッチRに対する音量Dynの変化の割合を相対ピッチRの正側と負側とで相違させるための変数であり、具体的には相対ピッチRが負数である場合には4に設定されるとともに、相対ピッチRが非負数(ゼロまたは正数)である場合には1に設定される。なお、係数βの数値や数式(A)の内容は便宜的な例示であり適宜に変更され得る。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、相対ピッチRに応じて制御変数(音量Dyn)が設定されるから、利用者が制御変数を手動で設定する必要がないという利点がある。なお、以上の説明では相対ピッチRに応じて制御変数(音量Dyn)を設定したが、制御変数の数値の時系列を例えば確率モデルで表現することも可能である。なお、第2実施形態の構成を第3実施形態に採用することも可能である。
<第4実施形態>
決定木T[n]の各節点νの条件を適切に設定することで、歌唱特性データZに応じた相対ピッチ遷移CRには、参照音声のビブラートの特性を反映した相対ピッチRの時間的な変動が現れる。しかし、歌唱特性データZを利用した相対ピッチ遷移CRの生成では、相対ピッチRの変動の周期性が必ずしも担保されないから、図14の部分(A)に例示される通り、楽曲内のビブラートを付与すべき区間にて相対ピッチ遷移CRの各相対ピッチRが不規則に変動する可能性がある。以上の事情を考慮して、第4実施形態の音声合成装置200の変数設定部64は、合成楽曲のうちビブラートに起因した相対ピッチRの変動を周期的な変動に修正する。
図15は、第4実施形態の変数設定部64の動作のフローチャートである。第1実施形態における図10のステップSB3が図15のステップSC1からステップSC4に置換される。図15の処理を開始すると、変数設定部64は、第1実施形態と同様の方法で相対ピッチ遷移CRを生成し(SC1)、相対ピッチ遷移CRのうちビブラートに相当する区間(以下「修正区間」という)Bを特定する(SC2)。
具体的には、変数設定部64は、相対ピッチ遷移CRの相対ピッチRの微分値ΔRの零交差数を算定する。相対ピッチRの微分値ΔRの零交差数は、相対ピッチ遷移CRのうち時間軸上の山部(極大点)および谷部(極小点)の総数に相当する。歌唱音声にビブラートが付加される区間では、相対ピッチRが適度な頻度で正数および負数に交互に変動するという傾向がある。以上の傾向を考慮して、変数設定部64は、単位時間内の微分値ΔRの零交差数(すなわち単位時間内の山部および谷部の個数)が所定の範囲内にある区間を修正区間Bとして特定する。ただし、修正区間Bの特定方法は以上の例示に限定されない。例えば、合成楽曲データYBが指定する複数の音符のうち所定長を上回る音符の後半区間(すなわちビブラートが付加される可能性が高い区間)を修正区間Bとして特定する構成も採用される。
修正区間Bを特定すると、変数設定部64は、修正後のビブラートの周期(以下「目標周期」という)τを設定する(SC3)。目標周期τは、例えば、修正区間B内の相対ピッチRの山部または谷部の個数(波数)で修正区間Bの時間長を除算した数値である。そして、変数設定部64は、相対ピッチ遷移CRのうち修正区間B内の各山部(または各谷部)の間隔が目標周期τに近付く(理想的には一致する)ように相対ピッチ遷移CRの各相対ピッチRを修正する(SC4)。以上の説明から理解される通り、修正前の相対ピッチ遷移CRでは図14の部分(A)のように山部および谷部の間隔が不均等であるのに対し、ステップSC4の修正後の相対ピッチ遷移CRでは、図14の部分(B)のように山部および谷部の間隔が均等化される。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、時間軸上における相対ピッチ遷移CRの山部および谷部の間隔が均等化されるから、聴感的に自然なビブラートが付与された合成音声を生成できるという利点がある。なお、以上の説明では修正区間τおよび目標周期τを自動的に(すなわち利用者からの指示とは無関係に)設定したが、ビブラートの特性(区間,周期,振幅)を利用者からの指示に応じて可変に設定することも可能である。また、第2実施形態または第3実施形態の構成を第4実施形態に採用することも可能である。
<第5実施形態>
第1実施形態では、確率モデルMの状態St毎に独立の決定木T[n]を例示した。第5実施形態における音声解析装置100の特性解析部24(解析処理部44)は、図16から理解される通り、確率モデルMのN個の状態Stにわたり共通する単一の決定木(以下「基礎決定木」という)T0から状態St毎の決定木T[n](T[1]〜T[N])を生成する。したがって、中間節νbや終端節νcの有無は決定木T[n]毎に相違する(したがって終端節νcの個数Kは第1実施形態と同様に決定木T[n]毎に相違する)が、各決定木T[n]にて相対応する各中間節νbの条件の内容は共通する。なお、図16では、条件が共通する各節点νは同態様(ハッチング)で図示されている。
以上の通り、第5実施形態では共通の基礎決定木T0を起源としてN個の決定木T[1]〜T[N]が派生的に生成されるから、上位層に位置する各節点ν(始端節νa,中間節νb)に設定される条件(以下「共通条件」という)はN個の決定木T[1]〜T[N]にわたり共通する。図17は、N個の決定木T[1]〜T[N]にわたり共通する木構造の模式図である。始端節νaでは、単位区間U(UA,UB)が音符の存在しない無音区間であるか否かが判定される。始端節νaの結果が否定である場合の中間節νb1では、単位区間U内の音符が16分音符未満であるか否かが判定される。中間節νb1の結果が否定である場合の中間節νb2では、単位区間Uが音符の始点側に位置するか否かが判定され、中間節νb2の結果が否定である場合の中間節νb3では、単位区間Uが音符の終点側に位置するか否かが判定される。以上に説明した始端節νaおよび複数の中間節νb(νb1〜νb3)の各々における条件(共通条件)はN個の決定木T[1]〜T[N]にわたり共通する。
第5実施形態においても第1実施形態と同様の効果が実現される。ところで、確率モデルMの状態St毎に完全に独立に決定木T[n]を生成する構成では、単位区間U内の相対ピッチRの時系列の特性が前後の状態St間で顕著に相違し、結果的に合成音声が不自然な印象の音声(例えば現実には発音できないような音声や実際の発音とは異なる音声)となる可能性がある。第5実施形態では、確率モデルMの相異なる状態Stに対応するN個の決定木T[1]〜T[N]が共通の基礎決定木T0から生成されるから、N個の決定木T[1]〜T[N]の各々を独立に生成する構成と比較して、相前後する状態St間で相対ピッチRの遷移の特性が過度に相違する可能性が低減され、聴感的に自然な合成音声(例えば実際に発音され得る音声)を生成できるという利点がある。もっとも、確率モデルMの状態St毎に独立に決定木T[n]を生成する構成も本発明の範囲には包含され得る。
なお、以上の説明では、各状態Stの決定木T[n]を部分的に共通させた構成を例示したが、各状態Stの決定木T[n]の全体を共通させる(状態St間で決定木T[n]を完全に共通させる)ことも可能である。また、第2実施形態から第4実施形態の構成を第5実施形態に採用することも可能である。
<第6実施形態>
前述の各形態では、1個の参照楽曲の参照音声から検出されたピッチPAを利用して決定木T[n]を生成する場合を便宜的に例示したが、実際には、相異なる複数の参照楽曲の参照音声から検出されたピッチPAを利用して決定木T[n]が生成される。以上のように複数の参照楽曲から各決定木T[n]を生成する構成では、相異なる参照楽曲に包含される複数の単位区間UAが決定木T[n]の1個の終端節νcに混在した状態で分類されて当該終端節νcの変数群Ω[k]の生成に利用され得る。他方、音声合成装置200の変数設定部64による相対ピッチ遷移CRの生成の場面では、合成楽曲内の1個の音符に包含される複数の単位区間UBが決定木T[n]の相異なる終端節νcに分類される。したがって、合成楽曲の1個の音符に対応する複数の単位区間UBの各々に、相異なる参照楽曲のピッチPAの傾向が反映され、合成音声(特にビブラート等の特性)が聴感的に不自然な印象に知覚される可能性がある。
以上の事情を考慮して、本発明の第6実施形態では、合成楽曲内の1個の音符(単位音価の複数個分の音符)に包含される複数の単位区間UBの各々が、決定木T[n]のうち共通の参照楽曲に対応する各終端節νc(すなわち、決定木T[n]の生成時に当該参照楽曲内の単位区間UBのみが分類された終端節νc)に分類されるように、音声解析装置100の特性解析部24(解析処理部44)が各決定木T[n]を生成する。
具体的には、第6実施形態では、決定木T[n]の各中間節νbに設定される条件(コンテキスト)が、音符条件と区間条件との2種類に区分される。音符条件は、1個の音符を単位として成否が判定される条件(1個の音符の属性に関する条件)であり、区間条件は、1個の単位区間U(UA,UB)を単位として成否が判定される条件(1個の単位区間Uの属性に関する条件)である。
具体的には、音符条件としては以下の条件(A1〜A3)が例示される。
A1:単位区間Uを内包する1個の音符の音高や継続長に関する条件
A2:単位区間Uを内包する1個の音符の前後の音符の音高や継続長に関する条件
A3:フレーズQ内の1個の音符の位置(時間軸上または音高軸上の位置)に関する条件
条件A1は、例えば、単位区間Uを内包する1個の音符の音高や継続長が所定の範囲にあるか否かという条件である。条件A2は、例えば、単位区間Uを内包する1個の音符と直前または直後の音符との音高差が所定の範囲にあるか否かという条件である。また、条件A3は、例えば、単位区間Uを内包する1個の音符がフレーズQの始点側に位置するか否かという条件や、当該音符がフレーズQの終点側に位置するか否かという条件である。
他方、区間条件は、例えば、1個の音符に対する単位区間Uの位置に関する条件である。例えば、単位区間Uが音符の始点側に位置するか否かという条件や、単位区間Uが音符の終点側に位置するか否かという条件が区間条件として好適である。
図18は、第6実施形態の解析処理部44が決定木T[n]を生成する処理のフローチャートである。第1実施形態における図8のステップSA6が図18の各処理に置換される。図18に例示される通り、解析処理部44は、区間設定部42が画定した複数の単位区間UAの各々を、第1分類処理SD1および第2分類処理SD2の2段階で分類して決定木T[n]を生成する。図19は、第1分類処理SD1および第2分類処理SD2の説明図である。
第1分類処理SD1は、前述の音符条件を利用して図19の暫定的な決定木(以下「暫定決定木」という)TA[n]を生成する処理である。図19から理解される通り、暫定決定木TA[n]の生成に区間条件は利用されない。したがって、暫定決定木TA[n]の1個の終端節νcには、共通の参照楽曲に含まれる複数の単位区間UAが分類されるという傾向がある。すなわち、相異なる参照楽曲に対応する複数の単位区間UAが1個の終端節νcに混在して分類される可能性が低減される。
第2分類処理SD2は、前述の区間条件を利用して暫定決定木TA[n]の各終端節νcを更に分岐させることで最終的な決定木T[n]を生成する処理である。具体的には、第6実施形態の解析処理部44は、図19から理解される通り、暫定決定木TA[n]の各終端節νcに分類された複数の単位区間UAを、区間条件と音符条件との双方を含む複数の条件により分類することで決定木T[n]を生成する。すなわち、暫定決定木TA[n]の各終端節νcは、決定木T[n]では中間節νbに該当し得る。以上の説明から理解される通り、解析処理部44は、区間条件および音符条件が設定された複数の中間節νbの上位層に、音符条件のみが設定された複数の中間節νbを配置した木構造の決定木T[n]を生成する。暫定決定木TA[n]の1個の終端節νcには共通の参照楽曲内の複数の単位区間UAが分類されるから、第2分類処理SD2で生成される決定木T[n]の1個の終端節νcにも、共通の参照楽曲内の複数の単位区間UAが分類される。第6実施形態における解析処理部44の動作は以上の通りである。1個の終端節νcに分類された複数の単位区間UAの相対ピッチRから変数群Ω[k]が生成される点は第1実施形態と同様である。
他方、音声合成装置200の変数設定部64は、第1実施形態と同様に、合成楽曲データYBが指定する合成楽曲を区分した各単位区間UBを、以上の手順で生成された各決定木T[n]に適用することで1個の終端節νcに分類し、当該終端節νcに対応する変数群Ω[k]に応じて単位区間UBの相対ピッチRを生成する。前述の通り、決定木T[n]では音符条件が区間条件と比較して優先的に判定されるから、合成楽曲の1個の音符に包含される複数の単位区間UBの各々は、決定木T[n]の生成時に共通の参照楽曲の各単位区間UAのみが分類された各終端節νcに分類される。すなわち、合成楽曲の1個の音符に包含される複数の単位区間UB内の相対ピッチRの生成には、共通の参照楽曲の参照音声の特性に応じた変数群Ω[k]が適用される。したがって、音符条件と区間条件とを区別せずに決定木T[n]を生成する構成と比較して、聴感的に自然な印象の合成音声を生成できるという利点がある。
第2実施形態から第5実施形態の構成は第6実施形態にも同様に適用される。なお、決定木T[n]の上位層の条件を固定した第5実施形態の構成を第6実施形態に適用する場合には、音符条件および区間条件の何れに該当するかに関わらず木構造の上位層には第5実施形態の共通条件が固定的に設定され、共通条件が設定された各節点νの下層に位置する各節点νに第6実施形態と同様の方法で音符条件や区間条件が設定される。
<第7実施形態>
図20は、第7実施形態の動作の説明図である。第7実施形態の音声合成装置200の記憶装置54には、参照歌唱者が共通する歌唱特性データZ1と歌唱特性データZ2とが記憶される。歌唱特性データZ1の任意の単位データz[n]は、決定木T1[n]と変数情報D1[n]とを含んで構成され、歌唱特性データZ2の任意の単位データz[n]は、決定木T2[n]と変数情報D2[n]とを含んで構成される。決定木T1[n]と決定木T2[n]とは、共通の参照音声から生成された木構造であるが、図20からも理解される通りサイズ(木構造の階層数や節点νの総数)が相違する。具体的には、決定木T1[n]のサイズは決定木T2[n]のサイズを下回る。例えば特性解析部24による決定木T[n]の生成時に、相異なる条件で木構造の分岐を停止させることで、サイズが相違する決定木T1[n]と決定木T2[n]とが生成される。なお、木構造の分岐を停止させる条件を相違させた場合のほか、各節点νに設定される条件の内容や配列(質問セット)を相違させた場合(例えばフレーズQに関する条件を一方には含ませない場合)にも、決定木T1[n]と決定木T2[n]とでサイズや構造(各節点νに設定される条件の内容や配列)が相違し得る。
決定木T1[n]の生成時には1個の終端節νcに多数に単位区間Uが分類されて特性が平準化されるから、歌唱特性データZ1には、歌唱特性データZ2と比較して多様な合成楽曲データYBに対して安定的に相対ピッチRを生成できるという優位性がある。他方、決定木T2[n]では単位区間Uの分類が細分化されるから、歌唱特性データZ2には、歌唱特性データZ1と比較して参照音声の微細な特徴を確率モデルMで表現できるという優位性がある。
利用者は、入力装置57を適宜に操作することで、歌唱特性データZ1および歌唱特性データZ2の各々を利用した音声合成(相対ピッチ遷移CRの生成)を指示できるほか、歌唱特性データZ1と歌唱特性データZ2との合成を指示することが可能である。歌唱特性データZ1と歌唱特性データZ2との合成が指示されると、第7実施形態の変数設定部64は、図20に例示される通り、歌唱特性データZ1と歌唱特性データZ2とを合成することで、両者の中間的な歌唱スタイルを表す歌唱特性データZを生成する。すなわち、歌唱特性データZ1で規定される確率モデルMと歌唱特性データZ2で規定される確率モデルMとが合成(補間)される。歌唱特性データZ1と歌唱特性データZ2とは、入力装置57に対する操作で利用者が指示した合成比λのもとで合成される。合成比λは、合成後の歌唱特性データZに対する歌唱特性データZ1(または歌唱特性データZ2)の寄与度を意味し、例えば0以上かつ1以下の範囲内で設定される。なお、以上の説明では各確率モデルMの補間を例示したが、歌唱特性データZ1で規定される確率モデルMと歌唱特性データZ2で規定される確率モデルMとを補外することも可能である。
具体的には、変数設定部64は、歌唱特性データZ1の決定木T1[n]と歌唱特性データZ2の決定木T2[n]との間で、相対応する終端節νcの変数群Ω[k]で規定される確率分布を合成比λに応じて補間する(例えば確率分布の平均や分散を補間する)ことで歌唱特性データZを生成する。歌唱特性データZを利用した相対ピッチ遷移CRの生成等の他の処理は第1実施形態と同様である。なお、歌唱特性データZで規定される確率モデルMの補間については、例えばM. Tachibana, et al., "Speech Synthesis with Various Emotional Expressions and Speaking Styles by Style Interpolation and Mophing", IEICE TRANS. Information and Systems, E88-D, No. 11, p.2484-2491, 2005にも詳述されている。
なお、決定木T[n]の合成時の動的なサイズ調整にはバックオフ平滑化を適用することも可能である。ただし、バックオフ平滑化を利用せずに確率モデルMを補間する構成では、決定木T1[n]と決定木T2[n]とで木構造(各節点νの条件や配列)を共通させる必要がないという利点や、終端節νcの確率分布を補間すればよい(中間節νbの統計量を考慮する必要がない)ため演算負荷が低減されるという利点がある。なお、バックオフ平滑化については、例えば、片岡他3名,“決定木のバックオフに基づくHMM音声合成”,社団法人 電子情報通信学会,信学技法 TECHNICAL REPORT OF IEICE SP2003-76(2003-08)にも詳述されている。
第7実施形態においても第1実施形態と同様の効果が実現される。また、第7実施形態では、歌唱特性データZ1と歌唱特性データZ2との合成で両者の中間的な歌唱スタイルを表す歌唱特性データZが生成されるから、歌唱特性データZ1または歌唱特性データZ2を単独で利用して相対ピッチ遷移CRを生成する構成と比較して、多様な歌唱スタイルの合成音声を生成できるという利点がある。なお、第2実施形態から第6実施形態の構成は第7実施形態にも同様に適用され得る。
<変形例>
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の各形態では、参照楽曲について事前に用意された参照音声データXAと参照楽曲データXBとから相対ピッチ遷移CR(ピッチベンドカーブ)を算定したが、変数抽出部22が相対ピッチ遷移CRを取得する方法は任意である。例えば、公知の歌唱解析技術を利用して任意の参照音声から推定された相対ピッチ遷移CRを、変数抽出部22が取得して特性解析部24による歌唱特性データZの生成に適用することも可能である。相対ピッチ遷移CR(ピッチベンドカーブ)の推定に利用される歌唱解析技術としては、例えば、T. Nakano and M. Goto, VOCALISTENER 2: A SINGING SYNTHESIS SYSTEM ABLE TO MIMIC A USER'S SINGING IN TERMS OF VOICE TIMBRE CHANGES AS WELL AS PITCH AND DYNAMICS", In Proceedings of the 36th International Conference on Acoustics, Speech and Signal Processing (ICASSP2011),p. 453-456, 2011に開示された技術が好適である。
(2)前述の各形態では、音声素片を相互に連結して音声信号Vを生成する素片接続型の音声合成を例示したが、音声信号Vの生成には公知の技術が任意に採用される。例えば、音声合成部66は、変数設定部64が生成した相対ピッチ遷移CRの付加後の合成ピッチ遷移CPの各ピッチPBに調整された基礎信号(例えば声帯の発声音を表す正弦波信号)を生成し、合成楽曲データYBが指定する歌詞の音声素片に対応したフィルタ処理(例えば口腔内での共鳴を近似するフィルタ処理)を基礎信号に対して実行することで音声信号Vを生成する。
(3)第1実施形態で説明した通り、音声合成装置200の利用者は、入力装置57を適宜に操作することで相対ピッチ遷移CRの変更を指示することが可能である。相対ピッチ遷移CRに対する変更の指示を、音声解析装置100の記憶装置14に記憶された歌唱特性データZに反映させることも可能である。
(4)前述の各形態では、参照音声の特徴量として相対ピッチRを例示したが、相対ピッチRの不連続な変動を抑制するという所期の課題を前提としない構成(例えば決定木T[n]の生成に特徴がある構成)にとっては、特徴量が相対ピッチRである構成は必須ではない。例えば、楽曲を単位音価毎に複数の単位区間U(UA,UB)に区分する第1実施形態の構成や、各節点νの条件にフレーズQを加味する第2実施形態の構成や、基礎決定木T0からN個の決定木T[1]〜T[N]を生成する第5実施形態の構成や、第1分類処理SD1と第2分類処理SD2との2段階で決定木T[n]を生成する第6実施形態の構成や、複数の歌唱特性データZを合成する第7実施形態の構成では、変数抽出部22が取得する特徴量は相対ピッチRに限定されない。例えば、変数抽出部22が参照音声のピッチPAを抽出し、特性解析部24が、ピッチPAの時系列に応じた確率モデルMを規定する歌唱特性データZを生成することも可能である。