<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100の構成図である。音声合成装置100は、複数の音声素片を時間軸上で相互に連結する素片接続型の音声合成処理で任意の合成音声の音声信号Vを生成する。具体的には、第1実施形態の音声合成装置100は、任意の楽曲(以下「合成楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置であり、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器(例えばマウス等のポインティングデバイスやキーボード)であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、音声信号Vに応じた音響を再生する。なお、音声信号Vをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、複数の音声ライブラリL(LA,LB)と合成情報Qとを記憶する。
各音声ライブラリLは、複数の素片データPと複数の継続音データSとを含み、音声合成の素材として利用される。1個の素片データPは、事前に収録された音声から抽出された音声素片を表現する。音声素片は、言語的な意味の区別の最小単位である音素(例えば母音や子音)、または、複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。なお、以下の説明では、便宜的に無音を1個の音素(記号[Sil])として取扱う。他方、継続音データSは、定常的に継続する音声(以下「継続音」という)の変動成分を表現する。変動成分は、継続音のうち音量や音高等の音響特性が時間的に微細に変動する音響成分(例えばビブラート成分)を意味する。継続音データSは、発音が定常的に継続され得る種類の音素毎(典型的には母音や撥音等の音素毎)に用意される。
音声ライブラリLAの各素片データPAおよび各継続音データSAは第1音声から生成され、音声ライブラリLBの各素片データPBおよび各継続音データSBは第2音声から生成される。第1音声と第2音声とは声質(声色)が相違する。具体的には、第1音声と第2音声とは、相異なる発声者が発声した音声、または、ひとりの発声者が声質を相違させて発声した音声である。
第1実施形態では、音声ライブラリLAで表現される第1音声と音声ライブラリLBで表現される第2音声とを混合(補間)した合成音声の音声信号Vが生成される。第1音声と第2音声との混合比率Rは、例えば利用者からの指示に応じて可変に設定される。混合比率Rは、第1音声および第2音声の各々の優勢度(合成音声に反映される度合)に相当する。具体的には、混合比率Rが最小値(例えば0)である場合には第1音声と同様の声質の合成音声が生成され、混合比率Rが大きいほど合成音声の声質は第2音声に近付き、混合比率Rが最大値(例えば1)である場合には第2音声と同様の声質の合成音声が生成される。すなわち、第1実施形態では、混合比率Rに応じて第1音声と第2音声との中間的な声質の合成音声が生成される。
図2に例示される通り、音声ライブラリLの1個の素片データPは、音声素片を時間軸上で区分した各区間(以下「単位区間」という)に対応する複数の単位データXの時系列を包含する。同様に、音声ライブラリLの1個の継続音データSは、継続音の変動成分を時間軸上で区分した各単位区間に対応する複数の単位データYの時系列を包含する。素片データPの各単位データXは、周波数特性データDFと包絡特性データDEとを含んで構成され、継続音データSの各単位データYは、包絡特性データDEを包含する。周波数特性データDFは、1個の単位区間での音声のスペクトルを表現する。
包絡特性データDEは、1個の単位区間の音声のスペクトル包絡を表現する複数の変数の集合である。第1実施形態の包絡特性データDEは、励起波形包絡E1と胸部レゾナンスE2と声道レゾナンスE3と差分スペクトルE4とで単位区間のスペクトル包絡を近似的に表現するEpR(Excitation plus Resonance)パラメータであり、公知のSMS(Spectral Modeling Synthesis)分析で算定される。なお、EpRパラメータやSMS分析については、例えば特許第3711880号公報や特開2007−226174号公報にも開示されている。
励起波形包絡(Excitation Curve)E1は、声帯振動のスペクトル包絡の近似線である。胸部レゾナンス(Chest Resonance)E2は、胸部共鳴特性を近似する所定個のレゾナンス(帯域通過フィルタ)を規定し、声道レゾナンス(Vocal Tract Resonance)E3は、声道共鳴特性を近似する複数のレゾナンスを規定する。差分スペクトルE4は、励起波形包絡E1と胸部レゾナンスE2と声道レゾナンスE3とで近似されるスペクトルと実際の音声のスペクトルとの差分(誤差)を意味する。
記憶装置12に記憶される図1の合成情報Qは、合成対象となる音声(以下「合成対象音声」という)を指定する。図3に例示される通り、第1実施形態の合成情報Qは、楽曲情報QMと制御情報QCとを含んで構成される。楽曲情報QMは、合成楽曲の内容を指定する時系列データであり、合成楽曲を構成する音符毎に音高q1と発音期間q2と音声符号q3とを指定する。音高q1は、例えばMIDI(Musical Instrument Digital Interface)規格に準拠したノートナンバーである。発音期間q2は、例えば発音の開始時刻と継続長(または発音の終了時刻)とで規定される音符の継続長である。音声符号q3は、合成対象音声の発音内容(すなわち合成楽曲の歌詞)に相当する。例えば合成楽曲の歌詞を構成する文字(書記素)や各文字に対応する音素の音素記号が音声符号q3として指定される。
図3の制御情報QCは、音声合成に適用される変数の時間変化を指定する。第1実施形態の制御情報QCは、第1音声(素片データPA,継続音データSA)と第2音声(素片データPB,継続音データSB)との混合比率Rの時間変化を指定する。
図1の演算処理装置10(CPU)は、記憶装置12に記憶されたプログラムを実行することで、合成情報Qの編集や音声信号Vの生成のための複数の機能(指示受付部22,表示制御部24,情報管理部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。
表示制御部24は、各種の画像を表示装置14に表示させる。第1実施形態の表示制御部24は、合成情報Qが指定する合成楽曲の内容を利用者が確認および編集するための図4の編集画像30を表示装置14に表示させる。図4に例示される通り、編集画像30は、楽譜画像32と変数画像34とを包含する。楽譜画像32は、相互に交差する時間軸および音高軸が設定された楽譜領域322に、合成情報Qの楽曲情報QMが指定する各音符を表象する音符図像324を配置したピアノロール型の画像である。音高軸の方向における音符図像324の位置は、楽曲情報QMが指定する音高q1に応じて設定され、時間軸の方向における音符図像324の位置および表示長は、楽曲情報QMが指定する発音期間q2に応じて設定される。また、各音符図像324には、楽曲情報QMが指定する音声符号q3(合成楽曲の歌詞と音素記号)が付加される。
変数画像34は、混合比率Rの時間変化を表現する。第1実施形態の変数画像34は、相互に交差する時間軸および変数軸(縦軸)が設定された変数領域342に、混合比率Rの時間変化を表現する遷移画像344を配置した画像である。変数軸は、混合比率Rの数値を示す座標軸である。混合比率Rの時間変化に対応した折線が図4では遷移画像344として例示されている。
図1の指示受付部22は、入力装置16に対する操作に応じた利用者からの指示を受付ける。例えば利用者は、編集画像30を確認しながら入力装置16を適宜に操作することで合成情報Qの編集を音声合成装置100に指示することが可能である。指示受付部22は、合成情報Qの編集の指示を利用者から受付ける。情報管理部26は、記憶装置12に記憶された合成情報Qを管理する。具体的には、情報管理部26は、指示受付部22が利用者から受付けた編集の指示に応じて合成情報Q(楽曲情報QM,制御情報QC)を更新する。音声合成部28は、記憶装置12に記憶された音声ライブラリLと合成情報Qとを利用した音声合成処理で音声信号Vを生成する。
図5は、第1実施形態の音声合成装置100の概略的な動作のフローチャートである。入力装置16に対する利用者からの指示を契機として図5の処理が開始される。処理を開始すると、表示制御部24は、記憶装置12に記憶された合成情報Qに応じた図4の編集画像30を表示装置14に表示させる(SA1)。そして、指示受付部22は、合成情報Qの編集の指示を利用者から受付けたか否かを判定する(SA2)。
合成情報Qの編集の指示を指示受付部22が受付けた場合(SA2:YES)、表示制御部24による編集画像30の更新と情報管理部26による合成情報Qの更新とが実行される(SA3)。例えば、音符図像324の位置や表示長の変更が指示された場合、表示制御部24は、音符図像324の位置や表示長を利用者からの指示に応じて変更し、情報管理部26は、楽曲情報QMのうち編集対象の音符の音高q1や発音期間q2を利用者からの指示に応じて変更する。また、各音符の音声符号q3の変更が利用者から指示された場合、表示制御部24は、当該音符の音声符号q3の表示を利用者からの指示に応じて変更し、情報管理部26は、楽曲情報QMのうち当該音符の音声符号q3を利用者からの指示に応じて変更する。
また、利用者は、遷移画像344に対する操作で混合比率Rの時間変化を任意に指示することが可能である。遷移画像344の編集が指示された場合、表示制御部24は、指示受付部22が利用者から受付けた指示に応じて遷移画像344を更新し、情報管理部26は、制御情報QCが指定する混合比率Rの時間変化を利用者からの指示に応じて更新する。
以上の処理が完了すると、指示受付部22は、音声合成(音声信号Vの生成)の指示を利用者から受付けたか否かを判定する(SA4)。音声合成が指示された場合(SA4:YES)、音声合成部28は、音声ライブラリL(LA,LB)と合成情報Qとを適用した音声合成処理を実行することで音声信号Vを生成する(SA5)。他方、音声合成が指示されていない場合(SA4:NO)には音声合成処理は実行されない。また、指示受付部22は、処理終了の指示を利用者から受付けたか否かを判定する(SA6)。処理終了が指示されていない場合(SA6:NO)、処理がステップSA1に遷移して以降の処理が反復され、処理終了が指示された場合(SA6:YES)には図5の処理が終了する。
図6は、音声合成処理(SA5)を実行する音声合成部28の具体的な構成図であり、図7は、音声合成処理の説明図である。図6から理解される通り、第1実施形態の音声合成部28は、変数設定部52と選択処理部54と混合処理部56と合成処理部58とを含んで構成される。変数設定部52は、経時的に変化する混合比率Rを設定する。具体的には、変数設定部52は、合成情報Qの制御情報QCを参照して単位区間毎に混合比率Rを順次に設定する。前述の通り、制御情報QCは利用者からの指示に応じて更新される。したがって、変数設定部52は、指示受付部22が受付けた利用者からの指示に応じて混合比率Rを経時的に変化させる要素として機能する。
選択処理部54は、音声ライブラリLAおよび音声ライブラリLBから素片データP(PA,PB)と継続音データS(SA,SB)とを順次に選択する。具体的には、選択処理部54は、合成情報Qの楽曲情報QMが順次に指定する音声符号q3に対応した音声素片の素片データP(PA,PB)と継続音データS(SA,SB)とを音声ライブラリLAおよび音声ライブラリLBの双方から順次に選択する。例えば図7に例示される通り、音声符号q3が「わ(wa)」を指定するとともに音素[a]が継続音となるように発音期間q2が指定された場合、音声符号q3に対応する複数の音声素片([Sil-w],[w-a],[a-Sil])の素片データP(PA,PB)と継続音の音素[a]に対応する継続音データS(SA,SB)とが、音声ライブラリLAと音声ライブラリLBとから選択される。なお、素片データPAと素片データPBとで音声素片の時間長(単位データXの個数)が相違する場合、選択処理部54は、素片データPBの単位データXの反復や間引による時間軸上の伸縮や、素片データPAと同等の時間長の区間を素片データPBから切出す処理等により、素片データPAと同等の時間長に素片データPBを調整する。
図6の混合処理部56は、変数設定部52が順次に設定する混合比率Rに応じて第1音声と第2音声とを混合する要素であり、素片混合部62と継続音混合部64とを含んで構成される。素片混合部62は、選択処理部54が選択した第1音声の素片データPAと第2音声の素片データPBとを、変数設定部52が順次に設定する混合比率Rに応じて混合する。具体的には、素片混合部62は、素片データPAの各単位データXと素片データPBの各単位データYとを混合比率Rに応じて混合する処理(以下「混合処理」という)で混合単位データZXを順次に生成する。図7では便宜的に、混合単位データZXの時系列と重複するように混合比率Rの時間変化が図示されている。
第1実施形態の混合処理は、素片データPAの各単位データXの包絡特性データDEが規定する各変数(E1〜E4を規定する変数)eAと、素片データPBの各単位データXの包絡特性データDEが規定する各変数eBとについて、混合比率Rを適用した以下の数式(A)の演算(加重和)を実行することで、混合単位データZXの各変数eZを算定する処理である。
eZ=(1−R)・eA+R・eB ……(A)
数式(A)から理解される通り、混合単位データZXは、第1音声と第2音声との中間的なスペクトル包絡(第1音声と第2音声との中間的な声質)を表現する。
1個の音素(以下「継続音素」という)が定常的に継続される定常期間Hについて、第1実施形態の素片混合部62は、図7に例示される通り、定常期間Hの直前の音声素片の素片データPAのうち継続音素(図7の例示では音素[a])に対応する1個の単位データXA(第1単位データ)と、定常期間Hの直前の音声素片の素片データPBのうち継続音素に対応する1個の単位データXB(第2単位データ)との間で混合処理を反復的に実行することで、発音期間q2に応じた時間長(定常期間H)にわたる混合単位データZXを順次に生成する。単位データXAは、例えば定常期間Hの直前の素片データPA(図7の例示では音声素片[w-a]の素片データP)の最後の単位データXである。同様に、単位データXBは、定常期間Hの直前の素片データPBの最後の単位データXである。
以上の説明から理解される通り、定常期間H内の複数の混合単位データZXを生成するための混合処理には共通の単位データX(XA,XB)が反復的に利用される。他方、変数設定部52が設定する混合比率Rは、定常期間H内でも単位期間毎に経時的に変化し得る。したがって、混合処理に適用される単位データXは共通するが、定常期間H内の各混合単位データZXが表すスペクトル包絡は、定常期間H内の単位区間毎に経時的に変化し得る。
図6の継続音混合部64は、選択処理部54が選択した第1音声の継続音データSAと第2音声の継続音データSBとを、変数設定部52が順次に設定する混合比率Rに応じて混合することで継続音データSZを生成する。第1実施形態の継続音混合部64は、図7に例示される通り、継続音データSAに応じた中間データMAと継続音データSBに応じた中間データMBとを混合する混合処理で継続音データSZを生成する。
具体的には、継続音混合部64は、継続音データSAを構成する複数の単位データYの時系列からN個の区間σA[1]〜σA[N]を抽出して相互に連結することで、定常期間Hの時間長に相当する個数の単位データYを配列した中間データMAを生成する。N個の単位区間σA[1]〜σA[N]は、時間軸上で相互に重複し得るように継続音データSAから例えばランダムに抽出される。同様に、中間データMBは、継続音データSBから抽出されたN個の区間σB[1]〜σB[N]を連結することで生成され、定常期間Hの時間長に相当する個数の単位データYの時系列である。
継続音混合部64は、図7から理解される通り、第1音声の中間データMAと第2音声の中間データMBとを、変数設定部52が順次に設定する混合比率Rに応じて混合する。具体的には、継続音混合部64は、中間データMAの各単位データYと中間データMBの各単位データYとを混合比率Rに応じて混合する混合処理で混合単位データZYを単位区間毎に順次に生成する。以上の説明から理解される通り、混合単位データZYは、第1音声の変動成分と第2音声の変動成分との中間的な変動成分を表現する。図7の継続音データSZは、混合処理後の複数の混合単位データZYの時系列である。
図6の合成処理部58は、素片混合部62による混合後の複数の混合単位データZXの時系列と継続音混合部64による混合後の継続音データSZ(複数の混合単位データZYの時系列)とを利用して音声信号Vを生成する。図8は、単位区間毎に合成処理部58が実行する処理のフローチャートである。
合成処理部58は、選択処理部54が順次に選択した素片データPAのうち処理対象の1個の単位区間(以下「対象単位区間」という)の単位データXの周波数特性データDFが表すスペクトルの音高(基本周波数)を、合成楽曲の楽曲情報QMが指定する音高q1に調整する(SB1)。音高の調整には、例えば特開2003−255998号公報や特開2006−064799号公報に開示された公知の技術(ピッチ変換技術)が任意に採用される。
合成処理部58は、対象単位区間が定常期間Hに包含されるか否かを判定する(SB2)。対象単位区間が定常期間Hに包含されない場合(SB2:NO)、合成処理部58は、音高調整後のスペクトルの強度を、素片混合部62が対象単位区間について生成した混合単位データZXに応じて調整する(SB4)。具体的には、合成処理部58は、対象単位区間の混合単位データZXで表現されるスペクトル包絡(第1音声と第2音声との混合音声のスペクトル包絡)に合致するように、音高調整後のスペクトルの周波数毎の強度を調整する。例えば、混合単位データZXで表現されるスペクトル包絡の線上にスペクトルの各ピーク(各調波成分に対応するピーク)が位置するように、スペクトルの周波数毎の強度が調整される。
他方、対象単位区間が定常期間Hに包含される場合(SB2:YES)。合成処理部58は、音高調整後のスペクトルの強度を、素片混合部62が対象単位区間について生成した混合単位データZXと継続音混合部64が対象単位区間について生成した混合単位データZYとに応じて調整する(SB3,SB4)。具体的には、合成処理部58は、第1に、素片混合部62が対象単位区間について生成した混合単位データZXと、継続音混合部64が生成した継続音データSZのうち当該対象単位区間に対応する混合単位データZYとを合成する(SB3)。すなわち、混合単位データZXで表現されるスペクトル包絡と、混合単位データZYで表現されるスペクトル包絡とを反映したスペクトル包絡(第1音声と第2音声との混合音声に変動成分を付加したスペクトル包絡)が生成される。第2に、合成処理部58は、ステップSB3での合成後のスペクトル包絡に合致するように、音高調整後のスペクトルの周波数毎の強度を調整する(SB4)。例えば、ステップSB3での合成後のスペクトル包絡の線上にスペクトルの各ピークが位置するように、スペクトルの周波数毎の強度が調整される。
音高調整(SA1)と強度調整(SB4)とが完了すると、合成処理部58は、強度調整後の各単位区間のスペクトルを時間領域の信号に変換し(SB5)、直前の単位区間の信号に時間軸上で連結(例えば相互に重複した状態で加算)することで音声信号Vを生成する(SB6)。以上の処理が単位区間毎に順次に反復されることで、合成楽曲の歌唱音声を表す音声信号Vが生成される。
以上に説明した通り、第1実施形態では、声質が相違する第1音声(音声ライブラリLA内の素片データPA)と第2音声(音声ライブラリLB内の素片データPB)との混合で音声信号Vが生成される。したがって、特定の発声者が相異なる音高で発音した複数の音声素片を混合する特許文献1の構成と比較して、第1音声や第2音声とは声質が相違する多様な合成音声を生成できるという利点がある。また、第1実施形態では、混合比率Rが利用者からの指示に応じて経時的に変化する。したがって、例えば混合比率Rを音高の目標値(音高q1)に応じて設定する特許文献1の技術と比較して、利用者の意図や嗜好を忠実に反映した多様な合成音声を生成できるという格別の効果が実現される。
ところで、定常期間H内の合成音声を生成する構成としては、例えば特許文献1にも例示される通り、定常期間Hの直前の素片データPAの最後に位置する1個の単位データX(図7の単位データXA)を定常期間Hの時間長にわたり反復させる構成(以下「対比例」という)も想定される。1個の単位データXを定常期間H内で単純に反復させる対比例でも、混合比率Rの時間変化が反映された継続音データSZを利用すれば、定常期間H内での混合比率Rの時間変化を影響を反映した合成音声を生成することが可能である。ただし、合成音声に対する変動成分の影響は相対的に小さいから、対比例の構成では、利用者からの指示に応じた混合比率Rの時間変化を定常期間H内の合成音声に充分に反映させることが困難である。第1実施形態では、定常期間H内の混合単位データZXを生成する単位データXAと単位データXBとの混合処理に混合比率Rの時間変化が反映される。したがって、対比例と比較して、定常期間H内でも、利用者からの指示に応じて声質が多様に変化する合成音声を生成できるという利点がある。また、第1実施形態では、定常期間H内で経時的に変化する宇混合比率Rに応じて継続音データSAと継続音データSBとを混合した継続音データSZが定常期間H内の混合単位データZXの時系列に合成される(SB3)から、合成音声の声質を利用者からの指示に応じて多様に変化させ得るという前述の効果は格別に顕著である。
図9は、混合比率Rを経時的に変化させた場合の音声信号Vのスペクトログラムの実測結果である。図9では、音素[a]の発音が継続される期間のうち、時刻t1から時刻t2にかけて混合比率Rを0から1まで直線的に増加させ、時刻t2から時刻t3にかけて混合比率Rを1から0まで直線的に減少させた場合が例示されている。また、図9の最下段には、第1音声および第2音声の各々の単独のスペクトログラムが図示されている。時刻t1から時刻t2にかけて合成音声が第1音声から第2音声に連続的に変化し、時刻t2から時刻t3にかけて合成音声が第2音声から第1音声に連続的に変化することが図9からも確認できる。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を適宜に流用して各々の詳細な説明を適宜に省略する。
図10は、素片データPの単位データXや継続音データSの単位データYの包絡特性データDEで規定される励起波形包絡E1の説明図である。以下の数式(B)で表現される通り、励起波形包絡E1は複数の変数(G,δ,η)で周波数軸f上に規定される。
E1=G+δ{exp(η・f)−1} ……(B)
図10および数式(B)から理解される通り、変数Gは、声帯振動のスペクトル包絡の全体的な強度(以下「包絡強度」という)に相当する。包絡強度Gは、周波数fの0(直流成分)に対応するスペクトルの強度とも換言され得る。変数δは、励起波形包絡E1の強度(縦軸)の数値範囲を規定する変数であり、変数ηは、励起波形包絡E1の形状を規定する変数である。第2実施形態の混合処理では、素片データPAの包絡特性データDEが規定する包絡強度GA(数式(A)の変数eA)と、素片データPBの包絡特性データDEが規定する包絡強度GB(数式(A)の変数eB)とについて混合比率Rを適用した数式(A)の演算が実行されることで、合成後のスペクトル包絡の包絡強度GZ(数式(A)の変数eZ)が算定される。
ただし、素片データPAと素片データPBとの音量差が顕著である場合(包絡強度GAと包絡強度GBとが顕著に相違する場合)、合成音声の音量が混合比率Rに応じて過度に変動する可能性がある。以上の事情を考慮して、第2実施形態の混合処理部56(素片混合部62,継続音混合部64)は、合成音声の音量の過度な変動を制限する。具体的には、混合処理部56は、以下の数式(C)で表現される通り、混合処理の前後にわたる包絡強度Gの変化量ΔG(包絡強度GAと包絡強度GZとの差分)を所定の閾値ΔTH以下の範囲に制限する。
ΔG=GA−GZ≦ΔTH ……(C)
例えば、混合処理部56は、以下の数式(D)の演算を実行することで混合後の包絡強度GZを算定する。
GZ=min{GZ,GA+ΔTH} ……(D)
数式(D)の右辺の包絡強度GZは、数式(A)の混合処理で定された包絡強度GZ(包絡強度GAと包絡強度GBとの加重和)である。数式(D)の演算子min{ }は、括弧内の複数の数値のうち最小値を採択する演算を意味する。数式(D)から理解される通り、混合処理後の包絡強度GZは、混合処理前の包絡強度GAに閾値ΔTHを加算した数値以下の範囲に制限される。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、混合処理の前後にわたる包絡強度の変化量ΔGが所定の範囲内に制限されるから、利用が指示した混合比率Rに応じて合成音声の音量が過度に変動する可能性を低減することが可能である。すなわち、音量の過度な変動が抑制された自然な合成音声を生成できるという利点がある。
なお、閾値ΔTHは、音量の過度な変動が抑制されるように適切な数値に設定される。例えば、混合処理の前後にわたる包絡強度Gの変化量ΔGの推定値(以下「推定変化量」という)ΔG_estに応じて閾値ΔTHは設定され得る。推定変化量ΔG_estは、例えば、混合処理の前後にわたる音声素片のパワーWの変化量である。具体的には、以下の数式(E)で表現される通り、混合処理後の音声素片のパワーWZと混合処理前の音声素片(素片データPA)のパワーWAとの差分値が推定変化量ΔG_estとして算定される。混合処理後のパワーWZは、数式(E)から理解される通り、素片データPAのパワーWAと素片データPBのパワーWBとを混合比率Rに応じて混合処理(加重加算)することで算定される。
ΔG_est=WZ−WA
={(1−R)・WA+R・WB}−WA ……(E)
数式(E)で算定される推定変化量ΔG_estが数式(D)の閾値ΔTHとして採用される。したがって、混合処理後の包絡強度GZは、混合処理前の包絡強度GAに推定変化量ΔG_estを加算した数値以下の範囲に制限される。
また、前述の例示では包絡強度Gの変動に着目したが、包絡強度G以外の変数を音声の音量の指標として利用することも可能である。例えば、混合処理の前後にわたる音声の積算包絡強度Gaの変化量を所定の範囲内に制限することも可能である。積算包絡強度Gaは、周波数軸fと励起波形包絡E1との間の領域の面積(周波数軸に沿った積分値)に相当し、例えば以下の数式(F)で表現される。なお、式(F)の記号Fsはサンプリング周波数である。
<第3実施形態>
図11は、本発明の第3実施形態に係る音声合成装置100の構成図である。図11から理解される通り、第3実施形態の音声合成装置100の記憶装置12は、相異なる声質の音声に対応するN個(Nは3以上の自然数)の音声ライブラリLを記憶する。例えば相異なる発声者が発声した音声の音声ライブラリLや、ひとりの発声者が声質を相違させて発声した音声の音声ライブラリLが記憶装置12に記憶される。
図11に例示される通り、第3実施形態の音声合成装置100の演算処理装置10は、第1実施形態と同様の要素(指示受付部22,表示制御部24,情報管理部26,音声合成部28)に加えて音声選択部72として機能する。音声選択部72は、記憶装置12に記憶されたN個の音声ライブラリLのうち音声合成部28が音声合成の素材として実際に利用する音声ライブラリLAと音声ライブラリLBとを選択する。音声選択部72は、声質が相違するN種類の音声から第1音声と第2音声とを選択する要素とも換言され得る。
利用者は、入力装置16を適宜に操作することで所望の音声ライブラリLの選択を指示することが可能である。指示受付部22は、音声ライブラリLの選択の指示を利用者から受付ける。音声選択部72は、指示受付部22が利用者から受付けた指示に応じて音声ライブラリLAと音声ライブラリLBとを選択する。ただし、第3実施形態の音声選択部72は、所定の条件を充足する組合せの範囲内で音声ライブラリLAと音声ライブラリLBとを利用者からの指示に応じて選択する。音声選択部72が選択した音声ライブラリL(LA,LB)を適用した音声合成処理や合成情報Qの編集については第1実施形態と同様である。
具体的には、音声ライブラリLの属性(音声の属性を含む)を表す属性情報が各音声ライブラリLに付加され、音声選択部72は、属性情報で指定される属性が所定の条件を充足する2個の音声ライブラリLの選択を許容する。音声ライブラリの属性としては、音声の言語,音声の発声者,発声者の性別,音声の音域,音声ライブラリLの形式(バージョンやファイル形式)等が例示され得る。具体的には、音声の言語や音域が共通または類似する組合せ、音声の発声者や性別が共通する組合せ、または、音声ライブラリLの形式が共通または類似する組合せ等の2個の音声ライブラリLが選択される。
また、音声の音響特性を表す属性情報を音声ライブラリLに付加し、音響特性が類似または相違する組合せの2個の音声ライブラリLの選択を許容することも可能である。例えば、利用者が指定した音声ライブラリLAに音響特性が類似する音声ライブラリLB(例えば明瞭度が高い音声の音声ライブラリLAと同様に明瞭度が高い音声の音声ライブラリLB)を音声選択部72が選択する構成や、利用者が指定した音声ライブラリLAとは音響特性が対照的な音声ライブラリLB(例えば明瞭度が高い音声の音声ライブラリLAとは対照的に明瞭度が低い音声の音声ライブラリLB)を音声選択部72が選択する構成が想定される。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、音声合成処理に適用される複数の音声ライブラリLの組合せが所定の条件の範囲内に制限されるから、不適切な組合せの音声ライブラリLが音声合成処理に適用される可能性を低減することが可能である。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の各形態では、音声素片毎に1個の素片データPを含む音声ライブラリLを例示したが、音響特性が相違する複数の素片データPを音声素片毎に含む音声ライブラリLを利用することも可能である。例えば、音高が相違する複数の素片データPを1個の音声素片毎に含む音声ライブラリLから、楽曲情報QMが指定する音高q1に近似する音高の素片データPを選択する構成が好適である。
また、1個の音声ライブラリLから選択された複数の素片データPを混合することも可能である。例えば、音声ライブラリLAから選択された複数の素片データPの混合で素片データPAを生成し、音声ライブラリLBから選択された複数の素片データPの混合で素片データPBを生成することも可能である。1個の音声ライブラリLから選択された複数の素片データPの混合には、例えば特許文献1に開示された方法が利用され得る。
(2)選択処理部54が素片データPを選択する方法(選択条件)は適宜に変更される。例えば、楽曲情報QMが示す音高q1の遷移(ピッチカーブ)や前後の音符との関係等を加味して各音声ライブラリLから素片データPを選択することも可能である。また、音声ライブラリLAと音声ライブラリLBとで音声素片の種類や総数が相違する場合には、音声ライブラリLAから選択した素片データPと同様の音声素片の素片データPが音声ライブラリLBに存在しない可能性もある。以上の場合には、音声ライブラリLAから選択した素片データPに類似する音声素片の素片データPが音声ライブラリLBから選択され得る。
(3)前述の各形態では、2個の素片データP(PA,PB)の混合処理を例示したが、声質が相違する3個以上の素片データPを混合することも可能である。例えば、3個の素片データP(PA,PB,PC)の混合処理は、素片データPAの包絡特性データDEの変数eAと素片データPBの包絡特性データDEの変数eBとに加えて、素片データPCの包絡特性データDEの変数eCを含む以下の数式(G)で表現される。
eZ=rA・eA+rB・eB+rC・eC ……(G)
混合比率Rは、数式(G)の比率rAと比率rBと比率rCとを含んで構成され、利用者からの指示に応じて可変に設定される。
(4)前述の各形態では、音声のスペクトル包絡を表現する包絡特性データDEの変数について混合処理を実行したが、包絡特性データDE以外の変数について混合処理を実行することも可能である。例えば、音声の明瞭度(brightness, clearness),気息成分の強弱(breathiness),男声/女声の度合(genderfactor),音高の微小変化(pitch-bend)等の変数(すなわち合成音声の表情を規定する変数)について素片データPAと素片データPBとの間で混合処理を実行することも可能である。例えば、合成音声の表情を規定する変数の設定値を音声ライブラリL毎に用意し、各音声ライブラリLの変数の設定値の間で混合比率Rを適用した混合処理を実行する。また、音声ライブラリLの全体的な音量についても音声ライブラリL毎に設定値を用意し、各音声ライブラリLの音量の設定値について混合比率Rを適用した混合処理を実行することも可能である。
(5)前述の各形態では、素片データPAと素片データPBとの間の混合処理に加えて、継続音データSAと継続音データSBとの混合処理を実行する構成を例示したが、継続音データSAと継続音データSBとの混合処理(継続音混合部64)は省略され得る。
(6)携帯電話機等の端末装置と通信するサーバ装置で音声合成装置100を実現することも可能である。指示受付部22は、利用者が端末装置に付与した指示を端末装置から通信網を介して受付け、表示制御部24は、例えば編集画像30の画像データを端末装置に送信することで編集画像30を端末装置の表示装置に表示させる。また、音声合成部28は、音声合成処理で生成した音声信号Vを端末装置に送信する。
(7)前述の各形態では、合成楽曲の歌唱音声の音声信号Vの生成を例示したが、歌唱音声以外の音声(例えば会話音等)の音声信号Vの生成にも本発明を適用することが可能である。したがって、合成情報Qの楽曲情報QMによる音高q1および発音期間q2の指定はは省略され得る。また、前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、英語,スペイン語,中国語,韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。