<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、複数の音声素片を連結する素片接続型の音声合成処理で任意の音声の音声信号Sを生成する。具体的には、第1実施形態の音声合成装置100は、任意の楽曲(以下「合成楽曲」という)の歌唱音声の音声信号Sを生成する信号処理装置であり、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器(例えばマウス等のポインティングデバイスやキーボード)であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、音声信号Sに応じた音響を再生する。音声信号Sをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、音声ライブラリL(LA,LB)と合成情報Qとを記憶する。
音声ライブラリLは、特定の発声者の音声から事前に採取された複数の音声素片P(PA,PB)の集合である。各音声素片Pは、言語的な意味の区別の最小単位である音素(例えば母音や子音)、または、複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。各音声素片Pは、時間領域での音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列として表現される。
図1に例示される通り、第1実施形態の記憶装置12は、複数の音声ライブラリL(LA,LB)を記憶する。音声ライブラリLAは、第1音声から抽出された複数の音声素片PAの集合であり、音声ライブラリLBは、第2音声から抽出された複数の音声素片PBの集合である。第1音声と第2音声とは声質(声色)が相違する。具体的には、第1音声(各音声素片PA)と第2音声(各音声素片PB)とは、相異なる発声者が発声した音声、または、ひとりの発声者が声質を相違させて発声した音声である。
第1実施形態では、図2に例示される通り、合成対象となる音声(以下「合成対象音声」という)の発音内容に対応する音声素片P(PA,PB)が音声ライブラリLAおよび音声ライブラリLBの双方から順次に選択され、音声ライブラリLAから選択された音声素片PAと音声ライブラリLBから選択された音声素片PBとを混合比率Rで混合すること(以下「混合処理」という)で音声素片PSが生成される。混合処理(モーフィング)は、例えば以下の数式(a)で表現される通り、音声素片PAの声質に関する変数pAと音声素片PBの声質に関する変数pBとを混合比率Rに応じて加重加算することで、音声素片PSの声質に関する変数pSを算定する処理である。声質に関する変数としては、音声スペクトルの包絡線を規定する特徴量が例示され得る。
pS=(1−R)・pA+R・pB ……(a)
混合比率Rは、音声ライブラリLA内の音声素片PAと音声ライブラリLB内の音声素片PBとの混合処理における各音声素片Pの優勢度(混合後の音声素片PSに反映される度合)に相当する。具体的には、混合比率Rが最小値(例えば0)である場合には、混合後の音声素片PSは音声素片PAに一致し、混合比率Rが大きいほど音声素片PSに対する音声素片PAの影響が減少し、混合比率Rが最大値(例えば1)である場合には、混合後の音声素片PSは音声素片PBに一致する。以上の説明から理解される通り、音声素片PSの声質は、混合比率Rに応じて音声素片PAと音声素片PBとの中間的な声質に設定され得る。混合処理で順次に生成される音声素片PSを時間軸上で相互に連結することで音声信号Sが生成される。なお、音声素片PAと音声素片PBとの混合処理には、数式(a)以外にも公知の技術が任意に採用され得る。
図1の合成情報Qは、合成対象音声を指定する。図3に例示される通り、第1実施形態の合成情報Qは、楽曲情報QMと制御情報QCとを含んで構成される。楽曲情報QMは、合成楽曲の内容を指定する時系列データであり、合成楽曲を構成する音符毎に音高q1と発音期間q2と音声符号q3とを指定する。音高q1は、例えばMIDI(Musical Instrument Digital Interface)規格に準拠したノートナンバーである。発音期間q2は、例えば発音の開始時刻と継続長(または発音の終了時刻)とで規定される音符の継続長である。音声符号q3は、合成対象音声の発音内容(すなわち合成楽曲の歌詞)を指定する。例えば合成楽曲の歌詞を構成する文字(書記素)や各文字に対応する音素の音素記号が音声符号q3として指定される。
図3の制御情報QCは、音声合成処理に適用される変数の時間変化を指定する。第1実施形態の制御情報QCは、音声素片PAおよび音声素片PBの混合比率Rの時間変化と第1特性変数の時間変化とを指定する。第1特性変数は、合成対象音声の音響特性に関する変数(特徴量)である。第1実施形態では音量Vを第1特性変数として例示する。第1実施形態の制御情報QCは、合成対象音声(合成楽曲)のうち特定の期間(以下「制御期間」という)内の混合比率Rおよび音量Vの時間変化を指定する。
図1の演算処理装置10(CPU)は、記憶装置12に記憶されたプログラムを実行することで、合成情報Qの編集や音声信号Sの生成のための複数の機能(指示受付部22,表示制御部24,情報管理部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。
音声合成部28は、記憶装置12に記憶された音声ライブラリLと合成情報Qとを利用した音声合成処理で音声信号Sを生成する。図4は、音声合成処理のフローチャートである。音声合成処理を開始すると、音声合成部28は、合成情報Qの楽曲情報QMが音符毎に指定する音声符号q3に応じた音声素片P(PA,PB)を音声ライブラリLAおよび音声ライブラリLBの双方から順次に選択する(SA1)。
音声合成部28は、音声ライブラリLAから選択した音声素片PAと音声ライブラリLBから選択した音声素片PBとについて、合成情報Qの制御情報QCが現時点について指定する混合比率Rを適用した混合処理を実行することで音声素片PSを生成する(SA2)。また、音声合成部28は、混合後の音声素片PSの音量を、制御情報QCが現時点について指定する音量Vに調整する(SA3)。そして、音声合成部28は、混合処理(SA2)および音量調整(SA3)で順次に生成される各音声素片PSを、合成情報Qの楽曲情報QMが指定する音高q1および発音期間q2に調整し(SA4)、調整後の各音声素片PSを相互に連結することで音声信号Sを生成する(SA5)。
図1の表示制御部24は、各種の画像を表示装置14に表示させる。第1実施形態の表示制御部24は、合成情報Qが指定する合成楽曲の内容を利用者が確認および編集するための図5の編集画像30を表示装置14に表示させる。図5に例示される通り、編集画像30は、楽譜画像40と変数画像50とを包含する。
楽譜画像40は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面(以下「楽譜領域」という)42を含んで構成され、合成情報Qの楽曲情報QMが指定する合成楽曲の内容を表現する。具体的には、表示制御部24は、合成楽曲の各音符を表象する音符図像44を楽譜領域42に配置する。音高軸の方向における音符図像44の位置は、楽曲情報QMが指定する音高q1に応じて設定され、時間軸の方向における音符図像44の位置および表示長は、楽曲情報QMが指定する発音期間q2に応じて設定される。また、各音符図像44には、楽曲情報QMが指定する音声符号q3が付加される。図5では、音声符号q3が指定する文字(合成楽曲の歌詞)と音素記号とを音符図像44の内側に配置した場合が例示されている。
変数画像50は、時間軸(横軸)が設定された領域(以下「変数領域」という)52を含んで構成され、混合処理(SA2)に適用される混合比率Rの時間変化と音量調整(SA3)に適用される音量Vの時間変化とを表現する。変数領域52の時間軸は楽譜領域42の時間軸と共通する。なお、変数画像50の具体的な内容については後述する。
指示受付部22は、入力装置16に対する操作に応じた利用者からの指示を受付ける。例えば利用者は、編集画像30を確認しながら入力装置16を適宜に操作することで合成情報Qの編集を指示することが可能である。情報管理部26は、記憶装置12に記憶された合成情報Qを管理する。具体的には、情報管理部26は、指示受付部22が利用者から受付けた編集の指示に応じて合成情報Q(楽曲情報QM,制御情報QC)を更新する。
図6は、第1実施形態の音声合成装置100の概略的な動作のフローチャートである。入力装置16に対する利用者からの指示を契機として図6の処理が開始される。処理を開始すると、表示制御部24は、記憶装置12に記憶された合成情報Qに応じた図5の編集画像30を表示装置14に表示させる(SB1)。そして、指示受付部22は、合成情報Qの編集の指示を利用者から受付けたか否かを判定する(SB2)。
合成情報Qの編集の指示を指示受付部22が受付けた場合(SB2:YES)、表示制御部24による編集画像30の更新と情報管理部26による合成情報Qの更新とを含む編集処理が実行される(SB3)。例えば、音符の追加が利用者から指示された場合、表示制御部24は、楽譜領域42内で利用者から指示された位置に音符図像44を追加し、情報管理部26は、利用者から指示された音符の情報(q1〜q3)を合成情報Qの楽曲情報QMに追加する。既存の音符図像44の移動や時間軸上の伸縮が利用者から指示された場合、表示制御部24は、音符図像44の位置や表示長を利用者からの指示に応じて変更し、情報管理部26は、楽曲情報QMのうち編集対象の音符の音高q1や発音期間q2を利用者からの指示に応じて変更する。また、各音符の音声符号q3の変更が利用者から指示された場合、表示制御部24は、当該音符の音声符号q3の表示を利用者からの指示に応じて変更し、情報管理部26は、楽曲情報QMのうち当該音符の音声符号q3を利用者からの指示に応じて変更する。合成情報Qの編集が指示されていない場合(SB2:NO)、編集処理は実行されない。
以上の処理が完了すると、指示受付部22は、音声合成(音声信号Sの生成)の指示を利用者から受付けたか否かを判定する(SB4)。音声合成の指示を指示受付部22が受付けた場合(SB4:YES)、音声合成部28は、音声ライブラリL(LA,LB)と合成情報Qとを適用した図4の音声合成処理を実行することで音声信号Sを生成する(SB5)。他方、音声合成が指示されていない場合(SB4:NO)には音声合成処理は実行されない。また、指示受付部22は、処理終了の指示を利用者から受付けたか否かを判定する(SB6)。処理終了が指示されていない場合(SB6:NO)には、処理がステップSB1に遷移して以降の処理が反復され、処理終了が指示された場合(SB6:YES)には図6の処理が終了する。
利用者は、入力装置16を適宜に操作することで、混合比率Rおよび音量Vの時間変化の編集を指示することが可能である。図7は、混合比率Rおよび音量Vの時間変化の編集の指示を指示受付部22が受付けた場合(SB2:YES)に演算処理装置10が実行する編集処理(SB3)のフローチャートである。
混合比率Rおよび音量Vの編集が指示されると、表示制御部24は、図8に例示される通り、調整画像60を表示装置14に表示させる(SC1)。調整画像60は、合成対象音声(合成楽曲)の制御期間内における混合比率Rの時間変化と音量Vの時間変化とを利用者が編集するための画像である。
調整画像60は、相互に交差する第1軸A1(横軸)と第2軸A2(縦軸)とが設定された調整領域62を包含する。第1軸A1は、音声素片PA(第1音声)と音声素片PB(第2音声)との混合比率Rの数値を示す座標軸であり、第2軸A2は、合成対象音声(混合後の音声素片PS)の音量Vの数値を示す座標軸である。第1軸A1の負側の端部(左端部)に表示された「声色A」は第1音声の声質を意味し、第1軸A1の正側の端部(右端部)に表示された「声色B」は第2音声の声質を意味する。
調整領域62内の各地点は位置に応じて相異なる表示態様(色相や彩度や明度等の視覚的に識別可能な画像の性状)で表示される。実際の調整領域62は多数の色彩を含むカラー画像であるが、特許図面でカラー画像を利用できないという事情から便宜的に、図8では、調整領域62内の色相を図面上の階調の濃淡(グレースケール)で代替的に表現し、調整領域62内の明度(階調)を図面上の網点の粗密で代替的に表現した。具体的には、青色から赤色にわたる色相の分布が低階調から高階調にわたる階調の分布で表現され、暗部から明部にわたる階調の分布が高密度(密)から低密度(疎)への網点の密度で表現される。すなわち、図8から理解される通り、第1実施形態の調整領域62は、第1軸A1の負側(左側)の端部から正側(右側)の端部にかけて赤色(階調:高)から青色(階調:低)に連続的に変化するとともに、第2軸A2の負側から正側にかけて低階調(網点:密)から高階調(網点:疎)に連続的に変化する画像である。
利用者は、図8の楽譜画像40を確認しながら入力装置16を適宜に操作することで、変数領域52の時間軸上に複数の時点T(T1,T2)を任意に指示することが可能である。指示受付部22は、時間軸上の複数の時点T(T1,T2)の指示を利用者から受付ける(SC2)。時点T1は、合成対象音声のうち混合比率Rと音量Vとが変化する制御期間の始点に相当し、時点T2は制御期間の終点に相当する。表示制御部24は、図8に例示される通り、指示受付部22が利用者から受付けた各時点Tを変数領域52内に表示する(SC3)。利用者は、楽譜画像40の複数の音符図像44の時系列を随時に確認しながら、合成楽曲のうち混合比率Rおよび音量Vを変化させるべき箇所が制御期間に包含されるように時点T1と時点T2とを指示する。また、利用者は、入力装置16に対する操作で各時点Tを時間軸の方向に移動させることも可能である。
利用者は、図8の調整画像60を確認しながら入力装置16を適宜に操作することで、変数領域52内の各時点Tに対応する複数の地点(以下「指示点」という)Xを調整領域62内に指示することが可能である。指示受付部22は、調整領域62内の複数の指示点X(X1,X2)の指示を利用者から順次に受付ける(SC4)。表示制御部24は、図8に例示される通り、指示受付部22が指示を受付けた各指示点Xと、相前後して指示された2個の指示点Xを連結する経路Cとを調整領域62内に表示する(SC5)。第1実施形態の経路Cは2個の指示点Xを連結する直線である。なお、経路Cの表示は省略され得る。
1個の指示点Xは、混合比率Rおよび音量Vの各数値に対応した座標点である。すなわち、指示点Xの第1軸A1上の位置が混合比率Rの数値に相当し、指示点Xの第2軸A2上の位置が音量Vの数値に相当する。指示点Xが第1軸A1の正側の端部(声色B)に近付くほど混合比率Rの数値は増加し、指示点Xが第2軸A2の正側の端部に近付くほど音量Vの数値は増加する。
図9は、複数の指示点X(X1,X2)が指定された調整領域62の模式図である。図9では、調整領域62内の表示態様の変化の図示を便宜的に省略した。利用者が指示した指示点X1は、時点T1(制御期間の始点)における混合比率Rおよび音量Vの数値に対応する。すなわち、図9に例示される通り、第1軸A1上で指示点X1に対応する数値r1は時点T1での混合比率Rの数値に相当し、第2軸A2上で指示点X1に対応する数値v1は時点T1での音量Vの数値に相当する。他方、指示点X2は、時点T2(制御期間の終点)における混合比率Rおよび音量Vの数値に対応する。すなわち、図9に例示される通り、第1軸A1上で指示点X2に対応する数値r2は時点T2での混合比率Rの数値に相当し、第2軸A2上で指示点X2に対応する数値v2は時点T2での音量Vの数値に相当する。以上の説明から理解される通り、指示点X1および指示点X2は、時点T1から時点T2にかけて数値r1から数値r2に連続的に遷移する混合比率Rの時間変化と、時点T1から時点T2にかけて数値v1から数値v2に連続的に遷移する音量Vの時間変化とを表現する。
利用者は、入力装置16を適宜に操作することで、調整領域62内の任意の指示点X(以下「選択指示点X」という)を選択し、選択指示点Xに対応する音声の再生を指示することが可能である。選択指示点Xの選択を指示受付部22が受付けると、音声合成部28は、選択指示点Xに対応する混合比率Rと音量Vとを適用した音声合成処理で音声信号Sを生成する。具体的には、音声合成部28は、特定の発音内容(例えば合成情報Qで指定される音声符号q3とは無関係に事前に選定された文字)に対応する音声素片P(PA,PB)を音声ライブラリLAおよび音声ライブラリLBの双方から選択し(SA1)、選択指示点Xに対応する混合比率Rの数値を適用した混合処理(SA2)と、選択指示点Xに対応する音量Vの数値を適用した音量調整(SA3)とを実行することで、所定の音高および発音期間の音声信号Sを生成(SA4,SA5)して放音装置18から再生する。すなわち、利用者は、各指示点Xに対応する混合比率Rおよび音量Vを適用した合成音声を実際に聴取しながら、所望の合成音声が生成されるように調整領域62内の各指示点Xの位置を調整することが可能である。例えば、音声素片PAと音声素片PBとの収録時の音量差に起因した合成音声の音量感の変化(混合比率Rの時間変化に連動した変化)が抑制されるように、音量Vを混合比率Rに応じて調整することが可能である。
表示制御部24は、図8に例示される通り、調整領域62内に指示された各指示点Xに応じた遷移画像54を変数画像50の変数領域52に配置する(SC6)。遷移画像54は、時間軸に沿って延在する帯状の画像であり、時点T1から時点T2にわたる混合比率Rおよび音量Vの時間変化を表現する。第1実施形態の表示制御部24は、遷移画像54の時間軸上の各時点での表示態様が、変数領域52内の時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化するように遷移画像54を生成する。すなわち、遷移画像54のうち時点T1での表示態様は、調整領域62内の指示点X1での表示態様に一致し、遷移画像54のうち時点T2での表示態様は、調整領域62内の指示点X2での表示態様に一致する。また、遷移画像54のうち時点T1と時点T2との間の任意の時点tでの表示態様は、調整領域62内の指示点X1から指示点X2までの経路C上で当該時点tに対応する地点での表示態様に一致する。したがって、利用者は、変数画像50を確認することで、時点T1から時点T2にわたる混合比率Rおよび音量Vの時間変化を視覚的に把握することが可能である。
情報管理部26は、調整画像60および変数画像50の内容が反映されるように合成情報Qの制御情報QCを更新する(SC7)。具体的には、混合比率Rおよび音量Vが、時間軸上の時点T1から時点T2にかけて、指示点X1に対応する数値から指示点X2に対応する数値まで経路Cに沿って遷移するように、制御情報QCが更新される。すなわち、情報管理部26は、時間軸上の時点T1から時点T2にかけて、第1軸A1上で指示点X1に対応する数値r1から指示点X2に対応する数値r2まで混合比率Rが連続的に遷移し、かつ、第2軸A2上で指示点X1に対応する数値v1から指示点X2に対応する数値v2まで音量Vが連続的に遷移するように、制御情報QCを更新する。
以上に説明した通り、第1実施形態では、音声素片PAおよび音声素片PBの混合比率Rを示す第1軸A1と、合成対象音声の音量Vを示す第2軸A2とが設定された調整領域62に、利用者からの指示に応じた各指示点X(X1,X2)が設定される。そして、第1軸A1上で指示点X1に対応する数値r1から指示点X2に対応する数値r2まで遷移する混合比率Rの時間変化と、第2軸A2上で指示点X1に対応する数値v1から指示点X2に対応する数値v2まで遷移する音量Vの時間変化とを指定する制御情報QCが生成される。以上の構成によれば、利用者は、混合比率Rと音量Vとの関係を確認しながら、混合比率Rの時間変化の指示に並行して音量Vの時間変化を指示する(両者の時間変化を一括的に指示する)ことが可能である。したがって、音声合成処理に適用される変数(混合比率Rおよび音量V)を指示する利用者の作業負担を軽減できるという利点がある。
また、第1実施形態では、時間軸上の時点T1から時点T2にかけて混合比率Rおよび音量Vが指示点X1での数値から指示点X2での数値まで遷移するように制御情報QCが生成されるから、合成対象音声(合成楽曲)の特定の期間について限定的に混合比率Rおよび音量Vの時間変化を利用者が指示することが可能である。また、制御期間を画定する時点T1および時点T2は利用者からの指示に応じて可変に設定されるから、合成対象音声のうち利用者の所望の期間について混合比率Rおよび音量Vの時間変化を指示できるという利点もある。
例えば、声色Bの第2音声(音声素片PB)の音量が声色Aの第1音声(音声素片PA)と比較して大きいと仮定し、合成対象音声を第2音声(声色B)から第1音声(声色A)に経時的に変化させる場合を想定する。図10の例示のように第1軸A1の正側(声色B側)に位置する指示点X1と負側(声色A側)に位置する指示点X2とで第2軸A2上の位置が相等しい場合、時点T1から時点T2にかけて音量Vの数値は略一定に維持される。したがって、合成音声の声質が第2音声の声色Bから第1音声の声色Aに遷移する制御期間において、合成音声の音量は、収録時における各音声素片Pの音量差に起因して、制御期間内で経時的に減少する。他方、図9の例示のように第2軸A2上で指示点X2が指示点X1の正側に位置する場合、時点T1から時点T2にかけて音量Vの数値は経時的に増加する。したがって、合成音声の声質が第2音声の声色Bから第1音声の声色Aに遷移する制御期間において、合成音量の音量は制御期間内で略一定に維持される。すなわち、収録時における各音声素片Pの音量差が低減される。
第1実施形態では、調整領域62内の各地点が相異なる表示態様に設定され、時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様に変化する遷移画像54が表示装置14に表示される。したがって、時点T1から時点T2にわたる混合比率Rおよび音量Vの時間変化を利用者が視覚的および直観的に把握できるという利点もある。
なお、以上の例示では、調整領域62内の2個の指示点X(X1,X2)と変数領域52内の2個の時点T(T1,T2)とを例示したが、図11に例示される通り、変数領域52内の3個以上の時点T(T1,T2,T3)と調整領域62内の3個以上の指示点X(X1,X2,X3)とを設定することも可能である。表示制御部24が変数領域52に配置する遷移画像54の表示態様は、時間軸上の時点T1から時点T2にかけて調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化し、かつ、時間軸上の時点T2から時点T3にかけて調整領域62内の指示点X2での表示態様から指示点X3での表示態様まで連続的に変化する。また、情報管理部26は、混合比率Rおよび音量Vが、時点T1から時点T2にかけて指示点X1での数値から指示点X2での数値まで経路C12に沿って遷移するとともに、時点T2から時点T3にかけて指示点X2での数値から指示点X3での数値まで経路C23に沿って遷移するように、制御情報QCを更新する。
<第2実施形態>
本発明の第2実施形態を以下に説明する。以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態における合成情報Qの制御情報QCは、第1実施形態と同様に混合比率Rおよび第1特性変数(音量V)の時間変化を指定するほか、第2特性変数の時間変化を指定する。第2特性変数は、第1特性変数と同様に、合成対象音声の音響特性に関する変数(特徴量)である。第2実施形態では、音量Uを第2特性変数として例示する。音量V(第1特性変数)と音量U(第2特性変数)とは同種の音響特性であるが、音量Vは混合比率Rの時間変化との関連を考慮して調整されるのに対し、音量Uは、合成楽曲の各音符との関連(合成楽曲の進行に連動した音量の時間変化)を考慮して調整される。すなわち、例えば、音声素片PAと音声素片PBとの収録時の音量差に起因した合成音声の音量感の変化(混合比率Rの時間変化に連動した変化)が抑制されるように音量Vを混合比率Rに応じて調整しながら、合成楽曲の進行とともに音楽的な表現として音量Uを変化させることが可能である。
図12は、第2実施形態における編集画像30の模式図である。第2実施形態における変数画像50の変数領域52には、第1実施形態と同様の時間軸と、時間軸に交差する数値軸AY(縦軸)とが設定される。数値軸AYは、音量Uの数値を示す座標軸である。
第2実施形態の変数画像50は、混合比率Rおよび音量Vの時間変化を第1実施形態と同様に遷移画像54の表示態様(色相や明度等)で表現するほか、制御情報QCが指定する音量Uの時間変化を遷移画像54の形状で表現する。具体的には、遷移画像54の上縁に位置する外形線56で音量Uの時間変化が表現される。図12では、遷移画像54の外形線56を、音量Uの時間変化を表現する折線とした場合が例示されている。遷移画像54の外形線56のうち時間軸上の任意の時点tでの1点に対応する数値軸AY上の数値が、当該時点tにおける音量Uの数値を意味する。
利用者は、入力装置16を適宜に操作することで遷移画像54の外形線56の編集(変形)を指示することが可能である。表示制御部24は、指示受付部22が利用者から受付けた指示に応じて遷移画像54の外形線56を変形し、情報管理部26は、合成情報Qの制御情報QCが指定する音量Uの時間変化を利用者からの指示に応じて更新する。具体的には、情報管理部26は、音量Uの時間変化を、表示制御部24による変形後の外形線56で表現される時間変化に更新する。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、混合比率Rおよび音量Vの時間変化が遷移画像54の表示態様(色相や明度等)で表現されるほか、合成楽曲内の音量Uの時間変化が遷移画像54の形状で表現される。したがって、例えば音量Uの時間変化を遷移画像54とは別個に表示する構成と比較して簡素な表示で、混合比率Rおよび音量Vに加えて音量Uの時間変化を利用者が確認できるという利点がある。
<第3実施形態>
図13は、第3実施形態における編集画像30の模式図である。第1実施形態では、楽譜領域42とは別個の変数領域52に配置された遷移画像54で混合比率Rおよび音量Vの時間変化を表現した。第3実施形態では、楽譜領域42内に配置された音符図像44を利用して混合比率Rおよび音量Vの時間変化を表現する。調整画像60の内容は第1実施形態と同様である。
図13から理解される通り、第3実施形態の表示制御部24は、制御期間内の各音符図像44の表示態様が、時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化するように、各音符図像44の表示態様を制御する。例えば、楽譜領域42内の複数の音符図像44のうち時点T1を含む音符の音符図像44における当該時点T1での表示態様は、調整領域62内の指示点X1での表示態様に一致する。同様に、時点T2を含む音符の音符図像44における当該時点T2での表示態様は、調整領域62内の指示点X2での表示態様に一致する。また、時間軸上の任意の時点tを含む音符の音符図像44における当該時点tでの表示態様は、調整領域62のうち指示点X1から指示点X2までの経路C上で当該時点tに対応した地点の表示態様に設定される。
他方、変数画像50の変数領域52には、第2実施形態と同様に時間軸と数値軸AY(縦軸)とが設定され、制御情報QCが指定する音量Uの時間変化を表現する遷移線58が表示される。図13の遷移線58は、音量Uの時間変化を表現する折線であり、第2実施形態における遷移画像54の外形線56に相当する。なお、変数画像50を省略することも可能である。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、楽譜領域42内に配置された音符図像44の表示態様に応じて混合比率Rおよび音量Vの時間変化が表現されるから、混合比率Rおよび音量Vの時間変化と合成楽曲の各音符との関係を利用者が容易に把握できるという利点がある。
<第4実施形態>
図14は、第4実施形態における編集画像30の模式図である。図14に例示される通り、第4実施形態の楽譜領域42には、合成楽曲の各音符を表象する音符図像44と、各音符図像44に対応する補助図像46が配置される。相対応する音符図像44と補助図像46とは、相互に近接した位置(すなわち、音符図像44と補助図像46との対応関係を利用者が判別可能な位置)に配置される。補助図像46の時間軸上の表示長は、当該補助図像46に対応する音符図像44と共通する。
第3実施形態では楽譜領域42内の各音符図像44を利用して混合比率Rおよび音量Vの時間変化を表現したが、第4実施形態では、音符図像44とは別個の各補助図像46を混合比率Rおよび音量Vの時間変化の表現に利用する。すなわち、補助図像46は、音符図像44が表象する音符に関連する変数(混合比率R,音量V)の表示を補助する図像として位置付けられる。なお、調整画像60の内容は第1実施形態と同様である。また、変数画像50の変数領域52には、第2実施形態と同様に、制御情報QCが指定する音量Uの時間変化を表現する遷移線58が表示される。変数画像50を省略することも可能である。
図14から理解される通り、第3実施形態の表示制御部24は、制御期間内の各補助図像46の表示態様が、時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化するように、各補助図像46の表示態様を制御する。例えば、時点T1を含む音符の補助図像46における当該時点T1の表示態様は、調整領域62内の指示点X1での表示態様に一致し、時点T2を含む音符の補助図像46における当該時点T2の表示態様は、調整領域62内の指示点X2での表示態様に一致する。また、時間軸上の任意の時点tを含む音符の補助図像46における当該時点tでの表示態様は、調整領域62のうち指示点X1から指示点X2までの経路C上で当該時点tに対応した地点の表示態様に設定される。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、楽譜領域42内の各音符図像44に対応する補助図像46の表示態様に応じて混合比率Rおよび音量Vの時間変化が表現されるから、第3実施形態と同様に、混合比率Rおよび音量Vの時間変化と合成楽曲の各音符との関係を利用者が容易に把握できるという利点がある。
なお、混合比率Rおよび音量Vの表示に音符図像44を利用する第3実施形態では、第4実施形態の補助図像46が不要であるから、第4実施形態と比較して楽譜画像40の内容が簡素化される(表示要素の総数が削減される)という利点がある。他方、音符図像44とは別個の補助図像46を混合比率Rおよび音量Vの表示に利用する第4実施形態では、音符図像44の表示態様を混合比率Rや音量Vの時間変化とは無関係に選定でき(音符図像44の表示態様の選定の自由度が高い)、例えば各音符図像44に付加された音声符号q3の視認性を維持できるという利点がある。
<第5実施形態>
第1実施形態から第4実施形態では2種類の音声(第1音声,第2音声)の混合処理を例示したが、声質が相違する3種類以上の音声の音声素片Pを混合する混合処理も想定され得る。3種類以上の音声の音声素片Pを混合する場面で混合比率Rの時間変化を調整する場合、各音声の比率を利用者が総合的に考慮しながら混合比率Rを決定する必要があり、利用者の作業負担が大きいという問題がある。第5実施形態は、3種類以上の音声の混合比率Rの時間変化を調整する利用者の作業負担を軽減するための形態である。
図15は、第5実施形態における混合処理の説明図である。図15に例示される通り、第5実施形態の記憶装置12には、3個の音声ライブラリL(LA,LB,LC)が記憶される。音声ライブラリLCは、音声ライブラリLAの第1音声や音声ライブラリLBの第2音声とは声質(声色)が相違する第3音声から抽出された複数の音声素片PCの集合である。音声合成部28が実行する混合処理(SA3)では、音声ライブラリLAから選択された音声素片PAと音声ライブラリLBから選択された音声素片PBと音声ライブラリLCから選択された音声素片PCとが混合比率Rのもとで混合される。第5実施形態の混合比率Rは、第1音声の比率(加重値)λAと第2音声の比率λBと第3音声の比率λCとを包含する。混合処理は、例えば以下の数式(b)で表現される通り、音声素片PAの変数pAと音声素片PBの変数pBと音声素片PCの変数pCとを混合比率R(λA,λB,λC)に応じて加重加算することで、合成後の音声素片PSの声質に関する変数pSを算定する処理である。比率λAと比率λBと比率λCとの合計値は例えば1である。
pS=λA・pA+λB・pB+λC・pC ……(b)
以上の説明から理解される通り、音声素片PSの声質は、混合比率Rに応じて音声素片PAと音声素片PBと音声素片PCとの中間的な声質に設定され得る。混合処理で順次に生成される音声素片PSを時間軸上で相互に連結して音声信号Sを生成する動作は第1実施形態と同様である。合成情報Qの制御情報QCは、混合処理に適用される混合比率R(λA,λB,λC)の時間変化を指定する。第5実施形態では音量Vの時間変化は省略される。なお、第5実施形態の混合処理には、数式(b)以外にも公知の技術が任意に採用され得る。
図16は、第5実施形態における編集画像30の模式図である。第5実施形態の編集画像30は、第1実施形態と同様の楽譜画像40と、混合比率Rの時間変化を調整するための調整画像60および変数画像50とを含んで構成される。第5実施形態の調整画像60は、音声合成処理に利用される各音声に対応する基準点G(GA,GB,GC)が相互に離間して設定された調整領域62を包含する。基準点GA(声色A)は第1音声(音声素片PA)に対応し、基準点GB(声色B)は第2音声(音声素片PB)に対応し、基準点GC(声色C)は第3音声(音声素片PC)に対応する。
調整領域62内の各地点は位置に応じて相異なる表示態様で表示される。実際の調整領域62は多色の色彩を含むカラー画像であるが、図16では便宜的に、調整領域62内の色相を図面上の階調の濃淡(グレースケール)で代替的に表現した。具体的には、調整領域62の中心の周囲に青色と青色と緑色と赤色とにわたる連続的な色相の分布を波長順に配色した画像が調整領域62として好適である。
第1実施形態と同様に、指示受付部22は、変数領域52の時間軸上の複数の時点T(T1,T2,T3)の指示を利用者から受付け(SC2)、表示制御部24は、各時点Tを変数領域52内に表示する(SC3)。また、指示受付部22は、調整領域62の複数の指示点X(X1,X2,X3)の指示を利用者から受付け(SC4)、表示制御部24は、指示受付部22が受付けた各指示点Xと、相前後して指示された2個の指示点Xを連結する経路C(C12,C23)とを調整領域62内に表示する(SC5)。
第5実施形態の1個の指示点Xは、混合比率R(λA,λB,λC)の各数値に対応した座標点である。具体的には、指示点Xが1個の基準点Gに近いほど、当該基準点Gに対応する音声の比率λ(λA,λB,λC)が大きい数値となるように、調整領域62内における指示点Xの位置に応じて混合比率Rの各比率λの数値が決定される。指示点Xの位置と各比率λの数値との関係の具体例を以下に列挙する。
図17は、第5実施形態の調整領域62の模式図である。図17では、調整領域62内の各地点での表示態様の相違の図示を便宜的に省略した。図17における指示点の各位置σ(σ1,σ2,σ3,σ4,……)と、当該位置σの指示点Xに対応する各比率λの相対比(λA:λB:λC)との関係は、例えば以下の通りである。
(1)位置σ1(基準点GA) λA:λB:λC=10: 0: 0
(2)位置σ2(基準点GB) λA:λB:λC= 0:10: 0
(3)位置σ3(基準点GC) λA:λB:λC= 0: 0:10
(4)位置σ4 λA:λB:λC= 0:10:10
(5)位置σ5 λA:λB:λC= 5: 5: 0
(6)位置σ6 λA:λB:λC= 5: 0: 5
(7)位置σ7 λA:λB:λC=10: 5: 5
なお、指示点Xと混合比率R(各比率λ)との関係は以上の例示に限定されない。例えば、各音声の基準点Gから指示点Xまでの距離と当該基準点Gに対応する音声の比率λとが反比例するように、調整領域62内の指示点Xの位置に応じて各比率λの数値を決定することも可能である。
表示制御部24は、第1実施形態と同様に、調整領域62内に指示された各指示点Xに応じた遷移画像54を変数画像50の変数領域52に配置する(SC6)。具体的には、図16から理解される通り、遷移画像54の表示態様は、時間軸上の時点T1から時点T2にかけて、調整領域62内の指示点X1での表示態様から指示点X2での表示態様まで連続的に変化するとともに、時間軸上の時点T2から時点T3にかけて、調整領域62内の指示点X2での表示態様から指示点X3での表示態様まで連続的に変化する。
情報管理部26は、混合比率Rの各比率λが、調整領域62内の各指示点Xでの数値に応じて経時的に遷移するように、合成情報Qの制御情報QCを更新する(SC7)。具体的には、混合比率R(各比率λ)が、時点T1から時点T2にかけて、調整領域62内の指示点X1に対応する数値から指示点X2に対応する数値まで、経路C12に沿って遷移するとともに、時点T2から時点T3にかけて、調整領域62内の指示点X2に対応する数値から指示点X3に対応する数値まで、経路C23に沿って遷移するように、制御情報QCが更新される。
以上に説明した通り、第5実施形態では、混合処理に適用される各音声に対応する基準点G(GA,GB,GC)が設定された調整領域62に、利用者からの指示に応じた指示点X(X1,X2,X3)が設定され、各指示点Xの間にわたる混合比率R(λA,λB,λC)の時間変化が制御情報QCにて指定される。以上の構成によれば、利用者は、混合処理に適用される各音声の相互的な関係(各音声の比率λの関係)を調整領域62で視覚的に確認しながら混合比率Rの時間変化を指示することが可能である。したがって、混合比率Rの時間変化を調整する利用者の作業負担が軽減されるという利点がある。
なお、第5実施形態でも、第2実施形態と同様に、制御情報QCが指定する音量Uの時間変化を遷移画像54の形状(外形線56の形状)で表現する構成が採用され得る。また、第3実施形態と同様に、調整領域62内の各指示点Xの間の表示態様の変化を、楽譜領域42内の各音符図像44の表示態様に応じて表現する構成や、第4実施形態と同様に、調整領域62内の各指示点Xの間の表示態様の変化を、楽譜領域42内の各補助図像46の表示態様に応じて表現する構成も、第5実施形態に採用され得る。
<第6実施形態>
図18は、第6実施形態の表示制御部24が表示装置14に表示させる調整画像60の模式図である。第6実施形態の調整画像60は、相互に交差する第1軸A1(横軸)と第2軸A2(縦軸)とが設定された調整領域62を包含する。第1軸A1と第2軸A2とは、相異なる種類の特性変数の数値を示す座標軸である。特性変数は、合成対象音声の音響特性に関する変数であり、音声合成部28による音声合成処理に適用される。例えば音声の明瞭度(brightness, clearness),気息成分の強弱(breathiness),男声/女声の度合(genderfactor),音高の微小変化(pitch-bend),音量(dynamics),発音の強弱(velocity)等の変数が特性変数として例示され得る。第1軸A1は、以上の例示から選択された第1特性変数の数値を示す座標軸であり、第2軸A2は、第1特性変数とは別種の第2特性変数の数値を示す座標軸である。
調整領域62内の各地点が位置に応じて相異なる表示態様で表示される点や、調整領域62内に利用者からの指示に応じて複数の指示点Xが設定される点は第1実施形態と同様である。また、第1実施形態と同様に、変数画像50の変数領域52には、利用者からの指示に応じた複数の時点Tが設定され、調整領域62内の各指示点Xの間と同様に時間軸上の各時点T間で表示態様が変化する遷移画像54が配置される。
合成情報Qの制御情報QCは、第1特性変数および第2特性変数の時間変化を指定する。情報管理部26は、第1特性変数および第2特性変数の数値が、調整領域62内の各指示点Xでの数値に応じて経時的に遷移するように、制御情報QCを更新する。具体的には、第1特性変数の数値が、時点T1から時点T2にかけて、第1軸A1上で指示点X1に対応する数値から指示点X2に対応する数値まで連続的に遷移するとともに、第2特性変数の数値が、時点T1から時点T2にかけて、第2軸A2上で指示点X1に対応する数値から指示点X2に対応する数値まで連続的に遷移するように、制御情報QCが更新される。
以上に説明した通り、第6実施形態では、第1特性変数の第1軸A1と第2特性変数の第2軸A2とが設定された調整領域62に、利用者からの指示に応じた指示点X(X1,X2)が設定され、指示点X1に対応する数値から指示点X2に対応する数値まで遷移するように第1特性変数および第2特性変数の時間変化が設定される。以上の構成によれば、利用者は、第1特性変数と第2特性変数との関係を確認しながら両者の時間変化を指示することが可能である。したがって、音声合成処理に適用される特性変数を指示する利用者の作業負担を軽減できるという利点がある。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の各形態では、調整領域62内の各指示点Xを直線の経路Cで連結したが、経路Cは直線に限定されない。例えば、図19に例示される通り、3個の指示点X(X1,X2,X3)に応じた補間曲線を経路Cとして設定する構成や、図20に例示される通り、各指示点X間で利用者が任意に指定した曲線(自由曲線)を経路Cとして設定する構成が採用され得る。
(2)前述の各形態では、調整領域62内の各地点の位置に応じて明度や色相を相違させたが、調整領域62内の各地点の位置に応じて相違させる表示態様は明度や色相に限定されない。例えば、図21に例示される通り、網掛やハッチング等のパターン(塗潰しパターン)を調整領域62内の各地点の位置に応じて相違させることも可能である。また、前述の各形態では調整領域62をカラー画像としたが、調整領域62を白黒画像として、調整領域62内の各地点の位置に応じて明度(階調)を相違させることも可能である。
(3)第1実施形態から第4実施形態では、混合比率Rとともに調整される第1特性変数として音量Vを例示したが、第1特性変数は音量Vに限定されない。また、第2実施形態では、遷移画像54の形状で時間変化が表現される第2特性変数として音量Uを例示したが、第2特性変数は音量Uに限定されない。例えば、第6実施形態で例示した通り、音声の明瞭度,気息成分の強弱,男声/女声の度合,音高の微小変化等を、第1実施形態から第4実施形態の第1特性変数や第2実施形態の第2特性変数として選択することも可能である。
(4)前述の各形態では、時点T1から時点T2にわたる変数の時間変化に着目したが、例えば合成対象音声(合成楽曲)の全区間にわたる変数の時間変化を調整する場合にも本発明は同様に適用され得る。すなわち、変数の時間変化が調整される期間を合成対象音声の特定の期間(制御期間)に限定する構成は必須ではない。したがって、利用者による各時点Tの指示は省略され得る。また、時間軸上の各時点Tを利用者からの指示に応じて設定する構成は必須ではない。具体的には、利用者からの指示を要件としない所定の方法で合成対象音声(合成楽曲)に各時点Tを設定することも可能である。例えば、合成楽曲の歌唱区間(例えばフレーズ)を公知の方法で検出し、歌唱区間の始点および終点を各時点Tに設定すれば、歌唱区間の前方と後方とで歌唱音声の声質を相違させることが可能である。
(5)第5実施形態では、調整領域62の隅部に基準点Gを設定したが、図22に例示される通り、調整領域62の内部に基準点G(GA,GB,GC)を設定することも可能である。図22の例示では、各基準点Gを頂点とする三角形状の領域68が調整領域62の内側に画定される。また、図22の例示のように、各基準点Gで画定される領域68の内側および外側に指示点Xが設定され得る構成では、領域68の内側と外側とで混合処理の内容を相違させることも可能である。
例えば、図22の例示の通り、指示点X1が領域68の内側に位置するとともに指示点X2が領域68の外側に位置する場合を想定する。音声合成部28は、時点T1から時点T2までの期間のうち経路C12上で領域68の内側の区間に対応する各時点tでは、第5実施形態の例示と同様に、全部(3種類)の音声の音声素片P(PA,PB,PC)を混合比率Rのもとで混合する。他方、時点T1から時点T2までの期間のうち経路C12上で領域68の外側の区間に対応する各時点tでは、指示点X2に近い2個の基準点G(GA,GC)に対応する音声素片P(PA,PC)を混合比率Rのもとで混合する。図22の例示では、指示点X2および指示点X3は何れも領域68の外側に位置するから、時点T2から時点T3までの期間では、音声素片PAと音声素片PCとが混合比率Rのもとで混合される。
(6)第5実施形態では、3種類の音声(第1音声,第2音声,第3音声)の混合を例示したが、混合対象となる音声の種類数は任意であり、例えば4種類以上の音声を混合することも可能である。図23は、5種類の音声を混合する場合の調整領域62の模式図である。図23に例示される通り、各音声に対応する5個の基準点G(GA,GB,GC,GD,GE)が円形状の調整領域62の円周上に設定される。
(7)前述の各形態では、合成情報Qの管理(表示制御部24および情報管理部26)と音声信号Sの生成(音声合成部28)との双方を実行する音声合成装置100を例示したが、合成情報Qを管理する音声合成管理装置としても本発明は特定され得る。音声合成管理装置では音声合成部28の有無は不問である。また、携帯電話機等の端末装置と通信するサーバ装置で音声合成装置100や音声合成管理装置を実現することも可能である。指示受付部22は、利用者が端末装置に付与した指示を端末装置から通信網を介して受付け、表示制御部24は、例えば編集画像30の画像データを端末装置に送信することで編集画像30を端末装置の表示装置に表示させる。また、音声合成部28は、音声合成処理で生成した音声信号Sを端末装置に送信する。
(8)前述の各形態では、合成楽曲の歌唱音声の音声信号Sの生成を例示したが、歌唱音声以外の音声(例えば会話音等)の音声信号Sの生成にも本発明を適用することが可能である。したがって、合成情報Qの楽曲情報QM(音高q1,発音期間q2)は省略され得る。また、前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、英語,スペイン語,中国語,韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。