<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。第1実施形態の音声合成装置100は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲(以下「合成楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置である。第1実施形態では、利用者から受付けた指示に応じて、時間軸上において相前後する音素同士の相互の位置関係が調整された音声信号Vを生成する。
図1に例示される通り、音声合成装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器(例えばマウス等のポインティングデバイスやキーボード)であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、音声信号Vに応じた音響を再生する。
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、以下に例示する通り、音声素片群Lと合成情報Sとを記憶する。
音声素片群Lは、特定の発声者の収録音声から事前に採取された複数の音声素片Pの集合(音声合成用ライブラリ)である。図5に例示される通り、第1実施形態における音声素片群Lは、音素pAと音素pBとを連結した音素連鎖(ダイフォン)を含む。音素(後方音素)pBは、音素(前方音素)pAの後方に位置する。各音声素片Pは、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。なお、以下の説明では、無音を便宜的に1個の音素と位置付けて記号“Sil”で表記する。
第1実施形態の音声素片群Lには、2個の音素の組合せ毎に、各音素の位置関係を相違させた複数種の音声素片Pが記憶される。例えば、音素pAと音素pBとの特定の組合せに対応する音声素片については、音素pAと音素pBとの間隔が標準的な基準値に設定された音声素片P(以降「標準素片P0」という)のほか、音素pAと音素pBとの間隔が基準値を上回る(すなわち音素pAと音素pBとが標準素片P0と比較して離間した)音声素片P(以降「離間型素片P1」という)と、音素pAと音素pBとの間隔が基準値を下回る(すなわち音素pAと音素pBとが標準素片P0と比較して近接した)音声素片P(以降「近接型素片P2」という)とが音声素片群Lに包含される。ただし、2個の音素の全通りの組合せについて音素間の位置関係が相違する複数種の音声素片(離間型素片P1,近接型素片P2)が事前に用意されるわけではなく、標準素片P0以外の音声素片(離間型素片P1,近接型素片P2)が音声素片群Lに用意されていない2音素の組合せも存在する。
合成情報Sは、図2に例示される通り、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に音高(例えばノートナンバー)X1と発音期間X2と音声符号X3とを時系列に指定する。発音期間X2は、音符の時間長(音価)であり、例えば発音の開始時刻T1と時間長(継続長)T2とで規定される。なお、発音期間X2を発音の開始時刻T1と終了時刻とで規定する構成(両時刻間の時間長が時間長T2として算定され得る構成)も好適である。以上の説明から理解される通り、合成情報Sは、合成楽曲の楽譜を指定する時系列データとも換言され得る。音声符号X3は、合成対象の音声の発音内容(すなわち合成楽曲の歌詞)を指定する。具体的には、音声符号X3は、合成楽曲の1個の音符について発音される音声単位(例えば音節やモーラ)を指定する情報であり、当該音声単位に対応する発音文字QAと、当該音声単位を構成する各音素の音素記号QBとを含んで構成される。発音文字QAは、合成楽曲の歌詞を構成する文字(書記素)に相当する。また、第1実施形態では、利用者から受け付けられた指示に応じて、複数の音素の時系列のうち任意の音素(第1音素)の直後に、当該音素と、当該音素の直後の音素(第2音素)との位置関係を規定する音素間情報QCが付加される。音素間情報QCは、具体的には、第1音素と第2音素との時間軸上における離間または近接を規定する。
図1の演算処理装置10(CPU)は、記憶装置12に格納されたプログラムを実行することで、合成情報Sの編集や音声信号Vの生成のための複数の機能(指示受付部22,表示制御部24,情報管理部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。指示受付部22と表示制御部24と情報管理部26とは、例えば楽曲編集用のソフトウェア(エディタ)で実現され、音声合成部28は、例えば音声合成用のソフトウェア(音声合成エンジン)で実現される。ただし、演算処理装置10の各機能と各機能を実現するソフトウェアの切分けとの関係は以上の例示に限定されない。
指示受付部22は、入力装置16に対する操作に応じた利用者からの指示を受付ける。表示制御部24は、各種の画像を表示装置14に表示させる。具体的には、第1実施形態の表示制御部24は、合成情報Sが指定する合成楽曲の内容を利用者が確認するための図4の編集画面40を表示装置14に表示させる。編集画面40は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面である。
表示制御部24は、合成情報Sが指定する音符毎に音符図像42と発音文字QAと音素記号QBとを編集画面40に時系列に配置する。図4は、図3に示される楽曲の“I wanted to see”という歌詞(文字列)の各音声単位“I”,“wan-”,“ted”,“to”,“see”を音声符号X3として5個の音符に割当てた編集画面40を例示している。なお、図の例では、複数の文字列に対応する音声符号X3を1つの音符に割当てているが、1つの文字に対応する音声符号X3を1つの音符に割当てる構成としてもよい。音符図像42は、合成楽曲の各音符を表象する画像である。具体的には、音高軸の方向における音符図像42の位置は、合成情報Sが指定する音高X1に応じて設定される。また、時間軸の方向における音符図像42の位置は、合成情報Sが指定する発音期間X2の開始時刻T1に応じて設定され、時間軸の方向における音符図像42の表示長(サイズ)は、合成情報Sが指定する発音期間X2の時間長T2に応じて設定される。すなわち、時間長T2が長い音符ほど音符図像42の時間軸上の表示長は長い。発音文字QAおよび音素記号QBは音符図像42の内部に配置される。以上の説明から理解される通り、編集画面40は、合成楽曲の歌詞(発音内容)に対応した発音文字QAと各音素の音素記号QBとを時系列に配置した画像である。なお、発音文字QAや音素記号QBの位置は適宜に変更される。例えば、発音文字QAおよび音素記号QBの一方または双方を音符図像42の近傍(外側)に配置することも可能である。また、発音文字QAの表示を省略した構成や、音素記号QBの表示を省略した構成も採用され得る。
利用者は、図4の編集画面40を確認しながら入力装置16を適宜に操作することで、音符図像42の追加または移動や発音文字QAの追加または変更を指示することが可能である。また、利用者は入力装置16を適宜に操作することで、編集画面40に表示された複数の音素記号QBの時系列のうち、任意の音素(第1音素)の音素記号QBと、当該音素の直後の音素(第2音素)の音素記号QBとの間に、第1音素と第2音素との時間軸上における位置関係を指示することが可能である。
図1の情報管理部26は、編集画面40に対する利用者からの指示に応じて合成情報Sを編集する。例えば、情報管理部26は、音高軸の方向における音符図像42の移動の指示に応じて、合成情報Sのうち当該音符図像42に対応する音符の音高X1を変更する。また、情報管理部26は、時間軸の方向における音符図像42の位置に応じて、合成情報Sのうち当該音符図像42に対応する音符の発音期間X2の開始時刻T1を変更し、音符図像42の時間軸上の表示長に応じて、合成情報Sのうち当該音符図像42に対応する音符の発音期間X2の時間長T2を変更する。すなわち、音符図像42の表示長を変更する指示は、発音期間X2の時間長T2を変更する指示に相当する。任意の音符の発音文字QAが変更された場合、情報管理部26は、合成情報Sのうち当該音符に対応する発音文字QAを変更するとともに当該音符の各音素記号QBを変更後の発音文字QAに応じて更新する。また、情報管理部26は、第1音素と第2音素との時間軸上における位置関係が、利用者から受付けた指示に応じた位置関係となるように、第1音素の音素記号QBの直後に、利用者の指示に応じた位置関係を示す音素間情報QCを追加する。
図1の音声合成部28は、記憶装置12に記憶された音声素片群Lと合成情報Sとを利用して音声信号Vを生成する。具体的には、音声合成部28は、合成情報Sが指定する音符毎の音声符号X3に応じた音声素片Pを音声素片群Lから順次に選択し、各音声素片Pを音高X1および発音期間X2に調整して相互に連結することで歌唱音声の音声信号Vを生成する。音声合成部28が生成した音声信号Vが放音装置18に供給されることで、合成楽曲の歌唱音声が再生される。
図6は、第1実施形態に係る音声合成装置100の概略的な動作のフローチャートである。例えば合成情報Sの編集が利用者から指示された場合に図6の処理が開始される。演算処理装置10(表示制御部24,情報管理部26)は、合成情報Sに応じた編集画面40を表示装置14に表示させ(SA1)、指示受付部22が利用者から受付ける指示に応じて合成情報Sを編集するとともに、編集内容に応じて編集画面40を更新する編集処理SA2を実行する。編集処理SA2を実行すると、演算処理装置10は、音声合成が利用者から指示されたか否かを判定し(SA3)、音声合成が指示された場合(SA3:YES)には、合成情報Sで指定される歌唱音声の音声信号Vを生成する音声合成処理SA4を実行する。音声合成が指示されない場合(SA3:NO)には音声合成処理SA4は実行されない。
演算処理装置10は、処理終了が利用者から指示されたか否かを判定する(SA5)。処理終了が指示されていない場合(SA5:NO)、演算処理装置10は編集処理SA2を実行する。他方、処理終了が指示された場合(SA5:YES)、演算処理装置10は図6の処理を終了する。
利用者は、編集画面40のうち所望の音声符号X3が包含される音符の音符図像42を対象として、音声符号X3に包含される第1音素の音素記号QBの直後に、第1音素と第2音素とを時間軸上で離間または近接させる旨を指示することが可能である。図7は、図6の編集処理SA2のうち第1音素と第2音素とを離間または近接させる指示が利用者から受付けられた場合に実行される処理のフローチャートである。指示受付部22が音素間の離間または近接の指示を受付けた場合、表示制御部24は、編集画面40の第1音素の音素記号QBの直後に接続指示子Cを表示させる(SB1)。情報管理部26は、離間指示子CSまたは近接指示子CCに応じて第1音素[n]と第2音素[t]とが時間軸上において離間または接近するように、離間または近接を規定する音素間情報QCを合成情報Sに追加する(SB2)。表示制御部24および情報管理部26による処理の具体例を以下に詳述する。
<相前後する音素同士の離間>
図8は、接続指示子の一態様の説明図(図4の一部の再掲)である。利用者は、入力装置16を適宜に操作することで、編集画面40に表示された複数の音素記号QBの時系列のうち相前後する任意の各音素記号QBに対応する各音素を時間軸上で離間させる指示を付与することが可能である。例えば、利用者は、任意の1個の音素記号QBを選択したうえで、当該音素記号QBの音素(第1音素)と直後の音素(第2音素)との離間を指示し得る。図8では、“wan-”の音声符号X3に包含される音素[n](第1音素)と、“ted”の音声符号X3に包含される[t](第2音素)とを時間軸上で離間させる指示を、指示受付部22が利用者から受付けた場合が想定されている。以上の指示が受付けられると、表示制御部24は、編集画面40上における第1音素[n]の音素記号QBの直後に、第1音素と第2音素との時間軸上における離間を表象する離間指示子(ドット『.』)CSを接続指示子Cとして表示させる。また、情報管理部26は、離間指示子CSに応じて、第1音素[n]の直後に第1音素[n]と第2音素[t]との時間軸上における離間を規定する音素間情報QCを追加する。以上の説明から理解される通り、第1実施形態では、複数の音素記号QBの時系列と、利用者からの指示に応じた接続指示子C(離間指示子CS)とが編集画面40上に表示されるから、利用者は、合成楽曲の歌詞に包含される複数の音素を確認しながら、第1音素[n]と第2音素[t]との連続性の度合を調整(離間)することが可能である。
なお、離間指示子CSの表示態様は任意である。例えば図8に例示した記号以外に、任意の文字列や任意の画像等を離間指示子CSとして表示させる態様も採用され得る。また、以上の説明では、第1音素[n]を包含する“wan-”の音声符号X3と、第2音素[t]を包含する“ted”の音声符号X3とは別個の音符図像42に対応していたが、第1音素と第2音素とが1つの音符区間(音符図像42)に包含される構成も採用され得る。例えば、図14に例示するように、第1音素[t]と、第2音素[I]との間に、接続指示子Cを表示させる構成としてもよい。
<相前後する音素同士の近接>
図9は、接続指示子の一態様の説明図(図4の一部の再掲)である。図9では、“wan-”の音声符号X3に包含される音素[n](第1音素)と、“ted”の音声符号X3に包含される[t](第2音素)とを時間軸上で近接させる指示を、指示受付部22が利用者から受付けた場合が想定されている。以上の指示が受付けられると、表示制御部24は、編集画面40上における第1音素[n]の音素記号QBの直後に、第1音素と第2音素との時間軸上における離間を表象する近接指示子(ハイフン『-』およびバックスラッシュ『\』)CCを接続指示子Cとして表示させる。また、情報管理部26は、近接指示子CCに応じて、第1音素[n]の直後に第1音素[n]と第2音素[t]との時間軸上における近接を規定する音素間情報QCを追加する。以上の説明から理解される通り、第1実施形態では、複数の音素記号QBの時系列と、利用者からの指示に応じた接続指示子C(近接指示子CC)とが編集画面40上に表示されるから、利用者は合成楽曲の歌詞に包含される複数の音素を確認しながら、第1音素[n]と第2音素[t]との連続性の度合を調整(接近)することが可能である。なお、近接指示子CCの表示態様は、図9に例示した記号以外に、任意の文字列や任意の画像等が採用され得る。
図10は、音声合成部28が音声合成処理SA4で生成する音声信号Vの波形図である。具体的には、図4に例示した内容の合成情報Sのもとで生成された音声信号Vの波形が図10では例示されている。図10に矩形上で囲まれた部分は、音声素片群Lのうち、音素[n]および音素[t]を包含する区間を示している。以下の説明では、音素[n]と音素[t]との間隔に特に着目する。
図11は、図6に例示した音声合成処理SA4の具体例のフローチャートである。音声合成処理SA4を開始すると、音声合成部28は、合成情報Sが音符毎に指定する各音声符号X3に応じた選択対象の音声素片のうち前方の音素について音素間情報QCが付加されているか否かを判定する(SC1)。音素間情報QCが付加されていない場合(SC1:NO)、音声合成部28は、音声符号X3に応じた標準素片P0を音声素片群Lから選択する(SC2)。他方、音素間情報QCが付加されている場合(SC1:YES)、音声合成部28は、音素間情報QCが離間/近接のいずれを規定するかを判定する(SC3)。
例えば、図8に例示されるように、離間を規定する音素間情報QCが設定されている場合(SC3:離間)、音声合成部28は、第1音素[n]と第2音素[t]との間隔が基準値よりも離間した離間型の[n.t]の音声素片P(離間型素片P1)が音声素片群Lに存在するか否かを判定する(SC4)。音声素片群Lに離間型素片P1が存在する場合(SC4:YES)、音声合成部28は音声素片群Lから離間型素片P1を選択する(SC5)。他方、音声素片群Lに離間型素片P1が存在しない場合(SC4:NO)、音声合成部28は、第1音素[n]と第2音素[t]との間隔が基準値に設定された[n-t]の音声素片P(標準素片P0)を音声素片群Lから選択し、標準素片P0における第1音素[n]と第2音素[t]との間隔を伸張する(SC6)。具体的には、図12に例示されるように、第1音素[n]の終了から第2音素[t]の開始までの間隔DをD1(D1>D)に伸長する。間隔D1は、例えば初期的な間隔Dに対して所定の比率(>1)を乗算した時間長である。
他方、図9に例示されるように、近接を規定する音素間情報QCが設定されている場合(SC3:近接)、音声合成部28は、第1音素[n]と第2音素[t]との間隔が基準値よりも近接した近接型の[n-\t]の音声素片P(近接型素片P2)が音声素片群Lに存在するか否かを判定する(SC7)。音声素片群Lに、近接型素片P2が存在する場合(SC7:YES)、音声合成部28は近接型素片P2を選択する(SC8)。他方、音声素片群Lに近接型素片P2が存在しない場合(SC7:NO)、音声合成部28は、標準素片P0を音声素片群Lから選択し、標準素片P0における第1音素[n]と第2音素[t]との間隔を短縮する(SC9)。具体的には、図13に例示されるように、第1音素[n]の終了から第2音素[t]の開始までの間隔DをD2(D2<D)に短縮する。間隔D2は、例えば初期的な間隔Dに対して所定の比率(<1)を乗算した時間長である。
音声合成部28は、以上に説明した各処理(SC2,SC5,SC6,SC8,SC9)で選択または伸縮した音声素片Pを、合成情報Sが指定する音高X1および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する(SC10)。音声合成部28は、合成情報Sに包含される全部の音素を処理したか否かを判定し(SC11)、処理が完了していない場合(SC11:NO)には、処理をステップSC1に移行し、合成情報Sが指定する他の音素について同様の処理を実行する。他方、処理が完了した場合(SC11:YES)、音声合成部28は音声合成処理SA4を終了する。
以上に説明した通り、第1実施形態では、利用者からの指示に応じて、複数の音素記号QBの時系列と、音声符号X3に包含される第1音素[n]と第2音素[t]との離間または近接を規定する接続指示子C(離間指示子CSまたは近接指示子CC)を表示させる。したがって、利用者は、時系列に配置される複数の音素(音素記号QB)を編集画面40上で視覚的かつ直感的に確認しながら、第1音素[n]と第2音素[t]との連続性の度合を調整(離間または接近)することができる。第1実施形態によれば、利用者は自らの意図や嗜好に沿った個性的ないし特徴的な表情の音声を合成することが可能になるとともに、前後の各音素が極端に近接または離間した聴感的に不自然ないし不明瞭な音声が合成される事態を回避することができるという利点がある。
また、第1実施形態では、第1音素と第2音素との間隔が基準値以上である離間型素片P1([n.t]の音声素片P1)、または、第1音素と第2音素との間隔が基準値以下である近接型素片P2([n-\t]の音声素片P2)が音声素片群Lに存在しない場合に、既存の標準素片P0([n-t]の音声素片)における第1音素[n]と第2音素[t]との間隔(区間D)を伸縮する。したがって、2個の音素の全通りの組合せについて、各音素の位置関係を相違させた複数種の音声素片(離間型素片P1,近接型素片P2)を記憶する必要がないから、記憶装置12の記憶容量を削減できるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。第1実施形態では、接続指示子C(離間指示子CS,近接指示子CC)に応じて、第1音素と第2音素とを離間または接近させる構成を例示した。第2実施形態では、第1音素と第2音素との離間または近接の程度を示す指標値の指示を利用者から受付け、第1音素と第2音素とを指標値に応じて離間または近接させる。
図15は、編集処理SA2のうち、第1音素と第2音素とを離間または近接させる指示と、指標値とが利用者から受付けられた場合に実行される処理の具体例のフローチャートである。第2実施形態の編集処理SA2では、第1実施形態の編集処理SA2におけるSB2の処理がSD1およびSD2の処理に置き換えられる。指示受付部22が音素間の離間または近接の指示に続いて指標値の指示を受付けた場合、表示制御部24は、編集画面40の第1音素の音素記号QBの直後の接続指示子Cの近傍に、離間または近接の程度を示す指標値Iを表示させる(SD1)。情報管理部26は、接続指示子C(離間指示子CSまたは近接指示子CC)と指標値Iとに応じて第1音素[n]と第2音素[t]とが時間軸上において離間または接近するように、離間または近接、および、指標値Iを規定する音素間情報QCを合成情報Sに追加する(SD2)。第2実施形態における表示制御部24および情報管理部26による処理の具体例を以下に詳述する。
図16は、接続指示子Cおよび指標値Iの表示例の説明図である。利用者は、入力装置16を適宜操作することで、編集画面40に表示された複数の音素記号QBの時系列のうち相前後する各音素記号QBに対応する各音素の時間軸上における離間または近接の程度を規定する指標値Iを指示することが可能である。例えば、利用者は任意の1個の音素記号QBを選択したうえで、当該音素記号QBの音素(第1音素)と直後の音素(第2音素)との離間または近接の程度を示す指標値を指示し得る。指標値は、第1音素と第2音素との離間(近接)の程度を0から100までの範囲で相対的に規定する整数である。なお、指標値Iの数値と離間の程度との対応関係は任意に定められる。例えば、指標値Iが最大値(100)の場合(すなわち、離間の程度が最大である場合)は、離間指示子CSのみが指示された場合と同程度に第1音素と第2音素とを時間軸上で離間させる。他方、指標値Iが最小値(0)の場合(すなわち、離間の程度が最小である場合)は、近接指示子CCのみが指示された場合と同程度に第1音素と第2音素とを時間軸上で近接させる。図16では、“wan-”の音声符号X3に包含される音素[n](第1音素)と、“ted”の音声符号X3に包含される[t](第2音素)とを時間軸上で離間させる指示と、指標値I(80)とを指示受付部22が利用者から受付けた場合が想定されている。以上の指示が受付けられると、表示制御部24は、編集画面40上における第1音素[n]の音素記号QBの直後に、第1音素と第2音素との時間軸上における離間を表象する離間指示子CSを接続指示子Cとして表示させるとともに、指標値I(80)を離間指示子CSの直後に表示させる。また、情報管理部26は、離間指示子CSと指標値I(80)とに応じて、第1音素[n]の直後に第1音素[n]と第2音素[t]との時間軸上における離間と、離間の程度(指標値I)とを規定する音素間情報QCを追加する。以上の説明から理解される通り、第2実施形態では、複数の音素記号QBの時系列と、利用者からの指示に応じた接続指示子C(離間指示子CS)と、指標値Iとが編集画面40上に表示されるから、利用者は、合成楽曲の歌詞に包含される複数の音素と、相前後する音素間の間隔を確認しながら、第1音素[n]と第2音素[t]との連続性の度合を調整(離間)することが可能である。
図17は、第2実施形態における音声合成処理SA4の具体例のフローチャートである。第2実施形態の音声合成処理SA4では、第1実施形態の音声合成処理SA4におけるSC4からSC9の処理が、SE1およびSE2の処理の処理に置き換えられる。離間を規定する音素間情報QCが設定されている場合(SC3:離間)、音声合成部28は、音声符号X3に対応する標準素片P0と離間型素片P1とを音声素片群Lから選択するとともに、指標値Iに応じて標準素片P0と離間型素片P1とを融合する(SE1)。
図18は、第2実施形態における音声素片の融合の説明図である。音声素片群Lから[n-t]の標準素片P0と[n.t]の離間型素片P1とを選択すると、音声合成部28は、[n.t]の離間型素片P1と[n-t]の標準素片P0とを、指標値I(80)に応じた比率で融合する。具体的には、離間型素片P1が指標値(80)に応じた割合となるように、離間型素片P1と標準素片P0とを8:2の比率で融合して、[n・(80)t]の音声素片P3を生成する。以上の説明から理解されるように、指標値Iは、第1音素[n]と第2音素[t]の離間の程度を、離間型素片P1と標準素片P0との融合における離間型素片P1の割合(80/100)の形で規定する。図18に例示されるように、音声素片P3における第1音素[n]の終了から第2音素[t]の開始までの間隔D3は、離間型素片P1における音素間の間隔D1と標準素片P0における音素間の間隔Dとの間の範囲内で指標値Iに応じた時間長に設定される。
図17に戻り、近接を規定する音素間情報QCが設定されている場合(SC3:近接)、音声合成部28は、標準素片P0と近接型素片P2とを音声素片群Lから選択し、指標値Iに応じて標準素片P0と近接型素片P2とを融合する(SE2)。標準素片P0と近接型素片P2との合成については図示を省略したが、例えば、指標値I(80)が指示された場合には、図18の例と同様に近接型素片P2が指標値I(80)に応じた割合となるように、近接型素片P2と標準素片P0とを8:2の比率で融合することで[n-\(80)t]の音声素片Pを生成する。音声合成部28は、以上に説明した各処理(SC2,SE1,SE2)で選択または生成した音声素片Pを、合成情報Sが指定する音高X1および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する(SC10)。以降の処理については第1実施形態と同様であるので説明を省略する。
以上に説明した通り、第2実施形態では利用者からの指示に応じて、複数の音素記号QBの時系列と、接続指示子C(離間指示子CSまたは近接指示子CC)と、離間または近接の程度を規定する指標値Iとを表示させる。したがって、利用者は、時系列に配置される複数の音素(音素記号QB)を編集画面40上で視覚的かつ直感的に確認しながら、第1音素[n]と、第2音素[t]との連続性の度合を指標値Iに応じて細かに調整(離間または接近)することが可能である。具体的には、利用者が自らの意図や嗜好に沿った個性的ないし特徴的な表情の音声を合成することが可能になるという効果や、前後の各音素が極端に近接または離間した聴感的に不自然ないし不明瞭な音声が合成される事態を回避することができるという効果は、第2実施形態において顕著である。
<第3実施形態>
本発明の第3実施形態を以下に説明する。第2実施形態では、第1音素と第2音素との離間または近接の程度を規定する指標値を利用者が数値で指示する構成を例示した。第3実施形態では、複数の音素記号QBの時系列と操作指示子(スライダー)とを編集画面40に表示させ、操作指示子の操作量に応じて第1音素と第2音素との離間の程度を示す指標値を設定する。
図19は、編集処理SA2のうち、操作指示子を表示させる指示が利用者から受付けられた場合に実行される処理の具体例のフローチャートである。第3実施形態の表示制御部24は、音声符号X3に包含される第1音素の音素記号QBを包含する音符図像42のうち発音期間の終点に対応する縁辺の線上に操作指示子44を表示させる(SF1)。指示受付部22は、利用者から操作指示子44を介して操作を受付けるまで待機し(SF2:NO)、利用者から操作指示子44を介して離間の程度を指示する操作を受付けた場合(SF2:YES)、情報管理部26は、操作指示子44の操作量Mに応じて第1音素[n]と第2音素[t]とが時間軸上において離間するように、操作量Mを規定する音素間情報QCを合成情報Sに追加する(SF3)。第3実施形態における表示制御部24および情報管理部26による処理の具体例を以下に詳述する。
図20は、操作指示子44の表示例の説明図である。操作指示子44は、編集画面40における第1音素[n]を包含する音声符号X3に対応した音符図像42のうち、発音期間の終点に対応する縁辺の線上に配置されている。利用者は、当該縁辺に沿って(すなわち音高軸の方向に)、操作指示子44を当該音符図像42の上辺から下辺までの範囲内で移動させることが可能である。なお、操作指示子44の操作量Mと離間の程度との対応関係は任意に定められる。第3実施形態では、操作指示子44が初期的に配置される音符図像42の上辺上の地点Oを起点として、起点0から音高軸下方向への操作量Mが大きくなるほど、離間の程度が大きくなるように構成している。利用者は、操作指示子44を、起点Oから音高軸下方向にスライドさせる操作により、第1音素[n]と第2音素[t]との時間軸上における離間と離間の程度とを、一度の操作で指示することが可能である。図20では、“wan-”の音素記号QBに包含される音素[n](第1音素)と、“ted”の音素記号QBに包含される音素[t](第2音素)とを操作量M(40)に応じた程度だけ離間させる指示が付与された場合が想定されている。以上の指示が受付けられると、表示制御部24は、操作量Mに応じて、第1音素[n]を包含する音符図像42に、発音期間の終点に対応する縁辺上の一点と、上辺上の一点とを結ぶ直線とで規定される切欠きが形成されるように音符図像42の形状を変化させる。図20から理解される通り、操作量Mの増加に連動して切欠きが大きくなる。
利用者からの指示が受付けられると、情報管理部26は、操作量Mに応じた指標値Iを音素間情報QCに追加する。第3実施形態の指標値Iは、第1音素と第2音素との離間の程度を0から100までの範囲で相対的に規定する整数である。例えば、指標値Iが最大値(100)の場合(すなわち、離間の程度が最大である場合)は、離間指示子CSのみが指示された場合と同程度に第1音素と第2音素とを時間軸上で離間させる。他方、指標値Iが最小値(0)の場合(すなわち、離間の程度が最小である場合)には第1音素と第2音素との時間軸上における位置関係の調整を行わない。他方、指標値Iが最小値を上回り最大値を下回るとき(指標値I:0<I<100)、当該指標値Iに応じて、第1音素と第2音素とを時間軸上で離間させる。
図21は、第3実施形態の音声合成処理SA4のフローチャートである。第3実施形態の音声合成処理SA4では、第2実施形態の音声合成処理SA4におけるSC3,SE1,SE2の処理が、SG1からSG3の処理に置き換えられる。音声合成部28は、音素間情報QCが規定する指標値Iが最大値(100)および最小値(0)のいずれかに該当するか否かを判定する(SG1)。指標値Iが最大値(I=100)である場合は、音声合成部28によって離間型素片P1が選択される。他方、指標値Iが最小値(I=0)である場合には、音声合成部28によって標準素片P0が選択される。指標値Iが最大値および最小値のいずれにも該当しない場合[指標値I:0<I<100)](SG1:NO)、音声合成部28は、離間型素片P1と標準素片P0とを音声素片群Lから選択し、指標値Iに応じた比率で離間型素片P1と標準素片P0とを融合する。図20に例示されるように、操作量M(40)に応じて指標値I=40に設定された場合、音声合成部28は、離間型素片P1の割合が指標値Iに応じた割合となるように、離間型素片P1と標準素片P0とをP1:P0=4:6の割合で融合する(SG2)。音声合成部28は、SC2,SG2,SG3で選択または生成した音声素片を、合成情報Sが指定する音高X1および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する(SC10)。以降の処理については前述した第1実施形態と同様であるので説明を省略する。
以上に説明した通り、第3実施形態では、操作指示子44を移動させる操作により指標値Iを指示することが可能である。したがって、指標値Iを数値で指定する第2実施形態と比較して、利用者は直感的かつ容易に指標値Iを指示できるという利点がある。
なお、第3実施形態では、編集画面40における第1音素[n]を包含する音声符号X3に対応した音符図像42のうち、発音期間の終点に対応する縁辺の線上に操作指示子44を配置し、当該音符図像42の上辺から下辺までの範囲内で移動させる場合を例示したが、図22の点線で囲む領域に例示されるように、相前後する各音符図像42の境界の近傍を拡大表示して、利用者が操作指示子44を移動させる操作を補助することも可能である。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)第3実施形態では、利用者による操作指示子44の操作量Mに応じて第1音素[n]と、第2音素[t]との離間の程度を指示する構成を例示した。以上の構成に、操作量Mを規定する目盛を付加した構成も採用され得る。具体的には、図23に例示されるように、操作指示子44の近傍に目盛46を表示させる態様としてもよい。上述した態様では、利用者が離間の程度を視認しやすいという利点がある。
(2)第3実施形態では、操作指示子44の可動範囲を第1音素を包含する音符図像42の上辺から下辺までの範囲内とし、操作量Mに応じた指標値I(離間の程度)を0から100の範囲の整数で規定する構成を例示したが、操作指示子44の可動範囲は、第1音素を包含する音符図像42の領域外(音符図像42の下辺よりも音高軸方向において下方や、音符図像42の上辺よりも音高軸方向において上方)であってもよい。
例えば、図24に例示される通り、操作指示子44が、第1音素を包含する音符図像42の下辺よりも音高軸方向において下方にわたって操作された場合に、指標値Iを、100を上回る数値(I>100)に設定してもよい。指標値Iが100以上であるときに、第1音素と第2音素との離間の程度が極めて高くなるように(すなわち、前後する音素間の間隔が離間型素片P1における第1音素と第2音素との間隔よりも離間するように)第1音素と第2音素との位置関係が調整される。図24は、操作指示子44が第1音素[n]を包含する音符図像42の下辺よりも下方にわたって操作され、操作量Mに応じた指標値Iは150に設定された場合を想定している。以上のように音素間の離間の度合が充分に大きい場合、音声合成部28は、標準素片P0における第1音素[n]と第2音素[t]との間に無音の音素“Sil”を挿入した[n Sil t]の音声素片Pを生成し、[n Sil t]の音声素片Pと、[n-t]の標準素片P0とを合成して指標値I(150)に応じた音声素片を生成する。
同様に、図25に例示される通り、操作指示子44が、第1音素を包含する音符図像42の上辺よりも音高軸方向において上方にわたって操作された場合に、操作量Mに応じて指標値Iを負数(I<0)と定めてもよい。指標値Iが負数であるときに、第1音素と第2音素との近接の程度が極めて高くなるように第1音素と第2音素との位置関係が調整される。図25では、各音声単位“got”,“up”のうち、“gh Q t”の各音素記号QBに包含される音素[t]を第1音素とし、“V p”の音素記号QBに包含される音素[V]を第2音素としたときに、操作指示子44が第1音素[t]を包含する音符図像42の上辺よりも音高軸方向において上方にわたって操作され、操作量Mに応じた指標値Iが-100に設定された場合を想定している。以上のように音素間の近接の度合が充分に大きい場合、音声合成部28は、第1音素[t]と第2音素[V]との時間軸上における間隔が、近接型素片P2における第1音素と第2音素との間隔よりも接近するように、第1音素[t]と第2音素[V]との時間軸上における間隔を近接させる。ここで、第1音素[t]は破裂音であるから、音声合成部28は、第1音素[t]と第2音素[V]との時間軸上における間隔を近接させるように、[t-V]の音声素片Pと、[Q-V]の音声素片Pとの中間的な音声素片を生成する。以上の構成によれば、“go up(gh Q V p)”というように音素の脱落(同化)が発生する口語的な発音を実現することが可能である。なお、以上の構成に、指標値I(-100)に特定の音声素片を割当てる構成や、所定の合成比率を割り当てる構成を付加した構成も採用され得る。
(3)図26に例示される通り、操作指示子44の操作を、第1音素を包含する音符図像42の領域外においても許容する構成にあっては、操作指示子44が第1音素の音符図像42の上辺よりも音高軸方向において上方に操作された場合に、第1音素[t]を包含する音符図像42と第2音素[V]を包含する“V p”の音符図像42との境界線を音高軸に対して傾斜させる構成も採用される。図26は、操作指示子44が第1音素[t]を包含する音符図像42の上辺よりも音高軸方向において上方に操作され、指標値Iが負数(I<0)に定められた場合を想定している。以上の構成では、指標値Iの正負に応じて各音符図像42の境界線の角度が変更される(指標値Iが負数であることが強調表示される)から、指標値Iの正負を利用者が直観的に把握できるという利点がある。
(4)第3実施形態では、操作指示子44の音高軸方向における操作量Mに応じて第1音素と第2音素との離間の程度を指示する構成を例示した。このほかにも、操作指示子44の時間軸方向における操作量Mに応じて合成音の特性(音量,音色,抑揚等)を指示する構成も採用され得る。例えば、図27および図28に例示されるように、音高軸方向における操作指示子44の操作量M1に応じて第1音素と第2音素との位置関係を調整し、かつ、時間軸方向における操作指示子44の操作量M2に応じて各音素の特性を制御することが可能である。利用者は、時間軸上に時系列に配置される複数の音素(音声符号X3)を視覚的かつ直感的に確認しながら、第1音素と第2音素との位置関係や、合成音声の特性を一度の操作により指示することが可能である。
図29に例示されるように、編集画面40で指定した合成音声の特性を示す制御変数の時間変化を、制御変数指定画面70に対する操作で利用者が任意に指定できる構成(以下「対比例」という)が従来から提案されている。対比例では、任意の音符図像42を移動させて各音符の発音期間X2(発音時刻や継続長)を変更した場合でも制御変数の時間変化自体は変化しないから、移動後の音符について変更前と同様の特性を付与するには、発音期間X2の変更に整合するように制御変数の時間変化を利用者が修正する必要があった。これに対し、操作指示子44の時間軸方向における操作量M2に応じて合成音の特性(音量,音色,抑揚等)を指示する前述の構成では、各音符図像42毎に操作指示子44を操作することで音符毎に特性が制御され、音符図像42が時間軸方向や音高軸方向に移動された場合でも当該音符の特性を維持することが可能である。すなわち、利用者は各音符の特性を再調整する必要がない。したがって、利用者の操作が簡略化されるという利点がある。なお、第1音素および第2音素のいずれか一方を包含する音符図像42が時間軸方向や音高軸方向に移動された場合でも、音符毎の特性を維持することが可能である。
(5)図30の例示のように、相前後する音符を僅かに離間させる一方でフレーズの全体としては滑らかに発音する音楽の表現方法(メゾスタッカート)が知られている。各音符の発音期間X2を音符図像42の時間軸方向の長さの調整のみで指定する従来の構成のもとでメゾスタッカートの歌唱音声を再現するには、各音符図像が適度な間隔で配列するように各音符図像42の時間軸上の長さを利用者が個々に調整する必要がある。前述の各形態によれば、音符図像42の時間軸上の長さとは独立に各音素の位置関係(離間/近接)を指示できるから、音符図像42については相互間の間隔を考慮せずに楽譜通りに指定したうえで、各音素の間隔を接続指示子Cの付与や操作指示子44の操作で調整することで、図30に例示したメゾスタッカートのような微妙な表現を再現することが可能である。
(6)前述の各形態では、編集画面40に表示される音符図像42の内部に、発音文字QAおよび音素記号QBを配置し、第1音素[n]の音素記号QBの直後に、接続指示子C(離間指示子CSまたは近接指示子CC)を表示させる構成を例示したが、音素記号QBの表示を省略した構成も採用され得る。音素記号QBの表示が省略される構成では、例えば第1音素に相当する発音文字QAの直後に、利用者の指示に応じた接続指示子Cや指標値Iが表示される。
(7)前述の各形態では、指標値Iは、第1音素と第2音素との離間(近接)の程度を0から100までの範囲で相対的に規定する整数とした構成を例示したが、上述した構成と比較して指標値Iの範囲が狭い構成(例えば0.0〜1.0)や、上述した構成と比較して指標値Iの範囲が広い構成(例えば0〜300)も採用され得る。これらの構成以外にも、指標値Iの範囲を0を基準値とした相対値(-2.0〜2.0)で規定する構成も採用され得る。
(8)前述の各形態では、音声素片Pを利用した素片接続型の音声合成処理SA4を例示したが、編集処理SA2で生成された合成情報Sを適用した音声合成には公知の技術が任意に採用される。例えば、隠れマルコフモデル(HMM: Hidden Markov Model)等の確率モデルを利用して、合成情報Sで指定された合成楽曲の歌唱音声を合成することも可能である。例えば、音声合成部28は、合成情報Sの音高X1および発音期間X2に応じて音高の時間遷移(ピッチカーブ)を算定するとともに当該時間遷移で音高が変化する基礎信号(例えば声帯の発声音を表す正弦波信号)を生成し、編集処理SA2の実行後の合成情報Sが指定する音声符号X3に応じたフィルタ処理(例えば口腔内での共鳴を近似するフィルタ処理)を基礎信号に対して実行することで音声信号Vを生成する。
(9)前述の各形態では、2個の音素を連結した音声素片P(ダイフォン)を例示したが、3個以上の音素を連結した音声素片Pを利用することも可能である。3個以上の音素を連結した音声素片Pでは、1個の音声素片Pの先頭の音素が前述の各形態の音素pAに相当し、1個の音声素片Pの末尾の音素が前述の各形態の音素pBに相当する。
(10)前述の各形態では、音声素片群Lと合成情報Sとを記憶する記憶装置12を音声合成装置100に搭載したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が音声素片群Lや合成情報Sを記憶する構成も採用される。音声合成装置100は、例えば通信網を介して音声素片群Lまたは合成情報Sを取得して編集処理SA2や音声合成処理SA4を実行する。以上の説明から理解される通り、音声素片群Lや合成情報Sを記憶する要素は音声合成装置100の必須の要素ではない。
(11)前述の各形態では、合成楽曲の歌唱音声の音声信号Vの生成を例示したが、歌唱音声以外の音声(例えば会話音等)の音声信号Vの生成にも本発明を適用することが可能である。したがって、歌唱音声の合成に好適な音高X1は合成情報Sから省略され得る。以上の説明から理解される通り、以上の各態様に例示した合成情報Sは、合成対象となる音声の発音内容を指定する情報として包括的に表現される。なお、音声変化の有無を音素毎に個別に制御する必要性は、歌唱音声を合成する場面で特に顕在化するから、本発明は、歌唱音声の合成に格別に好適である。
(12)前述の各形態では、英語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、日本語、スペイン語、中国語、韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。