<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。第1実施形態の音声合成装置100は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲(以下「合成楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置である。複数の音素を連続して発音する場合に前後の音素の影響で各音素が変化する現象(音声変化)を再現した音声信号Vが生成される。第1実施形態では、同化や連結等を包含する種々の音声変化のうち、特定の音素の発音が省略される脱落を再現した音声信号Vの生成を例示する。
図1に例示される通り、音声合成装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器(例えばマウス等のポインティングデバイスやキーボード)であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、音声信号Vに応じた音響を再生する。
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、以下に例示する通り、音声素片群Lと合成情報Sと条件情報Cとを記憶する。
音声素片群Lは、特定の発声者の収録音声から事前に採取された複数の音声素片Pの集合(音声合成用ライブラリ)である。図2に例示される通り、第1実施形態における1個の音声素片Pは、音素pAと音素pBとを連結した音素連鎖(ダイフォン)である。音素(後方音素)pBは、音素(前方音素)pAの後方に位置する。各音声素片Pは、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。図2に例示される通り、各音声素片Pには、音素pAと音素pBとの境界を指定する境界情報Bが付加される。なお、以下の説明では、無音を便宜的に1個の音素と位置付けて記号“Sil”で表記する。
合成情報Sは、図3に例示される通り、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に音高(例えばノートナンバー)X1と発音期間X2と音声符号X3とを時系列に指定する。発音期間X2は、音符の時間長(音価)であり、例えば発音の開始時刻T1と時間長(継続長)T2とで規定される。なお、発音期間X2を発音の開始時刻T1と終了時刻とで規定する構成(両時刻間の時間長が時間長T2として算定され得る構成)も好適である。以上の説明から理解される通り、合成情報Sは、合成楽曲の楽譜を指定する時系列データとも換言され得る。音声符号X3は、合成対象の音声の発音内容(すなわち合成楽曲の歌詞)を指定する。具体的には、音声符号X3は、合成楽曲の1個の音符について発音される音声単位(例えば音節やモーラ)を指定する情報であり、当該音声単位に対応する発音文字QAと、当該音声単位を構成する各音素の音素記号QBとを含んで構成される。発音文字QAは、合成楽曲の歌詞を構成する文字(書記素)に相当する。
条件情報Cは、音声変化(第1実施形態では脱落)の発生条件(以下「音声変化条件」という)を指定する。例えば、音声単位内の第2番目以降の音素であること(音声単位内の最初の音素ではないこと)や、相前後する各音素が共通または類似すること(例えば前掲の例示における“good guy”の発音の場合)等の複数の条件(規則)が、脱落の音声変化条件として条件情報Cで指定される。
図1の演算処理装置10(CPU)は、記憶装置12に格納されたプログラムを実行することで、合成情報Sの編集や音声信号Vの生成のための複数の機能(指示受付部22,表示制御部24,情報管理部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。
指示受付部22は、入力装置16に対する操作に応じた利用者からの指示を受付ける。表示制御部24は、各種の画像を表示装置14に表示させる。具体的には、第1実施形態の表示制御部24は、合成情報Sが指定する合成楽曲の内容を利用者が確認するための図4の編集画面40を表示装置14に表示させる。編集画面40は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面である。
表示制御部24は、合成情報Sが指定する音符毎に音符図像42と発音文字QAと音素記号QBとを編集画面40に配置する。音符図像42は、合成楽曲の各音符を表象する画像である。具体的には、音高軸の方向における音符図像42の位置は、合成情報Sが指定する音高X1に応じて設定される。また、時間軸の方向における音符図像42の位置は、合成情報Sが指定する発音期間X2の開始時刻T1に応じて設定され、時間軸の方向における音符図像42の表示長(サイズ)は、合成情報Sが指定する発音期間X2の時間長T2に応じて設定される。すなわち、時間長T2が長い音符ほど音符図像42の時間軸上の表示長は長い。発音文字QAは音符図像42の先頭の近傍に配置され、音素記号QBは音符図像42の内部に配置される。以上の説明から理解される通り、編集画面40は、合成楽曲の歌詞(発音内容)に対応した発音文字QAと各音素の音素記号QBとを時系列に配置した画像である。なお、発音文字QAや音素記号QBの位置は適宜に変更される。例えば、発音文字QAを音素記号QBとともに音符図像42の内部に配置することも可能である。また、発音文字QAの表示は省略され得る。
利用者は、図4の編集画面40を確認しながら入力装置16を適宜に操作することで、音符図像42の追加または移動や発音文字QAの追加または変更を指示することが可能である。また、利用者は、入力装置16を適宜に操作することで、時間軸の方向における各音符図像42の表示長を変更することが可能である。表示制御部24は、指示受付部22が利用者から受付けた指示に応じて編集画面40(音符図像42や発音文字QA)を更新する。
図1の情報管理部26は、編集画面40に対する利用者からの指示に応じて合成情報Sを編集する。例えば、情報管理部26は、音高軸の方向における音符図像42の移動の指示に応じて、合成情報Sのうち当該音符図像42に対応する音符の音高X1を変更する。また、情報管理部26は、時間軸の方向における音符図像42の位置に応じて、合成情報Sのうち当該音符図像42に対応する音符の発音期間X2の開始時刻T1を変更し、音符図像42の時間軸上の表示長に応じて、合成情報Sのうち当該音符図像42に対応する音符の発音期間X2の時間長T2を変更する。すなわち、音符図像42の表示長を変更する指示は、発音期間X2の時間長T2を変更する指示に相当する。また、任意の音符の発音文字QAが変更された場合、情報管理部26は、合成情報Sのうち当該音符に対応する発音文字QAを変更するとともに当該音符の各音素記号QBを変更後の発音文字QAに応じて更新する。
音声合成部28は、記憶装置12に記憶された音声素片群Lと合成情報Sとを利用して音声信号Vを生成する。具体的には、音声合成部28は、合成情報Sが指定する音符毎の音声符号X3(発音文字QAおよび音素記号QB)に応じた音声素片Pを音声素片群Lから順次に選択し、各音声素片Pを、合成情報Sが指定する音高X1および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する。音声合成部28が生成した音声信号Vが放音装置18に供給されることで合成楽曲の歌唱音声が再生される。
図5は、第1実施形態に係る音声合成装置100の概略的な動作のフローチャートである。例えば合成情報Sの編集が利用者から指示された場合に図5の処理が開始される。演算処理装置10(表示制御部24,情報管理部26)は、指示受付部22が利用者から受付ける指示に応じて合成情報Sを編集する編集処理SA1を実行する。編集処理SA1を実行すると、演算処理装置10は、音声合成が利用者から指示されたか否かを判定し(SA2)、音声合成が指示された場合(SA2:YES)には、合成情報Sで指定される歌唱音声の音声信号Vを生成する音声合成処理SA3を実行する。音声合成が指示されない場合(SA2:NO)には音声合成処理SA3は実行されない。
演算処理装置10は、処理終了が利用者から指示されたか否かを判定する(SA4)。処理終了が指示されていない場合(SA4:NO)、演算処理装置10は編集処理SA1を実行する。他方、処理終了が指示された場合(SA4:YES)、演算処理装置10は図5の処理を終了する。
図6は、編集処理SA1の具体例のフローチャートである。編集処理SA1を開始すると、表示制御部24は、図7に例示される通り、合成情報Sに応じた編集画面40を表示装置14に表示させる(SB1)。図7では、“あした(ashita)”という文字列の各音声単位(音節)が音声符号X3として3個の音符に割当てられた場合が例示されている。
図7に破線の矢印で図示される通り、利用者は、編集画面40内の所望の音符(以下「選択音符」という)の音符図像42を対象として時間軸の方向の表示長を変更することで、選択音符の発音期間X2の時間長T2を変更することが可能である。表示制御部24は、選択音符の発音期間X2の時間長T2の変更指示を指示受付部22が受付けたか否かを判定する(SB2)。時間長T2の変更指示を受付けていない場合(SB2:NO)、指示受付部22が利用者から受付けた他の指示に応じて、表示制御部24による編集画面40の更新と情報管理部26による合成情報Sの更新とが実行される(SB3)。
他方、発音期間X2の時間長T2の変更指示を指示受付部22が受付けた場合(SB2:YES)、表示制御部24は、選択音符の音符図像42の時間軸上の表示長を変更する(SB4)。すなわち、音符図像42を時間軸の方向に伸縮する。また、情報管理部26は、合成情報Sのうち選択音符の発音期間X2の時間長T2を音符図像42の表示長の変更(音符図像42の伸縮)に応じて変更する(SB5)。具体的には、情報管理部26は、音符図像42が時間軸の方向に伸長された場合には選択音符の発音期間X2の時間長T2を増加させ、音符図像42が時間軸の方向に短縮された場合には選択音符の発音期間X2の時間長T2を減少させる。
情報管理部26は、選択音符の変更後の発音期間X2の時間長T2が所定の閾値TREFを下回るか否かを判定する(SB6)。閾値TREFは、例えば合成楽曲の所定の音価(例えば4分音符の1個分の時間長)として指定される。なお、ステップSB6の判定は、音符図像42の変更後の表示長が所定の閾値を下回るか否かを判定する処理と同視され得る。時間長T2が閾値TREFを下回る場合(SB6:YES)、情報管理部26は、選択音符の音声符号X3に対応する何れかの音素が、記憶装置12内の条件情報Cで指定される脱落の音声変化条件を充足するか否かを判定する(SB7)。
複数の音素が連続的に素早く発音された場合(各音素の発音期間が短い場合)には当該音素について脱落等の音声変化が発生し易いという傾向がある。以上の傾向を考慮して、第1実施形態の演算処理装置10(表示制御部24,情報管理部26)は、発音期間X2の時間長T2が所定の閾値TREFを下回る選択音符内の音素が音声変化条件を充足する場合に(SB7:YES)、当該音素について音声変化を発生させる(SB8,SB9)。
具体的には、表示制御部24は、図8に例示される通り、選択音符の複数の音素のうち音声変化条件を充足する音素(以下「特定音素」という)の音素記号QBの表示態様を、初期的な態様(以下「通常状態」という)から、通常状態とは相違する表示態様(以下「変化状態」という)に変更する(SB8)。変化状態は、特定音素の脱落を視覚的に判別可能な表示態様である。図8では、音素[i]の音素記号QBに取消線(脱落を連想させる記号)を付加した場合が例示されている。したがって、利用者は、特定音素の音素記号QBを表示態様の変更後にも視覚的に把握することが可能である。なお、特定音素の音素記号QBの表示態様が既に変化状態に変更されている場合にはステップSB8の表示態様の変更は省略される。
また、情報管理部26は、選択音符の複数の音素のうち音声変化条件を充足する特定音素の脱落を合成情報Sに設定する(SB9)。具体的には、情報管理部26は、図9に例示される通り、合成情報Sが指定する複数の音素の音素記号QBのうち特定音素(図8に例示された音素[i])の音素記号QBに変化情報Fを付加する。変化情報Fは、脱落対象の音素を識別するための情報(例えばフラグ)である。
他方、変更後の発音期間X2の時間長T2が閾値TREFを上回る場合(SB6;NO)、または、時間長T2は閾値TREFを下回るけれども選択音符の何れの音素も音声変化条件を充足しない場合(SB7:NO)には、選択音符の各音素について音声変化の発生は設定されない(SB10,SB11)。具体的には、表示制御部24は、選択音符の各音素の音素記号QBの表示態様を通常状態に設定する(SB10)。すなわち、音素記号QBの表示状態が通常状態である場合には通常状態に維持され、音素記号QBの表示態様が変化状態である場合には通常状態に変更される。以上に説明した通り、表示制御部24は、音声変化(脱落)の対象となる特定音素と音声変化の対象外の音素とで音素記号QBの表示態様を相違させる。したがって、利用者は、編集画面40に表示された各音符の音素のうち脱落対象となる音素を視覚的および直観的に把握することが可能である。
また、情報管理部26は、選択音符の各音素について音声変化の設定を解除する(SB11)。具体的には、情報管理部26は、選択音符の何れかの音素の音素記号QBに変化情報Fが付加されている場合には当該変化情報Fを削除する。すなわち、選択音符の発音期間X2が閾値TREFを上回る時間長T2に設定された場合、または、選択音符の発音期間X2が閾値TREFを下回る時間長T2に短縮された場合でも、選択音符の何れの音素も音声変化条件を充足しない場合には、選択音符の各音素について音声変化の発生は設定されない。以上の説明から理解される通り、第1実施形態の情報管理部26は、選択音符の発音期間X2の時間長T2が閾値TREFを下回る場合に、当該選択音符の音声符号X3に対応する複数の音素のうち音声変化条件を充足する音素について音声変化の発生を合成情報Sに設定する一方、選択音符の発音期間X2の時間長T2が閾値TREFを上回る場合には音声変化の発生を設定しない。以上が編集処理SA1の具体例である。
図10は、図5の音声合成処理SA3の具体例のフローチャートである。音声合成処理SA3を開始すると、音声合成部28は、合成情報Sが音符毎に指定する各音声符号X3に対応した音声素片Pを記憶装置12内の音声素片群Lから順次に選択する(SC1)。例えば、図7および図8に例示された“あした”の各音声単位が音声符号X3として指定された場合、音声合成部28は、図11に例示される通り、“あした”の各音声符号X3に対応する複数の音声素片P([Sil-a],[a-S],[S-i],[i-t],[t-a],[a-Sil])を音声素片群Lから選択する。
音声合成部28は、ステップSC1で選択した複数の音声素片Pの時系列から、合成情報Sにて脱落が設定された音素(音素記号QBに変化情報Fが付加された音素)を除去する(SC2)。例えば、図11に例示された複数の音声素片Pのうち、図8の例示の通り、音声単位「し」の母音の音素[i]について脱落が指示された場合を想定する。音声合成部28は、脱落対象の音素[i]を含む[S-i]の音声素片P1と[i-t]の音声素片P2とを選択し、音声素片P1内の後方に位置する[i]の音素pBと、音声素片P2内の前方に位置する[i]の音素pAとの双方を除去する。音声素片P1および音声素片P2の各々における音素pAと音素pBとの境界は、各音声素片Pとともに記憶装置12に記憶された前掲の境界情報Bで特定される。
音声合成部28は、脱落対象の音素の除去後の各音声素片Pを、合成情報Sが指定する音高X1および発音期間X2に調整したうえで相互に連結することで音声信号Vを生成する(SC3)。したがって、図11の音声素片P1と音声素片P2とに着目すると、音声素片P1内の前方に位置する[S]の音素pAと音声素片P2内の後方に位置する[t]の音素pBとが時間軸上で相互に連結される。
以上に説明した通り、第1実施形態では、合成情報Sで指定される発音内容(音声符号X3)に対応する複数の音素のうち時間長T2が閾値TREFを下回る発音期間X2に対応する音素について音声変化(脱落)の発生が合成情報Sに設定され、時間長T2が閾値TREFを上回る音素については音声変化の発生が設定されない。したがって、合成対象の音声の各音素が所定の条件に該当するか否かのみに応じて音声変化の有無が一律に決定される特許文献1の技術と比較すると、発音期間が短い音素に脱落等の音声変化が発生し易い(発音期間が充分に確保された音素では音声変化が発生し難い)という傾向を忠実に反映した歌唱音声を生成できるという利点がある。また、第1実施形態では、時間長T2が閾値TREFを下回る発音期間X2に対応する複数の音素のうち条件情報Cが指定する音声変化条件を充足する音素について音声変化の発生が設定されるから、言語的に不自然な音声変化(例えば通常の発音時には発生し得ない音声変化)は防止される。したがって、言語的にも自然な歌唱音声を生成できるという利点がある。
また、第1実施形態では、既存の各音声素片Pを部分的に除去することで音素の脱落が再現される。したがって、音素の脱落を想定した音声素片Pを事前に用意する必要がない。例えば図11の例示では、[S-t]という音声素片Pを事前に用意する必要がない。したがって、記憶装置12に必要な記憶容量(音声素片群Lのデータ量)が削減されるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。複数の音素が連続的に素早く発音された場合(相前後する音素の間隔が短い場合)には当該音素について脱落等の音声変化が発生し易いという傾向がある。以上の傾向を考慮して、第2実施形態では、相前後する音符の各発音期間X2の間隔が短い場合に音声変化を発生させる。なお、以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図12は、第2実施形態における編集処理SA1の具体例のフローチャートである。編集処理SA1を開始すると、表示制御部24は、第1実施形態と同様に、合成情報Sに応じた編集画面40を表示装置14に表示させる(SB1)。図13には、“good guy”という文字列の各音声単位(“good”,“guy”)を各音符に指定した場合の編集画面40が例示されている。
利用者による発音期間X2の時間長T2の変更指示(SB2:YES)に応じて音符図像42の表示長の変更(SB4)と合成情報S内の発音期間X2の時間長T2の更新(SB5)とが実行されると、情報管理部26は、時間長T2が変更された選択音符の発音期間X2_Aと選択音符の直前または直後の音符の発音期間X2_Bとの時間的な間隔Dが所定の閾値DREFを下回るか否かを判定する(SB6)。閾値DREFは、例えば合成楽曲の所定の音価(例えば4分音符の1個分の時間長)として指定される。
間隔Dは、選択音符の時間長T2の伸縮により変更された間隔である。すなわち、選択音符の発音期間X2の終端(終了時刻)の移動により時間長T2が変更された場合には、選択音符の発音期間X2と直後の音符の発音期間X2との間隔Dが閾値DREFと比較され、選択音符の発音期間X2の始端(開始時刻)の移動により時間長T2が変更された場合には、選択音符の発音期間X2と直前の音符の発音期間X2との間隔Dが閾値DREFと比較される。ステップSB6の判定は、時間軸上で相前後する各音符図像42の表示上の間隔が所定の閾値を下回るか否かを判定する処理と同視され得る。
間隔Dが閾値DREFを下回る場合(SB6:YES)、情報管理部26は、間隔Dで相前後する各音符(選択音符と直前または直後の音符)の音声符号X3に対応する何れかの音素が、条件情報Cで指定される脱落の音声変化条件を充足するか否かを判定する(SB7)。音声変化条件を充足する特定音素が存在する場合(SB7:YES)、表示制御部24は、図14に例示される通り、特定音素の音素記号QBの表示態様を、通常状態から変化状態に変更する(SB8)。図14では、音声単位“good”が付与された音符の発音期間X2_Aと音声単位“guy”が付与された音符の発音期間X2_Bとの間隔Dが閾値DREFを下回る結果(SB6:YES)、発音期間X2_Aに対応する音素[d]の音素記号QBの表示態様が変化状態に変更された場合が例示されている。情報管理部26は、第1実施形態と同様に、特定音素の脱落を合成情報Sに設定する(SB9)。すなわち、合成情報Sのうち特定音素の音素記号QBに変化情報Fを付加する。
他方、間隔Dが閾値DREFを上回る場合(SB6:NO)、または、間隔Dは閾値DREFを下回るけれども各音符の何れの音素も音声変化条件を充足しない場合(SB7:NO)、間隔Dで相前後する各音符の音素については、第1実施形態と同様に音声変化の発生は設定されない(SB10,SB11)。具体的には、表示制御部24は、図13に例示される通り、発音期間X2_Aおよび発音期間X2_Bの各々の音声符号X3に対応する音素の音素記号QBの表示態様を通常状態に設定し(SB10)、情報管理部26は、発音期間X2_Aおよび発音期間X2_Bの各々の音素について音声変化の設定を解除する(SB11)。以上の説明から理解される通り、第2実施形態の情報管理部26は、時間軸上で相前後する発音期間X2_A(第1発音期間)と発音期間X2_B(第2発音期間)との間隔Dが閾値DREFを下回る場合に、発音期間X2_Aまたは発音期間X2_Bの音声符号X3に対応する複数の音素のうち音声変化条件を充足する音素について音声変化の発生を合成情報Sに設定する一方、間隔Dが閾値DREFを上回る場合には音声変化の発生を設定しない。以上が第2実施形態における編集処理SA1の具体例である。
図14の例示のように“good guy”の各音声単位(音節)が音声符号X3として2個の音符に割当てられた場合、音声合成部28は、音声合成処理SA3のステップSC1において、図15に例示される通り、各音声符号X3に対応する複数の音声素片P([Sil-gh],[gh-U],[U-d],[d-gh],[gh-aI],[aI-Sil])を音声素片群Lから選択する(SC1)。
ところで、前掲の図11の例示のように母音の音素[i]を脱落させる場合には、図11の例示の通り、当該音素[i]を包含する音声素片P1および音声素片P2の双方から音素[i]を除去する処理が好適である。しかし、図15に例示された音素[d]のように特定の種類の子音の音素[d]を脱落させる場合にも、第1実施形態で例示した母音の脱落時と同様に、当該音素[d]を含む[U-d]の音声素片P1および[d-gh]の音声素片P2の双方から音素[d]を除去すると、以下に詳述する通り、聴感的に不自然な音声が生成される可能性がある。
図16は、図15に例示された音声素片P1および音声素片P2の時間波形の模式図である。[U-d]の音声素片P1内の後方に位置する[d]の音素pBの区間は、直前の[U]の音素pAが減衰して発音が終了するとともに、音素[d]の発音が可能な状態となるように声道が舌で閉鎖される区間(音素[U]の終了後は無音に維持される区間)である。すなわち、音声素片P1の音素pBの区間は、音素[d]を実際に発音するための準備の区間(促音「ッ」に相当する区間)とも換言され得る。声道は、声帯で発生した音声の調音に寄与する調音器官であり、咽頭と口腔とを含む管腔の全体に相当する。
他方、[d-gh]の音声素片P2内の前方に位置する[d]の音素pAの区間は、音素pBの区間で閉鎖された声道を破裂的に解放する(閉鎖状態にある声道の上流側に圧縮された空気を一気に解放する)ことで音素[d]が実際に発音される区間である。以上に例示した音素[d]のように、調音器官たる声道の阻害(閉鎖または収縮)により調音される子音(例えば破裂音,破擦音,摩擦音)のうち声道の閉鎖を発音の要件とする音素を、以下の説明では閉鎖型の阻害音と表記する。具体的には、破裂音([d][t][b][p][k][g][q]等)および破擦音([ts]等)が閉鎖型の阻害音の典型例である。母音および閉鎖型の阻害音(破裂音または破擦音)以外の音素(鼻音,流音,半母音,摩擦音)では、基本的には音素の脱落は発生しないという傾向がある。なお、破擦音の音素について脱落を禁止することも可能である。
以上に説明した各音声素片Pを前提として、閉鎖型の阻害音である音素[d]の脱落を想定する。第1実施形態で例示した母音の脱落時と同様に、脱落対象の音素[d]を包含する[U-d]の音声素片P1および[d-gh]の音声素片P2の双方から音素[d]を除去した場合、音素[U]の直後に音素[gh]が後続するから、「グガイ(gugai)」と発音したような不自然な音声が生成される可能性がある。
以上の事情を考慮して、第2実施形態の音声合成部28は、閉鎖型の阻害音の音素[d]が脱落対象として指示された場合、図15に例示される通り、音素[d]を包含する[U-d]の音声素片P1と[d-gh]の音声素片P2とのうち、音声素片P2内の前方に位置する[d]の音素pAを除去し、音声素片P1内の後方に位置する[d]の音素pBを維持する(SC2)。したがって、音声合成処理SA3のステップSC3では、図15から理解される通り、音声素片P1内の後方に位置する[d]の音素pBと、音声素片P2内の後方に位置する[gh]の音素pBとが連結される。すなわち、音素[U]の発音と音素[gh]の発音との間には、音声素片P1の音素pBに対応する区間(音素[d]の発音のために声道を閉鎖した無音の区間)が挿入され、「グッガイ」と発音したような自然な音声が生成される。
なお、第2実施形態のように、脱落が指示された音素の種類(母音/閉鎖型の阻害音)に応じて音声素片Pの処理を相違させる構成では、音素の種類の判別が必要である。音素の種類を判別するための構成は任意であるが、例えば、音素の種類を表す情報を音声素片群Lの各音声素片に付加する構成が好適である。また、閉鎖型の阻害音のみについて音素の脱落を許容する構成(母音の音素は脱落させない構成)では、音素の種類の判別が省略され得る。
第2実施形態では、合成情報Sで指定される発音内容(音声符号X3)に対応する複数の音素のうち間隔Dが閾値DREFを下回る各発音期間X2に対応する音素について音声変化(脱落)の発生が合成情報Sに設定される。したがって、合成対象の音声の各音素が所定の条件に該当するか否かのみに応じて音声変化の有無が一律に決定される特許文献1の技術と比較すると、各音素の間隔が短い場合に脱落等の音声変化が発生し易い(各音素が充分な間隔で発音された場合には音声変化は発生し難い)という傾向を忠実に反映した歌唱音声を生成できるという効果が実現される。また、第2実施形態では、間隔Dが閾値DREFを下回る発音期間X2に対応する複数の音素のうち条件情報Cが指定する音声変化条件を充足する音素について音声変化の発生が設定されるから、言語的に不自然な音声変化(例えば通常の発音時には発生し得ない音声変化)は防止される。したがって、言語的にも自然な歌唱音声を生成できるという利点がある。
また、第2実施形態では、閉鎖型の阻害音の音素の脱落が指示された場合に、当該音素を包含する音声素片P2の音素pAが除去され、音声素片P1の音素pBと音声素片P2の音素pBとが連結されるから、前述の通り、閉鎖型の阻害音等の子音についても聴感的に自然な音声が生成されるという利点がある。
<第3実施形態>
第3実施形態では、第2実施形態と同様に、間隔Dが閾値DREFを下回る各発音期間X2に対応する音素について合成情報Sに音声変化の発生が設定される。図17は、第3実施形態における編集画面40の模式図である。図17に例示される通り、第3実施形態の編集画面40には間隔画像52が配置される。間隔画像52は、相前後する各発音期間X2の間隔Dを表象する画像である。表示制御部24は、間隔Dが閾値DREFを上回る各発音期間X2の間(すなわち音声変化が発生しない各発音期間X2の間)に間隔画像52を配置し、間隔Dが閾値DREFを下回る各発音期間X2の間(すなわち音声変化が発生し得る各発音期間X2の間)には間隔画像52を配置しない。したがって、第3実施形態によれば、相前後する発音期間X2について音声変化が発生し得るか否かを利用者が視覚的および直観的に把握できるという利点がある。
なお、間隔画像52の具体的な態様は適宜に変更される。例えば、図18の例示のように、音高軸の方向に延在する帯状の間隔画像52を各発音期間X2の間に配置する構成や、図19の例示のように、編集画面40の周縁に沿って時間軸の方向に延在する所定幅の領域50内に間隔画像52を配置する構成が採用される。
<脱落の具体例>
脱落の具体例を以下に列挙する。なお、以下の説明では、合成楽曲の1個の音符の範囲を波括弧(中括弧){ }で表現し、脱落が発生し得る音素を山括弧〈 〉で表現した。
(1)日本語の場合
“なくて(無くて)”:{[n][a]}{[k]〈M〉}{[t][e]}
“いつも”:{[i]}{[ts]〈M〉}{[m][o]}
(2)英語の場合
“good day”:{[gh][U]〈d〉}{[d][eI]}
“let it be”:{[l0][e][t]}{[I]〈t〉}{[bh][i:]}
“fight”:{[f][aI]〈t〉}
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)第1実施形態では、合成情報Sのうち利用者が脱落を指示した音素の音素記号QBに変化情報Fを付加したが、以下に例示される通り、合成情報Sに音素の音声変化を設定するための構成は任意である。
[a]図20に例示される通り、合成情報Sのうち脱落対象として指示された音素[i]の音素記号QBを、脱落(無声化)に対応する音素記号[i_0]に置換する構成(以下「構成A」という)が採用される。記号“_0”は、母音の無声化を意味する(X-SAMPA)。図20の合成情報Sを適用した音声合成処理SA3では、無声化した音素[i_0]を含む音声素片P([S-i_0],[i_0-t])が選択される。すなわち、構成Aでは、多数の音素の各々について、無声化した音素との組合せに対応する音声素片Pを用意する必要がある。他方、前述の各形態では、音声素片Pの部分的な除去で音素の脱落が再現されるから、無声化した音素を含む音声素片Pは原理的には不要である。したがって、記憶装置12に必要な容量(音声素片群Lのデータ量)の削減という観点からは、構成Aと比較して前述の各形態が好適である。
[b]図21に例示される通り、合成情報Sのうち脱落対象に指示された音素[i]の音素記号QBを削除する構成(以下「構成B」という)が採用される。図21の合成情報Sを適用した音声合成処理SA3では、音素[i]を包含しない各音声素片([Sil-a],[a-S],[S-t],[t-a],[a-Sil])が音声素片群Lから選択される。すなわち、構成Bでは、脱落対象となり得る音素の前後に位置する可能性がある各音素の組合せ毎に音声素片P(例えば音素[S]と音素[t]との組合せに相当する音声素片[S-t])を用意する必要がある。したがって、記憶装置12に必要な容量の削減という観点からは、構成Bと比較して前述の各形態が好適である。また、音素[S]に音素[i]が後続する[S-i]の音声素片Pと、音素[S]に音素[t]が後続する[S-t]の音声素片Pとでは、厳密には音素[S]の音色が相違する。具体的には、第1実施形態のように音声素片Pの音素[i]を事後的に除去する場合のほうが、事前に用意された[S-t]を利用する構成Bと比較して、脱落対象の音素の直前の音素[S]の音色が聴感的に自然であるという傾向がある。したがって、音声の自然性という観点からも、構成Bと比較して前述の各形態が好適である。
(2)音声変化条件(条件情報C)を可変に制御することも可能である。例えば、脱落等の音声変化の条件は言語体系にも依存するという傾向がある。したがって、音声符号X3の言語に応じて音声変化条件を変化させる構成が好適である。例えば、英語では母音の脱落が発生し難い(基本的には発生しない)という傾向がある。したがって、音声符号X3を日本語で指定する動作モード(日本語モード)では母音の脱落が許容されるように条件情報Cを設定し、音声符号X3を英語で指定する動作モード(英語モード)では母音の脱落が禁止される(例えば第2実施形態のように閉鎖型の阻害音の音素の脱落のみが許容される)ように条件情報Cを設定する構成が好適である。
(3)前述の各形態では、音素記号QBに取消線を付加することで音素の脱落を表現したが、音素の脱落を表現する具体的な表示態様は適宜に変更され得る。例えば、脱落が指示された音素の音素記号QBの色彩や彩度を変更する(例えばグレーアウトさせる)ことも可能である。また、脱落対象の音素の音素記号QBを消去する構成も採用され得る。ただし、音素記号QBを消去する構成では、脱落対象の音素を利用者が表示態様の変更後に視覚的に確認できないという問題がある。前述の各形態では、脱落対象の音素の音素記号QBの表示態様が、視覚的に識別可能な状態を維持したまま変更されるから、表示態様の変更後にも利用者が脱落対象の音素の音素記号QBを確認できるという利点がある。
(4)前述の各形態では、音素の脱落を例示したが、脱落以外の音声変化を再現する場合にも前述の各形態を採用することが可能である。脱落以外の音声変化としては、例えば、各音素が前後の音素に類似する音素に変化する同化や、相前後する2個の音素が1個の音単位(音節)に置換される連結(例えば[n][a]→[na])等が例示され得る。以上の例示から理解される通り、音声変化は、相連続する音素を発音する場合(特に素早く発音する場合)に各音素の発音を容易化するように発生する音韻の変化として包括的に表現され得る。
(5)前述の各形態では、音声素片Pを利用した素片接続型の音声合成処理SA3を例示したが、編集処理SA1で生成された合成情報Sを適用した音声合成には公知の技術が任意に採用される。例えば、隠れマルコフモデル(HMM: Hidden Markov Model)等の確率モデルを利用して、合成情報Sで指定された合成楽曲の歌唱音声を合成することも可能である。例えば、音声合成部28は、合成情報Sの音高X1および発音期間X2に応じて音高の時間遷移(ピッチカーブ)を算定するとともに当該時間遷移で音高が変化する基礎信号(例えば声帯の発声音を表す正弦波信号)を生成し、編集処理SA1の実行後の合成情報Sが指定する音声符号X3に応じたフィルタ処理(例えば口腔内での共鳴を近似するフィルタ処理)を基礎信号に対して実行することで音声信号Vを生成する。
(6)前述の各形態では、2個の音素を連結した音声素片P(ダイフォン)を例示したが、3個以上の音素を連結した音声素片Pを利用することも可能である。3個以上の音素を連結した音声素片Pでは、1個の音声素片Pの先頭の音素が前述の各形態の音素pAに相当し、1個の音声素片Pの末尾の音素が前述の各形態の音素pBに相当する。
(7)前述の各形態では、合成情報Sの管理(表示制御部24および情報管理部26)と音声信号Vの生成との双方を実行する音声合成装置100を例示したが、合成情報Sを管理する合成情報管理装置としても本発明は特定され得る。合成情報管理装置では音声合成部28の有無は不問である。また、携帯電話機等の端末装置と通信するサーバ装置で音声合成装置100や合成情報管理装置を実現することも可能である。指示受付部22は、利用者が端末装置に付与した指示を端末装置から通信網を介して受付け、表示制御部24は、例えば編集画面40の画像データを端末装置に送信することで編集画面40を端末装置の表示装置に表示させる。また、音声合成部28は、音声合成処理SA3で生成した音声信号Vを端末装置に送信する。
(8)前述の各形態では、音声素片群Lと合成情報Sとを記憶する記憶装置12を音声合成装置100に搭載したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が音声素片群Lや合成情報Sを記憶する構成も採用される。音声合成装置100は、例えば通信網を介して音声素片群Lまたは合成情報Sを取得して編集処理SA1や音声合成処理SA3を実行する。以上の説明から理解される通り、音声素片群Lや合成情報Sを記憶する要素は音声合成装置100の必須の要素ではない。
(9)前述の各形態では、合成楽曲の歌唱音声の音声信号Vの生成を例示したが、歌唱音声以外の音声(例えば会話音等)の音声信号Vの生成にも本発明を適用することが可能である。したがって、歌唱音声の合成に好適な音高X1は合成情報Sから省略され得る。以上の説明から理解される通り、以上の各態様に例示した合成情報Sは、合成対象となる音声の発音内容を指定する情報として包括的に表現される。なお、音声変化の有無を音素毎に個別に制御する必要性は、歌唱音声を合成する場面で特に顕在化するから、本発明は、歌唱音声の合成に格別に好適である。
(10)前述の各形態では、日本語および英語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、スペイン語、中国語、韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。