JP6413220B2

JP6413220B2 - 合成情報管理装置

Info

Publication number: JP6413220B2
Application number: JP2013215028A
Authority: JP
Inventors: 慶二郎才野
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-10-15
Filing date: 2013-10-15
Publication date: 2018-10-31
Anticipated expiration: 2033-10-15
Also published as: JP2015079064A

Description

本発明は、音声合成に適用される合成情報を管理する技術に関する。

複数の音素を連続して発音する場合、前後の音素の影響で各音素が変化する現象（以下「音声変化」という）が発生する。特定の音素の発音が省略される脱落（消失）や、各音素が前後の音素と類似する音素に変化する同化が音声変化の典型例である。例えば“good”（[gh][U][d]）と“guy”([gh][aI])とが連続する“good guy”を発音した場合、“good”の末尾の音素[d]が脱落して[gh][U][gh][aI]と発音される。なお、以上の例示の通り、本願明細書では、X-SAMPA（eXtrended - Speech Assessment Methods Phonetic Alphabet）に準拠した形式で各音素の音素記号を表記する。

他方、任意の文字列を発音した音声を生成する音声合成技術が従来から提案されている。聴感的に自然な音声を合成するには、現実の発音時に発生する前述の音声変化を再現することが重要である。以上の事情を背景として、特許文献１には、複数の音素の時系列のうち音変化規則辞書に事前に規定された条件を充足する音素を省略または変更することで、脱落や同化等の音声変化が再現された音声を合成する技術が開示されている。

特開２０１１−１７５０７４号公報

しかし、特許文献１の技術のもとでは、音変化規則辞書に規定された条件を充足する音素については一律に音声変化が付与され、条件を充足しない音素については一律に音声変化が付与されない。したがって、実際の発音の傾向に合致しない不自然な音声変化が付与される可能性がある。例えば、複数の音素を遅く発音した場合や充分な間隔をあけて発音した場合には、実際には音声変化は発生し難いという傾向がある。しかし、特許文献１の技術では、音変化規則辞書に合致する場合には各音素の発音の速度や間隔とは無関係に音声変化が付与される。

利用者が音素毎に音声変化の有無を指示する構成も想定され得るが、実際に音声変化を付与すべき音素を適切に決定するためには音声変化に関する専門的な知識が必要であり、音素毎に音声変化の有無を指示する作業の負荷が過大であるという問題もある。以上の事情を考慮して、本発明は、利用者の負荷を抑制しながら現実の発音の傾向を反映した音声変化を実現することを目的とする。

以上の課題を解決するために、本発明の第１態様に係る合成情報管理装置は、合成対象音声の音声符号を発音期間毎に指定する合成情報を管理する合成情報管理装置であって、利用者からの指示を受付ける指示受付手段と、合成情報が指定する複数の発音期間のうち相前後する第１発音期間と第２発音期間との間隔を利用者からの指示に応じて変化させ、当該間隔が閾値を下回る場合に、第１発音期間または第２発音期間の音声符号に対応した音素について音声変化の発生を合成情報に設定する一方、当該間隔が閾値を上回る場合には音声変化の発生を設定しない情報管理手段とを具備する。以上の構成では、相前後する第１発音期間と第２発音期間との間隔が閾値を下回る場合に、第１発音期間または第２発音期間の音声符号に対応した音素について音声変化の発生が合成情報に設定される。したがって、例えば音素毎に音声変化の有無を指示する作業等による利用者の負荷を抑制しながら、発音間隔が短い音素に脱落等の音声変化が発生し易いという現実の傾向を合成情報に反映させることが可能である。なお、第１態様の具体例は例えば第２実施形態として後述される。

本発明の第２態様に係る合成情報管理装置は、合成対象音声の音声符号を発音期間毎に指定する合成情報を管理する合成情報管理装置であって、利用者からの指示を受付ける指示受付手段と、合成情報が指定する各発音期間の時間長を利用者からの指示に応じて変化させ、当該発音期間の時間長が閾値を下回る場合に、当該発音期間の音声符号に対応した音素について音声変化の発生を合成情報に設定する一方、当該発音期間の時間長が閾値を上回る場合には音声変化の発生を設定しない情報管理手段とを具備する。以上の構成では、各発音期間の時間長が閾値を下回る場合に、当該発音期間の音声符号に対応した音素について音声変化の発生が合成情報に設定される。したがって、発音期間が短い音素に脱落等の音声変化が発生し易いという現実の傾向を合成情報に反映させることが可能である。なお、第２態様の具体例は例えば第１実施形態として後述される。

第１態様または第２態様に係る合成情報管理装置の好適例において、情報管理手段は、音声符号に対応した複数の音素のうち音声変化の発生条件を充足する音素について音声変化の発生を設定する。以上の態様では、音声符号に対応した複数の音素のうち音声変化の発生条件を充足する音素について音声変化の発生が設定されるから、音声変化の発生条件に合致しない不自然な音声変化の発生が防止されるという利点がある。

第１態様または第２態様に係る合成情報管理装置の好適例において、合成情報は、楽曲を構成する各音符と各音符の音声符号とを指定する情報であって、当該楽曲の歌唱音声の音声合成に適用され、合成情報が指定する各音符を表象する音符図像と、各音符の音声符号に対応する音素記号とを、音高軸と時間軸とが設定された領域内に配置した編集画面を表示装置に表示させる手段であって、合成情報に音声変化の発生が設定された音素の音素記号と音声変化の発生が設定されていない音素の音素記号とを相異なる表示態様で表示させる表示制御手段を具備する。以上の態様では、音声変化の発生が設定された音素の音素記号と音声変化の発生が設定されていない音素の音素記号とが相異なる表示態様で表示されるから、編集画面に表示された音素記号のうち音声変化の対象として指示した音素の音素記号を利用者が視覚的および直観的に把握できるという利点がある。また、例えば脱落の音声変化の発生が設定された音素についても音素記号は表示されるから、当該音素記号を消去する構成と比較して、音声変化の対象となる音素を音声変化の指示後にも利用者が確認できるという利点がある。

第１態様に係る合成情報管理装置の好適例において、合成情報は、楽曲を構成する各音符と各音符の音声符号とを指定する情報であって、当該楽曲の歌唱音声の音声合成に適用され、合成情報が指定する各音符を表象する音符図像と、各音符の音声符号に対応する音素記号とを、音高軸と時間軸とが設定された領域内に配置した編集画面を表示装置に表示させる手段であって、第１発音期間と第２発音期間との間隔が閾値を上回る場合に、当該間隔を表象する間隔画像を表示させる表示制御手段を具備する。以上の態様では、第１発音期間と第２発音期間との音素について音声変化が発生し得るか否かを利用者が視覚的および直観的に把握できるという利点がある。

ところで、例えば楽曲の歌唱音声を合成する場面では、各音素が発音される音符の発音期間や各音素の発音のリズム（各発音期間の間隔）等の音楽的な要因に応じて各音素の音声変化の有無を制御することが重要であるから、発音期間の時間長や各発音期間の間隔に応じて音声変化の有無を制御する前述の構成は、楽曲の歌唱音声を合成する場面で特に好適である。以上の事情を考慮して、本発明に係る音声合成装置は、前述の各態様に係る指示受付手段および情報管理手段と、情報管理手段による処理後の合成情報を適用した音声合成で音声信号を生成する音声合成手段とを具備する。以上の構成によれば、現実の発音の傾向を反映した音声変化が付加された音声信号を生成することが可能である。

本発明に係る音声合成装置の好適例において、音声合成手段は、前方音素と当該前方音素の後方に位置する後方音素とを各々が含む複数の音声素片を合成情報に応じて選択および接続して音声信号を生成する一方、複数の音声素片のうち第１音声素片の後方音素と当該第１音声素片の直後の第２音声素片の前方音素とに対応した音素について合成情報に脱落の音声変化が設定されている場合に、第１音声素片の前方音素と第２音声素片の後方音素とを連結する。以上の構成では、第１音声素片の前方音素と第２音声素片の後方音素とが連結されるから、例えば母音の音素のように音響特性が継続的に持続される音素の脱落が忠実に再現された音声信号を生成することが可能である。

本発明に係る音声合成装置の好適例において、音声合成手段は、前方音素と当該前方音素の後方に位置する後方音素とを各々が含む複数の音声素片を合成情報に応じて選択および接続して音声信号を生成する一方、複数の音声素片のうち第１音声素片の後方音素と当該第１音声素片の直後の第２音声素片の前方音素とに対応した音素について合成情報に脱落の音声変化が設定されている場合に、第１音声素片の後方音素と第２音声素片の後方音素とを連結する。以上の態様では、声道を閉鎖する過程が実際の発音前に存在する閉鎖型の阻害音（例えば破裂音や破擦音）の脱落が忠実に再現された音声信号を生成することが可能である。

以上の各態様に係る合成情報管理装置および音声合成装置は、合成情報の編集や音声信号の生成に専用されるDSP（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、CPU（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る合成情報管理装置の動作方法（合成情報管理方法）や音声合成装置の動作方法（音声合成方法）としても特定される。

本発明の第１実施形態に係る音声合成装置のブロック図である。音声素片の説明図である。合成情報の模式図である。編集画面の説明図である。音声合成装置の動作のフローチャートである。編集処理のフローチャートである。音素の脱落を指示する手順の説明図である。音素の脱落を指示する手順の説明図である。音素の脱落を合成情報に設定する処理の説明図である。音声合成処理のフローチャートである。音素を脱落させる処理の説明図である。第２実施形態における編集処理のフローチャートである。第２実施形態において音素の脱落を指示する手順の説明図である。第２実施形態において音素の脱落を指示する手順の説明図である。第２実施形態において音素を脱落させる処理の説明図である。閉鎖型の阻害音の説明図である。第３実施形態における編集画面の模式図である。第３実施形態の変形例に係る編集画面の模式図である。第３実施形態の変形例に係る編集画面の模式図である。変形例における合成情報の編集の説明図である。変形例における合成情報の編集の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。第１実施形態の音声合成装置１００は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲（以下「合成楽曲」という）の歌唱音声の音声信号Ｖを生成する信号処理装置である。複数の音素を連続して発音する場合に前後の音素の影響で各音素が変化する現象（音声変化）を再現した音声信号Ｖが生成される。第１実施形態では、同化や連結等を包含する種々の音声変化のうち、特定の音素の発音が省略される脱落を再現した音声信号Ｖの生成を例示する。

図１に例示される通り、音声合成装置１００は、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステム（例えば携帯電話機やパーソナルコンピュータ等の情報処理装置）で実現される。表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、音声合成装置１００に対する各種の指示のために利用者が操作する操作機器（例えばマウス等のポインティングデバイスやキーボード）であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置１４と一体に構成されたタッチパネルを入力装置１６として採用することも可能である。放音装置１８（例えばスピーカやヘッドホン）は、音声信号Ｖに応じた音響を再生する。

記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。第１実施形態の記憶装置１２は、以下に例示する通り、音声素片群Ｌと合成情報Ｓと条件情報Ｃとを記憶する。

音声素片群Ｌは、特定の発声者の収録音声から事前に採取された複数の音声素片Ｐの集合（音声合成用ライブラリ）である。図２に例示される通り、第１実施形態における１個の音声素片Ｐは、音素ｐAと音素ｐBとを連結した音素連鎖（ダイフォン）である。音素（後方音素）ｐBは、音素（前方音素）ｐAの後方に位置する。各音声素片Ｐは、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。図２に例示される通り、各音声素片Ｐには、音素ｐAと音素ｐBとの境界を指定する境界情報Ｂが付加される。なお、以下の説明では、無音を便宜的に１個の音素と位置付けて記号“Sil”で表記する。

合成情報Ｓは、図３に例示される通り、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に音高（例えばノートナンバー）Ｘ1と発音期間Ｘ2と音声符号Ｘ3とを時系列に指定する。発音期間Ｘ2は、音符の時間長（音価）であり、例えば発音の開始時刻Ｔ1と時間長（継続長）Ｔ2とで規定される。なお、発音期間Ｘ2を発音の開始時刻Ｔ1と終了時刻とで規定する構成（両時刻間の時間長が時間長Ｔ2として算定され得る構成）も好適である。以上の説明から理解される通り、合成情報Ｓは、合成楽曲の楽譜を指定する時系列データとも換言され得る。音声符号Ｘ3は、合成対象の音声の発音内容（すなわち合成楽曲の歌詞）を指定する。具体的には、音声符号Ｘ3は、合成楽曲の１個の音符について発音される音声単位（例えば音節やモーラ）を指定する情報であり、当該音声単位に対応する発音文字ＱAと、当該音声単位を構成する各音素の音素記号ＱBとを含んで構成される。発音文字ＱAは、合成楽曲の歌詞を構成する文字（書記素）に相当する。

条件情報Ｃは、音声変化（第１実施形態では脱落）の発生条件（以下「音声変化条件」という）を指定する。例えば、音声単位内の第２番目以降の音素であること（音声単位内の最初の音素ではないこと）や、相前後する各音素が共通または類似すること（例えば前掲の例示における“good guy”の発音の場合）等の複数の条件（規則）が、脱落の音声変化条件として条件情報Ｃで指定される。

図１の演算処理装置１０（ＣＰＵ）は、記憶装置１２に格納されたプログラムを実行することで、合成情報Ｓの編集や音声信号Ｖの生成のための複数の機能（指示受付部２２，表示制御部２４，情報管理部２６，音声合成部２８）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、専用の電子回路（例えばＤＳＰ）が演算処理装置１０の一部の機能を実現する構成も採用され得る。

指示受付部２２は、入力装置１６に対する操作に応じた利用者からの指示を受付ける。表示制御部２４は、各種の画像を表示装置１４に表示させる。具体的には、第１実施形態の表示制御部２４は、合成情報Ｓが指定する合成楽曲の内容を利用者が確認するための図４の編集画面４０を表示装置１４に表示させる。編集画面４０は、相互に交差する時間軸（横軸）および音高軸（縦軸）が設定されたピアノロール型の座標平面である。

表示制御部２４は、合成情報Ｓが指定する音符毎に音符図像４２と発音文字ＱAと音素記号ＱBとを編集画面４０に配置する。音符図像４２は、合成楽曲の各音符を表象する画像である。具体的には、音高軸の方向における音符図像４２の位置は、合成情報Ｓが指定する音高Ｘ1に応じて設定される。また、時間軸の方向における音符図像４２の位置は、合成情報Ｓが指定する発音期間Ｘ2の開始時刻Ｔ1に応じて設定され、時間軸の方向における音符図像４２の表示長（サイズ）は、合成情報Ｓが指定する発音期間Ｘ2の時間長Ｔ2に応じて設定される。すなわち、時間長Ｔ2が長い音符ほど音符図像４２の時間軸上の表示長は長い。発音文字ＱAは音符図像４２の先頭の近傍に配置され、音素記号ＱBは音符図像４２の内部に配置される。以上の説明から理解される通り、編集画面４０は、合成楽曲の歌詞（発音内容）に対応した発音文字ＱAと各音素の音素記号ＱBとを時系列に配置した画像である。なお、発音文字ＱAや音素記号ＱBの位置は適宜に変更される。例えば、発音文字ＱAを音素記号ＱBとともに音符図像４２の内部に配置することも可能である。また、発音文字ＱAの表示は省略され得る。

利用者は、図４の編集画面４０を確認しながら入力装置１６を適宜に操作することで、音符図像４２の追加または移動や発音文字ＱAの追加または変更を指示することが可能である。また、利用者は、入力装置１６を適宜に操作することで、時間軸の方向における各音符図像４２の表示長を変更することが可能である。表示制御部２４は、指示受付部２２が利用者から受付けた指示に応じて編集画面４０（音符図像４２や発音文字ＱA）を更新する。

図１の情報管理部２６は、編集画面４０に対する利用者からの指示に応じて合成情報Ｓを編集する。例えば、情報管理部２６は、音高軸の方向における音符図像４２の移動の指示に応じて、合成情報Ｓのうち当該音符図像４２に対応する音符の音高Ｘ1を変更する。また、情報管理部２６は、時間軸の方向における音符図像４２の位置に応じて、合成情報Ｓのうち当該音符図像４２に対応する音符の発音期間Ｘ2の開始時刻Ｔ1を変更し、音符図像４２の時間軸上の表示長に応じて、合成情報Ｓのうち当該音符図像４２に対応する音符の発音期間Ｘ2の時間長Ｔ2を変更する。すなわち、音符図像４２の表示長を変更する指示は、発音期間Ｘ2の時間長Ｔ2を変更する指示に相当する。また、任意の音符の発音文字ＱAが変更された場合、情報管理部２６は、合成情報Ｓのうち当該音符に対応する発音文字ＱAを変更するとともに当該音符の各音素記号ＱBを変更後の発音文字ＱAに応じて更新する。

音声合成部２８は、記憶装置１２に記憶された音声素片群Ｌと合成情報Ｓとを利用して音声信号Ｖを生成する。具体的には、音声合成部２８は、合成情報Ｓが指定する音符毎の音声符号Ｘ3（発音文字ＱAおよび音素記号ＱB）に応じた音声素片Ｐを音声素片群Ｌから順次に選択し、各音声素片Ｐを、合成情報Ｓが指定する音高Ｘ1および発音期間Ｘ2に調整したうえで相互に連結することで音声信号Ｖを生成する。音声合成部２８が生成した音声信号Ｖが放音装置１８に供給されることで合成楽曲の歌唱音声が再生される。

図５は、第１実施形態に係る音声合成装置１００の概略的な動作のフローチャートである。例えば合成情報Ｓの編集が利用者から指示された場合に図５の処理が開始される。演算処理装置１０（表示制御部２４，情報管理部２６）は、指示受付部２２が利用者から受付ける指示に応じて合成情報Ｓを編集する編集処理ＳA1を実行する。編集処理ＳA1を実行すると、演算処理装置１０は、音声合成が利用者から指示されたか否かを判定し（ＳA2）、音声合成が指示された場合（ＳA2：YES）には、合成情報Ｓで指定される歌唱音声の音声信号Ｖを生成する音声合成処理ＳA3を実行する。音声合成が指示されない場合（ＳA2：NO）には音声合成処理ＳA3は実行されない。

演算処理装置１０は、処理終了が利用者から指示されたか否かを判定する（ＳA4）。処理終了が指示されていない場合（ＳA4：NO）、演算処理装置１０は編集処理ＳA1を実行する。他方、処理終了が指示された場合（ＳA4：YES）、演算処理装置１０は図５の処理を終了する。

図６は、編集処理ＳA1の具体例のフローチャートである。編集処理ＳA1を開始すると、表示制御部２４は、図７に例示される通り、合成情報Ｓに応じた編集画面４０を表示装置１４に表示させる（ＳB1）。図７では、“あした（ashita）”という文字列の各音声単位（音節）が音声符号Ｘ3として３個の音符に割当てられた場合が例示されている。

図７に破線の矢印で図示される通り、利用者は、編集画面４０内の所望の音符（以下「選択音符」という）の音符図像４２を対象として時間軸の方向の表示長を変更することで、選択音符の発音期間Ｘ2の時間長Ｔ2を変更することが可能である。表示制御部２４は、選択音符の発音期間Ｘ2の時間長Ｔ2の変更指示を指示受付部２２が受付けたか否かを判定する（ＳB2）。時間長Ｔ2の変更指示を受付けていない場合（ＳB2：NO）、指示受付部２２が利用者から受付けた他の指示に応じて、表示制御部２４による編集画面４０の更新と情報管理部２６による合成情報Ｓの更新とが実行される（ＳB3）。

他方、発音期間Ｘ2の時間長Ｔ2の変更指示を指示受付部２２が受付けた場合（ＳB2：YES）、表示制御部２４は、選択音符の音符図像４２の時間軸上の表示長を変更する（ＳB4）。すなわち、音符図像４２を時間軸の方向に伸縮する。また、情報管理部２６は、合成情報Ｓのうち選択音符の発音期間Ｘ2の時間長Ｔ2を音符図像４２の表示長の変更（音符図像４２の伸縮）に応じて変更する（ＳB5）。具体的には、情報管理部２６は、音符図像４２が時間軸の方向に伸長された場合には選択音符の発音期間Ｘ2の時間長Ｔ2を増加させ、音符図像４２が時間軸の方向に短縮された場合には選択音符の発音期間Ｘ2の時間長Ｔ2を減少させる。

情報管理部２６は、選択音符の変更後の発音期間Ｘ2の時間長Ｔ2が所定の閾値ＴREFを下回るか否かを判定する（ＳB6）。閾値ＴREFは、例えば合成楽曲の所定の音価（例えば４分音符の１個分の時間長）として指定される。なお、ステップＳB6の判定は、音符図像４２の変更後の表示長が所定の閾値を下回るか否かを判定する処理と同視され得る。時間長Ｔ2が閾値ＴREFを下回る場合（ＳB6：YES）、情報管理部２６は、選択音符の音声符号Ｘ3に対応する何れかの音素が、記憶装置１２内の条件情報Ｃで指定される脱落の音声変化条件を充足するか否かを判定する（ＳB7）。

複数の音素が連続的に素早く発音された場合（各音素の発音期間が短い場合）には当該音素について脱落等の音声変化が発生し易いという傾向がある。以上の傾向を考慮して、第１実施形態の演算処理装置１０（表示制御部２４，情報管理部２６）は、発音期間Ｘ2の時間長Ｔ2が所定の閾値ＴREFを下回る選択音符内の音素が音声変化条件を充足する場合に（ＳB7：YES）、当該音素について音声変化を発生させる（ＳB8，ＳB9）。

具体的には、表示制御部２４は、図８に例示される通り、選択音符の複数の音素のうち音声変化条件を充足する音素（以下「特定音素」という）の音素記号ＱBの表示態様を、初期的な態様（以下「通常状態」という）から、通常状態とは相違する表示態様（以下「変化状態」という）に変更する（ＳB8）。変化状態は、特定音素の脱落を視覚的に判別可能な表示態様である。図８では、音素[i]の音素記号ＱBに取消線（脱落を連想させる記号）を付加した場合が例示されている。したがって、利用者は、特定音素の音素記号ＱBを表示態様の変更後にも視覚的に把握することが可能である。なお、特定音素の音素記号ＱBの表示態様が既に変化状態に変更されている場合にはステップＳB8の表示態様の変更は省略される。

また、情報管理部２６は、選択音符の複数の音素のうち音声変化条件を充足する特定音素の脱落を合成情報Ｓに設定する（ＳB9）。具体的には、情報管理部２６は、図９に例示される通り、合成情報Ｓが指定する複数の音素の音素記号ＱBのうち特定音素（図８に例示された音素[i]）の音素記号ＱBに変化情報Ｆを付加する。変化情報Ｆは、脱落対象の音素を識別するための情報（例えばフラグ）である。

他方、変更後の発音期間Ｘ2の時間長Ｔ2が閾値ＴREFを上回る場合（ＳB6；NO）、または、時間長Ｔ2は閾値ＴREFを下回るけれども選択音符の何れの音素も音声変化条件を充足しない場合（ＳB7：NO）には、選択音符の各音素について音声変化の発生は設定されない（ＳB10，ＳB11）。具体的には、表示制御部２４は、選択音符の各音素の音素記号ＱBの表示態様を通常状態に設定する（ＳB10）。すなわち、音素記号ＱBの表示状態が通常状態である場合には通常状態に維持され、音素記号ＱBの表示態様が変化状態である場合には通常状態に変更される。以上に説明した通り、表示制御部２４は、音声変化（脱落）の対象となる特定音素と音声変化の対象外の音素とで音素記号ＱBの表示態様を相違させる。したがって、利用者は、編集画面４０に表示された各音符の音素のうち脱落対象となる音素を視覚的および直観的に把握することが可能である。

また、情報管理部２６は、選択音符の各音素について音声変化の設定を解除する（ＳB11）。具体的には、情報管理部２６は、選択音符の何れかの音素の音素記号ＱBに変化情報Ｆが付加されている場合には当該変化情報Ｆを削除する。すなわち、選択音符の発音期間Ｘ2が閾値ＴREFを上回る時間長Ｔ2に設定された場合、または、選択音符の発音期間Ｘ2が閾値ＴREFを下回る時間長Ｔ2に短縮された場合でも、選択音符の何れの音素も音声変化条件を充足しない場合には、選択音符の各音素について音声変化の発生は設定されない。以上の説明から理解される通り、第１実施形態の情報管理部２６は、選択音符の発音期間Ｘ2の時間長Ｔ2が閾値ＴREFを下回る場合に、当該選択音符の音声符号Ｘ3に対応する複数の音素のうち音声変化条件を充足する音素について音声変化の発生を合成情報Ｓに設定する一方、選択音符の発音期間Ｘ2の時間長Ｔ2が閾値ＴREFを上回る場合には音声変化の発生を設定しない。以上が編集処理ＳA1の具体例である。

図１０は、図５の音声合成処理ＳA3の具体例のフローチャートである。音声合成処理ＳA3を開始すると、音声合成部２８は、合成情報Ｓが音符毎に指定する各音声符号Ｘ3に対応した音声素片Ｐを記憶装置１２内の音声素片群Ｌから順次に選択する（ＳC1）。例えば、図７および図８に例示された“あした”の各音声単位が音声符号Ｘ3として指定された場合、音声合成部２８は、図１１に例示される通り、“あした”の各音声符号Ｘ3に対応する複数の音声素片Ｐ（[Sil-a]，[a-S]，[S-i]，[i-t]，[t-a]，[a-Sil]）を音声素片群Ｌから選択する。

音声合成部２８は、ステップＳC1で選択した複数の音声素片Ｐの時系列から、合成情報Ｓにて脱落が設定された音素（音素記号ＱBに変化情報Ｆが付加された音素）を除去する（ＳC2）。例えば、図１１に例示された複数の音声素片Ｐのうち、図８の例示の通り、音声単位「し」の母音の音素[i]について脱落が指示された場合を想定する。音声合成部２８は、脱落対象の音素[i]を含む[S-i]の音声素片Ｐ1と[i-t]の音声素片Ｐ2とを選択し、音声素片Ｐ1内の後方に位置する[i]の音素ｐBと、音声素片Ｐ2内の前方に位置する[i]の音素ｐAとの双方を除去する。音声素片Ｐ1および音声素片Ｐ2の各々における音素ｐAと音素ｐBとの境界は、各音声素片Ｐとともに記憶装置１２に記憶された前掲の境界情報Ｂで特定される。

音声合成部２８は、脱落対象の音素の除去後の各音声素片Ｐを、合成情報Ｓが指定する音高Ｘ1および発音期間Ｘ2に調整したうえで相互に連結することで音声信号Ｖを生成する（ＳC3）。したがって、図１１の音声素片Ｐ1と音声素片Ｐ2とに着目すると、音声素片Ｐ1内の前方に位置する[S]の音素ｐAと音声素片Ｐ2内の後方に位置する[t]の音素ｐBとが時間軸上で相互に連結される。

以上に説明した通り、第１実施形態では、合成情報Ｓで指定される発音内容（音声符号Ｘ3）に対応する複数の音素のうち時間長Ｔ2が閾値ＴREFを下回る発音期間Ｘ2に対応する音素について音声変化（脱落）の発生が合成情報Ｓに設定され、時間長Ｔ2が閾値ＴREFを上回る音素については音声変化の発生が設定されない。したがって、合成対象の音声の各音素が所定の条件に該当するか否かのみに応じて音声変化の有無が一律に決定される特許文献１の技術と比較すると、発音期間が短い音素に脱落等の音声変化が発生し易い（発音期間が充分に確保された音素では音声変化が発生し難い）という傾向を忠実に反映した歌唱音声を生成できるという利点がある。また、第１実施形態では、時間長Ｔ2が閾値ＴREFを下回る発音期間Ｘ2に対応する複数の音素のうち条件情報Ｃが指定する音声変化条件を充足する音素について音声変化の発生が設定されるから、言語的に不自然な音声変化（例えば通常の発音時には発生し得ない音声変化）は防止される。したがって、言語的にも自然な歌唱音声を生成できるという利点がある。

また、第１実施形態では、既存の各音声素片Ｐを部分的に除去することで音素の脱落が再現される。したがって、音素の脱落を想定した音声素片Ｐを事前に用意する必要がない。例えば図１１の例示では、[S-t]という音声素片Ｐを事前に用意する必要がない。したがって、記憶装置１２に必要な記憶容量（音声素片群Ｌのデータ量）が削減されるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。複数の音素が連続的に素早く発音された場合（相前後する音素の間隔が短い場合）には当該音素について脱落等の音声変化が発生し易いという傾向がある。以上の傾向を考慮して、第２実施形態では、相前後する音符の各発音期間Ｘ2の間隔が短い場合に音声変化を発生させる。なお、以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図１２は、第２実施形態における編集処理ＳA1の具体例のフローチャートである。編集処理ＳA1を開始すると、表示制御部２４は、第１実施形態と同様に、合成情報Ｓに応じた編集画面４０を表示装置１４に表示させる（ＳB1）。図１３には、“good guy”という文字列の各音声単位（“good”，“guy”）を各音符に指定した場合の編集画面４０が例示されている。

利用者による発音期間Ｘ2の時間長Ｔ2の変更指示（ＳB2：YES）に応じて音符図像４２の表示長の変更（ＳB4）と合成情報Ｓ内の発音期間Ｘ2の時間長Ｔ2の更新（ＳB5）とが実行されると、情報管理部２６は、時間長Ｔ2が変更された選択音符の発音期間Ｘ2_Aと選択音符の直前または直後の音符の発音期間Ｘ2_Bとの時間的な間隔Ｄが所定の閾値ＤREFを下回るか否かを判定する（ＳB6）。閾値ＤREFは、例えば合成楽曲の所定の音価（例えば４分音符の１個分の時間長）として指定される。

間隔Ｄは、選択音符の時間長Ｔ2の伸縮により変更された間隔である。すなわち、選択音符の発音期間Ｘ2の終端（終了時刻）の移動により時間長Ｔ2が変更された場合には、選択音符の発音期間Ｘ2と直後の音符の発音期間Ｘ2との間隔Ｄが閾値ＤREFと比較され、選択音符の発音期間Ｘ2の始端（開始時刻）の移動により時間長Ｔ2が変更された場合には、選択音符の発音期間Ｘ2と直前の音符の発音期間Ｘ2との間隔Ｄが閾値ＤREFと比較される。ステップＳB6の判定は、時間軸上で相前後する各音符図像４２の表示上の間隔が所定の閾値を下回るか否かを判定する処理と同視され得る。

間隔Ｄが閾値ＤREFを下回る場合（ＳB6：YES）、情報管理部２６は、間隔Ｄで相前後する各音符（選択音符と直前または直後の音符）の音声符号Ｘ3に対応する何れかの音素が、条件情報Ｃで指定される脱落の音声変化条件を充足するか否かを判定する（ＳB7）。音声変化条件を充足する特定音素が存在する場合（ＳB7：YES）、表示制御部２４は、図１４に例示される通り、特定音素の音素記号ＱBの表示態様を、通常状態から変化状態に変更する（ＳB8）。図１４では、音声単位“good”が付与された音符の発音期間Ｘ2_Aと音声単位“guy”が付与された音符の発音期間Ｘ2_Bとの間隔Ｄが閾値ＤREFを下回る結果（ＳB6：YES）、発音期間Ｘ2_Aに対応する音素[d]の音素記号ＱBの表示態様が変化状態に変更された場合が例示されている。情報管理部２６は、第１実施形態と同様に、特定音素の脱落を合成情報Ｓに設定する（ＳB9）。すなわち、合成情報Ｓのうち特定音素の音素記号ＱBに変化情報Ｆを付加する。

他方、間隔Ｄが閾値ＤREFを上回る場合（ＳB6：NO）、または、間隔Ｄは閾値ＤREFを下回るけれども各音符の何れの音素も音声変化条件を充足しない場合（ＳB7：NO）、間隔Ｄで相前後する各音符の音素については、第１実施形態と同様に音声変化の発生は設定されない（ＳB10，ＳB11）。具体的には、表示制御部２４は、図１３に例示される通り、発音期間Ｘ2_Aおよび発音期間Ｘ2_Bの各々の音声符号Ｘ3に対応する音素の音素記号ＱBの表示態様を通常状態に設定し（ＳB10）、情報管理部２６は、発音期間Ｘ2_Aおよび発音期間Ｘ2_Bの各々の音素について音声変化の設定を解除する（ＳB11）。以上の説明から理解される通り、第２実施形態の情報管理部２６は、時間軸上で相前後する発音期間Ｘ2_A（第１発音期間）と発音期間Ｘ2_B（第２発音期間）との間隔Ｄが閾値ＤREFを下回る場合に、発音期間Ｘ2_Aまたは発音期間Ｘ2_Bの音声符号Ｘ3に対応する複数の音素のうち音声変化条件を充足する音素について音声変化の発生を合成情報Ｓに設定する一方、間隔Ｄが閾値ＤREFを上回る場合には音声変化の発生を設定しない。以上が第２実施形態における編集処理ＳA1の具体例である。

図１４の例示のように“good guy”の各音声単位（音節）が音声符号Ｘ3として２個の音符に割当てられた場合、音声合成部２８は、音声合成処理ＳA3のステップＳC1において、図１５に例示される通り、各音声符号Ｘ3に対応する複数の音声素片Ｐ（[Sil-gh]，[gh-U]，[U-d]，[d-gh]，[gh-aI]，[aI-Sil]）を音声素片群Ｌから選択する（ＳC1）。

ところで、前掲の図１１の例示のように母音の音素[i]を脱落させる場合には、図１１の例示の通り、当該音素[i]を包含する音声素片Ｐ1および音声素片Ｐ2の双方から音素[i]を除去する処理が好適である。しかし、図１５に例示された音素[d]のように特定の種類の子音の音素[d]を脱落させる場合にも、第１実施形態で例示した母音の脱落時と同様に、当該音素[d]を含む[U-d]の音声素片Ｐ1および[d-gh]の音声素片Ｐ2の双方から音素[d]を除去すると、以下に詳述する通り、聴感的に不自然な音声が生成される可能性がある。

図１６は、図１５に例示された音声素片Ｐ1および音声素片Ｐ2の時間波形の模式図である。[U-d]の音声素片Ｐ1内の後方に位置する[d]の音素ｐBの区間は、直前の[U]の音素ｐAが減衰して発音が終了するとともに、音素[d]の発音が可能な状態となるように声道が舌で閉鎖される区間（音素[U]の終了後は無音に維持される区間）である。すなわち、音声素片Ｐ1の音素ｐBの区間は、音素[d]を実際に発音するための準備の区間（促音「ッ」に相当する区間）とも換言され得る。声道は、声帯で発生した音声の調音に寄与する調音器官であり、咽頭と口腔とを含む管腔の全体に相当する。

他方、[d-gh]の音声素片Ｐ2内の前方に位置する[d]の音素ｐAの区間は、音素ｐBの区間で閉鎖された声道を破裂的に解放する（閉鎖状態にある声道の上流側に圧縮された空気を一気に解放する）ことで音素[d]が実際に発音される区間である。以上に例示した音素[d]のように、調音器官たる声道の阻害（閉鎖または収縮）により調音される子音（例えば破裂音，破擦音，摩擦音）のうち声道の閉鎖を発音の要件とする音素を、以下の説明では閉鎖型の阻害音と表記する。具体的には、破裂音（[d][t][b][p][k][g][q]等）および破擦音（[ts]等）が閉鎖型の阻害音の典型例である。母音および閉鎖型の阻害音（破裂音または破擦音）以外の音素（鼻音，流音，半母音，摩擦音）では、基本的には音素の脱落は発生しないという傾向がある。なお、破擦音の音素について脱落を禁止することも可能である。

以上に説明した各音声素片Ｐを前提として、閉鎖型の阻害音である音素[d]の脱落を想定する。第１実施形態で例示した母音の脱落時と同様に、脱落対象の音素[d]を包含する[U-d]の音声素片Ｐ1および[d-gh]の音声素片Ｐ2の双方から音素[d]を除去した場合、音素[U]の直後に音素[gh]が後続するから、「グガイ（gugai）」と発音したような不自然な音声が生成される可能性がある。

以上の事情を考慮して、第２実施形態の音声合成部２８は、閉鎖型の阻害音の音素[d]が脱落対象として指示された場合、図１５に例示される通り、音素[d]を包含する[U-d]の音声素片Ｐ1と[d-gh]の音声素片Ｐ2とのうち、音声素片Ｐ2内の前方に位置する[d]の音素ｐAを除去し、音声素片Ｐ1内の後方に位置する[d]の音素ｐBを維持する（ＳC2）。したがって、音声合成処理ＳA3のステップＳC3では、図１５から理解される通り、音声素片Ｐ1内の後方に位置する[d]の音素ｐBと、音声素片Ｐ2内の後方に位置する[gh]の音素ｐBとが連結される。すなわち、音素[U]の発音と音素[gh]の発音との間には、音声素片Ｐ1の音素ｐBに対応する区間（音素[d]の発音のために声道を閉鎖した無音の区間）が挿入され、「グッガイ」と発音したような自然な音声が生成される。

なお、第２実施形態のように、脱落が指示された音素の種類（母音／閉鎖型の阻害音）に応じて音声素片Ｐの処理を相違させる構成では、音素の種類の判別が必要である。音素の種類を判別するための構成は任意であるが、例えば、音素の種類を表す情報を音声素片群Ｌの各音声素片に付加する構成が好適である。また、閉鎖型の阻害音のみについて音素の脱落を許容する構成（母音の音素は脱落させない構成）では、音素の種類の判別が省略され得る。

第２実施形態では、合成情報Ｓで指定される発音内容（音声符号Ｘ3）に対応する複数の音素のうち間隔Ｄが閾値ＤREFを下回る各発音期間Ｘ2に対応する音素について音声変化（脱落）の発生が合成情報Ｓに設定される。したがって、合成対象の音声の各音素が所定の条件に該当するか否かのみに応じて音声変化の有無が一律に決定される特許文献１の技術と比較すると、各音素の間隔が短い場合に脱落等の音声変化が発生し易い（各音素が充分な間隔で発音された場合には音声変化は発生し難い）という傾向を忠実に反映した歌唱音声を生成できるという効果が実現される。また、第２実施形態では、間隔Ｄが閾値ＤREFを下回る発音期間Ｘ2に対応する複数の音素のうち条件情報Ｃが指定する音声変化条件を充足する音素について音声変化の発生が設定されるから、言語的に不自然な音声変化（例えば通常の発音時には発生し得ない音声変化）は防止される。したがって、言語的にも自然な歌唱音声を生成できるという利点がある。

また、第２実施形態では、閉鎖型の阻害音の音素の脱落が指示された場合に、当該音素を包含する音声素片Ｐ2の音素ｐAが除去され、音声素片Ｐ1の音素ｐBと音声素片Ｐ2の音素ｐBとが連結されるから、前述の通り、閉鎖型の阻害音等の子音についても聴感的に自然な音声が生成されるという利点がある。

＜第３実施形態＞
第３実施形態では、第２実施形態と同様に、間隔Ｄが閾値ＤREFを下回る各発音期間Ｘ2に対応する音素について合成情報Ｓに音声変化の発生が設定される。図１７は、第３実施形態における編集画面４０の模式図である。図１７に例示される通り、第３実施形態の編集画面４０には間隔画像５２が配置される。間隔画像５２は、相前後する各発音期間Ｘ2の間隔Ｄを表象する画像である。表示制御部２４は、間隔Ｄが閾値ＤREFを上回る各発音期間Ｘ2の間（すなわち音声変化が発生しない各発音期間Ｘ2の間）に間隔画像５２を配置し、間隔Ｄが閾値ＤREFを下回る各発音期間Ｘ2の間（すなわち音声変化が発生し得る各発音期間Ｘ2の間）には間隔画像５２を配置しない。したがって、第３実施形態によれば、相前後する発音期間Ｘ2について音声変化が発生し得るか否かを利用者が視覚的および直観的に把握できるという利点がある。

なお、間隔画像５２の具体的な態様は適宜に変更される。例えば、図１８の例示のように、音高軸の方向に延在する帯状の間隔画像５２を各発音期間Ｘ2の間に配置する構成や、図１９の例示のように、編集画面４０の周縁に沿って時間軸の方向に延在する所定幅の領域５０内に間隔画像５２を配置する構成が採用される。

＜脱落の具体例＞
脱落の具体例を以下に列挙する。なお、以下の説明では、合成楽曲の１個の音符の範囲を波括弧（中括弧）｛｝で表現し、脱落が発生し得る音素を山括弧〈〉で表現した。
（１）日本語の場合
“なくて（無くて）”：｛[n][a]｝｛[k]〈M〉｝｛[t][e]｝
“いつも”：｛[i]｝｛[ts]〈M〉｝｛[m][o]｝
（２）英語の場合
“good day”：｛[gh][U]〈d〉｝｛[d][eI]｝
“let it be”：｛[l0][e][t]｝｛[I]〈t〉｝｛[bh][i:]｝
“fight”：｛[f][aI]〈t〉｝

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）第１実施形態では、合成情報Ｓのうち利用者が脱落を指示した音素の音素記号ＱBに変化情報Ｆを付加したが、以下に例示される通り、合成情報Ｓに音素の音声変化を設定するための構成は任意である。

［ａ］図２０に例示される通り、合成情報Ｓのうち脱落対象として指示された音素[i]の音素記号ＱBを、脱落（無声化）に対応する音素記号[i_0]に置換する構成（以下「構成Ａ」という）が採用される。記号“_0”は、母音の無声化を意味する（X-SAMPA）。図２０の合成情報Ｓを適用した音声合成処理ＳA3では、無声化した音素[i_0]を含む音声素片Ｐ（[S-i_0]，[i_0-t]）が選択される。すなわち、構成Ａでは、多数の音素の各々について、無声化した音素との組合せに対応する音声素片Ｐを用意する必要がある。他方、前述の各形態では、音声素片Ｐの部分的な除去で音素の脱落が再現されるから、無声化した音素を含む音声素片Ｐは原理的には不要である。したがって、記憶装置１２に必要な容量（音声素片群Ｌのデータ量）の削減という観点からは、構成Ａと比較して前述の各形態が好適である。

［ｂ］図２１に例示される通り、合成情報Ｓのうち脱落対象に指示された音素[i]の音素記号ＱBを削除する構成（以下「構成Ｂ」という）が採用される。図２１の合成情報Ｓを適用した音声合成処理ＳA3では、音素[i]を包含しない各音声素片（[Sil-a]，[a-S]，[S-t]，[t-a]，[a-Sil]）が音声素片群Ｌから選択される。すなわち、構成Ｂでは、脱落対象となり得る音素の前後に位置する可能性がある各音素の組合せ毎に音声素片Ｐ（例えば音素[S]と音素[t]との組合せに相当する音声素片[S-t]）を用意する必要がある。したがって、記憶装置１２に必要な容量の削減という観点からは、構成Ｂと比較して前述の各形態が好適である。また、音素[S]に音素[i]が後続する[S-i]の音声素片Ｐと、音素[S]に音素[t]が後続する[S-t]の音声素片Ｐとでは、厳密には音素[S]の音色が相違する。具体的には、第１実施形態のように音声素片Ｐの音素[i]を事後的に除去する場合のほうが、事前に用意された[S-t]を利用する構成Ｂと比較して、脱落対象の音素の直前の音素[S]の音色が聴感的に自然であるという傾向がある。したがって、音声の自然性という観点からも、構成Ｂと比較して前述の各形態が好適である。

（２）音声変化条件（条件情報Ｃ）を可変に制御することも可能である。例えば、脱落等の音声変化の条件は言語体系にも依存するという傾向がある。したがって、音声符号Ｘ3の言語に応じて音声変化条件を変化させる構成が好適である。例えば、英語では母音の脱落が発生し難い（基本的には発生しない）という傾向がある。したがって、音声符号Ｘ3を日本語で指定する動作モード（日本語モード）では母音の脱落が許容されるように条件情報Ｃを設定し、音声符号Ｘ3を英語で指定する動作モード（英語モード）では母音の脱落が禁止される（例えば第２実施形態のように閉鎖型の阻害音の音素の脱落のみが許容される）ように条件情報Ｃを設定する構成が好適である。

（３）前述の各形態では、音素記号ＱBに取消線を付加することで音素の脱落を表現したが、音素の脱落を表現する具体的な表示態様は適宜に変更され得る。例えば、脱落が指示された音素の音素記号ＱBの色彩や彩度を変更する（例えばグレーアウトさせる）ことも可能である。また、脱落対象の音素の音素記号ＱBを消去する構成も採用され得る。ただし、音素記号ＱBを消去する構成では、脱落対象の音素を利用者が表示態様の変更後に視覚的に確認できないという問題がある。前述の各形態では、脱落対象の音素の音素記号ＱBの表示態様が、視覚的に識別可能な状態を維持したまま変更されるから、表示態様の変更後にも利用者が脱落対象の音素の音素記号ＱBを確認できるという利点がある。

（４）前述の各形態では、音素の脱落を例示したが、脱落以外の音声変化を再現する場合にも前述の各形態を採用することが可能である。脱落以外の音声変化としては、例えば、各音素が前後の音素に類似する音素に変化する同化や、相前後する２個の音素が１個の音単位（音節）に置換される連結（例えば[n][a]→[na]）等が例示され得る。以上の例示から理解される通り、音声変化は、相連続する音素を発音する場合（特に素早く発音する場合）に各音素の発音を容易化するように発生する音韻の変化として包括的に表現され得る。

（５）前述の各形態では、音声素片Ｐを利用した素片接続型の音声合成処理ＳA3を例示したが、編集処理ＳA1で生成された合成情報Ｓを適用した音声合成には公知の技術が任意に採用される。例えば、隠れマルコフモデル（HMM: Hidden Markov Model）等の確率モデルを利用して、合成情報Ｓで指定された合成楽曲の歌唱音声を合成することも可能である。例えば、音声合成部２８は、合成情報Ｓの音高Ｘ1および発音期間Ｘ2に応じて音高の時間遷移（ピッチカーブ）を算定するとともに当該時間遷移で音高が変化する基礎信号（例えば声帯の発声音を表す正弦波信号）を生成し、編集処理ＳA1の実行後の合成情報Ｓが指定する音声符号Ｘ3に応じたフィルタ処理（例えば口腔内での共鳴を近似するフィルタ処理）を基礎信号に対して実行することで音声信号Ｖを生成する。

（６）前述の各形態では、２個の音素を連結した音声素片Ｐ（ダイフォン）を例示したが、３個以上の音素を連結した音声素片Ｐを利用することも可能である。３個以上の音素を連結した音声素片Ｐでは、１個の音声素片Ｐの先頭の音素が前述の各形態の音素ｐAに相当し、１個の音声素片Ｐの末尾の音素が前述の各形態の音素ｐBに相当する。

（７）前述の各形態では、合成情報Ｓの管理（表示制御部２４および情報管理部２６）と音声信号Ｖの生成との双方を実行する音声合成装置１００を例示したが、合成情報Ｓを管理する合成情報管理装置としても本発明は特定され得る。合成情報管理装置では音声合成部２８の有無は不問である。また、携帯電話機等の端末装置と通信するサーバ装置で音声合成装置１００や合成情報管理装置を実現することも可能である。指示受付部２２は、利用者が端末装置に付与した指示を端末装置から通信網を介して受付け、表示制御部２４は、例えば編集画面４０の画像データを端末装置に送信することで編集画面４０を端末装置の表示装置に表示させる。また、音声合成部２８は、音声合成処理ＳA3で生成した音声信号Ｖを端末装置に送信する。

（８）前述の各形態では、音声素片群Ｌと合成情報Ｓとを記憶する記憶装置１２を音声合成装置１００に搭載したが、音声合成装置１００とは独立した外部装置（例えばサーバ装置）が音声素片群Ｌや合成情報Ｓを記憶する構成も採用される。音声合成装置１００は、例えば通信網を介して音声素片群Ｌまたは合成情報Ｓを取得して編集処理ＳA1や音声合成処理ＳA3を実行する。以上の説明から理解される通り、音声素片群Ｌや合成情報Ｓを記憶する要素は音声合成装置１００の必須の要素ではない。

（９）前述の各形態では、合成楽曲の歌唱音声の音声信号Ｖの生成を例示したが、歌唱音声以外の音声（例えば会話音等）の音声信号Ｖの生成にも本発明を適用することが可能である。したがって、歌唱音声の合成に好適な音高Ｘ1は合成情報Ｓから省略され得る。以上の説明から理解される通り、以上の各態様に例示した合成情報Ｓは、合成対象となる音声の発音内容を指定する情報として包括的に表現される。なお、音声変化の有無を音素毎に個別に制御する必要性は、歌唱音声を合成する場面で特に顕在化するから、本発明は、歌唱音声の合成に格別に好適である。

（１０）前述の各形態では、日本語および英語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、スペイン語、中国語、韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……入力装置、１８……放音装置、２２……指示受付部、２４……表示制御部、２６……情報管理部、２８……音声合成部、４０……編集画面、４２……音符図像。

Claims

合成対象音声の音声符号を発音期間毎に指定する合成情報を管理する合成情報管理装置であって、
利用者からの指示を受付ける指示受付手段と、
前記合成情報が指定する複数の発音期間のうち相前後する第１発音期間と第２発音期間との間隔を利用者からの指示に応じて変化させ、当該間隔が閾値を下回る場合に、前記第１発音期間または前記第２発音期間の音声符号に対応した音素について音声変化の発生を前記合成情報に設定する一方、当該間隔が閾値を上回る場合には音声変化の発生を設定しない情報管理手段と
を具備する合成情報管理装置。
前記情報管理手段は、前記音声符号に対応した複数の音素のうち音声変化の発生条件を充足する音素について音声変化の発生を設定する
請求項１の合成情報管理装置。
前記合成情報は、楽曲を構成する各音符と各音符の音声符号とを指定する情報であって、当該楽曲の歌唱音声の音声合成に適用され、
前記合成情報が指定する各音符を表象する音符図像と、前記各音符の音声符号に対応する音素記号とを、音高軸と時間軸とが設定された領域内に配置した編集画面を表示装置に表示させる手段であって、前記合成情報に音声変化の発生が設定された音素の音素記号と音声変化の発生が設定されていない音素の音素記号とを相異なる表示態様で表示させる表示制御手段
を具備する請求項１または請求項２の合成情報管理装置。
前記合成情報は、楽曲を構成する各音符と各音符の音声符号とを指定する情報であって、当該楽曲の歌唱音声の音声合成に適用され、
前記合成情報が指定する各音符を表象する音符図像と、前記各音符の音声符号に対応する音素記号とを、音高軸と時間軸とが設定された領域内に配置した編集画面を表示装置に表示させる手段であって、前記第１発音期間と前記第２発音期間との間隔が前記閾値を上回る場合に、当該間隔を表象する間隔画像を表示させる表示制御手段
を具備する請求項１の合成情報管理装置。