JP6439288B2

JP6439288B2 - 合成情報管理装置および合成情報管理方法

Info

Publication number: JP6439288B2
Application number: JP2014125138A
Authority: JP
Inventors: 入山　達也; 達也入山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-06-18
Filing date: 2014-06-18
Publication date: 2018-12-19
Anticipated expiration: 2034-06-18
Also published as: JP2016004189A

Description

本発明は、音声合成に適用される合成情報を管理する技術に関する。

複数の音声素片を相互に連結することで所望の発音内容の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献１には、利用者が任意に指定した発音文字の音声を合成する技術が開示されている。

特開２０１２−０２２１２１号公報

しかし、特許文献１の技術のもとでは、利用者は、音符毎の発音期間と発音文字とを指定できるに過ぎず、発音文字に対応する各音素間の連続性（離間／近接の度合）を調整することはできない。したがって、利用者の意図と比較して前後の各音素が極端に近接または離間した聴感的に不自然ないし不明瞭な音声が合成されるという問題や、利用者の意図や嗜好に沿った個性的ないし特徴的な表情の音声を合成できないという問題があった。以上の事情を考慮して、本発明は、前後の音素間の位置関係を視覚的かつ直感的に確認しながら利用者が音素間の位置関係（離間／近接）を調整することが可能な音声合成を実現することを目的とする。

以上の課題を解決するために、本発明の第１態様に係る合成情報管理装置は、合成音声の発音内容を指定する合成情報を管理する合成情報管理装置であって、利用者からの指示を受付ける指示受付手段と、前記合成情報が指定する発音内容に対応する複数の音素の音素記号の時系列を表示装置に表示させる手段であって、前記指示受付手段が利用者から受付けた指示に応じて、前記複数の音素のうち第１音素の音素記号と当該第１音素の直後の第２音素の音素記号との間に、前記第１音素と前記第２音素との時間軸上における位置関係を示す接続指示子を表示させる表示制御手段と、前記第１音素と前記第２音素とが時間軸上で前記接続指示子に応じた位置関係となるように前記合成情報を編集する情報管理手段とを具備する。以上の構成では、利用者から受付けた指示に応じて、第１音素の音素記号と第２音素の音素記号との間に、時間軸上における位置関係を示す接続指示子を表示させるとともに、第１音素と第２音素とが時間軸上において接続指示子に応じた位置関係となるように合成情報が編集されるから、利用者が前後の音素間の位置関係を視覚的かつ直感的に確認しながら音素の位置関係を調整することが可能である。

第１態様に係る合成情報管理装置の好適例において、前記表示制御手段は、前記指示受付手段が利用者から受付けた指示に応じて、前記第１音素と前記第２音素との近接を示す近接指示子を、前記第１音素の音素記号と前記第２音素の音素記号との間に前記接続指示子として表示させ、前記情報管理手段は、前記近接指示子に応じて前記第１音素と前記第２音素とが時間軸上で接近するように前記合成情報を編集する。以上の態様では、利用者から受付けた指示に応じて、第１音素の音素記号と第２音素の音素記号との間に、第１音素と第２音素との近接を示す接続指示子を表示させるとともに、第１音素と第２音素とが時間軸上において近接指示子に応じて接近するように合成情報が編集されるから、相前後する音素の近接を利用者が視覚的かつ直感的に確認しながら、音素同士を接近させることが可能になるという効果を奏する。また、利用者が意図や嗜好に沿って音素間の連続性の度合いを調整することが可能であるので、個性的ないし特徴的な表情の音声を合成することが可能になるという利点がある。

第１態様に係る合成情報管理装置の好適例において、前記表示制御手段は、前記指示受付手段が利用者から受付けた指示に応じて、前記第１音素と前記第２音素との離間を示す離間指示子を、前記第１音素の音素記号と前記第２音素の音素記号との間に前記接続指示子として表示させ、前記情報管理手段は、前記離間指示子に応じて前記第１音素と前記第２音素とが時間軸上で離間するように前記合成情報を編集する。以上の態様では、利用者から受付けた指示に応じて、第１音素の音素記号と第２音素の音素記号との間に、第１音素と第２音素との離間を示す離間指示子を表示させるとともに、第１音素と第２音素とが時間軸上において離間指示子に応じて離間するように合成情報が編集されるから、相前後する音素の離間を利用者が視覚的かつ直感的に確認しながら、音素同士を離間させることが可能になるという効果を奏する。また、利用者が意図や嗜好に沿って音素間の連続性の度合いを調整することが可能であるので、個性的ないし特徴的な表情の音声を合成することが可能になるという利点がある。

第１態様に係る合成情報管理装置の好適例において、前記表示制御手段は、前記指示受付手段が利用者から受付けた指示に応じて、前記複数の音素のうち第１音素の音素記号と当該第１音素の直後の第２音素の音素記号との間に、時間軸上における前記第１音素と前記第２音素との近接または離間の程度を示す指標値を表示させ、前記情報管理手段は、前記指標値に応じて前記第１音素と前記第２音素とが時間軸上で接近または離間するように前記合成情報を更新する。以上の態様では、利用者から受付けた指示に応じて、第１音素の音素記号と第２音素の音素記号との間に、第１音素と第２音素との近接または離間の程度を示す指標値を表示させるとともに、第１音素と第２音素とが時間軸上において指標値に応じて接近または離間するように合成情報が編集されるから、相前後する音素の近接または離間の程度を、利用者が視覚的かつ直感的に確認しながら、音素同士の位置関係を調整することが可能になるという効果を奏する。また、利用者が意図や嗜好に沿って音素間の連続性の度合いを調整することが可能であるので、個性的ないし特徴的な表情の音声を合成することが可能になるという利点がある。

本発明の第２態様に係る合成情報管理装置は、合成音声の発音内容を指定する合成情報を管理する合成情報管理装置であって、前記合成情報が指定する発音内容に対応する複数の音素の音素記号の時系列を表示装置に表示させる手段であって、前記複数の音素のうち第１音素の音素記号と当該第１音素の直後の第２音素の音素記号との間に、前記第１音素と前記第２音素との時間軸上における離間の程度を指定する操作指示子を表示させる表示制御手段と、前記操作指示子の操作を利用者から受付ける指示受付手段と、前記第１音素と前記第２音素との時間軸上における位置関係が、前記操作指示子の操作量に応じて離間するように前記合成情報を更新する情報管理手段とを具備する。以上の態様では、利用者から受付けた指示に応じて、第１音素の音素記号と第２音素の音素記号との間に、第１音素と第２音素との離間の程度を指定する操作指示子を表示させるとともに、第１音素と第２音素とが時間軸上において操作指示子の操作量に応じて離間するように合成情報が編集されるから、相前後する音素の離間の程度を、利用者が視覚的かつ直感的に確認しながら、音素同士の位置関係を調整することが可能になるという効果を奏する。例えば、操作指示子の操作量が大きいときに離間の程度を大きくする構成としてもよい。また、利用者が意図や嗜好に沿って音素間の連続性の度合いを調整することが可能であるので、個性的ないし特徴的な表情の音声を合成することが可能になるという利点がある。

以上の各態様に係る合成情報管理装置は、合成情報の編集や音声信号の生成に専用されるDSP（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、CPU（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る合成情報管理装置の動作方法（合成情報管理方法）としても特定される。

第１実施形態に係る音声合成装置１００のブロック図である。合成情報の模式図である。楽曲の一部の模式図である。編集画面の模式図である。音声素片の説明図である。第１実施形態に係る音声合成装置１００の概略的な動作のフローチャートである。第１実施形態に係る編集処理のフローチャートである。離間指示子ＣSの表示例の説明図である。近接指示子ＣCの表示例の説明図である。音声合成部２８によって生成された音声信号Ｖの波形図である。第１実施形態に係る音声合成処理のフローチャートである。音素間の間隔の調整（離間）の説明図である。音素間の間隔の調整（近接）の説明図である。離間指示子ＣSの表示例の別の態様の説明図である。第２実施形態に係る編集処理のフローチャートである。離間指示子ＣSおよび指標値Ｉの表示例の説明図である。第２実施形態に係る音声合成処理のフローチャートである。音声素片の融合の説明図である。第３実施形態に係る編集処理のフローチャートである。操作指示子４４の表示例の説明図である。第３実施形態の音声合成処理のフローチャートである。操作指示子４４の表示例の説明図である。操作指示子４４の表示例の説明図である。操作指示子４４の表示例の説明図である。操作指示子４４の表示例の説明図である。操作指示子４４の表示例の説明図である。操作指示子４４の表示例の説明図である。操作指示子４４の表示例の説明図である。対比例における制御変数の編集の説明図である。メゾスタッカートの楽譜の一例である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。第１実施形態の音声合成装置１００は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲（以下「合成楽曲」という）の歌唱音声の音声信号Ｖを生成する信号処理装置である。第１実施形態では、利用者から受付けた指示に応じて、時間軸上において相前後する音素同士の相互の位置関係が調整された音声信号Ｖを生成する。

図１に例示される通り、音声合成装置１００は、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステム（例えば携帯電話機やパーソナルコンピュータ等の情報処理装置）で実現される。表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、音声合成装置１００に対する各種の指示のために利用者が操作する操作機器（例えばマウス等のポインティングデバイスやキーボード）であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置１４と一体に構成されたタッチパネルを入力装置１６として採用することも可能である。放音装置１８（例えばスピーカやヘッドホン）は、音声信号Ｖに応じた音響を再生する。

記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。第１実施形態の記憶装置１２は、以下に例示する通り、音声素片群Ｌと合成情報Ｓとを記憶する。

音声素片群Ｌは、特定の発声者の収録音声から事前に採取された複数の音声素片Ｐの集合（音声合成用ライブラリ）である。図５に例示される通り、第１実施形態における音声素片群Ｌは、音素ｐAと音素ｐBとを連結した音素連鎖（ダイフォン）を含む。音素（後方音素）ｐBは、音素（前方音素）ｐAの後方に位置する。各音声素片Ｐは、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。なお、以下の説明では、無音を便宜的に１個の音素と位置付けて記号“Sil”で表記する。

第１実施形態の音声素片群Ｌには、２個の音素の組合せ毎に、各音素の位置関係を相違させた複数種の音声素片Ｐが記憶される。例えば、音素ｐAと音素ｐBとの特定の組合せに対応する音声素片については、音素ｐAと音素ｐBとの間隔が標準的な基準値に設定された音声素片Ｐ（以降「標準素片Ｐ0」という）のほか、音素ｐAと音素ｐBとの間隔が基準値を上回る（すなわち音素ｐAと音素ｐBとが標準素片Ｐ0と比較して離間した）音声素片Ｐ（以降「離間型素片Ｐ1」という）と、音素ｐAと音素ｐBとの間隔が基準値を下回る（すなわち音素ｐAと音素ｐBとが標準素片Ｐ0と比較して近接した）音声素片Ｐ（以降「近接型素片Ｐ2」という）とが音声素片群Ｌに包含される。ただし、２個の音素の全通りの組合せについて音素間の位置関係が相違する複数種の音声素片（離間型素片Ｐ1，近接型素片Ｐ2）が事前に用意されるわけではなく、標準素片Ｐ0以外の音声素片（離間型素片Ｐ1，近接型素片Ｐ2）が音声素片群Ｌに用意されていない２音素の組合せも存在する。

合成情報Ｓは、図２に例示される通り、合成楽曲の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に音高（例えばノートナンバー）Ｘ1と発音期間Ｘ2と音声符号Ｘ3とを時系列に指定する。発音期間Ｘ2は、音符の時間長（音価）であり、例えば発音の開始時刻Ｔ1と時間長（継続長）Ｔ2とで規定される。なお、発音期間Ｘ2を発音の開始時刻Ｔ1と終了時刻とで規定する構成（両時刻間の時間長が時間長Ｔ2として算定され得る構成）も好適である。以上の説明から理解される通り、合成情報Ｓは、合成楽曲の楽譜を指定する時系列データとも換言され得る。音声符号Ｘ3は、合成対象の音声の発音内容（すなわち合成楽曲の歌詞）を指定する。具体的には、音声符号Ｘ3は、合成楽曲の１個の音符について発音される音声単位（例えば音節やモーラ）を指定する情報であり、当該音声単位に対応する発音文字ＱAと、当該音声単位を構成する各音素の音素記号ＱBとを含んで構成される。発音文字ＱAは、合成楽曲の歌詞を構成する文字（書記素）に相当する。また、第１実施形態では、利用者から受け付けられた指示に応じて、複数の音素の時系列のうち任意の音素（第１音素）の直後に、当該音素と、当該音素の直後の音素（第２音素）との位置関係を規定する音素間情報ＱCが付加される。音素間情報ＱCは、具体的には、第１音素と第２音素との時間軸上における離間または近接を規定する。

図１の演算処理装置１０（ＣＰＵ）は、記憶装置１２に格納されたプログラムを実行することで、合成情報Ｓの編集や音声信号Ｖの生成のための複数の機能（指示受付部２２，表示制御部２４，情報管理部２６，音声合成部２８）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、専用の電子回路（例えばＤＳＰ）が演算処理装置１０の一部の機能を実現する構成も採用され得る。指示受付部２２と表示制御部２４と情報管理部２６とは、例えば楽曲編集用のソフトウェア（エディタ）で実現され、音声合成部２８は、例えば音声合成用のソフトウェア（音声合成エンジン）で実現される。ただし、演算処理装置１０の各機能と各機能を実現するソフトウェアの切分けとの関係は以上の例示に限定されない。

指示受付部２２は、入力装置１６に対する操作に応じた利用者からの指示を受付ける。表示制御部２４は、各種の画像を表示装置１４に表示させる。具体的には、第１実施形態の表示制御部２４は、合成情報Ｓが指定する合成楽曲の内容を利用者が確認するための図４の編集画面４０を表示装置１４に表示させる。編集画面４０は、相互に交差する時間軸（横軸）および音高軸（縦軸）が設定されたピアノロール型の座標平面である。

表示制御部２４は、合成情報Ｓが指定する音符毎に音符図像４２と発音文字ＱAと音素記号ＱBとを編集画面４０に時系列に配置する。図４は、図３に示される楽曲の“I wanted to see”という歌詞（文字列）の各音声単位“I”，“wan-”，“ted”，“to”，“see”を音声符号Ｘ3として５個の音符に割当てた編集画面４０を例示している。なお、図の例では、複数の文字列に対応する音声符号Ｘ3を１つの音符に割当てているが、１つの文字に対応する音声符号Ｘ3を１つの音符に割当てる構成としてもよい。音符図像４２は、合成楽曲の各音符を表象する画像である。具体的には、音高軸の方向における音符図像４２の位置は、合成情報Ｓが指定する音高Ｘ1に応じて設定される。また、時間軸の方向における音符図像４２の位置は、合成情報Ｓが指定する発音期間Ｘ2の開始時刻Ｔ1に応じて設定され、時間軸の方向における音符図像４２の表示長（サイズ）は、合成情報Ｓが指定する発音期間Ｘ2の時間長Ｔ2に応じて設定される。すなわち、時間長Ｔ2が長い音符ほど音符図像４２の時間軸上の表示長は長い。発音文字ＱAおよび音素記号ＱBは音符図像４２の内部に配置される。以上の説明から理解される通り、編集画面４０は、合成楽曲の歌詞（発音内容）に対応した発音文字ＱAと各音素の音素記号ＱBとを時系列に配置した画像である。なお、発音文字ＱAや音素記号ＱBの位置は適宜に変更される。例えば、発音文字ＱAおよび音素記号ＱBの一方または双方を音符図像４２の近傍（外側）に配置することも可能である。また、発音文字ＱAの表示を省略した構成や、音素記号ＱBの表示を省略した構成も採用され得る。

利用者は、図４の編集画面４０を確認しながら入力装置１６を適宜に操作することで、音符図像４２の追加または移動や発音文字ＱAの追加または変更を指示することが可能である。また、利用者は入力装置１６を適宜に操作することで、編集画面４０に表示された複数の音素記号ＱBの時系列のうち、任意の音素（第１音素）の音素記号ＱBと、当該音素の直後の音素（第２音素）の音素記号ＱBとの間に、第１音素と第２音素との時間軸上における位置関係を指示することが可能である。

図１の情報管理部２６は、編集画面４０に対する利用者からの指示に応じて合成情報Ｓを編集する。例えば、情報管理部２６は、音高軸の方向における音符図像４２の移動の指示に応じて、合成情報Ｓのうち当該音符図像４２に対応する音符の音高Ｘ1を変更する。また、情報管理部２６は、時間軸の方向における音符図像４２の位置に応じて、合成情報Ｓのうち当該音符図像４２に対応する音符の発音期間Ｘ2の開始時刻Ｔ1を変更し、音符図像４２の時間軸上の表示長に応じて、合成情報Ｓのうち当該音符図像４２に対応する音符の発音期間Ｘ2の時間長Ｔ2を変更する。すなわち、音符図像４２の表示長を変更する指示は、発音期間Ｘ2の時間長Ｔ2を変更する指示に相当する。任意の音符の発音文字ＱAが変更された場合、情報管理部２６は、合成情報Ｓのうち当該音符に対応する発音文字ＱAを変更するとともに当該音符の各音素記号ＱBを変更後の発音文字ＱAに応じて更新する。また、情報管理部２６は、第１音素と第２音素との時間軸上における位置関係が、利用者から受付けた指示に応じた位置関係となるように、第１音素の音素記号ＱBの直後に、利用者の指示に応じた位置関係を示す音素間情報ＱCを追加する。

図１の音声合成部２８は、記憶装置１２に記憶された音声素片群Ｌと合成情報Ｓとを利用して音声信号Ｖを生成する。具体的には、音声合成部２８は、合成情報Ｓが指定する音符毎の音声符号Ｘ3に応じた音声素片Ｐを音声素片群Ｌから順次に選択し、各音声素片Ｐを音高Ｘ1および発音期間Ｘ2に調整して相互に連結することで歌唱音声の音声信号Ｖを生成する。音声合成部２８が生成した音声信号Ｖが放音装置１８に供給されることで、合成楽曲の歌唱音声が再生される。

図６は、第１実施形態に係る音声合成装置１００の概略的な動作のフローチャートである。例えば合成情報Ｓの編集が利用者から指示された場合に図６の処理が開始される。演算処理装置１０（表示制御部２４，情報管理部２６）は、合成情報Ｓに応じた編集画面４０を表示装置１４に表示させ（ＳA1）、指示受付部２２が利用者から受付ける指示に応じて合成情報Ｓを編集するとともに、編集内容に応じて編集画面４０を更新する編集処理ＳA2を実行する。編集処理ＳA2を実行すると、演算処理装置１０は、音声合成が利用者から指示されたか否かを判定し（ＳA3）、音声合成が指示された場合（ＳA3：YES）には、合成情報Ｓで指定される歌唱音声の音声信号Ｖを生成する音声合成処理ＳA4を実行する。音声合成が指示されない場合（ＳA3：NO）には音声合成処理ＳA4は実行されない。

演算処理装置１０は、処理終了が利用者から指示されたか否かを判定する（ＳA5）。処理終了が指示されていない場合（ＳA5：NO）、演算処理装置１０は編集処理ＳA2を実行する。他方、処理終了が指示された場合（ＳA5：YES）、演算処理装置１０は図６の処理を終了する。

利用者は、編集画面４０のうち所望の音声符号Ｘ3が包含される音符の音符図像４２を対象として、音声符号Ｘ3に包含される第１音素の音素記号ＱBの直後に、第１音素と第２音素とを時間軸上で離間または近接させる旨を指示することが可能である。図７は、図６の編集処理ＳA2のうち第１音素と第２音素とを離間または近接させる指示が利用者から受付けられた場合に実行される処理のフローチャートである。指示受付部２２が音素間の離間または近接の指示を受付けた場合、表示制御部２４は、編集画面４０の第１音素の音素記号ＱBの直後に接続指示子Ｃを表示させる（ＳB1）。情報管理部２６は、離間指示子ＣSまたは近接指示子ＣCに応じて第１音素[n]と第２音素[t]とが時間軸上において離間または接近するように、離間または近接を規定する音素間情報ＱCを合成情報Ｓに追加する（ＳB2）。表示制御部２４および情報管理部２６による処理の具体例を以下に詳述する。

＜相前後する音素同士の離間＞
図８は、接続指示子の一態様の説明図（図４の一部の再掲）である。利用者は、入力装置１６を適宜に操作することで、編集画面４０に表示された複数の音素記号ＱBの時系列のうち相前後する任意の各音素記号ＱBに対応する各音素を時間軸上で離間させる指示を付与することが可能である。例えば、利用者は、任意の１個の音素記号ＱBを選択したうえで、当該音素記号ＱBの音素（第１音素）と直後の音素（第２音素）との離間を指示し得る。図８では、“wan-”の音声符号Ｘ3に包含される音素[n]（第１音素）と、“ted”の音声符号Ｘ3に包含される[t]（第２音素）とを時間軸上で離間させる指示を、指示受付部２２が利用者から受付けた場合が想定されている。以上の指示が受付けられると、表示制御部２４は、編集画面４０上における第１音素[n]の音素記号ＱBの直後に、第１音素と第２音素との時間軸上における離間を表象する離間指示子（ドット『．』）ＣSを接続指示子Ｃとして表示させる。また、情報管理部２６は、離間指示子ＣSに応じて、第１音素[n]の直後に第１音素[n]と第２音素[t]との時間軸上における離間を規定する音素間情報ＱCを追加する。以上の説明から理解される通り、第１実施形態では、複数の音素記号ＱBの時系列と、利用者からの指示に応じた接続指示子Ｃ（離間指示子ＣS）とが編集画面４０上に表示されるから、利用者は、合成楽曲の歌詞に包含される複数の音素を確認しながら、第１音素[n]と第２音素[t]との連続性の度合を調整（離間）することが可能である。

なお、離間指示子ＣSの表示態様は任意である。例えば図８に例示した記号以外に、任意の文字列や任意の画像等を離間指示子ＣSとして表示させる態様も採用され得る。また、以上の説明では、第１音素[n]を包含する“wan-”の音声符号Ｘ3と、第２音素[t]を包含する“ted”の音声符号Ｘ3とは別個の音符図像４２に対応していたが、第１音素と第２音素とが１つの音符区間（音符図像４２）に包含される構成も採用され得る。例えば、図１４に例示するように、第１音素[t]と、第２音素[I]との間に、接続指示子Ｃを表示させる構成としてもよい。

＜相前後する音素同士の近接＞
図９は、接続指示子の一態様の説明図（図４の一部の再掲）である。図９では、“wan-”の音声符号Ｘ3に包含される音素[n]（第１音素）と、“ted”の音声符号Ｘ3に包含される[t]（第２音素）とを時間軸上で近接させる指示を、指示受付部２２が利用者から受付けた場合が想定されている。以上の指示が受付けられると、表示制御部２４は、編集画面４０上における第１音素[n]の音素記号ＱBの直後に、第１音素と第２音素との時間軸上における離間を表象する近接指示子（ハイフン『-』およびバックスラッシュ『＼』）ＣCを接続指示子Ｃとして表示させる。また、情報管理部２６は、近接指示子ＣCに応じて、第１音素[n]の直後に第１音素[n]と第２音素[t]との時間軸上における近接を規定する音素間情報ＱCを追加する。以上の説明から理解される通り、第１実施形態では、複数の音素記号ＱBの時系列と、利用者からの指示に応じた接続指示子Ｃ（近接指示子ＣC）とが編集画面４０上に表示されるから、利用者は合成楽曲の歌詞に包含される複数の音素を確認しながら、第１音素[n]と第２音素[t]との連続性の度合を調整（接近）することが可能である。なお、近接指示子ＣCの表示態様は、図９に例示した記号以外に、任意の文字列や任意の画像等が採用され得る。

図１０は、音声合成部２８が音声合成処理ＳA4で生成する音声信号Ｖの波形図である。具体的には、図４に例示した内容の合成情報Ｓのもとで生成された音声信号Ｖの波形が図１０では例示されている。図１０に矩形上で囲まれた部分は、音声素片群Ｌのうち、音素[n]および音素[t]を包含する区間を示している。以下の説明では、音素[n]と音素[t]との間隔に特に着目する。

図１１は、図６に例示した音声合成処理ＳA4の具体例のフローチャートである。音声合成処理ＳA4を開始すると、音声合成部２８は、合成情報Ｓが音符毎に指定する各音声符号Ｘ3に応じた選択対象の音声素片のうち前方の音素について音素間情報ＱCが付加されているか否かを判定する（ＳC1）。音素間情報ＱCが付加されていない場合（ＳC1：NO）、音声合成部２８は、音声符号Ｘ3に応じた標準素片Ｐ0を音声素片群Ｌから選択する（ＳC2）。他方、音素間情報ＱCが付加されている場合（ＳC1：YES）、音声合成部２８は、音素間情報ＱCが離間／近接のいずれを規定するかを判定する（ＳC3）。

例えば、図８に例示されるように、離間を規定する音素間情報ＱCが設定されている場合（ＳC3：離間）、音声合成部２８は、第１音素[n]と第２音素[t]との間隔が基準値よりも離間した離間型の[n.t]の音声素片Ｐ（離間型素片Ｐ1）が音声素片群Ｌに存在するか否かを判定する（ＳC4）。音声素片群Ｌに離間型素片Ｐ1が存在する場合（ＳC4：YES）、音声合成部２８は音声素片群Ｌから離間型素片Ｐ1を選択する（ＳC5）。他方、音声素片群Ｌに離間型素片Ｐ1が存在しない場合（ＳC4：NO）、音声合成部２８は、第１音素[n]と第２音素[t]との間隔が基準値に設定された[n-t]の音声素片Ｐ（標準素片Ｐ0）を音声素片群Ｌから選択し、標準素片Ｐ0における第１音素[n]と第２音素[t]との間隔を伸張する（ＳC6）。具体的には、図１２に例示されるように、第１音素[n]の終了から第２音素[t]の開始までの間隔ＤをＤ1（Ｄ1＞Ｄ）に伸長する。間隔Ｄ1は、例えば初期的な間隔Ｄに対して所定の比率（＞１）を乗算した時間長である。

他方、図９に例示されるように、近接を規定する音素間情報ＱCが設定されている場合（ＳC3：近接）、音声合成部２８は、第１音素[n]と第２音素[t]との間隔が基準値よりも近接した近接型の[n-＼t]の音声素片Ｐ（近接型素片Ｐ2）が音声素片群Ｌに存在するか否かを判定する（ＳC7）。音声素片群Ｌに、近接型素片Ｐ2が存在する場合（ＳC7：YES）、音声合成部２８は近接型素片Ｐ2を選択する（ＳC8）。他方、音声素片群Ｌに近接型素片Ｐ2が存在しない場合（ＳC7：NO）、音声合成部２８は、標準素片Ｐ0を音声素片群Ｌから選択し、標準素片Ｐ0における第１音素[n]と第２音素[t]との間隔を短縮する（ＳC9）。具体的には、図１３に例示されるように、第１音素[n]の終了から第２音素[t]の開始までの間隔ＤをＤ2（Ｄ2＜Ｄ）に短縮する。間隔Ｄ2は、例えば初期的な間隔Ｄに対して所定の比率（＜１）を乗算した時間長である。

音声合成部２８は、以上に説明した各処理（ＳC2,ＳC5，ＳC6，ＳC8，ＳC9）で選択または伸縮した音声素片Ｐを、合成情報Ｓが指定する音高Ｘ1および発音期間Ｘ2に調整したうえで相互に連結することで音声信号Ｖを生成する（ＳC10）。音声合成部２８は、合成情報Ｓに包含される全部の音素を処理したか否かを判定し（ＳC11）、処理が完了していない場合（ＳC11：NO）には、処理をステップＳC1に移行し、合成情報Ｓが指定する他の音素について同様の処理を実行する。他方、処理が完了した場合（ＳC11：YES）、音声合成部２８は音声合成処理ＳA4を終了する。

以上に説明した通り、第１実施形態では、利用者からの指示に応じて、複数の音素記号ＱBの時系列と、音声符号Ｘ3に包含される第１音素[n]と第２音素[t]との離間または近接を規定する接続指示子Ｃ（離間指示子ＣSまたは近接指示子ＣC）を表示させる。したがって、利用者は、時系列に配置される複数の音素（音素記号ＱB）を編集画面４０上で視覚的かつ直感的に確認しながら、第１音素[n]と第２音素[t]との連続性の度合を調整（離間または接近）することができる。第１実施形態によれば、利用者は自らの意図や嗜好に沿った個性的ないし特徴的な表情の音声を合成することが可能になるとともに、前後の各音素が極端に近接または離間した聴感的に不自然ないし不明瞭な音声が合成される事態を回避することができるという利点がある。

また、第１実施形態では、第１音素と第２音素との間隔が基準値以上である離間型素片Ｐ1（[n．t]の音声素片Ｐ1）、または、第１音素と第２音素との間隔が基準値以下である近接型素片Ｐ2（[n-＼t]の音声素片Ｐ2）が音声素片群Ｌに存在しない場合に、既存の標準素片Ｐ0（[n-t]の音声素片）における第１音素[n]と第２音素[t]との間隔（区間Ｄ）を伸縮する。したがって、２個の音素の全通りの組合せについて、各音素の位置関係を相違させた複数種の音声素片（離間型素片Ｐ1,近接型素片Ｐ2）を記憶する必要がないから、記憶装置１２の記憶容量を削減できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。第１実施形態では、接続指示子Ｃ（離間指示子ＣS，近接指示子ＣC）に応じて、第１音素と第２音素とを離間または接近させる構成を例示した。第２実施形態では、第１音素と第２音素との離間または近接の程度を示す指標値の指示を利用者から受付け、第１音素と第２音素とを指標値に応じて離間または近接させる。

図１５は、編集処理ＳA2のうち、第１音素と第２音素とを離間または近接させる指示と、指標値とが利用者から受付けられた場合に実行される処理の具体例のフローチャートである。第２実施形態の編集処理ＳA2では、第１実施形態の編集処理ＳA2におけるＳB2の処理がＳD1およびＳD2の処理に置き換えられる。指示受付部２２が音素間の離間または近接の指示に続いて指標値の指示を受付けた場合、表示制御部２４は、編集画面４０の第１音素の音素記号ＱBの直後の接続指示子Ｃの近傍に、離間または近接の程度を示す指標値Ｉを表示させる（ＳD1）。情報管理部２６は、接続指示子Ｃ（離間指示子ＣSまたは近接指示子ＣC）と指標値Ｉとに応じて第１音素[n]と第２音素[t]とが時間軸上において離間または接近するように、離間または近接、および、指標値Ｉを規定する音素間情報ＱCを合成情報Ｓに追加する（ＳD2）。第２実施形態における表示制御部２４および情報管理部２６による処理の具体例を以下に詳述する。

図１６は、接続指示子Ｃおよび指標値Ｉの表示例の説明図である。利用者は、入力装置１６を適宜操作することで、編集画面４０に表示された複数の音素記号ＱBの時系列のうち相前後する各音素記号ＱBに対応する各音素の時間軸上における離間または近接の程度を規定する指標値Ｉを指示することが可能である。例えば、利用者は任意の１個の音素記号ＱBを選択したうえで、当該音素記号ＱBの音素（第１音素）と直後の音素（第２音素）との離間または近接の程度を示す指標値を指示し得る。指標値は、第１音素と第２音素との離間（近接）の程度を0から100までの範囲で相対的に規定する整数である。なお、指標値Ｉの数値と離間の程度との対応関係は任意に定められる。例えば、指標値Ｉが最大値（100）の場合（すなわち、離間の程度が最大である場合）は、離間指示子ＣSのみが指示された場合と同程度に第１音素と第２音素とを時間軸上で離間させる。他方、指標値Ｉが最小値（0）の場合（すなわち、離間の程度が最小である場合）は、近接指示子ＣCのみが指示された場合と同程度に第１音素と第２音素とを時間軸上で近接させる。図１６では、“wan-”の音声符号Ｘ3に包含される音素[n]（第１音素）と、“ted”の音声符号Ｘ3に包含される[t]（第２音素）とを時間軸上で離間させる指示と、指標値Ｉ（80）とを指示受付部２２が利用者から受付けた場合が想定されている。以上の指示が受付けられると、表示制御部２４は、編集画面４０上における第１音素[n]の音素記号ＱBの直後に、第１音素と第２音素との時間軸上における離間を表象する離間指示子ＣSを接続指示子Ｃとして表示させるとともに、指標値Ｉ（80）を離間指示子ＣSの直後に表示させる。また、情報管理部２６は、離間指示子ＣSと指標値Ｉ（80）とに応じて、第１音素[n]の直後に第１音素[n]と第２音素[t]との時間軸上における離間と、離間の程度（指標値Ｉ）とを規定する音素間情報ＱCを追加する。以上の説明から理解される通り、第２実施形態では、複数の音素記号ＱBの時系列と、利用者からの指示に応じた接続指示子Ｃ（離間指示子ＣS）と、指標値Ｉとが編集画面４０上に表示されるから、利用者は、合成楽曲の歌詞に包含される複数の音素と、相前後する音素間の間隔を確認しながら、第１音素[n]と第２音素[t]との連続性の度合を調整（離間）することが可能である。

図１７は、第２実施形態における音声合成処理ＳA4の具体例のフローチャートである。第２実施形態の音声合成処理ＳA4では、第１実施形態の音声合成処理ＳA4におけるＳC4からＳC9の処理が、ＳE1およびＳE2の処理の処理に置き換えられる。離間を規定する音素間情報ＱCが設定されている場合（ＳC3：離間）、音声合成部２８は、音声符号Ｘ3に対応する標準素片Ｐ0と離間型素片Ｐ1とを音声素片群Ｌから選択するとともに、指標値Ｉに応じて標準素片Ｐ0と離間型素片Ｐ1とを融合する（ＳE1）。

図１８は、第２実施形態における音声素片の融合の説明図である。音声素片群Ｌから[n-t]の標準素片Ｐ0と[n．t]の離間型素片Ｐ1とを選択すると、音声合成部２８は、[n．t]の離間型素片Ｐ1と[n-t]の標準素片Ｐ0とを、指標値Ｉ（80）に応じた比率で融合する。具体的には、離間型素片Ｐ1が指標値（80）に応じた割合となるように、離間型素片Ｐ1と標準素片Ｐ0とを８：２の比率で融合して、[n・(80)t]の音声素片Ｐ3を生成する。以上の説明から理解されるように、指標値Ｉは、第１音素[n]と第２音素[t]の離間の程度を、離間型素片Ｐ1と標準素片Ｐ0との融合における離間型素片Ｐ1の割合（80／100）の形で規定する。図１８に例示されるように、音声素片Ｐ3における第１音素[n]の終了から第２音素[t]の開始までの間隔Ｄ3は、離間型素片Ｐ1における音素間の間隔Ｄ1と標準素片Ｐ0における音素間の間隔Ｄとの間の範囲内で指標値Ｉに応じた時間長に設定される。

図１７に戻り、近接を規定する音素間情報ＱCが設定されている場合（ＳC3：近接）、音声合成部２８は、標準素片Ｐ0と近接型素片Ｐ2とを音声素片群Ｌから選択し、指標値Ｉに応じて標準素片Ｐ0と近接型素片Ｐ2とを融合する（ＳE2）。標準素片Ｐ0と近接型素片Ｐ2との合成については図示を省略したが、例えば、指標値Ｉ（80）が指示された場合には、図１８の例と同様に近接型素片Ｐ2が指標値Ｉ（80）に応じた割合となるように、近接型素片Ｐ2と標準素片Ｐ0とを８：２の比率で融合することで[n-＼(80)t]の音声素片Ｐを生成する。音声合成部２８は、以上に説明した各処理（ＳC2,ＳE1，ＳE2）で選択または生成した音声素片Ｐを、合成情報Ｓが指定する音高Ｘ1および発音期間Ｘ2に調整したうえで相互に連結することで音声信号Ｖを生成する（ＳC10）。以降の処理については第１実施形態と同様であるので説明を省略する。

以上に説明した通り、第２実施形態では利用者からの指示に応じて、複数の音素記号ＱBの時系列と、接続指示子Ｃ（離間指示子ＣSまたは近接指示子ＣC）と、離間または近接の程度を規定する指標値Ｉとを表示させる。したがって、利用者は、時系列に配置される複数の音素（音素記号ＱB）を編集画面４０上で視覚的かつ直感的に確認しながら、第１音素[n]と、第２音素[t]との連続性の度合を指標値Ｉに応じて細かに調整（離間または接近）することが可能である。具体的には、利用者が自らの意図や嗜好に沿った個性的ないし特徴的な表情の音声を合成することが可能になるという効果や、前後の各音素が極端に近接または離間した聴感的に不自然ないし不明瞭な音声が合成される事態を回避することができるという効果は、第２実施形態において顕著である。

＜第３実施形態＞
本発明の第３実施形態を以下に説明する。第２実施形態では、第１音素と第２音素との離間または近接の程度を規定する指標値を利用者が数値で指示する構成を例示した。第３実施形態では、複数の音素記号ＱBの時系列と操作指示子（スライダー）とを編集画面４０に表示させ、操作指示子の操作量に応じて第１音素と第２音素との離間の程度を示す指標値を設定する。

図１９は、編集処理ＳA2のうち、操作指示子を表示させる指示が利用者から受付けられた場合に実行される処理の具体例のフローチャートである。第３実施形態の表示制御部２４は、音声符号Ｘ3に包含される第１音素の音素記号ＱBを包含する音符図像４２のうち発音期間の終点に対応する縁辺の線上に操作指示子４４を表示させる（ＳF1）。指示受付部２２は、利用者から操作指示子４４を介して操作を受付けるまで待機し（ＳF2:NO）、利用者から操作指示子４４を介して離間の程度を指示する操作を受付けた場合（ＳF2:YES）、情報管理部２６は、操作指示子４４の操作量Ｍに応じて第１音素[n]と第２音素[t]とが時間軸上において離間するように、操作量Ｍを規定する音素間情報ＱCを合成情報Ｓに追加する（ＳF3）。第３実施形態における表示制御部２４および情報管理部２６による処理の具体例を以下に詳述する。

図２０は、操作指示子４４の表示例の説明図である。操作指示子４４は、編集画面４０における第１音素[n]を包含する音声符号Ｘ3に対応した音符図像４２のうち、発音期間の終点に対応する縁辺の線上に配置されている。利用者は、当該縁辺に沿って（すなわち音高軸の方向に）、操作指示子４４を当該音符図像４２の上辺から下辺までの範囲内で移動させることが可能である。なお、操作指示子４４の操作量Ｍと離間の程度との対応関係は任意に定められる。第３実施形態では、操作指示子４４が初期的に配置される音符図像４２の上辺上の地点Oを起点として、起点0から音高軸下方向への操作量Ｍが大きくなるほど、離間の程度が大きくなるように構成している。利用者は、操作指示子４４を、起点Oから音高軸下方向にスライドさせる操作により、第１音素[n]と第２音素[t]との時間軸上における離間と離間の程度とを、一度の操作で指示することが可能である。図２０では、“wan-”の音素記号ＱBに包含される音素[n]（第１音素）と、“ted”の音素記号ＱBに包含される音素[t]（第２音素）とを操作量Ｍ(40)に応じた程度だけ離間させる指示が付与された場合が想定されている。以上の指示が受付けられると、表示制御部２４は、操作量Ｍに応じて、第１音素[n]を包含する音符図像４２に、発音期間の終点に対応する縁辺上の一点と、上辺上の一点とを結ぶ直線とで規定される切欠きが形成されるように音符図像４２の形状を変化させる。図２０から理解される通り、操作量Ｍの増加に連動して切欠きが大きくなる。

利用者からの指示が受付けられると、情報管理部２６は、操作量Ｍに応じた指標値Ｉを音素間情報ＱCに追加する。第３実施形態の指標値Ｉは、第１音素と第２音素との離間の程度を0から100までの範囲で相対的に規定する整数である。例えば、指標値Ｉが最大値（100）の場合（すなわち、離間の程度が最大である場合）は、離間指示子ＣSのみが指示された場合と同程度に第１音素と第２音素とを時間軸上で離間させる。他方、指標値Ｉが最小値（0）の場合（すなわち、離間の程度が最小である場合）には第１音素と第２音素との時間軸上における位置関係の調整を行わない。他方、指標値Ｉが最小値を上回り最大値を下回るとき（指標値Ｉ：0＜Ｉ＜100）、当該指標値Ｉに応じて、第１音素と第２音素とを時間軸上で離間させる。

図２１は、第３実施形態の音声合成処理ＳA4のフローチャートである。第３実施形態の音声合成処理ＳA4では、第２実施形態の音声合成処理ＳA4におけるＳC3，ＳE1，ＳE2の処理が、ＳG1からＳG3の処理に置き換えられる。音声合成部２８は、音素間情報ＱCが規定する指標値Ｉが最大値(100)および最小値(0)のいずれかに該当するか否かを判定する（ＳG1）。指標値Ｉが最大値(Ｉ＝100)である場合は、音声合成部２８によって離間型素片Ｐ1が選択される。他方、指標値Ｉが最小値(Ｉ＝0)である場合には、音声合成部２８によって標準素片Ｐ0が選択される。指標値Ｉが最大値および最小値のいずれにも該当しない場合[指標値Ｉ：0＜Ｉ＜100）]（ＳG1：NO）、音声合成部２８は、離間型素片Ｐ1と標準素片Ｐ0とを音声素片群Ｌから選択し、指標値Ｉに応じた比率で離間型素片Ｐ1と標準素片Ｐ0とを融合する。図２０に例示されるように、操作量Ｍ（40）に応じて指標値Ｉ=40に設定された場合、音声合成部２８は、離間型素片Ｐ1の割合が指標値Ｉに応じた割合となるように、離間型素片Ｐ1と標準素片Ｐ0とをＰ1：Ｐ0＝4：6の割合で融合する（ＳG2）。音声合成部２８は、ＳC2,ＳG2,ＳG3で選択または生成した音声素片を、合成情報Ｓが指定する音高Ｘ1および発音期間Ｘ2に調整したうえで相互に連結することで音声信号Ｖを生成する（ＳC10）。以降の処理については前述した第１実施形態と同様であるので説明を省略する。

以上に説明した通り、第３実施形態では、操作指示子４４を移動させる操作により指標値Ｉを指示することが可能である。したがって、指標値Ｉを数値で指定する第２実施形態と比較して、利用者は直感的かつ容易に指標値Ｉを指示できるという利点がある。

なお、第３実施形態では、編集画面４０における第１音素[n]を包含する音声符号Ｘ3に対応した音符図像４２のうち、発音期間の終点に対応する縁辺の線上に操作指示子４４を配置し、当該音符図像４２の上辺から下辺までの範囲内で移動させる場合を例示したが、図２２の点線で囲む領域に例示されるように、相前後する各音符図像４２の境界の近傍を拡大表示して、利用者が操作指示子４４を移動させる操作を補助することも可能である。

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）第３実施形態では、利用者による操作指示子４４の操作量Ｍに応じて第１音素[n]と、第２音素[t]との離間の程度を指示する構成を例示した。以上の構成に、操作量Ｍを規定する目盛を付加した構成も採用され得る。具体的には、図２３に例示されるように、操作指示子４４の近傍に目盛４６を表示させる態様としてもよい。上述した態様では、利用者が離間の程度を視認しやすいという利点がある。

（２）第３実施形態では、操作指示子４４の可動範囲を第１音素を包含する音符図像４２の上辺から下辺までの範囲内とし、操作量Ｍに応じた指標値Ｉ（離間の程度）を0から100の範囲の整数で規定する構成を例示したが、操作指示子４４の可動範囲は、第１音素を包含する音符図像４２の領域外（音符図像４２の下辺よりも音高軸方向において下方や、音符図像４２の上辺よりも音高軸方向において上方）であってもよい。

例えば、図２４に例示される通り、操作指示子４４が、第１音素を包含する音符図像４２の下辺よりも音高軸方向において下方にわたって操作された場合に、指標値Ｉを、100を上回る数値（Ｉ＞100）に設定してもよい。指標値Ｉが100以上であるときに、第１音素と第２音素との離間の程度が極めて高くなるように（すなわち、前後する音素間の間隔が離間型素片Ｐ1における第１音素と第２音素との間隔よりも離間するように）第１音素と第２音素との位置関係が調整される。図２４は、操作指示子４４が第１音素[n]を包含する音符図像４２の下辺よりも下方にわたって操作され、操作量Ｍに応じた指標値Ｉは150に設定された場合を想定している。以上のように音素間の離間の度合が充分に大きい場合、音声合成部２８は、標準素片Ｐ0における第１音素[n]と第２音素[t]との間に無音の音素“Sil”を挿入した[n Sil t]の音声素片Ｐを生成し、[n Sil t]の音声素片Ｐと、[n-t]の標準素片Ｐ0とを合成して指標値Ｉ（150）に応じた音声素片を生成する。

同様に、図２５に例示される通り、操作指示子４４が、第１音素を包含する音符図像４２の上辺よりも音高軸方向において上方にわたって操作された場合に、操作量Ｍに応じて指標値Ｉを負数（Ｉ＜0）と定めてもよい。指標値Ｉが負数であるときに、第１音素と第２音素との近接の程度が極めて高くなるように第１音素と第２音素との位置関係が調整される。図２５では、各音声単位“got”，“up”のうち、“gh Q t”の各音素記号ＱBに包含される音素[t]を第１音素とし、“V p”の音素記号ＱBに包含される音素[V]を第２音素としたときに、操作指示子４４が第１音素[t]を包含する音符図像４２の上辺よりも音高軸方向において上方にわたって操作され、操作量Ｍに応じた指標値Ｉが-100に設定された場合を想定している。以上のように音素間の近接の度合が充分に大きい場合、音声合成部２８は、第１音素[t]と第２音素[V]との時間軸上における間隔が、近接型素片Ｐ2における第１音素と第２音素との間隔よりも接近するように、第１音素[t]と第２音素[V]との時間軸上における間隔を近接させる。ここで、第１音素[t]は破裂音であるから、音声合成部２８は、第１音素[t]と第２音素[V]との時間軸上における間隔を近接させるように、[t-V]の音声素片Ｐと、[Q-V]の音声素片Ｐとの中間的な音声素片を生成する。以上の構成によれば、“go up（gh Q V p）”というように音素の脱落（同化）が発生する口語的な発音を実現することが可能である。なお、以上の構成に、指標値Ｉ（-100）に特定の音声素片を割当てる構成や、所定の合成比率を割り当てる構成を付加した構成も採用され得る。

（３）図２６に例示される通り、操作指示子４４の操作を、第１音素を包含する音符図像４２の領域外においても許容する構成にあっては、操作指示子４４が第１音素の音符図像４２の上辺よりも音高軸方向において上方に操作された場合に、第１音素[t]を包含する音符図像４２と第２音素[V]を包含する“V p”の音符図像４２との境界線を音高軸に対して傾斜させる構成も採用される。図２６は、操作指示子４４が第１音素[t]を包含する音符図像４２の上辺よりも音高軸方向において上方に操作され、指標値Ｉが負数（Ｉ＜0）に定められた場合を想定している。以上の構成では、指標値Ｉの正負に応じて各音符図像４２の境界線の角度が変更される（指標値Ｉが負数であることが強調表示される）から、指標値Ｉの正負を利用者が直観的に把握できるという利点がある。

（４）第３実施形態では、操作指示子４４の音高軸方向における操作量Ｍに応じて第１音素と第２音素との離間の程度を指示する構成を例示した。このほかにも、操作指示子４４の時間軸方向における操作量Ｍに応じて合成音の特性（音量，音色，抑揚等）を指示する構成も採用され得る。例えば、図２７および図２８に例示されるように、音高軸方向における操作指示子４４の操作量Ｍ1に応じて第１音素と第２音素との位置関係を調整し、かつ、時間軸方向における操作指示子４４の操作量Ｍ2に応じて各音素の特性を制御することが可能である。利用者は、時間軸上に時系列に配置される複数の音素（音声符号Ｘ3）を視覚的かつ直感的に確認しながら、第１音素と第２音素との位置関係や、合成音声の特性を一度の操作により指示することが可能である。

図２９に例示されるように、編集画面４０で指定した合成音声の特性を示す制御変数の時間変化を、制御変数指定画面７０に対する操作で利用者が任意に指定できる構成（以下「対比例」という）が従来から提案されている。対比例では、任意の音符図像４２を移動させて各音符の発音期間Ｘ2（発音時刻や継続長）を変更した場合でも制御変数の時間変化自体は変化しないから、移動後の音符について変更前と同様の特性を付与するには、発音期間Ｘ2の変更に整合するように制御変数の時間変化を利用者が修正する必要があった。これに対し、操作指示子４４の時間軸方向における操作量Ｍ2に応じて合成音の特性（音量，音色，抑揚等）を指示する前述の構成では、各音符図像４２毎に操作指示子４４を操作することで音符毎に特性が制御され、音符図像４２が時間軸方向や音高軸方向に移動された場合でも当該音符の特性を維持することが可能である。すなわち、利用者は各音符の特性を再調整する必要がない。したがって、利用者の操作が簡略化されるという利点がある。なお、第１音素および第２音素のいずれか一方を包含する音符図像４２が時間軸方向や音高軸方向に移動された場合でも、音符毎の特性を維持することが可能である。

（５）図３０の例示のように、相前後する音符を僅かに離間させる一方でフレーズの全体としては滑らかに発音する音楽の表現方法（メゾスタッカート）が知られている。各音符の発音期間Ｘ2を音符図像４２の時間軸方向の長さの調整のみで指定する従来の構成のもとでメゾスタッカートの歌唱音声を再現するには、各音符図像が適度な間隔で配列するように各音符図像４２の時間軸上の長さを利用者が個々に調整する必要がある。前述の各形態によれば、音符図像４２の時間軸上の長さとは独立に各音素の位置関係（離間／近接）を指示できるから、音符図像４２については相互間の間隔を考慮せずに楽譜通りに指定したうえで、各音素の間隔を接続指示子Ｃの付与や操作指示子４４の操作で調整することで、図３０に例示したメゾスタッカートのような微妙な表現を再現することが可能である。

（６）前述の各形態では、編集画面４０に表示される音符図像４２の内部に、発音文字ＱAおよび音素記号ＱBを配置し、第１音素[n]の音素記号ＱBの直後に、接続指示子Ｃ（離間指示子ＣSまたは近接指示子ＣC）を表示させる構成を例示したが、音素記号ＱBの表示を省略した構成も採用され得る。音素記号ＱBの表示が省略される構成では、例えば第１音素に相当する発音文字ＱAの直後に、利用者の指示に応じた接続指示子Ｃや指標値Ｉが表示される。

（７）前述の各形態では、指標値Ｉは、第１音素と第２音素との離間（近接）の程度を0から100までの範囲で相対的に規定する整数とした構成を例示したが、上述した構成と比較して指標値Ｉの範囲が狭い構成（例えば0.0〜1.0）や、上述した構成と比較して指標値Ｉの範囲が広い構成（例えば0〜300）も採用され得る。これらの構成以外にも、指標値Ｉの範囲を0を基準値とした相対値（-2.0〜2.0）で規定する構成も採用され得る。

（８）前述の各形態では、音声素片Ｐを利用した素片接続型の音声合成処理ＳA4を例示したが、編集処理ＳA2で生成された合成情報Ｓを適用した音声合成には公知の技術が任意に採用される。例えば、隠れマルコフモデル（HMM: Hidden Markov Model）等の確率モデルを利用して、合成情報Ｓで指定された合成楽曲の歌唱音声を合成することも可能である。例えば、音声合成部２８は、合成情報Ｓの音高Ｘ1および発音期間Ｘ2に応じて音高の時間遷移（ピッチカーブ）を算定するとともに当該時間遷移で音高が変化する基礎信号（例えば声帯の発声音を表す正弦波信号）を生成し、編集処理ＳA2の実行後の合成情報Ｓが指定する音声符号Ｘ3に応じたフィルタ処理（例えば口腔内での共鳴を近似するフィルタ処理）を基礎信号に対して実行することで音声信号Ｖを生成する。

（９）前述の各形態では、２個の音素を連結した音声素片Ｐ（ダイフォン）を例示したが、３個以上の音素を連結した音声素片Ｐを利用することも可能である。３個以上の音素を連結した音声素片Ｐでは、１個の音声素片Ｐの先頭の音素が前述の各形態の音素ｐAに相当し、１個の音声素片Ｐの末尾の音素が前述の各形態の音素ｐBに相当する。

（１０）前述の各形態では、音声素片群Ｌと合成情報Ｓとを記憶する記憶装置１２を音声合成装置１００に搭載したが、音声合成装置１００とは独立した外部装置（例えばサーバ装置）が音声素片群Ｌや合成情報Ｓを記憶する構成も採用される。音声合成装置１００は、例えば通信網を介して音声素片群Ｌまたは合成情報Ｓを取得して編集処理ＳA2や音声合成処理ＳA4を実行する。以上の説明から理解される通り、音声素片群Ｌや合成情報Ｓを記憶する要素は音声合成装置１００の必須の要素ではない。

（１１）前述の各形態では、合成楽曲の歌唱音声の音声信号Ｖの生成を例示したが、歌唱音声以外の音声（例えば会話音等）の音声信号Ｖの生成にも本発明を適用することが可能である。したがって、歌唱音声の合成に好適な音高Ｘ1は合成情報Ｓから省略され得る。以上の説明から理解される通り、以上の各態様に例示した合成情報Ｓは、合成対象となる音声の発音内容を指定する情報として包括的に表現される。なお、音声変化の有無を音素毎に個別に制御する必要性は、歌唱音声を合成する場面で特に顕在化するから、本発明は、歌唱音声の合成に格別に好適である。

（１２）前述の各形態では、英語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、日本語、スペイン語、中国語、韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……入力装置、１８……放音装置、２２……指示受付部、２４……表示制御部、２６……情報管理部、２８……音声合成部、４０……編集画面、４２……音符図像、４４……操作指示子。

Claims

合成音声の発音内容を指定する合成情報を管理する合成情報管理装置であって、
利用者からの指示を受付ける指示受付手段と、
時間軸と音高軸とが設定された平面内に、前記合成情報が指定する各音符を表す音符図像を表示させるとともに、前記合成情報が前記各音符について指定する発音内容に対応する複数の音素の音素記号の時系列を当該音符の音符図像の内部に表示させる手段であって、前記指示受付手段が利用者から受付けた指示に応じて、第１音素が末尾に位置する音符図像に第２音素が先頭に位置する音符図像が後続する場合における、音符図像の内部の当該第１音素の音素記号の直後の位置、または、ひとつ音符の音符図像の内部において相前後する第１音素の音素記号と第２音素の音素記号との間の位置に、前記第１音素と前記第２音素との時間軸上における位置関係を示す接続指示子を表示させる表示制御手段と、
前記第１音素と前記第２音素とが時間軸上で前記接続指示子に応じた位置関係となるように前記合成情報を編集する情報管理手段と
を具備する合成情報管理装置。
前記表示制御手段は、前記指示受付手段が利用者から受付けた指示に応じて、前記第１音素と前記第２音素との近接を示す近接指示子を前記接続指示子として表示させ、
前記情報管理手段は、前記近接指示子に応じて前記第１音素と前記第２音素とが時間軸上で接近するように前記合成情報を編集する
請求項１の合成情報管理装置。
前記表示制御手段は、前記指示受付手段が利用者から受付けた指示に応じて、前記第１音素と前記第２音素との離間を示す離間指示子を前記接続指示子として表示させ、
前記情報管理手段は、前記離間指示子に応じて前記第１音素と前記第２音素とが時間軸上で離間するように前記合成情報を編集する
請求項１の合成情報管理装置。
前記表示制御手段は、前記指示受付手段が利用者から受付けた指示に応じて、時間軸上における前記第１音素と前記第２音素との近接または離間の程度を示す指標値を表示させ、
前記情報管理手段は、前記指標値に応じて前記第１音素と前記第２音素とが時間軸上で接近または離間するように前記合成情報を更新する
請求項２または請求項３の合成情報管理装置。
合成音声の発音内容を指定する合成情報を管理する合成情報管理方法であって、
時間軸と音高軸とが設定された平面内に、前記合成情報が指定する各音符を表す音符図像を表示させるとともに、前記合成情報が前記各音符について指定する発音内容に対応する複数の音素の音素記号の時系列を当該音符の音符図像の内部に表示し、
利用者から受付けた指示に応じて、第１音素が末尾に位置する音符図像に第２音素が先頭に位置する音符図像が後続する場合における、音符図像の内部の当該第１音素の音素記号の直後の位置、または、ひとつ音符の音符図像の内部において相前後する第１音素の音素記号と第２音素の音素記号との間の位置に、前記第１音素と前記第２音素との時間軸上における位置関係を示す接続指示子を表示し、
前記第１音素と前記第２音素とが時間軸上で前記接続指示子に応じた位置関係となるように前記合成情報を編集する
合成情報管理方法。