JP6620462B2

JP6620462B2 - 合成音声編集装置、合成音声編集方法およびプログラム

Info

Publication number: JP6620462B2
Application number: JP2015164279A
Authority: JP
Inventors: 慶二郎才野
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2015-08-21
Filing date: 2015-08-21
Publication date: 2019-12-18
Anticipated expiration: 2035-08-21
Also published as: WO2017033612A1; US20180166064A1; JP2017041213A; US10497359B2

Description

本発明は、音声合成の内容を利用者に編集させる技術に関する。

多様な歌唱表現が付加された音声を合成する各種の技術が従来から提案されている。例えば非特許文献１には、多数の歌唱表現が配列されたリストを表示して利用者に所望の歌唱表現を選択させる構成が開示されている。

クリプトン・フューチャー・メディア社「Piapro Studio」V4Xの新機能紹介、[平成２７年５月２０日検索]、インターネット＜ＵＲＬ： http://www.crypton.co.jp/mp/pages/prod/vocaloid/v4x.jsp＞

しかし、非特許文献１の技術では、利用者が選択可能な全種類の歌唱表現がリストに並列に表示されるから、利用者が所望の１個の歌唱表現を選択することは実際には困難である。以上の事情を考慮して、本発明は、歌唱表現を選択する利用者の負担を軽減することを目的とする。

以上の課題を解決するために、本発明の合成音声編集装置は、利用者からの操作を受付ける指示受付手段と、合成音声の音符を表象する音符図像と、指示受付手段が受付ける操作に応じて移動する指示子とを表示装置に表示させる表示制御手段と、階層構造で規定される複数の歌唱表現の何れかを、階層毎に選択肢を利用者に順次に選択させることで、音符図像が表象する音符の合成音声に付加される歌唱表現として選択させる手段であって、階層構造における一の階層の複数の選択肢を表示装置に表示させ、当該複数の選択肢のうち一の選択肢に対応する位置に指示子が移動した場合に、階層構造において一の選択肢の下位に位置する複数の選択肢を表示装置に表示させる選択処理手段とを具備する。以上の構成では、階層毎に順次に選択肢を選択させることで複数の歌唱表現の何れかを利用者に選択させるから、利用者が選択可能な全種類の歌唱表現を一括的に表示して所望の歌唱表現を利用者に選択させる構成と比較して、利用者が所望の歌唱表現を容易に選択できるという利点がある。他方、歌唱表現が階層構造で規定される構成では、階層毎に選択肢を順次に利用者に選択させる必要がある。しかし、以上の構成では、複数の歌唱表現を規定する階層構造の一の階層における一の選択肢に対応する位置に指示子が移動した場合に、当該一の選択肢の下位に位置する複数の選択肢が表示装置に表示されるから、指示子の移動以外の操作（例えばマウスのクリック）を必要とせずに利用者が階層の一の選択肢を選択できる。したがって、指示子の移動とは別個の特定の操作により利用者が所望の選択肢を選択する構成と比較して、複数の歌唱表現の何れかを選択する利用者の負担を軽減することが可能である。なお、「選択肢に対応する位置」とは、典型的には選択肢に重なる位置であるが、選択肢の近傍の位置でもよい。

本発明の好適な態様に係る合成音声編集装置は、表示制御手段は、時間軸が設定された楽譜領域内に、時間軸上で音符の発音期間にわたる音符図像を配置し、選択処理手段は、時間軸の方向における発音期間の範囲内に指示子が移動した場合に表示装置に操作図像を表示させ、操作図像に対応する位置に指示子が移動した場合に、階層構造の最上位の階層の複数の選択肢を表示装置に表示させる。以上の構成では、音符図像で時間軸上に表象される発音期間の範囲内に指示子が移動した場合に操作図像が表示され、操作図像に対応する位置に指示子が移動した場合に階層構造の最上位の階層の複数の選択肢が表示される。したがって、操作図像が常に表示される構成と比較して表示画像が簡素化される。また、操作図像に対応する位置に指示子が移動した場合に最上位の階層の複数の選択肢が表示される（すなわち階層毎の選択肢の選択が開始される）から、指示子の移動以外の操作が操作図像に対して付加された場合（例えば操作図像のクリック）に最上位の階層の選択肢を表示する構成と比較して、利用者による操作の負担を軽減することが可能である。

本発明の好適な態様において、選択処理手段は、音符のうち特定の区間における歌唱表現を選択するための階層毎の選択肢を、音符図像の近傍で当該区間に対応した位置に表示させる。以上の構成では、音符の特定の区間における歌唱表現の選択肢が、音符図像の近傍で当該区間に対応した位置に表示されるから、歌唱表現が付加される区間と当該区間に付加される歌唱表現との関係を利用者が視覚的および直観的に把握できるという利点がある。具体的な態様において、選択処理手段は、音符のうち前方区間における歌唱表現を選択するための階層毎の選択肢を音符図像の始点側に表示させ、音符の後方区間における歌唱表現を選択するための階層毎の選択肢を音符図像の終点側に表示させる。以上の構成では、音符の前方区間（アタック部）の歌唱表現の選択肢が音符図像の始点側に表示され、後方区間（リリース部）の歌唱表現の選択肢が終点側に表示される。したがって、歌唱表現を付加する部分（始点または終点）と当該部分に付加される歌唱表現との関係を、利用者が視覚的および直観的に把握できるという利点がある。

本発明の好適な態様の合成音声編集装置は、利用者が選択した歌唱表現を音符の合成音声に付加する処理に関する制御情報を、指示受付手段が利用者から受付けた指示に応じて可変に設定する情報管理手段を具備する。以上の構成では、歌唱表現の付加に関する制御情報が利用者からの指示に応じて可変に設定されるから、利用者の嗜好や意図を反映した多様な合成音声を生成できるという利点がある。制御情報は、例えば、音符の発音期間のうち歌唱表現が付加される期間の時間比率、当該歌唱表現の音声成分を時間軸の方向に伸縮する場合の当該伸縮の度合と当該音声成分の始点側および終点側の何れを伸長させるかを示す速度変数、付加比率の最大値、歌唱表現の始点での数値から最大値までの付加比率の時間変化、および、最大値から歌唱表現の終点での数値までの付加比率の時間変化の少なくともひとつを包含する。

本発明の好適な態様において、情報管理手段は、歌唱表現に関する複数の特徴量の各々について、指示受付手段が利用者から受付けた指示に応じて制御情報を可変に設定する。以上の態様では、歌唱表現に関する複数の特徴量の各々について、利用者から受付けた指示に応じて制御情報が設定されるから、利用者の意図や嗜好を反映した多様な合成音声を生成することが可能になる。

本発明の第１実施形態に係る音声合成装置のブロック図である。合成情報の模式図である。編集画面の説明図である。歌唱表現の階層構造の説明図である。歌唱表現を選択する操作の説明図である。歌唱表現を選択する操作の説明図である。歌唱表現を選択する操作の説明図である。歌唱表現を選択する操作の説明図である。歌唱表現を選択する操作の説明図である。歌唱表現を選択する操作の説明図である。歌唱表現を選択する操作の説明図である。表現付加時間を設定する操作の説明図である。歌唱表現が選択された場合の編集画面の一例の説明図である。時間占有率の設定の説明図である。表現付加時間を設定する操作の説明図である。音声合成部の動作の説明図である。第２実施形態における制御情報設定画面の表示例である。制御情報設定画面の説明図である。速度変数と音声素片の伸縮との関係の説明図である。遷移係数と付加比率の時間変化との関係の説明図である。遷移係数を変更する操作の説明図である。第３実施形態における制御情報設定画面の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。第１実施形態の音声合成装置１００は、任意の楽曲を歌唱した歌唱音声を表す音声信号Ｖを、複数の音声素片を連結する素片接続型の音声合成で生成する信号処理装置である。図１に例示される通り、音声合成装置１００は、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステム（例えば携帯電話機やパーソナルコンピュータ等の情報処理装置）で実現される。

表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、音声合成装置１００に対する各種の指示のために利用者が操作する操作機器である。第１実施形態ではマウス等のポインティングデバイスを入力装置１６として想定する。放音装置１８（例えばスピーカやヘッドホン）は、音声信号Ｖに応じた音響を再生する。

記憶装置１２は、演算処理装置１０が実行するプログラムＰGMや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。第１実施形態の記憶装置１２は、以下に例示する通り、音声素片群Ｌと合成情報Ｓとを記憶する。

音声素片群Ｌは、特定の発声者の収録音声から事前に採取された複数の音声素片の集合（音声合成用ライブラリ）である。各音声素片は、音声の言語的な最小単位に相当する１個の音素、または、複数の音素を相互に連結した音素連鎖（ダイフォンやトライフォン）であり、時間領域の音声波形または周波数領域のスペクトルとして表現される。第１実施形態の音声素片群Ｌは、音声素片群Ｌ1と音声素片群Ｌ2とを包含する。音声素片群Ｌ1は、発声者が通常の方法で発声した音声から採取された複数の音声素片Ｐを包含する。音声素片群Ｌ2は、音声素片Ｐと発声者は共通するが声質が音声素片Ｐとは相違する複数の複数の音声素片Ｑを包含する。各音声素片Ｑは、発声者が特定の音高を特定の歌唱表現で発声した音声から採取される。具体的には、声帯や口腔の挙動を通常の発声時とは相違させた特有の歌唱表現により独特（non-modal）な声質で発声された音声から各音声素片Ｑが生成される。例えば濁声や嗄れ声や唸り声等の特徴的な歌唱表現が付加された複数の音声素片Ｑが音声素片群Ｌ2には包含される。なお、音声素片群Ｌ1の各音声素片Ｐとは別個の発声者の音声の音声素片Ｑを利用することも可能である。

合成情報Ｓは、図２に例示される通り、任意の１個の楽曲（以下「合成楽曲」という）の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に単位データＵを包含する。任意の１個の音符の単位データＵは、当該音符の音高Ｘ1と発音期間Ｘ2と音声符号Ｘ3とを指定する。音高Ｘ1は例えばＭＩＤＩ（Musical Instrument Digital Interface）のノートナンバである。発音期間Ｘ2は、音符の時間長（音価）であり、例えば発音の開始時刻と継続長（または終了時刻）とで規定される。以上の説明から理解される通り、合成情報Ｓは、合成楽曲の楽譜を指定する時系列データとも換言され得る。音声符号Ｘ3は、合成対象の音声の発音内容（すなわち合成楽曲の歌詞）を指定する。具体的には、音声符号Ｘ3は、合成楽曲の１個の音符について発音される音声単位（例えば音節やモーラ）を指定する

利用者は、合成楽曲の音符毎に所望の歌唱表現を付加することが可能である。合成情報Ｓにおいて歌唱表現が付加された音符の単位データＵには、当該歌唱表現を規定する表現情報Ｘ4が付加される。表現情報Ｘ4は、歌唱表現の種類を表す識別情報Ｅと、当該歌唱表現を合成音声に付加する処理に関する変数を含む制御情報Ｚとを包含する。第１実施形態では、利用者は、任意の１個の音符のうち始点側の前方区間（アタック部）と、当該音符のうち終点側の後方区間（リリース部）との各々について歌唱表現を指定することが可能である。すなわち、任意の１個の音符の前方区間と後方区間との各々について歌唱表現の識別情報Ｅと制御情報Ｚとが設定される。音符内で歌唱表現を付加する区間毎に表現情報Ｘ4が設定されると表現することも可能である。

図１の演算処理装置１０（ＣＰＵ）は、記憶装置１２に格納されたプログラムＰGMを実行することで、合成情報Ｓの編集や音声信号Ｖの生成のための複数の機能（指示受付部２２，表示制御部２４，選択処理部２５，情報管理部２６，音声合成部２８）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、専用の電子回路（例えばＤＳＰ）が演算処理装置１０の一部の機能を実現する構成も採用され得る。

指示受付部（指示受付手段）２２は、入力装置１６に対する操作に応じた利用者からの指示を受付ける。表示制御部（表示制御手段）２４は、各種の画像を表示装置１４に表示させる。具体的には、第１実施形態の表示制御部２４は、合成情報Ｓが指定する合成楽曲の内容を利用者が確認するための図３の編集画面４０を表示装置１４に表示させる。編集画面４０は、相互に交差する時間軸（横軸）および音高軸（縦軸）が設定されたピアノロール型の座標平面（楽譜領域）である。また、表示制御部２４は、指示受付部２２が受付ける操作に応じて移動する指示子４４を編集画面４０に表示させる。指示子４４は入力装置１６に対する操作に応じて移動することで編集画面４０の任意の位置を指定する図像（ポインタ）である。

表示制御部２４は、合成情報Ｓが指定する音符毎に音符図像４２を編集画面４０に配置する。音符図像４２は、合成楽曲の各音符を表象する図像である。具体的には、音高軸の方向における音符図像４２の位置は、合成情報Ｓが指定する音高Ｘ1に応じて設定され、時間軸の方向における音符図像４２の位置および表示長は、合成情報Ｓが指定する発音期間Ｘ2に応じて設定される。また、各音符の音符図像４２には当該音符の音声符号Ｘ3（発音文字および音素記号）が付加される。

利用者は、図３の編集画面４０を確認しながら入力装置１６を適宜に操作することで、音符図像４２の追加または移動や音声符号Ｘ3の追加または変更を指示することが可能である。表示制御部２４は、指示受付部２２が利用者から受付けた指示に応じて編集画面４０（音符図像４２や音声符号Ｘ3）を更新する。

図１の情報管理部２６は、編集画面４０に対する利用者からの指示に応じて合成情報Ｓを編集する。例えば、情報管理部２６は、音高軸の方向における音符図像４２の移動の指示に応じて、合成情報Ｓのうち当該音符図像４２に対応する音符の音高Ｘ1を変更するとともに、時間軸の方向における音符図像４２の位置または表示長の変更の指示に応じて、合成情報Ｓのうち当該音符図像４２に対応する音符の発音期間Ｘ2を変更する。また、任意の音符の音声符号Ｘ3が変更された場合、情報管理部２６は、合成情報Ｓのうち当該音符に対応する音声符号Ｘ3を変更する。

図１の選択処理部（選択処理手段）２５は、音符図像４２が表象する音符の合成音声に付加される歌唱表現を複数の候補から利用者に選択させる。利用者が選択可能な複数の歌唱表現は、複数の階層で構成される階層構造で規定される。

図４は、歌唱表現の階層構造の説明図である。音符の前方区間（attack）に付加される歌唱表現の階層構造と、後方区間（release）に付加される歌唱表現の階層構造とが図４に例示されている。図４に例示される通り、階層構造を構成する複数の階層の各々に複数の選択肢Ｃ（Ｃ1〜Ｃ3）が包含され、第２階層以降の各階層の任意の１個の選択肢Ｃは、当該階層の上位の階層の１個の選択肢Ｃに対応する。

例えば、前方区間に付加される歌唱表現の第１階層（最上位層）には、「fry（ボーカルフライ）」「growl（唸り声）」「rough（嗄れ声）」の３個の選択肢Ｃ1が包含される。第１階層の各選択肢Ｃ1は、歌唱表現の分類を意味する。第２階層には、第１階層の「fry」に対応する「slow」「creaky」の２個の選択肢Ｃ2と、第１階層の「growl」に対応する「hard」「sharp」「slow」の３個の選択肢Ｃ2と、第１階層の「rough」に対応する「slow」「sharp」の２個の選択肢Ｃ2とが包含される。第２階層の各選択肢Ｃ2は、選択肢Ｃ1の歌唱表現の特徴を表現する。例えば「slow」は、発音の立上がりが比較的に緩慢であることを意味し、「sharp」は、発音の立上がりが比較的に急峻であることを意味する。また、「hard」は、第１階層の選択肢Ｃ1に対応する歌唱表現（growl）の度合が顕著であることを意味する。また、第１階層の「rough」に対応する第２階層の「sharp」には、第３階層において相異なる声質の「type1」「type2」の２個の選択肢Ｃ3が対応付けられる。第１階層から最末端までの複数の階層にわたる選択肢Ｃの組合せで１種類の歌唱表現が規定される。具体的には、図４では、「fry-slow」「fry-creaky」「growl-hard」「growl-sharp」「growl-slow」「rough-slow」「rough-sharp-type1」「rough-sharp-type2」の８種類の歌唱表現が例示されている。以上の例示から理解される通り、第２階層以降の各階層の選択肢Ｃは複数の歌唱表現（例えばfry-slow，growl-slow，rough-slow）で共通し得る。

以上の説明では音符の前方区間の歌唱表現を例示したが、音符の後方区間の歌唱表現についても同様の階層構造で規定される。具体的には、第１階層には、吐息のように発声を緩慢に減衰させる「soft」の１個の選択肢Ｃ1が包含され、当該選択肢Ｃ1に対応する「long（長時間をかけて）」「short（短時間で）」の２個の選択肢Ｃ2が第２階層に包含される。すなわち、図４では、「soft-long」[soft-short]の２種類の歌唱表現が例示されている。以上の説明から理解される通り、図４では、音符の前方区間の８種類の歌唱表現と、音符の後方区間の２種類の歌唱表現とを含む１０種類の歌唱表現が例示されている。

任意の１種類の歌唱表現で発音された音声素片Ｑが複数の母音（ａ,ｉ,ｕ,ｅ,ｏ）の各々について音声素片群Ｌ2に包含される。具体的には、任意の１種類の母音を特定の歌唱表現で定常的に発音した音声から、当該歌唱表現に対応する当該母音の音声素片Ｑが採取される。なお、歌唱表現の種類は図４の例示に限定されない。例えば、前方区間の歌唱表現としては、音符の音高より低い音高から目的の音高に到達させる技法（いわゆる「しゃくり」）を前方区間の歌唱表現として例示され、後方区間の歌唱表現としては、不規則な声帯の振動をともなう「fry」が例示され得る。

第１実施形態の選択処理部２５は、以上に説明した階層構造の複数の階層の各々について当該階層の複数の選択肢Ｃの何れかを利用者に順次に選択させることで、複数の階層にわたる選択肢Ｃの組合せに対応する歌唱表現を、合成音声に付加される歌唱表現として利用者に選択させる。図５から図１５を参照して、音声符号Ｘ3「た」が付加された１個の音符について利用者が所望の１種類の歌唱表現を選択する具体的な手順を説明する。

利用者は、入力装置１６を適宜に操作することで、歌唱表現の選択対象となる所望の１個の音符（以下「対象音符」という）の近傍に指示子４４を移動させる。時間軸の方向において対象音符の音符図像４２の始点から終点までの範囲（すなわち対象音符の発音期間Ｘ2の範囲）Ｙ内に指示子４４が移動すると、選択処理部２５は、図５に例示される通り、操作図像４６A（Atk）と操作図像４６B（Rls）とを表示装置１４に表示させる。指示子４４が音符の範囲Ｙの外側に位置する場合、当該音符について操作図像４６Aおよび操作図像４６Bは表示されない。操作図像４６Aは、対象音符の前方区間の歌唱表現の選択を利用者が指示するための図像（アイコン）であり、音符図像４２の始点（左端）の近傍に配置される。他方、操作図像４６Bは、対象音符の後方区間の歌唱表現の選択を利用者が指示するための図像であり、音符図像４２の終点（右端）の近傍に配置される。

前方区間の歌唱表現の選択を所望する利用者は、入力装置１６を適宜に操作することで指示子４４を操作図像４６Aに接近させる。利用者による操作で指示子４４が操作図像４６Aに対応した位置に移動すると、選択処理部２５は、図６に例示される通り、前方区間の歌唱表現の階層構造における第１階層の複数の選択肢Ｃ1（fry，growl，rough）を表示装置１４に表示させる。具体的には、操作図像４６Aに重なる位置に指示子４４が移動した場合に、第１階層の複数の選択肢Ｃ1を縦方向に配列した吹出画像Ｎ1が操作図像４６Aの近傍に表示される。なお、複数の選択肢Ｃ1を表示する契機は以上の例示（指示子４４が操作図像４６Aに重なること）に限定されない。例えば、操作図像４６Aを含む所定の範囲内に指示子４４が移動した場合に複数の選択肢Ｃ1を表示することも可能である。なお、図６に例示される通り、操作図像４６Aまたは操作図像４６Bに対応した位置に指示子４４が移動すると、指示子４４の態様が変化する（矢印→手）。

利用者は、入力装置１６を操作することで、吹出画像Ｎ1に配列された複数の選択肢Ｃ1のうち所望の１個の選択肢Ｃ1に指示子４４を接近させる。第１階層の任意の１個の選択肢Ｃ1に対応する位置（例えば当該選択肢Ｃ1に重なる位置）に指示子４４が移動した場合、選択処理部２５は、図７に例示される通り、階層構造の第２階層において当該選択肢Ｃ1の下位に位置する複数の選択肢Ｃ2（slow，creaky）を表示装置１４に表示させる。具体的には、選択処理部２５は、第１階層の複数の選択肢Ｃ1のうち指示子４４の移動で利用者が選択した「fry」の選択肢Ｃ1の表示態様を変化（例えば強調表示）させたうえで、当該選択肢Ｃ1の下位に位置する第２階層の「slow」「creaky」の２個の選択肢Ｃ2を配列した吹出画像Ｎ2を、第１階層の吹出画像Ｎ1の側方に表示させる。以上の説明から理解される通り、第１実施形態では、第１階層の複数の選択肢Ｃ1のうち任意の１個の選択肢Ｃ1に対応した位置に指示子４４を移動させる操作（いわゆるマウスオーバー）を契機として、第２階層のうち当該選択肢Ｃ1に対応した複数の選択肢Ｃ2が表示装置１４に表示される。すなわち、第２階層の選択肢Ｃ2の表示にあたり指示子４４の移動以外の操作（例えばマウスクリック）は不要である。

利用者は、入力装置１６を操作することで、吹出画像Ｎ2に配列された複数の選択肢Ｃ2のうち所望の１個の選択肢Ｃ2に指示子４４を接近させる。第２階層の任意の１個の選択肢Ｃ2に対応する位置（例えば当該選択肢Ｃ2に重なる位置）に指示子４４が移動した場合、選択処理部２５は、図８に例示される通り、指示子４４が位置する選択肢Ｃ2の表示態様を変化（例えば強調表示）させる。図８で利用者が選択した選択肢Ｃ2「creaky」は、利用者が吹出画像Ｎ1で選択した選択肢Ｃ1「fry」を基点とする図４の階層構造の最下層に位置するから、指示子４４が選択肢Ｃ2に重なった場合でも、さらに下層の選択肢Ｃは表示されない。指示子４４が選択肢Ｃ2に重なった状態で利用者が入力装置１６に所定の操作（例えばマウスクリック）を付与すると当該選択肢Ｃ2が選択される。すなわち、利用者が指示子４４の移動で階層毎に順次に選択してきた複数の選択肢Ｃの組合せに対応する歌唱表現の選択が確定する。例えば図５から図８の例示では、「fry-creaky」の歌唱表現が選択される。なお、第２階層の複数の選択肢Ｃ2（slow，creaky）の何れにも対応しない位置（例えば吹出画像Ｎ2の外側）に指示子４４が移動した場合、選択処理部２５は、吹出画像Ｎ1および吹出画像Ｎ2の双方を編集画面４０から消去する。すなわち、利用者は、指示子４４を移動させることで歌唱表現の選択を中止することが可能である。

図９には、第１階層の「rough」の選択肢Ｃ1と第２階層の「sharp」の選択肢Ｃ2とが選択された場合が例示されている。図４で例示した通り、「rough-sharp」には下層の第３階層の選択肢Ｃ3（「type1」,「type2」）が存在する。したがって、第２階層の１個の選択肢Ｃ2「sharp」に指示子４４が重なると、選択処理部２５は、当該選択肢Ｃ2の表示態様を変化（例えば強調表示）させるとともに、当該選択肢Ｃ2の下位に位置する複数の選択肢Ｃ3（type1，type2）を表示装置１４に表示させる。具体的には、選択肢Ｃ2「sharp」の下位に位置する「type1」「type2」の２個の選択肢Ｃ3を配列した吹出画像Ｎ3が、第２階層の吹出画像Ｎ2の側方に表示される。図１０に例示されるように、任意の１個の選択肢Ｃ3に指示子４４が重なる状態で入力装置１６に所定の操作（例えばマウスクリック）が付与された場合に当該選択肢Ｃ3を最末端とする歌唱表現（例えば「rough-sharp-type1」）の選択が確定する。

以上の手順で前方区間の歌唱表現が確定すると、情報管理部２６は、当該歌唱表現を表す表現情報Ｘ4を対象音符の単位データＵに付加する。具体的には、表現情報Ｘ4には、当該歌唱表現の識別情報Ｅ（例えば複数の階層にわたる選択肢Ｃの組合せ）と、初期値に設定された制御情報Ｚとが包含される。

また、前方区間の歌唱表現の選択が確定すると、選択処理部２５は、図１１に例示されるように、対象音符の操作図像４６Aを操作図像４８Aに変更する。操作図像４８Aは、利用者が選択した歌唱表現が付加される前方区間の時間長（以下「表現付加時間」という）ＴAを表象する画像である。操作図像４８Aには、利用者が選択した歌唱表現の識別情報Ｅ（複数の階層にわたる選択肢Ｃの組合せ）が付加される。

操作図像４８Aのうち時間軸上の後方の端部（右端）には、表現付加時間ＴAの終点を意味する操作点ＷAが表示される。図１２に例示される通り、利用者は、入力装置１６に対する操作により操作点ＷAを移動させることで、発音期間Ｘ2の範囲内で表現付加時間ＴAを変更することが可能である。表現付加時間ＴAは、対象音符の発音期間Ｘ2のうち所定の比率（以下「時間比率」という）τAの時間長に相当する。情報管理部２６は、対象音符の発音期間Ｘ2のうち当該発音期間Ｘ2の始点から操作点ＷAまでの表現付加時間ＴAの時間比率τAを制御情報Ｚとして合成情報Ｓに設定する。利用者が移動させていない初期的な状態の操作点ＷAは、発音期間Ｘ2の終点に位置する。すなわち、時間比率τAの初期値は１（100％）である。

以上の説明では、対象音符の発音期間Ｘ2のうち前方区間について歌唱表現の選択と制御情報Ｚの調整とを例示した。発音期間Ｘ2の後方区間に関する歌唱表現の選択や制御情報Ｚの調整のための操作は、前方区間と同様である。すなわち、図１３に例示される通り、後方区間に対応する操作図像４６Bに指示子４４が重なると、後方区間の歌唱表現に関する第１階層の選択肢Ｃ1（soft）が吹出画像Ｎ1により表示され、当該選択肢Ｃ1に対応する位置に指示子４４が移動すると、当該選択肢Ｃ1の下位に位置する第２階層の複数の選択肢Ｃ2（long,short）が吹出画像Ｎ2により表示される。

なお、図１３に例示されるように、吹出画像Ｎ2を吹出画像Ｎ1の側部（例えば右方）に表示させると、吹出画像Ｎ2が表示装置１４の表示領域の外側に位置し、利用者が複数の選択肢Ｃ2（long,short）を視覚的に把握しづらいという問題がある。そこで、図１４に例示されるように、選択処理部２５が吹出画像Ｎ2を吹出画像Ｎ1の左方（すなわち音符図像４２の中央寄）に表示させる構成も好適である。

以上の手順で後方区間の歌唱表現が確定すると、選択処理部２５は、図１５に例示される通り操作図像４６Bを操作図像４８Bに変更する。操作図像４８Bは、操作図像４８Aと同様に、利用者が選択した歌唱表現が付加される後方区間の表現付加時間ＴBを利用者が調整するための画像であり、当該歌唱表現の識別情報Ｅが付加される。具体的には、利用者は、操作図像４８Bの始点側に付加された操作点ＷBを入力装置１６の操作により移動させることで所望の表現付加時間ＴBを指示することが可能である。情報管理部２６は、対象音符の発音期間Ｘ2のうち操作点ＷBから当該発音期間Ｘ2の終点までの表現付加時間ＴBの時間比率τBを対象音符の制御情報Ｚとして合成情報Ｓに設定する。

以上の説明から理解される通り、情報管理部２６は、利用者が選択した歌唱表現の音声成分（音声素片Ｑ）を音符の合成音声に付加する処理に関する制御情報Ｚ（表現付加時間ＴAおよび表現付加時間ＴB）を、指示受付部２２が利用者から受付けた指示に応じて可変に設定する。

図１の音声合成部２８は、記憶装置１２に記憶された音声素片群Ｌ（Ｌ1，Ｌ2）と合成情報Ｓとを利用して音声信号Ｖを生成する。図１６は、合成情報Ｓで指定される１個の音符について音声合成部２８が実行する処理の説明図である。

図１６に例示される通り、音声合成部２８は、合成情報Ｓが当該音符に指定する音声符号Ｘ3の音声素片Ｐを音声素片群Ｌ1から選択し、合成情報Ｓが指定する音高Ｘ1および発音期間Ｘ2に当該音声素片Ｐを調整する。他方、音声合成部２８は、表現情報Ｘ4の識別情報Ｅで指定される歌唱表現の音声素片Ｑであり、かつ、音声符号Ｘ3の母音に対応する音声素片Ｑを、前方区間（attack）および後方区間（release）の各々について音声素片群Ｌ2から選択する。図１６では前方区間の音声素片Ｑが符号ＱAで表現され、後方区間の音声素片Ｑが符号ＱBで表現されている。音声合成部２８は、音声素片ＱAおよび音声素片ＱBを音高Ｘ1に調整し、かつ、前方区間の音声素片ＱAを表現付加時間ＴAに伸縮するとともに後方区間の音声素片ＱBを表現付加時間ＴBに伸縮する。表現付加時間ＴAは、表現情報Ｘ4の制御情報Ｚで指定される時間比率τAを発音期間Ｘ2に乗算した時間長であり、表現付加時間ＴBは、表現情報Ｘ4の制御情報Ｚで指定される時間比率τBを発音期間Ｘ2に乗算した時間長である。以上の調整が完了すると、音声合成部２８は、調整後の前方区間の音声素片ＱAを音声素片Ｐの始点側（音声素片Ｐの前方区間）に混合するとともに調整後の後方区間の音声素片ＱBを音声素片Ｐの終点側（音声素片Ｐの後方区間）に混合する。音声素片Ｐに対する音声素片ＱAおよび音声素片ＱBの付加の度合（以下「付加比率」という）Ｒは所定値に設定される。付加比率Ｒは、音声素片Ｑ（ＱA，ＱB）の加重値に相当する。以上の手順で順次に生成された複数の音声素片を時間軸上で相互に連結することで音声信号Ｖが生成される。なお、音声素片Ｑの始点や終点における音声の不連続を抑制するために、音声素片Ｑを音声素片Ｐに対してクロスフェードすることも可能である。音声合成部２８が生成した音声信号Ｖが放音装置１８に供給されることで合成楽曲の歌唱音声が再生される。

以上の構成では、階層毎に順次に選択肢Ｃを選択させることで複数の歌唱表現の何れかを利用者に選択させるから、利用者が選択可能な全種類の歌唱表現を表示して所望の歌唱表現を利用者に選択させる構成と比較して、利用者が所望の歌唱表現を容易に選択することが可能である。また、階層構造の一の階層における一の選択肢Ｃに対応する位置に指示子４４が移動した場合に、当該一の選択肢Ｃの下位に位置する複数の選択肢Ｃが表示装置１４に表示されるから、指示子４４の移動以外の操作（例えばマウスのクリック）を必要とせずに利用者が各階層の選択肢Ｃを選択できる。したがって、指示子４４の移動とは別個の特定の操作により利用者が所望の選択肢を選択する構成と比較して、複数の歌唱表現の何れかを選択する利用者の負担を軽減することが可能である。

また、以上の構成では、音符図像４２の始点から終点までの範囲Ｙ内に指示子４４が移動した場合に操作図像（４６A，４６B）が表示され、利用者による操作で操作図像（４６A，４６B）に対応した位置に指示子４４が移動した場合に、階層構造の最上位の階層の複数の選択肢Ｃが表示される。したがって、操作図像４６Aおよび操作図像４６Bが常に表示される構成と比較して編集画面４０が簡素化される。また、操作図像（４６A，４６B）に対応する位置に指示子４４が移動した場合に最上位の階層の複数の選択肢Ｃが表示される（すなわち階層毎の選択肢の選択が開始される）から、指示子４４の移動以外の操作（例えばクリック）が操作図像（４６A，４６B）に対して付加された場合に最上位の階層の選択肢Ｃを表示する構成と比較して、利用者による操作の負担を軽減することが可能である。

さらに、音符の前方区間における歌唱表現を選択するための階層の選択肢Ｃが音符図像４２の始点側に表示され、音符の後方区間における歌唱表現を選択するための階層の選択肢Ｃが音符図像４２の終点側に表示される。したがって、歌唱表現を付加する部分（始点または終点）と付加すべき歌唱表現との関係を、利用者が視覚的および直観的に把握できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を説明する。第１実施形態では、表現付加時間ＴAおよび表現付加時間ＴBを制御情報Ｚとして例示した。第２実施形態では、歌唱表現の付加に関する多様な変数を制御情報Ｚとして利用者が調整可能である。以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。なお、歌唱表現の選択については第１実施形態と同様であるから以下では説明を省略する。

図１７は、第２実施形態において利用者が制御情報Ｚを設定するための画面（制御情報設定画面）５０の表示例であり、図１８は、図１７に例示した制御情報設定画面５０に参照符号等の説明用の補助的な要素を便宜的に追記した図面である。図１８では、制御情報設定画面５０の説明を重視する観点から各要素の網掛等の図示が適宜に省略されている。

利用者が所望の１個の音符（対象音符）を選択したうえで制御情報Ｚの詳細設定の指示を入力装置１６に付与した場合に、表示制御部２４は、図１７の制御情報設定画面５０を表示装置１４に表示させる。図１８に例示される通り、制御情報設定画面５０には、対象音符を表象する音符図像４２とともに領域ＤAと領域ＤBと領域ＤCとが配置される。領域ＤAは、対象音符の前方区間に対する歌唱表現の付加に関する制御情報Ｚの設定の指示を利用者から受付けるための領域であり、領域ＤBは、対象音符の後方区間に対する歌唱表現の付加に関する制御情報Ｚの設定の指示を利用者から受付けるための領域である。

領域ＤAには操作図像４８Aと操作子４９Aとが表示される。情報管理部２６は、前述の編集画面４０に対する操作時と同様に、操作図像４８Aの操作点ＷAを移動させる利用者からの操作に応じて表現付加時間ＴAの時間比率τAを設定する。また、利用者は、入力装置１６に対する操作で操作子４９Aを時間軸の方向に移動させ得る。情報管理部２６は、操作子４９Aの位置に応じて速度変数ＳAを設定する。速度変数ＳAは、歌唱表現の音声素片Ｑを表現付加時間ＴAに調整する処理における伸縮の度合と、音声素片Ｑの始点側および終点側の何れを伸長／収縮させるかを規定する。速度変数ＳAは、初期値（典型的には０）から正側および負側の双方（例えば−５０から＋５０までの範囲内）にわたり可変に設定される。

図１９は、速度変数ＳAと歌唱表現の音声素片Ｑとの関係の説明図である。図１９では、前方区間の音声素片Ｑを表現付加時間ＴAに伸縮する場合が例示されている。速度変数ＳAが初期値に設定された状態では、歌唱表現の音声素片Ｑが全区間にわたり均等に伸縮されて表現付加時間ＴAに調整される。他方、速度変数ＳAが初期値から変更された場合、図１９に例示される通り、音声素片Ｑは、時間軸上の位置に応じて不均等（非線形）に伸縮される。具体的には、速度変数ＳAが初期値を上回る数値（すなわち正数）に設定されると、音声素片Ｑのうち始点側の部分ほど収縮されるとともに終点側の部分ほど伸長されるように音声素片Ｑが不均等に伸縮され、速度変数ＳAの絶対値が大きいほど始点側の収縮および終点側の伸長の度合は増加する。他方、速度変数ＳAが初期値を下回る数値（すなわち負数）に設定されると、音声素片Ｑのうち終点側の部分ほど収縮されるとともに始点側の部分ほど伸長されるように音声素片Ｑが不均等に伸縮され、速度変数ＳAの絶対値が大きいほど終点側の収縮および始点側の伸長の度合が増加する。以上の例示の通り、速度変数ＳAが大きいほど音声素片Ｑの始点側が収縮され、結果的に当該音声素片Ｑの開始直後の音声の立上がりは速くなる。したがって、速度変数ＳAは、前方区間の音声の立上がりの速度を規定する変数とも換言される。

以上の説明では、対象音符の前方区間の速度変数ＳAの指定を例示したが、後方区間の歌唱表現についても同様に、情報管理部２６は、領域ＤBの操作子４９Bに対する利用者からの指示に応じて速度変数ＳBを設定する。ただし、後方区間については速度変数ＳBの正負と音声素片Ｑの収縮の位置（始点側／終点側）との関係が前方区間の速度変数ＳAとは逆転する。すなわち、速度変数ＳBが初期値を上回る場合（ＳB＞０）には、音声素片Ｑのうち終点側の部分ほど収縮されるとともに始点側の部分ほど伸長され、速度変数ＳBが初期値を下回る場合（ＳB＜０）には、音声素片Ｑのうち始点側の部分ほど収縮されるとともに終点側の部分ほど伸長される。速度変数ＳBの絶対値が大きいほど伸縮の度合が増加するという傾向は速度変数ＳAと同様である。以上の説明から理解される通り、速度変数ＳBが大きいほど対象音符の後方区間の音声素片Ｑの終点側が収縮され、結果的に当該音声素片Ｑの終了直前の音声の立下がりは速くなる。すなわち、速度変数ＳBは、後方区間の音声の立下がりの速度を規定する変数とも換言され得る。

図１８の領域ＤCは、付加比率Ｒの時間変化の設定の指示を利用者から受付けるための領域であり、制御情報設定画面５０のうち音符図像４２の下方に位置する。領域ＤCには、時間軸（横軸）と付加比率Ｒの数値軸（縦軸）とが設定された領域に遷移画像５０Aおよび遷移画像５０Bが表示される。遷移画像５０Aは、対象音符の前方区間の歌唱表現の付加比率Ｒの時間変化を表象する折線グラフであり、遷移画像５０Bは、対象音符の後方区間の歌唱表現の付加比率Ｒの時間変化を表象する折線グラフである。図１７および図１８に例示される通り、遷移画像５０Aと遷移画像５０Bとは相互に重複し得る。また、遷移画像５０Aおよび遷移画像５０Bは、音符図像４２と共通の時間軸のもとで表示される。なお、第１実施形態では前方区間と後方区間とで付加比率Ｒを便宜的に共通としたが、以下の説明では、前方区間の付加比率ＲAと後方区間の付加比率ＲBとを区別する。

図１８に例示される通り、遷移画像５０Aは、前方区間の歌唱表現の表現付加時間ＴA（ＴA＝τA×Ｘ2）にわたる台形状の図形である。具体的には、図１８に例示される通り、前方区間の歌唱表現の付加比率ＲAが、表現付加時間ＴAの始点から前縁期間ＴA1にわたり０から最大値ＲAmaxまで増加して以降は当該最大値ＲAmaxに維持され、表現付加時間ＴAの途中の時点から終点までの後縁期間ＴA2にわたり最大値ＲAmaxから０まで減少する、という付加比率Ｒの時間的な変化が遷移画像５０Aで表現される。利用者は、遷移画像５０Aに対する操作により、付加比率ＲAの最大値ＲAmax，表現付加時間ＴAの始点側における付加比率ＲAの時間変化（時間比率τA1，遷移係数αA1），表現付加時間ＴAの終点側における付加比率ＲAの時間変化（時間比率τA2，遷移係数αA2）を、前方区間の制御情報Ｚとして指示することが可能である。

他方、遷移画像５０Bは、後方区間の歌唱表現の表現付加時間ＴB（ＴB＝τB×Ｘ2）にわたる台形状の図形である。具体的には、図１８に例示される通り、後方区間の歌唱表現の付加比率ＲBが、表現付加時間ＴBの始点から前縁期間ＴB1にわたり０から最大値ＲBmaxまで増加して当該最大値ＲBmaxに維持され、表現付加時間ＴBの途中の時点から終点までの後縁期間ＴB2にわたり最大値ＲBmaxから０まで減少する、という付加比率ＲBの時間的な変化が遷移画像５０Bで表現される。利用者は、遷移画像５０Bに対する操作により、付加比率ＲBの最大値ＲBmax，表現付加時間ＴBの始点側における付加比率ＲBの時間変化（時間比率τB1，遷移係数αB1），表現付加時間ＴBの終点側における付加比率ＲBの時間変化（時間比率τB2，遷移係数αB2）を、後方区間の制御情報Ｚとして指示することが可能である。

表示制御部２４は、制御情報Ｚの変更に連動して遷移画像５０Aおよび遷移画像５０Bを更新する。なお、利用者は、制御情報設定画面５０の各操作子（５１A，５１B，５２A1，５２A2，５２B1，５２B2，５３A1，５３A2，５３B1，５３B2）に対する操作で制御情報Ｚを変更するほか、図１８に例示された数値入力欄に制御情報Ｚの数値を直接に入力することも可能である。以下、制御情報Ｚの設定について詳述する。

＜ＲAmax，ＲBmax＞
利用者は、入力装置１６を適宜に操作することで、操作子５１Aを縦方向に移動させることが可能である。図１８の例示では、遷移画像５０Aの上辺に相当する操作子５１Aと遷移画像５０Aの近傍に配置された操作子５１Aとが図示されている。情報管理部２６は、縦方向における操作子５１Aの位置に応じて付加比率ＲAの最大値ＲAmaxを設定する。最大値ＲAmaxは０以上かつ１００以下の範囲内で設定される。同様に、情報管理部２６は、操作子５１Bに対する利用者からの操作に応じて後方区間の付加比率ＲBの最大値ＲBmaxを設定する。

＜τA1，τA2，τB1，τB2＞
利用者は、入力装置１６を適宜に操作することで、前縁期間ＴA1の終点を表象する操作子５２A1を時間軸の方向に移動させることが可能である。情報管理部２６は、前方区間の表現付加時間ＴAのうち、当該表現付加時間ＴAの始点から操作子５２A1の位置までの前縁期間ＴA1の比率（％）を時間比率τA1として可変に設定する。すなわち、表現付加時間ＴAと時間比率τA1との乗算値に相当する時間長の前縁期間ＴA1にわたり付加比率ＲAは０から最大値ＲAmaxまで増加する。

同様に、利用者は、後縁期間ＴA2の始点を表象する操作子５２A2を時間軸の方向に移動させることが可能である。情報管理部２６は、前方区間の表現付加時間ＴAのうち、当該表現付加時間ＴAの始点から操作子５２A2の位置までの期間の時間比率τA2を設定する。すなわち、表現付加時間ＴAと時間比率τA2との乗算値に相当する時間長が当該表現付加時間ＴAの始点に対して経過した時点から、当該表現付加時間ＴAの終点までの後縁期間ＴA2にわたり、付加比率ＲAは最大値ＲAmaxから０まで減少する。後方区間についても同様であり、表現付加時間ＴBのうち始点から操作子５２B1の位置までの前縁期間ＴB1の時間比率τB1と、表現付加時間ＴBのうち当該表現付加時間ＴBの始点から操作子５２B2の位置までの時間比率τB2とが、利用者からの指示に応じて設定される。なお、表現付加時間ＴAのうち後縁期間ＴA2の時間的な比率を時間比率τA2とした構成や、表現付加時間ＴBのうち後縁期間ＴB2の時間的な比率を時間比率τB2とした構成も採用され得る。

＜αA1，αA2，αB1，αB2＞
図１８の操作子５３A1は、表現付加時間ＴA内の前縁期間ＴA1における付加比率ＲAの変化の態様を利用者が指示するための画像である。情報管理部２６は、操作子５３A1に対する利用者からの操作に応じて遷移係数αA1を０以上かつ１００以下の範囲内で可変に設定する。図２０に例示される通り、前縁期間ＴA1内の付加比率ＲAの時間変化の態様は、遷移係数αA1に応じて制御される。遷移係数αA1が初期値（例えば５０）である場合、前縁期間ＴA1内で付加比率ＲAは直線的に増加する。

操作子５３A1に対して上方向の操作（例えば操作子５３A1のドラッグ）が付与されると、情報管理部２６は、遷移係数αA1を初期値から操作量に応じて増加させる。図２０に例示される通り、遷移係数αA1が基準値５０を上回る場合、付加比率ＲAは、前縁期間ＴA1内で上に凸の軌跡に沿って０から最大値ＲAmaxまで経時的に増加する。他方、操作子５３A1が下方向に操作されると、情報管理部２６は、遷移係数αA1を操作量に応じて減少させる。図２０に例示される通り、遷移係数αA1が基準値５０を下回る場合、付加比率ＲAは、前縁期間ＴA1内で下に凸の軌跡に沿って０から最大値ＲAmaxまで経時的に増加する。

なお、図２１に例示される通り、操作子５３A1の操作中には、遷移画像５０Aの形状は維持されたまま、前縁期間ＴA1での付加比率ＲAの暫定的な軌跡ｒが遷移画像５０Aとは別個の態様で表示される。また、前述の例示の通り操作子５３A1に上下方向の操作が付与された場合、操作子５３A1自体は移動せず、操作子５３A1に付加された円弧状の矢印の画像が変化する。具体的には、操作子５３A1の操作で指示された遷移係数αA1が大きいほど操作子５３A1の矢印は円周方向に伸長される。したがって、利用者は、操作ツマミを操作させているかのような感覚で操作子５３A1を操作することが可能である。

なお、遷移係数αA1に応じて付加比率ＲAの時間変化の態様を変化させるための方法は任意であるが、遷移係数αA1に応じた変数λを含む以下の数式(1)を利用することで、前縁期間ＴA1内での付加比率ＲAの軌跡ｒを遷移係数αA1に応じて制御することが可能である。数式(1)の変数λは、遷移係数αA1の値域（０≦αA1≦１００）を−０.９から＋０.９までの範囲に変換した数値である。また、数式(1)の記号ｔは、前縁期間ＴA1の始点を原点（ｔ＝０）とした経過時間を意味する。

なお、以上の説明では、表現付加時間ＴAの前縁期間ＴA1における付加比率ＲAの時間変化（遷移係数αA1）に着目したが、表現付加時間ＴAの後縁期間ＴA2における付加比率ＲAの時間変化（遷移係数αA2）も、操作子５３A2に対する操作に応じて同様に設定される。具体的には、情報管理部２６は、操作子５３A2に対する操作量に応じて遷移係数αA2を設定する。後縁期間ＴA2内において、付加比率ＲAは、遷移係数αA2が基準値５０を上回る場合には上に凸の軌跡に沿って最大値ＲAmaxから０まで減少し、遷移係数αA2が基準値５０を下回る場合には下に凸の軌跡に沿って最大値ＲAmaxから０まで減少する。操作子５３A2に付加された矢印の変化や操作中の暫定的な軌跡ｒの表示は、操作子５３A1に対する操作に関する前述の例示と同様である。

後縁期間ＴA2における付加比率ＲAの減少の軌跡ｒは、以下の数式(2)で表現される。数式(2)の変数λは、数式(1)と同様に、遷移係数αA2の値域（０≦αA2≦１００）を−０.９から＋０.９までの範囲に変換した数値である。また、数式(2)の記号ｔは、後縁期間ＴA2の始点を原点（ｔ＝０）とした経過時間を意味する。

以上の例示と同様に、表現付加時間ＴBの前縁期間ＴB1における付加比率ＲBの増加の態様を規定する遷移係数αB1は、図１８の操作子５３B1に対する操作に応じて設定され、後縁期間ＴB2における付加比率ＲBの減少の態様を規定する遷移係数αB2は操作子５３B2に対する操作に応じて設定される。具体的には、付加比率ＲBは、遷移係数αB1または遷移係数αB2が初期値を上回る場合には上に凸の軌跡に沿って変動し、初期値を下回る場合には下に凸の軌跡に沿って変動する。操作子５３B1および操作子５３B2に付加された矢印の変化や操作中の暫定的な軌跡ｒの表示は前述の例示と同様である。

以上に例示した通り、第２実施形態では、対象音符の発音期間Ｘ2のうち歌唱表現が付加される期間の時間比率（τA，τB），当該歌唱表現の音声素片Ｑを伸縮する場合の当該伸縮の度合と当該音声素片Ｑの始点側および終点側の何れを伸長させるかを示す速度変数
ＳA，ＳB），付加比率Ｒの最大値（ＲAmax，ＲBmax），歌唱表現の始点側における付加比率Ｒの時間変化（τA1，τB1，αA1，αB1），および、歌唱表現の終点側における付加比率Ｒの時間変化（τA2，τB2，αA2，αB2）を含む制御情報Ｚを情報管理部２６が設定する。したがって、制御情報Ｚが所定値に固定された構成と比較して、利用者の嗜好や意図に適合した多様な特性の音声信号Ｖを生成できるという利点がある。なお、以上に例示した複数種の変数は適宜に省略され得る。すなわち、情報管理部２６は、以上に例示した複数種の変数の少なくともひとつを設定する要素として表現される。

＜第３実施形態＞
第１実施形態では、音声素片Ｐおよび音声素片Ｑが時間領域の音声波形または周波数領域のスペクトルとして表現された構成を例示した。第３実施形態の音声素片Ｐおよび音声素片Ｑの各々は、当該音声素片の音響特性を近似的に表現する複数の特徴量σで表現される。第３実施形態では、スペクトル包絡，励振源特性，基本周波数など、音声素片の各フレームを表現する音響的なパラメータを複数の特徴量σとして例示する。音声合成部２８は、音声素片Ｐの特徴量σと歌唱表現の音声素片Ｑの特徴量σとの間で付加比率Ｒを加重値とした加重和を特徴量σ毎に算定し、算定後の複数の特徴量σで近似される周波数特性の音声素片を時間軸上で相互に連結することで音声信号Ｖを生成する。

図２２は、第３実施形態における制御情報設定画面５０の表示例である。図２２に例示される通り、第３実施形態の表示制御部２４は、制御情報Ｚを指定する領域ＤC（ＤC1〜ＤC4）を特徴量σ毎に別個に表示させる。領域ＤC1の特徴量σ（REG）は、声帯振動のスペクトル包絡を近似する励起波形包絡（Excitation Curve）を意味し、領域ＤC2の特徴量σ（ＴBR）は、胸部共鳴特性を近似する所定個の帯域通過フィルタを規定する胸部レゾナンス（Chest Resonance）であり、領域ＤC3の特徴量σ（EXC）は、声門の周期的な励起（Excitation）に相当する。領域ＤC4の特徴量（F0）は基本周波数（ピッチ）を意味する。

利用者は、入力装置１６を適宜に操作することで、複数の特徴量σのうち制御情報Ｚの変更対象となる１種類の特徴量（以下「対象特徴量」という）σを選択することが可能である。第３実施形態の表示制御部２４は、利用者が選択した対象特徴量σについては、第２実施形態で例示した通り、遷移画像５０Aおよび遷移画像５０Bと各操作子（５１A，５１B，５２A1，５２A2，５２B1，５２B2，５３A1，５３A2，５３B1，５３B2）を表示する一方、対象特徴量σ以外の非選択の各特徴量σについては、簡略化された領域ＤCを表示する。具体的には、非選択の各特徴量σの領域ＤCでは、遷移画像５０Aおよび遷移画像５０Bが縦方向に縮小され、各操作子（５１A，５１B，５２A1，５２A2，５２B1，５２B2，５３A1，５３A2，５３B1，５３B2）は非表示とされる。情報管理部２６は、対象特徴量σの付加比率Ｒの時間変化を規定する制御情報Ｚを、当該対象特徴量σの領域ＤCに対する利用者からの操作に応じて、第２実施形態と同様に設定する。非選択の各特徴量σについては制御情報Ｚの設定が禁止される。

第３実施形態では、歌唱表現に関する複数の特徴量σの各々について利用者からの指示に応じて制御情報Ｚが可変に設定されるから、利用者の意図や嗜好を反映した多様な合成音声を生成することが可能である。なお、前述の例示のように特徴量σ毎に制御情報Ｚを個別に設定する動作モードと、複数の特徴量σについて制御情報Ｚを一括的に設定する動作モードとを利用者が選択できる構成も好適である。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）前述の各形態では、特定の音高で発音された音声素片Ｑを合成情報Ｓで指定される音高Ｘ1に調整したが、共通の発音内容を相異なる音高（例えば高音域／中音域／低音域の３種類）で発音した複数の音声素片Ｑを歌唱表現毎に音声素片群Ｌ2に収録し、音高が相違する複数の音声素片Ｑを補間することで目標の音高Ｘ1に調整することも可能である。

（２）前述の各形態では、時間軸上で音符図像４２の始点から終点までの範囲Ｙ内に指示子４４が移動することを契機として操作図像（４６A，４６B）を表示させたが、操作図像（４６A，４６B）を表示させる契機は以上の例示に限定されない。例えば、音高軸上で音符図像４２の音高Ｘ1を含む所定の範囲と時間軸上の音符図像４２の範囲Ｙとが重複する矩形状の領域内に指示子４４が移動した場合に操作図像（４６A，４６B）を表示させることも可能である。

（３）第３実施形態では、音声素片Ｐおよび音声素片Ｑが複数の特徴量σで表現される構成を例示したが、例えば音声波形や周波数スペクトルで表現された音声素片Ｐおよび音声素片Ｑから音声合成部２８が複数の特徴量σを抽出することも可能である。すなわち、複数の特徴量σを音声素片Ｑ毎に記憶装置１２に保持する必要はない。

（４）前述の各形態では、１個の音符の前方区間および後方区間に対する歌唱表現の付加を例示したが、歌唱表現が付加される区間は前方区間および後方区間に限定されない。例えば１個の音符の途中の区間に歌唱表現を付加する場合にも前述の各形態を採用することが可能である。また、１個の音符内で歌唱表現が付加される区間の総数も任意である。

指示子４４が音符図像４２の近傍に移動した場合には、当該音符内で歌唱表現が付加され得る全部の区間の各々について操作図像４６（４６A，４６B）が表示される。ただし、１個の音符内で歌唱表現が付加され得る複数の区間のうち特定の区間（例えば指示子４４に最も近い区間）について選択的に操作図像４６を表示することも可能である。なお、前述の各形態では、前方区間の歌唱表現に関する操作図像４６Aや選択肢Ｃを音符図像４２の始点側に配置し、後方区間の歌唱表現に関する操作図像４６Bや選択肢Ｃを音符図像４２の終点側に配置した。前方区間および後方区間に限定しない任意の区間を加味すると、音符のうち特定の区間における歌唱表現の操作図像４６や選択肢Ｃを、当該音符の音符図像４２の近傍で当該区間に対応した位置に表示させる構成として包括的に表現され得る。

なお、前方区間や後方区間以外の任意の区間に歌唱表現が付加され得る構成では、当該区間を指定する情報（例えば当該区間の始点，終点や範囲を示す情報）が音符内の区間毎に個別に設定されて表現情報Ｘ4に含められる。また、音声素片群Ｌ2には、１個の音符内で歌唱表現が付加され得る区間毎に、相異なる歌唱表現に対応する複数の音声素片Ｑが登録される。

（５）前述の各形態では、音声合成部２８を含む音声合成装置１００を例示したが、音声合成部２８が合成すべき音声を編集するための装置（合成音声編集装置）としても本発明は実施され得る。合成音声編集装置における音声合成部２８の有無は不問である。

（６）音声合成装置１００を好適な態様として例示した合成音声編集装置は、前述の各形態で例示した通り、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働で実現されるほか、合成音声の編集に専用されるＤＳＰ（Digital Signal Processor）等のハードウェア（電子回路）でも実現され得る。以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。本発明は、以上に説明した各態様に係る合成音声編集装置の動作方法（合成音声編集方法）としても特定される。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……入力装置、１８……放音装置、２２……指示受付部、２４……表示制御部、２５……選択処理部、２６……情報管理部、２８……音声合成部、４０……編集画面、４２……音符図像。

Claims

利用者からの操作を受付ける指示受付手段と、
合成音声の音符を表象する音符図像と、前記指示受付手段が受付ける操作に応じて移動する指示子と、前記音符図像に対応する第１操作図像とを表示装置に表示させる表示制御手段と、
階層構造で規定される複数の歌唱表現の何れかを、階層毎に選択肢を前記利用者に順次に選択させることで、前記音符図像が表象する音符の合成音声に付加される歌唱表現として選択させる選択処理手段とを具備し、
前記選択処理手段は、
前記第１操作図像に対応する位置に前記指示子が移動した場合に、前記階層構造の最上位の階層の複数の選択肢を前記表示装置に表示させ、かつ、前記階層構造における一の階層の複数の選択肢のうち一の選択肢に対応する位置に前記指示子が移動した場合に、前記階層構造において前記一の選択肢の下位に位置する複数の選択肢を前記表示装置に表示させ、
前記複数の歌唱表現の何れかを前記利用者が選択した場合に、前記第１操作図像を、当該歌唱表現が付加される区間の時間長を前記利用者が変更するための第２操作図像に変更する
合成音声編集装置。
前記表示制御手段は、時間軸が設定された楽譜領域内に、前記時間軸上で前記音符の発音期間にわたる前記音符図像を配置し、
前記選択処理手段は、前記時間軸の方向における前記発音期間の範囲内に前記指示子が移動した場合に前記表示装置に前記第１操作図像を表示させる
請求項１の合成音声編集装置。
前記選択処理手段は、前記音符のうち前方区間における歌唱表現を選択するための階層毎の選択肢を前記音符図像の始点側に表示させ、前記音符の後方区間における歌唱表現を選択するための階層毎の選択肢を前記音符図像の終点側に表示させる
請求項１または請求項２の合成音声編集装置。
前記利用者が選択した歌唱表現を前記音符の合成音声に付加する処理に関する制御情報を、前記指示受付手段が前記利用者から受付けた指示に応じて可変に設定する情報管理手段を具備し、
前記制御情報は、当該歌唱表現の音声成分を時間軸の方向に伸縮する場合において当該音声成分の始点側および終点側の何れを伸長させるかを示す速度変数を含む
を具備する請求項１から請求項３の何れかの合成音声編集装置。
前記制御情報は、
前記音符の発音期間のうち前記歌唱表現が付加される期間の時間比率と、
前記付加比率の最大値と、
前記歌唱表現の始点での数値から前記最大値までの前記付加比率の時間変化と、
前記最大値から前記歌唱表現の終点での数値までの前記付加比率の時間変化とを含む
請求項４の合成音声編集装置。
前記情報管理手段は、前記歌唱表現に関する複数の特徴量の各々について、前記指示受付手段が前記利用者から受付けた指示に応じて制御情報を可変に設定する
請求項４または請求項５の合成音声編集装置。
利用者からの操作を受付け、
合成音声の音符を表象する音符図像と、前記受付けた操作に応じて移動する指示子と、前記音符図像に対応する第１操作図像とを表示装置に表示させ、
階層構造で規定される複数の歌唱表現の何れかを、階層毎に選択肢を前記利用者に順次に選択させることで、前記音符図像が表象する音符の合成音声に付加される歌唱表現として選択させ、
前記複数の歌唱表現の何れかの選択においては、
前記第１操作図像に対応する位置に前記指示子が移動した場合に、前記階層構造の最上位の階層の複数の選択肢を前記表示装置に表示させ、かつ、前記階層構造における一の階層の複数の選択肢のうち一の選択肢に対応する位置に前記指示子が移動した場合に、前記階層構造において前記一の選択肢の下位に位置する複数の選択肢を前記表示装置に表示させ、
前記複数の歌唱表現の何れかを前記利用者が選択した場合に、前記第１操作図像を、当該歌唱表現が付加される区間の時間長を前記利用者が変更するための第２操作図像に変更する
コンピュータにより実現される合成音声編集方法。
利用者からの操作を受付ける指示受付手段、
合成音声の音符を表象する音符図像と、前記指示受付手段が受付ける操作に応じて移動する指示子と、前記音符図像に対応する第１操作図像とを表示装置に表示させる表示制御手段、および、
階層構造で規定される複数の歌唱表現の何れかを、階層毎に選択肢を前記利用者に順次に選択させることで、前記音符図像が表象する音符の合成音声に付加される歌唱表現として選択させる選択処理手段
としてコンピュータを機能させるプログラムであって、
前記選択処理手段は、
前記第１操作図像に対応する位置に前記指示子が移動した場合に、前記階層構造の最上位の階層の複数の選択肢を前記表示装置に表示させ、かつ、前記階層構造における一の階層の複数の選択肢のうち一の選択肢に対応する位置に前記指示子が移動した場合に、前記階層構造において前記一の選択肢の下位に位置する複数の選択肢を前記表示装置に表示させ、
前記複数の歌唱表現の何れかを前記利用者が選択した場合に、前記第１操作図像を、当該歌唱表現が付加される区間の時間長を前記利用者が変更するための第２操作図像に変更する
プログラム。