JP6152753B2

JP6152753B2 - 音声合成管理装置

Info

Publication number: JP6152753B2
Application number: JP2013178514A
Authority: JP
Inventors: 入山　達也; 達也入山; 誠橘; 橘　　誠
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2017-06-28
Anticipated expiration: 2033-08-29
Also published as: JP2015049253A

Description

本発明は、音声合成に適用される変数を管理する技術に関する。

事前に収録された音声から採取された複数の音声素片の集合（以下「音声ライブラリ」という）を利用して所望の音声を合成する素片接続型の音声合成技術が従来から提案されている。例えば特許文献１には、相異なる声質の音声に対応する２種類の音声ライブラリの各々の音声素片を混合（モーフィング）することで、既存の音声ライブラリの音声とは声質が相違する音声を合成する技術が開示されている。

特開平９−５０２９５号公報

ところで、各音声素片の音量は音声ライブラリ毎に相違し得る。したがって、複数の音声素片の混合で生成された合成音声の音量は、各音声素片の混合比率に応じて変動する。例えば、音量が大きい傾向にある音声ライブラリ内の音声素片の比率を経時的に減少させるとともに、音量が小さい傾向にある音声ライブラリ内の音声素片の比率を経時的に増加させて両者を混合した場合、合成音声の音量は経時的に減少する。したがって、合成音声の音量を一定に維持するためには、混合比率の時間変化に連動するように利用者が合成音声の音量の時間変化を調整する必要があり、利用者の作業負担が大きいという問題がある。

なお、以上の説明では便宜的に音量に着目したが、音量以外の音響特性についても同様の事情が妥当し得る。例えば、音高が高域側に知覚され易い傾向にある音声ライブラリの音声素片（明瞭で明るい雰囲気の音声）の比率を経時的に減少させるとともに、音高が低域側に知覚され易い傾向にある音声ライブラリの音声素片（例えば不明瞭で暗い雰囲気の音声）の比率を経時的に増加させて両者を混合した場合、受聴者が知覚する音高は経時的に低下する。したがって、合成音声の音高感を一定に維持するためには、混合比率の時間変化に連動するように利用者が合成音声の音高の時間変化を調整する必要がある。以上の事情を考慮して、本発明は、音声合成に適用される変数を設定する利用者の作業負担を軽減することを目的とする。

以上の課題を解決するために、本発明の第１態様に係る音声合成管理装置は、合成対象音声の合成時における第１音声と第２音声との混合比率を示す第１軸と、合成対象音声の音響特性に関する第１特性変数を示す第２軸とが設定された調整領域を含む調整画像を表示装置に表示させる表示制御手段と、調整領域内の第１指示点および第２指示点の指示を利用者から受付ける指示受付手段と、第１軸上で第１指示点に対応する数値から第２指示点に対応する数値への混合比率の時間変化と、第２軸上で第１指示点に対応する数値から第２指示点に対応する数値への第１特性変数の時間変化とを示す制御情報を生成する情報管理手段とを具備する。以上の構成では、第１音声と第２音声との混合比率を示す第１軸と、第１特性変数を示す第２軸とが設定された調整領域内に利用者から第１指示点および第２指示点が指示され、第１軸上で第１指示点に対応する数値から第２指示点に対応する数値への混合比率の時間変化と、第２軸上で第１指示点に対応する数値から第２指示点に対応する数値への第１特性変数の時間変化とを示す制御情報が生成される。したがって、利用者は、混合比率の時間変化と第１特性変数の時間変化とを並行的に指示することが可能である。すなわち、混合比率の時間変化と第１特性変数の時間変化とを個別的に指示する必要がある従来の構成と比較して、利用者の作業負担を軽減できるという利点がある。

本発明の好適な態様において、情報管理手段は、合成対象音声のうち時間軸上の第１時点から第２時点までの期間について、第１軸上で第１指示点に対応する数値から第２指示点に対応する数値への混合比率の時間変化と、第２軸上で第１指示点に対応する数値から第２指示点に対応する数値への第１特性変数の時間変化とを示す制御情報を生成する。以上の態様では、合成対象音声のうち第１時点から第２時点までの特定の期間について混合比率および第１特性変数の時間変化を調整することが可能である。また、指示受付手段が第１時点および第２時点の指示を利用者から受付ける構成によれば、合成対象音声のうち利用者の所望の期間について混合比率と第１特性変数との時間変化を調整できるという利点がある。

本発明の好適な態様において、表示制御手段は、調整領域内の各地点が相異なる表示態様に設定された調整画像と、時間軸上の第１時点から第２時点にかけて調整領域内の第１指示点での表示態様から第２指示点での表示態様に変化する遷移画像を含む変数画像とを表示装置に表示させる。以上の構成によれば、第１時点から第２時点にかけて調整領域内の第１指示点での表示態様から第２指示点での表示態様に変化する遷移画像が表示装置に表示されるから、第１時点から第２時点にわたる混合比率および第１特性変数の時間変化を利用者が視覚的および直観的に把握できるという利点がある。また、合成対象音声の音響特性に関する第２特性変数の時間変化を遷移画像の形状で表現する変数画像を表示制御手段が表示装置に表示させる構成によれば、第２特性変数の時間変化を遷移画像とは別個に表示する構成と比較して表示内容を簡素化することが可能である。

本発明の好適な態様において、表示制御手段は、調整領域内の各地点が相異なる表示態様に設定された調整画像と、合成対象音声の各音符を表象する音符図像を、時間軸と音高軸とが設定された楽譜領域に配置した楽譜画像とを表示装置に表示させ、各音符図像における時間軸上の各地点の表示態様を、調整領域における第１指示点から第２指示点までの経路のうち当該地点に対応した地点での表示態様に設定する。以上の態様では、各音符を表象する音符図像が、混合比率および第１特性変数の時間変化の表示にも流用されるから、混合比率および第１特性変数の時間変化と各音符との関係を利用者が容易に把握できるという利点がある。なお、以上の態様の具体例は例えば第３実施形態として後述される。

本発明の好適な態様において、表示制御手段は、調整領域内の各地点が相異なる表示態様に設定された調整画像と、合成対象音声の各音符を表象する音符図像と各音符図像に対応する補助図像とを、時間軸と音高軸とが設定された楽譜領域に配置した楽譜画像とを表示装置に表示させ、各補助図像における時間軸上の各地点の表示態様を、調整領域における第１指示点から第２指示点までの経路のうち当該地点に対応した地点での表示態様に設定する。以上の態様では、各音符図像に対応する補助図像が混合比率および第１特性変数の時間変化の表示に利用されるから、混合比率および第１特性変数の時間変化と各音符との関係を利用者が容易に把握できるという利点がある。なお、以上の態様の具体例は例えば第４実施形態として後述される。

本発明の第２態様に係る音声合成管理装置は、合成対象音声の合成に利用されるＮ種類（Ｎは３以上の自然数）の音声の各々に対応する基準点が設定された調整領域を含む調整画像を表示装置に表示させる表示制御手段と、調整領域内の第１指示点および第２指示点の指示を利用者から受付ける指示受付手段と、合成対象音声の合成時におけるＮ種類の音声の混合比率について、調整領域内で第１指示点に対応する数値から第２指示点に対応する数値への時間変化を示す制御情報を生成する情報管理手段とを具備する。以上の構成では、合成対象音声の合成に利用されるＮ種類（Ｎは３以上の自然数）の音声の各々に対応する基準点が設定された調整領域内に利用者から第１指示点および第２指示点が指示され、Ｎ種類の音声の混合比率について、調整領域内で第１指示点に対応する数値から第２指示点に対応する数値への時間変化を示す制御情報が生成される。したがって、利用者は、各音声の相互的な関係を調整領域で視覚的に確認しながら混合比率の時間変化を指示することが可能である。すなわち、Ｎ種類の音声の混合比率を個別的に指示する必要がある構成と比較して、利用者の作業負担を軽減できるという利点がある。

以上の各態様に係る音声合成管理装置は、制御情報の生成等に専用されるDSP（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、CPU（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る音声合成管理装置の動作方法（音声合成管理方法）としても特定される。

本発明の第１実施形態に係る音声合成装置のブロック図である。混合処理の説明図である。合成情報の模式図である。音声合成処理のフローチャートである。編集画像の模式図である。音声合成装置の動作のフローチャートである。編集処理のフローチャートである。編集画像の模式図である。調整領域と各指示点との関係を示す模式図である。調整領域と各指示点との関係を示す模式図である。編集画像の模式図である。第２実施形態における編集画像の模式図である。第３実施形態における編集画像の模式図である。第４実施形態における編集画像の模式図である。第５実施形態における混合処理の説明図である。第５実施形態における編集画像の模式図である。第５実施形態における混合比率の説明図である。第６実施形態における調整画像の模式図である。各指示点間の経路の変形例の模式図である。各指示点間の経路の変形例の模式図である。調整領域の変形例の模式図である。第５実施形態の変形例における調整領域の模式図である。第５実施形態の変形例における調整領域の模式図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音声合成装置１００のブロック図である。音声合成装置１００は、複数の音声素片を連結する素片接続型の音声合成処理で任意の音声の音声信号Ｓを生成する。具体的には、第１実施形態の音声合成装置１００は、任意の楽曲（以下「合成楽曲」という）の歌唱音声の音声信号Ｓを生成する信号処理装置であり、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステム（例えば携帯電話機やパーソナルコンピュータ等の情報処理装置）で実現される。

表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、音声合成装置１００に対する各種の指示のために利用者が操作する操作機器（例えばマウス等のポインティングデバイスやキーボード）であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置１４と一体に構成されたタッチパネルを入力装置１６として採用することも可能である。放音装置１８（例えばスピーカやヘッドホン）は、音声信号Ｓに応じた音響を再生する。音声信号Ｓをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略されている。

記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。第１実施形態の記憶装置１２は、音声ライブラリＬ（ＬA，ＬB）と合成情報Ｑとを記憶する。

音声ライブラリＬは、特定の発声者の音声から事前に採取された複数の音声素片Ｐ（ＰA，ＰB）の集合である。各音声素片Ｐは、言語的な意味の区別の最小単位である音素（例えば母音や子音）、または、複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）である。各音声素片Ｐは、時間領域での音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列として表現される。

図１に例示される通り、第１実施形態の記憶装置１２は、複数の音声ライブラリＬ（ＬA，ＬB）を記憶する。音声ライブラリＬAは、第１音声から抽出された複数の音声素片ＰAの集合であり、音声ライブラリＬBは、第２音声から抽出された複数の音声素片ＰBの集合である。第１音声と第２音声とは声質（声色）が相違する。具体的には、第１音声（各音声素片ＰA）と第２音声（各音声素片ＰB）とは、相異なる発声者が発声した音声、または、ひとりの発声者が声質を相違させて発声した音声である。

第１実施形態では、図２に例示される通り、合成対象となる音声（以下「合成対象音声」という）の発音内容に対応する音声素片Ｐ（ＰA，ＰB）が音声ライブラリＬAおよび音声ライブラリＬBの双方から順次に選択され、音声ライブラリＬAから選択された音声素片ＰAと音声ライブラリＬBから選択された音声素片ＰBとを混合比率Ｒで混合すること（以下「混合処理」という）で音声素片ＰSが生成される。混合処理（モーフィング）は、例えば以下の数式(a)で表現される通り、音声素片ＰAの声質に関する変数ｐAと音声素片ＰBの声質に関する変数ｐBとを混合比率Ｒに応じて加重加算することで、音声素片ＰSの声質に関する変数ｐSを算定する処理である。声質に関する変数としては、音声スペクトルの包絡線を規定する特徴量が例示され得る。
ｐS＝（１−Ｒ）・ｐA＋Ｒ・ｐB ……(a)

混合比率Ｒは、音声ライブラリＬA内の音声素片ＰAと音声ライブラリＬB内の音声素片ＰBとの混合処理における各音声素片Ｐの優勢度（混合後の音声素片ＰSに反映される度合）に相当する。具体的には、混合比率Ｒが最小値（例えば０）である場合には、混合後の音声素片ＰSは音声素片ＰAに一致し、混合比率Ｒが大きいほど音声素片ＰSに対する音声素片ＰAの影響が減少し、混合比率Ｒが最大値（例えば１）である場合には、混合後の音声素片ＰSは音声素片ＰBに一致する。以上の説明から理解される通り、音声素片ＰSの声質は、混合比率Ｒに応じて音声素片ＰAと音声素片ＰBとの中間的な声質に設定され得る。混合処理で順次に生成される音声素片ＰSを時間軸上で相互に連結することで音声信号Ｓが生成される。なお、音声素片ＰAと音声素片ＰBとの混合処理には、数式(a)以外にも公知の技術が任意に採用され得る。

図１の合成情報Ｑは、合成対象音声を指定する。図３に例示される通り、第１実施形態の合成情報Ｑは、楽曲情報ＱMと制御情報ＱCとを含んで構成される。楽曲情報ＱMは、合成楽曲の内容を指定する時系列データであり、合成楽曲を構成する音符毎に音高ｑ1と発音期間ｑ2と音声符号ｑ3とを指定する。音高ｑ1は、例えばMIDI（Musical Instrument Digital Interface）規格に準拠したノートナンバーである。発音期間ｑ2は、例えば発音の開始時刻と継続長（または発音の終了時刻）とで規定される音符の継続長である。音声符号ｑ3は、合成対象音声の発音内容（すなわち合成楽曲の歌詞）を指定する。例えば合成楽曲の歌詞を構成する文字（書記素）や各文字に対応する音素の音素記号が音声符号ｑ3として指定される。

図３の制御情報ＱCは、音声合成処理に適用される変数の時間変化を指定する。第１実施形態の制御情報ＱCは、音声素片ＰAおよび音声素片ＰBの混合比率Ｒの時間変化と第１特性変数の時間変化とを指定する。第１特性変数は、合成対象音声の音響特性に関する変数（特徴量）である。第１実施形態では音量Ｖを第１特性変数として例示する。第１実施形態の制御情報ＱCは、合成対象音声（合成楽曲）のうち特定の期間（以下「制御期間」という）内の混合比率Ｒおよび音量Ｖの時間変化を指定する。

図１の演算処理装置１０（CPU）は、記憶装置１２に記憶されたプログラムを実行することで、合成情報Ｑの編集や音声信号Ｓの生成のための複数の機能（指示受付部２２，表示制御部２４，情報管理部２６，音声合成部２８）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、専用の電子回路（例えばDSP）が演算処理装置１０の一部の機能を実現する構成も採用され得る。

音声合成部２８は、記憶装置１２に記憶された音声ライブラリＬと合成情報Ｑとを利用した音声合成処理で音声信号Ｓを生成する。図４は、音声合成処理のフローチャートである。音声合成処理を開始すると、音声合成部２８は、合成情報Ｑの楽曲情報ＱMが音符毎に指定する音声符号ｑ3に応じた音声素片Ｐ（ＰA，ＰB）を音声ライブラリＬAおよび音声ライブラリＬBの双方から順次に選択する（ＳA1）。

音声合成部２８は、音声ライブラリＬAから選択した音声素片ＰAと音声ライブラリＬBから選択した音声素片ＰBとについて、合成情報Ｑの制御情報ＱCが現時点について指定する混合比率Ｒを適用した混合処理を実行することで音声素片ＰSを生成する（ＳA2）。また、音声合成部２８は、混合後の音声素片ＰSの音量を、制御情報ＱCが現時点について指定する音量Ｖに調整する（ＳA3）。そして、音声合成部２８は、混合処理（ＳA2）および音量調整（ＳA3）で順次に生成される各音声素片ＰSを、合成情報Ｑの楽曲情報ＱMが指定する音高ｑ1および発音期間ｑ2に調整し（ＳA4）、調整後の各音声素片ＰSを相互に連結することで音声信号Ｓを生成する（ＳA5）。

図１の表示制御部２４は、各種の画像を表示装置１４に表示させる。第１実施形態の表示制御部２４は、合成情報Ｑが指定する合成楽曲の内容を利用者が確認および編集するための図５の編集画像３０を表示装置１４に表示させる。図５に例示される通り、編集画像３０は、楽譜画像４０と変数画像５０とを包含する。

楽譜画像４０は、相互に交差する時間軸（横軸）および音高軸（縦軸）が設定されたピアノロール型の座標平面（以下「楽譜領域」という）４２を含んで構成され、合成情報Ｑの楽曲情報ＱMが指定する合成楽曲の内容を表現する。具体的には、表示制御部２４は、合成楽曲の各音符を表象する音符図像４４を楽譜領域４２に配置する。音高軸の方向における音符図像４４の位置は、楽曲情報ＱMが指定する音高ｑ1に応じて設定され、時間軸の方向における音符図像４４の位置および表示長は、楽曲情報ＱMが指定する発音期間ｑ2に応じて設定される。また、各音符図像４４には、楽曲情報ＱMが指定する音声符号ｑ3が付加される。図５では、音声符号ｑ3が指定する文字（合成楽曲の歌詞）と音素記号とを音符図像４４の内側に配置した場合が例示されている。

変数画像５０は、時間軸（横軸）が設定された領域（以下「変数領域」という）５２を含んで構成され、混合処理（ＳA2）に適用される混合比率Ｒの時間変化と音量調整（ＳA3）に適用される音量Ｖの時間変化とを表現する。変数領域５２の時間軸は楽譜領域４２の時間軸と共通する。なお、変数画像５０の具体的な内容については後述する。

指示受付部２２は、入力装置１６に対する操作に応じた利用者からの指示を受付ける。例えば利用者は、編集画像３０を確認しながら入力装置１６を適宜に操作することで合成情報Ｑの編集を指示することが可能である。情報管理部２６は、記憶装置１２に記憶された合成情報Ｑを管理する。具体的には、情報管理部２６は、指示受付部２２が利用者から受付けた編集の指示に応じて合成情報Ｑ（楽曲情報ＱM，制御情報ＱC）を更新する。

図６は、第１実施形態の音声合成装置１００の概略的な動作のフローチャートである。入力装置１６に対する利用者からの指示を契機として図６の処理が開始される。処理を開始すると、表示制御部２４は、記憶装置１２に記憶された合成情報Ｑに応じた図５の編集画像３０を表示装置１４に表示させる（ＳB1）。そして、指示受付部２２は、合成情報Ｑの編集の指示を利用者から受付けたか否かを判定する（ＳB2）。

合成情報Ｑの編集の指示を指示受付部２２が受付けた場合（ＳB2：YES）、表示制御部２４による編集画像３０の更新と情報管理部２６による合成情報Ｑの更新とを含む編集処理が実行される（ＳB3）。例えば、音符の追加が利用者から指示された場合、表示制御部２４は、楽譜領域４２内で利用者から指示された位置に音符図像４４を追加し、情報管理部２６は、利用者から指示された音符の情報（ｑ1〜ｑ3）を合成情報Ｑの楽曲情報ＱMに追加する。既存の音符図像４４の移動や時間軸上の伸縮が利用者から指示された場合、表示制御部２４は、音符図像４４の位置や表示長を利用者からの指示に応じて変更し、情報管理部２６は、楽曲情報ＱMのうち編集対象の音符の音高ｑ1や発音期間ｑ2を利用者からの指示に応じて変更する。また、各音符の音声符号ｑ3の変更が利用者から指示された場合、表示制御部２４は、当該音符の音声符号ｑ3の表示を利用者からの指示に応じて変更し、情報管理部２６は、楽曲情報ＱMのうち当該音符の音声符号ｑ3を利用者からの指示に応じて変更する。合成情報Ｑの編集が指示されていない場合（ＳB2：NO）、編集処理は実行されない。

以上の処理が完了すると、指示受付部２２は、音声合成（音声信号Ｓの生成）の指示を利用者から受付けたか否かを判定する（ＳB4）。音声合成の指示を指示受付部２２が受付けた場合（ＳB4：YES）、音声合成部２８は、音声ライブラリＬ（ＬA，ＬB）と合成情報Ｑとを適用した図４の音声合成処理を実行することで音声信号Ｓを生成する（ＳB5）。他方、音声合成が指示されていない場合（ＳB4：NO）には音声合成処理は実行されない。また、指示受付部２２は、処理終了の指示を利用者から受付けたか否かを判定する（ＳB6）。処理終了が指示されていない場合（ＳB6：NO）には、処理がステップＳB1に遷移して以降の処理が反復され、処理終了が指示された場合（ＳB6：YES）には図６の処理が終了する。

利用者は、入力装置１６を適宜に操作することで、混合比率Ｒおよび音量Ｖの時間変化の編集を指示することが可能である。図７は、混合比率Ｒおよび音量Ｖの時間変化の編集の指示を指示受付部２２が受付けた場合（ＳB2：YES）に演算処理装置１０が実行する編集処理（ＳB3）のフローチャートである。

混合比率Ｒおよび音量Ｖの編集が指示されると、表示制御部２４は、図８に例示される通り、調整画像６０を表示装置１４に表示させる（ＳC1）。調整画像６０は、合成対象音声（合成楽曲）の制御期間内における混合比率Ｒの時間変化と音量Ｖの時間変化とを利用者が編集するための画像である。

調整画像６０は、相互に交差する第１軸Ａ1（横軸）と第２軸Ａ2（縦軸）とが設定された調整領域６２を包含する。第１軸Ａ1は、音声素片ＰA（第１音声）と音声素片ＰB（第２音声）との混合比率Ｒの数値を示す座標軸であり、第２軸Ａ2は、合成対象音声（混合後の音声素片ＰS）の音量Ｖの数値を示す座標軸である。第１軸Ａ1の負側の端部（左端部）に表示された「声色Ａ」は第１音声の声質を意味し、第１軸Ａ1の正側の端部（右端部）に表示された「声色Ｂ」は第２音声の声質を意味する。

調整領域６２内の各地点は位置に応じて相異なる表示態様（色相や彩度や明度等の視覚的に識別可能な画像の性状）で表示される。実際の調整領域６２は多数の色彩を含むカラー画像であるが、特許図面でカラー画像を利用できないという事情から便宜的に、図８では、調整領域６２内の色相を図面上の階調の濃淡（グレースケール）で代替的に表現し、調整領域６２内の明度（階調）を図面上の網点の粗密で代替的に表現した。具体的には、青色から赤色にわたる色相の分布が低階調から高階調にわたる階調の分布で表現され、暗部から明部にわたる階調の分布が高密度（密）から低密度（疎）への網点の密度で表現される。すなわち、図８から理解される通り、第１実施形態の調整領域６２は、第１軸Ａ1の負側（左側）の端部から正側（右側）の端部にかけて赤色（階調：高）から青色（階調：低）に連続的に変化するとともに、第２軸Ａ2の負側から正側にかけて低階調（網点：密）から高階調（網点：疎）に連続的に変化する画像である。

利用者は、図８の楽譜画像４０を確認しながら入力装置１６を適宜に操作することで、変数領域５２の時間軸上に複数の時点Ｔ（Ｔ1，Ｔ2）を任意に指示することが可能である。指示受付部２２は、時間軸上の複数の時点Ｔ（Ｔ1，Ｔ2）の指示を利用者から受付ける（ＳC2）。時点Ｔ1は、合成対象音声のうち混合比率Ｒと音量Ｖとが変化する制御期間の始点に相当し、時点Ｔ2は制御期間の終点に相当する。表示制御部２４は、図８に例示される通り、指示受付部２２が利用者から受付けた各時点Ｔを変数領域５２内に表示する（ＳC3）。利用者は、楽譜画像４０の複数の音符図像４４の時系列を随時に確認しながら、合成楽曲のうち混合比率Ｒおよび音量Ｖを変化させるべき箇所が制御期間に包含されるように時点Ｔ1と時点Ｔ2とを指示する。また、利用者は、入力装置１６に対する操作で各時点Ｔを時間軸の方向に移動させることも可能である。

利用者は、図８の調整画像６０を確認しながら入力装置１６を適宜に操作することで、変数領域５２内の各時点Ｔに対応する複数の地点（以下「指示点」という）Ｘを調整領域６２内に指示することが可能である。指示受付部２２は、調整領域６２内の複数の指示点Ｘ（Ｘ1，Ｘ2）の指示を利用者から順次に受付ける（ＳC4）。表示制御部２４は、図８に例示される通り、指示受付部２２が指示を受付けた各指示点Ｘと、相前後して指示された２個の指示点Ｘを連結する経路Ｃとを調整領域６２内に表示する（ＳC5）。第１実施形態の経路Ｃは２個の指示点Ｘを連結する直線である。なお、経路Ｃの表示は省略され得る。

１個の指示点Ｘは、混合比率Ｒおよび音量Ｖの各数値に対応した座標点である。すなわち、指示点Ｘの第１軸Ａ1上の位置が混合比率Ｒの数値に相当し、指示点Ｘの第２軸Ａ2上の位置が音量Ｖの数値に相当する。指示点Ｘが第１軸Ａ1の正側の端部（声色Ｂ）に近付くほど混合比率Ｒの数値は増加し、指示点Ｘが第２軸Ａ2の正側の端部に近付くほど音量Ｖの数値は増加する。

図９は、複数の指示点Ｘ（Ｘ1，Ｘ2）が指定された調整領域６２の模式図である。図９では、調整領域６２内の表示態様の変化の図示を便宜的に省略した。利用者が指示した指示点Ｘ1は、時点Ｔ1（制御期間の始点）における混合比率Ｒおよび音量Ｖの数値に対応する。すなわち、図９に例示される通り、第１軸Ａ1上で指示点Ｘ1に対応する数値ｒ1は時点Ｔ1での混合比率Ｒの数値に相当し、第２軸Ａ2上で指示点Ｘ1に対応する数値ｖ1は時点Ｔ1での音量Ｖの数値に相当する。他方、指示点Ｘ2は、時点Ｔ2（制御期間の終点）における混合比率Ｒおよび音量Ｖの数値に対応する。すなわち、図９に例示される通り、第１軸Ａ1上で指示点Ｘ2に対応する数値ｒ2は時点Ｔ2での混合比率Ｒの数値に相当し、第２軸Ａ2上で指示点Ｘ2に対応する数値ｖ2は時点Ｔ2での音量Ｖの数値に相当する。以上の説明から理解される通り、指示点Ｘ1および指示点Ｘ2は、時点Ｔ1から時点Ｔ2にかけて数値ｒ1から数値ｒ2に連続的に遷移する混合比率Ｒの時間変化と、時点Ｔ1から時点Ｔ2にかけて数値ｖ1から数値ｖ2に連続的に遷移する音量Ｖの時間変化とを表現する。

利用者は、入力装置１６を適宜に操作することで、調整領域６２内の任意の指示点Ｘ（以下「選択指示点Ｘ」という）を選択し、選択指示点Ｘに対応する音声の再生を指示することが可能である。選択指示点Ｘの選択を指示受付部２２が受付けると、音声合成部２８は、選択指示点Ｘに対応する混合比率Ｒと音量Ｖとを適用した音声合成処理で音声信号Ｓを生成する。具体的には、音声合成部２８は、特定の発音内容（例えば合成情報Ｑで指定される音声符号ｑ3とは無関係に事前に選定された文字）に対応する音声素片Ｐ（ＰA，ＰB）を音声ライブラリＬAおよび音声ライブラリＬBの双方から選択し（ＳA1）、選択指示点Ｘに対応する混合比率Ｒの数値を適用した混合処理（ＳA2）と、選択指示点Ｘに対応する音量Ｖの数値を適用した音量調整（ＳA3）とを実行することで、所定の音高および発音期間の音声信号Ｓを生成（ＳA4，ＳA5）して放音装置１８から再生する。すなわち、利用者は、各指示点Ｘに対応する混合比率Ｒおよび音量Ｖを適用した合成音声を実際に聴取しながら、所望の合成音声が生成されるように調整領域６２内の各指示点Ｘの位置を調整することが可能である。例えば、音声素片ＰAと音声素片ＰBとの収録時の音量差に起因した合成音声の音量感の変化（混合比率Ｒの時間変化に連動した変化）が抑制されるように、音量Ｖを混合比率Ｒに応じて調整することが可能である。

表示制御部２４は、図８に例示される通り、調整領域６２内に指示された各指示点Ｘに応じた遷移画像５４を変数画像５０の変数領域５２に配置する（ＳC6）。遷移画像５４は、時間軸に沿って延在する帯状の画像であり、時点Ｔ1から時点Ｔ2にわたる混合比率Ｒおよび音量Ｖの時間変化を表現する。第１実施形態の表示制御部２４は、遷移画像５４の時間軸上の各時点での表示態様が、変数領域５２内の時間軸上の時点Ｔ1から時点Ｔ2にかけて、調整領域６２内の指示点Ｘ1での表示態様から指示点Ｘ2での表示態様まで連続的に変化するように遷移画像５４を生成する。すなわち、遷移画像５４のうち時点Ｔ1での表示態様は、調整領域６２内の指示点Ｘ1での表示態様に一致し、遷移画像５４のうち時点Ｔ2での表示態様は、調整領域６２内の指示点Ｘ2での表示態様に一致する。また、遷移画像５４のうち時点Ｔ1と時点Ｔ2との間の任意の時点ｔでの表示態様は、調整領域６２内の指示点Ｘ1から指示点Ｘ2までの経路Ｃ上で当該時点ｔに対応する地点での表示態様に一致する。したがって、利用者は、変数画像５０を確認することで、時点Ｔ1から時点Ｔ2にわたる混合比率Ｒおよび音量Ｖの時間変化を視覚的に把握することが可能である。

情報管理部２６は、調整画像６０および変数画像５０の内容が反映されるように合成情報Ｑの制御情報ＱCを更新する（ＳC7）。具体的には、混合比率Ｒおよび音量Ｖが、時間軸上の時点Ｔ1から時点Ｔ2にかけて、指示点Ｘ1に対応する数値から指示点Ｘ2に対応する数値まで経路Ｃに沿って遷移するように、制御情報ＱCが更新される。すなわち、情報管理部２６は、時間軸上の時点Ｔ1から時点Ｔ2にかけて、第１軸Ａ1上で指示点Ｘ1に対応する数値ｒ1から指示点Ｘ2に対応する数値ｒ2まで混合比率Ｒが連続的に遷移し、かつ、第２軸Ａ2上で指示点Ｘ1に対応する数値ｖ1から指示点Ｘ2に対応する数値ｖ2まで音量Ｖが連続的に遷移するように、制御情報ＱCを更新する。

以上に説明した通り、第１実施形態では、音声素片ＰAおよび音声素片ＰBの混合比率Ｒを示す第１軸Ａ1と、合成対象音声の音量Ｖを示す第２軸Ａ2とが設定された調整領域６２に、利用者からの指示に応じた各指示点Ｘ（Ｘ1，Ｘ2）が設定される。そして、第１軸Ａ1上で指示点Ｘ1に対応する数値ｒ1から指示点Ｘ2に対応する数値ｒ2まで遷移する混合比率Ｒの時間変化と、第２軸Ａ2上で指示点Ｘ1に対応する数値ｖ1から指示点Ｘ2に対応する数値ｖ2まで遷移する音量Ｖの時間変化とを指定する制御情報ＱCが生成される。以上の構成によれば、利用者は、混合比率Ｒと音量Ｖとの関係を確認しながら、混合比率Ｒの時間変化の指示に並行して音量Ｖの時間変化を指示する（両者の時間変化を一括的に指示する）ことが可能である。したがって、音声合成処理に適用される変数（混合比率Ｒおよび音量Ｖ）を指示する利用者の作業負担を軽減できるという利点がある。

また、第１実施形態では、時間軸上の時点Ｔ1から時点Ｔ2にかけて混合比率Ｒおよび音量Ｖが指示点Ｘ1での数値から指示点Ｘ2での数値まで遷移するように制御情報ＱCが生成されるから、合成対象音声（合成楽曲）の特定の期間について限定的に混合比率Ｒおよび音量Ｖの時間変化を利用者が指示することが可能である。また、制御期間を画定する時点Ｔ1および時点Ｔ2は利用者からの指示に応じて可変に設定されるから、合成対象音声のうち利用者の所望の期間について混合比率Ｒおよび音量Ｖの時間変化を指示できるという利点もある。

例えば、声色Ｂの第２音声（音声素片ＰB）の音量が声色Ａの第１音声（音声素片ＰA）と比較して大きいと仮定し、合成対象音声を第２音声（声色Ｂ）から第１音声（声色Ａ）に経時的に変化させる場合を想定する。図１０の例示のように第１軸Ａ1の正側（声色Ｂ側）に位置する指示点Ｘ1と負側（声色Ａ側）に位置する指示点Ｘ2とで第２軸Ａ2上の位置が相等しい場合、時点Ｔ1から時点Ｔ2にかけて音量Ｖの数値は略一定に維持される。したがって、合成音声の声質が第２音声の声色Ｂから第１音声の声色Ａに遷移する制御期間において、合成音声の音量は、収録時における各音声素片Ｐの音量差に起因して、制御期間内で経時的に減少する。他方、図９の例示のように第２軸Ａ2上で指示点Ｘ2が指示点Ｘ1の正側に位置する場合、時点Ｔ1から時点Ｔ2にかけて音量Ｖの数値は経時的に増加する。したがって、合成音声の声質が第２音声の声色Ｂから第１音声の声色Ａに遷移する制御期間において、合成音量の音量は制御期間内で略一定に維持される。すなわち、収録時における各音声素片Ｐの音量差が低減される。

第１実施形態では、調整領域６２内の各地点が相異なる表示態様に設定され、時間軸上の時点Ｔ1から時点Ｔ2にかけて、調整領域６２内の指示点Ｘ1での表示態様から指示点Ｘ2での表示態様に変化する遷移画像５４が表示装置１４に表示される。したがって、時点Ｔ1から時点Ｔ2にわたる混合比率Ｒおよび音量Ｖの時間変化を利用者が視覚的および直観的に把握できるという利点もある。

なお、以上の例示では、調整領域６２内の２個の指示点Ｘ（Ｘ1，Ｘ2）と変数領域５２内の２個の時点Ｔ（Ｔ1，Ｔ2）とを例示したが、図１１に例示される通り、変数領域５２内の３個以上の時点Ｔ（Ｔ1，Ｔ2，Ｔ3）と調整領域６２内の３個以上の指示点Ｘ（Ｘ1，Ｘ2，Ｘ3）とを設定することも可能である。表示制御部２４が変数領域５２に配置する遷移画像５４の表示態様は、時間軸上の時点Ｔ1から時点Ｔ2にかけて調整領域６２内の指示点Ｘ1での表示態様から指示点Ｘ2での表示態様まで連続的に変化し、かつ、時間軸上の時点Ｔ2から時点Ｔ3にかけて調整領域６２内の指示点Ｘ2での表示態様から指示点Ｘ3での表示態様まで連続的に変化する。また、情報管理部２６は、混合比率Ｒおよび音量Ｖが、時点Ｔ1から時点Ｔ2にかけて指示点Ｘ1での数値から指示点Ｘ2での数値まで経路Ｃ12に沿って遷移するとともに、時点Ｔ2から時点Ｔ3にかけて指示点Ｘ2での数値から指示点Ｘ3での数値まで経路Ｃ23に沿って遷移するように、制御情報ＱCを更新する。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態における合成情報Ｑの制御情報ＱCは、第１実施形態と同様に混合比率Ｒおよび第１特性変数（音量Ｖ）の時間変化を指定するほか、第２特性変数の時間変化を指定する。第２特性変数は、第１特性変数と同様に、合成対象音声の音響特性に関する変数（特徴量）である。第２実施形態では、音量Ｕを第２特性変数として例示する。音量Ｖ（第１特性変数）と音量Ｕ（第２特性変数）とは同種の音響特性であるが、音量Ｖは混合比率Ｒの時間変化との関連を考慮して調整されるのに対し、音量Ｕは、合成楽曲の各音符との関連（合成楽曲の進行に連動した音量の時間変化）を考慮して調整される。すなわち、例えば、音声素片ＰAと音声素片ＰBとの収録時の音量差に起因した合成音声の音量感の変化（混合比率Ｒの時間変化に連動した変化）が抑制されるように音量Ｖを混合比率Ｒに応じて調整しながら、合成楽曲の進行とともに音楽的な表現として音量Ｕを変化させることが可能である。

図１２は、第２実施形態における編集画像３０の模式図である。第２実施形態における変数画像５０の変数領域５２には、第１実施形態と同様の時間軸と、時間軸に交差する数値軸ＡY（縦軸）とが設定される。数値軸ＡYは、音量Ｕの数値を示す座標軸である。

第２実施形態の変数画像５０は、混合比率Ｒおよび音量Ｖの時間変化を第１実施形態と同様に遷移画像５４の表示態様（色相や明度等）で表現するほか、制御情報ＱCが指定する音量Ｕの時間変化を遷移画像５４の形状で表現する。具体的には、遷移画像５４の上縁に位置する外形線５６で音量Ｕの時間変化が表現される。図１２では、遷移画像５４の外形線５６を、音量Ｕの時間変化を表現する折線とした場合が例示されている。遷移画像５４の外形線５６のうち時間軸上の任意の時点ｔでの１点に対応する数値軸ＡY上の数値が、当該時点ｔにおける音量Ｕの数値を意味する。

利用者は、入力装置１６を適宜に操作することで遷移画像５４の外形線５６の編集（変形）を指示することが可能である。表示制御部２４は、指示受付部２２が利用者から受付けた指示に応じて遷移画像５４の外形線５６を変形し、情報管理部２６は、合成情報Ｑの制御情報ＱCが指定する音量Ｕの時間変化を利用者からの指示に応じて更新する。具体的には、情報管理部２６は、音量Ｕの時間変化を、表示制御部２４による変形後の外形線５６で表現される時間変化に更新する。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、混合比率Ｒおよび音量Ｖの時間変化が遷移画像５４の表示態様（色相や明度等）で表現されるほか、合成楽曲内の音量Ｕの時間変化が遷移画像５４の形状で表現される。したがって、例えば音量Ｕの時間変化を遷移画像５４とは別個に表示する構成と比較して簡素な表示で、混合比率Ｒおよび音量Ｖに加えて音量Ｕの時間変化を利用者が確認できるという利点がある。

＜第３実施形態＞
図１３は、第３実施形態における編集画像３０の模式図である。第１実施形態では、楽譜領域４２とは別個の変数領域５２に配置された遷移画像５４で混合比率Ｒおよび音量Ｖの時間変化を表現した。第３実施形態では、楽譜領域４２内に配置された音符図像４４を利用して混合比率Ｒおよび音量Ｖの時間変化を表現する。調整画像６０の内容は第１実施形態と同様である。

図１３から理解される通り、第３実施形態の表示制御部２４は、制御期間内の各音符図像４４の表示態様が、時間軸上の時点Ｔ1から時点Ｔ2にかけて、調整領域６２内の指示点Ｘ1での表示態様から指示点Ｘ2での表示態様まで連続的に変化するように、各音符図像４４の表示態様を制御する。例えば、楽譜領域４２内の複数の音符図像４４のうち時点Ｔ1を含む音符の音符図像４４における当該時点Ｔ1での表示態様は、調整領域６２内の指示点Ｘ1での表示態様に一致する。同様に、時点Ｔ2を含む音符の音符図像４４における当該時点Ｔ2での表示態様は、調整領域６２内の指示点Ｘ2での表示態様に一致する。また、時間軸上の任意の時点ｔを含む音符の音符図像４４における当該時点ｔでの表示態様は、調整領域６２のうち指示点Ｘ1から指示点Ｘ2までの経路Ｃ上で当該時点ｔに対応した地点の表示態様に設定される。

他方、変数画像５０の変数領域５２には、第２実施形態と同様に時間軸と数値軸ＡY（縦軸）とが設定され、制御情報ＱCが指定する音量Ｕの時間変化を表現する遷移線５８が表示される。図１３の遷移線５８は、音量Ｕの時間変化を表現する折線であり、第２実施形態における遷移画像５４の外形線５６に相当する。なお、変数画像５０を省略することも可能である。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、楽譜領域４２内に配置された音符図像４４の表示態様に応じて混合比率Ｒおよび音量Ｖの時間変化が表現されるから、混合比率Ｒおよび音量Ｖの時間変化と合成楽曲の各音符との関係を利用者が容易に把握できるという利点がある。

＜第４実施形態＞
図１４は、第４実施形態における編集画像３０の模式図である。図１４に例示される通り、第４実施形態の楽譜領域４２には、合成楽曲の各音符を表象する音符図像４４と、各音符図像４４に対応する補助図像４６が配置される。相対応する音符図像４４と補助図像４６とは、相互に近接した位置（すなわち、音符図像４４と補助図像４６との対応関係を利用者が判別可能な位置）に配置される。補助図像４６の時間軸上の表示長は、当該補助図像４６に対応する音符図像４４と共通する。

第３実施形態では楽譜領域４２内の各音符図像４４を利用して混合比率Ｒおよび音量Ｖの時間変化を表現したが、第４実施形態では、音符図像４４とは別個の各補助図像４６を混合比率Ｒおよび音量Ｖの時間変化の表現に利用する。すなわち、補助図像４６は、音符図像４４が表象する音符に関連する変数（混合比率Ｒ，音量Ｖ）の表示を補助する図像として位置付けられる。なお、調整画像６０の内容は第１実施形態と同様である。また、変数画像５０の変数領域５２には、第２実施形態と同様に、制御情報ＱCが指定する音量Ｕの時間変化を表現する遷移線５８が表示される。変数画像５０を省略することも可能である。

図１４から理解される通り、第３実施形態の表示制御部２４は、制御期間内の各補助図像４６の表示態様が、時間軸上の時点Ｔ1から時点Ｔ2にかけて、調整領域６２内の指示点Ｘ1での表示態様から指示点Ｘ2での表示態様まで連続的に変化するように、各補助図像４６の表示態様を制御する。例えば、時点Ｔ1を含む音符の補助図像４６における当該時点Ｔ1の表示態様は、調整領域６２内の指示点Ｘ1での表示態様に一致し、時点Ｔ2を含む音符の補助図像４６における当該時点Ｔ2の表示態様は、調整領域６２内の指示点Ｘ2での表示態様に一致する。また、時間軸上の任意の時点ｔを含む音符の補助図像４６における当該時点ｔでの表示態様は、調整領域６２のうち指示点Ｘ1から指示点Ｘ2までの経路Ｃ上で当該時点ｔに対応した地点の表示態様に設定される。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、楽譜領域４２内の各音符図像４４に対応する補助図像４６の表示態様に応じて混合比率Ｒおよび音量Ｖの時間変化が表現されるから、第３実施形態と同様に、混合比率Ｒおよび音量Ｖの時間変化と合成楽曲の各音符との関係を利用者が容易に把握できるという利点がある。

なお、混合比率Ｒおよび音量Ｖの表示に音符図像４４を利用する第３実施形態では、第４実施形態の補助図像４６が不要であるから、第４実施形態と比較して楽譜画像４０の内容が簡素化される（表示要素の総数が削減される）という利点がある。他方、音符図像４４とは別個の補助図像４６を混合比率Ｒおよび音量Ｖの表示に利用する第４実施形態では、音符図像４４の表示態様を混合比率Ｒや音量Ｖの時間変化とは無関係に選定でき（音符図像４４の表示態様の選定の自由度が高い）、例えば各音符図像４４に付加された音声符号ｑ3の視認性を維持できるという利点がある。

＜第５実施形態＞
第１実施形態から第４実施形態では２種類の音声（第１音声，第２音声）の混合処理を例示したが、声質が相違する３種類以上の音声の音声素片Ｐを混合する混合処理も想定され得る。３種類以上の音声の音声素片Ｐを混合する場面で混合比率Ｒの時間変化を調整する場合、各音声の比率を利用者が総合的に考慮しながら混合比率Ｒを決定する必要があり、利用者の作業負担が大きいという問題がある。第５実施形態は、３種類以上の音声の混合比率Ｒの時間変化を調整する利用者の作業負担を軽減するための形態である。

図１５は、第５実施形態における混合処理の説明図である。図１５に例示される通り、第５実施形態の記憶装置１２には、３個の音声ライブラリＬ（ＬA，ＬB，ＬC）が記憶される。音声ライブラリＬCは、音声ライブラリＬAの第１音声や音声ライブラリＬBの第２音声とは声質（声色）が相違する第３音声から抽出された複数の音声素片ＰCの集合である。音声合成部２８が実行する混合処理（ＳA3）では、音声ライブラリＬAから選択された音声素片ＰAと音声ライブラリＬBから選択された音声素片ＰBと音声ライブラリＬCから選択された音声素片ＰCとが混合比率Ｒのもとで混合される。第５実施形態の混合比率Ｒは、第１音声の比率（加重値）λAと第２音声の比率λBと第３音声の比率λCとを包含する。混合処理は、例えば以下の数式(b)で表現される通り、音声素片ＰAの変数ｐAと音声素片ＰBの変数ｐBと音声素片ＰCの変数ｐCとを混合比率Ｒ（λA，λB，λC）に応じて加重加算することで、合成後の音声素片ＰSの声質に関する変数ｐSを算定する処理である。比率λAと比率λBと比率λCとの合計値は例えば１である。
ｐS＝λA・ｐA＋λB・ｐB＋λC・ｐC ……(b)

以上の説明から理解される通り、音声素片ＰSの声質は、混合比率Ｒに応じて音声素片ＰAと音声素片ＰBと音声素片ＰCとの中間的な声質に設定され得る。混合処理で順次に生成される音声素片ＰSを時間軸上で相互に連結して音声信号Ｓを生成する動作は第１実施形態と同様である。合成情報Ｑの制御情報ＱCは、混合処理に適用される混合比率Ｒ（λA，λB，λC）の時間変化を指定する。第５実施形態では音量Ｖの時間変化は省略される。なお、第５実施形態の混合処理には、数式(b)以外にも公知の技術が任意に採用され得る。

図１６は、第５実施形態における編集画像３０の模式図である。第５実施形態の編集画像３０は、第１実施形態と同様の楽譜画像４０と、混合比率Ｒの時間変化を調整するための調整画像６０および変数画像５０とを含んで構成される。第５実施形態の調整画像６０は、音声合成処理に利用される各音声に対応する基準点Ｇ（ＧA，ＧB，ＧC）が相互に離間して設定された調整領域６２を包含する。基準点ＧA（声色Ａ）は第１音声（音声素片ＰA）に対応し、基準点ＧB（声色Ｂ）は第２音声（音声素片ＰB）に対応し、基準点ＧC（声色Ｃ）は第３音声（音声素片ＰC）に対応する。

調整領域６２内の各地点は位置に応じて相異なる表示態様で表示される。実際の調整領域６２は多色の色彩を含むカラー画像であるが、図１６では便宜的に、調整領域６２内の色相を図面上の階調の濃淡（グレースケール）で代替的に表現した。具体的には、調整領域６２の中心の周囲に青色と青色と緑色と赤色とにわたる連続的な色相の分布を波長順に配色した画像が調整領域６２として好適である。

第１実施形態と同様に、指示受付部２２は、変数領域５２の時間軸上の複数の時点Ｔ（Ｔ1，Ｔ2，Ｔ3）の指示を利用者から受付け（ＳC2）、表示制御部２４は、各時点Ｔを変数領域５２内に表示する（ＳC3）。また、指示受付部２２は、調整領域６２の複数の指示点Ｘ（Ｘ1，Ｘ2，Ｘ3）の指示を利用者から受付け（ＳC4）、表示制御部２４は、指示受付部２２が受付けた各指示点Ｘと、相前後して指示された２個の指示点Ｘを連結する経路Ｃ（Ｃ12，Ｃ23）とを調整領域６２内に表示する（ＳC5）。

第５実施形態の１個の指示点Ｘは、混合比率Ｒ（λA，λB，λC）の各数値に対応した座標点である。具体的には、指示点Ｘが１個の基準点Ｇに近いほど、当該基準点Ｇに対応する音声の比率λ（λA，λB，λC）が大きい数値となるように、調整領域６２内における指示点Ｘの位置に応じて混合比率Ｒの各比率λの数値が決定される。指示点Ｘの位置と各比率λの数値との関係の具体例を以下に列挙する。

図１７は、第５実施形態の調整領域６２の模式図である。図１７では、調整領域６２内の各地点での表示態様の相違の図示を便宜的に省略した。図１７における指示点の各位置σ（σ1，σ2，σ3，σ4，……）と、当該位置σの指示点Ｘに対応する各比率λの相対比（λA：λB：λC）との関係は、例えば以下の通りである。
（１）位置σ1（基準点ＧA） λA：λB：λC＝１０：０：０
（２）位置σ2（基準点ＧB） λA：λB：λC＝０：１０：０
（３）位置σ3（基準点ＧC） λA：λB：λC＝０：０：１０
（４）位置σ4 λA：λB：λC＝０：１０：１０
（５）位置σ5 λA：λB：λC＝５：５：０
（６）位置σ6 λA：λB：λC＝５：０：５
（７）位置σ7 λA：λB：λC＝１０：５：５
なお、指示点Ｘと混合比率Ｒ（各比率λ）との関係は以上の例示に限定されない。例えば、各音声の基準点Ｇから指示点Ｘまでの距離と当該基準点Ｇに対応する音声の比率λとが反比例するように、調整領域６２内の指示点Ｘの位置に応じて各比率λの数値を決定することも可能である。

表示制御部２４は、第１実施形態と同様に、調整領域６２内に指示された各指示点Ｘに応じた遷移画像５４を変数画像５０の変数領域５２に配置する（ＳC6）。具体的には、図１６から理解される通り、遷移画像５４の表示態様は、時間軸上の時点Ｔ1から時点Ｔ2にかけて、調整領域６２内の指示点Ｘ1での表示態様から指示点Ｘ2での表示態様まで連続的に変化するとともに、時間軸上の時点Ｔ2から時点Ｔ3にかけて、調整領域６２内の指示点Ｘ2での表示態様から指示点Ｘ3での表示態様まで連続的に変化する。

情報管理部２６は、混合比率Ｒの各比率λが、調整領域６２内の各指示点Ｘでの数値に応じて経時的に遷移するように、合成情報Ｑの制御情報ＱCを更新する（ＳC7）。具体的には、混合比率Ｒ（各比率λ）が、時点Ｔ1から時点Ｔ2にかけて、調整領域６２内の指示点Ｘ1に対応する数値から指示点Ｘ2に対応する数値まで、経路Ｃ12に沿って遷移するとともに、時点Ｔ2から時点Ｔ3にかけて、調整領域６２内の指示点Ｘ2に対応する数値から指示点Ｘ3に対応する数値まで、経路Ｃ23に沿って遷移するように、制御情報ＱCが更新される。

以上に説明した通り、第５実施形態では、混合処理に適用される各音声に対応する基準点Ｇ（ＧA，ＧB，ＧC）が設定された調整領域６２に、利用者からの指示に応じた指示点Ｘ（Ｘ1，Ｘ2，Ｘ3）が設定され、各指示点Ｘの間にわたる混合比率Ｒ（λA，λB，λC）の時間変化が制御情報ＱCにて指定される。以上の構成によれば、利用者は、混合処理に適用される各音声の相互的な関係（各音声の比率λの関係）を調整領域６２で視覚的に確認しながら混合比率Ｒの時間変化を指示することが可能である。したがって、混合比率Ｒの時間変化を調整する利用者の作業負担が軽減されるという利点がある。

なお、第５実施形態でも、第２実施形態と同様に、制御情報ＱCが指定する音量Ｕの時間変化を遷移画像５４の形状（外形線５６の形状）で表現する構成が採用され得る。また、第３実施形態と同様に、調整領域６２内の各指示点Ｘの間の表示態様の変化を、楽譜領域４２内の各音符図像４４の表示態様に応じて表現する構成や、第４実施形態と同様に、調整領域６２内の各指示点Ｘの間の表示態様の変化を、楽譜領域４２内の各補助図像４６の表示態様に応じて表現する構成も、第５実施形態に採用され得る。

＜第６実施形態＞
図１８は、第６実施形態の表示制御部２４が表示装置１４に表示させる調整画像６０の模式図である。第６実施形態の調整画像６０は、相互に交差する第１軸Ａ1（横軸）と第２軸Ａ2（縦軸）とが設定された調整領域６２を包含する。第１軸Ａ1と第２軸Ａ2とは、相異なる種類の特性変数の数値を示す座標軸である。特性変数は、合成対象音声の音響特性に関する変数であり、音声合成部２８による音声合成処理に適用される。例えば音声の明瞭度（brightness, clearness），気息成分の強弱（breathiness），男声/女声の度合（genderfactor），音高の微小変化（pitch-bend），音量（dynamics），発音の強弱（velocity）等の変数が特性変数として例示され得る。第１軸Ａ1は、以上の例示から選択された第１特性変数の数値を示す座標軸であり、第２軸Ａ2は、第１特性変数とは別種の第２特性変数の数値を示す座標軸である。

調整領域６２内の各地点が位置に応じて相異なる表示態様で表示される点や、調整領域６２内に利用者からの指示に応じて複数の指示点Ｘが設定される点は第１実施形態と同様である。また、第１実施形態と同様に、変数画像５０の変数領域５２には、利用者からの指示に応じた複数の時点Ｔが設定され、調整領域６２内の各指示点Ｘの間と同様に時間軸上の各時点Ｔ間で表示態様が変化する遷移画像５４が配置される。

合成情報Ｑの制御情報ＱCは、第１特性変数および第２特性変数の時間変化を指定する。情報管理部２６は、第１特性変数および第２特性変数の数値が、調整領域６２内の各指示点Ｘでの数値に応じて経時的に遷移するように、制御情報ＱCを更新する。具体的には、第１特性変数の数値が、時点Ｔ1から時点Ｔ2にかけて、第１軸Ａ1上で指示点Ｘ1に対応する数値から指示点Ｘ2に対応する数値まで連続的に遷移するとともに、第２特性変数の数値が、時点Ｔ1から時点Ｔ2にかけて、第２軸Ａ2上で指示点Ｘ1に対応する数値から指示点Ｘ2に対応する数値まで連続的に遷移するように、制御情報ＱCが更新される。

以上に説明した通り、第６実施形態では、第１特性変数の第１軸Ａ1と第２特性変数の第２軸Ａ2とが設定された調整領域６２に、利用者からの指示に応じた指示点Ｘ（Ｘ1，Ｘ2）が設定され、指示点Ｘ1に対応する数値から指示点Ｘ2に対応する数値まで遷移するように第１特性変数および第２特性変数の時間変化が設定される。以上の構成によれば、利用者は、第１特性変数と第２特性変数との関係を確認しながら両者の時間変化を指示することが可能である。したがって、音声合成処理に適用される特性変数を指示する利用者の作業負担を軽減できるという利点がある。

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の各形態では、調整領域６２内の各指示点Ｘを直線の経路Ｃで連結したが、経路Ｃは直線に限定されない。例えば、図１９に例示される通り、３個の指示点Ｘ（Ｘ1，Ｘ2，Ｘ3）に応じた補間曲線を経路Ｃとして設定する構成や、図２０に例示される通り、各指示点Ｘ間で利用者が任意に指定した曲線（自由曲線）を経路Ｃとして設定する構成が採用され得る。

（２）前述の各形態では、調整領域６２内の各地点の位置に応じて明度や色相を相違させたが、調整領域６２内の各地点の位置に応じて相違させる表示態様は明度や色相に限定されない。例えば、図２１に例示される通り、網掛やハッチング等のパターン（塗潰しパターン）を調整領域６２内の各地点の位置に応じて相違させることも可能である。また、前述の各形態では調整領域６２をカラー画像としたが、調整領域６２を白黒画像として、調整領域６２内の各地点の位置に応じて明度（階調）を相違させることも可能である。

（３）第１実施形態から第４実施形態では、混合比率Ｒとともに調整される第１特性変数として音量Ｖを例示したが、第１特性変数は音量Ｖに限定されない。また、第２実施形態では、遷移画像５４の形状で時間変化が表現される第２特性変数として音量Ｕを例示したが、第２特性変数は音量Ｕに限定されない。例えば、第６実施形態で例示した通り、音声の明瞭度，気息成分の強弱，男声/女声の度合，音高の微小変化等を、第１実施形態から第４実施形態の第１特性変数や第２実施形態の第２特性変数として選択することも可能である。

（４）前述の各形態では、時点Ｔ1から時点Ｔ2にわたる変数の時間変化に着目したが、例えば合成対象音声（合成楽曲）の全区間にわたる変数の時間変化を調整する場合にも本発明は同様に適用され得る。すなわち、変数の時間変化が調整される期間を合成対象音声の特定の期間（制御期間）に限定する構成は必須ではない。したがって、利用者による各時点Ｔの指示は省略され得る。また、時間軸上の各時点Ｔを利用者からの指示に応じて設定する構成は必須ではない。具体的には、利用者からの指示を要件としない所定の方法で合成対象音声（合成楽曲）に各時点Ｔを設定することも可能である。例えば、合成楽曲の歌唱区間（例えばフレーズ）を公知の方法で検出し、歌唱区間の始点および終点を各時点Ｔに設定すれば、歌唱区間の前方と後方とで歌唱音声の声質を相違させることが可能である。

（５）第５実施形態では、調整領域６２の隅部に基準点Ｇを設定したが、図２２に例示される通り、調整領域６２の内部に基準点Ｇ（ＧA，ＧB，ＧC）を設定することも可能である。図２２の例示では、各基準点Ｇを頂点とする三角形状の領域６８が調整領域６２の内側に画定される。また、図２２の例示のように、各基準点Ｇで画定される領域６８の内側および外側に指示点Ｘが設定され得る構成では、領域６８の内側と外側とで混合処理の内容を相違させることも可能である。

例えば、図２２の例示の通り、指示点Ｘ1が領域６８の内側に位置するとともに指示点Ｘ2が領域６８の外側に位置する場合を想定する。音声合成部２８は、時点Ｔ1から時点Ｔ2までの期間のうち経路Ｃ12上で領域６８の内側の区間に対応する各時点ｔでは、第５実施形態の例示と同様に、全部（３種類）の音声の音声素片Ｐ（ＰA，ＰB，ＰC）を混合比率Ｒのもとで混合する。他方、時点Ｔ1から時点Ｔ2までの期間のうち経路Ｃ12上で領域６８の外側の区間に対応する各時点ｔでは、指示点Ｘ2に近い２個の基準点Ｇ（ＧA，ＧC）に対応する音声素片Ｐ（ＰA，ＰC）を混合比率Ｒのもとで混合する。図２２の例示では、指示点Ｘ2および指示点Ｘ3は何れも領域６８の外側に位置するから、時点Ｔ2から時点Ｔ3までの期間では、音声素片ＰAと音声素片ＰCとが混合比率Ｒのもとで混合される。

（６）第５実施形態では、３種類の音声（第１音声，第２音声，第３音声）の混合を例示したが、混合対象となる音声の種類数は任意であり、例えば４種類以上の音声を混合することも可能である。図２３は、５種類の音声を混合する場合の調整領域６２の模式図である。図２３に例示される通り、各音声に対応する５個の基準点Ｇ（ＧA，ＧB，ＧC，ＧD，ＧE）が円形状の調整領域６２の円周上に設定される。

（７）前述の各形態では、合成情報Ｑの管理（表示制御部２４および情報管理部２６）と音声信号Ｓの生成（音声合成部２８）との双方を実行する音声合成装置１００を例示したが、合成情報Ｑを管理する音声合成管理装置としても本発明は特定され得る。音声合成管理装置では音声合成部２８の有無は不問である。また、携帯電話機等の端末装置と通信するサーバ装置で音声合成装置１００や音声合成管理装置を実現することも可能である。指示受付部２２は、利用者が端末装置に付与した指示を端末装置から通信網を介して受付け、表示制御部２４は、例えば編集画像３０の画像データを端末装置に送信することで編集画像３０を端末装置の表示装置に表示させる。また、音声合成部２８は、音声合成処理で生成した音声信号Ｓを端末装置に送信する。

（８）前述の各形態では、合成楽曲の歌唱音声の音声信号Ｓの生成を例示したが、歌唱音声以外の音声（例えば会話音等）の音声信号Ｓの生成にも本発明を適用することが可能である。したがって、合成情報Ｑの楽曲情報ＱM（音高ｑ1，発音期間ｑ2）は省略され得る。また、前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意である。例えば、英語，スペイン語，中国語，韓国語等の任意の言語の音声を生成する場合にも本発明を適用することが可能である。

１００……音声合成装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……入力装置、１８……放音装置、２２……指示受付部、２４……表示制御部、２６……情報管理部、２８……音声合成部、３０……編集画像、４０……楽譜画像、４２……楽譜領域、４４……音符図像、４６……補助図像、５０……変数画像、５２……変数領域、５４……遷移画像、５６……外形線、５８……遷移線、６０……調整画像、６２……調整領域。

Claims

合成対象音声の合成時における第１音声と第２音声との混合比率を示す第１軸と、前記合成対象音声の音響特性に関する第１特性変数を示す第２軸とが設定された調整領域を含む調整画像を表示装置に表示させる表示制御手段と、
前記調整領域内の第１指示点および第２指示点の指示を利用者から受付ける指示受付手段と、
前記第１軸上で前記第１指示点に対応する数値から前記第２指示点に対応する数値への前記混合比率の時間変化と、前記第２軸上で前記第１指示点に対応する数値から前記第２指示点に対応する数値への前記第１特性変数の時間変化とを示す制御情報を生成する情報管理手段と
を具備する音声合成管理装置。
前記情報管理手段は、前記合成対象音声のうち時間軸上の第１時点から第２時点までの期間について、前記第１軸上で前記第１指示点に対応する数値から前記第２指示点に対応する数値への前記混合比率の時間変化と、前記第２軸上で前記第１指示点に対応する数値から前記第２指示点に対応する数値への前記第１特性変数の時間変化とを示す制御情報を生成する
請求項１の音声合成管理装置。
前記表示制御手段は、
前記調整領域内の各地点が相異なる表示態様に設定された前記調整画像と、
時間軸上の前記第１時点から前記第２時点にかけて前記調整領域内の前記第１指示点での表示態様から前記第２指示点での表示態様に変化する遷移画像を含む変数画像と
を前記表示装置に表示させる
請求項２の音声合成管理装置。
前記表示制御手段は、前記合成対象音声の音響特性に関する第２特性変数の時間変化を前記遷移画像の形状で表現する前記変数画像を前記表示装置に表示させる
請求項３の音声合成管理装置。
前記表示制御手段は、
前記調整領域内の各地点が相異なる表示態様に設定された前記調整画像と、
前記合成対象音声の各音符を表象する音符図像を、時間軸と音高軸とが設定された楽譜領域に配置した楽譜画像と
を前記表示装置に表示させ、前記各音符図像における時間軸上の各地点の表示態様を、前記調整領域における前記第１指示点から前記第２指示点までの経路のうち当該地点に対応した地点での表示態様に設定する
請求項２の音声合成管理装置。