JP2015148750A

JP2015148750A - 歌唱合成装置

Info

Publication number: JP2015148750A
Application number: JP2014022205A
Authority: JP
Inventors: 誠橘; Makoto Tachibana; 橘　　誠
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2014-02-07
Filing date: 2014-02-07
Publication date: 2015-08-20

Abstract

【課題】歌唱音声の音響特性を選定する利用者の負担を軽減する。
【解決手段】歌唱合成装置１００は、対象楽曲内の対象区間を設定する区間設定部と、対象楽曲の歌詞に応じて対象区間の印象（感情等）を特定する印象特定部と、印象特定部が特定した印象に対応する音響特性が対象区間に付与された対象楽曲の歌唱音声の音声信号Ｖを合成する歌唱合成部２６とを具備する。
【選択図】図１

Description

本発明は、楽曲の歌唱音声を合成する技術に関する。

楽曲の歌唱音声を合成する各種の技術が従来から提案されている。例えば特許文献１には、歌唱音声に付与される表情（音色や音量等の特徴）に関する変数を利用者からの指示に応じて制御する構成が開示されている。

特開２００８−１６５１３０号公報

特許文献１の技術では、歌唱音声の表情に関する変数を利用者が指示する必要があるから、利用者による作業の負担が問題となる。以上の事情を考慮して、本発明は、歌唱音声の音響特性を選定するための利用者の負担を軽減することを目的とする。

以上の課題を解決するために、本発明の歌唱合成装置は、楽曲内の対象区間を設定する区間設定手段と、楽曲に関連する情報に応じて対象区間の印象を特定する印象特定手段と、印象特定手段が特定した印象に対応する音響特性が対象区間に付与された楽曲の歌唱音声の音声信号を合成する歌唱合成手段とを具備する。以上の構成では、楽曲に関連する情報に応じて対象区間の印象が特定され、当該印象に応じた音響特性を対象区間に付与した歌唱音声の音声信号が生成される。したがって、歌唱音声の音響特性を選定するための利用者の負担を軽減することが可能である。

本発明の好適な態様に係る歌唱合成装置は、印象特定手段が特定した印象の度合を示す制御変数を設定する変数設定手段を具備し、歌唱合成手段は、印象特定手段が特定した印象に対応する音響特性が制御変数に応じた度合で対象区間に付与された歌唱音声の音声信号を合成する。以上の態様では、印象特定手段が特定した印象の度合を示す制御変数が可変に設定されるから、印象特定手段が特定した印象の度合が変化する多様な歌唱音声を合成することが可能である。また、対象区間における制御変数の数値の時間変化を利用者からの指示に応じて設定する構成によれば、利用者の意図や嗜好を反映した多様な印象の歌唱音声を生成できるという利点がある。

本発明の好適な態様に係る歌唱合成装置は、顔を表象する顔画像を表示装置に表示させ、顔画像の表情を利用者からの指示に応じて変更する表示制御手段を具備し、変数設定手段は、顔画像の表情に応じて制御変数の数値を設定する。以上の態様では、顔画像の表情に応じて制御変数が設定されるから、対象区間の印象が歌唱音声に反映される度合を利用者が直感的かつ容易に選定できるという利点がある。

本発明の好適な態様において、印象特定手段は、印象の特定結果の妥当性の指標値を算定し、変数設定手段は、印象特定手段が算定した指標値に応じて制御変数の初期値を設定する。以上の態様では、印象特定手段による印象の特定結果の妥当性の指標値に応じて制御変数の初期値が設定されるから、利用者が制御変数の数値を調整する作業の負荷が軽減されるという利点がある。

以上の各態様に係る歌唱合成装置は、ＤＳＰ（Digital Signal Processor）等のハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、CD-ROM等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。本発明のプログラムは、例えば通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。また、本発明は、以上に説明した各態様に係る歌唱合成装置の動作方法（歌唱合成方法）としても特定される。

第１実施形態における歌唱合成装置の構成図である。楽曲情報の模式図である。編集画面の模式図である。特性情報の模式図である。印象設定部の構成図である。確認画面の模式図である。歌唱合成装置の動作のフローチャートである。第３実施形態における編集画面の模式図である。第３実施形態の変形例における編集画面の模式図である。第３実施形態の変形例における変種画面の模式図である。第４実施形態における顔画像の模式図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る歌唱合成装置１００の構成図である。歌唱合成装置１００は、任意の楽曲（以下「対象楽曲」という）の歌唱音声の音声信号Ｖを生成する信号処理装置（音声合成装置）であり、演算処理装置１０と記憶装置１２と表示装置１４と入力装置１６と放音装置１８とを具備するコンピュータシステム（例えば携帯電話機やパーソナルコンピュータ等の情報処理装置）で実現される。

表示装置１４（例えば液晶表示パネル）は、演算処理装置１０から指示された画像を表示する。入力装置１６は、歌唱合成装置１００に対する各種の指示のために利用者が操作する操作機器であり、例えば利用者が操作する複数の操作子を含んで構成される。表示装置１４と一体に構成されたタッチパネルを入力装置１６として採用することも可能である。放音装置１８（例えばスピーカやヘッドフォン）は、音声信号Ｖに応じた音響を再生する。なお、音声信号Ｖをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

記憶装置１２は、演算処理装置１０が実行するプログラムや演算処理装置１０が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１２として任意に採用される。第１実施形態の記憶装置１２は、複数の音声素片群Ｌと対象楽曲の楽曲情報ＤMとを記憶する。

各音声素片群Ｌは、特定の発声者の発声音から事前に採取された複数の音声素片の集合（音声ライブラリ）である。各音声素片の発声者は複数の音声素片群Ｌにわたり共通するが、各音声素片の印象（感情，表情，情調）は音声素片群Ｌ毎に相違する。すなわち、任意の１種類の印象に対応する音声素片群Ｌの各音声素片には、当該印象に対応する音響特性が付随する。例えば「喜」の印象（感情）に対応する音声素片群Ｌの各音声素片には、「喜」の印象にある発声者の音声に特有の音響特性（例えば明瞭で抑揚が大きい特性）が付随し、「怒」の印象に対応する音声素片群Ｌの各音声素片には、「怒」の印象にある発声者の音声に特有の音響特性（例えば音量やその変動が大きい特性）が付随する。また、第１実施形態の記憶装置１２には、特定の印象に属さない標準的な音声の音声素片群（以下「標準素片群」という）Ｌも記憶される。

楽曲情報ＤMは、対象楽曲を構成する複数の音符の時系列（すなわち歌唱パートの旋律）を指定するデータであり、図２に例示される通り、音符情報Ｑ1と音声符号Ｑ2とを対象楽曲の音符毎に含んで構成される。音符情報Ｑ1は、音符の音高と発音期間（例えば発音時点と継続長）とを指定する。音声符号Ｑ2は、音声合成の発音内容を指定する符号（例えば音節単位の発音文字）である。複数の音符にわたる音声符号Ｑ2の時系列が対象楽曲の歌詞に相当する。

図１の演算処理装置１０は、記憶装置１２に記憶されたプログラムを実行することで複数の機能（表示制御部２２，印象設定部２４，歌唱合成部２６）を実現する。なお、演算処理装置１０の各機能を複数の装置に分散した構成や、専用の電子回路（例えばＤＳＰ）が演算処理装置１０の一部の機能を実現する構成も採用され得る。表示制御部２２は、楽曲編集用のソフトウェア（エディタ）で実現され、歌唱合成部２６は、音声合成用のソフトウェア（音声合成エンジン）で実現される。また、印象設定部２４は、例えば、楽曲編集用または音声合成用のソフトウェアに対するプラグインソフトウェアで実現される。もっとも、各機能に対応するソフトウェアの切分けは任意であり、例えば、楽曲編集用のソフトウェアのひとつの機能として印象設定部２４の機能を内包することも可能である。

表示制御部２２は、各種の画像を表示装置１４に表示させる。第１実施形態の表示制御部２２は、例えば図３の編集画面４０を表示装置１４に表示させる。編集画面４０は、楽譜画像４２を包含する。楽譜画像４２は、時間軸と音高軸とが設定された領域に、楽曲情報ＤMで指定される各音符を表象する音符画像４４を時系列に配置したピアノロール画像である。楽譜画像４２内の各音符画像４４の位置と時間軸上の表示長とは音符情報Ｑ1（音高，発音期間）に応じて設定され、各音符画像４４には音声符号Ｑ2（発音文字）が付加される。利用者は、入力装置１６を適宜に操作することで楽譜画像４２の編集（例えば音符や歌詞の追加または変更）を指示することが可能である。表示制御部２２は、利用者からの指示に応じて楽譜画像４２の内容を変更するとともに楽曲情報ＤMの内容を更新する。

図１の印象設定部２４は、音声信号Ｖに反映される印象を設定する。第１実施形態の印象設定部２４は、音声信号Ｖの印象の制御に利用される図４の特性情報ＤEを生成して記憶装置１２に格納する。図４に例示される通り、第１実施形態の特性情報ＤEは、対象楽曲に設定されたＫ個の区間（以下「対象区間」という）Ｓ[1]〜Ｓ[K]の各々について印象情報Ｅ[k]と制御変数Ｘ[k]とを包含する（ｋ＝１〜Ｋ）。印象情報Ｅ[k]は、対象楽曲の対象区間Ｓ[k]から生起される印象の種類（例えば「喜」「怒」「哀」「楽」等の感情や、「クール」「かわいい」等の表情ないし情調）を指定する。印象情報Ｅ[k]が指定する印象に対応した音響特性を対象区間Ｓ[k]に付与した歌唱音声の音声信号Ｖが生成される。

制御変数Ｘ[k]は、印象情報Ｅ[k]の印象を音声信号Ｖに反映させる度合（当該印象に対応した音響特性を音声信号Ｖにて強調させる度合）の変数である。具体的には、制御変数Ｘ[k]の数値が大きいほど、印象情報Ｅ[k]に対応した音響特性が音声信号Ｖにて強調される。制御変数Ｘ[k]の数値は対象区間Ｓ[k]内で経時的に変動する。

図５は、第１実施形態における印象設定部２４の構成図である。図５に例示される通り、第１実施形態の印象設定部２４は、区間設定部３２と印象特定部３４と変数設定部３６とを含んで構成される。区間設定部３２は、対象楽曲内にＫ個の対象区間Ｓ[1]〜Ｓ[K]を設定する。各対象区間Ｓ[k]の設定の方法は任意であるが、例えば以下に例示される通り、利用者からの指示に応じて各対象区間Ｓ[k]を設定する構成が好適である。

表示制御部２２は、図３の編集画面４０のほかに図６の確認画面５０を表示装置１４に表示させる。図６に例示された確認画面５０は、編集画面４０の楽譜画像４２と同様に、時間軸および音高軸が設定された楽譜画像５２を包含する。楽譜画像５２は、対象楽曲のうち編集画面４０の楽譜画像４２での表示範囲と比較して広い範囲を利用者に提示するための画像である。すなわち、楽譜画像５２の時間軸上の特定の区間が楽譜画像４２での表示対象として選定される。楽譜画像４２と同様に、音符情報Ｑ1で指定される各音符を表象する音符画像５４が楽譜画像５２には時系列に配置される。なお、確認画面５０の楽譜画像５２では音符の編集を利用者から受付けない構成も採用される。

利用者は、入力装置１６を適宜に操作することで、楽譜画像５２の時間軸上に任意の対象区間Ｓ[k]を指示することが可能である。例えば、利用者は、楽譜画像５２の時間軸上の任意の２点を対象区間Ｓ[k]の各端点（始点，終点）として指示する。区間設定部３２は、利用者からの指示に応じて対象楽曲のＫ個の対象区間Ｓ[1]〜Ｓ[K]を順次に設定する。各対象区間Ｓ[k]の時間長は対象区間Ｓ[k]毎に個別に選定され、相前後する各対象区間Ｓ[k]の間隔の有無は不問である。

図５の印象特定部３４は、区間設定部３２が設定した各対象区間Ｓ[k]について印象情報Ｅ[k]（印象）を特定する。対象楽曲に関連する情報が印象情報Ｅ[k]の特定には利用される。第１実施形態の印象特定部３４は、任意の１個の対象区間Ｓ[k]の各音符について楽曲情報ＤMが指定する音声符号Ｑ2の時系列で構成される歌詞（文字列）Ｙ[k]に応じて当該対象区間Ｓ[k]の印象情報Ｅ[k]を特定する。すなわち、対象楽曲に関連する情報として歌詞Ｙ[k]が利用される。

歌詞Ｙ[k]を利用した印象情報Ｅ[k]の特定（印象推定）には公知の技術が任意に採用される。例えば、楽曲の歌詞に採用され得る単語毎に印象が登録された単語辞書（例えば「別れ」-「哀」や「青空」-「楽」等の対応関係）から、対象区間Ｓ[k]の歌詞Ｙ[k]に対する形態素解析で特定された各単語に対応する印象を探索し、探索の結果から対象区間Ｓ[k]の印象情報Ｅ[k]を特定することが可能である。表示制御部２２は、図６に例示される通り、印象特定部３４が特定した印象情報Ｅ[k]を表象する文字列（例えば「喜」「怒」「哀」「楽」等の文字）５６を、確認画面５０の楽譜画像５２のうち対象区間Ｓ[k]に対応した位置（図６の例示では対象区間Ｓ[k]の内側）に表示させる。

図５の変数設定部３６は、対象区間Ｓ[k]の制御変数Ｘ[k]を設定する。第１実施形態の変数設定部３６は、以下に例示される通り、利用者からの指示に応じて各対象区間Ｓ[k]の制御変数Ｘ[k]を設定する。

図３に例示される通り、表示制御部２２は、楽譜画像４２とともに変数画像４６を編集画面４０に表示させる。変数画像４６は、楽譜画像４２と共通の時間軸のもとで制御変数Ｘ[k]の数値の時間変化を表現する画像（図３の例示では制御変数Ｘ[k]の折線グラフ）である。図３に破線で併記される通り、制御変数Ｘ[k]の数値は、対象区間Ｓ[k]の設定の直後の初期状態では対象区間Ｓ[k]の全域にわたり所定の初期値Ｘ0に設定され、入力装置１６に対する利用者からの指示に応じて初期値Ｘ0から変更される。変数設定部３６は、変数画像４６に対する利用者からの指示に応じて制御変数Ｘ[k]を設定する。印象特定部３４が特定した印象情報Ｅ[k]と変数設定部３６が設定した制御変数Ｘ[k]とを対象楽曲のＫ個の対象区間Ｓ[1]〜Ｓ[K]の各々について含む特性情報ＤEが記憶装置１２に格納される。

図１の歌唱合成部２６は、記憶装置１２に記憶された各音声素片群Ｌと楽曲情報ＤMと特性情報ＤEとを利用した音声合成で対象楽曲の歌唱音声の音声信号Ｖを生成する。第１実施形態の歌唱合成部２６は、特性情報ＤEの印象情報Ｅ[k]に対応する音響特性が特性情報ＤEの制御変数Ｘ[k]に応じた度合で対象区間Ｓ[k]に付与された歌唱音声の音声信号Ｖを生成する。対象楽曲の各対象区間Ｓ[k]について、歌唱合成部２６は、対象区間Ｓ[k]内の各音符の音声符号Ｑ2に対応する音声素片を、印象情報Ｅ[k]が指定する印象の音声素片群Ｌと標準素片群Ｌとの各々から順次に選択し、印象情報Ｅ[k]の音声素片群Ｌから選択した音声素片と標準素片群Ｌから選択した音声素片とを制御変数Ｘ[k]に応じた混合比（補間比率）で相互に混合する。具体的には、制御変数Ｘ[k]が大きいほど印象情報Ｅ[k]の音声素片の比率が増加するように混合比が制御される。歌唱合成部２６は、混合後の音声素片を音符情報Ｑ1で指定される音高および発音期間に調整したうえで各音声素片を時間軸上で相互に連結して対象区間Ｓ[k]の音声信号Ｖを生成する。以上の説明から理解される通り、印象情報Ｅ[k]が指定する印象に対応した音響特性が制御変数Ｘ[k]に応じた度合で対象区間Ｓ[k]に付与された音声信号Ｖが生成される。したがって、歌唱合成部２６が生成した音声信号Ｖが放音装置１８に供給されることで、印象情報Ｅ[k]が指定する印象が対象区間Ｓ[k]に付随した歌唱音声が再生される。

図７は、第１実施形態の歌唱合成装置１００の動作のフローチャートである。入力装置１６に対する利用者からの指示を契機として処理が開始される。図７の処理を開始すると、表示制御部２２は、図３の編集画面４０と図６の確認画面５０とを表示装置１４に表示させ（Ｓ1）、編集画面４０や確認画面５０に対する利用者からの指示の内容を判別する（Ｓ2）。利用者からの指示の内容に応じた処理が実行される。例えば、編集画面４０の楽譜画像４２に対して各音符の編集が指示された場合（Ｓ2：ａ）、表示制御部２２は、利用者からの指示に応じて楽曲情報ＤMの各音符の音符情報Ｑ1または音声符号Ｑ2を編集（追加，削除，変更）する（Ｓ3）。

確認画面５０に対して対象区間Ｓ[k]が指示された場合（Ｓ2：ｂ）、区間設定部３２は、利用者からの指示に応じて対象区間Ｓ[k]を設定し（Ｓ4）、印象特定部３４は、当該対象区間Ｓ[k]の印象を示す印象情報Ｅ[k]を特定する（Ｓ5）。また、編集画面４０の変数画像４６に対して制御変数Ｘ[k]の編集が指示された場合（Ｓ2：ｃ）、変数設定部３６は、利用者からの指示に応じて制御変数Ｘ[k]を設定する（Ｓ6）。表示制御部２２は、以上に例示した編集の結果が反映されるように表示画像（編集画面４０，確認画面５０）を更新する（Ｓ7）。他方、歌唱音声の合成が指示された場合（Ｓ2：ｄ）、歌唱合成部２６は、各音声素片群Ｌと楽曲情報ＤMと特性情報ＤEとを利用した音声合成で音声信号Ｖを生成する（Ｓ8）。以上に例示した処理が完了した場合、利用者からの指示の判別（Ｓ2）に移行する。

以上に説明した通り、第１実施形態では、対象楽曲に関連する情報（歌詞Ｙ[k]）に応じて対象区間Ｓ[k]の印象情報Ｅ[k]が特定され、印象情報Ｅ[k]が指定する印象に対応した音響特性を対象区間Ｓ[k]に付与した歌唱音声の音声信号Ｖが生成される。したがって、歌唱音声の音響特性を選定するための利用者の負担を軽減することが可能である。

第１実施形態では、印象情報Ｅ[k]で指定される印象に対応した音響特性が制御変数Ｘ[k]に応じた度合で音声信号Ｖの対象区間Ｓ[k]に付与される。したがって、印象情報Ｅ[k]で指定される印象の度合が経時的に変化する多様な歌唱音声を合成することが可能である。第１実施形態では特に、制御変数Ｘ[k]の数値の時間変化が利用者からの指示に応じて設定されるから、利用者の意図や嗜好を反映した多様な印象の歌唱音声を生成できるという利点もある。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態の印象特定部３４は、各対象区間Ｓ[k]の印象情報Ｅ[k]を第１実施形態と同様に特定するとともに、印象情報Ｅ[k]の特定結果の妥当性の指標値Ｚ[k]を算定する。指標値Ｚ[k]は、印象情報Ｅ[k]で指定される印象が対象区間Ｓ[k]の実際の印象として妥当と評価できる度合（印象の推定結果の尤もらしさ）の尺度である。例えば、印象情報Ｅ[k]に対応する単語が対象区間Ｓ[k]の歌詞Ｙ[k]に登場する回数が多い（印象情報Ｅ[k]の印象が対象区間Ｓ[k]について妥当である）ほど、指標値Ｚ[k]は大きい数値に設定される。

第２実施形態の変数設定部３６は、対象区間Ｓ[k]の制御変数Ｘ[k]の初期値Ｘ0を、印象特定部３４が算定した指標値Ｚ[k]に応じて対象区間Ｓ[k]毎に可変に設定する。具体的には、変数設定部３６は、指標値Ｚ[k]が大きいほど対象区間Ｓ[k]の初期値Ｘ0を大きい数値に設定する。すなわち、印象特定部３４による印象情報Ｅ[k]の特定結果の妥当性が高いほど制御変数Ｘ[k]の初期値Ｘ0は大きい数値に設定される。以上の説明から理解される通り、第２実施形態では、制御変数Ｘ[k]の初期値Ｘ0が印象情報Ｅ[k]の指標値Ｚ[k]に応じて対象区間Ｓ[k]毎に個別に設定される。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、印象情報Ｅ[k]の指標値Ｚ[k]に応じて制御変数Ｘ[k]の初期値Ｘ0が可変に設定されるから、印象情報Ｅ[k]の特定結果とは無関係の所定値に制御変数Ｘ[k]の初期値Ｘ0が固定される第１実施形態と比較して、利用者が制御変数Ｘ[k]の数値を編集する作業の負荷が軽減されるという利点がある。

＜第３実施形態＞
第３実施形態の印象特定部３４は、対象区間Ｓ[k]毎に複数種の印象を特定する。具体的には、印象特定部３４は、相異なる印象を指定する３種類の印象情報Ｅ1[k]〜Ｅ3[k]をＫ個の対象区間Ｓ[1]〜Ｓ[K]の各々について特定する。対象区間Ｓ[k]の歌詞Ｙ[k]を各印象情報Ｅn[k]（ｎ＝１〜３）の特定に利用する構成は第１実施形態と同様である。なお、１個の対象区間Ｓ[k]について特定される印象の種類数は任意である。

第３実施形態の変数設定部３６は、相異なる印象情報Ｅn[k]に対応する複数（３種類）の制御変数Ｘ1[k]〜Ｘ3[k]を編集画面４０に対する利用者からの指示に応じて設定する。図８は、第３実施形態における編集画面４０の模式図である。図８に例示される通り、第３実施形態の編集画面４０の変数画像４６は、３種類の制御変数Ｘ1[k]〜Ｘ3[k]の数値の時間変化を共通の時間軸のもとで並列に表現する。利用者は、変数画像４６から所望の制御変数Ｘn[k]を選択したうえで当該制御変数Ｘn[k]の数値の時間変化の編集を指示することが可能である。変数設定部３６は、変数画像４６に対する利用者からの指示に応じて各制御変数Ｘn[k]を個別に設定する。なお、複数の制御変数Ｘ1[k]〜Ｘ3[k]の何れかを利用者からの指示に応じて選択的に表示することも可能である。

歌唱合成部２６は、対象楽曲の対象区間Ｓ[k]について、音声符号Ｑ2に対応する音声素片を３種類の印象情報Ｅ1[k]〜Ｅ3[k]の各々に対応する音声素片群Ｌから順次に選択し、印象情報Ｅ1[k]の音声素片と印象情報Ｅ2[k]の音声素片と印象情報Ｅ3[k]の音声素片とを、制御変数Ｘ1[k]〜Ｘ3[k]に応じた混合比で相互に混合する。具体的には、制御変数Ｘn[k]の数値が大きいほど印象情報Ｅn[k]の音声素片が優勢となるように各印象情報Ｅ[k]に対応する音声素片が混合される。第１実施形態と同様に、混合後の各音声素片を相互に連結することで音声信号Ｖが生成される。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、各対象区間Ｓ[k]について複数の印象情報Ｅn[k]が特定されるから、相異なる複数の印象が付随する多様な音響特性の音声信号Ｖを生成できるという利点がある。

なお、各制御変数Ｘn[k]の表示の形式は図８の例示に限定されない。例えば、図９の例示のように、複数の制御変数Ｘ1[k]〜Ｘ3[k]の比率の時間変化を表現する構成や、図１０の例示のように、各制御変数Ｘn[k]の数値を示す３軸が設定された空間内の座標点として３種類の制御変数Ｘ1[k]〜Ｘ3[k]の各数値を表現する構成も採用され得る。

＜第４実施形態＞
第４実施形態の表示制御部２２は、人間の顔を表象する図１１の顔画像（キャラクタ）６２を表示装置１４に表示させる。利用者は、入力装置１６を適宜に操作することで、顔画像６２が表象する顔の表情の変更を指示することが可能である。表示制御部２２は、顔画像６２に対する利用者からの指示に応じて顔画像６２の表情を変更する。例えば、図１１に例示される通り、顔画像６２の各部（例えば目や口）を変形することで表情が変更される。

第４実施形態の変数設定部３６は、表示装置１４に表示された顔画像６２の表情に応じて、印象特定部３４が特定した印象情報Ｅ[k]に対応する制御変数Ｘ[k]の数値を可変に設定する。例えば、印象特定部３４が「哀」の印象の印象情報Ｅ[k]を特定した場合、変数設定部３６は、顔画像６２の目尻が低下する（すなわち哀しい表情になる）ほど制御変数Ｘ[k]の数値を増加させる。すなわち、「哀」の印象が音声信号Ｖにて強調されるように制御変数Ｘ[k]が設定される。また、例えば印象特定部３４が「喜」の印象の印象情報Ｅ[k]を特定した場合、変数設定部３６は、顔画像６２の目や口が拡大する（すなわち喜んだ表情になる）ほど制御変数Ｘ[k]の数値を増加させる。すなわち、「喜」の印象が音声信号Ｖにて強調されるように制御変数Ｘ[k]が設定される。対象区間Ｓ[k]の設定や音声信号Ｖの生成は前述の各形態と同様である。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、顔画像６２の表情に応じて制御変数Ｘ[k]が制御されるから、対象区間Ｓ[k]の印象が音声信号Ｖに反映される度合を利用者が直感的かつ容易に指示できるという利点がある。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、対象楽曲の歌詞Ｙ[k]に応じて対象区間Ｓ[k]の印象（印象情報Ｅ[k]）を特定したが、対象区間Ｓ[k]の印象を特定する方法は以上の例示に限定されない。具体的には、対象楽曲の調（短調，長調）に応じて対象区間Ｓ[k]の印象を推定することも可能である。例えば、対象楽曲が長調である場合には「楽」の印象の印象情報Ｅ[k]を特定し、対象楽曲が短調である場合には「哀」の印象の印象情報Ｅ[k]を特定する。また、楽曲情報ＤMが指定する演奏テンポや音量（ベロシティ）等の情報を対象区間Ｓ[k]の印象の特定に加味する構成や、対象楽曲の音楽的な傾向（継続長が長い音符が多い，スタッカートが多い）に応じて対象区間Ｓ[k]の印象を特定する構成も採用される。また、対象楽曲の伴奏音を示す伴奏情報（例えばＷＡＶファイル）が楽曲情報ＤMに付随する場合には、伴奏情報を参照して対象区間Ｓ[k]の印象を特定することも可能である。例えば、伴奏情報が示す伴奏音の音量や音量変化が大きい対象区間Ｓ[k]については「激しい」「力強い」等の印象が特定される。また、対象楽曲のコード進行を指定するコード情報が楽曲情報ＤMに付随する場合には、コード情報が示すコードの情報を対象区間Ｓ[k]の印象の特定に参酌することも可能である。以上の説明から理解される通り、印象特定部３４は、対象楽曲に関連する情報に応じて対象区間Ｓ[k]の印象（印象情報Ｅ[k]）を特定する要素として包括される。

（２）前述の各形態では、利用者からの指示に応じて対象楽曲の各対象区間Ｓ[k]を設定したが、対象楽曲の対象区間Ｓ[k]を設定する方法は以上の例示に限定されない。例えば、音楽的な意義（位置付け）に応じて対象楽曲を区分した各区間（例えばサビ，Ａメロ，Ｂメロ等の各区間）を対象区間Ｓ[k]とする構成や、所定長を単位として対象楽曲を時間軸上で区分した各区間を対象区間Ｓ[k]とする構成も採用され得る。

（３）前述の各形態では、１種類の印象の度合を示す制御変数Ｘ[k]を例示したが、相互に対立する２種類の印象（例えば「喜」-「怒」，「哀」-「楽」，「繊細」-「粗暴」等の対）に対応する範囲内の数値を制御変数Ｘ[k]が指定することも可能である。例えば、印象特定部が「喜」の印象情報Ｅ[k]を特定した対象区間Ｓ[k]について、最大値（例えば正数）が「喜」の印象に対応し、かつ、「喜」に対立する「怒」の印象に最小値（例えば負数）が対応する範囲内で、変数設定部３６は制御変数Ｘ[k]を設定する。

（４）前述の各形態では、印象情報Ｅ[k]で指定される印象の音声素片と標準素片群Ｌの音声素片とを制御変数Ｘ[k]に応じて混合することで当該印象の度合を制御したが、音声信号Ｖの印象（音響特性）を制御するための方法は以上の例示に限定されない。例えば、印象情報Ｅ[k]で指定される印象の音声素片群Ｌから選択された音声素片の音響特性を、当該印象が強調または抑制されるように制御変数Ｘ[k]に応じて調整することで当該印象の度合を制御することも可能である。

（５）印象情報Ｅ[k]で指定される印象が音声信号Ｖに反映される度合を制御変数Ｘ[k]に応じて制御する構成（変数設定部３６や制御変数Ｘ[k]）は省略され得る。すなわち、印象特定部３４が特定した印象（印象情報Ｅ[k]）に対応する音響特性を所定の度合で音声信号Ｖの対象区間Ｓ[k]に付与することも可能である。

（６）前述の第２実施形態では、対象区間Ｓ[k]の制御変数Ｘ[k]の初期値Ｘ0を指標値Ｚ[k]に応じて可変に設定したが、対象区間Ｓ[k]の全域にわたり初期値Ｘ0を指標値Ｚ[k]に応じた一定の数値に設定する構成のほか、対象区間Ｓ[k]の歌詞Ｙ[k]に包含される語句（例えば単語）に応じて対象区間Ｓ[k]内の制御変数Ｘ[k]の数値の時間変化を自動的に設定することも可能である。例えば、対象区間Ｓ[k]の歌詞Ｙ[k]のうち印象（印象情報Ｅ[k]）に特に影響する語句（例えば「泣いて」「ケンカ」等の単語）の区間について制御変数Ｘ[k]の数値（初期値Ｘ0）を大きい数値に設定する構成が想定される。

（７）前述の各形態では、複数の音声素片を相互に接続する素片接続型の音声合成を例示したが、音声合成の方式は以上の例示に限定されない。例えば、ＨＭＭ（Hidden Markov Model）を利用して推定された音高の時間変化に対して音声符号Ｑ2に応じたフィルタ処理を実行する統計モデル型の音声合成で音声信号Ｖを生成することも可能である。

（８）移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置で歌唱合成装置１００を実現することも可能である。具体的には、歌唱合成装置１００は、端末装置から通信網を介して受信した楽曲情報ＤMから前述の各形態と同様に特性情報ＤEを生成し、音声素片群Ｌと楽曲情報ＤMと特性情報ＤEとを利用した音声合成で生成した音声信号Ｖ（または特性情報ＤE）を通信網から端末装置に送信する。

１００……歌唱合成装置、１０……演算処理装置、１２……記憶装置、１４……表示装置、１６……入力装置、１８……放音装置、２２……表示制御部、２４……印象設定部、２６……歌唱合成部、３２……区間設定部、３４……印象特定部、３６……変数設定部。
。

Claims

楽曲内の対象区間を設定する区間設定手段と、
前記楽曲に関連する情報に応じて前記対象区間の印象を特定する印象特定手段と、
前記印象特定手段が特定した印象に対応する音響特性が前記対象区間に付与された前記楽曲の歌唱音声の音声信号を合成する歌唱合成手段と
を具備する歌唱合成装置。
前記印象特定手段が特定した印象の度合を示す制御変数を可変に設定する変数設定手段を具備し、
前記歌唱合成手段は、前記印象特定手段が特定した印象に対応する音響特性が前記制御変数に応じた度合で前記対象区間に付与された歌唱音声の音声信号を合成する
請求項１の歌唱合成装置。
前記変数設定手段は、前記対象区間における前記制御変数の数値の時間変化を利用者からの指示に応じて設定する
請求項２の歌唱合成装置。
顔を表象する顔画像を表示装置に表示させ、前記顔画像の表情を利用者からの指示に応じて変更する表示制御手段を具備し、
前記変数設定手段は、前記顔画像の表情に応じて前記制御変数の数値を設定する
請求項２の歌唱合成装置。
前記印象特定手段は、前記印象の特定結果の妥当性の指標値を算定し、
前記変数設定手段は、前記印象特定手段が算定した指標値に応じて前記制御変数の初期値を設定する
請求項２から請求項４の何れかの歌唱合成装置。