<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。音響処理装置100は、楽曲を歌唱した音声の音響信号Sを生成する信号処理装置(音声合成装置)である。第1実施形態では、事前に用意された複数の旋律(以下「フレーズ」という)を利用者からの指示に応じて時間軸上に配列することで合成対象の楽曲(以下「対象楽曲」という)が構成され、対象楽曲の各フレーズの歌詞が利用者からの指示に応じて設定または変更される。フレーズは、複数の音符で構成された旋律(楽句)である。音響処理装置100は、対象楽曲を歌唱した歌唱音の音響信号Sを生成する。
図1に例示される通り、音響処理装置100は、演算処理装置12と記憶装置14と表示装置22と入力装置24と放音装置26とを具備するコンピュータシステムで実現される。例えば携帯電話機または携帯情報端末等の可搬型の情報処理装置や据置型の情報処理装置(パーソナルコンピュータ)で音響処理装置100は実現される。
表示装置22(例えば液晶表示パネル)は、演算処理装置12から指示された画像を表示する。入力装置24は、利用者により操作される機器である。第1実施形態では、表示装置22と一体に構成されて操作面(表示装置22の表示面)の任意の位置に対する接触を検知するタッチパネルを入力装置24として例示する。ただし、利用者が操作可能な複数の操作子を含む操作機器を入力装置24として利用することも可能である。放音装置26は、演算処理装置12が生成した音響信号Sに応じた音波を放射する。なお、音響信号Sをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。
記憶装置14は、演算処理装置12が音響信号Sの生成のために実行するアプリケーションプログラム(以下「音響処理プログラム」という)PGMや演算処理装置12が使用する各種のデータ(音楽データM,素材データQ,系列データDS)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。音響処理プログラムPGMは、例えば、移動通信網やインターネット等の通信網を介して配信装置(例えばウェブサーバ等のサーバ装置)から音響処理装置100に配信されたうえで記憶装置14に格納される。
第1実施形態の記憶装置14は、音楽データMと複数の素材データQと系列データDSとを記憶する。音楽データMは、対象楽曲を構成する音符の時系列を指定する時系列データである。図2に例示される通り、第1実施形態の音楽データMは、音高X1と発音期間X2と音声符号X3とを対象楽曲内の音符毎に指定する。音高X1は音符の音高(実際には各音高に付与されたノートナンバ)である。発音期間X2は、音符の発音が継続される区間であり、例えば発音の開始点と継続長(音価)とで規定される。なお、発音の開始点と終了点とで発音期間X2を指定することも可能である。音声符号X3は、音符の発音内容(例えば歌詞の音節)を指定する符号である。
記憶装置14に記憶される複数の素材データQは、対象楽曲(音楽データM)の編集や音響信号Sの生成に利用される。対象楽曲の題材(テーマ)毎に素材データQが用意される。具体的には、素材データQを利用して構成可能な対象楽曲の曲調や合成可能な音響信号Sの音響特性(例えば声質)は素材データQ毎に相違する。素材データQの流通経路は任意であるが、例えば移動通信網やインターネット等の通信網を介して配信装置から素材データQが音響処理装置100に提供される構成が好適である。具体的には、配信装置に蓄積された複数の素材データQのうち音響処理装置100の利用者が選択した素材データQが、例えば所定の課金処理の完了を条件として音響処理装置100に配信されたうえで記憶装置14に格納される。
図3は、記憶装置14に記憶される任意の1個の素材データQの説明図である。図3に例示される通り、素材データQは、楽曲編集データQAと伴奏音データQBと音声素片データQCと候補単語データQDとを含んで構成される。
楽曲編集データQAは、音楽データM(対象楽曲)の編集に利用されるデータであり、相異なるフレーズに対応する複数の単位データUの集合である。任意の1個の単位データUは、関連データQA1と旋律データQA2と画像データQA3と再生データQA4とを含んで構成される。関連データQA1は、フレーズの識別符号や表示名(名称)を指定する。
旋律データQA2は、1個のフレーズを構成する複数の音符の時系列(すなわち旋律)を表す。所定の時間長(例えば2小節分)にわたるフレーズが旋律データQA2で指定される。具体的には、図3に例示される通り、旋律データQA2は、音楽データMと同様に、音高X1と発音期間X2と音声符号X3とをフレーズ内の音符毎に指定する。第1実施形態における旋律データQA2の各音符の音声符号X3は、例えば歌声に好適な「ラ」等の初期的な歌詞に設定される。概略的には、利用者からの指示に応じた複数の旋律データQA2を時間軸上に配列し、各旋律データQA2の音声符号X3(歌詞)を利用者からの指示に応じて変更することで対象楽曲の音楽データMが生成される。再生データQA4は、旋律データQA2で指定されるフレーズの音響(例えば時間波形)を表す音響データである。
画像データQA3は、旋律データQA2が指定するフレーズを表象する画像(以下「フレーズ画像」という)Gを表すデータである。図4は、1個のフレーズ画像Gを例示する模式図である。図4に例示される通り、フレーズ画像Gは、旋律データQA2が指定するフレーズの各音符を表象する音符図像Zを、相互に交差する時間軸と音高軸とが設定された領域内に配置したピアノロール型の画像(サムネイル画像)である。すなわち、各音符の音符図像Zの音高軸上の位置は、旋律データQA2が当該音符に指定する音高X1に応じて設定され、音符図像Zの時間軸上の位置および表示長は、旋律データQA2が当該音符に指定する発音期間X2に応じて設定される。ただし、第1実施形態のフレーズ画像Gは、旋律データQA2が示すフレーズの内容を表象するように事前に作成された固定の画像である。
第1実施形態の対象楽曲は、時間軸上の複数のブロックBで構成され、複数のブロックB(B1,B2,……)の各々について利用者からの指示に応じた1個のフレーズが選択される。図3から理解される通り、楽曲編集データQA内の複数の単位データUは、ブロックB毎に区分される。利用者による選択候補となる各フレーズの内容や組合せはブロックB毎に相違する。具体的には、任意の1個のブロックBに属する各単位データUの旋律データQA2は、楽曲内の当該ブロックBにとって音楽的に好適なフレーズを指定する。例えば、先頭のブロックBに属する各単位データUの旋律データQA2は、楽曲の開始部の旋律として音楽的に好適なフレーズを指定し、末尾のブロックBに属する各単位データUの旋律データQA2は、楽曲の終了部の旋律として音楽的に好適なフレーズを指定する。図1の系列データDSは、時間軸上のブロックB毎に選択された各フレーズの識別符号を時系列に指定する。
図3の素材データQ内の伴奏音データQBは、各フレーズの伴奏音(例えば時間波形)を表す音響データである。具体的には、楽曲編集データQAの各旋律データQA2が指定するフレーズの伴奏音として好適な音響(例えば打楽器の演奏音で構成されるリズム音やギター等の楽器の和音で構成されるバッキング音)の時系列が伴奏音データQBで指定される。なお、素材データQがブロックB毎またはフレーズ毎に別個の伴奏音データQBを含む構成も採用される。伴奏音データQBが表す伴奏音は素材データQ毎に相違し得る。
音声素片データQCは、特定の発声者の音声から事前に採取された複数の音声素片の集合(音声合成ライブラリ)である。各音声素片は、言語的な意味の区別の最小単位である音素(例えば母音や子音)、または複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)であり、例えば時間波形のサンプル系列で表現される。音声素片データQCが表す各音声素片の音響特性(例えば音声素片の発声者)は素材データQ毎に相違する。
候補単語データQDは、対象楽曲の歌詞として利用者が選択可能な複数の単語(以下「候補単語」という)WCを指定する。図3に例示される通り、文字数n(nは2以上の自然数)が相違する複数の候補単語WCが候補単語データQDで指定される。候補単語データQDが表す候補単語の内容や組合せは素材データQ毎に相違する。
図1の演算処理装置12は、記憶装置14に記憶されたプログラムを実行することで複数の機能(指示受付部32,表示制御部34,情報管理部36,信号処理部38)を実現する。なお、演算処理装置12の機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が一部の機能を実現する構成も採用され得る。
指示受付部32は、入力装置24に対する操作に応じた利用者からの指示を受付ける。具体的には、指示受付部32は、入力装置24の操作面に対する接触の位置に応じて利用者からの指示の内容を特定する。表示制御部34は、各種の画像を表示装置22に表示させる。例えば、表示制御部34は、対象楽曲の内容を利用者が確認または編集するための画像(以下「編集画像」という)を生成して表示装置22に表示させ、指示受付部32が利用者から受付けた指示に応じて編集画像を更新する。情報管理部36は、指示受付部32が利用者から受付けた指示に応じて音楽データMや系列データDSを生成または更新する。
信号処理部38は、素材データQを利用して編集された音楽データMと素材データQの伴奏音データQBおよび音声素片データQCとを利用して対象楽曲の歌唱音の音響信号Sを生成する。具体的には、信号処理部38は、音楽データMが音符毎に指定する音声符号X3に対応する音声素片を音声素片データQCから順次に選択し、音楽データMが指定する音高X1および発音期間X2に各音声素片を調整する。そして、信号処理部38は、調整後の各音声素片を時間軸上で相互に連結するとともに伴奏音データQBを混合することで音響信号Sを生成する。信号処理部38が生成した音響信号Sが放音装置26に供給されることで音波として再生される。以上の説明から理解される通り、利用者からの指示に応じてフレーズと歌詞とが設定された対象楽曲を伴奏音データQBの伴奏音のもとで歌唱した歌唱音が放音装置26から再生される。
図5は、音響処理装置100(演算処理装置12)の動作のフローチャートである。例えば入力装置24に対する操作で利用者が音響処理プログラムPGMの起動を指示した場合に図5の処理が開始される。音響処理プログラムPGMが起動されると、演算処理装置12(指示受付部32)は、利用者からの指示を受付けたか否かを判定する(SA1)。利用者からの指示を受付けた場合(SA1:YES)、演算処理装置12(表示制御部34)は、利用者からの指示の内容に応じて表示装置22の表示画像を更新する(SA2)。また、演算処理装置12(情報管理部36)は、利用者からの指示に応じて記憶装置14内の音楽データMや系列データDSを更新する(SA3)。利用者の指示を受付けていない場合(SA1:NO)にはステップSA2およびステップSA3の処理は実行されない。
演算処理装置12(指示受付部32)は、音響信号Sの生成の指示を利用者から受付けたか否かを判定する(SA4)。音響信号Sの生成の指示を受付けた場合(SA4:YES)、演算処理装置12(信号処理部38)は、記憶装置14に記憶された音楽データMと素材データQの伴奏音データQBおよび音声素片データQCとを利用して対象楽曲の歌唱音の音響信号Sを生成する(SA5)。音響信号Sの生成の指示を受付けていない場合(SA4:NO)には音響信号Sの生成(SA5)は実行されない。演算処理装置12(指示受付部32)は、音響処理プログラムPGMの終了が利用者から指示されたか否かを判定する(SA6)。終了指示を受付けていない場合(SA6:NO)、演算処理装置12は、処理をステップSA1に移行して前述の処理を反復する。他方、利用者から終了の指示を受付けた場合(SA6:YES)、演算処理装置12は、音響処理プログラムPGMを終了する。
図6は、表示制御部34が表示装置22に表示させる画像の模式図である。音響処理プログラムPGMが起動されると、表示制御部34は、図6の初期画像40を表示装置22に表示させる。初期画像40は、記憶装置14に記憶された複数の素材データQ(テーマ)の何れかを利用者に選択させる画面であり、具体的には複数の素材データQの表示名を配列したリスト画像である。利用者は、入力装置24を適宜に操作することで、初期画像40に提示された複数の素材データQのうち所望の素材データQを選択することが可能である。
利用者による素材データQの選択(すなわち対象楽曲のテーマの選択)の指示を指示受付部32が受付けると、表示制御部34は、利用者が対象楽曲を編集するための図6の編集画像50を表示装置22に表示させる。編集画像50は、時間軸上のブロックB毎に利用者がフレーズを選択して対象楽曲を構成するための画面であり、楽譜画像52と選択画像54とを含んで構成される。
選択画像54は、利用者が初期画像40にて選択した素材データQ内の各画像データQA3が表象する複数のフレーズ画像Gを配列した画面である。具体的には、表示制御部34は、時間軸上の1個のブロックB(以下「対象ブロックB」という)を選択し、素材データQの楽曲編集データQAに包含される複数の単位データUのうち対象ブロックBに属する各単位データUの画像データQA3が示す複数のフレーズ画像Gを配列する。対象ブロックBの選択の条件は任意であるが、例えば、対象楽曲の編集を開始した直後には先頭のブロックBを対象ブロックBとして選択し、1個の対象ブロックBのフレーズが確定されると直後のブロックBを対象ブロックBとして選択する構成が好適である。また、利用者が入力装置24に対する操作で対象ブロックBを選択することも可能である。
前述の通り各ブロックBについて選択候補となるフレーズの内容や組合せはブロックB毎に相違する。したがって、選択画像54で表示対象となる複数のフレーズ画像GはブロックB毎に相違する。例えば、相異なる任意のブロックBa(第1ブロック)およびブロックBb(第2ブロック)に着目すると、選択画像54に表示される複数のフレーズ画像G(利用者による選択候補となる複数のフレーズ)はブロックBaとブロックBbとで相違する。また、表示制御部34は、図6に例示される通り、関連データQA1が指定するフレーズの表示名(フレーズA1,フレーズA2,……)を各フレーズ画像Gの近傍に配置する。選択画像54に対する利用者からの操作(例えば操作面に対するドラッグ操作やスワイプ操作)に応じて、表示制御部34は、複数のフレーズ画像Gの配列を横方向にスクロールする。
利用者は、入力装置24を適宜に操作することで、選択画像54の複数のフレーズ画像Gのうち所望の1個のフレーズのフレーズ画像Gを選択することが可能である。指示受付部32は、利用者によるフレーズ画像Gの選択(対象ブロックBに割当てられるべきフレーズの選択)の指示を受付ける。表示制御部34は、入力装置24の操作面のうち特定のフレーズ画像Gに対する操作(例えばタップ操作)を指示受付部32が受付けた場合に当該フレーズ画像Gを暫定的な選択状態に設定する。図6の編集画像50に例示される通り、選択状態にあるフレーズ画像G(図6の例示では左端の1個のフレーズ画像G)と非選択のフレーズ画像Gとは相異なる態様(例えば選択状態のフレーズ画像Gの枠線を強調した態様)で表示される。また、1個のフレーズ画像Gが選択状態に遷移すると、信号処理部38は、利用者が選択したフレーズの再生データQA4を放音装置26に供給することで当該フレーズを再生する。したがって、利用者は、各フレーズ画像Gに対応するフレーズの再生音を実際に聴取して内容を確認しながら所望のフレーズ画像Gを選択画像54から選択することが可能である。なお、以上の例示では、事前に用意された再生データQA4を再生する構成を例示したが、信号処理部38が旋律データQA2と音声素片データQCの各音声素片とからフレーズの音響信号Sを生成して放音装置26に供給する構成(したがって再生データQA4は省略される)も好適である。
選択状態にあるフレーズ画像Gに対する操作(例えばタップ操作)を指示受付部32が受付けた場合に当該フレーズ画像Gの選択が確定される。フレーズ画像Gの選択が確定すると、情報管理部36は、当該フレーズ画像Gに対応するフレーズの識別符号を系列データDSに追加する。したがって、以上に説明したフレーズの選択が時間軸上の複数のブロックBにわたり反復された段階では、各ブロックBについて選択された複数のフレーズの時系列が系列データDSで指定される。
図6の編集画像50の楽譜画像52は、選択画像54において選択状態にある1個のフレーズ画像Gのフレーズを利用者に提示する画像である。具体的には、楽譜画像52は、利用者が選択したフレーズの旋律データQA2(選択状態にあるフレーズ画像Gの画像データQA3と同じ単位データU内の旋律データQA2)が指定する各音符を表象する音符図像Zを、相互に交差する時間軸と音高軸とが設定された領域内に配置したピアノロール型の画像である。すなわち、各音符の音符図像Zの音高軸上の位置は、旋律データQA2が当該音符に指定する音高X1に応じて設定され、音符図像Zの時間軸上の位置および表示長は、旋律データQA2が当該音符に指定する発音期間X2に応じて設定される。また、各音符の音符図像Zには、旋律データQA2が当該音符に指定する音声符号X3が付加される。具体的には、音声符号X3は、音符図像Zの内側に配置される。なお、音声符号X3を音符図像Zの近傍(外側)に配置することも可能である。
図6から理解される通り、楽譜画像52は、概略的には、選択画像54にて利用者が選択した1個のフレーズ画像Gを拡大した関係にある。したがって、利用者は、選択画像54内の各フレーズ画像Gを視認することで複数のフレーズを対比しながら所望のフレーズを選択し、楽譜画像52を視認することで選択状態のフレーズの詳細な内容を確認することが可能である。表示制御部34は、楽譜画像52に対する利用者からの指示に応じて複数の音符図像Zの配列のスクロールや表示倍率の変更を実行する。したがって、各フレーズのうち楽譜画像52での表示対象となる音高軸上および時間軸上の範囲は利用者からの指示に応じて変更される。
時間軸上の所望の個数のブロックの各々についてフレーズを選択すると、利用者は、編集画像50の操作図像56を操作する。操作図像56に対する操作(フレーズの選択の終了指示)を指示受付部32が受付けると、表示制御部34は、編集画像50で選択された各フレーズの各音符を利用者からの指示に応じて個別に編集するための編集画像60を表示装置22に表示させ、情報管理部36は、ブロックB毎のフレーズに応じた音楽データMを生成して記憶装置14に格納する。具体的には、情報管理部36は、図7に例示される通り、初期画像40にて利用者が選択した素材データQ内の複数の旋律データQA2のうち系列データDSがブロックB毎に指定する各フレーズの旋律データQA2を、ブロックBの順番で時系列に配列することで音楽データMを生成する。すなわち、音楽データMは、利用者が選択した複数のフレーズを時系列に配列した対象楽曲を指定する。
図6の編集画像60は、楽譜画像62と操作画像64とを含んで構成される。楽譜画像62は、音楽データMが指定する各音符を表象する音符図像Zを、時間軸と音高軸とが設定された領域内に配置したピアノロール型の画像である。編集画像50の楽譜画像52と同様に、音高軸の方向における各音符の音符図像Zの位置は、音楽データMが当該音符に指定する音高X1に応じて設定され、時間軸の方向における各音符の音符図像Zの位置および表示長は、音楽データMが当該音符に指定する発音期間X2に応じて設定される。また、各音符の音符図像Zには、音楽データMが当該音符に指定する音声符号X3が付加される。具体的には、音声符号X3は、音符図像Zの内側に配置される。表示制御部34は、楽譜画像62に対する利用者からの指示に応じて複数の音符図像Zの配列のスクロールや表示倍率の変更を実行する。すなわち、対象楽曲の各フレーズのうち楽譜画像62での表示対象となる音高軸上および時間軸上の範囲は利用者からの指示に応じて変更される。
利用者は、入力装置24を適宜に操作することで、楽譜画像62内の1個以上の音符図像Zを任意に選択することが可能である。具体的には、利用者は、操作面に対する1回のタップ操作で任意の1個の音符図像Zを選択することが可能である。また、利用者は、図8に鎖線の矢印で図示される通り、所望の複数の音符図像Zの系列をなぞるように操作面に対するドラッグ操作を実行することで、複数の音符図像Zを選択することが可能である。指示受付部32は、利用者による音符図像Zの選択を受付ける。信号処理部38は、利用者が選択した音符図像Zに対応する音符の音響信号Sを生成して放音装置26に供給する。具体的には、信号処理部38は、利用者が選択した音符図像Zに対応する音符の音声符号X3に応じた音声素片を当該音符の音高X1に調整することで音響信号Sを生成する。したがって、楽譜画像62内の1個の音符図像Zの選択毎に、当該音符図像Zに対応する音符の歌唱音が順次に再生される。
図9は、指示受付部32が楽譜画像62内の音符図像Zの選択を受付けた場合に実行される処理の説明図である。表示制御部34は、指示受付部32が選択を受付けた音符図像Zの個数が1であるか否かを判定する(SB1)。表示制御部34は、指示受付部32が1個の音符図像Zの選択を受付けた場合(SB1:YES)には表示装置22による表示画像を編集画像60から編集画像81に変更し、指示受付部32が複数の音符図像Zの選択を受付けた場合(SB1:NO)には表示画像を編集画像60から編集画像82に変更する。他方、各音符図像Zの選択の解除が利用者から指示されると、表示制御部34は、表示画像を編集画像81または編集画像82から編集画像60に変更する。
図9の編集画像81は、楽譜画像80と歌詞編集画像84とを含んで構成され、編集画像82は、楽譜画像80と歌詞編集画像86とを含んで構成される。編集画像81および編集画像82の各々の楽譜画像80は、編集画像60の楽譜画像62(または編集画像50の楽譜画像52)にて表示されていた複数の音符図像Zを、時間軸の方向における各音符図像Zの位置および表示長を維持したまま、時間軸に沿う直線状(時間軸に平行な基準線L0の線上)に配列した画像である。
すなわち、音符図像Zの選択前の楽譜画像62では時間軸および音高軸の2次元で各音符図像Zの時系列が表示されるが、音符図像Zの選択後の楽譜画像80では、音高軸が省略された(すなわち各音符の音高の相違を無視した)1次元で各音符図像Zが表示される。複数の音符図像Zの縦方向の分布範囲が、楽譜画像80では楽譜画像62と比較して縮小されるとも換言され得る。したがって、楽譜画像80の縦方向のサイズLB1は、楽譜画像62の縦方向のサイズLA1を下回る。すなわち、楽譜画像62から楽譜画像80への変更で画像の縦方向のサイズが縮小される(LA1→LB1)。なお、編集画像60から編集画像81または編集画像82への変更時に、楽譜画像62における各音符図像Zの音高軸上の位置から楽譜画像80における基準線L0上の位置まで各音符図像Zが連続的に移動する様子を示す動画像(アニメーション)を表示することも可能である。図9に例示される通り、楽譜画像80内の各音符図像Zには、楽譜画像52や楽譜画像62と同様に音声符号X3が付加される。また、楽譜画像80内の複数の音符図像Zのうち利用者が選択した各音符図像Zは強調表示される。
編集画像81の歌詞編集画像84および編集画像82の歌詞編集画像86は、利用者が各音符の歌詞を編集するための画像であり、表示装置22の表示領域のうち、楽譜画像62から楽譜画像80への変更による画像の縮小で確保された領域(楽譜画像62の下方の領域)に配置される。したがって、歌詞編集画像84および歌詞編集画像86の各々の縦方向のサイズLB2は、編集画像60の操作画像64の縦方向のサイズLA2を上回る。また、編集画像81および編集画像82の各々において、楽譜画像80の縦方向のサイズLB1は、歌詞編集画像84や歌詞編集画像86の縦方向のサイズLB2を下回る。
利用者が1個の音符図像Zを選択した場合(SB1:YES)に表示される歌詞編集画像84は、各音符の歌詞を利用者が1文字ずつ任意に指定するための画面である。具体的には、歌詞編集画像84は、利用者が1個の文字を任意に指定するための複数の操作図像842を包含する。表示制御部34は、利用者が各操作図像842の操作で順次に指定した各文字を領域844に表示させる。そして、文字の確定を指示する操作図像846の操作を指示受付部32が受付けた場合、楽譜画像80内の各音符図像Zの音符の音声符号X3が、領域844内の各文字に変更される。例えば、歌詞編集画像84に対する操作で利用者がn文字を指定した場合、選択状態にある1個の音符図像Zの音符を先頭とするn個の音符の各々に、利用者が指定したn文字の各々が順番に割当てられる。具体的には、表示制御部34は、編集画像81の楽譜画像80における各音符図像Zの音声符号X3(例えば旋律データQA2が指定する初期的な文字「ら」)を利用者が指定した各文字に変更し、情報管理部36は、音楽データMの各音符の音声符号X3を利用者が指定した文字に変更する。
また、利用者は、入力装置24を適宜に操作することで、編集画像81の楽譜画像80内の複数の音符図像Zのうち選択状態にある1個の音符図像Zを先頭とする複数の音符図像Zを選択することが可能である。すなわち、選択状態の音符図像Zの個数が単数から複数に変更される。編集画像81が表示されている状態で指示受付部32が複数の音符図像Zの選択(音符図像Zの選択数の変更)を受付けると、表示制御部34は、表示装置22による表示画像を編集画像81から編集画像82に変更する。
複数(m個)の音符図像Zの選択時(SB1:NO)に表示される歌詞編集画像86は、事前に用意された複数の候補単語WCの何れかを利用者が選択するための画面である。具体的には、第1実施形態の歌詞編集画像86は、候補リスト862を包含する。表示制御部34は、初期画像40で利用者が選択した素材データQ内の候補単語データQDを記憶装置14から取得し、候補単語データQDが指定する複数の候補単語WCを利用者による選択候補として候補リスト862に配列する。第1実施形態の表示制御部34は、候補単語データQDが指定する複数の候補単語WCのうち音符図像Zの選択数mと同数の文字数nの候補単語WCを抽出して候補リスト862に配列する。例えば、図9の例示のように3個(m=3)の音符図像Zが選択された状態では、3文字(n=m=3)で構成される複数の候補単語WCが選択候補として抽出されて候補リスト862に表示される。
候補リスト862における候補単語WCの選択の確定を指示する操作図像864の操作を指示受付部32が受付けた場合、楽譜画像80にて選択状態にあるm個の音符図像Zの各音符の音声符号X3が、利用者により選択された候補単語WCの各文字に変更される。すなわち、選択状態にあるm個の音符図像Zの各々に、利用者が選択した候補単語WCのn個(n=m)の文字が順番に割当てられる。具体的には、表示制御部34は、編集画像82の楽譜画像80における各音符図像Zの音声符号X3(例えば旋律データQA2が指定する初期的な文字「ら」)を、利用者が選択した候補単語WCの各文字に変更し、情報管理部36は、音楽データMの各音符の音声符号X3を、利用者が選択した候補単語WCの各文字に変更する。以上の説明から理解される通り、編集画像81および編集画像82の各々の楽譜画像80では、各音符図像Zの音声符号X3も時間軸の方向に直線状に配列される。したがって、音高軸上の広範囲に各音符図像Zの音声符号X3が分布する楽譜画像62と比較して、利用者が歌詞(音声符号X3の時系列)を容易に確認できるという利点がある。
利用者は、入力装置24を適宜に操作することで、編集画像81または編集画像82の楽譜画像80内の任意の音符図像Zを選択することが可能である。信号処理部38は、楽譜画像80にて利用者が選択した音符図像Zに対応する音符の音響信号Sを生成して放音装置26に供給する。具体的には、信号処理部38は、楽譜画像62内の音符図像Zの選択時と同様に、利用者が選択した音符図像Zに対応する音符の音声符号X3に応じた音声素片を当該音符の音高X1に調整することで音響信号Sを生成する。したがって、楽譜画像62内の1個の音符図像Zの選択毎に、当該音符図像Zに対応する音符の歌唱音が順次に再生される。以上の説明から理解される通り、楽譜画像80では各音符の音高X1の表示が省略される(したがって楽譜画像80のみからでは各音符の音高を確認できない)が、楽譜画像80内の各音符図像Zの選択により再生される音響を聴取することで利用者は任意の音符の音高を聴感的に確認することが可能である。
編集画像81または編集画像82において歌詞編集の終了を指示する操作図像802の操作を指示受付部32が受付けると、表示制御部34は、表示装置22による表示画像を編集画像81または編集画像82から編集画像60に変更する。すなわち、編集画像81や編集画像82の楽譜画像80では時間軸に沿う直線状に配列していた複数の音符図像Zが、編集画像60への変更により、各音符の音高X1に応じた音高軸上の位置に移動する。なお、編集画像81または編集画像82から編集画像60への変更時に、楽譜画像80における基準線L0上から楽譜画像62における各音符図像Zの音高軸上の位置まで各音符図像Zが連続的に移動する様子を示す動画像を表示することも可能である。
図9に例示される通り、編集画像60の操作画像64は、利用者からの操作を受付ける複数の操作図像(642,644,646,648)を含んで構成される。音響信号Sの再生を指示する操作図像642の操作を指示受付部32が受付けると、信号処理部38は、現時点の音楽データMに応じた音響信号Sを生成して放音装置26に供給する。すなわち、対象楽曲の歌唱音が再生される。したがって、利用者は、対象楽曲を実際に聴取して旋律や歌詞を確認しながら、編集画像81または編集画像82に随時に移行して歌詞を編集することが可能である。表示制御部34は、対象楽曲の再生の進行に連動するように楽譜画像62内の各音符図像Zの時系列を時間軸の方向にスクロールさせる。また、表示制御部34は、操作図像644に対する操作を指示受付部32が受付けると、楽譜画像62による表示範囲を対象楽曲の先頭に変更し、操作図像646に対する操作を指示受付部32が受付けると、楽譜画像62による表示範囲を対象楽曲の末尾に変更する。
操作画像64の操作図像648に対する操作を指示受付部32が受付けると、表示制御部34は、図6に例示される通り、表示装置22による表示画像を編集画像60から編集画像70に変更する。編集画像50の楽譜画像52や編集画像60の楽譜画像62では対象楽曲の一部の音符が表示されるのに対し、編集画像70は、対象楽曲の全体にわたる複数のフレーズの時系列を利用者が確認するための画面である。
図6に例示される通り、編集画像70では、編集画像50にて利用者が選択した複数のフレーズ画像Gが時系列に表示される。具体的には、複数のフレーズ画像Gが複数行にわたり配列される。すなわち、各行の末尾のフレーズ画像Gの直後のフレーズ画像Gは、次行の先頭に配置される。表示制御部34は、記憶装置14内の系列データDSが指定する識別情報に対応したフレーズの画像データQA3を、系列データDSで指定される順番に配列することで編集画像70を生成して表示装置22に表示させる。また、表示制御部34は、関連データQA1が指定するフレーズの表示名(フレーズA1等)を各フレーズ画像Gの近傍に配置する。
利用者は、入力装置24を適宜に操作することで、編集画像70の複数のフレーズ画像Gのうち所望の1個のフレーズ画像Gを選択することが可能である。指示受付部32は、利用者によるフレーズ画像Gの選択を受付ける。表示制御部34は、入力装置24の操作面のうち特定のフレーズ画像Gに対する操作(例えばタップ操作)を指示受付部32が受付けた場合に当該フレーズ画像Gを選択状態に設定する。表示制御部34は、図6の編集画像70に例示される通り、選択状態にあるフレーズ図像Gと非選択のフレーズ画像Gとを相異なる態様(例えば選択状態のフレーズ画像Gの枠線を強調した態様)で表示するとともに、選択状態のフレーズ図像Gの近傍に操作図像72を配置する。
1個のフレーズ画像Gが選択状態に設定されると、信号処理部38は、当該フレーズ画像Gに対応するフレーズの音響信号Sを生成して放音装置26に供給する。具体的には、音楽データMのうち選択状態のフレーズに対応した区間を参照して音声素片データQCの音声素片を調整および連結するともに伴奏音データQBを混合することで音響信号Sを生成する。また、選択状態にあるフレーズ画像Gに対する操作(例えばタップ操作)を指示受付部32が受付けた場合、表示制御部34は、表示装置22による表示画像を編集画像70から編集画像60に変更し、選択状態にあるフレーズ画像Gに対応するフレーズを楽譜画像62に表示する。したがって、利用者は、対象楽曲の全体の構成(フレーズの時系列)を編集画像70で確認しながら、編集画像60に随時に移行して所望のフレーズの確認や歌詞の編集を実行することが可能である。
利用者は、入力装置24を利用して操作図像72を操作することが可能である。操作図像72は、選択状態にあるフレーズの変更(入替)を指示するための画像である。操作図像72に対する操作を指示受付部32が受付けた場合、表示制御部34は、表示装置22による表示画像を編集画像70から編集画像50に変更し、選択状態にあるフレーズ画像Gに対応するフレーズを楽譜画像52に表示する。そして、選択画像54の任意の1個のフレーズ画像Gの選択を指示受付部32が受付けると、対象楽曲のうち編集画像70で選択された1個のフレーズ画像Gのフレーズが、選択画像54で選択されたフレーズ画像Gのフレーズに置換される。具体的には、情報管理部36は、音楽データMのうち編集画像70で選択されたフレーズに対応する区間を、選択画像54で選択されたフレーズの旋律データQA2に変更し、系列データDSにフレーズの変更を反映させる。したがって、利用者は、対象楽曲の全体の構成を編集画像70で確認しながら、随時に編集画像50に移行して任意のフレーズの各音符の確認やフレーズの変更を実行することが可能である。なお、以上の例示ではフレーズの変更を例示したが、相前後する2個のフレームの間に利用者が選択した任意のフレームを挿入することも可能である。
図6に例示される通り、表示制御部34は、編集画像70のうち対象楽曲の末尾のフレーズのフレーズ画像Gの直後に操作図像74を配置する。操作図像74は、現段階の対象楽曲の末尾に対するフレーズの追加を指示するための画像である。操作図像74に対する操作を指示受付部32が受付けた場合、表示制御部34は、表示装置22による表示画像を編集画像70から編集画像50に変更する。そして、選択画像54内の任意の1個のフレーズ画像Gの選択を指示受付部32が受付けると、当該フレーズ画像Gに対応するフレーズが対象楽曲の末尾に追加される。具体的には、情報管理部36は、選択画像54で選択されたフレーズの旋律データQA2を音楽データMの末尾に追加し、当該フレーズの識別符号を系列データDSに追加する。なお、対象楽曲を構成するブロックの総数に上限を設定し、利用者が選択したフレーズの総数がブロックの上限数に到達した場合には操作図像74を表示しない構成(更なるフレーズの追加を禁止する構成)も採用され得る。
利用者は、入力装置24を利用して編集画像70の操作図像76(ゴミ箱)を操作することが可能である。操作図像76は、フレーズの削除を指示するための画像である。操作図像76は、編集画像70内の何れのフレーズ画像Gも選択されていない状態では操作を受付けない無効状態に維持され、編集画像70内の何れかのフレーズ画像Gが選択された場合に操作可能な有効状態に遷移する。有効状態の操作図像76に対する操作を指示受付部32が受付けた場合、選択状態にある1個のフレーズ画像Gに対応するフレーズ以降の各フレーズが対象楽曲から削除される。具体的には、表示制御部34は、選択状態にあるフレーズ画像G以降の各フレーズ画像Gを編集画像70から削除する。また、情報管理部36は、音楽データMのうち選択状態のフレーズ以降の区間を削除し、系列データDSのうち選択状態にあるフレーズ以降の各フレーズの識別符号を削除する。なお、以上の説明では、利用者が選択したフレーズ以降の各フレーズを削除したが、利用者が選択した1個のフレーズのみを対象楽曲から削除する構成(例えば以降の各フレーズを前方に繰上げる構成)も採用され得る。
以上に説明した第1実施形態では、利用者が選択した各フレーズ画像Gに対応する複数のフレーズを時系列に配列した楽曲の音楽データMが生成されるから、対象楽曲を構成する複数の音符の各々を利用者が指定する必要はない。したがって、例えば音楽的な知識が充分でない初心者でも音楽的に適切な対象楽曲を容易に作成できるという利点がある。また、複数の音符で構成される各フレーズの選択で対象楽曲が構成されるから、楽曲の音符を1個ずつ指定する場合と比較して対象楽曲の生成の作業が簡素化されるという利点もある。
第1実施形態では、利用者による選択候補として表示される複数のフレーズ画像GがブロックB毎に相違する。したがって、例えば音楽的な知識が充分でない初心者でも、対象楽曲の各ブロックにとって好適なフレーズを選択できるという利点がある。また、第1実施形態では、複数の素材データQのうち利用者が選択した1個の素材データQが音楽データMや音響信号Sの生成に利用されるから、1種類の素材データQが固定的に利用される構成と比較して、利用者の意図や嗜好に合致した対象楽曲を容易に生成できるという利点がある。
第1実施形態では、対象楽曲の各音符を表象する複数の音符図像Zを時間軸および音高軸のもとで配置した楽譜画像62を含む編集画像60と、楽譜画像62内の複数の音符図像Zを時間軸上に沿う直線状に配列した楽譜画像80を含む編集画像(81,82)とが選択的に表示装置22に表示される。楽譜画像62では、各音符の音高X1も含めて対象楽曲の詳細な内容を利用者が確認できる一方、楽譜画像80では、複数の音符図像Zが時間軸の方向に直線状に配列されるから、楽譜画像62と比較して対象楽曲の各音符の表示に必要な面積が削減されるという利点がある。そして、編集画像(81,82)では、楽譜画像62と比較した楽譜画像80のサイズの縮小により歌詞編集画像(84,86)のサイズが充分に確保される。したがって、歌詞編集画像(84,86)の内容の確認や操作が容易化されるという利点がある。他方、第1実施形態では、各音符図像Zの時間軸上の位置および表示長は楽譜画像80でも楽譜画像62と同様に維持されるから、各音符の発音期間X2については楽譜画像62および楽譜画像80の双方で確認することが可能である。
第1実施形態では、対象楽曲の各音符の音声符号X3を利用者が任意に指定可能な歌詞編集画像84と、楽曲の各音符の音声符号を複数の候補単語WCから利用者が選択可能な歌詞編集画像86とが選択的に表示装置22に表示される。したがって、歌詞編集画像84における任意の文字の指定で利用者の意図や嗜好を充分に反映した音声符号X3を設定できるほか、歌詞編集画像86では、所望の候補単語WCの選択により音声符号X3を容易に設定できる。第1実施形態では特に、利用者が選択した音符図像Zの個数(単数/複数)に応じて自動的に歌詞編集画像84と歌詞編集画像86とが切替えられるから、対象楽曲の歌詞を編集する利用者の負荷が軽減されるという効果は格別に顕著である。
なお、例えば音符図像Zの選択数mとは無関係に選択された複数の候補単語WCが利用者に提示される構成では、音符図像Zの選択数mに相当する文字数の候補単語WCを利用者が自分で抽出する必要がある。第1実施形態では、音符図像Zの選択数mと同数の文字で構成される複数の候補単語WCが利用者による選択の候補として候補リスト862にて表示されるから、音符図像Zの選択数mとは無関係に複数の候補単語WCを利用者に提示する構成と比較して、対象楽曲の歌詞を編集する利用者の負荷が軽減されるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態では、編集画像60内の楽譜画像62の各音符図像Zを、利用者が入力装置24を利用して音高軸の方向に移動させることが可能である。例えば、表示制御部34は、音符図像Zに対するロングタップ操作を指示受付部32が受付けた場合に音符図像Zを移動可能な状態に遷移させ、音符図像Zに対する音高軸の方向のドラッグ操作を指示受付部32が受付けた場合に当該音符図像Zを音高軸の方向に移動させる。情報管理部36は、音楽データMのうち利用者が移動させた音符図像Zに対応する音符の音高X1を、音符図像Zの移動方向(高域側/低域側)および移動量に応じて変更する。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、対象楽曲の各フレーズの音符の音高を利用者が変更できるから、利用者の意図や嗜好に合致した多様な対象楽曲を生成できるという利点がある。なお、以上の説明では、編集画像60の楽譜画像62に表示された音符図像Zの移動を例示したが、編集画像50の楽譜画像52に表示された音符図像Zを同様に移動させることも可能である。
<第3実施形態>
図10は、第3実施形態における編集画像60内の楽譜画像62の各音符図像Zの模式図である。第3実施形態では、利用者が入力装置24の操作(例えばドラッグ操作)で複数の音符図像Zを選択する場合に、表示制御部34が、音符図像Zの選択数mを表す選択数画像66を楽譜画像62に配置する。選択数画像66は、利用者による音符図像Zの選択毎に順次に追加される。具体的には、図10に例示される通り、利用者が1個の音符図像Zを選択した状態では選択数「1」を意味する選択数画像66が音符図像Zの近傍に配置され、利用者が引続き第2個目の音符図像Zを選択すると、選択数「2」を意味する選択数画像66が第2個目の音符図像Zの近傍に配置される。また、利用者が第3個目の音符図像Zを選択すると、選択数「3」を意味する選択数画像66が第3個目の音符図像Zの近傍に配置される。音符図像Zの選択後の動作は第1実施形態と同様である。例えば、歌詞編集画像86では、音符図像Zの選択数mと同数の文字で構成される複数の候補単語WCが候補リスト862に配列される。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、利用者による音符図像Zの選択数mを表す選択数画像66が表示装置22に表示されるから、選択状態にある音符図像Zの個数を利用者が容易に確認できるという利点がある。音符図像Zの選択数mと同数の文字で構成される候補単語WCが利用者による選択候補となる前述の構成では、音符図像Zの個数を利用者が正確に確認する必要があるから、選択数画像66を表示する第3実施形態は格別に好適である。また、タッチパネルを入力装置24として利用する構成では、利用者の指の背後に各音符図像Zが隠れ、各音符図像Zの選択/非選択を充分に確認できない場合がある。第3実施形態では、音符図像Zの選択数を示す選択数画像66が音符図像Zとは別個に表示されるから、音符図像Zを充分に視認できない状況でも利用者が音符図像Zの選択数mを把握できるという利点がある。
<第4実施形態>
第1実施形態では、編集画像60の表示中に対象楽曲の再生が指示(操作図像642が操作)された場合に、対象楽曲の音響信号Sを再生するとともに再生の進行に連動するように楽譜画像62内の各音符図像Zの時系列を時間軸の方向にスクロールさせた。第4実施形態では、各音符図像Zの時間軸の方向のスクロールに加え、対象楽曲の再生に連動して楽譜画像62内の各音符図像Zの時系列を音高軸の方向にもスクロールさせる。
図11は、対象楽曲の再生中における楽譜画像62の遷移の説明図である。図11では、3個の音符図像Z(Z1〜Z3)で表象される旋律が例示されている。楽譜画像62の複数の音符図像Zの時系列のうち再生中の時点が再生点Pで指示されるように、複数の音符図像Zの時系列は対象楽曲の再生とともに時間軸の方向にスクロールされる。図11の基準位置Rは、表示装置22の表示面における縦方向(音高軸に平行な方向)の所定の位置である。
図11に例示される通り、音符図像Z1の音符の再生中(音符図像Z1と再生点Pとが時間軸上で重複する期間内)では、当該音符図像Z1が基準位置Rに位置するように複数の音符図像Zの音高軸の方向の表示位置が選定される。また、音符図像Z2の音符の再生中には音符図像Z2が基準位置Rに位置し、音符図像Z3の音符の再生中には音符図像Z3が基準位置Rに位置する。以上の説明から理解される通り、再生中の音符の音符図像Zが音高軸の方向で基準位置Rに位置するように、対象楽曲の再生の進行に連動して各音符図像Zが音高軸の方向にスクロールされる。
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、再生中の音符の音符図像Zが基準位置Rに位置するから、楽譜画像62内の複数の音符図像Zのうち再生中の音符に対応する1個の音符図像Zを利用者が容易に把握できるという利点がある。なお、以上の例示では楽譜画像62を例示したが、楽譜画像52内の各音符図像Zについても同様の構成が採用される。
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
(1)前述の各形態では、編集画像50の選択画像54内や編集画像70内の各フレーズ画像Gの近傍にフレーズの表示名を配置したが、フレーズ画像Gとともに表示される情報(以下「フレーズ情報」という)はフレーズの表示名に限定されない。例えば、「はじまりのフレーズ」「つなぎのフレーズ」「おわりのフレーズ」等の言葉(楽曲内での各フレーズの音楽的な意義)や、各フレーズのコード進行、フレーズの各音符に設定された音声符号X3(歌詞)を、フレーズ情報としてフレーズ画像Gの近傍に表示する構成も採用され得る。また、前述の各形態では、編集画像50の選択画像54内や編集画像70内の各フレーズ画像Gの近傍にフレーズ情報を固定的に表示したが、選択状態にあるフレーズ画像Gについてフレーズ情報を一時的に表示(ポップアップ表示)する構成も採用される。
(2)前述の各形態では、1個のフレーズの全体にわたる音符の時系列を表象するフレーズ画像Gを例示したが(図4)、フレーズ画像Gの内容は以上の例示に限定されない。例えば、1個のフレーズの特定の区間(例えば先頭部分)の音符の時系列を表象するフレーズ画像Gを表示することも可能である。また、前述の各形態では、事前に用意された固定の画像をフレーズ画像Gとして利用したが、例えば音楽データMの内容に応じてフレーズ画像Gを動的に変更することも可能である。具体的には、第2実施形態の例示のように利用者からの指示に応じて各音符の音高X1が変更される構成では、各音符の音高X1の変更がフレーズ画像Gに反映される。すなわち、フレーズ画像Gの各音符に対応する音符図像Zの音高軸上の位置が、当該音符の音高X1に応じて変更される。
(3)編集画像の表示に利用される画像(例えばアニメキャラクタ等の画像)の画像データ(以下「演出画像データ」という)を素材データQに包含させることも可能である。具体的には、編集画像50の楽譜画像52や編集画像60の楽譜画像62において各音符図像Zの背景画像が演出画像データで指定される。また、編集画像50の選択画像54や編集画像70に表示される各フレーズ画像Gにおける音符図像Zの背景画像が演出画像データで指定される。
(4)前述の各形態では、相異なるフレーズに対応する複数の単位データUが事前に複数のブロックBに区分された構成を例示したが、各ブロックBに属する単位データUを動的に変更することも可能である。具体的には、任意の1個のブロックBについて利用者が選択したフレーズに応じて直後のブロックBの選択候補となるフレーズを変化させる構成が採用される。例えば、1個のブロックについて利用者が選択したフレーズに対して音楽的に調和し得るフレーズが直後のブロックにおける選択候補のフレーズとして抽出(絞込)される。また、編集画像50の選択画像54における複数のフレーズ画像Gの配列の順序を適宜に変更することも可能である。例えば、1個のブロックについて利用者が選択したフレーズに対する音楽的な調和の度合に応じた順序で、直後のブロックのフレーズの選択候補となる複数のフレーズ画像Gが選択画像54に配列される。
(5)編集画像81または編集画像82において、楽譜画像80に表示された音符図像Zが各音符の前後の音符の音声符号X3を表示(例えばポップアップ表示)することも可能である。例えば、図12に例示される通り、「あるはれたひに(或る晴れた日に)」という歌詞のうち「はれた」に対応する3個の音符の音符図像Zを楽譜画像80に表示した状況を想定する。表示制御部34は、楽譜画像80内に表示された音符図像Zの音符の直前に位置する各音符の音声符号「ある」を含む補助画像88と、直後の各音符の音声符号「ひに」を含む補助画像88とを楽譜画像80内に表示する。以上の構成によれば、前後の音符の音声符号X3を各補助画像88で確認しながら楽譜画像80内の各音符の音声符号X3を指定できるという利点がある。なお、補助画像88で音声符号X3が表示される音符の範囲は任意である。例えば、前後の所定個の音符にわたる音声符号X3を補助画像88で表示する構成や、対象楽曲の全部にわたる音声符号X3を補助画像88で表示する構成が採用される。
(6)前述の各形態では、音符図像Zの選択数mと同数の文字で構成される複数の候補単語WCを候補リスト862に配列したが、候補リスト862に配列される候補単語WCの条件は以上の例示に限定されない。例えば、複数の候補単語WCのうち各音符の音高X1の遷移に類似する抑揚で発音される候補単語WCを優先的に候補リスト862に配置する構成が採用される。具体的には、候補単語WCの抑揚のデータを候補単語WC毎に候補単語データQDに設定し、楽譜画像80にて選択された各音符図像Zの音符の音高X1の遷移に類似する抑揚の候補単語WCを優先的に候補リスト862に配置する構成が採用される。また、楽譜画像80にて利用者が選択した各音符図像Zの前後の歌詞に関連する候補単語WCを優先的に候補リスト862に配置することも可能である。過去の文字入力の履歴から利用者が入力する単語を予測する入力予測機能(予測変換機能)が搭載された携帯電話機等の情報処理装置で音響処理装置100を実現する場合には、利用者による入力の頻度が高い単語を候補単語WCとして候補リスト862に配列する構成も採用される。また、前述の各形態では、音符図像Zの選択数mと文字数nが共通する1個の候補単語WCを抽出して利用者に提示したが、文字数nの合計が音符図像Zの選択数mとなるように複数の候補単語WCの組合せを抽出して利用者に提示することも可能である。例えば、利用者が10個の音符図像Zを選択した場合には、6文字の1個の候補単語WCと4文字の1個の候補単語WCとの組合せや、3文字の2個の候補単語WCと4文字の1個の候補単語WCとの組合せが利用者に提示される。
(7)複数の音符図像Zを楽譜画像80にて時間軸の方向に直線状に配列することで確保された領域に配置される画像は歌詞編集画像(84,86)に限定されない。例えば図13に例示される通り、歌詞編集画像84や歌詞編集画像86に代えて(または歌詞編集画像84や歌詞編集画像86とともに)、各音符の制御変数XCを利用者が編集するための変数編集画像89を楽譜画像80とともに表示装置22に表示させることも可能である。制御変数XCは、音楽データMにて音符毎に指定され、例えば音響信号Sの再生音に付与される音楽的な表情を制御するための変数である。具体的には、発音の強弱(ベロシティ)、音量(ダイナミクス)、発音後の音高の微小変化(ピッチベンド)、ビブラート、音色(例えば明瞭度等)等の変数が制御変数XCとして好適である。
図13に例示された変数編集画像89は、各音符の制御変数XCの時間変化を棒グラフで表現した画像である。変数編集画像89に対する利用者からの操作を指示受付部32が受付けると、表示制御部34は利用者からの指示に応じて変数編集画像89を更新し、情報管理部36は利用者からの指示に応じて音楽データMの制御変数XCを更新する。なお、図13では制御変数XCの時間変化を棒グラフで表現したが、制御変数XCの時間変化を折線グラフで表現することも可能である。前述の各形態で例示した歌詞編集画像(84,86)や図13に例示した変数編集画像89は、対象楽曲の各音符の属性(音声符号X3や制御変数XC)を利用者が編集するための画像(属性編集画像)として包括的に表現される。
以上の例示から理解される通り、楽譜画像80とともに表示される画像の内容は任意である。また、楽譜画像80とともに特定の画像を表示する構成を想定しなくても、楽譜画像62の複数の音符図像Zを時間軸に沿う直線状に配列するという構成さえ採用すれば、対象楽曲の各音符の表示に必要な面積を削減するという前述の効果は実現される。
(8)編集画像70の表示態様は以上の例示に限定されない。具体的には、対象楽曲の各フレーズの状態(編集済/未編集)に応じて各フレーズ画像Gの表示態様(色彩や形状等の視覚的に知覚可能な性状)を相違させる構成が採用される。例えば、編集画像70内の複数のフレーズ画像Gのうち利用者が各音符の音声符号X3(歌詞)を変更したフレーズと他のフレーズとでフレーズ画像Gの表示態様を相違させる構成が好適である。また、第2実施形態では、利用者が各音符の音高X1を変更したフレーズと他のフレーズとでフレーズ画像Gの表示態様を相違させることも可能である。
編集画像70に対する所定の操作を指示受付部32が受付けた場合に信号処理部38が対象楽曲の音響信号Sを生成することも可能である。以上の構成において、表示制御部34は、音響信号Sによる再生中のフレーズと他のフレーズとでフレーズ画像Gの表示態様が相違するように、各フレーズ画像Gの表示態様を音響信号Sの再生の進行とともに順次に変更する。
(9)前述の各形態では、音高軸の方向における各音符図像Zの分布範囲を楽譜画像62と比較して縮小した楽譜画像80を例示したが(図9)、時間軸の方向における各音符図像Zの分布範囲を縮小することも可能である。例えば、図14に例示される通り、音高軸および時間軸が設定された領域内に複数の音符図像Zを配置した楽譜画像62を想定する。入力装置24に対する所定の操作(楽譜画像62の縮小の指示)を指示受付部32が受付けると、表示制御部34は、表示装置22による表示画像を、楽譜画像62から図14の楽譜画像90に変更する。
楽譜画像90では、音高軸の方向における各音符図像Zの位置を維持したまま、時間軸上の各音符図像Zの位置を無視して各音符図像を横方向に移動させることで、複数の音符図像Zの横方向の分布範囲が楽譜画像62と比較して縮小される。すなわち、楽譜画像62から楽譜画像90への変更で画像の横方向のサイズが縮小される。楽譜画像62から楽譜画像90への変更による画像の縮小で確保された領域92には、例えば、各音符図像Zで表象される音符の音響特性を調整するための画像等の各種の画像が表示される。楽譜画像90では、楽譜画像62内の各音符図像Zが、時間軸上の位置を無視して相互に近接した位置に移動されるから、複数の音符図像Zが時間軸上の広範囲に分布する構成と比較して、特定の音高X1(または音高軸上の範囲)に属する複数の音符図像Zを利用者が一括的に選択できるという利点がある。なお、図14では、各音符図像Zが横方向に重複しない楽譜画像90を例示したが、例えば図15に例示される通り、音高X1が共通する複数の音符の音符図像Zを相互に重複して表示することも可能である。
(10)前述の各形態では、信号処理部38が、複数の音声素片を時間軸上で連結する素片接続型の音声合成で音響信号Sを生成する構成を例示したが、音響信号Sの生成方法は以上の例示に限定されない。例えば、隠れマルコフモデル等の確率モデルを利用した音声合成で信号処理部38が音響信号Sを生成することも可能である。したがって、素材データQの音声素片データQCは省略され得る。また、信号処理部38による生成対象は歌唱音の音響信号Sには限定されない。具体的には、対象楽曲を各種の楽器で演奏した演奏音の音響信号Sを生成することも可能である。例えば、信号処理部38は、楽器の演奏音の時間波形を音楽データMに応じて時間軸上で相互に連結することで音響信号Sを生成する。
(11)前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意であり、日本語には限定されない。例えば、英語,スペイン語,中国語,韓国語等の任意の言語の音声を生成する場合にも以上の各形態を同様に適用することが可能である。前述の各形態では日本語の歌詞の1文字を1個の音符(音符図像Z)に割当てたが、音声単位(分節単位)と音符との対応関係は以上の例示に限定されず、例えば言語体系に応じて適宜に変更される。例えば、英語の単語“September”を3個の音節“Sep-tem-ber”に区分して3個の音符に割当てることが可能である。複数の音節が1個の音符に割当てられる場合や1個の音節が複数の音符に割当てられる場合もあり得る。
また、前述の各形態では、利用者による音符図像Zの選択数mと同数の文字で構成される候補単語WCを利用者に提示したが、利用者に提示される候補単語WCの選定の基準は文字数に限定されず、例えば言語体系等の事情に応じて適宜に変更される。例えば、音符図像Zの選択数mと同数の音節で構成された候補単語WCを利用者に提示することも可能である。以上の説明から理解される通り、選択数mと同数の文字で構成される候補単語WCを利用者に提示する構成は、選択数mに応じた個数の分節単位(典型的には文字や音節)で構成される候補単語WCを利用者に提示する構成として包括的に表現される。