JP6179221B2

JP6179221B2 - 音響処理装置および音響処理方法

Info

Publication number: JP6179221B2
Application number: JP2013135809A
Authority: JP
Inventors: 水口　哲也; 哲也水口; 攻小寺; 治大島; 健松澤
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-06-28
Filing date: 2013-06-28
Publication date: 2017-08-16
Anticipated expiration: 2033-06-28
Also published as: JP2015011146A

Description

本発明は、音楽に関連する情報を表示する技術に関し、音声合成等の音響処理に関連する情報を利用者が確認または編集するための画像の表示に特に好適に利用される。

利用者が音高や歌詞を任意に指定した楽曲の歌唱音の音響信号を生成する技術が従来から提案されている。例えば特許文献１には、音高軸と時間軸とが設定された楽譜領域内に、利用者が指示した音符を表象する図像と各音符の歌詞とを表示し、各音符で構成される楽曲を各音符の歌詞で歌唱した歌唱音の音響信号を生成する音声合成技術が開示されている。

特開２０１２−８３５６３号公報

しかし、特許文献１の技術では、楽曲を構成する複数の音符の各々を利用者が指定する必要がある。したがって、音楽的な知識が充分でない初心者にとっては音楽的に自然な楽曲を作成することは困難である。また、楽曲の複数の音符の各々を１個ずつ指定する必要があるから作業が煩雑である。以上の事情を考慮して、本発明は、利用者による楽曲の作成を容易化することを目的とする。

以上の課題を解決するために、本発明の音響処理装置は、相異なるフレーズを表象する複数のフレーズ画像を表示装置に表示させる表示制御手段と、利用者によるフレーズ画像の選択を順次に受付ける指示受付手段と、指示受付手段が利用者による選択を受付けた各フレーズ画像に対応する複数のフレーズを時系列に配列した楽曲の音響信号を生成する信号処理手段とを具備する。以上の構成では、利用者が選択した各フレーズ画像に対応する複数のフレーズを時系列に配列した楽曲が作成されるから、楽曲を構成する複数の音符の各々を利用者が指定する必要はない。したがって、例えば音楽的な知識が充分でない初心者でも音楽的に適切な対象楽曲を容易に作成できるという利点がある。また、フレーズの選択で楽曲が構成されるから、楽曲の音符を１個ずつ指定する必要がある構成と比較して楽曲の生成の作業が簡素化されるという利点もある。

本発明の好適な態様において、表示制御手段は、楽譜画像と選択画像とを含む第１編集画像（例えば編集画像５０）を表示装置に表示させる。楽譜画像は、時間軸と音高軸とが設定された領域内に、指示受付手段が利用者による選択を受付けたフレーズ画像に対応したフレーズの各音符を表象する音符図像を配置した画像である。選択画像は、複数のフレーズ画像を配置した画像である。以上の構成では、利用者が選択したフレーズ画像に対応するフレーズの各音符の音符図像を時間軸および音高軸のもとで配置した楽譜画像が、複数のフレーズ画像を配置した選択画像とともに表示装置に表示される。したがって、利用者は、楽譜画像を参照して各フレーズの詳細な内容を確認しながら、選択画像から所望のフレーズ画像を選択することが可能である。本発明の好適な態様において、信号処理手段は、指示受付手段が利用者による選択を受付けた各フレーズ画像に対応する複数のフレーズを時系列に配列した楽曲について歌唱音の音響信号を生成する。

本発明の好適な態様において、表示制御手段は、指示受付手段が利用者による選択を受付けた複数のフレーズ画像を時系列に配列した第２編集画像（例えば編集画像７０）と、第１編集画像とを、利用者からの指示に応じて選択的に表示装置に表示させる。以上の態様では、利用者が選択した複数のフレーズ画像を時系列に配列した第２編集画像と前述の第１編集画像とが選択的に表示される。したがって、利用者は、楽曲の全体の構成（複数のフレーズの時系列）を第２編集画像で確認するとともに、第１編集画像にて所望のフレーズ画像を選択することが可能である。なお、第１編集画像と第２編集画像とが「選択的に表示される」とは、第１編集画像と第２編集画像とを含む複数の画像の何れかが表示装置に表示されることを意味し、第１編集画像と第２編集画像とが二者択一的に表示される構成には限定されない。

本発明の好適な態様において、表示制御手段は、表示装置にフレーズ画像が表示される複数のフレーズの内容が第１ブロックと第２ブロックとで相違するように、時間軸上のブロック毎に複数のフレーズ画像を表示装置に表示させる。以上の態様では、複数のフレーズの内容が楽曲の第１ブロックと第２ブロックとで相違するから、利用者が選択可能なフレーズが楽曲の全部のブロックにわたり共通する場合と比較して、楽曲内のブロック毎の音楽的な意義等を加味した自然な楽曲を生成することが可能である。

本発明の好適な態様において、フレーズ画像は、当該フレーズ画像に対応するフレーズのうち少なくとも一部の各音符を表象する音符図像を、時間軸と音高軸とが設定された領域内に配置した画像である。以上の態様では、フレーズの少なくとも一部を表象する画像がフレーズ画像として表示装置に表示されるから、フレーズ画像を視認することで利用者がフレーズの概要を容易に確認できるという利点がある。

以上の各態様に係る音響処理装置は、音響信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

本発明は、以上に説明した音響処理装置の動作方法（音響処理方法）としても特定される。本発明の音響処理方法は、相異なるフレーズを表象する複数のフレーズ画像を表示装置に表示させ、利用者によるフレーズ画像の選択を順次に受付け、利用者による選択を受付けた各フレーズ画像に対応する複数のフレーズを時系列に配列した楽曲の音響信号を生成する。以上の方法によれば、本発明の音響処理装置と同様の効果が実現される。

本発明の第１実施形態に係る音響処理装置のブロック図である。音楽データの模式図である。素材データの模式図である。フレーズ画像の模式図である。演算処理装置の動作のフローチャートである。編集画像の遷移の説明図である。音楽データの生成の説明図である。複数の音符図像を選択する操作の説明図である。歌詞編集画像の説明図である。第３実施形態において複数の音符図像を選択する操作の説明図である。第４実施形態における楽譜画像の説明図である。変形例における楽譜画像の模式図である。変形例における編集画像の模式図である。変形例における楽譜画像の模式図である。変形例における楽譜画像の模式図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響処理装置１００のブロック図である。音響処理装置１００は、楽曲を歌唱した音声の音響信号Ｓを生成する信号処理装置（音声合成装置）である。第１実施形態では、事前に用意された複数の旋律（以下「フレーズ」という）を利用者からの指示に応じて時間軸上に配列することで合成対象の楽曲（以下「対象楽曲」という）が構成され、対象楽曲の各フレーズの歌詞が利用者からの指示に応じて設定または変更される。フレーズは、複数の音符で構成された旋律（楽句）である。音響処理装置１００は、対象楽曲を歌唱した歌唱音の音響信号Ｓを生成する。

図１に例示される通り、音響処理装置１００は、演算処理装置１２と記憶装置１４と表示装置２２と入力装置２４と放音装置２６とを具備するコンピュータシステムで実現される。例えば携帯電話機または携帯情報端末等の可搬型の情報処理装置や据置型の情報処理装置（パーソナルコンピュータ）で音響処理装置１００は実現される。

表示装置２２（例えば液晶表示パネル）は、演算処理装置１２から指示された画像を表示する。入力装置２４は、利用者により操作される機器である。第１実施形態では、表示装置２２と一体に構成されて操作面（表示装置２２の表示面）の任意の位置に対する接触を検知するタッチパネルを入力装置２４として例示する。ただし、利用者が操作可能な複数の操作子を含む操作機器を入力装置２４として利用することも可能である。放音装置２６は、演算処理装置１２が生成した音響信号Ｓに応じた音波を放射する。なお、音響信号Ｓをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略されている。

記憶装置１４は、演算処理装置１２が音響信号Ｓの生成のために実行するアプリケーションプログラム（以下「音響処理プログラム」という）ＰGMや演算処理装置１２が使用する各種のデータ（音楽データＭ，素材データＱ，系列データＤS）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に採用され得る。音響処理プログラムＰGMは、例えば、移動通信網やインターネット等の通信網を介して配信装置（例えばウェブサーバ等のサーバ装置）から音響処理装置１００に配信されたうえで記憶装置１４に格納される。

第１実施形態の記憶装置１４は、音楽データＭと複数の素材データＱと系列データＤSとを記憶する。音楽データＭは、対象楽曲を構成する音符の時系列を指定する時系列データである。図２に例示される通り、第１実施形態の音楽データＭは、音高Ｘ1と発音期間Ｘ2と音声符号Ｘ3とを対象楽曲内の音符毎に指定する。音高Ｘ1は音符の音高（実際には各音高に付与されたノートナンバ）である。発音期間Ｘ2は、音符の発音が継続される区間であり、例えば発音の開始点と継続長（音価）とで規定される。なお、発音の開始点と終了点とで発音期間Ｘ2を指定することも可能である。音声符号Ｘ3は、音符の発音内容（例えば歌詞の音節）を指定する符号である。

記憶装置１４に記憶される複数の素材データＱは、対象楽曲（音楽データＭ）の編集や音響信号Ｓの生成に利用される。対象楽曲の題材（テーマ）毎に素材データＱが用意される。具体的には、素材データＱを利用して構成可能な対象楽曲の曲調や合成可能な音響信号Ｓの音響特性（例えば声質）は素材データＱ毎に相違する。素材データＱの流通経路は任意であるが、例えば移動通信網やインターネット等の通信網を介して配信装置から素材データＱが音響処理装置１００に提供される構成が好適である。具体的には、配信装置に蓄積された複数の素材データＱのうち音響処理装置１００の利用者が選択した素材データＱが、例えば所定の課金処理の完了を条件として音響処理装置１００に配信されたうえで記憶装置１４に格納される。

図３は、記憶装置１４に記憶される任意の１個の素材データＱの説明図である。図３に例示される通り、素材データＱは、楽曲編集データＱAと伴奏音データＱBと音声素片データＱCと候補単語データＱDとを含んで構成される。

楽曲編集データＱAは、音楽データＭ（対象楽曲）の編集に利用されるデータであり、相異なるフレーズに対応する複数の単位データＵの集合である。任意の１個の単位データＵは、関連データＱA1と旋律データＱA2と画像データＱA3と再生データＱA4とを含んで構成される。関連データＱA1は、フレーズの識別符号や表示名（名称）を指定する。

旋律データＱA2は、１個のフレーズを構成する複数の音符の時系列（すなわち旋律）を表す。所定の時間長（例えば２小節分）にわたるフレーズが旋律データＱA2で指定される。具体的には、図３に例示される通り、旋律データＱA2は、音楽データＭと同様に、音高Ｘ1と発音期間Ｘ2と音声符号Ｘ3とをフレーズ内の音符毎に指定する。第１実施形態における旋律データＱA2の各音符の音声符号Ｘ3は、例えば歌声に好適な「ラ」等の初期的な歌詞に設定される。概略的には、利用者からの指示に応じた複数の旋律データＱA2を時間軸上に配列し、各旋律データＱA2の音声符号Ｘ3（歌詞）を利用者からの指示に応じて変更することで対象楽曲の音楽データＭが生成される。再生データＱA4は、旋律データＱA2で指定されるフレーズの音響（例えば時間波形）を表す音響データである。

画像データＱA3は、旋律データＱA2が指定するフレーズを表象する画像（以下「フレーズ画像」という）Ｇを表すデータである。図４は、１個のフレーズ画像Ｇを例示する模式図である。図４に例示される通り、フレーズ画像Ｇは、旋律データＱA2が指定するフレーズの各音符を表象する音符図像Ｚを、相互に交差する時間軸と音高軸とが設定された領域内に配置したピアノロール型の画像（サムネイル画像）である。すなわち、各音符の音符図像Ｚの音高軸上の位置は、旋律データＱA2が当該音符に指定する音高Ｘ1に応じて設定され、音符図像Ｚの時間軸上の位置および表示長は、旋律データＱA2が当該音符に指定する発音期間Ｘ2に応じて設定される。ただし、第１実施形態のフレーズ画像Ｇは、旋律データＱA2が示すフレーズの内容を表象するように事前に作成された固定の画像である。

第１実施形態の対象楽曲は、時間軸上の複数のブロックＢで構成され、複数のブロックＢ（Ｂ1，Ｂ2，……）の各々について利用者からの指示に応じた１個のフレーズが選択される。図３から理解される通り、楽曲編集データＱA内の複数の単位データＵは、ブロックＢ毎に区分される。利用者による選択候補となる各フレーズの内容や組合せはブロックＢ毎に相違する。具体的には、任意の１個のブロックＢに属する各単位データＵの旋律データＱA2は、楽曲内の当該ブロックＢにとって音楽的に好適なフレーズを指定する。例えば、先頭のブロックＢに属する各単位データＵの旋律データＱA2は、楽曲の開始部の旋律として音楽的に好適なフレーズを指定し、末尾のブロックＢに属する各単位データＵの旋律データＱA2は、楽曲の終了部の旋律として音楽的に好適なフレーズを指定する。図１の系列データＤSは、時間軸上のブロックＢ毎に選択された各フレーズの識別符号を時系列に指定する。

図３の素材データＱ内の伴奏音データＱBは、各フレーズの伴奏音（例えば時間波形）を表す音響データである。具体的には、楽曲編集データＱAの各旋律データＱA2が指定するフレーズの伴奏音として好適な音響（例えば打楽器の演奏音で構成されるリズム音やギター等の楽器の和音で構成されるバッキング音）の時系列が伴奏音データＱBで指定される。なお、素材データＱがブロックＢ毎またはフレーズ毎に別個の伴奏音データＱBを含む構成も採用される。伴奏音データＱBが表す伴奏音は素材データＱ毎に相違し得る。

音声素片データＱCは、特定の発声者の音声から事前に採取された複数の音声素片の集合（音声合成ライブラリ）である。各音声素片は、言語的な意味の区別の最小単位である音素（例えば母音や子音）、または複数の音素を連結した音素連鎖（例えばダイフォンやトライフォン）であり、例えば時間波形のサンプル系列で表現される。音声素片データＱCが表す各音声素片の音響特性（例えば音声素片の発声者）は素材データＱ毎に相違する。

候補単語データＱDは、対象楽曲の歌詞として利用者が選択可能な複数の単語（以下「候補単語」という）ＷCを指定する。図３に例示される通り、文字数ｎ（ｎは２以上の自然数）が相違する複数の候補単語ＷCが候補単語データＱDで指定される。候補単語データＱDが表す候補単語の内容や組合せは素材データＱ毎に相違する。

図１の演算処理装置１２は、記憶装置１４に記憶されたプログラムを実行することで複数の機能（指示受付部３２，表示制御部３４，情報管理部３６，信号処理部３８）を実現する。なお、演算処理装置１２の機能を複数の装置に分散した構成や、専用の電子回路（例えばＤＳＰ）が一部の機能を実現する構成も採用され得る。

指示受付部３２は、入力装置２４に対する操作に応じた利用者からの指示を受付ける。具体的には、指示受付部３２は、入力装置２４の操作面に対する接触の位置に応じて利用者からの指示の内容を特定する。表示制御部３４は、各種の画像を表示装置２２に表示させる。例えば、表示制御部３４は、対象楽曲の内容を利用者が確認または編集するための画像（以下「編集画像」という）を生成して表示装置２２に表示させ、指示受付部３２が利用者から受付けた指示に応じて編集画像を更新する。情報管理部３６は、指示受付部３２が利用者から受付けた指示に応じて音楽データＭや系列データＤSを生成または更新する。

信号処理部３８は、素材データＱを利用して編集された音楽データＭと素材データＱの伴奏音データＱBおよび音声素片データＱCとを利用して対象楽曲の歌唱音の音響信号Ｓを生成する。具体的には、信号処理部３８は、音楽データＭが音符毎に指定する音声符号Ｘ3に対応する音声素片を音声素片データＱCから順次に選択し、音楽データＭが指定する音高Ｘ1および発音期間Ｘ2に各音声素片を調整する。そして、信号処理部３８は、調整後の各音声素片を時間軸上で相互に連結するとともに伴奏音データＱBを混合することで音響信号Ｓを生成する。信号処理部３８が生成した音響信号Ｓが放音装置２６に供給されることで音波として再生される。以上の説明から理解される通り、利用者からの指示に応じてフレーズと歌詞とが設定された対象楽曲を伴奏音データＱBの伴奏音のもとで歌唱した歌唱音が放音装置２６から再生される。

図５は、音響処理装置１００（演算処理装置１２）の動作のフローチャートである。例えば入力装置２４に対する操作で利用者が音響処理プログラムＰGMの起動を指示した場合に図５の処理が開始される。音響処理プログラムＰGMが起動されると、演算処理装置１２（指示受付部３２）は、利用者からの指示を受付けたか否かを判定する（ＳA1）。利用者からの指示を受付けた場合（ＳA1：YES）、演算処理装置１２（表示制御部３４）は、利用者からの指示の内容に応じて表示装置２２の表示画像を更新する（ＳA2）。また、演算処理装置１２（情報管理部３６）は、利用者からの指示に応じて記憶装置１４内の音楽データＭや系列データＤSを更新する（ＳA3）。利用者の指示を受付けていない場合（ＳA1：NO）にはステップＳA2およびステップＳA3の処理は実行されない。

演算処理装置１２（指示受付部３２）は、音響信号Ｓの生成の指示を利用者から受付けたか否かを判定する（ＳA4）。音響信号Ｓの生成の指示を受付けた場合（ＳA4：YES）、演算処理装置１２（信号処理部３８）は、記憶装置１４に記憶された音楽データＭと素材データＱの伴奏音データＱBおよび音声素片データＱCとを利用して対象楽曲の歌唱音の音響信号Ｓを生成する（ＳA5）。音響信号Ｓの生成の指示を受付けていない場合（ＳA4：NO）には音響信号Ｓの生成（ＳA5）は実行されない。演算処理装置１２（指示受付部３２）は、音響処理プログラムＰGMの終了が利用者から指示されたか否かを判定する（ＳA6）。終了指示を受付けていない場合（ＳA6：NO）、演算処理装置１２は、処理をステップＳA1に移行して前述の処理を反復する。他方、利用者から終了の指示を受付けた場合（ＳA6：YES）、演算処理装置１２は、音響処理プログラムＰGMを終了する。

図６は、表示制御部３４が表示装置２２に表示させる画像の模式図である。音響処理プログラムＰGMが起動されると、表示制御部３４は、図６の初期画像４０を表示装置２２に表示させる。初期画像４０は、記憶装置１４に記憶された複数の素材データＱ（テーマ）の何れかを利用者に選択させる画面であり、具体的には複数の素材データＱの表示名を配列したリスト画像である。利用者は、入力装置２４を適宜に操作することで、初期画像４０に提示された複数の素材データＱのうち所望の素材データＱを選択することが可能である。

利用者による素材データＱの選択（すなわち対象楽曲のテーマの選択）の指示を指示受付部３２が受付けると、表示制御部３４は、利用者が対象楽曲を編集するための図６の編集画像５０を表示装置２２に表示させる。編集画像５０は、時間軸上のブロックＢ毎に利用者がフレーズを選択して対象楽曲を構成するための画面であり、楽譜画像５２と選択画像５４とを含んで構成される。

選択画像５４は、利用者が初期画像４０にて選択した素材データＱ内の各画像データＱA3が表象する複数のフレーズ画像Ｇを配列した画面である。具体的には、表示制御部３４は、時間軸上の１個のブロックＢ（以下「対象ブロックＢ」という）を選択し、素材データＱの楽曲編集データＱAに包含される複数の単位データＵのうち対象ブロックＢに属する各単位データＵの画像データＱA3が示す複数のフレーズ画像Ｇを配列する。対象ブロックＢの選択の条件は任意であるが、例えば、対象楽曲の編集を開始した直後には先頭のブロックＢを対象ブロックＢとして選択し、１個の対象ブロックＢのフレーズが確定されると直後のブロックＢを対象ブロックＢとして選択する構成が好適である。また、利用者が入力装置２４に対する操作で対象ブロックＢを選択することも可能である。

前述の通り各ブロックＢについて選択候補となるフレーズの内容や組合せはブロックＢ毎に相違する。したがって、選択画像５４で表示対象となる複数のフレーズ画像ＧはブロックＢ毎に相違する。例えば、相異なる任意のブロックＢa（第１ブロック）およびブロックＢb（第２ブロック）に着目すると、選択画像５４に表示される複数のフレーズ画像Ｇ（利用者による選択候補となる複数のフレーズ）はブロックＢaとブロックＢbとで相違する。また、表示制御部３４は、図６に例示される通り、関連データＱA1が指定するフレーズの表示名（フレーズＡ1，フレーズＡ2，……）を各フレーズ画像Ｇの近傍に配置する。選択画像５４に対する利用者からの操作（例えば操作面に対するドラッグ操作やスワイプ操作）に応じて、表示制御部３４は、複数のフレーズ画像Ｇの配列を横方向にスクロールする。

利用者は、入力装置２４を適宜に操作することで、選択画像５４の複数のフレーズ画像Ｇのうち所望の１個のフレーズのフレーズ画像Ｇを選択することが可能である。指示受付部３２は、利用者によるフレーズ画像Ｇの選択（対象ブロックＢに割当てられるべきフレーズの選択）の指示を受付ける。表示制御部３４は、入力装置２４の操作面のうち特定のフレーズ画像Ｇに対する操作（例えばタップ操作）を指示受付部３２が受付けた場合に当該フレーズ画像Ｇを暫定的な選択状態に設定する。図６の編集画像５０に例示される通り、選択状態にあるフレーズ画像Ｇ（図６の例示では左端の１個のフレーズ画像Ｇ）と非選択のフレーズ画像Ｇとは相異なる態様（例えば選択状態のフレーズ画像Ｇの枠線を強調した態様）で表示される。また、１個のフレーズ画像Ｇが選択状態に遷移すると、信号処理部３８は、利用者が選択したフレーズの再生データＱA4を放音装置２６に供給することで当該フレーズを再生する。したがって、利用者は、各フレーズ画像Ｇに対応するフレーズの再生音を実際に聴取して内容を確認しながら所望のフレーズ画像Ｇを選択画像５４から選択することが可能である。なお、以上の例示では、事前に用意された再生データＱA4を再生する構成を例示したが、信号処理部３８が旋律データＱA2と音声素片データＱCの各音声素片とからフレーズの音響信号Ｓを生成して放音装置２６に供給する構成（したがって再生データＱA4は省略される）も好適である。

選択状態にあるフレーズ画像Ｇに対する操作（例えばタップ操作）を指示受付部３２が受付けた場合に当該フレーズ画像Ｇの選択が確定される。フレーズ画像Ｇの選択が確定すると、情報管理部３６は、当該フレーズ画像Ｇに対応するフレーズの識別符号を系列データＤSに追加する。したがって、以上に説明したフレーズの選択が時間軸上の複数のブロックＢにわたり反復された段階では、各ブロックＢについて選択された複数のフレーズの時系列が系列データＤSで指定される。

図６の編集画像５０の楽譜画像５２は、選択画像５４において選択状態にある１個のフレーズ画像Ｇのフレーズを利用者に提示する画像である。具体的には、楽譜画像５２は、利用者が選択したフレーズの旋律データＱA2（選択状態にあるフレーズ画像Ｇの画像データＱA3と同じ単位データＵ内の旋律データＱA2）が指定する各音符を表象する音符図像Ｚを、相互に交差する時間軸と音高軸とが設定された領域内に配置したピアノロール型の画像である。すなわち、各音符の音符図像Ｚの音高軸上の位置は、旋律データＱA2が当該音符に指定する音高Ｘ1に応じて設定され、音符図像Ｚの時間軸上の位置および表示長は、旋律データＱA2が当該音符に指定する発音期間Ｘ2に応じて設定される。また、各音符の音符図像Ｚには、旋律データＱA2が当該音符に指定する音声符号Ｘ3が付加される。具体的には、音声符号Ｘ3は、音符図像Ｚの内側に配置される。なお、音声符号Ｘ3を音符図像Ｚの近傍（外側）に配置することも可能である。

図６から理解される通り、楽譜画像５２は、概略的には、選択画像５４にて利用者が選択した１個のフレーズ画像Ｇを拡大した関係にある。したがって、利用者は、選択画像５４内の各フレーズ画像Ｇを視認することで複数のフレーズを対比しながら所望のフレーズを選択し、楽譜画像５２を視認することで選択状態のフレーズの詳細な内容を確認することが可能である。表示制御部３４は、楽譜画像５２に対する利用者からの指示に応じて複数の音符図像Ｚの配列のスクロールや表示倍率の変更を実行する。したがって、各フレーズのうち楽譜画像５２での表示対象となる音高軸上および時間軸上の範囲は利用者からの指示に応じて変更される。

時間軸上の所望の個数のブロックの各々についてフレーズを選択すると、利用者は、編集画像５０の操作図像５６を操作する。操作図像５６に対する操作（フレーズの選択の終了指示）を指示受付部３２が受付けると、表示制御部３４は、編集画像５０で選択された各フレーズの各音符を利用者からの指示に応じて個別に編集するための編集画像６０を表示装置２２に表示させ、情報管理部３６は、ブロックＢ毎のフレーズに応じた音楽データＭを生成して記憶装置１４に格納する。具体的には、情報管理部３６は、図７に例示される通り、初期画像４０にて利用者が選択した素材データＱ内の複数の旋律データＱA2のうち系列データＤSがブロックＢ毎に指定する各フレーズの旋律データＱA2を、ブロックＢの順番で時系列に配列することで音楽データＭを生成する。すなわち、音楽データＭは、利用者が選択した複数のフレーズを時系列に配列した対象楽曲を指定する。

図６の編集画像６０は、楽譜画像６２と操作画像６４とを含んで構成される。楽譜画像６２は、音楽データＭが指定する各音符を表象する音符図像Ｚを、時間軸と音高軸とが設定された領域内に配置したピアノロール型の画像である。編集画像５０の楽譜画像５２と同様に、音高軸の方向における各音符の音符図像Ｚの位置は、音楽データＭが当該音符に指定する音高Ｘ1に応じて設定され、時間軸の方向における各音符の音符図像Ｚの位置および表示長は、音楽データＭが当該音符に指定する発音期間Ｘ2に応じて設定される。また、各音符の音符図像Ｚには、音楽データＭが当該音符に指定する音声符号Ｘ3が付加される。具体的には、音声符号Ｘ3は、音符図像Ｚの内側に配置される。表示制御部３４は、楽譜画像６２に対する利用者からの指示に応じて複数の音符図像Ｚの配列のスクロールや表示倍率の変更を実行する。すなわち、対象楽曲の各フレーズのうち楽譜画像６２での表示対象となる音高軸上および時間軸上の範囲は利用者からの指示に応じて変更される。

利用者は、入力装置２４を適宜に操作することで、楽譜画像６２内の１個以上の音符図像Ｚを任意に選択することが可能である。具体的には、利用者は、操作面に対する１回のタップ操作で任意の１個の音符図像Ｚを選択することが可能である。また、利用者は、図８に鎖線の矢印で図示される通り、所望の複数の音符図像Ｚの系列をなぞるように操作面に対するドラッグ操作を実行することで、複数の音符図像Ｚを選択することが可能である。指示受付部３２は、利用者による音符図像Ｚの選択を受付ける。信号処理部３８は、利用者が選択した音符図像Ｚに対応する音符の音響信号Ｓを生成して放音装置２６に供給する。具体的には、信号処理部３８は、利用者が選択した音符図像Ｚに対応する音符の音声符号Ｘ3に応じた音声素片を当該音符の音高Ｘ1に調整することで音響信号Ｓを生成する。したがって、楽譜画像６２内の１個の音符図像Ｚの選択毎に、当該音符図像Ｚに対応する音符の歌唱音が順次に再生される。

図９は、指示受付部３２が楽譜画像６２内の音符図像Ｚの選択を受付けた場合に実行される処理の説明図である。表示制御部３４は、指示受付部３２が選択を受付けた音符図像Ｚの個数が１であるか否かを判定する（ＳB1）。表示制御部３４は、指示受付部３２が１個の音符図像Ｚの選択を受付けた場合（ＳB1：YES）には表示装置２２による表示画像を編集画像６０から編集画像８１に変更し、指示受付部３２が複数の音符図像Ｚの選択を受付けた場合（ＳB1：NO）には表示画像を編集画像６０から編集画像８２に変更する。他方、各音符図像Ｚの選択の解除が利用者から指示されると、表示制御部３４は、表示画像を編集画像８１または編集画像８２から編集画像６０に変更する。

図９の編集画像８１は、楽譜画像８０と歌詞編集画像８４とを含んで構成され、編集画像８２は、楽譜画像８０と歌詞編集画像８６とを含んで構成される。編集画像８１および編集画像８２の各々の楽譜画像８０は、編集画像６０の楽譜画像６２（または編集画像５０の楽譜画像５２）にて表示されていた複数の音符図像Ｚを、時間軸の方向における各音符図像Ｚの位置および表示長を維持したまま、時間軸に沿う直線状（時間軸に平行な基準線Ｌ0の線上）に配列した画像である。

すなわち、音符図像Ｚの選択前の楽譜画像６２では時間軸および音高軸の２次元で各音符図像Ｚの時系列が表示されるが、音符図像Ｚの選択後の楽譜画像８０では、音高軸が省略された（すなわち各音符の音高の相違を無視した）１次元で各音符図像Ｚが表示される。複数の音符図像Ｚの縦方向の分布範囲が、楽譜画像８０では楽譜画像６２と比較して縮小されるとも換言され得る。したがって、楽譜画像８０の縦方向のサイズＬB1は、楽譜画像６２の縦方向のサイズＬA1を下回る。すなわち、楽譜画像６２から楽譜画像８０への変更で画像の縦方向のサイズが縮小される（ＬA1→ＬB1）。なお、編集画像６０から編集画像８１または編集画像８２への変更時に、楽譜画像６２における各音符図像Ｚの音高軸上の位置から楽譜画像８０における基準線Ｌ0上の位置まで各音符図像Ｚが連続的に移動する様子を示す動画像（アニメーション）を表示することも可能である。図９に例示される通り、楽譜画像８０内の各音符図像Ｚには、楽譜画像５２や楽譜画像６２と同様に音声符号Ｘ3が付加される。また、楽譜画像８０内の複数の音符図像Ｚのうち利用者が選択した各音符図像Ｚは強調表示される。

編集画像８１の歌詞編集画像８４および編集画像８２の歌詞編集画像８６は、利用者が各音符の歌詞を編集するための画像であり、表示装置２２の表示領域のうち、楽譜画像６２から楽譜画像８０への変更による画像の縮小で確保された領域（楽譜画像６２の下方の領域）に配置される。したがって、歌詞編集画像８４および歌詞編集画像８６の各々の縦方向のサイズＬB2は、編集画像６０の操作画像６４の縦方向のサイズＬA2を上回る。また、編集画像８１および編集画像８２の各々において、楽譜画像８０の縦方向のサイズＬB1は、歌詞編集画像８４や歌詞編集画像８６の縦方向のサイズＬB2を下回る。

利用者が１個の音符図像Ｚを選択した場合（ＳB1：YES）に表示される歌詞編集画像８４は、各音符の歌詞を利用者が１文字ずつ任意に指定するための画面である。具体的には、歌詞編集画像８４は、利用者が１個の文字を任意に指定するための複数の操作図像８４２を包含する。表示制御部３４は、利用者が各操作図像８４２の操作で順次に指定した各文字を領域８４４に表示させる。そして、文字の確定を指示する操作図像８４６の操作を指示受付部３２が受付けた場合、楽譜画像８０内の各音符図像Ｚの音符の音声符号Ｘ3が、領域８４４内の各文字に変更される。例えば、歌詞編集画像８４に対する操作で利用者がｎ文字を指定した場合、選択状態にある１個の音符図像Ｚの音符を先頭とするｎ個の音符の各々に、利用者が指定したｎ文字の各々が順番に割当てられる。具体的には、表示制御部３４は、編集画像８１の楽譜画像８０における各音符図像Ｚの音声符号Ｘ3（例えば旋律データＱA2が指定する初期的な文字「ら」）を利用者が指定した各文字に変更し、情報管理部３６は、音楽データＭの各音符の音声符号Ｘ3を利用者が指定した文字に変更する。

また、利用者は、入力装置２４を適宜に操作することで、編集画像８１の楽譜画像８０内の複数の音符図像Ｚのうち選択状態にある１個の音符図像Ｚを先頭とする複数の音符図像Ｚを選択することが可能である。すなわち、選択状態の音符図像Ｚの個数が単数から複数に変更される。編集画像８１が表示されている状態で指示受付部３２が複数の音符図像Ｚの選択（音符図像Ｚの選択数の変更）を受付けると、表示制御部３４は、表示装置２２による表示画像を編集画像８１から編集画像８２に変更する。

複数（ｍ個）の音符図像Ｚの選択時（ＳB1：NO）に表示される歌詞編集画像８６は、事前に用意された複数の候補単語ＷCの何れかを利用者が選択するための画面である。具体的には、第１実施形態の歌詞編集画像８６は、候補リスト８６２を包含する。表示制御部３４は、初期画像４０で利用者が選択した素材データＱ内の候補単語データＱDを記憶装置１４から取得し、候補単語データＱDが指定する複数の候補単語ＷCを利用者による選択候補として候補リスト８６２に配列する。第１実施形態の表示制御部３４は、候補単語データＱDが指定する複数の候補単語ＷCのうち音符図像Ｚの選択数ｍと同数の文字数ｎの候補単語ＷCを抽出して候補リスト８６２に配列する。例えば、図９の例示のように３個（ｍ＝３）の音符図像Ｚが選択された状態では、３文字（ｎ＝ｍ＝３）で構成される複数の候補単語ＷCが選択候補として抽出されて候補リスト８６２に表示される。

候補リスト８６２における候補単語ＷCの選択の確定を指示する操作図像８６４の操作を指示受付部３２が受付けた場合、楽譜画像８０にて選択状態にあるｍ個の音符図像Ｚの各音符の音声符号Ｘ3が、利用者により選択された候補単語ＷCの各文字に変更される。すなわち、選択状態にあるｍ個の音符図像Ｚの各々に、利用者が選択した候補単語ＷCのｎ個（ｎ＝ｍ）の文字が順番に割当てられる。具体的には、表示制御部３４は、編集画像８２の楽譜画像８０における各音符図像Ｚの音声符号Ｘ3（例えば旋律データＱA2が指定する初期的な文字「ら」）を、利用者が選択した候補単語ＷCの各文字に変更し、情報管理部３６は、音楽データＭの各音符の音声符号Ｘ3を、利用者が選択した候補単語ＷCの各文字に変更する。以上の説明から理解される通り、編集画像８１および編集画像８２の各々の楽譜画像８０では、各音符図像Ｚの音声符号Ｘ3も時間軸の方向に直線状に配列される。したがって、音高軸上の広範囲に各音符図像Ｚの音声符号Ｘ3が分布する楽譜画像６２と比較して、利用者が歌詞（音声符号Ｘ3の時系列）を容易に確認できるという利点がある。

利用者は、入力装置２４を適宜に操作することで、編集画像８１または編集画像８２の楽譜画像８０内の任意の音符図像Ｚを選択することが可能である。信号処理部３８は、楽譜画像８０にて利用者が選択した音符図像Ｚに対応する音符の音響信号Ｓを生成して放音装置２６に供給する。具体的には、信号処理部３８は、楽譜画像６２内の音符図像Ｚの選択時と同様に、利用者が選択した音符図像Ｚに対応する音符の音声符号Ｘ3に応じた音声素片を当該音符の音高Ｘ1に調整することで音響信号Ｓを生成する。したがって、楽譜画像６２内の１個の音符図像Ｚの選択毎に、当該音符図像Ｚに対応する音符の歌唱音が順次に再生される。以上の説明から理解される通り、楽譜画像８０では各音符の音高Ｘ1の表示が省略される（したがって楽譜画像８０のみからでは各音符の音高を確認できない）が、楽譜画像８０内の各音符図像Ｚの選択により再生される音響を聴取することで利用者は任意の音符の音高を聴感的に確認することが可能である。

編集画像８１または編集画像８２において歌詞編集の終了を指示する操作図像８０２の操作を指示受付部３２が受付けると、表示制御部３４は、表示装置２２による表示画像を編集画像８１または編集画像８２から編集画像６０に変更する。すなわち、編集画像８１や編集画像８２の楽譜画像８０では時間軸に沿う直線状に配列していた複数の音符図像Ｚが、編集画像６０への変更により、各音符の音高Ｘ1に応じた音高軸上の位置に移動する。なお、編集画像８１または編集画像８２から編集画像６０への変更時に、楽譜画像８０における基準線Ｌ0上から楽譜画像６２における各音符図像Ｚの音高軸上の位置まで各音符図像Ｚが連続的に移動する様子を示す動画像を表示することも可能である。

図９に例示される通り、編集画像６０の操作画像６４は、利用者からの操作を受付ける複数の操作図像（６４２，６４４，６４６，６４８）を含んで構成される。音響信号Ｓの再生を指示する操作図像６４２の操作を指示受付部３２が受付けると、信号処理部３８は、現時点の音楽データＭに応じた音響信号Ｓを生成して放音装置２６に供給する。すなわち、対象楽曲の歌唱音が再生される。したがって、利用者は、対象楽曲を実際に聴取して旋律や歌詞を確認しながら、編集画像８１または編集画像８２に随時に移行して歌詞を編集することが可能である。表示制御部３４は、対象楽曲の再生の進行に連動するように楽譜画像６２内の各音符図像Ｚの時系列を時間軸の方向にスクロールさせる。また、表示制御部３４は、操作図像６４４に対する操作を指示受付部３２が受付けると、楽譜画像６２による表示範囲を対象楽曲の先頭に変更し、操作図像６４６に対する操作を指示受付部３２が受付けると、楽譜画像６２による表示範囲を対象楽曲の末尾に変更する。

操作画像６４の操作図像６４８に対する操作を指示受付部３２が受付けると、表示制御部３４は、図６に例示される通り、表示装置２２による表示画像を編集画像６０から編集画像７０に変更する。編集画像５０の楽譜画像５２や編集画像６０の楽譜画像６２では対象楽曲の一部の音符が表示されるのに対し、編集画像７０は、対象楽曲の全体にわたる複数のフレーズの時系列を利用者が確認するための画面である。

図６に例示される通り、編集画像７０では、編集画像５０にて利用者が選択した複数のフレーズ画像Ｇが時系列に表示される。具体的には、複数のフレーズ画像Ｇが複数行にわたり配列される。すなわち、各行の末尾のフレーズ画像Ｇの直後のフレーズ画像Ｇは、次行の先頭に配置される。表示制御部３４は、記憶装置１４内の系列データＤSが指定する識別情報に対応したフレーズの画像データＱA3を、系列データＤSで指定される順番に配列することで編集画像７０を生成して表示装置２２に表示させる。また、表示制御部３４は、関連データＱA1が指定するフレーズの表示名（フレーズＡ1等）を各フレーズ画像Ｇの近傍に配置する。

利用者は、入力装置２４を適宜に操作することで、編集画像７０の複数のフレーズ画像Ｇのうち所望の１個のフレーズ画像Ｇを選択することが可能である。指示受付部３２は、利用者によるフレーズ画像Ｇの選択を受付ける。表示制御部３４は、入力装置２４の操作面のうち特定のフレーズ画像Ｇに対する操作（例えばタップ操作）を指示受付部３２が受付けた場合に当該フレーズ画像Ｇを選択状態に設定する。表示制御部３４は、図６の編集画像７０に例示される通り、選択状態にあるフレーズ図像Ｇと非選択のフレーズ画像Ｇとを相異なる態様（例えば選択状態のフレーズ画像Ｇの枠線を強調した態様）で表示するとともに、選択状態のフレーズ図像Ｇの近傍に操作図像７２を配置する。

１個のフレーズ画像Ｇが選択状態に設定されると、信号処理部３８は、当該フレーズ画像Ｇに対応するフレーズの音響信号Ｓを生成して放音装置２６に供給する。具体的には、音楽データＭのうち選択状態のフレーズに対応した区間を参照して音声素片データＱCの音声素片を調整および連結するともに伴奏音データＱBを混合することで音響信号Ｓを生成する。また、選択状態にあるフレーズ画像Ｇに対する操作（例えばタップ操作）を指示受付部３２が受付けた場合、表示制御部３４は、表示装置２２による表示画像を編集画像７０から編集画像６０に変更し、選択状態にあるフレーズ画像Ｇに対応するフレーズを楽譜画像６２に表示する。したがって、利用者は、対象楽曲の全体の構成（フレーズの時系列）を編集画像７０で確認しながら、編集画像６０に随時に移行して所望のフレーズの確認や歌詞の編集を実行することが可能である。

利用者は、入力装置２４を利用して操作図像７２を操作することが可能である。操作図像７２は、選択状態にあるフレーズの変更（入替）を指示するための画像である。操作図像７２に対する操作を指示受付部３２が受付けた場合、表示制御部３４は、表示装置２２による表示画像を編集画像７０から編集画像５０に変更し、選択状態にあるフレーズ画像Ｇに対応するフレーズを楽譜画像５２に表示する。そして、選択画像５４の任意の１個のフレーズ画像Ｇの選択を指示受付部３２が受付けると、対象楽曲のうち編集画像７０で選択された１個のフレーズ画像Ｇのフレーズが、選択画像５４で選択されたフレーズ画像Ｇのフレーズに置換される。具体的には、情報管理部３６は、音楽データＭのうち編集画像７０で選択されたフレーズに対応する区間を、選択画像５４で選択されたフレーズの旋律データＱA2に変更し、系列データＤSにフレーズの変更を反映させる。したがって、利用者は、対象楽曲の全体の構成を編集画像７０で確認しながら、随時に編集画像５０に移行して任意のフレーズの各音符の確認やフレーズの変更を実行することが可能である。なお、以上の例示ではフレーズの変更を例示したが、相前後する２個のフレームの間に利用者が選択した任意のフレームを挿入することも可能である。

図６に例示される通り、表示制御部３４は、編集画像７０のうち対象楽曲の末尾のフレーズのフレーズ画像Ｇの直後に操作図像７４を配置する。操作図像７４は、現段階の対象楽曲の末尾に対するフレーズの追加を指示するための画像である。操作図像７４に対する操作を指示受付部３２が受付けた場合、表示制御部３４は、表示装置２２による表示画像を編集画像７０から編集画像５０に変更する。そして、選択画像５４内の任意の１個のフレーズ画像Ｇの選択を指示受付部３２が受付けると、当該フレーズ画像Ｇに対応するフレーズが対象楽曲の末尾に追加される。具体的には、情報管理部３６は、選択画像５４で選択されたフレーズの旋律データＱA2を音楽データＭの末尾に追加し、当該フレーズの識別符号を系列データＤSに追加する。なお、対象楽曲を構成するブロックの総数に上限を設定し、利用者が選択したフレーズの総数がブロックの上限数に到達した場合には操作図像７４を表示しない構成（更なるフレーズの追加を禁止する構成）も採用され得る。

利用者は、入力装置２４を利用して編集画像７０の操作図像７６（ゴミ箱）を操作することが可能である。操作図像７６は、フレーズの削除を指示するための画像である。操作図像７６は、編集画像７０内の何れのフレーズ画像Ｇも選択されていない状態では操作を受付けない無効状態に維持され、編集画像７０内の何れかのフレーズ画像Ｇが選択された場合に操作可能な有効状態に遷移する。有効状態の操作図像７６に対する操作を指示受付部３２が受付けた場合、選択状態にある１個のフレーズ画像Ｇに対応するフレーズ以降の各フレーズが対象楽曲から削除される。具体的には、表示制御部３４は、選択状態にあるフレーズ画像Ｇ以降の各フレーズ画像Ｇを編集画像７０から削除する。また、情報管理部３６は、音楽データＭのうち選択状態のフレーズ以降の区間を削除し、系列データＤSのうち選択状態にあるフレーズ以降の各フレーズの識別符号を削除する。なお、以上の説明では、利用者が選択したフレーズ以降の各フレーズを削除したが、利用者が選択した１個のフレーズのみを対象楽曲から削除する構成（例えば以降の各フレーズを前方に繰上げる構成）も採用され得る。

以上に説明した第１実施形態では、利用者が選択した各フレーズ画像Ｇに対応する複数のフレーズを時系列に配列した楽曲の音楽データＭが生成されるから、対象楽曲を構成する複数の音符の各々を利用者が指定する必要はない。したがって、例えば音楽的な知識が充分でない初心者でも音楽的に適切な対象楽曲を容易に作成できるという利点がある。また、複数の音符で構成される各フレーズの選択で対象楽曲が構成されるから、楽曲の音符を１個ずつ指定する場合と比較して対象楽曲の生成の作業が簡素化されるという利点もある。

第１実施形態では、利用者による選択候補として表示される複数のフレーズ画像ＧがブロックＢ毎に相違する。したがって、例えば音楽的な知識が充分でない初心者でも、対象楽曲の各ブロックにとって好適なフレーズを選択できるという利点がある。また、第１実施形態では、複数の素材データＱのうち利用者が選択した１個の素材データＱが音楽データＭや音響信号Ｓの生成に利用されるから、１種類の素材データＱが固定的に利用される構成と比較して、利用者の意図や嗜好に合致した対象楽曲を容易に生成できるという利点がある。

第１実施形態では、対象楽曲の各音符を表象する複数の音符図像Ｚを時間軸および音高軸のもとで配置した楽譜画像６２を含む編集画像６０と、楽譜画像６２内の複数の音符図像Ｚを時間軸上に沿う直線状に配列した楽譜画像８０を含む編集画像（８１，８２）とが選択的に表示装置２２に表示される。楽譜画像６２では、各音符の音高Ｘ1も含めて対象楽曲の詳細な内容を利用者が確認できる一方、楽譜画像８０では、複数の音符図像Ｚが時間軸の方向に直線状に配列されるから、楽譜画像６２と比較して対象楽曲の各音符の表示に必要な面積が削減されるという利点がある。そして、編集画像（８１，８２）では、楽譜画像６２と比較した楽譜画像８０のサイズの縮小により歌詞編集画像（８４，８６）のサイズが充分に確保される。したがって、歌詞編集画像（８４，８６）の内容の確認や操作が容易化されるという利点がある。他方、第１実施形態では、各音符図像Ｚの時間軸上の位置および表示長は楽譜画像８０でも楽譜画像６２と同様に維持されるから、各音符の発音期間Ｘ2については楽譜画像６２および楽譜画像８０の双方で確認することが可能である。

第１実施形態では、対象楽曲の各音符の音声符号Ｘ3を利用者が任意に指定可能な歌詞編集画像８４と、楽曲の各音符の音声符号を複数の候補単語ＷCから利用者が選択可能な歌詞編集画像８６とが選択的に表示装置２２に表示される。したがって、歌詞編集画像８４における任意の文字の指定で利用者の意図や嗜好を充分に反映した音声符号Ｘ3を設定できるほか、歌詞編集画像８６では、所望の候補単語ＷCの選択により音声符号Ｘ3を容易に設定できる。第１実施形態では特に、利用者が選択した音符図像Ｚの個数（単数／複数）に応じて自動的に歌詞編集画像８４と歌詞編集画像８６とが切替えられるから、対象楽曲の歌詞を編集する利用者の負荷が軽減されるという効果は格別に顕著である。

なお、例えば音符図像Ｚの選択数ｍとは無関係に選択された複数の候補単語ＷCが利用者に提示される構成では、音符図像Ｚの選択数ｍに相当する文字数の候補単語ＷCを利用者が自分で抽出する必要がある。第１実施形態では、音符図像Ｚの選択数ｍと同数の文字で構成される複数の候補単語ＷCが利用者による選択の候補として候補リスト８６２にて表示されるから、音符図像Ｚの選択数ｍとは無関係に複数の候補単語ＷCを利用者に提示する構成と比較して、対象楽曲の歌詞を編集する利用者の負荷が軽減されるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第１実施形態と同様である要素については、第１実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態では、編集画像６０内の楽譜画像６２の各音符図像Ｚを、利用者が入力装置２４を利用して音高軸の方向に移動させることが可能である。例えば、表示制御部３４は、音符図像Ｚに対するロングタップ操作を指示受付部３２が受付けた場合に音符図像Ｚを移動可能な状態に遷移させ、音符図像Ｚに対する音高軸の方向のドラッグ操作を指示受付部３２が受付けた場合に当該音符図像Ｚを音高軸の方向に移動させる。情報管理部３６は、音楽データＭのうち利用者が移動させた音符図像Ｚに対応する音符の音高Ｘ1を、音符図像Ｚの移動方向（高域側／低域側）および移動量に応じて変更する。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、対象楽曲の各フレーズの音符の音高を利用者が変更できるから、利用者の意図や嗜好に合致した多様な対象楽曲を生成できるという利点がある。なお、以上の説明では、編集画像６０の楽譜画像６２に表示された音符図像Ｚの移動を例示したが、編集画像５０の楽譜画像５２に表示された音符図像Ｚを同様に移動させることも可能である。

＜第３実施形態＞
図１０は、第３実施形態における編集画像６０内の楽譜画像６２の各音符図像Ｚの模式図である。第３実施形態では、利用者が入力装置２４の操作（例えばドラッグ操作）で複数の音符図像Ｚを選択する場合に、表示制御部３４が、音符図像Ｚの選択数ｍを表す選択数画像６６を楽譜画像６２に配置する。選択数画像６６は、利用者による音符図像Ｚの選択毎に順次に追加される。具体的には、図１０に例示される通り、利用者が１個の音符図像Ｚを選択した状態では選択数「１」を意味する選択数画像６６が音符図像Ｚの近傍に配置され、利用者が引続き第２個目の音符図像Ｚを選択すると、選択数「２」を意味する選択数画像６６が第２個目の音符図像Ｚの近傍に配置される。また、利用者が第３個目の音符図像Ｚを選択すると、選択数「３」を意味する選択数画像６６が第３個目の音符図像Ｚの近傍に配置される。音符図像Ｚの選択後の動作は第１実施形態と同様である。例えば、歌詞編集画像８６では、音符図像Ｚの選択数ｍと同数の文字で構成される複数の候補単語ＷCが候補リスト８６２に配列される。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、利用者による音符図像Ｚの選択数ｍを表す選択数画像６６が表示装置２２に表示されるから、選択状態にある音符図像Ｚの個数を利用者が容易に確認できるという利点がある。音符図像Ｚの選択数ｍと同数の文字で構成される候補単語ＷCが利用者による選択候補となる前述の構成では、音符図像Ｚの個数を利用者が正確に確認する必要があるから、選択数画像６６を表示する第３実施形態は格別に好適である。また、タッチパネルを入力装置２４として利用する構成では、利用者の指の背後に各音符図像Ｚが隠れ、各音符図像Ｚの選択／非選択を充分に確認できない場合がある。第３実施形態では、音符図像Ｚの選択数を示す選択数画像６６が音符図像Ｚとは別個に表示されるから、音符図像Ｚを充分に視認できない状況でも利用者が音符図像Ｚの選択数ｍを把握できるという利点がある。

＜第４実施形態＞
第１実施形態では、編集画像６０の表示中に対象楽曲の再生が指示（操作図像６４２が操作）された場合に、対象楽曲の音響信号Ｓを再生するとともに再生の進行に連動するように楽譜画像６２内の各音符図像Ｚの時系列を時間軸の方向にスクロールさせた。第４実施形態では、各音符図像Ｚの時間軸の方向のスクロールに加え、対象楽曲の再生に連動して楽譜画像６２内の各音符図像Ｚの時系列を音高軸の方向にもスクロールさせる。

図１１は、対象楽曲の再生中における楽譜画像６２の遷移の説明図である。図１１では、３個の音符図像Ｚ（Ｚ1〜Ｚ3）で表象される旋律が例示されている。楽譜画像６２の複数の音符図像Ｚの時系列のうち再生中の時点が再生点Ｐで指示されるように、複数の音符図像Ｚの時系列は対象楽曲の再生とともに時間軸の方向にスクロールされる。図１１の基準位置Ｒは、表示装置２２の表示面における縦方向（音高軸に平行な方向）の所定の位置である。

図１１に例示される通り、音符図像Ｚ1の音符の再生中（音符図像Ｚ1と再生点Ｐとが時間軸上で重複する期間内）では、当該音符図像Ｚ1が基準位置Ｒに位置するように複数の音符図像Ｚの音高軸の方向の表示位置が選定される。また、音符図像Ｚ2の音符の再生中には音符図像Ｚ2が基準位置Ｒに位置し、音符図像Ｚ3の音符の再生中には音符図像Ｚ3が基準位置Ｒに位置する。以上の説明から理解される通り、再生中の音符の音符図像Ｚが音高軸の方向で基準位置Ｒに位置するように、対象楽曲の再生の進行に連動して各音符図像Ｚが音高軸の方向にスクロールされる。

第４実施形態においても第１実施形態と同様の効果が実現される。また、第４実施形態では、再生中の音符の音符図像Ｚが基準位置Ｒに位置するから、楽譜画像６２内の複数の音符図像Ｚのうち再生中の音符に対応する１個の音符図像Ｚを利用者が容易に把握できるという利点がある。なお、以上の例示では楽譜画像６２を例示したが、楽譜画像５２内の各音符図像Ｚについても同様の構成が採用される。

＜変形例＞
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を適宜に併合することも可能である。

（１）前述の各形態では、編集画像５０の選択画像５４内や編集画像７０内の各フレーズ画像Ｇの近傍にフレーズの表示名を配置したが、フレーズ画像Ｇとともに表示される情報（以下「フレーズ情報」という）はフレーズの表示名に限定されない。例えば、「はじまりのフレーズ」「つなぎのフレーズ」「おわりのフレーズ」等の言葉（楽曲内での各フレーズの音楽的な意義）や、各フレーズのコード進行、フレーズの各音符に設定された音声符号Ｘ3（歌詞）を、フレーズ情報としてフレーズ画像Ｇの近傍に表示する構成も採用され得る。また、前述の各形態では、編集画像５０の選択画像５４内や編集画像７０内の各フレーズ画像Ｇの近傍にフレーズ情報を固定的に表示したが、選択状態にあるフレーズ画像Ｇについてフレーズ情報を一時的に表示（ポップアップ表示）する構成も採用される。

（２）前述の各形態では、１個のフレーズの全体にわたる音符の時系列を表象するフレーズ画像Ｇを例示したが（図４）、フレーズ画像Ｇの内容は以上の例示に限定されない。例えば、１個のフレーズの特定の区間（例えば先頭部分）の音符の時系列を表象するフレーズ画像Ｇを表示することも可能である。また、前述の各形態では、事前に用意された固定の画像をフレーズ画像Ｇとして利用したが、例えば音楽データＭの内容に応じてフレーズ画像Ｇを動的に変更することも可能である。具体的には、第２実施形態の例示のように利用者からの指示に応じて各音符の音高Ｘ1が変更される構成では、各音符の音高Ｘ1の変更がフレーズ画像Ｇに反映される。すなわち、フレーズ画像Ｇの各音符に対応する音符図像Ｚの音高軸上の位置が、当該音符の音高Ｘ1に応じて変更される。

（３）編集画像の表示に利用される画像（例えばアニメキャラクタ等の画像）の画像データ（以下「演出画像データ」という）を素材データＱに包含させることも可能である。具体的には、編集画像５０の楽譜画像５２や編集画像６０の楽譜画像６２において各音符図像Ｚの背景画像が演出画像データで指定される。また、編集画像５０の選択画像５４や編集画像７０に表示される各フレーズ画像Ｇにおける音符図像Ｚの背景画像が演出画像データで指定される。

（４）前述の各形態では、相異なるフレーズに対応する複数の単位データＵが事前に複数のブロックＢに区分された構成を例示したが、各ブロックＢに属する単位データＵを動的に変更することも可能である。具体的には、任意の１個のブロックＢについて利用者が選択したフレーズに応じて直後のブロックＢの選択候補となるフレーズを変化させる構成が採用される。例えば、１個のブロックについて利用者が選択したフレーズに対して音楽的に調和し得るフレーズが直後のブロックにおける選択候補のフレーズとして抽出（絞込）される。また、編集画像５０の選択画像５４における複数のフレーズ画像Ｇの配列の順序を適宜に変更することも可能である。例えば、１個のブロックについて利用者が選択したフレーズに対する音楽的な調和の度合に応じた順序で、直後のブロックのフレーズの選択候補となる複数のフレーズ画像Ｇが選択画像５４に配列される。

（５）編集画像８１または編集画像８２において、楽譜画像８０に表示された音符図像Ｚが各音符の前後の音符の音声符号Ｘ3を表示（例えばポップアップ表示）することも可能である。例えば、図１２に例示される通り、「あるはれたひに（或る晴れた日に）」という歌詞のうち「はれた」に対応する３個の音符の音符図像Ｚを楽譜画像８０に表示した状況を想定する。表示制御部３４は、楽譜画像８０内に表示された音符図像Ｚの音符の直前に位置する各音符の音声符号「ある」を含む補助画像８８と、直後の各音符の音声符号「ひに」を含む補助画像８８とを楽譜画像８０内に表示する。以上の構成によれば、前後の音符の音声符号Ｘ3を各補助画像８８で確認しながら楽譜画像８０内の各音符の音声符号Ｘ3を指定できるという利点がある。なお、補助画像８８で音声符号Ｘ3が表示される音符の範囲は任意である。例えば、前後の所定個の音符にわたる音声符号Ｘ3を補助画像８８で表示する構成や、対象楽曲の全部にわたる音声符号Ｘ3を補助画像８８で表示する構成が採用される。

（６）前述の各形態では、音符図像Ｚの選択数ｍと同数の文字で構成される複数の候補単語ＷCを候補リスト８６２に配列したが、候補リスト８６２に配列される候補単語ＷCの条件は以上の例示に限定されない。例えば、複数の候補単語ＷCのうち各音符の音高Ｘ1の遷移に類似する抑揚で発音される候補単語ＷCを優先的に候補リスト８６２に配置する構成が採用される。具体的には、候補単語ＷCの抑揚のデータを候補単語ＷC毎に候補単語データＱDに設定し、楽譜画像８０にて選択された各音符図像Ｚの音符の音高Ｘ1の遷移に類似する抑揚の候補単語ＷCを優先的に候補リスト８６２に配置する構成が採用される。また、楽譜画像８０にて利用者が選択した各音符図像Ｚの前後の歌詞に関連する候補単語ＷCを優先的に候補リスト８６２に配置することも可能である。過去の文字入力の履歴から利用者が入力する単語を予測する入力予測機能（予測変換機能）が搭載された携帯電話機等の情報処理装置で音響処理装置１００を実現する場合には、利用者による入力の頻度が高い単語を候補単語ＷCとして候補リスト８６２に配列する構成も採用される。また、前述の各形態では、音符図像Ｚの選択数ｍと文字数ｎが共通する１個の候補単語ＷCを抽出して利用者に提示したが、文字数ｎの合計が音符図像Ｚの選択数ｍとなるように複数の候補単語ＷCの組合せを抽出して利用者に提示することも可能である。例えば、利用者が１０個の音符図像Ｚを選択した場合には、６文字の１個の候補単語ＷCと４文字の１個の候補単語ＷCとの組合せや、３文字の２個の候補単語ＷCと４文字の１個の候補単語ＷCとの組合せが利用者に提示される。

（７）複数の音符図像Ｚを楽譜画像８０にて時間軸の方向に直線状に配列することで確保された領域に配置される画像は歌詞編集画像（８４，８６）に限定されない。例えば図１３に例示される通り、歌詞編集画像８４や歌詞編集画像８６に代えて（または歌詞編集画像８４や歌詞編集画像８６とともに）、各音符の制御変数ＸCを利用者が編集するための変数編集画像８９を楽譜画像８０とともに表示装置２２に表示させることも可能である。制御変数ＸCは、音楽データＭにて音符毎に指定され、例えば音響信号Ｓの再生音に付与される音楽的な表情を制御するための変数である。具体的には、発音の強弱（ベロシティ）、音量（ダイナミクス）、発音後の音高の微小変化（ピッチベンド）、ビブラート、音色（例えば明瞭度等）等の変数が制御変数ＸCとして好適である。

図１３に例示された変数編集画像８９は、各音符の制御変数ＸCの時間変化を棒グラフで表現した画像である。変数編集画像８９に対する利用者からの操作を指示受付部３２が受付けると、表示制御部３４は利用者からの指示に応じて変数編集画像８９を更新し、情報管理部３６は利用者からの指示に応じて音楽データＭの制御変数ＸCを更新する。なお、図１３では制御変数ＸCの時間変化を棒グラフで表現したが、制御変数ＸCの時間変化を折線グラフで表現することも可能である。前述の各形態で例示した歌詞編集画像（８４，８６）や図１３に例示した変数編集画像８９は、対象楽曲の各音符の属性（音声符号Ｘ3や制御変数ＸC）を利用者が編集するための画像（属性編集画像）として包括的に表現される。

以上の例示から理解される通り、楽譜画像８０とともに表示される画像の内容は任意である。また、楽譜画像８０とともに特定の画像を表示する構成を想定しなくても、楽譜画像６２の複数の音符図像Ｚを時間軸に沿う直線状に配列するという構成さえ採用すれば、対象楽曲の各音符の表示に必要な面積を削減するという前述の効果は実現される。

（８）編集画像７０の表示態様は以上の例示に限定されない。具体的には、対象楽曲の各フレーズの状態（編集済／未編集）に応じて各フレーズ画像Ｇの表示態様（色彩や形状等の視覚的に知覚可能な性状）を相違させる構成が採用される。例えば、編集画像７０内の複数のフレーズ画像Ｇのうち利用者が各音符の音声符号Ｘ3（歌詞）を変更したフレーズと他のフレーズとでフレーズ画像Ｇの表示態様を相違させる構成が好適である。また、第２実施形態では、利用者が各音符の音高Ｘ1を変更したフレーズと他のフレーズとでフレーズ画像Ｇの表示態様を相違させることも可能である。

編集画像７０に対する所定の操作を指示受付部３２が受付けた場合に信号処理部３８が対象楽曲の音響信号Ｓを生成することも可能である。以上の構成において、表示制御部３４は、音響信号Ｓによる再生中のフレーズと他のフレーズとでフレーズ画像Ｇの表示態様が相違するように、各フレーズ画像Ｇの表示態様を音響信号Ｓの再生の進行とともに順次に変更する。

（９）前述の各形態では、音高軸の方向における各音符図像Ｚの分布範囲を楽譜画像６２と比較して縮小した楽譜画像８０を例示したが（図９）、時間軸の方向における各音符図像Ｚの分布範囲を縮小することも可能である。例えば、図１４に例示される通り、音高軸および時間軸が設定された領域内に複数の音符図像Ｚを配置した楽譜画像６２を想定する。入力装置２４に対する所定の操作（楽譜画像６２の縮小の指示）を指示受付部３２が受付けると、表示制御部３４は、表示装置２２による表示画像を、楽譜画像６２から図１４の楽譜画像９０に変更する。

楽譜画像９０では、音高軸の方向における各音符図像Ｚの位置を維持したまま、時間軸上の各音符図像Ｚの位置を無視して各音符図像を横方向に移動させることで、複数の音符図像Ｚの横方向の分布範囲が楽譜画像６２と比較して縮小される。すなわち、楽譜画像６２から楽譜画像９０への変更で画像の横方向のサイズが縮小される。楽譜画像６２から楽譜画像９０への変更による画像の縮小で確保された領域９２には、例えば、各音符図像Ｚで表象される音符の音響特性を調整するための画像等の各種の画像が表示される。楽譜画像９０では、楽譜画像６２内の各音符図像Ｚが、時間軸上の位置を無視して相互に近接した位置に移動されるから、複数の音符図像Ｚが時間軸上の広範囲に分布する構成と比較して、特定の音高Ｘ1（または音高軸上の範囲）に属する複数の音符図像Ｚを利用者が一括的に選択できるという利点がある。なお、図１４では、各音符図像Ｚが横方向に重複しない楽譜画像９０を例示したが、例えば図１５に例示される通り、音高Ｘ1が共通する複数の音符の音符図像Ｚを相互に重複して表示することも可能である。

（１０）前述の各形態では、信号処理部３８が、複数の音声素片を時間軸上で連結する素片接続型の音声合成で音響信号Ｓを生成する構成を例示したが、音響信号Ｓの生成方法は以上の例示に限定されない。例えば、隠れマルコフモデル等の確率モデルを利用した音声合成で信号処理部３８が音響信号Ｓを生成することも可能である。したがって、素材データＱの音声素片データＱCは省略され得る。また、信号処理部３８による生成対象は歌唱音の音響信号Ｓには限定されない。具体的には、対象楽曲を各種の楽器で演奏した演奏音の音響信号Ｓを生成することも可能である。例えば、信号処理部３８は、楽器の演奏音の時間波形を音楽データＭに応じて時間軸上で相互に連結することで音響信号Ｓを生成する。

（１１）前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意であり、日本語には限定されない。例えば、英語，スペイン語，中国語，韓国語等の任意の言語の音声を生成する場合にも以上の各形態を同様に適用することが可能である。前述の各形態では日本語の歌詞の１文字を１個の音符（音符図像Ｚ）に割当てたが、音声単位（分節単位）と音符との対応関係は以上の例示に限定されず、例えば言語体系に応じて適宜に変更される。例えば、英語の単語“September”を３個の音節“Sep-tem-ber”に区分して３個の音符に割当てることが可能である。複数の音節が１個の音符に割当てられる場合や１個の音節が複数の音符に割当てられる場合もあり得る。

また、前述の各形態では、利用者による音符図像Ｚの選択数ｍと同数の文字で構成される候補単語ＷCを利用者に提示したが、利用者に提示される候補単語ＷCの選定の基準は文字数に限定されず、例えば言語体系等の事情に応じて適宜に変更される。例えば、音符図像Ｚの選択数ｍと同数の音節で構成された候補単語ＷCを利用者に提示することも可能である。以上の説明から理解される通り、選択数ｍと同数の文字で構成される候補単語ＷCを利用者に提示する構成は、選択数ｍに応じた個数の分節単位（典型的には文字や音節）で構成される候補単語ＷCを利用者に提示する構成として包括的に表現される。

１００……音響処理装置、１２……演算処理装置、１４……記憶装置、２２……表示装置、２４……入力装置、２６……放音装置、３２……指示受付部、３４……表示制御部、３６……情報管理部、３８……信号処理部。

Claims

利用者によるフレーズ画像の選択を順次に受付ける指示受付手段と、
前記指示受付手段が利用者による選択を受付けた各フレーズ画像に対応する複数のフレーズを時系列に配列した楽曲の音響信号を生成する信号処理手段と、
第１編集画像と第２編集画像とを利用者からの指示に応じて選択的に表示装置に表示させる表示制御手段とを具備し、
前記第１編集画像は、利用者による選択の候補となる複数のフレーズ画像を配置した選択画像と、時間軸と音高軸とが設定された領域内に、前記指示受付手段が利用者による選択を受付けたフレーズ画像に対応したフレーズの各音符を表象する音符図像を配置した楽譜画像とを含み、
前記第２編集画像は、前記指示受付手段が利用者による選択を受付けた複数のフレーズ画像を時系列に配列した画像である
音響処理装置。
前記表示制御手段は、前記表示装置にフレーズ画像が表示される複数のフレーズの内容が第１ブロックと第２ブロックとで相違するように、時間軸上のブロック毎に前記複数のフレーズ画像を前記表示装置に表示させる
請求項２の音響処理装置。
前記フレーズ画像は、当該フレーズ画像に対応するフレーズのうち少なくとも一部の各音符を表象する音符図像を、時間軸と音高軸とが設定された領域内に配置した画像である
請求項１または請求項２の音響処理装置。
利用者によるフレーズ画像の選択を順次に受付ける指示受付ステップと、
前記指示受付ステップにおいて利用者による選択を受付けた各フレーズ画像に対応する複数のフレーズを時系列に配列した楽曲の音響信号を生成する信号処理ステップと、
第１編集画像と第２編集画像とを利用者からの指示に応じて選択的に表示装置に表示させる表示制御ステップとを含み、
前記第１編集画像は、利用者による選択の候補となる複数のフレーズ画像を配置した選択画像と、時間軸と音高軸とが設定された領域内に、前記指示受付ステップにおいて利用者による選択を受付けたフレーズ画像に対応したフレーズの各音符を表象する音符図像を配置した楽譜画像とを含み、
前記第２編集画像は、前記指示受付ステップにおいて利用者による選択を受付けた複数のフレーズ画像を時系列に配列した画像である
音響処理方法。