JP6114492B2

JP6114492B2 - データ処理装置およびプログラム

Info

Publication number: JP6114492B2
Application number: JP2011242607A
Authority: JP
Inventors: 旬臼井; 泰史神谷
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-05-26
Filing date: 2011-11-04
Publication date: 2017-04-12
Anticipated expiration: 2031-11-04
Also published as: JP2013007988A

Description

本発明は、楽音波形信号から音素材を抽出する技術に関する。

断片的な音素材をデータベースに記憶し、この音素材を組み合わせて楽音を発生させる技術がある。楽音を発生させるときに用いる音素材は、データベースに登録された多数の音素材から選択することになる。特許文献１には、このデータベースに登録する音素材を、楽曲の楽音波形信号から予め決められたアルゴリズムにしたがって抽出することが開示されている。

特開２０１０−１９１３３７号公報

特許文献１に開示された技術によれば、楽曲の楽音波形信号から音素材を抽出し、その音素材の特徴に応じて分類することができるため、音素材のデータベースへの登録が容易になる。音素材のデータベースへの登録が用意になったことにより、より多くの様々な特徴をもつ音素材をデータベースに登録しようと考えることがある。この場合には、同じような音素材ばかりが登録されないように、様々な楽曲の楽音波形信号を用意する必要があった。

本発明は、上述の事情に鑑みてなされたものであり、一の楽音波形信号に基づいて様々な特徴をもつ音素材を抽出することを目的とする。

上述の課題を解決するため、本発明は、発音内容を示す発音データを取得するとともに、当該発音内容を変化させるための加工データを複数取得して、当該発音データに対して当該複数の加工データに基づく複数の加工をする加工手段と、前記複数の加工をされた発音データの発音内容を示す楽音波形信号を解析して、予め決められた特徴を有する楽音波形信号の期間を特定する特定手段と、前記特定された期間の楽音波形信号を解析して特徴量を算出する算出手段と、前記特定された期間の楽音波形信号を示す特定データと前記算出された特徴量を示す特徴量データとを出力するデータ出力手段とを具備し、前記複数の加工データは、発音内容を規定する発音データを含み、前記加工手段は、前記取得した発音データに係る楽音波形信号に対して、前記複数の加工データに含まれる発音データに係る楽音波形信号を合成することにより前記加工をすることを特徴とするデータ処理装置を提供する。

また、別の好ましい態様において、前記複数の加工データは、前記楽音波形信号に付与する音響効果の内容を規定する設定データを含み、前記加工手段は、前記設定データに基づいて、前記取得した発音データに係る前記楽音波形信号に音響効果を付与するように前記加工をすることを特徴とする。

また、別の好ましい態様において、前記特定データは、前記複数の加工をされた発音データに係る楽音波形信号と当該楽音波形信号の前記特定された期間を示す時刻情報とにより、前記特定された期間の楽音波形信号を示し、前記特定手段が複数の期間を特定した場合には、前記特定データは、前記複数の加工をされた発音データに係る楽音波形信号と当該楽音波形信号の前記特定された複数の期間を示す時刻情報とにより、前記特定された複数の期間の楽音波形信号を示し、前記算出手段は、前記特定された期間毎に前記特徴量を算出することを特徴とする。

また、別の好ましい態様において、前記特定データは、前記特定された期間の楽音波形信号を抽出した楽音波形信号を示すことを特徴とする。

また、別の好ましい態様において、前記加工手段は、前記複数の加工データのうち一の加工データをユーザの指示に従って取得することを特徴とする。
また、本発明は、コンピュータを、発音内容を示す発音データを取得するとともに、当該発音内容を変化させるための加工データを複数取得して、当該発音データに対して当該複数の加工データに基づく複数の加工をする加工手段と、前記複数の加工をされた発音データの発音内容を示す楽音波形信号を解析して、予め決められた特徴を有する楽音波形信号の期間を特定する特定手段と、前記特定された期間の楽音波形信号を解析して特徴量を算出する算出手段と、前記特定された期間の楽音波形信号を示す特定データと前記算出された特徴量を示す特徴量データとを出力するデータ出力手段として機能させるためのプログラムであって、前記複数の加工データは、発音内容を規定する発音データを含み、前記加工手段は、前記取得した発音データに係る楽音波形信号に対して、前記複数の加工データに含まれる発音データに係る楽音波形信号を合成することにより前記加工をするプログラムを提供する。

本発明によれば、一の楽音波形信号に基づいて様々な特徴をもつ音素材を抽出することができる。

本発明の実施形態における楽音処理装置の構成を説明するブロック図である。本発明の実施形態における音素材ＤＢの例を説明する図である。本発明の実施形態における特定データにより表される音素材の内容を説明する図である。本発明の実施形態における音素材トラックの例を説明する図である。本発明の実施形態における再生機能の構成を説明するブロック図である。本発明の実施形態における音素材抽出機能および修正機能の構成を説明するブロック図である。本発明の実施形態における再生プログラム実行中の表示の一例を説明する図である。本発明の実施形態における抽出プログラム実行中の表示の一例（分岐位置指定表示）を説明する図である。本発明の実施形態における抽出プログラム実行中の表示の一例（抽出完了表示）を説明する図である。本発明の実施形態における修正プログラム実行中の表示の一例を説明する図である。本発明の変形例５における音素材タイミングデータの例を説明する図である。本発明の変形例６における音素材トラックの例を説明する図である。本発明の変形例６における音素材トラックの別の例を説明する図である。本発明の変形例７における発音制御システムの構成を説明するブロック図である。本発明の変形例７におけるサーバ装置の構成を説明する図である。本発明の変形例７における音素材トラックの例を説明する図である。本発明の変形例７における楽音処理装置およびサーバ装置の機能を説明する機能ブロック図である。本発明の変形例７における音素材トラック作成プログラム実行時の表示画面の表示例を説明する図である。本発明の変形例７における音素材トラック作成プログラム実行時の発音制御システムの動作を説明する図である。本発明の変形例８における音素材トラック作成プログラム実行時の表示画面の表示例を説明する図である。本発明の変形例１７における音素材トラック作成プログラム実行時の表示画面の表示例を説明する図である。本発明の変形例１８における音素材トラック作成プログラムム実行時の表示画面の表示例を説明する図である。

＜実施形態＞
［概要］
本発明の実施形態における楽音処理装置は、パーソナルコンピュータ、携帯電話、ＰＤＡ（Personal Digital Assistant）、タブレット端末などの情報処理装置であり、ＯＳ（Operating System）上で特定のアプリケーションプログラムを実行することにより、ＤＡＷ（Digital Audio Workstation）と呼ばれる機能が実現される装置である。この楽音処理装置において実現されるＤＡＷにおいては、楽音波形信号の一部として抽出される音素材を用いて楽音を発生させるための制御を行う機能も実現される。また、楽音波形信号から音素材を抽出する機能など、以下に説明する各機能も実現される。ＤＡＷを実現するアプリケーションプログラムの実行中においてサブルーチンのプログラムが実行されることにより、これらの各機能が実現される。

［楽音処理装置１０の構成］
図１は、本発明の実施形態における楽音処理装置１０の構成を説明するブロック図である。楽音処理装置１０は、制御部１１、操作部１２、表示部１３、インターフェイス１４、記憶部１５、および音響処理部１６を有する。これらの各構成はバスを介して接続されている。また、楽音処理装置１０は、音響処理部１６に接続されたスピーカ１６１およびマイクロフォン１６２を有する。

制御部１１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）などを有する。制御部１１は、ＲＯＭまたは記憶部１５に記憶された各種プログラムを実行することにより、各種機能を実現する。この例においては、制御部１１によるプログラムの実行には、ＤＡＷを実現するアプリケーションプログラムの実行、上述のサブルーチンのプログラムの実行が含まれる。サブルーチンのプログラムとしては、記憶部１５に記憶された再生プログラム、抽出プログラム、および修正プログラムが含まれる。

再生プログラムは、ＤＡＷにおいて楽音の発音内容を規定するシーケンスデータを再生し、楽音を発音させる処理を行う再生機能を実現するためのプログラムである。抽出プログラムは、再生機能により合成される楽音波形信号から音素材を抽出する音素材抽出機能を実現するためのプログラムである。修正プログラムは、抽出された音素材のデータに修正を加える修正機能を実現するためのプログラムである。これらの機能の詳細については、後述する各機能の構成の説明において述べる。

操作部１２はユーザによる操作を受け付ける操作ボタン、キーボード、マウス、タッチパネルなどの操作手段を有し、それぞれに受け付けられた操作の内容を示す操作データを制御部１１に出力する。これにより、ユーザからの指示が楽音処理装置１０に入力される。
表示部１３は、液晶ディスプレイなどの表示デバイスであり、制御部１１の制御に応じた内容の表示を表示画面１３１に行う。表示画面１３１に表示される内容は、メニュー画面、設定画面などの他、実行されたプログラムによって様々な内容となる（図７、図８、図９、図１０参照）。

インターフェイス１４は、外部装置と接続して有線または無線により通信し、各種データの送受信をする機能を有する。また、インターフェイス１４には、外部装置からオーディオデータが入力されるＡＵＸ（Auxiliary）端子も設けられている。インターフェイス１４は、外部装置から入力された各種データを制御部１１に出力する一方、制御部１１からの制御により、外部装置へ各種データを出力する。なお、ＡＵＸ端子にアナログ信号が入力される場合には、Ａ／Ｄ変換（アナログデジタル変換）が施される。

マイクロフォン１６２は、入力された音の内容を示す楽音波形信号を音響処理部１６に出力する。
音響処理部１６は、ＤＳＰ（Digital Signal Processor）などの信号処理回路などを有する。この例においては、音響処理部１６は、マイクロフォン１６２から入力される楽音波形信号をＡ／Ｄ変換し、オーディオデータとして制御部１１に出力する。また、音響処理部１６は、制御部１１から出力されたオーディオデータを、制御部１１によって設定された音響処理、Ｄ／Ａ変換（デジタルアナログ変換）処理、増幅処理などの信号処理などを施して、楽音波形信号としてスピーカ１６１に出力する。
スピーカ１６１は、音響処理部１６から入力された楽音波形信号が示す音を出力する。

記憶部１５は、ハードディスク、フラッシュメモリなどの不揮発性メモリであって、上記の各種プログラムを記憶する記憶領域を有する。また、記憶部１５は、各種プログラムが実行されているときに用いられるシーケンスデータ、音素材データベース（以下、音素材ＤＢと記す）、波形データベース（以下、波形ＤＢと記す）をそれぞれ記憶する記憶領域を有する。

波形ＤＢは、楽音波形信号を示す波形データＷ１、Ｗ２、・・・が登録されている。これらの波形データが示す楽音波形信号は、楽曲、特定の楽器音、音素材など様々な内容のいずれかであり、その長さについても１秒未満から数分以上まで様々である。また、ループして用いられるものも存在してもよい。ループして用いられる波形データであっても、その一部の区間を用いてループしない波形データとして用いてもよい。なお、この例における波形データについては、複数チャンネル（例えばＬｃｈ、Ｒｃｈ）のデータが含まれている。以下の説明においては、楽音波形信号を示す波形データ、オーディオデータなどの各データは、Ｌｃｈ、Ｒｃｈの２ｃｈにより構成されているものとするが、より多くのチャンネル数で構成されていてもよいし、モノラル（１ｃｈ）で構成されていてもよい。

図２は、本発明の実施形態における音素材ＤＢの例を説明する図である。音素材ＤＢは、音素材の内容を特定する情報が登録されている。図２に示すように、音素材の内容を特定する情報は、音素材の楽音波形信号の内容を特定する特定データ、音素材の楽音波形信号の特徴を示す特徴量データ、この楽音波形信号の特徴により分類されるカテゴリを含む。

特定データは、波形ＤＢに登録された波形データのいずれかを指定する波形指定情報と、その波形データにおけるデータ範囲を時刻で指定する時刻指定情報との組み合わせにより構成されている。この例においては、時刻指定情報によって指定される時刻は、波形データのデータ先頭からの時刻として決められている。ここで、波形指定情報が示す波形データがループして用いられるものである場合には、データ範囲における開始位置の時刻が、終了位置の時刻より後の時刻として示されていてもよい。この場合には、音素材の内容は、開始位置からデータ最後までの区間の楽音波形信号に続いて、データ先頭から終了位置までの区間の楽音波形信号を接続したものとなる。特定データによって特定される音素材については、それぞれを特定するための識別子（この例においては、ｓｎ１、ｓｎ２、・・・）が付されている。以下、特定の音素材を示す場合には、音素材ｓｎ１というように記す。
なお、特定データのうち時刻指定情報が規定されていないものについては、波形指定情報が示す波形データそのものが音素材の楽音の内容を表している。例えば、音素材ｓｎ４が示す楽音ついては、波形データＷ５が示す楽音波形信号全体で表される。

図３は、本発明の実施形態における特定データにより表される音素材の内容を説明する図である。図３（ａ）は、音素材ｓｎ１、ｓｎ２、ｓｎ３が示す楽音の楽音波形信号を説明する図であり、図３（ｂ）は、音素材ｓｎ４が示す楽音の楽音波形信号を説明する図である。図２に示すように、音素材ｓｎ１の内容は、波形指定情報が波形データＷ１であり、時刻指定情報がｔｓ１〜ｔｅ１として特定されている。したがって、音素材ｓｎ１に対応する楽音波形信号は、図３（ａ）に示すように、波形データＷ１が示す楽音波形信号のうち、時刻ｔｓ１〜ｔｅ１の楽音波形信号となる。同様に、音素材ｓｎ２、ｓｎ３にそれぞれ対応する楽音波形信号についても、波形データＷ１が示す楽音波形信号の一部の範囲として特定される。一方、図３（ｂ）に示すように、音素材ｓｎ４が示す楽音波形信号については、時刻指定情報が規定されていないため、波形データＷ５が示す楽音波形信号全体として特定される。以下、音素材ｓｎ１、ｓｎ２、・・・が示す楽音波形信号を表すデータを、音素材データｓｎ１、ｓｎ２、・・・として記す。

図２に戻って説明を続ける。特徴量データは、各音素材の楽音波形信号がもつ複数種類の特徴量ｐ１、ｐ２、・・・を示す。例えば、音素材について、周波数別（高域、中域、低域）のそれぞれの強度、振幅のピークとなる時刻（音素材データの先頭を基準とした時刻）、振幅のピーク強度、協和度、複雑さなどについての特徴量であり、音素材データを解析して得られた値である。例えば、特徴量ｐ１は、その値により音素材の高域の強度を示す。以下、特徴量データは、その特徴量ｐ１、ｐ２、・・・のそれぞれの値の組み合わせによってＰａ、Ｐｂ、・・・というように示す。例えば、音素材ｓｎ３については、特徴量データは各特徴量の組み合わせから決められたＰｃとして示す。

音素材の特徴、すなわち特徴量データの内容により分類されるカテゴリは、聴感上の特徴が似た音素材毎に分類されたものであり、例えば、アタックが明瞭でエッジ感が強い音として分類されるカテゴリ「分類Ａ（例えば、エッジ音）」、ノイズのように聞こえる音として分類されるカテゴリ「分類Ｂ（例えば、テクスチャ音）」などである。
この特徴量、カテゴリについては、例えば、ユーザが、後述する音素材トラックにおいて用いられる音素材を決めるときに、所望の音素材を音素材ＤＢから検索するときに用いられる。例えば、ユーザが特徴量データを入力することにより、制御部１１が特徴量データに類似する音素材を検索し、ユーザに提示したり、ユーザがカテゴリを選択することにより、制御部１１は、そのカテゴリに分類された音素材をユーザに提示したりすればよい。また、ユーザが特定の音素材を指定した場合に、制御部１１が、その音素材に特徴量データが類似する音素材を検索し、ユーザに提示するようにしてもよい。

シーケンスデータは、時系列に発音内容を規定する複数のトラックを有している。各トラックは、この例においては、オーディオトラック、ＭＩＤＩ（Musical Instrument Digital Interface）トラック、音素材トラックのうち、いずれかの種類のトラックが割り当てられている。この各トラックは、本発明の発音データの一態様である。

ＭＩＤＩトラックは、ノートオン、ノートオフ、ノートナンバ、ベロシティなどのＭＩＤＩイベントと、これらのイベントの処理タイミング（例えば、トラックのデータ開始からの小節数、拍数、ティック数などにより表される）との関係を規定するトラックである。このように、ＭＩＤＩトラックは、この例においては、一般的に用いられるＭＩＤＩ形式で規定されているものとするが、イベントに応じた発音内容の楽音波形信号を生成する音源などを制御するための情報が規定されたトラックであれば、他の形式によって規定されていてもよい。

オーディオトラックは、オーディオデータとそのデータの再生開始タイミングが規定されたトラックである。オーディオデータとしては、波形ＤＢに記憶された波形データであってもよいし、別途入力された楽音波形信号を示すデータであってもよい。また、再生開始タイミングは、上記の処理タイミングと同様に、トラックのデータ開始からの小節数、拍数、ティック数により表される。なお、オーディオデータの再生音量を示す情報など他の情報が含まれていてもよい。

図４は、本発明の実施形態における音素材トラックの例を説明する図である。図４に示すように、音素材トラックは、音素材データとそのデータの再生開始タイミングが規定されたトラックである。音素材データは、音素材ＤＢにおいて各音素材の識別子により特定される。また、再生開始タイミングは、上記の処理タイミングと同様に、トラックのデータ開始からの小節数、拍数、ティック数により表される。この例においては、音素材データを再生するときの音量、時間（この例においてはティック数で表される）についても規定されているが、音量、時間については規定されていなくてもよい。
規定される時間は、音素材データのデータ先頭からの時間（規定される時間より短い音素材データについてはループ再生してもよい）として決められたものであってもよいし、タイムストレッチ処理によりこの時間に伸縮するように決められたものであってもよい。時間が規定されていない場合には、音素材データをデータ開始から最後まで再生するようにすればよい。
図４の例に示す場合には、例えば、再生開始タイミング「０００２：０１：０００」（第２小節第１拍に対応）においては、対応する音素材データＳｎ３を再生するように決められている。

図１に戻って説明を続ける。シーケンスデータは、上記トラックの他、各トラックの再生速度を指定するテンポ（１拍の時間を示す値）、各トラックに対して施す音響処理の内容、各トラックから得られる楽音波形信号の合成態様、楽音波形信号を合成した後の音響処理などの各信号処理の内容を規定する設定データを有している。楽音波形信号の合成態様としては、各トラックに基づく楽音波形信号が合成（ミキシング）されて音響処理部１６に出力されるまでの、各楽音波形信号の信号経路の態様、楽音波形信号を合成するときの信号レベルの割合（トラック間、チャンネル間（Ｌｃｈ，Ｒｃｈ））などである。
このシーケンスデータにおける各トラックの内容、設定データの内容は、ユーザによって作成されてもよいし、インターフェイス１４を介して取得するようにしてもよい。
以上が、楽音処理装置１０のハードウエア構成についての説明である。

［再生機能構成］
次に、楽音処理装置１０の制御部１１が再生プログラムを実行することによって実現される再生機能について説明する。なお、以下に説明する再生機能を実現する各構成の一部または全部については、ハードウエアによって実現してもよい。

図５は、本発明の実施形態における再生機能の構成を説明するブロック図である。制御部１１が再生プログラムを実行すると、データ読出部１１０−１、１１０−２、・・・（以下、それぞれを区別しない場合には、データ読出部１１０という）、音源部１２０、音素材データ合成部１３０、音響効果付与部１４０−１、１４０−２、・・・（以下、それぞれを区別しない場合には、音響効果付与部１４０という）、オーディオデータ合成部１５０、合成音響効果付与部１６０、チャンネル変換部１７０、およびバス部１８０を有する再生機能部１００が構成され、再生機能が実現される。

データ読出部１１０−１は、設定データにより規定されたテンポ、およびオーディオトラックに規定されたタイミングにより決まる再生開始タイミングからオーディオデータを読み出して、音響効果付与部１４０−１に出力する。オーディオデータの各部（例えばサンプル単位）を読み出す速度についてもテンポに応じて変化させてもよい。この場合には、タイムストレッチ処理によりオーディオデータの示す楽音波形信号のピッチが変わらないようにする。音響効果付与部１４０−１は、入力されたオーディオデータが示す楽音波形信号に、設定データにより規定された内容の音響効果を付与するように信号処理を施して、信号処理が施されたオーディオデータをオーディオデータ合成部１５０に出力する。

オーディオトラックからオーディオデータ合成部１５０に至る信号ラインには、データ読出部１１０−１によって読み出されて出力されたオーディオデータを取り出すための信号ラインである分岐Ｓ１、音響効果付与部１４０−１によって音響効果が付与された楽音波形信号を示すオーディオデータを取り出すための分岐Ｓ５が設けられている。
なお、オーディオトラックは、１つのトラックにつき、データ読出部１１０−１および音響効果付与部１４０−１の組を有している。したがって、オーディオトラックが複数存在する場合には、データ読出部１１０−１および音響効果付与部１４０−１の組がオーディオトラックの数だけ設けられる。分岐Ｓ１、Ｓ５についてもトラック毎に設けられる。

データ読出部１１０−２は、設定データにより規定されたテンポ、およびＭＩＤＩトラックに規定されたタイミングにより決まる処理タイミングでイベントを読み出して音源部１２０に出力する。音源部１２０は、入力されるＭＩＤＩイベントに応じた発音内容の楽音波形信号を示すオーディオデータを生成するソフトウエア音源である。音源部１２０は、データ読出部１１０−２から入力されたＭＩＤＩイベントに応じて生成したオーディオデータを音響効果付与部１４０−２に出力する。なお、音源部１２０は、外部装置として設けられていてもよく、この場合には、データ読出部１１０−２は、インターフェイス１４を介して外部装置にＭＩＤＩイベントを出力し、音響効果付与部１４０−２は、外部装置において生成されたオーディオデータを、インターフェイス１４を介して取得してもよい。

音響効果付与部１４０−２は、入力されたオーディオデータが示す楽音波形信号に、設定データにより規定された内容の音響効果を付与するように信号処理を施して、信号処理が施されたオーディオデータをオーディオデータ合成部１５０に出力する。

ＭＩＤＩトラックからオーディオデータ合成部１５０に至る信号ラインには、音源部１２０から出力されたオーディオデータを取り出すための信号ラインである分岐Ｓ２、音響効果付与部１４０−２によって音響効果が付与された楽音波形信号を示すオーディオデータを取り出すための分岐Ｓ６が設けられている。
なお、ＭＩＤＩトラックは、１つのトラックにつき、データ読出部１１０−２、音源部１２０および音響効果付与部１４０−２の組を有している。したがって、ＭＩＤＩトラックが複数存在する場合には、データ読出部１１０−２、音源部１２０および音響効果付与部１４０−２の組がＭＩＤＩトラックの数だけ設けられる。分岐Ｓ２、Ｓ６についてもトラック毎に設けられる。なお、音源部１２０は、トラック毎に入力を受け付けて、トラック毎にオーディオデータを出力する構成であれば、複数存在しなくてもよい。

データ読出部１１０−３は、設定データにより規定されたテンポ、および音素材トラックに規定されたタイミングにより決まる再生開始タイミングで、対応する音素材データを読み出して音素材データ合成部１３０に出力する。音素材データ合成部１３０は、データ読出部１１０−３から入力される音素材データが示す楽音波形信号を、入力されたタイミングに応じて時系列に合成して、オーディオデータとして音響効果付与部１４０−３に出力する。

ここで、２つの音素材データが順に入力されるとき、先の音素材データの再生途中において後の音素材データが入力される場合には、先の音素材データが示す楽音波形信号の最後の部分と、後の音素材データが示す楽音波形信号の最初の部分が、同期間に重複する場合がある。このような期間においては、それぞれの楽音波形信号を合成した内容を示すオーディオデータが音素材データ合成部１３０から出力されることになる。
音響効果付与部１４０−３は、入力されたオーディオデータが示す楽音波形信号に、設定データにより規定された内容の音響効果を付与するように信号処理を施して、信号処理が施されたオーディオデータをオーディオデータ合成部１５０に出力する。

音素材トラックからオーディオデータ合成部１５０に至る信号ラインには、音素材データ合成部１３０から出力されたオーディオデータを取り出すための信号ラインである分岐Ｓ３、音響効果付与部１４０−３によって音響効果が付与された楽音波形信号を示すオーディオデータを取り出すための分岐Ｓ７が設けられている。
なお、音素材トラックは、１つのトラックにつき、データ読出部１１０−３、音素材データ合成部１３０および音響効果付与部１４０−３の組を有している。したがって、音素材トラックが複数存在する場合には、データ読出部１１０−３、音素材データ合成部１３０および音響効果付与部１４０−３の組が音素材トラックの数だけ設けられる。分岐Ｓ３、Ｓ６についてもトラック毎に設けられる。

インターフェイス１４のＡＵＸ端子に入力されたオーディオデータは、音響効果付与部１４０−４に出力される。このオーディオデータは、時系列にＡＵＸ端子から入力されるものであるため、上記のデータ読出部に相当する構成については存在しない。音響効果付与部１４０−４は、入力されたオーディオデータが示す楽音波形信号に、設定データにより規定された内容の音響効果を付与するように信号処理を施して、信号処理が施されたオーディオデータをオーディオデータ合成部１５０に出力する。

ＡＵＸ端子からオーディオデータ合成部１５０に至る信号ラインには、ＡＵＸ端子に入力されたオーディオデータを取り出すための信号ラインである分岐Ｓ４、音響効果付与部１４０−４によって音響効果が付与された楽音波形信号を示すオーディオデータを取り出すための分岐Ｓ８が設けられている。
なお、インターフェイス１４に複数のＡＵＸ端子がある場合には、音響効果付与部１４０−４が、各ＡＵＸ端子に対応して設けられる。分岐Ｓ４についてもトラック毎に設けられる。

バス部１８０は、音響効果付与部１４０−１、１４０−２、１４０−３、１４０−４に入力されるオーディオデータ（Ｂ１、Ｂ２、Ｂ３、Ｂ４において分岐）を取り出して、合成して音響効果付与部１４０−５に出力する。合成するときの各オーディオデータの信号レベルについては、設定データに基づいて決められる。音響効果付与部１４０−５は、入力されたオーディオデータが示す楽音波形信号に、設定データにより規定された内容の音響効果を付与するように信号処理を施して、信号処理が施されたオーディオデータをオーディオデータ合成部１５０に出力する。
バス部１８０からオーディオデータ合成部１５０に至る信号ラインには、バス部１８０から出力されたオーディオデータを取り出すための信号ラインである分岐Ｓ１４、音響効果付与部１４０−５によって音響効果が付与された楽音波形信号を示すオーディオデータを取り出すための分岐Ｓ１５が設けられている。

ここで、音響効果付与部１４０に入力されるオーディオデータが、本発明の発音データの一態様である。また、音響効果付与部１４０が、本発明の加工手段の一態様であり、付与する音響効果の内容を規定する設定データが、加工データの一態様である。すなわち、音響効果付与部１４０は、設定データに基づいてオーディオデータを加工する構成である。

オーディオデータ合成部１５０は、入力された各オーディオデータを、設定データの内容に基づいて合成して出力する。具体的には、オーディオデータ合成部１５０は、各オーディオデータが示す楽音波形信号について、トラック間（ＡＵＸ端子、バス部１８０からの出力も含む）の信号レベルの比、同一トラックのチャンネル間（Ｌｃｈ、Ｒｃｈ）の信号レベルの比を調整して、チャンネル毎に合成する。そして、オーディオデータ合成部１５０は、合成した楽音波形信号を示すオーディオデータを、合成音響効果付与部１６０に出力する。なお、図５においては、分岐Ｓ１〜Ｓ８、Ｓ１４、Ｓ１５については、ＬｃｈおよびＲｃｈをまとめた信号ラインとして記載していたが、以下に説明する分岐Ｓ９〜Ｓ１２については、信号ラインをＬｃｈとＲｃｈとに分けて図示している。
ここで、オーディオデータ合成部１５０は、本発明の加工手段の一態様であり、合成前のいずれかのオーディオデータが発音データの一態様であり、他のオーディオデータが加工データの一態様である。すなわち、オーディオデータ合成部１５０は、いずれかのオーディオデータを他のオーディオデータに基づいて加工する構成である。また、合成態様（加工態様）については、上述したように設定データに基づいて決められている。なお、バス部１８０についてもオーディオデータ合成部１５０と同様に、本発明の加工手段の一態様となりうる。

合成音響効果付与部１６０は、入力されたオーディオデータに対して、設定データにより規定された内容の音響効果を付与するように信号処理を施して、チャンネル変換部１７０に出力する。チャンネル変換部１７０は、設定データにより規定されたチャンネル数に変換して音響処理部１６に出力する。この例においては、Ｌｃｈ、Ｒｃｈの楽音波形信号を合成してモノラル化したオーディオデータが出力される場合を図５に示しているが、合成せずにそのまま出力されるようにしてもよいし、よりチャンネル数を増やす処理が施されて出力されるようにしてもよい。このようにチャンネル変換部１７０は、設定データに基づいて、マトリクス処理などを用いてチャンネル数を増減させる機能を有するものであればよい。
ここで、合成音響効果付与部１６０およびチャンネル変換部１７０が、各々本発明の加工手段の一態様であり、付与する音響効果の内容、チャンネル数を規定する設定データが、加工データの一態様である。

オーディオデータ合成部１５０から音響処理部１６に至る信号ラインには、オーディオデータ合成部１５０から出力されるオーディオデータのＬｃｈを取り出すための信号ラインである分岐Ｓ９、Ｒｃｈを取り出すための信号ラインＳ１０が設けられ、合成音響効果付与部１６０によって音響効果が付与されたオーディオデータのＬｃｈを取り出すための信号ラインである分岐Ｓ１１、Ｒｃｈを取り出すための信号ラインＳ１２が設けられ、チャンネル変換部１７０によってモノラル化したオーディオデータを取り出すための信号ラインである分岐Ｓ１３が設けられている。
以上が、再生機能についての説明である。

［音素材抽出機能および修正機能］
次に、楽音処理装置１０の制御部１１が抽出プログラムを実行することによって実現される音素材抽出機能について説明する。また、制御部１１が修正プログラムを実行することによって実現される修正機能についても併せて説明する。なお、以下に説明する音素材抽出機能および修正機能を実現する各構成の一部または全部については、ハードウエアによって実現してもよい。

図６は、本発明の実施形態における音素材抽出機能および修正機能の構成を説明するブロック図である。制御部１１が抽出プログラムを実行すると、選択部２１０、抽出部２２０およびデータ出力部２３０を有する音素材抽出機能部２００が構成され、音素材抽出機能が実現される。また、制御部１１が修正プログラムを実行すると、修正部３００が構成され、修正機能が実現される。

選択部２１０は、分岐Ｓ１、Ｓ２、・・・Ｓ１５のいずれかを選択し、選択した分岐の信号ラインにおけるオーディオデータを取得して抽出部２２０に出力する。いずれを選択するかについては、ユーザによっていずれかが選択されてもよいし、予め決められていてもよい。また、いずれか１つの分岐を選択するのではなく、複数の分岐を選択してもよい。その場合には、選択部２１０は、チャンネル毎に楽音波形信号を合成して出力すればよい。また、分岐Ｓ９、Ｓ１０の組み合わせ、または分岐Ｓ１１、Ｓ１２の組み合わせについては、Ｌｃｈ、Ｒｃｈの関係であるから、一体として選択されるようにしてもよい。一方、分岐Ｓ９のみの選択など、一方のチャンネルについてのみのオーディオデータが選択された場合には、選択部２１０は、出力するオーディオデータについて、他方のチャンネルについては無音としてもよいし、双方のチャンネルともに同じ楽音波形信号としてもよいし、モノラル化してもよい。なお、分岐Ｓ１、Ｓ２、・・・、Ｓ８、Ｓ１４、Ｓ１５については、ＬｃｈおよびＲｃｈをまとめた信号ラインとして説明したが、選択部２１０は、これらの分岐から取得したオーディオデータを抽出部２２０に出力するときには、いずれか一方のチャンネルのみのオーディオデータとしてもよいし、モノラル化したオーディオデータとしてもよい。どのような態様でオーディオデータを出力するかについては、設定データに基づいて決められればよい。

抽出部２２０は、音素材特定部２２１および特徴量算出部２２２を有し、音素材特定部２２１および特徴量算出部２２２の処理により、入力されたオーディオデータから音素材を抽出して、その音素材の特徴量を算出する。そして、抽出部２２０は、オーディオデータが示す楽音波形信号のうち、抽出した音素材に対応する区間を示す情報と、算出した特徴量を示す特徴量データとをデータ出力部２３０に出力する。このとき、抽出に用いたオーディオデータ（抽出部２００に入力されたオーディオデータ）についても出力する。
以下、音素材特定部２２１および特徴量算出部２２２の機能について説明する。

特徴量算出部２２２は、抽出部２２０に入力されたオーディオデータが示す楽音波形信号（以下、抽出元楽音波形信号という）のうち、音素材特定部２２１に指示された区間における特徴量を算出して、算出結果を音素材特定部２２１に出力する。

音素材特定部２２１は、抽出元楽音波形信号から、音量変化が一定以上の変化をするオンセットを検出し、オンセットから予め決められた時間の範囲のうち、様々な区間を特徴量算出部２２２に指示し特徴量を算出させる。音素材特定部２２１は、算出された各区間の特徴量のうち、予め決められた特定の条件を満たす特徴量の区間を、オーディオデータから抽出した音素材に対応する抽出元楽音波形信号における区間として特定する。音素材特定部２２１は、入力されたオーディオデータ全体から、音素材の抽出を行って、音素材に対応する抽出元楽音波形信号における区間を特定していく。なお、このようにオーディオデータから音素材を抽出する方法については公知の方法のいずれも用いること可能であるが、例えば、特開２０１０−１９１３３７号公報に開示された方法を用いればよい。

そして、音素材特定部２２１は、抽出した音素材毎に、それぞれ特定した区間（以下、特定区間という）を示す情報と、この区間に対応して算出された特徴量を示す特徴量データとを出力し、入力されたオーディオデータについても出力する。

データ出力部２３０は、抽出部２２０から入力されたオーディオデータを記憶部１５に出力し、波形データとして波形ＤＢに登録する。また、データ出力部２３０は、登録した波形データを識別する波形指定情報と、特定区間をデータ範囲とした時刻指定情報とを示す特定データ、および特徴量データを記憶部１５に出力し、抽出した音素材毎に音素材ＤＢに登録する。このとき、データ出力部２３０は、登録した特徴量データに応じて分類されるカテゴリについても決定する。

また、データ出力部２３０は、波形ＤＢに登録する場合には、抽出部２２０から入力されたオーディオデータのうち、特定区間の楽音波形信号を切り出したオーディオデータを、波形データとして波形ＤＢに登録する場合もある。この場合には、データ出力部２３０が音素材ＤＢに登録する特定データには時刻指定情報が含まれない。すなわち、特定データは、波形データ全体を音素材として特定することで、音素材の楽音波形信号を示していることになる。

データ出力部２３０による上記２種類の波形ＤＢの登録方法のいずれを適用するかについては、ユーザが予め設定すればよい。この例においては、前者の登録方法（特定区間の楽音波形信号を切り出さない場合）は「ｍｏｄｅ１」、後者の登録方法（特定区間の楽音波形信号を切り出す場合）は「ｍｏｄｅ２」として設定される。なお、この登録方法については、データ出力部２３０が予め決められたアルゴリズムにしたがって設定してもよい。例えば、抽出部２２０において抽出された音素材の数が予め決められた数以上である場合には、「ｍｏｄｅ１」として設定され、当該数未満であれば、「ｍｏｄｅ２」として設定されればよい。

修正部３００は、データ出力部２３０による波形ＤＢおよび音素材ＤＢへの登録前における音素材のデータ範囲（時刻指定情報）について、ユーザの指示に応じて修正する機能を有する。これにより抽出部２２０により抽出された音素材を、ユーザの要求に沿った音素材になるように調整することができる。このとき、特徴量データの内容を変更しなくてもよいし、特徴量データの内容を修正後の音素材から特徴量算出部２２２によって再算出させて更新してもよい。
なお、修正部３００は、既に登録されている音素材のデータ範囲を修正するようにしてもよい。
以上が、音素材抽出機能および修正機能についての説明である。上記各機能構成により、楽音処理装置１０において、本発明のデータ処理装置が実現される。

［各機能の動作例］
続いて、上述した再生プログラム、抽出プログラムおよび修正プログラムが実行されたときの動作例について、表示画面１３１の表示例を参照しながら説明する。
まず、ユーザは、ＤＡＷ上においてシーケンスデータの再生を行う場合に、再生プログラムの実行の指示を、楽音処理装置１０に対して入力し、再生させるシーケンスデータの指示についても入力する。このようにすると、表示画面１３１には、図７に示す内容の表示がなされる。

図７は、本発明の実施形態における再生プログラム実行中の表示の一例を説明する図である。表示画面１３１には、大きく分けてシーケンスデータの内容を示すデータ領域ＴＡ、およびユーザの指示を、ポインタｐｔを用いて楽音処理装置１０に入力するための操作画像領域ＢＡが表示される。

データ領域ＴＡには、シーケンスデータの各トラックの内容を模式的に示した画像が表示され、縦軸方向にトラック、横軸方向に時刻が規定される。データ領域ＴＡに表示される内容はシーケンスデータの一部分であって、ユーザは、縦軸用スクロールバーＶＢＡにおける縦軸タブｖｓｂを操作して縦軸方向の表示範囲を変更し、横軸用スクロールバーＨＢＡにおける横軸タブｈｓｂなどを操作して横軸方向の表示範囲を変更する。この例のシーケンスデータにおいて、トラックはｔｒ１、ｔｒ２、・・・ｔｒ６と６トラックで構成されているものとする。ここでは、ｔｒ１、ｔｒ２がオーディオトラック（図における「ａｕｄｉｏ」）、ｔｒ３、ｔｒ４がＭＩＤＩトラック（図における「ｍｉｄｉ」）、ｔｒ５、ｔｒ６が音素材トラック（図における「ｍｓ」）であるものとする。このトラック数、トラックの種類は、ユーザにより自由に設定可能である。
また、横軸方向のデータ範囲を指定するための範囲指定矢印（開始指定矢印ａｓおよび終了指定矢印ａｅ）が表示され、これらの矢印を移動させることにより、横軸における開始時刻ｔｓｓおよび終了時刻ｔｓｅを設定する。

また、表示画面１３１には、再生のテンポを設定するためのテンポ制御ボタンｂ１、再生開始、停止、早送り、巻き戻しを指定する再生制御ボタンｂ２、範囲指定矢印において指定されたデータ範囲のシーケンスデータから音素材に変換する処理を開始するための変換ボタンｂ３、および、抽出プログラム実行時の設定を行うための設定ボタンｂ４が表示される。
ユーザが再生制御ボタンｂ２を操作して、再生の開始を指示すると、再生機能部１００におけるデータ読出部１１０において、設定されたテンポに基づいて、各データの読み出しが開始される。これにより、再生機能部１００から音響処理部１６に対してオーディオデータが出力され、シーケンスデータに基づく発音内容でスピーカ１６１から出力される。
ユーザが設定ボタンｂ４を操作すると、抽出プログラムが実行され、表示画面１３１には、図８に示す表示がなされる。この表示は、変換において、音素材を抽出するオーディオデータを設定するための内容になっている。

図８は、本発明の実施形態における抽出プログラム実行中の表示の一例（分岐位置指定表示）を説明する図である。図８に示すように、表示画面１３１においては、再生機能部１００における各構成および信号ラインに対応した表示がなされる。トラック表示ｔｍは、音響効果付与部１４０にオーディオデータを出力する構成に対応する部分をトラック毎に示している。バス表示ｂｍは、バス部１８０に対応した部分を示している。音響効果付与表示ｅｔｍは、音響効果付与部１４０に対応した部分をトラック毎に示している。合成部表示ｍｍは、オーディオデータ合成部１５０に対応した部分を示している。合成音響効果付与表示ｅｍｍは、合成音響効果付与部１６０に対応した部分を示している。ｍｏｎｏ表示ｃｍは、チャンネル変換部１７０に対応した部分を示している。

また、各構成の表示に対応する間の線は信号ラインに対応し、線に設けられた丸印である分岐表示ｂｔ１、ｂｔ２、・・・ｂｔ５は、分岐Ｓ１、Ｓ２、・・・Ｓ１５に対応する。なお、この例において、オーディオトラックがｔｒ１、ｔｒ２の２つのトラックから構成されているため、分岐Ｓ１、Ｓ５は、それぞれのトラックに対応して設けられている。ＭＩＤＩトラック、音素材トラックについても同様である。ユーザの操作により分岐表示の部分を選択すると、表示が白丸から黒丸に変更され、その部分の信号ラインにおけるオーディオデータが音素材の抽出対象として設定される。図５に示す例においては、分岐Ｓ１３に対応する部分の信号ラインにおけるオーディオデータが、音素材の抽出対象として設定された場合を示している。なお、ユーザは複数の分岐表示を選択してもよい。

また、表示画面１３１には、データ出力部２３０におけるデータベースの登録態様を設定するためのモード選択ボタンｂｍについても表示される。ユーザは「ｍｏｄｅ１」または「ｍｏｄｅ２」の一方を選択することにより、データ出力部２３０における登録態様が設定される。この例においては、「ｍｏｄｅ１」が設定されている状態を示している。
ユーザが決定ボタンｂ５を操作すると、これらの設定を終了し、表示画面１３１の表示は、図７に示す表示に戻る。

続いて、ユーザは、範囲指定矢印を操作して、抽出対象となるオーディオデータの期間を設定する。全範囲とする場合には範囲の設定は不要である。
上記設定が終了し、ユーザが変換ボタンｂ３を操作すると、ユーザにより設定された内容にしたがって、音素材抽出機能部２００における処理が開始される。この例においては、音素材抽出機能部２００において、再生機能部１００に対して、範囲指定矢印により指定された期間のオーディオデータのうち、分岐Ｓ１３の信号ラインにおけるオーディオデータを生成させ、選択部２１０で受け取る。そして、抽出部２２０において音素材を抽出する。抽出が終了すると、表示画面１３１には、図９に示すように、抽出完了表示がなされる。

なお、選択部２１０においてオーディオデータを受け取るときには、再生機能部１００において、そのオーディオデータを生成すればよいから、必ずしも音響処理部１６に対してオーディオデータの出力はされなくてもよい。また、ＡＵＸ端子からオーディオデータの入力がある場合（入力の有無はユーザによって予め設定されればよい）には、再生機能部１００において、範囲指定矢印により指定された期間のオーディオデータを音響処理部１６に出力し、その期間にＡＵＸ端子から入力されたオーディオデータがオーディオデータ合成部１５０において合成されるようにすればよい。

図９は、本発明の実施形態における抽出プログラム実行中の表示の一例（抽出完了表示）を説明する図である。図９に示すように、表示画面１３１には、選択部２１０で受け取ったオーディオデータが示す抽出元楽音波形信号ｗｖ、抽出した音素材の期間（特定区間）を示す表示（この図における音素材ｓｎａ、ｓｎｂ、ｓｎｃ、ｓｎｄ）、各音素材に対応した特徴量データから分類されるカテゴリを示す表示（この図におけるアイコンｉｃａ、ｉｃｂ、ｉｃｃ、ｉｃｄ）が表示される。また、特定区間を修正するための修正ボタンｂ６、抽出した音素材をデータベースに登録するための登録ボタンｂ７についても、表示画面１３１に表示される。

ユーザは、音素材に対応する部分（例えばアイコンｉｃａ、ｉｃｂ、ｉｃｃ、ｉｃｄ）を、ポインタｐｔを用いて操作すると、対応する音素材の楽音波形信号が示す音が、制御部１１の制御によってスピーカ１６１から出力されるようになっている。
ユーザがスピーカ１６１から出力された音を試聴して、音素材の特定区間について修正する必要がない場合など、ユーザによって登録ボタンｂ７が操作されると、データ出力部２３０は、選択部２１０が受け取ったオーディオデータを波形ＤＢに登録する一方、抽出した音素材毎に特定データおよび特徴量データを音素材ＤＢに登録する。
一方、ユーザが音素材の特定区間について修正したいと考えた場合など、ユーザによって修正ボタンｂ６が操作された場合には、修正プログラムが実行され、表示画面１３１には、図１０に示す表示がなされる。

図１０は、本発明の実施形態における修正プログラム実行中の表示の一例を説明する図である。図１０に示すように、表示画面１３１には、最後に試聴した音素材の部分が拡大表示される。この例においては、最後に試聴した音素材は、音素材ｓｎｂであったものとする。また、音素材に対応する楽音波形信号の期間（特定区間）を調整するための範囲指定矢印（開始指定矢印ａｓおよび終了指定矢印ａｅ）が表示される。
その他、範囲指定矢印によって指定された期間の楽音波形信号が示す音を試聴するための試聴ボタンｂ８、範囲指定矢印によって指定された期間の楽音波形信号を音素材に対応する楽音波形信号として確定させる確定ボタンｂ９が表示画面１３１に表示される。

ユーザは、範囲指定矢印を操作して楽音波形信号の期間を調整し、試聴ボタンｂ８を操作して試聴する行為を繰り返すことにより、所望の音素材になるように楽音波形信号の期間を指定する。図１０においては、開始時刻ｔｓｂ、終了時刻ｔｅｂとして規定される期間の楽音波形信号に対応する音素材ｓｎｂ１が指定されたものとする。そして、ユーザは、確定ボタンｂ９を操作すると、抽出された音素材ｓｎｂが、ユーザによって指定された音素材ｓｎｂ１に修正される。

そして、上述したとおり、ユーザによって登録ボタンｂ７が操作されると、選択部２１０が受け取ったオーディオデータを波形ＤＢに登録する一方、抽出した音素材毎に特定データおよび特徴量データを音素材ＤＢに登録する。このとき、修正された音素材については、修正後の音素材に対応する特定データが音素材ＤＢに登録される。特徴量データについては、修正前に算出された特徴量を示すものであってもよいし、修正後の音素材が示す楽音波形信号について特徴量算出部２２２が再計算した特徴量を示すものであってもよい。いずれにするかは、ユーザの指示に応じて決定されればよい。
このようにして音素材に対応する楽音波形信号の開始時刻をずらすことにより、音の立ち上がり感を調整したり、終了時刻をずらすことにより残響感を調整したりすることができる。
以上が、再生プログラム、抽出プログラム、修正プログラムが実行されたときの動作例の説明である。

このように、本発明の実施形態における楽音処理装置１０は、一のトラックに基づいて出力されるオーディオデータが示す楽音波形信号から音素材を抽出するだけでなく、このオーディオデータを加工して得られる楽音波形信号から音素材を抽出する。そのため、加工態様を変えることで抽出元楽音波形信号を変化させることにより、様々な音素材を抽出することができる。ここでいうオーディオデータの加工とは、上述したとおり、様々な態様で実現される。この楽音処理装置１０においては、オーディオデータが示す楽音波形信号に対して音響効果を付与する信号処理を施す態様、オーディオデータに対して他のオーディオデータを合成する態様、およびオーディオデータのチャンネル数を変換する態様で、オーディオデータを加工して得られる楽音波形信号から、音素材を抽出することができる。

＜変形例＞
以上、本発明の実施形態について説明したが、本発明は以下のように、様々な態様で実施可能である。
［変形例１］
上述した実施形態において、加工態様として一のトラックのオーディオデータに対して他のオーディオデータを合成する態様については、双方のオーディオデータともに、音響効果付与部１４０によって音響効果が付与された楽音波形信号を示すオーディオデータであったが、音響効果が付与されていない楽音波形信号を示すオーディオデータであってもよい。
すなわち、音素材が抽出される対象として選択可能なオーディオデータには、一のトラックから得られるオーディオデータに対して、上述した加工態様のうち、少なくともいずれかの態様によって加工したものが含まれていればよい。この場合には、楽音処理装置１０は、ユーザの指示によって、いずれかの加工態様が選択できるように構成されていてもよい。選択された内容は設定データなどにより規定されるようにすればよい。

［変形例２］
上述した実施形態においては、本発明のデータ処理装置は、再生機能、音素材抽出機能、および修正機能の各機能構成により実現されていたが、修正機能の構成については有していなくてもよい。

［変形例３］
上述した実施形態において、本発明のデータ処理装置は、ＤＡＷを実現する楽音処理装置１０に適用されたものであるが、デジタルミキサ、アナログミキサなどにおいて適用されてもよい。この場合には、音素材抽出機能を有するデータ処理装置は、ミキサによりオーディオデータの加工をすることになる。そして、データ処理装置は、ミキサの各信号ラインにおけるオーディオデータを取得し、このオーディオデータから音素材を抽出し、データベースに登録するようにすればよい。この場合には、オーディオデータの加工を行う再生機能としてはミキサの機能により代替されるため、データ処理装置は、再生機能を実現しない構成であってもよい。このように、データ処理装置は、オーディオデータを加工する機能を実現する構成と、音素材抽出機能を実現する構成とを有していれば、どのような装置にも適用可能である。

［変形例４］
上述した実施形態においては、データ出力部２３０は、特定データなどを出力してデータベースに登録していたが、必ずしもデータベースに登録される態様でなくてもよい。例えば、データ出力部２３０から出力される特定データなどは、インターフェイス１４から外部装置に出力されるようにしてもよい。

［変形例５］
上述した実施形態において、データ出力部２３０は、音素材ＤＢへの音素材の登録に伴い、登録した音素材とその発音タイミングとを規定する音素材トラックに相当するデータ（音素材タイミングデータ）を出力して記憶部１５に記憶するようにしてもよい。すなわち、１つの波形データの抽出元楽音波形信号から抽出された音素材の識別子と、音素材に対応する特定区間の開始時刻を示す情報とを対応付けたデータを記憶部１５に記憶すればよい。

図１１は、本発明の変形例５における音素材タイミングデータの例を説明する図である。音素材タイミングデータは、音素材トラックにおける再生開始タイミングおよび音素材Ｎｏ．の部分に対応するのデータである。再生開始タイミングは、小節数、拍数、ティック数などの相対的な時刻として表される一方、特定区間の始まりの時刻は、楽音波形信号の先頭から経過時間に対応する絶対的な時刻である。そのため、データ出力部２３０は、予め決められたテンポ（例えば、テンポ＝１２０（１拍０．５秒））を基準とすることによって、絶対的な時刻から相対的な時刻に変換して、音素材タイミングデータとして記憶する。なお、再生開始タイミングは、絶対的な時刻で表されていてもよく、この場合には上記のような変換は不要である。
このようにして記憶された音素材タイミングデータは、再生機能によって上記テンポで再生されると、抽出元楽音波形信号のうち、抽出された音素材部分が発音され、それ以外の部分がミュートされたような発音内容としてスピーカ１６１から出力されることになる。

なお、データ出力部２３０は、音素材タイミングデータの形式ではなく、音素材トラックの形式で出力して記憶部１５に記憶するようにしてもよい。この場合には、音量、時間については、予め決められた値が決定されてもよいし、音素材の内容に応じて決定されてもよい。例えば、音量については、音素材に対応する楽音波形信号の信号レベルに応じて決定されればよい。時間については、音素材に対応する楽音波形信号の長さに応じて決定されればよい。
また、データ出力部２３０は、音素材ＤＢに登録される形式において、各音素材に対して再生開始タイミングが対応付けられたデータとして出力して記憶部１５に記憶するようにしてもよい。

［変形例６］
上述した実施形態において、音素材トラックは、発音させる音素材を、その識別子によって規定するものであったが、特徴量データによって規定するものであってもよい。

図１２は、本発明の変形例６における音素材トラックの例を説明する図である。図１２に示すように、この例における音素材トラックは、図４に示す実施形態の場合の音素材の識別子を示す部分が、特徴量データを示す部分となっている。この場合、再生機能におけるデータ読出部１１０−３は、音素材トラックから特徴量データを読み出して、この特徴量データに類似する特徴量データを音素材ＤＢから検索して特定する。そして、データ読出部１１０−３は、特定した特徴量データに対応する音素材データを、音素材トラックにより規定された再生開始タイミングで、音素材データ合成部１３０に出力すればよい。
なお、複数種類の音素材ＤＢが記憶部１５に記憶されている場合には、データ読出し部１１０−３が音素材データを特定するための検索対象とする音素材ＤＢについても、時系列に音素材トラックに規定されるようにしてもよい。この構成については、後述する変形例７以降において詳細を説明する。

また、音素材トラックは、さらに別の態様によっても規定され得る。例えば、音素材の識別子により楽音波形信号を規定する代わりに、シーケンスデータにおける各トラック（この例においてはオーディオトラック、ＭＩＤＩトラック）と、そのトラックに基づいて生成されるオーディオデータのデータ範囲との組み合わせにより楽音波形信号を規定するようにしてもよい。

図１３は、本発明の変形例６における音素材トラックの別の例を説明する図である。図１３に示すように、この例における音素材トラックは、図４に示す実施形態の場合の音素材の識別子を示す部分が、トラックを指定する部分（指定トラック）とデータ範囲を指定する部分となっている。指定トラックは、トラックの番号を示している。図１３に示す例においては、ｔｒ１、ｔｒ２が示されているが、実施形態の動作例を用いて説明すれば、これらのトラックはともにオーディオトラックを示している。なお、ｔｒ３、ｔｒ４であればＭＩＤＩトラックとなる。
また、データ範囲は、音素材ＤＢにおけるデータ範囲と同様に、時刻指定情報により規定される。この場合の時刻指定情報は、指定トラックに基づいて生成されるオーディオデータのデータ先頭からの時刻として決められている。なお、データ範囲は、予め決められたテンポ（例えば、テンポ＝１２０（１拍０．５秒））で再生された場合を基準として規定されていてもよいし、設定データにより規定されたテンポで再生された場合を基準として規定されていてもよい。

この音素材トラックにおいて指定トラックがオーディオトラックである場合、データ読出部１１０−３は、指定トラックに基づいてデータ読出部１１０−１から出力されるオーディオデータ（分岐Ｂ１から出力されるオーディオデータ）のうちデータ範囲が示すオーディオデータに相当する部分を、音素材データとして出力する。このように音素材データとして出力される部分については、データ読出部１１０−３は、実際のシーケンスデータの再生に先立って、データ読出部１１０−１から取得しておけばよい。例えば、シーケンスデータの再生前に、予めデータ読出部１１０−１を動作させて、データ範囲におけるオーディオデータを出力させればよい。

指定トラックがＭＩＤＩトラックである場合には、データ読出部１１０−３は、指定トラックに基づいて音源部１２０から出力されるオーディオデータ（分岐Ｂ２から出力されるオーディオデータ）のうちデータ範囲が示すオーディオデータに相当する部分を、音素材データとして出力する。このように音素材データとして出力される部分については、データ読出部１１０−３は、実際のシーケンスデータの再生に先立って、音源部１２０から取得しておけばよい。例えば、シーケンスデータの再生前に、予めデータ読出部１１０−２および音源部１２０を動作させて、データ範囲におけるオーディオデータを出力させればよい。

［変形例７］
上述した変形例６の説明にて述べた、複数種類の音素材ＤＢが記憶部１５に記憶されている場合には、データ読出し部１１０−３が音素材データを特定するための検索対象とする音素材ＤＢについても、時系列に音素材トラックに規定されるようにしてもよいとした例について、詳細に説明する。ここでは、これらの処理が楽音処理装置１０においてのみ行われる場合ではなく、複数の装置間のやり取りを含んで行われる場合について説明する。

図１４は、本発明の変形例７における発音制御システム１の構成を説明するブロック図である。発音制御システム１は、インターネットなどの通信回線１０００を介して接続される楽音処理装置１０Ａおよびサーバ装置５０を有する。
楽音処理装置１０Ａは、上述した実施形態に示した楽音処理装置１０と概ね同じ構成を有している。楽音処理装置１０Ａのインターフェイス１４は、さらに、通信回線１０００を介してサーバ装置５０と各種情報のやり取りを行う通信部としても機能する。また、楽音処理装置１０Ａの記憶部１５には音素材ＤＢおよび波形ＤＢは記憶されていなくてもよく、この例では、これらのＤＢはサーバ装置５０において記憶されている。また、楽音処理装置１０Ａの記憶部１５には、制御部１１において実行される音素材トラック作成プログラムを記憶している。音素材トラック作成プログラムは、本変形例における音素材トラックを作成するためのプログラムである。

図１５は、本発明の変形例７におけるサーバ装置５０の構成を説明する図である。サーバ装置５０は、制御部５１、通信部５４および記憶部５５を有する。これらの各構成は、バスを介して接続されている。
制御部５１は、ＣＰＵ、ＲＡＭ、ＲＯＭなどを有する。制御部５１は、ＲＯＭまたは記憶部５５に記憶された各種プログラムを実行することにより、各種機能を実現する。この例においては、制御部５１は、楽音処理装置１０Ａからの指示により、検索プログラムを実行する。検索プログラムが実行されると、楽音処理装置１０Ａからの指示に応じて、記憶部５５の音素材ＤＢを検索して、特定した音素材データを楽音処理装置１０Ａに送信する機能を実現する。この機能の詳細については別途説明する。

通信部５４は、制御部５１の制御に応じて、通信回線１０００と接続して、楽音処理装置１０Ａなどの通信装置と情報のやりとりを行う。制御部５１は、通信部５４を介して取得した情報を用いて、記憶部５５に記憶された情報を更新するようにしてもよい。また、通信部５４は、通信回線１０００を介した通信に限らず、有線または無線により外部装置と接続可能に構成されたインターフェイスを有していてもよい。

記憶部５５は、ハードディスク、不揮発性メモリなどであり、音素材ＤＢ、波形ＤＢをそれぞれ記憶する記憶領域の他、上述した検索プログラムなどの各種プログラムを記憶する記憶領域を有する。波形ＤＢは上述したように楽音処理装置１０の記憶部１５に記憶されていた波形ＤＢと同様であるから説明を省略する。
音素材ＤＢは、複数の音素材ＤＢ（音素材ＤＢａ、ＤＢｂ，・・・）から構成されている。以下、それぞれを特に区別せずに説明する場合には、音素材ＤＢという。音素材ＤＢのそれぞれは、登録された音素材データは異なるものの、データベースの構成としては、上述した楽音処理装置１０の記憶部１５に記憶されていた音素材ＤＢと同様であるから説明を省略する。なお、音素材ＤＢについては、予め記憶部５５に記憶されているが、通信部５４を介して外部装置から取得することにより、新たな種類の音素材ＤＢがさらに記憶されるようにしてもよい。

図１６は、本発明の変形例７における音素材トラックの例を説明する図である。この例における音素材トラックは、特徴量指定データ（図１６（ａ））およびＤＢ指定データ（図１６（ｂ））により構成される。特徴量指定データは、発音タイミングを示す再生時刻、そのタイミングに発音させたい音素材データに相当する特徴量データ、発音の音量および時間が対応付けられている。図１６（ａ）の例によれば、再生時刻「０００２：０１：０００」（第２小節第１拍に対応）においては、特徴量データＰｉに基づく音を、音量「２０」、発音時間「１２０」で発音させることが示されている。なお、後述するように、発音される特徴量データＰｉに基づく音は、特徴量データＰｉの音素材データが示す音素材とは限らず、類似する音のいずれかとなる。
ＤＢ指定データは、特徴量指定データによって示される特徴量データを用いて、サーバ装置５０において音素材データを特定するときの検索対象となる音素材ＤＢの種類を再生時刻の範囲として設定されたデータである。図１６（ｂ）の例によれば、再生時刻「０００１：０１：０００」から「０００１：０３：９５９」までは、検索対象となるデータベースは音素材ＤＢａであることを示している。

次に、楽音処理装置１０Ａの制御部１１が音素材トラック作成プログラムを実行し、それに伴いサーバ装置５０の制御部５１が検索プログラムを実行することによって実現される機能について説明する。なお、以下に説明する機能を実現する各構成の一部または全部については、ハードウエアによって実現してもよい。

図１７は、本発明の変形例７における楽音処理装置１０Ａおよびサーバ装置５０の機能を説明する機能ブロック図である。制御部１１が音素材トラック作成プログラムを実行すると、表示制御部３１０、設定部３２０、発音制御部３３０およびデータ出力部３４０を構成する。この例においては楽音処理装置１０Ａは、表示制御部３１０、設定部３２０および発音制御部３３０が構成されることにより発音制御装置として機能する。また、制御部５１が検索プログラムを実行すると、特定部５１０を構成する。この例においてはサーバ装置５０は、特定部５１０が構成されることにより特定装置として機能する。
表示制御部３１０は、ユーザによって入力される指示に応じて、表示画面１３１の表示内容を制御する。この場合、表示画面１３１には、図１８に示すような内容が表示される。

図１８は、本発明の変形例７における音素材トラック作成プログラム実行時の表示画面１３１の表示例を説明する図である。表示画面１３１には、大きく分けてアイコン配置領域ＳＴおよびＤＢ配置領域ＤＴが表示される。アイコン配置領域ＳＴおよびＤＢ配置領域ＤＴは、横軸を共通の時間軸として決められている。拍子線ＢＬは、１拍ごとの位置を示す補助線である。また、アイコン配置領域ＳＴは、縦軸が発音の音量を規定する音量軸である。なお、アイコン画像の位置に関係なく音量が規定されるものとすれば音量軸はなくてもよい。

アイコン画像ｓ１、ｓ２、・・・は、特徴量データが対応付けられた画像である。アイコン画像ｓ１、ｓ２、・・・がアイコン配置領域ＳＴに配置されることにより、アイコン画像左端の時間軸に沿った方向の位置に応じて、それぞれ対応した特徴量データに基づく音の発音タイミングが規定される。また、アイコン画像下端の音量軸に沿った方向の位置に応じて、その音量が規定される。アイコン画像ｓ１、ｓ２、・・・の絵柄の種類は、対応付けられた特徴量データが分類されるカテゴリ（分類Ａ、Ｂ、・・・）ごとに異なるように決められている。例えば、アイコン画像ｓ１に対応する特徴量データとアイコン画像ｓ２に対応する特徴量データとは異なるカテゴリに分類されるものであり、アイコン画像ｓ２に対応する特徴量データとアイコン画像ｓ４に対応する特徴量データとは同じカテゴリに分類されるものである。なお、アイコン画像の絵柄は、カテゴリに応じて異なったものでなくてもよい。すなわち、全て同じ絵柄であってもよいし、別のパラメータに応じて異なる絵柄になるように制御されてもよい。

ＤＢ画像ｄ１、ｄ２、・・・は、音素材ＤＢの種類が対応付けられた画像である。ＤＢ画像ｄ１、ｄ２、・・・が、ＤＢ配置領域ＤＴに配置され、ＤＢ画像の左端から右端の時間軸に沿った方向の位置に応じて、そのＤＢ画像に対応する音素材ＤＢがサーバ装置５０における検索対象として適用される期間が規定される。例えば、音素材ＤＢａは、時刻ｔ０から時刻ｔ２までが検索対象として適用され、音素材ＤＢｃは、時刻ｔ１から時刻ｔ３までが検索対象として適用される。すなわち、時刻ｔ１から時刻ｔ２までは、音素材ＤＢａと音素材ＤＢｃとの双方が検索対象として適用される。

また、表示画面１３１には、再生テンポを設定するためのテンポ制御ボタンｂ１１、アイコン配置領域のアイコン画像の配置態様に基づいて、音素材トラックをオーディオデータに変換するための指示を行うための変換指示ボタンｂ１２、変換により生成されたオーディオデータを発音させるための再生指示ボタンｂ１３が表示される。このテンポ制御ボタンｂ１１は、上述したテンポ制御ボタンｂ１と同様の機能を有している。また、作成した音素材トラックを記憶部１５に記憶させるための決定ボタンｂ１４が表示されていてもよい。

図１７に戻って説明を続ける。設定部３２０は、ユーザによって入力された指示に応じて、時間軸に沿って音素材ＤＢの種類を設定する。この例においては、設定部３２０は、設定内容を表示制御部３１０に出力して、図１８に示すように表示画面にＤＢ画像を表示させる。なお、設定部３２０は、表示制御部３１０への出力をせずに、ＤＢ画像が表示画面１３１に表示されないようにしてもよい。この場合には、ＤＢ配置領域ＤＴは不要である。すなわち、音素材ＤＢの種類がアイコン配置領域ＳＴと同じ時間軸に沿って設定されていれば、その設定内容が表示画面１３１に表示されていても表示されていなくてもよい。

表示制御部３１０および設定部３２０は、アイコン画像の配置態様、音素材ＤＢの種類の設定態様に応じて音素材トラックを生成する。ここで、表示制御部３１０は、音素材トラックのうち、特徴量指定データを生成し、設定部３２０は、音素材トラックのうちＤＢ指定データを生成する。音素材トラックは、アイコン画像が配置されたり、音素材ＤＢの設定が行われたりする度に内容が決定されるようにしてもよいし、変換指示ボタンｂ１２が操作されたときに決定されるようにしてもよい。上述した保存ボタンｂ１４が表示画面１３１に表示されている場合には、ユーザによって保存ボタンｂ１４が操作が操作されると、ここで生成された音素材トラックが記憶部１５に保存される。

発音制御部３３０は、ユーザによって変換指示ボタンｂ１２が操作されると、サーバ装置５０に対して、生成された音素材トラックの一部または全部を通信部１４を介して送信し、サーバ装置５０の制御部５１に検索プログラムを起動、実行させる。音素材トラックの一部とは、少なくとも、特徴量データと、その特徴量データに対して時間軸において対応関係にある音素材ＤＢの種類（種類情報）とを対応付けた部分のデータである。そして、発音制御部３３０は、サーバ装置５０から音素材データをインターフェイス１４を介して受信して、受信した音素材データおよび音素材トラックに基づいて、データ出力部３４０からオーディオデータを出力させる。具体的には、発音制御部３３０は、音素材トラックの特徴量指定データを参照して、アイコン画像に対応する音素材データを音量に応じてレベルを変化させる加工をし、再生時刻に応じたタイミングでオーディオデータとして出力させる。データ出力部３４０は、発音制御部３３０の制御に応じてオーディオデータを出力する。

特定部５１０は、発音制御部３３０から送信された音素材トラックに基づく情報を通信部５４を介して受信し、記憶部５５に記憶された音素材ＤＢのうち、受信した情報が示す検索対象となる種類の音素材ＤＢを検索し、音素材トラックに含まれる各特徴量データのそれぞれに対して、類似する特徴量データをもつ音素材データを特定する。この例においては、特定部５１０は、特徴量データを複数の特徴量により構成されるベクトル量として取り扱い、検索対象となる種類の音素材ＤＢを参照してユークリッド距離が最も短くなる特徴量データをもつ音素材データを特定する。
なお、類似度を判断するためのアルゴリズムについては、公知の他のアルゴリズムを用いてもよい。また、ユークリッド距離が最も短くなるものでなくてもよく、２番目、３番目に近いものを特定してもよい。このような特定を行うために必要な情報は、予めユーザなどにより設定されていればよい。また、特定される音素材データは、音素材トラックに含まれる特徴量データに対して、特徴量データが類似関係にあるものでなくてもよく、予め決められた特定の関係にあればよい。また、検索対象については、検索対象となる種類の音素材ＤＢとするだけなく、さらに、カテゴリにより絞りこまれてもよい。この場合には、検索対象となるカテゴリは、例えばユーザによって指示されたものであってもよいし、音素材トラックに含まれる特徴量データと同じカテゴリまたは関連するカテゴリであってもよい。ここで、関連するカテゴリは、予め設定されたアルゴリズムに従って決められてもよいし、予め関連するカテゴリ同士が設定されていてもよい。

そして、特定部５１０は、特定した素材データを通信部５４を介して発音制御部３３０に送信する。なお、上述の通り、この例においては、通信部５４は、音素材トラックに基づく情報を受信することにより取得する取得手段、および特定された素材データを送信することにより出力する出力手段として機能する。
以上が機能構成についての説明である。続いて、音素材トラック作成プログラム実行時の発音制御システム１における動作について図１９を用いて説明する。

図１９は、本発明の変形例７における音素材トラック作成プログラム実行時の発音制御システム１の動作を説明する図である。ここでは、楽音処理装置１０Ａは、ユーザから音素材トラック作成プログラムの実行の指示が入力された後の処理を説明する。音素材トラック作成プログラムが実行されると、表示画面１３１には、図１８に示すように、アイコン配置領域ＳＴ、ＤＢ配置領域ＤＴなどの表示がなされる。この段階においては、アイコン画像およびＤＢ画像は表示されていないものとする。

ユーザは、特徴量データの内容を決定する指示、決定した内容により決まる絵柄のアイコン画像をアイコン配置領域ＳＴに配置する指示、ＤＢ画像をＤＢ配置領域ＤＴに配置する指示を入力することにより、楽音を発生させるためのシーケンスを作成する（ステップＳ１１０）。その結果、表示画面１３１には、図１８に示す内容で表示されたものとする。この状態で生成されている音素材トラックは、例えば、図１６に示す内容となる。この場合、アイコン画像ｓ３、ｓ４、ｓ５に対応する特徴量データは、Ｐｈ、Ｐｉ、Ｐｊとなる。

ユーザは、変換指示ボタンｂ１２を操作することにより変換指示（ステップＳ１２０）を入力すると、楽音処理装置１０Ａは、発音制御部３３０によりサーバ装置５０に音素材トラックを送信する（ステップＳ１３０）。送信される音素材トラックは、上述したように、全ての情報でなくてもよく、特徴量データと、その特徴量データに対して時間軸において対応関係にある音素材ＤＢの種類とを対応付けた部分を有したデータであればよい。

サーバ装置５０は、このデータを受信すると、検索プログラムを実行し、特定部５１０により音素材ＤＢを検索して音素材データを特定する（ステップＳ１４０）。例えば、アイコン画像ｓ３に対応する特徴量データＰｉについては、時間軸において対応関係にある音素材ＤＢの種類となる音素材ＤＢｃを検索して、特徴量データＰｉに類似する特徴量データをもつ音素材データを楽音処理装置１０Ａに送信する（ステップＳ１５０）。このとき、サーバ装置５０は、特定した音素材データがどの特徴量データに対応したものであるかが識別できるようにして送信する。

楽音処理装置１０Ａは、これらのデータを受信が完了するとその旨をユーザに通知する。ユーザは、再生指示ボタンｂ１３を操作することにより再生指示を入力（ステップＳ１６０）すると、発音制御部３３０によりデータ出力部３４０を制御させる。発音制御部３３０は、音素材トラックのうち特徴量指定データを参照して、受信した音素材データの音量を調整して、対応する特徴量データの再生時刻にしたがってオーディオデータとしてデータ出力部３４０から出力（ステップＳ１７０）させ、スピーカ１６１から発音させる。
ユーザは、スピーカ１６１からの発音を聴き、所望の音になっている場合には、決定ボタンｂ１４を操作して、音素材トラックを記憶部１５に記憶させる。

このようにして、ユーザが作成したシーケンスにしたがって、楽音処理装置１０Ａからオーディオデータが出力される。ここで、検索対象となる音素材ＤＢの種類は、ＤＢ指定データによって規定されている。したがって、ユーザは、ＤＢ指定データを変更するだけで検索対象となる音素材ＤＢの種類が変更されるから、特徴量指定データの内容が変更されていなくても、特定部５１０において特定される音素材データも変化する。したがって、ユーザの再生指示により発音される内容も変化することになる。このとき、音素材データは変化したとしても、特徴量データが変わるわけではないから、音素材データの音が全く違うものに変化せず、大体の場合は同じカテゴリに分類されているものから特定される。したがって、音素材ＤＢの種類が、例えば、楽曲のジャンル（ジャズ、ロックなど）に応じたものとなっている場合には、ユーザはＤＢ指定データを変更するだけでも、同じような発音内容（楽音のパターンなど）を維持したまま、ジャズであったりロックであったりと印象を変更することができる。
なお、実施形態におけるデータ読込部１１０−３および音素材データ合成部１３０（図５参照）は、変形例７の構成が適用された場合には発音制御部３３０の機能と同様にしてオーディオデータを出力するようにすればよい。また、データ読込部１１０−３および音素材データ合成部１３０は、データ出力部３４０から出力されたオーディオデータを記憶部１５に記憶しておきオーディオトラックと同様に扱って処理するようにしてもよい。

［変形例８］
上述した変形例７において、ユーザによって入力された指示に応じて、アイコン配置領域ＳＴに表示されるアイコン画像が時間軸方向に伸縮可能に構成されてもよい。

図２０は、本発明の変形例８における音素材トラック作成プログラム実行時の表示画面の表示例を説明する図である。表示制御部３１０は、表示画面１３１に表示されたアイコン画像の長さを、ユーザによって入力された指示に応じて時間軸に沿った方向に変化させる。例えば、図１８に示すアイコン画像ｓ４を、図２０に示すアイコン画像ｓ４１のように、時間軸に沿った方向に伸長させる。この場合には、発音制御部３３０は、このアイコン画像ｓ４１に対応する音素材データを出力部３４０から出力させるときに、アイコン画像ｓ４１の時間軸に沿った方向の長さに応じて、タイムストレッチ処理（音素材データの波形を伸ばす処理）、ループ処理（音素材データを繰り返して出力させる処理）などを施すことにより加工し、データ出力部３４０からオーディオデータとして出力させてもよい。この場合、音素材トラックにおいてアイコン画像に対応して決められている時間が変更される。なお、シーケンス情報として発音終了のタイミング、ループ再生のフラグなど必要な情報が追加されてもよい。
なお、図１８に示すアイコン画像は、すべて同じ大きさであり、本変形例での処理により時間軸に沿った方向に伸縮させていたが、伸縮させる前の状態であっても、音素材トラックにおけるそのアイコン画像に対応して決められている時間に応じた長さで表示されてもよい。

［変形例９］
上述した変形例７においては、アイコン配置領域ＳＴの縦軸は音量を示す座標軸（音量軸）であったが、例えば、ピッチ、音長などを示す座標軸（以下、指定座標軸という）としてもよい。すなわち、アイコン配置領域ＳＴは、音素材データの音量以外の他の加工内容を指定する指定値を示す指定座標軸をもっていてもよい。ピッチを示す指定座標軸とした場合には、発音制御部３３０は、音素材データのピッチを、アイコン画像の指定座標軸における位置に応じて変更してデータ出力部３４０からオーディオデータとして出力させればよい。音長を示す指定座標軸とした場合には、発音制御部３３０は、アイコン画像の指定座標軸に於ける位置に応じて、タイムストレッチ処理（音素材データの波形を伸ばす処理）、ループ処理（音素材データを繰り返して出力させる処理）などを施すことにより加工し、データ出力部３４０からオーディオデータとして出力させればよい。
また、指定座標軸によって指定される加工内容は、音量、ピッチなど複数種類にわたってもよく、この場合には、ユーザによって入力された指示に応じて、指定座標軸の種類を切り替えて、アイコン画像を配置可能なものとしてもよい。このように切り替え可能な指定座標軸をもつアイコン配置領域ＳＴにアイコン画像を配置させることにより、音素材データを様々に加工してもよい。

［変形例１０］
上述した変形例７においては、アイコン配置領域ＳＴの縦軸は音素材データの加工内容を指定する指定座標軸であったが、特定部５１０において音素材データを特定するための特定値を示す座標軸（以下、特定座標軸という）としてもよい。この場合には、特定部５１０は、音素材データを特定するときに、アイコン画像の特定座標軸における位置に応じて特定すればよい。例えば、特定値が類似度に関するものであれば、アイコン配置領域ＳＴの上方にアイコン画像が位置するほど、特定部５１０において特定される音素材データが類似度が低い（特徴量データ間のユークリッド距離が長い）ものが特定されるようにすればよい。
なお、類似度についてはユーザが指定するのではなく、例えば、ユーザが所定の操作（ランダムボタンの操作など）をすることにより、全てのアイコン画像または予め指定されたアイコン画像に対応する類似度が予め決められたアルゴリズム（例えばランダム）に従って指定されるようにしてもよい。

また、特定値の内容は複数種類にわたってもよく、この場合には、ユーザによって入力された指示に応じて、アイコン配置領域ＳＴにおける特定座標軸と変形例９における指定座標軸とを切り替えて、アイコン画像を配置可能なものとしてもよい。他の種類の例としては、例えば、アイコン画像に対応する特徴量データを変化させて分類させるカテゴリを変化させるものであってもよい。

［変形例１１］
上述した変形例７において、図１９に示すステップＳ１７０の処理、すなわち、音素材トラック作成プログラムの実行時にデータ出力部３４０から出力されるオーディオデータは、発音制御部３３０が、アイコン画像の時間軸における位置に応じたタイミングで音素材データを出力することにより実現していたが、出力期間全体の発音内容を示すデータとして発音制御部３３０によって生成された後、データ出力部３４０から出力されるようにしてもよい。発音制御部３３０は、生成されたオーディオデータを記憶部１５に出力して記憶させるようにしてもよい。また、オーディオデータとして記憶させる場合に限らず、音素材トラックと音素材データとの組み合わせなど、オーディオデータを生成するために必要な複数種類のデータで記憶させれるようにしてもよい。各種データを記憶させる指示については、ユーザによって入力されるようにすればよい。

また、このようなオーディオデータに基づく発音は、楽音処理装置１０Ａのスピーカ１６１から出力されていたが、楽音処理装置１０Ａに接続される外部のスピーカ装置から出力されるようにしてもよいし、サーバ装置５０から出力されるようにしてもよい。すなわち、発音制御部３３０は、音を出力する何らかの装置から発音されるように、オーディオデータを出力させるように、楽音処理装置１０Ａの構成のみならず接続される各構成を制御すればよい。

［変形例１２］
上述した変形例７においては、音素材トラック作成プログラム実行時に表示画面１３１に表示されるアイコン画像、ＤＢ画像などはプログラム上において生成しているが、これらの画像は、予め記憶部１５、５５などに記憶されていてもよい。

［変形例１３］
上述した変形例７においては、アイコン配置領域ＳＴに表示されるアイコン画像に対応する特徴量データの内容は、ユーザが入力した指示に応じて決定していたが、ユーザは、アイコン画像の絵柄（またはカテゴリ）を選択することにより、この絵柄に対応するカテゴリの予め決められた代表値を特徴量データとして決定するようにしてもよい。

［変形例１４］
上述した変形例７において、ＤＢ指定データの内容は、ユーザがＤＢ配置領域ＤＴにＤＢ画像を配置することにより決定されていたが、予め決められたアルゴリズムにしたがって、再生時刻範囲と音素材ＤＢの種類との関係を、制御部１１が自動的に決定するようにしてもよい。

［変形例１５］
上述した変形例７において、ＤＢ指定データの内容として音素材ＤＢの種類の指定がされていない再生時刻範囲が存在する場合には、指定されていない再生時刻範囲においては、予め決められた音素材ＤＢの種類（全ての種類、一部の特定の種類など）が検索対象として指定されてもよいし、その範囲の直前に指定されていた種類を指定してもよい。

［変形例１６］
上述した実施形態においては、音素材ＤＢのデータ範囲に応じて、適時波形ＤＢから音素材データを取得しているが、あらかじめ切出し済みの区間の音素材データだけを保持しておいても良い。その場合、音素材ＤＢにデータ範囲の情報は不要である。

［変形例１７］
上述した変形例７において、ユーザが音素材データ（特定データ）のデータ範囲を調整できるようにしてもよい。

図２１は、本発明の変形例１７における音素材トラック作成プログラム実行時の表示画面の表示例を説明する図である。図２１は、変形例７において説明した図１８において、ユーザがアイコン画像ｓ３に対して所定の操作（ダブルクリック操作など）をしたときにの表示内容を示している。図２１に示すポップアップウインドウＰＷは、ユーザの操作に応じて表示され、その内容がアイコン画像ｓ３に対応する波形を拡大したものとなっている。ここで、アイコン画像ｓ３に対応する波形とは、再生時にアイコン画像ｓ３に対応して発音される音の波形である。ユーザはポップアップウインドウＰＷにおいて波形の範囲を変更することにより、時間軸方向の長さを調整することができる。

［変形例１８］
上述した変形例７において、ＤＢ配置領域ＤＴには、音素材ＤＢの種類が対応付けられたＤＢ画像が表示されていたが、音素材ＤＢの種類とその検索対象となる時刻の範囲とは別々に表示されていてもよい。

図２２は、本発明の変形例１８における音素材トラック作成プログラム実行時の表示画面の表示例を説明する図である。この例においては、ＤＢ配置領域ＤＴは、指定される音素材ＤＢが各行に分割されて表示される。各行には、指定された音素材ＤＢが検索対象となる時刻の範囲を示すＤＢ期間指定画像ｄ１ａ、ｄ２ａ、・・・が配置される。ＤＢ配置領域ＤＴの左側には、各行に対応した音素材ＤＢの種類を指定するためのＤＢ種類指定領域ＤＭが表示されている。ユーザは、ポップアップメニューなどにより、各行に対応する音素材ＤＢの種類を変更できるようになっている。

図２２に示す例では、音素材ＤＢａ、ＤＢｂ、ＤＢｃ指定され、例えば、音素材ＤＢａについては、ＤＢ期間指定画像ｄ１ａが指定する時刻の範囲において検索対象となる。図２２における表示は、図１８とは異なる表示であるが、音素材ＤＢの種類およびその検索対象となる時刻の範囲は同じである。
なお、ＤＢ種類指定領域ＤＭの左側に表示されているチェックボックスＣＢにより、対応する行において指定された検索対象を有効とするか無効とするかを指定する事ができるようにしてもよい。このチェックボックスＣＢは、図１８に示す表示において用いられてもよい。

［変形例１９］
上述した変形例７において、図１８に示す表示におけるアイコン画像は、ユーザの指示に応じて決定された特徴量データに応じて配置されていた。ユーザが特徴量データを指示するときに、所望の特徴量データを音素材ＤＢから検索するようにしてもよい。このときには、例えば、特開２０１１−１６３１７１号公報に開示された方法を用いればよい。また、このときの検索対象の音素材ＤＢの種類については、図２２に示したチェックボックスＣＢにおいて指定された音素材ＤＢとしてもよい。なお、ユーザがこのようにアイコン画像に対応する特徴量データを指示する場合には、図１８に示す表示の一部に、特徴量データの指示をするための表示を行うようにすればよい。また、アイコン画像に対して所定の操作（ダブルクリック操作など）をしたときにポップアップウインドウなどを表示させて、そのアイコン画像に対応する特徴量データを指示できるようにしてもよい。

［変形例２０］
上述した変形例７での図１８に示す表示において、音素材ＤＢの種類、およびその検索対象となる時刻の範囲については、ユーザが指定していたが、例えば、ユーザが所定の操作（ランダムボタンの操作など）をすることにより、予め決められたアルゴリズム（例えばランダム）に従って指定されるようにしてもよい。また、図８に示すように予め音素材ＤＢの種類、およびその検索対象となる時刻の範囲が決められている場合には、いずれかのＤＢ画像を指定して、指定されたＤＢ画像に対して予め決められたアルゴリズム（例えばランダム）に従って、音素材ＤＢの種類、時刻の範囲が変更されるようにしてもよい。さらには、データベースのランダム選択で、ＤＢ配置領域ＤＴ自体をアクティブ（音素材ＤＢを選択する機能が生きている状態）にして音素材ＤＢを選択可能にしたり、非アクティブ（音素材ＤＢを選択する機能が生きていない状態)にして特定の音素材ＤＢのみを適用したりすることもランダムに行えるようにしてもよい。さらには、ＤＢ配置領域ＤＴにおいて選択されている音素材ＤＢをアクティブ（選択されている音素材ＤＢを検索対象とする状態）にしたり、非アクティブ（選択されている音素材ＤＢを検索対象としない状態）にしたりすることもランダムに行えるようにしてもよい。このとき、アクティブな音素材ＤＢに対応するＤＢ画像は色つきのままとして、非アクティブな音素材ＤＢに対応するＤＢ画像はグレーアウトするなど、表示が変更されている音素材ＤＢについてアクティブか非アクティブか認識できるようにするとよい。

［変形例２１］
上述した変形例７での図１８に示す表示において、アイコン画像に該当する音がない場合には、アイコン画像をグレーアウトさせてもよい。該当する音がないとは、例えば、そのアイコン画像に対応する時刻を範囲とする音素材ＤＢ（検索対象となる音素材ＤＢ）が決められていない場合、アイコン画像に対応する特徴量データに基づいて特定部５１０により特定される音素材データが存在しない場合などがある。特定部５１０により特定される音素材データが存在しないとは、例えば、アイコン画像に対応する特徴量データに最も類似する音素材データが、しきい値として予め決められた類似度よりも類似していない場合、またカテゴリにより検索対象が絞り込まれる構成であるときに検索対象の音素材ＤＢにそのカテゴリが含まれていない場合などがある。

［変形例２２］
上述した変形例７においては、発音制御システム１は、通信回線１０００を介して接続された楽音処理装置１０Ａとサーバ装置５０とにより構成されていたが、一体の装置として構成され、通信回線１０００を介していない構成としてもよい。また、別体の装置であっても、楽音処理装置１０Ａにおける各構成の一部がサーバ装置５０の構成に含まれていてもよいし、逆に、サーバ装置５０の各構成の一部が楽音処理装置１０Ａの構成に含まれていてもよい。また、楽音処理装置１０Ａの記憶部１５に記憶されている各種情報、およびサーバ装置５０の記憶部５５に記憶されている各種情報は、発音制御システム１全体としていずれかの記憶部において記憶されていればよく、楽音処理装置１０Ａおよびサーバ装置５０以外に、これらの情報の全部または一部を記憶する記憶装置が通信回線１０００に接続されていてもよい。また、これらの情報は、通信回線１０００に接続可能な他の楽音処理装置１０Ａと共有することにより、他のユーザが使用できるようにしてもよい。
組み合わせとしては、例えば、音素材ＤＢはサーバ装置５０の記憶部５５に記憶されている一方、楽音処理装置１０Ａにおいて、記憶部１５に波形ＤＢが記憶され、特定部５１０の機能が実現されてもよい。さらには、検索プログラムおよび抽出プログラムの実行は楽音処理装置１０Ａで実行してもよいし、楽音処理装置１０Ａから得た情報をもとにサーバ装置５０で実行するようにしてもよい。

［変形例２３］
上述した実施形態における各プログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータ読み取り可能な記録媒体に記憶した状態で提供し得る。また、楽音処理装置１０は、各プログラムをネットワーク経由でダウンロードしてもよい。

１…発音制御システム、１０，１０Ａ…楽音処理装置、１１…制御部、１２…操作部、１３…表示部、１３１…表示画面、１４…インターフェイス、１５…記憶部、１６…音響処理部、１６１…スピーカ、１６２…マイクロフォン、１００…再生機能部、１１０−１，１１０−２，１１０−３…データ読出部、１２０…音源部、１３０…音素材データ合成部、１４０−１，１４０−２，１４０−３，１４０−４…音響効果付与部、１５０…オーディオデータ合成部、１６０…合成音響効果付与部、１７０…チャンネル変換部、１８０…バス部、２００…音素材抽出機能部、２１０…選択部、２２０…抽出部、２２１…音素材特定部、２２２…特徴量算出部、２３０…データ出力部、３００…修正部、３１０…表示制御部、３２０…設定部、３３０…発音制御部、３４０…データ出力部、５１０…特定部、１０００…通信回線

Claims

発音内容を示す発音データを取得するとともに、当該発音内容を変化させるための加工データを複数取得して、当該発音データに対して当該複数の加工データに基づく複数の加工をする加工手段と、
前記複数の加工をされた発音データの発音内容を示す楽音波形信号を解析して、予め決められた特徴を有する楽音波形信号の期間を特定する特定手段と、
前記特定された期間の楽音波形信号を解析して特徴量を算出する算出手段と、
前記特定された期間の楽音波形信号を示す特定データと前記算出された特徴量を示す特徴量データとを出力するデータ出力手段と
を具備し、
前記複数の加工データは、発音内容を規定する発音データを含み、
前記加工手段は、前記取得した発音データに係る楽音波形信号に対して、前記複数の加工データに含まれる発音データに係る楽音波形信号を合成することにより前記加工をする
ことを特徴とするデータ処理装置。
前記複数の加工データは、前記楽音波形信号に付与する音響効果の内容を規定する設定データを含み、
前記加工手段は、前記設定データに基づいて、前記取得した発音データに係る前記楽音波形信号に音響効果を付与するように前記加工をする
ことを特徴とする請求項１に記載のデータ処理装置。
前記特定データは、前記複数の加工をされた発音データに係る楽音波形信号と当該楽音波形信号の前記特定された期間を示す時刻情報とにより、前記特定された期間の楽音波形信号を示し、
前記特定手段が複数の期間を特定した場合には、
前記特定データは、前記複数の加工をされた発音データに係る楽音波形信号と当該楽音波形信号の前記特定された複数の期間を示す時刻情報とにより、前記特定された複数の期間の楽音波形信号を示し、
前記算出手段は、前記特定された期間毎に前記特徴量を算出する
ことを特徴とする請求項１又は２に記載のデータ処理装置。
前記特定データは、前記特定された期間の楽音波形信号を抽出した楽音波形信号を示す
ことを特徴とする請求項１又は２に記載のデータ処理装置。
前記加工手段は、前記複数の加工データのうち一の加工データをユーザの指示に従って取得する
ことを特徴とする請求項１乃至請求項４のいずれか１項に記載のデータ処理装置。
コンピュータを、
発音内容を示す発音データを取得するとともに、当該発音内容を変化させるための加工データを複数取得して、当該発音データに対して当該複数の加工データに基づく複数の加工をする加工手段と、
前記複数の加工をされた発音データの発音内容を示す楽音波形信号を解析して、予め決められた特徴を有する楽音波形信号の期間を特定する特定手段と、
前記特定された期間の楽音波形信号を解析して特徴量を算出する算出手段と、
前記特定された期間の楽音波形信号を示す特定データと前記算出された特徴量を示す特徴量データとを出力するデータ出力手段
として機能させるためのプログラムであって、
前記複数の加工データは、発音内容を規定する発音データを含み、
前記加工手段は、前記取得した発音データに係る楽音波形信号に対して、前記複数の加工データに含まれる発音データに係る楽音波形信号を合成することにより前記加工をする
プログラム。