JP2013068975A

JP2013068975A - 楽曲処理装置、およびプログラム

Info

Publication number: JP2013068975A
Application number: JP2013008329A
Authority: JP
Inventors: Norihiro Uemura; 教裕植村; Jun Usui; 旬臼井; Yasushi Kamiya; 泰史神谷; Keita Arimoto; 慶太有元; Janer Jordi; ジャネジョルディ; Haro Martin; アロマルティン; Gerard Roa; ロマジェラルド
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-01-21
Filing date: 2013-01-21
Publication date: 2013-04-18
Anticipated expiration: 2029-02-20
Also published as: JP5573975B2

Abstract

【課題】新たな楽曲の素材となる音声素片を音楽的な特徴で選択することができるようにする。
【解決手段】各々が音響的な特徴を示す音響的特徴量が複数種算出された、複数の音声素片を記憶した楽音処理装置に、複数種の前記音響的特徴量から新たな特徴量を生成し、当該新たな特徴量に基づいて、前記複数の音声素片から一部の音声素片を選択する素片選択手段と、前記素片選択手段により選択された音声素片をユーザに提示する提示手段と、を設ける。
【選択図】図２

Description

本発明は、複数の音声素片から新たな楽曲を生成することを支援する技術に関する。

例えばディスクジョッキ（ＤＪ）は、複数の楽曲を途切れなく連結しながら次々に再生する。特許文献１には、このような楽曲再生を実現する技術が開示されている。同文献の技術においては、複数の楽曲の各々を拍単位で複数の音声素片に区分し、それら音声素片から好みのものを選択してつなぎ合わせることで新たな楽曲の生成を実現している。

特開２００８−１２９１３５号公報

上記のようにして生成される音声素片のうちから所望のものをユーザに選択させる場合、例えばアタックが明瞭でエッジ感の強いもの（以下、このような音声素片を「エッジ」と呼ぶ）や、ノイズのように聴こえダスティーな感じの強いもの（以下、「ダスト」と呼ぶ）、といった具合に聴感などの音楽的な特徴を手掛かりに所望の音声素片を選択できると便利である。このようなことを実現するためには、複数の音声素片の各々を試聴し音楽的な特徴でエッジやダストなどのカテゴリに分類しておく必要があるが、このような分類作業には多大な手間を要する。また、楽曲を拍単位で区分して音声素片を生成する態様では、エッジ感の強い区間やダスティーな感じの強い区間が拍を跨ぐようなものである場合、その拍を境に音声素片が切り出されることとなり、そのような音声素片にアタック感やダスティーな感じが反映されているとは限らない。つまり、拍単位で切り出される音声素片は、音楽的な特徴でのカテゴリ分類という観点からは扱い難いといった問題がある。
本発明は上記課題に鑑みて為されたものであり、新たな楽曲の素材となる音声素片を、音楽的な特徴で選択することができるようにする技術を提供することを目的する。

上記課題を解決するため本発明は、各々が音響的な特徴を示す音響的特徴量が複数種算出された、複数の音声素片について、複数種の前記音響的特徴量から新たな特徴量を生成し、当該新たな特徴量に基づいて、前記複数の音声素片から一部の音声素片を選択する素片選択手段と、前記素片選択手段により選択された音声素片をユーザに提示する提示手段と、を有することを特徴とする楽曲処理装置、またはコンピュータを上記各手段として機能させることを特徴とするプログラムを提供する。

このような楽曲処理装置およびプログラムによれば、複数種の音響的特徴量を用いて生成された新たな特徴量に基づいて複数の音声素片のうちから選択された音声素片がユーザに提示される。より好ましい態様においては、上記新たな特徴量として音声素片を分類する際のカテゴリの特徴を顕著に示す特徴量をカテゴリ毎に生成する態様が考えられる。このような態様によれば、カテゴリ毎にそのカテゴリの特徴が顕著に表れている音声素片を選択してユーザに提示することが可能になる。

例えば、ダストらしさを表すダストネスを上記新たな特徴量として用いるのである。ダストネスは、音声素片を構成するフレーム毎にスペクトラルクレスト、スペクトラルフラットネス、デルタスペクトラルエナジおよびコードストレングスの積を算出し、その値の０．６乗値を、その音声フレームを構成する全フレームについて平均値することで算出される。

より好ましい態様においては、楽曲の波形を音のオンセットで区切って得られる音声素片の各々について複数種の音響的特徴量を算出する特徴量算出手段と、各音声素片を当該複数種の音響的特徴量および分類ルールしたがって音楽的な特徴に応じたカテゴリに分類する素片分類手段とを、上記楽曲処理装置に設けても良い。このような態様によれば、楽曲の波形を音のオンセットで区切って音声素片が生成されるため、拍単位で区切って音声素片を生成する場合のように音が途中で分割されることはなく、音楽的な特徴での分類の際に特段の支障は生じないと考えられる。また、上記分類ルールを機械学習により見出すようにすれば、分類対象の音声素片を試聴してその聴感に基づいてカテゴリ分類するといった繁雑な作業を行う必要はない。具体的には、学習用データを複数読み込み、当該複数の学習用データの各々が示す音声素片を、特徴量算出手段により算出される複数種の音響的特徴量に基づいて当該学習用データの示すカテゴリに分類するための分類ルールを所定の機械学習アルゴリズムにしたがってカテゴリ毎に見出す機械学習手段を上記楽曲処理装置に設け、素片分類手段には、機械学習手段により見出される分類ルールにしたがって音声素片をカテゴリ分類する処理を実行させるようにすれば良い。

なお、このような態様においては、素片分類手段によりカテゴリ分類された音声素片のうちから、利用者により指定されたカテゴリに属するものを選択して提示する処理を素片選択手段に実行させるようにすれば良い。素片分類手段によりカテゴリ分類が為された音声素片のうちから所望のカテゴリに属するものを利用者に選択させ、新たな楽曲の生成や音声素片ライブラリの生成を支援することが可能になるからである。

また、別の好ましい態様においては、上記楽曲処理装置の素片分類手段は、楽曲の波形を音のオンセットにおいて区切って得られる音声素片を分類ルールにしたがってカテゴリ分類する際に、その分類の確信度を算出し、当該確信度が所定の閾値を超えている場合に当該音声素片を当該カテゴリに分類することを特徴とする。ここで分類の確信度とは、例えばベイズ推定等により算出される０から１の範囲の値であり、その値が１に近いほど分類の信頼度が高いことを示す値である。このような態様によれば、所定の閾値以上の信頼度でそのカテゴリに分類されると推測される音声素片のみが該当カテゴリに分類される。これにより、上記分類結果に対して音楽的な特徴を手掛かりとした検索を行った際に、そのカテゴリには属しないと感じられる音声素片がヒットすることが回避される。また、利用者に所望のカテゴリに属するものを選択させる際には、カテゴリの指定だけではなく、確信度についての閾値や他の属性を指定することで選択範囲を絞り込むようにしても良い。

さらに別の好ましい態様においては、上記楽曲処理装置の素片分類手段は、楽曲の波形を音のオンセットにおいて区切った区間の各々から、互いに時間長が異なる複数の音声素片を抽出し、当該複数の音声素片の各々を前記分類ルールにしたがってカテゴリ分類することを特徴とする。例えば、各区間から抽出される複数の音声素片を各カテゴリに分類する際に、上記確信度が所定の閾値を超えているもののみを該当カテゴリに分類するといった具合である。

この発明の一実施形態である楽曲処理装置１００の構成例を示す図である。同楽曲処理装置１００の制御部１１０が制御プログラムにしたがって実行する学習処理ＳＡ１００、素片分類処理ＳＡ２００、および素片選択処理ＳＡ３００を説明するための図である。同学習処理ＳＡ１００の流れを示す図である。同素片分類処理ＳＡ２００の流れを示す図である。ダストネスを利用した素片選択処理ＳＡ３００の一例を示す図である。同素片選択処理ＳＡ３００にて表示部１４０に表示されるユーザインタフェース画面の一例を示す図である。

以下、本発明の実施形態について図面を参照しつつ説明する。
（Ａ：構成）
図１は、本発明の一実施形態に係る楽曲処理装置１００の構成例を示すブロック図である。この楽曲処理装置１００は、楽曲の波形を音のオンセットで区切って得られる各区間から抽出される音声素片の各々を音楽的な特徴でカテゴリ分類してデータベース化するとともに、それら音声素片のうちから利用者により指定されたカテゴリに属するもの（すなわち、利用者により指定された音楽的な特徴（聴感など）を有するもの）を選択して提示するコンピュータ装置である。図１に示すように、楽曲処理装置１００は、制御部１１０、インタフェース群１２０、操作部１３０、表示部１４０、記憶部１５０、およびこれら構成要素間のデータ授受を仲介するバス１６０を有している。

制御部１１０は、例えばＣＰＵ（Central Processing Unit）である。制御部１１０は、記憶部１５０に格納されている制御プログラムを実行することにより、楽曲処理装置１００の制御中枢の役割を果たす。より詳細に説明すると、制御部１１０は、上記制御プログラムにしたがって、図２に示す学習処理ＳＡ１００、素片分類処理ＳＡ２００および素片選択処理ＳＡ３００の３つの処理を実行する。
これら３つの処理の概要は以下の通りである。

図２の学習処理ＳＡ１００は、楽曲の波形を音のオンセットで区切って得られる音声素片の波形を示すとともにその音声素片のカテゴリを示す学習用データを複数読み込み、その学習用データの示す音声素片の波形から算出される各種の音響的特徴量（例えば、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）やスペクトラルエナジなど、以下、単に「特徴量」と呼ぶ）のうちのいずれに着目すれば、その音声素片をその学習用データの示すカテゴリに正しく分類することができるのかを示す分類ルールを見出す処理である。本実施形態では、エッジのカテゴリの分類される音声素片についての学習用データと、ダストのカテゴリに分類される音声素片についての学習用データとを用いて学習処理ＳＡ１００が実行される。この学習処理ＳＡ１００によって見出される分類ルールにしたがってカテゴリ分類することで、カテゴリ分類されていない新たな音声素片をエッジやダストの各カテゴリに分類することが可能になる。

素片分類処理ＳＡ２００は、利用者により指定された１または複数の楽曲の各々の波形を音のオンセットで区切って得られる各区間から音声素片を抽出し、それら音声素片の各々を上記分類ルールにしたがってカテゴリ分類しつつデータベース化して音声素片データベースを生成する処理である。そして、素片選択処理ＳＡ３００は、素片分類処理ＳＡ２００により生成される音声素片データベースから、利用者により指定されたカテゴリに属する音声素片を選択して提示する処理である。

インタフェース群１２０は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）などの外部記録媒体との間でデータの授受を行うためのドライバなどである。本実施形態では、インタフェース群１２０のうちの適当なものを介して、学習用データや、新たな音声素片の切り出し元となる楽曲の楽曲データ（波形データ）が入力される。

操作部１３０は、例えばマウスなどのポンティングデバイスや複数の操作子を備えたキーボードなどであり、各種の入力操作を利用者に行わせるためのものである。操作部１３０は、操作子等に対して為された操作を示すデータを制御部１１０に与える。これにより操作部１３０に対して利用者が行った操作の内容が制御部１１０に伝達される。表示部１４０は、例えば液晶ディスプレイとその駆動回路である。この表示部１４０には、楽曲処理装置１００の利用を促すためのユーザインタフェース画面が表示される。このユーザインタフェース画面の一例としては、図２に示す３つの処理の実行指示の入力を促すメニュー画面や、新たな楽曲の素材にする音声素片の条件（例えば、その音声素片のカテゴリなど）を利用者に指定させるための画面などが挙げられる。

記憶部１５０は、図１に示すように、揮発性記憶部１５０ａと不揮発性記憶部１５０ｂを含んでいる。揮発性記憶部１５０ａは、例えばＲＡＭ（Random Access Memory）であり、上記制御プログラムを実行するためのワークエリアとして利用される。一方、不揮発性記憶部１５０ｂは、例えばハードディスクである。不揮発性記憶部１５０ｂには、図２に示す３つの処理を制御部１１０に実行させるための制御プログラムが格納されている他、学習処理ＳＡ１００にて見出される分類ルールを示す分類ルールデータや、素片分類処理ＳＡ２００にて生成される音声素片データベースが格納される。
以上が楽曲処理装置１００の構成である。

（Ｂ：動作）
楽曲処理装置１００の利用者が操作部１３０を操作して制御プログラムの実行を指示すると、制御部１１０は、制御プログラムを不揮発性記憶部１５０ｂから揮発性記憶部１５０ａに読み出し、その実行を開始する。制御部１１０は、制御プログラムの実行を開始すると、前述したメニュー画面を表示部１４０に表示させる。このメニュー画面を視認した利用者は、操作部１３０を操作してメニュー項目の選択などにより各処理の実行を指示することができる。制御部１１０は、操作部１３０を介して与えられる指示に応じて図２に示す３つの処理のうちの該当するものを実行するのである。以下、学習処理ＳＡ１００、素片分類処理ＳＡ２００、および素片選択処理ＳＡ３００の各処理にて制御部１１０が実行する動作について説明する。

（Ｂ−１：学習処理ＳＡ１００における動作）
図３は、制御部１１０が実行する学習処理ＳＡ１００の流れを示す図である。
前述したように、この学習処理ＳＡ１００は、複数の学習用データを用いて機械学習を行い、カテゴリ分類されていない新たな音声素片を各種の特徴量に基づいてカテゴリ分類するための分類ルールを見出す処理である。この学習処理ＳＡ１００の入力データとなる学習用データとしては、種々の態様のものを用いることが考えられる。図３では、波形データトラックとラベルデータトラックとからなる学習用データが例示されている。波形データトラックは、一つの楽曲のオーディオ波形を示すデータトラック（そのオーディオ波形を所定のサンプリング周期でサンプリングしたサンプル列）である。ラベルデータトラックは、波形データトラックと時間軸を共通にするデータトラックである。このラベルデータトラックには、波形データトラックの示す波形にて各音声素片が占める位置（音声素片の開始時刻（図３：ｔ０やｔ２）および終了時刻（図３：ｔ１やｔ３））を示すデータに対応付けて、その音声素片のカテゴリ（エッジやダスト）を示すラベルデータが書き込まれている。図３に示す態様の学習用データの他に、音声素片の波形を示す波形データとその音声素片の属するカテゴリを示すラベルデータとを対にした学習用データを用いても勿論良い。

学習処理ＳＡ１００では、制御部１１０は、まず、学習用データの示す音声素片の各々について、特徴量を計算する（ステップＳＡ１１０）。より詳細に説明すると、制御部１１０は、各音声素片を所定サンプル数（本実施形態では２０４８サンプル）からなるフレームに分割し、それらフレーム毎にスペクトラルエナジやＭＣＦＦ等の音響的特徴量を計算する。次いで、制御部１１０は、各音声素片について、その音声素片を構成するフレーム単位で算出した特徴量の統計量（各特徴量の時間変化を表す傾き、平均、分散など）を算出し、これら統計量をその音声素片についての特徴量とする。ここで、各音声素片について何種類の特徴量を算出するのかについては、後述する機械学習の精度との兼ね合いで定めるようにすれば良い。本実施形態では、１つの音声素片あたり２４６５種類の特徴量を算出する。このため、本実施形態では、各音声素片は上記２４６５種類の特徴量に各々対応する座標軸で規定される２４６５次元空間（以下、特徴量空間）の１つの座標点に対応付けられる。

次いで、制御部１１０は、ステップＳＡ１１０による演算結果を元に機械学習アルゴリズムにしたがった機械学習を行い（ステップＳＡ１２０）、各学習用データの示す音声素片をその学習用データの示すカテゴリに分類するための分類ルールをカテゴリ毎に見出し、それら分類ルールを表す分類ルールデータを生成する。前述したように、学習用データの示す音声素片の各々は、特徴量空間内の１つの座標点に対応付けられる。したがって、ステップＳＡ１１０の処理は、特徴量空間にてエッジのカテゴリに属する音声素片に対応する座標点が集まっている領域と、その他の領域とを区分けする超平面を見出す処理、或いは、同特徴量空間にてダストのカテゴリに属する音声素片に対応する座標点が集まっている領域と、その他の領域とを区分けする超平面を見出す処理に他ならず、これら超平面の各々が上記分類ルールに対応する。このステップＳＡ１１０で使用する機械学習アルゴリズムとしては、種々のものを利用することが考えられる。本実施形態では、単純ロジスティック回帰分析（Simple logistic regression）アルゴリズムを用いたが、ＳＶＭ（Support
Vector Machine）等の他の機械学習アルゴリズムを用いても勿論良い。カテゴリ分類のためには上記２４６５種類の特徴量の全てが必要に成る訳ではない。本出願人の行った実験によれば、エッジのカテゴリに属するか否かの分類を行うための分類ルールは、上記２４６５種類のうちの７３種類の特徴量により定まり、ダストのカテゴリに属するか否かを分類するための分類ルールは、同２４６５種類のうちの３７種類の特徴量で定まることが判明した。

以上の動作が為される結果、カテゴリ分類されていない音声素片がエッジのカテゴリに分類されるか否かを判定するための分類ルールを示す第１の分類ルールデータと、同音声素片がダストのカテゴリに分類されるか否かを判定するための分類ルールを示す第２の分類ルールデータとが生成され、不揮発性記憶部１５０ｂに格納される。

（Ｂ−２：素片分類処理ＳＡ２００における動作）
前述したように、素片分類処理ＳＡ２００は、カテゴリ分類されていない音声素片を上記第１または第２の分類ルールデータの示す分類ルールにしたがってカテゴリ分類しつつデータベース化する処理である。上記第１および第２の分類ルールデータにしたがって、この素片分類処理ＳＡ２００を行うことにより、制御部１１０は、カテゴリ分類が為されていない新たな音声素片をエッジのカテゴリに属するか否かで分類する第１の識別器、および同音声素片をダストのカテゴリに属するか否かで分類する第２の識別器として機能する。

本実施形態では、インタフェース群１２０を介して入力される１または複数の楽曲データの各々が表す波形を音のオンセットで区切って得られる各区間から抽出される音声素片の各々が分類対象とされる。図４に示すように、この素片分類処理ＳＡ２００では、制御部１１０は、まず、インタフェース群１２０を介して与えられる楽曲データに対して、フレーム単位で特徴量を計算し、音のオンセットを検出する（ステップＳＡ２１０）。このようにして検出されるオンセットの各々が音声素片の切り出しの際の指標となる。

次いで、制御部１１０は、ステップＳＡ２１０にて検出されたオンセットで区画される各区間から、互いに時間長の異なる波形データ（以下、セグメント）を抽出する（ステップＳＡ２２０）。これらセグメントの各々がエッジまたはダストのカテゴリに分類される音声素片の候補となる。このように時間長の異なる複数のセグメントを抽出する際には、セグメントについての最小および最大の時間長（或いはサンプル数）を定めておき、当該最小の時間長から上記最大の時間長に達するまで一定量ずつ時間長を増加させたセグメントを抽出するようにすれば良い。そして、エッジ候補のセグメントを抽出する際には、図４に示すように、セグメントの開始位置をオンセットの位置に合わせ、その終了位置を調整することで様々な時間長のセグメントを抽出すれば良い。これは、セグメントの開始位置をオンセットに合わせることでアタック部分の波形が確実に含まれるようにするためである。これに対して、ダスト候補のセグメントを抽出する際には、図４に示すように、開始位置を各々異ならせてセグメントを抽出するようにすれば良い。

制御部１１０は、ステップＳＡ２２０にて抽出した全てのセグメントについて特徴量（フレーム単位で算出した特徴量の統計量）を算出する（ステップＳＡ２３０）。このステップＳＡ２３０における特徴量の算出は前述したステップＳＡ１１０におけるものと同様であるため説明を省略する。そして、制御部１１０は、ステップＳＡ２３０にて計算した特徴量と上記第１および第２の分類ルールデータの示す分類ルールに基づいて、ステップＳＡ２２０にて抽出した各セグメントをカテゴリ分類し、音声素片データベースを生成する。ここで、音声素片データベースを生成するとは、インタフェース群１２０を介して入力された楽曲データ毎に、その楽曲データからステップＳＡ２２０の処理で抽出される各セグメント（音声素片）の開始時刻および終了時刻を示すデータとそのセグメントのラベルデータとからなるラベルデータトラックを生成してその楽曲データと対応付けて不揮発性記憶部１５０ｂに書き込む態様であっても良く、また、楽曲データから音声素片の波形データを取り出し、その波形データと上記ラベルデータとを対応付けて不揮発性記憶部１５０ｂに書き込む態様であっても良い。

より詳細に説明すると、ステップＳＡ２２０にてエッジ候補として抽出された各セグメントは、第１の分類ルールデータの示す分類ルールにしたがってカテゴリ分類され、ダスト候補として抽出された各セグメントは、第２の分類ルールデータの示す分類ルールにしたがってカテゴリ分類される。ここで、各分類ルールにしたがって各セグメントのカテゴリ分類を行う際には、制御部１１０は、分類対象のセグメント毎に分類の確信度（０から１までの値で、値が１に近いほど分類の信頼度が高い）をベイズ推定等の手法により算出し、その確信度の値が所定の閾値（例えば、０．５）を超えている場合には、その分類ルールに対応するカテゴリに分類し、当該閾値未満の場合には、カテゴリ不明とする。これは、音声素片データベースに対して音楽的な特徴（聴感）を指定して素片検索を行った場合に、利用者により指定された聴感とは感じられない音声素片がヒットすることを回避するためである。また、上記確信度を加味してカテゴリ分類する態様では、各音声素片にカテゴリ分類の確信度を示す確信度データを対応付けてデータベース化しても良い。例えば、楽曲データにラベルデータトラックを対応付けてデータベース化する態様においては、各音声素片の開始時刻および終了時刻を示すデータとその音声素片についての確信度データとからなる確信度データトラックを生成し、この確信度データトラックを上記楽曲データおよびラベルデータトラックに対応付けて不揮発性記憶部１５０ｂに書き込むようにすれば良い。

（Ｂ−３：素片選択処理ＳＡ３００における動作）
素片選択処理ＳＡ３００は、利用者により指定されたカテゴリに属する音声素片を音声素片データベースから選択して提示することにより、それらの音声素片を用いた楽曲生成等を促す処理である。この素片選択処理ＳＡ３００の実施態様としては種々のものが考えられる。例えば、利用者により指定されたカテゴリに属するもの全てを音声素片データベースから読み出して提示する態様の他に、以下に述べる態様が考えられる。

第１の態様は、利用者により指定されたカテゴリと、前述した確信度とに基づいて音声素片を選択する態様である。例えば、利用者により指定されたカテゴリに属するもののうち、確信度が所定の閾値（例えば、０．８など、この閾値を利用者に指定させても勿論良い）を超えているものを選択する態様や、楽曲の波形を音のオンセットで区切って得られる区間の各々から抽出される音声素片のうち、利用者により指定されたカテゴリに属すると推測される確信度が最も高いものを選択する態様である。この態様によれば、利用者により指定されたカテゴリに属するとは感じられないものがヒットすることを回避することができると期待される。

第２の態様は、カテゴリに加えて、他の属性に基づいて音声素片を選択する態様である。例えば、音声素片の時間長といったエッジとダストとに共通して利用できる属性（以下、共通属性）や、各カテゴリに固有の属性（例えば、エッジであれば、音声素片の開始時刻から音量振幅がピークになるまでの時間やそのピーク値、ダストであれば、低域、中域および高域の各帯域のスペクトラルエナジ比など）を利用することが考えられる。このように、カテゴリに加えて他の属性を指定することで、きめ細やかな検索を行うことが可能になる。

そして、第３の態様は、複数種の特徴量から算出される新たな特徴量を用いて音声素片の絞り込みを行う態様である。このように複数種の特徴量から算出される新たな特徴量の一例としては、以下に説明するダストネスが挙げられる。ダストネスとは、音声素片のダストらしさを０から１の範囲の値（１に近いほどダストらしさが強い）で表す新たな特徴量であり、本出願人の行った研究により発見されたものである。ダストネスを利用した素片選択処理ＳＡ３００の一例は、図５に示す通りである。

図５（Ａ）は、楽曲の波形を示す図であり、図５（Ｂ）は、この楽曲から切り出される音声素片を表すラベルデータトラックを示す図である。制御部１１０は、まず、素片分類処理ＳＡ２００の結果、ダストのカテゴリに分類されている音声素片について、その構成フレーム毎にスペクトラルクレスト、スペクトラルフラットネス、デルタスペクトラルエナジおよびコードストレングスの積の所定のべき乗（例えば、０．６乗）を上記ダストネスとして算出する。なお、上記４種類の特徴量ｘ_ｉ（例えば、ｘ_１はスペクトラルクレスト、ｘ_２はスペクトラルフラットネス、ｘ_３はデルタスペクトラルエナジ、ｘ_４はコードストレングス）の値そのものの積に代えて、以下の数１に示す確率分布関数ｐ（ｘ_ｉ）を特徴量ｘ_ｉ毎に計算し、それら確率分布関数ｐ（ｘ_ｉ）の関数値の積を使用しても良い。この数１においてμ_ｉは特徴量ｘ_ｉの平均値であり、σ_ｉ ^２は特徴量ｘ_ｉの分散である。これら平均値μ_ｉおよび分散σ_ｉ ^２は特徴量ｘ_ｉ毎に統計データにしたがって算出される。

スペクトラルクレストとスペクトラルフラットネスは、スペクトラムの平坦さを示す特徴量である。スペクトラルクレストは、フレーム内でのスペクトラルエナジの最大値を同フレーム内での平均値で除算して算出され、スペクトラルフラットネスは、フレーム内でのスペクトラルエナジの幾何平均（相乗平均）を算術平均（相加平均）で除算して算出される。そして、デルタスペクトラルエナジは、スペクトラルエナジの時間変化を示す。これら３種類の特徴量をダストネスの算出に利用するのは、スペクトラルエナジの時間変化とスペクトラムが平坦であるほどダストらしさが強くなると推測されるからである。これに対して、コードストレングスは、コード感があるか否か（すなわち、調和的であるか否か）を示す特徴量である。このコードレングスは、対象音に対してコード判定処理を行って得られるコード判定結果の信頼度の指標である。このコードストレングスをダストネスの算出に利用するのは、コード感が弱いほどダストらしさが強くなると推測されるからである。

図５（Ｃ）は、上記のようにして計算されるダストネスの時間変化を示すグラフであり、ダストに分類される音声素片に対応する部分は実線で、その他の部分は点線で描かれている。次いで、制御部１１０は、各音声素片について、その音声素片を構成する全てのフレームについてのダストネスの平均値を算出し（図５（Ｄ）では、ダストに分類される部分についてのみ平均値を表記）、その平均値が所定の閾値を上回っている音声素片のみを選択する（図５（Ｅ）参照）。このような態様によれば、素片分類処理ＳＡ２００にてダストのカテゴリに分類された音声素片のうちから、ダストらしさが所定の閾値を超えるもののみを選択することが可能になる。なお、本実施形態では、ダストらしさが所定の閾値を超えるもののみを選択する場合について説明したが、ダストネスの範囲を利用者に指定させ、その範囲に収まるものを抽出するようにしても良い。

また、上記第１から第３の態様の任意の２つ、或いは全部を組み合わせて素片選択を行うようにしても良い。図６は、エッジのカテゴリに属する音声素片を上記３つの態様を組み合わせて選択する素片選択処理ＳＡ３００にて表示部１４０に表示されるユーザインタフェース画面の一例を示す図である。図６に示すユーザインタフェース画面では、表示領域Ａ０１には、楽曲の波形から切り出されるエッジが一点鎖線矩形および点線三角形で表示されている。ここで、一点鎖線矩形の高さは確信度を表し、点線三角形の高さは音量振幅のピークの高さを表している。利用者は、同画面の仮想スイッチＳＷ１を操作することで、エッジのカテゴリに対する確信度についての閾値を指定することができる。なお、図６の仮想スイッチＳＷ２およびＳＷ３は、ダストのカテゴリに対する確信度およびダストネスについての閾値を各々指定するためのものである。また、利用者は、仮想スイッチＳＷ４およびＳＷ５を操作することでエッジについての他の属性（例えば、音声素片の開始からピークまでの時間や、ピーク値）を指定することができ、仮想スイッチＳＷ６からＳＷ８を操作することでダストについての他の属性（例えば、各帯域のスペクトラルエナジ比）を指定することができる。そして、図６の表示領域Ａ０１では、仮想スイッチＳＷ１、ＳＷ４およびＳＷ５に対する操作により指定された条件を満たす音声素片の属する区間がハイライト表示で示される。楽曲処理装置１００の利用者は図６に示すユーザインタフェース画面を参照しつつ、所望の条件を満たす音声素片を選択することができる。そして、利用者により何れかの音声素片が選択されると、制御部１１０は、その音声素片を示す識別子（例えば、音声素片の切り出し元の楽曲の名称、その音声素片の開始および終了時刻など）を表示領域Ａ０２に表示させ、その音声素片と似た属性の音声素片の識別子を表示領域Ａ０３に表示させる。楽曲処理装置１００の利用者、表示領域Ａ０２或いはＡ０３に表示される各識別子の示す音声素片を素材として新たな楽曲を生成したり、これら音声素片の集合を新たな音声素片データベースとして不揮発性記憶部１５０ｂやＣＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に記憶させたりすることができる。

以上説明したように、本実施形態に係る楽曲処理装置１００によれば、任意の楽曲の波形を音のオンセットで区分して得られる音声素片の各々を音楽的な特徴で分類し検索することが可能になる。これにより楽曲処理装置１００の利用者は、所望のカテゴリに属する音声素片をつなぎ合わせて新たな楽曲を生成したり、新たな音声素片データベースを生成することができる。

（Ｃ：変形）
以上、本発明の一実施形態について説明したが、かかる実施形態に以下に述べる変形を加えても勿論良い。
（１）上述した実施形態では、カテゴリ分類がされていない音声素片をエッジまたはダストの各カテゴリに分類するための分類ルールを機械学習により見出したが、ベンド（音程が変化する音声素片）やボイス（人の声のように聴こえる音声素片）などの他のカテゴリに分類するための分類ルールを見出しても良い。このようなことは、ベンドやボイスなど他のカテゴリに分類される音声素片についての学習用データを用いて機械学習を行わせることで実現される。

（２）上述した実施形態では、特徴量算出処理ＳＡ２３０で算出された複数種の特徴量から、ダストらしさを表す新たな特徴量であるダストネスを算出し、素片分類処理ＳＡ２００にてダストのカテゴリに分類された音声素片のうちからダストらしさの強いものをダストネスを用いて絞り込む態様について説明した。このように、特徴量算出処理ＳＡ２３０で算出された複数種の特徴量から、あるカテゴリの特徴を顕著に示す新たな特徴量を算出することはエッジなど他のカテゴリについても同様に行い得ると期待される。そこで、特徴量算出処理ＳＡ２３０で算出される複数種の特徴量のうちから所望のものを利用者に指定させるとともに、それら特徴量を用いた新たな特徴量の算術式を利用者に指定させ、当該新たな特徴量の時間変化を示す画像（例えば、図５（Ｃ）に示すようなグラフ）と素片分類処理ＳＡ２００による分類結果を示す画像（例えば、ラベルデータトラックを示す画像（図５（Ｂ）参照））とを時間軸を揃えて表示するユーザインタフェース画面を制御部１１０に表示させるようにしても良い。このようなユーザインタフェース画面を用いることで、あるカテゴリの特徴を顕著に示す新たな特徴量を見出すことが容易になると期待される。

（３）上述した実施形態では、素片分類処理ＳＡ２００により生成される音声素片データベースを不揮発性記憶部１５０ｂに格納した。しかし、素片分類処理ＳＡ２００により生成される音声素片データベースを素片分類処理ＳＡ２００から素片選択処理ＳＡ３００へ引渡す中間データとしてのみ使用する場合には、その音声素片データベースを揮発性記憶部１５０ａに書き込むようにしても勿論良い。また、素片分類処理ＳＡ２００により生成される音声素片データベースをＣＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に書き込み配布しても良い。

（４）上述した実施形態では、制御部１１０を制御プログラムにしたがって作動させることで、その制御部１１０を、音声素片の各々から当該音声素片の音響特徴を示す複数種の特徴量を算出する特徴量算出手段、学習処理ＳＡ１００を実行する機械学習手段、素片分類処理ＳＡ２００を実行する素片分類手段、および素片選択処理ＳＡ３００を実行する素片選択手段として機能させた。しかし、制御部１１０をこれら各手段として機能させる複数のプログラムモジュールに分割して不揮発性記憶部１５０に書き込んでも良く、また、上記特徴量算出手段、機械学習手段、素片分類手段および素片選択手段の各々を電子回路で構成し、これら電子回路を組み合わせて楽曲処理装置を構成しても勿論良い。

（５）上述した実施形態では、本発明の特徴を顕著に示す学習処理、素片分類処理および素片選択処理の各々を制御部１１０に実行させる制御プログラムが記憶部１５０に予め格納されていた。しかし、ＣＤ−ＲＯＭなどのコンピュータ読み取り可能な記録媒体に上記制御プログラムを書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより上記制御プログラムを配布しても良い。このようにして配布される制御プログラムにしたがって、パーソナルコンピュータなどの一般的なコンピュータを作動させることにより、そのコンピュータに楽曲処理装置１００と同一の機能を付与することが可能になる。

（６）上述した実施形態では、複数の学習用データを楽曲処理装置１００へ入力し学習処理ＳＡ１００（図３参照）を実行させることで、音声素片をエッジまたはダストのカテゴリに分類するための分類ルールを示す分類ルールデータを生成したが、学習処理ＳＡ１００により生成された分類ルールデータを不揮発性記憶部１５０ｂに予め書き込んだ状態（すなわち、カテゴリ分類されていない音声素片のカテゴリ分類を行う識別器として機能し得る状態）で楽曲処理装置１００を提供しても勿論良い。このように、カテゴリ分類されていない音声素片のカテゴリ分類を行う識別器として機能し得る状態で楽曲処理装置１００を提供する態様においては、特徴量算出手段、素片分類手段および素片選択手段として制御部１１０を機能させる制御プログラムを不揮発性記憶部１５０ｂに記憶させておけば良い。

１００…楽曲処理装置、１１０…制御部、１２０…インタフェース群、１３０…操作部、１４０…表示部、１５０…記憶部、１５０ａ…揮発性記憶部、１５０ｂ…不揮発性記憶部、１６０…バス。

Claims

各々が音響的な特徴を示す音響的特徴量が複数種算出された、複数の音声素片について、複数種の前記音響的特徴量から新たな特徴量を生成し、当該新たな特徴量に基づいて、前記複数の音声素片から一部の音声素片を選択する素片選択手段と、
前記素片選択手段により選択された音声素片をユーザに提示する提示手段と、
を有することを特徴とする楽曲処理装置。
前記新たな特徴量として音声素片を分類する際のカテゴリの特徴を顕著に示す特徴量をカテゴリ毎に生成することを特徴とする請求項１に記載の楽曲処理装置。
コンピュータを、
各々が音響的な特徴を示す音響的特徴量が複数種算出された、複数の音声素片について、複数種の前記音響的特徴量から新たな特徴量を生成し、当該新たな特徴量に基づいて、前記複数の音声素片から一部の音声素片を選択する素片選択手段と、
前記素片選択手段により選択された音声素片をユーザに提示する提示手段と、
して機能させることを特徴とするプログラム。