JP2003140647A

JP2003140647A - 複数の音を含む楽曲を分類する方法

Info

Publication number: JP2003140647A
Application number: JP2002233328A
Authority: JP
Inventors: Tong Zhang; トン・ザァン
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 2001-08-17
Filing date: 2002-08-09
Publication date: 2003-05-16
Anticipated expiration: 2022-08-09
Also published as: JP4268386B2; US6476308B1

Abstract

(57)【要約】【課題】サウンドの集まりによって構成される楽曲を
分類する方法を提供する。【解決手段】時間エネルギーエンベロープを使用して
前記楽曲の一部に含まれる複数の音のそれぞれのオンセ
ットを検出するステップ（１０２）と、該複数の音のそ
れぞれの特性を確定するステップ（１０４，１０６，１
０８）と、該複数の音のそれぞれの確定された特性の統
合に基づき、データベースに格納するために楽曲を分類
するステップ（１１０）とを含む方法。態様により、特
性を確定するステップは、前記音のエネルギー関数を計
算すること（３０６）により音の調和部分音を検出する
ことを含む。

Description

【発明の詳細な説明】【０００１】【発明の属する技術分野】本発明は、包括的には複数の
音（note）を含む楽曲の分類に関し、特に、データベー
スの管理中のインデクシングおよび検索のための楽曲の
分類に関する。【０００２】【従来の技術】既知の研究は、電子音楽を製作するため
の合成された音の生成等、個別の音の電子合成を対象と
してきた。また、研究は、楽器（すなわち、電子および
アコースティックの両方）によって生成される個々の音
の解析も対象としてきた。これらの分野における研究
は、モノフォニックサウンド（すなわち、一度に１音を
生成する単一楽器からのサウンド）としての、または合
成（例えば、ＭＩＤＩ）音楽としての、単一音の分類お
よび／または生成を対象としてきた。【０００３】単一音の生成および／または分類のための
既知の技術は、単一音に関して使用することができる特
徴抽出方法と分類ツールとの開発を伴ってきた。例え
ば、Alicja Wieczorkowskaによる「Rough Sets As A To
ol For Audio Signal Classification」Technical Univ
ersity of Gdansk、Poland、pp.367〜375は、楽器サウン
ドの自動分類を対象とする。Judith C.Brownによる「Co
mputer Identificationof Musical Instruments Using
Pattern Recognition With Cepstral Coefficients As
Features」、J.Acoust.Soc.Am 105(3) March 1999、pp.
1933〜1941は、パターン解析において特徴としてケプス
トラル係数を使用することを述べている。【０００４】分類のための特徴として個々の音のウェー
ブレット係数と聴覚モデリングパラメータとを使用する
ことも既知である。例えば、Jeong,Jae-Hoon等による
「Musical Timbre Recognition With Neural Network
s」、Department of Electrical Engineering、Korea Adva
nced Institute of Science and Technology、pp.869〜
872と、Cosi,Piero等による「Auditory Modeling and S
elf-Organizing Neural Networks for Timbre Classifi
cation」、Journal of New Music Research、Vol.23(199
4)、pp.71〜98とをそれぞれ参照のこと。これら後の２
つの文書はまた、Fragoulis,D.K.等による「Timbre Rec
ognition of Single Notes Using An ARTMAPNeural Net
work」、National Technical University of Athens、IC
ECS 1999(IEEE International Conference on Electron
ics、Circuits and Systems)のpp.1009〜1012およびCost
antini, G.等による「Recognition of Musical Instrum
ents By A NonExclusive Neuro-Fuzzy Classifier」、E
CMCS’99、EURASIP Conference、June24〜26、1999、Krako
w、4 pagesと共に、分類ツールにおいて人工ニューラル
ネットワークの使用を対象とする。Kristoffer Jensen
による「Spectral Envelope Modeling」、Department of C
omputer Science、University of Copenhagen、Denmarkと
題された別の文書は、典型的な楽音のスペクトルエンベ
ロープを解析することを述べている。【０００５】【発明が解決しようとする課題】既知の研究は、複数音
を含む連続的な楽曲および／または複数の楽器および／
または１度に演奏される複数音によって生成されるポリ
フォニック音楽の解析は対象としてこなかった。さら
に、既知の解析ツールは、複雑であり、データベース管
理中の楽曲のインデクシングおよび検索等のリアルタイ
ムアプリケーションには不適当である。【０００６】【課題を解決するための手段】本発明は、楽曲に含まれ
る複数の音のそれぞれに対して確定された特性に基づい
て楽曲を分類することを対象とする。例示的な実施形態
は、音楽の連続的な一部分において、音の開始点および
終了点が、前の音、次の音、または１つまたは複数の楽
器によって同時に演奏される音とオーバラップする可能
性がある、という事実に適応する。これは、異なる楽器
が大幅に異なる特性を有する音を生成する、というさら
なる事実によって複雑になる。例えば、トランペットま
たはフルートによって生成される音等、持続(sustainin
g)段階をもつ音は、その持続段階の中間において高エネ
ルギーを有し、ピアノまたはギターによって生成される
音等、持続段階をもたない音は、その音が最初に生成さ
れるアタック(attacking)段階で高エネルギーを有す
る。例示的な実施形態では、これら複雑性を扱うことに
より、データベースにおいてリアルタイムでの楽曲のイ
ンデクシングおよび検索を可能とし、それによってデー
タベース管理を簡略化しデータベースに含まれるマルチ
メディア資産を探索する機能を拡張する。【０００７】概して、例示的な実施形態は、サウンドの
集まりによって構成される楽曲を分類する方法であっ
て、時間エネルギーエンベロープを使用して楽曲の一部
に含まれる複数の音のそれぞれのオンセット(onset)を
検出するステップと、複数の音のそれぞれの特性を確定
するステップと、複数の音のそれぞれに対して確定され
た特性の統合に基づき、データベースに格納するために
楽曲を分類するステップとを含む方法を対象とする。【０００８】ここで、本発明を、添付図面において例示
する好ましい実施形態を参照してより詳細に説明する。
図面において、同じ要素は同じ参照符号を有する。【０００９】【発明の実施の形態】図１のシステムは、サウンドの集
まりによって構成される楽曲を分類する方法であって、
時間エネルギーエンベロープを使用して楽曲の一部にお
ける複数の音のそれぞれのオンセットを検出するステッ
プを含む方法を実現する。例えば、モジュール１０２
は、音のオンセットを検出することにより、楽曲を音に
区分することを含む。【００１０】図１のシステムは、さらに、オンセットが
検出された複数の音のそれぞれの特性を確定するモジュ
ール１０４を含む。確定された特性は、各音における調
和部分音(harmonic partials)を検出することを含むこ
とができる。例えば、ポリフォニックサウンドの場合、
最強サウンドの部分音を識別することができる。各音の
特性を確定するステップは、モジュール１０６によって
表すように各音の時間的特徴、スペクトル特徴および部
分音の特徴を計算することを含むことができ、音の特徴
はモジュール１０８において最適に正規化される。【００１１】図１のシステムはまた、複数の音のそれぞ
れに対する確定された特性の統合に基づいて、データベ
ースに格納するために楽曲を分類する、１つまたは複数
のモジュールも含む。例えば、図１のモジュール１１０
によって表すように、各音は、ニューラルネットワーク
とガウス混合モデル（Gaussian mixture model（ＧＭ
Ｍ））とのセットを使用することによって分類すること
ができる。モジュール１１２において、音分類結果を統
合することにより、楽曲分類結果を提供することができ
る。楽曲に割当てられた分類に基づいてデータベースに
格納するために楽曲をインデクシングするために使用す
ることができるあらゆる情報として表された、メタデー
タを確立するために分類を使用することができる。同様
に、データベースから楽曲を検索するためにメタデータ
を使用することができる。本発明の技術によれば、分
類、インデクシングおよび検索をリアルタイムで実行す
ることができるため、例示的な実施形態がオンラインデ
ータベース管理に適したものとなる。当業者は、本明細
書で説明する機能を、いかなる数（例えば、１または複
数）のモジュールにおいていかなる所望の仕方によって
も結合することができ、あるいは、ソフトウェアおよび
／またはハードウェアコンポーネントの単一の統合シス
テムとして非モジュール形式で実現することができるこ
とを認めるであろう。【００１２】図２は、楽曲を区分する目的で、楽曲に含
まれる複数の音のそれぞれのオンセットを検出すること
に関連する例示的なステップを詳述する。例示的な図２
の方法は、時間エネルギーエンベロープを使用して、時
間エネルギーエンベロープのエネルギー値の急峻な下降
および／または上昇によって表されるような、楽曲の一
部に含まれる複数の音のそれぞれのオンセットを検出す
ることを含む。図２を参照すると、ステップ２０２にお
いて、音楽データがデジタル音楽ファイルからバッファ
に読込まれる。ステップ２０４において、第１のカット
オフ周波数ｆ１を使用して取得されるような、楽曲の時
間エネルギーエンベロープＥ１が計算される。例えば、
楽曲は、１０Ｈｚかまたはそれより小さいかまたは大き
いオーダでエネルギーエンベロープを有することができ
る。【００１３】時間エネルギーエンベロープの計算は、ス
テップ２０６において楽曲のすべての音楽データを調整
する(rectify)ステップを含む。ステップ２０８におい
て、調整された音楽に対し、カットオフ周波数「ＦＲＥ
Ｑ」を有するローパスフィルタが適用される。当然なが
ら、所望の時間エネルギーエンベロープを識別すること
ができれば、いかなるフィルタを使用することも可能で
ある。【００１４】ステップ２１０において、時間エネルギー
エンベロープＥ１の一次差分Ｄ１が計算される。例示的
な実施形態では、ブロック２１４、２１６および２１８
において、２閾値を使用して潜在的な音のオンセット
「ＰＯ」を識別することができる（２１２）。【００１５】例えば、１つの例示的な２閾値方式によれ
ば、２つの閾値ＴｈおよびＴｌの値は、実験式を使用し
て、例えば時間エネルギーエンベロープＥ１の平均と一
次差分Ｄ１の標準偏差とに基づいて確定される。一例で
は、十分に強いとみなされる音のみが検出され、それよ
り弱い音は無視される。それは、流れに沿って実行され
る調和部分音検出および調和部分音パラメータ計算は、
弱い音に関して信頼性が低い可能性があるためである。
実施例では、ＴｈおよびＴｌがＥ１の平均とＤ１の標準
偏差とに基づいて適応可能に確定される場合、Ｔｈは固
定比率でＴｌより高くすることができる。例えば、Ｔｈ＝ｃ１×平均（Ｅｌ）＋ｃ２×標準偏差（Ｄ１）Ｔｌ＝Ｔｈ×ｃ３ここで、ｃ１、ｃ２およびｃ３は定数である（例えば、
ｃ１＝１．２３／２０００、ｃ２＝１、ｃ３＝０．８、
あるいは他の任意の所望の定数値）。【００１６】以下の２つの基準のうちの少なくとも１つ
を満足する時間エネルギーエンベロープの一次差分のピ
ークが探索される。すなわち、正のピークが第１の閾値
Ｔｈより高いか、あるいは正のピークは第２の閾値Ｔｌ
より高く負のピークはその直前の−Ｔｈより低い、とい
う基準である。各検出されたピークは、潜在的オンセッ
ト「ＰＯ」としてマークされる。潜在的オンセットは、
例示的な実施形態では、時間エネルギーエンベロープＥ
１における、値の急峻な上昇および／または下降に対応
する。【００１７】２閾値方式かまたは他の任意の数の閾値
（例えば、単一閾値か、または３つ以上の閾値）を使用
して潜在的な音のオンセットを検出した後、楽曲の第２
の時間エネルギーエンベロープにおいて、音のオンセッ
トの正確な位置が探索される。したがって、ブロック２
２０において、第２のカットオフ周波数ｆ２を使用して
取得されるように、楽曲の第２の時間エネルギーエンベ
ロープがＥ２として計算される（例えば、楽曲のエンベ
ロープを生成するために使用されるカットオフは、２０
ヘルツかあるいはそれより小さいかまたは大きい）。ス
テップ２２２において、Ｅ２における潜在的な音のオン
セット「ＰＯ」が識別される。正確な音のオンセット位
置が識別され、フォールスアラーム(false alarm)（楽
器の振動によるエネルギーの上昇または下降等）が除去
される。【００１８】第２の時間エネルギーエンベロープにおけ
る潜在的な音のオンセットのチェックのプロセスは、ス
テップ２２４を含み、そこでは、各潜在的な音のオンセ
ットに対し、時間エネルギーエンベロープＥ２における
音の開始点が探索される。潜在的オンセットは、その点
に対して再配置され、最終的な音のオンセットとして新
たに命名される。ステップ２２６において、所与の上昇
／下降期間に複数の潜在的なオンセットが検出された場
合、１つの音の中で余剰の潜在的な音のオンセットが除
去される。ステップ２２８において、楽器の振動によっ
てもたらされるフォールスアラームの潜在的なオンセッ
トが除去される。【００１９】ステップ２３０において、最終的な音のオ
ンセットが保存される。ステップ２３２において、時間
エネルギーエンベロープＥ２を解析することにより、音
の終了点が探索され、音の長さが記録される。楽曲の一
部に含まれる複数の音のそれぞれのオンセットを検出す
るステップを使用して、楽曲を音に区分することができ
る。【００２０】図３Ａは、複数の音のそれぞれの特性の検
出、特に、各音に関連する調和部分音の検出モジュール
１０４を示す。調和部分音は、調波サウンドの基本周波
数の整数倍であり、例えば、周波数領域におけるピーク
として表される。図３Ａを参照すると、ステップ３０２
において、デジタル音楽ファイルからバッファに音楽デ
ータを読出すことができる。最終的オンセットＦＯによ
って表される音のオンセット位置が、音の長さ（すなわ
ち、図１のモジュール１０２の出力）と共に入力され
る。ステップ３０４において、正しい点Ｋが、最終オン
セット位置によって識別される各音に関連する調和部分
音を推定するために識別される。【００２１】調和部分音を推定するために適した点Ｋを
確定するために、ステップ３０６において、各音に対し
エネルギー関数が計算される。すなわち、値Ｘ_ｎを有す
る音の各サンプルｎに対し、ブロック３０８に示すよう
に、その音のエネルギー関数Ｅ_ｎが以下のように計算さ
れる。【００２２】Ｘ_ｎが０以上である場合Ｅ_ｎ＝Ｘ_ｎＸ_ｎが０未満である場合Ｅ_ｎ＝−Ｘ_ｎ判断ブロック３１０において、音の長さが確定される。
例えば、音の長さＮが、３００ミリ秒かあるいはそれよ
り短いかまたは長い等の所定の期間より、短いか否かが
判断される。短い場合、ブロック３１２に示すように、
点ＫはＮ／２に等しい。そうでない場合、ブロック３１
４に示すように、点Ａは音のオンセットに等しく、点Ｂ
は１５０ミリ秒等の所定の期間に等しく、点ＣはＮ／２
に等しい。ステップ３１６において、エネルギー関数Ｅ
_ｎの最大値を有する点ＡとＣとの間の点Ｄが探索され
る。判断ブロック３１８において、点Ｄが点Ｂと比較さ
れる。点Ｄが点Ｂより小さい場合、ステップ３２０にお
いてＫ＝Ｂとなる。そうでない場合、ステップ３２２に
おいてＫ＝Ｄとなる。【００２３】ステップ３２４において、例示的な実施形
態では、ある点に集中しＮ個のサンプル（例えば、Ｎ＝
１０２４か、２０４８か、それより少ないかまたはそれ
より多い）を含み、「Ｋ」が中心であるオーディオフレ
ームが形成される。【００２４】ステップ３２６において、次数「Ｐ」のオ
ーディオフレームの自己回帰（ＡＲ）モデルにより生成
されるスペクトルが計算される（例えば、Ｐは８０また
は１００かあるいは他のあらゆる所望の数に等しい）。
ＡＲモデル生成スペクトルの計算は、ステップ３２８に
おいてオーディオフレームの次数Ｐの自己回帰（ＡＲ）
モデルパラメータを推定することによって実行される。【００２５】ＡＲモデルパラメータは、例えば、N.Moha
ntyによる「Random signals estimation and identific
ation――Analysis and Applications」、Van Nostrand
Reinhold Company、1986に述べられているようなＬｅ
ｖｉｎｓｏｎ−Ｄｕｒｂｉｎアルゴリズムによって推定
することができる。例えば、まず、オーディオフレーム
の自己相関が、自己相関値Ｒ（ｋ）のセットとして計算
され、その後、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎアルゴ
リズムを使用して自己相関値からＡＲモデルパラメータ
が推定される。ステップ３３０において、自己回帰パラ
メータとＮ点高速フーリエ変換（ＦＦＴ）（Ｎはオーデ
ィオフレームの長さ）とを使用してスペクトルが計算さ
れ、パワースペクトル値の平方根の対数がとられる。ス
テップ３３２において、スペクトルが、単位エネルギー
／ボリュームおよびラウドネスを提供するように正規化
される。スペクトルは、周波数表現の平滑化されたバー
ジョンである。例示的な実施形態では、ＡＲモデルは全
極モデル表現であり、そのためスペクトルにおいてピー
クが突出している。直接計算されたスペクトルを使用す
ることができる（例えば、オーディオフレームに直接１
つのＦＦＴのみを適用することによってもたらされる）
が、例示的な実施形態は、ＡＲモデル生成スペクトルに
おける倍音ピーク(harmonic peaks)を検出する。【００２６】ステップ３３４において、オーディオフレ
ームのＡＲモデル生成スペクトルを計算すると、スペク
トルのすべてのピークが検出されマークされる。ステッ
プ３３６において、検出されたすべてのピークに基づい
て、各音の基本周波数値の候補のリストが「ＦｕＦＬｉ
ｓｔ（）」として生成される。例えば、ステップ３３８
によって表すように、５０Ｈｚと３０００Ｈｚとの間の
あらゆる検出されたピーク「Ｐ」に対し、ＦｕＦＬｉｓ
ｔにおいて、Ｐ、Ｐ／２、Ｐ／３、Ｐ／４等が配置され
る。ステップ３４０において、このリストは、重複した
値を除去するように再配置される。指定された範囲（例
えば、範囲５０Ｈｚ〜２０００Ｈｚ）外の値は除去され
る。【００２７】ステップ３４２において、リストＦｕＦＬ
ｉｓｔにおける各候補ＣＦｕＦに対し、Ｓ（ＣＦｕＦ）
とラベル付けされたスコアが計算される。例えば、ステ
ップ３４４を参照すると、リストの候補ＣＦｕＦのそれ
ぞれの整数倍であるピークを検出するための探索が行わ
れる。以下のように、Ｐ_１〜ＣＦｕＦ；Ｐ_２〜Ｐ_１＋ＣＦｕＦ；… Ｐ_ｋ＋１〜Ｐ_ｋ＋ＣＦｕＦ；… Ｐ_ｋが見つからない場合、Ｐ_ｋ＋１〜Ｐ_ｋ−１＋ＣＦｕ
Ｆ×２等となる。【００２８】この手続きはまた、ＣＦｕＦ値に不調和(i
nharmonicity)または不正確さがある音にも適応するこ
とができる。【００２９】ステップ３４６において、実験式を使用し
て、取得されたピークの数およびパラメータに基づいて
スコアＳ（ＣＦｕＦ）が計算される。概して、計算され
たスコアは、検出された倍音ピークの数と、限定はしな
いが、振幅、幅および鋭さを含む各ピークのパラメータ
とに基づくことができる。例えば、各ピークの第１のサ
ブスコアを、振幅（例えば２つの値、すなわちピークの
左側の１つおよびピークの右側の１つ）、幅および鋭さ
の重み付き合計として計算することができる。重みは、
経験的に確定することができる。幅および／または鋭さ
に関し、最大値は所望の通りに指定することができる。
実際の値は、最大値を超える場合、サブスコアを計算す
るためにその最大値に設定することができる。また、最
大値を経験的に選択することができる。そして、サブス
コアの合計として総スコアが計算される。【００３０】音の潜在的な基本周波数値のリストに含ま
れる各候補のスコアＳ（ＣＦｕＦ）を計算すると、ステ
ップ３４８において、基本周波数値ＦｕＦと関連する調
和部分音ＨＰとが選択される。より詳細には、ステップ
３５０を参照すると、各候補の基本周波数値のスコアが
比較され、ステップ３５０において所定基準（例えば、
最大スコア、最低スコア、または所望の基準に適合する
任意のスコア）を有するスコアが選択される。【００３１】判断ブロック３５２において、選択された
スコアＳ（ＭＦｕＦ）が、スコア閾値と比較される。最
大スコア基準が使用されるとすると、スコアが閾値より
小さい場合、基本周波数値ＦｕＦはゼロに等しく、ステ
ップ３５４において倍音(harmonics)ＨＰはヌルとして
指定される。【００３２】ステップ３５６において、基本周波数値Ｆ
ｕＦは、所定基準（例えば、最高スコア）を満足する候
補ＦｕＦ（ＣＦｕＦ）値に設定される。より詳細には、
図３Ｂを参照すると、スコアＳ（ＭＦｕＦ）が閾値より
大きいという判断の結果、フローはブロック３５２_１に
進み、ＭＦｕＦがスペクトルにおける突出したピークで
ある（例えば、所与の閾値を超える）か否かに関し判断
がなされる。そうである場合、フローはブロック３５６
に進む。そうでない場合、フローは判断ブロック３５２
_２に進み、以下を満足する既存のＭＦｕＦ×ｋ（ｋは２
〜４等の整数または任意の他の値）があるか否かに関す
る判断がなされる。すなわち、ＭＦｕＦ×ｋがスペクト
ルにおける突出したピークであること、Ｓ（ＭＦｕＦ×
ｋ）がスコア閾値より大きいこと、Ｓ（ＭＦｕＦ×ｋ）
＞Ｓ（ＭＦｕＦ）×ｒ（「ｒ」は、０．８またはいずれ
かの他の値等の定数）であることである。ブロック２５
３ _２の条件が満たされない場合、フローは再びブロック
３５６に進む。そうでない場合、フローはブロック３５
２_３に進み、ＭＦｕＦはＭＦｕＦ×ｋに等しく設定され
る。【００３３】フローがブロック３５６に進むと、ＦｕＦ
はＭＦｕＦに等しく設定される。調和部分音もまた確立
される。例えば、ブロック３５６において、Ｐ_ｋが見つ
かる場合、ＨＰ_ｋ＝Ｐ_ｋであり、Ｐ_ｋが見つからない場
合、ＨＰ_ｋ＝０である（ｋ＝１、２、…）。【００３４】ステップ３５８において、推定された調和
部分音シーケンスＨＰは、楽曲において取得された各音
の追加の特性を確定するのに使用するために出力され
る。【００３５】この調和部分音を検出する方法は、鮮明な
音楽のみでなくバックグラウンドが騒々しい音楽にも、
すなわちモノフォニック音楽（１つの楽器および一時に
一音のみ）のみでなく、ポリフォニック音楽（例えば、
２つ以上の楽器が同時に演奏される）にも作用する。し
ばしば、演奏において、２つ以上の楽器が同時に演奏さ
れる（例えば、ピアノ／バイオリン、トランペット／オ
ルガン）。ポリフォニック音楽の場合、最強部分音を有
する音（図３のフローチャートにおいて比較されるよう
な最高スコアを有する）が検出される。【００３６】図１のモジュール１０２による楽曲の区分
と図１のモジュール１０４による調和部分音の検出とを
説明したが、ここでモジュール１０６による各音の時間
的特徴、スペクトル特徴および部分音の特徴の計算に注
目する。概して、音色分類に有用な音の音響的特徴を計
算することができる。楽器が異なれば生成される音色も
異なり、そのため楽器分類は音色分類に相関する（所与
の楽器は、演奏の方法によって複数種類の音色を生成す
る場合もあるが）。【００３７】図４を参照すると、ブロック４０２によっ
て表すように、所与の音とそれに関連する部分音とのデ
ータが、各音の調和部分音を検出するために使用された
モジュールから入力される。ステップ４０４において、
上昇速度Ｒｓ、持続長Ｓｌ、下降速度Ｄｓ、振動度Ｖｄ
等の音の時間的特徴が計算される。【００３８】より詳細には、ステップ４０６を参照する
と、ステップ４０６において音の中に含まれるデータが
調整され(rectify)、ステップ４０８においてフィルタ
に適用される。例えば、カットオフ周波数を有するロー
パスフィルタを使用して、音の時間エンベロープＴｅを
識別することができる。例示的な実施形態では、カット
オフ周波数は、１０Ｈｚかまたは他のあらゆる所望のカ
ットオフ周波数とすることができる。【００３９】ステップ４１０において、時間エンベロー
プＴｅは、３つの期間、すなわち上昇期間Ｒ、持続期間
Ｓおよび下降期間Ｄに分割される。当業者は、不完全な
音であるため、下降期間Ｄと持続期間の一部とが欠けて
いる場合がある、ということを認めるであろう。ステッ
プ４１２において、上昇期間Ｒの平均勾配がＡＳＲ（av
erage slope rise、平均勾配上昇）として計算される。
さらに、持続期間の長さがＬＳ（持続された長さ）とし
て計算され、下降期間Ｄの平均勾配がＡＳＤ（average
slope drop、平均勾配下降）として計算される。ステッ
プ４１４において、上昇速度Ｒｓが、上昇期間ＡＳＲの
平均勾配を用いて計算される。持続長Ｓｌは、持続期間
ＬＳの長さを用いて計算される。下降速度Ｄｓは、下降
期間ＡＳＤの平均勾配を用いて計算され、下降期間が無
い場合下降速度はゼロである。振動度Ｖｄは、持続期間
Ｓのリップル（ある場合）の数および高さを使用して計
算される。【００４０】ステップ４１６において、音のスペクトル
特徴がＥＲとして計算される。これらの特徴は、サブバ
ンド部分比として表される。より詳細には、ステップ４
１８において、先に計算されたような音のスペクトル
は、所定数「ｋ」のサブバンド（例えば、ｋは３、４ま
たは任意の所望の数とすることができる）に周波数分割
される。【００４１】ステップ４２０において、先に検出された
スペクトルの部分音が取得され、ステップ４２２におい
て、各サブバンドの部分音の振幅の合計が計算される。
例えば、計算された部分音の振幅の合計を、Ｅ１、Ｅ
２、…Ｅｋとして表すことができる。合計は、ステップ
４２４においてＥｓｕｍ＝Ｅ１＋Ｅ２…＋Ｅｋとして表
される。ステップ４２６において、サブバンドの部分音
の割合ＥＲが、ＥＲ１＝Ｅ１／Ｅｓｕｍ…、ＥＲｋ＝Ｅ
ｋ／Ｅｓｕｍとして計算される。割合は、サブバンド間
のサウンドのスペクトルエネルギー分布を表す。当業者
は、楽器によってはエネルギーが低い方のサブバンドに
集中するサウンドを生成するものがあれば、エネルギー
が低い方、中間および高い方のサブバンド等の間で略均
一に分布するサウンドを生成するものもあるということ
を認めるであろう。【００４２】ステップ４２８において、以下の式にした
がって、明るさＢｒ、三刺激Ｔｒ_１およびＴｒ_２、奇数
部分音の割合Ｏｒ（奇数または偶数部分音のエネルギー
の欠如を検出するため）および不規則性Ｉｒ（すなわ
ち、隣接する部分音間の振幅偏差）等の音の部分音パラ
メータが計算される。【００４３】【数１】Ｎは部分音の数である。ａ_ｋはｋ番目の部分音の振幅で
ある。【００４４】【数２】これに関し、Kristoffer JensenによるAugust 1998の
「Spectral Envelope Modeling」と題された上述した文
書を参照し、その開示内容はすべて引用をもって本明細
書内に援用されたものとする。【００４５】ステップ４３０において、ドミナントトー
ン(dominant tone)番号ＤＴが計算される。例示的な実
施形態では、ドミナントトーンは最強の部分音に対応す
る。楽器によっては、低周波数帯域に強い部分音を有す
るサウンドを生成するものもあれば、中間かまたはより
高い周波数帯域等に強い部分音を有するサウンドを生成
するものもある。４３２において表すように、ＨＰｄｔ
１、ＨＰｄｔ２およびＨＰｄｔ３として表される（ｄｔ
ｉは部分音ＨＰｄｔｉ（ｉ＝１〜３）の番号）、スペク
トルにおける最初の３つの最高部分音を選択することに
より、ドミナントトーン番号が計算される。ステップ４
３４において、ドミナントトーン番号は、ＤＴ＝｛ｄｔ
１、ｄｔ２、ｄｔ３｝と表される。【００４６】ステップ４３６において、不調和パラメー
タＩＨが計算される。不調和は、部分音の周波数偏差に
対応する。ピアノ等、楽器によっては、基本周波数Ｆｕ
Ｆの整数倍からそれた部分音を有するサウンドを生成す
るものがあり、このパラメータは、偏差の度合の基準を
提供する。ステップ４３８を参照すると、先に検出され
ＨＰ１、ＨＰ２、…ＨＰｋとして表された部分音が取得
される。ステップ４４０において、基準位置ＲＬがＲＬ１＝ＨＰ１×１、ＲＬ２＝ＨＰ１×２、…、ＲＬｋ
＝ＨＰ１×ｋとして計算される。不調和パラメータＩＨは、ステップ
４４２において以下の式によって計算される。【００４７】ｉ＝２〜Ｎに対して、【数３】そして【数４】【００４８】ステップ４４４において、計算された音の
特徴が、音特徴ベクトルＮＦに編成される。例えば、特
徴ベクトルを、以下のように順序付けることができる。
すなわち、Ｒｓ、Ｓｌ、Ｖｄ、Ｄｓ、ＥＲ、Ｂｒ、Ｔｒ
１、Ｔｒ２、Ｏｒ、Ｉｒ、ＤＴ、ＩＨであり、ここでは
特徴ベクトルＮＦは、ｋ＝３である場合１６次元であ
る。ステップ４４６において、特徴ベクトルＮＦは、所
与の音の計算された音特徴の表現として出力される。【００４９】本発明の例示的な実施形態によれば、楽曲
に含まれる複数の音のそれぞれの特性の確定は、図１の
ブロック１０８によって表されるような特徴の少なくと
もいくつかを正規化することを含むことができる。時間
的特徴の正規化により、これら特徴は音の長さとは無関
係となり、したがって不完全な音に適応可能となる。部
分音の特徴の正規化により、これら特徴は音のピッチと
は無関係となる。音のエネルギーが図１のモジュール１
０４において正規化されたことを想起されたい（図３参
照）。正規化により、音のラウドネス／ボリューム、長
さおよび／またはピッチとは無関係に、同じ楽器の音が
同様の特徴値を有し、同じカテゴリに分類されることが
確実となる。さらに、例えばポリフォニック音楽におい
て一般に発生する不完全な音が扱われる。例示的な実施
形態では、異なる特徴の値の範囲が、分類が行われる図
１のモジュール１１０に入力されるように同じオーダー
（例えば０と１０との間）で保持される。例示的な実施
形態では、いかなる特徴にも、他の特徴より高い所定の
重みが与えられないが、望ましい場合、当然ながらかか
る所定の重みを実現することができる。音の特徴の正規
化については、図５を参照してより詳細に説明する。【００５０】図５を参照すると、ステップ５０２は、持
続長Ｓｌおよび振動度Ｖｄ等の時間的特徴を正規化する
ことを対象とする。より詳細には、ステップ５０４を参
照すると、持続長Ｓｌは０〜１の間の値に正規化され
る。例示的な実施形態では、２つの経験的閾値（Ｌｍｉ
ｎおよびＬｍａｘ）を選択することができる。ステップ
５０６において、ステップ５０４の結果に対し以下の論
理が適用される。【００５１】Ｓｌ＜＝Ｌｍｉｎならば、Ｓｌｎ＝０Ｌｍｉｎ＜Ｓｌ＜Ｌｍａｘならば、Ｓｌｎ＝（Ｓｌ−Ｌｍｉｎ）／（Ｌｍａｘ−Ｌｍｉｎ）Ｓｌ＞＝Ｌｍａｘならば、Ｓｌｎ＝１ステップ５０８において、正規化された持続長ＳｌはＳ
ｌｎとして選択される。【００５２】振動度Ｖｄの正規化を、ステップ５１０に
関してより詳細に説明する。ここで、Ｖｄは、２つの経
験的閾値ＶｍｉｎおよびＶｍａｘを使用して０〜１の間
の値に正規化される。以下のように、ステップ５１２に
したがって振動度Ｖｄに対してロジックが適用される。【００５３】Ｖｄ＜＝Ｖｍｉｎならば、Ｖｄｎ＝０Ｖｍｉｎ＜Ｖｄ＜Ｖｍａｘならば、Ｖｄｎ＝（Ｖｄ−Ｖｍｉｎ）／（Ｖｍａｘ−Ｖｍｉｎ）Ｖｄ＞＝Ｖｍａｘならば、Ｖｄｎ＝１ステップ５１４において、振動度Ｖｄは、正規化値Ｖｄ
ｎに設定される。【００５４】ステップ５１６において、明るさＢｒおよ
び三刺激値Ｔｒ１およびＴｒ２等の調和部分音の特徴が
正規化される。より詳細には、ステップ５１８におい
て、ヘルツで推定される基本周波数値ＦｕＦが取得さ
れ、ステップ５２０において、以下の計算が実行され
る。【００５５】Ｂｒｎ＝Ｂｒ×ＦｕＦ／１０００Ｔｒ１ｎ＝Ｔｒ１×１０００／ＦｕＦＴｒ２ｎ＝Ｔｒ２×１０００／ＦｕＦステップ５２２において、明るさ値Ｂｒは、正規化値Ｂ
ｒｎに設定され、三刺激値Ｔｒ１およびＴｒ２は、正規
化値Ｔｒ１ｎおよびＴｒ２ｎに設定される。【００５６】ステップ５２４において、特徴ベクトルＮ
Ｆが、正規化された特徴値によって更新され、出力とし
て提供される。すべての特徴ベクトル値の集まりが、検
討中の楽曲に含まれる複数の音のそれぞれに対して確定
された特性のセットを構成する。【００５７】いくつかの正規化された音の特徴を有する
特徴ベクトルが、図１のモジュール１０８の出力として
供給され、楽曲を分類するために図１のモジュール１１
０によって受取られる。各音を分類するモジュール１１
０を、図６Ａおよび図６Ｂを参照してより詳細に説明す
る。【００５８】図６Ａを参照すると、各検出された音を分
類するために、ニューラルネットワークとガウス混合モ
デル（ＧＭＭ）のセットが使用され、音分類プロセスは
トレーニング可能である。例えば、図６Ａのフローチャ
ートにより例示的なトレーニング手続きを示す。ここで
は、分類される「ｋ」個の異なるタイプの楽器を考慮
し、ステップ６０２において楽器はＩ１、Ｉ２、…Ｉｋ
とラベル付けされる。ステップ６０４において、連続的
楽曲から各楽器のサンプル音が収集される。ステップ６
０６において、各楽器に対しおよそ同じ数のサンプル音
を含むトレーニングセットＴｓが編成される。しかしな
がら、当業者は、いかなる数のサンプル音をいかなる所
与の楽器に関連付けることも可能であるということを認
めるであろう。【００５９】ステップ６０８において、特徴が計算さ
れ、図３ないし図５に関して上述したような仕方で特徴
ベクトルＮＦが生成される。ステップ６１０において、
例えば、開示内容がすべて引用をもって本明細書内に援
用されたものとするＫ．Ｇｕｒｎｅｙによる文書「An I
ntroduction To Neural Networks」に述べられているよ
うに、自己組織化マップ（self-organizing map（ＳＯ
Ｍ））等の教師なし(unsupervised)ニューラルネットワ
ークを使用して最適な特徴ベクトル構造ＮＦＯが取得さ
れる。かかるニューラルネットワークでは、類似度のト
ポロジカルマッピングが生成されることにより、同様の
入力値が、２次元ニューラルネットフィールドにおいて
互いに近接する対応するノードを有することになる。例
示的な実施形態では、全トレーニングプロセスの目標
は、各楽器がニューラルネットフィールド中のある領域
と対応し、同様の楽器（例えば、弦楽器）が隣接する領
域に対応することである。例示的な実施形態により、特
徴ベクトル構造は、この目標を最も満足するＳＯＭを使
用して確定される。しかしながら、当業者は、本発明の
例示的な実施形態により特徴ベクトル構造を確立するた
めにいかなる基準も使用することができるということを
認めるであろう。【００６０】ＳＯＭニューラルネットワークが使用され
る場合、ステップ６１２において、ＳＯＭニューラルネ
ットワークトポロジが構成される。例えば、それは、ニ
ューラルノードの矩形マトリクスとして構成することが
できる。ステップ６１４において、異なる楽器のサンプ
ル音が、トレーニングセットＴｓにおいてランダムに混
合される。ステップ６１６において、サンプル音が、ト
レーニングセットＴｓから１つずつ取出され、音の特徴
ベクトルＮＦが、ＳＯＭトレーニングアルゴリズムを使
用してネットワークをトレーニングするために使用され
る。【００６１】ステップ６１８によって表すように、ネッ
トワークが収束するまでこの手続きが繰返される。収束
すると、ステップ６２０において、特徴ベクトルＮＦの
構造（特徴の選択および特徴ベクトルにおけるそれらの
順序）が変更され、ステップ６１６の入力に戻る分岐に
よって表されるようにネットワークが再トレーニングさ
れる。【００６２】ＳＯＭニューラルネットワークをトレーニ
ングするアルゴリズムは、例えば、開示内容がすべて引
用をもって本明細書内に援用されたものとするK.Gurney
による文書「Introduction To Neural Networks」、UCL
Press、1997において提供されており、あるいは、いか
なる所望のトレーニングアルゴリズムも使用することが
できる。ステップ６２２において、最適なパフォーマン
スでＳＯＭネットワークを提供するかまたは任意の所望
の基準を満足する特徴ベクトルＮＦ構造（例えば、次元
ｍ）が選択される。【００６３】ステップ６１０において最適な特徴ベクト
ル構造ＮＦＯが取得されると、図６Ａの動作のフローは
ステップ６２４に進み、多層パーセプトロン（multi-la
yer-perceptron(ＭＬＰ））ファジーニューラルネット
ワーク等の教師ありニューラルネットワークが、例えば
逆伝播（ＢＰ）アルゴリズムを使用してトレーニングさ
れる。かかるアルゴリズムは、例えば、上述したGurney
の文書において述べられている。【００６４】ＭＬＰファジーニューラルネットワークの
トレーニングを、ブロック６２６に関して説明する。そ
こでは、例えば入力層にｍ個のノードを有し、出力層に
ｋ個のノードを有し、間に１乃至３の隠れ層を有する、
ＭＬＰニューラルネットワークが構成される。ステップ
６２８において、第１ラウンドに対し、ＢＰアルゴリズ
ムを使用してトレーニングセットＴｓのサンプルを用い
てＭＬＰがトレーニングされる。ステップ６３０におい
て、ＭＬＰからの出力は、所定分布にマップされ、目標
出力としてトレーニングサンプルに割当てられる。ステ
ップ６３２において、トレーニングセットＴｓのサンプ
ル（目標出力が修正されている）とＢＰアルゴリズムと
を使用して複数ラウンド（例えば、第２ラウンド）に対
してＭＬＰがトレーニングされる。【００６５】上述したように、例示的なＭＬＰは、音特
徴ベクトルの次元と等しい数の入力層のノードを含み、
出力層におけるノードの数は、楽器種別の数に対応す
る。隠れ層の数と各隠れ層のノードの数とは、ＳＯＭマ
トリクスのサイズの選択と同様の仕方で、問題の複雑性
の関数として選択される。【００６６】当業者は、ＳＯＭマトリクスおよびＭＬＰ
の正確な特性を、ユーザが望むように変更することがで
きるということを認めるであろう。さらに、ＭＬＰに関
して２ステップトレーニング手続きを説明したが、当業
者は、使用されるあらゆる所望のトレーニング手続きに
あらゆる数のトレーニングステップを含むことができる
ということを認めるであろう。２ステップトレーニング
手続きが使用される場合、トレーニングの第１ラウンド
を使用して、最初に２値出力を有するトレーニングサン
プルの所望の目標出力を生成することができる。トレー
ニングプロセスが収束した後、トレーニングサンプルの
実際の出力を、所定の分布（ある範囲の線形分布等、ユ
ーザが画定した所望の分布）にマップすることができ
る。マップされた出力は、トレーニングの第２ラウンド
のためのトレーニングサンプルの目標出力として使用さ
れる。【００６７】ステップ６３４において、トレーニングさ
れたＭＬＰファジーニューラルネットワークは、「ＦＭ
ＬＰＮ」として音分類のために保存される。ステップ６
３６において、各楽器に対し、１つのＧＭＭモデル（ま
たはあらゆる所望の数のモデル）がトレーニングされ
る。【００６８】ステップ６３６における各楽器に対するＧ
ＭＭモデルのトレーニングを、例えば開示内容がすべて
引用をもって本明細書内に援用されたものとするD.Reyn
oldsおよびR.Roseによる「Robust Text-Independent Sp
eaker Identification UsingGaussian Mixture Model
s」、IEEE Transactions On Speech and Audio Process
ing、vol.3、No.1、pp.72〜83、1985において述べられてい
るものと同様の仕方で実行することができる。例えば、
ステップ６３８において表すように、サブセットＴｉが
楽器Ｉｉ（ｉ＝１〜ｋ）に対するサンプルを含む場合、
トレーニングセットＴｓのサンプルをｋ個のサブセット
に分割する。ステップ６４０において、ｉ＝１〜ｋの場
合、サブセットＴｉのサンプルを使用してＧＭＭモデル
ＧＭＭｉがトレーニングされる。各楽器「Ｉｉ」のＧＭ
Ｍモデルは、ステップ６４２においてＧＭＭｉ（ｉ＝１
〜ｋ）として保存される。そして、トレーニング手続き
は完了する。当業者は、ＧＭＭが、Ｍ成分のガウス密度
の重み付き合計を表す統計モデルであり、Ｍが問題の複
雑性の関数として選択されるということを認めるであろ
う。【００６９】トレーニングアルゴリズムは、例えばD.Re
ynolds等による上述した文書「Robust Text-Independen
t Speaker Identification Using Gaussian Mixture Mo
dels」において述べられているようなＥＭプロセスとす
ることができるが、いかなるＧＭＭトレーニングアルゴ
リズムも使用することができる。さらに、各楽器に対し
てＧＭＭをトレーニングすることができるが、望ましい
場合は、単一の楽器に対して複数のＧＭＭを使用するこ
とができ、あるいは複数の楽器間で単一のＧＭＭを共有
することができる。【００７０】当業者は、ＭＬＰが比較的強い分類能力を
提供するが、例示的な実施形態により、検討中の新たな
楽器のそれぞれがすべての楽器に対するＭＬＰの再トレ
ーニングを伴うために比較的柔軟でないということを認
めるであろう。対照的に、異なる楽器のＧＭＭは、大抵
の場合関連がなく、そのため、所与の楽器に特定のＧＭ
Ｍのみをトレーニングすればよい。また、ユーザが指定
した所与の楽器かまたは音のセットに類似する楽曲また
は音を探索する場合に、検索用にＧＭＭを使用すること
ができる。当業者は、例示的な実施形態においてＭＬＰ
とＧＭＭとが共に使用されるが、これらのいずれも他方
と無関係におよび／またはＳＯＭと無関係に使用するこ
とができる、ということを認めるであろう。【００７１】図６Ｂに示す分類手続きは、ステップ６４
４により、特徴ベクトルＮＦにおいてＮＦＯにおけるよ
うに編成するために、区分された音の特徴を計算するこ
とから開始する。ステップ６４６において、特徴ベクト
ルＮＦは、音分類のためのトレーニングされたＭＬＰフ
ァジーニューラルネットワーク（すなわち、ＦＭＬＰ
Ｎ）に入力され、出力層のｋ個のノードからの出力は、
「Ｏ１、Ｏ２、…Ｏｋ」として得られる。【００７２】ステップ６４８において、ステップ６４６
から出力されるノード間の所定値（例えば、最大値）を
有する出力Ｏｍが選択される。ステップ６５０におい
て、音分類のためのトレーニングされたＭＬＰファジー
ニューラルネットワーク（すなわち、ＦＭＬＰＮ）によ
り０＜＝Ｏｍ＜＝１である尤度Ｏｍにより、音は楽器サ
ブセット「Ｉｍ」に分類される。ステップ６５２におい
て、ｉ＝１〜ｋの場合、特徴ベクトルＮＦがＧＭＭモデ
ル「ＧＭＭｉ」に入力されることにより、出力ＧＭＭＯ
ｉが生成される。ステップ６５４において、所定値（例
えば、ｉ＝１〜ｋの場合のＧＭＭＯｉ間の最大値）を有
する出力ＧＭＭＯｎが選択される。ステップ６５６にお
いて、ＧＭＭモジュールによる尤度ＧＭＭＯｎにより、
音が楽器Ｉｎに分類される。【００７３】図１のモジュール１１２において、音分類
結果が統合されて楽曲分類の結果を提供する。これを、
図７においてより詳細に示す。ここでは、ステップ７０
２によって表すように、楽曲は最初にステップ１０２に
したがって音に区分される。ステップ７０４において、
特徴ベクトルが上述したように計算され配置される。ス
テップ７０６において、各音は、上述したようにＭＬＰ
ファジーニューラルネットワークＦＭＬＰＮかまたはガ
ウスモデルＧＭＭｉ（ｉ＝１〜ｋ）を使用して分類され
る。ステップ７０８において、同じ楽器に分類された音
はＩＮｉ（ｉ＝１〜ｋ）とラベル付けされたその楽器の
サブセットに収集される（ステップ７０８）。【００７４】ｉ＝１〜ｋの場合、ステップ７１０におい
て各楽器に対しＩＳｉとラベル付けされたスコアが計算
される。より詳細には、判断ブロック７１２において、
ＭＬＰファジーニューラルネットワークが音分類のため
に使用されるか否かの判断が行われる。使用される場
合、ステップ７１４において、楽器サブセットＩＮｉの
すべての音「ｘ」に対するＭＬＰファジーニューラルネ
ットワークＦＭＬＰＮの出力層におけるｋ個のノードか
らの出力Ｏｘの合計として、スコアＩＳｉが計算され
る。ここで、Ｏｘは、ＭＬＰファジーニューラルネット
ワークＦＭＬＰＮを使用して楽器Ｉｉ（ｉ＝１〜ｋ）に
分類された音ｘの尤度である。ニューラル分類に対して
ＭＬＰファジーニューラルネットワークが使用されなか
った場合、ブロック７１２の出力はステップ７１６に進
み、スコアＩＳｉが、楽器サブセットＩＮｉに含まれる
すべての音ｘに対するＧＭＭＯｘとして表されるガウス
混合モデル出力ＧＭＭＯの合計に対応する。ここで、Ｏ
ｘは、ガウス混合モデルを使用して楽器Ｉｉ（ｉ＝１〜
ｋ）に分類されるｘの尤度である。ステップ７１８にお
いて、楽器スコアＩＳｉは、ＩＳｉ（ｉ＝１〜ｋ）の合
計が１に等しくなるように正規化される。【００７５】ステップ７２０において、トップスコアＩ
Ｓｍ１、ＩＳｍ２、…、ＩＳｍｎは、ＩＳｍｉ（ｉ＝１
〜ｎ）がｔｓ以上でありｎがｔｎ以下である（例えば、
ｔｓ＝１０％かまたはそれより小さいかまたは大きい、
ｔｎ＝３かまたはそれより小さいかまたは大きい）とい
う条件に対して識別される。ステップ７２２において、
トップスコアＩＳｍｉ（ｉ＝１〜ｎ）の値は、すべての
ＩＳｍｉ（ｉ＝１〜ｎ）の合計が総計１になるように正
規化される。本明細書で説明したあらゆる計算または評
価によって使用されたすべての基準と同様に、当業者
は、所望の通りに基準を変更することができる。【００７６】ステップ７２４において、楽曲は、それぞ
れスコアＩＳｍ１、ＩＳｍ２、…、ＩＳｍｎを含む楽器
Ｉｍ１、Ｉｍ２、…、Ｉｍｎを有するものとして分類さ
れる。分類に基づき、楽曲等の音楽関連情報か、または
少なくとも部分的に複数のサウンドを有する楽曲を含む
他のタイプの情報を、データベースの楽曲または音楽関
連情報の容易なインデクスのために、メタデータインジ
ケータまたはタグを用いてインデクシングすることがで
きる。【００７７】メタデータインジケータを使用して、リア
ルタイムにデータベースから楽曲または関連する音楽関
連情報を検索することができる。例示的な実施形態で
は、全体として所与の楽曲内に含まれる複数の音の特徴
を統合して楽曲の分類を可能にする。したがって、ユー
ザが、既知のサウンドおよび／または楽器のシーケンス
を有する所与の楽曲を選択する探索要求をインタフェー
スに対して提供することが容易になる。例えば、楽曲
を、指定された楽器に分類された音の尤度値の合計を表
すスコアにしたがって分類することができる。最高スコ
アを有する楽器を選択することができ、これらの楽器に
したがって楽曲を分類することができる。一実施例で
は、楽曲は、９０％の尤度で、１００％ギターである
か、または６０％ピアノおよび４０％バイオリンである
ものとして示すことができる。【００７８】このように、例示的な実施形態では、所与
の楽曲のすべての音の特徴を統合することができ、それ
によって楽曲を全体として分類することができる。これ
により、ユーザが、データベース内の楽曲を個々の音を
考慮することによるより容易に識別することができるよ
うになる。【００７９】本発明をその好ましい実施形態に関して詳
細に説明したが、当業者には、本発明から逸脱すること
なく、種々の変形および変更を行うことが可能であり、
均等物を採用することができるということが明らかとな
ろう。【００８０】本発明の態様を以下に例示する。【００８１】１．サウンドの集まりによって構成される
楽曲を分類する方法であって、時間エネルギーエンベロ
ープを使用して前記楽曲の一部に含まれる複数の音のそ
れぞれのオンセットを検出するステップ（１０２）と、
該複数の音のそれぞれの特性を確定するステップ（１０
４、１０６、１０８）と、該複数の音のそれぞれの確定
された特性の統合に基づき、データベースに格納するた
めに楽曲を分類するステップ（１１０）とを含む方法。【００８２】２．各音の前記オンセットを使用して前記
楽曲を音に区分するステップ（１０２）を含む上記１記
載の方法。【００８３】３．前記特性を確定するステップは、前記
音のエネルギー関数を計算すること（３０６）により音
の調和部分音を検出することを含む上記１記載の方法。【００８４】４．前記確定するステップは、前記調和部
分音を推定するために少なくとも１つの音の中の少なく
とも１つの点を確定すること（３０４）と、該少なくと
も１つの点を中心に集中し複数のサンプルを含む、前記
少なくとも１つの音に対するオーディオフレームを形成
すること（３２４）、該オーディオフレームの自己回帰
モデルによって生成されるスペクトルを計算すること
（３２６）、該オーディオフレームの該生成されたスペ
クトルにおける検出されたピークに基づいて、前記少な
くとも１つの音の基本周波数値としての候補のリストを
生成すること（３３６）、該リストの各候補のスコアを
計算すること（３４２）、前記少なくとも１つの音の基
本周波数値と関連する部分音とを、その基本周波数値の
スコアの比較に基づいて選択すること（３４８）を含む
上記１記載の方法。【００８５】５．前記各音の特性を確定するステップ
は、各音の時間的特徴を計算するステップ（４０４）を
含む上記１記載の方法。【００８６】６．前記各音の特性を確定するステップ
は、各音のスペクトル特徴を計算するステップ（４１
６）を含む上記１記載の方法。【００８７】７．各音の不調和パラメータを該音の検出
された調和部分音に基づいて計算するステップ（４３
６）と、各音の計算された音特徴を特徴ベクトルに編成
するステップ（４４４）とを含む上記１記載の方法。【００８８】８．前記分類するステップは、各音に関連
する特徴ベクトルをニューラルネットワークを使用して
処理する、トレーニング可能な特徴ベクトル構造（６０
８）を生成するステップを含む上記１記載の方法。【００８９】９．前記分類するステップは、逆伝播アル
ゴリズムの複数ラウンドを使用して多層パーセプトロン
ファジーニューラルネットワークをトレーニングするス
テップ（６２４）と、各楽器に対してガウス混合モデル
をトレーニングするステップ（６３６）とを含む上記１
記載の方法。【００９０】１０．データベースに格納するためにメタ
データによって前記楽曲をインデクシングするステップ
（７２４）を含む上記１記載の方法。

【図面の簡単な説明】【図１】本発明の例示的な実施形態による、楽曲を分類
するシステムの例示的機能ブロック図を示す。【図２】図１の例示的な実施形態の第１のモジュールに
関連する機能ブロック図を示す。【図３Ａ】図１の例示的な実施形態の第２のモジュール
に関連する機能ブロック図を示す。【図３Ｂ】図１の例示的な実施形態の第２のモジュール
に関連する機能ブロック図を示す。【図４】図１の例示的な実施形態の第３のモジュールに
関連する機能ブロック図を示す。【図５】図１の例示的な実施形態の第４のモジュールに
関連する機能ブロック図を示す。【図６Ａ】図１の例示的な実施形態の第５のモジュール
に関連する機能ブロック図を示す。【図６Ｂ】図１の例示的な実施形態の第５のモジュール
に関連する機能ブロック図を示す。【図７】図１の例示的な実施形態の第６のモジュールに
関連する機能ブロック図を示す。

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B075 ND14 NR12 5D082 BB01

Claims

【特許請求の範囲】【請求項１】サウンドの集まりによって構成される楽
曲を分類する方法であって、時間エネルギーエンベロープを使用して前記楽曲の一部
に含まれる複数の音のそれぞれのオンセットを検出する
ステップと、該複数の音のそれぞれの特性を確定するステップと、該複数の音のそれぞれの確定された特性の統合に基づ
き、データベースに格納するために楽曲を分類するステ
ップとを含む方法。