JP2003140647A - 複数の音を含む楽曲を分類する方法 - Google Patents

複数の音を含む楽曲を分類する方法

Info

Publication number
JP2003140647A
JP2003140647A JP2002233328A JP2002233328A JP2003140647A JP 2003140647 A JP2003140647 A JP 2003140647A JP 2002233328 A JP2002233328 A JP 2002233328A JP 2002233328 A JP2002233328 A JP 2002233328A JP 2003140647 A JP2003140647 A JP 2003140647A
Authority
JP
Japan
Prior art keywords
sound
sounds
music
calculated
tones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002233328A
Other languages
English (en)
Other versions
JP4268386B2 (ja
JP2003140647A5 (ja
Inventor
Tong Zhang
トン・ザァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2003140647A publication Critical patent/JP2003140647A/ja
Publication of JP2003140647A5 publication Critical patent/JP2003140647A5/ja
Application granted granted Critical
Publication of JP4268386B2 publication Critical patent/JP4268386B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/155Library update, i.e. making or modifying a musical database using musical parameters as indices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/215Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
    • G10H2250/235Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 サウンドの集まりによって構成される楽曲を
分類する方法を提供する。 【解決手段】 時間エネルギーエンベロープを使用して
前記楽曲の一部に含まれる複数の音のそれぞれのオンセ
ットを検出するステップ(102)と、該複数の音のそ
れぞれの特性を確定するステップ(104,106,1
08)と、該複数の音のそれぞれの確定された特性の統
合に基づき、データベースに格納するために楽曲を分類
するステップ(110)とを含む方法。態様により、特
性を確定するステップは、前記音のエネルギー関数を計
算すること(306)により音の調和部分音を検出する
ことを含む。

Description

【発明の詳細な説明】 【0001】 【発明の属する技術分野】本発明は、包括的には複数の
音(note)を含む楽曲の分類に関し、特に、データベー
スの管理中のインデクシングおよび検索のための楽曲の
分類に関する。 【0002】 【従来の技術】既知の研究は、電子音楽を製作するため
の合成された音の生成等、個別の音の電子合成を対象と
してきた。また、研究は、楽器(すなわち、電子および
アコースティックの両方)によって生成される個々の音
の解析も対象としてきた。これらの分野における研究
は、モノフォニックサウンド(すなわち、一度に1音を
生成する単一楽器からのサウンド)としての、または合
成(例えば、MIDI)音楽としての、単一音の分類お
よび/または生成を対象としてきた。 【0003】単一音の生成および/または分類のための
既知の技術は、単一音に関して使用することができる特
徴抽出方法と分類ツールとの開発を伴ってきた。例え
ば、Alicja Wieczorkowskaによる「Rough Sets As A To
ol For Audio Signal Classification」Technical Univ
ersity of Gdansk、Poland、pp.367〜375は、楽器サウン
ドの自動分類を対象とする。Judith C.Brownによる「Co
mputer Identificationof Musical Instruments Using
Pattern Recognition With Cepstral Coefficients As
Features」、J.Acoust.Soc.Am 105(3) March 1999、pp.
1933〜1941は、パターン解析において特徴としてケプス
トラル係数を使用することを述べている。 【0004】分類のための特徴として個々の音のウェー
ブレット係数と聴覚モデリングパラメータとを使用する
ことも既知である。例えば、Jeong,Jae-Hoon等による
「Musical Timbre Recognition With Neural Network
s」、Department of Electrical Engineering、Korea Adva
nced Institute of Science and Technology、pp.869〜
872と、Cosi,Piero等による「Auditory Modeling and S
elf-Organizing Neural Networks for Timbre Classifi
cation」、Journal of New Music Research、Vol.23(199
4)、pp.71〜98とをそれぞれ参照のこと。これら後の2
つの文書はまた、Fragoulis,D.K.等による「Timbre Rec
ognition of Single Notes Using An ARTMAPNeural Net
work」、National Technical University of Athens、IC
ECS 1999(IEEE International Conference on Electron
ics、Circuits and Systems)のpp.1009〜1012およびCost
antini, G.等による「Recognition of Musical Instrum
ents By A NonExclusive Neuro-Fuzzy Classifier」、E
CMCS’99、EURASIP Conference、June24〜26、1999、Krako
w、4 pagesと共に、分類ツールにおいて人工ニューラル
ネットワークの使用を対象とする。Kristoffer Jensen
による「Spectral Envelope Modeling」、Department of C
omputer Science、University of Copenhagen、Denmarkと
題された別の文書は、典型的な楽音のスペクトルエンベ
ロープを解析することを述べている。 【0005】 【発明が解決しようとする課題】既知の研究は、複数音
を含む連続的な楽曲および/または複数の楽器および/
または1度に演奏される複数音によって生成されるポリ
フォニック音楽の解析は対象としてこなかった。さら
に、既知の解析ツールは、複雑であり、データベース管
理中の楽曲のインデクシングおよび検索等のリアルタイ
ムアプリケーションには不適当である。 【0006】 【課題を解決するための手段】本発明は、楽曲に含まれ
る複数の音のそれぞれに対して確定された特性に基づい
て楽曲を分類することを対象とする。例示的な実施形態
は、音楽の連続的な一部分において、音の開始点および
終了点が、前の音、次の音、または1つまたは複数の楽
器によって同時に演奏される音とオーバラップする可能
性がある、という事実に適応する。これは、異なる楽器
が大幅に異なる特性を有する音を生成する、というさら
なる事実によって複雑になる。例えば、トランペットま
たはフルートによって生成される音等、持続(sustainin
g)段階をもつ音は、その持続段階の中間において高エネ
ルギーを有し、ピアノまたはギターによって生成される
音等、持続段階をもたない音は、その音が最初に生成さ
れるアタック(attacking)段階で高エネルギーを有す
る。例示的な実施形態では、これら複雑性を扱うことに
より、データベースにおいてリアルタイムでの楽曲のイ
ンデクシングおよび検索を可能とし、それによってデー
タベース管理を簡略化しデータベースに含まれるマルチ
メディア資産を探索する機能を拡張する。 【0007】概して、例示的な実施形態は、サウンドの
集まりによって構成される楽曲を分類する方法であっ
て、時間エネルギーエンベロープを使用して楽曲の一部
に含まれる複数の音のそれぞれのオンセット(onset)を
検出するステップと、複数の音のそれぞれの特性を確定
するステップと、複数の音のそれぞれに対して確定され
た特性の統合に基づき、データベースに格納するために
楽曲を分類するステップとを含む方法を対象とする。 【0008】ここで、本発明を、添付図面において例示
する好ましい実施形態を参照してより詳細に説明する。
図面において、同じ要素は同じ参照符号を有する。 【0009】 【発明の実施の形態】図1のシステムは、サウンドの集
まりによって構成される楽曲を分類する方法であって、
時間エネルギーエンベロープを使用して楽曲の一部にお
ける複数の音のそれぞれのオンセットを検出するステッ
プを含む方法を実現する。例えば、モジュール102
は、音のオンセットを検出することにより、楽曲を音に
区分することを含む。 【0010】図1のシステムは、さらに、オンセットが
検出された複数の音のそれぞれの特性を確定するモジュ
ール104を含む。確定された特性は、各音における調
和部分音(harmonic partials)を検出することを含むこ
とができる。例えば、ポリフォニックサウンドの場合、
最強サウンドの部分音を識別することができる。各音の
特性を確定するステップは、モジュール106によって
表すように各音の時間的特徴、スペクトル特徴および部
分音の特徴を計算することを含むことができ、音の特徴
はモジュール108において最適に正規化される。 【0011】図1のシステムはまた、複数の音のそれぞ
れに対する確定された特性の統合に基づいて、データベ
ースに格納するために楽曲を分類する、1つまたは複数
のモジュールも含む。例えば、図1のモジュール110
によって表すように、各音は、ニューラルネットワーク
とガウス混合モデル(Gaussian mixture model(GM
M))とのセットを使用することによって分類すること
ができる。モジュール112において、音分類結果を統
合することにより、楽曲分類結果を提供することができ
る。楽曲に割当てられた分類に基づいてデータベースに
格納するために楽曲をインデクシングするために使用す
ることができるあらゆる情報として表された、メタデー
タを確立するために分類を使用することができる。同様
に、データベースから楽曲を検索するためにメタデータ
を使用することができる。本発明の技術によれば、分
類、インデクシングおよび検索をリアルタイムで実行す
ることができるため、例示的な実施形態がオンラインデ
ータベース管理に適したものとなる。当業者は、本明細
書で説明する機能を、いかなる数(例えば、1または複
数)のモジュールにおいていかなる所望の仕方によって
も結合することができ、あるいは、ソフトウェアおよび
/またはハードウェアコンポーネントの単一の統合シス
テムとして非モジュール形式で実現することができるこ
とを認めるであろう。 【0012】図2は、楽曲を区分する目的で、楽曲に含
まれる複数の音のそれぞれのオンセットを検出すること
に関連する例示的なステップを詳述する。例示的な図2
の方法は、時間エネルギーエンベロープを使用して、時
間エネルギーエンベロープのエネルギー値の急峻な下降
および/または上昇によって表されるような、楽曲の一
部に含まれる複数の音のそれぞれのオンセットを検出す
ることを含む。図2を参照すると、ステップ202にお
いて、音楽データがデジタル音楽ファイルからバッファ
に読込まれる。ステップ204において、第1のカット
オフ周波数f1を使用して取得されるような、楽曲の時
間エネルギーエンベロープE1が計算される。例えば、
楽曲は、10Hzかまたはそれより小さいかまたは大き
いオーダでエネルギーエンベロープを有することができ
る。 【0013】時間エネルギーエンベロープの計算は、ス
テップ206において楽曲のすべての音楽データを調整
する(rectify)ステップを含む。ステップ208におい
て、調整された音楽に対し、カットオフ周波数「FRE
Q」を有するローパスフィルタが適用される。当然なが
ら、所望の時間エネルギーエンベロープを識別すること
ができれば、いかなるフィルタを使用することも可能で
ある。 【0014】ステップ210において、時間エネルギー
エンベロープE1の一次差分D1が計算される。例示的
な実施形態では、ブロック214、216および218
において、2閾値を使用して潜在的な音のオンセット
「PO」を識別することができる(212)。 【0015】例えば、1つの例示的な2閾値方式によれ
ば、2つの閾値ThおよびTlの値は、実験式を使用し
て、例えば時間エネルギーエンベロープE1の平均と一
次差分D1の標準偏差とに基づいて確定される。一例で
は、十分に強いとみなされる音のみが検出され、それよ
り弱い音は無視される。それは、流れに沿って実行され
る調和部分音検出および調和部分音パラメータ計算は、
弱い音に関して信頼性が低い可能性があるためである。
実施例では、ThおよびTlがE1の平均とD1の標準
偏差とに基づいて適応可能に確定される場合、Thは固
定比率でTlより高くすることができる。例えば、 Th=c1×平均(El)+c2×標準偏差(D1) Tl=Th×c3 ここで、c1、c2およびc3は定数である(例えば、
c1=1.23/2000、c2=1、c3=0.8、
あるいは他の任意の所望の定数値)。 【0016】以下の2つの基準のうちの少なくとも1つ
を満足する時間エネルギーエンベロープの一次差分のピ
ークが探索される。すなわち、正のピークが第1の閾値
Thより高いか、あるいは正のピークは第2の閾値Tl
より高く負のピークはその直前の−Thより低い、とい
う基準である。各検出されたピークは、潜在的オンセッ
ト「PO」としてマークされる。潜在的オンセットは、
例示的な実施形態では、時間エネルギーエンベロープE
1における、値の急峻な上昇および/または下降に対応
する。 【0017】2閾値方式かまたは他の任意の数の閾値
(例えば、単一閾値か、または3つ以上の閾値)を使用
して潜在的な音のオンセットを検出した後、楽曲の第2
の時間エネルギーエンベロープにおいて、音のオンセッ
トの正確な位置が探索される。したがって、ブロック2
20において、第2のカットオフ周波数f2を使用して
取得されるように、楽曲の第2の時間エネルギーエンベ
ロープがE2として計算される(例えば、楽曲のエンベ
ロープを生成するために使用されるカットオフは、20
ヘルツかあるいはそれより小さいかまたは大きい)。ス
テップ222において、E2における潜在的な音のオン
セット「PO」が識別される。正確な音のオンセット位
置が識別され、フォールスアラーム(false alarm)(楽
器の振動によるエネルギーの上昇または下降等)が除去
される。 【0018】第2の時間エネルギーエンベロープにおけ
る潜在的な音のオンセットのチェックのプロセスは、ス
テップ224を含み、そこでは、各潜在的な音のオンセ
ットに対し、時間エネルギーエンベロープE2における
音の開始点が探索される。潜在的オンセットは、その点
に対して再配置され、最終的な音のオンセットとして新
たに命名される。ステップ226において、所与の上昇
/下降期間に複数の潜在的なオンセットが検出された場
合、1つの音の中で余剰の潜在的な音のオンセットが除
去される。ステップ228において、楽器の振動によっ
てもたらされるフォールスアラームの潜在的なオンセッ
トが除去される。 【0019】ステップ230において、最終的な音のオ
ンセットが保存される。ステップ232において、時間
エネルギーエンベロープE2を解析することにより、音
の終了点が探索され、音の長さが記録される。楽曲の一
部に含まれる複数の音のそれぞれのオンセットを検出す
るステップを使用して、楽曲を音に区分することができ
る。 【0020】図3Aは、複数の音のそれぞれの特性の検
出、特に、各音に関連する調和部分音の検出モジュール
104を示す。調和部分音は、調波サウンドの基本周波
数の整数倍であり、例えば、周波数領域におけるピーク
として表される。図3Aを参照すると、ステップ302
において、デジタル音楽ファイルからバッファに音楽デ
ータを読出すことができる。最終的オンセットFOによ
って表される音のオンセット位置が、音の長さ(すなわ
ち、図1のモジュール102の出力)と共に入力され
る。ステップ304において、正しい点Kが、最終オン
セット位置によって識別される各音に関連する調和部分
音を推定するために識別される。 【0021】調和部分音を推定するために適した点Kを
確定するために、ステップ306において、各音に対し
エネルギー関数が計算される。すなわち、値Xを有す
る音の各サンプルnに対し、ブロック308に示すよう
に、その音のエネルギー関数Eが以下のように計算さ
れる。 【0022】Xが0以上である場合 E=Xが0未満である場合 E=−X 判断ブロック310において、音の長さが確定される。
例えば、音の長さNが、300ミリ秒かあるいはそれよ
り短いかまたは長い等の所定の期間より、短いか否かが
判断される。短い場合、ブロック312に示すように、
点KはN/2に等しい。そうでない場合、ブロック31
4に示すように、点Aは音のオンセットに等しく、点B
は150ミリ秒等の所定の期間に等しく、点CはN/2
に等しい。ステップ316において、エネルギー関数E
の最大値を有する点AとCとの間の点Dが探索され
る。判断ブロック318において、点Dが点Bと比較さ
れる。点Dが点Bより小さい場合、ステップ320にお
いてK=Bとなる。そうでない場合、ステップ322に
おいてK=Dとなる。 【0023】ステップ324において、例示的な実施形
態では、ある点に集中しN個のサンプル(例えば、N=
1024か、2048か、それより少ないかまたはそれ
より多い)を含み、「K」が中心であるオーディオフレ
ームが形成される。 【0024】ステップ326において、次数「P」のオ
ーディオフレームの自己回帰(AR)モデルにより生成
されるスペクトルが計算される(例えば、Pは80また
は100かあるいは他のあらゆる所望の数に等しい)。
ARモデル生成スペクトルの計算は、ステップ328に
おいてオーディオフレームの次数Pの自己回帰(AR)
モデルパラメータを推定することによって実行される。 【0025】ARモデルパラメータは、例えば、N.Moha
ntyによる「Random signals estimation and identific
ation――Analysis and Applications」、Van Nostrand
Reinhold Company、1986に述べられているようなLe
vinson−Durbinアルゴリズムによって推定
することができる。例えば、まず、オーディオフレーム
の自己相関が、自己相関値R(k)のセットとして計算
され、その後、Levinson−Durbinアルゴ
リズムを使用して自己相関値からARモデルパラメータ
が推定される。ステップ330において、自己回帰パラ
メータとN点高速フーリエ変換(FFT)(Nはオーデ
ィオフレームの長さ)とを使用してスペクトルが計算さ
れ、パワースペクトル値の平方根の対数がとられる。ス
テップ332において、スペクトルが、単位エネルギー
/ボリュームおよびラウドネスを提供するように正規化
される。スペクトルは、周波数表現の平滑化されたバー
ジョンである。例示的な実施形態では、ARモデルは全
極モデル表現であり、そのためスペクトルにおいてピー
クが突出している。直接計算されたスペクトルを使用す
ることができる(例えば、オーディオフレームに直接1
つのFFTのみを適用することによってもたらされる)
が、例示的な実施形態は、ARモデル生成スペクトルに
おける倍音ピーク(harmonic peaks)を検出する。 【0026】ステップ334において、オーディオフレ
ームのARモデル生成スペクトルを計算すると、スペク
トルのすべてのピークが検出されマークされる。ステッ
プ336において、検出されたすべてのピークに基づい
て、各音の基本周波数値の候補のリストが「FuFLi
st()」として生成される。例えば、ステップ338
によって表すように、50Hzと3000Hzとの間の
あらゆる検出されたピーク「P」に対し、FuFLis
tにおいて、P、P/2、P/3、P/4等が配置され
る。ステップ340において、このリストは、重複した
値を除去するように再配置される。指定された範囲(例
えば、範囲50Hz〜2000Hz)外の値は除去され
る。 【0027】ステップ342において、リストFuFL
istにおける各候補CFuFに対し、S(CFuF)
とラベル付けされたスコアが計算される。例えば、ステ
ップ344を参照すると、リストの候補CFuFのそれ
ぞれの整数倍であるピークを検出するための探索が行わ
れる。以下のように、 P〜CFuF; P〜P+CFuF;… Pk+1〜P+CFuF;… Pが見つからない場合、Pk+1〜Pk−1+CFu
F×2等となる。 【0028】この手続きはまた、CFuF値に不調和(i
nharmonicity)または不正確さがある音にも適応するこ
とができる。 【0029】ステップ346において、実験式を使用し
て、取得されたピークの数およびパラメータに基づいて
スコアS(CFuF)が計算される。概して、計算され
たスコアは、検出された倍音ピークの数と、限定はしな
いが、振幅、幅および鋭さを含む各ピークのパラメータ
とに基づくことができる。例えば、各ピークの第1のサ
ブスコアを、振幅(例えば2つの値、すなわちピークの
左側の1つおよびピークの右側の1つ)、幅および鋭さ
の重み付き合計として計算することができる。重みは、
経験的に確定することができる。幅および/または鋭さ
に関し、最大値は所望の通りに指定することができる。
実際の値は、最大値を超える場合、サブスコアを計算す
るためにその最大値に設定することができる。また、最
大値を経験的に選択することができる。そして、サブス
コアの合計として総スコアが計算される。 【0030】音の潜在的な基本周波数値のリストに含ま
れる各候補のスコアS(CFuF)を計算すると、ステ
ップ348において、基本周波数値FuFと関連する調
和部分音HPとが選択される。より詳細には、ステップ
350を参照すると、各候補の基本周波数値のスコアが
比較され、ステップ350において所定基準(例えば、
最大スコア、最低スコア、または所望の基準に適合する
任意のスコア)を有するスコアが選択される。 【0031】判断ブロック352において、選択された
スコアS(MFuF)が、スコア閾値と比較される。最
大スコア基準が使用されるとすると、スコアが閾値より
小さい場合、基本周波数値FuFはゼロに等しく、ステ
ップ354において倍音(harmonics)HPはヌルとして
指定される。 【0032】ステップ356において、基本周波数値F
uFは、所定基準(例えば、最高スコア)を満足する候
補FuF(CFuF)値に設定される。より詳細には、
図3Bを参照すると、スコアS(MFuF)が閾値より
大きいという判断の結果、フローはブロック352
進み、MFuFがスペクトルにおける突出したピークで
ある(例えば、所与の閾値を超える)か否かに関し判断
がなされる。そうである場合、フローはブロック356
に進む。そうでない場合、フローは判断ブロック352
に進み、以下を満足する既存のMFuF×k(kは2
〜4等の整数または任意の他の値)があるか否かに関す
る判断がなされる。すなわち、MFuF×kがスペクト
ルにおける突出したピークであること、S(MFuF×
k)がスコア閾値より大きいこと、S(MFuF×k)
>S(MFuF)×r(「r」は、0.8またはいずれ
かの他の値等の定数)であることである。ブロック25
の条件が満たされない場合、フローは再びブロック
356に進む。そうでない場合、フローはブロック35
に進み、MFuFはMFuF×kに等しく設定され
る。 【0033】フローがブロック356に進むと、FuF
はMFuFに等しく設定される。調和部分音もまた確立
される。例えば、ブロック356において、Pが見つ
かる場合、HP=Pであり、Pが見つからない場
合、HP=0である(k=1、2、…)。 【0034】ステップ358において、推定された調和
部分音シーケンスHPは、楽曲において取得された各音
の追加の特性を確定するのに使用するために出力され
る。 【0035】この調和部分音を検出する方法は、鮮明な
音楽のみでなくバックグラウンドが騒々しい音楽にも、
すなわちモノフォニック音楽(1つの楽器および一時に
一音のみ)のみでなく、ポリフォニック音楽(例えば、
2つ以上の楽器が同時に演奏される)にも作用する。し
ばしば、演奏において、2つ以上の楽器が同時に演奏さ
れる(例えば、ピアノ/バイオリン、トランペット/オ
ルガン)。ポリフォニック音楽の場合、最強部分音を有
する音(図3のフローチャートにおいて比較されるよう
な最高スコアを有する)が検出される。 【0036】図1のモジュール102による楽曲の区分
と図1のモジュール104による調和部分音の検出とを
説明したが、ここでモジュール106による各音の時間
的特徴、スペクトル特徴および部分音の特徴の計算に注
目する。概して、音色分類に有用な音の音響的特徴を計
算することができる。楽器が異なれば生成される音色も
異なり、そのため楽器分類は音色分類に相関する(所与
の楽器は、演奏の方法によって複数種類の音色を生成す
る場合もあるが)。 【0037】図4を参照すると、ブロック402によっ
て表すように、所与の音とそれに関連する部分音とのデ
ータが、各音の調和部分音を検出するために使用された
モジュールから入力される。ステップ404において、
上昇速度Rs、持続長Sl、下降速度Ds、振動度Vd
等の音の時間的特徴が計算される。 【0038】より詳細には、ステップ406を参照する
と、ステップ406において音の中に含まれるデータが
調整され(rectify)、ステップ408においてフィルタ
に適用される。例えば、カットオフ周波数を有するロー
パスフィルタを使用して、音の時間エンベロープTeを
識別することができる。例示的な実施形態では、カット
オフ周波数は、10Hzかまたは他のあらゆる所望のカ
ットオフ周波数とすることができる。 【0039】ステップ410において、時間エンベロー
プTeは、3つの期間、すなわち上昇期間R、持続期間
Sおよび下降期間Dに分割される。当業者は、不完全な
音であるため、下降期間Dと持続期間の一部とが欠けて
いる場合がある、ということを認めるであろう。ステッ
プ412において、上昇期間Rの平均勾配がASR(av
erage slope rise、平均勾配上昇)として計算される。
さらに、持続期間の長さがLS(持続された長さ)とし
て計算され、下降期間Dの平均勾配がASD(average
slope drop、平均勾配下降)として計算される。ステッ
プ414において、上昇速度Rsが、上昇期間ASRの
平均勾配を用いて計算される。持続長Slは、持続期間
LSの長さを用いて計算される。下降速度Dsは、下降
期間ASDの平均勾配を用いて計算され、下降期間が無
い場合下降速度はゼロである。振動度Vdは、持続期間
Sのリップル(ある場合)の数および高さを使用して計
算される。 【0040】ステップ416において、音のスペクトル
特徴がERとして計算される。これらの特徴は、サブバ
ンド部分比として表される。より詳細には、ステップ4
18において、先に計算されたような音のスペクトル
は、所定数「k」のサブバンド(例えば、kは3、4ま
たは任意の所望の数とすることができる)に周波数分割
される。 【0041】ステップ420において、先に検出された
スペクトルの部分音が取得され、ステップ422におい
て、各サブバンドの部分音の振幅の合計が計算される。
例えば、計算された部分音の振幅の合計を、E1、E
2、…Ekとして表すことができる。合計は、ステップ
424においてEsum=E1+E2…+Ekとして表
される。ステップ426において、サブバンドの部分音
の割合ERが、ER1=E1/Esum…、ERk=E
k/Esumとして計算される。割合は、サブバンド間
のサウンドのスペクトルエネルギー分布を表す。当業者
は、楽器によってはエネルギーが低い方のサブバンドに
集中するサウンドを生成するものがあれば、エネルギー
が低い方、中間および高い方のサブバンド等の間で略均
一に分布するサウンドを生成するものもあるということ
を認めるであろう。 【0042】ステップ428において、以下の式にした
がって、明るさBr、三刺激TrおよびTr、奇数
部分音の割合Or(奇数または偶数部分音のエネルギー
の欠如を検出するため)および不規則性Ir(すなわ
ち、隣接する部分音間の振幅偏差)等の音の部分音パラ
メータが計算される。 【0043】 【数1】 Nは部分音の数である。aはk番目の部分音の振幅で
ある。 【0044】 【数2】 これに関し、Kristoffer JensenによるAugust 1998の
「Spectral Envelope Modeling」と題された上述した文
書を参照し、その開示内容はすべて引用をもって本明細
書内に援用されたものとする。 【0045】ステップ430において、ドミナントトー
ン(dominant tone)番号DTが計算される。例示的な実
施形態では、ドミナントトーンは最強の部分音に対応す
る。楽器によっては、低周波数帯域に強い部分音を有す
るサウンドを生成するものもあれば、中間かまたはより
高い周波数帯域等に強い部分音を有するサウンドを生成
するものもある。432において表すように、HPdt
1、HPdt2およびHPdt3として表される(dt
iは部分音HPdti(i=1〜3)の番号)、スペク
トルにおける最初の3つの最高部分音を選択することに
より、ドミナントトーン番号が計算される。ステップ4
34において、ドミナントトーン番号は、DT={dt
1、dt2、dt3}と表される。 【0046】ステップ436において、不調和パラメー
タIHが計算される。不調和は、部分音の周波数偏差に
対応する。ピアノ等、楽器によっては、基本周波数Fu
Fの整数倍からそれた部分音を有するサウンドを生成す
るものがあり、このパラメータは、偏差の度合の基準を
提供する。ステップ438を参照すると、先に検出され
HP1、HP2、…HPkとして表された部分音が取得
される。ステップ440において、基準位置RLが RL1=HP1×1、RL2=HP1×2、…、RLk
=HP1×k として計算される。不調和パラメータIHは、ステップ
442において以下の式によって計算される。 【0047】i=2〜Nに対して、 【数3】 そして 【数4】 【0048】ステップ444において、計算された音の
特徴が、音特徴ベクトルNFに編成される。例えば、特
徴ベクトルを、以下のように順序付けることができる。
すなわち、Rs、Sl、Vd、Ds、ER、Br、Tr
1、Tr2、Or、Ir、DT、IHであり、ここでは
特徴ベクトルNFは、k=3である場合16次元であ
る。ステップ446において、特徴ベクトルNFは、所
与の音の計算された音特徴の表現として出力される。 【0049】本発明の例示的な実施形態によれば、楽曲
に含まれる複数の音のそれぞれの特性の確定は、図1の
ブロック108によって表されるような特徴の少なくと
もいくつかを正規化することを含むことができる。時間
的特徴の正規化により、これら特徴は音の長さとは無関
係となり、したがって不完全な音に適応可能となる。部
分音の特徴の正規化により、これら特徴は音のピッチと
は無関係となる。音のエネルギーが図1のモジュール1
04において正規化されたことを想起されたい(図3参
照)。正規化により、音のラウドネス/ボリューム、長
さおよび/またはピッチとは無関係に、同じ楽器の音が
同様の特徴値を有し、同じカテゴリに分類されることが
確実となる。さらに、例えばポリフォニック音楽におい
て一般に発生する不完全な音が扱われる。例示的な実施
形態では、異なる特徴の値の範囲が、分類が行われる図
1のモジュール110に入力されるように同じオーダー
(例えば0と10との間)で保持される。例示的な実施
形態では、いかなる特徴にも、他の特徴より高い所定の
重みが与えられないが、望ましい場合、当然ながらかか
る所定の重みを実現することができる。音の特徴の正規
化については、図5を参照してより詳細に説明する。 【0050】図5を参照すると、ステップ502は、持
続長Slおよび振動度Vd等の時間的特徴を正規化する
ことを対象とする。より詳細には、ステップ504を参
照すると、持続長Slは0〜1の間の値に正規化され
る。例示的な実施形態では、2つの経験的閾値(Lmi
nおよびLmax)を選択することができる。ステップ
506において、ステップ504の結果に対し以下の論
理が適用される。 【0051】Sl<=Lminならば、Sln=0 Lmin<Sl<Lmaxならば、 Sln=(Sl−Lmin)/(Lmax−Lmin) Sl>=Lmaxならば、Sln=1 ステップ508において、正規化された持続長SlはS
lnとして選択される。 【0052】振動度Vdの正規化を、ステップ510に
関してより詳細に説明する。ここで、Vdは、2つの経
験的閾値VminおよびVmaxを使用して0〜1の間
の値に正規化される。以下のように、ステップ512に
したがって振動度Vdに対してロジックが適用される。 【0053】Vd<=Vminならば、Vdn=0 Vmin<Vd<Vmaxならば、 Vdn=(Vd−Vmin)/(Vmax−Vmin) Vd>=Vmaxならば、Vdn=1 ステップ514において、振動度Vdは、正規化値Vd
nに設定される。 【0054】ステップ516において、明るさBrおよ
び三刺激値Tr1およびTr2等の調和部分音の特徴が
正規化される。より詳細には、ステップ518におい
て、ヘルツで推定される基本周波数値FuFが取得さ
れ、ステップ520において、以下の計算が実行され
る。 【0055】Brn=Br×FuF/1000 Tr1n=Tr1×1000/FuF Tr2n=Tr2×1000/FuF ステップ522において、明るさ値Brは、正規化値B
rnに設定され、三刺激値Tr1およびTr2は、正規
化値Tr1nおよびTr2nに設定される。 【0056】ステップ524において、特徴ベクトルN
Fが、正規化された特徴値によって更新され、出力とし
て提供される。すべての特徴ベクトル値の集まりが、検
討中の楽曲に含まれる複数の音のそれぞれに対して確定
された特性のセットを構成する。 【0057】いくつかの正規化された音の特徴を有する
特徴ベクトルが、図1のモジュール108の出力として
供給され、楽曲を分類するために図1のモジュール11
0によって受取られる。各音を分類するモジュール11
0を、図6Aおよび図6Bを参照してより詳細に説明す
る。 【0058】図6Aを参照すると、各検出された音を分
類するために、ニューラルネットワークとガウス混合モ
デル(GMM)のセットが使用され、音分類プロセスは
トレーニング可能である。例えば、図6Aのフローチャ
ートにより例示的なトレーニング手続きを示す。ここで
は、分類される「k」個の異なるタイプの楽器を考慮
し、ステップ602において楽器はI1、I2、…Ik
とラベル付けされる。ステップ604において、連続的
楽曲から各楽器のサンプル音が収集される。ステップ6
06において、各楽器に対しおよそ同じ数のサンプル音
を含むトレーニングセットTsが編成される。しかしな
がら、当業者は、いかなる数のサンプル音をいかなる所
与の楽器に関連付けることも可能であるということを認
めるであろう。 【0059】ステップ608において、特徴が計算さ
れ、図3ないし図5に関して上述したような仕方で特徴
ベクトルNFが生成される。ステップ610において、
例えば、開示内容がすべて引用をもって本明細書内に援
用されたものとするK.Gurneyによる文書「An I
ntroduction To Neural Networks」に述べられているよ
うに、自己組織化マップ(self-organizing map(SO
M))等の教師なし(unsupervised)ニューラルネットワ
ークを使用して最適な特徴ベクトル構造NFOが取得さ
れる。かかるニューラルネットワークでは、類似度のト
ポロジカルマッピングが生成されることにより、同様の
入力値が、2次元ニューラルネットフィールドにおいて
互いに近接する対応するノードを有することになる。例
示的な実施形態では、全トレーニングプロセスの目標
は、各楽器がニューラルネットフィールド中のある領域
と対応し、同様の楽器(例えば、弦楽器)が隣接する領
域に対応することである。例示的な実施形態により、特
徴ベクトル構造は、この目標を最も満足するSOMを使
用して確定される。しかしながら、当業者は、本発明の
例示的な実施形態により特徴ベクトル構造を確立するた
めにいかなる基準も使用することができるということを
認めるであろう。 【0060】SOMニューラルネットワークが使用され
る場合、ステップ612において、SOMニューラルネ
ットワークトポロジが構成される。例えば、それは、ニ
ューラルノードの矩形マトリクスとして構成することが
できる。ステップ614において、異なる楽器のサンプ
ル音が、トレーニングセットTsにおいてランダムに混
合される。ステップ616において、サンプル音が、ト
レーニングセットTsから1つずつ取出され、音の特徴
ベクトルNFが、SOMトレーニングアルゴリズムを使
用してネットワークをトレーニングするために使用され
る。 【0061】ステップ618によって表すように、ネッ
トワークが収束するまでこの手続きが繰返される。収束
すると、ステップ620において、特徴ベクトルNFの
構造(特徴の選択および特徴ベクトルにおけるそれらの
順序)が変更され、ステップ616の入力に戻る分岐に
よって表されるようにネットワークが再トレーニングさ
れる。 【0062】SOMニューラルネットワークをトレーニ
ングするアルゴリズムは、例えば、開示内容がすべて引
用をもって本明細書内に援用されたものとするK.Gurney
による文書「Introduction To Neural Networks」、UCL
Press、1997において提供されており、あるいは、いか
なる所望のトレーニングアルゴリズムも使用することが
できる。ステップ622において、最適なパフォーマン
スでSOMネットワークを提供するかまたは任意の所望
の基準を満足する特徴ベクトルNF構造(例えば、次元
m)が選択される。 【0063】ステップ610において最適な特徴ベクト
ル構造NFOが取得されると、図6Aの動作のフローは
ステップ624に進み、多層パーセプトロン(multi-la
yer-perceptron(MLP))ファジーニューラルネット
ワーク等の教師ありニューラルネットワークが、例えば
逆伝播(BP)アルゴリズムを使用してトレーニングさ
れる。かかるアルゴリズムは、例えば、上述したGurney
の文書において述べられている。 【0064】MLPファジーニューラルネットワークの
トレーニングを、ブロック626に関して説明する。そ
こでは、例えば入力層にm個のノードを有し、出力層に
k個のノードを有し、間に1乃至3の隠れ層を有する、
MLPニューラルネットワークが構成される。ステップ
628において、第1ラウンドに対し、BPアルゴリズ
ムを使用してトレーニングセットTsのサンプルを用い
てMLPがトレーニングされる。ステップ630におい
て、MLPからの出力は、所定分布にマップされ、目標
出力としてトレーニングサンプルに割当てられる。ステ
ップ632において、トレーニングセットTsのサンプ
ル(目標出力が修正されている)とBPアルゴリズムと
を使用して複数ラウンド(例えば、第2ラウンド)に対
してMLPがトレーニングされる。 【0065】上述したように、例示的なMLPは、音特
徴ベクトルの次元と等しい数の入力層のノードを含み、
出力層におけるノードの数は、楽器種別の数に対応す
る。隠れ層の数と各隠れ層のノードの数とは、SOMマ
トリクスのサイズの選択と同様の仕方で、問題の複雑性
の関数として選択される。 【0066】当業者は、SOMマトリクスおよびMLP
の正確な特性を、ユーザが望むように変更することがで
きるということを認めるであろう。さらに、MLPに関
して2ステップトレーニング手続きを説明したが、当業
者は、使用されるあらゆる所望のトレーニング手続きに
あらゆる数のトレーニングステップを含むことができる
ということを認めるであろう。2ステップトレーニング
手続きが使用される場合、トレーニングの第1ラウンド
を使用して、最初に2値出力を有するトレーニングサン
プルの所望の目標出力を生成することができる。トレー
ニングプロセスが収束した後、トレーニングサンプルの
実際の出力を、所定の分布(ある範囲の線形分布等、ユ
ーザが画定した所望の分布)にマップすることができ
る。マップされた出力は、トレーニングの第2ラウンド
のためのトレーニングサンプルの目標出力として使用さ
れる。 【0067】ステップ634において、トレーニングさ
れたMLPファジーニューラルネットワークは、「FM
LPN」として音分類のために保存される。ステップ6
36において、各楽器に対し、1つのGMMモデル(ま
たはあらゆる所望の数のモデル)がトレーニングされ
る。 【0068】ステップ636における各楽器に対するG
MMモデルのトレーニングを、例えば開示内容がすべて
引用をもって本明細書内に援用されたものとするD.Reyn
oldsおよびR.Roseによる「Robust Text-Independent Sp
eaker Identification UsingGaussian Mixture Model
s」、IEEE Transactions On Speech and Audio Process
ing、vol.3、No.1、pp.72〜83、1985において述べられてい
るものと同様の仕方で実行することができる。例えば、
ステップ638において表すように、サブセットTiが
楽器Ii(i=1〜k)に対するサンプルを含む場合、
トレーニングセットTsのサンプルをk個のサブセット
に分割する。ステップ640において、i=1〜kの場
合、サブセットTiのサンプルを使用してGMMモデル
GMMiがトレーニングされる。各楽器「Ii」のGM
Mモデルは、ステップ642においてGMMi(i=1
〜k)として保存される。そして、トレーニング手続き
は完了する。当業者は、GMMが、M成分のガウス密度
の重み付き合計を表す統計モデルであり、Mが問題の複
雑性の関数として選択されるということを認めるであろ
う。 【0069】トレーニングアルゴリズムは、例えばD.Re
ynolds等による上述した文書「Robust Text-Independen
t Speaker Identification Using Gaussian Mixture Mo
dels」において述べられているようなEMプロセスとす
ることができるが、いかなるGMMトレーニングアルゴ
リズムも使用することができる。さらに、各楽器に対し
てGMMをトレーニングすることができるが、望ましい
場合は、単一の楽器に対して複数のGMMを使用するこ
とができ、あるいは複数の楽器間で単一のGMMを共有
することができる。 【0070】当業者は、MLPが比較的強い分類能力を
提供するが、例示的な実施形態により、検討中の新たな
楽器のそれぞれがすべての楽器に対するMLPの再トレ
ーニングを伴うために比較的柔軟でないということを認
めるであろう。対照的に、異なる楽器のGMMは、大抵
の場合関連がなく、そのため、所与の楽器に特定のGM
Mのみをトレーニングすればよい。また、ユーザが指定
した所与の楽器かまたは音のセットに類似する楽曲また
は音を探索する場合に、検索用にGMMを使用すること
ができる。当業者は、例示的な実施形態においてMLP
とGMMとが共に使用されるが、これらのいずれも他方
と無関係におよび/またはSOMと無関係に使用するこ
とができる、ということを認めるであろう。 【0071】図6Bに示す分類手続きは、ステップ64
4により、特徴ベクトルNFにおいてNFOにおけるよ
うに編成するために、区分された音の特徴を計算するこ
とから開始する。ステップ646において、特徴ベクト
ルNFは、音分類のためのトレーニングされたMLPフ
ァジーニューラルネットワーク(すなわち、FMLP
N)に入力され、出力層のk個のノードからの出力は、
「O1、O2、…Ok」として得られる。 【0072】ステップ648において、ステップ646
から出力されるノード間の所定値(例えば、最大値)を
有する出力Omが選択される。ステップ650におい
て、音分類のためのトレーニングされたMLPファジー
ニューラルネットワーク(すなわち、FMLPN)によ
り0<=Om<=1である尤度Omにより、音は楽器サ
ブセット「Im」に分類される。ステップ652におい
て、i=1〜kの場合、特徴ベクトルNFがGMMモデ
ル「GMMi」に入力されることにより、出力GMMO
iが生成される。ステップ654において、所定値(例
えば、i=1〜kの場合のGMMOi間の最大値)を有
する出力GMMOnが選択される。ステップ656にお
いて、GMMモジュールによる尤度GMMOnにより、
音が楽器Inに分類される。 【0073】図1のモジュール112において、音分類
結果が統合されて楽曲分類の結果を提供する。これを、
図7においてより詳細に示す。ここでは、ステップ70
2によって表すように、楽曲は最初にステップ102に
したがって音に区分される。ステップ704において、
特徴ベクトルが上述したように計算され配置される。ス
テップ706において、各音は、上述したようにMLP
ファジーニューラルネットワークFMLPNかまたはガ
ウスモデルGMMi(i=1〜k)を使用して分類され
る。ステップ708において、同じ楽器に分類された音
はINi(i=1〜k)とラベル付けされたその楽器の
サブセットに収集される(ステップ708)。 【0074】i=1〜kの場合、ステップ710におい
て各楽器に対しISiとラベル付けされたスコアが計算
される。より詳細には、判断ブロック712において、
MLPファジーニューラルネットワークが音分類のため
に使用されるか否かの判断が行われる。使用される場
合、ステップ714において、楽器サブセットINiの
すべての音「x」に対するMLPファジーニューラルネ
ットワークFMLPNの出力層におけるk個のノードか
らの出力Oxの合計として、スコアISiが計算され
る。ここで、Oxは、MLPファジーニューラルネット
ワークFMLPNを使用して楽器Ii(i=1〜k)に
分類された音xの尤度である。ニューラル分類に対して
MLPファジーニューラルネットワークが使用されなか
った場合、ブロック712の出力はステップ716に進
み、スコアISiが、楽器サブセットINiに含まれる
すべての音xに対するGMMOxとして表されるガウス
混合モデル出力GMMOの合計に対応する。ここで、O
xは、ガウス混合モデルを使用して楽器Ii(i=1〜
k)に分類されるxの尤度である。ステップ718にお
いて、楽器スコアISiは、ISi(i=1〜k)の合
計が1に等しくなるように正規化される。 【0075】ステップ720において、トップスコアI
Sm1、ISm2、…、ISmnは、ISmi(i=1
〜n)がts以上でありnがtn以下である(例えば、
ts=10%かまたはそれより小さいかまたは大きい、
tn=3かまたはそれより小さいかまたは大きい)とい
う条件に対して識別される。ステップ722において、
トップスコアISmi(i=1〜n)の値は、すべての
ISmi(i=1〜n)の合計が総計1になるように正
規化される。本明細書で説明したあらゆる計算または評
価によって使用されたすべての基準と同様に、当業者
は、所望の通りに基準を変更することができる。 【0076】ステップ724において、楽曲は、それぞ
れスコアISm1、ISm2、…、ISmnを含む楽器
Im1、Im2、…、Imnを有するものとして分類さ
れる。分類に基づき、楽曲等の音楽関連情報か、または
少なくとも部分的に複数のサウンドを有する楽曲を含む
他のタイプの情報を、データベースの楽曲または音楽関
連情報の容易なインデクスのために、メタデータインジ
ケータまたはタグを用いてインデクシングすることがで
きる。 【0077】メタデータインジケータを使用して、リア
ルタイムにデータベースから楽曲または関連する音楽関
連情報を検索することができる。例示的な実施形態で
は、全体として所与の楽曲内に含まれる複数の音の特徴
を統合して楽曲の分類を可能にする。したがって、ユー
ザが、既知のサウンドおよび/または楽器のシーケンス
を有する所与の楽曲を選択する探索要求をインタフェー
スに対して提供することが容易になる。例えば、楽曲
を、指定された楽器に分類された音の尤度値の合計を表
すスコアにしたがって分類することができる。最高スコ
アを有する楽器を選択することができ、これらの楽器に
したがって楽曲を分類することができる。一実施例で
は、楽曲は、90%の尤度で、100%ギターである
か、または60%ピアノおよび40%バイオリンである
ものとして示すことができる。 【0078】このように、例示的な実施形態では、所与
の楽曲のすべての音の特徴を統合することができ、それ
によって楽曲を全体として分類することができる。これ
により、ユーザが、データベース内の楽曲を個々の音を
考慮することによるより容易に識別することができるよ
うになる。 【0079】本発明をその好ましい実施形態に関して詳
細に説明したが、当業者には、本発明から逸脱すること
なく、種々の変形および変更を行うことが可能であり、
均等物を採用することができるということが明らかとな
ろう。 【0080】本発明の態様を以下に例示する。 【0081】1.サウンドの集まりによって構成される
楽曲を分類する方法であって、時間エネルギーエンベロ
ープを使用して前記楽曲の一部に含まれる複数の音のそ
れぞれのオンセットを検出するステップ(102)と、
該複数の音のそれぞれの特性を確定するステップ(10
4、106、108)と、該複数の音のそれぞれの確定
された特性の統合に基づき、データベースに格納するた
めに楽曲を分類するステップ(110)とを含む方法。 【0082】2.各音の前記オンセットを使用して前記
楽曲を音に区分するステップ(102)を含む上記1記
載の方法。 【0083】3.前記特性を確定するステップは、前記
音のエネルギー関数を計算すること(306)により音
の調和部分音を検出することを含む上記1記載の方法。 【0084】4.前記確定するステップは、前記調和部
分音を推定するために少なくとも1つの音の中の少なく
とも1つの点を確定すること(304)と、該少なくと
も1つの点を中心に集中し複数のサンプルを含む、前記
少なくとも1つの音に対するオーディオフレームを形成
すること(324)、該オーディオフレームの自己回帰
モデルによって生成されるスペクトルを計算すること
(326)、該オーディオフレームの該生成されたスペ
クトルにおける検出されたピークに基づいて、前記少な
くとも1つの音の基本周波数値としての候補のリストを
生成すること(336)、該リストの各候補のスコアを
計算すること(342)、前記少なくとも1つの音の基
本周波数値と関連する部分音とを、その基本周波数値の
スコアの比較に基づいて選択すること(348)を含む
上記1記載の方法。 【0085】5.前記各音の特性を確定するステップ
は、各音の時間的特徴を計算するステップ(404)を
含む上記1記載の方法。 【0086】6.前記各音の特性を確定するステップ
は、各音のスペクトル特徴を計算するステップ(41
6)を含む上記1記載の方法。 【0087】7.各音の不調和パラメータを該音の検出
された調和部分音に基づいて計算するステップ(43
6)と、各音の計算された音特徴を特徴ベクトルに編成
するステップ(444)とを含む上記1記載の方法。 【0088】8.前記分類するステップは、各音に関連
する特徴ベクトルをニューラルネットワークを使用して
処理する、トレーニング可能な特徴ベクトル構造(60
8)を生成するステップを含む上記1記載の方法。 【0089】9.前記分類するステップは、逆伝播アル
ゴリズムの複数ラウンドを使用して多層パーセプトロン
ファジーニューラルネットワークをトレーニングするス
テップ(624)と、各楽器に対してガウス混合モデル
をトレーニングするステップ(636)とを含む上記1
記載の方法。 【0090】10.データベースに格納するためにメタ
データによって前記楽曲をインデクシングするステップ
(724)を含む上記1記載の方法。
【図面の簡単な説明】 【図1】本発明の例示的な実施形態による、楽曲を分類
するシステムの例示的機能ブロック図を示す。 【図2】図1の例示的な実施形態の第1のモジュールに
関連する機能ブロック図を示す。 【図3A】図1の例示的な実施形態の第2のモジュール
に関連する機能ブロック図を示す。 【図3B】図1の例示的な実施形態の第2のモジュール
に関連する機能ブロック図を示す。 【図4】図1の例示的な実施形態の第3のモジュールに
関連する機能ブロック図を示す。 【図5】図1の例示的な実施形態の第4のモジュールに
関連する機能ブロック図を示す。 【図6A】図1の例示的な実施形態の第5のモジュール
に関連する機能ブロック図を示す。 【図6B】図1の例示的な実施形態の第5のモジュール
に関連する機能ブロック図を示す。 【図7】図1の例示的な実施形態の第6のモジュールに
関連する機能ブロック図を示す。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND14 NR12 5D082 BB01

Claims (1)

  1. 【特許請求の範囲】 【請求項1】 サウンドの集まりによって構成される楽
    曲を分類する方法であって、 時間エネルギーエンベロープを使用して前記楽曲の一部
    に含まれる複数の音のそれぞれのオンセットを検出する
    ステップと、 該複数の音のそれぞれの特性を確定するステップと、 該複数の音のそれぞれの確定された特性の統合に基づ
    き、データベースに格納するために楽曲を分類するステ
    ップとを含む方法。
JP2002233328A 2001-08-17 2002-08-09 複数の音を含む楽曲を分類する方法 Expired - Fee Related JP4268386B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/931,026 US6476308B1 (en) 2001-08-17 2001-08-17 Method and apparatus for classifying a musical piece containing plural notes
US09/931,026 2001-08-17

Publications (3)

Publication Number Publication Date
JP2003140647A true JP2003140647A (ja) 2003-05-16
JP2003140647A5 JP2003140647A5 (ja) 2005-05-26
JP4268386B2 JP4268386B2 (ja) 2009-05-27

Family

ID=25460104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002233328A Expired - Fee Related JP4268386B2 (ja) 2001-08-17 2002-08-09 複数の音を含む楽曲を分類する方法

Country Status (2)

Country Link
US (1) US6476308B1 (ja)
JP (1) JP4268386B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007057751A (ja) * 2005-08-24 2007-03-08 Yamaha Corp シーケンスデータ生成装置およびシーケンスデータ生成プログラム
JP2008542835A (ja) * 2005-06-01 2008-11-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ項目の特性を決定する方法および電子装置

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7027983B2 (en) * 2001-12-31 2006-04-11 Nellymoser, Inc. System and method for generating an identification signal for electronic devices
US7619155B2 (en) * 2002-10-11 2009-11-17 Panasonic Corporation Method and apparatus for determining musical notes from sounds
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US7403640B2 (en) * 2003-10-27 2008-07-22 Hewlett-Packard Development Company, L.P. System and method for employing an object-oriented motion detector to capture images
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
US8535236B2 (en) * 2004-03-19 2013-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for analyzing a sound signal using a physiological ear model
DE102004047032A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US7521620B2 (en) * 2006-07-31 2009-04-21 Hewlett-Packard Development Company, L.P. Method of and system for browsing of music
JP5593608B2 (ja) * 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
EP2547011A4 (en) * 2010-03-10 2015-11-11 Fujitsu Ltd NOISE DETECTION DEVICE
US20120294459A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals in Consumer Audio and Control Signal Processing Function
US20120294457A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function
US9263060B2 (en) * 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
CN104254887A (zh) * 2012-09-24 2014-12-31 希特兰布公司 用于评估卡拉ok用户的方法和系统
WO2016062412A1 (en) * 2014-10-23 2016-04-28 Viro Vladimir Device for internet search of music recordings or scores
GB2539875B (en) * 2015-06-22 2017-09-20 Time Machine Capital Ltd Music Context System, Audio Track Structure and method of Real-Time Synchronization of Musical Content
GB2557970B (en) 2016-12-20 2020-12-09 Mashtraxx Ltd Content tracking system and method
PL3828878T3 (pl) 2019-11-29 2024-04-29 Neural DSP Technologies Oy Modeler neuronowy systemów audio

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
US6185527B1 (en) * 1999-01-19 2001-02-06 International Business Machines Corporation System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008542835A (ja) * 2005-06-01 2008-11-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コンテンツ項目の特性を決定する方法および電子装置
KR101249024B1 (ko) 2005-06-01 2013-03-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 콘텐트 아이템의 특성을 결정하기 위한 방법 및 전자 디바이스
JP2007057751A (ja) * 2005-08-24 2007-03-08 Yamaha Corp シーケンスデータ生成装置およびシーケンスデータ生成プログラム
JP4665664B2 (ja) * 2005-08-24 2011-04-06 ヤマハ株式会社 シーケンスデータ生成装置およびシーケンスデータ生成プログラム

Also Published As

Publication number Publication date
JP4268386B2 (ja) 2009-05-27
US6476308B1 (en) 2002-11-05

Similar Documents

Publication Publication Date Title
JP4268386B2 (ja) 複数の音を含む楽曲を分類する方法
US11837208B2 (en) Audio processing techniques for semantic audio recognition and report generation
JP4665836B2 (ja) 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
CN110111773B (zh) 基于卷积神经网络的音乐信号多乐器识别方法
CN101189610B (zh) 用于确定内容项特性的方法和电子设备
Baniya et al. Automatic music genre classification using timbral texture and rhythmic content features
JP2007041234A (ja) 音楽音響信号の調推定方法および調推定装置
Liu et al. A study on content-based classification and retrieval of audio database
Eggink et al. Instrument recognition in accompanied sonatas and concertos
Zhu et al. Music key detection for musical audio
Kirchhoff et al. Evaluation of features for audio-to-audio alignment
Marolt On finding melodic lines in audio recordings
Marolt Gaussian Mixture Models For Extraction Of Melodic Lines From Audio Recordings.
Van Balen Automatic recognition of samples in musical audio
Chapaneri et al. Evaluation of music features for PUK kernel based genre classification
KR20100000265A (ko) 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치
Waghmare et al. Analyzing acoustics of indian music audio signal using timbre and pitch features for raga identification
Gao et al. Vocal melody extraction via dnn-based pitch estimation and salience-based pitch refinement
Nagavi et al. An extensive analysis of query by singing/humming system through query proportion
Tjahyanto et al. Fft-based features selection for javanese music note and instrument identification using support vector machines
Ding et al. Classification of recorded musical instruments sounds based on neural networks
Zhu et al. Musical genre classification by instrumental features
Joshi et al. Identification of Indian musical instruments by feature analysis with different classifiers
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
Zhang Instrument classification in polyphonic music based on timbre analysis

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040803

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071009

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080109

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080722

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081017

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090217

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090220

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140227

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees