JP2009511980A - オーディオ入力信号についての特徴のセットを導出する方法 - Google Patents

オーディオ入力信号についての特徴のセットを導出する方法 Download PDF

Info

Publication number
JP2009511980A
JP2009511980A JP2008535174A JP2008535174A JP2009511980A JP 2009511980 A JP2009511980 A JP 2009511980A JP 2008535174 A JP2008535174 A JP 2008535174A JP 2008535174 A JP2008535174 A JP 2008535174A JP 2009511980 A JP2009511980 A JP 2009511980A
Authority
JP
Japan
Prior art keywords
features
audio input
feature
input signal
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008535174A
Other languages
English (en)
Other versions
JP5512126B2 (ja
Inventor
ディルク ジェイ ブレーバールト
マーティン エフ マッキンニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009511980A publication Critical patent/JP2009511980A/ja
Application granted granted Critical
Publication of JP5512126B2 publication Critical patent/JP5512126B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/041Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal based on mfcc [mel -frequency spectral coefficients]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

本発明は、オーディオ入力信号Mの特徴のセットSを導出する方法であって、オーディオ入力信号Mの幾つかの1次特徴f、f、…、fを識別するステップと、1次特徴f、f、…、fの少なくとも一部から幾つかの相関値ρ、ρ、…、ρを生成するステップと、相関値ρ、ρ、…、ρを利用して、オーディオ入力信号Mについての特徴のセットSを編集するステップと、を有する方法を記述する。本発明は更に、オーディオ入力信号Mを群に分類する方法、及びオーディオ入力信号M、M'を比較してオーディオ入力信号M、M'間の類似度を決定する方法を記述する。本発明はまた、オーディオ入力信号Mの特徴のセットSを導出するためのシステム1、オーディオ入力信号Mを群に分類するための分類システム4、オーディオ入力信号M、M'を比較してオーディオ入力信号M、M'間の類似度を決定するための比較システム5を記述する。

Description

本発明は、オーディオ入力信号の特徴のセットを導出する方法、及びオーディオ入力信号の特徴のセットを導出するためのシステムに関する。本発明はまた、オーディオ入力信号を分類するための方法及びシステム、及びオーディオ入力信号を比較するための方法及びシステムに関する。
ディジタルコンテンツのための記憶容量は、劇的に増大している。少なくとも1テラバイトの記憶容量を持つハードディスクが、近い将来利用可能となることが予想される。これに加えて、MPEG規格のような、マルチメディアコンテンツのための圧縮アルゴリズムの発展が、オーディオ又はビデオファイル毎に必要とされる記憶容量を著しく低減させている。その結果、消費者は、単一のハードディスク又はその他の記憶媒体に、何時間ものビデオ及びオーディオコンテンツを保存することが可能となるであろう。ビデオ及びオーディオは、常に増大し続ける数のラジオ及びTV局から記録され得る。消費者は、ますます一般的になっている機能であるワールドワイドウェブから、ビデオ及びオーディオコンテンツを単にダウンロードすることによって、該消費者のコレクションを容易に増やすことができる。更に、大きな記憶容量を持つ携帯型音楽プレイヤが利用可能となりまた実用的となり、ユーザがいつでも、選択を為すための豊富な音楽のセレクションにアクセスすることを可能としている。
しかしながら、選択を為すための大量のビデオ及びオーディオデータのセレクションは、問題のないものではない。例えば、数千もの音楽トラックを持つ大量の音楽のデータベースからの音楽の構成及び選択は、困難であり時間を浪費するものである。該問題は、メタデータを含ませること(実際のオーディオデータファイルに何らかの方法で添付された付加的な情報タグと理解され得る)によって、部分的に対処され得る。メタデータは時折オーディオファイルに対して提供されるが、常にというわけではない。時間を浪費する不快な取得及び分類の問題に直面するとき、ユーザは諦めてしまうか、又は全くしようとしない見込みが高い。
音楽信号の分類の問題への対処において、幾つかの試みが為されてきた。例えば国際特許出願公開WO01/20609A2は、オーディオ信号、即ち楽曲又は音楽トラックが、リズムの複雑さ、調音、演奏の冒頭等のような特定の特徴又は変数に従って分類される分類システムを示唆している。各楽曲は、幾つかの選択された変数について、各変数が当該楽曲にどの程度当てはまるかに依存する加重値を割り当てられる。しかしながら、斯かるシステムは、類似する楽曲の音楽トラックの分類又は比較の精度のレベルが、あまり高くないという欠点を持つ。
それ故、本発明の目的は、オーディオ信号を特徴付け、分類し又は比較する、より頑強で正確な方法を提供することにある。
この目的のため、本発明は、とりわけオーディオ入力信号の分類及び/又はオーディオ入力信号の他のオーディオ信号との比較及び/又はオーディオ入力信号の特徴付けにおける使用のための、オーディオ入力信号の特徴のセットを導出する方法であって、前記オーディオ入力信号の幾つかの1次特徴を識別するステップと、前記1次特徴の少なくとも一部から幾つかの相関値を生成するステップと、前記相関値を利用して、前記オーディオ入力信号についての特徴のセットを編集するステップと、を有する方法を提供する。前記識別するステップは例えば、オーディオ入力信号から幾つかの1次特徴を抽出するステップ、又はデータベースから幾つかの1次特徴を取得するステップを有しても良い。
前記1次特徴は、オーディオ入力信号の特定の選択された記述的な特徴であり、信号帯域幅、ゼロ交差率、信号の音量、信号の明るさ、信号エネルギー又はパワースペクトル値等を記述しても良い。1次特徴によって記述される他の特徴は、スペクトルロールオフ周波数、スペクトル重心等であり得る。オーディオ入力信号から導出される1次特徴は、基本的に直交となるように選択されても良い。即ち、1次特徴は、或る程度互いと独立となるように選択されても良い。1次特徴のシーケンスが、一般に「特徴ベクトル」と呼ばれるものへとまとめられても良く、ここでは特徴ベクトルにおける特定の位置が、常に同一のタイプの特徴により占有される。
1次特徴のセレクションから生成される相関値(それ故2次特徴とも呼ばれる)が、これら1次特徴間の相互依存性又は共分散を記述し、オーディオ入力信号についての強力な記述子である。しばしば、1次特徴では不十分である場合には、斯かる2次特徴を用いて音楽トラックが正確に比較、分類又は特徴付けされ得ることが分かっている。
本発明による方法の明らかな利点は、強力で記述的な特徴のセットが、いずれのオーディオ入力信号についても容易に導出され得、該特徴のセットが、例えばオーディオ入力信号を正確に分類するために又は他の類似するオーディオ信号を迅速且つ正確に識別するために利用され得る点である。例えば、1次及び2次特徴の要素を有する、オーディオ信号について編集された好適な特徴のセットは、特定の選択された記述的な特徴を記述するのみならず、これら選択された記述的な特徴間の相互関係をも記述する。
オーディオ入力信号の特徴のセットを導出するための適切なシステムは、オーディオ入力信号の幾つかの1次特徴を識別するための特徴識別ユニットと、少なくとも一部の前記1次特徴から幾つかの相関値を生成するための相関値生成ユニットと、前記相関値を利用して前記オーディオ入力信号についての特徴のセットを編集するための特徴セット編集ユニットと、を有する。前記特徴識別ユニットは例えば、特徴抽出ユニット及び/又は特徴取得ユニットを有しても良い。
従属請求項及び以下の説明が、本発明の特に有利な実施例及び特徴を開示する。
オーディオ入力信号は、いずれの適切な供給源に源を持つものであっても良い。最も一般的には、オーディオ信号は、幾つかのフォーマットのうちいずれか1つを持ち得るオーディオファイルに源を持つものであっても良い。オーディオファイルのフォーマットの例は、例えばWAVのような圧縮されていないもの、例えばWMA(Windows(登録商標) Media Audio)のような無損失圧縮されたもの、及びMP3(MPEG-1 Audio Layer 3)ファイル、AAC(Advanced Audio Codec)等のような損失性圧縮されたフォーマットである。同様に、オーディオ入力信号は、当業者には良く知られているであろう、いずれかの適切な技術を用いてオーディオ信号をディジタル化することにより得られても良い。
本発明による方法においては、オーディオ入力信号についての1次特徴(時々観測情報(observation)とも呼ばれる)は好ましくは、所与のドメインにおける1以上のセクションから抽出されても良く、相関値の生成は好ましくは、適切なドメインにおける対応するセクションの1次特徴の対を利用して相関を実行することを有する。セクションは例えば時間ドメインにおける時間フレーム又はセグメントであっても良く、ここで「時間フレーム」は単に、幾つかのオーディオ入力サンプルをカバーする時間の範囲である。セクションは、周波数ドメインにおける周波数帯域であっても良く、又はフィルタバンクドメインにおける時間/周波数の「タイル」であっても良い。これら時間/周波数タイル、時間フレーム及び周波数帯域は一般に、均一のサイズ又は継続時間のものである。オーディオ信号のセクションに関連する特徴はそれ故、時間の関数として、周波数の関数として、又は両方の組み合わせとして表現され得、それにより一方の又は両方のドメインにおいて斯かる特徴についての相関が実行され得る。以下、「セクション」及び「タイル」なる用語は、交換可能に用いられる。
本発明の更なる好適な実施例においては、異なる、好ましくは隣接した時間フレームから抽出された1次特徴についての相関値の生成は、これら時間フレームの1次特徴を利用した相関の実行を有し、それにより、該相関値が、これら隣接した特徴間の相互関係を記述する。
本発明の1つの好適な実施例においては、オーディオ入力信号の各時間フレームについて時間ドメインにおいて1次特徴が抽出され、好ましくは特徴ベクトルの全体の範囲に亘って、幾つかの連続する特徴ベクトルに亘って特徴の対の間の相互相関を実行することにより相関値が生成される。
本発明の代替の好適な実施例においては、1次特徴は、オーディオ入力信号の各時間フレームについて周波数ドメインにおいて抽出され、周波数ドメインの周波数帯域に亘る2つの時間フレームの特徴ベクトルの特定の特徴間の相互相関を実行することにより、相関値が計算される。ここで、2つの時間フレームは好ましくは(必須ではないが)、隣接する時間フレームである。換言すれば、複数の時間フレームの各時間フレームについて、少なくとも2つの周波数帯域について少なくとも2つの1次特徴が抽出され、相関値の生成は、時間フレーム及び周波数帯域に亘る2つの特徴の間の相互相関を実行することを有する。
特徴ベクトルの1次特徴は、互いに対して独立な又は直交するものとして選択されるため、オーディオ信号の異なる側面を記述し、それ故異なる単位で表現される。変数の集合の異なる変数間の共分散のレベルを比較するため、2つの変数の間の積率相関又は相互相関を計算するために利用される一般に知られた手法で、各変数の平均偏差が該変数の標準偏差によって除算されても良い。それ故、本発明の特に好適な実施例においては、相関値を生成する際に用いられる1次特徴が、全ての適切な特徴の中間値又は平均値を該1次特徴から減算することによって調節される。例えば、特徴ベクトルの全体の範囲に亘って2つの時間ドメインの1次特徴についての相関値を計算する場合、平均偏差及び標準偏差のような特徴の変動性についての尺度を算出する前に、各1次特徴の中間値が最初に計算され、1次特徴の値から減算される。同様に、2つの隣接する特徴ベクトルから2つの周波数ドメインの特徴についての相関値を計算する場合、2つの選択された1次特徴についての積率相関又は相互相関を算出する前に、2つの特徴ベクトルのそれぞれに対する1次特徴の中間値が最初に算出され、それぞれの特徴ベクトルの各1次特徴から減算される。
例えば第1及び第2の、第1及び第3の並びに第2及び第3の1次特徴等についての相関値といったように、幾つかの斯かる相関値が計算されても良い。これら相関値は、オーディオ入力信号についての特徴の対の間の共分散又は相互依存性を記述する値であり、組み合わせられてオーディオ入力信号についての特徴の集合的なセットを与えても良い。特徴のセットの情報量を増大させるために、特徴のセットは好ましくは、1次特徴に直接関連する幾つかの情報、即ち特徴ベクトルの範囲に亘ってとられた1次特徴のそれぞれについての中間値又は平均値のような、1次特徴の適切な派生物を有しても良い。同様に、例えば特徴ベクトルの選択された範囲に亘ってとられた第1、第3及び第5の特徴についての平均値のような、1次特徴のサブセットのみについて斯かる2次特徴を取得することで十分であり得る。
本発明による方法を利用して得られる特徴のセット(実際には1次及び2次特徴を有する拡張された特徴ベクトル)は、該セットが導出されたオーディオ信号とは独立して保存されても良いし、又は例えばメタデータの形態で該オーディオ入力信号と共に保存されても良い。
音楽トラック又は曲はこのとき、上述した方法によって、該音楽トラック又は曲について導出された特徴のセットによって、正確に記述されることができる。斯かる特徴のセットは、高い精度で、楽曲についての分類及び比較を実行することを可能とする。
例えば、同様の性質を持つ幾つかのオーディオ信号(単一のクラス例えば「バロック」に属するもののような)についての特徴セット又は拡張された特徴ベクトルが導出され、これらの特徴セットが次いでクラス「バロック」についてのモデルを構築するために利用されることができる。斯かるモデルは例えば、拡張された特徴ベクトルにより占有される特徴空間において各クラスが自身の平均ベクトルと自身の共分散マトリクスとを持つ、ガウス多変量モデルであっても良い。いずれの数の群又はクラスがトレーニングされても良い。音楽のオーディオ入力信号については、斯かるクラスは例えば「レゲエ」、「カントリー」、「クラシック」等のように、広く定義されても良い。同様にモデルが「80年代ディスコ」、「20年代ジャズ」、「フィンガースタイルギター」等のように、より狭い又は細分化されたものであっても良く、オーディオ入力信号の適切な代表集合を用いてトレーニングされても良い。
最適な分類結果を保証するため、モデル空間の次元は可能な限り低く保たれる。即ち、クラス間のとり得る最良の区別を与える1次特徴を選択しつつ、最小限の数の1次特徴を選択する。特徴整列及び次元低減の既知の方法が、選択する最良の1次特徴を決定するために適用されても良い。群又はクラスについてのモデルが、当該群又はクラスに属することが分かっている幾つかのオーディオ信号を利用してトレーニングされると、「未知の」オーディオ信号は、当該オーディオ入力信号についての特徴のセットが特定の類似度内で該モデルに合致するか否かを単にチェックすることにより、該オーディオ信号が当該クラスに属するか否かをテストされることができる。
それ故、オーディオ入力信号を群に分類する方法は好ましくは、入力オーディオ信号についての特徴のセットを導出し、該特徴のセットに基づいて、該オーディオ入力信号が幾つかの群又はクラスのうちのいずれかに対応する確率を決定することを有する。ここで、各群又はクラスが、特定のオーディオクラスに対応する。
オーディオ入力信号を1以上の群へと分類するための対応する分類システムは、オーディオ入力信号の特徴のセットを導出するためのシステムと、前記オーディオ入力信号の特徴のセットに基づいて、該入力オーディオ信号が幾つかの群のうちのいずれかに当てはまる確率を決定するための確率決定ユニットとを有しても良い。ここで、各群が特定のオーディオクラスに対応する。
本発明による方法の他の用途は、例えば2つの曲のようなオーディオ信号間の類似度のレベル(もしあれば)を決定するために、該オーディオ信号のそれぞれの特徴のセットに基づいて、該オーディオ信号を比較することであり得る。
それ故、斯かる比較の方法は好ましくは、第1のオーディオ入力信号についての第1の特徴のセットを導出するステップと、第2のオーディオ入力信号についての第2の特徴のセットを導出するステップと、次いで定義された距離尺度に従って特徴空間における第1の特徴のセットと第2の特徴のセットとの間の距離を算出し、その後に最後に該算出された距離に基づいて、第1のオーディオ信号と第2のオーディオ信号との間の類似度を決定するステップとを有する。利用される距離尺度は例えば、特徴空間における特定の点間のユークリッド距離であっても良い。
オーディオ入力信号間の類似度を決定するために該オーディオ入力信号を比較するための対応する比較システムは、第1のオーディオ入力信号についての第1の特徴のセットを導出するためのシステムと、第2のオーディオ入力信号についての第2の特徴のセットを導出するためのシステムと、定義された距離尺度に従って特徴空間における第1の特徴のセットと第2の特徴のセットとの間の距離を算出し、該算出された距離に基づいてオーディオ信号間の類似度を決定するための比較ユニットと、を有しても良い。明らかに、第1の特徴のセットを導出するためのシステムと第2の特徴のセットを導出するためのシステムとは、同一のシステムであっても良い。
本発明は、種々のオーディオ処理アプリケーションにおいて用途を見出し得る。例えば、好適な実施例においては、上述したようなオーディオ入力信号を分類するための分類システムは、オーディオ処理装置に組み込まれても良い。該オーディオ処理装置は、オーディオ入力信号が分類される先のクラス又は群によって構成される音楽データベース又は集合へのアクセスを持ち得る。他のタイプのオーディオ処理装置は、データベースにおける音楽の特定の群又はクラスから1以上の音楽データファイルを選択するための音楽クエリシステムを有しても良い。斯かる装置のユーザはそれ故、例えばテーマが決められた音楽イベントのために、娯楽目的で曲の集合を容易にまとめることができる。曲がジャンル及び年代によって分類されている音楽データベースを利用するユーザは、「80年代のポップス」のようなカテゴリに属する幾つかの曲がデータベースから取得されるべきであることを指定し得る。斯かるオーディオ処理装置の他の有用な用途は、運動トレーニングや余暇のスライドショーのプレゼンテーション等に付随するために適切な特定の雰囲気又はリズムを持つ曲の集合を集めることであり得る。本発明の更なる有用な用途は、既知の音楽トラックに類似する、1以上の音楽トラックを探して音楽データベースを検索することであり得る。
特徴のセットを導出し、オーディオ入力信号を分類し、入力信号を比較するための本発明によるシステムは、コンピュータプログラムとして直接的な態様で実現され得る。特徴抽出ユニット、相関値生成ユニット、特徴セット編集ユニット等のような、入力信号の特徴のセットを導出するための全てのコンポーネントは、コンピュータプログラムモジュールの形態で実現され得る。いずれの必要とされるソフトウェア又はアルゴリズムも、ハードウェア装置のプロセッサにおいてエンコードされても良く、それにより既存のハードウェア装置が、本発明の特徴から利益を得るように構成され得る。代替として、オーディオ入力信号の特徴のセットを導出するためのコンポーネントは、少なくとも部分的にハードウェアモジュールを利用して同様に実現されても良く、それにより本発明はディジタル及び/又はアナログオーディオ入力信号に適用されることができる。
本発明の他の目的及び特徴は、添付図面に関連して考察される以下の詳細な説明から明らかとなるであろう。しかしながら、図面は単に説明の目的のためにデザインされたものであり、本発明の限定の定義としてデザインされたものではないことは、理解されるべきである。
図において、同様の番号は図を通して同様のオブジェクトを示す。
本発明による以下に説明される方法の理解を簡単にするため、図1は、時間フレームt、t、…、t又は入力信号Mのセクションと、該入力信号Mについて最終的に得られる特徴のセットSとの間の抽象的な表現を示す。
特徴のセットが導出される入力信号は、いずれの適切な供給源に源を持つものであっても良く、サンプリングされたアナログ信号、MP3又はAACファイルのようなオーディオ符号化された信号等であっても良い。本図において、オーディオ入力Mは最初に適切なディジタル化ユニット10においてディジタル化され、該ディジタル化ユニット10は該ディジタル化されたサンプルのストリームから一連の解析ウィンドウを出力する。解析ウィンドウは、例えば743msのような、特定の継続時間のものであっても良い。ウィンドウ化ユニット11は更に、合わせてI個のオーバラップする時間フレームt、t、…、tへと解析ウィンドウを分割し、各時間フレームt、t、…、tは、オーディオ入力信号Mの特定の数のサンプルをカバーする。連続する解析ウィンドウは、図示されていないが、幾つかのタイルによりオーバラップするように選択されても良い。代替として、単一の十分に広い解析ウィンドウが利用されても良く、該ウィンドウから特徴が抽出される。
これらの時間フレームt、t、…、tIのそれぞれについて、幾つかの1次特徴f、f、…、fが、特徴抽出ユニット12において抽出される。以下により詳細に説明されるように、これら1次特徴f、f、…、fは、時間ドメイン又は周波数ドメインの信号表現から計算されても良く、時間及び/又は周波数の関数として変化しても良い。時間/周波数タイル又は時間フレームについての1次特徴f、f、…、fの各群は1次特徴ベクトルと呼ばれ、特徴ベクトルfv、fv、…、fvがタイルt、t、…、tについて抽出される。
相関値生成ユニット13において、1次特徴f、f、…、fの特定の対について相関値が生成される。特徴の対は、単一の特徴ベクトルfv、fv、…、fvから、又は異なる特徴ベクトルfv、fv、…、fv全体からとられても良い。例えば、相関は、異なる特徴ベクトルからとられた特徴の対(fv[i],fv[i])について計算されても良いし、又は同一の特徴ベクトルからの特徴の対(fv[j],fv[k])についてとられても良い。
特徴処理ブロック15において、1次特徴fv、fv、…、fvの1以上の派生物fm、fm、…、fm(例えば中間値、平均値又は平均値のセット)が、1次特徴ベクトルfv、fv、…、fv全体について計算されても良い。
相関値生成ユニット13において生成された相関値は、特徴セット編集ユニット14において、特徴処理ブロック15において計算された1次特徴f、f、…fの派生物fm、fm、…、fmと組み合わせられ、オーディオ入力信号Mについての特徴のセットSを与える。斯かる特徴のセットSは、全ての解析ウィンドウについて導出されても良く、全体のオーディオ入力信号Mについての平均の特徴のセットを計算するために利用されても良い。該平均の特徴のセットは次いで、必要に応じてオーディオ信号と共にオーディオファイルに、又は別個のメタデータデータベースに、メタデータとして保存されても良い。
図2aにおいて、オーディオ入力信号x(n)について時間ドメインにおいて特徴のセットSを導出するステップが、より詳細に説明される。オーディオ入力信号Mは最初にディジタル化ブロック10においてディジタル化され、サンプリングされた信号:
Figure 2009511980
を与える。
続いて、サンプリングされた入力信号x[n]がウィンドウ化ブロック20においてウィンドウ化され、ウィンドウw[n]を利用して時間ドメインにおけるタイルについてサイズN及びホップサイズHを持つウィンドウ化されたサンプルx[n]の群を導出する:
Figure 2009511980
図において時間ドメインtに対応する各サンプルの群x[n]は次いで、本例においては高速フーリエ変換(FFT)をとることにより、周波数ドメインへと変換される:
Figure 2009511980
続いて、対数べき乗算出ユニット21において、各周波数サブバンドbについてフィルタカーネルW[k]を利用して、周波数サブバンドのセットについて対数ドメインのサブバンドべき乗P[b]が計算される:
Figure 2009511980
最後に、係数算出ユニット22において、B個のべき乗サブバンドに亘る各サブバンドのべき乗値P[b]のDCT(direct cosine transform)により、各時間フレームについてのメルケプストラム係数(Mel-frequency cepstral coefficients、MFCC)が得られる:
Figure 2009511980
ウィンドウ化ユニット20、対数べき乗算出ユニット21及び係数算出ユニット22は、合わせて特徴抽出ユニット12を与える。斯かる特徴抽出ユニット12は、入力信号Mの幾つかの解析ウィンドウのそれぞれについて特徴f、f、…fを算出するために利用される。特徴抽出ユニット12は一般に、ソフトウェア(ことによるとソフトウェアパッケージとして組み合わせられる)で実現される幾つかのアルゴリズムを有する。明らかに、単一の特徴抽出ユニット12が各解析ウィンドウを別個に処理するために利用されても良いし、又は幾つかの解析ウィンドウが同時に処理されることができるように幾つかの別個の特徴抽出ユニット12が実装されても良い。
時間フレームIの特定のセットが以上に説明されたように処理されると、特定のフレームベースの特徴間の(正規化された)相関係数から成る2次特徴が(I個のサブフレームの解析フレームに亘って)計算されても良い。このことは、相関値生成ユニット13において行われる。例えば、時間に沿ってy番目のMFCC係数とz番目のMFCC係数との間の相関は、以下のように式(6)により与えられる:
Figure 2009511980
ここでμ及びμは、それぞれ(I個に亘る)MFCC[y]及びMFCC[z]の中間値である。該中間値を減算することによる各係数の調節は、2次特徴としてピアソン相関係数を与える。該係数は、事実上、2つの変数(本例の場合には2つの係数MFCC[y]及びMFCC[z])の間の直線関係の強さの尺度である。
以上に算出された相関値ρ(y,z)は次いで、特徴のセットSに対する寄与として利用されることができる。特徴のセットSの他の要素は、特徴処理ブロック15において算出された、時間フレームの1次の特徴ベクトルfv、fv、…、fvの派生物(例えば特徴ベクトルfv、fv、…、fvの全体の範囲に亘ってとられた各特徴ベクトルfv、fv、…、fvの最初の数個の特徴f、f、…fの中間値又は平均値)であっても良い。
1次の特徴ベクトルfv、fv、…、fvの斯かる派生物は、特徴結合ユニット14において相関値と組み合わせられ、出力として特徴のセットSを与える。特徴のセットSは、オーディオ入力信号Mと共に若しくは該信号Mとは別個にファイルに保存されても良いし、又は保存の前に更に処理されても良い。その後、特徴のセットSは例えば、オーディオ入力信号Mを分類するために、オーディオ入力信号Mを他のオーディオ信号と比較するために、又はオーディオ入力信号Mを特徴付けするために、利用されても良い。
図2bは、全体でB個の離散的な周波数サブバンドについて周波数ドメインで特徴が抽出される、本発明の第2の実施例のブロック図を示す。対数サブバンドべき乗値の計算までの(該計算を含めた)最初の数段階は、図2aの下で既に説明されたものと実質的に同一である。しかしながら本実施化においては、各周波数サブバンドについてのべき乗の値が特徴として直接利用され、そのため本例における特徴ベクトルfv、fvi+1は、式(4)において与えられたような周波数サブバンドの範囲に亘る各周波数サブバンドについてのべき乗の値を有する。それ故、特徴抽出ユニット12'は、ウィンドウ化ユニット20及び対数べき乗算出ユニット21のみを必要とする。
本例における相関値又は2次特徴の算出は、連続する時間フレームの対t、ti+1について、即ち特徴ベクトルの対f、fi+1に亘って、相関値生成ユニット13'において実行される。ここでもまた、各特徴ベクトルf、fi+1における各特徴が、該特徴から中間値μPi、μPi+1を減算することにより最初に調節される。本例においては、例えばμPiは、特徴ベクトルfの全ての要素を合計し、該合計を周波数サブバンドの総数Bで除算することにより算出される。特徴ベクトルの対f、fi+1についての相関値ρ(P,Pi+1)は、以下のように計算される:
Figure 2009511980
以上において図2aの下で説明されたように、特徴ベクトルの対についての相関値は、特徴結合ユニット14'において、特徴処理ブロック15'において算出された1次特徴の派生物と組み合わせられ、出力として特徴のセットSを与える。ここでもまた、既に上述したように、特徴のセットSは、オーディオ入力信号と共に若しくは該信号とは別個にファイルに保存されても良いし、又は保存の前に更に処理されても良い。
図3は、入力信号から抽出された特徴が時間ドメイン情報と周波数ドメイン情報との両方を含む、本発明の第3の実施例を示す。ここでは、オーディオ入力信号x[n]は、サンプリングされた信号である。各サンプルは、全体でK個のフィルタを有するフィルタバンク17に入力される。入力サンプルx[n]についてのフィルタバンク17の出力はそれ故、値y[m,k]のシーケンスであり、ここで1≦k≦Kである。各kインデクスはフィルタバンク17の異なる周波数バンドを表し、各mインデクスは時間即ちフィルタバンク17のサンプリングレートを表す。各フィルタバンク出力y[m,k]について、特徴f[m,k]及びf[m,k]が算出される。本例における特徴タイプf[m,k]は入力y[m,k]のパワースペクトル値であっても良く、一方特徴タイプf[m,k]は前のサンプルについて算出されたパワースペクトル値であっても良い。これら特徴の対f[m,k]、f[m,k]は、周波数サブバンドの範囲に亘って(即ち1≦k≦Kの値について)相関付けられ、相関値ρ(f,f)を与えても良い:
Figure 2009511980
図4において、オーディオ信号Mの分類のためのシステム4の簡略化されたブロック図が示される。ここでは、オーディオ信号Mが、例えばハードディスク、CD、DVD、音楽データベース等のような記憶媒体40から取得される。第1の段階において、特徴セット導出のためのシステム1を利用して、特徴のセットSがオーディオ信号Mについて導出される。その結果の特徴のセットSは、確率決定ユニット43へと送られる。該確率決定ユニット43はまた、該オーディオ信号がことによると割り当てられ得るクラスの特徴空間における特徴位置を記述するクラス特徴情報42を、データ源45から供給される。
確率決定ユニット43において、距離測定ユニット46が、例えば特徴のセットSの特徴とクラス特徴情報42により供給された特徴との間の特徴空間におけるユークリッド距離を測定する。決定ユニット47は、該測定に基づいて、特徴のセットS、それ故オーディオ信号Mが、どのクラス(もしあれば)に割り当てられ得るかを決定する。
分類が成功した場合、適切なリンク48によってオーディオ信号Mに関連付けられたメタデータファイル41に、適切な情報44が保存されても良い。情報44又はメタデータは、オーディオ信号Mの特徴のセットSと、オーディオ信号Mが割り当てられたクラスとを、例えば該オーディオ信号Mが当該クラスに属する度合いの尺度と共に有し得る。
図5は、データベース50及び51から取得され得るようなオーディオ信号M及びM'を比較するためのシステム5の簡略化されたブロック図を示す。特徴セット導出のための2つのシステム1及び1'によって、特徴セットS及び特徴セットS'が、それぞれ音楽信号M及び音楽信号M'について導出される。単に簡単さのため、本図は、特徴セット導出のための2つの別個のシステム1及び1'を示している。当然、単に一方のオーディオ信号Mについての導出を実行し、次いで他方のオーディオ信号M'についての導出を実行することにより、単一の斯かるシステムが実装されても良い。
特徴セットS及びS'は、比較器ユニット52に入力される。該比較器ユニット52において、特徴セットS及びS'は距離解析ユニット53において解析され、特徴セットS及びS'のそれぞれの特徴間の特徴空間における距離を決定する。その結果は決定ユニット54に送られ、該決定ユニット54は距離解析ユニット53の結果を用いて、2つのオーディオ信号M及びM'が同一の群に属するとみなされるほど十分に類似しているか否かを決定する。決定ユニット54により得られた結果は適切な信号55として出力され、単純なYes/No型の結果であっても良いし、又は2つのオーディオ信号M及びM'の間の類似さ又は類似さの欠如に関する情報量のより多い判定であっても良い。
本発明は好適な実施例及びその変形の形で開示されたが、多くの付加的な変更及び変形が本発明の範囲から逸脱することなく為され得ることは理解されるであろう。例えば、音楽信号についての特徴セットを導出するための方法は、ことによると音楽トラックについての記述的なメタデータの生成のための用途を持つ、音楽トラックを特徴付けするオーディオ処理装置において利用されても良い。更に本発明は、説明された解析の方法を利用することに限定されるものではなく、いずれの適切な解析的な方法をも適用し得る。
明確さのため、本明細書を通して「1つの(a又はan)」の使用は複数を除外するものではなく、「有する(comprise)」は他のステップ又は要素を除外するものではないことも、理解されるべきである。「ユニット」又は「モジュール」は、単一のエンティティとして明示的に記載されない限り、適宜幾つかのブロック又は装置を有しても良い。
時間フレームと入力オーディオ信号から抽出された特徴との間の関係の抽象的な表現である。 本発明の第1の実施例によるオーディオ入力信号から特徴のセットを導出するためのシステムの模式的なブロック図である。 本発明の第2の実施例によるオーディオ入力信号から特徴のセットを導出するためのシステムの模式的なブロック図である。 本発明の第3の実施例によるオーディオ入力信号から特徴のセットを導出するためのシステムの模式的なブロック図である。 オーディオ信号を分類するためのシステムの模式的なブロック図である。 オーディオ信号を比較するためのシステムの模式的なブロック図である。

Claims (15)

  1. オーディオ入力信号の特徴のセットを導出する方法であって、
    前記オーディオ入力信号の幾つかの1次特徴を識別するステップと、
    前記1次特徴の少なくとも一部から幾つかの相関値を生成するステップと、
    前記相関値を利用して、前記オーディオ入力信号についての特徴のセットを編集するステップと、
    を有する方法。
  2. 前記1次特徴は前記オーディオ入力信号の所与のドメインにおいて1以上のセクションから抽出され、前記相関値を生成するステップは、前記ドメインにおいて対応するセクションの前記1次特徴の対を利用して相関を実行するステップを有する、請求項1に記載の方法。
  3. 前記1次特徴は前記オーディオ入力信号の異なる時間フレームから抽出され、前記相関値を生成するステップは、異なる時間フレームの前記1次特徴を利用して相関を実行するステップを有する、請求項2に記載の方法。
  4. 複数の時間フレームの各時間フレームについて、1次特徴ベクトルが時間の関数として抽出され、前記相関値を生成するステップは、幾つかの前記特徴ベクトルに亘って前記特徴ベクトルの特定の要素間の相互相関を実行するステップを有する、請求項3に記載の方法。
  5. 複数の時間フレームの各時間フレームについて、1次特徴ベクトルが周波数の関数として抽出され、前記相関値を生成するステップは、周波数に亘る2つの時間フレームの前記特徴ベクトルの特定の要素間の相互相関を実行するステップを有する、請求項3に記載の方法。
  6. 前記相関値を生成するステップにおいて利用される前記1次特徴は、前記相関値の生成の前に、対応する1次特徴の中間値により調節される、請求項1乃至5のいずれか一項に記載の方法。
  7. 前記特徴のセットは、幾つかの相関値と、少なくとも幾つかの前記1次特徴の派生物とを有する、請求項1乃至6のいずれか一項に記載の方法。
  8. オーディオ入力信号を群へと分類し、前記オーディオ入力信号の特徴のセットに基づいて、前記オーディオ入力信号が幾つかの群のうちのいずれかに入る確率を決定する方法であって、各前記群は特定のオーディオクラスを表し、前記特徴のセットが請求項1乃至7のいずれか一項に記載の方法を利用して導出されたものである方法。
  9. オーディオ入力信号を比較して前記オーディオ入力信号間の類似度を決定する方法であって、
    第1のオーディオ入力信号についての第1の特徴のセットを導出するステップと、
    第2のオーディオ入力信号についての第2の特徴のセットを導出するステップと、
    定義された距離尺度に従って、特徴空間における前記第1の特徴のセットと前記第2の特徴のセットとの間の距離を算出するステップと、
    前記算出された距離に基づいて、前記第1のオーディオ信号と前記第2のオーディオ信号との間の類似度を決定するステップと、
    を有し、前記第1及び第2の特徴のセットは、請求項1乃至7のいずれか一項に記載の方法を利用して導出されたものである方法。
  10. オーディオ入力信号の特徴のセットを導出するためのシステムであって、
    前記オーディオ入力信号の幾つかの1次特徴を識別するための特徴識別ユニットと、
    前記1次特徴の少なくとも一部から幾つかの相関値を生成するための相関値生成ユニットと、
    前記相関値を利用して前記オーディオ入力信号についての特徴のセットを編集するための特徴セット編集ユニットと、
    を有するシステム。
  11. オーディオ入力信号を群に分類するための分類システムであって、前記分類システムは、前記オーディオ入力信号の特徴のセットに基づいて、前記入力オーディオ信号が幾つかの群のうちのいずれかに入る確率を決定するための確率決定ユニットを有し、各前記群は特定のオーディオクラスを表し、前記特徴のセットは請求項1乃至7のいずれか一項に記載の方法を利用して導出されたものである分類システム。
  12. オーディオ入力信号を比較して、前記オーディオ入力信号間の類似度を決定するための比較システムであって、前記比較システムは、
    定義された距離尺度に従って、特徴空間における第1の特徴のセットと第2の特徴のセットとの間の距離を算出し、前記算出された距離に基づいて前記オーディオ入力信号間の類似度を決定するための比較器ユニットを有し、前記第1及び第2の特徴のセットは、請求項1乃至7のいずれか一項に記載の方法を利用して導出されたものである比較システム。
  13. 請求項11に記載の分類システム及び/又は請求項12に記載の比較システムを有するオーディオ処理装置。
  14. プログラム可能なオーディオ処理装置のメモリに直接ロード可能なコンピュータプログラムであって、前記プログラムが前記オーディオ処理装置において動作するときに、請求項1乃至7のいずれか一項に記載の特徴のセットを導出する方法のステップを実行するための、請求項8に記載のオーディオ入力信号を分類する方法のステップを実行するための、又は請求項9に記載のオーディオ入力信号を比較するための方法のステップを実行するためのソフトウェアコード部分を有するコンピュータプログラム。
  15. オーディオ入力信号から導出された特徴のセットを有するデータベースであって、前記特徴のセットは、請求項1乃至7のいずれか一項に記載の方法を利用して導出されたものであるデータベース。
JP2008535174A 2005-10-17 2006-10-16 オーディオ入力信号についての特徴のセットを導出する方法 Active JP5512126B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05109648.5 2005-10-17
EP05109648 2005-10-17
PCT/IB2006/053787 WO2007046048A1 (en) 2005-10-17 2006-10-16 Method of deriving a set of features for an audio input signal

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2012283302A Division JP5739861B2 (ja) 2005-10-17 2012-12-26 オーディオ入力信号についての特徴のセットを導出するシステム、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2009511980A true JP2009511980A (ja) 2009-03-19
JP5512126B2 JP5512126B2 (ja) 2014-06-04

Family

ID=37744411

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008535174A Active JP5512126B2 (ja) 2005-10-17 2006-10-16 オーディオ入力信号についての特徴のセットを導出する方法
JP2012283302A Active JP5739861B2 (ja) 2005-10-17 2012-12-26 オーディオ入力信号についての特徴のセットを導出するシステム、プログラム及び方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2012283302A Active JP5739861B2 (ja) 2005-10-17 2012-12-26 オーディオ入力信号についての特徴のセットを導出するシステム、プログラム及び方法

Country Status (5)

Country Link
US (1) US8423356B2 (ja)
EP (1) EP1941486B1 (ja)
JP (2) JP5512126B2 (ja)
CN (1) CN101292280B (ja)
WO (1) WO2007046048A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008304610A (ja) * 2007-06-06 2008-12-18 Nippon Telegr & Teleph Corp <Ntt> 信号特徴抽出方法、信号探索方法、信号特徴抽出装置、コンピュータプログラム、及び、記録媒体
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
JP2017535905A (ja) * 2014-12-11 2017-11-30 ドルビー ラボラトリーズ ライセンシング コーポレイション メタデータ保存オーディオ・オブジェクト・クラスタリング
CN109478198A (zh) * 2016-05-20 2019-03-15 弗劳恩霍夫应用研究促进协会 用于确定相似度信息的装置、用于确定相似度信息的方法、用于确定自相关信息的装置、用于确定互相关信息的装置以及计算机程序

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101292280B (zh) * 2005-10-17 2015-04-22 皇家飞利浦电子股份有限公司 导出音频输入信号的一个特征集的方法
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
JP4892021B2 (ja) * 2009-02-26 2012-03-07 株式会社東芝 信号帯域拡張装置
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
US8805854B2 (en) 2009-06-23 2014-08-12 Gracenote, Inc. Methods and apparatus for determining a mood profile associated with media data
US8071869B2 (en) * 2009-05-06 2011-12-06 Gracenote, Inc. Apparatus and method for determining a prominent tempo of an audio work
EP2341630B1 (en) * 2009-12-30 2014-07-23 Nxp B.V. Audio comparison method and apparatus
US8224818B2 (en) * 2010-01-22 2012-07-17 National Cheng Kung University Music recommendation method and computer readable recording medium storing computer program performing the method
TWI527025B (zh) * 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
US11308928B2 (en) 2014-09-25 2022-04-19 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
US9536509B2 (en) 2014-09-25 2017-01-03 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
US20160162807A1 (en) * 2014-12-04 2016-06-09 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems
US10535000B2 (en) * 2016-08-08 2020-01-14 Interactive Intelligence Group, Inc. System and method for speaker change detection
US11341945B2 (en) * 2019-08-15 2022-05-24 Samsung Electronics Co., Ltd. Techniques for learning effective musical features for generative and retrieval-based applications
CN111445922B (zh) * 2020-03-20 2023-10-03 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN117636907B (zh) * 2024-01-25 2024-04-12 中国传媒大学 基于广义互相关的音频数据处理方法、装置及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4843562A (en) 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
WO1994022132A1 (en) 1993-03-25 1994-09-29 British Telecommunications Public Limited Company A method and apparatus for speaker recognition
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP2000100072A (ja) * 1998-09-24 2000-04-07 Sony Corp 情報信号処理方法及び装置
US8326584B1 (en) 1999-09-14 2012-12-04 Gracenote, Inc. Music searching methods based on human perception
FI19992351A (fi) 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Puheentunnistus
EP1143409B1 (en) * 2000-04-06 2008-12-17 Sony France S.A. Rhythm feature extractor
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
JP4596197B2 (ja) * 2000-08-02 2010-12-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
US7054810B2 (en) 2000-10-06 2006-05-30 International Business Machines Corporation Feature vector-based apparatus and method for robust pattern recognition
DE10058811A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zur Identifizierung von Musikstücken
US6957183B2 (en) * 2002-03-20 2005-10-18 Qualcomm Inc. Method for robust voice recognition by analyzing redundant features of source signal
US7082394B2 (en) * 2002-06-25 2006-07-25 Microsoft Corporation Noise-robust feature extraction using multi-layer principal component analysis
EP1403783A3 (en) * 2002-09-24 2005-01-19 Matsushita Electric Industrial Co., Ltd. Audio signal feature extraction
KR101101384B1 (ko) * 2003-04-24 2012-01-02 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라미터화된 시간 특징 분석
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
CN101292280B (zh) * 2005-10-17 2015-04-22 皇家飞利浦电子股份有限公司 导出音频输入信号的一个特征集的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008304610A (ja) * 2007-06-06 2008-12-18 Nippon Telegr & Teleph Corp <Ntt> 信号特徴抽出方法、信号探索方法、信号特徴抽出装置、コンピュータプログラム、及び、記録媒体
JP4601643B2 (ja) * 2007-06-06 2010-12-22 日本電信電話株式会社 信号特徴抽出方法、信号探索方法、信号特徴抽出装置、コンピュータプログラム、及び、記録媒体
US8892497B2 (en) 2010-05-17 2014-11-18 Panasonic Intellectual Property Corporation Of America Audio classification by comparison of feature sections and integrated features to known references
CN102473411A (zh) * 2010-05-17 2012-05-23 松下电器产业株式会社 声音分类装置、方法、程序及集成电路
JP5578453B2 (ja) * 2010-05-17 2014-08-27 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声分類装置、方法、プログラム及び集積回路
CN102473411B (zh) * 2010-05-17 2014-11-05 松下电器(美国)知识产权公司 声音分类装置、方法及集成电路
WO2011145249A1 (ja) * 2010-05-17 2011-11-24 パナソニック株式会社 音声分類装置、方法、プログラム及び集積回路
JP2017535905A (ja) * 2014-12-11 2017-11-30 ドルビー ラボラトリーズ ライセンシング コーポレイション メタデータ保存オーディオ・オブジェクト・クラスタリング
US11363398B2 (en) 2014-12-11 2022-06-14 Dolby Laboratories Licensing Corporation Metadata-preserved audio object clustering
US11937064B2 (en) 2014-12-11 2024-03-19 Dolby Laboratories Licensing Corporation Metadata-preserved audio object clustering
CN109478198A (zh) * 2016-05-20 2019-03-15 弗劳恩霍夫应用研究促进协会 用于确定相似度信息的装置、用于确定相似度信息的方法、用于确定自相关信息的装置、用于确定互相关信息的装置以及计算机程序
JP2021157180A (ja) * 2016-05-20 2021-10-07 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム
JP7317888B2 (ja) 2016-05-20 2023-07-31 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム
CN109478198B (zh) * 2016-05-20 2023-09-22 弗劳恩霍夫应用研究促进协会 用于确定相似度信息的装置、方法及计算机存储介质

Also Published As

Publication number Publication date
JP2013077025A (ja) 2013-04-25
US8423356B2 (en) 2013-04-16
EP1941486A1 (en) 2008-07-09
EP1941486B1 (en) 2015-12-23
WO2007046048A1 (en) 2007-04-26
JP5512126B2 (ja) 2014-06-04
JP5739861B2 (ja) 2015-06-24
CN101292280B (zh) 2015-04-22
CN101292280A (zh) 2008-10-22
US20080281590A1 (en) 2008-11-13

Similar Documents

Publication Publication Date Title
JP5739861B2 (ja) オーディオ入力信号についての特徴のセットを導出するシステム、プログラム及び方法
JP5362178B2 (ja) オーディオ信号からの特徴的な指紋の抽出とマッチング
JP4067969B2 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
US7451078B2 (en) Methods and apparatus for identifying media objects
US20130289756A1 (en) Ranking Representative Segments in Media Data
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
US20060155399A1 (en) Method and system for generating acoustic fingerprints
WO2015114216A2 (en) Audio signal analysis
US20130170670A1 (en) System And Method For Automatically Remixing Digital Music
KR20070004891A (ko) 오디오 신호의 분류를 위한 방법 빛 시스템
US11271993B2 (en) Streaming music categorization using rhythm, texture and pitch
GB2533654A (en) Analysing audio data
De Leon et al. Enhancing timbre model using MFCC and its time derivatives for music similarity estimation
Kostek et al. Creating a reliable music discovery and recommendation system
US20180173400A1 (en) Media Content Selection
WO2016102738A1 (en) Similarity determination and selection of music
Zhang et al. A novel singer identification method using GMM-UBM
WO2019053544A1 (en) IDENTIFICATION OF AUDIOS COMPONENTS IN AN AUDIO MIX
Patil et al. Content-based audio classification and retrieval: A novel approach
Kubera et al. All that jazz in the random forest
Kumari et al. Music Genre Classification for Indian Music Genres
Balachandra et al. Music Genre Classification for Indian Music Genres
Gnanamani et al. Tamil Filmy Music Genre Classifier using Deep Learning Algorithms.
CN117807564A (zh) 音频数据的侵权识别方法、装置、设备及介质
Kumar et al. Audio retrieval using timbral feature

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120312

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130110

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130322

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130712

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140326

R150 Certificate of patent or registration of utility model

Ref document number: 5512126

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250