JP2009511980A

JP2009511980A - オーディオ入力信号についての特徴のセットを導出する方法

Info

Publication number: JP2009511980A
Application number: JP2008535174A
Authority: JP
Inventors: ディルクジェイブレーバールト; マーティンエフマッキンニー
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-10-17
Filing date: 2006-10-16
Publication date: 2009-03-19
Anticipated expiration: 2026-10-16
Also published as: JP2013077025A; US8423356B2; EP1941486A1; EP1941486B1; WO2007046048A1; JP5512126B2; JP5739861B2; CN101292280B; CN101292280A; US20080281590A1

Abstract

本発明は、オーディオ入力信号Ｍの特徴のセットＳを導出する方法であって、オーディオ入力信号Ｍの幾つかの１次特徴ｆ_１、ｆ_２、…、ｆ_ｆを識別するステップと、１次特徴ｆ_１、ｆ_２、…、ｆ_ｆの少なくとも一部から幾つかの相関値ρ_１、ρ_２、…、ρ_Ｉを生成するステップと、相関値ρ_１、ρ_２、…、ρ_Ｉを利用して、オーディオ入力信号Ｍについての特徴のセットＳを編集するステップと、を有する方法を記述する。本発明は更に、オーディオ入力信号Ｍを群に分類する方法、及びオーディオ入力信号Ｍ、Ｍ'を比較してオーディオ入力信号Ｍ、Ｍ'間の類似度を決定する方法を記述する。本発明はまた、オーディオ入力信号Ｍの特徴のセットＳを導出するためのシステム１、オーディオ入力信号Ｍを群に分類するための分類システム４、オーディオ入力信号Ｍ、Ｍ'を比較してオーディオ入力信号Ｍ、Ｍ'間の類似度を決定するための比較システム５を記述する。

Description

本発明は、オーディオ入力信号の特徴のセットを導出する方法、及びオーディオ入力信号の特徴のセットを導出するためのシステムに関する。本発明はまた、オーディオ入力信号を分類するための方法及びシステム、及びオーディオ入力信号を比較するための方法及びシステムに関する。

ディジタルコンテンツのための記憶容量は、劇的に増大している。少なくとも１テラバイトの記憶容量を持つハードディスクが、近い将来利用可能となることが予想される。これに加えて、ＭＰＥＧ規格のような、マルチメディアコンテンツのための圧縮アルゴリズムの発展が、オーディオ又はビデオファイル毎に必要とされる記憶容量を著しく低減させている。その結果、消費者は、単一のハードディスク又はその他の記憶媒体に、何時間ものビデオ及びオーディオコンテンツを保存することが可能となるであろう。ビデオ及びオーディオは、常に増大し続ける数のラジオ及びＴＶ局から記録され得る。消費者は、ますます一般的になっている機能であるワールドワイドウェブから、ビデオ及びオーディオコンテンツを単にダウンロードすることによって、該消費者のコレクションを容易に増やすことができる。更に、大きな記憶容量を持つ携帯型音楽プレイヤが利用可能となりまた実用的となり、ユーザがいつでも、選択を為すための豊富な音楽のセレクションにアクセスすることを可能としている。

しかしながら、選択を為すための大量のビデオ及びオーディオデータのセレクションは、問題のないものではない。例えば、数千もの音楽トラックを持つ大量の音楽のデータベースからの音楽の構成及び選択は、困難であり時間を浪費するものである。該問題は、メタデータを含ませること（実際のオーディオデータファイルに何らかの方法で添付された付加的な情報タグと理解され得る）によって、部分的に対処され得る。メタデータは時折オーディオファイルに対して提供されるが、常にというわけではない。時間を浪費する不快な取得及び分類の問題に直面するとき、ユーザは諦めてしまうか、又は全くしようとしない見込みが高い。

音楽信号の分類の問題への対処において、幾つかの試みが為されてきた。例えば国際特許出願公開WO01/20609A2は、オーディオ信号、即ち楽曲又は音楽トラックが、リズムの複雑さ、調音、演奏の冒頭等のような特定の特徴又は変数に従って分類される分類システムを示唆している。各楽曲は、幾つかの選択された変数について、各変数が当該楽曲にどの程度当てはまるかに依存する加重値を割り当てられる。しかしながら、斯かるシステムは、類似する楽曲の音楽トラックの分類又は比較の精度のレベルが、あまり高くないという欠点を持つ。

それ故、本発明の目的は、オーディオ信号を特徴付け、分類し又は比較する、より頑強で正確な方法を提供することにある。

この目的のため、本発明は、とりわけオーディオ入力信号の分類及び／又はオーディオ入力信号の他のオーディオ信号との比較及び／又はオーディオ入力信号の特徴付けにおける使用のための、オーディオ入力信号の特徴のセットを導出する方法であって、前記オーディオ入力信号の幾つかの１次特徴を識別するステップと、前記１次特徴の少なくとも一部から幾つかの相関値を生成するステップと、前記相関値を利用して、前記オーディオ入力信号についての特徴のセットを編集するステップと、を有する方法を提供する。前記識別するステップは例えば、オーディオ入力信号から幾つかの１次特徴を抽出するステップ、又はデータベースから幾つかの１次特徴を取得するステップを有しても良い。

前記１次特徴は、オーディオ入力信号の特定の選択された記述的な特徴であり、信号帯域幅、ゼロ交差率、信号の音量、信号の明るさ、信号エネルギー又はパワースペクトル値等を記述しても良い。１次特徴によって記述される他の特徴は、スペクトルロールオフ周波数、スペクトル重心等であり得る。オーディオ入力信号から導出される１次特徴は、基本的に直交となるように選択されても良い。即ち、１次特徴は、或る程度互いと独立となるように選択されても良い。１次特徴のシーケンスが、一般に「特徴ベクトル」と呼ばれるものへとまとめられても良く、ここでは特徴ベクトルにおける特定の位置が、常に同一のタイプの特徴により占有される。

１次特徴のセレクションから生成される相関値（それ故２次特徴とも呼ばれる）が、これら１次特徴間の相互依存性又は共分散を記述し、オーディオ入力信号についての強力な記述子である。しばしば、１次特徴では不十分である場合には、斯かる２次特徴を用いて音楽トラックが正確に比較、分類又は特徴付けされ得ることが分かっている。

本発明による方法の明らかな利点は、強力で記述的な特徴のセットが、いずれのオーディオ入力信号についても容易に導出され得、該特徴のセットが、例えばオーディオ入力信号を正確に分類するために又は他の類似するオーディオ信号を迅速且つ正確に識別するために利用され得る点である。例えば、１次及び２次特徴の要素を有する、オーディオ信号について編集された好適な特徴のセットは、特定の選択された記述的な特徴を記述するのみならず、これら選択された記述的な特徴間の相互関係をも記述する。

オーディオ入力信号の特徴のセットを導出するための適切なシステムは、オーディオ入力信号の幾つかの１次特徴を識別するための特徴識別ユニットと、少なくとも一部の前記１次特徴から幾つかの相関値を生成するための相関値生成ユニットと、前記相関値を利用して前記オーディオ入力信号についての特徴のセットを編集するための特徴セット編集ユニットと、を有する。前記特徴識別ユニットは例えば、特徴抽出ユニット及び／又は特徴取得ユニットを有しても良い。

従属請求項及び以下の説明が、本発明の特に有利な実施例及び特徴を開示する。

オーディオ入力信号は、いずれの適切な供給源に源を持つものであっても良い。最も一般的には、オーディオ信号は、幾つかのフォーマットのうちいずれか１つを持ち得るオーディオファイルに源を持つものであっても良い。オーディオファイルのフォーマットの例は、例えばＷＡＶのような圧縮されていないもの、例えばＷＭＡ（Windows（登録商標） Media Audio）のような無損失圧縮されたもの、及びＭＰ３（MPEG-1 Audio Layer 3）ファイル、ＡＡＣ（Advanced Audio Codec）等のような損失性圧縮されたフォーマットである。同様に、オーディオ入力信号は、当業者には良く知られているであろう、いずれかの適切な技術を用いてオーディオ信号をディジタル化することにより得られても良い。

本発明による方法においては、オーディオ入力信号についての１次特徴（時々観測情報（observation）とも呼ばれる）は好ましくは、所与のドメインにおける１以上のセクションから抽出されても良く、相関値の生成は好ましくは、適切なドメインにおける対応するセクションの１次特徴の対を利用して相関を実行することを有する。セクションは例えば時間ドメインにおける時間フレーム又はセグメントであっても良く、ここで「時間フレーム」は単に、幾つかのオーディオ入力サンプルをカバーする時間の範囲である。セクションは、周波数ドメインにおける周波数帯域であっても良く、又はフィルタバンクドメインにおける時間／周波数の「タイル」であっても良い。これら時間／周波数タイル、時間フレーム及び周波数帯域は一般に、均一のサイズ又は継続時間のものである。オーディオ信号のセクションに関連する特徴はそれ故、時間の関数として、周波数の関数として、又は両方の組み合わせとして表現され得、それにより一方の又は両方のドメインにおいて斯かる特徴についての相関が実行され得る。以下、「セクション」及び「タイル」なる用語は、交換可能に用いられる。

本発明の更なる好適な実施例においては、異なる、好ましくは隣接した時間フレームから抽出された１次特徴についての相関値の生成は、これら時間フレームの１次特徴を利用した相関の実行を有し、それにより、該相関値が、これら隣接した特徴間の相互関係を記述する。

本発明の１つの好適な実施例においては、オーディオ入力信号の各時間フレームについて時間ドメインにおいて１次特徴が抽出され、好ましくは特徴ベクトルの全体の範囲に亘って、幾つかの連続する特徴ベクトルに亘って特徴の対の間の相互相関を実行することにより相関値が生成される。

本発明の代替の好適な実施例においては、１次特徴は、オーディオ入力信号の各時間フレームについて周波数ドメインにおいて抽出され、周波数ドメインの周波数帯域に亘る２つの時間フレームの特徴ベクトルの特定の特徴間の相互相関を実行することにより、相関値が計算される。ここで、２つの時間フレームは好ましくは（必須ではないが）、隣接する時間フレームである。換言すれば、複数の時間フレームの各時間フレームについて、少なくとも２つの周波数帯域について少なくとも２つの１次特徴が抽出され、相関値の生成は、時間フレーム及び周波数帯域に亘る２つの特徴の間の相互相関を実行することを有する。

特徴ベクトルの１次特徴は、互いに対して独立な又は直交するものとして選択されるため、オーディオ信号の異なる側面を記述し、それ故異なる単位で表現される。変数の集合の異なる変数間の共分散のレベルを比較するため、２つの変数の間の積率相関又は相互相関を計算するために利用される一般に知られた手法で、各変数の平均偏差が該変数の標準偏差によって除算されても良い。それ故、本発明の特に好適な実施例においては、相関値を生成する際に用いられる１次特徴が、全ての適切な特徴の中間値又は平均値を該１次特徴から減算することによって調節される。例えば、特徴ベクトルの全体の範囲に亘って２つの時間ドメインの１次特徴についての相関値を計算する場合、平均偏差及び標準偏差のような特徴の変動性についての尺度を算出する前に、各１次特徴の中間値が最初に計算され、１次特徴の値から減算される。同様に、２つの隣接する特徴ベクトルから２つの周波数ドメインの特徴についての相関値を計算する場合、２つの選択された１次特徴についての積率相関又は相互相関を算出する前に、２つの特徴ベクトルのそれぞれに対する１次特徴の中間値が最初に算出され、それぞれの特徴ベクトルの各１次特徴から減算される。

例えば第１及び第２の、第１及び第３の並びに第２及び第３の１次特徴等についての相関値といったように、幾つかの斯かる相関値が計算されても良い。これら相関値は、オーディオ入力信号についての特徴の対の間の共分散又は相互依存性を記述する値であり、組み合わせられてオーディオ入力信号についての特徴の集合的なセットを与えても良い。特徴のセットの情報量を増大させるために、特徴のセットは好ましくは、１次特徴に直接関連する幾つかの情報、即ち特徴ベクトルの範囲に亘ってとられた１次特徴のそれぞれについての中間値又は平均値のような、１次特徴の適切な派生物を有しても良い。同様に、例えば特徴ベクトルの選択された範囲に亘ってとられた第１、第３及び第５の特徴についての平均値のような、１次特徴のサブセットのみについて斯かる２次特徴を取得することで十分であり得る。

本発明による方法を利用して得られる特徴のセット（実際には１次及び２次特徴を有する拡張された特徴ベクトル）は、該セットが導出されたオーディオ信号とは独立して保存されても良いし、又は例えばメタデータの形態で該オーディオ入力信号と共に保存されても良い。

音楽トラック又は曲はこのとき、上述した方法によって、該音楽トラック又は曲について導出された特徴のセットによって、正確に記述されることができる。斯かる特徴のセットは、高い精度で、楽曲についての分類及び比較を実行することを可能とする。

例えば、同様の性質を持つ幾つかのオーディオ信号（単一のクラス例えば「バロック」に属するもののような）についての特徴セット又は拡張された特徴ベクトルが導出され、これらの特徴セットが次いでクラス「バロック」についてのモデルを構築するために利用されることができる。斯かるモデルは例えば、拡張された特徴ベクトルにより占有される特徴空間において各クラスが自身の平均ベクトルと自身の共分散マトリクスとを持つ、ガウス多変量モデルであっても良い。いずれの数の群又はクラスがトレーニングされても良い。音楽のオーディオ入力信号については、斯かるクラスは例えば「レゲエ」、「カントリー」、「クラシック」等のように、広く定義されても良い。同様にモデルが「８０年代ディスコ」、「２０年代ジャズ」、「フィンガースタイルギター」等のように、より狭い又は細分化されたものであっても良く、オーディオ入力信号の適切な代表集合を用いてトレーニングされても良い。

最適な分類結果を保証するため、モデル空間の次元は可能な限り低く保たれる。即ち、クラス間のとり得る最良の区別を与える１次特徴を選択しつつ、最小限の数の１次特徴を選択する。特徴整列及び次元低減の既知の方法が、選択する最良の１次特徴を決定するために適用されても良い。群又はクラスについてのモデルが、当該群又はクラスに属することが分かっている幾つかのオーディオ信号を利用してトレーニングされると、「未知の」オーディオ信号は、当該オーディオ入力信号についての特徴のセットが特定の類似度内で該モデルに合致するか否かを単にチェックすることにより、該オーディオ信号が当該クラスに属するか否かをテストされることができる。

それ故、オーディオ入力信号を群に分類する方法は好ましくは、入力オーディオ信号についての特徴のセットを導出し、該特徴のセットに基づいて、該オーディオ入力信号が幾つかの群又はクラスのうちのいずれかに対応する確率を決定することを有する。ここで、各群又はクラスが、特定のオーディオクラスに対応する。

オーディオ入力信号を１以上の群へと分類するための対応する分類システムは、オーディオ入力信号の特徴のセットを導出するためのシステムと、前記オーディオ入力信号の特徴のセットに基づいて、該入力オーディオ信号が幾つかの群のうちのいずれかに当てはまる確率を決定するための確率決定ユニットとを有しても良い。ここで、各群が特定のオーディオクラスに対応する。

本発明による方法の他の用途は、例えば２つの曲のようなオーディオ信号間の類似度のレベル（もしあれば）を決定するために、該オーディオ信号のそれぞれの特徴のセットに基づいて、該オーディオ信号を比較することであり得る。

それ故、斯かる比較の方法は好ましくは、第１のオーディオ入力信号についての第１の特徴のセットを導出するステップと、第２のオーディオ入力信号についての第２の特徴のセットを導出するステップと、次いで定義された距離尺度に従って特徴空間における第１の特徴のセットと第２の特徴のセットとの間の距離を算出し、その後に最後に該算出された距離に基づいて、第１のオーディオ信号と第２のオーディオ信号との間の類似度を決定するステップとを有する。利用される距離尺度は例えば、特徴空間における特定の点間のユークリッド距離であっても良い。

オーディオ入力信号間の類似度を決定するために該オーディオ入力信号を比較するための対応する比較システムは、第１のオーディオ入力信号についての第１の特徴のセットを導出するためのシステムと、第２のオーディオ入力信号についての第２の特徴のセットを導出するためのシステムと、定義された距離尺度に従って特徴空間における第１の特徴のセットと第２の特徴のセットとの間の距離を算出し、該算出された距離に基づいてオーディオ信号間の類似度を決定するための比較ユニットと、を有しても良い。明らかに、第１の特徴のセットを導出するためのシステムと第２の特徴のセットを導出するためのシステムとは、同一のシステムであっても良い。

本発明は、種々のオーディオ処理アプリケーションにおいて用途を見出し得る。例えば、好適な実施例においては、上述したようなオーディオ入力信号を分類するための分類システムは、オーディオ処理装置に組み込まれても良い。該オーディオ処理装置は、オーディオ入力信号が分類される先のクラス又は群によって構成される音楽データベース又は集合へのアクセスを持ち得る。他のタイプのオーディオ処理装置は、データベースにおける音楽の特定の群又はクラスから１以上の音楽データファイルを選択するための音楽クエリシステムを有しても良い。斯かる装置のユーザはそれ故、例えばテーマが決められた音楽イベントのために、娯楽目的で曲の集合を容易にまとめることができる。曲がジャンル及び年代によって分類されている音楽データベースを利用するユーザは、「８０年代のポップス」のようなカテゴリに属する幾つかの曲がデータベースから取得されるべきであることを指定し得る。斯かるオーディオ処理装置の他の有用な用途は、運動トレーニングや余暇のスライドショーのプレゼンテーション等に付随するために適切な特定の雰囲気又はリズムを持つ曲の集合を集めることであり得る。本発明の更なる有用な用途は、既知の音楽トラックに類似する、１以上の音楽トラックを探して音楽データベースを検索することであり得る。

特徴のセットを導出し、オーディオ入力信号を分類し、入力信号を比較するための本発明によるシステムは、コンピュータプログラムとして直接的な態様で実現され得る。特徴抽出ユニット、相関値生成ユニット、特徴セット編集ユニット等のような、入力信号の特徴のセットを導出するための全てのコンポーネントは、コンピュータプログラムモジュールの形態で実現され得る。いずれの必要とされるソフトウェア又はアルゴリズムも、ハードウェア装置のプロセッサにおいてエンコードされても良く、それにより既存のハードウェア装置が、本発明の特徴から利益を得るように構成され得る。代替として、オーディオ入力信号の特徴のセットを導出するためのコンポーネントは、少なくとも部分的にハードウェアモジュールを利用して同様に実現されても良く、それにより本発明はディジタル及び／又はアナログオーディオ入力信号に適用されることができる。

本発明の他の目的及び特徴は、添付図面に関連して考察される以下の詳細な説明から明らかとなるであろう。しかしながら、図面は単に説明の目的のためにデザインされたものであり、本発明の限定の定義としてデザインされたものではないことは、理解されるべきである。

図において、同様の番号は図を通して同様のオブジェクトを示す。

本発明による以下に説明される方法の理解を簡単にするため、図１は、時間フレームｔ_１、ｔ_２、…、ｔ_Ｉ又は入力信号Ｍのセクションと、該入力信号Ｍについて最終的に得られる特徴のセットＳとの間の抽象的な表現を示す。

特徴のセットが導出される入力信号は、いずれの適切な供給源に源を持つものであっても良く、サンプリングされたアナログ信号、ＭＰ３又はＡＡＣファイルのようなオーディオ符号化された信号等であっても良い。本図において、オーディオ入力Ｍは最初に適切なディジタル化ユニット１０においてディジタル化され、該ディジタル化ユニット１０は該ディジタル化されたサンプルのストリームから一連の解析ウィンドウを出力する。解析ウィンドウは、例えば７４３ｍｓのような、特定の継続時間のものであっても良い。ウィンドウ化ユニット１１は更に、合わせてＩ個のオーバラップする時間フレームｔ_１、ｔ_２、…、ｔ_Ｉへと解析ウィンドウを分割し、各時間フレームｔ_１、ｔ_２、…、ｔ_Ｉは、オーディオ入力信号Ｍの特定の数のサンプルをカバーする。連続する解析ウィンドウは、図示されていないが、幾つかのタイルによりオーバラップするように選択されても良い。代替として、単一の十分に広い解析ウィンドウが利用されても良く、該ウィンドウから特徴が抽出される。

これらの時間フレームｔ_１、ｔ_２、…、ｔ_Iのそれぞれについて、幾つかの１次特徴ｆ_１、ｆ_２、…、ｆ_ｆが、特徴抽出ユニット１２において抽出される。以下により詳細に説明されるように、これら１次特徴ｆ_１、ｆ_２、…、ｆ_ｆは、時間ドメイン又は周波数ドメインの信号表現から計算されても良く、時間及び／又は周波数の関数として変化しても良い。時間／周波数タイル又は時間フレームについての１次特徴ｆ_１、ｆ_２、…、ｆ_ｆの各群は１次特徴ベクトルと呼ばれ、特徴ベクトルｆｖ_１、ｆｖ_２、…、ｆｖ_Ｉがタイルｔ_１、ｔ_２、…、ｔ_Ｉについて抽出される。

相関値生成ユニット１３において、１次特徴ｆ_１、ｆ_２、…、ｆ_ｆの特定の対について相関値が生成される。特徴の対は、単一の特徴ベクトルｆｖ_１、ｆｖ_２、…、ｆｖ_Ｉから、又は異なる特徴ベクトルｆｖ_１、ｆｖ_２、…、ｆｖ_Ｉ全体からとられても良い。例えば、相関は、異なる特徴ベクトルからとられた特徴の対（ｆｖ_１［ｉ］，ｆｖ_２［ｉ］）について計算されても良いし、又は同一の特徴ベクトルからの特徴の対（ｆｖ_１［ｊ］，ｆｖ_１［ｋ］）についてとられても良い。

特徴処理ブロック１５において、１次特徴ｆｖ_１、ｆｖ_２、…、ｆｖ_Ｉの１以上の派生物ｆｍ_１、ｆｍ_２、…、ｆｍ_ｆ（例えば中間値、平均値又は平均値のセット）が、１次特徴ベクトルｆｖ_１、ｆｖ_２、…、ｆｖ_Ｉ全体について計算されても良い。

相関値生成ユニット１３において生成された相関値は、特徴セット編集ユニット１４において、特徴処理ブロック１５において計算された１次特徴ｆ_１、ｆ_２、…ｆ_ｆの派生物ｆｍ_１、ｆｍ_２、…、ｆｍ_ｆと組み合わせられ、オーディオ入力信号Ｍについての特徴のセットＳを与える。斯かる特徴のセットＳは、全ての解析ウィンドウについて導出されても良く、全体のオーディオ入力信号Ｍについての平均の特徴のセットを計算するために利用されても良い。該平均の特徴のセットは次いで、必要に応じてオーディオ信号と共にオーディオファイルに、又は別個のメタデータデータベースに、メタデータとして保存されても良い。

図２ａにおいて、オーディオ入力信号ｘ（ｎ）について時間ドメインにおいて特徴のセットＳを導出するステップが、より詳細に説明される。オーディオ入力信号Ｍは最初にディジタル化ブロック１０においてディジタル化され、サンプリングされた信号：

を与える。

続いて、サンプリングされた入力信号ｘ［ｎ］がウィンドウ化ブロック２０においてウィンドウ化され、ウィンドウｗ［ｎ］を利用して時間ドメインにおけるタイルについてサイズＮ及びホップサイズＨを持つウィンドウ化されたサンプルｘ_ｉ［ｎ］の群を導出する：

図において時間ドメインｔ_ｉに対応する各サンプルの群ｘ_ｉ［ｎ］は次いで、本例においては高速フーリエ変換（ＦＦＴ）をとることにより、周波数ドメインへと変換される：

続いて、対数べき乗算出ユニット２１において、各周波数サブバンドｂについてフィルタカーネルＷ_ｂ［ｋ］を利用して、周波数サブバンドのセットについて対数ドメインのサブバンドべき乗Ｐ［ｂ］が計算される：

最後に、係数算出ユニット２２において、Ｂ個のべき乗サブバンドに亘る各サブバンドのべき乗値Ｐ［ｂ］のＤＣＴ（direct cosine transform）により、各時間フレームについてのメルケプストラム係数（Mel-frequency cepstral coefficients、ＭＦＣＣ）が得られる：

ウィンドウ化ユニット２０、対数べき乗算出ユニット２１及び係数算出ユニット２２は、合わせて特徴抽出ユニット１２を与える。斯かる特徴抽出ユニット１２は、入力信号Ｍの幾つかの解析ウィンドウのそれぞれについて特徴ｆ_１、ｆ_２、…ｆ_ｆを算出するために利用される。特徴抽出ユニット１２は一般に、ソフトウェア（ことによるとソフトウェアパッケージとして組み合わせられる）で実現される幾つかのアルゴリズムを有する。明らかに、単一の特徴抽出ユニット１２が各解析ウィンドウを別個に処理するために利用されても良いし、又は幾つかの解析ウィンドウが同時に処理されることができるように幾つかの別個の特徴抽出ユニット１２が実装されても良い。

時間フレームＩの特定のセットが以上に説明されたように処理されると、特定のフレームベースの特徴間の（正規化された）相関係数から成る２次特徴が（Ｉ個のサブフレームの解析フレームに亘って）計算されても良い。このことは、相関値生成ユニット１３において行われる。例えば、時間に沿ってｙ番目のＭＦＣＣ係数とｚ番目のＭＦＣＣ係数との間の相関は、以下のように式（６）により与えられる：

ここでμ_ｙ及びμ_ｚは、それぞれ（Ｉ個に亘る）ＭＦＣＣ_ｉ［ｙ］及びＭＦＣＣ_ｉ［ｚ］の中間値である。該中間値を減算することによる各係数の調節は、２次特徴としてピアソン相関係数を与える。該係数は、事実上、２つの変数（本例の場合には２つの係数ＭＦＣＣ_ｉ［ｙ］及びＭＦＣＣ_ｉ［ｚ］）の間の直線関係の強さの尺度である。

以上に算出された相関値ρ（ｙ，ｚ）は次いで、特徴のセットＳに対する寄与として利用されることができる。特徴のセットＳの他の要素は、特徴処理ブロック１５において算出された、時間フレームの１次の特徴ベクトルｆｖ_１、ｆｖ_２、…、ｆｖ_Ｉの派生物（例えば特徴ベクトルｆｖ_１、ｆｖ_２、…、ｆｖ_Ｉの全体の範囲に亘ってとられた各特徴ベクトルｆｖ_１、ｆｖ_２、…、ｆｖ_Ｉの最初の数個の特徴ｆ_１、ｆ_２、…ｆ_ｆの中間値又は平均値）であっても良い。

１次の特徴ベクトルｆｖ_１、ｆｖ_２、…、ｆｖ_Ｉの斯かる派生物は、特徴結合ユニット１４において相関値と組み合わせられ、出力として特徴のセットＳを与える。特徴のセットＳは、オーディオ入力信号Ｍと共に若しくは該信号Ｍとは別個にファイルに保存されても良いし、又は保存の前に更に処理されても良い。その後、特徴のセットＳは例えば、オーディオ入力信号Ｍを分類するために、オーディオ入力信号Ｍを他のオーディオ信号と比較するために、又はオーディオ入力信号Ｍを特徴付けするために、利用されても良い。

図２ｂは、全体でＢ個の離散的な周波数サブバンドについて周波数ドメインで特徴が抽出される、本発明の第２の実施例のブロック図を示す。対数サブバンドべき乗値の計算までの（該計算を含めた）最初の数段階は、図２ａの下で既に説明されたものと実質的に同一である。しかしながら本実施化においては、各周波数サブバンドについてのべき乗の値が特徴として直接利用され、そのため本例における特徴ベクトルｆｖ_ｉ、ｆｖ_ｉ＋１は、式（４）において与えられたような周波数サブバンドの範囲に亘る各周波数サブバンドについてのべき乗の値を有する。それ故、特徴抽出ユニット１２'は、ウィンドウ化ユニット２０及び対数べき乗算出ユニット２１のみを必要とする。

本例における相関値又は２次特徴の算出は、連続する時間フレームの対ｔ_ｉ、ｔ_ｉ＋１について、即ち特徴ベクトルの対ｆ_ｉ、ｆ_ｉ＋１に亘って、相関値生成ユニット１３'において実行される。ここでもまた、各特徴ベクトルｆ_ｉ、ｆ_ｉ＋１における各特徴が、該特徴から中間値μ_Ｐｉ、μ_Ｐｉ＋１を減算することにより最初に調節される。本例においては、例えばμ_Ｐｉは、特徴ベクトルｆ_ｉの全ての要素を合計し、該合計を周波数サブバンドの総数Ｂで除算することにより算出される。特徴ベクトルの対ｆ_ｉ、ｆ_ｉ＋１についての相関値ρ（Ｐ_ｉ，Ｐ_ｉ＋１）は、以下のように計算される：

以上において図２ａの下で説明されたように、特徴ベクトルの対についての相関値は、特徴結合ユニット１４'において、特徴処理ブロック１５'において算出された１次特徴の派生物と組み合わせられ、出力として特徴のセットＳを与える。ここでもまた、既に上述したように、特徴のセットＳは、オーディオ入力信号と共に若しくは該信号とは別個にファイルに保存されても良いし、又は保存の前に更に処理されても良い。

図３は、入力信号から抽出された特徴が時間ドメイン情報と周波数ドメイン情報との両方を含む、本発明の第３の実施例を示す。ここでは、オーディオ入力信号ｘ［ｎ］は、サンプリングされた信号である。各サンプルは、全体でＫ個のフィルタを有するフィルタバンク１７に入力される。入力サンプルｘ［ｎ］についてのフィルタバンク１７の出力はそれ故、値ｙ［ｍ，ｋ］のシーケンスであり、ここで１≦ｋ≦Ｋである。各ｋインデクスはフィルタバンク１７の異なる周波数バンドを表し、各ｍインデクスは時間即ちフィルタバンク１７のサンプリングレートを表す。各フィルタバンク出力ｙ［ｍ，ｋ］について、特徴ｆ_ａ［ｍ，ｋ］及びｆ_ｂ［ｍ，ｋ］が算出される。本例における特徴タイプｆ_ａ［ｍ，ｋ］は入力ｙ［ｍ，ｋ］のパワースペクトル値であっても良く、一方特徴タイプｆ_ｂ［ｍ，ｋ］は前のサンプルについて算出されたパワースペクトル値であっても良い。これら特徴の対ｆ_ａ［ｍ，ｋ］、ｆ_ｂ［ｍ，ｋ］は、周波数サブバンドの範囲に亘って（即ち１≦ｋ≦Ｋの値について）相関付けられ、相関値ρ（ｆ_ａ，ｆ_ｂ）を与えても良い：

図４において、オーディオ信号Ｍの分類のためのシステム４の簡略化されたブロック図が示される。ここでは、オーディオ信号Ｍが、例えばハードディスク、ＣＤ、ＤＶＤ、音楽データベース等のような記憶媒体４０から取得される。第１の段階において、特徴セット導出のためのシステム１を利用して、特徴のセットＳがオーディオ信号Ｍについて導出される。その結果の特徴のセットＳは、確率決定ユニット４３へと送られる。該確率決定ユニット４３はまた、該オーディオ信号がことによると割り当てられ得るクラスの特徴空間における特徴位置を記述するクラス特徴情報４２を、データ源４５から供給される。

確率決定ユニット４３において、距離測定ユニット４６が、例えば特徴のセットＳの特徴とクラス特徴情報４２により供給された特徴との間の特徴空間におけるユークリッド距離を測定する。決定ユニット４７は、該測定に基づいて、特徴のセットＳ、それ故オーディオ信号Ｍが、どのクラス（もしあれば）に割り当てられ得るかを決定する。

分類が成功した場合、適切なリンク４８によってオーディオ信号Ｍに関連付けられたメタデータファイル４１に、適切な情報４４が保存されても良い。情報４４又はメタデータは、オーディオ信号Ｍの特徴のセットＳと、オーディオ信号Ｍが割り当てられたクラスとを、例えば該オーディオ信号Ｍが当該クラスに属する度合いの尺度と共に有し得る。

図５は、データベース５０及び５１から取得され得るようなオーディオ信号Ｍ及びＭ'を比較するためのシステム５の簡略化されたブロック図を示す。特徴セット導出のための２つのシステム１及び１'によって、特徴セットＳ及び特徴セットＳ'が、それぞれ音楽信号Ｍ及び音楽信号Ｍ'について導出される。単に簡単さのため、本図は、特徴セット導出のための２つの別個のシステム１及び１'を示している。当然、単に一方のオーディオ信号Ｍについての導出を実行し、次いで他方のオーディオ信号Ｍ'についての導出を実行することにより、単一の斯かるシステムが実装されても良い。

特徴セットＳ及びＳ'は、比較器ユニット５２に入力される。該比較器ユニット５２において、特徴セットＳ及びＳ'は距離解析ユニット５３において解析され、特徴セットＳ及びＳ'のそれぞれの特徴間の特徴空間における距離を決定する。その結果は決定ユニット５４に送られ、該決定ユニット５４は距離解析ユニット５３の結果を用いて、２つのオーディオ信号Ｍ及びＭ'が同一の群に属するとみなされるほど十分に類似しているか否かを決定する。決定ユニット５４により得られた結果は適切な信号５５として出力され、単純なＹｅｓ／Ｎｏ型の結果であっても良いし、又は２つのオーディオ信号Ｍ及びＭ'の間の類似さ又は類似さの欠如に関する情報量のより多い判定であっても良い。

本発明は好適な実施例及びその変形の形で開示されたが、多くの付加的な変更及び変形が本発明の範囲から逸脱することなく為され得ることは理解されるであろう。例えば、音楽信号についての特徴セットを導出するための方法は、ことによると音楽トラックについての記述的なメタデータの生成のための用途を持つ、音楽トラックを特徴付けするオーディオ処理装置において利用されても良い。更に本発明は、説明された解析の方法を利用することに限定されるものではなく、いずれの適切な解析的な方法をも適用し得る。

明確さのため、本明細書を通して「１つの（a又はan）」の使用は複数を除外するものではなく、「有する（comprise）」は他のステップ又は要素を除外するものではないことも、理解されるべきである。「ユニット」又は「モジュール」は、単一のエンティティとして明示的に記載されない限り、適宜幾つかのブロック又は装置を有しても良い。

時間フレームと入力オーディオ信号から抽出された特徴との間の関係の抽象的な表現である。本発明の第１の実施例によるオーディオ入力信号から特徴のセットを導出するためのシステムの模式的なブロック図である。本発明の第２の実施例によるオーディオ入力信号から特徴のセットを導出するためのシステムの模式的なブロック図である。本発明の第３の実施例によるオーディオ入力信号から特徴のセットを導出するためのシステムの模式的なブロック図である。オーディオ信号を分類するためのシステムの模式的なブロック図である。オーディオ信号を比較するためのシステムの模式的なブロック図である。

Claims

オーディオ入力信号の特徴のセットを導出する方法であって、
前記オーディオ入力信号の幾つかの１次特徴を識別するステップと、
前記１次特徴の少なくとも一部から幾つかの相関値を生成するステップと、
前記相関値を利用して、前記オーディオ入力信号についての特徴のセットを編集するステップと、
を有する方法。
前記１次特徴は前記オーディオ入力信号の所与のドメインにおいて１以上のセクションから抽出され、前記相関値を生成するステップは、前記ドメインにおいて対応するセクションの前記１次特徴の対を利用して相関を実行するステップを有する、請求項１に記載の方法。
前記１次特徴は前記オーディオ入力信号の異なる時間フレームから抽出され、前記相関値を生成するステップは、異なる時間フレームの前記１次特徴を利用して相関を実行するステップを有する、請求項２に記載の方法。
複数の時間フレームの各時間フレームについて、１次特徴ベクトルが時間の関数として抽出され、前記相関値を生成するステップは、幾つかの前記特徴ベクトルに亘って前記特徴ベクトルの特定の要素間の相互相関を実行するステップを有する、請求項３に記載の方法。
複数の時間フレームの各時間フレームについて、１次特徴ベクトルが周波数の関数として抽出され、前記相関値を生成するステップは、周波数に亘る２つの時間フレームの前記特徴ベクトルの特定の要素間の相互相関を実行するステップを有する、請求項３に記載の方法。
前記相関値を生成するステップにおいて利用される前記１次特徴は、前記相関値の生成の前に、対応する１次特徴の中間値により調節される、請求項１乃至５のいずれか一項に記載の方法。
前記特徴のセットは、幾つかの相関値と、少なくとも幾つかの前記１次特徴の派生物とを有する、請求項１乃至６のいずれか一項に記載の方法。
オーディオ入力信号を群へと分類し、前記オーディオ入力信号の特徴のセットに基づいて、前記オーディオ入力信号が幾つかの群のうちのいずれかに入る確率を決定する方法であって、各前記群は特定のオーディオクラスを表し、前記特徴のセットが請求項１乃至７のいずれか一項に記載の方法を利用して導出されたものである方法。
オーディオ入力信号を比較して前記オーディオ入力信号間の類似度を決定する方法であって、
第１のオーディオ入力信号についての第１の特徴のセットを導出するステップと、
第２のオーディオ入力信号についての第２の特徴のセットを導出するステップと、
定義された距離尺度に従って、特徴空間における前記第１の特徴のセットと前記第２の特徴のセットとの間の距離を算出するステップと、
前記算出された距離に基づいて、前記第１のオーディオ信号と前記第２のオーディオ信号との間の類似度を決定するステップと、
を有し、前記第１及び第２の特徴のセットは、請求項１乃至７のいずれか一項に記載の方法を利用して導出されたものである方法。
オーディオ入力信号の特徴のセットを導出するためのシステムであって、
前記オーディオ入力信号の幾つかの１次特徴を識別するための特徴識別ユニットと、
前記１次特徴の少なくとも一部から幾つかの相関値を生成するための相関値生成ユニットと、
前記相関値を利用して前記オーディオ入力信号についての特徴のセットを編集するための特徴セット編集ユニットと、
を有するシステム。
オーディオ入力信号を群に分類するための分類システムであって、前記分類システムは、前記オーディオ入力信号の特徴のセットに基づいて、前記入力オーディオ信号が幾つかの群のうちのいずれかに入る確率を決定するための確率決定ユニットを有し、各前記群は特定のオーディオクラスを表し、前記特徴のセットは請求項１乃至７のいずれか一項に記載の方法を利用して導出されたものである分類システム。
オーディオ入力信号を比較して、前記オーディオ入力信号間の類似度を決定するための比較システムであって、前記比較システムは、
定義された距離尺度に従って、特徴空間における第１の特徴のセットと第２の特徴のセットとの間の距離を算出し、前記算出された距離に基づいて前記オーディオ入力信号間の類似度を決定するための比較器ユニットを有し、前記第１及び第２の特徴のセットは、請求項１乃至７のいずれか一項に記載の方法を利用して導出されたものである比較システム。
請求項１１に記載の分類システム及び／又は請求項１２に記載の比較システムを有するオーディオ処理装置。
プログラム可能なオーディオ処理装置のメモリに直接ロード可能なコンピュータプログラムであって、前記プログラムが前記オーディオ処理装置において動作するときに、請求項１乃至７のいずれか一項に記載の特徴のセットを導出する方法のステップを実行するための、請求項８に記載のオーディオ入力信号を分類する方法のステップを実行するための、又は請求項９に記載のオーディオ入力信号を比較するための方法のステップを実行するためのソフトウェアコード部分を有するコンピュータプログラム。
オーディオ入力信号から導出された特徴のセットを有するデータベースであって、前記特徴のセットは、請求項１乃至７のいずれか一項に記載の方法を利用して導出されたものであるデータベース。