JP5112300B2

JP5112300B2 - コンテンツ項目の特性を決定する方法および電子装置

Info

Publication number: JP5112300B2
Application number: JP2008514282A
Authority: JP
Inventors: ヤントスコヴロネク; マーティンエフマッキンニー
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-06-01
Filing date: 2006-05-30
Publication date: 2013-01-09
Anticipated expiration: 2026-05-30
Also published as: US20080202320A1; RU2007144711A; US7718881B2; EP1891548B1; KR101249024B1; EP1891548A1; CN101189610A; CN101189610B; WO2006129274A1; RU2419859C2; JP2008542835A; KR20080019031A

Description

本発明は、コンテンツ項目の特性を決定する方法に関する。

本発明は、更に、複数のコンテンツ項目におけるあるコンテンツ項目を検索する方法に関する。

また本発明は、プログラム可能な装置に、コンテンツ項目の特性を決定する方法及び／又は複数のコンテンツ項目におけるあるコンテンツ項目を検索する方法を実行させるように動作可能にするソフトウェアにも関する。

本発明は、更に、コンテンツ項目の特性を決定するように動作可能である電子回路を備える電子装置に関する。

本発明は、更に、複数のコンテンツ項目におけるあるコンテンツ項目を検索するように動作可能である電子回路を備える電子装置にも関する。

本発明は、更に、コンテンツ項目の特性を決定する又は複数のコンテンツ項目におけるあるコンテンツ項目を検索するように動作可能である電子装置において用いる電子回路にも関する。

このような方法の１つの例は、この米国特許第5,918,223号から既知である。この特許において記載される方法は、ラウドネス、ピッチ、明るさ、帯域、及びＭＦＣＣ係数、のうちの少なくとも１つからなる群から選択される音ファイルの複数の音響的特徴を測定する。これらの特徴に基づき計算される測定結果は、音ファイルをグループ化するのに用いられる。この方法の欠点は、低レベルの特徴は、ユーザが彼の好みに合うすべての曲を検索及び発見するのを可能にするのには十分でないことである。

本発明の第１の目的は、冒頭の段落で説明された種類の方法であって、ユーザの好みに一致するより多くの曲を検索及び発見するのに用いられ得る特性を決定する方法を提供することである。

本発明の第２の目的は、冒頭の段落で説明された種類の電子装置であって、ユーザの好みに一致するより多くの曲を検索及び発見するのに用いられ得る特性を決定することが可能である電子装置を提供することである。

第１目的は、本発明に従い、方法が、前記コンテンツ項目から複数の音を表すデータを選択するステップと、前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点(temporal aspect)を表す、ステップと、前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定するステップと、を含むことにおいて実現される。前記方法は、例えば、ＭＰ３ファイル、音楽ビデオ、又は映画の音声トラックなどの、コンテンツ項目のパーカッシブネス(percussiveness)の尺度を決定する。本発明は、消費者が、楽器がパーカッシブであるか否かを認識し得ないだけでなく、消費者が、コンテンツ項目全体に関するパーカッシブネスの尺度を認識することが可能でないことも認識していた。パーカッシブネスの尺度が高レベルの特徴であるので、テンポなどの他の特徴の代わりに又は加えて、ユーザの好みに一致する曲を検索及び発見するのに使用されるように十分に適合される。更に、このパーカッシブネスの尺度は、シード曲に基づき類似の音楽を発見するのに、及び／又はリミッタ／圧縮器／音量制御などの音声動的操作アルゴリズムのパラメータを自動的に設定するのに用いられ得る。

本発明の方法の実施例において、コンテンツ項目の特性を決定するステップが、百分率を決定するステップを含む。例えば、コンテンツ項目は、75%のパーカッシブ及び25%の非パーカッシブ、又は50%のパーカッシブ及び非ハーモニック、30%のパーカッシブ及びハーモニック並びに20%の非パーカッシブであり得る。この百分率が検索クエリにおいて使用される場合、初めに、ユーザは、パーカッシブネスとこのパーカッシブネスの尺度を有するコンテンツ項目との間の関係を知らないかもしれない。しかし、ユーザがこの検索規準を用いて実行する場合、ユーザは、この関係をすばやく知ることになる。

代替的に又は追加的に、コンテンツ項目の特性を決定するステップが、支配的な楽器を決定するステップを含む。ユーザによって選択される支配的な楽器は、複数のコンテンツ項目におけるあるコンテンツ項目を検索するのに用いられ得る、パーカッシブネス範囲に解釈され得る。この範囲におけるパーカッシブネスを有するコンテンツ項目に関する検索は、特定される支配的な楽器を含むすべてのコンテンツ項目をおそらく発見しないものの、おそらく別の支配的な楽器を含むコンテンツ項目も、発見されるコンテンツ項目においてリストされ、支配的な楽器を選択するステップは、パーセントを選択するよりも、ユーザにとってより理解できるものであり得る。

前記方法は、コンテンツ項目のジャンル及び／又は雰囲気を、前記コンテンツ項目の特性に基づき決定するステップを含む。実験により、ある音楽ジャンルを他の音楽ジャンルから検出する場合及び２つの音楽ジャンル間を区別する場合に、このパーカッシブネスの尺度が、ジャンル検出に関して優れた結果を伴い使用され得ることが示されている。雰囲気を決定する方法は、ジャンルを決定する方法に類似するので、このパーカッシブネスの尺度は、雰囲気検出に関して用いられる場合にも良好な結果を導くことが期待される。コンテンツ項目の他の特性が、ジャンル及び／または雰囲気検出に関して追加的に使用され得るが、必要とはされない。

コンテンツ項目の特性を決定するステップが、前記コンテンツ項目の第１特性及び第２特性を決定するステップを含み、前記コンテンツ項目のジャンル及び／又は雰囲気を決定するステップが、前記第１特性を第１ジャンル又は雰囲気の特性と比較するステップ、及び前記第２特性を第２ジャンル又は雰囲気の特性と比較するステップを含む。コンテンツ項目のパーカッシブネスの尺度は、１つ以上のパーカッシブネス特徴に基づき得る。特定のパーカッシブネス特徴は、第１音楽ジャンルを他の音楽ジャンルから検出する場合及び第１音楽ジャンル及び第２音楽ジャンル間を区別する場合に関してより適される一方で、他のパーカッシブネス特徴は、第２音楽ジャンルを他の音楽ジャンルから検出する場合及び第２音楽ジャンル及び第３音楽ジャンル間を区別する場合に関してより適される。

複数の音のそれぞれの特性を決定するステップが、前記複数の音のそれぞれの第１区間(phase)の特性及び前記複数の音のそれぞれの第２区間の特性を決定するステップを含む。実験によると、音を少なくともアタック区間と、シンセサイザ技術（アタック、ディケイ、サステイン、リリース）において用いられる区間と類似する１つ以上の他の区間にセグメント化すること、及び個別の区間のそれぞれに関してパーカッシブネス特徴を決定することは、より良好なパーカッシブネス特徴に繋がることを示している。

第２の目的は、本発明に従い、電子装置が、
−前記コンテンツ項目から複数の音を表すデータを選択し、
−前記データを分析することによって前記複数の音のそれぞれの特性を決定し、ここで、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表し、
−前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定する、
ように動作可能である電子回路を備えることにおいて実現され得る。

本発明の方法及び電子装置のこれら及び他の態様は、図面を参照にして更に説明及び明確にされる。

図面における対応する要素は、同一の参照符号を用いて識別される。

図１を参照すると、本発明の方法は、前記コンテンツ項目から複数の音を表すデータを選択するステップ１と、前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表す、ステップ３と、前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定するステップ５と、前記方法は、前記コンテンツ項目のジャンル及び／又は雰囲気を、前記コンテンツ項目の特性に基づき決定するステップ７を更に含み得る。

コンテンツ項目の決定された特性並びに／又は決定されたジャンル及び／又は雰囲気は、属性値としてコンテンツ項目と関連付けられ得る。この属性値は、例えば、ファイル記述における、又はサービス提供者データベースにおける、プレイリストに記憶され得る。この属性値は、複数のコンテンツ項目におけるあるコンテンツ項目を検索する方法であって、前記複数のコンテンツ項目における各コンテンツ項目が、属性値と関連付けられている、方法において使用され得る。前記方法は、所望の属性値に類似する属性値と関連付けられているコンテンツ項目を発見する。前記複数のコンテンツ項目は、特定のコンテンツ項目が属性値と関連付けられていないより多くのコンテンツ項目の一群の一部であり得る。前記方法は、例えば、サービス提供者又は消費者電子装置により実施され得る。

音の決定される特性は、音の音色(timbre)の尺度であり、特に、音のパーカッシブネスの尺度である。音色に関する定義は、聴取者が、同様に提示され同一のラウドネス及びピッチを有する２つの音が異なると判断し得るという意味の聴覚的感覚としてANSI（American National Standardization Institute）によって、与えられている。この定義の一般的な解釈は、音色が、同一のレベルで同一のノートを演奏する２つの種類の楽器から生じる音を区別するのに役立つということである。

定義及び解釈の両方は、音色を単一の特性を用いて説明することがかなり難しいことを指摘している。音色の研究において少なくとも２つの主な活動があり、すなわち以下の：
１．音色の知覚：知覚的実験を用いて、多数の研究により、音色の知覚に寄与する信号特性が識別されている。スペクトル成分の数及び体系のようないくつかのスペクトル特性だけでなく、アタック時間などの時間的なパラメータも、最も重要なものである。
２．音モデリング：上述される研究において特定されるパラメータは、音声信号から抽出され、その後、モデリング目的に関して使用される。これらのモデルは、音を（再）合成するのに又は音の分類化及び識別化のためのいずれかのために共通して使用される。
ということを確認する。

音色パラメータに基づく音の自動分類化及び識別化が実行されている、いくつかの研究が存在する。しかし、大抵の発表は、単一のハーモニック又はパーカッシブ楽器の音の分類を取り扱う。加えて、これらの解決法を、簡単な複数の音色フレーズに関して用いようとする第1の試みが存在する。しかし、多音音楽音声ストリームにおけるある楽器の自動識別化は、現在未解決である。その理由は、多音音楽において、重なる楽器に直面する、また現代音楽においては、合成又は処理された音にも、直面するということである。既知の音色の特徴は、通常、単一の単音楽器を指し、このような音に容易に適用しない。このことが意味するのは、ソースの種類（例えば、楽器）自体を決定することなく、任意の音テクスチャの音色を説明するより一般的な特徴が必要とされるということである。本発明の方法は、音の音色を記述するために、音のパーカッシブネスを利用する。パーカッシブネスは、必ずしも、パーカッション楽器から生じる音を意味するものではない。むしろ、鋭いアタック−ディケイ(attack-decay)特性を有する短い音に関して用いられる用語である。パーカッシブネスという用語の意味は、以下の4つの例を用いて例示され得る。：
１．フルート音：この音は、一般的な非パーカッシブ音として分類され得る。
２．スネアドラム：この音は、一般的なパーカッシブ音として分類され得る。
３．持続して演奏するチェロ（弦が弓と励起されている）：この音は、一般的な非パーカッシブ音として分類され得る。
４．同一のチェロであるが、ピチカートで演奏するチェロ（弦は指で引っ張られる）：この音が前のものよりもパーカッシブであると同意され得る。この理由は、音が、この場合、スペクトル構造が基本的に同一を維持する一方、異なる時間的特性を有するということである。信号理論は、時間ドメイン変調は、静的トーンのスペクトルに影響を及ぼすと明示している。したがって、この文は、ある意味において、両方の信号（維持される及び引っ張られる弦）が、スペクトル成分の同一の基礎を成す組織（例えば、規則）を有するということを意味する。

これらの例は、パーカッシブネスが、信号エンベロープに関する一般化された記述として規定され得ることを示す。したがって、このことは、純粋な時間ドメインの特徴である。この定義において、パーカッシブネスは、音のエンベロープを参照し、所望の特徴は、したがって、このエンベロープのパラメータ的記述を形成するべきである。当該方法の実施例において、初めに、シンセサイザ技術（アタック、ディケイ、サステイン及びリリース）から既知である信号のエンベロープの4区間近似が適用される。しかし、計算的な理由により、当該方法は、エンベロープのディケイ及びサステイン部分を組み合わせ、アタック（A）、ディケイ及びサステイン（D&S）及びリリース（R）の３つの区間を生じさせる。第２に、これらの区間の、持続時間、レベル差分及び曲線形成を参照する、いくつかの特徴が計算される。

所望なA-D&S-Rの近似を決定する第1のステップは、区間の開始及び終了点を決定することである。これらの時間インスタンスは、Jensenによって提案される方法(Timbre Models of Musical Sounds、PhD. Dissertation、Department of Datalogy、University of Copenhagen、DIKU Report 99/7、1999)と類似する方法を用いて検出され得る。基本的な着想は、２段階処理であり：初めに、重く平滑化されたエンベロープを計算し、所望の開始及び終了点を決定し；第２に、これらの点を、平滑化されない場合が得られるまで、ステップバイステップで、より平滑化されていないバージョンのエンベロープを用いて、調整する。

重く平滑化されたエンベロープの時間インスタンスを検出するJensenの手順は、音の単一のハーモニック成分に関して発展されてきた。彼は、所望の開始点及び終了点に関する優れた候補を発見するために、平滑化されたエンベロープの１次導関数を計算し、様々な導関数しいき値を用いていた。Jensenは、この導関数の方法は、レベルしきい値を用いるより簡単な方法（最大値の１０％がアタックの開始、９０％がアタックの終了など）よりも（ピアノなどの）ディケイする楽器に関してよりR区間の優れた検出を可能にすることを示した。しかし、Jensenの解決法は、広帯域の信号を用いて作用するために修正される必要があり、初めに、平滑化されたエンベロープは、信号の絶対値を計算するステップ、及びその後に続く、低カットオフ周波数を用いるローパスフィルタリングによって導出される必要がある（半波及び全波整流の両方が使用され得る）。加えて、エンベロープの細かい構造を維持することが誤検出につながっているので、所望な時間インスタンスを検出する方法の拡張が必要である。したがって、１次導関数に関する及びエンベロープ自体に関するしきい値の組み合わせが使用される必要がある（図４参照）。
１．A区間の時間インスタンスを検索する：
（ａ）「アタックの中間」（moa）を検索する：
「アタックの中間」は、エンベロープenv(t)がスティープレベルを増加させる点であり、１次導関数d/dt env(t)が局所的最大値を有することを意味し、エンベロープが合理的な値を有する点である。合理的なエンベロープ値は、エンベロープの局所的最大値が初めて特定のしきい値を上回る前の最後の候補：local_max(env(t))≧env crit_moa=0.25*max(env(t))によって規定される。
（ｂ）アタックの開始(soa)を検索する：
moaから開始して、導関数及びエンベロープ規準が満たされるまで、後方へ進む。導関数条件：d/dt env(t)≦d_crit_soa=0.1*max(d/dt env(t))。エンベロープ条件：env(t)≦env_crit_soa=0.25*max(env(t))。
（ｃ）アタックの終了(eoa)を検索する：
moaから開始して、導関数及びエンベロープ規準が満たされるまで、前方へ進む。導関数条件：d/dt env(t)≦d_crit_eoa=0.1*max(d/dt env(t))。エンベロープ条件：env(t)≧env_crit_eoa=0.75*max(env(t))。
２．R区間の時間インスタンスを検索する：
（ａ）「リリースの中間」（mor）を検索する：
「リリースの中間」は、エンベロープenv(t)がスティープレベルを減少させる点であり、１次導関数d/dt env(t)が0より下の局所的最小値を有することを意味し、エンベロープが合理的な値を有する点である。合理的なエンベロープ値は、エンベロープの局所的最大値が最後に特定のしきい値を上回った後の最初の候補：local_max(env(t))≧env_crit_mor=0.3*max(env(t))によって規定される。
（ｂ）リリースの開始(sor)を検索する：
morから開始して、導関数及びエンベロープ規準が満たされるまで、後方へ進む。導関数条件：d/dt env(t)≧d_crit_sor=0.2*min(d/dt env(t))。エンベロープ条件：env(t)≧env_crit_sor=0.25*max(env(t))。
（ｃ）リリースの終了(eor)を検索する：
moaから開始して、導関数及びエンベロープ規準が満たされるまで、前方へ進む。導関数条件：d/dt env(t)≧d_crit_eor=0.1*max(d/dt env(t))。エンベロープ条件：env(t)≦env_crit_eor=0.1*min(env(t))。
３．D&S区間の時間インスタンスを規定する

D&Sの開始は、アタックの終了（eoa）であり、D&Sの終了は、リリースの開始（sor）である。

規準の値が約４０個の異なる楽器の音を用いてアルゴリズムを検査することによって発見されていることを注意されたい。しかし、追加的な検査マテリアルを用いて、より優れた検出成績を生じさせ得る、規準に関する他の値も発見され得る。

第２のステップにおいて、非平滑化された場合への、発見された時間インスタンスの調整のために、反復手順が使用される。反復ごとに、エンベロープのより平滑でないバージョンが、エンベロープ計算においてローパスフィルタの異なるカットオフ周波数を用いることにより計算される（異なるフィルタによって導入されるエンベロープの異なる時間遅延を避けるために、フィルタによって生じられる遅延を防ぐ一般的でないフィルタリングが適用される）。この場合、時間インスタンス（soa、eoa、sor、eor）は、時間及びレベル規準を使用して調整され、新しい候補は、以前の時間インスタンス(│tnew-toldj│≦1024samples≒23ms)からあまり離れすぎてはならず、その新しいエンベロープ値も、以前のエンベロープ値(0.9*env_old≦env_new<1.5*env_old)からあまり離れすぎてはならない。再び、これらの規準は、上述の楽器の音を用いてアルゴリズムを検査することによって導出され、より優れた検出成績を生じさせ得る規準に関する他の値は、発見され得る。

上述の開始及び終了点が発見されると、信号エンベロープの３区間近似が適用され得る。エンベロープの十分なパラメータ的記述を発見するために、Jensenによって提案された曲線形状近似は、単一のパラメータｎを用いて記述され得る、各区間に関して適用され、また図５の式２．１を参照されたい。

境界条件v0及びv1は、区間の開始及び終了に関するエンベロープ値である。変数ｘは、０と１の間において正規化される時間である（ｔ＝開始→ｘ＝０、ｔ＝終了→ｘ＝１）。スカラーパラメータｎは、曲線形状を決定し、ｎが１に等しい場合、曲線形状は線形であり、ｎが１より小さい場合、曲線形状は指数的な特性を有し、ｎが１より大きい場合、曲線形状は対数的である。選択的な曲線形状パラメータn_optは、生じる曲線形状及びエンベロープの間の最小二乗エラーを最小にすることによって発見され、また図５の式２．２及び２．３を参照されたい。

結果は、１１個のパラメータ：
・時間インスタンス：soa、eoa、sor、eor
・レベル値：env(soa)、env(eoa)、env(sor)、env(eor)
・各区間に関する選択的な曲線形状パラメータ：nA、nD&S、nR
を含む、エンベロープの３区間パラメータ的記述である。

上述のＡ−Ｄ＆Ｓ−Ｒ近似は、周波数範囲全体において１つの帯域におけるパラメータ的エンベロープ記述を計算するのに設計されるが、この方法は、多重帯域分析にも使用され得る。

Jensenの解決法において、パラメータ的エンベロープ記述は、信号の単一のスペクトル成分に関して計算されていた。彼はピアノ、フルート、及びバイオリンなどのこの解決法は、（疑似）ハーモニック楽器に集中していたので、彼の課題に関しては最適化されていた。しかし、非ハーモニック又は混合ハーモニック及び非ハーモニック音に直面される場合、全ての帯域が全体で0から22050Hzまでの周波数範囲の全体を覆う、より広範囲の帯域を使用する多重帯域分析が適用されるべきである。この目的に関して、当該アルゴリズムは、信号を、フィルタバンクを用いてフィルタ処理し(ＥＲＢレート・スケールの帯域幅及びおよそ方形の帯域を有する線形区間FIRフィルタ)、各フィルタ出力に関して個別にA-D&S-Rパラメータを計算する。

実施化される特徴抽出アルゴリズムは、いくつかの予備実験において、単一の楽器の音を用いて、良好な結果を伴って検査されていた。多音音楽と一緒に、実施化される特徴抽出アルゴリズムを使用するために、以下のステップ：
１．連続的な音楽又は音声ストリームを、発生するオンセットにて開始し後続のオンセットにて終了する部分にスライスするステップ、及び、
２．A-D&S-R近似を適用し、各音声部分に関するパーカッシブネスを推定するための特徴を計算するステップ、
が実行される必要がある。

連続的な音声を有用な部分にスライスするために、拡張されたアルゴリズムは、音声ストリームにおけるオンセットを検出し、その後、これらのオンセットを、近似が適切に作用し得るようにカットする。オンセットの検出に関して、該アルゴリズムは、オンセットの時間インスタンスを提供する、Schraderによって実施化される利用可能な方法(Detecting and interpreting musical note onsets in polyphonic music、masters thesis、department of electrical engineering、TU Eindhoven、2003)を使用する。検出される時間インスタンスは、かなり頻繁に、よりオンセットの中間において指し示すので、当該アルゴリズムは、早めの適切な点において音声ストリームをカットする必要がある。この目的に関して、該アルゴリズムは、興味のある信号領域の平滑化されたエンベロープを計算し、所望なカット点において次の最小値を選択する。

上述のスライス機能を実施化する以外にも、近似アルゴリズムは修正される必要がある。というのも、単一の楽器の音に関する第1のバージョンは、抽出された音声部分に問題を含んでいたからである。その理由は、soa及びeoaの検出に関して使用されたエンベロープ規準は、音声部分に関して適用可能ではないということである。ここで、「休止−音−休止」構造を有する音声ファイルの助力を含む、規準が導出されたことを考慮する。その結果、soa及びeor点におけるエンベロープレベルは、最大音レベルと比較してかなり低くあった。しかし、抽出された音声部分に関して、soa及びeor点におけるレベルは、かなり高い。というのも、多音音楽において、少なくとも1つの帯域のみが周波数範囲全体に関して使用される場合、２つの隣接するオンセット間においてほとんど何の信号休止もないからである。したがって、エンベロープ規準は、音声部分の最小エンベロープレベルを考慮する補正項を含んで拡張される。

導出されたA-D&S-Rパラメータから、我々の分類課題に関して有望であり得る特徴の拡大されたリストが計算されている。
・グループ１：A-D&S-R区間毎の低レベル特徴（単一帯域計算）：
−区間の持続時間（「ｔ」）
−区間の開始及び終了点間のレベル差（「ｄ」）
−区間のスティープネス（「ｄ／ｔ」）
・グループ２：A-D&S-R区間毎の曲線形状記述（単一帯域計算）：
−区間の曲線形状パラメータｎ
−近似曲線と実信号エンベロープとの間におけるエラーを記述する追加的なパラメータ：これは、図5の式２．３におけるエラー関数の自動補正関数（ＡＣＦ）に基づくパラメータである。前記パラメータは、ＡＣＦの０ラグ点以外の第1のピークの高さである。前記パラメータは、エラー関数の周期性の「強さ」を記述し、したがって、「エラー規則性」と呼ばれる。
・グループ3：帯域毎の区間の開始及び終了点の非同期性を記述する特徴（多重帯域計算）：非同期性は、全ての帯域における平均値から１つの帯域における時間インスタンスsoa、eoa、sor及びeorの偏差(deviation)として規定されている（フィルタバンクの全てのフィルタは、同一のオーダーを有する線形区間FIRフィルタであり、これら全てが同一の一定遅延を生じさせることを意味する）。このように計算された帯域毎の非同期性値において、２つのスカラー特徴：
○帯域毎の非同期性の平均
○帯域毎の非同期性の分散
が計算される。
・グループ４：事前に帯域毎に計算されていた、グループ１の特徴の帯域における平均値（多重帯域計算）
・グループ５：事前に帯域毎に計算されていた、グループ２の特徴の帯域における平均値（多重帯域計算）
・グループ６：事前に帯域毎に計算されていた、グループ１の特徴の帯域における分散値（多重帯域計算）
・グループ７：事前に帯域毎に計算されていた、グループ２の特徴の帯域における分散値（多重帯域計算）
・グループ８：全ての帯域におけるグループ1特徴値の「形状(shape)」を記述する特徴：形状とは、音響帯域の関数としてプロットされる場合に、帯域毎の特徴値の配分を意味する。前記形状は、上述の曲線形状パラメータ及びエラー規則性パラメータに類似する２つのパラメータによって記述される。
○線形曲線を用いて形状の近似を記述する1つのパラメータ。このパラメータは、線形近似の傾きｍである。
○形状及び線形近似の間におけるエラーの規則性を記述する1つのパラメータ。このパラメータの計算は、エラー規則性パラメータに類似し、また線形近似及び実形状間におけるACFに基づく。
・グループ９：グループ２特徴に関する形状パラメータ。

D&S区間及びR区間（例えばフルート音）間における明らかな区別を可能にする音を十分に扱うことが可能である、前述された3区間近似の代わりに、２区間近似も使用され得る。この近似は、D&S区間及びR区間が適切に分割され得ない（例えばドラム音）ようなディケイエンベロープのみを有する音に関して有利である。したがって、D&S及びR区間が1つの区間に組み合わせられた場合に、いかに特徴抽出が作用し得るかを見るのは興味深いことである。組み合わせは、かなり簡単であり得、生じる区間は、アタックの終了eoaで開始し、リリースの終了eorまで到達する。この区間が、A区間の後の信号の残りを記述するので、この区間は、アタック残留区間（AR）と呼ばれる。

この2区間近似を適用する場合、上述の９つの特徴グループの変形態様が得られる。この場合、D&S及びR区間を参照する全ての特徴が、AR区間の対応する特徴と交換される。これらを、元の3区間近似から区別するために、これらのグループは、「グループ1*」及び「グループ2*」など、アスタリスクを用いて記される。これらの新しいグループにおけるA区間に関連する特徴は、上述のものと同一であり、したがって、再び計算される必要はない。

加えて、全ての多重帯域特徴は、3つの異なる数の帯域である４、１２および２４に関して両方の近似方法（グループ３、グループ４ないし９、グループ４*ないし９*）を用いて計算されている。どの数の帯域が前述される特徴グループに属するかを示すために、各グループは、次のような態様、すなわち４帯域に関して「グループX.1」、１２帯域に関して「グループX.２」、及び２４帯域に関して「グループX.３」で示される。

本発明の方法の実施例において、２段階処理が、コンテンツ項目のジャンル及び／又は雰囲気を決定するために用いられる。
１．音声ストリームから音イベントを抽出し（図２のステップ２１）、これらのパーカッシブネスを、適切に調整された(trained)分類子を用いて推定する（図２のステップ２３及び２５）。
２．第２の特徴（例えば、統計）を、考慮される音声ファイルにおける前記パーカッシブネス推定において計算し（図２のステップ２７）、これらの第２の特徴を音声ファイルの最終的な分類化のために使用する（図２のステップ２９）。

例えば、ある音声ストリームが約８０％のパーカッシブ音から構成され、別のものが約３０％から構成される場合、１つ目のものは、おそらくラテン音楽であり得る一方で、２つ目のものはクラシック音楽であり得る。

この２段階処理は、実際、２つの分類化段階、すなわち、パーカッシブネスの予測及び音声分類の予測から構成されるある種の階層型分類化アルゴリズムである。当然、第１のステップは、スキップされ得、パーカッシブネス特徴は、音声分類を分類化するのに直接用いられ得る。しかし、このことは、抽出される音イベントのパーカッシブネスの抽象化された表現を生じさせ得る。パーカッシブネスは音声分類化に関する実体的な特徴として意図されているので、このような代替的な１ステップ分類化の解決法は省略されている。

以下の表は、１４個のパーカッシブネス予測子(predictor)、すなわち単一の抽出される音のパーカッシブネスを予測する分類子(classifier)を一覧にしている。

14個の予測子は、事前選択される特徴セットの様々な組み合わせ、及び分類ラベリングの2つの異なる態様を使用する。音声ファイルごとのパーカッシブネス予測子に基づいて、第2の特徴は、最終的な音声分類化を決定するために計算される必要がある。図2の2段階処理は、以下のステップによって実施化され得る。：
１．音声ファイルの約6秒長から音イベントを抽出する。
２．上述の予測子を用いて、各抽出された音のパーカッシブネスを予測する。
３．音声ファイル毎の百分率を、例えば、音がどれだけ頻繁に異なる分類のパーカッシブネスに割り当てられるか、例えば、５０％のパーカッシブ及び非ハーモニック、３０％のパーカッシブ及びハーモニック、及び２０％の非パーカッシブなど、を計算する。
４．３つの百分率のうちの２つを第２の特徴として使用する。その理由は、第３のものが、選択される２つの線形合成から得られるからである（特徴１＋特徴２＋特徴３＝１が常に維持される）。

実験によると、これらの第２の特徴は、以下の解決法のうちの１つが使用される場合に、コンテンツ項目のジャンルを決定するのに良好な結果を伴い用いられ得ることを示している。
１．ある音楽ジャンルを他のジャンルから検出する。
このことが意味するのは、ある音楽ジャンルの音声ファイルが分類１に割り当てられる一方で、残りの１３個のジャンルの音声ファイルが分類２に割り当てられることを意味する。このことは、これらの実験において考慮される全ての１４個のジャンルに関して繰り返され得る。
２．２つの音楽ジャンル間を区別する。
このことが意味するのは、２つの音楽ジャンルが分類化される一方で、他の音楽ファイルは除外されることである。このことは、全ての音楽ジャンル組み合わせに関して組み合わされ得る。

以下の表は、ある音楽ジャンルを他の音楽ジャンルの中から検出する精度を示す。

この表は、クラシック及びボーカル音楽が、約８５％の精度で検出され得、約８０％でレゲエ音楽が続くことを示している。対照的に、ポップ、カントリ、フォーク、及びロック音楽は、６０〜６５％のこれら音楽の精度が見込みよりいくぶん上であるので、上述のパーカッシブネスアルゴリズムを用いて合理的には検出され得ない。

図６は、区別成績を含むマトリクスを示す。主な対角線より下の領域に描画される数は、各分類の対の平均区別精度である一方で、主な対角線より上の数は、各分類の対に関する最良予測子を示す。得られる区別精度は、極めて異なる。特定の音楽ジャンル組み合わせに関しては、例えば、クラシック対ニューエイジ、又はボーカル、ラップ対エレクトロニカ、ラテン又はR&Bなど、何の区別も可能でない（６０％）。しかし、他の分類に関しては、例えば、クラシック又はニューエイジ対ラップ、レゲエ又はエレクトロニカなど、非常に良好な結果が得られる（９０〜９９％）。

クラシック又はボーカルなどの音楽ジャンルは数個のパーカッシブネス音のみを通常含む一方で、ラップ又はエレクトロニカなどのジャンルは非常にリズム志向である（多数のパーカッシブ楽器）ので、検出及び区別の結果は、正当である。結果として、上述のパーカッシブネスアルゴリズムは、少なくとも特定の音楽ジャンル間において検出及び差別化をすることが可能である。明確性及び可視性を維持するために、それぞれの場合における最良成績の予測子の結果のみがリスト／表示される。

図７を参照すると、本発明の電子装置５１は、電子回路５３を備える。電子装置５３は、前記コンテンツ項目から複数の音を表すデータを選択し、前記データを分析することによって前記複数の音のそれぞれの特性を、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表すように、決定し、前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定する、ように動作可能であり得る。

追加的に又は代替的に、電子装置５３は、複数のコンテンツ項目におけるあるコンテンツ項目を検索するように動作可能であり得、前記複数のコンテンツ項目における各コンテンツ項目が、属性値と関連付けられており、発見されるコンテンツ項目が、所望の属性値に類似する属性値と関連付けられている。前記各コンテンツ項目の前記属性値は、前記各コンテンツ項目の特性である、又は前記各コンテンツ項目の特性に基づいている。前記各コンテンツ項目の前記特性は、前記コンテンツ項目から複数の音を表すデータを選択するステップと、前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表す、ステップと、前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定するステップと、によって決定されている。

検索クエリが受信された後で複数のコンテンツ項目を分析することは可能であるものの、検索クエリが受信される前に特徴が決定されていることを保証することによって、検索がより高速に実行され得る。このことは、検索が個人的なコレクションにおいて実行される場合、及び検索がサービス提供者（例えばオンラインストア）において実行される場合、に利便性がある。ユーザに複数のコンテンツ項目を検索させるサービスを提供する第１サービス提供者は、第２サービス提供者（又はコンテンツ提供者）に、コンテンツ項目に関する特徴を決定するように要求し得る。

電子装置５１は、サーバPC、ホームPC、メディアサーバ、音声／ビデオ（例えばハードディスクベースの）レコーダ又はポータブルメディアプレイヤであり得る。電子回路５３は、汎用処理器（例えば、Intel Pentium（登録商標）又はAMD Athlon）又は特定用途向け処理器（例えばPhilips Nexperia IC）であり得る。電子装置５１は、記憶手段５５、入力部５７、及び出力部５７、を更に備え得る。記憶手段５５は、例えば、揮発性又は不揮発性RAM、ハードディスク、光学ディスク並びに／又はホログラフィック記憶媒体などを備え得る。特徴が決定されるコンテンツ項目及び／又はコンテンツ項目自体の決定された特徴は、記憶手段５５に記憶され得る。入力部５７は、可能であれば音声と同様にビデオを受信する、光学的又は電子的（デジタル又はアナログ）入力部であり得る。出力部５７は、可能であれば音声と同様にビデオを送信する、光学的又は電子的（デジタル又はアナログ）出力部であり得る。出力部５７は、選択されるコンテンツ項目を再生する再生手段でもあり得る。入力部及び／又は出力部５９は、ホームネットワーク及び／又はインターネットに接続される１つ以上のネットワークアダプタを備え得る。例えば、サーバPCの出力部５９は、曲（例えばMP3ファイル）を、例えばホームPCなどの民生電子装置の入力部へ転送するのに用いられ得る。

本発明は、好ましい実施例に関連して説明されているが、説明される原理に含まれる修正態様は当業者にとって明らかであり、本発明が、好ましい実施例に制限されず、またこのような修正態様を含むように意図されることを理解され得る。本発明は、ありとあらゆる新規な特徴的な機能及びありとあらゆる特徴的な機能の組み合わせに含まれる。請求項における参照符号は、これらの保護範囲を制限しない。「有する」という動詞及びその活用形の使用は、請求項に記載される以外の異なる他の要素又はステップの存在を排除しないことは明らかである。単数形の構成要素は、複数個の斯様な構成要素の存在を排除しない。

「手段」は、当業者にとって明らかであるように、単独で若しくは他の機能と組み合わされて、又は隔離されて若しくは他の要素と協働して、動作において実行する若しくは特定の機能を実行するように設計されるいずれかのハードウェア（個別又は集積回路若しくは電子要素など）によって、又はソフトウェア（プログラム又はプログラムの一部など）を含むように意図されている。本発明は、いくつかの個別の構成要素を有するハードウェアを用いて、及び適切にプログラムされた計算機を用いて実施され得る。「ソフトウェア」は、フローピーディスクなどの計算機読み取り可能媒体に記憶される、インターネットなどのネットワークを介してダウンロード可能である、又はいずれかの他の態様において販売可能な、いずれかのソフトウェア製品を意図するものであると理解されるべきである。

図１は、コンテンツ項目の特性を決定する方法のフロー図である。図２は、図１の方法の実施例のフロー図である。図３は、３つの区間にセグメント化されている音の例を示す。図４は、図３の音のうちの１つに関して決定された特性の例を示す。図５は、図２の実施例において使用される式を示す。図６は、２つのジャンル間において区別した結果を示す。図７は、本発明の電子装置のブロック図である。

Claims

楽曲を表すコンテンツ項目の音楽ジャンル及び／又は雰囲気を決定する方法であって、
−前記コンテンツ項目から複数の音を表すデータを選択するステップと、
−前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表す、ステップと、
−前記コンテンツ項目のパーカッシブネスの尺度を、前記複数の決定された特性に基づき決定するステップと、
−前記コンテンツ項目の前記パーカッシブネスの尺度に基づき、前記コンテンツ項目の前記音楽ジャンル及び／又は雰囲気を決定するステップと
を含み、
前記コンテンツ項目の前記パーカッシブネスの尺度を決定するステップが、前記コンテンツ項目の第１のパーカッシブネス特徴及び第２のパーカッシブネス特徴を決定するステップを含み、前記コンテンツ項目の前記音楽ジャンル及び／又は雰囲気を決定するステップが、前記第１のパーカッシブネス特徴を第１ジャンル又は雰囲気の特性と比較するステップ、及び前記第２のパーカッシブネス特徴を第２ジャンル又は雰囲気の特性と比較するステップを含む方法。
楽曲を表すコンテンツ項目の音楽ジャンル及び／又は雰囲気を決定する方法であって、
−前記コンテンツ項目から複数の音を表すデータを選択するステップと、
−前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表す、ステップと、
−前記コンテンツ項目のパーカッシブネスの尺度を、前記複数の決定された特性に基づき決定するステップと、
−前記コンテンツ項目の前記パーカッシブネスの尺度に基づき、前記コンテンツ項目の前記音楽ジャンル及び／又は雰囲気を決定するステップと
を含み、
前記複数の音のそれぞれの特性を決定するステップが、前記複数の音のそれぞれの第１区間の特性及び前記複数の音のそれぞれの第２区間の特性を決定するステップを含む方法。
前記コンテンツ項目を表す信号を、線形区間ＦＩＲフィルタのフィルタバンクを用いてフィルタ処理し、各フィルタ出力に関して個別に前記特性を特定することを特徴とする請求項１に記載の方法。
前記コンテンツ項目から複数の音を表すデータを選択するステップが、前記コンテンツ項目のストリームを、発生するオンセットにて開始し後続のオンセットにて終了する音声部分にスライスする処理を含み、
複数の音のそれぞれの特性を決定するステップが、前記音声部分のそれぞれについて、前記特性を決定する処理を含むことを特徴とする請求項１に記載の方法。
楽曲を表す複数のコンテンツ項目におけるあるコンテンツ項目を検索する検索方法であって、前記複数のコンテンツ項目における各コンテンツ項目が、属性値と関連付けられており、発見されるコンテンツ項目が、所望の属性値に類似する属性値と関連付けられており、前記各コンテンツ項目の前記属性値が、前記各コンテンツ項目の音楽ジャンル及び／又は雰囲気である、又は前記各コンテンツ項目の音楽ジャンル及び／又は雰囲気に基づいており、前記各コンテンツ項目の前記音楽ジャンル及び／又は雰囲気が、請求項１から４いずれか１項記載の方法により決定されたものであることを特徴とする検索方法。
プログラム可能な装置を請求項１から５いずれか１項記載の方法を実行するように動作可能にさせるソフトウェア。
電子装置であって、
−楽曲を表すコンテンツ項目から複数の音を表すデータを選択し、
−前記データを分析することによって前記複数の音のそれぞれの特性を決定し、ここで、各特性は、前記複数の音のうちの一つの振幅の時間的観点を表し、
−前記複数の決定された特性に基づき、前記コンテンツ項目のパーカッシブネスの尺度を決定する処理であって、前記コンテンツ項目の第１のパーカッシブネス特徴及び第２のパーカッシブネス特徴を決定するステップを含む処理を行い、
−前記コンテンツ項目の前記パーカッシブネスの尺度に基づき、前記コンテンツ項目の音楽ジャンル及び／又は雰囲気を決定する処理であって、前記第１のパーカッシブネス特徴を第１ジャンル又は雰囲気の特性と比較するステップ、及び前記第２のパーカッシブネス特徴を第２ジャンル又は雰囲気の特性と比較するステップを含む処理を行う
ように動作可能である電子回路を備える電子装置。
前記電子回路がさらに、楽曲を表す複数のコンテンツ項目におけるあるコンテンツ項目を検索するように動作可能であり、前記複数のコンテンツ項目における各コンテンツ項目が、属性値と関連付けられており、発見されるコンテンツ項目が、所望の属性値に類似する属性値と関連付けられており、前記各コンテンツ項目の前記属性値が、前記各コンテンツ項目の前記音楽ジャンル及び／又は雰囲気である、又は前記各コンテンツ項目の前記音楽ジャンル及び／又は雰囲気に基づいている、請求項７記載の電子装置。
請求項７または８に記載の電子回路。