JP5112300B2 - コンテンツ項目の特性を決定する方法および電子装置 - Google Patents

コンテンツ項目の特性を決定する方法および電子装置 Download PDF

Info

Publication number
JP5112300B2
JP5112300B2 JP2008514282A JP2008514282A JP5112300B2 JP 5112300 B2 JP5112300 B2 JP 5112300B2 JP 2008514282 A JP2008514282 A JP 2008514282A JP 2008514282 A JP2008514282 A JP 2008514282A JP 5112300 B2 JP5112300 B2 JP 5112300B2
Authority
JP
Japan
Prior art keywords
content item
determining
percussiveness
characteristic
sounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008514282A
Other languages
English (en)
Other versions
JP2008542835A (ja
Inventor
ヤント スコヴロネク
マーティン エフ マッキンニー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008542835A publication Critical patent/JP2008542835A/ja
Application granted granted Critical
Publication of JP5112300B2 publication Critical patent/JP5112300B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece

Description

本発明は、コンテンツ項目の特性を決定する方法に関する。
本発明は、更に、複数のコンテンツ項目におけるあるコンテンツ項目を検索する方法に関する。
また本発明は、プログラム可能な装置に、コンテンツ項目の特性を決定する方法及び/又は複数のコンテンツ項目におけるあるコンテンツ項目を検索する方法を実行させるように動作可能にするソフトウェアにも関する。
本発明は、更に、コンテンツ項目の特性を決定するように動作可能である電子回路を備える電子装置に関する。
本発明は、更に、複数のコンテンツ項目におけるあるコンテンツ項目を検索するように動作可能である電子回路を備える電子装置にも関する。
本発明は、更に、コンテンツ項目の特性を決定する又は複数のコンテンツ項目におけるあるコンテンツ項目を検索するように動作可能である電子装置において用いる電子回路にも関する。
このような方法の1つの例は、この米国特許第5,918,223号から既知である。この特許において記載される方法は、ラウドネス、ピッチ、明るさ、帯域、及びMFCC係数、のうちの少なくとも1つからなる群から選択される音ファイルの複数の音響的特徴を測定する。これらの特徴に基づき計算される測定結果は、音ファイルをグループ化するのに用いられる。この方法の欠点は、低レベルの特徴は、ユーザが彼の好みに合うすべての曲を検索及び発見するのを可能にするのには十分でないことである。
本発明の第1の目的は、冒頭の段落で説明された種類の方法であって、ユーザの好みに一致するより多くの曲を検索及び発見するのに用いられ得る特性を決定する方法を提供することである。
本発明の第2の目的は、冒頭の段落で説明された種類の電子装置であって、ユーザの好みに一致するより多くの曲を検索及び発見するのに用いられ得る特性を決定することが可能である電子装置を提供することである。
第1目的は、本発明に従い、方法が、前記コンテンツ項目から複数の音を表すデータを選択するステップと、前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点(temporal aspect)を表す、ステップと、前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定するステップと、を含むことにおいて実現される。前記方法は、例えば、MP3ファイル、音楽ビデオ、又は映画の音声トラックなどの、コンテンツ項目のパーカッシブネス(percussiveness)の尺度を決定する。本発明は、消費者が、楽器がパーカッシブであるか否かを認識し得ないだけでなく、消費者が、コンテンツ項目全体に関するパーカッシブネスの尺度を認識することが可能でないことも認識していた。パーカッシブネスの尺度が高レベルの特徴であるので、テンポなどの他の特徴の代わりに又は加えて、ユーザの好みに一致する曲を検索及び発見するのに使用されるように十分に適合される。更に、このパーカッシブネスの尺度は、シード曲に基づき類似の音楽を発見するのに、及び/又はリミッタ/圧縮器/音量制御などの音声動的操作アルゴリズムのパラメータを自動的に設定するのに用いられ得る。
本発明の方法の実施例において、コンテンツ項目の特性を決定するステップが、百分率を決定するステップを含む。例えば、コンテンツ項目は、75%のパーカッシブ及び25%の非パーカッシブ、又は50%のパーカッシブ及び非ハーモニック、30%のパーカッシブ及びハーモニック並びに20%の非パーカッシブであり得る。この百分率が検索クエリにおいて使用される場合、初めに、ユーザは、パーカッシブネスとこのパーカッシブネスの尺度を有するコンテンツ項目との間の関係を知らないかもしれない。しかし、ユーザがこの検索規準を用いて実行する場合、ユーザは、この関係をすばやく知ることになる。
代替的に又は追加的に、コンテンツ項目の特性を決定するステップが、支配的な楽器を決定するステップを含む。ユーザによって選択される支配的な楽器は、複数のコンテンツ項目におけるあるコンテンツ項目を検索するのに用いられ得る、パーカッシブネス範囲に解釈され得る。この範囲におけるパーカッシブネスを有するコンテンツ項目に関する検索は、特定される支配的な楽器を含むすべてのコンテンツ項目をおそらく発見しないものの、おそらく別の支配的な楽器を含むコンテンツ項目も、発見されるコンテンツ項目においてリストされ、支配的な楽器を選択するステップは、パーセントを選択するよりも、ユーザにとってより理解できるものであり得る。
前記方法は、コンテンツ項目のジャンル及び/又は雰囲気を、前記コンテンツ項目の特性に基づき決定するステップを含む。実験により、ある音楽ジャンルを他の音楽ジャンルから検出する場合及び2つの音楽ジャンル間を区別する場合に、このパーカッシブネスの尺度が、ジャンル検出に関して優れた結果を伴い使用され得ることが示されている。雰囲気を決定する方法は、ジャンルを決定する方法に類似するので、このパーカッシブネスの尺度は、雰囲気検出に関して用いられる場合にも良好な結果を導くことが期待される。コンテンツ項目の他の特性が、ジャンル及び/または雰囲気検出に関して追加的に使用され得るが、必要とはされない。
コンテンツ項目の特性を決定するステップが、前記コンテンツ項目の第1特性及び第2特性を決定するステップを含み、前記コンテンツ項目のジャンル及び/又は雰囲気を決定するステップが、前記第1特性を第1ジャンル又は雰囲気の特性と比較するステップ、及び前記第2特性を第2ジャンル又は雰囲気の特性と比較するステップを含む。コンテンツ項目のパーカッシブネスの尺度は、1つ以上のパーカッシブネス特徴に基づき得る。特定のパーカッシブネス特徴は、第1音楽ジャンルを他の音楽ジャンルから検出する場合及び第1音楽ジャンル及び第2音楽ジャンル間を区別する場合に関してより適される一方で、他のパーカッシブネス特徴は、第2音楽ジャンルを他の音楽ジャンルから検出する場合及び第2音楽ジャンル及び第3音楽ジャンル間を区別する場合に関してより適される。
複数の音のそれぞれの特性を決定するステップが、前記複数の音のそれぞれの第1区間(phase)の特性及び前記複数の音のそれぞれの第2区間の特性を決定するステップを含む。実験によると、音を少なくともアタック区間と、シンセサイザ技術(アタック、ディケイ、サステイン、リリース)において用いられる区間と類似する1つ以上の他の区間にセグメント化すること、及び個別の区間のそれぞれに関してパーカッシブネス特徴を決定することは、より良好なパーカッシブネス特徴に繋がることを示している。
第2の目的は、本発明に従い、電子装置が、
−前記コンテンツ項目から複数の音を表すデータを選択し、
−前記データを分析することによって前記複数の音のそれぞれの特性を決定し、ここで、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表し、
−前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定する、
ように動作可能である電子回路を備えることにおいて実現され得る。
本発明の方法及び電子装置のこれら及び他の態様は、図面を参照にして更に説明及び明確にされる。
図面における対応する要素は、同一の参照符号を用いて識別される。
図1を参照すると、本発明の方法は、前記コンテンツ項目から複数の音を表すデータを選択するステップ1と、前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表す、ステップ3と、前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定するステップ5と、前記方法は、前記コンテンツ項目のジャンル及び/又は雰囲気を、前記コンテンツ項目の特性に基づき決定するステップ7を更に含み得る。
コンテンツ項目の決定された特性並びに/又は決定されたジャンル及び/又は雰囲気は、属性値としてコンテンツ項目と関連付けられ得る。この属性値は、例えば、ファイル記述における、又はサービス提供者データベースにおける、プレイリストに記憶され得る。この属性値は、複数のコンテンツ項目におけるあるコンテンツ項目を検索する方法であって、前記複数のコンテンツ項目における各コンテンツ項目が、属性値と関連付けられている、方法において使用され得る。前記方法は、所望の属性値に類似する属性値と関連付けられているコンテンツ項目を発見する。前記複数のコンテンツ項目は、特定のコンテンツ項目が属性値と関連付けられていないより多くのコンテンツ項目の一群の一部であり得る。前記方法は、例えば、サービス提供者又は消費者電子装置により実施され得る。
音の決定される特性は、音の音色(timbre)の尺度であり、特に、音のパーカッシブネスの尺度である。音色に関する定義は、聴取者が、同様に提示され同一のラウドネス及びピッチを有する2つの音が異なると判断し得るという意味の聴覚的感覚としてANSI(American National Standardization Institute)によって、与えられている。この定義の一般的な解釈は、音色が、同一のレベルで同一のノートを演奏する2つの種類の楽器から生じる音を区別するのに役立つということである。
定義及び解釈の両方は、音色を単一の特性を用いて説明することがかなり難しいことを指摘している。音色の研究において少なくとも2つの主な活動があり、すなわち以下の:
1.音色の知覚:知覚的実験を用いて、多数の研究により、音色の知覚に寄与する信号特性が識別されている。スペクトル成分の数及び体系のようないくつかのスペクトル特性だけでなく、アタック時間などの時間的なパラメータも、最も重要なものである。
2.音モデリング:上述される研究において特定されるパラメータは、音声信号から抽出され、その後、モデリング目的に関して使用される。これらのモデルは、音を(再)合成するのに又は音の分類化及び識別化のためのいずれかのために共通して使用される。
ということを確認する。
音色パラメータに基づく音の自動分類化及び識別化が実行されている、いくつかの研究が存在する。しかし、大抵の発表は、単一のハーモニック又はパーカッシブ楽器の音の分類を取り扱う。加えて、これらの解決法を、簡単な複数の音色フレーズに関して用いようとする第1の試みが存在する。しかし、多音音楽音声ストリームにおけるある楽器の自動識別化は、現在未解決である。その理由は、多音音楽において、重なる楽器に直面する、また現代音楽においては、合成又は処理された音にも、直面するということである。既知の音色の特徴は、通常、単一の単音楽器を指し、このような音に容易に適用しない。このことが意味するのは、ソースの種類(例えば、楽器)自体を決定することなく、任意の音テクスチャの音色を説明するより一般的な特徴が必要とされるということである。本発明の方法は、音の音色を記述するために、音のパーカッシブネスを利用する。パーカッシブネスは、必ずしも、パーカッション楽器から生じる音を意味するものではない。むしろ、鋭いアタック−ディケイ(attack-decay)特性を有する短い音に関して用いられる用語である。パーカッシブネスという用語の意味は、以下の4つの例を用いて例示され得る。:
1.フルート音:この音は、一般的な非パーカッシブ音として分類され得る。
2.スネアドラム:この音は、一般的なパーカッシブ音として分類され得る。
3.持続して演奏するチェロ(弦が弓と励起されている):この音は、一般的な非パーカッシブ音として分類され得る。
4.同一のチェロであるが、ピチカートで演奏するチェロ(弦は指で引っ張られる):この音が前のものよりもパーカッシブであると同意され得る。この理由は、音が、この場合、スペクトル構造が基本的に同一を維持する一方、異なる時間的特性を有するということである。信号理論は、時間ドメイン変調は、静的トーンのスペクトルに影響を及ぼすと明示している。したがって、この文は、ある意味において、両方の信号(維持される及び引っ張られる弦)が、スペクトル成分の同一の基礎を成す組織(例えば、規則)を有するということを意味する。
これらの例は、パーカッシブネスが、信号エンベロープに関する一般化された記述として規定され得ることを示す。したがって、このことは、純粋な時間ドメインの特徴である。この定義において、パーカッシブネスは、音のエンベロープを参照し、所望の特徴は、したがって、このエンベロープのパラメータ的記述を形成するべきである。当該方法の実施例において、初めに、シンセサイザ技術(アタック、ディケイ、サステイン及びリリース)から既知である信号のエンベロープの4区間近似が適用される。しかし、計算的な理由により、当該方法は、エンベロープのディケイ及びサステイン部分を組み合わせ、アタック(A)、ディケイ及びサステイン(D&S)及びリリース(R)の3つの区間を生じさせる。第2に、これらの区間の、持続時間、レベル差分及び曲線形成を参照する、いくつかの特徴が計算される。
所望なA-D&S-Rの近似を決定する第1のステップは、区間の開始及び終了点を決定することである。これらの時間インスタンスは、Jensenによって提案される方法(Timbre Models of Musical Sounds、PhD. Dissertation、Department of Datalogy、University of Copenhagen、DIKU Report 99/7、1999)と類似する方法を用いて検出され得る。基本的な着想は、2段階処理であり:初めに、重く平滑化されたエンベロープを計算し、所望の開始及び終了点を決定し;第2に、これらの点を、平滑化されない場合が得られるまで、ステップバイステップで、より平滑化されていないバージョンのエンベロープを用いて、調整する。
重く平滑化されたエンベロープの時間インスタンスを検出するJensenの手順は、音の単一のハーモニック成分に関して発展されてきた。彼は、所望の開始点及び終了点に関する優れた候補を発見するために、平滑化されたエンベロープの1次導関数を計算し、様々な導関数しいき値を用いていた。Jensenは、この導関数の方法は、レベルしきい値を用いるより簡単な方法(最大値の10%がアタックの開始、90%がアタックの終了など)よりも(ピアノなどの)ディケイする楽器に関してよりR区間の優れた検出を可能にすることを示した。しかし、Jensenの解決法は、広帯域の信号を用いて作用するために修正される必要があり、初めに、平滑化されたエンベロープは、信号の絶対値を計算するステップ、及びその後に続く、低カットオフ周波数を用いるローパスフィルタリングによって導出される必要がある(半波及び全波整流の両方が使用され得る)。加えて、エンベロープの細かい構造を維持することが誤検出につながっているので、所望な時間インスタンスを検出する方法の拡張が必要である。したがって、1次導関数に関する及びエンベロープ自体に関するしきい値の組み合わせが使用される必要がある(図4参照)。
1.A区間の時間インスタンスを検索する:
(a)「アタックの中間」(moa)を検索する:
「アタックの中間」は、エンベロープenv(t)がスティープレベルを増加させる点であり、1次導関数d/dt env(t)が局所的最大値を有することを意味し、エンベロープが合理的な値を有する点である。合理的なエンベロープ値は、エンベロープの局所的最大値が初めて特定のしきい値を上回る前の最後の候補:local_max(env(t))≧env critmoa=0.25*max(env(t))によって規定される。
(b)アタックの開始(soa)を検索する:
moaから開始して、導関数及びエンベロープ規準が満たされるまで、後方へ進む。導関数条件:d/dt env(t)≦d_critsoa=0.1*max(d/dt env(t))。エンベロープ条件:env(t)≦env_critsoa=0.25*max(env(t))。
(c)アタックの終了(eoa)を検索する:
moaから開始して、導関数及びエンベロープ規準が満たされるまで、前方へ進む。導関数条件:d/dt env(t)≦d_criteoa=0.1*max(d/dt env(t))。エンベロープ条件:env(t)≧env_criteoa=0.75*max(env(t))。
2.R区間の時間インスタンスを検索する:
(a)「リリースの中間」(mor)を検索する:
「リリースの中間」は、エンベロープenv(t)がスティープレベルを減少させる点であり、1次導関数d/dt env(t)が0より下の局所的最小値を有することを意味し、エンベロープが合理的な値を有する点である。合理的なエンベロープ値は、エンベロープの局所的最大値が最後に特定のしきい値を上回った後の最初の候補:local_max(env(t))≧env_critmor=0.3*max(env(t))によって規定される。
(b)リリースの開始(sor)を検索する:
morから開始して、導関数及びエンベロープ規準が満たされるまで、後方へ進む。導関数条件:d/dt env(t)≧d_critsor=0.2*min(d/dt env(t))。エンベロープ条件:env(t)≧env_critsor=0.25*max(env(t))。
(c)リリースの終了(eor)を検索する:
moaから開始して、導関数及びエンベロープ規準が満たされるまで、前方へ進む。導関数条件:d/dt env(t)≧d_criteor=0.1*max(d/dt env(t))。エンベロープ条件:env(t)≦env_criteor=0.1*min(env(t))。
3.D&S区間の時間インスタンスを規定する
D&Sの開始は、アタックの終了(eoa)であり、D&Sの終了は、リリースの開始(sor)である。
規準の値が約40個の異なる楽器の音を用いてアルゴリズムを検査することによって発見されていることを注意されたい。しかし、追加的な検査マテリアルを用いて、より優れた検出成績を生じさせ得る、規準に関する他の値も発見され得る。
第2のステップにおいて、非平滑化された場合への、発見された時間インスタンスの調整のために、反復手順が使用される。反復ごとに、エンベロープのより平滑でないバージョンが、エンベロープ計算においてローパスフィルタの異なるカットオフ周波数を用いることにより計算される(異なるフィルタによって導入されるエンベロープの異なる時間遅延を避けるために、フィルタによって生じられる遅延を防ぐ一般的でないフィルタリングが適用される)。この場合、時間インスタンス(soa、eoa、sor、eor)は、時間及びレベル規準を使用して調整され、新しい候補は、以前の時間インスタンス(│tnew-toldj│≦1024samples≒23ms)からあまり離れすぎてはならず、その新しいエンベロープ値も、以前のエンベロープ値(0.9*envold≦envnew<1.5*envold)からあまり離れすぎてはならない。再び、これらの規準は、上述の楽器の音を用いてアルゴリズムを検査することによって導出され、より優れた検出成績を生じさせ得る規準に関する他の値は、発見され得る。
上述の開始及び終了点が発見されると、信号エンベロープの3区間近似が適用され得る。エンベロープの十分なパラメータ的記述を発見するために、Jensenによって提案された曲線形状近似は、単一のパラメータnを用いて記述され得る、各区間に関して適用され、また図5の式2.1を参照されたい。
境界条件v0及びv1は、区間の開始及び終了に関するエンベロープ値である。変数xは、0と1の間において正規化される時間である(t=開始→x=0、t=終了→x=1)。スカラーパラメータnは、曲線形状を決定し、nが1に等しい場合、曲線形状は線形であり、nが1より小さい場合、曲線形状は指数的な特性を有し、nが1より大きい場合、曲線形状は対数的である。選択的な曲線形状パラメータnoptは、生じる曲線形状及びエンベロープの間の最小二乗エラーを最小にすることによって発見され、また図5の式2.2及び2.3を参照されたい。
結果は、11個のパラメータ:
・時間インスタンス:soa、eoa、sor、eor
・レベル値:env(soa)、env(eoa)、env(sor)、env(eor)
・各区間に関する選択的な曲線形状パラメータ:nA、nD&S、nR
を含む、エンベロープの3区間パラメータ的記述である。
上述のA−D&S−R近似は、周波数範囲全体において1つの帯域におけるパラメータ的エンベロープ記述を計算するのに設計されるが、この方法は、多重帯域分析にも使用され得る。
Jensenの解決法において、パラメータ的エンベロープ記述は、信号の単一のスペクトル成分に関して計算されていた。彼はピアノ、フルート、及びバイオリンなどのこの解決法は、(疑似)ハーモニック楽器に集中していたので、彼の課題に関しては最適化されていた。しかし、非ハーモニック又は混合ハーモニック及び非ハーモニック音に直面される場合、全ての帯域が全体で0から22050Hzまでの周波数範囲の全体を覆う、より広範囲の帯域を使用する多重帯域分析が適用されるべきである。この目的に関して、当該アルゴリズムは、信号を、フィルタバンクを用いてフィルタ処理し(ERBレート・スケールの帯域幅及びおよそ方形の帯域を有する線形区間FIRフィルタ)、各フィルタ出力に関して個別にA-D&S-Rパラメータを計算する。
実施化される特徴抽出アルゴリズムは、いくつかの予備実験において、単一の楽器の音を用いて、良好な結果を伴って検査されていた。多音音楽と一緒に、実施化される特徴抽出アルゴリズムを使用するために、以下のステップ:
1.連続的な音楽又は音声ストリームを、発生するオンセットにて開始し後続のオンセットにて終了する部分にスライスするステップ、及び、
2.A-D&S-R近似を適用し、各音声部分に関するパーカッシブネスを推定するための特徴を計算するステップ、
が実行される必要がある。
連続的な音声を有用な部分にスライスするために、拡張されたアルゴリズムは、音声ストリームにおけるオンセットを検出し、その後、これらのオンセットを、近似が適切に作用し得るようにカットする。オンセットの検出に関して、該アルゴリズムは、オンセットの時間インスタンスを提供する、Schraderによって実施化される利用可能な方法(Detecting and interpreting musical note onsets in polyphonic music、masters thesis、department of electrical engineering、TU Eindhoven、2003)を使用する。検出される時間インスタンスは、かなり頻繁に、よりオンセットの中間において指し示すので、当該アルゴリズムは、早めの適切な点において音声ストリームをカットする必要がある。この目的に関して、該アルゴリズムは、興味のある信号領域の平滑化されたエンベロープを計算し、所望なカット点において次の最小値を選択する。
上述のスライス機能を実施化する以外にも、近似アルゴリズムは修正される必要がある。というのも、単一の楽器の音に関する第1のバージョンは、抽出された音声部分に問題を含んでいたからである。その理由は、soa及びeoaの検出に関して使用されたエンベロープ規準は、音声部分に関して適用可能ではないということである。ここで、「休止−音−休止」構造を有する音声ファイルの助力を含む、規準が導出されたことを考慮する。その結果、soa及びeor点におけるエンベロープレベルは、最大音レベルと比較してかなり低くあった。しかし、抽出された音声部分に関して、soa及びeor点におけるレベルは、かなり高い。というのも、多音音楽において、少なくとも1つの帯域のみが周波数範囲全体に関して使用される場合、2つの隣接するオンセット間においてほとんど何の信号休止もないからである。したがって、エンベロープ規準は、音声部分の最小エンベロープレベルを考慮する補正項を含んで拡張される。
導出されたA-D&S-Rパラメータから、我々の分類課題に関して有望であり得る特徴の拡大されたリストが計算されている。
・グループ1:A-D&S-R区間毎の低レベル特徴(単一帯域計算):
−区間の持続時間(「t」)
−区間の開始及び終了点間のレベル差(「d」)
−区間のスティープネス(「d/t」)
・グループ2:A-D&S-R区間毎の曲線形状記述(単一帯域計算):
−区間の曲線形状パラメータn
−近似曲線と実信号エンベロープとの間におけるエラーを記述する追加的なパラメータ:これは、図5の式2.3におけるエラー関数の自動補正関数(ACF)に基づくパラメータである。前記パラメータは、ACFの0ラグ点以外の第1のピークの高さである。前記パラメータは、エラー関数の周期性の「強さ」を記述し、したがって、「エラー規則性」と呼ばれる。
・グループ3:帯域毎の区間の開始及び終了点の非同期性を記述する特徴(多重帯域計算):非同期性は、全ての帯域における平均値から1つの帯域における時間インスタンスsoa、eoa、sor及びeorの偏差(deviation)として規定されている(フィルタバンクの全てのフィルタは、同一のオーダーを有する線形区間FIRフィルタであり、これら全てが同一の一定遅延を生じさせることを意味する)。このように計算された帯域毎の非同期性値において、2つのスカラー特徴:
○帯域毎の非同期性の平均
○帯域毎の非同期性の分散
が計算される。
・グループ4:事前に帯域毎に計算されていた、グループ1の特徴の帯域における平均値(多重帯域計算)
・グループ5:事前に帯域毎に計算されていた、グループ2の特徴の帯域における平均値(多重帯域計算)
・グループ6:事前に帯域毎に計算されていた、グループ1の特徴の帯域における分散値(多重帯域計算)
・グループ7:事前に帯域毎に計算されていた、グループ2の特徴の帯域における分散値(多重帯域計算)
・グループ8:全ての帯域におけるグループ1特徴値の「形状(shape)」を記述する特徴:形状とは、音響帯域の関数としてプロットされる場合に、帯域毎の特徴値の配分を意味する。前記形状は、上述の曲線形状パラメータ及びエラー規則性パラメータに類似する2つのパラメータによって記述される。
○線形曲線を用いて形状の近似を記述する1つのパラメータ。このパラメータは、線形近似の傾きmである。
○形状及び線形近似の間におけるエラーの規則性を記述する1つのパラメータ。このパラメータの計算は、エラー規則性パラメータに類似し、また線形近似及び実形状間におけるACFに基づく。
・グループ9:グループ2特徴に関する形状パラメータ。
D&S区間及びR区間(例えばフルート音)間における明らかな区別を可能にする音を十分に扱うことが可能である、前述された3区間近似の代わりに、2区間近似も使用され得る。この近似は、D&S区間及びR区間が適切に分割され得ない(例えばドラム音)ようなディケイエンベロープのみを有する音に関して有利である。したがって、D&S及びR区間が1つの区間に組み合わせられた場合に、いかに特徴抽出が作用し得るかを見るのは興味深いことである。組み合わせは、かなり簡単であり得、生じる区間は、アタックの終了eoaで開始し、リリースの終了eorまで到達する。この区間が、A区間の後の信号の残りを記述するので、この区間は、アタック残留区間(AR)と呼ばれる。
この2区間近似を適用する場合、上述の9つの特徴グループの変形態様が得られる。この場合、D&S及びR区間を参照する全ての特徴が、AR区間の対応する特徴と交換される。これらを、元の3区間近似から区別するために、これらのグループは、「グループ1*」及び「グループ2*」など、アスタリスクを用いて記される。これらの新しいグループにおけるA区間に関連する特徴は、上述のものと同一であり、したがって、再び計算される必要はない。
加えて、全ての多重帯域特徴は、3つの異なる数の帯域である4、12および24に関して両方の近似方法(グループ3、グループ4ないし9、グループ4*ないし9*)を用いて計算されている。どの数の帯域が前述される特徴グループに属するかを示すために、各グループは、次のような態様、すなわち4帯域に関して「グループX.1」、12帯域に関して「グループX.2」、及び24帯域に関して「グループX.3」で示される。
本発明の方法の実施例において、2段階処理が、コンテンツ項目のジャンル及び/又は雰囲気を決定するために用いられる。
1.音声ストリームから音イベントを抽出し(図2のステップ21)、これらのパーカッシブネスを、適切に調整された(trained)分類子を用いて推定する(図2のステップ23及び25)。
2.第2の特徴(例えば、統計)を、考慮される音声ファイルにおける前記パーカッシブネス推定において計算し(図2のステップ27)、これらの第2の特徴を音声ファイルの最終的な分類化のために使用する(図2のステップ29)。
例えば、ある音声ストリームが約80%のパーカッシブ音から構成され、別のものが約30%から構成される場合、1つ目のものは、おそらくラテン音楽であり得る一方で、2つ目のものはクラシック音楽であり得る。
この2段階処理は、実際、2つの分類化段階、すなわち、パーカッシブネスの予測及び音声分類の予測から構成されるある種の階層型分類化アルゴリズムである。当然、第1のステップは、スキップされ得、パーカッシブネス特徴は、音声分類を分類化するのに直接用いられ得る。しかし、このことは、抽出される音イベントのパーカッシブネスの抽象化された表現を生じさせ得る。パーカッシブネスは音声分類化に関する実体的な特徴として意図されているので、このような代替的な1ステップ分類化の解決法は省略されている。
以下の表は、14個のパーカッシブネス予測子(predictor)、すなわち単一の抽出される音のパーカッシブネスを予測する分類子(classifier)を一覧にしている。
14個の予測子は、事前選択される特徴セットの様々な組み合わせ、及び分類ラベリングの2つの異なる態様を使用する。音声ファイルごとのパーカッシブネス予測子に基づいて、第2の特徴は、最終的な音声分類化を決定するために計算される必要がある。図2の2段階処理は、以下のステップによって実施化され得る。:
1.音声ファイルの約6秒長から音イベントを抽出する。
2.上述の予測子を用いて、各抽出された音のパーカッシブネスを予測する。
3.音声ファイル毎の百分率を、例えば、音がどれだけ頻繁に異なる分類のパーカッシブネスに割り当てられるか、例えば、50%のパーカッシブ及び非ハーモニック、30%のパーカッシブ及びハーモニック、及び20%の非パーカッシブなど、を計算する。
4.3つの百分率のうちの2つを第2の特徴として使用する。その理由は、第3のものが、選択される2つの線形合成から得られるからである(特徴1+特徴2+特徴3=1が常に維持される)。
実験によると、これらの第2の特徴は、以下の解決法のうちの1つが使用される場合に、コンテンツ項目のジャンルを決定するのに良好な結果を伴い用いられ得ることを示している。
1.ある音楽ジャンルを他のジャンルから検出する。
このことが意味するのは、ある音楽ジャンルの音声ファイルが分類1に割り当てられる一方で、残りの13個のジャンルの音声ファイルが分類2に割り当てられることを意味する。このことは、これらの実験において考慮される全ての14個のジャンルに関して繰り返され得る。
2.2つの音楽ジャンル間を区別する。
このことが意味するのは、2つの音楽ジャンルが分類化される一方で、他の音楽ファイルは除外されることである。このことは、全ての音楽ジャンル組み合わせに関して組み合わされ得る。
以下の表は、ある音楽ジャンルを他の音楽ジャンルの中から検出する精度を示す。
この表は、クラシック及びボーカル音楽が、約85%の精度で検出され得、約80%でレゲエ音楽が続くことを示している。対照的に、ポップ、カントリ、フォーク、及びロック音楽は、60〜65%のこれら音楽の精度が見込みよりいくぶん上であるので、上述のパーカッシブネスアルゴリズムを用いて合理的には検出され得ない。
図6は、区別成績を含むマトリクスを示す。主な対角線より下の領域に描画される数は、各分類の対の平均区別精度である一方で、主な対角線より上の数は、各分類の対に関する最良予測子を示す。得られる区別精度は、極めて異なる。特定の音楽ジャンル組み合わせに関しては、例えば、クラシック対ニューエイジ、又はボーカル、ラップ対エレクトロニカ、ラテン又はR&Bなど、何の区別も可能でない(60%)。しかし、他の分類に関しては、例えば、クラシック又はニューエイジ対ラップ、レゲエ又はエレクトロニカなど、非常に良好な結果が得られる(90〜99%)。
クラシック又はボーカルなどの音楽ジャンルは数個のパーカッシブネス音のみを通常含む一方で、ラップ又はエレクトロニカなどのジャンルは非常にリズム志向である(多数のパーカッシブ楽器)ので、検出及び区別の結果は、正当である。結果として、上述のパーカッシブネスアルゴリズムは、少なくとも特定の音楽ジャンル間において検出及び差別化をすることが可能である。明確性及び可視性を維持するために、それぞれの場合における最良成績の予測子の結果のみがリスト/表示される。
図7を参照すると、本発明の電子装置51は、電子回路53を備える。電子装置53は、前記コンテンツ項目から複数の音を表すデータを選択し、前記データを分析することによって前記複数の音のそれぞれの特性を、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表すように、決定し、前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定する、ように動作可能であり得る。
追加的に又は代替的に、電子装置53は、複数のコンテンツ項目におけるあるコンテンツ項目を検索するように動作可能であり得、前記複数のコンテンツ項目における各コンテンツ項目が、属性値と関連付けられており、発見されるコンテンツ項目が、所望の属性値に類似する属性値と関連付けられている。前記各コンテンツ項目の前記属性値は、前記各コンテンツ項目の特性である、又は前記各コンテンツ項目の特性に基づいている。前記各コンテンツ項目の前記特性は、前記コンテンツ項目から複数の音を表すデータを選択するステップと、前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表す、ステップと、前記コンテンツ項目の前記特性を、前記複数の決定された特性に基づき決定するステップと、によって決定されている。
検索クエリが受信された後で複数のコンテンツ項目を分析することは可能であるものの、検索クエリが受信される前に特徴が決定されていることを保証することによって、検索がより高速に実行され得る。このことは、検索が個人的なコレクションにおいて実行される場合、及び検索がサービス提供者(例えばオンラインストア)において実行される場合、に利便性がある。ユーザに複数のコンテンツ項目を検索させるサービスを提供する第1サービス提供者は、第2サービス提供者(又はコンテンツ提供者)に、コンテンツ項目に関する特徴を決定するように要求し得る。
電子装置51は、サーバPC、ホームPC、メディアサーバ、音声/ビデオ(例えばハードディスクベースの)レコーダ又はポータブルメディアプレイヤであり得る。電子回路53は、汎用処理器(例えば、Intel Pentium(登録商標)又はAMD Athlon)又は特定用途向け処理器(例えばPhilips Nexperia IC)であり得る。電子装置51は、記憶手段55、入力部57、及び出力部57、を更に備え得る。記憶手段55は、例えば、揮発性又は不揮発性RAM、ハードディスク、光学ディスク並びに/又はホログラフィック記憶媒体などを備え得る。特徴が決定されるコンテンツ項目及び/又はコンテンツ項目自体の決定された特徴は、記憶手段55に記憶され得る。入力部57は、可能であれば音声と同様にビデオを受信する、光学的又は電子的(デジタル又はアナログ)入力部であり得る。出力部57は、可能であれば音声と同様にビデオを送信する、光学的又は電子的(デジタル又はアナログ)出力部であり得る。出力部57は、選択されるコンテンツ項目を再生する再生手段でもあり得る。入力部及び/又は出力部59は、ホームネットワーク及び/又はインターネットに接続される1つ以上のネットワークアダプタを備え得る。例えば、サーバPCの出力部59は、曲(例えばMP3ファイル)を、例えばホームPCなどの民生電子装置の入力部へ転送するのに用いられ得る。
本発明は、好ましい実施例に関連して説明されているが、説明される原理に含まれる修正態様は当業者にとって明らかであり、本発明が、好ましい実施例に制限されず、またこのような修正態様を含むように意図されることを理解され得る。本発明は、ありとあらゆる新規な特徴的な機能及びありとあらゆる特徴的な機能の組み合わせに含まれる。請求項における参照符号は、これらの保護範囲を制限しない。「有する」という動詞及びその活用形の使用は、請求項に記載される以外の異なる他の要素又はステップの存在を排除しないことは明らかである。単数形の構成要素は、複数個の斯様な構成要素の存在を排除しない。
「手段」は、当業者にとって明らかであるように、単独で若しくは他の機能と組み合わされて、又は隔離されて若しくは他の要素と協働して、動作において実行する若しくは特定の機能を実行するように設計されるいずれかのハードウェア(個別又は集積回路若しくは電子要素など)によって、又はソフトウェア(プログラム又はプログラムの一部など)を含むように意図されている。本発明は、いくつかの個別の構成要素を有するハードウェアを用いて、及び適切にプログラムされた計算機を用いて実施され得る。「ソフトウェア」は、フローピーディスクなどの計算機読み取り可能媒体に記憶される、インターネットなどのネットワークを介してダウンロード可能である、又はいずれかの他の態様において販売可能な、いずれかのソフトウェア製品を意図するものであると理解されるべきである。
図1は、コンテンツ項目の特性を決定する方法のフロー図である。 図2は、図1の方法の実施例のフロー図である。 図3は、3つの区間にセグメント化されている音の例を示す。 図4は、図3の音のうちの1つに関して決定された特性の例を示す。 図5は、図2の実施例において使用される式を示す。 図6は、2つのジャンル間において区別した結果を示す。 図7は、本発明の電子装置のブロック図である。

Claims (9)

  1. 楽曲を表すコンテンツ項目の音楽ジャンル及び/又は雰囲気を決定する方法であって、
    −前記コンテンツ項目から複数の音を表すデータを選択するステップと、
    −前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表す、ステップと、
    −前記コンテンツ項目のパーカッシブネスの尺度を、前記複数の決定された特性に基づき決定するステップと、
    −前記コンテンツ項目の前記パーカッシブネスの尺度に基づき、前記コンテンツ項目の前記音楽ジャンル及び/又は雰囲気を決定するステップと
    を含み、
    前記コンテンツ項目の前記パーカッシブネスの尺度を決定するステップが、前記コンテンツ項目の第1のパーカッシブネス特徴及び第2のパーカッシブネス特徴を決定するステップを含み、前記コンテンツ項目の前記音楽ジャンル及び/又は雰囲気を決定するステップが、前記第1のパーカッシブネス特徴を第1ジャンル又は雰囲気の特性と比較するステップ、及び前記第2のパーカッシブネス特徴を第2ジャンル又は雰囲気の特性と比較するステップを含む方法。
  2. 楽曲を表すコンテンツ項目の音楽ジャンル及び/又は雰囲気を決定する方法であって、
    −前記コンテンツ項目から複数の音を表すデータを選択するステップと、
    −前記データを分析することによって前記複数の音のそれぞれの特性を決定するステップであって、各特性が、前記複数の音のうちの一つの振幅の時間的観点を表す、ステップと、
    −前記コンテンツ項目のパーカッシブネスの尺度を、前記複数の決定された特性に基づき決定するステップと、
    −前記コンテンツ項目の前記パーカッシブネスの尺度に基づき、前記コンテンツ項目の前記音楽ジャンル及び/又は雰囲気を決定するステップと
    を含み、
    前記複数の音のそれぞれの特性を決定するステップが、前記複数の音のそれぞれの第1区間の特性及び前記複数の音のそれぞれの第2区間の特性を決定するステップを含む方法
  3. 前記コンテンツ項目を表す信号を、線形区間FIRフィルタのフィルタバンクを用いてフィルタ処理し、各フィルタ出力に関して個別に前記特性を特定することを特徴とする請求項に記載の方法。
  4. 前記コンテンツ項目から複数の音を表すデータを選択するステップが、前記コンテンツ項目のストリームを、発生するオンセットにて開始し後続のオンセットにて終了する音声部分にスライスする処理を含み、
    複数の音のそれぞれの特性を決定するステップが、前記音声部分のそれぞれについて、前記特性を決定する処理を含むことを特徴とする請求項に記載の方法。
  5. 楽曲を表す複数のコンテンツ項目におけるあるコンテンツ項目を検索する検索方法であって、前記複数のコンテンツ項目における各コンテンツ項目が、属性値と関連付けられており、発見されるコンテンツ項目が、所望の属性値に類似する属性値と関連付けられており、前記各コンテンツ項目の前記属性値が、前記各コンテンツ項目の音楽ジャンル及び/又は雰囲気である、又は前記各コンテンツ項目の音楽ジャンル及び/又は雰囲気に基づいており、前記各コンテンツ項目の前記音楽ジャンル及び/又は雰囲気が、請求項1から4いずれか1項記載の方法により決定されたものであることを特徴とする検索方法。
  6. プログラム可能な装置を請求項1から5いずれか1項記載の方法を実行するように動作可能にさせるソフトウェア。
  7. 電子装置であって、
    −楽曲を表すコンテンツ項目から複数の音を表すデータを選択し、
    −前記データを分析することによって前記複数の音のそれぞれの特性を決定し、ここで、各特性は、前記複数の音のうちの一つの振幅の時間的観点を表し、
    −前記複数の決定された特性に基づき、前記コンテンツ項目のパーカッシブネスの尺度を決定する処理であって、前記コンテンツ項目の第1のパーカッシブネス特徴及び第2のパーカッシブネス特徴を決定するステップを含む処理を行い
    −前記コンテンツ項目の前記パーカッシブネスの尺度に基づき、前記コンテンツ項目の音楽ジャンル及び/又は雰囲気を決定する処理であって、前記第1のパーカッシブネス特徴を第1ジャンル又は雰囲気の特性と比較するステップ、及び前記第2のパーカッシブネス特徴を第2ジャンル又は雰囲気の特性と比較するステップを含む処理を行う
    ように動作可能である電子回路を備える電子装置。
  8. 前記電子回路がさらに、楽曲を表す複数のコンテンツ項目におけるあるコンテンツ項目を検索するように動作可能であり、前記複数のコンテンツ項目における各コンテンツ項目が、属性値と関連付けられており、発見されるコンテンツ項目が、所望の属性値に類似する属性値と関連付けられており、前記各コンテンツ項目の前記属性値が、前記各コンテンツ項目の前記音楽ジャンル及び/又は雰囲気である、又は前記各コンテンツ項目の前記音楽ジャンル及び/又は雰囲気に基づいている、請求項記載の電子装置。
  9. 請求項7または8に記載の電子回路。
JP2008514282A 2005-06-01 2006-05-30 コンテンツ項目の特性を決定する方法および電子装置 Active JP5112300B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05104740.5 2005-06-01
EP05104740 2005-06-01
PCT/IB2006/051719 WO2006129274A1 (en) 2005-06-01 2006-05-30 Method and electronic device for determining a characteristic of a content item

Publications (2)

Publication Number Publication Date
JP2008542835A JP2008542835A (ja) 2008-11-27
JP5112300B2 true JP5112300B2 (ja) 2013-01-09

Family

ID=36930199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008514282A Active JP5112300B2 (ja) 2005-06-01 2006-05-30 コンテンツ項目の特性を決定する方法および電子装置

Country Status (7)

Country Link
US (1) US7718881B2 (ja)
EP (1) EP1891548B1 (ja)
JP (1) JP5112300B2 (ja)
KR (1) KR101249024B1 (ja)
CN (1) CN101189610B (ja)
RU (1) RU2419859C2 (ja)
WO (1) WO2006129274A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
EP2031581A1 (de) * 2007-08-31 2009-03-04 Deutsche Thomson OHG Verfahren zum Erkennen eines akustischen Ereignisses in einem Audio-Signal
US20120294457A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function
MX2014000042A (es) * 2011-06-24 2014-02-17 Lg Electronics Inc Metodo de codificacion y decodificacion de informacion de imagenes.
GB201119206D0 (en) 2011-11-07 2011-12-21 Canon Kk Method and device for providing compensation offsets for a set of reconstructed samples of an image
CN102930865B (zh) * 2012-09-21 2014-04-09 重庆大学 一种波形音乐粗情感软切割分类方法
US9123353B2 (en) * 2012-12-21 2015-09-01 Harman International Industries, Inc. Dynamically adapted pitch correction based on audio input
TWI527025B (zh) * 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
US9671862B2 (en) * 2014-10-15 2017-06-06 Wipro Limited System and method for recommending content to a user based on user's interest
WO2016102737A1 (en) * 2014-12-22 2016-06-30 Nokia Technologies Oy Tagging audio data
CN108648767B (zh) * 2018-04-08 2021-11-05 中国传媒大学 一种流行歌曲情感综合与分类方法
CN109841223B (zh) * 2019-03-06 2020-11-24 深圳大学 一种音频信号处理方法、智能终端及存储介质
JP7275711B2 (ja) * 2019-03-20 2023-05-18 ヤマハ株式会社 オーディオ信号の処理方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
US7022905B1 (en) * 1999-10-18 2006-04-04 Microsoft Corporation Classification of information and use of classifications in searching and retrieval of information
DE60041118D1 (de) * 2000-04-06 2009-01-29 Sony France Sa Extraktor von Rythmuseigenschaften
US7075000B2 (en) * 2000-06-29 2006-07-11 Musicgenome.Com Inc. System and method for prediction of musical preferences
US6545209B1 (en) * 2000-07-05 2003-04-08 Microsoft Corporation Music content characteristic identification and matching
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
EP1244033A3 (en) * 2001-03-21 2004-09-01 Matsushita Electric Industrial Co., Ltd. Play list generation device, audio information provision device, system, method, program and recording medium
US6993532B1 (en) * 2001-05-30 2006-01-31 Microsoft Corporation Auto playlist generator
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream
US6426456B1 (en) * 2001-10-26 2002-07-30 Motorola, Inc. Method and apparatus for generating percussive sounds in embedded devices
US6987221B2 (en) * 2002-05-30 2006-01-17 Microsoft Corporation Auto playlist generation with multiple seed songs
EP1378912A3 (en) * 2002-07-02 2005-10-05 Matsushita Electric Industrial Co., Ltd. Music search system
GB0229940D0 (en) * 2002-12-20 2003-01-29 Koninkl Philips Electronics Nv Audio signal analysing method and apparatus
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US7227072B1 (en) * 2003-05-16 2007-06-05 Microsoft Corporation System and method for determining the similarity of musical recordings
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
US7193148B2 (en) * 2004-10-08 2007-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an encoded rhythmic pattern
US20060254409A1 (en) * 2005-05-11 2006-11-16 Withop Ryan L Sorting media files using dynamic passive recognition techniques
US7672916B2 (en) * 2005-08-16 2010-03-02 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for music classification
US7396990B2 (en) * 2005-12-09 2008-07-08 Microsoft Corporation Automatic music mood detection
US7888582B2 (en) * 2007-02-08 2011-02-15 Kaleidescape, Inc. Sound sequences with transitions and playlists

Also Published As

Publication number Publication date
US20080202320A1 (en) 2008-08-28
RU2007144711A (ru) 2009-06-10
US7718881B2 (en) 2010-05-18
EP1891548B1 (en) 2017-04-26
KR101249024B1 (ko) 2013-03-29
EP1891548A1 (en) 2008-02-27
CN101189610A (zh) 2008-05-28
CN101189610B (zh) 2011-12-14
WO2006129274A1 (en) 2006-12-07
RU2419859C2 (ru) 2011-05-27
JP2008542835A (ja) 2008-11-27
KR20080019031A (ko) 2008-02-29

Similar Documents

Publication Publication Date Title
JP5112300B2 (ja) コンテンツ項目の特性を決定する方法および電子装置
JP4438144B2 (ja) 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
JP4795934B2 (ja) パラメータで表示された時間特性の分析
US8073684B2 (en) Apparatus and method for automatic classification/identification of similar compressed audio files
US8158871B2 (en) Audio recording analysis and rating
US8865993B2 (en) Musical composition processing system for processing musical composition for energy level and related methods
TW201142818A (en) Complexity scalable perceptual tempo estimation
JP2010134231A (ja) 情報処理装置、音素材の切り出し方法、及びプログラム
WO2009104269A1 (ja) 楽曲判別装置、楽曲判別方法、楽曲判別プログラム及び記録媒体
US20040068401A1 (en) Device and method for analysing an audio signal in view of obtaining rhythm information
WO2015092492A1 (en) Audio information processing
Rajan et al. Music genre classification by fusion of modified group delay and melodic features
Niyazov et al. Content-based music recommendation system
Ziemer et al. Using psychoacoustic models for sound analysis in music
Marolt On finding melodic lines in audio recordings
JP2008216486A (ja) 音楽再生システム
Peiris et al. Musical genre classification of recorded songs based on music structure similarity
Dressler Towards computational auditory scene analysis: Melody extraction from polyphonic music
Peiris et al. Supervised learning approach for classification of Sri Lankan music based on music structure similarity
Jensen et al. Hybrid perception
Skowronek et al. Features for audio classification: Percussiveness of sounds
Proscia et al. A timbral and a musical performance analysis of saxophone multiphonic morphings
Yoshii et al. Drum sound identification for polyphonic music using template adaptation and matching methods
Wegener et al. On the robustness of audio features for musical instrument classification
Ramesh Singing Voice Nasality Detection in Polyphonic Audio

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111104

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120815

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120913

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121010

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5112300

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250