JP2010527055A - コンテンツアイテムを組織する方法 - Google Patents
コンテンツアイテムを組織する方法 Download PDFInfo
- Publication number
- JP2010527055A JP2010527055A JP2010504953A JP2010504953A JP2010527055A JP 2010527055 A JP2010527055 A JP 2010527055A JP 2010504953 A JP2010504953 A JP 2010504953A JP 2010504953 A JP2010504953 A JP 2010504953A JP 2010527055 A JP2010527055 A JP 2010527055A
- Authority
- JP
- Japan
- Prior art keywords
- label
- content item
- feature vector
- feature
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 199
- 238000000034 method Methods 0.000 claims abstract description 78
- 238000011524 similarity measure Methods 0.000 claims abstract description 45
- 230000004044 response Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 68
- 238000005259 measurement Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 25
- 230000000694 effects Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000010755 BS 2869 Class G Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/638—Presentation of query results
- G06F16/639—Presentation of query results using playlists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
コンテンツアイテムを組織する方法は、第1ラベル及び少なくとも一つの更なるラベルの各々を第1コンテンツアイテムのそれぞれのセットと関連付ける情報19乃至21を得るステップを含む。少なくとも一つの第1コンテンツアイテムは、ユーザ入力に応答して第1ラベルと関連付けられる。第2コンテンツアイテムが得られる。第1ラベル及び更なるラベルの各々に対して、第2コンテンツアイテムを特徴とする特徴ベクトルと、ラベルと関連付けられる第1コンテンツアイテムを特徴とする特徴ベクトルの各々との間の類似性測定が算出される。類似性測定の計算値にしたがって、第2コンテンツアイテムが第1ラベルと関連付けられる第1コンテンツアイテムと類似することを決定すると、第1ラベルは、第2コンテンツアイテムと関連付けられる。
Description
本発明は、コンテンツアイテムを組織する方法に関する。
本発明は、コンテンツアイテムを組織する装置にも関する。
本発明は、コンピュータプログラムにも関する。
米国特許US5918223は、所与の音に類似した音を出すか、又は所定の種類の音に類似した音を出すデジタル音声の音声データファイル又はセグメントを見つける手段を開示する。システムは、まず、各音声ファイルの様々な音響的特徴を測定する。これは、ある音声ファイルの長さを越える周期的間隔で、音量、バス、ピッチ、明るさ、帯域幅及びメル周波数ケプストラム係数を測定する。それから、時間を通じたこれらの変化を記載するため、これは、特定の統計測定、すなわちこれらの特徴の各々の平均及び標準偏差を計算する。統計測定のこのセットは、特徴ベクトルとしても知られるNベクトルとして表わされる。ユーザは、このクラスに属する音声ファイルのセットを特定することによって、音の分類を生成し得る。この場合において、ユーザは、ユーザが訓練しようとする特性を示す音の特性を示す音のサンプルを選択する。それからサンプル音の各々は、セットの平均ベクトルμ、及びセットの正規化ベクトルVを計算するために使用される。(正規化値は、標準偏差又は範囲値である。)これらのベクトルは、カテゴリを規定する別々のデータベースに記憶され得る。一旦カテゴリが、規定される多くの特性を有するベクトルのセットを提供することによって規定されると、我々は、個々の音をカテゴリと比較し、音とカテゴリとの間に距離測定を考えることができる。μ及びVによって規定されるカテゴリに対する例示的なベクトルAのこの距離は、以下の式によって与えられる。距離=
、ただしi=0、…、N−1である。
、ただしi=0、…、N−1である。
距離は、音がクラスの「中に」あるか、又は「外に」あるかを決定するため、いくつかの閾値と比較され得る。クラスにとっていくつかの音響特性が重要でないことが先験的に知られる場合、これらは、距離の計算において無視され得るか、又は低い重み付けを与えられ得る。
既知の方法の問題は、計算された距離が、あるセットを規定するNベクトルが平均周辺で均等に分散され、各セットが、同じ数のNベクトルによって規定されるという仮定に基づくということである。
本発明の目的は、コンテンツアイテムが比較的正確にパーソナルカテゴリに組織化されることを可能にする、冒頭の段落に記載されたタイプの方法、装置及びコンピュータプログラムを提供することである。
この目的は、本発明による方法によって達成され、この方法は、
第1ラベル及び少なくとも一つの更なるラベルの各々を、複数の第1コンテンツアイテムのそれぞれのセットと関連付ける情報を得るステップであって、少なくとも一つの第1コンテンツアイテムが、ユーザ入力に応答して第1ラベルと関連付けられるステップと、
第2コンテンツアイテムを得るステップと、
第1ラベル及び更なるラベルの各々に対して、第2コンテンツアイテムを特徴とする特徴ベクトルと、ラベルと関連付けられる第1コンテンツアイテムを特徴とする特徴ベクトルの各々との間の類似性測定を計算するステップと、
類似性測定の計算値にしたがって、第2コンテンツが第1ラベルに関連付けられる第1コンテンツアイテムと類似することを決定すると、第1ラベルを第2コンテンツアイテムと関連付けるステップと
を含む。
第1ラベル及び少なくとも一つの更なるラベルの各々を、複数の第1コンテンツアイテムのそれぞれのセットと関連付ける情報を得るステップであって、少なくとも一つの第1コンテンツアイテムが、ユーザ入力に応答して第1ラベルと関連付けられるステップと、
第2コンテンツアイテムを得るステップと、
第1ラベル及び更なるラベルの各々に対して、第2コンテンツアイテムを特徴とする特徴ベクトルと、ラベルと関連付けられる第1コンテンツアイテムを特徴とする特徴ベクトルの各々との間の類似性測定を計算するステップと、
類似性測定の計算値にしたがって、第2コンテンツが第1ラベルに関連付けられる第1コンテンツアイテムと類似することを決定すると、第1ラベルを第2コンテンツアイテムと関連付けるステップと
を含む。
好ましくは、コンテンツアイテムは、音声抜粋、静止画像、又は連続画像のうちの少なくとも1つを表す信号の記録又はリンクされた記録のセットを含む。
少なくとも一つの第1コンテンツが、ユーザ入力に応答して第1ラベルと関連付けられるので、上記方法は、多くのコンテンツアイテムの試験者による割り当てに基づく一般的に規定されたカテゴリへのカテゴリ定義とは対照的に、特定の実施に特有のカテゴリ定義を可能にする。単一の第1コンテンツアイテムは、稀に特定のカテゴリのコンテンツアイテムの特性全てを実施するであろう。従って、複数の第1コンテンツアイテムのそれぞれのセットは、ラベルと関連付けられる。第2コンテンツアイテムを特徴とする特徴ベクトルと、ラベルと関連付けられる第1コンテンツアイテムを特徴とする特徴ベクトルの各々との間の類似性測定を計算することによって、特徴空間に渡るラベルと関連付けられる第1コンテンツアイテムを特徴とするいかなる特徴ベクトルの偏在も考慮される。更に、第2コンテンツが、ラベルと関連付けられる第1コンテンツアイテムに類似することを決定する基準は、ラベルと関連付けられるセットにおける第1コンテンツアイテムの数に基づき得る。
一実施例において、ユーザは、ユーザ入力によって第1ラベルを規定することを可能にされる。
所定のラベル又はユーザに構成されたカテゴリに対するパーソナライズされたラベルをユーザが規定できるようにすることにより、ユーザは、パーソナルカテゴリを規定又は向上し得る。
第1ラベルは、第1ラベルを第2コンテンツアイテムにリンクする情報を記憶することによって、第2コンテンツアイテムと関連付けられ得る。
第1ラベルが、第1ラベルを第2コンテンツアイテムとリンクする情報を記憶することによって第2コンテンツアイテムと関連付けられるので、カテゴリ定義に基づくプレイリストは、類似性の測定を繰り返す必要がないため、より急速にアセンブルされ得る。
コンテンツアイテムを組織するこの方法の一実施例は、ユーザが、ユーザ入力によって少なくとも一つの第1コンテンツアイテムを第1ラベルと関連付けることを可能にするステップを含む。
ユーザがどの第1コンテンツアイテムをユーザ定義又は所定の第1ラベルと関連付けるかを選択できるようにすることによって、ユーザは、パーソナルカテゴリを規定又は向上し得る。
一実施例において、第1ラベルは、第2コンテンツアイテムが、更なるラベルと関連付けられる第1コンテンツアイテムに対してよりも、第1ラベルと関連付けられる第1コンテンツアイテムに対してより類似していると決定すると、第2コンテンツアイテムと関連付けられる。
第2コンテンツアイテムが第1ラベルに対応するカテゴリに属するべきかどうか決定するため、閾値を規定することが必要とされないという効果がある。相対的な基準は、第2コンテンツアイテムが1つのカテゴリのみに割り当てられ得るという意味において、カテゴリが相互に排他的である方法を実施することにも適している。この種の分類は、カテゴリを表す特定の第1コンテンツアイテムに類似する第2コンテンツアイテムを検索することによってプレイリストを生成するように使用される方法から最も著しく異なる。このような方法は、類似のコンテンツアイテムのクラスタのサイズを考慮しない。
一実施例において、各特徴ベクトルの少なくとも一つの座標は、再生装置においてレンダリングされるときに知覚可能である信号の特性を表すパラメータ値を決定するため、この機能ベクトルを特徴とするコンテンツアイテムに含まれる信号において、所定の信号分析を実行することによって入手可能である。
効果は、上記方法が自動的に修正可能であることである。類似するコンテンツアイテムの決定は、汎用的であり、客観的である。特定のクラスを表す第1コンテンツアイテムの選択のみが、主観的な要素を含む。
一実施例は、第2コンテンツアイテムを特徴とする特徴ベクトルと、第1ラベルと関連付けられるコンテンツアイテムを特徴とする特徴ベクトルとの間の類似性測定の値に基づく少なくとも1つの値を表わすデータを第2コンテンツアイテムと関連付けることを更に含む。
効果は、クエリに関連するコンテンツアイテムの比較的洗練された検索が、非常に多くのラベル、すなわち非常に多くのカテゴリ定義を使用せずに実行され得ることである。第2コンテンツアイテムは、これらが第1ラベルと関連付けられる第1コンテンツアイテムとどのくらい密接にマッチングするかに従ってランキングされ得、これは、ラベルによって表される特性に目標が定められる検索の結果の改善を可能にする。
一実施例において、第1ラベルは、第2コンテンツアイテムを特徴とする特徴ベクトルと、上記ラベルと関連付けられるコンテンツアイテムを特徴とする特徴ベクトルとの間の類似性測定の値に基づく少なくとも一つの値が、所定の範囲の中にあると決定するときのみ、第2コンテンツアイテムと関連付けられる。
効果は、第2コンテンツアイテムが他の全ての種類のコンテンツアイテムと異なる場合、この方法が比較的よく機能するということである。範囲は、上記ラベルと関連付けられる第1コンテンツアイテムのセットが非類似から最も遠いので、全ての第1コンテンツアイテムと非類似のコンテンツアイテムが、これらと関連したラベルを有さないことを確実にするように選択可能である。
一実施例において、類似性測定は、
重み付き距離に従って、特徴ベクトルの間の重み付き距離を計算し、
確率分布に基づく関数を計算された重み付き距離に適用すること
によって計算される。
重み付き距離に従って、特徴ベクトルの間の重み付き距離を計算し、
確率分布に基づく関数を計算された重み付き距離に適用すること
によって計算される。
効果は、異なる数のラベルに対して類似性測定を適用する可能性を提供することである。第1コンテンツアイテムの関連したセットを含む多くの更なるラベルが存在するような、より小さな広がりを有する確率分布の使用が可能である。
一実施例において、確率分布に基づく関数は、第1ラベル及び更なるラベルと関連付けられる第1コンテンツアイテムのセットに渡ってパラメータ化される。
効果は、第1ラベル及び更なるラベルと関連付けられる第1コンテンツアイテムの異なるサイズのセットを考慮することである。
一実施例において、第2コンテンツアイテムを特徴とする特徴ベクトルと、ラベルと関連付けられるコンテンツアイテムを特徴とするいかなる特徴ベクトルとの間の類似性測定も、ラベルと関連付けられるセットに含まれる第1コンテンツアイテムの数Mcに依存する係数によって正規化される。
効果は、カテゴリ化がこれらと関連する多くの第1コンテンツアイテムを有するラベルによって表されるカテゴリにバイアスされないことである。
一実施例において、類似性測定は、ラベルに関連したセットに含まれる第1コンテンツアイテムの数Mcに反比例する係数によって正規化され、0乃至1の範囲の値を有する冪指数で累乗される。
冪指数、及び特に約0.5の値のこの選択は、異なるカテゴリに対して、異なる数の第1コンテンツアイテムがカテゴリを表すラベルと関連付けられ得るという事実に適応する。正規化が適用されない場合、確率分布に基づく関数が、第1コンテンツアイテムの数におおよそ比例して大きくなるので、これは、多くの第1コンテンツアイテムと関連するラベルに強くバイアスされた結果となるであろう。言い換えると、これと関連するコンテンツアイテムをほとんど持たないラベルが、おそらく第2コンテンツアイテムに割り当てられるであろう。冪指数がまさに1である場合、これと関連する多くの第1コンテンツアイテムを有するラベルは、これと関連付けられる極めて少ないか、又は1つの第1コンテンツアイテムを有するラベルとして第2コンテンツアイテムにおおよそ等しく割り当てられるであろう。特定のラベルに関連付けられるより多くの第1コンテンツアイテムがあるという事実は、このラベルが好ましいカテゴリ、例えばユーザの特定の好みを表すというサインであるので、これは望ましいことではない。
一実施例において、確率分布に基づく関数は、確率分布の幅を特定する可変的なパラメータを含み、可変的なパラメータは、第1コンテンツアイテムと第1ラベル又は更なるラベルとの間の関連付けの総数に依存する値を割り当てられる。
効果は、特徴空間の非常に微細な解像度に供給するため、又は特徴空間が異なるカテゴリによって満たされることを確認するために第1コンテンツアイテムの数を考慮し得ることである。より多くの第1コンテンツアイテムがラベルと関連付けられるので、確率分布に基づく関数は調整され得る。
一実施例において、第1ラベル及び更なるラベルの特定のものに対して、可変的なパラメータは、このラベルと関連付けられる第1コンテンツアイテムのセットの特徴ベクトルの対の間の重み付き距離に従う多くの最小距離の値の関数である値を割り当てられる。
したがって、比較的多くの第1コンテンツアイテムが、各ラベルと関連付けられ、パラメータは、通常、これらの第1コンテンツアイテムを特徴とする特徴ベクトルの間に観測される距離を表わすようになる。
一実施例において、可変的なパラメータは、第1ラベル、又は更なるラベルと関連付けられる第1コンテンツアイテムを特徴とする全ての特徴ベクトルの任意の対の間の重み付き距離の程度に従う平均距離の関数である。
効果は、第1ラベル及び/又は更なるラベルと関連付けられる第1コンテンツアイテムが実際には極めて少ない状況の下でさえ、パラメータ値が、ラベルと関連付けられるセットの第1コンテンツアイテムを特徴付ける特徴ベクトルの間の距離の経験的な値に基づき得ることである。
上記方法の一実施例は、
特徴ベクトルの座標を区別する重み付き距離手段を使用し、各々が複数のコンテンツアイテムのうちの一つを特徴づける特徴ベクトルの訓練セットであって、特徴ベクトルの各々が複数のサブセットのうちの少なくとも一つに含まれる、訓練セットを得ることによって得られる特徴重み付き行列に基づいて、類似性測定を計算するステップと、
共通のサブセットに含まれる特徴ベクトルの対が、共通の要素をもたないサブセットに含まれる特徴ベクトルの対と関連する大きな重み付き距離を有するように最適化された値を有する重み付き行列を占有するステップと
を有する。
特徴ベクトルの座標を区別する重み付き距離手段を使用し、各々が複数のコンテンツアイテムのうちの一つを特徴づける特徴ベクトルの訓練セットであって、特徴ベクトルの各々が複数のサブセットのうちの少なくとも一つに含まれる、訓練セットを得ることによって得られる特徴重み付き行列に基づいて、類似性測定を計算するステップと、
共通のサブセットに含まれる特徴ベクトルの対が、共通の要素をもたないサブセットに含まれる特徴ベクトルの対と関連する大きな重み付き距離を有するように最適化された値を有する重み付き行列を占有するステップと
を有する。
効果は、距離測定が、非常に正確なカテゴリ構成要素の予測手段として、異なる特徴ベクトル座標を定量化する情報を組み込むことである。これは、非常に大きな訓練セットに基づき得る。方法自体は、比較的少ないコンテンツアイテムのコレクションに基づいて実行され得、実施に特有のカテゴリ定義に適応され得、良好な分類結果を得ることができる。
他の態様によると、本発明によるコンテンツアイテムを組織するための装置は、電子回路を含み、この電子回路は、
ユーザ入力に応答して、少なくとも1つの第1コンテンツアイテムを第1ラベルと関連付け、
少なくとも一つの更なるラベルの各々を、複数の第1コンテンツアイテムのそれぞれのセットと関連付ける情報を取得し、
第2のコンテンツアイテムを取得し、
第1ラベル及び更なるラベルの各々に対して、第2コンテンツアイテムを特徴付ける特徴ベクトルと、ラベルと関連する第1コンテンツアイテムを特徴付ける特徴ベクトルの各々との間の類似性測定を計算し、
類似性測定の計算された値に従って、第2コンテンツアイテムが、第1ラベルと関連付けられる第1コンテンツアイテムに類似すると決定すると、第1ラベルを第2コンテンツアイテムと関連付けるように動作する。
ユーザ入力に応答して、少なくとも1つの第1コンテンツアイテムを第1ラベルと関連付け、
少なくとも一つの更なるラベルの各々を、複数の第1コンテンツアイテムのそれぞれのセットと関連付ける情報を取得し、
第2のコンテンツアイテムを取得し、
第1ラベル及び更なるラベルの各々に対して、第2コンテンツアイテムを特徴付ける特徴ベクトルと、ラベルと関連する第1コンテンツアイテムを特徴付ける特徴ベクトルの各々との間の類似性測定を計算し、
類似性測定の計算された値に従って、第2コンテンツアイテムが、第1ラベルと関連付けられる第1コンテンツアイテムに類似すると決定すると、第1ラベルを第2コンテンツアイテムと関連付けるように動作する。
装置は、パーソナルカテゴリを規定するこれらに対する1又はそれより多くのこれらの特性の類似性の比較的正確な評価に基づいて、コンテンツアイテムの高速検索を可能にする。
他の態様によると、本発明によるコンテンツアイテムを組織する装置は、電子回路を含み、該電子回路は、ユーザがユーザ入力によって第1ラベルを規定することを可能にし、第1ラベルを第2コンテンツアイテムと関連付ける場合に、第1ラベルを第2コンテンツにリンクする情報が記憶されるようにする代わりに、又はこれに加えて、特徴ベクトルの座標の間の区別をする重み付き距離測定を使用し、重み付き距離測定が適用される第1ラベル及び更なるラベルと関連付けられる第1コンテンツアイテムを特徴とする特徴ベクトルに渡って不変である重みに基づいて、類似性測定を計算するように動作する。
この装置は、いかなるカテゴリ定義からも独立していることによって、より効果的にカスタム定義されたカテゴリに従ってコンテンツアイテムを分類することが可能である。重み付き距離測定は、重み付きが、あるタイプのカテゴリ、例えばジャンルに対応するカテゴリ又はアーティストに対応するカテゴリの間の差を区別するように選択され得るので、潜在的により良好な分類結果を与える。
一実施例において、装置は、本発明による方法を実行するように構成される。
他の態様によると、本発明によるコンピュータプログラムは、機械読み取り可読媒体に入れられるときに、情報処理能力を有する装置に本発明による方法を実行させることができる命令のセットを含む。
本発明は、添付の図面に関してより詳細に説明される。
電子装置1は、コンテンツアイテムに含まれる信号、例えばファイルに含まれるデジタルオーディオ、ビデオ又は画像信号をレンダリングする再生装置の一例としてここで使用される。電子装置1は、据置き又は携帯型装置であり得る。電子装置1は、消費者向け装置、例えばTVセットトップボックス、又は業務用装置であり得る。ファイルは、大容量記憶装置2に記憶される。大容量記憶装置2は、例えばハードディスク、固体メモリ、光ディスクリーダ又はホログラフィック記憶手段を含み得る。各記憶されたファイルは、メタデータを更に含む。
ファイルからのデータは、インタフェース3を通じて読み込まれる。電子装置1は、携帯型音楽プレーヤ1が以下に記載される1又はそれより多くの方法を実行することを可能にする指示を含む、読取専用メモリ6に記憶される指示を実行する、プロセッサ4及びランダムアクセスメモリ5を更に含む。コンテンツアイテムに含まれる信号を再生するため、電子装置1は、デジタル信号プロセッサ7及び再生装置8を含み、入出力インタフェース9を通じてデータを供給される。再生装置8は、例えばディスプレイ及び/又はスピーカを含み得る。ユーザは、入力装置10、例えばスクロールボタン及び/又はキーボード、並びに出力装置11を含むユーザインタフェースを通じて入力を供給することが可能である。入力装置10及び出力装置11は、例えばUSBコネクタ若しくはイーサネットコネクタのようなネットワークコネクタ、シンチコネクタ若しくはSCARTコネクタのようなアナログオーディオ及び/若しくはビデオコネクタ、又はHDMI若しくはSPDIFコネクタのようなデジタルオーディオ及び/若しくはビデオコネクタを含み得る。入力装置10及び出力装置11は、ワイヤレス受信機及び/又は送信機を含み得る。
音声情報のようなコンテンツアイテムを配信及び記憶する新たな技術は、ユーザが非常に多くの音楽コレクションを集めることを可能にする。最大限の恩恵を受けるようにこのような大きい音楽コレクションを使用することは、ユーザにとってのチャレンジになり、技術は、音楽コレクションにアクセスする際にユーザを支援するために開発されることを必要とする。音楽分類は、例えば音楽のジャンルのようないくつかの所定のカテゴリ、又は音楽に関連付けられるムードに従って、ユーザが音楽コレクションを組織することを可能にする技術である。自動音楽分類システムは、分類モデルに基づいて音楽を1又はそれより多くのカテゴリに分類する。これらの所定のカテゴリがしばしばユーザによって理解されるカテゴリとマッチングしないことは、既知のシステムの欠点である。ユーザは、時々自身の音楽をパーソナルカテゴリに手動で分類し得るが、彼は、非常に大きな労力を費やして、彼の全音楽コレクションに対してこうすることを必要とする。
ここで概説される方法は、コンテンツアイテムを組織する方法を提供し、これは、限定的な労力でユーザがパーソナルクラスを規定することを可能にする。コンテンツアイテムを組織する方法は、ユーザがラベルを規定することを可能にするステップと、ユーザが、少なくとも一つの第1コンテンツアイテムをラベルと関連付けることを可能にするステップと、第1コンテンツアイテムと類似した特性を有する第2コンテンツアイテムを検索するステップと、ラベルを第2コンテンツアイテムと関連付けるステップとを含む。類似性測定を用いることによって、第1コンテンツアイテム(すなわちシード(seed)コンテンツアイテム)は、ユーザが関心あるカテゴリのプロトタイプの例として役に立つ。同様の曲は、シード曲として類似する音楽を内包する傾向にある。したがって、この方法は、カテゴリ当たり極めて少ないシード曲で既に効果的である。同じ原理は、他のタイプのコンテンツアイテムに適用され得る。パーソナライズされた分類の文脈において音楽の類似性測定を使用する更なる利点は、シード曲に対する類似性の意味ある基準が得られることである。このように、ランキングの序列は、最もパーソナルカテゴリの一部でありそうな曲からなり得、最もクラスに属しそうな曲のみが表示され得、又は代替として最もありそうな曲が、リストの最上位に示され得る。また、同じ原理は、他のタイプのコンテンツアイテムに適用され得る。
類似性測定の構成は、以下で更に詳細に与えられるであろう。類似性測定は、コンテンツアイテムを特徴付ける特徴ベクトルfxの座標の間を区別する重み付き距離手段を使用して算出される。特徴ベクトルfxの各座標は、この特徴ベクトルfxによって特徴付けられるコンテンツアイテムに含まれる信号において、所定の信号分析を実行することによって入手可能である。分析は、信号が再生装置8においてレンダリングされるとき、認知可能である信号の特性を表すパラメータ値を生む。音声信号では、特徴ベクトル座標の例は、音量、バス、ピッチ、明るさ、帯域幅、及びメル周波数ケプストラム係数を含む。映像信号又は静止画像では、コントラスト、明るさ、カラー成分の相対強度、及び場面変化の頻度は、特徴ベクトルfxを規定するパラメータとして定量化及び包含され得る。
図2の方法において使用される重み付き距離測定は、シードアイテムを特徴とする特徴ベクトルとは独立した重み付けに基づく。これは、重み付けが、重み付き距離が決定されるラベルと関連付けられるシードアイテムのセットに従って変化しないことを意味する。その代わり、重み付けの値は、全てのラベルを通じて一定である。図示された実施例において、重み付き距離測定は、図3及び6に示される方法のうちの1つによって入手可能である特徴重み付き行列Wに基づく。次に、特徴重み付き行列は、大容量装置2に記憶されるコレクションよりも大きな訓練データベースにおいて、分類されたコンテンツアイテムを特徴とする、特徴ベクトルfxの訓練セットに基づいて計算される。
したがって、図2において図示される方法の第1ステップ12は、通常、電子装置1において実行されず、オフラインで実行される。変形例において、第1ステップ12は、大容量記憶装置2にロードされる分類前の訓練セットを使用して、電子装置によって実行され得る。しかしながら、第1ステップ12は、例えばより大きなコンテンツアイテムのコレクションへのアクセスを有するより強力なデータ処理システムにおいて通常利用可能である、大きな訓練セットにおいて実行され、各々が例えばジャンルクラスを識別する追加のデータで注釈を付けられる場合、より良い結果を得る。第1ステップ12は、図3及び6に示される方法のうちの1つに従って実行され、以下で更に詳細に説明されるであろう。
第2ステップ13は、通常、電子装置1を生成する工場において実行される。これは、重み付き行列を表わすデータを、電子装置1に含まれるメモリ、例えばROM6又は大容量記憶装置2にロードすることに関する。
残りのステップは、ユーザが電子装置1にアクセス可能なコンテンツアイテムのコレクションを分類したいときに実行される。
ステップ14は、ユーザがラベルを定義することを可能にするステップを含む。ステップ15は、ユーザが少なくとも一つの第1のコンテンツアイテム又はシードコンテンツアイテムをラベルと関連付けることを可能にするステップを含む。有意義な分類にするため、前の2つのステップ14,15を繰り返すか、又は例えば向上においてプリセットされた、関連付けられたシードコンテンツアイテムを有するデフォルトのラベルを使用することにより、更なるラベルが得られる。またユーザは、2つステップ14,15のうちの1つのみを実行し得る。例えばプリセットされたラベル識別子が使用され得、このようなラベルは、ユーザによってユーザのパーソナルコレクションから選ばれるシードアイテムと関連付けられ得る。更に又は代わりに、ユーザは、シードアイテムのセットと既に関連付けられたラベルの識別子を変更し得る。
更なるステップ16は、カテゴリに割り当てられるべき非分類又は第2のコンテンツアイテムを得るステップを含む。電子装置1は、第2コンテンツアイテムを特徴とする特徴ベクトルfxを得るであろう(ステップ17)。これは、自身の所定のアルゴリズムに従って信号分析を実行することにより、特徴ベクトルfxを計算するか、又はこれが前に計算された、コンテンツアイテムとともに記憶されたメタデータに含まれる、若しくはリンクされる特徴ベクトルfxを表すデータを検索するであろう。
更なるステップ18は、パーソナライズされた分類子を構築するステップを有する。一例として曲を含むコンテンツアイテムのコレクションを使用して、パーソナライズされた分類子は、以下の情報が利用可能であると仮定して構築され得る。コレクションの各曲に対して、平均特徴ベクトルが計算される。コレクションの全ての曲の平均特徴ベクトルは、N個のベクトルf1…fNによって示される。更に、ユーザは、複数のパーソナライズされたクラス記述子を特定する(ステップ14)。パーソナライズされたクラスの各々に対して、少なくとも一つの例示的な曲が特定され(ステップ15)、対応する平均特徴ベクトルが記憶されるべきである。これらの例示的な特徴ベクトルは、Sc1…ScMcと表わされ、ここでcは、特徴ベクトルが属するクラスを示し、Mcは、クラスcで利用可能な例示的特徴ベクトルの数である。例示的な曲の特徴ベクトル及びこれらの対応するクラスラベルは、全ての例示的なアイテムのリスト及び対応するクラスラベルを含むリストを有する2つのアレイ19,20として、図2に示される。
前述のように、ユーザは、ユーザ入力を与えることによって、パーソナライズされた分類子と相互作用し得る。このユーザ入力を介して、音楽コレクションにおいて利用可能である特徴ベクトルは、分類子データブロック21へ移される。分類子データブロック21において利用可能なデータに基づいて、音楽コレクションは、パーソナライズされた分類子を使用して、自動的にラベルを付けられ得る。それから分類結果は、所望される場合にはプレイリストの形態で、音楽をユーザが再生するために利用可能にするように使用され得る。プレイリストは、曲が分類されるカテゴリにどれほど良くフィットするかを示す、各曲に対する音楽類似性の測定が利用可能であるので、本発明で非常に便利な態様で生成され得る。利用可能な類似点に基づいて、ランキングの順序は、プレイリストに加えて最も類似する曲から作られ得る。分類結果がユーザに利用可能にされるので、ユーザは、(ユーザの意見に従って)曲が誤って分類されたことを示すためにユーザ入力を提供し得る。したがって、ユーザは、データブロック21の例示的な曲のリストの更新をもたらすユーザ入力を与え得る。
音楽コレクションの曲の各々に対して、音楽類似性測定は、音楽類似性手段Gxcを使用して算出されるであろう(ステップ22)。ここで、xは、音楽コレクション内の曲を指し、従って、xは、1、…、Nの範囲にわたり、cは、(多くの例示的な曲によって表される)類似性が算出されるクラスである。
Gxcのあり得る定義は、以下の通りである。
ここでPは確率密度関数であり、Nは正規化係数であり、Dは特徴ベクトル対Sk及びfxの類似性を示す重み付き距離手段である。この手段は、以下の基本的な形態を有する。
ここでWは、重み付き行列である。この距離手段は、音楽が非常に類似している場合に小さい値をとる傾向にある。言及されるように、行列Wは、所定のデータベースに基づいて最も良く与えられるが、これは、利用可能である例示的な曲から計算されることもあり得る。
それから特定の特徴ベクトルfxの分類は、Gxcが最大となるクラスを単に探すことによって得られ(ステップ23)、所与のfxでは以下の式が成り立つ。
この態様の分類が結果として相互に排他的なカテゴリとなる、すなわち各曲が単一のカテゴリのみに属し得ることに留意されたい。代替として、時々、曲が1より多くのカテゴリに属することが好ましくなり得る。この場合において、カテゴリは、全ての曲で満たされ得、
ここでΔは、適切に選択された基準値を表す。
式1の関数Pは、音楽が例示的な曲と同様に聞こえる確率の観点から音楽の類似性を考えるために使用される。これは、音楽が非常に類似する(及びDが非常に小さい)場合、Pは大きくなり得るが、音楽が非類似である(及びDが大きい)場合、Pはゼロに近づくように規定される。ガウス確率密度関数を使用すると、Gxcに対して以下の式が得られる。
ここでσは、ガウス分布の幅を特定するパラメータである。パラメータN及びσの選択において自由度があるが、任意の特徴ベクトル対に対して観測されるDの平均値の約20%の値をσに対して使用するとうまく機能することが、経験からわかっている。これは、確率密度関数の充分な拡散が、特徴ベクトルの非類似及び類似の対の間を区別するため、特徴空間において十分な解像度を有するのに十分小さいが、例示的な曲の影響の特徴空間のかなり大きな部分に渡る広がりを確実にすることを可能にする。
更に、N=
を使用することは、非常に役立つ選択であることがわかった。これは、異なるカテゴリに対して、異なる数の例示的な曲がユーザによって供給され得るという事実に対処する。正規化が適用されない場合、これは、確率密度関数が例示的な曲の数におおよそ比例したレートで大きくなるので、多くの例示的な特徴ベクトルを有するクラスに強くバイアスされた結果になるであろう。言い換えると、ほとんど例示的な曲をもたないクラスがおそらく生じる。正規化がN=Mcである場合、非常に多くの例示的な曲を有するカテゴリが、1曲のみ例示的な曲を有するカテゴリとおおよそ等しい頻度で生じるであろう。これは、カテゴリ当たりの例示的な曲の数が、曲を有するあるカテゴリにより高密度に占める手段として全く使用され得ないので、所望されたものではない。1つのクラスに多くの例示的な曲があるという事実は、ユーザが、より多くの曲をこのカテゴリに分類したいというサインとみなされ得る。定義N=
は、上述した問題を克服する良好な態様であることがわかった。
を使用することは、非常に役立つ選択であることがわかった。これは、異なるカテゴリに対して、異なる数の例示的な曲がユーザによって供給され得るという事実に対処する。正規化が適用されない場合、これは、確率密度関数が例示的な曲の数におおよそ比例したレートで大きくなるので、多くの例示的な特徴ベクトルを有するクラスに強くバイアスされた結果になるであろう。言い換えると、ほとんど例示的な曲をもたないクラスがおそらく生じる。正規化がN=Mcである場合、非常に多くの例示的な曲を有するカテゴリが、1曲のみ例示的な曲を有するカテゴリとおおよそ等しい頻度で生じるであろう。これは、カテゴリ当たりの例示的な曲の数が、曲を有するあるカテゴリにより高密度に占める手段として全く使用され得ないので、所望されたものではない。1つのクラスに多くの例示的な曲があるという事実は、ユーザが、より多くの曲をこのカテゴリに分類したいというサインとみなされ得る。定義N=
は、上述した問題を克服する良好な態様であることがわかった。
パラメータσを利用可能である例示的な曲の数に依存する変数にすることは、価値あることである。基本的な考えは、非常に少ない例示的な曲しか存在しない限り、パラメータσは、特徴空間を満たすのに十分大きく、クラス間の違いが依然として解像され得るのに十分小さく選択されるべきであるということである。比較的大きいσを選択することによって、同じクラスに対する異なる例示的な曲の確率関数は、大きく重複する傾向あるであろう。したがって、暗に、単に限られた量のデータから、このようなクラスタの存在について必要な情報が得られないので、特徴空間において異なる(重ならない)クラスタにクラスが存在しないと仮定される。
ますます多くの例示的な曲が各クラスに利用可能である場合、1つのクラス内の特徴ベクトルのクラスタを区別するのに十分な情報で開始する。原則として、クラスタがある場合、σは、通常クラスタ内で観測される距離と同等の大きさであるべきである。クラスタ内の典型的な距離の推定をするため、1つのクラス内の特徴ベクトル対の間で観測される
の最小距離が、σの値を推定するように使用される。
の最小距離が、σの値を推定するように使用される。
σを導出する2つの態様、すなわち、ほとんど例示的な曲がない場合及び多くの例示的な曲がある場合の態様は、重み付けが例示的な曲の数に依存する両方の態様に従って導かれるσの間の重み付けの総和を取ることによって組み合され得る。
分類されるべきコンテンツアイテムを最も類似するカテゴリに割り当てるステップ23は、コンテンツアイテムにリンクされるか、又は含まれるメタデータとして、このカテゴリを示すラベルを表すデータを記憶するステップを含む。更に、カテゴリを規定するシードアイテムに対する、類似性手段Gxcの計算値を表すデータは、同様に記憶され得る。代わりに又は更に、重み付き距離D(Sk,fx)が、記憶され得る。したがって、分類されたコンテンツアイテムがどのくらいよくカテゴリに適合するかを示す類似性測定が、利用可能である。利用可能な類似性に基づいて、特定のカテゴリ内のコンテンツアイテムに目標が定められる検索クエリに応答して、ランキング順位付けがなされ得る。このような検索クエリの例は、プレイリストを決定する命令である。
分類されるコンテンツアイテムが、ユーザ定義カテゴリのいずれかにもうまく適合しないことは起こり得る。図2において図示されるように、コンテンツアイテムは、最も類似するカテゴリに対する類似性の値Gxcが所定の範囲内にあり、第1閾値T1よりも上にある場合、最も類似するカテゴリのみに割り当てられる(距離測定とは対照的に、類似性測定は、より高い値がより高い度合いの類似性を示すように規定される)。最も類似したカテゴリに対する類似性の値Gxcが第1閾値T1よりも下にある場合、コンテンツアイテムは、いかなるカテゴリにも割り当てられない。
逆にいえば、ユーザ定義のカテゴリが完全に排他的でないこと、又はこれらが特徴空間において比較的近くに一緒にあることが、起こり得る。図2において図示されるように、コンテンツアイテムは、最も類似するカテゴリを表すラベル以外の少なくとも1つの他のラベルと関連付けられる(ステップ24)。第2コンテンツアイテムを特徴とする特徴ベクトルfxと、他のラベルのカテゴリを特徴とする特徴ベクトルSc2との間の類似性測定が、所定の範囲内にあり、第2閾値T2よりも上にある場合のみ、これは実行される。
特徴重み付き行列Wを得る第1の方法は、ここで図3を参照して説明されるであろう。第1ステップ25において、特徴ベクトルfxの訓練セットが、得られる。各特徴ベクトルfxは、コンテンツアイテムの訓練データベースのうちの1つを特徴づけ、電子装置1において使用される特徴ベクトルを得るために使用されるのと同じ分析を実行することによって入手可能である。更に、各特徴ベクトルfxは、カテゴリを表す複数のサブセットのうちの少なくとも1つに含まれる。これらのカテゴリが、図2に図示される方法のステップ14,15において規定されるものと通常同じでないことに注意されたい。しかしながら、良好な分類結果にするため、これらは、同じ特性に基づくべきである。すなわち、これらは、重み付き行列Wの最終的な目的が、ユーザ定義のジャンルに従って電子装置内のコレクションを分類することである場合、ジャンルに基づくべきである。同様に、サブセットに対する訓練セットの特徴ベクトルfxの割り当ては、最終的な目的が電子装置1における自動化された形態のアーティスト認識を実行することである場合、アーティストに基づくべきである。訓練セットを生成するために使用されるコンテンツアイテムのアーティストが、電子装置1のユーザが彼によって定義されるラベルと関連付けるシードコンテンツアイテムのものと同様でなくてもよいこと、明白であるべきである。図3の方法の目的は、単に、特定の特性(例えばアーティスト又はジャンル)に従う分類を供給することに特に適応される重み付けを有する重み付き行列Wを生成することである。
クラスcに対応する各サブセットに対して、平均特徴ベクトルμcが計算される(ステップ26)。更に、クラス内の分散σ2 μcが計算される(ステップ27)。上記方法は、特徴空間を規定する全ての特徴ベクトルfx渡って分散σ2 fを計算するステップ(ステップ28)を含む。特徴重み付き行列Wは、これを使用して計算される重み付き距離が、異なる特徴ベクトル座標の間の共分散に依存するような値でも占められる。言い換えると、特徴重み付き行列Wは、非対角行列である。この目的のため、共分散行列Cは、訓練セットの全ての特徴ベクトルfxに対して計算される(ステップ29)。代わりに、この行列Cは、訓練セットの代表的な無作為標本に基づくことがありえる。そして、計算負荷を減らす。
特徴重み付き行列Wは、以下の式に従って算出される(ステップ30)。
ここで
は、全ての特徴空間に渡る分散σ2 μcを表すベクトルによって、クラス内の分散σ2 μcの平均を表し、二乗根を取るベクトルの要素毎の分割によって得られる(ステップ31)重み付けベクトルである。
は、全ての特徴空間に渡る分散σ2 μcを表すベクトルによって、クラス内の分散σ2 μcの平均を表し、二乗根を取るベクトルの要素毎の分割によって得られる(ステップ31)重み付けベクトルである。
この態様で得られる重み付き行列Wは、ある特徴ベクトル座標がカテゴリ構成要素の良好な予測手段である場合、良好な分類子である。これは、カテゴリを表すサブセットが一次元の特徴空間に分散される状況に対応するであろう。図3の方法は、サブセットが様々な次元にどのくらい「散開しているか」を考慮する。
図4及び5は、図6に図示される異なる方法が、より適当な重み付き行列を生成するサブセットに特徴ベクトルを割り当てることを図示する。
図4において、4つのカテゴリが表される。塗り潰した点は、サブセットの平均特徴ベクトルを示し、円形形状は、異なるクラスの等確率輪郭を表す。実際には、これらは、サブセットの境界を示す。図からわかるように、カテゴリ手段は、おおよそ45度の線に沿って散乱する。カテゴリ間の差異に対する個々の特徴の寄与は等しい。従って、図3において説明される方法は、特徴1及び2を等しく重み付けするであろう。しかしながら、矢印によって示される方向の異なる特徴ベクトルが、矢印に垂直な方向の異なる特徴ベクトルとは異なるサブセットに属しそうであることは、明らかである。このため、図6の方法を用いて得られた特徴重み付き行列Wは、サブセット当たりの異なる特徴座標対の平均値間の共分散の関数である値で占められる。
図5において、4つのカテゴリが再び表される。しかしながら、今回、サブセットの範囲内の特徴ベクトルは、特徴空間を通じて均等に分散されない。特定のサブセット内の分散は、矢印に対して垂直な方向よりも矢印の方向に大きくなっている。矢印の方向において互いに関して異なる特徴ベクトルが、矢印に垂直な方向に異なる特徴ベクトルよりも、異なるカテゴリに対応する異なるサブセットにあることはそれほど確かではない。このため、図6の方法を用いて得られた特徴重み付き行列Wは、サブセット内の異なる特徴ベクトルの対の間の共分散の関数である値によって占められ、サブセットを通じて平均化される。
図6に図示されるステップを説明する前に、理論的な背景を説明することが役立つ。
N個のコンテンツアイテムを特徴とするN個の特徴ベクトルfxの訓練セットが利用可能であると仮定される。説明を簡単にするため、全ての特徴ベクトルfxの平均がゼロベクトルに等しくなるように、特徴ベクトルfxが規定されることが更に仮定される。これは、適切なベクトルを差し引くことによって常に達成され得る。特徴ベクトルfxがK個の成分を有することも仮定する。
特徴ベクトルfxは、M個のラベル付けされたカテゴリを表すサブセットに割り当てられる。以下、c(fx)は、特徴ベクトルxのカテゴリを示す。平均特徴ベクトルμCxは、各サブセットに対して得られ得る。
以下の説明を単純化するため、零カテゴリ平均特徴ベクトルaxを以下のように規定する。
ここで、μc(fx)は、fxと関連付けられるカテゴリに対する平均特徴ベクトルを示す。零カテゴリ平均特徴ベクトルaxは、特徴ベクトルaxの各成分に対するカテゴリ内の(共)分散が等しいことを確認するのを支援するであろう。全カテゴリは、ゼロベクトルに等しい平均特徴ベクトルαcと関連付けられる。
K×N行列Aは、全N個の零カテゴリ平均特徴ベクトルaxで満たされ得る。行列Aを有し、全ての特徴ベクトルax(x=1、…、N)のセットが零平均値を有するということを知ると、零カテゴリ平均特徴ベクトルaxのカテゴリ内の共分散行列Cは、以下のように計算され得る。
カテゴリ内の共分散行列Cは、対称であり、従って、以下の特異値分解は、Cからなり得る。
ここでQは、Cの固有ベクトルを含むユニタリ行列であり、Sは、Cのそれぞれの固有値を含む対角行列である。式8及び式9から、式10が導かれる。
ここで
であり、
である。
であり、
である。
ここからわかるように、行列Bは、単位行列に等しい共分散行列を有する。従って、行列Bにおいて変換された特徴ベクトル
は、零共分散及び単一分散を有する。
ax→bxの変換は、零カテゴリ平均特徴ベクトルaxを白色化された特徴空間に変換し、ここで各クラスがほぼ同様の共分散行列を生成すると仮定すると、1つのカテゴリに属する特徴ベクトルは、零共分散及び単一分散を有する。
は、零共分散及び単一分散を有する。
ax→bxの変換は、零カテゴリ平均特徴ベクトルaxを白色化された特徴空間に変換し、ここで各クラスがほぼ同様の共分散行列を生成すると仮定すると、1つのカテゴリに属する特徴ベクトルは、零共分散及び単一分散を有する。
この変換の適用及びこれに基づく重み付き行列Wの導出は、結果として、重み付き距離測定がカテゴリ内の(共)分散を考慮する効果を有する。したがって、測定は、平均ベクトルμが特徴空間において分散される方向に関わらず、図5に図示される楕円形に形成された特徴ベクトル分布に対して良好な結果を生む。
これとは独立して、特徴重み付き行列を占める値は、サブセット毎の異なる特徴ベクトル座標対の平均値間の共分散の関数(「カテゴリ全体」の共分散)でもある。これは、以下の理論的な背景の説明から明らかになるであろう。
この考えは、特徴ベクトルgxとgyの間の差(difference)行列Tを構成すること、及び異なるカテゴリに属する特徴ベクトルの対と、同じクラスに属する特徴ベクトルの対との間の期待値の差に基づく差行列に対して正規化を適用することである。差行列Tは、以下のように書かれ得る。
異なるカテゴリに属する特徴ベクトルの対の期待値は、以下のような要素毎の表記法を使用する。
ここで、Lは、第1及び第2要素の総数の和であり、異なるカテゴリに属する特徴ベクトルの対の数に等しい。式14は、以下のように書き改められ得る。
以下の第1近似が適用される。
2つの項のうちの2項目は、式14の外積を包含し、これは、ほぼ同じ平均値を有すると仮定される。この仮定は、同じカテゴリに属する対があるよりも多くの異なるカテゴリに属する対の特徴ベクトルがある訓練セットにあてはまる。実際に、特徴ベクトルは、訓練セットの全てのベクトルに渡る零平均値を有するように規定されるので、最後の項は、ほぼ0である。(axは、このようにして規定され、白色化された特徴空間に対する変換は、この特性を変化させない。)特定のカテゴリに属するこれら以外の全ての特徴ベクトルに渡る平均も、同様にほぼ0である。これから、異なるカテゴリに属する特徴ベクトルの対に対する差行列の期待値は、以下のようになる。
カテゴリ当たりの特徴ベクトルの数が、概略的に各カテゴリと同じであること、及び特徴要素の共分散が、カテゴリに依存しないことを仮定する場合、式21を以下のように書き直すことが可能である。
その結果、最終的な表現は次のようになる。
この式は、2つの特徴ベクトルgk及びglが同じか、又は異なるカテゴリに属するかを決定する基準を規定するために使用される。基準は、最適検出理論から得られる。信号Y[n]を、検出される信号XS[n]及び確率的雑音信号XN[n]の総和として書くことができる。雑音信号が一定の分散である、nの各値に対してゼロに等しい平均を有する白色ガウス分散信号である場合、最適検出器は、信号XS[n]に等しい整合フィルタを使用して得られる。これを未解決の問題に適用すると雑音信号は、以下の通りである
ここでnは、i及びjの全ての組合せを列挙し、XN[n]は、式25の最後の項の減算により、ゼロ平均を有すると仮定される。検出される信号は、以下の通りである。
したがって、フィルタの式は以下のようになる。
これは、以下のように書かれ得る。
Ω(i,j)=ωj(i)、すなわちj番目の変換された特徴ベクトルのi番目の要素(j=1……N、i=1……K)である行列Ωを規定することは、便利である。この定義を使用することによって、重み付き距離測定は、(白色化された特徴空間において)次式のようになる。
特徴重み付き行列Wを算出する方法の実施例は、結果として、元の特徴ベクトルfxに適用される特徴重み付き行列となる。ω及びgの定義を用いることにより、式32を以下のように書き直すことができる。
したがって、式2の重み付き行列Wは、次式のようになる。
ここで
Uは、全てのカテゴリの平均特徴ベクトルからなる行列であり、U(i,j)=mj(i)、j番目のカテゴリの平均特徴ベクトルのi番目の要素として規定される。
図6は、特徴ベクトルfxの所与の訓練セットに基づいて重み付き行列Wの実際の計算がどのように実行され得るかを図示する。第1ステップ32において、分類された特徴ベクトルの訓練セットが、得られる。カテゴリに対応する特徴ベクトルの各サブセットに対して、平均特徴ベクトルμcが算出される(ステップ33)。続いて、特徴ベクトルfxは、ゼロカテゴリ平均特徴ベクトルaxを得るため、式7に従って変換される(ステップ34)。これらのステップ33,34は、各カテゴリに対して繰り返される。
カテゴリ内の共分散行列Cは、式8に従って計算される(ステップ35)。行列Q、Sは、特異値分解のアルゴリズムを適用することによって、式9に従って計算される(ステップ36)。このようなアルゴリズムは、それ自体が知られており、ここで詳細に記載されない。
並行して又は連続的に、全平均特徴ベクトルの行列Uが形成される(ステップ37)。それから特徴重み付き行列は、式34及び35に従って決定される(ステップ38)。例えば特徴重み付き行列Wは、その製造において電子装置1のメモリにロードされ得る。
上記の件について、電子装置1の例は、大容量記憶装置2に記憶されるパーソナルコレクションを分類するために適用されるコンテンツアイテムを組織する方法を用いて使用されている。上記方法の全ての他の使用は、音、例えば音声の源の決定にある。このような実施例では、図3及び6の方法のうちの1つが、異なる音源からの音声録音を特徴とする特徴ベクトルの訓練セットに適用される。同じ音源からの音の抜粋を特徴とする特徴ベクトルは、サブセットにグループ化される。したがって、カテゴリは、音源に対応する。いずれの方法の適用の結果となる重み付き行列Wは、異なる音源(例えば異なるスピーカ)の間の区別をすることに最適化されるであろう。
図7は、音声認識ソフトウェアを備えるコンピュータ39を概略的に図示する。コンピュータ39は、データ処理ユニット40及びメインメモリ41を含む。ソフトウェアは、命令がインタフェース43を介してメインメモリ41にロードされるディスク駆動装置42に供給される。チップセット44は、入力装置46、例えばキーボードに対するインタフェース45、出力装置48、例えば視覚的なディスプレイに対するインタフェース47、及びサウンドカード49に対してインタフェースを形成する。サウンドカード49は、音声抜粋を取り込むためのマイク50の入力部を有する。
コンピュータ39上にインストールされる音声認識ソフトウェアは、特徴重み付き行列Wを表すデータを検索する。ソフトウェアは、ユーザ入力に応答して、第1及び少なくとも一つの更なる源の各々から少なくとも一つのサンプル音声抜粋を得、これらの抜粋を特徴とする特徴ベクトルにラベルを関連付けるようにも動作する。ラベルは、音声抜粋が得られた音源を表す。実施に依存して、ユーザは、入力装置46を介して、ユーザ入力によってラベルを規定することを可能にされ得る。このように、コンピュータ39は、ラベルと関連付けられる音源のいずれか一つからの音声を認識するように設定される。
次の段階において、未知の音源からの音声抜粋が取りこまれ、これを特徴とする特徴ベクトルが決定される。図2に表されたものと適合する方法を用いることにより、最も見込みのある源は、第1及び更なるラベルの各々に対して、未知の源からの音声抜粋を特徴とする特徴ベクトルと、ラベルと関連付けられる音声抜粋を特徴とする特徴ベクトル、又は特定の音声に対して利用可能になり得る1より多くの特徴ベクトルとの間の類似性測定を計算することによって決定される。類似性測定は、特徴重み付き行列に基づいて重み付き距離測定を使用して算出される。コンピュータ39は、他のラベルのいずれかに関連付けられる音声抜粋に対してよりも、ラベルの特定の一つに関連付けられる音声抜粋と類似していると決定することによって、新たな音声抜粋の音源を決定する。ラベルのこの特定の一つを参照する適切な出力は、出力装置48に供給される。
図2に図示される実施例のように、音声認識ソフトウェアは、最も類似した音源に対する類似性の値Gxcが、第1閾値T1より低い、所定の範囲内にある場合のみ、未知の音源からの音声抜粋を最も類似した既知の音源に割り当てるように構成され得る。(より高い値が、より高い非類似性の程度を示すことに留意されたい。)最も類似したカテゴリに対する非類似性の値Gxcが、第1閾値T1より上にある場合、コンピュータ39は、新たな音声抜粋がおそらく以前から知られる音源のうちの1つではないことをユーザに知らせるであろう。
比較的大きな訓練セットが使用される、最適特徴重み付き行列を導出する段階と、展開する際にラベルと関連付けられるサンプルアイテムを提供する段階との間を区別することは、音声認識に適用される場合に、コンテンツアイテムのパーソナルコレクションの分類に適用される場合と同じ効果を有する。少ない数のサンプルコンテンツアイテムは、良好な分類結果を得る展開には充分である。品質は、適用される重み付き距離測定の最適な重み付けを使用することによって保証される。
上で記載される実施例が本発明を制限するのではなく説明する点に留意されるべきであり、当業者は、添付の請求の範囲の要旨を逸脱することなく、多くの代替の実施例を設計することができるであろう。請求項において、括弧内に位置されるいかなる参照符号も、請求項を制限するとして解釈されるべきではない。「有する」という動詞、及びこの活用形の使用は、請求項において述べられた以外の要素又はステップの存在を排除しない。要素に対する単数形の表記は、複数のこのような要素の存在を除外しない。本発明は、いくつかの異なる要素から成るハードウェア、及び最適にプログラムされたコンピュータによって実施され得る。いくつかの手段を列挙する装置の請求項において、これらの手段のいくつかは、ハードウェアの同一のアイテムによって実施され得る。ある手段が、相互に異なる従属請求項において詳述されるという単なる事実は、これらの手段の組合せが有効に使用され得ないことを示さない。
「手段」は、当業者にとって明らかであるように、単一又は他の機能と組み合わせて、単体又は他の要素と協働して、動作を実行するか、又は特定の機能を実行するように設計される、いかなるハードウェア(例えば分離又は一体化された回路又は電子素子)、ソフトウェア(例えばプログラム又はプログラムの部分)も含むことを意図される。「コンピュータプログラム」は、コンピュータ可読媒体、例えば光ディスクに記憶されるか、ネットワーク例えばインターネットを介してダウンロード可能であるか、又はいずれかの他の態様で売買可能ないかなるソフトウェアも意味するように理解されるべきである。
コンテンツアイテムの比較的小さいコーパスの従来の分類に基づいて、コンテンツアイテムの分類を実行するのに適した方法、装置及びコンピュータプログラムが、ここに記載されている。
コンテンツアイテムを組織する方法は、
第1及び少なくとも一つの更なるラベルの各々を、少なくとも一つの第1コンテンツアイテムのそれぞれのセットと関連付ける情報を得るステップであって、少なくとも1つの第1コンテンツがユーザ入力に応答して第1ラベルと関連付けられるステップと、
第2コンテンツアイテムを得るステップと、
第1及び更なるラベルの各々に対して、第2コンテンツアイテムを特徴とする特徴ベクトルと、ラベルと関連付けられる第1コンテンツアイテムを特徴とする少なくとも一つの特徴ベクトルとの間の類似性測定を計算するステップと、
第2コンテンツアイテムが、類似性測定の計算値に従って第1ラベルと関連付けられる第1コンテンツアイテムに類似すると決定すると、
第1ラベルを第2コンテンツアイテムに関連付けるステップと
を含み、類似性測定は、特徴ベクトルの座標間の区別をする重み付き距離測定を使用して計算される。特徴として、重み付き距離測定は、重み付き距離測定が適用される第1及び更なるラベルと関連付けられる第1コンテンツアイテムを特徴とする特徴ベクトルに渡って変化しない重み付けに基づく。
第1及び少なくとも一つの更なるラベルの各々を、少なくとも一つの第1コンテンツアイテムのそれぞれのセットと関連付ける情報を得るステップであって、少なくとも1つの第1コンテンツがユーザ入力に応答して第1ラベルと関連付けられるステップと、
第2コンテンツアイテムを得るステップと、
第1及び更なるラベルの各々に対して、第2コンテンツアイテムを特徴とする特徴ベクトルと、ラベルと関連付けられる第1コンテンツアイテムを特徴とする少なくとも一つの特徴ベクトルとの間の類似性測定を計算するステップと、
第2コンテンツアイテムが、類似性測定の計算値に従って第1ラベルと関連付けられる第1コンテンツアイテムに類似すると決定すると、
第1ラベルを第2コンテンツアイテムに関連付けるステップと
を含み、類似性測定は、特徴ベクトルの座標間の区別をする重み付き距離測定を使用して計算される。特徴として、重み付き距離測定は、重み付き距離測定が適用される第1及び更なるラベルと関連付けられる第1コンテンツアイテムを特徴とする特徴ベクトルに渡って変化しない重み付けに基づく。
第2コンテンツアイテムを特徴とする特徴ベクトルと、ラベルと関連付けられるコンテンツアイテムを特徴とする少なくとも一つの特徴ベクトルとの間の類似性測定が、第1及び更なるラベルの各々に対して計算されるので、全ての候補カテゴリが評価されるという点で、真の分類が達成される。第2コンテンツアイテムが第1ラベルと関連付けられる第1コンテンツアイテムに類似することを決定すると、第1ラベルは、第2コンテンツアイテムと関連付けられるので、分類は、コンテンツアイテムの少ないサンプル又は単に1つのみに基づいて、比較的簡潔な方法で達成される。これらの第1コンテンツアイテムは、カテゴリ又はクラスを規定し、以下「シードアイテム」と称される。特にこの方法は、新たなコンテンツアイテムの分類のための特徴空間を特徴付ける統計的な関数を必要としない。類似性測定の値が、特徴ベクトルの座標の間を区別する重み付け類似性測定を使用して計算されるので、より良好な分類結果は得られ得る。特に、この方法は、実施される分類のタイプに適切な重み付けの値を使用するため、試験者によって分類されるコンテンツアイテムのより大きいコーパスに基づいて類似性測定を「訓練する」可能性を提供する。例えば、重み付けは、音楽のジャンルの間で識別するように調整される類似性測定を提供するために選択され得る。重み付き距離測定は、第1コンテンツアイテムを特徴とする特徴ベクトルとは独立した重み付けに基づくので、「訓練」段階は、特定の目的、すなわち音声認識、ジャンル分類、ムード分類、アーティスト分類等に対して調整される分類子を提供するため、「オフライン」すなわちコンテンツアイテムの別個の非常に大きな汎用コレクションに基づいて実行され得る。第1及び少なくとも1つの更なるラベルを、少なくとも一つの第1コンテンツアイテムのそれぞれのセットと関連付けることは、パーソナライズされたジャンル定義、ムード定義、アーティスト定義等を可能にし、これは、重み付き距離測定に含まれる重み付けを得るために使用されるクラス定義とは独立である。したがって、この方法は、使用するのが容易且つ正確である重み付き距離測定が、クラスよりも分類のタイプに依存すべきことの実現を例示する。クラスから独立した重み付き距離測定は、先験的に知られていないユーザ定義のクラスと連動して実施するのが簡潔である。このような測定は、いくつかのユーザ入力に基づく重み付けの調整を必要としない。
この実施例は、米国特許US5918223から知られる方法の他の問題の解決し、これは、ユーザが訓練したい特定の特性を特徴とするサンプルの比較的大きな選択に基づく場合、これのみが良好な結果を生成する。結果として、これは、特定の聴取者にパーソナライズされる、小さいセットのサンプルに供給されるカテゴリ定義に基づく分類を実行することにあまり適していない。距離計算のクラスに依存する重み付けは、使用するのを簡潔にし、正確な結果を与える態様で、消費者向け装置において実施するのがほぼ不可能である。
本発明によりコンテンツアイテムを組織する方法に使用する特徴重み付き行列を提供する方法が、ここでも記載され、この方法は、
各々が、複数のサブセットのうちの少なくとも1つに含まれ、複数のコンテンツアイテムのうちの1つを特徴とする、特徴ベクトルの訓練セットを得るステップと、
共通のサブセットに含まれる特徴ベクトルの対が、共通の要素をもたないサブセットに含まれる特徴ベクトルの対に対して、大きな重み付き距離を有するように最適化された値で、重み付き行列を占有するステップと
を含む。
各々が、複数のサブセットのうちの少なくとも1つに含まれ、複数のコンテンツアイテムのうちの1つを特徴とする、特徴ベクトルの訓練セットを得るステップと、
共通のサブセットに含まれる特徴ベクトルの対が、共通の要素をもたないサブセットに含まれる特徴ベクトルの対に対して、大きな重み付き距離を有するように最適化された値で、重み付き行列を占有するステップと
を含む。
一実施例において、重み付き行列は、訓練セットに含まれる全特徴ベクトルに渡る特徴ベクトル座標の値の分散、及びサブセット毎の特徴ベクトル座標の平均値の分散のうちの少なくとも1つの関数である少なくとも1つの係数によって、特徴ベクトル座標が重み付けされるような値で占められる。
効果は、コンテンツアイテムのカテゴリの間の区別をすることにとって重要である特徴空間の大きさが、より大きな重み付けを与えられることである。
一実施例において、重み付き行列は、特徴ベクトル座標が、訓練セットに含まれる全ての特徴ベクトルに渡る特徴ベクトル座標の値の分散によって割られるサブセット当たりの特徴ベクトル座標の平均値の分散の関数である少なくとも一つの係数によって重みづけられるような値で占有される。
効果は、全ての訓練セットに渡る変化と比較して、サブセット間の値が非常に変化するという特徴は、より重く重み付けられることである。
一実施例において、重み付き行列は、重み付き距離が異なる特徴ベクトル座標の間の共分散に依存するような値で占められる。
効果は、常に協調した態様であるが、2つの特徴が比較的大きく変化する場合、これらの特徴に割り当てられる重み付けは、サブセット構成要素を予測するこれらの適合性と関連してそれほど小さくない。
一変形例において、重み付き行列は、サブセット当たりの一対の異なる特徴ベクトル座標の平均値間の共分散の関数である値で占められる。
効果は、特徴ベクトル座標のある組合せが、サブセット構成要素の良好な予測手段であるとき、より正確な類似性測定が提供されるのを可能にすることである。
一変形例において、重み付き行列は、サブセットの各々の中の異なる特徴ベクトル座標の対の間の共分散の関数である値で占められる。
効果は、いくつかの平均値のまわりに均等に分散されない特徴ベクトルによって規定されるサブセットを考慮することである。分布が特定の方向に歪曲されるとき、重み付き行列が、この方向に沿う大きな変化が予想されるという知識を含むので、特徴重み付き行列に基づく距離測定が、カテゴリを規定する特徴ベクトルに対して、特徴ベクトルの距離を測定するために適用される場合、この方向に沿う距離は、重くないように重み付けられる。
この方法の一実施例は、重み付き行列を表すデータを消費者向け電子機器に含まれるメモリにロードするステップを含む。
この実施例は、重み付き行列が、消費者向け電子機器による再生に利用可能なコンテンツアイテムの存在よりも大きな訓練セットに基づき得るという点で、基本的な発明がよく適合する一実施例を表す。したがって、比較的正確な分類子は、小さなコンテンツアイテムのコレクションに基づいて、消費者向け電子機器のユーザによるパーソナルクラス定義と連動して使用され得る。
上記の他の態様は、本発明による方法に使用に関し、ここで類似性の測定は、特徴ベクトルの座標間の重み付き距離測定の違いを使用して、音源を認識するシステムにおいて、重み付き距離測定が適用される第1及び更なるラベルと関連付けられる第1コンテンツアイテムを特徴とする特徴ベクトルに渡って変化しない重み付けに基づいて計算される。
音源を認識するシステムは、話者の声を記録することに基づいて話者を識別する音声認識システムを含み得る。
本発明によって可能にされる分類は、少ないサンプル又は単一のコンテンツアイテムに基づく比較的簡潔な態様で達成されるので、特定の音源からの小さな音声サンプルのみが利用可能であり得る音声認識システムに非常に適している。この方法は、これらのそれぞれの音源に割り当てられる音の大きいなコーパスに基づいて類似性測定を「訓練する」可能性を提供するので、異なる音源の間で区別するのに特に適した重み付けの値が使用され得る。
Claims (19)
- 第1ラベル及び少なくとも一つの更なるラベルの各々を、複数の第1コンテンツアイテムのそれぞれのセットと関連付ける情報を得るステップであって、少なくとも一つの第1コンテンツアイテムが、ユーザ入力に応答して前記第1ラベルと関連付けられるステップと、
第2コンテンツアイテムを得るステップと、
前記第1ラベル及び更なるラベルの各々に対して、前記第2コンテンツアイテムを特徴とする特徴ベクトルと、前記ラベルと関連付けられる第1コンテンツアイテムを特徴とする特徴ベクトルの各々との間の類似性測定を計算するステップと、
前記類似性測定の計算値にしたがって、前記第2コンテンツアイテムが前記第1ラベルと関連付けられる前記第1コンテンツアイテムと類似することを決定すると、前記第1ラベルを前記第2コンテンツアイテムと関連付けるステップと
を含む、コンテンツアイテムを組織する方法。 - ユーザは、前記ユーザ入力によって前記第1ラベルを規定することを可能にされる、請求項1に記載の方法。
- 前記第1ラベルを前記第2コンテンツアイテムにリンクする情報を記憶することによって、前記第1ラベルが前記第2コンテンツアイテムと関連付けられる、請求項1又は2に記載の方法。
- 前記ユーザ入力によって、ユーザが少なくとも一つの第1コンテンツアイテムを前記第1ラベルと関連付けることを可能にするステップを更に含む、請求項1、2又は3に記載の方法。
- 前記第2コンテンツアイテムが、前記更なるラベルと関連付けられる前記第1コンテンツアイテムに対してよりも、前記第1ラベルと関連付けられる前記第1コンテンツアイテムに類似することを決定すると、前記第1ラベルは、前記第2コンテンツアイテムと関連付けられる、請求項1乃至4のいずれか一項に記載の方法。
- 再生装置において再生されるときに認知可能である信号の特性を表すパラメータ値を決定するため、前記特徴ベクトルによって特徴付けられるコンテンツアイテムに含まれる信号の所定の信号分析を実行することによって、各特徴ベクトルの少なくとも一つの座標が入手可能である、請求項1乃至5のいずれか一項に記載の方法。
- 前記第2コンテンツアイテムを特徴とする特徴ベクトルと、前記第1ラベルと関連付けられるコンテンツアイテムを特徴とする特徴ベクトルとの間の類似性測定の値に基づいて、少なくとも一つの値を表す前記第2コンテンツアイテムデータと関連付けるステップを更に含む、請求項1乃至6のいずれか一項に記載の方法。
- 前記第2コンテンツアイテムを特徴とする前記特徴ベクトルと、前記第1ラベルと関連付けられるコンテンツアイテムを特徴とする前記特徴ベクトルとの間の前記類似性測定の値に基づく少なくとも一つの値が、所定の範囲内にあることを決定したときのみ、前記第1ラベルが前記第2コンテンツアイテムと関連付けられる、請求項1乃至7のいずれか一項に記載の方法。
- 前記類似性測定が、
前記重み付き距離測定にしたがって、特徴ベクトルの間の重み付き距離を計算するステップ、及び
前記計算された重み付き距離に確率分布に基づく関数を適用するステップ
によって計算される、請求項1乃至8のいずれか一項に記載の方法。 - 確率分布に基づく前記関数が、前記第1ラベル及び更なるラベルと関連付けられる第1コンテンツアイテムの前記セットに渡ってパラメータ化される、請求項9に記載の方法。
- 前記第2コンテンツアイテムを特徴とする特徴ベクトルと、ラベルと関連付けられるコンテンツアイテムを特徴とするいずれかの特徴ベクトルとの間の類似性測定が、前記ラベルと関連付けられる前記セットに含まれる第1コンテンツアイテムの数Mcに依存する係数によって正規化される、請求項9又は10に記載の方法。
- 前記類似性測定は、前記ラベルと関連付けられる前記セットに含まれる第1コンテンツアイテムの数Mcに反比例する係数によって正規化され、0乃至1の範囲内の値を有する冪指数で累乗される、請求項11に記載の方法。
- 確率分布に基づく前記関数は、確率分布の幅を特定する可変パラメータを含み、該可変パラメータは、第1コンテンツアイテムと、前記第1ラベル又は更なるラベルとの間の関連性の総数に応じて値を割り当てられる、請求項9乃至12のいずれか一項に記載の方法。
- 前記第1ラベル及び更なるラベルのうちの特定の一つに対して、前記可変パラメータは、前記ラベルと関連付けられる第1コンテンツアイテムの前記セットの特徴ベクトルの対の間の前記重み付き距離測定に従って、複数の最小距離の値の関数である値を割り当てられる、請求項13に記載の方法。
- 前記可変パラメータが、第1ラベル又は更なるラベルと関連付けられる第1コンテンツアイテムを特徴とする全ての特徴ベクトルの任意の対の間の前記重み付き距離手段に従う平均距離の関数である、請求項13又は14に記載の方法。
- 各々が複数のコンテンツアイテムのうちの1つを特徴とする特徴ベクトルの訓練セットを得るステップであって、前記特徴ベクトルの各々が、複数のサブセットのうちの少なくとも1つに含まれるステップと、
共通のサブセットに含まれる特徴ベクトルの対が、共通の要素をもたないサブセットに含まれる特徴ベクトルの対に関連して大きな重み付き距離を有するように最適化された値で、重み付き行列を占有させるステップと
により入手可能な特徴ベクトル行列に基づいて、特徴ベクトルの座標間の区別をする重み付き距離測定を使用して類似性測定を計算するステップを含む、請求項1乃至15のいずれか一項に記載の方法。 - ユーザ入力に応答して少なくとも1つの第1コンテンツアイテムを第1ラベルと関連付け、少なくとも1つの更なるラベルの各々を複数の第1コンテンツアイテムのそれぞれのセットと関連付ける情報を入手し、
第2コンテンツアイテムを入手し、
前記第1ラベル及び更なるラベルの各々に対して、前記第2コンテンツアイテムを特徴とする特徴ベクトルと、前記ラベルと関連付けられる第1コンテンツアイテムを特徴とする前記特徴ベクトルの各々との間に類似性測定を計算し、
前記類似性測定の計算値にしたがって、前記第2コンテンツアイテムが前記第1ラベルと関連付けられる前記第1コンテンツアイテムに類似することを決定すると、前記第1ラベルを前記第2コンテンツアイテムに関連付ける
ように動作する電子回路を含む、コンテンツアイテムを組織する装置。 - 請求項1乃至16のいずれか一項に記載の方法を実行するように構成される、請求項17に記載の装置。
- 機械読み取り可読媒体に入れられるとき、情報処理能力を有するシステムに、請求項1乃至16のいずれか一項による方法を実行させることが可能な命令のセットを含むコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP07107289 | 2007-05-01 | ||
PCT/IB2008/051585 WO2008132673A2 (en) | 2007-05-01 | 2008-04-24 | Method of organising content items |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010527055A true JP2010527055A (ja) | 2010-08-05 |
Family
ID=39808927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010504953A Pending JP2010527055A (ja) | 2007-05-01 | 2008-04-24 | コンテンツアイテムを組織する方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8140542B2 (ja) |
EP (1) | EP2145269A2 (ja) |
JP (1) | JP2010527055A (ja) |
KR (1) | KR20100022027A (ja) |
CN (1) | CN101675431A (ja) |
WO (1) | WO2008132673A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011141406A (ja) * | 2010-01-06 | 2011-07-21 | Ixicom Ltd | 類似楽曲表示システム |
JP2022020465A (ja) * | 2020-07-20 | 2022-02-01 | 日本電信電話株式会社 | 特徴変換装置、距離測定装置、照合システム、特徴変換方法、及びコンピュータプログラム |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100082663A1 (en) * | 2008-09-25 | 2010-04-01 | Cortes Ricardo D | Method and System for Identifying Equivalent Digital Media Assets |
US8996538B1 (en) | 2009-05-06 | 2015-03-31 | Gracenote, Inc. | Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects |
US8805854B2 (en) * | 2009-06-23 | 2014-08-12 | Gracenote, Inc. | Methods and apparatus for determining a mood profile associated with media data |
US20110161318A1 (en) * | 2009-12-28 | 2011-06-30 | Cbs Interactive Inc. | Method and apparatus for assigning tags to digital content |
JP5477635B2 (ja) * | 2010-02-15 | 2014-04-23 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US20110225162A1 (en) * | 2010-03-09 | 2011-09-15 | Clifford Lyon | Assigning Tags to Digital Content |
US8548969B2 (en) * | 2010-06-02 | 2013-10-01 | Cbs Interactive Inc. | System and method for clustering content according to similarity |
US10055493B2 (en) * | 2011-05-09 | 2018-08-21 | Google Llc | Generating a playlist |
US9928824B2 (en) | 2011-05-11 | 2018-03-27 | Silentium Ltd. | Apparatus, system and method of controlling noise within a noise-controlled volume |
US9431001B2 (en) * | 2011-05-11 | 2016-08-30 | Silentium Ltd. | Device, system and method of noise control |
US9648130B1 (en) | 2012-07-12 | 2017-05-09 | Inform, Inc. | Finding users in a social network based on document content |
US10031968B2 (en) * | 2012-10-11 | 2018-07-24 | Veveo, Inc. | Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface |
US9996504B2 (en) * | 2013-07-08 | 2018-06-12 | Amazon Technologies, Inc. | System and method for classifying text sentiment classes based on past examples |
US20150262033A1 (en) * | 2014-03-14 | 2015-09-17 | Xiaomi Inc. | Method and terminal device for clustering |
US9747264B2 (en) | 2015-06-19 | 2017-08-29 | International Business Machines Corporation | Optimizing update operations in hierarchically structured documents |
US10339407B2 (en) * | 2017-04-18 | 2019-07-02 | Maxim Analytics, Llc | Noise mitigation in vector space representations of item collections |
CN110309294B (zh) * | 2018-03-01 | 2022-03-15 | 阿里巴巴(中国)有限公司 | 内容集合的标签确定方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050071329A1 (en) * | 2001-08-20 | 2005-03-31 | Microsoft Corporation | System and methods for providing adaptive media property classification |
US6963975B1 (en) * | 2000-08-11 | 2005-11-08 | Microsoft Corporation | System and method for audio fingerprinting |
JP2007102362A (ja) * | 2005-09-30 | 2007-04-19 | Seiko Epson Corp | 分類カテゴリ自動形成装置及びデジタル画像コンテンツ自動分類装置並びにデジタル画像コンテンツ管理システム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5918223A (en) | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
US6993532B1 (en) | 2001-05-30 | 2006-01-31 | Microsoft Corporation | Auto playlist generator |
US7197493B2 (en) | 2001-12-21 | 2007-03-27 | Lifestory Productions, Inc. | Collection management database of arbitrary schema |
US7096234B2 (en) | 2002-03-21 | 2006-08-22 | Microsoft Corporation | Methods and systems for providing playlists |
US7058912B2 (en) * | 2003-09-02 | 2006-06-06 | Texas Instruments Incorporated | Notifying status of execution of jobs used to characterize cells in an integrated circuit |
US7777125B2 (en) | 2004-11-19 | 2010-08-17 | Microsoft Corporation | Constructing a table of music similarity vectors from a music similarity graph |
EP1676509A1 (en) * | 2004-12-30 | 2006-07-05 | Rhea Vendors S.p.A. | Process and apparatus for controlling the preparation of brewed beverages |
US8180770B2 (en) | 2005-02-28 | 2012-05-15 | Yahoo! Inc. | System and method for creating a playlist |
MX2007014288A (es) * | 2005-07-01 | 2008-02-07 | Saeco Ipr Ltd | Dispositivo para operar maquinas automaticas expendedoras de bebidas calientes. |
-
2008
- 2008-04-24 EP EP08737983A patent/EP2145269A2/en not_active Withdrawn
- 2008-04-24 KR KR1020097024960A patent/KR20100022027A/ko not_active Application Discontinuation
- 2008-04-24 US US12/598,214 patent/US8140542B2/en not_active Expired - Fee Related
- 2008-04-24 WO PCT/IB2008/051585 patent/WO2008132673A2/en active Application Filing
- 2008-04-24 JP JP2010504953A patent/JP2010527055A/ja active Pending
- 2008-04-24 CN CN200880014463A patent/CN101675431A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963975B1 (en) * | 2000-08-11 | 2005-11-08 | Microsoft Corporation | System and method for audio fingerprinting |
US20050071329A1 (en) * | 2001-08-20 | 2005-03-31 | Microsoft Corporation | System and methods for providing adaptive media property classification |
JP2007102362A (ja) * | 2005-09-30 | 2007-04-19 | Seiko Epson Corp | 分類カテゴリ自動形成装置及びデジタル画像コンテンツ自動分類装置並びにデジタル画像コンテンツ管理システム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011141406A (ja) * | 2010-01-06 | 2011-07-21 | Ixicom Ltd | 類似楽曲表示システム |
JP2022020465A (ja) * | 2020-07-20 | 2022-02-01 | 日本電信電話株式会社 | 特徴変換装置、距離測定装置、照合システム、特徴変換方法、及びコンピュータプログラム |
JP7320230B2 (ja) | 2020-07-20 | 2023-08-03 | 日本電信電話株式会社 | 特徴変換装置、距離測定装置、照合システム、特徴変換方法、及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN101675431A (zh) | 2010-03-17 |
WO2008132673A3 (en) | 2008-12-24 |
US20100138427A1 (en) | 2010-06-03 |
EP2145269A2 (en) | 2010-01-20 |
WO2008132673A2 (en) | 2008-11-06 |
US8140542B2 (en) | 2012-03-20 |
KR20100022027A (ko) | 2010-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010527055A (ja) | コンテンツアイテムを組織する方法 | |
Cheng et al. | On effective location-aware music recommendation | |
US7921067B2 (en) | Method and device for mood detection | |
US8170702B2 (en) | Method for classifying audio data | |
JP4825800B2 (ja) | 楽曲分類方法 | |
US7613736B2 (en) | Sharing music essence in a recommendation system | |
US7860862B2 (en) | Recommendation diversity | |
US20100217755A1 (en) | Classifying a set of content items | |
US20120023403A1 (en) | System and method for dynamic generation of individualized playlists according to user selection of musical features | |
US20170140260A1 (en) | Content filtering with convolutional neural networks | |
JP4423568B2 (ja) | 表示制御処理装置および方法並びにプログラム | |
US20080275904A1 (en) | Method of Generating and Methods of Filtering a User Profile | |
US20060206478A1 (en) | Playlist generating methods | |
US20210303612A1 (en) | Identifying media content | |
JP2007534995A (ja) | 音声信号を分類する方法及びシステム | |
KR101942459B1 (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 | |
Ratanpara et al. | Singer identification using perceptual features and cepstral coefficients of an audio signal from Indian video songs | |
KR100868764B1 (ko) | 사용자 모델을 이용한 음악 추천 방법 및 시스템, 및조건부 사용자 모델 업데이트 방법 | |
KR20110069830A (ko) | 이용자의 생리적 반응에 기초하여 콘텐트 아이템을 선택하기 위한 시스템을 제공하는 방법 | |
Williamson | Automatic Music Similarity Assessment and Recommendation | |
Sarkar et al. | Emotion based categorization of music using low level features and agglomerative clustering | |
Xiao et al. | Learning a music similarity measure on automatic annotations with application to playlist generation | |
KR20190009821A (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 | |
US20230236791A1 (en) | Media content sequencing | |
Tang et al. | Construction of Music Classification and Detection Model Based on Big Data Analysis and Genetic Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110418 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121101 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130328 |