JP2010165348A - アノテーション付けを行う方法およびそのためのコンピュータプログラム - Google Patents
アノテーション付けを行う方法およびそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP2010165348A JP2010165348A JP2009290548A JP2009290548A JP2010165348A JP 2010165348 A JP2010165348 A JP 2010165348A JP 2009290548 A JP2009290548 A JP 2009290548A JP 2009290548 A JP2009290548 A JP 2009290548A JP 2010165348 A JP2010165348 A JP 2010165348A
- Authority
- JP
- Japan
- Prior art keywords
- classifiers
- files
- features
- digital
- annotations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】計算機を効率的に利用した、大規模なメディアファイルを利用するアノテーション付与のための高効率かつスケーラブルな手法を提供する。
【解決手段】アノテーション付与方法は、アノテーションを含む複数の第1のデジタルファイルの第1の複数の特徴から複数の分類器を生成し、複数の第2のデジタルファイルから抽出された複数の第2の特徴を複数の分類器を用いてソートし、第2の特徴とそれぞれの分類器に対応する第1の特徴との間の距離ベクトルを決定し、この距離に応じてランク付けを行う。ランキングに基づいて、マッチファイルのサブセットが選択される。サブセットにはそれぞれ一以上のアノテーションが関連付けられ、新たに受信したデジタルファイルに対し、このサブセットのアノテーションが分類器に応じて関連付けられる。
【選択図】図8
【解決手段】アノテーション付与方法は、アノテーションを含む複数の第1のデジタルファイルの第1の複数の特徴から複数の分類器を生成し、複数の第2のデジタルファイルから抽出された複数の第2の特徴を複数の分類器を用いてソートし、第2の特徴とそれぞれの分類器に対応する第1の特徴との間の距離ベクトルを決定し、この距離に応じてランク付けを行う。ランキングに基づいて、マッチファイルのサブセットが選択される。サブセットにはそれぞれ一以上のアノテーションが関連付けられ、新たに受信したデジタルファイルに対し、このサブセットのアノテーションが分類器に応じて関連付けられる。
【選択図】図8
Description
本発明はマルチメディアファイルの分類に関し、特に自動的にデジタルメディアの分類とアノテーション付けを行う方法、およびコンピュータプログラムに関する。
インターネットとデジタル写真の普及に伴い、コンピュータによる視認技術と画像処理はスケーラビリティへの挑戦となってきている。数十億の画像ファイルを含むような大規模の画像メディアコレクションは整理、操作、そして正確かつ効率的な検索が難しい。近年のマルチメディア分析研究はデジタルコンテンツの情報検索に焦点が当てられている。こうしたインデキシングや検索はタグやアノテーションを付加することで容易になる。ユーチューブ(登録商標)やフリッカー(登録商標)のようなウェブサイトでは手作業で提供されたアノテーションが急増しているが、個人や頒布されているメディアコレクションには自動あるいは半自動のアノテーションツールが必要である。
このため、スケーラブルなメディア分類手法の必要性が高まっている。様々なウェブサイトからの人手で付与された大量のデータは、スケーラブルなメディア分類システムを構成するための無限のサンプルデータ源となる。スケーラブルな分類システムを築く一つのアプローチは、一般に入手可能な大規模なトレーニングデータから、改善された標準的な特徴を抽出し、トレーニングデータの低レベルの表現を生成するために最近傍法(NN)ベースの指標を計算し、例えばデータファイルのアノテーション付けを自動化するために、利用する。最近傍法の欠点は、標準的な実現方法が計算機上で複雑であって、この結果大規模のファイルのコレクションの場合に、処理が非効率になる点にある。このため、自由に入手できるアノテーション付きファイルの大規模ライブラリの利用は、そのコレクションの効率的な処理の困難さとトレードオフとなっている。
ミンリンチャンら(Min-Ling Zhang et al) 、「Ml kNN:複数ラベル学習の緩やかなアプローチ(Ml-knn: A lazy approach to multi-label learning)」、パターン認識学会誌(The Journal of the Pattern Recognition Society)、オランダ、2007年、第40巻、第7号、第2038〜2048頁
このため、計算機を効率的に利用した、大規模のメディアファイルへの高効率でスケーラブルなアノテーション付与のための分類手法が必要となってきている。一方で、大量のメディアファイルで訓練されたシステムを、より限定されたトレーニングコレクションと特定のアノテーション語彙を使ってカスタマイズして、コレクションにアノテーション付けをしたいとの要求もある。
上記課題の少なくとも一部を解決するために、本発明は以下の解決手段を用いる。
本発明の一つの形態の方法においては、分類器生成手段が、それぞれ1以上の関連付けられたアノテーションを含む複数の第1のデジタルファイルの複数の第1の特徴から分類器のセットを生成し、ソート手段が、前記複数の分類器に応じて、複数の第2のデジタルファイルの少なくとも1つから抽出された複数の第2の特徴をソートし、距離順位付け手段が、前記複数の第2の特徴と各前記第1の特徴との間の距離ベクトルを、対応する分類器のそれぞれに対して決定し、決定された前記距離ベクトルに基づく距離を順位付けし、選択手段が、前記順位付けに基づいて、それぞれ1以上の関連付けされたアノテーションに対応する、所定条件にマッチしたファイルのサブセットを選択し、アノテーション関連付け手段が、前記マッチしたファイルのサブセットと関連付けられたアノテーションから1以上のアノテーションを、前記複数の第2のデジタルファイルの少なくとも一つに、対応する前記分類器を用いて関連付ける、コンピュータを用いてデジタルファイルにアノテーション付けを行うことを特徴とする。
本発明の一つの形態として、更に、重み決定手段が、前記複数の第2のデジタルファイルの前記少なくとも一つを前記複数の分類器に適用して各前記複数の分類器に応じた重みを決定し、重み結合手段が、1以上の前記分類器に応じて前記重み値を結合し、前記アノテーション関連付け手段が、マッチしたファイルの各サブセットの1以上のアノテーションを、結合した前記重み値に基づいて、前記複数の第2のデジタルファイルの少なくとも1つに関連付けることができる。
本発明の一つの形態として、前記アノテーション関連付け手段が、前記複数の第2のデジタルファイルを、前記対応する分類器に応じて1以上のユーザにより供給されるアノテーションに関連付けし、1以上のアノテーションが対応する分類器のそれぞれを用いて前記複数の第2のデジタルファイルのそれぞれに1以上のアノテーションを関連付け、受信手段が、第3の複数のデジタルファイルを受信し、特徴抽出手段が、前記第3の複数のデジタルファイルから複数の第3の特徴を抽出し、分割手段が、前記複数の第3の特徴を前記第3の特徴の複数のサブセットに分割し、再計算手段が、対応する前記分類器のそれぞれを用いて前記第3の特徴の複数のサブセットをソートし、前記第3の特徴のサブセットのそれぞれと対応する前記分類器の前記第2の特徴の間の距離を再計算し、重み決定手段が、前記再計算された距離に基づいて前記複数の分類器のそれぞれに対しての重み値を決定し、前記アノテーション関連付け手段が、前記複数の第3のデジタルファイルの前記少なくとも一つに1以上のアノテーションを、1以上の前記重み値に基づいて、マッチした第1および第2のデジタルファイルの各サブセットのアノテーションを用いて、関連付けることができる。
本発明の一つの形態として、更に、重み値更新手段が、1以上のユーザが設定したアノテーションを有するデジタルファイルの受信に応じて、一以上の前記重み値を更新することができる。
本発明の一つの形態として、前記選択手段は、前記マッチしたファイルの選択において、所定の基準に基づいてマッチしたファイルのサブセットを選択することができる。
本発明の一つの形態として、前記所定の基準は前記第1および第2の特徴間の最近傍計算を比較する重み付け距離値に基づくことができる。
本発明の一つの形態として、前記分類器生成手段は、前記複数の分類器の生成において、複数のk次元ツリーを生成することを含み、前記マッチしたファイルのサブセットの選択においては、少なくとも10個の最近傍を各前記複数のk次元ツリーにマッチするファイルのサブセットに基づいて選択することを含むことができる。
本発明の一つの形態として、前記アノテーション関連付け手段が、前記マッチしたファイルのサブセットとそれぞれ関連付けられたアノテーションから1以上のアノテーションを、前記複数の第2のデジタルファイルの少なくとも一つに、対応する前記分類器のそれぞれを用いて関連付けることは、各最近傍に前記各分類器に対応する重み値に基づいて投票を行うことで決定し、1以上のアノテーションを、各最近傍への投票あるいは投票の合計に基づいて前記受信したデジタルファイルに関連付けることを含むことができる。
本発明の一つの形態としての方法においては、第1の分類器生成手段が、1以上の関連付けられたアノテーションを含む複数の第1のデジタルファイルのそれぞれから複数の第1の特徴を抽出し、前記第1のデジタルファイルを複数の前記第1の特徴のサブセットに分割し、前記第1の特徴の各サブセットの複数の分類器を形成し、第2の特徴サブセット生成手段が、複数のデジタルファイルのそれぞれから複数の第2の特徴を抽出し、前記複数の第2のファイルを前記第2の特徴の複数のサブセットに分割し、ソート手段が、前記第2の特徴の複数のサブセットを対応する前記複数の分類器に応じてソートし、距離決定手段が、前記第2の特徴のサブセットのそれぞれと前記対応する複数の分類器の前記第1の特徴との間の距離を決定し、選択手段が、特定の一つの前記第2のデジタルファイルの全てのサブセットの距離に基づいて、特定の1以上の前記分類器にマッチしたファイルのサブセットから前記第1のデジタルファイルを決定し、アノテーション関連付け手段が、前記第2のデジタルファイルの前記特定の一つを、第1のデジタルファイルにマッチするグループのデジタルファイルから得られる1以上のアノテーションに関連付けることを特徴とする。
本発明の一つの形態として、前記複数の第2のデジタルファイルは1以上のユーザにより提供されたアノテーションと関連付けられ、前記アノテーション関連付け手段が、前記対応する分類器を用いて、1以上のアノテーションを各前記複数の第2デジタルファイルに関連付け、受信手段が、第3の複数のデジタルファイルを受信し、特徴抽出手段が、少なくとも一つの前記第3の複数のデジタルファイルから複数の第3の特徴を前記対応する一つの分類器を用いて抽出し、分割手段が、前記複数の第3の特徴を複数の前記第3の特徴のサブセットに分割し、前記ソート手段が、前記複数の第3の特徴のサブセットを対応する前記分類器の一つを用いてソートし、再計算手段が、各前記第3の特徴のサブセットと前記対応する分類器の前記第2の特徴との間の距離を再計算し、前記選択手段が、1以上の特徴のサブセットの距離に基づいて、前記特定の1以上の前記分類器にマッチするファイルのサブセットから、マッチする前記第1および第2のデジタルファイルを決定し、重み決定手段が、前記再計算した距離に基づいて各1以上の前記分類器に応じた重み値を決定し、前記アノテーション関連付け手段が、少なくとも一つの前記複数の第3のデジタルファイルと、前記各マッチした第1および第2のデジタルファイルのアノテーションからの1以上のアノテーションを、1以上の前記重み値に基づいて、関連付けることができる。
本発明の一つの形態として、前記重み決定手段は、1以上の前記重み値を1以上のユーザが提供するアノテーションを含む受信デジタルファイルに応じて更新し、現在の前記重み値を調整するために一以上の重み値を1以上の前記分類器に応じて選択することができる。
本発明の一つの形態として、前記選択手段は、特定の1以上の前記分類器にマッチしたサブセットからマッチする前記第2のデジタルファイルを選択するときに、所定の距離条件に合致する距離に対応する前記第2のデジタルファイルにマッチする1以上の分類器を選択することができる。
本発明の一つの形態のコンピュータプログラムにおいては、コンピュータに、分類器生成手段が、それぞれ1以上の関連付けられたアノテーションを含む複数の第1のデジタルファイルの複数の第1の特徴から分類器のセットを生成し、ソート手段が、前記複数の分類器に応じて、複数の第2のデジタルファイルの少なくとも1つから抽出された複数の第2の特徴をソートし、距離順位付け手段が、前記複数の第2の特徴と各前記第1の特徴との間の距離ベクトルを、対応する分類器のそれぞれに対して決定し、決定された前記距離ベクトルに基づく距離を順位付けし、選択手段が、前記順位付けに基づいて、それぞれ1以上の関連付けされたアノテーションに対応する、所定条件にマッチしたファイルのサブセットを選択し、アノテーション関連付け手段が、前記マッチしたファイルのサブセットと関連付けられたアノテーションから1以上のアノテーションを、前記複数の第2のデジタルファイルの少なくとも一つに、対応する前記分類器を用いて関連付ける、手順を実行させ、デジタルファイルにアノテーション付けを行うことを特徴とする。
本発明の一つの形態として、重み決定手段が、前記少なくとも一つの複数の第2のデジタルファイルを前記複数の分類器に適用して各前記複数の分類器に応じた重みを決定し、重み結合手段が、前記1以上の分類器に応じて前記重み値を結合し、前記アノテーション関連付け手段が、合致ファイルの各サブセットの1以上のアノテーションを、前記結合した重み値に基づいて、前記複数の第2のデジタルファイルの少なくとも一つに関連付けることができる。
本発明の一つの形態として、前記アノテーション関連付け手段が、前記複数の第2のデジタルファイルを、前記対応する分類器に応じて1以上のユーザにより供給されるアノテーションに関連付けし、1以上のアノテーションが対応する分類器のそれぞれを用いて前記複数の第2のデジタルファイルのそれぞれに1以上のアノテーションを関連付け、受信手段が、第3の複数のデジタルファイルを受信し、特徴抽出手段が、前記第3の複数のデジタルファイルから複数の第3の特徴を抽出し、分割手段が、前記複数の第3の特徴を前記第3の特徴の複数のサブセットに分割し、再計算手段が、対応する前記分類器のそれぞれを用いて前記第3の特徴の複数のサブセットをソートし、前記第3の特徴のサブセットのそれぞれと対応する前記分類器の前記第2の特徴の間の距離を再計算し、重み決定手段が、前記再計算された距離に基づいて前記複数の分類器のそれぞれに対しての重み値を決定し、前記アノテーション関連付け手段が、前記少なくとも一つの複数の第3のデジタルファイルに1以上のアノテーションを、1以上の前記重み値に基づいて、合致した第1および第2のデジタルファイルの各サブセットのアノテーションを用いて、関連付けることができる。
本発明の一つの形態のコンピュータプログラムにおいては、コンピュータに、第1の分類器生成手段が、1以上の関連付けられたアノテーションを含む複数の第1のデジタルファイルのそれぞれから複数の第1の特徴を抽出し、前記第1のデジタルファイルを複数の前記第1の特徴のサブセットに分割し、前記第1の特徴の各サブセットの複数の分類器を形成し、第2の特徴サブセット生成手段が、複数のデジタルファイルのそれぞれから複数の第2の特徴を抽出し、前記複数の第2のファイルを前記第2の特徴の複数のサブセットに分割し、ソート手段が、前記第2の特徴の複数のサブセットを対応する前記複数の分類器に応じてソートし、距離決定手段が、前記第2の特徴のサブセットのそれぞれと前記対応する複数の分類器の前記第1の特徴との間の距離を決定し、選択手段が、特定の一つの前記第2のデジタルファイルの全てのサブセットの距離に基づいて、特定の1以上の前記分類器にマッチしたファイルのサブセットから前記第1のデジタルファイルを決定し、アノテーション関連付け手段が、前記第2のデジタルファイルの前記特定の一つを、第1のデジタルファイルに合致するグループのデジタルファイルから得られる1以上のアノテーションに関連付ける手順を実行させ、アノテーション付けを行う。
本発明の一つの形態として、前記複数の第2のデジタルファイルは1以上のユーザにより提供されたアノテーションと関連付けられ、前記アノテーション関連付け手段が、前記対応する分類器を用いて、1以上のアノテーションを各前記複数の第2デジタルファイルに関連付け、受信手段が、第3の複数のデジタルファイルを受信し、特徴抽出手段が、少なくとも一つの前記第3の複数のデジタルファイルから複数の第3の特徴を前記対応する一つの分類器を用いて抽出し、分割手段が、前記複数の第3の特徴を複数の前記第3の特徴のサブセットに分割し、前記ソート手段が、前記複数の第3の特徴のサブセットを対応する前記分類器の一つを用いてソートし、再計算手段が、各前記第3の特徴のサブセットと前記対応する分類器の前記第2の特徴との間の距離を再計算し、前記選択手段が、1以上の特徴のサブセットの距離に基づいて、前記特定の1以上の前記分類器にマッチするファイルのサブセットから、マッチする前記第1および第2のデジタルファイルを決定し、重み決定手段が、前記再計算した距離に基づいて各1以上の前記分類器に応じた重み値を決定し、前記アノテーション関連付け手段が、少なくとも一つの前記複数の第3のデジタルファイルと、前記各マッチした第1および第2のデジタルファイルのアノテーションからの1以上のアノテーションを、1以上の前記重み値に基づいて、関連付けることができる。
本発明の一つの形態として、前記重み決定手段は、1以上の前記重み値を1以上のユーザが提供するアノテーションを含む受信デジタルファイルに応じて更新し、現在の前記重み値を調整するために一以上の重み値を1以上の前記分類器に応じて選択することができる。
本発明の一つの形態として、前記選択手段は、特定の1以上の前記分類器にマッチしたサブセットからマッチする前記第2のデジタルファイルを選択するときに、所定の距離条件に合致する距離に対応する前記第2のデジタルファイルにマッチする1以上の分類器を選択することができる。
本発明によれば、大規模のメディアファイルへ高効率でスケーラブルにアノテーションを付与することができる。
以下で述べる詳細な説明は、本発明の実施形態を十分に理解できるように提供するものである。しかし、本技術分野における当業者であれば、それらの様々な実施形態を特に詳細な記載がなくとも実施できることは明らかである。さらに、ここに記述する本発明の特定の実施形態は例示のために提供されるものであって、本発明の範囲をそれらの実施形態に限定するためのものではない。言い換えれば、周知のシステムの機能、デバイスとソフトウェアの操作についての記載は、不要に発明が不明確にならないように、記述していない場合もある。本発明の主題に関しては詳細に以下で説明する。
図1Aは、本発明の一実施形態に関わる、メディア分類モジュール(分類コンポーネント114、ローカル分類コンポーネント116)を含むシステム100のブロック図である。ネットワーク環境100は、1以上の通信ネットワーク108を介して互いに接続された1以上のクライアント102とサーバ104を含む。
クライアント102(以下、クライアントデバイス、クライアントコンピュータと呼ぶことがある。)は、いかなるコンピュータあるいは同様のデバイスでもよく、クライアント102のユーザ103がリクエストを送信し、サーバ104から結果あるいはサービスを得る。例えば、デスクトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、携帯電話等のモバイルデバイス、PDA、セットトップボックス、あるいはそれらの組み合わせを用いることもできる。各クライアント102はサーバ104にアプリケーションの実行のリクエストを送信するクライアントアプリケーション106およびクライアントアシスタント105を少なくとも一つ備えることができる。例えば、クライアントアプリケーション106はユーザ103が通信ネットワーク108を介してサーバ104からアクセスされたリソース(例えば、ウェブページやウェブサービス)の検索、閲覧、または使用をするための、ウェブブラウザや他のアプリケーションである。
クライアントアシスタント105は、クライアントアプリケーション106あるいは他のアプリケーションに関するユーザ103の作業を監視あるいは支援するための1以上のタスクを実行するソフトウェアアプリケーションとすることができる。例えば、クライアントアシスタント105は、ユーザ103がクライアント102でクライアント102のブラウザでウェブサイトにより提供されるリソース(例えば検索結果)を閲覧するときに支援をしたり、サーバ104から受信した情報(例えば検索結果)を処理したり、クライアント102でのユーザの活動をモニタしたりする。一つの実施形態としては、クライアントアシスタント105は、1以上のウェブページ(例えば検索結果を表示するウェブページ)あるいは、1以上のサーバ(例えばサーバ104)からダウンロードされる他のドキュメントに埋め込まれていてもよい。他の実施形態としては、クライアントアシスタント105は、クライアントアプリケーション106の一部であってもよい。
一つの実施形態では、クライアント102上にはローカル分類コンポーネント116が含まれ、サーバ104上の分類コンポーネント114と接続して、本実施形態におけるメディアファイル分類システムのコンポーネントを構成する。さらに、後で詳細に説明するように、分類コンポーネント114,116は、クライアント102あるいはサーバ104に保持された大量のメディアコレクション中のデジタルメディアファイルを、インデキシング、アノテーション付けあるいは検索などのソフトウェアアプリケーションとすることができる。加えて、ローカル分類コンポーネント116はクライアント102の一部であってもよく、サーバ104上で分類コンポーネント114の一部として実現されてもよい。あるいは、ローカル分類コンポーネント116と分類コンポーネント114は分離したサーバ上あるいは複数台のサーバ上で実現されてもよい。
通信ネットワーク108は、有線あるいは無線のローカルエリアネットワーク、イントラネット、エクストラネット、インターネットあるいはそれらの組み合わせのようなワイドエリアネットワークとすることができる。通信ネットワーク108はTCP/IPを用いて情報転送を行うHTTPを用いることができる。HTTPは通信ネットワーク108を通じて様々な情報源にクライアントがアクセスできるようにする。ただし、特定のプロトコルの使用に限られない。本発明におけるリソース(あるいは情報源)は、コンテンツロケーションファインダ(例えば、URL)を通じてアクセスできるいかなる情報あるいはサービスの一部であってもよく、例えばウェブページ、ドキュメント、データベース、画像、コンピュータオブジェクト、検索エンジン、あるいは他のオンライン情報サービスなどが挙げられる。
一実施形態では、サーバ104はコンテンツ(例えば、ウェブページ、画像、デジタル写真、ドキュメント、ファイル、広告、他の形態の情報)を配信する。サーバ104は、多くのファイルあるいはさまざまな種類の他のデータ構造を保持することができ、そうしたデータ構造としては、テキスト、グラフィック、ビデオ、オーディオ、デジタル写真、および他のデジタルメディアファイルを含んでよい。サーバ104はサーバインターフェース110、分類コンポーネント114およびデータストレージ120を含んでよい。サーバインターフェース110は通信ネットワーク108を介したクライアント102からの接続要求を処理するように構成される。分類コンポーネント114は機械学習アプリケーションであり、例えばフリッカー、ユーチューブといったデジタル画像レポジトリに保持されているデジタル写真画像のような、既存のデジタルファイルの大規模なコレクションを、スケーラビリティを向上させたデジタル画像の自動的なアノテーション付け、整理、あるいは分類のためのユーザツールを生成するために利用する。
データストレージ120は、ローカル分類コンポーネント116あるいは分類コンポーネント114を動作させるときにアクセスされる大量のデジタルメディアファイルのコレクションを記憶する。データストレージ120は、トレーニングデータ122、テストデータ124あるいはユーザが保存したデータ126といったデータファイルを保存してもよい。トレーニングデータ122は、インターネットを介して公開されてアクセス可能な関連付けされたアノテーションの大規模なライブラリを持ったデジタル画像ファイルの大規模データセットである。トレーニングデータ122は、本実施形態にしたがって、ユーザのデジタル画像イメージにアノテーションを付与するために分類コンポーネント114をトレーニングするために用いられる。テストデータ124は、トレーニングに用いられる大規模なコレクションの一部か、別のコレクションのデジタル画像ファイルの第2のコレクションである。テストデータ124は、分類コンポーネント114および、あるいはローカル分類コンポーネント116によって、トレーニングされた後にシステムをテストするために用いられる。一旦トレーニングとテストがされたら、分類コンポーネント114とローカル分類コンポーネント116はサーバ104に保持されるユーザデータファイル126にアノテーションを付与するために用いられる。あるいは、ユーザデータ126はクライアント102か、ローカル分類コンポーネント116の一部としてローカルに保存される。
図1Bは、一実施形態に関わる他の配信システム101のブロック図である。ユーザ103はアノテーション付けされた特徴を用いて予め構成されているローカル分類コンポーネント136にアクセスする。ローカル分類コンポーネント136はユーザデータ126を受信するように構成されている。ユーザデータ126はローカル分類コンポーネント136をカスタマイズするために、ユーザ指定アノテーションを任意に含んでもよい。ローカル分類コンポーネント136および/またはユーザデータ126はクライアントコンピュータの一部であってもよく、あるいはネットワーク上のサーバ、外部データベース、ホストコンピュータ等の外部情報源からアクセスして得たものであってもよい。
図1Cは、実施形態に関わる、他の配布システム111のブロック図である。システム111はブラウザ145のようなプログラムを実行するために、アプリケーションコンポーネント142を含むアプリケーションマネージャ138を備えている。ブラウザ145は、フリッカー、ピカサ(登録商標)、フェースブック(登録商標)あるいは他のデジタルコンテンツ管理サイトのようなウェブホストにあるコンテンツを閲覧するために用いられる。システム111は、アプリケーションマネージャ138によりローカルにアクセスすることができる、あるいは、ネットワーク上のホストにブラウザによりアクセスできるパッケージ140を含む。一実施形態では、パッケージ140はデジタル写真のようなユーザ103のデジタルメディアファイルにアノテーション付けするための分類コンポーネント114を含んでいる。また、パッケージ140はユーザデータ126とアノテーション146を含んでもよい。アノテーション146はデジタル画像ファイルのトレーニングセットに関連付けられたラベルあるいはタグを含んでいてよく、ユーザ103の個人画像コレクションからユーザが指定したアノテーションを含んでいてもよい。
図2Aは、一実施例に関わる図1Aのサーバシステム104のブロック図である。1以上のサーバシステム104は1あるいは複数のコンピュータ装置からアクセスあるいは実行がされてよい。他の一般的なコンポーネントはここでは記載を省略する。サーバシステム104は、1以上の処理回路(CPU)202、1以上のネットワークあるいは他の通信インターフェース220、メモリ204とそれらのコンポーネント間の通信バス218を通常有している。通信バス218はシステムコンポーネント間の相互接続や通信制御を行う回路(チップセットと呼ばれる)を含んでもよい。
サーバシステム104は、例えば、ディスプレイ224、入力装置226、出力装置228のような、ユーザインターフェース222を含んでもよい。入力装置226は例えば、キーボード、マウス、タッチパネルディスプレイ、あるいはサーバシステム104に情報を入力するための他の適当なデバイスを含んでもよい。出力装置228は、例えば、ビデオディスプレイユニット、プリンタ、他の情報出力のための適当な装置を含むことができる。入力装置226と出力装置228は、一体の入出力装置として構成してもよい。
メモリ204は高速ランダムアクセスメモリ、あるいは1以上の磁気ディスクストレージデバイスのような不揮発性メモリを含むことができる。メモリ204は、中央処理装置202から遠隔に配置されたマスストレージであってもよい。メモリ204あるいはメモリ204内の不揮発性メモリ装置がコンピュータ可読記憶媒体を構成する。メモリ204には、後で述べる要素あるいはそのサブセット、あるいはさらに付加要素が含まれている。様々な基本的なサーバシステムサービスの実行手順とハードウェア依存タスクの実行手順を含んだオペレーティングシステム207、サーバシステム104を他のサーバやコンピュータに、インターネットや広域、ローカル、都市間ネットワークといった1以上の有線、無線の通信ネットワークを介して接続するための通信モジュール、デジタル画像ファイルに自動的にアノテーションを付与するための大量のデジタル画像ファイルのコレクションを用いるメディアファイル分類システムをトレーニングするコンポーネント(例えば分類器238)を含んだ分類モジュール215、分類モジュール215を実行するための分類データ232を記憶するデータコンポーネント217を含んでいる。このデータコンポーネント217には、分類モジュール215をトレーニングするための大量のデジタル画像データコレクションを含むトレーニングデータ234、分類モジュール215をテストするためのデジタル画像データの第2のコレクションあるいは大量のコレクションの一部のデータを含むテストデータ236、与えられたデータファイルに対する最近傍候補を決定するために、分類器238のような分類変数により決定される特徴多次元空間でなされるベクトル計算の結果である距離ベクトル246、最近傍に合致した候補を識別するためのメディアファイル分類システムの分類変数により生成される値である重み付け投票データ244、メディアファイル分類システムの様々なコンポーネントによって使用されるトレーニングデータ234、テストデータ236および他のデジタルファイルから抽出された多次元的特徴である抽出特徴データ248、そして、トレーニングデータ234、テストデータ236および他のデジタルファイルに関連付けられたアノテーションを含む参照アノテーションデータ230、を含むことができる。
図2Bは、一実施形態に関わる図1Aのクライアントシステム102のブロック図である。1以上のクライアントシステム102のコンポーネントは、一台のコンピュータあるいは複数台のコンピュータデバイスによりアクセスあるいは実行がされてもよい。他の一般的な構成の説明は省略する。図2Bは、図2Aで示した幾つかのコンポーネントを含み、それらの同様のコンポーネントには図2Aと同じ符号を与えており、これらの説明は省略する場合がある。
クライアントシステム102もまたメモリ205を含んでおり、高速ランダムアクセスメモリ、あるいは1以上の磁気ディスクストレージデバイスのような不揮発性メモリを含むことができる。メモリ205は、中央処理装置202から遠隔に配置されたマスストレージであってもよい。メモリ205あるいはメモリ205内の不揮発性メモリ装置がコンピュータ可読記憶媒体を構成する。メモリ205には、以下に述べる要素あるいはそのサブセット、あるいはさらに付加要素が含まれている。様々な基本システムサービスの実行手順とハードウェア依存タスクの実行手順を含んだオペレーティングシステム206、クライアントシステム102を他のサーバやコンピュータに、インターネットや広域、ローカル、都市間ネットワークといった1以上の有線、無線の通信ネットワークを介して接続するための通信モジュール、ディスプレイ224のようなユーザインターフェースデバイスを介してユーザにウェブページのようなコンテンツを表示するためのクライアントアプリケーションモジュール210、クライアント102に付加機能を付与するアドオン、プラグイン、他のモジュールといったクライアント支援モジュール212、一旦メディアファイル分類システムが訓練された後にユーザのデジタル画像ファイルのコレクションに自動あるいは半自動でアノテーションを付与する制御を含んだローカル分類モジュール214、そして、ローカル分類モジュール214が実行されるときに用いるローカル分類データ252を保持するデータコンポーネント216を備える。このデータコンポーネント216には、ユーザのデジタルカメラやユーザの友人や家族からもらったデジタル写真のような、デジタル画像ファイルのユーザの個人コレクションを含むユーザ画像ファイル254、ユーザ画像ファイル254に応じた距離ベクトルに対応するベクトル計算結果である距離ベクトル266、ユーザ画像ファイル254から抽出された次元的特徴である、抽出特徴データ268、ユーザ画像ファイル254に付与されたアノテーションを含む選択アノテーションデータ250、ユーザ画像ファイル254に関連付けられた分類変数により生成された値である重み付け投票データ264、を含めることができる。
それぞれの上述の要素は、前述の1以上のメモリ装置に保持させ、各実施形態で記述した機能を実行するための命令セットにより構成することができる。上記モジュールあるいはプログラム(つまり、命令セット)は、分離したソフトウェアプログラム、手順あるいはモジュールにして実現する必要はなく、実施形態にあわせてこれらのモジュールの様々なサブセットを組み合わせたり、再構成するようにしてもよい。例えば、図1A、図2A、図2B中のモジュールおよび/あるいはデータベースの幾つかを他の遠隔地や複数の場所にわたって構成することもできる。一実施形態としては、メモリ204と205はモジュールのサブセットと上記データ構造を保持してもよい。さらに、メモリ204と205は記述しない追加のモジュールとデータ構造を保持してもよい。
図1A、図2Aおよび図2Bは実施形態の構造を図示するのではなく、多様な特徴を機能的に記述するためのものである。これらの機能を実現する上では、当業者に自明なように、分離して示されたアイテムを組み合わせることもできるしいくつかのアイテムを分離することもできる。例えば、図2Aは一つのサーバで構成することができ、一つのアイテムは一つ以上のサーバによって実現することでもできる。例えば、分類モジュール215はサーバシステム104の他の要素でなく異なる複数のサーバにより実現することもできる。システム104を実現するのに用いられるサーバの実際の数、そしてそれらにどのようにして機能を配置するかは、実現手法によって異なり、システムが最大で使用するデータハンドリングや所定期間での平均のデータトラフィックに応じて異なる。
図3は、一実施形態に関わるメディアファイル分類システム300のブロック図を表す。一実施形態においては、システム300は、記憶された参照アノテーション330からのタグとラベルを用いてデジタル画像ファイルにアノテーション付けをするための分類モジュール314を含む。他の実施形態では、分類モジュール314は、メディアファイルを属性や特徴に応じて分離するためのコンポーネントを含む。メディアファイルは、たとえば、デジタル写真、ウェブページからのリソース(ブログエントリー中のテキストデータやインスタントメッセージング等も含む)、そして音声ファイルやビデオファイルといったタグやラベルで分類される他のデータファイルを含む。特徴としては、例えば、視覚特徴(色、テクスチャ、エッジ検出、モーション分析等)や、音声特徴(音声デジタルデータ)が含まれる。一実施形態としては、分類モジュール314は、メディアファイルおよび/または特徴の類似したものをグルーピングするクラスタリング、インデキシング、並列処理、そしてメディアファイルおよび特徴を生成、検索および更新するための他の分類パラメータを含むことができる。
一実施形態で、分類モジュール215は、画像ファイルのようなオブジェクトをコレクション中の他のオブジェクトと比較して分類する機械学習アルゴリズムの分類器238を含む分類モジュール215を含む。分類器238の例としては分類アルゴリズムを用いて最近傍オブジェクトの距離ベクトルを計算するためのk次元ツリー(kdツリー)を含むものが挙げられる。参照アノテーション330は、フリッカー(Flicker 登録商標)のようなホストにより、蓄積されオンラインで格納された大規模なデジタル画像ファイルのようなメディアファイルのコレクション中のデジタル画像と、手動により関係付けすることもできる。トレーニングデータ322を含むメディアファイルの大規模コレクションは公開されており、オンラインにより取得することができる。一実施形態では、公開されてアクセス可能なデジタル画像ファイルのコレクションの部分は、タグやラベル(アノテーション)をユーザのデジタル画像ファイルに設定するため分類モジュール314のトレーニング用のトレーニングデータ322として用いられる。あるいは、トレーニングデータ322は、ユーザにより提供されたデジタル画像ファイルのユーザのコレクションであってもよい。一実施形態では分類モジュール114は、本発明にしたがって、効率を犠牲にすることなく画像ファイルの大規模なトレーニングセットに対応しやすい近似最近傍検索を用いる。また他の実施形態では、任意の数のカテゴリに分類するための分類器がトレーニングデータ322を用いる分類モジュール314中に形成される。そしてモジュール114は、テストデータアノテーション350を生成するため、分類コンポーネントを参照アノテーション330に相関させるための、テストデータ312を受信する。分類モジュール314のトレーニングと実行は後で記述する。
図4は、本発明の一実施形態に関わる、図3のメディアファイル分類システム300のトレーニングフェーズ420を表すブロック図である。トレーニングフェーズ420の間に、デジタル画像ファイルの分類のためのコンポーネントがトレーニングデータ322を用いて構築される。トレーニングフェーズ420は、特徴抽出ブロック424と、分類コンポーネント(分類器)432〜438を構築するためのパーテション(分割)ブロック426を含む。
特徴抽出ブロック424は、公知の特徴分析手法を用いて各デジタルファイルから低レベルの特徴データを抽出するように設定することができる。特徴データには、例えば、カラーヒストグラム、テクスチャやエッジ特徴、動作分析、顔検出などの視覚特徴を含めることができる。一実施形態としては、エッジ配向(edge orientation)ヒストグラムは、Cannyフィルタのようなフィルタを適用した後に、画像の方向にかかわらず一様な空間グリッドから抽出される。エッジは、ヒストグラムを求めるために、所定数に等分された配向ビンに入れて量子化してもよい。各画素のエッジの強度は、対応する配向範囲内のビンに対する重みとして計数される。予備(extra)ビンは、スムーズな点(特に検出可能なエッジがないブロックにおける)を収集するための、閾値や他の同等指標の値以下のエッジ強度のために用いられる。こうして、各ブロックは、それぞれのヒストグラムと空間グリッドのサイズを形成するために、区別された複数の配向ビンの数に応じて結果的に多次元的な表現を持つようになる。特徴は次元ごとの最大・最小スタイルにより正規化され、これを数式で表すと、数式(1)となる。
ここで、iは特徴fに関する次元、f i m は次元iでの特徴の最小値、f i M は特徴の最大値であり、それぞれの次元の特徴値f i は
に正規化される。
各デジタル画像の高次元特徴空間が与えられると、局所的に最大のトレーニングセットを特徴付けるために、それらの特徴は分割ブロック426を介して特徴のサブブロックに分割される。特徴抽出ブロック424により低レベルの特徴が抽出され、最近傍法を用いて分割ブロック426により、一連の単純な検索ツリー要素(分類器432〜438)を形成することができる。各検索ツリーは各特徴のサブセットに対して計算される。一実施形態としては、最も単純な分類技術は、分類器432〜438としてK次最近傍成分(kdツリー)を利用するものである。kdツリーは次元数が高いときにうまくスケーリングできないので、分解工程では特徴をサブスペースに分割し次元数を減少させる工程が加えられる。一実施形態としては、kdツリーの特徴は30次元以下のサブスペースに分割される。形成された分類器432〜438(kdツリー)は、トレーニングデータ322の関連付けられたアノテーションから、近似最近傍検索を加速するために用いられる。
図5は、本発明の一実施形態に関わる図3のメディアファイル分類システム300のテストフェーズ520を示したブロック図である。一旦分類器532〜538がトレーニングデータ322を用いて構築されると、テストデータ312の各テストデジタルファイル313にマッチする最近傍候補を、トレーニングデータ322から計算するために、テストデータ312は分類器532〜538に適用される。テストデータ312はその一部がトレーニングデータ322として用いられるデジタル画像ファイルの公開されたコレクションであってもよく、あるいは、テストデータ312はユーザからの個別あるいは個人的なコレクションのデジタル画像ファイルであってもよい。テストデータ312のコレクションの各画像ファイル313は、先に述べたように、トレーニングフェーズ420の間に構築された分類器532〜538に基づいて特徴サブセットとして調整される特徴を抽出するために分類モジュール314によって受け取られる。近似最近傍はトレーニングデータ322の抽出された特徴を用いて、分類器532〜538を用いてテストデジタルファイル313の抽出された特徴に対して検索される。各ツリー532〜538は各ファイル313から抽出された特徴の割り当てられた各次元サブスペースに応じて、(トレーニングデータ322の中から候補に類似した)最近傍候補を検索する。一実施形態では、各ツリー532〜538はより高速処理を実現するために30次元以下のサブスペースで候補を検索する。各画像ファイル313に対して、kdツリー532〜538による部分距離計算によって、複数の最近傍候補がトレーニングデータ322から素早く認識される。最近傍候補の部分距離計算は、完全な距離を計算し画像ファイル313への最もマッチした候補を決定するために、距離/ソートブロック552により結合される。より具体的に、各ツリー532〜538からの10個の最近傍候補が、部分距離計算法を用いて、与えられたテストデジタルファイル313に対して識別される場合を考える。このステップでは数百という単位のトレーニングサンプルを作成し、この中から距離/ソートブロック552によって完全な距離を再計算することで決定された画像ファイル313に近い10個の候補が決定される。10個の最良の候補はテストデジタルファイル313にアノテーションを付与するために利用される。
一実施形態では、所定数の最もマッチする最近傍が選択される。あるいは、各検索における最近傍候補は、トレーニングデータ322から最もマッチしたサンプルあるいはマッチしたサンプルのサブセットを識別するための、既存の優先キュー手法により短縮することができる。あるいは、最もマッチしたサンプルを、部分距離計算により決定された候補群から、および/あるいは完全距離計算により決定された候補群から決定するために、閾値基準を使うことができる。一実施形態では、一旦最もマッチした候補が識別されると、距離/ソートブロック552は、後で詳細を説明するように、テストデータアノテーション350を識別するためにもっともマッチした候補のそれぞれあるいはマッチした候補のサブセットに対して計算した距離−重み付けスコアを用いて、画像ファイル313に対して引き続いて投票を行うための設定がされる。
図6A〜図6Dは、本発明の一実施形態に関わる図3のメディアファイル分類システム300のトレーニングおよびテストフェーズ420と520におけるデータ構造を示す。一実施形態では、先に述べたように、各画像ファイル313の特徴を抽出するために、各デジタル画像の特徴空間は所定の空間グリッドにより定義される。各グリッドのブロックは、ビンの方向を決定しヒストグラムを形成するために、公知のエッジ検出手法を用いてフィルタ処理される。例えば、図6Bは、一実施形態によれば、空間グリッド652は7×7次元で定義され、エッジは16個に等しく分割された配向ビン654により量子化される。一つの追加ビン656は、各ブロックが17次元の表現を有するような場合に所定の閾値以下となるエッジ強度に対して用いられる。このようにして、各画像ファイル313に対応する特徴の結果的な次元数は、49×17=833となる。オンラインで入手される大量のデジタル画像ファイルが与えられるなら、大規模なトレーニングサンプルのセットを利用することができる。大きな次元のトレーニングセットを利用する公知の他の分類手法は計算が複雑であったり、処理時間が長く非効率な方法に依存したりしている。このため、トレーニングセットの高次元は解消されなければならず、計算の複雑さは抑えられ、サイズが原因となる処理時間は分類処理が実用的となる程度まで短くなければならない。
図6Bは、本発明の一実施形態である上述の例で述べたように、どのように画像の特徴(例えば833全特徴)が、クラスタ662(1からn)のサブセットに、分割することができるか、を示している。特徴のサブセットは低次元の分類器532〜538を簡単に構築し、実行するために分割されてもよい。一実施形態では、特徴のサブセットは配向ビン654、656に応じて分割することができる。あるいは、特徴のサブセットは、特徴のカテゴリ、例えば各配向ビン654、656に関連付けられた特徴、に応じて配置することもできる。クラスタ662は、トレーニングフェーズ420の間に対応する分類ツリー664を構築するようにそれぞれ用いられる。テストフェーズ520で、特徴を比較し最近傍候補を識別するために距離ベクトルを計算するための分類ツリー664の構築と同様の手法で、特徴が各テストデジタルファイル313から抽出されて分割される。このようにして、各ツリー664に対応する特徴のセット672は、部分距離を計算し、潜在的な最近傍候補を判断するために用いられる特徴672−1〜672−pを含む。例えば、各特徴672−1から672−pについて、部分距離はベクトルn−1〜n−pとして計算され、トレーニングデータ322の候補から抽出されたそれぞれの特徴に対して比較される。このようにして、本実施例においては、n番目のツリー664について、特徴674は自身の特徴のセット672に対応するものとして判別される。一実施形態においては、部分距離ベクトルn−1〜n−pが計算され、特徴は部分距離計算により順位付けされてもよい。引き続いて、それぞれの候補隣接ファイルの全ての特徴は距離/ソートブロック552で結合され、各隣接候補間の全体の距離が計算される。隣接候補は、もっともマッチした候補あるいはマッチした候補のサブセットを識別するために、後述するように順位付けすることもできる。
このようにして、分類ツリー664を用いる最近傍検索では各ツリー664の特徴の初期ランキングのための部分距離計算が行われる。潜在的に最もよい候補や候補のサブセットは、既述のように多くの異なる手法で、初期の特徴の集合から選択することができる。各候補の部分距離計算は、最終候補を決定するうえで、完全な距離を決定(距離/ソートブロック552において)するために、分類ツリー664全体にわたる部分計算を結合することによって更に改良される。候補は最終の完全距離ベクトルの結果に応じてランキングすることができ、所定数のトップ候補はテストデジタルファイル313にアノテーション付けをするために選択される。分類ツリー664はタグ、トピックス、テーマなどといったカテゴリに応じてなど多くの異なる方法で構築することができる。例えば、他の一例として、各ツリー664は特定のタグや共通のテーマを共有するタグのグループに応じて構築することができる。
一実施形態としては、距離−重み付けスコアは各ラベル(タグ)に対して最もマッチした候補のクラスに応じて計算される。より具体的には、テストサンプルにもっともマッチする所定の数が10だとする。10のトレーニングサンプルをxi(ここでi = {1, …, 10})として記述し、テストサンプル(クエリ画像)はqとする。単純化のために、10個のサンプルはqからの距離に応じてソートされ、xiがqに最も近いトレーニングサンプルであり、10個のサンプル中でi番目に遠い距離をd(xi,q)とする。そうすると、各ラベル(タグ)l のスコアは次の式によって決定される。
ここで、δ(・)は、引数がゼロのときに1で、それ以外は0のデルタ関数である。Yi(l)=1は、ラベルl がトレーニングサンプルxiに適用されたことを、そしてYi(l)=−1はそれ以外であることを示す。最もマッチした重み付け投票スコアが、最もマッチしたテストデータアノテーション350を示す。
図6Cは、最終距離−重み付けスコアが計算された後のランク付けされた候補673のデータ構造を示す。一実施形態は、セット中の各候補673−1〜637−nについて、対応する距離−重み付けスコアがツリー全体にわたる部分距離計算を足し合わせることで計算される。こうして、候補673は各距離―重み付けスコアにそれぞれ応じてランキングされ、所定数の候補673が最もマッチしたあるいはマッチした候補のサブセットとして識別される。一実施形態では、各候補673−1〜673−nは、トレーニングデータ322からのそれぞれのファイルに対応する。あるいは、候補のクラス673は一つのタグあるいはタグのカテゴリを表すようにすることもできる。
図6Dは、他の実施形態に関わる、最もマッチした候補683−1〜683−nを識別するデータ構造680を示す。一旦最もマッチした候補683が決定すると、候補683はテストデータ312をアノテーション付けするために多くの手法を用いることができる。一実施形態としては、タグあるいはタグのセットは予め決定しておき、特定のタグがテストデータ312のテストデジタルファイル313にどの程度マッチするかを決定することにユーザが関心を持つかもしれない。あるいは、ユーザは、タグのクラスあるいはタグのクラスからのタグに、最もマッチしたファイルあるいはマッチしたファイルのサブセットに関心があるかもしれない。一実施形態において、タグ(あるいはタグのセット)とテストデジタルファイル313が与えられたとき、各最もマッチした候補683−1〜683−nは、距離−重み付けスコアを使ってタグやタグのクラスに対して投票をするために使われる。一実施形態では、各候補683−1〜683−nは、それぞれの距離−重み付けスコアが閾値に達しているかどうかで投票を行い、1か0の二値の投票682−1〜682−nを行う。投票結果はどの特定のタグあるいはタグのクラスをテストデジタルファイル313に関連付けることができるかの程度を決定するために結合されてもよい。例えば、テストデジタルファイル313と第一のタグが供給されているとして、もし10個の最もマッチした候補の中から6個に「1」の投票がなされたら、第一のタグの強さは0.6とする。第2のタグについて10中9個のタグに最もマッチした候補683が「1」であった場合には、第2のタグの強度は0.9である。この結果、第2のタグは与えられたテストデジタルファイル313によりマッチする。
図7は、一実施形態に関わる強化分類モジュール774を含む強化分類システム700のブロック図である。一実施形態において、強化分類システム700は図3の分類システム300に含まれる強化分類モジュール774を含み、アノテーション付けをデータファイルに行う処理をより改良するために用いられる。一実施形態では、関連付けられた特徴が選択され、関連付けられた特徴の候補結果は、強化分類手法(弱分類器(特徴が乏しい、あるいは単純な分類器)の組み合わせのセットから、より強化した分類器を反復して構築する適応型機械学習法)を用いて結合される。分類モジュール714は、第2のトレーニングデータ722と示されているトレーニングデータがさらに分類器532〜538を訓練するために用いられる点以外は、図3の分類モジュール314と同様に実行される。図3〜図6に既述されるのと同様のプロセスで、分類器532〜538は最近傍候補673、683を計算するために用いられる。弱分類器は、距離ベクトルと距離−重み付けスコアを第2のトレーニングデータ722と関連付けられた第2のアノテーションデータ730に対して再計算することでさらに教育される。最近傍候補673、683を決定するための新しい距離―重み付け値は付加的に重み付けられ、学習強化分類モジュール774中により強化された強化分類器を形成するために結合される。強化分類器は、今後受信するテストデータファイルをより正確にアノテーション付けする改善された分類器である。一実施形態では、第2のトレーニングデータ722は公開され入手可能な、例えばインターネット上のフリッカーやユーチューブのような情報源から得られる、第2のデータセットでもよい。一実施形態では、第2のトレーニングデータ722はユーザから提供される1以上のコンテントのセットである。ユーザにより提供されるコンテントは、各ファイルに予め関連付けられたユーザが提供するアノテーションを含んでも良い。一実施形態では、第2のトレーニングデータ722の多重反復が、再計算と学習される重み付けを改善するために用いられる。各反復で、組み合わせた弱分類器532〜538は、よりユーザの嗜好に近く、訓練されそして/またはカスタマイズされた強化分類器を生成する。一実施形態では、強化システム700のカスタマイゼーションを許すため、例えばユーザ自身のファイルのコレクションに対してユーザが作成したタグアノテーションのような、ユーザが提供する設定により各反復トレーニングが構成される。この結果、強化システム700は、データファイルと他の情報源にアノテーション付けするための、信頼性を構築し、カスタマイズ可能な高次元の分類システムを実現する、低コストの手段となる。
一実施形態においては、学習強化分類モジュール774は強化分類器を形成するために、弱分類器532〜538を次の数式に基づいて結合する。
ここで、Tは上記強化アルゴリズムの繰り返し回数、弱分類器ht(x,l)はサンプルファイルx(例えば、写真画像ファイル)とラベルlに対し、各ラベルlに応じてトレーニングサンプルαtを重み付けする分布で定義される。分布は次のように更新される。
ここで、Yx(l)は、ユーザにより提供されたあるいは手動でタグ付けされたタグlとサンプルファイルxに関する入力を表す。各回tにおいて、弱分類器htは、Dtで重み付けられたトレーニングサンプルに対し、小さな誤りで選択される。そして、Dtはモジュール774の強化分類器を訓練するために用いるサンプルを重み付ける分布である。アルゴリズムが進行すると、段々誤って分類されたサンプルを重み付けし、数式(3)におけるαtに関するエラーが減少するようにする。数式(3)、(4)に示した強化分類器の訓練メカニズムは、繰り返しによって最終的な強化分類器のハミング(Hamming)損失(ラベルあたりの総損失)の上限を減少させ、エラーを減少させる。
一実施形態では、強化分類器は、弱学習器(Weak Learner)の候補セットHp={h1(・), h2(・),…hK(・)}から学習可能であり、次に示す集合コスト関数(collective cost function 複数ファイルの複数タグの平均エラー)を各繰り返しt=1,…,Tで最適化する。
ロジスティックコスト関数(logistic cost function)は、全ラベルY(l)、l=1,…,Lとトレーニングデータ中のサンプルxi=1,…,Nにわたる全体のエラー含む。そして、一連の繰り返しにおいて、強化分類器ht∈Hpは交換なしに選択され、強化分類器は最適化された重み付けを各ラベルαt(l)に関して学習する。
一実施形態では、弱分類器は最適化された重み付けを持つように選択され、選択された分類器は数式(5)の結合ロジスティック損失(joint logistic loss)を最適化するために、すべての分類器にわたって用いられる。一方、ラベルあたりの損失を最小化するより集合損失を最適化する目的で弱分類器を選択することは、次に最適な方法である。言い換えると、もし同じアプローチが利用されればパフォーマンスは改善するが、各ラベルごとの損失は独立して最小化される。一実施形態では、より多くの弱分類器を集合ラベリング(Collective Labelling)作業のために使用してもよい。しかし、このアプローチは、もし追加された弱分類器の追加の計算が不要で、単に記憶装置を追加すればよいのであれば扱いやすい。さらに、一実施形態としては、強化分類器の訓練はオフラインで行うこともできる。重みと分類は、テスト時間が著しく増加しないように予め計算される。Hpの計算はラベル数には決定的には依存しない。むしろ、トレーニングセットのサイズと特徴表現の次元が計算上の複雑性を決定する。
まとめると、ラベル(タグ)は、効率を犠牲にすることなくエラーを減少させるために、学習された強化分類モジュール774と第2のトレーニングデータ722を用いて、他のラベルと大規模なデータセットを用いるアノテーション付けをすることができる。さらに、最近傍アプローチは、システム300、700が大規模な量の高次元のメディアファイルを管理し計算上の複雑性を伴わないようにするために、全ての候補に対して共有されるツリーの一つのセットを訓練することが必要である。
図8は、本発明の一実施形態に関わる図7に関して説明した処理手順に基づいて訓練された強化分類モジュール814を含むメディアファイル分類システム800のブロック図である。前述のように強化分類モジュール814は、分類モジュール314により実現される弱分類器(分類器532〜538)に繰り返し重みを与える追加的な手段を提供する。一実施形態において、一旦システム800が訓練、試験そして改良されると、ユーザはユーザ自身のデジタル画像ファイルのアノテーション付けされたコレクションであるユーザトレーニングデータ822を、強化分類モジュール814に適用することが可能であり、分類器532〜538をユーザの個人コレクションに関する重みを学習させて強化分類器がユーザのアノテーションデータ830を予測するように更新することができる。強化分類システム800はその後にユーザにより提供された受信データファイル812に関するアノテーション850を生成してアノテーション付けするために使用することができる。一実施形態では、データファイル812が例えばデジタルカメラ、携帯電話、パーソナルコンピュータ、ラップトップコンピュータ、PDAあるいは他の携帯デバイスなどからのファイルであってもよい。テストデータ312と同様に、データファイル812もまたユーザ自身の所持するデータコレクション、および/あるいは公開されたウェブサイトやインターネットを介して他のユーザから得たデータであってもよい。
一実施形態における例示として、写真共有サイトであるフリッカー(Flicker)から収集した大規模なデータセットを用いて訓練されたメディア分類システム300、800と他の公知の自動アノテーション方法とを比較する。56,315枚のデジタル画像写真が、人気のあるタグのセットの中の少なくとも1つを保持するように選択される。写真はランダムに略同数の28,157枚の訓練セットと28,158枚のテストセットに分割する。ダウンロードした写真の少なくとも450枚について、34個の人気のあるラベル(タグ)がテスト用に選択される(写真セットは5,000以上のタグを含んでいる)。これらのラベルに対して、最近傍の決定がシステム300とシステム800を用いて為され、各システム300、800からのそれぞれの結果が、一般的であって競合する基本的なアプローチである標準的なサポートベクトルマシン(SVMs)を用いた結果と比較される。強化重みを訓練するうえで、実験におけるテストセットとの乖離が小さくなるように(テストセット全体のサイズは28,158枚)、テストセットから3,128枚の写真が使用される。
この実験結果を表1に示す。それぞれシステム300と800を用いた最近傍法と強化アプローチは、SVM法における平均精度の平均(mean average precision (MAP))とほぼ同等か改善される。
特に、強化によって全体的なパフォーマンスが改善する。例えば、表1でSVM法ではMAPが(eh17 7x7において)0.114〜0.124との結果であり、最近傍法NN(システム300)では、MAPが0.126と若干の改善を示している。比較して、最近傍法と強化法を用いる(システム800)MAPの結果(NN+MSBOOST)は0.142とずっと高い精度のパフォーマンスを示している。表1は、他のタグと大規模データセットを利用することが可能で、与えられたラベル(あるいはタグ)でアノテーション付けすることが効果的であることを示している。
図9は、一実施形態における、メディアファイル分類システム300、800を実現するための方法900のフローチャートを示す。方法900は、デジタル画像ファイルの画像ファイル分類/アノテーションの自動化のための方法を表す。一実施形態では、この方法は、各デジタルファイルに1以上の関連付けられたアノテーションを含む、第一の複数のデジタルファイルの複数の第1の特徴から1セットの分類器を生成することを含んでいる(910)。ステップ920で、第2の複数のデジタルファイルの少なくとも1つから抽出された複数の第2の特徴がステップ910の分類器のセットに応じてソートされる。第2の特徴と、対応する一つの分類器の各複数の第一の特徴間の距離ベクトルが決定され、特徴は決定された距離に応じて順位付けられる(930)。ステップ940で、それぞれ1以上の関連付けられたアノテーションに対応する、最もマッチしたファイルあるいはマッチしたファイルのサブセットがランキングに応じて選択される。そしてステップ950で、最もマッチしたファイルあるいはマッチしたファイルのサブセットから1以上のアノテーションが、対応する分類器を用いて第2の複数のデジタルファイルの少なくとも一つに関連付けられる。
図10Aと図10Bは、他の実施形態に関わるメディアファイル分類/アノテーションシステム300、800を実現する方法1000を示すフローチャートである。一実施形態では、方法1000は、各画像ファイルに1以上の関連付けられたアノテーションを含む、第1の複数の画像ファイルのそれぞれから複数の第1の特徴を抽出することを含んでいる(1010)。各第一の画像ファイルについて、第一の特徴は複数の第一の特徴のサブセットに分割される(1020)。ステップ1030では、複数の分類器が第1の特徴のサブセットのそれぞれに対して形成される。複数の第2の特徴が複数の第2の画像ファイルのそれぞれから抽出される(1040)。第2の画像ファイルに対して、ステップ1050では、第2の特徴は複数の第2の特徴のサブセットに分割され、その複数の第2の特徴のサブセットは対応する一つの分類器を用いて保存され、各第2の特徴のサブセットと対応する一つの分類器の第1の特徴との間の距離が決定される(1060)。特定の第2の画像ファイルの全てのサブセットに関する距離に基づいて、特定の1以上の分類器にマッチしたファイルのサブセットから第1の画像ファイルが決定される(1070)。ステップ1080で、特定の第2の画像ファイルが、マッチした第1画像ファイルの選択されたグループに対して関連付けられたアノテーションから得られた、1以上のアノテーションに関連付けられる。
図11は、他の実施形態に関わるメディアファイル分類システム300、800を実現する方法1100を示すフローチャートである。この方法は、各画像ファイルに1以上の関連付けられたアノテーションを含む、第一の複数の画像ファイルのそれぞれから複数の第1の特徴を抽出することを含んでいる(1110)。またこの方法は、各第1の画像ファイルの第1の特徴を第1の特徴の複数のサブセットに分割することを含む(1120)。分類器は第1の特徴の複数のサブセットに対して形成され(1130)、各分類器は複数の第1の画像ファイルのそれぞれからのそれぞれの特徴のサブセットに対応する。ステップ1140では、各複数の第2の画像ファイルから複数の第2の特徴が抽出され、ステップ1150では、第2の特徴が各第2の画像ファイルに対して第2の複数の特徴のサブセットに分割される。ステップ1160では、各サブセットには、第2の特徴の各サブセットと第1特徴の間の距離が対応する一つの分類器を用いて決定される。ステップ1170では、特定の第2の画像のサブセットの距離に基づいて、特定の1以上の分類器に対してマッチしたファイルのサブセットからマッチした画像ファイルが決定される。
なお、これまでの説明を目的とした既述は特定の実施形態を参照して説明している。しかし、こうした説明は開示したとおりに本発明が限定されることを意図するものではない。多くの変更や変更が、この教示に基づいて可能である。実施形態はもっとも本発明の原理や具体的用途を説明しやすいために選択され既述されたものであり、それゆえに本技術分野の当業者であれば発明や多様な変更を特定用途において適当となるよう変更を加えて利用することが可能である。
800 メディアファイル分類システム
314 分類モジュール
812 データファイル
814 強化分類モジュール
822 ユーザトレーニングデータ
830 ユーザアノテーション
850 データファイルアノテーション
314 分類モジュール
812 データファイル
814 強化分類モジュール
822 ユーザトレーニングデータ
830 ユーザアノテーション
850 データファイルアノテーション
Claims (19)
- 分類器生成手段が、それぞれ1以上の関連付けられたアノテーションを含む複数の第1のデジタルファイルの複数の第1の特徴から分類器のセットを生成し、
ソート手段が、前記複数の分類器に基づいて、複数の第2のデジタルファイルの少なくとも1つから抽出された複数の第2の特徴をソートし、
距離順位付け手段が、前記複数の第2の特徴と各前記第1の特徴との間の距離ベクトルを、対応する分類器のそれぞれに対して決定し、決定された前記距離ベクトルに基づく距離を順位付けし、
選択手段が、前記順位付けに基づいて、それぞれ1以上の関連付けされたアノテーションに対応する、所定条件にマッチしたファイルのサブセットを選択し、
アノテーション関連付け手段が、前記マッチしたファイルのサブセットと関連付けられたアノテーションから1以上のアノテーションを、前記複数の第2のデジタルファイルの少なくとも一つに、対応する前記分類器を用いて関連付ける、
コンピュータを用いてデジタルファイルにアノテーション付けを行う方法。 - 更に、
重み決定手段が、前記複数の第2のデジタルファイルの前記少なくとも1つを前記複数の分類器に適用して各前記複数の分類器に応じた重みを決定し、
重み結合手段が、1以上の前記分類器に応じて前記重み値を結合し、
前記アノテーション関連付け手段が、マッチしたファイルの各サブセットの1以上のアノテーションを、結合した前記重み値に基づいて、前記複数の第2のデジタルファイルの少なくとも1つに関連付けることを特徴とする請求項1記載のアノテーション付けを行う方法。 - 前記アノテーション関連付け手段が、前記複数の第2のデジタルファイルを、前記対応する分類器に応じて1以上のユーザにより供給されるアノテーションに関連付けし、
1以上のアノテーションが対応する分類器のそれぞれを用いて前記複数の第2のデジタルファイルのそれぞれに1以上のアノテーションを関連付け、
受信手段が、第3の複数のデジタルファイルを受信し、
特徴抽出手段が、前記第3の複数のデジタルファイルから複数の第3の特徴を抽出し、
分割手段が、前記複数の第3の特徴を前記第3の特徴の複数のサブセットに分割し、
再計算手段が、対応する前記分類器のそれぞれを用いて前記第3の特徴の複数のサブセットをソートし、前記第3の特徴のサブセットのそれぞれと対応する前記分類器の前記第2の特徴の間の距離を再計算し、
重み決定手段が、前記再計算された距離に基づいて前記複数の分類器のそれぞれに対しての重み値を決定し、
前記アノテーション関連付け手段が、前記複数の第3のデジタルファイルの少なくとも一つに1以上のアノテーションを、1以上の前記重み値に基づいて、マッチした第1および第2のデジタルファイルの各サブセットのアノテーションを用いて、関連付けることを特徴とする請求項1記載のアノテーション付けを行う方法。 - 更に、
重み値更新手段が、1以上のユーザが設定したアノテーションを有するデジタルファイルを受信するのに応じて、一以上の前記重み値を更新することを特徴とする請求項3記載のアノテーション付けを行う方法。 - 前記選択手段は、前記マッチしたファイルの選択において、所定の基準に基づいてマッチしたファイルのサブセットを選択することを含む、請求項1記載のアノテーション付けを行う方法。
- 前記所定の基準は前記第1および第2の特徴間の最近傍計算を比較する重み付け距離値に基づくことを特徴とする請求項5記載のアノテーション付けを行う方法。
- 前記分類器生成手段は、
前記複数の分類器の生成において、複数のk次元ツリーを生成することを含み、
前記マッチしたファイルのサブセットの選択においては、少なくとも10個の最近傍を各前記複数のk次元ツリーにマッチするファイルのサブセットに基づいて選択することを含むことを特徴とする請求項1記載のアノテーション付けを行う方法。 - 前記アノテーション関連付け手段が、前記マッチしたファイルのサブセットとそれぞれ関連付けられたアノテーションから1以上のアノテーションを、前記複数の第2のデジタルファイルの少なくとも一つに、対応する前記分類器のそれぞれを用いて関連付けることは、各最近傍に前記各分類器に対応する重み値に基づいて投票を行うことで決定し、1以上のアノテーションを、各最近傍への投票あるいは投票の合計に基づいて前記受信したデジタルファイルに関連付けることを含むことを特徴とする請求項7記載のアノテーション付けを行う方法。
- 第1の分類器生成手段が、
1以上の関連付けられたアノテーションを含む複数の第1のデジタルファイルのそれぞれから複数の第1の特徴を抽出し、
前記第1のデジタルファイルを複数の前記第1の特徴のサブセットに分割し、
前記第1の特徴の各サブセットの複数の分類器を形成し、
第2の特徴サブセット生成手段が、
複数のデジタルファイルのそれぞれから複数の第2の特徴を抽出し、
前記複数の第2のファイルを前記第2の特徴の複数のサブセットに分割し、
ソート手段が、前記第2の特徴の複数のサブセットを対応する前記複数の分類器に応じてソートし、
距離決定手段が、前記第2の特徴のサブセットのそれぞれと前記対応する複数の分類器の前記第1の特徴との間の距離を決定し、
選択手段が、特定の一つの前記第2のデジタルファイルの全てのサブセットの距離に基づいて、特定の1以上の前記分類器にマッチしたファイルのサブセットから前記第1のデジタルファイルを決定し、
アノテーション関連付け手段が、前記第2のデジタルファイルの前記特定の一つを、第1のデジタルファイルにマッチするグループのデジタルファイルから得られる1以上のアノテーションに関連付けることを特徴とするコンピュータを用いてアノテーション付けをする方法。 - 前記複数の第2のデジタルファイルは1以上のユーザにより提供されたアノテーションと関連付けられ、
前記アノテーション関連付け手段が、前記対応する分類器を用いて、1以上のアノテーションを各前記複数の第2デジタルファイルに関連付け、
受信手段が、第3の複数のデジタルファイルを受信し、
特徴抽出手段が、少なくとも一つの前記第3の複数のデジタルファイルから複数の第3の特徴を前記対応する一つの分類器を用いて抽出し、
分割手段が、前記複数の第3の特徴を複数の前記第3の特徴のサブセットに分割し、
前記ソート手段が、前記複数の第3の特徴のサブセットを対応する前記分類器の一つをもちいてソートし、
再計算手段が、各前記第3の特徴のサブセットと前記対応する分類器の前記第2の特徴との間の距離を再計算し、
前記選択手段が、1以上の特徴のサブセットの距離に基づいて、前記特定の1以上の前記分類器にマッチするファイルのサブセットから、マッチする前記第1および第2のデジタルファイルを決定し、
重み決定手段が、前記再計算した距離に基づいて各1以上の前記分類器に応じた重み値を決定し、
前記アノテーション関連付け手段が、少なくとも一つの前記複数の第3のデジタルファイルと、前記各マッチした第1および第2のデジタルファイルのアノテーションからの1以上のアノテーションを、1以上の前記重み値に基づいて、関連付けることを特徴とする請求項9記載のアノテーション付けをする方法。 - 前記重み決定手段は、1以上の前記重み値を1以上のユーザが提供するアノテーションを含む受信デジタルファイルに応じて更新し、現在の前記重み値を調整するために一以上の重み値を1以上の前記分類器に応じて選択することを特徴とする請求項10記載のアノテーション付けをする方法。
- 前記選択手段は、特定の1以上の前記分類器にマッチしたサブセットからマッチする前記第2のデジタルファイルを選択するときに、所定の距離条件に合致する距離に対応する前記第2のデジタルファイルにマッチする1以上の分類器を選択することを特徴とする請求項9記載のアノテーション付けをする方法。
- コンピュータに、
分類器生成手段が、それぞれ1以上の関連付けられたアノテーションを含む複数の第1のデジタルファイルの複数の第1の特徴から分類器のセットを生成し、
ソート手段が、前記複数の分類器に応じて基づいて、複数の第2のデジタルファイルの少なくとも1つから抽出された複数の第2の特徴をソートし、
距離順位付け手段が、前記複数の第2の特徴と各前記第1の特徴との間の距離ベクトルを、対応する分類器のそれぞれに対して決定し、決定された前記距離ベクトルに基づく距離を順位付けし、
選択手段が、前記順位付けに基づいて、それぞれ1以上の関連付けされたアノテーションに対応する、所定条件にマッチしたファイルのサブセットを選択し、
アノテーション関連付け手段が、前記マッチしたファイルのサブセットと関連付けられたアノテーションから1以上のアノテーションを、前記複数の第2のデジタルファイルの少なくとも一つに、対応する前記分類器を用いて関連付ける、
手順を実行させ、デジタルファイルにアノテーション付けを行うためのコンピュータプログラム。 - 更に、
重み決定手段が、前記少なくとも一つの複数の第2のデジタルファイルを前記複数の分類器に適用して各前記複数の分類器に応じた重みを決定し、
重み結合手段が、前記1以上の分類器に応じて前記重み値を結合し、
前記アノテーション関連付け手段が、合致ファイルの各サブセットの1以上のアノテーションを、前記結合した重み値に基づいて、前記複数の第2のデジタルファイルの少なくとも一つに関連付けることを特徴とする請求項13記載のアノテーション付けを行うためのコンピュータプログラム。 - 前記アノテーション関連付け手段が、前記複数の第2のデジタルファイルを、前記対応する分類器に応じて1以上のユーザにより供給されるアノテーションに関連付けし、
1以上のアノテーションが対応する分類器のそれぞれを用いて前記複数の第2のデジタルファイルのそれぞれに1以上のアノテーションを関連付け、
受信手段が、第3の複数のデジタルファイルを受信し、
特徴抽出手段が、前記第3の複数のデジタルファイルから複数の第3の特徴を抽出し、
分割手段が、前記複数の第3の特徴を前記第3の特徴の複数のサブセットに分割し、
再計算手段が、対応する前記分類器のそれぞれを用いて前記第3の特徴の複数のサブセットをソートし、前記第3の特徴のサブセットのそれぞれと対応する前記分類器の前記第2の特徴の間の距離を再計算し、
重み決定手段が、前記再計算された距離に基づいて前記複数の分類器のそれぞれに対しての重み値を決定し、
前記アノテーション関連付け手段が、前記少なくとも一つの複数の第3のデジタルファイルに1以上のアノテーションを、1以上の前記重み値に基づいて、合致した第1および第2のデジタルファイルの各サブセットのアノテーションを用いて、関連付けることを特徴とする請求項13記載のアノテーション付けを行うためのコンピュータプログラム。 - コンピュータに、
第1の分類器生成手段が、
1以上の関連付けられたアノテーションを含む複数の第1のデジタルファイルのそれぞれから複数の第1の特徴を抽出し、
前記第1のデジタルファイルを複数の前記第1の特徴のサブセットに分割し、
前記第1の特徴の各サブセットの複数の分類器を形成し、
第2の特徴サブセット生成手段が、
複数のデジタルファイルのそれぞれから複数の第2の特徴を抽出し、
前記複数の第2のファイルを前記第2の特徴の複数のサブセットに分割し、
ソート手段が、前記第2の特徴の複数のサブセットを対応する前記複数の分類器に応じてソートし、
距離決定手段が、前記第2の特徴のサブセットのそれぞれと前記対応する複数の分類器の前記第1の特徴との間の距離を決定し、
選択手段が、特定の一つの前記第2のデジタルファイルの全てのサブセットの距離に基づいて、特定の1以上の前記分類器にマッチしたファイルのサブセットから前記第1のデジタルファイルを決定し、
アノテーション関連付け手段が、前記第2のデジタルファイルの前記特定の一つを、第1のデジタルファイルに合致するグループのデジタルファイルから得られる1以上のアノテーションに関連付ける手順を実行させ、
アノテーション付けを行うためのコンピュータプログラム。 - 前記複数の第2のデジタルファイルは1以上のユーザにより提供されたアノテーションと関連付けられ、
前記アノテーション関連付け手段が、前記対応する分類器を用いて、1以上のアノテーションを各前記複数の第2デジタルファイルに関連付け、
受信手段が、第3の複数のデジタルファイルを受信し、
特徴抽出手段が、少なくとも一つの前記第3の複数のデジタルファイルから複数の第3の特徴を前記対応する一つの分類器を用いて抽出し、
分割手段が、前記複数の第3の特徴を複数の前記第3の特徴のサブセットに分割し、
前記ソート手段が、前記複数の第3の特徴のサブセットを対応する前記分類器の一つを用いてソートし、
再計算手段が、各前記第3の特徴のサブセットと前記対応する分類器の前記第2の特徴との間の距離を再計算し、
前記選択手段が、1以上の特徴のサブセットの距離に基づいて、前記特定の1以上の前記分類器にマッチするファイルのサブセットから、マッチする前記第1および第2のデジタルファイルを決定し、
重み決定手段が、前記再計算した距離に基づいて各1以上の前記分類器に応じた重み値を決定し、
前記アノテーション関連付け手段が、少なくとも一つの前記複数の第3のデジタルファイルと、前記各マッチした第1および第2のデジタルファイルのアノテーションからの1以上のアノテーションを、1以上の前記重み値に基づいて、関連付けることを特徴とする請求項16記載のアノテーション付けを行うためのコンピュータプログラム。 - 前記重み決定手段は、1以上の前記重み値を1以上のユーザが提供するアノテーションを含む受信デジタルファイルに応じて更新し、現在の前記重み値を調整するために一以上の重み値を1以上の前記分類器に応じて選択することを特徴とする請求項17記載のアノテーション付けを行うためのコンピュータプログラム。
- 前記選択手段は、特定の1以上の前記分類器にマッチしたサブセットからマッチする前記第2のデジタルファイルを選択するときに、所定の距離条件に合致する距離に対応する前記第2のデジタルファイルにマッチする1以上の分類器を選択することを請求項16記載のアノテーション付けを行うためのコンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/353,212 US8340405B2 (en) | 2009-01-13 | 2009-01-13 | Systems and methods for scalable media categorization |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010165348A true JP2010165348A (ja) | 2010-07-29 |
Family
ID=42319135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009290548A Pending JP2010165348A (ja) | 2009-01-13 | 2009-12-22 | アノテーション付けを行う方法およびそのためのコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8340405B2 (ja) |
JP (1) | JP2010165348A (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110072047A1 (en) * | 2009-09-21 | 2011-03-24 | Microsoft Corporation | Interest Learning from an Image Collection for Advertising |
US9836482B2 (en) * | 2009-12-29 | 2017-12-05 | Google Inc. | Query categorization based on image results |
US8559731B2 (en) * | 2010-01-18 | 2013-10-15 | International Business Machines Corporation | Personalized tag ranking |
US8903798B2 (en) | 2010-05-28 | 2014-12-02 | Microsoft Corporation | Real-time annotation and enrichment of captured video |
US9703782B2 (en) | 2010-05-28 | 2017-07-11 | Microsoft Technology Licensing, Llc | Associating media with metadata of near-duplicates |
US8787682B2 (en) * | 2011-03-22 | 2014-07-22 | Nec Laboratories America, Inc. | Fast image classification by vocabulary tree based image retrieval |
US9678992B2 (en) | 2011-05-18 | 2017-06-13 | Microsoft Technology Licensing, Llc | Text to image translation |
US20120328184A1 (en) * | 2011-06-22 | 2012-12-27 | Feng Tang | Optically characterizing objects |
US20130108179A1 (en) * | 2011-10-26 | 2013-05-02 | Xerox Corporation | Personalized photo calendar generation system and method |
US9286414B2 (en) * | 2011-12-02 | 2016-03-15 | Microsoft Technology Licensing, Llc | Data discovery and description service |
US9292094B2 (en) | 2011-12-16 | 2016-03-22 | Microsoft Technology Licensing, Llc | Gesture inferred vocabulary bindings |
WO2013191858A1 (en) * | 2012-06-22 | 2013-12-27 | Thomson Licensing | A method and system for providing recommendations |
US9454732B1 (en) * | 2012-11-21 | 2016-09-27 | Amazon Technologies, Inc. | Adaptive machine learning platform |
US9646226B2 (en) * | 2013-04-16 | 2017-05-09 | The Penn State Research Foundation | Instance-weighted mixture modeling to enhance training collections for image annotation |
US9811778B2 (en) * | 2013-10-25 | 2017-11-07 | International Business Machines Corporation | Social collaboration in probabilistic prediction |
US9536522B1 (en) * | 2013-12-30 | 2017-01-03 | Google Inc. | Training a natural language processing model with information retrieval model annotations |
WO2015116971A1 (en) * | 2014-01-31 | 2015-08-06 | Heller Noah Raymond | Determination of aesthetic preferences based on user history |
US20150324689A1 (en) * | 2014-05-12 | 2015-11-12 | Qualcomm Incorporated | Customized classifier over common features |
JP6628803B2 (ja) * | 2014-09-15 | 2020-01-15 | テマセク・ライフ・サイエンシーズ・ラボラトリー・リミテッドTemasek Life Sciences Laboratory Limited | 画像認識システム及び方法 |
US9953661B2 (en) * | 2014-09-26 | 2018-04-24 | Cirrus Logic Inc. | Neural network voice activity detection employing running range normalization |
US9767386B2 (en) * | 2015-06-23 | 2017-09-19 | Adobe Systems Incorporated | Training a classifier algorithm used for automatically generating tags to be applied to images |
US10467284B2 (en) | 2015-08-03 | 2019-11-05 | Google Llc | Establishment anchoring with geolocated imagery |
US10586171B2 (en) * | 2016-05-31 | 2020-03-10 | International Business Machines Corporation | Parallel ensemble of support vector machines |
US10430649B2 (en) | 2017-07-14 | 2019-10-01 | Adobe Inc. | Text region detection in digital images using image tag filtering |
EP3731154A1 (en) * | 2019-04-26 | 2020-10-28 | Naver Corporation | Training a convolutional neural network for image retrieval with a listwise ranking loss function |
US11366989B2 (en) * | 2019-08-20 | 2022-06-21 | Microsoft Technology Licensing, Llc | Negative sampling algorithm for enhanced image classification |
US11270121B2 (en) | 2019-08-20 | 2022-03-08 | Microsoft Technology Licensing, Llc | Semi supervised animated character recognition in video |
CN110704624B (zh) * | 2019-09-30 | 2021-08-10 | 武汉大学 | 一种地理信息服务元数据文本多层级多标签分类方法 |
GB2588614B (en) * | 2019-10-29 | 2023-01-11 | Samsung Electronics Co Ltd | Method and system for customising a machine learning model |
EP3997625A4 (en) | 2019-10-29 | 2022-11-09 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND ASSOCIATED CONTROL METHOD |
US11966434B2 (en) * | 2021-02-12 | 2024-04-23 | Walmart Apollo, Llc | System and method for determining item labels based on item images |
US11450107B1 (en) | 2021-03-10 | 2022-09-20 | Microsoft Technology Licensing, Llc | Dynamic detection and recognition of media subjects |
US20230052433A1 (en) * | 2021-08-16 | 2023-02-16 | Samsung Electronics Co., Ltd. | Accelerator to reduce data dimensionality and associated systems and methods |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5579471A (en) * | 1992-11-09 | 1996-11-26 | International Business Machines Corporation | Image query system and method |
US5647058A (en) * | 1993-05-24 | 1997-07-08 | International Business Machines Corporation | Method for high-dimensionality indexing in a multi-media database |
KR100284778B1 (ko) * | 1998-10-28 | 2001-03-15 | 정선종 | 내용기반 이미지 검색을 위한 고차원 색인구조의 삽입 방법 |
US7519565B2 (en) * | 2003-11-03 | 2009-04-14 | Cloudmark, Inc. | Methods and apparatuses for classifying electronic documents |
US7590310B2 (en) * | 2004-05-05 | 2009-09-15 | Facet Technology Corp. | Methods and apparatus for automated true object-based image analysis and retrieval |
CN100472556C (zh) * | 2005-10-09 | 2009-03-25 | 欧姆龙株式会社 | 特定被摄体检测装置及方法 |
US7907755B1 (en) * | 2006-05-10 | 2011-03-15 | Aol Inc. | Detecting facial similarity based on human perception of facial similarity |
-
2009
- 2009-01-13 US US12/353,212 patent/US8340405B2/en active Active
- 2009-12-22 JP JP2009290548A patent/JP2010165348A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20100177956A1 (en) | 2010-07-15 |
US8340405B2 (en) | 2012-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2010165348A (ja) | アノテーション付けを行う方法およびそのためのコンピュータプログラム | |
CN109063163B (zh) | 一种音乐推荐的方法、装置、终端设备和介质 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
US9589208B2 (en) | Retrieval of similar images to a query image | |
CN105210064B (zh) | 使用深度网络将资源分类 | |
US9110922B2 (en) | Joint embedding for item association | |
US7716150B2 (en) | Machine learning system for analyzing and establishing tagging trends based on convergence criteria | |
US20170344822A1 (en) | Semantic representation of the content of an image | |
EP2783303A1 (en) | Prototype-based re-ranking of search results | |
CN114298122B (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN111080551B (zh) | 基于深度卷积特征和语义近邻的多标签图像补全方法 | |
CN114372532B (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
Manne et al. | Text categorization with K-nearest neighbor approach | |
Prasanth et al. | Effective big data retrieval using deep learning modified neural networks | |
Tian et al. | Image search reranking with hierarchical topic awareness | |
CN117203629A (zh) | 使用图和神经网络的极限分类处理 | |
TW201243627A (en) | Multi-label text categorization based on fuzzy similarity and k nearest neighbors | |
Qi et al. | Video annotation by active learning and cluster tuning | |
Tian et al. | Automatic image annotation with real-world community contributed data set | |
Xie et al. | Analyzing semantic correlation for cross-modal retrieval | |
CN109446408A (zh) | 检索相似数据的方法、装置、设备及计算机可读存储介质 | |
TWI573034B (zh) | Application Method and System of Application Service Data on Information Platform | |
Wang et al. | An efficient refinement algorithm for multi-label image annotation with correlation model | |
Tostrup et al. | Massive patent data mining |