JP2014524058A5

JP2014524058A5 -

Info

Publication number: JP2014524058A5
Application number: JP2014505107A
Authority: JP
Filing date: 2012-04-11
Publication date: 2016-09-29
Anticipated expiration: 2032-04-11

Description

各専門製品画像について、シグネチャ生成モジュール230は、以下の式（1）で定義される類似性測度に基づいて、専門製品画像と関連付けられる拡張製品画像の中から、所定数の最も近い近隣画像を選択する：

式中、xおよびyは2つのBoVWヒストグラムであり、Dはヒストグラムの長さである。このようにして、シグネチャ生成モジュール230は、所与の製品についてのkn枚の確実な訓練画像を獲得し、kは専門製品画像の数であり、nは専門製品画像の所定の最も近い近隣画像（すなわち拡張製品画像）数である。

ビデオ内製品アノテーション訓練画像の収集をさらに例示するために、図3に、ディジタルカメラ、Canon 40Dのための訓練データ収集プロセスの例を示す。製品視覚シグネチャ生成モジュール200は、オンライン販売業者のAMAZON（商標）から、このカメラの5枚の専門製品画像302を収集する。各専門製品画像について、製品視覚シグネチャ生成モジュール200は、GOOGLE（商標）サーチエンジンを使用してインターネットをサーチして、いくつかの関連する製品画像304を収集する。インターネットサーチから得られる製品画像はノイズの多い（例えば、製品と無関係なテキストを含む）ものである可能性があるため、製品視覚シグネチャ生成モジュール200は、専門製品画像に基づいて関連する製品画像をフィルタリングする。例えば、各専門製品画像について、製品視覚シグネチャ生成モジュール200は、後述する相関疎化を適用して、インターネットサーチの中から製品画像の所定数の最も近い近隣画像を選択することによってノイズを低減させる。関連する製品画像の選択は、関連する製品画像とその対応する専門製品画像の間の類似性測度に基づくものである。フィルタリングの結果として、製品視覚シグネチャ生成モジュール200は、ディジタルカメラ、Canon 40Dについての1組の訓練例306を獲得し、ここで製品視覚シグネチャ生成モジュール200は、ディジタルカメラ、Canon 40Dのための視覚シグネチャを生成する。

2組の製品画像の間の類似性は、式（6）によって以下のように定義される：

式中、｜p_i｜および｜p_j｜は画像集合P_iおよびP_jについての画像の数であり、P_i ^（k）は、集合P_i内の第kの製品を指示し、sim（.,.）は、異なる集合からの画像対の類似性である。式（6）で定義される類似性測度は以下の特性を有する。
（1）w_ij＝w_ji:類似性は対称である。
（2）P_i＝P_jの場合、w_ij＝1:2つの製品の画像集合が同一である場合、2つの製品の類似性は1である。
（3）あらゆるp'∈P_iおよびp"∈P_jについてsim（p',p"）＝0の場合に限り、w（p_i,p_j）＝0:2つの画像集合によって形成されるあらゆる対がゼロの類似性を有する場合に限り、類似性は0である。

Claims

以下の工程を含む、1人または複数のユーザにビデオ内の製品アノテーションを提供するためのコンピュータ方法:
製品アノテーションのためのビデオを受け取る工程であって、該ビデオが複数のビデオフレームを含む、工程;
該ビデオフレームから複数のキーフレームを抽出する工程;ならびに
各キーフレームについて、
該キーフレームの視覚表現を生成する工程;
該視覚表現を複数の製品視覚シグネチャと比較する工程;および
該比較に基づき、該キーフレームが該製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定する工程。
前記ビデオから複数のキーフレームを抽出する工程が、
該複数のキーフレームの各々を該ビデオの固定点で抽出する工程
を含む、請求項1記載の方法。
キーフレームの視覚シグネチャを生成する工程が、
該キーフレームから複数の視覚特徴を抽出する工程;
該複数の視覚特徴を複数のクラスタへとグループ化する工程;および
該キーフレームの該視覚シグネチャとして多次元のバッグ・オブ・ビジュアルワード（bag visual words）ヒストグラムを生成する工程
を含む、請求項1記載の方法。
キーフレームの前記複数の視覚特徴が、該キーフレームのスケール不変特徴変換（Scale Invariant Feature Transform；SIFT）記述子である、請求項3記載の方法。
複数の製品のうちの各製品について、
該製品の複数の訓練画像を収集する工程;および
該製品の該収集した訓練画像から該製品の視覚シグネチャを生成する工程
をさらに含む、請求項1記載の方法。
製品の前記複数の訓練画像を収集する工程が、
専門製品リポジトリから該製品の複数の専門製品画像を収集する工程;
該製品の各専門製品画像について、
複数のウェブリソースから複数の関連する製品画像をサーチする工程;および
各関連する製品画像と該専門製品画像の間の類似性測度に基づいて、所定数の関連する製品画像を選択する工程
を含み、
該専門製品画像および該選択された関連する製品画像が、該製品の該訓練画像を構成する、
請求項5記載の方法。
前記製品の前記収集した訓練画像から該製品の視覚シグネチャを生成する工程が、
該製品の該訓練画像に一括疎化方式を適用する工程であって、関連する製品画像に含まれる該製品と無関係な情報が、該製品の該視覚シグネチャの生成の際に低減される、工程
を含む、請求項5記載の方法。
前記製品の前記収集した訓練画像から該製品の視覚シグネチャを生成する工程が、
該製品の該視覚シグネチャを所定回数の反復によって繰り返し更新する工程
をさらに含む、請求項5記載の方法。
製品の前記複数の専門製品画像が、該製品の様々な視点（view）における専門製品画像を含む、請求項5記載の方法。
キーフレームが前記製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定する工程が、
該キーフレームの前記視覚表現と複数の該製品視覚シグネチャのうちの該製品視覚シグネチャの各々との間の製品関連性を推定する工程;および
該推定した製品関連性に基づいて、キーフレームが該製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定する工程
を含む、請求項1記載の方法。
1人または複数のユーザにオンデマンドのディジタル資産ホスティングサービスを提供するための実行可能コンピュータプログラム命令を記憶した非一時的なコンピュータ可読記憶媒体であって、該コンピュータプログラム命令が、
製品アノテーションのためのビデオをユーザから受け取るための命令であって、該ビデオが複数のビデオフレームを含む、命令;
該ビデオから複数のキーフレームを抽出するための命令;ならびに
各キーフレームについて、
該キーフレームの視覚表現を生成するための命令;
該視覚表現を複数の製品視覚シグネチャと比較するための命令;
該比較に基づき、該キーフレームが該製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定するための命令
を含む、コンピュータ可読記憶媒体。
前記ビデオから複数のキーフレームを抽出するための前記コンピュータプログラム命令が、
該複数のキーフレームの各々を該ビデオの固定点で抽出するための命令
を含む、請求項11記載のコンピュータ可読記憶媒体。
キーフレームの前記視覚シグネチャを生成するための前記コンピュータプログラム命令が、
該キーフレームから複数の視覚特徴を抽出するための命令;
該複数の視覚特徴を複数のクラスタへとグループ化するための命令;および
該キーフレームの該視覚シグネチャとして多次元のバッグ・オブ・ビジュアルワード・ヒストグラムを生成するための命令
を含む、請求項11記載のコンピュータ可読記憶媒体。
キーフレームの前記複数の視覚特徴が、該キーフレームのスケール不変特徴変換（SIFT）記述子である、請求項13記載のコンピュータ可読記憶媒体。
複数の製品のうちの各製品について、
該製品の複数の訓練画像を収集するためのコンピュータプログラム命令;および
該製品の該収集した訓練画像から該製品の視覚シグネチャを生成するためのコンピュータプログラム命令
をさらに含む、請求項11記載のコンピュータ可読記憶媒体。
製品の前記複数の訓練画像を収集するための前記コンピュータプログラム命令が、
専門製品リポジトリから該製品の複数の専門製品画像を収集するための命令;
該製品の各専門製品画像について、
複数のウェブリソースから複数の関連する製品画像をサーチするための命令;および
関連する製品画像の各々と該専門製品画像の間の類似性測度に基づいて所定数の関連する製品画像を選択するための命令
を含み、
該専門製品画像および該選択された関連する製品画像が該製品の該訓練画像を構成する、
請求項15記載のコンピュータ可読記憶媒体。
前記製品の前記収集した訓練画像から該製品の視覚シグネチャを生成するための前記コンピュータプログラム命令が、
該製品の該訓練画像に一括疎化方式を適用するための命令であって、関連する製品画像に含まれる該製品と無関係な情報が、該製品の該視覚シグネチャの生成の際に低減される、命令
を含む、請求項15記載のコンピュータ可読記憶媒体。
前記製品の前記収集した訓練画像から該製品の視覚シグネチャを生成するための前記コンピュータプログラム命令が、
該製品の該視覚シグネチャを所定回数の反復によって繰り返し更新するための命令
をさらに含む、請求項15記載のコンピュータ可読記憶媒体。
製品の前記複数の専門製品画像が、該製品の様々な視点における専門製品画像を含む、請求項15記載のコンピュータ可読記憶媒体。
キーフレームが前記製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定するためのコンピュータプログラム命令が、
該キーフレームの前記視覚表現と複数の該製品視覚シグネチャのうちの各製品視覚シグネチャとの間の製品関連性を推定するための命令;および
該推定した製品関連性に基づいて、キーフレームが該製品視覚シグネチャのうちの一つによって特定される製品を含むかどうか判定するための命令
を含む、
請求項11記載のコンピュータ可読記憶媒体。