JP2015506026A

JP2015506026A - 画像分類

Info

Publication number: JP2015506026A
Application number: JP2014546187A
Authority: JP
Inventors: シュエフイ
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-12-12
Filing date: 2012-12-11
Publication date: 2015-02-26
Also published as: TW201324378A; CN103164713B; HK1182505A1; EP2791869A1; US20130148881A1; WO2013090288A1; CN103164713A; US9342758B2

Abstract

本開示は画像を分類するための方法および装置を導入する。分類用の画像の分類画像特徴が抽出される。各分類画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、各分類画像特徴が視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と視覚単語のそれぞれとの間の類似性係数が決定される。異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みが決定され、分類用の画像の分類視覚単語ヒストグラムを構築する。分類視覚単語ヒストグラムは、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。

Description

本開示は、画像処理技術の分野に関し、より具体的には、画像を分類するための方法および装置に関する。

関連特許出願の相互参照
本出願は、２０１１年１２月１２日に出願された中国特許出願第２０１１１０４１２５３７．５号、表題「ＩｍａｇｅＣｌａｓｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓ」に対する外国優先権を主張するものであり、参照によりその全体が本明細書中に組み込まれる。

画像分類は、異なる画像が反映される異なる特性に基づいて分類を決定し、それらの画像を分類する画像処理技術である。インターネット上の画像の氾濫のため、電子商取引分野は大量の画像情報を含む。画像分類を用いて禁制品が検出され、同一の種類の製品が推奨され得る。したがって、画像分類技術は研究の焦点になっている。

概して既存の画像分類方法は、事前生成された視覚辞書に基づいて、分類用の画像を分類ヒストグラム用の視覚単語で表し、その後、事前訓練に基づいて生成される画像分類手段によって分類用の画像の分類を決定する。視覚辞書は異なる視覚単語を含む。各視覚単語は、大量の訓練画像から抽出された訓練画像特徴のクラスタリングを介して取得される分類を表す。分類用の視覚単語のヒストグラムは、複数のデータによって形成されるデータセットであり、ベクトルで表される。各データは対応する視覚単語にマッピングされる。各データ値は、対応する視覚単語の重みに等しい。この重みは、分類用のそれぞれの画像と対応する視覚単語で表される分類との間の類似性程度を表す。画像分類手段は各訓練画像に対応する視覚単語ヒストグラムに基づいて、機械学習アルゴリズムによって訓練を介して生成される。それぞれの訓練画像に対応するそれぞれの視覚単語ヒストグラムは、分類用の画像を分類するための視覚単語のヒストグラムで表すことによって、同一の方法でも形成される。

分類用の画像を、分類用の視覚単語のヒストグラムとして表すプロセスは以下のとおりである。分類用の画像のそれぞれの画像特徴に基づいて、それぞれの画像特徴に最も近い視覚辞書内の視覚単語が決定され、それぞれの画像特徴がそのような視覚単語として定量化される。視覚辞書内の視覚単語が定量化のために使用されるごとに、その対応する重みが１だけ増加される。すべてのそれぞれの画像特徴が視覚単語によって定量化されると、各視覚単語の重みも分類用の視覚単語のヒストグラムを構築するために決定される。例えば、視覚辞書はＢ＝｛ｂ１、ｂ２、ｂ３｝で表され、抽出された画像特徴はＸ１およびＸ２を含み得、対応する視覚単語ヒストグラムはＣ＝｛ｃ１、ｃ２、ｃ３｝で表され得るが、ここでｃ１、ｃ２、およびｃ３の初期値は０である。Ｘ１が視覚単語ｂ１に最も近いと決定されたとき、ｃ１に対応する値は１だけ増加される。Ｘ２も視覚単語ｂ１に最も近いと決定された場合、ｃ１に対応する値も１だけ増加される。したがって、分類用の画像に対応する分類用の視覚単語の最終の構築されたヒストグラムは｛２、０、０｝で表される。

上に示されるように、分類用の視覚単語のヒストグラムを構築するためのプロセスは、分類用の画像の各特徴を視覚単語として定量化することである。実際の適用においては、定量化を介して取得された視覚単語は分類される画像の特徴を正確に表わさない場合がある。さらに、画像ひずみが存在するときに、定量化エラーが容易に生じ得る。例えば、画像特徴Ｘ１は現在の方法の下ではｂ２に最も近くあり得るが、画像特徴Ｘ１は視覚単語ｂ１によって依然として定量化され得る。したがって、構築された視覚単語ヒストグラムは、正確でない場合があり、エラーを有し得、不正確な画像分類につながる。

この発明の概要は、以下に発明を実施するための形態においてさらに説明される選択概念を簡素化された形で導入するために提供される。この発明の概要は特許請求される主題の全ての主要な特徴または基本的な特徴を特定することも、特許請求される主題の範囲を決定する際の援助として単独で使用されることも意図していない。用語「技法」は、例えば、前述の文脈によって、かつ本開示を通して認められるデバイス（複数可）、システム（複数可）、方法（複数可）、および／またはコンピュータ可読命令を指し得る。

本開示は画像を分類するための方法、ならびに画像を分類するための方法を実装するために使用され得る画像分類するための装置を提供する。

本開示は画像を分類するための方法を提供する。分類用の画像の分類画像特徴が抽出される。各分類画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、各分類画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と各視覚単語との間の類似性係数が決定される。異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みが決定され、分類用の画像の分類視覚単語ヒストグラムが構築される。分類視覚単語ヒストグラムは、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。

各分類画像特徴が視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と各視覚単語との間の類似性係数が決定される異なる技法が存在する。

例えば、各分類画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、分類画像特徴と事前生成された視覚辞書との間のスパースコーディングモデルが構築される。スパースコーディングモデルを使用して、視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し得、定量化後に各分類画像特徴と視覚単語との間の類似性係数を取得し得る。

例えば、スパースコーディングモデル例は以下のようになり得る。

ここで、Ｂは視覚辞書を表し、Ｘ_ｉはそれぞれの分類画像特徴を表す。Ｃ_ｉはそれぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表す。Ｎは分類画像特徴の数を表す。ｉ＝１、２、…、Ｎ、ここでＮは任意の整数であり得る。λは拘束係数を表す。

はＣ_ｉ内の全要素の加算を表す。スパースコーディングモデルは、モデルが最小値をもつときのＣ_ｉの値を計算するために使用される。

別の例では、各分類画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離が計算される。各分類画像特徴について、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である１つ以上の視覚単語が、定量化後にそれぞれの分類画像特徴の視覚単語として決定される。それぞれの分類画像特徴と定量化後の各視覚単語との間のユークリッド距離に基づいて、それぞれの分類画像特徴と定量化後の視覚単語との間の係数が計算される。

各視覚単語の重みが決定されて分類用の画像の分類視覚単語ヒストグラムを構築する異なる技術が存在する。例えば、異なる分類画像特徴に対応するそれぞれの視覚単語の係数を加えてそれぞれの視覚単語の重みを計算し、分類視覚単語ヒストグラムを構築し得る。

別の例では、分類用の画像を、ピラミッド画像アルゴリズムに基づいて複数の子画像に分割し得る。各子画像の分類画像特徴が決定される。子画像内の各分類画像特徴に対応するそれぞれの視覚単語の係数を加え、子画像に対応するそれぞれの視覚単語の重みを計算し、子画像の子分類視覚単語ヒストグラムを構築し得る。各子画像の各子分類視覚単語ヒストグラムに基づいて、分類用の画像の分類視覚単語ヒストグラムが構築される。

ピラミッド画像アルゴリズムに基づいて、分類用の画像を複数の子画像に分割する異なる技術が存在する。例えば、分類用の画像をピラミッド画像アルゴリズムに基づいて複数のレイヤー画像に分割し得る。各レイヤー画像は分割されて複数の子画像を形成する。

事前生成された視覚辞書の生成のための異なる技術が存在する。例えば、事前生成された視覚辞書は、複数のサンプル画像から抽出された複数のサンプル画像特徴のクラスタリングを介して生成し得る。

本開示は画像を分類するための装置も提供する。画像を分類するための装置は、特徴抽出モジュール、定量化決定モジュール、構築モジュール、および分類モジュールを含み得る。

特徴抽出モジュールは、分類用の画像の分類画像特徴を抽出する。定量化決定モジュールは、各分類画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定する。構築モジュールは、異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みを決定し、分類用の画像の分類視覚単語ヒストグラムを構築する。分類モジュールは、分類視覚単語ヒストグラムを、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力し、出力結果に基づいて、分類用の画像の分類を決定する。

定量化決定モジュールは、異なる実施形態において異なる構成要素を含み得る。例えば、定量化決定モジュールは、モデル構成モジュールおよび定量化計算モジュールを含み得る。モデル構成モジュールは、各分類画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、分類画像特徴と事前生成された視覚辞書との間のスパースコーディングモジュールを構築する。定量化計算モジュールは、スパースコーディングモデルを使用し、各分類画像特徴を視覚辞書内の複数の視覚単語に定量化し、定量化後に各分類画像特徴と視覚単語との間の類似性係数を取得する。

例えば、スパースコーディングモデルは以下のようになり得る。

ここで、Ｂは視覚辞書を表し、Ｘ_ｉはそれぞれの分類画像特徴を表わし、Ｃ_ｉはそれぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表し、Ｎは分類画像特徴の数を表す。ｉ＝１、２、…、Ｎ、ここでＮは任意の整数であり得、λは拘束係数を表す。

別の例では、定量化決定モジュールは、第１の計算モジュール、定量化モジュール、および第２の計算モジュールを含み得る。第１の計算モジュールは、各分類画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算する。定量化モジュールは、各分類画像特徴に付き、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である１つ以上の視覚単語を、定量化後のそれぞれの分類画像特徴の視覚単語として決定する。第２の計算モジュールは、それぞれの分類画像特徴と定量化後の各視覚単語との間のユークリッド距離に基づいて、それぞれの分類画像特徴と定量化後の視覚単語との間の係数を計算する。

構築モジュールの異なる例が存在する。例えば、構築モジュールは、異なる分類画像特徴に対応するそれぞれの視覚単語の係数を加えてそれぞれの視覚単語の重みを計算し、分類視覚単語ヒストグラムを構築し得る。

別の例では、構築モジュールは、分割モジュール、第１の構築モジュール、および第２の構築モジュールを含み得る。分割モジュールは、ピラミッド画像アルゴリズムに基づいて、分類用の画像を複数の子画像に分割する。第１の構築モジュールは、各子画像の分類画像特徴を決定し、子画像内の各分類画像特徴に対応するそれぞれの視覚単語の係数を加え、子画像に対応するそれぞれの視覚単語の重みを計算し、子画像の子分類視覚単語ヒストグラムを構築する。第２の構築モジュールは、各子画像の各子分類視覚単語ヒストグラムに基づいて、分類用の画像の分類視覚単語ヒストグラムを構築する。

分割モジュールは、異なる実施形態において異なる構成要素を含み得る。例えば、分割モジュールは、画像レイヤー分割モジュールおよび子画像分割モジュールを含み得る。画像レイヤー分割モジュールは、分類用の画像をピラミッド画像アルゴリズムに基づいて複数のレイヤー画像に分割する。子画像分割モジュールは、各レイヤー画像を複数の子画像に分割する。

事前生成された視覚辞書の生成のための異なる技法が存在する。例えば、事前生成された視覚辞書は、複数のサンプル画像から抽出された複数のサンプル画像特徴のクラスタリングを介して生成され得る。

本技法は、分類用の画像の分類画像特徴を複数の視覚単語に定量化し、決定された分類画像特徴の係数および定量化後の視覚単語を決定し、その係数に基づいて分類視覚単語ヒストグラムを構築する。分類画像特徴は複数の視覚単語によって定量化され、類似性係数は、分類画像特徴と定量化後の視覚単語との間の類似性程度を表す。一方で、構築された視覚単語ヒストグラムは分類用の画像をより正確に表し得る。他方で、画像がひずみを有する場合でも、画像特徴は１つの視覚単語として定量化されることに限定されず、かつ複数の視覚単語として定量化され得るため、定量化エラーから生じる分類エラーは減少し得、画像分類の正確性は改善され得る。

本開示の実施形態をより良く図解するために、以下は実施形態の説明において使用される図の簡単な紹介である。以下の図は本開示のいくつかの実施形態のみに関連しており、本開示を限定するために使用されるべきではないことは明らかである。当業者は、創造的努力なしに本開示における図に従って他の図を得ることができる。

本開示の第１の実施形態例に従う画像を分類するための方法例の流れ図を図解する。本開示の第２の実施形態例に従う画像を分類するための別の方法例の流れ図を図解する。本開示の第３の実施形態例に従う画像を分類するための別の方法例の流れ図を図解する。本開示の第４の実施形態例に従う画像を分類するための別の方法例の流れ図を図解する。画像を分類するための第１の装置例の構成図を図解する。画像を分類するための第２の装置例の構成図を図解する。画像を分類するための第３の装置例の構成図を図解する。画像を分類するための第４の装置例の構成図を図解する。

本開示は、画像を検索および分類するための方法および装置を提供する。本技法はサーバ資源の利用率を改善し得る。本技法は画像検索のプロセスに適用し得、方法または装置として実装され得る。以下は、図を参照した本技法の詳細な説明である。本明細書において説明される実施形態は、実施形態例であり、本開示の範囲を限定するために使用されるべきではない。

本技法は、プログラムモジュール等の、コンピュータによって実施されるコンピュータ実行可能命令の文脈中で説明される。概して、プログラムモジュールは、インスタンス、プログラム、オブジェクト、コンポーネント、および特定タスクを実装する、または特定抽象的データタイプを実現するデータ構造を含む。本技法は、分散コンピューティング環境においても実装し得る。分散コンピューティング環境では、通信ネットワークによって接続される遠隔デバイスが、タスクを実装するために使用される。分散コンピューティング環境では、プログラムモジュールは、記憶デバイスを含む構内および遠隔コンピュータ記憶媒体に記憶され得る。

本開示の１つの実施形態例では、分類用の画像の分類画像特徴が抽出される。各分類画像特徴は、事前生成された視覚辞書内の複数の視覚単語によって定量化される。分類画像特徴と定量化後の視覚単語との間の類似性係数が決定される。異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、視覚単語の重みが決定され、分類視覚単語ヒストグラムは構築される。分類視覚単語ヒストグラムは、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。したがって、画像分類が実装される。各分類画像特徴は複数の視覚単語によって定量化され得、複数の視覚単語によって表され、それによって、視覚単語による分類画像特徴の表示の正確性が改善される。したがって、構築された分類視覚単語ヒストグラムは分類用の画像を正確に表し得、画像分類の正確性が改善される。さらに、複数の視覚単語が分類画像特徴を表すために使用されるため、定量化エラーから生じる分類エラーは減少し得、画像分類の正確性は改善し得る。

図１は本開示の第１の実施形態例に従う画像を分類するための方法例の流れ図を図解する。１０２において、分類用の画像から１つ以上の分類画像特徴が抽出される。画像を分類する必要性があるときは、分類用の画像が入力として使用され、分類画像特徴が分類用の各画像から抽出される。例えば、分類画像特徴は、ＳＩＦＴによって抽出されるスケール不変特徴変形（ＳＩＦＴ）特徴等の画像地域特徴であり得る。ＳＩＦＴ特徴は、スケール、回転不変、視点変化、アフィン変化、および特定程度の安定性も維持するノイズを有する。別の例では、本技法は他のアルゴリズムを使用して、ＨＡＡＲ特徴、ＨＯＧ特徴等の異なる特性を有する画像地域特徴を抽出し得る。本開示は画像地域特徴の抽出を制限しない。

いくつか適用においては、画像特徴はベクトルの形式で表され得る。例えば、５つの画像特徴が画像から抽出され得、各画像特徴は（１、１、１）、（２、２、２）、（１、１、２）、（３、３、３）、（２、１、３）等の三次元ベクトルを表す。いくつかの抽出された画像特徴は、各特徴のベクトル次元、特定特徴抽出アルゴリズム、および画像サイズと関連し得る。ＳＩＦＴ特徴の抽出例に関して、ＳＩＦＴ特徴のベクトル次元が通常１２８次元を有する。５００−１００００１２８次元の画像特徴は、８００×６００の解像度を有する画像から抽出され得る。

１０４において、各分類画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、各分類画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と定量化後の各視覚単語との間の類似性係数が決定される。例えば、本技法は視覚辞書に基づいて画像を分類するための方法を使用し得、また分類用の画像を視覚単語ヒストグラムで表し得る。視覚辞書は、異なる視覚単語を含み得、各視覚単語は大量のサンプル画像から抽出されるサンプル画像特徴を介してクラスタリングされる特徴のタイプを表す。操作例は以下の通りである。

第１に、サンプル画像特徴がサンプル画像から抽出される。サンプル画像はラベル付けされた分類を有するサンプル画像である。特徴を抽出する操作は、１０２における操作と同一または類似し得る。

視覚辞書内の視覚単語の事前設定数に基づいて、抽出された画像特徴はクラスタリング方法によってクラスタリングされる。クラスタ中心の値は視覚単語である。

例えば、ラベル付けされた分類を有する１０のサンプル画像があり得る。サンプル画像は、車両、景色等の複数の分類を含み得る。各画像から１００の特徴が抽出された場合、合計で１，０００のサンプル画像特徴が抽出される。視覚辞書内の視覚単語の事前設定数が１０の場合は、クラスタリング方法を用いて１，０００の画像をクラスタリングし、１０の視覚単語を有する視覚辞書を形成する。１０の視覚単語は、タイヤ、葉等の特定分類を表し得る。クラスタリングは、物理的または抽象的物体のセットを類似物によって形成される複数の分類に分類するプロセスである。クラスタリング中心は複数の特徴に基づいてクラスタリング方法によって計算される視覚辞書の視覚単語である。クラスタリング方法は、例えば、Ｋ平均アルゴリズムを使用し得る。したがって、各視覚単語は多次元ベクトルでもあり、その次元は画像特徴の次元と同一である。

画像特徴および視覚単語の両方がベクトルによって表され得るため、各分類画像特徴は視覚辞書内の視覚単語と以下の類似関係を有し得、これはＸ_ｉ≒Ｂ^＊Ｃ_ｉ等の線形式において表され得る。

Ｘ_ｉはそれぞれの画像特徴を表し、Ｂは視覚辞書を表し、Ｃ_ｉは各分類画像特徴と各視覚単語との間の係数で構成されるデータセットを表す。Ｃ_ｉによって形成されるデータセットは、ベクトルの形式で表され得、視覚辞書との一対一のマッピング関係を有する。例えば、視覚辞書はＢ＝｛ｂ１、ｂ２、ｂ３、ｂ４｝、その対応するＣ_ｉ＝｛Ｃ_ｉ１、Ｃ_ｉ２、Ｃ_ｉ３、Ｃ_ｉ４｝で表され得る。したがって、Ｘ_ｉ≒ｂ１^＊Ｃ_ｉ１＋ｂ２^＊Ｃ_ｉ２＋ｂ３^＊Ｃ_ｉ３＋ｂ４^＊Ｃ_ｉ４。

定量化後のＸ１に対応する視覚単語がｂ１、ｂ３、およびｂ４である場合は、Ｘ_１のそれぞれの係数、すなわち、Ｃ_１１、Ｃ_１３、およびＣ_１４は０．６、０．３、０．１である。それぞれの分類画像特徴と各視覚単語との間の類似性係数の組み合わせは、｛０．６、０、０．３、０．１｝で表される。類似性係数は、各分類画像特徴と各視覚単語との間の類似程度を表す。複数の視覚単語によって各分類画像特徴を定量化するための、および、それぞれの分類画像特徴と定量化後の視覚単語との間の類似性係数を決定するためのさまざまな方法がある。いくつか方法例が以下に詳細に説明される。

１０６において異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みが決定され、分類視覚単語ヒストグラムを構築する。１０４における操作から、各分類画像特徴について、定量化後の視覚単語との類似性係数を計算し得る。すなわち、各視覚単語は異なる分類画像特徴との対応する類似性係数を有する。異なる分類画像特徴に対応する視覚単語の係数に基づいて、視覚単語の重みが決定され、分類用の画像の分類視覚単語ヒストグラムを構築し得る。

視覚単語の重みを決定し、分類視覚単語ヒストグラムを構築するさまざまな方法がある。例えば、異なる分類画像特徴に対応する視覚単語のすべての類似性係数が加えられ、その加算が視覚単語の重みとして使用される。データセットは、視覚単語の重みで構成され、したがって多次元ベクトルが形成され得、これは分類用の画像の分類視覚単語ヒストグラムを表し得る。

例えば、Ｘ１、Ｘ２、およびＸ３等の３つの分類画像特徴を、分類用の画像から抽出し得る。視覚辞書は、ｂ１、ｂ２、ｂ３、およびｂ４等の４つの視覚単語を含み得る。特徴Ｘ１と各視覚単語の間の類似性係数は、｛０．６、０、０．３、０．１｝である。特徴Ｘ２と各視覚単語との間の類似性係数は、｛０．２、０．４、０．３、０．１｝である。特徴Ｘ３と各視覚単語との間の類似性係数は、｛０．２、０．２、０．３、０．３｝である。すなわち、視覚単語ｂ１に対応する全類似性係数は、０．６、０．２、および０．２である。そのような類似性係数は、加算されて１としてｂ１の重みを取得する。類似操作により、視覚単語ｂ２の重みは０．６、視覚単語ｂ３の重みは０．９、視覚単語ｂ４の重みは０．５である。したがって、分類視覚単語ヒストグラムは異なる視覚単語の重みで構成されるデータセットである。最終的に構築される分類視覚単語ヒストグラムは｛１、０．６、０．９、０．５｝である。

別の例では、分類用の画像は複数の子画像に分類される。視覚辞書内の各子画像に対応する視覚単語の重みが最初に計算されて子画像の子分類視覚単語ヒストグラムを構築する。次に各子分類視覚単語ヒストグラムが組み合わされて分類視覚単語ヒストグラムを形成する。操作例が以下に詳細に説明される。

類似性係数の数値を使用して、分類画像特徴とさまざまな視覚単語との間の類似程度を表し得る。類似性係数は、類似性係数の百分率が同一として残る限り、値の他のタイプの形式をとり得る。

１０８において、分類視覚単語ヒストグラムは、複数のサンプル画像からサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は分類用の画像の分類を決定するために使用される。

画像分類手段は、機械学習後に画像の分類を自動的に決定する機械モデルである。例えば、画像分類手段はベクトル支持機械モデル、決定木モデル等であり得る。事前生成された画像分類手段は、複数のサンプル画像に基づいて、機械学習アルゴリズムを使用し、対応する分類モデルを生成して画像分類を実装する。

事前生成された画像分類手段は、大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムに基づく訓練を介して生成される。例えば、サンプル視覚単語ヒストグラムを構築するための操作は、画像分類を実装するために、分類用の画像の視覚単語ヒストグラムを構築するための操作と同一であり得る。以下は、画像分類手段の生成プロセス例である。

第１のステップにおいて、各サンプル画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各サンプル画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各サンプル画像特徴と定量化後の各視覚単語との間の類似性係数が決定される。１０４において示されるように、視覚辞書は、大量のサンプル画像から抽出されるサンプル画像特徴のクラスタリングを介して生成される。画像分類手段もサンプル画像の訓練を介して生成される。

選択されたサンプル画像の分類に基づいて、画像分類手段は異なるタイプのための分類手段を含むように訓練される。例えば、サンプル画像は車両、景色、および人々を含み得る。最終的に生成された画像分類手段は、画像の車両分類、景色分類、および人々分類への分類を実装するための３つのタイプの分類手段であり得る。

各サンプル画像特徴は複数の視覚単語によって定量化され、各サンプル画像特徴と定量化後の視覚単語との間の係数が計算される。例えば、そのような操作は、分類画像特徴と視覚単語との間の係数を計算するための操作と同一である。

第２のステップにおいて、異なるサンプル画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みが決定され、サンプル視覚単語ヒストグラムが構築される。

第３のステップにおいて、各サンプル視覚単語ヒストグラムに基づいて、機械学習アルゴリズムが使用されて訓練を介して画像分類手段を生成する。

各サンプル画像についてサンプル視覚単語ヒストグラムが構築された後、機械学習を介して、画像分類手段が生成される。

分類視覚単語ヒストグラムは、前述の操作を介して生成される画像分類手段に入力される。画像の分類は、画像分類手段の出力結果に基づいて決定される。訓練後の画像分類手段が３タイプ分類手段である場合には、出力結果はＡ、Ｂ、またはＣを含む。例えば、Ａは車両タイプを表し得、Ｂは木タイプを表し得、Ｃは人々のタイプを表し得る。出力結果がＡである場合には、画像は車両タイプ画像に所属する。

大量の分類用の画像が存在し得る。分類プロセスは、前述の操作に従って、分類用の各画像に適用し、分類用の大量の画像の分類を実装し得る。

本開示のこの実施形態例では、各分類画像特徴は複数の視覚単語によって定量化され、各分類画像特徴と定量化後の視覚単語との間の類似性係数が決定される。視覚単語ヒストグラムは、各視覚単語の異なる類似性係数に基づいて構築される。１つの分類画像特徴が複数の視覚単語で表され得るように各分類画像特徴が複数の視覚単語を定量化するために使用されるため、視覚単語で表される分類画像特徴の正確性は改善される。したがって、構築された分類視覚単語ヒストグラムは分類用の画像をより正確に表し得、これにより、画像分類の正確性が改善される。さらに、複数の視覚単語が分類画像特徴を表すために使用されるため、定量化エラーから生じる分類エラーは減少し得、画像分類の正確性は改善され得る。

図２は、本開示の第２の実施形態例に従う画像を分類するための別の方法例の流れ図を図解する。

２０２において、分類用の画像の１つ以上の分類画像特徴が抽出される。

２０４において、各分類画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、各分類画像特徴は視覚辞書内の複数の視覚単語によって定量され、各分類画像特徴と定量化後の各視覚単語との間の類似性係数が決定される。

２０６において、分類用の画像は、ピラミッド画像アルゴリズムに基づいて複数の子画像に分割される。視覚単語ヒストグラムが分類用の画像の空間情報を表すために、この実施形態例では、分類用の画像が空間によって分割される。分類用の画像は、複数のレイヤー空間小領域に分割される。各レイヤー空間小領域は、空間画像である。各レイヤー空間画像は、さらに複数の子画像へ分割される。

この実施形態例では、分類用の画像はピラミッド画像アルゴリズムによって分割される。例えば、Ｍ−レイヤーピラミッド画像アルゴリズムを使用して元画像をＭレイヤー空間画像に分割し得る。各空間画像は、４^Ｎによって子画像に分割し得、ここでＮ＝０、１、２、…、Ｍ−１である。第１のレイヤー空間画像は、４^０によって分割され、１つの子レイヤー画像を形成する。第２のレイヤー空間画像は４^１によって分割され、４子画像を形成する。第３のレイヤー空間画像は１６の子画像に分割される。Ｍ^ｔｈレイヤー空間画像は、４^Ｍ−１子画像に分割される。ＭおよびＮの値は、実際の状況に従って決定し得る。

分類用の画像が複数のレイヤー空間画像に分割された後、各レイヤー空間画像は抽出された分類画像特徴を含む。子画像が分割された後、分類画像特徴もそれに従って分割される。例えば、抽出された分類画像特徴は、Ｘ１、Ｘ２、Ｘ３、Ｘ４、およびＸ５を含み得る。第１のレイヤー空間画像は５分類画像特徴を含む１つの子画像を含む。第２のレイヤー空間画像は４子画像を含む。例えば、特徴Ｘ１およびＸ２は、第２のレイヤー空間画像の第１の子画像内に配置され得る。特徴Ｘ３、Ｘ４、およびＸ５は第２のレイヤー空間画像の第２の子画像内に配置され得る。第３および第４の子画像は、分類画像特徴を含み得ない。第３のレイヤー空間画像は１６の子画像に分割される。各分類画像特徴は、第３のレイヤー空間画像の異なる子画像内に配置され得る。

２０８において、各子画像内に含まれる分類画像特徴が決定される。各子画像内に含まれる分類画像特徴に対応するそれぞれの視覚単語の類似性係数は加算されて各子画像に対応する視覚単語の重みを計算し、各子画像の子分類視覚単語ヒストグラムが構築される。

２０６に示されるように、画像分割の後、異なるレイヤーにおける異なる子画像に含まれる分類画像特徴は異なる。各子画像に含まれる抽出された分類画像特徴は第１に決定される。次に、各子画像の子分類視覚単語ヒストグラムが構築される。各子画像に対応する視覚単語の子重みが計算される。視覚単語の子重みが視覚単語ヒストグラムのデータとして使用され、子分類視覚単語ヒストグラムを構築する。

２１０において、各子分類視覚単語ヒストグラムは組み合わされ、分類用の画像の分類視覚単語ヒストグラムを形成する。子分類視覚単語ヒストグラムは複数のデータからのデータ値を含み、ベクトルで表されるので、各子分類視覚単語ヒストグラムの組み合わせが各子分類視覚単語ヒストグラムのデータを組み合わせて高次元ベクトルを形成する。

分類視覚単語ヒストグラムを構築するための操作プロセス例は以下の通りである。

例えば、Ｘ１、Ｘ２、およびＸ３で表される３分類画像特徴は、分類用の画像から抽出される。視覚辞書は、ｂ１、ｂ２、ｂ３、およびｂ４で表される４視覚単語を含む。２０４における操作の後、特徴Ｘ１、Ｘ２、Ｘ３と視覚単語ｂ１、ｂ２、ｂ３、ｂ４、それぞれ、との間の第１の類似性係数が計算される。例えば、Ｘ１に対応する第１の類似性係数の組み合わせは｛０．６、０、０．３、０．１｝であり、Ｘ２に対応する第１の類似性係数の組み合わせは｛０．２、０．４、０．３、０．１｝であり、Ｘ３に対応する第１の類似性係数の組み合わせは、｛０、０、０．３、０．７｝である。

２−レイヤーピラミッド画像アルゴリズムを使用して画像を分割し、第２のレイヤー空間画像が分割されて４子画像を含むと想定する。第１のレイヤー空間画像に関して、構築された第１の子視覚単語ヒストグラムは｛０．８、０．４、０．９、０．９｝である。第２のレイヤー空間画像に関して、分類画像特徴Ｘ１およびＸ２は第２のレイヤー空間画像に分割される第１の子画像に配置され、Ｘ３は第２のレイヤー空間画像に分割される第２の子画像に配置されると想定した場合、各子画像の第１の子視覚単語ヒストグラムがそれぞれ｛０．８、０．４、０．６、０．２｝、｛０、０、０．３、０．７｝、｛０、０、０、０｝、｛０、０、０、０｝である。

各第１の子視覚単語ヒストグラムは、４−次元ベクトルで表される。各第１の子視覚単語ヒストグラムの組み合わせの後、最終的に形成される分類視覚単語ヒストグラムは｛０．８、０．４、０．９、０．９、０．８、０．４、０．６、０．２、０、０、０．３、０．７、０、０、０、０｝であり、これは２０−次元ベクトルである。

前述例における値は、説明の簡潔さのためのものであり、実際の適用における特定値とはなり得ないことに注意すべきである。実際の適用においては、視覚辞書は大量の視覚単語を含み得る。分類用の各画像から抽出された大量の分類画像特徴もある。各分類画像特徴は概して高次元ベクトルであり得る。段落の制限の理由により、本開示における例は単に模範的図解目的のものである。

画像のレイヤーおよび子画像の分割は、画像特徴または異なる特徴点間の場所関係の空間情報を増加する。各子画像は、子分類視覚単語ヒストグラムで表され得る。最終的に形成された分類視覚単語ヒストグラムは、分類用の画像の空間情報を増加する。したがって、分類視覚単語ヒストグラムは分類用の画像をより正確に表し、それによって、画像分類の正確性をさらに改善する。

２１２において、分類視覚単語ヒストグラムは、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練を介して構築される画像分類手段に入力される。分類用の画像の分類を決定するために出力結果が使用される。

事前生成された画像分類手段は、大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムに基づいて、訓練を介して生成される。画像分類手段は、各サンプル視覚単語ヒストグラムに基づいて、機械学習アルゴリズムに基づいて生成される。

以下は画像分類手段の生成プロセス例である。

第１のステップにおいて、各サンプル画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各サンプル画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各サンプル画像特徴と定量化後の各視覚単語との間の類似性係数が決定される。

第２のステップにおいて、各サンプル画像について、以下の操作が実施される。

各サンプル画像について、サンプル画像は、ピラミッド画像アルゴリズムに従って複数の子サンプル画像に分割される。各子サンプル画像に含まれるサンプル画像特徴が決定される。各サンプル子画像内の異なるサンプル画像特徴に対応する各視覚単語のサンプル類似性係数に基づいて、各子サンプル画像に対応する子サンプルの重みが決定され、子サンプル視覚単語ヒストグラムが構築される。

各子サンプル視覚単語ヒストグラムは組み合わされ、サンプル視覚単語ヒストグラムを形成する。

第３のステップにおいて、各サンプル視覚単語ヒストグラムに基づいて、機械学習を介して、画像分類手段が訓練を介して生成される。

この実施形態例において、分類用の画像はピラミッド画像アルゴリズムにしたがって複数の子画像に分割され、その後、子画像の子視覚単語ヒストグラムが構築される。子視覚単語ヒストグラムが組み合わされて、分類視覚単語ヒストグラムを形成する。各分類画像特徴は複数の視覚単語によって分類され得、子画像の分割も画像特徴の空間情報を増加するため、最終的に構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それにより、画像分類の正確性は改善する。

図３は、本開示の第３の実施形態例に従って画像を分類するための別の方法例の流れ図を図解する。

３０２において、分類用の画像の１つ以上の分類画像特徴が抽出される。

３０４において、各分類画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、分類画像特徴と事前生成された視覚辞書との間のスパースコーディングモデルが構成される。スパースコーディング法は、人間の大脳皮質視覚神経細胞をシミュレートする作動原理に基づいてデータを記述する多次元データ記述方法である。したがって、そのデータ記述方法はより正確である。

分類画像特徴と視覚辞書内の視覚単語との間の類似性関係は、Ｘ_ｉ≒Ｂ^＊Ｃ_ｉで表され得る。より正確にＣ_ｉの値を計算するためには、この実施形態例は、スパースコーディング法に基づいて、最初に以下のようにスパースコーディングモデルを形成する。

ここで、Ｂは複数の視覚単語により構成される空間データセットである視覚辞書を表し、Ｘ_ｉはベクトルの形式で表されるそれぞれの分類画像特徴を表し、Ｃ_ｉはそれぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットであり、ベクトルの形式で表され、Ｎは分類画像特徴の数を表し、ｉ＝１、２、…、Ｎ、ここでＮは任意の整数であり得、λは拘束係数を表す。適用例において、その値は５００であり得る。

はＣ_ｉ内の全要素の加算を表す。

スパースコーディングモデルで表される意味は、スパースコーディングモデルが最小値を有するときのＣ_ｉの値を計算することである。

３０６において、スパースコーディングモデルの解を導出することにより、各分類画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と定量化後の各視覚単語との間の類似性係数が取得される。

最小二乗方法等の数学的最適方法を使用して、スパースコーディングモデルの解を導出し得る。最小二乗方法の例において、スパースコーディングモデルは

と同等である。

最小二乗方法を使用し、Ｍが最小値を有するときのＣ_ｉの値を取得し得る。Ｃ_ｉ内のデータは、分類画像特徴Ｘ_ｉと視覚辞書内の各視覚単語との間の類似性係数である。

例えば、視覚辞書Ｂが、分類画像特徴Ｘ_１について、４視覚単語ｂ１、ｂ２、ｂ３、およびｂ４を含むと想定した場合、導出されるＣ_１は｛０、０、０．４、０．６｝であり、これは分類画像特徴が視覚単語ｂ３およびｂ４として定量化され得ることを表す。視覚単語ｂ３およびｂ４を有する類似性係数は、それぞれ０．４および０．６である。定量化のために使用されない他の視覚単語を有する類似性係数、すなわちｂ１およびｂ２は、０である。

スパースコーディングモデルを介して、各分類画像特徴と各視覚単語との間の類似性係数が決定される。各分類画像特徴は、複数の視覚単語の線形組み合わせで表される。スパースコーディングモデルを用いて、複数の視覚単語の定量化を介して各分類画像特徴の表示を実装し、類似性係数を導出し、これにより、分類画像特徴をより正確に表す。

３０８において、分類用の画像はピラミッド画像アルゴリズムにしたがって複数の子画像に分割される。

３１０において、各子画像に含まれる分類画像特徴が決定される。各子画像に含まれる異なる分類画像特徴に対応する各視覚単語の類似性係数が加算されて、各子画像に対応する視覚単語の重みを計算する。各子画像の子視覚単語ヒストグラムが次に構築される。

３１２において、各子視覚単語ヒストグラムが組み合わされて分類視覚単語ヒストグラムを形成する。

３１４において、分類視覚単語ヒストグラムは複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練を介して構築される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。

この実施形態例において、事前生成された画像分類手段は、大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムに基づいて訓練を介して生成される。画像分類手段は、各サンプル視覚単語ヒストグラムに基づいて機械学習アルゴリズムに基づいて生成される。

以下は画像分類手段の生成プロセス例である。

第１のステップにおいて、各サンプル画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、各サンプル画像特徴と事前生成された視覚辞書との間のスパースコーディングモデルが構築される。

第２のステップにおいて、スパースコーディングモデルの解を導出することによって、各サンプル画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各サンプル画像特徴と定量化後の視覚単語との間のサンプル類似性係数が取得される。

第３のステップにおいて、以下の操作が各サンプル画像について実施される。

各サンプル画像について、サンプル画像がピラミッド画像アルゴリズムに従って複数の子サンプル画像に分割される。各子サンプル画像に含まれるサンプル画像特徴が決定される。各サンプル子画像内の異なるサンプル画像特徴に対応する各視覚単語のサンプル類似性係数に基づいて、各サンプル子画像に対応する子サンプルの重みが決定され、子サンプル視覚単語ヒストグラムが構築される。

各子サンプル視覚単語ヒストグラムが組み合わされて、サンプル視覚単語ヒストグラムを形成する。

第４のステップにおいて、各サンプル視覚単語ヒストグラムに基づいて、機械学習を介して、画像分類手段が訓練によって生成される。

この実施形態例は、スパースコーディングモデルを介して複数の視覚単語によって各分類画像特徴を定量化し、定量化後の視覚単語で類似性係数を導出し、それにより、類似性係数の計算精度を改善して、視覚単語と画像特徴との間の類似性関係を正確に反映する。さらに、分類用の画像はピラミッド画像アルゴリズムに従って分割され、それにより、特徴の空間情報を増加する。したがって、最終的に構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それにより、画像分類の正確性を改善する。

図４は、本開示の第４の実施形態例に従って画像を分類するための別の方法例の流れ図を図解する。

４０２において、分類用の画像の１つ以上の分類画像特徴が抽出される。

４０４において、各分類画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離が計算される。

分類画像特徴と各視覚単語との間の類似性係数は、各分類画像特徴と各視覚単語との間のユークリッド距離の計算によって決定される。したがって、分類画像特徴と視覚単語、Ｘ_ｉ≒Ｂ^＊Ｃ_ｉの類似性関係式にしたがい、ＸｉとＢ内の各視覚単語の間のユークリッド距離が計算され、Ｃ_ｉ内の値を決定する。

画像特徴はベクトルの形式で表される。例えば、ＳＩＦＴ特徴は１２８−次元ベクトルである。視覚単語は画像特徴を介してクラスタリングされ、画像特徴と同一の次元でベクトルでも表される。ユークリッド距離は、複数の次元空間における二点間の距離として参照される。この実施形態例では、分類画像特徴および視覚単語は、ベクトル空間内において二点として処理される。ユークリッド距離は、分類画像特徴と視覚単語との間の類似程度を表す。ユークリッド距離が小さくなれば、視覚単語と分類画像特徴の間により類似性が存在する。

例えば、画像特徴と視覚単語の両方が３−次元ベクトルであると想定すると、これらはそれぞれ（１、１、３）および（２、０、５）であり、ユークリッド距離は以下のようになる。

４０６において各分類画像特徴について、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である１つ以上の視覚単語が定量化後のそれぞれの分類画像特徴に対応する視覚単語として決定される。

例えば、以下の操作が各分類画像特徴について実施され得る。

分類画像特徴に基づいて計算されるユークリッド距離中の最小ユークリッド距離が決定される。最小ユークリッド距離に対応する視覚単語は、分類画像特徴の定量化用の１つの視覚単語として処理される。

分類画像特徴に基づく他の計算されたユークリッド距離は、最小ユークリッド距離と比較されて、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である視覚単語を、分類画像特徴の定量化用の他の視覚単語として決定する。

事前設定時間範囲は、実際の状況に基づいて設定し得る。例えば、視覚辞書は、ｂ１、ｂ２、ｂ３、ｂ４、およびｂ５の５視覚単語を含み得る。各分類画像特徴につき、各視覚単語、すなわち、ｂ１、ｂ２、ｂ３、ｂ４、ｂ５を有するユークリッド距離は、それぞれ６、４、８、２、および１０である。最小ユークリッド距離は２である。最小ユークリッド距離と比較した他のユークリッド距離の異なる時間は、それぞれ２、１、３、および４である。もしも事前設定時間範囲が１〜３である場合、対応するユークリッド距離がそれぞれ６、４、８、および２である視覚単語ｂ１、ｂ２、ｂ３、およびｂ４は、分類画像特徴の定量化用の視覚単語として決定される。

４０８において、それぞれの分類画像特徴と定量化後の各視覚単語との間のユークリッド距離に基づいて、それぞれの分類画像特徴と定量化後の視覚単語との間の類似性係数が計算される。

定量化のために使用されない、分類画像特徴と視覚辞書内の視覚単語との間の類似性係数は０である。したがって、分類画像特徴と定量化のために使用される視覚単語との間の類似性係数の計算は十分であろう。

ユークリッド距離が小さくなれば、対応する類似性係数は大きくなる。類似性係数を計算するためにユークリッド距離を使用する方法はたくさんある。４０６における例を使用し、分類画像特徴と定量化用の視覚単語との間のユークリッド距離は、それぞれ６、４、８、および２である。ユークリッド距離中の百分率関係は、０．３：０．２：０．４：０．１である。ユークリッド距離が小さくなると、分類画像特徴と視覚単語との間により類似性が存在する。分類画像特徴と視覚単語ｂ１との間の類似性係数は０．３、分類画像特徴と視覚単語ｂ２との間の類似性係数は０．２、分類画像特徴と視覚単語ｂ３との間の類似性係数は０．４、分類画像特徴と視覚単語ｂ４との間の類似性係数は０．１と決定される。したがって、各視覚単語に対応する分類画像特徴の類似性係数は、それぞれ０．３、０．２、０．４、０．１、および０である。０は分類画像特徴と視覚単語ｂ５との間の類似性係数である。

ユークリッド距離が小さくなれば、分類画像特徴とユークリッド距離に対応する各視覚単語はより近くなり、従って、類似性係数は大きくなる。

異なる方法を介して計算された類似性係数の特定値は異なり得ることに注意されたい。それらは依然として視覚単語と分類画像特徴との間の類似性程度を反映するので、分類精度は影響されない。

４１０において、分類用の画像はピラミッド画像アルゴリズムに従って複数の子画像に分割される。

４１２において、各子画像に含まれる分類画像特徴が決定される。各子画像に含まれる異なる分類画像特徴に対応する各視覚単語の類似性係数が加算されて、各子画像に対応する視覚単語の重みを計算する。各子画像の子視覚単語ヒストグラムが次に構築される。

４１４において、各子視覚単語ヒストグラムが組み合わされて、分類視覚単語ヒストグラムを形成する。

４１６において、分類視覚単語ヒストグラムが、訓練を介して事前生成された画像分類手段に入力される。分類用の画像の分類を決定するために、出力結果が用いられる。

この実施形態例において、事前生成された画像分類手段は大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムによって訓練を介して生成される。画像分類手段は、大量のサンプル視覚単語ヒストグラムに基づいて、機械学習アルゴリズムによって生成される。

以下は、画像分類手段の生成プロセス例である。

第１のステップにおいて、各サンプル画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、各サンプル画像特徴と視覚辞書内の各視覚単語との間のユークリッド距離が計算される。

第２のステップにおいて、各サンプル画像特徴につき、最小ユークリッド距離に対応する視覚単語とユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である他の視覚単語が決定される。

第３のステップにおいて、各サンプル画像特徴と定量化用の各視覚単語との間のユークリッド距離に基づいて、各サンプル画像特徴と定量化用の各視覚単語との間のサンプル類似性係数が計算される。

第４のステップにおいて、各サンプル画像について、以下の操作が実施される。

第５のステップにおいて、各サンプル視覚単語ヒストグラムに基づいて、機械学習を介して、画像分類手段が訓練を介して生成される。

この実施形態例は、ユークリッド距離の計算に基づいて、分類画像特徴と視覚単語との間の類似性程度を決定し、分類画像特徴を計算されたユークリッド距離に基づいて複数の視覚単語に定量化し、係数を決定する。分類画像特徴は複数の視覚単語によって定量化されるので、構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表すことができ、したがって、画像分類の正確性を改善する。さらに、分類用の画像は複数の子画像に分割され、それにより、特徴の空間情報が増加する。したがって、最終的に構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それによって、画像分類の正確性を改善する。

前述の実施形態例は、簡潔化のために、一連の操作の組み合わせとして記載されている。しかしながら、当業者であれば、本開示が記載される操作の順序によって限定されないことを理解するであろう。本開示に従って、いくつかの操作は他の順序を容認し得るか、または並行して実施され得る。さらに、当業者であれば、本明細書に記載される実施形態が例であって、それらの関連操作およびモジュールが本開示には必要ではない場合があることを理解すべきである。

第１の実施形態例において説明された方法に対応して、図５は画像を分類するための第１の装置例の構成図を図解する。

装置はソフトウェア、ハードウェア、またはそれらの組み合わせを含み得る。構成例においては、図５の装置５００は１つ以上のプロセッサ（複数可）５０２およびメモリ５０４を含み得る。メモリ５０４はコンピュータ記憶媒体の例である。

コンピュータ記憶媒体は、コンピュータ実行可能命令、データ構造、プログラムモジュール、または他のデータ等の情報の記憶のための任意の方法または技術において実装される、揮発性および不揮発性、取り外し可能および非取り外し可能媒体を含む。コンピュータ記憶媒体の例は、次のものに限定されないが、相変化メモリ（ＰＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、他のタイプのランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、電気的消去可能プログラム式読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリまたは他のメモリ技術、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル汎用ディスク（ＤＶＤ）または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、コンピューティングデバイスによるアクセスのための情報を記憶するために使用可能な任意の他の非送信媒体を含む。本明細書中で定義されるように、コンピュータ記憶媒体は、変調されたデータ信号および搬送波等の一過性媒体は含まない。

メモリ５０４はその中にプログラムユニットまたはモジュールおよびプログラムデータを記憶し得る。図５の例において、メモリ５０４はその中に特徴抽出モジュール５０６、定量化決定モジュール５０８、構築モジュール５１０および分類モジュール５１２を記憶し得る。

特徴抽出モジュール５０６は分類用の画像の１つ以上の分類画像特徴を抽出する。例えば、分類画像特徴は、ＳＩＦＴアルゴリズムによって抽出されるスケール不変特徴変形（ＳＩＦＴ）特徴等の画像地域特徴であり得る。ＳＦＩＴ特徴は、スケール、回転不変性、視点変化、アフィン変化、および安定性の特定程度をも維持するノイズを有する。

定量化決定モジュール５０８は、各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、視覚辞書内の多数の視覚単語によって各分類画像特徴を定量化し、各分類画像特徴と定量化後の各視覚単語との間の類似性係数を決定する。

視覚辞書は、大量のサンプル画像から抽出されるサンプル画像特徴のクラスタリングによって、事前に生成され得る。

画像特徴と視覚単語の両方はベクトルで表され得るので、各分類画像特徴は以下の視覚辞書内の視覚単語との類似関係を有し得、これはＸ_ｉ≒Ｂ^＊Ｃ_ｉ等の線形式で表され得る。

Ｘ_ｉはそれぞれの画像特徴を表し、Ｂは視覚辞書を表し、Ｃ_ｉは各分類画像特徴と各視覚単語との間の係数で構成されるデータセットを表す。

構築モジュール５１０は、異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みを決定して分類視覚単語ヒストグラムを構築する。

例えば、構築モジュール５１０はそれぞれの視覚単語に対応する異なる分類画像特徴の全類似性係数を加算して分類用の画像に対応する各視覚単語のそれぞれの重みを計算し、重みに基づいて分類視覚単語ヒストグラムを構築する。

言い換えれば、各視覚単語のそれぞれの重みが組み合わされてベクトルの形式でデータセットを形成し、分類視覚単語ヒストグラムを取得する。

分類モジュール５１２は、分類視覚単語ヒストグラムを、複数のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力する。出力結果は、分類用の画像の分類を決定するために使用される。

画像分類手段は、機械学習の後に画像の分類を自動的に決定する機械モデルである。例えば、画像分類手段はベクトル支持機械モデル、決定木モデル等であり得る。事前生成された画像分類手段は複数のサンプル画像に基づいており、機械学習アルゴリズムを使用し、対応する分類モデルを生成して画像分類を実装する。

事前生成された画像分類手段は、大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムに基づく訓練を介して事前に生成される。例えば、サンプル視覚単語ヒストグラムを構築するための操作は、分類用の画像の視覚単語ヒストグラムを構築して画像分類を実装する操作と同一であり得る。

この実施形態例において説明された画像分類手段の生成プロセスは、第１の方法の実施形態例における説明に参照され得、これは簡潔さの目的のために本明細書中では詳述されない。

本開示のこの実施形態例では、各分類画像特徴は多数の視覚単語によって定量化され、各分類画像特徴と定量化後の視覚単語との間の類似性係数が決定される。視覚単語ヒストグラムは、各視覚単語の異なる類似性係数に基づいて構築される。各分類画像特徴は、１つの分類画像特徴が複数の視覚単語で表されるように、複数の視覚単語によって定量化されるため、視覚単語で表される分類画像特徴の正確性は改善される。したがって、構築される分類視覚単語ヒストグラムは分類用の画像をより正確に表し得、それにより、画像分類の正確性を改善する。さらに、複数の視覚単語が分類画像特徴を表すために使用されるため、定量化エラーから生じる分類エラーは減少し、画像分類の正確性は改善され得る。

第２の実施形態例において説明された方法に対応いて、図６は画像を分類するための第２の装置例の構成図を図解する。

子の装置は、ソフトウェア、ハードウエア、またはそれらの組み合わせを含み得る。構成例において、図６の装置６００は１つ以上のプロセッサ（複数可）６０２およびメモリ６０４を含み得る。メモリ６０４はコンピュータ記憶媒体の例である。

メモリ６０４は、その中に、プログラムユニットまたはモジュールおよびプログラムデータを記憶し得る。図６の例において、メモリ６０４はその中に、特徴抽出モジュール６０６、定量化決定モジュール６０８、分割モジュール６１０、第１の構築モジュール６１２、第２の構築モジュール６１４、および分類モジュール６１６を記憶し得る。

特徴抽出モジュール６０６は、分類用の画像の１つ以上の分類画像特徴を抽出する。

定量化決定モジュール６０８は、各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定する。

分割モジュール６１０は、分類用の画像を、ピラミッド画像アルゴリズムに従って複数の子画像に分割する。視覚単語ヒストグラムが分類用の画像の空間情報を表すように、この実施形態例では、分類用の画像が空間によって分割される。分類用の画像は複数レイヤー空間小領域に分割される。各レイヤー空間小領域は、空間画像である。各空間画像について、子画像のための分割が実施され、複数の子画像を取得する。

例えば、分割モジュール６１０は、画像レイヤー分割モジュールおよび子画像分割モジュールを含み得る。画像レイヤー分割モジュールは、分類用の画像を、ピラミッド画像アルゴリズムにしたがって複数のレイヤー画像に分割する。子画像分割モジュールは、各レイヤー画像について子画像を分割し、複数の子画像を形成する。

第１の構築モジュール６１２は、各子画像内に含まれる分類画像特徴を決定し、各子に含まれる分類画像特徴に対応するそれぞれの視覚単語の類似性係数を加算し、異なる分類画像特徴を含む各子画像に対応する各視覚単語のそれぞれの重みを計算し、各子画像の子分類視覚単語ヒストグラムを構築する。

画像分割の後、異なるレイヤーにおける異なる子画像に含まれる分類画像特徴は異なる。各子画像に含まれる抽出された分類画像特徴は第１に決定される。次に、各子画像の子分類視覚単語ヒストグラムが構築される。例えば、子分類視覚単語ヒストグラムの構築プロセスは、分類視覚単語ヒストグラムを構築するための構築プロセスと同一である。すなわち、各子画像に対応する視覚単語の子重みが計算され、子分類視覚単語ヒストグラムが子重みに基づいて構築される。

第２の構築モジュール６１４は各子分類視覚単語ヒストグラムを組み合わせて分類視覚単語ヒストグラムを形成する。

子分類視覚単語ヒストグラムは複数のデータからのデータ値を含み、ベクトルで表されるので、各子分類視覚単語ヒストグラムの組み合わせは、各子分類視覚単語ヒストグラムのデータを組み合わせて、高次元ベクトルを形成することである。

画像のレイヤーおよび子画像の分割は、画像特徴または異なる特徴点の中の場所関係の空間情報を増加させる。各子画像は子分類視覚単語ヒストグラムで表され得る。最終的に形成される分類視覚単語ヒストグラムは、分類用の画像の空間情報を増加させる。したがって、分類視覚単語ヒストグラムはより正確に分類用の画像を表し、それにより、画像分類の正確性をさらに改善する。

分類モジュール６１６は、分類視覚単語ヒストグラムを、複数のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムによって訓練される画像分類手段の中に入力する。出力結果は、分類用の画像の分類を決定するために使用される。

事前生成された画像分類手段は、大量のサンプル画像に基づいて構築され、サンプル視覚単語ヒストグラムに基づく訓練によって、事前に生成される。画像分類手段は、各サンプル視覚単語ヒストグラムに基づく機械学習アルゴリズムに基づいて生成される。詳細な生成されたプロセスは、第２の実施形態例に参照され得、本明細書中では詳述されない。

この実施形態例では、分類用の画像は、ピラミッド画像アルゴリズムに従って複数の子画像に分割され、その後、子画像の子視覚単語ヒストグラムが構築される。子視覚単語ヒストグラムが組み合わされて分類視覚単語ヒストグラムを形成する。各分類画像特徴は複数の視覚単語によって分類され、子画像の分割も画像特徴の空間情報を増加させるので、最終的に構築される分類視覚単語ヒストグラムは、分類用の画像をより正確に表し得、それによって、画像分類の正確性を改善する。

第３の実施形態例において説明された方法に対応して、図７は画像を分類するための第３の装置例の構成図を図解する。

この装置は、ソフトウェア、ハードウエア、またはそれらの組み合わせを含み得る。構成例において、図７の装置７００は１つ以上のプロセッサ（複数可）７０２およびメモリ７０４を含み得る。メモリ７０４はコンピュータ記憶媒体の例である。

メモリ７０４はその中に、プログラムユニットまたはモジュールおよびプログラムデータを記憶し得る。図７の例において、メモリ７０４はその中に特徴抽出モジュール７０６、モデル構成モジュール７０８、定量化計算モジュール７１０、分割モジュール７１２、第１の構築モジュール７１４、第２の構築モジュール７１６、および分類モジュール７１８を記憶し得る。

特徴抽出モジュール７０６は、分類用の画像の１つ以上の分類画像特徴を抽出する。

モデル構成モジュール７０８は、各分類画像特徴と事前生成された視覚辞書内の１つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、分類画像特徴と事前生成された視覚辞書との間のスパースコーディングモデルを構成する。

ここでＢは視覚辞書を表し、Ｘ_ｉはベクトルの形式で表されるそれぞれの分類画像特徴を表し、Ｃ_ｉはそれぞれの分類画像特徴と各視覚単語との間の係数によって形成され、ベクトルの形式で表されるデータセットを表し、Ｎは分類画像特徴の数を表し、ｉ＝１、２、…、Ｎ、ここでＮは任意の整数で、またλは拘束係数を表し得る。スパースコーディングモデルは、スパースコーディングモデルが最小値を有するときのＣ_ｉの値を計算する。

定量化計算モジュール７１０は、スパースコーディングモデルの解を導出することによって、視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、定量化後、各分類画像特徴と視覚単語との間の類似性係数を取得する。

数学的最適方法を使用してスパースコーディングモデルの解を導出し得るが、これは、Ｘ_ｉおよびＢＣ_ｉの偏差の平方の加算が最小値を有するときのＣ_ｉの値を計算する最小二乗法等である。

分割モジュール７１２はピラミッド画像アルゴリズムに従って分類用の画像を多数の子画像に分割する。

例えば、分割モジュール７１２は画像レイヤー分割モジュールおよび子画像分割モジュールを含み得る。画像レイヤー分割モジュールは、ピラミッド画像アルゴリズムに従って、分類用の画像を複数のレイヤー画像に分割する。子画像分割モジュールは、各レイヤー画像用の子画像を分割して、複数の子画像を形成する。

第１の構築モジュール７１４は、各子画像に含まれる分類画像特徴を決定し、各子に含まれる分類画像特徴に対応するそれぞれの視覚単語の類似性係数を加算し、異なる分類画像特徴を含む各子画像に対応する各視覚単語のそれぞれの重みを計算し、各子画像の子分類視覚単語ヒストグラムを構築する。

第２の構築モジュール７１６は、各子分類視覚単語ヒストグラムを組み合わされて分類視覚単語ヒストグラムを形成する。

分類モジュール７１８は、分類視覚単語ヒストグラムを、訓練によって事前に生成される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。

この実施形態例は、スパースコーディングモデルによって、多数の視覚単語によって各分類画像特徴を定量化し、定量化後に視覚単語で類似性係数を導出し、それにより、データ表示の計算精度を改善する。さらに、分類用の画像はピラミッド画像アルゴリズムに従って導出され、それにより、特徴の空間情報を増加させる。したがって、最終的に構築される分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それにより、画像分類の正確性を改善する。

第４の実施形態例に説明された方法に対応して、図８は画像を分類するための第４の装置例の構成図を図解する。

装置は、ソフトウェア、ハードウエア、またはそれらの組み合わせを含み得る。構成例において、図８の装置８００は１つ以上のプロセッサ（複数可）８０２およびメモリ８０４を含み得る。メモリ８０４はコンピュータ記憶媒体の例である。

メモリ８０４はその中に、プログラムユニットまたはモジュールおよびプログラムデータを記憶し得る。図８の例では、メモリ８０４はその中に特徴抽出モジュール８０６、第１の計算モジュール８０８、定量化モジュール８１０、第２の計算モジュール８１２、分割モジュール８１４、第１の構築モジュール８１６、第２の構築モジュール８１８、および分類モジュール８２０を記憶し得る。

特徴抽出モジュール８０６は、分類用の画像の１つ以上の分類画像特徴を抽出する。

第１の計算モジュール８０８は、各分類画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算する。

画像特徴はベクトルの形式で表される。例えば、ＳＩＦＴ特徴は１２８−次元ベクトルである。視覚単語は画像特徴を介してクラスタリングされ、画像特徴の同一次元でベクトルでも表される。ユークリッド距離は、多次元空間における二点間の距離を指す。この実施形態例では、分類画像特徴と視覚単語は、ベクトル空間において二点として処理される。ユークリッド距離は、分類画像特徴と視覚単語との間の類似性程度を表す。

定量化モジュール８１０は、各分類画像特徴について、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である１つ以上の視覚単語を、定量化後のそれぞれの分類画像特徴に対応する視覚単語として決定する。

第２の計算モジュール８１２は、それぞれの分類画像特徴と定量化後の各視覚単語との間のユークリッド距離に基づいて、それぞれの分類画像特徴と定量化後の視覚単語との間の類似性係数を計算する。

ユークリッド距離が小さければ、その対応する類似性係数は大きくなる。

分割モジュール８１４は、ピラミッド画像アルゴリズムに従って、分類用の画像を複数の子画像に分割する。

例えば、分割モジュール８１４は画像レイヤー分割モジュールと子画像分割モジュールを含み得る。画像レイヤー分割モジュールは、分類用の画像を、ピラミッド画像アルゴリズムに従って複数のレイヤー画像に分割する。子画像分割モジュールは、各レイヤー画像用の子画像を分割して、複数の子画像を形成する。

第１の構築モジュール８１６は、各子画像に含まれる分類画像特徴を決定し、各子に含まれる分類画像特徴に対応するそれぞれの視覚単語の類似性係数を加算し、異なる分類画像特徴を含む各子画像に対応する各視覚単語のそれぞれの重みを計算し、各子画像の子分類視覚単語ヒストグラムを構築する。

第２の構築モジュール８１８は各子分類視覚単語ヒストグラムを組み合わせて、分類視覚単語ヒストグラムを形成する。

分類モジュール８２０は分類視覚単語ヒストグラムを、複数のサンプル画像に基づいて構築されたサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。

この実施形態例は、ユークリッド距離の計算に基づいて、分類画像特徴と視覚単語との間の類似性程度を決定し、計算されたユークリッド距離に基づいて、分類画像特徴を複数の視覚単語に定量化し、係数を決定する。分類画像特徴は複数の視覚単語によって定量化されるので、構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表すことができ、それにより、画像分類の正確性を改善する。さらに、分類用の画像は、複数の子画像に分割され、それにより、特徴の空間情報を増加させる。したがって、最終的に構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それにより、画像分類の正確性を改善する。

さまざまな模範的実施形態が本開示において漸進的に説明される。実施形態例の同一または類似部分は、互いに参照され得る。各実施形態例は、他の実施形態例とは異なる焦点を有する。特に、装置実施形態例は、比較的簡素な方法で説明されてきたが、これは、その方法例との基本的対応性のゆえである。その詳細は、模範的方法の関連部分に参照され得る。

本文書における「第１の」および「第２の」等の任意の相関的用語は、ある実体を別の実体と、またはある操作を別の操作と区別することのみを意図しているが、任意の現実世界の関係の存在又はこれらの各実体間もしくは操作間の順序付けを必ずしも要求または暗示しないことに留意されたい。さらに、「含む」、「有する」またはあらゆる他のバリエーション等の用語は、非排他的に「から構成されている」を意味することが意図されている。したがって、個々に特徴群を含むプロセス、方法、物品、またはデバイスは、それらの特徴を含み得、さらに、列挙されない他の特徴、あるいは、それらのプロセス、方法、物品、またはデバイスのあらゆる固有の特徴をも含み得る。さらなる任意の限定なしで、「〜を含む」で定義される特徴は、その特徴を記載するプロセス、方法、物品、またはデバイスが他の同等の特徴を有し得る可能性を排除しない。

図解目的のために、前述の装置は、機能性に従って異なるモジュールで記載される。本技法は、１つ以上のハードウエア、ソフトウェア、またはそれら両方の組み合わせにおいて複数のモジュールの機能性を確実に実装し得る。

実施形態例の説明から、当業者は、本技法はソフトウェアおよび必要な一般的プラットフォームによって実施し得ることを理解するであろう。本技法はソフトウェア製品の形態で実現し得る。例えば、本開示は、コンピュータ記憶媒体（ＣＤ−ＲＯＭ、光学ディスク等、これらに限定されない、を含む）内に実装可能なコンピュータ実行可能またはプロセッサ実行可能命令を含む１つ以上のコンピュータプログラムの形式が可能である。これらのコンピュータプログラム命令を、コンピュータまたは他のプログラム式データプロセッサ内にロードし、コンピュータまたは他のプログラム式データプロセッサが実施形態例に記載される方法を実施可能とすることも可能である。

本開示は、本開示の実施形態の方法、デバイス（システム）、およびコンピュータプログラムの流れ図および／またはブロック図を参照することによって説明されている。各流れおよび／またはブロック、および、流れ図および／またはブロック図の流れおよび／またはブロックの組み合わせは、コンピュータプログラム命令によって実装可能であることを理解されたい。これらのコンピュータプログラム命令は、流れ図の１つ以上の流れおよび／またはブロック図の１つ以上のブロックを実装するデバイスがコンピュータまたは他のプログラム式データプロセッサによって操作される命令によって生成され得るように、これらのコンピュータプログラム命令を一般的コンピュータ、特定コンピュータ、埋め込み型プロセッサまたは機械を生成する他のプログラム式データプロセッサに提供する。

本開示は、画像を分類するための方法および装置例を説明する。実施形態例は単に本開示を図解する目的であり、本開示の範囲を限定することは意図されていない。当業者であれば、ある修正および改善を加えることができ、かつ本開示の原理から逸脱することなく本開示の擁護の下で考慮されるべきであることを理解するはずである。

Claims

コンピュータ実行可能命令で構成される１つ以上のプロセッサによって実施される方法であって、
１つ以上の分類画像特徴を分類用の画像から抽出することと、
各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、前記視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定することと、
異なる分類画像特徴に対応する各視覚単語の１つ以上の類似性係数に基づいて、各視覚単語の重みを決定して分類視覚単語ヒストグラムを構築することと、
前記分類視覚単語ヒストグラムを画像分類手段に入力することと、
前記入力の出力を用いて分類用の前記画像の分類を決定することと、
を含む、方法。
前記画像分類手段は、サンプル視覚単語ヒストグラムによる訓練を介して複数のサンプル画像から生成される、請求項１に記載の方法。
前記分類視覚単語ヒストグラムを画像分類手段に入力した後、前記入力された分類視覚単語ヒストグラムを前記画像分類手段内の事前生成された分類視覚単語ヒストグラムと比較して、分類用の前記画像の分類を決定することをさらに含む、請求項２に記載の方法。
前記視覚辞書内の複数の視覚単語によって各分類画像特徴を前記定量化し、前記定量化の後に各分類画像特徴と各視覚単語との間の前記類似性係数を決定することは、
各分類画像特徴と前記視覚辞書内の各視覚単語との間の前記類似性関係に基づいて、スパースコーディング法を用いて、それぞれの分類画像特徴と前記視覚辞書内の１つ以上の視覚単語との間のスパースコーディングモデルを構築することと、
前記スパースコーディングモデルの解を導出して前記視覚辞書内の前記複数の視覚単語によって前記それぞれの分類画像特徴を定量化することと、
前記それぞれの分類画像特徴と前記視覚辞書内の前記複数の視覚単語との間の１つ以上の類似性係数を取得することと、
を含む、請求項１に記載の方法。
前記スパースコーディングモデルは、

で表され、
式中、
Ｂは前記視覚辞書を表し、
Ｘ_ｉは前記それぞれの分類画像特徴を表し、
Ｃ_ｉは前記それぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表し、
Ｎは分類画像特徴の数を表し、
λは拘束係数を表し、

はＣ_ｉにおける全要素の加算を表し、
前記スパースコーディングモデルは、前記スパースコーディングモデルが最小値を有するときのＣ_ｉの値を計算するために使用される、請求項４に記載の方法。
前記視覚辞書内の複数の視覚単語によって各分類画像特徴を前記定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の前記類似性係数を決定することは、
各分類画像特徴と前記事前生成された視覚辞書内の前記視覚単語との間の前記類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算することと、
計算されたユークリッド距離の中で最小のユークリッド距離を決定することと、
各分類画像特徴について、ユークリッド距離が前記最小のユークリッド距離の事前設定された時間範囲内にある１つ以上の視覚単語を、前記それぞれの分類画像特徴の定量化用の前記視覚単語として決定することと、
前記それぞれの分類画像特徴と定量化用の前記視覚単語の各々との間の前記ユークリッド距離に基づいて、前記それぞれの分類画像特徴と前記視覚単語との間の前記１つ以上の係数を計算することと、
を含む、請求項１に記載の方法。
各視覚単語の前記重みを前記決定して前記分類視覚単語ヒストグラムを構築することは、
異なる分類画像特徴に対応するそれぞれの視覚単語の前記１つ以上の係数を加算して前記それぞれの視覚単語の前記重みを計算することと、
前記分類視覚単語ヒストグラムを構築することと、
を含む、請求項１に記載の方法。
各視覚単語の前記重みを前記決定して前記分類視覚単語ヒストグラムを構築することは、
ピラミッド画像アルゴリズムに基づいて、分類用の前記画像を複数のレイヤー画像に分割することと、
各レイヤー画像を分割して複数の子画像を形成することと、
を含む、請求項１に記載の方法。
前記視覚辞書は、複数のサンプル画像から抽出された複数のサンプル画像特徴のクラスタリングによって生成される、請求項１に記載の方法。
１つ以上の分類画像特徴を分類用の画像から抽出する、特徴抽出モジュールと、
各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、前記視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定する、定量化決定モジュールと、
異なる分類画像特徴に対応する各視覚単語の１つ以上の類似性係数に基づいて、各視覚単語の重みを決定して分類視覚単語ヒストグラムを構築する、構築モジュールと、
前記分類視覚単語ヒストグラムを画像分類手段に入力し、出力を用いて分類用の前記画像の分類を決定する、分類モジュールと、
を備える、装置。
前記画像分類手段は、サンプル視覚単語ヒストグラムによる訓練を介して複数のサンプル画像から生成される、請求項１０に記載の装置。
前記画像分類手段は、前記入力された分類視覚単語ヒストグラムを事前生成された分類視覚単語ヒストグラムと比較して分類用の前記画像の分類を決定する、請求項１１に記載の装置。
前記定量化決定モジュールは、
各分類画像特徴と前記視覚辞書内の各視覚単語との間の前記類似性関係に基づいて、スパースコーディング法を用いて、それぞれの分類画像特徴と前記視覚辞書内の１つ以上の視覚単語との間にスパースコーディングモデルを構築する、モデル構成モジュールと、
前記視覚辞書内の前記複数の視覚単語によって前記それぞれの分類画像特徴を定量化するために前記スパースコーディングモデルの解を導出し、前記それぞれの分類画像特徴と前記視覚辞書内の前記複数の視覚単語との間の１つ以上の類似性係数を取得する、定量化決定モジュールと、
を備える、請求項１０に記載の装置。
前記スパースコーディングモデルは、

で表され、
Ｂは前記視覚辞書を表し、
Ｘ_ｉは前記それぞれの分類画像特徴を表し、
Ｃ_ｉは前記それぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表し、
Ｎは分類画像特徴の数を表し、
λは拘束係数を表し、

はＣ_ｉにおける全要素の加算を表し、
前記スパースコーディングモデルは、前記スパースコーディングモデルが最小値を有するときのＣ_ｉの値を計算するために使用される、請求項１３に記載の装置。
前記定量化決定モジュールは、
各分類画像特徴と前記事前生成された視覚辞書内の前記視覚単語との間の前記類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算する、第１の計算モジュールと、
計算されたユークリッド距離の中の最小のユークリッド距離を決定し、各分類画像特徴について、ユークリッド距離が前記最小ユークリッド距離の事前設定された時間範囲内である１つ以上の視覚単語を、前記それぞれの分類画像特徴の定量化用の前記視覚単語として決定する、定量化モジュールと、
前記それぞれの分類画像特徴と定量化用の各前記視覚単語との間の前記ユークリッド距離に基づいて、前記それぞれの分類画像特徴と前記視覚単語との間の前記１つ以上の係数を計算する、第２の計算モジュールと、
を備える、請求項１０に記載の装置。
前記構築モジュールは、
ピラミッド画像アルゴリズムに基づいて、分類用の前記画像を複数の子画像に分割する、分割モジュールと、
各子画像の分類画像特徴を決定し、それぞれの子画像内の各分類画像特徴に対応するそれぞれの視覚単語の前記係数を加算し、前記それぞれの子画像に対応する前記それぞれの視覚単語の前記重みを計算して、前記それぞれの子画像の子分類視覚単語ヒストグラムを構築する、第１の構築モジュールと、
各子画像の各子分類視覚単語ヒストグラムを組み合わせて前記分類視覚単語ヒストグラムを構築する、第２の構築モジュールと、
を備える、請求項１０に記載の装置。
１つ以上のプロセッサによって実行されるときに、前記１つ以上のプロセッサに方法を実施するように指示するプロセッサ実行可能命令を含む１つ以上のコンピュータ記憶媒体であって、前記方法は、
分類用の画像から１つ以上の分類画像特徴を抽出することと、
各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、前記視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定することと、
異なる分類画像特徴に対応する各視覚単語の１つ以上の類似性係数に基づいて、各視覚単語の重みを決定して分類視覚単語ヒストグラムを構築することと、
前記分類視覚単語ヒストグラムを複数のサンプル画像からサンプル視覚単語ヒストグラムによる訓練を介して生成される画像分類手段に入力することと、
前記入力の出力を用いて分類用の前記画像の分類を決定することと、
を含む、１つ以上のコンピュータ記憶媒体。
前記方法は、前記分類視覚単語ヒストグラムを画像分類手段に入力した後に、前記入力された分類視覚単語ヒストグラムを前記画像分類手段内の事前生成された分類視覚単語ヒストグラムと比較して、分類用の前記画像の分類を決定することをさらに含む、請求項１７に記載の１つ以上のコンピュータ記憶媒体。
前記定量化後に各分類画像特徴と各視覚単語との間の前記類似性係数を前記決定することは、
各分類画像特徴と前記視覚辞書内の各視覚単語との間の前記類似性関係に基づいて、スパースコーディング法を用いて、それぞれの分類画像特徴と前記視覚辞書内の１つ以上の視覚単語との間のスパースコーディングモデルを構築することと、
前記スパースコーディングモデルの解を導出して前記視覚辞書内の前記複数の視覚単語によって前記それぞれの分類画像特徴を定量化することと、
前記それぞれの分類画像特徴と前記視覚辞書内の前記複数の視覚単語との間の前記１つ以上の類似性係数を取得することと、を含み、
前記スパースコーディングモデルは、

で表され、
Ｂは前記視覚辞書を表し、
Ｘ_ｉは前記それぞれの分類画像特徴を表し、
Ｃ_ｉは前記それぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表し、
Ｎは分類画像特徴の数を表し、
λは拘束係数を表し、

はＣ_ｉにおける全要素の加算を表し、
前記スパースコーディングモデルは、前記スパースコーディングモデルが最小値を有するときのＣ_ｉの値を計算するために使用される、請求項１７に記載の１つ以上のコンピュータ記憶媒体。
前記視覚辞書内の複数の視覚単語によって各分類画像特徴を前記定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の前記類似性係数を決定することは、
各分類画像特徴と前記事前生成された視覚辞書内の前記視覚単語との間の前記類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算することと、
計算されたユークリッド距離間の最小ユークリッド距離を決定することと、
各分類画像特徴について、ユークリッド距離が前記最小ユークリッド距離の事前設定時間範囲内にある１つ以上の視覚単語を、前記それぞれの分類画像特徴の定量化用の前記視覚単語として決定することと、
前記それぞれの分類画像特徴と定量化用の各前記視覚単語との間の前記ユークリッド距離に基づいて、前記それぞれの分類画像特徴と前記視覚単語との間の前記１つ以上の係数を計算することと、
を含む、請求項１７に記載の１つ以上のコンピュータ記憶媒体。