JP2015506026A - 画像分類 - Google Patents

画像分類 Download PDF

Info

Publication number
JP2015506026A
JP2015506026A JP2014546187A JP2014546187A JP2015506026A JP 2015506026 A JP2015506026 A JP 2015506026A JP 2014546187 A JP2014546187 A JP 2014546187A JP 2014546187 A JP2014546187 A JP 2014546187A JP 2015506026 A JP2015506026 A JP 2015506026A
Authority
JP
Japan
Prior art keywords
visual
image
classified
visual word
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014546187A
Other languages
English (en)
Inventor
シュエ フイ
シュエ フイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2015506026A publication Critical patent/JP2015506026A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は画像を分類するための方法および装置を導入する。分類用の画像の分類画像特徴が抽出される。各分類画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、各分類画像特徴が視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と視覚単語のそれぞれとの間の類似性係数が決定される。異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みが決定され、分類用の画像の分類視覚単語ヒストグラムを構築する。分類視覚単語ヒストグラムは、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。

Description

本開示は、画像処理技術の分野に関し、より具体的には、画像を分類するための方法および装置に関する。
関連特許出願の相互参照
本出願は、2011年12月12日に出願された中国特許出願第201110412537.5号、表題「Image Classification Method and Apparatus」に対する外国優先権を主張するものであり、参照によりその全体が本明細書中に組み込まれる。
画像分類は、異なる画像が反映される異なる特性に基づいて分類を決定し、それらの画像を分類する画像処理技術である。インターネット上の画像の氾濫のため、電子商取引分野は大量の画像情報を含む。画像分類を用いて禁制品が検出され、同一の種類の製品が推奨され得る。したがって、画像分類技術は研究の焦点になっている。
概して既存の画像分類方法は、事前生成された視覚辞書に基づいて、分類用の画像を分類ヒストグラム用の視覚単語で表し、その後、事前訓練に基づいて生成される画像分類手段によって分類用の画像の分類を決定する。視覚辞書は異なる視覚単語を含む。各視覚単語は、大量の訓練画像から抽出された訓練画像特徴のクラスタリングを介して取得される分類を表す。分類用の視覚単語のヒストグラムは、複数のデータによって形成されるデータセットであり、ベクトルで表される。各データは対応する視覚単語にマッピングされる。各データ値は、対応する視覚単語の重みに等しい。この重みは、分類用のそれぞれの画像と対応する視覚単語で表される分類との間の類似性程度を表す。画像分類手段は各訓練画像に対応する視覚単語ヒストグラムに基づいて、機械学習アルゴリズムによって訓練を介して生成される。それぞれの訓練画像に対応するそれぞれの視覚単語ヒストグラムは、分類用の画像を分類するための視覚単語のヒストグラムで表すことによって、同一の方法でも形成される。
分類用の画像を、分類用の視覚単語のヒストグラムとして表すプロセスは以下のとおりである。分類用の画像のそれぞれの画像特徴に基づいて、それぞれの画像特徴に最も近い視覚辞書内の視覚単語が決定され、それぞれの画像特徴がそのような視覚単語として定量化される。視覚辞書内の視覚単語が定量化のために使用されるごとに、その対応する重みが1だけ増加される。すべてのそれぞれの画像特徴が視覚単語によって定量化されると、各視覚単語の重みも分類用の視覚単語のヒストグラムを構築するために決定される。例えば、視覚辞書はB={b1、b2、b3}で表され、抽出された画像特徴はX1およびX2を含み得、対応する視覚単語ヒストグラムはC={c1、c2、c3}で表され得るが、ここでc1、c2、およびc3の初期値は0である。X1が視覚単語b1に最も近いと決定されたとき、c1に対応する値は1だけ増加される。X2も視覚単語b1に最も近いと決定された場合、c1に対応する値も1だけ増加される。したがって、分類用の画像に対応する分類用の視覚単語の最終の構築されたヒストグラムは{2、0、0}で表される。
上に示されるように、分類用の視覚単語のヒストグラムを構築するためのプロセスは、分類用の画像の各特徴を視覚単語として定量化することである。実際の適用においては、定量化を介して取得された視覚単語は分類される画像の特徴を正確に表わさない場合がある。さらに、画像ひずみが存在するときに、定量化エラーが容易に生じ得る。例えば、画像特徴X1は現在の方法の下ではb2に最も近くあり得るが、画像特徴X1は視覚単語b1によって依然として定量化され得る。したがって、構築された視覚単語ヒストグラムは、正確でない場合があり、エラーを有し得、不正確な画像分類につながる。
この発明の概要は、以下に発明を実施するための形態においてさらに説明される選択概念を簡素化された形で導入するために提供される。この発明の概要は特許請求される主題の全ての主要な特徴または基本的な特徴を特定することも、特許請求される主題の範囲を決定する際の援助として単独で使用されることも意図していない。用語「技法」は、例えば、前述の文脈によって、かつ本開示を通して認められるデバイス(複数可)、システム(複数可)、方法(複数可)、および/またはコンピュータ可読命令を指し得る。
本開示は画像を分類するための方法、ならびに画像を分類するための方法を実装するために使用され得る画像分類するための装置を提供する。
本開示は画像を分類するための方法を提供する。分類用の画像の分類画像特徴が抽出される。各分類画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、各分類画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と各視覚単語との間の類似性係数が決定される。異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みが決定され、分類用の画像の分類視覚単語ヒストグラムが構築される。分類視覚単語ヒストグラムは、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。
各分類画像特徴が視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と各視覚単語との間の類似性係数が決定される異なる技法が存在する。
例えば、各分類画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、分類画像特徴と事前生成された視覚辞書との間のスパースコーディングモデルが構築される。スパースコーディングモデルを使用して、視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し得、定量化後に各分類画像特徴と視覚単語との間の類似性係数を取得し得る。
例えば、スパースコーディングモデル例は以下のようになり得る。
Figure 2015506026
ここで、Bは視覚辞書を表し、Xはそれぞれの分類画像特徴を表す。Cはそれぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表す。Nは分類画像特徴の数を表す。i=1、2、…、N、ここでNは任意の整数であり得る。λは拘束係数を表す。
Figure 2015506026
はC内の全要素の加算を表す。スパースコーディングモデルは、モデルが最小値をもつときのCの値を計算するために使用される。
別の例では、各分類画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離が計算される。各分類画像特徴について、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である1つ以上の視覚単語が、定量化後にそれぞれの分類画像特徴の視覚単語として決定される。それぞれの分類画像特徴と定量化後の各視覚単語との間のユークリッド距離に基づいて、それぞれの分類画像特徴と定量化後の視覚単語との間の係数が計算される。
各視覚単語の重みが決定されて分類用の画像の分類視覚単語ヒストグラムを構築する異なる技術が存在する。例えば、異なる分類画像特徴に対応するそれぞれの視覚単語の係数を加えてそれぞれの視覚単語の重みを計算し、分類視覚単語ヒストグラムを構築し得る。
別の例では、分類用の画像を、ピラミッド画像アルゴリズムに基づいて複数の子画像に分割し得る。各子画像の分類画像特徴が決定される。子画像内の各分類画像特徴に対応するそれぞれの視覚単語の係数を加え、子画像に対応するそれぞれの視覚単語の重みを計算し、子画像の子分類視覚単語ヒストグラムを構築し得る。各子画像の各子分類視覚単語ヒストグラムに基づいて、分類用の画像の分類視覚単語ヒストグラムが構築される。
ピラミッド画像アルゴリズムに基づいて、分類用の画像を複数の子画像に分割する異なる技術が存在する。例えば、分類用の画像をピラミッド画像アルゴリズムに基づいて複数のレイヤー画像に分割し得る。各レイヤー画像は分割されて複数の子画像を形成する。
事前生成された視覚辞書の生成のための異なる技術が存在する。例えば、事前生成された視覚辞書は、複数のサンプル画像から抽出された複数のサンプル画像特徴のクラスタリングを介して生成し得る。
本開示は画像を分類するための装置も提供する。画像を分類するための装置は、特徴抽出モジュール、定量化決定モジュール、構築モジュール、および分類モジュールを含み得る。
特徴抽出モジュールは、分類用の画像の分類画像特徴を抽出する。定量化決定モジュールは、各分類画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定する。構築モジュールは、異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みを決定し、分類用の画像の分類視覚単語ヒストグラムを構築する。分類モジュールは、分類視覚単語ヒストグラムを、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力し、出力結果に基づいて、分類用の画像の分類を決定する。
定量化決定モジュールは、異なる実施形態において異なる構成要素を含み得る。例えば、定量化決定モジュールは、モデル構成モジュールおよび定量化計算モジュールを含み得る。モデル構成モジュールは、各分類画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、分類画像特徴と事前生成された視覚辞書との間のスパースコーディングモジュールを構築する。定量化計算モジュールは、スパースコーディングモデルを使用し、各分類画像特徴を視覚辞書内の複数の視覚単語に定量化し、定量化後に各分類画像特徴と視覚単語との間の類似性係数を取得する。
例えば、スパースコーディングモデルは以下のようになり得る。
Figure 2015506026
ここで、Bは視覚辞書を表し、Xはそれぞれの分類画像特徴を表わし、Cはそれぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表し、Nは分類画像特徴の数を表す。i=1、2、…、N、ここでNは任意の整数であり得、λは拘束係数を表す。
Figure 2015506026
はC内の全要素の加算を表す。スパースコーディングモデルは、モデルが最小値をもつときのCの値を計算するために使用される。
別の例では、定量化決定モジュールは、第1の計算モジュール、定量化モジュール、および第2の計算モジュールを含み得る。第1の計算モジュールは、各分類画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算する。定量化モジュールは、各分類画像特徴に付き、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である1つ以上の視覚単語を、定量化後のそれぞれの分類画像特徴の視覚単語として決定する。第2の計算モジュールは、それぞれの分類画像特徴と定量化後の各視覚単語との間のユークリッド距離に基づいて、それぞれの分類画像特徴と定量化後の視覚単語との間の係数を計算する。
構築モジュールの異なる例が存在する。例えば、構築モジュールは、異なる分類画像特徴に対応するそれぞれの視覚単語の係数を加えてそれぞれの視覚単語の重みを計算し、分類視覚単語ヒストグラムを構築し得る。
別の例では、構築モジュールは、分割モジュール、第1の構築モジュール、および第2の構築モジュールを含み得る。分割モジュールは、ピラミッド画像アルゴリズムに基づいて、分類用の画像を複数の子画像に分割する。第1の構築モジュールは、各子画像の分類画像特徴を決定し、子画像内の各分類画像特徴に対応するそれぞれの視覚単語の係数を加え、子画像に対応するそれぞれの視覚単語の重みを計算し、子画像の子分類視覚単語ヒストグラムを構築する。第2の構築モジュールは、各子画像の各子分類視覚単語ヒストグラムに基づいて、分類用の画像の分類視覚単語ヒストグラムを構築する。
分割モジュールは、異なる実施形態において異なる構成要素を含み得る。例えば、分割モジュールは、画像レイヤー分割モジュールおよび子画像分割モジュールを含み得る。画像レイヤー分割モジュールは、分類用の画像をピラミッド画像アルゴリズムに基づいて複数のレイヤー画像に分割する。子画像分割モジュールは、各レイヤー画像を複数の子画像に分割する。
事前生成された視覚辞書の生成のための異なる技法が存在する。例えば、事前生成された視覚辞書は、複数のサンプル画像から抽出された複数のサンプル画像特徴のクラスタリングを介して生成され得る。
本技法は、分類用の画像の分類画像特徴を複数の視覚単語に定量化し、決定された分類画像特徴の係数および定量化後の視覚単語を決定し、その係数に基づいて分類視覚単語ヒストグラムを構築する。分類画像特徴は複数の視覚単語によって定量化され、類似性係数は、分類画像特徴と定量化後の視覚単語との間の類似性程度を表す。一方で、構築された視覚単語ヒストグラムは分類用の画像をより正確に表し得る。他方で、画像がひずみを有する場合でも、画像特徴は1つの視覚単語として定量化されることに限定されず、かつ複数の視覚単語として定量化され得るため、定量化エラーから生じる分類エラーは減少し得、画像分類の正確性は改善され得る。
本開示の実施形態をより良く図解するために、以下は実施形態の説明において使用される図の簡単な紹介である。以下の図は本開示のいくつかの実施形態のみに関連しており、本開示を限定するために使用されるべきではないことは明らかである。当業者は、創造的努力なしに本開示における図に従って他の図を得ることができる。
本開示の第1の実施形態例に従う画像を分類するための方法例の流れ図を図解する。 本開示の第2の実施形態例に従う画像を分類するための別の方法例の流れ図を図解する。 本開示の第3の実施形態例に従う画像を分類するための別の方法例の流れ図を図解する。 本開示の第4の実施形態例に従う画像を分類するための別の方法例の流れ図を図解する。 画像を分類するための第1の装置例の構成図を図解する。 画像を分類するための第2の装置例の構成図を図解する。 画像を分類するための第3の装置例の構成図を図解する。 画像を分類するための第4の装置例の構成図を図解する。
本開示は、画像を検索および分類するための方法および装置を提供する。本技法はサーバ資源の利用率を改善し得る。本技法は画像検索のプロセスに適用し得、方法または装置として実装され得る。以下は、図を参照した本技法の詳細な説明である。本明細書において説明される実施形態は、実施形態例であり、本開示の範囲を限定するために使用されるべきではない。
本技法は、プログラムモジュール等の、コンピュータによって実施されるコンピュータ実行可能命令の文脈中で説明される。概して、プログラムモジュールは、インスタンス、プログラム、オブジェクト、コンポーネント、および特定タスクを実装する、または特定抽象的データタイプを実現するデータ構造を含む。本技法は、分散コンピューティング環境においても実装し得る。分散コンピューティング環境では、通信ネットワークによって接続される遠隔デバイスが、タスクを実装するために使用される。分散コンピューティング環境では、プログラムモジュールは、記憶デバイスを含む構内および遠隔コンピュータ記憶媒体に記憶され得る。
本開示の1つの実施形態例では、分類用の画像の分類画像特徴が抽出される。各分類画像特徴は、事前生成された視覚辞書内の複数の視覚単語によって定量化される。分類画像特徴と定量化後の視覚単語との間の類似性係数が決定される。異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、視覚単語の重みが決定され、分類視覚単語ヒストグラムは構築される。分類視覚単語ヒストグラムは、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。したがって、画像分類が実装される。各分類画像特徴は複数の視覚単語によって定量化され得、複数の視覚単語によって表され、それによって、視覚単語による分類画像特徴の表示の正確性が改善される。したがって、構築された分類視覚単語ヒストグラムは分類用の画像を正確に表し得、画像分類の正確性が改善される。さらに、複数の視覚単語が分類画像特徴を表すために使用されるため、定量化エラーから生じる分類エラーは減少し得、画像分類の正確性は改善し得る。
図1は本開示の第1の実施形態例に従う画像を分類するための方法例の流れ図を図解する。102において、分類用の画像から1つ以上の分類画像特徴が抽出される。画像を分類する必要性があるときは、分類用の画像が入力として使用され、分類画像特徴が分類用の各画像から抽出される。例えば、分類画像特徴は、SIFT によって抽出されるスケール不変特徴変形(SIFT)特徴等の画像地域特徴であり得る。SIFT特徴は、スケール、回転不変、視点変化、アフィン変化、および特定程度の安定性も維持するノイズを有する。別の例では、本技法は他のアルゴリズムを使用して、HAAR特徴、HOG特徴等の異なる特性を有する画像地域特徴を抽出し得る。本開示は画像地域特徴の抽出を制限しない。
いくつか適用においては、画像特徴はベクトルの形式で表され得る。例えば、5つの画像特徴が画像から抽出され得、各画像特徴は(1、1、1)、(2、2、2)、(1、1、2)、(3、3、3)、(2、1、3)等の三次元ベクトルを表す。いくつかの抽出された画像特徴は、各特徴のベクトル次元、特定特徴抽出アルゴリズム、および画像サイズと関連し得る。SIFT特徴の抽出例に関して、SIFT特徴のベクトル次元が通常128次元を有する。500−10000 128次元の画像特徴は、800×600の解像度を有する画像から抽出され得る。
104において、各分類画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、各分類画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と定量化後の各視覚単語との間の類似性係数が決定される。例えば、本技法は視覚辞書に基づいて画像を分類するための方法を使用し得、また分類用の画像を視覚単語ヒストグラムで表し得る。視覚辞書は、異なる視覚単語を含み得、各視覚単語は大量のサンプル画像から抽出されるサンプル画像特徴を介してクラスタリングされる特徴のタイプを表す。操作例は以下の通りである。
第1に、サンプル画像特徴がサンプル画像から抽出される。サンプル画像はラベル付けされた分類を有するサンプル画像である。特徴を抽出する操作は、102における操作と同一または類似し得る。
視覚辞書内の視覚単語の事前設定数に基づいて、抽出された画像特徴はクラスタリング方法によってクラスタリングされる。クラスタ中心の値は視覚単語である。
例えば、ラベル付けされた分類を有する10のサンプル画像があり得る。サンプル画像は、車両、景色等の複数の分類を含み得る。各画像から100の特徴が抽出された場合、合計で1,000のサンプル画像特徴が抽出される。視覚辞書内の視覚単語の事前設定数が10の場合は、クラスタリング方法を用いて1,000の画像をクラスタリングし、10の視覚単語を有する視覚辞書を形成する。10の視覚単語は、タイヤ、葉等の特定分類を表し得る。クラスタリングは、物理的または抽象的物体のセットを類似物によって形成される複数の分類に分類するプロセスである。クラスタリング中心は複数の特徴に基づいてクラスタリング方法によって計算される視覚辞書の視覚単語である。クラスタリング方法は、例えば、K平均アルゴリズムを使用し得る。したがって、各視覚単語は多次元ベクトルでもあり、その次元は画像特徴の次元と同一である。
画像特徴および視覚単語の両方がベクトルによって表され得るため、各分類画像特徴は視覚辞書内の視覚単語と以下の類似関係を有し得、これはX≒B等の線形式において表され得る。
はそれぞれの画像特徴を表し、Bは視覚辞書を表し、Cは各分類画像特徴と各視覚単語との間の係数で構成されるデータセットを表す。Cによって形成されるデータセットは、ベクトルの形式で表され得、視覚辞書との一対一のマッピング関係を有する。例えば、視覚辞書はB={b1、b2、b3、b4}、その対応するC={Ci1、Ci2、Ci3、Ci4}で表され得る。したがって、X≒b1i1+b2i2+b3i3+b4i4
定量化後のX1に対応する視覚単語がb1、b3、およびb4である場合は、Xのそれぞれの係数、すなわち、C11、C13、およびC14は0.6、0.3、0.1である。それぞれの分類画像特徴と各視覚単語との間の類似性係数の組み合わせは、{0.6、0、0.3、0.1}で表される。類似性係数は、各分類画像特徴と各視覚単語との間の類似程度を表す。複数の視覚単語によって各分類画像特徴を定量化するための、および、それぞれの分類画像特徴と定量化後の視覚単語との間の類似性係数を決定するためのさまざまな方法がある。いくつか方法例が以下に詳細に説明される。
106において異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みが決定され、分類視覚単語ヒストグラムを構築する。104における操作から、各分類画像特徴について、定量化後の視覚単語との類似性係数を計算し得る。すなわち、各視覚単語は異なる分類画像特徴との対応する類似性係数を有する。異なる分類画像特徴に対応する視覚単語の係数に基づいて、視覚単語の重みが決定され、分類用の画像の分類視覚単語ヒストグラムを構築し得る。
視覚単語の重みを決定し、分類視覚単語ヒストグラムを構築するさまざまな方法がある。例えば、異なる分類画像特徴に対応する視覚単語のすべての類似性係数が加えられ、その加算が視覚単語の重みとして使用される。データセットは、視覚単語の重みで構成され、したがって多次元ベクトルが形成され得、これは分類用の画像の分類視覚単語ヒストグラムを表し得る。
例えば、X1、X2、およびX3等の3つの分類画像特徴を、分類用の画像から抽出し得る。視覚辞書は、b1、b2、b3、およびb4等の4つの視覚単語を含み得る。特徴X1と各視覚単語の間の類似性係数は、{0.6、0、0.3、0.1}である。特徴X2と各視覚単語との間の類似性係数は、{0.2、0.4、0.3、0.1}である。 特徴X3と各視覚単語との間の類似性係数は、{0.2、0.2、0.3、0.3}である。すなわち、視覚単語b1に対応する全類似性係数は、0.6、0.2、および0.2である。そのような類似性係数は、加算されて1としてb1の重みを取得する。類似操作により、視覚単語b2の重みは0.6、視覚単語b3の重みは0.9、視覚単語b4の重みは0.5である。したがって、分類視覚単語ヒストグラムは異なる視覚単語の重みで構成されるデータセットである。最終的に構築される分類視覚単語ヒストグラムは{1、0.6、0.9、0.5}である。
別の例では、分類用の画像は複数の子画像に分類される。視覚辞書内の各子画像に対応する視覚単語の重みが最初に計算されて子画像の子分類視覚単語ヒストグラムを構築する。次に各子分類視覚単語ヒストグラムが組み合わされて分類視覚単語ヒストグラムを形成する。操作例が以下に詳細に説明される。
類似性係数の数値を使用して、分類画像特徴とさまざまな視覚単語との間の類似程度を表し得る。類似性係数は、類似性係数の百分率が同一として残る限り、値の他のタイプの形式をとり得る。
108において、分類視覚単語ヒストグラムは、複数のサンプル画像からサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は分類用の画像の分類を決定するために使用される。
画像分類手段は、機械学習後に画像の分類を自動的に決定する機械モデルである。例えば、画像分類手段はベクトル支持機械モデル、決定木モデル等であり得る。事前生成された画像分類手段は、複数のサンプル画像に基づいて、機械学習アルゴリズムを使用し、対応する分類モデルを生成して画像分類を実装する。
事前生成された画像分類手段は、大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムに基づく訓練を介して生成される。例えば、サンプル視覚単語ヒストグラムを構築するための操作は、画像分類を実装するために、分類用の画像の視覚単語ヒストグラムを構築するための操作と同一であり得る。以下は、画像分類手段の生成プロセス例である。
第1のステップにおいて、各サンプル画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各サンプル画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各サンプル画像特徴と定量化後の各視覚単語との間の類似性係数が決定される。104において示されるように、視覚辞書は、大量のサンプル画像から抽出されるサンプル画像特徴のクラスタリングを介して生成される。画像分類手段もサンプル画像の訓練を介して生成される。
選択されたサンプル画像の分類に基づいて、画像分類手段は異なるタイプのための分類手段を含むように訓練される。例えば、サンプル画像は車両、景色、および人々を含み得る。最終的に生成された画像分類手段は、画像の車両分類、景色分類、および人々分類への分類を実装するための3つのタイプの分類手段であり得る。
各サンプル画像特徴は複数の視覚単語によって定量化され、各サンプル画像特徴と定量化後の視覚単語との間の係数が計算される。例えば、そのような操作は、分類画像特徴と視覚単語との間の係数を計算するための操作と同一である。
第2のステップにおいて、異なるサンプル画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みが決定され、サンプル視覚単語ヒストグラムが構築される。
第3のステップにおいて、各サンプル視覚単語ヒストグラムに基づいて、機械学習アルゴリズムが使用されて訓練を介して画像分類手段を生成する。
各サンプル画像についてサンプル視覚単語ヒストグラムが構築された後、機械学習を介して、画像分類手段が生成される。
分類視覚単語ヒストグラムは、前述の操作を介して生成される画像分類手段に入力される。画像の分類は、画像分類手段の出力結果に基づいて決定される。訓練後の画像分類手段が3タイプ分類手段である場合には、出力結果はA、B、またはCを含む。例えば、Aは車両タイプを表し得、Bは木タイプを表し得、Cは人々のタイプを表し得る。出力結果がAである場合には、画像は車両タイプ画像に所属する。
大量の分類用の画像が存在し得る。分類プロセスは、前述の操作に従って、分類用の各画像に適用し、分類用の大量の画像の分類を実装し得る。
本開示のこの実施形態例では、各分類画像特徴は複数の視覚単語によって定量化され、各分類画像特徴と定量化後の視覚単語との間の類似性係数が決定される。視覚単語ヒストグラムは、各視覚単語の異なる類似性係数に基づいて構築される。1つの分類画像特徴が複数の視覚単語で表され得るように各分類画像特徴が複数の視覚単語を定量化するために使用されるため、視覚単語で表される分類画像特徴の正確性は改善される。したがって、構築された分類視覚単語ヒストグラムは分類用の画像をより正確に表し得、これにより、画像分類の正確性が改善される。さらに、複数の視覚単語が分類画像特徴を表すために使用されるため、定量化エラーから生じる分類エラーは減少し得、画像分類の正確性は改善され得る。
図2は、本開示の第2の実施形態例に従う画像を分類するための別の方法例の流れ図を図解する。
202において、分類用の画像の1つ以上の分類画像特徴が抽出される。
204において、各分類画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、各分類画像特徴は視覚辞書内の複数の視覚単語によって定量され、各分類画像特徴と定量化後の各視覚単語との間の類似性係数が決定される。
206において、分類用の画像は、ピラミッド画像アルゴリズムに基づいて複数の子画像に分割される。視覚単語ヒストグラムが分類用の画像の空間情報を表すために、この実施形態例では、分類用の画像が空間によって分割される。分類用の画像は、複数のレイヤー空間小領域に分割される。各レイヤー空間小領域は、空間画像である。各レイヤー空間画像は、さらに複数の子画像へ分割される。
この実施形態例では、分類用の画像はピラミッド画像アルゴリズムによって分割される。例えば、M−レイヤーピラミッド画像アルゴリズムを使用して元画像をMレイヤー空間画像に分割し得る。各空間画像は、4によって子画像に分割し得、ここでN=0、1、2、…、M−1である。第1のレイヤー空間画像は、4によって分割され、1つの子レイヤー画像を形成する。第2のレイヤー空間画像は4によって分割され、4子画像を形成する。第3のレイヤー空間画像は16の子画像に分割される。Mthレイヤー空間画像は、4M−1子画像に分割される。MおよびNの値は、実際の状況に従って決定し得る。
分類用の画像が複数のレイヤー空間画像に分割された後、各レイヤー空間画像は抽出された分類画像特徴を含む。子画像が分割された後、分類画像特徴もそれに従って分割される。例えば、抽出された分類画像特徴は、X1、X2、X3、X4、およびX5を含み得る。第1のレイヤー空間画像は5分類画像特徴を含む1つの子画像を含む。第2のレイヤー空間画像は4子画像を含む。例えば、特徴X1およびX2は、第2のレイヤー空間画像の第1の子画像内に配置され得る。特徴X3、X4、およびX5は第2のレイヤー空間画像の第2の子画像内に配置され得る。第3および第4の子画像は、分類画像特徴を含み得ない。第3のレイヤー空間画像は16の子画像に分割される。各分類画像特徴は、第3のレイヤー空間画像の異なる子画像内に配置され得る。
208において、各子画像内に含まれる分類画像特徴が決定される。各子画像内に含まれる分類画像特徴に対応するそれぞれの視覚単語の類似性係数は加算されて各子画像に対応する視覚単語の重みを計算し、各子画像の子分類視覚単語ヒストグラムが構築される。
206に示されるように、画像分割の後、異なるレイヤーにおける異なる子画像に含まれる分類画像特徴は異なる。各子画像に含まれる抽出された分類画像特徴は第1に決定される。次に、各子画像の子分類視覚単語ヒストグラムが構築される。各子画像に対応する視覚単語の子重みが計算される。視覚単語の子重みが視覚単語ヒストグラムのデータとして使用され、子分類視覚単語ヒストグラムを構築する。
210において、各子分類視覚単語ヒストグラムは組み合わされ、分類用の画像の分類視覚単語ヒストグラムを形成する。子分類視覚単語ヒストグラムは複数のデータからのデータ値を含み、ベクトルで表されるので、各子分類視覚単語ヒストグラムの組み合わせが各子分類視覚単語ヒストグラムのデータを組み合わせて高次元ベクトルを形成する。
分類視覚単語ヒストグラムを構築するための操作プロセス例は以下の通りである。
例えば、X1、X2、およびX3で表される3分類画像特徴は、分類用の画像から抽出される。視覚辞書は、b1、b2、b3、およびb4で表される4視覚単語を含む。204における操作の後、特徴X1、X2、X3と視覚単語b1、b2、b3、b4、それぞれ、との間の第1の類似性係数が計算される。例えば、X1に対応する第1の類似性係数の組み合わせは{0.6、0、0.3、0.1}であり、X2に対応する第1の類似性係数の組み合わせは{0.2、0.4、0.3、0.1}であり、X3に対応する第1の類似性係数の組み合わせは、{0、0、0.3、0.7}である。
2−レイヤーピラミッド画像アルゴリズムを使用して画像を分割し、第2のレイヤー空間画像が分割されて4子画像を含むと想定する。第1のレイヤー空間画像に関して、構築された第1の子視覚単語ヒストグラムは{0.8、0.4、0.9、0.9}である。第2のレイヤー空間画像に関して、分類画像特徴X1およびX2は第2のレイヤー空間画像に分割される第1の子画像に配置され、X3は第2のレイヤー空間画像に分割される第2の子画像に配置されると想定した場合、各子画像の第1の子視覚単語ヒストグラムがそれぞれ{0.8、0.4、0.6、0.2}、{0、0、0.3、0.7}、{0、0、0、0}、{0、0、0、0}である。
各第1の子視覚単語ヒストグラムは、4−次元ベクトルで表される。各第1の子視覚単語ヒストグラムの組み合わせの後、最終的に形成される分類視覚単語ヒストグラムは{0.8、0.4、0.9、0.9、0.8、0.4、0.6、0.2、0、0、0.3、0.7、0、0、0、0}であり、これは20−次元ベクトルである。
前述例における値は、説明の簡潔さのためのものであり、実際の適用における特定値とはなり得ないことに注意すべきである。実際の適用においては、視覚辞書は大量の視覚単語を含み得る。分類用の各画像から抽出された大量の分類画像特徴もある。各分類画像特徴は概して高次元ベクトルであり得る。段落の制限の理由により、本開示における例は単に模範的図解目的のものである。
画像のレイヤーおよび子画像の分割は、画像特徴または異なる特徴点間の場所関係の空間情報を増加する。各子画像は、子分類視覚単語ヒストグラムで表され得る。最終的に形成された分類視覚単語ヒストグラムは、分類用の画像の空間情報を増加する。したがって、分類視覚単語ヒストグラムは分類用の画像をより正確に表し、それによって、画像分類の正確性をさらに改善する。
212において、分類視覚単語ヒストグラムは、複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練を介して構築される画像分類手段に入力される。分類用の画像の分類を決定するために出力結果が使用される。
事前生成された画像分類手段は、大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムに基づいて、訓練を介して生成される。画像分類手段は、各サンプル視覚単語ヒストグラムに基づいて、機械学習アルゴリズムに基づいて生成される。
以下は画像分類手段の生成プロセス例である。
第1のステップにおいて、各サンプル画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各サンプル画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各サンプル画像特徴と定量化後の各視覚単語との間の類似性係数が決定される。
第2のステップにおいて、各サンプル画像について、以下の操作が実施される。
各サンプル画像について、サンプル画像は、ピラミッド画像アルゴリズムに従って複数の子サンプル画像に分割される。各子サンプル画像に含まれるサンプル画像特徴が決定される。各サンプル子画像内の異なるサンプル画像特徴に対応する各視覚単語のサンプル類似性係数に基づいて、各子サンプル画像に対応する子サンプルの重みが決定され、子サンプル視覚単語ヒストグラムが構築される。
各子サンプル視覚単語ヒストグラムは組み合わされ、サンプル視覚単語ヒストグラムを形成する。
第3のステップにおいて、各サンプル視覚単語ヒストグラムに基づいて、機械学習を介して、画像分類手段が訓練を介して生成される。
この実施形態例において、分類用の画像はピラミッド画像アルゴリズムにしたがって複数の子画像に分割され、その後、子画像の子視覚単語ヒストグラムが構築される。子視覚単語ヒストグラムが組み合わされて、分類視覚単語ヒストグラムを形成する。各分類画像特徴は複数の視覚単語によって分類され得、子画像の分割も画像特徴の空間情報を増加するため、最終的に構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それにより、画像分類の正確性は改善する。
図3は、本開示の第3の実施形態例に従って画像を分類するための別の方法例の流れ図を図解する。
302において、分類用の画像の1つ以上の分類画像特徴が抽出される。
304において、各分類画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、分類画像特徴と事前生成された視覚辞書との間のスパースコーディングモデルが構成される。スパースコーディング法は、人間の大脳皮質視覚神経細胞をシミュレートする作動原理に基づいてデータを記述する多次元データ記述方法である。したがって、そのデータ記述方法はより正確である。
分類画像特徴と視覚辞書内の視覚単語との間の類似性関係は、X≒Bで表され得る。より正確にCの値を計算するためには、この実施形態例は、スパースコーディング法に基づいて、最初に以下のようにスパースコーディングモデルを形成する。
Figure 2015506026
ここで、Bは複数の視覚単語により構成される空間データセットである視覚辞書を表し、Xはベクトルの形式で表されるそれぞれの分類画像特徴を表し、Cはそれぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットであり、ベクトルの形式で表され、Nは分類画像特徴の数を表し、i=1、2、…、N、ここでNは任意の整数であり得、λは拘束係数を表す。適用例において、その値は500であり得る。
Figure 2015506026
はC内の全要素の加算を表す。
スパースコーディングモデルで表される意味は、スパースコーディングモデルが最小値を有するときのCの値を計算することである。
306において、スパースコーディングモデルの解を導出することにより、各分類画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各分類画像特徴と定量化後の各視覚単語との間の類似性係数が取得される。
最小二乗方法等の数学的最適方法を使用して、スパースコーディングモデルの解を導出し得る。最小二乗方法の例において、スパースコーディングモデルは
Figure 2015506026
と同等である。
最小二乗方法を使用し、Mが最小値を有するときのCの値を取得し得る。C内のデータは、分類画像特徴Xと視覚辞書内の各視覚単語との間の類似性係数である。
例えば、視覚辞書Bが、分類画像特徴Xについて、4視覚単語b1、b2、b3、およびb4を含むと想定した場合、導出されるCは{0、0、0.4、0.6}であり、これは分類画像特徴が視覚単語b3およびb4として定量化され得ることを表す。視覚単語b3およびb4を有する類似性係数は、それぞれ0.4および0.6である。定量化のために使用されない他の視覚単語を有する類似性係数、すなわちb1およびb2は、0である。
スパースコーディングモデルを介して、各分類画像特徴と各視覚単語との間の類似性係数が決定される。各分類画像特徴は、複数の視覚単語の線形組み合わせで表される。スパースコーディングモデルを用いて、複数の視覚単語の定量化を介して各分類画像特徴の表示を実装し、類似性係数を導出し、これにより、分類画像特徴をより正確に表す。
308において、分類用の画像はピラミッド画像アルゴリズムにしたがって複数の子画像に分割される。
310において、各子画像に含まれる分類画像特徴が決定される。各子画像に含まれる異なる分類画像特徴に対応する各視覚単語の類似性係数が加算されて、各子画像に対応する視覚単語の重みを計算する。各子画像の子視覚単語ヒストグラムが次に構築される。
312において、各子視覚単語ヒストグラムが組み合わされて分類視覚単語ヒストグラムを形成する。
314において、分類視覚単語ヒストグラムは複数のサンプル画像から生じるサンプル視覚単語ヒストグラムによって訓練を介して構築される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。
この実施形態例において、事前生成された画像分類手段は、大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムに基づいて訓練を介して生成される。画像分類手段は、各サンプル視覚単語ヒストグラムに基づいて機械学習アルゴリズムに基づいて生成される。
以下は画像分類手段の生成プロセス例である。
第1のステップにおいて、各サンプル画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、各サンプル画像特徴と事前生成された視覚辞書との間のスパースコーディングモデルが構築される。
第2のステップにおいて、スパースコーディングモデルの解を導出することによって、各サンプル画像特徴は視覚辞書内の複数の視覚単語によって定量化され、各サンプル画像特徴と定量化後の視覚単語との間のサンプル類似性係数が取得される。
第3のステップにおいて、以下の操作が各サンプル画像について実施される。
各サンプル画像について、サンプル画像がピラミッド画像アルゴリズムに従って複数の子サンプル画像に分割される。各子サンプル画像に含まれるサンプル画像特徴が決定される。各サンプル子画像内の異なるサンプル画像特徴に対応する各視覚単語のサンプル類似性係数に基づいて、各サンプル子画像に対応する子サンプルの重みが決定され、子サンプル視覚単語ヒストグラムが構築される。
各子サンプル視覚単語ヒストグラムが組み合わされて、サンプル視覚単語ヒストグラムを形成する。
第4のステップにおいて、各サンプル視覚単語ヒストグラムに基づいて、機械学習を介して、画像分類手段が訓練によって生成される。
この実施形態例は、スパースコーディングモデルを介して複数の視覚単語によって各分類画像特徴を定量化し、定量化後の視覚単語で類似性係数を導出し、それにより、類似性係数の計算精度を改善して、視覚単語と画像特徴との間の類似性関係を正確に反映する。さらに、分類用の画像はピラミッド画像アルゴリズムに従って分割され、それにより、特徴の空間情報を増加する。したがって、最終的に構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それにより、画像分類の正確性を改善する。
図4は、本開示の第4の実施形態例に従って画像を分類するための別の方法例の流れ図を図解する。
402において、分類用の画像の1つ以上の分類画像特徴が抽出される。
404において、各分類画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離が計算される。
分類画像特徴と各視覚単語との間の類似性係数は、各分類画像特徴と各視覚単語との間のユークリッド距離の計算によって決定される。したがって、分類画像特徴と視覚単語、X≒Bの類似性関係式にしたがい、XiとB内の各視覚単語の間のユークリッド距離が計算され、C内の値を決定する。
画像特徴はベクトルの形式で表される。例えば、SIFT特徴は128−次元ベクトルである。視覚単語は画像特徴を介してクラスタリングされ、画像特徴と同一の次元でベクトルでも表される。ユークリッド距離は、複数の次元空間における二点間の距離として参照される。この実施形態例では、分類画像特徴および視覚単語は、ベクトル空間内において二点として処理される。ユークリッド距離は、分類画像特徴と視覚単語との間の類似程度を表す。ユークリッド距離が小さくなれば、視覚単語と分類画像特徴の間により類似性が存在する。
例えば、画像特徴と視覚単語の両方が3−次元ベクトルであると想定すると、これらはそれぞれ(1、1、3)および(2、0、5)であり、ユークリッド距離は以下のようになる。
Figure 2015506026
406において各分類画像特徴について、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である1つ以上の視覚単語が定量化後のそれぞれの分類画像特徴に対応する視覚単語として決定される。
例えば、以下の操作が各分類画像特徴について実施され得る。
分類画像特徴に基づいて計算されるユークリッド距離中の最小ユークリッド距離が決定される。最小ユークリッド距離に対応する視覚単語は、分類画像特徴の定量化用の1つの視覚単語として処理される。
分類画像特徴に基づく他の計算されたユークリッド距離は、最小ユークリッド距離と比較されて、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である視覚単語を、分類画像特徴の定量化用の他の視覚単語として決定する。
事前設定時間範囲は、実際の状況に基づいて設定し得る。例えば、視覚辞書は、b1、b2、b3、b4、およびb5の5視覚単語を含み得る。各分類画像特徴につき、各視覚単語、すなわち、b1、b2、b3、b4、b5を有するユークリッド距離は、それぞれ6、4、8、2、および10である。最小ユークリッド距離は2である。最小ユークリッド距離と比較した他のユークリッド距離の異なる時間は、それぞれ2、1、3、および4である。もしも事前設定時間範囲が1〜3である場合、対応するユークリッド距離がそれぞれ6、4、8、および2である視覚単語b1、b2、b3、およびb4は、分類画像特徴の定量化用の視覚単語として決定される。
408において、それぞれの分類画像特徴と定量化後の各視覚単語との間のユークリッド距離に基づいて、それぞれの分類画像特徴と定量化後の視覚単語との間の類似性係数が計算される。
定量化のために使用されない、分類画像特徴と視覚辞書内の視覚単語との間の類似性係数は0である。したがって、分類画像特徴と定量化のために使用される視覚単語との間の類似性係数の計算は十分であろう。
ユークリッド距離が小さくなれば、対応する類似性係数は大きくなる。類似性係数を計算するためにユークリッド距離を使用する方法はたくさんある。406における例を使用し、分類画像特徴と定量化用の視覚単語との間のユークリッド距離は、それぞれ6、4、8、および2である。ユークリッド距離中の百分率関係は、0.3:0.2:0.4:0.1である。ユークリッド距離が小さくなると、分類画像特徴と視覚単語との間により類似性が存在する。分類画像特徴と視覚単語b1との間の類似性係数は0.3、分類画像特徴と視覚単語b2との間の類似性係数は0.2、分類画像特徴と視覚単語b3との間の類似性係数は0.4、分類画像特徴と視覚単語b4との間の類似性係数は0.1と決定される。したがって、各視覚単語に対応する分類画像特徴の類似性係数は、それぞれ0.3、0.2、0.4、0.1、および0である。0は分類画像特徴と視覚単語b5との間の類似性係数である。
ユークリッド距離が小さくなれば、分類画像特徴とユークリッド距離に対応する各視覚単語はより近くなり、従って、類似性係数は大きくなる。
異なる方法を介して計算された類似性係数の特定値は異なり得ることに注意されたい。それらは依然として視覚単語と分類画像特徴との間の類似性程度を反映するので、分類精度は影響されない。
410において、分類用の画像はピラミッド画像アルゴリズムに従って複数の子画像に分割される。
412において、各子画像に含まれる分類画像特徴が決定される。各子画像に含まれる異なる分類画像特徴に対応する各視覚単語の類似性係数が加算されて、各子画像に対応する視覚単語の重みを計算する。各子画像の子視覚単語ヒストグラムが次に構築される。
414において、各子視覚単語ヒストグラムが組み合わされて、分類視覚単語ヒストグラムを形成する。
416において、分類視覚単語ヒストグラムが、訓練を介して事前生成された画像分類手段に入力される。分類用の画像の分類を決定するために、出力結果が用いられる。
この実施形態例において、事前生成された画像分類手段は大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムによって訓練を介して生成される。画像分類手段は、大量のサンプル視覚単語ヒストグラムに基づいて、機械学習アルゴリズムによって生成される。
以下は、画像分類手段の生成プロセス例である。
第1のステップにおいて、各サンプル画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、各サンプル画像特徴と視覚辞書内の各視覚単語との間のユークリッド距離が計算される。
第2のステップにおいて、各サンプル画像特徴につき、最小ユークリッド距離に対応する視覚単語とユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である他の視覚単語が決定される。
第3のステップにおいて、各サンプル画像特徴と定量化用の各視覚単語との間のユークリッド距離に基づいて、各サンプル画像特徴と定量化用の各視覚単語との間のサンプル類似性係数が計算される。
第4のステップにおいて、各サンプル画像について、以下の操作が実施される。
各サンプル画像について、サンプル画像がピラミッド画像アルゴリズムに従って複数の子サンプル画像に分割される。各子サンプル画像に含まれるサンプル画像特徴が決定される。各サンプル子画像内の異なるサンプル画像特徴に対応する各視覚単語のサンプル類似性係数に基づいて、各サンプル子画像に対応する子サンプルの重みが決定され、子サンプル視覚単語ヒストグラムが構築される。
各子サンプル視覚単語ヒストグラムが組み合わされて、サンプル視覚単語ヒストグラムを形成する。
第5のステップにおいて、各サンプル視覚単語ヒストグラムに基づいて、機械学習を介して、画像分類手段が訓練を介して生成される。
この実施形態例は、ユークリッド距離の計算に基づいて、分類画像特徴と視覚単語との間の類似性程度を決定し、分類画像特徴を計算されたユークリッド距離に基づいて複数の視覚単語に定量化し、係数を決定する。分類画像特徴は複数の視覚単語によって定量化されるので、構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表すことができ、したがって、画像分類の正確性を改善する。さらに、分類用の画像は複数の子画像に分割され、それにより、特徴の空間情報が増加する。したがって、最終的に構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それによって、画像分類の正確性を改善する。
前述の実施形態例は、簡潔化のために、一連の操作の組み合わせとして記載されている。しかしながら、当業者であれば、本開示が記載される操作の順序によって限定されないことを理解するであろう。本開示に従って、いくつかの操作は他の順序を容認し得るか、または並行して実施され得る。さらに、当業者であれば、本明細書に記載される実施形態が例であって、それらの関連操作およびモジュールが本開示には必要ではない場合があることを理解すべきである。
第1の実施形態例において説明された方法に対応して、図5は画像を分類するための第1の装置例の構成図を図解する。
装置はソフトウェア、ハードウェア、またはそれらの組み合わせを含み得る。構成例においては、図5の装置500は1つ以上のプロセッサ(複数可)502およびメモリ504を含み得る。メモリ504はコンピュータ記憶媒体の例である。
コンピュータ記憶媒体は、コンピュータ実行可能命令、データ構造、プログラムモジュール、または他のデータ等の情報の記憶のための任意の方法または技術において実装される、揮発性および不揮発性、取り外し可能および非取り外し可能媒体を含む。コンピュータ記憶媒体の例は、次のものに限定されないが、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的消去可能プログラム式読み取り専用メモリ(EEPROM)、フラッシュメモリまたは他のメモリ技術、コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル汎用ディスク(DVD)または他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、コンピューティングデバイスによるアクセスのための情報を記憶するために使用可能な任意の他の非送信媒体を含む。本明細書中で定義されるように、コンピュータ記憶媒体は、変調されたデータ信号および搬送波等の一過性媒体は含まない。
メモリ504はその中にプログラムユニットまたはモジュールおよびプログラムデータを記憶し得る。図5の例において、メモリ504はその中に特徴抽出モジュール506、定量化決定モジュール508、構築モジュール510および分類モジュール512を記憶し得る。
特徴抽出モジュール506は分類用の画像の1つ以上の分類画像特徴を抽出する。例えば、分類画像特徴は、SIFTアルゴリズムによって抽出されるスケール不変特徴変形(SIFT)特徴等の画像地域特徴であり得る。SFIT特徴は、スケール、回転不変性、視点変化、アフィン変化、および安定性の特定程度をも維持するノイズを有する。
定量化決定モジュール508は、各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、視覚辞書内の多数の視覚単語によって各分類画像特徴を定量化し、各分類画像特徴と定量化後の各視覚単語との間の類似性係数を決定する。
視覚辞書は、大量のサンプル画像から抽出されるサンプル画像特徴のクラスタリングによって、事前に生成され得る。
画像特徴と視覚単語の両方はベクトルで表され得るので、各分類画像特徴は以下の視覚辞書内の視覚単語との類似関係を有し得、これはX≒B等の線形式で表され得る。
はそれぞれの画像特徴を表し、Bは視覚辞書を表し、Cは各分類画像特徴と各視覚単語との間の係数で構成されるデータセットを表す。
構築モジュール510は、異なる分類画像特徴に対応する各視覚単語の類似性係数に基づいて、各視覚単語の重みを決定して分類視覚単語ヒストグラムを構築する。
例えば、構築モジュール510はそれぞれの視覚単語に対応する異なる分類画像特徴の全類似性係数を加算して分類用の画像に対応する各視覚単語のそれぞれの重みを計算し、重みに基づいて分類視覚単語ヒストグラムを構築する。
言い換えれば、各視覚単語のそれぞれの重みが組み合わされてベクトルの形式でデータセットを形成し、分類視覚単語ヒストグラムを取得する。
分類モジュール512は、分類視覚単語ヒストグラムを、複数のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力する。出力結果は、分類用の画像の分類を決定するために使用される。
画像分類手段は、機械学習の後に画像の分類を自動的に決定する機械モデルである。例えば、画像分類手段はベクトル支持機械モデル、決定木モデル等であり得る。事前生成された画像分類手段は複数のサンプル画像に基づいており、機械学習アルゴリズムを使用し、対応する分類モデルを生成して画像分類を実装する。
事前生成された画像分類手段は、大量のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムに基づく訓練を介して事前に生成される。例えば、サンプル視覚単語ヒストグラムを構築するための操作は、分類用の画像の視覚単語ヒストグラムを構築して画像分類を実装する操作と同一であり得る。
この実施形態例において説明された画像分類手段の生成プロセスは、第1の方法の実施形態例における説明に参照され得、これは簡潔さの目的のために本明細書中では詳述されない。
本開示のこの実施形態例では、各分類画像特徴は多数の視覚単語によって定量化され、各分類画像特徴と定量化後の視覚単語との間の類似性係数が決定される。視覚単語ヒストグラムは、各視覚単語の異なる類似性係数に基づいて構築される。各分類画像特徴は、1つの分類画像特徴が複数の視覚単語で表されるように、複数の視覚単語によって定量化されるため、視覚単語で表される分類画像特徴の正確性は改善される。したがって、構築される分類視覚単語ヒストグラムは分類用の画像をより正確に表し得、それにより、画像分類の正確性を改善する。さらに、複数の視覚単語が分類画像特徴を表すために使用されるため、定量化エラーから生じる分類エラーは減少し、画像分類の正確性は改善され得る。
第2の実施形態例において説明された方法に対応いて、図6は画像を分類するための第2の装置例の構成図を図解する。
子の装置は、ソフトウェア、ハードウエア、またはそれらの組み合わせを含み得る。構成例において、図6の装置600は1つ以上のプロセッサ(複数可)602およびメモリ604を含み得る。メモリ604はコンピュータ記憶媒体の例である。
メモリ604は、その中に、プログラムユニットまたはモジュールおよびプログラムデータを記憶し得る。図6の例において、メモリ604はその中に、特徴抽出モジュール606、定量化決定モジュール608、分割モジュール610、第1の構築モジュール612、第2の構築モジュール614、 および分類モジュール616を記憶し得る。
特徴抽出モジュール606は、分類用の画像の1つ以上の分類画像特徴を抽出する。
定量化決定モジュール608は、各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定する。
分割モジュール610は、分類用の画像を、ピラミッド画像アルゴリズムに従って複数の子画像に分割する。視覚単語ヒストグラムが分類用の画像の空間情報を表すように、この実施形態例では、分類用の画像が空間によって分割される。分類用の画像は複数レイヤー空間小領域に分割される。各レイヤー空間小領域は、空間画像である。各空間画像について、子画像のための分割が実施され、複数の子画像を取得する。
例えば、分割モジュール610は、画像レイヤー分割モジュールおよび子画像分割モジュールを含み得る。画像レイヤー分割モジュールは、分類用の画像を、ピラミッド画像アルゴリズムにしたがって複数のレイヤー画像に分割する。子画像分割モジュールは、各レイヤー画像について子画像を分割し、複数の子画像を形成する。
第1の構築モジュール612は、各子画像内に含まれる分類画像特徴を決定し、各子に含まれる分類画像特徴に対応するそれぞれの視覚単語の類似性係数を加算し、異なる分類画像特徴を含む各子画像に対応する各視覚単語のそれぞれの重みを計算し、各子画像の子分類視覚単語ヒストグラムを構築する。
画像分割の後、異なるレイヤーにおける異なる子画像に含まれる分類画像特徴は異なる。各子画像に含まれる抽出された分類画像特徴は第1に決定される。次に、各子画像の子分類視覚単語ヒストグラムが構築される。例えば、子分類視覚単語ヒストグラムの構築プロセスは、分類視覚単語ヒストグラムを構築するための構築プロセスと同一である。すなわち、各子画像に対応する視覚単語の子重みが計算され、子分類視覚単語ヒストグラムが子重みに基づいて構築される。
第2の構築モジュール614は各子分類視覚単語ヒストグラムを組み合わせて分類視覚単語ヒストグラムを形成する。
子分類視覚単語ヒストグラムは複数のデータからのデータ値を含み、ベクトルで表されるので、各子分類視覚単語ヒストグラムの組み合わせは、各子分類視覚単語ヒストグラムのデータを組み合わせて、高次元ベクトルを形成することである。
画像のレイヤーおよび子画像の分割は、画像特徴または異なる特徴点の中の場所関係の空間情報を増加させる。各子画像は子分類視覚単語ヒストグラムで表され得る。最終的に形成される分類視覚単語ヒストグラムは、分類用の画像の空間情報を増加させる。したがって、分類視覚単語ヒストグラムはより正確に分類用の画像を表し、それにより、画像分類の正確性をさらに改善する。
分類モジュール616は、分類視覚単語ヒストグラムを、複数のサンプル画像に基づいて構築されるサンプル視覚単語ヒストグラムによって訓練される画像分類手段の中に入力する。出力結果は、分類用の画像の分類を決定するために使用される。
事前生成された画像分類手段は、大量のサンプル画像に基づいて構築され、サンプル視覚単語ヒストグラムに基づく訓練によって、事前に生成される。画像分類手段は、各サンプル視覚単語ヒストグラムに基づく機械学習アルゴリズムに基づいて生成される。詳細な生成されたプロセスは、第2の実施形態例に参照され得、本明細書中では詳述されない。
この実施形態例では、分類用の画像は、ピラミッド画像アルゴリズムに従って複数の子画像に分割され、その後、子画像の子視覚単語ヒストグラムが構築される。子視覚単語ヒストグラムが組み合わされて分類視覚単語ヒストグラムを形成する。各分類画像特徴は複数の視覚単語によって分類され、子画像の分割も画像特徴の空間情報を増加させるので、最終的に構築される分類視覚単語ヒストグラムは、分類用の画像をより正確に表し得、それによって、画像分類の正確性を改善する。
第3の実施形態例において説明された方法に対応して、図7は画像を分類するための第3の装置例の構成図を図解する。
この装置は、ソフトウェア、ハードウエア、またはそれらの組み合わせを含み得る。構成例において、図7の装置700は1つ以上のプロセッサ(複数可)702およびメモリ704を含み得る。メモリ704はコンピュータ記憶媒体の例である。
メモリ704はその中に、プログラムユニットまたはモジュールおよびプログラムデータを記憶し得る。図7の例において、メモリ704はその中に特徴抽出モジュール706、モデル構成モジュール708、定量化計算モジュール710、分割モジュール712、第1の構築モジュール714、第2の構築モジュール716、および分類モジュール718を記憶し得る。
特徴抽出モジュール706は、分類用の画像の1つ以上の分類画像特徴を抽出する。
モデル構成モジュール708は、各分類画像特徴と事前生成された視覚辞書内の1つ以上の視覚単語との間の類似性関係に基づいて、スパースコーディング法を用いて、分類画像特徴と事前生成された視覚辞書との間のスパースコーディングモデルを構成する。
例えば、スパースコーディングモデルは以下のようになり得る。
Figure 2015506026
ここでBは視覚辞書を表し、Xはベクトルの形式で表されるそれぞれの分類画像特徴を表し、Cはそれぞれの分類画像特徴と各視覚単語との間の係数によって形成され、ベクトルの形式で表されるデータセットを表し、Nは分類画像特徴の数を表し、i=1、2、…、N、ここでNは任意の整数で、またλは拘束係数を表し得る。スパースコーディングモデルは、スパースコーディングモデルが最小値を有するときのCの値を計算する。
定量化計算モジュール710は、スパースコーディングモデルの解を導出することによって、視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、定量化後、各分類画像特徴と視覚単語との間の類似性係数を取得する。
数学的最適方法を使用してスパースコーディングモデルの解を導出し得るが、これは、XおよびBCの偏差の平方の加算が最小値を有するときのCの値を計算する最小二乗法等である。
分割モジュール712はピラミッド画像アルゴリズムに従って分類用の画像を多数の子画像に分割する。
例えば、分割モジュール712は画像レイヤー分割モジュールおよび子画像分割モジュールを含み得る。画像レイヤー分割モジュールは、ピラミッド画像アルゴリズムに従って、分類用の画像を複数のレイヤー画像に分割する。子画像分割モジュールは、各レイヤー画像用の子画像を分割して、複数の子画像を形成する。
第1の構築モジュール714は、各子画像に含まれる分類画像特徴を決定し、各子に含まれる分類画像特徴に対応するそれぞれの視覚単語の類似性係数を加算し、異なる分類画像特徴を含む各子画像に対応する各視覚単語のそれぞれの重みを計算し、各子画像の子分類視覚単語ヒストグラムを構築する。
第2の構築モジュール716は、各子分類視覚単語ヒストグラムを組み合わされて分類視覚単語ヒストグラムを形成する。
分類モジュール718は、分類視覚単語ヒストグラムを、訓練によって事前に生成される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。
この実施形態例は、スパースコーディングモデルによって、多数の視覚単語によって各分類画像特徴を定量化し、定量化後に視覚単語で類似性係数を導出し、それにより、データ表示の計算精度を改善する。さらに、分類用の画像はピラミッド画像アルゴリズムに従って導出され、それにより、特徴の空間情報を増加させる。したがって、最終的に構築される分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それにより、画像分類の正確性を改善する。
第4の実施形態例に説明された方法に対応して、図8は画像を分類するための第4の装置例の構成図を図解する。
装置は、ソフトウェア、ハードウエア、またはそれらの組み合わせを含み得る。構成例において、図8の装置800は1つ以上のプロセッサ(複数可)802およびメモリ804を含み得る。メモリ804はコンピュータ記憶媒体の例である。
メモリ804はその中に、プログラムユニットまたはモジュールおよびプログラムデータを記憶し得る。図8の例では、メモリ804はその中に特徴抽出モジュール806、第1の計算モジュール808、定量化モジュール810、第2の計算モジュール812、分割モジュール814、第1の構築モジュール816、第2の構築モジュール818、および分類モジュール820を記憶し得る。
特徴抽出モジュール806は、分類用の画像の1つ以上の分類画像特徴を抽出する。
第1の計算モジュール808は、各分類画像特徴と事前生成された視覚辞書内の視覚単語との間の類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算する。
画像特徴はベクトルの形式で表される。例えば、SIFT特徴は128−次元ベクトルである。視覚単語は画像特徴を介してクラスタリングされ、画像特徴の同一次元でベクトルでも表される。ユークリッド距離は、多次元空間における二点間の距離を指す。この実施形態例では、分類画像特徴と視覚単語は、ベクトル空間において二点として処理される。ユークリッド距離は、分類画像特徴と視覚単語との間の類似性程度を表す。
定量化モジュール810は、各分類画像特徴について、ユークリッド距離が最小ユークリッド距離の事前設定時間範囲内である1つ以上の視覚単語を、定量化後のそれぞれの分類画像特徴に対応する視覚単語として決定する。
第2の計算モジュール812は、それぞれの分類画像特徴と定量化後の各視覚単語との間のユークリッド距離に基づいて、それぞれの分類画像特徴と定量化後の視覚単語との間の類似性係数を計算する。
ユークリッド距離が小さければ、その対応する類似性係数は大きくなる。
分割モジュール814は、ピラミッド画像アルゴリズムに従って、分類用の画像を複数の子画像に分割する。
例えば、分割モジュール814は画像レイヤー分割モジュールと子画像分割モジュールを含み得る。画像レイヤー分割モジュールは、分類用の画像を、ピラミッド画像アルゴリズムに従って複数のレイヤー画像に分割する。子画像分割モジュールは、各レイヤー画像用の子画像を分割して、複数の子画像を形成する。
第1の構築モジュール816は、各子画像に含まれる分類画像特徴を決定し、各子に含まれる分類画像特徴に対応するそれぞれの視覚単語の類似性係数を加算し、異なる分類画像特徴を含む各子画像に対応する各視覚単語のそれぞれの重みを計算し、各子画像の子分類視覚単語ヒストグラムを構築する。
第2の構築モジュール818は各子分類視覚単語ヒストグラムを組み合わせて、分類視覚単語ヒストグラムを形成する。
分類モジュール820は分類視覚単語ヒストグラムを、複数のサンプル画像に基づいて構築されたサンプル視覚単語ヒストグラムによって訓練される画像分類手段に入力される。出力結果は、分類用の画像の分類を決定するために使用される。
この実施形態例は、ユークリッド距離の計算に基づいて、分類画像特徴と視覚単語との間の類似性程度を決定し、計算されたユークリッド距離に基づいて、分類画像特徴を複数の視覚単語に定量化し、係数を決定する。分類画像特徴は複数の視覚単語によって定量化されるので、構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表すことができ、それにより、画像分類の正確性を改善する。さらに、分類用の画像は、複数の子画像に分割され、それにより、特徴の空間情報を増加させる。したがって、最終的に構築された分類視覚単語ヒストグラムは、分類用の画像をより正確に表し、それにより、画像分類の正確性を改善する。
さまざまな模範的実施形態が本開示において漸進的に説明される。実施形態例の同一または類似部分は、互いに参照され得る。各実施形態例は、他の実施形態例とは異なる焦点を有する。特に、装置実施形態例は、比較的簡素な方法で説明されてきたが、これは、その方法例との基本的対応性のゆえである。その詳細は、模範的方法の関連部分に参照され得る。
本文書における「第1の」および「第2の」等の任意の相関的用語は、ある実体を別の実体と、またはある操作を別の操作と区別することのみを意図しているが、任意の現実世界の関係の存在又はこれらの各実体間もしくは操作間の順序付けを必ずしも要求または暗示しないことに留意されたい。さらに、「含む」、「有する」またはあらゆる他のバリエーション等の用語は、非排他的に「から構成されている」を意味することが意図されている。したがって、個々に特徴群を含むプロセス、方法、物品、またはデバイスは、それらの特徴を含み得、さらに、列挙されない他の特徴、あるいは、それらのプロセス、方法、物品、またはデバイスのあらゆる固有の特徴をも含み得る。さらなる任意の限定なしで、「〜を含む」で定義される特徴は、その特徴を記載するプロセス、方法、物品、またはデバイスが他の同等の特徴を有し得る可能性を排除しない。
図解目的のために、前述の装置は、機能性に従って異なるモジュールで記載される。本技法は、1つ以上のハードウエア、ソフトウェア、またはそれら両方の組み合わせにおいて複数のモジュールの機能性を確実に実装し得る。
実施形態例の説明から、当業者は、本技法はソフトウェアおよび必要な一般的プラットフォームによって実施し得ることを理解するであろう。本技法はソフトウェア製品の形態で実現し得る。例えば、本開示は、コンピュータ記憶媒体(CD−ROM、光学ディスク等、これらに限定されない、を含む)内に実装可能なコンピュータ実行可能またはプロセッサ実行可能命令を含む1つ以上のコンピュータプログラムの形式が可能である。これらのコンピュータプログラム命令を、コンピュータまたは他のプログラム式データプロセッサ内にロードし、コンピュータまたは他のプログラム式データプロセッサが実施形態例に記載される方法を実施可能とすることも可能である。
本開示は、本開示の実施形態の方法、デバイス(システム)、およびコンピュータプログラムの流れ図および/またはブロック図を参照することによって説明されている。各流れおよび/またはブロック、および、流れ図および/またはブロック図の流れおよび/またはブロックの組み合わせは、コンピュータプログラム命令によって実装可能であることを理解されたい。これらのコンピュータプログラム命令は、流れ図の1つ以上の流れおよび/またはブロック図の1つ以上のブロックを実装するデバイスがコンピュータまたは他のプログラム式データプロセッサによって操作される命令によって生成され得るように、これらのコンピュータプログラム命令を一般的コンピュータ、特定コンピュータ、埋め込み型プロセッサまたは機械を生成する他のプログラム式データプロセッサに提供する。
本開示は、画像を分類するための方法および装置例を説明する。実施形態例は単に本開示を図解する目的であり、本開示の範囲を限定することは意図されていない。当業者であれば、ある修正および改善を加えることができ、かつ本開示の原理から逸脱することなく本開示の擁護の下で考慮されるべきであることを理解するはずである。

Claims (20)

  1. コンピュータ実行可能命令で構成される1つ以上のプロセッサによって実施される方法であって、
    1つ以上の分類画像特徴を分類用の画像から抽出することと、
    各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、前記視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定することと、
    異なる分類画像特徴に対応する各視覚単語の1つ以上の類似性係数に基づいて、各視覚単語の重みを決定して分類視覚単語ヒストグラムを構築することと、
    前記分類視覚単語ヒストグラムを画像分類手段に入力することと、
    前記入力の出力を用いて分類用の前記画像の分類を決定することと、
    を含む、方法。
  2. 前記画像分類手段は、サンプル視覚単語ヒストグラムによる訓練を介して複数のサンプル画像から生成される、請求項1に記載の方法。
  3. 前記分類視覚単語ヒストグラムを画像分類手段に入力した後、前記入力された分類視覚単語ヒストグラムを前記画像分類手段内の事前生成された分類視覚単語ヒストグラムと比較して、分類用の前記画像の分類を決定することをさらに含む、請求項2に記載の方法。
  4. 前記視覚辞書内の複数の視覚単語によって各分類画像特徴を前記定量化し、前記定量化の後に各分類画像特徴と各視覚単語との間の前記類似性係数を決定することは、
    各分類画像特徴と前記視覚辞書内の各視覚単語との間の前記類似性関係に基づいて、スパースコーディング法を用いて、それぞれの分類画像特徴と前記視覚辞書内の1つ以上の視覚単語との間のスパースコーディングモデルを構築することと、
    前記スパースコーディングモデルの解を導出して前記視覚辞書内の前記複数の視覚単語によって前記それぞれの分類画像特徴を定量化することと、
    前記それぞれの分類画像特徴と前記視覚辞書内の前記複数の視覚単語との間の1つ以上の類似性係数を取得することと、
    を含む、請求項1に記載の方法。
  5. 前記スパースコーディングモデルは、
    Figure 2015506026
    で表され、
    式中、
    Bは前記視覚辞書を表し、
    は前記それぞれの分類画像特徴を表し、
    は前記それぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表し、
    Nは分類画像特徴の数を表し、
    λは拘束係数を表し、
    Figure 2015506026
    はCにおける全要素の加算を表し、
    前記スパースコーディングモデルは、前記スパースコーディングモデルが最小値を有するときのCの値を計算するために使用される、請求項4に記載の方法。
  6. 前記視覚辞書内の複数の視覚単語によって各分類画像特徴を前記定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の前記類似性係数を決定することは、
    各分類画像特徴と前記事前生成された視覚辞書内の前記視覚単語との間の前記類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算することと、
    計算されたユークリッド距離の中で最小のユークリッド距離を決定することと、
    各分類画像特徴について、ユークリッド距離が前記最小のユークリッド距離の事前設定された時間範囲内にある1つ以上の視覚単語を、前記それぞれの分類画像特徴の定量化用の前記視覚単語として決定することと、
    前記それぞれの分類画像特徴と定量化用の前記視覚単語の各々との間の前記ユークリッド距離に基づいて、前記それぞれの分類画像特徴と前記視覚単語との間の前記1つ以上の係数を計算することと、
    を含む、請求項1に記載の方法。
  7. 各視覚単語の前記重みを前記決定して前記分類視覚単語ヒストグラムを構築することは、
    異なる分類画像特徴に対応するそれぞれの視覚単語の前記1つ以上の係数を加算して前記それぞれの視覚単語の前記重みを計算することと、
    前記分類視覚単語ヒストグラムを構築することと、
    を含む、請求項1に記載の方法。
  8. 各視覚単語の前記重みを前記決定して前記分類視覚単語ヒストグラムを構築することは、
    ピラミッド画像アルゴリズムに基づいて、分類用の前記画像を複数のレイヤー画像に分割することと、
    各レイヤー画像を分割して複数の子画像を形成することと、
    を含む、請求項1に記載の方法。
  9. 前記視覚辞書は、複数のサンプル画像から抽出された複数のサンプル画像特徴のクラスタリングによって生成される、請求項1に記載の方法。
  10. 1つ以上の分類画像特徴を分類用の画像から抽出する、特徴抽出モジュールと、
    各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、前記視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定する、定量化決定モジュールと、
    異なる分類画像特徴に対応する各視覚単語の1つ以上の類似性係数に基づいて、各視覚単語の重みを決定して分類視覚単語ヒストグラムを構築する、構築モジュールと、
    前記分類視覚単語ヒストグラムを画像分類手段に入力し、出力を用いて分類用の前記画像の分類を決定する、分類モジュールと、
    を備える、装置。
  11. 前記画像分類手段は、サンプル視覚単語ヒストグラムによる訓練を介して複数のサンプル画像から生成される、請求項10に記載の装置。
  12. 前記画像分類手段は、前記入力された分類視覚単語ヒストグラムを事前生成された分類視覚単語ヒストグラムと比較して分類用の前記画像の分類を決定する、請求項11に記載の装置。
  13. 前記定量化決定モジュールは、
    各分類画像特徴と前記視覚辞書内の各視覚単語との間の前記類似性関係に基づいて、スパースコーディング法を用いて、それぞれの分類画像特徴と前記視覚辞書内の1つ以上の視覚単語との間にスパースコーディングモデルを構築する、モデル構成モジュールと、
    前記視覚辞書内の前記複数の視覚単語によって前記それぞれの分類画像特徴を定量化するために前記スパースコーディングモデルの解を導出し、前記それぞれの分類画像特徴と前記視覚辞書内の前記複数の視覚単語との間の1つ以上の類似性係数を取得する、定量化決定モジュールと、
    を備える、請求項10に記載の装置。
  14. 前記スパースコーディングモデルは、
    Figure 2015506026
    で表され、
    Bは前記視覚辞書を表し、
    は前記それぞれの分類画像特徴を表し、
    は前記それぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表し、
    Nは分類画像特徴の数を表し、
    λは拘束係数を表し、
    Figure 2015506026
    はCにおける全要素の加算を表し、
    前記スパースコーディングモデルは、前記スパースコーディングモデルが最小値を有するときのCの値を計算するために使用される、請求項13に記載の装置。
  15. 前記定量化決定モジュールは、
    各分類画像特徴と前記事前生成された視覚辞書内の前記視覚単語との間の前記類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算する、第1の計算モジュールと、
    計算されたユークリッド距離の中の最小のユークリッド距離を決定し、各分類画像特徴について、ユークリッド距離が前記最小ユークリッド距離の事前設定された時間範囲内である1つ以上の視覚単語を、前記それぞれの分類画像特徴の定量化用の前記視覚単語として決定する、定量化モジュールと、
    前記それぞれの分類画像特徴と定量化用の各前記視覚単語との間の前記ユークリッド距離に基づいて、前記それぞれの分類画像特徴と前記視覚単語との間の前記1つ以上の係数を計算する、第2の計算モジュールと、
    を備える、請求項10に記載の装置。
  16. 前記構築モジュールは、
    ピラミッド画像アルゴリズムに基づいて、分類用の前記画像を複数の子画像に分割する、分割モジュールと、
    各子画像の分類画像特徴を決定し、それぞれの子画像内の各分類画像特徴に対応するそれぞれの視覚単語の前記係数を加算し、前記それぞれの子画像に対応する前記それぞれの視覚単語の前記重みを計算して、前記それぞれの子画像の子分類視覚単語ヒストグラムを構築する、第1の構築モジュールと、
    各子画像の各子分類視覚単語ヒストグラムを組み合わせて前記分類視覚単語ヒストグラムを構築する、第2の構築モジュールと、
    を備える、請求項10に記載の装置。
  17. 1つ以上のプロセッサによって実行されるときに、前記1つ以上のプロセッサに方法を実施するように指示するプロセッサ実行可能命令を含む1つ以上のコンピュータ記憶媒体であって、前記方法は、
    分類用の画像から1つ以上の分類画像特徴を抽出することと、
    各分類画像特徴と事前生成された視覚辞書内の各視覚単語との間の類似性関係に基づいて、前記視覚辞書内の複数の視覚単語によって各分類画像特徴を定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の類似性係数を決定することと、
    異なる分類画像特徴に対応する各視覚単語の1つ以上の類似性係数に基づいて、各視覚単語の重みを決定して分類視覚単語ヒストグラムを構築することと、
    前記分類視覚単語ヒストグラムを複数のサンプル画像からサンプル視覚単語ヒストグラムによる訓練を介して生成される画像分類手段に入力することと、
    前記入力の出力を用いて分類用の前記画像の分類を決定することと、
    を含む、1つ以上のコンピュータ記憶媒体。
  18. 前記方法は、前記分類視覚単語ヒストグラムを画像分類手段に入力した後に、前記入力された分類視覚単語ヒストグラムを前記画像分類手段内の事前生成された分類視覚単語ヒストグラムと比較して、分類用の前記画像の分類を決定することをさらに含む、請求項17に記載の1つ以上のコンピュータ記憶媒体。
  19. 前記定量化後に各分類画像特徴と各視覚単語との間の前記類似性係数を前記決定することは、
    各分類画像特徴と前記視覚辞書内の各視覚単語との間の前記類似性関係に基づいて、スパースコーディング法を用いて、それぞれの分類画像特徴と前記視覚辞書内の1つ以上の視覚単語との間のスパースコーディングモデルを構築することと、
    前記スパースコーディングモデルの解を導出して前記視覚辞書内の前記複数の視覚単語によって前記それぞれの分類画像特徴を定量化することと、
    前記それぞれの分類画像特徴と前記視覚辞書内の前記複数の視覚単語との間の前記1つ以上の類似性係数を取得することと、を含み、
    前記スパースコーディングモデルは、
    Figure 2015506026
    で表され、
    Bは前記視覚辞書を表し、
    は前記それぞれの分類画像特徴を表し、
    は前記それぞれの分類画像特徴と各視覚単語との間の係数によって形成されるデータセットを表し、
    Nは分類画像特徴の数を表し、
    λは拘束係数を表し、
    Figure 2015506026
    はCにおける全要素の加算を表し、
    前記スパースコーディングモデルは、前記スパースコーディングモデルが最小値を有するときのCの値を計算するために使用される、請求項17に記載の1つ以上のコンピュータ記憶媒体。
  20. 前記視覚辞書内の複数の視覚単語によって各分類画像特徴を前記定量化し、前記定量化後に各分類画像特徴と各視覚単語との間の前記類似性係数を決定することは、
    各分類画像特徴と前記事前生成された視覚辞書内の前記視覚単語との間の前記類似性関係に基づいて、各分類画像特徴と各視覚単語との間のユークリッド距離を計算することと、
    計算されたユークリッド距離間の最小ユークリッド距離を決定することと、
    各分類画像特徴について、ユークリッド距離が前記最小ユークリッド距離の事前設定時間範囲内にある1つ以上の視覚単語を、前記それぞれの分類画像特徴の定量化用の前記視覚単語として決定することと、
    前記それぞれの分類画像特徴と定量化用の各前記視覚単語との間の前記ユークリッド距離に基づいて、前記それぞれの分類画像特徴と前記視覚単語との間の前記1つ以上の係数を計算することと、
    を含む、請求項17に記載の1つ以上のコンピュータ記憶媒体。
JP2014546187A 2011-12-12 2012-12-11 画像分類 Pending JP2015506026A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201110412537.5A CN103164713B (zh) 2011-12-12 2011-12-12 图像分类方法和装置
CN201110412537.5 2011-12-12
PCT/US2012/069006 WO2013090288A1 (en) 2011-12-12 2012-12-11 Image classification

Publications (1)

Publication Number Publication Date
JP2015506026A true JP2015506026A (ja) 2015-02-26

Family

ID=47459159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014546187A Pending JP2015506026A (ja) 2011-12-12 2012-12-11 画像分類

Country Status (7)

Country Link
US (1) US9342758B2 (ja)
EP (1) EP2791869A1 (ja)
JP (1) JP2015506026A (ja)
CN (1) CN103164713B (ja)
HK (1) HK1182505A1 (ja)
TW (1) TW201324378A (ja)
WO (1) WO2013090288A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019067265A1 (en) * 2017-09-27 2019-04-04 Intel Corporation CLASSIFICATION BASED ON DISTRIBUTED CODING

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970748B (zh) * 2013-01-25 2019-01-29 腾讯科技(深圳)有限公司 一种相关关键词推荐方法和装置
JP5794255B2 (ja) * 2013-05-21 2015-10-14 株式会社デンソー 物体検出装置
CN103327337B (zh) * 2013-06-28 2015-12-23 武汉大学 一种基于双正交重叠变换的分类量化编码方法
CN103514456B (zh) * 2013-06-30 2017-04-12 安科智慧城市技术(中国)有限公司 基于压缩感知多核学习的图像分类方法及其装置
US10068154B2 (en) * 2013-08-13 2018-09-04 Logograb Limited Recognition process of an object in a query image
US11170039B2 (en) * 2013-10-25 2021-11-09 Rakuten Group, Inc. Search system, search criteria setting device, control method for search criteria setting device, program, and information storage medium
CN103839075B (zh) * 2014-02-24 2017-04-12 西安电子科技大学 一种基于联合稀疏表示的sar图像分类方法
US9424484B2 (en) * 2014-07-18 2016-08-23 Adobe Systems Incorporated Feature interpolation
US9471828B2 (en) 2014-07-28 2016-10-18 Adobe Systems Incorporated Accelerating object detection
KR20160015838A (ko) * 2014-07-31 2016-02-15 삼성전자주식회사 컨텐츠 분류 방법 및 이를 위한 디바이스
CN104361354B (zh) * 2014-11-28 2018-01-12 电子科技大学 一种基于稀疏编码k最近邻直方图的海量图像分类方法
CN106649296B (zh) * 2015-07-20 2020-07-14 阿里巴巴集团控股有限公司 提供拍照提示信息、业务对象搜索方法及装置
CN105046256B (zh) * 2015-07-22 2018-10-16 福建新大陆自动识别技术有限公司 基于畸变图像校正的qr码解码方法和系统
TWI582626B (zh) 2015-10-20 2017-05-11 數位左右有限公司 餐飲環境圖像自動分類系統與其方法
CN105320964B (zh) * 2015-10-26 2019-06-04 中国矿业大学(北京) 基于稀疏表示的煤岩识别方法
US9842280B2 (en) * 2015-11-04 2017-12-12 Omnivision Technologies, Inc. System and method for evaluating a classifier implemented within an image signal processor
CN105447517A (zh) * 2015-11-20 2016-03-30 中国矿业大学(北京) 基于稀疏编码的空域金字塔匹配识别煤岩的方法
WO2017124221A1 (en) * 2016-01-18 2017-07-27 Xiaogang Wang System and method for object detection
US11423651B2 (en) * 2016-02-09 2022-08-23 Hrl Laboratories, Llc System and method for the fusion of bottom-up whole-image features and top-down enttiy classification for accurate image/video scene classification
WO2018032354A1 (en) * 2016-08-16 2018-02-22 Nokia Technologies Oy Method and apparatus for zero-shot learning
CN106354850A (zh) * 2016-08-31 2017-01-25 广州精点计算机科技有限公司 一种基于k‑近邻分类的图像识别方法
CN106503728A (zh) * 2016-09-30 2017-03-15 深圳云天励飞技术有限公司 一种图像识别方法和装置
CN107066980B (zh) * 2017-04-18 2020-04-24 腾讯科技(深圳)有限公司 一种图像变形检测方法及装置
CN108205684B (zh) * 2017-04-25 2022-02-11 北京市商汤科技开发有限公司 图像消歧方法、装置、存储介质和电子设备
CN109284826A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 神经网络处理方法、装置、设备及计算机可读存储介质
TWI649659B (zh) * 2017-10-27 2019-02-01 財團法人工業技術研究院 自動光學檢測影像分類方法、系統及含有該方法之電腦可讀取媒體
US11264135B2 (en) 2017-11-10 2022-03-01 Siemens Medical Solutions Usa, Inc. Machine-aided workflow in ultrasound imaging
KR20240116839A (ko) * 2017-11-15 2024-07-30 엔제루 구루푸 가부시키가이샤 인식 시스템
CN108764258B (zh) * 2018-05-24 2022-03-04 西安电子科技大学 一种用于群体图像插入的最优图像集选取方法
KR20210025020A (ko) 2018-07-02 2021-03-08 스토워스 인스티튜트 포 메디컬 리서치 의사 이미지들을 이용한 얼굴 이미지 인식
CN109472307A (zh) * 2018-11-07 2019-03-15 郑州云海信息技术有限公司 一种训练图像分类模型的方法和装置
CN109522967A (zh) * 2018-11-28 2019-03-26 广州逗号智能零售有限公司 一种商品定位识别方法、装置、设备以及存储介质
CN110046634B (zh) * 2018-12-04 2021-04-27 创新先进技术有限公司 聚类结果的解释方法和装置
US10896018B2 (en) 2019-05-08 2021-01-19 Sap Se Identifying solutions from images
CN110175546B (zh) * 2019-05-15 2022-02-25 深圳市商汤科技有限公司 图像处理方法及装置、电子设备和存储介质
CN112037844B (zh) * 2019-06-04 2022-12-06 长鑫存储技术有限公司 可变保持时间模式分析方法、装置、设备及可读存储介质
CN111414958B (zh) * 2020-03-18 2022-02-08 燕山大学 一种视觉词袋金字塔的多特征图像分类方法及系统
WO2022041222A1 (en) * 2020-08-31 2022-03-03 Top Team Technology Development Limited Process and system for image classification
CN112329798B (zh) * 2020-11-27 2023-07-25 重庆理工大学 一种基于优化视觉词袋模型的图像场景分类方法
CN112434759B (zh) * 2020-12-17 2024-07-16 无锡职业技术学院 一种基于视觉词典的图像分类方法
CN112784893B (zh) * 2020-12-29 2024-03-01 杭州海康威视数字技术股份有限公司 图像数据的聚类方法、装置、电子设备及存储介质
CN113902930B (zh) * 2021-09-16 2023-10-27 燕山大学 一种优化词袋模型的图像分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319876A (ja) * 1996-05-30 1997-12-12 Tenryu Technic:Kk マッチング認識方法
JPH1021389A (ja) * 1996-07-03 1998-01-23 Mitsubishi Electric Corp テンプレートマッチング方法およびその装置
US20100124377A1 (en) * 2008-11-19 2010-05-20 Nec Laboratories America, Inc. Linear spatial pyramid matching using sparse coding

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4161659B2 (ja) 2002-02-27 2008-10-08 日本電気株式会社 画像認識システム及びその認識方法並びにプログラム
US7394947B2 (en) 2003-04-08 2008-07-01 The Penn State Research Foundation System and method for automatic linguistic indexing of images by a statistical modeling approach
US7756341B2 (en) 2005-06-30 2010-07-13 Xerox Corporation Generic visual categorization method and system
US7680341B2 (en) 2006-05-05 2010-03-16 Xerox Corporation Generic visual classification with gradient components-based dimensionality enhancement
US7885466B2 (en) 2006-09-19 2011-02-08 Xerox Corporation Bags of visual context-dependent words for generic visual categorization
US8126274B2 (en) 2007-08-30 2012-02-28 Microsoft Corporation Visual language modeling for image classification
US8233711B2 (en) * 2009-11-18 2012-07-31 Nec Laboratories America, Inc. Locality-constrained linear coding systems and methods for image classification
US8429168B1 (en) * 2009-12-15 2013-04-23 Google Inc. Learning semantic image similarity
CN101763514B (zh) * 2010-01-15 2012-03-28 西安电子科技大学 基于特征重要度排序谱聚类的图像分割方法
US8447119B2 (en) * 2010-03-16 2013-05-21 Nec Laboratories America, Inc. Method and system for image classification
US8682086B2 (en) * 2010-06-02 2014-03-25 Nec Laboratories America, Inc. Systems and methods for determining image representations at a pixel level
NL2004829C2 (en) 2010-06-07 2011-12-08 Univ Amsterdam Method for automated categorization of human face images based on facial traits.
US9122955B2 (en) 2010-06-28 2015-09-01 Ramot At Tel-Aviv University Ltd. Method and system of classifying medical images
US8687851B2 (en) 2010-09-10 2014-04-01 Panasonic Corporation Generic object-based image recognition apparatus with exclusive classifier, and method for the same
US8731317B2 (en) * 2010-09-27 2014-05-20 Xerox Corporation Image classification employing image vectors compressed using vector quantization
JP2012124725A (ja) 2010-12-09 2012-06-28 Sanyo Electric Co Ltd 画像処理装置
US8699852B2 (en) 2011-10-10 2014-04-15 Intellectual Ventures Fund 83 Llc Video concept classification using video similarity scores
US20130114900A1 (en) 2011-11-07 2013-05-09 Stanford University Methods and apparatuses for mobile visual search
US8768048B1 (en) * 2011-11-18 2014-07-01 Google Inc. System and method for exploiting segment co-occurrence relationships to identify object location in images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09319876A (ja) * 1996-05-30 1997-12-12 Tenryu Technic:Kk マッチング認識方法
JPH1021389A (ja) * 1996-07-03 1998-01-23 Mitsubishi Electric Corp テンプレートマッチング方法およびその装置
US20100124377A1 (en) * 2008-11-19 2010-05-20 Nec Laboratories America, Inc. Linear spatial pyramid matching using sparse coding

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JAMES PHILBIN ET AL.: ""Lost in Quantization: Improving Particular Object Retrieval in large Scale Image Databases"", IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2008, JPN5015001697, 23 June 2008 (2008-06-23), US, pages 1 - 8, XP031297193, ISSN: 0003449996 *
JAN C. VAN GEMERT ET AL.: ""Visual Word Ambiguity"", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 32, no. 7, JPN5015001694, 31 July 2010 (2010-07-31), US, pages 1271 - 1283, XP011294442, ISSN: 0003449994 *
LINGQIAO LIN ET AL.: ""In Defense of Soft-assignment Coding"", IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2011, JPN5015001695, 6 November 2011 (2011-11-06), US, pages 2486 - 2493, ISSN: 0003449995 *
Y-LAN BOUREAU ET AL.: ""Ask the locals: multi-way local pooling for image recognition"", IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION, 2011, JPN5015001696, 6 November 2011 (2011-11-06), US, pages 2651 - 2658, ISSN: 0003449993 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019067265A1 (en) * 2017-09-27 2019-04-04 Intel Corporation CLASSIFICATION BASED ON DISTRIBUTED CODING

Also Published As

Publication number Publication date
TW201324378A (zh) 2013-06-16
CN103164713B (zh) 2016-04-06
HK1182505A1 (zh) 2013-11-29
EP2791869A1 (en) 2014-10-22
US20130148881A1 (en) 2013-06-13
WO2013090288A1 (en) 2013-06-20
CN103164713A (zh) 2013-06-19
US9342758B2 (en) 2016-05-17

Similar Documents

Publication Publication Date Title
JP2015506026A (ja) 画像分類
Sameen et al. Classification of very high resolution aerial photos using spectral‐spatial convolutional neural networks
Thai et al. Image classification using support vector machine and artificial neural network
CN105354307B (zh) 一种图像内容识别方法及装置
JP4618098B2 (ja) 画像処理システム
CN107103326B (zh) 基于超像素聚类的协同显著性检测方法
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
Li et al. Hybrid shape descriptor and meta similarity generation for non-rigid and partial 3D model retrieval
US20130129199A1 (en) Object-centric spatial pooling for image classification
Giveki Scale-space multi-view bag of words for scene categorization
CN112651418B (zh) 数据分类方法、分类器训练方法及系统
CN106250918B (zh) 一种基于改进的推土距离的混合高斯模型匹配方法
Bora et al. Clustering approach towards image segmentation: an analytical study
Chu et al. Group channel pruning and spatial attention distilling for object detection
CN108805280B (zh) 一种图像检索的方法和装置
CN113723352A (zh) 一种文本检测方法、系统、存储介质及电子设备
US11816909B2 (en) Document clusterization using neural networks
Kumar et al. A framework for automatic classification of mobile LiDAR data using multiple regions and 3D CNN architecture
Froech et al. Reconstructing facade details using MLS point clouds and Bag-of-Words approach
Cai et al. Semantic edge detection based on deep metric learning
Cheng et al. A distributed system architecture for high-resolution remote sensing image retrieval by combining deep and traditional features
Yuan et al. Research of batik image classification based on support vector machine
Mantziou et al. Learning to detect concepts with Approximate Laplacian Eigenmaps in large-scale and online settings
Saremi et al. Improved use of descriptors for early recognition of actions in video
Gao et al. 3D Model Classification Based on Bayesian Classifier with AdaBoost

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171003