JP6050223B2 - 画像認識装置、画像認識方法、及び集積回路 - Google Patents

画像認識装置、画像認識方法、及び集積回路 Download PDF

Info

Publication number
JP6050223B2
JP6050223B2 JP2013500706A JP2013500706A JP6050223B2 JP 6050223 B2 JP6050223 B2 JP 6050223B2 JP 2013500706 A JP2013500706 A JP 2013500706A JP 2013500706 A JP2013500706 A JP 2013500706A JP 6050223 B2 JP6050223 B2 JP 6050223B2
Authority
JP
Japan
Prior art keywords
input image
image
recognition
target object
dividing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013500706A
Other languages
English (en)
Other versions
JPWO2013065220A1 (ja
Inventor
チョンヤン ヒュアン
チョンヤン ヒュアン
ヤン フア
ヤン フア
シュイチェン イェン
シュイチェン イェン
チアーン チェン
チアーン チェン
亮一 川西
亮一 川西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=48191605&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP6050223(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JPWO2013065220A1 publication Critical patent/JPWO2013065220A1/ja
Application granted granted Critical
Publication of JP6050223B2 publication Critical patent/JP6050223B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Description

本発明は、一般物体認識を行う画像認識技術に関し、特に、階層化マッチング技術に関する。
近年、一般物体認識に関し、空間階層化マッチング(SPM)(非特許文献1参照)を用いる手法が提案されている。SPMでは、入力画像の特徴を表現するヒストグラムを算出する際に、まず、入力画像を複数の領域に分割し、分割された各領域を、更に、複数の領域に分割するというように、入力画像を階層的に分割する。そして各階層における分割された領域それぞれについてヒストグラムを算出し、これらを結合して、入力画像の特徴を表すヒストグラムを算出している。
これにより、入力画像の特徴を表すヒストグラムに、分割された各領域の入力画像における幾何学的な位置関係を反映させることができ、一般物体認識の精度を向上させることができる。
S. Lazebnik, C. Schmid, and J. Ponce、 「Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories」、 Proc. of IEEE Computer Vision and Pattern Recognition, pp.2169−2178 (2006). G. Wang、D. Forsyth著、 Joint learning of visual attributes, object classes and visual saliency. In Proceedings of IEEE International Conference on Computer Vision, pages 537−544, 2009. Laurent Itti、Christof Koch、Ernst Niebur著、A model of saliency−based visual attention for rapid scene analysis 、IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20, NO.11, NOVEMBER 1998
ところで、上記のように、入力画像を複数の領域に分割する手法を用いた一般物体認識においても、さらなる精度の向上を図る必要がある。
そこで、本発明は、一般物体認識における、入力画像における認識対象である物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる画像認識装置を提供することを目的とする。
上記課題を解決するために、本発明に係る画像認識装置は、一般物体認識を行う画像認識装置であって、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割手段と、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備える。
上述の構成により、本発明に係る画像認識装置は、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容に係る情報に基づいて分割するので、分割された画像から生成するヒストグラムに入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象である物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。
階層化マッチングに基づく一般物体認識処理の流れを示すフローチャート 画像認識装置200の構成を示すブロック図 (a)意味マップ(位置マップ)を用いた入力画像分割処理手順を示すフローチャート、(b)入力画像分割処理で用いられる画像等の一例を模式的に示す図 入力画像のヒストグラムの生成について説明するための図、(a)入力画像を示す図、(b)分割画像を示す図、(c)空間サブ領域のヒストグラムを示す図、(d)入力画像のヒストグラムを示す図 入力画像のヒストグラムを用いた、マッチング処理による、各認識対象物体の存在有無の判断について説明するための図 (a)意味マップ(顕著性マップ)を用いた入力画像分割処理手順を示すフローチャート、(b)入力画像分割処理で用いられる画像等の一例を模式的に示す図 入力画像のヒストグラムの生成について説明するための図、(a)入力画像を示す図、(b)分割画像を示す図、(c)空間サブ領域のヒストグラムを示す図、(d)入力画像のヒストグラムを示す図 (a)一般的な階層化マッチングにおける入力画像(階層0)の画像及びそのヒストグラムの一例を示す模式図、(b)階層1の分割画像及びそのヒストグラムの一例を示す模式図、(c)階層2の分割画像及びそのヒストグラムの一例を示す模式図
<本発明に係る一形態を得るに至った経緯>
発明者らは、前述した、SPMによる一般物体認識について詳細に検討した。
SPMでは、入力画像を分割する際に等分割している。このため、入力画像について生成するヒストグラムが、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を受けて変化し、一般物体認識の能力を低下させる場合があるという課題を見出した。以下、この点について説明する。
認識対象物体の位置について、例えば、入力画像を、4等分(縦、横それぞれ2等分)し、左上の領域に認識対象物体が写っていた場合を想定する。
この入力画像について得られるヒストグラムは、右下の領域に認識対象物体が写っている画像について得られるヒストグラムとは異なるものとなる。よって、分類器が、例えば、学習用画像として右下の領域に認識対象物体が写っている画像について多く学習していた場合には、分類器におけるこの入力画像についての認識対象物体の認識精度は、右下の領域に認識対象物体が写っている場合よりも低くなってしまう。
また、認識対象物体の大きさ、背景クラッタについては、例えば、入力画像の一領域中に認識対象物体が小さく写っていた場合を想定する。
この場合、認識対象物体が大きく写っている場合よりも、この領域についてのヒストグラムにおける背景部分の特徴量の影響が大きくなり、逆に認識対象物体の特徴量の影響が小さくなってしまう。よって、分類器が、認識対象物体について予め行った学習結果とマッチングしにくくなり、この入力画像についての認識対象物体の認識精度は、認識対象物体が大きく写っている場合よりも低くなってしまう。
そして、この点に関して、本発明者は検討を重ねた結果、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容に係る情報に基づいて分割することで、分割された画像から生成するヒストグラムに入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象である物体の位置、大きさ、背景クラッタなどの影響を低減できることを見出し、本発明に至った。
<1.概要>
図1は、本発明の一実施形態に係る画像認識装置による、階層化マッチングに基づく一般物体認識処理の流れを示すフローチャートである。
階層化マッチングに基づく一般物体認識処理は、入力画像中の各特徴点について特徴量を抽出する処理(S101)、入力画像を階層的に分割する処理(S102)、分割により生じた各空間サブ領域について、それぞれの特徴を表現するヒストグラムを生成する処理(S103)、生成した各空間サブ領域のヒストグラムから、入力画像のヒストグラムを生成する処理(S104)、入力画像のヒストグラムを用いて、分類器により、入力画像中に認識対象物体が存在するか否かを判定する分類処理(S105)から成る。
これらの処理のうち、本願発明の特徴部分に係る処理は、「入力画像を階層的に分割する処理(S102)」である。
入力画像を「階層的に分割する」とは、入力画像(階層0)を複数の領域に分割し(階層1)、分割により生じた各領域(以下、「空間サブ領域」という。)を、更に、複数の領域に分割する(階層2)というように、入力画像を再帰的に細かく分割することである。
ここで、一般的な階層化マッチング(空間階層化マッチング:SPM)では、入力画像を階層的に空間サブ領域に分割する場合に、等分割している。具体的には、図8に一例として示すように、入力画像である画像801をまずN等分(本実施形態では、4等分(縦方向に2等分、横方向に2等分))し(空間サブ領域811〜814)、更に、分割により生じた各空間サブ領域を、それぞれN分割(空間サブ領域821〜824、831〜834、841〜844、851〜854)する。
そして、これらの等分割された空間サブ領域それぞれから、各空間サブ領域の特徴を表すヒストグラム(801H、811H〜814H、821H〜824H、831H〜834H、841H〜844H、851H〜854H)を生成している。入力画像についての最終的なヒストグラムは、例えば、801H、811H〜814H、821H〜824H、831H〜834H、841H〜844H、及び851H〜854Hを横方向に連結したものとなる。
しかしながら、このように入力画像を規則的に等分割した場合、この入力画像について生成するヒストグラムが、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を受け、このヒストグラムを用いた場合に、分類器による一般物体認識の能力が低下する場合がある。
このため、本実施形態では、S102において、入力画像を階層的に分割する場合に、等分割のように規則的に分割するのではなく、入力画像から各階層について意味マップを生成し、その意味マップを用いて入力画像を分割する。
意味マップは、入力画像の内容から抽出した意味を表現するマップであり、入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けしたものである。
本実施形態では、意味マップの一例として、位置マップを用いる。位置マップは、入力画像における各画素について、認識対象物体の一部である確率をマッピングすることにより生成したスコアマップを、複数のレベル(本実施形態では4レベル)にレベル分けしたマップである。
そして、意味マップを用いて分割された各空間サブ領域についてヒストグラムを生成する。この場合、各ヒストグラムには、その空間サブ領域を構成する各画素について認識対象物体の一部である確率が反映される。
例えば、位置マップの第1レベルの(認識対象物体の一部である確率が最も高い)領域に対応する、空間サブ領域のヒストグラムは、認識対象物体の特徴が色濃く反映されたヒストグラムとなり、背景クラッタの特徴は反映されにくくなる。
この第1レベルに対応する空間サブ領域のヒストグラムは、入力画像のヒストグラムの一部として連結される。すなわち、入力画像のヒストグラムは、認識対象物体の特徴が色濃く反映された部分を含んだものとなる。よって、分類器がこのヒストグラムを用いた場合、認識対象物体を認識できる確率が高まる。
また、入力画像における第1レベルの領域が、入力画像のいずれの位置に存在し、いずれの大きさであっても、入力画像について生成されるヒストグラムに変わりはない。すなわち、認識対象物体の一部である確率の高い領域について、位置、大きさの影響が排除されることになる。
以上のように、本実施形態では、意味マップを用いて入力画像を分割することにより、生成するヒストグラムに対する、入力画像における物体の位置、大きさなどの悪影響を小さくし、一般物体認識の精度を向上させている。
以下、本実施形態について、より詳細に説明する。
<2.構成>
以下、本発明の一実施形態に係る、一般物体認識を行う画像認識装置200の構成について説明する。
図2は、画像認識装置200の構成を示すブロック図である。
画像認識装置200は、図2に示すように、入力部201、特徴量抽出部202、領域情報生成部203、ヒストグラム生成部204、分類器205、及び記憶部206を含んで構成される。
また、画像認識装置200は、プロセッサ及びメモリを含んで構成されており、特徴量抽出部202、領域情報生成部203、ヒストグラム生成部204、及び分類器205の機能は、メモリに記憶されているプログラムをプロセッサが実行することにより実現される。
(1)入力部201
入力部201は、通信用LSI又はメモリアクセス用ICなどで構成されており、入力画像を、通信により又はメモリデバイスから読み出すことによって取得する機能を有する。
(2)特徴量抽出部202
特徴量抽出部202は、入力画像における特徴点を選出し、各特徴点についての特徴量を抽出する機能を有する。この機能に係る処理は、図1のS101に相当する。
特徴量を抽出する機能は、具体的には、以下のように実現される。
特徴量抽出部202は、まず、入力画像における特徴点を選出する。特徴点は、一例として、入力画像上の一定間隔で位置する格子点、及び/又は、特徴的な離散点である。特徴的な離散点とは、輝度、形状が急激に変化するような特徴的な点であり、例えば、猫の目の一部や、耳の先端を示す点などが該当する。以下、上述の格子点、離散点を総称して「特徴点」という場合もある。
次に、特徴量抽出部202は、特徴点とその周辺で特徴量としての記述子を抽出する。
記述子の抽出は、一例として、周知であるSIFT(Scale Invariant Feature Transform)アルゴリズムを用いる。SIFTは、特徴点の代表輝度勾配方向を決定し、その方向を基準として、他方向の輝度勾配ヒストグラムを作成し、多次元ベクトルで特徴量を記述するものである。
(3)領域情報生成部203
領域情報生成部203は、意味マップ生成機能、及び入力画像を意味マップを用いて階層的に空間サブ領域に分割する入力画像分割機能を有する。
<意味マップ生成機能>
意味マップ生成機能として、領域情報生成部203は、意味マップを生成する。本実施形態では、領域情報生成部203は、意味マップの一例として位置マップを生成する。
位置マップは、教師あり学習を用いて、入力画像の各画素位置における、検出対象である物体の存在確率を表すものである。より具体的には、位置マップは、入力画像における各画素について、認識対象物体の一部である確率をマッピングすることにより生成したスコアマップを、複数(本実施形態では4つ)のレベルに分けたものである。
この意味マップ生成機能に係る処理は、図1のS102、図3のS301〜S303に相当する。
なお、領域情報生成部203は、位置マップの生成に複数の検出器を用いる。各検出器は、例えば、「正面顔」、「右横顔」、「腹部」、「脚部」など、それぞれが検出対象とする物体又はその一部を表す画像(以下、便宜上「要素画像」という。)について予め学習している。
このように、複数の検出器を用いるのは、例えば、入力画像から「顔」を検出することを想定した場合、「顔」には「正面顔」、「右横顔」、「左横顔」、「斜め右顔」、「斜め左顔」・・・など色々あり、また、顔の大きさも「大」「中」「小」・・・など色々あり、1つの検出器でこれら全てを検出することはできないためである。
なお、位置マップの詳細は、「G. Wang、D. Forsyth著、 Joint learning of visual attributes, object classes and visual saliency. In Proceedings of IEEE International Conference on Computer Vision, pages 537−544, 2009.」などに記載されている。
<入力画像分割機能>
入力画像分割機能は、入力画像を意味マップを用いて階層的に分割することにより、空間サブ領域を得る機能である。意味マップは、階層それぞれについて生成する。
この意味マップ生成機能に係る処理は、図1のS102、図3のS304に相当する。
(4)ヒストグラム生成部204
ヒストグラム生成部204は、領域情報生成部203による分割処理の結果である空間サブ領域それぞれについてヒストグラムを生成し、生成したヒストグラムを連結することにより、入力画像のヒストグラムを生成する機能を有する。この機能に係る処理は、図1のS103、S104に相当する。
各空間サブ領域についてのヒストグラムの生成は、その空間サブ領域に含まれる各特徴点について、特徴量抽出部202により抽出された特徴量(記述子)に最も近似する画像語彙に対して投票を行うことで実現する。ここで、画像語彙は、SIFT特徴量をベクトル量子化したものである。画像語彙の集合である画像語彙辞書(211)は、学習画像群について機械学習を行うことにより生成され、予め記憶部206に記憶されている。
SIFT特徴量、ヒストグラムの生成については周知であり、これ以上の説明は省略する。
(5)分類器205
分類器205は、一例として、サポートベクターマシン(SVM)で構成されており、入力画像のヒストグラムを用いて、入力画像を複数クラスの少なくとも1つに割り当てる機能(分類機能)を有し、入力画像中に認識対象物体が存在するか否かを判断する。
認識対象物体が存在するか否かを判断する機能は、具体的には、分類器205が、ヒストグラム生成部204により生成された入力画像のヒストグラムと、記憶部206に記憶されている分類モデル辞書212とを比較することによって実現する。この機能は、図1のS105に相当する。
ここで、分類モデル辞書212は、認識対象となっている物体それぞれを含む画像についてのヒストグラムを記憶するものである。分類モデル辞書212は、学習画像群についての機械学習により予め生成され、記憶部206に記憶されている。
SVMについては、周知であるので、これ以上の詳細な説明は省略する。
(6)記憶部206
記憶部206は、不揮発性メモリで構成されており、上述した画像語彙辞書211、分類モデル辞書212など各種の情報を記憶する。
<3.動作>
<3−1.意味マップを用いた入力画像分割処理>
図3は、意味マップとして位置マップを用いた入力画像分割処理について説明するための図である。
図3(a)は、位置マップを用いた入力画像分割処理を示すフローチャートであり、図1のS102に相当する。また、図3(b)は、入力画像分割処理で用いられる画像等の一例を模式的に示す図である。
まず、領域情報生成部203における各検出器は、所定サイズ(例えば、8ピクセル×8ピクセル)の判定窓を入力画像上で走査させ、前述した要素画像の検出処理を行う(S301)。
より詳細には、入力画像(一例として図3(b)の入力画像311)において、判定窓を走査して要素画像を検出する。要素画像を検出した場合に、その検出結果に対する信頼性(確度)も記憶しておく。そして、これらの信頼性(検出しなかった場合は、信頼性0とする。)を入力画像の当該範囲にマッピングしていくことにより、信頼性マップを生成する。
次に、領域情報生成部203は、ポスト処理として、入力画像を構成する各画素について、要素画像を検出した検出器の個数と、信頼性マップを用いて、入力画像の各画素位置における「認識対象物体」の存在確率を表すスコアマップを生成する(S302)。
一例として、入力画像の各画素について、検出数が2以上であり、信頼性の合計が0.5以上であった場合に、その画素については、「認識対象物体」の存在確率をその信頼性の合計値とする。
このようにして得られたスコアマップは、グレーレベル画像(一例として、図3(b)のグレーレベル画像312)のようになる。存在確率が高い位置は、明度が高く、存在確率が低い位置は、明度が低くなっている。
次に、領域情報生成部203は、スコアマップを表現するグレーレベル画像の階調を、所定の閾値(一例として、3個の閾値)などを用いて、所定画像分割数と同数の階調数(例えば、4つ)にレベル分けすることにより、位置マップ(一例として、図3(b)の位置マップ313)を取得する(S303)。
位置マップ313は、レベル1の領域331、レベル2の領域332、レベル3の領域333、レベル4の領域334に分かれる4階調のグレーレベル画像となっている。
最後に、領域情報生成部203は、入力画像311を、位置マップ313を用いて分割する(S304)。入力画像311を複数の領域に分割する場合の領域間の境界線は、分割後の画像を表す図3の画像314のように、位置マップ313の各レベルを区切る境界線を入力画像311に写像したものと一致させる。以下、画像314のように、領域に分けられた画像を「分割画像」という。
入力画像311は、位置マップ313のレベル1に相当する領域、レベル2に相当する領域、レベル3に相当する領域、及びレベル4に相当する領域の4つの領域に分割されることになる。位置マップ313における領域331の位置、形状と、分割画像314における領域341の位置、形状とは同じになる。また、位置マップ313における領域332、333、及び334の位置、形状と、分割画像314における領域(空間サブ領域)342、343、及び344の位置、形状とは同じになる。
上述の入力画像分割処理は、階層1についてのみ説明したものであるが、階層2以下の階層についても同様の処理を行うものとする。なお、階層数については、「牛」、「猫」というようなレベルの物体概念について認識処理を行う場合、一般的に2〜3階層程度が望ましいといわれており、これに従い、本実施形態では階層数として3を用いている。
なお、グレーレベル画像312、位置マップ313、分割画像314は、説明のための模式的な図であって、入力画像311から実際に生成した正確な画像、マップ等ではない。
<3−2.階層化マッチングに基づく一般物体認識処理>
画像認識装置200による、階層化マッチングに基づく一般物体認識処理について、図1、図4及び図5を用いて、詳細に説明する。
まず、入力部201が、入力画像(一例として、図4(a)の入力画像311)を取得し、特徴量抽出部202に出力する。
特徴量抽出部202は、入力画像中の各特徴点について特徴量を抽出する(S101)。
次に、領域情報生成部203が、入力画像を階層的に空間サブ領域へと分割する処理を行う(S102)。この処理は、図3を用いて既に説明した入力画像分割処理に相当する。
ここで、S102において生成された階層1の分割画像が、一例として図4(b)の分割画像314であるとする。なお、図4(b)の分割画像314と、図3(b)分割画像314とは同じである。
次に、ヒストグラム生成部204が、各空間サブ領域のヒストグラムを生成する処理を行う(S103)。
図4(c)は、階層1に係る各空間サブ領域のヒストグラムの一例を模式的に示した図である。
各ヒストグラムの横軸は、画像語彙を並べたものであり、縦軸は、入力画像における各画像語彙の出現頻度である。
ヒストグラム341Hは、空間サブ領域341に対応するヒストグラムである。同様に、ヒストグラム342H〜344Hが、空間サブ領域342〜344にそれぞれ対応するヒストグラムである。
そして、ヒストグラム生成部204は、生成したヒストグラムを連結することにより、入力画像のヒストグラム(一例として、図4(d)のヒストグラム410H)を生成する(S104)。
なお、階層0である入力画像311、及び、入力画像を16分割した階層2の分割画像についても同様に、ヒストグラムを生成する。そして、階層0、階層1、階層2の各ヒストグラムを連結したものが、入力画像311の最終的なヒストグラムになる。
最後に、分類器205が、入力画像のヒストグラムを用い、入力画像中に認識対象物体が存在するか否かを判断する(S105)。
分類器205は、入力画像中に認識対象物体が存在するか否かを判断する。
なお、図5では、入力画像のヒストグラムとして、階層1のヒストグラム410Hのみ抽出して示しているが、実際には、前述のように、階層0、階層1、階層2の各ヒストグラムを連結したものを、入力画像のヒストグラムとして用いる。分類モデル辞書212として記憶されている、認識対象物体を現すヒストグラムについても、階層1のヒストグラム501H、502Hのみ抽出して示しているが、実際には、階層0、階層1、階層2の各ヒストグラムを連結したものを、認識対象物体を現すヒストグラムとして用いる。
<4.変形例>
以上、本発明に係る画像認識装置の実施形態を説明したが、例示した画像認識装置を以下のように変形することも可能であり、本発明が上述の実施形態で示した通りの画像認識装置に限られないことは勿論である。
(1)上述の実施形態では、意味マップとして、位置マップを用いていたが、入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けしたものであれば足りる。
例えば、意味マップとして、顕著性マップを用いてもよい。
顕著性マップは、入力画像における、各画素について、視覚注意を引く強さ(確率)をマッピングすることにより生成したスコアマップを、複数のレベルにレベル分けしたマップである。画像の各画素位置における顕著性は、その位置における刺激が、当該位置を取り巻く局所的、又は大域的な刺激と比較してどれほど顕著であるかによって決定される。顕著性マップには、例えば、画像のある領域が前景に相当する確率、及び背景に相当する確率などが画素レベルで反映される。
図6(a)は、意味マップとして顕著性マップを用いた場合の、入力画像分割処理を示すフローチャートであり、図1のS102に相当する処理である。
また、図6(b)は、入力画像分割処理で用いられる画像等の一例を模式的に示す図である。
まず、領域情報生成部203は、検出対象とする1以上の属性(例えば、輝度、色、テクスチャや形など)それぞれについて、周囲と異なる特徴を有する画像領域を検出する(S601)。以下、各属性について得られた検出結果を「顕著性レスポンス」という。
次に、領域情報生成部203は、S601において得られた、複数の顕著性レスポンスを統合するためのポスト処理を行うことにより、スコアマップを得る(S602)。ポスト処理では、例えば、輝度、色、テクスチャや形についての各顕著性レスポンスを所定割合で加算するなどして、複数の顕著性レスポンスを統合することにより、スコアマップを得る。
スコアマップは、画像の各位置における、当該画素の顕著性を表している。このようにして得られたスコアマップは、グレーレベル画像(一例として、図6(b)のグレーレベル画像612)として表現される。例えば、顕著性が高い位置は、明度が高く、顕著性が低い位置は、明度が低くなる。
S603は、上述の図3のS303と同様の処理であり、S604は、S304と同様の処理であるので、説明は省略する。
なお、図6の顕著性マップ613が、意味マップとしての顕著性マップの一例を示している。
また、図6の分割画像614が、入力画像611を、顕著性マップ613を用いて分割した、階層1の分割画像の一例を示している。
なお、グレーレベル画像612、位置マップ613、分割画像614は、説明のための模式的な図であって、入力画像611から実際に生成した正確な画像、マップ等ではない。
なお、顕著性マップについては、「Laurent Itti、Christof Koch、Ernst Niebur著、A model of saliency−based visual attention for rapid scene analysis 、IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL.20, NO.11, NOVEMBER 1998」などに記載されている。
次に、顕著性マップ613等を用いて分割した分割画像における各空間サブ領域のヒストグラムを生成する処理を行う。この処理は、図1のS103に相当する処理である。
図7は、入力画像のヒストグラムの生成について説明するための図である。
ここで、入力画像が、一例として図7(a)の画像611であり、S102において生成された階層1の分割画像が、一例として図7(b)の分割画像614であるとする。なお、図7(a)の画像611は、図6(b)の画像611と同じものであり、図7(b)の分割画像614は、図6(b)の分割画像614と同じものである。
図7(c)は、階層1に係る各空間サブ領域のヒストグラムの一例を模式的に示した図である。
各ヒストグラムの横軸は、画像語彙を並べたものであり、縦軸は、入力画像における各画像語彙の出現頻度である。
ヒストグラム641Hは、空間サブ領域641に対応するヒストグラムである。同様に、ヒストグラム642H〜644Hが、空間サブ領域642〜644にそれぞれ対応するヒストグラムである。
そして、ヒストグラム生成部204は、生成したヒストグラムを連結することにより、入力画像のヒストグラムを生成する。この処理は、図1のS104に相当する処理である。
なお、階層0である入力画像611、及び、入力画像を16分割した階層2の分割画像についても同様に、ヒストグラムを生成する。そして、階層0、階層1、階層2の各ヒストグラムを連結したものが、入力画像611の最終的なヒストグラムになる。
最後に、分類器205が、入力画像のヒストグラムを用い、入力画像中に認識対象物体が存在するか否かを判断する。
この処理は、図1のS105に相当する処理である。S105の詳細については、既に説明しているので、これ以上の説明は省略する。
(2)上述の実施形態、及び変形例では、意味マップとして、位置マップ又は顕著性マップを用いることとしていたが、これら複数のマップを統合したマップを意味マップとして用いてもよい。
例えば、位置マップに係るスコアマップと、顕著性マップに係るスコアマップを統合し、統合されたスコアマップから1つの意味マップを生成してもよい。
異なるスコアマップを統合する際には、それぞれのスコアマップに対して同等の重みづけをしてもよいし、それぞれのスコアマップに対して学習などにより得た重みづけをしてもよい。
以上のように、複数のスコアマップを用いて意味マップを生成することにより、意味マップに、入力画像の各画素が有する複数の意味内容を反映させることができる。
また、単純な幾何学的分割と、意味マップを用いた分割とを組み合わせて用いてもよい。
(3)上述の実施形態では、特徴量としてSIFT特徴量を算出していたが、特徴量を表現できれば足りる。例えば、特徴量として、周知の特徴量である、Color、HOG(Histogram of Oriented Gradients)、LBP(Local Binary Pattern)等を用いてもよいし、画像データそのものを用いてもよい。
(4)上述の実施形態では、入力画像を階層的に分割する場合の階層化の深さを3階層(階層0、1、及び2)とし、階層が深くなる度に上位階層の画像(部分画像)を4分割したが、これに限らず、学習、経験則等により得られる階層の深さ、分割数を採用してよい。
(5)上述の実施形態では、分類器205が、ヒストグラム生成部204により生成されたヒストグラムを用いて、入力画像中に認識対象物体が存在するか否かを判断することとしたが、ヒストグラム生成部204により生成されたヒストグラムを用いて認識対象物体に関する検査を行えば足りる。例えば、分類器205が検出器として動作し、ヒストグラム生成部204により生成されたヒストグラムを用いて、入力画像中に存在する認識対象物体を検出することとしてもよい。
(6)上述の実施形態では、分類器205は、SVMで構成するとしたが、入力画像を複数クラスの少なくとも1つに割り当てることができれば足りる。
例えば、マッチング処理技術を適用することとしてもよい。
一例としては、予め、学習画像群について機械学習により生成された分類モデル辞書212を記憶部206に記憶しておく。
分類モデル辞書212は、認識対象となっている物体それぞれについての、その物体が画像中に存在する場合のヒストグラム(一例として、図5における、認識対象物体が「牛」である場合のヒストグラム501H、認識対象物体が「猫」である場合のヒストグラム502H)である。分類器205は、入力画像のヒストグラムと、分類モデル辞書212中の各ヒストグラムとを比較し、その一致度合を算出する。そして、分類器205は、一致度合が所定割合以上か否かを判断し、一致度合が所定値以上の場合には、認識対象物体が入力画像中に存在し、所定値未満の場合には、認識対象物体が入力画像中に存在しないと決定する。
(7)上述の実施形態で示した特徴量を抽出する処理、意味マップ生成処理、入力画像分割処理、ヒストグラム生成処理、認識対象物体が存在するか否かを判断する処理などを画像認識装置200のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるための機械語或いは高級言語のプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布することもできる。
このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM、フラッシュメモリ等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより各実施形態で示したような各機能が実現されるようになる。
なお、プロセッサは、制御プログラムを直接実行する他、コンパイルして実行或いはインタプリタにより実行してもよい。
(8)上述の実施形態で示した各機能構成要素(入力部201、特徴量抽出部202、領域情報生成部203、ヒストグラム生成部204、及び分類器205など)は、その機能を実行する回路として実現されてもよいし、1又は複数のプロセッサによりプログラムを実行することで実現されてもよい。
なお、上述の各機能構成要素は典型的には集積回路であるLSIとして実現される。これらは個別に1チップされてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。更には、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
(9)上述の実施形態及び各変形例を、部分的に組み合せてもよい。
<5.補足>
以下、更に本発明の一実施形態としての画像認識装置の構成及びその変形例と効果について説明する。
(1)本発明の一実施形態に係る画像認識装置は、一般物体認識を行う画像認識装置であって、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割手段と、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備える。
この構成により、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容から抽出した意味に基づいて分割するので、分割された画像から生成する特徴情報に入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。
なお、「検査」の用語は、「分類」と「検出」の両方を含むものとして用いている。
(2)また、前記分割手段は、前記入力画像の内容から抽出した意味を表現する情報として、前記入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けした意味マップを生成して用いることとしてもよい。
この構成により、入力画像を、認識対象物体に関連する確率のレベル毎に分割することとなるので、認識対象物体に関連する確率の高い領域から算出される特徴情報には、認識対象物体の特徴が、認識対象物体の位置、大きさによらず強く現れることとなる。よって、入力画像の特徴情報に、認識対象物体の特徴が強く現れるので、従来よりも一般物体認識の精度を向上することができる。
(3)また、前記分割手段は、前記スコアマップを、前記入力画像の各画素について、認識対象物体の一部を表す画素である確率をマッピングすることにより生成することとしてもよい。
この構成により、入力画像を、認識対象物体の一部を表す画素である確率のレベル毎に分割することとなるので、認識対象物体の一部を表す確率の高い領域から算出される特徴情報には、認識対象物体の特徴が、認識対象物体の位置、大きさによらず強く現れることとなる。よって、入力画像の特徴情報に、認識対象物体の特徴が強く現れるので、従来よりも一般物体認識の精度を向上することができる。
(4)また、前記分割手段は、前記スコアマップを、前記入力画像の各画素についての、周囲の画素と比較して顕著な度合をマッピングすることにより生成することとしてもよい。
この構成により、入力画像を、視覚注意を引く度合のレベル毎に分割することとなるので、視覚注意を引く度合の高い領域から算出される特徴情報には、視覚注意を引く度合の高い物体である認識対象物体の特徴が、認識対象物体の位置、大きさによらず強く現れることとなる。よって、入力画像の特徴情報に、認識対象物体の特徴が強く現れるので、従来よりも一般物体認識の精度を向上することができる。
(5)また、前記分割手段は、前記入力画像を、前記意味マップを用いて階層的に分割することとしてもよい。
この構成により、一般物体認識における、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。
(6)また、前記検査手段は、学習画像を用いて学習した分類器であり、前記認識対象物体の存在についての検査として、前記学習の結果を用いて、前記入力画像中に前記認識対象物体が存在するか否かを判断することとしてもよい。
本発明の一実施形態に係る画像認識方法は、分割手段と、生成手段と、検査手段とを備えた一般物体認識を行う画像認識装置に用いられる画像認識方法であって、前記分割手段が、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割ステップと、前記生成手段が、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成ステップと、前記検査手段が、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査ステップとを含む。
本発明の一実施形態に係る集積回路は、一般物体認識を行う画像認識装置に用いられる集積回路であって、入力画像を、当該入力画像の内容から抽出した意味に基づいて分割する分割手段と、前記分割された領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備える。
この構成により、入力画像を分割する際に、規則的に等分割するのではなく、入力画像の内容から抽出した意味に基づいて分割するので、分割された画像から生成する特徴情報に入力画像の内容に係る情報が反映されることとなり、一般物体認識における、入力画像における認識対象物体の位置、大きさ、背景クラッタなどの影響を低減し、従来よりも一般物体認識の精度を向上することができる。
本発明の一形態に係る画像認識装置は、入力画像における認識対象である物体の位置、大きさ、背景クラッタなどの影響を低減し、一般物体認識の能力を向上するものであり、一般物体が撮影される写真データを分類して管理する装置等として用いるのに好適である。
200 画像認識装置
201 入力部
202 特徴量抽出部
203 領域情報生成部
204 ヒストグラム生成部
205 分類器
206 記憶部
211 画像語彙辞書
212 分類モデル辞書
311 入力画像
312 グレーレベル画像
313 位置マップ
314 分割画像

Claims (6)

  1. 一般物体認識を行う画像認識装置であって、
    入力画像を、当該入力画像の内容から抽出した意味に基づいて複数の領域に分割する分割手段と、
    前記分割された複数の領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、
    前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備え、
    前記分割手段は、前記入力画像の内容から抽出した意味を表現する情報として、前記入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けした意味マップを生成して用い、
    前記分割手段は、前記入力画像の内容から抽出した意味に基づく複数の領域への分割を所定の回数再帰的に行う
    ことを特徴とする画像認識装置。
  2. 前記分割手段は、前記スコアマップを、前記入力画像の各画素について、認識対象物体の一部を表す画素である確率をマッピングすることにより生成する
    ことを特徴とする請求項1記載の画像認識装置。
  3. 前記分割手段は、前記スコアマップを、前記入力画像の各画素についての、周囲の画素と比較して顕著な度合をマッピングすることにより生成する
    ことを特徴とする請求項1記載の画像認識装置。
  4. 前記検査手段は、学習画像を用いて学習した分類器であり、前記認識対象物体の存在についての検査として、前記学習の結果を用いて、前記入力画像中に前記認識対象物体が存在するか否かを判断する
    ことを特徴とする請求項1記載の画像認識装置。
  5. 分割手段と、生成手段と、検査手段とを備えた一般物体認識を行う画像認識装置に用いられる画像認識方法であって、
    前記分割手段が、入力画像を、当該入力画像の内容から抽出した意味に基づいて複数の領域に分割する分割ステップと、
    前記生成手段が、前記分割された複数の領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成ステップと、
    前記検査手段が、前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査ステップとを含み、
    前記分割ステップにおいて、前記分割手段が、前記入力画像の内容から抽出した意味を表現する情報として、前記入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けした意味マップを生成して用い、
    前記分割ステップにおいて、前記分割手段が、前記入力画像の内容から抽出した意味に基づく複数の領域への分割を所定の回数再帰的に行う
    ことを特徴とする画像認識方法。
  6. 一般物体認識を行う画像認識装置に用いられる集積回路であって、
    入力画像を、当該入力画像の内容から抽出した意味に基づいて複数の領域に分割する分割手段と、
    前記分割された複数の領域それぞれの特徴情報を算出し、算出した特徴情報を反映させた前記入力画像の特徴情報を生成する生成手段と、
    前記入力画像の特徴情報に基づき、前記入力画像における認識対象物体の存在について検査する検査手段とを備え、
    前記分割手段は、前記入力画像の内容から抽出した意味を表現する情報として、前記入力画像を構成する各画素について、認識対象物体に関連する画素である確率をマッピングすることにより生成したスコアマップを、複数の閾値でレベル分けした意味マップを生成して用い、
    前記分割手段は、前記入力画像の内容から抽出した意味に基づく複数の領域への分割を所定の回数再帰的に行う
    ことを特徴とする集積回路。
JP2013500706A 2011-11-02 2012-08-29 画像認識装置、画像認識方法、及び集積回路 Active JP6050223B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161554643P 2011-11-02 2011-11-02
US61/554,643 2011-11-02
PCT/JP2012/005446 WO2013065220A1 (ja) 2011-11-02 2012-08-29 画像認識装置、画像認識方法、及び集積回路

Publications (2)

Publication Number Publication Date
JPWO2013065220A1 JPWO2013065220A1 (ja) 2015-04-02
JP6050223B2 true JP6050223B2 (ja) 2016-12-21

Family

ID=48191605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013500706A Active JP6050223B2 (ja) 2011-11-02 2012-08-29 画像認識装置、画像認識方法、及び集積回路

Country Status (4)

Country Link
US (1) US8897578B2 (ja)
JP (1) JP6050223B2 (ja)
CN (1) CN103189897B (ja)
WO (1) WO2013065220A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679351B2 (en) 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6320806B2 (ja) * 2014-03-17 2018-05-09 国立大学法人豊橋技術科学大学 三次元モデル検索方法、及び三次元モデル検索システム
US11151630B2 (en) * 2014-07-07 2021-10-19 Verizon Media Inc. On-line product related recommendations
CA2960414A1 (en) * 2014-09-08 2016-03-17 Maher S. AWAD Targeted advertising and facial extraction and analysis
US10055850B2 (en) * 2014-09-19 2018-08-21 Brain Corporation Salient features tracking apparatus and methods using visual initialization
US9659384B2 (en) * 2014-10-03 2017-05-23 EyeEm Mobile GmbH. Systems, methods, and computer program products for searching and sorting images by aesthetic quality
JP6438774B2 (ja) * 2015-01-19 2018-12-19 株式会社メガチップス 判定装置及び制御プログラム並びに判定方法
US9483707B2 (en) * 2015-02-04 2016-11-01 GM Global Technology Operations LLC Method and device for recognizing a known object in a field of view of a three-dimensional machine vision system
JP6346576B2 (ja) * 2015-02-27 2018-06-20 Hoya株式会社 画像処理装置
JP6031566B1 (ja) * 2015-07-30 2016-11-24 日本電信電話株式会社 特徴抽出装置、画像検索装置、方法、及びプログラム
US9727800B2 (en) 2015-09-25 2017-08-08 Qualcomm Incorporated Optimized object detection
US10074161B2 (en) * 2016-04-08 2018-09-11 Adobe Systems Incorporated Sky editing based on image composition
KR101813790B1 (ko) 2016-04-14 2017-12-29 국방과학연구소 특징 기반 다중 센서 정보 융합 장치 및 방법
CN106228134A (zh) * 2016-07-21 2016-12-14 北京奇虎科技有限公司 基于路面图像的可行驶区域检测方法、装置及系统
US10552968B1 (en) * 2016-09-23 2020-02-04 Snap Inc. Dense feature scale detection for image matching
US11748877B2 (en) * 2017-05-11 2023-09-05 The Research Foundation For The State University Of New York System and method associated with predicting segmentation quality of objects in analysis of copious image data
JP6565967B2 (ja) * 2017-05-12 2019-08-28 トヨタ自動車株式会社 路上障害物検出装置,方法,およびプログラム
US10657712B2 (en) * 2018-05-25 2020-05-19 Lowe's Companies, Inc. System and techniques for automated mesh retopology
US11120297B2 (en) * 2018-11-30 2021-09-14 International Business Machines Corporation Segmentation of target areas in images
CN111310523B (zh) * 2018-12-12 2024-06-18 北京沃东天骏信息技术有限公司 弹幕的显示方法及装置
JP7049983B2 (ja) * 2018-12-26 2022-04-07 株式会社日立製作所 物体認識装置および物体認識方法
CN110222704B (zh) * 2019-06-12 2022-04-01 北京邮电大学 一种弱监督目标检测方法及装置
JP7354686B2 (ja) * 2019-08-27 2023-10-03 株式会社リコー 出力制御装置、表示制御システム、出力制御方法およびプログラム
CN111104841B (zh) * 2019-09-16 2024-09-10 平安科技(深圳)有限公司 暴力行为检测方法及系统
CN110807139B (zh) * 2019-10-23 2023-09-01 腾讯科技(深圳)有限公司 图片识别方法、装置、计算机可读存储介质和计算机设备
US11645733B2 (en) 2020-06-16 2023-05-09 Bank Of America Corporation System and method for providing artificial intelligence architectures to people with disabilities
KR20220004453A (ko) * 2020-07-03 2022-01-11 삼성전자주식회사 객체를 인식하는 전자 장치 및 그 동작 방법
US11575589B2 (en) 2020-12-03 2023-02-07 International Business Machines Corporation Network traffic rule identification
CN113671363A (zh) * 2021-08-13 2021-11-19 华北电力大学(保定) 一种高压断路器状态辨识系统及方法
CN114037879A (zh) * 2021-10-22 2022-02-11 北京工业大学 一种面向零样本识别的字典学习方法及装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2967088B1 (ja) * 1998-11-30 1999-10-25 株式会社エイ・ティ・アール知能映像通信研究所 動物体領域分割装置
EP1402403B1 (en) * 1999-11-16 2007-02-21 AT&T Investments UK Inc. Method of and apparatus for classifying an image
US8224078B2 (en) * 2000-11-06 2012-07-17 Nant Holdings Ip, Llc Image capture and identification system and process
US20020154833A1 (en) * 2001-03-08 2002-10-24 Christof Koch Computation of intrinsic perceptual saliency in visual environments, and applications
KR100474848B1 (ko) * 2002-07-19 2005-03-10 삼성전자주식회사 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법
US20050047647A1 (en) * 2003-06-10 2005-03-03 Ueli Rutishauser System and method for attentional selection
JP4003712B2 (ja) * 2003-07-31 2007-11-07 トヨタ自動車株式会社 画像処理装置および画像処理方法
WO2005081178A1 (en) 2004-02-17 2005-09-01 Yeda Research & Development Co., Ltd. Method and apparatus for matching portions of input images
CN100426314C (zh) * 2005-08-02 2008-10-15 中国科学院计算技术研究所 一种基于特征分组的多分类器组合人脸识别方法
US7949186B2 (en) 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
CN1897015A (zh) * 2006-05-18 2007-01-17 王海燕 基于机器视觉的车辆检测和跟踪方法及系统
US20080019575A1 (en) * 2006-07-20 2008-01-24 Anthony Scalise Digital image cropping using a blended map
WO2008075359A2 (en) 2006-12-21 2008-06-26 Yeda Research And Development Co. Ltd. Method and apparatus for matching local self-similarities
US8009921B2 (en) * 2008-02-19 2011-08-30 Xerox Corporation Context dependent intelligent thumbnail images
US8537409B2 (en) * 2008-10-13 2013-09-17 Xerox Corporation Image summarization by a learning approach
US8374442B2 (en) 2008-11-19 2013-02-12 Nec Laboratories America, Inc. Linear spatial pyramid matching using sparse coding
US8774498B2 (en) * 2009-01-28 2014-07-08 Xerox Corporation Modeling images as sets of weighted features
CN101877064B (zh) * 2009-04-30 2014-10-15 索尼株式会社 图像分类方法及图像分类装置
IT1394181B1 (it) * 2009-05-07 2012-06-01 Marchesini Group Spa Metodo di segmentazione basato sulle caratteristiche per segmentare una pluralita' di articoli duplicati disposti alla rinfusa e gruppo che attua tale metodo per alimentare una macchina confezionatrice
US8194975B2 (en) * 2009-06-29 2012-06-05 Tandent Vision Science, Inc. Use of an intrinsic image in face recognition
US8233711B2 (en) 2009-11-18 2012-07-31 Nec Laboratories America, Inc. Locality-constrained linear coding systems and methods for image classification
US8447119B2 (en) 2010-03-16 2013-05-21 Nec Laboratories America, Inc. Method and system for image classification
US8437506B2 (en) * 2010-09-07 2013-05-07 Microsoft Corporation System for fast, probabilistic skeletal tracking
US8824797B2 (en) * 2011-10-03 2014-09-02 Xerox Corporation Graph-based segmentation integrating visible and NIR information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679351B2 (en) 2017-08-18 2020-06-09 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images

Also Published As

Publication number Publication date
US8897578B2 (en) 2014-11-25
US20140193074A1 (en) 2014-07-10
CN103189897A (zh) 2013-07-03
CN103189897B (zh) 2016-06-15
JPWO2013065220A1 (ja) 2015-04-02
WO2013065220A1 (ja) 2013-05-10

Similar Documents

Publication Publication Date Title
JP6050223B2 (ja) 画像認識装置、画像認識方法、及び集積回路
Wei et al. Toward automatic building footprint delineation from aerial images using CNN and regularization
US10706335B2 (en) Multi-perspective detection of objects
Sirmacek et al. Urban-area and building detection using SIFT keypoints and graph theory
CN108122239B (zh) 使用深度分割的图像数据中的对象检测
US8675974B2 (en) Image processing apparatus and image processing method
Lucchi et al. A fully automated approach to segmentation of irregularly shaped cellular structures in EM images
KR101896357B1 (ko) 객체를 검출하는 방법, 디바이스 및 프로그램
KR101932009B1 (ko) 다중 객체 검출을 위한 영상 처리 장치 및 방법
TW201926140A (zh) 影像標註方法、電子裝置及非暫態電腦可讀取儲存媒體
US20170011523A1 (en) Image processing apparatus, image processing method, and storage medium
US9330336B2 (en) Systems, methods, and media for on-line boosting of a classifier
KR20090131626A (ko) 영상 데이터내의 특정 클래스의 오브젝트를 세그멘테이션하기 위한 시스템 및 방법
Ward et al. RGB-D image-based object detection: from traditional methods to deep learning techniques
Soares et al. Efficient segmentation of leaves in semi-controlled conditions
Tang et al. Robust tracking with discriminative ranking lists
Li et al. Multi-view vehicle detection based on fusion part model with active learning
JP2017102622A (ja) 画像処理装置、画像処理方法及びプログラム
Juang et al. Stereo-camera-based object detection using fuzzy color histograms and a fuzzy classifier with depth and shape estimations
CN112712066B (zh) 图像识别方法、装置、计算机设备和存储介质
Yasmeen et al. Text detection and classification from low quality natural images
Ivanovici et al. Color image segmentation
Byeon et al. Supervised texture segmentation using 2D LSTM networks
Manno-Kovacs Content based image retrieval using salient orientation histograms
Gawande et al. Scale invariant mask r-cnn for pedestrian detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161124

R150 Certificate of patent or registration of utility model

Ref document number: 6050223

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250