JP3680658B2 - Image recognition method and image recognition apparatus - Google Patents
Image recognition method and image recognition apparatus Download PDFInfo
- Publication number
- JP3680658B2 JP3680658B2 JP27870899A JP27870899A JP3680658B2 JP 3680658 B2 JP3680658 B2 JP 3680658B2 JP 27870899 A JP27870899 A JP 27870899A JP 27870899 A JP27870899 A JP 27870899A JP 3680658 B2 JP3680658 B2 JP 3680658B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- image
- input
- local
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Length Measuring Devices By Optical Means (AREA)
- Image Analysis (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、入力画像が、予め作成済の学習画像データベース中のどの画像と近いかを判定することにより、入力画像上に表示されている物体が何であるかを認識する画像認識方法及び画像認識装置並びに画像認識プログラムを記録した記録媒体に関するものである。
【0002】
【従来の技術】
従来の画像認識装置は、特開平9−21610号公報に記載されたものが知られている。
【0003】
図16は、従来の画像認識装置のブロック構成図を示しており、画像を入力する画像入力手段11と、抽出対象物の局所モデルを予め格納しているモデル記憶手段12と、入力画像の各手段分画像について各局所モデルとのマッチングを行うマッチング処理手段13と、入力画像の各手段分画像がどの程度局所モデルに一致しているかによって画像の位置情報も含めたパラメータ空間で抽出対象物の位置を確率的に表示し統合する局所情報統合手段14と、パラメータ空間内で最も確立の高い手段分を抽出して入力画像内での抽出対象物の位置を判別して出力する物体位置決定手段15から構成されている。
【0004】
【発明が解決しようとする課題】
このような従来の画像認識装置は、異なるモデル間で類似した局所モデルが多くなればなるほど認識が困難になるという課題を有していた。
【0005】
本発明は、上記従来の課題を解決するもので、異なるモデル間で類似した局所モデルが多数ある場合にも入力画像中の対象を検出し、その位置と対象物体の種類を高精度に推定することを目的とする。
【0006】
【課題を解決するための手段】
この課題を解決するために本発明は、予め学習画像を登録した学習画像データベースから学習画像を局所領域に分割した各学習局所領域の中から類似する学習局所領域をグループ化し、その各グループを代表する学習局所領域である代表学習局所領域とそのグループに属する全ての学習局所領域の座標を登録した同種ウィンドウ情報データベースと、
入力した画像を局所領域に分割する画像分割手段と、前記各入力局所領域それぞれに対して、前記同種ウィンドウ情報データベースから類似する代表学習局所領域を抽出して、その代表学習局所領域が属するグループの各学習局所領域と入力局所領域とを対応づける類似ウィンドウ抽出手段と、前記各入力局所領域の座標と対応づけされたグループに含まれる学習局所領域の座標から入力画像中の対象物体の位置を推定する対象位置推定手段と、前記推定位置が一致する入力局所領域と学習局所領域の数を集計値として求め、前記集計値が一定値以上である場合に対象があると判断する対象判定手段とを備えたものである。
【0007】
これにより、本発明は、類似した学習局所領域を1つのグループにまとめ各グループの代表の学習局所領域と各入力局所領域とを画素値に基づいて対応づけることにより、学習画像間で類似ウィンドウが多数ある場合にも、対応づけが早くでき、入力画像中の各局所領域がそれぞれ異なる学習画像の異なる物体の局所領域と一致するような場合にも入力画像中の物体とその位置を高精度に推定することができる。
【0009】
【発明の実施の形態】
本発明の請求項1に記載の発明は、予め学習画像を登録した学習画像データベースから学習画像を局所領域に分割した各学習局所領域の中から類似する学習局所領域をグループ化し、その各グループを代表する学習局所領域である代表学習局所領域とそのグループに属する全ての学習局所領域の座標を登録した同種ウィンドウ情報データベースと、
入力した画像を局所領域に分割し、各入力局所領域それぞれに対して、前記同種ウィンドウ情報データベースから類似する代表学習局所領域を抽出して、その代表学習局所領域が属するグループの各学習局所領域と入力局所領域とを対応づけ、前記各入力局所領域の座標と対応づけされたグループに含まれる学習局所領域の座標から入力画像中の対象物体の位置を推定して、前記推定位置が一致する入力局所領域と学習局所領域の数を集計値として求め、前記集計値が一定値以上である場合に対象があると判断するもので、類似した学習局所領域を1つのグループにまとめ、各グループの代表の学習局所領域と各入力局所領域とを画素値に基づいて対応づけることにより、学習画像間で類似ウィンドウが多数ある場合にも、対応づけが早くでき、入力画像中の物体の各局所領域がそれぞれ異なる学習画像の異なる物体の局所領域と一致するような場合にも入力画像中の物体とその位置を高精度に推定するという作用を有する。
【0012】
請求項2に記載の発明は、請求項1記載の画像認識方法において、入力局所領域と代表学習局所領域との対応づけは、各画素値の差の二乗の和または各画素値の差の絶対値の累積値を算出して、最も差の小さいものを抽出するもので、入力局所領域と学習局所領域との対応付けが高精度にできるという作用を有する。
【0014】
請求項3に記載の発明は、予め学習画像を登録した学習画像データベースから学習画像を局所領域に分割した各学習局所領域の中から類似する学習局所領域をグループ化し、その各グループを代表する学習局所領域である代表学習局所領域とそのグループに属する全ての学習局所領域の座標を登録した同種ウィンドウ情報データベースと、
入力した画像を局所領域に分割する画像分割手段と、前記各入力局所領域それぞれに対して、前記同種ウィンドウ情報データベースから類似する代表学習局所領域を抽出して、その代表学習局所領域が属するグループの各学習局所領域と入力局所領域とを対応づける類似ウィンドウ抽出手段と、前記各入力局所領域の座標と対応づけされたグループに含まれる学習局所領域の座標から入力画像中の対象物体の位置を推定する対象位置推定手段と、前記推定位置が一致する入力局所領域と学習局所領域の数を集計値として求め、前記集計値が一定値以上である場合に対象があると判断する対象判定手段とを備えるもので、類似した各グループの代表の学習局所領域と各入力局所領域とを画素値で対応づけることにより、学習画像間で類似ウィンドウが多数ある場合にも、対応づけが早くでき、入力画像中の物体の各局所領域がそれぞれ異なる学習画像の異なる物体の局所領域と一致するような場合にも入力画像中の物体とその位置を高精度に推定するという作用を有する。
【0018】
以下、本発明の実施の形態について、図1から図16を用いて説明する。
【0019】
(実施の形態1)
図1は、本発明の実施の形態1における画像認識装置のブロック構成図を示している。図1において、1は認識したい対象物の画像データを入力する画像入力手段、2は画像入力手段1で入力した画像を局所ウィンドウに分割して出力する画像分割手段、3は画像分割手段2で分割した各入力ウィンドウに対して類似する学習ウィンドウをデータベースから抽出して、対応する入力ウィンドウと共に出力する類似ウィンドウ抽出手段、4は認識したい物体のモデルを予め作成しておく学習手段、41は認識したい種々の物体のモデル画像である学習画像を、画像分割手段2で作成する局所ウィンドウと同じサイズに分割して学習ウィンドウとして格納している学習画像データベース、5は類似ウィンドウ抽出手段3で抽出した学習ウィンドウの学習画像上での位置と、それに対応する入力ウィンドウの入力画像上での位置から、対象の入力画像中の位置を算出する対象位置推定手段、6は対象位置推定手段5から入力した各入力ウインドウと学習ウィンドウの推定位置のうち一致するものの数を集計する集計手段、7は集計手段6の集計結果を受けて入力画像中の対象物の有無と対象物の位置を決定する対象決定手段である。
【0020】
また、図2はコンピュータにより画像認識装置を実現した場合のブロック構成図であり、201はコンピュータ、202はCPU、203はメモリ、204はキーボード及びディスプレイ、205は画像認識プログラムを読み込むためのFD、PD、MOなどの蓄積媒体ユニット、206〜208はI/Fユニット、209はCPUバス、210は画像を取り込むためのカメラ、211は予め蓄積されている画像を取り込むための画像データベース、212は種々の物体のモデル画像である学習画像を局所ウィンドウに分割して学習ウィンドウとして格納している学習画像データベース、213は得られた物体の種類と位置をI/Fユニットを介して出力する出力端子で構成されている。
【0021】
以上のように構成された画像認識装置について、以下その動作を図3のフローチャートを用いて説明する。図4は、入力画像の一例、図5は、学習画像の例、図6は、類似ウィンドウ抽出手段3が出力するデータの一例、図7は、集計手段6が出力する集計結果の一例である。
【0022】
なお、学習画像データベース41(学習画像データベース212)には、予め、認識したい対象の種々の画像が、図5に示すように、学習ウインドウ画像データとして入力ウィンドウと同じサイズのウィンドウに区切られ、学習画像とウィンドウの中心点の位置座標とともに格納されている。ここで、図5は、学習画像1、2で示した向き・大きさのセダンを認識するための学習ウインドウの例である。
【0023】
認識対象となる画像データを画像入力手段1(カメラ210または画像データベース211)から入力する(ステップ301)。画像分割手段2は、図4に示すように、その画像から一定サイズの局所ウィンドウを任意画素移動させて順次抽出し、各入力ウィンドウをウィンドウの中心点の座標とともに出力する(ステップ302)。
【0024】
類似ウィンドウ抽出手段3は、画像分割手段2から入力された入力ウィンドウと、学習画像データベース41(学習画像データベース212)に蓄積されている全ての学習ウィンドウとの差(例えば、各画素値の差の二乗の和または各画素値の差の絶対値の累積値)を算出して、最も差の小さいものを抽出する。類似ウィンドウ抽出手段3は、全ての入力ウィンドウに対してそれぞれ最も類似した学習ウィンドウを学習画像データベース41から抽出すると、図6に示すように、学習ウィンドウの中心座標と、対応する入力ウィンドウの中心座標の対で出力する(ステップ303)。
【0025】
対象位置推定手段5は、一組の入力ウィンドウと学習ウィンドウの座標を入力すると(ステップ304)、入力画像中の物体の位置(例えば、物体に外接する矩形の左上隅座標すなわち、図5で示した学習画像の原点)を算出し出力する(ステップ305)。図6に示すような、任意の入力ウィンドウの座標(α,β)と学習ウィンドウの座標(γ,θ)を入力すると、対象位置推定手段5は物体の位置として(α-γ,β-θ)を出力する。
【0026】
集計手段6は、ステップ305で算出された座標(α-γ,β-θ)を入力すると、その座標への得点として1点加算する(ステップ306)。全ての対応する入力ィンドウと学習ウィンドウの組について、ステップ304からステップ306までの処理が終了したら(ステップ307)、集計手段6は図7に示すような位置座標と得点からなる集計データを出力する。
【0027】
対象画像判定手段7は、座標ごとの得点のうち一定値Tより大きいものがあるか否かを判定し(ステップ309)、ある場合は入力画像中に対象物体が存在すると判断し、T以上の得点を持つ物体の位置座標を出力する(ステップ310)。また、一定値T以上の得点のものが無ければ、入力画像中に対象物体は存在しないと判断する(ステップ311)。
【0028】
なお、得られた物体の位置座標は、I/Fユニット208を介して出力端子213から出力される(ステップ312)。
【0029】
(実施の形態2)
図8は、本発明の実施の形態2における画像認識装置のブロック構成図を示す。図8において、1は認識したい対象物の画像データを入力する画像入力手段、2は画像入力手段1で入力した画像を局所ウィンドウに分割して出力する画像分割手段、3は画像分割手段2で分割した各入力ウィンドウに対して類似する学習ウィンドウをデータベースから抽出して、対応する入力ウィンドウと共に出力する類似ウィンドウ抽出手段、4は認識したい物体のモデルを予め作成しておく学習手段、41は種々の物体のモデル画像である学習画像を、画像分割手段2で作成する局所ウィンドウと同じサイズに分割して学習ウィンドウとして格納している学習画像データベース、42は学習画像データベースに格納されている学習ウィンドウの中から相互に類似する学習ウィンドウをグループ化し、その各グループの代表学習ウィンドウの画像データとそのグループに登録されている他の全ての学習ウィンドウの座標を出力し、また類似するウィンドウが無い学習ウィンドウはその画像データと座標を出力する類似ウィンドウ統合部、43は類似ウィンドウ統合部42から入力した各グループの代表学習ウィンドウの画像データとその座標データを格納している同種ウィンドウ情報データベース、5は類似ウィンドウ抽出手段3で抽出した学習ウィンドウの学習画像上での位置と、それに対応する入力ウィンドウの入力画像上での位置から、対象の入力画像中の位置を算出する対象位置推定手段、6は対象位置推定手段5から入力した各入力ウインドウと学習ウィンドウの推定位置のうち一致するものの数を集計する集計手段、7は集計手段6の集計結果を受けて入力画像中の対象物の有無と対象物の位置を決定する対象決定手段である。
【0030】
以上のように構成された画像認識装置について、以下その動作を図9に示すフローチャートを用いて説明する。
【0031】
図4は入力画像の一例、図5は学習画像の一例、図10は学習画像データベース41に格納されている類似ウィンドウの一例、図11は同種ウィンドウ情報データベース43に格納されている同種ウィンドウ情報の一例、図12は類似ウィンドウ抽出手段3が出力するデータの一例、図13は集計手段6が出力する集計結果の一例である。
【0032】
なお、学習画像データベース41は、予め、種々の物体の画像が、図5に示すように、入力ウィンドウと同じサイズのウィンドウに区切られ、ウィンドウ番号とウィンドウの中心点の位置座標とともに格納されている。ここで、図5は、学習画像1、2で示した向き・大きさのセダンを認識するための学習ウインドウの例である。また、同種ウィンドウ情報データベース43には、図10に示すような類似ウィンドウの各グループを代表学習ウィンドウとしてその画像データと、そのグループに登録された全ての学習ウィンドウの座標が、類似ウィンドウ統合部42で学習画像データベース41から抽出され、図11のように格納されている。
【0033】
認識対象となる画像データが画像入力手段1から入力する(ステップ901)。画像分割手段2は、図4に示すように、その画像から一定サイズの局所ウィンドウを順次抽出して、各入力ウィンドウとその中心点の座標とともに出力する(ステップ902)。
【0034】
類似ウィンドウ抽出手段3は、画像分割手段2から入力された各入力ウィンドウと、同種ウィンドウ情報データベース43の全てグループの代表学習ウィンドウとの差(例えば、各画素値の差の二乗の和または各画素値の差の絶対値の累積値)を算出して、最も差の小さいグループを抽出する。類似ウィンドウ抽出手段3は、全ての入力ウィンドウに対してそれぞれ最も類似したグループの学習ウィンドウを抽出することにより、そのグループに登録されている学習ウィンドウも類似(対応)していると見なしその座標を同種ウィンドウ情報データベース43から抽出し、図12に示すように、入力ウィンドウの中心座標と、対応する学習ウィンドウの中心座標と、学習ウィンドウが属する車種の対で出力する(ステップ903)。
【0035】
対象位置推定手段5は、一組の入力ウィンドウと学習ウィンドウの座標を入力すると(ステップ904)、入力画像中の物体の位置、例えば、物体に外接する矩形の左上隅座標、すなわち、図5で示した学習画像の原点、を算出し車種情報と共に出力する(ステップ905)。図12に示すような、任意の入力ウィンドウ座標(α,β)と学習ウィンドウ座標(γ,θ)を入力すると、対象位置推定手段5は、入力画像中の物体の位置として座標(α-γ,β-θ)を出力する。
【0036】
集計手段6は、ステップ905で算出された入力画像中の物体の座標(α-γ,β-θ)と車種情報を入力すると、その座標・車種への得点として1点加算する(ステップ906)。
【0037】
全ての対応する入力ウインドウと学習ウィンドウについて、ステップ904からステップ906までの処理が終了したかを判断し(ステップ907)、終了した場合は集計手段6から対象画像決定手段7へ、図12に示すような位置座標・得点・車種別得点の組を出力する。
【0038】
対象判定手段7は、座標の得点のうち一定値Tより大きいものがあるかどうかを判断し(ステップ909)、入力画像中に対象物体が存在する場合はT以上の得点を持つ位置座標とその座標の得点の中で最も高得点の車種を出力する(ステップ910)。また、一定値T以上の得点のものが無ければ、入力画像中に対象物体は存在しないと判断する(ステップ911)。
【0039】
なお、得られた物体の位置座標と車種は、I/Fユニット208を介して出力端子213から出力される(ステップ912)。
【0040】
(実施の形態3)
図14は本発明の実施の形態3における画像認識装置のブロック構成図を示す。図14において、1は認識したい対象物の画像データを入力する画像入力手段、2は画像入力手段1で入力した画像を局所ウィンドウに分割して出力する画像分割手段、3は画像分割手段2で分割した各入力ウィンドウに対して類似する学習ウィンドウを各種類の学習データベースからそれぞれ一つ抽出して対応する入力ウィンドウと共に出力する類似ウィンドウ抽出手段、4は認識したい物体のモデルを予め認識したい種類ごとに分類して作成しておく学習手段、41、42…は認識したい種々の物体のモデル画像である学習画像を、画像分割手段2で作成する局所ウィンドウと同じサイズに分割して学習ウィンドウとして認識したい種類ごとに格納している種類別学習画像データベース、5は類似ウィンドウ抽出手段3で抽出した各種類の学習ウィンドウの学習画像上での位置と、それに対応する入力ウィンドウの入力画像上での位置から、対象の入力画像中の位置を算出する対象位置推定手段、6は対象位置推定手段5から入力した各種類の入力ウインドウと学習ウィンドウの推定位置のうち一致するものの数を集計する集計手段、7は集計手段6の各種類別の集計結果を受けて入力画像中の対象物の有無と対象物の位置を決定する対象決定手段である。
【0041】
以上のように構成された画像認識装置について、以下その動作を図15のフローチャートを用いて説明する。図4は入力画像の一例、図5は種類1学習画像の一例、図6は類似ウィンドウ抽出手段3が出力するデータの一例、図16は種類2学習画像の一例である。
【0042】
なお、学習手段4の各種類の学習画像データベースには、予め、認識したい種類の対象の画像が、図5に示すように、入力ウィンドウ画像と同じサイズのウィンドウに区切られ、ウィンドウ番号とウィンドウの中心点の位置座標とともに格納されている。ここで、図5は、種類1学習データベースに格納されている学習画像で、学習画像1,2で示した向き・大きさのセダンを認識するための学習画像の例である。また、図16は、種類2学習データベースに格納されている、図5と同じ位置・同じ向きのバスを認識するための学習画像の例である。
【0043】
認識対象となる画像データを画像入力手段1から入力する(ステップ1501)。画像分割手段2は、図4に示すように、その画像から一定サイズの局所ウィンドウを任意画素移動させて順次抽出し、各入力ウィンドウをウィンドウの中心点の座標とともに出力する(ステップ1502)。
【0044】
類似ウィンドウ抽出手段3は、画像分割手段2から入力ウィンドウを入力すると、学習手段4の全ての学習データベースの学習ウィンドウとの差(例えば、各画素値の差の二乗の和または各画素値の差の絶対値の累積値)を算出して、各学習データベースごとに最も差の小さいものを抽出する。類似ウィンドウ抽出手段3は、全ての入力ウィンドウに対してそれぞれ最も類似した学習ウィンドウを学習手段4から抽出すると、各種類ごとに、図6に示すような学習ウィンドウの中心座標と、それに対応する入力ウィンドウの中心座標の対で出力する(ステップ1503)。
【0045】
対象位置推定手段5は、種類ごとに、一組の入力ウィンドウと学習ウィンドウの座標を入力すると(ステップ1504)、入力画像中の物体の位置、例えば、物体に外接する矩形の左上隅座標、すなわち、図5で示した学習画像の原点、を算出し出力する(ステップ1505)。図6に示すような、任意の入力ウィンドウ座標(α,β)と学習ウィンドウ座標(γ,θ)を入力すると、対象位置推定手段5は、物体の位置として(α-γ,β-θ)を出力する。
【0046】
集計手段6は、ステップ1505で算出された座標(α-γ,β-θ)を入力すると、種類別にその座標への得点として1点加算する(ステップ1506)。
【0047】
ある種類の全ての対応する入力ウインドウと学習ウィンドウについてステップ1504からステップ1506までの処理が終了したかを判断し(ステップ1507)、次の種類についてステップ1504からステップ1506までの処理を行い、全ての種類の全ての入力ウインドウと学習ウィンドウについてステップ1504からステップ1506までの処理が終了したら、集計手段6は対象画像決定手段7へ、各種類ごとに図7に示すような位置座標と得点の組を出力する(ステップ1508)。
【0048】
対象判定手段7は、座標ごとの得点のうち一定値Tより大きいものがあるかを判断し(ステップ1509)、入力画像中にその種類の物体が存在すると判断した場合は、さらに、同じ座標の得点で一定値T以上のものが複数あれば、そのうち最高得点をもつ種類の物体が入力画像中に存在すると判断し、その物体の種類と位置座標を出力する(ステップ1510)。また、一定値T以上の得点のものが無ければ、入力画像中に対象物体は存在しないと判断する(ステップ1511)。
【0049】
なお、得られた物体の位置座標と車種は、I/Fユニット208を介して出力端子213から出力される(ステップ1512)。
【0050】
【発明の効果】
以上のように本発明によれば、各学習画像間で類似した局所ウィンドウが多数ある場合にも、入力画像中の対象の有無や対象の種類を認識でき、かつ、対象の入力画像中の位置を高精度に推定することができる。
【図面の簡単な説明】
【図1】本発明の実施の形態1における画像認識装置のブロック構成図
【図2】本発明の実施の形態1におけるコンピュータによる画像認識装置のブロック構成図
【図3】本発明の実施の形態1における処理の流れを示すフローチャート
【図4】本発明の実施の形態1における入力画像の一例を示す図
【図5】本発明の実施の形態1における学習画像データベースが保管している学習画像データの一例を示す図
【図6】本発明の実施の形態1における類似ウィンドウ抽出手段が出力する入力ウィンドウと学習ウィンドウの対応の一例を示す図
【図7】集計手段が出力する集計の一例を示す図
【図8】本発明の実施の形態2における画像認識装置のブロック構成図
【図9】本発明の実施の形態2における処理の流れを示すフローチャート
【図10】本発明の実施の形態2における画像データベース中の同種画像の一例を示す図
【図11】本発明の実施の形態2における同種ウィンドウ情報データベースが保管している同種ウィンドウ情報の一例を示す図
【図12】本発明の実施の形態2における類似ウィンドウ抽出手段が出力する入力ウィンドウと学習ウィンドウの対応の一例を示す図
【図13】本発明の実施の形態2における集計手段が出力する集計の一例を示す図
【図14】本発明の実施の形態3における画像認識装置のブロック構成図
【図15】本発明の実施の形態3における処理の流れを示すフローチャート
【図16】本発明の実施の形態3における種類Xの学習画像データベースが保管している学習画像データの一例を示す図
【図17】従来の画像認識装置の一例を示すブロック図
【符号の説明】
1 画像入力手段
2 画像分割手段
3 類似ウインドウ抽出手段
4 学習手段
5 対象位置推定手段
6 集計手段
7 対象判定手段
41 学習画像データベース
42 類似ウインドウ統合部
43 同種ウインドウ情報データベース
201 コンピュータ
202 CPU
203 メモリ
204 キーボード/ディスプレイ
205 蓄積媒体ユニット
206〜208 I/Fユニット
209 CPUバス
210 カメラ
211 画像データベース
212 学習画像データベース
213 出力端子[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an image recognition method and an image recognition method for recognizing what an object displayed on an input image is by determining which image in the learning image database created in advance is closer to the input image. The present invention relates to an apparatus and a recording medium on which an image recognition program is recorded.
[0002]
[Prior art]
As a conventional image recognition apparatus, one described in Japanese Patent Application Laid-Open No. 9-21610 is known.
[0003]
FIG. 16 is a block diagram of a conventional image recognition apparatus. The image input unit 11 inputs an image, the
[0004]
[Problems to be solved by the invention]
Such a conventional image recognition apparatus has a problem that recognition becomes more difficult as the number of similar local models between different models increases.
[0005]
The present invention solves the above-described conventional problem, and detects a target in an input image even when there are many similar local models between different models, and estimates the position and the type of the target object with high accuracy. For the purpose.
[0006]
[Means for Solving the Problems]
In order to solve this problem, the present invention groups similar learning local regions from learning local regions obtained by dividing a learning image into local regions from a learning image database in which learning images are registered in advance, and represents each group. The same kind of window information database in which the coordinates of all the learning local regions belonging to the group and the representative learning local region that is the learning local region to be registered,
An image dividing means for dividing the input image into local regions, and for each of the input local regions, a similar representative learning local region is extracted from the homogeneous window information database, and the group of the representative learning local region belongs to Similar window extraction means for associating each learning local area with the input local area, and estimating the position of the target object in the input image from the coordinates of the learning local area included in the group associated with the coordinates of each input local area Target position estimating means for determining the number of input local areas and learning local areas where the estimated positions coincide with each other as a total value, and target determination means for determining that there is a target when the total value is equal to or greater than a certain value. It is provided.
[0007]
Thus, the present invention collects similar learning local areas into one group and associates the representative learning local area of each group with each input local area based on the pixel value, so that a similar window is created between the learning images. Even when there are a large number, the correspondence can be made quickly, and even when each local region in the input image matches the local region of a different object in a different learning image, the object and its position in the input image can be accurately Can be estimated .
[0009]
DETAILED DESCRIPTION OF THE INVENTION
The invention according to
The input image is divided into local regions, and for each input local region, a similar representative learning local region is extracted from the homogeneous window information database, and each learning local region of the group to which the representative learning local region belongs An input corresponding to the input local area, the position of the target object in the input image is estimated from the coordinates of the learning local area included in the group associated with the coordinates of each input local area, and the estimated positions match calculated by determining the number of local regions and learning the local region as an aggregate value, in which the aggregate value to determine that there is a target is equal to or greater than a predetermined value, grouping similar learning local region into one group, the representative of each group by characterizing the corresponding based learning and local area and each of the input local region to the pixel value, when there similar window number among the learning images also, early association Has the effect of estimating an object and its position also in the input image when such that each local region matches the local area of the different objects of different training images of the object in the input image with high accuracy.
[0012]
Invention according to claim 2, in the image recognition method of
[0014]
According to the third aspect of the present invention, similar learning local regions are grouped from learning local regions obtained by dividing a learning image into local regions from a learning image database in which learning images are registered in advance, and learning representing each group is performed. The same kind of window information database in which the coordinates of the representative learning local region that is the local region and the coordinates of all the learning local regions belonging to the group are registered,
An image dividing means for dividing the input image into local regions, and for each of the input local regions, a similar representative learning local region is extracted from the homogeneous window information database, and the group of the representative learning local region belongs to Similar window extraction means for associating each learning local area with the input local area, and estimating the position of the target object in the input image from the coordinates of the learning local area included in the group associated with the coordinates of each input local area Target position estimating means for determining the number of input local areas and learning local areas where the estimated positions coincide with each other as a total value, and target determination means for determining that there is a target when the total value is equal to or greater than a certain value. as it has, by associating the learning local region of a representative of each group was similar to the input local region pixel value, similar Wynn among learning image C even if there are many, can quickly correspondence, the object and its position also in the input image when such that each local region matches the local area of the different objects of different training images of the object in the input image It has the effect | action that it estimates with high precision.
[0018]
Hereinafter, embodiments of the present invention will be described with reference to FIGS.
[0019]
(Embodiment 1)
FIG. 1 shows a block diagram of an image recognition apparatus according to
[0020]
FIG. 2 is a block diagram when the image recognition apparatus is realized by a computer. 201 is a computer, 202 is a CPU, 203 is a memory, 204 is a keyboard and display, 205 is an FD for reading an image recognition program, Storage medium units such as PD and MO, 206 to 208 are I / F units, 209 is a CPU bus, 210 is a camera for capturing images, 211 is an image database for capturing prestored images, and 212 is various A learning image database in which a learning image that is a model image of the object is divided into local windows and stored as a learning window, 213 is an output terminal that outputs the type and position of the obtained object via the I / F unit It is configured.
[0021]
The operation of the image recognition apparatus configured as described above will be described below with reference to the flowchart of FIG. 4 is an example of an input image, FIG. 5 is an example of a learning image, FIG. 6 is an example of data output by the similar window extraction unit 3, and FIG. 7 is an example of an aggregation result output by the aggregation unit 6. .
[0022]
In the learning image database 41 (learning image database 212), various images to be recognized are divided into windows having the same size as the input window as learning window image data, as shown in FIG. Stored together with the image and the coordinates of the center point of the window. Here, FIG. 5 is an example of a learning window for recognizing the orientation / size sedan shown by the
[0023]
Image data to be recognized is input from the image input means 1 (
[0024]
The similar window extraction unit 3 includes differences between the input window input from the image division unit 2 and all learning windows stored in the learning image database 41 (learning image database 212) (for example, differences in pixel values). The sum of squares or the cumulative value of the absolute values of the differences between the pixel values is calculated, and the one with the smallest difference is extracted. When the similar window extracting unit 3 extracts the learning window most similar to all the input windows from the
[0025]
When the target position estimation means 5 inputs the coordinates of a pair of input window and learning window (step 304), the position of the object in the input image (for example, the upper left corner coordinates of a rectangle circumscribing the object, ie, shown in FIG. 5). The learning image origin) is calculated and output (step 305). When the coordinates (α, β) of the arbitrary input window and the coordinates (γ, θ) of the learning window as shown in FIG. 6 are input, the target position estimation means 5 sets (α-γ, β-θ as the position of the object. ) Is output.
[0026]
The counting means 6 receives the coordinates (α−γ, β−θ) calculated in
[0027]
The target image determination means 7 determines whether or not there is a score for each coordinate greater than a certain value T (step 309). If there is, the target image determination means 7 determines that the target object is present in the input image, and is equal to or greater than T. The position coordinates of the object having the score are output (step 310). If there is no score of a certain value T or more, it is determined that the target object does not exist in the input image (step 311).
[0028]
The obtained position coordinates of the object are output from the
[0029]
(Embodiment 2)
FIG. 8 is a block diagram of an image recognition apparatus according to Embodiment 2 of the present invention. In FIG. 8, 1 is an image input means for inputting image data of an object to be recognized, 2 is an image dividing means for dividing an image inputted by the image input means 1 into local windows, and 3 is an image dividing means 2. Similar window extraction means for extracting a learning window similar to each divided input window from the database and outputting it together with the corresponding input window, 4 is a learning means for creating a model of an object to be recognized in advance, 41 is various A learning image database that stores a learning image that is a model image of the object in the same size as a local window created by the image dividing means 2 and stores it as a learning window, and 42 indicates a learning window stored in the learning image database The learning windows that are similar to each other are grouped, and the representative learning window of each group Image data and coordinates of all other learning windows registered in the group are output, and a learning window having no similar window outputs the image data and coordinates, and 43 is a similar window integration. The same kind of window information database storing the image data of the representative learning window of each group and the coordinate data inputted from the
[0030]
The operation of the image recognition apparatus configured as described above will be described below with reference to the flowchart shown in FIG.
[0031]
4 is an example of an input image, FIG. 5 is an example of a learning image, FIG. 10 is an example of a similar window stored in the
[0032]
In the
[0033]
Image data to be recognized is input from the image input means 1 (step 901). As shown in FIG. 4, the image dividing means 2 sequentially extracts local windows of a certain size from the image, and outputs them together with the coordinates of each input window and its center point (step 902).
[0034]
The similar window extracting unit 3 calculates the difference between each input window input from the image dividing unit 2 and the representative learning windows of all groups in the same type window information database 43 (for example, the sum of the squares of the difference between the pixel values or each pixel). (A cumulative value of absolute values of the difference of values) is calculated, and the group having the smallest difference is extracted. The similar window extracting means 3 extracts the learning window of the most similar group for all the input windows, thereby considering that the learning windows registered in the group are similar (corresponding) and the coordinates thereof. Extracted from the same-type
[0035]
When the target position estimation means 5 inputs the coordinates of a pair of input window and learning window (step 904), the position of the object in the input image, for example, the upper left corner coordinates of the rectangle circumscribing the object, that is, in FIG. The origin of the learning image shown is calculated and output together with the vehicle type information (step 905). When arbitrary input window coordinates (α, β) and learning window coordinates (γ, θ) as shown in FIG. 12 are input, the target position estimating means 5 uses coordinates (α−γ) as the position of the object in the input image. , β-θ).
[0036]
When the counting means 6 inputs the coordinates (α-γ, β-θ) of the object in the input image calculated in
[0037]
For all the corresponding input windows and learning windows, it is determined whether the processing from
[0038]
The target determination means 7 determines whether there is a coordinate score that is greater than a certain value T (step 909). If the target object is present in the input image, the position coordinate having a score of T or more and its coordinates The vehicle model with the highest score among the coordinate scores is output (step 910). If there is no score of a certain value T or more, it is determined that there is no target object in the input image (step 911).
[0039]
The obtained object position coordinates and vehicle type are output from the
[0040]
(Embodiment 3)
FIG. 14 is a block diagram of an image recognition apparatus according to Embodiment 3 of the present invention. In FIG. 14, 1 is an image input means for inputting image data of an object to be recognized, 2 is an image dividing means for dividing an image input by the image input means 1 into local windows, and 3 is an image dividing means 2. Similar window extraction means for extracting one similar learning window for each divided input window from each type of learning database and outputting it together with the corresponding input window, 4 for each type for which an object model to be recognized is to be recognized in advance The learning means 41, 42,..., Which are classified and created, are divided into the same size as the local window created by the image dividing means 2 and recognized as learning windows, which are model images of various objects to be recognized. The learning image database classified by type stored for each type desired, and 5 each type extracted by the similar window extraction means 3 Target position estimation means for calculating the position in the target input image from the position on the learning image of the learning window and the position on the input image of the corresponding input window, 6 is input from the target position estimation means 5 Aggregation means for aggregating the number of the matching positions of the input windows of each type and the learning window, and 7 indicates the presence or absence of the object in the input image and the position of the object in response to the aggregation result for each type of the aggregation means 6 Is an object determining means for determining.
[0041]
The operation of the image recognition apparatus configured as described above will be described below with reference to the flowchart of FIG. 4 is an example of an input image, FIG. 5 is an example of a
[0042]
In the learning image database of each type of learning means 4, the target image of the type to be recognized is divided in advance into windows having the same size as the input window image, as shown in FIG. Stored with the position coordinates of the center point. Here, FIG. 5 is an example of a learning image for recognizing the sedan having the orientation and size indicated by the
[0043]
Image data to be recognized is input from the image input means 1 (step 1501). As shown in FIG. 4, the image dividing means 2 sequentially extracts a local window of a certain size by moving arbitrary pixels from the image, and outputs each input window together with the coordinates of the center point of the window (step 1502).
[0044]
When the input window is input from the image dividing unit 2, the similar window extracting unit 3 receives a difference (for example, the sum of the squares of the differences between the pixel values or the difference between the pixel values) from all the learning databases of the learning unit 4. (The cumulative value of the absolute values) is calculated, and the one with the smallest difference is extracted for each learning database. When the similar window extracting unit 3 extracts the learning window most similar to all the input windows from the learning unit 4, for each type, the center coordinates of the learning window as shown in FIG. A window center coordinate pair is output (step 1503).
[0045]
When the target position estimation means 5 inputs the coordinates of a pair of input window and learning window for each type (step 1504), the position of the object in the input image, for example, the upper left corner coordinates of the rectangle circumscribing the object, that is, Then, the origin of the learning image shown in FIG. 5 is calculated and output (step 1505). When arbitrary input window coordinates (α, β) and learning window coordinates (γ, θ) as shown in FIG. 6 are input, the target position estimating means 5 sets (α-γ, β-θ) as the object position. Is output.
[0046]
The counting means 6 receives the coordinates (α−γ, β−θ) calculated in
[0047]
It is determined whether or not the processing from
[0048]
The object determination means 7 determines whether there is a score greater than a certain value T among the scores for each coordinate (step 1509), and if it is determined that an object of that type exists in the input image, the object determination means 7 further has the same coordinates. If there are a plurality of scores that are equal to or greater than the predetermined value T, it is determined that the type of object having the highest score is present in the input image, and the type and position coordinates of the object are output (step 1510). If there is no score of a certain value T or more, it is determined that there is no target object in the input image (step 1511).
[0049]
The obtained object position coordinates and vehicle type are output from the
[0050]
【The invention's effect】
As described above, according to the present invention, even when there are many similar local windows between learning images, the presence or absence of the target in the input image and the type of the target can be recognized, and the position in the target input image Can be estimated with high accuracy.
[Brief description of the drawings]
FIG. 1 is a block configuration diagram of an image recognition apparatus according to
DESCRIPTION OF
203
Claims (3)
入力した画像を局所領域に分割し、各入力局所領域それぞれに対して、前記同種ウィンドウ情報データベースから類似する代表学習局所領域を抽出して、その代表学習局所領域が属するグループの各学習局所領域と入力局所領域とを対応づけ、前記各入力局所領域の座標と対応づけされたグループに含まれる各学習局所領域の座標から入力画像中の対象物体の位置を各々推定して、前記推定位置が一致する入力局所領域と学習局所領域の数を集計値として求め、前記集計値が一定値以上である場合に対象があると判断することを特徴とする画像認識方法。 A learning local region is grouped from learning local regions obtained by dividing a learning image into local regions from a learning image database in which learning images are registered in advance, and a representative learning local region that is a learning local region representing each group A homogeneous window information database in which coordinates of all learning local regions belonging to the group are registered;
The input image is divided into local regions, and for each input local region, a similar representative learning local region is extracted from the homogeneous window information database, and each learning local region of the group to which the representative learning local region belongs correspondence with the input local region, said respectively estimate the position of the target object in the input image from the coordinates of each learning local regions included in the coordinates correspondence groups of each input local region, the estimated position is matched An image recognition method characterized in that the number of input local areas and learning local areas to be obtained is calculated as a total value, and it is determined that there is a target when the total value is a predetermined value or more.
入力した画像を局所領域に分割する画像分割手段と、前記各入力局所領域それぞれに対して、前記同種ウィンドウ情報データベースから類似する代表学習局所領域を抽出して、その代表学習局所領域が属するグループの各学習局所領域と入力局所領域とを対応づける類似ウィンドウ抽出手段と、前記各入力局所領域の座標と対応づけされたグループに含まれる学習局所領域の座標から入力画像中の対象物体の位置を推定する対象位置推定手段と、前記推定位置が一致する入力局所領域と学習局所領域の数を集計値として求め、前記集計値が一定値以上である場合に対象があると判断する対象判定手段とを備えることを特徴とする画像認識装置。 A learning local region is grouped from learning local regions obtained by dividing a learning image into local regions from a learning image database in which learning images are registered in advance, and a representative learning local region that is a learning local region representing each group A homogeneous window information database in which the coordinates and types of all learning local areas belonging to the group are registered,
An image dividing means for dividing the input image into local regions, and for each of the input local regions, a similar representative learning local region is extracted from the homogeneous window information database, and the group of the representative learning local region belongs to Similar window extraction means for associating each learning local area with the input local area, and estimating the position of the target object in the input image from the coordinates of the learning local area included in the group associated with the coordinates of each input local area Target position estimating means for determining the number of input local areas and learning local areas where the estimated positions coincide with each other as a total value, and target determination means for determining that there is a target when the total value is equal to or greater than a certain value. An image recognition apparatus comprising:
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27870899A JP3680658B2 (en) | 1999-09-30 | 1999-09-30 | Image recognition method and image recognition apparatus |
EP00121115A EP1089214A3 (en) | 1999-09-30 | 2000-09-28 | Apparatus and method for image recognition |
US09/676,680 US6999623B1 (en) | 1999-09-30 | 2000-09-29 | Apparatus and method for recognizing an object and determining its position and shape |
US10/677,866 US7054489B2 (en) | 1999-09-30 | 2003-10-02 | Apparatus and method for image recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27870899A JP3680658B2 (en) | 1999-09-30 | 1999-09-30 | Image recognition method and image recognition apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001101405A JP2001101405A (en) | 2001-04-13 |
JP3680658B2 true JP3680658B2 (en) | 2005-08-10 |
Family
ID=17601092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27870899A Expired - Fee Related JP3680658B2 (en) | 1999-09-30 | 1999-09-30 | Image recognition method and image recognition apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3680658B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1291668B1 (en) | 2001-09-07 | 2005-11-30 | Matsushita Electric Industrial Co., Ltd. | Vehicle surroundings display device and image providing system |
DE102012200731A1 (en) | 2012-01-19 | 2013-07-25 | Robert Bosch Gmbh | Method and device for visualizing the environment of a vehicle |
KR102203000B1 (en) * | 2014-03-06 | 2021-01-14 | 에스케이플래닛 주식회사 | Object identification apparatus, method thereof and computer readable medium having computer program recorded therefor |
KR102223684B1 (en) * | 2014-03-18 | 2021-03-04 | 에스케이플래닛 주식회사 | Object identification apparatus, method thereof and computer readable medium having computer program recorded therefor |
JP7097329B2 (en) * | 2018-11-27 | 2022-07-07 | 豪洋 石崎 | Information processing equipment and similar image search program |
CN112685080B (en) * | 2021-01-08 | 2023-08-11 | 深圳开源互联网安全技术有限公司 | Open source component duplicate checking method, system, device and readable storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3560670B2 (en) * | 1995-02-06 | 2004-09-02 | 富士通株式会社 | Adaptive recognition system |
JPH0921610A (en) * | 1995-07-04 | 1997-01-21 | N T T Data Tsushin Kk | Image-processing apparatus and image-processing method |
JP3603543B2 (en) * | 1997-06-06 | 2004-12-22 | 株式会社日立製作所 | Image displacement analysis method |
-
1999
- 1999-09-30 JP JP27870899A patent/JP3680658B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001101405A (en) | 2001-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111640089B (en) | Defect detection method and device based on feature map center point | |
JP5406705B2 (en) | Data correction apparatus and method | |
US20060029276A1 (en) | Object image detecting apparatus, face image detecting program and face image detecting method | |
JP4745207B2 (en) | Facial feature point detection apparatus and method | |
CN111104925B (en) | Image processing method, image processing apparatus, storage medium, and electronic device | |
CN109191488B (en) | Target tracking system and method based on CSK and TLD fusion algorithm | |
CN109886223B (en) | Face recognition method, bottom library input method and device and electronic equipment | |
CN112509011B (en) | Static commodity statistical method, terminal equipment and storage medium thereof | |
JP3680658B2 (en) | Image recognition method and image recognition apparatus | |
CN114359172A (en) | Cigarette carton multi-face detection and identification method and system under stock or display scene | |
CN112037198B (en) | Hot-rolled bar fixed support separation detection method, system, medium and terminal | |
CN113486715A (en) | Image reproduction identification method, intelligent terminal and computer storage medium | |
CN112329663A (en) | Micro-expression time detection method and device based on face image sequence | |
JP2002032766A (en) | Device and method for recognizing image | |
US20230005162A1 (en) | Image processing system, image processing method, and storage medium | |
CN113743382B (en) | Shelf display detection method, device and system | |
CN114863132A (en) | Method, system, equipment and storage medium for modeling and capturing image spatial domain information | |
CN114463835A (en) | Behavior recognition method, electronic device and computer-readable storage medium | |
CN112365324A (en) | Commodity picture detection method suitable for E-commerce platform | |
JPH11306354A (en) | Method and device for picture recognition | |
JPH1063842A (en) | Template matching method | |
JPH04241684A (en) | System for integrating and matching picture | |
JP3447751B2 (en) | Pattern recognition method | |
JP3708383B2 (en) | Pattern recognition method and pattern recognition apparatus | |
JP6984440B2 (en) | Image processing device, image processing method, and image processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20041025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041102 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050125 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050318 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050329 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050426 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050509 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090527 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100527 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |