JP6524475B2 - 画像認識に使用するウィンドウの配置や組合せを、構成情報に従って変化させることができる画像認識装置 - Google Patents
画像認識に使用するウィンドウの配置や組合せを、構成情報に従って変化させることができる画像認識装置 Download PDFInfo
- Publication number
- JP6524475B2 JP6524475B2 JP2015006711A JP2015006711A JP6524475B2 JP 6524475 B2 JP6524475 B2 JP 6524475B2 JP 2015006711 A JP2015006711 A JP 2015006711A JP 2015006711 A JP2015006711 A JP 2015006711A JP 6524475 B2 JP6524475 B2 JP 6524475B2
- Authority
- JP
- Japan
- Prior art keywords
- window
- image
- component
- cell
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
ここで学習データは、認識対象を表すか、表さないかを示す正負の符号が付された「符号付き特徴量」である。正の符号が付された特徴量は「正例」と呼ばれ、負の符号が付された特徴量は「負例」と呼ばれる。対照的に、部分領域から新たに抽出された特徴量は、かかる符号が存在しない「符号無し特徴量」である。更に、決定関数は、特徴量空間において、正例と、負例とを仕切る超分離平面に応じて決定された定数項、係数をもつ。画像認識では、部分領域から抽出された新たな特徴量、及び、学習データを決定関数に適用して決定関数による演算を実行する。そうすると、関数からの戻り値として正負の符号が返される。画像認識では、この正負の符号に従い、対象となる部分領域が、認識対象を表すか表さないかの結論を下す。
ウィンドウを小さくすると、認識対象を構成する構成要素と似通った絵柄が画像中に出現することで誤認識が発生する。その原因は以下の通りである。即ち、ウィンドウが小さいと、ウィンドウで囲まれる画素群から算出される特徴量の次元数が小さくなるので、認識対象を構成する構成要素について算出される特徴量と、似通った絵柄部分について算出される特徴量とが大体同じものになってしまう。例えば、人物像の顔の近辺に、円形の窓や人の肖像を写したポスターが存在する場合、これら窓やポスター部分から算出される特徴量は、人間の顔から算出される特徴量と同じような値になる。そうすると、これら窓やポスター部分を、人物像の顔として認識してしまうことが往々発生する。
出することになるから、これでは、計算効率の悪化を招く。
本発明の目的は、認識対象の一部と似通った絵柄が、画像中に存在したとしても、認識率の低下を招くことがない画像認識装置を提供することである。
ウィンドウスキャンにより各構成要素を包含した局所領域が複数発見された場合、基本となる構成要素を包含した局所領域と、補助的な構成要素を包含した局所領域との位置的関係に基づき、フレーム画像に認識対象が含まれているかどうかの判定を行う客体認識部とを備える。
Bag of Featureでは、画像からVisual Codeと呼ばれる特徴量を抽出し、Visual Vocabularyを学習する。Bag of Featureでは、様々な認識対象が複数の構成要素に分割されており、各構成要素についての特徴が、Visual Vocabularyに記載されている。この各構成要素について特徴を、Visual Wordという。
Bag of Featureでは、画像から抽出されたVisual Codeが、どのVisual Wordを表しているかをVisual Word毎に集計せねばならないから、相応の認識精度を維持するには、学習の過程で、多くのVisual Wordが記載されたVisual Vocabularyを取得せねばならない。つまり、Bag of Featureでは、多くの構成要素についてVisual Wordを生成して、画像から抽出されたVisual Codeと比較せねばならず、多くの構成要素を対象とした学習処理が必要になるという問題がある。
特許文献1(特開2008-97607号公報)は、入力イメージを表す特徴ベクトルを生成し、分類器の出力の組合せに基づいて、入力イメージを分類するイメージ自動分類方法を開示している。特許文献1に記載された分類装置は、K平均最近分類器160、162、164、バイナリ知覚リニア分類器166、BPNN分類器168という複数種別の識別器から構成され、複数種別の識別器が、複数種別の特徴量を基にイメージ分析を行う。
特許文献5のポーズパラメータの解析は、物体部分モデルが正しく抽出されることが前提になる。似通った絵柄の領域があると、その領域を物体部分モデルとして抽出して、ポーズパラメータを解析してしまい、現実にはありえない客体を認識してしまう可能性がある。本発明では、ウィンドウのスキャンを行うことで、複数構成要素のそれぞれを包含している複数の局所領域を検出して、複数局所領域の全体的な位置関係に応じて、認識結果を下すから、似通った絵柄の領域があったとしても、かかる絵柄を、認識対象の一部として認識することはない。
(システム構成)
本実施形態に係る画像認識装置は、基板ボード上に実装され、カメラ装置と接続されると共に、ホスト装置の内部に組込まれることで使用に供される。
カメラ装置1001は、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ、それに光学レンズを備え、予め定められたカメラ設定に従い、定期的に撮影を行い、撮影で得られたフレーム画像を出力する。
図1(b)は、画像認識装置1002と、カメラ装置1001、ホスト装置1003との入出力関係を示す。本図において、カメラ装置1001からの入力in1は、カメラ装置1001により撮影された複数のフレーム画像の入力である。ホスト装置1003からの入力in2は、ホスト装置上で動作するアプリケーションを介した構成情報の設定入力である。out1は、画像認識装置1002からホスト装置1003への出力であり、ここでは、認識結果が合成されたフレーム画像を示す。本実施形態におけるカメラ装置1001の撮影範囲は、信号機が存在する交差点であり、不特定多数の通行人が往来する。カメラ装置1001は、かかる往来を撮影し、動画像を出力する。
図3のfr1,2,3,4,5,6,7は、時間進行と共に、順次画像認識装置1002に入力されてくる複数のHDフレーム画像を示す。
HDフレーム画像fr1の内部に存在する破線枠は、HDフレーム画像を水平方向に3分割、垂直方向に3分割することで得られた9個の輝度画像セグメントを示す。これらの輝度画像セグメントは、640×360画素からなる。図3において、輝度画像セグメントに付された括弧書きの数値(1,1)(2,1)(3,1)(1,2)(2,2)(3,2)(1,3)(2,3)(3,3)は、フレーム画像において各輝度画像セグメントが存在する箇所の行列位置を示す。
図5(a)は、パーソナルコンピュータであるホスト装置1003から画像認識装置1002に与えられる構成情報のデータ構造を示す。
X_max、X_minと、Y_max、Y_minとの差異は、X_max、X_minには正負の符号が存在するのに対し、Y_max、Y_minには、正負の符号が存在しない点である。これは、基本的な構成要素と、補助的な構成要素との左右の関係は、高い頻度で入れ代るからである。図2の例でいうと、信号機には、補助的な構成要素である三色灯が、基本的な構成要素である柱部分の右側に存在する場合と、左側に存在する場合とがある。人物像についても、補助的な構成要素である頭部分が、基本的な構成要素である胴体の右側に存在する場合と、左側に存在する場合とがある。対照的に、基本的な構成要素と、補助的な構成要素との上下の関係が入れ代ることはまずない。そこで、X_max、X_minについては、正負の符号付き数値として規定している。こうしておけば、かかるX_max、X_minと、(X1,Y1)とを式1に適用して、その不等式の成否を判断することで、基本的な構成要素、補助的な構成要素の位置関係の適否を見極めることができる。図2の事例において、Y_max、Y_minを符号無しの数値としたが、横になったり逆さになったりする客体(飛行物や動物、様々な姿勢で動きまわる人物等)を認識対象とする場合、Y_max、Y_minを正負の符号付き数値とすることが望ましい。X_max、X_min、Y_max、Y_minの符号は、認識対象となる客体の性質に応じて定めるべきである。
人物像を対象としたウィンドウ位置関係基準と比較すると、第1に、X_max、X_minが異なる。人物像を対象としたウィンドウ位置関係基準では、X_max、X_minがウィンドウの横幅の半分Win_W/2を下回る小さい値に設定されていたのに対し、信号機を対象としたウィンドウ位置関係基準は、X_max、X_minが何れも、ウィンドウの横幅の半分Win_w/2を上回る値に定められているという違いである。
第3に、X_max、X_min、Y_max、Y_minにより定まる許容範囲が異なる。これは、人物像を対象としたウィンドウ位置関係基準では、基本となる構成要素の中心座標のやや真上に、補助的な構成要素の中心座標の存在が許容される許容範囲が存在するのに対し、信号機を対象としたウィンドウ位置関係基準では、基本となる構成要素の中心座標の左斜め上に、補助的な構成要素の中心座標の存在が許容される許容範囲が存在するという違いである。この図5(c)の一例では、補助的な構成要素である頭部分が、基本的な構成要素である胴体の左側に存在している。図5(d)の一例でも、補助的な構成要素である三色灯部分が、基本的な構成要素である柱部分の左側に存在している。
図6(a)における破線の格子は、一個の画像特徴量計算部7が選択することができる縦幅、横幅の組合せを示す。本図に示すように、セルヒストグラム計算の対象となるべき画素領域の縦幅・横幅を、32画素、64画素、96画素、128画素の中から任意に選択して組合せることができる。図6(a)のshp1は、横幅を128画素、縦幅を32画素と設定することで定義される128×32画素の横長形状のウィンドウを示す。図6(a)のshp2は、横幅を32画素、縦幅を128画素と設定することで定義される32×128画素の縦長形状のウィンドウを示す。図6(a)のshp3は、縦幅、横幅をそれぞれ64画素と設定することで定義される、64×64画素の正方形形状のウィンドウを示す。
図7は、画像認識装置1002の内部構成の一例を示す。本図におけるハードウェア構成は、カメラインターフェイス1、集積回路2から構成される。
カメラインターフェイス1は、コネクタ等を介してカメラ装置1001と接続を行い、カメラ装置1001からの映像入力を受け付ける。
画像供給部4i1,i2,i3,i4・・・iMのそれぞれは、フレーム画像を分割することで得られる640×360画素からなる輝度画像セグメントの中から、処理対象となるべき画素ブロックを読み出して、画像特徴量計算部i1,i2,i3,i4・・・iMのそれぞれに供給する。ここで供給されるブロックは、構成情報により縦幅、横幅が規定されたウィンドウに存在する。
画像特徴量計算部7i1,i2,i3・・・・iMのそれぞれは、SRAM(p,q)から読み出された横32×縦96画素の画素群に対して勾配方向、勾配強度を算出することでセルヒストグラムを得て、画像特徴量計算部7に出力する。
特徴量識別部9i1,i2,i3,i4・・・・iNのそれぞれは、画像特徴量計算部7i1,i2,i3,i4・・・iMのそれぞれが算出したセルヒストグラムをその内部で組合せて、横幅Win_W、縦幅Win_Hに対応する次元数D(W,H)の特徴量Xを得て、特徴量Xと、認識辞書10に格納されている学習データTとを比較し、特徴量Xが、認識対象の構成要素をあらわしているか否かを判定する。
コードROM11aには、客体認識部11の処理内容を記述した命令コードが格納される。
構成情報設定部12は、ホスト装置1003により設定された複数の構成情報が設定される。そのように設定された構成情報に従い、画像供給部4、客体認識部11に対する制御を行う。
不揮発メモリ12bは、ホスト装置1003による設定内容が書き込まれるメモリであり、ホストインターフェイス回路12aを通じてホスト装置1003により設定された複数の構成情報が格納される。
サーチ領域リスト格納部13に格納されるサーチ領域リストは、複数のレコードからなり、各レコードにウィンドウスキャンによる構成要素のサーチ結果が追記される。各レコードは、認識対象の構成要素を包含するとされた局所領域のXY座標と、局所領域の縦幅・横幅と、発見された構成要素の類型と、特徴量識別部が算出した尤度とを含む。
以降の説明では、画像供給部4及び画像特徴量計算部7の個数Mを9個とし、特徴量識別部9の個数を4個とする。図8は、図7の画像認識装置1002の内部構成に、構成要素間の画素やデータ、指示の流れを書き加えたものである。
ho1,2,3,4は、ウィンドウに対するブロックシフトで画像特徴量計算部7i1,i2,i3・・・・iMにより生成されたD(W.H)次元の勾配ヒストグラムを示す。
re1,2,3は、特徴量識別部9i1,i2,i3,i4・・・・iNの判定により、サーチ領域リストに追加されたレコードである。これらのレコードの記載に基づき、客体認識部11は統合判定を行う。客体認識部11によるウィンドウ位置的関係を満たすかどうかの判定は、構成要素を包含していると判定された局所領域の中心座標が、ウィンドウ位置関係基準を満たすかどうかを判断することでなされる。
図9は、画像供給部4の内部構成の一例を示す図である。図9において、「mul」は乗算器、「add」は加算器、「sub」は減算器、「comp」は比較器を意味する。mul,add,compは図10以降の図面にも登場するが、各記号の意味は以降の図でも同じである。本図の内部構成において大きな単位の構成要素については、20番代の参照符号を付している。小さな単位の構成要素については、200番代の参照符号を付している。
ウィンドウ座標算出部23は、ウィンドウのY座標の元となるカウント値Ccyを生成するカウンタ221と、カウンタ221のカウント値Cwyと、ウィンドウの最大シフトカウント値である「((360-Win_H)/8+1)」とを比較し、Cwyが最大シフトカウントに達すると、カウンタ221をリセットする比較器222、輝度画像セグメントの縦幅360から、構成情報で定義されたウィンドウの縦幅Win_Hを減じる減算器223、減算器223による減算結果(360-Win_H)を、8で割る除算器224、除算器224の出力値に+1を加算することで最大シフトカウント((360-Win_H)/8+1)を得る加算器225、カウンタ221のカウント値Cwyから1を減じる減算器226と、(Cwy-1)に8を乗じることでWin_Yを得る乗算器227から構成される。Cwyが1である場合Win_Yは「0」、Cwyが2である場合、Win_Yは「8」、Cwyが3である場合Win_Yは「16」、Cwyが4である場合Win_Xは「24」となる。かかるWin_Yの算出は、Cwyが最大シフトカウント((360-H)/8+1)に達するまで続けられる。
図10は、画像特徴量計算部7i1,i2,i3,i4・・・iMの内部構成を示す。「MAC」は積和演算レジスタ、「acc」はアキュムレータを意味する。また「MAC」、「acc」の組みは積和演算器を構成する。MAC,accは本図以降の図面にも登場するが、各記号の意味は以降の図でも同じである。本図における式3-1は、角度範囲に属する角度θ'についての勾配度数の算出式を示す。この勾配度数において、m(x,y)は勾配強度を示す。θ(x,y)は勾配方向を示す。式3-1は、勾配強度m(x,y)と、δ[θ',θ(x,y)]との積を画素セルを構成する全てのX座標、Y座標について算出して、これらを積和する計算を意味する。式3-2は、N方向の勾配方向ヒストグラムを示す。この勾配方向ヒストグラムはN個の集合要素からなる。図10の内部構成における構成要素については、30番代の参照符号を付している。本図に示すように画像特徴量計算部7は、セルヒストグラムの角度範囲に属する一個の角度値θ'を生成する角度範囲生成器31と、角度値θ'が生成される度に、8×8画素のセルに属する個々の画素を選択すると共に、任意の座標(x,y)に位置する画素の上下左右に位置する画素の画素値(x-1,y)、(x+1,y)、(x,y-1)、(x,y+1)を選択的に出力するセレクタ32と、セレクタ32により選択された画素値のうち、(x,y-1)の画素値と、(x,y+1)の画素値との減算を行いIy(x,y)を得る減算器33と、(x+1,y)の画素値と(x-1,y)の画素値との減算を行い、Ix(x,y)を得る減算器34と、Ix(x,y)、Iy(x,y)の二乗和平方根を算出することで勾配強度m(x,y)を得る二乗和平方根算出器35と、Iy(x,y)をIx(x,y)を用いて除算してIy(x,y)/Ix(x,y)を得る除算器36と、Iy(x,y)/Ix(x,y)についての逆正接を算出して勾配方向θ(x,y)を得る逆正接算出器37と、逆正接算出器37により出力されたθ(x,y)と、角度範囲生成器31から出力された角度範囲に属するθ'とに対してδ(デルタ)関数演算を行い、δ[θ',θ(x,y)]を算出するデルタ関数演算器38と、二乗和平方根算出器35から出力された勾配強度m(x,y)と、デルタ関数演算器38から出力されたδ[θ',θ(x,y)]とを対象とした積和演算を行い、積和値Σm(x,y)δ[θ',θ(x,y)]を得て、これをθ'についての勾配度数とする積和演算器39とを含む。
図11は、特徴量識別部9の内部構成の一例を示す図である。本図の内部構成において大きな単位の構成要素については、40番代の参照符号を付している。小さな単位の構成要素については、400番代の参照符号を付している。本図に示すように特徴量識別部9は、画像特徴量計算部7から出力されたセルヒストグラムを格納して、その内部でマージするためのSRAM40と、セルヒストグラムマップにおけるブロックのX座標であるCell_Xを算出するブロック座標算出部41、セグメント内におけるブロックのY座標であるCell_Yを算出するブロック座標算出部42、ブロックの座標をアドレスに変換する座標−アドレス変換部43、変換により得られたアドレスに従い、3×3セルにあたるセルヒストグラムをSRAM40から読み出す読出制御部44、読み出された3×3セルにあたるセルヒストグラムに対して正規化を行い、次元数D(W,H)のHOG特徴量を得る正規化部45、次元数D(W,H)の特徴量のHOG特徴量と、認識辞書10に格納されている学習データとを比較することで、ウィンドウ内に認識対象が存在するかどうかを判定する識別部46とを含む。
(正規化部45の内部構成)
図12は、特徴量識別部9i1,i2,i3,i4・・・iNのそれぞれに含まれる正規化部45の内部構成を示す。式4-1は、正規化がなされた勾配度数を示す。式4-2は、正規化後のセルヒストグラムを示す。この正規化後のセルヒストグラムはB×N個の集合要素からなる。本図の内部構成において大きな単位の構成要素については、50番代の参照符号を付している。
図13は、画像特徴量計算部7と、特徴量識別部9とでどのように処理が分散されているかを示す。この図13において画像特徴量計算部7i1,7i2には、32×96画素の全て対象とした勾配方向、勾配強度の算出(1)と、全てのセルを対象としたセルヒストグラムの算出(2)とが割り当てられている。一方、特徴量識別部9には、32×96画素と、32×96画素とをマージするマージ処理(3)、セルヒストグラムの正規化(4)が割り当てられている。本図に示すように、画像特徴量計算部7による勾配強度及び勾配方向の算出は、ウィンドウの分割部分毎に行われ、特徴量識別部9によるセルヒストグラムの正規化は、ウィンドウ全体に対して行われる。勾配強度及び勾配方向の算出を、ウィンドウの分割部分毎に行うのは、勾配強度及び勾配方向は、ウィンドウの分割部分毎の算出で足りるからである。これに対してセルヒストグラムに対する正規化は、ウィンドウ分割部分の境界を跨いだ、全体的な処理が必要だからである。
画像特徴量計算部7i1,i2,i3,i4・・・iMによるセルヒストグラムの生成(2)では、これら画素セル中に出現している画素列の勾配を、その角度範囲毎に集計する。図中のcnt1は、0°の勾配をもった線分の出現度数のカウント、cnt2は、20°の勾配をもった線分の出現度数のカウント、cnt3は、120°の勾配をもった線分の出現度数のカウント、cnt4は、140°の勾配をもった線分の出現度数のカウントを示す。かかる集計により、線分勾配のヒストグラムが得られる。
以上が画像特徴量計算部7についての説明である。続いて、特徴量識別部9によるセルヒストグラムのマージ(3)と、ブロックシフト及びヒストグラムの正規化(4)について説明する。
図13の階段形状gra4は、カレントShifted Window内のブロック水平スキャン時において、ブロックの配置位置を8画素ずつ変化させることで得られる複数のブロックの重なりを示す。ウィンドウ内の水平方向スキャンにより、24×24画素であるブロックは8画素ずつシフトするので、shifted blockは互いに重なり合い、かかる階段形状を形成する。水平方向のシフトは、6回(=(64-24)/8+1)行われる。垂直方向のシフトは、10回(=(96-24)/8+1)回なされる。1回以上のシフトがなされることで、ウィンドウ内の位置が規定されたブロックを『shifted block』という。
(画像特徴量計算部7‐特徴量識別部9の構成のパターン)
横幅が広いウィンドウに対応するセルヒストグラムを処理するべく、画像供給部4は、処理対象となるセルヒストグラムマップを分割して、複数の特徴量識別部9による分散処理に供する。以下、複数の特徴量識別部9による分散処理について説明する。図8では、画像特徴量計算部7の個数が9個、特徴量識別部9の個数が4個である場合の画像認識装置1002の構成を示した。特徴量識別部9i1,i2,i3,i4のそれぞれが、画像特徴量計算部7i1,i2,i3,i4のうち連続する2つのものから、横32×縦96画素に相当するセルヒストグラムを受け取り、内部でマージして横64×縦96画素のウィンドウに相当するセルヒストグラムを処理するケースを想定する。図8で特に注意が必要なのは、画像特徴量計算部7i1,i2,i3,i4・・・i9からの出力と、特徴量識別部9i1,i2,i3,i4の入力との関係が、1対多の関係になっていることである。この1対多の関係とは、画像特徴量計算部7のうち、連続する任意のものの出力が、特徴量識別部9のそれぞれに入力されるというものである。
図14(a)は、特徴量識別部9i1,i2,i3,i4のそれぞれが、画像特徴量計算部7i1,i2,i3,i4のうち、連続する2つのものからセルヒストグラムを受け取り、内部でマージして横64画素×縦96画素についてのセルヒストグラムを生成する構成例を示す。この構成では、画像特徴量計算部7i1,i2,i3,i4・・・i9のそれぞれは、横32画素×縦96画素に対してセルヒストグラムを算出する。特徴量識別部9i1〜特徴量識別部9i4は、画像特徴量計算部7i1,i2,i3,i4・・・i9のうち、連続する2つのものからセルヒストグラムを受け取り、これらのセルヒストグラムを内部でマージする。
pt1は、横方向に隣接する2つの画像特徴量計算部7i1,i2,i3,i4・・・i9から横32×縦96画素に対応するセルヒストグラムを特徴量識別部9i1,i2,i3,i4・・・i6に送り込むための供給パターンを示す。
pt2は、横方向に隣接する3つの画像特徴量計算部7i1,i2,i3,i4・・・i9から横32×縦96画素に対応するセルヒストグラムが特徴量識別部9i1,i2,i3,i4・・・i6に送り込むための供給パターンを示す。破線un1は特徴量識別部9i3が使用されないことを示す。
画像特徴量計算部7から特徴量識別部9への供給を、(a)〜(c)に示すよう
に変化させることで、横64×縦96画素、横96×縦96画素、横128×縦64画素といった様々な大きさ・形状のウィンドウについてのセルヒストグラムを特徴量として利用することができる。
図16は、決定関数の意味内容を示す図である。図中の式5-3は、認識辞書に格納されている学習データ集合の構成を示す。学習データ集合は、n次元空間の座標値である要素[X1,X2,X3,X4,X5・・・・Xn]と、その要素の符号値[Y1,Y2,Y3,Y4・・・・Yn]とからなる。符号値Yは、対応する要素が、正例クラス、負例クラスの何れかに帰属するかを示す。図16右側の座標系は、学習データ集合の各要素がプロットされる。図中の黒丸は、当該座標系にプロットされた要素の座標位置を示す。かかる座標系において、学習データの要素(X1,Y1),(X2,Y2),(X3,Y3),(X4,Y4),(X5,Y5)・・・・は、平面suf1により2つのクラスに分離される。符号値Yは、各要素が、この何れのクラスに帰属するかを示す。
suf2は、分離超平面と最短距離にある正例要素(サポートベクタX+という)を通る正例支持超平面であり、式6-1は、正例支持超平面を規定する数式である。suf3は、分離超平面と最短距離にある負例要素(サポートベクタX-という)を通り、かつ、分離超平面と平行な面を通る負例支持超平面であり、式6ー2は、負例支持超平面を規定する数式である。
Lh(x)は、特徴量xと、分離超平面との距離に応じた尤度を示す。ここで「尤度」は、超分離平面による特徴量Xの分類の確からしさを意味する。特徴量xと、分離超平面との距離が長いということは、超分離平面による特徴量Xの分類の確からしさが高いことを意味し、特徴量Xについての尤度が高いことを意味する。特徴量xと、分離超平面との距離が短いということは、超分離平面による特徴量Xの分類が曖昧であり、特徴量Xについての尤度が低いことを意味する。以降の説明では、特徴量xと、分離超平面との距離を、特徴量の尤度として扱う。
ハードマージンサポートベクタマシンと、ソフトマージンサポートベクタマシンとの違いは、学習データ要素の分離の仕方の違いである。つまり、ハードマージンサポートベクタマシンは、空間座標系内に定義された「平面」によって学習データ要素を分離するのに対し、ソフトマージンサポートベクタマシンは、正例要素と、負例要素とが複雑に入り組んだ「超曲面」によって学習データの要素が分離されるという違いである。
ソフトマージンサポートベクタマシンとして構成される識別部46は、学習データ集合における全ての要素座標と、学習データ集合における全ての符号値との積和演算を行う集合積和演算回路66と、決定関数の定数項を算出する定数項算出回路67と、学習データの中から、必要な要素を選んで、これらに出力するセレクタ68a,b,cと、変数項と、定数項との加算を行う加算器69と、加算器69の出力値の極性を判定する極性判定回路70とを備える。
正例要素と、負例要素とが複雑に入り組み、超曲面を構成する場合が多い。しかし、n次元の入力空間において、正例要素、負例要素が複雑に入り組んでいる場合でも、入力空間のn次元データを、特徴空間のm次元データ(m>n)に変換すれば、サポートベクタマシンの適用が可能になる。n次元入力空間を、m次元特徴空間に写像する関数をΦ(x)とすると、サポートベクタマシンに適用されるべき学習データDは、以下のサンプル座標集合Tと、符号集合Zとにより定義される。
カーネルベースサポートベクタマシンでは、カーネル関数Φを用いることで、m次元特徴空間における決定関数による決定を簡易化する。ここでカーネル関数Φとしては、多項式カーネル、ラジアル基底関数カーネル(ガウシアンカーネル)、双曲線正接カーネルが良く知られている。
図中の式10は、カーネルベースサポートベクタマシンにおける決定関数を表す数式である。式11は、式10の決定関数における定数項bを規定する数式である。
(認識辞書の構成)
次に、可変次元数のHOGである特徴量Xと共に用いられる認識辞書10の構成について説明する。
図20は、客体認識部11の内部構成を示す構成図である。この構成図は特に、図5(b)に示した式1の演算を実行するために構成されている。図中ge1は、ウィンドウ位置関係基準からのX_max、Y_max、X_min、Y_minの取得を示す。ge2は、サーチ領域リストに示される局所領域であって、基本となる構成要素を包含するとされるものの中心座標(X1,Y1)、及び、補助的な構成要素を包含するとされるものの中心座標(X2,Y2)の取得を示す。
具体的にいうと、X1+X_min≦X2かつX1+X_max≧X2の成否を判定する回路群は、ウィンドウ位置関係基準のX_minと、基本となる構成要素を包含するとされた局所領域の中心位置の座標X1とを加算する加算器111、補助的な構成要素を包含するとされた局所領域の中心位置の座標X2から加算器111による加算結果を減じる減算器112、減算器112による減算結果の極性(正負)を判定する極性判定器113、ウィンドウ位置関係基準のX_maxと,基本的な構成要素1の中心位置の座標X1とを加算する加算器114、加算器114による加算結果からX2を減じる減算器115、減算器115による減算結果の極性(正負)を判定する極性判定器116、極性判定器113の出力と、極性判定器116の出力との論理積を算出する論理積演算器117とを含む。
具体的にいうと、Y1+Y_min≦Y2かつY1+Y_max≧Y2の成否を判定する回路群は、ウィンドウ位置関係基準のY_minと、基本となる構成要素を包含するとされた局所領域の中心位置の座標Y1とを加算する加算器121、補助的な構成要素を包含するとされた局所領域の中心位置の座標Y2から加算器121による加算結果を減じる減算器122、減算器122による減算結果の極性(正負)を判定する極性判定器123、ウィンドウ位置関係基準のY_maxと,基本的な構成要素1の中心位置の座標Y1とを加算する加算器124、加算器124による加算結果からY2を減じる減算器125、減算器125による減算結果の極性(正負)を判定する極性判定器126、極性判定器123の出力と、極性判定器126の出力との論理積を算出する論理積演算器127とを含む。
以上が画像認識装置1002の構成要素についての説明である。本実施形態の画像認識装置1002では、認識対象をその構成要素毎に認識するから、個々の構成要素についてウィンドウスキャンを行う必要がある。この構成要素についてのウィンドウスキャンには、セグメント全域スキャン、全域−部分域組合せスキャン、構成要素交互スキャンがある。
認識対象が、信号機である場合を一例に挙げて、これらの走査方式について説明する。 図21は、セグメント全域スキャンを示す。図21(a)は、信号機の柱部分を包含するよう縦幅、横幅が設定されたウィンドウによる全域スキャンを示す。信号機の柱部分は縦長形状であるから、ウィンドウは縦長形状に設定される。図21(a)では、信号機の柱部分を包含するよう、ウィンドウを縦長形状に設定してセグメントの全域をスキャンする。hs11,12,13は、縦長ウィンドウの水平方向のシフトを示す。vs11,vs12は、ウィンドウの垂直方向のシフトを示す。図21(b)は、この全域スキャンの過程で発見された信号機の柱部分を示す。
図21(e)〜(h)は、全域−部分域組合せスキャンの処理手順を示す。信号機の三色灯部分を包含するようウィンドウを設定して、セグメント全域スキャンを行う点は、図21(a)〜(d)と同じである。差異は、柱部分についてのスキャン範囲に存在する。柱部分についてのスキャン範囲の差異とは、図21(c)では、三色灯部分についてセグメント全域を対象としたスキャンを実行していたのに対し、図21(g)では、全域−部分域組合せスキャンでは、柱部分を包含しているとして発見された局所領域の中心座標(xi,yi)を基準として、上下方向はY_maxの範囲、左方向には2・X_maxの範囲で、横長ウィンドウについてのスキャンを行う点である。座標(xi,yi)を基準としたY_max、2・X_maxの範囲で、横長ウィンドウについてのスキャンがなされるので、補助的な構成要素2についてのスキャン範囲は、狭く制限される。全域−部分域組合せスキャンでは、これにより、三色灯部分の早期発見を期待することができる。
ウィンドウラスタスキャンにより局所領域がサーチ領域リストに記載されると、客体認識部11がサーチ領域リストに記載された局所領域座標に従い、総合判断を行う。以下、客体認識部11による総合判断について説明する。ここでの説明は、図22の事例を処理対象として想定する。図22で想定している事例とは、基本となる構成要素1を対象とした1回目のウィンドウラスタスキャンで3つの局所領域座標が発見され、補助的な構成要素2を対象とした2回目のウィンドウラスタスキャンで3つの局所領域座標が発見されたというものである。
補助的な構成要素2の局所領域座標は3つであり、基本となる構成要素1の局所領域座標は3つであるから、ウィンドウ位置関係基準を満たすかどうかが、9個の局所領域座標の組合せのそれぞれについて判断されることになる。
以上のように、ウィンドウによるスキャンで発見された局所領域の中心座標の組合せの中から、ウィンドウ位置関係基準を満たすものを選ぶことで、実際の認識対象の形状に近い、局所領域の組合せを特定することができる。図22(d)は、(x1c,y1c)を中心として配置された局所領域と、(x2a,y2a)を中心として配置された局所領域とを示す。
かかる説明は、基本的な構成要素1である信号機の柱部分をサーチするためのセグメント全域スキャン(図23(a))、基本的な構成要素1である信号機の柱部分を包含する局所領域の発見(図23(b))、補助的となる構成要素2である信号機の三色灯部分をサーチするためのセグメント全域スキャン(図23(c))、信号機の三色灯部分を包含する局所領域の発見(図23(d))、認識で発見された局所領域の全体的な位置関係に応じた総合判断(図23(e))という5つのフェーズから構成される。
これまでに述べた、画像認識装置1002の構成要素の処理内容は、様々な外部事象や装置の内部パラメータに応じた、ハードウェア資源に対する処理手続きとして一般化することができる。そのような一般化された処理手続きを示すのが、図24〜図26のフローチャートである。
ステップS5はサブルーチン化されており、より詳細な処理手順に展開できる。図25は、セグメント全域スキャンの処理手順を示すフローチャートである。変数iは、構成情報に含まれる複数の構成要素のそれぞれを指示する変数である。X_Start、Y_Startは、カレントウィンドウの初期位置のX座標、Y座標を示す。X_End、Y_Endは、カレントウィンドウの終了位置のX座標、Y座標を示す。
図25のステップS36(局所領域の位置的関係に応じた総合判断)もサブルーチン化されており、より詳細な処理手順に展開することができる。その展開がなされた処理手順を示したのが図26(a)のフローチャートである。図26(a)は、局所領域の位置的関係に応じた総合判断手順を示すフローチャートである。図24のフローチャートのステップS37〜ステップS39は、変数iを制御変数としたループを規定する。ステップS37は、サーチ領域リストの全ての組合せの中に、構成情報におけるウィンドウ位置関係基準を満たすものが存在するかどうかの判定である。存在する場合、サーチ領域リストに示される複数の局所領域は、認識対象を表すとの認識結果を下して、サーチ領域リストをリターンする(ステップS38)。存在しない場合、サーチ領域リストに示される複数の局所領域は、認識対象を表さないとの認識結果を下して、サーチ領域リストをリターンする(ステップS39)。
図26(b)は、ウィンドウラスタスキャンの処理手順を示すフローチャートである。本フローチャートにおいてWin_Xは、shifted windowの基点(ウィンドウの左上位置)のX座標を示す変数であり、Win_Yは、shifted windowの基点のY座標を示す変数である。Win_X、Win_Yは以降のフローチャートにも登場するが、これらのフローチャートのWin_X、Win_Yの意味は上記の通りである。図26(a)のフローチャートは、Win_Xについての内周ループ、Win_Yについての外周ループによって構成される。
判定ステップS44は、内周ループの終了要件を規定するものであり、変数Win_Xが、X座標の最大値であるX_End以上になったか否かを判定する。変数Win_XがX_Startであれば、ステップS44は、Noになり、ステップS45に移行する。当該ステップS45は、変数Win_Xを増加させて、次のshifted windowを処理対象にする。以降、処理は、ステップS43にまで戻る。ステップS45による変数の増加で、2番目以降のshifted windowが処理に供されることになる。ループが複数回繰り返され、変数Win_XがX_End以上になると、ループ終了要件を規定するステップS44がYesになって内周ループを抜ける。
図26(b)のshifted window(Win_X、Win_Y、Win_H、Win_W)を対象としたHOG特徴量の計算(ステップS43)も、サブルーチン化されており、より詳細な処理手順に展開できる。展開がなされたブロックラスタスキャンの処理手順を示したのが図27のフローチャートである。
これ以降は、Cell_Xを対象とした内周ループ、Cell_Yを対象とした外周ループから構成される。内周ループは、Cell_Xを0で初期化して(ステップS56)、(Cell_X、Cell_Y)を左上座標とした3×3セルに対応するセルヒストグラムを正規化する(ステップS57)。以降、Cell_Xがブロック終端画素のX座標(Cell_X_End)に到達したかどうかを判定する(ステップS58)。
続いて、全域−部分域組合せスキャンの詳細について説明する。全域−部分域組合せスキャン(図24のステップS6)はサブルーチン化されており、より詳細な処理手順に展開することができる。図28は、全域−部分域組合せスキャンの手順を示すフローチャートである。本フローチャートは、図25のフローチャートをベースにして作成されている。コンフィグレーション情報における複数の構成情報の中から1つを選んで、その1つ目の構成情報に示される構成要素について全域スキャンを実行し、当該構成要素を包含している局所領域の座標や縦幅、横幅をサーチ領域リストに追加する点は、図25と同じである。しかし、以下の差異が存在する。
第2に、2番目以降の構成要素のサーチ範囲が異なる。これは、図25のループでは、2番目以降の構成要素については、X_Start,Y_Startが0,0に設定され(ステップS27)、またX_End,Y_endが、639-W,359-Hに設定されるのに対し(ステップS28)、図28では、2番目以降の構成要素については、構成要素iを包含しているとされた局所領域のX座標であるXiから2・X_maxを引いた値をX_Startとして設定し(ステップS84)、局所領域のY座標であるYiからY_maxを引いた値をY_Startとして設定する(ステップS85)。またX_Endについては、X_Startに横幅2・X_maxを加算した値を設定し(ステップS86)、Y_Endについては、Y_Startに縦幅Y_maxを加算した値を設定する(ステップS87)。図28では、かかる設定の後、ステップS88において、X_Start,Y_StartからX_End,Y_endまでのスキャンを実行し、ステップS89において、画像特徴量計算部7による特徴量算出、特徴量識別部9による識別を実行させ、ステップS90に移行する。ステップS90は、演算結果の符号が正になった特徴量識別部9が存在するかどうかの判定である。存在しなければ、当該ループを抜けて、フローチャートの処理を終了する。もし存在すれば、ステップS91において特徴量識別部9の識別子iを、ウィンドウ中心位置のXY座標(Xi,Yi)に変換する。ステップS92では、ウィンドウ中心位置の座標(Xi,Yi)、カレントウィンドウの縦幅Win_H、横幅Win_W、構成要素(i)の類型type(i)、尤度Lh(i)を、サーチ領域リストのエントリーに追記する。その後、ステップS34において、変数iが、選択された構成情報における構成要素の総数以上になったかどかを判定する。総数以上になっていなければ、ステップS81に戻る。総数以上になれば、ステップS36において、複数の局所領域の位置関係に応じた判定を実行する。
図29は、構成要素交互スキャンの処理手順を示すフローチャートである。本図は、図26(b)のWindowラスタスキャンのフローチャートをベースとして作図されており、このベースとなる図26(a)と比較して以下の差異が存在する。
Win_X、Win_Yを対象としたループ内に構成要素iを対象としたループが存在するので、ウィンドウの1個のシフト位置について、複数の構成要素のそれぞれを対象にした画像認識が実行されることになる。
以上のように本実施形態によれば、画像認識装置1002による画像認識は、ホスト装置1003からの設定である構成情報に従うので、画像認識装置1002は、必要な構成情報をロードすることにより、認識対象となるオブジェクトの種類を動的に変更することができる。これにより、様々な撮影環境に対応した柔軟な画像認識を実現することができる。
第1実施形態では、構成情報の横幅、縦幅に従い、特徴量の次元数を変化させていた。本実施形態では、このウィンドウの横幅、縦幅に応じた次元数の変化に伴い、画像特徴量識別部9を再構成する改良に関する。
図30は、第2実施形態に係る正規化部45、識別部46の内部構成と共に、認識辞書10の内部構成を示す図である。本図では、座標生成回路41、42を省略している。第1実施形態の図10との差異は、正規化部45、識別部46の内部構成である、この内部構成の差異とは、図10では正規化部45、識別部46の内部構成を表していなかったのに対し、本図では、正規化部45、識別部46の内部構成として100個の81次元正規化器−81次元識別器の組みが表わされており、特徴量の次元数に応じた数の81次元正規化器、81次元識別器が再構成のために選ばれるというものである。個々の81次元正規化器、81次元識別器は、81次元のセルヒストグラムを処理するものであり、図12、図15、図17、図18の内部構成をもつ。
以下、81次元正規化器−81次元識別器について説明する。
図30において81次元正規化器−81次元識別器−学習辞書は、同数だけ存在しており、縦方向における81次元正規化器−81次元識別器−学習辞書の並びは、1個の独立した処理系統を構成する。これら81次元正規化器−81次元識別器−学習辞書からなる処理系統は、1から100までの識別番号で指示される。この処理系統に属する81次元正規化器、81次元識別器、学習辞書のそれぞれには、「アルファベット+識別番号」という形式の参照符号が付される。参照符号におけるアルファベットは、81次元正規化器、81次元識別器、学習辞書の違いを表す(これは、81次元正規化器ならn、81次元識別器ならc、学習辞書ならdというものである)。
81次元正規化器n1,n2,n3,n4・・・・は、自身が帰属する処理系統に供給されてきた24×24画像の勾配度数に対して正規化を行い、正規化後の勾配度数を、同じ処理系統に帰属する81次元識別器に出力する。この正規化は、24×24画素(1ブロックであり、3×3セルからなる)の範囲における勾配度数の総和が「1」になるようにするためのものである。
「c+識別番号」の形式の参照番号で参照される81次元識別器について説明する。81次元識別器c1,c2,c3,c4・・・・は、同じ処理系統の81次元正規化器から、81次元のHOGが出力されれば、かかるHOGを学習辞書に格納された81次元の学習データと比較する。
図31は、81次元正規化器−81次元識別器−学習辞書に対する画素値供給を示す。本図は、図30をベースにしている。図27と異なるのは、4860次元の特徴量に対応する構成として、図31の画像特徴量識別部9が、60個の81次元正規化器、81次元識別器により構成されている点、各シフト位置に存在するshifted blockから、81次元正規化器−81次元識別器−学習辞書に到る画素値供給の過程が示されている点である。
(第3実施形態)
本実施形態は、構成情報の改良に関する。図32(a)は、構成情報の構成を示す。引出線cu11は、構成情報の構成をクローズアップして示している。この引出線cu11に示すように、構成情報は、対応する客体の「全体類別」、対応する客体を構成する複数の構成要素についての「Window検索情報(構成要素1のWindow検索情報、構成要素2のWindow検索情報・・・・・構成要素mのWindow検索情報)」、「ウィンドウ位置関係基準」から構成される。引出線cu12は、Window検索情報の構成をクローズアップして示している。この引出線cu11に示すように、Window検索情報は、構成要素を包含するWindowの横幅W、縦幅H、構成要素の類別typeを示す。
図32(b)は、認識対象が人物である場合における構成要素1のWindow検索情報、構成要素2のWindow検索情報の設定例を示す。認識対象が人物の正面像である場合、構成要素1は人間の顔、構成要素2は人間の胴体をそれぞれ表す。
また、客体1の構成情報のウィンドウ位置関係基準は、構成要素1を包含している局所領域のxy座標(x1,y1)、ウィンドウの横幅w1、縦幅h1、構成要素2を包含している局所領域のxy座標(x2,y2)、ウィンドウの横幅w2、縦幅h2の大小関係を規定する不等式を含む。構成要素1(顔)は、構成要素2(胴体)の上辺中央付近に存在するので、構成要素2のx座標であるx2は、x2<x1<x2+w2/2,x2+w2/2<x1+w1<x2+w2という不等式を満たす必要がある。また構成要素2(胴体)は、構成要素1(顔)を囲むウィンドウの下辺以降に存在せねばならないから,構成要素2のy座標であるy2は、y2≒y1+H1,y2+H2>y1+H1という不等式を満たす。
図32(b)と比較すると、図32(c)では構成要素2の検索情報において、構成要素の類別がtype2(信号機)に設定されている。
<備考>
以上、本願の出願時点において、出願人が知り得る最良の実施形態について説明したが、以下に示す技術的トピックについては、更なる改良や変更実施を加えることができる。
画像認識装置1002の本体部分である集積回路202は、FPGA(Field Programmable Gate Array)であることが望ましい。以下、FPGAで構成された画像認識装置1002について説明する。画像認識装置1002を構成するFPGAは、ロジックセルレイヤ、クロックネットワークレイヤ、ブロックRAM・乗算器レイヤ、JTAGバウンダリスキャン回路レイヤが存在する。
I/O部は、外部信号の入出力を実現する。
ロジックセルは、nビット入力のルップアップテーブルと、フリップフロップとから構成される。ルップアップテーブルは、nビット入力をアドレスとしてデコードするアドレスデコード部と、かかるアドレスでアクセスされる記憶セルからなるSRAMとからなり、当該アドレスで指示される記憶セルのデータをSRAMから読み出して出力する。
クロックネットワークレイヤは、ロジックセルレイヤに存在する複数のロジックセルのうち、位置的に対応するものにクロックを供給する。供給されるクロックには、FPGA全体を対象にしたものと、局所的なロジックセル群を対象にしたものとがある。ロジックセル内のフリップフロップは、かかるクロックに従い、SRAMに格納されているデータを、出力する。
ブロックRAM・乗算器レイヤは、ブロックRAMと、乗算器との組みが、行列状に配置されていて、ロジックセルレイヤに存在する複数のロジックのうち、位置的に対応するものに、演算機能と、データ保存機能とを提供する。これに限らず、画像認識装置1002は、ASIC(Application Specific Integrated Circuit)等の専用回路で構成してもよい
(81次元識別器のバリエーション)
81次元識別器をサポートベクタマシンとしたが、81次元識別器は、Adaboost,RealAdaBoost、Deep-learningニューラルネットワーク、Deformable Part Modelに基づくものでもよい。
Deep-learningニューラルネットワークは、通常のニューラルネットワークよりも多くの中間層を設けて認識に有効な特徴量を学習時に抽出する。
Deformable Part Modelは、人全体を捉えるルートフィルタFoφ(P0)と、局所的な部分を捉えるFt・φ(Pt)と、パーツフィルタの位置関係関数di・φd(dxi,dyi)とからスコア付けを行う。
特徴量は、HOGであるとしたが、Haar-like特徴量、Edglet特徴量であってもよい。
Haar-like特徴量は、撮影画像の局所領域において、明暗のパターンが左右に存在するか、上下に存在するかを示す。具体的にはHaar-like特徴量は、高輝度領域の平均輝度S(r1)、低輝度領域の平均輝度S(r2)の差分H(r1,r2)により与えられる。
(構成情報の記述)
構成情報を、クラス構造体として定義してもよい。この場合、ウィンドウの縦幅、横幅は、クラス構造体のメンバー変数として定義され、第3実施形態のウィンドウ位置関係基準は、クラス構造体のメソッドコードとして実現することが望ましい。第3実施形態のウィンドウ位置関係基準は、認識対象固有の処理手順であると、捉えることができるからである。また、ウィンドウラスタスキャンの方式(全域スキャン、全域−部分スキャン、構成要素交互スキャン)を構成情報で指定してもよい。
ホスト装置1003は、ユーザからフレーム画像に対するGUI操作を受け付けることで、構成情報を作成してもよい。かかる操作では、ユーザによるポインティングデバイスの操作に応じて、グラフィック枠を表示し、フレーム画像に表れた認識対象を構成する個々の構成要素を囲む。また必要に応じて、グラフィック枠の大きさを拡大・縮小する。
(認識対象となる画像のバリエーション)
認識対象となる画像は、2KのFullHD画質(1920×1080)であるとしたが、これに限らず、SD画質(640×480)、8K画質(7680×4320)であってもよい。
第1実施形態では、人物の顔を第1の構成要素、胴体以降を第2の構成要素として、これらの第1、第2の構成要素を包含するよう、構成情報におけるWindow検索情報の各ウィンドウの縦幅、横幅を規定した。しかしこれに限らず、より詳細な内容の構成情報で、認識対象の一構成要素を表現してもよい。具体的にいうと、人物の顔を第1の構成要素として指定し、人物の胴体を第2の構成要素、人物の左右の腕を第3、第4の構成要素として指定し、人物の左右の足を第5、第6の構成要素として指定して、これら第1から第6までの構成要素の位置関係基準を構成情報に記載することで、認識対象の一構成要素がとる様々なポーズを認識対象にしてもよい。
「着座しているポーズ」では、第5、第6の構成要素についての局所領域の中心座標が、第2構成要素の左右方向に存在することを、構成情報の位置関係基準として規定する。 (信号機を認識する場合の位置関係基準の詳細な定義)
車道では、図2(a)に示したように、対向車線に設けられた信号機が、左右対称に存在する。そこで、三色灯と、柱部分との位置関係が、「柱部分」→「三色灯」→「三色灯」→「柱部分」になっていることをウィンドウ位置関係基準に定義してもよい。
画像認識装置1002は、カメラ装置1001と接続され、画像認識装置1002に内蔵されるとしたが、構成情報に従い構成要素毎の画像認識を行うという画像認識装置1002の機能と、画像認識装置1002に対し構成情報を設定するというホスト装置1003の機能とをカメラ装置1001に組込んで、画像認識機能付きのカメラ装置1001としてもよい。
特徴量識別部9の個数は4個としたが、特徴量識別部9の個数は1個でもよい。この場合、客体認識部11は、特徴量識別部9の識別番号を用いずに、局所領域の座標を特定する。
ウィンドウによるスキャンとしてウィンドウラスタスキャンを実行する処理例を記載したが、渦巻スキャンや縦方向のスキャンであってもよい。またウィンドウをシフトする際シフト位置を8画素置きとしたが、シフト位置の間隔は何画素でもよい。
2 集積回路
3 フレームメモリ
4 画像入力部
7 画像特徴量計算部
9 特徴量識別部
10 認識辞書
11 客体認識部
12 構成情報設定部
1001 カメラ装置
1002 画像認識装置
1003 ホスト装置
Claims (5)
- ウィンドウによるスキャンを2回以上行い、フレーム画像の中から、認識対象を構成する複数の構成要素を包含する局所領域をサーチする画像認識装置であって、
各スキャンは、前記フレーム画像の複数の位置のそれぞれにウィンドウを重ね合わせて、各重ね合わせ位置において、ウィンドウが認識対象の個々の構成要素を包含するかどうかを判定することでなされ、
前記ウィンドウによるスキャンを2回以上行うにあたって、個々の構成要素を包含し得るものの、前記認識対象の全体を包含し得ない大きさに、ウィンドウの大きさを定めるウィンドウ設定部と、
前記フレーム画像の複数の位置のそれぞれにウィンドウを重ね合わせる際、当該ウィンドウの横幅及び縦幅に依拠した次元数の特徴量を算出して、算出した特徴量に基づき、各重ね合わせ位置における構成要素の包含の有無を判定する特徴量識別部と、
前記認識対象を構成する構成要素が満たすべき位置的関係の基準として、最大許容距離、最小許容距離を示す構成情報を記憶する構成情報記憶部と、
2回以上のスキャンにより、ウィンドウが認識対象を構成する複数の構成要素のうち、基本となるもの、及び、補助的なものを包含した場合、基本となる構成要素を包含した際のウィンドウの重ね合わせ位置と、補助的な構成要素を包含した際のウィンドウの重ね合わせ位置との位置的関係が、構成情報における位置的関係の基準を満たすかどうかの判定を行う客体認識部とを備え、
前記位置的関係を満たすかどうかの判定は、補助的な構成要素を包含した際のウィンドウの中心座標と、基本となる構成要素を包含した際のウィンドウの中心座標との差分を、前記構成情報に示される最小許容距離、最大許容距離のそれぞれと比較することでなされる
ことを特徴とする画像認識装置。 - 前記画像認識装置は、複数の画像供給部と、複数の特徴量計算部とを備え、
複数の画像供給部は、フレーム画像における複数の部分領域のそれぞれを特徴量計算部のそれぞれに供給し、
前記複数の特徴量計算部のそれぞれは、画像供給部から供給された部分領域に含まれる画素セルについて勾配強度及び勾配方向を算出することで、当該部分領域に対応するセルヒストグラムを算出し、
前記複数の特徴量識別部のそれぞれは、1の特徴量識別部に対し、多の特徴量計算部を接続するという1対多の形態で接続されており、前記複数の特徴量計算部のそれぞれにより算出されたセルヒストグラムを、前記1対多の形態の接続を介して内部のメモリに取り込み、マージすることで、1つのウィンドウに対応するセルヒストグラムを取得し、
前記ウィンドウの横幅及び縦幅に依拠した次元数の特徴量は、ブロックによるスキャンにより算出され、当該ブロックによるスキャンは、
前記ウィンドウに対応するセルヒストグラムの複数の位置に、ブロックを重ね合わせて(1)、
前記セルヒストグラム含まれる勾配強度及び勾配方向のうち、前記重ね合わせ位置でブロックに囲まれることになるものに正規化を施し(2)、
ブロックの重ね合わせ位置を縦方向又は横方向にシフトする(3)
という手順を繰り返すことでなされる、請求項1に記載の画像認識装置。 - 前記画像認識装置は、
複数のSRAMから構成される画像メモリを備え、各SRAMは、フレーム画像を分割することで得られた画像セグメントを格納し、
前記複数の画像供給部は、前記SRAMに対してアクセス要求を発することで、画像セグメントを構成する部分領域の画素セルを読み出す
ことを特徴とする請求項2に記載の画像認識装置。 - 前記ウィンドウの横幅をWin_W、縦幅をWin_Hとし、
複数の画像特徴量計算部による計算対象である画素セルの横画素数をCell width 、縦画素数をCell height とし、
ブロックの横方向に存在する画素セルの数をBlock width 、縦方向に存在する画素セルの数をBlock height とし、
特徴量識別部の組合せにより得られるセルヒストグラムの横方向の勾配度数の数をHOG width 、縦方向の勾配度数の数をHOG height とし、セルヒストグラムに示される勾配方向をGとした場合、ウィンドウの横幅W、縦幅Hに依拠した特徴量の次元数D(W,H)は、以下の数1の式により算出される
- 前記画像認識装置は、学習データを含む認識辞書を有しており、前記認識辞書における前記学習データは、構成要素を構成するとされた複数の特徴量、及び/又は、構成要素を構成しないとされた複数の特徴量を含み、
前記特徴量識別部は、ウィンドウの重ね合わせ位置で算出されたD(W,H)次元の特徴量に対して、分離面を適用することで、重ね合わせ位置におけるウィンドウが、構成要素を包含するかどうかの判断結果を下し、
前記分離面は、D(W,H)次元の特徴量空間において、学習データにより構成要素を表すとされる特徴量と、構成要素を表さないとされる特徴量とを分離する
ことを特徴とする請求項4に記載の画像認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015006711A JP6524475B2 (ja) | 2015-01-16 | 2015-01-16 | 画像認識に使用するウィンドウの配置や組合せを、構成情報に従って変化させることができる画像認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015006711A JP6524475B2 (ja) | 2015-01-16 | 2015-01-16 | 画像認識に使用するウィンドウの配置や組合せを、構成情報に従って変化させることができる画像認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016133878A JP2016133878A (ja) | 2016-07-25 |
JP6524475B2 true JP6524475B2 (ja) | 2019-06-05 |
Family
ID=56438116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015006711A Active JP6524475B2 (ja) | 2015-01-16 | 2015-01-16 | 画像認識に使用するウィンドウの配置や組合せを、構成情報に従って変化させることができる画像認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6524475B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7210489B2 (ja) * | 2020-01-16 | 2023-01-23 | 沖電気工業株式会社 | 学習装置、学習方法および学習プログラム |
WO2021186640A1 (ja) * | 2020-03-18 | 2021-09-23 | 日本電信電話株式会社 | 劣化検出装置、劣化検出システム、劣化検出方法、およびプログラム |
CN114627249B (zh) * | 2022-05-13 | 2022-10-21 | 思看科技(杭州)股份有限公司 | 三维扫描系统及三维扫描方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5264457B2 (ja) * | 2008-12-12 | 2013-08-14 | セコム株式会社 | 物体検出装置 |
JP5267330B2 (ja) * | 2009-05-27 | 2013-08-21 | コニカミノルタ株式会社 | 画像処理装置および方法 |
JP5389723B2 (ja) * | 2010-03-31 | 2014-01-15 | セコム株式会社 | 対象物検知装置及びその学習装置 |
CN103870798B (zh) * | 2012-12-18 | 2017-05-24 | 佳能株式会社 | 对象检测方法、对象检测设备以及图像拾取设备 |
-
2015
- 2015-01-16 JP JP2015006711A patent/JP6524475B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016133878A (ja) | 2016-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | RGB-D salient object detection via minimum barrier distance transform and saliency fusion | |
Kim et al. | Deep monocular depth estimation via integration of global and local predictions | |
Zhu et al. | Visdrone-det2018: The vision meets drone object detection in image challenge results | |
González et al. | On-board object detection: Multicue, multimodal, and multiview random forest of local experts | |
CN105981051B (zh) | 用于图像解析的分层互连多尺度卷积网络 | |
Wang et al. | Adaptive feature pyramid networks for object detection | |
US11663502B2 (en) | Information processing apparatus and rule generation method | |
Yuan et al. | Traffic sign detection via graph-based ranking and segmentation algorithms | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
US20120213422A1 (en) | Face recognition in digital images | |
US8103058B2 (en) | Detecting and tracking objects in digital images | |
CN110598788B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN113096140B (zh) | 实例分割方法及装置、电子设备及存储介质 | |
US20210256707A1 (en) | Learning to Segment via Cut-and-Paste | |
US12073567B2 (en) | Analysing objects in a set of frames | |
US20180342071A1 (en) | Moving object tracking apparatus, moving object tracking method, and computer program product | |
JP6524475B2 (ja) | 画像認識に使用するウィンドウの配置や組合せを、構成情報に従って変化させることができる画像認識装置 | |
US12056212B2 (en) | Methods and systems for generating composite image descriptors | |
CN107315984B (zh) | 一种行人检索的方法及装置 | |
Hassan et al. | An empirical analysis of deep learning architectures for vehicle make and model recognition | |
WO2011037097A1 (ja) | パターン認識方法及び該方法を用いたパターン認識装置 | |
Lu et al. | An efficient fine-grained vehicle recognition method based on part-level feature optimization | |
Zhou et al. | A pipeline architecture for traffic sign classification on an FPGA | |
Ke et al. | SRN: Side-output residual network for object reflection symmetry detection and beyond | |
KR101484003B1 (ko) | 얼굴 분석 평가 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6524475 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |