JP2012203691A - 画像識別装置及び画像識別方法 - Google Patents

画像識別装置及び画像識別方法 Download PDF

Info

Publication number
JP2012203691A
JP2012203691A JP2011068316A JP2011068316A JP2012203691A JP 2012203691 A JP2012203691 A JP 2012203691A JP 2011068316 A JP2011068316 A JP 2011068316A JP 2011068316 A JP2011068316 A JP 2011068316A JP 2012203691 A JP2012203691 A JP 2012203691A
Authority
JP
Japan
Prior art keywords
block
dictionary
image
data
dictionary data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011068316A
Other languages
English (en)
Other versions
JP5417368B2 (ja
Inventor
Masato Sumiyoshi
吉 正 人 住
Manabu Nishiyama
山 学 西
Tomoki Watanabe
辺 友 樹 渡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011068316A priority Critical patent/JP5417368B2/ja
Priority to US13/229,625 priority patent/US8611645B2/en
Publication of JP2012203691A publication Critical patent/JP2012203691A/ja
Application granted granted Critical
Publication of JP5417368B2 publication Critical patent/JP5417368B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像の特徴部分の識別に必要な辞書データのデータ量を削減し、小容量の辞書メモリで画像の特徴部分を識別する。
【解決手段】画像識別装置10は、辞書メモリ16と、ブロック判定部13と、識別部17と、を備える。辞書メモリ16は、サポートベクタマシンの辞書データを格納する。ブロック判定部13は、画像データを構成する複数の画素のうち処理対象の注目画素を含む注目ブロックが、辞書データを用いるべき共有ブロックと、共有ブロックと共通の辞書データを用いるべき鏡像ブロックの何れであるかを判定する。識別部17は、共有ブロック及び鏡像ブロックに対して共通の辞書データを用いて、画像データの特徴部分を識別する。
【選択図】図5

Description

本発明の実施形態は、画像識別装置及び画像識別方法に関する。
近年の自動車には、サポートベクタマシン(以下、「SVM(Support Vector Machine)」という)の辞書データを用いて、画像の特徴部分を識別する画像識別装置が設けられる。この画像識別装置には、辞書データを格納する辞書メモリが設けられる。この画像識別装置は、画像を複数のブロックに分割し、ブロック毎に、辞書メモリに格納された辞書データを参照して画像の特徴部分を識別する。
しかしながら、従来の画像識別装置では、辞書データはブロック毎に用意される。仮に、2つのブロックの画像が互いに似ている(例えば、一方のブロックは、他方のブロックの鏡像である)場合であっても、ブロック毎に異なる辞書データが用いられる。従って、ブロックの数に比例して、辞書データのデータ量が増加する。その結果、辞書データを格納する辞書メモリの容量も増加する。
Masayuki Hiromoto and Ryusuke Miyamoto: "Hardware Architecture for High-Accuracy Real-Time Pedestrian Detection with CoHOG Features," in Proc. of the 12th International Conference on Computer Vision Workshops (ICCVW2009) (Kyoto, Japan), pp.894-899, Oct. 2009.
本発明が解決しようとする課題は、画像の特徴部分の識別に必要な辞書データのデータ量を低減し、小容量の辞書メモリで画像の特徴部分を識別することである。
本発明の実施形態に係る画像識別装置は、辞書メモリと、ブロック判定部と、識別部と、を備える。辞書メモリは、サポートベクタマシンの辞書データを格納する。ブロック判定部は、画像データを構成する複数の画素のうち処理対象の注目画素を含む注目ブロックが、辞書データを用いるべき共有ブロックと、共有ブロックと共通の辞書データを用いるべき鏡像ブロックの何れであるかを判定する。識別部は、共有ブロック及び鏡像ブロックに対して共通の辞書データを用いて画像データの特徴部分を識別する。
本発明の実施形態の画像識別システム1のブロック図。 本発明の実施形態の画像データIMGの概略図。 本発明の実施形態の勾配方向データGDを説明する図。 本発明の実施形態の辞書データDを説明する図。 第1実施形態の画像識別装置10のブロック図。 ラスタスキャン順を説明する図。 第1実施形態の判定テーブルの概略図。 第1実施形態のシフトレジスタ15の概略図。 第1実施形態の注目画素用のレジスタテーブルの概略図。 第1実施形態の共起画素用のレジスタテーブルの概略図。 第1実施形態の辞書メモリ16及び識別部17のブロック図。 第1実施形態の第1バンクBNK0及び第2バンクBNKkに格納されるデータを説明する図。 第1実施形態の画像識別処理のフローチャート。 第1実施形態のブロック判定を説明する図。 第1実施形態の出力先バンク決定を説明する図。 第2実施形態の画像識別装置10のブロック図。 第2実施形態の画像識別処理のフローチャート。 第2実施形態のブロック判定を説明する図。 第2実施形態の反転及び第2特徴量算出を説明する図。 第2実施形態の識別を説明する図。
本発明の実施形態について図面を参照して説明する。図1は、本発明の実施形態の画像識別システム1のブロック図である。画像識別システム1は、画像識別装置10と、カメラ20と、プロセッサ30と、メインメモリ40と、を備える。カメラ20は、画像を撮像する装置(例えば車載カメラ)である。プロセッサ30は、カメラ20により撮像された画像を表現する画像データIMGを生成し、画像データIMGに基づいて勾配方向データGDを生成するモジュール(例えばCPU(Central Processing Unit))である。メインメモリ40は、プロセッサ30により生成された画像データIMG及び勾配方向データGDを含む様々なデータを格納する記憶媒体(例えば、DRAM(Dynamic Random Memory Access))である。画像識別装置10は、勾配方向データGDに基づいて輝度勾配方向共起ヒストグラム(以下、「CoHOG(Co-occurrence Histograms of Oriented Gradients)」という)特徴量を生成し、SVMの辞書データDを用いて、画像の特徴部分(例えば人物)を識別する装置である。
図2は、本発明の実施形態の画像データIMGの概略図である。画像データIMGは、複数(例えば36(=3×6)個)のブロックBLKから成る。各ブロックBLKには、ブロック座標(X座標及びY座標)が割り当てられる。各ブロックBLKは、複数(例えば36(=6×6)個)の画素Pから成る。なお、本発明の実施形態では、1つの画像データIMGに含まれるブロックBLKの数及び1つのブロックBLKに含まれる画素Pの数は任意である。
図3は、本発明の実施形態の勾配方向データGDを説明する図である。プロセッサ30は、カメラ20により撮像された画像を表現する画像データIMGを生成すると、生成した画像データIMGを複数のブロックBLKに分割し、ブロックBLK毎に、X方向及びY方向にフィルタをかけ、各画素PのX成分及びY成分を生成し、生成したX成分及びY成分に基づいて画素P毎の勾配方向を計算し、計算した勾配方向を8値に量子化し、8値の勾配情報G(x,y)を生成する(図3(A))。勾配情報G(x,y)は、画素P(x,y)の勾配方向を表す情報である。勾配情報G(x,y)は、例えば、勾配方向(8方向)を表す勾配値0〜7、及び勾配していないことを表す勾配値8の何れかである(図3(B))。
図4は、本発明の実施形態の辞書データDを説明する図である。辞書データDは、複数のウェイトセット(第1ウェイトセット0及び第2ウェイトセットk(kは、1以上の整数))を含む。第1ウェイトセット0は、画像データIMGを構成する複数の画素のうちの処理対象の注目画素の勾配方向に応じた8通りの第1ウェイトW0(0,0)〜(7,0)を含む。第1ウェイトW0(0,0)〜W0(7,0)は、それぞれ、画像を識別するときに考慮される注目画素の勾配方向の重みを示す。第2ウェイトセットkは、注目画素に対して共起関係にある共起画素の勾配方向及び注目画素の勾配方向の組み合わせに応じた64通りの第2ウェイトWk(0,k)〜(63,k)を含む。第2ウェイトWk(0,k)〜(63,k)は、それぞれ、画像を識別するときに考慮される共起画素の勾配方向及び注目画素の勾配方向の組み合わせの重みを示す。kは、画像を識別するときに考慮される共起画素の数である。
(第1実施形態)
第1実施形態について説明する。第1実施形態は、鏡像関係に基づいて勾配情報の位置情報及び勾配値を反転させる例である。図5は、第1実施形態の画像識別装置10のブロック図である。画像識別装置10は、入力制御部11と、シフト制御部12と、ブロック判定部13と、入力バッファ14と、シフトレジスタ15と、辞書メモリ16と、識別部17と、を備える。
入力制御部11は、勾配方向データGDの入力バッファ14への転送を制御する。入力制御部11は、メインメモリ40から勾配方向データGDを読み出し、勾配方向データGDの書込先の入力バッファ14上のライトアドレスWRと、入力バッファ14を書き込み可能状態にするライトイネーブル信号EWと、を生成し、ライトアドレスWRと、ライトイネーブル信号EWと、勾配方向データGDと、を入力バッファ14へ出力する。入力制御部11は、例えば、勾配方向データGDがブロック単位のラスタスキャン順(図6)で入力バッファ14に格納されるように、ライトアドレスWRを生成する。
シフト制御部12は、シフトレジスタ15を制御する。シフト制御部12は、勾配方向データGDの読出先の入力バッファ14上のリードアドレスRDと、入力バッファ14を読み出し可能状態にするリードイネーブル信号ERと、を生成し、リードアドレスRDと、リードイネーブル信号ERと、を入力バッファ14へ出力する。また、シフト制御部12は、注目画素の勾配情報(以下、「注目勾配情報」という)を所定順(例えばラスタスキャン順)にシフトさせるシフト制御信号SCを生成し、シフト制御信号SCをシフトレジスタ15へ出力する。また、シフト制御部12は、処理対象の注目ブロックのブロック座標を示すブロック位置情報BPをブロック判定部13へ出力する。
ブロック判定部13は、ブロック位置情報BP及び予め用意された判定テーブルに基づいて、注目ブロックの種類(注目ブロックが、第1〜第3ブロックの何れに該当するか)を判定する。図7は、第1実施形態の判定テーブルの概略図である。ブロック位置情報BPのX座標が1のブロック(すなわち、Z軸上のブロック)は、第1ブロック(非共有ブロック)である。ブロック位置情報BPのX座標が0のブロック(すなわち、Z軸に対してX座標が一方の側に位置するブロック)は、第2ブロック(共有ブロック)である。ブロック位置情報BPのX座標が2のブロック(すなわち、第2ブロックに対して鏡像の位置にあるブロック)は、第3ブロック(鏡像ブロック)である。辞書メモリ16には、第1ブロック用の第1辞書データと、第2ブロック用の第2辞書データとが予め格納されているが、第3ブロック用の辞書データは格納されていない。第1及び第2辞書データは、それぞれ、ブロック毎に用意される。例えば、図2の場合、第1及び第2辞書データは、それぞれ、6個ずつである。第1辞書データは、非共有ブロックに用いられるが、非共有ブロック以外には用いられない。第2辞書データは、共有ブロックだけでなく、鏡像ブロックにも用いられる。
また、ブロック判定部13は、ブロック位置情報BPに応じたミラーイネーブル信号EM及び辞書アドレスADD_Mを生成し、ミラーイネーブル信号EM及び辞書アドレスADD_Mをシフトレジスタ15へ出力する。ミラーイネーブル信号EMは、シフトレジスタ15の動作を切り替える信号である。辞書アドレスADD_Mは、注目ブロックに対して用いられる辞書データDの辞書メモリ16上のアドレスである。例えば、ブロック判定部13は、第1ブロックの場合、ミラーイネーブル信号EM=0及び第1辞書アドレスADD_M(1)を生成し、第2ブロックの場合、ミラーイネーブル信号EM=0及び第2辞書アドレスADD_M(2)を生成し、第3ブロックの場合、ミラーイネーブル信号EM=1及び第2辞書アドレスADD_M(2)を生成する(図7)。第1辞書アドレスADD_M(1)は、第1辞書データD1の辞書メモリ16上のアドレスである。第2辞書アドレスADD_M(2)は、第2辞書データD2の辞書メモリ16上のアドレスである。
上記のとおり、ミラーイネーブル信号EMは、第1又は第2ブロックの場合には“0”であり、第3ブロックの場合には“1”である。従って、シフトレジスタ15は、第1又は第2ブロックの場合と、第3ブロックの場合とで異なる動作を行う。一方、辞書アドレスADD_Mは、第1ブロックの場合には第1辞書アドレスADD_M(1)であり、第2又は第3ブロックの場合には第2辞書アドレスADD_M(2)である。従って、第2及び第3ブロックの場合、何れも、第2辞書データD2を用いて画像の特徴部分が識別される。
入力バッファ14は、ライトアドレスWRに対応するラインメモリの位置に勾配方向データGDを格納し、格納した勾配方向データGDのうち、各ラインメモリから、リードアドレスRDに対応する位置に格納された勾配情報Gをシフトレジスタ15へ出力する。1個のラインメモリには、画像データIMGの1ライン分の画素Pの勾配情報Gが格納される。例えば、図2の場合、1個のラインメモリに格納される勾配情報Gは18個である。
シフトレジスタ15は、入力バッファ14が出力した各ラインの勾配情報Gを格納する。また、シフトレジスタ15は、シフト制御部12が出力したシフト制御信号SCを受け取ると、格納した各ラインの勾配情報Gをシフトする。図8は、第1実施形態のシフトレジスタ15の概略図である。シフトレジスタ15は、シフト制御信号SCを受け取ると、レジスタブロック(4,0)に注目勾配情報G0が格納されるように、勾配情報GをX方向にシフトする。このようにして、シフトレジスタ15には、注目勾配情報G0を中心とする半径4画素以内に位置する勾配情報が格納される。
また、シフトレジスタ15は、ブロック判定部13が出力した辞書アドレスADD_M及び予め用意された参照テーブルを用いて、参照すべきウェイトWが格納された辞書メモリ16上の参照アドレスADD_REFを生成し、参照アドレスADD_REFを辞書メモリ16へ出力する。
図9は、第1実施形態の第1参照テーブルの概略図である。第1参照テーブルは、注目勾配情報G0に対応する第1ウェイトW0の第1参照アドレスADD_REF0の生成に用いられる。第1参照テーブルは、注目勾配情報G0に応じた8通りの第1参照アドレスADD_REF0を示している。注目勾配情報G0が0〜7の場合、第1参照アドレスADD_REF0は、辞書アドレスADD_Mと注目勾配情報G0の和である。一方、注目勾配情報G0が8の場合、第1参照アドレスADD_REF0は生成されない。
図10は、第1実施形態の第2参照テーブルの概略図である。第2参照テーブルは、共起勾配情報Gkに対応する第2ウェイトWkの第2参照アドレスADD_REFkの生成に用いられる。第2参照テーブルは、注目勾配情報G0及び共起勾配情報Gkの組み合わせに応じた64通りの第2参照アドレスADD_REFkを示している。注目勾配情報G0及び共起勾配情報Gkが0〜7の場合、第2参照アドレスADD_REFkは、辞書アドレスADD_Mと定数Ckの和である。定数Ckは、注目勾配情報G0及び共起勾配情報Gkの組み合わせに応じた64通りの値である。一方、注目勾配情報G0及び共起勾配情報Gkの少なくとも1つが8の場合、第2参照アドレスADD_REFkは生成されない。
辞書メモリ16は、第1ブロック用の第1辞書データD1及び第2ブロック用の第2辞書データD2を格納するメモリである。識別部17は、辞書データDを用いて識別結果OUTを生成し、識別結果OUTを出力する。図11は、第1実施形態の辞書メモリ16及び識別部17のブロック図である。
辞書メモリ16は、第1バンクBNK0と、複数の第2バンクBNKkと、を備える。第1バンクBNK0には、第1ブロック用の第1ウェイトセット0及び第2ブロック用の第1ウェイトセット0が格納される。第2バンクBNKkには、第1ブロック用の第2ウェイトセットk及び第2ブロック用の第2ウェイトセットkが格納される。図2の場合、第1バンクBNK0に格納される第1ウェイトセット0の数及び第2バンクBNKkに格納される第2ウェイトセットkの数は、何れも12個である。なお、第1バンクBNK0及び第2バンクBNKkには、何れも、第3ブロック用のウェイトセットは格納されない。
図12は、第1実施形態の第1バンクBNK0及び第2バンクBNKkに格納されるデータを説明する図である。例えば、第1バンクBNK0には、ブロックBLK(0,0)用の辞書データD(0,0)〜ブロックBLK(1,5)用の辞書データD(1,5)の第1ウェイトセット0が格納される(図12(A))。一方、第2バンクBNKkには、ブロックBLK(0,0)用の辞書データD(0,0)〜ブロックBLK(1,5)用の辞書データD(1,5)の第2ウェイトセットkが格納される(図12(B))。第1ウェイトセット0及び第2ウェイトセットkのウェイトWには、辞書メモリ16上のアドレスが割り当てられる。辞書メモリ16は、シフトレジスタ15が出力した参照アドレスADD_REFを受け取ると、参照アドレスADD_REFに格納されたウェイトWを識別部17へ出力する。
識別部17は、SVMの辞書データDを用いて画像の特徴部分を識別する。識別部17は、加算部171と、アキュムレータ172と、を備える。加算部171は、辞書メモリ16に格納された複数のウェイトWと、アキュムレータ172からフィードバックされたデータと、を加算する。アキュムレータ172は、加算部171の出力を蓄積する。また、アキュムレータ172は、全ての画素Pについての加算部171の出力を蓄積するまでは、蓄積した値を加算部171へフィードバックし、全ての画素Pについての加算部171の出力を蓄積すると、蓄積した値を識別結果OUTとして出力する。
第1実施形態の画像識別装置10の動作について説明する。図13は、第1実施形態の画像識別処理のフローチャートである。図13は、勾配方向データGDが入力バッファ14に格納された後に実行される処理である。
<S1300> シフト制御部12は、リードアドレスRD及びリードイネーブル信号ERを生成する。これにより、入力バッファ14の各ラインメモリにおいて、リードアドレスRDに格納された勾配情報Gがシフトレジスタ15へ転送される。
<S1302> シフト制御部12は、シフト制御信号SCを生成する。これにより、シフトレジスタ15において、注目勾配情報G0がラスタスキャン順にシフトし、注目勾配情報を中心とする周囲の勾配情報も注目勾配情報G0と同様にシフトする。また、シフト制御部12は、注目ブロックのブロック位置情報BPをブロック判定部13へ出力する。
<S1304> ブロック判定部13は、ブロック位置情報BP及び判定テーブルに基づいて、注目ブロックの種類を判定し、注目ブロックの種類に応じたミラーイネーブル信号EM及び辞書アドレスADD_Mを生成する。
<S1306> シフトレジスタ15は、ミラーイネーブル信号EMに応じた方法で参照アドレスADD_REFを生成する。図14は、第1実施形態のブロック判定を説明する図である。
ミラーイネーブル信号EM=0(すなわち、第1又は第2ブロック)の場合、シフトレジスタ15は、注目勾配情報G0と辞書アドレスADD_Mの和である第1参照アドレスADD_REF0と、注目勾配情報G0及び共起勾配情報Gkに応じた定数Ckと辞書アドレスADD_Mの和である第2参照アドレスADD_REFkを生成する(図14(A))。
一方、ミラーイネーブル信号EM=1(すなわち、第3ブロック)の場合、シフトレジスタ15は、注目勾配情報G0及び共起勾配情報Gkのそれぞれについて、反対の勾配方向を示す値に書き換え、注目勾配情報G´0及び共起勾配情報G´kを生成する(図14(B))。例えば、注目勾配情報G0=1は注目勾配情報G´0=5に書き換えられ、共起勾配情報Gk=7は共起勾配情報G´k=3に書き換えられる。そして、シフトレジスタ15は、注目勾配情報G´0と辞書アドレスADD_Mの和である第1参照アドレスADD_REF0と、注目勾配情報G´0及び共起勾配情報G´kに応じた定数Ckと辞書アドレスADD_Mの和である第2参照アドレスADD_REFkを生成する(図14(A))。
すなわち、第1又は第2ブロックの場合、注目勾配情報G0の方向に対応する第1参照アドレスADD_REF0と、注目勾配情報G0及び共起勾配情報Gkの方向に対応する第2参照アドレスADD_REFkが生成される。一方、第3ブロックの場合、注目勾配情報G´0の方向に対応する第1参照アドレスADD_REF0と、注目勾配情報G´0及び共起勾配情報G´kに対応する第2参照アドレスADD_REFkが生成される。
<S1308> シフトレジスタ15は、ミラーイネーブル信号EMに応じた方法で第2参照アドレスADD_REFkの出力先バンクを決定する。図15は、第1実施形態の出力先バンク決定を説明する図である。
ミラーイネーブル信号EM=0(すなわち、第1又は第2ブロック)の場合、シフトレジスタ15は、第1参照アドレスADD_REF0の出力先を第1バンクBNK0に決定し、第2参照アドレスADD_REFkの出力先を第2バンクBNKkに決定する(図15(A))。例えば、第2参照アドレスADD_REF1の出力先は第2バンクBNK1であり、第2参照アドレスADD_REF8の出力先は第2バンクBNK8である。
一方、ミラーイネーブル信号EM=1(すなわち、第3ブロック)の場合、シフトレジスタ15は、第1参照アドレスADD_REF0の出力先を第1バンクBNK0に決定し、第2参照アドレスADD_REFkの出力先を、ミラーイネーブル信号EM=0の場合とは異なる第2バンクBNKk´に決定する(図15(B))。例えば、第2参照アドレスADD_REF1の出力先は第2バンクBNK8であり、第2参照アドレスADD_REF8の出力先は第2バンクBNK1である。
<S1310> シフトレジスタ15は、S1306で生成した第1参照アドレスADD_REF0及び第2参照アドレスADD_REFkを、S1308で決定した出力先バンクへ出力する。そして、辞書メモリ16は、第1参照アドレスADD_REF0に格納された第1ウェイトW0及び第2参照アドレスADD_REFkに格納された第2ウェイトWkを識別部17へ出力する。そして、加算部171は、第1ウェイトW0と、第2ウェイトWkと、アキュムレータ172からフィードバックされた合算結果と、を合算する。そして、アキュムレータ172は、加算部171の合算結果を蓄積する。
<S1312及びS1314> S1300〜S1310は、画像データIMGを構成する全ての画素についてS1310が完了するまで繰り返される(S1312−NO)。画像データIMGを構成する全ての画素についてS1310が完了すると(S1312−YES)、アキュムレータ172は、合算結果(すなわち、画像データIMGの全ての画素についての第1ウェイトW0及び第2ウェイトWkの合計)を識別結果OUTとして出力する(S1314)。
第1実施形態によれば、画像データIMGを構成する複数のブロックのうち、中心軸上の第1ブロック用の第1辞書データD1と、中心軸に対して片側の第2ブロック用の第2辞書データD2と、を予め用意する。そして、第1ブロックについては第1辞書データD1を用い、第2ブロックについては第2辞書データD2を用い、第2ブロックと鏡像関係にある第3ブロックについては、鏡像関係を考慮して勾配情報G及び出力先バンクを変更し、第2辞書データD2を用いる。すなわち、第2ブロックと第3ブロックとの間で参照する第2辞書データDを共有することができる。これにより、画像の特徴部分の識別に必要な辞書データDのデータ量を低減し、小容量の辞書メモリ16で画像の特徴部分を識別することができる。
(第2実施形態)
本発明の第2実施形態について説明する。第2実施形態は、鏡像関係に基づいて画像データのブロックを反転させる例である。なお、第1実施形態と同様の説明は省略する。図16は、第2実施形態の画像識別装置10のブロック図である。画像識別装置10は、コンピュータプロセッサ(例えば、CPU(Central Processing Unit))により実現される。画像識別装置10は、入力制御部21と、ブロック判定部22と、第1特徴量算出部23と、第2特徴量算出部と、反転部25と、識別部26と、を備える。
第2実施形態の画像識別装置の動作について説明する。図17は、第2実施形態の画像識別処理のフローチャートである。画像識別処理は、画像識別装置10により実行される処理である。
<S1700〜S1704> 入力制御部21は、識別対象である画像を表現する画像データIMGをメインメモリ40から入力する(S1700)。そして、ブロック判定部22は、画像データIMGの注目ブロックの種類を判定する(S1702)。S1702は、第1実施形態のS1304と同様である。第3ブロックの場合(S1704−YES)、S1705へ進む。第1又は第2ブロックの場合(S1704−NO)、S1716へ進む。
<S1706> 第1特徴量算出部23は、例えば式1を用いて、注目ブロック内の複数の画素の画素値から第1又は第2ブロックの第1特徴量を表す第1ベクトルF1を算出する。式1において、dは所定の定数であり、xは共起画素を求めるときの基準点の座標である。なお、第1特徴量算出部23は、式1で表されるHOG特徴量の他に、LBP(Local Binary Pattern)特徴量、Haar-Wavelet特徴量、Edgelet特徴量、Shapelet特徴量等の任意の特徴量についても、同様に第1ベクトルF1を算出することができる。
Figure 2012203691
<S1715及びS1716> 反転部25は、注目ブロック内の複数の画素の位置情報を反転させて、反転ブロックを生成する(S1715)。反転ブロックは、注目ブロックの画像とZ軸について対称な画像である。そして、第2特徴量算出部24は、式1を用いて、反転ブロック内の複数の画素の画素値から第3ブロックの第2特徴量を表す第2ベクトルF2を算出する(S1716)。
なお、第2実施形態では、S1706及びS1716は、上記の例に限られない。例えば、CoHOG特徴量を生成する場合には、式1のdを注目画素の位置に対して左右対称な位置に変更して計算し、図14(B)のように、勾配値を書き換える手順を用いた場合も同じ効果が得られる。これにより、S1715を省略することができる。また、例えば、Haar-Wavelet特徴量を生成する場合には、図19に示すように、第3ブロックについて、符号を反転して第2ベクトルF2を算出しても良い。例えば、LBP特徴量を生成する場合には、図20に示すように、第3ブロックについて、大小関係をコード化する際の順番を変更して第2ベクトルF2を算出しても良い。
<S1707及びS1708> S1702〜S1706、S1715及びS1716は、画像データIMGを構成する全ブロックの特徴量が算出されるまで繰り返される(S1707−NO)。画像データIMGを構成する全ブロックの特徴量が算出されると(S1707−YES)、識別部26は、第1ベクトルF1及び第2ベクトルF2について、同一のウェイトWを用いて画像の識別結果OUTを出力する。例えば、線形SVMを用いた識別では、識別結果OUTは式2で表わされる。式2に示すように、第1ベクトルF1と第2ベクトルF2とでウェイトWが共有されるため、辞書データDのデータ量を削減することができる。例えば、Adaboostを用いた識別では、識別結果OUTは式3で表わされる。式3において、h(f)は第2特徴量であり、h´(f´)は弱識別機である。式3に示すように、第2特徴量h(f)と弱識別機h´(f´)とでウェイトWが共有されるため、辞書データDのデータ量を削減することができる。例えば、Random Forestによる識別では、図20(A)のような決定木があった場合に、図20(B)に示す決定木と辞書データDを共有することができる。
Figure 2012203691
Figure 2012203691
第2実施形態によれば、第3ブロックの画像を反転させてから第2特徴量を算出することで、第2ブロックと第3ブロックとで辞書データDを共有することができる。これにより、画像の特徴部分の識別に必要な辞書データDのデータ量を低減し、小容量の辞書メモリ16で画像の特徴部分を識別することができる。
なお、上述の実施形態では、共有ブロックと鏡像ブロックがZ軸を挟むように位置する情報を含む判定テーブルの例について説明したが、本発明の範囲はこれに限られない。判定テーブルは、任意の位置のブロックが鏡像ブロック(即ち、共有ブロックの第2辞書データが用いられるブロック)であることを示す情報を含んでも良い。
本実施形態に係る画像識別装置10の少なくとも一部は、ハードウェアで構成しても良いし、ソフトウェアで構成しても良い。ソフトウェアで構成する場合には、画像識別装置10の少なくとも一部の機能を実現するプログラムをフレキシブルディスクやCD−ROM等の記録媒体に収納し、コンピュータに読み込ませて実行させても良い。記録媒体は、磁気ディスクや光ディスク等の着脱可能なものに限定されず、ハードディスク装置やメモリなどの固定型の記録媒体でも良い。
また、本実施形態に係る画像識別装置10の少なくとも一部の機能を実現するプログラムを、インターネット等の通信回線(無線通信も含む)を介して頒布しても良い。さらに、同プログラムを暗号化したり、変調をかけたり、圧縮した状態で、インターネット等の有線回線や無線回線を介して、あるいは記録媒体に収納して頒布しても良い。
なお、本発明は、上述した実施形態に限定されるものではなく、その要旨を逸脱しない範囲で構成要素を変形して具体化される。また、上述した実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明が形成可能である。例えば、上述した実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1 画像識別システム
10 画像識別装置
11,21 入力制御部
12 シフト制御部
13,22 ブロック判定部
14 入力バッファ
15 シフトレジスタ
16 辞書メモリ
17,26 識別部
20 カメラ
23 第1特徴量算出部
24 第2特徴量算出部
25 反転部
30 プロセッサ
40 メインメモリ

Claims (5)

  1. サポートベクタマシンの辞書データを格納する、辞書メモリと、
    画像データを構成する複数の画素のうち処理対象の注目画素を含む注目ブロックが、前記辞書データを用いるべき共有ブロックと、前記共有ブロックと共通の辞書データを用いるべき鏡像ブロックの何れであるかを前記注目ブロックの位置に基づいて判定する、ブロック判定部と、
    前記共有ブロック及び前記鏡像ブロックに対して共通の辞書データを用いて、前記画像データの特徴部分を識別する識別部と、
    を備えることを特徴とする画像識別装置。
  2. 前記ブロック判定部は、前記共有ブロックとは異なる辞書データを用いるべき非共有ブロックを前記注目ブロックの位置に基づいて判定し、
    前記辞書メモリの辞書データは、前記非共有ブロック用の第1辞書データ及び前記共有ブロック用の第2辞書データを含み、
    前記識別部は、前記非共有ブロックに対して前記第1辞書データを用い、前記共有ブロック及び前記鏡像ブロックに対して前記第2辞書データを用いて、前記画像データの特徴部分を識別する、請求項1に記載の画像識別装置。
  3. 前記画素毎の勾配方向を示す勾配情報を格納するシフトレジスタをさらに備え、
    前記ブロック判定部は、前記非共有ブロックの場合、前記第1辞書データが格納された前記辞書メモリ上の第1辞書アドレスを生成し、前記共有ブロック又は前記鏡像ブロックの場合、前記第2辞書データが格納された前記辞書メモリ上の第2辞書アドレスを生成し、
    前記シフトレジスタは、前記第1辞書アドレスを用いて、前記第1辞書データのウェイトが格納された前記辞書メモリ上の第1参照アドレスを生成し、前記第2辞書アドレスを用いて、前記第2辞書データのウェイトが格納された前記辞書メモリ上の第2参照アドレスを生成し、
    前記識別部は、前記辞書メモリの前記第1参照アドレス及び前記第2参照アドレスに格納された前記ウェイトを合算し、前記画像の特徴部分を識別する、請求項2に記載の画像識別装置。
  4. 前記共有ブロックの場合、ブロック内の複数の画素に基づいて第1特徴量を算出する第1特徴量算出部と、
    前記鏡像ブロックの場合、ブロック内の複数の画素の座標を反転させて反転ブロックを生成する反転部と、
    前記反転ブロック内の複数の画素に基づいて第2特徴量を算出する第2特徴量算出部と、を備え、
    前記識別部は、前記第1特徴量及び前記第2特徴量を用いて、前記画像の特徴部分を識別する、請求項1又は2に記載の画像識別装置。
  5. サポートベクタマシンの辞書データを格納する辞書メモリを用いて画像の特徴部分を識別する画像識別方法であって、
    画像データを構成する複数の画素のうち処理対象の注目画素を含む注目ブロックが、前記辞書データを用いるべき共有ブロックと、前記共有ブロックと共通の辞書データを用いるべき鏡像ブロックの何れであるかを判定し、
    前記共有ブロック及び前記鏡像ブロックに対して共通の辞書データを用いて前記画像の特徴部分を識別する、ことを特徴とする画像識別方法。
JP2011068316A 2011-03-25 2011-03-25 画像識別装置及び画像識別方法 Active JP5417368B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011068316A JP5417368B2 (ja) 2011-03-25 2011-03-25 画像識別装置及び画像識別方法
US13/229,625 US8611645B2 (en) 2011-03-25 2011-09-09 Apparatus, method and non-transitory computer readable medium to perform image recognizing using dictionary data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011068316A JP5417368B2 (ja) 2011-03-25 2011-03-25 画像識別装置及び画像識別方法

Publications (2)

Publication Number Publication Date
JP2012203691A true JP2012203691A (ja) 2012-10-22
JP5417368B2 JP5417368B2 (ja) 2014-02-12

Family

ID=46877404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011068316A Active JP5417368B2 (ja) 2011-03-25 2011-03-25 画像識別装置及び画像識別方法

Country Status (2)

Country Link
US (1) US8611645B2 (ja)
JP (1) JP5417368B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016170965A1 (ja) * 2015-04-20 2016-10-27 株式会社日立製作所 オブジェクト検出方法及び画像検索システム
US9659227B2 (en) 2014-03-28 2017-05-23 Canon Kabushiki Kaisha Detecting object from image data using feature quantities
JP2020161080A (ja) * 2019-03-28 2020-10-01 Kddi株式会社 画像処理装置及びプログラム
WO2020196917A1 (ja) * 2019-03-28 2020-10-01 株式会社エクォス・リサーチ 画像認識装置、及び画像認識プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112143A (zh) * 2014-07-23 2014-10-22 大连民族学院 基于加权超球支持向量机算法的图像分类方法
CN104200219B (zh) * 2014-08-20 2017-12-08 深圳供电局有限公司 一种变电站刀闸位开关位指示自动识别方法及装置
JP6490441B2 (ja) 2015-02-12 2019-03-27 株式会社東芝 画像評価装置、画像評価方法およびプログラム
CN107122753B (zh) * 2017-05-08 2020-04-07 西安电子科技大学 基于集成学习的sar目标鉴别方法
CN112767387B (zh) * 2021-01-29 2024-04-30 中华人民共和国张家港海关 一种基于分块梯度加权的木材图像自动识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072770A (ja) * 2004-09-02 2006-03-16 Sanyo Electric Co Ltd 顔検出装置および顔向き推定装置
JP2009282699A (ja) * 2008-05-21 2009-12-03 Seiko Epson Corp 画像における顔の器官の画像に対応する器官領域の検出
JP2010282340A (ja) * 2009-06-03 2010-12-16 Seiko Epson Corp 画像に含まれる目の状態を判定する画像処理装置、画像処理方法、画像処理プログラム、および、印刷装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080080744A1 (en) * 2004-09-17 2008-04-03 Mitsubishi Electric Corporation Face Identification Apparatus and Face Identification Method
JP5214367B2 (ja) * 2008-08-08 2013-06-19 株式会社東芝 特徴量抽出装置、特徴量抽出方法、画像処理装置、及び、プログラム
JP4970381B2 (ja) 2008-08-08 2012-07-04 株式会社東芝 特徴抽出装置、特徴抽出方法、画像処理装置、及び、プログラム
CN103003814A (zh) * 2010-05-14 2013-03-27 数据逻辑Adc公司 使用大型数据库进行对象识别的系统及方法
US20120275653A1 (en) * 2011-04-28 2012-11-01 Industrial Technology Research Institute Method for recognizing license plate image, and related computer program product, computer-readable recording medium, and image recognizing apparatus using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072770A (ja) * 2004-09-02 2006-03-16 Sanyo Electric Co Ltd 顔検出装置および顔向き推定装置
JP2009282699A (ja) * 2008-05-21 2009-12-03 Seiko Epson Corp 画像における顔の器官の画像に対応する器官領域の検出
JP2010282340A (ja) * 2009-06-03 2010-12-16 Seiko Epson Corp 画像に含まれる目の状態を判定する画像処理装置、画像処理方法、画像処理プログラム、および、印刷装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9659227B2 (en) 2014-03-28 2017-05-23 Canon Kabushiki Kaisha Detecting object from image data using feature quantities
WO2016170965A1 (ja) * 2015-04-20 2016-10-27 株式会社日立製作所 オブジェクト検出方法及び画像検索システム
JP2016206837A (ja) * 2015-04-20 2016-12-08 株式会社日立製作所 オブジェクト検出方法及び画像検索システム
US10373014B2 (en) 2015-04-20 2019-08-06 Hitachi, Ltd. Object detection method and image search system
JP2020161080A (ja) * 2019-03-28 2020-10-01 Kddi株式会社 画像処理装置及びプログラム
WO2020196917A1 (ja) * 2019-03-28 2020-10-01 株式会社エクォス・リサーチ 画像認識装置、及び画像認識プログラム
JP7061092B2 (ja) 2019-03-28 2022-04-27 Kddi株式会社 画像処理装置及びプログラム

Also Published As

Publication number Publication date
US8611645B2 (en) 2013-12-17
JP5417368B2 (ja) 2014-02-12
US20120243778A1 (en) 2012-09-27

Similar Documents

Publication Publication Date Title
JP5417368B2 (ja) 画像識別装置及び画像識別方法
US10580148B2 (en) Graphical coordinate system transform for video frames
US20180129914A1 (en) Image recognition device and image recognition method
US9779488B2 (en) Information processing device, image processing method and medium
US9299182B2 (en) Divided-area-based rendering device and divided-area-based rendering method
US11954830B2 (en) High dynamic range support for legacy applications
CN111290684B (zh) 图像显示方法、图像显示装置及终端设备
US20200250401A1 (en) Computer system and computer-readable storage medium
CN109416621B (zh) 利用支持共享对象的计算机存储系统来恢复非易失性存储中的空闲空间
JP6762570B2 (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP2020030730A (ja) 家屋異動判読システム、家屋異動判読方法、家屋異動判読プログラム及び滅失判読モデル
JP2020166652A (ja) 画像処理装置、画像処理方法及びプログラム
JP6539469B2 (ja) 特徴量抽出装置、特徴量抽出方法及び特徴量抽出用プログラム
JP2018181308A (ja) 画像処理装置及び画像処理方法
JP3706603B2 (ja) データ特徴抽出装置及びデータ照合装置
CN112927221B (zh) 一种基于图像细粒度特征翻拍检测方法及系统
CN111626305B (zh) 目标检测方法、装置和设备
CN112967187B (zh) 用于目标检测的方法和装置
KR100824055B1 (ko) 3차원 정반사 조명 처리 장치 및 방법
Wang et al. Pedestrian Detection Over 100 fps with C4 Algorithm
KR20240078525A (ko) 인공지능 학습용 이미지 데이터 셋의 거래의 중개 방법 및 서버
CN118154689A (zh) 零件位置获取方法、装置、计算机设备、存储介质和产品
KR20220003376A (ko) 이미지 처리 방법 및 장치
JP2618486B2 (ja) パターン認識方法
CN117592548A (zh) 一种红外图像着色网络的训练方法和红外图像着色方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131118

R151 Written notification of patent or utility model registration

Ref document number: 5417368

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151