JP2015225469A - 画像処理装置、画像処理方法、及びプログラム - Google Patents
画像処理装置、画像処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2015225469A JP2015225469A JP2014109453A JP2014109453A JP2015225469A JP 2015225469 A JP2015225469 A JP 2015225469A JP 2014109453 A JP2014109453 A JP 2014109453A JP 2014109453 A JP2014109453 A JP 2014109453A JP 2015225469 A JP2015225469 A JP 2015225469A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- pixel
- image
- pixel value
- bit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】少ない記憶容量で物体の認識処理を実現するために好適な特徴量を抽出することが可能な画像処理装置を提供する。
【解決手段】入力画像から特徴画像を生成する特徴画像生成部と、生成した特徴画像から所定の特徴点の画素の画素値を抽出する画素値抽出部と、抽出した特徴点の画素の画素値と所定のビットマスクとによって画素値の一部のビットを選択し物体の認識処理に用いる特徴量を符号化する特徴符号化部とを有し、特徴点の画素の画素値からビットマスクにより物体識別の能力の高いビットを選択して特徴量とし、弱判別処理を行うルックアップテーブルのサイズを削減する。
【選択図】図3
【解決手段】入力画像から特徴画像を生成する特徴画像生成部と、生成した特徴画像から所定の特徴点の画素の画素値を抽出する画素値抽出部と、抽出した特徴点の画素の画素値と所定のビットマスクとによって画素値の一部のビットを選択し物体の認識処理に用いる特徴量を符号化する特徴符号化部とを有し、特徴点の画素の画素値からビットマスクにより物体識別の能力の高いビットを選択して特徴量とし、弱判別処理を行うルックアップテーブルのサイズを削減する。
【選択図】図3
Description
本発明は、画像処理装置、画像処理方法、及びプログラムに関する。
現在、画像から物体を検出する方法は機械学習に基づくものが主流になっている。アダブースト学習に基づいた物体検出方法は、検出精度や処理速度の面で優れており、注目されている。アダブースト学習に基づいた物体検出装置は、複数の強判別器を含み、それぞれの強判別器は複数の弱判別器を有する。それぞれの弱判別器は、特徴量を抽出する特徴抽出ユニット、及びルックアップテーブル(LUT:Lookup Table)を参照して弱判別処理を行う弱判別ユニットを有する。
アダブースト学習に基づいた物体検出装置において、識別に適した特徴量は予め用意した特徴量から選択されて弱判別器を構成する。物体を高速に検出するためには、例えば特徴量の計算コストは低くし、強判別器は少ない弱判別器で構成することが要求される。また、物体検出装置をハードウェアチップに組み込む場合には、例えば必要な記憶容量を削減するためにルックアップテーブルのサイズは小さくして、回路の規模を削減することが要求される。このような要求を鑑みると、特徴量を設計するキーポイントは、特徴量の識別性能、特徴量の算出の高速性、小サイズのルックアップテーブルの生成である。
非特許文献1には、LAB(Locally Assembled Binary)特徴量の画像を事前に計算しておき、カスケード型の高速な顔検出装置を実現する技術が記載されている。検出の過程において、弱判別器の特徴量は事前に計算した特徴画像の画素をアクセスすることで得られ非常に高速である。しかし、LAB特徴量は256通りもの値を持つため、それぞれの弱判別器のルックアップテーブルにも256個のエントリーが必要となってしまう。この大きな記憶容量は、ハードウェアチップへの組み込みを困難とさせる原因となる。
また、非特許文献2には、物体検出にUniform LBP(Local Binary Pattern、ローカルバイナリパターン)と非冗長LBPを採用して記憶容量を削減する技術が記載されている。環状2値表現において0→1又は1→0に変化した回数が2回以下のLBPをUniform LBPと定義し、Uniform LBP以外のLBPはnon−uniform LBPと呼ばれ、1つのパターンにマージする。これによりUniform LBPは、参照テーブルを59エントリーに削減している。非冗長LBPは、Uniform LBPのパターンをさらにマージすることにより、参照テーブルを30エントリーに削減している。
S. Yan, S. Shan, X. Chen, and W. Gao, "Locally Assembled Binary (LAB) feature with feature-centric cascade for fast and accurate face detection", Proceedings of CVPR. 2008.
D.T. Nguyen, Z. Zong, P. Ogunbona, and W. Li, "Object detection using Non-Redundant Local Binary Patterns", Proceedings of ICIP. 2010
しかしながら、前記非特許文献2に記載の技術では、これらの特徴量の識別性能がオリジナルLBPより低下するといった問題がある。このことは、強判別器の構成に、より多くの弱判別器が必要となることを意味する。主に弱判別器の数とルックアップテーブルのエントリーサイズとによって要求される記憶容量が変動するため、より少ない弱判別器を生成する特徴量と小さい参照テーブルが必要不可欠である。本発明の目的は、少ない記憶容量で物体の認識処理を実現するために好適な特徴量を抽出することが可能な画像処理装置を提供することである。
本発明に係る画像処理装置は、入力される画像から物体の認識処理に用いる特徴量を抽出する画像処理装置であって、入力される前記画像から特徴画像を生成する特徴画像生成手段と、前記特徴画像生成手段で生成した特徴画像から所定の特徴点の画素の画素値を抽出する画素値抽出手段と、前記画素値抽出手段で抽出した特徴点の画素の画素値と所定のビットマスクとによって、当該画素値の一部のビットを選択して前記特徴量を符号化する特徴符号化手段とを有することを特徴とする。
本発明によれば、所定の特徴点の画素の画素値から所定のビットマスクにより物体識別の能力の高いビットを選択して特徴量とするので、弱判別処理を行うルックアップテーブルのサイズを削減でき、少ない記憶容量での物体の認識処理の実現が可能となる。
以下、本発明の実施形態を図面に基づいて説明する。
図1は、本発明の一実施形態に係る画像処理装置を含む物体検出装置の構成例を示す図である。図2は、本実施形態における物体検出装置の処理の流れを示す図である。図1に示すように、本実施形態における物体検出装置100は、画像入力部101、部分領域画像抽出部102、本実施形態に係る画像処理装置を含む特徴抽出部103、物体判別部104、認識結果統合部105、及び物体モデル106を有する。
以下、図2に示すフローチャートを用いて、本実施形態における物体検出装置100の処理の流れを説明する。本実施形態において、部分領域画像は物体検出ウィンドウ画像である。ステップS101にて、画像入力部101は、不図示の画像撮影装置や画像記憶装置等から1つのフレーム画像を取得する。
ステップS102にて、部分領域画像抽出部102は、ステップS101において取得したフレーム画像について所定の倍率で繰り返し縮小処理を行い、複数のサイズの画像を作成する。部分領域画像抽出部102は、作成した複数のサイズ(解像度)の画像の各画像について、物体モデル106の判別器に対応した領域サイズで、所定のステップ幅でスキャンを行い、物体検出ウィンドウ画像を作成する。そして、作成したすべての部分領域画像(物体検出ウィンドウ画像)について、ステップS103〜S108の物体の認識処理が行われる。
ステップS103にて、特徴抽出部103及び物体判別部104は、物体モデル106を読み込む。物体モデル106は、現在の物体検出ウィンドウ画像に認識対象の物体が含まれるか否かを判断するために、カスケード化した各弱判別器に利用する特徴量の情報、弱判別器の出力値を参照するルックアップテーブル、及び判別の閾値を少なくとも保持している。なお、本実施形態では、1つの弱判別器毎に現在の物体検出ウィンドウ画像に認識対象の物体が含まれているか否かを判断するように閾値を持つ構成としている。
ステップS104にて、物体モデル106を構成するすべての弱判別器について、ステップS105〜S107の処理を行ったかどうかを判断する。ステップS105にて、特徴抽出部103は、物体モデル106に記憶されている現在の弱判別器の特徴量の情報に基づいて、現在の物体検出ウィンドウ画像の特徴量の値を計算する。ステップS106にて、物体判別部104は、ステップS105において算出された特徴量の値に基づいて、現在の弱判別器のルックアップテーブルを参照して弱判別処理を行い、現在の物体検出ウィンドウ画像に認識対象の物体が含まれているか否かを判定する。
ステップS107にて、物体判別部104は、ステップS106での判定結果に基づいて、処理フローを制御する。現在の物体検出ウィンドウ画像に認識対象の物体が含まれていると判定した場合には、ステップS105に移り、次の弱判別器でステップS105〜S107の処理を行う。一方、現在の物体検出ウィンドウ画像に認識対象の物体が含まれていないと判定した場合には、ステップS105〜ステップS107の処理を中断して、ステップS109に移り、次の物体検出ウィンドウ画像の処理に移る。
ステップS109にて、ステップS103〜S108の認識処理を、すべての物体検出ウィンドウ画像に適用したかどうかを判定する。適用していない物体検出ウィンドウ画像がある場合には、ステップS103に戻って次の物体検出ウィンドウ画像を処理し、すべての物体検出ウィンドウ画像に適用した場合には、終了処理を行う。ステップS110にて、認識結果統合部105は、認識対象の物体が含まれていると識別した物体検出ウィンドウ画像のうち、互いに重複するウィンドウ画像を判定して1つに統合する。ステップS111にて、認識結果統合部105は、統合した結果を出力する。
図3は、本実施形態における特徴抽出部103の構成例を示す図である。図3に示すように、特徴抽出部103は、特徴画像を生成する特徴画像生成部201、生成した特徴画像から特徴点の画素値を抽出する画素値抽出部202、及び抽出した画素値とビットマスクとから特徴量を符号化する特徴符号化部203を有する。ここで、特徴点の位置やビットマスクは、物体モデル106に記憶されており、特徴抽出処理を行う際に特徴抽出部103に読み込まれる。
特徴画像生成部201は、入力される画像から1つ又は複数の特徴画像を生成する。特徴画像の各画素は、論理値の組み合わせである。例えば、特徴画像はLBP(Local Binary Pattern、ローカルバイナリパターン)画像であり、非特許文献2に開示されている方法によって入力画像の各画素に対するLBP特徴が抽出される。
図4は、LBP特徴抽出処理の例を示す図である。図4(A)に示すように、対象画素(図示の例では画素値54の中央画素)のLBPコードは、対象画素の画素値と近傍の画素の画素値(図示の例では隣接する画素の画素値)とを比較することによって得られる。すなわち、近傍の画素に関して、近傍の画素の画素値が対象画素の画素値以上である場合には“1”、その他の場合(近傍の画素の画素値が対象画素の画素値未満の場合)には“0”としてラベル付けする。ラベル付けした“0”又は“1”の結果は、左上の近傍画素との比較結果から始めて時計回りで符号化される。図4(A)に示した例では、対象画素のLBPは“11000011”(10進数の195)となる。最上位ビット(1ビット目)が左上の近傍画素に対応する。
異なる解像度でのテクスチャに対応するために、LBP特徴抽出処理は異なる距離の画素との比較を利用するように拡張可能である。図4(B)に示すように、LBP(8,1)は、対象画素に対して距離が1である8つの近傍画素との比較を行う。また、図4(C)に示すように、LBP(8,2)は、対象画素に対して距離が2である8つの近傍画素との比較を行う。LBP(8,1)とLBP(8,2)の処理を行うことによって異なるスケールの2つのLBP画像を生成できる。
ここで本実施形態において、特徴画像はLBP画像に制限されるものではない。LBPに代表される論理値(論理コード)を生成する他の処理でもよい。例えば、論理コードは、輝度画像の異なる方向の勾配強度を比較して生成することができる。まず、入力画像の各画素(x,y)に対して、以下のように勾配強度を算出する。
ここで、dx(x,y)及びdy(x,y)は、それぞれx方向及びy方向の勾配強度であり、I(x,y)は入力画像の位置(x,y)における輝度値を表す。
そして、方向別の勾配強度は、以下のように算出する。
そして、方向別の勾配強度は、以下のように算出する。
但し、θk=k×π/8(k=0,1,…,7)であり、8方向の角度毎に勾配強度を算出する。算出した各勾配強度画像は2×2、3×3、又は4×4のサイズのボックス形フィルタを適用してぼかしてもよい。
前述のようにして算出された勾配強度画像(又はぼかした勾配強度画像)から以下のようにして特徴画像を生成する。すなわち、以下に示すように各方向の勾配強度の値を、全方向の勾配強度の平均値gavg(x,y)と比較して“0”又は“1”の論理値を得る。
前述のようにして算出された勾配強度画像(又はぼかした勾配強度画像)から以下のようにして特徴画像を生成する。すなわち、以下に示すように各方向の勾配強度の値を、全方向の勾配強度の平均値gavg(x,y)と比較して“0”又は“1”の論理値を得る。
最後に、k=0,1,…,7の全方向の論理値が連結されて特徴画像の画素値を形成する。
画素値抽出部202は、特徴画像生成部201で生成した特徴画像から予め定めた特徴点の画素の画素値を抽出する。特徴点は、特徴画像の1つの画素、又は同じ特徴画像の複数の画素、又は異なる特徴画像の複数の画素に対応する。図5(A)〜図5(C)にその例を示す。図5(A)は、1つの特徴画像の1つの画素501を特徴点とする例を示している。図5(B)は、同じ特徴画像(1つの特徴画像)の2つの画素502、503を特徴点とする例を示している。図5(C)は、異なる特徴画像I1、I2の2つの画素504、505を特徴点とする例を示している。
特徴符号化部203は、画素値抽出部202で抽出した画素値と予め定められたビットマスクとから特徴量を符号化する。ビットマスクは、特徴点の位置とビットマスクの組み合わせのうち、予め行われた機械学習によって学習サンプルに対して識別性能の高いものが選択されている。図6は、特徴量の符号化処理の例を示す図である。図6(A)には、1つの画素の画素値とビットマスクから特徴量を符号化する例を示している。この例では、画素値は8ビットの値“10100110”であり、ビットマスクは8ビットの値“10110010”である。ビットマスクにおいて各“1”の値は画素値の対応するビットが符号化処理において選択されることを表す。この例では、ビットマスクのうち“1”の位置は、上位側から1番目、3番目、4番目、7番目であるので、画素値の上位側から1番目、3番目、4番目、7番目のビットが選択される。そして、選択されたビットの値1,1,0,1を4ビットコード“1101”(10進数の13に対応)に連結する。
図6(B)には、2つの画素の画素値とビットマスクから特徴量を符号化する例を示している。この例では、8ビットのビットマスクは、上位側4ビットの第1のビットマスクと下位側4ビットの第2のビットマスクとの2つの部分に分かれる。第1の4ビットマスクは、画素Aの第1の4ビット(上位側4ビット)からビットを選択し、第2の4ビットマスクは、画素Bの第2の4ビット(下位側4ビット)からビットを選択する。図6(B)に示す例では、画素Aの画素値の上位側から1番目、3番目、4番目のビットと画素Bの画素値の上位側から7番目のビットが選択される。選択されたビットの値は4ビットコード“1100”(10進数の12に対応)に連結される。
図6(A)及び図6(B)に示した例では、符号化処理においてビットマスクの各ビットをビット毎に繰り返し評価する必要がある。すなわち、ビットマスクにおいて値が“1”なら対応する画素のビットを選択し、そうでなければ選択しない、という処理の繰り返しが必要となり、ビットマスクが8ビットの場合には8回の評価が必要である。
前述した特徴量の符号化処理は、例えば以下に説明するようにルックアップテーブルを用いることで高速化することが可能である。図7を参照して、ルックアップテーブルを使用して1画素の特徴量を符号化する例について説明する。まず、画素値とビットマスクとを2つのグループに分割する。画素値の上位4ビットとビットマスクの上位4ビットとを第1のグループ701Aとし、画素値の下位4ビットとビットマスクの下位4ビットとを第2のグループ701Bとする。
それぞれのグループで、ビットマスクの4ビットを上位側ビット、画素値の4ビットを下位側ビットとした8ビットのバイナリコードに連結される。例えば、第1のグループは第1のバイナリコード702A:“10111010”、第2のグループは第2のバイナリコード702B:“00100110”を得る。そして、得られた8ビットのバイナリコードをインデックスとして用いてルックアップテーブルを参照し、それぞれ4ビットのコードに変換する。すなわち、8ビットの第1のバイナリコード702A:“10111010”を4ビットのバイナリコード703A:“1100”に変換する。また、8ビットの第2のバイナリコード702B:“00100110”を4ビットのバイナリコード702B:“0001”に変換する。最後に、2つの4ビットのバイナリコードを論理和演算(OR論理演算)によって結合し、特徴量の値704“1101”を得る。
2画素の特徴量を符号化する場合においても同様の符号化処理を行う。図8に示すように、特徴量は2つの画素を含む。画素Aの上位4ビットとビットマスクの上位4ビットとが抽出され、第1のグループ801Aにグループ化される。また、画素Bの下位4ビットとビットマスクの下位4ビットが抽出され、第2のグループ801Bにグループ化される。そして、それぞれのグループで、ビットマスクの4ビットを上位側ビット、画素値の4ビットを下位側ビットとした8ビットのバイナリコード802A、802Bに連結される。続いて、得られた8ビットのバイナリコード802A、802Bをインデックスとして用いてルックアップテーブルを参照し、それぞれ4ビットのバイナリコード803A、803Bに変換する。さらに、4ビットのバイナリコード803A、803Bを論理和演算(OR論理演算)によって結合して、特徴量の値804を得る。
ここで、図7及び図8に示した、第1のグループで参照されるルックアップテーブルLUT Aと、第2のグループで参照されるルックアップテーブルLUT Bは、事前に計算された4ビットの値を有する。各ルックアップテーブルは、インデックスとして用いる8ビットのバイナリコードに対応した256個のエントリーを有する。例えば、第1のグループで参照されるルックアップテーブルLUT A、及び第2のグループで参照されるルックアップテーブルLUT Bは、それぞれ以下のようなテーブルを有する。
LUT A:
0000 0000 → 0000
0000 0001 → 0000
・・・
1110 1010 → 1010
・・・
0000 0000 → 0000
0000 0001 → 0000
・・・
1110 1010 → 1010
・・・
LUT B:
0000 0000 → 0000
0000 0001 → 0000
・・・
1110 1010 → 0101
・・・
0000 0000 → 0000
0000 0001 → 0000
・・・
1110 1010 → 0101
・・・
以上説明したように本実施形態では、LBPのような8ビットで表現される特徴であったとしても、物体識別には8ビットの一部のみが有効であることを利用している。すなわち、すべてのビットを使う代わりに物体識別に強いビットのみを選択することで、弱判別処理を行うルックアップテーブルのサイズを削減することができ、必要な記憶容量を削減することができる。さらに、特徴画像の複数の画素から物体識別に有効なビットを選択して特徴量を形成できる。そのような特徴量は、LBPのような単独の特徴量よりも識別性能の高いジョイント特徴量である。このジョイント特徴量によって、より少ない数の弱判別器で強判別器を構成でき、回路面積を削減することができる。
以下に特徴点とビットマスクの学習方法について説明する。この学習方法は機械学習の1つであるアダブースト学習に基づく。まず、事前に正及び負の学習サンプルを用意する。正の学習サンプルは、認識対象とする物体を含む画像であり、負の学習サンプルは、認識対象とする物体を含まない画像である。例えば、人物の顔を検出する顔検出装置に使用する物体モデルの特徴量の情報を学習する場合には、正の学習サンプルとして顔画像を、負の学習サンプルとして非顔画像を用意する。そして、これらの正及び負の学習サンプルから特徴画像を1つ又は複数生成しておく。特徴画像は、例えば前述したLBP画像である。
学習のための特徴量のデータベースには、予め特徴画像中の特徴点の位置とビットマスクとの組み合わせを設定しておく。ここで、特徴点の位置は、単独(前述した1画素特徴に対応)又は複数(前述した2画素特徴に対応)を設定しておく。また、ビットマスクは8ビットから4ビットを選択するように(8ビットのうちの4ビットの値を“1”とするように)設定しておく。
正及び負の学習サンプルに対して最も識別性能の高い特徴、すなわち特徴画像中の特徴点の位置とビットマスクの組み合わせが弱判別器として選択される。そして、選択した特徴点の画素とビットマスクの組み合わせから符号化されるバイナリコードの正及び負サンプルの統計からルックアップテーブルが生成される。ここで生成されるルックアップテーブルは4ビットのバイナリコードに対応する16エントリーの小サイズのルックアップテーブルである。また、判別の閾値を所定の基準に基づいて決定する。
そして、アダブースト学習アルゴリズムに従って、正及び負の学習サンプルの重みが識別結果によって更新され、弱判別器の選択処理が所定回数繰り返される。選択された弱判別器はカスケード化した物体判別器を構成し、物体モデル106に記憶され、検出処理において、ある位置での物体の存在の決定に使われる。ここで学習した物体モデル106は複数の弱判別器を含み、各弱判別器は特徴量表現、ルックアップテーブル、閾値を含むデータ構造を保持する。そして、各特徴量表現は1つ又は2つの特徴点の位置とビットマスクを含む。各特徴点位置は(I,x,y)で示され、Iは特徴画像のインデックス、(x,y)は特徴画像の座標である。
以上の説明においては、特徴画像の1つ又は2つの画素から識別性能の高い4つのビットをビットマスクを用いて取得し、4ビットのバイナリコードを画像特徴量として取得している。ここで取得するバイナリコードのビット数は、より一般的にNビットとしても成り立つ。このとき、ビットマスクは、Nビットの第1のビットマスクとNビットの第2のビットマスクからなる2Nビットのビット配列とすれば良い。そして、特徴点の画素の画素値の第1のNビットと第1のビットマスクとを連結し、特徴点の画素の画素値の第2のNビットと第2のビットマスクとを連結して、Nビットのバイナリコードを取得するようにすれば良い。Nの値が小さければ小さい程、本発明の効果は大きい。また、特徴画像の3つ以上の画素からバイナリコードを取得するようにしてもよい。
また、以上の説明においては、複数の特徴点の画素値について、同じビットマスクの異なるビットを利用して物体識別に強いビットのみを選択し連結する。図9に示すように、複数の特徴点の画素値について、異なるビットマスクを利用して、物体識別に強いビットのみを選択し連結することも可能である。図に示すように、画素値Aは、ビットマスクAと対応し、第1ビットと第3ビットが符号化処理において選択される。一方、画素値Bは、ビットマスクBと対応し、第3ビットと第7ビットが符号化処理において選択される。最後に、選択されたそれぞれのビットの値は4ビットコード“1110”(10進数の14に対応)に連結される。異なるビットマスクを利用することにより、識別性能の高いビットを自由にジョイントできるようになる。
以上の実施形態では、物体検出を例として説明したが、物体検出の他に、本実施形態における画像処理装置は、例えば、顔認識の特徴量を抽出する画像処理装置としても利用できる。入力顔画像に対して特徴量が抽出され、同じ特徴量の値を示す特徴を積算してヒストグラム特徴を形成する。そして、ヒストグラム特徴はデータベースにストアされた特徴量と比較され、入力顔画像が照合される。
図10は、本実施形態における画像処理装置を実現可能なコンピュータの構成例を示すブロック図である。図10において、901はCPUであり、本実施形態の画像処理装置における各種制御を実行する。902はROMであり、本装置の立ち上げ時に実行されるブートプログラムや各種データを格納する。903はRAMであり、CPU901が処理するための制御プログラムを格納するとともに、CPU901が各種制御を実行する際の作業領域を提供する。904はキーボード、905はマウスであり、ユーザによる各種入力操作環境を提供する。
906は外部記憶装置であり、ハードディスクやフレキシブルディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ等で構成される。ただし、外部記憶装置906は、制御プログラムや各種データをすべてROM902に持つようにすれば、必ずしも必要な構成要素ではない。907は表示器であり、ディスプレイ等で構成され、結果等をユーザに対して表示する。908はネットワークインターフェースである。909はビデオインターフェースであり、図示しない画像撮影装置や画像記憶装置等とケーブル等を介したフレーム画像の取り込みを可能とする。また、911は前記の各構成を接続するバスである。
また、本発明は、以下の処理を実行することによっても実現される。即ち、前述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
なお、前記実施形態は、何れも本発明を実施するにあたっての具体化のほんの一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
100:物体検出装置 102:部分領域画像抽出部 103:特徴抽出部 104:物体判別部 105:認識結果統合部 106:物体モデル 201:特徴画像生成部 202:画素値抽出部 203:特徴符号化部
Claims (9)
- 入力される画像から物体の認識処理に用いる特徴量を抽出する画像処理装置であって、
入力される前記画像から特徴画像を生成する特徴画像生成手段と、
前記特徴画像生成手段で生成した特徴画像から所定の特徴点の画素の画素値を抽出する画素値抽出手段と、
前記画素値抽出手段で抽出した特徴点の画素の画素値と所定のビットマスクとによって、当該画素値の一部のビットを選択して前記特徴量を符号化する特徴符号化手段とを有することを特徴とする画像処理装置。 - 前記特徴符号化手段は、前記特徴点の画素の画素値と前記ビットマスクとからインデックスを生成してルックアップテーブルを参照し、前記ルックアップテーブルを参照して得られた値を基に前記特徴量を符号化することを特徴とする請求項1記載の画像処理装置。
- 前記特徴符号化手段は、前記画素値抽出手段で抽出した特徴点の画素の画素値から前記ビットマスクに基づいて一部のビットの値を取得し、取得した前記一部のビットの値を連結して前記特徴量を符号化することを特徴とする請求項1記載の画像処理装置。
- 前記ビットマスクは、Nビットの第1のビットマスクとNビットの第2のビットマスクからなる2Nビットのビット配列であり、
前記特徴符号化手段は、前記特徴点の画素の画素値の第1のNビットと前記第1のビットマスクとを連結して2Nビットの第1のバイナリコードを生成し、ルックアップテーブルを参照して前記第1のバイナリコードをNビットのバイナリコードに変換するとともに、前記特徴点の画素の画素値の第2のNビットと前記第2のビットマスクとを連結して2Nビットの第2のバイナリコードを生成し、ルックアップテーブルを参照して前記第2のバイナリコードをNビットのバイナリコードに変換し、前記第1のバイナリコード及び前記第2のバイナリコードをそれぞれ変換して得られたバイナリコードを論理和演算してNビットの前記特徴量に符号化することを特徴とする請求項2記載の画像処理装置。 - 前記画素値抽出手段は複数の特徴点の画素の画素値を抽出し、
前記特徴符号化手段は、抽出した第1の特徴点の画素の画素値の第1のNビットと前記第1のビットマスクとを連結して2Nビットの前記第1のバイナリコードを生成するとともに、抽出した第2の特徴点の画素の画素値の第2のNビットと前記第2のビットマスクとを連結して2Nビットの前記第2のバイナリコードを生成することを特徴とする請求項4記載の画像処理装置。 - 前記特徴画像生成手段が生成する特徴画像は、入力された前記画像から取得した対象画素の画素値と当該対象画素の近傍の画素の画素値との比較結果に基づく論理値の組み合わせを当該対象画素の画素値とすることを特徴とする請求項1〜5の何れか1項に記載の画像処理装置。
- 前記ビットマスクは、認識対象とする物体を含む学習サンプルと認識対象とする物体を含まない学習サンプルとを用いた機械学習によって取得することを特徴とする請求項1〜6の何れか1項に記載の画像処理装置。
- 入力される画像から物体の認識処理に用いる特徴量を抽出する画像処理方法であって、
入力される前記画像から特徴画像を生成する工程と、
生成した前記特徴画像から所定の特徴点の画素の画素値を抽出する工程と、
抽出した前記特徴点の画素の画素値と所定のビットマスクとによって、当該画素値の一部のビットを選択して前記特徴量を符号化する工程とを有することを特徴とする画像処理方法。 - 入力される画像から物体の認識処理に用いる特徴量を抽出する画像処理方法をコンピュータに実行させるためのプログラムであって、
入力される前記画像から特徴画像を生成するステップと、
生成した前記特徴画像から所定の特徴点の画素の画素値を抽出するステップと、
抽出した前記特徴点の画素の画素値と所定のビットマスクとによって、当該画素値の一部のビットを選択して前記特徴量を符号化するステップとをコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014109453A JP2015225469A (ja) | 2014-05-27 | 2014-05-27 | 画像処理装置、画像処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014109453A JP2015225469A (ja) | 2014-05-27 | 2014-05-27 | 画像処理装置、画像処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015225469A true JP2015225469A (ja) | 2015-12-14 |
Family
ID=54842171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014109453A Pending JP2015225469A (ja) | 2014-05-27 | 2014-05-27 | 画像処理装置、画像処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015225469A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022064884A1 (ja) * | 2020-09-24 | 2022-03-31 | カシオ計算機株式会社 | ハードウェアアクセラレータ、画像処理装置及び画像処理方法 |
US11928843B2 (en) | 2019-12-03 | 2024-03-12 | Canon Kabushiki Kaisha | Signal processing apparatus and signal processing method |
-
2014
- 2014-05-27 JP JP2014109453A patent/JP2015225469A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11928843B2 (en) | 2019-12-03 | 2024-03-12 | Canon Kabushiki Kaisha | Signal processing apparatus and signal processing method |
WO2022064884A1 (ja) * | 2020-09-24 | 2022-03-31 | カシオ計算機株式会社 | ハードウェアアクセラレータ、画像処理装置及び画像処理方法 |
JP2022053424A (ja) * | 2020-09-24 | 2022-04-05 | カシオ計算機株式会社 | ハードウェアアクセラレータ、画像処理装置及び画像処理方法 |
JP7188426B2 (ja) | 2020-09-24 | 2022-12-13 | カシオ計算機株式会社 | ハードウェアアクセラレータ、画像処理装置及び画像処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10769473B2 (en) | Image processing apparatus, image processing method, and non-transitory computer-readable storage medium | |
US9235779B2 (en) | Method and apparatus for recognizing a character based on a photographed image | |
JP5997545B2 (ja) | 信号処理方法及び信号処理装置 | |
JP2006350434A (ja) | 手形状認識装置及びその方法 | |
JP2011128990A (ja) | 画像処理装置とその方法 | |
CN112381183B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN110390327B (zh) | 前景提取方法、装置、计算机设备及存储介质 | |
Rahim et al. | Hand gesture recognition based on optimal segmentation in human-computer interaction | |
US11836958B2 (en) | Automatically detecting and isolating objects in images | |
JP5578816B2 (ja) | 画像処理装置 | |
US8913782B2 (en) | Object detection apparatus and method therefor | |
US9117132B2 (en) | System and method facilitating designing of classifier while recognizing characters in a video | |
JP4087421B2 (ja) | パターン認識装置、パターン認識方法、パターン認識プログラム、および記録媒体 | |
JP2015225469A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN109598206B (zh) | 动态手势识别方法及装置 | |
KR102256409B1 (ko) | 학습 데이터 세트를 생성하는 방법 및 학습 데이터 세트를 생성하기 위한 컴퓨터 장치 | |
Tarrataca et al. | The current feasibility of gesture recognition for a smartphone using J2ME | |
Chen et al. | Massive figure extraction and classification in electronic component datasheets for accelerating PCB design preparation | |
Ma et al. | Matting enhanced mask R-CNN | |
JP6125331B2 (ja) | テクスチャ検出装置、テクスチャ検出方法、テクスチャ検出プログラム、および画像処理システム | |
CN112749704A (zh) | 文本区域的检测方法、装置和服务器 | |
JP2020027365A (ja) | 局所特徴量抽出装置、局所特徴量抽出プログラム、状態判定装置、及び状態判定プログラム | |
CN111899181A (zh) | 去除图像中的阴影的方法和装置 | |
JP2012022412A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
EP4350610A1 (en) | Teaching data generation device, teaching data generation method, and image processing device |