JP2016071800A

JP2016071800A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2016071800A
Application number: JP2014203411A
Authority: JP
Inventors: 睦凌郭; Bokuryo Kaku; 内山　寛之; Hiroyuki Uchiyama; 寛之内山; 一郎梅田; Ichiro Umeda; 矢野　光太郎; Kotaro Yano; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-10-01
Filing date: 2014-10-01
Publication date: 2016-05-09

Abstract

【課題】検出対象の物体の画像が含まれる画像を効果的に検出することを目的とする。
【解決手段】物体検出装置は、入力画像に対して画像変動処理を加えて変動画像を得る変動手段と、前記入力画像に検出対象の物体の画像が含まれるか否かを判別し、前記変動画像に前記物体の画像が含まれるか否かを判別する判別手段と、前記判別手段による判別の結果に基づいて、前記物体が検出されたか否かを判定する判定手段と、を有する。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

近年、映像機器のインテリジェント化が普及しつつある。監視カメラに人体検出機能を搭載することで、人数カウント、お客様意図分析、異常動作検知、領域侵入検知等の機能を提供することができる。また、デジタルカメラ等の撮影装置により撮影された映像中の人物の位置を特定し追尾することによるカメラのフォーカス、露出を自動制御する機能が注目されている。人物以外に、犬、猫、花等の一般の物体にも注目して、カメラを自動制御する機能も普及している。
映像機器のインテリジェント化の基盤は、機械学習による物体検出技術である。機械学習は、大量の物体と非物体の学習サンプルから、物体と非物体を区別する特徴量を抽出し、認識モデルを作成する手法である。画像から物体を検出する際、以下のような処理が行われる。即ち、原画像のサイズをスケーリングしてピラミッド画像レイヤを作成する。次に、各ピラミッド画像レイヤについてラスタースキャンを行い、部分領域を抽出し、認識モデルに記述した各特徴量の判別器応答を組み合わせることで、異なるサイズの物体を検出することができる。

前記認識モデルを作成する際、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、ａｄａｂｏｏｓｔ学習によるカスケード型の検出器の作成等は、代表的な手法である。ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ及びａｄａｂｏｏｓｔ学習を認識処理に応用する方法については、それぞれ非特許文献１及び非特許文献２にあげられている。
ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）においては、現在のスキャンウィンドウの各特徴量又は各特徴量の写像に重みを付けて総和を求め、物体らしさを表す尤度とする。求めた尤度を閾値と比較することで、物体であるか否かの判定が行われる。
ＳＶＭ検出器の作成においては、大量の正例画像と負例画像とを用意し、正例画像と負例画像との特徴量を計算し、正例画像と負例画像とを最も分離できる特徴量の重みを回帰的に求めることで、物体と非物体とを分離できる閾値を決定する。

カスケード型の検出器は、複数の弱判別器が直列で連結されている。それぞれの弱判別器は、現在の部分領域の物体らしさの尤度を出力し、尤度と閾値とを比較し、物体であるかどうかを判定する。全ての弱判別器において、物体であると判別された部分領域は物体と判定される。
カスケード型の検出器の作成においては、大量の正例画像と負例画像とを用意し、正例画像と負例画像との候補特徴量プールを計算する。カスケード型の検出器における各弱判別器の学習の際、候補特徴量プールから、正例画像と負例画像とを最も分離できる特徴量を選び、閾値を決定する。そして、正しく判断できた正例画像と負例画像との重みを下げ、誤って判断した正例画像と負例画像との重みを上げて、次の弱判別器を学習する。予め定められた数の弱判別器を学習終わったら、ｂｏｏｔｓｔｒａｐｐｉｎｇ技術を利用して負例画像を更新して、学習を続ける。

近年、検出器を高速化するための手法として、バイナリ特徴量を利用する手法が注目を浴びている。バイナリ特徴量は、部分領域中の複数の画素値又は画素値から得られる特徴の比較処理に基づき特徴量抽出を行った特徴量である。バイナリ特徴量は、高速である反面、明暗の揺らぎやボケに不安定のため誤検出が発生しやすい。
いずれの検出器の学習においても、次のような処理が行われている。即ち、正例画像に対して予め定められた画像変動処理を加え、処理した正例画像を元の正例画像に加えて、学習に用いることにより、正例画像に明暗の揺らぎやボケを加えて、変形の耐性を高める処理である。

Ｃ．Ｊ．Ｃ．Ｂｕｒｇｅｓ "ＡＴｕｔｏｒｉａｌｏｎＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓｆｏｒＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ" ＤａｔａＭｉｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，ｖｏｌ．２，ｐｐ．１２１−１６８（１９９８）ＢｏＷｕ，ＨａｉｚｈｏｕＡｉ，ＣｈａｎｇＨｕａｎｇ，ＳｈｉｈｏｎｇＬａｏ， "ＦａｓｔＲｏｔａｔｉｏｎＩｎｖａｒｉａｎｔＭｕｌｔｉ−ＶｉｅｗＦａｃｅＤｅｔｅｃｔｉｏｎＢａｓｅｄｏｎＲｅａｌＡｄａｂｏｏｓｔ"，ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍａｔｉｃＦａｃｅａｎｄＧｅｓｔｕｒｅＲｅｃｏｇｎｉｔｉｏｎ − ＦＧＲ，ｐｐ．７９−８４，２００４松島千佳、山内悠嗣、山下隆義、藤吉弘亘、"ＲｅｌａｔｉｏｎａｌＢｉｎａｒｉｚｅｄＨＯＧ特徴量とＲｅａｌＡｄａＢｏｏｓｔによるバイナリ選択と用いた物体検出"、画像の認識・理解シンポジウム（ＭＩＲＵ２０１０）、２０１０年７月

しかし、非特許文献１又は非特許文献２の検出器の学習において、膨大な数の負例画像を学習することは現実的には困難であり、誤検出を効果的に回避することができず、検出対象の物体が含まれる画像を効果的に検出できないという問題がある。
そこで、本発明は、検出対象の物体の画像が含まれる画像を効果的に検出することを目的とする。

そこで、本発明の物体検出装置は、入力画像に対して画像変動処理を加えて変動画像を得る変動手段と、前記入力画像に検出対象の物体の画像が含まれるか否かを判別し、前記変動画像に前記物体の画像が含まれるか否かを判別する判別手段と、前記判別手段による判別の結果に基づいて、前記物体が検出されたか否かを判定する判定手段と、を有する。

本発明によれば、検出対象の物体の画像が含まれる画像を効果的に検出することができる。

物体検出装置のソフトウェア構成等の一例を示す図である。物体検出装置のハードウェア構成の一例を示す図である。検出処理の一例を示すフローチャートである。部分領域抽出処理の一例を示す図である。Ｂ−ＨＯＧ特徴量を示す図である。カスケード型の物体判別部のソフトウェア構成等の一例を示す図である。検出処理の一例を示すフローチャートである。物体検出装置のソフトウェア構成等の一例を示す図である。検出処理の一例を示すフローチャートである。物体検出装置のソフトウェア構成等の一例を示す図である。検出処理の一例を示すフローチャートである。物体検出装置のソフトウェア構成等の一例を示す図である。検出処理の一例を示すフローチャートである。物体検出装置のソフトウェア構成等の一例を示す図である。検出処理の一例を示すフローチャートである。最適画像変動処理チューニング部のソフトウェア構成等の一例を示す図である。学習部のソフトウェア構成等の一例を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

＜実施形態１＞
図１は、物体検出装置１００のソフトウェア構成等の一例を示す図である。物体検出装置１００は、情報処理装置の一例である。
物体検出装置１００は、部分領域抽出部Ｄ１０１、画像変動部Ｄ１０２、物体判別部Ｄ１０３、判別結果判定部Ｄ１０４、を含む。また、入力画像Ｉ１００は、物体検出装置１００への入力であり、判別結果Ｏ１０５は、各部分領域の画像に検出対象の物体の画像が含まれるか否かを表す物体検出装置１００からの出力である。部分領域抽出部Ｄ１０１は、入力画像Ｉ１００から判別処理を行う部分領域を抽出する。画像変動部Ｄ１０２は、部分領域抽出部Ｄ１０１により抽出された部分領域の画像に対して画像変動処理を加える。物体判別部Ｄ１０３は、入力された画像に検出対象の物体の画像が含まれるか否かを判別する。判別結果判定部Ｄ１０４は、物体判別部Ｄ１０３による判別結果に基づいて、検出対象の物体を検出したか否かを判定する。

図２は、物体検出装置１００のハードウェア構成の一例を示す図である。
ＣＰＵ１００１は、本実施形態の物体検出装置１００における各種制御を実行する。
ＲＯＭ１００２は、物体検出装置１００の立ち上げの際に実行されるブートプログラム、各種データ等を格納する。
ＲＡＭ１００３は、ＣＰＵ１００１が処理する制御プログラムを格納すると共に、ＣＰＵ１００１が各種制御を実行する際の作業領域を提供する。
キーボード１００４、マウス１００５は、ユーザに対して、各種入力操作環境を提供する。
外部記憶装置１００６は、ハードディスク、フロッピー（登録商標）ディスク、光ディスク、磁気ディスク、光磁気ディスク、磁気テープ等で構成される。外部記憶装置１００６は、制御プログラム、各種データ等を格納する。ただし、外部記憶装置１００６は、ＲＯＭ１００２が制御プログラム、各種データ等を全て格納している場合、必ずしも必要な構成要素ではない。

表示器１００７は、ディスプレイ等で構成され、物体検出装置１００の出力結果等がユーザに対して表示される。
ネットワークインターフェース１００８は、ネットワークとの接続に利用されるインターフェースである。
ビデオインターフェース１００９は、撮像部との同軸ケーブル等を介した接続に利用されるインターフェースである。ＣＰＵ１００１は、ビデオインターフェース１００９を介して、前記撮像部からフレーム画像の取り込み等を行うことができる。
また、バス１０１１は、物体検出装置１００の各ハードウェア構成同士の接続に利用される。
ＣＰＵ１００１が、ＲＯＭ１００２又は外部記憶装置１００６に記憶されたプログラムに基づき処理を実行することによって、前述した物体検出装置１００のソフトウェア構成及び後述するフローチャートの処理が実現される。

以下、図３のフローチャートを用いて本実施形態における処理の流れを詳細に説明する。図３は、検出処理の一例を示すフローチャートである。
Ｓ１０１において、物体検出装置１００は、１枚の静止画又は動画の１フレーム画像である入力画像Ｉ１００の入力を検知する。
Ｓ１０２において、部分領域抽出部Ｄ１０１は、入力画像Ｉ１００に対して、図４に示すように、予め定められた倍率でピラミッド画像群を生成する。図４は、部分領域抽出処理の一例を示す図である。部分領域抽出部Ｄ１０１は、前記ピラミッド画像群の各レイヤ−について、物体判別部Ｄ１０３が利用する判別器への入力に対応する画像のサイズで、ラスタースキャンを行い、判別器領域を含めた各位置の部分領域の画像を抽出する。
Ｓ１０３において、物体判別部Ｄ１０３は、Ｓ１０２で抽出された部分領域の画像について、特徴量を抽出し、前記特徴量を判別器に入力し、前記部分領域の画像に検出対象の物体の画像が含まれるか否か判別する。物体判別部Ｄ１０３は、Ｓ１０３の判別結果を、判別結果判定部Ｄ１０４に入力する。例として、特徴量は、Ｂｉｎａｒｙ−ＨＯＧ（Ｂ−ＨＯＧ）特徴量とし、判別器は、ａｄａｂｏｏｓｔで学習したカスケード型の判別器とする。また、物体判別部Ｄ１０３は、ＳＶＭ判別器、又は、ｒａｎｄｏｍｔｒｅｅ等の判別器を含んでいてもよい。特徴量は、ＨＯＧ特徴量、画素値等であってもよい。また、特徴量は、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴量等、Ｂ−ＨＯＧ特徴量以外のバイナリ特徴量であってもよい。バイナリ特徴量は、画像中の複数の特徴量同士の相互比較の比較結果、画像中の複数の特徴量と閾値との比較の比較結果等に基づいて、取得される特徴量である。バイナリ特徴量は、二値化された値で表される。

図５は、Ｂ−ＨＯＧ特徴量を示す図である。物体判別部Ｄ１０３は、Ｂ−ＨＯＧ特徴量を求めるために、以下の処理を行う。まず、物体判別部Ｄ１０３は、［−１０１］のような差分フィルタを部分領域の画像のｘ方向とｙ方向とに適用し、各画素位置の勾配の強度と方向とを求め、勾配強度画像を得る。次に、物体判別部Ｄ１０３は、前記各画素位置の勾配の方向をｎ個のｂｉｎに量子化する。物体判別部Ｄ１０３は、勾配強度画像を予め定めた大きさＷｘＷのセルに分割し、前記量子化したｎ個のｂｉｎにおける注目セルの各位置の勾配強度のヒストグラムを求める。物体判別部Ｄ１０３は、求めたヒストグラムを閾値（図５（５）のｔｈ）と比較することにより（前記閾値以上の値ならば１、前記閾値より小さい値ならば０とする）、Ｂ−ＨＯＧ特徴量のバイナリコードを得る。本実施形態において、物体判別部Ｄ１０３は、量子化した勾配の方向は８個とし、１セルのＢ−ＨＯＧのバイナリコードは８ビットとなり、１ｂｙｔｅで記憶できる。Ｂ−ＨＯＧ特徴量の詳細については、非特許文献３にあげられている。

図６は、カスケード型の物体判別部Ｄ１０３のソフトウェア構成等の一例を示す図である。カスケード型判別モデルは、複数の判別器を含み、それぞれの判別器に閾値を設け、各判別器で計算した特徴量のスコアを前記閾値と比較する。前記各判別器は、それぞれにパラメータを保持し、前記パラメータに基づいて、判別処理を行うことで前記スコアを計算する。以下、前記パラメータを、判別パラメータとする。各判別器は、特徴量のスコアが閾値より低い場合、入力された正規化済みの局所領域の画像を前記物体の画像ではないと判別する。各判別器は、特徴量のスコアが閾値より高い場合、前記局所領域の画像を前記物体の画像と判別し、次の判別器に対して前記特徴量を出力する。引き続き後続の判別器は、前記局所領域の画像が前記物体の画像か否かを判別する。物体判別部Ｄ１０３は、最後の判別器ｎにより前記局所領域の画像が前記物体の画像と判別された場合、前記局所領域の画像を物体の画像と判定する。

Ｓ１０４において、画像変動部Ｄ１０２は、Ｓ１０２で抽出された部分領域の画像について、画像変動処理を施し、画像変動処理した部分領域の画像を生成する。画像変動処理の種類には、輝度変化、彩度変化、コントラスト変化、ノイズ付加、空間フィルタリング等の処理又は、前記複数の処理の組合せ等がある。輝度変化、彩度変化、コントラスト変化、ノイズ付加の処理は、単一の画素に対して演算を行うため高速である。空間フィルタリングの処理には、画像ボカシ、エッジ強調等がある。物体検出に使う特徴量としてＢ−ＨＯＧ特徴量を用いる場合、ＨＯＧの強度が輝度変化に対して不安定であるという特性を利用すべく、Ｓ１０４で行う画像変動処理には、輝度変化を用いるのが効果的である。また、輝度変化は、簡単な演算で実行可能なため、処理が軽く、高速に実行できる。本実施形態では、Ｓ１０４で、輝度変化処理を施すこととする。

Ｓ１０５において、物体判別部Ｄ１０３は、Ｓ１０４で画像変動処理を施した部分領域の画像について、特徴量を抽出し、前記特徴量を判別器に入力し、前記部分領域の画像に検出対象の物体の画像が含まれるか否か判別する。物体判別部Ｄ１０３は、Ｓ１０５の判別結果を、判別結果判定部Ｄ１０４に入力する。
検出対象の物体の画像が含まれる部分領域の画像は、画像変動処理を加えられたとしても、前記物体らしい領域が残っていれば、ほとんどの場合、物体判別部Ｄ１０３により再度前記物体の画像が含まれると判別される。更に、物体検出装置１００は、学習の際に正例画像に対して画像変動部Ｄ１０２の画像変動処理を加えた画像を正例画像に加えて学習することで、前記画像を正例画像に加えずに学習した場合に比べ、前記画像変動処理による判別結果の影響を小さくできる。
一方、物体判別部Ｄ１０３が前記物体の画像が含まれない部分領域の画像を前記物体の画像と判別してしまう要因の多くは、偶然である。そのため、物体検出装置１００は、前記物体の画像が含まれない部分領域の画像に画像変動処理を付加した後、再度、判別すると、前記物体の画像が含まれないと判別されることが多い。したがって、物体検出装置１００は、前記部分領域の画像に前記物体の画像が含まれるか否かの判別結果と、画像変動を付加した前記部分領域の画像に前記物体の画像が含まれるか否かの判別結果と、を論理演算することにより、誤検出を大幅に低減できる。判別処理は、前記バイナリ特徴量を利用する場合、利用しない場合に比べて、誤検出の低減の効果が大きくなるという特性がある。本実施形態において、物体検出装置１００は、前記特性を利用して検出対象の物体の画像ではない画像を効果的に拒絶する。

Ｓ１０６において、判別結果判定部Ｄ１０４は、Ｓ１０３での判別結果とＳ１０５での判別結果との論理値についてＡＮＤ論理演算を行い、最終の判定結果として出力する。判別結果判定部Ｄ１０４は、物体として検出した領域が重なる場合には、重複した前記領域を１つにまとめる処理、例えばｍｅａｎｓｈｉｆｔアルゴリズムを適用する処理等を行う。

本実施形態において、Ｓ１０３の処理とＳ１０４及びＳ１０５の処理とは、並列して実行されるが、図７のように、処理のバランスを考えて、Ｓ１０３'を追加することも可能である。
Ｓ１０１の処理は、図３と同様である。
Ｓ１０２の処理は、図３と同様である。
Ｓ１０３'において、画像変動部Ｄ１０２は、Ｓ１０２で抽出された部分領域の画像のうち、半数について、画像変動処理を施す。
Ｓ１０３において、物体判別部Ｄ１０３は、Ｓ１０３'で画像変動処理を施した部分領域の画像及びＳ１０２で抽出された部分領域の画像のうちＳ１０３'で画像変動処理が加えられなかった画像について、以下の処理を行う。即ち、物体判別部Ｄ１０３は、特徴量を抽出し、前記特徴量を判別器に入力し、前記特徴量が抽出された画像に検出対象の物体の画像が含まれるか否か判別する。物体判別部Ｄ１０３は、Ｓ１０３の判別結果を、判別結果判定部Ｄ１０４に入力する。

Ｓ１０４において、画像変動部Ｄ１０２は、Ｓ１０２で抽出された部分領域の画像のうち、Ｓ１０３'で画像変動処理が加えられなかった部分領域の画像について画像変動処理を施す。
Ｓ１０５において、物体判別部Ｄ１０３は、Ｓ１０４で画像変動処理を施した部分領域の画像及びＳ１０２で抽出された部分領域の画像のうちＳ１０４で画像変動処理が加えられなかった画像について、以下の処理を行う。即ち、物体判別部Ｄ１０３は、特徴量を抽出し、前記特徴量を判別器に入力し、前記特徴量が抽出された画像に検出対象の物体の画像が含まれるか否か判別する。物体判別部Ｄ１０３は、Ｓ１０５の判別結果を、判別結果判定部Ｄ１０４に入力する。
Ｓ１０６において、判別結果判定部Ｄ１０４は、Ｓ１０３での判別結果とＳ１０５での判別結果との論理演算を行い、両方とも検出対象の物体の画像と判別されている場合、前記部分領域の画像を前記物体の画像と判別する。判別結果判定部Ｄ１０４は、両方とも検出対象の物体の画像と判別されている場合以外の場合、前記部分領域の画像に前記物体の画像が含まれないと判別する。

本実施形態において、物体検出装置１００は、入力画像から部分領域の画像を抽出した後に、前記部分領域の画像に対して画像変動処理を施して、前記画像変動処理を施した部分領域の画像から特徴量を抽出し、前記特徴量を判別器に入力することとした。しかし、物体検出装置１００は、画像に対して画像変動処理を施した後に、部分領域の画像を抽出し、前記部分領域の画像から特徴量を抽出し、前記特徴量を判別器に入力することとしてもよい。
本実施形態において、物体検出装置１００は、入力画像から部分領域抽出部Ｄ１０１により抽出された画像と、前記画像に画像変動部Ｄ１０２の画像変動処理が加えられた画像と、に対して物体判別部Ｄ１０３の判別処理を行うこととした。しかし、物体検出装置１００は、部分領域抽出部Ｄ１０１を有さずに以下の処理を行うこととしてもよい。即ち、物体検出装置１００は、物体判別部Ｄ１０３の判別器に入力できるサイズの入力画像を受けつけ、前記入力画像と前記入力画像に画像変動部Ｄ１０２による画像変動処理が加えられた画像とに対して物体判別部Ｄ１０３の判別処理を行うこととしてもよい。
また、物体検出装置１００は、画像変動部Ｄ１０２を有さずに、入力画像と、前記入力画像に画像変動処理が加えられた変動画像と、を入力として受け付けるようにしてもよい。その際、物体検出装置１００は、前記入力画像と前記変動画像とから部分領域抽出部Ｄ１０１により抽出された画像に対して、物体判別部Ｄ１０３による判別処理を行う。
また、物体検出装置１００は、部分領域抽出部Ｄ１０１及び画像変動部Ｄ１０２を有さず、物体判別部Ｄ１０３の判別器に入力できるサイズの入力画像と、前記入力画像に画像変動処理を加えた変動画像処理と、を入力として受け付けるということとしてもよい。その際、物体検出装置１００は、前記入力画像と前記変動画像とに対して直接、物体判別部Ｄ１０３による判別処理を行う。
更に、本実施形態では、判別結果判定部Ｄ１０４は、部分領域の画像に対しての判別結果と、前記部分領域の画像に対して一つの画像変動処理を施した画像に対しての判別結果と、の論理演算を行い、最終的な判別結果を求めることとした。しかし、判別結果判定部Ｄ１０４は、前記部分領域の画像に対しての判別結果と、前記部分領域の画像に対して複数の異なる画像変動処理を施した画像に対しての判別結果と、の論理演算又は算術演算を行い、最終的な判別結果を求めることとしてもよい。

検出対象の物体の画像が含まれる画像は、若干の画像変動があっても判別結果への影響が小さく、前記物体の画像が含まれない画像は、若干の画像変動がある場合に判別結果が大きく変わる特性を持つ。前記特性により、本実施形態のように判別対象画像と前記判別対象画像に画像変動処理を加えた変動画像とに対して判別処理を行うことで、物体検出装置１００は、検出対象の物体の画像が含まれない画像に対する誤検出を効果的に判定できる。したがって、本実施形態の処理により、物体検出装置１００は、検出対象の物体の画像が含まれない領域の画像を効果的に拒絶することができるようになる。

＜実施形態２＞
実施形態１における物体検出装置１００は、入力画像から抽出した部分領域の画像、及び、部分領域の画像に画像変動処理が加えられた画像について並列に判別器を適用して、判別結果を判定するような構成であった。本実施形態において、まず、物体検出装置２００は、入力画像について部分領域を抽出し判別処理を行い、前記部分領域の画像に検出対象の物体の画像が含まれるか否かを判別する。次に、物体検出装置２００は、前記物体の画像と判別された部分領域の画像のみについて、画像変動処理を施し、再度判別処理を行う。物体検出装置２００は、二回とも検出対象の物体の画像が含まれると判別した場合、前記部分領域を物体領域と判別する。
図８は、物体検出装置２００のソフトウェア構成等の一例を示す図である。
物体検出装置２００は、部分領域抽出部Ｄ２０１、画像変動部Ｄ２０２、物体判別部Ｄ２０３、を含む。また、入力画像Ｉ２００は、物体検出装置２００への入力であり、判別結果Ｏ２０５は、物体検出装置２００からの出力である。判別結果Ｏ２０５は、各部分領域の画像に検出対象の物体の画像が含まれるか否かを表す。部分領域抽出部Ｄ２０１は、入力画像Ｉ２００から判別処理を行う部分領域を抽出する。画像変動部Ｄ２０２は、部分領域抽出部Ｄ２０１により抽出された部分領域の画像に対して画像変動処理を加える。物体判別部Ｄ２０３は、入力された画像に検出対象の物体の画像が含まれるか否かを判別する。
物体検出装置２００のハードウェア構成は、図２と同様である。

図９は、検出処理の一例を示すフローチャートである。
Ｓ２０１において、物体検出装置２００は、１枚の静止画又は動画の１フレーム画像である入力画像Ｉ２００の入力を検知する。
Ｓ２０２において、部分領域抽出部Ｄ２０１は、入力画像Ｉ２００に対して、図４に示すように、予め定められた倍率でピラミッド画像群を生成する。部分領域抽出部Ｄ２０１は、前記ピラミッド画像群の各レイヤ−について、物体判別部Ｄ２０３が利用する判別器への入力に対応する画像のサイズで、ラスタースキャンを行い、判別器領域を含めた各位置の部分領域の画像を抽出する。
Ｓ２０３において、物体判別部Ｄ２０３は、Ｓ２０２で抽出された部分領域の画像について、特徴量を抽出し、前記特徴量を判別器に入力し、前記部分領域の画像に検出対象の物体の画像が含まれるか否か判別する。
Ｓ２０４において、物体検出装置２００は、Ｓ２０３で前記部分領域の画像に検出対象の物体の画像が含まれると判別された場合、Ｓ２０５の処理へ進む。物体検出装置２００は、Ｓ２０３で前記部分領域の画像が前記物体の画像でないと判別された場合、Ｓ２０２の処理へ進む。

Ｓ２０５において、画像変動部Ｄ２０２は、Ｓ２０３で検出対象の物体の画像と判別された部分領域の画像について、画像変動処理を施し、画像変動処理した画像を生成する。
Ｓ２０６において、物体判別部Ｄ２０３は、Ｓ２０５で画像変動処理を加えられた画像について、特徴量を抽出し、前記特徴量を判別器に入力し、前記画像に検出対象の物体の画像が含まれるか否か判別する。
Ｓ２０７において、物体検出装置２００は、Ｓ２０６で判別対象の画像に検出対象の物体の画像が含まれると判別された場合、Ｓ２０８の処理へ進む。物体検出装置２００は、前記判別対象の画像に検出対象の物体の画像が含まれないと判別された場合、Ｓ２０２の処理へ進む。
Ｓ２０８において、物体検出装置２００は、Ｓ２０６での判別結果に基づいて、最終の判定結果を出力する。例えば、物体検出装置２００は、Ｓ２０６での判別結果を最終判定結果として、そのまま出力する。

本実施形態において、物体検出装置２００は、Ｓ２０４で検出対象の物体の画像を含む判別された部分領域の画像のみについて、画像変動処理を施し、画像変動処理を加えた画像に前記物体の画像が含まれるか否かを判別する処理を行う。物体検出装置２００は、一枚の画像に対して物体の検出を行う場合、多くの部分領域が背景領域であるため、１回目の判別処理（Ｓ２０３、Ｓ２０４）で、部分領域の大部分を拒絶することができる。そのため、物体検出装置２００は、２回目の判別処理（Ｓ２０６、Ｓ２０７）の対象となる部分領域を大幅に減らすことができる。したがって本実施形態の処理により、物体検出装置２００は、実施形態１による効果に加えて、判別処理の軽減という効果を得ることができる。

＜実施形態３＞
実施形態１、２は、主に誤検出を低減することを目的とするが、本実施形態は、主に、検出対象の物体の画像ではない画像を早期に拒絶することを目的とする。本実施形態の物体判別部は、第１の強判別器で物体と判別した部分領域の画像について画像変動処理を加えられた画像について、もう一度、第１の強判別器で判別処理を行う。次に、前記物体判別部は、前記判別処理で再度物体と判別した場合のみ、前記部分領域の画像について第２の強判別器で判別処理を行い、物体か否かを判別する。
図１０は、物体検出装置３００のソフトウェア構成等の一例を示す図である。物体検出装置３００は、部分領域抽出部Ｄ３０１、画像変動部Ｄ３０２、物体判別部Ｄ３０３、を含む。物体判別部Ｄ３０３は、強判別器１（Ｄ３０３１）、強判別器２（Ｄ３０３２）、を含む。強判別器１（Ｄ３０３１）と強判別器２（Ｄ３０３２）とは、判別処理に利用されるパラメータである判別パラメータが異なるものとする。また、入力画像Ｉ３００は、物体検出装置３００の入力であり、判別結果Ｏ３０５は、各部分領域の画像に検出対象の物体の画像が含まれるか否かを表す物体検出装置３００の出力である。部分領域抽出部Ｄ３０１は、入力画像Ｉ３００から判別処理を行う部分領域を抽出する。画像変動部Ｄ３０２は、部分領域抽出部Ｄ３０１により抽出された部分領域の画像に対して画像変動処理を加える。物体判別部Ｄ３０３は、入力された画像に検出対象の物体の画像が含まれるか否かを判別する。
物体検出装置３００のハードウェア構成は、図２の物体検出装置１００と同様である。

以下、図１１のフローチャートを用いて、本実施形態の詳細を説明する。図１１は、検出処理の一例を示すフローチャートである。
Ｓ３０１において、物体検出装置３００は、１枚の静止画又は動画の１フレーム画像である入力画像Ｉ３００の入力を検知する。
Ｓ３０２において、部分領域抽出部Ｄ３０１は、入力画像Ｉ３００に対して、図４に示すように、予め定められた倍率でピラミッド画像群を生成する。部分領域抽出部Ｄ３０１は、前記ピラミッド画像群の各レイヤ−について、物体判別部Ｄ３０３が利用する判別器への入力に対応する画像のサイズで、ラスタースキャンを行い、判別器領域を含めた各位置の部分領域の画像を抽出する。
Ｓ３０３において、物体判別部Ｄ３０３は、Ｓ３０２で抽出された部分領域の画像について、特徴量を抽出し、前記特徴量を強判別器１（Ｄ３０３１）に入力し、前記部分領域の画像に検出対象の物体の画像が含まれるか否か判別する。
Ｓ３０４において、物体検出装置３００は、Ｓ３０３で前記部分領域の画像に検出対象の物体の画像が含まれると判別された場合、Ｓ３０５の処理へ進む。物体検出装置３００は、Ｓ３０３で前記部分領域の画像に検出対象の物体の画像が含まれないと判別された場合、Ｓ３０２の処理へ進む。

Ｓ３０５において、画像変動部Ｄ３０２は、Ｓ３０３で物体と判断された部分領域の画像について、輝度変化、彩度変化、コントラスト変化、ノイズ付加、空間フィルタリング、複数の画像変動処理の組み合わせ等の画像変動処理を施す。
Ｓ３０６において、物体判別部Ｄ３０３は、Ｓ３０５で画像変動処理を加えられた画像について、特徴量を抽出し、前記特徴量を強判別器１（Ｄ３０３１）に入力し、前記画像に検出対象の物体の画像が含まれるか否か判別する。
Ｓ３０７において、物体検出装置３００は、Ｓ３０６で判別対象の画像に検出対象の物体の画像が含まれると判別された場合、Ｓ３０８の処理へ進む。物体検出装置３００は、Ｓ３０６で判別対象の画像に検出対象の物体の画像が含まれないと判別された場合、Ｓ２０２の処理へ進む。
Ｓ３０８において、物体検出装置３００は、Ｓ３０７で検出対象の物体の画像が含まれると判定された画像に画像変動処理が加えられる前の元のデータを記憶部から読み出す。

Ｓ３０９において、物体判別部Ｄ３０３は、Ｓ３０８で読み出した部分領域の画像について、特徴量を抽出し、前記特徴量を強判別器２（Ｄ３０３２）に入力し、前記部分領域の画像に検出対象の物体の画像が含まれるであるか否か判別する。
Ｓ３１０において、物体検出装置３００は、Ｓ３０９で前記部分領域の画像に検出対象の物体の画像が含まれると判別された場合、Ｓ３１１の処理へ進む。物体検出装置３００は、Ｓ３０９で前記部分領域の画像に検出対象の物体の画像が含まれないと判別された場合、Ｓ３０２の処理へ進む。
Ｓ３１１において、物体検出装置３００は、Ｓ３０９での判別結果に基づいて、最終の判定結果を出力する。例えば、物体検出装置３００は、Ｓ３０９での判別結果を、前記判定結果として、そのまま出力する。物体検出装置３００は、前記判定結果に、前記部分領域が物体であるか否かの情報の他に、前記部分領域の入力画像における位置とサイズ、物体らしさを表す尤度、判別器の情報等のメタデータを付加することができる。

本実施形態において、物体検出装置３００は、Ｓ３０８で元の部分領域の画像を読み出して、強判別器２（Ｄ３０３２）を適用し、検出対象の物体の画像が含まれるか否かを判別する。Ｓ３０８を省略して、画像変動処理を加えられた前記部分領域の画像に強判別器２（Ｄ３０３２）を適用し前記物体の画像が含まれるか否かを判別してもよい。
本実施形態の処理により、物体判別部Ｄ３０３は、判別処理の途中で（強判別器１（Ｄ３０３１）の処理の終了の段階で）、検出対象の物体の画像が含まれない領域を判別するため、早期に検出対象の物体の画像が含まれない画像を拒絶することができる。検出対象の物体の画像ではない画像を早期拒絶することで、検出の速度は、向上する。

＜実施形態４＞
実施形態３において、物体検出装置３００は、部分領域の画像と画像変動処理を加えられた前記部分領域の画像とにそれぞれ強判別器１を適用し、両方とも物体と判定した部分領域の画像について強判別器２で判別して、物体であるか否かを判別する。実施形態３の処理により、物体検出装置３００は、検出対象の物体の画像ではない画像を早期拒絶できるが、誤検出の削減効果は、若干低下する。本実施形態では、物体検出装置４００は、部分領域の画像と前記部分領域の画像に画像変動処理を加えた画像とに対して、強判別器１を適用し、両方とも検出対象の物体の画像が含まれると判別された場合、以下の処理を行う。即ち、物体検出装置４００は、前記部分領域の画像と前記画像に画像変動処理を加えた画像とに強判別器２を適用し、検出対象の物体の画像が含まれるか否かを判別する。
図１２は、物体検出装置のソフトウェア構成等の一例を示す図である。物体検出装置４００は、部分領域抽出部Ｄ４０１、画像変動部Ｄ４０２、物体判別部Ｄ４０３、を含む。物体判別部Ｄ４０３は、強判別器１（Ｄ４０３１）、強判別器２（Ｄ４０３２）、を含む。強判別器１（Ｄ４０３１）と強判別器２（Ｄ４０３２）とは、判別処理に利用されるパラメータが異なるものとする。また、入力画像Ｉ４００は、物体検出装置４００の入力であり、判別結果Ｏ４０５は、各部分領域が物体であるか否かを表す物体検出装置４００の出力である。部分領域抽出部Ｄ４０１は、入力画像Ｉ４００から判別処理を行う部分領域を抽出する。画像変動部Ｄ４０２は、部分領域抽出部Ｄ４０１により抽出された部分領域の画像に対して画像変動処理を加える。物体判別部Ｄ４０３は、入力された画像に検出対象の物体の画像が含まれるか否かを判別する。
物体検出装置４００のハードウェア構成は、図２の物体検出装置１００と同様である。

以下、図１３のフローチャートを用いて、本実施形態の詳細を説明する。図１３は、検出処理の一例を示すフローチャートである。
Ｓ４０１からＳ４１０までの処理は、Ｓ３０１からＳ３１０までの処理と同様である。
Ｓ４１１において、画像変動部Ｄ４０２は、Ｓ４０９で物体の画像が含まれると判別された部分領域の画像について、画像変動処理を施す。Ｓ４１１で施す画像変動処理は、Ｓ４０５で加えられる画像変動処理と同じであってもよいし、異なる画像変動処理であってもよい。
Ｓ４１２において、物体判別部Ｄ４０３は、Ｓ４１１で画像変動処理を加えられた画像について、特徴量を抽出し、前記特徴量を強判別器１（Ｄ４０３１）に入力し、前記画像に検出対象の物体の画像が含まれるか否か判別する。
Ｓ４１３において、物体判別部Ｄ４０３は、Ｓ４１１で画像変動処理を加えられた画像について、特徴量を抽出し、前記特徴量を強判別器２（Ｄ４０３２）に入力し、前記画像に検出対象の物体の画像が含まれるか否か判別する。
Ｓ４１４において、物体検出装置４００は、Ｓ４１３で判別対象の画像に検出対象の物体の画像が含まれると判別された場合、Ｓ４１５の処理へ進む。物体検出装置４００は、Ｓ４１３で判別対象の画像に検出対象の物体の画像が含まれないと判別された場合、Ｓ４０２の処理へ進む。
Ｓ４１５において、物体検出装置４００は、Ｓ４１３での判別結果に基づいて、最終の判定結果を出力する。例えば、物体検出装置４００は、Ｓ４１３での判別結果を最終の判定結果として、そのまま出力する。物体検出装置４００は、最終の判定結果に、部分領域の画像に検出対象の物体の画像が含まれるか否かの情報の他に、部分領域の入力画像における位置とサイズ、物体らしさの尤度、判別器の情報等のメタデータを付加することができる。

本実施形態では、物体検出装置４００は、実施形態３の処理に加え、２つ目の判別器に対して、１つ目の判別器で検出対象の物体であると判別された領域の画像に画像変動処理を加えた領域を入力し、判別処理を行う。そのため、実施形態３の処理に比べて、誤検出の削減効果は、低下しない。
本実施形態の処理により、実施形態３同様の検出対象の物体の画像ではない画像を早期に拒絶することができるという効果に加え、誤検出の削減効果も維持することができるという効果が得られる。

＜実施形態５＞
実施形態１〜４において、物体検出装置は、１枚の静止画像について部分領域の画像を抽出し、検出対象の物体であるか否かを判別する処理を行う。本実施形態では、物体検出装置５００は、同一の視点から撮影された動画像から得られた時系列上で連続している複数のフレーム画像について、画像中で同一の位置にある部分領域を抽出する。物体検出装置５００は、前記抽出した部分領域のうちの１つの部分領域の画像と、前記部分領域に対して時系列上で連続する部分領域の画像に対して画像変動処理を施した画像と、を物体判別部で判別し、判別結果に基づいて、前記物体を検出した否かを判定する。
図１４は、物体検出装置５００のソフトウェア構成等の一例を示す図である。物体検出装置５００は、部分領域抽出部Ｄ５０１、画像変動部Ｄ５０２、物体判別部Ｄ５０３、結果記憶部Ｄ５０４、前後フレーム判別結果判定部Ｄ５０５、を含む。また、偶数フレーム画像Ｉ５００と奇数フレーム画像Ｉ５１０とは、物体検出装置５００の入力画像であり、判別結果Ｏ５０６は、現在フレームの各部分領域の画像に検出対象の物体の画像が含まれるか否かを表す物体検出装置５００の出力である。部分領域抽出部Ｄ５０１は、偶数フレーム画像Ｉ５００又は奇数フレーム画像Ｉ５１０から判別処理を行う部分領域を抽出する。画像変動部Ｄ５０２は、部分領域抽出部Ｄ５０１により奇数フレーム画像Ｉ５１０から抽出された部分領域の画像に対して画像変動処理を加える。物体判別部Ｄ５０３は、入力された画像に検出対象の物体の画像が含まれるか否かを判別する。
物体検出装置５００のハードウェア構成は、図２の物体検出装置１００と同様である。

以下、図１５に示す本実施形態のフローチャートを用いて、詳細を説明する。図１５は、検出処理の一例を示すフローチャートである。
Ｓ５０１において、物体検出装置５００は、動画像の各フレームについて、Ｓ５０２から５１０までの処理を繰り返し適用するように、処理を制御する。
Ｓ５０２において、物体検出装置５００は、偶数フレーム画像Ｉ５００又は奇数フレーム画像Ｉ５１０の入力を検知する。
Ｓ５０３において、部分領域抽出部Ｄ５０１は、Ｓ５０２で受け付けた入力画像について、図４に示すように、予め定められた倍率でピラミッド画像群を生成する。部分領域抽出部Ｄ５０１は、前記ピラミッド画像群の各レイヤ−について、物体判別部Ｄ５０３が利用する判別器への入力に対応する画像のサイズで、ラスタースキャンを行い、判別器領域を含めた各位置の部分領域の画像を抽出する。

Ｓ５０４において、物体検出装置５００は、前記入力画像が奇数フレームであるか否かを判断する。物体検出装置５００は、前記入力画像が奇数フレーム画像Ｉ５１０である場合、Ｓ５０５の処理へ進む。物体検出装置５００は、前記入力画像が偶数フレーム画像Ｉ５００である場合、Ｓ５０６の処理へ進む。
Ｓ５０５において、画像変動部Ｄ５０２は、Ｓ５０３で抽出された部分領域の画像について画像変動処理を施す。
Ｓ５０６において、物体判別部Ｄ５０３は、Ｓ５０３で抽出した部分領域の画像又はＳ５０５で画像変動処理を加えた画像について、特徴量を抽出し、前記特徴量を判別器に入力し、前記特徴量を抽出した画像に検出対象の物体の画像が含まれるか否か判別する。
Ｓ５０７において、物体検出装置５００は、結果記憶部Ｄ５０４に、Ｓ５０６での判別結果を記憶する。物体検出装置５００は、判別結果に対して、前記部分領域の入力画像中における位置とサイズ、尤度、判別器の情報、等のメタデータを付加することができる。

Ｓ５０８において、前後フレーム判別結果判定部Ｄ５０５は、同じ位置と同じサイズとの部分領域について、前後フレームともに検出対象の物体の画像が含まれると判定された場合、前記位置とサイズとの部分領域の画像に前記物体の画像が含まれると判定する。前後フレーム判別結果判定部Ｄ５０５は、Ｓ５０８の判定結果に対して、物体らしさを表す尤度、判別器の情報、を統合する。統合の方法は、例えば、高い方の尤度を前記判別結果のメタデータに保存し、前記尤度に対応する判別器の情報も前記メタデータに保存する。
Ｓ５０９において、物体検出装置５００は、現在フレーム画像にＳ５０８で検出対象の物体の画像が含まれると判定されたすべての部分領域の画像を、入力画像の座標系に変換する。物体検出装置５００は、互いに重なる入力画像の座標系に変換した部分領域についてサイズの差異、位置の差異に基づいてグルーピングする。代表的なグルーピング方法は、ｍｅａｎｓｈｉｆｔがある。
Ｓ５１０において、物体検出装置５００は、Ｓ５０９で統合された検出結果を出力する。
Ｓ５１１において、物体検出装置５００は、Ｓ５０１と対応し、動画像のすべてのフレームについて、Ｓ５０２からＳ５１０までの処理を繰り返し適用するように、処理を制御する。

本実施形態のＳ５０８において、物体検出装置５００は、リアルタイム処理を行う場合、現在フレームにおける部分領域の判別結果は、前フレームの同じ部分領域の画像の判別結果と統合する。一方、リアルタイム処理を求めない場合、物体検出装置５００は、Ｓ５０８において、現在フレームにおける部分領域の画像の判別結果は、後フレームの同じ部分領域の画像の判別結果と統合してもよい。
また、本実施形態において、物体検出装置５００は、Ｓ５０５で加えられる画像変動処理を、部分領域抽出処理の前に、画像全体に対して加えてもよい。
本実施形態の処理により、物体検出装置５００は、動画像に対して、検出対象の物体の画像が含まれない領域の画像を効果的に拒絶することができるようになる。

＜実施形態６＞
実施形態１〜５において、部分領域の画像に施す画像変動処理は、輝度変化、彩度変化、コントラスト変化、ノイズ付加、空間フィルタリング等のうち、一つ又は、複数の処理の組合せであるとした。
本実施形態において、図１６に示すように、最適画像変動処理チューニング部６００は、事前に用意した正例画像集合Ｉ６０１及び負例画像集合Ｉ６０２に基づいて、最適な画像変動処理と前記画像変動処理に対応するパラメータとをチューニングすることができる。図１６は、最適画像変動処理チューニング部６００のソフトウェア構成等の一例を示す図である。
候補処理方法選出部Ｄ６０１は、画像変動処理（輝度変化、彩度変化、コントラスト変化、ノイズ付加、空間フィルタリング等）の一つ又は複数の組合せを選んで、画像変動部Ｄ６０２に入力する。
パラメータ調整部Ｄ６０５は、候補処理方法選出部Ｄ６０１により選択された画像変動処理のパラメータを決定し、前記パラメータを画像変動部Ｄ６０２に入力する。

画像変動部Ｄ６０２は、前記画像変動処理と前記画像変動処理に対応したパラメータとを正例集合及び負例集合の各画像に適用し、前記画像変動処理を加えた処理画像を求める。
判別器Ｄ６０３は、画像変動部Ｄ６０２により求められた処理画像に基づいて、正例集合及び負例集合の各画像に前記画像変動処理を加えた処理画像にそれぞれ検出対象の物体の画像が含まれるか否かを判別する。判別器Ｄ６０３の判別処理は、画像変動処理の最適化のために行われる学習判別処理の一例である。
指標計算部Ｄ６０４は、正例の検出数と負例の誤検出数を求め、最適変動処理を決定するための指標を更新する。前記指標は、指標情報の一例である。例えば、最適変動処理を決定する指標は、式（１）を用いて計算され、判別器Ｄ６０３の判別性能の評価に利用される。
パラメータ調整部Ｄ６０５は、前記指標を最大化するように選択された画像変動処理のパラメータを繰り返し調整して、画像変動処理を加え、前記パラメータを最適化する。
指標計算部Ｄ６０４は、前記指標が最大化されたと判定した場合、パラメータ調整部Ｄ６０５により最適化されたパラメータと前記画像変動処理とを最適変動処理として出力する。最適変動処理は、決定画像変動処理の一例である。

数式（１）におけるＡ０は、元正例集合の検出数であり、Ａ１は、画像変動正例集合の検出数であり、Ｂ０は、元負例集合の誤検出数であり、Ｂ１は、画像変動負例集合の誤検出数である。

本実施形態の処理により、最適画像変動処理チューニング部６００は、実施形態１〜５での判別対象領域に対して加えられる画像変動処理を最適化することができる。

＜実施形態７＞
本実施形態では、学習部７００は、画像変動処理又は前記最適変動処理を用いて機械学習を行い、物体モデルを生成する。したがって、物体検出装置は、前記画像変動処理又は前記最適変動処理を付加した検出対象の物体の画像が含まれる部分領域の画像をより精度よく検出することができるようになる。

図１７は、学習部７００の機能構成等の一例を示す図である。学習部７００は、画像変動部１（Ｄ７０１）〜画像変動部ｎ（Ｄ７０ｎ）、記憶部Ｄ７１３、機械学習部Ｄ７１４を含む。正例集合Ｉ７０１及び負例集合Ｉ７０２は、学習部７００の入力であり、物体モデルＯ７２０は、学習部７００の出力である。物体モデルＯ７２０は、画像が検出対象の物体であるか否かを判別する判別処理に利用される判別パラメータの一例である。正例集合Ｉ７０１は、正例学習画像群の一例である。負例集合Ｉ７０２は、負例学習画像群の一例である。
画像変動部１（Ｄ７０１）は、最適画像変動処理チューニング部６００によりチューニングされた最適パラメータと最適変動処理とを格納している。画像変動部１（Ｄ７０１）は、正例集合Ｉ７０１内の画像に対して前記最適パラメータと前記最適変動処理とに基づく画像変動処理を適用し、正例集合１を作成する。正例集合１は、追加正例画像群の一例である。

機械学習部Ｄ７１４は、画像変動部１（Ｄ７０１）により作成された正例集合１と、正例集合Ｉ７０１と、負例集合Ｉ７０２と、を入力として受付け、前記入力に基づいて、物体モデルＯ７２０を機械学習する。物体モデルＯ７２０は、判別パラメータの一例である。
学習部７００は、機械学習部Ｄ７１４により学習された物体モデルＯ７２０を、最適画像変動処理チューニング部６００に入力する。
最適画像変動処理チューニング部６００は、最適パラメータと最適変動処理とを再度チューニングする。
画像変動部２（Ｄ７０２）は、最適画像変動処理チューニング部６００により再度チューニングされた最適パラメータと最適変動処理とを格納する。画像変動部２（Ｄ７０２）は、正例集合Ｉ７０１内の画像に対して、前記最適パラメータと前記最適変動処理とに基づく画像変動処理を適用し、正例集合２を作成する。
機械学習部Ｄ７１４は、画像変動部１、２により作成された正例集合１、２と、正例集合Ｉ７０１と、負例集合Ｉ７０２とを入力として受け付け、前記入力に基づいて、再度、物体モデルＯ７２０を機械学習する。

なお、学習部７００の画像変動部に格納される最適変動処理及び最適パラメータは、最適画像変動処理チューニング部６００からの出力であるとしたが、予め設定されていてもよい。また、学習部７００は、最適画像変動処理チューニング部６００と連携を取りながら処理を繰り返すことで物体モデルを最適化することとした。しかし、学習部７００は、最適画像変動処理チューニング部６００と連携を取ることなく、前記予め設定されている前記最適変動処理及び前記最適パラメータに基づいて、１度だけ物体モデルを最適化する処理を行うこととしてもよい。
本実施形態の処理により、学習部７００は、実施形態１〜６での判別対象領域の画像に検出対象の物体の画像が含まれるか否かを判別する判別処理に利用される判別パラメータを最適化することができる。物体検出装置は、学習部７００によって物体モデルを繰り返し学習すると、前記物体の画像が含まれる部分領域の検出率を維持しながら、前記物体の画像が含まれない部分領域の誤検出を大幅に低減することができる。

＜実施形態８＞
実施形態１〜７において、物体検出装置は、入力画像の部分領域の画像について画像変動処理を加えることとしたが、入力画像に対して画像変動処理を加えた変動入力画像の部分領域の画像に画像変動処理を加えることとしてもよい。さらに、物体検出装置は、入力画像から求められる特徴画像から部分領域を抽出し、前記部分領域の画像に対して画像変動を加えるようにしてもよい。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００物体検出装置、Ｄ１０３物体判別部、１００１ＣＰＵ

Claims

入力画像に対して画像変動処理を加えて変動画像を得る変動手段と、
前記入力画像に検出対象の物体の画像が含まれるか否かを判別し、前記変動画像に前記物体の画像が含まれるか否かを判別する判別手段と、
前記判別手段による判別の結果に基づいて、前記物体が検出されたか否かを判定する判定手段と、
を有する情報処理装置。
前記判別手段は、前記入力画像の複数の特徴量同士の比較の結果に基づいて取得される二値化された特徴量に基づき、前記画像に前記物体の画像が含まれるか否かを判別する請求項１記載の情報処理装置。
前記判別手段は、前記入力画像に検出対象の物体の画像が含まれるか否かの判別と、前記変動画像に前記物体の画像が含まれるか否かの判別とを並列に行う請求項１又は２記載の情報処理装置。
前記変動手段は、前記入力画像に対して、輝度変化、彩度変化、コントラスト変化、ノイズ付加、空間フィルタリングのうち、少なくとも１つを含む画像変動処理を加える請求項３記載の情報処理装置。
前記判別手段により、前記入力画像に前記物体の画像が含まれると判別され、かつ前記変動画像に前記物体の画像が含まれると判別された場合に、前記判定手段は、前記物体が検出されたと判定する請求項１乃至４何れか１項記載の情報処理装置。
前記入力画像の部分領域の画像を抽出する抽出手段を更に有し、
前記判別手段は、前記抽出手段により抽出された前記部分領域の画像に検出対象の物体の画像が含まれるか否かを判別し、前記部分領域の画像に対して画像変動処理が加えられた変動画像に前記物体の画像が含まれるか否かを判別する請求項１乃至５何れか１項記載の情報処理装置。
前記判別手段は、前記入力画像に前記物体の画像が含まれると判別した場合に、前記変動画像に前記物体の画像が含まれるか否かを判別し、
前記判定手段は、前記判別手段により、前記変動画像に前記物体の画像が含まれると判別された場合に、前記物体が検出されたと判定する請求項１乃至６何れか１項記載の情報処理装置。
前記判別手段は、第１の判別パラメータに基づいて、前記入力画像に前記物体の画像が含まれるか否かを判別し、前記入力画像に前記物体の画像が含まれると判別した場合に、前記第１の判別パラメータに基づいて、前記変動画像に前記物体の画像が含まれるか否かを判別し、前記変動画像に前記物体の画像が含まれると判別した場合、第２の判別パラメータに基づいて、前記入力画像に前記物体の画像が含まれるか否かを判別し、
前記判定手段は、前記判別手段により、前記第２の判別パラメータに基づいて、前記入力画像に前記物体の画像が含まれると判別された場合、前記物体を検出したと判定する請求項１乃至７何れか１項記載の情報処理装置。
前記判別手段は、前記第２の判別パラメータに基づいて、前記入力画像に前記物体の画像が含まれると判別した場合、前記第２の判別パラメータに基づいて、前記変動画像に前記物体の画像が含まれるか否かを判別し、
前記判定手段は、前記判別手段により、前記第２の判別パラメータに基づいて、前記変動画像に前記物体の画像が含まれると判別された場合、前記物体を検出したと判定する請求項８記載の情報処理装置。
前記入力画像は連続する複数のフレーム画像を含み
前記判別手段は、１つ目のフレーム画像に前記物体の画像が含まれるか否かを判別し、２つ目のフレーム画像に対して画像変動処理が加えられた変動画像に前記物体の画像が含まれるか否かを判別する請求項１乃至９何れか１項記載の情報処理装置。
前記判別手段は、前記１つ目のフレーム画像に前記物体の画像が含まれるか否かを判別し、前記１つ目のフレーム画像と同一の視点から撮影され、時系列上で前記１つ目のフレーム画像と連続している前記２つ目のフレーム画像に対して画像変動処理が加えられた変動画像に前記物体の画像が含まれるか否かを判別する請求項１０記載の情報処理装置。
画像変動処理の種類を決定し、指標情報に基づいて前記種類の画像変動処理に利用されるパラメータを決定する第１の決定手段と、
前記物体の画像を含む正例学習画像群、及び前記物体の画像を含まない負例学習画像群の中の画像に対して前記第１の決定手段により決定された種類とパラメータとに基づく画像変動処理を加えた画像に前記物体の画像が含まれるか否かを判別する学習判別手段と、
前記学習判別手段による判別結果に基づいて、前記指標情報を更新し、指標情報が最大となると判定した場合、前記第１の決定手段により決定された種類とパラメータとに基づく画像変動処理を決定画像変動処理に決定する第２の決定手段と、
を更に有し、
前記判別手段における画像変動処理は、前記第２の決定手段で決定された前記決定画像変動処理である請求項１乃至１１何れか１項記載の情報処理装置。
前記物体の画像を含む正例学習画像群の中の全ての画像に対して画像変動処理を加え追加正例画像群を作成する作成手段と、
前記作成手段により作成された追加正例画像群、前記正例学習画像群、及び前記物体の画像を含まない負例学習画像群の中の画像に基づいて、画像に前記物体の画像が含まれるか否かの判別処理に利用されるパラメータである判別パラメータを機械学習する学習手段と、
を更に有し、
前記判別手段は、前記学習手段により機械学習された前記判別パラメータに基づいて、前記入力画像に前記物体の画像が含まれるか否かを判別する請求項１乃至１２何れか１項記載の情報処理装置。
前記物体の画像を含む正例学習画像群の中の全ての画像に対して決定画像変動処理を加えた画像群を追加正例画像群に追加する追加手段と、
前記追加手段により画像を追加された前記追加正例画像群、前記正例学習画像群、及び前記物体の画像を含まない負例学習画像群の中の画像に基づいて、画像に前記物体の画像が含まれるか否かの判別に利用されるパラメータである判別パラメータを機械学習する学習手段と、
画像変動処理の種類を決定し、指標情報に基づいて前記種類の画像変動処理に利用されるパラメータを決定する第１の決定手段と、
前記正例学習画像群、及び前記負例学習画像群の中の画像に対して前記第１の決定手段により決定された種類とパラメータとに基づく画像変動処理を加えた画像に前記物体の画像が含まれるか否かを、前記学習手段で機械学習された前記判別パラメータに基づいて、判別する学習判別手段と、
前記学習判別手段による判別結果に基づいて、前記指標情報を更新し、指標情報が最大となると判定した場合、前記第１の決定手段により決定された種類とパラメータとに基づく画像変動処理を決定画像変動処理に決定する第２の決定手段と、
を更に有し、
前記判別手段は、前記学習手段により機械学習された前記判別パラメータに基づいて、前記入力画像に前記物体の画像が含まれるか否かを判別し、
前記判別手段における画像変動処理は、前記決定手段で決定された前記決定画像変動処理である請求項１乃至１１何れか１項記載の情報処理装置。
入力画像に対して画像変動処理を加えて変動画像を得る変動ステップと、
前記入力画像に検出対象の物体の画像が含まれるか否かを判別し、前記変動画像に前記物体の画像が含まれるか否かを判別する判別ステップと、
前記判別ステップによる判別の結果に基づいて、前記物体が検出されたか否かを判定する判定ステップと、
を含む情報処理方法。
コンピュータに、
入力画像に対して画像変動処理を加えて変動画像を得る変動ステップと、
前記入力画像に検出対象の物体の画像が含まれるか否かを判別し、前記変動画像に前記物体の画像が含まれるか否かを判別する判別ステップと、
前記判別ステップによる判別の結果に基づいて、前記物体が検出されたか否かを判定する判定ステップと、
を実行させるためのプログラム。