JP6943340B2

JP6943340B2 - 物体検出装置、物体検出システム、物体検出方法、およびプログラム

Info

Publication number: JP6943340B2
Application number: JP2020522438A
Authority: JP
Inventors: 剛志柴田; あずさ澤田; 高橋　勝彦; 勝彦高橋
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2021-09-29
Anticipated expiration: 2038-05-29
Also published as: JPWO2019229855A1; US20210201007A1; WO2019229855A1; US11341762B2

Description

本発明は、画像認識によって、画像中の物体を検出する技術に関する。

カメラやセンサ等の撮像装置から取得した画像中に含まれる物体を、画像認識によって検出する物体検出装置が存在する。画像認識処理では、ある一つの波長域（例：可視光域）における画像のみを用いるよりも、別の波長域（例：遠赤外域）における他の画像を併用する方が、より多様なシーンに対応できるため、物体の検出精度が向上する。

２つの波長域の画像を取得するためには、通常、複数の撮像装置が必要である。複数の撮像装置の間には、それらの位置関係に基づく視差がある。すなわち、一つの撮像装置が取得した画像上と、もう一つの撮像装置が取得した画像上とでは、同じ物体の位置がずれて見える。

図６を参照して、関連する技術の一例および課題を説明する。図６において、上下の画像は、互いに異なる撮像装置によって撮影されたものである。図６では、２つの撮像装置がそれぞれ撮影した画像中、物体を検出する対象となる矩形の領域Ｐ１、Ｐ２を破線で示している。図６に示す例では、上側の画像中の矩形の領域Ｐ１には物体が含まれる。しかしながら、２つの撮像装置には視差があるために、下側の画像中の対応する矩形の領域Ｐ２には、人物が完全には含まれていない。そのため、識別器による人らしさの識別結果が低くなる。その結果、関連する技術では、矩形の領域Ｐ１、Ｐ２内に存在する人物を正確に検出することができない場合がある。

非特許文献１は、特殊な装置を用いることにより、画像間における視差の影響を除去する技術を開示している。

Soonmin Hwang, Jaesik Park, Namil Kim, Yukyung Choi, In So Kweon. "Multispectral Pedestrian Detection: Benchmark Dataset and Baseline." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 07 June 2015 (07-06-2015). He, Kaiming, Jian Sun, and Xiaoou Tang. "Guided image filtering." European conference on computer vision. Springer, Berlin, Heidelberg, 05 September 2010 (05-09-2010). Dollar, P., Appel, R., Belongie, S., & Perona, P. (2014). Fast feature pyramids for object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 36(8), 1532-1545 01 April 2014 (01-04-2014). Shibata, Takashi, Masayuki Tanaka, and Masatoshi Okutomi. "Misalignment-Robust Joint Filter for Cross-Modal Image Pairs." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 22 October 2017 (22-10-2017). Shibata, Takashi, Masayuki Tanaka, and Masatoshi Okutomi. "Unified image fusion based on application-adaptive importance measure." Image Processing (ICIP), 2015 IEEE International Conference on. IEEE, 27 September 2015 (27-09-2015). Shen, Xiaoyong, et al. "Multi-modal and multi-spectral registration for natural images." European Conference on Computer Vision. Springer, Cham, 04 September 2014 (04-09-2014).

しかしながら、非特許文献１に記載の技術では、視差の影響を除去するための特殊な装置にかかるコストが高いという問題がある。さらに、非特許文献１に記載の技術では、二つの撮像装置を用いて取得した画像の間で、正確に位置合わせをする必要がある。しかしながら、実際には、画像間の位置ずれを完全に補正することは困難である。

本発明の目的は、複数の画像間における視差の影響を除去するための特殊な装置を用いずに、画像認識によって、画像中の物体を高精度に検出することにある。

上記の課題を解決するために、本発明の一態様に係わる物体検出装置は、一つ以上の撮像装置によって撮影される第一画像および第二画像のうち、前記第二画像を変形することにより、変形第二画像を生成する画像変形手段と、前記第一画像と前記変形第二画像との間の位置ずれがどれぐらい小さいかを表す信頼度を算出する信頼度算出手段と、前記第一画像の各画素と、前記変形第二画像の対応する各画素とを統合することにより、統合画像を生成する統合画像生成手段と、前記統合画像から特徴量を抽出し、抽出した前記特徴量を用いて、前記統合画像が物体を含むことの確からしさを表す物体検出スコアを算出する特徴抽出手段と、前記信頼度の高さおよび前記物体検出スコアの高さの両方を考慮して、総合スコアを算出するスコア算出手段と、前記総合スコアに基づいて、前記統合画像に含まれる物体を検出する物体検出手段と、を備えている。

上記の課題を解決するために、本発明の一態様に係わる物体検出方法は、一つ以上の撮像装置によって撮影される第一画像および第二画像のうち、前記第二画像を変形することにより、変形第二画像を生成し、前記第一画像と前記変形第二画像との間の位置ずれがどれぐらい小さいかを表す信頼度を算出し、前記第一画像の各画素と、前記変形第二画像の対応する各画素とを統合することにより、統合画像を生成し、前記統合画像から特徴量を抽出し、抽出した前記特徴量を用いて、前記統合画像が物体を含むことの確からしさを表す物体検出スコアを算出し、前記信頼度の高さおよび前記物体検出スコアの高さの両方を考慮して、総合スコアを算出し、前記総合スコアに基づいて、前記統合画像に含まれる物体を検出する。

上記の課題を解決するために、本発明の一態様に係わる記録媒体は、一つ以上の撮像装置によって撮影される第一画像および第二画像のうち、前記第二画像を変形することにより、変形第二画像を生成することと、前記第一画像と前記変形第二画像との間の位置ずれがどれぐらい小さいかを表す信頼度を算出することと、前記第一画像の各画素と、前記変形第二画像の対応する各画素とを統合することにより、統合画像を生成することと、前記統合画像から特徴量を抽出し、抽出した前記特徴量を用いて、前記統合画像が物体を含むことの確からしさを表す物体検出スコアを算出することと、前記信頼度の高さおよび前記物体検出スコアの高さの両方を考慮して、総合スコアを算出することと、前記総合スコアに基づいて、前記統合画像に含まれる物体を検出することと、をコンピュータに実行させるプログラムを記録する。

本発明の一態様によれば、画像中の物体を高精度に検出することができる。

実施形態１に係わる画像処理システムの構成を示すブロック図である。実施形態１に係わる画像処理システムが備えたデータ処理装置の動作を説明するためのフローチャートである。実施形態１に係わる構成の効果を示す図である。実施形態２に係わる物体検出装置の構成を示すブロック図である。実施形態３に係わる情報処理装置のハードウェア構成を示す図である。関連する技術の課題を説明する図である。

本発明を実施するための形態について、図面を参照して詳細に説明する。

［実施形態１］
図１は、本実施形態に係る画像処理システム１の概略構成を示すブロック図である。図１を参照すると、画像処理システム１は、第一画像入力部１０１と、第二画像入力部１０２と、データ処理装置２００と、出力部３０１とを備えている。

（データ処理装置２００）
データ処理装置２００は、プログラム制御により動作するコンピュータによって実現される。図１に示すように、データ処理装置２００は、画像変形部２０１と、信頼度算出部２０２と、画像統合部２０３と、特徴抽出部２０４と、スコア算出部２０５と、物体検出部２０６と、画像取得部２０７とを備えている。これらの各部は、それぞれ、以下で説明するように動作する。なお、本実施形態に係わるデータ処理装置２００は、物体検出装置の一例である。

（第一画像入力部１０１）
第一画像入力部１０１は、カメラまたはセンサなどの、図示しない撮像装置から、物体を含む一枚以上の画像のデータ、すなわち１つ以上のフレームのデータを取得する。第一画像入力部１０１は、取得した画像のデータを、データ処理装置２００に入力する。また、第一画像入力部１０１は、取得した画像のデータを、図示しないメモリ等に保存する。第一画像入力部１０１が取得する画像は、カメラによって取得された可視画像であってもよいし、あるいは、センサから得られる温度画像または深度画像であってもよい。第一画像入力部１０１は、センサが測定した各種の測定値のデータをさらに取得してもよい。以下では、第一画像入力部１０１がデータ処理装置２００に入力する画像、およびそれに関するデータを、まとめて第一画像と呼ぶ。

第一画像は、深層学習の途中の処理結果などの多チャンネルの画像であってもよい。あるいは、第一画像は、数値シミュレーションなどにより算出したベクトルデータ（速度場、密度場など）であってもよい。

以下では、第一画像をＩ１（ｊ，ｍ）と記載する場合がある。ｊは、第一画像における画素を特定するための番号を表す添え字であり、ｍは、第一画像入力部１０１が入力する第一画像のうちのどの第一画像かを特定するための番号、言い換えると、第一画像の各フレームの番号を表す添え字である。

（第二画像入力部１０２）
第二画像入力部１０２は、カメラまたはセンサなどの撮像装置から、物体を含む一枚以上の画像のデータを取得する。第二画像入力部１０２は、取得した画像のデータを、データ処理装置２００に入力する。また、第二画像入力部１０２は、取得した画像のデータを、図示しないメモリ等に保存する。

第二画像入力部１０２が取得する画像は、可視画像であってもよいし、あるいは、センサから得られる温度画像または深度画像などであってもよい。第二画像入力部１０２は、センサが測定した各種の測定値のデータをさらに取得してもよい。

第二画像入力部１０２は、第一画像とは異なる波長域の画像を取得する。例えば、第一画像が可視光域の画像である場合、第二画像入力部１０２が取得する画像は、例えば、第一画像と同期した遠赤外域または近赤外域の画像であってよい。以下では、第二画像入力部１０２がデータ処理装置２００に入力する画像、およびそれに関するデータを、まとめて第二画像と呼ぶ。

以下では、第二画像をＩ２（ｊ，ｎ）と記載する場合がある。ｊは、第二画像における画素を特定するための番号を表す添え字であり、ｎは、第二画像入力部１０２が入力する第二画像のうちのどの第二画像かを特定するための番号、言い換えると、第二画像の各フレームの番号を表す添え字である。

（第一画像、第二画像）
第一画像および第二画像は、互いに異なる撮像装置によって撮影されてもよいし、同一の撮像装置によって撮影されてもよい。第一画像および第二画像が、一つの撮像装置によって撮影される場合、データ処理装置２００は、撮像装置が撮影した複数の画像を、波長域や時刻などの撮影条件によって、第一画像のグループと第二画像のグループとに分けて取得する。

あるいは、第二画像を撮影するために使用する撮像装置は、第一画像を撮影するために使用する撮像装置と同じであってもよい。この場合、第二画像が撮影される時刻は、第一画像が撮影される時刻から僅かにずれる。例えば、第一画像および第二画像を撮影するために用いる撮像装置が、内視鏡のようなＲＧＢ面順次方式である場合、第一画像はある一フレームであり、第二画像は次のフレームであってよい。

あるいは、第一画像および第二画像を撮影するために使用する撮像装置は、衛星に搭載されていてもよい。例えば、第一画像は、光学衛星からの画像であり、第二画像は、広域の温度情報または電波情報を取得する衛星からの画像であってもよい。この場合、これらの衛星による第一画像および第二画像の撮影時刻は、同一であってもよいし、異なっていてもよい。

なお、第一画像入力部１０１および第二画像入力部１０２は、それぞれ、取得した第一画像および第二画像に対し、ノイズ除去、トーンマッピング処理、超解像処理、ボケ除去処理、あるいは画像融合処理などの、各種の画像処理を実施してもよい。

（画像取得部２０７）
画像取得部２０７は、第一画像入力部１０１からデータ処理装置２００へ入力された第一画像を取得し、また、第二画像入力部１０２からデータ処理装置２００へ入力された第二画像を取得する。画像取得部２０７は、取得した第二画像のデータを画像変形部２０１へ出力する。また、画像取得部２０７は、取得した第一画像のデータを信頼度算出部２０２および画像統合部２０３へそれぞれ出力する。

（画像変形部２０１）
画像変形部２０１は、画像取得部２０７から、第二画像のデータを受信する。画像変形部２０１は、第二画像入力部１０２から入力された第二画像を変形または変換することによって、変形第二画像を生成する。例えば、画像変形部２０１は、第二画像に対し、平行移動などの幾何変換を実施することによって、変形第二画像を生成する。なお、画像変形部２０１は、複数通りの変形または変換によって、一つの第二画像から、複数の変形第二画像を生成してもよい。

例えば、画像変形部２０１は、第二画像に対し、「右に１画素」、「右に２画素」、「右に３画素」、「変形なし」、「左に１画素」、「左に２画素」、「左に３画素」など、一通り以上の平行移動を行うことにより、一つ以上の変形第二画像を生成する。画像変形部２０１は、こうして生成した一つ以上の変形第二画像を、信頼度算出部２０２および画像統合部２０３に出力するとともに、図示しないメモリに保存する。

あるいは、画像変形部２０１は、第二画像に対し、平行移動以外の変形または変換を実施してもよい。例えば、画像変形部２０１は、第二画像に対し、ホモグラフィ変換、アフィン変換、またはヘルマート変換などを実施してもよい。また、画像変形部２０１は、変形を特徴づける複数のパラメタを用意し、一つのパラメタごとに、それぞれ変形第二画像を生成してもよい。

あるいは、画像変形部２０１は、第二画像を撮影した撮像装置の特性に応じて、第二画像に対して実施する変形の種類（例えば平行移動）を決定してもよい。

例えば、第一画像入力部１０１が第一画像を取得するために使用する撮像装置と、第二画像入力部１０２が第二画像を取得するために使用する撮像装置とが、空間的に並列しているとする。この場合、画像変形部２０１は、これらの撮像装置の配置に対応するエピポーラ線に沿って、第二画像の各画素を平行移動することによって、変形第二画像を生成してもよい。

以下では、変形第二画像をＪ（ｊ，ｎ，ｋ）と記載する場合がある。ｊは、変形第二画像における画素を特定するための番号を表す添え字であり、ｎは、変形第二画像の元となる第二画像を特定するための番号を表す添え字である。また、ｋは、一つの第二画像から画像変形部２０１によって生成された変形第二画像のうちの一つの変形第二画像を特定するための番号を表す添え字である。換言すれば、添え字ｋは、第二画像に対して行われる変形または変換の種類を表す。

（信頼度算出部２０２）
信頼度算出部２０２は、画像取得部２０７から第一画像を取得する。また、信頼度算出部２０２は、画像変形部２０１が生成した変形第二画像を取得する。

信頼度算出部２０２は、画像変形部２０１が生成した変形第二画像Ｊ（ｊ，ｎ，ｋ）と、第一画像入力部１０１が生成した第一画像Ｉ１（ｊ，ｍ）との間の相関の強さに基づいて、第一画像の画素（添え字ｊ）ごとに、信頼度を算出する。信頼度は、第一画像の画素と、変形第二画像の対応する画素とが、同じ物体（人物）に対応することの確からしさを表す。換言すれば、信頼度は、第一画像に含まれる空間の範囲と、変形第二画像に含まれる空間の範囲との間の位置ずれが、どれだけ小さいかを表す。

信頼度算出部２０２は、算出した信頼度の情報をスコア算出部２０５へ出力する。

信頼度算出部２０２は、上記の信頼度を算出するために、例えば、ロバスト関数および正規化相互相関（非特許文献６）を用いてもよいし、相互情報量（Mutual information）、差分二乗和（Sum of squared difference）、または差分絶対値和（Sum of Absolute difference）を用いてもよい。

あるいは、信頼度算出部２０２は、非特許文献２に記載されたガイデッドフィルタ（Guided Filter）のコスト関数を用いて、信頼度を算出することもできる。コスト関数Ｅ（ｊ，ｋ）は、例えば、以下の式１、式２、または式３で表される。

信頼度算出部２０２は、変形第二画像Ｊ（ｊ，ｎ，ｋ）と、線形変形した第一画像Ｉ１（ｊ，ｍ）との差分の二乗和を算出する。
（式１）
Ｅ（ｊ，ｋ）＝Σｎ,ｍ｛（ａ１×Ｉ１（ｊ，ｍ）＋ｂ１−Ｊ（ｊ，ｎ，ｋ））^２｝
（式２）
Ｅ（ｊ，ｋ）＝Σｎ,ｍ｛（ａ２×Ｊ（ｊ，ｎ，ｋ）＋ｂ２−Ｉ１（ｊ，ｍ））^２｝
（式３）
Ｅ（ｊ，ｋ）＝Σｎ,ｍ｛（ａ１×Ｉ１（ｊ，ｍ）＋ｂ１−Ｊ（ｊ，ｎ，ｋ））^２
＋（ａ２×Ｊ（ｊ，ｎ，ｋ）＋ｂ２−Ｉ１（ｊ，ｍ））^２｝
上記の式１、式２、式３に示すコスト関数において、係数ａ１、ａ２、ｂ１、ｂ２は、非特許文献２に記載された手法を用いることで、算出することができる。

コスト関数と信頼度とは逆相関であることが、注意すべき点である。コスト関数の値が小さいほど、変形第二画像Ｊ（ｊ，ｎ，ｋ）と、線形変形した第一画像Ｉ１（ｊ，ｍ）との間の位置ずれが小さいため、信頼度は高くなる。一例では、信頼度算出部２０２は、上記のコスト関数の逆数を信頼度として用いてもよいし、任意の定数からコスト関数を減算したものを、信頼度としてもよい。

あるいは、信頼度算出部２０２は、コスト関数の代わりにソフトマックス関数（softmax function）などを用いてもよい。この場合、信頼度算出部２０２は、ソフトマックス関数に基づく信頼度を算出する。

信頼度算出部２０２は、以下で説明するように、信頼度を正規化してもよい。

まず、信頼度算出部２０２は、以下の式４を用いて、最も値の小さいコスト関数を選択する。以下の式４において、Ｎ_１（ｊ）は、ある特定の画素（添え字ｊ）およびその周辺の画素からなる集合である。
（式４）

あるいは、信頼度算出部２０２は、以下の式４ａを用いて、最も値の小さいコスト関数を選択してもよい。
（式４ａ）

ここで、θ（・）（「・」は引数を表す）は、引数「・」がゼロ以下の時に１、それ以外の時に０を出力する関数である。またＥ_０はユーザが設定するパラメタであり、０よりも大きな値を持つ。

次に、信頼度算出部２０２は、以下の式５にしたがって、式４または４ａに基づいて選択した、最も値の小さいコスト関数を平滑化する。以下の式５において、Ｗ（ｋ´，ｋ）は、ガウシアンフィルタなどの任意の平滑化フィルタである。また、Ｎ_２（ｋ）は、画像変形部２０１が一つの第二画像から生成した全ての変形第二画像からなる集合である。
（式５）

その後、信頼度算出部２０２は、以下の式６を用いて、平滑化されたコスト関数を正規化する。以下の式６の左辺に示す関数Ｓ（ｊ，ｋ）は、最小値が０、かつ最大値が１となる。関数Ｓ（ｊ，ｋ）は、正規化された信頼度である。
（式６）

（画像統合部２０３）
画像統合部２０３は、画像取得部２０７から第一画像を取得する。また、画像統合部２０３は、画像変形部２０１が生成した変形第二画像を取得する。

画像統合部２０３は、第一画像Ｉ１（ｊ，ｍ）および変形第二画像Ｊ（ｊ，ｎ，ｋ）を統合することによって、一つの統合画像を生成する。ここでの「統合」とは、第一画像Ｉ１（ｊ，ｍ）および変形第二画像Ｊ（ｊ，ｎ，ｋ）の対応する２つの画素の画素値のデータをまとめることである。この画素値のデータのまとまりを、「統合画像」と呼ぶ。したがって、統合画像の各画素は、第一画像Ｉ１（ｊ，ｍ）および変形第二画像Ｊ（ｊ，ｎ，ｋ）の両方の画素の画素値を有する。

すなわち、画像統合部２０３は、第一画像Ｉ１（ｊ，ｍ）の波長域Ａにおける画素ｊの画素値と、変形第二画像Ｊ（ｊ，ｎ，ｋ）の波長域Ｂにおける画素ｊの画素値とを足し合わせるのではなく、これらの画素値のデータをメモリ内で並べて、統合画像の波長域（Ａ＋Ｂ）における画素ｊの画素値のデータとして保存する。画像統合部２０３は、このようにして、統合画像の各画素（添え字ｊ）の画素値を確定する。

以下では、統合画像をＴ（ｊ，ｃ，ｋ）と表す。添え字ｃは、一つの統合画像を特定するための番号を表す。

画像統合部２０３は、生成した統合画像を特徴抽出部２０４へ出力する。

（特徴抽出部２０４）
特徴抽出部２０４は、画像統合部２０３が生成した統合画像Ｔ（ｊ，ｃ，ｋ）から、特徴量を抽出する。例えば、特徴抽出部２０４は、ＨｏＧ（Histogram of Gradient）またはＳＩＦＴ（Scale-Invariant Feature Transform）などの特徴量を、統合画像Ｔ（ｊ，ｃ，ｋ）から抽出してもよい。

特徴抽出部２０４は、統合画像Ｔ（ｊ，ｃ，ｋ）の各矩形の領域から特徴量を抽出するために、非特許文献３に記載のＡＣＦ（Aggregate Channel Features）を用いてもよいし、深層学習を用いてもよい。

特徴抽出部２０４は、統合画像Ｔ（ｊ，ｃ，ｋ）の各矩形の領域から抽出した特徴量に基づいて、識別器を用いて、矩形の領域ごとの物体検出スコアを算出する。例えば、特徴抽出部２０４は、矩形の領域ごとの特徴量を識別器に入力し、識別器は、物体を検出するための学習処理を実行する。特徴抽出部２０４は、識別器による学習結果に基づいて、矩形の領域の物体らしさを示す物体検出スコアを算出する。特徴抽出部２０４は、こうして算出した物体検出スコアを、図示しないメモリに保存する。

例えば、特徴抽出部２０４は、非特許文献３に記載された方法を用いて、物体検出スコアを算出してもよい。非特許文献３には、アダブースト（AdaBoost）を用いて、画像中の物体を検出する方法が記載されている。

しかしながら、特徴抽出部２０４は、アダブーストの代わりに、ランダムフォレスト（random forest）またはサポートベクトル回帰（support vector regression）を用いてもよいし、深層学習を用いてもよい。

特徴抽出部２０４が、上述したいずれかの方法を用いて、物体検出スコアを算出するとき、学習画像および正解データが必要になる。学習画像は、位置ずれのまったくない第一画像および第二画像の組である。正解データは、一つの画像の組において、検出対象の物体がどこにあるのかを示すラベルである。例えば、ラベルは、第一画像および第二画像の各々において、物体（例えば人物）を含む矩形の領域を示す座標であってよい。

以下では、物体検出スコアをＳ２（ｂ，ｋ）と記載する場合がある。ｂは、物体を含む矩形の領域を特定する番号を表す添え字であり、ｋは、画像変形部２０１によって一つの第二画像から生成された変形第二画像のうちの一つの変形第二画像を特定するための番号を表す添え字である。

（スコア算出部２０５）
スコア算出部２０５は、信頼度算出部２０２が算出した信頼度と、特徴抽出部２０４が算出した物体検出スコアとから、統合画像中の各矩形の領域についての総合スコアを算出する。総合スコアは、統合画像中の矩形の領域が物体を含むことの確からしさを表す。

一例では、スコア算出部２０５は、以下の式７にしたがって、総合スコアＳ（ｂ，ｋ）を算出する。式７において、αは、重みパラメタである。重みパラメタαは、例えば、ユーザによってあらかじめ設定されてもよい。
（式７）
Ｓ（ｂ，ｋ）＝α×＜Ｓ１（ｂ，ｋ）＞＋Ｓ２（ｂ，ｋ）
式７において、＜Ｓ１（ｂ，ｋ）＞は、ｋ番目の変形第二画像におけるｂ番目の矩形の領域内に含まれる全ての画素（添え字ｊ）についての信頼度Ｓ１（ｊ，ｋ）を平均した値を表す。あるいは、＜Ｓ１（ｂ，ｋ）＞は、単に、ｋ番目の変形第二画像におけるｂ番目の矩形の領域内に含まれる全ての画素（添え字ｊ）についての信頼度Ｓ１（ｊ，ｋ）の総和であってもよい。

あるいは、＜Ｓ１（ｂ，ｋ）＞は、ｋ番目の変形第二画像におけるｂ番目の矩形の領域内に含まれる全ての画素（添え字ｊ）についての信頼度Ｓ１（ｊ，ｋ）の重み平均であってもよい。例えば、スコア算出部２０５は、ｂ番目の矩形の領域内において、物体が存在している可能性が高い領域内の画素（例えば、矩形の領域の中央）についての信頼度に対して、大きな重みを付与する。一方、スコア算出部２０５は、物体が存在している可能性が低い領域内の画像（例えば、変形第二画像の端）についての信頼度に対して、小さな重みを付与する。

他の一例では、スコア算出部２０５は、以下の式８に示すように、信頼度の平均または総和＜Ｓ１（ｂ，ｋ）＞および物体検出スコアＳ２（ｂ，ｋ）に対し、非線形変形を行ってから、これらを足し合わせてもよい。パラメタβ１およびβ２は、例えば、ユーザによってあらかじめ設定されてもよい。
（式８）
Ｓ（ｂ，ｋ）＝ｅｘｐ（−β１×＜Ｓ１（ｂ，ｋ）＞)＋ｅｘｐ（−β２×Ｓ２（ｂ，ｋ））
あるいは、スコア算出部２０５は、以下の式９に示すように、＜Ｓ１（ｂ，ｋ）＞およびＳ２（ｂ，ｋ）を引数とする非線形関数Ｆを、総合スコアＳ（ｂ，ｋ）としてもよい。非線形関数Ｆは、引数である＜Ｓ１（ｂ，ｋ）＞およびＳ２（ｂ，ｋ）の両方の増加関数である。すなわち、＜Ｓ１（ｂ，ｋ）＞を固定値とした場合、Ｓ２（ｂ，ｋ）が高いほど、総合スコアＳ（ｂ，ｋ）は高くなる。また、Ｓ２（ｂ，ｋ）を固定値とした場合、＜Ｓ１（ｂ，ｋ）＞が高いほど、総合スコアＳ（ｂ，ｋ）は高くなる。
（式９）
Ｓ（ｂ，ｋ）＝Ｆ（＜Ｓ１（ｂ，ｋ）＞，Ｓ２（ｂ，ｋ））
このようにして、スコア算出部２０５は、信頼度および物体検出スコアの両方を考慮した総合スコアを算出する。例えば、本実施形態では、スコア算出部２０５は、信頼度および物体検出スコアの両方の増加関数である総合スコアを算出する。

［変形例］
一変形例では、スコア算出部２０５は、信頼度Ｓ（ｊ，ｋ）が閾値以上であるパラメタの組（ｊ，ｋ）についてのみ、その信頼度Ｓ（ｊ，ｋ）の値を、上述した信頼度の平均または総和＜Ｓ１（ｂ，ｋ）＞に加算してもよい。これにより、信頼度の平均または総和＜Ｓ１（ｂ，ｋ）＞を算出するために消費するコンピュータ資源を削減することができる。

（物体検出部２０６）
物体検出部２０６は、スコア算出部２０５が算出した総合スコアＳ（ｂ，ｋ）に基づいて、統合画像Ｔ（ｊ，ｃ，ｋ）中に含まれる物体を検出する。例えば、物体検出部２０６は、総合スコアＳ（ｂ，ｋ）が閾値以上である場合、統合画像Ｔ（ｊ，ｃ，ｋ）におけるｂ番目の矩形の領域内に、物体が存在すると判定してもよい。

このようにして、物体検出部２０６は、統合画像中の全ての矩形の領域について、物体の存在の有無を判定する。物体検出部２０６は、統合画像中の全ての矩形の領域についての物体の検出結果を、出力部３０１に送信してもよい。

あるいは、物体検出部２０６は、一つの統合画像において、物体を含む複数の矩形の領域のうち、代表的な一つの矩形の領域を選択してもよい。例えば、物体検出部２０６は、複数の矩形の領域のうち、総合スコアが最大である矩形の領域を選択してもよい。この場合、物体検出部２０６は、総合スコアが最大である矩形の領域を示す情報のみを、物体の検出結果として、出力部３０１に送信する。

または、複数の矩形の領域を規定する座標同士が十分に近く（例えば座標間の距離が第一の所定値以内）、かつ、それらの複数の矩形の領域についての物体検出スコアが、互いに近い値を有する（例えば値の差が第二の所定値以内）場合、物体検出部２０６は、総合スコアが最大である一つの矩形の領域を示す情報のみを、物体の検出結果として、出力部３０１に送信してもよい。

データ処理装置２００は、非特許文献４または非特許文献５に記載の方法を用いて、第一画像または変形第二画像よりも視認性が向上した統合画像を生成し、出力する手段をさらに備えていてもよい。この場合、画像統合部２０３は、視認性の向上した統合画像を、物体検出部２０６による物体の検出結果とともに、出力部３０１へ送信する。

（出力部３０１）
出力部３０１は、物体検出部２０６から、物体の検出結果のみを受信した場合、物体の検出結果のみを出力する。

データ処理装置２００が、前述した視認性が高い統合画像を生成する手段をさらに備える場合、出力部３０１は、視認性の高い統合画像上に、物体が検出された矩形の領域を示す矢印や枠などのオブジェクトを重畳した表示画像を出力する。これにより、ユーザは、出力部３０１から出力された表示画像を確認することによって、物体の検出された位置を知ることができる。

［動作の説明］
図２および図３を参照して、データ処理装置２００の動作の流れを説明する。図２は、データ処理装置２００による動作の流れを示すフローチャートである。図３は、本実施形態に係わる構成が達成する効果を説明する図である。

図２に示すように、画像取得部２０７は、第一画像入力部１０１から、第一画像のデータを取得するとともに、第二画像入力部１０２から、第二画像のデータを取得する（Ｓ２０１）。

図３において、上側の画像は第一画像の一例であり、下側の画像は第二画像の一例である。図３に示す破線の枠Ｐ３、Ｐ４は、それぞれ、物体を検出する対象となる矩形の領域のうちの一つである。矩形の領域Ｐ３、Ｐ４は互いに対応している。すなわち、矩形の領域Ｐ３と矩形の領域Ｐ４は、同じ座標系における同じ範囲を表す。なお、物体を検出する対象となる領域の形状は限定されない。

画像変形部２０１は、画像取得部２０７が取得した第二画像を変形することによって、変形第二画像を生成する（Ｓ２０２）。

例えば、画像変形部２０１は、第二画像を平行移動（図３では、右方向へ微小平行移動）させることによって、変形第二画像を生成する。このとき、画像変形部２０１は、第二画像内の矩形の領域Ｐ４を第二画像とともに平行移動させない。すなわち、変形第二画像内の矩形の領域Ｐ４´は、第一画像内の領域Ｐ３と対応する位置のままである。

信頼度算出部２０２は、第一画像と変形第二画像との間の相関に基づいて、信頼度を算出する（Ｓ２０３）。信頼度は、第一画像と変形第二画像との間の位置ずれの小ささを表す値である。

次に、画像統合部２０３は、変形第二画像の画素値と第一画像の画素値とが統合された統合画像を生成する（Ｓ２０４）。

特徴抽出部２０４は、統合画像中の各矩形の領域から特徴量を抽出し、矩形の領域ごとに物体検出スコアを算出する（Ｓ２０５）。

スコア算出部２０５は、信頼度算出部２０２が算出した信頼度と、特徴抽出部２０４が算出した物体検出スコアとに基づいて、例えば上述した式７から式９のいずれかに示す関数にしたがって、総合スコアを算出する（Ｓ２０６）。

物体検出部２０６は、スコア算出部２０５が算出した総合スコアに基づいて、統合画像内から物体を検出する（Ｓ２０７）。

最後に、出力部３０１は、物体検出部２０６が物体を検出した矩形の領域を示す情報を出力する（Ｓ２０８）。

あるいは、データ処理装置２００が、前述した視認性が高い統合画像を生成する手段をさらに備える場合、出力部３０１は、視認性の高い統合画像上に、物体が検出された矩形の領域を示す矢印や枠などのオブジェクトを重畳した表示画像を出力する。

（本実施形態の効果）
本実施形態の構成によれば、データ処理装置は、一つ以上の撮像装置から、第一画像と、第二画像とを取得する。第一画像と第二画像とは波長域が異なる。データ処理装置は、第二画像が変形された変形第二画像を生成する。そして、変形第二画像と第一画像との間の相関から、信頼度を算出する。信頼度は、変形第二画像と第一画像との間の位置ずれ量が小さいほど大きい。

また、データ処理装置は、変形第二画像と第一画像とを統合した統合画像を生成し、生成した統合画像から特徴量を抽出し、抽出した特徴量に基づいて、統合画像が物体を含むことの確からしさを表す物体検出スコアを算出する。そして、データ処理装置は、算出した信頼度と物体検出スコアとに基づいて、総合スコアを算出する。

総合スコアは、信頼度および物体検出スコアの両方の増加関数である。すなわち、物体検出スコアが固定値であるとした場合、信頼度が高いほど、総合スコアは高くなる。また、信頼度が固定値であるとした場合、物体検出スコアが高くほど、総合スコアは高くなる。

データ処理装置は、このようにして算出した総合スコアを用いて、統合画像から物体を検出する。そのため、統合画像中の物体を精度よく検出することができる。

［実施形態２］
本実施形態では、課題を解決するための必須構成について説明する。

（物体検出装置４００）
図４は、本実施形態に係わる物体検出装置４００の構成を示すブロック図である。図４に示すように、物体検出装置４００は、画像変形部４０１、信頼度算出部４０２、画像統合部４０３、特徴抽出部４０４、スコア算出部４０５、および物体検出部４０６を備えている。

画像変形部４０１は、一つ以上の撮像装置によって撮影される第一画像および第二画像のうち、第二画像を変形することにより、変形第二画像を生成する。

信頼度算出部４０２は、第一画像と変形第二画像との間の位置ずれがどれぐらい小さいかを表す信頼度を算出する。

画像統合部４０３は、第一画像の各画素と、変形第二画像の対応する各画素とを統合することにより、統合画像を生成する。

特徴抽出部４０４は、統合画像中の矩形の領域ごとに特徴量を抽出し、抽出した前記特徴量を用いて、各矩形の領域が物体を含むことの確からしさを表す物体検出スコアを算出する。

スコア算出部４０５は、信頼度の高さおよび物体検出スコアの高さの両方を考慮して、総合スコアを算出する。

物体検出部４０６は、算出された総合スコアに基づいて、統合画像中の各矩形の領域が物体を含むかどうかを判定する。

（本実施形態の効果）
本実施形態の構成によれば、物体検出装置は、第一画像と変形第二画像との間の相関に基づいて、信頼度を算出する。信頼度は、第一画像と変形第二画像との間の位置ずれがどれぐらい小さいかを表す。すなわち、第一画像と変形第二画像との間の位置ずれが小さいほど、信頼度は高くなる。

また、物体検出装置は、第一画像と変形第二画像とから、統合画像を生成する。そして、算出した信頼度と、統合画像の特徴量に基づく物体検出スコアとを考慮した総合スコアを算出する。

このように、本実施形態に係わる物体検出装置は、単に特徴量に基づく物体検出スコアに基づいて、統合画像中の物体を検出するのではなく、第一画像と変形第二画像との間の相関を表す信頼度も考慮した総合スコアに基づいて、統合画像中の物体を検出する。そのため、統合画像中の物体を高精度に検出することができる。

［実施形態３］
（ハードウェア構成について）
本開示の各実施形態において、各装置の各構成要素は、機能単位のブロックを示している。各装置の各構成要素の一部又は全部は、例えば図５に示すような情報処理装置９００とプログラムとの任意の組み合わせにより実現される。図５は、各装置の各構成要素を実現する情報処理装置９００のハードウェア構成の一例を示すブロック図である。

図５に示すように、情報処理装置９００は、一例として、以下のような構成を含む。

・ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）９０１
・ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９０２
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９０３
・ＲＡＭ９０３にロードされるプログラム９０４
・プログラム９０４を格納する記憶装置９０５
・記録媒体９０６の読み書きを行うドライブ装置９０７
・通信ネットワーク９０９と接続する通信インタフェース９０８
・データの入出力を行う入出力インタフェース９１０
・各構成要素を接続するバス９１１
各実施形態における各装置の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が取得して実行することで実現される。各装置の各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてＣＰＵ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

（本実施形態の効果）
本実施形態の構成によれば、前記のいずれかの実施形態において説明した装置が、ハードウェアとして実現される。したがって、前記のいずれかの実施形態において説明した効果と同様の効果を奏することができる。

本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。

１画像処理システム
１０１第一画像入力部
１０２第二画像入力部
２００データ処理装置
２０１画像変形部
２０２信頼度算出部
２０３画像統合部
２０４特徴抽出部
２０５スコア算出部
２０６物体検出部
３０１出力部
４００物体検出装置
４０１画像変形部
４０２信頼度算出部
４０３画像統合部
４０４特徴抽出部
４０５スコア算出部
４０６物体検出部

Claims

一つ以上の撮像装置によって撮影される第一画像および第二画像のうち、前記第二画像を変形することにより、変形第二画像を生成する画像変形手段と、
前記第一画像と前記変形第二画像との間の位置ずれがどれぐらい小さいかを表す信頼度を算出する信頼度算出手段と、
前記第一画像の各画素と、前記変形第二画像の対応する各画素とを統合することにより、統合画像を生成する統合画像生成手段と、
前記統合画像から特徴量を抽出し、抽出した前記特徴量を用いて、前記統合画像が物体を含むことの確からしさを表す物体検出スコアを算出する特徴抽出手段と、
前記信頼度の高さおよび前記物体検出スコアの高さの両方を考慮して、総合スコアを算出するスコア算出手段と、
前記総合スコアに基づいて、前記統合画像に含まれる物体を検出する物体検出手段と、
を備えた物体検出装置。
前記物体検出手段は、
前記統合画像内に設定された複数の領域の各々について物体を検出し、
同じ物体を含む複数の領域が存在する場合、代表的なただ一つの領域を示す情報を、物体の検出結果として出力する
ことを特徴とする請求項１に記載の物体検出装置。
前記物体検出手段は、
前記領域を規定する４頂点の座標あるいは矩形の中心座標が互いに近い複数の領域は、同じ物体を含むと判定する
ことを特徴とする請求項２に記載の物体検出装置。
前記第一画像および前記第二画像よりも視認性が向上した統合画像を生成し、出力する手段をさらに備えた
ことを特徴とする請求項１から３のいずれか１項に記載の物体検出装置。
前記画像変形手段は、前記第一画像を撮影する撮像装置と、前記第二画像を撮影する他の撮像装置との間の位置関係に応じて、前記第二画像の変形の種類を決定する
ことを特徴とする請求項１から４のいずれか１項に記載の物体検出装置。
前記スコア算出手段が算出する前記総合スコアは、前記信頼度の高さおよび前記物体検出スコアの高さの両方の増加関数である
ことを特徴とする請求項１から５のいずれか１項に記載の物体検出装置。
請求項１から６のいずれか１項に記載の物体検出装置と、
前記物体検出装置へ、物体を含む第一画像を入力する一つ以上の撮像装置と、
前記物体検出手段による物体の検出結果を出力する出力手段と
を備えた画像処理システム。
一つ以上の撮像装置によって撮影される第一画像および第二画像のうち、前記第二画像を変形することにより、変形第二画像を生成し、
前記第一画像と前記変形第二画像との間の位置ずれがどれぐらい小さいかを表す信頼度を算出し、
前記第一画像の各画素と、前記変形第二画像の対応する各画素とを統合することにより、統合画像を生成し、
前記統合画像から特徴量を抽出し、抽出した前記特徴量を用いて、前記統合画像が物体を含むことの確からしさを表す物体検出スコアを算出し、
前記信頼度の高さおよび前記物体検出スコアの高さの両方を考慮して、総合スコアを算出し、
前記総合スコアに基づいて、前記統合画像に含まれる物体を検出する
物体検出方法。
一つ以上の撮像装置によって撮影される第一画像および第二画像のうち、前記第二画像を変形することにより、変形第二画像を生成することと、
前記第一画像と前記変形第二画像との間の位置ずれがどれぐらい小さいかを表す信頼度を算出することと、
前記第一画像の各画素と、前記変形第二画像の対応する各画素とを統合することにより、統合画像を生成することと、
前記統合画像から特徴量を抽出し、抽出した前記特徴量を用いて、前記統合画像が物体を含むことの確からしさを表す物体検出スコアを算出することと、
前記信頼度の高さおよび前記物体検出スコアの高さの両方を考慮して、総合スコアを算出することと、
前記総合スコアに基づいて、前記統合画像に含まれる物体を検出することと、
をコンピュータに実行させるためのプログラム。