JP7149124B2

JP7149124B2 - 画像オブジェクト抽出装置及びプログラム

Info

Publication number: JP7149124B2
Application number: JP2018139764A
Authority: JP
Inventors: 吉彦河合
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2022-10-06
Anticipated expiration: 2038-07-25
Also published as: JP2020017082A

Description

本発明は、画像に映る特定のオブジェクトを抽出する技術に関し、特に、ニューラルネットワークを用いて例えば風景を撮像した画像中からオブジェクトとして空や建物、車両、人物の顔等を抽出する画像オブジェクト抽出装置及びプログラムに関する。

例えば風景を撮像した画像中からオブジェクトとして空や建物、車両、人物の顔等を抽出する技術として、機械学習やニューラルネットワークを用いる技術が知られている。

特に、ニューラルネットワークを用いて特定のオブジェクトを抽出する技術が開示されている（例えば、非特許文献１，２参照）。

ニューラルネットワークは、オブジェクト抽出やオブジェクト認識などのタスクで広く利用されている技術である。ニューラルネットワークを利用して入力画像の一部分に映るオブジェクトを抽出する場合は、入力画像の一部（或いは入力画像から算出された特徴マップの一部）の注目領域（「ＲＯＩ」とも称される）をニューラルネットワークに入力して、その抽出結果を出力するものとなっている（例えば、非特許文献３参照）。

図８に、従来技術における、ニューラルネットワークを用いた画像オブジェクト抽出装置１００の概略構成を示す。また、図９（ａ）は、ニューラルネットワークを利用したオブジェクト抽出処理の概要を示す図であり、図９（ｂ）は、図９（ａ）について分かりやすさのため入力を１次元に省略した図である。

図８に示す従来技術における画像オブジェクト抽出装置１００は、注目領域切り出し部１１２、走査部１１３、及びニューラルネットワーク部１１５を備える。

注目領域切り出し部１１２は、入力画像Ｉを入力して、走査部１１３によって指定される画像座標に基づいて、入力画像Ｉから注目領域（ＲＯＩ）の部分画像を切り出しニューラルネットワーク部１１５に出力する。従って、注目領域切り出し部１１２は、図９（ａ），（ｂ）に示す画像オブジェクト抽出装置１００の入力層として機能する。

走査部１１３は、後段のニューラルネットワーク部１１５による特徴演算が実行される度に、入力画像Ｉから、注目領域（ＲＯＩ）の基準となる座標値を順次走査（例えば１画素単位で走査）しながら生成し、或る画像座標を演算領域切り出し部１１２に出力する。

ニューラルネットワーク部１１５は、ニューラルネットワークの構造上の一部分である部分ネットワークとして、注目領域特徴演算部１１５１、及びオブジェクト抽出部１１５４からなる。

注目領域特徴演算部１１５１は、演算領域切り出し部１１２から入力される注目領域（ＲＯＩ）の部分画像に対して、ニューラルネットワークを用いて特徴量を算出し、オブジェクト抽出部１１５４に出力する。従って、注目領域特徴演算部１１５１は、図９（ａ），（ｂ）に示す画像オブジェクト抽出装置１００の特徴演算層として機能し、注目領域（ＲＯＩ）の部分画像（図示ＮＡ１）から、ニューラルネットワークを用いて特徴量（図示ＮＡ２）を算出する。

ここで、注目領域特徴演算部１１５１にて算出する特徴量は、ニューラルネットワークを用いたものであれば任意に定めた公知のものを利用することができ、特徴マップで表されるものとする。このような特徴マップの算出例として、注目領域（ＲＯＩ）の部分画像に対し一般的なオブジェクト変換（階調変換、シャープネス／スムージング変換、エッジ抽出変換、モーフィング変換等）を施し、例えば二値、スカラー、ベクトル、マトリックス等により表現したものとすることができるが、より簡便に畳み込みニューラルネットワークで算出した二次元マトリックスで表現したものとすることができる。畳み込みニューラルネットワークは通常、畳み込み層やプーリング層、全結合層といったものの組み合わせで構成される。

オブジェクト抽出部１１５４は、注目領域特徴演算部１１５１から得られる注目領域（ＲＯＩ）の特徴量から、該当する注目領域（ＲＯＩ）が当該ニューラルネットワークの目的とする特定のオブジェクト（車両、人物の顔等）を含んでいるか否かを判定し、オブジェクトであると判定した場合には、その抽出結果を外部に出力する。従って、注目領域特徴演算部１１５４は、図９（ａ），（ｂ）に示す画像オブジェクト抽出装置１００のオブジェクト抽出・出力層として機能し、該当する注目領域（ＲＯＩ）に当該ニューラルネットワークの目的とする特定のオブジェクト（車両、人物の顔等）が含まれるか否かを判定し、オブジェクトの抽出結果（図示ＮＤ）を出力する。

このように、従来技術における画像オブジェクト抽出装置１００は、画像の一部の注目領域（ＲＯＩ）をニューラルネットワークに入力し、最後にオブジェクトの抽出結果を得るものとなっているが、ＲＯＩ以外の情報は全く考慮せずにオブジェクトを抽出するものとなっている。

Q. V. Le, "Building High-level Features Using Large Scale Unsupervised Learning," ICASSP, 2013 A. Krizhevsky, I. Sutskever and G. E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," NIPS, 2012 山田，渡辺、"畳み込みニューラルネットワークの特徴マップ選択によるトラッキング"、情報処理学会第７９回全国大会、講演論文集第２分冊人口知能と認知科学、pp.2-385 ～2-386、講演番号1P-08、2017年3月16日～18日開催

上述したように、従来技術におけるニューラルネットワークを用いた画像オブジェクト抽出装置では、画像の一部の注目領域（ＲＯＩ）をニューラルネットワークに入力し、最後にオブジェクトの抽出結果を得るものとなっているが、ＲＯＩ以外の情報は全く考慮しないものとなっている。

このため、入力画像に映るオブジェクトのサイズが小さい場合などでは特に、そのオブジェクトの抽出が困難になり、オブジェクトの抽出精度に改善の余地がある。

そこで、本発明の目的は、上述の問題に鑑みて、精度よく、且つ比較的短時間で入力画像から特定のオブジェクトを抽出する画像オブジェクト抽出装置及びプログラムを提供することにある。

即ち、本発明の画像オブジェクト抽出装置は、入力画像から特定のオブジェクトを抽出する画像オブジェクト抽出装置であって、予め定めた最初のスケールを初期値として、所定の倍率で前記入力画像を段階的に縮小するようにスケール変換を施した入力画像を順に生成するスケール変換手段と、前記スケール変換手段によりスケール変換された入力画像を走査しながら、注目領域の部分画像と、当該注目領域とその周りの情報を含むコンテキスト領域の部分画像とをそれぞれ１種類の予め定めたサイズで順次切り出す演算領域切り出し手段と、順次切り出される前記コンテキスト領域の部分画像を前記注目領域と同じサイズに縮小するようにサイズ変換を行うサイズ変換手段と、前記注目領域の部分画像に対してそのままのサイズでニューラルネットワークを用いて第１の特徴量を算出する注目領域特徴演算手段と、当該サイズ変換した後の前記コンテキスト領域の部分画像に対してニューラルネットワークを用いて第２の特徴量を算出するコンテキスト領域特徴演算手段と、前記第１の特徴量、及び前記第２の特徴量を結合し、結合特徴量を生成する結合手段と、当該結合特徴量を基に前記注目領域が当該特定のオブジェクトを含んでいるか否かを判定することにより、前記スケール変換手段を経て得られる入力画像から当該特定のオブジェクトを抽出するオブジェクト抽出手段と、を備え、少なくとも前記注目領域特徴演算手段、前記コンテキスト領域特徴演算手段、前記結合手段、及び前記オブジェクト抽出手段は、ニューラルネットワークにおける部分ネットワークとして構成され、前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段が並列処理されるように構成され、前記演算領域切り出し手段は、前記スケール変換手段を経て得られる入力画像から、それぞれ固定値で前記注目領域の部分画像、及び前記コンテキスト領域の部分画像を切り出すものとし、前記コンテキスト領域の部分画像を切り出す際に、前記コンテキスト領域が前記注目領域の重心と一致する重心を持ち、且つ前記注目領域に対して縦横四方の周りの情報が含まれるように所定量で拡大したサイズで切り出し、前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段は、それぞれ同一形式の特徴量算出処理として畳み込みニューラルネットワークに基づく並列処理により、前記スケール変換手段を経て得られる入力画像を基準にして、前記第１の特徴量、及び前記第２の特徴量の各々の位置関係が相関する特徴マップを算出し、前記オブジェクト抽出手段は、前記スケール変換手段を経て得られる入力画像のスケールが所定の閾値より小さくならない範囲内で当該スケール変換手段によるスケール変換を繰り返させて、異なるサイズのオブジェクトを抽出することを特徴とする。

また、本発明の画像オブジェクト抽出装置において、前記演算領域切り出し手段は、前記コンテキスト領域の面積が、前記注目領域の面積に対し１倍より大きく４倍以下を満たすように切り出すことを特徴とする。

更に、本発明のプログラムは、コンピュータを、本発明の画像オブジェクト抽出装置として機能させるためのプログラムとして構成する。

本発明によれば、入力画像における注目領域（ＲＯＩ）と、そのＲＯＩを含む周辺情報（コンテキスト領域）の双方を考慮してオブジェクトを抽出するように構成されるため、不所望に演算時間を増大させることなく計算量の増加を抑え、オブジェクトの抽出精度を向上させることができる。特に、本発明によれば、入力画像に対するオブジェクトのサイズが従来技術では抽出困難であるほど相対的に小さい場合でも、そのオブジェクトを精度よく抽出できるようになる。

本発明による一実施形態の画像オブジェクト抽出装置の概略構成を示すブロック図である。（ａ）乃至（ｃ）は本発明による一実施形態の画像オブジェクト抽出装置における入力画像に対する注目領域（ＲＯＩ）とコンテキスト領域の説明図である。本発明による一実施形態の画像オブジェクト抽出装置の動作を示すフローチャートである。本発明による一実施形態の画像オブジェクト抽出装置に係る並列処理型ニューラルネットワークの説明図である。本発明による一実施形態の画像オブジェクト抽出装置における注目領域特徴演算部及びコンテキスト領域特徴演算部に対し畳み込みニューラルネットワークを用いた場合の入出力に関する説明図である。本発明による一実施形態の画像オブジェクト抽出装置にて畳み込みニューラルネットワークを用いた一実施例の処理例を示す図である。本発明による一実施形態の画像オブジェクト抽出装置にて畳み込みニューラルネットワークを用いた一実施例の処理例を示す図である。従来の画像オブジェクト抽出装置の概略構成を示すブロック図である。（ａ），（ｂ）は従来の画像オブジェクト抽出装置におけるニューラルネットワークの説明図である。

以下、図面を参照して、本発明による一実施形態の画像オブジェクト抽出装置１について説明する。

（全体構成）
図１は、本発明による一実施形態の画像オブジェクト抽出装置１の概略構成を示すブロック図である。本発明による一実施形態の画像オブジェクト抽出装置１は、スケール変換部１１、演算領域切り出し部１２、走査部１３、サイズ変換部１４、及びニューラルネットワーク部１５を備える。

スケール変換部１１は、入力画像Ｉ（横×縦サイズとしてＷ×Ｈ）を入力し、図示しないメモリに一時記憶し、予め定めた倍率（１／ｋ；ｋは任意の実数）で入力画像Ｉを段階的に縮小するようにスケール変換を施す機能部である。スケール変換部１１は、最初のスケール（Ｗ×Ｈ）を初期値として、その入力画像Ｉのスケールが所定の閾値より小さくならない範囲内で段階的に縮小したときの個々の入力画像Ｉを順に、演算領域切り出し部１２に出力する。

つまり、本実施形態の画像オブジェクト抽出装置１は、異なる様々なサイズのオブジェクトを抽出できるように、スケール変換部１１で入力画像Ｉのサイズを少しずつ縮小しながら、演算領域切り出し部１２以降の処理を適用する。

演算領域切り出し部１２は、後述する図２に例示するように、スケール変換部１１から入力画像Ｉを入力してメモリ（図示略）に一時記憶し、走査部１３によって指定されるｉ番目の走査時点における画像座標（ｐ（ｉ），ｑ（ｉ））に基づいて、入力画像Ｉから注目領域（ＲＯＩ）の部分画像（横×縦サイズとしてｗ×ｈ）と、当該注目領域（ＲＯＩ）とその周りの情報を含むコンテキスト領域の部分画像（横×縦サイズとしてｗ’×ｈ’）とを切り出して、それぞれニューラルネットワーク部１５及びサイズ変換部１４に出力する。

注目領域（ＲＯＩ）の画像サイズ（ｗ×ｈ）は予め定められた固定値であり、コンテキスト領域の画像サイズ（ｗ’×ｈ’）も固定値である。ただし、コンテキスト領域は、注目領域（ＲＯＩ）の重心と一致する重心を持ち、且つ注目領域（ＲＯＩ）に対して縦横四方の周りの情報が含まれるように所定量で拡大したサイズとする。

例えば、注目領域（ＲＯＩ）の画像サイズ（ｗ×ｈ）の面積Ａに対し、コンテキスト領域の画像サイズ（ｗ’×ｈ’）の面積Ａ’は、Ａ＜Ａ’≦４Ａを満たすようにする。この範囲であれば演算時間及び検出精度の観点から好ましいことが、後述する実験結果で確認されている。

例えば、図２（ａ）乃至（ｃ）は、本発明による一実施形態の画像オブジェクト抽出装置１における入力画像Ｉに対する注目領域（ＲＯＩ）とコンテキスト領域の説明図である。図２（ａ）に示す例は、演算領域切り出し部１２が、例えば２つのオブジェクトＯｂｊ１, Ｏｂｊ２が写る入力画像Ｉ内で、ｉ番目の走査時点における画像座標（ｐ（ｉ），ｑ（ｉ））に基づいて、注目領域（ＲＯＩ）とコンテキスト領域を切り出す様子を示している。例えば図２（ｂ）に示すように、オブジェクトＯｂｊ１上に注目領域（ＲＯＩ）が位置するとき、図２（ｃ）に示すように、演算領域切り出し部１２は、その注目領域（ＲＯＩ）の重心と一致する重心を持つコンテキスト領域を切り出す。

尚、注目領域（ＲＯＩ）が入力画像Ｉの端部に位置しているときに、注目領域（ＲＯＩ）に対して縦横四方のうちいずれかの周りの情報が存在しない場合も、コンテキスト領域の画像サイズ（ｗ’×ｈ’）は、その存在しない部分に固定値（例えばダイナミックレンジの中間値）を補完して、注目領域（ＲＯＩ）の重心と一致する重心を持ち、且つ注目領域（ＲＯＩ）に対して所定量で拡大した固定値のサイズとする。

このように注目領域（ＲＯＩ）及びコンテキスト領域を固定値とすることで、以後のニューラルネットワーク部１５の処理が安定化し、且つ処理も簡素化できる。尚、演算領域切り出し部１２に入力される入力画像Ｉは、スケール変換部１１により、スケール（Ｗ×Ｈ）を初期値とし段階的に縮小した個々のサイズであるため、注目領域（ＲＯＩ）及びコンテキスト領域が相対的に段階的に拡大するものとなるため、異なる様々なサイズのオブジェクトを抽出できるようになる。

走査部１３は、演算領域切り出し部１２に入力される入力画像Ｉから、注目領域（ＲＯＩ）の基準となる座標値を順次走査（例えば１画素単位で走査）しながら生成し、或るｉ番目の走査時点における画像座標（ｐ（ｉ），ｑ（ｉ））を演算領域切り出し部１２に出力する。

サイズ変換部１４は、演算領域切り出し部１２から入力されるコンテキスト領域の部分画像（ｗ’×ｈ’）を注目領域（ＲＯＩ）と同じサイズ（ｗ×ｈ）になるように縮小して、ニューラルネットワーク部１５に出力する。尚、サイズ変換部１４による縮小処理自体をニューラルネットワーク部１５内で実行することもできる。

ニューラルネットワーク部１５は、ニューラルネットワークの構造上の一部分である部分ネットワークとして、注目領域特徴演算部１５１、コンテキスト領域特徴演算部１５２、特徴結合部１５３、及びオブジェクト抽出部１５４を有する。

注目領域特徴演算部１５１は、演算領域切り出し部１２から入力される注目領域（ＲＯＩ）の部分画像に対して、ニューラルネットワークを用いて特徴量を算出し、特徴結合部１５３に出力する。

コンテキスト領域特徴演算部１５２は、サイズ変換部１４から入力されるコンテキスト領域の部分画像に対して、ニューラルネットワークを用いて特徴量を算出し、特徴結合部１５３に出力する。

ここで、注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２にてそれぞれ算出する特徴量は、それぞれニューラルネットワークを用いたものであれば任意に定めた公知のものを利用することができるが、それぞれ同一形式の特徴量算出処理とし、位置関係が相関する特徴マップで表されるものとする。このような特徴量算出処理の例として、注目領域（ＲＯＩ）及びコンテキスト領域の各部分画像に対し、一般的なオブジェクト変換（階調変換、シャープネス／スムージング変換、エッジ抽出変換、モーフィング変換等）を施したものとすることができるが、より簡便に畳み込みニューラルネットワークで算出する構成とすることができる。実施例として後述するが、畳み込みニューラルネットワークに基づく特徴マップは、二次元マトリックスで表現したものとすることができる。畳み込みニューラルネットワークは通常、畳み込み層やプーリング層、全結合層といったものの組み合わせで構成される。

特徴結合部１５３は、注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２にてそれぞれ算出した注目領域（ＲＯＩ）及びコンテキスト領域の特徴量を結合してオブジェクト抽出部１５４に出力し、その後、走査部１３に対し、当該入力画像Ｉにおける次の注目領域（ＲＯＩ）の基準となる座標値を生成するよう指示する。

このとき、走査部１３は、或る入力画像Ｉの全体からオブジェクト抽出の処理が終了したか否かを判定し、終了していなければその入力画像Ｉに対する次の注目領域（ＲＯＩ）の基準となる座標値を生成し、終了していれば演算領域切り出し部１２へ新たに入力される入力画像Ｉに対して、初期位置から画像座標（ｐ（ｉ），ｑ（ｉ））に対応するｉ番目の走査を開始する。

オブジェクト抽出部１５４は、特徴結合部１５３から得られる注目領域（ＲＯＩ）及びコンテキスト領域の結合した結合特徴量を基に、該当する注目領域（ＲＯＩ）が当該ニューラルネットワークの目的とする特定のオブジェクトを含んでいるか否かを判定し、当該特定のオブジェクトを抽出する。

つまり、オブジェクト抽出部１５４は、該当する注目領域（ＲＯＩ）が当該特定のオブジェクトであると判定した場合には、その入力画像Ｉに対するｉ番目の走査時点における注目領域（ＲＯＩ）の位置情報又は注目領域（ＲＯＩ）の部分画像そのものを抽出結果として外部に出力する。この抽出結果は、車両認識や顔認識等の認識処理に利用できる。

また、オブジェクト抽出部１５４は、走査部１３により走査した結果、その都度、特徴結合部１５３から得られる注目領域（ＲＯＩ）及びコンテキスト領域の結合した結合特徴量を基に、事前学習に基づいてオブジェクトが含まれるか否かを判定し、その入力画像Ｉの全体からオブジェクト抽出を行う。

オブジェクト抽出部１５４は、オブジェクト抽出処理として、制約なしに自由に設計することができ、ニューラルネットワーク部１５（特に、オブジェクト抽出部１５４）は、予め多数の画像サンプルを基に注目領域（ＲＯＩ）及びコンテキスト領域の結合した結合特徴量を基にオブジェクト抽出に関するニューラルネットワークのパラメータを事前学習させておくようにする。

そして、オブジェクト抽出部１５４は、或る入力画像Ｉの全体からオブジェクト抽出の処理が終了すると、スケール変換部１１に対し、その入力画像Ｉに対して所定の倍率（１／ｋ；ｋは任意の実数）で縮小した次の入力画像Ｉを生成するよう指示する。

従って、本実施形態の画像オブジェクト抽出装置１は、入力される入力画像（Ｗ×Ｈ）に対し、異なる様々なサイズのオブジェクトを抽出することができる。

尚、図１では、本発明の理解を高めるために、スケール変換部１１、演算領域切り出し部１２、走査部１３及びサイズ変換部１４と、ニューラルネットワークを構成するニューラルネットワーク部１５とを区別した例を示しているが、画像オブジェクト抽出装置１全体を単一のニューラルネットワークとして構成することもできる。

（装置動作）
以下、より具体的に、図３及び図４を参照しながら、本実施形態の画像オブジェクト抽出装置１について説明する。図３は、本発明による一実施形態の画像オブジェクト抽出装置１の動作を示すフローチャートである。また、図４は、本発明による一実施形態の画像オブジェクト抽出装置１に係る並列処理型ニューラルネットワークの説明図である。

まず、図３に示すように、画像オブジェクト抽出装置１は、スケール変換部１１により、入力された入力画像（Ｗ×Ｈ）のスケールが所定の閾値より小さいか否かを判定する（ステップＳ１）。

スケール変換部１１は、入力された入力画像（Ｗ×Ｈ）のスケールが所定の閾値より小さいとき（本例では、ｗ×ｈより小さいとき）は処理を終了し（ステップＳ１：Ｙ）、そうでなければ（ステップＳ１：Ｎ）、入力画像Ｉとして最初はステップＳ３に移行し、以降（ステップＳ１：Ｎ）を経るときは、その入力画像Ｉのスケールを所定の倍率（１／ｋ；ｋは任意の実数）に縮小してからステップＳ３に移行する（ステップＳ２）。

続いて、画像オブジェクト抽出装置１は、演算領域切り出し部１２により、走査部１３によって指定されるｉ番目の走査時点における画像座標（ｐ（ｉ），ｑ（ｉ））に基づいて、入力画像Ｉから注目領域（ＲＯＩ）の部分画像（ｗ×ｈ）と、当該注目領域（ＲＯＩ）とその周りの情報を含むコンテキスト領域の部分画像（ｗ’×ｈ’）とを切り出す（ステップＳ３）。

図４は、本実施形態の画像オブジェクト抽出装置１に係る並列処理型ニューラルネットワークの説明図である。スケール変換部１１及び演算領域切り出し部１２は、画像オブジェクト抽出装置１の入力層として機能し、図４にて１次元で簡易図示する入力画像Ｉに対して或る注目領域（ＲＯＩ）及びコンテキスト領域を切り出す。

続いて、画像オブジェクト抽出装置１は、サイズ変換部１４により、コンテキスト領域の部分画像（ｗ’×ｈ’）を注目領域（ＲＯＩ）と同じサイズ（ｗ×ｈ）になるように縮小してから、注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２の各部分ネットワークを並列適用する（ステップＳ４）。つまり、注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２は、それぞれ注目領域（ＲＯＩ）及びコンテキスト領域におけるニューラルネットワークを用いて特徴量を並列処理でそれぞれ算出する。

従って、図４に示すように、サイズ変換部１４は、画像オブジェクト抽出装置１のサイズ変換層として機能し、コンテキスト領域の部分画像（図示ＤＳ）を注目領域（ＲＯＩ）のサイズ（図示ＮＡ１）と同じサイズ（図示ＮＢ１）になるように縮小する。そして、注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２は、画像オブジェクト抽出装置１の特徴演算層（畳み込みニューラルネットワークであれば畳み込み層やプーリング層等）として機能し、注目領域（ＲＯＩ）の部分画像（図示ＮＡ１）及びサイズ変換後のコンテキスト領域の部分画像（図示ＮＢ１）から、それぞれニューラルネットワークを用いて特徴量（図示ＮＡ２，ＮＢ２）を算出する。

続いて、画像オブジェクト抽出装置１は、特徴結合部１５３により、注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２の各部分ネットワークにてそれぞれ算出した注目領域（ＲＯＩ）及びコンテキスト領域の特徴量を結合する（ステップＳ５）。

従って、図４に示すように、特徴結合部１５３は、画像オブジェクト抽出装置１の特徴結合層（畳み込みニューラルネットワークであれば全結合層（ソフトマックス層を含んでもよい）等）として機能し、注目領域（ＲＯＩ）及びコンテキスト領域の特徴量を結合したものである結合特徴量（図示ＮＣ）を生成する。

続いて、画像オブジェクト抽出装置１は、オブジェクト抽出部１５４により、注目領域（ＲＯＩ）及びコンテキスト領域の結合したものであるこの結合特徴量を基に、該当する注目領域（ＲＯＩ）が当該ニューラルネットワークの目的とする特定のオブジェクト（車両、人物の顔等）を含んでいるか否かを判定し、オブジェクトであると判定した場合には、その入力画像Ｉに対するｉ番目の走査時点における注目領域（ＲＯＩ）の位置情報又は注目領域（ＲＯＩ）の部分画像そのものを抽出結果として外部に出力する（ステップＳ６）。

従って、図４に示すように、オブジェクト抽出部１５４は、画像オブジェクト抽出装置１のオブジェクト抽出・出力層として機能し、該当する注目領域（ＲＯＩ）に当該ニューラルネットワークの目的とする特定のオブジェクト（車両、人物の顔等）が含まれるか否かを判定し、オブジェクトの抽出結果（図示ＮＤ）を出力する。

また、画像オブジェクト抽出装置１は、走査部１３により、入力画像Ｉの全体からオブジェクト抽出の処理が終了したか否かを判定し（ステップＳ７）、終了していなければ（ステップＳ７：Ｎ）、入力画像Ｉに対する次の注目領域（ＲＯＩ）の基準となる座標値を生成してステップＳ３に移行する。一方、入力画像Ｉの全体からオブジェクト抽出の処理が終了していれば（ステップＳ７：Ｙ）、ステップＳ１に移行した後、ステップＳ２を経て演算領域切り出し部１２へ新たに入力される入力画像Ｉに対して初期位置から走査を開始するようにステップＳ３に移行する。

このように、本発明に係る画像オブジェクト抽出装置１は、注目領域（ＲＯＩ）と共にそのＲＯＩを含むコンテキスト領域を切り出し、当該コンテキスト領域の画像サイズをＲＯＩの画像サイズまで縮小し、その上で、ＲＯＩとコンテキスト領域とを並列処理する並列処理型ニューラルネットワークを構成し、本来の演算対象のＲＯＩの画像サイズでオブジェクトを抽出するようにしている。

（実施例）
以下、図５乃至図７を参照して、本発明に係る画像オブジェクト抽出装置１について、畳み込みニューラルネットワークを用いた場合の実施例について説明する。

図５は、本発明による一実施形態の画像オブジェクト抽出装置１における注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２に対し畳み込みニューラルネットワークを用いた場合の入出力に関する説明図である。

まず、図５に示すように、特徴演算層である注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２の各部分ネットワークとして畳み込みニューラルネットワークを用いた場合、入力層における入力画像ＩのサイズＷ×Ｈ（画素数）に対する注目領域（ＲＯＩ）とコンテキスト領域の各特徴量は、それぞれ特徴マップとして、例えばｍ×ｎの２次元行列（マトリックス）で出力される。尚、その特徴演算層を経て結合される特徴結合層の出力は、ｍ×ｎ×２で表される。

つまり、特徴結合層である特徴結合部１５３は、例えば特徴マップとして２次元行列のｍ行ｎ列の値で表す２種類の特徴量を結合してオブジェクト抽出部１５４に出力する。

ここで、ｍ，ｎの各値は有限の値であり、ｍ＝１，２，…，Ｍ、ｎ＝１，２，…，Ｎとなる。ＭとＮの値は、ニューラルネットワークの構成によって決定される値である。

そして、オブジェクト抽出・出力層であるオブジェクト抽出部１５４は、そのニューラルネットワークを構成するニューロンに対応する受容野（入力画像Ｉに対する注目領域（ＲＯＩ）とコンテキスト領域）が、オブジェクトである確率を表すものとなり、例えばｍ，ｎの各値が大きいほど、オブジェクトである可能性が高いことを示すものとなる。

より具体的に、図６及び図７を参照して、本実施形態の画像オブジェクト抽出装置１にて畳み込みニューラルネットワークを用いた一実施例について説明する。図６及び図７は、本実施形態の画像オブジェクト抽出装置１にて畳み込みニューラルネットワークを用いた一実施例の処理例を示す図である。尚、図７は、図６について簡単のため入力画像を１次元で表したものであり、図６及び図７に示す実施例は、注目領域（ＲＯＩ）とコンテキスト領域について並列処理する、並列処理型の畳み込みニューラルネットワークを適用した一例である。

図６及び図７に示す例では、スケール変換部１１の出力である入力画像Ｉから、演算領域切り出し部１２によって、４×４画素の注目領域（ＲＯＩ）と、８×８画素のコンテキスト領域の部分画像が切り出されるものとする（図１参照）。

ここで、８×８画素のコンテキスト領域の部分画像は、４×４画素の注目領域（ＲＯＩ）の重心と一致する重心を持つように切り出されている。

そして、８×８画素のコンテキスト領域の部分画像は、サイズ変換部１４によって、縮小率１／２にダウンサンプリング（図示するＤＳ）され、注目領域（ＲＯＩ）と同じサイズに変換される。

４×４画素の注目領域（ＲＯＩ）と、サイズ変換後の４×４画素のコンテキスト領域の各部分画像は、畳み込みニューラルネットワークで構成するニューラルネットワーク部１５に入力される。

本実施例のニューラルネットワーク部１５においても、注目領域特徴演算部１５１、コンテキスト領域特徴演算部１５２、特徴結合部１５３、及びオブジェクト抽出部１５４を有している（図１参照）。

注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２は、それぞれ（カーネルサイズ，ストライド）をパラメータとする畳み込み層（図示するＣｏｎｖ）と、（カーネルサイズ，ストライド）をパラメータとする最大プーリング層（図示するＭＰ）を持つ部分ネットワークで構成されている。

注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２における各畳み込み層（図示するＣｏｎｖ）では、それぞれの受容野（４×４画素の注目領域（ＲＯＩ）と、サイズ変換後の４×４画素のコンテキスト領域の各部分画像）に対し、カーネルサイズを３×３画素とし、ストライドを１（１画素単位で移動させる移動幅）として、カーネルを移動させながら畳み込み演算を行い、２×２の２次元行列の特徴マップを形成する。

また、注目領域特徴演算部１５１におけるプーリング層（図示するＭＰ）では、カーネルサイズを２×２とし、ストライドを２として、注目領域（ＲＯＩ）に関する畳み込み演算後の特徴マップから最大の値を持つ領域を抽出し、これにより１×１の２次元行列の特徴マップを形成する。

一方、コンテキスト領域特徴演算部１５２におけるプーリング層（図示するＭＰ）では、同じくカーネルサイズを２×２とするがストライドを１として、コンテキスト領域に関する畳み込み演算後の特徴マップから最大の値を持つ領域を抽出し、これにより１×１の２次元行列の特徴マップを形成する。

ところで、注目領域特徴演算部１５１と、サイズ変換部１４を介するコンテキスト領域特徴演算部１５２について、並列処理型の畳み込みニューラルネットワークとして構成する際に、それぞれの受容野（入力画像Ｉに対する注目領域（ＲＯＩ）とコンテキスト領域）の中心（重心）点と、その受容野のストライド（移動幅）が一致するように構成する。これにより、注目領域（ＲＯＩ）とコンテキスト領域の相関性を高くすることができ、以降のオブジェクト抽出における精度を向上させることができる。

つまり、注目領域特徴演算部１５１における注目領域（ＲＯＩ）に関する入力画像Ｉを基準にする全体のストライドは２画素であり（最大プーリング層のストライド２による）、ｍ行ｎ列に対応する注目領域（ＲＯＩ）の受容野が、入力画像Ｉに対する４隅の画像座標として（ｘ，ｙ，ｘ＋４，ｙ＋４）の４×４の矩形領域とすると、（ｍ＋１）行ｎ列に対応する画像座標は（ｘ＋２，ｙ，（ｘ＋２）＋４，ｙ＋４）となる。

同様に、サイズ変換部１４を介するコンテキスト領域特徴演算部１５２におけるコンテキスト領域に関する入力画像Ｉを基準にする全体のストライドも２画素である（最大プーリング層のストライド１であるが、サイズ変換部１４による縮小率１／２のダウンサンプリングによる）。

即ち、簡単のため、図７では１次元で表現することにより、注目領域特徴演算部１５１の演算と、サイズ変換部１４及びコンテキスト領域特徴演算部１５２の演算に関して、入力画像Ｉにおける画素（受容野）と当該演算の各出力との関係を表している。注目領域特徴演算部１５１の演算と、サイズ変換部１４及びコンテキスト領域特徴演算部１５２の演算において、実線で示す演算時の出力に対し、その隣の破線で示すストライドさせた演算時の出力が、２画素ずれた位置に相当していることが分かり、注目領域（ＲＯＩ）とコンテキスト領域との位置関係が相関性の高い（崩れていない）状態を保つことができることが確認できる。

そして、図６に示す例では、注目領域特徴演算部１５１及びコンテキスト領域特徴演算部１５２からそれぞれ出力される１×１の２次元行列の特徴マップは、特徴結合部１５３によってチャンネル方向に結合され、１×１×２の特徴マップとしてオブジェクト抽出部１５４に出力される。

オブジェクト抽出部１５４は、１×１×２の特徴マップを基に、事前学習に基づいてオブジェクトが含まれるか否かを判定し、その入力画像Ｉの全体からオブジェクト抽出を行う。このようなオブジェクト抽出部１５４を構成する部分ネットワークは、制約なしに自由に設計することができる。一般的には、畳み込み層とプーリング層を繰り返した後、全結合層、ソフトマックス層と連結するような構造が利用される。

（実施例に基づく実験結果）
ここで、本発明に係る画像オブジェクト抽出装置１の効果を実験により検証した。実験では、本発明に係る画像オブジェクト抽出装置１として、入力画像Ｉから８×８画素の注目領域（ＲＯＩ）と、１６×１６画素のコンテキスト領域の部分画像を切り出すものとした。そして、注目領域特徴演算部１５１における注目領域（ＲＯＩ）に関する全体のストライドは２、サイズ変換部１４を介するコンテキスト領域特徴演算部１５２におけるコンテキスト領域に関する全体のストライドも２となるように、畳み込み層とプーリング層を組み合わせて設計した。また、オブジェクト抽出部１５４も含めたニューラルネットワーク部１５全体の畳み込み層の総数は３とした。

一方、比較例として、図８に例示する従来技術に係る画像オブジェクト抽出装置１００のように、８×８画素の注目領域（ＲＯＩ）のみでオブジェクト抽出するものとし、畳み込み層の総数も合わせるため３とした。

表１は、本発明と比較例に関するオブジェクト抽出の実験結果を示している。表１は、検出漏れの少なさを評価するための再現率による比較を示すものであり、本例ではサンプル数を３９７１枚の画像としている。本発明に係る再現率は、比較例と比べて約１％向上する結果となった。従って、注目領域（ＲＯＩ）の周辺情報を利用する方がオブジェクト抽出の精度が向上し、本発明の有効性が確認できた。

また、表２は、本発明と比較例に関するオブジェクト抽出に係る演算時間（必要実行時間）の比較結果を示している。本発明に係る演算時間（必要実行時間）は、比較例に比べて、実行時間の増加は許容できる範囲である。特に、従来技術に基づいて単純に８×８画素の注目領域（ＲＯＩ）のみに基づいてオブジェクト抽出し、更に１６×１６画素のコンテキスト領域のみに基づいてオブジェクト抽出し、その結果をまとめてオブジェクト抽出判断を行うように構成することも考えられる。この場合では、仮に本発明と同程度の精度が得られるとしても、表２に示す比較例の演算時間（必要実行時間）は２倍以上になることが想定されるため、本発明の構成による演算時間（必要実行時間）が如何に小さく抑えられているかが理解される。

上記表１及び表２の結果から、本発明に係る画像オブジェクト抽出装置１は、注目領域（ＲＯＩ）及びコンテキスト領域について並列処理する点、及び、コンテキスト領域について注目領域（ＲＯＩ）と同じサイズになるように縮小している点で、オブジェクト抽出の精度を向上させながら計算量の増加が抑えられたものと考えられる。

従って、従来技術のように入力された注目領域（ＲＯＩ）のみを利用してオブジェクトを抽出又は認識する技術より、本発明に係る画像オブジェクト抽出装置１のように、入力画像内のオブジェクトを抽出又は認識する場合には、注目領域（ＲＯＩ）とその周りの情報（周辺情報）も利用することが有効であることが分かる。

特に、従来技術では入力画像に対するオブジェクトのサイズが抽出困難であるほど相対的に小さい場合でも、本発明に係る構成ではそのオブジェクトを精度よく抽出できるようになり、特にオブジェクトのサイズが小さいほど、その傾向が顕著となる。

総括するに、従来技術の変形例として、はじめから注目領域（ＲＯＩ）の周辺情報を含むコンテキスト領域のみを演算対象とすることも考えられる。この場合、図８に示す従来技術の構成を変えることなく、注目領域（ＲＯＩ）の周辺情報を考慮できるようになるが、幾つかの問題が生じる。

第１に、ＲＯＩを含むコンテキスト領域の画像サイズをそのままにニューラルネットワークによりオブジェクト抽出を行うことになり、オブジェクト抽出に係る計算時間が増大する。即ち、この場合、コンテキスト領域の画像サイズが本来の演算対象のＲＯＩの画像サイズより相対的に拡大したものとなり、その拡大した面積に比例して計算時間が増大してしまう。特に、入力画像内からオブジェクトを抽出するタスクにおいては、上述したスケール変換部１１のようなスケール変換が有効である一方で、様々な位置や大きさの演算対象の画像に対して何度も実行すると、その計算時間は著しく増大する。

第２に、ＲＯＩを含むコンテキスト領域でニューラルネットワークによりオブジェクト抽出を行うと、オブジェクト抽出された当該コンテキスト領域から本来の演算対象のＲＯＩで抽出すべきオブジェクトを何らかの方法で切り出す必要が生じ、抽出精度や演算時間に悪影響を与える。

そこで、本発明に係る画像オブジェクト抽出装置１では、注目領域（ＲＯＩ）と共にそのＲＯＩを含むコンテキスト領域を切り出し、当該コンテキスト領域の画像サイズをＲＯＩの画像サイズまで縮小し、その上で、ＲＯＩとコンテキスト領域とを並列処理する並列処理型ニューラルネットワークを構成し、本来の演算対象のＲＯＩの画像サイズでオブジェクトを抽出するようにしている。このため、上記表１及び表２に示したように、ＲＯＩのみよりも、ＲＯＩを含む周辺情報がある方が明らかにオブジェクト抽出の精度が向上し、不所望に演算時間を増大させることなく計算量の増加を抑えることができる。

上述した実施形態の例に関して、画像オブジェクト抽出装置１として機能するコンピュータを構成し、これらの装置の各手段を機能させるためのプログラムを好適に用いることができる。具体的には、各手段を制御するための制御部をコンピュータ内の中央演算処理装置（ＣＰＵ）で構成でき、且つ、各手段を動作させるのに必要となるプログラムを適宜記憶する記憶部を少なくとも１つのメモリで構成させることができる。即ち、そのようなコンピュータに、ＣＰＵによって該プログラムを実行させることにより、上述した各手段の有する機能を実現させることができる。更に、各手段の有する機能を実現させるためのプログラムを、前述の記憶部（メモリ）の所定の領域に格納させることができる。そのような記憶部は、装置内部のＲＡＭ又はＲＯＭなどで構成させることができ、或いは又、外部記憶装置（例えば、ハードディスク）で構成させることもできる。また、そのようなプログラムは、コンピュータで利用されるＯＳ上のソフトウェア（ＲＯＭ又は外部記憶装置に格納される）の一部で構成させることができる。更に、そのようなコンピュータに、各手段として機能させるためのプログラムは、コンピュータ読取り可能な記録媒体に記録することができる。また、上述した各手段をハードウェア又はソフトウェアの一部として構成させ、各々を組み合わせて実現させることもできる。

上述の実施形態及び実施例については代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換することができることは当業者に明らかである。従って、本発明は、上述の実施形態及び実施例によって制限するものと解するべきではなく、特許請求の範囲によってのみ制限される。

本発明によれば、精度よく、且つ比較的短時間で入力画像からオブジェクトを抽出できるようになるので、画像からオブジェクトを抽出又は認識する用途に有用である。

１画像オブジェクト抽出装置
１１スケール変換部
１２演算領域切り出し部
１３走査部
１４サイズ変換部
１５ニューラルネットワーク部
１５１注目領域特徴演算部
１５２コンテキスト領域特徴演算部
１５３特徴結合部
１５４オブジェクト抽出部
１００画像オブジェクト抽出装置
１１２注目領域切り出し部
１１３走査部
１１５ニューラルネットワーク部
１１５１注目領域特徴演算部
１１５４オブジェクト抽出部

Claims

入力画像から特定のオブジェクトを抽出する画像オブジェクト抽出装置であって、
予め定めた最初のスケールを初期値として、所定の倍率で前記入力画像を段階的に縮小するようにスケール変換を施した入力画像を順に生成するスケール変換手段と、
前記スケール変換手段によりスケール変換された入力画像を走査しながら、注目領域の部分画像と、当該注目領域とその周りの情報を含むコンテキスト領域の部分画像とをそれぞれ１種類の予め定めたサイズで順次切り出す演算領域切り出し手段と、
順次切り出される前記コンテキスト領域の部分画像を前記注目領域と同じサイズに縮小するようにサイズ変換を行うサイズ変換手段と、
前記注目領域の部分画像に対してそのままのサイズでニューラルネットワークを用いて第１の特徴量を算出する注目領域特徴演算手段と、
当該サイズ変換した後の前記コンテキスト領域の部分画像に対してニューラルネットワークを用いて第２の特徴量を算出するコンテキスト領域特徴演算手段と、
前記第１の特徴量、及び前記第２の特徴量を結合し、結合特徴量を生成する結合手段と、
当該結合特徴量を基に前記注目領域が当該特定のオブジェクトを含んでいるか否かを判定することにより、前記スケール変換手段を経て得られる入力画像から当該特定のオブジェクトを抽出するオブジェクト抽出手段と、を備え、
少なくとも前記注目領域特徴演算手段、前記コンテキスト領域特徴演算手段、前記結合手段、及び前記オブジェクト抽出手段は、ニューラルネットワークにおける部分ネットワークとして構成され、
前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段が並列処理されるように構成され、
前記演算領域切り出し手段は、前記スケール変換手段を経て得られる入力画像から、それぞれ固定値で前記注目領域の部分画像、及び前記コンテキスト領域の部分画像を切り出すものとし、前記コンテキスト領域の部分画像を切り出す際に、前記コンテキスト領域が前記注目領域の重心と一致する重心を持ち、且つ前記注目領域に対して縦横四方の周りの情報が含まれるように所定量で拡大したサイズで切り出し、
前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段は、それぞれ同一形式の特徴量算出処理として畳み込みニューラルネットワークに基づく並列処理により、前記スケール変換手段を経て得られる入力画像を基準にして、前記第１の特徴量、及び前記第２の特徴量の各々の位置関係が相関する特徴マップを算出し、
前記オブジェクト抽出手段は、前記スケール変換手段を経て得られる入力画像のスケールが所定の閾値より小さくならない範囲内で当該スケール変換手段によるスケール変換を繰り返させて、異なるサイズのオブジェクトを抽出することを特徴とする画像オブジェクト抽出装置。
前記演算領域切り出し手段は、前記コンテキスト領域の面積が、前記注目領域の面積に対し１倍より大きく４倍以下を満たすように切り出すことを特徴とする、請求項１に記載の画像オブジェクト抽出装置。
コンピュータを、請求項１又は２に記載の画像オブジェクト抽出装置として機能させるためのプログラム。