JP7149124B2 - 画像オブジェクト抽出装置及びプログラム - Google Patents

画像オブジェクト抽出装置及びプログラム Download PDF

Info

Publication number
JP7149124B2
JP7149124B2 JP2018139764A JP2018139764A JP7149124B2 JP 7149124 B2 JP7149124 B2 JP 7149124B2 JP 2018139764 A JP2018139764 A JP 2018139764A JP 2018139764 A JP2018139764 A JP 2018139764A JP 7149124 B2 JP7149124 B2 JP 7149124B2
Authority
JP
Japan
Prior art keywords
region
feature
image
context
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018139764A
Other languages
English (en)
Other versions
JP2020017082A (ja
Inventor
吉彦 河合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2018139764A priority Critical patent/JP7149124B2/ja
Publication of JP2020017082A publication Critical patent/JP2020017082A/ja
Application granted granted Critical
Publication of JP7149124B2 publication Critical patent/JP7149124B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像に映る特定のオブジェクトを抽出する技術に関し、特に、ニューラルネットワークを用いて例えば風景を撮像した画像中からオブジェクトとして空や建物、車両、人物の顔等を抽出する画像オブジェクト抽出装置及びプログラムに関する。
例えば風景を撮像した画像中からオブジェクトとして空や建物、車両、人物の顔等を抽出する技術として、機械学習やニューラルネットワークを用いる技術が知られている。
特に、ニューラルネットワークを用いて特定のオブジェクトを抽出する技術が開示されている(例えば、非特許文献1,2参照)。
ニューラルネットワークは、オブジェクト抽出やオブジェクト認識などのタスクで広く利用されている技術である。ニューラルネットワークを利用して入力画像の一部分に映るオブジェクトを抽出する場合は、入力画像の一部(或いは入力画像から算出された特徴マップの一部)の注目領域(「ROI」とも称される)をニューラルネットワークに入力して、その抽出結果を出力するものとなっている(例えば、非特許文献3参照)。
図8に、従来技術における、ニューラルネットワークを用いた画像オブジェクト抽出装置100の概略構成を示す。また、図9(a)は、ニューラルネットワークを利用したオブジェクト抽出処理の概要を示す図であり、図9(b)は、図9(a)について分かりやすさのため入力を1次元に省略した図である。
図8に示す従来技術における画像オブジェクト抽出装置100は、注目領域切り出し部112、走査部113、及びニューラルネットワーク部115を備える。
注目領域切り出し部112は、入力画像Iを入力して、走査部113によって指定される画像座標に基づいて、入力画像Iから注目領域(ROI)の部分画像を切り出しニューラルネットワーク部115に出力する。従って、注目領域切り出し部112は、図9(a),(b)に示す画像オブジェクト抽出装置100の入力層として機能する。
走査部113は、後段のニューラルネットワーク部115による特徴演算が実行される度に、入力画像Iから、注目領域(ROI)の基準となる座標値を順次走査(例えば1画素単位で走査)しながら生成し、或る画像座標を演算領域切り出し部112に出力する。
ニューラルネットワーク部115は、ニューラルネットワークの構造上の一部分である部分ネットワークとして、注目領域特徴演算部1151、及びオブジェクト抽出部1154からなる。
注目領域特徴演算部1151は、演算領域切り出し部112から入力される注目領域(ROI)の部分画像に対して、ニューラルネットワークを用いて特徴量を算出し、オブジェクト抽出部1154に出力する。従って、注目領域特徴演算部1151は、図9(a),(b)に示す画像オブジェクト抽出装置100の特徴演算層として機能し、注目領域(ROI)の部分画像(図示NA1)から、ニューラルネットワークを用いて特徴量(図示NA2)を算出する。
ここで、注目領域特徴演算部1151にて算出する特徴量は、ニューラルネットワークを用いたものであれば任意に定めた公知のものを利用することができ、特徴マップで表されるものとする。このような特徴マップの算出例として、注目領域(ROI)の部分画像に対し一般的なオブジェクト変換(階調変換、シャープネス/スムージング変換、エッジ抽出変換、モーフィング変換等)を施し、例えば二値、スカラー、ベクトル、マトリックス等により表現したものとすることができるが、より簡便に畳み込みニューラルネットワークで算出した二次元マトリックスで表現したものとすることができる。畳み込みニューラルネットワークは通常、畳み込み層やプーリング層、全結合層といったものの組み合わせで構成される。
オブジェクト抽出部1154は、注目領域特徴演算部1151から得られる注目領域(ROI)の特徴量から、該当する注目領域(ROI)が当該ニューラルネットワークの目的とする特定のオブジェクト(車両、人物の顔等)を含んでいるか否かを判定し、オブジェクトであると判定した場合には、その抽出結果を外部に出力する。従って、注目領域特徴演算部1154は、図9(a),(b)に示す画像オブジェクト抽出装置100のオブジェクト抽出・出力層として機能し、該当する注目領域(ROI)に当該ニューラルネットワークの目的とする特定のオブジェクト(車両、人物の顔等)が含まれるか否かを判定し、オブジェクトの抽出結果(図示ND)を出力する。
このように、従来技術における画像オブジェクト抽出装置100は、画像の一部の注目領域(ROI)をニューラルネットワークに入力し、最後にオブジェクトの抽出結果を得るものとなっているが、ROI以外の情報は全く考慮せずにオブジェクトを抽出するものとなっている。
Q. V. Le, "Building High-level Features Using Large Scale Unsupervised Learning," ICASSP, 2013 A. Krizhevsky, I. Sutskever and G. E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks," NIPS, 2012 山田,渡辺、"畳み込みニューラルネットワークの特徴マップ選択によるトラッキング"、情報処理学会第79回全国大会、講演論文集 第2分冊 人口知能と認知科学、pp.2-385 ~2-386、 講演番号1P-08、2017年3月16日~18日開催
上述したように、従来技術におけるニューラルネットワークを用いた画像オブジェクト抽出装置では、画像の一部の注目領域(ROI)をニューラルネットワークに入力し、最後にオブジェクトの抽出結果を得るものとなっているが、ROI以外の情報は全く考慮しないものとなっている。
このため、入力画像に映るオブジェクトのサイズが小さい場合などでは特に、そのオブジェクトの抽出が困難になり、オブジェクトの抽出精度に改善の余地がある。
そこで、本発明の目的は、上述の問題に鑑みて、精度よく、且つ比較的短時間で入力画像から特定のオブジェクトを抽出する画像オブジェクト抽出装置及びプログラムを提供することにある。
即ち、本発明の画像オブジェクト抽出装置は、入力画像から特定のオブジェクトを抽出する画像オブジェクト抽出装置であって、予め定めた最初のスケールを初期値として、所定の倍率で前記入力画像を段階的に縮小するようにスケール変換を施した入力画像を順に生成するスケール変換手段と、前記スケール変換手段によりスケール変換された入力画像を走査しながら、注目領域の部分画像と、当該注目領域とその周りの情報を含むコンテキスト領域の部分画像とをそれぞれ1種類の予め定めたサイズで順次切り出す演算領域切り出し手段と、順次切り出される前記コンテキスト領域の部分画像を前記注目領域と同じサイズに縮小するようにサイズ変換を行うサイズ変換手段と、前記注目領域の部分画像に対してそのままのサイズでニューラルネットワークを用いて第1の特徴量を算出する注目領域特徴演算手段と、当該サイズ変換した後の前記コンテキスト領域の部分画像に対してニューラルネットワークを用いて第2の特徴量を算出するコンテキスト領域特徴演算手段と、前記第1の特徴量、及び前記第2の特徴量を結合し、結合特徴量を生成する結合手段と、当該結合特徴量を基に前記注目領域が当該特定のオブジェクトを含んでいるか否かを判定することにより、前記スケール変換手段を経て得られる入力画像から当該特定のオブジェクトを抽出するオブジェクト抽出手段と、を備え、少なくとも前記注目領域特徴演算手段、前記コンテキスト領域特徴演算手段、前記結合手段、及び前記オブジェクト抽出手段は、ニューラルネットワークにおける部分ネットワークとして構成され、前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段が並列処理されるように構成され、前記演算領域切り出し手段は、前記スケール変換手段を経て得られる入力画像から、それぞれ固定値で前記注目領域の部分画像、及び前記コンテキスト領域の部分画像を切り出すものとし、前記コンテキスト領域の部分画像を切り出す際に、前記コンテキスト領域が前記注目領域の重心と一致する重心を持ち、且つ前記注目領域に対して縦横四方の周りの情報が含まれるように所定量で拡大したサイズで切り出し、前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段は、それぞれ同一形式の特徴量算出処理として畳み込みニューラルネットワークに基づく並列処理により、前記スケール変換手段を経て得られる入力画像を基準にして、前記第1の特徴量、及び前記第2の特徴量の各々の位置関係が相関する特徴マップを算出し、前記オブジェクト抽出手段は、前記スケール変換手段を経て得られる入力画像のスケールが所定の閾値より小さくならない範囲内で当該スケール変換手段によるスケール変換を繰り返させて、異なるサイズのオブジェクトを抽出することを特徴とする。
また、本発明の画像オブジェクト抽出装置において、前記演算領域切り出し手段は、前記コンテキスト領域の面積が、前記注目領域の面積に対し1倍より大きく4倍以下を満たすように切り出すことを特徴とする。
更に、本発明のプログラムは、コンピュータを、本発明の画像オブジェクト抽出装置として機能させるためのプログラムとして構成する。
本発明によれば、入力画像における注目領域(ROI)と、そのROIを含む周辺情報(コンテキスト領域)の双方を考慮してオブジェクトを抽出するように構成されるため、不所望に演算時間を増大させることなく計算量の増加を抑え、オブジェクトの抽出精度を向上させることができる。特に、本発明によれば、入力画像に対するオブジェクトのサイズが従来技術では抽出困難であるほど相対的に小さい場合でも、そのオブジェクトを精度よく抽出できるようになる。
本発明による一実施形態の画像オブジェクト抽出装置の概略構成を示すブロック図である。 (a)乃至(c)は本発明による一実施形態の画像オブジェクト抽出装置における入力画像に対する注目領域(ROI)とコンテキスト領域の説明図である。 本発明による一実施形態の画像オブジェクト抽出装置の動作を示すフローチャートである。 本発明による一実施形態の画像オブジェクト抽出装置に係る並列処理型ニューラルネットワークの説明図である。 本発明による一実施形態の画像オブジェクト抽出装置における注目領域特徴演算部及びコンテキスト領域特徴演算部に対し畳み込みニューラルネットワークを用いた場合の入出力に関する説明図である。 本発明による一実施形態の画像オブジェクト抽出装置にて畳み込みニューラルネットワークを用いた一実施例の処理例を示す図である。 本発明による一実施形態の画像オブジェクト抽出装置にて畳み込みニューラルネットワークを用いた一実施例の処理例を示す図である。 従来の画像オブジェクト抽出装置の概略構成を示すブロック図である。 (a),(b)は従来の画像オブジェクト抽出装置におけるニューラルネットワークの説明図である。
以下、図面を参照して、本発明による一実施形態の画像オブジェクト抽出装置1について説明する。
(全体構成)
図1は、本発明による一実施形態の画像オブジェクト抽出装置1の概略構成を示すブロック図である。本発明による一実施形態の画像オブジェクト抽出装置1は、スケール変換部11、演算領域切り出し部12、走査部13、サイズ変換部14、及びニューラルネットワーク部15を備える。
スケール変換部11は、入力画像I(横×縦サイズとしてW×H)を入力し、図示しないメモリに一時記憶し、予め定めた倍率(1/k;kは任意の実数)で入力画像Iを段階的に縮小するようにスケール変換を施す機能部である。スケール変換部11は、最初のスケール(W×H)を初期値として、その入力画像Iのスケールが所定の閾値より小さくならない範囲内で段階的に縮小したときの個々の入力画像Iを順に、演算領域切り出し部12に出力する。
つまり、本実施形態の画像オブジェクト抽出装置1は、異なる様々なサイズのオブジェクトを抽出できるように、スケール変換部11で入力画像Iのサイズを少しずつ縮小しながら、演算領域切り出し部12以降の処理を適用する。
演算領域切り出し部12は、後述する図2に例示するように、スケール変換部11から入力画像Iを入力してメモリ(図示略)に一時記憶し、走査部13によって指定されるi番目の走査時点における画像座標(p(i),q(i))に基づいて、入力画像Iから注目領域(ROI)の部分画像(横×縦サイズとしてw×h)と、当該注目領域(ROI)とその周りの情報を含むコンテキスト領域の部分画像(横×縦サイズとしてw’×h’)とを切り出して、それぞれニューラルネットワーク部15及びサイズ変換部14に出力する。
注目領域(ROI)の画像サイズ(w×h)は予め定められた固定値であり、コンテキスト領域の画像サイズ(w’×h’)も固定値である。ただし、コンテキスト領域は、注目領域(ROI)の重心と一致する重心を持ち、且つ注目領域(ROI)に対して縦横四方の周りの情報が含まれるように所定量で拡大したサイズとする。
例えば、注目領域(ROI)の画像サイズ(w×h)の面積Aに対し、コンテキスト領域の画像サイズ(w’×h’)の面積A’は、A< A’≦4Aを満たすようにする。この範囲であれば演算時間及び検出精度の観点から好ましいことが、後述する実験結果で確認されている。
例えば、図2(a)乃至(c)は、本発明による一実施形態の画像オブジェクト抽出装置1における入力画像Iに対する注目領域(ROI)とコンテキスト領域の説明図である。図2(a)に示す例は、演算領域切り出し部12が、例えば2つのオブジェクトObj1, Obj2が写る入力画像I内で、i番目の走査時点における画像座標(p(i),q(i))に基づいて、注目領域(ROI)とコンテキスト領域を切り出す様子を示している。例えば図2(b)に示すように、オブジェクトObj1上に注目領域(ROI)が位置するとき、図2(c)に示すように、演算領域切り出し部12は、その注目領域(ROI)の重心と一致する重心を持つコンテキスト領域を切り出す。
尚、注目領域(ROI)が入力画像Iの端部に位置しているときに、注目領域(ROI)に対して縦横四方のうちいずれかの周りの情報が存在しない場合も、コンテキスト領域の画像サイズ(w’×h’)は、その存在しない部分に固定値(例えばダイナミックレンジの中間値)を補完して、注目領域(ROI)の重心と一致する重心を持ち、且つ注目領域(ROI)に対して所定量で拡大した固定値のサイズとする。
このように注目領域(ROI)及びコンテキスト領域を固定値とすることで、以後のニューラルネットワーク部15の処理が安定化し、且つ処理も簡素化できる。尚、演算領域切り出し部12に入力される入力画像Iは、スケール変換部11により、スケール(W×H)を初期値とし段階的に縮小した個々のサイズであるため、注目領域(ROI)及びコンテキスト領域が相対的に段階的に拡大するものとなるため、異なる様々なサイズのオブジェクトを抽出できるようになる。
走査部13は、演算領域切り出し部12に入力される入力画像Iから、注目領域(ROI)の基準となる座標値を順次走査(例えば1画素単位で走査)しながら生成し、或るi番目の走査時点における画像座標(p(i),q(i))を演算領域切り出し部12に出力する。
サイズ変換部14は、演算領域切り出し部12から入力されるコンテキスト領域の部分画像(w’×h’)を注目領域(ROI)と同じサイズ(w×h)になるように縮小して、ニューラルネットワーク部15に出力する。尚、サイズ変換部14による縮小処理自体をニューラルネットワーク部15内で実行することもできる。
ニューラルネットワーク部15は、ニューラルネットワークの構造上の一部分である部分ネットワークとして、注目領域特徴演算部151、コンテキスト領域特徴演算部152、特徴結合部153、及びオブジェクト抽出部154を有する。
注目領域特徴演算部151は、演算領域切り出し部12から入力される注目領域(ROI)の部分画像に対して、ニューラルネットワークを用いて特徴量を算出し、特徴結合部153に出力する。
コンテキスト領域特徴演算部152は、サイズ変換部14から入力されるコンテキスト領域の部分画像に対して、ニューラルネットワークを用いて特徴量を算出し、特徴結合部153に出力する。
ここで、注目領域特徴演算部151及びコンテキスト領域特徴演算部152にてそれぞれ算出する特徴量は、それぞれニューラルネットワークを用いたものであれば任意に定めた公知のものを利用することができるが、それぞれ同一形式の特徴量算出処理とし、位置関係が相関する特徴マップで表されるものとする。このような特徴量算出処理の例として、注目領域(ROI)及びコンテキスト領域の各部分画像に対し、一般的なオブジェクト変換(階調変換、シャープネス/スムージング変換、エッジ抽出変換、モーフィング変換等)を施したものとすることができるが、より簡便に畳み込みニューラルネットワークで算出する構成とすることができる。実施例として後述するが、畳み込みニューラルネットワークに基づく特徴マップは、二次元マトリックスで表現したものとすることができる。畳み込みニューラルネットワークは通常、畳み込み層やプーリング層、全結合層といったものの組み合わせで構成される。
特徴結合部153は、注目領域特徴演算部151及びコンテキスト領域特徴演算部152にてそれぞれ算出した注目領域(ROI)及びコンテキスト領域の特徴量を結合してオブジェクト抽出部154に出力し、その後、走査部13に対し、当該入力画像Iにおける次の注目領域(ROI)の基準となる座標値を生成するよう指示する。
このとき、走査部13は、或る入力画像Iの全体からオブジェクト抽出の処理が終了したか否かを判定し、終了していなければその入力画像Iに対する次の注目領域(ROI)の基準となる座標値を生成し、終了していれば演算領域切り出し部12へ新たに入力される入力画像Iに対して、初期位置から画像座標(p(i),q(i))に対応するi番目の走査を開始する。
オブジェクト抽出部154は、特徴結合部153から得られる注目領域(ROI)及びコンテキスト領域の結合した結合特徴量を基に、該当する注目領域(ROI)が当該ニューラルネットワークの目的とする特定のオブジェクトを含んでいるか否かを判定し、当該特定のオブジェクトを抽出する。
つまり、オブジェクト抽出部154は、該当する注目領域(ROI)が当該特定のオブジェクトであると判定した場合には、その入力画像Iに対するi番目の走査時点における注目領域(ROI)の位置情報又は注目領域(ROI)の部分画像そのものを抽出結果として外部に出力する。この抽出結果は、車両認識や顔認識等の認識処理に利用できる。
また、オブジェクト抽出部154は、走査部13により走査した結果、その都度、特徴結合部153から得られる注目領域(ROI)及びコンテキスト領域の結合した結合特徴量を基に、事前学習に基づいてオブジェクトが含まれるか否かを判定し、その入力画像Iの全体からオブジェクト抽出を行う。
オブジェクト抽出部154は、オブジェクト抽出処理として、制約なしに自由に設計することができ、ニューラルネットワーク部15(特に、オブジェクト抽出部154)は、予め多数の画像サンプルを基に注目領域(ROI)及びコンテキスト領域の結合した結合特徴量を基にオブジェクト抽出に関するニューラルネットワークのパラメータを事前学習させておくようにする。
そして、オブジェクト抽出部154は、或る入力画像Iの全体からオブジェクト抽出の処理が終了すると、スケール変換部11に対し、その入力画像Iに対して所定の倍率(1/k;kは任意の実数)で縮小した次の入力画像Iを生成するよう指示する。
従って、本実施形態の画像オブジェクト抽出装置1は、入力される入力画像(W×H)に対し、異なる様々なサイズのオブジェクトを抽出することができる。
尚、図1では、本発明の理解を高めるために、スケール変換部11、演算領域切り出し部12、走査部13及びサイズ変換部14と、ニューラルネットワークを構成するニューラルネットワーク部15とを区別した例を示しているが、画像オブジェクト抽出装置1全体を単一のニューラルネットワークとして構成することもできる。
(装置動作)
以下、より具体的に、図3及び図4を参照しながら、本実施形態の画像オブジェクト抽出装置1について説明する。図3は、本発明による一実施形態の画像オブジェクト抽出装置1の動作を示すフローチャートである。また、図4は、本発明による一実施形態の画像オブジェクト抽出装置1に係る並列処理型ニューラルネットワークの説明図である。
まず、図3に示すように、画像オブジェクト抽出装置1は、スケール変換部11により、入力された入力画像(W×H)のスケールが所定の閾値より小さいか否かを判定する(ステップS1)。
スケール変換部11は、入力された入力画像(W×H)のスケールが所定の閾値より小さいとき(本例では、w×hより小さいとき)は処理を終了し(ステップS1:Y)、そうでなければ(ステップS1:N)、入力画像Iとして最初はステップS3に移行し、以降(ステップS1:N)を経るときは、その入力画像Iのスケールを所定の倍率(1/k;kは任意の実数)に縮小してからステップS3に移行する(ステップS2)。
続いて、画像オブジェクト抽出装置1は、演算領域切り出し部12により、走査部13によって指定されるi番目の走査時点における画像座標(p(i),q(i))に基づいて、入力画像Iから注目領域(ROI)の部分画像(w×h)と、当該注目領域(ROI)とその周りの情報を含むコンテキスト領域の部分画像(w’×h’)とを切り出す(ステップS3)。
図4は、本実施形態の画像オブジェクト抽出装置1に係る並列処理型ニューラルネットワークの説明図である。スケール変換部11及び演算領域切り出し部12は、画像オブジェクト抽出装置1の入力層として機能し、図4にて1次元で簡易図示する入力画像Iに対して或る注目領域(ROI)及びコンテキスト領域を切り出す。
続いて、画像オブジェクト抽出装置1は、サイズ変換部14により、コンテキスト領域の部分画像(w’×h’)を注目領域(ROI)と同じサイズ(w×h)になるように縮小してから、注目領域特徴演算部151及びコンテキスト領域特徴演算部152の各部分ネットワークを並列適用する(ステップS4)。つまり、注目領域特徴演算部151及びコンテキスト領域特徴演算部152は、それぞれ注目領域(ROI)及びコンテキスト領域におけるニューラルネットワークを用いて特徴量を並列処理でそれぞれ算出する。
従って、図4に示すように、サイズ変換部14は、画像オブジェクト抽出装置1のサイズ変換層として機能し、コンテキスト領域の部分画像(図示DS)を注目領域(ROI)のサイズ(図示NA1)と同じサイズ(図示NB1)になるように縮小する。そして、注目領域特徴演算部151及びコンテキスト領域特徴演算部152は、画像オブジェクト抽出装置1の特徴演算層(畳み込みニューラルネットワークであれば畳み込み層やプーリング層等)として機能し、注目領域(ROI)の部分画像(図示NA1)及びサイズ変換後のコンテキスト領域の部分画像(図示NB1)から、それぞれニューラルネットワークを用いて特徴量(図示NA2,NB2)を算出する。
続いて、画像オブジェクト抽出装置1は、特徴結合部153により、注目領域特徴演算部151及びコンテキスト領域特徴演算部152の各部分ネットワークにてそれぞれ算出した注目領域(ROI)及びコンテキスト領域の特徴量を結合する(ステップS5)。
従って、図4に示すように、特徴結合部153は、画像オブジェクト抽出装置1の特徴結合層(畳み込みニューラルネットワークであれば全結合層(ソフトマックス層を含んでもよい)等)として機能し、注目領域(ROI)及びコンテキスト領域の特徴量を結合したものである結合特徴量(図示NC)を生成する。
続いて、画像オブジェクト抽出装置1は、オブジェクト抽出部154により、注目領域(ROI)及びコンテキスト領域の結合したものであるこの結合特徴量を基に、該当する注目領域(ROI)が当該ニューラルネットワークの目的とする特定のオブジェクト(車両、人物の顔等)を含んでいるか否かを判定し、オブジェクトであると判定した場合には、その入力画像Iに対するi番目の走査時点における注目領域(ROI)の位置情報又は注目領域(ROI)の部分画像そのものを抽出結果として外部に出力する(ステップS6)。
従って、図4に示すように、オブジェクト抽出部154は、画像オブジェクト抽出装置1のオブジェクト抽出・出力層として機能し、該当する注目領域(ROI)に当該ニューラルネットワークの目的とする特定のオブジェクト(車両、人物の顔等)が含まれるか否かを判定し、オブジェクトの抽出結果(図示ND)を出力する。
また、画像オブジェクト抽出装置1は、走査部13により、入力画像Iの全体からオブジェクト抽出の処理が終了したか否かを判定し(ステップS7)、終了していなければ(ステップS7:N)、入力画像Iに対する次の注目領域(ROI)の基準となる座標値を生成してステップS3に移行する。一方、入力画像Iの全体からオブジェクト抽出の処理が終了していれば(ステップS7:Y)、ステップS1に移行した後、ステップS2を経て演算領域切り出し部12へ新たに入力される入力画像Iに対して初期位置から走査を開始するようにステップS3に移行する。
このように、本発明に係る画像オブジェクト抽出装置1は、注目領域(ROI)と共にそのROIを含むコンテキスト領域を切り出し、当該コンテキスト領域の画像サイズをROIの画像サイズまで縮小し、その上で、ROIとコンテキスト領域とを並列処理する並列処理型ニューラルネットワークを構成し、本来の演算対象のROIの画像サイズでオブジェクトを抽出するようにしている。
(実施例)
以下、図5乃至図7を参照して、本発明に係る画像オブジェクト抽出装置1について、畳み込みニューラルネットワークを用いた場合の実施例について説明する。
図5は、本発明による一実施形態の画像オブジェクト抽出装置1における注目領域特徴演算部151及びコンテキスト領域特徴演算部152に対し畳み込みニューラルネットワークを用いた場合の入出力に関する説明図である。
まず、図5に示すように、特徴演算層である注目領域特徴演算部151及びコンテキスト領域特徴演算部152の各部分ネットワークとして畳み込みニューラルネットワークを用いた場合、入力層における入力画像IのサイズW×H(画素数)に対する注目領域(ROI)とコンテキスト領域の各特徴量は、それぞれ特徴マップとして、例えばm×nの2次元行列(マトリックス)で出力される。尚、その特徴演算層を経て結合される特徴結合層の出力は、m×n×2で表される。
つまり、特徴結合層である特徴結合部153は、例えば特徴マップとして2次元行列のm行n列の値で表す2種類の特徴量を結合してオブジェクト抽出部154に出力する。
ここで、m,nの各値は有限の値であり、m=1,2,…,M、n=1,2,…,Nとなる。MとNの値は、ニューラルネットワークの構成によって決定される値である。
そして、オブジェクト抽出・出力層であるオブジェクト抽出部154は、そのニューラルネットワークを構成するニューロンに対応する受容野(入力画像Iに対する注目領域(ROI)とコンテキスト領域)が、オブジェクトである確率を表すものとなり、例えばm,nの各値が大きいほど、オブジェクトである可能性が高いことを示すものとなる。
より具体的に、図6及び図7を参照して、本実施形態の画像オブジェクト抽出装置1にて畳み込みニューラルネットワークを用いた一実施例について説明する。図6及び図7は、本実施形態の画像オブジェクト抽出装置1にて畳み込みニューラルネットワークを用いた一実施例の処理例を示す図である。尚、図7は、図6について簡単のため入力画像を1次元で表したものであり、図6及び図7に示す実施例は、注目領域(ROI)とコンテキスト領域について並列処理する、並列処理型の畳み込みニューラルネットワークを適用した一例である。
図6及び図7に示す例では、スケール変換部11の出力である入力画像Iから、演算領域切り出し部12によって、4×4画素の注目領域(ROI)と、8×8画素のコンテキスト領域の部分画像が切り出されるものとする(図1参照)。
ここで、8×8画素のコンテキスト領域の部分画像は、4×4画素の注目領域(ROI)の重心と一致する重心を持つように切り出されている。
そして、8×8画素のコンテキスト領域の部分画像は、サイズ変換部14によって、縮小率1/2にダウンサンプリング(図示するDS)され、注目領域(ROI)と同じサイズに変換される。
4×4画素の注目領域(ROI)と、サイズ変換後の4×4画素のコンテキスト領域の各部分画像は、畳み込みニューラルネットワークで構成するニューラルネットワーク部15に入力される。
本実施例のニューラルネットワーク部15においても、注目領域特徴演算部151、コンテキスト領域特徴演算部152、特徴結合部153、及びオブジェクト抽出部154を有している(図1参照)。
注目領域特徴演算部151及びコンテキスト領域特徴演算部152は、それぞれ(カーネルサイズ,ストライド)をパラメータとする畳み込み層(図示するConv)と、(カーネルサイズ,ストライド)をパラメータとする最大プーリング層(図示するMP)を持つ部分ネットワークで構成されている。
注目領域特徴演算部151及びコンテキスト領域特徴演算部152における各畳み込み層(図示するConv)では、それぞれの受容野(4×4画素の注目領域(ROI)と、サイズ変換後の4×4画素のコンテキスト領域の各部分画像)に対し、カーネルサイズを3×3画素とし、ストライドを1(1画素単位で移動させる移動幅)として、カーネルを移動させながら畳み込み演算を行い、2×2の2次元行列の特徴マップを形成する。
また、注目領域特徴演算部151におけるプーリング層(図示するMP)では、カーネルサイズを2×2とし、ストライドを2として、注目領域(ROI)に関する畳み込み演算後の特徴マップから最大の値を持つ領域を抽出し、これにより1×1の2次元行列の特徴マップを形成する。
一方、コンテキスト領域特徴演算部152におけるプーリング層(図示するMP)では、同じくカーネルサイズを2×2とするがストライドを1として、コンテキスト領域に関する畳み込み演算後の特徴マップから最大の値を持つ領域を抽出し、これにより1×1の2次元行列の特徴マップを形成する。
ところで、注目領域特徴演算部151と、サイズ変換部14を介するコンテキスト領域特徴演算部152について、並列処理型の畳み込みニューラルネットワークとして構成する際に、それぞれの受容野(入力画像Iに対する注目領域(ROI)とコンテキスト領域)の中心(重心)点と、その受容野のストライド(移動幅)が一致するように構成する。これにより、注目領域(ROI)とコンテキスト領域の相関性を高くすることができ、以降のオブジェクト抽出における精度を向上させることができる。
つまり、注目領域特徴演算部151における注目領域(ROI)に関する入力画像Iを基準にする全体のストライドは2画素であり(最大プーリング層のストライド2による)、m行n列に対応する注目領域(ROI)の受容野が、入力画像Iに対する4隅の画像座標として(x,y,x+4,y+4)の4×4の矩形領域とすると、(m+1)行n列に対応する画像座標は(x+2,y,(x+2)+4,y+4)となる。
同様に、サイズ変換部14を介するコンテキスト領域特徴演算部152におけるコンテキスト領域に関する入力画像Iを基準にする全体のストライドも2画素である(最大プーリング層のストライド1であるが、サイズ変換部14による縮小率1/2のダウンサンプリングによる)。
即ち、簡単のため、図7では1次元で表現することにより、注目領域特徴演算部151の演算と、サイズ変換部14及びコンテキスト領域特徴演算部152の演算に関して、入力画像Iにおける画素(受容野)と当該演算の各出力との関係を表している。注目領域特徴演算部151の演算と、サイズ変換部14及びコンテキスト領域特徴演算部152の演算において、実線で示す演算時の出力に対し、その隣の破線で示すストライドさせた演算時の出力が、2画素ずれた位置に相当していることが分かり、注目領域(ROI)とコンテキスト領域との位置関係が相関性の高い(崩れていない)状態を保つことができることが確認できる。
そして、図6に示す例では、注目領域特徴演算部151及びコンテキスト領域特徴演算部152からそれぞれ出力される1×1の2次元行列の特徴マップは、特徴結合部153によってチャンネル方向に結合され、1×1×2の特徴マップとしてオブジェクト抽出部154に出力される。
オブジェクト抽出部154は、1×1×2の特徴マップを基に、事前学習に基づいてオブジェクトが含まれるか否かを判定し、その入力画像Iの全体からオブジェクト抽出を行う。このようなオブジェクト抽出部154を構成する部分ネットワークは、制約なしに自由に設計することができる。一般的には、畳み込み層とプーリング層を繰り返した後、全結合層、ソフトマックス層と連結するような構造が利用される。
(実施例に基づく実験結果)
ここで、本発明に係る画像オブジェクト抽出装置1の効果を実験により検証した。実験では、本発明に係る画像オブジェクト抽出装置1として、入力画像Iから8×8画素の注目領域(ROI)と、16×16画素のコンテキスト領域の部分画像を切り出すものとした。そして、注目領域特徴演算部151における注目領域(ROI)に関する全体のストライドは2、サイズ変換部14を介するコンテキスト領域特徴演算部152におけるコンテキスト領域に関する全体のストライドも2となるように、畳み込み層とプーリング層を組み合わせて設計した。また、オブジェクト抽出部154も含めたニューラルネットワーク部15全体の畳み込み層の総数は3とした。
一方、比較例として、図8に例示する従来技術に係る画像オブジェクト抽出装置100のように、8×8画素の注目領域(ROI)のみでオブジェクト抽出するものとし、畳み込み層の総数も合わせるため3とした。
表1は、本発明と比較例に関するオブジェクト抽出の実験結果を示している。表1は、検出漏れの少なさを評価するための再現率による比較を示すものであり、本例ではサンプル数を3971枚の画像としている。本発明に係る再現率は、比較例と比べて約1%向上する結果となった。従って、注目領域(ROI)の周辺情報を利用する方がオブジェクト抽出の精度が向上し、本発明の有効性が確認できた。
Figure 0007149124000001
また、表2は、本発明と比較例に関するオブジェクト抽出に係る演算時間(必要実行時間)の比較結果を示している。本発明に係る演算時間(必要実行時間)は、比較例に比べて、実行時間の増加は許容できる範囲である。特に、従来技術に基づいて単純に8×8画素の注目領域(ROI)のみに基づいてオブジェクト抽出し、更に16×16画素のコンテキスト領域のみに基づいてオブジェクト抽出し、その結果をまとめてオブジェクト抽出判断を行うように構成することも考えられる。この場合では、仮に本発明と同程度の精度が得られるとしても、表2に示す比較例の演算時間(必要実行時間)は2倍以上になることが想定されるため、本発明の構成による演算時間(必要実行時間)が如何に小さく抑えられているかが理解される。
Figure 0007149124000002
上記表1及び表2の結果から、本発明に係る画像オブジェクト抽出装置1は、注目領域(ROI)及びコンテキスト領域について並列処理する点、及び、コンテキスト領域について注目領域(ROI)と同じサイズになるように縮小している点で、オブジェクト抽出の精度を向上させながら計算量の増加が抑えられたものと考えられる。
従って、従来技術のように入力された注目領域(ROI)のみを利用してオブジェクトを抽出又は認識する技術より、本発明に係る画像オブジェクト抽出装置1のように、入力画像内のオブジェクトを抽出又は認識する場合には、注目領域(ROI)とその周りの情報(周辺情報)も利用することが有効であることが分かる。
特に、従来技術では入力画像に対するオブジェクトのサイズが抽出困難であるほど相対的に小さい場合でも、本発明に係る構成ではそのオブジェクトを精度よく抽出できるようになり、特にオブジェクトのサイズが小さいほど、その傾向が顕著となる。
総括するに、従来技術の変形例として、はじめから注目領域(ROI)の周辺情報を含むコンテキスト領域のみを演算対象とすることも考えられる。この場合、図8に示す従来技術の構成を変えることなく、注目領域(ROI)の周辺情報を考慮できるようになるが、幾つかの問題が生じる。
第1に、ROIを含むコンテキスト領域の画像サイズをそのままにニューラルネットワークによりオブジェクト抽出を行うことになり、オブジェクト抽出に係る計算時間が増大する。即ち、この場合、コンテキスト領域の画像サイズが本来の演算対象のROIの画像サイズより相対的に拡大したものとなり、その拡大した面積に比例して計算時間が増大してしまう。特に、入力画像内からオブジェクトを抽出するタスクにおいては、上述したスケール変換部11のようなスケール変換が有効である一方で、様々な位置や大きさの演算対象の画像に対して何度も実行すると、その計算時間は著しく増大する。
第2に、ROIを含むコンテキスト領域でニューラルネットワークによりオブジェクト抽出を行うと、オブジェクト抽出された当該コンテキスト領域から本来の演算対象のROIで抽出すべきオブジェクトを何らかの方法で切り出す必要が生じ、抽出精度や演算時間に悪影響を与える。
そこで、本発明に係る画像オブジェクト抽出装置1では、注目領域(ROI)と共にそのROIを含むコンテキスト領域を切り出し、当該コンテキスト領域の画像サイズをROIの画像サイズまで縮小し、その上で、ROIとコンテキスト領域とを並列処理する並列処理型ニューラルネットワークを構成し、本来の演算対象のROIの画像サイズでオブジェクトを抽出するようにしている。このため、上記表1及び表2に示したように、ROIのみよりも、ROIを含む周辺情報がある方が明らかにオブジェクト抽出の精度が向上し、不所望に演算時間を増大させることなく計算量の増加を抑えることができる。
上述した実施形態の例に関して、画像オブジェクト抽出装置1として機能するコンピュータを構成し、これらの装置の各手段を機能させるためのプログラムを好適に用いることができる。具体的には、各手段を制御するための制御部をコンピュータ内の中央演算処理装置(CPU)で構成でき、且つ、各手段を動作させるのに必要となるプログラムを適宜記憶する記憶部を少なくとも1つのメモリで構成させることができる。即ち、そのようなコンピュータに、CPUによって該プログラムを実行させることにより、上述した各手段の有する機能を実現させることができる。更に、各手段の有する機能を実現させるためのプログラムを、前述の記憶部(メモリ)の所定の領域に格納させることができる。そのような記憶部は、装置内部のRAM又はROMなどで構成させることができ、或いは又、外部記憶装置(例えば、ハードディスク)で構成させることもできる。また、そのようなプログラムは、コンピュータで利用されるOS上のソフトウェア(ROM又は外部記憶装置に格納される)の一部で構成させることができる。更に、そのようなコンピュータに、各手段として機能させるためのプログラムは、コンピュータ読取り可能な記録媒体に記録することができる。また、上述した各手段をハードウェア又はソフトウェアの一部として構成させ、各々を組み合わせて実現させることもできる。
上述の実施形態及び実施例については代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換することができることは当業者に明らかである。従って、本発明は、上述の実施形態及び実施例によって制限するものと解するべきではなく、特許請求の範囲によってのみ制限される。
本発明によれば、精度よく、且つ比較的短時間で入力画像からオブジェクトを抽出できるようになるので、画像からオブジェクトを抽出又は認識する用途に有用である。
1 画像オブジェクト抽出装置
11 スケール変換部
12 演算領域切り出し部
13 走査部
14 サイズ変換部
15 ニューラルネットワーク部
151 注目領域特徴演算部
152 コンテキスト領域特徴演算部
153 特徴結合部
154 オブジェクト抽出部
100 画像オブジェクト抽出装置
112 注目領域切り出し部
113 走査部
115 ニューラルネットワーク部
1151 注目領域特徴演算部
1154 オブジェクト抽出部

Claims (3)

  1. 入力画像から特定のオブジェクトを抽出する画像オブジェクト抽出装置であって、
    予め定めた最初のスケールを初期値として、所定の倍率で前記入力画像を段階的に縮小するようにスケール変換を施した入力画像を順に生成するスケール変換手段と、
    前記スケール変換手段によりスケール変換された入力画像を走査しながら、注目領域の部分画像と、当該注目領域とその周りの情報を含むコンテキスト領域の部分画像とをそれぞれ1種類の予め定めたサイズで順次切り出す演算領域切り出し手段と、
    順次切り出される前記コンテキスト領域の部分画像を前記注目領域と同じサイズに縮小するようにサイズ変換を行うサイズ変換手段と、
    前記注目領域の部分画像に対してそのままのサイズでニューラルネットワークを用いて第1の特徴量を算出する注目領域特徴演算手段と、
    当該サイズ変換した後の前記コンテキスト領域の部分画像に対してニューラルネットワークを用いて第2の特徴量を算出するコンテキスト領域特徴演算手段と、
    前記第1の特徴量、及び前記第2の特徴量を結合し、結合特徴量を生成する結合手段と、
    当該結合特徴量を基に前記注目領域が当該特定のオブジェクトを含んでいるか否かを判定することにより、前記スケール変換手段を経て得られる入力画像から当該特定のオブジェクトを抽出するオブジェクト抽出手段と、を備え、
    少なくとも前記注目領域特徴演算手段、前記コンテキスト領域特徴演算手段、前記結合手段、及び前記オブジェクト抽出手段は、ニューラルネットワークにおける部分ネットワークとして構成され、
    前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段が並列処理されるように構成され、
    前記演算領域切り出し手段は、前記スケール変換手段を経て得られる入力画像から、それぞれ固定値で前記注目領域の部分画像、及び前記コンテキスト領域の部分画像を切り出すものとし、前記コンテキスト領域の部分画像を切り出す際に、前記コンテキスト領域が前記注目領域の重心と一致する重心を持ち、且つ前記注目領域に対して縦横四方の周りの情報が含まれるように所定量で拡大したサイズで切り出し、
    前記注目領域特徴演算手段、及び前記コンテキスト領域特徴演算手段は、それぞれ同一形式の特徴量算出処理として畳み込みニューラルネットワークに基づく並列処理により、前記スケール変換手段を経て得られる入力画像を基準にして、前記第1の特徴量、及び前記第2の特徴量の各々の位置関係が相関する特徴マップを算出し、
    前記オブジェクト抽出手段は、前記スケール変換手段を経て得られる入力画像のスケールが所定の閾値より小さくならない範囲内で当該スケール変換手段によるスケール変換を繰り返させて、異なるサイズのオブジェクトを抽出することを特徴とする画像オブジェクト抽出装置。
  2. 前記演算領域切り出し手段は、前記コンテキスト領域の面積が、前記注目領域の面積に対し1倍より大きく4倍以下を満たすように切り出すことを特徴とする、請求項に記載の画像オブジェクト抽出装置。
  3. コンピュータを、請求項1又は2に記載の画像オブジェクト抽出装置として機能させるためのプログラム。
JP2018139764A 2018-07-25 2018-07-25 画像オブジェクト抽出装置及びプログラム Active JP7149124B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018139764A JP7149124B2 (ja) 2018-07-25 2018-07-25 画像オブジェクト抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018139764A JP7149124B2 (ja) 2018-07-25 2018-07-25 画像オブジェクト抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020017082A JP2020017082A (ja) 2020-01-30
JP7149124B2 true JP7149124B2 (ja) 2022-10-06

Family

ID=69581483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018139764A Active JP7149124B2 (ja) 2018-07-25 2018-07-25 画像オブジェクト抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7149124B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7453828B2 (ja) 2020-03-26 2024-03-21 Go株式会社 プログラム、ニューラルネットワークシステム、情報処理方法およびニューラルネットワークモデルの生成方法
CN111489287B (zh) * 2020-04-10 2024-02-09 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备和存储介质
TWI744999B (zh) * 2020-07-23 2021-11-01 和碩聯合科技股份有限公司 焊點檢測模型訓練方法、焊點檢測方法及焊點檢測裝置
CN112365498B (zh) * 2020-12-10 2024-01-23 南京大学 一种针对二维图像序列中多尺度多形态目标的自动检测方法
CN115661141B (zh) * 2022-12-14 2023-03-31 上海牙典医疗器械有限公司 基于cbct图像牙齿和牙槽骨分割方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113168A (ja) 2009-11-25 2011-06-09 Fujifilm Corp オブジェクト検出装置および方法並びにプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011113168A (ja) 2009-11-25 2011-06-09 Fujifilm Corp オブジェクト検出装置および方法並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chenyi Chen et al.,R-CNN for Small Object Detection,[online],2016年11月21日,https://oar.princeton.edu/rt4ds/file/29906/254

Also Published As

Publication number Publication date
JP2020017082A (ja) 2020-01-30

Similar Documents

Publication Publication Date Title
JP7149124B2 (ja) 画像オブジェクト抽出装置及びプログラム
US12008797B2 (en) Image segmentation method and image processing apparatus
US10740897B2 (en) Method and device for three-dimensional feature-embedded image object component-level semantic segmentation
JP6798183B2 (ja) 画像解析装置、画像解析方法およびプログラム
US20220012612A1 (en) System, method, and program for predicting information
JP5505409B2 (ja) 特徴点生成システム、特徴点生成方法および特徴点生成プログラム
JP5336995B2 (ja) 特徴点位置決め装置、画像認識装置、その処理方法及びプログラム
US20220148328A1 (en) Pedestrian detection method and apparatus, computer-readable storage medium, and chip
CN112381061B (zh) 一种面部表情识别方法及系统
CN116309983B (zh) 虚拟人物模型的训练方法、生成方法、装置和电子设备
US9965698B2 (en) Image processing apparatus, non-transitory computer-readable recording medium having stored therein image processing program, and operation method of image processing apparatus
CN112686225A (zh) Yolo神经网络的训练方法、行人检测方法和相关设备
KR20200030988A (ko) 영상 처리 장치 및 그 동작방법
JP7220062B2 (ja) 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法
CN114049491A (zh) 指纹分割模型训练、指纹分割方法、装置、设备及介质
KR102333545B1 (ko) 합성곱 신경망 기반의 영상 학습 방법 및 이를 수행하기 위한 장치
JP5335554B2 (ja) 画像処理装置及び画像処理方法
KR101592087B1 (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
KR20200134813A (ko) 기계 학습을 위한 이미지 처리 장치 및 방법
KR101853211B1 (ko) 모바일 gpu 환경에서 차영상 정보를 이용한 sift 알고리즘의 복잡도 감소 기법
US11288534B2 (en) Apparatus and method for image processing for machine learning
CN114973413A (zh) 基于单个rgb图像的三维手势识别方法与系统
WO2023162132A1 (ja) 画像変換装置、方法およびプログラム
Karaca et al. Image denoising with CNN-based attention
CN116403269B (zh) 一种遮挡人脸解析方法、系统、设备及计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220926

R150 Certificate of patent or registration of utility model

Ref document number: 7149124

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150