JP2017102622A - 画像処理装置、画像処理方法及びプログラム - Google Patents
画像処理装置、画像処理方法及びプログラム Download PDFInfo
- Publication number
- JP2017102622A JP2017102622A JP2015234264A JP2015234264A JP2017102622A JP 2017102622 A JP2017102622 A JP 2017102622A JP 2015234264 A JP2015234264 A JP 2015234264A JP 2015234264 A JP2015234264 A JP 2015234264A JP 2017102622 A JP2017102622 A JP 2017102622A
- Authority
- JP
- Japan
- Prior art keywords
- image
- learning
- feature amount
- area
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】 画像およびその位置に適した小領域分割パラメータを設定できるようにすること。
【解決手段】 本発明は、入力画像の所定領域から第1の特徴量を抽出する第1の特徴抽出手段と、前記入力画像における前記所定領域よりもサイズの小さい領域から第2の特徴量を抽出する第2の特徴抽出手段と、前記抽出した第1の特徴量と第2の特徴量とに基づいて、前記入力画像を少なくとも1つの小領域に分割するために用いられるパラメータを設定する設定手段と、前記設定したパラメータに基づいて、前記入力画像を少なくとも1つの小領域に分割する分割手段と、を有する。
【選択図】 図1
【解決手段】 本発明は、入力画像の所定領域から第1の特徴量を抽出する第1の特徴抽出手段と、前記入力画像における前記所定領域よりもサイズの小さい領域から第2の特徴量を抽出する第2の特徴抽出手段と、前記抽出した第1の特徴量と第2の特徴量とに基づいて、前記入力画像を少なくとも1つの小領域に分割するために用いられるパラメータを設定する設定手段と、前記設定したパラメータに基づいて、前記入力画像を少なくとも1つの小領域に分割する分割手段と、を有する。
【選択図】 図1
Description
本発明は、画像をラベルごとの領域に分割するための技術に関する。
画像を複数の領域に分割する多くの研究が行われており、近年では、画像から人物の領域、自動車の領域、道路の領域、建物の領域、空の領域などの、意味的な領域を切り出す課題が盛んに研究されている。このような課題は、意味的領域分割(Semantic Segmentation)と呼ばれ、写っている物の種類に対応した画像補正やシーン解釈などに応用できると考えられている。意味的領域分割を行うにあたり、画像の各位置に関するクラスラベルの判別を、画素単位ではなく、小領域(superpixel)単位で行うことは、すでに一般的である。小領域は、主に類似した特徴を持つ小さな領域として画像から切り出されるもので、様々な手法が提案されている。代表的なものとして、非特許文献1のようなグラフベースの手法や、非特許文献2のようなクラスタリングベースの手法がある。
これらの小領域分割手法には、ユーザが定義する制御パラメータが必要である。例えば、グラフベースの手法であれば、制御パラメータは、主に領域を分割するために画素と画素の間の結合を切るときの閾値である。また、クラスタリングベースの手法であれば、制御パラメータは、主にクラスタの大きさなどである。意味的領域分割において、各領域のクラスを判定する判別器は、できるだけ広い部分から得られた情報で推定を行う方が情報量は増えるため、判別性能は上がる。しかしながら、最終結果として領域を正しく分割するためには、クラス判別する単位としての小領域が複数のクラスによる領域にまたがっていないことが望まれる。そのため、小領域は、できるだけ大きく、かつ、意味的領域の境界を正しく分離していることが望ましい。例えば、自動車の写っている画像を小領域分割する場合には、自動車領域をできるだけ少ない数の小領域に分割し、かつ、自動車領域内の小領域には道路などの領域が含まれていないことが望まれる。
Efficient Graph−Based Image Segmentation,P.F.Felzenszwalb、IJCV2004.
SLIC Superpixels,R.Achanta,A.Shaji,K.Smith,A.Lucchi,EPFL Technical Report,2010.
Dalal and Triggs, "Histograms of Oriented Gradients for Human Detection",IEEE Computer Vision and Pattern Recognition,pp.886−893,2005.
Poselets:Body Part Detectors Trained Using 3D Human Pose Annotations,L.Bourdev and J.Malik,ICCV2009.
Robust Real−time Object Detection,P.Viola and M.Jones,IJCV2001.
小領域分割手法における制御パラメータは、通常ユーザが様々な実験を行い、その結果を見て調整する。特許文献1には、文書画像に対して領域分割を行い、得られた領域内の文字を認識した結果として、所望のフォーマットに準じた結果が得られなかった場合には、領域分割パラメータを再設定して、領域分割をやり直す方法が提案されている。しかし、このようなパラメータ設定の手間はユーザに対して負担が大きく、また、適切なパラメータは画像によって異なる場合が多い。例えば、全体的に暗く、コントラストの弱い画像であれば、画素と画素の結合を切るための輝度差閾値を低くしなければ、所望の輪郭上で小領域を分割できなくなる。逆に、全体的に光量が多く、コントラストの強い画像であれば、閾値が低い状態では画素間の結合が切られやすくなり過ぎるため、過分割気味の小領域となってしまう。
また、これらの小領域分割パラメータの適切な値は、同一画像中であっても異なる場合がある。例えば、画像の一部では直射日光が当たってコントラストが強く、一方で日陰となっている部分でコントラストが弱くなっているような場合である。さらに、同一照明条件であっても、物体内部によって適したパラメータが異なる場合もある。例えば、人体における肌と髪の境界はコントラストが強いため、画素間結合を切るための閾値を高めにしておかなければ同一領域として切り出すことは難しい。しかし、一方で、高い閾値が設定されていると、人物の輪郭と背景を分離することが難しくなる。
上記課題を解決するために、本発明は、入力画像の所定領域から第1の特徴量を抽出する第1の特徴抽出手段と、前記入力画像における前記所定領域よりもサイズの小さい領域から第2の特徴量を抽出する第2の特徴抽出手段と、前記抽出した第1の特徴量と第2の特徴量とに基づいて、前記入力画像を少なくとも1つの小領域に分割するために用いられるパラメータを設定する設定手段と、前記設定したパラメータに基づいて、前記入力画像を少なくとも1つの小領域に分割する分割手段と、を有することを特徴とする。
以上の構成によれば、本発明は、画像から得られる大域的な特徴と局所的な特徴とに基づいて、画像およびその位置に適した小領域分割パラメータを設定することができる。
[第1の実施形態]
以下、図面を参照して本発明の第1の実施形態を詳細に説明する。図1は、本実施形態に係る画像処理装置のソフトウェア構成を示す構成図である。本実施形態の画像処理装置は、ネットワークまたは各種情報記録媒体を介して取得したソフトウェア(プログラム)を、CPU、メモリ、ストレージデバイス、入出力装置、バス、表示装置などにより構成される計算機によって実現できる。なお、計算機については、汎用の計算機を用いてもよいし、本発明のプログラムに最適に設計されたハードウェアを用いてもよい。
以下、図面を参照して本発明の第1の実施形態を詳細に説明する。図1は、本実施形態に係る画像処理装置のソフトウェア構成を示す構成図である。本実施形態の画像処理装置は、ネットワークまたは各種情報記録媒体を介して取得したソフトウェア(プログラム)を、CPU、メモリ、ストレージデバイス、入出力装置、バス、表示装置などにより構成される計算機によって実現できる。なお、計算機については、汎用の計算機を用いてもよいし、本発明のプログラムに最適に設計されたハードウェアを用いてもよい。
まず、ランタイム時に関する画像処理装置の構成について説明する。ここでランタイムとは、未知の入力画像に対して小領域分割を行うことである。画像設定部1100は入力画像を設定する。特徴抽出部1200は、画像設定部1100により設定された入力画像から画像特徴を抽出する。パラメータ設定部1300は、設定関数記憶部3200に記憶されている設定関数と特徴抽出部1200により抽出された特徴量とに基づいて、小領域分割に用いる制御パラメータを設定する。設定関数とは、後述する学習部2200により予め得られている関数である。小領域分割部1400は、パラメータ設定部1300により設定された制御パラメータを用いて、入力画像を小領域に分割する。画像設定部1100、特徴抽出部1200、パラメータ設定部1300および小領域分割部1400は、全て同じ計算機上で実現されるものでもよいし、それぞれ独立したモジュールとしてもよい。また、計算機上で実装されるプログラムとして実現してもよい。カメラ等の撮影装置内部において、回路もしくはプログラムとして実装してもよい。
次に、学習時に関する画像処理装置の構成について説明する。ここで学習とは、前述のような未知画像に対して小領域分割を行う前に、パラメータ設定部1300にて使用する設定関数を事前に用意された学習画像から生成することである。
学習データ記憶装置3100には、予め学習データが用意されている。学習データは、複数の学習画像とそれぞれの学習画像に対応する正解データとから構成される。学習データ設定部2100は、学習データ記憶装置3100から学習データを読み込み、学習画像から特徴量を抽出する。また、学習画像を異なる複数の制御パラメータにて小領域分割を行った結果と正解データとを比較し、教師データを設定する。また、学習画像から抽出された特徴量と教師データの組を学習データとして設定する。学習部2200は、設定された学習データを用いて学習処理を行い、パラメータ設定部1300にて使用する設定関数を設定関数記憶部3200に出力する。
なお、学習データ設定部2100および学習部2200は、ランタイム時に用いる各制御部と同じ計算機上で実現されるものでもよいし、独立したモジュールとして実現してもよい。また、計算機上で実装されるプログラムとして実現してもよい。学習データ記憶部3100と設定関数記憶部3200は、上記計算機の内部もしくは外部のストレージとして実現される。設定関数記憶部3200は、学習データ記憶部3100と同一ストレージとしてもよいし、別々のストレージとしてもよい。
次に、本実施形態の画像処理装置による処理の詳細を、図2から図4を用いて説明する。図2は、各実施形態に関わるランタイム時の処理の詳細を示すフローチャートであり、図2(a)が本実施形態に係るフローチャートである。同図において、まず、画像設定ステップS1100では、小領域分割する対象となる入力画像Iが設定される。ここで、画像設定ステップS1100は、画像設定部1100における処理に相当する。ここで、入力画像Iの例を図4の100に示す。図4は、本実施形態のランタイム時の処理の概略図である。設定される入力画像Iの入力方法に関しては、種々の方法が考えられるが、本実施形態は、その入力方法に関して限定されるものではない。例えば、カメラなどの撮像装置から与えられるものでもよいし、予めハードディスクなどのストレージに保存されていた画像データから与えられるものでもよい。
図2(a)に戻り、特徴抽出ステップS1200では、画像設定ステップS1100において設定された画像から特徴量を抽出する。特徴抽出ステップS1200は、分割対象領域設定ステップS1210、大域特徴抽出ステップS1220および局所特徴抽出ステップS1230に細分される。ここで、特徴抽出ステップS1200は、特徴抽出部1200における処理に相当する。なお、上述のように、特徴抽出ステップS1200には大域特徴抽出ステップS1220および局所特徴抽出ステップS1230という2つのサブステップを含む。そのため、特徴抽出部1200は、大域特徴量を抽出する機能部(第1の特徴抽出部)、および局所特徴量抽出する機能部(第2の特徴抽出部)という2つの機能部から構成されているものである。
分割対象領域設定ステップS1210では、分割対象領域(所定領域)を設定する。分割対象領域とは、後述の小領域分割処理を行う領域の範囲のことである。ここでは、入力画像Iに対して設定された分割対象領域をRと表わしている。分割対象領域は、図4の200として図示するように画像の全体としてもよいし、予め設定した範囲でもよい。例えば、画像端から固定値として10pixelなどのマージンを設定してもよい。あるいは、グラフィカルなインターフェースもしくはテキスト入力などで、ユーザが範囲を指定できるようにしてもよい。本実施形態においては、分割対象領域の設定方法に関して特に限定されるものではない。
大域特徴抽出ステップS1220では、分割対象領域設定ステップS1210にて設定された分割対象領域Rから、大域特徴量(第1の特徴量)を抽出する。なお、入力画像Iの分割対象領域Rから抽出された大域特徴量を、F_G(I,R)と表わすこととする。ここで大域特徴量とは、図4の401のように、分割対象領域R全体を一つの領域として、その領域全体に関して得られる特徴量のことを指す。その特徴量としては、例えば、RGBやHSVなど様々な色空間における色ヒストグラム、それらの平均値や分散などの統計量を用いることができる。あるいは、GaborフィルタやSobelエッジフィルタなどを分割対象領域にかけたときの出力信号値や、非特許文献3で示される公知手法のHOG特徴などを、学習画像群で量子化したときのクラスタリング結果に関するヒストグラムなどでもよい。また、これら複数の特徴量を結合したベクトルとして、大域特徴量を表現してもよい。本実施形態は、大域特徴として用いられる特徴量の種類によって特に限定されるものではない。
次に、局所特徴抽出ステップS1230では、分割対象領域内をラスタスキャンしながら、分割対象領域内の各位置に関する局所特徴量(第2の特徴量)を抽出する。ここでは、画像の画素ごとの位置を画像の局所として、その特徴量を抽出するようにしているが、大域特徴量を抽出する領域よりも小さい領域であればよい。入力画像Iにおける、分割対象領域内の位置X=(x,y)(X∈R)から抽出された局所特徴量を、F_L(I,X)と表わす。局所特徴量とは、図 4の300で表わされるような画像のある一点X、もしくはその近隣画素から得られる、局所的な特徴を表わす特徴量402のことを指す。その特徴量としては、例えば、画素XのRGB値や、前述したようなHOG特徴、エッジフィルタの出力値などを用いることができる。また、近隣画素の範囲は固定値として設定してもよいし、異なる複数のバンド幅のガウシアンフィルタによる出力値から、データによって範囲を設定してもよい。さらに、位置Xの画像座標系における座標値を位置情報として特徴量にしてもよい。本実施形態は、局所特徴として用いられる特徴量の種類によって特に限定されるものではない。
位置Xにおける特徴量F(I,R,X)は、以下の数式1に示すように、位置Xにおける特徴量F(I,R,X)が、大域特徴量F_G(I,R)と局所特徴量F_L(I,X)とを結合させたものであるであり、図4では400として示されている。
図2(a)に戻ると、パラメータ設定ステップS1300では、特徴抽出ステップS1200にて抽出された特徴量から、分割対象領域を小領域分割するための制御パラメータを設定する。パラメータ設定ステップS1300は、パラメータ設定部1300による処理に相当する。ステップS1300において、パラメータ設定部1300は、まず設定関数記憶部3200から設定関数gを読み出す。設定関数gは、後述する学習処理によって得られるものである。そして、特徴抽出ステップS1200で得られた特徴量F(I,R,X)を、数式 2で示される設定関数gに入力することによって、後述する小領域分割処理で用いる制御パラメータθ(I,X)を設定する。
ここで、制御パラメータθは、使用する小領域分割手法によって定義されるものである。例えば、クラスタリングベースの小領域分割手法であるSLICの場合では、画素X_i=(x_i,y_i)と小領域中心画素X_k=(x_k,y_k)間の距離基準として、以下のような値D_i,kが用いられる。
ここで、画素X_iおよび小領域中心画素X_kのCIELAB表色系における画素値が、それぞれV_i=(l_i,a_i,b_i)およびV_k=(l_k,a_k,b_k)で与えられている。また、N_Rは、分割対象領域Rの画素数である。SLICには小領域の数を制御するパラメータK、位置差と色差の影響度に関するバランスを制御するパラメータmがあるため、θ=[K,m]となる。さらに、本実施形態による制御パラメータ設定をより効果的に行うためには、小領域分割に用いる特徴量に関する重みを制御パラメータに含めることが望ましい。上記SLICの場合であれば、例えば、以下のようにd_labおよびd_xyにおける各要素に重み付けしてもよい。
図2(a)に戻ると、小領域分割ステップS1400では、パラメータ設定ステップS1300にて設定された制御パラメータを用いて、入力画像Iの分割対象領域Rに対する小領域分割処理が行われる。ここで、小領域分割ステップS1400は、小領域分割部1400による処理に相当する。ここでは、先の例に挙げたSLICを用いた場合の詳細ついて説明をする。まず、位置Xにおいて、数式2による設定関数で設定された制御パラメータθ(I,X)を以下のように表わすとする。
分割対象領域Rにおける画素数がN_Rであるとき、N_R/K(I,X)は画素Xの含まれる小領域における画素数の期待値を表わしている。そこで、分割対象領域R内の画素X_iが小領域中心となる確率をその逆数で表わし、その確率値に沿って初期小領域中心を生成する。
分割対象領域Rにおける全ての画素の属する小領域を決定した後、各小領域k内における輝度勾配の最も小さくなる画素を、新しい小領域中心X_kに更新する。更新前の小領域中心位置をX_k^oldとしたとき、小領域中心の総移動量Eは以下のように表わされる。
ここでは、SLICによる小領域分割処理を用いた例を挙げたが、本実施形態は使用される小領域分割処理の種類によって特に限定されるものではない。また、ここで説明したSLICによる例では、クラスタリング距離判定に用いる画素特徴量をCIELAB表色系における輝度値としたが、特徴量もこれに限定されるものでもない。RGBやHSVなどの別表色系における輝度値でもよいし、LBPやGaborフィルタのような特徴量を用いてもよい。
次に、上述したパラメータ設定ステップS1300にて使用する設定関数gを生成するための、学習時の処理の詳細について説明する。図3は、各実施形態に関わる学習時の処理の詳細を示すフローチャートであり、図3(a)が本実施形態に係るフローチャートである。まず、学習データ設定ステップS2100では、設定関数gを学習するための入力信号である特徴量と、出力信号の教師データであるパラメータの組を設定する。ここで、学習データ設定ステップS2100は、学習データ設定部2100における処理に相当する。学習データ設定ステップS2100は、学習画像特徴抽出ステップS2110、学習画像小領域分割ステップS2120、および教師データ設定ステップS2130に細分される。
学習画像特徴抽出ステップS2110では、学習データ記憶部3100から学習画像を順次読み込み、ランタイム時における特徴抽出ステップS1200と同様にして、各学習画像の大域特徴量と局所特徴量を抽出する。学習画像の総枚数をN、学習画像のインデックスをn(=1,,,N)とし、n番目の学習画像I_nにおける分割対象領域をR_nとする。学習画像I_nにおける大域特徴量はF_G(I_n,R_n)、I_nにおける位置X(X∈R_n)に関する局所特徴量はF_L(I_n,X)で表わされる。大域特徴量F_G(I_n,R_n)と局所特徴量F_L(I_n,X)を結合した特徴量はF(I_n,R_n,X)で表わされる。
次に、学習画像小領域分割ステップS2120では、異なる複数の制御パラメータの候補を用いて、各学習画像に対する小領域分割を行う。また、ここで用いられる小領域分割手法は、ランタイム時に使用するものと同じアルゴリズムによる手法であるとする。ここでは、ランタイム時の実施形態の例に従ってSLICを用いて説明する。なお、パラメータθは数式8で定義されているものとする。また、パラメータのバリエーションとして、例えば、小領域の数およびバランスを制御するパラメータをK=2,3,5,10、m=5,10,20という範囲に設定する。輝度値比較に関する重みは、w_l=0.5,1.0,1.5、w_a=0.5,1.0,1.5、w_b=0.5,1.0,1.5という範囲に設定する。位置比較に関する重みはw_x=1.0,1.5、w_y=1.0,1.5という範囲に設定する。これらのパラメータの組み合わせをそれぞれθ_τ(τ=1,,,T)とする。ここで、Tはパラメータの組み合わせ総数であって、ここでは、T=4×3×3×3×3×2×2=1296である。全ての学習画像I_n(n=1,,,N)に対して、パラメータθ_τ(τ=1,,,T)を設定した状態で小領域分割を行う。パラメータθ_τのときに、画像I_nに対する小領域分割結果として、K_nτ個の小領域が生成されたとし、それぞれの小領域はSP_k(k=1,,,K_nτ)と表わされるものとする。
教師データ設定ステップS2130では、学習小領域分割ステップS2120で行われた、学習画像に対する小領域分割結果を評価し、学習に用いる教師データを設定する。そのため、まず学習データ記憶部3100から正解データを読み込む。図5は、学習画像と正解データを説明する図である。ここで正解データとは、図 5(a)のような学習画像800に対して、最終的に獲得したい所望の領域ラベルが、図 5(b)における810のように、画像の各画素に対して付与されているものである。正解データの領域ラベルは、MSRC−21データセットなどで一般的に用いられているような、空(sky)、人物(body)、建物(building)といった意味的なラベルで与えられていてもよい。あるいは、平坦領域、テクスチャ領域といった見た目の違いによるラベルで与えられていてもよい。ここで、学習画像I_n(n=1,,,N)に対応する正解データを、GT_n(n=1,,,N)とする。正解データGT_nが、N_r個の正解領域に分けられていたとし、それぞれの正解領域のインデックスをr(r=1,,,N_r)で表わす。インデックス付けされた正解領域はS_rで表わされるものとする。そして、学習画像I_nに対する、パラメータθ_τによる小領域分割結果について、画素Xにおける分割結果の正当性を正解データGT_nを用いて評価する。なお、全ての学習画像I_nの、全てのパラメータθ_τ、全ての画素Xに関する評価を行ってもよいが、データ数が多くなる場合には、適当にサンプリングして評価するようにしてもよい。
ここで、学習画像I_nの画素Xが含まれる正解領域のインデックスをr(X)と表わすとする。なお、説明の簡略化のため、I_nの表記は省略している。同様にして、画素Xが含まれる小領域のインデックスをk(X)と表わす。位置Xの含まれる正解領域と小領域はそれぞれS_r(X)およびSP_k(X)と表わされる。図6は、正解データを用いた小領域分割結果の評価の方法について説明する図である。同図において、正解データ850において位置Xが画素870で表わされているとき、画素870の含まれる正解領域820がS_r(X)である。また、小領域分割結果860において位置Xが画素880で表わされているとき、画素880の含まれる小領域830がSP_k(X)である。画素Xに関する類似度評価値U(X)は、得られた小領域SP_k(X)が正解領域S_r(X)に対してどのくらい類似しているかを表わす値である。類似度評価値U(X)は様々な形態が考えられるが、例えば、以下の数式13のように、その積集合と和集合の面積比を類似度評価値U(X)として算出することができる。
ここで、学習画像I_nの画素Xが含まれる正解領域のインデックスをr(X)と表わすとする。なお、説明の簡略化のため、I_nの表記は省略している。同様にして、画素Xが含まれる小領域のインデックスをk(X)と表わす。位置Xの含まれる正解領域と小領域はそれぞれS_r(X)およびSP_k(X)と表わされる。図6は、正解データを用いた小領域分割結果の評価の方法について説明する図である。同図において、正解データ850において位置Xが画素870で表わされているとき、画素870の含まれる正解領域820がS_r(X)である。また、小領域分割結果860において位置Xが画素880で表わされているとき、画素880の含まれる小領域830がSP_k(X)である。画素Xに関する類似度評価値U(X)は、得られた小領域SP_k(X)が正解領域S_r(X)に対してどのくらい類似しているかを表わす値である。類似度評価値U(X)は様々な形態が考えられるが、例えば、以下の数式13のように、その積集合と和集合の面積比を類似度評価値U(X)として算出することができる。
学習画像I_nを制御パラメータθ_τで小領域分割した場合に、画素Xに関して評価した評価値をU(I_n,X,τ)と表わすとする。このとき、学習画像I_nの画素Xに関する制御パラメータの教師データθ_T(I_n,X)は、類似度評価値が最大になるパラメータとして設定される。
次に、学習ステップS2200では、学習画像特徴抽出ステップS2110において抽出された学習画像の大域特徴量、局所特徴量、および教師データ設定ステップS2130で設定された教師データを用いて、設定関数gを学習する。ここで、学習ステップS2200は、学習部2200における処理に相当する。ここで、学習画像I_nに関して、分割対象領域R_n内のそれぞれの画素Xに対する特徴量F(I_n,R_n,X)が、学習画像特徴抽出ステップS2110にて抽出されている。これに対応する教師データはθ_T(I_n,X)である。そこで、この学習データの組に対して関数g下記のようになるように学習を行う。
ここで、設定関数gは回帰学習によって得ることができる。回帰学習の手法としては、SVR(Support Vector Regression)や回帰木(Regression Tree)など、様々な公知手法があるが、本実施形態は特定の手法に限定されるものではない。また、設定関数gはテーブル参照として設定してもよい。学習して得られた設定関数gは設定関数記憶部3200に記憶される。
なお、設定関数gは構造学習によって学習させることもできる。この場合、数式15および数式16にて得られた教師データθ_T(I_n,X)は正事例として与えられ、それ以外のパラメータは負事例として与えられる。また、数式2におけるスコア関数gの形式は、以下のように書き換えられる。
このようにして学習することにより、画像から得られた特徴量に対する適した制御パラメータを得ることができる。そして、学習された設定関数gを用いて入力画像に対して適した制御パラメータを推定し、小領域分割を行うことで、より所望の物体形状に近く、かつ意味的領域の境界を正しく分離することが期待できる。特に、大域特徴量を利用することで、分割対象領域内の特性を得ることができるため、コントラストの強弱や全体的な色味などによる制御パラメータ適正値の変化に対応することができる。また、局所特徴量を利用することで、画像内の被写体における特徴の部分的な違いに対応した制御パラメータの変化に対応することができる。
[第2の実施形態]
第2の実施形態では、画像の解像度を変えながら小領域分割を段階的に行う手法を説明する。なお、第1の実施形態において既に説明をした構成については、同一の符号を付し、その説明を省略する。本実施形態の画像処理装置は、第1の実施形態で説明した画像処理装置の構成に加えて、入力画像の解像度を変換して、異なる複数のサイズの入力画像を生成する生成部を更に有するものである。まず、図 2(b)、図 7および図 8に従ってランタイム時の処理の詳細について説明する。
第2の実施形態では、画像の解像度を変えながら小領域分割を段階的に行う手法を説明する。なお、第1の実施形態において既に説明をした構成については、同一の符号を付し、その説明を省略する。本実施形態の画像処理装置は、第1の実施形態で説明した画像処理装置の構成に加えて、入力画像の解像度を変換して、異なる複数のサイズの入力画像を生成する生成部を更に有するものである。まず、図 2(b)、図 7および図 8に従ってランタイム時の処理の詳細について説明する。
図2(b)は、本実施形態に係るランタイム時の処理の詳細を示すフローチャートである。画像設定ステップS1100では、第1の実施形態と同様にして、小領域分割する対象となる入力画像Iが設定される。次に、画像解像度変換ステップS1500では、上述した生成部が、入力画像Iに対して異なる複数の解像度に変換した画像を生成する。図7は、画像解像度変換ステップS1500の処理により生成される画像ピラミッドを説明する図である。入力画像Iは、図 7のようにして、まず半分のサイズに縮小され、次にその半分のサイズ、更にその半分のサイズというように解像度の低い画像へと変換される。これは、一般に画像ピラミッドと呼ばれる。入力画像100に対して、L段のピラミッド画像を生成したとき、l番目に解像度の低い画像をI_lと表わす。例えば、入力画像Iが128×256画素でL=4段の画像ピラミッドを生成すると、最も解像度の低い画像110であるI_1は16×32画素、I_2は32×64画素、I_3は64×128画素となる。そして、I_4は入力画像Iと等しくなる。
特徴抽出ステップS1200、パラメータ設定ステップS1300、および小領域分割ステップS1400は、図 2(b)に示すように画像ピラミッドの解像度を変更しながら繰り返し行われる。特徴抽出ステップS1200は、第1の実施形態と同様にして、分割対象領域設定ステップS1210、大域特徴抽出ステップS1220および局所特徴抽出ステップS1230に細分される。
まず、最初の繰り返しにおける各ステップの処理を説明する。分割対象領域設定ステップS1210では、最も解像度の低い画像I_1の画像全体を、初期分割対象領域R_1として設定する。図8は、本実施形態における小領域分割ステップの処理を示す概略図である。同図において、最も解像度の低い画像I_1の画像が110、初期分割対象領域R_1が210として示されている。次に、大域特徴抽出ステップS1220では、初期分割対象領域R_1から、第1の実施形態と同様にして大域特徴量F_G(I_1,R_1)を抽出する。
そして、局所特徴抽出ステップS1230では、第1の実施形態と同様にして、初期分割対象領域R_1における各位置X_1(X_1∈R_1)から得られる局所特徴量F_L(I_1,X_1)を抽出する。大域特徴量F_G(I_1,R_1)と局所特徴量F_L(I_1,X_1)を結合した特徴量はF(I_1,R_1,X_1)となる。この特徴量F(I_1,R_1,X_1)は、図 8において410として示されている。
続いて、パラメータ設定ステップS1300では、まず設定関数記憶部3200から1回目の繰り返しにおける設定関数g_1を読み込む。設定関数g_1は、後述する学習処理にて得られているものである。そして、以下の数式19に示すように、設定関数g_1に特徴量F(I_1,R_1,X_1)を入力し、初期入力画像I_1の各位置X_1に関する制御パラメータθ(I_1,X_1)を推定する。この制御パラメータは、図 8では510として示されている。
続いて、パラメータ設定ステップS1300では、まず設定関数記憶部3200から1回目の繰り返しにおける設定関数g_1を読み込む。設定関数g_1は、後述する学習処理にて得られているものである。そして、以下の数式19に示すように、設定関数g_1に特徴量F(I_1,R_1,X_1)を入力し、初期入力画像I_1の各位置X_1に関する制御パラメータθ(I_1,X_1)を推定する。この制御パラメータは、図 8では510として示されている。
小領域分割ステップS1400では、初期入力画像I_1の各位置X_1に関する制御パラメータθ(I_1,X_1)を用いて、所定の小領域分割手法にて小領域分割を行う。図8には、初期入力画像に対して小領域分割処理610を行った小領域分割結果の例710を示す。以降、画像解像度を一段ずつ上げながら、特徴抽出ステップS1200、パラメータ設定ステップS1300、および小領域分割ステップS1400を繰り返し行う。以下、繰り返しl回目の各ステップの処理について説明する。
分割対象領域設定ステップS1210では、一つ前の繰り返しにおける小領域分割結果を基に、分割対象領域を設定する。例えば、一つ前の小領域分割ステップS1400で、画像I_l−1がN_s個の小領域に分割されたとする。これらをI_lの解像度に直したものを、N_s個の分割対象領域R_(l,s)(s=1,,,N_s)として設定する。ここで、図8を用いてl=2回目の繰り返しについて例を示すと、l−1=1回目の小領域分割結果710で画像I_1はN_s=2個の小領域に分割されている。そのため、l=2回目の繰り返し処理においては、画像I_2に対して2つの分割対象領域R_(2,1)221およびR_(2,2)222を設定する。
大域特徴抽出ステップS1220では、画像I_lにおける各分割対象領域R_(l,s)(s=1,,,N_s)から大域特徴量F_G(I_l,R_(l,s))を抽出する。続く局所特徴抽出ステップS1230では、画像I_lにおける各分割対象領域R_(l,s)内の各位置X_(l,s)(X_(l,s)∈R_(l,s))から、1回目のステップと同様にして、局所特徴量F_L(I_l,X_(l,s))を抽出する。そして、画素X_(l,s)に対応する、一つ前の繰り返しにおける画素をX(X_(l,s))としたとき、以下の数式20のように、局所特徴量F_L(I_l,X_(l,s))に更にX(X_(l,s))における局所特徴量を追加する。
パラメータ設定ステップS1300では、設定関数記憶部3200からl回目の繰り返しにおける設定関数g_lを読み込む。設定関数g_lは、後述する学習処理にて得られているものである。各分割対象領域R_(l,s)(s=1,,,N_s)内の各位置X_(l,s)(X_(l,s)∈R_(l,s))における制御パラメータを、以下に示すパラメータ設定関数g_lを用いて設定する。
図8では、分割対象領域R_(2,1)221に対する制御パラメータθ(I_l,X_(2,1))は521、分割対象領域R_(2,2)222に対する制御パラメータθ(I_l,X_(2,2))は522として表わされている。
小領域分割ステップS1400では、画像I_lの各分割対象領域R_(l,s)内の各位置X_(l,s)に関する制御パラメータθ(I_l,X_(l,s))を用いて、所定の小領域分割手法にて小領域分割を行う。図8では、分割対象領域R_(2,1)を、制御パラメータθ(I_l,X_(2,1))521に従った小領域分割処理621で分割することが示されている。同様に、分割対象領域R_(2,2)を、制御パラメータθ(I_l,X_(2,2))522に従った小領域分割処理622で分割することも示されている。画像I_lが元の解像度である入力画像Iと同じであれば、繰り返し処理を抜け、ランタイム時の処理である小領域分割を終了する。
次に、図3(b)を参照しつつ、本実施形態の学習時の処理の詳細について説明する。図3(b)は、本実施形態に係る学習時の処理の詳細を示すフローチャートである。まず、学習画像解像度変換ステップS2500では、学習データ記憶部3100から学習画像を読み込み、ランタイム時の画像解像度変換ステップS1500と同様にして、全ての学習画像の画像ピラミッドを生成する。学習画像I_n(n=1,,,N)を変換したときのl番目に解像度の低い画像をI_(n,l)と表わすものとする。
学習データ設定ステップS2100は、図 3(b)に示すように画像ピラミッドの解像度を変更しながら繰り返し行われ、各解像度の画像に対するパラメータ設定関数g_l(l=1,,,N)を生成する。学習データ設定ステップS2100は、学習画像特徴抽出ステップS2110、学習画像小領域分割ステップS2120、および教師データ設定ステップS2130に細分される。まず、最初の繰り返しにおける各ステップに関する処理を説明する。
学習画像特徴抽出ステップS2110では、学習画像解像度変換ステップS2500において生成された学習画像の画像ピラミッドにおける、最も解像度の低い学習画像から大域特徴量と局所特徴量を抽出する。特徴量の抽出に関しては、ランタイム時の処理における特徴抽出ステップと同様であるため、詳細な説明は省略する。学習画像I_nの分割対象領域R_nにおける画素Xから得られた特徴量はF(I_(n,1),R_n,X)と表わされる。
学習画像小領域分割ステップS2120では、学習画像の画像ピラミッドにおける全ての画像に対して、第1の実施形態と同様の処理にて小領域分割を行う。次に、教師データ設定ステップS2130において、第1の実施形態と同様にして、学習画像小領域分割ステップS2120における小領域分割結果と正解データにおける正解領域との類似度評価値を算出する。そして、その類似度評価値が最大になるパラメータを以下のように教師値θ_t(I_(n,1),X)として設定する。
続いて、学習ステップS2200では、設定された教師データを用いて、第1の実施形態と同様に設定関数g_1を学習する。すなわち、関数g_1が上記学習データの組に対して以下の数式25になるように学習を行う。
以降、学習画像の解像度を一段ずつ上げながら学習データ設定ステップS2100、学習ステップS2200を繰り返し行う。以下、繰り返しl回目の各ステップの処理に関して説明する。
学習画像特徴抽出ステップS2110では、各画像I_(n,l)について、一つ前の繰り返しにおいて教師値として選ばれたパラメータを用いた小領域分割結果から、分割対象領域を設定する。一つ前の学習画像小領域分割ステップS2120にて、教師値θ_t(I_(n,l−1),X)を用いて画像I_(n,l−1)を分割した結果、N_t個の領域に分割されたとする。これらをI_(n,l)の解像度に直したものを、N_t個の分割対象領域R_(n,l,t)(t=1,,,N_t)として設定する。また、各分割対象領域R_(n,l,t)から大域特徴量F_G(I_(n,l),R_(n,l,t))と、その分割対象領域内における局所特徴量F_L(I_(n,l),X_l)を抽出する。そして、画素X_lに対応する、一つ前の繰り返しにおける画素をX(X_l)としたとき、以下のように、局所特徴量F_L(I_(n,l),X_l)にX(X_l)における局所特徴量を追加する。
学習画像小領域分割ステップS2120では、学習画像の画像ピラミッドにおける全ての画像に対して、第1実施形態と同様の処理にて小領域分割を行う。また、教師データ設定ステップS2130では、1回目の繰り返しと同様にして、教師値θ_T(I_(n,l),X)を設定する。
学習ステップS2200では、設定された教師データを用いて、1回目の繰り返しと同様にして、設定関数g_lを学習する。すなわち、関数g_lが上記学習データの組に対して以下の数式30となるように学習を行う。
設定関数g_1は、第1の実施形態と同様にして、回帰学習にて得ることができる。学習して得られた設定関数g_1は、設定関数記憶部3200に記憶される。繰り返しl回目の学習画像I_(n,l)が、元の解像度であるI_nと同じであれば繰り返し処理を抜け、学習処理を終了する。
以上のように、本実施形態によれば、各解像度に対して学習された設定関数g_lを用いて、画像ピラミッドを利用して段階的に小領域分割を行うことで、より画像の部分的な特徴に従った小領域が得られることが期待できる。また、本実施形態では、画像ピラミッドによる小領域分割を行い、低解像度の画像における小領域分割結果を利用して分割対象領域を設定している。そのため、画像中のそれぞれの場所による条件の違いに対して、おのおの制御パラメータを設定することができる。
[第3の実施形態]
第3の実施形態では、物体検出器を利用して、その検出結果を用いて小領域分割のパラメータを設定する手法を説明する。なお、第1、第2の実施形態において既に説明をした構成については同一の符号を付し、その説明は省略する。本実施形態の画像処理装置は、第1の実施形態で説明した画像処理装置の構成に加えて、入力画像から所定の物体を検出する物体検出部を更に有するものである。まず、ランタイム時の処理の詳細について、図2(c)および図 9を参照しつつ説明する。
第3の実施形態では、物体検出器を利用して、その検出結果を用いて小領域分割のパラメータを設定する手法を説明する。なお、第1、第2の実施形態において既に説明をした構成については同一の符号を付し、その説明は省略する。本実施形態の画像処理装置は、第1の実施形態で説明した画像処理装置の構成に加えて、入力画像から所定の物体を検出する物体検出部を更に有するものである。まず、ランタイム時の処理の詳細について、図2(c)および図 9を参照しつつ説明する。
図2(c)は、本実施形態に係るランタイム時の処理の詳細を示すフローチャートである。画像設定ステップS1100では、第1の実施形態と同様にして、小領域分割する対象となる入力画像Iが設定される。次に、物体検出ステップS1600で、上述した物体検出部は、入力画像Iに対して物体検出器を用いて物体を検出する。ここでは、物体検出器の一例として、人体を検出するための人体検出器を利用する場合を例に説明する。なお、本実施形態は、検出する物体の対象は特に人体に限定されるものではない。人体検出手法としては、周知の種々の手法を採用することができるが、ここでは、非特許文献4におけるPoseletsを利用した場合について説明する。
非特許文献4に開示される手法では、関節位置などで表わされる人物の様々なキーポイントの、関節角などで表わされる様々な姿勢を、poselet検出器としてクラス判別して出力する。なお、poselet検出器の学習に関しては後述する。あるキーポイントXにおける、poselet検出器のクラスiに関するスコアはa_i(X)で表わされる。学習データから得られている人体の中心位置とキーポイントの相対位置ベクトルをX_iとすると、位置X_cにおける物体検出スコアSCORE(X_c)は、poselet検出器からの重み付き投票として、以下の数式31のように表わされる。
ここでw_iは、poselet検出器のクラスiに関する投票重み係数であって、後述する学習によって得られるものである。同一のキーポイントを表しているposelsetクラスの中で、最も重み付き投票値の大きなものを人体におけるキーポイントとして検出する。図9には、人体においてキーポイントとなる特定の位置の例を示しており、例えば図9の場合では、頭部901、胴体中心902、右肘903、左肘904、右膝905、左膝906といった、人体上の特定の位置をキーポイントとして検出することができる。検出されたキーポイントの総数をK_p、インデックスをp(p=1,,,K_p)とし、キーポイントpにおけるposelet検出器の出力クラスをc_pとする。そして、各キーポイントを基準として得られたバウンディングボックス911〜916の和集合を取れば、人体全体の包含領域920を得ることができる。なお、入力画像Iに複数の人物が写っている場合には、各キーポイントが複数検出される場合もあることは言うまでもない。
図2(c)の説明に戻ると、特徴抽出ステップS1200は、第1の実施形態と同様にして、分割対象領域設定ステップS1210、大域特徴抽出ステップS1220および局所特徴抽出ステップS1230に細分される。分割対象領域設定ステップS1210では、物体検出結果として得られた包含領域920をまず分割対象領域として設定する。図11は、本実施形態における分割対象領域の設定方法を説明する図である。同図に示されるように、本実施形態では、入力画像は包含領域920を切り出した領域921と、その背景部分922に分割され、それぞれが分割対象領域として設定される。物体検出器で得られた物体包含領域が複数あれば、それらを別々の分割対象領域として設定する。物体包含領域外の領域に関しては、第1の実施形態と同様にして分割対象領域を設定する。ここで、分割対象領域の総数がN_s個だったとし、各分割対象領域をR_s(s=1,,,N_s)と表わすこととする。
次に、大域特徴抽出ステップS1220では、各分割対象領域から大域特徴量を抽出する。大域特徴量の抽出に関しては、第1および第2の実施形態と同様なため、詳細な説明は省略する。各分割対象領域R_sから得られた大域特徴量をF_G(I,R_s)と表わすものとする。
局所特徴抽出ステップS1230では、各分割対象領域内の各位置X_s(X∈R_s)から得られる局所特徴量F_L(I,X_s)を抽出する。局所特徴量F_Lには、第1の実施形態で説明したような特徴量に加え、検出物体に関する事前分布を特徴量として加える。ここで、検出物体の事前分布とは、物体が検出された場合に、どの範囲までその物体の領域であるかを表す確率を表すものである。図10は、検出物体の事前分布の一例を示す図である。同図では、物体の包含領域920において、物体領域事前分布は1400のように等高線によって示されている。この物体領域事前分布は、各キーポイントに対応する事前分布を統合して得られるもので、具体的には以下のようにして算出する。
まず、各分割対象領域R_s内で検出された、キーポイントpのバウンディングボックスに対して、その内部における事前分布Pr(X―X_p;c_p)が与えられているとする。ここでX_pはキーポイントpの位置である。図10の例では、頭部事前分布1401、胴体事前分布1402、右肘事前分布1403、左肘事前分布1404、右膝事前分布1405、左膝事前分布1406として図示されている。これら各キーポイントに関する事前分布は、後述する事前分布算出ステップS2700にて事前に得られているものである。このとき、分割対象領域R_s内の位置X_sにおける物体領域事前分布Pr(X_s)を以下のように表わす。
ここでは、式の簡略化のため、c_pをcpと記載した。ここで、w_cpはキーポイントpに関する投票重みで、a_cp(X_p)はキーポイントpのposelet判別器のスコアである。分割対象領域R_sが、物体検出されていない領域の場合、Pr(X_s)=0となる。そして、この値Pr(X_s)を以下のように局所特徴量F_L(I,X_s)の一要素として加える。
なお、物体検出器が複数種類の物体に対応したマルチクラス検出器である場合には、そのクラスラベルを局所特徴量F_Lの要素として追加してもよい。例えば、人体、犬、猫、自動車を検出するような4クラス検出器であったときに、4次元のバイナリベクトルをクラスラベル特徴として局所特徴量F_Lの要素として追加してもよい。そして、大域特徴量F_G(I,R_s)と局所特徴量F_L(I,X_s)を結合した特徴量は、以下の数式34で表わされるF(I,R_s,X_s)となる。
図2(c)に戻り、パラメータ設定ステップS1300では、特徴抽出ステップS1200において抽出された特徴量から、分割対象領域を小領域分割するための制御パラメータを設定する。まず、設定関数記憶部3200から、後述する学習処理によって得られる設定関数gを読み出す。そして、以下のように、特徴量F(I,R_s,X_s)を設定関数gに入力することによって、小領域分割処理で用いる制御パラメータθ(I,X_s)を設定する。
小領域分割ステップS1400に関しては、第1の実施形態と同様であるため、その説明は省略する。以上が、本実施形態に係るランタイム時の処理の詳細となる。次に、学習時の処理について、図 3(c)、図 12および図 13を参照しつつ説明する。
図3(c)は、本実施形態に係る学習時の処理の詳細を示すフローチャートである。まず、物体検出器生成ステップS2600にて、学習データ設定部2100は、物体検出ステップS1600で使用する物体検出器を生成する。本実施形態では、上述したposelet検出器を利用する場合について説明する。学習データ記憶部3100に記憶されている学習画像には、第1の実施形態で説明されたような正解データとは別に、人体の写っている学習画像に対して関節などのキーポイントの位置が3次元データとして対応付けられている。
図12は、poselet検出器におけるキーポイントの割当てを説明する図である。図12(a)に示される学習画像の頭部キーポイント931と、胴体キーポイント932は、図12(b)における3次元モデル上の点941と点942に対応づけられている。各キーポイントを中心とした3次元空間上での姿勢空間でクラスタリングを行い、また局所的に類似した姿勢(例えば曲げている肘)を一つのposeletクラスとして扱う。これにより、学習画像から各キーポイント周辺の部分画像をposelet検出器学習用の部分画像として切り出す。これら部分画像のHOG特徴から様々な姿勢を判別する識別器を線形SVMで学習する。これをposelet検出器と呼び、位置Xにおける、クラスiに関するposelet検出器の出力スコアをa_i(X)と表わすものとする。学習データに対してこれらのposelet検出器を用いたときに得られる、スコアの重み付き投票の重み係数w_iをM2HT(Max Margin Hough Transform)で学習することで物体検出器が生成される。詳細な説明は、非特許文献4に記載されているため、ここでは省略する。
物体検出手法として、本実施形態ではposeletを例に挙げて説明をしたが、前述したように他の手法を用いてもよい。例えばDPM(Deformable Part Model)や、HOG特徴を使ったSVMによる人体検出器など種々の手法を用いることができ、本実施形態は特定の手法に限定されるものではない。また、顔領域を切り出すことが目的であれば、特許文献5に代表されるような既存の顔検出手法を用いるようにしてもよい。
物体領域事前分布算出ステップS2700で、学習データ設定部2100は、学習データにおける正解データと、物体検出器生成ステップS2600におけるクラスタリング結果との対応により物体領域事前分布を取得する。図13は、マスク画像を取得する方法を説明する図である。図13(a)では、ある学習画像1000におけるキーポイント1001に対して、その切り出し領域1011が与えられている様子を示している。また、図13(b)には、学習画像1000に対応する正解データ1100において、各領域にラベルが与えられている様子を示している。本実施形態では、学習画像上の切り出し領域1011に対応する領域1111の中で人物ラベルが与えられている領域を物体マスク領域とし、切り出し領域1011に対して図13(c)で示すようにマスク画像1200を得る。ここで、図中の領域1201は物体マスク領域であり、領域1202は物体外領域である。各学習画像の各キーポイント周りからこのようなマスク画像を切り出し、物体検出器生成ステップS2600のクラスタリング結果に従ってこれらのマスク画像をposeletクラスごとに平均することで、物体領域事前分布Prを算出する。ここでは、同一のposeletクラスcに対応するマスク画像がM個得られたとし、マスク画像のインデックスをm=1,,,Mとする。
図14は、物体領域の事前分布の取得方法の概要を示す概略図である。同図には、M個のマスク画像がマスク画像集合1310で表わされている。このとき、poseletクラスcの、キーポイント位置を中心とした正規化座標X_nに関する物体領域事前分布Pr(X_n;c)は、以下のようにして得られる。
ここでv_m(X_n)は、マスク画像mにおける正規化座標X_nの位置が物体マスク領域であれば1、物体外領域であれば0の値をとる。図14の例では、マスク画像集合1310の平均として物体領域事前分布1300が得られている。この図では、物体領域事前分布1300は、その事前分布が等高線で表わされている。
次に、学習画像物体検出ステップS2800では、物体検出器生成ステップS2600にて生成された物体検出器を全学習画像に用いて、各学習画像に対する物体検出結果を得る。そして、ランタイム時の処理と同様にして、得られた物体検出結果に従って分割対象領域を設定する。続く学習データ設定ステップS2100は、学習画像特徴抽出ステップS2110、学習画像小領域分割ステップS2120、および教師データ設定ステップS2130に細分される。
学習画像特徴抽出ステップS2110では、全ての学習画像の各分割対象領域から大域特徴量と局所特徴量を抽出する。大域特徴量の抽出に関しては、第一の実施形態と同様なため、詳細な説明は省く。局所特徴量の抽出時には、学習画像物体検出ステップS2800で得られた物体検出結果に基づき、ランタイム時の局所特徴抽出ステップS1230と同様にして、局所特徴量を算出する。これにより、学習画像I_n中の画素Xが含まれる分割対象領域をR(n,X)とすると、画素Xにおける特徴量はF(I_n,R(n,X),X)と表わすことができる。
学習画像小領域分割ステップS2120に関しては、第1の実施形態と同様の処理であるため、詳細な説明は省く。次に、教師データ設定ステップS2130では、学習画像小領域分割ステップS2120において学習画像に対して異なる複数の制御パラメータによって実行された小領域分割結果と、正解データとの類似度評価値とを算出する。そして、これらに基づいて制御パラメータの教師データを設定する。類似度評価値の算出は、第1の実施形態と同様にして、数式13もしくは数式14により求める。また、制御パラメータの教師データθ_T(I_n、X)は、第1の実施形態と同様にして、数式15および数式16に従って類似度評価値が最大となるパラメータを選択する。前記学習画像特徴抽出ステップS2110にて得られた、学習画像I_nの画素Xにおける特徴量F(I_n,R(n,X),X)に対する教師データは、θ_T(I_n、X)である。すなわち、関数gが上記学習データの組に対して以下の数式37となるように学習を行う。
学習ステップS2200では、学習データ設定ステップS2100にて得られた学習データを用いて、設定関数を学習する。学習ステップS2200の処理内容に関しては、第1の実施形態と同様な処理であるため、詳細な説明は省く。
以上、本実施形態によれば、物体検出結果から得られる物体領域の事前分布を局所特徴として利用して適切な小領域分割パラメータを学習することで、物体と推定される領域とそうでない領域との小領域分割パラメータを変えることができる。これにより、物体の形状により近い小領域分割結果を得ることが期待できる。
[その他の実施形態]
また、本発明は、上記実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
また、本発明は、上記実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
1100 画像設定部
1200 特徴抽出部
1300 パラメータ設定部
1400 小領域分割部
2100 学習データ設定部
2200 学習部
1200 特徴抽出部
1300 パラメータ設定部
1400 小領域分割部
2100 学習データ設定部
2200 学習部
Claims (14)
- 入力画像の所定領域から第1の特徴量を抽出する第1の特徴抽出手段と、
前記入力画像における前記所定領域よりもサイズの小さい領域から第2の特徴量を抽出する第2の特徴抽出手段と、
前記抽出した第1の特徴量と第2の特徴量とに基づいて、前記入力画像を少なくとも1つの小領域に分割するために用いられるパラメータを設定する設定手段と、
前記設定したパラメータに基づいて、前記入力画像を少なくとも1つの小領域に分割する分割手段と、
を有することを特徴とする画像処理装置。 - 前記設定手段は、前記第2の特徴量を抽出した位置ごとに前記パラメータを設定することを特徴とする請求項1に記載の画像処理装置。
- 前記第1の特徴抽出手段は、前記入力画像の全体から前記第1の特徴量を抽出することを特徴とする請求項1または2に記載の画像処理装置。
- 前記第2の特徴抽出手段は、前記入力画像の画素ごとに前記第2の特徴量を抽出することを特徴とする請求項1から3のいずれかに1項に記載の画像処理装置。
- 前記設定手段は、予め学習された設定関数を用いて、パラメータを設定することを特徴とすることを特徴とする請求項1に記載の画像処理装置。
- 学習画像から抽出された前記第1の特徴量および第2の特徴量と、前記学習画像に対して設定されたパラメータとに基づいて、前記設定関数を学習する学習手段を更に有することを特徴とする請求項5に記載の画像処理装置。
- 前記学習画像から抽出された前記第1の特徴量および第2の特徴量と、前記学習画像に付与された正解データとに基づいて、前記学習画像に対するパラメータが設定されることを特徴とする請求項6に記載の画像処理装置。
- 前記学習画像から抽出された前記第1の特徴量および第2の特徴量と、異なる複数のパラメータの候補とを用いて、前記学習画像を分割した小領域と、前記学習画像に付与された正解データの領域との類似度に基づいて、前記学習画像に対して設定されるパラメータが決定されることを特徴とする請求項7に記載の画像処理装置。
- 前記類似度は、前記学習画像を分割した小領域と、前記学習画像に付与された正解データの領域との面積または輪郭に基づいて算出されることを特徴とする請求項8に記載の画像処理装置。
- 前記分割手段は、グラフベースまたはクラスタリングベースの手法により、前記入力画像を少なくとも1つの小領域に分割することを特徴とする請求項1から9のいずれかに1項に記載の画像処理装置。
- 前記入力画像から異なる複数のサイズの画像を生成する生成手段を更に有し、
前記第1の特徴抽出手段は、前記生成された異なる複数のサイズの画像から前記第1の特徴量を抽出し、
前記第2の特徴抽出手段は、前記生成された異なる複数のサイズの画像から前記第2の特徴量を抽出し、
前記設定手段は、前記抽出した前記異なる複数のサイズの画像に対応した第1の特徴量と第2の特徴量とに基づいて、前記異なる複数のサイズの画像を少なくとも1つの小領域に分割するために用いられるパラメータを設定し、
前記分割手段は、前記設定したパラメータに基づいて、前記異なる複数のサイズの画像を少なくとも1つの小領域に分割することを特徴とする請求項1から10のいずれか1項に記載の画像処理装置。 - 前記入力画像から所定の物体を検出する物体検出手段を更に有し、
前記第1の特徴抽出手段は、前記検出された所定の物体に対応する領域から前記第1の特徴量を抽出し、
前記分割手段は、前記抽出した第1の特徴量と第2の特徴量とに基づいて、前記所定の物体に対応する領域を少なくとも1つの小領域に分割するために用いられるパラメータを設定し、
前記分割手段は、前記設定したパラメータに基づいて、前記所定の物体に対応する領域を少なくとも1つの小領域に分割することを特徴とする請求項1から10のいずれか1項に記載の画像処理装置。 - 入力画像の所定領域から第1の特徴量を抽出する第1の特徴抽出ステップと、
前記入力画像における前記所定領域よりもサイズの小さい領域から第2の特徴量を抽出する第2の特徴抽出ステップと、
前記抽出した第1の特徴量と第2の特徴量とに基づいて、前記入力画像を少なくとも1つの小領域に分割するために用いられるパラメータを設定する設定ステップと、
前記設定したパラメータに基づいて、前記入力画像を少なくとも1つの小領域に分割する分割ステップと、
を有することを特徴とする画像処理方法。 - コンピュータを、請求項1から12のいずれか1項に記載の画像処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015234264A JP2017102622A (ja) | 2015-11-30 | 2015-11-30 | 画像処理装置、画像処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015234264A JP2017102622A (ja) | 2015-11-30 | 2015-11-30 | 画像処理装置、画像処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017102622A true JP2017102622A (ja) | 2017-06-08 |
Family
ID=59015408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015234264A Pending JP2017102622A (ja) | 2015-11-30 | 2015-11-30 | 画像処理装置、画像処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017102622A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019139618A (ja) * | 2018-02-14 | 2019-08-22 | キヤノン株式会社 | 情報処理装置、被写体の判別方法及びコンピュータプログラム |
CN110516620A (zh) * | 2019-08-29 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、存储介质及电子设备 |
JP2020060883A (ja) * | 2018-10-09 | 2020-04-16 | 富士通株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2020535897A (ja) * | 2017-10-02 | 2020-12-10 | プロマトン・ホールディング・ベー・フェー | 深層学習法を使用する3d歯データの自動分類および分類法 |
US11494957B2 (en) | 2018-04-26 | 2022-11-08 | Promaton Holding B.V. | Automated correction of metal affected voxel representations of x-ray data using deep learning techniques |
CN116433992A (zh) * | 2023-06-14 | 2023-07-14 | 电子科技大学中山学院 | 基于全局特征补全的图像分类方法、装置、设备及介质 |
-
2015
- 2015-11-30 JP JP2015234264A patent/JP2017102622A/ja active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7412334B2 (ja) | 2017-10-02 | 2024-01-12 | プロマトン・ホールディング・ベー・フェー | 深層学習法を使用する3d歯データの自動分類および分類法 |
US11568533B2 (en) | 2017-10-02 | 2023-01-31 | Promaton Holding B.V. | Automated classification and taxonomy of 3D teeth data using deep learning methods |
JP2020535897A (ja) * | 2017-10-02 | 2020-12-10 | プロマトン・ホールディング・ベー・フェー | 深層学習法を使用する3d歯データの自動分類および分類法 |
JP7077046B2 (ja) | 2018-02-14 | 2022-05-30 | キヤノン株式会社 | 情報処理装置、被写体の判別方法及びコンピュータプログラム |
JP2019139618A (ja) * | 2018-02-14 | 2019-08-22 | キヤノン株式会社 | 情報処理装置、被写体の判別方法及びコンピュータプログラム |
US11494957B2 (en) | 2018-04-26 | 2022-11-08 | Promaton Holding B.V. | Automated correction of metal affected voxel representations of x-ray data using deep learning techniques |
JP2020060883A (ja) * | 2018-10-09 | 2020-04-16 | 富士通株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2022526750A (ja) * | 2019-08-29 | 2022-05-26 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | オブジェクト追跡方法、オブジェクト追跡装置、コンピュータプログラム、及び電子機器 |
JP7305251B2 (ja) | 2019-08-29 | 2023-07-10 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | オブジェクト追跡方法、オブジェクト追跡装置、コンピュータプログラム、及び電子機器 |
CN110516620B (zh) * | 2019-08-29 | 2023-07-28 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、存储介质及电子设备 |
US11783491B2 (en) | 2019-08-29 | 2023-10-10 | Tencent Technology (Shenzhen) Company Limited | Object tracking method and apparatus, storage medium, and electronic device |
CN110516620A (zh) * | 2019-08-29 | 2019-11-29 | 腾讯科技(深圳)有限公司 | 目标跟踪方法、装置、存储介质及电子设备 |
CN116433992A (zh) * | 2023-06-14 | 2023-07-14 | 电子科技大学中山学院 | 基于全局特征补全的图像分类方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230117712A1 (en) | Feature density object classification, systems and methods | |
Ahmed et al. | Exploring deep learning models for overhead view multiple object detection | |
US11037291B2 (en) | System and method for detecting plant diseases | |
US7912253B2 (en) | Object recognition method and apparatus therefor | |
JP5726125B2 (ja) | 奥行き画像内の物体を検出する方法およびシステム | |
JP6050223B2 (ja) | 画像認識装置、画像認識方法、及び集積回路 | |
JP2017102622A (ja) | 画像処理装置、画像処理方法及びプログラム | |
Dalla Mura et al. | Classification of hyperspectral images by using extended morphological attribute profiles and independent component analysis | |
JP6330385B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
US10216979B2 (en) | Image processing apparatus, image processing method, and storage medium to detect parts of an object | |
JP4161659B2 (ja) | 画像認識システム及びその認識方法並びにプログラム | |
US8897575B2 (en) | Multi-scale, perspective context, and cascade features for object detection | |
US8175384B1 (en) | Method and apparatus for discriminative alpha matting | |
US8861881B2 (en) | Image processing apparatus, method thereof, program, and image capturing apparatus | |
CN110111338B (zh) | 一种基于超像素时空显著性分割的视觉跟踪方法 | |
JP2008310796A (ja) | コンピュータにより実施される、訓練データから分類器を構築し、前記分類器を用いてテストデータ中の移動物体を検出する方法 | |
Premachandran et al. | Perceptually motivated shape context which uses shape interiors | |
JP6702716B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP4098021B2 (ja) | シーン識別方法および装置ならびにプログラム | |
JP5574033B2 (ja) | 画像認識システム及びその認識方法並びにプログラム | |
JP6351243B2 (ja) | 画像処理装置、画像処理方法 | |
Kheirkhah et al. | A hybrid face detection approach in color images with complex background | |
CN108274476B (zh) | 一种人形机器人抓取球体的方法 | |
TWI731919B (zh) | 圖像識別方法與裝置及度量學習方法與裝置 | |
CN115063526A (zh) | 二维图像的三维重建方法、系统、终端设备及存储介质 |