JP2017102622A

JP2017102622A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2017102622A
Application number: JP2015234264A
Authority: JP
Inventors: 雅人青葉; Masahito Aoba
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2017-06-08

Abstract

【課題】画像およびその位置に適した小領域分割パラメータを設定できるようにすること。
【解決手段】本発明は、入力画像の所定領域から第１の特徴量を抽出する第１の特徴抽出手段と、前記入力画像における前記所定領域よりもサイズの小さい領域から第２の特徴量を抽出する第２の特徴抽出手段と、前記抽出した第１の特徴量と第２の特徴量とに基づいて、前記入力画像を少なくとも１つの小領域に分割するために用いられるパラメータを設定する設定手段と、前記設定したパラメータに基づいて、前記入力画像を少なくとも１つの小領域に分割する分割手段と、を有する。
【選択図】図１

Description

本発明は、画像をラベルごとの領域に分割するための技術に関する。

画像を複数の領域に分割する多くの研究が行われており、近年では、画像から人物の領域、自動車の領域、道路の領域、建物の領域、空の領域などの、意味的な領域を切り出す課題が盛んに研究されている。このような課題は、意味的領域分割（ＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ）と呼ばれ、写っている物の種類に対応した画像補正やシーン解釈などに応用できると考えられている。意味的領域分割を行うにあたり、画像の各位置に関するクラスラベルの判別を、画素単位ではなく、小領域（ｓｕｐｅｒｐｉｘｅｌ）単位で行うことは、すでに一般的である。小領域は、主に類似した特徴を持つ小さな領域として画像から切り出されるもので、様々な手法が提案されている。代表的なものとして、非特許文献１のようなグラフベースの手法や、非特許文献２のようなクラスタリングベースの手法がある。

これらの小領域分割手法には、ユーザが定義する制御パラメータが必要である。例えば、グラフベースの手法であれば、制御パラメータは、主に領域を分割するために画素と画素の間の結合を切るときの閾値である。また、クラスタリングベースの手法であれば、制御パラメータは、主にクラスタの大きさなどである。意味的領域分割において、各領域のクラスを判定する判別器は、できるだけ広い部分から得られた情報で推定を行う方が情報量は増えるため、判別性能は上がる。しかしながら、最終結果として領域を正しく分割するためには、クラス判別する単位としての小領域が複数のクラスによる領域にまたがっていないことが望まれる。そのため、小領域は、できるだけ大きく、かつ、意味的領域の境界を正しく分離していることが望ましい。例えば、自動車の写っている画像を小領域分割する場合には、自動車領域をできるだけ少ない数の小領域に分割し、かつ、自動車領域内の小領域には道路などの領域が含まれていないことが望まれる。

特開２０００−１０５８３６号公報

ＥｆｆｉｃｉｅｎｔＧｒａｐｈ−ＢａｓｅｄＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ，Ｐ．Ｆ．Ｆｅｌｚｅｎｓｚｗａｌｂ、ＩＪＣＶ２００４．ＳＬＩＣＳｕｐｅｒｐｉｘｅｌｓ，Ｒ．Ａｃｈａｎｔａ，Ａ．Ｓｈａｊｉ，Ｋ．Ｓｍｉｔｈ，Ａ．Ｌｕｃｃｈｉ，ＥＰＦＬＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，２０１０．ＤａｌａｌａｎｄＴｒｉｇｇｓ， "ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓｆｏｒＨｕｍａｎＤｅｔｅｃｔｉｏｎ"，ＩＥＥＥＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ｐｐ．８８６−８９３，２００５．Ｐｏｓｅｌｅｔｓ：ＢｏｄｙＰａｒｔＤｅｔｅｃｔｏｒｓＴｒａｉｎｅｄＵｓｉｎｇ３ＤＨｕｍａｎＰｏｓｅＡｎｎｏｔａｔｉｏｎｓ，Ｌ．ＢｏｕｒｄｅｖａｎｄＪ．Ｍａｌｉｋ，ＩＣＣＶ２００９．ＲｏｂｕｓｔＲｅａｌ−ｔｉｍｅＯｂｊｅｃｔＤｅｔｅｃｔｉｏｎ，Ｐ．ＶｉｏｌａａｎｄＭ．Ｊｏｎｅｓ，ＩＪＣＶ２００１．

小領域分割手法における制御パラメータは、通常ユーザが様々な実験を行い、その結果を見て調整する。特許文献１には、文書画像に対して領域分割を行い、得られた領域内の文字を認識した結果として、所望のフォーマットに準じた結果が得られなかった場合には、領域分割パラメータを再設定して、領域分割をやり直す方法が提案されている。しかし、このようなパラメータ設定の手間はユーザに対して負担が大きく、また、適切なパラメータは画像によって異なる場合が多い。例えば、全体的に暗く、コントラストの弱い画像であれば、画素と画素の結合を切るための輝度差閾値を低くしなければ、所望の輪郭上で小領域を分割できなくなる。逆に、全体的に光量が多く、コントラストの強い画像であれば、閾値が低い状態では画素間の結合が切られやすくなり過ぎるため、過分割気味の小領域となってしまう。

また、これらの小領域分割パラメータの適切な値は、同一画像中であっても異なる場合がある。例えば、画像の一部では直射日光が当たってコントラストが強く、一方で日陰となっている部分でコントラストが弱くなっているような場合である。さらに、同一照明条件であっても、物体内部によって適したパラメータが異なる場合もある。例えば、人体における肌と髪の境界はコントラストが強いため、画素間結合を切るための閾値を高めにしておかなければ同一領域として切り出すことは難しい。しかし、一方で、高い閾値が設定されていると、人物の輪郭と背景を分離することが難しくなる。

上記課題を解決するために、本発明は、入力画像の所定領域から第１の特徴量を抽出する第１の特徴抽出手段と、前記入力画像における前記所定領域よりもサイズの小さい領域から第２の特徴量を抽出する第２の特徴抽出手段と、前記抽出した第１の特徴量と第２の特徴量とに基づいて、前記入力画像を少なくとも１つの小領域に分割するために用いられるパラメータを設定する設定手段と、前記設定したパラメータに基づいて、前記入力画像を少なくとも１つの小領域に分割する分割手段と、を有することを特徴とする。

以上の構成によれば、本発明は、画像から得られる大域的な特徴と局所的な特徴とに基づいて、画像およびその位置に適した小領域分割パラメータを設定することができる。

第１の実施形態に関わる画像処理装置の構成図。各実施形態に関わるランタイム時の処理の詳細を示すフローチャート。各実施形態に関わる学習時の処理の詳細を示すフローチャート。第１の実施形態に関わるランタイム時の処理の概略図。第１の実施形態において学習画像と正解データを説明する図。第１の実施形態において小領域分割結果の評価の方法を説明する図。第２の実施形態において画像ピラミッドを説明する図。第２の実施形態において小領域分割ステップの処理を示す概略図。第３の実施形態において人体におけるキーポイントとなる特定位置を示す図。第３の実施形態において検出物体の事前分布の一例を示す図。第３の実施形態において分割対象領域の設定方法を説明する図。第３の実施形態においてキーポイントの割当てを説明する図。第３の実施形態においてマスク画像を取得する方法を説明する図。第３の実施形態において物体領域の事前分布の取得方法を示す概略図。

［第１の実施形態］
以下、図面を参照して本発明の第１の実施形態を詳細に説明する。図１は、本実施形態に係る画像処理装置のソフトウェア構成を示す構成図である。本実施形態の画像処理装置は、ネットワークまたは各種情報記録媒体を介して取得したソフトウェア（プログラム）を、ＣＰＵ、メモリ、ストレージデバイス、入出力装置、バス、表示装置などにより構成される計算機によって実現できる。なお、計算機については、汎用の計算機を用いてもよいし、本発明のプログラムに最適に設計されたハードウェアを用いてもよい。

まず、ランタイム時に関する画像処理装置の構成について説明する。ここでランタイムとは、未知の入力画像に対して小領域分割を行うことである。画像設定部１１００は入力画像を設定する。特徴抽出部１２００は、画像設定部１１００により設定された入力画像から画像特徴を抽出する。パラメータ設定部１３００は、設定関数記憶部３２００に記憶されている設定関数と特徴抽出部１２００により抽出された特徴量とに基づいて、小領域分割に用いる制御パラメータを設定する。設定関数とは、後述する学習部２２００により予め得られている関数である。小領域分割部１４００は、パラメータ設定部１３００により設定された制御パラメータを用いて、入力画像を小領域に分割する。画像設定部１１００、特徴抽出部１２００、パラメータ設定部１３００および小領域分割部１４００は、全て同じ計算機上で実現されるものでもよいし、それぞれ独立したモジュールとしてもよい。また、計算機上で実装されるプログラムとして実現してもよい。カメラ等の撮影装置内部において、回路もしくはプログラムとして実装してもよい。

次に、学習時に関する画像処理装置の構成について説明する。ここで学習とは、前述のような未知画像に対して小領域分割を行う前に、パラメータ設定部１３００にて使用する設定関数を事前に用意された学習画像から生成することである。

学習データ記憶装置３１００には、予め学習データが用意されている。学習データは、複数の学習画像とそれぞれの学習画像に対応する正解データとから構成される。学習データ設定部２１００は、学習データ記憶装置３１００から学習データを読み込み、学習画像から特徴量を抽出する。また、学習画像を異なる複数の制御パラメータにて小領域分割を行った結果と正解データとを比較し、教師データを設定する。また、学習画像から抽出された特徴量と教師データの組を学習データとして設定する。学習部２２００は、設定された学習データを用いて学習処理を行い、パラメータ設定部１３００にて使用する設定関数を設定関数記憶部３２００に出力する。

なお、学習データ設定部２１００および学習部２２００は、ランタイム時に用いる各制御部と同じ計算機上で実現されるものでもよいし、独立したモジュールとして実現してもよい。また、計算機上で実装されるプログラムとして実現してもよい。学習データ記憶部３１００と設定関数記憶部３２００は、上記計算機の内部もしくは外部のストレージとして実現される。設定関数記憶部３２００は、学習データ記憶部３１００と同一ストレージとしてもよいし、別々のストレージとしてもよい。

次に、本実施形態の画像処理装置による処理の詳細を、図２から図４を用いて説明する。図２は、各実施形態に関わるランタイム時の処理の詳細を示すフローチャートであり、図２（ａ）が本実施形態に係るフローチャートである。同図において、まず、画像設定ステップＳ１１００では、小領域分割する対象となる入力画像Ｉが設定される。ここで、画像設定ステップＳ１１００は、画像設定部１１００における処理に相当する。ここで、入力画像Ｉの例を図４の１００に示す。図４は、本実施形態のランタイム時の処理の概略図である。設定される入力画像Ｉの入力方法に関しては、種々の方法が考えられるが、本実施形態は、その入力方法に関して限定されるものではない。例えば、カメラなどの撮像装置から与えられるものでもよいし、予めハードディスクなどのストレージに保存されていた画像データから与えられるものでもよい。

図２（ａ）に戻り、特徴抽出ステップＳ１２００では、画像設定ステップＳ１１００において設定された画像から特徴量を抽出する。特徴抽出ステップＳ１２００は、分割対象領域設定ステップＳ１２１０、大域特徴抽出ステップＳ１２２０および局所特徴抽出ステップＳ１２３０に細分される。ここで、特徴抽出ステップＳ１２００は、特徴抽出部１２００における処理に相当する。なお、上述のように、特徴抽出ステップＳ１２００には大域特徴抽出ステップＳ１２２０および局所特徴抽出ステップＳ１２３０という２つのサブステップを含む。そのため、特徴抽出部１２００は、大域特徴量を抽出する機能部（第１の特徴抽出部）、および局所特徴量抽出する機能部（第２の特徴抽出部）という２つの機能部から構成されているものである。

分割対象領域設定ステップＳ１２１０では、分割対象領域（所定領域）を設定する。分割対象領域とは、後述の小領域分割処理を行う領域の範囲のことである。ここでは、入力画像Ｉに対して設定された分割対象領域をＲと表わしている。分割対象領域は、図４の２００として図示するように画像の全体としてもよいし、予め設定した範囲でもよい。例えば、画像端から固定値として１０ｐｉｘｅｌなどのマージンを設定してもよい。あるいは、グラフィカルなインターフェースもしくはテキスト入力などで、ユーザが範囲を指定できるようにしてもよい。本実施形態においては、分割対象領域の設定方法に関して特に限定されるものではない。

大域特徴抽出ステップＳ１２２０では、分割対象領域設定ステップＳ１２１０にて設定された分割対象領域Ｒから、大域特徴量（第１の特徴量）を抽出する。なお、入力画像Ｉの分割対象領域Ｒから抽出された大域特徴量を、Ｆ＿Ｇ（Ｉ，Ｒ）と表わすこととする。ここで大域特徴量とは、図４の４０１のように、分割対象領域Ｒ全体を一つの領域として、その領域全体に関して得られる特徴量のことを指す。その特徴量としては、例えば、ＲＧＢやＨＳＶなど様々な色空間における色ヒストグラム、それらの平均値や分散などの統計量を用いることができる。あるいは、ＧａｂｏｒフィルタやＳｏｂｅｌエッジフィルタなどを分割対象領域にかけたときの出力信号値や、非特許文献３で示される公知手法のＨＯＧ特徴などを、学習画像群で量子化したときのクラスタリング結果に関するヒストグラムなどでもよい。また、これら複数の特徴量を結合したベクトルとして、大域特徴量を表現してもよい。本実施形態は、大域特徴として用いられる特徴量の種類によって特に限定されるものではない。

次に、局所特徴抽出ステップＳ１２３０では、分割対象領域内をラスタスキャンしながら、分割対象領域内の各位置に関する局所特徴量（第２の特徴量）を抽出する。ここでは、画像の画素ごとの位置を画像の局所として、その特徴量を抽出するようにしているが、大域特徴量を抽出する領域よりも小さい領域であればよい。入力画像Ｉにおける、分割対象領域内の位置Ｘ＝（ｘ，ｙ）（Ｘ∈Ｒ）から抽出された局所特徴量を、Ｆ＿Ｌ（Ｉ，Ｘ）と表わす。局所特徴量とは、図４の３００で表わされるような画像のある一点Ｘ、もしくはその近隣画素から得られる、局所的な特徴を表わす特徴量４０２のことを指す。その特徴量としては、例えば、画素ＸのＲＧＢ値や、前述したようなＨＯＧ特徴、エッジフィルタの出力値などを用いることができる。また、近隣画素の範囲は固定値として設定してもよいし、異なる複数のバンド幅のガウシアンフィルタによる出力値から、データによって範囲を設定してもよい。さらに、位置Ｘの画像座標系における座標値を位置情報として特徴量にしてもよい。本実施形態は、局所特徴として用いられる特徴量の種類によって特に限定されるものではない。

位置Ｘにおける特徴量Ｆ（Ｉ，Ｒ，Ｘ）は、以下の数式１に示すように、位置Ｘにおける特徴量Ｆ（Ｉ，Ｒ，Ｘ）が、大域特徴量Ｆ＿Ｇ（Ｉ，Ｒ）と局所特徴量Ｆ＿Ｌ（Ｉ，Ｘ）とを結合させたものであるであり、図４では４００として示されている。

図２（ａ）に戻ると、パラメータ設定ステップＳ１３００では、特徴抽出ステップＳ１２００にて抽出された特徴量から、分割対象領域を小領域分割するための制御パラメータを設定する。パラメータ設定ステップＳ１３００は、パラメータ設定部１３００による処理に相当する。ステップＳ１３００において、パラメータ設定部１３００は、まず設定関数記憶部３２００から設定関数ｇを読み出す。設定関数ｇは、後述する学習処理によって得られるものである。そして、特徴抽出ステップＳ１２００で得られた特徴量Ｆ（Ｉ，Ｒ，Ｘ）を、数式２で示される設定関数ｇに入力することによって、後述する小領域分割処理で用いる制御パラメータθ（Ｉ，Ｘ）を設定する。

ここで、制御パラメータθは、使用する小領域分割手法によって定義されるものである。例えば、クラスタリングベースの小領域分割手法であるＳＬＩＣの場合では、画素Ｘ＿ｉ＝（ｘ＿ｉ，ｙ＿ｉ）と小領域中心画素Ｘ＿ｋ＝（ｘ＿ｋ，ｙ＿ｋ）間の距離基準として、以下のような値Ｄ＿ｉ，ｋが用いられる。

ここで、画素Ｘ＿ｉおよび小領域中心画素Ｘ＿ｋのＣＩＥＬＡＢ表色系における画素値が、それぞれＶ＿ｉ＝（ｌ＿ｉ，ａ＿ｉ，ｂ＿ｉ）およびＶ＿ｋ＝（ｌ＿ｋ，ａ＿ｋ，ｂ＿ｋ）で与えられている。また、Ｎ＿Ｒは、分割対象領域Ｒの画素数である。ＳＬＩＣには小領域の数を制御するパラメータＫ、位置差と色差の影響度に関するバランスを制御するパラメータｍがあるため、θ＝［Ｋ，ｍ］となる。さらに、本実施形態による制御パラメータ設定をより効果的に行うためには、小領域分割に用いる特徴量に関する重みを制御パラメータに含めることが望ましい。上記ＳＬＩＣの場合であれば、例えば、以下のようにｄ＿ｌａｂおよびｄ＿ｘｙにおける各要素に重み付けしてもよい。

このとき、制御パラメータθは以下のように定義される。

ただし、ここでの例は制御パラメータθの定義に関する一例であって、本実施形態は制御パラメータθの定義によって特に限定されるものではない。

図２（ａ）に戻ると、小領域分割ステップＳ１４００では、パラメータ設定ステップＳ１３００にて設定された制御パラメータを用いて、入力画像Ｉの分割対象領域Ｒに対する小領域分割処理が行われる。ここで、小領域分割ステップＳ１４００は、小領域分割部１４００による処理に相当する。ここでは、先の例に挙げたＳＬＩＣを用いた場合の詳細ついて説明をする。まず、位置Ｘにおいて、数式２による設定関数で設定された制御パラメータθ（Ｉ，Ｘ）を以下のように表わすとする。

分割対象領域Ｒにおける画素数がＮ＿Ｒであるとき、Ｎ＿Ｒ／Ｋ（Ｉ，Ｘ）は画素Ｘの含まれる小領域における画素数の期待値を表わしている。そこで、分割対象領域Ｒ内の画素Ｘ＿ｉが小領域中心となる確率をその逆数で表わし、その確率値に沿って初期小領域中心を生成する。

ここで、生成された初期小領域中心がＫ個、小領域ｋ（＝１，，，Ｋ）の中心画素がＸ＿ｋであったとする。各画素Ｘ＿ｉに関して、以下の判定により、属する小領域ｋ（Ｉ，Ｘ＿ｉ）を決定する。

分割対象領域Ｒにおける全ての画素の属する小領域を決定した後、各小領域ｋ内における輝度勾配の最も小さくなる画素を、新しい小領域中心Ｘ＿ｋに更新する。更新前の小領域中心位置をＸ＿ｋ＾ｏｌｄとしたとき、小領域中心の総移動量Ｅは以下のように表わされる。

総移動量Ｅの値が所定の閾値（例えば１０など）より小さければ、その時点での結果を最終的な小領域分割結果とする。閾値以上の場合は、数式１１による所属小領域の判定と、小領域中心の更新を繰り返す。

ここでは、ＳＬＩＣによる小領域分割処理を用いた例を挙げたが、本実施形態は使用される小領域分割処理の種類によって特に限定されるものではない。また、ここで説明したＳＬＩＣによる例では、クラスタリング距離判定に用いる画素特徴量をＣＩＥＬＡＢ表色系における輝度値としたが、特徴量もこれに限定されるものでもない。ＲＧＢやＨＳＶなどの別表色系における輝度値でもよいし、ＬＢＰやＧａｂｏｒフィルタのような特徴量を用いてもよい。

次に、上述したパラメータ設定ステップＳ１３００にて使用する設定関数ｇを生成するための、学習時の処理の詳細について説明する。図３は、各実施形態に関わる学習時の処理の詳細を示すフローチャートであり、図３（ａ）が本実施形態に係るフローチャートである。まず、学習データ設定ステップＳ２１００では、設定関数ｇを学習するための入力信号である特徴量と、出力信号の教師データであるパラメータの組を設定する。ここで、学習データ設定ステップＳ２１００は、学習データ設定部２１００における処理に相当する。学習データ設定ステップＳ２１００は、学習画像特徴抽出ステップＳ２１１０、学習画像小領域分割ステップＳ２１２０、および教師データ設定ステップＳ２１３０に細分される。

学習画像特徴抽出ステップＳ２１１０では、学習データ記憶部３１００から学習画像を順次読み込み、ランタイム時における特徴抽出ステップＳ１２００と同様にして、各学習画像の大域特徴量と局所特徴量を抽出する。学習画像の総枚数をＮ、学習画像のインデックスをｎ（＝１，，，Ｎ）とし、ｎ番目の学習画像Ｉ＿ｎにおける分割対象領域をＲ＿ｎとする。学習画像Ｉ＿ｎにおける大域特徴量はＦ＿Ｇ（Ｉ＿ｎ，Ｒ＿ｎ）、Ｉ＿ｎにおける位置Ｘ（Ｘ∈Ｒ＿ｎ）に関する局所特徴量はＦ＿Ｌ（Ｉ＿ｎ，Ｘ）で表わされる。大域特徴量Ｆ＿Ｇ（Ｉ＿ｎ，Ｒ＿ｎ）と局所特徴量Ｆ＿Ｌ（Ｉ＿ｎ，Ｘ）を結合した特徴量はＦ（Ｉ＿ｎ，Ｒ＿ｎ，Ｘ）で表わされる。

次に、学習画像小領域分割ステップＳ２１２０では、異なる複数の制御パラメータの候補を用いて、各学習画像に対する小領域分割を行う。また、ここで用いられる小領域分割手法は、ランタイム時に使用するものと同じアルゴリズムによる手法であるとする。ここでは、ランタイム時の実施形態の例に従ってＳＬＩＣを用いて説明する。なお、パラメータθは数式８で定義されているものとする。また、パラメータのバリエーションとして、例えば、小領域の数およびバランスを制御するパラメータをＫ＝２，３，５，１０、ｍ＝５，１０，２０という範囲に設定する。輝度値比較に関する重みは、ｗ＿ｌ＝０．５，１．０，１．５、ｗ＿ａ＝０．５，１．０，１．５、ｗ＿ｂ＝０．５，１．０，１．５という範囲に設定する。位置比較に関する重みはｗ＿ｘ＝１．０，１．５、ｗ＿ｙ＝１．０，１．５という範囲に設定する。これらのパラメータの組み合わせをそれぞれθ＿τ（τ＝１，，，Ｔ）とする。ここで、Ｔはパラメータの組み合わせ総数であって、ここでは、Ｔ＝４×３×３×３×３×２×２＝１２９６である。全ての学習画像Ｉ＿ｎ（ｎ＝１，，，Ｎ）に対して、パラメータθ＿τ（τ＝１，，，Ｔ）を設定した状態で小領域分割を行う。パラメータθ＿τのときに、画像Ｉ＿ｎに対する小領域分割結果として、Ｋ＿ｎτ個の小領域が生成されたとし、それぞれの小領域はＳＰ＿ｋ（ｋ＝１，，，Ｋ＿ｎτ）と表わされるものとする。

教師データ設定ステップＳ２１３０では、学習小領域分割ステップＳ２１２０で行われた、学習画像に対する小領域分割結果を評価し、学習に用いる教師データを設定する。そのため、まず学習データ記憶部３１００から正解データを読み込む。図５は、学習画像と正解データを説明する図である。ここで正解データとは、図５（ａ）のような学習画像８００に対して、最終的に獲得したい所望の領域ラベルが、図５（ｂ）における８１０のように、画像の各画素に対して付与されているものである。正解データの領域ラベルは、ＭＳＲＣ−２１データセットなどで一般的に用いられているような、空（ｓｋｙ）、人物（ｂｏｄｙ）、建物（ｂｕｉｌｄｉｎｇ）といった意味的なラベルで与えられていてもよい。あるいは、平坦領域、テクスチャ領域といった見た目の違いによるラベルで与えられていてもよい。ここで、学習画像Ｉ＿ｎ（ｎ＝１，，，Ｎ）に対応する正解データを、ＧＴ＿ｎ（ｎ＝１，，，Ｎ）とする。正解データＧＴ＿ｎが、Ｎ＿ｒ個の正解領域に分けられていたとし、それぞれの正解領域のインデックスをｒ（ｒ＝１，，，Ｎ＿ｒ）で表わす。インデックス付けされた正解領域はＳ＿ｒで表わされるものとする。そして、学習画像Ｉ＿ｎに対する、パラメータθ＿τによる小領域分割結果について、画素Ｘにおける分割結果の正当性を正解データＧＴ＿ｎを用いて評価する。なお、全ての学習画像Ｉ＿ｎの、全てのパラメータθ＿τ、全ての画素Ｘに関する評価を行ってもよいが、データ数が多くなる場合には、適当にサンプリングして評価するようにしてもよい。
ここで、学習画像Ｉ＿ｎの画素Ｘが含まれる正解領域のインデックスをｒ（Ｘ）と表わすとする。なお、説明の簡略化のため、Ｉ＿ｎの表記は省略している。同様にして、画素Ｘが含まれる小領域のインデックスをｋ（Ｘ）と表わす。位置Ｘの含まれる正解領域と小領域はそれぞれＳ＿ｒ（Ｘ）およびＳＰ＿ｋ（Ｘ）と表わされる。図６は、正解データを用いた小領域分割結果の評価の方法について説明する図である。同図において、正解データ８５０において位置Ｘが画素８７０で表わされているとき、画素８７０の含まれる正解領域８２０がＳ＿ｒ（Ｘ）である。また、小領域分割結果８６０において位置Ｘが画素８８０で表わされているとき、画素８８０の含まれる小領域８３０がＳＰ＿ｋ（Ｘ）である。画素Ｘに関する類似度評価値Ｕ（Ｘ）は、得られた小領域ＳＰ＿ｋ（Ｘ）が正解領域Ｓ＿ｒ（Ｘ）に対してどのくらい類似しているかを表わす値である。類似度評価値Ｕ（Ｘ）は様々な形態が考えられるが、例えば、以下の数式１３のように、その積集合と和集合の面積比を類似度評価値Ｕ（Ｘ）として算出することができる。

あるいは、小領域ＳＰ＿ｋ（Ｘ）と正解領域Ｓ＿ｒ（Ｘ）の外形輪郭に関するＣｈａｍｐｈｅｒ距離の逆数を用いて、以下の数式１４のようにして類似度評価値Ｕ（Ｘ）を設定してもよい。

ここで、Ｃｏｎｔ（ＳＰ＿ｋ（Ｘ））およびＣｏｎｔ（Ｓ＿ｒ（Ｘ））は、小領域ＳＰ＿ｋ（Ｘ）および正解領域Ｓ＿ｒ（Ｘ）の輪郭画素の集合であり、｜Ｃｏｎｔ（Ｓ）｜は、領域Ｓの輪郭画素の総数を表わす。

学習画像Ｉ＿ｎを制御パラメータθ＿τで小領域分割した場合に、画素Ｘに関して評価した評価値をＵ（Ｉ＿ｎ，Ｘ，τ）と表わすとする。このとき、学習画像Ｉ＿ｎの画素Ｘに関する制御パラメータの教師データθ＿Ｔ（Ｉ＿ｎ，Ｘ）は、類似度評価値が最大になるパラメータとして設定される。

ここで、

である。

次に、学習ステップＳ２２００では、学習画像特徴抽出ステップＳ２１１０において抽出された学習画像の大域特徴量、局所特徴量、および教師データ設定ステップＳ２１３０で設定された教師データを用いて、設定関数ｇを学習する。ここで、学習ステップＳ２２００は、学習部２２００における処理に相当する。ここで、学習画像Ｉ＿ｎに関して、分割対象領域Ｒ＿ｎ内のそれぞれの画素Ｘに対する特徴量Ｆ（Ｉ＿ｎ，Ｒ＿ｎ，Ｘ）が、学習画像特徴抽出ステップＳ２１１０にて抽出されている。これに対応する教師データはθ＿Ｔ（Ｉ＿ｎ，Ｘ）である。そこで、この学習データの組に対して関数ｇ下記のようになるように学習を行う。

ここで、設定関数ｇは回帰学習によって得ることができる。回帰学習の手法としては、ＳＶＲ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＲｅｇｒｅｓｓｉｏｎ）や回帰木（ＲｅｇｒｅｓｓｉｏｎＴｒｅｅ）など、様々な公知手法があるが、本実施形態は特定の手法に限定されるものではない。また、設定関数ｇはテーブル参照として設定してもよい。学習して得られた設定関数ｇは設定関数記憶部３２００に記憶される。

なお、設定関数ｇは構造学習によって学習させることもできる。この場合、数式１５および数式１６にて得られた教師データθ＿Ｔ（Ｉ＿ｎ，Ｘ）は正事例として与えられ、それ以外のパラメータは負事例として与えられる。また、数式２におけるスコア関数ｇの形式は、以下のように書き換えられる。

このようにして学習することにより、画像から得られた特徴量に対する適した制御パラメータを得ることができる。そして、学習された設定関数ｇを用いて入力画像に対して適した制御パラメータを推定し、小領域分割を行うことで、より所望の物体形状に近く、かつ意味的領域の境界を正しく分離することが期待できる。特に、大域特徴量を利用することで、分割対象領域内の特性を得ることができるため、コントラストの強弱や全体的な色味などによる制御パラメータ適正値の変化に対応することができる。また、局所特徴量を利用することで、画像内の被写体における特徴の部分的な違いに対応した制御パラメータの変化に対応することができる。

［第２の実施形態］
第２の実施形態では、画像の解像度を変えながら小領域分割を段階的に行う手法を説明する。なお、第１の実施形態において既に説明をした構成については、同一の符号を付し、その説明を省略する。本実施形態の画像処理装置は、第１の実施形態で説明した画像処理装置の構成に加えて、入力画像の解像度を変換して、異なる複数のサイズの入力画像を生成する生成部を更に有するものである。まず、図２（ｂ）、図７および図８に従ってランタイム時の処理の詳細について説明する。

図２（ｂ）は、本実施形態に係るランタイム時の処理の詳細を示すフローチャートである。画像設定ステップＳ１１００では、第１の実施形態と同様にして、小領域分割する対象となる入力画像Ｉが設定される。次に、画像解像度変換ステップＳ１５００では、上述した生成部が、入力画像Ｉに対して異なる複数の解像度に変換した画像を生成する。図７は、画像解像度変換ステップＳ１５００の処理により生成される画像ピラミッドを説明する図である。入力画像Ｉは、図７のようにして、まず半分のサイズに縮小され、次にその半分のサイズ、更にその半分のサイズというように解像度の低い画像へと変換される。これは、一般に画像ピラミッドと呼ばれる。入力画像１００に対して、Ｌ段のピラミッド画像を生成したとき、ｌ番目に解像度の低い画像をＩ＿ｌと表わす。例えば、入力画像Ｉが１２８×２５６画素でＬ＝４段の画像ピラミッドを生成すると、最も解像度の低い画像１１０であるＩ＿１は１６×３２画素、Ｉ＿２は３２×６４画素、Ｉ＿３は６４×１２８画素となる。そして、Ｉ＿４は入力画像Ｉと等しくなる。

特徴抽出ステップＳ１２００、パラメータ設定ステップＳ１３００、および小領域分割ステップＳ１４００は、図２（ｂ）に示すように画像ピラミッドの解像度を変更しながら繰り返し行われる。特徴抽出ステップＳ１２００は、第１の実施形態と同様にして、分割対象領域設定ステップＳ１２１０、大域特徴抽出ステップＳ１２２０および局所特徴抽出ステップＳ１２３０に細分される。

まず、最初の繰り返しにおける各ステップの処理を説明する。分割対象領域設定ステップＳ１２１０では、最も解像度の低い画像Ｉ＿１の画像全体を、初期分割対象領域Ｒ＿１として設定する。図８は、本実施形態における小領域分割ステップの処理を示す概略図である。同図において、最も解像度の低い画像Ｉ＿１の画像が１１０、初期分割対象領域Ｒ＿１が２１０として示されている。次に、大域特徴抽出ステップＳ１２２０では、初期分割対象領域Ｒ＿１から、第１の実施形態と同様にして大域特徴量Ｆ＿Ｇ（Ｉ＿１，Ｒ＿１）を抽出する。

そして、局所特徴抽出ステップＳ１２３０では、第１の実施形態と同様にして、初期分割対象領域Ｒ＿１における各位置Ｘ＿１（Ｘ＿１∈Ｒ＿１）から得られる局所特徴量Ｆ＿Ｌ（Ｉ＿１，Ｘ＿１）を抽出する。大域特徴量Ｆ＿Ｇ（Ｉ＿１，Ｒ＿１）と局所特徴量Ｆ＿Ｌ（Ｉ＿１，Ｘ＿１）を結合した特徴量はＦ（Ｉ＿１，Ｒ＿１，Ｘ＿１）となる。この特徴量Ｆ（Ｉ＿１，Ｒ＿１，Ｘ＿１）は、図８において４１０として示されている。
続いて、パラメータ設定ステップＳ１３００では、まず設定関数記憶部３２００から１回目の繰り返しにおける設定関数ｇ＿１を読み込む。設定関数ｇ＿１は、後述する学習処理にて得られているものである。そして、以下の数式１９に示すように、設定関数ｇ＿１に特徴量Ｆ（Ｉ＿１，Ｒ＿１，Ｘ＿１）を入力し、初期入力画像Ｉ＿１の各位置Ｘ＿１に関する制御パラメータθ（Ｉ＿１，Ｘ＿１）を推定する。この制御パラメータは、図８では５１０として示されている。

小領域分割ステップＳ１４００では、初期入力画像Ｉ＿１の各位置Ｘ＿１に関する制御パラメータθ（Ｉ＿１，Ｘ＿１）を用いて、所定の小領域分割手法にて小領域分割を行う。図８には、初期入力画像に対して小領域分割処理６１０を行った小領域分割結果の例７１０を示す。以降、画像解像度を一段ずつ上げながら、特徴抽出ステップＳ１２００、パラメータ設定ステップＳ１３００、および小領域分割ステップＳ１４００を繰り返し行う。以下、繰り返しｌ回目の各ステップの処理について説明する。

分割対象領域設定ステップＳ１２１０では、一つ前の繰り返しにおける小領域分割結果を基に、分割対象領域を設定する。例えば、一つ前の小領域分割ステップＳ１４００で、画像Ｉ＿ｌ−１がＮ＿ｓ個の小領域に分割されたとする。これらをＩ＿ｌの解像度に直したものを、Ｎ＿ｓ個の分割対象領域Ｒ＿（ｌ，ｓ）（ｓ＝１，，，Ｎ＿ｓ）として設定する。ここで、図８を用いてｌ＝２回目の繰り返しについて例を示すと、ｌ−１＝１回目の小領域分割結果７１０で画像Ｉ＿１はＮ＿ｓ＝２個の小領域に分割されている。そのため、ｌ＝２回目の繰り返し処理においては、画像Ｉ＿２に対して２つの分割対象領域Ｒ＿（２，１）２２１およびＲ＿（２，２）２２２を設定する。

大域特徴抽出ステップＳ１２２０では、画像Ｉ＿ｌにおける各分割対象領域Ｒ＿（ｌ，ｓ）（ｓ＝１，，，Ｎ＿ｓ）から大域特徴量Ｆ＿Ｇ（Ｉ＿ｌ，Ｒ＿（ｌ，ｓ））を抽出する。続く局所特徴抽出ステップＳ１２３０では、画像Ｉ＿ｌにおける各分割対象領域Ｒ＿（ｌ，ｓ）内の各位置Ｘ＿（ｌ，ｓ）（Ｘ＿（ｌ，ｓ）∈Ｒ＿（ｌ，ｓ））から、１回目のステップと同様にして、局所特徴量Ｆ＿Ｌ（Ｉ＿ｌ，Ｘ＿（ｌ，ｓ））を抽出する。そして、画素Ｘ＿（ｌ，ｓ）に対応する、一つ前の繰り返しにおける画素をＸ（Ｘ＿（ｌ，ｓ））としたとき、以下の数式２０のように、局所特徴量Ｆ＿Ｌ（Ｉ＿ｌ，Ｘ＿（ｌ，ｓ））に更にＸ（Ｘ＿（ｌ，ｓ））における局所特徴量を追加する。

大域特徴量と局所特徴量を結合した特徴量は、以下のＦ（Ｉ＿ｌ，Ｒ＿（ｌ，ｓ），Ｘ＿（ｌ，ｓ））ようになる。

図８の例では、ｌ＝２回目の繰り返しにおける特徴量Ｆ（Ｉ＿ｌ，Ｒ＿（２，１），Ｘ＿（２，１））は４２１で、Ｆ（Ｉ＿ｌ，Ｒ＿（２，２），Ｘ＿（２，２））は４２２で示されている。

パラメータ設定ステップＳ１３００では、設定関数記憶部３２００からｌ回目の繰り返しにおける設定関数ｇ＿ｌを読み込む。設定関数ｇ＿ｌは、後述する学習処理にて得られているものである。各分割対象領域Ｒ＿（ｌ，ｓ）（ｓ＝１，，，Ｎ＿ｓ）内の各位置Ｘ＿（ｌ，ｓ）（Ｘ＿（ｌ，ｓ）∈Ｒ＿（ｌ，ｓ））における制御パラメータを、以下に示すパラメータ設定関数ｇ＿ｌを用いて設定する。

図８では、分割対象領域Ｒ＿（２，１）２２１に対する制御パラメータθ（Ｉ＿ｌ，Ｘ＿（２，１））は５２１、分割対象領域Ｒ＿（２，２）２２２に対する制御パラメータθ（Ｉ＿ｌ，Ｘ＿（２，２））は５２２として表わされている。

小領域分割ステップＳ１４００では、画像Ｉ＿ｌの各分割対象領域Ｒ＿（ｌ，ｓ）内の各位置Ｘ＿（ｌ，ｓ）に関する制御パラメータθ（Ｉ＿ｌ，Ｘ＿（ｌ，ｓ））を用いて、所定の小領域分割手法にて小領域分割を行う。図８では、分割対象領域Ｒ＿（２，１）を、制御パラメータθ（Ｉ＿ｌ，Ｘ＿（２，１））５２１に従った小領域分割処理６２１で分割することが示されている。同様に、分割対象領域Ｒ＿（２，２）を、制御パラメータθ（Ｉ＿ｌ，Ｘ＿（２，２））５２２に従った小領域分割処理６２２で分割することも示されている。画像Ｉ＿ｌが元の解像度である入力画像Ｉと同じであれば、繰り返し処理を抜け、ランタイム時の処理である小領域分割を終了する。

次に、図３（ｂ）を参照しつつ、本実施形態の学習時の処理の詳細について説明する。図３（ｂ）は、本実施形態に係る学習時の処理の詳細を示すフローチャートである。まず、学習画像解像度変換ステップＳ２５００では、学習データ記憶部３１００から学習画像を読み込み、ランタイム時の画像解像度変換ステップＳ１５００と同様にして、全ての学習画像の画像ピラミッドを生成する。学習画像Ｉ＿ｎ（ｎ＝１，，，Ｎ）を変換したときのｌ番目に解像度の低い画像をＩ＿（ｎ，ｌ）と表わすものとする。

学習データ設定ステップＳ２１００は、図３（ｂ）に示すように画像ピラミッドの解像度を変更しながら繰り返し行われ、各解像度の画像に対するパラメータ設定関数ｇ＿ｌ（ｌ＝１，，，Ｎ）を生成する。学習データ設定ステップＳ２１００は、学習画像特徴抽出ステップＳ２１１０、学習画像小領域分割ステップＳ２１２０、および教師データ設定ステップＳ２１３０に細分される。まず、最初の繰り返しにおける各ステップに関する処理を説明する。

学習画像特徴抽出ステップＳ２１１０では、学習画像解像度変換ステップＳ２５００において生成された学習画像の画像ピラミッドにおける、最も解像度の低い学習画像から大域特徴量と局所特徴量を抽出する。特徴量の抽出に関しては、ランタイム時の処理における特徴抽出ステップと同様であるため、詳細な説明は省略する。学習画像Ｉ＿ｎの分割対象領域Ｒ＿ｎにおける画素Ｘから得られた特徴量はＦ（Ｉ＿（ｎ，１），Ｒ＿ｎ，Ｘ）と表わされる。

学習画像小領域分割ステップＳ２１２０では、学習画像の画像ピラミッドにおける全ての画像に対して、第１の実施形態と同様の処理にて小領域分割を行う。次に、教師データ設定ステップＳ２１３０において、第１の実施形態と同様にして、学習画像小領域分割ステップＳ２１２０における小領域分割結果と正解データにおける正解領域との類似度評価値を算出する。そして、その類似度評価値が最大になるパラメータを以下のように教師値θ＿ｔ（Ｉ＿（ｎ，１），Ｘ）として設定する。

ここで、

である。

続いて、学習ステップＳ２２００では、設定された教師データを用いて、第１の実施形態と同様に設定関数ｇ＿１を学習する。すなわち、関数ｇ＿１が上記学習データの組に対して以下の数式２５になるように学習を行う。

設定関数ｇ＿１は、第１の実施形態と同様にして、回帰学習にて得ることができる。学習して得られた設定関数ｇ＿１は、設定関数記憶部３２００に記憶される。

以降、学習画像の解像度を一段ずつ上げながら学習データ設定ステップＳ２１００、学習ステップＳ２２００を繰り返し行う。以下、繰り返しｌ回目の各ステップの処理に関して説明する。

学習画像特徴抽出ステップＳ２１１０では、各画像Ｉ＿（ｎ，ｌ）について、一つ前の繰り返しにおいて教師値として選ばれたパラメータを用いた小領域分割結果から、分割対象領域を設定する。一つ前の学習画像小領域分割ステップＳ２１２０にて、教師値θ＿ｔ（Ｉ＿（ｎ，ｌ−１），Ｘ）を用いて画像Ｉ＿（ｎ，ｌ−１）を分割した結果、Ｎ＿ｔ個の領域に分割されたとする。これらをＩ＿（ｎ，ｌ）の解像度に直したものを、Ｎ＿ｔ個の分割対象領域Ｒ＿（ｎ，ｌ，ｔ）（ｔ＝１，，，Ｎ＿ｔ）として設定する。また、各分割対象領域Ｒ＿（ｎ，ｌ，ｔ）から大域特徴量Ｆ＿Ｇ（Ｉ＿（ｎ，ｌ），Ｒ＿（ｎ，ｌ，ｔ））と、その分割対象領域内における局所特徴量Ｆ＿Ｌ（Ｉ＿（ｎ，ｌ），Ｘ＿ｌ）を抽出する。そして、画素Ｘ＿ｌに対応する、一つ前の繰り返しにおける画素をＸ（Ｘ＿ｌ）としたとき、以下のように、局所特徴量Ｆ＿Ｌ（Ｉ＿（ｎ，ｌ），Ｘ＿ｌ）にＸ（Ｘ＿ｌ）における局所特徴量を追加する。

また、大域特徴量と局所特徴量を結合した特徴量は、以下に表わされるように、Ｆ（Ｉ＿（ｎ，ｌ），Ｒ＿（ｎ，ｌ，ｓ），Ｘ＿ｌ）となる。

学習画像小領域分割ステップＳ２１２０では、学習画像の画像ピラミッドにおける全ての画像に対して、第１実施形態と同様の処理にて小領域分割を行う。また、教師データ設定ステップＳ２１３０では、１回目の繰り返しと同様にして、教師値θ＿Ｔ（Ｉ＿（ｎ，ｌ），Ｘ）を設定する。

ここで、

である。

学習ステップＳ２２００では、設定された教師データを用いて、１回目の繰り返しと同様にして、設定関数ｇ＿ｌを学習する。すなわち、関数ｇ＿ｌが上記学習データの組に対して以下の数式３０となるように学習を行う。

設定関数ｇ＿１は、第１の実施形態と同様にして、回帰学習にて得ることができる。学習して得られた設定関数ｇ＿１は、設定関数記憶部３２００に記憶される。繰り返しｌ回目の学習画像Ｉ＿（ｎ，ｌ）が、元の解像度であるＩ＿ｎと同じであれば繰り返し処理を抜け、学習処理を終了する。

以上のように、本実施形態によれば、各解像度に対して学習された設定関数ｇ＿ｌを用いて、画像ピラミッドを利用して段階的に小領域分割を行うことで、より画像の部分的な特徴に従った小領域が得られることが期待できる。また、本実施形態では、画像ピラミッドによる小領域分割を行い、低解像度の画像における小領域分割結果を利用して分割対象領域を設定している。そのため、画像中のそれぞれの場所による条件の違いに対して、おのおの制御パラメータを設定することができる。

［第３の実施形態］
第３の実施形態では、物体検出器を利用して、その検出結果を用いて小領域分割のパラメータを設定する手法を説明する。なお、第１、第２の実施形態において既に説明をした構成については同一の符号を付し、その説明は省略する。本実施形態の画像処理装置は、第１の実施形態で説明した画像処理装置の構成に加えて、入力画像から所定の物体を検出する物体検出部を更に有するものである。まず、ランタイム時の処理の詳細について、図２（ｃ）および図９を参照しつつ説明する。

図２（ｃ）は、本実施形態に係るランタイム時の処理の詳細を示すフローチャートである。画像設定ステップＳ１１００では、第１の実施形態と同様にして、小領域分割する対象となる入力画像Ｉが設定される。次に、物体検出ステップＳ１６００で、上述した物体検出部は、入力画像Ｉに対して物体検出器を用いて物体を検出する。ここでは、物体検出器の一例として、人体を検出するための人体検出器を利用する場合を例に説明する。なお、本実施形態は、検出する物体の対象は特に人体に限定されるものではない。人体検出手法としては、周知の種々の手法を採用することができるが、ここでは、非特許文献４におけるＰｏｓｅｌｅｔｓを利用した場合について説明する。

非特許文献４に開示される手法では、関節位置などで表わされる人物の様々なキーポイントの、関節角などで表わされる様々な姿勢を、ｐｏｓｅｌｅｔ検出器としてクラス判別して出力する。なお、ｐｏｓｅｌｅｔ検出器の学習に関しては後述する。あるキーポイントＸにおける、ｐｏｓｅｌｅｔ検出器のクラスｉに関するスコアはａ＿ｉ（Ｘ）で表わされる。学習データから得られている人体の中心位置とキーポイントの相対位置ベクトルをＸ＿ｉとすると、位置Ｘ＿ｃにおける物体検出スコアＳＣＯＲＥ（Ｘ＿ｃ）は、ｐｏｓｅｌｅｔ検出器からの重み付き投票として、以下の数式３１のように表わされる。

ここでｗ＿ｉは、ｐｏｓｅｌｅｔ検出器のクラスｉに関する投票重み係数であって、後述する学習によって得られるものである。同一のキーポイントを表しているｐｏｓｅｌｓｅｔクラスの中で、最も重み付き投票値の大きなものを人体におけるキーポイントとして検出する。図９には、人体においてキーポイントとなる特定の位置の例を示しており、例えば図９の場合では、頭部９０１、胴体中心９０２、右肘９０３、左肘９０４、右膝９０５、左膝９０６といった、人体上の特定の位置をキーポイントとして検出することができる。検出されたキーポイントの総数をＫ＿ｐ、インデックスをｐ（ｐ＝１，，，Ｋ＿ｐ）とし、キーポイントｐにおけるｐｏｓｅｌｅｔ検出器の出力クラスをｃ＿ｐとする。そして、各キーポイントを基準として得られたバウンディングボックス９１１〜９１６の和集合を取れば、人体全体の包含領域９２０を得ることができる。なお、入力画像Ｉに複数の人物が写っている場合には、各キーポイントが複数検出される場合もあることは言うまでもない。

図２（ｃ）の説明に戻ると、特徴抽出ステップＳ１２００は、第１の実施形態と同様にして、分割対象領域設定ステップＳ１２１０、大域特徴抽出ステップＳ１２２０および局所特徴抽出ステップＳ１２３０に細分される。分割対象領域設定ステップＳ１２１０では、物体検出結果として得られた包含領域９２０をまず分割対象領域として設定する。図１１は、本実施形態における分割対象領域の設定方法を説明する図である。同図に示されるように、本実施形態では、入力画像は包含領域９２０を切り出した領域９２１と、その背景部分９２２に分割され、それぞれが分割対象領域として設定される。物体検出器で得られた物体包含領域が複数あれば、それらを別々の分割対象領域として設定する。物体包含領域外の領域に関しては、第１の実施形態と同様にして分割対象領域を設定する。ここで、分割対象領域の総数がＮ＿ｓ個だったとし、各分割対象領域をＲ＿ｓ（ｓ＝１，，，Ｎ＿ｓ）と表わすこととする。

次に、大域特徴抽出ステップＳ１２２０では、各分割対象領域から大域特徴量を抽出する。大域特徴量の抽出に関しては、第１および第２の実施形態と同様なため、詳細な説明は省略する。各分割対象領域Ｒ＿ｓから得られた大域特徴量をＦ＿Ｇ（Ｉ，Ｒ＿ｓ）と表わすものとする。

局所特徴抽出ステップＳ１２３０では、各分割対象領域内の各位置Ｘ＿ｓ（Ｘ∈Ｒ＿ｓ）から得られる局所特徴量Ｆ＿Ｌ（Ｉ，Ｘ＿ｓ）を抽出する。局所特徴量Ｆ＿Ｌには、第１の実施形態で説明したような特徴量に加え、検出物体に関する事前分布を特徴量として加える。ここで、検出物体の事前分布とは、物体が検出された場合に、どの範囲までその物体の領域であるかを表す確率を表すものである。図１０は、検出物体の事前分布の一例を示す図である。同図では、物体の包含領域９２０において、物体領域事前分布は１４００のように等高線によって示されている。この物体領域事前分布は、各キーポイントに対応する事前分布を統合して得られるもので、具体的には以下のようにして算出する。

まず、各分割対象領域Ｒ＿ｓ内で検出された、キーポイントｐのバウンディングボックスに対して、その内部における事前分布Ｐｒ（Ｘ―Ｘ＿ｐ；ｃ＿ｐ）が与えられているとする。ここでＸ＿ｐはキーポイントｐの位置である。図１０の例では、頭部事前分布１４０１、胴体事前分布１４０２、右肘事前分布１４０３、左肘事前分布１４０４、右膝事前分布１４０５、左膝事前分布１４０６として図示されている。これら各キーポイントに関する事前分布は、後述する事前分布算出ステップＳ２７００にて事前に得られているものである。このとき、分割対象領域Ｒ＿ｓ内の位置Ｘ＿ｓにおける物体領域事前分布Ｐｒ（Ｘ＿ｓ）を以下のように表わす。

ここでは、式の簡略化のため、ｃ＿ｐをｃｐと記載した。ここで、ｗ＿ｃｐはキーポイントｐに関する投票重みで、ａ＿ｃｐ（Ｘ＿ｐ）はキーポイントｐのｐｏｓｅｌｅｔ判別器のスコアである。分割対象領域Ｒ＿ｓが、物体検出されていない領域の場合、Ｐｒ（Ｘ＿ｓ）＝０となる。そして、この値Ｐｒ（Ｘ＿ｓ）を以下のように局所特徴量Ｆ＿Ｌ（Ｉ，Ｘ＿ｓ）の一要素として加える。

なお、物体検出器が複数種類の物体に対応したマルチクラス検出器である場合には、そのクラスラベルを局所特徴量Ｆ＿Ｌの要素として追加してもよい。例えば、人体、犬、猫、自動車を検出するような４クラス検出器であったときに、４次元のバイナリベクトルをクラスラベル特徴として局所特徴量Ｆ＿Ｌの要素として追加してもよい。そして、大域特徴量Ｆ＿Ｇ（Ｉ，Ｒ＿ｓ）と局所特徴量Ｆ＿Ｌ（Ｉ，Ｘ＿ｓ）を結合した特徴量は、以下の数式３４で表わされるＦ（Ｉ，Ｒ＿ｓ，Ｘ＿ｓ）となる。

図２（ｃ）に戻り、パラメータ設定ステップＳ１３００では、特徴抽出ステップＳ１２００において抽出された特徴量から、分割対象領域を小領域分割するための制御パラメータを設定する。まず、設定関数記憶部３２００から、後述する学習処理によって得られる設定関数ｇを読み出す。そして、以下のように、特徴量Ｆ（Ｉ，Ｒ＿ｓ，Ｘ＿ｓ）を設定関数ｇに入力することによって、小領域分割処理で用いる制御パラメータθ（Ｉ，Ｘ＿ｓ）を設定する。

小領域分割ステップＳ１４００に関しては、第１の実施形態と同様であるため、その説明は省略する。以上が、本実施形態に係るランタイム時の処理の詳細となる。次に、学習時の処理について、図３（ｃ）、図１２および図１３を参照しつつ説明する。

図３（ｃ）は、本実施形態に係る学習時の処理の詳細を示すフローチャートである。まず、物体検出器生成ステップＳ２６００にて、学習データ設定部２１００は、物体検出ステップＳ１６００で使用する物体検出器を生成する。本実施形態では、上述したｐｏｓｅｌｅｔ検出器を利用する場合について説明する。学習データ記憶部３１００に記憶されている学習画像には、第１の実施形態で説明されたような正解データとは別に、人体の写っている学習画像に対して関節などのキーポイントの位置が３次元データとして対応付けられている。

図１２は、ｐｏｓｅｌｅｔ検出器におけるキーポイントの割当てを説明する図である。図１２（ａ）に示される学習画像の頭部キーポイント９３１と、胴体キーポイント９３２は、図１２（ｂ）における３次元モデル上の点９４１と点９４２に対応づけられている。各キーポイントを中心とした３次元空間上での姿勢空間でクラスタリングを行い、また局所的に類似した姿勢（例えば曲げている肘）を一つのｐｏｓｅｌｅｔクラスとして扱う。これにより、学習画像から各キーポイント周辺の部分画像をｐｏｓｅｌｅｔ検出器学習用の部分画像として切り出す。これら部分画像のＨＯＧ特徴から様々な姿勢を判別する識別器を線形ＳＶＭで学習する。これをｐｏｓｅｌｅｔ検出器と呼び、位置Ｘにおける、クラスｉに関するｐｏｓｅｌｅｔ検出器の出力スコアをａ＿ｉ（Ｘ）と表わすものとする。学習データに対してこれらのｐｏｓｅｌｅｔ検出器を用いたときに得られる、スコアの重み付き投票の重み係数ｗ＿ｉをＭ２ＨＴ（ＭａｘＭａｒｇｉｎＨｏｕｇｈＴｒａｎｓｆｏｒｍ）で学習することで物体検出器が生成される。詳細な説明は、非特許文献４に記載されているため、ここでは省略する。

物体検出手法として、本実施形態ではｐｏｓｅｌｅｔを例に挙げて説明をしたが、前述したように他の手法を用いてもよい。例えばＤＰＭ（ＤｅｆｏｒｍａｂｌｅＰａｒｔＭｏｄｅｌ）や、ＨＯＧ特徴を使ったＳＶＭによる人体検出器など種々の手法を用いることができ、本実施形態は特定の手法に限定されるものではない。また、顔領域を切り出すことが目的であれば、特許文献５に代表されるような既存の顔検出手法を用いるようにしてもよい。

物体領域事前分布算出ステップＳ２７００で、学習データ設定部２１００は、学習データにおける正解データと、物体検出器生成ステップＳ２６００におけるクラスタリング結果との対応により物体領域事前分布を取得する。図１３は、マスク画像を取得する方法を説明する図である。図１３（ａ）では、ある学習画像１０００におけるキーポイント１００１に対して、その切り出し領域１０１１が与えられている様子を示している。また、図１３（ｂ）には、学習画像１０００に対応する正解データ１１００において、各領域にラベルが与えられている様子を示している。本実施形態では、学習画像上の切り出し領域１０１１に対応する領域１１１１の中で人物ラベルが与えられている領域を物体マスク領域とし、切り出し領域１０１１に対して図１３（ｃ）で示すようにマスク画像１２００を得る。ここで、図中の領域１２０１は物体マスク領域であり、領域１２０２は物体外領域である。各学習画像の各キーポイント周りからこのようなマスク画像を切り出し、物体検出器生成ステップＳ２６００のクラスタリング結果に従ってこれらのマスク画像をｐｏｓｅｌｅｔクラスごとに平均することで、物体領域事前分布Ｐｒを算出する。ここでは、同一のｐｏｓｅｌｅｔクラスｃに対応するマスク画像がＭ個得られたとし、マスク画像のインデックスをｍ＝１，，，Ｍとする。

図１４は、物体領域の事前分布の取得方法の概要を示す概略図である。同図には、Ｍ個のマスク画像がマスク画像集合１３１０で表わされている。このとき、ｐｏｓｅｌｅｔクラスｃの、キーポイント位置を中心とした正規化座標Ｘ＿ｎに関する物体領域事前分布Ｐｒ（Ｘ＿ｎ；ｃ）は、以下のようにして得られる。

ここでｖ＿ｍ（Ｘ＿ｎ）は、マスク画像ｍにおける正規化座標Ｘ＿ｎの位置が物体マスク領域であれば１、物体外領域であれば０の値をとる。図１４の例では、マスク画像集合１３１０の平均として物体領域事前分布１３００が得られている。この図では、物体領域事前分布１３００は、その事前分布が等高線で表わされている。

次に、学習画像物体検出ステップＳ２８００では、物体検出器生成ステップＳ２６００にて生成された物体検出器を全学習画像に用いて、各学習画像に対する物体検出結果を得る。そして、ランタイム時の処理と同様にして、得られた物体検出結果に従って分割対象領域を設定する。続く学習データ設定ステップＳ２１００は、学習画像特徴抽出ステップＳ２１１０、学習画像小領域分割ステップＳ２１２０、および教師データ設定ステップＳ２１３０に細分される。

学習画像特徴抽出ステップＳ２１１０では、全ての学習画像の各分割対象領域から大域特徴量と局所特徴量を抽出する。大域特徴量の抽出に関しては、第一の実施形態と同様なため、詳細な説明は省く。局所特徴量の抽出時には、学習画像物体検出ステップＳ２８００で得られた物体検出結果に基づき、ランタイム時の局所特徴抽出ステップＳ１２３０と同様にして、局所特徴量を算出する。これにより、学習画像Ｉ＿ｎ中の画素Ｘが含まれる分割対象領域をＲ（ｎ，Ｘ）とすると、画素Ｘにおける特徴量はＦ（Ｉ＿ｎ，Ｒ（ｎ，Ｘ），Ｘ）と表わすことができる。

学習画像小領域分割ステップＳ２１２０に関しては、第１の実施形態と同様の処理であるため、詳細な説明は省く。次に、教師データ設定ステップＳ２１３０では、学習画像小領域分割ステップＳ２１２０において学習画像に対して異なる複数の制御パラメータによって実行された小領域分割結果と、正解データとの類似度評価値とを算出する。そして、これらに基づいて制御パラメータの教師データを設定する。類似度評価値の算出は、第１の実施形態と同様にして、数式１３もしくは数式１４により求める。また、制御パラメータの教師データθ＿Ｔ（Ｉ＿ｎ、Ｘ）は、第１の実施形態と同様にして、数式１５および数式１６に従って類似度評価値が最大となるパラメータを選択する。前記学習画像特徴抽出ステップＳ２１１０にて得られた、学習画像Ｉ＿ｎの画素Ｘにおける特徴量Ｆ（Ｉ＿ｎ，Ｒ（ｎ，Ｘ），Ｘ）に対する教師データは、θ＿Ｔ（Ｉ＿ｎ、Ｘ）である。すなわち、関数ｇが上記学習データの組に対して以下の数式３７となるように学習を行う。

学習ステップＳ２２００では、学習データ設定ステップＳ２１００にて得られた学習データを用いて、設定関数を学習する。学習ステップＳ２２００の処理内容に関しては、第１の実施形態と同様な処理であるため、詳細な説明は省く。

以上、本実施形態によれば、物体検出結果から得られる物体領域の事前分布を局所特徴として利用して適切な小領域分割パラメータを学習することで、物体と推定される領域とそうでない領域との小領域分割パラメータを変えることができる。これにより、物体の形状により近い小領域分割結果を得ることが期待できる。

［その他の実施形態］
また、本発明は、上記実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。本発明は上記実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形（各実施例の有機的な組合せを含む）が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

１１００画像設定部
１２００特徴抽出部
１３００パラメータ設定部
１４００小領域分割部
２１００学習データ設定部
２２００学習部

Claims

入力画像の所定領域から第１の特徴量を抽出する第１の特徴抽出手段と、
前記入力画像における前記所定領域よりもサイズの小さい領域から第２の特徴量を抽出する第２の特徴抽出手段と、
前記抽出した第１の特徴量と第２の特徴量とに基づいて、前記入力画像を少なくとも１つの小領域に分割するために用いられるパラメータを設定する設定手段と、
前記設定したパラメータに基づいて、前記入力画像を少なくとも１つの小領域に分割する分割手段と、
を有することを特徴とする画像処理装置。
前記設定手段は、前記第２の特徴量を抽出した位置ごとに前記パラメータを設定することを特徴とする請求項１に記載の画像処理装置。
前記第１の特徴抽出手段は、前記入力画像の全体から前記第１の特徴量を抽出することを特徴とする請求項１または２に記載の画像処理装置。
前記第２の特徴抽出手段は、前記入力画像の画素ごとに前記第２の特徴量を抽出することを特徴とする請求項１から３のいずれかに１項に記載の画像処理装置。
前記設定手段は、予め学習された設定関数を用いて、パラメータを設定することを特徴とすることを特徴とする請求項１に記載の画像処理装置。
学習画像から抽出された前記第１の特徴量および第２の特徴量と、前記学習画像に対して設定されたパラメータとに基づいて、前記設定関数を学習する学習手段を更に有することを特徴とする請求項５に記載の画像処理装置。
前記学習画像から抽出された前記第１の特徴量および第２の特徴量と、前記学習画像に付与された正解データとに基づいて、前記学習画像に対するパラメータが設定されることを特徴とする請求項６に記載の画像処理装置。
前記学習画像から抽出された前記第１の特徴量および第２の特徴量と、異なる複数のパラメータの候補とを用いて、前記学習画像を分割した小領域と、前記学習画像に付与された正解データの領域との類似度に基づいて、前記学習画像に対して設定されるパラメータが決定されることを特徴とする請求項７に記載の画像処理装置。
前記類似度は、前記学習画像を分割した小領域と、前記学習画像に付与された正解データの領域との面積または輪郭に基づいて算出されることを特徴とする請求項８に記載の画像処理装置。
前記分割手段は、グラフベースまたはクラスタリングベースの手法により、前記入力画像を少なくとも１つの小領域に分割することを特徴とする請求項１から９のいずれかに１項に記載の画像処理装置。
前記入力画像から異なる複数のサイズの画像を生成する生成手段を更に有し、
前記第１の特徴抽出手段は、前記生成された異なる複数のサイズの画像から前記第１の特徴量を抽出し、
前記第２の特徴抽出手段は、前記生成された異なる複数のサイズの画像から前記第２の特徴量を抽出し、
前記設定手段は、前記抽出した前記異なる複数のサイズの画像に対応した第１の特徴量と第２の特徴量とに基づいて、前記異なる複数のサイズの画像を少なくとも１つの小領域に分割するために用いられるパラメータを設定し、
前記分割手段は、前記設定したパラメータに基づいて、前記異なる複数のサイズの画像を少なくとも１つの小領域に分割することを特徴とする請求項１から１０のいずれか１項に記載の画像処理装置。
前記入力画像から所定の物体を検出する物体検出手段を更に有し、
前記第１の特徴抽出手段は、前記検出された所定の物体に対応する領域から前記第１の特徴量を抽出し、
前記分割手段は、前記抽出した第１の特徴量と第２の特徴量とに基づいて、前記所定の物体に対応する領域を少なくとも１つの小領域に分割するために用いられるパラメータを設定し、
前記分割手段は、前記設定したパラメータに基づいて、前記所定の物体に対応する領域を少なくとも１つの小領域に分割することを特徴とする請求項１から１０のいずれか１項に記載の画像処理装置。
入力画像の所定領域から第１の特徴量を抽出する第１の特徴抽出ステップと、
前記入力画像における前記所定領域よりもサイズの小さい領域から第２の特徴量を抽出する第２の特徴抽出ステップと、
前記抽出した第１の特徴量と第２の特徴量とに基づいて、前記入力画像を少なくとも１つの小領域に分割するために用いられるパラメータを設定する設定ステップと、
前記設定したパラメータに基づいて、前記入力画像を少なくとも１つの小領域に分割する分割ステップと、
を有することを特徴とする画像処理方法。
コンピュータを、請求項１から１２のいずれか１項に記載の画像処理装置として機能させるためのプログラム。