JP2013080390A

JP2013080390A - 画像解析方法、画像解析装置及びコンピュータプログラム

Info

Publication number: JP2013080390A
Application number: JP2011220235A
Authority: JP
Inventors: Kaori Kataoka; 香織片岡; Masashi Morimoto; 正志森本; Kyoko Sudo; 恭子数藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-10-04
Filing date: 2011-10-04
Publication date: 2013-05-02

Abstract

【課題】手動による指定を行うことなく、撮影された物体に応じて画像を複数の領域に分割する。
【解決手段】入力された画像の背景の構成を推定し、構成の推定結果に基づいて、画像を複数の第一領域に分割し、第一領域に対し、その領域に写っている物体に応じたラベルを付与し、第一領域を、当該第一領域に付与されたラベルに基づいて複数の第二領域に分割し、第二領域に対し、その領域に移っている物体に応じたラベルを付与する。
【選択図】図１

Description

本発明は、画像を解析する技術に関する。

近年、複数の面で構成された背景を撮影した奥行き情報を有さない１枚の画像から、被写体の構造を推定し、その推定データに基づいて領域分割及びラベル付けを行う技術が提案されている。複数の面で構成された背景の画像とは、例えば建物の外観や建物内などを背景として撮影された画像である。このような画像の背景は、屋根、天井、床、壁面などの複数の面で構成される。

従来、画像の領域を分割する技術として、例えば非特許文献１に開示された技術がある。この技術では、まず、画像内で前景オブジェクトが含まれる矩形領域を手動で大まかに指定する。次に、指定された領域の外側の色分布に基づいて、背景と推定される色を決定する。そして、指定された領域の内側から、決定された色の部分を取り除くことによって、前景オブジェクトを正確に抽出する。

C. Rother, V. Kolmogorov, and A. Blake, "GrabCut: Interactive foreground extraction using iterated graph cuts", ACM Trans. Graph., vol. 23, pp. 309-314, 2004.

しかしながら、従来の技術では、前景オブジェクトの領域をわざわざ手動で指定する必要があった。
上記事情に鑑み、本発明は、手動による指定を行うことなく、撮影された物体に応じて画像を複数の領域に分割する技術の提供を目的としている。

本発明の一態様は、コンピュータが、入力された画像の背景の構成を推定する構成推定ステップと、前記構成の推定結果に基づいて、前記画像を複数の第一領域に分割する第一分割ステップと、前記第一領域に対し、その領域に写っている物体に応じたラベルを付与する第一ラベル付与ステップと、前記第一領域を、当該第一領域に付与された前記ラベルに基づいて複数の第二領域に分割する第二分割ステップと、前記第二領域に対し、その領域に移っている物体に応じたラベルを付与する第二ラベル付与ステップと、を有する画像解析方法である。

本発明の一態様は、上記の画像解析方法であって、前記第二領域として前記画像に写る第二物体と、前記各第二物体が前記第一ラベルが付与された前記第一領域に含まれる可能性を表す共起情報とが、対応付けて予め記憶されており、前記第二分割ステップにおいて、前記共起情報に基づいて、前記第一領域を複数の前記第二領域に分割する。

本発明の一態様は、入力された画像の背景の構成を推定する構成推定部と、前記構成の推定結果に基づいて、前記画像を複数の第一領域に分割する第一分割部と、前記第一領域に対し、その領域に写っている物体に応じたラベルを付与する第一ラベル付与部と、前記第一領域を、当該第一領域に付与された前記ラベルに基づいて複数の第二領域に分割する第二分割部と、前記第二領域に対し、その領域に移っている物体に応じたラベルを付与する第二ラベル付与部と、を備える画像解析装置である。

本発明の一態様は、上記の画像解析装置であって、前記第二領域として前記画像に写る第二物体と、前記各第二物体が前記第一ラベルが付与された前記第一領域に含まれる可能性を表す共起情報とを、対応付けて予め記憶する共起情報記憶部をさらに備え、前記第二分割部は、前記共起情報に基づいて、前記第一領域を複数の前記第二領域に分割する。

本発明の一態様は、コンピュータに対し上記の画像解析方法の各ステップを実行させるためのコンピュータプログラムである。

本発明により、手動による指定を行うことなく、撮影された物体に応じて画像を複数の領域に分割するが可能となる。

画像解析装置の機能構成を表す概略ブロック図である。構成分類の具体例を示す図である。構成分類の具体例を示す図である。構成推定部１０２の推定処理の概略を示す図である。初期領域の具体例を示す図である。フィードバックの処理の具体例を示す図である。

［概要］
画像解析装置は、画像を解析することによって、撮影された物体に応じて画像を複数の領域に分割する。具体的な処理は以下の通りである。まず、画像解析装置は、画像の背景の構成を推定する。次に、画像解析装置は、推定結果に基づいて、画像中の予め設定された座標に複数の初期領域を設定する。次に、画像解析装置は、初期領域内の画素値に基づいて、画像を初期領域の数に応じた部分領域（大カテゴリ領域）に分割し、各大カテゴリ領域にラベルを付与する。次に、画像解析装置は、部分領域をさらに小さな部分領域（小カテゴリ領域）に分割し、各小カテゴリ領域にラベルを付与する。

次に、画像解析装置の詳細について説明する。
図１は、画像解析装置の機能構成を表す概略ブロック図である。画像解析装置１００は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリや補助記憶装置などを備え、画像解析プログラムを実行する。画像解析装置１００は、このプログラムを実行することによって、画像入力部１０１、構成推定部１０２、大カテゴリ領域分割１０３、大カテゴリラベル付与部１０４、小カテゴリ領域分割部１０５、小カテゴリラベル付与部１０６、出力部１０７を備える装置として機能する。なお、画像解析装置１００の各機能の全て又は一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されても良い。画像解析プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。画像解析プログラムは、電気通信回線を介して通信されても良い。

画像入力部１０１は、画像解析装置１００に対して入力される画像のデータを受け付ける。画像入力部１０１は、例えばＣＤ−ＲＯＭやＵＳＢメモリ（Universal Serial Bus Memory）等の記録媒体に記録された画像のデータを読み出しても良い。また、画像入力部１０１は、スチルカメラやビデオカメラによって撮像された画像を、カメラから受信しても良い。また、画像解析装置１００がスチルカメラやビデオカメラに内蔵されている場合は、画像入力部１０１は撮像された画像又は撮像前の画像をバスから受信しても良い。また、画像入力部１０１は、ネットワークを介して他の情報処理装置から画像のデータを受信しても良い。画像入力部１０１は、画像のデータの入力を受けることが可能な構成であれば、さらに異なる態様で構成されても良い。画像入力部１０１によって入力が受け付けられた画像を、「入力画像」という。

構成推定部１０２は、画像の背景の構成を推定する。次に、大カテゴリ領域分割部１０３は、推定結果に基づいて、画像中の予め設定された座標に、複数の初期領域を設定し、初期領域内の画素値に基づいて、画像を初期領域の数に応じた部分領域（大カテゴリ領域）に分割する。大カテゴリラベル付与部１０４は、各大カテゴリ領域に対して、その部分に写っている物体に応じたラベルを付与する。小カテゴリ領域分割部１０５は、部分領域（大カテゴリ領域）をさらに小さな部分領域（小カテゴリ領域）に分割する。小カテゴリラベル付与部１０６は、各小カテゴリ領域に対して、その部分に写っている物体に応じたラベルを付与する。出力部１０７は、大カテゴリラベル付与部１０４及び小カテゴリラベル付与部１０６による処理結果を出力する。

次に、構成推定部１０２の処理について詳細に説明する。構成推定部１０２には、複数の構成分類と、各構成分類における入力画像の特徴量との対応付けが予め記憶されている。構成分類とは、画像のどの部分にどのような物体が写っているかを表す分類である。構成推定部１０２は、入力画像の特徴量を算出し、予め記憶している特徴量と比較することによって、複数の構成分類の中から一つの構成分類を選択する。図２及び図３は、構成分類の具体例を示す図である。図３Ａ〜図３Ｃは、それぞれが一つの構成分類の具体例を表している。図２に示されるように、建物の内部は一般的に左右の壁面Ａ，Ｃと、奥側の面Ｄと、天井面Ｂと床面Ｅとで構成される。

図２の視点ＶＡから矢印方向に撮影すると、図３Ａのように壁面Ａが右方向に向けて小さくなるように撮影される。すなわち、図３Ａの画像では、向かって左側の地面に垂直な壁面Ａと天井面Ｂで構成されているシーンが撮影されている。
図２の視点ＶＢから矢印方向に撮影すると、図３Ｂのように壁面Ａ、天井面Ｂ、右壁面Ｃなどが中心に向けて小さくなるように撮影される。図３Ｂの画像では、左右の地面に垂直な壁面Ａ及び壁面Ｃと天井面Ｂとで構成されているシーンが撮影されている。

図２の視点ＶＣから矢印方向に撮影すると、図３Ｃのように壁面Ｃが左方向に向けて小さくなるように撮影される。図３Ｃの画像では、向かって右側の地面に垂直な壁面Ｃと天井面Ｂで構成されているシーンが撮影されている。
構成推定部１０２は、入力画像がいずれの構成分類に属するか推定する。
なお、構成分類として３種を説明したが、構成分類は上述したものに限定される必要は無い。

図４は、構成推定部１０２の推定処理の概略を示す図である。次に、図４を用いて構成推定部１０２の推定処理の具体例について説明する。以下に説明する具体例では、構成推定部１０２は教師付学習に基づいて構成分類を推定する。ただし、以下に説明する代表微分値の組合せは、画像の背景の構成を表現できる特徴量の一例にすぎず、他の値が背景の構成を表現できる特徴量として用いられても良い。

まず、前処理について説明する。構成分類毎に複数枚の学習用画像が用意される。次に、学習用画像毎に複数の解像度の画像が作成される。次に、各画像が縦４横４の１６等分に分割される。以下の説明では、１６等分によって生じた１６個の画像を「部分画像」という。図４Ａは、１６等分にされた画像の具体例を示す図である。

次に、各部分画像について、各方向のエッジ成分を抽出した微分画像を作成する。図４Ｂの例では、縦方向（ｙ軸方向）のエッジ、横方向（ｘ軸方向）のエッジ、ｘ軸から４５度反時計回りに回転したエッジ、ｘ軸から４５度時計回りに回転したエッジ、の４種類の方向のエッジ成分を抽出した微分画像が生成される。この処理により、各部分画像について、エッジの方向毎に微分画像が生成される。

次に、各微分画像の代表微分値を算出する。代表微分値は各微分画像内の微分値の統計値（合計値や平均値や最頻値など）である。より具体的には、微分画像を二値化し、画素値が１（エッジ強度が強いことを示す値）の画素の数を代表微分値して用いても良い。また、微分画像を２５６階調の画像とし、各画素の値の合計値を代表微分値として用いても良い。また、微分画像を２５６階調の画像とし、画素値の平均値を代表微分値として用いても良い。

この時点で、一つの画像に対し、１６枚の部分画像が生成され、各部分画像について４枚の微分画像が生成され、微分画像毎に一つの代表微分値が算出されている。したがって、一つの画像に対し、１６×４＝６４個の代表微分値が算出されている。この代表微分値の数字の並びが、その画像の特徴量として用いられる。以上の処理が各解像度の画像毎に行われ、それぞれの特徴量が算出される。

次に、上述のようにして算出した各解像度の各学習用画像の特徴量に基づいて、構成分類を推定するための識別器が作成される。図４Ｃは、識別器のモデルを表す図である。図４Ｄは、識別器による識別結果のパターンを表す図である。特徴量と、その特徴量が示す構成分類とを教師データとして、ニューラルネットワークで学習させる。ニューラルネットワークとしては、例えば以下の文献に開示される技術が適用されても良い。コンピュータビジョン最先端ガイド２，八木康史・齋藤英雄編，アドコム・メディア株式会社，2010年6月発行，p.96-98。また、識別器はニューラルネットワークに限定される必要は無く、例えばＳＶＭなど、他の識別器が用いられても良い。ＳＶＭとしては、例えば以下の文献に開示される技術が適用されても良い。コンピュータビジョン最先端ガイド２，八木康史・齋藤英雄編，アドコム・メディア株式会社，2010年6月発行，p.108-113。
以上の処理が前処理である。

次に、構成推定部１０２の処理について説明する。構成推定部１０２は、以上のようにして前処理によって予め作成された識別器を用いて、入力画像に応じた構成分類を選択する。具体的には以下の通りである。構成推定部１０２は、識別器を作成する処理（前処理）と同様にして、入力画像について特徴量を算出する。そして、構成推定部１０２は、算出された特徴量と、予め設定された識別器と、に基づいて、入力画像に応じた構成分類を選択する。

次に、大カテゴリ領域分割部１０３の処理について詳細に説明する。
大カテゴリ領域分割部１０３は、構成推定部１０２による推定結果に基づいて、入力画像に対して初期領域を設定する。そして、大カテゴリ領域分割部１０３は、初期領域内の画素値に基づいて、画像を初期領域の数に応じた部分領域（大カテゴリ領域）に分割する。

大カテゴリ領域分割部１０３は、構成分類毎に、初期領域の座標を予め記憶している。一つの構成分類に対して設定される初期領域の数は一つであっても良いし複数であっても良い。初期領域は、構成分類において一つの面が存在すると推定される領域毎に設定される。例えば、図３Ａの構成分類では、天井面Ｂを示す初期領域と、左壁面Ａを示す初期領域とが設定される。例えば、図３Ｂの構成分類では、天井面Ｂを示す初期領域と、左壁面Ａを示す初期領域と、右壁面Ｃを示す初期領域とが設定される。例えば、図３Ｃの構成分類では、天井面Ｂを示す初期領域と、右壁面Ｃを示す初期領域とが設定される。

各面に設定される初期領域の座標はどのように決められても良い。例えば、初期領域の座標は、上述した前処理において用いられた学習用画像において、各物体の領域として最も多く画像上に現れた領域を、初期領域の座標として決定しても良い。例えば、学習用画像毎に各物体の領域の重心を抽出し、各重心の統計的な位置（例えば重心）から所定範囲の領域を初期領域の座標として決定しても良い。

図５は、初期領域の具体例を示す図である。図５においては、画像の右下側に、右壁面Ｃに対応する初期領域２１が設定されており、画像の左上部分に天井面Ｂに対応する初期領域２２が設定されている。

次に、大カテゴリ領域分割部１０３は、初期領域内の画素値に基づいて入力画像を複数の領域に分割する。大カテゴリ領域分割部１０３によって生成された各領域を、大カテゴリ領域という。大カテゴリ領域分割部１０３の具体的な処理は以下の通りである。大カテゴリ領域分割部１０３は、初期領域外の領域を、どの初期領域と同種の領域であるか判定する。大カテゴリ領域分割部１０３は、同種の領域を一つの大カテゴリ領域と判定することによって、入力画像を複数の領域に分割する。大カテゴリ領域分割部１０３は、例えば画素の色が似ている（画素値の差が閾値より小さい）領域を同種の領域と判定しても良いし、他の判定方法であっても良い。より具体的には、大カテゴリ領域分割部１０３が初期領域に基づいて行う領域分割の処理は、ｗａｔｅｒｓｈｅｄ法に基づいて行われても良い。ｗａｔｅｒｓｈｅｄ法として、例えば以下の文献に開示される技術が適用されても良い。詳細OpenCV-コンピュータビジョンライブラリを使った画像処理・認識，松田晃一訳，オーム社，2010年2月発行，p.299-300。

次に、大カテゴリラベル付与部１０４の処理について説明する。大カテゴリラベルは、各大カテゴリ領域に対して付与される情報である。大カテゴリラベルは、その大カテゴリ領域がどのような物体であるかを示す情報である。例えば、大カテゴリラベルの具体例として、天井、壁、床などがある。各初期領域には大カテゴリラベルが予め定義されている。大カテゴリラベル付与部１０４は、各大カテゴリ領域に対し、その大カテゴリ領域が形成される際に使用された初期領域に対応する大カテゴリラベルを付与する。

なお、初期領域に対して一つの大カテゴリラベルが定義されている場合には、大カテゴリラベル付与部１０４は、この対応付けを予め記憶している。大カテゴリラベル付与部１０４は、大カテゴリ領域に対し、予め対応付けられている大カテゴリラベルを付与する。
一方、初期領域に対して複数の大カテゴリラベルが定義されている場合には、大カテゴリラベル付与部１０４は複数の大カテゴリラベルの中から一つの大カテゴリラベルを選択して付与する。以下、一つの初期領域に対して複数の大カテゴリラベルが定義されている場合の大カテゴリラベル付与部１０４の処理の具体例について説明する。

各大カテゴリラベルには、大カテゴリ領域の画素値に基づいて算出される特徴量が対応付けて定義されている。すなわち、一つの初期領域に対し、大カテゴリラベル及びその特徴量の組合せが複数定義されている。大カテゴリラベル付与部１０４は、この定義を予め記憶している。大カテゴリラベルに対して対応付けて定義されている特徴量は、例えば以下のような前処理によって予め定義されている。まず、学習用画像から各大カテゴリラベルに相当する領域（例えば壁、天井といった領域）を手動又は画像認識装置などで切り出す。そして、切り出した領域毎に特徴量を算出する。以上の前処理によって、各大カテゴリラベルに対応する特徴量が算出される。

特徴量には、画素値のヒストグラムが用いられてもよいし、Bag of features等のヒストグラムが用いられてもよい。Bag of featuresとしては、例えば以下の文献に開示される技術が適用されても良い。コンピュータビジョン最先端ガイド３，八木康史・齋藤英雄編，アドコム・メディア株式会社，2010年12月発行，p.90-93。また、例えば特徴量を濃淡値のヒストグラムで表す場合、各画素値（各ビン）での平均値を並べたものを、特徴量としてもよい。

次に、前処理によって定義されている特徴量を用いた大カテゴリラベル付与部１０４の処理について説明する。大カテゴリラベル付与部１０４は、処理の対象としている大カテゴリ領域について特徴量を算出する。そして、大カテゴリラベル付与部１０４は、特徴量が最も類似する大カテゴリラベルを選択し、処理の対象としている大カテゴリ領域に対して付与する。

大カテゴリラベル付与部１０４は、例えば、特徴量としてヒストグラムが与えられた場合、Histogram Intersectionを用いて特徴量の類比を判定しても良い。Histogram Intersectionは、二つのヒストグラムが似ているほど大きな値を示す。二つのヒストグラムをそれぞれＨ_１、Ｈ_２と表し、ヒストグラムＨのｉ番目のビンの値をＨ［ｉ］と表すと、Histogram Intersectionの値（Ｓ）は以下に示す式１で定義できる。
二つのヒストグラムがまったく同じ場合に、Histogram Intersectionの値（Ｓ）は最大値をとる。大カテゴリラベル付与部１０４は、大カテゴリラベル毎にＳの値を算出し、Ｓの値が最も大きい大カテゴリラベルを選択して付与する。

ヒストグラムは、画像サイズによって値が変わらないように下のように正規化してもよい。式２は、正規化したHistogram Intersectionの値（Ｓ’）を表す式である。
正規化すると、Histogram Intersectionの値（Ｓ’）は０から１の間の値をとる。二つのヒストグラムがまったく同じ場合に、正規化したHistogram Intersectionの値（Ｓ’）は１となる。大カテゴリラベル付与部１０４は、大カテゴリラベル毎にＳ’の値を算出し、Ｓ’の値が最も大きい（最も１に近い）大カテゴリラベルを選択して付与する。

次に、小カテゴリ領域分割部１０５の処理について説明する。小カテゴリ領域分割部１０５は、大カテゴリ領域を、さらに小さい複数の領域（小カテゴリ領域）に分割する。以下、小カテゴリ領域分割部１０５の処理の具体例としていくつか説明する。

［平均値シフト法］
小カテゴリ領域分割部１０５は、大カテゴリ領域分割部１０３の処理とは異なり、初期領域を設定しない方法で大カテゴリ領域を複数の領域に分割しても良い。このような分割手法として、以下の文献に開示された平均値シフト法がある。詳細OpenCV-コンピュータビジョンライブラリを使った画像処理・認識，松田晃一訳，オーム社，2010年2月発行，p.301-303。

［初期領域を用いた分割法（初期領域数未知）］
前処理として、各大カテゴリラベルにおいて含まれている可能性のある物体を、共起情報として学習しておく。例えば、大カテゴリラベルが壁の場合には、小カテゴリとなる物体して、ポスター、シャッター、窓、扉、が含まれる可能性が有るという学習結果が得られる。そして、各物体の画素値の特徴量が学習結果として予め取得される。小カテゴリ領域分割部１０５は、この学習結果を予め記憶している。したがって、小カテゴリ領域分割部１０５は共起情報記憶部としても機能する。小カテゴリ領域分割部１０５は、大カテゴリ領域の画素値と学習結果の特徴量とに基づいて、大カテゴリ領域内にどのような物体が含まれているかを推測する。小カテゴリ領域分割部１０５は、含まれていると推測された物体の数に応じた数の初期領域を、大カテゴリ領域内に設定する。そして、小カテゴリ領域分割部１０５は、初期領域に基づいて領域分割を行っても良い。

［初期領域を用いた分割法（初期領域数既知）］
各大カテゴリラベルにおいて、初期領域数が予め設定されている。例えば、大カテゴリラベルが壁の場合に、必ずポスターとシャッターの二つの物体が含まれることがわかっているとする。この場合には、大カテゴリラベル「壁」に対応付けて、初期領域の数「２」が予め対応付けてられている。小カテゴリ領域分割部１０５は、大カテゴリラベルに対応付けられた数の初期領域を、大カテゴリ領域内に設定する。そして、小カテゴリ領域分割部１０５は、初期領域に基づいて領域分割を行っても良い。

［初期領域を用いた分割法（初期領域数候補）］
各大カテゴリラベルにおいて、初期領域数の候補が複数設定されている。例えば、「壁」という大カテゴリラベルに対して、ポスター及びシャッターの二つの物体が含まれる場合と、ポスターのみが含まれる場合とがある。この場合には、大カテゴリラベル「壁」に対応付けて、初期領域の数「２」と「１」とが予め対応付けてられている。さらに、各初期領域の数に対し、予め学習用画像に基づいて得られている特徴量が対応付けられている。小カテゴリ領域分割部１０５は、大カテゴリ領域の画素値に基づいて特徴量を算出し、各初期領域の数に対応付けられた特徴量と比較することによって、初期領域の数を決定する。なお、特徴量には、カラーヒストグラムやBag of featuresのヒストグラムなど、比較に適していればどのような特徴量が用いられても良い。また、特徴量の比較方法としては、各特徴量に適した方法が適用される。例えば、カラーヒストグラムを特徴量とした場合には、上述したHistogram Intersectionが用いられても良い。

以下、カラーヒストグラムを特徴量として用いた場合の処理の具体例について説明する。前処理として、まず学習用画像から、大カテゴリラベルが壁の領域を手動等の手法によって切り出す。次に、壁上にポスターがある領域と、壁上にシャッターがある領域と、壁上にシャッター及びポスターがある領域との３つに分類する。次に、切り出した領域それぞれのカラーヒストグラムを算出する。そして、算出されたヒストグラムの平均値や最頻値等の値を、各分類の特徴量とする。以上が前処理である。

小カテゴリ領域分割部１０５は、大カテゴリ領域の特徴量と、各分類の特徴量とを比較する。小カテゴリ領域分割部１０５は、最も特徴量が類似している分類を選択し、初期領域の数を決定する。例えば、大カテゴリ領域「壁」の領域の特徴量と、壁上にポスターのみがある領域の特徴量とが最も類似していた場合、大カテゴリ領域「壁」の分割数は２となる。小カテゴリ領域分割部１０５は、大カテゴリラベルに対応付けられた数の初期領域を、大カテゴリ領域内に設定する。そして、小カテゴリ領域分割部１０５は、初期領域に基づいて領域分割を行っても良い。

次に、小カテゴリラベル付与部１０６の処理について詳細に説明する。小カテゴリラベルは、各小カテゴリ領域に対して付与される情報である。小カテゴリラベルは、その小カテゴリ領域がどのような物体であるかを示す情報である。例えば、小カテゴリラベルの具体例として、ポスター、看板、シャッター、窓などがある。各大カテゴリラベルには、その中に含まれる可能性のある小カテゴリラベルが予め定義されている。小カテゴリラベル付与部１０６は、各小カテゴリ領域に対し、その小カテゴリ領域を内包している大カテゴリラベルに対応付けられているラベルを付与する。

なお、大カテゴリラベルに対して一つの小カテゴリラベルが定義されている場合には、小カテゴリラベル付与部１０６はその小カテゴリラベルを小カテゴリ領域に付与する。
一方、大カテゴリラベルに対して複数の小カテゴリラベルが定義されている場合には、小カテゴリラベル付与部１０６は、小カテゴリ領域毎に複数の小カテゴリラベルの中から一つの小カテゴリラベルを選択して付与する。以下、一つの大カテゴリラベルに対して複数の小カテゴリラベルが定義されている場合の小カテゴリラベル付与部１０６の処理の具体例について説明する。

小カテゴリラベルには、小カテゴリ領域の画素値に基づいて算出される特徴量が対応付けて定義されている。小カテゴリラベルに対して対応付けて定義されている特徴量は、例えば以下のような前処理によって予め定義されている。まず、学習用画像から、小カテゴリラベルに相当する領域を手動又は画像認識装置などで切り出す。そして、切り出した領域毎に特徴量を算出する。

また、大カテゴリラベルと、それに内包される小カテゴリラベルとの共起情報を、学習用画像に基づいて予め取得しておく。すなわち、大カテゴリラベルと小カテゴリラベルとの組合せ毎に、共起情報を予め定義しておく。
以上の前処理によって、各小カテゴリラベルに対応する特徴量と、大カテゴリラベル及び小カテゴリラベルの組合せ毎の共起情報が算出される。小カテゴリ領域分割部１０５は、この共起情報の対応付けを予め記憶している。したがって、小カテゴリ領域分割部１０５は共起情報記憶部としても機能する。

次に、前処理によって定義されている特徴量を用いた小カテゴリラベル付与部１０６の処理について説明する。小カテゴリラベル付与部１０６は、処理の対象としている小カテゴリ領域について特徴量を算出する。次に、小カテゴリラベル付与部１０６は、共起情報に基づいて、処理の対象としている大カテゴリラベルにおいて内包される可能性の高い小カテゴリラベルを選択する。そして、小カテゴリラベル付与部１０６は、選択された小カテゴリラベルの特徴量と、小カテゴリ領域から算出された特徴量とを比較する。小カテゴリラベル付与部１０６は、特徴量が最も類似する小カテゴリラベルを選択し、処理の対象としている小カテゴリ領域に対して付与する。

小カテゴリラベル付与部１０６は、例えば、特徴量としてヒストグラムが与えられた場合、Histogram Intersectionを用いて特徴量の類比を判定しても良い。Histogram Intersectionは、二つのヒストグラムが似ているほど大きな値を示す。二つのヒストグラムをそれぞれＨ_１、Ｈ_２と表し、ヒストグラムＨのｉ番目のビンの値をＨ［ｉ］と表すと、Histogram Intersectionの値（Ｓ）は以下に示す式３で定義できる。
二つのヒストグラムがまったく同じ場合に、Histogram Intersectionの値（Ｓ）は最大値をとる。小カテゴリラベル付与部１０６は、小カテゴリラベル毎にＳの値を算出し、Ｓの値が最も大きい小カテゴリラベルを選択して付与する。

ヒストグラムは、画像サイズによって値が変わらないように下のように正規化してもよい。式４は、正規化したHistogram Intersectionの値（Ｓ’）を表す式である。
正規化すると、Histogram Intersectionの値（Ｓ’）は０から１の間の値をとる。二つのヒストグラムがまったく同じ場合に、正規化したHistogram Intersectionの値（Ｓ’）は１となる。小カテゴリラベル付与部１０６は、小カテゴリラベル毎にＳ’の値を算出し、Ｓ’の値が最も大きい（最も１に近い）小カテゴリラベルを選択して付与する。

画像解析装置１００では、構造推定をおこなうことにより、天井（空）面、垂直面（壁など）、床（地面）面といったような大まかなシードを与えることが可能となり、精度の良いラベル付けを可能とする。付与されたラベルから、所望の領域のみを抽出し、検索のキーなどに用いることも可能となる。

＜変形例＞
小カテゴリラベル付与部１０６は、特徴量を比較する際に、各小カテゴリラベルにおける比較結果を示す値（以下、「比較値」という。）を領域共起情報に基づいて補正しても良い。比較値とは、例えば上述した式３によって得られる値Ｓや、式４によって得られる値Ｓ’等である。小カテゴリラベル付与部１０６は、処理の対象としている大カテゴリラベルにおいて、内包される可能性の高いことを示す共起情報を持つ小カテゴリラベルの比較値に対しては、その値がより類似していることを示す値となるように補正する。一方、小カテゴリラベル付与部１０６は、処理の対象としている大カテゴリラベルにおいて、内包される可能性の低いことを示す共起情報を持つ小カテゴリラベルの比較値に対しては、その値がより類似していないことを示す値となるように補正する。そして、小カテゴリラベル付与部１０６は、補正後の比較値に基づいて小カテゴリラベルを選択する。

大カテゴリ領域分割部１０３は、小カテゴリラベル付与部１０６の処理結果のフィードバックを受けて、再度分割処理を行うように構成されても良い。以下、フィードバックの処理について具体例を説明する。
大カテゴリ領域分割部１０３は、小カテゴリラベル付与部１０６の処理結果と、大カテゴリラベルとの組合せ毎に、整合性を判断するための条件を予め記憶している。大カテゴリ領域分割部１０３は、大カテゴリラベル毎に、整合性の条件が満たされているか否か判定する。整合性の条件が満たされている場合には、大カテゴリ領域分割部１０３はその大カテゴリ領域について、再度の分割処理は行わない。一方、整合性の条件が満たされていない場合には、大カテゴリ領域分割部１０３は、再度の分割処理を行う。

図６は、フィードバックの処理の具体例を示す図である。図６Ａは、入力画像の具体例を示す図である。図６Ｂは、大カテゴリラベル付与部１０４による最初の処理結果を示す図である。図６Ｂでは、直線３３を境界として、上方向に大カテゴリ領域３１が設定され「天井」のラベルが付与され、下方向に大カテゴリ領域３２が設定され「壁」のラベルが付与されている。図６Ｃは、小カテゴリラベル付与部１０６による最初の処理結果を示す図である。図６Ｃでは、大カテゴリ領域３１の内部において、看板のラベルを有する小カテゴリ領域３１１が設定されている。

天井と壁との境界線が直線３３であるとすると、看板の小カテゴリ領域３１１は天井に埋まってしまうことになり、現実の状況では生じ得ない。そのため、天井の大カテゴリラベルと看板の小カテゴリラベルとの整合性の条件として、看板の小カテゴリ領域が境界線に接している又は跨いでいることが予め設定されている。大カテゴリ領域分割部１０３は、図６Ｃに示される処理結果では、予め設定されている条件が満たされていないと判定する。そして、大カテゴリ領域分割部１０３は、看板の小カテゴリ領域が境界線（直線３３）に接する又はこれを跨ぐように、領域分割処理をやりなおす。図６Ｄは、大カテゴリ領域分割部１０３が領域分割処理を再度行った結果を示す図である。図６Ｄに示されるように、大カテゴリ領域分割部１０３は、小カテゴリラベル付与部１０６の処理結果と整合性の条件とに基づいて、この条件を満たすように領域分割を行う。このように、フィードバック処理を施すことにより、さらに精度良く領域を分割しラベルを付与することが可能となる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１００…画像解析装置，１０１…画像入力部，１０２…構成推定部，１０３…大カテゴリ領域分割部（第一分割部），１０４…大カテゴリラベル付与部（第一ラベル付与部），１０５…小カテゴリ領域分割部（第二分割部），１０６…小カテゴリラベル付与部（第二ラベル付与部），１０７…出力部

Claims

コンピュータが、
入力された画像の背景の構成を推定する構成推定ステップと、
前記構成の推定結果に基づいて、前記画像を複数の第一領域に分割する第一分割ステップと、
前記第一領域に対し、その領域に写っている物体に応じたラベルを付与する第一ラベル付与ステップと、
前記第一領域を、当該第一領域に付与された前記ラベルに基づいて複数の第二領域に分割する第二分割ステップと、
前記第二領域に対し、その領域に移っている物体に応じたラベルを付与する第二ラベル付与ステップと、
を有する画像解析方法。
前記第二領域として前記画像に写る第二物体と、前記各第二物体が前記第一ラベルが付与された前記第一領域に含まれる可能性を表す共起情報とが、対応付けて予め記憶されており、
前記第二分割ステップにおいて、前記共起情報に基づいて、前記第一領域を複数の前記第二領域に分割する、請求項１に記載の画像解析方法。
入力された画像の背景の構成を推定する構成推定部と、
前記構成の推定結果に基づいて、前記画像を複数の第一領域に分割する第一分割部と、
前記第一領域に対し、その領域に写っている物体に応じたラベルを付与する第一ラベル付与部と、
前記第一領域を、当該第一領域に付与された前記ラベルに基づいて複数の第二領域に分割する第二分割部と、
前記第二領域に対し、その領域に移っている物体に応じたラベルを付与する第二ラベル付与部と、
を備える画像解析装置。
前記第二領域として前記画像に写る第二物体と、前記各第二物体が前記第一ラベルが付与された前記第一領域に含まれる可能性を表す共起情報とを、対応付けて予め記憶する共起情報記憶部をさらに備え、
前記第二分割部は、前記共起情報に基づいて、前記第一領域を複数の前記第二領域に分割する、請求項３に記載の画像解析装置。
コンピュータに対し請求項１又は請求項２に記載の各ステップを実行させるためのコンピュータプログラム。