JP2013080390A - 画像解析方法、画像解析装置及びコンピュータプログラム - Google Patents

画像解析方法、画像解析装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2013080390A
JP2013080390A JP2011220235A JP2011220235A JP2013080390A JP 2013080390 A JP2013080390 A JP 2013080390A JP 2011220235 A JP2011220235 A JP 2011220235A JP 2011220235 A JP2011220235 A JP 2011220235A JP 2013080390 A JP2013080390 A JP 2013080390A
Authority
JP
Japan
Prior art keywords
image
area
region
label
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011220235A
Other languages
English (en)
Inventor
Kaori Kataoka
香織 片岡
Masashi Morimoto
正志 森本
Kyoko Sudo
恭子 数藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011220235A priority Critical patent/JP2013080390A/ja
Publication of JP2013080390A publication Critical patent/JP2013080390A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】手動による指定を行うことなく、撮影された物体に応じて画像を複数の領域に分割する。
【解決手段】入力された画像の背景の構成を推定し、構成の推定結果に基づいて、画像を複数の第一領域に分割し、第一領域に対し、その領域に写っている物体に応じたラベルを付与し、第一領域を、当該第一領域に付与されたラベルに基づいて複数の第二領域に分割し、第二領域に対し、その領域に移っている物体に応じたラベルを付与する。
【選択図】図1

Description

本発明は、画像を解析する技術に関する。
近年、複数の面で構成された背景を撮影した奥行き情報を有さない1枚の画像から、被写体の構造を推定し、その推定データに基づいて領域分割及びラベル付けを行う技術が提案されている。複数の面で構成された背景の画像とは、例えば建物の外観や建物内などを背景として撮影された画像である。このような画像の背景は、屋根、天井、床、壁面などの複数の面で構成される。
従来、画像の領域を分割する技術として、例えば非特許文献1に開示された技術がある。この技術では、まず、画像内で前景オブジェクトが含まれる矩形領域を手動で大まかに指定する。次に、指定された領域の外側の色分布に基づいて、背景と推定される色を決定する。そして、指定された領域の内側から、決定された色の部分を取り除くことによって、前景オブジェクトを正確に抽出する。
C. Rother, V. Kolmogorov, and A. Blake, "GrabCut: Interactive foreground extraction using iterated graph cuts", ACM Trans. Graph., vol. 23, pp. 309-314, 2004.
しかしながら、従来の技術では、前景オブジェクトの領域をわざわざ手動で指定する必要があった。
上記事情に鑑み、本発明は、手動による指定を行うことなく、撮影された物体に応じて画像を複数の領域に分割する技術の提供を目的としている。
本発明の一態様は、コンピュータが、入力された画像の背景の構成を推定する構成推定ステップと、前記構成の推定結果に基づいて、前記画像を複数の第一領域に分割する第一分割ステップと、前記第一領域に対し、その領域に写っている物体に応じたラベルを付与する第一ラベル付与ステップと、前記第一領域を、当該第一領域に付与された前記ラベルに基づいて複数の第二領域に分割する第二分割ステップと、前記第二領域に対し、その領域に移っている物体に応じたラベルを付与する第二ラベル付与ステップと、を有する画像解析方法である。
本発明の一態様は、上記の画像解析方法であって、前記第二領域として前記画像に写る第二物体と、前記各第二物体が前記第一ラベルが付与された前記第一領域に含まれる可能性を表す共起情報とが、対応付けて予め記憶されており、前記第二分割ステップにおいて、前記共起情報に基づいて、前記第一領域を複数の前記第二領域に分割する。
本発明の一態様は、入力された画像の背景の構成を推定する構成推定部と、前記構成の推定結果に基づいて、前記画像を複数の第一領域に分割する第一分割部と、前記第一領域に対し、その領域に写っている物体に応じたラベルを付与する第一ラベル付与部と、前記第一領域を、当該第一領域に付与された前記ラベルに基づいて複数の第二領域に分割する第二分割部と、前記第二領域に対し、その領域に移っている物体に応じたラベルを付与する第二ラベル付与部と、を備える画像解析装置である。
本発明の一態様は、上記の画像解析装置であって、前記第二領域として前記画像に写る第二物体と、前記各第二物体が前記第一ラベルが付与された前記第一領域に含まれる可能性を表す共起情報とを、対応付けて予め記憶する共起情報記憶部をさらに備え、前記第二分割部は、前記共起情報に基づいて、前記第一領域を複数の前記第二領域に分割する。
本発明の一態様は、コンピュータに対し上記の画像解析方法の各ステップを実行させるためのコンピュータプログラムである。
本発明により、手動による指定を行うことなく、撮影された物体に応じて画像を複数の領域に分割するが可能となる。
画像解析装置の機能構成を表す概略ブロック図である。 構成分類の具体例を示す図である。 構成分類の具体例を示す図である。 構成推定部102の推定処理の概略を示す図である。 初期領域の具体例を示す図である。 フィードバックの処理の具体例を示す図である。
[概要]
画像解析装置は、画像を解析することによって、撮影された物体に応じて画像を複数の領域に分割する。具体的な処理は以下の通りである。まず、画像解析装置は、画像の背景の構成を推定する。次に、画像解析装置は、推定結果に基づいて、画像中の予め設定された座標に複数の初期領域を設定する。次に、画像解析装置は、初期領域内の画素値に基づいて、画像を初期領域の数に応じた部分領域(大カテゴリ領域)に分割し、各大カテゴリ領域にラベルを付与する。次に、画像解析装置は、部分領域をさらに小さな部分領域(小カテゴリ領域)に分割し、各小カテゴリ領域にラベルを付与する。
次に、画像解析装置の詳細について説明する。
図1は、画像解析装置の機能構成を表す概略ブロック図である。画像解析装置100は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、画像解析プログラムを実行する。画像解析装置100は、このプログラムを実行することによって、画像入力部101、構成推定部102、大カテゴリ領域分割103、大カテゴリラベル付与部104、小カテゴリ領域分割部105、小カテゴリラベル付与部106、出力部107を備える装置として機能する。なお、画像解析装置100の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。画像解析プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。画像解析プログラムは、電気通信回線を介して通信されても良い。
画像入力部101は、画像解析装置100に対して入力される画像のデータを受け付ける。画像入力部101は、例えばCD−ROMやUSBメモリ(Universal Serial Bus Memory)等の記録媒体に記録された画像のデータを読み出しても良い。また、画像入力部101は、スチルカメラやビデオカメラによって撮像された画像を、カメラから受信しても良い。また、画像解析装置100がスチルカメラやビデオカメラに内蔵されている場合は、画像入力部101は撮像された画像又は撮像前の画像をバスから受信しても良い。また、画像入力部101は、ネットワークを介して他の情報処理装置から画像のデータを受信しても良い。画像入力部101は、画像のデータの入力を受けることが可能な構成であれば、さらに異なる態様で構成されても良い。画像入力部101によって入力が受け付けられた画像を、「入力画像」という。
構成推定部102は、画像の背景の構成を推定する。次に、大カテゴリ領域分割部103は、推定結果に基づいて、画像中の予め設定された座標に、複数の初期領域を設定し、初期領域内の画素値に基づいて、画像を初期領域の数に応じた部分領域(大カテゴリ領域)に分割する。大カテゴリラベル付与部104は、各大カテゴリ領域に対して、その部分に写っている物体に応じたラベルを付与する。小カテゴリ領域分割部105は、部分領域(大カテゴリ領域)をさらに小さな部分領域(小カテゴリ領域)に分割する。小カテゴリラベル付与部106は、各小カテゴリ領域に対して、その部分に写っている物体に応じたラベルを付与する。出力部107は、大カテゴリラベル付与部104及び小カテゴリラベル付与部106による処理結果を出力する。
次に、構成推定部102の処理について詳細に説明する。構成推定部102には、複数の構成分類と、各構成分類における入力画像の特徴量との対応付けが予め記憶されている。構成分類とは、画像のどの部分にどのような物体が写っているかを表す分類である。構成推定部102は、入力画像の特徴量を算出し、予め記憶している特徴量と比較することによって、複数の構成分類の中から一つの構成分類を選択する。図2及び図3は、構成分類の具体例を示す図である。図3A〜図3Cは、それぞれが一つの構成分類の具体例を表している。図2に示されるように、建物の内部は一般的に左右の壁面A,Cと、奥側の面Dと、天井面Bと床面Eとで構成される。
図2の視点VAから矢印方向に撮影すると、図3Aのように壁面Aが右方向に向けて小さくなるように撮影される。すなわち、図3Aの画像では、向かって左側の地面に垂直な壁面Aと天井面Bで構成されているシーンが撮影されている。
図2の視点VBから矢印方向に撮影すると、図3Bのように壁面A、天井面B、右壁面Cなどが中心に向けて小さくなるように撮影される。図3Bの画像では、左右の地面に垂直な壁面A及び壁面Cと天井面Bとで構成されているシーンが撮影されている。
図2の視点VCから矢印方向に撮影すると、図3Cのように壁面Cが左方向に向けて小さくなるように撮影される。図3Cの画像では、向かって右側の地面に垂直な壁面Cと天井面Bで構成されているシーンが撮影されている。
構成推定部102は、入力画像がいずれの構成分類に属するか推定する。
なお、構成分類として3種を説明したが、構成分類は上述したものに限定される必要は無い。
図4は、構成推定部102の推定処理の概略を示す図である。次に、図4を用いて構成推定部102の推定処理の具体例について説明する。以下に説明する具体例では、構成推定部102は教師付学習に基づいて構成分類を推定する。ただし、以下に説明する代表微分値の組合せは、画像の背景の構成を表現できる特徴量の一例にすぎず、他の値が背景の構成を表現できる特徴量として用いられても良い。
まず、前処理について説明する。構成分類毎に複数枚の学習用画像が用意される。次に、学習用画像毎に複数の解像度の画像が作成される。次に、各画像が縦4横4の16等分に分割される。以下の説明では、16等分によって生じた16個の画像を「部分画像」という。図4Aは、16等分にされた画像の具体例を示す図である。
次に、各部分画像について、各方向のエッジ成分を抽出した微分画像を作成する。図4Bの例では、縦方向(y軸方向)のエッジ、横方向(x軸方向)のエッジ、x軸から45度反時計回りに回転したエッジ、x軸から45度時計回りに回転したエッジ、の4種類の方向のエッジ成分を抽出した微分画像が生成される。この処理により、各部分画像について、エッジの方向毎に微分画像が生成される。
次に、各微分画像の代表微分値を算出する。代表微分値は各微分画像内の微分値の統計値(合計値や平均値や最頻値など)である。より具体的には、微分画像を二値化し、画素値が1(エッジ強度が強いことを示す値)の画素の数を代表微分値して用いても良い。また、微分画像を256階調の画像とし、各画素の値の合計値を代表微分値として用いても良い。また、微分画像を256階調の画像とし、画素値の平均値を代表微分値として用いても良い。
この時点で、一つの画像に対し、16枚の部分画像が生成され、各部分画像について4枚の微分画像が生成され、微分画像毎に一つの代表微分値が算出されている。したがって、一つの画像に対し、16×4=64個の代表微分値が算出されている。この代表微分値の数字の並びが、その画像の特徴量として用いられる。以上の処理が各解像度の画像毎に行われ、それぞれの特徴量が算出される。
次に、上述のようにして算出した各解像度の各学習用画像の特徴量に基づいて、構成分類を推定するための識別器が作成される。図4Cは、識別器のモデルを表す図である。図4Dは、識別器による識別結果のパターンを表す図である。特徴量と、その特徴量が示す構成分類とを教師データとして、ニューラルネットワークで学習させる。ニューラルネットワークとしては、例えば以下の文献に開示される技術が適用されても良い。コンピュータビジョン最先端ガイド2, 八木康史・齋藤英雄編,アドコム・メディア株式会社,2010年6月発行,p.96-98。また、識別器はニューラルネットワークに限定される必要は無く、例えばSVMなど、他の識別器が用いられても良い。SVMとしては、例えば以下の文献に開示される技術が適用されても良い。コンピュータビジョン最先端ガイド2, 八木康史・齋藤英雄編,アドコム・メディア株式会社,2010年6月発行,p.108-113。
以上の処理が前処理である。
次に、構成推定部102の処理について説明する。構成推定部102は、以上のようにして前処理によって予め作成された識別器を用いて、入力画像に応じた構成分類を選択する。具体的には以下の通りである。構成推定部102は、識別器を作成する処理(前処理)と同様にして、入力画像について特徴量を算出する。そして、構成推定部102は、算出された特徴量と、予め設定された識別器と、に基づいて、入力画像に応じた構成分類を選択する。
次に、大カテゴリ領域分割部103の処理について詳細に説明する。
大カテゴリ領域分割部103は、構成推定部102による推定結果に基づいて、入力画像に対して初期領域を設定する。そして、大カテゴリ領域分割部103は、初期領域内の画素値に基づいて、画像を初期領域の数に応じた部分領域(大カテゴリ領域)に分割する。
大カテゴリ領域分割部103は、構成分類毎に、初期領域の座標を予め記憶している。一つの構成分類に対して設定される初期領域の数は一つであっても良いし複数であっても良い。初期領域は、構成分類において一つの面が存在すると推定される領域毎に設定される。例えば、図3Aの構成分類では、天井面Bを示す初期領域と、左壁面Aを示す初期領域とが設定される。例えば、図3Bの構成分類では、天井面Bを示す初期領域と、左壁面Aを示す初期領域と、右壁面Cを示す初期領域とが設定される。例えば、図3Cの構成分類では、天井面Bを示す初期領域と、右壁面Cを示す初期領域とが設定される。
各面に設定される初期領域の座標はどのように決められても良い。例えば、初期領域の座標は、上述した前処理において用いられた学習用画像において、各物体の領域として最も多く画像上に現れた領域を、初期領域の座標として決定しても良い。例えば、学習用画像毎に各物体の領域の重心を抽出し、各重心の統計的な位置(例えば重心)から所定範囲の領域を初期領域の座標として決定しても良い。
図5は、初期領域の具体例を示す図である。図5においては、画像の右下側に、右壁面Cに対応する初期領域21が設定されており、画像の左上部分に天井面Bに対応する初期領域22が設定されている。
次に、大カテゴリ領域分割部103は、初期領域内の画素値に基づいて入力画像を複数の領域に分割する。大カテゴリ領域分割部103によって生成された各領域を、大カテゴリ領域という。大カテゴリ領域分割部103の具体的な処理は以下の通りである。大カテゴリ領域分割部103は、初期領域外の領域を、どの初期領域と同種の領域であるか判定する。大カテゴリ領域分割部103は、同種の領域を一つの大カテゴリ領域と判定することによって、入力画像を複数の領域に分割する。大カテゴリ領域分割部103は、例えば画素の色が似ている(画素値の差が閾値より小さい)領域を同種の領域と判定しても良いし、他の判定方法であっても良い。より具体的には、大カテゴリ領域分割部103が初期領域に基づいて行う領域分割の処理は、watershed法に基づいて行われても良い。watershed法として、例えば以下の文献に開示される技術が適用されても良い。詳細OpenCV-コンピュータビジョンライブラリを使った画像処理・認識,松田晃一訳,オーム社,2010年2月発行,p.299-300。
次に、大カテゴリラベル付与部104の処理について説明する。大カテゴリラベルは、各大カテゴリ領域に対して付与される情報である。大カテゴリラベルは、その大カテゴリ領域がどのような物体であるかを示す情報である。例えば、大カテゴリラベルの具体例として、天井、壁、床などがある。各初期領域には大カテゴリラベルが予め定義されている。大カテゴリラベル付与部104は、各大カテゴリ領域に対し、その大カテゴリ領域が形成される際に使用された初期領域に対応する大カテゴリラベルを付与する。
なお、初期領域に対して一つの大カテゴリラベルが定義されている場合には、大カテゴリラベル付与部104は、この対応付けを予め記憶している。大カテゴリラベル付与部104は、大カテゴリ領域に対し、予め対応付けられている大カテゴリラベルを付与する。
一方、初期領域に対して複数の大カテゴリラベルが定義されている場合には、大カテゴリラベル付与部104は複数の大カテゴリラベルの中から一つの大カテゴリラベルを選択して付与する。以下、一つの初期領域に対して複数の大カテゴリラベルが定義されている場合の大カテゴリラベル付与部104の処理の具体例について説明する。
各大カテゴリラベルには、大カテゴリ領域の画素値に基づいて算出される特徴量が対応付けて定義されている。すなわち、一つの初期領域に対し、大カテゴリラベル及びその特徴量の組合せが複数定義されている。大カテゴリラベル付与部104は、この定義を予め記憶している。大カテゴリラベルに対して対応付けて定義されている特徴量は、例えば以下のような前処理によって予め定義されている。まず、学習用画像から各大カテゴリラベルに相当する領域(例えば壁、天井といった領域)を手動又は画像認識装置などで切り出す。そして、切り出した領域毎に特徴量を算出する。以上の前処理によって、各大カテゴリラベルに対応する特徴量が算出される。
特徴量には、画素値のヒストグラムが用いられてもよいし、Bag of features等のヒストグラムが用いられてもよい。Bag of featuresとしては、例えば以下の文献に開示される技術が適用されても良い。コンピュータビジョン最先端ガイド3, 八木康史・齋藤英雄編,アドコム・メディア株式会社,2010年12月発行,p.90-93。また、例えば特徴量を濃淡値のヒストグラムで表す場合、各画素値(各ビン)での平均値を並べたものを、特徴量としてもよい。
次に、前処理によって定義されている特徴量を用いた大カテゴリラベル付与部104の処理について説明する。大カテゴリラベル付与部104は、処理の対象としている大カテゴリ領域について特徴量を算出する。そして、大カテゴリラベル付与部104は、特徴量が最も類似する大カテゴリラベルを選択し、処理の対象としている大カテゴリ領域に対して付与する。
大カテゴリラベル付与部104は、例えば、特徴量としてヒストグラムが与えられた場合、Histogram Intersectionを用いて特徴量の類比を判定しても良い。Histogram Intersectionは、二つのヒストグラムが似ているほど大きな値を示す。二つのヒストグラムをそれぞれH、Hと表し、ヒストグラムHのi番目のビンの値をH[i]と表すと、Histogram Intersectionの値(S)は以下に示す式1で定義できる。
二つのヒストグラムがまったく同じ場合に、Histogram Intersectionの値(S)は最大値をとる。大カテゴリラベル付与部104は、大カテゴリラベル毎にSの値を算出し、Sの値が最も大きい大カテゴリラベルを選択して付与する。
ヒストグラムは、画像サイズによって値が変わらないように下のように正規化してもよい。式2は、正規化したHistogram Intersectionの値(S’)を表す式である。
正規化すると、Histogram Intersectionの値(S’)は0から1の間の値をとる。二つのヒストグラムがまったく同じ場合に、正規化したHistogram Intersectionの値(S’)は1となる。大カテゴリラベル付与部104は、大カテゴリラベル毎にS’の値を算出し、S’の値が最も大きい(最も1に近い)大カテゴリラベルを選択して付与する。
次に、小カテゴリ領域分割部105の処理について説明する。小カテゴリ領域分割部105は、大カテゴリ領域を、さらに小さい複数の領域(小カテゴリ領域)に分割する。以下、小カテゴリ領域分割部105の処理の具体例としていくつか説明する。
[平均値シフト法]
小カテゴリ領域分割部105は、大カテゴリ領域分割部103の処理とは異なり、初期領域を設定しない方法で大カテゴリ領域を複数の領域に分割しても良い。このような分割手法として、以下の文献に開示された平均値シフト法がある。詳細OpenCV-コンピュータビジョンライブラリを使った画像処理・認識,松田晃一訳,オーム社,2010年2月発行,p.301-303。
[初期領域を用いた分割法(初期領域数未知)]
前処理として、各大カテゴリラベルにおいて含まれている可能性のある物体を、共起情報として学習しておく。例えば、大カテゴリラベルが壁の場合には、小カテゴリとなる物体して、ポスター、シャッター、窓、扉、が含まれる可能性が有るという学習結果が得られる。そして、各物体の画素値の特徴量が学習結果として予め取得される。小カテゴリ領域分割部105は、この学習結果を予め記憶している。したがって、小カテゴリ領域分割部105は共起情報記憶部としても機能する。小カテゴリ領域分割部105は、大カテゴリ領域の画素値と学習結果の特徴量とに基づいて、大カテゴリ領域内にどのような物体が含まれているかを推測する。小カテゴリ領域分割部105は、含まれていると推測された物体の数に応じた数の初期領域を、大カテゴリ領域内に設定する。そして、小カテゴリ領域分割部105は、初期領域に基づいて領域分割を行っても良い。
[初期領域を用いた分割法(初期領域数既知)]
各大カテゴリラベルにおいて、初期領域数が予め設定されている。例えば、大カテゴリラベルが壁の場合に、必ずポスターとシャッターの二つの物体が含まれることがわかっているとする。この場合には、大カテゴリラベル「壁」に対応付けて、初期領域の数「2」が予め対応付けてられている。小カテゴリ領域分割部105は、大カテゴリラベルに対応付けられた数の初期領域を、大カテゴリ領域内に設定する。そして、小カテゴリ領域分割部105は、初期領域に基づいて領域分割を行っても良い。
[初期領域を用いた分割法(初期領域数候補)]
各大カテゴリラベルにおいて、初期領域数の候補が複数設定されている。例えば、「壁」という大カテゴリラベルに対して、ポスター及びシャッターの二つの物体が含まれる場合と、ポスターのみが含まれる場合とがある。この場合には、大カテゴリラベル「壁」に対応付けて、初期領域の数「2」と「1」とが予め対応付けてられている。さらに、各初期領域の数に対し、予め学習用画像に基づいて得られている特徴量が対応付けられている。小カテゴリ領域分割部105は、大カテゴリ領域の画素値に基づいて特徴量を算出し、各初期領域の数に対応付けられた特徴量と比較することによって、初期領域の数を決定する。なお、特徴量には、カラーヒストグラムやBag of featuresのヒストグラムなど、比較に適していればどのような特徴量が用いられても良い。また、特徴量の比較方法としては、各特徴量に適した方法が適用される。例えば、カラーヒストグラムを特徴量とした場合には、上述したHistogram Intersectionが用いられても良い。
以下、カラーヒストグラムを特徴量として用いた場合の処理の具体例について説明する。前処理として、まず学習用画像から、大カテゴリラベルが壁の領域を手動等の手法によって切り出す。次に、壁上にポスターがある領域と、壁上にシャッターがある領域と、壁上にシャッター及びポスターがある領域との3つに分類する。次に、切り出した領域それぞれのカラーヒストグラムを算出する。そして、算出されたヒストグラムの平均値や最頻値等の値を、各分類の特徴量とする。以上が前処理である。
小カテゴリ領域分割部105は、大カテゴリ領域の特徴量と、各分類の特徴量とを比較する。小カテゴリ領域分割部105は、最も特徴量が類似している分類を選択し、初期領域の数を決定する。例えば、大カテゴリ領域「壁」の領域の特徴量と、壁上にポスターのみがある領域の特徴量とが最も類似していた場合、大カテゴリ領域「壁」の分割数は2となる。小カテゴリ領域分割部105は、大カテゴリラベルに対応付けられた数の初期領域を、大カテゴリ領域内に設定する。そして、小カテゴリ領域分割部105は、初期領域に基づいて領域分割を行っても良い。
次に、小カテゴリラベル付与部106の処理について詳細に説明する。小カテゴリラベルは、各小カテゴリ領域に対して付与される情報である。小カテゴリラベルは、その小カテゴリ領域がどのような物体であるかを示す情報である。例えば、小カテゴリラベルの具体例として、ポスター、看板、シャッター、窓などがある。各大カテゴリラベルには、その中に含まれる可能性のある小カテゴリラベルが予め定義されている。小カテゴリラベル付与部106は、各小カテゴリ領域に対し、その小カテゴリ領域を内包している大カテゴリラベルに対応付けられているラベルを付与する。
なお、大カテゴリラベルに対して一つの小カテゴリラベルが定義されている場合には、小カテゴリラベル付与部106はその小カテゴリラベルを小カテゴリ領域に付与する。
一方、大カテゴリラベルに対して複数の小カテゴリラベルが定義されている場合には、小カテゴリラベル付与部106は、小カテゴリ領域毎に複数の小カテゴリラベルの中から一つの小カテゴリラベルを選択して付与する。以下、一つの大カテゴリラベルに対して複数の小カテゴリラベルが定義されている場合の小カテゴリラベル付与部106の処理の具体例について説明する。
小カテゴリラベルには、小カテゴリ領域の画素値に基づいて算出される特徴量が対応付けて定義されている。小カテゴリラベルに対して対応付けて定義されている特徴量は、例えば以下のような前処理によって予め定義されている。まず、学習用画像から、小カテゴリラベルに相当する領域を手動又は画像認識装置などで切り出す。そして、切り出した領域毎に特徴量を算出する。
特徴量には、画素値のヒストグラムが用いられてもよいし、Bag of features等のヒストグラムが用いられてもよい。Bag of featuresとしては、例えば以下の文献に開示される技術が適用されても良い。コンピュータビジョン最先端ガイド3, 八木康史・齋藤英雄編,アドコム・メディア株式会社,2010年12月発行,p.90-93。また、例えば特徴量を濃淡値のヒストグラムで表す場合、各画素値(各ビン)での平均値を並べたものを、特徴量としてもよい。
また、大カテゴリラベルと、それに内包される小カテゴリラベルとの共起情報を、学習用画像に基づいて予め取得しておく。すなわち、大カテゴリラベルと小カテゴリラベルとの組合せ毎に、共起情報を予め定義しておく。
以上の前処理によって、各小カテゴリラベルに対応する特徴量と、大カテゴリラベル及び小カテゴリラベルの組合せ毎の共起情報が算出される。小カテゴリ領域分割部105は、この共起情報の対応付けを予め記憶している。したがって、小カテゴリ領域分割部105は共起情報記憶部としても機能する。
次に、前処理によって定義されている特徴量を用いた小カテゴリラベル付与部106の処理について説明する。小カテゴリラベル付与部106は、処理の対象としている小カテゴリ領域について特徴量を算出する。次に、小カテゴリラベル付与部106は、共起情報に基づいて、処理の対象としている大カテゴリラベルにおいて内包される可能性の高い小カテゴリラベルを選択する。そして、小カテゴリラベル付与部106は、選択された小カテゴリラベルの特徴量と、小カテゴリ領域から算出された特徴量とを比較する。小カテゴリラベル付与部106は、特徴量が最も類似する小カテゴリラベルを選択し、処理の対象としている小カテゴリ領域に対して付与する。
小カテゴリラベル付与部106は、例えば、特徴量としてヒストグラムが与えられた場合、Histogram Intersectionを用いて特徴量の類比を判定しても良い。Histogram Intersectionは、二つのヒストグラムが似ているほど大きな値を示す。二つのヒストグラムをそれぞれH、Hと表し、ヒストグラムHのi番目のビンの値をH[i]と表すと、Histogram Intersectionの値(S)は以下に示す式3で定義できる。
二つのヒストグラムがまったく同じ場合に、Histogram Intersectionの値(S)は最大値をとる。小カテゴリラベル付与部106は、小カテゴリラベル毎にSの値を算出し、Sの値が最も大きい小カテゴリラベルを選択して付与する。
ヒストグラムは、画像サイズによって値が変わらないように下のように正規化してもよい。式4は、正規化したHistogram Intersectionの値(S’)を表す式である。
正規化すると、Histogram Intersectionの値(S’)は0から1の間の値をとる。二つのヒストグラムがまったく同じ場合に、正規化したHistogram Intersectionの値(S’)は1となる。小カテゴリラベル付与部106は、小カテゴリラベル毎にS’の値を算出し、S’の値が最も大きい(最も1に近い)小カテゴリラベルを選択して付与する。
画像解析装置100では、構造推定をおこなうことにより、天井(空)面、垂直面(壁など)、床(地面)面といったような大まかなシードを与えることが可能となり、精度の良いラベル付けを可能とする。付与されたラベルから、所望の領域のみを抽出し、検索のキーなどに用いることも可能となる。
<変形例>
小カテゴリラベル付与部106は、特徴量を比較する際に、各小カテゴリラベルにおける比較結果を示す値(以下、「比較値」という。)を領域共起情報に基づいて補正しても良い。比較値とは、例えば上述した式3によって得られる値Sや、式4によって得られる値S’等である。小カテゴリラベル付与部106は、処理の対象としている大カテゴリラベルにおいて、内包される可能性の高いことを示す共起情報を持つ小カテゴリラベルの比較値に対しては、その値がより類似していることを示す値となるように補正する。一方、小カテゴリラベル付与部106は、処理の対象としている大カテゴリラベルにおいて、内包される可能性の低いことを示す共起情報を持つ小カテゴリラベルの比較値に対しては、その値がより類似していないことを示す値となるように補正する。そして、小カテゴリラベル付与部106は、補正後の比較値に基づいて小カテゴリラベルを選択する。
大カテゴリ領域分割部103は、小カテゴリラベル付与部106の処理結果のフィードバックを受けて、再度分割処理を行うように構成されても良い。以下、フィードバックの処理について具体例を説明する。
大カテゴリ領域分割部103は、小カテゴリラベル付与部106の処理結果と、大カテゴリラベルとの組合せ毎に、整合性を判断するための条件を予め記憶している。大カテゴリ領域分割部103は、大カテゴリラベル毎に、整合性の条件が満たされているか否か判定する。整合性の条件が満たされている場合には、大カテゴリ領域分割部103はその大カテゴリ領域について、再度の分割処理は行わない。一方、整合性の条件が満たされていない場合には、大カテゴリ領域分割部103は、再度の分割処理を行う。
図6は、フィードバックの処理の具体例を示す図である。図6Aは、入力画像の具体例を示す図である。図6Bは、大カテゴリラベル付与部104による最初の処理結果を示す図である。図6Bでは、直線33を境界として、上方向に大カテゴリ領域31が設定され「天井」のラベルが付与され、下方向に大カテゴリ領域32が設定され「壁」のラベルが付与されている。図6Cは、小カテゴリラベル付与部106による最初の処理結果を示す図である。図6Cでは、大カテゴリ領域31の内部において、看板のラベルを有する小カテゴリ領域311が設定されている。
天井と壁との境界線が直線33であるとすると、看板の小カテゴリ領域311は天井に埋まってしまうことになり、現実の状況では生じ得ない。そのため、天井の大カテゴリラベルと看板の小カテゴリラベルとの整合性の条件として、看板の小カテゴリ領域が境界線に接している又は跨いでいることが予め設定されている。大カテゴリ領域分割部103は、図6Cに示される処理結果では、予め設定されている条件が満たされていないと判定する。そして、大カテゴリ領域分割部103は、看板の小カテゴリ領域が境界線(直線33)に接する又はこれを跨ぐように、領域分割処理をやりなおす。図6Dは、大カテゴリ領域分割部103が領域分割処理を再度行った結果を示す図である。図6Dに示されるように、大カテゴリ領域分割部103は、小カテゴリラベル付与部106の処理結果と整合性の条件とに基づいて、この条件を満たすように領域分割を行う。このように、フィードバック処理を施すことにより、さらに精度良く領域を分割しラベルを付与することが可能となる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100…画像解析装置, 101…画像入力部, 102…構成推定部, 103…大カテゴリ領域分割部(第一分割部), 104…大カテゴリラベル付与部(第一ラベル付与部), 105…小カテゴリ領域分割部(第二分割部), 106…小カテゴリラベル付与部(第二ラベル付与部), 107…出力部

Claims (5)

  1. コンピュータが、
    入力された画像の背景の構成を推定する構成推定ステップと、
    前記構成の推定結果に基づいて、前記画像を複数の第一領域に分割する第一分割ステップと、
    前記第一領域に対し、その領域に写っている物体に応じたラベルを付与する第一ラベル付与ステップと、
    前記第一領域を、当該第一領域に付与された前記ラベルに基づいて複数の第二領域に分割する第二分割ステップと、
    前記第二領域に対し、その領域に移っている物体に応じたラベルを付与する第二ラベル付与ステップと、
    を有する画像解析方法。
  2. 前記第二領域として前記画像に写る第二物体と、前記各第二物体が前記第一ラベルが付与された前記第一領域に含まれる可能性を表す共起情報とが、対応付けて予め記憶されており、
    前記第二分割ステップにおいて、前記共起情報に基づいて、前記第一領域を複数の前記第二領域に分割する、請求項1に記載の画像解析方法。
  3. 入力された画像の背景の構成を推定する構成推定部と、
    前記構成の推定結果に基づいて、前記画像を複数の第一領域に分割する第一分割部と、
    前記第一領域に対し、その領域に写っている物体に応じたラベルを付与する第一ラベル付与部と、
    前記第一領域を、当該第一領域に付与された前記ラベルに基づいて複数の第二領域に分割する第二分割部と、
    前記第二領域に対し、その領域に移っている物体に応じたラベルを付与する第二ラベル付与部と、
    を備える画像解析装置。
  4. 前記第二領域として前記画像に写る第二物体と、前記各第二物体が前記第一ラベルが付与された前記第一領域に含まれる可能性を表す共起情報とを、対応付けて予め記憶する共起情報記憶部をさらに備え、
    前記第二分割部は、前記共起情報に基づいて、前記第一領域を複数の前記第二領域に分割する、請求項3に記載の画像解析装置。
  5. コンピュータに対し請求項1又は請求項2に記載の各ステップを実行させるためのコンピュータプログラム。
JP2011220235A 2011-10-04 2011-10-04 画像解析方法、画像解析装置及びコンピュータプログラム Pending JP2013080390A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011220235A JP2013080390A (ja) 2011-10-04 2011-10-04 画像解析方法、画像解析装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011220235A JP2013080390A (ja) 2011-10-04 2011-10-04 画像解析方法、画像解析装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2013080390A true JP2013080390A (ja) 2013-05-02

Family

ID=48526709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011220235A Pending JP2013080390A (ja) 2011-10-04 2011-10-04 画像解析方法、画像解析装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2013080390A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023051362A1 (zh) * 2021-09-30 2023-04-06 北京字跳网络技术有限公司 图像区域处理方法及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023051362A1 (zh) * 2021-09-30 2023-04-06 北京字跳网络技术有限公司 图像区域处理方法及设备

Similar Documents

Publication Publication Date Title
JP5174040B2 (ja) 画像の構成要素と背景とを区別するためにコンピュータで実行される方法および画像の構成要素と背景とを区別するためのシステム
CN111738318B (zh) 一种基于图神经网络的超大图像分类方法
US8655069B2 (en) Updating image segmentation following user input
CN111145209B (zh) 一种医学图像分割方法、装置、设备及存储介质
US8345976B2 (en) Systems and methods for segmenting digital images
CN102436636B (zh) 自动分割头发的方法及其系统
CN106991686B (zh) 一种基于超像素光流场的水平集轮廓跟踪方法
US20090252429A1 (en) System and method for displaying results of an image processing system that has multiple results to allow selection for subsequent image processing
CN110717896A (zh) 基于显著性标签信息传播模型的板带钢表面缺陷检测方法
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
JP2008217706A (ja) ラベリング装置、ラベリング方法及びプログラム
Haines et al. Recognising planes in a single image
CN104657980A (zh) 一种改进的基于Meanshift的多通道图像分割算法
CN110598030A (zh) 一种基于局部cnn框架的甲骨拓片分类方法
JP6787844B2 (ja) オブジェクト抽出装置およびそのスーパーピクセルラベリング方法
Shi et al. Adaptive graph cut based binarization of video text images
JP2013080389A (ja) 消失点推定方法、消失点推定装置及びコンピュータプログラム
Henry et al. Automatic trimap generation and artifact reduction in alpha matte using unknown region detection
CN107704864B (zh) 基于图像对象性语义检测的显著目标检测方法
JP2014052977A (ja) 対応付け装置及びコンピュータプログラム
JP2013080390A (ja) 画像解析方法、画像解析装置及びコンピュータプログラム
JP2017084006A (ja) 画像処理装置およびその方法
Shah Automatic cell segmentation using a shape-classification model in immunohistochemically stained cytological images
Lezoray Supervised automatic histogram clustering and watershed segmentation. Application to microscopic medical color images
Cheng et al. Interactive exploration of microstructural features in gigapixel microscopy images

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130606

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130801