JP2020198132A

JP2020198132A - シーン推定装置及び方法、コンピュータプログラム並びに記録媒体

Info

Publication number: JP2020198132A
Application number: JP2020150602A
Authority: JP
Inventors: 井上　俊明; Toshiaki Inoue; 俊明井上
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-10

Abstract

【課題】汎用性の向上を図りつつ、画像のシーンを簡便に推定する。【解決手段】シーン推定装置（１、２）は、入力画像を取得し、該入力画像の第１特徴量を出力する出力手段（１１、２２）と、該出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、入力画像のシーンを推定する推定手段（１２、２３、２４）と、を備える。【選択図】図２

Description

本発明は、例えば撮像された画像を解析して、該画像のシーンを推定するシーン推定装置及び方法、コンピュータプログラム並びに記録媒体の技術分野に関する。

この種の装置として、例えば、入力画像から一又は複数の局所特徴量画像を導出し、該導出された局所特徴量画像毎に代表特徴量を算出し、該算出された代表特徴量と識別条件とを比較し、入力画像が特定シーンの画像であるか否かを判定する装置が提案されている（特許文献１参照）。

或いは、撮像された風景画像を複数の画像片に分割し、該分割された複数の画像片各々に対応する風景が遠景であるか否かを判定して、風景画像のうちどの部分が遠景であり、どの部分が近景であるかを判定する装置が提案されている（特許文献２参照）。

特開２００５−３１０１２３号公報特許第４７１７０７３号

しかしながら、特許文献１に記載の技術では、中間的に生成される局所特徴量画像に対する処理が必要であり、例えば局所特徴量画像を一時的に格納するための記憶領域が必要であったり、処理負担が増加したりする等という技術的問題点がある。特許文献２に記載の技術では、シーン毎に異なる判定基準が設定されているため、例えば判定可能なシーンが追加される場合には再設計のコストが比較的高くなる可能性があるという技術的問題点がある。

本発明は、例えば上記問題点に鑑みてなされたものであり、画像のシーンを簡便に推定することができると共に、汎用性の高いシーン推定装置及び方法、コンピュータプログラム並びに記録媒体を提供することを課題とする。

請求項１に記載の発明は、入力画像を取得し、前記入力画像の第１特徴量を出力する出力手段と、前記出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、前記入力画像のシーンを推定する推定手段と、を備え、前記複数のシーン分類各々は、各シーン分類に属する複数の画像に夫々対応し、一又は複数の成分を夫々含んでなる複数の第２特徴量に基づいて定められた、前記一又は複数の成分の少なくとも一部を元とするベクトル空間における、前記複数の第２特徴量に夫々対応する複数の点を含んでなる部分集合であり、前記推定手段は、前記ベクトル空間における前記第１特徴量に対応する点を、前記複数のシーン分類としての複数の部分集合に夫々対応する複数の固有空間各々における点に変換し、前記変換された点を示す射影ベクトルの大きさを求め、前記求められた射影ベクトルの大きさに基づいて、前記入力画像のシーンを推定するシーン推定装置である。

請求項５に記載の発明は、入力画像を取得し、前記入力画像の第１特徴量を出力する出力工程と、前記出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、前記入力画像のシーンを推定する推定工程と、を備え、前記複数のシーン分類各々は、各シーン分類に属する複数の画像に夫々対応し、一又は複数の成分を夫々含んでなる複数の第２特徴量に基づいて定められた、前記一又は複数の成分の少なくとも一部を元とするベクトル空間における、前記複数の第２特徴量に夫々対応する複数の点を含んでなる部分集合であり、前記推定工程では、前記ベクトル空間における前記第１特徴量に対応する点を、前記複数のシーン分類としての複数の部分集合に夫々対応する複数の固有空間各々における点に変換し、前記変換された点を示す射影ベクトルの大きさを求め、前記求められた射影ベクトルの大きさに基づいて、前記入力画像のシーンを推定するシーン推定方法である。

請求項６に記載の発明は、コンピュータを、入力画像を取得し、前記入力画像の第１特徴量を出力する出力手段と、前記出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、前記入力画像のシーンを推定する推定手段と、として機能させ、前記複数のシーン分類各々は、各シーン分類に属する複数の画像に夫々対応し、一又は複数の成分を夫々含んでなる複数の第２特徴量に基づいて定められた、前記一又は複数の成分の少なくとも一部を元とするベクトル空間における、前記複数の第２特徴量に夫々対応する複数の点を含んでなる部分集合であり、前記推定手段は、前記ベクトル空間における前記第１特徴量に対応する点を、前記複数のシーン分類としての複数の部分集合に夫々対応する複数の固有空間各々における点に変換し、前記変換された点を示す射影ベクトルの大きさを求め、前記求められた射影ベクトルの大きさに基づいて、前記入力画像のシーンを推定するコンピュータプログラムである。

請求項７に記載の発明は、本発明のコンピュータプログラムが記録されている記録媒体である。

本発明の作用及び他の利得は次に説明する実施するための形態から明らかにされる。

第１実施例に係るシーン推定装置の要部を示す要部ブロック図である。特徴空間及び部分空間の概念を示す概念図である。第１実施例に係るシーン学習処理の概念を示す概念図である。第２実施例に係るシーン推定装置の要部を示す要部ブロック図である。第２実施例に係る画像分割の概念を示す概念図である。第２実施例に係るシーン推定テーブルの一例である。

本発明のシーン推定装置及び方法、並びにコンピュータプログラム各々に係る実施形態について説明する。

（シーン推定装置）
実施形態に係るシーン推定装置は、入力画像を取得し、該取得された入力画像の第１特徴量を出力する出力手段と、該出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、入力画像のシーンを推定する推定手段と、を備える。

例えばメモリ、プロセッサ等を備えてなる出力手段は、入力画像の特徴量である第１特徴量を出力する。第１特徴量の出力には、ＣＳ−ＬＢＰ（Ｃｅｎｔｅｒ−ＳｙｍｍｅｔｒｉｃＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴量抽出法を用いることが望ましいが、該ＣＳ−ＬＢＰ特徴量抽出法に限らず、公知の各種態様を適用してよい。尚、「入力画像」は、例えばカメラにより撮像された画像や、ハードディスク等の記憶手段に蓄積された画像等である。

当該シーン推定装置には、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類が格納されている。

ここで、複数のシーン分類は、例えば次のように設定すればよい。即ち、複数の画像各々から、上述した第１特徴量と同様の方法により、複数の特徴量を夫々求める。そして、複数の特徴量各々を、例えば線形部分空間法等によりクラス分けし、クラス毎にシーンを示す記号（例えば“道路”、“交差点”、“工事”等）を付与する。

例えばメモリ、プロセッサ等を備えてなる推定手段は、入力画像に係る第１特徴量と、複数のシーン分類とに基づいて、入力画像のシーンを推定する。

実施形態に係るシーン推定装置によれば、入力画像に係る単一の第１特徴量に基づいて、シーンが推定されるので、例えば処理負荷等を低減することができる。また、上述の如く、シーン分類は、画像のシーンにかかわらず同一の指標を用いて設定される。このため、比較的容易に推定可能なシーンを増やすことができる。

実施形態に係るシーン推定装置の一態様では、複数のシーン分類各々は、各シーン分類に属する複数の画像に夫々対応し、一又は複数の成分を夫々含んでなる複数の第２特徴量に基づいて定められた、一又は複数の成分の少なくとも一部を元とする空間における、複数の第２特徴量に夫々対応する複数の点を含んでなる部分集合である。

この態様によれば、各シーン分類に属する複数の画像に夫々対応する複数の第２特徴量各々は、一又は複数の成分を含んでいる。具体的には例えば、ＣＳ−ＬＢＰ特徴量抽出法により、第２特徴量が求められる場合、ヒストグラムのビン数が、第２特徴量に係る成分数となる。つまり、第２特徴量は、一又は多次元のベクトル量である。

第２特徴量の次元数以下の空間における複数の第２特徴量に夫々対応する複数の点を含んでなる部分集合が、第２特徴量を有する画像が属するシーンに対応するシーン分類である。

このように構成すれば、比較的容易に、汎用性の高いシーン分類を設定することができ、実用上非常に有利である。

この態様では、推定手段は、空間における第１特徴量に対応する点を、複数のシーン分類としての複数の部分集合に夫々対応する複数の固有空間各々における点に変換し、該変換された点を示す射影ベクトルの大きさを求め、該求められた射影ベクトルの大きさに基づいて、入力画像のシーンを推定してよい。

「シーン分類としての部分集合に対応する固有空間」とは、上記第１又は第２特徴量が属する空間の次元数よりも低次元の空間（即ち、部分空間）を意味する。

推定手段は、ベクトル空間における第１特徴量に対応する点（つまり、ベクトル空間の原点から第１特徴量に対応する点へのベクトル）を、複数の固有空間各々における点に変換する（即ち、射影ベクトルを求める）。この際、固有空間の数と同数の射影ベクトルが求められる。尚、射影ベクトルの求め方には、公知の各種態様を適用可能であるので、その詳細についての説明は割愛する。

推定手段は、求められた射影ベクトルの大きさに基づいて、入力画像のシーンを推定する。具体的には例えば、推定手段は、複数の射影ベクトル各々の大きさを互いに比較して、最も大きい射影ベクトルに係る固有空間に対応するシーンを、入力画像のシーンとして推定する。

このように構成すれば、比較的容易に入力画像のシーンを特定することができ、実用上非常に有利である。

実施形態に係るシーン推定装置の他の態様では、入力画像について、推定手段によりシーンが推定されたことを条件に、推定されたシーンに対応するシーン分類を、出力された第１特徴量に基づいて更新する更新手段を更に備える。

この態様によれば、シーン分類が更新されることにより、シーンの推定精度を向上させることができ、実用上非常に有利である。尚、入力画像のシーンについて誤った推定がされた場合には、例えばユーザが、推定されたシーンを適宜修正すればよい。

実施形態に係るシーン推定装置の他の態様では、出力手段は、入力画像を複数の部分画像に分割し、複数の部分画像に夫々対応すると共に、上述の第１特徴量としての、複数の第３特徴量を出力し、推定手段は、出力された複数の第３特徴量と複数のシーン分類とに基づいて、複数の部分画像に夫々対応する複数の部分シーンを推定し、推定された複数の部分的シーンに基づいて、入力画像のシーンを推定する。

出力手段は、例えば入力画像を構成する画素の輝度情報に基づくｋ−ｍｅａｎｓ法等を用いて、入力画像を複数の部分画像に分割する。尚、本実施形態では入力画像は、典型的には、非矩形領域に分割される。

出力手段は、複数の部分画像各々の特徴量である第３特徴量を出力する。該第３特徴量の出力にも、第１特徴量の出力と同様に、ＣＳ−ＬＢＰ特徴量抽出法が用いられることが望ましい。

推定手段は、複数の部分画像のうち一の部分画像についての第３特徴量と複数のシーン分類とに基づいて、該一の部分画像に対応するシーンである部分的シーンを推定する。そして、推定手段は、複数の部分画像に夫々対応する複数の部分的シーンに基づいて、入力画像のシーンを推定する。具体的には例えば、推定手段は、複数の部分的シーンの組み合わせから、入力画像のシーンを推定する（例えば、部分的シーンが、“空”、“道路”、“海”及び“住宅”である場合に、入力画像のシーンを“海沿いの町の風景”と推定する等）。

このように構成すれば、シーン分類の個数を抑制しつつ、多様なシーンを特定することができ実用上非常に有利である。

実施形態に係るシーン推定装置の他の態様では、第１特徴量（更には、複数の第３特徴量）はテクスチャ特徴量である。

（シーン推定方法）
実施形態に係るシーン推定方法は、入力画像を取得し、該入力画像の第１特徴量を出力する出力工程と、該出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、入力画像のシーンを推定する推定工程と、を備える。

実施形態に係るシーン推定方法によれば、上述した実施形態に係るシーン推定装置と同様に、汎用性の向上を図りつつ、画像のシーンを簡便に推定することができる。尚、実施形態に係るシーン推定方法においても、上述した実施形態に係るシーン推定装置の各種態様と同様の各種態様を採ることができる。

（コンピュータプログラム）
実施形態に係るコンピュータプログラムは、コンピュータを、入力画像を取得し、該入力画像の第１特徴量を出力する出力手段と、該出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、入力画像のシーンを推定する推定手段と、として機能させる。

実施形態に係るコンピュータプログラムによれば、当該コンピュータプログラムを格納するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ−ＲＯＭ（ＤＶＤＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の記録媒体から、当該コンピュータプログラムを、計測装置に備えられたコンピュータに読み込んで実行させれば、或いは、当該コンピュータプログラムを、通信手段を介してダウンロードさせた後に実行させれば、上述した実施形態に係るシーン推定装置を比較的容易にして実現できる。これにより、上述した実施形態に係るシーン推定装置と同様に、汎用性の向上を図りつつ、画像のシーンを簡便に推定することができる。

本発明のシーン推定装置に係る実施例を図面に基づいて説明する。

＜第１実施例＞
本発明のシーン推定装置に係る第１実施例について、図１乃至図３を参照して説明する。

先ず、第１実施例に係るシーン推定装置の構成について、図１を参照して説明する。図１は、第１実施例に係るシーン推定装置の要部を示す要部ブロック図である。

図１において、シーン推定装置１は、テクスチャ特徴抽出手段１１及びシーン判定手段１２を備えて構成されている。

テクスチャ特徴抽出手段１１には、任意の階調値で表現された画像が入力される。該画像は、例えばカメラ等の撮像装置により撮像された画像であってもよいし、例えばハードディスクドライブ等の記憶媒体に蓄積された画像であってもよい。

尚、当該シーン推定装置１は、撮像装置や、記憶媒体を搭載する装置に搭載されていてもよいし、該装置から独立した装置であってもよい。いずれにせよ、テクスチャ特徴抽出手段１１には、公知の各種方法により、撮像装置や記憶媒体から画像が入力される。

テクスチャ特徴抽出手段１１は、入力された画像から、例えばヒストグラム等の多次元のベクトル量である特徴ベクトル（テクスチャ特徴量）を抽出し、該抽出された特徴ベクトルと入力された画像とを対応付ける。ここで、特徴ベクトルの抽出には、ＣＳ−ＬＢＰ特徴量抽出法が用いられることが望ましい。尚、ＣＳ−ＬＢＰ特徴量抽出法の詳細については、例えば、本願発明者に係る特願２０１２−２３３８１４に記載されている。

シーン判定手段１２は、抽出された特徴ベクトルに基づいて、入力された画像のシーンを推定し、該推定されたシーンを示すシーン記号を出力する。ここで、「シーン記号」は、例えば製造者、ユーザ等によりシーン毎に任意に割り当てられたテキスト情報である。画像に係るシーンの推定方法には、線形部分空間法が用いられることが望ましい。

シーンの推定方法について、図２を参照して説明を加える。図２は、特徴空間及び部分空間の概念を示す概念図である。

図２において、先ず、「特徴空間」とは、特徴ベクトルの分布を定義するための多次元空間である。特徴空間の次元数は、典型的には、特徴ベクトルの次元数を同じであるが、特徴ベクトルの次元数よりも小さくてもよい。「部分空間」は、例えば「工事」、「交差点」、「道路」等の各シーンに属する複数の特徴ベクトルの集合が主成分分析されることにより得られる固有ベクトルの全部又は一部により張られる線形部分空間である。

シーン判定手段１２は、テクスチャ特徴抽出手段１１により抽出された特徴ベクトル（図２では、特殊空間の原点を始点とし、点Ｐ１を終点とするベクトル）の、各部分空間への射影ベクトルを座標変換により算出する。ここでは、シーン「道路」に対応する部分空間への射影ベクトル１と、シーン「交差点」に対応する部分空間への射影ベクトル２と、シーン「工事」に対応する部分空間への射影ベクトル３と、が算出される。尚、射影ベクトルの算出方法には、公知の各種態様を適用可能であるのでその詳細についての説明は割愛する。

シーン判定手段１２は、算出された射影ベクトル１、射影ベクトル２及び射影ベクトル３各々の大きさ（即ち、射影量）を求める。続いて、シーン判定手段１２は、最大の射影ベクトルが属する部分空間に対応するシーン（図２では、射影ベクトル２が属する“交差点”）を示すシーン記号と、入力された画像とを対応づけることにより、該入力された画像のシーンを推定する。

当該シーン推定装置１によれば、入力された画像から直接算出された特徴ベクトルが算出され、部分空間法を用いたベクトル演算処理のみにより入力された画像のシーンが判定される。このため、例えば上述の特許文献１に記載の技術のような、中間画像の生成及び格納、中間画像上を走査する処理が不要となり、記憶領域と処理コストを低減することができる。

加えて、当該シーン推定装置１によれば、シーンの種類にかかわらず、単一の特徴ベクトルが各部分空間に射影されるという、単純なベクトル演算のみで入力された画像のシーンが判定される。このため、新たなシーンが追加される場合でも、該新たなシーンに対応する部分空間が追加されるだけでよいので、入力された画像に係る特徴量や判定基準の再設計コストが不要である。

次に、図２に示した「部分空間」の学習処理について、図３を参照して説明する。図３は、第１実施例に係るシーン学習処理の概念を示す概念図である。

部分空間をゼロから形成する場合、先ず、シーンが既知である画像がテクスチャ特徴抽出手段１１に入力される（つまり、一のシーンに属する複数の既知画像が、テクスチャ特徴抽出手段１１に入力される）。テクスチャ特徴抽出手段１１は、上述の如く、入力された画像の特徴ベクトルを抽出する。

次に、一のシーンに属する複数の既知画像に夫々対応する複数の特徴ベクトルである特徴ベクトル集合に、主成分分析が施されることにより固有ベクトルが求められる。求められた固有ベクトルの全部又は一部により張られる空間が、一のシーンに対応する部分空間である。最後に、この部分空間と、一のシーンを示すシーン記号とが対応付けられる。ここで、部分空間に係る固有ベクトルの数は、特殊ベクトルの次元数未満である。また、部分空間に係る固有ベクトルは、上記求められた固有ベクトルのうち固有値の大きいものから順に選択される。

上述の如く形成された部分空間は、当該シーン推定装置１を使用しながら随時更新（即ち、学習）が可能である。学習処理では、シーンが既知である画像がテクスチャ特徴抽出手段１１に入力される。シーン判定手段１２は、テクスチャ特徴抽出手段１１により抽出された特徴ベクトルと、既に形成された部分空間と、に基づいて入力された画像のシーンを推定し、シーン記号を出力する。

シーン判定手段１２から出力されたシーン記号は、該シーン判定手段１２とは異なる判定手段により、入力された画像の正しいシーンを示す正解シーン記号と比較される。尚、「正解シーン記号」は、当該シーン推定装置１のユーザにより入力される。

出力されたシーン記号と正解シーン記号とが一致している場合、当該シーン推定装置１は何もしない（但し、今回抽出された特徴ベクトルがサンプルとして加えられてもよい）。他方、出力されたシーン記号と正解シーン記号とが不一致である場合、シーン判定手段１２によりシーン推定の際に用いられるパラメータを修正するための修正パラメータが生成されると共に、例えばシーン推定結果（即ち、一致、不一致）や修正情報等が出力される。

この場合、シーン判定手段１２が、部分空間法に代えて又は加えて、ＰＡ（Ｐａｓｓｉｖｅ−ａｇｇｒｅｓｓｉｖｅ）アルゴリズム等の追加学習型の方法を用いることが望ましい。

このように構成すれば、シーン推定結果の正誤がフィードバックされ、シーン判定手段１２が修正されるので、予め用意された（即ち、固定された）シーン判定手段に比べて、画像のシーンが推定される度に、推定精度が改善されることが期待できる。

実施例に係る「テクスチャ特徴抽出手段１１」及び「シーン判定手段１２」は、夫々、本発明に係る「出力手段」及び「推定手段」の一例である。実施例に係る「特徴ベクトル」及び「部分空間」は、夫々、本発明に係る「第１特徴量」及び「シーン分類」の一例である。

尚、本実施例では、射影ベクトルの大きさ（射影量）の最大値から、入力された画像のシーンが推定される。しかしながら、射影量に代えて射影距離（即ち、特徴ベクトルから一の部分空間の平均ベクトル（特徴空間における一の部分空間の原点を表すベクトル）を減じて得られた、ベクトルの一の部分空間への垂線の長さ）が最小となる部分空間に対応するシーンを、入力された画像のシーンとして推定してもよい。このように構成すれば、特徴空間の原点近傍に分布する特徴ベクトル集合から形成される部分空間が存在する場合であっても、シーン推定を適切に実施することができる。

また、線形部分空間法に代えて、非線形部分空間法が用いられてもよい。このように構成すれば、テクスチャ特徴抽出手段１１により抽出された特徴ベクトルの次元が比較的低い場合であっても、非線形空間への写像変換により、高次元の特徴ベクトルが抽出された場合と同様に推定精度の改善が期待できる。

また、シーン記号を、テキスト情報に代えて、例えば推定されたシーンの確からしさを示す確率値等の実数値としてもよい。

＜第２実施例＞
本発明のシーン推定装置に係る第２実施例について、図４乃至図６を参照して説明する。第２実施例では、入力された画像が複数の部分に分割された上で、該入力された画像に係るシーンが推定される以外は、上述した第１実施例と同様である。よって、第２実施例について、第１実施例と重複する説明を省略すると共に、図面上における共通箇所には同一符号を付して示し、基本的に異なる点についてのみ、図４乃至図６を参照して説明する。

第２実施例に係るシーン推定装置の構成について、図４を参照して説明する。図４は、第２実施例に係るシーン推定装置の要部を示す要部ブロック図である。

図４において、シーン推定装置２は、画像分割手段２１、分割画像テクスチャ特徴抽出手段２２、分割画像シーン判定手段２３及びシーン統合手段２４を備えて構成されている。

画像分割手段２１は、入力された画像を複数の非矩形領域に分割すると共に、分割された各画像に対応する属性（以降、適宜“分割画像情報”と称する）を抽出する。

画像の分割には、例えば画像を構成する画素の輝度情報に基づくｋ−ｍｅａｎｓ法等を用いればよい。また、分割画像情報は、例えば入力された画像上における分割された各画像の位置（又は座標）情報等とすればよい。尚、分割画像情報は、後述するシーン統合手段２４に送信される。

ここで、入力された画像の分割処理について、図５を参照して具体的に説明する。図５は、第２実施例に係る画像分割の概念を示す概念図である。

図５（ａ）に示すように、入力された画像に対し、例えばハフ変換法等が施され、直性成分の候補が求められる。続いて、該求められた直性成分の候補から、入力された画像に係る消失点が求められる。

次に、図５（ｂ）に示すように、消失点を起点として、入力された画像のコーナに向かって平均的な（又は代表的な）直線が引かれ、入力された画像が分割される（ここでは、４分割）。続いて、分割された各画像に分割画像情報が付与される（ここでは、“上面”、“側面”及び“下面”）。

再び図４に戻り、分割画像テクスチャ特徴抽出手段２２は、上述したテクスチャ特徴抽出手段１１と同様の方法により、分割された画像各々について特徴ベクトルを抽出する。分割画像シーン判定手段２３は、上述したシーン判定手段１２と同様の方法により、分割された画像各々について分割画像シーン記号を出力する。

シーン統合手段２４は、画像分割手段２１により抽出された分割画像情報と、分割画像シーン判定手段２３により出力された分割画像シーン記号と、図６に示すようなシーン推定テーブルと、に基づいて、入力された画像のシーンを推定し、該推定されたシーンに対応するシーン記号を出力する。

具体的には例えば、図５に示した画像の上面について「晴天」との分割画像シーン記号が出力され、該画像の側面について「街路樹」との分割画像シーン記号が出力され、該画像の下面について「道路」との分割画像シーン記号が出力された場合、シーン統合手段２４は、シーン推定テーブルに基づいて、「晴れた田舎の風景」というシーン記号を出力する。

当該シーン推定装置２によれば、入力された画像が、画像分割手段２１により非矩形領域に分割されるので、入力された画像に含まれる非矩形のオブジェクト（遠近感のある画像では、非矩形のオブジェクトが比較的多い）に、好適に対応することができ、実用上非常に有利である。

実施例に係る「分割画像テクスチャ特徴抽出手段２２」は、本発明に係る「出力手段」の他の例である。実施例に係る「分割画像シーン判定手段２３」及び「シーン統合手段２４」は、本発明に係る「推定手段」の他の例である。

尚、シーン統合手段２４は、シーン記号を出力することに代えて、一又は複数のシーン記号候補と、各候補の確からしさとを出力してもよい。このように構成すれば、判定が困難な画像に対しても、シーン候補をユーザに提示することができる。そして、シーン候補の中に正しいシーンが含まれていれば、推定精度を実質的に向上させることができる。更に、複数のシーン候補や確からしさを出力することにより汎用性が高まり、当該シーン推定装置２からの出力を用いた後処理や、当該シーン推定装置２を用いたシステムの応用範囲の拡張が期待できる。

画像分割手段２１では、上述したｋ−ｍｅａｎｓ法に代えて、例えばｗａｒｔｅｒｓｈｅｄ法、ｇｒａｐｈ−ｃｕｔ法、ｎｏｒｍａｌｉｚｅ−ｃｕｔ法、ｓｎａｋｅ法、ｍｅａｎ−ｓｈｉｆｔ法等の公知の各種態様を用いることができる。或いは、画像を構成する画素の輝度情報を用いる代わりに、色情報が用いられてもよい。特に、ｇｒａｐｈ−ｃｕｔ法やｎｏｒｍａｌｉｚｅ−ｃｕｔ法が用いられれば、ｋ−ｍｅａｎｓ法や輝度情報に基づく画像分割結果が、例えばノイズの影響等を大きく受けてしまうような場合であっても、適切に画像を分割することができる。

また、分割画像情報として、分割された画像の、入力された画像上における座標に代えて、例えば面積等の他の幾何学的な量、例えば輝度や色空間に関する勾配の平均値やヒストグラム等の画素数の統計量、例えば上、下、左、右等の位置を示すテキスト、等であってもよい。このように構成すれば、より高精度なシーン推定結果が得られることが期待できる。

本発明は、上述した実施形態に限られるものではなく、特許請求の範囲及び明細書全体から読み取れる発明の要旨或いは思想に反しない範囲で適宜変更可能であり、そのような変更を伴うシーン推定装置及び方法、コンピュータプログラム並びに記録媒体もまた本発明の技術的範囲に含まれるものである。

１、２…シーン推定装置、１１…テクスチャ特徴抽出手段、１２…シーン判定装置、２１…画像分割手段、２２…分割画像テクスチャ特徴抽出手段、２３…分割画像シーン判定手段、２４…シーン統合手段

Claims

入力画像を取得し、前記入力画像の第１特徴量を出力する出力手段と、
前記出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、前記入力画像のシーンを推定する推定手段と、
を備え、
前記複数のシーン分類各々は、各シーン分類に属する複数の画像に夫々対応し、一又は複数の成分を夫々含んでなる複数の第２特徴量に基づいて定められた、前記一又は複数の成分の少なくとも一部を元とするベクトル空間における、前記複数の第２特徴量に夫々対応する複数の点を含んでなる部分集合であり、
前記推定手段は、前記ベクトル空間における前記第１特徴量に対応する点を、前記複数のシーン分類としての複数の部分集合に夫々対応する複数の固有空間各々における点に変換し、前記変換された点を示す射影ベクトルの大きさを求め、前記求められた射影ベクトルの大きさに基づいて、前記入力画像のシーンを推定する
ことを特徴とするシーン推定装置。
前記入力画像について、前記推定手段によりシーンが推定されたことを条件に、前記推定されたシーンに対応するシーン分類を、前記出力された第１特徴量に基づいて更新する更新手段を更に備えることを特徴とする請求項１に記載のシーン推定装置。
前記出力手段は、前記入力画像を複数の部分画像に分割し、前記複数の部分画像に夫々対応すると共に、前記第１特徴量としての、複数の第３特徴量を出力し、
前記推定手段は、前記出力された複数の第３特徴量と前記複数のシーン分類とに基づいて、前記複数の部分画像に夫々対応する複数の部分シーンを推定し、前記推定された複数の部分的シーンに基づいて、前記入力画像のシーンを推定する
ことを特徴とする請求項１又は２に記載のシーン推定装置。
前記第１特徴量は、テクスチャ特徴量であることを特徴とする請求項１乃至３のいずれか一項に記載のシーン推定装置。
入力画像を取得し、前記入力画像の第１特徴量を出力する出力工程と、
前記出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、前記入力画像のシーンを推定する推定工程と、
を備え、
前記複数のシーン分類各々は、各シーン分類に属する複数の画像に夫々対応し、一又は複数の成分を夫々含んでなる複数の第２特徴量に基づいて定められた、前記一又は複数の成分の少なくとも一部を元とするベクトル空間における、前記複数の第２特徴量に夫々対応する複数の点を含んでなる部分集合であり、
前記推定工程では、前記ベクトル空間における前記第１特徴量に対応する点を、前記複数のシーン分類としての複数の部分集合に夫々対応する複数の固有空間各々における点に変換し、前記変換された点を示す射影ベクトルの大きさを求め、前記求められた射影ベクトルの大きさに基づいて、前記入力画像のシーンを推定する
ことを特徴とするシーン推定方法。
コンピュータを、
入力画像を取得し、前記入力画像の第１特徴量を出力する出力手段と、
前記出力された第１特徴量と、複数の画像に夫々対応する複数の特徴量により予め定められた複数のシーン分類とに基づいて、前記入力画像のシーンを推定する推定手段と、
として機能させ、
前記複数のシーン分類各々は、各シーン分類に属する複数の画像に夫々対応し、一又は複数の成分を夫々含んでなる複数の第２特徴量に基づいて定められた、前記一又は複数の成分の少なくとも一部を元とするベクトル空間における、前記複数の第２特徴量に夫々対応する複数の点を含んでなる部分集合であり、
前記推定手段は、前記ベクトル空間における前記第１特徴量に対応する点を、前記複数のシーン分類としての複数の部分集合に夫々対応する複数の固有空間各々における点に変換し、前記変換された点を示す射影ベクトルの大きさを求め、前記求められた射影ベクトルの大きさに基づいて、前記入力画像のシーンを推定する
ことを特徴とするコンピュータプログラム。
請求項６に記載のコンピュータプログラムが記録されたことを特徴とする記録媒体。