JP2004062605A

JP2004062605A - シーン識別方法および装置ならびにプログラム

Info

Publication number: JP2004062605A
Application number: JP2002221302A
Authority: JP
Inventors: Sadataka Akahori; 赤堀　貞登
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2002-07-30
Filing date: 2002-07-30
Publication date: 2004-02-26
Anticipated expiration: 2022-07-30
Also published as: JP4098021B2

Abstract

【課題】画像のシーンを自動的に識別する。
【解決手段】画像Ｐから複数のオブジェクト領域ＯＲを抽出し、複数のオブジェクト領域ＯＲ毎に前記オブジェクトの種類ＫＩを識別し、各オブジェクト毎の種類ＫＩを用いて画像Ｐのシーンを識別する。
【選択図】　　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、画像のシーンを自動的に識別するシーン識別方法および装置ならびにプログラムに関するものである。
【０００２】
【従来の技術】
デジタルカメラ等で撮像した画像情報において、画像情報にどのような画像が撮像されているかを識別することができれば、たとえば画像に含まれるオブジェクトの種類毎に分類、検索もしくは画像処理等をすることができる。
【０００３】
たとえば画像の分類・検索をする場合、画像に含まれる物理的特徴量を用いて類似度を判断する画像検索システムが提案されている。たとえば、入力画像の局所領域を抽出して、その局所領域が位置と大きさを変化させながら参照画像と照合されて、画像の分類・検索を行う手法がある。また上記手法において、局所領域の色ヒストグラムを利用してヒストグラムを参照画像の色ヒストグラムと照合することにより物体の位置を検出して、画像の分類・検索を効率よく行う手法がある（電子情報通信学会誌、ｖｏｌ．ｊ８１−ＤＩＩ，ｎｏ．９，ｐｐ．２０３５−２０４２，１９９８等）。しかし、上述したいずれの方法においても、画像の物理的特徴量で類似度を識別しているため、種類的には似ていないものが物理量の類似性により似ている判断されてしまう場合があり、検索の精度が悪いという問題がある。
【０００４】
【発明が解決しようとする課題】
上述のように、画像から直接得られる情報に基づいて画像の分類、検索を行う場合、ユーザーに適切な情報を提供することができない。これを解決する手法の１つとして、シーンを識別した上で、画像の分類、検索もしくは画像処理を行うことが考えられる。すると、画像の分類・検索においては、識別したシーンに応じて分類・検索が行うことができるため、画像の分類・検索を容易に精度よく行うことができる。また、画像処理をする場合においても、そのシーンにあった画像処理条件を用いて画像処理を行うことができる。
【０００５】
このとき、たとえばユーザーが画面を見ながらオブジェクト領域を抽出して、各画像毎にシーン情報を入力することも考えられる。しかし、ユーザーによる画像のシーンの入力は手間がかかるという問題がある。
【０００６】
そこで、本発明は、シーンを自動的に識別することができるシーン識別方法および装置ならびにプログラムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明のシーン識別方法は、複数のオブジェクトを有する画像のシーンを識別するシーン識別方法において、画像から複数のオブジェクト領域を抽出するステップと、抽出した複数のオブジェクト領域毎にオブジェクトの種類を識別するステップと、識別した各オブジェクト毎の種類を用いて画像のシーンを識別するステップとを有することを特徴とする。
【０００８】
本発明のシーン識別装置は、複数のオブジェクトを有する画像のシーンを識別するシーン識別装置において、画像から複数のオブジェクト領域を抽出するオブジェクト抽出手段と、抽出された複数のオブジェクト領域毎にオブジェクトの種類を識別するオブジェクト識別手段と、識別された各オブジェクト毎の種類を用いて画像のシーンを識別するシーン識別手段とを有することを特徴とする。
【０００９】
本発明のシーン識別プログラムは、複数のオブジェクトを有する画像からオブジェクト領域を抽出する手順と、抽出した複数のオブジェクト領域毎にオブジェクトの種類を識別する手順と、識別された各オブジェクト毎の種類を用いて画像のシーンを識別する手順とをコンピュータに実行させることを特徴とする。
【００１０】
ここで、「オブジェクト」はたとえば人物、空、海、木、建物等の画像に含まれる被写体を意味し、「オブジェクト領域」は被写体が画像内に占める領域を意味する。
【００１１】
「オブジェクトの種類を識別する」とは、画像内のオブジェクトがたとえば「山」、「海」、「花」、「空」等の種類であることを特定することを意味し、さらにオブジェクトの種類がわからない場合に「不明」であることを特定することも含む。
【００１２】
「シーン識別手段」は、１つの画像のシーンを識別するのみならず、画像についてシーンを識別するとともに、識別した複数の画像のシーンから該複数の画像からなる画像群のシーンを識別する機能を有していてもよい。
【００１３】
また、「シーン識別手段」は、画像のシーンを識別するものであればよく、識別された前記複数のオブジェクト領域毎の種類をシーン用２次元空間に写像する写像手段と、シーン用２次元空間上の座標毎にシーンを定義したシーン頻度分布マップを有し、写像されたシーン用２次元空間上の座標がシーン頻度分布マップ上で示すシーンを画像のシーンとして識別した識別シーン情報出力手段とを有していてもよい。
【００１４】
「シーン用２次元空間」は、学習機能を有する複数のニューロンをマトリックス状に配置した自己組織化マップであってもよい。
【００１５】
【発明の効果】
本発明のシーン識別方法および装置ならびにプログラムによれば、複数のオブジェクトを有する画像からオブジェクト領域を抽出し、複数のオブジェクト領域毎にオブジェクトの種類を識別し各オブジェクト毎の種類を用いて画像のシーンを識別することにより、画像のシーンを自動的に特定することができるようになり、画像の分類および検索を容易に行うことができる。
【００１６】
なお、シーン識別手段が、画像についてシーンを識別するとともに、識別した複数の画像のシーンから該複数の画像からなる画像群のシーンを識別する機能を有することにより、１枚の画像のみならず、たとえば複数の画像フレームからなる動画や連続写真等の画像群についてのシーンも自動的に識別することができるようになり、画像群の分類および検索を容易に行うことができる。
【００１７】
また、シーン識別手段が、識別された複数のオブジェクト領域毎の種類を２次元空間に写像する写像手段と、シーン識別用２次元空間上の座標毎にシーンを定義したシーン頻度分布マップを有し、写像された２次元空間上の座標がシーン頻度分布マップ上で示すシーンを画像のシーンとして識別した識別シーン情報出力手段とを有することにより、シーンの識別を精度よく効率的に行うことができる。
【００１８】
【発明の実施の形態】
図１は本発明のシーン識別装置の第１の実施の形態を示すブロック図であり、図１を参照してシーン識別装置１について説明する。シーン識別装置１は、画像全体のオブジェクト構成から画像Ｐのシーンを自動的に識別するものである。たとえばシーン識別装置１は画像Ｐを「風景シーン」、「室内シーン」というようにシーンを大雑把に識別するばかりでなく、「ポートレート」、「集合写真」もしくは「サッカーのシーン」、「ゴルフのシーン」といった細かいシーンの識別を自動的におこなうものである。シーン識別装置１はブロック領域生成手段１０、オブジェクト抽出手段２０、ブロック領域識別手段３０、オブジェクト識別手段７０、シーン識別手段８０等を有する。
【００１９】
図１のブロック領域生成手段１０は、図２（ａ）に示すように、画像Ｐを設定画素数毎に分割したブロック領域ＢＲを生成する機能を有する。そして、ブロック領域生成手段１０は生成したブロック領域ＢＲをブロック領域識別手段３０に送る。たとえば設定画素数が３２画素×３２画素である場合、画像Ｐから３２×３２画素からなるブロック領域ＢＲが生成されることになる。
【００２０】
オブジェクト抽出手段２０は、図２（ｂ）に示すように、画像Ｐを各オブジェクト毎に領域分割してオブジェクト領域ＯＲを生成する機能を有する。そしてオブジェクト抽出手段２０は生成した各オブジェクト領域ＯＲをオブジェクト識別手段７０に送る。
【００２１】
ブロック領域識別手段３０は生成された各ブロック領域ＢＲ毎に種類を識別する機能を有する。すなわち、ブロック領域識別手段３０は、画像内のオブジェクトが「山」、「海」、「花」、「空」等の種類であることを特定するようになっている。ブロック領域識別手段３０は識別した種類情報ＫＩをオブジェクト識別手段７０に送るようになっている。
【００２２】
オブジェクト識別手段７０は、送られたブロック領域ＢＲ毎の種類情報ＫＩを用いて、分割されたオブジェクト領域ＯＲ毎に種類情報ＫＩを付与して、オブジェクト領域ＯＲの種類を識別可能にする機能を有する。具体的には、オブジェクト識別手段７０は、オブジェクト領域ＯＲ内の各ブロック領域ＢＲの種類情報ＫＩを集計する。そして、オブジェクト識別手段７０は、あるオブジェクト領域ＯＲにおいて集計されたブロック領域ＢＲの種類情報ＫＩのうち、最も多いブロック領域ＢＲの最大種類情報ＫＩｍａｘをオブジェクトの種類と識別する。なお、オブジェクト識別手段７０は、複数のオブジェクト領域ＯＲにまたがっているブロック領域ＢＲは、カウントしないようになっている。すると、図２（ｃ）に示すように、各オブジェクト領域ＯＲに種類情報ＫＩが付された状態になり、オブジェクト領域ＯＲが種類情報ＫＩによって識別可能となる。
【００２３】
なお、図１のオブジェクト識別手段７０において、オブジェクトの種類情報ＫＩを多数決により決定するようにしているが、集計された種類情報ＫＩのうち最も多い最大種類情報ＫＩｍａｘの割合（最大種類情報ＫＩｍａｘの数／オブジェクトを構成する全ブロック領域数）が種類情報しきい値ＫＩｒｅｆより小さい場合、オブジェクト識別手段７０がオブジェクトの種類情報ＫＩとして「不明」を出力する機能を有していてもよい。あるいは、最大種類情報ＫＩｍａｘの割合と２番目に多い種類情報ＫＩの割合との差が小さい場合、オブジェクト識別手段７０がオブジェクトの種類情報ＫＩとして「不明」を出力するようにしてもよい。これは、オブジェクトの種類情報ＫＩを誤って識別するよりも、「不明」と判断された方がユーザーにとって好ましい場合があるためである。
【００２４】
図３はオブジェクト抽出手段２０の一例を示すブロック図であり、図３を参照してオブジェクト抽出手段２０について説明する。なお、以下に示すオブジェクト抽出手段２０は一例であり、たとえばエッジ検出により各オブジェクト領域ＯＲを生成する手法等により行うようにしてもよい。
【００２５】
オブジェクト抽出手段２０は、画像Ｐを構成する各画素から複数の画素特徴量を抽出して、類似した画素特徴量毎に画素を分類する画像の特徴量分類手段１００と、画素の分類毎に領域分割して複数のクラスタリング領域を生成する領域分割手段１０１と、生成されたクラスタリング領域を統合してオブジェクト領域を抽出する領域統合手段１１０とを有する。
【００２６】
たとえば、類似した特徴を有する画素が図４（ａ）に示すように並んだ画像があると仮定する。すると、特徴量分類手段１００において、各画素から複数の特徴量が抽出されて、各特徴量を要素とした複数の特徴ベクトルが生成される。その後、図４（ｂ）に示すように、複数の特徴ベクトルが類似する特徴ベクトル毎に分類される（クラスタリング）。
【００２７】
その後、領域分割手段１０１が、特徴量分類手段１００によりクラスタリングされた結果を実際の画像に写像する。すると、図５（ａ）に示すように、類似した画素からなる複数のクラスタリング領域が形成される。このクラスタリング領域は、データベース１１１に記憶される。
【００２８】
領域統合手段１１０は、領域分割手段１０１により分割されたクラスタリング領域を統合してオブジェクト領域ＯＲを抽出する機能を有する。具体的には、領域統合手段１１０は最小クラスタ領域抽出手段１１２、統合領域判断手段１１３と接続されている。最小クラスタ領域抽出手段１１２は、データベース１１１内のクラスタリング領域のうち、最も画素数の少ない最小クラスタリング領域を抽出して領域統合手段１１０に送る。また、統合領域判断手段１１３は、抽出された最小クラスタリング領域と隣接する隣接クラスタリング領域をデーベース１１１内から抽出して領域統合手段１１０に送る。
【００２９】
そして、最小クラスタリング領域が所定の微小画素しきい値以下の画素数（たとえば全画素数の１／１００）の場合、領域統合手段１１０は、最小クラスタリング領域を境界画素数（周囲長）の最も多い隣接クラスタリング領域と統合させる。具体的には、図５（ａ）のクラスタリング領域Ａが所定の微小画素しきい値以下の画素数を有する最小クラスタリング領域であるとする。クラスタリング領域Ａは、クラスタリング領域Ｃ、Ｄと隣接しているため、クラスタリング領域Ｃ、Ｄが隣接クラスタリング領域となる。
【００３０】
そこで、領域統合手段１１０において、最小クラスタリング領域Ａとクラスタリング領域Ｃ、Ｄとが接している隣接画素数がそれぞれ算出される。図５（ａ）においては隣接クラスタリング領域Ｄとの境界画素数の方が隣接クラスタリング領域Ｃとの境界画素数よりも多い。このためクラスタリング領域Ａは図７（ｂ）のようにクラスタリング領域Ｄと統合する。
【００３１】
また、最小クラスタリング領域が所定の小画素しきい値以下の画素数（たとえば全画素数の１／１０）の場合、領域統合手段１１０は、最小クラスタリング領域を特徴空間での距離が近い隣接クラスタリング領域と統合させる。具体的には、図５（ｂ）において、クラスタリング領域Ｄが所定の小画素しきい値以下の最小クラスタリング領域であるとする。すると、クラスタリング領域Ｂの隣接クラスタリング領域はクラスタリング領域Ｃ、Ｄである。そこで、たとえばテクスチャ情報を距離を基準とした場合、どちらのクラスタリング領域Ｃ、Ｄのテクスチャがクラスタリング領域Ｂのテクスチャに近いかが判断される。そして、図５（ｃ）のように、クラスタリング領域Ｂが特徴空間での最も近い距離であるクラスタリング領域Ｄと統合される。
【００３２】
領域統合手段１１０において、上述した作業がたとえば最小クラスタ領域抽出手段１１２から送られる最小クラスタリング領域が所定の小画素しきい値よりも大きい画素数になるまで行われる。すると、画像を各オブジェクト領域ＯＲ毎に領域分割することができる。
【００３３】
次に、図１を参照してブロック領域識別手段３０について説明する。ブロック領域識別手段３０は、ブロック特徴量抽出手段４０、写像手段５０、種類出力手段６０等を有する。特徴量抽出手段４０は、ブロック領域ＢＲから複数のブロック特徴量ＢＣＱを抽出する機能を有する。写像手段５０は、たとえば自己組織化マップからなる２次元空間ＳＯＭを有し、複数のブロック特徴量ＢＣＱ（多次元特徴量）を二次元空間ＳＯＭ上に写像するものである。種類出力手段６０は、２次元空間ＳＯＭ上の位置毎に種類情報ＫＩを定義した種類頻度分布マップＫＤＭを有する。そして、種類出力手段６０は写像手段５０により写像された２次元空間ＳＯＭ上の座標情報ＣＩから種類頻度分布マップＫＤＭを用いてブロック領域ＢＲの種類情報ＫＩを出力するものである。以下にブロック領域識別手段３０の各構成について具体的に説明していく。
【００３４】
図６は特徴量抽出手段４０の一例を示すブロック図であり、図６を参照して特徴量抽出手段４０について説明する。ブロック特徴量抽出手段４０は、色成分、明度成分および像的特徴成分からなる１５個のブロック特徴量ＢＣＱを出力するものであって、Ｌａｂ変換手段４１、第１平均値算出手段４２、第１ウェーブレット変換手段４３、距離画像生成手段４６、第２ウェーブレット変換手段４７等を有する。
【００３５】
Ｌａｂ変換手段４１は、ＲＧＢ画像からなるブロック領域ＢＲをＬａｂ画像に変換する機能を有する。平均値算出手段４２は、Ｌａｂ変換されたブロック領域ＢＲのＬ成分、ａ成分およびｂ成分の平均値Ｌ−ａｖｅ、ａ−ａｖｅ、ｂ−ａｖｅをそれぞれ算出する機能を有する。そして、算出された平均値Ｌ−ａｖｅ、ａ−ａｖｅ、ｂ−ａｖｅが色成分を抽出したブロック特徴量ＢＣＱとなる。
【００３６】
第１ウェーブレット変換手段４３は、Ｌａｂ変換されたブロック領域ＢＲの明度成分をウェーブレット変換して明度成分の高周波成分Ｌ−ＬＨ、Ｌ−ＨＬ、Ｌ−ＨＨを算出するものである。また第１ウェーブレット変換手段４３に平均値算出手段４４と最大値算出手段４５とが接続されている。
【００３７】
平均値算出手段４４は、第１ウェーブレット変換手段４３により算出された高周波成分Ｌ−ＬＨ、Ｌ−ＨＬ、Ｌ−ＨＨの平均値Ｌ−ＬＨ−ａｖｅ、Ｌ−ＨＬ−ａｖｅ、Ｌ−ＨＨ−ａｖｅを算出するものである。そして、算出された平均値Ｌ−ＬＨ−ａｖｅ、Ｌ−ＨＬ−ａｖｅ、Ｌ−ＨＨ−ａｖｅが明度成分を抽出したブロック特徴量ＢＣＱとなる。
【００３８】
また、最大値算出手段４５は、第１ウェーブレット変換手段４３により算出された高周波成分Ｌ−ＬＨ、Ｌ−ＨＬ、Ｌ−ＨＨの頻度分布において大きい方から５％の値を算出するものである。この最大値Ｌ−ＬＨ−ｍａｘ、Ｌ−ＨＬ−ｍａｘ、Ｌ−ＨＨ−ｍａｘが明度成分を抽出したブロック特徴量ＢＣＱとなる。
【００３９】
このように、Ｌ成分のブロック特徴量ＢＣＱとして平均値と最大値とを利用することにより、平均的に一定強度の高周波成分が分布してブロック領域ＢＲと、一部に強い高周波成分があるブロック領域ＢＲとを区別することができるようになり、ブロック領域ＢＲの種類の識別を正確に行うことができるようになる。
【００４０】
距離画像生成手段４６は、Ｌａｂ変換手段４１によりＬａｂ変換されたブロック領域ＢＲから距離画像Ｄを生成する機能を有する。ここで、距離画像Ｄは、一般的な距離画像とは異なり、図７に示すように、Ｌａｂ変換した３変数のブロック領域ＢＲと、ウェーブレット変換した際に生成したブロック領域ＢＲの低周波成分からなるボケ画像とのユークリッド距離を画像化したものである。すなわち、Ｌａｂ空間における３次元距離画像は、均等色空間における信号変動の様子を１枚の画像にしたものであり、人が知覚する変動を表現したものとして説明することができる。３次元空間での変動を扱うことにより、明度画像から得られない像構造的特徴を引き出すことができるため、種類情報ＫＩの識別をより正確に行うことができる。
【００４１】
つまり、各画素毎に抽出した画素特徴量に基づいて種類情報ＫＩを識別した場合、像構造による種類の識別を行うことができないため、たとえば「空」と「海」のように像構造は異なるが明度や色が類似した種類情報ＫＩの識別を精度よく行うことができない。一方、ブロック領域ＢＲ毎に距離画像Ｄを生成した像構造により種類情報ＫＩの抽出を行うことにより、種類の識別をより正確に行うことができる。
【００４２】
第２ウェーブレット変換手段４７は生成された距離画像Ｄをウェーブレット変換して、その高周波成分Ｄ−ＬＨ、Ｄ−ＨＬ、Ｄ−ＨＨを出力する機能を有する。第２ウェーブレット変換手段４７に平均値算出手段４８と最大値算出手段４９とが接続されている。
【００４３】
平均値算出手段４８は、第２ウェーブレット変換手段４７により算出された高周波成分Ｄ−ＬＨ、Ｄ−ＨＬ、Ｄ−ＨＨの平均値Ｄ−ＬＨ−ａｖｅ、Ｄ−ＨＬ−ａｖｅ、Ｄ−ＨＨ−ａｖｅを算出するものである。そして、算出された平均値Ｄ−ＬＨ−ａｖｅ、Ｄ−ＨＬ−ａｖｅ、Ｄ−ＨＨ−ａｖｅが像的特徴成分を抽出したブロック特徴量ＢＣＱとなる。
【００４４】
また、最大値算出手段４９は、第１ウェーブレット変換手段４３により算出された高周波成分Ｄ−ＬＨ、Ｄ−ＨＬ、Ｄ−ＨＨの頻度分布において大きい方から５％の値を算出するものである。この最大値Ｄ−ＬＨ−ｍａｘ、Ｄ−ＨＬ−ｍａｘ、Ｄ−ＨＨ−ｍａｘが像的特徴成分を抽出したブロック特徴量ＢＣＱとなる。
【００４５】
このように、Ｄ（距離）成分のブロック特徴量ＢＣＱとして平均値と最大値とを利用することにより、平均的に一定強度の高周波成分が分布してブロック領域ＢＲと、一部に強い高周波成分があるブロック領域ＢＲとを区別することができるようになり、ブロック領域ＢＲの種類の判別を正確に行うことができるようになる。
【００４６】
次に、図８は第１写像手段５０および種類出力手段６０の一例を示す模式図であり、図１と図８を参照して写像手段５０および種類出力手段６０について説明する。この第１写像手段５０および種類出力手段６０には自己組織化マップを用いた修正対向伝搬ネットワーク（参考文献：徳高、岸田、藤村「自己組織化マップの応用−多次元情報の２次元可視化」海文堂、１９９９）が用いられている。
【００４７】
第１写像手段５０は、複数のニューロンＮをマトリックス状に配置した自己組織化マップからなる種類用２次元空間ＳＯＭｋを有し、複数の特徴量（多次元特徴量）を種類用２次元空間ＳＯＭｋ上に写像する機能を有する。各ニューロンＮはそれぞれブロック特徴量ＢＣＱと同一次元のベクトル座標を有する。本実施の形態においてはブロック特徴量ＢＣＱは１５個のブロック特徴量ＢＣＱからなっているため、各ニューロンは１５次元の結合荷重ベクトルからなっていることになる。
【００４８】
そして、第１写像手段５０は、１つのブロック領域ＢＲから抽出された１５個のブロック特徴量ＢＣＱを自己組織化マップＳＯＭｋ上のニューロンＮの中から、最も近似した（たとえば最もユークリッド距離等の近い）ニューロンＮｉ（発火要素）を選択する。これにより、複数のブロック特徴量ＢＣＱからなる多次元空間から種類用２次元空間ＳＯＭｋ上に写像されたことになる。そして、第１写像手段５０は選択したニューロンＮｉの第１座標情報ＣＩ１を種類出力手段６０に送るようになっている。
【００４９】
種類出力手段６０は、種類用２次元空間ＳＯＭｋと同一の座標系を有する複数の種類頻度分布マップＫＤＭを有しており、第１写像手段５０により写像された種類用２次元空間ＳＯＭｋ上の第１座標情報ＣＩ１から、種類頻度分布マップＫＤＭ上でその第１座標情報ＣＩ１の示す部位が示す種類情報ＫＩを出力する機能を有する。この種類頻度分布マップＫＤＭは、図９に示すように、各種類情報ＫＩ毎に種類用２次元空間上に様々な種類情報ＫＩの分布が形成されており、各種類情報ＫＩ毎にそれぞれ種類頻度分布マップＫＤＭが用意されている。たとえば、種類情報ＫＩが「空」の分布は、図９（ａ）のように種類頻度分布マップＫＤＭの右側面側および左上部の領域に形成されている。同様に、図９（ｂ）の種類情報ＫＩが「建物」の種類頻度分布マップＫＤＭ、図９（ｃ）の種類情報がＫＩが「木」の種類頻度分布マップＫＤＭおよび図９（ｄ）の種類情報ＫＩが「海」の種類頻度分布マップＫＤＭをそれぞれ示している。
【００５０】
なお、各種類情報ＫＩ毎に種類頻度分布マップＫＤＭが用意されている場合について例示しているが、１枚の種類頻度分布マップＫＤＭに複数の種類情報ＫＩの分布が形成されていてもよい。
【００５１】
ここで、上述した種類情報ＫＩを識別する際（認識モード）に使用される自己組織化マップＳＯＭｋおよび種類頻度分布マップＫＤＭは、予め学習されたものが使用される。すなわち、種類用２次元空間ＳＯＭｋおよび種類頻度分布マップＫＤＭは学習機能を有しており、予め種類情報ＫＩが判っているブロック領域ＢＲから抽出されたブロック特徴量ＢＣＱからなる学習入力データを用いて各ニューロンＮおよび種類頻度分布マップＫＤＭが学習される。
【００５２】
まず自己組織化マップＳＯＭｋの学習について説明する。自己組織化マップＳＯＭｋのニューロンは、初期状態においてランダムな結合荷重ベクトルを有している。そして、予め種類情報ＫＩのわかっている学習用入力データが第１写像手段５０に入力される。すると、第１写像手段５０により学習用入力データと最も近似したニューロンＮｉ（発火要素）が選択される。同時に、選択されたニューロンＮｉ（発火要素）を取り囲むたとえば３×３個のニューロンが選択される。そして、ニューロンＮｉ（発火要素）およびその近傍にあるニューロンＮの結合荷重ベクトルが学習用入力データに近づく方向に更新されて、自己組織化マップＳＯＭｋのニューロンＮが学習される。
【００５３】
次に、種類頻度分布マップＫＤＭの学習について説明する。種類頻度分布マップＫＤＭにおいてすべての座標の初期値は０になっている。上述したように、自己組織化マップＳＯＭｋに学習用入力データが写像された際に、第１写像手段５０は学習用入力データが写像された自己組織化マップＳＯＭｋ上の第１座標情報ＣＩ１を種類出力手段６０に送る。すると、種類出力手段６０は、種類頻度分布マップＫＤＭ内の第１座標情報ＣＩ１に当たる部位およびそれを取り囲む領域（たとえば３×３個）に正の整数値（たとえば「１」）が加算される。
【００５４】
そして、学習入力データが入力されて行くにつれて、種類頻度分布マップＫＤＭ上の特定の領域ついて学習入力データの入力により数値が加算されて大きくなっていく。つまり、同じ種類のブロック領域ＢＲであれば、ブロック特徴量ＢＣＱが類似していることになる。ブロック特徴量ＢＣＱが類似していれば、自己組織化マップＳＯＭｋ上の近くの座標に写像されることが多くなるため、種類頻度分布マップＫＤＭにおいても特定の座標の数値が大きくなっていく。
【００５５】
この作業が複数の学習入力データを用いて行われるとともに、この学習入力データが複数回繰り返し自己組織化マップＳＯＭｋに入力される。ここで、複数の学習入力データの入力が繰り返されるに連れて、座標上の数値が更新される領域が狭くなっていき、最後には選択された座標上の数値のみが更新される。
【００５６】
最後に、種類頻度分布マップＫＤＭの各座標にある数値を全入力学習データ数×学習回数で割ると、各座標に０．０から１．０までの確率が入力された種類頻度分布マップＫＤＭが生成される。この確率が大きければ大きいほど、その種類である確率が大きくなることを意味する。図９の種類頻度分布マップＫＤＭにおいては、白の範囲が０．８〜１．０の信頼度（確率）、グレーの範囲が０．２〜０．８の信頼度（確率）、黒の範囲が０．０〜０．２の信頼度（確率）を示している。このように種類頻度分布マップＫＤＭがたとえば「空」、「建物」、「木」、「海」等の種類情報ＫＩ毎にそれぞれ形成されていく。
【００５７】
そして、実際のブロック領域ＢＲについて種類の識別をする際（認識モード）では、種類出力手段６０は、複数の種類頻度分布マップＫＤＭからそれぞれ第１座標情報ＣＩ１の部位が有する信頼度を抽出する。具体的には、第１写像手段５０から第１座標情報ＣＩ１が送られてきた場合、たとえば「空」、「建物」、「木」、「海」等のそれぞれの種類頻度分布マップＫＤＭ上の第１座標情報ＣＩ１に該当する部位の信頼度を抽出する。そして、種類出力手段６０は、各種類頻度分布マップＫＤＭから得られた確率をベクトル成分とする種類ベクトルを生成する。この場合、空の信頼度、建物の信頼度、木の信頼度および海の信頼度をベクトル成分とする種類ベクトルが生成される。その後、種類出力手段６０は最も大きい確率を有する種類情報ＫＩをブロック領域ＢＲの種類情報であると識別して、種類情報ＫＩをオブジェクト識別手段７０に送る。
【００５８】
なお、種類出力手段６０において、上述した種類ベクトルを構成するベクトル成分が、所定のベクトル成分しきい値より小さい場合、ブロック領域ＢＲの種類情報ＫＩの識別の確信度が低いと判断して、「不明」とした種類情報ＫＩをオブジェクト識別手段７０に送るようにしてもよい。もしくは最も大きいベクトル成分と２番目に大きいベクトル成分との差が小さい場合にも同様に、ブロック領域ＢＲの種類情報ＫＩの識別の確信度が低いと判断して、種類情報ＫＩを「不明」としてオブジェクト識別手段７０に送るようにしてもよい。これにより、種類情報ＫＩの識別について信頼性の低いブロック領域ＢＲについてはオブジェクト領域ＯＲの種類情報ＫＩの識別に与える影響を少なくすることができるため、オブジェクト領域ＯＲの識別の精度を向上させることができる。
【００５９】
さらに、第１写像手段５０が送られた複数のブロック特徴量ＢＣＱを自己組織化マップＳＯＭに写像する際に、最も近似したニューロンＮｉ（発火要素）と複数のブロック特徴量ＢＣＱとの距離（たとえばユークリッド距離等）が所定の距離しきい値より大きい場合、第１写像手段５０は種類出力手段６０に対してマッチング処理を行わない旨の情報を送るようにしてもよい。その場合、種類出力手段６０においても、種類情報ＫＩを「不明」とする種類情報ＫＩをオブジェクト識別手段７０に送るようにしてもよい。この場合であっても、種類情報ＫＩの識別について信頼性の低いブロック領域ＢＲについてはオブジェクト領域ＯＲの種類情報ＫＩの識別に与える影響を少なくすることができるため、オブジェクト領域ＯＲの識別の精度を向上させることができる。
【００６０】
図１０はオブジェクト識別方法の一例を示すフローチャート図であり、図１から図１０を参照してオブジェクト識別方法について説明する。まず、オブジェクト抽出手段２０により入力された画像をオブジェクト毎に領域分割したオブジェクト領域ＯＲが生成される。一方では、ブロック領域生成手段１０により入力された画像を設定画素数（たとえば３２×３２画素）からなるオブジェクト領域ＯＲより小さい複数のブロック領域ＢＲが生成される。（ステップＳＴ１）。
【００６１】
次に、ブロック特徴量抽出手段４０により、ブロック領域ＢＲから１５個の特徴量ＢＣＱが抽出される（ステップＳＴ２）。その後、抽出した特徴量ＢＣＱが第１写像手段５０により自己組織化マップＳＯＭｋに写像されて、自己組織化マップＳＯＭｋの位置ＣＩが種類出力手段６０に送られる（ステップＳＴ３）。種類出力手段６０において、種類頻度分布マップＫＤＭから位置ＣＩの種類情報ＫＩを抽出して、オブジェクト識別手段７０に送る（ステップＳＴ４）。この作業がすべてのブロック領域ＢＲについて行われる（ステップＳＴ５）。
【００６２】
その後、オブジェクト識別手段７０において、各オブジェクト領域ＯＲ毎に付与された種類情報ＫＩを集計する（ステップＳＴ６）。そして、最も多い種類情報ＫＩがそのオブジェクト領域ＯＲの種類情報として出力される（ステップＳＴ７）。
【００６３】
図１１はシーン識別手段８０の一例を示すブロック図であり、図１１を参照してシーン識別手段８０について説明する。シーン識別手段８０は、オブジェクト識別手段７０により識別された各オブジェクト毎の種類を用いて画像Ｐのシーンを識別するものであって、識別ベクトル生成手段８１、第２写像手段８２、識別シーン出力手段８３等を有している。
【００６４】
識別ベクトル生成手段８１は、オブジェクト識別手段７０により識別されたオブジェクト領域ＯＲの種類ＫＩを識別ベクトルＡＰに変換する機能を有する。具体的には、図１２（ａ）に示すように、識別ベクトル生成手段８１は、オブジェクトの種類毎に識別番号を付した識別テーブル８１ａを有している。識別ベクトル生成手段８１は１つの画像に含まれるすべてのオブジェクト領域ＯＲに付された種類を識別テーブル８１ａを用いて識別番号に変換する。よって、画像が図１２（ｂ）に示すような識別番号を画素値とする画像に変換されることになる。そして、識別ベクトル生成手段８１は、識別番号を画素値とした画像の画像サイズを規格化した識別ベクトルＡＰを生成する。
【００６５】
図１１の第２写像手段８２および識別シーン出力手段８３は、上述した第１写像手段５０および種類出力手段６０と同一の構成を有している。具体的には、第２写像手段８２は、自己組織化マップからなるシーン用２次元空間ＳＯＭｓを有しており、識別シーン出力手段８３は、シーン頻度分布マップＳＤＭを有している。このシーン用２次元空間ＳＯＭｓおよびシーン頻度分布マップＳＤＭは、識別ベクトルＡＰを学習入力データとして用いて、上述した種類用２次元空間ＳＯＭｋおよび種類頻度分布マップＫＤＭと同様の手法により、学習されたものである。
【００６６】
したがって、識別シーン出力手段８３は、たとえば「ポートレート」、「集合写真」もしくは「サッカーのシーン」、「ゴルフのシーン」等の各シーン毎にそれぞれシーン頻度分布マップＳＤＭを有している状態になっている。
【００６７】
ここで、第２写像手段８２は、識別ベクトルＡＰをシーン用２次元空間ＳＯＭｓ上に写像して識別ベクトルに最も近似したニューロンを選択してその第２座標情報ＣＩ２を取得する。そして第２写像手段８２は取得した第２座標情報ＣＩ２を識別シーン出力手段８３に送る。識別シーン出力手段８３は、送られた第２座標情報ＣＩ２を用いてシーン頻度分布マップＳＤＭからシーン情報ＳＩを抽出して出力する。
【００６８】
また、識別シーン出力手段８３において、上述した種類出力手段６０と同様に、複数のシーン頻度分布マップＳＤＭから得られる各シーンの数値のうち最も大きいものが所定のしきい値（たとえば０．５）より小さい場合、シーンの識別の確信度が低いと判断して、シーン情報を「不明」とするようにしてもよい。
【００６９】
図１３は本発明のシーン識別方法の好ましい実施の形態を示すフローチャート図であり、図１１から図１３を参照してオブジェクト識別方法について説明する。まず、オブジェクト抽出手段２０において、入力された画像Ｐがオブジェクト領域ＯＲ毎に領域分割される（ステップＳＴ１０）。その後、オブジェクト識別手段７０において、上述したステップＳＴ１〜ステップＳＴ７の手法により、抽出されたオブジェクト領域ＯＲ毎に種類情報ＫＩが付される（ステップＳＴ１１）。そして、各オブジェクト領域ＯＲに対して付された複数の種類情報ＫＩがシーン識別手段８０に入力される。
【００７０】
すると、識別ベクトル生成手段８１により、入力された複数の種類情報ＫＩを用いて識別ベクトルＡＰが生成される（ステップＳＴ１２）。次に、識別ベクトルが第２写像手段８２により自己組織化マップＳＯＭｋに入力されて、自己組織化マップＳＯＭｋ上の座標情報が識別シーン出力手段８３に出力される。そして、識別シーン出力手段８３において、出力された座標情報に当たるシーン頻度分布マップＳＤＭ上のシーン情報ＳＩが抽出されて出力される（ステップＳＴ１３）。
【００７１】
上記実施の形態によれば、複数のオブジェクトを有する画像Ｐからオブジェクト領域ＯＲを抽出し、複数のオブジェクト領域ＯＲ毎に種類を識別し、各オブジェクト領域ＯＲ毎の種類を用いて画像のシーンを識別することにより、画像Ｐのシーンを自動的に識別することができるようになり、画像の分類および検索を容易に行うことができる。すなわち、画像Ｐの物理的特徴に基づいて分類および検索を行う場合、たとえば肌と砂のように物理的特徴が類似していても意味が異なるものについては正確に分類・検索することができない。一方、画像Ｐのシーンを自動的に識別することができれば、精度よく画像Ｐの分類・検索を行うことができる。また、オブジェクトの種類の識別および画像Ｐのシーンの識別にいわゆる修正対向伝搬ネットワークを用いることにより、シーンの識別を精度よく効率的に行うことができる。
【００７２】
なお、本発明の実施の形態は上記実施の形態に限定されない。たとえば、上記実施の形態において、シーン識別手段８０は、１つの画像のシーンを識別する場合について言及しているが、複数の画像のシーンを識別して、識別した複数の画像Ｐからなる画像群ＰＧのシーンを識別するようにしてもよい。具体的には、図１４に示すように、シーン識別手段８０が、識別した複数の画像からなる画像群のシーンを記憶する記憶手段８４、画像群のシーンを識別するための画像群識別手段８５を有している。この画像群識別手段８５は、上述したシーン識別手段８０と同一の構成（修正対向伝搬ネットワーク）を有するものである。そして、画像群識別手段８５は、予め画像群に占める各シーンの頻度分布（比率）をベクトル成分とするシーンベクトルから「運動会」や「旅行」等のイベント情報を識別できるように学習されている。
【００７３】
すると、まず画像群識別手段８５おいて、記憶手段８４に記憶された画像群を構成する各画像のシーンを用いて、画像群に占める各シーンの頻度分布（比率）、たとえば風景シーンの比率、室内シーンの比率、ポートレートシーンの比率等が算出されてシーンベクトルが生成される。そして、生成されたシーンベクトルが修正対向伝搬ネットワークに入力されると、画像群のたとえば「運動会」や「旅行」等の画像群のシーン（イベント記述）毎にそれぞれ信頼度が出力される。出力された複数の信頼度のうち、最も大きい信頼度を画像群に対するイベント記述として識別する。これにより、画像群についてもシーンを自動的に識別できるようになるため、画像群の検索・分類を効率的に行うことができる。
【００７４】
なお、シーンベクトルのベクトル成分が、上述した画像群に示す各シーンの比率である場合に限定されず、たとえば画像群に含まれるオブジェクト領域ＯＲの種類の比率を用いてもよい。また、画像群識別手段８５が画像群のイベント記述を画像群のシーンとして識別する場合について例示しているが、たとえば画像群が「風景シーン」「室内シーン」等のシーンを識別するものであってもよい。
【図面の簡単な説明】
【図１】本発明のシーン識別装置の第１の実施の形態を示すブロック図
【図２】本発明のシーン識別装置において、画像に含まれるオブジェクト毎に種類が識別される様子を示す図
【図３】本発明のシーン識別装置におけるオブジェクト抽出手段の一例を示すブロック図
【図４】図２のオブジェクト抽出手段により画像が領域分割される様子を示す図
【図５】図２のオブジェクト抽出手段によりクラスタリング領域が統合されてオブジェクト領域が形成される様子を示す図
【図６】本発明のシーン識別装置におけるブロック特徴量抽出手段の一例を示すブロック図
【図７】本発明のシーン識別装置における距離画像生成手段における距離画像の生成の様子を示すブロック図
【図８】本発明のシーン識別装置における写像手段および種類出力手段の一例を示すブロック図
【図９】本発明のシーン識別装置における種類頻度分布マップの一例を示すブロック図
【図１０】オブジェクト識別方法の一例を示すフローチャート図
【図１１】本発明のシーン識別装置におけるシーン識別手段の一例を示すブロック図
【図１２】図１０の識別ベクトル生成手段における各種類毎の識別ベクトルを示す図
【図１３】本発明のシーン識別方法の好ましい実施の形態を示すフローチャート図
【図１４】本発明のシーン識別装置におけるシーン識別手段の別の一例を示すブロック図
【符号の説明】
１　　　シーン識別装置
２０　　オブジェクト抽出手段
７０　　オブジェクト識別手段
８０　　シーン識別手段
ＡＰ　　識別ベクトル
ＣＩ　　位置
ＣＰ　　分類パラメータ
ＫＤＭ　各種類頻度分布マップ
ＫＩ　　各種類情報
ＯＲ　　オブジェクト領域
Ｐ　　　画像
ＰＧ　　画像群
ＳＤＭ　シーン頻度分布マップ
ＳＩ　　シーン情報

Claims

複数のオブジェクトを有する画像のシーンを識別するシーン識別方法において、
前記画像から複数のオブジェクト領域を抽出するステップと、
抽出した前記複数のオブジェクト領域毎に前記オブジェクトの種類を識別するステップと、
識別した前記各オブジェクト毎の種類を用いて前記画像のシーンを識別するステップと
を有することを特徴とするシーン識別方法。
複数のオブジェクトを有する画像のシーンを識別するシーン識別装置において、
前記画像から複数のオブジェクト領域を抽出するオブジェクト抽出手段と、
抽出された前記複数のオブジェクト領域毎に前記オブジェクトの種類を識別するオブジェクト識別手段と、
識別された前記各オブジェクト毎の種類を用いて前記画像のシーンを識別するシーン識別手段と
を有することを特徴とするシーン識別装置。
前記シーン識別手段が、前記画像についてシーンを識別するとともに、識別した前記複数の画像のシーンから該複数の画像からなる画像群のシーンを識別する機能を有することを特徴とする請求項２に記載のシーン識別装置。
前記シーン識別手段が、
識別された前記複数のオブジェクト領域毎の種類をシーン用２次元空間に写像する写像手段と、
前記シーン用２次元空間上の座標毎にシーンを定義したシーン頻度分布マップを有し、写像された前記シーン用２次元空間上の座標が前記シーン頻度分布マップ上で示す前記シーンを前記画像のシーンとして識別した識別シーン情報出力手段と
を有することを特徴とする請求項２または請求項３に記載のシーン識別装置。
複数のオブジェクトを有する画像からオブジェクト領域を抽出する手順と、
抽出した前記複数のオブジェクト領域毎に前記オブジェクトの種類を識別する手順と、
識別された前記各オブジェクト毎の種類を用いて前記画像のシーンを識別する手順と
をコンピュータに実行させるためのシーン識別プログラム。