JP2018055195A

JP2018055195A - 学習装置、画像識別装置、学習方法、画像識別方法及びプログラム

Info

Publication number: JP2018055195A
Application number: JP2016187442A
Authority: JP
Inventors: 敬正角田; Norimasa Kadota; 優和真継; Masakazu Matsugi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-09-26
Filing date: 2016-09-26
Publication date: 2018-04-05
Anticipated expiration: 2036-09-26
Also published as: US10706326B2; JP6866095B2; US20180089537A1

Abstract

【課題】センサ情報と画像とに基づいて、精度よく画像を識別することを目的とする。
【解決手段】画像と、前記画像に対応する、少なくとも１種類以上のセンサ情報とに基づく画像識別に用いる識別器を学習する学習装置であって、画像と、センサ情報とを含む、学習用のデータセットを取得する取得手段と、前記学習用のデータセットから、少なくとも画像を含み、画像とセンサ情報の組み合わせの異なる、複数のサブセットを作成する作成手段と、複数のサブセットそれぞれに基づいて、複数のサブセットそれぞれに対応した複数の第１の識別器を学習する第１の学習手段とを有する。
【選択図】図２

Description

本発明は、画像及びセンサによる検知結果を用いた画像識別に係る識別器の学習装置、画像識別装置、学習方法、画像識別方法及びプログラムに関する。

従来、画像から対象を識別する画像識別技術において、画像だけでなく、センサによる検知結果を用いる技術が知られている。特許文献１には、画像撮影時のパラメータ（露光時間、感度（ＩＳＯ）、開口数（Ｆ値））を用いて取得した測光値で、画素毎の輝度値を補正し、識別器を用いて、屋内シーンか屋外シーンかの判定と屋外シーンの場合の影領域の識別を行う技術が開示されている。また、非特許文献１には、複数のセンサ情報を内包するものの欠損するデータがあるような不均一なデータセットにおいて、欠損しているセンサデータを推定する転移学習手法が開示されている。

特許第５４５８９０５号公報

Ｂ．Ｔａｎ，Ｅ．Ｚｈｏｎｇ，Ｅ．Ｘｉａｎｇ，Ｑ．Ｙａｎｇ，"Ｍｕｌｔｉ−Ｔｒａｎｓｆｅｒ：ＬｅａｒｎｉｎｇｗｉｔｈＭｕｌｔｉｐｌｅＶｉｅｗｓａｎｄＭｕｌｔｉｐｌｅＳｏｕｒｃｅｓ"，ＳｔａｔｉｓｔｉｃａｌａｎａｌｙｓｉｓａｎｄＤａｔａＭｉｎｉｎｇ，２０１３

しかしながら、学習データとなるすべての画像に対して共通するセンサ情報が存在しない場合もある。非特許文献１には、一のセンサ情報から他のセンサ情報を推定する技術が開示されている。しかしながら、センサ情報間に相関がない場合にはセンサ情報の推定は困難である。

本発明はこのような問題点に鑑みなされたもので、センサ情報と画像とに基づいて、精度よく画像を識別することを目的とする。

そこで、本発明は、画像と、前記画像に対応する、少なくとも１種類以上のセンサ情報とに基づく画像識別に用いる識別器を学習する学習装置であって、前記画像と、前記センサ情報とを含む、学習用のデータセットを取得する取得手段と、前記学習用のデータセットから、少なくとも前記画像を含み、前記画像と前記センサ情報の組み合わせの異なる、複数のサブセットを作成する作成手段と、前記複数のサブセットそれぞれに基づいて、複数のサブセットそれぞれに対応した複数の第１の識別器を学習する第１の学習手段とを有することを特徴とする。

本発明によれば、センサ情報と画像とに基づいて、精度よく画像を識別することができる。

画像識別装置のハードウェア構成を示す図である。学習装置の機能構成を示す図である。学習データセットに含まれる画像の説明図である。学習データセットを模式的に示す図である。学習処理を示すフローチャートである。サブセットの説明図である。第２の実施形態に係る画像識別装置の機能構成を示す図である。第２の実施形態に係る画像識別処理を示すフローチャートである。分割処理の説明図である。第２の実施形態に係る学習装置の機能構成を示す図である。第２の実施形態に係る学習処理を示すフローチャートである。第２の実施形態に係る画像識別装置の機能構成を示す図である。第２の実施形態に係る画像識別処理を示すフローチャートである。累積類似度の算出処理の説明図である。第３の実施形態に係る学習装置の機能構成を示す図である。第３の実施形態に係る学習処理を示すフローチャートである。第３の実施形態に係る画像識別装置の機能構成を示す図である。第３の実施形態に係る画像識別処理を示すフローチャートである。

以下、本発明の実施形態について図面に基づいて説明する。
（第１の実施形態）
図１は、第１の実施形態に係る学習装置１００のハードウェア構成を示す図である。学習装置１００は、ＣＰＵ１０１と、ＲＯＭ１０２と、ＲＡＭ１０３と、ＨＤＤ１０４と、表示部１０５と、入力部１０６と、通信部１０７と、を有している。ＣＰＵ１０１は、ＲＯＭ１０２に記憶された制御プログラムを読み出して各種処理を実行する。ＲＡＭ１０３は、ＣＰＵ１０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ１０４は、各種データや各種プログラム等を記憶する。なお、後述する学習装置１００の機能や処理は、ＣＰＵ１０１がＲＯＭ１０２又はＨＤＤ１０４に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。

表示部１０５は、各種情報を表示する。入力部１０６は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。通信部１０７は、ネットワークを介して外部装置との通信処理を行う。なお、ネットワークとしては、イーサネット（登録商標）が挙げられる。また、他の例としては、通信部１０７は、無線により外部装置との通信を行ってもよい。

図２は、学習装置１００の機能構成を示す図である。学習装置１００は、画像と少なくとも１種類以上のセンサ情報とに基づく画像識別に用いられる識別器を学習する。ここで、センサ情報とは、センサにより得られた検知結果を示す情報である。なお、センサ情報に対応するセンサは、対応する画像を撮像する撮像装置と一体に設けられていてもよく、別の装置として設けられていてもよい。また、センサ情報は、画像の撮像タイミングに対応したタイミングにおいて得られたものであり、画像に対応付けられているものとする。ここで、対応するタイミングとは、撮像タイミングと同一のタイミング、撮像タイミングの前後一定期間内のタイミング等、画像とセンサ情報とが関係性を有するようなタイミングである。

学習装置１００は、第１学習データ記憶部２０１と、サブセット作成部２０２と、Ｋ分割部２０３と、第１学習部２０４と、サブセット識別器記憶部２０５と、を有している。学習装置１００はまた、検証部２０６と、信頼度特定部２０７と、第２学習データ記憶部２０８と、第２学習部２０９と、統合識別器記憶部２１０と、信頼度記憶部２１１と、を有している。第１学習データ記憶部２０１は、画像識別に用いる識別器の学習に用いる学習データセットを記憶している。本実施形態においては、学習データセットは、画像単独のデータセットの他、画像とセンサ情報のセットデータを含んでいる。

図３は、学習データセットに含まれる画像の説明図である。図３（ａ）に示すような画像３００に対し、図３（ｂ）に示すように、画素単位でＳｋｙやＢｕｉｌｄｉｎｇ等の領域カテゴリが定義されている。なお、領域カテゴリは、管理者等が予め定義しておくこととする。図３（ｂ）のように正解の領域カテゴリが割り当てられたマップをＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）と呼ぶ。

図４は、学習データセットを模式的に示す図である。本実施形態の学習装置１００は、図４に示すカメラＢから得られるデータセットを入力として画像識別を行うための識別器を学習するものとする。カメラＢは、センサａ及びセンサｂを搭載しており、カメラＢにより得られた撮像画像には、撮像時にセンサａから得られたセンサ情報aと、撮像時にセンサｂから得られたセンサ情報ｂが対応付けられている。すなわち、対象データセットには、カメラＢにより得られた撮像画像と、センサ情報ａと、センサ情報ｂが含まれる。

このような対象データセットに対し、対象データセットに含まれる画像と、対象データセットに含まれる少なくとも１つのセンサ情報とを含むデータセットが、学習データセットとして設定される。なお、本実施形態においては、学習データセットは、学習装置１００に予め記憶されているものとするが、他の例としては、学習装置１００は、後述する学習処理の開始前に外部装置から学習データセットを取得してもよい。

本実施形態においては、図４に示すように、学習データセットには、画像ＤＢから得られた複数の画像を含むデータセットが含まれている。さらに、学習データセットには、カメラＡにより得られた複数の画像と、それぞれに対応するセンサ情報ａとを含むデータセットが含まれている。ここで、センサ情報ａは、カメラＡが備えるセンサａにより対応する画像の撮影時に得られた検知結果である。

学習データセットには、さらにカメラＢにより得られた複数の画像と、それぞれに対応するセンサ情報ａとセンサ情報ｂとを含むデータセットが含まれている。ここで、センサ情報ａは、カメラＢが備えるセンサａにより対応する画像の撮影時に得られた検知結果である。また、センサ情報ｂは、カメラＢが備えるセンサｂにより対応する画像の撮影時に得られた検知結果である。

学習データセットには、さらにカメラＣにより得られた複数の画像と、それぞれに対応するセンサ情報ａとセンサ情報ｃとを含むデータセットが含まれている。ここで、センサ情報ａは、カメラＣが備えるセンサａにより対応する画像の撮影時に得られた検知結果である。また、センサ情報ｃは、カメラＣが備えるセンサｃにより対応する画像の撮影時に得られた検知結果である。

なお、画像と共に記憶されるセンサ情報の種類は特に限定されるものではない。センサ情報は、例えばカメラでの露出制御時に取得される輝度値やＡＦ制御時の距離情報、ガンマ補正や階調数の圧縮等をしていないＲＡＷイメージ等、カメラによる撮像・現像処理に付随する情報であってもよい。また、他の例としては、撮像・現像とは直接関係がない付加的なセンサやデバイスにより得られる情報であってもよい。具体的には、ジャイロセンサ、地磁気センサ（コンパス）、気圧・湿度・気温センサによる検知結果を示す情報が挙げられる。また、センサ情報は、多眼カメラ等による視差マップや奥行マップ、ＧＰＳによる位置情報、時刻等であってもよい。

図２に戻り、サブセット作成部２０２は、第１データ記憶部２０１に記憶されている学習データから、複数のサブセットを作成する。Ｋ分割部２０３は、各サブセットのデータを、学習データと検証データに分割する。本実施形態においては、Ｋ分割部２０３は、ｋ−分割交差検証を行うため、サブセット内のデータをＫ個に分割する。そして、学習装置１００は、学習と検証をＫ回行う。

第１学習部２０４は、サブセットそれぞれに対する識別器を学習する。以下、サブセットそれぞれに対する識別器をサブセット識別器と称する。例えばサブセットの数が３の場合には、３つのサブセット識別器を学習する。第１学習部２０４は、得られたサブセット識別器をサブセット識別器記憶部２０５に保存する。

検証部２０６は、Ｋ分割部２０３の学習により得られたサブセット識別器の、検証データに対する精度（汎化精度）を評価し、汎化精度を第２学習データ記憶部２０８に保存する。信頼度特定部２０７は、汎化精度に基づいて、各サブセット識別器の信頼度を決定し、信頼度を第２学習データ記憶部２０８及び信頼度記憶部２１１に格納する。このとき、信頼度特定部２０７は、検証データに対するサブセット識別器による識別結果と、対応する小領域の領域カテゴリＧＴと、を第２学習データ記憶部２０８に格納する。

第２学習部２０９は、ｋ−分割交差検証法でＫ回評価された各サブセット識別器の識別結果、信頼度及び領域カテゴリＧＴを用い、各サブセット識別器による識別結果を統合する統合識別器を学習する。第２学習部２０９は、得られた統合識別器を統合識別器記憶部２１０に保存する。

図５は、学習装置１００による学習処理を示すフローチャートである。本実施形態においては、図４に示す学習データセットを用いた場合を例に説明する。また、本実施形態においては、識別器の学習のためにｋ−分割交差検証法を用いることとする。Ｓ５０１において、サブセット作成部２０２は、第１学習データ記憶部２０１から学習データセットを取得し、学習データセットに基づいて、複数のサブセットを作成する。ここで作成されるサブセットは、いずれも画像を含むものとする。また、サブセット作成部２０２は、各サブセットに含まれる画像及びセンサ情報の組み合わせが、サブセット毎に異なるような複数のサブセットを作成するものとする。

例えば、図４を参照しつつ説明した学習データセットにおいては、対象データセットが画像と、センサ情報ａと、センサ情報ｂを含む。したがって、サブセット作成部２０２は、少なくとも画像を含み、センサ情報ａとセンサ情報ｂの組み合わせが異なるデータセットをサブセットとして選択する。すなわち、サブセット作成部２０２は、画像のみのサブセットと、画像とセンサ情報ａのサブセットと、画像とセンサ情報ｂのサブセットと、画像とセンサ情報ａとセンサ情報ｂのサブセットと、を作成することができる。ただし、このように、対象データセットのセンサ情報から取り得るすべての組み合わせに対応したサブセットを作成する必要はなく、１以上のサブセットを作成すればよい。例えば、データ数の調整、学習効率等の観点で適切な数のデータセットを選択するのが好ましい。対象データセットに、画像識別におけるタスクに有効でないものがある場合、サブセットから、そのデータを除外してもよい。

ここでは、図６に示すように、サブセット作成部２０２は、上記サブセットのうち、画像のみのサブセットＳ₁と、画像とセンサ情報ａのサブセットＳ₂と、画像とセンサ情報ａとセンサ情報ｂのサブセットＳ₃と、を作成するものとして説明を続ける。

Ｓ５０１の処理の後、Ｓ５０２において、Ｋ分割部２０３は、Ｓ５０１において作成された各サブセットに含まれるデータをＫ個に分割する。識別器の学習のためにｋ−分割交差検証法を用いるためである。Ｋ分割部２０３は、具体的には、画像に１からＫの整数ラベルをランダムに割り当てる。なお、後述する繰り返し処理におけるｋ番目のステップにおいては、ラベルｋのデータが検証データ、ｋ以外のラベルのデータが学習データとして用いられる。

なお、本処理は、画像を１つの単位として交差検証する実施例だが、他の例としては、画像を小領域に分割し、小領域毎に１からＫのラベルを割り当て、Ｋ分割する方法を用いてもよい。また、他の例としては、撮影時の露出や絞り等のパラメータをいくつか変え、構図や被写体は変えないで撮影した一連の画像を一つの単位とする方法を用いてもよい。すなわち一連の画像群に１からＫのラベルを割り当て、Ｋ分割する方法である。学習用データセットに、このような、撮影時パラメータだけ変えた画像群が存在する場合、一連の画像群をＫ分割する方法が有効である。

ＣＰＵ１０１は、Ｓ５０２に続く、３つの処理（Ｓ５０３〜Ｓ５０５）を、ｋ−分割交差検証法適用により、Ｋ回繰り返す。１からＫの各ステップにおいて、ＣＰＵ１０１は、Ｋ分割処理（Ｓ５０２）において設定した学習データと検証データを、各サブセットに関して用いる。

Ｓ５０３において、第１学習部２０４は、各サブセットの学習データを用いてサブセット識別器の学習を行う。第１学習部２０４は、まずサブセット内の画像に対し小領域分割を行い、画像の各小領域から画像特徴量を抽出する。さらに、サブセットにセンサ情報が含まれる場合、第１学習部２０４は、センサ情報から小領域に対応するセンサ情報特徴量を抽出する。そして、第１学習部２０４は、小領域に対応する領域カテゴリのＧＴを教師値として、画像特徴量及びセンサ情報特徴量に基づき、サブセット識別器の学習を行う。なお、画像特徴量は、画像から抽出される特徴量である。センサ情報特徴量は、センサ情報から抽出される特徴量である。

また、小領域は、ＲＧＢ値や位置が類似した複数の画素で構成される領域である。本実施形態においては、第１学習部２０４は、以下に示す文献に記載されているようなＳＰ（Ｓｕｐｅｒ−ｐｉｘｅｌ）と呼ばれる小領域に分割する。

Ａ．Ｓｈａｊｉ，Ｋ．Ｓｍｉｔｈ，Ａ．Ｌｕｃｃｈｉ，"ＳＬＩＣＳｕｐｅｒｐｉｘｅｌｓ，Ｒ．Ａｃｈａｎｔａ"，ＥＰＦＬＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，２０１０．

なお、小領域は、実施形態に限定されるものではなく、第１学習部２０４は、矩形形状に分割した碁盤目状の小領域を利用してもよい。

また、各小領域から取得する画像特徴量としては、例えばＲＧＢ値統計量、ＲＧＢ値ヒストグラム、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）等が挙げられる。またセンサ情報特徴量としては、例えば輝度値等が挙げられる。輝度値は、画素毎に換算可能なため、画素毎の値を平均する等して小領域毎の値を容易に取得できる。また、センサ情報特徴量としては、画像１枚に対して１つの値が付与されるジャイロセンサやＧＰＳ等の検知結果が挙げられる。これらの値は、１つの画像に対し１つの値が得られる。このように、１つの画像に対して１つの値が対応している場合には、各小領域に対するセンサ情報特徴量をすべて同じ値として与えればよい。また、画像の空間解像度と異なる解像度で取得されるデータ（たとえば距離マップ等）では、小領域内の値の平均や代表点のサンプリングや、補間等の前処理を行い小領域の値を与える等が考えられる。

サブセットＳ₁は、画像のみで構成される。したがって、第１学習部２０４は、サブセットＳ１に関しては、サブセットＳ１内の画像に対し小領域分割を行い、画像の各小領域から画像特徴量を抽出する。そして、第１学習部２０４は、小領域に対応する領域カテゴリのＧＴを教師値とし、画像特徴量に基づいて、サブセットＳ₁に対応したサブセット識別器Ｃ₁を学習する。

また、サブセットＳ₂、Ｓ₃に関しては、第１学習部２０４は、画像特徴量の抽出の他、センサ情報から小領域に対応するセンサ情報特徴量を抽出する。そして、第１学習部２０４は、教師値と、サブセットＳ₂の画像特徴量とセンサ情報特徴量とに基づいて、サブセットＳ₂に対応したサブセット識別器Ｃ₂を学習する。また、第１学習部２０４は、教師値と、サブセットＳ₃の画像特徴量とセンサ情報特徴量とに基づいて、サブセットＳ₃に対応したサブセット識別器Ｃ₃を学習する。このように、第１学習部２０４は、サブセットが３つ存在する場合に、３つのサブセットそれぞれに対応する３つのサブセット識別器Ｃ₁、Ｃ₂、Ｃ₃を得る。第１学習部２０４は、得られたサブセット識別器をサブセット識別器記憶部２０５に格納する。

なお、サブセット識別器は、多クラス識別を行う識別器であればよく、実施形態に限定されるものではない。サブセット識別器の他の例としては、多クラス化したロジスティック回帰やサポートベクターマシンの他、ランダムフォレスト、ニューラルネットワーク等が挙げられる。

次に、Ｓ５０４において、検証部２０６は、Ｓ５０２において得られた各サブセットの検証データを用いて、Ｓ５０３において得られた各サブセット識別器の検証を行い、検証データに対する識別結果を得る。検証部２０６はさらに、識別結果から汎化精度を求める。そして、検証部２０６は、検証データに対する識別結果と、対応する小領域の領域カテゴリＧＴを第２学習データ記憶部２０８に格納する。検証部２０６は、具体的には、Ｓ５０３における処理と同様に、サブセット内の画像を小領域に分割し、画像の各小領域から画像特徴を抽出し、センサ情報が含まれる場合には、センサ情報から小領域に対応するセンサ情報特徴量を抽出する。そして、検証部２０６は、サブセット識別器記憶部２０５に格納されている各サブセットに対応したサブセット識別器を用いて、小領域の領域カテゴリを識別する。検証部２０６は、各サブセット識別器による識別結果と小領域に対応する領域カテゴリのＧＴとから、サブセット識別器毎の汎化精度を得る。汎化精度とは、検証データに対する各サブセット識別器の正解率である。

なお、検証部２０６は、識別結果から、汎化精度にかえて、学習データに対する精度である経験精度を用いてもよい。この場合には、検証部２０６は、Ｓ５０４において、学習データに対し識別を行い、経験精度を取得する。

次に、Ｓ５０５において、信頼度特定部２０７は、Ｓ５０４において決定された汎化精度に基づいて、サブセット識別器の信頼度を決定する。そして、信頼度特定部２０７は、信頼度を第２学習データ記憶部２０８及び信頼度記憶部２１１に格納する。本実施形態においては、信頼度特定部２０７は、（式１）により、信頼度Ａｔを算出する。なお、（式１）において、Ｒ_tは汎化精度、Ｔはサブセット数、添え字ｉは、サブセットのＩＤ（ｔ＝１，２，・・・Ｔ）である。

なお、本実施形態においては、領域判別器の精度を、汎化誤差からのみ取得するがこれに限定されるものではない。前述のとおり、経験精度を併用してもよいし、その他学習データ数、特徴量次元数、サポートベクターマシンではサポートベクトル数等から信頼度を得てもよい。

ｋ−分割交差検証法の適用により、Ｓ５０３〜Ｓ５０５の処理がＫ回実施され、検証用データに対する領域カテゴリＧＴ、識別結果及び信頼度が第２学習データ記憶部２０８に格納される。なお、識別結果は、領域カテゴリを指示するバイナリデータでもよいが、サポートベクターマシンにおけるサポートベクトルからのマージンで換算される確率値やロジスティック回帰の出力等、領域カテゴリ毎の尤度を表す連続値としてもよい。その他、各サブセット識別器の検証データそのものを第２学習データ記憶部２０８に格納し、後段の統合識別器の学習では、検証データを用いてもよい。

Ｓ５０３〜Ｓ５０５の処理がＫ回実施された後、ＣＰＵ１０１は、処理をＳ５０６へ進める。Ｓ５０６において、第２学習部２０９は、統合学習器の学習を行う。統合識別器は、各サブセット識別器による識別結果を統合し、最終的な識別結果を出力する。学習の教師値には、各小領域に対応する領域カテゴリＧＴを用い、特徴量には、前述の通り、各サブセット識別器の識別結果と信頼度を用いることとする。なお、他の例としては、特徴量として、サブセット識別器の学習において用いた画像特徴量やセンサ情報特徴量を用いてもよい。

本実施形態のようにｋ−分割交差検証法でＫ回評価された場合、サブセット識別器の信頼度はＫ回それぞれ別の値を取ることが多い。ただし、各サブセットを学習データと検証データに２分割だけして、学習と検証を１度だけ行う場合は、信頼度は常に一定となり特徴量とならない。このような場合には、第２学習部２０９は、サブセット識別器の連続値の尤度に対して信頼度を掛け、それを特徴量とすればよい。

以上のように、学習装置１００は、画像識別の対象となるデータセットに含まれる画像とセンサ情報に対し、画像とセンサ情報の組み合わせの異なる複数のサブセットを作成する。そして、学習装置１００は、サブセットに対応した複数のサブセット識別器と、これらの識別結果を統合する統合識別器とを学習する。このように、本実施形態に係る学習装置１００は、学習データセットのデータを効率良く活用し、識別器を学習することができる。

次に、学習装置１００により得られた識別器を用いた画像識別を行う画像識別装置について説明する。本実施形態に係る画像識別装置は、画像識別を行い、意味的領域分割を行うものとする。画像識別装置は、例えば図３（ａ）に示すような画像に対し、図３（ｂ）に示すように画素単位で領域カテゴリを出力する。図７は、画像識別装置７００の機能構成を示す図である。画像識別装置７００は、サブセット識別器記憶部７０１と、信頼度記憶部７０２と、統合識別器記憶部７０３と、受付部７０４と、第１識別部７０５と、第２識別部７０６と、を有している。

サブセット識別器記憶部７０１、信頼度記憶部７０２及び統合識別器記憶部７０３には、それぞれ学習装置１００により得られたサブセット識別器、各サブセット識別器の信頼度及び統合識別器が予め記憶されている。なお、学習時にｋ−分割交差検証法を適用する場合、複数のサブセット識別器それぞれに対し通常Ｋ個の異なる信頼度が得られるが、信頼度記憶部７０２には、これらの平均値や中央値が、サブセット識別器の信頼度として記憶されているものとする。なお、サブセット識別器の信頼度は、このように、サブセット識別器に対して得られる複数の信頼度から定まる値であればよく、実施形態に限定されるものではない。

受付部７０４は、画像識別の対象となる対象画像を含む対象データセットを受け付ける。なお、対象データセットは、外部装置から入力されてもよく、また、画像識別装置７００のＨＤＤ１０４等から読み出されてもよい。図４に示す例においては、受付部７０４は、カメラＢから対象データセットを受信する。第１識別部７０５は、サブセット識別器記憶部７０１に格納されている複数のサブセット識別器を用いて、対象データセットの対応する特徴量から、複数のサブセット識別器それぞれの識別結果を得る。第２識別部７０６は、統合識別器記憶部７０３に格納されている統合識別器を用いて、第１識別部７０５の識別結果と、信頼度記憶部７０２に格納されている信頼度と、に基づき、サブセット識別器の識別器を統合し、領域カテゴリの最終的な識別結果を得る。なお、画像識別装置７００のハードウェア構成は、図１を参照しつつ説明した学習装置１００のハードウェア構成と同様である。

図８は、画像識別装置７００による画像識別処理を示すフローチャートである。Ｓ８０１において、受付部７０４は、対象データセットを受け付ける（受付処理）。本実施形態においては、受付部７０４は、１フレームの画像と、これに対応したセンサ情報を受け付けることとする。ただし、画像識別処理の対象となる画像が動画であるような場合には、受付部７０４は、動画及び動画の各フレームに対応した時系列のセンサ情報を受け付けてもよい。この場合には、Ｓ８０２以降の処理においては、１フレーム分の画像とこれに対応したセンサ情報を処理対象として、フレーム単位で画像識別処理を行えばよい。

次に、Ｓ８０２において、第１識別部７０５は、サブセット識別器記憶部７０１に格納されている複数のサブセット識別器を用いて、対象データセットに対する識別結果を得る。例えば、第１識別部７０５は、図９（ａ）示す対象画像９００を図９（ｂ）に示すような小領域９０１に分割する。そして、第１識別部７０５は、小領域単位で、サブセットに対応した画像特徴量及びセンサ情報特徴量に基づいて、領域カテゴリを識別する。本実施形態においては、第１識別部７０５は、サブセット識別器Ｃ₁に対し、対象データセットに含まれる対象画像の画像特徴量を入力し、識別結果を得る。さらに、第１識別部７０５は、サブセット識別器Ｃ₂に対し、対象データセットに含まれる画像の画像特徴量と、センサ情報ａのセンサ情報特徴量を入力し、識別結果を得る。さらに、第１識別部７０５は、サブセット識別器Ｃ₃に対し、対象データセットに含まれる画像の画像特徴量と、センサ情報ａのセンサ情報特徴量と、センサ情報ｂのセンサ情報特徴量を入力し、識別結果を得る。

なお、識別結果は、統合識別器に合わせ、領域カテゴリを指示するバイナリ値とするか、領域カテゴリ毎の尤度とするかが予め設定されているものとし、本実施形態では、領域カテゴリ毎の尤度とする。領域カテゴリ数を４とした場合、領域判別器Ｃ₁、Ｃ₂、Ｃ₃のカテゴリ毎の尤度Ｌ₁、Ｌ₂、Ｌ₃は、（式２）により得られる。

ここで、

は、ｔ番目のサブセット識別器のｉ番目のカテゴリの尤度であり、添え字ｔはサブセットのＩＤ、ｉはカテゴリのＩＤを表している。

次に、Ｓ８０３において、第２識別部７０６は、統合識別器記憶部７０３に格納されている統合識別器を用いて、第１識別部７０５の識別結果と、信頼度記憶部７０２に格納されている信頼度と、に基づき、サブセット識別器の識別結果を統合する。これにより、各小領域に対する領域カテゴリの最終的な識別結果が得られる。

サブセット識別器Ｃ₁、Ｃ₂、Ｃ₃の信頼度がそれぞれＡ₁、Ａ₂、Ａ₃である場合、統合識別器に入力される特徴量ｆは、（式３）に示すものとなる。

なお、統合識別器に入力される特徴量としては、各サブセット識別器の識別結果と信頼度の他、各サブセット識別器の入力として用いた画像特徴量やセンサ情報特徴量を用いてもよい。その場合、学習装置１００において、これに合わせた統合識別器を学習しておき、統合識別器記憶部２１０には、これに合わせた統合識別器を格納しておくこととする。

以上のように、第１の実施形態に係る画像識別装置７００は、対象データセットに含まれる画像とセンサ情報の組み合わせの異なる複数のサブセットそれぞれに対応した複数のサブセット識別器と統合識別器による画像識別を行う。これにより、センサ情報と画像とに基づいて、精度よく画像を識別することができる。

なお、本実施形態においては、学習装置１００と画像識別装置７００は、それぞれ独立した装置であるものとして説明したが、これらは一体に設けられていてもよい。

（第２の実施形態）
第２の実施形態に係る学習装置及び画像識別装置は、さらに画像の特徴量を用いて、識別器の学習、画像識別を行う。図１０は、第２の実施形態に係る学習装置１０００の機能構成を示す図である。学習装置１０００は、第１の実施形態に係る学習装置１０００の機能構成に加えて、特徴抽出部１００１と、特徴記憶部１００２と、類似度算出部１００３と、類似度記憶部１００４と、を有している。特徴抽出部１００１は、学習データセットに含まれる画像の特徴量であるグローバル特徴を抽出し、抽出したグローバル特徴を特徴記憶部１００２に格納する。特徴抽出部１００１は、交差検証の検証用画像と各領域識別器の学習に用いた画像それぞれのグローバル特徴の類似度を算出し、類似度記憶部１００４に格納する。

ここで、グローバル特徴とは、画像全体から抽出される特徴量である。グローバル特徴としては、ＢｏＷ特徴が挙げられる。ＢｏＷ特徴については、以下の文献を参照することができる。

Ｇ．Ｃｓｕｒｋａ，Ｃ．Ｄａｎｃｅ，Ｌ．Ｆａｎ，Ｊ．Ｗｉｌｌａｍｏｗｓｋｉ，Ｃ．Ｂｒａｙ，"Ｖｉｓｕａｌｃａｔｅｇｏｒｉｚａｔｉｏｎｗｉｔｈｂａｇｓｏｆｋｅｙｐｏｉｎｔｓ"，ＥＣＣＶＳＬＣＶＷｏｒｋｓｈｏｐ，２００４

また、グローバル特徴としては、ＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇＫｅｒｎｅｌが挙げられる。ＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇＫｅｒｎｅｌについては、以下の文献を参照することができる。

Ｓ．Ｌａｚｅｂｎｉｋ，Ｃ．Ｓｃｈｍｉｄａｎｄ．Ｐｏｎｃｅ，"ＢｅｙｏｎｄＢａｇｓｏｆＦｅａｔｕｒｅｓ，ＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇ，ＮｅｕｒａｌＳｃｅｎｅＣａｔｅｇｏｒｉｅｓ"，ＣＶＰＲ２００６

また、グローバル特徴としては、ＧＩＳＴ特徴を参照することができる。ＧＩＳＴ特徴については、以下の文献を参照することができる。

Ａ．ＯｌｉｖａａｎｄＡ．Ｔｏｒｒａｌｂａ，"Ｍｏｄｅｌｉｎｇｔｈｅｓｈａｐｅｏｆｔｈｅｓｃｅｎｅ：ａｈｏｌｉｓｔｉｃｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｓｐａｔｉａｌｅｎｖｅｌｏｐｅ"，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００１

また、他の例としては、グローバル特徴としては、画像内のＲＧＢ値をヒストグラム化した特徴量やブロック状に分割し各ブロックのＲＧＢ値をヒストグラム化した特徴量等であってもよい。

図１１は、第２の実施形態に係る学習装置１０００による学習処理を示すフローチャートである。図１１に示す処理のうち、図５を参照しつつ説明した第１の実施形態に係る各処理と同一の処理には同一の番号を付し、説明を省略する。ＣＰＵ１０１は、Ｓ５０２の処理の後、処理をＳ１１０１へ進める。Ｓ１１０１において、特徴抽出部１００１は、すべての学習画像及び検証画像からグローバル特徴を抽出し、グローバル特徴を特徴記憶部１００２に格納する。なお、グローバル特徴を抽出する処理は、Ｓ５０５の処理の前に行われていればよく、その処理タイミングは、実施形態に限定されるものではない。ＣＰＵ１０１は、Ｓ１１０１の処理の後、処理をＳ５０３へ進める。

また、ＣＰＵ１０１は、Ｓ５０５の処理の後、処理をＳ１１０２へ進める。Ｓ１１０２において、類似度算出部１００３は、特徴記憶部１００２に格納されているグローバル特徴に基づいて、Ｋ分割交差検証の各ステップにおける検証画像のグローバル特徴と全学習画像のグローバル特徴の間で類似度を算出する。検証画像についてｋ最近傍画像からサブセット毎に累積類似度を算出する。類似度算出部１００３は、さらに、Ｋ分割交差検証法で学習画像に分割された画像に対して、再度Ｋ分割交差検証法を適用することで、学習用の全画像のサブセット毎の累積類似度を得る。

そして、類似度算出部１００３は、サブセットに含まれるすべての学習画像の累積類似度の平均で、検証画像に関する累積類似度を割ることにより、サブセット識別器に乗算すべき重み値を算出する。重み値は、統合識別器の学習に用いられるため、類似度算出部１００３は、重み値を第２学習データ記憶部２０８に格納する。類似度算出部１００３はまた、検証画像の累積類似度を類似度記憶部１００４に格納する。Ｋ分割交差検証法における前ステップが行われることにより、第１学習データ記憶部２０１の学習データセットに含まれるすべての画像に関し、サブセット毎の累積類似度が得られる。

Ｓ５０３〜Ｓ５０５、Ｓ１１０２の処理がＫ回実施された後、ＣＰＵ１０１は、処理をＳ１１０３へ進める。Ｓ１１０３において、第２学習部２０９は、サブセット識別器の識別結果に対し、Ｓ１１０２において得られた重み値を乗じた値と、サブセット識別器の信頼度を統合識別器の特徴量として用いる。なお、これ以外の処理は、図５のＳ５０６の処理と同様である。

なお、他の例としては、第２学習部２０９は、重みを乗算するのにかえて、累積類似度を新たな特徴次元として、統合識別器の特徴量とすることにより、統合識別器を学習してもよい。

以上のように、学習装置１０００は、サブセット内の画像の類似度を加味した識別器を学習することができる。

次に、第２の実施形態に係る画像識別装置について説明する。図１２は、第２の実施形態に係る画像識別装置１２００の機能構成を示す図である。画像識別装置１２００は、第１の実施形態に係る画像識別装置７００の機能構成に加えて、特徴記憶部１２０１と、類似度記憶部１２０２と、特徴抽出部１２０３と、類似度算出部１２０４と、を有している。

特徴記憶部１２０１には、学習装置１０００により得られた、学習データセットに含まれる画像のグローバル特徴が予め記憶されている。類似度記憶部１２０２には、学習装置１０００により得られたサブセット毎の累積類似度の平均値（平均累積類似度）が予め記憶されている。特徴抽出部１２０３は、対象画像からグローバル特徴を抽出する。類似度算出部１２０４は、対象画像と、各サブセットの画像の類似度を算出する。

図１３は、第２の実施形態に係る画像識別装置１２００による画像識別処理を示すフローチャートである。図１３に示す処理のうち、図８を参照しつつ説明した、第１の実施形態に係る各処理と同一の処理には同一の番号を付し、説明を省略する。ＣＰＵ１０１は、Ｓ８０２の処理の後、処理をＳ１３０１へ進める。Ｓ１３０１において、特徴抽出部１２０３は、対象画像からグローバル特徴を抽出する。次に、Ｓ１３０２において、類似度算出部１２０４は、対象画像のグローバル特徴と、特徴記憶部１２０１に記憶されている各サブセットの学習画像のグローバル特徴との類似度を算出する。さらに、類似度算出部１２０４は、算出した類似度に基づいて、対象画像に対する各サブセット識別器の重み値を算出する。

ここで、まず類似度の算出方法について説明する。グローバル特徴が次元数Ｄを持つベクトルであり、任意の２つの画像のグローバル特徴がそれぞれｘ₁、ｘ₂と表現される場合、両画像間の類似度はカーネル関数Ｋを用いて、Ｋ（ｘ₁，ｘ₂）と表現される。類似度算出部１２０４は、（式４）に示す内積により類似度を算出する。なお、＜ｘ，ｙ＞は、ベクトルｘとｙの内積を表す。また、他の例としては（式５）に示すガウスカーネルを用いても類似度を算出してもよい。

次に、重み値の算出方法について説明する。類似度算出部１２０４は、学習データセットの画像と、対象画像の類似度を算出した後、サブセット毎にｋ最近傍画像を取得する。例えば、図６に示すサブセットＳ₁、Ｓ₂、Ｓ₃に対応するサブセット識別器Ｃ₁、Ｃ₂、Ｃ₃が設定され、さらにｋ＝５と設定されているとする。また、図１４に示すように、同一画像を含むサブセットが複数存在する。類似度算出部１２０４は、各サブセットに含まれる画像の対象画像１４００に対する類似度を加算することにより累積類似度を算出する。例えば、図１４に示す例において、サブセットＳ₁〜Ｓ₃の累積類似度は、それぞれ（式６）〜（式８）により３．３４、３．０２、２．８となる。

０．８＋０．７＋０．６５＋０．６＋０．５９＝３．３４ …（式６）
０．７＋０．６５＋０．６＋０．５５＋０．５２＝３．０２ …（式７）
０．７＋０．６＋０．５２＋０．５＋０．４８＝２．８ …（式８）

次に、類似度算出部１２０４は、上記処理により得られた各サブセットの対象画像に対する累積類似度を類似度記憶部１２０２に格納されている各サブセットの平均累積類似度で割ることにより、重み値を算出する。例えば、サブセットＳ₁、Ｓ₂、Ｓ₃それぞれの平均累積類似度がそれぞれ３．２、３．１、２．５であるとする。この場合、サブセット識別器Ｃ₁の重み値ｗ₁は、（式９）より、１．０４となる。同様に、サブセット識別器Ｃ₁、Ｃ₃の重み値ｗ₂、ｗ₃は、それぞれ（式１０）、（式１１）より、０．９７、１．１２となる。

ｗ₁＝３．３４／３．２＝１．０４ …（式９）
ｗ₂＝３．０２／３．１＝０．９７ …（式１０）
ｗ₃＝２．８／２．５＝１．１２ …（式１１）

図１３に戻り、Ｓ１３０２の処理の後、Ｓ１３０３において、第２識別部７０６は、各サブセット識別器の識別器を統合し、最終的な識別結果を得る。なお、このとき、第２識別部７０６は、信頼度記憶部７０２に格納されている信頼度と、統合識別器記憶部７０３に格納されている統合識別器と、Ｓ１３０２において算出された重み値と、を参照する。例えば、サブセット識別器Ｃ₁、Ｃ₂、Ｃ₃の尤度をそれぞれＬ₁、Ｌ₂、Ｌ₃とし、信頼度をそれぞれＡ₁、Ａ₂、Ａ₃、重み値をそれぞれｗ₁、ｗ₂、ｗ₃とする。この場合、統合識別器に入力される特徴量ｆは、（式１２）で表される。

ｆ＝｛Ｗ₁Ｌ₁，Ａ₁，Ｗ₂Ｌ₂，Ａ₂，Ｗ₃Ｌ₃，Ａ₃｝ …（式１２）

なお、他の例としては、第２識別部７０６は、重み値を乗算するのに替えて、Ｓ１３０２において算出した累積類似度を、統合識別器に入力する特徴量としてもよい。この場合、特徴量ｆは、（式１３）で表される。

ｆ＝｛ｖ₁，Ｌ₁，Ａ₁，ｖ₂，Ｌ₂，Ａ₂，ｖ₃，Ｌ₃，Ａ₃｝ …（式１３）

以上のように、画像識別装置１２００は、学習データセットに識別対象となる対象画像に類似する画像があった場合に、類似する画像で学習したサブセット識別器による識別結果を優先するような最終的な識別結果を得ることができる。

なお、第２の実施形態に係る学習装置及び画像識別装置のこれ以外の構成及び処理は、第１の実施形態に係る学習装置及び画像識別装置の構成及び処理と同様である。

（第３の実施形態）
第３の実施形態に係る学習装置及び画像識別装置は、特定の１カテゴリの領域を検出するような識別器の学習及び画像識別を行う。図１５は、第３の実施形態に係る学習装置１５００の機能構成を示す図である。学習装置１５００は、第１の実施形態に係る学習装置１００の第２学習データ記憶部２０８、第２学習部２０９及び統合識別器記憶部２１０を有さない。また、第１学習部２０４、検証部２０６及び信頼度特定部２０７の処理が異なる。各部の処理については、図１６を参照しつつ後述する。

図１６は、第３の実施形態に係る学習装置１５００による、学習処理を示すフローチャートである。ＣＰＵ１０１は、Ｓ５０２の処理の後、処理をＳ１６０１へ進める。Ｓ１６０１において、第１学習部２０４は、小領域の特徴量を抽出する。本処理は、Ｓ５０３における小領域の特徴量を抽出する処理と同様である。第１学習部２０４は、その後検出すべき特定カテゴリの領域に「＋１」、それ以外の領域に「−１」と教師ラベルを与え、サブセット識別器の学習を行う。そして、第１学習部２０４は、得られたサブセット識別器をサブセット識別器記憶部２０５に格納する。

次に、Ｓ１６０２において、検証部２０６は、検証データに対するエラー率を求める。ここで、エラー率は、「＋１」と「−１」の２クラスの識別結果に対する汎化誤差である。次に、Ｓ１６０３において、信頼度特定部２０７は、エラー率に基づいて、サブセット識別器の信頼度を決定し、信頼度を信頼度記憶部２１１に格納する。信頼度特定部２０７は、（式１４）により、エラー率ｅから信頼度Ｒを得る。

なお、他の例としては、汎化誤差に替えて、経験誤差をエラー率として用いることとしてもよい。また、前述の通り、学習データ数、特徴次元数、サポートベクターマシンではサポートベクター数等から信頼度を得てもよい。

図１７は、第３の実施形態に係る画像識別装置１７００の機能構成を示す図である。画像識別装置１７００は、第１の実施形態に係る画像識別装置７００の統合識別器記憶部７０３及び第２識別部７０６を有さず、統合部１７０１を有している。また、第１識別部７０５の処理が異なる。第１識別部７０５及び統合部１７０１の処理については、図１８を参照しつつ後述する。

図１８は、第３の実施形態に係る画像識別装置１７００による、画像識別処理を示すフローチャートである。ＣＰＵ１０１は、Ｓ８０１の処理の後、処理をＳ１８０１へ進める。Ｓ１８０１において、第１識別部７０５は、対象画像を小領域に分割する。そして、第１識別部７０５は、特定のカテゴリかそれ以外かを示す「＋１」、「−１」の２値で、小領域のカテゴリを識別する。次に、Ｓ１８０２において、統合部１７０１は、各サブセット識別器による識別結果に対し、信頼度記憶部７０２に格納されている信頼度を乗じた上で、信頼度の合計を最終的な判別結果として得る。

例えば、３つのサブセット識別器Ｃ₁、Ｃ₂、Ｃ₃に対し、Ｓ１８０１において得られた識別結果がそれぞれＬ₁、Ｌ₂、Ｌ₃であるとする。ここで、

とする。また、各サブセット識別器の信頼度がそれぞれＡ₁、Ａ₂、Ａ₃とする。この場合、最終的な統合結果（識別結果）Ｉは、（式１５）により得られる。ただし、ｓｇｎは、符号関数であり、Ｉが＋１であれば、対応する小領域のカテゴリは、特定カテゴリであり、−１であれば、特定カテゴリ以外である。

Ｉ＝ｓｇｎ（Ａ₁Ｌ₁＋Ａ₂Ｌ₂＋Ａ₃Ｌ₃） …（式１５）

なお、第３の実施形態に係る学習装置及び画像識別装置のこれ以外の構成及び処理は、他の実施形態に係る学習装置及び画像識別装置の構成及び処理と同様である。

第１の実施形態、第２の実施形態において説明したように、統合識別器を用いる場合には、ｋ−分割交差検証法を用い、後段の統合識別器の学習を行う必要があった。ここで、統合識別器の学習に用いるデータ数は、識別時に用いるカメラと同じセンサ情報を持つ画像の数に依存する。このため、統合識別器の学習用データ数が入力特徴量の次元に対し少な過ぎる場合には、適切な学習を行えない場合がある。これに対し、第３の実施形態においては、統合識別器を用いないこととする。これにより、学習用データが少ない場合においても、適切な識別器の学習及び画像識別を行うことができる。

なお、他の例としては、第３の実施形態の学習装置及び画像識別装置は、統合識別器を用いることにより、同等の処理を行ってもよい。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００学習装置
２０２サブセット作成部
２０４第１学習部
２０９第２学習部
７００画像識別装置
７０５第１識別部
７０６第２識別部

Claims

画像と、前記画像に対応する、少なくとも１種類以上のセンサ情報とに基づく画像識別に用いる識別器を学習する学習装置であって、
前記画像と、前記センサ情報とを含む、学習用のデータセットを取得する取得手段と、
前記学習用のデータセットから、少なくとも前記画像を含み、前記画像と前記センサ情報の組み合わせの異なる、複数のサブセットを作成する作成手段と、
前記複数のサブセットそれぞれに基づいて、複数のサブセットそれぞれに対応した複数の第１の識別器を学習する第１の学習手段と
を有することを特徴とする学習装置。
前記複数の第１の識別器それぞれの識別結果を統合する第２の識別器を学習する第２の学習手段をさらに有することを特徴とする請求項１に記載の学習装置。
前記サブセットを、学習データと検証データに分割する分割手段をさらに有し、
前記第１の学習手段は、前記サブセットそれぞれに含まれる前記学習データを用いて、前記サブセットそれぞれに対応する、複数の第１の識別器を学習することを特徴とする請求項１又は２に記載の学習装置。
前記サブセットを、学習データと検証データに分割する分割手段と、
前記複数の第１の識別器それぞれを用いて、対応するサブセットの前記検証データの判別結果から前記複数の第１の識別器それぞれの信頼度を決定する決定手段と
をさらに有し、
前記第２の学習手段は、さらに前記信頼度に基づいて、前記第２の識別器を学習することを特徴とする請求項２に記載の学習装置。
前記サブセットに含まれる画像の特徴量を抽出する抽出手段と、
サブセット毎の前記特徴量に基づいて、前記複数の第１の識別器それぞれに対する重み値を決定する決定手段と
をさらに有し、
前記第２の学習手段は、さらに前記重み値に基づいて、前記第２の識別器を学習することを特徴とする請求項４に記載の学習装置。
前記作成手段は、前記画像のみを含む第１のサブセットと、前記画像と少なくとも１種類以上のセンサ情報とを含む第２のサブセットと、を作成することを特徴とする請求項１乃至５の何れか１項に記載の学習装置。
前記センサ情報は、第１のセンサに対応する第１のセンサ情報と、前記第１のセンサと種類の異なる第２のセンサに対応する第２のセンサ情報とを含み、
前記作成手段は、前記画像と、前記第１のセンサ情報とを含む第１のサブセットと、前記画像と前記第２のセンサ情報とを含む第２のサブセットと、前記画像と、前記第１のセンサ情報と前記第２のセンサ情報とを含む第３のサブセットのうち少なくとも２つのサブセットを作成することを特徴とする請求項１乃至６の何れか１項に記載の学習装置。
前記センサ情報は、前記画像と共に撮像手段により得られる情報であることを特徴とする請求項１乃至７の何れか１項に記載の学習装置。
前記センサ情報は、前記画像の撮像手段による撮像タイミングに対応するタイミングにおいてセンサ手段により得られる情報であることを特徴とする請求項１乃至８の何れか１項に記載の学習装置。
画像と、前記画像に対応する、少なくとも１種類以上のセンサ情報とに基づく画像識別に用いる識別器を学習する学習装置であって、
前記画像と、前記センサ情報とを含む、学習用のデータセットを取得する取得手段と、
前記学習用のデータセットから、少なくとも前記画像を含み、前記画像と前記センサ情報の組み合わせの異なる、複数のサブセットを作成する作成手段と、
前記複数のサブセットに基づいて、前記識別器を学習する学習手段と
を有することを特徴とする学習装置。
識別器を用いた画像識別を行う画像識別装置であって、
前記画像識別の対象となる対象画像と、前記対象画像に対応するセンサ情報とを受け付ける受付手段と、
少なくとも前記画像を含み、前記画像と、前記センサ情報の組み合わせの異なる複数のサブセットに対応した複数の第１の識別器を用いて、前記対象画像に対する識別結果を得る第１の識別手段と
を有することを特徴とする画像識別装置。
前記第１の識別手段による識別結果を統合する第２の識別器を用いて、最終的な識別結果を得る第２の識別手段をさらに有することを特徴とする請求項１１に記載の画像識別装置。
前記第２の識別手段は、さらに複数の第１の識別器それぞれの信頼度に基づいて、前記最終的な識別結果を得ることを特徴とする請求項１２に記載の画像識別装置。
前記第２の識別手段は、さらに前記対象画像の特徴量に基づいて、前記最終的な識別結果を得ることを特徴とする請求項１２に記載の画像識別装置。
画像と、前記画像に対応する、少なくとも１種類以上のセンサ情報とに基づく画像識別に用いる識別器を学習する学習装置が実行する学習方法であって、
前記画像と、前記センサ情報とを含む、学習用のデータセットを取得する取得ステップと、
前記学習用のデータセットから、少なくとも前記画像を含み、前記画像と前記センサ情報の組み合わせの異なる、複数のサブセットを作成する作成ステップと、
前記複数のサブセットそれぞれに基づいて、複数のサブセットそれぞれに対応した複数の第１の識別器を学習する第１の学習ステップと
を含むことを特徴とする学習方法。
画像識別装置が実行する画像識別方法であって、
前記画像識別の対象となる対象画像と、前記対象画像に対応するセンサ情報とを受け付ける受付ステップと、
少なくとも前記画像を含み、前記画像と、前記センサ情報の組み合わせの異なる複数のサブセットに対応した複数の第１の識別器を用いて、前記対象画像に対する識別結果を得る第１の識別ステップと
を含むことを特徴とする画像識別方法。
画像と、前記画像に対応する、少なくとも１種類以上のセンサ情報とに基づく画像識別に用いる識別器を学習する学習装置のコンピュータを、
前記画像と、前記センサ情報とを含む、学習用のデータセットを取得する取得手段と、
前記学習用のデータセットから、少なくとも前記画像を含み、前記画像と前記センサ情報の組み合わせの異なる、複数のサブセットを作成する作成手段と、
前記複数のサブセットそれぞれに基づいて、複数のサブセットそれぞれに対応した複数の第１の識別器を学習する第１の学習手段と
して機能させるためのプログラム。
コンピュータを、
画像識別の対象となる対象画像と、前記対象画像に対応するセンサ情報とを受け付ける受付手段と、
少なくとも前記画像を含み、前記画像と、前記センサ情報の組み合わせの異なる複数のサブセットに対応した複数の第１の識別器を用いて、前記対象画像に対する識別結果を得る第１の識別手段と
して機能させるためのプログラム。