JP7447221B1

JP7447221B1 - 画像認識装置、プログラム、及び画像認識方法

Info

Publication number: JP7447221B1
Application number: JP2022180500A
Authority: JP
Inventors: 淳郎岡澤; 和夫加藤
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2024-03-11
Anticipated expiration: 2042-11-10
Also published as: JP2024070105A; JP2024070271A; JP7564392B2

Abstract

【課題】画像認識装置、プログラム及び画像認識方法を提供する。【解決手段】画像認識装置１００は、クエリ画像を取得するクエリ画像取得部と、認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択部と、前記サポート画像選択部によって選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と、を備える。【選択図】図１

Description

本発明は、画像認識装置、プログラム、及び画像認識方法に関する。

特許文献１には、Ｆｅｗ－ｓｈｏｔｌｅａｒｎｉｎｇを用いて画像をセグメンテーションするＦＳＳ（Ｆｅｗ－ｓｈｏｔｓｅｇｍｅｎｔａｔｉｏｎ）について記載されている。
［先行技術文献］
［非特許文献］
［非特許文献１］Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao: Mining Latent Classes for Few-shot Segmentation (2021), The IEEE International Conference on ComputerVision(ICCV)

本発明の一実施態様によれば、画像認識装置が提供される。前記画像認識装置は、クエリ画像を取得するクエリ画像取得部を備えてよい。前記画像認識装置は、認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択部を備えてよい。前記画像認識装置は、前記サポート画像選択部によって選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理部を備えてよい。

前記画像認識装置において、前記照合推論処理部は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータに基づいて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部を有してよい。前記照合推論処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記プロトタイプ算出処理部によって算出された前記プロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部を有してよい。前記サポート画像選択部は、前記複数の候補画像から複数の前記サポート画像を選択してよく、前記照合推論処理部は、前記サポート画像選択部によって選択された前記複数のサポート画像と、当該複数のサポート画像のそれぞれの前記アノテーションデータとを含む前記サポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定してよい。前記サポート画像選択部は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、前記複数のサポート画像を選択してよい。前記サポート画像選択部は、前記複数の候補画像及び前記クエリ画像のそれぞれを統計情報に変換する画像変換処理部と、前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報との比較演算を実行することによって前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定する比較計算部とを有してよい。前記画像変換処理部は、前記複数の候補画像及び前記クエリ画像のそれぞれに対して、ＨＳＶ変換、ヒストグラム算出、フィルタ処理、及び特徴点抽出の少なくともいずれかを施すことによって、前記統計情報に変換してよい。前記比較計算部は、前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報とに対して、ＳＳＩＭ（ＳｔｒｕｃｔｕａｌＳＩＭｉｌａｒｉｔｙ）、ＰＳＮＲ（ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）、及びデータ間距離計算の少なくともいずれかを実行することによって、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定してよい。

前記いずれかの画像認識装置において、前記サポート画像選択部は、前記複数の候補画像から、前記類似度が高い順に予め定められた数の候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択してよい。

前記いずれかの画像認識装置は、認識対象が撮影された複数の画像を含むデータセットから、前記複数の候補画像を抽出する候補抽出部を更に備えてよく、前記サポート画像選択部は、前記候補抽出部によって抽出された前記複数の画像のそれぞれと前記クエリ画像とを比較してよい。前記候補抽出部は、前記データセットから、予め定められた数の前記候補画像をランダムに抽出してよい。前記サポート画像選択部は、前記複数の候補画像のうち前記類似度が予め定められた類似度閾値より高い複数の前記候補画像の数が予め定められた数よりも多い場合、当該複数の候補画像から前記予め定められた数の前記候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択してよい。前記複数の候補画像のうち前記類似度が前記類似度閾値より高い前記候補画像の数が前記予め定められた数よりも少ない場合、前記サポート画像選択部は、前記類似度が前記類似度閾値より高い候補画像を前記複数のサポート画像の一部として選択し、前記候補抽出部は、前記データセットから抽出した前記複数の候補画像以外の複数の候補画像を前記データセットから改めて抽出し、前記サポート画像選択部は、前記候補抽出部が改めて抽出した前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、前記類似度が前記類似度閾値より高い候補画像を、前記複数のサポート画像の他の一部として選択してよい。

本発明の一実施形態によれば、コンピュータを、前記画像認識装置として機能させるためのプログラムが提供される。

本発明の一実施形態によれば、コンピュータによって実行される画像認識方法が提供される。前記画像認識方法は、クエリ画像を取得するクエリ画像取得段階を備えてよい。前記画像認識方法は、認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択段階を備えてよい。前記画像認識方法は、前記サポート画像選択段階において選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

画像認識装置１００の機能構成の一例を概略的に示す。画像認識装置１００による処理の流れの一例を概略的に示す。画像認識装置１００による処理内容の一例について説明するための説明図である。画像認識装置１００による処理内容の一例について説明するための説明図である。画像認識装置１００による処理内容の一例について説明するための説明図である。画像認識装置１００として機能するコンピュータ１２００のハードウェア構成の一例を概略的に示す。

従来のＦＳＳでは、選ばれたサポート画像によって、クエリ画像から被写体が検出できたり、できなかったりする。これは、クエリ画像とサポート画像との間の画像の変化度合（色見、画角等）に依存すると考えられる。使用するサポート画像の数を増やすことによってこの問題は軽減するが、メモリ／処理負荷が増大してしまう。本実施形態に画像認識装置１００では、クエリ画像の照合推論処理に有効な、クエリ画像に近しいサポート画像を適応的に選択することによって、このような問題の軽減を実現する。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、画像認識装置１００の機能構成の一例を概略的に示す。画像認識装置１００は、データ記憶部１１０、クエリ画像取得部１１２、候補抽出部１１４、サポート画像選択部１２０、及び照合推論処理部１３０を備える。なお、画像認識装置１００がこれらの全てを備えることは必須とは限らない。

データ記憶部１１０は、被写体が撮影された複数の画像を含むデータセットを記憶する。データセットは、複数の画像と、複数の画像のそれぞれのアノテーションデータとを含んでよい。

アノテーションデータは、画像における被写体の位置を示すデータであってよい。例えば、被写体として飛行機が撮影された画像に対応するアノテーションデータは、当該画像における飛行機の位置を示す。アノテーションデータは、被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、画像における飛行機の位置に対応付けて「飛行機」を示すデータを含む。

データ記憶部１１０は、少なくとも１つの種類の被写体のデータセットを記憶する。データ記憶部１１０は、複数の種類の被写体のそれぞれのデータセットを記憶してもよい。

データ記憶部１１０は、画像認識装置１００の外部に位置してもよい。例えば、データ記憶部１１０は、他の装置内に配置され、画像認識装置１００は、ネットワークを介してデータ記憶部１１０にアクセスする。

クエリ画像取得部１１２は、クエリ画像を取得する。クエリ画像は、認識対象の位置を推定する対象となる画像である。クエリ画像取得部１１２は、画像認識装置１００に対して入力されたクエリ画像を取得してよい。

候補抽出部１１４は、データ記憶部１１０に記憶されているデータセットから、サポート画像として用いる候補画像を抽出する。例えば、認識対象が飛行機である場合、候補抽出部１１４は、データ記憶部１１０に記憶されている飛行機のデータセットから、複数の候補画像を抽出する。

候補抽出部１１４は、例えば、データセットからランダムに複数の候補画像を抽出する。候補抽出部１１４は、データセットから、予め定められた数の候補画像をランダムに抽出してよい。候補抽出部１１４は、使用するサポート画像の数に対して予め定められた値を乗じた数の候補画像を、データセットからランダムに抽出してよい。

サポート画像選択部１２０は、複数の候補画像の一部をサポート画像として選択する。サポート画像選択部１２０は、例えば、データ記憶部１１０に記憶されている、認識対象のデータセットに含まれる全ての画像を、複数の候補画像とし、当該複数の候補画像の一部をサポート画像として選択する。サポート画像選択部１２０は、複数の候補画像のそれぞれと、クエリ画像取得部１１２が取得したクエリ画像とを比較することによって、複数の候補画像の一部をサポート画像として選択する。サポート画像選択部１２０は、複数の候補画像のそれぞれとクエリ画像との類似度を判定し、判定した類似度に基づいて、複数のサポート画像を選択してよい。サポート画像選択部１２０は、例えば、複数の候補画像から、類似度が高い順に予め定められた数の候補画像を特定し、特定した複数の候補画像を複数のサポート画像として選択する。認識対象のデータセットに含まれる全ての画像を候補画像とすることによって、クエリ画像における認識対象の位置を推定するうえで最も適している画像をサポート画像とすることができ、推定精度を向上させることができる。サポート画像選択部１２０は、複数の候補画像の全てについて、クエリ画像との類似度が予め定められた類似度閾値より低い場合、低類似と判定し、判定結果を出力してもよい。

サポート画像選択部１２０は、候補抽出部１１４によって抽出された複数の候補画像の一部をサポート画像として選択してもよい。データセットに多数の画像が含まれている場合、データセット内の多数の画像のそれぞれとクエリ画像との類似度を判定する処理負荷が非常に高まってしまうおそれがある。それに対して、データセットから抽出した一部の画像を候補画像とすることによって、処理負荷を抑えることができる。

サポート画像選択部１２０は、候補抽出部１１４によって抽出された複数の画像のそれぞれとクエリ画像との類似度を判定し、判定した類似度に基づいて、複数のサポート画像を選択してよい。例えば、サポート画像選択部１２０は、複数の候補画像のうち、クエリ画像との類似度が予め定められた類似度閾値より高い候補画像の数が、予め定められた数よりも多い場合、当該複数の候補画像から、当該予め定められた数の候補画像を特定し、特定した複数の候補画像を複数のサポート画像として選択する。サポート画像選択部１２０は、当該複数の候補画像から、クエリ画像との類似度が高い順に予め定められた数の候補画像を特定してよい。

複数の候補画像のうち、クエリ画像との類似度が予め定められた類似度閾値より高い候補画像の数が、予め定められた数よりも少ない場合、まず、サポート画像選択部１２０は、クエリ画像との類似度が類似度閾値より高い候補画像を、複数のサポート画像の一部として選択する。そして、候補抽出部１１４が、データセットから抽出した複数の候補画像以外の新たな複数の候補画像をデータセットから改めて抽出し、サポート画像選択部１２０が、候補抽出部１１４が改めて抽出した複数の候補画像のそれぞれとクエリ画像との類似度を判定して、クエリ画像との類似度が類似度閾値より高い候補画像を、複数のサポート画像の他の一部として選択する。候補抽出部１１４及びサポート画像選択部１２０は、クエリ画像との類似度が類似度閾値より高い候補画像が予め定められた数になるまで、これらの処理を繰り返す。

サポート画像選択部１２０は、画像変換処理部１２２及び比較計算部１２４を備えてよい。画像変換処理部１２２は、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。

画像変換処理部１２２は、例えば、複数の候補画像及びクエリ画像のそれぞれに対してＨＳＶ（Ｈｕｅ、Ｓａｔｕｒａｔｉｏｎ、Ｖａｌｕｅ）変換を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。画像変換処理部１２２は、例えば、複数の候補画像及びクエリ画像のそれぞれに対してヒストグラム算出を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。画像変換処理部１２２は、例えば、複数の候補画像及びクエリ画像のそれぞれに対してフィルタ処理を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。フィルタ処理の例として、エッジ検出フィルタが挙げられるが、これに限らず、画像の特徴をわかりやすくできるフィルタであれば、任意のフィルタを用いてよい。画像変換処理部１２２は、例えば、複数の候補画像及びクエリ画像のそれぞれに対して特徴点抽出を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。画像変換処理部１２２は、これら以外の手法を用いて、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換してもよい。

比較計算部１２４は、画像変換処理部１２２によって変換された、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報との比較演算を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。比較計算部１２４は、例えば、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報とに対して、ＳＳＩＭ（ＳｔｒｕｃｔｕａｌＳＩＭｉｌａｒｉｔｙ）を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。比較計算部１２４は、例えば、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報とに対して、ＰＳＮＲ（ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。比較計算部１２４は、例えば、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報とに対して、データ間距離計算を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。データ間距離の例として、コサイン類似度及びユークリッド距離が挙げられるが、これらに限られない。比較計算部１２４は、これら以外の手法を用いて、複数の候補画像のそれぞれとクエリ画像との類似度を判定してもよい。

サポート画像選択部１２０は、選択したサポート画像と、当該サポート画像のアノテーションデータとを含むサポートデータを照合推論処理部１３０に送信する。

照合推論処理部１３０は、サポート画像選択部１２０から受信したサポートデータを用いて、クエリ画像取得部１１２が取得したクエリ画像に含まれる認識対象の位置を推定する。照合推論処理部１３０は、特徴抽出処理部１３２、プロトタイプ算出処理部１３４、及びプロトタイプ照合処理部１３６を有してよい。

特徴抽出処理部１３２は、サポートデータに含まれる複数のサポート画像のそれぞれの特徴量を抽出する。特徴抽出処理部１３２は、サポート画像の複数の領域毎の特徴量を示すサポートフィーチャを生成してよい。

特徴抽出処理部１３２は、クエリ画像取得部１１２が取得したクエリ画像の特徴量を抽出する。特徴抽出処理部１３２は、クエリ画像の複数の領域毎の特徴量を示すクエリフィーチャを生成してよい。

プロトタイプ算出処理部１３４は、サポートデータに含まれるサポート画像及びアノテーションデータに基づいて、サポート画像の被写体の特徴を表すプロトタイプを算出する。プロトタイプ算出処理部１３４は、特徴抽出処理部１３２によって生成されたサポートフィーチャと、アノテーションデータに基づいて、プロトタイプを算出してよい。

プロトタイプ算出処理部１３４は、認識対象の被写体のプロトタイプを算出する。例えば、プロトタイプ算出処理部１３４は、アノテーションデータを用いて、サポートフィーチャから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部１３４は、複数のサポートフィーチャのそれぞれから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部１３４は、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、認識対象の被写体のプロトタイプとして算出してよい。このように、プロトタイプは、特徴空間における特徴ベクトルであってよい。

プロトタイプ照合処理部１３６は、クエリ画像の複数の領域のそれぞれについて、プロトタイプ算出処理部１３４によって算出されたプロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、クエリ画像に含まれる認識対象の位置を推定する。プロトタイプ照合処理部１３６は、例えば、クエリフィーチャを用いて、クエリ画像の複数の領域のそれぞれについて、領域の特徴量と認識対象のプロトタイプとの類似度を算出する。プロトタイプ照合処理部１３６は、例えば、領域の特徴量と認識対象のプロトタイプとのコサイン類似度を算出する。そして、プロトタイプ照合処理部１３６は、クエリ画像の複数の領域のうち、算出した類似度が閾値より高い領域を、認識対象が位置する領域と推定する。これにより、クエリ画像に含まれる認識対象の位置を推定できる。

なお、本実施形態に係るアノテーションデータは、サポート画像における認識対象である被写体以外の被写体の位置を更に示してもよい。例えば、サポート画像に、飛行機に加えて滑走路及び管制塔が含まれている場合に、アノテーションデータは、滑走路及び管制塔の位置を示してよい。この場合、アノテーションデータは、認識対象である被写体以外の被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、サポート画像における飛行機の位置に対応付けて「飛行機」を示すデータを含み、サポート画像における滑走路の位置に対応付けて「滑走路」を示すデータを含み、管制塔の位置に対応付けて「管制塔」を示すデータを含む。

本実施形態に係るプロトタイプ算出処理部１３４は、さらに、認識対象の被写体以外の被写体のプロトタイプを算出してよい。プロトタイプ算出処理部１３４は、認識対象の被写体以外の１又は複数の被写体のそれぞれについて、アノテーションデータを用いて、サポートフィーチャから、被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部１３４は、認識対象の被写体以外の１又は複数の被写体のそれぞれについて、複数のサポートフィーチャのそれぞれから、被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部１３４は、認識対象の被写体以外の１又は複数の被写体のそれぞれについて、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、被写体のプロトタイプとして算出してよい。

プロトタイプ算出処理部１３４は、複数のプロトタイプ同士の距離を算出してよい。例えば、プロトタイプ算出処理部１３４は、複数のプロトタイプ同士のユークリッド距離を算出する。プロトタイプ算出処理部１３４は、複数のプロトタイプ同士のユークリッド距離を総当たりで算出してよい。例えば、プロトタイプ算出処理部１３４は、複数のプロトタイプ同士のコサイン類似度を算出する。プロトタイプ算出処理部１３４は、複数のプロトタイプ同士のコサイン類似度を総当たりで算出してよい。

プロトタイプ算出処理部１３４は、複数のプロトタイプ同士の距離に基づいて、プロトタイプを変換してよい。プロトタイプ算出処理部１３４は、認識対象のプロトタイプを変換してよい。

プロトタイプ算出処理部１３４は、複数のプロトタイプ同士の距離に対して統計計算を行うことによって、プロトタイプを正規化してよい。例えば、プロトタイプ算出処理部１３４は、複数のプロトタイプ同士の距離の標準偏差及び平均を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。プロトタイプ算出処理部１３４は、複数のプロトタイプについて、平均０、標準偏差１の正規分布となるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。

例えば、プロトタイプ算出処理部１３４は、複数のプロトタイプ同士の距離の最大値及び最小値を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。プロトタイプ算出処理部１３４は、複数のプロトタイプについて、０．０－１．０のレンジとなるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。

例えば、プロトタイプ算出処理部１３４は、事前に機械学習によって決定したパラメータを用いて、複数のプロトタイプを正規化する。例えば、プロトタイプ算出処理部１３４は、機械学習によって決定したａ、ｂを用いた変換式ａＸ＋ｂを用いて、複数のプロトタイプを変換する。複数のプロトタイプ間の距離が遠くなるように変換可能であれば、任意の機械学習手法を用いてよい。

プロトタイプ算出処理部１３４は、同様に、クエリフィーチャを変換してもよい。

プロトタイプ照合処理部１３６は、複数のプロトタイプ同士の距離を用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。プロトタイプ照合処理部１３６は、変換したプロトタイプを用いて、クエリ画像に含まれる認識対象の位置を推定してよい。プロトタイプ照合処理部１３６は、変換したプロトタイプと、変換したクエリフィーチャとを用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。

図２は、画像認識装置１００による処理の流れの一例を概略的に示す。ここでは、認識対象が飛行機であり、照合推論処理に用いるサポート画像の数が４つであるものとし、画像認識装置１００が、クエリ画像に含まれる飛行機の位置を推定するために、４つのサポート画像を選択するまでの処理の流れを示す。

ステップ（ステップをＳと省略して記載する場合がある。）１０２では、クエリ画像取得部１１２が、クエリ画像を取得する。Ｓ１０４では、候補抽出部１１４が、データ記憶部１１０に記憶されている飛行機のデータセットから、必要とするサポート画像の数である４に対して、予め登録された数値である３を乗じた１２個の候補画像をランダムに抽出する。なお、本例では予め登録された数値が３である場合について説明するが、当該数値は３に限らず、任意に登録されてよく、変更可能であってよい。

Ｓ１０６では、画像変換処理部１２２が、Ｓ１０２においてクエリ画像取得部１１２が取得したクエリ画像と、Ｓ１０４において候補抽出部１１４が抽出した１２個の候補画像のそれぞれとを統計情報に変換する。Ｓ１０８では、比較計算部１２４が、１２個の候補画像の統計情報のそれぞれと、クエリ画像の統計情報との比較演算を実行することによって、１２個の候補画像のそれぞれとクエリ画像との類似度を判定する。

クエリ画像との類似度が予め定められた類似度閾値以上の候補画像の数が、必要数である４よりも少ない場合（Ｓ１１０でＹＥＳ）、Ｓ１１２に進み、４以上である場合（Ｓ１１０でＮＯ）、Ｓ１２２に進む。

Ｓ１１２では、サポート画像選択部１２０が、類似度閾値以上の候補画像を保持する。例えば、類似度閾値以上の候補画像が２つである場合、サポート画像選択部１２０は、当該２つの候補画像を保持する。Ｓ１１４では、候補抽出部１１４が、飛行機のデータセットから１２個の候補画像を改めて抽出する。候補抽出部１１４は、Ｓ１０４において抽出した１２個の候補画像以外の、１２個の候補画像をデータセットから抽出する。

Ｓ１１６では、画像変換処理部１２２が、Ｓ１１４において候補抽出部１１４が改めて抽出した１２個の候補画像のそれぞれとを統計情報に変換する。Ｓ１１８では、比較計算部１２４が、Ｓ１１６において変換された１２個の候補画像の統計情報のそれぞれと、Ｓ１０６において変換されたクエリ画像の統計情報との比較演算を実行することによって、１２個の候補画像のそれぞれとクエリ画像との類似度を判定する。

クエリ画像との類似度が類似度閾値以上の候補画像の数と、サポート画像選択部１２０が保持している候補画像との合計が、必要数である４よりも少ない場合（Ｓ１２０でＹＥＳ）、Ｓ１１２に戻り、４以上である場合（Ｓ１２０でＮＯ）、Ｓ１２２に進む。クエリ画像との類似度が類似度閾値以上の候補画像の数が４以上になるまで、Ｓ１１２からＳ１２０が繰り返される。

Ｓ１２２では、サポート画像選択部１２０が、４つ以上の候補画像から、４つのサポート画像を選択する。候補画像の数が４つである場合、サポート画像選択部１２０は、当該４つの候補画像をサポート画像として選択する。候補画像の数が５つ以上である場合、サポート画像選択部１２０は、５つ以上の候補画像から選択した４つの候補画像を、４つのサポート画像とする。サポート画像選択部１２０は、例えば、５つ以上の候補画像から、クエリ画像との類似度が高い順に４つの候補画像を特定し、特定した４つの候補画像を４つのサポート画像とする。

図３、図４及び図５は、画像認識装置１００による処理内容の一例について説明するための説明図である。ここでは、４－Ｓｈｏｔ、すなわち、サポートデータ２０に４組のサポート画像２２及びアノテーションデータ２４が含まれており、認識対象が飛行機である場合を例示している。

４つのサポート画像２２のそれぞれは、飛行機を含む。４つのアノテーションデータ２４のそれぞれは、対応するサポート画像２２における飛行機の位置を示す。

特徴抽出処理部１３２は、４つのサポート画像２２のそれぞれについて、サポート画像２２の複数の領域２０１毎の特徴量を示すサポートフィーチャ２００を生成する。領域２０１のサイズは、任意のサイズであってよく、設定によって変更可能であってよい。

プロトタイプ算出処理部１３４は、アノテーションデータ２４及びサポートフィーチャ２００を用いて、飛行機のプロトタイプを生成する。本例において、プロトタイプ算出処理部１３４は、１つ目のサポートフィーチャ２００のうちの、複数の飛行機領域２０２の特徴量を抽出する。同様に、プロトタイプ算出処理部１３４は、他の３つのサポートフィーチャ２００のうちの、複数の飛行機領域２０２の特徴量を抽出する。プロトタイプ算出処理部１３４は、抽出した複数の特徴量を特徴空間２１２に配置して、複数の特徴量の重心を、飛行機プロトタイプ２２２として算出する。

特徴抽出処理部１３２は、図５に例示するように、クエリ画像３０の複数の領域３０１毎の特徴量を示すクエリフィーチャ３００を生成する。プロトタイプ照合処理部１３６は、複数の領域３０１のそれぞれについて、飛行機プロトタイプ２２２との類似度を算出することによって、類似度マップ３１０を生成する。そして、プロトタイプ照合処理部１３６は、クエリ画像３０の複数の領域のうち、算出した類似度が閾値より高い領域を、飛行機が位置する領域と推定する。

図６は、画像認識装置１００として機能するコンピュータ１２００のハードウェア構成の一例を概略的に示す。コンピュータ１２００にインストールされたプログラムは、コンピュータ１２００を、本実施形態に係る装置の１又は複数の「部」として機能させ、又はコンピュータ１２００に、本実施形態に係る装置に関連付けられるオペレーション又は当該１又は複数の「部」を実行させることができ、及び／又はコンピュータ１２００に、本実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ１２００に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、ＣＰＵ１２１２によって実行されてよい。

本実施形態によるコンピュータ１２００は、ＣＰＵ１２１２、ＲＡＭ１２１４、及びグラフィックコントローラ１２１６を含み、それらはホストコントローラ１２１０によって相互に接続されている。コンピュータ１２００はまた、通信インタフェース１２２２、記憶装置１２２４、ＤＶＤドライブ１２２６、及びＩＣカードドライブのような入出力ユニットを含み、それらは入出力コントローラ１２２０を介してホストコントローラ１２１０に接続されている。ＤＶＤドライブ１２２６は、ＤＶＤ－ＲＯＭドライブ及びＤＶＤ－ＲＡＭドライブ等であってよい。記憶装置１２２４は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ１２００はまた、ＲＯＭ１２３０及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ１２４０を介して入出力コントローラ１２２０に接続されている。

ＣＰＵ１２１２は、ＲＯＭ１２３０及びＲＡＭ１２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ１２１６は、ＲＡＭ１２１４内に提供されるフレームバッファ等又はそれ自体の中に、ＣＰＵ１２１２によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス１２１８上に表示されるようにする。

通信インタフェース１２２２は、ネットワークを介して他の電子デバイスと通信する。記憶装置１２２４は、コンピュータ１２００内のＣＰＵ１２１２によって使用されるプログラム及びデータを格納する。ＤＶＤドライブ１２２６は、プログラム又はデータをＤＶＤ－ＲＯＭ１２２７等から読み取り、記憶装置１２２４に提供する。ＩＣカードドライブは、プログラム及びデータをＩＣカードから読み取り、及び／又はプログラム及びデータをＩＣカードに書き込む。

ＲＯＭ１２３０はその中に、アクティブ化時にコンピュータ１２００によって実行されるブートプログラム等、及び／又はコンピュータ１２００のハードウェアに依存するプログラムを格納する。入出力チップ１２４０はまた、様々な入出力ユニットをＵＳＢポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ１２２０に接続してよい。

プログラムは、ＤＶＤ－ＲＯＭ１２２７又はＩＣカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置１２２４、ＲＡＭ１２１４、又はＲＯＭ１２３０にインストールされ、ＣＰＵ１２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ１２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ１２００の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。

例えば、通信がコンピュータ１２００及び外部デバイス間で実行される場合、ＣＰＵ１２１２は、ＲＡＭ１２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース１２２２に対し、通信処理を命令してよい。通信インタフェース１２２２は、ＣＰＵ１２１２の制御の下、ＲＡＭ１２１４、記憶装置１２２４、ＤＶＤ－ＲＯＭ１２２７、又はＩＣカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。

また、ＣＰＵ１２１２は、記憶装置１２２４、ＤＶＤドライブ１２２６（ＤＶＤ－ＲＯＭ１２２７）、ＩＣカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がＲＡＭ１２１４に読み取られるようにし、ＲＡＭ１２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ１２１２は次に、処理されたデータを外部記録媒体にライトバックしてよい。

様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ１２１２は、ＲＡＭ１２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ１２１４に対しライトバックする。また、ＣＰＵ１２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ１２１２は、当該複数のエントリの中から、第１の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラム又はソフトウエアモジュールは、コンピュータ１２００上又はコンピュータ１２００近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はＲＡＭのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ１２００に提供する。

本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び／又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び／又はアナログハードウェア回路を含んでよく、集積回路（ＩＣ）及び／又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、及びプログラマブルロジックアレイ（ＰＬＡ）等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。

コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はＳｍａｌｌｔａｌｋ（登録商標）、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

２０サポートデータ、２２サポート画像、２４アノテーションデータ、３０クエリ画像、１００画像認識装置、１１０データ記憶部、１１２クエリ画像取得部、１１４候補抽出部、１２０サポート画像選択部、１２２画像変換処理部、１２４比較計算部、１３０照合推論処理部、１３２特徴抽出処理部、１３４プロトタイプ算出処理部、１３６プロトタイプ照合処理部、２００サポートフィーチャ、２０１領域、２０２飛行機領域、２１２特徴空間、２２２飛行機プロトタイプ、３００クエリフィーチャ、３０１領域、３１０類似度マップ、１２００コンピュータ、１２１０ホストコントローラ、１２１２ＣＰＵ、１２１４ＲＡＭ、１２１６グラフィックコントローラ、１２１８ディスプレイデバイス、１２２０入出力コントローラ、１２２２通信インタフェース、１２２４記憶装置、１２２６ＤＶＤドライブ、１２２７ＤＶＤ－ＲＯＭ、１２３０ＲＯＭ、１２４０入出力チップ

Claims

クエリ画像を取得するクエリ画像取得部と、
認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択部と、
前記サポート画像選択部によって選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と
を備え、
前記照合推論処理部は、
前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータに基づいて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部と、
前記クエリ画像の複数の領域のそれぞれについて、前記プロトタイプ算出処理部によって算出された前記プロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部と
を有し、
前記サポート画像選択部は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、前記複数の候補画像から複数の前記サポート画像を選択し、
前記照合推論処理部は、前記サポート画像選択部によって選択された前記複数のサポート画像と、当該複数のサポート画像のそれぞれの前記アノテーションデータとを含む前記サポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する、
画像認識装置。
前記サポート画像選択部は、
前記複数の候補画像及び前記クエリ画像のそれぞれを統計情報に変換する画像変換処理部と、
前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報との比較演算を実行することによって前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定する比較計算部と
を有する、請求項１に記載の画像認識装置。
前記画像変換処理部は、前記複数の候補画像及び前記クエリ画像のそれぞれに対して、ＨＳＶ変換、ヒストグラム算出、フィルタ処理、及び特徴点抽出の少なくともいずれかを施すことによって、前記統計情報に変換する、請求項２に記載の画像認識装置。
前記比較計算部は、前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報とに対して、ＳＳＩＭ（ＳｔｒｕｃｔｕａｌＳＩＭｉｌａｒｉｔｙ）、ＰＳＮＲ（ＰｅａｋＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）、及びデータ間距離計算の少なくともいずれかを実行することによって、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定する、請求項２に記載の画像認識装置。
前記サポート画像選択部は、前記複数の候補画像から、前記類似度が高い順に予め定められた数の候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択する、請求項１に記載の画像認識装置。
認識対象が撮影された複数の画像を含むデータセットから、前記複数の候補画像を抽出する候補抽出部
を更に備え、
前記サポート画像選択部は、前記候補抽出部によって抽出された前記複数の画像のそれぞれと前記クエリ画像とを比較する、請求項１に記載の画像認識装置。
前記候補抽出部は、前記データセットから、予め定められた数の前記候補画像をランダムに抽出する、請求項６に記載の画像認識装置。
前記サポート画像選択部は、前記複数の候補画像のうち前記類似度が予め定められた類似度閾値より高い複数の前記候補画像の数が予め定められた数よりも多い場合、当該複数の候補画像から前記予め定められた数の前記候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択する、請求項７に記載の画像認識装置。
前記複数の候補画像のうち前記類似度が前記類似度閾値より高い前記候補画像の数が前記予め定められた数よりも少ない場合、前記サポート画像選択部は、前記類似度が前記類似度閾値より高い候補画像を前記複数のサポート画像の一部として選択し、前記候補抽出部は、前記データセットから抽出した前記複数の候補画像以外の複数の候補画像を前記データセットから改めて抽出し、前記サポート画像選択部は、前記候補抽出部が改めて抽出した前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、前記類似度が前記類似度閾値より高い候補画像を、前記複数のサポート画像の他の一部として選択する、請求項８に記載の画像認識装置。
コンピュータを、請求項１から９のいずれか一項に記載の画像認識装置として機能させるためのプログラム。
コンピュータによって実行される画像認識方法であって、
クエリ画像を取得するクエリ画像取得段階と、
認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択段階と、
前記サポート画像選択段階において選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
を備え、
前記照合推論処理段階は、
前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータに基づいて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階と、
前記クエリ画像の複数の領域のそれぞれについて、前記プロトタイプ算出処理段階において算出された前記プロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理段階と
を有し、
前記サポート画像選択段階は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、前記複数の候補画像から複数の前記サポート画像を選択し、
前記照合推論処理段階は、前記サポート画像選択段階において選択された前記複数のサポート画像と、当該複数のサポート画像のそれぞれの前記アノテーションデータとを含む前記サポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する、
画像認識方法。