JP2023128430A

JP2023128430A - 画像認識装置、プログラム、画像認識方法、及び機械学習方法

Info

Publication number: JP2023128430A
Application number: JP2022032769A
Authority: JP
Inventors: 淳郎岡澤; Atsuro Okazawa
Original assignee: SoftBank Corp
Current assignee: SoftBank Corp
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2023-09-14
Anticipated expiration: 2042-03-03
Also published as: JP7313501B1; JP2023129401A; JP7502518B2

Abstract

【課題】被写体毎の分離性能を高める画像認識装置、プログラム、画像認識方法及び機械学習方法を提供する。【解決手段】画像認識装置１００は、認識対象が撮影されたサポート画像及びサポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部１１２と、サポートデータ取得部１１２が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部１２０と、を備える。照合推論処理部１２０は、サポートデータに含まれるサポート画像及びアノテーションデータを用いて、被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部１２４と、プロトタイプ算出処理部１２４によって算出された複数のプロトタイプ同士の距離を算出する距離算出処理部１２６と、を有する。【選択図】図１

Description

本発明は、画像認識装置、プログラム、画像認識方法、及び機械学習方法に関する。

特許文献１には、Ｆｅｗ－ｓｈｏｔｌｅａｒｎｉｎｇを用いて画像をセグメンテーションするＦＳＳ（Ｆｅｗ－ｓｈｏｔｓｅｇｍｅｎｔａｔｉｏｎ）について記載されている。
［先行技術文献］
［非特許文献］
［非特許文献１］Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao: Mining Latent Classes for Few-shot Segmentation (2021), The IEEE International Conference on ComputerVision(ICCV)

本発明の一実施態様によれば、画像認識装置が提供される。前記画像認識装置は、認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部を備えてよい。前記画像認識装置は、前記サポートデータ取得部が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部を備えてよい。前記照合推論処理部は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部を有してよい。前記照合推論処理部は、前記プロトタイプ算出処理部によって算出された複数の前記プロトタイプ同士の距離を算出する距離算出処理部を有してよい。

前記サポートデータは、複数の前記サポート画像及び前記アノテーションデータの組み合わせを含んでよく、前記プロトタイプ算出処理部は、前記複数のサポート画像に含まれる複数の被写体のそれぞれについて、前記プロトタイプを算出してよい。前記サポートデータ取得部は、複数の前記サポートデータ及び前記クエリ画像を含むバッチに含まれる当該複数のサポートデータを取得してよく、前記プロトタイプ算出処理部は、前記バッチに含まれる前記複数のサポートデータの前記複数のサポート画像に含まれる複数の被写体のそれぞれについて、前記プロトタイプを算出してよい。

前記照合推論処理部は、前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離を用いて、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部を有してよい。前記照合推論処理部は、前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離に基づいて、前記プロトタイプ算出処理部によって算出された前記サポート画像の前記認識対象のプロトタイプを変換するデータ変換処理部と、前記データ変換処理部によって変換された前記プロトタイプを用いて、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部とを有してよい。

前記データ変換処理部は、前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離に対して統計計算を行うことによって、前記プロトタイプ算出処理部によって算出されたプロトタイプを正規化するデータ正規化処理部を有してよい。前記データ正規化処理部は、前記複数のプロトタイプ同士の距離の標準偏差及び平均を算出して、算出結果に基づいて前記複数のプロトタイプを正規化してよい。前記データ正規化処理部は、前記複数のプロトタイプ同士の距離の最大値及び最小値を算出して、算出結果に基づいて前記複数のプロトタイプを正規化してよい。前記データ正規化処理部は、機械学習によって決定したパラメータを用いて、前記複数のプロトタイプを正規化してよい。

前記距離算出処理部は、前記プロトタイプ算出処理部によって算出された前記複数のプロトタイプ同士のユークリッド距離を算出してよい。前記距離算出処理部は、前記プロトタイプ算出処理部によって算出された前記複数のプロトタイプ同士のコサイン類似度を算出してよい。

前記照合推論処理部は、前記プロトタイプ算出処理部によって算出された複数の前記プロトタイプを用いて、複数の前記被写体毎の前記クエリ画像における位置を推定する多段推定処理部と、前記多段推定処理部による前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理部とを有してよい。前記多段推定処理部は、前記クエリ画像の複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度を算出してよく、前記位置推定処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定してよい。

本発明の一実施態様によれば、画像認識装置が提供される。前記画像認識装置は、認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部を備えてよい。前記画像認識装置は、前記サポートデータ取得部が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部を備えてよい。前記照合推論処理部は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理部を有してよい。前記照合推論処理部は、前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理部を有してよい。前記照合推論処理部は、前記多段推定処理部による前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理部を有してよい。

前記多段推定処理部は、前記クエリ画像の複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度を算出してよく、前記位置推定処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定してよい。

本発明の一実施態様によれば、コンピュータを、上記画像認識装置として機能させるためのプログラムが提供される。

本発明の一実施態様によれば、コンピュータによって実行される画像認識方法が提供される。前記画像認識方法は、認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階を備えてよい。前記画像認識方法は、前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。前記照合推論処理段階は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階を有してよい。前記照合推論処理段階は、前記プロトタイプ算出処理段階において算出された複数の前記プロトタイプ同士の距離を算出する距離算出段階を有してよい。

本発明の一実施態様によれば、コンピュータによって実行される画像認識方法が提供される。前記画像認識方法は、認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階を備えてよい。前記画像認識方法は、前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。前記照合推論処理段階は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理段階を有してよい。前記照合推論処理段階は、前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理段階を有してよい。前記照合推論処理段階は、前記多段推定処理段階における前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理段階を有してよい。

本発明の一実施態様によれば、コンピュータによって実行される機械学習方法が提供される。前記機械学習方法は、認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階を備えてよい。前記機械学習方法は、前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。前記照合推論処理段階は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階を有してよい。前記照合推論処理段階は、前記プロトタイプ算出処理段階において算出された複数の前記プロトタイプ同士の距離を算出する距離算出段階を有してよい。
機械学習方法。

本発明の一実施態様によれば、コンピュータによって実行される機械学習方法が提供される。前記機械学習方法は、認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階を備えてよい。前記機械学習方法は、前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。前記照合推論処理段階は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理段階を有してよい。前記照合推論処理段階は、前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理段階を有してよい。前記照合推論処理段階は、前記多段推定処理段階における前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理段階を有してよい。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

画像認識装置１００の機能構成の一例を概略的に示す。画像認識装置１００による処理内容の一例について説明するための説明図である。画像認識装置１００による処理内容の一例について説明するための説明図である。画像認識装置１００による処理内容の一例について説明するための説明図である。画像認識装置１００の機能構成の他の一例を概略的に示す。多段推定処理部１５０及び位置推定処理部１６０による処理について説明するための説明図である。画像認識装置１００として機能するコンピュータ１２００のハードウェア構成の一例を概略的に示す。

従来のＦＳＳには、「背景に形状特徴等が類似した被写体がある場合に誤検出する」という課題がある。この課題は、ｆｅｗ－ｓｈｏｔに起因した被写体と背景の組み合わせバリエーションの少なさに起因すると考えられる。本実施形態に係る画像認識装置１００では、ｆｅｗ－ｓｈｏｔのまま当該課題を解決するために、被写体毎の分離性能を高める機構を追加する。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、画像認識装置１００の機能構成の一例を概略的に示す。画像認識装置１００は、画像内における認識対象の位置を特定する画像認識方法を実行してよい。画像認識装置１００による画像認識は、機械学習によって実行されてよい。画像認識装置１００は、画像認識のための機械学習方法を実行してよい。画像認識装置１００は、ＦＳＳを実行してよい。

画像認識装置１００は、データ取得部１１０及び照合推論処理部１２０を備える。データ取得部１１０は、サポートデータ取得部１１２及びクエリデータ取得部１１４を有する。照合推論処理部１２０は、特徴抽出処理部１２２、プロトタイプ算出処理部１２４、距離算出処理部１２６、データ変換処理部１３０、及びプロトタイプ照合処理部１４０を有する。なお、照合推論処理部１２０がこれらの全てを有することは必須とは限らない。

サポートデータ取得部１１２は、サポートデータを取得する。サポートデータ取得部１１２は、画像認識装置１００に対して入力されたサポートデータを取得してよい。サポートデータは、サポート画像及びアノテーションデータを含む。

サポート画像は、認識対象が撮影された画像であってよい。例えば、認識対象が飛行機である場合、サポート画像は、飛行機が撮影された画像である。ここでは、認識対象が飛行機である場合を主に例に挙げて説明する。

アノテーションデータは、サポート画像における被写体の位置を示すデータであってよい。アノテーションデータは、サポート画像における認識対象である被写体の位置を示す。アノテーションデータは、サポート画像における認識対象である被写体以外の被写体の位置を示してよい。例えば、サポート画像に、飛行機に加えて滑走路及び管制塔が含まれている場合に、アノテーションデータは、滑走路及び管制塔の位置を示してよい。

アノテーションデータは、認識対象である被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、サポート画像における飛行機の位置に対応付けて「飛行機」を示すデータを含む。アノテーションデータは、認識対象である被写体以外の被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、サポート画像における滑走路の位置に対応付けて「滑走路」を示すデータを含み、管制塔の位置に対応付けて「管制塔」を示すデータを含む。

サポートデータは、複数のサポート画像及びアノテーションデータの組み合わせを含んでよい。複数のサポートデータ及びクエリデータを含むバッチが入力された場合、サポートデータ取得部１１２は、当該バッチに含まれる複数のサポートデータを取得してよい。

クエリデータ取得部１１４は、クエリデータを取得する。サポートデータ取得部１１２は、画像認識装置１００に対して入力されたクエリデータを取得してよい。クエリデータは、認識対象の位置を推定する対象となるクエリ画像を含む。

照合推論処理部１２０は、サポートデータ取得部１１２が取得したサポートデータを用いて、クエリデータ取得部１１４が取得したクエリ画像に含まれる認識対象の位置を推定する。照合推論処理部１２０は、特徴抽出処理部１２２、プロトタイプ算出処理部１２４、距離算出処理部１２６、データ変換処理部１３０、及びプロトタイプ照合処理部１４０を有する。なお、照合推論処理部１２０がこれらの全てを有することは必須とは限らない。

特徴抽出処理部１２２は、サポート画像の特徴量を抽出する。特徴抽出処理部１２２は、サポート画像の複数の領域毎の特徴量を示すサポートフィーチャを生成してよい。特徴抽出処理部１２２は、サポートデータに含まれる複数のサポート画像のそれぞれのサポートフィーチャを生成してよい。データ取得部１１０がバッチを取得した場合、特徴抽出処理部１２２は、バッチに含まれる、異なるクエリ画像に相対する複数のサポート画像も含めて、それぞれのサポートフィーチャを生成してよい。

特徴抽出処理部１２２は、クエリ画像の特徴量を抽出する。特徴抽出処理部１２２は、クエリ画像の複数の領域毎の特徴量を示すクエリフィーチャを生成してよい。

プロトタイプ算出処理部１２４は、サポートデータに含まれるサポート画像及びアノテーションデータに基づいて、サポート画像の被写体の特徴を表すプロトタイプを算出する。プロトタイプ算出処理部１２４は、特徴抽出処理部１２２によって生成されたサポートフィーチャと、アノテーションデータに基づいて、プロトタイプを算出してよい。

プロトタイプ算出処理部１２４は、認識対象の被写体のプロトタイプを算出する。例えば、プロトタイプ算出処理部１２４は、アノテーションデータを用いて、サポートフィーチャから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部１２４は、複数のサポートフィーチャのそれぞれから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部１２４は、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、認識対象の被写体のプロトタイプとして算出してよい。このように、プロトタイプは、特徴空間における特徴ベクトルであってよい。

本実施形態に係るプロトタイプ算出処理部１２４は、さらに、認識対象の被写体以外の被写体のプロトタイプを算出する。プロトタイプ算出処理部１２４は、認識対象の被写体以外の１又は複数の被写体のそれぞれについて、アノテーションデータを用いて、サポートフィーチャから、被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部１２４は、認識対象の被写体以外の１又は複数の被写体のそれぞれについて、複数のサポートフィーチャのそれぞれから、被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部１２４は、認識対象の被写体以外の１又は複数の被写体のそれぞれについて、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、被写体のプロトタイプとして算出してよい。

データ取得部１１０が、バッチを取得した場合、プロトタイプ算出処理部１２４は、複数の被写体のそれぞれについて、バッチに含まれる複数のサポート画像から生成された複数のサポートフィーチャのそれぞれから、被写体の位置に対応する複数の領域の特徴量を抽出して、複数の被写体のプロトタイプを算出してよい。

距離算出処理部１２６は、プロトタイプ算出処理部１２４によって算出された複数のプロトタイプ同士の距離を算出する。例えば、距離算出処理部１２６は、複数のプロトタイプ同士のユークリッド距離を算出する。距離算出処理部１２６は、複数のプロトタイプ同士のユークリッド距離を総当たりで算出してよい。例えば、距離算出処理部１２６は、複数のプロトタイプ同士のコサイン類似度を算出する。距離算出処理部１２６は、複数のプロトタイプ同士のコサイン類似度を総当たりで算出してよい。

データ変換処理部１３０は、距離算出処理部１２６によって算出された複数のプロトタイプ同士の距離に基づいて、プロトタイプ算出処理部１２４によって算出されたプロトタイプを変換する。データ変換処理部１３０は、プロトタイプ算出処理部１２４によって算出された、認識対象のプロトタイプを変換してよい。

データ変換処理部１３０は、データ正規化処理部１３２を有してよい。データ正規化処理部１３２は、距離算出処理部１２６によって算出された複数のプロトタイプ同士の距離に対して統計計算を行うことによって、プロトタイプ算出処理部１２４によって算出されたプロトタイプを正規化する。

例えば、データ正規化処理部１３２は、複数のプロトタイプ同士の距離の標準偏差及び平均を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。データ正規化処理部１３２は、複数のプロトタイプについて、平均０、標準偏差１の正規分布となるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。

例えば、データ正規化処理部１３２は、複数のプロトタイプ同士の距離の最大値及び最小値を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。データ正規化処理部１３２は、複数のプロトタイプについて、０．０－１．０のレンジとなるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。

例えば、データ正規化処理部１３２は、事前に機械学習によって決定したパラメータを用いて、複数のプロトタイプを正規化する。例えば、データ正規化処理部１３２は、機械学習によって決定したａ、ｂを用いた変換式ａＸ＋ｂを用いて、複数のプロトタイプを変換する。複数のプロトタイプ間の距離が遠くなるように変換可能であれば、任意の機械学習手法を用いてよい。

データ変換処理部１３０は、特徴抽出処理部１２２によって生成されたクエリフィーチャを変換してよい。例えば、データ変換処理部１３０は、データ正規化処理部１３２で算出された複数のプロトタイプ同士の距離の標準偏差及び平均値を用いて、クエリフィーチャを変換してよい。例えば、データ変換処理部１３０は、データ正規化処理部１３２で算出された複数のプロトタイプ同士の距離の最大値及び最小値を用いて、クエリフィーチャを変換してもよい。なお、データ変換処理部１３０は、クエリフィーチャについては変換を行わなくてもよい。

プロトタイプ照合処理部１４０は、距離算出処理部１２６によって算出された複数のプロトタイプ同士の距離を用いて、クエリ画像に含まれる認識対象の位置を推定する。プロトタイプ照合処理部１４０は、データ変換処理部１３０によって変換されたプロトタイプを用いて、クエリ画像に含まれる認識対象の位置を推定してよい。プロトタイプ照合処理部１４０は、データ変換処理部１３０によって変換されたプロトタイプと、データ変換処理部１３０によって変換されたクエリフィーチャとを用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。プロトタイプ照合処理部１４０は、データ変換処理部１３０によって変換されたプロトタイプと、特徴抽出処理部１２２によって生成された、データ変換処理部１３０によって変換されていないクエリフィーチャとを用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。

プロトタイプ照合処理部１４０は、例えば、クエリフィーチャを用いて、クエリ画像の複数の領域のそれぞれについて、領域の特徴量と認識対象のプロトタイプとの類似度を算出する。プロトタイプ照合処理部１４０は、例えば、領域の特徴量と認識対象のプロトタイプとのコサイン類似度を算出する。そして、プロトタイプ照合処理部１４０は、クエリ画像の複数の領域のうち、算出した類似度が閾値より高い領域を、認識対象が位置する領域と推定する。これにより、クエリ画像に含まれる認識対象の位置を推定できる。

大量の学習データを用いた場合、オブジェクトの分離性能を高めることができるので、クエリ画像に、認識対象以外のオブジェクトが含まれていても、誤検出の可能性を低減することができる。一方、従来のＦｅｗ－ｓｈｏｔの場合、学習データのバリエーションが少ないことによって、オブジェクトの分離性能を高めることが難しく、クエリ画像に、認識対象以外のオブジェクトが含まれている場合に、当該オブジェクトが認識対象であると誤検出してしまう場合があった。それに対して、本実施形態に係る画像認識装置１００によれば、Ｆｅｗ－ｓｈｏｔの中に含まれる認識対象以外のオブジェクトのプロトタイプも生成し、認識対象以外のオブジェクトのプロトタイプと、認識対象のプロトタイプとの距離が遠くなるように変換が行われるので、Ｆｅｗ－ｓｈｏｔのままで、オブジェクトの分離性能を向上することができる。これにより、大量の学習データを準備することなく画像セグメンテーションが行えるというＦＳＳの利点を活かしつつ実用に耐える推定を実現することに、貢献することができる。

なお、データ変換処理部１３０は、照合推論処理の学習時に、認識対象のプロトタイプと、認識対象以外のオブジェクトのプロトタイプとの間の距離が遠くなるように学習するようにしてもよい。照合推論処理における学習では、複数のサポートデータを用いて生成した学習モデルに対して、認識対象を含むクエリ画像であって、正解データ（すなわち、クエリ画像における認識対象の位置を示すデータ）を入力し、推定結果が正解データと近くなるようにパラメータを調整する。データ変換処理部１３０は、推定結果が正解データと近くなるようにするとともに、認識対象のプロトタイプと、認識対象以外のオブジェクトのプロトタイプとの間の距離が遠くなるように、パラメータを調整してよい。これにより、認識対象と、認識対象以外のオブジェクトとの分離性能を向上することができる。

図２、図３及び図４は、画像認識装置１００による処理内容の一例について説明するための説明図である。ここでは、４－Ｓｈｏｔ、すなわち、サポートデータ２０に４組のサポート画像２２及びアノテーションデータ２４が含まれており、認識対象が飛行機である場合を例示している。

４つのサポート画像２２のそれぞれは、飛行機を含む。また、４つのサポート画像２２のそれぞれは、飛行機以外の被写体も含む。図２に例示するように、１つ目のサポート画像２２には、滑走路及び管制塔が含まれている。

４つのアノテーションデータ２４のそれぞれは、対応するサポート画像２２における被写体の位置を示す。図２に例示するように１つ目のアノテーションデータ２４は、１つ目のサポート画像２２に含まれる、飛行機、滑走路、及び管制塔の位置を示す。

特徴抽出処理部１２２は、４つのサポート画像２２のそれぞれについて、サポート画像２２の複数の領域２０１毎の特徴量を示すサポートフィーチャ２００を生成する。領域２０１のサイズは、任意のサイズであってよく、設定によって変更可能であってよい。

プロトタイプ算出処理部１２４は、アノテーションデータ２４及びサポートフィーチャ２００を用いて、複数の被写体のプロトタイプを生成する。プロトタイプ算出処理部１２４は、認識対象のプロトタイプを生成する。本例において、プロトタイプ算出処理部１２４は、１つ目のサポートフィーチャ２００のうちの、複数の飛行機領域２０２の特徴量を抽出する。同様に、プロトタイプ算出処理部１２４は、他の３つのサポートフィーチャ２００のうちの、複数の飛行機領域２０２の特徴量を抽出する。プロトタイプ算出処理部１２４は、抽出した複数の特徴量を特徴空間２１２に配置して、複数の特徴量の重心を、飛行機プロトタイプ２２２として算出する。

同様に、プロトタイプ算出処理部１２４は、認識対象以外の被写体のプロトタイプを生成する。ここでは、飛行機以外の被写体として、滑走路及び管制塔のみが含まれており、滑走路プロトタイプ２２４及び管制塔プロトタイプ２２６を生成する場合について説明するが、これら以外の被写体も含まれる場合、プロトタイプ算出処理部１２４は、これら以外の被写体のプロトタイプも生成する。

プロトタイプ算出処理部１２４は、１つ目のサポートフィーチャ２００のうちの、複数の滑走路領域２０４の特徴量を抽出する。プロトタイプ算出処理部１２４は、被写体として滑走路が含まれる他のサポート画像２２のサポートフィーチャ２００について、複数の滑走路領域２０４の特徴量を抽出する。プロトタイプ算出処理部１２４は、抽出した複数の特徴量を特徴空間２１４に配置して、複数の特徴量の重心を、滑走路プロトタイプ２２４として算出する。

プロトタイプ算出処理部１２４は、１つ目のサポートフィーチャ２００のうちの、複数の管制塔領域２０６の特徴量を抽出する。プロトタイプ算出処理部１２４は、被写体として管制塔が含まれる他のサポート画像２２のサポートフィーチャ２００について、複数の管制塔領域２０６の特徴量を抽出する。プロトタイプ算出処理部１２４は、抽出した複数の特徴量を特徴空間２１６に配置して、複数の特徴量の重心を、管制塔プロトタイプ２２６として算出する。

距離算出処理部１２６は、飛行機プロトタイプ２２２、滑走路プロトタイプ２２４、及び管制塔プロトタイプ２２６同士の距離を算出する。データ正規化処理部１３２は、飛行機プロトタイプ２２２、滑走路プロトタイプ２２４、及び管制塔プロトタイプ２２６同士の距離に対して統計計算を行うことによって、飛行機プロトタイプ２２２、滑走路プロトタイプ２２４、及び管制塔プロトタイプ２２６を正規化し、これらを変換する。

特徴抽出処理部１２２は、図４に例示するように、クエリ画像３０の複数の領域３０１毎の特徴量を示すクエリフィーチャ３００を生成する。プロトタイプ照合処理部１４０は、複数の領域３０１のそれぞれについて、飛行機プロトタイプ２２２との類似度を算出することによって、類似度マップ３１０を生成する。そして、プロトタイプ照合処理部１４０は、クエリ画像３０の複数の領域のうち、算出した類似度が閾値より高い領域を、飛行機が位置する領域と推定する。

図５は、画像認識装置１００の機能構成の他の一例を概略的に示す。ここでは、図１と異なる点を主に説明する。図５に例示する照合推論処理部１２０は、特徴抽出処理部１２２、プロトタイプ算出処理部１２４、多段推定処理部１５０、及び位置推定処理部１６０を有する。

多段推定処理部１５０は、プロトタイプ算出処理部１２４によって算出された複数のプロトタイプを用いて、複数の被写体毎のクエリ画像における位置を推定する。位置推定処理部１６０は、多段推定処理部１５０による複数の被写体毎の推定結果を統合して、クエリ画像に含まれる認識対象の位置を推定する。

例えば、多段推定処理部１５０は、クエリ画像の複数の領域のそれぞれについて、複数のプロトタイプのそれぞれとの類似度を算出する。そして、位置推定処理部１６０は、クエリ画像の複数の領域のそれぞれについて、複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、クエリ画像に含まれる認識対象の位置を推定する。

図６は、多段推定処理部１５０及び位置推定処理部１６０による処理について説明するための説明図である。ここでは、プロトタイプ算出処理部１２４によって、飛行機プロトタイプ２２２、滑走路プロトタイプ２２４、及び管制塔プロトタイプ２２６が生成されているものとして説明する。

特徴抽出処理部１２２は、図６に例示するように、クエリ画像３０の複数の領域３０１毎の特徴量を示すクエリフィーチャ３００を生成する。多段推定処理部１５０は、クエリ画像３０の複数の領域３０１のそれぞれについて、飛行機プロトタイプ２２２との類似度を算出することによって、クエリ画像３０の複数の領域のそれぞれの、飛行機プロトタイプ２２２との類似度を示す類似度マップ４２０を生成する。

多段推定処理部１５０は、クエリ画像３０の複数の領域３０１のそれぞれについて、滑走路プロトタイプ２２４との類似度を算出することによって、クエリ画像３０の複数の領域のそれぞれの、滑走路プロトタイプ２２４との類似度を示す類似度マップ４４０を生成する。多段推定処理部１５０は、クエリ画像３０の複数の領域３０１のそれぞれについて、管制塔プロトタイプ２２６との類似度を算出することによって、クエリ画像３０の複数の領域のそれぞれの、管制塔プロトタイプ２２６との類似度を示す類似度マップ４６０を生成する。

位置推定処理部１６０は、クエリ画像３０の複数の領域３０１のそれぞれについて、飛行機プロトタイプ２２２、滑走路プロトタイプ２２４、及び管制塔プロトタイプ２２６との類似度に基づいて、当該領域が飛行機であるか否かを判定する。

例えば、位置推定処理部１６０は、複数の領域３０１のうちの第１の領域３０１について、最も類似度が高いプロトタイプとの類似度と、２番目に類似度が高いプロトタイプとの類似度の差が予め定められた閾値以上の場合、第１の領域３０１の位置を、当該最も類似度が高いプロトタイプに対応するオブジェクトであると判定する。具体例として、第１の領域３０１について、飛行機プロトタイプ２２２との類似度が最も高く、管制塔プロトタイプ２２６との類似度が２番目に高い場合において、類似度の差が閾値以上の場合、第１の領域３０１の位置を、飛行機であると判定する。

例えば、位置推定処理部１６０は、第１の領域３０１について、最も類似度が高いプロトタイプとの類似度と、２番目に類似度が高いプロトタイプとの類似度の差が予め定められた閾値未満の場合、第１の領域３０１の一を、背景と判定する。具体例として、第１の領域３０１について、飛行機プロトタイプ２２２との類似度が最も高く、管制塔プロトタイプ２２６との類似度が２番目に高い場合において、類似度の差が閾値未満の場合、第１の領域３０１の位置を、背景と判定する。

これにより、複数のオブジェクトとの類似度が高い領域については、背景と判定することによって、誤って認識対象であると判定してしまう可能性を低減することができる。また、認識対象との類似度が高いが、他のオブジェクトとの類似度は低いことから、認識対象である蓋然性が高い場合に、認識対象であると判定することによって、判定精度を向上することができる。

画像認識装置１００は、図１において説明した機能と、図５において説明した機能との両方を有してもよい。すなわち、画像認識装置１００の照合推論処理部１２０は、特徴抽出処理部１２２、プロトタイプ算出処理部１２４、距離算出処理部１２６、データ変換処理部１３０、プロトタイプ照合処理部１４０、多段推定処理部１５０、及び位置推定処理部１６０を有してもよい。この場合、画像認識装置１００は、図１において説明した機能と、図５において説明した機能とを、個別に実行してよい。

例えば、画像認識装置１００は、処理時間よりもメモリ消費量を優先する場合、図１において説明した機能を実行する。図１において説明した機能では、距離算出処理部１２６が、複数のプロトタイプ間の距離を総当たりで計算するので、処理時間は増えるものの、メモリ消費量を抑えることができる。

例えば、画像認識装置１００は、メモリ消費量よりも処理時間を優先する場合、図５において説明した機能を実行する。図５において説明した機能では、複数の類似度マップを保持するので、メモリ消費量は増えるが、図１において説明した機能と比較して、処理時間を短縮することができる。

画像認識装置１００は、図１において説明した機能と、図５において説明した機能とをハイブリッドで実行してもよい。例えば、データ変換処理部１３０が、距離算出処理部１２６によって算出された複数のプロトタイプ同士の距離に基づいて、プロトタイプ算出処理部１２４によって算出された複数のプロトタイプを変換する。そして、多段推定処理部１５０が、クエリ画像の複数の領域のそれぞれについて、データ変換処理部１３０によって変換された複数のプロトタイプのそれぞれとの類似度を算出する。そして、位置推定処理部１６０が、クエリ画像の複数の領域のそれぞれについて、複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、クエリ画像に含まれる認識対象の位置を推定する。

図７は、画像認識装置１００として機能するコンピュータ１２００のハードウェア構成の一例を概略的に示す。コンピュータ１２００にインストールされたプログラムは、コンピュータ１２００を、本実施形態に係る装置の１又は複数の「部」として機能させ、又はコンピュータ１２００に、本実施形態に係る装置に関連付けられるオペレーション又は当該１又は複数の「部」を実行させることができ、及び／又はコンピュータ１２００に、本実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ１２００に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、ＣＰＵ１２１２によって実行されてよい。

本実施形態によるコンピュータ１２００は、ＣＰＵ１２１２、ＲＡＭ１２１４、及びグラフィックコントローラ１２１６を含み、それらはホストコントローラ１２１０によって相互に接続されている。コンピュータ１２００はまた、通信インタフェース１２２２、記憶装置１２２４、ＤＶＤドライブ１２２６、及びＩＣカードドライブのような入出力ユニットを含み、それらは入出力コントローラ１２２０を介してホストコントローラ１２１０に接続されている。ＤＶＤドライブ１２２６は、ＤＶＤ－ＲＯＭドライブ及びＤＶＤ－ＲＡＭドライブ等であってよい。記憶装置１２２４は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ１２００はまた、ＲＯＭ１２３０及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ１２４０を介して入出力コントローラ１２２０に接続されている。

ＣＰＵ１２１２は、ＲＯＭ１２３０及びＲＡＭ１２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ１２１６は、ＲＡＭ１２１４内に提供されるフレームバッファ等又はそれ自体の中に、ＣＰＵ１２１２によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス１２１８上に表示されるようにする。

通信インタフェース１２２２は、ネットワークを介して他の電子デバイスと通信する。記憶装置１２２４は、コンピュータ１２００内のＣＰＵ１２１２によって使用されるプログラム及びデータを格納する。ＤＶＤドライブ１２２６は、プログラム又はデータをＤＶＤ－ＲＯＭ１２２７等から読み取り、記憶装置１２２４に提供する。ＩＣカードドライブは、プログラム及びデータをＩＣカードから読み取り、及び／又はプログラム及びデータをＩＣカードに書き込む。

ＲＯＭ１２３０はその中に、アクティブ化時にコンピュータ１２００によって実行されるブートプログラム等、及び／又はコンピュータ１２００のハードウェアに依存するプログラムを格納する。入出力チップ１２４０はまた、様々な入出力ユニットをＵＳＢポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ１２２０に接続してよい。

プログラムは、ＤＶＤ－ＲＯＭ１２２７又はＩＣカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置１２２４、ＲＡＭ１２１４、又はＲＯＭ１２３０にインストールされ、ＣＰＵ１２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ１２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ１２００の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。

例えば、通信がコンピュータ１２００及び外部デバイス間で実行される場合、ＣＰＵ１２１２は、ＲＡＭ１２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース１２２２に対し、通信処理を命令してよい。通信インタフェース１２２２は、ＣＰＵ１２１２の制御の下、ＲＡＭ１２１４、記憶装置１２２４、ＤＶＤ－ＲＯＭ１２２７、又はＩＣカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。

また、ＣＰＵ１２１２は、記憶装置１２２４、ＤＶＤドライブ１２２６（ＤＶＤ－ＲＯＭ１２２７）、ＩＣカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がＲＡＭ１２１４に読み取られるようにし、ＲＡＭ１２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ１２１２は次に、処理されたデータを外部記録媒体にライトバックしてよい。

様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ１２１２は、ＲＡＭ１２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ１２１４に対しライトバックする。また、ＣＰＵ１２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ１２１２は、当該複数のエントリの中から、第１の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラム又はソフトウエアモジュールは、コンピュータ１２００上又はコンピュータ１２００近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はＲＡＭのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ１２００に提供する。

本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び／又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び／又はアナログハードウェア回路を含んでよく、集積回路（ＩＣ）及び／又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、及びプログラマブルロジックアレイ（ＰＬＡ）等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。

コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はＳｍａｌｌｔａｌｋ（登録商標）、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、及び「Ｃ」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

２０サポートデータ、２２サポート画像、２４アノテーションデータ、３０クエリ画像、１００画像認識装置、１１０データ取得部、１１２サポートデータ取得部、１１４クエリデータ取得部、１２０照合推論処理部、１２２特徴抽出処理部、１２４プロトタイプ算出処理部、１２６距離算出処理部、１３０データ変換処理部、１３２データ正規化処理部、１４０プロトタイプ照合処理部、１５０多段推定処理部、１６０位置推定処理部、２００サポートフィーチャ、２０１領域、２０２飛行機領域、２０４滑走路領域、２０６管制塔領域、２１２特徴空間、２１４特徴空間、２１６特徴空間、２２２飛行機プロトタイプ、２２４滑走路プロトタイプ、２２６管制塔プロトタイプ、３００クエリフィーチャ、３１０類似度マップ、４２０類似度マップ、４４０類似度マップ、４６０類似度マップ、１２００コンピュータ、１２１０ホストコントローラ、１２１２ＣＰＵ、１２１４ＲＡＭ、１２１６グラフィックコントローラ、１２１８ディスプレイデバイス、１２２０入出力コントローラ、１２２２通信インタフェース、１２２４記憶装置、１２２６ＤＶＤドライブ、１２２７ＤＶＤ－ＲＯＭ、１２３０ＲＯＭ、１２４０入出力チップ

Claims

認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部と、
前記サポートデータ取得部が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と
を備え、
前記照合推論処理部は、
前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータに基づいて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部と、
前記プロトタイプ算出処理部によって算出された複数の前記プロトタイプ同士の距離を算出する距離算出処理部と、
を有する、
画像認識装置。
前記サポートデータは、複数の前記サポート画像及び前記アノテーションデータの組み合わせを含み、
前記プロトタイプ算出処理部は、前記複数のサポート画像に含まれる複数の被写体のそれぞれについて、前記プロトタイプを算出する、請求項１に記載の画像認識装置。
前記サポートデータ取得部は、複数の前記サポートデータ及び前記クエリ画像を含むバッチに含まれる当該複数のサポートデータを取得し、
前記プロトタイプ算出処理部は、前記バッチに含まれる前記複数のサポートデータの前記複数のサポート画像に含まれる複数の被写体のそれぞれについて、前記プロトタイプを算出する、請求項２に記載の画像認識装置。
前記照合推論処理部は、
前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離を用いて、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部
を有する、請求項１から３のいずれか一項に記載の画像認識装置。
前記照合推論処理部は、
前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離に基づいて、前記プロトタイプ算出処理部によって算出された前記サポート画像の前記認識対象のプロトタイプを変換するデータ変換処理部と、
前記データ変換処理部によって変換された前記プロトタイプを用いて、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部と
を有する、請求項１から３のいずれか一項に記載の画像認識装置。
前記データ変換処理部は、
前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離に対して統計計算を行うことによって、前記プロトタイプ算出処理部によって算出されたプロトタイプを正規化するデータ正規化処理部
を有する、請求項５に記載の画像認識装置。
前記データ正規化処理部は、前記複数のプロトタイプ同士の距離の標準偏差及び平均を算出して、算出結果に基づいて前記複数のプロトタイプを正規化する、請求項６に記載の画像認識装置。
前記データ正規化処理部は、前記複数のプロトタイプ同士の距離の最大値及び最小値を算出して、算出結果に基づいて前記複数のプロトタイプを正規化する、請求項６に記載の画像認識装置。
前記距離算出処理部は、前記プロトタイプ算出処理部によって算出された前記複数のプロトタイプ同士のユークリッド距離を算出する、請求項１から８のいずれか一項に記載の画像認識装置。
前記距離算出処理部は、前記プロトタイプ算出処理部によって算出された前記複数のプロトタイプ同士のコサイン類似度を算出する、請求項１から８のいずれか一項に記載の画像認識装置。
前記照合推論処理部は、
前記プロトタイプ算出処理部によって算出された複数の前記プロトタイプを用いて、複数の前記被写体毎の前記クエリ画像における位置を推定する多段推定処理部と、
前記多段推定処理部による前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理部と
を有する、請求項１から１０のいずれか一項に記載の画像認識装置。
前記多段推定処理部は、前記クエリ画像の複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度を算出し、
前記位置推定処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定する、請求項１１に記載の画像認識装置。
認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部と、
前記サポートデータ取得部が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と
を備え、
前記照合推論処理部は、
前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理部と、
前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理部と、
前記多段推定処理部による前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理部と
を有する、画像認識装置。
前記多段推定処理部は、前記クエリ画像の複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度を算出し、
前記位置推定処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定する、請求項１３に記載の画像認識装置。
コンピュータを、請求項１から１４のいずれか一項に記載の画像認識装置として機能させるためのプログラム。
コンピュータによって実行される画像認識方法であって、
認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階と、
前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
を備え、
前記照合推論処理段階は、
前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階と、
前記プロトタイプ算出処理段階において算出された複数の前記プロトタイプ同士の距離を算出する距離算出段階と、
を有する、
画像認識方法。
コンピュータによって実行される画像認識方法であって、
認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階と、
前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
を備え、
前記照合推論処理段階は、
前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理段階と、
前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理段階と、
前記多段推定処理段階における前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理段階と
を有する、画像認識方法。
コンピュータによって実行される機械学習方法であって、
認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階と、
前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
を備え、
前記照合推論処理段階は、
前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階と、
前記プロトタイプ算出処理段階において算出された複数の前記プロトタイプ同士の距離を算出する距離算出段階と、
を有する、
機械学習方法。
コンピュータによって実行される機械学習方法であって、
認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階と、
前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
を備え、
前記照合推論処理段階は、
前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理段階と、
前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理段階と、
前記多段推定処理段階における前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理段階と
を有する、機械学習方法。