JP2023128430A - 画像認識装置、プログラム、画像認識方法、及び機械学習方法 - Google Patents

画像認識装置、プログラム、画像認識方法、及び機械学習方法 Download PDF

Info

Publication number
JP2023128430A
JP2023128430A JP2022032769A JP2022032769A JP2023128430A JP 2023128430 A JP2023128430 A JP 2023128430A JP 2022032769 A JP2022032769 A JP 2022032769A JP 2022032769 A JP2022032769 A JP 2022032769A JP 2023128430 A JP2023128430 A JP 2023128430A
Authority
JP
Japan
Prior art keywords
processing unit
image
support
prototype
prototypes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022032769A
Other languages
English (en)
Other versions
JP7313501B1 (ja
Inventor
淳郎 岡澤
Atsuro Okazawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2022032769A priority Critical patent/JP7313501B1/ja
Priority to JP2023066653A priority patent/JP7502518B2/ja
Application granted granted Critical
Publication of JP7313501B1 publication Critical patent/JP7313501B1/ja
Publication of JP2023128430A publication Critical patent/JP2023128430A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】被写体毎の分離性能を高める画像認識装置、プログラム、画像認識方法及び機械学習方法を提供する。【解決手段】画像認識装置100は、認識対象が撮影されたサポート画像及びサポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部112と、サポートデータ取得部112が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部120と、を備える。照合推論処理部120は、サポートデータに含まれるサポート画像及びアノテーションデータを用いて、被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部124と、プロトタイプ算出処理部124によって算出された複数のプロトタイプ同士の距離を算出する距離算出処理部126と、を有する。【選択図】図1

Description

本発明は、画像認識装置、プログラム、画像認識方法、及び機械学習方法に関する。
特許文献1には、Few-shot learningを用いて画像をセグメンテーションするFSS(Few-shot segmentation)について記載されている。
[先行技術文献]
[非特許文献]
[非特許文献1]Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao: Mining Latent Classes for Few-shot Segmentation (2021), The IEEE International Conference on ComputerVision(ICCV)
本発明の一実施態様によれば、画像認識装置が提供される。前記画像認識装置は、認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部を備えてよい。前記画像認識装置は、前記サポートデータ取得部が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部を備えてよい。前記照合推論処理部は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部を有してよい。前記照合推論処理部は、前記プロトタイプ算出処理部によって算出された複数の前記プロトタイプ同士の距離を算出する距離算出処理部を有してよい。
前記サポートデータは、複数の前記サポート画像及び前記アノテーションデータの組み合わせを含んでよく、前記プロトタイプ算出処理部は、前記複数のサポート画像に含まれる複数の被写体のそれぞれについて、前記プロトタイプを算出してよい。前記サポートデータ取得部は、複数の前記サポートデータ及び前記クエリ画像を含むバッチに含まれる当該複数のサポートデータを取得してよく、前記プロトタイプ算出処理部は、前記バッチに含まれる前記複数のサポートデータの前記複数のサポート画像に含まれる複数の被写体のそれぞれについて、前記プロトタイプを算出してよい。
前記照合推論処理部は、前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離を用いて、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部を有してよい。前記照合推論処理部は、前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離に基づいて、前記プロトタイプ算出処理部によって算出された前記サポート画像の前記認識対象のプロトタイプを変換するデータ変換処理部と、前記データ変換処理部によって変換された前記プロトタイプを用いて、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部とを有してよい。
前記データ変換処理部は、前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離に対して統計計算を行うことによって、前記プロトタイプ算出処理部によって算出されたプロトタイプを正規化するデータ正規化処理部を有してよい。前記データ正規化処理部は、前記複数のプロトタイプ同士の距離の標準偏差及び平均を算出して、算出結果に基づいて前記複数のプロトタイプを正規化してよい。前記データ正規化処理部は、前記複数のプロトタイプ同士の距離の最大値及び最小値を算出して、算出結果に基づいて前記複数のプロトタイプを正規化してよい。前記データ正規化処理部は、機械学習によって決定したパラメータを用いて、前記複数のプロトタイプを正規化してよい。
前記距離算出処理部は、前記プロトタイプ算出処理部によって算出された前記複数のプロトタイプ同士のユークリッド距離を算出してよい。前記距離算出処理部は、前記プロトタイプ算出処理部によって算出された前記複数のプロトタイプ同士のコサイン類似度を算出してよい。
前記照合推論処理部は、前記プロトタイプ算出処理部によって算出された複数の前記プロトタイプを用いて、複数の前記被写体毎の前記クエリ画像における位置を推定する多段推定処理部と、前記多段推定処理部による前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理部とを有してよい。前記多段推定処理部は、前記クエリ画像の複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度を算出してよく、前記位置推定処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定してよい。
本発明の一実施態様によれば、画像認識装置が提供される。前記画像認識装置は、認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部を備えてよい。前記画像認識装置は、前記サポートデータ取得部が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部を備えてよい。前記照合推論処理部は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理部を有してよい。前記照合推論処理部は、前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理部を有してよい。前記照合推論処理部は、前記多段推定処理部による前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理部を有してよい。
前記多段推定処理部は、前記クエリ画像の複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度を算出してよく、前記位置推定処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定してよい。
本発明の一実施態様によれば、コンピュータを、上記画像認識装置として機能させるためのプログラムが提供される。
本発明の一実施態様によれば、コンピュータによって実行される画像認識方法が提供される。前記画像認識方法は、認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階を備えてよい。前記画像認識方法は、前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。前記照合推論処理段階は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階を有してよい。前記照合推論処理段階は、前記プロトタイプ算出処理段階において算出された複数の前記プロトタイプ同士の距離を算出する距離算出段階を有してよい。
本発明の一実施態様によれば、コンピュータによって実行される画像認識方法が提供される。前記画像認識方法は、認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階を備えてよい。前記画像認識方法は、前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。前記照合推論処理段階は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理段階を有してよい。前記照合推論処理段階は、前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理段階を有してよい。前記照合推論処理段階は、前記多段推定処理段階における前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理段階を有してよい。
本発明の一実施態様によれば、コンピュータによって実行される機械学習方法が提供される。前記機械学習方法は、認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階を備えてよい。前記機械学習方法は、前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。前記照合推論処理段階は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階を有してよい。前記照合推論処理段階は、前記プロトタイプ算出処理段階において算出された複数の前記プロトタイプ同士の距離を算出する距離算出段階を有してよい。
機械学習方法。
本発明の一実施態様によれば、コンピュータによって実行される機械学習方法が提供される。前記機械学習方法は、認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階を備えてよい。前記機械学習方法は、前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。前記照合推論処理段階は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理段階を有してよい。前記照合推論処理段階は、前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理段階を有してよい。前記照合推論処理段階は、前記多段推定処理段階における前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理段階を有してよい。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
画像認識装置100の機能構成の一例を概略的に示す。 画像認識装置100による処理内容の一例について説明するための説明図である。 画像認識装置100による処理内容の一例について説明するための説明図である。 画像認識装置100による処理内容の一例について説明するための説明図である。 画像認識装置100の機能構成の他の一例を概略的に示す。 多段推定処理部150及び位置推定処理部160による処理について説明するための説明図である。 画像認識装置100として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。
従来のFSSには、「背景に形状特徴等が類似した被写体がある場合に誤検出する」という課題がある。この課題は、few-shotに起因した被写体と背景の組み合わせバリエーションの少なさに起因すると考えられる。本実施形態に係る画像認識装置100では、few-shotのまま当該課題を解決するために、被写体毎の分離性能を高める機構を追加する。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、画像認識装置100の機能構成の一例を概略的に示す。画像認識装置100は、画像内における認識対象の位置を特定する画像認識方法を実行してよい。画像認識装置100による画像認識は、機械学習によって実行されてよい。画像認識装置100は、画像認識のための機械学習方法を実行してよい。画像認識装置100は、FSSを実行してよい。
画像認識装置100は、データ取得部110及び照合推論処理部120を備える。データ取得部110は、サポートデータ取得部112及びクエリデータ取得部114を有する。照合推論処理部120は、特徴抽出処理部122、プロトタイプ算出処理部124、距離算出処理部126、データ変換処理部130、及びプロトタイプ照合処理部140を有する。なお、照合推論処理部120がこれらの全てを有することは必須とは限らない。
サポートデータ取得部112は、サポートデータを取得する。サポートデータ取得部112は、画像認識装置100に対して入力されたサポートデータを取得してよい。サポートデータは、サポート画像及びアノテーションデータを含む。
サポート画像は、認識対象が撮影された画像であってよい。例えば、認識対象が飛行機である場合、サポート画像は、飛行機が撮影された画像である。ここでは、認識対象が飛行機である場合を主に例に挙げて説明する。
アノテーションデータは、サポート画像における被写体の位置を示すデータであってよい。アノテーションデータは、サポート画像における認識対象である被写体の位置を示す。アノテーションデータは、サポート画像における認識対象である被写体以外の被写体の位置を示してよい。例えば、サポート画像に、飛行機に加えて滑走路及び管制塔が含まれている場合に、アノテーションデータは、滑走路及び管制塔の位置を示してよい。
アノテーションデータは、認識対象である被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、サポート画像における飛行機の位置に対応付けて「飛行機」を示すデータを含む。アノテーションデータは、認識対象である被写体以外の被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、サポート画像における滑走路の位置に対応付けて「滑走路」を示すデータを含み、管制塔の位置に対応付けて「管制塔」を示すデータを含む。
サポートデータは、複数のサポート画像及びアノテーションデータの組み合わせを含んでよい。複数のサポートデータ及びクエリデータを含むバッチが入力された場合、サポートデータ取得部112は、当該バッチに含まれる複数のサポートデータを取得してよい。
クエリデータ取得部114は、クエリデータを取得する。サポートデータ取得部112は、画像認識装置100に対して入力されたクエリデータを取得してよい。クエリデータは、認識対象の位置を推定する対象となるクエリ画像を含む。
照合推論処理部120は、サポートデータ取得部112が取得したサポートデータを用いて、クエリデータ取得部114が取得したクエリ画像に含まれる認識対象の位置を推定する。照合推論処理部120は、特徴抽出処理部122、プロトタイプ算出処理部124、距離算出処理部126、データ変換処理部130、及びプロトタイプ照合処理部140を有する。なお、照合推論処理部120がこれらの全てを有することは必須とは限らない。
特徴抽出処理部122は、サポート画像の特徴量を抽出する。特徴抽出処理部122は、サポート画像の複数の領域毎の特徴量を示すサポートフィーチャを生成してよい。特徴抽出処理部122は、サポートデータに含まれる複数のサポート画像のそれぞれのサポートフィーチャを生成してよい。データ取得部110がバッチを取得した場合、特徴抽出処理部122は、バッチに含まれる、異なるクエリ画像に相対する複数のサポート画像も含めて、それぞれのサポートフィーチャを生成してよい。
特徴抽出処理部122は、クエリ画像の特徴量を抽出する。特徴抽出処理部122は、クエリ画像の複数の領域毎の特徴量を示すクエリフィーチャを生成してよい。
プロトタイプ算出処理部124は、サポートデータに含まれるサポート画像及びアノテーションデータに基づいて、サポート画像の被写体の特徴を表すプロトタイプを算出する。プロトタイプ算出処理部124は、特徴抽出処理部122によって生成されたサポートフィーチャと、アノテーションデータに基づいて、プロトタイプを算出してよい。
プロトタイプ算出処理部124は、認識対象の被写体のプロトタイプを算出する。例えば、プロトタイプ算出処理部124は、アノテーションデータを用いて、サポートフィーチャから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部124は、複数のサポートフィーチャのそれぞれから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部124は、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、認識対象の被写体のプロトタイプとして算出してよい。このように、プロトタイプは、特徴空間における特徴ベクトルであってよい。
本実施形態に係るプロトタイプ算出処理部124は、さらに、認識対象の被写体以外の被写体のプロトタイプを算出する。プロトタイプ算出処理部124は、認識対象の被写体以外の1又は複数の被写体のそれぞれについて、アノテーションデータを用いて、サポートフィーチャから、被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部124は、認識対象の被写体以外の1又は複数の被写体のそれぞれについて、複数のサポートフィーチャのそれぞれから、被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部124は、認識対象の被写体以外の1又は複数の被写体のそれぞれについて、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、被写体のプロトタイプとして算出してよい。
データ取得部110が、バッチを取得した場合、プロトタイプ算出処理部124は、複数の被写体のそれぞれについて、バッチに含まれる複数のサポート画像から生成された複数のサポートフィーチャのそれぞれから、被写体の位置に対応する複数の領域の特徴量を抽出して、複数の被写体のプロトタイプを算出してよい。
距離算出処理部126は、プロトタイプ算出処理部124によって算出された複数のプロトタイプ同士の距離を算出する。例えば、距離算出処理部126は、複数のプロトタイプ同士のユークリッド距離を算出する。距離算出処理部126は、複数のプロトタイプ同士のユークリッド距離を総当たりで算出してよい。例えば、距離算出処理部126は、複数のプロトタイプ同士のコサイン類似度を算出する。距離算出処理部126は、複数のプロトタイプ同士のコサイン類似度を総当たりで算出してよい。
データ変換処理部130は、距離算出処理部126によって算出された複数のプロトタイプ同士の距離に基づいて、プロトタイプ算出処理部124によって算出されたプロトタイプを変換する。データ変換処理部130は、プロトタイプ算出処理部124によって算出された、認識対象のプロトタイプを変換してよい。
データ変換処理部130は、データ正規化処理部132を有してよい。データ正規化処理部132は、距離算出処理部126によって算出された複数のプロトタイプ同士の距離に対して統計計算を行うことによって、プロトタイプ算出処理部124によって算出されたプロトタイプを正規化する。
例えば、データ正規化処理部132は、複数のプロトタイプ同士の距離の標準偏差及び平均を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。データ正規化処理部132は、複数のプロトタイプについて、平均0、標準偏差1の正規分布となるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。
例えば、データ正規化処理部132は、複数のプロトタイプ同士の距離の最大値及び最小値を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。データ正規化処理部132は、複数のプロトタイプについて、0.0-1.0のレンジとなるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。
例えば、データ正規化処理部132は、事前に機械学習によって決定したパラメータを用いて、複数のプロトタイプを正規化する。例えば、データ正規化処理部132は、機械学習によって決定したa、bを用いた変換式aX+bを用いて、複数のプロトタイプを変換する。複数のプロトタイプ間の距離が遠くなるように変換可能であれば、任意の機械学習手法を用いてよい。
データ変換処理部130は、特徴抽出処理部122によって生成されたクエリフィーチャを変換してよい。例えば、データ変換処理部130は、データ正規化処理部132で算出された複数のプロトタイプ同士の距離の標準偏差及び平均値を用いて、クエリフィーチャを変換してよい。例えば、データ変換処理部130は、データ正規化処理部132で算出された複数のプロトタイプ同士の距離の最大値及び最小値を用いて、クエリフィーチャを変換してもよい。なお、データ変換処理部130は、クエリフィーチャについては変換を行わなくてもよい。
プロトタイプ照合処理部140は、距離算出処理部126によって算出された複数のプロトタイプ同士の距離を用いて、クエリ画像に含まれる認識対象の位置を推定する。プロトタイプ照合処理部140は、データ変換処理部130によって変換されたプロトタイプを用いて、クエリ画像に含まれる認識対象の位置を推定してよい。プロトタイプ照合処理部140は、データ変換処理部130によって変換されたプロトタイプと、データ変換処理部130によって変換されたクエリフィーチャとを用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。プロトタイプ照合処理部140は、データ変換処理部130によって変換されたプロトタイプと、特徴抽出処理部122によって生成された、データ変換処理部130によって変換されていないクエリフィーチャとを用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。
プロトタイプ照合処理部140は、例えば、クエリフィーチャを用いて、クエリ画像の複数の領域のそれぞれについて、領域の特徴量と認識対象のプロトタイプとの類似度を算出する。プロトタイプ照合処理部140は、例えば、領域の特徴量と認識対象のプロトタイプとのコサイン類似度を算出する。そして、プロトタイプ照合処理部140は、クエリ画像の複数の領域のうち、算出した類似度が閾値より高い領域を、認識対象が位置する領域と推定する。これにより、クエリ画像に含まれる認識対象の位置を推定できる。
大量の学習データを用いた場合、オブジェクトの分離性能を高めることができるので、クエリ画像に、認識対象以外のオブジェクトが含まれていても、誤検出の可能性を低減することができる。一方、従来のFew-shotの場合、学習データのバリエーションが少ないことによって、オブジェクトの分離性能を高めることが難しく、クエリ画像に、認識対象以外のオブジェクトが含まれている場合に、当該オブジェクトが認識対象であると誤検出してしまう場合があった。それに対して、本実施形態に係る画像認識装置100によれば、Few-shotの中に含まれる認識対象以外のオブジェクトのプロトタイプも生成し、認識対象以外のオブジェクトのプロトタイプと、認識対象のプロトタイプとの距離が遠くなるように変換が行われるので、Few-shotのままで、オブジェクトの分離性能を向上することができる。これにより、大量の学習データを準備することなく画像セグメンテーションが行えるというFSSの利点を活かしつつ実用に耐える推定を実現することに、貢献することができる。
なお、データ変換処理部130は、照合推論処理の学習時に、認識対象のプロトタイプと、認識対象以外のオブジェクトのプロトタイプとの間の距離が遠くなるように学習するようにしてもよい。照合推論処理における学習では、複数のサポートデータを用いて生成した学習モデルに対して、認識対象を含むクエリ画像であって、正解データ(すなわち、クエリ画像における認識対象の位置を示すデータ)を入力し、推定結果が正解データと近くなるようにパラメータを調整する。データ変換処理部130は、推定結果が正解データと近くなるようにするとともに、認識対象のプロトタイプと、認識対象以外のオブジェクトのプロトタイプとの間の距離が遠くなるように、パラメータを調整してよい。これにより、認識対象と、認識対象以外のオブジェクトとの分離性能を向上することができる。
図2、図3及び図4は、画像認識装置100による処理内容の一例について説明するための説明図である。ここでは、4-Shot、すなわち、サポートデータ20に4組のサポート画像22及びアノテーションデータ24が含まれており、認識対象が飛行機である場合を例示している。
4つのサポート画像22のそれぞれは、飛行機を含む。また、4つのサポート画像22のそれぞれは、飛行機以外の被写体も含む。図2に例示するように、1つ目のサポート画像22には、滑走路及び管制塔が含まれている。
4つのアノテーションデータ24のそれぞれは、対応するサポート画像22における被写体の位置を示す。図2に例示するように1つ目のアノテーションデータ24は、1つ目のサポート画像22に含まれる、飛行機、滑走路、及び管制塔の位置を示す。
特徴抽出処理部122は、4つのサポート画像22のそれぞれについて、サポート画像22の複数の領域201毎の特徴量を示すサポートフィーチャ200を生成する。領域201のサイズは、任意のサイズであってよく、設定によって変更可能であってよい。
プロトタイプ算出処理部124は、アノテーションデータ24及びサポートフィーチャ200を用いて、複数の被写体のプロトタイプを生成する。プロトタイプ算出処理部124は、認識対象のプロトタイプを生成する。本例において、プロトタイプ算出処理部124は、1つ目のサポートフィーチャ200のうちの、複数の飛行機領域202の特徴量を抽出する。同様に、プロトタイプ算出処理部124は、他の3つのサポートフィーチャ200のうちの、複数の飛行機領域202の特徴量を抽出する。プロトタイプ算出処理部124は、抽出した複数の特徴量を特徴空間212に配置して、複数の特徴量の重心を、飛行機プロトタイプ222として算出する。
同様に、プロトタイプ算出処理部124は、認識対象以外の被写体のプロトタイプを生成する。ここでは、飛行機以外の被写体として、滑走路及び管制塔のみが含まれており、滑走路プロトタイプ224及び管制塔プロトタイプ226を生成する場合について説明するが、これら以外の被写体も含まれる場合、プロトタイプ算出処理部124は、これら以外の被写体のプロトタイプも生成する。
プロトタイプ算出処理部124は、1つ目のサポートフィーチャ200のうちの、複数の滑走路領域204の特徴量を抽出する。プロトタイプ算出処理部124は、被写体として滑走路が含まれる他のサポート画像22のサポートフィーチャ200について、複数の滑走路領域204の特徴量を抽出する。プロトタイプ算出処理部124は、抽出した複数の特徴量を特徴空間214に配置して、複数の特徴量の重心を、滑走路プロトタイプ224として算出する。
プロトタイプ算出処理部124は、1つ目のサポートフィーチャ200のうちの、複数の管制塔領域206の特徴量を抽出する。プロトタイプ算出処理部124は、被写体として管制塔が含まれる他のサポート画像22のサポートフィーチャ200について、複数の管制塔領域206の特徴量を抽出する。プロトタイプ算出処理部124は、抽出した複数の特徴量を特徴空間216に配置して、複数の特徴量の重心を、管制塔プロトタイプ226として算出する。
距離算出処理部126は、飛行機プロトタイプ222、滑走路プロトタイプ224、及び管制塔プロトタイプ226同士の距離を算出する。データ正規化処理部132は、飛行機プロトタイプ222、滑走路プロトタイプ224、及び管制塔プロトタイプ226同士の距離に対して統計計算を行うことによって、飛行機プロトタイプ222、滑走路プロトタイプ224、及び管制塔プロトタイプ226を正規化し、これらを変換する。
特徴抽出処理部122は、図4に例示するように、クエリ画像30の複数の領域301毎の特徴量を示すクエリフィーチャ300を生成する。プロトタイプ照合処理部140は、複数の領域301のそれぞれについて、飛行機プロトタイプ222との類似度を算出することによって、類似度マップ310を生成する。そして、プロトタイプ照合処理部140は、クエリ画像30の複数の領域のうち、算出した類似度が閾値より高い領域を、飛行機が位置する領域と推定する。
図5は、画像認識装置100の機能構成の他の一例を概略的に示す。ここでは、図1と異なる点を主に説明する。図5に例示する照合推論処理部120は、特徴抽出処理部122、プロトタイプ算出処理部124、多段推定処理部150、及び位置推定処理部160を有する。
多段推定処理部150は、プロトタイプ算出処理部124によって算出された複数のプロトタイプを用いて、複数の被写体毎のクエリ画像における位置を推定する。位置推定処理部160は、多段推定処理部150による複数の被写体毎の推定結果を統合して、クエリ画像に含まれる認識対象の位置を推定する。
例えば、多段推定処理部150は、クエリ画像の複数の領域のそれぞれについて、複数のプロトタイプのそれぞれとの類似度を算出する。そして、位置推定処理部160は、クエリ画像の複数の領域のそれぞれについて、複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、クエリ画像に含まれる認識対象の位置を推定する。
図6は、多段推定処理部150及び位置推定処理部160による処理について説明するための説明図である。ここでは、プロトタイプ算出処理部124によって、飛行機プロトタイプ222、滑走路プロトタイプ224、及び管制塔プロトタイプ226が生成されているものとして説明する。
特徴抽出処理部122は、図6に例示するように、クエリ画像30の複数の領域301毎の特徴量を示すクエリフィーチャ300を生成する。多段推定処理部150は、クエリ画像30の複数の領域301のそれぞれについて、飛行機プロトタイプ222との類似度を算出することによって、クエリ画像30の複数の領域のそれぞれの、飛行機プロトタイプ222との類似度を示す類似度マップ420を生成する。
多段推定処理部150は、クエリ画像30の複数の領域301のそれぞれについて、滑走路プロトタイプ224との類似度を算出することによって、クエリ画像30の複数の領域のそれぞれの、滑走路プロトタイプ224との類似度を示す類似度マップ440を生成する。多段推定処理部150は、クエリ画像30の複数の領域301のそれぞれについて、管制塔プロトタイプ226との類似度を算出することによって、クエリ画像30の複数の領域のそれぞれの、管制塔プロトタイプ226との類似度を示す類似度マップ460を生成する。
位置推定処理部160は、クエリ画像30の複数の領域301のそれぞれについて、飛行機プロトタイプ222、滑走路プロトタイプ224、及び管制塔プロトタイプ226との類似度に基づいて、当該領域が飛行機であるか否かを判定する。
例えば、位置推定処理部160は、複数の領域301のうちの第1の領域301について、最も類似度が高いプロトタイプとの類似度と、2番目に類似度が高いプロトタイプとの類似度の差が予め定められた閾値以上の場合、第1の領域301の位置を、当該最も類似度が高いプロトタイプに対応するオブジェクトであると判定する。具体例として、第1の領域301について、飛行機プロトタイプ222との類似度が最も高く、管制塔プロトタイプ226との類似度が2番目に高い場合において、類似度の差が閾値以上の場合、第1の領域301の位置を、飛行機であると判定する。
例えば、位置推定処理部160は、第1の領域301について、最も類似度が高いプロトタイプとの類似度と、2番目に類似度が高いプロトタイプとの類似度の差が予め定められた閾値未満の場合、第1の領域301の一を、背景と判定する。具体例として、第1の領域301について、飛行機プロトタイプ222との類似度が最も高く、管制塔プロトタイプ226との類似度が2番目に高い場合において、類似度の差が閾値未満の場合、第1の領域301の位置を、背景と判定する。
これにより、複数のオブジェクトとの類似度が高い領域については、背景と判定することによって、誤って認識対象であると判定してしまう可能性を低減することができる。また、認識対象との類似度が高いが、他のオブジェクトとの類似度は低いことから、認識対象である蓋然性が高い場合に、認識対象であると判定することによって、判定精度を向上することができる。
画像認識装置100は、図1において説明した機能と、図5において説明した機能との両方を有してもよい。すなわち、画像認識装置100の照合推論処理部120は、特徴抽出処理部122、プロトタイプ算出処理部124、距離算出処理部126、データ変換処理部130、プロトタイプ照合処理部140、多段推定処理部150、及び位置推定処理部160を有してもよい。この場合、画像認識装置100は、図1において説明した機能と、図5において説明した機能とを、個別に実行してよい。
例えば、画像認識装置100は、処理時間よりもメモリ消費量を優先する場合、図1において説明した機能を実行する。図1において説明した機能では、距離算出処理部126が、複数のプロトタイプ間の距離を総当たりで計算するので、処理時間は増えるものの、メモリ消費量を抑えることができる。
例えば、画像認識装置100は、メモリ消費量よりも処理時間を優先する場合、図5において説明した機能を実行する。図5において説明した機能では、複数の類似度マップを保持するので、メモリ消費量は増えるが、図1において説明した機能と比較して、処理時間を短縮することができる。
画像認識装置100は、図1において説明した機能と、図5において説明した機能とをハイブリッドで実行してもよい。例えば、データ変換処理部130が、距離算出処理部126によって算出された複数のプロトタイプ同士の距離に基づいて、プロトタイプ算出処理部124によって算出された複数のプロトタイプを変換する。そして、多段推定処理部150が、クエリ画像の複数の領域のそれぞれについて、データ変換処理部130によって変換された複数のプロトタイプのそれぞれとの類似度を算出する。そして、位置推定処理部160が、クエリ画像の複数の領域のそれぞれについて、複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、クエリ画像に含まれる認識対象の位置を推定する。
図7は、画像認識装置100として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。コンピュータ1200にインストールされたプログラムは、コンピュータ1200を、本実施形態に係る装置の1又は複数の「部」として機能させ、又はコンピュータ1200に、本実施形態に係る装置に関連付けられるオペレーション又は当該1又は複数の「部」を実行させることができ、及び/又はコンピュータ1200に、本実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ1200に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、CPU1212によって実行されてよい。
本実施形態によるコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、それらはホストコントローラ1210によって相互に接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ1226、及びICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブ1226は、DVD-ROMドライブ及びDVD-RAMドライブ等であってよい。記憶装置1224は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ1200はまた、ROM1230及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ1240を介して入出力コントローラ1220に接続されている。
CPU1212は、ROM1230及びRAM1214内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214内に提供されるフレームバッファ等又はそれ自体の中に、CPU1212によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス1218上に表示されるようにする。
通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200内のCPU1212によって使用されるプログラム及びデータを格納する。DVDドライブ1226は、プログラム又はデータをDVD-ROM1227等から読み取り、記憶装置1224に提供する。ICカードドライブは、プログラム及びデータをICカードから読み取り、及び/又はプログラム及びデータをICカードに書き込む。
ROM1230はその中に、アクティブ化時にコンピュータ1200によって実行されるブートプログラム等、及び/又はコンピュータ1200のハードウェアに依存するプログラムを格納する。入出力チップ1240はまた、様々な入出力ユニットをUSBポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ1220に接続してよい。
プログラムは、DVD-ROM1227又はICカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ1200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ1200の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。
例えば、通信がコンピュータ1200及び外部デバイス間で実行される場合、CPU1212は、RAM1214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース1222に対し、通信処理を命令してよい。通信インタフェース1222は、CPU1212の制御の下、RAM1214、記憶装置1224、DVD-ROM1227、又はICカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。
また、CPU1212は、記憶装置1224、DVDドライブ1226(DVD-ROM1227)、ICカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。CPU1212は次に、処理されたデータを外部記録媒体にライトバックしてよい。
様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU1212は、RAM1214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM1214に対しライトバックする。また、CPU1212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU1212は、当該複数のエントリの中から、第1の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
上で説明したプログラム又はソフトウエアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ1200に提供する。
本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び/又はアナログハードウェア回路を含んでよく、集積回路(IC)及び/又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ(FPGA)、及びプログラマブルロジックアレイ(PLA)等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。
コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク、メモリスティック、集積回路カード等が含まれてよい。
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk(登録商標)、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
20 サポートデータ、22 サポート画像、24 アノテーションデータ、30 クエリ画像、100 画像認識装置、110 データ取得部、112 サポートデータ取得部、114 クエリデータ取得部、120 照合推論処理部、122 特徴抽出処理部、124 プロトタイプ算出処理部、126 距離算出処理部、130 データ変換処理部、132 データ正規化処理部、140 プロトタイプ照合処理部、150 多段推定処理部、160 位置推定処理部、200 サポートフィーチャ、201 領域、202 飛行機領域、204 滑走路領域、206 管制塔領域、212 特徴空間、214 特徴空間、216 特徴空間、222 飛行機プロトタイプ、224 滑走路プロトタイプ、226 管制塔プロトタイプ、300 クエリフィーチャ、310 類似度マップ、420 類似度マップ、440 類似度マップ、460 類似度マップ、1200 コンピュータ、1210 ホストコントローラ、1212 CPU、1214 RAM、1216 グラフィックコントローラ、1218 ディスプレイデバイス、1220 入出力コントローラ、1222 通信インタフェース、1224 記憶装置、1226 DVDドライブ、1227 DVD-ROM、1230 ROM、1240 入出力チップ

Claims (19)

  1. 認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部と、
    前記サポートデータ取得部が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と
    を備え、
    前記照合推論処理部は、
    前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータに基づいて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部と、
    前記プロトタイプ算出処理部によって算出された複数の前記プロトタイプ同士の距離を算出する距離算出処理部と、
    を有する、
    画像認識装置。
  2. 前記サポートデータは、複数の前記サポート画像及び前記アノテーションデータの組み合わせを含み、
    前記プロトタイプ算出処理部は、前記複数のサポート画像に含まれる複数の被写体のそれぞれについて、前記プロトタイプを算出する、請求項1に記載の画像認識装置。
  3. 前記サポートデータ取得部は、複数の前記サポートデータ及び前記クエリ画像を含むバッチに含まれる当該複数のサポートデータを取得し、
    前記プロトタイプ算出処理部は、前記バッチに含まれる前記複数のサポートデータの前記複数のサポート画像に含まれる複数の被写体のそれぞれについて、前記プロトタイプを算出する、請求項2に記載の画像認識装置。
  4. 前記照合推論処理部は、
    前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離を用いて、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部
    を有する、請求項1から3のいずれか一項に記載の画像認識装置。
  5. 前記照合推論処理部は、
    前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離に基づいて、前記プロトタイプ算出処理部によって算出された前記サポート画像の前記認識対象のプロトタイプを変換するデータ変換処理部と、
    前記データ変換処理部によって変換された前記プロトタイプを用いて、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部と
    を有する、請求項1から3のいずれか一項に記載の画像認識装置。
  6. 前記データ変換処理部は、
    前記距離算出処理部によって算出された前記複数のプロトタイプ同士の距離に対して統計計算を行うことによって、前記プロトタイプ算出処理部によって算出されたプロトタイプを正規化するデータ正規化処理部
    を有する、請求項5に記載の画像認識装置。
  7. 前記データ正規化処理部は、前記複数のプロトタイプ同士の距離の標準偏差及び平均を算出して、算出結果に基づいて前記複数のプロトタイプを正規化する、請求項6に記載の画像認識装置。
  8. 前記データ正規化処理部は、前記複数のプロトタイプ同士の距離の最大値及び最小値を算出して、算出結果に基づいて前記複数のプロトタイプを正規化する、請求項6に記載の画像認識装置。
  9. 前記距離算出処理部は、前記プロトタイプ算出処理部によって算出された前記複数のプロトタイプ同士のユークリッド距離を算出する、請求項1から8のいずれか一項に記載の画像認識装置。
  10. 前記距離算出処理部は、前記プロトタイプ算出処理部によって算出された前記複数のプロトタイプ同士のコサイン類似度を算出する、請求項1から8のいずれか一項に記載の画像認識装置。
  11. 前記照合推論処理部は、
    前記プロトタイプ算出処理部によって算出された複数の前記プロトタイプを用いて、複数の前記被写体毎の前記クエリ画像における位置を推定する多段推定処理部と、
    前記多段推定処理部による前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理部と
    を有する、請求項1から10のいずれか一項に記載の画像認識装置。
  12. 前記多段推定処理部は、前記クエリ画像の複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度を算出し、
    前記位置推定処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定する、請求項11に記載の画像認識装置。
  13. 認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得部と、
    前記サポートデータ取得部が取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と
    を備え、
    前記照合推論処理部は、
    前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理部と、
    前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理部と、
    前記多段推定処理部による前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理部と
    を有する、画像認識装置。
  14. 前記多段推定処理部は、前記クエリ画像の複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度を算出し、
    前記位置推定処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記複数のプロトタイプのそれぞれとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定する、請求項13に記載の画像認識装置。
  15. コンピュータを、請求項1から14のいずれか一項に記載の画像認識装置として機能させるためのプログラム。
  16. コンピュータによって実行される画像認識方法であって、
    認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階と、
    前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
    を備え、
    前記照合推論処理段階は、
    前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階と、
    前記プロトタイプ算出処理段階において算出された複数の前記プロトタイプ同士の距離を算出する距離算出段階と、
    を有する、
    画像認識方法。
  17. コンピュータによって実行される画像認識方法であって、
    認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階と、
    前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
    を備え、
    前記照合推論処理段階は、
    前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理段階と、
    前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理段階と、
    前記多段推定処理段階における前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理段階と
    を有する、画像認識方法。
  18. コンピュータによって実行される機械学習方法であって、
    認識対象が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階と、
    前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
    を備え、
    前記照合推論処理段階は、
    前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階と、
    前記プロトタイプ算出処理段階において算出された複数の前記プロトタイプ同士の距離を算出する距離算出段階と、
    を有する、
    機械学習方法。
  19. コンピュータによって実行される機械学習方法であって、
    認識対象の被写体を含む複数の被写体が撮影されたサポート画像、及び前記サポート画像における被写体の位置を示すアノテーションデータを含むサポートデータを取得するサポートデータ取得段階と、
    前記サポートデータ取得段階において取得したサポートデータを用いて、クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
    を備え、
    前記照合推論処理段階は、
    前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータを用いて、それぞれが前記複数の被写体の特徴を表す複数のプロトタイプを算出するプロトタイプ算出処理段階と、
    前記複数のプロトタイプを用いて、前記複数の被写体毎の前記クエリ画像における位置を推定する多段推定処理段階と、
    前記多段推定処理段階における前記複数の被写体毎の推定結果を統合して、前記クエリ画像に含まれる認識対象の位置を推定する位置推定処理段階と
    を有する、機械学習方法。
JP2022032769A 2022-03-03 2022-03-03 画像認識装置、プログラム、画像認識方法、及び機械学習方法 Active JP7313501B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022032769A JP7313501B1 (ja) 2022-03-03 2022-03-03 画像認識装置、プログラム、画像認識方法、及び機械学習方法
JP2023066653A JP7502518B2 (ja) 2022-03-03 2023-04-14 画像認識装置、プログラム、画像認識方法、及び機械学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022032769A JP7313501B1 (ja) 2022-03-03 2022-03-03 画像認識装置、プログラム、画像認識方法、及び機械学習方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023066653A Division JP7502518B2 (ja) 2022-03-03 2023-04-14 画像認識装置、プログラム、画像認識方法、及び機械学習方法

Publications (2)

Publication Number Publication Date
JP7313501B1 JP7313501B1 (ja) 2023-07-24
JP2023128430A true JP2023128430A (ja) 2023-09-14

Family

ID=87428159

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022032769A Active JP7313501B1 (ja) 2022-03-03 2022-03-03 画像認識装置、プログラム、画像認識方法、及び機械学習方法
JP2023066653A Active JP7502518B2 (ja) 2022-03-03 2023-04-14 画像認識装置、プログラム、画像認識方法、及び機械学習方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023066653A Active JP7502518B2 (ja) 2022-03-03 2023-04-14 画像認識装置、プログラム、画像認識方法、及び機械学習方法

Country Status (1)

Country Link
JP (2) JP7313501B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7447221B1 (ja) 2022-11-10 2024-03-11 ソフトバンク株式会社 画像認識装置、プログラム、及び画像認識方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062505A (ja) * 2002-07-29 2004-02-26 Fuji Xerox Co Ltd 画像処理装置
JP2021089730A (ja) * 2019-12-03 2021-06-10 アイデミア・アイデンティティ・アンド・セキュリティー・フランス 畳み込みニューラルネットワークによって、入力画像内で可視である少なくとも1つの対象要素を検出する方法
JP2021111299A (ja) * 2020-01-16 2021-08-02 沖電気工業株式会社 学習装置、学習方法、学習プログラム、識別装置、識別方法および識別プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673607A (zh) 2021-08-24 2021-11-19 支付宝(杭州)信息技术有限公司 图像标注模型的训练及图像标注的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062505A (ja) * 2002-07-29 2004-02-26 Fuji Xerox Co Ltd 画像処理装置
JP2021089730A (ja) * 2019-12-03 2021-06-10 アイデミア・アイデンティティ・アンド・セキュリティー・フランス 畳み込みニューラルネットワークによって、入力画像内で可視である少なくとも1つの対象要素を検出する方法
JP2021111299A (ja) * 2020-01-16 2021-08-02 沖電気工業株式会社 学習装置、学習方法、学習プログラム、識別装置、識別方法および識別プログラム

Also Published As

Publication number Publication date
JP7313501B1 (ja) 2023-07-24
JP2023129401A (ja) 2023-09-14
JP7502518B2 (ja) 2024-06-18

Similar Documents

Publication Publication Date Title
US11610384B2 (en) Zero-shot object detection
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
US11941845B2 (en) Apparatus and method for estimating camera pose
US9384385B2 (en) Face recognition using gradient based feature analysis
US9910847B2 (en) Language identification
JP5565190B2 (ja) 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置
CN111079785A (zh) 一种图像识别方法、装置及终端设备
WO2016015621A1 (zh) 人脸图片人名识别方法和系统
US20220180369A1 (en) Fraud detection device, fraud detection method, and fraud detection program
JP7502518B2 (ja) 画像認識装置、プログラム、画像認識方法、及び機械学習方法
JP2018045302A (ja) 情報処理装置、情報処理方法及びプログラム
KR20190018274A (ko) 이미지에 포함된 특징 포인트의 시간 또는 공간의 움직임에 기초하여 이미지에 존재하는 피사체를 인식하는 장치 및 방법
CN112101483B (zh) 图像聚类方法、装置电子设备、计算机可读存储介质
JP7447221B1 (ja) 画像認識装置、プログラム、及び画像認識方法
CN116844006A (zh) 一种目标识别方法、装置、电子设备及可读存储介质
WO2016149937A1 (en) Neural network classification through decomposition
KR102399673B1 (ko) 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치
JP2017084006A (ja) 画像処理装置およびその方法
CN113177479B (zh) 图像分类方法、装置、电子设备及存储介质
JP6341843B2 (ja) 画像検索装置、及び画像検索システム
CN114299509A (zh) 一种获取信息的方法、装置、设备及介质
JP7382479B1 (ja) 画像処理装置、プログラム、及び画像処理方法
CN107735800B (zh) 一种图像处理方法以及相关装置
US20230035922A1 (en) Identification method, storage medium, and identification device
US20220318359A1 (en) Method and apparatus for deep learning-based real-time on-device authentication

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230711

R150 Certificate of patent or registration of utility model

Ref document number: 7313501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150