JP7447221B1 - 画像認識装置、プログラム、及び画像認識方法 - Google Patents

画像認識装置、プログラム、及び画像認識方法 Download PDF

Info

Publication number
JP7447221B1
JP7447221B1 JP2022180500A JP2022180500A JP7447221B1 JP 7447221 B1 JP7447221 B1 JP 7447221B1 JP 2022180500 A JP2022180500 A JP 2022180500A JP 2022180500 A JP2022180500 A JP 2022180500A JP 7447221 B1 JP7447221 B1 JP 7447221B1
Authority
JP
Japan
Prior art keywords
image
support
images
candidate images
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022180500A
Other languages
English (en)
Other versions
JP2024070105A (ja
Inventor
淳郎 岡澤
和夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2022180500A priority Critical patent/JP7447221B1/ja
Priority to JP2024023167A priority patent/JP7564392B2/ja
Application granted granted Critical
Publication of JP7447221B1 publication Critical patent/JP7447221B1/ja
Publication of JP2024070105A publication Critical patent/JP2024070105A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】画像認識装置、プログラム及び画像認識方法を提供する。【解決手段】画像認識装置100は、クエリ画像を取得するクエリ画像取得部と、認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択部と、前記サポート画像選択部によって選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と、を備える。【選択図】図1

Description

本発明は、画像認識装置、プログラム、及び画像認識方法に関する。
特許文献1には、Few-shot learningを用いて画像をセグメンテーションするFSS(Few-shot segmentation)について記載されている。
[先行技術文献]
[非特許文献]
[非特許文献1]Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao: Mining Latent Classes for Few-shot Segmentation (2021), The IEEE International Conference on ComputerVision(ICCV)
本発明の一実施態様によれば、画像認識装置が提供される。前記画像認識装置は、クエリ画像を取得するクエリ画像取得部を備えてよい。前記画像認識装置は、認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択部を備えてよい。前記画像認識装置は、前記サポート画像選択部によって選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理部を備えてよい。
前記画像認識装置において、前記照合推論処理部は、前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータに基づいて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部を有してよい。前記照合推論処理部は、前記クエリ画像の前記複数の領域のそれぞれについて、前記プロトタイプ算出処理部によって算出された前記プロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部を有してよい。前記サポート画像選択部は、前記複数の候補画像から複数の前記サポート画像を選択してよく、前記照合推論処理部は、前記サポート画像選択部によって選択された前記複数のサポート画像と、当該複数のサポート画像のそれぞれの前記アノテーションデータとを含む前記サポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定してよい。前記サポート画像選択部は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、前記複数のサポート画像を選択してよい。前記サポート画像選択部は、前記複数の候補画像及び前記クエリ画像のそれぞれを統計情報に変換する画像変換処理部と、前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報との比較演算を実行することによって前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定する比較計算部とを有してよい。前記画像変換処理部は、前記複数の候補画像及び前記クエリ画像のそれぞれに対して、HSV変換、ヒストグラム算出、フィルタ処理、及び特徴点抽出の少なくともいずれかを施すことによって、前記統計情報に変換してよい。前記比較計算部は、前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報とに対して、SSIM(Structual SIMilarity)、PSNR(Peak Signal to Noise Ratio)、及びデータ間距離計算の少なくともいずれかを実行することによって、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定してよい。
前記いずれかの画像認識装置において、前記サポート画像選択部は、前記複数の候補画像から、前記類似度が高い順に予め定められた数の候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択してよい。
前記いずれかの画像認識装置は、認識対象が撮影された複数の画像を含むデータセットから、前記複数の候補画像を抽出する候補抽出部を更に備えてよく、前記サポート画像選択部は、前記候補抽出部によって抽出された前記複数の画像のそれぞれと前記クエリ画像とを比較してよい。前記候補抽出部は、前記データセットから、予め定められた数の前記候補画像をランダムに抽出してよい。前記サポート画像選択部は、前記複数の候補画像のうち前記類似度が予め定められた類似度閾値より高い複数の前記候補画像の数が予め定められた数よりも多い場合、当該複数の候補画像から前記予め定められた数の前記候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択してよい。前記複数の候補画像のうち前記類似度が前記類似度閾値より高い前記候補画像の数が前記予め定められた数よりも少ない場合、前記サポート画像選択部は、前記類似度が前記類似度閾値より高い候補画像を前記複数のサポート画像の一部として選択し、前記候補抽出部は、前記データセットから抽出した前記複数の候補画像以外の複数の候補画像を前記データセットから改めて抽出し、前記サポート画像選択部は、前記候補抽出部が改めて抽出した前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、前記類似度が前記類似度閾値より高い候補画像を、前記複数のサポート画像の他の一部として選択してよい。
本発明の一実施形態によれば、コンピュータを、前記画像認識装置として機能させるためのプログラムが提供される。
本発明の一実施形態によれば、コンピュータによって実行される画像認識方法が提供される。前記画像認識方法は、クエリ画像を取得するクエリ画像取得段階を備えてよい。前記画像認識方法は、認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択段階を備えてよい。前記画像認識方法は、前記サポート画像選択段階において選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階を備えてよい。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
画像認識装置100の機能構成の一例を概略的に示す。 画像認識装置100による処理の流れの一例を概略的に示す。 画像認識装置100による処理内容の一例について説明するための説明図である。 画像認識装置100による処理内容の一例について説明するための説明図である。 画像認識装置100による処理内容の一例について説明するための説明図である。 画像認識装置100として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。
従来のFSSでは、選ばれたサポート画像によって、クエリ画像から被写体が検出できたり、できなかったりする。これは、クエリ画像とサポート画像との間の画像の変化度合(色見、画角等)に依存すると考えられる。使用するサポート画像の数を増やすことによってこの問題は軽減するが、メモリ/処理負荷が増大してしまう。本実施形態に画像認識装置100では、クエリ画像の照合推論処理に有効な、クエリ画像に近しいサポート画像を適応的に選択することによって、このような問題の軽減を実現する。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、画像認識装置100の機能構成の一例を概略的に示す。画像認識装置100は、データ記憶部110、クエリ画像取得部112、候補抽出部114、サポート画像選択部120、及び照合推論処理部130を備える。なお、画像認識装置100がこれらの全てを備えることは必須とは限らない。
データ記憶部110は、被写体が撮影された複数の画像を含むデータセットを記憶する。データセットは、複数の画像と、複数の画像のそれぞれのアノテーションデータとを含んでよい。
アノテーションデータは、画像における被写体の位置を示すデータであってよい。例えば、被写体として飛行機が撮影された画像に対応するアノテーションデータは、当該画像における飛行機の位置を示す。アノテーションデータは、被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、画像における飛行機の位置に対応付けて「飛行機」を示すデータを含む。
データ記憶部110は、少なくとも1つの種類の被写体のデータセットを記憶する。データ記憶部110は、複数の種類の被写体のそれぞれのデータセットを記憶してもよい。
データ記憶部110は、画像認識装置100の外部に位置してもよい。例えば、データ記憶部110は、他の装置内に配置され、画像認識装置100は、ネットワークを介してデータ記憶部110にアクセスする。
クエリ画像取得部112は、クエリ画像を取得する。クエリ画像は、認識対象の位置を推定する対象となる画像である。クエリ画像取得部112は、画像認識装置100に対して入力されたクエリ画像を取得してよい。
候補抽出部114は、データ記憶部110に記憶されているデータセットから、サポート画像として用いる候補画像を抽出する。例えば、認識対象が飛行機である場合、候補抽出部114は、データ記憶部110に記憶されている飛行機のデータセットから、複数の候補画像を抽出する。
候補抽出部114は、例えば、データセットからランダムに複数の候補画像を抽出する。候補抽出部114は、データセットから、予め定められた数の候補画像をランダムに抽出してよい。候補抽出部114は、使用するサポート画像の数に対して予め定められた値を乗じた数の候補画像を、データセットからランダムに抽出してよい。
サポート画像選択部120は、複数の候補画像の一部をサポート画像として選択する。サポート画像選択部120は、例えば、データ記憶部110に記憶されている、認識対象のデータセットに含まれる全ての画像を、複数の候補画像とし、当該複数の候補画像の一部をサポート画像として選択する。サポート画像選択部120は、複数の候補画像のそれぞれと、クエリ画像取得部112が取得したクエリ画像とを比較することによって、複数の候補画像の一部をサポート画像として選択する。サポート画像選択部120は、複数の候補画像のそれぞれとクエリ画像との類似度を判定し、判定した類似度に基づいて、複数のサポート画像を選択してよい。サポート画像選択部120は、例えば、複数の候補画像から、類似度が高い順に予め定められた数の候補画像を特定し、特定した複数の候補画像を複数のサポート画像として選択する。認識対象のデータセットに含まれる全ての画像を候補画像とすることによって、クエリ画像における認識対象の位置を推定するうえで最も適している画像をサポート画像とすることができ、推定精度を向上させることができる。サポート画像選択部120は、複数の候補画像の全てについて、クエリ画像との類似度が予め定められた類似度閾値より低い場合、低類似と判定し、判定結果を出力してもよい。
サポート画像選択部120は、候補抽出部114によって抽出された複数の候補画像の一部をサポート画像として選択してもよい。データセットに多数の画像が含まれている場合、データセット内の多数の画像のそれぞれとクエリ画像との類似度を判定する処理負荷が非常に高まってしまうおそれがある。それに対して、データセットから抽出した一部の画像を候補画像とすることによって、処理負荷を抑えることができる。
サポート画像選択部120は、候補抽出部114によって抽出された複数の画像のそれぞれとクエリ画像との類似度を判定し、判定した類似度に基づいて、複数のサポート画像を選択してよい。例えば、サポート画像選択部120は、複数の候補画像のうち、クエリ画像との類似度が予め定められた類似度閾値より高い候補画像の数が、予め定められた数よりも多い場合、当該複数の候補画像から、当該予め定められた数の候補画像を特定し、特定した複数の候補画像を複数のサポート画像として選択する。サポート画像選択部120は、当該複数の候補画像から、クエリ画像との類似度が高い順に予め定められた数の候補画像を特定してよい。
複数の候補画像のうち、クエリ画像との類似度が予め定められた類似度閾値より高い候補画像の数が、予め定められた数よりも少ない場合、まず、サポート画像選択部120は、クエリ画像との類似度が類似度閾値より高い候補画像を、複数のサポート画像の一部として選択する。そして、候補抽出部114が、データセットから抽出した複数の候補画像以外の新たな複数の候補画像をデータセットから改めて抽出し、サポート画像選択部120が、候補抽出部114が改めて抽出した複数の候補画像のそれぞれとクエリ画像との類似度を判定して、クエリ画像との類似度が類似度閾値より高い候補画像を、複数のサポート画像の他の一部として選択する。候補抽出部114及びサポート画像選択部120は、クエリ画像との類似度が類似度閾値より高い候補画像が予め定められた数になるまで、これらの処理を繰り返す。
サポート画像選択部120は、画像変換処理部122及び比較計算部124を備えてよい。画像変換処理部122は、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。
画像変換処理部122は、例えば、複数の候補画像及びクエリ画像のそれぞれに対してHSV(Hue、Saturation、Value)変換を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。画像変換処理部122は、例えば、複数の候補画像及びクエリ画像のそれぞれに対してヒストグラム算出を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。画像変換処理部122は、例えば、複数の候補画像及びクエリ画像のそれぞれに対してフィルタ処理を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。フィルタ処理の例として、エッジ検出フィルタが挙げられるが、これに限らず、画像の特徴をわかりやすくできるフィルタであれば、任意のフィルタを用いてよい。画像変換処理部122は、例えば、複数の候補画像及びクエリ画像のそれぞれに対して特徴点抽出を施すことによって、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換する。画像変換処理部122は、これら以外の手法を用いて、複数の候補画像及びクエリ画像のそれぞれを統計情報に変換してもよい。
比較計算部124は、画像変換処理部122によって変換された、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報との比較演算を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。比較計算部124は、例えば、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報とに対して、SSIM(Structual SIMilarity)を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。比較計算部124は、例えば、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報とに対して、PSNR(Peak Signal to Noise Ratio)を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。比較計算部124は、例えば、複数の候補画像のそれぞれの統計情報と、クエリ画像の統計情報とに対して、データ間距離計算を実行することによって、複数の候補画像のそれぞれとクエリ画像との類似度を判定する。データ間距離の例として、コサイン類似度及びユークリッド距離が挙げられるが、これらに限られない。比較計算部124は、これら以外の手法を用いて、複数の候補画像のそれぞれとクエリ画像との類似度を判定してもよい。
サポート画像選択部120は、選択したサポート画像と、当該サポート画像のアノテーションデータとを含むサポートデータを照合推論処理部130に送信する。
照合推論処理部130は、サポート画像選択部120から受信したサポートデータを用いて、クエリ画像取得部112が取得したクエリ画像に含まれる認識対象の位置を推定する。照合推論処理部130は、特徴抽出処理部132、プロトタイプ算出処理部134、及びプロトタイプ照合処理部136を有してよい。
特徴抽出処理部132は、サポートデータに含まれる複数のサポート画像のそれぞれの特徴量を抽出する。特徴抽出処理部132は、サポート画像の複数の領域毎の特徴量を示すサポートフィーチャを生成してよい。
特徴抽出処理部132は、クエリ画像取得部112が取得したクエリ画像の特徴量を抽出する。特徴抽出処理部132は、クエリ画像の複数の領域毎の特徴量を示すクエリフィーチャを生成してよい。
プロトタイプ算出処理部134は、サポートデータに含まれるサポート画像及びアノテーションデータに基づいて、サポート画像の被写体の特徴を表すプロトタイプを算出する。 プロトタイプ算出処理部134は、特徴抽出処理部132によって生成されたサポートフィーチャと、アノテーションデータに基づいて、プロトタイプを算出してよい。
プロトタイプ算出処理部134は、認識対象の被写体のプロトタイプを算出する。例えば、プロトタイプ算出処理部134は、アノテーションデータを用いて、サポートフィーチャから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部134は、複数のサポートフィーチャのそれぞれから、認識対象の被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部134は、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、認識対象の被写体のプロトタイプとして算出してよい。このように、プロトタイプは、特徴空間における特徴ベクトルであってよい。
プロトタイプ照合処理部136は、クエリ画像の複数の領域のそれぞれについて、プロトタイプ算出処理部134によって算出されたプロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、クエリ画像に含まれる認識対象の位置を推定する。プロトタイプ照合処理部136は、例えば、クエリフィーチャを用いて、クエリ画像の複数の領域のそれぞれについて、領域の特徴量と認識対象のプロトタイプとの類似度を算出する。プロトタイプ照合処理部136は、例えば、領域の特徴量と認識対象のプロトタイプとのコサイン類似度を算出する。そして、プロトタイプ照合処理部136は、クエリ画像の複数の領域のうち、算出した類似度が閾値より高い領域を、認識対象が位置する領域と推定する。これにより、クエリ画像に含まれる認識対象の位置を推定できる。
なお、本実施形態に係るアノテーションデータは、サポート画像における認識対象である被写体以外の被写体の位置を更に示してもよい。例えば、サポート画像に、飛行機に加えて滑走路及び管制塔が含まれている場合に、アノテーションデータは、滑走路及び管制塔の位置を示してよい。この場合、アノテーションデータは、認識対象である被写体以外の被写体の位置に対応付けて、当該被写体を識別可能なデータを含んでよい。例えば、アノテーションデータは、サポート画像における飛行機の位置に対応付けて「飛行機」を示すデータを含み、サポート画像における滑走路の位置に対応付けて「滑走路」を示すデータを含み、管制塔の位置に対応付けて「管制塔」を示すデータを含む。
本実施形態に係るプロトタイプ算出処理部134は、さらに、認識対象の被写体以外の被写体のプロトタイプを算出してよい。プロトタイプ算出処理部134は、認識対象の被写体以外の1又は複数の被写体のそれぞれについて、アノテーションデータを用いて、サポートフィーチャから、被写体の位置に対応する複数の領域の特徴量を抽出する。プロトタイプ算出処理部134は、認識対象の被写体以外の1又は複数の被写体のそれぞれについて、複数のサポートフィーチャのそれぞれから、被写体の位置に対応する複数の領域の特徴量を抽出してよい。プロトタイプ算出処理部134は、認識対象の被写体以外の1又は複数の被写体のそれぞれについて、抽出した複数の特徴量を特徴空間に配置して、複数の特徴量の重心を、被写体のプロトタイプとして算出してよい。
プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離を算出してよい。例えば、プロトタイプ算出処理部134は、複数のプロトタイプ同士のユークリッド距離を算出する。プロトタイプ算出処理部134は、複数のプロトタイプ同士のユークリッド距離を総当たりで算出してよい。例えば、プロトタイプ算出処理部134は、複数のプロトタイプ同士のコサイン類似度を算出する。プロトタイプ算出処理部134は、複数のプロトタイプ同士のコサイン類似度を総当たりで算出してよい。
プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離に基づいて、プロトタイプを変換してよい。プロトタイプ算出処理部134は、認識対象のプロトタイプを変換してよい。
プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離に対して統計計算を行うことによって、プロトタイプを正規化してよい。例えば、プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離の標準偏差及び平均を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。プロトタイプ算出処理部134は、複数のプロトタイプについて、平均0、標準偏差1の正規分布となるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。
例えば、プロトタイプ算出処理部134は、複数のプロトタイプ同士の距離の最大値及び最小値を算出して、算出結果に基づいて、複数のプロトタイプを正規化する。プロトタイプ算出処理部134は、複数のプロトタイプについて、0.0-1.0のレンジとなるように変換してよい。これにより、複数のプロトタイプ同士の距離が遠くなるように変換することができる。
例えば、プロトタイプ算出処理部134は、事前に機械学習によって決定したパラメータを用いて、複数のプロトタイプを正規化する。例えば、プロトタイプ算出処理部134は、機械学習によって決定したa、bを用いた変換式aX+bを用いて、複数のプロトタイプを変換する。複数のプロトタイプ間の距離が遠くなるように変換可能であれば、任意の機械学習手法を用いてよい。
プロトタイプ算出処理部134は、同様に、クエリフィーチャを変換してもよい。
プロトタイプ照合処理部136は、複数のプロトタイプ同士の距離を用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。プロトタイプ照合処理部136は、変換したプロトタイプを用いて、クエリ画像に含まれる認識対象の位置を推定してよい。プロトタイプ照合処理部136は、変換したプロトタイプと、変換したクエリフィーチャとを用いて、クエリ画像に含まれる認識対象の位置を推定してもよい。
図2は、画像認識装置100による処理の流れの一例を概略的に示す。ここでは、認識対象が飛行機であり、照合推論処理に用いるサポート画像の数が4つであるものとし、画像認識装置100が、クエリ画像に含まれる飛行機の位置を推定するために、4つのサポート画像を選択するまでの処理の流れを示す。
ステップ(ステップをSと省略して記載する場合がある。)102では、クエリ画像取得部112が、クエリ画像を取得する。S104では、候補抽出部114が、データ記憶部110に記憶されている飛行機のデータセットから、必要とするサポート画像の数である4に対して、予め登録された数値である3を乗じた12個の候補画像をランダムに抽出する。なお、本例では予め登録された数値が3である場合について説明するが、当該数値は3に限らず、任意に登録されてよく、変更可能であってよい。
S106では、画像変換処理部122が、S102においてクエリ画像取得部112が取得したクエリ画像と、S104において候補抽出部114が抽出した12個の候補画像のそれぞれとを統計情報に変換する。S108では、比較計算部124が、12個の候補画像の統計情報のそれぞれと、クエリ画像の統計情報との比較演算を実行することによって、12個の候補画像のそれぞれとクエリ画像との類似度を判定する。
クエリ画像との類似度が予め定められた類似度閾値以上の候補画像の数が、必要数である4よりも少ない場合(S110でYES)、S112に進み、4以上である場合(S110でNO)、S122に進む。
S112では、サポート画像選択部120が、類似度閾値以上の候補画像を保持する。例えば、類似度閾値以上の候補画像が2つである場合、サポート画像選択部120は、当該2つの候補画像を保持する。S114では、候補抽出部114が、飛行機のデータセットから12個の候補画像を改めて抽出する。候補抽出部114は、S104において抽出した12個の候補画像以外の、12個の候補画像をデータセットから抽出する。
S116では、画像変換処理部122が、S114において候補抽出部114が改めて抽出した12個の候補画像のそれぞれとを統計情報に変換する。S118では、比較計算部124が、S116において変換された12個の候補画像の統計情報のそれぞれと、S106において変換されたクエリ画像の統計情報との比較演算を実行することによって、12個の候補画像のそれぞれとクエリ画像との類似度を判定する。
クエリ画像との類似度が類似度閾値以上の候補画像の数と、サポート画像選択部120が保持している候補画像との合計が、必要数である4よりも少ない場合(S120でYES)、S112に戻り、4以上である場合(S120でNO)、S122に進む。クエリ画像との類似度が類似度閾値以上の候補画像の数が4以上になるまで、S112からS120が繰り返される。
S122では、サポート画像選択部120が、4つ以上の候補画像から、4つのサポート画像を選択する。候補画像の数が4つである場合、サポート画像選択部120は、当該4つの候補画像をサポート画像として選択する。候補画像の数が5つ以上である場合、サポート画像選択部120は、5つ以上の候補画像から選択した4つの候補画像を、4つのサポート画像とする。サポート画像選択部120は、例えば、5つ以上の候補画像から、クエリ画像との類似度が高い順に4つの候補画像を特定し、特定した4つの候補画像を4つのサポート画像とする。
図3、図4及び図5は、画像認識装置100による処理内容の一例について説明するための説明図である。ここでは、4-Shot、すなわち、サポートデータ20に4組のサポート画像22及びアノテーションデータ24が含まれており、認識対象が飛行機である場合を例示している。
4つのサポート画像22のそれぞれは、飛行機を含む。4つのアノテーションデータ24のそれぞれは、対応するサポート画像22における飛行機の位置を示す。
特徴抽出処理部132は、4つのサポート画像22のそれぞれについて、サポート画像22の複数の領域201毎の特徴量を示すサポートフィーチャ200を生成する。領域201のサイズは、任意のサイズであってよく、設定によって変更可能であってよい。
プロトタイプ算出処理部134は、アノテーションデータ24及びサポートフィーチャ200を用いて、飛行機のプロトタイプを生成する。本例において、プロトタイプ算出処理部134は、1つ目のサポートフィーチャ200のうちの、複数の飛行機領域202の特徴量を抽出する。同様に、プロトタイプ算出処理部134は、他の3つのサポートフィーチャ200のうちの、複数の飛行機領域202の特徴量を抽出する。プロトタイプ算出処理部134は、抽出した複数の特徴量を特徴空間212に配置して、複数の特徴量の重心を、飛行機プロトタイプ222として算出する。
特徴抽出処理部132は、図5に例示するように、クエリ画像30の複数の領域301毎の特徴量を示すクエリフィーチャ300を生成する。プロトタイプ照合処理部136は、複数の領域301のそれぞれについて、飛行機プロトタイプ222との類似度を算出することによって、類似度マップ310を生成する。そして、プロトタイプ照合処理部136は、クエリ画像30の複数の領域のうち、算出した類似度が閾値より高い領域を、飛行機が位置する領域と推定する。
図6は、画像認識装置100として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。コンピュータ1200にインストールされたプログラムは、コンピュータ1200を、本実施形態に係る装置の1又は複数の「部」として機能させ、又はコンピュータ1200に、本実施形態に係る装置に関連付けられるオペレーション又は当該1又は複数の「部」を実行させることができ、及び/又はコンピュータ1200に、本実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ1200に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、CPU1212によって実行されてよい。
本実施形態によるコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、それらはホストコントローラ1210によって相互に接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ1226、及びICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブ1226は、DVD-ROMドライブ及びDVD-RAMドライブ等であってよい。記憶装置1224は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ1200はまた、ROM1230及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ1240を介して入出力コントローラ1220に接続されている。
CPU1212は、ROM1230及びRAM1214内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214内に提供されるフレームバッファ等又はそれ自体の中に、CPU1212によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス1218上に表示されるようにする。
通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200内のCPU1212によって使用されるプログラム及びデータを格納する。DVDドライブ1226は、プログラム又はデータをDVD-ROM1227等から読み取り、記憶装置1224に提供する。ICカードドライブは、プログラム及びデータをICカードから読み取り、及び/又はプログラム及びデータをICカードに書き込む。
ROM1230はその中に、アクティブ化時にコンピュータ1200によって実行されるブートプログラム等、及び/又はコンピュータ1200のハードウェアに依存するプログラムを格納する。入出力チップ1240はまた、様々な入出力ユニットをUSBポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ1220に接続してよい。
プログラムは、DVD-ROM1227又はICカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ1200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ1200の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。
例えば、通信がコンピュータ1200及び外部デバイス間で実行される場合、CPU1212は、RAM1214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース1222に対し、通信処理を命令してよい。通信インタフェース1222は、CPU1212の制御の下、RAM1214、記憶装置1224、DVD-ROM1227、又はICカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。
また、CPU1212は、記憶装置1224、DVDドライブ1226(DVD-ROM1227)、ICカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。CPU1212は次に、処理されたデータを外部記録媒体にライトバックしてよい。
様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU1212は、RAM1214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM1214に対しライトバックする。また、CPU1212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU1212は、当該複数のエントリの中から、第1の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。
上で説明したプログラム又はソフトウエアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ1200に提供する。
本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び/又はアナログハードウェア回路を含んでよく、集積回路(IC)及び/又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ(FPGA)、及びプログラマブルロジックアレイ(PLA)等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。
コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク、メモリスティック、集積回路カード等が含まれてよい。
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk(登録商標)、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
20 サポートデータ、22 サポート画像、24 アノテーションデータ、30 クエリ画像、100 画像認識装置、110 データ記憶部、112 クエリ画像取得部、114 候補抽出部、120 サポート画像選択部、122 画像変換処理部、124 比較計算部、130 照合推論処理部、132 特徴抽出処理部、134 プロトタイプ算出処理部、136 プロトタイプ照合処理部、200 サポートフィーチャ、201 領域、202 飛行機領域、212 特徴空間、222 飛行機プロトタイプ、300 クエリフィーチャ、301 領域、310 類似度マップ、1200 コンピュータ、1210 ホストコントローラ、1212 CPU、1214 RAM、1216 グラフィックコントローラ、1218 ディスプレイデバイス、1220 入出力コントローラ、1222 通信インタフェース、1224 記憶装置、1226 DVDドライブ、1227 DVD-ROM、1230 ROM、1240 入出力チップ

Claims (11)

  1. クエリ画像を取得するクエリ画像取得部と、
    認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択部と、
    前記サポート画像選択部によって選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理部と
    を備え、
    前記照合推論処理部は、
    前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータに基づいて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理部と、
    前記クエリ画像の複数の領域のそれぞれについて、前記プロトタイプ算出処理部によって算出された前記プロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理部と
    を有し、
    前記サポート画像選択部は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、前記複数の候補画像から複数の前記サポート画像を選択し、
    前記照合推論処理部は、前記サポート画像選択部によって選択された前記複数のサポート画像と、当該複数のサポート画像のそれぞれの前記アノテーションデータとを含む前記サポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する、
    画像認識装置。
  2. 前記サポート画像選択部は、
    前記複数の候補画像及び前記クエリ画像のそれぞれを統計情報に変換する画像変換処理部と、
    前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報との比較演算を実行することによって前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定する比較計算部と
    を有する、請求項に記載の画像認識装置。
  3. 前記画像変換処理部は、前記複数の候補画像及び前記クエリ画像のそれぞれに対して、HSV変換、ヒストグラム算出、フィルタ処理、及び特徴点抽出の少なくともいずれかを施すことによって、前記統計情報に変換する、請求項に記載の画像認識装置。
  4. 前記比較計算部は、前記複数の候補画像のそれぞれの前記統計情報と、前記クエリ画像の前記統計情報とに対して、SSIM(Structual SIMilarity)、PSNR(Peak Signal to Noise Ratio)、及びデータ間距離計算の少なくともいずれかを実行することによって、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定する、請求項に記載の画像認識装置。
  5. 前記サポート画像選択部は、前記複数の候補画像から、前記類似度が高い順に予め定められた数の候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択する、請求項に記載の画像認識装置。
  6. 認識対象が撮影された複数の画像を含むデータセットから、前記複数の候補画像を抽出する候補抽出部
    を更に備え、
    前記サポート画像選択部は、前記候補抽出部によって抽出された前記複数の画像のそれぞれと前記クエリ画像とを比較する、請求項に記載の画像認識装置。
  7. 前記候補抽出部は、前記データセットから、予め定められた数の前記候補画像をランダムに抽出する、請求項に記載の画像認識装置。
  8. 前記サポート画像選択部は、前記複数の候補画像のうち前記類似度が予め定められた類似度閾値より高い複数の前記候補画像の数が予め定められた数よりも多い場合、当該複数の候補画像から前記予め定められた数の前記候補画像を特定し、特定した複数の前記候補画像を前記複数のサポート画像として選択する、請求項に記載の画像認識装置。
  9. 前記複数の候補画像のうち前記類似度が前記類似度閾値より高い前記候補画像の数が前記予め定められた数よりも少ない場合、前記サポート画像選択部は、前記類似度が前記類似度閾値より高い候補画像を前記複数のサポート画像の一部として選択し、前記候補抽出部は、前記データセットから抽出した前記複数の候補画像以外の複数の候補画像を前記データセットから改めて抽出し、前記サポート画像選択部は、前記候補抽出部が改めて抽出した前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、前記類似度が前記類似度閾値より高い候補画像を、前記複数のサポート画像の他の一部として選択する、請求項に記載の画像認識装置。
  10. コンピュータを、請求項1からのいずれか一項に記載の画像認識装置として機能させるためのプログラム。
  11. コンピュータによって実行される画像認識方法であって、
    クエリ画像を取得するクエリ画像取得段階と、
    認識対象が撮影された複数の候補画像のそれぞれと前記クエリ画像とを比較することによって、前記複数の候補画像の一部をサポート画像として選択するサポート画像選択段階と、
    前記サポート画像選択段階において選択された前記サポート画像と、前記サポート画像における被写体の位置を示すアノテーションデータとを含むサポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する照合推論処理段階と
    を備え、
    前記照合推論処理段階は、
    前記サポートデータに含まれる前記サポート画像及び前記アノテーションデータに基づいて、前記被写体の特徴を表すプロトタイプを算出するプロトタイプ算出処理段階と、
    前記クエリ画像の複数の領域のそれぞれについて、前記プロトタイプ算出処理段階において算出された前記プロトタイプとの類似度に基づいて、当該領域が認識対象であるか否かを判定することによって、前記クエリ画像に含まれる認識対象の位置を推定するプロトタイプ照合処理段階と
    を有し、
    前記サポート画像選択段階は、前記複数の候補画像のそれぞれと前記クエリ画像との類似度を判定し、判定した前記類似度に基づいて、前記複数の候補画像から複数の前記サポート画像を選択し、
    前記照合推論処理段階は、前記サポート画像選択段階において選択された前記複数のサポート画像と、当該複数のサポート画像のそれぞれの前記アノテーションデータとを含む前記サポートデータを用いて、前記クエリ画像に含まれる認識対象の位置を推定する、
    画像認識方法。
JP2022180500A 2022-11-10 2022-11-10 画像認識装置、プログラム、及び画像認識方法 Active JP7447221B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022180500A JP7447221B1 (ja) 2022-11-10 2022-11-10 画像認識装置、プログラム、及び画像認識方法
JP2024023167A JP7564392B2 (ja) 2022-11-10 2024-02-19 画像認識装置、プログラム、及び画像認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022180500A JP7447221B1 (ja) 2022-11-10 2022-11-10 画像認識装置、プログラム、及び画像認識方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2024023167A Division JP7564392B2 (ja) 2022-11-10 2024-02-19 画像認識装置、プログラム、及び画像認識方法

Publications (2)

Publication Number Publication Date
JP7447221B1 true JP7447221B1 (ja) 2024-03-11
JP2024070105A JP2024070105A (ja) 2024-05-22

Family

ID=90183482

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022180500A Active JP7447221B1 (ja) 2022-11-10 2022-11-10 画像認識装置、プログラム、及び画像認識方法
JP2024023167A Active JP7564392B2 (ja) 2022-11-10 2024-02-19 画像認識装置、プログラム、及び画像認識方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2024023167A Active JP7564392B2 (ja) 2022-11-10 2024-02-19 画像認識装置、プログラム、及び画像認識方法

Country Status (1)

Country Link
JP (2) JP7447221B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7564392B2 (ja) 2022-11-10 2024-10-08 ソフトバンク株式会社 画像認識装置、プログラム、及び画像認識方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364870A (zh) 2020-10-22 2021-02-12 中国科学院大学 一种基于特征和谐激活的小样本语义分割方法
JP7313501B1 (ja) 2022-03-03 2023-07-24 ソフトバンク株式会社 画像認識装置、プログラム、画像認識方法、及び機械学習方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7447221B1 (ja) 2022-11-10 2024-03-11 ソフトバンク株式会社 画像認識装置、プログラム、及び画像認識方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364870A (zh) 2020-10-22 2021-02-12 中国科学院大学 一种基于特征和谐激活的小样本语义分割方法
JP7313501B1 (ja) 2022-03-03 2023-07-24 ソフトバンク株式会社 画像認識装置、プログラム、画像認識方法、及び機械学習方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Hongsheng Wang et al.,Few-Shot Segmentation via Rich Prototype Generation and Recurrent Prediction Enhancement,[online],2022年10月03日,[retrieved on 2024-02-05], <URL: https://arxiv.org/abs/2210.00765>
Nanqing Dong et al.,Few-Shot Semantic Segmentation with Prototype Learning,[online],2018年,[retrieved on 2023-12-14],<URL: http://bmvc2018.org/contents/papers/0255.pdf>
OKAZAWA, Atsuro,Interclass Prototype Relation for Few-Shot Segmentation,[online],2022年10月23日,[retrieved on 2023-12-14], <URL:https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136890358.pdf>
Pinzhuo Tian et al.,Differentiable Meta-learning Model for Few-shot Semantic Segmentation,[online],2019年11月23日,[retrieved on 2023-12-14],<URL: https://arxiv.org/abs/1911.10371>
Xiaolin Zhang et al.,SG-One: Similarity Guidance Network for One-Shot Semantic Segmentation,[online],2020年05月12日,[retrieved on 2023-12-14],<URL: https://arxiv.org/abs/1810.09091>
本部勇真 柳井啓司,食事画像に対するFew/Zero-shotSegmentation,[online],2021年07月21日,[retrieved on 2023-12-14],<URL: https://mm.cs.uec.ac.jp/pub/conf21/210602honbu_0.pdf>

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7564392B2 (ja) 2022-11-10 2024-10-08 ソフトバンク株式会社 画像認識装置、プログラム、及び画像認識方法

Also Published As

Publication number Publication date
JP2024070105A (ja) 2024-05-22
JP2024070271A (ja) 2024-05-22
JP7564392B2 (ja) 2024-10-08

Similar Documents

Publication Publication Date Title
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
US9384385B2 (en) Face recognition using gradient based feature analysis
JP7564392B2 (ja) 画像認識装置、プログラム、及び画像認識方法
US11301509B2 (en) Image search system, image search method, and program
WO2017133188A1 (zh) 一种特征集确定的方法及装置
WO2016170965A1 (ja) オブジェクト検出方法及び画像検索システム
CN110807473A (zh) 目标检测方法、装置及计算机存储介质
US20220180369A1 (en) Fraud detection device, fraud detection method, and fraud detection program
JP7502518B2 (ja) 画像認識装置、プログラム、画像認識方法、及び機械学習方法
KR20170055393A (ko) 사용자 인증을 위한 등록 데이터베이스의 적응적 갱신 방법 및 장치
CN113963197A (zh) 图像识别方法、装置、电子设备和可读存储介质
Korytkowski Novel visual information indexing in relational databases
JP2014010633A (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
US10509986B2 (en) Image similarity determination apparatus and image similarity determination method
KR102399673B1 (ko) 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치
Yang et al. Scene classification-oriented saliency detection via the modularized prescription
Liang et al. Sketch-based retrieval using content-aware hashing
JP2017084006A (ja) 画像処理装置およびその方法
JP2016081472A (ja) 画像処理装置、画像処理方法及びプログラム
JP6341843B2 (ja) 画像検索装置、及び画像検索システム
CN114399791A (zh) 一种行人检测方法、装置、设备和介质
JP7382479B1 (ja) 画像処理装置、プログラム、及び画像処理方法
CN107735800B (zh) 一种图像处理方法以及相关装置
WO2020065953A1 (en) Empirical risk estimation system, empirical risk estimation method, and empirical risk estimation program
Ge et al. Active contour evolved by joint probability classification on Riemannian manifold

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230208

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20231016

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240228

R150 Certificate of patent or registration of utility model

Ref document number: 7447221

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150