JP2024009653A - 情報処理装置及びその制御方法及びプログラム - Google Patents

情報処理装置及びその制御方法及びプログラム Download PDF

Info

Publication number
JP2024009653A
JP2024009653A JP2022111340A JP2022111340A JP2024009653A JP 2024009653 A JP2024009653 A JP 2024009653A JP 2022111340 A JP2022111340 A JP 2022111340A JP 2022111340 A JP2022111340 A JP 2022111340A JP 2024009653 A JP2024009653 A JP 2024009653A
Authority
JP
Japan
Prior art keywords
defocus amount
image
map
reference image
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022111340A
Other languages
English (en)
Inventor
洸輔 斎藤
Kosuke Saito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2022111340A priority Critical patent/JP2024009653A/ja
Priority to US18/347,611 priority patent/US20240013403A1/en
Publication of JP2024009653A publication Critical patent/JP2024009653A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/571Depth or shape recovery from multiple images from focus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

【課題】被写体追尾性能をこれまで以上に向上させる情報処理装置、方法及びプログラムを提供する。【解決手段】情報処理装置100は、追尾対象物体を含む参照画像、探索画像、参照画像用のデフォーカス量マップ及び探索画像用のデフォーカス量マップを取得する取得部202と、これらの特徴を抽出する抽出部207と、参照画像、探索画像、参照画像用と探索画像用のデフォーカス量マップそれぞれ特徴に関する相関演算を行う相関演算部208と、相関演算の結果を用いて探索画像における追尾対象物体の位置を含む追尾結果を算出する算出部209と、を有する。抽出部及び算出部が利用するパラメータは、追尾対象物体の位置を含む正解データを取得する正解データ取得部205、追尾結果と正解データから誤差を算出する誤差算出部210及び誤差に基づき、特徴抽出部及び追尾結果算出部のパラメータを更新するパラメータ更新部211による学習によって取得する。【選択図】図2

Description

本発明は、画像における被写体を追尾する技術に関するものである。
時系列的に供給される画像における被写体を追尾する技術は、動画像における人間の顔領域や人体領域の特定などに利用されている。被写体追尾技術は、例えば、通信会議、マン・マシン・インターフェイス、セキュリティ、任意の被写体を追跡するためのモニタ・システム、画像圧縮などの多くの分野で使用可能である。
デジタルスチルカメラやデジタルビデオカメラでは、被写体に対する焦点状態や露出状態の最適化のために、被写体追尾技術が使われている。例えば、特許文献1では、テンプレートマッチングを用いて、特定の被写体を自動で追尾する技術が開示されている。テンプレートマッチング処理では、特定の被写体を含む画像領域を切り出した部分画像をテンプレートとし、テンプレートと類似度が高い領域を算出することで、特定の被写体を追尾できる。一方、テンプレートマッチング処理では画素パターンや色ヒストグラムの類似度を利用する方法があるが、映像中に追尾対象の被写体に類似する別の物体が存在する場合、その誤った物体を追尾してしまう可能性がある。
これに対して特許文献2では、デフォーカス量を距離情報として利用し、設定された距離範囲内に該当する画像領域に絞ることで、追尾対象の被写体と類似物体とを区別している。
特開2001-60269号公報 特開2019-126091号公報
しかしながら、設定された距離範囲内に追尾対象被写体と類似物体が共に存在する場合は、その類似物体が追尾対象か否かの区別が困難となり、誤った物体を追尾してしまう可能性が依然として残る。
本発明はかかる問題に鑑み成されたものであり、被写体追尾性能をこれまで以上に向上させる技術を提供する。
この課題を解決するため、例えば本発明の情報処理装置は以下の構成を備える。すなわち、
追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第1の取得手段と、
前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第2の取得手段と、
前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出手段と、
前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算手段と、
前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出手段とを有する情報処理装置であって、
前記抽出手段および前記追尾結果算出手段が利用するパラメータは、
前記追尾対象物体の位置を含む正解データを取得する正解データ取得手段、
前記追尾結果と前記正解データから誤差を算出する誤差算出手段、
前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新手段による学習によって得ることを特徴とする。
本発明によれば、被写体追尾性能をこれまで以上に向上させることができる。
実施形態に係る情報処理装置のハードウェア構成を示す図。 実施形態に係る情報処理装置の学習ステージの機能構成図。 実施形態に係るニューラルネットワークの学習処理を示すフローチャート。 実施形態に係るニューラルネットワークの学習処理のデータの流れを示す図。 実施形態に係る参照画像と探索画像の例を示す図。 実施形態に係る参照デフォーカス量マップと探索デフォーカス量マップの例を示す図。 実施形態に係る追尾結果算出部の出力の例を示す図。 実施形態に係る情報処理装置の推論ステージの機能構成図。 実施形態に係るニューラルネットワークの推論処理を示すフローチャート。 第2の実施形態に係るデフォーカス量データ取得部の機能構成図。 第3の実施形態に係るデフォーカス量データ取得部の機能構成図。 第3の実施形態に係るデフォーカス量マップの距離変換処理を示すフローチャート。 第3の実施形態に係るデフォーカス量マップの距離変換パラメータの学習処理を示すフローチャート。
以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
[第1の実施形態]
図1は、実施形態に対応する情報処理装置100の一構成例を示すブロック図である。以下では、情報処理装置100として入力画像を処理する画像処理装置について説明するが、処理対象は画像に限らず、音声であってもよいし、その他の任意のセンサにより取得されたデータであってもよい。
入力部101は、ユーザーからの指示や、データを入力する装置で、キーボード、マウス、ポインタ装置、ボタン等を含む。データ保存部102は画像データを保存し、例えば、ハードディスク、フレキシブルディスク、CD-ROM、CD-RやDVD、メモリーカード、CFカード、スマートメディア、SDカード、メモリスティック、xDピクチャーカード、USBメモリ等で構成される。データ保存部102には画像データの他にも、プログラムやその他のデータを保存することも可能である。あるいは、後述するRAM107の一部をデータ保存部102として用いても良い。また、後述する通信部103により接続した外部機器の記憶装置を、本装置の仮想記憶装置として利用しても良い。
通信部103は、機器間通信用のインタフェース(I/F)である。なお、図1では入力部101、データ保存部102、表示部104が全て1つの装置内に含まれるように示しているが、これらの部分が公知の通信方式による通信路で接続されて構成されてもよい。表示部104は、画像処理前、画像処理後の画像を表示、あるいはGUI等の画像を表示する。表示部104は、CRTや液晶ディスプレイ等で構成され、ケーブル等で接続された外部装置のディスプレイ装置を利用してもよい。更に、公知のタッチスクリーン装置のように、表示部104と入力部101が同一装置であっても良い。その場合には、タッチスクリーンによる入力を入力部101の入力として扱う。
データ処理部105は、RAM107に保存されたデータを処理対象とするものであり、処理後のデータをデータ保存部102(またはRAM107)に出力する。データ処理された結果に基づき、CPU108が動画像(複数フレーム)についての画像処理または画像認識を行う。CPU108により処理された画像処理または画像認識の結果は、RAM107に保存される。データ処理部105は、例えば、専用ロジック回路やメモリを用いてハードウェア的に構成されてもよい。或いは、メモリに記憶されている処理プログラムをCPU等のコンピュータが実行することにより、ソフトウェア的に構成されてもよい。
CPU108は、本装置全体の動作を制御する制御部として機能する。ROM107とRAM107は、CPU108が実行する処理に必要なプログラム、データ、作業領域などをCPU108に提供する。後述する処理に必要なプログラムがデータ保存部102に格納されている場合や、ROM107に格納されている場合、CPU108は、そのプログラムを一旦RAM107にロードしてから実行する。また通信部103を経由してプログラムを受信する場合、CPU108は、データ保存部102に一旦そのプログラムを記録した後にRAM107にロードするか、通信部103からRAM107に直接に書き込んでから実行される。
図1においては、CPUが1つ(CPU108)だけである構成だが、これを複数設けるような構成にしても良い。また、CPU108は、プログラムを実行することで、データ処理部105を実現させても良い。装置のシステム構成については、上記以外にも様々な構成要素が存在するが、本発明の主眼ではないのでその説明は省略する。
次に、本実施形態におけるデータ処理部105およびCPU108で実行されるニューラルネットワークの学習ステージと、推論ステージについて説明する。
図2は、学習ステージの情報処理装置100の機能構成図を示している。情報処理装置100は、学習データ記憶部201、学習データ取得部202、追尾処理部206、誤差算出部210、パラメータ更新部211、パラメータ記憶部212を有する。学習データ取得部202は、画像データ取得部203、デフォーカス量データ取得部204、正解データ取得部205を有する。追尾処理部206は、特徴抽出部207、相関演算部208、追尾結果算出部209を有している。それぞれの機能構成部について以下に説明する。
なお、以下の説明において、学習ステージで利用する参照画像及び参照画像用のデフォーカス量マップ、更には、探索画像及び探索画像用のデフォーカス量マップは、既にデータ保持部102に格納されているものとする。
学習データ取得部202における画像データ取得部203、デフォーカス量データ取得部204、及び、正解データ取得部205の処理は次の通りである。
画像データ取得部203は、学習データ記憶部201に保存されている参照画像および探索画像を取得する。デフォーカス量データ取得部204は、学習データ記憶部201に保存されている参照画像に対応するデフォーカス量マップと探索画像に対応するデフォーカス量マップを取得する。ここでデフォーカス量は、水平方向に視差を持つ一対の画像(A像、B像)から算出される像ズレ量に、所定の変換係数を乗算することにより得られる、画像の結像面における偏差である。そして、撮像面の各画素に対してデフォーカス量が割り当てられたデフォーカス量分布の情報をデフォーカス量マップと呼んでいる。正解データ取得部205は、参照画像と探索画像のそれぞれの画像内に存在する物体の位置やサイズの正解データを取得する。以下、正解データのことをGT (Ground Truthの略称)と呼ぶこととする。
なお、本実施形態における情報処理装置は、通信部103を介して、不図示のネットワーク上のステレオ撮像システムと通信可能に接続されているものとする。そして、実施形態で説明する参照画像、探索画像は、ステレオ撮影システムから受信した左右の撮像部の一方で得た画像とする。一方、デフォーカス量マップは上記の通り、左右の撮像部から得た一対から算出したズレ量に、所定の変換係数を乗算して得た値を画素値とするデータであると理解されたい。
次に、追尾処理部206における特徴抽出部207、相関演算部208、追尾結果算出部209を説明する。
特徴抽出部207は、ニューラルネットワークを有する。そして特徴抽出部207は
画像データ取得部203によって得られた参照画像および探索画像を個別に特徴抽出用のニューラルネットワークに入力し、1枚の画像につき1つの特徴マップを抽出する。特徴抽出部207は、さらに、デフォーカス量データ取得部204によって得られた参照画像および探索画像に対応するデフォーカス量マップを個別に特徴抽出用のニューラルネットワークに入力し、1枚の画像につき1つの特徴マップを抽出する。
相関演算部208は、特徴抽出部207の特徴抽出ニューラルネットワークから得られた参照画像と探索画像の特徴マップ、および参照画像に対応するデフォーカス量マップと探索画像に対応するデフォーカス量マップの特徴マップに関する相関演算を行う。
追尾結果算出部206は、ニューラルネットワークを有する。そして、追尾結果算出部206は、相関演算部208から得られた特徴マップを追尾対象物体検出ニューラルネットワークに入力し、追尾対象物体の位置に強く反応する尤度マップとサイズマップ、位置ずれマップを用いて追尾対象物体の位置とサイズを推定する。
誤差算出部210は、追尾対象物体の位置とサイズの推定結果に対する損失を計算する。具体的には、誤差算出部210は、追尾結果算出部206より得られた追尾対象物体の位置とサイズの推定値と、学習データ取得部202より得られたGTの誤差を計算する。
パラメータ更新部211は、誤差算出部210より得られた誤差に基づいて、追尾処理部206のニューラルネットワークのパラメータを更新し、パラメータ記憶部212に記憶する。
図3は、本実施形態におけるニューラルネットワークの学習の流れを示したフローチャートである。ただし、情報処理装置はこのフローチャートで説明するすべてのステップを必ずしも行わなくても良い。また、図4は、データの流れを示している。以下、図3,図4を参照して、ニューラルネットワークの学習の流れを説明する。
S301にて、画像データ取得部203は、追尾対象物体が映る画像(参照画像401)と、参照画像内に存在する追尾対象物体の中心位置やサイズ(幅、高さ)のGTを取得する。参照画像401の例を図5(a)に示す。参照画像401は、追尾対象物体501、追尾対象物体501の位置やサイズのGT502を含む。
S302にて、デフォーカス量データ取得部204は、参照画像401に対応するデフォーカス量マップ402を取得する。参照画像401に対応するデフォーカス量マップ402の例を図6(a)に示す。参照画像401に対応するデフォーカス量マップ402は、追尾対象物体601、追尾対象物体601の位置やサイズのGT602を含む。
S303にて、画像データ取得部203は、追尾対象物体の位置・サイズ502に基づいて、参照画像401内の追尾対象物体501の周辺領域503をテンプレートとして切り出し、予め設定されたサイズにリサイズする。さらに、デフォーカス量データ取得部204は、追尾対象の位置・サイズ602に基づいて、デフォーカス量マップ402内の追尾対象物体601の周辺領域603をテンプレートとして切り出し、予め設定宇されたサイズにリサイズする。
S304にて、特徴抽出部207は、S303によりテンプレートとして得られた領域503を画像特徴抽出用ニューラルネットワークに入力して、追尾対象物体の領域に対応する参照画像特徴403を得る。また、特徴抽出部207は、領域603をデフォーカス量特徴抽出用ニューラルネットワークに入力し、デフォーカス量特徴404を得る。
S305にて、画像データ取得部203は、追尾対象物体を探索する画像(探索画像405)と、その画像内に存在する追尾対象物体の位置やサイズのGTの組を取得する。例えば、画像データ取得部203は、S301において選ばれた画像と同じシーケンスの別時刻の画像を、追尾対象物体を探索する探察画像として取得する。探索画像405の例を図5(b)に示す。探索画像405は、追尾対象物体505、追尾対象物体505の位置やサイズのGT506を含む。
S306にて、デフォーカス量データ取得部203は、探索画像405に対応するデフォーカス量マップ406を取得する。探索画像405に対応するデフォーカス量マップ406の例を図6(b)に示す。探索画像405に対応するデフォーカス量マップ406は、追尾対象物体605、追尾対象物体605の位置やサイズのGT606を含む。
S307にて、画像データ取得部203は、追尾対象物体の位置・サイズ506に基づいて、S304で取得した探索画像405の追尾対象物体505の周辺領域507を切り出し、リサイズする。さらに、デフォーカス量データ取得部204は、追尾対象の位置・サイズ606に基づいて、デフォーカス量マップ406内の追尾対象物体605の周辺領域607をテンプレートとして切り出し、リサイズする。これらリサイズの目標サイズは、S303におけるサイズと同じである。
S308にて、特徴抽出部207は、S307により得られた領域507を画像特徴抽出用ニューラルネットワークに入力して、探索画像特徴407を得る。また、特徴抽出部207は、領域607をデフォーカス量特徴抽出用ニューラルネットワークに入力し、デフォーカス量特徴408を得る。
なお、図3のフローチャートにおいて、S301~S304の処理とS305~S308の処理が並列して行われるように示しているが、どちらかを先に行って、シーケンシャルに処理しても良い。
S309にて、相関演算部208は、S304により得られたテンプレートの参照画像特徴403と参照画像に対応したデフォーカス量特徴404を結合し、参照特徴409を得る。その際、テンプレート特徴を特定の領域のみ切り出してもよい。さらに、相関演算部208は、探索画像特徴407と探索画像に対応したデフォーカス量特徴408を結合し、探索特徴410を得る。そして、相関演算部208は、参照特徴409と探索特徴410に関して相関演算を行い、相関演算結果411を得る。
S310にて、追尾結果算出部206は、S309で得られた相関演算結果411を追尾対象物体検出ニューラルネットワークに入力し、尤度マップ412、サイズマップ413、位置ずれマップ414を出力する。図7(a)は尤度マップ412、同図(b)は拡大したサイズマップ413と位置ずれマップ414を示している。尤度マップ412は、あらかじめ決められたグリッドのそれぞれのマスにおいて、0~1の実数値を取る。例えば、追尾対象物体505が存在する尤度マップ412上のマス701の値がその他のマスの値と比べて相対的に大きければ、追尾対象物体505に正しく反応していると言える。サイズマップは、追尾対象物体505の幅702および高さ703を推定するものである。また、位置ずれマップは尤度マップ412のグリッド内で追尾対象物体505が存在するマスにおける位置ずれを推定するものである。より具体的には、図7(b)に示すように、マス701の左上隅を基準に、追尾対象物体705の中心の水平方向の位置ずれ704と垂直方向の位置ずれ705を推定する。
S311にて、誤差算出部210は、追尾対象の位置とサイズの推論結果に対する損失を計算する。目的は、追尾対象物体を正しく検出できるよう学習を進めることである。そこで、誤差算出部210は、推定された尤度マップに対する損失Lossc、サイズに対する損失Losss、位置ずれに対する損失Losslを計算する。
損失Losscは次式(1)で定義される。式(1)は、S310より得られた追尾対象物体の尤度マップをCinf、GTとなるマップをCgtとおき、マップCinfとマップCgtの各グリッドのマスの値に対して交差クロスエントロピー誤差の和をLosscとして算出することを示しいる。ここで、Cgtは、追尾対象物体が存在する位置の値が1、それ以外は0となるマップである。
損失Losssは次式(2)で定義される。式(2)は、S310より得られた追尾対象物体のサイズマップSinfと、GTとなるSgtの各グリッドのマスの値に対して2乗誤差の和を、損失Losssとすることを示している。
損失Losslは次式(3)で定義される。式(3)は、S310より得られた追尾対象物体の位置ずれマップLinfと、GTとなるLgtの各グリッドのマスの値に対して2乗誤差の和を、損失Losslとすることを示している。
最後に、上記3つの損失を統合した値lossinfが次式(4)で算出される。
Lossinf=Lossc + Losss + Lossl …(4)
なお、実施形態では、損失を二値クロスエントロピーおよび平均二乗誤差の形で記述したが、損失はこれらに限らない。
S312において、パラメータ更新部211が、S311において計算された損失に基づいて、誤差逆伝播法を用いて画像特徴抽出用ニューラルネットワーク、デフォーカス量特徴抽出用ニューラルネットワーク、および、追尾対象物体検出ニューラルネットワークのパラメータを更新する。ここで更新するパラメータは、追尾処理部206における特徴抽出部207、追尾結果算出部209におけるニューラルネットワークの重みなどを指す。
S313にて、パラメータ更新部211により更新されたニューラルネットワークのパラメータをパラメータ記憶部212に保存する。ここまでの流れを1イテレーションの学習とする。
S314にて、パラメータ更新部211が、学習を終了するかどうかを判定する。学習の終了判定は、式(4)で得られた損失の値が、予め接零された閾値より小さくなった場合に終了と判定するものとする。また、あらかじめ定められた回数(ユーザが入力部101より設定or選択可能とする)の学習がなされた場合を終了と判定してもよい。
続いて、上記学習ステージを経て推論ステージに移行した場合の情報処理装置100の構成と処理を説明する。
図8は、推論ステージにおける情報処理装置100の機能構成図を示している。情報処理装置100は、画像データ取得部801、デフォーカス量データ取得部802、追尾処理部803、及び、パラメータ記憶部212を有する。そして、追尾処理部803は、特徴抽出部804、相関演算部805、追尾結果算出部806を有する。以下、各構成について説明する。
なお、以下の説明で推論ステージ利用する参照画像及び参照画像用のデフォーカス量マップ、更には、探索画像及び探索画像用のデフォーカス量マップは、既にデータ保持部102に格納されているものとする。ただし、これらは通信部107を介して外部の撮像装置等から入力しても構わない。
画像データ取得部801は、追尾対象画像および探索画像を取得し、それらを追尾処理部803に供給する。デフォーカス量データ取得部802は、追尾対象画像および探索画像のそれぞれに対応するデフォーカス量マップを取得し、それらを追尾処理部803に供給する。
追尾処理部803における特徴抽出部804は、画像データ取得部801から供給された追尾対象画像および探索画像を個別に画像特徴抽出用のニューラルネットワークに入力し、1枚の画像につき1つの特徴マップを抽出させる。また、特徴抽出部804は、デフォーカス量データ取得部802から供給された追尾対象画像および探索画像のそれぞれに対応するデフォーカス量マップを個別にデフォーカス量特徴抽出用ニューラルネットワークに入力し、1枚のデフォーカス量マップにつき1つの特徴マップを抽出させる。
相関演算部805は、追尾対象の特徴と探索の特徴に関する相関演算を行う。具体的に説明すると、相関演算部805は、特徴抽出部804の特徴抽出ニューラルネットワークから得られた追尾対象画像の特徴マップおよびそれに対応するデフォーカス量マップの特徴マップを結合し、追尾対象の領域の周辺領域を切り出して参照特徴とする。さらに、相関演算部805は、探索画像とそれに対応するデフォーカス量マップから特徴抽出部803が抽出した特徴を結合し、探索特徴とする。そして、相関演算部805は、上記で得た参照特徴と探索特徴に関して相関演算を行う。
追尾結果算出部806は、相関演算部805から得られた特徴マップを追尾対象物体検出ニューラルネットワークに入力し、追尾対象物体の位置に強く反応する尤度マップとサイズマップ、位置ずれマップを用いて追尾対象物体の位置とサイズを推定する。
パラメータ記憶部212は、学習時に更新されたパラメータを記憶しており、追尾処理部803内のニューラルネットワークのパラメータはパラメータ記憶部212から取得される。
図9は、本実施形態におけるニューラルネットワークの推論ステージにおける処理手順を示すフローチャートである。ただし、情報処理装置100はこのフローチャートで説明するすべてのステップを必ずしも行わなくても良い。
S901にて、画像データ取得部801は、追尾対象物体が映る画像(追尾対象画像)を取得する。
S902にて、デフォーカス量データ取得部802が、追尾対象画像に対応するデフォーカス量マップを取得する。
S903にて、追尾処理部803は、表示部104に追尾対象画像を表示し、そして、入力部101を介してのユーザからの指示に従い、表示中の追尾対象画像中の領域を指定し、追尾対象物体を設定させる。表示部104がタッチ入力を許容するなら、ユーザからのタッチした位置の物体を追尾対象とする。それ以外の手法で、追尾対象物体を検出しても構わず、例えば、物体検出器で物体を検出するなどの方法が考えられる。
S904にて、追尾処理部803は、追尾対象物体周辺の画像およびデフォーカス量マップを切り出す。
S905にて、特徴抽出部804は、S904により得られた切り出し画像を画像特徴抽出用ニューラルネットワークに供給して、追尾対象物体の領域に対応する画像特徴を得る。また、特徴抽出部804は、S904により得られた、切り出しデフォーカス量マップをデフォーカス量特徴抽出用ニューラルネットワークに供給して、デフォーカス量特徴を得る。
S906にて、画像データ取得部801は、追尾対象物体を探索する画像を取得する。例えば、S901において選ばれた追尾対象画像の次の時刻の画像を、追尾対象物体を探索する画像として取得する。
S907にて、デフォーカス量データ取得部802は、探索画像に対応するデフォーカス量マップを取得する。
S908にて、追尾処理部803は、S906で取得した探索画像およびS907で取得したデフォーカス量マップを切り出し、リサイズする。切り出す領域は、例えば、前時刻の推定された追尾対象物体の周辺領域とする。
S909にて、特徴抽出部804は、S908により得られた画像を画像特徴抽出用ニューラルネットワークに入力して探索画像特徴を得る。また、特徴抽出部804は、S908により得られたデフォーカス量マップをデフォーカス量特徴抽出用ニューラルネットワークに入力し、デフォーカス量特徴を得る。
S910にて、相関演算部805は、S905により得られた追尾対象物体の画像特徴とデフォーカス量特徴を結合し、追尾対象特徴とする。その際、追尾対象物体の特徴を特定の領域のみ切り出してもよい。さらに、相関演算部805は、S909により得られた探索範囲画像およびデフォーカス量特徴を結合し、探索特徴とする。そして、相関演算部805は、追尾対象特徴と探索特徴に関する相関演算を行う。
S911にて、追尾結果算出部806は、S910により得られた相関演算の結果を追尾対象物体検出ニューラルネットワークに入力し、尤度マップ、サイズマップ、位置ずれマップの推定値を出力させる。
以上説明したように本第1の実施形態によれば、入力データに画像だけでなくデフォーカス量マップを加えることにより、奥行方向の情報が加わり、画素パターンや色ヒストグラムが類似した物体においても、奥行方向の差異から追尾対象を識別できる。さらに、追尾対象物体に対して奥行方向に近い位置に類似物体がある場合でも、デフォーカス量マップの特徴抽出によって輪郭情報を含む特徴を用いることができ、追尾対象の識別が可能となる。
[第2の実施形態]
デフォーカス量データが必ずしも正確でない場合に、当該デフォーカス量データを参照してしまうと、追尾性能が低下する可能性がある。そこで本実施形態では、前述の対策を講じる。
図10は、学習ステージにおける情報処理装置100におけるデフォーカス量データ取得部204の機能構成図である。本第2の実施形態の場合、デフォーカス量データ取得部204は、デフォーカス量マップ取得部1001と、信頼値マップ取得部1002を有する。
デフォーカス量マップ取得部1001は、第1の実施形態と同様、デフォーカス量マップを取得する。そして、信頼値マップ取得部1002は、デフォーカス量マップに対応する信頼値マップを取得する。
ここで、信頼値マップについて説明する。信頼値マップは、デフォーカス量マップに対応するマップであり、信頼値が小さい場合は対応するデフォーカス量の信頼性が低いものとする。信頼値の算出方法は何でもよく、例えば特許文献2のように水平方向に視差をもつ一対の画像領域から検出される像ズレ量に基づいて算出してもよい。
信頼値マップ取得部1002で取得した信頼値マップは、第1の実施形態におけるデフォーカス量マップと同様に扱う。より具体的には、図3のフローチャートの学習において以下の操作を行う。
S302にて、デフォーカス量データ取得部204は、参照画像に対応するデフォーカス量マップを取得するとともに、それに対応する信頼値マップを取得する。
S303にて、画像データ取得部203は、参照画像、デフォーカス量マップに加えて、信頼値マップについても切り出しを行う。
S304にて、特徴抽出部207は、S303で切り出した参照画像を画像特徴抽出用ニューラルネットワークに、デフォーカス量マップと信頼値マップをデフォーカス量特徴抽出用ニューラルネットワークに入力して特徴抽出を行う。
S306にて、デフォーカス量データ取得部203は、探索画像に対応するデフォーカス量マップを取得するとともに、それに対応する信頼値マップを取得する。
S307において、画像データ取得部203は探索画像、デフォーカス量マップ、更には、信頼値マップについても切り出しとリサイズを行う。
S308にて、特徴抽出部207は、S307で切り出した探索画像を画像特徴抽出用ニューラルネットワークに入力し、探索画像特徴407を得る。また、特徴抽出部207は、デフォーカス量マップと信頼値マップをデフォーカス量特徴抽出用ニューラルネットワークに入力してデフォーカス量特徴を得る。
S309において、相関演算部208は、S304により得られた参照画像特徴とそれに対応するデフォーカス量特徴を結合し、参照特徴とする。その際、テンプレート特徴を特定の領域のみ切り出してもよい。さらに、S308により得られた探索画像特徴およびそれに対応するデフォーカス量特徴を結合し、探索特徴とする。そして、参照特徴と探索特徴に関して相関演算を行う。
S310以降は第1の実施形態と同様の操作を実施する。
上記第2の実施形態によれば、デフォーカス量マップとともに信頼値マップを特徴抽出ニューラルネットワークに入力することにより、信頼値が低い領域は尤度マップ、サイズマップ、位置ずれマップの推定に影響しないように学習される。これにより、信頼値マップが低い場合でも、追尾性能を維持または向上させることができる。
[第3の実施形態]
デフォーカス量データは、使用するレンズの光学特性およびフォーカスレンズの位置やズーム位置などの撮影条件によって異なる。そのため、特定の光学特性を持つレンズで、かつ特定の撮影条件で取得されたデフォーカス量データで学習した場合、それにより得られるパラメータは、前述の条件に合致したレンズの光学特性および撮影条件でしか追尾性能向上の効果が得られない。一方、様々なレンズおよび撮影条件で取得されたデフォーカス量データを学習で使用する場合は、膨大なデータ量での学習を必要とする。そこで本第3の実施形態では、前述の対策を講じる。
図11は、学習ステージにおける情報処理装置100におけるデフォーカス量データ取得部204の機能構成図である。本第3の実施形態の場合、デフォーカス量データ取得部204は、デフォーカス量マップ取得部1101と、距離変換部1102を有する。以下に、距離変換部1102について説明する。
デフォーカス量マップ取得部1101は、第1の実施形態と同様にデフォーカス量マップを取得する。距離変換部1102は、デフォーカス量マップ取得部1101で取得されたデフォーカス量マップを、デフォーカス量が0の位置を基準とした距離マップに変換する。デフォーカス量マップを距離マップに変換する方法は特に問わないが、ここでは幾何学的に変換する方法と、変換パラメータを学習により求める方法の2つを説明する。
図12は、本実施形態における幾何学的にデフォーカス量マップを距離マップに変換するフローチャートを示している。
S1201にて、距離変換部1102は、これから変換するデフォーカス量マップを取得時に使用された撮像装置が使用したレンズの光学特性を取得する。ここでレンズの光学特性とは、被写体側距離、像面側距離、焦点距離の関係を指す。
S1202にて、距離変換部1102は、デフォーカス量マップ取得時の画像の撮影条件を取得する。ここで撮影条件とは、撮像装置が使用したレンズにおけるフォーカスレンズの位置、焦点距離を指す。
S1203にて、距離変換部1102は、デフォーカス量マップの値とS1202で取得したフォーカスレンズの位置から、像面側距離を算出する。そして、距離変換部1102は、前述の像面側距離、S1202で取得した焦点距離から、S1201で取得した光学特性により、被写体側距離を算出し、デフォーカス量が0の位置を基準とした距離マップに変換する。
以上が、幾何学的にデフォーカス量マップを距離マップに変換する方法である。
一方、レンズの光学特性および撮影条件が未知のデータの場合は、幾何学的な変換ができない。そのような場合は、幾何学的な変換ではなく、レンズの光学特性および撮影条件が既知のデータにより変換パラメータを学習して求める方法により、距離変換を行う。以下に、学習の方法を説明する。
図13は、第3の本実施形態におけるデフォーカス量マップの距離マップ変換パラメータの学習処理を示すフローチャートである。
S1301にて、距離変換部1102は、デフォーカス量マップを取得する。そして、S1302にて、距離変換部1102は、デフォーカス量マップを入力とし、デフォーカス量が0の位置を基準とした距離マップを予測する。
S1303にて、距離変換部1102は、デフォーカス量マップ取得時に使用したレンズの光学特性を取得する。S1304にて、距離変換部1102は、デフォーカス量マップ取得時の撮影条件を取得する。そして、S1305において、S1303で取得したレンズの光学特性およびS1304で取得した撮影条件に基づいて、幾何学的にデフォーカス量マップを距離マップに変換する。この変換で得たデータを正解データとする。
S1306にて、距離変換部1102は、S1302で予測した距離マップと、S1305で変換した正解データから交差エントロピー誤差を算出し、これを損失とする。
S1307に、距離変換部1102は、S1306において計算された損失に基づいて、誤差逆伝播法を用いて距離マップ予測のパラメータを更新する。ここで更新するパラメータは、距離マップ予測におけるニューラルネットワークの重みなどを指す。
S1308にて、距離変換部1102は、S1307で更新されたニューラルネットワークのパラメータを記憶する。ここまでの流れを1イテレーションの学習とする。
S1309にて、距離変換部1102は、学習を終了するかどうかを判定する。学習の終了判定は、S1306で得られた損失の値が所定の閾値より小さくなった場合に終了と判定する。或いは、あらかじめ定められた回数の学習がなされた場合に終了と判定してもよい。
以上のように幾何学的または学習により作成された距離変換部1102は、追尾の学習または推論の際に、デフォーカス量マップを取得後に使われる。
より具体的には、例えば学習の際、S302において、デフォーカス量マップ取得部により参照画像に対応したデフォーカス量マップを取得する。そして、そのデフォーカス量マップを距離変換部1102により距離マップに変換する。
また、S306において、デフォーカス量マップ取得部により探索画像に対応したデフォーカス量マップを取得する。そして、そのデフォーカス量マップを距離変換部1102により距離マップに変換する。以降の学習のフローは、第1の実施形態と同様である。
以上説明したように第3の実施形態によれば、レンズの光学特性および撮影条件を用いることにより、デフォーカス量マップをデフォーカス量が0に位置を基準とした距離マップに変換することができる。また、レンズの光学特性および撮影条件が既知のデータを用いて距離マップ予測の変換パラメータを学習することにより、レンズの光学特性および撮影条件が未知のデータから精度良く距離マップを予測することができる。
以上より、様々なレンズの光学特性および撮影条件で取得されたデフォーカス量マップを一定の距離マップに変換できるため、使用するレンズの光学特性および撮影条件に捉われない追尾の学習、推論が可能となる。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本明細書の開示は、以下の情報処理装置及びその制御方法及びプログラムを含む。
(項目1)
追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第1の取得手段と、
前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第2の取得手段と、
前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出手段と、
前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算手段と、
前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出手段とを有する情報処理装置であって、
前記抽出手段および前記追尾結果算出手段が利用するパラメータは、
前記追尾対象物体の位置を含む正解データを取得する正解データ取得手段、
前記追尾結果と前記正解データから誤差を算出する誤差算出手段、
前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新手段による学習によって得る
ことを特徴とする情報処理装置。
(項目2)
前記参照画像用、及び、前記探索画像用のデフォーカス量マップは、前記デフォーカス量の信頼値を示す信頼値マップを含むことを特徴とする項目1に記載の情報処理装置。
(項目3)
前記参照画像用、及び、前記探索画像用のデフォーカス量マップは、前記デフォーカス量が0の位置からの距離マップに変換されることを特徴とする項目1又は2に記載の情報処理装置。
(項目4)
前記距離マップの距離は、前記デフォーカス量マップ取得時に使用したレンズの光学特性および撮影条件により決定されることを特徴とする項目3に記載の情報処理装置。
(項目5)
前記距離マップの距離は、
前記デフォーカス量マップ取得時に使用したレンズの光学特性および撮影条件が既知の前記デフォーカス量マップと、
前記デフォーカス量マップから前記レンズの光学特性および前記撮影条件により距離に変換された距離マップによって学習された予測部を用いて予測されること
を特徴とする項目3に記載の情報処理装置。
(項目6)
情報処理装置の制御方法であって、
追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第1の取得工程と、
前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第2の取得工程と、
前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出工程と、
前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算工程と、
前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出工程とを有し、
前記抽出工程および前記追尾結果算出工程が利用するパラメータは、
前記追尾対象物体の位置を含む正解データを取得する正解データ取得工程、
前記追尾結果と前記正解データから誤差を算出する誤差算出工程、
前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新工程による学習によって得る
ことを特徴とする情報処理装置の制御方法。
(項目7)
コンピュータが読み込み実行することで、前記コンピュータに、項目1乃至項目5のいずれか1つに記載の装置が有する各手段として機能させるためのコンピュータプログラム。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
201…学習データ記憶部、202…学習データ取得部、203…画像データ取得部、204…デフォーカス量データ取得部、205…正解データ取得部、206…追尾処理部、207…特徴抽出部、208…相関演算部、209…追尾結果算出部、210…誤差算出部、211…パラメータ更新部、212…パラメータ記憶部

Claims (7)

  1. 追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第1の取得手段と、
    前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第2の取得手段と、
    前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出手段と、
    前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算手段と、
    前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出手段とを有する情報処理装置であって、
    前記抽出手段および前記追尾結果算出手段が利用するパラメータは、
    前記追尾対象物体の位置を含む正解データを取得する正解データ取得手段、
    前記追尾結果と前記正解データから誤差を算出する誤差算出手段、
    前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新手段による学習によって得る
    ことを特徴とする情報処理装置。
  2. 前記参照画像用、及び、前記探索画像用のデフォーカス量マップは、前記デフォーカス量の信頼値を示す信頼値マップを含むことを特徴とする請求項1に記載の情報処理装置。
  3. 前記参照画像用、及び、前記探索画像用のデフォーカス量マップは、前記デフォーカス量が0の位置からの距離マップに変換されることを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記距離マップの距離は、前記デフォーカス量マップ取得時に使用したレンズの光学特性および撮影条件により決定されることを特徴とする請求項3に記載の情報処理装置。
  5. 前記距離マップの距離は、
    前記デフォーカス量マップ取得時に使用したレンズの光学特性および撮影条件が既知の前記デフォーカス量マップと、
    前記デフォーカス量マップから前記レンズの光学特性および前記撮影条件により距離に変換された距離マップによって学習された予測部を用いて予測されること
    を特徴とする請求項3に記載の情報処理装置。
  6. 情報処理装置の制御方法であって、
    追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第1の取得工程と、
    前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第2の取得工程と、
    前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出工程と、
    前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算工程と、
    前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出工程とを有し、
    前記抽出工程および前記追尾結果算出工程が利用するパラメータは、
    前記追尾対象物体の位置を含む正解データを取得する正解データ取得工程、
    前記追尾結果と前記正解データから誤差を算出する誤差算出工程、
    前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新工程による学習によって得る
    ことを特徴とする情報処理装置の制御方法。
  7. コンピュータが読み込み実行することで、前記コンピュータに、請求項6に記載の方法が有する各工程を実行させるためのコンピュータプログラム。
JP2022111340A 2022-07-11 2022-07-11 情報処理装置及びその制御方法及びプログラム Pending JP2024009653A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022111340A JP2024009653A (ja) 2022-07-11 2022-07-11 情報処理装置及びその制御方法及びプログラム
US18/347,611 US20240013403A1 (en) 2022-07-11 2023-07-06 Information processing apparatus, control method thereof, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022111340A JP2024009653A (ja) 2022-07-11 2022-07-11 情報処理装置及びその制御方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2024009653A true JP2024009653A (ja) 2024-01-23

Family

ID=89431697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022111340A Pending JP2024009653A (ja) 2022-07-11 2022-07-11 情報処理装置及びその制御方法及びプログラム

Country Status (2)

Country Link
US (1) US20240013403A1 (ja)
JP (1) JP2024009653A (ja)

Also Published As

Publication number Publication date
US20240013403A1 (en) 2024-01-11

Similar Documents

Publication Publication Date Title
US20230045519A1 (en) Target Detection Method and Apparatus
JP6942488B2 (ja) 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP5763965B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5554984B2 (ja) パターン認識方法およびパターン認識装置
US8379987B2 (en) Method, apparatus and computer program product for providing hand segmentation for gesture analysis
CN108197618B (zh) 用于生成人脸检测模型的方法和装置
CN111062263B (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN111444744A (zh) 活体检测方法、装置以及存储介质
CN107194948B (zh) 基于集成式预测与时空域传播的视频显著性检测方法
JP2019153092A (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN115035158B (zh) 目标跟踪的方法及装置、电子设备和存储介质
KR20110021500A (ko) 이동객체의 실시간 추적과 거리 측정 방법 및 그 장치
CN110619672B (zh) 图形边缘线选取方法、机器可读存储介质及数据处理设备
CN110909685A (zh) 姿势估计方法、装置、设备及存储介质
JP2018029270A (ja) 画像処理装置およびその制御方法、撮像装置、プログラム
KR20160046399A (ko) 텍스쳐 맵 생성 방법 및 장치와 데이터 베이스 생성 방법
JP5952942B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN116934686A (zh) 基于多方向图像融合的oct图像检测方法及装置
JP6393495B2 (ja) 画像処理装置および物体認識方法
JP5217917B2 (ja) 物体検知追跡装置,物体検知追跡方法および物体検知追跡プログラム
JP2024009653A (ja) 情報処理装置及びその制御方法及びプログラム
JP7370759B2 (ja) 画像処理装置、画像処理方法およびプログラム
Srikrishna et al. Realization of Human Eye Pupil Detection System using Canny Edge Detector and Circular Hough Transform Technique
JP2020101922A (ja) 画像処理装置、画像処理方法およびプログラム
JP2016045744A (ja) 画像処理装置、画像処理方法、およびプログラム