JP2024009653A

JP2024009653A - 情報処理装置及びその制御方法及びプログラム

Info

Publication number: JP2024009653A
Application number: JP2022111340A
Authority: JP
Inventors: 洸輔斎藤; Kosuke Saito
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2024-01-23
Also published as: US20240013403A1

Abstract

【課題】被写体追尾性能をこれまで以上に向上させる情報処理装置、方法及びプログラムを提供する。【解決手段】情報処理装置１００は、追尾対象物体を含む参照画像、探索画像、参照画像用のデフォーカス量マップ及び探索画像用のデフォーカス量マップを取得する取得部２０２と、これらの特徴を抽出する抽出部２０７と、参照画像、探索画像、参照画像用と探索画像用のデフォーカス量マップそれぞれ特徴に関する相関演算を行う相関演算部２０８と、相関演算の結果を用いて探索画像における追尾対象物体の位置を含む追尾結果を算出する算出部２０９と、を有する。抽出部及び算出部が利用するパラメータは、追尾対象物体の位置を含む正解データを取得する正解データ取得部２０５、追尾結果と正解データから誤差を算出する誤差算出部２１０及び誤差に基づき、特徴抽出部及び追尾結果算出部のパラメータを更新するパラメータ更新部２１１による学習によって取得する。【選択図】図２

Description

本発明は、画像における被写体を追尾する技術に関するものである。

時系列的に供給される画像における被写体を追尾する技術は、動画像における人間の顔領域や人体領域の特定などに利用されている。被写体追尾技術は、例えば、通信会議、マン・マシン・インターフェイス、セキュリティ、任意の被写体を追跡するためのモニタ・システム、画像圧縮などの多くの分野で使用可能である。

デジタルスチルカメラやデジタルビデオカメラでは、被写体に対する焦点状態や露出状態の最適化のために、被写体追尾技術が使われている。例えば、特許文献１では、テンプレートマッチングを用いて、特定の被写体を自動で追尾する技術が開示されている。テンプレートマッチング処理では、特定の被写体を含む画像領域を切り出した部分画像をテンプレートとし、テンプレートと類似度が高い領域を算出することで、特定の被写体を追尾できる。一方、テンプレートマッチング処理では画素パターンや色ヒストグラムの類似度を利用する方法があるが、映像中に追尾対象の被写体に類似する別の物体が存在する場合、その誤った物体を追尾してしまう可能性がある。

これに対して特許文献２では、デフォーカス量を距離情報として利用し、設定された距離範囲内に該当する画像領域に絞ることで、追尾対象の被写体と類似物体とを区別している。

特開２００１－６０２６９号公報特開２０１９－１２６０９１号公報

しかしながら、設定された距離範囲内に追尾対象被写体と類似物体が共に存在する場合は、その類似物体が追尾対象か否かの区別が困難となり、誤った物体を追尾してしまう可能性が依然として残る。

本発明はかかる問題に鑑み成されたものであり、被写体追尾性能をこれまで以上に向上させる技術を提供する。

この課題を解決するため、例えば本発明の情報処理装置は以下の構成を備える。すなわち、
追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第１の取得手段と、
前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第２の取得手段と、
前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出手段と、
前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算手段と、
前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出手段とを有する情報処理装置であって、
前記抽出手段および前記追尾結果算出手段が利用するパラメータは、
前記追尾対象物体の位置を含む正解データを取得する正解データ取得手段、
前記追尾結果と前記正解データから誤差を算出する誤差算出手段、
前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新手段による学習によって得ることを特徴とする。

本発明によれば、被写体追尾性能をこれまで以上に向上させることができる。

実施形態に係る情報処理装置のハードウェア構成を示す図。実施形態に係る情報処理装置の学習ステージの機能構成図。実施形態に係るニューラルネットワークの学習処理を示すフローチャート。実施形態に係るニューラルネットワークの学習処理のデータの流れを示す図。実施形態に係る参照画像と探索画像の例を示す図。実施形態に係る参照デフォーカス量マップと探索デフォーカス量マップの例を示す図。実施形態に係る追尾結果算出部の出力の例を示す図。実施形態に係る情報処理装置の推論ステージの機能構成図。実施形態に係るニューラルネットワークの推論処理を示すフローチャート。第２の実施形態に係るデフォーカス量データ取得部の機能構成図。第３の実施形態に係るデフォーカス量データ取得部の機能構成図。第３の実施形態に係るデフォーカス量マップの距離変換処理を示すフローチャート。第３の実施形態に係るデフォーカス量マップの距離変換パラメータの学習処理を示すフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

［第１の実施形態］
図１は、実施形態に対応する情報処理装置１００の一構成例を示すブロック図である。以下では、情報処理装置１００として入力画像を処理する画像処理装置について説明するが、処理対象は画像に限らず、音声であってもよいし、その他の任意のセンサにより取得されたデータであってもよい。

入力部１０１は、ユーザーからの指示や、データを入力する装置で、キーボード、マウス、ポインタ装置、ボタン等を含む。データ保存部１０２は画像データを保存し、例えば、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＣＤ－ＲやＤＶＤ、メモリーカード、ＣＦカード、スマートメディア、ＳＤカード、メモリスティック、ｘＤピクチャーカード、ＵＳＢメモリ等で構成される。データ保存部１０２には画像データの他にも、プログラムやその他のデータを保存することも可能である。あるいは、後述するＲＡＭ１０７の一部をデータ保存部１０２として用いても良い。また、後述する通信部１０３により接続した外部機器の記憶装置を、本装置の仮想記憶装置として利用しても良い。

通信部１０３は、機器間通信用のインタフェース（Ｉ／Ｆ）である。なお、図１では入力部１０１、データ保存部１０２、表示部１０４が全て１つの装置内に含まれるように示しているが、これらの部分が公知の通信方式による通信路で接続されて構成されてもよい。表示部１０４は、画像処理前、画像処理後の画像を表示、あるいはＧＵＩ等の画像を表示する。表示部１０４は、ＣＲＴや液晶ディスプレイ等で構成され、ケーブル等で接続された外部装置のディスプレイ装置を利用してもよい。更に、公知のタッチスクリーン装置のように、表示部１０４と入力部１０１が同一装置であっても良い。その場合には、タッチスクリーンによる入力を入力部１０１の入力として扱う。

データ処理部１０５は、ＲＡＭ１０７に保存されたデータを処理対象とするものであり、処理後のデータをデータ保存部１０２（またはＲＡＭ１０７）に出力する。データ処理された結果に基づき、ＣＰＵ１０８が動画像（複数フレーム）についての画像処理または画像認識を行う。ＣＰＵ１０８により処理された画像処理または画像認識の結果は、ＲＡＭ１０７に保存される。データ処理部１０５は、例えば、専用ロジック回路やメモリを用いてハードウェア的に構成されてもよい。或いは、メモリに記憶されている処理プログラムをＣＰＵ等のコンピュータが実行することにより、ソフトウェア的に構成されてもよい。

ＣＰＵ１０８は、本装置全体の動作を制御する制御部として機能する。ＲＯＭ１０７とＲＡＭ１０７は、ＣＰＵ１０８が実行する処理に必要なプログラム、データ、作業領域などをＣＰＵ１０８に提供する。後述する処理に必要なプログラムがデータ保存部１０２に格納されている場合や、ＲＯＭ１０７に格納されている場合、ＣＰＵ１０８は、そのプログラムを一旦ＲＡＭ１０７にロードしてから実行する。また通信部１０３を経由してプログラムを受信する場合、ＣＰＵ１０８は、データ保存部１０２に一旦そのプログラムを記録した後にＲＡＭ１０７にロードするか、通信部１０３からＲＡＭ１０７に直接に書き込んでから実行される。

図１においては、ＣＰＵが１つ（ＣＰＵ１０８）だけである構成だが、これを複数設けるような構成にしても良い。また、ＣＰＵ１０８は、プログラムを実行することで、データ処理部１０５を実現させても良い。装置のシステム構成については、上記以外にも様々な構成要素が存在するが、本発明の主眼ではないのでその説明は省略する。

次に、本実施形態におけるデータ処理部１０５およびＣＰＵ１０８で実行されるニューラルネットワークの学習ステージと、推論ステージについて説明する。

図２は、学習ステージの情報処理装置１００の機能構成図を示している。情報処理装置１００は、学習データ記憶部２０１、学習データ取得部２０２、追尾処理部２０６、誤差算出部２１０、パラメータ更新部２１１、パラメータ記憶部２１２を有する。学習データ取得部２０２は、画像データ取得部２０３、デフォーカス量データ取得部２０４、正解データ取得部２０５を有する。追尾処理部２０６は、特徴抽出部２０７、相関演算部２０８、追尾結果算出部２０９を有している。それぞれの機能構成部について以下に説明する。

なお、以下の説明において、学習ステージで利用する参照画像及び参照画像用のデフォーカス量マップ、更には、探索画像及び探索画像用のデフォーカス量マップは、既にデータ保持部１０２に格納されているものとする。

学習データ取得部２０２における画像データ取得部２０３、デフォーカス量データ取得部２０４、及び、正解データ取得部２０５の処理は次の通りである。

画像データ取得部２０３は、学習データ記憶部２０１に保存されている参照画像および探索画像を取得する。デフォーカス量データ取得部２０４は、学習データ記憶部２０１に保存されている参照画像に対応するデフォーカス量マップと探索画像に対応するデフォーカス量マップを取得する。ここでデフォーカス量は、水平方向に視差を持つ一対の画像（Ａ像、Ｂ像）から算出される像ズレ量に、所定の変換係数を乗算することにより得られる、画像の結像面における偏差である。そして、撮像面の各画素に対してデフォーカス量が割り当てられたデフォーカス量分布の情報をデフォーカス量マップと呼んでいる。正解データ取得部２０５は、参照画像と探索画像のそれぞれの画像内に存在する物体の位置やサイズの正解データを取得する。以下、正解データのことをＧＴ（ＧｒｏｕｎｄＴｒｕｔｈの略称）と呼ぶこととする。

なお、本実施形態における情報処理装置は、通信部１０３を介して、不図示のネットワーク上のステレオ撮像システムと通信可能に接続されているものとする。そして、実施形態で説明する参照画像、探索画像は、ステレオ撮影システムから受信した左右の撮像部の一方で得た画像とする。一方、デフォーカス量マップは上記の通り、左右の撮像部から得た一対から算出したズレ量に、所定の変換係数を乗算して得た値を画素値とするデータであると理解されたい。

次に、追尾処理部２０６における特徴抽出部２０７、相関演算部２０８、追尾結果算出部２０９を説明する。

特徴抽出部２０７は、ニューラルネットワークを有する。そして特徴抽出部２０７は
画像データ取得部２０３によって得られた参照画像および探索画像を個別に特徴抽出用のニューラルネットワークに入力し、１枚の画像につき１つの特徴マップを抽出する。特徴抽出部２０７は、さらに、デフォーカス量データ取得部２０４によって得られた参照画像および探索画像に対応するデフォーカス量マップを個別に特徴抽出用のニューラルネットワークに入力し、１枚の画像につき１つの特徴マップを抽出する。

相関演算部２０８は、特徴抽出部２０７の特徴抽出ニューラルネットワークから得られた参照画像と探索画像の特徴マップ、および参照画像に対応するデフォーカス量マップと探索画像に対応するデフォーカス量マップの特徴マップに関する相関演算を行う。

追尾結果算出部２０６は、ニューラルネットワークを有する。そして、追尾結果算出部２０６は、相関演算部２０８から得られた特徴マップを追尾対象物体検出ニューラルネットワークに入力し、追尾対象物体の位置に強く反応する尤度マップとサイズマップ、位置ずれマップを用いて追尾対象物体の位置とサイズを推定する。

誤差算出部２１０は、追尾対象物体の位置とサイズの推定結果に対する損失を計算する。具体的には、誤差算出部２１０は、追尾結果算出部２０６より得られた追尾対象物体の位置とサイズの推定値と、学習データ取得部２０２より得られたＧＴの誤差を計算する。

パラメータ更新部２１１は、誤差算出部２１０より得られた誤差に基づいて、追尾処理部２０６のニューラルネットワークのパラメータを更新し、パラメータ記憶部２１２に記憶する。

図３は、本実施形態におけるニューラルネットワークの学習の流れを示したフローチャートである。ただし、情報処理装置はこのフローチャートで説明するすべてのステップを必ずしも行わなくても良い。また、図４は、データの流れを示している。以下、図３，図４を参照して、ニューラルネットワークの学習の流れを説明する。

Ｓ３０１にて、画像データ取得部２０３は、追尾対象物体が映る画像（参照画像４０１）と、参照画像内に存在する追尾対象物体の中心位置やサイズ（幅、高さ）のＧＴを取得する。参照画像４０１の例を図５（ａ）に示す。参照画像４０１は、追尾対象物体５０１、追尾対象物体５０１の位置やサイズのＧＴ５０２を含む。

Ｓ３０２にて、デフォーカス量データ取得部２０４は、参照画像４０１に対応するデフォーカス量マップ４０２を取得する。参照画像４０１に対応するデフォーカス量マップ４０２の例を図６（ａ）に示す。参照画像４０１に対応するデフォーカス量マップ４０２は、追尾対象物体６０１、追尾対象物体６０１の位置やサイズのＧＴ６０２を含む。

Ｓ３０３にて、画像データ取得部２０３は、追尾対象物体の位置・サイズ５０２に基づいて、参照画像４０１内の追尾対象物体５０１の周辺領域５０３をテンプレートとして切り出し、予め設定されたサイズにリサイズする。さらに、デフォーカス量データ取得部２０４は、追尾対象の位置・サイズ６０２に基づいて、デフォーカス量マップ４０２内の追尾対象物体６０１の周辺領域６０３をテンプレートとして切り出し、予め設定宇されたサイズにリサイズする。

Ｓ３０４にて、特徴抽出部２０７は、Ｓ３０３によりテンプレートとして得られた領域５０３を画像特徴抽出用ニューラルネットワークに入力して、追尾対象物体の領域に対応する参照画像特徴４０３を得る。また、特徴抽出部２０７は、領域６０３をデフォーカス量特徴抽出用ニューラルネットワークに入力し、デフォーカス量特徴４０４を得る。

Ｓ３０５にて、画像データ取得部２０３は、追尾対象物体を探索する画像（探索画像４０５）と、その画像内に存在する追尾対象物体の位置やサイズのＧＴの組を取得する。例えば、画像データ取得部２０３は、Ｓ３０１において選ばれた画像と同じシーケンスの別時刻の画像を、追尾対象物体を探索する探察画像として取得する。探索画像４０５の例を図５（ｂ）に示す。探索画像４０５は、追尾対象物体５０５、追尾対象物体５０５の位置やサイズのＧＴ５０６を含む。

Ｓ３０６にて、デフォーカス量データ取得部２０３は、探索画像４０５に対応するデフォーカス量マップ４０６を取得する。探索画像４０５に対応するデフォーカス量マップ４０６の例を図６（ｂ）に示す。探索画像４０５に対応するデフォーカス量マップ４０６は、追尾対象物体６０５、追尾対象物体６０５の位置やサイズのＧＴ６０６を含む。

Ｓ３０７にて、画像データ取得部２０３は、追尾対象物体の位置・サイズ５０６に基づいて、Ｓ３０４で取得した探索画像４０５の追尾対象物体５０５の周辺領域５０７を切り出し、リサイズする。さらに、デフォーカス量データ取得部２０４は、追尾対象の位置・サイズ６０６に基づいて、デフォーカス量マップ４０６内の追尾対象物体６０５の周辺領域６０７をテンプレートとして切り出し、リサイズする。これらリサイズの目標サイズは、Ｓ３０３におけるサイズと同じである。

Ｓ３０８にて、特徴抽出部２０７は、Ｓ３０７により得られた領域５０７を画像特徴抽出用ニューラルネットワークに入力して、探索画像特徴４０７を得る。また、特徴抽出部２０７は、領域６０７をデフォーカス量特徴抽出用ニューラルネットワークに入力し、デフォーカス量特徴４０８を得る。

なお、図３のフローチャートにおいて、Ｓ３０１～Ｓ３０４の処理とＳ３０５～Ｓ３０８の処理が並列して行われるように示しているが、どちらかを先に行って、シーケンシャルに処理しても良い。

Ｓ３０９にて、相関演算部２０８は、Ｓ３０４により得られたテンプレートの参照画像特徴４０３と参照画像に対応したデフォーカス量特徴４０４を結合し、参照特徴４０９を得る。その際、テンプレート特徴を特定の領域のみ切り出してもよい。さらに、相関演算部２０８は、探索画像特徴４０７と探索画像に対応したデフォーカス量特徴４０８を結合し、探索特徴４１０を得る。そして、相関演算部２０８は、参照特徴４０９と探索特徴４１０に関して相関演算を行い、相関演算結果４１１を得る。

Ｓ３１０にて、追尾結果算出部２０６は、Ｓ３０９で得られた相関演算結果４１１を追尾対象物体検出ニューラルネットワークに入力し、尤度マップ４１２、サイズマップ４１３、位置ずれマップ４１４を出力する。図７（ａ）は尤度マップ４１２、同図（ｂ）は拡大したサイズマップ４１３と位置ずれマップ４１４を示している。尤度マップ４１２は、あらかじめ決められたグリッドのそれぞれのマスにおいて、０～１の実数値を取る。例えば、追尾対象物体５０５が存在する尤度マップ４１２上のマス７０１の値がその他のマスの値と比べて相対的に大きければ、追尾対象物体５０５に正しく反応していると言える。サイズマップは、追尾対象物体５０５の幅７０２および高さ７０３を推定するものである。また、位置ずれマップは尤度マップ４１２のグリッド内で追尾対象物体５０５が存在するマスにおける位置ずれを推定するものである。より具体的には、図７（ｂ）に示すように、マス７０１の左上隅を基準に、追尾対象物体７０５の中心の水平方向の位置ずれ７０４と垂直方向の位置ずれ７０５を推定する。

Ｓ３１１にて、誤差算出部２１０は、追尾対象の位置とサイズの推論結果に対する損失を計算する。目的は、追尾対象物体を正しく検出できるよう学習を進めることである。そこで、誤差算出部２１０は、推定された尤度マップに対する損失Ｌｏｓｓ_c、サイズに対する損失Ｌｏｓｓ_s、位置ずれに対する損失Ｌｏｓｓ_lを計算する。

損失Ｌｏｓｓ_cは次式（１）で定義される。式（１）は、Ｓ３１０より得られた追尾対象物体の尤度マップをＣ_inf、ＧＴとなるマップをＣ_gtとおき、マップＣ_infとマップＣ_gtの各グリッドのマスの値に対して交差クロスエントロピー誤差の和をＬｏｓｓ_cとして算出することを示しいる。ここで、Ｃ_gtは、追尾対象物体が存在する位置の値が１、それ以外は０となるマップである。

損失Ｌｏｓｓ_sは次式（２）で定義される。式（２）は、Ｓ３１０より得られた追尾対象物体のサイズマップＳ_infと、ＧＴとなるＳ_gtの各グリッドのマスの値に対して２乗誤差の和を、損失Ｌｏｓｓ_sとすることを示している。

損失Ｌｏｓｓ_lは次式（３）で定義される。式（３）は、Ｓ３１０より得られた追尾対象物体の位置ずれマップＬ_infと、ＧＴとなるＬ_gtの各グリッドのマスの値に対して２乗誤差の和を、損失Ｌｏｓｓ_lとすることを示している。

最後に、上記３つの損失を統合した値ｌｏｓｓ_infが次式（４）で算出される。
Loss_inf＝Loss_c ＋ Loss_s ＋ Loss_l …（４）
なお、実施形態では、損失を二値クロスエントロピーおよび平均二乗誤差の形で記述したが、損失はこれらに限らない。

Ｓ３１２において、パラメータ更新部２１１が、Ｓ３１１において計算された損失に基づいて、誤差逆伝播法を用いて画像特徴抽出用ニューラルネットワーク、デフォーカス量特徴抽出用ニューラルネットワーク、および、追尾対象物体検出ニューラルネットワークのパラメータを更新する。ここで更新するパラメータは、追尾処理部２０６における特徴抽出部２０７、追尾結果算出部２０９におけるニューラルネットワークの重みなどを指す。

Ｓ３１３にて、パラメータ更新部２１１により更新されたニューラルネットワークのパラメータをパラメータ記憶部２１２に保存する。ここまでの流れを１イテレーションの学習とする。

Ｓ３１４にて、パラメータ更新部２１１が、学習を終了するかどうかを判定する。学習の終了判定は、式（４）で得られた損失の値が、予め接零された閾値より小さくなった場合に終了と判定するものとする。また、あらかじめ定められた回数（ユーザが入力部１０１より設定or選択可能とする）の学習がなされた場合を終了と判定してもよい。

続いて、上記学習ステージを経て推論ステージに移行した場合の情報処理装置１００の構成と処理を説明する。

図８は、推論ステージにおける情報処理装置１００の機能構成図を示している。情報処理装置１００は、画像データ取得部８０１、デフォーカス量データ取得部８０２、追尾処理部８０３、及び、パラメータ記憶部２１２を有する。そして、追尾処理部８０３は、特徴抽出部８０４、相関演算部８０５、追尾結果算出部８０６を有する。以下、各構成について説明する。

なお、以下の説明で推論ステージ利用する参照画像及び参照画像用のデフォーカス量マップ、更には、探索画像及び探索画像用のデフォーカス量マップは、既にデータ保持部１０２に格納されているものとする。ただし、これらは通信部１０７を介して外部の撮像装置等から入力しても構わない。

画像データ取得部８０１は、追尾対象画像および探索画像を取得し、それらを追尾処理部８０３に供給する。デフォーカス量データ取得部８０２は、追尾対象画像および探索画像のそれぞれに対応するデフォーカス量マップを取得し、それらを追尾処理部８０３に供給する。

追尾処理部８０３における特徴抽出部８０４は、画像データ取得部８０１から供給された追尾対象画像および探索画像を個別に画像特徴抽出用のニューラルネットワークに入力し、１枚の画像につき１つの特徴マップを抽出させる。また、特徴抽出部８０４は、デフォーカス量データ取得部８０２から供給された追尾対象画像および探索画像のそれぞれに対応するデフォーカス量マップを個別にデフォーカス量特徴抽出用ニューラルネットワークに入力し、１枚のデフォーカス量マップにつき１つの特徴マップを抽出させる。

相関演算部８０５は、追尾対象の特徴と探索の特徴に関する相関演算を行う。具体的に説明すると、相関演算部８０５は、特徴抽出部８０４の特徴抽出ニューラルネットワークから得られた追尾対象画像の特徴マップおよびそれに対応するデフォーカス量マップの特徴マップを結合し、追尾対象の領域の周辺領域を切り出して参照特徴とする。さらに、相関演算部８０５は、探索画像とそれに対応するデフォーカス量マップから特徴抽出部８０３が抽出した特徴を結合し、探索特徴とする。そして、相関演算部８０５は、上記で得た参照特徴と探索特徴に関して相関演算を行う。

追尾結果算出部８０６は、相関演算部８０５から得られた特徴マップを追尾対象物体検出ニューラルネットワークに入力し、追尾対象物体の位置に強く反応する尤度マップとサイズマップ、位置ずれマップを用いて追尾対象物体の位置とサイズを推定する。

パラメータ記憶部２１２は、学習時に更新されたパラメータを記憶しており、追尾処理部８０３内のニューラルネットワークのパラメータはパラメータ記憶部２１２から取得される。

図９は、本実施形態におけるニューラルネットワークの推論ステージにおける処理手順を示すフローチャートである。ただし、情報処理装置１００はこのフローチャートで説明するすべてのステップを必ずしも行わなくても良い。

Ｓ９０１にて、画像データ取得部８０１は、追尾対象物体が映る画像（追尾対象画像）を取得する。

Ｓ９０２にて、デフォーカス量データ取得部８０２が、追尾対象画像に対応するデフォーカス量マップを取得する。

Ｓ９０３にて、追尾処理部８０３は、表示部１０４に追尾対象画像を表示し、そして、入力部１０１を介してのユーザからの指示に従い、表示中の追尾対象画像中の領域を指定し、追尾対象物体を設定させる。表示部１０４がタッチ入力を許容するなら、ユーザからのタッチした位置の物体を追尾対象とする。それ以外の手法で、追尾対象物体を検出しても構わず、例えば、物体検出器で物体を検出するなどの方法が考えられる。

Ｓ９０４にて、追尾処理部８０３は、追尾対象物体周辺の画像およびデフォーカス量マップを切り出す。

Ｓ９０５にて、特徴抽出部８０４は、Ｓ９０４により得られた切り出し画像を画像特徴抽出用ニューラルネットワークに供給して、追尾対象物体の領域に対応する画像特徴を得る。また、特徴抽出部８０４は、Ｓ９０４により得られた、切り出しデフォーカス量マップをデフォーカス量特徴抽出用ニューラルネットワークに供給して、デフォーカス量特徴を得る。

Ｓ９０６にて、画像データ取得部８０１は、追尾対象物体を探索する画像を取得する。例えば、Ｓ９０１において選ばれた追尾対象画像の次の時刻の画像を、追尾対象物体を探索する画像として取得する。

Ｓ９０７にて、デフォーカス量データ取得部８０２は、探索画像に対応するデフォーカス量マップを取得する。

Ｓ９０８にて、追尾処理部８０３は、Ｓ９０６で取得した探索画像およびＳ９０７で取得したデフォーカス量マップを切り出し、リサイズする。切り出す領域は、例えば、前時刻の推定された追尾対象物体の周辺領域とする。

Ｓ９０９にて、特徴抽出部８０４は、Ｓ９０８により得られた画像を画像特徴抽出用ニューラルネットワークに入力して探索画像特徴を得る。また、特徴抽出部８０４は、Ｓ９０８により得られたデフォーカス量マップをデフォーカス量特徴抽出用ニューラルネットワークに入力し、デフォーカス量特徴を得る。

Ｓ９１０にて、相関演算部８０５は、Ｓ９０５により得られた追尾対象物体の画像特徴とデフォーカス量特徴を結合し、追尾対象特徴とする。その際、追尾対象物体の特徴を特定の領域のみ切り出してもよい。さらに、相関演算部８０５は、Ｓ９０９により得られた探索範囲画像およびデフォーカス量特徴を結合し、探索特徴とする。そして、相関演算部８０５は、追尾対象特徴と探索特徴に関する相関演算を行う。

Ｓ９１１にて、追尾結果算出部８０６は、Ｓ９１０により得られた相関演算の結果を追尾対象物体検出ニューラルネットワークに入力し、尤度マップ、サイズマップ、位置ずれマップの推定値を出力させる。

以上説明したように本第１の実施形態によれば、入力データに画像だけでなくデフォーカス量マップを加えることにより、奥行方向の情報が加わり、画素パターンや色ヒストグラムが類似した物体においても、奥行方向の差異から追尾対象を識別できる。さらに、追尾対象物体に対して奥行方向に近い位置に類似物体がある場合でも、デフォーカス量マップの特徴抽出によって輪郭情報を含む特徴を用いることができ、追尾対象の識別が可能となる。

［第２の実施形態］
デフォーカス量データが必ずしも正確でない場合に、当該デフォーカス量データを参照してしまうと、追尾性能が低下する可能性がある。そこで本実施形態では、前述の対策を講じる。

図１０は、学習ステージにおける情報処理装置１００におけるデフォーカス量データ取得部２０４の機能構成図である。本第２の実施形態の場合、デフォーカス量データ取得部２０４は、デフォーカス量マップ取得部１００１と、信頼値マップ取得部１００２を有する。

デフォーカス量マップ取得部１００１は、第１の実施形態と同様、デフォーカス量マップを取得する。そして、信頼値マップ取得部１００２は、デフォーカス量マップに対応する信頼値マップを取得する。

ここで、信頼値マップについて説明する。信頼値マップは、デフォーカス量マップに対応するマップであり、信頼値が小さい場合は対応するデフォーカス量の信頼性が低いものとする。信頼値の算出方法は何でもよく、例えば特許文献２のように水平方向に視差をもつ一対の画像領域から検出される像ズレ量に基づいて算出してもよい。

信頼値マップ取得部１００２で取得した信頼値マップは、第１の実施形態におけるデフォーカス量マップと同様に扱う。より具体的には、図３のフローチャートの学習において以下の操作を行う。

Ｓ３０２にて、デフォーカス量データ取得部２０４は、参照画像に対応するデフォーカス量マップを取得するとともに、それに対応する信頼値マップを取得する。

Ｓ３０３にて、画像データ取得部２０３は、参照画像、デフォーカス量マップに加えて、信頼値マップについても切り出しを行う。

Ｓ３０４にて、特徴抽出部２０７は、Ｓ３０３で切り出した参照画像を画像特徴抽出用ニューラルネットワークに、デフォーカス量マップと信頼値マップをデフォーカス量特徴抽出用ニューラルネットワークに入力して特徴抽出を行う。

Ｓ３０６にて、デフォーカス量データ取得部２０３は、探索画像に対応するデフォーカス量マップを取得するとともに、それに対応する信頼値マップを取得する。

Ｓ３０７において、画像データ取得部２０３は探索画像、デフォーカス量マップ、更には、信頼値マップについても切り出しとリサイズを行う。

Ｓ３０８にて、特徴抽出部２０７は、Ｓ３０７で切り出した探索画像を画像特徴抽出用ニューラルネットワークに入力し、探索画像特徴４０７を得る。また、特徴抽出部２０７は、デフォーカス量マップと信頼値マップをデフォーカス量特徴抽出用ニューラルネットワークに入力してデフォーカス量特徴を得る。

Ｓ３０９において、相関演算部２０８は、Ｓ３０４により得られた参照画像特徴とそれに対応するデフォーカス量特徴を結合し、参照特徴とする。その際、テンプレート特徴を特定の領域のみ切り出してもよい。さらに、Ｓ３０８により得られた探索画像特徴およびそれに対応するデフォーカス量特徴を結合し、探索特徴とする。そして、参照特徴と探索特徴に関して相関演算を行う。

Ｓ３１０以降は第１の実施形態と同様の操作を実施する。

上記第２の実施形態によれば、デフォーカス量マップとともに信頼値マップを特徴抽出ニューラルネットワークに入力することにより、信頼値が低い領域は尤度マップ、サイズマップ、位置ずれマップの推定に影響しないように学習される。これにより、信頼値マップが低い場合でも、追尾性能を維持または向上させることができる。

［第３の実施形態］
デフォーカス量データは、使用するレンズの光学特性およびフォーカスレンズの位置やズーム位置などの撮影条件によって異なる。そのため、特定の光学特性を持つレンズで、かつ特定の撮影条件で取得されたデフォーカス量データで学習した場合、それにより得られるパラメータは、前述の条件に合致したレンズの光学特性および撮影条件でしか追尾性能向上の効果が得られない。一方、様々なレンズおよび撮影条件で取得されたデフォーカス量データを学習で使用する場合は、膨大なデータ量での学習を必要とする。そこで本第３の実施形態では、前述の対策を講じる。

図１１は、学習ステージにおける情報処理装置１００におけるデフォーカス量データ取得部２０４の機能構成図である。本第３の実施形態の場合、デフォーカス量データ取得部２０４は、デフォーカス量マップ取得部１１０１と、距離変換部１１０２を有する。以下に、距離変換部１１０２について説明する。

デフォーカス量マップ取得部１１０１は、第１の実施形態と同様にデフォーカス量マップを取得する。距離変換部１１０２は、デフォーカス量マップ取得部１１０１で取得されたデフォーカス量マップを、デフォーカス量が０の位置を基準とした距離マップに変換する。デフォーカス量マップを距離マップに変換する方法は特に問わないが、ここでは幾何学的に変換する方法と、変換パラメータを学習により求める方法の２つを説明する。

図１２は、本実施形態における幾何学的にデフォーカス量マップを距離マップに変換するフローチャートを示している。

Ｓ１２０１にて、距離変換部１１０２は、これから変換するデフォーカス量マップを取得時に使用された撮像装置が使用したレンズの光学特性を取得する。ここでレンズの光学特性とは、被写体側距離、像面側距離、焦点距離の関係を指す。

Ｓ１２０２にて、距離変換部１１０２は、デフォーカス量マップ取得時の画像の撮影条件を取得する。ここで撮影条件とは、撮像装置が使用したレンズにおけるフォーカスレンズの位置、焦点距離を指す。

Ｓ１２０３にて、距離変換部１１０２は、デフォーカス量マップの値とＳ１２０２で取得したフォーカスレンズの位置から、像面側距離を算出する。そして、距離変換部１１０２は、前述の像面側距離、Ｓ１２０２で取得した焦点距離から、Ｓ１２０１で取得した光学特性により、被写体側距離を算出し、デフォーカス量が０の位置を基準とした距離マップに変換する。

以上が、幾何学的にデフォーカス量マップを距離マップに変換する方法である。

一方、レンズの光学特性および撮影条件が未知のデータの場合は、幾何学的な変換ができない。そのような場合は、幾何学的な変換ではなく、レンズの光学特性および撮影条件が既知のデータにより変換パラメータを学習して求める方法により、距離変換を行う。以下に、学習の方法を説明する。

図１３は、第３の本実施形態におけるデフォーカス量マップの距離マップ変換パラメータの学習処理を示すフローチャートである。

Ｓ１３０１にて、距離変換部１１０２は、デフォーカス量マップを取得する。そして、Ｓ１３０２にて、距離変換部１１０２は、デフォーカス量マップを入力とし、デフォーカス量が０の位置を基準とした距離マップを予測する。

Ｓ１３０３にて、距離変換部１１０２は、デフォーカス量マップ取得時に使用したレンズの光学特性を取得する。Ｓ１３０４にて、距離変換部１１０２は、デフォーカス量マップ取得時の撮影条件を取得する。そして、Ｓ１３０５において、Ｓ１３０３で取得したレンズの光学特性およびＳ１３０４で取得した撮影条件に基づいて、幾何学的にデフォーカス量マップを距離マップに変換する。この変換で得たデータを正解データとする。

Ｓ１３０６にて、距離変換部１１０２は、Ｓ１３０２で予測した距離マップと、Ｓ１３０５で変換した正解データから交差エントロピー誤差を算出し、これを損失とする。

Ｓ１３０７に、距離変換部１１０２は、Ｓ１３０６において計算された損失に基づいて、誤差逆伝播法を用いて距離マップ予測のパラメータを更新する。ここで更新するパラメータは、距離マップ予測におけるニューラルネットワークの重みなどを指す。

Ｓ１３０８にて、距離変換部１１０２は、Ｓ１３０７で更新されたニューラルネットワークのパラメータを記憶する。ここまでの流れを１イテレーションの学習とする。

Ｓ１３０９にて、距離変換部１１０２は、学習を終了するかどうかを判定する。学習の終了判定は、Ｓ１３０６で得られた損失の値が所定の閾値より小さくなった場合に終了と判定する。或いは、あらかじめ定められた回数の学習がなされた場合に終了と判定してもよい。

以上のように幾何学的または学習により作成された距離変換部１１０２は、追尾の学習または推論の際に、デフォーカス量マップを取得後に使われる。

より具体的には、例えば学習の際、Ｓ３０２において、デフォーカス量マップ取得部により参照画像に対応したデフォーカス量マップを取得する。そして、そのデフォーカス量マップを距離変換部１１０２により距離マップに変換する。

また、Ｓ３０６において、デフォーカス量マップ取得部により探索画像に対応したデフォーカス量マップを取得する。そして、そのデフォーカス量マップを距離変換部１１０２により距離マップに変換する。以降の学習のフローは、第１の実施形態と同様である。

以上説明したように第３の実施形態によれば、レンズの光学特性および撮影条件を用いることにより、デフォーカス量マップをデフォーカス量が０に位置を基準とした距離マップに変換することができる。また、レンズの光学特性および撮影条件が既知のデータを用いて距離マップ予測の変換パラメータを学習することにより、レンズの光学特性および撮影条件が未知のデータから精度良く距離マップを予測することができる。

以上より、様々なレンズの光学特性および撮影条件で取得されたデフォーカス量マップを一定の距離マップに変換できるため、使用するレンズの光学特性および撮影条件に捉われない追尾の学習、推論が可能となる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本明細書の開示は、以下の情報処理装置及びその制御方法及びプログラムを含む。
（項目１）
追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第１の取得手段と、
前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第２の取得手段と、
前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出手段と、
前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算手段と、
前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出手段とを有する情報処理装置であって、
前記抽出手段および前記追尾結果算出手段が利用するパラメータは、
前記追尾対象物体の位置を含む正解データを取得する正解データ取得手段、
前記追尾結果と前記正解データから誤差を算出する誤差算出手段、
前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新手段による学習によって得る
ことを特徴とする情報処理装置。
（項目２）
前記参照画像用、及び、前記探索画像用のデフォーカス量マップは、前記デフォーカス量の信頼値を示す信頼値マップを含むことを特徴とする項目１に記載の情報処理装置。
（項目３）
前記参照画像用、及び、前記探索画像用のデフォーカス量マップは、前記デフォーカス量が０の位置からの距離マップに変換されることを特徴とする項目１又は２に記載の情報処理装置。
（項目４）
前記距離マップの距離は、前記デフォーカス量マップ取得時に使用したレンズの光学特性および撮影条件により決定されることを特徴とする項目３に記載の情報処理装置。
（項目５）
前記距離マップの距離は、
前記デフォーカス量マップ取得時に使用したレンズの光学特性および撮影条件が既知の前記デフォーカス量マップと、
前記デフォーカス量マップから前記レンズの光学特性および前記撮影条件により距離に変換された距離マップによって学習された予測部を用いて予測されること
を特徴とする項目３に記載の情報処理装置。
（項目６）
情報処理装置の制御方法であって、
追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第１の取得工程と、
前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第２の取得工程と、
前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出工程と、
前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算工程と、
前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出工程とを有し、
前記抽出工程および前記追尾結果算出工程が利用するパラメータは、
前記追尾対象物体の位置を含む正解データを取得する正解データ取得工程、
前記追尾結果と前記正解データから誤差を算出する誤差算出工程、
前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新工程による学習によって得る
ことを特徴とする情報処理装置の制御方法。
（項目７）
コンピュータが読み込み実行することで、前記コンピュータに、項目１乃至項目５のいずれか１つに記載の装置が有する各手段として機能させるためのコンピュータプログラム。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

２０１…学習データ記憶部、２０２…学習データ取得部、２０３…画像データ取得部、２０４…デフォーカス量データ取得部、２０５…正解データ取得部、２０６…追尾処理部、２０７…特徴抽出部、２０８…相関演算部、２０９…追尾結果算出部、２１０…誤差算出部、２１１…パラメータ更新部、２１２…パラメータ記憶部

Claims

追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第１の取得手段と、
前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第２の取得手段と、
前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出手段と、
前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算手段と、
前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出手段とを有する情報処理装置であって、
前記抽出手段および前記追尾結果算出手段が利用するパラメータは、
前記追尾対象物体の位置を含む正解データを取得する正解データ取得手段、
前記追尾結果と前記正解データから誤差を算出する誤差算出手段、
前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新手段による学習によって得る
ことを特徴とする情報処理装置。
前記参照画像用、及び、前記探索画像用のデフォーカス量マップは、前記デフォーカス量の信頼値を示す信頼値マップを含むことを特徴とする請求項１に記載の情報処理装置。
前記参照画像用、及び、前記探索画像用のデフォーカス量マップは、前記デフォーカス量が０の位置からの距離マップに変換されることを特徴とする請求項１又は２に記載の情報処理装置。
前記距離マップの距離は、前記デフォーカス量マップ取得時に使用したレンズの光学特性および撮影条件により決定されることを特徴とする請求項３に記載の情報処理装置。
前記距離マップの距離は、
前記デフォーカス量マップ取得時に使用したレンズの光学特性および撮影条件が既知の前記デフォーカス量マップと、
前記デフォーカス量マップから前記レンズの光学特性および前記撮影条件により距離に変換された距離マップによって学習された予測部を用いて予測されること
を特徴とする請求項３に記載の情報処理装置。
情報処理装置の制御方法であって、
追尾対象物体を含む参照画像と、前記追尾対象物体を含む探索画像を取得する第１の取得工程と、
前記参照画像を構成する各画素におけるデフォーカス量を示す値で構成される参照画像用のデフォーカス量マップ、及び、前記探索画像を構成する各画素におけるデフォーカス量を示す値で構成される探索画像用のデフォーカス量マップを取得する第２の取得工程と、
前記参照画像、前記探索画像、前記参照画像用のデフォーカス量マップ、前記探索画像用のデフォーカス量マップの各々から特徴を抽出する抽出工程と、
前記参照画像と前記探索画像の特徴、および前記参照画像用のデフォーカス量マップと前記探索画像用のデフォーカス量マップの特徴に関する相関演算を行う相関演算工程と、
前記相関演算の結果を用いて前記探索画像における前記追尾対象物体の位置を含む追尾結果を算出する追尾結果算出工程とを有し、
前記抽出工程および前記追尾結果算出工程が利用するパラメータは、
前記追尾対象物体の位置を含む正解データを取得する正解データ取得工程、
前記追尾結果と前記正解データから誤差を算出する誤差算出工程、
前記誤差に基づき、前記特徴抽出部及び前記追尾結果算出部のパラメータを更新するパラメータ更新工程による学習によって得る
ことを特徴とする情報処理装置の制御方法。
コンピュータが読み込み実行することで、前記コンピュータに、請求項６に記載の方法が有する各工程を実行させるためのコンピュータプログラム。