JP2022020353A

JP2022020353A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2022020353A
Application number: JP2020123796A
Authority: JP
Inventors: 修平小川; Shuhei Ogawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2022-02-01
Also published as: CN116157831A; US20230154016A1; WO2022019076A1; EP4184431A1

Abstract

【課題】特定の物体を追尾できる。【解決手段】複数の時刻において撮像された画像から特定の物体を追尾する情報処理装置であって、入力された画像における所定の物体の位置を検出する学習済みモデルに基づいて、追尾対象の特徴量を保持する保持手段と、前記学習済みモデルに基づいて、複数の画像における物体の特徴量を取得する取得手段と、前記追尾対象の特徴量と、前記複数の画像から取得された前記物体の特徴量と、に基づいて、前記追尾対象と類似した候補物体を検出する検出手段と、前記複数の画像のうち第１の画像において検出された前記候補物体と、前記第１の画像と異なる時刻に撮像された第２の画像における前記候補物体と、の対応関係を特定する特定手段と、を有することを特徴とする。【選択図】図２

Description

本発明は、画像内の特定の被写体を追尾するための技術に関する。

画像内の特定の被写体を追尾するための技術としては、輝度や色情報を利用するものやテンプレート対応付けなどが存在するが、近年、ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（以下ＤＮＮと省略）を利用した技術が、高精度な追尾技術として注目を集めている。例えば非特許文献１は、画像内の特定の被写体を追尾するための方法の１つである。追尾対象が映った画像と、探索範囲となる画像を、重みが同一のＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（以下ＣＮＮと省略）にそれぞれ入力する。そして、ＣＮＮから得られたそれぞれの特徴量同士の相互相関を計算することによって、探索範囲の画像中で追尾対象が存在する位置を特定する。

特開２０１３－２１９５３１号広報

Ｂｅｒｔｉｎｅｔｔｏ，"Ｆｕｌｌｙ－ＣｏｎｖｏｌｕｔｉｏｎａｌＳｉａｍｅｓｅＮｅｔｗｏｒｋｓｆоｒＯｂｊｅｃｔＴｒａｃｋｉｎｇ"，ａｒＸｉｖ２０１６

しかしながら。非特許文献１は、画像内に追尾対象に類似した物体が存在した場合は、類似物体との相互相関値が高くなることにより、類似物体を誤って追尾対象として追尾するエラーが発生する可能性がある。また、特許文献１は、追尾対象と類似した物体が、追尾対象の近傍に存在した場合に、追尾対象と類似物体それぞれの位置を予測する。しかしながら、特許文献１に示される方法では、追尾対象の位置のみを予測に用いるため、予測される位置と離れた位置に追尾対象が存在する場合や、追尾対象と類似物体が近接している場合に、追尾対象を見失うことが発生する可能性がある。

本発明は、このような課題に鑑みなされたものであり、特定の物体を追尾することを目的とする。

上記課題を解決する本発明にかかる情報処理装置は、複数の時刻において撮像された画像から特定の物体を追尾する情報処理装置であって、入力された画像における所定の物体の位置を検出する学習済みモデルに基づいて、追尾対象の特徴量を保持する保持手段と、前記学習済みモデルに基づいて、複数の画像における物体の特徴量を取得する取得手段と、前記追尾対象の特徴量と、前記複数の画像から取得された前記物体の特徴量と、に基づいて、前記追尾対象と類似した候補物体を検出する検出手段と、前記複数の画像のうち第１の画像において検出された前記候補物体と、前記第１の画像と異なる時刻に撮像された第２の画像における前記候補物体と、の対応関係を特定する特定手段と、を有することを特徴とする。

本発明によれば、特定の物体を追尾できる。

情報処理装置のハードウェア構成例を示す図情報処理装置の機能構成例を示すブロック図情報処理装置が実行する処理手順を示すフローチャート追尾対象決定部が実行する処理手順を示すフローチャート物体検出部が実行する処理手順を示すフローチャート情報処理装置が実行する処理手順を示すフローチャート追尾部が実行する処理手順を示すフローチャート追尾対象が遮蔽される例を示す図画像における追尾対象の位置を検出する例を示す図情報処理装置が実行する処理手順を示すフローチャート遮蔽判定の例を示す図複数の候補物体が検出された画像の一例を示す図情報処理装置の機能構成例を示すブロック図情報処理装置が実行する処理手順を示すフローチャート取得されたテンプレート画像と探索範囲画像の一例を示す図学習済みモデルによって出力されたマップの一例を示す図学習モデルに用いる教師データの一例を示す図情報処理装置の機能構成例を示すブロック図情報処理装置の機能構成例を示すブロック図情報処理装置が実行する処理手順を示すフローチャート

＜実施形態１＞
＜学習済みのモデルを用いた実行フェーズの処理＞
本発明の実施形態に係る情報処理装置を、図面を参照しながら説明する。なお、図面間で符号の同じものは同じ動作をするとして重ねての説明を省く。また、この実施の形態に掲載されている構成要素はあくまで例示であり、この発明の範囲をそれらのみに限定する趣旨のものではない。

本実施形態では、追尾対象と、追尾対象に類似した物体を同時に追尾することにより、追尾対象と類似する物体が多い状況や、追尾対象が他の物体によって遮蔽された状態が発生しても安定して追尾を継続する例を説明する。すなわち、類似した物体が存在している場合においてもそれぞれの物体を安定して追尾することを目的とする。

図１は、本実施形態における、複数の時刻において撮像された画像から特定の物体を追尾する情報処理装置１のハードウェア構成図である。ＣＰＵＨ１０１は、ＲＯＭＨ１０２に格納されている制御プログラムを実行することにより、本装置全体の制御を行う。ＲＡＭＨ１０３は、各構成要素からの各種データを一時記憶する。また、プログラムを展開し、ＣＰＵＨ１０１が実行可能な状態にする。

記憶部Ｈ１０４は、本実施形態の処理対象となるデータを格納するものであり、追尾対象となるデータを保存する。記憶部Ｈ１０４の媒体としては、ＨＤＤ，フラッシュメモリ、各種光学メディアなどを用いることができる。入力部Ｈ１０５は、キーボード・タッチパネル、ダイヤル等で構成され、ユーザからの入力を受け付けるものであり、追尾対象を設定する際になどに用いられる。表示部Ｈ１０６は、液晶ディスプレイ等で構成され、被写体や追尾結果をユーザに対して表示する。また、本装置は通信部Ｈ１０７を介して、撮影装置等の他の装置と通信することができる。

図２は、情報処理装置１の機能構成例を示すブロック図である。情報処理装置１は、画像取得部２０１、追尾対象決定部２０２、保持部２０３、物体検出部２０４、追尾部２０５を有し、それぞれの構成部は記憶部２０６に接続されている。なお、記憶部２０６は外部装置にあってもよいし、情報処理装置１が有していてもよい。それぞれの機能構成部について簡単に説明する。画像取得部２０１は、撮像装置によって所定の物体を撮像した画像を取得する。所定の物体とは、例えば、人物や車両といった物体であって、ある程度個体に差があるような物体である。以下の実施形態では具体的な例として人物の追尾について説明する。追尾対象決定部２０２は、画像に含まれる物体のうち、追尾対象（注目物体）となる物体を決定する。保持部２０３は、初期の画像から追尾対象の候補となる物体の特徴量を保持する。物体検出部２０４は、複数の時刻で撮像された画像から物体の位置を検出する。追尾部２０５は、複数の時刻で撮像された画像から、追尾対象を特定し、追尾する。

図３は本実施形態の処理の流れを示したフローチャートである。以下の説明では、各工程（ステップ）について先頭にＳを付けて表記することで、工程（ステップ）の表記を省略する。ただし、情報処理装置はこのフローチャートで説明するすべての工程を必ずしも行わなくても良い。ＣＰＵＨ１０１において実行される処理を、それぞれ機能ブロックとして示している。

Ｓ３０１では、画像取得部２０１が、所定の物体を撮像した画像（初期画像）を取得する。なお、画像取得部２０１は、情報処理装置に接続された撮像装置によって撮像された画像を取得してもよいし、記憶部Ｈ１０４に記憶された画像を取得してもよい。なお、Ｓ３０１からＳ３０３の処理では、初期画像を用いて、追尾対象となる注目物体を設定することを目的とする。

Ｓ３０２では、追尾対象決定部２０２が、Ｓ３０１で取得された画像から追尾対象（注目物体）となる物体を決定する。追尾対象は１つであっても、複数であってもよい。本実施形態では追尾対象をひとつ選ぶ例を説明する。ここでは、所定の物体の位置を検出する学習済みモデルを用いて画像から所定の物体を示す画像特徴の位置を取得し、注目物体を含む部分画像を決定する。学習済みモデルは、例えば、人物や車両といった所定の物体について予め画像特徴を学習したモデルを用いる。学習方法については後述する。画像から１つの物体が検出された場合はそれを追尾対象とする。画像から所定の物体が検出されなかった場合は、例えば、次のフレームの画像を入力してもよい。複数の物体が取得された場合は追尾対象の候補を出力し、予め指定された方法で追尾対象を決定する。ここでは、入力部Ｈ１０５により指定された指示に従って、取得された画像内の追尾対象（注目物体）を決定する。

追尾対象を決定する具体的な方法としては、表示部Ｈ１０５に表示された被写体をタッチすることにより追尾対象を決定する方法がある。なお、追尾対象は入力部Ｈ１０５により指定される以外にも、画像内の主被写体等を自動的に検出して決定してもよい。画像内主被写体を自動的に検出する方法としては、例えば、特許第６５５６０３３号が挙げられる。また、入力部Ｈ１０５による指定と画像内の物体検出結果の両方に基づいて決定してもよい。画像内から物体を検出する技術としては、“Ｌｉｕ，ＳＳＤ：ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ．Ｉｎ：ＥＣＣＶ２０１６”等が挙げられる。

画像内から追尾対象の候補を検出した結果を図１２に示す。図１２中の人物１３０３、人物１３０５、人物１３０７がそれぞれ追尾対象の候補である。枠１３０３、枠１３０５、枠１３０７が検出された候補の位置を示すＢｏｕｎｄｉｎｇＢｏｘ（以下ＢＢ）である。ユーザは、表示部１０６に示された候補ＢＢのうち、いずれかをタッチすること、もしくはダイヤル等で選択することにより、追尾対象を決定することができる。このように追尾対象を決定する手段は様々あるが、本実施形態は、追尾対象を指定する手段を限定するものではない。

Ｓ３０３では、保持部２０３が、学習済みモデルに基づいて、決定された追尾対象を含む画像から追尾対象の特徴量を保持する。特徴量保持処理について、Ｓ３０３の詳細なフローチャートを図４に示す。保持部２０２は、画像取得部２０１により得られた画像と、追尾対象決定部２０２により得られた追尾対象の位置を示すＢｏｕｎｄｉｎｇＢｏｘ（以下ＢＢ）に基づいて、追尾対象を表現するテンプレート特徴量を生成し、保持する。

まず、Ｓ４０１において、保持部２０３は、追尾対象決定部２０２により決定された追尾対象の画像内における位置についての情報を取得する。ここで取得される追尾対象の位置についての情報を、以下ＢｏｕｎｄｉｎｇＢｏｘ（以下ＢＢ）と呼ぶ。なお、追尾対象の位置についての情報は、Ｓ３０２において、追尾対象が決定されたときに、ユーザによって追尾対象の中心位置を入力した情報や、学習モデルによって追尾対象の所定の位置（例えば重心）を検出した結果を用いる。

次に、Ｓ４０２において、保持部２０２は、画像における追尾対象の位置に基づいて、追尾対象を示す画像を所定の大きさに抽出したテンプレート画像を取得する。すなわち、Ｓ４０１により得られた領域の周辺を初期画像からテンプレート画像として切り出し、所定のサイズにリサイズする。所定のサイズは、学習済みモデルの入力画像の大きさに合わせてもよい。

その後、Ｓ４０３では、保持部２０２は、追尾対象を示すテンプレート画像を、入力された画像における所定の物体の位置を検出する学習済みモデルに入力することによって、追尾対象の特徴量を取得する。ここでは、Ｓ４０２においてリサイズされた画像をＣＮＮ（学習済みモデル）に入力する。ＣＮＮは追尾対象と非追尾対象を分別しやすい特徴量が得られるようあらかじめ学習されている。学習の方法は後述する。ここで、ＣＮＮは、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）と、ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ（以下ＲｅＬＵ）や、ＭａｘＰｏｏｌｉｎｇといった非線形変換から構成される。ここで説明するＲｅＬＵや、ＭａｘＰｏｏｌｉｎｇは、あくまで一例を示すものである。ＲｅＬＵのかわりに、ＬｅａｋｙＲｅＬＵや、Ｓｉｇｍｏスコア関数等を用いてもよいし、ＭａｘＰｏｏｌｉｎｇのかわりにＡｖｅｒａｇｅＰｏｏｌｉｎｇ等を用いてもよい。本実施形態はこれらを限定するものではない。その後Ｓ４０４において、保持部２０２は、Ｓ４０３で得られた追尾対象の特徴量を、追尾対象を示すテンプレート特徴量として保持する。以上の処理が追尾対象の設定フェーズの処理である。

次に、Ｓ３０４では、画像取得部２０１が、追尾処理を行うために、複数の時刻で撮像された画像を取得する。以降の処理においては、第１の画像で設定された追尾対象を、第１の画像と異なる時刻で撮像された第２の画像から検出する処理について説明する。また、第１の画像と第２の画像にはなるべく追尾対象が映るようにして撮像されたものとする。

Ｓ３０５においては、追尾対象の特徴量と、複数の画像から取得された物体の特徴量と、に基づいて、追尾対象と類似した候補物体を検出する。Ｓ３０５において、物体検出部２０４が実行する処理を説明するフローチャートを図５に示す。なお、Ｓ３０４以降の処理は、追尾対象を決定した画像より後に撮像された画像を対象にした処理であり、追尾対象を画像から検出する処理である。

まず、Ｓ５０１において、物体検出部２０４は、現在の画像（第２の画像）から、追尾対象を探索する領域を示す探索範囲画像（部分画像）を取得する。ここでは、前回の追尾対象または候補物体の検出位置に基づいて探索範囲画像を取得する。すなわち、第２の画像において、第１の画像（過去の画像）から検出した候補物体の近傍に対応する領域から、所定の大きさの部分画像を抽出する。物体の速度や画像の画角に応じて探索領域の大きさを変えてもよい。また、探索領域は探索画像全体としてもよいし、前回の追尾対象の位置周辺としてもよい。入力画像の全体ではなく一部の領域を探索範囲に設定することで、処理速度が向上し、追尾の対応付けの誤りを減らす効果がある。

その後、Ｓ５０２では、物体検出部２０４が、学習済みモデルに入力するための入力画像を探索範囲画像から抽出する。物体検出部２０４が、探索範囲画像から、探索範囲領域を切り出してリサイズする。探索範囲のサイズは、追尾対象のＢＢのサイズの定数倍などとして決定する。同じ大きさの画像から特徴量を得ることによってノイズの少ない特徴量を取得できる。決定された探索領域に基づいて、領域を切り出し、Ｓ４０２におけるリサイズの比率と同等となるようにリサイズする。

さらに、Ｓ５０３において、物体検出部２０４が、抽出した探索範囲画像を、入力された画像における所定の物体の位置を検出する学習済みモデル（ＣＮＮ）に入力することによって、各探索範囲画像の特徴量を取得する。つまり、切り出された領域の画像をＣＮＮに入力する。各探索範囲画像の特徴量は、各探索範囲画像に存在する物体の特徴量を示す。なお、Ｓ５０３におけるＣＮＮは、Ｓ４０３におけるＣＮＮと重みの一部または全部が同一であるとする。このＣＮＮによって、例えば、ある探索範囲画像に人物を遮蔽する遮蔽物が含まれる場合は、遮蔽物を示す特徴量を取得できる。また、他の部分画像には人物は含まれず動物が含まれた場合は、その動物を示す特徴量が得られる。

さらに、Ｓ５０４では、物体検出部２０４が、追尾対象の特徴量と、Ｓ５０３で得られた現在の探索範囲画像に存在する物体の特徴量との相互相関を取得する。相互相関は、検出された物体同士の類似度を表す指標である。ここで、追尾対象と類似した物体（同じ種類の物体）を候補物体と呼ぶ。つまり、相互相関が所定の値より大きい物体が候補物体である。候補物体には追尾対象と非追尾対象のどちらか一方もしくは両方が含まれる。具体例としては、追尾対象が人物である場合、人物を示す特徴量がある探索範囲画像の相互相関は高くなる。

さらに、Ｓ５０５において、物体検出部２０４が、現在の画像における候補物体の位置を検出する。Ｓ５０３におけるＣＮＮとＳ４０３におけるＣＮＮの重みの一部または全部が同一であることにより、探索範囲内で候補物体が存在している確率が高い位置は相互相関の値が大きくなる。したがって、相互相関の値が閾値以上となる探索範囲画像から候補物体の位置を検出することが可能となる。すなわち、Ｓ５０４において得られた相互相関に基づいて、相互相関が所定の値より大きい位置を、候補物体の位置として検出する。相互相関が所定の値より小さい位置については、追尾対象が存在する可能性が低いとみなせる。ここではさらに、この候補物体の位置に基づいて、さらに候補物体を囲むようなＢＢを取得する。まず、ＢＢの位置は相互相関で高い反応を示した探索範囲画像に基づいて決定する。

Ｓ３０５の処理結果の一例を図９に示す。マップ９０１は相互相関に基づいて得られたマップを示す。追尾対象は人物９０２であり、人物９０２の中心付近のセル９０４の相互相関値が高い値を示している。この相関値が閾値以上であれば、人物９０２はセル９０４に位置していると推定できる。一方、ＢＢの幅・高さはＣＮＮがあらかじめ推定できるように学習しておいてもよい（後述）。また、Ｓ３０２で得られる追尾対象のＢＢの幅・高さをそのまま用いてもよい。

Ｓ３０６では、追尾部２０５が、複数の画像のうち第１の画像において検出された候補物体と、第１の画像と異なる時刻に撮像された第２の画像における候補物体と、の対応関係を特定する。複数の時刻において検出された物体の対応関係を特定することによって、対応関係がある物体を追尾できる。また、追尾対象が検出された画像に基づいて追尾対象の特徴量と位置を更新していくことによって、より安定して追尾できる。追尾部２０５が実行する処理を説明するフローチャートを図７に示す。

まず、Ｓ７０１において、追尾部２０５があらかじめ記憶部２０６に蓄えられている過去の時刻で撮像された画像から検出された候補物体と、現在の時刻で撮像された画像から検出された候補物体との組み合わせ（対応関係の候補）を取得する。ここでは、過去の候補物体と、現在の候補物体のペアをすべての組み合わせが作れるように対応付ける。ここで、過去の画像から検出された候補物体には追尾対象／非追尾対象のラベルが割り振られている。なお、追尾対象が１つである場合は、過去の候補物体のうち追尾対象であると特定された物体について、現在の候補物体のそれぞれと対応付けしてもよい。

Ｓ７０２において、追尾部２０５が、取得された類似度が閾値以上である組み合わせ（対応関係）を特定する。過去の候補と現在の候補との類似度が高いことは、当該する過去の候補と当該する現在の候補同士が同一物体である可能性が高いことを示している。対応付けの方法にはいくつか存在する。例えば、類似度が高い候補同士から優先的に対応付けする方法や、ハンガリアンアルゴリズムを用いる方法等がある。ここでは対応付けの手法は限定しない。ここで、第１の画像における追尾対象以外の候補物体について、第２の画像における候補物体との類似度に基づいて、同一の物体を特定する。このように追尾対象の物体と類似するほかの物体についても追尾を行うことによって、追尾対象が他の物体と対応付けられることを抑制できる。そのため、安定して追尾を行うことが可能になる。このように適切に対応付けを行うことにより、過去の追尾対象と現在の追尾対象を同一物体であるとして認識できる。

例えば、過去の候補ｃ_１と現在の候補ｃ_２の類似度Ｌは下記のように計算される。ここで、ＢＢは各候補ＢＢの（中心座標値ｘ、中心座標値ｙ、幅、高さ）の４変数をまとめたベクトルであり、ｆは各候補の特徴を示したものである。特徴はＣＮＮから得られた特徴マップの中から各候補が位置する特徴を抽出したものである。Ｗ_１、Ｗ_２はそれぞれ経験的に得られる係数であり、Ｗ_１＞０かつＷ_２＞０である。すなわち、特徴量が近いほど類似度が高く、検出位置や検出領域の大きさが近いほど類似度が高くなる。

次に、Ｓ７０３において、追尾部２０５が、対応付け結果に基づいて、追尾対象を特定する。Ｓ７０２で得られた対応付けの結果、過去の追尾対象と対応付けした現在の候補を追尾対象として特定することができる。追尾物体以外の候補物体は、追尾対象ではないことを示す情報を付与する。なお、過去の追尾対象の特徴量との類似度が所定の閾値より大きい現在の候補物体がない場合は、追尾対象が画角の外になった、あるいは他の物体に遮蔽された可能性がある。その場合は、追尾対象が特定されなかったことを通知してもよい。

最後に、Ｓ７０４において、記憶部２０６が、第２の画像における追尾対象の特徴量と、第２の画像における候補物体の特徴量と、を保持する。また、追尾対象が現在の画像から特定された場合は、追尾対象の特徴量を更新する。第１の画像における追尾対象の特徴量との類似度が所定の閾値より大きい候補物体が第２の画像から検出された場合、第２の画像から取得された特徴量を追尾対象の特徴量として保持する。追尾対象の特徴量との類似度が所定の閾値より大きい候補物体が第２の画像から検出されなかった場合、第１の画像から取得された特徴量を前記追尾対象の特徴量として保持する。なお、追尾対象が現在の画像から検出されない場合は、過去の画像における追尾対象の特徴量と位置を保持する。また、現在の候補物体に追尾対象／非追尾対象のラベルを付与した特徴量を記憶する。追尾対象およびその候補のＢＢ（位置と大きさ）と特徴を更新する。追尾対象と類似した候補物体についてもその特徴量と判定結果を保持することで、より安定して追尾を行うことができる。

Ｓ３０７において、画像取得部２０１は、追尾処理を終了するか否かを判断する。追尾処理を続行する場合はＳ３０４に戻り、追尾処理を終了する場合は、終了に進む。終了判定には、例えば、ユーザの終了指示を取得した場合や、次のフレームの画像が取得できない場合に終了とする。次のフレームの画像が取得できる場合はＳ３０４に進む。以上が、追尾処理の実行ステップにおける処理である。次に、学習処理の説明をする。

＜学習ステップ＞
次に、画像における物体の位置を推定する学習済みモデル（具体的にはＣＮＮ）を学習するための方法を示す。なお、ここで用いる学習済みモデルは、物体の分類タスク（例えば、人物を検出し、動物は検出しない）はある程度学習済みであって、所定の物体について外見的特徴に基づいて個体を識別可能なように学習する例を考える。これによって、特定の物体の追尾を可能にする。

例えば、赤い服を着た人物Ａと、黄色い服を着た人物Ｂがいたとする。単に人物を検出する学習済みモデルは、服の色というのは必ずしも必要な特徴ではないため、人物検出のタスクでは無視するように学習されていることがある。しかし、人物Ａのみを検出（追尾）する場合に、人物Ａと人物Ｂを分けるような特徴を学習する必要がある。この場合は服の色が重要な特徴になり、個人を識別するのに必要な特徴となることがある。本実施形態では、同じカテゴリの物体から、追尾対象物体の特徴量を他の同じカテゴリの物体と区別して認識できるように学習を行う。なお、学習時の情報処理装置２の機能構成例を図１３に示す。情報処理装置２は、ＧｒｏｕｎｄＴｒｕｔｈ取得部１４００、テンプレート画像取得部１４０１、探索範囲画像取得部１４０２、追尾対象推定部１４０３、損失計算部１４０４、パラメータ更新部１４０５、パラメータ記憶部１４０６、記憶部１４０７からなる。

記憶部１４０７には、複数の時刻で撮像された画像と、その画像のそれぞれに追尾対象の位置と大きさを示したＧＴ情報と、を記憶する。ここでは、各画像に対して、ユーザが追尾対象の物体の中心位置（または領域を示すＢＢ）を入力した情報をＧＴ情報として記憶する。ＧＴ情報の生成方法はユーザによるＧＴ付け以外の方法でもよい。例えば、他の学習済みモデルを用いて、追尾対象の物体の位置を検出した結果を用いてもよい。ＧＴ取得部１４００、テンプレート画像取得部４０１、探索範囲画像取得部１４０２はそれぞれ記憶部１４０７に記憶された画像を取得する。

ＧｒｏｕｎｄＴｒｕｔｈ（以下ＧＴ）取得部１４００は、ＧＴ情報を取得することによって、テンプレート画像における追尾対象の物体の正解位置と、探索範囲画像における追尾対象の正解位置とを取得する。テンプレート画像取得部１４０１において得られたテンプレート画像における追尾対象のＢＢと、探索範囲画像取得部１４０２において得られた探索範囲画像における追尾対象のＢＢを取得する。具体的には、図１７のように、画像１７０４に対して、追尾対象物体となる物体１７０５には追尾対象物体であることを示す情報が付与されており、それ以外の領域については追尾対象物体ではないことを示す情報を付与されている。例えば、追尾対象物体１７０５の領域には１を、それ以外の領域には０という２値の実数でラベル付けされている。

テンプレート画像取得部１４０１は、追尾対象が存在する画像をテンプレート画像として取得する。なお、テンプレート画像には、同一のカテゴリの物体が複数含まれていてもよい。探索範囲画像取得部１４０２は、追尾対象を探索する対象となる画像を取得する。すなわち、追尾対象となる特定の物体の特徴量を取得できる画像である。例えば、テンプレート画像取得部１４０１は、一連のシーケンス映像の中から任意のフレームを選択し、探索派に画像取得部１４０２は、同シーケンス映像のうち、テンプレート画像取得部１４０１により選択されなかった別のフレームを選択する。

追尾対象推定部１４０３は、探索範囲画像における追尾対象の位置を推定する。テンプレート画像取得部１４０１により得られたテンプレート画像と、探索範囲画像取得部１４０２により得られた探索範囲画像と、に基づいて、探索範囲画像における追尾対象の位置を推定する。

損失計算部１４０４は、追尾対象推定部１４０３において得られた追尾結果と、ＧＴ取得部１４０４において得られた探索範囲画像における追尾対象の位置に基づいて、損失を計算する。教師データからの推定結果に近いほど損失が小さくなる。なお、ＧＴ取得部によって取得されたＧＴ情報に基づいて、探索範囲画像における追尾対象の位置の正解を取得する。

パラメータ更新部１４０５は、損失計算部１４０４において得られた損失に基づいて、ＣＮＮのパラメータを更新する。ここでは、損失値が収束するようにパラメータを更新する。損失値の合計が収束した場合や、損失値が所定の値より小さくなった場合は、パラメータセットを更新し、学習を終了する。

パラメータ記憶部１４０６は、パラメータ更新部１４０５において更新されたＣＮＮのパラメータを学習済みパラメータとして、記憶部２０６に記憶する。

図１４を用いて、学習処理のフローチャートを説明する。まず、Ｓ１５００では、ＧＴ取得部１４００は、ＧＴ情報を取得する、ＧＴ情報に基づいて、テンプレート画像における追尾対象の物体の正解位置（追尾対象のＢＢ）と、探索範囲画像における追尾対象の正解位置とを取得する。Ｓ１５０１では、テンプレート画像取得部１４０１が、テンプレート画像を取得する。例えば図１５（ａ）のような画像を取得する。図１５（ａ）の物体１６０１が追尾対象であり、部分画像１６０２はＧＴ取得部１４００において得られた追尾対象のＢＢ，部分画像１６０３はテンプレートとして切り出す領域を示している。すなわち、ここでは、テンプレート画像取得部１４０１が、テンプレート画像として部分画像１６０３を取得する。

Ｓ１５０２では、テンプレート画像取得部１４０１が、テンプレート画像からテンプレートとなる領域を切り出して所定のサイズにリサイズする。切り出す領域のサイズは、追尾対象のＢＢに基づいて、ＢＢのサイズの定数倍などとして決定する。

Ｓ１５０３では、追尾対象推定部１４０３が、Ｓ１５０２において生成されたテンプレート画像を学習モデル（ＣＮＮ）に入力し、テンプレートのＣＮＮ特徴量を得る。

Ｓ１５０４では、探索範囲画像取得部１４０２が、探索範囲画像を取得する。探索範囲となる部分画像は、追尾対象物体の位置と大きさに基づいて、追尾対象が含まれるような部分画像として取得される。探索範囲となる画像の例を図１５（ｂ）に示す。図１５（ｂ）のうち、物体１６０４が追尾対象を、部分画像１６０５が追尾対象のＢＢを、部分画像１６０６が探索範囲領域を示している。探索範囲画像１６０６には、追尾対象となる物体と類似した物体が含まれる。

Ｓ１５０５では、探索範囲画像取得部１４０２が、探索範囲画像から、探索範囲領域を切り出してリサイズする。探索範囲のサイズは、追尾対象のＢＢのサイズの定数倍などと決定し、Ｓ１５０２において、テンプレートをリサイズした倍率に合わせてリサイズする（テンプレートリサイズ後の追尾対象のサイズと、探索範囲リサイズ後の追尾対象のサイズがおよそ同一となるようにリサイズする）。

Ｓ１５０６では、追尾対象推定部１４０３が、Ｓ１５０６において生成され探索範囲画像を学習モデル（ＣＮＮ）に入力し、探索範囲のＣＮＮ特徴量を得る。

Ｓ１５０７では、追尾対象推定部１４０３が、探索範囲画像における追尾対象の位置を推定する。追尾対象推定部１４０３は、Ｓ１５０６において得られた追尾対象のＣＮＮ特徴と、Ｓ１５０６において得られた探索範囲のＣＮＮ特徴との類似度を示す相互相関を計算し、マップとして出力する。相互相関に基づいて、相互相関が閾値以上である位置を示すことによって追尾対象を推定する。推定結果を示したマップを図１６（ａ）に示す。マップ１７０１が相互相関により得られたマップであり、領域１７０２および１７０３は相互相関値が高い箇所を示している。このように、相互相関をとることにより、追尾対象と類似した物体が存在する可能性が高い位置の相互相関値が高くなる。一方で、ＧＴ取得部１４００により得られた正解となる追尾対象の位置は、図１６（ｂ）における１７０５である。つまり、１７０２は追尾対象の位置を示しているため、望ましい値を推定しているが、１７０３は追尾対象でないにも関わらず相互相関値が高くなっているため、望ましくない値を推定しているといえる。学習ステップにおいては、追尾対象の位置における相互相関値が高く、追尾対象以外の位置における相互相関値は低くなるように重みを更新することを目的とする。

Ｓ１５０８では、損失計算部１４０４が、推論された追尾対象の位置に関する損失と、追尾対象のサイズに関する損失を計算する。位置に関する損失は、追尾対象の位置の相互相関値が高い値を示すように学習を進めるための損失を計算する。ＧｒｏｕｎｄＴｒｕｔｈ（以下ＧＴ）取得部１４００は、テンプレート画像取得部１４０１において得られたテンプレート画像における追尾対象のＢＢと、探索範囲画像取得部１４０２において得られた探索範囲画像における追尾対象のＢＢを取得する。

Ｓ１５０７の処理により得られたマップ１７０１をＣｉｎｆ、ＧＴマップ１７０４をＣｇｔとすると、損失関数は式（１－２）のように記述できる。式（１－２）は、マップＣｉｎとマップＣｇｔの画素ごとの差分の２乗の平均であり、追尾対象を正しく推定できた場合は損失が小さくなり、非追尾対象を追尾対象であると推定した場合や、追尾対象を非追尾対象であると推定した場合は、損失が大きくなる。

同様に、サイズに関する損失は、式（１－３）に従い計算する。

Ｌｏｓｓ_ＷとＬｏｓｓ_Ｈはそれぞれ推定された追尾対象の幅、高さに関する損失である。Ｗ_ｇｔおよびＨ_ｇｔは、追尾対象の位置に追尾対象の幅の値および高さの値がそれぞれ埋め込まれている。式（１－３）および式（１－４）により損失を計算することにより、Ｗ_ｉｎ、Ｈ_ｉｎにおいても、追尾対象の位置に追尾対象の幅および高さが推論されるように学習が進む。すべての損失を統合すると、式（１－５）となる。
Ｌｏｓｓ＝Ｌｏｓｓ_Ｃ＋Ｌｏｓｓ_ｗ＋Ｌｏｓｓ_Ｈ式（１－５）
ここでは、損失を、ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ（以下ＭＳＥ）の形で記述したが、損失はＭＳＥに限らない。Ｓｍｏｏｔｈ―Ｌ１などでもよい。損失の計算式を限定するものではない。また、位置に関する損失関数とサイズに関する損失関数は異なってもよい。

Ｓ１５０９では、パラメータ更新部１４０５（学習部）が、Ｓ１５０８において計算された損失に基づいて、ＣＮＮのパラメータが更新される。パラメータの更新は、ＭｏｍｅｎｔｕｍＳＧＤなどを用い、誤差逆伝播法（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）に基づいて行われる。なお、１枚の画像に対する損失関数の出力について説明したが、実際の学習は、複数の様々な画像について推定したスコアについて、式（１―２）の損失値を計算する。複数の画像についての損失値が、何れも所定の閾値より小さくなるように学習モデルの層間の結合重み付け係数を更新する。

Ｓ１５１０では、パラメータ記憶部１４０６が、Ｓ１５０９により更新されたＣＮＮのパラメータを記憶部２０６に保存する。推論ステップでは、Ｓ１５１０において記憶されたパラメータを用いて推論することにより、追尾対象を正しく追尾可能となる。

Ｓ１５１１では、パラメータ更新部１４０５が、学習を終了するかどうかを判定する。学習の終了判定は、式（１－２）で得られた損失の値が所定の閾値より小さくなった場合に終了と判定する。

＜実施形態１の効果＞
本実施形態は、追尾対象を追尾するとともに、追尾対象に類似した物体を同時に追尾することを特徴とする。追尾対象に類似した物体を同時に追尾することにより、類似対象の誤追尾が軽減されることを、図８を用いて説明する。８０１、８０２、８０３はそれぞれ時刻ｔ＝０、ｔ＝１、ｔ＝２において得られた画像を示している。画像内には人物８０４と人物８０５が映っており、このうち、追尾対象は人物８０４、類似物体は人物８０５である。

まず、追尾対象８０４のみを追尾する場合を考える。この場合、時刻ｔ＝０で正しく追尾されていた物体８０４は、時刻ｔ＝１において、物体８１０によって遮蔽される。遮蔽が発生すると、物体８０４の特徴量は遮蔽された分、物体らしさが損なわれた特徴量が検出される可能性が高い。物体８１０は物体らしさが高い特徴量が検出されるため、時刻ｔ＝１において追尾対象は物体８１０とみなされる可能性が高く、物体８１０を追尾対象として誤追尾しはじめる。

次に、追尾対象８０４だけでなく類似物体８０５も同時に追尾する場合を考える。時刻ｔ＝１における過去の追尾対象候補は、物体８０４と物体８０５の二つが存在する。一方ｔ＝１において新しく得られる追尾対象候補は、物体８０９には遮蔽があるため、物体８０８のみである。この時、過去の候補８０４および８０５それぞれと、物体８０８の類似度を比較すると、物体８０４と物体８０８の類似度よりも、物体８０５と物体８０８の類似度が高くなる。類似度が高くなるのは、各候補に紐づいたＣＮＮ特徴が物体同士を区別するように学習されていることや、ＢＢの位置やサイズが緩やかに時間変化することに起因する。したがって、現在の候補８０８と紐づく過去の候補は８０４ではなく、８０５であることが分かる。ここで、最新の特徴量を、物体８０５に関しては物体８０８の特徴量に更新するが、ｔ＝１で検出されなかった物体８０４についてはｔ＝０で得られた特徴量を保持する。次に、時刻ｔ＝２においても候補同士の類似度計算を行う。時刻ｔ＝２における過去の候補は、物体８０４と物体８０８である。一方ｔ＝２において新しく得られる候補は８１１と候補８１２の二つ存在する。このふたつの候補物体は遮蔽がないため望ましい特徴量を取得できる。類似度を計算すると、物体８０８と物体８１１、物体８０４と物体８１２の類似度がそれぞれ高くなり、８０８と８１２、８０６と８１１の類似度は低くなる。したがって、追尾対象である８０６は８１２と対応付けするため、追尾対象を正しく追尾できる。

＜変形例１－１＞オンラインＭｅｔｒｉｃＬｅａｒｎｉｎｇ
変形例１－１では、実施形態１における式（１－１）において、特徴量に対する重みＷ_２を時系列で得られた追尾対象および類似物体の特徴量を用いて逐次更新する。

例えば、

ここで、ｆ_{ｔａｒｇｅｔ}は各時刻で得られた追尾対象の特徴量であり、ｆ_{ｄｉｓｔｒａｃｔоｒ}は各時刻で得られた類似物体の特徴量である。

式（１－２）のようにして、追尾対象と類似物体の特徴を用いて重みを更新することにより、特徴次元のうち、追尾対象と類似物体をより区別しやすい特徴次元に対してより大きい重みを付与して類似度を計算することができる。したがって、追尾対象と類似物体の特徴が特徴空間上で近接していた場合にも追尾対象と類似物体を区別しやすくなる。

＜変形例１－２＞オフラインＭｅｔｒｉｃＬｅａｒｎｉｎｇ
変形例１－２では、実施形態１における式（１－１）において、特徴量同士の類似度を求める変換を、あらかじめＭｅｔｒｉｃＬｅａｒｎｉｎｇにより計算する。特徴量を変換する関数をＦとすると、式（１－１）は、式（１－７）のように表される。

変換Ｆは、１層以上のＮｅｕｒａｌＮｅｔｗｏｒｋを接続した構成であり、あらかじめ、ｔｒｉｐｌｅｔｌоｓｓ等を用いて学習することができる。ｔｒｉｐｌｅｔｌоｓｓにより変換Ｆを学習することにより、過去と現在で同一物体であれば距離が近しく、異なる物体であれば距離が遠くなるような変換を学習することが可能となる。ｔｒｉｐｌｅｔｌоｓｓによる学習の方法は、“Ｗａｎｇ，ＬｅａｒｎｉｎｇＦｉｎｅ－ｇｒａｉｎｅｄＩｍａｇｅＳｉｍｉｌａｒｉｔｙｗｉｔｈＤｅｅｐＲａｎｋｉｎｇ，Ｉｎ：ＣＶＰＲ２０１４“が詳しい。

＜実施形態２＞遮蔽判定
実施形態２では、実施形態１における図７のＳ３０６の追尾対象特定処理において、さらに遮蔽判定処理を行う。遮蔽判定を行うことによって、追尾対象が遮蔽された場合でも、他の類似物体に追尾をスイッチングすることを抑制する。実施形態１と差分がある処理について詳細に説明する。なお、ハードウェア構成は実施形態１と同様である。また、実施形態２における情報処理装置１’の機能構成例を図１８に示す。実施形態１における図２と基本的には同様の構成で、新たに遮蔽判定を行う遮蔽判定部２０７が追加されている。同じ符号がついた機能構成は実施形態１と同様の処理を行うものとする。遮蔽判定部２０７は、画像から検出された候補物体の部分画像に基づいて、物体同士の遮蔽関係を判定する。追尾部２０５’は、さらに遮蔽判定部２９７の判定結果に基づいて、追尾対象を追尾する。

次に、本実施形態における情報処理装置１’が実行する処理について説明する。本実施形態のフローチャートは図３と図１０（Ａ）（Ｂ）に対応する。基本的な処理は実施形態１と同様であり、Ｓ３０６の処理のみが異なる。そのため、ここではＳ３０６の差異について以下で詳細に説明し、その他の処理の説明は省略する。なお、Ｓ３０５では、追尾対象の特徴量に基づいて、対象物体と類似した候補物体を検出する。このとき、追尾対象が他の物体によって遮蔽されている場合は、追尾対象を遮蔽している物体が追尾対象と類似した物体であれば候補物体として検出される。その場合、遮蔽判定処理によって追尾対象が遮蔽された類似物体の位置と対応付けられるが、遮蔽が解消したタイミングで元の追尾特徴を保持しているため再び追尾ができる。一方で、壁などの障害物によって追尾対象が遮蔽された場合は、Ｓ３０５では遮蔽された追尾対象は候補物体として検出されないことになる。その場合は、後段の遮蔽判定処理において、前回検出された遮蔽される直前の追尾対象と対応付けができる候補物体はないものと判断し、追尾対象の特徴量はＳ３０３で記憶する。その後、遮蔽が解消し再び検出可能になったタイミングで追尾を再開できる。

遮蔽判定処理を含む追尾対象特定処理Ｓ３０６を説明するフローチャートを図１０（Ａ）に示す。まず、Ｓ７０１において、追尾部２０５’があらかじめ記憶部２０６に蓄えられている過去の時刻の候補と、物体検出部２０４により得られた現在の時刻の候補同士の類似度を取得する。Ｓ７０１の処理は実施形態１のＳ７０１と同様に処理する。次に、Ｓ７０２において、追尾部２０５’が、過去の候補と現在の候補との類似度に基づいて対応付けを行う。このＳ７０２の処理についても実施形態１のＳ７０２の処理と同様である。

Ｓ１００２では、遮蔽判定部２０７が、現在の処理対象の画像（第２の画像）における候補物体の位置に基づいて、候補物体が遮蔽されている遮蔽領域の有無を判定する。つまり、現在の画像について候補物体毎に遮蔽判定を行う。Ｓ１００２の遮蔽判定処理について、図１０（Ｂ）でさらに詳細に説明する。ここでは、特にＳ７０２において対応付け候補が見つからない候補（注目物体と呼ぶ）に対して遮蔽判定を行う。まず、Ｓ１００２１では、遮蔽判定部２０７が、Ｓ７０２において、過去に検出されたすべての候補物体について対応付けが成立したか否かを判定する。過去の画像（第１の画像）から検出されたすべての候補物体と、現在の画像から検出された候補物体との対応付けがすべて完了している場合は、Ｓ１００２５に進む。過去の画像から検出された候補物体のうち、現在の画像から検出された候補物体との類似度がいずれも閾値以下である過去の候補物体（注目物体）があれば、Ｓ１００２２に進む。つまり、Ｓ１００２２に進む場合は、遮蔽されている候補物体が存在する可能性がある。Ｓ１００２２において、遮蔽判定部２０７は、現在の候補物体（注目物体）について、当該候補ＢＢと他候補ＢＢとの重なり具合を示す情報を取得する。物体同士の重なり具合を示す指標として、ここではＩｎｔｅｒｓｅｃｔｉｏｎ оｆＵｎｉｏｎ（以下、ＩｏＵ）を計算する。具体的には、現在の画像から検出された候補物体の各部分画像（ＢＢ）について、物体Ａの領域Ａと物体Ｂの領域Ｂとすると、物体Ａと物体ＢとのＩｏＵは領域（Ａ∩Ｂ）／（Ａ∪Ｂ）と計算する。ＩｏＵは高いほど物体同士の重なり度合いが高いことを示している。ＩｏＵが閾値を超えた他候補を当該候補のオクルーダとして設定する。この時、当該候補物体Ａの状態は「遮蔽」と判定される。次にＳ１００２４において、遮蔽判定部２０７、遮蔽と判定された候補の位置を、オクルーダの位置に基づいて更新する。例えば、式（２－１）のように更新すればよい。
ｐ_ｓ＝（１－α）ｐ_ｏ＋αｐ_ｓ式（２－１）
ここで、ｐ_ｓは当該候補の位置であり、ｐ_оはオクルーダの位置である。αは経験的に設定された値とする。

Ｓ７０３において、追尾部２０５は、遮蔽判定結果に基づいて、第１の画像の候補物体と第２の画像における候補物体との対応関係を特定する。すなわち、第２の画像における追尾対象物体の位置を特定する。Ｓ７０２において、前回追尾対象物体として特定された候補物体が現在の画像において特定されていた場合は、現在の画像における追尾対象の位置を特定する。Ｓ７０２において前回の追尾対象が現在の画像の候補物体から特定されなかった場合、Ｓ１００２において遮蔽判定が行われる。現在の画像において追尾対象が遮蔽されていると判断された場合は、そのオクルーダを特定し、式（２－１）に基づいて追尾対象の位置を更新する。一方追尾対象の特徴量は更新しない。Ｓ７０４では、記憶部２０６が、追尾部２０５で特定された追尾対象の位置と特徴量を記憶する。以上の処理によって、遮蔽が発生した場合においても、追尾対象の特徴量を保持したまま追尾対象の位置を更新する場合があるので、遮蔽が解消した後に再び追尾できる。

＜変形例２－１＞
変形例２－１では、遮蔽判定をＮｅｕｒａｌＮｅｔｗｏｒｋにより行う。ＮｅｕｒａｌＮｅｔｗｏｒｋにより遮蔽判定を行う例としては、“Ｚｈｏｕ，Ｂｉ－ｂｏｘＲｅｇｒｅｓｓｉｏｎｆоｒＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｉｏｎａｎｄＯｃｃｌｕｓｉｏｎ，Ｉｎ：ＥＣＣＶ２０１８”があげられる。この例では、Ｓ１００２において、追尾部２０５が、物体のＢＢを推定するとともに、物体領域のうち、非遮蔽領域（見えている領域）を同時に推定する。そして、物体領域のうち、遮蔽が発生している領域の割合があらかじめ定めた閾値を超えた場合に遮蔽と判断することが可能である。

＜実施形態２の効果＞
このような遮蔽判定およびオクルーダの位置による当該候補の位置更新によって当該候補の位置をオクルーダの位置に更新することによる効果を図１１に示す。

図１１において、各時刻ｔ＝０、１、２、３において得られた画像をそれぞれ画像１２１１、１２１２、１２１３、１２１４であるとする。また、追尾対象は１２１６である。時刻ｔ＝０において、追尾対象１２１６と類似物体１２１５の二つが存在し、二つとも追尾できている状態であるとする。時刻ｔ＝１においては、類似物体１２１７によって１２１６が隠れるため、時刻ｔ＝１における候補は類似物体１２１７のみとなる。このとき、１２１６と１２１７のＩｏＵが閾値を超えて遮蔽であると判定すると、１２１６の位置は式（２－１）により１２１７の位置に合わせるように更新される。時刻ｔ＝２においても遮蔽が解消されていないため、１２１６の位置はオクルーダである１２１８の位置に合わせて更新される。時刻ｔ＝３では遮蔽が解消され、候補が１２１９、１２２０、１２２１の三つ存在する。このとき、正しい対応付け結果は、１２１８と１２１９、１２１６と１２２０である。しかし、もし遮蔽判定を行わず、１２１６の位置を１２１７および１２１８の位置に合わせて更新しない場合は、１２１６は時刻ｔ＝３における候補１２２１の周辺に存在することになる。したがって、１２１６は１２２０ではなく、新しく得られた候補１２２１と対応付けする可能性が高くなり、誤追尾の原因となる。一方、式（２－１）に従って、候補１２１６の位置を更新した場合は、１２１６の位置は１２２０の位置に近くなり、１２１６と１２２０を対応付けすることができる。したがって誤追尾を軽減することが可能となる。

＜実施形態３＞単一物体追尾（オンライン学習による追尾手法との組み合わせ）
実施形態３では、オンライン学習による追尾手法に対して、複数候補を同時に追尾することにより類似した物体が存在している場合においてもそれぞれの物体を安定して追尾する。ハードウェア構成は実施形態１と同様である。また、本実施形態における情報処理装置３の機能構成例を図１９に示す。実施形態１における図２と基本的には同様の構成で、新たにオンライン学習を行う学習部１９０２が追加されている。追尾部１９０１は、現在の画像を学習済みモデルに入力することによって、追尾対象の位置を特定する。学習部１９０２は、現在の画像で推定された追尾対象の位置に基づいて、物体の位置を推定する学習済みモデルの結合重み付けパラメータを更新する。ここで用いる学習済みモデルは、ＭＤＮｅｔ（“Ｎａｍ，ＬｅａｒｎｉｎｇＭｕｌｔｉ－ＤｏｍａｉｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆоｒＶｉｓｕａｌＴｒａｃｋｉｎｇ，Ｉｎ：ＣＶＰＲ２０１６”）であるとする。ＭＤＮｅｔでは、画像をＣＮＮ（学習済みモデル）に入力して物体を示す特徴量を得る。さらに、取得された特徴量をそれぞれＦｕｌｌｙＣｏｎｎｅｃｔｉｏｎ層（以下ＦＣ層）に入力して、入力された特徴量が追尾対象の特徴量か否かを判定する。学習は、ＦＣ層は追尾対象らしい物体ほど高い値を出力するようにオンラインで学習される。オンライン学習は、初期フレームおよびその後、数フレーム間隔でＦＣ層を学習する。以下、実施形態１と同様の処理については説明を省略し、差分がある処理について詳細に説明する。

本実施形態における情報処理装置３が実行する処理を図２０に示す。Ｓ３０１からＳ３０４の処理については実施形態１におけるＳ３０１からＳ３０４の処理と同様である。Ｓ３０４では、取得した画像から探索範囲を設定する。探索範囲画像は、過去の候補物体の位置やサイズに基づいて決定する。Ｓ３０５では、Ｓ３０４において得られた探索範囲画像を学習済みモデルに入力することによって、探索範囲画像から取得した各特徴量をＦＣ層に入力し、得られた追尾対象らしさ（類似度）が閾値を超えた物体を、候補物体として取得する。学習済みモデルには上記で説明したＭＤＮｅｔを用いる。Ｓ２００１では、追尾部１９０１が、候補物体の中から追尾対象の位置を特定する。Ｓ２００２では、学習部１９０２が、追尾対象の判定結果に基づいて、学習済みモデルのパラメータを更新する。

このようなオンラン学習による追尾手法においても、実施形態１と同様に複数候補を同時に追尾することにより、誤追尾を軽減可能である。

＜実施形態４＞複数物体追尾
実施形態４では、追尾対象物体が１つではなく、複数設定する場合について説明する。複数の類似物体を追尾する場合でも、過去に検出された候補物体を同時に追尾することによって、追尾対象を一度見失った場合でも安定して追尾できる。ハードウェア構成は実施形態１と同様である。本実施形態を実行する情報処理装置は、実施形態１の情報処理装置１と同様の機能構成を有するが、追尾対象決定部２０２と追尾部２０５の処理に差異がある。追尾対象決定部２０２は、複数の物体を追尾対象として決定する。実施形態１と同様の方法で追尾対象を決定する。ある画像に映っているすべての物体を追尾対象として取得してもよい。追尾部２０５は、複数の追尾対象について、検出された各物体を追尾する。具体的には、候補となる複数の物体のＣＮＮ特徴を保持し、時刻ｔと時刻ｔ＋１の候補物体の類似度も用いて対応付けを行う。

次に、本実施形態における情報処理装置１が実行する処理について説明する。本実施形態のフローチャートは図３に対応する。Ｓ３０１では、画像取得部２０１が、所定の物体を撮像した画像（初期画像）を取得する。Ｓ３０２では、追尾対象決定部２０２が、Ｓ３０１で取得された画像から追尾対象となる物体を複数決定する。Ｓ３０３では、保持部２０３が、学習済みモデルに基づいて、決定された追尾対象を含む画像から複数の追尾対象の特徴量を保持する。ここで、学習済みモデルには、Ｄｅｔｅｃｔ－Ｔｒａｃｋの手法を用いる。（“Ｆｅｉｃｈｔｅｎｈｏｆｅｒ，Ｄｅｔｅｃｔｔо ＴｒａｃｋａｎｄＴｒａｃｋｔо Ｄｅｔｅｃｔ，Ｉｎ：ＩＣＣＶ２０１７”。）Ｄｅｔｅｃｔ－Ｔｒａｃｋでは、連続した時系列のフレームごとにＣＮＮを用いて物体検出を行う。次に、Ｓ３０４では、画像取得部２０１が、追尾処理を行うために、複数の時刻で撮像された画像を取得する。Ｓ３０５においては、物体検出部２０４が、学習済みモデルに基づいて、画像取得部２０１により得られた時間的に連続する画像から、候補物体の位置を検出する。まず、物体検出部２０４は、連続した時系列のフレームごとにＣＮＮ（学習済みモデル）を用いて候補物体を検出する。すなわち、時刻ｔにおけるＣＮＮ特徴と、時刻ｔ＋１におけるＣＮＮ特徴を取得する。次に、時刻ｔにおいて得られたＣＮＮ特徴と、時刻ｔ＋１において得られたＣＮＮ特徴同士の相互相関を計算することによって候補物体の位置を検出する。Ｓ３０６では、追尾部２０５が、複数の追尾対象を現在の画像（ｔ＋１）から特定する。ここでは、まず、追尾部２０５は、各物体に対してＢＢの変化分ΔＢＢ（ＢＢ位置の変化とＢＢサイズの変化）を推定する。つまり、追尾部２０５は、ＢＢ（ｔ＋１）と、ＢＢ（ｔ）＋ΔＢＢ（ｔ）を比較することによりＢＢの変化分を推定する。ここで、ＢＢ位置の変化とＢＢサイズの変化が近しい物体同士が同一物体であると分かるため、各物体を対応付けすることができる。次に、追尾部２０５が、対応付けた時刻ｔと時刻ｔ＋１の候補物体のＣＮＮ特徴の距離を式（１－１）に基づいて計算し、類似度を算出する。類似度が所定の値より大きい対応関係があった場合、前の検出結果に対応づけて追尾する。なお、相対的に類似度が高い順に対応関係を確定させていってもよい。類似度が所定の値より大きい対応関係がなかった場合は、前の検出結果には対応付けずに、現在の検出結果（特徴量と位置）を保持する。

ここで、仮に時刻ｔにおいて検出された物体の数が２であり、時刻ｔ＋１において検出された物体の数が１であった場合、時刻ｔにおいて得られた２つの物体のうち、時刻ｔ＋１の物体と同一であるのは類似度の高い物体であると考えられる。類似度の高い物体同士を対応付けすることにより、誤追尾を軽減することができる。しかしながら、隠れ等が生じて、時刻ｔにおいて検出されていた物体が、時刻ｔ＋１において検出されなくなる場合が発生しうる。この時、追尾対象物体のほかに少なくとも１つ以上の候補物体が時刻ｔ＋１に存在していた場合は、位置が近い候補物体への誤追尾が始まる可能性がある。そこで、Ｓ３０６では、候補物体となる複数の物体のＣＮＮ特徴を保持し、類似度計算のときに保持された候補物体の特徴量との類似度を算出してもよい。追尾対象物体が遮蔽されていた場合は、対応関係を特定することができないが、遮蔽が解消した場合に、追尾を再開できる。

本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、データ通信用のネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。また、そのプログラムをコンピュータが読み取り可能な記録媒体に記録して提供してもよい。

１情報処理装置
２０１画像取得部
２０２追尾対象決定部
２０３生成部
２０４物体検出部
２０５追尾部
２０６記憶部

Claims

複数の時刻において撮像された画像から特定の物体を追尾する情報処理装置であって、
入力された画像における所定の物体の位置を検出する学習済みモデルに基づいて、追尾対象の特徴量を保持する保持手段と、
前記学習済みモデルに基づいて、複数の画像における物体の特徴量を取得する取得手段と、
前記追尾対象の特徴量と、前記複数の画像から取得された前記物体の特徴量と、に基づいて、前記追尾対象と類似した候補物体を検出する検出手段と、
前記複数の画像のうち第１の画像において検出された前記候補物体と、前記第１の画像と異なる時刻に撮像された第２の画像における前記候補物体と、の対応関係を特定する特定手段と、
を有することを特徴とする情報処理装置。
前記特定手段は、前記第１の画像において検出された前記候補物体と前記第２の画像において検出された前記候補物体と、の対応関係に基づいて、前記第２の画像における追尾対象を特定することを特徴とする請求項１に記載の情報処理装置。
前記保持手段は、前記第２の画像における前記追尾対象の特徴量と、前記第２の画像における候補物体の特徴量と、を保持することを特徴とする請求項２に記載の情報処理装置。
前記特定された対応関係に基づいて、前記保持手段によって保持された前記追尾対象の特徴量を更新する更新手段を更に有することを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。
前記更新手段は、前記保持手段によって保持される前記追尾対象の特徴量を、前記第１の画像における前記追尾対象の特徴量との類似度が所定の閾値より大きい前記候補物体が前記第２の画像から検出された場合、前記第２の画像から取得された特徴量を前記追尾対象の特徴量として更新し、
前記追尾対象の特徴量との類似度が所定の閾値より大きい前記候補物体が前記第２の画像から検出されなかった場合、前記第１の画像から取得された特徴量を前記追尾対象の特徴量として更新することを特徴とする請求項４に記載の情報処理装置。
前記検出手段は、前記複数の画像における前記候補物体の位置を検出し、
前記更新手段は、前記第１の画像における前記追尾対象の特徴量との類似度が所定の閾値より大きい前記候補物体が前記第２の画像から検出された場合、前記第２の画像における前記追尾対象の位置を更新し、前記追尾対象の特徴量との類似度が所定の閾値より大きい前記候補物体が前記第２の画像から検出されなかった場合、前記追尾対象の位置を更新しないことを特徴とする請求項４または５に記載の情報処理装置。
前記特定手段は、複数の画像における前記追尾対象以外の前記候補物体の対応関係を特定することを特徴とする請求項１乃至６のいずれか１項に記載の情報処理装置。
前記保持手段は、ユーザによって指定された物体の特徴量を前記追尾対象の特徴量として保持することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記第１の画像は、前記第２の画像より前に撮像された画像であって、
前記第１の画像から検出された前記候補物体の位置に基づいて、前記第２の画像から前記候補物体を検出するための部分画像を抽出する抽出手段をさらに有し、
前記取得手段は、前記抽出手段によって抽出された前記第２の画像の部分画像に基づいて、前記第２の画像から前記物体の特徴量を取得することを特徴とする請求項１乃至８のいずれか１項に記載の情報処理装置。
前記抽出手段は、前記第２の画像において、前記第１の画像から検出した前記候補物体の近傍に対応する領域から、所定の大きさの部分画像を抽出することを特徴とする請求項９に記載の情報処理装置。
画像における前記追尾対象の位置を示す教師データに基づいて、前記学習済みモデルのパラメータを更新する学習手段をさらに有することを特徴とする請求項１乃至１０の何れか１項に記載の情報処理装置。
前記画像における追尾対象の位置を示す教師データに基づいて、前記画像について前記追尾対象と類似した物体を推定した位置に対しての損失を取得する算出手段をさらに有し、
前記学習手段は、前記算出手段によって取得された損失に基づいて、前記学習済みモデルのパラメータを更新することを特徴とする請求項１１に記載の情報処理装置。
前記第１の画像は、前記第２の画像より前に撮像された画像であって、
前記第２の画像における前記候補物体の位置に基づいて、前記候補物体が遮蔽されている遮蔽領域の有無を判定する判定手段をさらに有し、
前記特定手段は、前記判定手段によって判定された結果に基づいて、前記第１の画像の前記候補物体と前記第２の画像における前記候補物体との対応関係を特定することを特徴とする請求項１乃至１２のいずれか１項に記載の情報処理装置。
前記特定手段は、前記判定手段によって、前記第２の画像における前記追尾対象が遮蔽されていることを判定した場合、前記第２の画像における前記追尾対象を遮蔽している物体を追尾対象として特定することを特徴とする請求項１乃至１３のいずれか１項に記載の情報処理装置。
前記判定手段は、前記第１の画像における前記候補物体のうち、前記第２の画像における前記候補物体との類似度が所定の閾値より小さい物体について、前記遮蔽領域の有無を判定することを特徴とする請求項１３または１４に記載の情報処理装置。
前記判定手段は、前記第１の画像における前記候補物体のうち、前記第２の画像における前記候補物体との類似度が所定の閾値より小さい注目物体について、前記第２の画像における前記候補物体の領域に基づいて該注目物体の領域との重なり具合を判定し、前記重なり具合が所定の閾値より大きい場合は、前記注目物体は遮蔽されていることを判定することを特徴とする請求項１５に記載の情報処理装置。
前記判定手段は、前記注目物体が遮蔽されている場合、前記注目物体を遮蔽している前記候補物体をオクルーダとして判定し、
前記特定手段は、前記注目物体の位置として前記オクルーダの位置を特定することを特徴とする請求項１６に記載の情報処理装置。
コンピュータを、請求項１乃至１７のいずれか１項に記載の情報処理装置が有する各手段として機能させるためのプログラム。
複数の時刻において撮像された画像から特定の物体を追尾する情報処理方法であって、
入力された画像における所定の物体の位置を検出する学習済みモデルに基づいて、追尾対象の特徴量を保持する保持工程と、
前記学習済みモデルに基づいて、複数の画像における物体の特徴量を取得する取得工程と、
前記追尾対象の特徴量と、前記複数の画像から取得された前記物体の特徴量と、に基づいて、前記追尾対象と類似した候補物体を検出する検出工程と、
前記複数の画像のうち第１の画像において検出された前記候補物体と、前記第１の画像と異なる時刻に撮像された第２の画像における前記候補物体と、の対応関係を特定する特定工程と、
を有することを特徴とする情報処理方法。