JP2017138659A

JP2017138659A - 物体追跡方法、物体追跡装置、およびプログラム

Info

Publication number: JP2017138659A
Application number: JP2016017194A
Authority: JP
Inventors: 亮根山; Akira Neyama; 正雄山中; Masao Yamanaka
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-02-01
Filing date: 2016-02-01
Publication date: 2017-08-10

Abstract

【課題】物体追跡を精度良く行う。【解決手段】物体追跡方法は、予め学習された第1識別器（104）を用いて、動画像を構成する複数の画像から物体を検出する第1ステップ（S11）と、第1ステップで検出された物体のうち、同一物体を対応付ける第2ステップ（S12）と、前記同一物体のうち少なくとも一部の物体を用いた学習処理により第2識別器（110）を生成する第3ステップ（S13）とを含む。第3ステップにおいて生成された第2識別器を用いて、前記動画像から物体を検出する第4ステップ（S14）と、第4ステップで検出された物体のうち、同一物体を対応付ける第5ステップ（S15）をさらに含み、第5ステップの検出結果に基づいて第3ステップを再実行することも好ましい。さらに、第3ステップから第5ステップを繰り返し実行することも好ましい。【選択図】図2

Description

本発明は、動画像内の物体を追跡する物体追跡技術に関する。

物体追跡は、動画像内の特定の対象（物体）が画像間でどのように移動したかを決定する処理である。物体追跡は、コンピュータビジョンにおける基本的な処理の一つであり、画像監視、マンマシンインタフェース（HMI）、拡張現実（AR）、ビデオ編集などに用い
られる。

特許文献1は、前フレームで学習した特徴量に基づいて現フレームの物体を認識するこ
とを提案する。非特許文献1は、前フレームにおける物体を正例、物体近傍の背景を負例
として特徴選択（学習）を行い、当該学習結果を用いて現フレームの物体を認識することを提案する。

特開2012-238119号公報

Helmut Grabner and Horst Bischof. "On-line boosting and vision." Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 1. IEEE, 2006.

特許文献1および非特許文献1の手法は、過去のフレームのみを用いて学習しているため、追跡精度が低いという問題がある。具体的には、背景の変化、背景画像の物体への映り込み、物体の一部のオクルージョン（遮蔽）、照明変化、物体の向きの変化などが要因となって、追跡精度が低下するおそれがある。

本発明は、精度良く物体追跡を行うことを目的とする。

上記の目的を達成するために、本発明の第一の態様では、特定の物体を検出するための識別器を、過去のフレームだけでなく将来のフレームにおいて検出された物体を用いて生成する。

より具体的には、本発明の第一の態様は、情報処理装置が実行する物体追跡方法であって、
予め学習された第1識別器を用いて、動画像を構成する複数の画像から物体を検出する
第1ステップと、
前記第1ステップで検出された物体のうち、同一物体を対応付ける第2ステップと、
前記同一物体のうち少なくとも一部の物体を用いた学習処理により第2識別器を生成す
る第3ステップと、
を含むことを特徴とする。

このようにすれば、第1識別器を用いて動画像から検出された特定物体を用いて第2識別
器を生成できる。換言すれば、過去の情報だけでなく将来の情報も用いて第2識別器を生
成できる。したがって、第2識別器を用いた特定物体の検出が精度良く行える。

ここで、第1識別器は、ある識別対象を全般的に検出するように構成される。第2識別器は、第1識別器によって検出された特定の物体を検出するように構成される。例えば、第1識別器は車両全般を検出するよう構成され、第2識別器は特定の車両をその他の車両（お
よびその他の物体）と区別して検出するように構成される。

第2ステップでは、第1ステップで検出された物体の特徴量に基づく類似度が所定の閾値以上であるか否かによって、物体が同一であるか否かを判定するとよい。なお、ここでの類似判定基準は、識別対象の個別具体的な物体を区別できる基準とすることが望ましい。また、特徴量以外に、画像における位置およびフレーム間の距離や移動軌跡などを考慮して物体の同一性を判定してもよい。

本発明の第一の態様は、
前記第3ステップにおいて生成された第2識別器を用いて、前記動画像から物体を検出する第4ステップと、
前記第4ステップで検出された物体のうち、同一物体を対応付ける第5ステップをさらに含み、
前記第5ステップの検出結果に基づいて前記第3ステップを再実行する、
ことも好ましい。

また、本発明の第一の態様において、第3ステップから第5ステップを繰り返し実行することも好ましい。繰り返し実行の際には、第5ステップの検出結果に基づいて、第3ステップを実行する。

上記の繰り返し実行を行う場合には、繰り返し実行の終了条件として以下のいずれかを採用することが考えられる。第1は、第5ステップの検出結果が変化しなくなったときに繰り返し実行を終了する。第2は、第5ステップの検出結果の差が所定の閾値以内になったときに繰り返し実行を終了する。第3は、所定回数の繰り返し実行を行った後に、繰り返し
実行を終了する。なお、これら複数の終了条件を組み合わせてもよい。

本発明の第一の態様における第3ステップでは、フレーム間距離が閾値以内の同一物体
を用いて前記第2識別器を生成することが望ましい。フレーム間距離は、物体が検出され
たフレームがどれだけ離れているか、すなわち撮影時刻がどれだけ離れているかを表す指標である。より具体的には、隣接する検出フレームとの差が閾値以内の一連の同一物体を用いて第2識別器を生成することができる。あるいは、あるフレームからのフレーム間距
離が閾値以内のフレームに含まれる同一物体を用いて第2識別器を生成することもできる
。

上記の場合、前記第3ステップでは、フレーム間距離が閾値以内の同一物体ごとに前記
第2識別器を生成し、前記第4ステップでは、複数の前記第2識別器を用いて物体を検出す
ることが望ましい。このように、物体をグループ分けして、グループごとに第2識別器を
生成することで、精度良く物体を検出できる。

上記の場合、前記第4ステップにおける第2識別器を用いた物体の検出は、当該第2識別
器の生成に用いた物体検出結果に対応するフレームを対象として行われる、ことも好ましい。ここで、「第2識別器の生成に用いた物体検出結果に対応するフレーム」とは、第2識別器の生成に用いた物体検出結果が含まれるフレームに基づいて、所定の基準で決定されるフレームを意味する。例えば、第2識別器の生成に用いた物体検出結果のうち、最も古
いフレームと最も新しいフレームとの間のフレーム区間を、上記の「対応するフレーム」とすることができる。また、最も古いフレームと最も新しいフレーム区間の前後に所定数のフレームを加えたフレーム区間を、上記の「対応するフレーム」としても良い。

本発明の第一の態様における第2識別器の生成方法は特に限定されないが、例えば、ブ
ースティングを用いた特徴選択により前記第2識別器を生成することができる。

なお、本発明は、上記処理の少なくとも一部を実行する物体追跡方法として捉えることもできる。本発明は、上記処理の少なくとも一部を実行する手段を備える物体追跡装置として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、物体追跡を精度良く行うことができる。

図1は実施形態にかかる物体追跡装置の機能ブロック図である。図2は実施形態にかかる物体追跡処理の全体概要を示すフローチャートである。図3は物体追跡処理中の同一物体対応付け処理の流れを示すフローチャートである。図4（A）は物体追跡処理中の特定物体学習処理の流れを示すフローチャートであり、図4(B)は特定物体学習処理中のフレームグループ形成処理の流れを示すフローチャートである。図5(A)は一般物体検出処理の処理結果の例、図5(B)は同一物体対応付け処理の処理結果の例、図5(C)はフレームグループ形成処理の処理結果の例を示す図である。図6は繰り返し処理における物体追跡結果の変化の例を示す図である。

本実施形態は、動画像からバッチ処理によって物体を追跡する物体追跡方法である。以下、本実施形態に係る物体追跡装置について説明する。

＜構成＞
本実施形態における物体追跡装置100は、コンピュータ（情報処理装置）によって実現
される。物体追跡装置100のハードウェア構成は、CPU（Central Processing Unit）など
の演算装置（マイクロプロセッサ）、RAM（Random Access Memory）などの主記憶装置、HDD（Hard Disk Drive）やSSD（Solid State Drive）などの補助記憶装置、キーボードや
マウスやタッチパネルなどの入力装置、ディスプレイやスピーカーなどの出力装置、および通信インタフェースを備える。演算装置が、補助記憶装置に格納されているプログラムを主記憶装置にロードし実行することによって、物体追跡装置100は図1に示す各機能を提供する。

物体追跡装置100は、動画像記憶部102、一般物体識別部104、対応付け部106、学習部108、特定物体識別部110として機能する。

動画像記憶部102は、デジタルビデオカメラ（撮像装置）が撮影した動画像を記憶する
。動画像は、デジタルビデオカメラから直接取得されても良いし、通信を介して他の装置から取得されても良いし、持ち運び可能な記憶媒体を介して取得されても良い。動画像記
憶部102に格納される動画像のフォーマットは特に限定されない。

一般物体識別部104は、画像から識別対象の物体を検出するものである。一般物体識別
部104は、識別対象を全般的に検出可能である。例えば車両が識別対象の場合、一般物体
識別部104は、一般的な車両を全て検出できるように構成される。一般物体識別部104は、事前に用意した識別対象物体の画像データ群から、機械学習処理によって生成される。物体識別アルゴリズムは、既存の任意の方式が採用可能である。本実施形態では、物体識別アルゴリズムとしてDeformable Part Modelを用いる。

対応付け部106は、動画像から検出された複数の物体のうち同一と推定される物体を対
応付ける。対応付け部106は、一般物体識別部104による検出結果および特定物体識別部110による検出結果のそれぞれを対象として、同一物体の対応付けを行う。対応付け部106が行う処理の詳細は、後ほど詳しく説明する。

学習部108は、対応付け部106によって同一物体と判定された物体を学習データとして用いて、この特定の物体を検出するための特定物体識別部110を生成する。学習部108は、具体的には、ブースティングにより特徴選択することで特定物体識別部110を生成する。学
習部108が行う処理の詳細は、後ほど詳しく説明する。

特定物体識別部110は、学習部108によって生成される識別器であり、特定の物体を検出するように構成される。例えば、一般物体識別部104は車両一般を検出するのに対し、特
定物体識別部110は特定の車両を検出するように構成される。特定物体識別部110が行う処理の詳細は、後ほど詳しく説明する。

＜方法＞
次に、本実施形態に係る物体追跡装置100が実行する物体追跡処理について説明する。
図2は、物体追跡方法の全体の流れを示すフローチャートである。

ステップS11において、一般物体識別部104が、動画像記憶部102に記憶された動画像の
全フレームを対象として物体を検出する。図5（A）は、一般物体識別部104による検出結
果の例を示す。ここでは、フレームF1において2つの物体501，502が検出され、フレームF3で物体503が検出され、フレームF4で物体505が検出され、フレームF10で物体506が検出
されている。検出結果は、対応付け部106に送られる。

ステップS12において、対応付け部106が、ステップS11において検出された物体のうち
、同一の物体と推定される物体を対応付ける。対応付け処理の結果は学習部108に送られ
る。

図3のフローチャートを参照して、ステップS12の同一物体対応付け処理を詳しく説明する。ステップS20では、対応付け部106は、先頭フレームにおいて検出された物体を新規の特定物体として記憶する。2フレーム以降については、フレームごと（ループL1）および
フレーム内の検出物体ごと（ループL2）にステップS21-S24の処理が繰り返される。ステ
ップS21において、対応付け部106は、処理対象の検出物体と、処理済みの物体（既存物体）との間の類似度を算出する。類似度は物体の特徴量に基づいて算出される。既存物体が複数存在する場合には、各既存物体との間の類似度が算出される。ある既存物体が複数フレームにおいて検出されている場合、当該既存物体の特徴量は、ある特定フレームにおける物体から決定されてもよいし、複数フレームにおける物体から決定されてもよい。既存物体との類似度が所定の閾値Ts以上である場合（S22-YES）、対応付け部106は、処理対象の検出物体を当該既存物体であると判定し、これと関連付けて記憶する（S23）。一方、
既存物体との類似度が所定の閾値Ts未満の場合（S22-NO）、対応付け部106は、処理対象
の検出物体を新規の物体として記憶する（S24）。

対応付け部106による類似判定は、識別対象の個別具体的な物体（各個体）を区別でき
るように構成される。例えば、一般物体識別部104は車両全般を検出するのに対し、対応
付け部106は個々の車両を区別できるような類似判定を行う。また、対応付け部106は、特徴量以外に、フレーム画像内での物体の位置やフレーム間距離（時間間隔）や物体の移動速度を考慮に入れて、同一物体であるか否かの判定を行ってもよい。さらに、物体の移動軌跡を考慮に入れても良い。

対応付け部106による対応付け処理の結果は、物体追跡処理の結果といえる。なお、後
述するように、物体検出と対応付けは繰り返し行われるので、この時点での対応付け結果は物体追跡処理の暫定結果といえる。

図5(B)は、対応付け部106による対応付け処理の結果を示す。まず先頭フレームF1内の2つの物体はそれぞれ新規の物体A,Bと判定される。次に、フレームF3内の物体503は、物体A（物体501）との間の類似度が閾値Ts以上であるため、物体Aであると判定される。もし
物体503が物体A（物体501）および物体B（物体502）のいずれとも類似しなければ、物体503は新規物体Cと判定される。同様に、フレームF4内の物体504は物体B、フレームF5内の
物体505は物体A、フレームF10内の物体506は物体Bと判定される。

図2のフローチャートに戻る。ステップS13において、学習部108がステップS12の処理結果に基づいて、特定物体を検出するための特定物体識別部110を生成する。ステップS13の特定物体学習処理を、図4(A),4(B)のフローチャートを参照して詳しく説明する。

ステップS30において、学習部108は、ある特定物体のうちフレーム間距離が閾値Tf以内のグループ（以下、フレームグループと称する）を形成する。ステップS30の詳細は図4(B)に示されている。ステップS40において、学習部108は、先頭フレーム内の各特定物体に
対して新規のフレームグループを作成し、先頭フレーム内の特定物体をこのフレームグループに追加する。

2フレーム以降については、フレームごと（ループL3）およびフレーム内の特定物体ご
と（ループL4）にステップS41-S43の処理が繰り返される。ステップS41において、学習部108は、対象特定物体の既存のフレームグループと当該対象特定物体が含まれるフレーム
との間の時間方向距離（フレーム間距離）を求め、当該時間方向距離が閾値Tf以内であるか否か判定する。ここで、フレームグループと対象フレームとの間の距離は、フレームグループ内の最後方のフレームと対象フレームとの間の距離として求めることができる。あるいは、当該距離は、フレームグループ内の先頭フレームと対象フレームとの間の距離として求めることもできる。

フレームグループとの時間方向距離が閾値Tf以内であれば（S41−YES）、学習部108は
、対象特定物体を、当該フレームグループに追加する（S42）。一方、フレームグループ
との時間方向距離が閾値Tfより大きければ（S41-NO）、学習部108は、新規のフレームグ
ループを作成して、対象特定物体をこのフレームグループに追加する。

図5(C)は、図5(B)に示す対応付け結果に対するフレームグループ形成処理を説明する図である。先頭フレームF1内の物体A（501）に対して新規フレームグループG1が作成され、物体A(501)が当該フレームグループG1に追加される。同様に、先頭フレームF1内の物体Ｂ（502）に対して新規フレームグループG2が作成され、物体B(502)が当該フレームグルー
プG2に追加される。なお、図ではフレームグループG1, G2は最終的な結果が示されているが、いずれもこの時点では先頭フレームF1のみを含む。

次に、フレームF3の物体A（503）が処理される。ここでは、あるフレームとフレームグループとの間の距離は、当該フレームとフレームグループ内の最後方フレームの間のフレーム間距離とする。また、閾値Tfは4フレームであるとする。フレームF3と、フレームグ
ループG1の間の距離は2フレームであるので、物体503はフレームグループG1に追加される。同様に，フレームF4の物体504はフレームグループG2に追加され、フレームグループF5
の物体505はフレームグループG1に追加される。一方、フレームF10の物体506については
、フレームグループG2との間の距離が6フレームとなり閾値Tfより大きいので、物体506が新たなフレームグループG3に追加される。

図4(A)のフローチャートに戻る。フレームグループの形成処理が完了すると、ステップS31において学習部108は、各フレームグループについて、フレームグループ内の物体情報を学習データとして学習処理を行い、特定物体識別部110を生成する。上述のように、こ
の学習処理は、ブースティングを用いた特徴選択により行われる。図5(C)の例では、フレームグループG1,G2,G3にそれぞれ対応して、3つの識別器が生成される。

図2のフローチャートに戻る。ステップS14では、生成された特定物体識別部110が、動
画像から物体を検出する。ここで、特定物体識別部110は、当該特定物体識別部110の生成に用いたフレームグループに対応するフレームのみを対象として物体検出する。具体的には、特定物体識別部110の生成に用いたフレームグループの最前方フレームと最後方フレ
ームの間のフレーム区間を前方および後方に所定フレームだけ拡張してフレーム区間を対象として物体検出を行う。あるいは、フレーム区間の拡張を行わずに特定物体識別部110
の生成に用いたフレームグループの最前方フレームと最後方フレームの間のフレーム区間を対象として物体検出を行ってもよいし、全フレームを対象として物体検出を行ってもよい。

ステップS15では、対応付け部106が、特定物体識別部110の検出結果に対して同一物体
対応付け処理を行う。この処理は、ステップS12の処理（図3）と同じ処理とすることができる。あるいは、ステップS15での処理はステップS12の処理よりも簡略化し、ある特定物体識別部110によって検出された物体は当該特定物体識別部110に対応する物体とみなしてもよい。例えば、図5(C)のフレームグループG1を用いて生成された特定物体識別部110に
よって検出された物体は、物体Aであると判断できる。

ステップS16では、同一物体の対応付け処理の結果（物体追跡結果）が前回の処理結果
と一致しているか否かが判定される。一回目の判定では、ステップS12の結果とステップS15の結果が一致するか否かを判定すればよく、二回目以降の判定では、今回と前回のステップS15の結果が一致するか否かを判定すればよい。処理結果が一致しない場合（S16-NO
）は、ステップS13に戻って、特定物体識別部110の学習処理（S13）、特定物体識別部110を用いた検出処理（S14）、検出結果の対応付け処理（S15）を繰り返す。一方、処理結果が前回の処理結果と一致する場合（S16-YES）には、繰り返し実行を中止する。物体追跡
装置100は、最新の対応付け処理の結果を物体追跡結果として、記憶装置に格納したり外
部装置に出力したりする。

繰り返し実行の終了は、処理結果が同一となることを条件としなくても良い。例えば、処理結果の間の差が所定の閾値Tr以内となった場合に繰り返し実行を終了しても良い。ここで、処理結果の差は、例えば、検出された物体の不一致数に基づいて定量化することができる。あるいは、予め定められた回数だけ繰り返し実行するようにしても良い。あるいは、処理結果が同一（または差が閾以内）となるか、予め定められた上限回数実行されるまで繰り返し実行するようにしても良い。

図6は、物体Aに着目したときの検出結果の例を示す。図では、1回目の処理では、フレ
ームF1,F3,F5において物体Aが検出されている。1回目の処理はステップS12の処理を指す
。以下の2回目以降の処理はステップS15の処理を指す。2回目の処理では、さらにフレー
ムF2で物体Aが検出されている。3回目の処理では、さらにフレームF4およびフレームF6で物体Aが検出されている。4回目の処理結果は、3回目の処理結果と同じである。ここでは
物体Aについてのみ示しているが、全ての物体についての処理結果が変化しなくなったら
その時点で繰り返し実行が中止され物体追跡処理が終了する。

上記の説明では、処理を時間的に順方向に行っているが、時間的に逆方向に処理を行うこともできる。あるいは、順方向と逆方向の両方向に処理を行うようにしてもよい。

＜本実施形態の有利な効果＞
本実施形態では、特定物体識別部110は対象フレームの前後のフレームに含まれる検出
対象物体（特定物体）を用いて学習されたものである。したがって、時間的に前方向および後ろ方向の両方の物体の情報を用いて物体検出が行えるため、検出精度が向上する。特に、背景画像の変化、背景画像の映り込み、オクルージョン、照明の変化、物体の向きの変化などが生じた場合であっても、精度の良い検出が可能となる。

また、検出結果に基づいて特定物体識別部110を再学習するようにしているので、繰り
返し実行とともに処理結果の精度が漸近的に向上する。

＜変形例＞
上記の説明は、本発明の一実施形態であり本発明をその内容に限定するものではない。本発明は、その技術的思想の範囲内で種々の変形が可能である。

本発明に係る物体追跡装置は、マイクロプロセッサとプログラムによって実現する代わりに、FPGA（Field Programmable Gate Array）などのプログラム可能な集積回路や、ASIC(Application Specific Integrated Circuit)などの専用の集積回路によって実現されてもよい。また、これらの組み合わせにより実現されてもよい。また、物体追跡装置は必ずしも1台のコンピュータによって実現される必要はなく、ネットワークを介して接続され
た複数のコンピュータによって実現されてもよい。

本発明に係る物体追跡装置が検出対象とする物体は特に限定されないことは明らかであろう。上記の説明では、車両や歩行者を例にしているが、検出対象物体はこれらに限られず任意の物体であって構わない。

上記の説明では、撮影済みの動画像を対象としてバッチ処理を行う例を取り上げた。しかしながら、本発明の物体追跡処理は、動画像を撮影しながら実行し、蓄積された動画像を対象として準リアルタイムに物体追跡を行うようにも構成できる。

100 物体追跡装置
102 動画像記憶部 104 一般物体識別部 106 対応付け部
108 学習部 110 特定物体識別部

Claims

情報処理装置が実行する物体追跡方法であって、
予め学習された第1識別器を用いて、動画像を構成する複数の画像から物体を検出する
第1ステップと、
前記第1ステップで検出された物体のうち、同一物体を対応付ける第2ステップと、
前記同一物体のうち少なくとも一部の物体を用いた学習処理により第2識別器を生成す
る第3ステップと、
を含む、物体追跡方法。
前記第3ステップにおいて生成された第2識別器を用いて、前記動画像から物体を検出する第4ステップと、
前記第4ステップで検出された物体のうち、同一物体を対応付ける第5ステップをさらに含み、
前記第5ステップの検出結果に基づいて前記第3ステップを再実行する、
請求項1に記載の物体追跡方法。
前記第3ステップから前記第5ステップを繰り返し実行する、
請求項2に記載の物体追跡方法。
前記第5ステップの検出結果が変化しなくなった場合に、前記繰り返し実行を終了する
、
請求項3に記載の物体追跡方法。
前記第3ステップでは、同一物体のうち、フレーム間距離が閾値以内の同一物体を用い
て前記第2識別器を生成する、
請求項2から4のいずれか1項に記載の物体追跡方法。
前記第3ステップでは、フレーム間距離が閾値以内の同一物体ごとに前記第2識別器を生成し、
前記第4ステップでは、複数の前記第2識別器を用いて物体を検出する、
請求項5に記載の物体追跡方法。
前記第4ステップにおける第2識別器を用いた物体の検出は、当該第2識別器の生成に用
いた物体検出結果に対応するフレームを対象として行われる、
請求項5または6に記載の物体追跡方法。
前記第3ステップでは、ブースティングを用いた特徴選択により前記第2識別器を生成する、
請求項2から7のいずれか1項に記載の物体追跡方法。
前記第2ステップおよび前記第5ステップでは、
前記動画像の先頭フレームにおいて検出された物体を新規の物体とし、2フレーム以降
に検出された物体は、それ以前のフレームで検出された物体との類似度が所定値以上であれば当該物体と同一であるとし、そうでなければ新規の物体とする、ことによって同一物体を対応付ける、
請求項2から8のいずれか1項に記載の物体追跡方法。
予め学習された第1識別器を用いて、動画像を構成する複数の画像から物体を検出する
第1識別手段と、
複数の画像から検出された物体のうち、同一物体を対応付ける対応付け手段と、
前記同一物体のうち少なくとも一部の物体を用いた学習処理により第2識別器を生成す
る学習手段と、
前記第2識別器を用いて、前記動画像から物体を検出する第2識別手段と、
を備える物体追跡装置。
請求項1から9のいずれか1項に記載の方法の各ステップをコンピュータに実行させるプ
ログラム。