JP2022521540A

JP2022521540A - オンライン学習を利用した物体追跡のための方法およびシステム

Info

Publication number: JP2022521540A
Application number: JP2021549487A
Authority: JP
Inventors: カン，ミョング; ウィ，ドンユン; ペ，スンミン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2019-02-28
Filing date: 2020-02-11
Publication date: 2022-04-08
Anticipated expiration: 2040-02-11
Also published as: JP7192143B2; WO2020175818A1; KR102198920B1; KR20200105157A; US20210390347A1; US11972578B2; CN113454640A

Abstract

オンライン学習を利用した物体追跡のための方法およびシステムを提供する。物体追跡方法において、グローバルパターンマッチング（ｇｌｏｂａｌｐａｔｔｅｒｎｍａｔｃｈｉｎｇ）を利用して分類器（ｃｌａｓｓｉｆｉｅｒ）モデルを学習する段階、および前記分類器モデルを含んだオンライン学習によって各ターゲットを分類して追跡する段階を含む。

Description

以下の説明は、物体追跡（ｏｂｊｅｃｔｔｒａｃｋｉｎｇ）技術に関する。

物体の姿勢推定は、コンピュータビジョン、マンマシンインタフェース、およびその他の関連領域において重要な内容である。例えば、推定される物体をユーザの頭と見なせば、ユーザの頭の連続的な姿勢を推定することにより、ユーザが表現したい豊かな個性化情報を知ることができるようになる。また、物体（例えば、頭）の姿勢推定の結果は、マンマシンインタフェースを実行するために使用することもできるが、例えば、頭の姿勢を推定することによってユーザの視線焦点を得ることができ、より効果的なマンマシンインタフェースをサポートすることができる。

物体姿勢推定技術の一例として、特許文献１（公開日２００８年８月１２日）には、入力ビデオ映像から物体の動きをリアルタイムで自動追跡して物体の姿勢を判断する技術が開示されている。

現在使用されている物体姿勢推定方法は、一般的には、追跡（ｔｒａｃｋｉｎｇ）に基づく方法と学習に基づく方法とに分けられる。

追跡に基づく方法は、ビデオシーケンスにある現在フレーム（ＣｕｒｒｅｎｔＦｒａｍｅ）と前フレーム（ＰｒｅｖｉｏｕｓＦｒａｍｅ）との間に１つの対（ｐａｉｒｅｄ）マッチング方法によって物体の姿勢を推定する。

学習に基づく方法は、一般的に、物体姿勢推定を分類（ｃｌａｓｓｉｆｙ）方式または復帰方式として定義し、ラベルを含むサンプルを利用したトレーニングによって得られたトレーニングモデルを利用して物体の姿勢を推定する。

韓国特許出願公開第１０－２００８－００７３９３３号公報

各ターゲットのＩＤ（識別番号）を分類する分類器（ｃｌａｓｓｉｆｉｅｒ）が追加されたオンライン学習モデルを利用して各ターゲットのグローバルパターン（ｇｌｏｂａｌｐａｔｔｅｒｎ）を学習することを提供する。

時間軸とともに累積する各ターゲットの学習データを生成し、これを利用して分類器モデルを学習することを提供する。

ローカルパターン（ｌｏｃａｌｐａｔｔｅｒｎ）によるモーションファクタ（ｍｏｔｉｏｎｆａｃｔｏｒ）とグローバルパターンによる外観ファクタ（ａｐｐｅａｒａｎｃｅｆａｃｔｏｒ）を追跡にともに利用することを提供する。

コンピュータシステムが実行する物体追跡方法であって、前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記物体追跡方法は、前記少なくとも１つのプロセッサにより、グローバルパターンマッチング（ｇｌｏｂａｌｐａｔｔｅｒｎｍａｔｃｈｉｎｇ）を利用して分類器（ｃｌａｓｓｉｆｉｅｒ）モデルを学習する段階、および前記少なくとも１つのプロセッサにより、前記分類器モデルを含んだオンライン学習によって各ターゲットを分類して追跡する段階を含む、物体追跡方法を提供する。

一側面によると、前記学習する段階は、各ターゲットを分類する分類器が追加された学習モデルを利用して各ターゲットのグローバルパターンを学習する段階を含んでよい。

他の側面によると、前記学習する段階は、サンプルマイニング（ｓａｍｐｌｅｍｉｎｉｎｇ）によって時間軸とともに累積する各ターゲットの学習データを生成し、累積した学習データを利用して前記分類器モデルを繰り返し学習する段階を含んでよい。

また他の側面によると、前記学習する段階は、入力ビデオの連続する区間全体からターゲットが存在する有効区間（ｖａｌｉｄｐｅｒｉｏｄ）を区分する段階、前記有効区間のうちのいずれか１つの有効区間をラベリングした後に学習データを生成して前記分類器モデルを学習する段階、および次の有効区間のラベリングの後に学習データを生成して以前に生成された学習データと併合し、累積した学習データを生成して前記分類器モデルを繰り返し学習する段階を含んでよい。

また他の側面によると、前記ラベリングは、ターゲットのグローバルパターンによる外観ファクタ（ａｐｐｅａｒａｎｃｅｆａｃｔｏｒ）に基づいて計算された前記分類器モデルの類似度マトリックスを利用してよい。

また他の側面によると、前記学習する段階は、前記有効区間以外の無効区間（ｉｎｖａｌｉｄｐｅｒｉｏｄ）に対し、前記有効区間に学習された前記分類器モデルを利用してラベリングを実行する段階をさらに含んでよい。

また他の側面によると、前記追跡する段階は、入力ビデオのすべてのフレームに対してターゲットの位置を検出して各ターゲットのキーポイント（ｋｅｙｐｏｉｎｔ）の座標を求める段階、各ターゲットのキーポイントの座標を利用して隣接するフレームにおけるターゲット間のマッチングスコア（ｍａｔｃｈｉｎｇｓｃｏｒｅ）を求める段階、および前記ターゲット間のマッチングスコアを基準としてフレーム間の姿勢マッチングを実行する段階を含んでよい。

また他の側面によると、前記姿勢マッチングを実行する段階は、ターゲットの位置を示すボックスに対するモーションファクタ（ｍｏｔｉｏｎｆａｃｔｏｒ）に基づいて計算された類似度マトリックスを利用して前記姿勢マッチングを実行してよい。

また他の側面によると、前記マッチングスコアは、前フレームでのターゲットと次フレームでのターゲット間の近さ程度を示してよい。

また他の側面によると、前記追跡する段階は、ターゲットの位置を示す境界ボックスに基づくエラー測定によって前記姿勢マッチングのエラーを除去する過程、補間法（ｉｎｔｅｒｐｏｌａｔｉｏｎ）を利用して前記姿勢マッチングのエラーを補正する過程、および移動平均（ｍｏｖｉｎｇａｖｅｒａｇｅ）に基づいて前記姿勢マッチングに対する平滑化（ｓｍｏｏｔｈｉｎｇ）を実行する過程のうちの少なくとも１つの後処理過程を実行する段階をさらに含んでよい。

前記物体追跡方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータ読み取り可能な記録媒体を提供する。

コンピュータシステムであって、メモリ、および前記メモリと連結し、前記メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、グローバルパターンマッチングを利用して分類器モデルを学習する過程、および前記分類器モデルを含んだオンライン学習によって各ターゲットを分類して追跡過程を処理する、コンピュータシステムを提供する。

本発明の実施形態によると、各ターゲットのＩＤを分類する分類器が追加されたオンライン学習モデルを利用することで、各ターゲットのグローバルパターンを学習することができる。

本発明の実施形態によると、時間軸とともに累積する各ターゲットの学習データを生成し、これを利用して分類器モデルを学習することができる。

本発明の実施形態によると、ローカルパターンによるモーションファクタとグローバルパターンによる外観ファクタを追跡にともに利用することができる。

本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図である。本発明の一実施形態における、コンピュータシステムが実行することのできる物体追跡方法の例を示したフローチャートである。本発明の一実施形態における、ターゲットのキーポイント座標を求める過程の例を示した図である。本発明の一実施形態における、領域間の重畳程度を示すＩｏＵの測定の例を示した図である。本発明の一実施形態における、ターゲットのグローバルパターンを学習する過程の例を示した図である。本発明の一実施形態における、ターゲットのグローバルパターンを学習する過程の例を示した図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、オンライン学習モデルを利用して物体位置を追跡する技術に関する。

本明細書に具体的に開示される事項などを含む実施形態は、各ターゲットのＩＤを分類する分類器が追加されたオンライン学習モデルを利用して各パターンのグローバルパターンを学習することができ、これにより、正確性、効率性、費用節減などの側面において相当な長所を達成することができる。

図１は、本発明の一実施形態における、コンピュータシステムの内部構成の一例を説明するためのブロック図である。例えば、本発明の実施形態に係る物体追跡システムは、図１のコンピュータシステム１００によって実現されてよい。

図１に示すように、コンピュータシステム１００は、物体追跡方法を実行するための構成要素として、プロセッサ１１０、メモリ１２０、永続的記録装置１３０、バス１４０、入力／出力インタフェース１５０、ネットワークインタフェース１６０を含んでよい。

プロセッサ１１０は、物体追跡のための構成要素として、命令語のシーケンスを処理することのできる任意の装置を含んでもよいし、その一部であってもよい。プロセッサ１１０は、例えば、コンピュータプロセッサ、移動装置または他の電子装置内のプロセッサ、および／またはデジタルプロセッサを含んでよい。プロセッサ１１０は、例えば、サーバコンピューティングデバイス、サーバコンピュータ、一連のサーバコンピュータ、サーバファーム、クラウドコンピュータ、コンテンツプラットフォームなどに含まれてよい。プロセッサ１１０は、バス１４０を介してメモリ１２０に接続してよい。

メモリ１２０は、コンピュータシステム１００によって使用されるか、コンピュータシステム１００から出力される情報を記録するための揮発性メモリ、永続的メモリ、仮想メモリ、またはその他のメモリを含んでよい。メモリ１２０は、例えば、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）および／またはＤＲＡＭ（ＤｙｎａｍｉｃＲＡＭ）を含んでよい。メモリ１２０は、コンピュータシステム１００の状態情報のような任意の情報を記録するために使用されてよい。メモリ１２０は、例えば、物体追跡のための命令語を含むコンピュータシステム１００の命令語を記録するために使用されてもよい。コンピュータシステム１００は、必要な場合あるいは適切な場合に１つ以上のプロセッサ１１０を含んでよい。

バス１４０は、コンピュータシステム１００の多様なコンポーネントの相互作用を可能にする通信基盤の構造を含んでよい。バス１４０は、例えば、コンピュータシステム１００のコンポーネント間に、例えば、プロセッサ１１０とメモリ１２０の間にデータを運搬してよい。バス１４０は、コンピュータシステム１００のコンポーネント間の無線および／または有線通信媒体を含んでよく、並列、直列、または他のトポロジ配列を含んでよい。

永続的記録装置１３０は、（例えば、メモリ１２０に比べて）所定の延長された区間のデータを保存するためにコンピュータシステム１００によって使用されるもののようなメモリまたは他の永続的記録装置のようなコンポーネントを含んでよい。永続的記録装置１３０は、コンピュータシステム１００内のプロセッサ１１０によって使用されるもののような不揮発性メインメモリを含んでよい。永続的記録装置１３０は、例えば、フラッシュメモリ、ハードディスク、光ディスク、または他のコンピュータ読み取り可能媒体を含んでよい。

入力／出力インタフェース１５０は、キーボード、マウス、音声命令入力、ディスプレイ、または他の入力または出力装置に対するインタフェースを含んでよい。構成命令および／または物体追跡のための入力は、入力／出力インタフェース１５０に受信されてよい。

ネットワークインタフェース１６０は、近距離ネットワークまたはインターネットのようなネットワークに対する１つ以上のインタフェースを含んでよい。ネットワークインタフェース１６０は、有線または無線接続に対するインタフェースを含んでよい。構成命令および／または物体追跡のための入力は、ネットワークインタフェース１６０に受信されてよい。

また、他の実施形態において、コンピュータシステム１００は、図１の構成要素よりも多くの構成要素を含んでもよい。しかし、大部分の従来技術の構成要素を明確に図に示す必要はない。例えば、コンピュータシステム１００は、上述した入力／出力インタフェース１５０と連結する入力／出力装置のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。

実際の映像で物体追跡を実行する場合、他の物体によって物体が隠れたり（ｏｃｃｌｕｓｉｏｎ）、速い動きによって物体にぶれが生じたりすることによって適切な比較がなされず、同じ物体であっても異なる物体として認識されるという問題が発生することがある。

このような理由により、既存の物体追跡に利用される姿勢推定（ｐｏｓｅｅｓｔｉｍａｔｉｏｎ）は、正確度が１００％でなく、ローカルパターンをもつ類似位置によって推定がなされるしかなかった。これにより、ターゲットのＩＤがシフト（ｓｈｉｆｔ）されるという問題が起こるようになり、このような小さなエラーが積み重なることによってターゲット物体から遠ざかる結果をもたらしていた。

本発明では、グローバルパターンマッチングを利用したオンライン学習モデルを利用することにより、ターゲット物体をより正確に追跡できるようにする。

本明細書では人物追跡を代表的な例として説明しているが、これに限定されてはならず、人物の他にも、各種事物や他の種類の物体を対象にして適用することも可能である。

図２は、本発明の一実施形態における、コンピュータシステムのプロセッサが含むことのできる構成要素の例を示した図であり、図３は、本発明の一実施形態における、コンピュータシステムが実行することのできる物体追跡方法の例を示したフローチャートである。

図２に示すように、プロセッサ１１０は、推定部２１０、類似度計算部２２０、マッチング部２３０、後処理部２４０、および位置提供部２５０を含んでよい。このようなプロセッサ１１０の構成要素は、少なくとも１つのプログラムコードによって提供される制御命令にしたがってプロセッサ１１０によって実行される互いに異なる機能（ｄｉｆｆｅｒｅｎｔｆｕｎｃｔｉｏｎｓ）の表現であってよい。例えば、プロセッサ１１０が姿勢推定を実行するようにコンピュータシステム１００を制御するために動作する機能的表現として、推定部２１０が使用されてよい。

プロセッサ１１０およびプロセッサ１１０の構成要素は、図３の物体追跡方法が含む段階３１０～３５０を実行してよい。例えば、プロセッサ１１０およびプロセッサ１１０の構成要素は、メモリ１２０が含むオペレーティングシステムのコードと、上述した少なくとも１つのプログラムコードとによる命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、少なくとも１つのプログラムコードは、物体追跡方法を処理するために実現されたプログラムのコードに対応してよい。

物体追跡方法は、図に示した順に発生しなくてもよいし、段階のうちの一部が省略されたり、追加の過程がさらに含まれたりしてもよい。

プロセッサ１１０は、物体追跡方法のためのプログラムファイルに記録されたプログラムコードをメモリ１２０にロードしてよい。例えば、物体追跡方法のためのプログラムファイルは、図１を参照しながら説明した永続的記録装置１３０に記録されていてよく、プロセッサ１１０は、バスを介して永続的記録装置１３０に記録されたプログラムファイルからプログラムコードがメモリ１２０にロードされるようにコンピュータシステム１００を制御してよい。このとき、プロセッサ１１０およびプロセッサ１１０が含む推定部２１０、類似度計算部２２０、マッチング部２３０、後処理部２４０、および位置提供部２５０それぞれは、メモリ１２０にロードされたプログラムコードのうちの対応する部分の命令を実行し、以後の段階３１０～３５０を実行するためのプロセッサ１１０の互いに異なる機能的表現であってよい。段階３１０～３５０の実行のために、プロセッサ１１０およびプロセッサ１１０の構成要素は、制御命令による演算を直接処理してもよいし、コンピュータシステム１００を制御してもよい。

段階３１０で、推定部２１０は、ビデオファイルが入力されれば、入力ビデオを対象に姿勢推定を実行してよい。このとき、推定部２１０は、入力ビデオのすべてのフレームに対してターゲット物体に該当する人物の位置を検出し、各人物のキーポイント（ｋｅｙｐｏｉｎｔ）の座標を求めてよい。

例えば、図４を参照すると、入力ビデオを構成するすべてのフレームからターゲットとなる人物の位置を検出した後、該当の人物の頭、左／右肩、左／右肘、左／右手、左／右膝、左／右足などの１７ヶ所の座標をキーポイントとして活用してよい。一例として、推定部２１０は、ＹＯＬＯ（ｙｏｕｏｎｌｙｌｏｏｋｏｎｃｅ）基盤の人物検出（ｈｕｍａｎｄｅｔｅｃｔｉｏｎ）アルゴリズムを利用してフレームから人物を検出してよく、トップ－ダウン（ｔｏｐ－ｄｏｗｎ）方式によって各人物のキーポイントの座標を求めてよい。

再び図３において、段階３２０で、類似度計算部２２０は、各フレームの各人物のキーポイント座標に基づき、隣接するフレーム間の姿勢類似度（ｐｏｓｅｓｉｍｉｌａｒｉｔｙ）を計算してよい。言い換えれば、類似度計算部２２０は、隣接する２つのフレームの人物の姿勢類似度を示すマッチングスコア（ｍａｔｃｈｉｎｇｓｃｏｒｅ）を求めてよい。ここで、マッチングスコアとは、ｎ番目のフレームのＫ人の人物が、ｎ＋１番目のフレームのＫ’人の人物とそれぞれどのくらい近いかを示す指標を意味してよい。

特に、本発明において姿勢類似度を示すマッチングスコアは、ローカルパターンによるモーションファクタとグローバルパターンによる外観ファクタを含んでよい。マッチングスコアを計算するためのモデルは、各ターゲットのＩＤを分類する分類器が追加されたオンライン学習モデルによって実現されてよく、該当のオンライン学習モデルを利用して各ターゲットのグローバルパターンが学習されてよい。

本発明に係る分類器モデルは、時間軸とともに各ターゲットの学習データを累積してよく、学習データの一例としては、ターゲットのすべてのキーポイントを含んでよい。言い換えれば、分類器モデルを利用することで各ターゲットのグローバルパターンが学習されてよい。このとき、グローバルパターンを学習するための分類器としては、分類（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）が可能なすべてのネットワークモデルが適用されてよい。

モーションファクタは、ターゲットの位置領域を示す境界ボックス（ｂｏｕｎｄｉｎｇｂｏｘ）ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎＯｖｅｒＵｎｉｏｎ）と姿勢ＩｏＵに基づいて求められてよい。このとき、ＩｏＵとは、図５に示すように、２つの領域の重畳程度を示すものであり、これにより、地上検証（ｇｒｏｕｎｄｔｒｕｔｈ）（実際の物体の境界）を有する物体検出で予測値がどのくらい正確であるかを測定してよい。また、外観ファクタは、客観的確率を判断するためのサンプルマイニング（ｓａｍｐｌｅｍｉｎｉｎｇ）とオンライン学習に基づくグローバルパターンマッチングを利用して求められてよい。

再び図３において、段階３３０で、マッチング部２３０は、段階３２０の結果を利用してフレーム間の姿勢マッチングを実行してよい。言い換えれば、マッチング部２３０は、姿勢類似度を示すマッチングスコアを基準に、実際にｎ番目のフレームのｉ番目のボックス（すなわち、ターゲット位置）とｎ＋１番目のフレームのｊ番目のボックスとをマッチングしてよい。

マッチング部２３０は、ハンガリアンメソッド（Ｈｕｎｇａｒｉａｎｍｅｔｈｏｄ）などのマッチングアルゴリズムを利用して姿勢マッチングを実行してよい。マッチング部２３０は、先ずは隣接するフレームの類似度マトリックスを計算した後、これをハンガリアンメソッドに最適化して各ボックスをマッチングしてよい。このとき、姿勢マッチングのための類似度マトリックスは、ＩｏＵを示すモーションファクタを利用して計算してよい。

段階３４０で、後処理部２４０は、段階３３０の姿勢マッチング結果に対して誤検出の排除などを含む後処理過程を実行してよい。一例として、後処理部２４０は、境界ボックスＩｏＵ基盤のエラー測定によってマッチングエラーを除去してよい。または、後処理部２４０は、補間法（ｉｎｔｅｒｐｏｌａｔｉｏｎ）を利用してマッチングエラーを補正してもよいし、移動平均（ｍｏｖｉｎｇａｖｅｒａｇｅ）などに基づいて姿勢マッチングに対する平滑化（ｓｍｏｏｔｈｉｎｇ）を経てもよい。

段階３５０で、位置提供部２５０は、追跡結果として姿勢マッチングによる各ターゲットの位置を提供してよい。位置提供部２５０は、各ターゲットの座標値を出力として提供してよい。ターゲットの位置を表示した領域は境界ボックスと呼ばれるが、このとき、ターゲットの位置は、境界ボックスのフレーム内の位置座標として与えられてよい。ターゲットの位置座標は、［左線のＸ座標、右線のＹ座標、右線のＸ座標、下線のＹ座標］、［左線のＸ座標、右線のＹ座標、四角形の幅、四角形の高さ］などの形態で表記されてよい。

図６～７は、本発明の一実施形態における、ターゲットのグローバルパターンを学習する過程の例を示した図である。

図６～７は、サンプルマイニング過程を示している。

図６を参照すると、１．モデル結果値は、モーションファクタを使用した既存の追跡技術を適用した結果であり、本発明では、既存の追跡を一次として適用した後、二次として外観ファクタを計算して物体追跡に利用してよい。

２．全体動画内で有効区間（ｖａｌｉｄｐｅｒｉｏｄ）と無効区間（ｉｎｖａｌｉｄｐｅｒｉｏｄ）を定義して区分してよい。ここで、有効区間とは、すべてのターゲットが存在する区間を意味するものであり、図６の斜線部分が有効区間を示す。

図７を参照すると、３．モデル訓練を繰り返し、該当のモデルを利用して次の有効区間に対してラベルを指定して学習例を追加してよい。

学習データは、複数のフレームからなる連続する区間全体を利用する。このとき、学習モデルの入力単位は、連続する区間全体からサンプリングされたミニバッチ（ｍｉｎｉ－ｂａｔｃｈ）となってよく、ミニバッチの大きさは、事前に定められたデフォルト値が定められてもよいし、ユーザによって定められてもよい。

学習データは、ターゲット位置を含むボックスイメージと、該当のターゲットのＩＤを含む。ここで、ボックスイメージとは、全体イメージで各人物の位置を示す領域だけを切り取ったイメージを意味する。

学習モデル（ネットワーク）の出力は、任意の人物が含まれたボックスイメージが与えられたとき、該当のボックスイメージの各ターゲットＩＤに対する確率値となる。

図７に示すように、学習の第１段階（１ｓｔ）では、最も長い有効区間７１０を利用して１つ目の区間の学習データを生成し、１つ目の区間の学習データを利用してモデルを学習させる。このときの学習データは、既存の物体追跡技術によって得られた結果をそのままラベリングしたものであってもよいし、ボックスイメージとターゲットＩＤを学習データとして使用してもよい。

第２段階（２ｎｄ）では、１つ目の区間で学習させたモデルを利用して次の対象区間、すなわち、２番目に長い有効区間７２０をラベリングさせた後、２つ目の区間の学習データを生成する。この後、１つ目の区間と２つ目の区間の学習データを併合して累積した学習データを生成し、これを利用してモデルを再び学習させる。

このような方式を繰り返しながら有効区間に対する学習が終わった後、無効区間に対しては、有効区間で学習させたモデルを利用しながら予測（ラベリング）を実行するようになる。

上述したラベリング過程は、分類器モデルのための類似度マトリックスを計算した後、これを利用して各ボックスをマッチングしてよい。このとき、分類器モデルの類似度は、モーションファクタでなく外観ファクタを利用して計算されてよい。

このように、本発明の実施形態によると、各ターゲットのＩＤを分類する分類器が追加されたオンライン学習モデルを利用して各ターゲットのグローバルパターンを学習することができ、時間軸とともに累積する各ターゲットの学習データを生成して利用することで分類器モデルを学習することができ、これにより、ローカルパターンによるモーションファクタとグローバルパターンによる外観ファクタを物体追跡にともに利用することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。

Claims

コンピュータシステムが実行する物体追跡方法であって、
前記コンピュータシステムは、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
前記物体追跡方法は、
前記少なくとも１つのプロセッサにより、グローバルパターンマッチングを利用して分類器モデルを学習する段階、および
前記少なくとも１つのプロセッサにより、前記分類器モデルを含んだオンライン学習によって各ターゲットを分類して追跡する段階
を含む、物体追跡方法。
前記学習する段階は、
各ターゲットを分類する分類器が追加された学習モデルを利用して各ターゲットのグローバルパターンを学習する段階
を含む、請求項１に記載の物体追跡方法。
前記学習する段階は、
サンプルマイニングによって時間軸とともに累積する各ターゲットの学習データを生成し、累積した学習データを利用して前記分類器モデルを繰り返し学習させる段階
を含む、請求項１に記載の物体追跡方法。
前記学習する段階は、
入力ビデオの連続する区間全体からすべてのターゲットが存在する有効区間を区分する段階、
前記有効区間のうちのいずれか１つの有効区間をラベリングした後、学習データを生成して前記分類器モデルを学習させる段階、および
次の有効区間をラベリングした後、学習データを生成して以前に生成された学習データと併合して累積した学習データを生成して前記分類器モデルを繰り返し学習させる段階
を含む、請求項１に記載の物体追跡方法。
前記ラベリングは、ターゲットのグローバルパターンによる外観ファクタに基づいて計算された前記分類器モデルの類似度マトリックスを利用する
請求項４に記載の物体追跡方法。
前記学習する段階は、
前記有効区間以外の区間に対し、前記有効区間によって学習された前記分類器モデルを利用してラベリングを実行する段階
をさらに含む、請求項４に記載の物体追跡方法。
前記追跡する段階は、
入力ビデオのすべてのフレームに対してターゲットの位置を検出して各ターゲットのキーポイントの座標を求める段階、
各ターゲットのキーポイントの座標を利用して隣接するフレームのターゲット間のマッチングスコアを求める段階、および
前記ターゲット間のマッチングスコアを基準としてフレーム間の姿勢マッチングを実行する段階
を含む、請求項１に記載の物体追跡方法。
請求項１～７のうちのいずれか一項に記載の物体追跡方法をコンピュータに実行させるためのプログラムが記録されている、コンピュータ読み取り可能な記録媒体。
コンピュータシステムであって、
メモリ、および
前記メモリと連結し、前記メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
グローバルパターンマッチングを利用して分類器モデルを学習させる過程、および
前記分類器モデルを含んだオンライン学習によって各ターゲットを分類して追跡する過程
を処理する、コンピュータシステム。
前記学習する過程は、
各ターゲットを分類する分類器が追加された学習モデルを利用して各ターゲットのグローバルパターンを学習する
請求項９に記載のコンピュータシステム。
前記学習する過程は、
サンプルマイニングによって時間軸とともに累積する各ターゲットの学習データを生成し、累積した学習データを利用して前記分類器モデルを繰り返し学習させる
請求項９に記載のコンピュータシステム。
前記学習する過程は、
入力ビデオの連続する区間全体からすべてのターゲットが存在する有効区間を区分する過程、
前記有効区間のうちのいずれか１つの有効区間をラベリングした後、学習データを生成して前記分類器モデルを学習させる過程、および
次の有効区間をラベリングした後、学習データを生成して以前に生成された学習データと併合して累積した学習データを生成して前記分類器モデルを繰り返し学習させる過程
を含む、請求項９に記載のコンピュータシステム。
前記ラベリングは、ターゲットのグローバルパターンによる外観ファクタに基づいて計算された前記分類器モデルの類似度マトリックスを利用する
請求項１２に記載のコンピュータシステム。
前記学習する過程は、
前記有効区間以外の区間に対し、前記有効区間によって学習された前記分類器モデルを利用してラベリングを実行する過程
をさらに含む、請求項１２に記載のコンピュータシステム。
前記追跡する過程は、
入力ビデオのすべてのフレームに対してターゲットの位置を検出して各ターゲットのキーポイントの座標を求める過程、
各ターゲットのキーポイントの座標を利用して隣接するフレームのターゲット間のマッチングスコアを求める過程、および
前記ターゲット間のマッチングスコアを基準としてフレーム間の姿勢マッチングを実行する過程
を含む、請求項９に記載のコンピュータシステム。