JP7404125B2

JP7404125B2 - 物体追跡方法及びプログラム

Info

Publication number: JP7404125B2
Application number: JP2020052978A
Authority: JP
Inventors: 雅司岡田; 慎治竹中
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2019-09-13
Filing date: 2020-03-24
Publication date: 2023-12-25
Anticipated expiration: 2040-03-24
Also published as: US11282215B2; JP2021043940A; CN112509015A; US20210082128A1

Description

本開示は、物体追跡方法及びプログラムに関する。

映像に映る複数の対象物体を追跡する物体追跡技術がある中で、映像中の複数の人間の姿勢を追跡する姿勢追跡技術が注目されている。そして、姿勢追跡技術では、２段階のスキームが多く採用されている（例えば、非特許文献１参照）。ここで、２段階のスキームとは、１）deep CNN(Convolutional Neural Network)を用いてフレーム毎の姿勢を推定し、２）フレーム毎にgreedy bipartite matchingするスキームである。

非特許文献１に開示される姿勢追跡技術では、入力された映像の現在フレームから姿勢を推定し、過去フレームの姿勢とオプティカルフローとから、過去フレームの姿勢の座標をシフト処理することで現在フレームでの姿勢を予測する。そして、現在フレームから推定された姿勢と過去フレーム等から予測された姿勢とをマッチングし、マッチしたペアに同一のＩＤを付与する。なお、このマッチングには、推定された姿勢と予測された姿勢のオブジェクトキーポイント類似性（ＯＫＳ：Object Keypoint Similarity）が用いられる。

B. Xiao, H. Wu, and Y. Wei, "Simple baselines for human pose estimation and tracking," in European Conference on Computer Vision,2018.

しかしながら、非特許文献１で開示されている姿勢追跡技術では、姿勢の予測の誤りに対して脆弱であるという課題がある。例えば、映像中の複数の人物の姿勢が、高速に変化したり、オクルージョンにより消失したり再現したりするなど、映像に外乱が発生することがある。非特許文献１で開示されている姿勢追跡技術では、上記のような外乱が発生すると、現在フレームでの姿勢を誤って推定してしまい、過去フレーム等から予測された姿勢と正しくマッチングできないことになる。つまり、非特許文献１で開示されている姿勢追跡技術では、上記のような外乱が発生すると、姿勢の追跡を誤ってしまうすなわち追跡ミスをしてしまう。

本開示は、上述の事情を鑑みてなされたもので、追跡ミスを抑制することができる物体追跡方法及びプログラムを提供することを目的とする。

上記課題を解決するために、本開示の一形態に係る物体追跡方法は、コンピュータが行う映像の物体追跡方法であって、時系列に連続した２以上の過去フレームに映る１以上の物体それぞれの姿勢を示す座標を含む姿勢の時系列データを、第１ニューラルネットワークを含み不確実性を考慮した姿勢予測を行う姿勢予測器に入力することで、前記姿勢予測器に、現在フレームにおける１以上の第１物体の予測姿勢位置それぞれの分布である予測分布を予測させる予測ステップと、前記現在フレームを、第２ニューラルネットワークに入力することで、前記第２ニューラルネットワークに、前記現在フレームに映る１以上の第２物体それぞれの位置の集合を推定させる推定ステップと、前記１以上の第２物体それぞれの位置の集合と、前記予測分布とをマッチングすることにより、前記１以上の第２物体それぞれが前記１以上の第１物体のいずれかに該当するかを示す識別情報、及び、前記１以上の第２物体それぞれの姿勢を示す位置である位置情報を取得して出力する出力ステップと、前記出力ステップにおいて取得された前記識別情報及び前記位置情報に基づいて、前記予測ステップにおいて予測させた前記予測分布から得られる前記１以上の第１物体それぞれの姿勢を示す座標を含むデータを前記姿勢の時系列データに追加することで前記姿勢の時系列データを更新する更新ステップと、を含む。

なお、これらのうちの一部の具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体を用いて実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせを用いて実現されてもよい。

本開示の物体追跡方法等によれば、追跡ミスを抑制することができる。

図１は、実施の形態における物体追跡装置を示す図である。図２は、実施の形態おける物体追跡装置の機能をソフトウェアにより実現するコンピュータのハードウェア構成の一例を示す図である。図３は、実施の形態における物体追跡装置の構成の一例を示すブロック図である。図４は、図３に示す姿勢予測器の詳細構成の一例を示すブロック図である。図５は、図３に示す姿勢予測器のアーキテクチャの一例を示す図である。図６Ａは、比較例における現在フレームの姿勢推定結果を示す図である。図６Ｂは、比較例における現在フレームの姿勢推定結果を示す図である。図６Ｃは、比較例における現在フレームの姿勢推定結果を示す図である。図７Ａは、実施例１における現在フレームの姿勢予測結果を示す図である。図７Ｂは、実施例１における現在フレームの姿勢予測結果を示す図である。図７Ｃは、実施例１における現在フレームの姿勢予測結果を示す図である。図８は、実施の形態おける物体追跡装置の動作を示すフローチャートである。図９は、実施例２における物体追跡方法の擬似コードの一例を示す図である。図１０は、実施例２における物体追跡方法を概念的に示す図である。図１１は、実施例３における物体追跡性能の評価結果を示す図である。図１２は、実施例３における姿勢予測器のコンポーネントを無効化等した場合の性能評価実験の結果を示す図である。図１３は、本開示と比較例とにおける物体追跡方法による物体追跡結果を視覚的に示す図である。図１４は、本開示と比較例とにおける物体追跡方法による物体追跡結果を視覚的に示す図である。

本開示の一形態に係る物体追跡方法は、コンピュータが行う映像の物体追跡方法であって、時系列に連続した２以上の過去フレームに映る１以上の物体それぞれの姿勢を示す座標を含む姿勢の時系列データを、第１ニューラルネットワークを含み不確実性を考慮した姿勢予測を行う姿勢予測器に入力することで、前記姿勢予測器に、現在フレームにおける１以上の第１物体の予測姿勢位置それぞれの分布である予測分布を予測させる予測ステップと、前記現在フレームを、第２ニューラルネットワークに入力することで、前記第２ニューラルネットワークに、前記現在フレームに映る１以上の第２物体それぞれの位置の集合を推定させる推定ステップと、前記１以上の第２物体それぞれの位置の集合と、前記予測分布とをマッチングすることにより、前記１以上の第２物体それぞれが前記１以上の第１物体のいずれかに該当するかを示す識別情報、及び、前記１以上の第２物体それぞれの姿勢を示す位置である位置情報を取得して出力する出力ステップと、前記出力ステップにおいて取得された前記識別情報及び前記位置情報に基づいて、前記予測ステップにおいて予測させた前記予測分布から得られる前記１以上の第１物体それぞれの姿勢を示す座標を含むデータを前記姿勢の時系列データに追加することで前記姿勢の時系列データを更新する更新ステップと、を含む。

これにより、追跡ミスを抑制することができる物体追跡方法を実現できる。

ここで、例えば、前記出力ステップでは、前記１以上の第２物体それぞれの位置の集合と、前記予測分布とをマッチングすることにより、マッチングスコアが所定値以上の前記予測分布と前記位置の集合とからなる組を算出し、算出した前記組に基づいて前記識別情報と前記位置情報を取得して出力するとしてもよい。

また、例えば、前記出力ステップでは、前記１以上の第２物体それぞれの位置の集合と、前記予測分布とを二部マッチングすることにより、マッチングスコアが所定値以上の前記予測分布と前記位置の集合とからなる前記組を算出するとしてもよい。

また、例えば、前記予測ステップでは、前記第１ニューラルネットワークは、前記不確実性を考慮するための１以上のモデルを用いて、前記１以上のモデルそれぞれに、前記姿勢の時系列データから、前記現在フレームにおける１以上の前記第１物体の予測姿勢位置を予測させることで、前記予測分布を予測するとしてもよい。

また、例えば、前記予測分布は、前記不確実性を考慮した分布であって、予測された前記予測姿勢位置を含み、ガウス分布での分散で表現された分布であるとしてもよい。

また、例えば、前記第１ニューラルネットワークは、リカレントニューラルネットワークと、前記１以上のモデルを形成する所定のニューラルネットワークとを有するとしてもよい。

また、例えば、前記１以上のモデルは、前記所定のニューラルネットワークにドロップアウトを適用し、前記所定のニューラルネットワークを構成する１以上のノードを不活性化させることにより形成されるとしてもよい。

以下、本開示の一態様に係る物体追跡方法について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
以下、実施の形態における物体追跡装置１０の物体追跡方法等の説明を行う。

［物体追跡装置１０］
図１は、本実施の形態における物体追跡装置１０を示す図である。

本実施の形態における物体追跡装置１０には、姿勢の時系列データとともに、映像すなわち追跡対象である１以上の物体が映る現在フレームが入力される。すると、物体追跡装置１０は、追跡対象である１以上の物体それぞれの識別情報及び当該物体それぞれの姿勢を示す位置である位置情報を含む現在フレームにおける追跡結果を出力する。また、物体追跡装置１０は、更新した姿勢の時系列データも出力する。後述するが、姿勢の時系列データには、時系列に連続した２以上の過去フレームに映る１の物体それぞれの姿勢を示す座標が含まれる。なお、物体追跡装置１０は、続いて、更新した姿勢の時系列データとともに、次の現在フレームが入力されると、同様に追跡結果を出力する。このようにして、物体追跡装置１０は、入力される映像に映る１以上の物体の姿勢を追跡する。以下では、物体の一例として人物を挙げて説明するが、これに限らない。骨があり姿勢がある動物でもよいし、後述するキーポイントを検出できれば、動物に限らず、生物でも物体でもよい。

［ハードウェア構成］
次に、本実施の形態おける物体追跡装置１０のハードウェア構成について、図２を用いて説明する。図２は、実施の形態おける物体追跡装置１０の機能をソフトウェアにより実現するコンピュータ１０００のハードウェア構成の一例を示す図である。

コンピュータ１０００は、図２に示すように、入力装置１００１、出力装置１００２、ＣＰＵ１００３、内蔵ストレージ１００４、ＲＡＭ１００５、読取装置１００７、送受信装置１００８及びバス１００９を備えるコンピュータである。入力装置１００１、出力装置１００２、ＣＰＵ１００３、内蔵ストレージ１００４、ＲＡＭ１００５、読取装置１００７及び送受信装置１００８は、バス１００９により接続される。

入力装置１００１は入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。なお、入力装置１００１は、ユーザの接触操作を受け付ける他、音声での操作、リモコン等での遠隔操作を受け付ける構成であってもよい。

内蔵ストレージ１００４は、フラッシュメモリなどである。また、内蔵ストレージ１００４は、物体追跡装置１０の機能を実現するためのプログラム、及び、物体追跡装置１０の機能構成を利用したアプリケーションの少なくとも一方が、予め記憶されていてもよい。

ＲＡＭ１００５は、ランダムアクセスメモリ（Random Access Memory）であり、プログラム又はアプリケーションの実行に際してデータ等の記憶に利用される。

読取装置１００７は、ＵＳＢ（Universal Serial Bus）メモリなどの記録媒体から情報を読み取る。読取装置１００７は、上記のようなプログラムやアプリケーションが記録された記録媒体からそのプログラムやアプリケーションを読み取り、内蔵ストレージ１００４に記憶させる。

送受信装置１００８は、無線又は有線で通信を行うための通信回路である。送受信装置１００８は、例えばネットワークに接続されたサーバ装置と通信を行い、サーバ装置から上記のようなプログラムやアプリケーションをダウンロードして内蔵ストレージ１００４に記憶させる。

ＣＰＵ１００３は、中央演算処理装置（Central Processing Unit）であり、内蔵ストレージ１００４に記憶されたプログラム、アプリケーションをＲＡＭ１００５にコピーし、そのプログラムやアプリケーションに含まれる命令をＲＡＭ１００５から順次読み出して実行する。

［物体追跡装置１０の構成］
続いて、本実施の形態おける物体追跡装置１０の構成について説明する。

図３は、本実施の形態における物体追跡装置１０の構成の一例を示すブロック図である。

物体追跡装置１０は、入力される映像に映る１以上の物体の姿勢を追跡する。本実施の形態では、物体追跡装置１０は、図３に示すように、姿勢予測器１１と、姿勢推定部１２と、マッチング部１３と、出力部１４と、データ更新部１５とを備える。以下、各構成要素について詳細に説明する。

＜姿勢予測器１１＞
姿勢予測器１１は、第１ニューラルネットワークを含むアーキテクチャからなり、不確実性を考慮した姿勢予測を行う。アーキテクチャの詳細については後述する。

姿勢予測器１１は、時系列に連続した２以上の過去フレームに映る１以上の物体それぞれの姿勢を示す座標を含む姿勢の時系列データが入力されると、現在フレームにおける１以上の第１物体の予測姿勢位置それぞれの分布である予測分布を予測する。ここで、姿勢予測器１１が予測する予測分布は、後述する２種類の不確実性の少なくとも一方を考慮した分布であって、予測された予測姿勢位置を含み、ガウス分布での分散で表現された分布である。なお、姿勢の時系列データは、当該座標に加えて１以上の物体それぞれを識別する識別子（ＩＤ）が含まれていてもよい。

本実施の形態では、フレーム内の物体としての人物の姿勢は、フレーム内の人物の関節の場所の集合として予測される。なお、この関節は、例えば頭部、肩、手先、肘、手首などであり、キーポイントと称される。姿勢の時系列データは、キューというデータ構造で保持されており、後述するデータ更新部１５により、姿勢予測器１１に入力される。

姿勢予測器１１は、姿勢の時系列データから、現在フレームにおける１以上の人物の姿勢を構成するキーポイントの位置が現在フレーム内のどの辺にあるかを分布で（つまり、キーポイントの位置の分布として）予測する。このようなキーポイントの位置の分布は、上述した予測分布に該当する。このように、姿勢予測器１１は、現在フレームにおける人物の姿勢を構成するキーポイントの位置がどこにあるか（１つの仮説）を予測するのではなく、現在フレームにおける人物の姿勢を構成するキーポイントの位置がどの辺にあるか（換言すると複数の仮説）を分布の形（つまり予測分布）で予測する。

＜姿勢推定部１２＞
姿勢推定部１２は、現在フレームが入力されると、現在フレームに映る０以上の第２物体それぞれの位置の集合を推定する。なお、姿勢推定部１２は、物体が映っていない場合には、出力がないすなわち推定を行わないとしてもよい。

本実施の形態では、姿勢推定部１２には、現在フレームのＲＧＢ画像が入力され、現在フレームに映る１以上の人物の姿勢を構成するキーポイントの位置の集合を推定する。なお、姿勢推定部１２は、現在フレームにおいて、なんらかの人物の姿勢があることを推定できることに留まる。つまり、現在フレームに映る人物の姿勢が姿勢推定部１２により推定されるものの、推定された姿勢の人物が誰かまではわからない（推定した姿勢の人物にＩＤが付与されていない）。

また、姿勢推定部１２は、第２ニューラルネットワークを含むアーキテクチャで構成される。そして、姿勢推定部１２は、映像から取得した現在フレームを、第２ニューラルネットワークに入力することで、第２ニューラルネットワークに、現在フレームに映る１以上の第２物体それぞれの位置の集合を推定させる。本実施の形態では、第２ニューラルネットワークは、非特許文献１に開示されるdeep CNNであるとしている。なお、第２ニューラルネットワークは、現在フレームから、現在フレームに映る１以上の人物の姿勢を構成するキーポイントの位置の集合を推定できればどのような構成のDNN（Deep Neural Network)であってもよい。

＜マッチング部１３＞
マッチング部１３は、姿勢推定部１２が推定した１以上の第２物体それぞれの位置の集合と、姿勢予測器１１が予測した予測分布とをマッチングする。マッチング部１３は、マッチングすることにより、１以上の第２物体それぞれが１以上の第１物体のいずれかに該当するかを示す識別情報、及び、１以上の第２物体それぞれの姿勢を示す座標である位置情報を取得して出力する。より具体的には、マッチング部１３は、マッチングすることにより、マッチングスコアが所定値以上の予測分布と位置の集合とからなる組を算出し、算出した組に基づいて識別情報と位置情報を取得して出力する。マッチング部１３は、姿勢推定部１２が推定した１以上の第２物体それぞれの位置の集合と、姿勢予測器１１が予測した予測分布とを二部マッチングすることにより、当該組を算出してもよい。

本実施の形態では、マッチング部１３は、姿勢予測器１１が予測したキーポイントの位置の分布と、姿勢推定部１２が推定したキーポイントの位置の集合とを、オブジェクトキーポイント類似性（ＯＫＳ）を用いて二部マッチングする。ここで、オブジェクトキーポイント類似性（ＯＫＳ）とは、推定姿勢と正解姿勢との類似度を表す評価指標として用いられる。オブジェクトキーポイント類似性（ＯＫＳ）は、アノテーションされている関節点についての推定座標と正解座標の類似度の平均を表す値となっており、人物の推定姿勢と正解姿勢とが完全に一致するとき１の値を示す。また、二部マッチングは、二部グラフマッチングとも称され、それぞれ複数の要素を含む２つのカテゴリ間で、有効なペアとなる複数の組を求める手法である。

より詳細には、マッチング部１３は、姿勢予測器１１が予測したキーポイントの位置の分布と、姿勢推定部１２が推定したキーポイントの位置の集合とのあらゆる組について、オブジェクトキーポイント類似性（ＯＫＳ）を用いてマッチングスコアを算出する。マッチング部１３は、あらゆる組のうち、閾値以上のマッチングスコアとなる組を有効な組であるとして取得する。閾値以上のマッチングスコアとなる組は、姿勢予測器１１により予測され分布におけるキーポイントの位置と姿勢推定部１２により推定された集合における位置とのペアからなる。

マッチング部１３は、閾値以上のマッチングスコアとなる組に基づいて、推定された現在フレームに映る１以上の人物の姿勢を示す位置情報を取得するとともに、推定した姿勢の人物にＩＤを付与する。なお、１以上の人物の姿勢を示す位置情報は、例えば、１以上の人物の姿勢を構成する複数のキーポイントの位置座標である。また、推定した姿勢の人物に付与したＩＤに関する情報は、上記の識別情報に該当する。

そして、マッチング部１３は、取得した位置情報と識別情報とを、出力部１４に出力する。

＜出力部１４＞
出力部１４は、マッチング部１３から出力された位置情報と識別情報とを現在フレームに反映して、追跡結果として出力する。また、出力部１４は、マッチング部１３から出力された位置情報と識別情報とをデータ更新部１５に出力する。

＜データ更新部１５＞
データ更新部１５は、取得した識別情報及び位置情報に基づいて、姿勢予測器１１において予測された予測分布から得られる１以上の第１物体それぞれの姿勢を示す座標を含むデータを姿勢の時系列データに追加することで、姿勢の時系列データを更新する。

本実施の形態では、データ更新部１５は、姿勢予測器１１において予測された予測分布のうち、マッチング部１３によるマッチング結果に基づき、確率的に良いものだけを、姿勢の時系列データに追加する。ここで、姿勢の時系列データは、上述したように、キューというデータ構造で保持されている。このため、データ更新部１５は、予測分布のうち確率的に良いものだけを、姿勢の時系列データに追加（プッシュ）することで、姿勢の時系列データの最も古いデータが削除されるので、姿勢の時系列データを更新することができる。

より詳細には、データ更新部１５は、パーティクルフィルタを使用して、姿勢の時系列データを更新してもよい。ここで、パーティクルフィルタは、粒子フィルタまたは逐次モンテカルロ法とも称され、確率分布による時系列データの予測手法である。パーティクルフィルタは、ベイズフィルタのモンテカルロ近似とも解される。ここで、パーティクル（または粒子）を、キーポイントの集合からなる１つの姿勢と捉えればよい。したがって、データ更新部１５がパーティクルフィルタを使用する場合、データ更新部１５は、二部マッチングで算出したマッチングスコアに応じて時系列データのキューを更新してリサンプリングすればよい。このようにしてデータ更新部１５は、上記の姿勢の時系列データの更新を行うことができる。

［姿勢予測器１１の詳細構成等］
続いて、姿勢予測器１１の詳細構成について説明する。

図４は、図３に示す姿勢予測器１１の詳細構成の一例を示すブロック図である。図５は、図３に示す姿勢予測器１１のアーキテクチャの一例を示す図である。なお、図５には、第１ニューラルネットワーク１１２が学習時のみ、誤差逆伝搬法（バックプロパゲーション）と対数尤度の誤差関数の計算とが行われることも示されている。

姿勢予測器１１は、上述したように、第１ニューラルネットワーク１１２を含むアーキテクチャからなり、不確実性を考慮した姿勢予測として、現在フレームにおける人物の姿勢を構成するキーポイントの位置がどの辺にあるかを姿勢分布で予測する。

本実施の形態では、姿勢予測器１１は、２種類の不確実性を考慮することで、確率的挙動を持つ多様な姿勢（複数の仮説とも称する）を、姿勢分布で予測することができる。ここで、２種類の不確実性とは、Epistemic UncertaintyとHeteroscedastic Aleatoric Uncertaintyである。

Epistemic Uncertaintyは、モデル及びモデルに使われるパラメータに関する知識または情報の不足に起因する不確実性であり、モデルの不確実性とも称される。DNNを用いて推論を行う場合、Epistemic Uncertaintyは、学習用データの不足に起因する学習モデルの違いによる不確実性を意味する。なお、Epistemic Uncertaintyは、学習用データが十分にある場合に改善される。

Aleatoric Uncertaintyは、観測に本来的に存在している差異または変動すなわち観測に固有に含まれるノイズに起因する不確実性である。換言すると、Aleatoric Uncertaintyは、観測誤差または外乱に起因する偶発的な不確実性である。この不確実性は、姿勢予測を行う場合、人間の歩調の突然の変化、高速カメラのパンとチルト、または、deep CNNモデルによる姿勢推定エラーから発生する。なお、Aleatoric Uncertaintyは、いくら学習したとしても改善しない。Heteroscedastic Aleatoric Uncertaintyは、入力によって観測に固有に含まれるノイズ量が異なる場合の不確実性である。

図４に示すように、本実施の形態では、姿勢予測器１１は、入力処理部１１１と、第１ニューラルネットワーク１１２と、出力処理部１１５とを備える。

＜入力処理部１１１＞
入力処理部１１１は、姿勢予測器１１に入力された姿勢の時系列データから、例えば１０フレーム分など所定の時間に含まれる過去フレームに映る１以上の人物それぞれの姿勢を示す座標と、当該座標が過去フレームにおいて見えているか否かを示すビジブルフラグとを抽出して、出力する。

図５に示す例では、入力処理部１１１は、姿勢予測器１１に入力された姿勢の時系列データから、時間長さを示すパラメータＬに含まれる数の過去フレームそれぞれにおける姿勢を構成するキーポイントの集合の位置座標を抽出し、時間方向で差分を算出する。入力処理部１１１は、算出した当該差分を第１ニューラルネットワーク１１２に出力する。

＜第１ニューラルネットワーク１１２＞
第１ニューラルネットワーク１１２は、不確実性を考慮するための１以上のモデルを用いて、１以上のモデルそれぞれに、姿勢の時系列データから、現在フレームにおける１以上の第１物体の予測姿勢位置を予測させることで、予測分布を予測する。第１ニューラルネットワーク１１２は、リカレントニューラルネットワークと、１以上のモデルを形成する所定のニューラルネットワークとを有する。ここで、１以上のモデルは、所定のニューラルネットワークにドロップアウトを適用し、所定のニューラルネットワークを構成する１以上のノードを不活性化させることにより形成される。

本実施の形態では、第１ニューラルネットワーク１１２は、図４に示すように、リカレントＮＮ（Neural Network）１１３と全結合ＮＮ（Neural Network）１１４とを備える。

リカレントＮＮ１１３は、ある層の出力が遡って入力される再帰結合を持ち、時間の経過とともに値が変化していく時系列データを扱えるようにしたニューラルネットワークである。リカレントＮＮ１１３は、例えばＬＳＴＭ(Long Short Term Memory)であってもよい。なお、リカレントＮＮ１１３は、ＬＳＴＭに限らず、ＧＲＵ(Gated Recurrent Unit)であってもよいし、ＱＲＮＮ（Quasi-Recurrent Neural Networks）であってもよい。

ここで、ＬＳＴＭは、長期の時系列データを学習することができるモデルであり、ネットワーク内部での短期記憶を長期間、活用できる。ＧＲＵは、ＬＳＴＭをもう少しシンプルにしたモデルであるが、ＬＳＴＭと同様に、長期の時系列データを学習することができる。ＱＲＮＮは、ＲＮＮの機構をＣＮＮで模したモデルである。ＱＲＮＮは、ＬＳＴＭを高速化するアルゴリズムとも解される。

図５に示す例では、リカレントＮＮ１１３は、６４のユニット数からなるＬＳＴＭで構成されている。

全結合ＮＮ１１４は、全結合層からなるニューラルネットワークであり、全結合型のニューラルネットワーク（フィードフォワード）とも称される。全結合ＮＮ１１４は、入力層と、複数の中間層と、出力層とから構成され、中間層がすべて全結合層となっている。全結合ＮＮ１１４は、ドロップアウトまたはアンサンブルを適用して、Epistemic Uncertaintyを考慮した複数の仮説（多様な姿勢）を分布の形で出力する。

ここで、ドロップアウトは、ニューラルネットワークの一定のノードを不活性化（無効化とも称する）にさせながら学習等を進める手法である。本実施の形態では、ドロップアウトを予測時の全結合ＮＮ１１４に適用し、Epistemic Uncertaintyをモデル化する。これにより、中間層の一部が不活性したときの全結合ＮＮ１１４を１つのモデルとして扱うことができる。つまり、全結合ＮＮ１１４は、ドロップアウトを利用し、中間層の一部をランダムに不活性化することで、互いに異なる１以上のモデルを確率的にサンプリング（確率的モデルとも称する）しながらモデルごとに１つの姿勢予測を出力することができる。そして、全結合ＮＮ１１４は、姿勢予測の結果をガウス分布に近似して出力する。

このようにして、全結合ＮＮ１１４は、確率的モデルから得た複数の姿勢をガウス分布に近似して予測結果として出力することができる。なお、ガウス分布は一例であり、カテゴリカル分布で近似されてもよいし、三角分布またはコーシー分布で近似されてもよい。

図５に示す例では、全結合ＮＮ１１４は、例えば４０の中間層すなわち隠れノードで構成され、隠れノードの活性化関数として例えばLeaky-ReLUが用いられている。また、隠れノードのドロップアウト確率は０．３としている。このように、全結合ＮＮ１１４は、ドロップアウトを予測時に利用することで、Epistemic Uncertaintyをモデル化することができる。なお、隠れノードの数は４０に限らず、隠れノードの活性化関数はLeaky-ReLUに限らない。ドロップアウト確率も０．３に限らず、適宜設定できる。

なお、図５では、全結合ＮＮ１１４は、ドロップアウトを予測時に利用する例が示されているが、これに限らず、アンサンブルを利用してもよい。その場合、全結合ＮＮ１１４は、１以上のモデルを備え、１以上のモデルそれぞれから得られた姿勢予測を融合した結果を例えばガウス分布に近似して出力すればよい。

以上のように、全結合ＮＮ１１４は、様々なモデルが確率的にサンプリングされるので、ＬＳＴＭ１１３から出力される１つの結果（入力）から、複数の仮説（予測した複数の姿勢）を出力することができ、当該出力を分布の形（つまり予測分布）で出力処理部１１５に出力する。

＜出力処理部１１５＞
出力処理部１１５は、第１ニューラルネットワーク１１２から出力される分布（上記の予測分布）を元に、さらに、複数の仮説（予測した複数の姿勢）を生成する。そして、第１ニューラルネットワーク１１２から出力される分布と生成した複数の仮説とを含む分布を、姿勢予測器１１が出力する予測分布として、マッチング部１３及びデータ更新部１５に出力する。

本実施の形態では、出力処理部１１５に、第１ニューラルネットワーク１１２の出力（上記の予測分布）に、さらに分散を加えて出力させることで、Heteroscedastic Aleatoric Uncertaintyをモデル化することができる。

より具体的には、出力処理部１１５は、第１ニューラルネットワーク１１２から出力される分布と生成した複数の仮説とを含んだ分布を、第１ニューラルネットワーク１１２の出力に分散を加えた形で、姿勢予測器１１が出力する予測分布として出力する。これにより、出力処理部１１５は、パーティクルフィルタのサンプル集合を構成するパーティクルとして扱える形で、姿勢予測器１１が出力する予測分布を出力することができる。

図５に示す例では、出力処理部１１５は、第１ニューラルネットワーク１１２から出力されるガウス分布を平均して、乱数をかけることで、複数の仮説に該当する複数の値を算出する。また、出力処理部１１５は、第１ニューラルネットワーク１１２から出力されるガウス分布と、姿勢の時系列データから抽出した最新の目に見えるキーポイントの座標との加算値から、分散を算出する。そして、出力処理部１１５は、算出した複数の値と分散値とを加算したガウス分布を、予測分布として出力する。なお、図５では、σはガウス分布の平均を示し、μは分散を示し、Ｎ（０，１）は標準ガウス分布を示している。

このようにして、出力処理部１１５は、状況に応じてパーティクルの多様性つまり分散値を適応的に変化させながら、第１ニューラルネットワーク１１２の出力に依存したガウス分布を出力する。なお、ガウス分布は一例であり、カテゴリカル分布で近似されてもよいし、三角分布またはコーシー分布で近似されてもよい。

なお、出力処理部１１５は、例えば映像に映る人物が高速に動く状況の場合、パーティクルをより広範囲に散布したことを表現したガウス分布を出力する。一方で、出力処理部１１５は、例えば映像に映る人物が低速で動く状況の場合、パーティクルをより狭い領域に集中させたことを表現するガウス分布を出力する。このような動作は、パーティクルフィルタのサンプル集合で用いる有限のパーティクルを効果的に利用するのに役立つ。

（実施例１）
実施例１では、図５に示す姿勢予測器１１を用いて現在フレームの予測分布を予測して姿勢予測結果を得た場合と、比較例として、非特許文献１で開示されている姿勢追跡技術を用いて現在フレームの姿勢を推定して姿勢推定結果を得た場合とについて説明する。ここで、非特許文献１で開示されている姿勢追跡技術を以下では、オプティカルフローベースの姿勢推定とも称する。

図６Ａ～図６Ｃは、比較例における現在フレームの姿勢推定結果を示す図である。図７Ａ～図７Ｃは、実施例１における現在フレームの姿勢予測結果を示す図である。図６Ａ及び図７Ａ、図６Ｂ及び図７Ｂ、並びに、図６Ｃ及び図７Ｃでは、それぞれ同じ現在フレームに対する姿勢推定結果及び姿勢予測結果が示されている。図６Ａ～図６Ｃにおいて、白抜きの丸は前のフレームにおいて推定されたキーポイントの位置を示し、白抜きの三角は現在フレームにおいて推定されたキーポイントの位置を示し、白抜きの星は現在フレームにおける真（つまり正解の）のキーポイントの位置を示す。一方、図７Ａ～図７Ｃにおいて、点線の領域は、現在フレームにおいて予測されたキーポイントの位置の分布（上記の予測分布に該当）し、予測分布の平均の位置を示し、白抜きの星は現在フレームにおける真（つまり正解の）のキーポイントの位置を示す。

図６Ａに示すように、動きの少ない人物に対しては、真のキーポイントの位置と推定されたキーポイントの位置とが比較的一致しており信頼性の高い姿勢推定結果が得られている。一方、図６Ｂ及び図６Ｃのように、動きの速い体の部分及び動きの速い人物に対しては、真のキーポイントの位置と推定されたキーポイントの位置とが離れており信頼性の低い姿勢推定結果となっている。

これに対して、図５に示す姿勢予測器１１を用いて、２つの不確実性を考慮して現在フレームの予測分布を予測した場合、図７Ａ～図７Ｃのように、真のキーポイントの位置が点線の領域で示される予測分布に含まれている。さらに、真のキーポイントの位置と予測分布の平均の位置とが比較的一致していることから、信頼性の高い姿勢予測結果が得られているのがわかる。

［物体追跡装置１０の動作等］
次に、以上のように構成される物体追跡装置１０の動作等について説明する。

図８は、本実施の形態における物体追跡装置１０の動作例を示すフローチャートである。

まず、物体追跡装置１０は、姿勢予測器１１に、姿勢の時系列データを入力して、現在フレームにおける予測分布を予測させる（Ｓ１）。より具体的には、物体追跡装置１０は、姿勢の時系列データを、第１ニューラルネットワークを含み不確実性を考慮した姿勢予測を行う姿勢予測器１１に入力して、現在フレームにおける１以上の第１物体の予測姿勢位置それぞれの分布である予測分布を予測させる。なお、姿勢の時系列データには、姿勢推定部１２に入力される映像における時系列に連続した２以上の過去フレームに映る１以上の物体それぞれの姿勢を示す座標が含まれている。なお、本実施の形態では、物体は人物である。

次に、物体追跡装置１０は、姿勢推定部１２に、映像を入力し、現在フレームに映る物体それぞれの位置の集合を推定させる（Ｓ２）。より具体的には、物体追跡装置１０は、現在フレームのＲＧＢ画像を、姿勢推定部１２を構成する第２ニューラルネットワークに入力して、現在フレームに映る１以上の第２物体それぞれの位置の集合を推定させる。

次に、物体追跡装置１０は、マッチングすることにより、現在フレームにおける物体の識別情報と位置情報とを取得して出力する（Ｓ３）。より具体的には、物体追跡装置１０は、ステップＳ２で推定した位置の集合と、ステップＳ１で予測した予測分布とをマッチングする。これにより、物体追跡装置１０は、１以上の第２物体それぞれが１以上の第１物体のいずれかに該当するかを示す識別情報、及び、１以上の第２物体それぞれの姿勢を示す座標である位置情報を取得して出力する。なお、本実施の形態では、物体追跡装置１０は、マッチングとして二部マッチングを用いる。また、現在フレームにおける物体の識別情報は、現在フレームにおける物体に付与されたＩＤに関する情報である。現在フレームにおける物体の位置情報は、現在フレームにおける物体の姿勢を構成する複数のキーポイントの位置座標である。

次に、物体追跡装置１０は、ステップＳ３で取得した識別情報と位置情報とに基づいて、ステップＳ１で予測した予測分布から得られる現在フレームの物体の姿勢を示す座標を含むデータを姿勢の時系列データに追加することで更新する（Ｓ４）。

このように、物体追跡装置１０は、ステップＳ１～Ｓ４を、入力される映像に対して行うことで、映像に映る人物などの物体の姿勢を追跡することができる。

（実施例２）
実施例２では、２つの不確実性を考慮して現在フレームの予測分布を予測する姿勢予測器１１と、パーティクルフィルタとを活用した物体追跡装置１０との物体追跡方法について説明する。実施例２では、物体は人物であるとして以下説明する。

図９は、実施例２における物体追跡方法の擬似コードの一例を示す図である。図１０は、実施例２における物体追跡方法を概念的に示す図である。なお、図９に示される擬似コードは、行列演算を行うためのツールであるTensorFlowによって実装され、最も外側のループを除くループの繰り返しと、すべての独立したスレッドとがGPUで並列実行される。GPUとしては、例えば単一のNVIDIA RTX2080 GPUを用いることで、30 fpsで10程度の姿勢を同時に追跡できる。図９に示される擬似コードにおいて、「（１）Pose Prediction」で示されるアルゴリズムは、物体追跡装置１０の姿勢予測器１１の姿勢予測処理に該当する。「（２）Pose Estimation」で示されるアルゴリズムは、物体追跡装置１０の姿勢推定部１２の姿勢推定処理に該当する。「（３）Greedy Matching」で示されるアルゴリズムは、物体追跡装置１０のマッチング部１３のマッチング処理に該当する。「（４）Particle Update」で示されるアルゴリズムは、物体追跡装置１０のデータ更新部１５の更新処理に該当する。

ここで、時刻ｔにおける現在フレームｔから推定された複数の姿勢からなる１以上の人物をC_tとし、当該複数の人物それぞれを示す一時的なインデックスを、jとする。図９に示される擬似コードにより行う物体追跡方法は、最大F_maxフィルタを用いて、複数の人物における複数の姿勢を追跡するとする。

また、複数の姿勢それぞれは、一意の人物を示すtrack IDとしてのkを持ち、P個のパーティクルで表現される。フィルタkのパーティクルnは、過去の姿勢z^(k,n) _t-L:t-1を格納するＬサイズのキューを含む。時刻に対する追跡処理の間、F_t（<F_max）フィルタのみがアクティブになり実行される。フィルタのアクティブ化と非アクティブ化とは、フレーム中の人物の出現（消失）を管理するライフタイムカウントl_kによって制御される。

まず、図９に示される擬似コードにおいて、アルゴリズム１が開始されると、１行目の手順で示されるように、すべてのフィルタが非アクティブになる。

次に、３行目及び４行目の手順で姿勢予測処理が行われる。より具体的には、まず、３行目の手順では、過去の姿勢z^(k;n) _t-L:t-1のF_t×Pシーケンスからなる姿勢の時系列データが、アクティブフィルタから収集される。次いで、４行目の手順では、収集した姿勢の時系列データを、姿勢予測器１１に入力して、F_t×Pの予測姿勢z^(k;n) _tを出力させる。

なお、時刻t=1すなわち映像を構成する最初の現在フレームｔに対して、または、アクティブなフィルタがない場合には、３行目及び４行目の手順は実行されない。また、Κ_tは、現在有効であるアクティブなフィルタの集合を表している。また、姿勢の時系列データは、図１０では、複数の過去フレームの予測分布を示す座標と人物に付与されたＩＤとして示されている。

次に、５行目の手順で姿勢推定処理が行われる。より具体的には、５行目の手順では、上述した非特許文献１に開示されるdeep CNNに、現在フレームのRGB画像を入力して、人物C_tを示す推定姿勢x^(j) _tを推定させる。なお、図１０では、現在フレームのRGB画像を、姿勢推定部１２に入力して、現在フレームに映る人物の複数の姿勢をキーポイントで推定させた推定結果を得ている、人物が誰か（付与すべきＩＤ）まではわからないことが示されている。

次に、６行目～１７行目の手順でマッチング処理が行われる。より具体的には、まず、６行目の手順では、貪欲法を用いて、F_t×Pの予測姿勢z^(k;n) _tと、C_tの推定姿勢x^(j) _tとから、全体として、C_t×F_t×PのOKS値を示すd^(j,k,n) _OKSが計算される。次いで、７行目の手順では、C_t×F_t×PのOKSテンソルの形状が、n軸に沿って重み平均を取ることによりC_t×F_tに変換されて、マッチングスコアの行列が計算される。次いで、８行目の手順では、計算されたマッチングスコアの行列を用いて、尤もらしいペアを組み合わせる２部マッチング処理が行われる。この処理により、閾値を下回る（つまり、推定姿勢と予測姿勢とが離れて配置される）マッチングスコアを有するペアが削除されるので、不適切なマッチングを防止することができる。８行目の手順で示される変数j'_k及びk'_jは、それぞれフィルタk及び姿勢jに対応するもののインデックスを示す。なお、アクティブフィルタの不足及び過剰、並びに閾値の原因で、対応するものが割り当てられていない場合、変数j'_k及びk'_jは負の値を取る。また、{j'_k}_ｋは、あるフィルタkから見たマッチした人物のＩＤを示し、{k'_j}_jは、検出されたjという人からみてマッチするフィルタを示す。

次いで、１０行目及び１１行目の手順では、変数k'_jが姿勢jに対して有効な値を持つ場合、(x^(j) _t, k'_j)の組が追跡結果として出力部１４に出力される。図１０では出力部１４（不図示）により出力された、当該組が現在フレームｔに重畳された追跡結果が示されている。なお、１０行目の手順で示されるk'_j>-1は、変数k'_jが姿勢jに対して有効な値を持ち、ペアが成立したフィルタがあることを示す。一方、１２行目～１７行目の手順では、変数k'_jが姿勢jに対して無効な値を持つ場合、新たにフィルタk_newがアクティブになる。そして、新しいインデックスが推定姿勢x^(j) _tとともに出力部１４に出力される。

次いで、１５行目及び１６行目の手順では、過去フレームの姿勢がわからないことから、姿勢の時系列データを示すキューを、０としてキーポイントを非表示させて初期化し、予測姿勢をx^(j) _tとすることで初期化する。

次に、１８行目～２６行目の手順で更新処理が行われる。より具体的には、まず、１８行目の手順では、最新の予測姿勢z^(k,n) _tが姿勢の時系列データを示すキューにプッシュされ、最も古い予測姿勢が削除される。次いで、２０行目及び２１行目の手順では、変数j'_kが有効な値を持つ場合、フィルタkのキューは、前状態における尤度に基づいて、パーティクルを選び直す確率的リサンプリングが行なわれる。なお、２０行目及び２１行目の手順は、j^' _k <0の場合、実行されない。

次いで、２２行目及び２４行目の手順では、ライフタイムカウントl_kは、フィルタkに対応するものの存在に応じて増加または減少する。２５行目及び２６行目の手順では、ライフタイムカウントl_kがゼロになると、フィルタkで追跡される人物は完全に消失したとみなされ、フィルタkは非アクティブ化される。

（実施例３）
実施例３では、Pose-Track2018 Data setを用いて行った物体追跡装置１０の性能評価実験の結果について説明する。なお、Pose-Track2018 Data setでは、ビデオ内の複数の人物に対して、１７のボディキーポイントの場所と一意のtrack IDとを含むアノテーションが付与されている。実施例３でも、物体は人物であるとして以下説明する。

本実施例では、Pose-Track2018 Data setを用いて、上述した図５に示す姿勢予測器１１に対して学習と評価とを行った。学習用データは、Pose-Track2018 Data setの学習用のアノテーションデータから作成した。また、Adam optimizerを利用して、作成した学習用データで姿勢予測器１１を学習した。ここで、学習率は１０^－３であり、ミニバッチサイズは３０であるとした。

図１１は、実施例３における物体追跡性能の評価結果を示す図である。図１１では、Pose-Track2018 Data setと既知の評価ツールを使用して、物体追跡性能として物体追跡精度（MOTA）をスコアで算出した。ここで、MOTAはMultiple Object Tracking Accuracyの略語である。図１１では、姿勢予測器１１の姿勢追跡方法のMOTAが本開示として示されている。また、図１１では、非特許文献１で開示されている姿勢追跡方法のMOTAが比較例として示され、その他の既存の姿勢追跡方法のMOTAが参考例１～５として示されている。

図１１に示すように、本開示では、６６．２のスコアを達成し、比較例における６５．４のスコアより改善しているのがわかる。

次に、図５に示す姿勢予測器１１のどのコンポーネントが改善に貢献したかを明らかにする実験を行った。より具体的には、図５に示す姿勢予測器１１のコンポーネントのうち、１）２種類の不確実性の両方またはいずれかを無効化した場合、２）時系列データの時間長さを示すパラメータＬを変化させた場合の性能評価実験を行った。本実施例では、図５に示す全結合ＮＮ１１４に適用していたドロップアウトを非アクティブ化することにより、Epistemic Uncertaintyをモデル化しない場合を実現させた。一方で、図５に示す出力処理部１１５に用いる平均の値（つまりσの値）を固定させることにより、Heteroscedastic Aleatoric Uncertaintyをモデル化しない場合を実現させた。

図１２は、実施例３における姿勢予測器１１のコンポーネントを無効化等した場合の性能評価実験の結果を示す図である。図１２に示される表では、Epistemic Uncertaintyを有効にする場合すなわちEpistemic Uncertaintyをモデル化する場合にチェックが入っている。同様に、Heteroscedastic Aleatoric Uncertaintyを有効にする場合すなわちHeteroscedastic Aleatoric Uncertaintyをモデル化する場合にチェックが入っている。なお、図１２において、Epistemic Uncertaintyは、E.Uncertaintyと表現されており、Heteroscedastic Aleatoric UncertaintyはH.A.Uncertaintyと表現されている。

また、図１２では、性能評価の指標として、MOTAの代わりに、MOTAを計算するための中間変数であるnum_switchesを用いた。なお、MOTAは、num_switches、num_misses及びnum_false_positivesの３つの変数で構成される。num_switchesは、あるフレームで例えばＡという人物のキーポイントと認識していたが別のフレームで例えばＢという人物のキーポイントと誤認識したというように、追跡エラーの総数を示す指標である。num_missesは、あるフレーム内で本来認識すべきキーポイントの位置を認識していない姿勢推定エラーの総数を示す指標である。num_false_positivesは、あるフレーム内で本来認識すべきでないキーポイントを誤って認識してしまった姿勢推定エラーの総数を示す指標である。なお、図１２では、非特許文献１で開示されている姿勢追跡方法のnum_switchesが比較例として示され、参考のためにMOTAのスコアも示されている。

図１２において、本開示と比較例とのnum_switchesの値を比較すると、図１１に示す姿勢予測器１１のMOTAのスコアが、より正確な姿勢推定によってではなく、姿勢予測器１１による姿勢予測によって達成されたことがわかる。さらに、図１２に示すように、本開示と比較例とでは、num_switchesの値において、約５０％改善していることがわかる。

また、図１２から、２種類の不確実性が関与することで追跡性能が改善することもわかる。また、２種類の不確実性が考慮された姿勢予測器１１では、姿勢の時系列データの時間長さを示すパラメータＬの値が１０または１５のより長いコンテキストを参照することにより、MOTAのスコアが高くなることがわかる。つまり、姿勢の時系列データとして長いコンテキストを参照することにより、２種類の不確実性が考慮された姿勢予測器１１では、より多くのもっともらしい仮説（予測姿勢位置）を予測でき、結果として最終的な性能の改善を行うことができるのがわかる。なお、パラメータＬは、ＬＳＴＭの順次転送のメモリサイズ及び計算時間といった計算の複雑さと、学習の安定性とに影響するため、慎重に決定する必要がある。なお、これまでの説明では、キューの利用により姿勢の時系列情報を明示的に履歴として保持していたが、時系列情報を扱う手段はこれに限定されない。例えば、ＬＳＴＭの内部変数を保持し、これをキューの代替としてもよい。

［物体追跡装置１０の効果等］
以上のように、本開示における物体追跡装置１０によれば、予測結果の不確実性を考慮した姿勢予測を行う姿勢予測器１１を利用して、映像に映る人物の姿勢追跡を行うことで、追跡ミスを抑制することができる。本実施の形態では、２種類の不確実性を組み込んで姿勢予測を行う姿勢予測器１１と、パーティクルフィルタとを利用して映像に映る人物の姿勢追跡を行う。ここで、姿勢予測器１１では、Epistemic Uncertainty及びHeteroscedastic Aleatoric Uncertaintyといった２種類の不確実性がモデル化されて組み込まれている。これにより、姿勢予測器１１は、多様で尤もらしい仮説（つまり、予測姿勢位置）を現在フレームに映る人物の姿勢の予測分布（つまり、キーポイントの位置の分布）で予測することができる。また、姿勢予測器１１に、リカレントニューラルネットワークを導入することで、長い時間のコンテキスト情報を活用できるので、映像に映る人物にオクルージョンが発生しても、追跡ミスを抑制することができる。

ここで、図１３及び図１４を用いて、物体追跡装置１０の効果について説明する。

図１３及び図１４は、本開示と比較例とにおける物体追跡方法による物体追跡結果を視覚的に示す図である。図１３では、映像に映る３人が高速に移動すなわち複数の人物の姿勢が高速に変化する場合における姿勢追跡結果が示されている。図１４では、映像を構成する３枚の時系列フレームにおいて、２枚目のフレームで１人が他の人に隠れて３枚目のフレームで再現する場合すなわち、映像に映る人物の姿勢にオクルージョンが発生する場合の姿勢追跡結果が示されている。なお、図１３の（ａ）及び図１４の（ａ）では、非特許文献１で開示されている姿勢追跡技術による姿勢追跡結果が比較例として示されている。図１３の（ｂ）及び図１４の（ｂ）では、本実施の形態における物体追跡装置１０による姿勢追跡結果が本開示として示されている。

より具体的には、図１３の（ａ）では、時系列フレームにおいて後のフレームでは、太丸線で示されるキーポイントが前のフレームと異なる人物に付されており、異なる人物を同一人物と誤認識してしまい追跡ミスをしているのがわかる。一方、図１３の（ｂ）では、時系列フレームにおいて前後のフレームにおいて、太丸線で示されるキーポイントが同一人物に付されていることから、正しく認識できており追跡ミスが抑制されているのがわかる。

図１４の（ａ）では、時系列フレームにおける最初のフレームと最後のフレームとで、オクルージョンが発生した人物に対して、丸線と丸点線とで示されるキーポイントが付されており、同一人物を異なる人物と誤認識しており追跡ミスをしているのがわかる。一方、図１４の（ｂ）では、時系列フレームにおける最初のフレームと最後のフレームとでも、オクルージョンが発生した人物に対して、丸線で示されるキーポイントが付されており、正しく同一人物と認識できており追跡ミスが抑制されているのがわかる。

以上のように、本実施の形態における物体追跡装置１０によれば、高速に姿勢が変化したり、オクルージョンにより姿勢が消失したり再現したりすることなどの外乱が発生しても、追跡ミスを抑制できることがわかる。

（他の実施態様の可能性）
以上、実施の形態において本開示の物体追跡方法について説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサーなど（以下に説明）によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。

なお、本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。

例えば、Aleatoric uncertaintyをモデル化するために、α-divergenceドロップアウトとニューラルネットワークアンサンブルとを利用してもよい。また、aleatoric uncertaintyをモデル化するために、Mixture Density Networksを導入することにより、上述したガウス分布ではなく混合ガウス分布で予測分布を表現してもよい。

また、本開示の物体追跡方法は、パーティクルフィルタ、２種類の不確実性を考慮した姿勢予測、及びコンテキスト情報を活用する。このことから、本開示の物体追跡方法は、例えばSLAM（Simultaneous Localization and Mapping)のようなさまざまなSMC（Sequential Monte Carlo）ベースのロボット工学のタスクに適用できる可能性がある。また、本開示の物体追跡方法は、２次元の人物姿勢に留まらず、３次元の人物姿勢に適用できる可能性がある。

本開示は、さらに、以下のような場合も含まれる。

（１）上記の装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

（５）また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD（Blu-ray(登録商標) Disc）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

本開示は、物体追跡方法及びプログラムに利用でき、特に映像に映る複数の人物に対する２次元の人物姿勢を追跡する物体追跡方法及びプログラムに利用できる。

１０物体追跡装置
１１姿勢予測器
１２姿勢推定部
１３マッチング部
１４出力部
１５データ更新部
１１１入力処理部
１１２第１ニューラルネットワーク
１１３リカレントＮＮ
１１４全結合ＮＮ
１１５出力処理部

Claims

コンピュータが行う映像の物体追跡方法であって、
時系列に連続した２以上の過去フレームに映る１以上の物体それぞれの姿勢を示す座標を含む姿勢の時系列データを、第１ニューラルネットワークを含み不確実性を考慮した姿勢予測を行う姿勢予測器に入力することで、前記姿勢予測器に、現在フレームにおける１以上の第１物体の予測姿勢位置それぞれの分布である予測分布を予測させる予測ステップと、
前記現在フレームを、第２ニューラルネットワークに入力することで、前記第２ニューラルネットワークに、前記現在フレームに映る１以上の第２物体それぞれの位置の集合を推定させる推定ステップと、
前記１以上の第２物体それぞれの位置の集合と、前記予測分布とをマッチングすることにより、前記１以上の第２物体それぞれが前記１以上の第１物体のいずれかに該当するかを示す識別情報、及び、前記１以上の第２物体それぞれの姿勢を示す位置である位置情報を取得して出力する出力ステップと、
前記出力ステップにおいて取得された前記識別情報及び前記位置情報に基づいて、前記予測ステップにおいて予測させた前記予測分布から得られる前記１以上の第１物体それぞれの姿勢を示す座標を含むデータを前記姿勢の時系列データに追加することで前記姿勢の時系列データを更新する更新ステップと、を含む、
物体追跡方法。
前記出力ステップでは、
前記１以上の第２物体それぞれの位置の集合と、前記予測分布とをマッチングすることにより、マッチングスコアが所定値以上の前記予測分布と前記位置の集合とからなる組を算出し、算出した前記組に基づいて前記識別情報と前記位置情報を取得して出力する、
請求項１に記載の物体追跡方法。
前記出力ステップでは、
前記１以上の第２物体それぞれの位置の集合と、前記予測分布とを二部マッチングすることにより、マッチングスコアが所定値以上の前記予測分布と前記位置の集合とからなる前記組を算出する、
請求項２に記載の物体追跡方法。
前記予測ステップでは、
前記第１ニューラルネットワークは、前記不確実性を考慮するための１以上のモデルを用いて、前記１以上のモデルそれぞれに、前記姿勢の時系列データから、前記現在フレームにおける１以上の前記第１物体の予測姿勢位置を予測させることで、前記予測分布を予測する、
請求項１～３のいずれか１項に記載の物体追跡方法。
前記予測分布は、前記不確実性を考慮した分布であって、予測された前記予測姿勢位置を含み、ガウス分布での分散で表現された分布である、
請求項４に記載の物体追跡方法。
前記第１ニューラルネットワークは、リカレントニューラルネットワークと、前記１以上のモデルを形成する所定のニューラルネットワークとを有する、
請求項４または５に記載の物体追跡方法。
前記１以上のモデルは、前記所定のニューラルネットワークにドロップアウトを適用し、前記所定のニューラルネットワークを構成する１以上のノードを不活性化させることにより形成される、
請求項６に記載の物体追跡方法。
時系列に連続した２以上の過去画像に映る１以上の物体それぞれの姿勢を示す座標を含む姿勢の時系列データを、第１ニューラルネットワークを含み不確実性を考慮した姿勢予測を行う姿勢予測器に入力することで、前記姿勢予測器に、現在フレームにおける１以上の第１物体の予測姿勢位置それぞれの分布である予測分布を予測させる予測ステップと、
前記現在フレームを、第２ニューラルネットワークに入力することで、前記第２ニューラルネットワークに、前記現在フレームに映る１以上の第２物体それぞれの位置の集合を推定させる推定ステップと、
前記１以上の第２物体それぞれの位置の集合と、前記予測分布とをマッチングすることにより、前記１以上の第２物体それぞれが前記１以上の第１物体のいずれかに該当するかを示す識別情報、及び、前記１以上の第２物体それぞれの姿勢を示す位置である位置情報を取得して出力する出力ステップと、
前記出力ステップにおいて取得された前記識別情報及び前記位置情報に基づいて、前記予測ステップにおいて予測させた前記予測分布から得られる前記１以上の第１物体それぞれの姿勢を示す座標含むデータを前記姿勢の時系列データに追加することで前記姿勢の時系列データを更新するステップと、を、
コンピュータに実行させるプログラム。