JP7065557B2

JP7065557B2 - 人物を追跡する映像解析装置、プログラム及び方法

Info

Publication number: JP7065557B2
Application number: JP2018228581A
Authority: JP
Inventors: 仁志西村; 和之田坂
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2022-05-12
Anticipated expiration: 2038-12-05
Also published as: JP2020091664A

Description

本発明は、時系列の画像フレームから、人物を追跡する映像解析の技術に関する。

従来、映像の画像フレーム毎に人物領域を検出し、先の人物領域の位置や特徴量のマッチ率を用いて人物を追跡する技術がある（例えば非特許文献１参照）。この技術によれば、前フレームの人物領域と後フレームの人物領域とに対して、動線ＩＤ(IDentifier)を対応付けることによって人物を追跡する。
また、人物領域の動線を見失った場合であっても、前後の人物領域に映る行動クラスから、動線を補完する技術もある（例えば特許文献１参照）。この技術によれば、例えば、最後に推定された行動クラス「商品を手に取る」の追跡結果と、最初の行動クラス「商品を棚に戻す」の追跡結果とを結合する。

特開２０１７－８３９８０号公報

Nicolai Wojke, Alex Bewley, and Dietrich Paulus, "Simple Online and Realtime Tracking with a Deep Association Metric," In International Conference on Image Processing (ICIP), IEEE, pp. 3645-3649, 2017. Florian Schroff, Dmitry Kalenichenko, and James Philbin, "FaceNet: A Unified Embedding for Face Recognition and Clustering," In Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, pp. 815-823, 2015. Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg, "SSD: Single Shot Multibox Detector," In European Conference on Computer Vision (ECCV), Springer, pp. 21-37, 2016. T. M. COVER, and P. E. HART, "Nearest Neighbor Pattern Classification," Transactions on Information Theory, IEEE, vol. 13 no. 1, pp. 21-27, 1967. Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool, "Temporal Segment Networks: Towards Good Practices for Deep Action Recognition," In European Conference on Computer Vision (ECCV), IEEE, pp. 20-36, 2016. Sergey Zagoruyko, Nikos Komodakis, "Wide Residual Networks," British Machine Vision Conference (BMVC), British Machine Vision Association, pp. 1-12, 2016. Li Zhang, Yuan Li, and Ramakant Nevatia, "Global Data Association for Multi-Object Tracking Using Network Flows," In Conference on Computer Vision and Pattern Recognition (CVPR), IEEE, pp. 1-8, 2008. Wenhan Luo, Junliang Xing, Xiaoqin Zhang, Xiaowei Zhao, and Tae-Kyun Kim1, "Multiple Object Tracking: A Literature Review," arXiv:1409.7618, 2014.

しかしながら、映像の画像フレーム内で、人物同士が重畳する人物間オクルージョンが発生した場合、追跡中の人物の動線が、途切れたり又は入れ替わりが生じ、人物の追跡精度が低下する。

非特許文献１に記載の技術によれば、追跡情報として人物領域の位置や特徴量しか用いておらず、追跡精度が必ずしも高いとはいえない。
また、特許文献１に記載の技術によれば、人物間オクルージョンや人物検出の失敗等による追跡情報の欠損を補完するための他の追跡情報は正確であることを前提としている。即ち、追跡情報自体が誤った場合、それを補正する機能はなく、誤った追跡結果同士を結合する恐れもある。
即ち、人物間オクルージョンが発生した場合や人物検出に失敗した場合に、頑健（ロバスト）に人物を追跡することは難しい。

そこで、本発明によれば、カメラによって撮影された映像の中で、人物間オクルージョンが発生したり人物検出に失敗したりしても、追跡情報を補完することによって、ロバストに人物追跡を継続することができる映像解析装置、プログラム及び方法を提供することを目的とする。

本発明によれば、カメラによる連続的な画像フレームの中から人物を追跡する映像解析装置において、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第１の人物検出のコストを出力する第１の人物検出手段と、
２つの画像フレームの組毎に、人物領域の変化に対する人物検出のスコアを距離関数として負値化した第２の人物検出のコストを出力する第２の人物検出手段と、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第１の人物認識のコストを出力し、当該人物領域に人物ＩＤ(IDentifier)を付与する第１の人物認識手段と、
画像フレームの組毎に、人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第２の人物認識のコストを出力する第２の人物認識手段と、
当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線ＩＤと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線ＩＤを付与すると共に、人物ＩＤを対応付ける人物追跡手段と
を有することを特徴とする。

本発明の映像解析装置における他の実施形態によれば、
第１の人物検出手段は、深層学習エンジンであり、
第１の人物認識手段は、人物認識学習エンジンである
ことも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、第１の人物検出のコスト、第２の人物検出のコスト、第１の人物認識のコスト及び第２の人物認識のコストの和が最小となるように、動線ＩＤ及び人物ＩＤを対応付けることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、連続する画像フレーム（Ｎ＝１）毎に、オンライン処理として動線ＩＤ及び人物ＩＤを対応付けることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ＩＤ及び人物ＩＤを対応付けることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、所定数の画像フレーム（Ｎ＞１）の内で２つの画像フレームの組毎に、オフライン処理として動線ＩＤ及び人物ＩＤを対応付けることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、画像フレームの組について、第１の動線ＩＤ及び第１の人物ＩＤが対応付けられた人物領域が発生した後、新たな第２の動線ＩＤと第１の人物ＩＤが対応付けられた人物領域が発生した際に、新たな第２の動線ＩＤを第１の動線ＩＤに置き換えることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
第１の動線ＩＤにおける第１の人物検出のコスト及び第２の人物検出のコストの和が、第２の動線ＩＤにおける第１の人物検出のコスト及び第２の人物検出のコストの和よりも小さい場合にのみ、新たな第２の動線ＩＤを第１の動線ＩＤに置き換えることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、画像フレームの組について、第１の動線ＩＤ及び第１の人物ＩＤが対応付けられた人物領域が発生した後、第１の動線ＩＤと新たな第２の人物ＩＤが対応付けられた人物領域が発生した際に、新たな第２の人物ＩＤを第１の人物ＩＤに置き換えることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
第１の人物ＩＤにおける第１の人物認識のコスト及び第２の人物認識のコストの和が、第２の人物ＩＤにおける第１の人物認識のコスト及び第２の人物認識のコストの和よりも小さい場合にのみ、新たな第２の人物ＩＤを第１の人物ＩＤに置き換えることも好ましい。

本発明によれば、カメラによる連続的な画像フレームの中から人物を追跡する映像解析装置において、
画像フレーム毎に、人物領域を検出し、第１の人物検出のスコアを出力する第１の人物検出手段と、
２つの画像フレームの組毎に、人物領域の変化に対する第２の人物検出のスコアを出力する第２の人物検出手段と、
画像フレーム毎に、各人物領域に対して人物行動を検出し、第１の行動認識のスコアを出力し、当該人物領域に行動ＩＤを付与する第１の行動認識手段と、
画像フレームの組毎に、人物領域の人物行動の変化に対する第２の行動認識のスコアを出力する第２の行動認識手段と
当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線ＩＤと当該画像フレーム毎及び当該画像フレームの組における全てのスコアとを用いて、動線ＩＤを付与すると共に、行動ＩＤを対応付ける人物追跡手段と
を有することを特徴とする。

本発明の映像解析装置における他の実施形態によれば、
第１の行動認識手段は、畳み込みニューラルネットワークであり、
第１の行動認識手段は、第１の行動認識のスコアを距離関数として負値化した第１の行動認識のコストを出力し、
第２の行動認識手段は、第２の人物検出のスコアを距離関数として負値化した第２の行動認識のコストを出力することも好ましい。

本発明の映像解析装置における他の実施形態によれば、
第１の人物検出手段は、第１の人物検出のスコアを距離関数として負値化した第１の人物検出のコストを出力し、
第２の人物検出手段は、第２の人物検出のスコアを距離関数として負値化した第２の人物検出のコストを出力し、
人物追跡手段は、第１の人物検出のコスト、第２の人物検出のコスト、第１の人物認識のコスト、第２の人物認識のコスト、第１の行動認識のコスト、第２の行動認識のコストの和が最小となるように、動線ＩＤ及び行動ＩＤを対応付ける
ことも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、連続する画像フレーム（Ｎ＝１）毎に、オンライン処理として動線ＩＤ及び行動ＩＤを対応付けることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ＩＤ及び行動ＩＤを対応付けることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、所定数の画像フレーム（Ｎ＞１）の内で２つの画像フレームの組毎に、オフライン処理として動線ＩＤ及び行動ＩＤを対応付けることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、画像フレームの組について、第１の動線ＩＤ及び第１の行動ＩＤが対応付けられた人物領域が発生した後、新たな第２の動線ＩＤと第１の行動ＩＤが対応付けられた人物領域が発生した際に、新たな第２の動線ＩＤを第１の動線ＩＤに置き換えることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
第１の動線ＩＤにおける第１の人物検出のコスト及び第２の人物検出のコストの和が、第２の動線ＩＤにおける第１の人物検出のコスト及び第２の人物検出のコストの和よりも小さい場合にのみ、新たな第２の動線ＩＤを第１の動線ＩＤに置き換える
ことも好ましい。

本発明の映像解析装置における他の実施形態によれば、
人物追跡手段は、画像フレームの組について、第１の動線ＩＤ及び第１の行動ＩＤが対応付けられた人物領域が発生した後、第１の動線ＩＤと新たな第２の行動ＩＤが対応付けられた人物領域が発生した際に、新たな第２の行動ＩＤを第１の行動ＩＤに置き換えることも好ましい。

本発明の映像解析装置における他の実施形態によれば、
第１の行動ＩＤにおける第１の行動認識のコスト及び第２の行動認識のコストの和が、第２の行動ＩＤにおける第１の行動認識のコスト及び第２の行動認識のコストの和よりも小さい場合にのみ、新たな第２の行動ＩＤを第１の行動ＩＤに置き換えることも好ましい。

本発明によれば、カメラによる連続的な画像フレームの中から人物を追跡する装置に搭載されたプログラムを機能させる映像解析プログラムにおいて、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第１の人物検出のコストを出力する第１の人物検出手段と、
２つの画像フレームの組毎に、人物領域の変化に対する人物検出のスコアを距離関数として負値化した第２の人物検出のコストを出力する第２の人物検出手段と、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第１の人物認識のコストを出力し、当該人物領域に人物ＩＤ(IDentifier)を付与する第１の人物認識手段と、
画像フレームの組毎に、人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第２の人物認識のコストを出力する第２の人物認識手段と、
当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線ＩＤと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線ＩＤを付与すると共に、人物ＩＤを対応付ける人物追跡手段と
してコンピュータを機能させることを特徴とする。

本発明によれば、カメラによる連続的な画像フレームの中から人物を追跡する装置の映像解析方法において、
装置は、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第１の人物検出のコストを出力する第１のステップと、
２つの画像フレームの組毎に、人物領域の変化に対する人物検出のスコアを距離関数として負値化した第２の人物検出のコストを出力する第２のステップと、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第１の人物認識のコストを出力し、当該人物領域に人物ＩＤ(IDentifier)を付与する第３のステップと、
画像フレームの組毎に、人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第２の人物認識のコストを出力する第４のステップと、
当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線ＩＤと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線ＩＤを付与すると共に、人物ＩＤを対応付ける第５のステップと
を実行することを特徴とする。

本発明の映像解析装置、プログラム及び方法によれば、カメラによって撮影された映像の中で、人物間オクルージョンが発生したり人物検出に失敗したりしても、追跡情報を補完することによって、ロバストに人物追跡を継続することができる。

検出された人物領域における動線、人物及び行動を表す説明図である。本発明における映像解析装置の機能構成図である。オンライン処理形態であって、人物ＩＤを修正する説明図である。オンライン処理形態であって、ハンガリアンアルゴリズムを適用した説明図である。オフライン処理形態であって、動線ＩＤを修正する説明図である。オフライン処理形態であって、人物ＩＤを修正する説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、検出された人物領域における動線、人物及び行動を表す説明図である。

図１によれば、映像における時系列の画像フレーム毎に人物領域を検出し、例えば以下のような追跡情報を推定していく。
Ｔ_f＝（ｔ_f ¹，ｔ_ｆ ^２，・・・）：あるフレームｆにおける追跡情報の集合
ｔ＝（box，lid，gid，act）：追跡情報
box＝（x，y，w，h）：人物領域の左上点の(x,y)座標、幅w、高さh
lid：動線ＩＤ（人物領域に対して仮に付与された形式的なＩＤ）
gid：人物ＩＤ（実人物と対応したＩＤ）
act：行動ＩＤ（人物領域に映る人物から推定された行動フラグ）
動線ＩＤを結ぶことによって、前後のフレーム間で、各人物領域を対応付けて追跡することができる。

図１（ａ）によれば、時系列の各フレームに、３人の人物が映り込んでいるとする。フレームｆの時点では、以下のように検出されている。
動線ＩＤ：3の人物は、人物ＩＤ：105であり、行動ＩＤ：Eatingである
動線ＩＤ：2の人物は、人物ＩＤ：107であり、行動ＩＤ：Readingである
動線ＩＤ：4の人物は、人物ＩＤ：103であり、行動ＩＤ：Walkingである

図１（ｂ）によれば、時系列のフレーム毎に、Ｔ_f＝（ｔ_f ¹，ｔ_ｆ ^２，・・・）を検出及び推定していく。
このとき、時系列に結ばれた同一の動線ＩＤについて、人物ＩＤは同一であって、行動ＩＤは変移すると考えるべきである。また、同一の画像フレーム内に同じ動線ＩＤは存在せず、同じ人物ＩＤも存在しない。

図２は、本発明における映像解析装置の機能構成図である。

図２によれば、映像解析装置１は、カメラによって撮影された時系列の画像フレームを入力し、人物を追跡するものである。勿論、画像フレームは、予め録画されたものであってもよいし、インタフェースを介して外部からリアルタイムに入力されるもの（例えばライブ映像）であってもよい。インタフェースは、ネットワークに接続する通信インタフェースであってもよいし、カメラからの入力インタフェースであってもよい。

映像解析装置１は、第１の人物検出部１１と、第２の人物検出部１１２と、第１の人物認識部１２１と、第２の人物認識部１２２と、第１の行動認識部１３１と、第２の行動認識部１３２と、人物追跡部１４とを有する。
ここで、第１の人物認識部１２１及び第２の人物認識部１２２と、第１の行動認識部１３１及び第２の行動認識部１３２とは、いずれか一方のみ有するものであってもよいし、両方とも有するものであってもよい。
これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。尚、これら機能構成部の処理の流れは、人物追跡する映像解析方法としても理解できる。

［第１の人物検出部１１］
第１の人物検出部１１は、画像フレーム毎に、人物領域BOX_f＝（box_f ¹，box_f ²，・・・）を検出すると共に、「第１の人物検出のスコア」を出力する。ここで、box_f ¹とは、ある画像フレームｆにおける１番目の人物領域を意味する。人物領域とは、画像フレームの中で、当該人物が占める輪郭を表すバウンダリボックスである。

人物検出には、例えばＳＳＤ(Single Shot MultiBox Detector）に基づく深層学習エンジンを用いて、事前に学習させたものであってもよい（例えば非特許文献３参照）。
ＳＳＤによれば、画像フレームをグリッドで分割し、各グリッドに対するバウンディングボックスの当てはまり具合から、人物領域が検出される。ＳＳＤでは、畳み込み層を用いて、特徴マップの分割領域数をスケールダウンさせ、分割領域それぞれに対し、いくつかのデフォルトボックスを当てはめて、解に近い人物領域を選択している。

また、第１の人物検出部１１は、第１の人物検出のスコアを距離関数として負値化した「第１の人物検出のコスト」を出力するものであってもよい。「負値化」とは、例えばスコアに「－（マイナス）」を付与しただけのものである。第１の人物検出のスコア又はコストは、画像フレームにおける人物領域毎に出力される。尚、距離関数を予め定義しておく必要がある。

［第２の人物検出部１１２］
第２の人物検出部１１２は、連続する画像フレームの中から選択された２つの画像フレームの組毎に、人物領域の変化（人物領域のペア毎）に対する「第２の人物検出のスコア」を出力する。

第２の人物検出部１１２は、人物領域box間のＩｏＵ(Intersection over Union)を用いたものであってもよい（例えば非特許文献１参照）。ＩｏＵとは、２つの人物領域（矩形）間の重複率を意味し、積領域／和領域で算出される。
重複率は、例えば以下のように算出される。
Ｓ₁₂＝（Ａ₁∩Ａ₂）／（Ａ₁∪Ａ₂）
Ｓ₁₂：人物領域Ａ₁とＡ₂との一致度（重複率）
Ａ₁∩Ａ₂：人物領域Ａ₁とＡ₂との重複領域の面積
Ａ₁∪Ａ₂：人物領域Ａ₁とＡ₂との包含領域の面積

他の実施形態として、第２の人物検出部１１２は、第２の人物検出のスコアを距離関数として負値化した「第２の人物検出のコスト」を出力するものであってもよい。第２の人物検出のスコア又はコストは、画像フレームにおける人物領域間毎に出力される。尚、距離関数を予め定義しておく必要がある。

また、第２の人物検出部１１２は、人物領域毎に特徴量を算出し、その特徴量間のユークリッド距離をコストとしてもよい。特徴量は、例えば深層ネットワークによって算出したものであってもよい（例えば非特許文献６参照）。

［第１の人物認識部１２１］
第１の人物認識部１２１は、画像フレーム毎に、各人物領域から実人物を認識し、「第１の人物認識のスコア」を出力し、当該人物領域に人物ＩＤを付与するものである。
第１の人物認識部１２１は、画像フレームfの人物領域（box_f ¹，box_f ²，・・・）毎に、人物ＩＤ（gid_f ¹，gid_f ²，・・・）を推定する。
第１の人物認識部１２１は、人物認識学習エンジンであって、予め学習モデルを構築したものであってもよい（例えば非特許文献１参照）。例えば人物認識として顔認識を用いる場合は、ＳＳＤ（例えば非特許文献３参照）に基づくバウンダリボックスから、顔を検出する。顔自体を検出できなかった際に、その人物領域に対して、例えば人物ＩＤ「Noface」が付与される。

勿論、フレーム中の全範囲内を対象として、顔検出を実行し、検出された顔に対応する人物領域を対応付けるものであってもよい。その場合、対応付けには、例えばハンガリアンアルゴリズムを用いることができる。

人物領域から顔が検出された場合、その顔領域から特徴量を算出し、予め収集しておいた各人物の顔に関する特徴量と照合する。その照合結果を人物ＩＤとする。照合には、例えばｋ近傍法を用いることもできる（例えば非特許文献４参照）。

このように、人物認識処理については、特定人物の顔画像を教師データとして学習しておくことを前提としており、常に全ての人物の顔について学習しておけるわけではない。例えば、宅内を想定すると、来客の顔画像は学習されていない。
そのために、第１の人物認識部１２１は、その顔画像が学習されているか否かを判定することも好ましい。具体的には、例えば、第１の人物認識のスコアが所定閾値よりも低い場合は、その人物ＩＤの人物認識モデルは学習されていないと判定し、人物ＩＤ「Unknown」を付与する。

尚、第１の人物認識部１２１は、顔認識に限られず、歩容認識のような他の人物認識方式であってもよい。

［第２の人物認識部１２２］
第２の人物認識部１２２は、画像フレームの組毎に、人物領域の人物認識の変化に対する「第２の人物認識のスコア」を出力する。
例えば、２つの人物領域について、同一人物と認識するほど高いスコアを出力し、異なる人物であると認識するほど低いスコアを出力する。

他の実施形態として、第２の人物認識部１２２は、第２の人物認識のスコアを距離関数として負値化した「第２の人物認識のコスト」を出力するものであってもよい。第２の人物認識のスコア又はコストは、画像フレームにおける人物領域間毎に出力される。尚、距離関数を予め定義しておく必要がある。

第２の人物認識部１２２は、例えば１０人分の顔画像を予め学習しているとすると、「Unknown」「Noface」も追加して、12x12の行列で表現することもできる。この行列は単位行列としてもよい。また、認識された２つの人物間で、予め類似度を算出しておくことによって、それを負値化したものを距離関数として用いてもよい。

［第１の行動認識部１３１］
第１の行動認識部１３１は、画像フレーム毎に、各人物領域に対して人物行動を検出し、「第１の人物検出のスコア」を出力し、当該人物領域に行動ＩＤを付与する。
第１の行動認識部１３１は、画像フレームfの人物領域（box_f ¹，box_f ²，・・・）毎に、行動ＩＤ：ACT_f＝（act_f ¹，act_f ²，・・・）を推定する。
第１の行動認識部１３１は、例えばＴＳＮ(Temporal Segment Network)に基づく畳み込みニューラルネットワークであってもよい（例えば非特許文献５参照）。行動認識におけるスコアが、所定閾値以下となる場合、例えば行動ＩＤ「Unknown」が付与される。

［第２の行動認識部１３２］
第２の行動認識部１３２は、画像フレームの組毎に、人物領域の人物行動の変化に対する「第２の行動認識のスコア」を出力する。画像フレームから認識される２つの人物行動が強く関連するほど（例えば類似するほど、又は、続けて生起するほど）、高いスコアを出力する。

他の実施形態として、第２の行動認識部１３２は、第２の行動認識のスコアを距離関数として負値化した「第２の行動認識のコスト」を出力するものであってもよい。第２の人物認識のスコア又はコストは、画像フレームにおける人物領域間毎に出力される。尚、距離関数を予め定義しておく必要がある。

［人物追跡部１４］
人物追跡部は、当該画像フレーム内の各人物領域に対して、画像フレーム内の既に付与された各人物領域の動線ＩＤと当該画像フレーム毎及び当該画像フレームの組における全てのスコアとを用いて、動線ＩＤを付与すると共に、人物ＩＤを対応付ける。
「全てのスコア」としては、第１の人物検出のスコア及び第２の人物検出のスコアと、第１の人物認識のスコア及び第２の人物認識のスコアと、第１の行動認識のスコア及び第２の行動認識のスコアとなる。尚、第１の人物認識のスコア及び第２の人物認識のスコアと、第１の行動認識のスコア及び第２の行動認識のスコアとは、両方を用いるものであってもよいし、いずれか一方を用いるものであってもよい。
人物追跡部１４は、時系列の画像フレーム毎に検出された人物領域毎に、人物ＩＤを、アプリケーションへ出力する。その際に、行動ＩＤも一緒に出力するものであってもよい。

また、人物追跡部１４は、スコアではなく、「コスト」を用いてもよい。例えば以下のように表される。
ｃ(box_f)：第１の人物検出のコスト
ｃ(box_f-1,box_f)：第２の人物検出のコスト
ｃ(gid_f)：第１の人物認識のコスト
ｃ(gid_f-1,gid_f)：第２の人物認識のコスト
ｃ(act_f)：第１の行動認識のコスト
ｃ(act_f-1,act_f)：第２の行動認識のコスト
ｃ_f-1,f：全てのコストの和
ｃ_f-1,f＝ｃ(box_f)＋ｃ(box_f-1,box_f)＋ｃ(gid_f)＋ｃ(gid_f-1,gid_f)
＋ｃ(act_f)＋ｃ(act_f-1,act_f)
このとき、人物追跡部１４は、全てのコストの和ｃ_f-1,fが最小となるように、動線ＩＤ、人物ＩＤ及び行動ＩＤを対応付ける。

人物追跡部１４は、以下のように２つの処理形態を有する。
＜オンライン処理形態＞としては、連続する画像フレーム（Ｎ＝１）毎に、リアルタイム処理的に動線ＩＤ及び人物ＩＤを対応付ける。その都度、前の画像フレームの人物領域と後の画像フレームの人物領域とを対応付けていく。
＜オフライン処理形態＞としては、所定数の画像フレーム（Ｎ＞１）の内で２つの画像フレームの組毎に、バッチ処理的に動線ＩＤ及び人物ＩＤを対応付ける。所定数のフレームを蓄積した後、前の１つ以上の画像フレームの蓄積結果と、後の１つ以上の画像フレームの蓄積結果とを対応付けていく。
Ｎ＝１とするリアルタイム処理と、Ｎ＞１とするバッチ処理とは、リアルタイム性や対応付け精度との間で、トレードオフの関係となる。

オンライン処理形態の場合、人物が画像フレーム枠外に一時的に移動し、その後に画像フレーム内に戻ったとしても、同じ動線ＩＤとはならず、新たな人物として認識される。
これに対し、後述するオフライン処理形態の場合、バッファすべきＮの画像フレーム数範囲内であれば、人物が一時的に画像フレーム枠外に移動したとしても、同じ動線ＩＤを付与することができる。

＜オンライン処理形態：人物ＩＤの補完＞
図３は、オンライン処理形態であって、人物ＩＤを修正する説明図である。

図３（ａ）によれば、画像フレームf-1～fには、以下の人物領域が検出されている。
（f-1）動線ＩＤ：3の人物は、人物ＩＤ：105であり、行動ＩＤ：Eatingである。
動線ＩＤ：2の人物は、人物ＩＤ：107であり、行動ＩＤ：Readingである。
動線ＩＤ：4の人物は、人物ＩＤ：103であり、行動ＩＤ：Walkingである。
（f）動線ＩＤ：3の人物は、人物ＩＤ：105であり、行動ＩＤ：Eatingである。
動線ＩＤ：4の人物は、人物ＩＤ：103であり、行動ＩＤ：Walkingである。
動線ＩＤ：2の人物は、人物ＩＤ：Nofaceであり、行動ＩＤ：Unknownである。

図３（ａ）によれば、f-1の画像フレームにおける動線ＩＤ：2の人物領域について、fの画像フレームでは、人物ＩＤ及び行動ＩＤにおける認識に失敗している。

図３（ｂ）によれば、時系列のフレーム毎に、動線ＩＤ（第１の人物検出のコスト）と、人物ＩＤ（第１の人物認識のコスト）と、行動ＩＤ（第１の行動認識のコスト）とが表されている。
人物追跡部１４は、画像フレームの組について、動線ＩＤ：2（第１の動線ＩＤ）及び人物ＩＤ：107（第１の人物ＩＤ）が対応付けられた人物領域が発生した後、動線ＩＤ：2（第１の動線ＩＤ）と新たな人物ＩＤ：Noface（第２の人物ＩＤ）が対応付けられた人物領域が発生した際に、新たな人物ＩＤ：Noface（第２の人物ＩＤ）を人物ＩＤ：107（第１の人物ＩＤ）に置き換える。
人物追跡部１４は、人物ＩＤ：107（第１の人物ＩＤ）における第１の人物認識のコスト（-0.8）と第２の人物認識のコスト（0、図３不示、人物ＩＤ：107とNoFaceとの類似度に対するコスト）との和（-0.8）が、新たな人物ＩＤ：Noface（第２の人物ＩＤ）における第１の人物認識のコスト（0、Nofaceのコストを０とした）及び第２の人物認識のコスト（0、前述のとおり）の和（0）よりも小さい場合にのみ、新たな人物ＩＤ：Noface（第２の人物ＩＤ）を人物ＩＤ：107（第１の人物ＩＤ）に置き換える。

行動ＩＤの補完についても、同様に行える。人物追跡部１４は、画像フレームの組について、動線ＩＤ：2（第１の動線ＩＤ）及び行動ＩＤ：Reading（第１の行動ＩＤ）が対応付けられた人物領域が発生した後、動線ＩＤ：2（第１の動線ＩＤ）と新たな行動ＩＤ：Unknown（第２の人物ＩＤ）が対応付けられた人物領域が発生した際に、新たな行動ＩＤ：Unknown（第２の人物ＩＤ）を行動ＩＤ：Reading（第１の行動ＩＤ）に置き換える。
人物追跡部１４は、動線ＩＤ：2（第１の動線ＩＤ）における第１の行動認識のコスト（-0.8）と第２の行動認識のコスト（0、図３不示、動線ＩＤ：2とUnknownとの連続生起確率に対するコスト）との和（-0.8）が、新たな行動ＩＤ：Unknown（第２の人物ＩＤ）における第１の人物検出のコスト（0、Unknownのコストを０とした）及び第２の人物検出のコスト（0、前述のとおり）の和（0）よりも小さい場合にのみ、新たな行動ＩＤ：Unknown（第２の人物ＩＤ）を行動ＩＤ：Reading（第１の行動ＩＤ）に置き換える。

＜オンライン処理形態：ハンガリアンアルゴリズムを用いた動線ＩＤ及び人物ＩＤの補完＞
図４は、オンライン処理形態であって、ハンガリアンアルゴリズムを適用した説明図である。

図４によれば、人物追跡部１４は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ＩＤ及び行動ＩＤを対応付ける。演算量は高くなるが、追跡精度は向上する。
また、図４によれば、ハンガリアンアルゴリズムを適用した後、カルマンフィルタによって、人物領域を平滑化している。
ここで、「ハンガリアンアルゴリズム」とは、割当問題について、最もコストが低くなるように割り当てるアルゴリズムをいう。例えば図４の（ａ）のように、第１の人物検出のコスト、第２の人物検出のコスト、第１の人物認識のコスト、第２の人物認識のコスト、第１の行動検出のコスト及び第２の行動検出のコストを行列として表す。そして、図４（ｂ）のように、各動線には１つの動線ＩＤしか割り当てられないとしたとき、最もコストが低くなる動線ＩＤを選択することができる。

尚、オンライン処理形態では、分枝限定法(branch and bound)という分枝操作と限定操作とから構成され、各種最適化問題の最適解を求める汎用アルゴリズムを用いることもできる。これも各画像フレームについて、同じ動線ＩＤは存在しないという、人物追跡の前提条件に基づくものである。

＜オフライン処理形態：動線ＩＤの補完＞
図５は、オフライン処理形態であって、動線ＩＤを修正する説明図である。

図５（ａ）によれば、画像フレームf-2～fには、以下の人物領域が検出されている。
（f-2）動線ＩＤ：3の人物は、人物ＩＤ：105であり、行動ＩＤ：Eatingである。
動線ＩＤ：2の人物は、人物ＩＤ：107であり、行動ＩＤ：Readingである。
動線ＩＤ：4の人物は、人物ＩＤ：103であり、行動ＩＤ：Walkingである。
（f-1）動線ＩＤ：3の人物は、人物ＩＤ：105であり、行動ＩＤ：Eatingである。
動線ＩＤ：4の人物は、人物ＩＤ：103であり、行動ＩＤ：Walkingである。
（f）動線ＩＤ：3の人物は、人物ＩＤ：105であり、行動ＩＤ：Eatingである。
動線ＩＤ：4の人物は、人物ＩＤ：103であり、行動ＩＤ：Walkingである。
動線ＩＤ：5の人物は、人物ＩＤ：107であり、行動ＩＤ：Readingである。

図５（ａ）によれば、f-1の画像フレームでは、動線ＩＤ：2の人物領域を完全に見失ってしまっている。そのために、次のfの画像フレームでは、新たな動線ＩＤ：5が付与されている。このとき、動線ＩＤのみに注目すると、人物ＩＤ：107の人物領域は、人物間オクルージョンによって誤ったのか、映像枠外へ一度移動した後に戻ってきたのか、全く不明である。

図５（ｂ）によれば、時系列のフレーム毎に、動線ＩＤ（第１の人物検出のコスト＋第２の人物検出のコスト）と、人物ＩＤ（第１の人物認識のコスト＋第２の人物認識のコスト）と、行動ＩＤ（第１の行動認識のコスト＋第２の行動認識のコスト）とが表されている。
人物追跡部１４は、画像フレームの組について、動線ＩＤ：2（第１の動線ＩＤ）及び行動ＩＤ：Reading（第１の行動ＩＤ）が対応付けられた人物領域が発生した後、新たな動線ＩＤ：5（第２の動線ＩＤ）と行動ＩＤ：Reading（第１の行動ＩＤ）が対応付けられた人物領域が発生した際に、新たな動線ＩＤ：5（第２の動線ＩＤ）を動線ＩＤ：2（第１の動線ＩＤ）に置き換える。
このとき、人物追跡部１４は、動線ＩＤ：2（第１の動線ＩＤ）における第１の人物検出のコスト及び第２の人物検出のコストの和（＝-0.8)が、新たな動線ＩＤ：5（第２の動線ＩＤ）における第１の人物検出のコスト及び第２の人物検出のコストの和（＝-0.2)よりも小さい場合にのみ、新たな動線ＩＤ：5（第２の動線ＩＤ）を動線ＩＤ：2（第１の動線ＩＤ）に置き換える。

＜オフライン処理形態：人物ＩＤの補完＞
図６は、オフライン処理形態であって、人物ＩＤを修正する説明図である。

図６（ａ）によれば、画像フレームf-2～fには、以下の人物領域が検出されている。
（f-2）動線ＩＤ：3の人物は、人物ＩＤ：105であり、行動ＩＤ：Eatingである。
動線ＩＤ：2の人物は、人物ＩＤ：107であり、行動ＩＤ：Readingである。
動線ＩＤ：4の人物は、人物ＩＤ：103であり、行動ＩＤ：Walkingである。
（f-1）動線ＩＤ：3の人物は、人物ＩＤ：105であり、行動ＩＤ：Eatingである。
動線ＩＤ：4の人物は、人物ＩＤ：103であり、行動ＩＤ：Walkingである。
（f）動線ＩＤ：3の人物は、人物ＩＤ：105であり、行動ＩＤ：Eatingである。
動線ＩＤ：4の人物は、人物ＩＤ：103であり、行動ＩＤ：Walkingである。
動線ＩＤ：2の人物は、人物ＩＤ：Nofaceであり、行動ＩＤ：Readingである。

図６（ａ）によれば、動線ＩＤ：2の人物領域について、fの画像フレームでは人物ＩＤの認識に失敗している。

図６（ｂ）によれば、人物追跡部１４は、画像フレームの組について、動線ＩＤ：2（第１の動線ＩＤ）及び人物ＩＤ：107（第１の人物ＩＤ）が対応付けられた人物領域が発生した後、動線ＩＤ：2（第１の動線ＩＤ）と新たな人物ＩＤ：Noface（第２の人物ＩＤ）が対応付けられた人物領域が発生した際に、新たな人物ＩＤ：Noface（第２の人物ＩＤ）を人物ＩＤ：107（第１の人物ＩＤ）に置き換える。
このとき、人物追跡部１４は、人物ＩＤ：107（第１の人物ＩＤ）における第１の人物認識のコスト及び第２の人物認識のコストの和が、新たな人物ＩＤ：Noface（第２の人物ＩＤ）における第１の人物認識のコスト及び第２の人物認識のコストの和よりも小さい場合にのみ、新たな人物ＩＤ：Noface（第２の人物ＩＤ）を人物ＩＤ：107（第１の人物ＩＤ）に置き換える。
図６（ｂ）によれば、新たな人物ＩＤがNofaceとなっているが、例えばフレームf-2の先の人物ＩＤ＝107に基づく人物認識のコスト和＝-0.8が、フレームfの新たな人物ＩＤ＝109に基づく人物認識のコスト和＝0りも小さい場合、新たな人物ＩＤ＝109を、先の人物ＩＤ＝107に置き換える。

オフライン処理形態について、他の実施形態によれば、例えば最小重み最大マッチング問題とみなして、例えばPush-Relabelアルゴリズムを用いたものであってもよいし（例えば非特許文献７参照）、他の解法を用いたものであってもよい（例えば非特許文献８参照）。

尚、オフライン処理形態でも、分枝限定法を用いることもできる。

以上、詳細に説明したように、本発明の映像解析装置、プログラム及び方法によれば、カメラによって撮影された映像の中で、人物間オクルージョンが発生したり人物検出に失敗したりしても、人物追跡に用いる要素情報を補完することによって、ロバストに人物追跡を継続することができる。

本発明によれば、人物間オクルージョンが発生したり人物検出に失敗したりしても、同一の人物領域であっても、動線ＩＤを見失ったり、異なる人物ＩＤを付与することがない。特に、人物ＩＤ及び行動ＩＤを用いることによって動線ＩＤを補完すると共に、人物ＩＤ及び行動ＩＤを用いることによって動線ＩＤを補完することもできる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１映像解析装置
１１第１の人物検出部
１１２第２の人物検出部
１２１第１の人物認識部
１２２第２の人物認識部
１３１第１の行動認識部
１３２第２の行動認識部
１４人物追跡部

Claims

カメラによる連続的な画像フレームの中から人物を追跡する映像解析装置において、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第１の人物検出のコストを出力する第１の人物検出手段と、
２つの画像フレームの組毎に、前記人物領域の変化に対する人物検出のスコアを距離関数として負値化した第２の人物検出のコストを出力する第２の人物検出手段と、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第１の人物認識のコストを出力し、当該人物領域に人物ＩＤ(IDentifier)を付与する第１の人物認識手段と、
前記画像フレームの組毎に、前記人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第２の人物認識のコストを出力する第２の人物認識手段と、
当該画像フレーム内の各人物領域に対して、前記画像フレーム内の既に付与された各人物領域の動線ＩＤと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線ＩＤを付与すると共に、前記人物ＩＤを対応付ける人物追跡手段と
を有することを特徴とする映像解析装置。
第１の人物検出手段は、深層学習エンジンであり、
第１の人物認識手段は、人物認識学習エンジンである
ことを特徴とする請求項１に記載の映像解析装置。
前記人物追跡手段は、第１の人物検出のコスト、第２の人物検出のコスト、第１の人物認識のコスト及び第２の人物認識のコストの和が最小となるように、動線ＩＤ及び人物ＩＤを対応付ける
ことを特徴とする請求項１又は２に記載の映像解析装置。
前記人物追跡手段は、連続する画像フレーム（Ｎ＝１）毎に、オンライン処理として動線ＩＤ及び人物ＩＤを対応付ける
ことを特徴とする請求項３に記載の映像解析装置。
前記人物追跡手段は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ＩＤ及び人物ＩＤを対応付ける
ことを特徴とする請求項４に記載の映像解析装置。
前記人物追跡手段は、所定数の画像フレーム（Ｎ＞１）の内で２つの画像フレームの組毎に、オフライン処理として動線ＩＤ及び人物ＩＤを対応付ける
ことを特徴とする請求項３に記載の映像解析装置。
前記人物追跡手段は、前記画像フレームの組について、第１の動線ＩＤ及び第１の人物ＩＤが対応付けられた人物領域が発生した後、新たな第２の動線ＩＤと第１の人物ＩＤが対応付けられた人物領域が発生した際に、新たな第２の動線ＩＤを第１の動線ＩＤに置き換える
ことを特徴とする請求項６に記載の映像解析装置。
第１の動線ＩＤにおける第１の人物検出のコスト及び第２の人物検出のコストの和が、第２の動線ＩＤにおける第１の人物検出のコスト及び第２の人物検出のコストの和よりも小さい場合にのみ、前記新たな第２の動線ＩＤを前記第１の動線ＩＤに置き換える
ことを特徴とする請求項７に記載の映像解析装置。
前記人物追跡手段は、前記画像フレームの組について、第１の動線ＩＤ及び第１の人物ＩＤが対応付けられた人物領域が発生した後、第１の動線ＩＤと新たな第２の人物ＩＤが対応付けられた人物領域が発生した際に、新たな第２の人物ＩＤを第１の人物ＩＤに置き換える
ことを特徴とする請求項４又は６に記載の映像解析装置。
第１の人物ＩＤにおける第１の人物認識のコスト及び第２の人物認識のコストの和が、第２の人物ＩＤにおける第１の人物認識のコスト及び第２の人物認識のコストの和よりも小さい場合にのみ、新たな第２の人物ＩＤを第１の人物ＩＤに置き換える
ことを特徴とする請求項９に記載の映像解析装置。
カメラによる連続的な画像フレームの中から人物を追跡する映像解析装置において、
画像フレーム毎に、人物領域を検出し、第１の人物検出のスコアを出力する第１の人物検出手段と、
２つの画像フレームの組毎に、前記人物領域の変化に対する第２の人物検出のスコアを出力する第２の人物検出手段と、
画像フレーム毎に、各人物領域に対して人物行動を検出し、第１の行動認識のスコアを出力し、当該人物領域に行動ＩＤを付与する第１の行動認識手段と、
前記画像フレームの組毎に、前記人物領域の人物行動の変化に対する第２の行動認識のスコアを出力する第２の行動認識手段と
当該画像フレーム内の各人物領域に対して、前記画像フレーム内の既に付与された各人物領域の動線ＩＤと当該画像フレーム毎及び当該画像フレームの組における全てのスコアとを用いて、動線ＩＤを付与すると共に、前記行動ＩＤを対応付ける人物追跡手段と
を有することを特徴とする映像解析装置。
第１の行動認識手段は、畳み込みニューラルネットワークであり、
第１の行動認識手段は、第１の行動認識のスコアを距離関数として負値化した第１の行動認識のコストを出力し、
第２の行動認識手段は、第２の人物検出のスコアを距離関数として負値化した第２の行動認識のコストを出力する
ことを特徴とする請求項１１に記載の映像解析装置。
第１の人物検出手段は、第１の人物検出のスコアを距離関数として負値化した第１の人物検出のコストを出力し、
第２の人物検出手段は、第２の人物検出のスコアを距離関数として負値化した第２の人物検出のコストを出力し、
前記人物追跡手段は、第１の人物検出のコスト、第２の人物検出のコスト、第１の人物認識のコスト、第２の人物認識のコスト、第１の行動認識のコスト、第２の行動認識のコストの和が最小となるように、動線ＩＤ及び行動ＩＤを対応付ける
ことを特徴とする請求項１２に記載の映像解析装置。
前記人物追跡手段は、連続する画像フレーム（Ｎ＝１）毎に、オンライン処理として動線ＩＤ及び行動ＩＤを対応付ける
ことを特徴とする請求項１３に記載の映像解析装置。
前記人物追跡手段は、全てのコストからなるコスト行列を、ハンガリアンアルゴリズムによって最もコストが低くなるように、動線ＩＤ及び行動ＩＤを対応付ける
ことを特徴とする請求項１４に記載の映像解析装置。
前記人物追跡手段は、所定数の画像フレーム（Ｎ＞１）の内で２つの画像フレームの組毎に、オフライン処理として動線ＩＤ及び行動ＩＤを対応付ける
ことを特徴とする請求項１３に記載の映像解析装置。
前記人物追跡手段は、前記画像フレームの組について、第１の動線ＩＤ及び第１の行動ＩＤが対応付けられた人物領域が発生した後、新たな第２の動線ＩＤと第１の行動ＩＤが対応付けられた人物領域が発生した際に、新たな第２の動線ＩＤを第１の動線ＩＤに置き換える
ことを特徴とする請求項１６に記載の映像解析装置。
第１の動線ＩＤにおける第１の人物検出のコスト及び第２の人物検出のコストの和が、第２の動線ＩＤにおける第１の人物検出のコスト及び第２の人物検出のコストの和よりも小さい場合にのみ、新たな第２の動線ＩＤを第１の動線ＩＤに置き換える
ことを特徴とする請求項１７に記載の映像解析装置。
前記人物追跡手段は、前記画像フレームの組について、第１の動線ＩＤ及び第１の行動ＩＤが対応付けられた人物領域が発生した後、第１の動線ＩＤと新たな第２の行動ＩＤが対応付けられた人物領域が発生した際に、新たな第２の行動ＩＤを第１の行動ＩＤに置き換える
ことを特徴とする請求項１４又は１６に記載の映像解析装置。
第１の行動ＩＤにおける第１の行動認識のコスト及び第２の行動認識のコストの和が、第２の行動ＩＤにおける第１の行動認識のコスト及び第２の行動認識のコストの和よりも小さい場合にのみ、新たな第２の行動ＩＤを第１の行動ＩＤに置き換える
ことを特徴とする請求項１９に記載の映像解析装置。
カメラによる連続的な画像フレームの中から人物を追跡する装置に搭載されたプログラムを機能させる映像解析プログラムにおいて、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第１の人物検出のコストを出力する第１の人物検出手段と、
２つの画像フレームの組毎に、前記人物領域の変化に対する人物検出のスコアを距離関数として負値化した第２の人物検出のコストを出力する第２の人物検出手段と、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第１の人物認識のコストを出力し、当該人物領域に人物ＩＤ(IDentifier)を付与する第１の人物認識手段と、
前記画像フレームの組毎に、前記人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第２の人物認識のコストを出力する第２の人物認識手段と、
当該画像フレーム内の各人物領域に対して、前記画像フレーム内の既に付与された各人物領域の動線ＩＤと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線ＩＤを付与すると共に、前記人物ＩＤを対応付ける人物追跡手段と
してコンピュータを機能させることを特徴とするプログラム。
カメラによる連続的な画像フレームの中から人物を追跡する装置の映像解析方法において、
前記装置は、
画像フレーム毎に、人物領域を検出し、人物検出のスコアを距離関数として負値化した第１の人物検出のコストを出力する第１のステップと、
２つの画像フレームの組毎に、前記人物領域の変化に対する人物検出のスコアを距離関数として負値化した第２の人物検出のコストを出力する第２のステップと、
画像フレーム毎に、各人物領域から実人物を認識し、人物認識のスコアを距離関数として負値化した第１の人物認識のコストを出力し、当該人物領域に人物ＩＤ(IDentifier)を付与する第３のステップと、
前記画像フレームの組毎に、前記人物領域の人物認識の変化に対する人物認識のスコアを距離関数として負値化した第２の人物認識のコストを出力する第４のステップと、
当該画像フレーム内の各人物領域に対して、前記画像フレーム内の既に付与された各人物領域の動線ＩＤと当該画像フレーム毎及び当該画像フレームの組における全てのコストとを用いて、動線ＩＤを付与すると共に、前記人物ＩＤを対応付ける第５のステップと
を実行することを特徴とする映像解析方法。