JP6574149B2

JP6574149B2 - 追跡装置および追跡方法

Info

Publication number: JP6574149B2
Application number: JP2016141479A
Authority: JP
Inventors: 剛永吉
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-07-19
Filing date: 2016-07-19
Publication date: 2019-09-11
Anticipated expiration: 2036-07-19
Also published as: JP2018013854A

Description

本発明は、追跡装置および追跡方法に関する。

単一の映像から人物の軌跡を追跡する技術が知られている。例えば、映像に映っている人物を検知して、この人物映像のピクセル位置と人物映像の識別情報とを時系列に出力する技術が知られている（非特許文献１参照）。

また、複数の方向から撮影された画像を用い、画像間の相対関係を手掛かりにして一部の画像にしか撮影されていない人物を同定する技術が知られている。また、複数のカメラで撮影された映像の各フレーム画像に写る人物を検知して、各人物の移動軌跡を算出する技術が知られている（特許文献１参照）。

特開２０１０−０６３００１号公報

「画像センシング技術ＯＫＡＯＶｉｓｉｏｎ人を見つけ、認識する」、[online]、２０１５年１２月、オムロン株式会社、［２０１６年４月１２日検索]、インターネット＜URL:http://plus-sensing.omron.co.jp/technology/＞

しかしながら、従来の技術は、人物映像の顔等の特徴を比較して同一性を判定する処理や、多視点からの映像を３次元空間に対応づけるステレオマッチングを伴っていた。そのため、処理が複雑となり、また、カメラのキャリブレーションの設定や運用のためのコストがかさんでいた。

本発明は、上記に鑑みてなされたものであって、多視点から撮影された映像から簡易に人物を識別して移動軌跡を抽出することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る追跡装置は、所定の監視範囲内を同時に異なる場所から撮影した複数の映像を取得する取得部と、前記監視範囲内の人物を同一時刻に撮影した前記映像のそれぞれにおける該人物の位置の組み合わせを含む訓練データを生成する訓練部と、前記訓練データが生成された後に取得された複数の映像中の同一時刻における人物の位置の組み合わせのうち、前記訓練データの位置の組み合わせに類似する組み合わせを同一の人物の位置の組み合わせとして識別し、識別した同一の人物の位置の組み合わせと、同一の場所から連続する異なる時刻に撮影された各映像中の同一の人物の位置の軌跡とを組み合わせて、該人物の前記監視範囲での移動軌跡を抽出する識別部と、を備えることを特徴とする。

本発明によれば、多視点から撮影された映像から簡易に人物を識別して移動軌跡を抽出することができる。

図１は、本発明の一実施形態に係る追跡装置を含むシステムの概略構成を示す模式図である。図２は、映像センサの設置方法を説明するための説明図である。図３は、映像センサの設置方法を説明するための説明図である。図４は、映像センサの設置方法を説明するための説明図である。図５は、人物映像の位置を説明するための説明図である。図６は、訓練データの生成を説明するための説明図である。図７は、訓練データの生成を説明するための説明図である。図８は、訓練データの内挿を説明するための説明図である。図９は、訓練データの補完を説明するための説明図である。図１０は、訓練データ生成後の処理を説明するための説明図である。図１１は、ノイズによる現象に対する対処について説明するための説明図である。図１２は、ノイズによる現象に対する対処について説明するための説明図である。図１３は、ノイズによる現象に対する対処について説明するための説明図である。図１４は、出力される画面例を示す図である。図１５は、追跡処理手順を示すフローチャートである。図１６は、追跡プログラムを実行するコンピュータを例示する図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［システム構成］
図１は、本実施形態に係る追跡装置を含むシステムの概略構成を示す模式図である。図１に例示するように、設置された複数台の映像センサＣが、それぞれ所定の監視範囲Ｒ内を撮影してその映像を生成する。追跡装置１は、後述する追跡処理により監視範囲Ｒ内にいる人物ｈの行動を監視する。

映像センサＣは光学カメラや赤外線カメラ等で実現され、監視範囲Ｒ内の人物ｈを、この人物ｈに対する撮影方向およびこの人物ｈまでの距離が異なる複数の場所から撮影可能に設置される。具体的に、図２〜図４を参照して、映像センサＣの設置方法について説明する。

例えば、各映像センサＣの監視範囲Ｒに対する撮影方向を変え、撮影範囲が重複する範囲が設けられるように設置される。これにより、図２に例示するように、移動中に撮影範囲の重複範囲（ａ，ｂ）に入った人物ｈを複数台の映像センサＣ（Ｃ１〜Ｃ３）で撮影可能となる。例えば、重複範囲ａにいる人物ｈは、映像センサＣ１と映像センサＣ２とにより撮影可能となる。

また、各映像センサＣの監視範囲Ｒ内の人物ｈに対する撮影方向を変えて設置される。これにより、図３に例示するように、一部の映像センサＣ１と人物ｈとの間に障害物がある場合にも、この人物ｈを、この人物に対する撮影方向が異なる他の映像センサＣ２で撮影可能となる。

また、各映像センサＣが、監視範囲Ｒ内の人物ｈまでの距離が異なるように設置される。これにより、図４に例示するように、一部の映像センサＣ１からの距離ｄが近すぎて、映像上でこの人物ｈの移動速度が大きくなり、この映像上の人物ｈの検知精度が低下する場合にも、この人物ｈまでの距離が異なる他の映像センサＣ２で撮影可能となる。反対に、一部の映像センサＣ１からの距離ｄが遠すぎて映像上での人物ｈの移動速度が小さくなり、この映像上の人物ｈの検知精度が低下する場合にも、この人物ｈまでの距離が異なる他の映像センサＣ２で撮影可能となる。なお、ここで設定された映像センサＣの各位置は、以降の処理では固定とする。

［追跡装置の構成］
図１の説明に戻る。追跡装置１は、パソコン等の汎用コンピュータで実現され、入力部１１、出力部１２、通信制御部１３、記憶部１４、および制御部１５を備える。

入力部１１は、キーボードやマウス等の入力デバイスを用いて実現され、操作者による入力操作に対応して、制御部１５に対して処理開始などの各種指示情報を入力する。出力部１２は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置等によって実現される。

通信制御部１３は、ＮＩＣ（Network Interface Card）等で実現され、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した映像センサＣ等の外部の装置と制御部１５との通信を制御する。

記憶部１４は、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、後述する追跡処理により生成される訓練データ１４ａが記憶される。なお、記憶部１４は、通信制御部１３を介して制御部１５と通信する構成でもよい。

制御部１５は、ＣＰＵ（Central Processing Unit）等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部１５は、図１に例示するように、取得部１５ａ、訓練部１５ｂおよび識別部１５ｃとして機能する。

取得部１５ａは、所定の監視範囲Ｒ内を同時に異なる場所から撮影した複数の映像を取得する。具体的に、取得部１５ａは、複数の映像センサＣのそれぞれが同一時刻に監視範囲Ｒ内を撮影した複数の映像を、通信制御部１３を介して取得する。

また、取得部１５ａは、取得した同一時刻の複数の映像のそれぞれから、例えば、頭部〜肩の形状を検知することにより、人物の映像の部分（以下、人物映像と記す）ｐを検知する。また、取得部１５ａは、各人物映像ｐの位置ｘｐとして、例えば、頭部エリアの重心点等の代表点のピクセル位置を抽出する。その際、取得部１５ａは、同一の場所から撮影された各映像において、連続する異なる時刻間で同一の人物の人物映像ｐを識別して同一の識別値を付与する。

ここで、図５を参照して、人物映像ｐの位置（以下、ピクセル位置とも記す）ｘｐについて説明する。図５には、監視範囲Ｒ内の物理位置ｉ（ｉ＝１，２，３）にいる人物ｈｉを複数の映像センサＣｎ（ｎ＝１，２）で撮影した複数の映像ｎ中の人物映像ｉｎのピクセル位置ｘｉｎについて例示されている。例えば、映像センサＣ１で撮影された映像１中には、物理位置１にいる人物ｈ１および物理位置２にいる人物ｈ２が、ピクセル位置ｘ１１の人物映像１１またはピクセル位置ｘ２１の人物映像２１として映っている。一方、映像センサＣ２で撮影された映像２には、人物ｈ１、ｈ２に加えて、物理位置３にいる人物ｈ３が、ピクセル位置ｘ２２の人物映像２２、ピクセル位置ｘ１２の人物映像１２、またはピクセル位置ｘ３２の人物映像３２として映っている。すなわち、物理位置３にいる人物ｈ３は、映像１には映っておらず、映像２にのみ映っている。

なお、取得部１５ａが複数の映像ｎを取得して人物映像ｉｎのピクセル位置ｘｉｎを抽出した時点では、各人物映像ｉｎと物理位置ｉにいる人物ｈｉとの対応は不明である。そこで、本実施形態の追跡装置１は、後述する追跡処理により、各映像ｎ中の人物映像ｉｎのうち同一人物を撮影したものを識別する。これにより、本実施形態の追跡装置１は、各人物ｈｉの移動軌跡を検知する。

また、取得部１５ａは、上記したように設置された映像センサＣが、監視範囲Ｒ内の人物ｈを、該人物ｈに対する撮影方向および該人物までの距離が異なる複数の場所から撮影した映像を取得する。これにより、各映像センサＣの撮影範囲が重複する範囲ができ、重複範囲にいる人物を複数の映像センサＣで撮影した複数の映像を取得できる（図２参照）。また、一部の映像センサＣと人物との間に障害物があり映像上で人物の追跡が困難な場合にも、他の映像センサＣが撮影した映像を用いて人物の検知の精度の低下を抑止できる（図３参照）。また、例えば、一部の映像センサＣからの距離が近すぎて映像上でこの人物の移動速度が大きくなり、この人物の映像上での検知精度が低下した場合にも、他の映像センサＣが撮影した映像を用いて人物の識別の精度の低下を抑止できる。反対に、一部の映像センサＣからの距離が遠すぎて映像上での人物の移動速度が小さくなり、この人物の映像上での検知精度が低下した場合にも、他の映像センサＣが撮影した映像を用いて人物の識別の精度の低下を抑止できる（図４参照）。

図１の説明に戻る。訓練部１５ｂは、監視範囲Ｒ内の人物ｈを同一時刻に撮影した映像のそれぞれにおける該人物の位置の組み合わせを含む訓練データ１４ａを生成する。具体的に、図６および図７を参照して、訓練データ１４ａを生成する処理（以下、事前フェーズとも記す）について説明する。図６および図７は、事前フェーズについて説明するための説明図である。

事前フェーズでは、図６に例示するように、監視範囲Ｒ内のある物理位置にいる同一の人物ｈを同一時刻に複数の映像センサＣｎ（ｎ＝１，２）が撮影した各映像ｎ中の人物映像ｐｎのピクセル位置ｘｐｎを用いて、訓練部１５ｂが訓練データ１４ａを生成する。

図６に示す例では、訓練部１５ｂは、訓練データ１４ａとして、人物映像ｐｎを識別する識別値の組み合わせを表す人物映像ベクトルＨｐ（ｐ１，ｐ２）と、ピクセル位置ｘｐｎの組み合わせを表すピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２）とを生成する。なお、一部の映像センサＣｎの撮影範囲外となり人物映像ｐｎがない映像ｎに対しては、上記の人物映像ベクトルＨｐおよびピクセル位置ベクトルＸｐの成分はｎｕｌｌとする。

さらに、訓練部１５ｂは、図７に例示するように、人物ｈの物理位置ｉ（ｉ＝１〜３）を変えて、各物理位置ｉにおいて、図６に示す例と同様に訓練データ１４ａを生成する。その後、訓練部１５ｂは、生成した訓練データ１４ａを記憶部１４に格納する。

このようにして、訓練部１５ｂは、人物ｈの物理位置に対応する各映像ｎ中の人物映像ｐｎのピクセル位置ｘｐｎの組み合わせを用いて訓練データ１４ａを生成する。なお、後述するように、本実施形態の追跡装置１は、同一の物理位置ｉに対応する各映像ｎ中の人物映像ｐｎのピクセル位置ｘｐｎの組み合わせを用いて、同一人物ｈに対応する各映像ｎ中の人物映像ｐｎを識別する。したがって、監視範囲Ｒ内の可能な限り多数の物理位置ｉに対応する訓練データ１４ａが生成されることが望ましい。

例えば、一人の人物を監視範囲Ｒ内で移動させながら撮影した映像を用いることにより、物理位置ｉを変えた訓練データ１４ａを生成することができる。また、複数の各人物に対応する人物映像ｐｎを特定可能な範囲で、それらの複数の人物を移動させながら同時に撮影した映像を用いれば、効率よく訓練データ１４ａを生成することができる。

また、訓練部１５ｂは、複数の訓練データ１４ａの各位置の間の位置を組み合わせて訓練データ１４ａを生成すなわち内挿する。具体的に、図８を参照して訓練データ１４ａの内挿について説明する。図８に例示するように、訓練部１５ｂは、上記の手順で生成された物理位置ａおよび物理位置ｂに対応する訓練データ１４ａを用いて、物理位置ａと物理位置ｂとの間の物理位置ａｂに対応する訓練データ１４ａを内挿する。

具体的に、物理位置ａｂに対応する訓練データ１４ａに含まれるピクセル位置ｘｐｎａｂとして、物理位置ａに対応する訓練データ１４ａのピクセル位置ｘｐｎａと物理位置ｂに対応する訓練データ１４ａのピクセル位置ｘｐｎｂとの間のピクセル位置が特定される。例えば、直線モデルを採用して、ピクセル位置ｘｐｎａとピクセル位置ｘｐｎｂとの中間の１点のピクセル位置が算出される。この場合、物理位置ａｂに対応する訓練データ１４ａのピクセル位置ベクトルＸｐ（ｘｐ１ａｂ，ｘｐ２ａｂ）は、次式（１）を用いて算出される。

このようにして、訓練部１５ｂは、物理位置ａｂに対応して、ピクセル位置ベクトルＸｐｎａｂおよび人物映像ベクトルＨｐｎａｂを含む訓練データ１４ａを内挿する。その後、訓練部１５ｂは、生成（内挿）した訓練データ１４ａを記憶部１４に格納する。

なお、内挿される訓練データ１４ａは、生成済みの訓練データ１４ａのピクセル位置の中間の１点に限定されず、細分化した内分比により算出された複数点が内挿されてもよい。例えば、物理位置ａと物理位置ｂとの間を１：１：１に内分する２点の物理位置に対応する２つの訓練データ１４ａが内挿されてもよい。

また、訓練部１５ｂは、訓練データ１４ａの各位置の一部を削除して訓練データ１４ａを生成する。すなわち、訓練部１５ｂは、後述する追跡処理に使用される訓練データ１４ａを補完する。具体的に、図９を参照して、訓練データ１４ａの補完について説明する。訓練部１５ｂは、補完する訓練データ１４ａとして、以下に示すように、サブセットピクセル位置ベクトルおよびサブセット人物映像ベクトルを生成する。

すなわち、訓練部１５ｂは、人物ｈの物理位置に対応して上記のように生成した訓練データ１４ａの各映像ｎ（ｎ＝１，２，３）中の人物映像ｐｎのピクセル位置ｘｐｎの組み合わせを表すピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２，ｘｐ３）の成分の一部をｎｕｌｌにする。併せて、人物映像ベクトルＨｐ（ｐ１，ｐ２，ｐ３）の対応する成分をｎｕｌｌにする。

訓練部１５ｂは、図９に例示するように、ｎｕｌｌにする成分の組み合わせを変えた複数のベクトルを、サブセット人物映像ベクトルまたはサブセットピクセル位置ベクトルとして生成する。ピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２，ｘｐ３）に対するサブセットピクセル位置ベクトルとして、例えば、Ｘｐｓ（ｘｐ１，ｘｐ２，ｎｕｌｌ）、Ｘｐｓ（ｎｕｌｌ，ｎｕｌｌ，ｘｐ３）が生成される。また、対応する人物映像ベクトルＨｐ（ｐ１，ｐ２，ｐ３）に対するサブセット人物映像ベクトルとして、例えば、Ｈｐｓ（ｐ１，ｐ２，ｎｕｌｌ）、Ｈｐｓ（ｎｕｌｌ，ｎｕｌｌ，ｐ３）が生成される。

このようにして、訓練部１５ｂは、訓練データ１４ａの各ピクセル位置の一部を削除してｎｕｌｌとした訓練データ１４ａを補完する。その後、訓練部１５ｂは、生成（補完）した訓練データ１４ａを記憶部１４に格納する。

なお、このように補完された訓練データ１４ａは、後述するように、人物ｈの物理位置に対応する各映像ｎのうちの一部で、各種のノイズにより検知されるはずの人物映像ｐｎのピクセル位置ｘｐｎが誤検知されたり検知されなかったりした場合に参照される。

図１の説明に戻る。識別部１５ｃは、訓練データ１４ａが生成された後に取得された複数の映像中の同一時刻における人物の位置の組み合わせのうち、訓練データ１４ａの位置の組み合わせに類似する組み合わせを同一の人物の位置の組み合わせとして識別する。そして、識別部１５ｃは、識別した同一の人物の位置の組み合わせと、同一の場所から連続する異なる時刻に撮影された各映像中の同一の人物の位置の軌跡とを組み合わせて、該人物の監視範囲Ｒでの移動軌跡を抽出する（以下、行動フェーズとも記す）。

ここで、図１０を参照して、行動フェーズについて説明する。まず、識別部１５ｃは、取得部１５ａから、監視範囲Ｒ内の複数の人物ｈｉ（ｉ＝１，２，３）を同時に撮影した複数の映像ｎ中の各人物映像ｉｎのピクセル位置ｘｉｎを取得する。そして、識別部１５ｃは、図１０に例示するように、同一時刻における映像ｎごとに一つの人物映像ｉｎを選択して組み合わせて、人物映像ベクトルＨｂ（ｉ１，…，ｉｎ，…，ｉＮ）を生成する。併せて、識別部１５ｃは、人物映像ベクトルの各人物映像ｉｎに対応するピクセル位置ｘｉｎを組み合わせて、ピクセル位置ベクトルＸｂ（ｘｉ１，…，ｘｉｎ，…，ｘｉＮ）を生成する。ここで、Ｎは映像センサＣの数を表し、図１０に示す例では、Ｎ＝２である。

図１０には、人物映像ベクトルとして、例えばＨｂ（１１，１２）、Ｈｂ（１１，２２）、Ｈｂ（１１，ｎｄ）等が生成されることが示されている。また、ピクセル位置ベクトルとして、各人物映像ベクトルに対応して、例えばｘｂ（ｘ１１，ｘ１２）、ｘｂ（ｘ１１，ｘ２２）、ｘｂ（ｘ１１，ｘｎｄ）等が生成されることが示されている。なお、図１０に示す例において、人物映像ベクトルの成分のｎｄと、ピクセル位置ベクトルの成分のｘｎｄとは、いずれもｎｕｌｌを意味する。

次に、識別部１５ｃは、記憶部１４の訓練データ１４ａを参照し、訓練データ１４ａのピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２）に類似するピクセル位置ベクトルＸｂを同一人物のピクセル位置ベクトルと識別する。すなわち、識別部１５ｃは、訓練データ１４ａのピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２）の各成分の近傍のピクセル位置を成分とするピクセル位置ベクトルＸｂを、同一人物のピクセル位置の組み合わせと識別する。また、識別部１５ｃは、同一人物のものと識別したピクセル位置ベクトルと対応する人物映像ベクトルとに共通の識別情報を付与する。

図１０に示す例では、例えば、ピクセル位置ベクトルＸｂ（ｘ１１，ｘ２２）が、ある訓練データ＃１のピクセル位置ベクトルの近傍であって、映像１のピクセル位置ｘ１１と映像２のピクセル位置ｘ２２とが同一人物の位置であると識別されている。そして、このピクセル位置ベクトルＸｂ（ｘ１１，ｘ２２）と対応する人物映像ベクトルＨｂ（１１，２２）とに、識別情報として共通人物ＩＤ：１ｃが付与されている。

また、ピクセル位置ベクトルＸｂ（ｘ２１，ｘ１２）が、他の訓練データ＃２の位置ベクトルの近傍であって、映像１のピクセル位置ｘ２１と映像２のピクセル位置ｘ１２とが同一人物の位置であると識別されている。そして、このピクセル位置ベクトルＸｂ（ｘ２１，ｘ１２）と対応する人物映像ベクトルＨｂ（２１，１２）とに共通人物ＩＤ：２ｃが付与されている。

また、ピクセル位置ベクトルＸｂ（ｘｎｄ，ｘ３２）が、他の訓練データ＃３の位置ベクトルの近傍であって、映像２のピクセル位置ｘ３２の人物映像３２の人物が映像１に映っていないことが識別されている。そして、このピクセル位置ベクトルＸｂ（ｘｎｄ，ｘ３２）と対応する人物映像ベクトルＨｂ（ｎｄ，３２）とに共通人物ＩＤ：３ｃが付与されている。

なお、近傍とは、例えば、ピクセル平面上の距離が所定の閾値以下の場合を意味する。この閾値を映像センサＣと人物ｈとの距離に応じて傾斜をつけて設定することにより、さらに識別部１５ｃの処理の精度が向上する。

また、識別部１５ｃは、上記の処理を所定の間隔で連続する時刻ごとに行う。その際、識別部１５ｃは、同一の場所から撮影された映像中の同一の人物の位置の軌跡すなわち移動軌跡の情報と組み合わせることにより、付与した識別情報の人物ごとの監視範囲Ｒでの移動軌跡を抽出する。すなわち、識別情報は、連続する時刻間で共通に付与される。具体的に、ある時刻ｔ０と連続する直後の時刻ｔ１とにおいて、人物映像ベクトルの成分が等しい場合に、同一の人物の識別情報が付与される。

これにより、また、上記のサブセットピクセル位置ベクトルおよびサブセット人物映像ベクトルを用いて、識別部１５ｃは、各種のノイズにより検知されるはずの人物映像ｘｐのピクセル位置ｘｐｎが誤検知されたり検知されなかったりした場合にも、同一人物を識別できる。

ここで、ノイズとして、例えば、明るさや移動速度等の影響により、別の物体が人物として誤検知される場合がある。また、例えば、一部の映像の画角より見切れる人物がいる場合がある。あるいは、人物どうしのすれちがいや柱や設備等の陰になる等、障害物に一時的に隠される場合がある。

これらのノイズにより生じる現象は、次の３つの場合に分類できる。一つ目に、ある時点まで検知されていた人物映像が検知されなくなり映像から消える場合がある。二つ目に、ある時点で人物映像の識別情報が入れ替わる場合がある。三つ目に、ある時点まで検知されなかった人物映像が検知され人物映像が増える場合がある。

これらのノイズによる現象に対する対処について、図１１〜図１３を参照して説明する。図１１〜図１３には、一人の人物を３つの映像センサＣで時刻ｔ０に撮影した３つの映像と、時刻ｔ１に撮影した３つの映像とが例示されている。

まず、図１１は、一つ目の現象に対する対処について説明するための説明図である。図１１には、時刻ｔ０では検知されていた映像２のピクセル位置ｘ２（ｔ０）の人物映像の人物が、時刻ｔ１に検知されない場合が例示されている。

ここで、映像１のピクセル位置ｘ１（ｔ０）の人物映像１（ｔ０）とピクセル位置ｘ１（ｔ１）人物映像１（ｔ１）とは同一人物を表す同一の識別値をもつ。また、映像３のピクセル位置ｘ３（ｔ０）人物映像３（ｔ０）とピクセル位置ｘ３（ｔ１）人物映像３（ｔ１）とは同一人物を表す同一の識別値をもつ。一方、映像２において、ピクセル位置ｘ２（ｔ０）に人物映像２（ｔ０）は存在するものの、この人物の時刻ｔ１における人物映像２（ｔ１）は存在しない。

この場合に、時刻ｔ０のピクセル位置ベクトルＸｂ（ｘ１（ｔ０），ｘ２（ｔ０），ｘ３（ｔ０））の近傍には、訓練データ１４ａ中のピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２，ｘｐ３）が存在する。そこで、識別部１５ｃは、対応する時刻ｔ０の人物映像ベクトルＨｂ（１（ｔ０），２（ｔ０），３（ｔ０））に共通人物ＩＤ：ｉｃを付与する。

一方、時刻ｔ１のピクセル位置ベクトルｘｂ（ｘ１（ｔ１），ｎｕｌｌ，ｘ３（ｔ１））の近傍には、訓練データ１４ａ中のサブセットピクセル位置ベクトルＸｐｓ（ｘｐ１，ｎｕｌｌ，ｘｐ３）が存在する。したがって、対応する時刻ｔ１の人物映像ベクトルＨｂ（１（ｔ１），ｎｕｌｌ，３（ｔ１））に、成分が同一であることから時刻ｔ０の人物映像ベクトルと同一の共通人物ＩＤ：ｉｃが付与される。このようにして、識別部１５ｃは同一人物の移動軌跡を追跡することが可能となる。

図１２は、二つ目の現象に対する対処について説明するための説明図である。図１２には、時刻ｔ０において映像２のピクセル位置ｘ２（ｔ０）で検知された人物映像の人物が、時刻ｔ１には本来のピクセル位置ｘ２’（ｔ１）がピクセル位置ｘ２（ｔ１）と入れ替わった場合が例示されている。例えば、人物どうしまたは人物と物体とが交差して誤検知された場合等が該当する。

ここで、映像１のピクセル位置ｘ１（ｔ０）の人物映像１（ｔ０）とピクセル位置ｘ１（ｔ１）の人物映像１（ｔ１）とは同一人物を表す同一の識別値をもつ。また、映像３のピクセル位置ｘ３（ｔ０）の人物映像３（ｔ０）とピクセル位置ｘ３（ｔ１）の人物映像３（ｔ１）とは同一人物を表す同一の識別値をもつ。一方、映像２において、時刻ｔ０にはピクセル位置ｘ２（ｔ０）に人物映像２（ｔ０）が存在するが、時刻ｔ１にはこの人物の人物映像２（ｔ１）は存在しない。また、時刻ｔ１にピクセル位置ｘ２’（ｔ１）に人物映像２’（ｔ１）が存在するが、時刻ｔ０にはこの人物の人物映像２’（ｔ０）は存在しない。

この場合に、時刻ｔ０のピクセル位置ベクトルＸｂ（ｘ１（ｔ０），ｘ２（ｔ０），ｘ３（ｔ０））に対しては、近傍の訓練データ１４ａのピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２，ｘｐ３）が存在する。そこで、識別部１５は、対応する時刻ｔ０の人物映像ベクトルＨｂ（１（ｔ０），２（ｔ０），３（ｔ０））に共通人物ＩＤ：ｉｃを付与する。

また、時刻ｔ１のピクセル位置ベクトルＸｂ（ｘ１（ｔ１），ｘ２’（ｔ１），ｘ３（ｔ１））の近傍にも、訓練データ１４ａのピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２，ｘｐ３）が存在する。したがって、対応する時刻ｔ１の人物映像ベクトルＨｂ（１（ｔ１），２’（ｔ１），３（ｔ１））に、成分が同一であることから時刻ｔ０の人物映像ベクトルと同一の共通人物ＩＤ：ｉｃが付与される。このようにして、識別部１５ｃは同一人物の移動軌跡を追跡することが可能となる。

図１３は、三つ目の現象に対する対処について説明するための説明図である。図１３には、時刻ｔ０に映像２で検知されていない人物が、時刻ｔ１にピクセル位置ｘ２（ｔ１）の人物映像として検知された場合が例示されている。

ここで、映像１のピクセル位置ｘ１（ｔ０）の人物映像１（ｔ０）とピクセル位置ｘ１（ｔ１）の人物映像１（ｔ１）とは同一人物を表す同一の識別値をもつ。また、映像３のピクセル位置ｘ３（ｔ０）の人物映像３（ｔ０）とピクセル位置ｘ３（ｔ１）の人物映像３（ｔ１）とは同一人物を表す同一の識別値をもつ。一方、映像２において、ピクセル位置ｘ２（ｔ１）に人物映像２（ｔ１）が存在するが、時刻ｔ０にはこの人物の人物映像２（ｔ０）は存在しない。

この場合に、時刻ｔ０のピクセル位置ベクトルＸｂ（ｘ１（ｔ０），ｎｕｌｌ，ｘ３（ｔ０））の近傍には、訓練データ１４ａのピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２，ｘｐ３）のサブセットピクセル位置ベクトルＸｐｓ（ｘｐ１，ｎｕｌｌ，ｘｐ３）が存在する。そこで、識別部１５ｃは、対応する時刻ｔ０の人物映像ベクトルＨｂ（１（ｔ０），ｎｕｌｌ，３（ｔ０））に共通人物ＩＤ：ｉｃを付与する。

一方、時刻ｔ１のピクセル位置ベクトルＸｂ（ｘ１（ｔ１），ｘ２（ｔ１），ｘ３（ｔ１））の近傍には、訓練データ１４ａのピクセル位置ベクトルＸｐ（ｘｐ１，ｘｐ２，ｘｐ３）が存在する。したがって、対応する時刻ｔ１の人物映像ベクトルＨｂ（１（ｔ１），２（ｔ１），３（ｔ１））に、成分が同一であることから時刻ｔ０の人物映像ベクトルと同一の共通人物ＩＤ：ｉｃが付与される。このようにして、識別部１５ｃは同一人物の移動軌跡を追跡することが可能となる。

なお、識別部１５ｃは、識別した人物の識別情報を出力部１２に出力する。図１４は、出力部１２に出力される画面例を示す図である。識別部１５ｃは、例えば、図１４に例示するように、各映像センサＣによる映像に、識別した人物の位置に重畳してこの人物の識別情報を表示するように制御する。図１４に示す例では、例えば、識別情報として、共通人物ＩＤ：１ｃが付与された人物と２ｃが付与された人物とが、映像１および映像２の双方に表示されている。一方、共通人物ＩＤ：３ｃが付与された人物は映像２にのみ表示されている。このように人物が識別されて表示されることにより、例えば、関係者以外は立ち入り禁止の区域を監視する管理者等の利用者の利便性が向上する。

さらに、識別部１５ｃは、例えば、別途管理されている監視範囲Ｒ内に入ることが可能な人物リスト等を利用することにより、識別した人物を特定することも可能である。

［追跡処理］
次に、図１５を参照して、本実施形態に係る追跡装置１による追跡処理について説明する。図１５は、追跡処理手順を示すフローチャートである。図１５のフローチャートは、例えば、追跡処理の開始を指示する操作入力があったタイミングで開始される。

取得部１５ａが、所定の監視範囲Ｒ内を同一時刻に異なる場所から撮影した複数の映像を取得して、映像中の人物映像を検知してその位置を抽出する（ステップＳ１）。また、訓練部１５ｂが、監視範囲Ｒ内の人物の人物映像のそれぞれの位置の組み合わせを含む訓練データ１４ａを生成し（ステップＳ２）、記憶部１４に格納する。

次に、取得部１５ａが、訓練データ１４ａが生成された後の監視範囲Ｒ内の複数の人物を同一時刻に異なる場所から撮影した複数の映像を取得して、映像中の人物映像を検知して各位置を抽出する（ステップＳ３）。

次に、識別部１５ｃが、取得された複数の映像中の人物の位置の組み合わせのうち、訓練データ１４ａの位置の組み合わせに類似する組み合わせを同一の人物の位置の組み合わせとして識別して、各人物映像に識別情報を付与する（ステップＳ４）。また、識別部１５ｃは、ステップＳ３〜ステップＳ４の処理を所定の間隔で連続する時刻ごとに行う。その際、識別部１５ｃは、同一の場所から撮影された映像中の同一の人物の位置の軌跡すなわち移動軌跡の情報と組み合わせることにより、付与した識別情報の人物ごとの監視範囲Ｒでの移動軌跡を抽出する。これにより、一連の追跡処理が終了する。

以上、説明したように、本実施形態の追跡装置１において、取得部１５ａが、所定の監視範囲Ｒ内を同時に異なる場所から撮影した複数の映像を取得する。また、訓練部１５ｂが、監視範囲Ｒ内の人物を同一時刻に撮影した複数の映像のそれぞれにおける該人物の位置の組み合わせを含む訓練データ１４ａを生成する。また、識別部１５ｃが、訓練データ１４ａが生成された後に取得された複数の映像中の同一時刻における人物の位置の組み合わせのうち、訓練データ１４ａの位置の組み合わせに類似する組み合わせを同一の人物の位置の組み合わせとして識別する。そして、識別部１５ｃが、識別した同一の人物の位置の組み合わせと、同一の場所から連続する異なる時刻に撮影された各映像中の同一の人物の位置の軌跡とを組み合わせて、該人物の監視範囲Ｒでの移動軌跡を抽出する。

これにより、特徴を抽出したり比較したりする処理や、ステレオマッチングが不要となり、人物を識別する処理が簡易になる。また、キャリブレーションが不要となるので、その設定や運用のためのコストが低減して、容易に人物の位置と人物ＩＤとを取得できる。このように、多視点から撮影された映像から簡易に人物を識別して移動軌跡を抽出することができる。

また、訓練部１５ｂは、複数の訓練データ１４ａの各位置の間の位置を組み合わせて訓練データを内挿する。これにより、容易に多数の訓練データ１４ａを生成して、人物の識別の精度を向上させることができる。

また、訓練部１５ｂは、訓練データ１４ａの各位置の一部を削除した訓練データ１４ａを補完する。これにより、例えば、映像中の人物の検知精度の限界や障害物の存在により、一部の映像で人物を検知できなかった場合等にも、ノイズの影響を抑止して人物の追跡を継続することができる。

また、取得部１５ａは、監視範囲Ｒ内の人物を、該人物に対する撮影方向および該人物までの距離が異なる複数の場所から撮影した映像を取得する。これにより、各映像センサＣの撮影範囲が重複する範囲ができ、重複範囲にいる人物を複数の映像センサＣで撮影した複数の映像を取得できる。また、一部の映像センサＣと人物との間に障害物があり映像上で人物の追跡が困難な場合にも、他の映像センサＣが撮影した映像を用いて人物の検知の精度の低下を抑止できる。また、例えば、一部の映像センサＣからの距離が近すぎて映像上でこの人物の移動速度が大きくなり、この人物の映像上での検知精度が低下した場合にも、他の映像センサＣが撮影した映像を用いて人物の識別の精度の低下を抑止できる。反対に、一部の映像センサＣからの距離が遠すぎて映像上での人物の移動速度が小さくなり、この人物の映像上での検知精度が低下した場合にも、他の映像センサＣが撮影した映像を用いて人物の識別の精度の低下を抑止できる。このように、確度高く人物を識別することが可能となる。

また、識別部１５ｃは、識別した人物の識別情報を出力部１２に出力する。例えば、識別した人物の位置に重畳してこの人物の識別情報を表示するように制御する。これにより、例えば、関係者以外は立ち入り禁止の区域を監視する管理者等の利用者の利便性が向上する。

［プログラム］
上記実施形態に係る追跡装置１が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、追跡装置１は、パッケージソフトウェアやオンラインソフトウェアとして上記の追跡処理を実行する追跡プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の追跡プログラムを情報処理装置に実行させることにより、情報処理装置を追跡装置１として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）などの移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistants）などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の追跡処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、追跡装置１は、所定の監視範囲内を撮影した複数の映像を入力とし、識別された人物の位置と識別情報とを出力する追跡処理サービスを提供するサーバ装置として実装される。この場合、追跡装置１は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の追跡処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、追跡装置１と同様の機能を実現する追跡プログラムを実行するコンピュータの一例を説明する。

図１６に示すように、追跡プログラムを実行するコンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。ディスクドライブ１０４１には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１０５１およびキーボード１０５２が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１０６１が接続される。

ここで、図１６に示すように、ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記実施形態で説明した各テーブルは、例えばハードディスクドライブ１０３１やメモリ１０１０に記憶される。

また、追跡プログラムは、例えば、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、ハードディスクドライブ１０３１に記憶される。具体的には、上記実施形態で説明した追跡装置１が実行する各処理が記述されたプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、追跡プログラムによる情報処理に用いられるデータは、プログラムデータ１０９４として、例えば、ハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、ハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、追跡プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、支援プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。

１追跡装置
１１入力部
１２出力部
１３通信制御部
１４記憶部
１４ａ訓練データ
１５制御部
１５ａ取得部
１５ｂ訓練部
１５ｃ識別部
Ｃ映像センサ
Ｒ監視範囲

Claims

所定の監視範囲内を同時に異なる場所から撮影した複数の映像を取得する取得部と、
前記監視範囲内の人物を同一時刻に撮影した前記映像のそれぞれにおける該人物の位置の組み合わせを含む訓練データを生成する訓練部と、
前記訓練データが生成された後に取得された複数の映像中の同一時刻における人物の位置の組み合わせのうち、前記訓練データの位置の組み合わせに類似する組み合わせを同一の人物の位置の組み合わせとして識別し、識別した同一の人物の位置の組み合わせと、同一の場所から連続する異なる時刻に撮影された各映像中の同一の人物の位置の軌跡とを組み合わせて、該人物の前記監視範囲での移動軌跡を抽出する識別部と、
を備えることを特徴とする追跡装置。
前記訓練部は、複数の前記訓練データの各位置の間の位置を組み合わせて訓練データを生成することを特徴とする請求項１に記載の追跡装置。
前記訓練部は、前記訓練データの各位置の一部を削除して訓練データを生成することを特徴とする請求項１または２に記載の追跡装置。
前記取得部は、前記監視範囲内の人物を、該人物に対する撮影方向および該人物までの距離が異なる複数の場所から撮影した映像を取得することを特徴とする請求項１〜３のいずれか１項に記載の追跡装置。
さらに、前記識別部が識別した人物を識別する情報を提示する出力部を備えることを特徴とする請求項１〜４のいずれか１項に記載の追跡装置。
追跡装置で実行される追跡方法であって、
所定の監視範囲内を同時に異なる場所から撮影した複数の映像を取得する取得工程と、
前記監視範囲内の人物を同一時刻に撮影した前記映像のそれぞれにおける該人物の位置の組み合わせを含む訓練データを生成する訓練工程と、
前記訓練データが生成された後に取得された複数の映像中の同一時刻における人物の位置の組み合わせのうち、前記訓練データの位置の組み合わせに類似する組み合わせを同一の人物の位置の組み合わせとして識別し、識別した同一の人物の位置の組み合わせと、同一の場所から連続する異なる時刻に撮影された各映像中の同一の人物の位置の軌跡とを組み合わせて、該人物の前記監視範囲での移動軌跡を抽出する識別工程と、
を含んだことを特徴とする追跡方法。