JP5988894B2

JP5988894B2 - 被写体照合装置、被写体照合方法、およびプログラム

Info

Publication number: JP5988894B2
Application number: JP2013035411A
Authority: JP
Inventors: 山田　健太郎; 健太郎山田; 内藤　整; 整内藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2013-02-26
Filing date: 2013-02-26
Publication date: 2016-09-07
Anticipated expiration: 2033-02-26
Also published as: JP2014164549A

Description

本発明は、映像内の被写体の照合を行う被写体照合装置、被写体照合方法、およびプログラムに関する。

従来、被写体の照合を行う技術が提案されている（例えば、非特許文献１参照）。非特許文献１には、色や模様などの画像特徴情報を用いて、撮影角度などの異なる複数の画像の中から同一の被写体を照合する技術が示されている。

このような被写体を照合する技術は、例えば、被写体を追跡する際に用いることができる。カメラ視野内に存在する被写体を時系列的に追跡することで、例えば、社内での従業員の移動履歴の記録および管理や、店舗内での顧客動線の把握によるマーケティング分析などに、応用することができる。

例えば特許文献１には、画像情報を用いて被写体を追跡する技術が示されている。この技術によれば、被写体がカメラ視野内に現れてから消失するまでの間、被写体を追跡できる。また、図７に示すように、カメラ視野内に存在していた被写体が障害物の陰に隠れてしまうことによって、被写体が一時的に消失してしまっても、障害物の陰に隠れて消失するよりも前の追跡情報と、障害物の陰から出現した後の追跡情報と、を同一の被写体の情報として対応付けることもできる。

特許第５０１２５８９号公報

M. Farenzena, L. Bazzani, A. Perina, V. Murino and M. Cristani: "Person Re-Identification by SymmetryDriven Accumulation of Local Features", Proc. Of CVPR, pp.2360-2367 (2010). 島田，有田，谷口， "適応的な分布数の増減法を利用した混合ガウス分布による高速な動的背景モデル構築，" 電子情報通信学会論文誌Vol.J90-D, No.9, pp.2606-2614, 2007. M. Isard, and A. Blake, "CONDENSATION-Conditional Density Propagation for Visual Tracking," International Journal of Computer Vision, 29, 1, pp.5-28, 1998. 井尻，村瀬： "実用化に向けた顔画像処理", 信学技報(PRMU), pp.205-210 (2010). Y. Ijiri, S. Lao, T. X. Han and H. Murase: "Efficient facial attribute recognition with a spatial codebook", ICPR, pp.1461-1464 (2010). H. Murase and R. Sakai: "Moving object recognition in eigenspace representation: gait analysis and lip reading", Pattern Recognition Lettetters, 17, pp.155-162 (1996).

しかし、特許文献１に示されている技術では、図８に示すように、カメラ視野内に存在していた被写体がカメラ視野外に移動した後にカメラ視野内に戻ってきたことによって、被写体がカメラ視野内から一時的に消失してしまうと、カメラ視野外に移動するよりも前の追跡情報と、カメラ視野内に戻ってきた後の追跡情報と、を同一の被写体の情報として対応付けることはできなかった。

そこで、特許文献１に示されている技術に、非特許文献１に示されている技術を組み合わせることが考えられる。これら技術を組み合わせることができれば、上述のように被写体がカメラ視野内から一時的に消失してしまっても、被写体の画像特徴情報を用いることによって、カメラ視野外に移動するよりも前の追跡情報と、カメラ視野内に戻ってきた後の追跡情報と、を同一の被写体の情報として対応付けることができる。しかし、非特許文献１に示されている技術では、被写体の画像特徴情報を、全ての画像について記憶しておく必要がある。このため、上述の２つの技術を組み合わせると、映像の撮影時間が長くなるに従って、記憶しておく被写体の画像特徴情報が増加し、照合する対象の数が増加してしまう。したがって、被写体の照合精度が低下してしまうおそれがあった。

そこで、本発明は、上述の課題に鑑みてなされたものであり、被写体がカメラ視野内から一時的に消失しても、被写体の照合を高精度に行うことを目的とする。

本発明は、上記の課題を解決するために、以下の事項を提案している。
（１）本発明は、映像内の被写体の照合を行う被写体照合装置（例えば、図１の被写体照合装置１に相当）であって、前記映像内に出現した被写体と、当該被写体が出現したタイミングよりも前に当該映像内から消失した被写体と、の仮対応を設定する仮対応設定手段（例えば、図１の仮対応設定部１６に相当）と、前記仮対応設定手段により設定された仮対応を、前記映像内の被写体の位置情報を用いて複数のクラス（例えば、後述のＬ個のクラスに相当）に分類する仮対応分類手段（例えば、図１の仮対応分類部１７に相当）と、前記仮対応分類手段による分類結果に基づいて、前記出現した被写体と、前記消失した被写体と、の照合を行う照合手段（例えば、図１の照合部１８に相当）と、を備えることを特徴とする被写体照合装置を提案している。

ここで、通路や道路があったり、ドアやゲートといった出入り口があったりすると、被写体が映像内に出現する位置や、被写体が映像内から消失する位置は、特定の位置に集まる傾向にある。このため、この特定の位置に出現した被写体や、この特定の位置から消失した被写体に注目することで、照合する対象の数を絞ることができる。

そこで、この発明によれば、映像内に出現した被写体と、この被写体が出現したタイミングよりも前にこの映像内から消失した被写体と、の仮対応を設定し、設定した仮対応について、この映像内の被写体の位置情報を用いて複数のクラスに分類し、分類結果に基づいてこれら被写体の照合を行うこととした。このため、被写体の照合に、映像内の被写体の位置情報を用いることができ、照合する対象の数を絞ることができる。したがって、図７に示したように被写体が障害物の陰に隠れてしまったり、図８に示したように被写体がカメラ視野外に移動してしまったりして、被写体がカメラ視野内から一時的に消失しても、被写体の照合を高精度に行うことができる。

また、この発明によれば、映像内の被写体の位置情報を、この映像から取得することによって、上述の特定の位置を自動的に推定して、被写体の照合に用いることができる。このため、上述の特定の位置をユーザが予め用意する必要がないため、上述の特定の位置をユーザが予め用意しなくてはならない場合と比べて、ユーザビリティを向上させることができる。

（２）本発明は、（１）の被写体照合装置について、前記仮対応分類手段は、前記映像内に被写体が出現した位置の位置情報と、当該被写体が出現したタイミングよりも前に当該映像内から被写体が消失した位置の位置情報と、を用いて、前記仮対応設定手段により設定された仮対応を前記複数のクラスに分類することを特徴とする被写体照合装置を提案している。

この発明によれば、（１）の被写体照合装置において、映像内に被写体が出現した位置の位置情報と、この被写体が出現したタイミングよりも前にこの映像内から被写体が消失した位置の位置情報と、を用いて、仮対応を複数のクラスに分類することとした。このため、被写体の照合に、上述の特定の位置を用いることができ、上述した効果と同様の効果を奏することができる。

（３）本発明は、（１）または（２）の被写体照合装置について、前記仮対応分類手段は、被写体が前記映像内から消失してから、当該映像内に被写体が出現するまでの時間（例えば、後述の時間ｔ^ｉｊに相当）を用いて、前記仮対応設定手段により設定された仮対応を前記複数のクラスに分類することを特徴とする被写体照合装置を提案している。

ここで、図７に示したように被写体が障害物の陰に隠れてしまう場合、この被写体が一定の速度で移動していれば、この被写体が障害物の陰に隠れている時間は、略一定である。また、図８に示したように、被写体がカメラ視野内から消失した位置と、この被写体がカメラ視野内に戻ってきた位置と、の間に通路や道路がある場合にも、この被写体が一定の速度で移動していれば、この被写体がカメラ視野内から消失している時間は、略一定である。

そこで、この発明によれば、（１）または（２）の被写体照合装置において、被写体が映像内から消失してから、この映像内に被写体が出現するまでの時間を用いて、仮対応を複数のクラスに分類することとした。このため、被写体の照合に、被写体が障害物の陰に隠れている時間や、被写体がカメラ視野内から消失している時間を用い、照合する対象の数をさらに絞って、被写体がカメラ視野内から一時的に消失しても、被写体の照合をより高精度に行うことができる場合がある。

（４）本発明は、（１）から（３）のいずれかの被写体照合装置について、前記照合手段は、前記仮対応設定手段により設定された仮対応について、画像特徴情報（例えば、後述の被写体の色情報や、被写体の模様情報に相当）による被写体の画像間の距離の逆数と、当該仮対応が分類されたクラスに属する仮対応の数と、を乗算し、前記出現した被写体に対して、当該被写体が出現したタイミングよりも前に当該映像内から消失した被写体のうち、当該出現した被写体との前記乗算結果（例えば、後述の照合スコアに相当）が最大であるものを、対応付けることを特徴とする被写体照合装置を提案している。

この発明によれば、（１）から（３）のいずれかの被写体照合装置において、設定された仮設定について、画像特徴情報による被写体の画像間の距離の逆数と、この仮対応が分類されたクラスに属する仮対応の数と、を乗算することとした。さらに、出現した被写体に対して、この被写体が出現したタイミングよりも前にこの映像内から消失した被写体のうち、出現した被写体との上述の乗算結果が最大であるものを、対応付けることとした。このため、被写体の出現した位置と消失した位置とが近かったり、出現した位置や消失した位置が同じである被写体の数が多かったりするほど、これら出現した被写体と消失した被写体とを同一の被写体として対応付けることができる。

（５）本発明は、（１）から（４）のいずれかの被写体照合装置について、前記仮対応分類手段は、前記複数のクラスのそれぞれについて、当該クラスに属する仮対応の数が閾値以上であれば正対応クラスに分類し、当該クラスに属する仮対応の数が当該閾値未満であれば誤対応クラスに分類することを特徴とする被写体照合装置を提案している。

この発明によれば、（１）から（４）のいずれかの被写体照合装置において、仮対応を分類した複数のクラスのそれぞれについて、そのクラスに属する仮対応の数が閾値以上であれば正対応クラスに分類し、そのクラスに属する仮対応の数が閾値未満であれば誤対応クラスに分類することとした。このため、誤対応クラスに属するクラスに分類された仮対応については、被写体が出現したり消失したりした位置が上述の特定の位置ではないとして、照合する対象から外し、照合する対象の数をさらに絞ることができる。したがって、被写体がカメラ視野内から一時的に消失しても、被写体の照合をより高精度に行うことができる。

（６）本発明は、（１）から（５）のいずれかの被写体照合装置について、前記仮対応設定手段は、被写体の画像特徴情報を用いて仮対応を設定することを特徴とする被写体照合装置を提案している。

この発明によれば、（１）から（５）のいずれかの被写体照合装置において、仮対応の設定を、被写体の画像特徴情報を用いて行うこととした。このため、被写体の色情報や、被写体の模様情報などを用いて、仮対応を設定することができる。

（７）本発明は、仮対応設定手段（例えば、図１の仮対応設定部１６に相当）、仮対応分類手段（例えば、図１の仮対応分類部１７に相当）、および照合手段（例えば、図１の照合部１８に相当）を備え、映像内の被写体の照合を行う被写体照合装置（例えば、図１の被写体照合装置１に相当）における被写体照合方法であって、前記仮対応設定手段が、前記映像内に出現した被写体と、当該被写体が出現したタイミングよりも前に当該映像内から消失した被写体と、の仮対応を設定する第１のステップ（例えば、図２のステップＳ８の処理に相当）と、前記仮対応分類手段が、前記仮対応設定手段により設定された仮対応を、前記映像内の被写体の位置情報を用いて複数のクラス（例えば、後述のＬ個のクラスに相当）に分類する第２のステップ（例えば、図２のステップＳ９の処理に相当）と、前記照合手段が、前記仮対応分類手段による分類結果に基づいて、前記出現した被写体と、前記消失した被写体と、の照合を行う第３のステップ（例えば、図２のステップＳ１０の処理に相当）と、を備えることを特徴とする被写体照合方法を提案している。

この発明によれば、映像内に出現した被写体と、この被写体が出現したタイミングよりも前にこの映像内から消失した被写体と、の仮対応を設定し、設定した仮対応について、この映像内の被写体の位置情報を用いて複数のクラスに分類し、分類結果に基づいてこれら被写体の照合を行うこととした。このため、上述した効果と同様の効果を奏することができる。

（８）本発明は、仮対応設定手段（例えば、図１の仮対応設定部１６に相当）、仮対応分類手段（例えば、図１の仮対応分類部１７に相当）、および照合手段（例えば、図１の照合部１８に相当）を備え、映像内の被写体の照合を行う被写体照合装置（例えば、図１の被写体照合装置１に相当）における被写体照合方法を、コンピュータに実行させるためのプログラムであって、前記仮対応設定手段が、前記映像内に出現した被写体と、当該被写体が出現したタイミングよりも前に当該映像内から消失した被写体と、の仮対応を設定する第１のステップ（例えば、図２のステップＳ８の処理に相当）と、前記仮対応分類手段が、前記仮対応設定手段により設定された仮対応を、前記映像内の被写体の位置情報を用いて複数のクラス（例えば、後述のＬ個のクラスに相当）に分類する第２のステップ（例えば、図２のステップＳ９の処理に相当）と、前記照合手段が、前記仮対応分類手段による分類結果に基づいて、前記出現した被写体と、前記消失した被写体と、の照合を行う第３のステップ（例えば、図２のステップＳ１０の処理に相当）と、をコンピュータに実行させるためのプログラムを提案している。

この発明によれば、コンピュータを用いてプログラムを実行することで、映像内に出現した被写体と、この被写体が出現したタイミングよりも前にこの映像内から消失した被写体と、の仮対応を設定し、設定した仮対応について、この映像内の被写体の位置情報を用いて複数のクラスに分類し、分類結果に基づいてこれら被写体の照合を行うこととした。このため、上述した効果と同様の効果を奏することができる。

本発明によれば、被写体がカメラ視野内から一時的に消失しても、被写体の照合を高精度に行うことができる。

本発明の第１実施形態に係る被写体照合装置のブロック図である。前記実施形態に係る被写体照合装置が行う被写体照合処理のフローチャートである。前記実施形態に係る被写体照合装置が行う仮対応分類処理のフローチャートである。前記実施形態に係る被写体照合装置が行う被写体照合処理のフローチャートである。本発明の第２実施形態に係る被写体照合装置のブロック図である。前記実施形態に係る被写体照合装置が行う被写体照合処理のフローチャートである。被写体が障害物の陰に隠れる場合について説明するための図である。被写体がカメラ視野内から一時的に消失する場合について説明するための図である。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の実施形態における構成要素は適宜、既存の構成要素などとの置き換えが可能であり、また、他の既存の構成要素との組み合せを含む様々なバリエーションが可能である。したがって、以下の実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。

＜第１実施形態＞
［被写体照合装置１の構成および動作］
図１は、本発明の第１実施形態に係る被写体照合装置１のブロック図である。被写体照合装置１は、１台のカメラで撮影中の映像について、被写体の照合をリアルタイムに行う。この被写体照合装置１は、被写体検出部１１、被写体追跡部１２、被写体追跡情報記憶部１３、画像特徴情報抽出部１４、画像特徴情報記憶部１５、仮対応設定部１６、仮対応分類部１７、および照合部１８を備える。

なお、被写体としては、人物、自動車や自転車といった乗り物、動物などを対象とすることができるが、本実施形態では、人物を対象としているものとする。

また、映像を撮影するカメラは、予め定められた期間に亘って連続して、カメラ視野内を撮影するものとする。

被写体検出部１１は、上述のカメラで撮影された映像の入力を受け付け、この映像を構成する各フレーム画像から、被写体の画像を検出する。各フレーム画像から被写体の画像を検出する際には、例えば非特許文献２に示されている背景差分による方法を、適用できる。

被写体追跡部１２は、被写体検出部１１により検出された被写体の画像の座標上の位置を、時系列的に追跡する。座標上の位置としては、例えば、フレーム画像中における座標位置を用いることもできるし、カメラ視野内の３次元空間中の特定の平面（例えば、床平面など）上の座標位置を用いることもできる。また、被写体の追跡には、例えば非特許文献３に示されているパーティクルフィルタを用いる方法を、適用できる。

なお、座標上の位置として、カメラ視野内の３次元空間中の特定の平面上の座標位置を用いる場合には、この３次元空間中の特定の平面の座標と、フレーム画像の座標と、の間で成立する平面射影行列を求める必要がある。この平面射影行列は、３次元空間中の特定の平面上の４点以上の点と、これら４点以上の点のそれぞれが１枚のフレーム画像中において対応する点と、を用いて求めることができる。

また、被写体追跡部１２は、被写体検出部１１により画像が検出された被写体の中に、新たに出現または消失した被写体があるかを検出する。被写体の出現とは、直前のフレーム画像では被写体検出部１１により画像が検出されなかった被写体について、現在のフレーム画像では被写体検出部１１により画像が検出されるようになった場合のことである。また、被写体の消失とは、直前のフレーム画像では被写体検出部１１により画像が検出されていた被写体について、現在のフレーム画像では被写体検出部１１により画像が検出されなくなった場合のことである。

被写体追跡情報記憶部１３は、被写体追跡部１２により追跡された被写体の追跡情報を記憶する。被写体の追跡情報とは、被写体の識別番号、フレーム画像ごとの被写体の画像、フレーム画像ごとの被写体の位置情報、被写体が出現した位置および時間の情報、被写体が消失した位置および時間の情報などのことである。この被写体追跡情報記憶部１３は、例えば、ＤＲＡＭやＳＲＡＭといった揮発性のメモリ、ＥＰＲＯＭやフラッシュメモリといった不揮発性のメモリ、ハードディスクといった磁気ディスクなどで構成される。

画像特徴情報抽出部１４は、被写体追跡部１２により新たに出現が検出された被写体の画像特徴情報を、この被写体の出現が検出されたフレーム画像から抽出する。被写体の画像特徴情報とは、被写体の色情報や、被写体の模様情報などのことである。被写体の色情報については、例えば非特許文献１に示されているＨＳＶヒストグラムおよびMaximally Stable Color Region（ＭＳＣＲ）を用いて、抽出できる。また、被写体の模様情報については、例えば非特許文献１に示されているRecurrent Hight-Structured Patches（ＲＨＳＰ）を用いて、抽出できる。非特許文献１には、被写体として人物を対象とし、人物の対称な軸（左右）および非対称な軸（上下）により人物領域を分割し、分割した各領域において被写体の画像特徴情報を抽出することが示されている。

画像特徴情報記憶部１５は、画像特徴情報抽出部１４により抽出された被写体の画像特徴情報を記憶する。この画像特徴情報記憶部１５は、例えば、ＤＲＡＭやＳＲＡＭといった揮発性のメモリ、ＥＰＲＯＭやフラッシュメモリといった不揮発性のメモリ、ハードディスクといった磁気ディスクなどで構成される。

仮対応設定部１６は、被写体追跡情報記憶部１３に記憶されている被写体の追跡情報と、画像特徴情報記憶部１５に記憶されている被写体の画像特徴情報と、を用いて、出現した被写体と、この被写体が出現したタイミングよりも前に消失した被写体と、について仮対応を設定する。これによれば、出現した被写体と、この被写体が出現したタイミングよりも前に消失した被写体のうち出現した被写体と同一である可能性のあるものと、が対応付けられることになる。このため、出現した１つの被写体について仮対応を設定すると、消失した被写体が１つも対応付けられない場合と、消失した被写体が１つだけ対応付けられる場合と、消失した被写体が複数対応付けられる場合と、が起こり得る。

具体的には、仮対応設定部１６は、出現した被写体について、この被写体が出現したタイミングよりも前に消失した被写体のうち、画像間の距離が予め定められた閾値以下であるものと、仮対応を設定する。１つの出現した被写体について、この被写体が出現したタイミングよりも前に消失した被写体の中に、画像間の距離が閾値以下であるものが複数存在する場合には、これら複数の消失した被写体の全てと、仮対応を設定する。

なお、上述の仮対応の設定は、出現した被写体と、この被写体が出現したタイミングよりも前に消失した被写体と、の画像間の距離を用いて行われる。画像間の距離を求めるための距離指標としては、例えば、画像特徴情報の種類に応じて、ユークリッド距離、正規化相関、ヒストグラム間重なり、Bhattacharyya距離などを用いることができる。例えば非特許文献１では、ＨＳＶヒストグラムおよびＲＨＳＰにおいてはBhattacharyya距離を距離指標として用い、ＭＳＣＲにおいてはユークリッド距離を距離指標として用いた上で、上述の３つの画像特徴情報の距離を重み付けして足し合わせたものを、画像間の距離としている。

仮対応分類部１７は、仮対応設定部１６により設定された仮対応を、Ｌ個のクラスに分類するとともに、これらＬ個のクラスのそれぞれを、正対応クラスと誤対応クラスとに分類する。

ここで、被写体ｉが消失した位置の座標を（ｘ^Ｂ、ｙ^Ｂ）とし、被写体ｊが出現した位置の座標を（ｘ^Ｅ、ｙ^Ｅ）とすると、消失した被写体ｉと出現した被写体ｊとの仮対応ベクトルＶ^ｉｊは、以下の数式（１）に示す４次元ベクトルで表すことができる。

すると、仮対応分類部１７は、具体的には、まず、例えばｋ近傍法によりクラスタリングを行って、全ての仮対応ベクトルＶ^ｉｊをＬ個のクラスに分ける。次に、各クラスに属する仮対応ベクトルＶ^ｉｊの数を求め、求めた数が予め定められた閾値以上であるクラスを正対応クラスとし、求めた数が閾値未満であるクラスを誤対応クラスとする。

なお、被写体ｉが消失してから被写体ｊが出現するための時間ｔ^ｉｊも得られる場合には、消失した被写体ｉと出現した被写体ｊとの仮対応ベクトルＶ^ｉｊは、以下の数式（２）に示す５次元ベクトルで表すことができる。

消失した被写体が再び出現するまでの時間が、被写体によらずほぼ一定である場合には、上述の４次元ベクトル空間の代わりに上述の５次元ベクトル空間を用いると、仮対応の分類を高精度に行うことができる。しかし、消失した被写体が再び出現するまでの時間が、被写体によって大きく異なる場合には、上述の５次元ベクトル空間ではなく上述の４次元ベクトル空間を用いた方が、仮対応の分類を高精度に行うことができる場合もある。

照合部１８は、被写体追跡情報記憶部１３に記憶されている被写体の追跡情報と、仮対応分類部１７による分類結果と、を用いて、被写体の照合を行う。具体的には、まず、仮対応設定部１６により設定された仮対応のうち正対応クラスに属するものについて、画像特徴情報による被写体の画像間の距離の逆数と、上述のＬ個のクラスのうちその仮対応が分類されたクラスに属する仮対応の数と、を乗算したものを、その仮対応の照合スコアとする。次に、出現した被写体ｊに対して、この被写体が出現したタイミングよりも前に消失した被写体ｉのうち、被写体ｊとの上述の照合スコアが最大になるものを、対応付ける。次に、対応付けた２つの被写体を紐付けて、被写体追跡情報記憶部１３に記憶させる。

以上の構成を備える被写体照合装置１は、図２を用いて後述する被写体照合処理を行って、１台のカメラで撮影中の映像について、被写体の照合をリアルタイムで行う。

図２は、被写体照合装置１が行う被写体照合処理のフローチャートである。

ステップＳ１において、被写体照合装置１は、被写体検出部１１により、カメラで撮影された映像を構成するフレーム画像の入力を、フレームが更新されるたびにリアルタイムで受け付け、ステップＳ２に処理を移す。

ステップＳ２において、被写体照合装置１は、被写体検出部１１により、ステップＳ１において入力を受け付けた現在のフレームのフレーム画像から、被写体の画像を検出し、ステップＳ３に処理を移す。

ステップＳ３において、被写体照合装置１は、被写体検出部１１により、ステップＳ２において被写体の画像を１つ以上検出できたか否かを判別する。被写体の画像を１つ以上検出できたと判別した場合には、ステップＳ４に処理を移し、被写体の画像を１つも検出できなかったと判別した場合には、ステップＳ１に処理を戻す。

ステップＳ４において、被写体照合装置１は、被写体追跡部１２により、ステップＳ２において検出した各被写体の画像の座標上の位置を、時系列的に追跡し、ステップＳ５に処理を移す。

ステップＳ５において、被写体照合装置１は、被写体追跡部１２により、ステップＳ２において検出した被写体の中に、新たに出現または消失した被写体があるかを検出するとともに、被写体追跡情報記憶部１３により、ステップＳ４において追跡した被写体の追跡情報を記憶し、ステップＳ６に処理を移す。

ステップＳ６において、被写体照合装置１は、被写体追跡部１２により、ステップＳ５において新たに出現した被写体を検出できたか否かを判別する。検出できたと判別した場合には、ステップＳ７に処理を移し、検出できなかったと判別した場合には、ステップＳ１に処理を戻す。

ステップＳ７において、被写体照合装置１は、画像特徴情報抽出部１４により、ステップＳ５において新たに出現を検出できた被写体の画像特徴情報を、ステップＳ１において入力を受け付けた現在のフレームのフレーム画像から抽出するとともに、画像特徴情報記憶部１５により、抽出した被写体の画像特徴情報を記憶し、ステップＳ８に処理を移す。

ステップＳ８において、被写体照合装置１は、仮対応設定部１６により、ステップＳ５においてそれまでに記憶した被写体の追跡情報と、ステップＳ７においてそれまでに記憶した被写体の画像特徴情報と、を用いて、現在のフレームにおいて出現した被写体と、現在のフレームよりも前のフレームにおいて消失した被写体と、について仮対応を設定し、ステップＳ９に処理を移す。

ステップＳ９において、被写体照合装置１は、仮対応分類部１７により、仮対応分類処理を行って、ステップＳ８において現在のフレームで新たに設定した仮対応を、Ｌ個のクラスのうちいずれかに分類するとともに、これらＬ個のクラスのそれぞれを正対応クラスと誤対応クラスとに分類し、ステップＳ１０に処理を移す。被写体照合装置１が行う仮対応分類処理の詳細については、図３を用いて後述する。

ステップＳ１０において、被写体照合装置１は、照合部１８により、被写体照合処理を行って、現在のフレームにおいて出現した被写体について照合を行うとともに、被写体追跡情報記憶部１３により、照合結果を被写体の追跡情報として記憶し、ステップＳ１に処理を戻す。

図３は、被写体照合装置１が行う仮対応分類処理のフローチャートである。

ステップＳ２１において、被写体照合装置１は、仮対応分類部１７により、ステップＳ８において現在のフレームで新たに設定した仮対応について、クラスタリングによりＬ個のクラスのうちのいずれかに分類して、ステップＳ２２に処理を移す。

ステップＳ２２において、被写体照合装置１は、仮対応分類部１７により、Ｌ個のクラスのそれぞれに属する仮対応の数を求め、ステップＳ２３に処理を移す。

ステップＳ２３において、被写体照合装置１は、仮対応分類部１７により、ステップＳ２２において求めたＬ個のクラスのそれぞれに属する仮対応の数に基づいて、各クラスを正対応クラスと誤対応クラスとに分類し、図３に示した仮対応分類処理を終了する。

図４は、被写体照合装置１が行う被写体照合処理のフローチャートである。

ステップＳ３１において、被写体照合装置１は、照合部１８により、ステップＳ２３において正対応クラスに分類したクラスに属する仮対応を抽出し、ステップＳ３２に処理を移す。

ステップＳ３２において、被写体照合装置１は、照合部１８により、ステップＳ３１において抽出した仮対応のそれぞれについて、照合スコアを算出し、ステップＳ３３に処理を移す。

ステップＳ３３において、被写体照合装置１は、まず、照合部１８により、現在のフレームにおいて出現した被写体について、現在のフレームよりも前のフレームにおいて消失した被写体のうち、現在のフレームにおいて出現した被写体との照合スコアが最大になるものを、選択する。次に、被写体追跡情報記憶部１３により、これら出現した被写体と選択した消失した被写体とを、同一の被写体であるとして対応付けて記憶し、図４に示した被写体照合処理を終了する。

以上の被写体照合装置１によれば、以下の効果を奏することができる。

被写体照合装置１は、被写体の照合に、映像内に被写体が出現した位置と、この被写体が出現したタイミングよりも前にこの映像内から被写体が消失した位置と、を用いる。このため、照合する対象の数を絞ることができるので、図７に示したように被写体が障害物の陰に隠れてしまったり、図８に示したように被写体がカメラ視野外に移動してしまったりして、被写体がカメラ視野内から一時的に消失しても、被写体の照合を高精度に行うことができる。

また、被写体照合装置１は、被写体検出部１１で入力を受け付けた映像から、被写体が出現した位置の情報と、被写体が消失した位置の情報と、を取得して、上述の特定の位置を自動的に推定して、被写体の照合に用いることができる。このため、上述の特定の位置をユーザが予め用意する必要がないため、上述の特定の位置をユーザが予め用意しなくてはならない場合と比べて、ユーザビリティを向上させることができる。

また、被写体照合装置１は、設定した仮対応をＬ個のクラスに分類する際に、被写体が映像内から消失してから、この映像内に被写体が出現するまでの時間ｔ^ｉｊを用いることもできる。このため、被写体の照合に、被写体が障害物の陰に隠れている時間や、被写体がカメラ視野内から消失している時間を用い、照合する対象の数をさらに絞って、被写体がカメラ視野内から一時的に消失しても、被写体の照合をより高精度に行うことができる場合がある。

また、被写体照合装置１は、設定した仮対応について、画像特徴情報による被写体の画像間の距離の逆数と、この仮対応が分類されたクラスに属する仮対応の数と、を乗算する。さらに、出現した被写体に対して、この被写体が出現したタイミングよりも前にこの映像内から消失した被写体のうち、出現した被写体との上述の乗算結果（照合スコア）が最大であるものを、対応付ける。このため、被写体の出現した位置と消失した位置とが近かったり、出現した位置や消失した位置が同じである被写体の数が多かったりするほど、これら出現した被写体と消失した被写体とを同一の被写体として対応付けることができる。

また、被写体照合装置１は、Ｌ個のクラスのそれぞれについて、そのクラスに属する仮対応の数が閾値以上であれば正対応クラスに分類し、そのクラスに属する仮対応の数が閾値未満であれば誤対応クラスに分類する。このため、誤対応クラスに属するクラスに分類された仮対応については、被写体が出現したり消失したりした位置が上述の特定の位置ではないとして、照合する対象から外し、照合する対象の数をさらに絞ることができる。したがって、被写体がカメラ視野内から一時的に消失しても、被写体の照合をより高精度に行うことができる。

＜第２実施形態＞
［被写体照合装置１Ａの構成および動作］
図５は、本発明の第２実施形態に係る被写体照合装置１Ａのブロック図である。被写体照合装置１Ａは、１台のカメラで撮影が既に完了している映像について、被写体の照合を１度で行う。この被写体照合装置１Ａは、図１に示した本発明の第１実施形態に係る被写体照合装置１とは、制御部１９を備える点が異なる。なお、被写体照合装置１Ａにおいて、被写体照合装置１と同一構成要件については、同一符号を付し、その説明を省略する。

制御部１９は、被写体検出部１１、被写体追跡部１２、被写体追跡情報記憶部１３、画像特徴情報抽出部１４、画像特徴情報記憶部１５、および仮対応設定部１６を制御して、１台のカメラで撮影が既に完了している映像を構成する全てのフレーム画像において、仮対応の設定を完了するまで、フレーム画像ごとに仮対応を設定するための処理を繰り返す。また、制御部１９は、仮対応分類部１７および照合部１８を制御して、１台のカメラで撮影が既に完了している映像を構成する全てのフレーム画像において仮設定の設定が完了した後に、１度で、仮対応の分類および被写体の照合を行う。

図６は、被写体照合装置１Ａが行う被写体照合処理のフローチャートである。

ステップＳ５１において、被写体照合装置１Ａは、被写体検出部１１により、上述のカメラで撮影が既に完了している映像の入力を受け付け、この映像を構成する複数のフレーム画像のうち現在のフレームのフレーム画像を選択し、ステップＳ２に処理を移す。

ステップＳ５２からステップＳ５８のそれぞれでは、被写体照合装置１Ａは、被写体照合装置１が行うステップＳ２からステップＳ８のそれぞれと同様の処理を行う。また、ステップＳ６０およびステップＳ６１のそれぞれでは、被写体照合装置１Ａは、被写体照合装置１が行うステップＳ９およびステップＳ１０のそれぞれと同様の処理を行う。

ステップＳ５９において、制御部１９は、１台のカメラで撮影が既に完了している映像を構成する全てのフレーム画像において、ステップＳ５８における仮対応の設定を完了したか否かを判別する。完了したと判別した場合には、ステップＳ６０に処理を移し、完了していないと判別した場合には、処理対象フレームを次のフレームに更新して、ステップＳ５１に処理を戻す。

以上の被写体照合装置１Ａによれば、被写体照合装置１がリアルタイムで行う被写体の照合を、１台のカメラで撮影が既に完了している映像を構成する全てのフレーム画像において仮設定の設定が完了した後に、１度で行うことができる。

なお、本発明の被写体照合装置１や被写体照合装置１Ａの処理を、コンピュータ読み取り可能な非一時的な記録媒体に記録し、この記録媒体に記録されたプログラムを被写体照合装置１や被写体照合装置１Ａに読み込ませ、実行することによって、本発明を実現できる。

ここで、上述の記録媒体には、例えば、ＥＰＲＯＭやフラッシュメモリといった不揮発性のメモリ、ハードディスクといった磁気ディスク、ＣＤ−ＲＯＭなどを適用できる。また、この記録媒体に記録されたプログラムの読み込みおよび実行は、被写体照合装置１や被写体照合装置１Ａに設けられたプロセッサによって行われる。

また、上述のプログラムは、このプログラムを記憶装置などに格納した被写体照合装置１や被写体照合装置１Ａから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク（通信網）や電話回線などの通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。

また、上述のプログラムは、上述の機能の一部を実現するためのものであってもよい。さらに、上述の機能を被写体照合装置１や被写体照合装置１Ａにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。

例えば、上述の第１実施形態や第２の実施形態では、１台のカメラで撮影される映像について被写体の照合を行うものとしたが、これに限らず、複数台のカメラで撮影される映像について被写体の照合を行うものとしてもよい。例えば、カメラＡで撮影された映像と、カメラＢで撮影された映像と、について被写体の照合を行う場合について、以下に説明する。

まず、予め、カメラＡによるフレーム画像の座標と、予め定められた３次元空間中の特定の平面の座標と、の間で成立する平面射影行列を求めておく。また、予め、カメラＢによるフレーム画像の座標と、上述の３次元空間中の特定の平面の座標と、の間で成立する平面射影行列も求めておく。次に、カメラＡによるフレーム画像の座標上の位置と、カメラＢによるフレーム画像の座標上の位置と、を上述のそれぞれの平面射影行列を用いて、上述の３次元空間中における座標上の位置に射影する。以上によれば、カメラＡによるフレーム画像の座標上の位置と、カメラＢによるフレーム画像の座標上の位置と、を同一の座標上で比較することができ、これらカメラＡ、Ｂのそれぞれで撮影される映像を、上述の第１実施形態や第２の実施形態における１台のカメラで撮影される映像と同様に扱うことができる。

なお、上述の特定の平面を有する３次元空間として、現実空間をモデル化した仮想３次元空間を適用し、仮想３次元空間における床面と、フレーム画像平面と、の間の対応関係を用いるものとする。すると、上述のフレーム画像が床面上にある被写体を映した画像である場合、この被写体が、仮想３次元空間中の床面座標上のどこにあるのかを計算することができる。このため、床面座標同士で比較するためには、被写体の足元が床面に接していると仮定して、被写体の足元位置のフレーム画像内の座標を算出し（例えば、算出された被写体領域の最下点座標とする）、平面射影行列を用いることで、床面座標に変換する必要がある。

また、例えば、上述の第１実施形態や第２実施形態では、仮対応分類部１７は、予め定められた閾値に基づいて、Ｌ個のクラスのそれぞれを正対応クラスと誤対応クラスとに分類するものとした。この閾値は、例えば、一意の値であってもよいし、仮対応設定部１６により設定された仮対応の数に応じて設定される値であってもよい。仮対応の数に応じて閾値を設定する場合には、例えば、この閾値を、仮対応の数のＰ割（Ｐは、Ｐ≧０を満たす任意の数）の値としてもよい。

また、例えば、上述の第１実施形態や第２実施形態では、画像特徴情報抽出部１４は、被写体の画像特徴情報の抽出を、非特許文献１に示されている技術を用いて行うことができるものとした。しかし、これに限らず、被写体が人物である場合には、例えば、顔認識（例えば、非特許文献４参照）や、性別や年齢といった顔属性（例えば、非特許文献５参照）や、歩容認識（例えば、非特許文献６参照）などを用いて行うこともできる。

１、１Ａ・・・被写体照合装置
１１・・・被写体検出部
１２・・・被写体追跡部
１３・・・被写体追跡情報記憶部
１４・・・画像特徴情報抽出部
１５・・・画像特徴情報記憶部
１６・・・仮対応設定部
１７・・・仮対応分類部
１８・・・照合部
１９・・・制御部

Claims

映像内の被写体の照合を行う被写体照合装置であって、
前記映像内に出現した被写体と、当該被写体が出現したタイミングよりも前に当該映像内から消失した被写体と、の仮対応を設定する仮対応設定手段と、
前記仮対応設定手段により設定された仮対応を、前記映像内の被写体の位置情報を用いて複数のクラスに分類する仮対応分類手段と、
前記仮対応分類手段による分類結果に基づいて、前記出現した被写体と、前記消失した被写体と、の照合を行う照合手段と、を備えることを特徴とする被写体照合装置。
前記仮対応分類手段は、前記映像内に被写体が出現した位置の位置情報と、当該被写体が出現したタイミングよりも前に当該映像内から被写体が消失した位置の位置情報と、を用いて、前記仮対応設定手段により設定された仮対応を前記複数のクラスに分類することを特徴とする請求項１に記載の被写体照合装置。
前記仮対応分類手段は、被写体が前記映像内から消失してから、当該映像内に被写体が出現するまでの時間を用いて、前記仮対応設定手段により設定された仮対応を前記複数のクラスに分類することを特徴とする請求項１または２に記載の被写体照合装置。
前記照合手段は、
前記仮対応設定手段により設定された仮対応について、画像特徴情報による被写体の画像間の距離の逆数と、当該仮対応が分類されたクラスに属する仮対応の数と、を乗算し、
前記出現した被写体に対して、当該被写体が出現したタイミングよりも前に当該映像内から消失した被写体のうち、当該出現した被写体との前記乗算結果が最大であるものを、対応付けることを特徴とする請求項１から３のいずれかに記載の被写体照合装置。
前記仮対応分類手段は、前記複数のクラスのそれぞれについて、当該クラスに属する仮対応の数が閾値以上であれば正対応クラスに分類し、当該クラスに属する仮対応の数が当該閾値未満であれば誤対応クラスに分類することを特徴とする請求項１から４のいずれかに記載の被写体照合装置。
前記仮対応設定手段は、被写体の画像特徴情報を用いて仮対応を設定することを特徴とする請求項１から５のいずれかに記載の被写体照合装置。
仮対応設定手段、仮対応分類手段、および照合手段を備え、映像内の被写体の照合を行う被写体照合装置における被写体照合方法であって、
前記仮対応設定手段が、前記映像内に出現した被写体と、当該被写体が出現したタイミングよりも前に当該映像内から消失した被写体と、の仮対応を設定する第１のステップと、
前記仮対応分類手段が、前記仮対応設定手段により設定された仮対応を、前記映像内の被写体の位置情報を用いて複数のクラスに分類する第２のステップと、
前記照合手段が、前記仮対応分類手段による分類結果に基づいて、前記出現した被写体と、前記消失した被写体と、の照合を行う第３のステップと、を備えることを特徴とする被写体照合方法。
仮対応設定手段、仮対応分類手段、および照合手段を備え、映像内の被写体の照合を行う被写体照合装置における被写体照合方法を、コンピュータに実行させるためのプログラムであって、
前記仮対応設定手段が、前記映像内に出現した被写体と、当該被写体が出現したタイミングよりも前に当該映像内から消失した被写体と、の仮対応を設定する第１のステップと、
前記仮対応分類手段が、前記仮対応設定手段により設定された仮対応を、前記映像内の被写体の位置情報を用いて複数のクラスに分類する第２のステップと、
前記照合手段が、前記仮対応分類手段による分類結果に基づいて、前記出現した被写体と、前記消失した被写体と、の照合を行う第３のステップと、をコンピュータに実行させるためのプログラム。