JP2005503731A

JP2005503731A - 協働的な分散されたビジョンを通じたインテリジェントな４画面同時表示

Info

Publication number: JP2005503731A
Application number: JP2003529752A
Authority: JP
Inventors: ヴィアールギュッタ，スリニヴァス; フィロミン，ヴァサント; トライコヴィッチ，ミロスラフ
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-09-17
Filing date: 2002-09-04
Publication date: 2005-02-03
Also published as: KR20040035803A; US20030052971A1; CN1555647A; EP1430712A1; WO2003026281A1

Abstract

人物の表示された位置を調整するシステム及び方法である。システムは、画像シーケンスを受信し、人物が表示されるべき受信された画像の境界に位置しているかどうかを判定するよう受信された画像を処理する制御ユニットを含む。そのように位置している場合、制御ユニットは、人物が完全に画像内に位置するよう画像シーケンスを与える光学装置の位置を制御するよう制御信号を発生する。

Description

【０００１】
本発明は、４画面同時表示及び単一の表示上に多数のビデオストリームを表示する他の表示に関連する。
【０００２】
図１に、４画面同時表示で用いられるビデオシステムの一部を示す。図１中、４つのカメラＣ１−Ｃ４が、部屋Ｒのビデオ監視を行うものとして示されている。部屋Ｒは略矩形の床の空間を有するものとして図示され、カメラＣ１−Ｃ４は部屋Ｒの別々の隅に夫々は位置される。各カメラＣ１−Ｃ４は、図１に示すように、カメラの視野（夫々、ＦＯＶ１−ＦＯＶ４）内の画像を捕捉する。
【０００３】
尚、一般的には、カメラＣ１−Ｃ４は、画像を捕捉するよう、部屋の隅の天井の近くに配置され、下向きに部屋の向こう側へ向けられている。しかしながら、説明の便宜上、カメラＣ１−Ｃ４に対する視野ＦＯＶ１−ＦＯＶ４の表現及び説明は、図１に示すように、床の平面に対応する２つの次元に限られるものとする。従って、カメラＣ１−Ｃ４は、より床に近くに、床に平行に部屋の向こう側へ向けられて取り付けられると考えられてもよい。
【０００４】
図１中、人物Ｐは、カメラＣ１，Ｃ２の視野ＦＯＶ１，ＦＯＶ２の縁の近傍であり、完全にカメラＣ３の視野ＦＯＶ３内にあり、カメラＣ４の視野ＦＯＶ４の外である位置に配置されて示されている。図２を参照するに、４画面同時表示Ｄ１−Ｄ４内の人物Ｐの画像が示される。表示（ディスプレイ）Ｄ１−Ｄ４は、カメラＣ１−Ｃ４に対応する。図示のとおり、人物Ｐの前面の半分が表示Ｄ１（Ｃ１に対応）内に示され、人物Ｐの背面の半分が表示Ｄ２（Ｃ２に対応）内に示される。人物Ｐの背面は表示Ｄ３（Ｃ３に対応）の中心に完全に見えており、表示Ｄ４（Ｃ４に対応）の中にはＰの画像は見えていない。
【０００５】
図１及び図２から、従来技術の４画面同時表示における問題が明らかである。図からわかるように、そのように位置する人物Ｐは、自分の手及び品物が４つの表示のいずれにも示されることなく、左のポケットに品物を入れるために自分の体の向こう側へ自分の右手を伸ばすことができる。従って、人物Ｐは、部屋の一定の領域内に自分の位置を決めることにより、いずれの表示上でも窃盗行為が観察されることなく万引きすることができる。腕のいい泥棒は、室内のカメラの視野を見極めることだけで、自分の位置をどのように決めるかを容易に割り出すことができる。更に、窃盗行為自体がいずれかのカメラで観察されえないよう人物Ｐが非常に注意深く自分の位置を決めない場合であっても、腕のいい泥棒は、通常は、自分の画像が２つのカメラ（例えば表示Ｄ１及びＤ２のためのカメラＣ１及びＣ２）の間で分割されるよう自分の位置を決めうる。このことは、表示を監視している人物に対して、どの表示を見るべきかに関して、泥棒が何かをポケットや鞄等に入れることを発見されずに行うことを可能とするのに十分な混乱を招きうる。
【０００６】
従って、本発明は、多数のカメラ及び表示を用いて人物及び対象を検出するシステム及び方法であって、部分的な画像が検出されたときは、人物の少なくとも一枚の完全な前面画像が表示されるよう、適応し調整するシステム及び方法を提供することを目的とする。
【０００７】
従って、本発明は特に、人物の表示された画像の位置を調整するシステムを含む。システムは、画像シーケンスを受信する制御ユニットを有し、人物が表示されるべき受信された画像の境界に位置しているかどうかを判定するよう受信された画像を処理する。そのように位置しているとき、制御ユニットは、人物が前記画像内に完全に位置するよう画像シーケンスを与える光学装置の位置を制御するよう制御信号を発生する。制御ユニットは、画像シーケンス中の動く対象を人物として同定し、人物の動きを画像シーケンス中で画像の境界まで追跡することにより、人物が受信された画像の境界に位置しているかどうかを判定する。
【０００８】
更に、制御ユニットは、２つ又はそれ以上の各光学装置から２つ又はそれ以上の画像シーケンスを受信し、光学装置は、２つ又はそれ以上の各画像シーケンスの領域が重なり合うよう配置され、２つ又はそれ以上の画像シーケンスは（例えば４画面同時表示の場合のように）別々に表示される。２つ又はそれ以上の各画像シーケンスに対して、制御ユニットは、人物が受信された画像の境界に位置しているかどうかを判定するために受信された画像シーケンスを処理する。２つ又はそれ以上の各画像シーケンスの少なくとも１つに対して、制御ユニットが、人物が受信された画像の境界に位置していると判定すると、制御ユニットは、人物の全体の画像が表示されるよう各画像シーケンスに対して光学装置の位置を制御するよう制御信号を発生する。
【０００９】
本発明はまた、人物の表示された画像の位置を調整する方を含む。まず、画像シーケンスが受信される。次に、人物が前記表示されるべき受信された画像の境界に位置しているかどうかが判定される。そうである場合、画像シーケンスを与える光学装置の位置は、人物が完全に画像内に位置するよう調整される。
【００１０】
本発明の範囲に含まれる他の方法では、２つ又はそれ以上の画像シーケンスが受信される。表示されるべき受信された各画像シーケンス中で人物の全体又は一部が見えているかどうかが判定される。人物が表示されるべき受信された画像シーケンスのうちの１つ又はそれ以上の中で部分的に見えていると判定された場合は、人物が受信された画像内に完全に位置するよう、１つ又はそれ以上の受信された画像シーケンスのうちの１つに対応するものを与える少なくとも１つの光学装置が調整される。
【００１１】
図３ａを参照するに、本発明のシステム１００の実施例の一部が示される。図３ａは、図１の４つのカメラと同様に、部屋の４つの隅に配置され、視野ＦＯＶ１−ＦＯＶ４を有する４つのカメラＣ１−Ｃ４を示す。２次元についての説明もまた、後の説明で議論されるが、当業者は、システムを容易に３次元に適合することができるであろう。
【００１２】
図３ｂは、図３ａに示されていないシステム１００の更なる構成要素を示す図である。図からわかるように、各カメラＣ１−Ｃ４は、ステッピングモータＳ１−Ｓ４に夫々取り付けられる。ステッピングモータＳ１−Ｓ４は、カメラＣ１−Ｃ４が夫々の中心軸（夫々Ａ１−Ａ４）回りを回転することを可能とする。従って、例えば、ステッピングモータＳ１は、ＦＯＶ１が図３ａ中の破線によって画成されるよう、角度φに亘ってカメラＣ１を回転しうる。軸Ａ１−Ａ４は、軸Ａ１で表わされるように、図３ａの図の平面から出る。
【００１３】
ステッピングモータＳ１−Ｓ４は、例えばマイクロプロセッサ又は他のディジタル制御器でありうる制御ユニット１１０によって発生される制御信号によって制御されうる。制御ユニット１１０は、線ＬＳ１−ＬＳ４を夫々通じてステッピングモータＳ１−Ｓ４へ制御信号を与える。軸Ａ１−Ａ４回りの回転の量は、カメラＣ１−Ｃ４の光学軸（図３ａ中、夫々ＯＡ１−ＯＡ４）の位置を決定する。光学軸ＯＡ１−ＯＡ４は、各視野ＦＯＶ１−ＦＯＶ４を二分し、軸Ａ１−Ａ４に対して垂直であるため、このような各回転軸ＯＡ１−ＯＡ４の回転軸Ａ１−Ａ４回りの回転は、カメラＣ１−Ｃ４の視野ＦＯＶ１−ＦＯＶ４によって網羅される領域を実際に決定する。従って、例えば、人物Ｐが図３ａ中の元のＦＯＶ１の境界の位置に位置しているとき、制御ユニット１１０からステッピングモータＳ１への軸Ａ１回りに角度θに亘ってカメラＣ１を回転させる制御信号は、人物を完全にＦＯＶ１の中に位置させる（図３ａ中、ＦＯＶ１’と示される）。カメラＣ２−Ｃ４は、同様に、ステッピングモータＳ２−Ｓ４によって夫々軸Ａ２−Ａ４回りに回転するよう制御されうる。
【００１４】
再び図３ａを参照するに、カメラＣ１−Ｃ４の視野ＦＯＶ１−ＦＯＶ４が図示の位置にあるとき、人物Ｐは図３ｃに示すように対応する４画面同時表示中に示されることがわかる。視野及び表示の中のＰの最初の位置は上述の図２と同様である。図３ｃでは、カメラＣ１は元の（回転されていない）位置にあり、人物ＰはＦＯＶ１の境界上にある。従って、カメラＣ１についての表示Ｄ１の中には、人物Ｐの前面画像の半分のみが示されている。更に、人物ＰはＦＯＶ２の境界上にいるため、カメラＣ２の表示Ｄ２の中には人物Ｐの背面画像の半分のみが示されている。カメラＣ３は、表示Ｄ３に示されるような、Ｐの背面画像全体を捕捉する。人物Ｐは、Ｃ４のＦＯＶ４からは完全に外にあるため、表示Ｄ４の中には人物Ｐの画像は現れない。
【００１５】
制御ユニット１１０が、カメラＣ１の視野ＦＯＶ’が図３ａに示し上述するように人物Ｐを完全に捕捉するようカメラＣ１を軸Ａ１回りに角度φに亘って回転させるようステッピングモータＳ１に合図すると、図３ｄに示すように、人物Ｐの完全な前面画像が表示Ｄ１上に表示される。このようにカメラＣ１を回転させることにより、前ポケットに品物を入れている人物Ｐの画像は表示Ｄ１中にはっきりと示される。
【００１６】
このような分割された又は部分的な画像のためのカメラＣ１−Ｃ４のうちの１つ又はそれ以上の回転は、カメラＣ１−Ｃ４から受信される画像をデータ線ＬＣ１−ＬＣ４を通じて受信される画像の画像処理によって制御ユニット１１０によって決定される。カメラから受信される画像は、最初は、例えば人間の体といった関心対象が１つ又はそれ以上の表示の中に部分的にのみ示されているかどうかを判定するために処理される。後の説明では、１つ又はそれ以上のカメラの視野の縁に配置され、従って、例えば図３ｃに示すカメラＤ１及びＤ２の場合のように、対応する表示の縁に部分的にのみ現れる体について特に説明する。
【００１７】
制御ユニット１１０は、人間の体を検出するため、特に、人物がカメラ（又は複数のカメラ）の視野の境界にいることにより人間の体の画像がいつ表示（又は複数の表示）の縁に表示されるかを認識するために、様々な画像認識アルゴリズムでプログラムされうる。例えば、受信される各ビデオストリームについて、制御ユニット１１０は、まず、画像データ中の動く対象又は体を検出するため、及び、このような各動く対象が人間の体であるか否かを判定するために、先ずプログラムされうる。
【００１８】
このような動く対象の検出、及び、動く対象を人間の体として続いて同定することをプログラムするために使用されうる特定的な技術は、ここに参照として組み入れられる、２００１年２月２７日出願のスリニヴァス・ギュッタ（ＳｒｉｎｉｖａｓＧｕｔｔａ）及びヴァサンス・フィロミン（ＶａｓａｎｔｈＰｈｉｌｏｍｉｎ）による「ＣｌａｓｓｉｆｉｃａｔｉｏｎＯｆＯｂｊｅｃｔｓＴｈｒｏｕｇｈＭｏｄｅｌＥｎｓｅｍｂｌｅｓ」なる名称の米国特許出願第０９／７９４，４４３号明細書（以下「’４４３号特許出願」と称する）に記載されている。従って、’４４３号特許出願に記載のように、制御ユニット１１０は、受信された各ビデオストリームをその中の動く対象を検出するべく分析する。動きを検出するために’４４３号特許出願で参照された特定の技術は、背景差分スキームと、対象を分割するために色情報を用いることとを含む。
【００１９】
他の動き検出技術もまた使用されうる。例えば、動きを検出するための他の技術では、関数Ｓ（ｘ，ｙ，ｔ）の値は、画像に対する画像アレイ中の各画素（ｘ，ｙ）に対して計算され、各連続する画像は時間ｔによって示され、
【００２０】
【数１】

式中、Ｇ（ｔ）はガウシアン関数であり、Ｉ（ｘ，ｙ，ｔ）は画像ｔ中の各画像の強度である。画像中の縁の動きは、Ｓ（ｘ，ｙ，ｔ）中の時間的なゼロ交差によって同定される。このようなゼロ交差は、画像中でクラスタ化され、かかる動く縁のクラスタは、動いている体の輪郭を与える。
【００２１】
クラスタはまた、連続的な画像中の対象の動きをそれらの位置、動き、及び形状に基づいて追跡するためにも使用される。クラスタが少数の連続するフレームに対して追跡された後、これは例えば、一定の高さ及び幅（「境界ボックス）」を有するものとしてモデル化されえ、連続する画像中の境界ボックスの繰り返される出現は、（例えば永続的パラメータを通じて）監視され定量化されうる。このようにして、制御ユニット１１０は、カメラＣ１−Ｃ４の視野内で動く対象を検出及び追跡しうる。上述の検出及び追跡技術は、ここに参照として組み入れられるマッケンナ（ＭｃＫｅｎｎａ）及びゴン（Ｇｏｎｇ）著、「顔の追跡（ＴｒａｃｋｉｎｇＦａｃｅｓ）」、自動顔及びジェスチャ認識に関する第２回国際会議の議事録、米国バーモント州キリントン（Ｋｉｌｌｉｎｇｔｏｎ）、１９９６年１０月１４−１６日、ｐ．２７１−２７６に詳述されている。
【００２２】
制御ユニット１１０によりデータストリーム中に動く対象が検出され、対象の追跡が開始されると、制御ユニット１１０は、対象が人間の体であるか否かを判定する。制御ユニット１１０は、例えば特に信頼性の高い分類モデルであるＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎ（ＲＢＦ）分類子（クラシファイア）等の多数の様々な種類の分類モデルのうちの１つを用いてプログラムされる。’４４３号特許出願は、検出された動く対象が人間の体であるか否かを同定するために制御ユニット１１０をプログラムするために望ましい実施例で使用される人間の体を同定するＲＢＦ分類技術を示す。
【００２３】
つまり、上述のＲＢＦ分類子技術は、各検出された動く対象から２つ又はそれ以上の特徴を抽出する。望ましくは、各検出された動く対象からｘ勾配、ｙ勾配、及び組み合わされたｘｙ勾配が抽出される。勾配は、動く体に対するビデオストリーム中で与えられる画像強度のサンプルのアレイのものである。ｘ勾配、ｙ勾配、及びｘｙ勾配は夫々、別々の分類を与える３つの別々のＲＢＦ分類子によって使用される。以下、更に説明するように、この対象に対するＲＢＦ（ＥＲＢＦ）分類は、同定を改善する。
【００２４】
各ＲＢＦ分類子は、３つの層を有するネットワークである。第１の入力層は、ソースノード又は感覚ユニットから構成され、第２の（隠れ）層は基礎機能（ＢＦ）ノードから構成され、第３の出力層は出力ノードから構成される。動く対象の勾配画像は、１次元ベクトルとして入力層へ供給される。入力層から隠れ層への変換は非線形である。一般的には、隠れ層の各ＢＦノードは、クラスに対する画像を用いた正しい学習の後は、対象分類（例えば人間の体）の形状空間に亘る共通の特徴のうちの１つの機能的な表現である。従って、隠れ層の各ＢＦノードは、クラスに対する画像を用いた正しい学習の後、入力ベクトル値を入力ベクトルによるＢＦの活性化を反映するスカラ値へ変換し、これはＢＦによって表される特徴が当該の対象についてのベクトル中で見つかる量を定量化する。
【００２５】
出力ノードは、動く対象についての形状空間に沿った特徴の値を対象の種類についての１つ又はそれ以上の同定クラスへ写像し、動く対象に対する対応する重み係数を決定する。ＲＢＦ分類子は、動く対象が、重み係数の最大値を有するクラスのものであることを決定する。望ましくは、ＲＢＦ分類子は、動く対象が対象の同定されたクラスに属する確率を示す値を出力する。
【００２６】
従って、例えばビデオストリーム中の動く対象のｘ勾配ベクトルを入力として受信するＲＢＦ分類子は、対象（例えば人間の体又は他のクラスの対象）に対して決定された分類と、クラス出力中にある確率とを出力する。ＲＢＦ分類子の組合せ（即ちｙ勾配及びｘｙ勾配に対するＲＢＦ分類子）を含む他のＲＢＦ分類子もまた、動く対象についての入力ベクトルに対する分類出力及び確率を与える。３つのＲＢＦ分類子によって同定されるクラス及び関連する確率は、動く対象が人間の体であるか否かを決定する採点法で用いられる。
【００２７】
動く対象が人間の体として分類される場合、人物は特徴付け処理を受ける。検出された人物は、特徴付けとの関連によって「タグ付け」され、それにより続く画像中ではタグ付けされた人物として同定されうる。人物のタグ付けの処理は、個人の確定的な同定を必ずしも必要とするものではなく、むしろ単に現在画像中の人物が以前の画像中の人物に一致すると信じられることの標識を発生するという点で、人物認識処理とは異なる。このようなタグ付けを通じた人物の追跡は、人物の繰り返される画像認識よりも迅速且つ効率的になされうるため、制御ユニット１１０が異なるカメラＣ１−Ｃ４からの各ビデオストリーム中の多数の人物をより容易に追跡することを可能とする。
【００２８】
従来技術で知られている人物タグ付けの基本技術は、例えば、テンプレートマッチング又は特徴付け等のカラーヒストグラムを用いる。外見特徴及び幾何学的特徴の両方を組み込んだタグ付けされた人物の統計的モデルを用いることによってより効率的且つ効果的な人物のタグ付けを提供する方法及び装置は、ここに「’４２３号特許出願」として参照として組み入れられる２００１年１１月１日出願のアントニオ・コルメナレズ（ＡｎｔｏｎｉｏＣｏｌｍｅｎａｒｅｚ）及びスリニヴァス・ギュッタ（ＳｒｉｎｉｖａｓＧｕｔｔａ）による「ＰｅｒｓｏｎＴａｇｇｉｎｇＩｎＡｎＩｍａｇｅＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍＵｔｉｌｉｚｉｎｇＡＳｔａｔｉｓｔｉｃａｌＭｏｄｅｌＢａｓｅｄＯｎＢｏｔｈＡｐｐｅａｒａｎｃｅＡｎｄＧｅｏｍｅｔｒｉｃＦｅａｔｕｒｅｓ」なる名称の米国特許出願第０９／７０３，４２３号明細書（以下「’４２３号特許出願」と称する）に記載されている。
【００２９】
制御ユニット１１０は、以前に同定された人物をタグ付けし追跡するために望ましい実施例によれば’４２３号特許の技術を用いる。タグ付けされた人物の追跡は、ビデオセグメントの以前のフレーム中の既知の位置及び姿勢のシーケンスを利用する。’４２３特許出願では、同定された人物の画像は、例えば頭、胴、及び脚といった多数の異なる領域（ｒ＝１，２，．．．，Ｎ）へ分割される。ビデオセグメントの画像Ｉは、タグ付けされるべき人物Ωに対する外見及び幾何学形状に基づいた統計的モデルＰ（Ｉ｜Ｔ，ξ，Ωを発生するよう処理され、但し、Ｔは画像Ｉ中の人物の大域的な動きを捕捉するために用いられる線形変換であり、ξは所与の時点における人物の局所的な動きを捕捉するために用いられる離散変数である。
【００３０】
’４２３号特許出願に記載のように、人物Ωの統計的モデルは、画像Ｉ中の人物の画素の和、即ち、Ｐ（ｐｉｘ｜Ｔ，ξ，Ω）の和を含む。人物の異なる領域ｒが考慮されるとき、値Ｐ（ｐｉｘ｜Ｔ，ξ，Ω）は、Ｐ（ｐｉｘ｜ｒ，Ｔ，ξ，Ω）の関数である。重要なことには、Ｐ（ｐｉｘ｜ｒ，Ｔ，ξ，Ω）＝Ｐ（ｘ｜ｒ，Ｔ，ξ，Ω）Ｐ（ｆ｜ｒ，Ｔ，ξ，Ωであり、画素はその位置ｘと、例えば色及びテクスチャを表わす１つ又はそれ以上の外見特徴ｆ（２次元ベクトル）とによって特徴付けられる。従って、追跡は、人物の領域の外見特徴、例えば人物の領域を構成する画素の色及びテクスチャを用いて行われる。
【００３１】
Ｐ（ｘ｜ｒ，Ｔ，ξ，ΩとＰ（ｆ｜ｒ，Ｔ，ξ，Ωは共に、それらの対応する特徴空間に亘るガウシアン分布として近似されうる。外見特徴ベクトルｆは、画素自体、又は所与の画素の周りの画素の指定される「近傍」からの所定の画素に対して取得されうる。外見特徴の色特徴は、例えばＲＧＢ、ＨＩＳ、ＣＩＥ等の周知の色空間のパラメータに従って決定されうる。テクスチャ特徴は、例えば、エッジ検出、テクスチャ勾配、Ｇａｂｏｒフィルタ、Ｔａｍｕｒａ特徴フィルタ等の周知の従来技術を用いて取得されうる。
【００３２】
画像中の画素の和は、このようにタグ付けされる人物Ωに対する外見及び幾何学形状に基づく統計的モデルＰ（Ｉ｜Ｔ，ξ，Ωを発生するために使用される。一旦発生されると、Ｐ（Ｉ｜Ｔ，ξ，Ωは、人物追跡操作において続く画像を処理するために用いられる。上述のように、タグ付けされた人物の追跡は、ビデオセグメントの以前のフレーム中の既知の位置及び姿勢のシーケンスを利用する。従って、画像フレームのシーケンスから構成されるビデオセグメント中の人物の尤度確率を発生するために、統計的モデルＰ（Ｉ｜Ｔ，ξ，Ωは、（例えばカルマンフィルタを介して実施される大域的動きモデルによって特徴付けられ得る）シーケンスに亘る人物の大域的軌跡Ｔの尤度確率と、（遷移マトリクスを用いて１次のマルコフモデルを用いて実施されうる）シーケンスに亘って特徴付けられた局所的な動きの尤度確率とで乗算される。
【００３３】
上述のように、制御ユニット１１０は、人間の体を同定し、各カメラＣ１−Ｃ４からの各ビデオストリーム中の外見及び幾何学的に基づいた統計的モデルに基づいて様々な人物を追跡する。制御ユニット１１０は、このように、各カメラＣ１−Ｃ４から受信される各ビデオストリーム中の各人物についての別々の外見及び幾何学的に基づいた統計的モデルを発生する。モデルは、色、テクスチャ、及び／又は、人物にとって累積的に一意である他の特徴に基づくものであり、制御ユニット１１０は、様々なビデオストリームに対するモデルを比較し、同定されたどの人物が様々なビデオストリーム中の夫々で追跡されているものであるかを同定する。
【００３４】
例えば、少なくとも２つのカメラの視野内にいる１人の人物に注目すると、人物は、このように同定され少なくとも２つのビデオストリーム中で追跡されている。更に便宜上、１人の人物は、部屋の中心から図３ａ中に示す位置に向かって歩いている、図３ａに示す人物であると想定する。従って、最初は、カメラＣ１−Ｃ４によって人物Ｐの全体画像が捕捉される。プロセッサＰは、このように、各ビデオストリーム中の人物Ｐを別々に同定し、発生された別々の統計的モデルに基づいて各ビデオストリーム中の人物Ｐを追跡する。制御ユニット１１０は、（データストリーム中の動いている全ての他の人物に対するモデルと共に）データストリームに対して発生されたＰに対する統計的モデルを比較し、統計的モデルの尤度に基づいて人物Ｐが各データストリーム中で同じであることを判定する。制御ユニット１１０は、このように各データストリーム中の人物Ｐの追跡動作を関連付ける。
【００３５】
一旦関連付けられると、制御ユニット１１０は、人物が１つ又はそれ以上のカメラの視野の境界へ動いたかどうかを判定するよう各データストリーム中の人物Ｐの追跡動作を監視する。例えば、人物Ｐが部屋の中心から図３ａに示す位置へ動く場合、制御ユニット１１０は、カメラＣ１及びＣ２のビデオストリーム中のＰの画像を図３ｃに示すように画像の境界まで追跡する。これに応じて、制御ユニット１１０は、人物Ｐがカメラからの画像の中に完全に入るよう１つ又はそれ以上のカメラを回転するよう上述のようにステッピングモータをステップ動作させうる。従って、制御ユニット１１０は、人物ＰがカメラＣ１からの画像（図３ｄ中に表示Ｄ１として示される）の中に完全に入るまで、カメラＣを時計回り（図３ａからみたときに）に回転させるようステッピングモータＳ１をステップ動作させる。制御回路１１０はまた、人物ＰがカメラＣ２からの画像の中に完全に入るまでカメラＣ２を時計回りに改善させるようステッピングモータＳ２をステップ動作させうる。
【００３６】
上述のように、人物Ｐの前面全体が図３ｄにおいて見えるようにカメラＣ１が回転されると、人物は自分のポケットに品物を入れていることが観察される。また、制御ユニット１１０は、追跡された人物が視野の境界上にあるときに、全てのカメラ（例えば図３ａのカメラＣ１及びＣ２）を再配置しうる。しかしながら、他のカメラが部屋の出来る限り多くを網羅することが望ましいため、システムの全体動作について最も効率的ではないかもしれない。従って、人物Ｐが図３ａに示される（そして図３ｃに表示される）位置へ動くとき、制御ユニット１１０は、代わりに、どのカメラが部分的な画像内の人物の前面上に向けられているかを決定しうる。このように、制御ユニット１１０は、カメラＣ１及びＣ２からの画像中で（追跡処理におけるセグメント化された領域の１つである）人物の頭領域を分離する。顔認識は、上述のＲＢＦネットワークを用いた人間の体の同定と同様に行われてもよく、詳細については上述の「ＴｒａｃｋｉｎｇＦａｃｅｓ」なる文献に記載されている。Ｃ１からのビデオストリーム中の画像については、人物Ｐはカメラを向いているため一致が検出され、Ｃ２については、一致はない。このように人物ＰがカメラＣ１に向いていると決定すると、カメラＣ１は、Ｐの完全な画像を捕捉するよう制御ユニット１１０によって回転される。更に、部屋を網羅する範囲を最大化し、操作者の混乱を減少させるため、Ｐの背面の一部を示すカメラＣ２は、人物Ｐが全く見えないように制御ユニット１１０によって反時計回りに回転されうる。
【００３７】
更に、表示を監視している操作者には、制御ユニット１１０によって自動的に行われるのとは異なるようにカメラを動かすオプションが与えられうる。例えば、上述の例では、制御ユニット１１０は、人物Ｐの前面の完全な画像が表示Ｄ１（図３ｄに示す）に示されるようカメラＣ１を動かし、また、人物Ｐの背面の完全な画像が表示Ｄ２から除かれるようカメラＣ２を動かす。しかしながら、泥棒が自分の右手で後ろポケットに手を伸ばしているとき、カメラＣ２の画像がより望ましい。従って、操作者には、制御ユニット１１０によって実行される動きを無効とするというオプションが与えられてもよい。選択された場合、制御ユニット１１０は、人物の完全な画像がカメラＣ２で捕捉され、Ｄ２上に表示され、人物の画像が表示Ｄ１から除去されるよう、カメラの動きを逆にする。或いは、制御ユニット１１０は、人物の背面画像全体が表示Ｄ２上に示され、一方で前面画像全体が表示Ｄ１に残るよう、カメラＣ２のみを動かしてもよい。或いは、操作者には、手動入力でどのカメラがどの程度動かされるかを手動制御するオプションが与えられてもよい。
【００３８】
更に、ある状況（例えば、僅かな人が立ち入りできる非常に安全性の高い区域）では、制御ユニット１１０は、全てのカメラが人物の完全な画像を捕捉するよう、全てのカメラの位置を調整しうる。人物がカメラ（例えば図３ａのカメラＣ４）の視野から完全に外にいるとき、制御ユニット１１０は、画像を捕捉するためにカメラをどの方向に回転させるかを決定するために（例えば以下説明するような）幾何学的な考慮すべき事柄を使用しうる。
【００３９】
人物を追跡するために発生された統計的モデルに基づいて様々なビデオストリーム中の同じ人物を関連付ける制御ユニット１１０の代わりに、制御ユニット１１０は、幾何学的な理由付けを用いて同じ人物を関連付けうる。従って、各カメラについて、制御ユニット１１０は、基準座標系を各カメラから受信された画像と関連付けうる。基準座標系の原点は、例えば、カメラが基準位置にあるときに画像を構成するシーンの中心にある点に位置決めされてもよい。関連付けられるステッピングモータを介してプロセッサによってカメラが動かされると、制御ユニット１１０は、（例えば線ＬＳ１−ＬＳ４を通じて）ステッピングモータから位置フィードバック信号を介して、又は過去の及び現在のステップ動作の累積的な量及び方向を追跡することによって、動きの量を追跡する。制御ユニット１１０はまた、シーン中の点に対して固定のままであるよう座標系の原点を調整する。制御ユニット１１０は、画像中の同定された人物（例えば人物の胴の中心）についての基準座標系中の座標を決定する。また、基準座標系は画像のシーン中の点に対して固定に維持され、即ち、人物の座標は人物が画像中で動くにつれて変化し、座標は制御ユニット１１０によって各画像中の各人物に対して維持される。
【００４０】
また、各カメラに対する基準座標系は、カメラからの画像を含むシーン中の点に対して固定に維持される。各カメラの基準座標系は、一般的には室内の異なる点に原点を有し、異なる向きとされうる。しかしながら、これらは部屋（又は各画像中の部屋のシーン）に対して夫々固定されているため、互いに対して固定されている。制御ユニット１１０は、各カメラに対する基準座標系の原点及び向きが互いに対して知られているようプログラムされる。
【００４１】
従って、カメラの座標系中の同定された動いている人物の座標は、制御ユニット１１０によって他のカメラの夫々に対する座標へ変換される。変換された座標が１つ又はそれ以上の他のカメラのビデオストリーム中で同定される人物と一致する場合、制御ユニット１１０は、それらが同じ人物であると判定し、各データストリーム中の人物の追跡は、上述の目的のために関連付けられる。
【００４２】
制御ユニット１１０は、異なるビデオストリーム中で同定され追跡される人物が同じ人物であると判定するために、データストリーム中の統計的モデルの比較と、基準座標系を用いた幾何学的比較の両方を使用しうる。更に、一方は１次判定として使用されてもよく、一方は例えば１次判定が決定的でない場合に使用されうる２次判定として使用されうる。
【００４３】
また、説明の便宜上、上述の典型的な実施例は、ステッピングモータＳ１−Ｓ２によって図３ｂに示す軸Ａ１−Ａ４の回りに回動されうる略同じ高さのカメラに頼るものであった。実施例は、例えば天井に隣接して、部屋の中により高い位置に配置されたカメラに容易に適用される。このようなカメラは、ＰＴＺ（パン、チルト、ズーム）カメラでありうる。パン特徴は、上述の実施例でステッピングモータＳ１−Ｓ４の回転特徴を実質的に実行する。カメラの傾斜は、軸Ａ１−Ａ４に対するカメラの光学軸の角度を調整し、従ってカメラが部屋を見下ろす角度を制御する、各カメラに関連付けられる第２のステッピングモータによって行われてもよい。動く対象は、人間の体として同定され、上述のようにカメラから受信される画像から追跡され、カメラは視野の境界を歩く人物の完全な画像を捕捉するようパン及びチルトの両方がされうる。更に、カメラが傾斜されているとき、受信された画像は、知られている画像処理技術を用いて第３の次元（カメラに対する部屋内の奥行き）を考慮に入れるよう制御ユニット１１０によって処理されてもよい。異なる画像中の対象間の幾何学的関係を与えるよう制御ユニット１１０によって発生される基準座標系は、第３の奥行き次元を含むよう拡張される。また、実施例や、４つよりも多い、又は少ないカメラに適応するよう容易に適合されうる。
【００４４】
本発明は、視野の境界に立っている人物が画像中で完全に捕捉されるよう１つ又はそれ以上のカメラを調整する他の方法を含む。制御ユニット１１０は、異なる位置にある各カメラについての部屋の一連の基準線画像を格納する。基準線画像は、通常は部屋の中に配置される対象（例えば棚、机、コンピュータ等）を含むが、人物（以下「移動対象（ｔｒａｎｓｉｔｏｒｙｏｂｊｅｃｔ」）といった部屋の中へ及び外へ動く対象を含まない。制御ユニット１１０は、夫々に対するビデオストリーム中の画像を適切な基準線画像と比較し、例えば差分法を用いること、又は受信されたものと基準線画像の間で勾配を比較することにより、移動対象である対象を同定しうる。各カメラに対して、一組の１つ又はそれ以上の移動対象がこのようにビデオストリーム中で同定される。
【００４５】
各組の移動対象の特定的な特徴は、制御ユニット１１０によって決定される。例えば、対象の色及び／又はテクスチャは、上述の周知の方法で決定される。異なるビデオストリームからの対象の組の中の移動対象は、例えば一致する色及び／又はテクスチャといった一致する特徴に基づいて同じ対象として同定される。或いは、又はそれに加えて、上述の各カメラに対するビデオストリームに関連付けられる基準座標系は、やはり上述のように、位置に基づいて各ビデオストリーム中の同じ移動対象を同定するために制御ユニット１１０によって使用されうる。
【００４６】
様々なデータストリーム中で同じであるとして同定される各対象について、制御ユニット１１０は、それが人物であるかどうかを判定するために１つ又はそれ以上のデータストリーム中の対象を更に解析する。制御ユニット１１０は、上述のように、また、’４４３号特許出願のような判定において、ＥＲＢＦネットワークを使用しうる。人物が対象の後ろ側に位置しているとき、又はカメラの内の１つの視野の境界に位置しているとき、制御ユニット１１０は、第２のカメラのデータストリーム中の対象を解析せねばならないことがある。
【００４７】
対象が人物であると判定されると、人物が動いていれば、制御ユニット１１０は以前のデータストリーム中で人物を追跡する。人物が静止しているか、静止するとき、制御ユニット１１０は、１つ又はそれ以上のデータストリーム中の人物が他の対象（例えば柱、カウンター等）によって見えなくされているかどうか、又は、１つ又はそれ以上のカメラの視野の縁にあるために部分的に切り取られていないかを判定する。制御ユニット１１０は、例えば、画像又はデータストリームに対する基準座標系における位置により人物が視野の縁にいるかどうかを判定してもよい。或いは、制御ユニット１１０は、各画像中の人物の表面領域に亘って積分を行うことにより、人物が見えなくされているか、又は視野の縁にあるのではないかを判定しうる。１つ又はそれ以上のデータストリームで人物についての積分が他のデータストリームにおけるものよりも小さければ、カメラは、制御ユニット１１０によって、面積分が最大化されるまで、従って、カメラについての視野中の完全な画像（又は人物を見えなくしている対象があるときは、出来るだけ多く）を捕捉するよう、調整されうる。或いは、人物が視野の縁にいるときは、カメラは、人物が完全に視野の外となるよう再配置されてもよい。上述のように、調整は、制御ユニット１１０により、１つ又はそれ以上の顔認識に依存して行われてもよく、また、表示の操作者による手動入力によって無効とされても良い。
【００４８】
以下の文献は、ここに参照として組み入れられる。
【００４９】
１．ギュッタ（Ｇｕｔｔａ）、フアン（Ｈｕａｎｇ）、ジョナソン（Ｊｏｎａｔｈｏｎ）、及びウェシュラー（Ｗｅｃｈｓｌｅｒ）著、「ＭｉｘｔｕｒｅｏｆＥｘｐｅｒｔｓｆｏｒＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＧｅｎｄｅｒ，ＥｔｈｎｉｃＯｒｉｇｉｎａｎｄＰｏｓｅｏｆＨｕｍａｎＦａｃｅｓ」、ＩＥＥＥニューラルネットワークについての報告書、第１１巻、第４号、２０００年７月、ｐ．９４８−９６０。
【００５０】
受信された画像を用いた性別や民族性といった顔の下位分類の検出を示す。「ＭｉｘｔｕｒｅｏｆＥｘｐｅｒｔｓ」における技術は、年齢等の画像中の人物の他の個人的特徴を同定するために容易に適用されうる。
【００５１】
２．レン（Ｗｒｅｎ）外著、「Ｐｆｉｎｄｅｒ：Ｒｅａｌ−ＴｉｍｅＴｒａｃｋｉｎｇＯｆｔｈｅＨｕｍａｎＢｏｄｙ」、ＩＥＥＥパターン解析及び機械知能についての報告書、第１９巻、第７号、１９９７年７月、ｐ．７８０−７８５で発表されたＭＩＴＭｅｄｉａＬａｂｏｒａｔｏｒｙＰｅｒｃｅｐｔｕａｌＣｏｍｐｕｔｉｎｇＳｅｃｔｉｏｎＴｅｃｈｎｉｃａｌＲｅｐｏｒｔＮｏ．３５３。
【００５２】
ビデオ画像中で人物の体（又は例えば頭や手）を見つけ、追跡する「人物探索器（ｐｅｒｓｏｎ）ｆｉｎｄｅｒ」を記載している。
【００５３】
３．ディー・エム・ガヴリラ（Ｄ．Ｍ．Ｇａｖｒｉｌａ）（ダイムラー・クライスラー・リサーチ、画像理解システムス）著、「ＰｅｄｅｓｔｒｉａｎＤｅｔｅｃｔｉｏｎＦｒｏｍＡＭｏｖｉｎｇＶｅｈｉｃｌｅ」、コンピュータビジョンに関する欧州会議議事録、アイルランド、ダブリン、２０００年、（ｗｗｗ．ｇａｖｒｉｌａ．ｎｅｔ）
４．アイサード（Ｉｓａｒｄ）及びブレーク（Ｂｌａｋｅ）（オックスフォード大学エンジニアサイエンス学部）著、「Ｃｏｎｄｅｎｓａｔｉｏｎ−ＣｏｎｄｉｔｉｏｎａｌＤｅｎｓｉｔｙＰｒｏｐａｇａｔｉｏｎＦｏｒＶｉｓｕａｌＴｒａｃｋｉｎｇ」、Ｉｎｔ．Ｊ．ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，第２９巻、第１号、１９９８年、ｐ．５−２８、（ｗｗｗ．ｄａｉ．ｅｄ．ａｃ．ｕｋ／ＣＶｏｎｌｉｎｅ／ＬＯＣＡＬ＿ＣＯＰＩＥＳ／ＩＳＡＲＤ１／ｃｏｎｄｅｎｓａｔｉｏｎ．ｈｔｍｌで、「ｃｏｎｄｅｎｓａｔｉｏｎ」ソースコードとともに入手可能）
画像中の静止対象の検出のための統計的サンプリングアルゴリズムと対象の動きの検出のための確率的モデルとを用いることを記載している。
【００５４】
５．エルガマル（Ｅｌｇａｍｍａｌ）外、「Ｎｏｎ−ｐａｒａｍｅｔｒｉｃＭｏｄｅｌＦｏｒＢａｃｋｇｒｏｕｎｄＳｕｂｔｒａｃｔｉｏｎ」、第６回コンピュータビジョンに関する欧州会議（ＥＣＣＶ２０００）、アイルランド、ダブリン、２０００年６月／７月、
差分法を用いたビデオ画像データ中の動く対象の検出について記載している。
【００５５】
６．ラジャ（Ｒａｊａ）外、「ＳｅｇｍｅｎｔａｔｉｏｎａｎｄＴｒａｃｋｉｎｇＵｓｉｎｇＣｏｌｏｒＭｉｘｔｕｒｅＭｏｄｅｌｓ」、第３回コンピュータビジョンについてのアジア会議の議事録、中国、香港、１９９８年１月、第Ｉ巻、ｐ．６０７−６１４。
【００５６】
本発明の例示的な実施例は、添付の図面を参照して説明されたが、本発明はこれらの実施例に限られるものではなく、発明の範囲は特許請求の範囲に定義されるものであることが意図される。
【図面の簡単な説明】
【００５７】
【図１】室内に配置された４画面同時表示を与えるカメラを示す図である。
【図２】図１に示す室内に位置する人物の４画面同時表示を示す図である。
【図３ａ】本発明の実施例において用いられる室内に配置されるカメラを表わす図である。
【図３ｂ】図３ａに配置されるようなカメラを組み込んだ本発明の実施例のシステムを表わす図である。
【図３ｃ】本発明の実施例により図３ｂのシステムによってカメラが調整されたときの図３ａの室内に配置される人物の４画面同時表示を示す図である。
【図３ｄ】本発明の実施例により図３ｂのシステムによってカメラが調整されたときの図３ａの室内に配置される人物の４画面同時表示を示す図である。

Claims

人物の表示された画像の位置を調整するシステムであって、
前記システムは画像シーケンスを受信する制御ユニットを有し、前記制御ユニットは前記人物が前記表示されるべき受信された画像の境界に位置するかどうかを判定し、前記人物が前記表示されるべき受信された画像の境界に位置すると判定されると、前記人物が前記画像内に完全に位置するよう前記画像シーケンスを与える光学装置の位置を制御するよう制御信号を発生する、システム。
前記制御ユニットは、前記画像シーケンス中の動く対象を前記人物として同定し、前記人物の動きを前記画像シーケンス中で前記画像の境界まで追跡することにより、前記人物が前記受信された画像の境界に位置しているかどうかを判定する、請求項１記載のシステム。
前記動く対象は、ＲＢＦネットワークを用いて前記対象に対するデータを処理することによって前記人物であると同定される、請求項２記載のシステム。
前記画像シーケンス中での前記人物の動きの追跡は、前記画像中の前記人物の少なくとも１つの特徴を同定し、前記画像中で前記人物を追跡するために前記少なくとも１つの特徴を用いることを含む、請求項２記載のシステム。
前記少なくとも１つの特徴は、前記画像中の前記人物の少なくとも１つの領域の色及びテクスチャのうちの少なくとも１つである、請求項４記載のシステム。
前記制御ユニットは、２つ又はそれ以上の各光学装置から２つ又はそれ以上の画像シーケンスを受信し、前記光学装置は、前記２つ又はそれ以上の各画像シーケンスの領域が重なり合うよう配置され、前記２つ又はそれ以上の画像シーケンスは別々に表示される、請求項２記載のシステム。
前記２つ又はそれ以上の各画像シーケンスに対して、前記制御ユニットは、前記人物が受信された画像の境界に位置しているかどうかを判定するために前記受信された画像シーケンスを処理する、請求項６記載のシステム。
前記２つ又はそれ以上の各画像シーケンスに対して、前記制御ユニットは、前記人物が受信された画像の境界に位置しているかどうかを判定し、前記制御ユニットは、前記人物の全体の画像が捕捉されるよう前記各画像シーケンスに対して前記光学装置の位置を制御するよう制御信号を発生する、請求項７記載のシステム。
前記制御ユニットは、前記人物を完全に画像内に位置するよう前記光学装置が動かされるよう制御信号を発生する、請求項８記載のシステム。
２つ又はそれ以上の各画像シーケンスに対して、前記制御ユニットによる前記人物が受信された画像の境界に位置しているかどうかについての判定は、前記画像シーケンス中の動く対象を同定し、前記動く対象が人物であるかどうかを判定し、前記画像シーケンス中で人物であると判定された動く対象を追跡することを含む、請求項７記載のシステム。
前記各画像シーケンス内で人物であると判定された動く対象の追跡は、更に、２つ又はそれ以上の前記シーケンス内でどの人物が同じ人物であるかを同定することを含む、請求項１０記載のシステム。
前記制御ユニットは、少なくとも１つの前記画像シーケンスについて前記人物が前記受信された画像の境界に位置しているかどうかの判定を、前記人物が２つ又はそれ以上の画像シーケンス内で同じ人物であるかどうかを同定し、少なくとも１つの前記画像シーケンスの境界まで前記人物を追跡することによって行う、請求項１１記載のシステム。
人物の表示された画像の位置を調整する方法であって、
画像シーケンスを受信する段階と、前記人物が前記表示されるべき受信された画像の境界に位置しているかどうかを判定する段階と、前記人物が完全に前記画像内に位置するよう前記画像シーケンスを与える光学装置の位置を調整する段階とを含む方法。
前記人物が前記表示されるべき受信された画像の境界に位置しているかどうかを判定する段階は、前記受信された画像中の前記人物を同定する段階を含む、請求項１３記載の方法。
前記人物が前記表示されるべき受信された画像の境界に位置しているかどうかを判定する段階はまた、前記受信された画像中で前記人物を追跡する段階を含む、請求項１４記載の方法。
人物の表示された画像の位置を調整する方法であって、
２つ又はそれ以上の画像シーケンスを受信する段階と、前記表示されるべき受信された各画像シーケンス中で前記人物の全体又は一部が見えているかどうかを判定する段階と、前記人物が前記表示されるべき受信された画像シーケンスのうちの１つ又はそれ以上の中で部分的に見えていると判定された場合は、前記人物が前記受信された画像内に完全に位置するよう、前記１つ又はそれ以上の受信された画像シーケンスのうちの１つに対応するものを与える少なくとも１つの光学装置を調整する段階とを含む、方法。