JP4356371B2

JP4356371B2 - 情報処理装置

Info

Publication number: JP4356371B2
Application number: JP2003173524A
Authority: JP
Inventors: ジェンルシュエ; 保次瀬古
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-06-18
Filing date: 2003-06-18
Publication date: 2009-11-04
Anticipated expiration: 2023-06-18
Also published as: JP2005011005A

Description

【０００１】
【発明の属する技術分野】
本発明は、動画像から時間的に変化する対象を検出する情報処理装置などに関し、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することが可能な技術に関する。
【０００２】
【従来の技術】
例えば、マシンビジョンにおいて、対象物を見つけて追従することは、1つの共通の目標となっている。このような画像処理を行うためのアルゴリズムとしては、一般に、２種類ある。１つは、領域分割（セグメンテーション）とマッチングの前処理として全フレーム範囲の画像処理を行うアルゴリズムであり、もう１つは、部分的な画像の特徴検出を行うアルゴリズムである。
【０００３】
多くの追跡の問題はいずれのアルゴリズムによっても解決され得るが、解を得るためのデータ処理に対する要求は大きく異なる。オプティカルフローの計算或いは領域の分割のような全フレーム範囲に関するアルゴリズムは、大量のデータ処理になりやすく、オフラインで実行され、或いは、特別なハードウエアを使用して加速させられ得る。一方、特徴に基づくアルゴリズムは、通常、画像の空間的な一部の領域に集中し、そして、処理が必要なデータの量が比較的少なく、標準的な計算を行うハードウエアで動作する一連のアルゴリズムにより取り扱われることが可能である（例えば、非特許文献２参照。）。
【０００４】
部分的な特徴検出の手法の中で、実時間の映像（動画像）において目標物を追跡する基本的な方法として、一時的差分（ＴＤ：Temporal Differencing）法や（例えば、非特許文献７参照。）、テンプレート相関マッチング法がある。一時的差分法では、一定の時間δｔだけ離隔した映像のフレームが比較されて、変化した領域を見つける。テンプレート相関マッチング法では、それぞれの映像のフレームが走査（スキャン）されて、画像のテンプレートと最も相関する領域を見つける。
【０００５】
これらの方法は、それぞれ、長所と短所を有している。一時的差分法は、目標物が隠れてしまったりその動きをやめてしまうような場合には、うまく機能しない。テンプレート相関マッチング法は、一般に、目標物の外観が一定であることを要求し、対象物の大きさや方向が変化し或いは光の当たり具合が変化するような場合においても確実性が低下してしまう。
【０００６】
しかしながら、これら２つの方法による追跡の特性は相補的なものである。つまり、目標物が静止している場合には、テンプレート相関マッチング法の確実性が最大となる一方、一時的差分法はうまく機能しない。また、目標物が動いている場合には、一時的差分法がうまく機能する一方、テンプレート相関マッチング法は不安定となる。
【０００７】
多くの人工の物体は、円形や楕円形などの図形であるといった視覚的な特徴或いはこのような図形の部分を含むといった視覚的な特徴を有している。このため、抽出される幾何学的な特徴を用いて対象となる物体の見かけを決定することも、活発に研究されている論題である。
【０００８】
人工の物体を追跡するために使用される点や線や輪郭などのような幾何学的な特徴の中で、特に注目されている特徴は円である。この理由は、円は、円という１つの特徴の中に、３個の自由度（ＤＯＦ：degree of freedom）を有しているからである。なお、比較例として、線の場合には自由度は２であり、点の場合には自由度は１である（例えば、非特許文献３〜５参照。）。
【０００９】
また、ランダムハフ変換（ＲＨＴ：Randomized Hough Transform）は、このような幾何学的な特徴を抽出するために使用されるのに非常に役立つ（例えば、非特許文献６参照。）。ランダムハフ変換は、検索空間の中で、パラメータで表示されるテンプレートモデルと画像との相関を用いて、相関のピークを見つける。
【００１０】
【非特許文献１】
Ayromlou, M., Vincze, M., Kubinger, W., Zillich, M, Robust, “ Tracking of ellipses at Frame Rates”, OAGM workshop on Pattern recognition, 155-164, Steyr, Austria, May 27-28, 1999.
【非特許文献２】
Gregory D. Hager and Kentaro Toyama, “ X Vision: A portable substrate for real-time vision applications.”Computer Vision and Image Understanding , vol.69, no.1 Jan, 1998, pp.23-37
【非特許文献３】
M. Ferri, F.Mangili, G.Viano, “ Projective pose estimation of linear and quadratic primitives in monocular computer vision”, CVGIP:Image understanding 58(1)(1993)66-84.
【非特許文献４】
D. Forsyth, J.L. Mundy, A.Zisserman, C.Coelho, A.Heller, C.Rothwell, “ Invariant descriptors for 3-D objects recognition and pose”, IEEE PAMI 13 (10) (1991) 971-991.
【非特許文献５】
P.Wunsch, G. Hirzinger, “ Real-time visual tracking of 3-D object with dynamic handling of occlusion”, IEEE International Conference on Robotics and Automation, 1997.
【非特許文献６】
Lei XU, Erkki OJA, and Pekka Kultanena. “ A new curve detection method: Randomized hough transform.”Pattern Recognition Letters, (11):331-338, 1990
【非特許文献７】
C.Anderson, P.Burt, G.van der Wal, “ Change detection and tracking using pyramid transformation techniques”, SPIE-Intelligent Robots and Computer Vision, vol. 579, pp. 72-78, 1985.
【非特許文献８】
JOrg, S., Langwald, J.,el.al, “ Flexible Robot-Assembly using a multi-sensory approach”, IEEE ICRA, pp.3687-3694, 2000.
【非特許文献９】
Martin A. Fischler and Robert C. Bolles, “ Random Sample Consensus: A Paradigm for model fitting with applications to image anaysis and automated cartography”, Communications of ACM: Graphics and Image Processing, Vol.24,no.6, June 1981. pp. 381-395.
【非特許文献１０】
M. Isard and A. Blake, “ Contour tracking by stochastic propagation of conditional density”, Proceedings of European Conference on Computer vision 96, pp. 343-356, 1996.
【非特許文献１１】
R.K.K. Yip, P.K.S, Tam,D.N.K, Leung, “ Modification of Hough Transform for circles and ellipse detection using a 2-dimensional array”, Pattern Recognition 25 (9) (1992),pp.1007-1022.
【非特許文献１２】
Y.Lei, K.-C.Wong, “ Ellipse detection based on the symmetry”, Pattern Recognition Lett. 20(1999)41-47.
【非特許文献１３】
M. Kass, A. Witkin, D. Terzopoulos, “ Snakes: active contour model”, Int. J. Comput. Vision 1(1987)321-331.
【非特許文献１４】
D. Terzopoulous, R. Szeliski, “ Tracking with Kalman snakes”, in: A.Blake, A.Yuille, Active vision, MIT Press, Cambridge, MA, 1992.
【非特許文献１５】
G. Hager, K.oyama, “ The Xvision-system: a portable substrate for real-time vision applications”, Comput.Vision Image Understanding 69(1) (1998)23-37.
【非特許文献１６】
Xue Jianru, “ Real time circle detection in Video”, IML-TR-02-006 (2002), Information Media Lab, Fuji Xerox Co.,Ltd.
【非特許文献１７】
Xue Jianru, “ Robust tracking of multiple non-rigid circles in realtime”, Technical Report, (2003), Information Media Lab, Fuji Xerox Co.,Ltd.
【００１１】
【発明が解決しようとする課題】
しかしながら、従来においては、動画像から時間的に変化する対象を検出する技術については、未だに不十分な点があり、更なる開発が要求されていた。具体的には、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することが可能な技術の開発が望まれていた。
【００１２】
本発明は、このような従来の課題を解決するために為されたもので、動画像から時間的に変化する対象を確実に検出することができる情報処理装置などを提供することを目的とする。更に具体的には、本発明は、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することが可能な情報処理装置などを提供することを目的とする。
【００１３】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る情報処理装置では、次のようにして、動画像から時間的に変化する対象を検出する。
すなわち、変化画素検出手段が、動画像のフレームを構成する複数の画素の中から、画素値が時間的に変化する画素を検出する。次に、変化画素領域検出手段が、変化画素検出手段による検出結果に基づいて、画素値が時間的に変化する画素領域を検出する。次に、変化画素領域エッジ検出手段が、変化画素領域検出手段により検出される画素領域のエッジを検出する。そして、変化対象検出手段が、変化画素領域エッジ検出手段による検出結果に基づいて、時間的に変化する対象を検出する。
【００１４】
従って、上記のような処理の組み合わせにより、動画像から時間的に変化する対象を確実に検出することができる。
また、後述する本発明の実施例に示されるように、本発明に係る情報処理装置では、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することを可能とすることができる。
【００１５】
ここで、動画像としては、種々なものが用いられてもよく、例えば、時間的に連続した複数の画像フレームから構成されるものが用いられる。また、それぞれの画像フレームは、例えば、所定の複数の画素から構成される。それぞれの画素は画素値を有する。
【００１６】
また、検出する対象としては、種々なものが用いられてもよい。
また、対象の時間的な変化としては、種々な変化であってもよく、例えば、対象が動くという変化や、対象自体の大きさや形や濃度が変わるという変化などであってもよい。
【００１７】
また、画素値が時間的に変化する画素領域としては、例えば、画素値が時間的に変化する１又は複数の画素から構成される。この場合、変化画素検出手段により検出される画素から、１個の画素領域が検出されてもよく、或いは、複数個の画素領域が検出されてもよい。また、変化画素検出手段により検出される画素以外の画素を含む画素領域が検出されてもよい。
また、エッジとしては、例えば、対象と背景との境界を示すものが検出される。
【００１８】
以下で、更に、本発明に係る構成例を示す。
本発明に係る情報処理装置では、一構成例として、変化画素検出手段は、時間的に隣接する動画像のフレームに対して一時的差分（ＴＤ：Temporal Differencing）法による処理を行って、画素値が時間的に変化する画素を検出する。
従って、一時的差分法により、画素値が時間的に変化する画素を適切に検出することができる。
【００１９】
ここで、時間的に隣接する動画像のフレームとしては、例えば、連続した２つの画像フレームが用いられる。
また、一時的差分法では、例えば、２つの画像フレームにおいて、画素値が変化している画素を検出する。
【００２０】
本発明に係る情報処理装置では、一構成例として、変化画素領域検出手段は、画像の分解能を低くして、画素値が時間的に変化する画素領域を検出する。
従って、分解能が低い画像を用いて、画素値が時間的に変化する画素領域を検出する処理に要する負担や時間を低減することができる。
ここで、画像の分解能を低くする態様としては、種々な態様が用いられてもよい。
【００２１】
本発明に係る情報処理装置では、一構成例として、変化画素領域検出手段は、画像の分解能を低くして画素値が時間的に変化する画素領域を検出した後に、当該検出した画素領域を処理対象領域として、高い分解能の画像に基づいて画素値が時間的に変化する画素領域を検出する。
【００２２】
従って、分解能が低い画像を用いて、画素値が時間的に変化する画素領域を検出する処理に要する負担や時間を低減することができ、その後、例えば、検出した画素領域のみを処理対象領域として、高い分解能の画像を用いて、画素値が時間的に変化する画素領域を検出することにより、処理の効率化を図ることができる。
ここで、画像の分解能を低くする態様や、その後に高い分解能の画像を用いる態様としては、種々な態様が用いられてもよい。
【００２３】
本発明に係る情報処理装置では、一構成例として、変化画素領域検出手段は、画素値が１値又は０値で表される画像（バイナリ画像）を処理対象とする場合に、次のようにして、画像の分解能を低くする。
すなわち、まず、画像フレームを構成する複数の画素に関して、所定の数の画素のまとまり毎にブロック化する。次に、画素値が１値である画素が画素値が０値である画素と比べて多く含まれるブロックに１値を割り当てる一方、画素値が０値である画素が画素値が１値である画素と比べて多く含まれるブロックに０値を割り当てる。そして、各ブロックを各画素とみなす。これにより、画像の分解能を低くする。
【００２４】
従って、ブロック化を用いた簡易な処理により、画像の分解能を低下させることができる。具体的には、分解能低下前の画像（元の画像）における所定の数の画素のまとまりが、１個のブロックに相当し、分解能低下後の画像における１個の画素に相当する。
【００２５】
ここで、１個のブロックを構成する所定の数の画素のまとまりとしては、種々なものが用いられてもよい。また、当該所定の数としては、種々な数が用いられてもよい。
また、例えば、１個のブロックに含まれる画素の数が偶数であり、画素値が１値である画素の数と画素値が０値である画素の数とが等しい場合には、当該ブロックに割り当てられる値（画素値）としては、１値が用いられてもよく、或いは、０値が用いられてもよい。
【００２６】
本発明に係る情報処理装置では、一構成例として、変化画素領域エッジ検出手段は、ＥＰＩＣ（edge-projected integration of visual cues）法を用いて、変化画素領域検出手段により検出される画素領域のエッジを検出する。
従って、ＥＰＩＣ法により、画素領域のエッジを適切に検出することができる。
【００２７】
本発明に係る情報処理装置では、一構成例として、変化対象検出手段は、ランダムハフ変換（ＲＨＴ：Randomized Hough Transform）法を用いて、時間的に変化する対象を検出する。
従って、ランダムハフ変換法により、時間的に変化する対象を適切に検出することができる。
【００２８】
本発明に係る情報処理装置では、例えば、動画像に時間的に変化する複数の対象が含まれるような場合に、一構成例として、次のような処理を行う。
すなわち、変化画素領域検出手段は、ラベリング法を用いて、画素値が時間的に変化する複数の画素領域を識別して検出する。また、変化画素領域エッジ検出手段は、変化画素領域検出手段により検出されるそれぞれの画素領域のエッジを検出する。また、変化対象検出手段は、それぞれの画素領域毎に、変化画素領域エッジ検出手段による検出結果に基づいて、時間的に変化する対象を検出する。
【００２９】
従って、時間的に変化する複数の対象が動画像中に存在するような場合においても、これら複数の対象を確実に検出することができる。
ここで、複数の対象の数としては、種々な数が用いられてもよい。
また、複数の画素領域としては、種々な数が用いられてもよい。
また、それぞれの画素領域を識別する仕方としては、種々な仕方が用いられてもよく、例えば、番号などの識別情報を付する仕方などを用いることができる。
【００３０】
本発明に係る情報処理装置では、例えば、変化対象検出手段により検出する対象は、パラメータを用いて表現される。
ここで、パラメータを用いて表現される対象としては、例えば、円や楕円などの曲線や、或いは、直線や、正方形や、長方形や、台形などの種々な図形が用いられてもよい。
【００３１】
本発明では、以上に示したような種々な処理を行う方法を提供することも可能である。
一例として、本発明に係る情報処理方法では、次のようにして、動画像から時間的に変化する対象を検出する。
すなわち、動画像のフレームを構成する複数の画素の中から画素値が時間的に変化する画素を検出し、当該検出結果に基づいて画素値が時間的に変化する画素領域を検出し、当該検出される画素領域のエッジを検出し、当該検出結果に基づいて時間的に変化する対象を検出する。
【００３２】
本発明では、以上に示したような種々な処理を行うためのプログラムを提供することも可能である。
一例として、本発明に係るプログラムでは、動画像のフレームを構成する複数の画素の中から画素値が時間的に変化する画素を検出する機能と、当該検出結果に基づいて画素値が時間的に変化する画素領域を検出する機能と、当該検出される画素領域のエッジを検出する機能と、当該検出結果に基づいて時間的に変化する対象を検出する機能をコンピュータにより実現する。
ここで、プログラムとしては、種々なものが用いられてもよい。
【００３３】
本発明では、以上に示したような種々な処理を行うためのプログラムを記憶した記憶媒体を提供することも可能である。
一例として、本発明に係る記憶媒体では、コンピュータに実行させるプログラムを当該コンピュータの入力手段により読み取り可能に記憶している。
そして、当該プログラムは、動画像のフレームを構成する複数の画素の中から画素値が時間的に変化する画素を検出する処理と、当該検出結果に基づいて画素値が時間的に変化する画素領域を検出する処理と、当該検出される画素領域のエッジを検出する処理と、当該検出結果に基づいて時間的に変化する対象を検出する処理を当該コンピュータに実行させる。
【００３４】
ここで、コンピュータとしては、種々なものが用いられてもよい。
また、プログラムとしては、種々なものが用いられてもよい。
また、コンピュータの入力手段としては、種々なものが用いられてもよい。
また、記憶媒体としては、種々なものが用いられてもよく、例えば、フロッピー（登録商標）ディスクや、ＣＤ（Compact Disc）−ＲＯＭ（Read Only Memory）や、ＤＶＤ（Digital Video Disc）などを用いることができる。
【００３５】
【発明の実施の形態】
本発明に係る一実施例を図面を参照して説明する。
本例では、動画像に含まれる時間的に変化する円を検出する処理に本発明を適用した場合を示す。
図１には、本発明の一実施例に係る情報処理装置が備える機能の構成例を示してある。
【００３６】
本例の情報処理装置には、一時的差分（ＴＤ：Temporal Differencing）法による処理や閾値処理を行う変化画素検出機能１と、ブロック化処理やフィリング処理や多段階分解能の連結要素ラベリング処理を行う変化画素領域検出機能２と、ＥＰＩＣ（edge-projected integration of visual cues）法による処理を行う変化画素領域エッジ検出機能３と、ランダムハフ変換（ＲＨＴ：Randomized Hough Transform）法による処理を行う変化対象検出機能４が備えられている。それぞれの機能１〜４により行われる処理の具体例については、後述する。
【００３７】
なお、本例の情報処理装置は、例えば、ＣＰＵ（Central Processing Unit）やメモリを有したコンピュータを用いて構成される。メモリとしては、例えば、ＲＡＭ（Random Access Memory）や、ＲＯＭ（Read Only Memory）や、外部のハードウエア装置などを用いることができる。
【００３８】
また、本例の情報処理装置の構成としては、種々な構成が用いられてもよく、例えば、１つの装置から構成されてもよく、或いは、複数の装置を組み合わせて構成されてもよい。また、本例の情報処理装置は、例えば、汎用の装置として構成されてもよく、或いは、専用の装置として構成されてもよい。
【００３９】
本例の情報処理装置では、概略的には、（１）一時的差分法を用いて動画像に含まれる時間的に変化する画素を検出する処理と、（２）多段階分解能（ｍｕｌｔｉ−ｒｅｓｏｌｕｔｉｏｎ）の連結要素（ｃｏｎｎｅｃｔｅｄｃｏｍｐｏｎｅｎｔ）のラベリング（ｌａｂｅｌｉｎｇ）を用いて動画像に含まれる時間的に変化する画素領域を検出する処理と、（３）ＥＰＩＣ法を用いて動画像に含まれる時間的に変化する画素領域のエッジを検出する処理と、（４）ランダムハフ変換法を用いて動画像に含まれる時間的に変化する対象物を検出する処理を行う。
【００４０】
以下で、本例の情報処理装置により行われるそれぞれの処理（１）〜（４）について説明する。
また、その後に、（５）実験結果の一例と、（６）まとめ等を示す。
【００４１】
（１）一時的差分法を用いて動画像に含まれる時間的に変化する画素を検出する処理について説明する。この処理では、画素の光強度（例えば、明るさ）が０〜２５５の値（画素値）で表される画像を処理対象として用いる。
目標物の追跡では、動作情報（動きに関する情報）は重要な役割を果たす。適切な動作情報を得ることができれば、例えば、後処理として行われるマッチングにおける検索空間を減少させるために非常に役立つ。
【００４２】
目標物を追跡する多くのシステムは、カルマンフィルタ（Ｋａｌｍａｎｆｉｌｔｅｒ）に基づいている。しかしながら、これらは単一モードのガウシアン密度（ｕｎｉ−ｍｏｄａｌＧａｕｓｓｉａｎｄｅｎｓｉｔｉｅｓ）に基づいていることから、同時に他の動作の予測を為すことができないため、限られた範囲でしか使用することができない（例えば、非特許文献１０参照。）。例えば、目標物が点であるような単純な場合には、カルマンフィルタを拡張して複数のデータの結合を扱うことがうまく機能するが、目標物自体が変動してしまう（“ｎｏ−ｒｉｇｉｄ”である）ような場合には単純に拡張することはできない。
【００４３】
また、従前のカルマンフィルタより優れていて確実な追跡を行うことができる“Ｃｏｎｄｅｎｓａｔｉｏｎ”というランダムなアルゴリズムが開発されている（例えば、非特許文献１０参照。）。しかしながら、“Ｃｏｎｄｅｎｓａｔｉｏｎ”のアルゴリズムでは、観測式や状態式を立てることが必要であり、実時間への適用の点で広い使用が制限されてしまう。
【００４４】
そこで、本例では、一時的差分法を使用する。
一時的差分法は、目標物を追跡するための基本的な方法の１つである。一時的差分法には多くの変形があるが、最も簡単なものは、連続した映像（動画像）フレームを取り出して絶対的な変化（違い）を決定する方法である。このような変化を決定するためには、閾値に関する関数が使用される。
【００４５】
例えば、ｎ番目のフレームにおける座標（ｕ，ｖ）に位置する画素の光強度（画素値）がＩ［ｎ］（ｕ，ｖ）であるとすると、画素値に関する変化の関数Δ［ｎ］（ｕ，ｖ）は式１のように表される。なお、座標系としては、直交座標系を用いている。また、式１で、“｜｜”は絶対値を表す。
【００４６】
【数１】

【００４７】
そして、閾値処理を行うことにより、動作画像Ｍ［ｎ］（ｕ，ｖ）が式２に示されるようにして得られる。なお、式２で、Ｔは画素値に関する閾値である。当該閾値Ｔとしては、例えば処理の状況などに応じて、種々な値が設定されてもよい。
【００４８】
【数２】

【００４９】
（２）多段階分解能の連結要素ラベリングを用いて動画像に含まれる時間的に変化する画素領域を検出する処理について説明する。この処理では、画素の光強度（例えば、明るさ）が０〜２５５の値（画素値）で表される画像に対して、例えば閾値＝１２７として、画素値が閾値以下である画素を“０”値へ変換する一方、画素値が閾値以上である画素を“１”値へ変換することにより、画素値が１値又は０値で表される画像（バイナリ画像）を得て、当該バイナリ画像を処理対象として用いる。
【００５０】
上記した処理（１）により動作画像Ｍ［ｎ］（ｕ，ｖ）が決定された後に、連結要素の基準を用いて、動いている部分を動作領域Ｒ［ｎ］（ｉ）としてまとめる。ここで、ｉは、動作領域を識別する番号を示す。また、動作領域Ｒ［ｎ］（ｉ）は、動いている部分の画素の集合に相当する。
【００５１】
一般に、実時間に適用する場合には、連結要素の分析は処理時間を要するものである。
そこで、本例では、連結要素の分析の能率及び確実性を改善するために、多段階の分解能を使用する連結要素の解析のアルゴリズムを新たに開発した。本例のアルゴリズムでは、まず、比較的に分解能が低く粗い画像を用いて連結要素の解析を行い、その後、より分解能が高く細かい一連の画像を用いて、位置を正確にしていく。
【００５２】
また、本例では、例えばサンプリングの数を減らして画像の画素数を減らすのではなく、“ｓｍｅａｒｉｎｇ”というブロック化技術を使用する。
具体的には、分解能が１段階低減させられた画像と、これと比べて分解能が１段階上である画像を考えた場合に、分解能が１段階低減させられた画像のそれぞれの画素が、分解能が１段階上である画像における（Ｎ×Ｍ）個の画素に相当するようにする。
【００５３】
そして、分解能が１段階低減させられた画像のそれぞれの画素の画素値としては、例えば、当該画素に相当する前記（Ｎ×Ｍ）個の画素のうちの半分以上が１値（例えば、白）である場合には１値であるとし、そうでない場合にはつまり半分以上が０値（例えば、黒）である場合には０値であるとする。
【００５４】
本例の多段階分解能の連結要素ラベリングの解析処理では、次の（処理手順１）〜（処理手順６）のような処理が行われる。
（処理手順１）原画像の分解能のままで得られるバイナリ画像Ｂ［０］のフレームを複数のサブブロックへ分割する。ここで、各サブブロックの大きさは（Ｎ×Ｍ）画素である。そして、各サブブロックは、当該バイナリ画像Ｂ［０］の分解能を１段階低減させた画像Ｂ［１］の各画素に相当する。なお、各サブブロックの大きさである（Ｎ×Ｍ）画素としては、種々な大きさが用いられてもよい。
【００５５】
（処理手順２）また、原画像Ｂ［０］においてそれぞれのサブブロックに含まれる０値の画素の数をカウントし、０値の画素の数のカウント値が（Ｎ×Ｍ）／２を超えたサブブロックについては分解能が１段階低減された画像Ｂ［１］において対応する画素の画素値を０値とし、他のサブブロックについては分解能が１段階低減された画像Ｂ［１］において対応する画素の画素値を１値とする。
【００５６】
なお、本例では、上記した（処理手順２）において、０値の画素の数をカウントしており、これは、一般的な動画像では、多くの場合において０値の画素である確率が１値の画素である確率と比べて大きいためである。これにより、処理時間を節約することが可能である。
【００５７】
（処理手順３）上記した（処理手順１）及び上記した（処理手順２）と同様な処理を繰り返して行うことにより、要求される分解能の画像が得られるまで、分解能がｊ段階低減された画像Ｂ［ｊ］を順次生成していく。これにより、ｊ＝Ｊ（Ｊは、例えば、１以上の整数）となるまで処理を行うと、原画像と比べて分解能が低減された一連のＪ個の画像Ｂ［１］、Ｂ［２］、・・・、Ｂ［Ｊ］が得られる。
【００５８】
（処理手順４）次に、分解能が最も低く粗い画像Ｂ［Ｊ］に対して、連結要素の解析を行い、そして、サイズフィルタを用いて雑音を除去しつつ、粗いラベリングの結果を取得する。ここで、ラベリングでは、時間的な変化があった画素を１以上の動作領域Ｒ［ｎ］（ｉ）へまとめることが行われ、概略的には、隣接する画素或いは近くに位置する画素は同一の動作領域Ｒ［ｎ］（ｉ）にまとめ、他の離隔した画素は異なる動作領域Ｒ［ｎ］（ｉ）にまとめる。
【００５９】
また、サイズフィルタによる処理では、例えば、ラベリングの後に、当該ラベリングによりまとめられた画素領域（動作領域Ｒ［ｎ］（ｉ））に含まれる画素の数が所定の閾値と比べて小さい場合には、当該画素領域は雑音であるとみなして、当該画素領域を処理対象から除去することが行われる。当該閾値としては、例えば処理の状況などに応じて、種々な値が用いられてもよい。
【００６０】
（処理手順５）また、必要に応じて、分解能がＪ段階低減された画像Ｂ［Ｊ］でラベリングが為された画素領域（動作領域Ｒ［ｎ］（ｉ））について、分解能が１段階上である画像Ｂ［Ｊ−１］或いは更に分解能が高い画像に対して、上記した連結要素の解析や上記したラベリングなどを行うことも可能である。このように、比較的に分解能が低く粗い画像で対象となる領域を絞り込んで、その後、比較的に分解能が高く細かな画像で当該領域のみに対して処理を行うと、総じて、処理の量や時間を短くして、効率的に精密な処理を行うことが可能である。
（処理手順６）このようにして、要求される分解能の処理結果が得られるまで、処理を継続する。
【００６１】
ここで、本例では、連結要素のアルゴリズムにおいて、６連結の隣接の構造が採用されている。本例の６連結の隣接構造では、上側（Ｎ）、右側（Ｅ）、右下側（ＳＥ）、下側（Ｓ）、左側（Ｗ）、左上側（ＮＷ）の６個の方向に位置するデータを隣接するものとみなす。
なお、本例では、６方向を隣接とする６連結を用いたが、例えば、上下左右の４方向を隣接とする４連結や、上下左右及び斜め４方向を隣接とする８連結などのように、他の種々な連結が用いられてもよい。
また、走査（スキャン）は、左から右へ、上から下へ、行われる。
【００６２】
また、ブロック化処理では、画像の分解能を低減させることができるとともに、上記した処理（１）における一時的差分法により発生した雑音を除去することができる。
また、本例では、一時的差分法により欠けた輪郭が生じた場合には、当該欠けた部分を埋めるために、形態論的な輪郭フィリング処理を行う。
また、本例では、一時的差分法により得られた輪郭の内部の画素の画素値を０値から１値へ変更する内部フィリング処理を行う。
また、ラベリングは、例えば、このような輪郭フィリング処理や内部フィリング処理の後に行われ、また、このような処理の前や中間といった種々な時期に行われてもよい。
【００６３】
ここで、図２には、領域Ａが処理対象である場合における、６連結領域の一部の領域Ｂ、Ｃ、Ｄを示してあるとともに、走査処理の方向を矢印で示してある。なお、それぞれの領域Ａ、Ｂ、Ｃ、Ｄは、処理対象としている分解能の画像におけるそれぞれの画素に相当する。
また、図３には、領域Ａが処理対象である場合においてラベリングを行う処理を記述した“ｐｓｅｕｄｏ−Ｐａｓｃａｌ”によるアルゴリズムの一例を示してある。
【００６４】
図３に示したアルゴリズムでは、まず、領域Ａの画素値が０値である場合には何もしない。
一方、領域Ａの画素値が１値である場合には、次のような処理を行う。
すなわち、領域Ｄにラベルが付されている場合には、領域Ｄのラベルを領域Ａにコピーして付する。また、領域Ｄにラベルが付されてなく、領域Ｂと領域Ｃの両方に同一のラベルが付されている場合には、当該ラベルを領域Ａにコピーして付する。また、領域Ｄにラベルが付されてなく、領域Ｂと領域Ｃに互いに異なるラベルが付されている場合には、領域Ｂのラベルを領域Ｃのラベルへ変更して当該ラベルを領域Ａにコピーして付することにより、これら３つの領域Ａ、Ｂ、Ｃのラベルを同一とする。また、領域Ｄにラベルが付されてなく、領域Ｂと領域Ｃの一方のみにラベルが付されている場合には、当該ラベルを領域Ａにコピーして付する。また、領域Ｄにラベルが付されてなく、領域Ｂと領域Ｃのいずれにもラベルが付されていない場合には、新たなラベルを選択して領域Ａに付する。
【００６５】
１回目の走査が終了すると、同一の目標物に属するとみなされる画素には同一のラベルが付される。
また、必要に応じて、２回目の走査を行って、例えば“ｒｅｍａｒｇｅ”により、離れてはいるが近くに位置する１値の領域（画素）の間に存在する０値の領域（画素）を１値の領域（画素）へ変更する補間処理が為され、これにより、同一の目標物には同一のラベルが付されることが保証される。
【００６６】
具体的には、ラベリングでは、例えば、画像フレーム中にＰ個の動作領域Ｒ［ｎ］（１）、Ｒ［ｎ］（２）、・・・、Ｒ［ｎ］（Ｐ）が存在する場合には、それぞれに異なるラベルが付される。
なお、画像フレーム中に対象物として複数の円が存在する場合には、例えば、隣接する円が十分に離れている場合には各動作領域Ｒ［ｎ］（１）、Ｒ［ｎ］（２）、・・・、Ｒ［ｎ］（Ｐ）にそれぞれ１個の円が含まれるが、隣接する円が見かけ上繋がっていたり重なっているような場合には、１個の動作領域Ｒ［ｎ］（ｉ）に２以上の円が含まれることもあり得る。
【００６７】
また、２回目の走査では、各動作領域Ｒ［ｎ］（ｉ）について、画素の総数に相当する面積及び重心を容易に得ることができる。当該面積からは円の半径が得られ、当該重心からはＸ−Ｙ直交座標系を考えた場合における重心のＸ座標の値及びＹ座標の値が得られ、これら３つのパラメータにより円の予測された状態が定義される。これら３つのパラメータ（半径或いは面積、重心のＸ座標、重心のＹ座標）は、後処理であるエッジ検出の処理で非常に役に立つ。
【００６８】
なお、ブロック化処理や、輪郭フィリング処理や、内部フィリング処理や、連結要素の解析処理や、ラベリング処理などを行う対象となる画像の分解能としては、必ずしも本例で示したものに限定されず、それぞれ、種々な分解能が用いられてもよい。また、例えば、全ての処理が原画像のように分解能が高い画像に対して行われてもよい。
【００６９】
（３）ＥＰＩＣ法を用いて動画像に含まれる時間的に変化する画素領域のエッジを検出する処理について説明する。この処理では、上記した処理（２）による処理結果を原画像と同一の光強度（画素値）を有する画像へ反映させて、再び、画素の光強度（例えば、明るさ）が０〜２５５の値（画素値）で表される画像を処理対象として用いる。
【００７０】
まず、エッジ検出に関して、関連する技術を説明する。
円を検出するための最も知られている技術は、ハフ変換（ＨＴ：Hough Transform）である（例えば、非特許文献６参照。）。他の方法と比べて、ハフ変換は非常に確実性がある。基本的な方法の変形では、計算時間を低減するために複数ステップのアプローチが使用され、例えば、ランダムハフ変換や（例えば、非特許文献６参照。）、２次元の累算器のアレイを使用するモディファイド・ハフ変換（ｍｏｄｉｆｉｅｄＨＴ）があり（例えば、非特許文献１１参照）、或いは、幾何学的な対称性を使用する（例えば、非特許文献１２参照。）。
【００７１】
しかしながら、これらの方法では、フレーム速度を高めることが難しい。例えば、処理時間は、エッジマップの画素の数に非常に強く依存する。
また、円を追跡する場合には、アルゴリズムでは前回の画像と比較して円の輪郭を見つけることが可能である。円を追跡するために使用することが可能な技術の１つとして、輪郭追跡によるものがある。精密で簡潔なアルゴリズムとして、“ｓｎａｋｅ”という動的な輪郭のモデルがある（例えば、非特許文献１３参照。）。
【００７２】
この“ｓｎａｋｅ”のアルゴリズムでは、画像から得られる内部の力と外部の力にスプラインを従わせ、当該スプラインを曲線（例えば、円）に合わせる。この方法は実時間で機能するが、例えば、対象物が複雑な背景の前を動いて、輪郭の勾配が大きく変化して符号が変化するような場合には、追跡において問題が発生する。
【００７３】
近年、古典的な“ｓｎａｋｅ”のアルゴリズムは、改良されてきている（例えば、非特許文献１４参照。）。これらの輪郭追跡は、明白に円に使用されたことはない。しかしながら、これらの輪郭追跡は、検出される輪郭に円を合わせれば、実行可能な技術であると考えられる。
また、例えばＳＳＤ追跡（ＳＳＤ−Ｔｒａｃｋｉｎｇ）のように（例えば、非特許文献１５参照。）、領域を基礎とする追跡では、円が対象物のより大きな表面の一部である場合や、円自体が良好なテクスチャ及び妥当な大きさを有している場合にのみ、確実性がある。
【００７４】
次に、本例で使用するＥＰＩＣ法による処理について説明する。
ＥＰＩＣ法の基本的な考えは、巧みに配置された追跡線に対して低レベルな１次元の画像解析を行うことと、輪郭のエッジを速く信頼性高く見つけ直すための円の幾何学的なモデルとの組み合わせである（例えば、非特許文献１参照。）。ＥＰＩＣ法では、追跡線に沿ってエッジの画素を非常に速く見つけることができ、本例では、検出された動作領域Ｒ［ｎ］（ｉ）の中から円の輪郭のエッジを確実に信頼性高く見つけることができる。
【００７５】
ＥＰＩＣ法では、概略的には、それぞれのサイクルにおいて、次の（処理手順１）〜（処理手順２）のような処理が行われる。
（処理手順１）前回における円の状態から、円の新しい状態を予測し、予想される輪郭に沿って複数であるｍ個の追跡線を置く。各追跡線は、予め設定された長さＬを有し、予め設定された一定の幅を有する。なお、当該幅としては、例えば、１画素の幅が用いられる。
また、第１回目のサイクルでは、前回における円の状態として、例えば、上記した処理（２）において得られる３つのパラメータにより予測された円の状態が用いられる。
【００７６】
（処理手順２）次に、勾配とモード値を用いた処理により、それぞれの追跡線でエッジを見つける。なお、勾配は、画素の光強度（画素値）の勾配を示す。また、モードは、最も確率が高いものを示す。具体的には、例えば、或る追跡線上に複数の画素があって、これら複数の画素のそれぞれについての画素値の勾配において、“Ａ”という値の勾配を有する画素が最も多い（最も確率が高い）場合には、モード値を当該“Ａ”とする。
【００７７】
以下で、更に、ＥＰＩＣ法による処理を説明する。
それぞれの追跡線の状態は、位置（ｐｏｓｉｔｉｏｎ）と、方向（ｏｒｉｅｎｔａｔｉｏｎ）と、モデル値（ｍｏｄｅｌｖａｌｕｅ）を含む。これらの値は、追跡線を置くときに、更新される。また、本処理では、円の状態は、上記した円の３つのパラメータと、これに加えて、全ての追跡線に関する平均的なモード値により表される。
【００７８】
本例では、円（例えば予測された円）のパラメータから、追跡線を置く位置が見つけられる。通常、追跡線の数は５以上であることが必要であり、追跡線の幅は１画素である（例えば、非特許文献１参照。）。
ここで、図４には、円と、追跡線を置く主な配置の一例を示してある。
同図の例では、追跡線の数は８である。これらの追跡線は、円の輪郭に対して垂直（直交）の方向に向いており、円の境界線の周囲に等しい角度間隔で配置されている。
【００７９】
次に、追跡線が置かれた後に、それぞれの追跡線のエッジが見つけられる。
ここで、それぞれの追跡線は、関連する状態ベクトルを有している。当該状態ベクトルは、追跡線の中点の座標値（ｘ、ｙ）と、方向αと、２個のモード値ｍ［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］を有している。位置（ｘ、ｙ）と方向αは、配置処理（ｐｌａｃｅｍｅｎｔｐｒｏｃｅｄｕｒｅ）により決定される。
【００８０】
そして、正しいエッジが見つかった追跡線については、次回の追跡のサイクルにおいても今回の追跡のサイクルにおけるモード値［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］が継続される。つまり、或る追跡線により有効なエッジを見つけた場合には、次回のサイクルのモード値ｍ［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］としても、今回のサイクルの当該追跡線によるものと同一の値が使用される。他の場合には、円の実際の輪郭上にあるエッジが決定され、当該エッジに対するモード値ｍ［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］が計算し直される。
【００８１】
具体的には、それぞれのサイクルにおける上記した（処理手順２）には、次のような２つの操作（操作１）、（操作２）が含まれる。
（操作１）エッジを見つける。本例では、（８×１）の大きさのプレウィットフィルタ（Ｐｒｅｗｉｔｔｆｉｌｔｅｒ）を用いて、追跡線に沿った光強度Ｉ（ｚ）の一時微分ｇｒａｄＩ（ｚ）を計算する。ここで、光強度Ｉ（ｚ）は、追跡線に沿った方向の位置ｚにおける画素値を表す。
【００８２】
そして、それぞれの追跡線において、設定された閾値を用いることにより、全てのエッジ候補ＤＭ（ｋ）を見つける。ここで、勾配ｇｒａｄＩ（ｚ）の大きさが閾値を超える場合に当該勾配ｇｒａｄＩ（ｚ）の値をエッジ候補ＤＭ（ｋ）とする。また、閾値としては、種々な値が用いられてもよく、例えば、４などが設定される。また、ｋは、エッジ候補ＤＭ（ｋ）の番号を示す。
また、エッジ候補ＤＭ（ｋ）に対応する位置は、エッジが存在する位置の候補を定義し、追跡線に沿った位置（間隔）を定義する。追跡線が有する２つの端は、最も左端の位置と最も右端の位置として使用される。
【００８３】
（操作２）ヒストグラムの技術を用いて、エッジ候補ＤＭ（ｋ）の位置に対して左側と右側とのそれぞれの間隔について、モード値ｍ［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］を計算する。本例のヒストグラムでは、１つのビン（ｂｉｎ）は５個分の画素値（本例では、５個分の画素値に相当する勾配の値）から構成されており、これにより確実な結果が得られる。
【００８４】
ここで、エッジ候補ＤＭ（ｋ）の位置に対して左側と右側のそれぞれの間隔におけるモード値ｍ［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］としては、最大のカウント値（画素の数）に相当するビンの値（勾配の値）が設定される。つまり、追跡線上の左側の間隔において、或るビンに対応した勾配範囲に含まれる勾配を有する画素の数が最も多い場合には当該ビンに対応した勾配をｍ［ｌｅｆｔ］とし、同様に、追跡線上の右側の間隔において、或るビンに対応した勾配範囲に含まれる勾配を有する画素の数が最も多い場合には当該ビンに対応した勾配をｍ［ｒｉｇｈｔ］とする。
【００８５】
このように、エッジ候補ＤＭ（ｋ）の位置に対する間隔の左右の向きに基づいて、それぞれの番号ｋのエッジ候補ＤＭ（ｋ）について、左側のモード値ｍ［ｌｅｆｔ］と右側のモード値ｍ［ｒｉｇｈｔ］が割り当てられる。本例では、常に、円の中心に近い方が追跡線の左側であるとし、円の外側の領域に向かっている方が追跡線の右側であるとする。
これにより、それぞれのエッジ候補ＤＭ（ｋ）は、２個のモード値ｍ［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］を有する。
【００８６】
次に、エッジ候補ＤＭ（ｋ）に係るエッジが円の輪郭上にある実際のエッジである確からしさＬ（ｋ）は、式３〜式７のように表される。ここで、ｗｇは、情報（キュー）Ｃｇの重みである。また、式５において、ｍａｘは、最大値を表す。また、式６及び式７において、ｔ、（ｔ−１）はサイクルの数を表す。
【００８７】
【数３】

【００８８】
【数４】

【００８９】
【数５】

【００９０】
【数６】

【００９１】
【数７】

【００９２】
ここで、上記したそれぞれのキューＣ１〜Ｃ４の機能は、次の通りである。
すなわち、キューＣ１は、閾値を超える全てのエッジ候補ＤＭ（ｋ）を選択し、これは、雑音により発生するエッジ候補ＤＭ（ｋ）を削除する目的のみを有する。また、キューＣ２は、最大となるエッジ候補ＤＭ（ｋ）を選択するものである。また、キューＣ３及びキューＣ４は、前回のエッジ候補ＤＭ（ｋ）と類似するモード値ｍ［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］を有するエッジ候補ＤＭ（ｋ）を選択する。上記した式６及び上記した式７により表されるように、第ｔ番目のサイクルと第（ｔ−１）番目のサイクルとでモード値ｍ［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］が同一或いは類似する場合には、確からしさＬ（ｋ）が大きくなる。
【００９３】
そして、確からしさＬ（ｋ）の値が最大となるエッジ候補ＤＭ（ｋ）に係るエッジが、円の輪郭の新しい位置を示すものとし、後続して行われる円の検出のための決定機構において使用される。
本例の処理は全ての追跡線について行われ、これにより、それぞれの追跡線では１個（のみ）のエッジの位置（点）が見つけられる。新たなエッジの位置及び新たなモード値ｍ［ｌｅｆｔ］、ｍ［ｒｉｇｈｔ］の情報に基づく値が、それぞれの状態ベクトルに蓄積される。
【００９４】
（４）ランダムハフ変換を用いて動画像に含まれる時間的に変化する対象物を検出する処理について説明する。この処理では、画素の光強度（例えば、明るさ）が０〜２５５の値（画素値）で表される画像を処理対象として用いる。
本例では、図形のモデルに基づく決定アルゴリズムを用いて、追跡線のエッジから円を見つける。これは、ランダムハフ変換の考えに基づく。本例の決定アルゴリズムでは、図形のモデルとして、円を表す式が使用されており、これにより、円を表す式と最も適合する円の輪郭を見つける。
【００９５】
本例の決定アルゴリズムの原理としては、全ての選択可能なエッジの中からＱ個のエッジをランダムに選択して、当該選択したＱ個のエッジを用いて円を決定する。ここで、円は３個のパラメータにより決定され得るため、Ｑ＝３と設定する。また、選択可能なエッジとしては、上記した処理（３）により見つけられた複数の追跡線のエッジを用いる。
【００９６】
なお、ランダムハフ変換を実施する詳細については、例えば、一般的に知られている方法を用いることができる（例えば、非特許文献１６参照。）。
また、ランダムハフ変換では、例えば、２個の異なる円の一部が重なっているような場合においても、当該重なりが小さければ、これらを２個の異なる円として検出することが可能である。
【００９７】
（５）実験結果の一例を示す。
本例の情報処理装置により動画の映像中に存在する円を追跡した結果の一例を示す。
図５には、直径が変化する動きのある円を含む、連続した動画像のフレームの一例を示してある。これは、原画像であり、同図中に示される円が追跡する対象となる実際の円である。なお、解像度は（２０００×２０００）［ｄｐｉ］であり、フレーム速度は７．５フレーム／秒（ｆｐｓ：frame per second）である。
【００９８】
図６には、上記した処理（１）により一時的差分法による処理を行った結果を示してある。この結果では、円の周囲の部分に、画素値が時間的に変化する画素の領域が見られる。
図７には、図６に示した画像をバイナリ画像へ変換した結果を示してある。なお、バイナリ画像へ変換するための画素値に関する閾値としては２０を用いた。図７に示した画像では、図６に示した画像と比べて、白黒が明確化されている。
【００９９】
図８には、図７に示した画像に対して上記した処理（２）によりブロック化処理を行って分解能を低減させた結果を示してある。ブロック化処理は、非常に有用であり、雑音を低減することができるばかりでなく、フィリング処理や連結要素ラベリングのような後の処理の速度を高めることができる。なお、本例では、ブロックの大きさとして、（８×８）画素の大きさを用いている。また、図８では、スケール調整して３００％にしてある。
【０１００】
図９には、図８に示した画像に対して、輪郭の欠けている０値（本例では、黒）の部分や輪郭の内部の０値（本例では、黒）の部分に相当するホールをフィリング処理により１値（本例では、白）へ変換した結果を示してある。図９に示した画像では、図８に示した画像中に見られる円の輪郭の欠けた部分も１値（白）へ変更されており、当該円の内部も１値（白）へ変更されている。
また、図９に示した画像に対して、上記した処理（２）により連結要素ラベリングの処理が行われ、その後、上記した処理（３）によりＥＰＩＣ法による処理が行われて複数の追跡線が引かれてエッジ検出が行われる。
【０１０１】
図１０には、上記した処理（４）によりランダムハフ変換による処理を行った結果を示してある。具体的には、図５に示したのと同様な追跡対象となる円（左側の方の円）と、これと比べて少し右側にずれた円であってランダムハフ変換により見つけられた円（右側の方の円）と、円の周囲に引かれた複数の追跡線が示されている。なお、図１０では、追跡対象となる円とランダムハフ変換により見つけられた円とが少しずれているが、これは誤差の範囲内であり、特に問題はない。追跡の精度については、例えば、処理に使用される画像の分解能などが調整されることにより、必要に応じて任意に設定されればよい。
【０１０２】
図１１には、各処理に要した時間の一例を示してある。具体的には、一時的差分（ＴＤ）法による処理と閾値処理とブロック化処理には２３０ｍｓかかり、輪郭や内部のフィリング処理には８０ｍｓかかり、連結要素ラベリング処理には１０ｍｓかかり、ＥＰＩＣ法による処理には１０ｍｓかかり、ランダムハフ変換（ＲＨＴ）による処理には１ｍｓかかり、全体では３３１ｍｓかかった。なお、コンピュータの機能としては、ＰＩＩ７３３ＭＨｚ及び１２８Ｍｂを用いた。
【０１０３】
本例の実験結果を、例えばＥＰＩＣ法とカルマンフィルタ（例えば、非特許文献１参照。）とを組み合わせた実験の結果と比較すると、本例の実験結果の方が、円が突然現れたり消えたりするような状況においても追跡に確実性があり、更に、円の一部が隠れるような状況においても追跡に確実性がある。このように、本例の情報処理装置では、円自体が変動する（ｎｏｎ−ｒｉｇｉｄである）ような場合や、複雑な背景が存在するような場合においても、実時間で追跡を行うことができ、追跡の性能が高く、高度な正確さで円の検出や追跡を行うことができる。
【０１０４】
（６）まとめ等を示す。
以上のように、本例の情報処理装置では、一時的差分法とランダムハフ変換を組み合わせた方法を用いて、動的映像において、媒介変数（パラメータ）を有する曲線などを確実に追跡することができる。具体的には、本例では、（１）一時的差分法により動作領域を検出し、（２）多段階の分解能（解像度）の連結要素ラベリングを行い、（３）ＥＰＩＣ法によりエッジを検出し、（４）ランダムハフ変換によりマッチングを行い、これにより、曲線などを検出や追跡することができる。
【０１０５】
このように、本例の情報処理装置では、一時的差分法とランダムハフ変換を組み合わせることにより、連続した高分解能画像中における媒介変数（パラメータ）を有する曲線などを実時間で追跡することができる新しい枠組みを提供している。また、本例の情報処理装置では、簡易で効率的な多段階分解能の連結要素ラベリング技術を提供している。
【０１０６】
また、本例のように一時的差分法とランダムハフ変換を組み合わせると、動き検出により導かれて追跡が行われるため、例えば、追跡処理において予測的なフィルタリングが必要となることを回避することが可能である。ここで、一時的差分法では、曲線などが存在する大雑把な領域を検出する。
なお、実時間で完全な円を追跡することは検討されているが（例えば、非特許文献１、８参照。）、本例の処理とは異なっている。
【０１０７】
本例の処理では、例えば、動作領域を検出するために一時的差分法を用いており、静止した円についてはパラメータのテンプレート相関マッチング法を用いており、これにより、検索空間を非常に低減することができ、カルマンフィルタでは不可能である円の突然の出現や消滅を扱うことができる。
【０１０８】
また、本例の処理では、多段階分解能の連結要素ラベリング法を用いることにより、雑音の除去と対象物のカウントを高速化している。
また、本例の処理では、円の決定処理において、ＲＡＮＳＡＣのようなサンプリング（例えば、非特許文献９参照。）ではなく、ランダムハフ変換を用いた。一般に、ランダムハフ変換の方が、ＲＡＮＳＡＣのようなサンプリングと比べて、計算上の複雑さが低い。
【０１０９】
なお、本例の情報処理装置では、上記した一連の処理（１）〜（４）を動画像のそれぞれの画像フレーム毎に行う実施の形態を用いることが可能であるばかりでなく、例えば、或る画像フレームについての処理で得られた円の状態に関する情報を次の画像フレームにおいて予測値として使用するような実施の形態を用いることも可能である。
【０１１０】
具体的には、一例として、或る画像フレームについて上記した一連の処理（１）〜（４）を行い、次の画像フレームについては前回の処理結果に基づいて上記したＥＰＩＣ法による処理（３）と上記したランダムハフ変換による処理（４）のみを行うようなことが可能である（例えば、非特許文献１７参照。）。つまり、隣接する前後の画像フレームの間で円の状態の変化（動き）が小さいような場合には、前の画像フレームにおける円の状態に関する情報を後の画像フレームにおいて利用しても、高い精度を保つことが可能である。
【０１１１】
また、本例では、検出や追跡する対象として円を用いたが、例えば、楕円や、四角や、線などのように種々な図形が検出や追跡する対象として用いられてもよく、このように、必ずしも曲線に限られない。また、検出や追跡する対象としては、長さや大きさや位置や濃度などの種々な要素が変化してもよく、本例の処理により検出や追跡することが可能である。なお、好ましくは、比較的簡易な数式で表現することが可能な図形が検出や追跡する対象とされるのがよいが、処理時間をかければ、複雑な図形を検出や追跡することも可能である。
【０１１２】
ここで、本発明に係る情報処理装置などの構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。なお、本発明は、例えば本発明に係る処理を実行する方法或いは方式や、このような方法や方式を実現するためのプログラムなどとして提供することも可能である。
また、本発明の適用分野としては、必ずしも以上に示したものに限られず、本発明は、種々な分野に適用することが可能なものである。
【０１１３】
また、本発明に係る情報処理装置などにおいて行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがＲＯＭ（Read Only Memory）に格納された制御プログラムを実行することにより制御される構成が用いられてもよく、また、例えば当該処理を実行するための各機能手段が独立したハードウエア回路として構成されてもよい。
また、本発明は上記の制御プログラムを格納したフロッピー（登録商標）ディスクやＣＤ（Compact Disc）−ＲＯＭ等のコンピュータにより読み取り可能な記憶媒体（記録媒体）や当該プログラム（自体）として把握することもでき、当該制御プログラムを記憶媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【０１１４】
【発明の効果】
以上説明したように、本発明に係る情報処理装置によると、例えば、一時的差分（ＴＤ）法を用いて動画像のフレームを構成する複数の画素の中から画素値が時間的に変化する画素を検出し、多段階分解能の連結要素ラベリング法を用いて当該検出結果に基づいて画素値が時間的に変化する画素領域を検出し、ＥＰＩＣ法を用いて当該検出される画素領域のエッジを検出し、ランダムハフ変換（ＲＨＴ）法を用いて当該検出結果に基づいて時間的に変化する対象を検出するようにしたため、動画像から時間的に変化する対象を確実に検出することができ、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することを可能とすることができる。
【図面の簡単な説明】
【図１】本発明の一実施例に係る情報処理装置の構成例を示す図である。
【図２】６連結した領域（一部）と走査処理の一例を示す図である。
【図３】ｐｓｅｕｄｏ−Ｐａｓｃａｌによるアルゴリズムの記述の一例を示す図である。
【図４】円の上に追跡線を配置する一例を示す図である。
【図５】原画像の一例を示す図である。
【図６】一時的差分法により得られる画像の一例を示す図である。
【図７】画素値のバイナリ化により得られる画像の一例を示す図である。
【図８】ブロック化処理により分解能が低減させられた画像の一例を示す図である。
【図９】フィリング処理後の画像の一例を示す図である。
【図１０】ランダムハフ変換法による円の検出結果の一例を示す図である。
【図１１】各処理に要する時間の一例を示す図である。
【符号の説明】
１・・変化画素検出機能、２・・変化画素領域検出機能、
３・・変化画素領域エッジ検出機能、４・・変化対象検出機能、

Claims

動画像から時間的に変化する対象を検出する情報処理装置において、
動画像の対象フレームと前記対象フレームと時間的に隣接する他のフレームとの対応する画素の画素値の差と予め定められた閾値との比較結果に基づき、画素値が時間的に変化する画素である変化画素を検出する変化画素検出手段と、
前記変化画素検出手段により検出された変化画素と他の画素を区別して表す動作画像について、分解能低減前の画像における予め定められた画素数を単位とした画素群に含まれる変化画素の数に基づいて、分解能を１段階低減させた画像の画素が変化画素であるか否かを決定する処理を、予め定められた分解能の画像が得られるまで繰り返し行い、これにより得られた分解能の異なる複数の画像を用いて、前記予め定められた分解能の画像における画素値が時間的に変化する画素領域の検出から開始して、当該検出した画素領域を処理対象領域として、分解能が１段階以上高い画像における画素値が時間的に変化する画素領域を検出することを複数段階繰り返す変化画素領域検出手段と、
前記対象フレームより時間的に前のフレームから検出された変化画素領域のエッジから前記対象フレームにおける変化画素領域のエッジを予測し、当該予測される変化画素領域のエッジに基づいて複数の追跡線を配置し、各追跡線についての勾配及びモード値に基づいてその追跡線のエッジを見つけることにより、前記変化画素領域検出手段により検出される画素領域のエッジを検出する変化画素領域エッジ検出手段と、
ランダムハフ変換法を用いて、前記変化画素領域エッジ検出手段による検出結果に基づいて時間的に変化する対象を検出する変化対象検出手段と、
を備えたことを特徴とする情報処理装置。
請求項１又は請求項２に記載の情報処理装置において、
前記変化画素領域検出手段は、ラベリング法を用いて、画素値が時間的に変化する複数の画素領域を識別して検出し、
前記変化画素領域エッジ検出手段は、前記変化画素領域検出手段により検出されるそれぞれの画素領域のエッジを検出し、
前記変化対象検出手段は、それぞれの画素領域毎に、前記変化画素領域エッジ検出手段による検出結果に基づいて時間的に変化する対象を検出する、
ことを特徴とする情報処理装置。
請求項１乃至請求項３のいずれか１項に記載の情報処理装置において、
前記変化対象検出手段により検出する対象は、パラメータを用いて表現される、
ことを特徴とする情報処理装置。
動画像から時間的に変化する対象を情報処理装置により検出する情報処理方法において、
前記情報処理装置は、変化画素検出手段と、変化画素領域検出手段と、変化画素領域エッジ検出手段と、変化対象検出手段と、を備えており、
前記変化画素検出手段が、動画像の対象フレームと前記対象フレームと時間的に隣接する他のフレームとの対応する画素の画素値の差と予め定められた閾値との比較結果に基づき、画素値が時間的に変化する画素である変化画素を検出し、
前記変化画素領域検出手段が、前記変化画素検出手段により検出された変化画素と他の画素を区別して表す動作画像について、分解能低減前の画像における予め定められた画素数を単位とした画素群に含まれる変化画素の数に基づいて、分解能を１段階低減させた画像の画素が変化画素であるか否かを決定する処理を、予め定められた分解能の画像が得られるまで繰り返し行い、これにより得られた分解能の異なる複数の画像を用いて、前記予め定められた分解能の画像における画素値が時間的に変化する画素領域の検出から開始して、当該検出した画素領域を処理対象領域として、分解能が１段階以上高い画像における画素値が時間的に変化する画素領域を検出することを複数段階繰り返し、
前記変化画素領域エッジ検出手段が、前記対象フレームより時間的に前のフレームから検出された変化画素領域のエッジから前記対象フレームにおける変化画素領域のエッジを予測し、当該予測される変化画素領域のエッジに基づいて複数の追跡線を配置し、各追跡線についての勾配及びモード値に基づいてその追跡線のエッジを見つけることにより、前記変化画素領域検出手段により検出される画素領域のエッジを検出し、
前記変化対象検出手段が、ランダムハフ変換法を用いて、前記変化画素領域エッジ検出手段による検出結果に基づいて時間的に変化する対象を検出する、
ことを特徴とする情報処理方法。
動画像の対象フレームと前記対象フレームと時間的に隣接する他のフレームとの対応する画素の画素値の差と予め定められた閾値との比較結果に基づき、画素値が時間的に変化する画素である変化画素を検出する変化画素検出機能と、
前記変化画素検出機能により検出された変化画素と他の画素を区別して表す動作画像について、分解能低減前の画像における予め定められた画素数を単位とした画素群に含まれる変化画素の数に基づいて、分解能を１段階低減させた画像の画素が変化画素であるか否かを決定する処理を、予め定められた分解能の画像が得られるまで繰り返し行い、これにより得られた分解能の異なる複数の画像を用いて、前記予め定められた分解能の画像における画素値が時間的に変化する画素領域の検出から開始して、当該検出した画素領域を処理対象領域として、分解能が１段階以上高い画像における画素値が時間的に変化する画素領域を検出することを複数段階繰り返す変化画素領域検出機能と、
前記対象フレームより時間的に前のフレームから検出された変化画素領域のエッジから前記対象フレームにおける変化画素領域のエッジを予測し、当該予測される変化画素領域のエッジに基づいて複数の追跡線を配置し、各追跡線についての勾配及びモード値に基づいてその追跡線のエッジを見つけることにより、前記変化画素領域検出機能により検出される画素領域のエッジを検出する変化画素領域エッジ検出機能と、
ランダムハフ変換法を用いて、前記変化画素領域エッジ検出機能による検出結果に基づいて時間的に変化する対象を検出する変化対象検出機能と、
をコンピュータに実現させるためのプログラム。
コンピュータに実行させるプログラムを当該コンピュータの入力手段により読み取り可能に記憶した記憶媒体において、
当該プログラムは、動画像の対象フレームと前記対象フレームと時間的に隣接する他のフレームとの対応する画素の画素値の差と予め定められた閾値との比較結果に基づき、画素値が時間的に変化する画素である変化画素を検出する変化画素検出機能と、
前記変化画素検出機能により検出された変化画素と他の画素を区別して表す動作画像について、分解能低減前の画像における予め定められた画素数を単位とした画素群に含まれる変化画素の数に基づいて、分解能を１段階低減させた画像の画素が変化画素であるか否かを決定する処理を、予め定められた分解能の画像が得られるまで繰り返し行い、これにより得られた分解能の異なる複数の画像を用いて、前記予め定められた分解能の画像における画素値が時間的に変化する画素領域の検出から開始して、当該検出した画素領域を処理対象領域として、分解能が１段階以上高い画像における画素値が時間的に変化する画素領域を検出することを複数段階繰り返す変化画素領域検出機能と、
前記対象フレームより時間的に前のフレームから検出された変化画素領域のエッジから前記対象フレームにおける変化画素領域のエッジを予測し、当該予測される変化画素領域のエッジに基づいて複数の追跡線を配置し、各追跡線についての勾配及びモード値に基づいてその追跡線のエッジを見つけることにより、前記変化画素領域検出機能により検出される画素領域のエッジを検出する変化画素領域エッジ検出機能と、
ランダムハフ変換法を用いて、前記変化画素領域エッジ検出機能による検出結果に基づいて時間的に変化する対象を検出する変化対象検出機能と、を当該コンピュータに実現させるためのプログラムである、
ことを特徴とする記憶媒体。