JP4356371B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP4356371B2
JP4356371B2 JP2003173524A JP2003173524A JP4356371B2 JP 4356371 B2 JP4356371 B2 JP 4356371B2 JP 2003173524 A JP2003173524 A JP 2003173524A JP 2003173524 A JP2003173524 A JP 2003173524A JP 4356371 B2 JP4356371 B2 JP 4356371B2
Authority
JP
Japan
Prior art keywords
pixel
change
image
edge
pixel region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003173524A
Other languages
English (en)
Other versions
JP2005011005A (ja
Inventor
ジェンル シュエ
保次 瀬古
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2003173524A priority Critical patent/JP4356371B2/ja
Publication of JP2005011005A publication Critical patent/JP2005011005A/ja
Application granted granted Critical
Publication of JP4356371B2 publication Critical patent/JP4356371B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、動画像から時間的に変化する対象を検出する情報処理装置などに関し、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することが可能な技術に関する。
【0002】
【従来の技術】
例えば、マシンビジョンにおいて、対象物を見つけて追従することは、1つの共通の目標となっている。このような画像処理を行うためのアルゴリズムとしては、一般に、2種類ある。1つは、領域分割(セグメンテーション)とマッチングの前処理として全フレーム範囲の画像処理を行うアルゴリズムであり、もう1つは、部分的な画像の特徴検出を行うアルゴリズムである。
【0003】
多くの追跡の問題はいずれのアルゴリズムによっても解決され得るが、解を得るためのデータ処理に対する要求は大きく異なる。オプティカルフローの計算或いは領域の分割のような全フレーム範囲に関するアルゴリズムは、大量のデータ処理になりやすく、オフラインで実行され、或いは、特別なハードウエアを使用して加速させられ得る。一方、特徴に基づくアルゴリズムは、通常、画像の空間的な一部の領域に集中し、そして、処理が必要なデータの量が比較的少なく、標準的な計算を行うハードウエアで動作する一連のアルゴリズムにより取り扱われることが可能である(例えば、非特許文献2参照。)。
【0004】
部分的な特徴検出の手法の中で、実時間の映像(動画像)において目標物を追跡する基本的な方法として、一時的差分(TD:Temporal Differencing)法や(例えば、非特許文献7参照。)、テンプレート相関マッチング法がある。一時的差分法では、一定の時間δtだけ離隔した映像のフレームが比較されて、変化した領域を見つける。テンプレート相関マッチング法では、それぞれの映像のフレームが走査(スキャン)されて、画像のテンプレートと最も相関する領域を見つける。
【0005】
これらの方法は、それぞれ、長所と短所を有している。一時的差分法は、目標物が隠れてしまったりその動きをやめてしまうような場合には、うまく機能しない。テンプレート相関マッチング法は、一般に、目標物の外観が一定であることを要求し、対象物の大きさや方向が変化し或いは光の当たり具合が変化するような場合においても確実性が低下してしまう。
【0006】
しかしながら、これら2つの方法による追跡の特性は相補的なものである。つまり、目標物が静止している場合には、テンプレート相関マッチング法の確実性が最大となる一方、一時的差分法はうまく機能しない。また、目標物が動いている場合には、一時的差分法がうまく機能する一方、テンプレート相関マッチング法は不安定となる。
【0007】
多くの人工の物体は、円形や楕円形などの図形であるといった視覚的な特徴或いはこのような図形の部分を含むといった視覚的な特徴を有している。このため、抽出される幾何学的な特徴を用いて対象となる物体の見かけを決定することも、活発に研究されている論題である。
【0008】
人工の物体を追跡するために使用される点や線や輪郭などのような幾何学的な特徴の中で、特に注目されている特徴は円である。この理由は、円は、円という1つの特徴の中に、3個の自由度(DOF:degree of freedom)を有しているからである。なお、比較例として、線の場合には自由度は2であり、点の場合には自由度は1である(例えば、非特許文献3〜5参照。)。
【0009】
また、ランダムハフ変換(RHT:Randomized Hough Transform)は、このような幾何学的な特徴を抽出するために使用されるのに非常に役立つ(例えば、非特許文献6参照。)。ランダムハフ変換は、検索空間の中で、パラメータで表示されるテンプレートモデルと画像との相関を用いて、相関のピークを見つける。
【0010】
【非特許文献1】
Ayromlou, M., Vincze, M., Kubinger, W., Zillich, M, Robust, Tracking of ellipses at Frame Rates”, OAGM workshop on Pattern recognition, 155-164, Steyr, Austria, May 27-28, 1999.
【非特許文献2】
Gregory D. Hager and Kentaro Toyama, X Vision: A portable substrate for real-time vision applications.”Computer Vision and Image Understanding , vol.69, no.1 Jan, 1998, pp.23-37
【非特許文献3】
M. Ferri, F.Mangili, G.Viano, Projective pose estimation of linear and quadratic primitives in monocular computer vision”, CVGIP:Image understanding 58(1)(1993)66-84.
【非特許文献4】
D. Forsyth, J.L. Mundy, A.Zisserman, C.Coelho, A.Heller, C.Rothwell, Invariant descriptors for 3-D objects recognition and pose”, IEEE PAMI 13 (10) (1991) 971-991.
【非特許文献5】
P.Wunsch, G. Hirzinger, Real-time visual tracking of 3-D object with dynamic handling of occlusion”, IEEE International Conference on Robotics and Automation, 1997.
【非特許文献6】
Lei XU, Erkki OJA, and Pekka Kultanena. A new curve detection method: Randomized hough transform.”Pattern Recognition Letters, (11):331-338, 1990
【非特許文献7】
C.Anderson, P.Burt, G.van der Wal, Change detection and tracking using pyramid transformation techniques”, SPIE-Intelligent Robots and Computer Vision, vol. 579, pp. 72-78, 1985.
【非特許文献8】
JOrg, S., Langwald, J.,el.al, Flexible Robot-Assembly using a multi-sensory approach”, IEEE ICRA, pp.3687-3694, 2000.
【非特許文献9】
Martin A. Fischler and Robert C. Bolles, Random Sample Consensus: A Paradigm for model fitting with applications to image anaysis and automated cartography”, Communications of ACM: Graphics and Image Processing, Vol.24,no.6, June 1981. pp. 381-395.
【非特許文献10】
M. Isard and A. Blake, Contour tracking by stochastic propagation of conditional density”, Proceedings of European Conference on Computer vision 96, pp. 343-356, 1996.
【非特許文献11】
R.K.K. Yip, P.K.S, Tam,D.N.K, Leung, Modification of Hough Transform for circles and ellipse detection using a 2-dimensional array”, Pattern Recognition 25 (9) (1992),pp.1007-1022.
【非特許文献12】
Y.Lei, K.-C.Wong, Ellipse detection based on the symmetry”, Pattern Recognition Lett. 20(1999)41-47.
【非特許文献13】
M. Kass, A. Witkin, D. Terzopoulos, Snakes: active contour model”, Int. J. Comput. Vision 1(1987)321-331.
【非特許文献14】
D. Terzopoulous, R. Szeliski, Tracking with Kalman snakes”, in: A.Blake, A.Yuille, Active vision, MIT Press, Cambridge, MA, 1992.
【非特許文献15】
G. Hager, K.oyama, The Xvision-system: a portable substrate for real-time vision applications”, Comput.Vision Image Understanding 69(1) (1998)23-37.
【非特許文献16】
Xue Jianru, Real time circle detection in Video”, IML-TR-02-006 (2002), Information Media Lab, Fuji Xerox Co.,Ltd.
【非特許文献17】
Xue Jianru, Robust tracking of multiple non-rigid circles in realtime”, Technical Report, (2003), Information Media Lab, Fuji Xerox Co.,Ltd.
【0011】
【発明が解決しようとする課題】
しかしながら、従来においては、動画像から時間的に変化する対象を検出する技術については、未だに不十分な点があり、更なる開発が要求されていた。具体的には、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することが可能な技術の開発が望まれていた。
【0012】
本発明は、このような従来の課題を解決するために為されたもので、動画像から時間的に変化する対象を確実に検出することができる情報処理装置などを提供することを目的とする。更に具体的には、本発明は、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することが可能な情報処理装置などを提供することを目的とする。
【0013】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る情報処理装置では、次のようにして、動画像から時間的に変化する対象を検出する。
すなわち、変化画素検出手段が、動画像のフレームを構成する複数の画素の中から、画素値が時間的に変化する画素を検出する。次に、変化画素領域検出手段が、変化画素検出手段による検出結果に基づいて、画素値が時間的に変化する画素領域を検出する。次に、変化画素領域エッジ検出手段が、変化画素領域検出手段により検出される画素領域のエッジを検出する。そして、変化対象検出手段が、変化画素領域エッジ検出手段による検出結果に基づいて、時間的に変化する対象を検出する。
【0014】
従って、上記のような処理の組み合わせにより、動画像から時間的に変化する対象を確実に検出することができる。
また、後述する本発明の実施例に示されるように、本発明に係る情報処理装置では、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することを可能とすることができる。
【0015】
ここで、動画像としては、種々なものが用いられてもよく、例えば、時間的に連続した複数の画像フレームから構成されるものが用いられる。また、それぞれの画像フレームは、例えば、所定の複数の画素から構成される。それぞれの画素は画素値を有する。
【0016】
また、検出する対象としては、種々なものが用いられてもよい。
また、対象の時間的な変化としては、種々な変化であってもよく、例えば、対象が動くという変化や、対象自体の大きさや形や濃度が変わるという変化などであってもよい。
【0017】
また、画素値が時間的に変化する画素領域としては、例えば、画素値が時間的に変化する1又は複数の画素から構成される。この場合、変化画素検出手段により検出される画素から、1個の画素領域が検出されてもよく、或いは、複数個の画素領域が検出されてもよい。また、変化画素検出手段により検出される画素以外の画素を含む画素領域が検出されてもよい。
また、エッジとしては、例えば、対象と背景との境界を示すものが検出される。
【0018】
以下で、更に、本発明に係る構成例を示す。
本発明に係る情報処理装置では、一構成例として、変化画素検出手段は、時間的に隣接する動画像のフレームに対して一時的差分(TD:Temporal Differencing)法による処理を行って、画素値が時間的に変化する画素を検出する。
従って、一時的差分法により、画素値が時間的に変化する画素を適切に検出することができる。
【0019】
ここで、時間的に隣接する動画像のフレームとしては、例えば、連続した2つの画像フレームが用いられる。
また、一時的差分法では、例えば、2つの画像フレームにおいて、画素値が変化している画素を検出する。
【0020】
本発明に係る情報処理装置では、一構成例として、変化画素領域検出手段は、画像の分解能を低くして、画素値が時間的に変化する画素領域を検出する。
従って、分解能が低い画像を用いて、画素値が時間的に変化する画素領域を検出する処理に要する負担や時間を低減することができる。
ここで、画像の分解能を低くする態様としては、種々な態様が用いられてもよい。
【0021】
本発明に係る情報処理装置では、一構成例として、変化画素領域検出手段は、画像の分解能を低くして画素値が時間的に変化する画素領域を検出した後に、当該検出した画素領域を処理対象領域として、高い分解能の画像に基づいて画素値が時間的に変化する画素領域を検出する。
【0022】
従って、分解能が低い画像を用いて、画素値が時間的に変化する画素領域を検出する処理に要する負担や時間を低減することができ、その後、例えば、検出した画素領域のみを処理対象領域として、高い分解能の画像を用いて、画素値が時間的に変化する画素領域を検出することにより、処理の効率化を図ることができる。
ここで、画像の分解能を低くする態様や、その後に高い分解能の画像を用いる態様としては、種々な態様が用いられてもよい。
【0023】
本発明に係る情報処理装置では、一構成例として、変化画素領域検出手段は、画素値が1値又は0値で表される画像(バイナリ画像)を処理対象とする場合に、次のようにして、画像の分解能を低くする。
すなわち、まず、画像フレームを構成する複数の画素に関して、所定の数の画素のまとまり毎にブロック化する。次に、画素値が1値である画素が画素値が0値である画素と比べて多く含まれるブロックに1値を割り当てる一方、画素値が0値である画素が画素値が1値である画素と比べて多く含まれるブロックに0値を割り当てる。そして、各ブロックを各画素とみなす。これにより、画像の分解能を低くする。
【0024】
従って、ブロック化を用いた簡易な処理により、画像の分解能を低下させることができる。具体的には、分解能低下前の画像(元の画像)における所定の数の画素のまとまりが、1個のブロックに相当し、分解能低下後の画像における1個の画素に相当する。
【0025】
ここで、1個のブロックを構成する所定の数の画素のまとまりとしては、種々なものが用いられてもよい。また、当該所定の数としては、種々な数が用いられてもよい。
また、例えば、1個のブロックに含まれる画素の数が偶数であり、画素値が1値である画素の数と画素値が0値である画素の数とが等しい場合には、当該ブロックに割り当てられる値(画素値)としては、1値が用いられてもよく、或いは、0値が用いられてもよい。
【0026】
本発明に係る情報処理装置では、一構成例として、変化画素領域エッジ検出手段は、EPIC(edge-projected integration of visual cues)法を用いて、変化画素領域検出手段により検出される画素領域のエッジを検出する。
従って、EPIC法により、画素領域のエッジを適切に検出することができる。
【0027】
本発明に係る情報処理装置では、一構成例として、変化対象検出手段は、ランダムハフ変換(RHT:Randomized Hough Transform)法を用いて、時間的に変化する対象を検出する。
従って、ランダムハフ変換法により、時間的に変化する対象を適切に検出することができる。
【0028】
本発明に係る情報処理装置では、例えば、動画像に時間的に変化する複数の対象が含まれるような場合に、一構成例として、次のような処理を行う。
すなわち、変化画素領域検出手段は、ラベリング法を用いて、画素値が時間的に変化する複数の画素領域を識別して検出する。また、変化画素領域エッジ検出手段は、変化画素領域検出手段により検出されるそれぞれの画素領域のエッジを検出する。また、変化対象検出手段は、それぞれの画素領域毎に、変化画素領域エッジ検出手段による検出結果に基づいて、時間的に変化する対象を検出する。
【0029】
従って、時間的に変化する複数の対象が動画像中に存在するような場合においても、これら複数の対象を確実に検出することができる。
ここで、複数の対象の数としては、種々な数が用いられてもよい。
また、複数の画素領域としては、種々な数が用いられてもよい。
また、それぞれの画素領域を識別する仕方としては、種々な仕方が用いられてもよく、例えば、番号などの識別情報を付する仕方などを用いることができる。
【0030】
本発明に係る情報処理装置では、例えば、変化対象検出手段により検出する対象は、パラメータを用いて表現される。
ここで、パラメータを用いて表現される対象としては、例えば、円や楕円などの曲線や、或いは、直線や、正方形や、長方形や、台形などの種々な図形が用いられてもよい。
【0031】
本発明では、以上に示したような種々な処理を行う方法を提供することも可能である。
一例として、本発明に係る情報処理方法では、次のようにして、動画像から時間的に変化する対象を検出する。
すなわち、動画像のフレームを構成する複数の画素の中から画素値が時間的に変化する画素を検出し、当該検出結果に基づいて画素値が時間的に変化する画素領域を検出し、当該検出される画素領域のエッジを検出し、当該検出結果に基づいて時間的に変化する対象を検出する。
【0032】
本発明では、以上に示したような種々な処理を行うためのプログラムを提供することも可能である。
一例として、本発明に係るプログラムでは、動画像のフレームを構成する複数の画素の中から画素値が時間的に変化する画素を検出する機能と、当該検出結果に基づいて画素値が時間的に変化する画素領域を検出する機能と、当該検出される画素領域のエッジを検出する機能と、当該検出結果に基づいて時間的に変化する対象を検出する機能をコンピュータにより実現する。
ここで、プログラムとしては、種々なものが用いられてもよい。
【0033】
本発明では、以上に示したような種々な処理を行うためのプログラムを記憶した記憶媒体を提供することも可能である。
一例として、本発明に係る記憶媒体では、コンピュータに実行させるプログラムを当該コンピュータの入力手段により読み取り可能に記憶している。
そして、当該プログラムは、動画像のフレームを構成する複数の画素の中から画素値が時間的に変化する画素を検出する処理と、当該検出結果に基づいて画素値が時間的に変化する画素領域を検出する処理と、当該検出される画素領域のエッジを検出する処理と、当該検出結果に基づいて時間的に変化する対象を検出する処理を当該コンピュータに実行させる。
【0034】
ここで、コンピュータとしては、種々なものが用いられてもよい。
また、プログラムとしては、種々なものが用いられてもよい。
また、コンピュータの入力手段としては、種々なものが用いられてもよい。
また、記憶媒体としては、種々なものが用いられてもよく、例えば、フロッピー(登録商標)ディスクや、CD(Compact Disc)−ROM(Read Only Memory)や、DVD(Digital Video Disc)などを用いることができる。
【0035】
【発明の実施の形態】
本発明に係る一実施例を図面を参照して説明する。
本例では、動画像に含まれる時間的に変化する円を検出する処理に本発明を適用した場合を示す。
図1には、本発明の一実施例に係る情報処理装置が備える機能の構成例を示してある。
【0036】
本例の情報処理装置には、一時的差分(TD:Temporal Differencing)法による処理や閾値処理を行う変化画素検出機能1と、ブロック化処理やフィリング処理や多段階分解能の連結要素ラベリング処理を行う変化画素領域検出機能2と、EPIC(edge-projected integration of visual cues)法による処理を行う変化画素領域エッジ検出機能3と、ランダムハフ変換(RHT:Randomized Hough Transform)法による処理を行う変化対象検出機能4が備えられている。それぞれの機能1〜4により行われる処理の具体例については、後述する。
【0037】
なお、本例の情報処理装置は、例えば、CPU(Central Processing Unit)やメモリを有したコンピュータを用いて構成される。メモリとしては、例えば、RAM(Random Access Memory)や、ROM(Read Only Memory)や、外部のハードウエア装置などを用いることができる。
【0038】
また、本例の情報処理装置の構成としては、種々な構成が用いられてもよく、例えば、1つの装置から構成されてもよく、或いは、複数の装置を組み合わせて構成されてもよい。また、本例の情報処理装置は、例えば、汎用の装置として構成されてもよく、或いは、専用の装置として構成されてもよい。
【0039】
本例の情報処理装置では、概略的には、(1)一時的差分法を用いて動画像に含まれる時間的に変化する画素を検出する処理と、(2)多段階分解能(multi−resolution)の連結要素(connected component)のラベリング(labeling)を用いて動画像に含まれる時間的に変化する画素領域を検出する処理と、(3)EPIC法を用いて動画像に含まれる時間的に変化する画素領域のエッジを検出する処理と、(4)ランダムハフ変換法を用いて動画像に含まれる時間的に変化する対象物を検出する処理を行う。
【0040】
以下で、本例の情報処理装置により行われるそれぞれの処理(1)〜(4)について説明する。
また、その後に、(5)実験結果の一例と、(6)まとめ等を示す。
【0041】
(1)一時的差分法を用いて動画像に含まれる時間的に変化する画素を検出する処理について説明する。この処理では、画素の光強度(例えば、明るさ)が0〜255の値(画素値)で表される画像を処理対象として用いる。
目標物の追跡では、動作情報(動きに関する情報)は重要な役割を果たす。適切な動作情報を得ることができれば、例えば、後処理として行われるマッチングにおける検索空間を減少させるために非常に役立つ。
【0042】
目標物を追跡する多くのシステムは、カルマンフィルタ(Kalman filter)に基づいている。しかしながら、これらは単一モードのガウシアン密度(uni−modal Gaussian densities)に基づいていることから、同時に他の動作の予測を為すことができないため、限られた範囲でしか使用することができない(例えば、非特許文献10参照。)。例えば、目標物が点であるような単純な場合には、カルマンフィルタを拡張して複数のデータの結合を扱うことがうまく機能するが、目標物自体が変動してしまう(“no−rigid”である)ような場合には単純に拡張することはできない。
【0043】
また、従前のカルマンフィルタより優れていて確実な追跡を行うことができる“Condensation”というランダムなアルゴリズムが開発されている(例えば、非特許文献10参照。)。しかしながら、“Condensation”のアルゴリズムでは、観測式や状態式を立てることが必要であり、実時間への適用の点で広い使用が制限されてしまう。
【0044】
そこで、本例では、一時的差分法を使用する。
一時的差分法は、目標物を追跡するための基本的な方法の1つである。一時的差分法には多くの変形があるが、最も簡単なものは、連続した映像(動画像)フレームを取り出して絶対的な変化(違い)を決定する方法である。このような変化を決定するためには、閾値に関する関数が使用される。
【0045】
例えば、n番目のフレームにおける座標(u,v)に位置する画素の光強度(画素値)がI[n](u,v)であるとすると、画素値に関する変化の関数Δ[n](u,v)は式1のように表される。なお、座標系としては、直交座標系を用いている。また、式1で、“||”は絶対値を表す。
【0046】
【数1】
Figure 0004356371
【0047】
そして、閾値処理を行うことにより、動作画像M[n](u,v)が式2に示されるようにして得られる。なお、式2で、Tは画素値に関する閾値である。当該閾値Tとしては、例えば処理の状況などに応じて、種々な値が設定されてもよい。
【0048】
【数2】
Figure 0004356371
【0049】
(2)多段階分解能の連結要素ラベリングを用いて動画像に含まれる時間的に変化する画素領域を検出する処理について説明する。この処理では、画素の光強度(例えば、明るさ)が0〜255の値(画素値)で表される画像に対して、例えば閾値=127として、画素値が閾値以下である画素を“0”値へ変換する一方、画素値が閾値以上である画素を“1”値へ変換することにより、画素値が1値又は0値で表される画像(バイナリ画像)を得て、当該バイナリ画像を処理対象として用いる。
【0050】
上記した処理(1)により動作画像M[n](u,v)が決定された後に、連結要素の基準を用いて、動いている部分を動作領域R[n](i)としてまとめる。ここで、iは、動作領域を識別する番号を示す。また、動作領域R[n](i)は、動いている部分の画素の集合に相当する。
【0051】
一般に、実時間に適用する場合には、連結要素の分析は処理時間を要するものである。
そこで、本例では、連結要素の分析の能率及び確実性を改善するために、多段階の分解能を使用する連結要素の解析のアルゴリズムを新たに開発した。本例のアルゴリズムでは、まず、比較的に分解能が低く粗い画像を用いて連結要素の解析を行い、その後、より分解能が高く細かい一連の画像を用いて、位置を正確にしていく。
【0052】
また、本例では、例えばサンプリングの数を減らして画像の画素数を減らすのではなく、“smearing”というブロック化技術を使用する。
具体的には、分解能が1段階低減させられた画像と、これと比べて分解能が1段階上である画像を考えた場合に、分解能が1段階低減させられた画像のそれぞれの画素が、分解能が1段階上である画像における(N×M)個の画素に相当するようにする。
【0053】
そして、分解能が1段階低減させられた画像のそれぞれの画素の画素値としては、例えば、当該画素に相当する前記(N×M)個の画素のうちの半分以上が1値(例えば、白)である場合には1値であるとし、そうでない場合にはつまり半分以上が0値(例えば、黒)である場合には0値であるとする。
【0054】
本例の多段階分解能の連結要素ラベリングの解析処理では、次の(処理手順1)〜(処理手順6)のような処理が行われる。
(処理手順1)原画像の分解能のままで得られるバイナリ画像B[0]のフレームを複数のサブブロックへ分割する。ここで、各サブブロックの大きさは(N×M)画素である。そして、各サブブロックは、当該バイナリ画像B[0]の分解能を1段階低減させた画像B[1]の各画素に相当する。なお、各サブブロックの大きさである(N×M)画素としては、種々な大きさが用いられてもよい。
【0055】
(処理手順2)また、原画像B[0]においてそれぞれのサブブロックに含まれる0値の画素の数をカウントし、0値の画素の数のカウント値が(N×M)/2を超えたサブブロックについては分解能が1段階低減された画像B[1]において対応する画素の画素値を0値とし、他のサブブロックについては分解能が1段階低減された画像B[1]において対応する画素の画素値を1値とする。
【0056】
なお、本例では、上記した(処理手順2)において、0値の画素の数をカウントしており、これは、一般的な動画像では、多くの場合において0値の画素である確率が1値の画素である確率と比べて大きいためである。これにより、処理時間を節約することが可能である。
【0057】
(処理手順3)上記した(処理手順1)及び上記した(処理手順2)と同様な処理を繰り返して行うことにより、要求される分解能の画像が得られるまで、分解能がj段階低減された画像B[j]を順次生成していく。これにより、j=J(Jは、例えば、1以上の整数)となるまで処理を行うと、原画像と比べて分解能が低減された一連のJ個の画像B[1]、B[2]、・・・、B[J]が得られる。
【0058】
(処理手順4)次に、分解能が最も低く粗い画像B[J]に対して、連結要素の解析を行い、そして、サイズフィルタを用いて雑音を除去しつつ、粗いラベリングの結果を取得する。ここで、ラベリングでは、時間的な変化があった画素を1以上の動作領域R[n](i)へまとめることが行われ、概略的には、隣接する画素或いは近くに位置する画素は同一の動作領域R[n](i)にまとめ、他の離隔した画素は異なる動作領域R[n](i)にまとめる。
【0059】
また、サイズフィルタによる処理では、例えば、ラベリングの後に、当該ラベリングによりまとめられた画素領域(動作領域R[n](i))に含まれる画素の数が所定の閾値と比べて小さい場合には、当該画素領域は雑音であるとみなして、当該画素領域を処理対象から除去することが行われる。当該閾値としては、例えば処理の状況などに応じて、種々な値が用いられてもよい。
【0060】
(処理手順5)また、必要に応じて、分解能がJ段階低減された画像B[J]でラベリングが為された画素領域(動作領域R[n](i))について、分解能が1段階上である画像B[J−1]或いは更に分解能が高い画像に対して、上記した連結要素の解析や上記したラベリングなどを行うことも可能である。このように、比較的に分解能が低く粗い画像で対象となる領域を絞り込んで、その後、比較的に分解能が高く細かな画像で当該領域のみに対して処理を行うと、総じて、処理の量や時間を短くして、効率的に精密な処理を行うことが可能である。
(処理手順6)このようにして、要求される分解能の処理結果が得られるまで、処理を継続する。
【0061】
ここで、本例では、連結要素のアルゴリズムにおいて、6連結の隣接の構造が採用されている。本例の6連結の隣接構造では、上側(N)、右側(E)、右下側(SE)、下側(S)、左側(W)、左上側(NW)の6個の方向に位置するデータを隣接するものとみなす。
なお、本例では、6方向を隣接とする6連結を用いたが、例えば、上下左右の4方向を隣接とする4連結や、上下左右及び斜め4方向を隣接とする8連結などのように、他の種々な連結が用いられてもよい。
また、走査(スキャン)は、左から右へ、上から下へ、行われる。
【0062】
また、ブロック化処理では、画像の分解能を低減させることができるとともに、上記した処理(1)における一時的差分法により発生した雑音を除去することができる。
また、本例では、一時的差分法により欠けた輪郭が生じた場合には、当該欠けた部分を埋めるために、形態論的な輪郭フィリング処理を行う。
また、本例では、一時的差分法により得られた輪郭の内部の画素の画素値を0値から1値へ変更する内部フィリング処理を行う。
また、ラベリングは、例えば、このような輪郭フィリング処理や内部フィリング処理の後に行われ、また、このような処理の前や中間といった種々な時期に行われてもよい。
【0063】
ここで、図2には、領域Aが処理対象である場合における、6連結領域の一部の領域B、C、Dを示してあるとともに、走査処理の方向を矢印で示してある。なお、それぞれの領域A、B、C、Dは、処理対象としている分解能の画像におけるそれぞれの画素に相当する。
また、図3には、領域Aが処理対象である場合においてラベリングを行う処理を記述した“pseudo−Pascal”によるアルゴリズムの一例を示してある。
【0064】
図3に示したアルゴリズムでは、まず、領域Aの画素値が0値である場合には何もしない。
一方、領域Aの画素値が1値である場合には、次のような処理を行う。
すなわち、領域Dにラベルが付されている場合には、領域Dのラベルを領域Aにコピーして付する。また、領域Dにラベルが付されてなく、領域Bと領域Cの両方に同一のラベルが付されている場合には、当該ラベルを領域Aにコピーして付する。また、領域Dにラベルが付されてなく、領域Bと領域Cに互いに異なるラベルが付されている場合には、領域Bのラベルを領域Cのラベルへ変更して当該ラベルを領域Aにコピーして付することにより、これら3つの領域A、B、Cのラベルを同一とする。また、領域Dにラベルが付されてなく、領域Bと領域Cの一方のみにラベルが付されている場合には、当該ラベルを領域Aにコピーして付する。また、領域Dにラベルが付されてなく、領域Bと領域Cのいずれにもラベルが付されていない場合には、新たなラベルを選択して領域Aに付する。
【0065】
1回目の走査が終了すると、同一の目標物に属するとみなされる画素には同一のラベルが付される。
また、必要に応じて、2回目の走査を行って、例えば“remarge”により、離れてはいるが近くに位置する1値の領域(画素)の間に存在する0値の領域(画素)を1値の領域(画素)へ変更する補間処理が為され、これにより、同一の目標物には同一のラベルが付されることが保証される。
【0066】
具体的には、ラベリングでは、例えば、画像フレーム中にP個の動作領域R[n](1)、R[n](2)、・・・、R[n](P)が存在する場合には、それぞれに異なるラベルが付される。
なお、画像フレーム中に対象物として複数の円が存在する場合には、例えば、隣接する円が十分に離れている場合には各動作領域R[n](1)、R[n](2)、・・・、R[n](P)にそれぞれ1個の円が含まれるが、隣接する円が見かけ上繋がっていたり重なっているような場合には、1個の動作領域R[n](i)に2以上の円が含まれることもあり得る。
【0067】
また、2回目の走査では、各動作領域R[n](i)について、画素の総数に相当する面積及び重心を容易に得ることができる。当該面積からは円の半径が得られ、当該重心からはX−Y直交座標系を考えた場合における重心のX座標の値及びY座標の値が得られ、これら3つのパラメータにより円の予測された状態が定義される。これら3つのパラメータ(半径或いは面積、重心のX座標、重心のY座標)は、後処理であるエッジ検出の処理で非常に役に立つ。
【0068】
なお、ブロック化処理や、輪郭フィリング処理や、内部フィリング処理や、連結要素の解析処理や、ラベリング処理などを行う対象となる画像の分解能としては、必ずしも本例で示したものに限定されず、それぞれ、種々な分解能が用いられてもよい。また、例えば、全ての処理が原画像のように分解能が高い画像に対して行われてもよい。
【0069】
(3)EPIC法を用いて動画像に含まれる時間的に変化する画素領域のエッジを検出する処理について説明する。この処理では、上記した処理(2)による処理結果を原画像と同一の光強度(画素値)を有する画像へ反映させて、再び、画素の光強度(例えば、明るさ)が0〜255の値(画素値)で表される画像を処理対象として用いる。
【0070】
まず、エッジ検出に関して、関連する技術を説明する。
円を検出するための最も知られている技術は、ハフ変換(HT:Hough Transform)である(例えば、非特許文献6参照。)。他の方法と比べて、ハフ変換は非常に確実性がある。基本的な方法の変形では、計算時間を低減するために複数ステップのアプローチが使用され、例えば、ランダムハフ変換や(例えば、非特許文献6参照。)、2次元の累算器のアレイを使用するモディファイド・ハフ変換(modified HT)があり(例えば、非特許文献11参照)、或いは、幾何学的な対称性を使用する(例えば、非特許文献12参照。)。
【0071】
しかしながら、これらの方法では、フレーム速度を高めることが難しい。例えば、処理時間は、エッジマップの画素の数に非常に強く依存する。
また、円を追跡する場合には、アルゴリズムでは前回の画像と比較して円の輪郭を見つけることが可能である。円を追跡するために使用することが可能な技術の1つとして、輪郭追跡によるものがある。精密で簡潔なアルゴリズムとして、“snake”という動的な輪郭のモデルがある(例えば、非特許文献13参照。)。
【0072】
この“snake”のアルゴリズムでは、画像から得られる内部の力と外部の力にスプラインを従わせ、当該スプラインを曲線(例えば、円)に合わせる。この方法は実時間で機能するが、例えば、対象物が複雑な背景の前を動いて、輪郭の勾配が大きく変化して符号が変化するような場合には、追跡において問題が発生する。
【0073】
近年、古典的な“snake”のアルゴリズムは、改良されてきている(例えば、非特許文献14参照。)。これらの輪郭追跡は、明白に円に使用されたことはない。しかしながら、これらの輪郭追跡は、検出される輪郭に円を合わせれば、実行可能な技術であると考えられる。
また、例えばSSD追跡(SSD−Tracking)のように(例えば、非特許文献15参照。)、領域を基礎とする追跡では、円が対象物のより大きな表面の一部である場合や、円自体が良好なテクスチャ及び妥当な大きさを有している場合にのみ、確実性がある。
【0074】
次に、本例で使用するEPIC法による処理について説明する。
EPIC法の基本的な考えは、巧みに配置された追跡線に対して低レベルな1次元の画像解析を行うことと、輪郭のエッジを速く信頼性高く見つけ直すための円の幾何学的なモデルとの組み合わせである(例えば、非特許文献1参照。)。EPIC法では、追跡線に沿ってエッジの画素を非常に速く見つけることができ、本例では、検出された動作領域R[n](i)の中から円の輪郭のエッジを確実に信頼性高く見つけることができる。
【0075】
EPIC法では、概略的には、それぞれのサイクルにおいて、次の(処理手順1)〜(処理手順2)のような処理が行われる。
(処理手順1)前回における円の状態から、円の新しい状態を予測し、予想される輪郭に沿って複数であるm個の追跡線を置く。各追跡線は、予め設定された長さLを有し、予め設定された一定の幅を有する。なお、当該幅としては、例えば、1画素の幅が用いられる。
また、第1回目のサイクルでは、前回における円の状態として、例えば、上記した処理(2)において得られる3つのパラメータにより予測された円の状態が用いられる。
【0076】
(処理手順2)次に、勾配とモード値を用いた処理により、それぞれの追跡線でエッジを見つける。なお、勾配は、画素の光強度(画素値)の勾配を示す。また、モードは、最も確率が高いものを示す。具体的には、例えば、或る追跡線上に複数の画素があって、これら複数の画素のそれぞれについての画素値の勾配において、“A”という値の勾配を有する画素が最も多い(最も確率が高い)場合には、モード値を当該“A”とする。
【0077】
以下で、更に、EPIC法による処理を説明する。
それぞれの追跡線の状態は、位置(position)と、方向(orientation)と、モデル値(model value)を含む。これらの値は、追跡線を置くときに、更新される。また、本処理では、円の状態は、上記した円の3つのパラメータと、これに加えて、全ての追跡線に関する平均的なモード値により表される。
【0078】
本例では、円(例えば予測された円)のパラメータから、追跡線を置く位置が見つけられる。通常、追跡線の数は5以上であることが必要であり、追跡線の幅は1画素である(例えば、非特許文献1参照。)。
ここで、図4には、円と、追跡線を置く主な配置の一例を示してある。
同図の例では、追跡線の数は8である。これらの追跡線は、円の輪郭に対して垂直(直交)の方向に向いており、円の境界線の周囲に等しい角度間隔で配置されている。
【0079】
次に、追跡線が置かれた後に、それぞれの追跡線のエッジが見つけられる。
ここで、それぞれの追跡線は、関連する状態ベクトルを有している。当該状態ベクトルは、追跡線の中点の座標値(x、y)と、方向αと、2個のモード値m[left]、m[right]を有している。位置(x、y)と方向αは、配置処理(placement procedure)により決定される。
【0080】
そして、正しいエッジが見つかった追跡線については、次回の追跡のサイクルにおいても今回の追跡のサイクルにおけるモード値[left]、m[right]が継続される。つまり、或る追跡線により有効なエッジを見つけた場合には、次回のサイクルのモード値m[left]、m[right]としても、今回のサイクルの当該追跡線によるものと同一の値が使用される。他の場合には、円の実際の輪郭上にあるエッジが決定され、当該エッジに対するモード値m[left]、m[right]が計算し直される。
【0081】
具体的には、それぞれのサイクルにおける上記した(処理手順2)には、次のような2つの操作(操作1)、(操作2)が含まれる。
(操作1)エッジを見つける。本例では、(8×1)の大きさのプレウィットフィルタ(Prewitt filter)を用いて、追跡線に沿った光強度I(z)の一時微分gradI(z)を計算する。ここで、光強度I(z)は、追跡線に沿った方向の位置zにおける画素値を表す。
【0082】
そして、それぞれの追跡線において、設定された閾値を用いることにより、全てのエッジ候補DM(k)を見つける。ここで、勾配gradI(z)の大きさが閾値を超える場合に当該勾配gradI(z)の値をエッジ候補DM(k)とする。また、閾値としては、種々な値が用いられてもよく、例えば、4などが設定される。また、kは、エッジ候補DM(k)の番号を示す。
また、エッジ候補DM(k)に対応する位置は、エッジが存在する位置の候補を定義し、追跡線に沿った位置(間隔)を定義する。追跡線が有する2つの端は、最も左端の位置と最も右端の位置として使用される。
【0083】
(操作2)ヒストグラムの技術を用いて、エッジ候補DM(k)の位置に対して左側と右側とのそれぞれの間隔について、モード値m[left]、m[right]を計算する。本例のヒストグラムでは、1つのビン(bin)は5個分の画素値(本例では、5個分の画素値に相当する勾配の値)から構成されており、これにより確実な結果が得られる。
【0084】
ここで、エッジ候補DM(k)の位置に対して左側と右側のそれぞれの間隔におけるモード値m[left]、m[right]としては、最大のカウント値(画素の数)に相当するビンの値(勾配の値)が設定される。つまり、追跡線上の左側の間隔において、或るビンに対応した勾配範囲に含まれる勾配を有する画素の数が最も多い場合には当該ビンに対応した勾配をm[left]とし、同様に、追跡線上の右側の間隔において、或るビンに対応した勾配範囲に含まれる勾配を有する画素の数が最も多い場合には当該ビンに対応した勾配をm[right]とする。
【0085】
このように、エッジ候補DM(k)の位置に対する間隔の左右の向きに基づいて、それぞれの番号kのエッジ候補DM(k)について、左側のモード値m[left]と右側のモード値m[right]が割り当てられる。本例では、常に、円の中心に近い方が追跡線の左側であるとし、円の外側の領域に向かっている方が追跡線の右側であるとする。
これにより、それぞれのエッジ候補DM(k)は、2個のモード値m[left]、m[right]を有する。
【0086】
次に、エッジ候補DM(k)に係るエッジが円の輪郭上にある実際のエッジである確からしさL(k)は、式3〜式7のように表される。ここで、wgは、情報(キュー)Cgの重みである。また、式5において、maxは、最大値を表す。また、式6及び式7において、t、(t−1)はサイクルの数を表す。
【0087】
【数3】
Figure 0004356371
【0088】
【数4】
Figure 0004356371
【0089】
【数5】
Figure 0004356371
【0090】
【数6】
Figure 0004356371
【0091】
【数7】
Figure 0004356371
【0092】
ここで、上記したそれぞれのキューC1〜C4の機能は、次の通りである。
すなわち、キューC1は、閾値を超える全てのエッジ候補DM(k)を選択し、これは、雑音により発生するエッジ候補DM(k)を削除する目的のみを有する。また、キューC2は、最大となるエッジ候補DM(k)を選択するものである。また、キューC3及びキューC4は、前回のエッジ候補DM(k)と類似するモード値m[left]、m[right]を有するエッジ候補DM(k)を選択する。上記した式6及び上記した式7により表されるように、第t番目のサイクルと第(t−1)番目のサイクルとでモード値m[left]、m[right]が同一或いは類似する場合には、確からしさL(k)が大きくなる。
【0093】
そして、確からしさL(k)の値が最大となるエッジ候補DM(k)に係るエッジが、円の輪郭の新しい位置を示すものとし、後続して行われる円の検出のための決定機構において使用される。
本例の処理は全ての追跡線について行われ、これにより、それぞれの追跡線では1個(のみ)のエッジの位置(点)が見つけられる。新たなエッジの位置及び新たなモード値m[left]、m[right]の情報に基づく値が、それぞれの状態ベクトルに蓄積される。
【0094】
(4)ランダムハフ変換を用いて動画像に含まれる時間的に変化する対象物を検出する処理について説明する。この処理では、画素の光強度(例えば、明るさ)が0〜255の値(画素値)で表される画像を処理対象として用いる。
本例では、図形のモデルに基づく決定アルゴリズムを用いて、追跡線のエッジから円を見つける。これは、ランダムハフ変換の考えに基づく。本例の決定アルゴリズムでは、図形のモデルとして、円を表す式が使用されており、これにより、円を表す式と最も適合する円の輪郭を見つける。
【0095】
本例の決定アルゴリズムの原理としては、全ての選択可能なエッジの中からQ個のエッジをランダムに選択して、当該選択したQ個のエッジを用いて円を決定する。ここで、円は3個のパラメータにより決定され得るため、Q=3と設定する。また、選択可能なエッジとしては、上記した処理(3)により見つけられた複数の追跡線のエッジを用いる。
【0096】
なお、ランダムハフ変換を実施する詳細については、例えば、一般的に知られている方法を用いることができる(例えば、非特許文献16参照。)。
また、ランダムハフ変換では、例えば、2個の異なる円の一部が重なっているような場合においても、当該重なりが小さければ、これらを2個の異なる円として検出することが可能である。
【0097】
(5)実験結果の一例を示す。
本例の情報処理装置により動画の映像中に存在する円を追跡した結果の一例を示す。
図5には、直径が変化する動きのある円を含む、連続した動画像のフレームの一例を示してある。これは、原画像であり、同図中に示される円が追跡する対象となる実際の円である。なお、解像度は(2000×2000)[dpi]であり、フレーム速度は7.5フレーム/秒(fps:frame per second)である。
【0098】
図6には、上記した処理(1)により一時的差分法による処理を行った結果を示してある。この結果では、円の周囲の部分に、画素値が時間的に変化する画素の領域が見られる。
図7には、図6に示した画像をバイナリ画像へ変換した結果を示してある。なお、バイナリ画像へ変換するための画素値に関する閾値としては20を用いた。図7に示した画像では、図6に示した画像と比べて、白黒が明確化されている。
【0099】
図8には、図7に示した画像に対して上記した処理(2)によりブロック化処理を行って分解能を低減させた結果を示してある。ブロック化処理は、非常に有用であり、雑音を低減することができるばかりでなく、フィリング処理や連結要素ラベリングのような後の処理の速度を高めることができる。なお、本例では、ブロックの大きさとして、(8×8)画素の大きさを用いている。また、図8では、スケール調整して300%にしてある。
【0100】
図9には、図8に示した画像に対して、輪郭の欠けている0値(本例では、黒)の部分や輪郭の内部の0値(本例では、黒)の部分に相当するホールをフィリング処理により1値(本例では、白)へ変換した結果を示してある。図9に示した画像では、図8に示した画像中に見られる円の輪郭の欠けた部分も1値(白)へ変更されており、当該円の内部も1値(白)へ変更されている。
また、図9に示した画像に対して、上記した処理(2)により連結要素ラベリングの処理が行われ、その後、上記した処理(3)によりEPIC法による処理が行われて複数の追跡線が引かれてエッジ検出が行われる。
【0101】
図10には、上記した処理(4)によりランダムハフ変換による処理を行った結果を示してある。具体的には、図5に示したのと同様な追跡対象となる円(左側の方の円)と、これと比べて少し右側にずれた円であってランダムハフ変換により見つけられた円(右側の方の円)と、円の周囲に引かれた複数の追跡線が示されている。なお、図10では、追跡対象となる円とランダムハフ変換により見つけられた円とが少しずれているが、これは誤差の範囲内であり、特に問題はない。追跡の精度については、例えば、処理に使用される画像の分解能などが調整されることにより、必要に応じて任意に設定されればよい。
【0102】
図11には、各処理に要した時間の一例を示してある。具体的には、一時的差分(TD)法による処理と閾値処理とブロック化処理には230msかかり、輪郭や内部のフィリング処理には80msかかり、連結要素ラベリング処理には10msかかり、EPIC法による処理には10msかかり、ランダムハフ変換(RHT)による処理には1msかかり、全体では331msかかった。なお、コンピュータの機能としては、PII 733MHz及び128Mbを用いた。
【0103】
本例の実験結果を、例えばEPIC法とカルマンフィルタ(例えば、非特許文献1参照。)とを組み合わせた実験の結果と比較すると、本例の実験結果の方が、円が突然現れたり消えたりするような状況においても追跡に確実性があり、更に、円の一部が隠れるような状況においても追跡に確実性がある。このように、本例の情報処理装置では、円自体が変動する(non−rigidである)ような場合や、複雑な背景が存在するような場合においても、実時間で追跡を行うことができ、追跡の性能が高く、高度な正確さで円の検出や追跡を行うことができる。
【0104】
(6)まとめ等を示す。
以上のように、本例の情報処理装置では、一時的差分法とランダムハフ変換を組み合わせた方法を用いて、動的映像において、媒介変数(パラメータ)を有する曲線などを確実に追跡することができる。具体的には、本例では、(1)一時的差分法により動作領域を検出し、(2)多段階の分解能(解像度)の連結要素ラベリングを行い、(3)EPIC法によりエッジを検出し、(4)ランダムハフ変換によりマッチングを行い、これにより、曲線などを検出や追跡することができる。
【0105】
このように、本例の情報処理装置では、一時的差分法とランダムハフ変換を組み合わせることにより、連続した高分解能画像中における媒介変数(パラメータ)を有する曲線などを実時間で追跡することができる新しい枠組みを提供している。また、本例の情報処理装置では、簡易で効率的な多段階分解能の連結要素ラベリング技術を提供している。
【0106】
また、本例のように一時的差分法とランダムハフ変換を組み合わせると、動き検出により導かれて追跡が行われるため、例えば、追跡処理において予測的なフィルタリングが必要となることを回避することが可能である。ここで、一時的差分法では、曲線などが存在する大雑把な領域を検出する。
なお、実時間で完全な円を追跡することは検討されているが(例えば、非特許文献1、8参照。)、本例の処理とは異なっている。
【0107】
本例の処理では、例えば、動作領域を検出するために一時的差分法を用いており、静止した円についてはパラメータのテンプレート相関マッチング法を用いており、これにより、検索空間を非常に低減することができ、カルマンフィルタでは不可能である円の突然の出現や消滅を扱うことができる。
【0108】
また、本例の処理では、多段階分解能の連結要素ラベリング法を用いることにより、雑音の除去と対象物のカウントを高速化している。
また、本例の処理では、円の決定処理において、RANSACのようなサンプリング(例えば、非特許文献9参照。)ではなく、ランダムハフ変換を用いた。一般に、ランダムハフ変換の方が、RANSACのようなサンプリングと比べて、計算上の複雑さが低い。
【0109】
なお、本例の情報処理装置では、上記した一連の処理(1)〜(4)を動画像のそれぞれの画像フレーム毎に行う実施の形態を用いることが可能であるばかりでなく、例えば、或る画像フレームについての処理で得られた円の状態に関する情報を次の画像フレームにおいて予測値として使用するような実施の形態を用いることも可能である。
【0110】
具体的には、一例として、或る画像フレームについて上記した一連の処理(1)〜(4)を行い、次の画像フレームについては前回の処理結果に基づいて上記したEPIC法による処理(3)と上記したランダムハフ変換による処理(4)のみを行うようなことが可能である(例えば、非特許文献17参照。)。つまり、隣接する前後の画像フレームの間で円の状態の変化(動き)が小さいような場合には、前の画像フレームにおける円の状態に関する情報を後の画像フレームにおいて利用しても、高い精度を保つことが可能である。
【0111】
また、本例では、検出や追跡する対象として円を用いたが、例えば、楕円や、四角や、線などのように種々な図形が検出や追跡する対象として用いられてもよく、このように、必ずしも曲線に限られない。また、検出や追跡する対象としては、長さや大きさや位置や濃度などの種々な要素が変化してもよく、本例の処理により検出や追跡することが可能である。なお、好ましくは、比較的簡易な数式で表現することが可能な図形が検出や追跡する対象とされるのがよいが、処理時間をかければ、複雑な図形を検出や追跡することも可能である。
【0112】
ここで、本発明に係る情報処理装置などの構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。なお、本発明は、例えば本発明に係る処理を実行する方法或いは方式や、このような方法や方式を実現するためのプログラムなどとして提供することも可能である。
また、本発明の適用分野としては、必ずしも以上に示したものに限られず、本発明は、種々な分野に適用することが可能なものである。
【0113】
また、本発明に係る情報処理装置などにおいて行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがROM(Read Only Memory)に格納された制御プログラムを実行することにより制御される構成が用いられてもよく、また、例えば当該処理を実行するための各機能手段が独立したハードウエア回路として構成されてもよい。
また、本発明は上記の制御プログラムを格納したフロッピー(登録商標)ディスクやCD(Compact Disc)−ROM等のコンピュータにより読み取り可能な記憶媒体(記録媒体)や当該プログラム(自体)として把握することもでき、当該制御プログラムを記憶媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【0114】
【発明の効果】
以上説明したように、本発明に係る情報処理装置によると、例えば、一時的差分(TD)法を用いて動画像のフレームを構成する複数の画素の中から画素値が時間的に変化する画素を検出し、多段階分解能の連結要素ラベリング法を用いて当該検出結果に基づいて画素値が時間的に変化する画素領域を検出し、EPIC法を用いて当該検出される画素領域のエッジを検出し、ランダムハフ変換(RHT)法を用いて当該検出結果に基づいて時間的に変化する対象を検出するようにしたため、動画像から時間的に変化する対象を確実に検出することができ、例えば、背景が複雑であるような場合や、対象が突然出現或いは消滅したり対象の一部が隠れたりするような場合においても、確実に対象を検出することを可能とすることができる。
【図面の簡単な説明】
【図1】 本発明の一実施例に係る情報処理装置の構成例を示す図である。
【図2】 6連結した領域(一部)と走査処理の一例を示す図である。
【図3】 pseudo−Pascalによるアルゴリズムの記述の一例を示す図である。
【図4】 円の上に追跡線を配置する一例を示す図である。
【図5】 原画像の一例を示す図である。
【図6】 一時的差分法により得られる画像の一例を示す図である。
【図7】 画素値のバイナリ化により得られる画像の一例を示す図である。
【図8】 ブロック化処理により分解能が低減させられた画像の一例を示す図である。
【図9】 フィリング処理後の画像の一例を示す図である。
【図10】 ランダムハフ変換法による円の検出結果の一例を示す図である。
【図11】 各処理に要する時間の一例を示す図である。
【符号の説明】
1・・変化画素検出機能、 2・・変化画素領域検出機能、
3・・変化画素領域エッジ検出機能、 4・・変化対象検出機能、

Claims (6)

  1. 動画像から時間的に変化する対象を検出する情報処理装置において、
    動画像の対象フレームと前記対象フレームと時間的に隣接する他のフレームとの対応する画素の画素値の差と予め定められた閾値との比較結果に基づき、画素値が時間的に変化する画素である変化画素を検出する変化画素検出手段と、
    前記変化画素検出手段により検出された変化画素と他の画素を区別して表す動作画像について、分解能低減前の画像における予め定められた画素数を単位とした画素群に含まれる変化画素の数に基づいて、分解能を1段階低減させた画像の画素が変化画素であるか否かを決定する処理を、予め定められた分解能の画像が得られるまで繰り返し行い、これにより得られた分解能の異なる複数の画像を用いて、前記予め定められた分解能の画像における画素値が時間的に変化する画素領域の検出から開始して、当該検出した画素領域を処理対象領域として、分解能が1段階以上高い画像における画素値が時間的に変化する画素領域を検出することを複数段階繰り返す変化画素領域検出手段と、
    前記対象フレームより時間的に前のフレームから検出された変化画素領域のエッジから前記対象フレームにおける変化画素領域のエッジを予測し、当該予測される変化画素領域のエッジに基づいて複数の追跡線を配置し、各追跡線についての勾配及びモード値に基づいてその追跡線のエッジを見つけることにより、前記変化画素領域検出手段により検出される画素領域のエッジを検出する変化画素領域エッジ検出手段と、
    ランダムハフ変換法を用いて、前記変化画素領域エッジ検出手段による検出結果に基づいて時間的に変化する対象を検出する変化対象検出手段と、
    を備えたことを特徴とする情報処理装置。
  2. 請求項1又は請求項2に記載の情報処理装置において、
    前記変化画素領域検出手段は、ラベリング法を用いて、画素値が時間的に変化する複数の画素領域を識別して検出し、
    前記変化画素領域エッジ検出手段は、前記変化画素領域検出手段により検出されるそれぞれの画素領域のエッジを検出し、
    前記変化対象検出手段は、それぞれの画素領域毎に、前記変化画素領域エッジ検出手段による検出結果に基づいて時間的に変化する対象を検出する、
    ことを特徴とする情報処理装置。
  3. 請求項1乃至請求項のいずれか1項に記載の情報処理装置において、
    前記変化対象検出手段により検出する対象は、パラメータを用いて表現される、
    ことを特徴とする情報処理装置。
  4. 動画像から時間的に変化する対象を情報処理装置により検出する情報処理方法において、
    前記情報処理装置は、変化画素検出手段と、変化画素領域検出手段と、変化画素領域エッジ検出手段と、変化対象検出手段と、を備えており、
    前記変化画素検出手段が、動画像の対象フレームと前記対象フレームと時間的に隣接する他のフレームとの対応する画素の画素値の差と予め定められた閾値との比較結果に基づき、画素値が時間的に変化する画素である変化画素を検出し、
    前記変化画素領域検出手段が、前記変化画素検出手段により検出された変化画素と他の画素を区別して表す動作画像について、分解能低減前の画像における予め定められた画素数を単位とした画素群に含まれる変化画素の数に基づいて、分解能を1段階低減させた画像の画素が変化画素であるか否かを決定する処理を、予め定められた分解能の画像が得られるまで繰り返し行い、これにより得られた分解能の異なる複数の画像を用いて、前記予め定められた分解能の画像における画素値が時間的に変化する画素領域の検出から開始して、当該検出した画素領域を処理対象領域として、分解能が1段階以上高い画像における画素値が時間的に変化する画素領域を検出することを複数段階繰り返し、
    前記変化画素領域エッジ検出手段が、前記対象フレームより時間的に前のフレームから検出された変化画素領域のエッジから前記対象フレームにおける変化画素領域のエッジを予測し、当該予測される変化画素領域のエッジに基づいて複数の追跡線を配置し、各追跡線についての勾配及びモード値に基づいてその追跡線のエッジを見つけることにより、前記変化画素領域検出手段により検出される画素領域のエッジを検出し、
    前記変化対象検出手段が、ランダムハフ変換法を用いて、前記変化画素領域エッジ検出手段による検出結果に基づいて時間的に変化する対象を検出する、
    ことを特徴とする情報処理方法。
  5. 動画像の対象フレームと前記対象フレームと時間的に隣接する他のフレームとの対応する画素の画素値の差と予め定められた閾値との比較結果に基づき、画素値が時間的に変化する画素である変化画素を検出する変化画素検出機能と、
    前記変化画素検出機能により検出された変化画素と他の画素を区別して表す動作画像について、分解能低減前の画像における予め定められた画素数を単位とした画素群に含まれる変化画素の数に基づいて、分解能を1段階低減させた画像の画素が変化画素であるか否かを決定する処理を、予め定められた分解能の画像が得られるまで繰り返し行い、これにより得られた分解能の異なる複数の画像を用いて、前記予め定められた分解能の画像における画素値が時間的に変化する画素領域の検出から開始して、当該検出した画素領域を処理対象領域として、分解能が1段階以上高い画像における画素値が時間的に変化する画素領域を検出することを複数段階繰り返す変化画素領域検出機能と、
    前記対象フレームより時間的に前のフレームから検出された変化画素領域のエッジから前記対象フレームにおける変化画素領域のエッジを予測し、当該予測される変化画素領域のエッジに基づいて複数の追跡線を配置し、各追跡線についての勾配及びモード値に基づいてその追跡線のエッジを見つけることにより、前記変化画素領域検出機能により検出される画素領域のエッジを検出する変化画素領域エッジ検出機能と、
    ランダムハフ変換法を用いて、前記変化画素領域エッジ検出機能による検出結果に基づいて時間的に変化する対象を検出する変化対象検出機能と、
    をコンピュータに実現させるためのプログラム。
  6. コンピュータに実行させるプログラムを当該コンピュータの入力手段により読み取り可能に記憶した記憶媒体において、
    当該プログラムは、動画像の対象フレームと前記対象フレームと時間的に隣接する他のフレームとの対応する画素の画素値の差と予め定められた閾値との比較結果に基づき、画素値が時間的に変化する画素である変化画素を検出する変化画素検出機能と、
    前記変化画素検出機能により検出された変化画素と他の画素を区別して表す動作画像について、分解能低減前の画像における予め定められた画素数を単位とした画素群に含まれる変化画素の数に基づいて、分解能を1段階低減させた画像の画素が変化画素であるか否かを決定する処理を、予め定められた分解能の画像が得られるまで繰り返し行い、これにより得られた分解能の異なる複数の画像を用いて、前記予め定められた分解能の画像における画素値が時間的に変化する画素領域の検出から開始して、当該検出した画素領域を処理対象領域として、分解能が1段階以上高い画像における画素値が時間的に変化する画素領域を検出することを複数段階繰り返す変化画素領域検出機能と、
    前記対象フレームより時間的に前のフレームから検出された変化画素領域のエッジから前記対象フレームにおける変化画素領域のエッジを予測し、当該予測される変化画素領域のエッジに基づいて複数の追跡線を配置し、各追跡線についての勾配及びモード値に基づいてその追跡線のエッジを見つけることにより、前記変化画素領域検出機能により検出される画素領域のエッジを検出する変化画素領域エッジ検出機能と、
    ランダムハフ変換法を用いて、前記変化画素領域エッジ検出機能による検出結果に基づいて時間的に変化する対象を検出する変化対象検出機能と、を当該コンピュータに実現させるためのプログラムである
    ことを特徴とする記憶媒体。
JP2003173524A 2003-06-18 2003-06-18 情報処理装置 Expired - Fee Related JP4356371B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003173524A JP4356371B2 (ja) 2003-06-18 2003-06-18 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003173524A JP4356371B2 (ja) 2003-06-18 2003-06-18 情報処理装置

Publications (2)

Publication Number Publication Date
JP2005011005A JP2005011005A (ja) 2005-01-13
JP4356371B2 true JP4356371B2 (ja) 2009-11-04

Family

ID=34097316

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003173524A Expired - Fee Related JP4356371B2 (ja) 2003-06-18 2003-06-18 情報処理装置

Country Status (1)

Country Link
JP (1) JP4356371B2 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8335789B2 (en) 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8332401B2 (en) 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US7812986B2 (en) 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8156115B1 (en) 2007-07-11 2012-04-10 Ricoh Co. Ltd. Document-based networking with mixed media reality
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8144921B2 (en) * 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US8201076B2 (en) 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
JP4552018B2 (ja) * 2007-02-16 2010-09-29 国立大学法人埼玉大学 動画像処理装置及び動画像処理方法
KR101030430B1 (ko) * 2007-09-12 2011-04-20 주식회사 코아로직 영상 처리 장치와 방법 및 그 기록매체
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
GB201004488D0 (en) * 2010-03-17 2010-05-05 Isis Innovation A method of tracking targets in video data
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
JP5904044B2 (ja) * 2012-07-18 2016-04-13 富士通株式会社 農作物の状態変化日特定方法、装置及びプログラム

Also Published As

Publication number Publication date
JP2005011005A (ja) 2005-01-13

Similar Documents

Publication Publication Date Title
JP4356371B2 (ja) 情報処理装置
Rabaud et al. Counting crowded moving objects
JP2915894B2 (ja) ターゲット追跡方法及び装置
US20010048753A1 (en) Semantic video object segmentation and tracking
US9836851B2 (en) Apparatus and method for detecting multiple objects using adaptive block partitioning
JP4724638B2 (ja) オブジェクト検出方法
US20130329987A1 (en) Video segmentation method
JP2005165791A (ja) 対象物の追跡方法及び追跡システム
CN102346854A (zh) 前景物体检测方法和设备
Kim et al. Combined shape and feature-based video analysis and its application to non-rigid object tracking
Revathi et al. Certain approach of object tracking using optical flow techniques
Nandhini et al. SIFT algorithm-based Object detection and tracking in the video image
Fang et al. 1-D barcode localization in complex background
Lu et al. Particle filter vehicle tracking based on surf feature matching
Dryanovski et al. Real-time pose estimation with RGB-D camera
JP6930389B2 (ja) 画像収集装置、プログラム、及び方法
KR100566629B1 (ko) 이동물체 검출 시스템 및 방법
Arbeiter et al. Efficient segmentation and surface classification of range images
Patil Techniques and methods for detection and tracking of moving object in a video
CA2780710A1 (en) Video segmentation method
Do et al. Multi-resolution estimation of optical flow for vehicle tracking
Gu et al. High frame-rate tracking of multiple color-patterned objects
Dewan et al. Background independent moving object segmentation for video surveillance
JP2002358526A (ja) 映像オブジェクト検出・追跡装置
EP4198895A1 (en) Planar object tracking method and system, computer program, computer-readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060522

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070928

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090714

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090727

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120814

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4356371

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120814

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130814

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees