JPH07508633A

JPH07508633A - 映像系列における物体の追跡

Info

Publication number: JPH07508633A
Application number: JP6524042A
Authority: JP
Inventors: ポンティコス　コンスタンティン
Original assignee: Philips Electronics UK Ltd; Koninklijke Philips Electronics NV
Current assignee: Philips Electronics UK Ltd; Koninklijke Philips NV
Priority date: 1993-04-30
Filing date: 1994-04-29
Publication date: 1995-09-21
Also published as: WO1994025930A1; DE69433991D1; US6035067A; EP0648360A1; EP0648360B1; GB9308952D0

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】映像系列における物体の追跡本発明は、動画像の系列（ｓｅｑｕｅｎｃｅ）の中の対象（ｓｕｂｊｅｃｔ）を追跡する方法と装置、その種方法を実現する装置、およびその他関連ある方法と装置に関係する。

本発明は、例えばテレビ電話（ｖｉｄｅｏｐｌ＋ｏｎｅ）、または一般の動画像系列のデジタル符号化、例えば動画像を光コンパクトディスクで出版する場合の符号化に適用できる。

テレビ電話において、使用者の顔の周りの領域を、フレームの残りの部分を犠牲にして強調すれば画像品質の向上が達成できることは既に以前から知られ、またそれを達成できるアルゴリズムも既に開発されている。ところが、そう、したアルゴリズムの商用ハードウェア上での実現は、計算の摸雑さのため遅れている。

最もＴ「効なアルゴリズムは、エツジ（ｅｄｇｅ）の検出に依存し、画素の速度（ｐｉｘｅｌｒａｔｅｓ）で動作するため極めて高速なハードウェアを必要とする。

アルゴリズムの中には、フレー１１の差分を利用して運動を検出するという、遥かにｍ’＋＋＋ｔな技術に基づくものがあるが、これらには、従来、全体の照明強度、背景における運動（オフィスでは普通に起こる）、更には使用者が動かないことにさえ基つく不具合、などの問題が存在していた。

その他のアルゴリズムでは、映像圧縮コデソク（ｃｏｄｅｃ）で符号化を行なう際には画像をブロック（通常１６Ｘ］６画素）に分割しそれぞれから２．３のパラメターを抽出する、という事実を利用している。これらパラメターの配列は遥かに小規模であるため、それを利用して動作するこの種のアルゴリズムは、より低速で走ることができ計算処理への要求は遥かに小さい。

本発明の技術では、運動はブロックまたは画素のレベルで検出するが、上記の諸問題に対しては、テレビ電話の使用者とその他の運動物体を区別する方法で対処している。こうした技術は一般の対象追跡にも適用でき、その場合、色彩その他運動以外の属性がＪＤ跡の根拠としてｆｌｌ用できる。

本発明は、その第一の側面として、画像フレーム系列における１個の対象を追跡するための画像処理方法を提供する。その方法には以下各項すなわち：（ａ）画像領域（ｉｍａｇｅ　ｒｅｇｉｏｎｓ）を、追跡対象の一部分となる可能性があるかどうか分類するための規準を定めること；（ｂ）各新画像フレーム用として、前回その対象を含むと指定（ｄｅｓｉｇｎａｔｅ）された画像領域の記録を取得（ｏＭａｉｎ）すること；（ｃ）各新画像フレームの領域を上記で定めた規準に従って分類すること；および（ｄ＞新フレームの領域の分類と前回指定した領域の双方を参照して、指定領域を更新すること；を含む。

本発明の実施例においては、追跡中の対象はフレームから次のフレームに移っても極端に遠くへは動かないという仮定の下に、その対象の部分となる可能性のある領域が、更新される指定領域に含まれるかどうかは、前回指定した領域からの近接度に支配されるものとする。本発明の実施例では、この区分を行うため、空間的に変化するしきい値（ｓｐａｔｉａｌｌｙ　ｖａｒｙｉｎｇ　ｔｌ＋ｒｅｓｂｏｌｄ）が用いられ、その値は前回指定した領域との関連で決定される。

本発明の実施例には、指定領域が隣接フレーム相互で過度に拡大縮小すること（例えば対象と同一の属性を有する別の物体が、追跡中の対象に近接した場合などには起こる可能性がある）を防ぐため、指定領域の更新を禁止する段階を含む。

同様に、を旨定領域を更新すると、更新領域が追跡対象の一部になり得ない過剰な部分を含むことになる場合には、指定領域の更新は禁止される可能性があるものとする。

領域は、画素単位、ブロック単位、あるいはその混合の何れで分類してもよい。

領域は、先ず前回指定領域との比較のため等級をつけて（ｉｎ　ａ　ｇｒａｄｅｄ　ｆｏｒｍ）分類し、その後更新指定領域を定めるため２値で分類してもよい。

その他の特徴として、一般にあるいは特殊の応用分野に利点があると思われるものは、以下に述べる特定の実施例で明らかにする。

本発明の別の一つの側面により、一連の画像フレームの中の対象を追跡するための画像処理方法が提供される。その方法は以下各項すなわち；（ａ）各画像フレームの中で追跡対象のための省略時位置（ｄｅｆａｕｌｔ　ｐｏｓｉｔｉｏｎ）を定義すること；（ｂ）一連の画像フレームの全系列ににわたり、各新フレームごとに、事前に定めた対象識別規準を参照することにより、また前回の記録位置に基づく規準をも参照して、追跡対象の位置の記録を取得し更新すること；（Ｃ）特徴領域（ｆｅａＬｕｒｅｓ）が追跡対象識別規準は満たすが前回の記録位置に基づく規準は満たさない場合、その特徴領域が、省略時位置に対してより近接しているかどうかを測定すること：および（ｄ）上記特徴領域がより近接していた場合には、それらの特徴領域を対象と解釈して記録位置を更新すること：を含む。

この方法は特にテレビ電話で利用できる、というのはテレビ電話では使用者がカメラの視野の中心に位置するからである。遅延時間を置いて更新の処理を行えば、誤った省略時位置に戻るのを避けることができる。

本発明によれば、更に、上記のような対象追跡方法の結果を用いて、動画像符号化方法のデータ速度（ｒａｔｅ）を１ｔＩＩＩＩＩＪすることが可能になる。この符号化方法は、例えば１１２６１規格互換、またはＭＰＥＧ規格互換になり得る。

本発明によれば更に、上述の画像フレーム符号化手段を含むテレビ電話装置、そうした方法により生成される動画像信号、およびそうした方法で符号化した画像を運ぶ動画記録が実現できる。

本発明により更に、１個のデータ処理装置が提供されるが、その装置では、蓄積された規則的二次元配列要素が活性（ａｃｔｉｖｅ）か不活性（ｉｎａｃＬｉν ｅ）か指定され、上記装置には、上記蓄積配列のすべての活性要素を囲む凸閉包（ｃｏｎｖｅｘ　ｈｕｌｌ）を識別する手段を含み、更に下記２点すなわち：（ａ）配列の行を走査して、各行の活性要素（単数または複数）のうち最も末端に位置するものを拾いだして線形リストの形に記録する手段：および（ｂ）上記の末端活性要素の線形リストを処理して、配列の各行の活性要素のうち末端よりも内側のものを更に考慮することなしに、所望の凸閉包を識別する手段。

を含んでいる。

そうした装置により、例えば、デジタル化した画像フレームの中で活性要素と指定された画素またはブロックの周りに、１個の凸閉包を当て嵌める（ｆｉｌ）ための効率よい方法が実現できる。上記線形リストを効率よく形成するには走査処理を用いればよい。

以下に本発明の諸実施例を、単なる例示として、添付の図面を用いて説明する。

それらは：図１が、本発明に基づくテレビ電話における運動検出のための前処理段階を示す図であり；図２が、図１の処理で生成された各ブロックごとの変化画素数の配列例を示す図であり；図３が、同一配列をしきい値処理したあとの状態を示す図であり：図４が、図３でしきい値処理したブロックの周りに凸閉包を当て嵌めた状態を示す図であり。

図５が、図４の凸閉包の周りに空間的に変化するしきい値をを当て嵌めることにより形成したボテンツヤル井戸（ｐｏｔｅｎｔｉａｌ　ｗｅｌｌ）を示す図であり；図６が、テレビ電話における対象追跡のため、フレーム単位に行なわれる動作を説明する図であり：図７が、一般動画系列の符号化で用いるクロミナンス方式の実施例における、対象追跡動作を説明する図であり；図８が、図１〜Ｇまたは図７の処理に条件付の更新方法を適用した模様を示す図であり：図９が、テレビ電話の対象追跡における「中心回帰Ｊ　（”ｒｅｔｕｒｎ　ｔｏ　ｃｅｎＬｒｅ“）の振舞いを説明する図である。

画像符号化技術の予備知識となる情報については多くの文献が存在する。特にテレビ電話の分野については、デジタル化した動画をデータ速度６４にビ・ノド７秒で効率よく符号化するための標準として開発された＋１２６１が著名である。

このシステム、および自動的に顔を追跡する技術を用いたテレビ電話画像符号化の実験装置か、例えば１９９２年刊のＢｒ山ｓｈ　Ｍａｃｈｉｎｅ　Ｖｉｓｉｏｎ　Ｃｏｎｆｅｒｅｎｃｅ　Ｐｒｏｃｅｅｄｉｎｇｓ　（英国機械画像会議予稿集）の４８８頁に掲載されたＴＩＰ　Ｔｒｅｖほかによる論文“Ａ　ＲｅａｌＴｉｍｅ　Ｆａｃｅ　Ｌｏｃａｔｉｏｎ　Ｓｙｓｔｅｍ　Ｌｏ　［１ｎｂａｎｃｅ　Ｖｉｄｅｏｐｈｏｎｅ　Ｐｉｃｔｕｒｅ　Ｑｕａｌｉｔ凵hに纏められている。この論文の内容、および＋１２０１の標準は、参考として本出願に組み込まれている。ただしその詳細は本発明の理解には必要ない。　今一つの符号化標準で　より高ビツトレイトに適したものは、ＭＰＥＧとして知られている。

以下に述べる諸実施例では特に、上記諸符号化システムがブロック単位であって、計算処理集約型の画素レベル処理をなるべく避けてブロック単位で極力大屋の処理を行なっている、という事実を利用している。しかしながら、ここで述べる諸技術は、必ずしもブロック単位の処理に限らず、もし十分な計算能力が得られるなら画素レベルでも実現可能である。

第１の実施例は、先ずフレームの中で、３個の連続するフレームの差を考慮することにより、裸のＣｕｎｃｏｖｅｒｅｄ　：χＩ象または運動物体の陰にならないの意）静止領域と運動領域とを区別する。もし唯一の運動物体がテレビ電話の使用者（今後単に「対象」（“５ｕｂｊｅｃｔ”）と呼ぶ）である場合、そしてテレビ電話のカメラと周囲の照明の強さが固定されて変わらない場合には、フレームの差分に含まれる情報は対象の領域と裸の背景にのみ存在する。しかし、条件は常にこのように理想的とは限らない、すなわち、背景には他の運動物体が存在し、周囲の照明条件は、例えば、視野の一部を横切る陰影によって変化しｉｏる。これらの条件は何れも異質のＩｅｘＩｒａｎｅｏｕｓ）運動を生成することになる。こうして、フレームの差分信号にはこれら背景の変化に関する情報をも含むことになる。従って、対象によって起こる画像の変化と、上記の不要効果によって起こる変化とを、何とか区別する必要か生じる。もし、対象がフレームの間で極端に動くことはないと仮定できるなら、このすｎ報は上記の目的に利用できる。

各新フレーム（Ｆ５１例えば３５２　Ｘ　２８８画素を含む）について、運動情報が先ず抽出され、これか処理されてブロック（Ｌ＞の形（ｆｏｒｍａｔ）に整理され、高位の処理、すなわちアルゴリズムの主要部を形成するレベルの処理に備えられる。上記最？ｌ］の処理は領域の運動に敏感にきめ細かく行なう必要かあるか、しかもカメラ雑音には影響されてはならない。

画素レベルの手続きを下記に述べるが、蟹約すれば、典型的なＬ　（図２）を用いて図１に示したようになる。２個のフレームに−１とｋについて、画素ごとのフレー１、の差が１００で計算される。

次に、フレームの差信号の大きさが１０２でしきい値処理される（Ｌｈｒｅｓｈｏｌｄｅｄ）。これは、フレームの差があるしきい値より大きい画素は変化したと指定し、残りは変化しなかったと指定することを意味する。すなわち：ただし在で：ｘ、ｙは画素の座標を示し、Ｉ、はフレームにとに−１の差をしきい値処理した結果を示し、Ｆ、はこの系列の第に番目のフレームのデータを示し、また、Ｔ、はしきい値レベルである。

このしきい値処理の主目的はカメラ雑音の影響を抑制することである。このしきい値処理の二次的なしかし極めて望ましい効果は、フレーム間の差がＴ、以下であるような、緩慢な照明の変化が無視できることである。一方、対象とその他運動物体から出る運動情報もある程度失われるのは不可避であるが、大抵の場合これは気にする必要はない。

しきい値処理したフレーム間の差分Ｌ（ｘ、ｙ）は、次いで１０４においてブロック単位仕分けされる。このブロックの通常の大きさは１６Ｘ１６画素で、各ブロックごとの変化した画素数が１０（ｉで勘定される。これかアルゴリズムの主要部で処理対象となるブロック単位の運動情報であって、記号Ｍ、で表される。

ここでｋはフレーム（ｋ）と（ｋ−］）のフレーム間差分から得られた情報であることを示す。

ただし荘で：ｉ、ｊはこのブロック配列の座標を示し、Ｕ、Ｖは１個のブロック内の座標を示し、また、Ｎは画素数で測ったブロックの辺の長さである。

上記のように、物体が動くと、フレーム差分信号には、対象と裸の背景の双方の情報か含まれる。対象を確実に追跡するには、この両者を区別するのが望ましい。もしある運動物体を示す３個のフレームの系列から２個のフレーム差分を取り出して考察できれば、これら２個のフレーム差分に共通の情報は、第２のフレームにおけるその物体の位置に存在することが明らかである。従って、ＭｂとＭｏ、が双方とも零でない（ｎｏｎ−ｚｅｒｏ）ブロックは、フレーム（ｋ−１）における運動物体の位置を与え、一方、非零から零に変わったブロックは、裸の背景を示す（また零から非零に変わったブロックは、フレーム（ｋ＋１）でこの背景が何かに覆われ裸でなくなったことを示す）ことになる。このように、運動物体の位置は、ｌフレーム分の遅延を利用してＡＮＤ演算を行なえば識別可能である。

ブロックが、雑音により誤って運動物体と指定される可能性がある。大部分の雑音は、前述の画素単位のしきい値処理で除去されてはいるが、雑音の残留効果を除去すると同時にＭを２値形式に変換するため、Ｍの内容にしきい値処理を施すことによりフレーム差分の２値形式配列が得られる。こうして、変化画素数がしきい値Ｔ、よりも大きいすべてのブロックは変化していると指定される。このしきい値処理の結果はＭｏ、で示されＡＮＤ演算の結果はＳ、で示される。

Ｓｔ　（ｉ、４）　＝Ｍ’ｔ　（ｉ、ｊ）　＆　Ｍｏｈ−＋（ｉ、Ｄブロックの大きさがｌ［１ＸＩＧ画素なら、Ｍｍ（ｉ、Ｄの数値は０（変化画素なし）から２５６（全画素か変化）にわたるが、そのような場合、しきい値Ｔ、＝５とすれば好結果が得られることがわかった。図２に示した信号に対応してＴ、＝５で処理した結果のＭｏゎを図３に示す。

さて、ＡＮＤ演算の結果（Ｓ、）はこれまで述べた通り当然、フレーム（ｋ）における対象とその他の運動物体の双方の位置を含んでいる。もし仮にＡＮＤ演算のオペランドの何れか一つが対象の運動（すなわち位置と裸の背景）の情報のみを含むことか可能だったとすれば、Ｓｌよ他の物体を度外視して対象の位置を示すことになる筈である。これを実現すべく、本発明では１個の空間的に変化するしきい値を考案したか、今後これを「ポテンシャル井戸」（“Ｉ］０ＬｅｎＬｉａｌ　ｗｅｌｌ”）と呼ぶ。

図４は、図２と図３に示したフレームに対応して、追跡中の対象に属するものと目下を旨定されている領域（ブロック）を示す配列Ｈｈを示している。図５は、［ポテンシャル井戸Ｊを定義するしきい値の配列Ｐ、を示す。

図６の系統図には一つの実施例で採用した処理を要約しである。

先ず、配列Ｓ、、　（４００に蓄積される）は、前回画像フレームＦ、−一二おいて対象の位置の一部を形成したブロックのみを示していると仮定される。この状態を如何にして初期に達成し維持するかは後述する。１個の凸閉包配列Ｈ，− １（図４）か次いで４０２で対象の周りに当て嵌められ、これがポテンシャル井戸の底（Ｎ。

ｏｒ）の境界となる。このボテンツヤル井戸の配列Ｐｈ−＋　（図５）は４０４で生成され、この−組のしきい値により、変化するブロックが対象の運動で生じたのかどうかが判定される。

フレーム（ｋ−１）において対象の周りに当て嵌められるこのようなしきい値の配列はＰ＊−＋で示される。図５に示したように、これらのしきい値Ｐｈ−＋（１，Ｊ）は、ブロックがフレーム差分Ｉの凸閉包から遠いほど増加する。４０６では、各要素Ｍｎ（ｉ、」）（ブロック（ｉ、　ｊ）における変化画素の数）を、配列Ｐ、−１の対応する要素Ｐｎ−１（＋、Ｄ　（そのブロックに関するポテンシャル井戸の対応値）と比較することにより一つの決定が下される。すなわち変化画素数がポテンシャル井戸のしきい値を超えるようなブロックは、運動している対象の部分であると指定される。

運動は含むが、ポテンシャル井戸のしきい値を超えないブロックは（比較的対象から離れているので）、対象以外の運動物体の部分であると指定される。

この例において、ポテンシャル井戸のしきい値Ｐ＊　（ｉ、ｊ）の値は、凸閉包自体の内部の値に過ぎないことに気付くかも知れない。この値は、Ｍ’ｈを得るために使用した雑音しきい値Ｔ１以下であり、追跡中の対象の部分を形成する可能性の極めて高い領域は、雑音にも極端に敏感であることを意味する。実際上、階調分布（ｔｅｘｔｕｒｅ）やコントラスト（ｃｏｎｔｒａｓｔ）に欠ける対象を扱う場合には、この雑音感度（ｎｏｉｓｅ　５ｅｎｓｉｔｉｖｉｔｙ）が追跡処理に役立つことが判明している。

凸閉包の当て嵌め方法は既知であるが、その新規の方法については後述する。

ボテンノヤル井戸の急峻度（ｓｔｅｅｐｎｅｓｓ）により、アルゴリズムがどの程度運動に応答できるかが決まる：もし側面が）峻過ぎると、対象が速やかに動き過ぎた場合に、ボテンツヤル井戸を突き抜けて、その他の物体の部分と指定される危険がある。この問題を軽減する対策として、先行する２個のフレームの間に観測した運動に基づいて凸閉包の位置を運動予測により修正することができる。

このようにポテンシャル井戸を利用して、対象に基づく変化ブロックと他の変化ブロックとを区別することができる。４０Ｇにおける比較で、対象の変化のみ示すブロック地図（ｂｌｏｃｋ　ｍａｐ）　４０８が得られ、そこでは対象のみが記号り、で与えられる。このり、をＭｏ、の代わりに用いて、Ｍ’に＋１　とのＡＮＤ演算を４１０で行ない、フレーム（ｋ）における対象の位置のみを含む理想的な配列Ｓ、を生成する。次いでこのＳ、を用いて新たな凸閉包Ｈ＆およびポテンシャル井戸Ｐ、を生成し、それが今度はフレームＦ。、の中で動く対象の追跡に用いられ、以下同様に繰り返す。

Ｓｖ　（ｉ、ｊ）　＝Ｄ＊　（１，ｊ）　＆　Ｍ’ｈ−＋（ｉ、ｊ）〔その他の実施例〕導入部で述べたように、運動の存在のみが唯一の対象追跡手段ではなく、一般の画像処理においては（テレビ電話の応用とは違って）、運動の検出が物体の追跡に常に適切であるとは限らない、というのはカメラの位置自体が固定ではなく、全景に運動が生じる場合かあるからである。図６に示した処理の前処理段階は、如何なる分類処理を実現するにも容易に適応が可能であり、更にその分類処理を使用して、指定領域の更新と対象追跡に用いるボテンツヤル井戸の更新とを行なうことができる。

特定の一例として、色彩空間のサブセット、特にクロミナンス空間（ｃｂｏｒｏ＋ｎ１ｎａｎｃｅｓｐａｃｅ）か、追跡対象に典型的な色彩を含むものとして認められる。この場合、条件付確率を設定して、それにより、ある色彩を有する画素について、その画素か追跡中の対象の部分である確率が評価される。背景と追跡対象に同程度に出現しそうな色彩には、中立の確率値を割り当て、一方、追跡中の対象にのみ起こる傾向のある色彩には極めて高い確率１直か割り当てられる。こうすればあとは簡単で、新しいフレームごとに、画素ごとまたはブロックごとの確率値の配列を生成し、それを配列Ｍｋの代わりに使用してポテンシャル井戸配列Ｐ、−１と比較すればよい。もちろん非運動型実施例ではＡＮＤ′６Ａ算処理は不要処理り、図６に示した配列り、とＳ、の区別はなくなる。

図７の段階７００〜７０８に、上記で概説した追跡処理の一般形を示しである。

段階７００では、追跡すべき対象を含む旨前回指定された領域が７１０で示しである。

対象の新たな位置は７１２に破線で示される。

段階７０２では、新画像の各画素またはブロックが追跡対象の部分である確率を決定するために新フレームの画素の値（ｐｉｘｅｌ　ｖａｌｕｅ）を分類する。

特に各画素のクロミナンスを１１［１の確率分布表と対比して、追跡対象に高確率で属すると思われる色彩を識別する。追跡対象にかなりの確率で属する画素（またはブロック）は７１４と７１８に斜線（ｄｉａｇｏｎａｌ　ｈａＬｃｂｉｎｇ）で示しである。対象に掻めて高い確率で属する領域（画素またはブロック）は、交差斜線で、例えば７１Ｇと７２０に示しである。本実施例では、これらの確率は、クロミナンス分布に基づくこと既述の通りである。検出運動の原理に基づくテレビ電話の実施例では、交差斜線の領域は運動の激しいブロックに対応でき、影の薄い領域は運動が中程度なブロックに対応させることができる。

６ｎ域７１４と７１（ｉは、追跡中の対象に適した色彩を含むとはいえ、実際は画像７レーｌ、に出現するその他の物体に起因することが理解されよう。他方、領域７１８と７２０はまさしく追跡中の物体に属している。

段階７０４では、ボテンツヤル井戸７２２を前回指定した領域７１０に基づいて定義し、これを用いて、追跡中の対象の部分である領域をその他の領域と区分する方法を説明しである。ずなわち、領域７１８と７２０とは、ポテンシャル井戸７２２の低しきい値の部分に存在し、比較段階（図６の４０６）を経過すれば、指定領域の更新決定に寄与すること力呵能である。他方、領域７１４と７１６とは、ポテンシャル井戸７２２の極めて高いしきい値領域に存在するので、指定領域更新に影響を与えることはできない。

ボテンツヤル井戸の試験を通過した領域に、以下述べるある種の条件を段階７０６で与えると、段階７０８では、実線で示すように、指定領域が７１２のように更新される。

〔条件付き更新〕

運動ベースのテレビ電話の話に戻ると、これまで述べた実施例では２つの問題が生じる。すなわち：（ｉ）対象が運動しない場合、これまで述べた技術では追跡し損なうことになること、および（目）対象の背後にほかの運動物体があると、アルゴリズムがそれをも対象としてＳｋで指定する領域に組み込み、そのため措定領域の拡大を起こすことである。

図８には、これらの問題への対策として、特に、段階７０６（図７）である種の条件か満たされない限り、各新フレームではポテンシャル井戸と活性領域Ｄｋとが更新されないようにすれば、問題が解決できることを示しである。

具体的には、各フレームごとに、Ｓ、における対象の全活性面積（ａｃｔｉｖｅ　ａｒｅａ）が８００で計算され、これが時間平均フィルタ（ｔｉｍｅ−ａｖｅｒａｇｉｎｇ　ｆｉｌｔｅｒ）に送り込まれる（段階８０２）。このフィルタの各タップは１フレ一ム分の遅延時間相当の間隔で分離され、またそれらのウェイト（係数）は総計がｌになるように正規化されている。段階８０４では割算が実行されて、対象の現在の領域（面積）の、そのウェイト付けした時間平均面積に対する比率ｒｌがめられる。もしｒｌ〉■なら、対象の活性面積は、最近のフレーム（複数）と対比して増加しつつあることを示し、それは多分、対象が背景の運動物体と合体したためと考えられる。同様に、ｒ＋＜＋なら、それは対象の運動面積が減少しつつあることを意味し、対象が運動を停止したものと考えられる。

ｒｌのしきい値Ｔ□とＴ、２（例えばそれぞれ０．９と１．１）を、正常の動作がその間で起こるように定めておくことができる。（段階８０Ｇと８０８で試験されて）これらのしきい値から外れる動作が起こると、アルゴリズムは指定領域の更新を行なわない。その場合（段階８１０）には、凸閉包とポテンシャル井戸とは新たなＳ、の周りには当て嵌められず、Ｄ、は更新されず（段階８１２）、そして対象の面積データはフィルタを通過できない（段階８０２）。これらしきい値の範囲が広いほど、柔軟性が一層増す。対象は硬直した物体とは限らないので、それが回転したり、カメラとの間で前後に動いたりてきるよう、ある程度の柔軟性が必要である。しかし、もししきい値を広げ過ぎると（１００ｇｅｎｅｒｏｕｓ）、処理が不安定になり、対象が静止状態になった時追跡できなくなったり、単に対象のみで占めていると思った領域に池の物体が組み込まれたりすることになる。

段階８０４で設定されるフィルタの長さくフレーム周期数）により、アルゴリズムがχｊ象の面積の記録を保持すべき時間長が定まる。そのインパルス応答により、処理かどの程度敏速に面積の急速な変化に応答できるかが定まる：すなわち、最も現在に近い入力はどより大きなウェイトをかけることにすると、フィルタの帯域幅は広がり、急速な変化への応答がより鋭敏になる。

面積試験がうまく行なわれたとした場合、凸閉包Ｈｈ＋＋の更新値が段階８１４で計算される。面積フィルタの主要機能は、対象が運動しないときも、処理がその追跡を持続できるようにすることである。ただし一方ではＳ、の面積の急速な増加を制限する役割も十分果たしている。しかし、フィルタにより与えられるＳの安定度は、多くの場合、他の物体が対象に近付いたときのＳの拡大を制御できる程十分ではない。そこで、この実施例では、もう一つの試験を導入して、処理が指定領域の更新を行なうだめの条件を更に制御している。この第２の試験は、８１６の段階で凸閉包［１の内部の面積の、運動面積Ｓに対する比率「、（すなわち面積フィルタへの入力）を計算するもので、これら面積は何れもブロック数で測定する。面積フィルタのしきい値Ｔ１とＴ、、に合格した場合、この比率ｒ、が８１６で今一つのしきい値Ｔｒｘと比較され、このしきい値を超えない場合にのみ指定領域の更新処理が行なわれる。

ｒ２の試験を行なう根拠は、他の物体が誤って対象の一部と見做される場合、これら２個の物体が狭い地峡（ｉｓＬｌ＋ｍｕｓ）だけで繋がっていることが多く、そのためＳの「活性」領域の周りの凸閉包にアルゴリズムを適用すると、凸閉包の内部には背景か多くの「孔」を形成することになる。その結果１２　＞Ｔ＋ｚとなり、アルゴリズムは更新を行なわないこととなる。このように、ｒ、は対象の纏まり（ＣｏｍｐａｃＬｎｅｓｓ）の尺度と考えてよ（、ポテンシャル井戸が更新されるのは（経路８２０）、対象が適当に纏まっている場合のみ実現することになる。試行結果によれば、Ｔ１．の値を１．５の付近に採れば動作良好であると判明している。

図８に関する上述の説明は、追跡中の対象の部分を形成しそうな領域を判定するための規準としての運動領域と運動に関するものであるが、条件付き更新のためのこの同し試験は、配列Ｓの中で識別された「活性領域」が、運動、クロミナンス、色彩またはその他の如何なる分類現車で決定されようと適用可能である。

運動ベースの実施例では、段階８０８での第２而積フイルタ試験が、運動する対象がある時間急に静止するような状況に有効に適応できるが、他方色彩ベースの実施例では、この同じ試験が、対象が別の色彩の物体により一時的に覆われるような状況に効果的である。

〔初期設定〕

使用開始時には、装置には対象の位置に関する知識は全く無い。テレビ電話用の場合、Ｄ、の内容を指定することにより、画面の特定の領域で対象を探すように装置に指示を与えることができ、これと画面の何らかの運動とがＡＮＤ演算されてＳｆｌが得られる。このＡＮＤ演算結果Ｓ０は、フレームＯとｌにおける対象の位置の組合せに基づくので、完璧なものではないが近似としては適当である。

例えば、この最初の探索領域は画面の中央の半分（ｃｅｎｔｒｅ　ｂａｌｌ）と決めてもよい。正常な処理動作（上記）は、この探索領域における活性（変化する）ブロック数が例えば２０個を超えた時点で開始か可能になる。

更に、正常な動作か始まるまで：１）凸閉包内部のポテンシャル井戸のしきい値は、処理が雑音に妨げられないで対象を迅　速正確に捕捉追跡（ｌｏｃｋ　ｏｎ）できるよう、雑音の影響防止に要する平常レベルよりも僅　かに高く設定される。

１１）面積フィルタは、そのすべてのタップに現在変化中の面積（Ｓｋの和）を負荷として　与えることにより機能を殺し、それによりＴａｌとＴａ２のしきい値にかからないようにする。

１ｉｉ）ｒｚかそれ以前の最小値よりも小さい場合のみ指定領域の更新処理が許されるようにする。この機能（４ｅａｔｕｒｅ）により、アルゴリズムかＤＯの中に指定した全領域で対象の探索を開始し、次いで次第に対象に収斂することが保証される。

試験の結果、アルゴリズムか約３フレーム以内で対象を捕捉できることが判明した。

一般に動画の系列、例えは映画フィルムからデジタル映像記録を生成する分野などで対象を追跡するためには、別の初期設定手続きの方かもつと適している可能性かある。それは、利用者か関連系列の第１の画像フレームで、手作業により追跡すべき対象を概略決定する（ｏｕｔｌｉｎｅ）方法である。当業者であれば、これをどのようにデジタル映像編集環境で実現するかは容易に理解できよう。更に、そのような実施例において、画素またはブロックが追跡すべき対象の部分になる可能性があるかどうかの判断規準は、手作業で指定した領域の統計値（色彩分布その他何でもよい）と画像フレーム全体の統計値とを比較することにより、装置により自動的に決定できることが理解できよう。手作業で指定した領域が当初から対象を含む領域と分かっている場合には、正常動作が即座に開始できるので、上記（ｉ）ないしくｉ　ｉ　ｉ）の対策は不要である。

〔誤りの訂正−［中心への回帰ｊ（“Ｒｅｔｕｒｎ　ｔｏ　Ｃｅｎｔｒｅ”））時には、処理が対象の追跡に失敗し誤って他の物体を捕捉追跡（ｌｏｃｋ　ｏｎｔｏ）することは避けられない。こうした場合の回復を可能にするため、「中心回帰」機能か付加できるのは、図９八と図９Ｂに示す通りである。

各フレームについて、装置は、第１に凸閉包により囲まれたプロ・ツク（例えば図９への９００に示された）について、また第２に他の物体に属すると１旨定されたブロック（！１１０２）について、それぞれの水平軸の中心からの平均距離を計算する。もしｉｉＴ者の距離“ａ”が後者の距離“ｂ”よりもかなりのブロック数だけ大きいなら、目下対象と指定している物体よりも中心に遥かに近い他の物体が存在することになる。

このような場合、この装置のプログラムは、実際に、対象は画面の中心の物体９０２であるのに何らかの間違いにより他の物体（９００）を捕捉追跡してしまった、と誤解する可能性かある。この誤解の結果、画面の中心で動いている物体を対象と指定してその周りに凸閉包とポテンシャル井戸を当て嵌めることになり、一方、以前対象と指定していた物体は他の物体であると指定し直すことになる。

この変化した状況を図９Ｂに示す。

この現象（ｆ２ａＬｕｒｅ）は、一般の「リセット」でも起こる可能性かある。

例えば、対象かカメラの視野から消えるとか、または誰か他の人が同一の会話中に代わってテレビ電話を使う場合などである。このような場合には、アルゴリズムは、画面の中心に最も近い対象を選んで追跡することになる。システムか対象を誤つて切り替えるのを防ぐには、追加の安全機能として中心に近い物体を切り替え追跡するに先立ち、時間遅延を設ける方法もある。

〔強調ずべき（ｆｏｒ　ｅｎｌ＋ａｎｃｅｍｃｎＬ）領域の選択〕テレビ電話もＭＰＥＧなどのデジタル映像システムも、平均データ速度は固定しているので、対象の画像品質強調は、背景のそれを犠牲にすれば達成できる。これは、情報（ビット）を背景から関心領域に移動（ｄｉｖｅｒｔ）させることで行なわれ、強調すべき領域を追跡処理により制限することができる。テレビ電話の応用では、対象のシルエットの中で頭のみを局限できれば一層の制限が可能になる。強調すべき領域はもちろんブロックの境界と合わせる（ａｌｉｇｎ）必要がある。

対象（使用者ンの頭を追跡（ｌｏｃａｌｅ）する簡単な方法は、凸閉包の重心からある距離（ｏｆｆｓｅｔ）をおいて矩形を設けることである。この矩形とその重心からの距離の何れの１１法ら、凸閉包の全面積から自動的に選択される。この手段により、強調すべき最適最小領域を維持しなから最も有効な強調を達成することが容易になる。

〔凸閉包の抽出〕

以下に述べるのは、二次元配列の離散位置を有する点の集合（例えばデジタル化画像）から凸閉包を抽出するための高速アルゴリズムである。凸閉包は頂点（Ｖｅｒｌｉｃｅｓ）の集合として抽出される。このアルゴリズムでの計算の手数（ｃａｍｐｕＬａｔｔａｎａｌ　ｃｏｓｔ月よ、最大２が（Ｉｌｌは配列の最小− Ｊ法）の程度で納まり、囲むべき集合内の点の数には無関係である。大部分の場合、計算はこれよりかなり簡単である。

先ず配列の最小寸法を見付ける。これか垂直方向でｎ１行であったと仮定しよう。各行をこの配列の頭部から底部へと走査することにより、囲むべき集合の最右端の点か選択される。これらの点の座標は一次元配列Ａの中に逐次（ｓｕｑｕｅｎｔｉａｌｌｙ）並べられる。これか最左端の点で（も）繰り返されるか、今度は走査は底部から頭部へと行なわれ、これらの点か八に付加される。こうして集合の囲むべき点の円囲（ｃｉｒｃｕｍｆｅｒｅｎｃｅ）が時３１回りで八に記憶され（ｂｏｌｄ）、Ａは従って最大２ｍｇ１の要素をもっことになる。

次いでアルゴリズムは以下のように進行する：１、第１の要素を［始点Ｊ　（ＰＩＶＯＴ）として選べ。このベクトルが上向きの垂直軸と成す　角を方向（ｂｅａｒｉｎｇ　）と定義せよ。

２、始点から、配列Ａ内に位置する各点へのベクトルの方向を計算せよ。次に配列Ａの中で、始点からのベクトルが最小の方向（角）になるような点を選べ。これを「着地点」化ＡＮＤＩＮＧ　ＰＯＩＮＴ）と定義せよ。これを行なう場合、ベクトルが最小寸法の軸（この場合は垂直軸）と成す角係数（ｓｌｏｐｅ）を考え、この値に対して、そのベクトルの存在する象限を考慮に入れるためベクトル成分の符号に従った適当なオフセットを加算すれば、逆圧切（ＡＲＣＴＡＮｓ）を計算しないで済む。もしＡにおける２個の点が同一の方向を有するのであれば、最大の配列指標を有する点（配列への中で最も始点から遠いもの）を着地点として選ぶ。

３、もし着地点が線形配列への最後の点でない場合は、この着地点を次の始点と指定して段階２から処理を進めよ。

着地点が、同時にＡＣそれは当然凸Ｉ２！？包の上にある）の中の最後の点となれば、それまで始点としてきた各点が凸閉包の周を定義することになる。

注、ｌ！が必要なのは、二次元画像の中のある１個の行に、囲むべき点集合の中の１点しか存在しない場合である。この場合、この点は配列の中で２度出現する。

このような誤りを防ぐため、第（ｋ＋ｌ−１）番目の点は、もしそれが第１番目の点として同一水平軸を共有する（これら２個の点は同−打上にあるので垂直座標は当然同一である）場合にはこれを無視する必要がある。

始点と着地点の座標をそれぞれ（ｘ＊、ｙｓ）及び（Ｘ＋、ｙ＋）とする。これにより我々は等式（Ａ、１）を用いて、始点と着地点の間の凸閉包の線分上の各点（ｘｃ、ｙｅ）の座標を見付けることができる；（Ａ、Ｉ）　ｘ、　り［、＋Ｓ　（ｙｇ　−ｙｌ）但し蔵で・Ｙｃはｙ、とｙｌの間の値をとり、Ｓは始点から着地点に至るベクトルが最小寸法の軸（この場合垂直軸）と成す角係数（ｓｌｏｐｅ）である。

この凸ｒＡ包抽出アルゴリズムが高速な理由には２つあり、その第１は前処理である。すなわち囲むべき点集合の全体を考える代わりに、各行ごと２点しか考えない。実際に、顔の追跡アルゴリズムの試行過程で、対象は約１２０ブロツクを含むのに、この凸閉包抽出アルゴリズムでは線形配列Ａの中の１８〜２０ブロツクを考えれば済むことが判明している。

計算が節約される第２の理由は、線形配列へでの整頓と始点設定（ｐｉｖｏＬｉｎｇ　ａｃＬ　１ｏｎ）の効果にある二次の始点を探すにあたっては、アルゴリズムは単にＡ配列の中で始点よりも指標値の大きな点のみを考えれば済む。従って、もし凸閉包がへの中の、占よりも少ない数の頂点で定義できるならば、方向ＣｂｅａｒＩｎｇ）の計算回数は少なくなるのである。

凸閉包を見付けるための今一つのアルゴリズムは、グレアム走査（Ｇｒａｈａｍ　５ｃａｎ）　［１０８３年Ａｄｄｉｓｏｎ−Ｗｅｓｌｃｙ社刊のＲ，Ｓｅｄｇｗｉｃｋ、”Ａ１ｇｏｒｉｔｌ＋ｍｓ”、　ｐ、３２６参照〕であり、これに僅かな修正を加えれば利用できる。

このアルゴリズムの根拠は、囲むべき集合のすべての点から１個の閉じた多角形を形成することである。次いでこの多角形の各辺（ｓｉｄｅ）を線分と考え、この情報を用いて、どの点が凸閉包の部分を形成し、どれがそれで囲まれるかを決定する。従って、への中の点にグレアム走査が利用できるのは、既にそれらが所望の閉した多角形の形を成しているからである。凸閉包アルゴリズムの計算手数の復稚さは、萌処理をすれば２１１１のｔｊｉで済む。

Ｃ装置化〕上記実施例の装置化にあたっては、フレームの差分またはクロミナンスの確率を画素の速度で取り出す必要かあり、従ってフル寸法のフレームを記憶するバッフ７か必要になる。しかしこのことにより、大部分の処理動作は、２値データに対するブロック単位の解析（ｒｅｓｏｌｕｔｉｏｎ）として実行される。こうして要求される記憶容量は小さくて済む。

処理の中で！ｔＷ能力集約型の部分は、画素速度で処理する必要のある部分であり、これに対しては、その目的に合致した在来設計の画像処理用ハードウェアを用いればよい。ブロック速度で走る高レベル処理のうち、最も計算能力集約型の部分は、Ｓの周りへの凸閉包とボテンシャル井戸の当て嵌め（ｆｉｔＬｉｎｇ）である。

幸い、凸閉包抽出のための高速アルゴリズムは上述の通りであり、ポテンシャル井戸は、更新を正当化するに十分な変化の起こる場合に限り当て嵌めが必要になるに過ぎない。面積のフィルタ動作は極めて単純な（ｓＬｒａｉｇｌ＋Ｌｆｏｒｗａｒｄ）もので、残りの３Ｉ算は大部分論理または比較演算であり比較的実行容易である。

運動の検出にブロックあたり多数の画素変化が起こるような実施例では、システムのカメラまたは他の映像源に雑音が多く発生しないことが重要である。上述のように、装置にはかなりの量の雑音対策（ｎｏｉｓｅ　ｉ關ｕｎｉＬｙ）が組み込まれてはいるが、一旦これが破れると雑音による性能の急速な劣化を引き起こす。

追跡処理の性能に関する今一つの重要な要因は、画像のコントラストの量で、処理がフレームの差分に依存している場合に問題になる。コントラストが小さいと、大きな運動かあっても、フレームの差分に含まれる情報は多くならず、システムの１Ｆｉｕ能力か害なわれる。コントラストの不足の原因は各種あり、例えばカメラによるものやシステムのＡＤＣ（アナログデジタル変換回路）の較正の誤りによるものかあり、更にはＡＤＣのグイナミノクレンジが不足してクリッピングを起こすことすらもある。この最後の点は周囲の照明条件が極端な場合（明る過ぎるなど）には、重大な問題になる。

本発明は主としてテレビｍ話使用者の頭を追跡する場合について述べてきたが、本発明は他のあらゆる対象物体の追跡にも、テレビ電話以外の諸システム、例えば、ＭＩ’ＥＣなどの符号化システムを用いて対話型メディア用の映像信号を符号化する場合にも適用できる。例えば、映画フィルムをデジタルコンパクトディスクに変換する場合、クロミナンス確率分布に基づく上述の処理は、情景の主対象を追跡して指定領域に落ちるブロックに多くのコストを割り当てるのに有効であると判明している。明らかに、画像処理一般の目的について、上記処理で達成される追跡は、運動またはクロミナンス単独ベースの追跡よりも遥かに優れている。

００００００００００口ＯＯＯＯＯロロ００００口０ｏＯｏ口ｏｏｏｏ口Ｏ，− の０００００００００００００００　ト〜Ｏｑコ　■　Ｕ】ａ）　の　ＣＰＩ　ロ００００００口０００００００　Ｗ　ａ）　＋ｊ）　Ｏ）０ロロＯＯＯＯＯＯＯＯＯＯ■寸トド寸〜ロマＬｌ’）マ寸０ｏｏｏｏｏＯ〜ω■ののＯへ−ｎ　ＣＪ　ト〜マのへ−寸寸の！へｏｏｏＯｏｏｏｏｏｏ口ＯＯＯＣｏ　１１”ｌ　ＯＣ０ｃｏ　■　ｃＯ叩００口０００００００００００　ＣＮ　（’Ｊの一０００ロ０ロｏ００ロｏｏｏロ０■トの０口の０００００００００００００００口〇−００００００００ＯＯＯＯＯＯＯＯＯＯｏ　０　０　０　０　０　０　０　０　０　０　０　０　０　０　０　０　０一？ Σ −−−ｌ−１（Ｊ　Ｃ）　ＣＩ　Ｃ）　Ｃ）　Ｃ）　Ｃ）　（）（）　ロ　０　０　０　００　０　０　０　０　０　０　０　０　０　０　０　０　０　１ｊ’ ）　ｕ”）　ｕ″）　Ｌｌ’）Ｃ’Ｊ　Ｃ’Ｊ　（Ｘ１ｃＮ〜ＣＮ　Ｎ　（’Ｊ〜〜〜〜〜−−−−〇− ｉｍｅＦｋ−ＩＦｋＦｋ＋１「−］二］「−：：；］　口＝７−］

Claims

【特許請求の範囲】

１．１個の映像フレーム系列の中で１個の対象を追跡するための画像処理方法において、その方法には：（ａ）面像の各領域が、追跡すべき対象の一部になる可能性があるかどうか分類するための規準を定めること；（ｂ）新画像フレームが発生することに、前回その対象を含むと指定された画像領域の記録（Ｈｋ−１）を取得すること；（ｃ）各新画像フレームの領域を上記で定めた規準に従って分類すること；及び（ｄ）上記指定された領域を、新フレームにおける領域の分類（Ｍｋ）と、前回指定した領域（Ｈｋ−１）の双方を参照して更新すること；の各項を含むことを特徴とする画像処理方法。
２．請求項１に記載の方法において、対象の一部になる可能性があると分類された領域が更新指定領域に含まれるかどうかは、それら領域の前回の指定領域への近接度によって支配されることを特徴とする画像処理方法。
３．請求項１または２に記載の方法において、領域は等級付けして分類され、前回指定された領域との関連で空間的に変化する１個のしきい値レベル（Ｐｋ）が定められ、そして分類等級がしきい値レベルよりも低い領域は更新指定領域に含まれないことを特徴とする画像処理方法。
４．請求項１，２または３の何れか１項に記載の方法において、更新される指定領域が、それに含まれるべきすべての領域と関連する１個の凸閉包の形で定められることを特徴とする画像処理方法。
５．請求項１ないし４のうちのいずれか１項に記載の方法において、指定領域の過剰な拡大を防ぐため、指定領域の更新が自動的に禁止されることを特徴とする画像処理方法。
６．請求項５に記載の方法において、指定領域の面積の増加が過大かどうかを、先行する幾つかのフレームにわたり平均した面積値と比較することにより判定することを特徴とする画像処理方法。
７．請求項１ないし６のうちのいずれか１項に記載の方法において、指定領域の過剰な縮小を防ぐため、指定領域の更新が自動的に禁止されことを特徴とする画像処理方法。
８．請求項７に記載の方法において、指定領域の面積の縮小が過小かどうかを、先行する幾つかのフレームにわたり平均した面積値と比較することにより判定することを特徴とする画像処理方法。
９．請求項１ないし８のうちのいずれか１項に記載の方法において、更新指定領域が、対象の部分になる可能性がなさそうな過剰な領域を含むと判断される場合には、自動的に指定領域の更新を禁止することを特徴とする画像処理方法。
１０．請求項１ないし９のうちのいずれか１項に記載の方法において、対象または指定領域の運動が連続するフレームにわたって検出され、また段階（ｄ）における指定領域の更新が、新フレームにおける領域の分類、前回指定された領域、および連動の度合の予測値を参照して実行されることを特徴とする画像処理方法。
１１．請求項１ないし１０のうちのいずれか１項に記載の方法において、新画像フレームがそれぞれ画素のブロックに分割され、そして分類段階（ｃ）がブロック単位で順次行なわれることを特徴とする画像処理方法。
１２．請求項１１に記載の方法において、各フレームの画素が個別に分類され、各ブロックの分類はそのブロック内の画素の分類の組合せにより得られることを特徴とする画像処理方法。
１３．請求項１２に記載の方法において、個々の画素は２値形式で分類され、各ブロックの分類は各ブロックの中で画素分類規準に適合した画素を計数することにより行なわれることを特徴とする画像処理方法。
１４．請求項１１，１２または１３に記載の方法において、ブロックが２値形式で分類されることを特徴とする画像処理方法。
１５．請求項１ないし１４のうちのいずれか１項に記載の方法において、連動物体は追跡中の対象になる可能性があるとして分類できるよう、分類規準が定められることを特徴とする画像処理方法。
１６．請求項１ないし１５のうちのいずれか１項に記載の方法において、各領域の分類規準は、新フレームの中の領域の１個またはそれ以上の画素値が、前回のフレームにおける対応する画素値と異なるかどうかを含むことを特徴とする画像処理方法。
１７．請求項１６に記載の方法において、分類段階（ｃ）では、予め定めた雑音しきい値より小さい画素の差は無視されることを特徴とする画像処理方法。
１８．請求項１６または１７に記載の方法において、分類段階（ｃ）が、対象の運動に関する変化と、裸の背景（ｕｎｃｏｖｅｒｉｎｇ　ｏｆ　ｂａｃｋｇｒｏｕｎｄ）に関する変化とを区別する段階を含むことを特徴とする画像処理方法。
１９．請求項１８に記載の方法において、３個の連続するフレームにわたって２個の連続する比較が行なわれること、および両方の比較の何れにおいても変化した領域以外は無視されることを特徴とする画像処理方法。
２０．請求項１ないし１９のうちのいずれか１項に記載の方法において、各領域に関する分類規準には、新領域の中の領域の１個またはそれ以上の画素の値が、予め定めた可能な画素値のサブセット以内に納まるかどうかを含むことを特徴とする画像処理方法。
２１．請求項２０に記載の方法において、上記予め定めたサブセットは、画像フレームを全体として比較する際指定領域の中に出現する画素値に関して、確率分析を行なうことにより自動的に決定されることを特徴とする画像処理方法。
２２．請求項２０または２１に記載の方法において、可能な画素値に関する上記サブセットは、追跡すべき対象のクロミナンス特性を参照して定められることを特徴とする画像処理方法。
２３．請求項１ないし２２のうちのいずれか１項に記載の方法において、画像系列の開始時に１個の省略時指定領域が定められることを特徴とする画像処理方法。
２４．請求項２３に記載の方法において、省略時指定領域の更新は、指定領域の中のかなりの面積が対象の部分の可能性があると分類されるまでは、禁止されることを特徴とする画像処理方法。
２５．請求項１ないし２２のうちのいずれか１項に記載の方法において、画像系列に対する初期の指定領域が手作業入力により定められることを特徴とする画像処理方法。
２６．請求項２５に記載の方法において、分類規準が初期の指定領域を参照して自動的に定められることを特徴とする画像処理方法。
２７．１個の画像フレーム系列の中の１個の対象を追跡するための画像処理方法において、その方法が：（ａ）各画像フレームの中の対象の省略時位置を定めること；（ｂ）画像フレーム系列全体にわたって、各新フレームにおける対象の位置の記録を、予め定めた対象識別規準を参照するとともに、前回の記録位置に基づく規準をも参照することによって、取得し更新すること；（ｃ）対象識別規準は満足するが前回の記録位置に基づく規準は満足しない特徴領域（ｆｃａｔｕｒｅ）が、省略時位置に対してより近接しているかどうかを測定すること；および（ｄ）それらの特徴領域がより近接している場合にはそれらの特徴領域を対象と解釈して記録位置を更新すること；を含むことを特徴とする画像処理方法。
２８．請求項２７に記載の方法において、更新段階（ｄ）がある遅延時間を経過した後行なわれることを特徴とする画像処理方法。
２９．請求項１ないし２８のうちのいずれか１項に記載の画像処理方法を用いて、データ速度の制限された動画像フレームを符号化する方法において、特定の対象を含む旨指定された領域の画像品質が強調されること、および上記指定領域は対象を追跡するために更新されることを特徴とする符号化方法。
３０．請求項２９に記載の方法において、データ容量がブロック単位で割り当てられること、および指定領域は対応するブロック単位で更新されることを特徴とする符号化方法。
３１．請求項２０または３０に記載の方法において、符号化がＨ２６１規格と互換性があることを特徴とする符号化方法。
３２．請求項２９または３０に記載の方法において、符号化がＭＰＥＧ規格と互換性があることを特赦とする符号化方法。
３３．請求項２９ないし３２のうちのいずれか１項に記載の符号化方法により、１個のカメラと、そのカメラによる画像フレーム出力を符号化する手段とを含むことを特徴とするテレビ電話装置。
３４．請求項２９ないし３２のうちのいずれか１項に記載の符号化方法により生成されることを特徴とする動画信号。
３５．請求項２９ないし３２のうちのいずれか１項に記載の符号化方法により符号化された画像を伝達することを特徴とする動画記録（ｍｏｔｉｏｎ　ｐｉｃｔｕｒｅ　ｒｅｃｏｒｄｉｎ）。
３６．データ処理装置であって、記憶された規則正しい二次元配列の各素子について活性か不活性かが指定され、上記装置には、上記記憶された配列のすべての活性要素を包含する凸閉包を識別するための手段を含み、更に：（ａ）配列の各行を走査して、各行ごとに最も末端に位置する活性要素（複数のこともある）を記録して線形のリストに整理する手段；および（ｂ）末端に存在する活性要素に関する上記線形リストを処理して、配列の各行における末端以外の要素を更に考慮することなく、所望の凸閉包を識別する手段；を含むことを特徴とするデータ処理装置。