JP2809659B2

JP2809659B2 - ビデオ画像処理

Info

Publication number: JP2809659B2
Application number: JP63503708A
Authority: JP
Inventors: セツクストン，グラハム・グレインガー
Original assignee: ブリテツシユ・テレコミユニケイシヨンズ・パブリツク・リミテツド・カンパニー
Priority date: 1987-05-06
Filing date: 1988-05-06
Publication date: 1998-10-15
Anticipated expiration: 2013-10-15
Also published as: HK129196A; ATE81930T1; CA1308486C; EP0313612A1; EP0313612B1; JPH02500079A; WO1988009101A1; GB8710737D0; US5086480A

Description

【発明の詳細な説明】本発明は、ビデオ画像の解析および処理に関する。

ビデオ画像（動き画像に加えてファクシミリ画像のよ
うなフリーズされた画像を含むと理解されるであろう）
は、一般に関心のある少なくとも一つの対象物および関
心の少ない「背景」（そしてそれ故重要度の低い）を含
むであろう。

画像を解析すること、例えば関心のある特定の対象物
の有無あるいは位置を検出すること、は、種々のアプリ
ケーションにおいてしばしば望まれる。

画像伝送装置において、もしもそのシーンの重要な部
分、すなわち関心のある対象物、に関するデータが重要
でない（すなわち背景）部分よりも相対的に多くのビッ
トを用いてコード化されれば、改善された画質が達成さ
れるであろう。例えば、ビデオ電話システムにおいて、
典型的な画像は背景に対する頭部および肩部を具備し、
該頭部の顔領域が視覚的に最も重要であり、そこで、頭
部を他の部分よりも高いレートで更新して、なめらかな
頭部の動作の印象が伝えられるようにするため、肩部お
よび背景から該頭部領域を識別できるようにすることが
望まれる。頭部および肩部のシーン内で頭部を配置でき
るようにすれば、ビデオデータの空間的配置を変更し
て、視覚的な重要度をデータ内のブロックに付随させる
ことができるようにするために用いることができる。

また、対象物の位置が時間と共に正確に追跡されれ
ば、その動きを予想することが可能となり、それによっ
て「動き補償」DPCMが可能となる。

画像の異なる領域を識別する一つの方法は、ナガオに
より提案された方法（M.ナガオ、「画像認識とデータ構
造」、グラフィックランゲージ、ネイクおよびローセン
フィールド編、1972（M.Nagao−“Picture recognition
and data structure",Graphic Languages−ed Nake an
d Rossenfield,1972））を用いることである。この方法
は、ビデオ電話タイプのシステムにおいて背景に対する
頭部および肩部の画像に用いられている。髭のない被写
体の時には頭部の両側の決定にしばしば成功するが、そ
の他の場合は非常に成功しにくい。したがって、この方
法は、領域識別方法の根本原理として充分に信頼できる
とは思われない。

在来のコーダ、例えば個別コサイン変換コーダ、は、
シーン内のデータをコード化するのに「シーン内容」情
報を用いないので、シーンの各部分は、あたかも他の部
分と同じ視覚的重要度を有しているかのように処理され
る。

他の画像解析のアプリケーションは多種多様である
（例えば自動化された製造システム）。

ベクトル量子化（VQ）を用いて伝送のためにビデオ画
像をコード化することも知られている。VQコーディング
においては、画像は初期的に画像フレームに対応するデ
ィジタルデータのアレイにより表わされる。アレイポイ
ントのブロック（「サブアレイ」）は、コード一覧表か
らのベクトルと比較され、「最小２乗法」差分基準を用
いて最もマッチするベクトルが選択される。そして、こ
のベクトルを示すコードは、サブアレイを表わすために
伝送される。受信端においては、同一のコード一覧表か
ら指示されたベクトルが選択されて、表示される。

しかしながら、本発明の基礎をなす原理は、（例えば
対象物位置）識別法としてVQを用いることである。本発
明の種々の観点の広がりは、添付された請求の範囲にお
いて定義される。

ベクトル量子化（VQ）された時、ビデオ画像の異なる
領域は、当該エントリがどの領域を表わすかを示す付随
フラグを有するVQコード一覧表において異なって提供さ
れる各エントリにて処理される。ビデオ電話における例
では、２個の異なるフラグエントリ、一方は頭部用そし
て他方はシーンの残部用、が必要とされる。

さて、以下の添付図面を参照して、背景シーンに対す
る頭部および肩部における頭部の識別に関する非限定的
な例により本発明の実施例が説明される。

第１図は、本発明を実施するコーダの部分の動作の初
段を示すブロック図である。

第2a〜2g図は、コード一覧表を検索するのに用いられ
るトレーニングシーケンスにおける各段階を模式的に示
す。

第３図は、本発明を実施するコーダの動作を示すブロ
ック図である。

第4a図は、解析されるべきフレームを模式的に示す。

第4b図は、第4a図のベクトル量子化に用いられるサブ
アレイブロックを示す。

第4c図は、第4b図のベクトル量子化された画像に対応
するフラグの状態を示す。

第4d図は、本発明による第4a図のフレームの解析結果
を模式的に示す。

第５図は、本発明を実施するコーダを模式的に示す。

本発明の動作を可能とするため、「頭部」であるとフ
ラグされたベクトルを含む複合コード一覧表を提供して
おく必要がある。望ましくは、その他は「背景」とフラ
グされる。平均または与えられた話者のいずれにも「標
準の」コード一覧表を検索させることが可能であるが、
識別の柔軟性および一層の正確さを可能とするために、
このコード一覧表は、初期「トレーニング」シーケンス
の最初に検索される。以下、そのようなシーケンスをイ
ンプリメントするための望ましい方法が説明される。

コード一覧表の「頭部」および「背景」部分を生成す
るために、いくつかの「頭部のみ」データおよび「背景
のみ」データをあいまいでなく得る必要があり、生の
（crude）初期頭部検出アルゴリズムが必要とされる。

第１図および第２図を参照するに、頭部を検出するた
めに、頭部および肩部の画像のいくらかの隣接するフレ
ームを表わすディジタルデータが、例えば格納１におい
て、取込まれる。これらのフレームの１つが第2a図に示
される。このデータは、極端に正確である必要はなく、
むしろ典型的であるほうがよい。

データシーケンス内の主な動き領域は、頭部領域に直
接的に関連しているという仮定のもとに、フレーム差分
２が各隣接するフレーム対を示すデータに施される。こ
の処理は、例えば、画像領域全体にわたるランダムノイ
ズと共に動き領域を示す各隣接対について１セットの差
分データを生ずる。

差分データの各セットで表わされる全ての画素（ペル
（pels））について、強度（インテンシティ）の与えら
れたスレショールド値を超える各ペルは、最大強度（25
5）にセットされ、且つ該スレショールド未満の各ペル
は、最小強度（０）にセットされる。このスレショール
ド３は、多量のランダムノイズと動き領域のいくらかを
除去する。

次に、動き領域の少量のみを侵食するが、残ったラン
ダムノイズの大部分を非常に効果的に除去するメディア
ンフィルタ４が、各差分データのセットに施される。

この段階における各セットのデータにより表わされる
画像は、背景対頭部のコントラストが非常に高く、且つ
隣接するフレーム間の頭部の動きが１ペル以上でない限
り、めったに頭部の明確な輪郭を提供しない。しばし
ば、第2b図に示されるように、頭部の一側および頂部の
みが描出される。

概して、動き領域は、頭部領域の周囲の領域に集中
（クラスタ）されるが、画像の他の領域の動きに起因す
るいくらかの隔離されたクラスタが生ずる。該隔離され
たクラスタのいくらかを除去するためにクラスタ処理５
が用いられ、１つは該データにより表わされる画像のコ
ラムにおける動態「ペル」の数を示し、１つは該データ
により表わされる画像のロウにおける動態「ペル」の数
を示す、２つの直交するヒストグラムが生成される。１
次のモーメントが計算されて、第2c図に示されるよう
に、画像の「重心」が決定される。そして、動き領域の
与えられたパーセンテージがその内部に含まれるような
寸法に、上記座標上に中心が位置される方形が生成され
る（第2d図参照）。この方形の外部に位置するペルは、
ゼロ強度にセットされる（第2e図）。方形を適切に選択
すれば、この処理により隔離されたクラスタは除去され
る。

妥当でない方形の発生を低減するため方形の選択には
制約が課せられる。あるフレームと次のフレームとの間
の頭部の非常に小さな動きは非常に小さな方形を生成す
るから、あるセットのデータから次への方形のサイズの
変化のレートは次のように制限される。方形の境界線の
各々は、直前のデータのセットにおける対応する境界か
ら小さな距離内に位置するように制約され、且つ方形の
サイズの変化の最大のレートは、フレーム差分エネルギ
（例えば、差分データの２乗）に結付けられ、したがっ
て、該差分エネルギが小さいならば該変化は小さく保持
され、差分エネルギが大きければ変化のレートもより大
きくなる。

もし必要ならば、方形−該方形が用いられる理由は定
義するのに大変少ないビット数しか必要としないからで
ある−は、第１図の６において、そして第2f図に示され
るように、全ての残りの非ゼロペルを取囲むべくデータ
の周囲に配置できる最小の方形となるように減縮され
る。この方形は、頭部の近似的なモデルを表わすと仮定
される。

そして、第１図の７において、最終方形の周囲に、第
2g図に示されるように、境界が生成される。この境界
は、以後いかなるデータをも取出さない排他ゾーンを定
義する。このことは、原画像の各フレームに該境界を適
用したとき、該境界の内側のデータは、排他的に頭部デ
ータとなり、該境界の外側のデータは、排他的に背景デ
ータとなることを確約する。

もしも、５フレームのデータが格納１に初期的に取込
まれたならば、隣接する４対のフレームが解析され、４
セットのデータが結果として得られる。７に４つの境界
がセットされた後、頭部領域データおよび背景領域デー
タが原画像の最初の４フレームからそれぞれ抽出され、
各領域についてのVQコード一覧表８、例えば９ビット背
景コード一覧表および10ビット頭部コード一覧表８（す
なわち、コード一覧表はそれぞれ全体で２の９乗および
２の10乗のエントリを含む）を生成するためにリンド−
ブーゾ−グレイ（Linde−Buso−Grey）アルゴリズムが
施される。２つのコード一覧表は１つのコード一覧表を
形成するために組合わされ、その各エントリはその起源
を示す付随フラグを有する。

さて、第３図および第4a〜4d図を参照するに、上述の
トレーニングシーケンスが完了した後に、複合コード一
覧表が後続の画像フレームにおける頭部の配置に使用さ
れる。該VQコーダは、10でコード化される各ブロックの
セルを除き、伝送コーディングとしてVQを用いた従来の
システムにおけるのと同様に動作し、生成されるコード
は、各フレームについて頭部位置がわかるように、該ブ
ロックが「頭部」であるか「背景」であるかを示すフラ
グ（例えば第１のディジット）を含んでいる。

もちろん、上述したようにコーダにおいてコード一覧
表が抽出されるとき、VQは（このコード一覧表が、ベク
トルの指示を伝送することによりデコーダに最初に知ら
されない限り）伝送コードとして使用され得ないことは
わかるであろう。

該量子化処理は、本質的に近似的であるので、時に
は、画像の頭部の部分からのブロックがコード一覧表の
「背景」部分からのベクトルに最も良くマッチし、ある
いはその逆となることもわかるであろう。該頭部の実際
の識別は、通常、（例えば、上述したように）浸食およ
びクラスタリング11、12を用い、分離された「頭部」ブ
ロックを無視すること、あるいは、実際の頭部として
「頭部」ブロックのうち最も大きい集団を有する領域を
指示することを含む。

他の方法は、隔離された「頭部」ブロックの検出、ブ
ロックと「頭部」ベクトルとの間およびブロックと最も
良くマッチする「背景」ベクトルとの間の誤差の計測、
そしてもしも２つの値が同一（すなわち、該ブロックが
「頭部」か「背景」かということについてのあいまいさ
がある）であるならば、該ブロックを代りに「背景」に
再フラグすることを含む。

もしも、頭部ブロックが散乱され過ぎているならば、
コード一覧表は頭部を特徴付けるのに不十分であるかも
知れない。この場合、コード一覧表を再生成するのに再
トレーニングシーケンスが適用されてもよい。

この再トレーニングシーケンスは、上述したようなシ
ーケンスよりさらに単純であるか、（単純な再定義より
もむしろ）コード一覧表の改良で良いかも知れない。例
えば、各ベクトルの発生の「正常」（すなわち、頭部領
域に集中された）に対する「不正」（すなわち散乱され
た）の数の計数値は保持され、あまりにしばしば不正に
生ずるコード一覧表ベクトルからの除去により散乱は低
減され得る。

あるいは、これに代えて、「頭部」ブロックの最大の
集団を配置することにより導かれる近似的な頭部配置
が、上述と同様な方法により、新たな「頭部」コード一
覧表を生成するための領域として、使用されるかも知れ
ない。

これら後者の、各再トレーニングシーケンスからVQコ
ーダが「学習」する、アプローチは、精度の点で望まし
い。

第５図は本発明を実施する（例えばビデオ電話用の）
ビデオエンコード装置のブロック図を示す。ビデオ信号
は入力20からフレーム格納21に供給され、所望のサブア
レイのペルがさらなる処理のために受容し得るように、
個々の画素値がそれぞれの格納位置に記憶される。サブ
アレイのサイズは例えば８×８である。装置の最初の、
トレーニング、フェイズにおいて、制御ユニット−例え
ばマイクロプロセッサシステムにより適切にプログラム
される−は、上述のコード一覧表生成方法が実行され、
ベクトル（およびフラグ）がVQコード一覧表格納23に格
納される。VQ処理は、８×８サブアレイを格納されたベ
クトル、すなわち、そのようなパターンの可能性のある
最大数（２の64乗）よりも確実に少ない多数の８×８パ
ターンの、最も近いものとのマッチングを含む。

該装置のコーディングフェイズにおいては、フレーム
格納21から連続するサブアレイを受け、そしてこれらの
おのおのをコード一覧表格納の全てのベクトルと比較す
るVQ制御ロジック24によりマッチングが実行される。比
較の最も単純な形態は、２者の間の２乗平均差分の計算
であり、最も低い結果を与えるベクトルが最も良くマッ
チすると見なされる。VQ制御ロジックの出力は、そのよ
うに識別されたベクトルとフラグとの組合わせによるシ
ーケンスである。

この例における実際のロジックは、フレーム内差分コ
ーダ25により実行される。該フレーム内差分コーダ25で
は、（差分器26において）（在来の方法で）フレーム格
納21と先行フレーム予測器27とからのペルの間のフレー
ム内差分が行われる。そのようなシステムで従来設けら
れていたように、量子化器28および出力バッファ29（デ
ータ発生の通常でないレートを一定のレートで動作する
伝送リンクとマッチング処理するための）が示されてい
る。（図示されていない）受信機は、フレーム格納内の
再構成画像を更新するために差分情報を用いる。VQ制御
ロジック24からのフラグ出力は、（もしも、必要ならば
侵食／クラスタ回路30を介して）差分コーダ25に接続さ
れる。フラグが、「頭部」情報が処理されていることを
示すときは、コーダは通常に動作する。しかしながら、
「背景」が指示されたときには、差分情報の発生がより
頻繁でなく（例えば１つおきのフレームにのみ）行われ
る。この動作は、フラグが「背景」を指示した時に、１
つおきのフレームにおいてコーディングループを遮断す
るスイッチ31により示されている。

上述によれば、本発明の方法を用いることにより、い
かに視覚的に特徴的な対象物または対象物群も正確に検
出され、認識され、あるいは位置確認される。

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) H04N 7/24 - 7/68 H04N 1/41 - 1/419 G06T 7/00 - 9/40

Claims

(57)【特許請求の範囲】

【請求項１】ａ）ベクトル比較を使用して、画像のアレ
イを仮想的に分割して得られた、実質的に同一の形状を
有する２次元の複数のサブアレイの各々を、対象物に関
連したベクトルのサブセットを有するベクトルのコード
ブックセットからのベクトルと比較するステップであっ
て、前記サブセットの各ベクトルは、前記対象物に関連
していることを示すフラグを有するステップと、ｂ）実質的に同一であるときには、前記画像アレイのそ
のサブアレイを対象物に対応すると標識するステップ
と、を具備する画像アレイを処理する方法。
【請求項２】上記セットは背景に対応する要素を有する
第２のサブセットも含み、且つ各ベクトルは、該ベクト
ルが対象物または背景のいずれに関連するかを示す付随
フラグを有し、各サブアレイは該フラグにより対象物に
対応するかあるいは背景に対応するかが標識される請求
の範囲１の方法。
【請求項３】画像内で対象物に対応すると標識されたサ
ブアレイの最大の集団を見つけることにより、対象物の
位置が識別される請求の範囲１または２の方法。
【請求項４】上記セットは、複数の異なる対象物の各々
に関連する要素を含む請求の範囲１〜３のいずれか１項
の複数の異なる対象物を検出する方法。
【請求項５】請求の範囲１〜４のいずれか１項の方法を
採用した、ビデオ画像内の人間の頭部を検出する方法。
【請求項６】ａ）請求の範囲１〜５のいずれか１項の方
法を用いて、視覚的に重要な対象物に対応するビデオ画
像領域を識別するステップと、ｂ）該領域のためにコーティングデータの空間的配置を
変更するステップとを具備し、それによって視覚的重要性の度合が画像の当
該領域に帰せられるようにビデオ画像信号をエンコード
する方法。
【請求項７】ビデオ画像信号は、対象物に対応する領域
を他の領域よりも高い割合で更新するようにエンコード
される請求の範囲６のビデオ画像信号をエンコードする
方法。
【請求項８】ａ）少なくとも対象物の一部に対応する画
像領域を識別するステップと、ｂ）時間的に分離された一対の画像フレーム間の相違を
解析することにより対象物に対応する画像領域が識別さ
れ、それによって対象物が検出される、該画像領域を表
わす画像データからベクトルを生成するステップとを具備し、請求の範囲１〜５のいずれか１項の動態対象
物を識別する方法に用いられるベクトルのセットを生成
する方法。
【請求項９】画像領域のサブアレイ群をコード一覧表か
らのベクトル群と比較し且つそれから各サブアレイにつ
いて最も良く似たベクトルを選定する、該コード一覧表
は対象物に関連するベクトルのサブセットと、背景に関
連するベクトルのサブセットとを具備し、これらベクト
ルは各々それがどのサブセットに属するかを示す付随フ
ラグを有し、それによってサブアレイとして選定された
ベクトルのフラグにより対象物を識別し得る、ように構
成されたベクトル量子化手段を具備する画像内で背景に
対して対象物を識別するための画像解析装置。
【請求項１０】対象物に対応するとフラグ付けされた上
記サブアレイにより与えられた部分を囲む境界の位置を
決定し、それによって該画像解析装置が対象物の空間的
な広がりを識別し得るようにするためのクラスタ手段を
さらに具備する請求の範囲９の画像解析装置。
【請求項１１】請求の範囲１〜５のいずれか１項の対象
物を識別する方法を採用した画像解析装置。
【請求項１２】ａ）画像内の対象物を識別するように構
成された請求の範囲９〜11のいずれか１項の画像解析装
置と、ｂ）ビデオエンコードデータを上記対象物に対応する画
像領域に選択的に配置するように構成されたエンコーダ
とを具備するビデオ画像信号をエンコードするためのコー
ダ。
【請求項１３】上記エンコーダは量子化されていない画
像をエンコードするように構成された請求の範囲12のコ
ーダ。
【請求項１４】上記コーダは個別コサイン変換エンコー
ダである請求の範囲12のコーダ。
【請求項１５】ｃ）時間的に分割された画像フレーム間
で識別された対象物の位置の動きを検出し、それから次
の画像フレームにおける上記対象物の位置を予測するよ
うに構成され、それによって上記エンコーダが動き補償
DPCMエンコーダとなるような動き解析手段をさらに具備する請求の範囲12のコーダ。
【請求項１６】請求の範囲６または７のエンコード方法
を採用するように構成されたコーダ。
【請求項１７】対象物にまたは背景に対応する画像の領
域を識別し、それによって各ベクトルが上記領域から抽
出されたデータから生成されるようにするための識別手
段をさらに具備する上記コード一覧表の上記サブセット
のベクトルを生成するように初期的に構成された請求の
範囲12〜16のいずれか１項のコーダ。
【請求項１８】識別手段は、対象物に対応する画像の領
域を識別するため一対の時間的に分離された画像フレー
ムの間の相違を解析するように構成された請求の範囲17
のコーダ。
【請求項１９】識別手段は、ａ）概念的な２次元フィールド内の画像アレイエレメン
トの一対のフレームから、該２フレームにおける対応す
る位置の画像の輝度レベルの間の差異がスレショールド
の上か下かを示す該フィールド内の各位置の値を生成す
るための手段と、ｂ）上記スレショールド以上の差異を示すアレイエレメ
ントの上記フィールド内の重心を決定し、且つそれらア
レイエレメントの与えられた広がりを取り囲む重心周囲
の境界の位置を決定し、それによってそのように決定さ
れた境界内に存在する全ての画素が対象物に対応する画
像の領域に属すると識別されるようにするためのクラス
タ手段とを具備する請求の範囲18のコーダ。
【請求項２０】該手段は、重心の決定に先立ち概念的な
２次元フィールド内の該アレイエレメントをメディアン
フィルタリングするためのフィルタリング手段をさらに
具備する請求の範囲19のコーダ。
【請求項２１】上記重心周囲の境界は、有限数の厚みエ
レメントからなる請求の範囲19または20のコーダ。
【請求項２２】上記重心周囲の境界は、方形状である請
求の範囲19,20または21のいずれか１項のコーダ。
【請求項２３】方形状の境界は中心が重心に位置し且つ
方形の各側辺が、可能ならば、スレショールド以上の差
異を示すアレイエレメントの少なくとも一つに接するま
で内方に移動されてなる請求の範囲22のコーダ。