JP2002531020A

JP2002531020A - 立体画像符号化処理におけるフォアグラウンド情報抽出方法

Info

Publication number: JP2002531020A
Application number: JP2000584695A
Authority: JP
Inventors: チャラパリ，キラン; ワイチェン，リチャード
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1998-11-20
Filing date: 1999-10-27
Publication date: 2002-09-17
Also published as: WO2000031981A1; US20020051491A1; EP1050169A1; KR20010034256A; KR100669837B1

Abstract

(57)【要約】フォアグラウンド情報を抽出し、それをバックグラウンド情報よりも高いビットレートで符号化処理することにより、低帯域幅のネットワークにおける画像データの送信を向上する画像処理装置。

Description

【発明の詳細な説明】

【０００１】［発明の属する技術分野］本発明は、画像処理に係り、より詳しくは、テレビ会議アプリケーション用の
一対の立体画像からのフォアグラウンド及びバックグラウンド情報の抽出及び可
変転送レート方式に関する。

【０００２】［従来の技術］通常、テレビ会議アプリケーションにおいて、出席者間の通信帯域は、電話回
線では６４Ｋｂｐｓ程度に限定されている。低いビットレートの音声及び画像デ
ータを効率良く圧縮するためのデータ圧縮の方式、例えばＨ．２６３やＭＰＥＧ
４などが数年にわたって開発されてきた。しかし、通常のテレビ会議アプリケー
ションでは、ほとんどの画像データに不必要な情報、例えばバックグラウンド（
背景）に存在する物体などが含まれている。圧縮アルゴリズムでは、必要な物と
不必要な物との区別をつけることができないため、すべての情報を低帯域チャン
ネルで送信することになる。その結果、ビデオ会議出席者の映像は、実際よりも
遅れた、途切れた感じの映像になってしまう。

【０００３】先行技術として、ドイツ国特許番号ＤＥ３６０８４８９（Ａ１）に示すように
、テレビ会議出席者を写すために一対のカメラを用いたシステムがある。まず２
つの画像の比較を行い、様々なディスプレイスメント技術を用いてフォアグラウ
ンド（前景）情報の輪郭を検出する（この点については、上記の独国特許及び「
Depth Discontinuities by Pixel-to-pixel Stereo」Birchfield 及び Tomasiに
よる、インド・ボンベイでの１９９８年ＩＥＥＥのComputer Visionについての
国際会議議事録（以下、「Birchfield」とする）にも記述がある。）。フォアグ
ラウンド情報の輪郭を検出すれば、バックグラウンド情報も自動的に検出できる
。その後、単一の静止バックグラウンド画像を受信器に対して送信し、メモリ内
に保存する。そのフォアグラウンド画像を符号化し、保存されたバックグラウン
ド画像内におけるフォアグラウンド画像の位置情報を示すアドレスデータと共に
送信する。

【０００４】このシステムの問題点は、動きが全く無いためにバックグラウンドが人工的に
見えてしまう点と、テレビ会議出席者の輪郭をある程度の精度で決定しなければ
ならない点である。更に、ＤＣＴ係数の８×８ブロックのような四角の画像に対
して最適化されている符号器で、テレビ会議出席者の輪郭を表すような不規則な
形の画像を符号化しなければならない。この不規則な形の情報を別々に送信しな
ければならず、帯域にとっても、符号器側・復号器側の計算資源にとっても、負
荷となってしまう。

【０００５】［発明の開示］したがって、本発明は、テレビ会議画像のフォアグラウンド情報を抽出し、そ
れを第１のビットレートで符号化し、バックグラウンド情報を第１よりも低い第
２のビットレートで符号化することを目的とする。この目的は、わずかに異なる
視界を有するように配置した一対のカメラを使用することで達成される。２つの
画像を得た後、各画像内で一致する対応画素の位置差を計算し、これらの画素の
位置差を判定する。２つの同一画素の位置差が小さい場合は、これらの画素がバ
ックグラウンド情報であることを示し、位置差が大きい場合は、これらの画素が
フォアグラウンド情報であることを示している。フォアグラウンド画素は、高い
ビットレートで送信され、バックグラウンド画素は、それよりも低いビットレー
トで送信される。

【０００６】本発明の更なる目的は、テレビ会議出席者の輪郭線を正確に表す必要性をなく
すことである。この目的は、輪郭線を決定する際、係数の８×８ＤＣＴブロック
を用いることで達成される。所定の数のフォアグラウンド画素を含むブロックは
、高いビットレートで符号化され、この所定の数より少ない数しかフォアグラウ
ンド画素を含んでいないブロックは、それより低いビットレートで符号化される
。

【０００７】本発明の更に別の目的は、係数の８×８ＤＣＴブロックを符号化する標準型符
号器を用いてデータの符号化を行うことである。この目的も、テレビ会議出席者
の正確な輪郭線よりも、ＤＣＴデータのブロックの基づいてフォアグラウンド情
報を決定することによって達成される。

【０００８】したがって、本発明は、以下に説明する実施例から明らかになるように、構成
要素の様々な組み合わせ、配置等を含んだ方法及び特徴に関する。本発明の請求
範囲は独立の請求項にて示す。従属の請求項においては、好ましい実施態様を定
義する。

【０００９】［発明の好ましい実施の形態］図１は、本発明によるテレビ会議機構を示す。テレビ会議出席者３０は少し間
隔を置いて設置された２つのカメラ１０、２０の前のデスク３２に着席する。図
中のバックグラウンドには、コンピュータ４０、人が出入りするためのドア５０
、時計６０がある。カメラ１０からの視界を図２に示す。テレビ会議出席者３０
は、カメラ１０から見て右側に位置し、コンピュータ４０は、カメラから距離が
あるため、そのまま画像のほぼ中央に位置する。ドア５０は画像の右側であり、
時計６０は画像の左側に位置する。

【００１０】カメラ２０からの視界を図２Ｂに示す。テレビ会議出席者３０は、画像の左に
位置し、時計６０は、テレビ会議出席者３０のさらに左に位置する。コンピュー
タ４０は、テレビ会議出席者３０の右側に位置するものの、やはりほぼ中央に位
置する。ドア５０は、画像の右上方に位置する。

【００１１】これら２つのカメラから受信される画像を比較し、フォアグラウンド情報の画
素の位置決定を行う。（ＤＥ３６０８４８９及び birchfield に開示されている
ような、フォアグラウンド情報の位置決定を行うためのアルゴリズムが多数ある
。）本発明の好ましい実施態様によると、左側のカメラ１０からの画像（画像Ａ
）を、右側のカメラ２０からの画像（画像Ｂ）とを比較する。スキャンラインは
一直線に集結されており、画像Ａのスキャンライン１９と画像Ｂのスキャンライ
ン１９とは一致する。画像Ａのスキャンライン１９上の各画素は、画像Ｂのスキ
ャンライン１９上の各対応画素と一致する。例えば、画像Ａのスキャンライン１
９の画素２８が画像Ｂのスキャンライン１９の画素１３と一致する場合、両者の
差は、２８−１３＝１５のように計算できる。カメラが接近して配置されている
ため、フォアグラウンド情報の画素は、バックグラウンド情報の画素よりも、両
者の差が大きくなる。ここで、両者の差のしきい値として、例えば７を選択し、
差が７より大きい場合は、その画素がフォアグラウンド情報であることを示し、
７より小さい場合は、その画素がバックグラウンド情報であることを示す。これ
らの計算はすべて、図４に示すフォアグラウンド検知器５０で行われる。このフ
ォアグラウンド検知器は、例えば画像Ｂなどの画像と、画像データと同じサイズ
で、どの画素がフォアグラウンド画素（例えば「１」）で、どの画素がバックグ
ラウンド画素（例えば「０」）なのかを示すデータブロックとを出力する。これ
ら２つの出力は、８×８のＤＣＴ画像ブロックと、どのＤＣＴブロックがフォア
グラウンド情報でありバックグラウンド情報であるかを示すバイナリブロックを
作成するＤＣＴブロック選別器５２に供給される。予め設定されたしきい値であ
るか、またはそのチャネルのビットレート限界の変化にともなって変化する、フ
ォアグラウンド情報である特定のＤＣＴブロック内の画素の数に従って、そのブ
ロックは、フォアグラウンドブロック（高ビットレート符号化処理部５６Ａを始
動）あるいはバックグラウンド（低ビットレート符号化処理部５６Ｂを始動）と
して、符号器５６に対して識別される。

【００１２】図３Ａは、本発明に従って、フォアグラウンド情報として符号化された情報を
破線で表した画像Ｂを示す。各マス目は、８×８のＤＣＴブロックを表すものと
する。８×８のＤＣＴブロック内のいずれかの画素がフォアグラウンド情報であ
る場合、そのブロック内全体の画素もフォアグラウンド情報として符号化される
ように、フォアグラウンドしきい値を設定する。図３Ａの破線は、フォアグラウ
ンド情報として識別されたＤＣＴブロックを示す。これらのブロックは、より精
密な量子化レベルで符号化される。

【００１３】図３Ｂは、ＤＣＴブロック識別器５２の出力である、バイナリＤＣＴ差ブロッ
クを示す。符号器５６は、画像Ｂ及びバイナリＤＣＴ差ブロックを受け取る。論
理値「１」のＤＣＴ差ブロックに対応するＤＣＴブロックは、細かく符号化され
る。論理値「０」のＤＣＴ差ブロックに対応するＤＣＴブロックは、粗く符号化
される。その結果、チャンネルの帯域幅のほとんどがフォアグラウンド情報に割
当てられ、ほんのわずかな部分のみがバックグラウンド情報に割当てられる。復
号器５８（図４に図示）はビットストリームを受け取り、そのビットストリーム
内に設定されている量子化レベルに従って、復号化する。

【００１４】本発明は、ネットワーク上で動画を送信する場合に適応可能であり、例えば、
インターネット、電話、ビデオメール、テレビ電話、デジタルテレビジョン受信
機などに適用可能である。

【００１５】本発明の好ましい態様では、本発明は、処理用トリメディアプロセッサ及び表
示用テレビジョンモニタを用いたデジタルテレビジョンプラットフォームにも適
用可能である。本発明はまた、パーソナルコンピュータにも適用可能である。

【００１６】図５は、本発明を適用したコンピュータシステム７の代表的な実施例を示す。
図５に示すように、パーソナルコンピュータ（ＰＣ）８は、可変帯域ネットワー
クやインターネットなどのネットワークへのインタフェース機能を持つネットワ
ーク接続部１１と、ビデオカメラ（図示せず）などの他の離れた装置とのインタ
フェース機能を持つＦＡＸ／モデム接続部１２を有する。ＰＣ８はさらに、ユー
ザに対して情報（画像情報も含む）を表示するための表示スクリーン１４と、テ
キストやユーザコマンドを入力するためのキーボード１５と、表示スクリーン１
４上のカーソルの位置決め及びユーザコマンドの入力を行うためのマウス１３と
、挿入されたフロッピー（登録商標）ディスクからの読出し及び書込みを行うためのディスクドライブ１６と、ＣＤ―ＲＯＭに保存された情報にアクセスするためのＣＤ−ＲＯＭドライブ１７とを有する。これに加えて、ＰＣ８は、画像等を入力するための一対のテレビ会議用カメラや、画像やテキストなどを出力するためのプリンタ１９などの周辺機器を備える。

【００１７】図６は、ＰＣ８の内部構造を示す。図６に示すように、ＰＣ８は、コンピュー
タハードディスクなどのコンピュータで読取り可能な媒体を備えるメモリ２５を
有する。メモリ２５は、データ２３、アプリケーション２５、プリントドライバ
２４、オペレーションシステム２６を保存する。本発明の好ましい態様において
は、オペエーションシステム２６は、マイクロソフトのＷｉｎｄｏｗｓ９５（商
標名）などのウインドウ型オペレーションシステムであるが、本発明は他のオペ
レーションシステムを使用する場合でも適用可能である。メモリ２５のアプリケ
ーション領域５１に保存されたアプリケーションには、フォアグラウンド情報検
知器／ＤＣＴブロック選別器／画像符号器２１（以下、画像符号器２１）及び画
像復号器２２がある。画像符号器２１は、上述した方法で画像データの符号化処
理を行い、画像復号器２２は、ビデオ符号器２１に予め設定した方法で符号化さ
れた画像データを復号化する。これらのアプリケーションの処理動作は、既に詳
細な説明を行っているので、ここでは省略する。

【００１８】さらにＰＣ８は、表示インタフェース２９、キーボードインタフェース４１、
マウスインタフェース３１、ディスクドライブインタフェース４２、ＣＤ−ＲＯ
Ｍドライブインタフェース３４、コンピュータバス３６、ＲＡＭ３７、プロセッ
サ３８、プリンタインタフェース４３を有する。プロセッサ３８は、上述したよ
うなアプリケーションをＲＡＭ３７から実行するためのマイクロプロセッサなど
を備えるのが好ましい。画像符号器２１及び画像復号器２２を含むこれらのアプ
リケーションは、メモリ２５に（上述のように）保存されているか、あるいはデ
ィスクドライブ内のフロッピーディスクまたはＣＤ−ＲＯＭドライブ１７内のＣ
Ｄ―ＲＯＭに保存されている。プロセッサ３８は、フロッピーディスク上に保存
されたアプリケーションに対しては、ディスクドライブインタフェース３２を介
してアクセスし、ＣＤ−ＲＯＭに保存されたアプリケーションに対しては、ＣＤ
−ＲＯＭドライブインタフェース３４を介してアクセスする。

【００１９】アプリケーションの実行及びＰＣ８のその他の機能は、キーボード１５または
マウス１３を使って、キーボードインタフェース４１及びマウスインタフェース
３１を介してそれぞれプロセッサ３８に送信されたコマンドを用いて、開始され
る。ＰＣ８において作動するアプリケーションからの出力結果は、表示インタフ
ェース２９によって処理され、表示機１４上にユーザに対して表示されるか、あ
るいは、ネットワーク接続部１１を介して出力される。例えば、画像符号器２１
によって符号化された入力画像データは通常ネットワーク接続部１１を介して出
力される。それに対して、可変帯域ネットワークなどから受信した符号化された
画像データは、画像復号器２２によって復号化された後、表示器１４上に表示さ
れる。このことから、表示インタフェース２９は、プロセッサ３８によってコン
ピュータバス３６を通して供給された復号化画像データに基づいて画像を形成し
、及び、それらの画像を表示器１４に出力するための表示プロセッサを備えるこ
とが好ましい。文章作成プログラムなど、ＰＣ８で作動する他のアプリケーショ
ンの出力結果は、プリンタインタフェース４３を介してプリンタ１９に供給され
る。プロセッサ３８は、プリントドライバ２４を駆動し、プリンタ１９への送信
の前に、各プリントジョブに対して適切な書式作成を行う。

【００２０】以上によって、前述した本発明の目的は効率的に達成される。また、本発明の
請求の範囲から反れない限りは様々な変更や変形が可能なことから、添付の図面
を参考に説明した実施態様は単なる例であり、これに限定されるものではない。

【００２１】本発明はまた、本発明の特徴を示す要素を有するハードウェアや、適切にプロ
グラミングされたコンピュータによっても実行可能である。複数の手段を有する
装置では、これらの手段を単一のハードウェアで実現してもよい。

【図面の簡単な説明】

【図１】図１は、一対の立体カメラを用いたテレビ会議機構を示す。

【図２】図２Ａ、２Ｂは、図１のカメラからの画像を示す。

【図３】図３Ａは、フォアグラウンド情報の識別を示し、図３Ｂは、高ビットレートで
送信されるＤＣＴブロックを示す。

【図４】図４は、本発明によるテレビ会議装置を示すブロック図である。

【図５】図５は、本発明を実行するＰＣの概略図である。

【図６】図６は、図５のＰＣの内部構造を示す。

───────────────────────────────────────────────────── フロントページの続き (71)出願人Ｇｒｏｅｎｅｗｏｕｄｓｅｗｅｇ１， 5621 ＢＡＥｉｎｄｈｏｖｅｎ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓＦターム(参考） 5C059 MA23 MC11 PP13 SS07 5C061 AA29 AB04 AB08 AB12 AB17 AB24 5C064 AA02 AB04 AC04 AC09 AC12 AC22 AD02 AD03 AD06 AD14 AD18 5J064 AA03 BA16 BB01 BC01 BD03 5K041 AA09 BB06 CC04 CC07 EE38 HH25

Claims

【特許請求の範囲】

【請求項１】画像処理装置において、一対の立体画像を受け取る入力部と、該一対の立体画像からフォアグラウンド画素情報を検知するフォアグラウンド
抽出部と、第１の高い量子化レベルで該フォアグラウンド画素情報を符号化し、第２の低
い量子化レベルでバックグラウンド画素情報を符号化する、該フォアグラウンド
抽出部に連結する符号化処理部とを有する画像処理装置。
【請求項２】前記フォアグラウンド抽出部は、各画像内の同一画素の位置
差を計算し、位置差がしきい距離よりも長い画素をフォアグラウンド画素として
選択する請求項１記載の画像処理装置。
【請求項３】前記フォアグラウンド画素情報はブロック全体を考慮して設
定される請求項１記載の画像処理装置。
【請求項４】画像処理システムにおいて、一対の立体画像を撮る一対の立体カメラと、該一対の立体画像からフォアグラウンド画素情報を検知するフォアグラウンド
抽出部と、第１の高い量子化レベルで該フォアグラウンド画素情報を符号化し、第２の低
い量子化レベルでバックグラウンド画素情報を符号化する、該フォアグラウンド
抽出部に連結する符号化処理部とを有する画像処理装置。
【請求項５】一つの立体画像を符合化する方法において、一対の立体画像を受け取る工程と該一対の立体画像からフォアグラウンド情報を抽出する工程、第１の高い量子化レベルで該フォアグラウンド情報を符号化し、第２の低い量
子化レベルでバックグラウンド情報を符号化する工程とを含む方法。
【請求項６】前記抽出工程は、前記一対の立体画像のそれぞれにおける同一画素の位置を識別する工程と、該同一画素の位置差を計算する工程と、該位置差がしきい値を越えているか否かを判定し、超えている場合にはそれら
の画素をフォアグラウンド情報として識別する工程とを含むことを特徴とする請
求項５記載の方法。
【請求項７】コンピュータで読取り可能な媒体に保存され、一対の立体画
像からの画像データを処理するための、コンピュータで実行可能な処理工程にお
いて、該一対の立体画像からフォアグラウンド画素情報を検出するフォアグラウンド
抽出工程と、第１の高い量子化レベルで少なくとも１つの画像のフォアグラウンド画素情報
を符号化し、第２の低い量子化レベルで少なくとも１つの画像のバックグラウン
ド画素情報を符号化する符号化工程とを含む処理工程。
【請求項８】前記フォアグラウンド抽出工程において、どの８×８のＤＣ
Ｔブロックが少なくとも所定の量のフォアグラウンド画素情報を含んでいるかを
判定し、前記符号化工程において、少なくとも所定の量のフォアグラウンド画素情報含
んでいるＤＣＴ係数の８×８ブロックについて、前記第１の高い量子化レベルで
該ＤＣＴ係数の８×８ブロック全体を符号化することを特徴とする請求項７記載
のコンピュータで実行可能な処理工程。
【請求項９】一対の立体画像を処理する装置において、処理工程を保存するメモリと、該一対の立体画像からフォアグラウンド情報を抽出し、第１の高い量子化レベ
ルで該フォアグラウンド情報を符号化し、第２の低い量子化レベルでバックグラ
ウンド情報を符号化するように、該メモリに保存された処理工程を実行するプロ
セッサとを含む装置。