JP4763312B2

JP4763312B2 - 動画像データの符号化方法、復号化方法、これらを実行する端末装置、及び双方向対話型システム

Info

Publication number: JP4763312B2
Application number: JP2005047869A
Authority: JP
Inventors: 俊昭柿井; 洋一畑; 久雄牧; 仁志貴家
Original assignee: Sumitomo Electric Industries Ltd
Current assignee: Sumitomo Electric Industries Ltd
Priority date: 2004-04-23
Filing date: 2005-02-23
Publication date: 2011-08-31
Anticipated expiration: 2025-02-23
Also published as: CA2553434C; CN101820537B; EP1701546A1; AU2005236997A1; NO20065381L; AU2005236997B2; US7983497B2; TW200601838A; TWI372563B; US20100118935A1; KR101099884B1; EP1701546A4; CA2553434A1; CN101820537A; JP2006101472A; WO2005104552A1; US20050237380A1; KR20070044397A; CN1914915A

Description

この発明は、ネットワークに接続された複数の端末装置により構成される双方向対話型システム特有の対話環境に好適な画像処理技術に関し、特に、該端末装置間で送受信される動画像データの符号化・復号化方法等に関するものである。

近年、遠隔地の対話者間で互いに相手側対話者の映像を互いに視線一致した状態でモニタに表示しながらテレビ会議やカウンセリング等の親密な対話を実現する双方向対話型システムが提案されている。この視線一致技術には種々の技術が提案されており、相手側対話者像が表示されるモニタの所定位置にＣＣＤカメラのような撮像デバイスを配置することにより視線一致を実現している（特許文献１参照）。
特許第３０７４６７７号公報昭和４２年電気四学会連合大会（Ｎｏ．１９９８）

発明者らは、上述のような双方向対話型システムについて検討した結果、以下のような課題を発見した。すなわち、所定の伝送手段を介して対話者の動画像データを相互に伝送する場合、現在の通信環境では回線の伝送容量や画像修理能力に限界があり、データ圧縮が行われるのが一般的である。このような動画像の圧縮方式としては、ＭＰＥＧ方式が映画配信サービスなど広く利用されている。しかしながら、このＭＰＥＧ方式は、時間軸方向にも圧縮が行われるため、リアルタイムでの双方向対話では表示遅延が避けられず、遠隔地間での円滑な双方向対話が実現できないという課題があった。

一方、発明者らは上記双方向対話型システムのような視線一致した状態での対話における心理的考察により、対話時における対話者の視線の多くは、相手対話者の表情を観察するために該相手対話者の顔やノンバーバル表現となる手の動きに集中していることを発見した。この場合、対話時における対話者像を含む全画面を逐次伝送する必要はなく、対話時の重要な観察領域、すなわち対話者の顔や手の動きなど該対話者にとっての興味領域（ROI: Region of Interest）のみに注目して動画像伝送すれば伝送量を削減でき、また、双方向対話の高速応答性の実現に非常に効果的であることを発見した。

このように、興味領域にのみ注目した画像処理としては、例えばＪＰＥＧ２０００Ｐａｒｔ−Ｉ方式のＲＯＩ符号化が知られている。このＲＯＩ符号化は、興味領域の画質を非興味領域の画質よりも向上させる画像処理技術である。ここで、一般にＪＰＥＧ２０００方式は、静止画像の圧縮方式として知られており、画像データに対して離散ウェーブレット変換、スカラー量子化、エントロピー符号化及びレート制御に相当する処理（EBCOT: Embedded Block Coding with Optimized Truncation）を経て画像圧縮を行っている。ＲＯＩ符号化は、この静止画像内に設定される興味領域におけるウェーブレット係数を非興味領域におけるウェーブレット係数よりも高く設定することにより非興味領域と比べて興味領域の画質を向上させる。

しかしながら、ＪＰＥＧ２０００Ｐａｒｔ−Ｉ方式のＲＯＩ符号化は、興味領域と非興味領域とで圧縮レベルに差はあるものの、合計符号量は不変であるため、符号化処理自体を軽減することができず、また、得られる符号化データの伝送量を削減することもできない。加えて、ＲＯＩ符号化は、ウェーブレット係数を調節することにより行われるが、このウェーブレット係数は、複数個の空間画素を用いて計算されるため、復号化された静止画像において興味領域と非興味領域との境界がぼけてしまい、興味領域のみを別の画像にはめ込むなどの画像処理ができないという課題があった。

この発明は、上述のような課題を解決するためになされたものであり、ネットワークに接続された複数の端末装置により構成された双方向対話型システムに好適な画像処理技術として、各端末装置における処理負荷を効果的に軽減するとともに該処理の高速化を実現するための構造を備えた動画像データの符号化方法、復号化方法、それらを実行するコンピュータプログラム、該コンピュータプログラムが記録された記録媒体、これらを実行する端末装置、及び該端末装置を含む双方向対話型システムを提供することを目的としている。

この発明に係る動画像データの符号化方法は、動画像データを構成する画像フレームそれぞれを時間軸に沿って順次圧縮していく画像処理技術であって、上述の双方向対話型システムのように、表示されるべき画面フレーム内の一部領域にのみに有意な情報が含まれる動作環境においてリソースの有効利用を可能にするとともに、リアルタイムのデータ送受信を可能にする画像処理技術である。なお、動画像データを構成する画像フレームそれぞれは静止画像と等価である。また、人物像などの映像では、背景を静止画像とみなすことができる。したがって、この発明は、PowerPoint（マイクロソフト社の登録商標）、表計算ソフト（例えば“Excel”など）、ワープロソフト（例えば“Word”など）、ブラウザなどのアプリケーションソフトにより生成される資料データ（テキスト、写真、映像等）の伝送にも有効である。すなわち、係るアプリケーションソフトにより生成される表示データは、時間経過とともに部分的な変化（例えば、カーソルの移動や文字の追加表示など）が頻繁に生じることから、一定時間ごとの表示データを一画像フレームとすることで全体として動画像データとして取り扱うことも可能である。このことから、この明細書において、動画像データには、撮像装置などにより取り込まれた映像データの他、上記アプリケーションソフトなどにより生成された表示データ、静止画像と映像の組み合わせなども含まれる。なお、上記アプリケーションソフトなどにより生成されたデータファイルは、一旦画像データに変換された後に圧縮等の処理が施される。

具体的に、この発明に係る動画像データの符号化方法は、画像圧縮に先立ち、動画像データを構成する画像フレームのうち符号化されるべき画像フレームを、複数の領域に分割し、該複数の分割領域それぞれを、画像フレーム内において設定される興味領域及び該興味領域とは異なる非興味領域のいずれかに対応付けることを特徴としている。そして、当該動画像データの符号化方法は、複数の分割領域のうち興味領域（以下、ＲＯＩという）に対応付けられた分割領域の符号量が非興味領域（以下、非ＲＯＩという）に対応付けられた分割領域の符号量よりも多くなるよう該複数の分割領域をそれぞれ圧縮することで、各画像フレームの符号化データを生成していく。なお、画像フレームの分割領域の形状は、正方形、長方形などの矩形形状には限定されず、例えば、三角形、ひし形、台形、平行四辺形などの種々の多角形形状であってもよい。さらに、これら分割領域は、複数種類の多角形の組み合わせや円形や楕円形状等の一部を構成する曲線を含むなどそれぞれが異なる形状で構成されてもよい。ただし、以下の説明では、簡単のため、これら分割領域を矩形領域として表記する。

上述のように、この発明に係る動画像データの符号化方法は、動画像データを構成する画像フレームを時間軸に沿って個別に圧縮していくため、時間軸方向の圧縮も同時に行うＭＰＥＧ方式とは異なり、高速応答性に優れている。また、当該動画像データの符号化方法は、動画像データを構成する画像フレームを個別に圧縮していくため、例えば静止画像圧縮方式であるＪＰＥＧ２０００（以下、ＪＰ２という）を利用することができる。このＪＰ２には、複数の方式が既に提案されており、この発明にはいずれの方式も適用可能ではあるが、一例として上述のＰａｒｔ−Ｉ方式などはライセンスフリーでもあり広く利用可能な技術である。例えば、一つの画像フレームを複数の矩形領域に分割する技術は、ＪＰ２におけるタイリング技術を利用することで容易に実現することができる。ここで、ＪＰ２のタイリングとは、処理単位を小さくすることにより大規模画像の符号化や並列処理を可能にする技術であって、一つの画像フレームをいくつかのタイル（上記矩形領域に相当）に分割し、分割されたこれらタイルを個別に取り扱うことができる。

したがって、分割される複数の矩形領域をそれぞれＲＯＩ及び非ＲＯＩのいずれかに対応付け、これら対応関係に従って矩形領域ごとに圧縮レベルを調節すれば、既存のＪＰ２技術を利用して従来のＲＯＩ符号化と同等の効果を奏する当該動画像データの符号化方法が実現可能になる。また、当該動画像データの符号化方法では、分割された矩形領域ごとに圧縮レベルの異なる符号化が行われるため、従来のＲＯＩ符号化のようにＲＯＩと非ＲＯＩとの境界がぼけることはない。

なお、上記ＲＯＩの設定は、利用者自身が予め設定するか又は通信途中に設定を変更してもよく、また、複数の分割領域のうち、領域内画像の動きが検知された分割領域をＲＯＩに自動的に対応付けるようにしてもよい。

この発明に係る動画像データの符号化方法において、上記ＲＯＩには複数の矩形領域が対応付けられてもよく、この場合、それぞれ符号量が異なるよう圧縮されるのが好ましい。これは、上述の発明者の知見によるもので、双方向対話型システムのような視線一致した状態での対話における心理的考察により発見された事実として、対話時における対話者の視線の多くは、相手対話者の表情を観察するために該相手対話者の顔やノンバーバル表現となる手の動きに集中していることに起因している。すなわち、相手対話者の表情、頭の動き、手の動き、上半身の動きなどが、高速表示(例えば、３０フレーム/秒（ｆｐｓ）、遅延２００ｍｓｅｃ以下)されていれば、背景や服の細かな模様などの情報伝送は不要である。ただし、相手対話者の表情では、目線、目元、眉間の微妙な変化など、最も細かくかつ高速表示が要求される一方、ノンバーバル表現となる手の動きは、手の動き、輪郭の高速応答移動表示が重要である。そのときの手そのものの画質は劣化しても対話の本質には軽度の影響で済む。したがって、上記双方向対話型システム特有の対話環境を考慮し、上記ＲＯＩは、対話時に高精細高速応答の顔、頭部を含む高精細かつ高速表示領域と、手、腕、胸などを含む中精細かつ高速表示領域とに分けられているのがより好ましく、この場合、背景などを含む低精細かつ低速表示領域として非ＲＯＩが割り当てられる。このように対話への影響度を考慮して、圧縮レベルが段階的に変えられた複数種類の領域に画像フレーム内を分類しておくことが、画像処理負荷を軽減した状態で円滑な双方向対話を実現する上でより有効である。

画像フレーム内における各領域の対話への影響度を考慮すれば、上記複数の矩形領域のうち非ＲＯＩに対応する矩形領域に対する符号化処理において、該矩形領域の符号量を一定期間中０としてもよい（非ＲＯＩを符号化しない）。すなわち、非ＲＯＩに相当する低精細かつ低速表示領域に含まれる背景などは、むしろ静止画を高精細に貼り付け表示することが有効だからである。例えば、自宅で遠隔対話をする場合、家の中を最小限の撮影で対応できる。将来的には、人物だけを抽出して、背景はすべてデータベースから選択された画像（矩形領域）を貼り付けることも考えられる。現実的には、背景などの非ＲＯＩは一定時間ごとにしか符号化せず、人物の顔などのＲＯＩのみを符号化しても、当該動画像データの符号化方法ではこれらＲＯＩと非ＲＯＩの境界が明確なので、非ＲＯＩを符号化しない期間はその対応矩形領域に既に復号化された前の画像を貼付けることが有効である。特にこの場合、画像フレーム全体の符号化処理が軽減できるので、符号化のソフトウェア実装も期待できる。

この発明に係る動画像データの符号化方法において、上記複数の矩形領域のうちＲＯＩに対応付けられた矩形領域に相当する符号化データは、さらに暗号化されてもよい。ただし、暗号化対象はＲＯＩのみには限定されず、使用者が任意に設定すればよい。これは、双方向対話型システムを利用している対話者のプライバシー保護のために特に重要である。上述のように対話者間で視線一致状態を実現する双方向対話型システムは、単にビジネスシーンで利用されるテレビ会議システムの他、災害・事故などによる後遺症を抱えた人のカウンセリングなど、治療システムへの適用が有望視されているからである。一方、双方向対話ではリアルタイムでの暗号化と復号化が必要なため、対話時に重要となる領域のみの暗号化により、より効率的な画像処理が可能になる。対話時に重要となる領域（ＲＯＩ）は、主に相手対話者像の顔であり、この部分が判別できなければ、個人特定は非常に困難である。したがって、高精細（低圧縮率）かつ高速表示領域であるＲＯＩのみを重点的に暗号化しておけば、対話者のプライバシーが十分に保護され得る。また、個人特定には音声も重要であり、画像と独立な暗号化により、より強固なセキュリティーが構築可能となる。

この発明に係る動画像データの符号化方法において、該動画像データを構成する画像フレームは、ＲＯＩに１つの矩形領域が一致するよう分割されてもよい。この場合、矩形領域の分割数を少なくすることができる。一方、対話開始時に設定されるＲＯＩのサイズは、対話中に変動する場合がある。そのため、ＲＯＩのサイズ変動に対応して矩形領域の分割サイズを動的に変更することにより、画像処理のより効率的な負荷分散が可能になる。なお、矩形領域のサイズをＲＯＩのサイズ変動に対応して変更しない場合であっても、ＲＯＩのサイズ変動に対応して、該ＲＯＩに対応付けられた矩形領域を動的に変更ことも可能である。また、対話中におけるＲＯＩのサイズ変更も対話者自身がマウス等の入力手段を利用して任意に変更すればよい。この明細書において、「動的」とは、状況変化に応じて自動的に追随する場合のほか、利用者が状況に応じて任意に設定変更する場合を含む。

上述のような対話中における矩形領域のサイズや対応関係の変更は、目やロ、顔の動きと異なり、手の動きなどは、人によってもかなりの差異があることに起因して行われる。すなわち、静止している手に対して常に一定の圧縮をするのではなく、手の動きに変化の多い人、少ない人、更には、そのときの対話の状況に合わせて、固定圧縮率や固定分割でなく、圧縮率や分割サイズをアダプティブにすることにより、より最適な画像処理が可能になる。

上述のような動画像データの符号化方法に、ＪＰ２技術が適用される場合、タイリングにより分割された各矩形領域（タイル）ごとに圧縮レベルを変えることにより（圧縮レベルが高くなるほど符号量は少なくなる）、実質的にＲＯＩ符号化と同等の効果が得られるとともに、ＪＰ２技術により容易に復号化できる。しかしながら、符号化対象である画像フレーム内における非ＲＯＩに対応付けられた矩形領域の符号量を０にする場合、画像フレームの符号化データをＪＰ２技術によって復号化しても、非ＲＯＩの画像は得られない。このような場合の復号化（この発明に係る動画像データの復号化方法）は、まずＲＯＩに対応付けられた矩形領域として圧縮された符号化データを復号化するとともに、非ＲＯＩに対応付けられた矩形領域として、既に復号化後に格納されていた別画像フレームの対応する矩形領域を用意する。そして、復号化されたＲＯＩに対応する矩形領域と、用意された別画像フレームの対応矩形領域とが合成され、新たな画像フレームが生成される。ここで、各矩形領域に対する圧縮や表示品質の制御は、処理を行うＣＰＵ性能やネットワークのライン性能をモニタしながら動的に変更するのが好ましい。

さらに、この発明に係る動画像データの符号化方法では、符号化されるべき画像フレームの一部、例えば非ＲＯＩに相当する矩形領域に、送信対象である動画像データとは異なる情報源から得られた画像（圧縮レベルが低くても対話に支障を生じない静止画像の一部や動画像の画像フレームの一部）をはめ込むことにより、より臨場感のある対話が、回線容量や画像処理能力など現在の通信環境に制限されることなく可能になる。

具体的には、まず、符号化されるべき画像フレームとして複数の分割領域で構成された仮想画像フレームを設定し、これら複数の分割領域をＪＰ２のタイリングにおける処理単位であるタイルとして取り扱う。そして、これら複数の分割領域それぞれに、動画像データ（相手側対話者の動画像）を構成する画像フレームのうち符号化されるべき画像フレームから分割された複数の分割画像のうち少なくともいずれかとともに、該動画像データとは異なる情報源から得られた切出し画像を割り当てる。ここで、割り当てられる切出し画像としては、例えばキーボードから入力されたモニタ画像（静止画像）から切り出された一部（以下、テキスト画像という）、ライトペンによるホワイトボード機能を利用した手書き文字のモニタ画像（静止画像から切り出された一部（以下、ホワイトボード画像という）、他の動画像データを構成する画像フレームの一部など、カメラ、スキャナ等のディジタル機器により取り込まれた静止画像や動画像がある。また、新たに設定される仮想画像フレームの全体サイズ及び分割領域の数は、本来の符号化対象である動画像データの画像フレームと同じである必要はない。ただし、該仮想画像フレームを構成する分割領域のサイズは、本来の符号化対象である動画像データの画像フレームの分割対象と同じである必要はないが、同じである方が画像分割処理が不要になるためより好ましい。

上記仮想画像フレームを構成する複数の分割領域に上述のように割り当てられた複数種類の画像それぞれは、ＪＰ２のタイリング技術を利用することにより、タイルに相当するこれら複数種類の画像はそれぞれ異なる圧縮レベルで個別に符号化が可能である。これにより、これら複数の分割領域ごとに設定される符号化レベルに応じて個別に圧縮することで、各仮想画像フレームの符号化データが生成される。

以上のように符号化対象である動画像データの画像フレームとして設定される仮想画像フレームを時間軸に沿って順次符号化することにより、フレームごとに静止画像と動画像の１画像フレーム分が混在した動画像再生用の符号化データが得られる。

なお、上記仮想画像フレームを構成する複数の分割領域それぞれは、該仮想画像フレーム内において設定されるＲＯＩ及び該ＲＯＩとは異なる非ＲＯＩのいずれかに対応付けられてもよい。このとき、上述の構成と同様に、複数の分割領域それぞれは、ＲＯＩに対応付けられた分割領域の符号量が非ＲＯＩに対応付けられた分割領域の符号量よりも多くなるよう圧縮されるのが好ましい。

また、上記ＲＯＩの設定は、利用者自身が予め設定するか又は使用中に設定変更してもよく、また、複数の分割領域のうち、領域内画像の動きが検知された分割領域をＲＯＩに対応付けるようにしてもよい。

この発明に係る動画像データの符号化方法では、上記仮想画像フレームを構成する複数の分割領域のうち少なくともいずれかに割り当てられた画像の符号化データを、さらに暗号化してもよい。また、これら複数の分割領域のうち少なくともいずれかに対する符号化処理において、該分割領域の符号量を一定期間中０としてもよい。この場合、符号化処理を行う側で予め用意された画像をはめ込むことで、表示用画像フレーム（復号化された画像と符号量０の領域にはめ込まれた画像により構成）が得られる。以上のように設定される仮想画像フレームも、それぞれＪＰＥＧ２技術により圧縮されるのが望ましい。

上述のような動画像データの符号化・復号化方法は、双方向対話型システムにおける各端末装置において実行される。この端末装置は、相手側対話者の像を表示する表示装置と、該表示装置の前方に位置する該対話者を撮像するための撮像部と、上述の動画像データの符号化・復号化方法を実行する制御部と、そして、制御部により圧縮された符号化データを前記伝送手段へ送出する入出力部とを少なくとも備える。

上述のような動画像データの符号化・復号化方法は、コンピュータ等で実行されるプログラムであってもよく、この場合、当該プログラムは、有線、無線を問わずネットワークを介して配信されてもよく、また、ＣＤ、ＤＶＤ、フラッシュメモリ等の記録媒体に格納されていてもよい。

この発明によれば、リアルタイムの双方向対話を実現する双方向対話型システムのような表示画像の一部領域のみに情報が集中している動画像データを伝送する特殊な対話環境での利用を特に想定し、画像フレームから分割された複数の矩形領域をＲＯＩと非ＲＯＩのいずれかに対応付け、該ＲＯＩに対応付けられた矩形領域と非ＲＯＩに対応付けられた矩形領域とで圧縮レベルと変えて各画像フレームの符号化を行うことで、係る双方向対話型システムにおける動画像データの符号化処理の軽減及び高速化を可能にする。

以下、この発明に係る動画像データの符号化・復号化方法等の各実施形態を、図１〜図２３を用いて詳細に説明する。なお、図面の説明において、同一部位、同一部材には同一符号を付して重複する説明を省略する。

この発明に係る動画像データの符号化・復号化方法は、所定の伝送手段を介して接続された端末装置において実行可能であり、このような端末装置間での対話を実現する、例えば上記特許文献１に記載された双方向対話型システムに適用可能である。

まず、ここでは、当該動画像データの符号化・復号化方法を実行する端末装置が適用可能な双方向対話型システムについて説明する。なお、この双方向対話型システムは、視線一致した状態での対話を実現するシステムであるが、当該撮像装置を含む端末装置は、対話者間で視線一致できない構成であって単に対話者像の動画像データの送受信が可能な双方向対話型システムにも適用可能である。

（双方向対話型システム及び端末装置）
図１は、異なる地点に居る対話者間の視線一致を可能にする双方向対話型システム全体を示す論理構成図である。このシステムは、Ａ地点（第１地点）にいる対話者３Ａ（第１対話者）とＢ地点（第２地点）にいる対話者３Ｂ（第２対話者）との間で双方向対話を実現するシステムである。このシステムは異なる地点にいる対話者間でも親密な信頼関係を確立し綿密なコミュニケーションを実現するシステムであり、例えばカウンセリング・システムや家庭学習を志向したサービス提供システムとして用いることができる。その場合、少なくとも一方の対話者として、教師、医師、心理学者などのサービス提供者を想定している。したがって、このシステムはこれらサービス提供者がサービスを提供するために必要な情報、及び理想的な対話環境を提供できるよう種々の機能及び構成を備える。

具体的には、Ａ地点において、（ａ）対話者３Ａ（例えばカウンセラ）が座る椅子４Ａ（高さ調節機構４０Ａを有する）と、（ｂ）対話者３Ａが向かうテーブル２Ａと、（ｃ）伝送手段２７を介して対話者間の視線を一致させるための機構を備えた端末装置２０Ａとが設置され、対話者３Ａはパーティション２２Ａによって隔離されている。一方、Ｂ地点には、（ａ）対話者３Ｂ（例えばカウンセリングを受けるクライアント）が座る椅子４Ｂ（高さ調節機構４０Ｂを有する）と、（ｂ）対話者３Ｂが向かうテーブル２Ｂと、（ｃ）伝送手段２７を介して対話者間の視線を一致させるための機構を備えた端末装置２０Ｂとが設置され、対話者３Ｂはパーティション２２Ｂにより隔離されている。ここで、伝送手段２７は、Ａ地点の端末装置２０ＡとＢ地点の端末装置２０Ｂとの間で画像情報及び音声情報の送受信を可能にするため、光ファイバ伝送路３１（主伝送路）及び衛星通信伝送路３２（バックアップ用伝送路）等を含む。なお、この伝送手段２７は有線、無線のいずれであってもよい。また、伝送手段は、既に敷設された電話回線網等のネットワークを含み、さらに種々のデータベースを備えた電子掲示板システム（BBS: Bulletin Board System）も含む。

Ａ地点において、上述の椅子４Ａは対話者３Ａの位置を規定するために機能する。この椅子４Ａは端末装置２０Ａの表示部（表示装置）２１Ａとの距離を一定に保つために固定されるのが好ましい。しかし、該椅子４Ａが固定されていない場合であっても、テーブル２Ａを対話者３Ａと表示部２１Ａに設置することによりこの椅子４Ａと表示部２１Ａとの距離を一定に保つことが可能になる（テーブル２Ａの存在が対話者３Ａの心理的な距離の基準となる事実が確認されている）。なお、相手側の対話者３Ｂ（例えば、カウンセリングを受ける者等）がいるＢ地点の端末装置２０Ｂの構成も同様である。

Ａ地点において、端末装置２０Ａは、(1)Ｂ地点の端末装置２０Ｂから伝送手段２７を
介して伝送されてきた画像情報に基づいて対話者３Ｂの映像などを表示する、テーブル２Ａの上に配置された、モニタＴＶ１Ａを備えた表示部２１Ａと、(2)ＣＣＤカメラ（撮像部）５Ａを所定位置に保持するための本体部６Ａと、(3)Ｂ地点の端末装置２０Ｂから伝送手段２７を介して伝送されてきた音声情報に基づいて対話者３Ｂの音声を出力するための音声出力部２３Ａ（スピーカ）と、(4)対話者３Ａの音声を音声情報として集音し、Ｂ地点の端末装置２０Ｂへ向けて伝送するための音声入力部２４Ａ（マイク）を備える。さらに、このシステムはカウンセリング・システムとしてより綿密なコミュニケーションを実現するため、(5)対話者３Ａが文字や図形を入力し、入力された文字や図形を表示部２１Ａに表示するとともに、文字図形情報としてＢ地点の端末装置２０Ｂへ向けて伝送するための文字図形入力部２５Ａ（キーボード、ポインティング・デバイス、タッチパネルなどのインターフェース）と、(6)上記各構成要素と伝送手段２７との間に設けられ、信号処理、伝送制御及び映像データの編集作業等を行う映像処理装置２６Ａ（制御部含む）とを備える。なお、Ｂ地点の端末装置２０Ｂも、上述したＡ地点の端末装置２０Ａと同様に構成されており、具体的には、表示部２１Ｂ、ＣＣＤカメラ５Ｂと本体部６Ｂからなる撮像装置６００Ｂ、音声出力部２３Ｂ、音声入力部２４Ｂ、文字図形入力部２５Ｂ、及び映像処理装置２６Ｂを備える。

さらに、Ａ地点及びＢ地点の端末装置２０Ａ、２０Ｂにおいて、撮像装置６００Ａ、６００Ｂの構成を説明する。なお、説明の都合上、Ａ地点及びＢ地点の各端末装置２０Ａ、２０Ｂに共通する構成要素について言及する場合には、例えば撮像装置６００のように、各地点を区別する文字Ａ、Ｂを省略して説明する。また、特に説明がされていない場合には、原則としてＡ地点の端末装置２０Ａについて説明しているものとして、共通する構成を有するＢ地点の端末装置２０Ｂについては重複する説明は省略する。

この撮像装置６００は、撮像部であるＣＣＤカメラ５（５Ａ）、該ＣＣＤカメラ５を支持した状態で所定位置に設置するための本体部６を備える。モニタＴＶ１（１Ａ）はテーブル２（２Ａ）の上に載置されており、対話者３（３Ａ）はこのモニタＴＶ１から距離Ｌ（ｍ）離れて置かれた高さ調整機構４０（４０Ａ）を備えた椅子４（４Ａ）に座っている。この距離Ｌ（ＬＡ）は０．５ｍ以上５ｍ以下に設定される。撮影される対話者３及びモニタＴＶ１間には、外径φ２０ｍｍ以下，長さ約１００ｍｍの円筒状のＣＣＤカメラ５が設けられている。また、このＣＣＤカメラ５はその撮像方向が撮影される対話者３に向けられるよう設置されている。そしてＣＣＤカメラ５で撮像された対話者３の映像は、画像情報として他方の対話者側に伝送される（伝送手段２７を介してＢ地点の端末装置２０Ｂに伝送される）。なお、対話者によっては表示部２１と該対話者間の間隔が僅かにずれる可能性もある。したがって、このような状況にも対処すべく、ＣＣＤカメラ５は焦点深度の深いものを選択するのが好ましい。

次に、ＣＣＤカメラ５の具体的な設置位置を図２を用いて説明する。

まず、撮像装置６００の本体部６は伝送されてきた他方の対話者の映像を表示するための表示部２１上に設置される。なお、スイッチ２１０はモニタＴＶ１の電源をオン／オフする電源スイッチ、モニタ画面８に対して表示される画像を水平方向や垂直方向に移動させるための像位置調節スイッチ、色補正スイッチ等を含む。ＣＣＤカメラ５は、伝送されてきた他方の対話者３Ｂの像９が表示されるモニタ画面８の前方の所定位置に本体部６によって配置される。なお、このモニタ画面８は４インチ程度であれば十分に利用できる。

具体的には、ＣＣＤカメラ５はモニタ画面８から前方ｗ（ｃｍ）の位置であって、該モニタ画面８に表示された対話者像９の頭部９ａ付近に配置される。円筒状ＣＣＤカメラ５の中心軸は、点線で示す対話者像９の目の位置の上方ｈ（ｃｍ）の部位に位置している。

このようにＣＣＤカメラ５は、モニタＴＶ１の画面８に表示された対話者像９の目の位置より上の頭部付近に位置しているため、双方向対話に特別な支障は生じない。例えば、ＣＣＤカメラ５が画面８に表示された対話者像９の目の位置（図中、点線で示す位置）の上方ｈ＝約１０（ｃｍ）に設けられ、モニタＴＶ１および対話者３間の距離Ｌが約２．５（ｍ）に設定されているシステム構成の場合、視差角は２．３°で十分検知限界の視差角３°を下回ることが可能である（モニタ画面８とＣＣＤカメラ５の間隔ｗが１０（ｃｍ）程度ある場合でも、視差角の変動には特に影響はない）。つまり、視線一致時に相手の目（モニタ画面８に表示された他方の対話者３Ｂの像の目）がはっきりと見えれば、その頭部辺りにカメラ５が設けてあっても、モニタＴＶ１の画面８が大型であれば、双方向対話に支障はほとんどないことが確認されている。この画面８の大きさは、実験の結果、横３５ｃｍ，縦２６ｃｍ程度以上の大きさがあれば良好な双方向対話が実現できることも確認されている。なお、相互の対話者が知人同志であれば、画面の大きさは小さくとも心理的な障害も少ない傾向を示す結果も得られており、画面サイズに関しては用途に応じて使いわけるとよい。

なお、視線一致状態は、モニタ画面８に対してＣＣＤカメラ５の位置を調節することにより実現可能である。また、ＣＣＤカメラ５に対してモニタ画面８上に表示される画像を移動させても実現可能である。例えば、手動で視線一致を実現する場合、対話者自身がＣＣＤカメラ５を移動させたり、スイッチ２１０を調節することでモニタ像を移動させればよい。また自動で視線一致を実現する場合には、カメラを移動させるための駆動機構を新たに設置したり、画像認識技術を利用してモニタ像を移動させればよい。

さらに、視差角について、図３を用いて説明する。この明細書において、視差角とは、図３に示されたように、モニタ画面８に表示された対話者像９へ向けられた、撮影される対話者３の視線と、ＣＣＤカメラ５へ向けられた、該対話者３の視線とがなす角度θを言う。換言すれば、対話者３の視線に対するＣＣＤカメラ５の設置位置のずれ角を意味している。また、ここでいう視線一致とは、非特許文献１で報告されているように、ＣＣＤカメラ５の設置位置による不自然さの許容限界以下を意味している。定量的には、視差角として、左右方向４．５°以下（対話者像９の目の中心Ａに対し、該像９の両こめかみ側），真上方向１２°（像中心Ａに対し、像９の頭部９ｂ側），真下方向８°（像中心Ａに対し、像９の胴体側）以下を視線一致範囲内としている。もちろん、この視差角は小さい方が良く、左右上下方向３°以下が検知限界とされている。したがって、ＣＣＤカメラ５が設置可能な領域は、図４に示された円錐領域である。なお、この円錐領域は、対話者３の目３０とモニタ画面８に表示された対話者像９の中心点Ａ（この実施形態では、対話者像９の両目の中心を該対話者像９の中心点Ａとして定義している）とを結ぶ該対話者３の視線３１に対し、所定距離Ｌ（ｍ）離れた時のモニタ画面８上の視線一致領域９ｂ、及び、該対話者３の目３０の位置とで規定される。

なお、モニタ画面８上に表示される対話者像９のサイズが小さい場合には、必ずしも該ＣＣＤカメラ５と対話者像９の頭部が重なっている必要はない。むしろ対話者９の頭部がＣＣＤカメラ５に隠れてしまい見にくくなる。上述のように視線一致の条件は視差角３°の領域内にＣＣＤカメラ５と対話者像９の目が存在することであり、具体的に画面から５０ｃｍ離れた位置で約３ｃｍ程度（図２におけるｈ）である。したがって、この範囲内であればＣＣＤカメラ５と対話者像９の頭部をずらしても視線一致状態は維持される。この対話者像９とＣＣＤカメラ５をずらすには、例えばモニタ画面８上における画像表示位置を調節したり、ＣＣＤカメラ５の支持部を調節してＣＣＤカメラ5自体の位置を変更することにより実現される。

発明者らは、上述のような構造を有する双方向対話型システムにおいて視線一致した状態での対話における心理的考察を行い、対話時における対話者の視線の多くは、相手対話者の表情を観察するために該相手対話者の顔やノンバーバル表現となる手の動きに集中していることを発見した。この場合、対話時における対話者像を含む全画面を逐次伝送する必要はなく、対話時の重要な観察領域、すなわち対話者の顔や手の動きなど該対話者にとっての興味領域（ROI: Region of Interest）のみに注目して動画像伝送すれば伝送量を削減でき、また、双方向対話の高速応答性の実現に非常に効果的であることを発見した。そこで、この発明に係る動画像データの符号化・復号化方法は、双方向対話型システムなどで送受信される動画像データの各画像フレーム内にＲＯＩを含む場合の画像処理において、処理負荷を効果的に軽減するとともに該処理の高速化を実現する。なお、当該動画像データの符号化・復号化方法は、端末装置において実行される。

（端末装置）
図５は、この発明に係る動画像データの符号化・復号化方法を実行するための端末装置の構成を示す図である。この端末装置は、モニタ等の表示装置２１（図１に示された双方向対話型システムにおける表示部２１Ａ、２１Ｂに相当）と、映像処理部２６（図１に示された双方向対話型システムにおける映像処理装置２６Ａ、２６Ｂに相当）と、外部記録装置７００と、マウス等のポインティングデバイス９００と、タッチペン９２０と、表示装置２１の前方に位置する対話者を撮像するＣＣＤカメラ５等の撮像部及び撮像ユニット６からなる撮像装置６００、スピーカー９１０とを備える。上記映像処理部２６は、撮像手段に含まれる撮像ユニット６からの画像情報や他の情報メディアの取り込みや伝送手段２７を介して相手側対話者の動画像データ（符号化データ）の送受信を行うためのデータ入出力部２６１（図中、Ｉ／Ｏ）と、この発明に係る動画像データの符号化・復号化方法を実行する制御部２６３と、送受信される動画像データを格納しておくための画像データベース２６２（図中、画像Ｄ／Ｂ）と、表示装置２１へ制御部２６３の指示に従って所定のパターンを表示させる描画部２６４と、マウス等のポインティングデバイス９００からの位置情報の取り込みや外部記録装置７００とのデータ授受を可能にするデータ入出力部２６５（図中、Ｉ／Ｏ）と、相手対話者の音声が出力されるスピーカー９１０を制御するための音源コントローラ９３０とを備える。

なお、外部記録装置７００は、例えば磁気テープ、ＣＤ、光ディスク、ハードディスク、ＤＶＤ、フラッシュメモリ等を含み、この発明に係る動画像データの符号化・復号化方法を実行するコンピュータプログラムや相手側対話者の動画像データなどが格納される。

（動画像データの符号化・復号化方法）
次に、上述のような構造を備えた端末装置の制御部２６３において実行される符号化・復号化（この発明に係る動画像データの符号化・符号化方法）を説明する。図６（ａ）は、各端末装置で行われる動画像データの送信動作を説明するためのフローチャートであり、図６（ｂ）は、各端末装置で行われる動画像データの受信動作を説明するためのフローチャートである。また、図７は、図６（ａ）における動画像の送信動作におけるフレーム符号化（この発明に係る動画像データの符号化方法）を説明するためのフローチャートである。なお、以下で説明される動画像データを構成する画像フレームの符号化及び復号化は、ＪＰ２技術により行われるものとする。

まず、動画像データの送信動作では、図６（ａ）のフローチャートで示されたように、対話に先立って、画像フレーム内のＲＯＩを設定する前処理が行われる（ステップＳＴ１０）。このステップＳＴ１０において設定されたＲＯＩ情報は、一旦メモリに格納され、制御部２６３が、この格納されたＲＯＩ情報を用いて動画像データを構成する画像フレームをそれぞれ時間軸に沿って順次符号化していく（ステップＳＴ２０）。なお、このフレーム符号化は、Ｉ／Ｏ２６５を介して外部記録装置７００から読み込まれたコンピュータプログラムを制御部２６３が実行することにより行われる。

制御部２６３は、上述のフレーム符号化（ステップＳＴ２０）により符号化された符号化データを逐次Ｉ／Ｏ２６１を介して伝送手段２７へ送出する（ステップＳＴ３０）。そして、これらフレーム符号化及び符号化データの送信動作は、３０フレーム／秒の処理速度で対話が終了するまで実行される（ステップＳＴ４０）。

一方、動画像データの受信動作では、図６（ｂ）のフローチャートに示されたように、制御部２６３は、伝送手段２７からＩ／Ｏ２６１を介して画像フレームの符号化データを順次受信し（ステップＳＴ５０）、該画像フレームを構成する矩形領域（タイル）の復号化を行う（ステップＳＴ６０）。そして、制御部２６３は、画像フレームごとに全タイルの復号化が終了した時点で復号化されたタイルの合成作業を行い、表示装置２１に表示させるべき新たな画像フレームを生成する（ステップＳＴ７０）。なお、受信した符号化データ中における非ＲＯＩに相当するタイルの符号量が０の場合には、画像Ｄ／Ｂ２６２から予め格納された画像を対応するタイル画像として合成することにより、表示させるべき画像フレームを生成する。また、上述の復号化処理は、対話終了まで逐次行われる（ステップＳＴ８０）。

さらに、図６（ａ）のフローチャート中のフレーム符号化について、図７のフローチャートを用いて詳細に説明する。

制御部２６３では、ＪＰ２のタイリング技術を利用して画像フレームの分割を行い（ステップＳＴ２０１）、前処理（ステップＳＴ１０）で設定されたＲＯＩ情報に基づいて、分割された全タイルをＲＯＩ含まれる矩形領域か、あるいは非ＲＯＩに含まれる矩形領域かに分類する。

なお、このステップＳＴ２０１におけるタイリングは、図８に示されたように、対話者像９が表示されたモニタ像８０を含む画像フレーム８００を、いくつかの同じサイズのタイル８１０(Ｔ_１７〜Ｔ_７７)に分割し、以後、これらタイルを1枚の独立な画像として扱うことができる。タイルのサイズは対話者自身が任意に選択可能であり、その最小単位は１×１画素、最大は２^３２−１×２^３２−１画素である。また、画像フレーム８００のサイズをモニタ像８０のサイズは一致していてもよい。ただし、モニタ像８０のデータサイズは小さい方がタイリングを実行する制御部（例えば、ＣＰＵ）の負荷低減には有効である。そこで、一旦広角レンズカメラで取り込んだ画像データのうち一部をモニタ像８０としてタイリング処理し、モニタ画面８に表示する際に処理用のモニタ像８０を拡大表示してもよい。

画像フレーム８００内におけるＲＯＩの設定は、対話開始前に対話者自身が自己像をモニタ上で確認しながら設定するのが好ましい。具体的にＲＯＩの設定は、図３に示されたように、対話者３自身が表示部２１のモニタ画面８に対面し、タッチペン９２０を用いて行う。この場合、図９に示されたように、モニタ画面８上でタッチペン９２０により指示された始点Ｐ１と終点Ｐ２とで規定される矩形領域をＲＯＩ８０ａに設定すればよい。例えば、図８に示された画像フレーム８００中で対話者像９の顔を含む矩形領域がＲＯＩ８０ａに設定された場合、図１０に示されたように、画像フレーム８００を構成するタイルＴ_１１〜Ｔ_７７のうちタイルＴ_２３、Ｔ_２４、Ｔ_２５、Ｔ_３３、Ｔ_３４、Ｔ_３５がＲＯＩ８０ａに対応付けられる。なお、このようなＲＯＩの設定は、後述するように１つの画像フレーム８００内の複数箇所に分割してそれぞれ設定することも可能である。この場合、複数のＲＯＩそれぞれに対して圧縮レベルや暗号化レベルに変化を与えることにより、対話者自身が画像品質、セキュリティ、背景画像等に対する自己決定権を有することができる。

また、画像フレーム８００は、図１１に示されたように、ＲＯＩ８０ａに１つのタイルＴ_１２が一致するよう分割されてもよい。この場合、画像フレーム８００の分割数を少なくすることができる。さらに、対話開始時に設定されるＲＯＩ８０ａのサイズは、対話中に変動する場合（対話者自身が動く場合）がある。そのため、ＲＯＩ８０ａのサイズ変動に対応してタイル８１０の分割サイズを動的に変更することにより、画像処理のより効率的な負荷分散が可能になる。また、図８及び図１０に示されたように、複数のタイル８１０によりＲＯＩ８０ａが構成される場合にも、ＲＯＩ８０ａのサイズ変動に対応して、該ＲＯＩ８０ａに対応付けられたタイル８１０を動的に変更ことも可能である。なお、対話中の動的変更は、対話者自身が状況に応じて手動変更する場合と、制御部などで状況変化をモニタしながら自動変更される場合のいずれも含まれる。

上述のような対話中におけるタイルサイズや対応関係の動的変更は、目やロ、顔の動きと異なり、手の動きなどは、人によってもかなりの差異があることに起因して行われる。すなわち、静止している手に対して常に一定の圧縮をするのではなく、手の動きに変化の多い人、少ない人、更には、そのときの対話の状況に合わせて、固定圧縮率や固定分割でなく、圧縮率や分割サイズをアダプティブにすることにより、より最適な画像処理が可能になる。

次に、上述のようなタイリング（ステップＳＴ２０１）に続いて、分割されたタイル８１０ごとにＪＰ２技術の符号化が行われる。なお、この実施形態では、ステップＳＴ２０１においてＲＯＩ８０ａに対応付けられたタイルについてのみ符号化を行い、非ＲＯＩに対応付けられたタイルについては符号量を０にする（符号化を行わない）。なお、この実施形態では、符号化が行われない場合であっても、タイルの存在のみを示す数バイトの符号化列対応させることで、復号化の破綻を回避している。

制御部２６３で行われるフレーム符号化はタイルごとに、まず、処理対象であるタイルがＲＯＩ８０ａに対応付けられているか、非ＲＯＩに対応付けられているかを判断し（ステップＳＴ２０２）、ＲＯＩ８０ａに対応付けられたタイルのみ符号化を行う一方、非ＲＯＩに対応付けられたタイルについては符号化処理を行わない（符号量：０）。

ステップＳＴ２０２においてＲＯＩ８０ａに対応付けられていると判断されると、符号化処理として、離散ウェーブレット変換（ＤＷＴ：ステップＳＴ２０３）、スカラー量子化（ステップＳＴ２０４）、及びＥＢＣＯＴ（ステップＳＴ２０５）が順次実行される。

ここで、ステップＳＴ２０３の離散ウェーブレット変換（ＤＷＴ）は、タイル画像を帯域分割する処理である。ＪＰ２技術では、２分割フィルタバンクのリフティング構成に基づくＤＷＴが採用されている。リフティング構成に基づくＤＷＴには、可逆変換である整数型ＤＷＴと非可逆変換である実数型ＤＷＴの２種類が存在する。ロッシー(非可逆)符号化には、実数型ＤＷＴが、ロスレス(可逆)符号化には整数型ＤＷＴがそれぞれ用いられる。

また、ステップＳＴ２０４におけるスカラー量子化は、ＤＷＴ係数に対して、各帯域ごとにスカラー量子化を行う。但し、整数型ＤＷＴを用いた場合には、この処理は省略される。このスカラー量子化のための量子化ステップサイズは、次のように表現される。

ここで、△_ｂはサブバンド６の量子化ステップ、Ｒ_ｂはサブバンドｂのダイナミックレンジである。Ε_ｂとμ_ｂはそれぞれ５ビットと１１ビットで表され、逆量子化のために復号器に送られる。なお、上記量子化ステップサイズは、画質優先度が高い、すなわち高画質が望まれるタイルに対しては、小さなステップサイズが設定され、低画質でよい非ＲＯＩに対応付けられたタイルに対しては大きなステップサイズが設定される。また、この量子化ステップサイズを１に設定すれば実質的にこのスカラー量子化を行わないことと等価である。

次に、ステップＳＴ２０５におけるＥＢＣＯＴ(Embedded Block Coding with Optimized Truncation)は、エントロピー符号化及びレート制御に相当する処理を担うアルゴリズムであって、係数ビットモデリング、算術符号化、及びレイヤー分割・符号切取りにより３工程で構成される。このＥＢＣＯＴには、コードブロックと呼ばれる符号化単位が存在する。コードブロックは、ＤＷＴ領域における矩形領域で定義され、すべての帯域で同一のサイズを持つ。また、上記３工程のうち算術符号化を除く工程は、コードブロックサイズ単位で独立に行われる。

係数ビットモデリングでは、コードブロック内の係数をビットプレーン分解し、各ビットプレーンにおける係数ビットの文脈情報(コンテクスト)が判定される。コンテクスト判定の際には、予め用意された統計モデルに基づくContext Assignment Mapが用意されている。Contextassignment Mapは、帯域ごとに異なる。係数ビットの持つ文脈情報によって、一つのビットプレーンを三つの符号化パス(サブビットプレーン)に分解、整列が行われる。

次に、算術符号化は、各符号化パスを２値算術符号化器であるＭＱコーダを用いて符号化する。ＭＱコーダには符号化のための文脈情報が必要になるが、これには係数ビットモデリングで得られた文脈情報が利用される。

レイヤー分割・符号切取りでは、コードブッロクごとに生成された符号化データ列が、再生画像フレームにおけるＳＮＲ向上の寄与度の高さに応じて、与えられた符号化レート内で複数のＳＮＲレイヤーに分割される。最上位のレイヤーが最も画質への影響が大きく、また、最上位から最下位の各レイヤーを順に受信することによって、再生画像フレームの画質を段階的に向上させることが可能になる。レイヤーに分割可能な位置は各符号化パスの終端に限定され、この終端が切り捨て点と呼ばれる。なお、ＪＰ２におけるレート制御は、画質への寄与が高い順に並べ変えられたデータに対し、与えられた符号化レートを超えるデータを、切捨て点を単位として捨てることにより達成される。

以上のように、一つの画像フレームを構成する全タイルについて、符号化（ステップＳＴ２０３〜ＳＴ２０５）又は符号化のスキップが終了すると（ステップＳＴ２０６）、得られた各タイルの符号化データをまとめて一つの画像フレームの符号化データが生成される（ステップＳＴ２０７）。

なお、上述のステップＳＴ２０１では、前処理（ステップＳＴ１０）において対話者自身が設定したＲＯＩ情報を利用して、所定サイズに分割された各タイルごとに、ＲＯＩと非ＲＯＩを対応付けたが、このＲＯＩの設定は、分割されたタイルのうち、画像の動きが検知されたタイルをＲＯＩに自動的に対応付けるようにしてもよい。図１２は、ＲＯＩの設定方法の他の例を示す図である。

まず、分割領域として、画像フレームが所定サイズのタイルに分割される（ステップＳＴ２０１ａ）。そして、分割されたタイルごとに画像の動き検知が行われ（ステップＳＴ２０１ｂ）、実際に画像の動きが検知されたタイルをＲＯＩに設定する（ステップＳＴ２０１ｃ）。以上の処理がすべてのタイルに行われたのち（ステップＳＴ２０１ｄ）、以降のステップＳＴ２０２が実行される。

図１３は、分割されたタイルごとの動き検知動作を説明するために図である。図１３（ａ）には、前画像フレームＡ（タイルＴ_１１〜Ｔ_２３で構成）のうちタイルＴ_２２と、後画像フレームＢ（タイルＴ_１１〜Ｔ_２３で構成）の対応するタイルＴ_２２同士を比較する様子が示されている。具体的な比較では、前画像フレームＡにおけるタイルＴ_２２内の予め指定された画素の輝度値ａ１、ａ２、ａ３と、後画像フレームＢにおけるタイルＴ_２２内の対応する画素の輝度値ｂ１、ｂ２、ｂ３を求め、これら対応する画素同士の差を合計することで動き量を算出する。すなわち、タイルＴ_２２の動き量は、以下の式で表される。
（ａ１−ｂ１）＋（ａ２−ｂ２）＋（ａ３−ｂ３）
以上の式で算出された動き量が所定の閾値を超えている場合に、タイルＴ_２２がＲＯＩに設定される。なお、輝度値を比較するための画素数は、タイルごとに異なっていてもよい。

図１３（ｂ）は、上述の動き検知動作を含む符号化処理を概念的に示すブロック図である。この図１３（ｂ）に示されたように、処理対象である後画像フレームＢにおける各タイルについて、比較対象である前画像フレームＡにおける対応タイルを利用した動き検知が行われ、この検知結果に基づいて、ＲＯＩとして符号化されるか、非ＲＯＩとして符号化（非ＲＯＩの場合は符号量０でもよい）され、この後画像フレームＢの符号化データが得られる。

次に、図１４は、上述のような動画像データの符号化方法が適用された双方向対話型システム（この発明に係る双方向対話型システム）における動画像データの送受信動作を概念的に説明するための図である。なお、以下の説明では、ＣＣＤカメラ５から取り込まれた対話者像が表示されたモニタ画像８０を６分割タイリングする例を示す。

送信側端末装置２０Ａでは、まず、ＣＣＤカメラ５から順次取り込まれた画像フレーム（対話者像が表示されたモニタ画像８０）を６つのタイル（Ｔ_１１〜Ｔ_２３）にタイリングし、画像フレームごとに、ＲＯＩ８０ａに対応付けられているタイルＴ_１２を符号化する。一方、非ＲＯＩに対応付けられたタイルＴ_１１、Ｔ_１３、Ｔ_２１〜Ｔ_２３は一定期間ごとに符号化される。このとき、送信側端末装置２０Ａは、例えば伝送速度１０Ｍｂｐｓの伝送回線に３０フレーム／秒（ｆｐｓ）で送出される画像フレームの符号化データ（圧縮されたタイルＴ_１２の符号のみを含む）を送出しながら、一定期間ごとに全タイルＴ_１１〜Ｔ_２３の圧縮データを含む符号化データを送出する。このように、一つの画像フレームを構成するタイルを符号化対象と非符号化対象に予め分類することにより、当該送信側端末装置２０Ａにおける画像処理の負荷が軽減される。

一方、受信側端末装置２０Ｂでは、３０ｆｐｓで順次受信される符号化データを復号化するが、この際、一定期間の間、ＲＯＩ８０ａに対応付けられているタイルＴ_１２は復号化データが得られるが、非ＲＯＩに対応付けられたタイルＴ_１１、Ｔ_１３、Ｔ_２１〜Ｔ_２３については復号化データが得られない（送信側端末装置２０Ａから送出される符号量は０）。この場合、受信側端末装置２０Ｂでは、先に受信して復号化された別画像データのタイルＴ_１１、Ｔ_１３、Ｔ_２１〜Ｔ_２３に相当するタイル画像を復号化されたタイル画像と合成することにより、新たに表示されるべき画像フレーム９０を生成する。

このように、リアルタイムの双方向対話を実現する双方向対話型システムのような表示画像の一部領域のみに情報が集中している動画像データを伝送する特殊な対話環境において、画像フレームから分割された複数のタイルをＲＯＩと非ＲＯＩのいずれかに対応付け、該ＲＯＩに対応付けられたタイルと非ＲＯＩに対応付けられたタイルとで圧縮レベルと変えて各画像フレームの符号化を行うことで、係る双方向対話型システムにおける動画像データの符号化処理の軽減及び高速化を可能にする。

なお、上述の受信動作では、復号化されたすべてのタイルを合成するか、又は、復号化されたタイルと以前の画像フレームのタイルとして格納されていたタイルを合成することにより表示用画像フレーム９０を生成しているが、表示用画像フレームの生成はこれに限定されるものではない。図１５は、この発明に係る双方向対話型システムにおける動画像データの送受信動作の他の例を概念的に説明するための図である。

送信動作では、図１４に示された動作と同様に、送信側端末装置２０Ａにおいて、タイルＴ_１１〜Ｔ_２３それぞれについて、ＲＯＩ符号化及び非ＲＯＩ符号化のいずれかが実行され、得られた符号化データが受信側端末装置２０Ｂに送信される。受信側端末装置２０Ｂでは、ＲＯＩに対応付けられたタイルの符号化データが復号化される一方、非ＲＯＩに対応付けられたタイルの符号化データも復号化される。そして、必要なタイルＴ_１２のみを拡大処理することにより表示用画像フレーム９０を生成する。

なお、この図１５に示された例では、複数のタイルがＲＯＩに設定されているが、会議の進行状況に対応して表示対象人物が表示されている一つのタイルを動的に変更しながらＲＯＩ設定してもよい。この場合、予め拡大表示されるタイルのみの符号量が伝送されるので、より処理負荷が低減される。

例えば、複数の人物が参加したテレビ会議において、送信側端末装置２０Ａで予め各会議参加者を表示するタイルを割り当てておき、会議参加者のうちいずれかが挙手した場合など、画像の動きが検知されたタイルをＲＯＩに設定し、各タイルについてＲＯＩ符号化又は非ＲＯＩ符号化を行う。一方、受信側端末装置２０Ｂでは、復号化されたタイルのうちＲＯＩに対応付けられたタイルのみを表示用画像フレーム９０として拡大処理してもよい。

また、上述の図１４に示された例では画像フレームを６分割タイリングし、分割されたタイルＴ_１１〜Ｔ_２３をＲＯＩと非ＲＯＩのいずれかに対応付けたが、このＲＯＩはさらに要求される画質レベルの異なる複数の領域に分けられてもよい。図１６は、図１４に示された動画像データの送受信動作の第１応用例（特に送信動作）を概念的に説明するための図である。

相手対話者の表情では、目線、目元、眉間の微妙な変化など、最も細かくかつ高速表示が要求される一方、ノンバーバル表現となる手の動きは、手の動き、輪郭の高速応答移動表示が重要である。そのときの手そのものの画質は劣化しても対話の本質には軽度の影響で済む。したがって、上記双方向対話型システム特有の対話環境を考慮し、図１６では、送信側端末装置２０Ａにおいて対話時に高精細高速応答の顔、頭部を含む高精細かつ高速表示領域（第１ＲＯＩ）としてタイルＴ_１２を対応付け、手、腕、胸などを含む中精細かつ高速表示領域（第２ＲＯＩ）としてタイルＴ_２２を対応付け、残りのタイルＴ_１１、Ｔ_１３、Ｔ_２１、Ｔ_２３を非ＲＯＩに対応付けている。このように対話への影響度を考慮して、圧縮レベルが段階的に変えられた複数種類の領域に画像フレーム内を分類しておくことが、画像処理負荷を軽減した状態で円滑な双方向対話を実現する上でより有効である。

なお、画像フレーム内における各領域の対話への影響度を考慮すれば、非ＲＯＩに対応するタイルＴ_１１、Ｔ_１３、Ｔ_２１、Ｔ_２３の符号量を一定期間中０としてもよい。具体的には、非ＲＯＩについては符号化せず、符号化されないタイルの存在のみを示す数バイトの符号化列を送信しておくことで、復号化の破綻を回避する。

さらに、ＲＯＩに対応付けられたタイルＴ_１２を暗号化することにより、双方向対話型システムを利用している対話者のプライバシー保護が可能になる。上述のように対話者間で視線一致状態を実現する双方向対話型システムは、単にビジネスシーンで利用されるテレビ会議システムの他、災害・事故などによる後遺症を抱えた人のカウンセリングなど、治療システムへの適用が有望視されているからである。一方、双方向対話ではリアルタイムでの暗号化と復号化が必要なため、対話時に重要となる領域のみの暗号化により、より効率的な画像処理が可能になる。対話時に重要となる領域（ＲＯＩ）は、主に相手対話者像の顔であり、この部分が判別できなければ、個人特定は非常に困難である。したがって、高精細（低圧縮率）かつ高速表示領域であるＲＯＩのみを重点的に暗号化しておけば、対話者のプライバシーが十分に保護され得る。また、個人特定には音声も重要であり、画像と独立な暗号化により、より強固なセキュリティーが構築可能となる。

さらに、双方向対話は、相手側対話者の顔を見ながら（視線一致可能な状態を維持しながら）行われるが、相手側対話者像を介してのみの対話ではどうしても現実のｆａｃｅ−ｔｏ−ｆａｃｅ対話（動画像や資料画像を利用したビジュアル対話）における臨場感は得られない。臨場感ある対話環境としては、双方向対話においても、ｆａｃｅ−ｔｏ−ｆａｃｅ対話と同様に、資料を用いた円滑な対話、顔だけではなく、上半身や部屋全体を映し出すような多様な画像が求められる。したがって、相手側対話者像の表示と並行してテキスト等の資料を自在に表示して臨場感ある対話を実現するのが理想的である。しかしながら、このように複数の情報源からの静止画像や動画像の追加送信には大容量の通信容量が必要となり、対話システム普及への障害となる。

このような臨場感ある双方向対話としては、音楽、演劇、各種趣味、資格全般などの遠隔実技指導も含まれ、特にこのような対話環境では、複数視点で観察された画像を合成するとともに、そのときの映像に対応したテキストを随時表示していくのが好ましい。更には、遠隔実技指導に限らず、現場指導においても複数視点での観察画像を合成するとともにテキストも表示録画と再生観察指導が好ましい。

図１７は、上述の図１６に示された第１応用例の具体的な例を概念的に説明するための図である。この図１７には、動物園の監視用モニタに表示される画像フレームが示されている。この画像フレームも、タイルごとに画像の動きを検知して暗号化の有無を設定するか、タイルごとに予め暗号の有無や強度を設定しておく。なお、このような応用例では、ＲＯＩ設定されたタイルのみが暗号化されるのでなく、任意のタイルについて暗号化設定される。

すなわち、檻の中の動物が表示されているタイルＴ_１１、Ｔ_１２、Ｔ_１３については暗号化せず、該動物に動きがあったときのみ符号化データを伝送する。一方、檻の手前にいる人物が表示されたタイルＴ_２１、Ｔ_２２、Ｔ_２３については、プライバシー保護の観点から低レベルの暗号化を行うようにしておく。

符号化されるべき動画像データには、PowerPoint、表計算ソフト、ワープロソフト、ブラウザなどのアプリケーションソフトにより生成される資料データも適用可能であり、以下では、この符号化動作を図１８及び図１９を用いて説明する。なお、図１８及び図１９は、いずれも図１４に示された動画像データの送受信動作におけるフレーム符号化の第２応用例を概念的に説明するための図である。また、上記アプリケーションソフトにより生成されたデータファイルは、一旦画像データに変換された後に圧縮等の処理が施される。

上記アプリケーションソフトにより生成される表示データ等は、時間経過とともに部分的な変化（例えば、カーソルの移動や文字の追加表示など）が頻繁に生じることから、一定時間ごとの表示データを一画像フレームとすることで全体として動画像データとして取り扱うことも可能である。このことから、この明細書において、動画像データには、撮像装置などにより取り込まれた映像データの他、上記アプリケーションソフトなどにより生成された表示データ、静止画像と映像の組み合わせなども含まれる。

まず、図１８に示された例では、テキストや写真（映像でもよい）などの画像フレームに対してタイリングが行われる。このとき、ポインタの移動を検知することにより、該ポインタが存在するタイルＴ_２２を符号化する。

一方、図１９の例では、図１９（ａ）に示されたように、送信側端末装置におけるモニタ画面８Ａ内には、伝送用画像領域（この領域が伝送用画像フレーム８０としてタイリングされている）が設定されるとともに、該領域外にPowerPoint、表計算ソフト、ワープロソフト、ブラウザなどのアプリケーションソフトにより生成される資料データが表示されている。

図１９（ｂ）に示されたように、上記資料データがモニタ画面８Ａ上を矢印Ｓ１で示された方向にドラッグされ、その一部が伝送用画像領域に入ると、送信側端末装置では、タイルＴ_２１内において画像の動きが発生したことを検知できる。そおため、送信側端末装置では、係るタイルＴ_２１を符号化し、受信側端末装置へ伝送する。

受信側端末装置では、図１９（ｃ）に示されたように、モニタ画面８Ｂ上に、復号化されたタイルＴ_２１のみが新たに合成された画像フレーム９０が表示される。

さらに、この発明に係る動画像データの符号化方法の第３応用例では、符号化されるべき画像フレームの一部、例えば非ＲＯＩに相当する矩形領域に、送信対象である動画像データとは異なる情報源から得られた画像（圧縮レベルが低くても対話に支障を生じない静止画像の一部や別の動画像を構成する画像フレームの一部）をはめ込むよう構成されている。この構成により、より臨場感のある双方向対話が、回線容量や画像処理能力など現在の通信環境に制限されることなく可能になる。以下、この発明に係る動画像データの符号化方法の第３応用例を、図２０〜図２３を用いて詳細に説明する。

図２０は、この発明に係る動画像データの送受信動作におけるフレーム符号化の第３応用例（特に、送信動作）を概念的に説明するための図である。

この第３応用例では、符号化されるべき画像フレーム８０として複数の分割領域ＶＴ_１１〜ＶＴ_３３で構成された仮想画像フレームを設定し、これら複数の分割領域ＶＴ_１１〜ＶＴ_３３をＪＰ２のタイリングにおける処理単位であるタイルとして取り扱う。なお、画像フレーム８０は３×３に分割されているが、仮想画像フレームは４×４に分割されている（分割サイズは画像フレーム８０における矩形領域Ｔ_１１〜Ｔ_２３と同じ）。

そして、仮想画像フレームを構成する分割領域のうち画像フレーム８０のＲＯＩに設定された矩形領域Ｔ_１２、Ｔ_２２が、該仮想画像フレームの分割領域ＶＴ_１２、ＶＴ_２２に割り当てられる。仮想画像フレームの分割領域Ｖ_１３には、対話者全体を撮像した動画像フレーム８６の一部８６ａが割り当てられる。仮想画像フレームの分割領域ＶＴ_３１、ＶＴ_３２には、キーボードから入力された文字情報を示すテキスト画像８８の一部８８ａ、８８ｂがそれぞれ割り当てられる。仮想画像フレームの分割領域ＶＴ_１１、ＶＴ_２１には、ライトペン９２０等により入力された手書き文字情報を示すホワイトボード画像８７の一部８７ａ、８７ｂがそれぞれ割り当てられる。なお、仮想画像フレームの分割領域ＶＴ_３３には画像は割り当てられていないものとする。

分割領域ＶＴ_１１〜ＶＴ_３３に上述のように割り当てられた複数種類の画像それぞれには、図２０の符号化レベルマトリックスに示されたように、予め符号化レベルが指定されている。なお、“Ｈ”は高圧縮率指示を意味し、“Ｍ”は中圧縮率指示を意味し、“Ｌ”は低圧縮率指示を意味している。また、符号化レベルマトリックス中の斜線領域は、仮想画像フレームの分割領域ＶＴ_３３の符号化レベルを示す領域であるが、分割領域ＶＴ_３３には画像が割り当てられていないため、符号化は行われない（符号量＝０）。この符号化レベルマトリックスで指定された符号化レベルに従って各分割領域ＶＴ_１１〜ＶＴ_３３がＪＰ２技術で個別に圧縮され、得られた分割領域ＶＴ_１１〜ＶＴ_３３の符号化データを合成することにより各仮想画像フレームの符号化データが生成される。

以上のように符号化対象である動画像データの画像フレームとして設定される仮想画像フレームを時間軸に沿って順次符号化することにより、静止画像と動画像の１画像フレーム分とが混在した動画像再生用の符号化データが順次得られる。

一方、図２１は、図２０に示された第３応用例に係るフレーム符号化により得られた符号化データの復号化動作を概念的に説明するための図である。

所定の伝送手段２７を介して送信された符号化データは、図２０中に示された仮想画像フレームの分割領域ＶＴ_１１〜ＶＴ_３３の符号化データで構成されているため、これら分割領域ＶＴ_１１〜ＶＴ_３３の符号化データをそれぞれ復号化することにより、分割領域ＶＴ_１１〜ＶＴ_３３に割り当てられた画像がフレーム要素として得られる。なお、仮想画像フレームの分割領域ＶＴ_３３の符号量は０であるため、この分割領域ＶＴ_３３に対応するフレーム要素として、対話者自身の自己像８５が用意される。

以上のように復号化されたフレーム要素と別途用意された対話者自身の自己像とが合成されることにより、図２１に示されたような表示用画像フレーム９０が得られる。相手側端末装置から送信されてくる符号化データを時間軸に沿って順次復号化することにより、静止画像と動画像の１画像フレーム分とが混在した動画像再生用の画像フレームが順次得られる。

図２２及び図２３それぞれは、図２０に示された第３応用例に係るフレーム符号化が適用されたときの表示用画像フレームの一例を示す図である。いずれの表示用画像フレームも図２１に示されたように複合化により、又は複合化と別画像の合成により得られる。

図２２に示された表示用画像フレーム９０は、復号化された分割領域に割り当てられた画像で構成された領域９０ａと、対話者自身の自己像９０ｂとが合成されている。この図２２に示された表示用画像フレーム９０の例では、斜線領域９０ｃにテキスト画像などの静止画像が割り当てられ、残りの領域に相手側対話者像のＲＯＩが割り当てられている。このように、この発明に係る動画像データの符号化方法の第３応用例では、符号化処理時に仮想画像フレームの分割領域ＶＴ_１１〜ＶＴ_３３のいずれに相手側対話者像のＲＯＩを割り当ててもよく、また、相手側対話者像とテキスト画像などの静止画像の割合も任意に変更することができる。

また、図２３に示された表示用画像フレーム９０は、指導者とピアノ演奏者とがピアノレッスンを行う場合を想定し、該指導者側に表示される動画像を構成する１画像フレームである。この図２３に示されたように、仮想画像フレームを構成する４分割領域のうち３分割領域にはピアノ演奏者を多角的に撮像した各画像が割り当てられるとともに、残りの領域には楽譜などの表示したテキスト画像が割り当てられている。また、このように多角的に撮影された画像を仮想画像フレームの分割領域に割り当てる場合には、異なる地点間でテレビ会議を行う一方に参加した参加者それぞれの画像を仮想画像フレームを構成するいくつかの分割領域に割り当てるとともに、残りの分割領域に会議資料を表示したテキスト画像を割り当てるようにしてもよい。

この発明は、リアルタイムの双方向対話を実現する双方向対話型システムのような表示画像の一部領域のみに情報が集中している動画像データを伝送する特殊環境での使用が可能である。

異なる地点間において伝送手段を介して視線一致を実現する双方向対話型システム（この発明に係る端末装置及び双方向対話型システム）の一構成を示す図である。図１に示された撮像装置を示す図であって、視線一致のためのＣＣＤカメラの設置方法を説明するための図である。視差角を説明するための図である。ＣＣＤカメラが設置されるべき領域を示す図である。この発明に係る端末装置の構造を示すブロック図である。各端末装置で行われる動画像データの送信動作及び受信動作をそれぞれ説明するためのフローチャートである。図６（ａ）における動画像データの送信動作におけるフレーム符号化（この発明に係る動画像データの符号化方法）を説明するためのフローチャートである。タイリングを説明するための図である。ＲＯＩ（興味領域）の設定方法の一例を説明するための図である。タイルとＲＯＩとの対応関係を説明するための図である（その１）。タイルとＲＯＩとの対応関係を説明するための図である（その２）。ＲＯＩ（興味領域）の設定方法の他の例を説明するための図である。各タイルにおける画像の動き検知を説明するための図である。この発明に係る双方向対話型システムにおける動画像データの送受信動作を概念的に説明するための図である。この発明に係る双方向対話型システムにおける動画像データの送受信動作の他の例を概念的に説明するための図である。図１４及び図１５に示された動画像データの送受信動作におけるフレーム符号化の第１応用例を概念的に説明するための図である。図１６に示された第１応用例の具体的な例を概念的に説明するための図である。図１４に示された動画像データの送受信動作におけるフレーム符号化の第２応用例を概念的に説明するための図である。図１４に示された動画像データの送受信動作におけるフレーム符号化の第２応用例を概念的に説明するための図である。この発明に係る動画像データの送受信動作におけるフレーム符号化の第３応用例を概念的に説明するための図である。図２０に示された第３応用例に係るフレーム符号化により得られた符号化データの復号化動作を概念的に説明するための図である。図２０及び図２１に示された第３応用例に係るフレーム符号化が適用されたときの表示用画像フレームの一例を示す図である。図２０及び図２１に示された第３応用例に係るフレーム符号化が適用されたときの表示用画像フレームの一例を示す図である。

符号の説明

３（３Ａ、３Ｂ）…対話者Ａ、Ｂ
５（５Ａ、５Ｂ）…撮像部（ＣＣＤカメラ）
６（６Ａ、６Ｂ）…撮像ユニット
８（８Ａ、８Ｂ）…モニタ画面
２０Ａ、２０Ｂ…端末装置
２１（２１Ａ、２１Ｂ）…表示部（表示装置）
２４（２４Ａ、２４Ｂ）…マイク
２６（２６Ａ、２６Ｂ）…映像処理装置
８０、９０…モニタ画像
８０ａ…興味領域
２６１、２６５…入出力部（Ｉ／Ｏ）
２６２…画像データベース（Ｄ／Ｂ）
２６３…制御部
２６４…描画部
６００（６００Ａ、６００Ｂ）…撮像装置
７００…外部記録装置
８００…画像データ
８１０…タイル

Claims

動画像データを構成する画像フレームそれぞれをＪＰＥＧ２０００のタイリング技術を利用して時間軸に沿って順次圧縮していく動画像データの符号化方法であって、
符号化されるべき画像フレームとして、前記ＪＰＥＧ２０００の取り扱い単位であるタイルに相当する複数の分割領域で構成された仮想画像フレームを設定し、
前記仮想画像フレームを構成する前記複数の分割領域それぞれに、前記動画像データを構成する画像フレームのうち符号化されるべき画像フレームから分割された複数の分割画像のうち少なくともいずれかとともに、前記動画像データとは異なる情報源から得られた切出し画像を割り当て、
前記仮想画像フレームを構成する前記複数の分割領域に割り当てられた画像それぞれを、該複数の分割領域ごとに設定される符号化レベルに応じて個別に圧縮することで、複数種類の画像情報を含む各仮想画像フレームの符号化データを生成していく動画像データの符号化方法。
前記複数の分割領域それぞれは、前記仮想画像フレーム内において設定される興味領域及び該興味領域とは異なる非興味領域のいずれかに対応付けられ、
前記複数の分割領域それぞれは、前記興味領域に対応付けられた分割領域の符号量が前記非興味領域に対応付けられた分割領域の符号量よりも多くなるよう圧縮されることを特徴とする請求項１記載の動画像データの符号化方法。
前記複数の分割領域のうち、領域内画像の動きが検知された分割領域を前記興味領域に対応付けることを特徴とする請求項２記載の動画像データの符号化方法。
前記興味領域には複数の分割領域が対応付けられ、これら興味領域に対応付けられた分割領域は、それぞれ符号量が異なるよう圧縮されることを特徴とする請求項２又は３記載の動画像データの符号化方法。
前記仮想画像フレームを構成する前記複数の分割領域のうち少なくともいずれかに割り当てられた画像の符号化データを、さらに暗号化することを特長とする請求項１〜４のいずれか一項記載の動画像データの符号化方法。
前記複数の分割領域のうち少なくともいずれかに対する符号化処理において、該分割領域の符号量を一定期間中０とすることを特長とする請求項１〜５のいずれか一項記載の動画像データの符号化方法。
前記仮想画像フレームは、前記興味領域が１つの分割領域を構成するよう分割されることを特長とする請求項２、３、５及び６のいずれか一項記載の動画像データの符号化方法。
前記興味領域のサイズ変動に対応して、前記分割領域の分割サイズを動的に変更することを特長とする請求項７記載の動画像データの符号化方法。
前記興味領域のサイズ変動に対応して、該興味領域に対応付けられた分割領域を動的に変更することを特長とする請求項２〜６のいずれか一項記載の動画像データの符号化方法。
コンピュータにより請求項１〜９のいずれか一項記載の動画像データの符号化方法を実行するコンピュータプログラム。
コンピュータにより請求項１〜９のいずれか一項記載の動画像データの符号化方法を実行するコンピュータプログラムが記録された記録媒体。
撮像された対話者像を所定の伝送手段を介して相手側対話者に互いに提示し合うことにより該対話者と該相手側対話者間での対話を実現する双方向対話型システムであって、前記伝送手段を介して送受信される動画像データを構成する画像フレームを、請求項１〜９のいずれか一項記載の動画像データの符号化方法により符号化する双方向対話型システム。
前記複数の分割領域それぞれが前記仮想画像フレーム内において設定される興味領域及び該興味領域とは異なる非興味領域のいずれかに対応付けられるとき、前記興味領域は、表示位置調節のために表示される前記対話者自身の自己像に対して設定されることを特長とする請求項１２記載の双方向対話型システム。
前記複数の分割領域それぞれが前記仮想画像フレーム内において設定される興味領域及び該興味領域とは異なる非興味領域のいずれかに対応付けられるとき、前記興味領域の設定とともに、前記分割領域の圧縮レベル及び暗号化の有無が設定されることを特長とする請求項１２又は１３記載の双方向対話型システム。
請求項１〜６のいずれか一項記載の動画像データの符号化方法により圧縮された仮想画像フレームごとに、該仮想画像フレームを構成する各分割領域の符号化データを復号化し、該復号化された各分割領域の画像を合成して表示用画像フレームを生成する動画像データの復号化方法であって、
前記興味領域に対応付けられた分割領域の画像として圧縮された符号化データを復号化するとともに、
前記非興味領域に対応付けられた分割領域として、既に復号化後に格納されていた別仮想画像フレームの対応領域の画像を用意し、
復号化された前記興味領域に対応付けられた分割領域の画像と、用意された別仮想画像フレームの対応領域の画像とを合成し、前記表示用画像フレームを生成する動画像データの復号化方法。
コンピュータにより請求項１５記載の動画像データの復号化方法を実行するコンピュータプログラム。
コンピュータにより請求項１５記載の動画像データの復号化方法を実行するコンピュータプログラムが記録された記録媒体。
撮像された対話者像を所定の伝送手段を介して相手側対話者に互いに提示し合うことにより該対話者と該相手側対話者間での対話を実現する双方向対話型システムであって、前記伝送手段を介して送受信される動画像データを構成する画像フレームの符号化データを、請求項１５記載の動画像データの復号化方法により復号化する双方向対話型システム。
撮像された対話者像を所定の伝送手段を介して相手側対話者に互いに提示し合うことにより該対話者と該相手側対話者間での対話を実現する双方向対話型システムに適用可能であり、該相手側対話者の像を表示する表示装置と、該表示装置の前方に位置する該対話者を撮像するための撮像部とを少なくとも備えた端末装置であって、
請求項１〜９のいずれか一項記載の動画像データの符号化方法を実現する制御部と、
前記制御部により圧縮された符号化データを前記伝送手段へ送出する入出力部とを備えた双方向対話型システムの端末装置。
表示位置調節のために前記表示装置に表示される前記対話者自身の自己像に対して前記興味領域を設定するための入力手段をさらに備えたことを特長とする請求項１９記載の双方向対話型システムの端末装置。
前記分割領域の圧縮レベル及び暗号化の有無に関する情報を取り込む入力手段をさらに備えたことを特長とする請求項１９記載の双方向対話型システムの端末装置。
前記制御部は、請求項６記載の動画像データの符号化方法により圧縮された前記伝送手段に送出された画像データを前記入出力部を介して受信し、該画像データを構成する各分割領域の符号化データを複合化し、該復号化された各分割領域とともに符号量０の分割領域に換えて用意された画像を合成して表示用画像データを生成することを特徴とする請求項１９〜２１のいずれか一項記載の双方向対話型システムの端末装置。