JP2002519915A

JP2002519915A - 領域を基礎とする画像処理方法および装置

Info

Publication number: JP2002519915A
Application number: JP2000557433A
Authority: JP
Inventors: ラヴィクリシュナムルシー，; スリラムセテューラマン，; ヤ−チンツァン，
Original assignee: サーノフコーポレイション
Priority date: 1998-06-26
Filing date: 1999-06-28
Publication date: 2002-07-02
Also published as: US6917719B2; US20030123751A1; EP1090375A1; WO2000000933A1; US6496607B1

Abstract

(57)【要約】様々な領域の相対的「重要性」に基づき画像領域を分類し、その重要性情報を適宜使用して処理リソースを割り当て、画像情報を入力するための装置および方法。

Description

【発明の詳細な説明】

【０００１】（技術分野）本出願は、１９９８年６月２６日に提出の米国仮出願第６０／０９０，８１３
号の利益を主張する。なおその内容は本明細書に援用されている。

【０００２】本発明は概して、画像処理システム、さらに詳しく言えば、ズーミング、合成
、選択的入力画像形成、処理リソースの適応割当て、例えばビット割当てなどの
機能性を提供するために、関心領域を識別し、使用するための装置および付随方
法に関する。

【０００３】（背景技術）画像シーケンス、例えばビデオ画像シーケンスは、一般的に画像フレームまた
はピクチャのシーケンスを含む。移動オブジェクトを含むビデオの再生は一般的
に、毎秒３０の画像フレームを必要とし、各フレームには１メガバイトを越える
情報を入れることができる。したがって、前記画像シーケンスを伝送または保存
するには、多くの伝送帯域幅または保存容量が必要となる。必要な帯域幅または
保存容量を減らすには、シーケンス内の冗長情報が保存または伝送されないよう
、フレームシーケンスに、例えば圧縮などの画像処理を施す。適用例としては、
テレビジョン、テレビ会議、およびＣＤ−ＲＯＭ保管があり、これらは効率の良
いビデオシーケンス符号化の恩恵を受けることができる。

【０００４】さらに、処理リソースが制限されているか、または特定アプリケーションに関
する要求によって処理リソースに制約がある画像処理環境では、利用可能なリソ
ースを慎重に割り当てる必要がある。すなわち、利用可能な強力な画像処理方法
はたくさんあるが、アプリケーションによっては処理リソースがなかったり、も
っと強力な画像処理方法も役立たないか、またはアプリケーションの要求を満た
すため画像処理方法を控えめに、選択的に使用しなければならないような短い待
ち時間での厳しい要求が存在することがある。

【０００５】例えば、テレビ電話やテレビ会議のようなリアルタイムアプリケーションでは
、一般的には画像シーケンスの中で話者の顔が最も重要な部分の一つとなる。こ
のような重要部分を検出して活用できれば、符号化システムの能力は大幅に高ま
る。

【０００６】例えば、ビットレートの低いアプリケーション（例、リアルタイムアプリケー
ション）の符号化システムは、限られたビットを様々な要求を処理できるよう有
効に割り当てなければならない。すなわち、ビットを動き情報のコード化、テク
スチャ情報のコード化、形状情報のコード化、ヘッダ情報のコード化などに割り
当てなければならない。そのとき、利用可能なビットを、一つのパラメータが別
のパラメータを犠牲にして多く使用する、すなわち、正確な動き情報を提供する
ため、テクスチャ情報提供にわずかなビットしか費やさず、テクスチャ情報を犠
牲にしてモーション情報に多くのビットを費やす。現フレームにおいてどの領域
が特に重要であるかという情報なしに、すなわち、限られたビットプールからよ
り多くのビットが与えられて当然の状態では、エンコーダは利用可能なビットを
最も効率的な方法で割り当てることができない。

【０００７】さらに、エンコーダは識別済みの重要領域に供するための追加リソースを持っ
ていることがあるが、それでもなお既存の入力画像シーケンスの品質を超えてこ
れら領域を改善することはできないことが多い。すなわち、エンコーダの符号化
パラメータを変更しても、エンコーダへ提示される品質以上に重要性の品質を向
上させることはできない。

【０００８】したがって、様々な領域の相対的「重要性」に基づき、画像の中の重要領域を
分類し、その重要性情報を適宜使用して処理リソースを割り当て、符号化の前に
入力画像シーケンスの操作を制御するための装置および付随方法に関する技術の
必要性が生じる。

【０００９】（発明の開示）本発明の一つの実施形態は、画像の領域を重要領域または関心領域に分類する
ための装置および方法である。このような分類に役立つパラメータを最初に、顔
面ブロック、エッジブロック、および動きブロックの存在を検出するブロック分
類器から引き出すことができる。このように検出されたブロックは重要ブロック
と見なすことができ、その後集められて「重要性マップ」または「クラスマップ
」に表示される。

【００１０】さらに、重要性マップの生成または改良に他のパラメータを使うことができる
。すなわち、音声検出器を採用して、画像シーケンス内で音声を検出し、話者と
対応付け、それによって、識別された話者を重要または関心領域として包含する
画像内でその領域を識別できる。さらに、補足的な重要性情報をユーザ定義の重
要性情報、例えば、複合化された画像を見ているユーザからの対話式入力に含め
ることができる。

【００１１】重要性情報が利用できるようになれば、本発明は、処理リソースを重要性情報
にしたがって割り当てる。例えば、余り「重要」でない領域に比べて、より「重
要」な領域により多くのビットが割り当てられ、「重要な」領域ではコード化モ
ードが変更され、および／または「重要」領域の場合さらに分割処理が改善され
る。

【００１２】別の実施形態では、入力画像シーケンスの形成も重要性情報にしたがって遂行
される。すなわち、符号化の前に入力画像シーケンスを作るために、関心領域と
識別された領域の高い解像度は、高品質ソース、例えば直接ＮＴＳＣ信号から獲
得される。このような入力画像シーケンスが作られることにより、ズーミングお
よび合成などの機能が可能となる。このように、フレームの様々な領域の相対的
「重要性」は、迅速に分類され、リソース割り当ておよび入力画像形成に使われ
る。

【００１３】（発明を実施するための最良の形態）図１は、様々な領域の相対的な「重要性」に基づいて画像の領域を分類し、そ
の重要性情報を適宜使用して処理リソースを割り当て、符号化の前に入力画像シ
ーケンスの操作を制御する本発明の装置１００のブロック線図を描いている。本
発明の好ましい実施形態は、下記でエンコーダを使って説明されているが、本発
明をたいていの画像処理システムに採用できると解釈できる。さらに、本発明を
様々なコード化規格に準拠しているエンコーダに採用できる。これら規格には、
動画専門家グループ標準（例、ＭＰＥＧ−１（１１１７２−＊）、ＭＰＥＧ−２
（１３８１８−＊）およびＭＰＥＧ−４）、Ｈ．２６１およびＨ．２６３が含ま
れるが、これらに限定されるものではない。

【００１４】装置１００はエンコーダ、またはより複雑なブロックベースの動き補償コード
化システムの一部である。装置１００は、予備処理モジュール１２０、入力画像
処理モジュール１１０、動き推定モジュール（ＭＥ）１４０、動き補償モジュー
ル１５０、モード決定モジュール１５７、レート制御モジュール１３０、転送モ
ジュール（例えば、ＤＣＴモジュール）１６０、量子化モジュール１７０、コー
ダ、（例えば、可変長コーディングモジュール）１８０、バッファ１９０、逆量
子化モジュール１７５、逆転送モジュール（例えば、逆ＤＣＴモジュール）１６
５、減算器１１５、および加算器１５５から成る。エンコーダ１００は、複数の
モジュールから成るが、当業者たちは、それぞれのモジュールにより実行される
機能を図１に示されている通り別々のモジュールに分離する必要はないことを十
分に理解している。たとえば、動き補償モジュール１５０、逆量子化モジュール
１７５および逆ＤＣＴモジュール１６５から成るモジュールセットは一般的に、
「埋込み型デコーダ」として知られている。

【００１５】図１は、パス１０６から高解像度画像信号、例えばＮＴＳＣ信号を獲得するた
めの画像取込みデバイス１０８、例えばビデオカメラを図示している。この高解
像度画像信号は一般的に、入力画像処理モジュール１１０が受け取り、サブサン
プルが採取され、パス１１２でエンコーダへの画像シーケンスを生成する。すな
わち、多くの状況において、獲得された画像解像度はエンコーダに伝送された解
像度よりも高い。このように、結果としてパス１１２で得られる入力画像（画像
シーケンス）はデジタル化され、ＭＰＥＧ標準にしたがって輝度および２つの色
差信号（Ｙ、Ｃ_r、Ｃ_b）として表される。これら信号はさらに、各ピクチャ（フ
レーム）が複数のマクロブロックによって表されるよう、複数の層に分割される
。各マクロブロックは、４つの輝度ブロック、一つのＣ_rブロックおよび一つの
Ｃ_bブロックから成り、ここで、ブロックは、８×８のサンプルアレイとして定
義される。

【００１６】下記開示ではＭＰＥＧ標準用語を使用しているが、マクロブロックまたはブロ
ックという用語は、符号化の基礎として使われる任意のサイズのピクセルブロッ
クまたは形状を説明するための用語であると解釈すること。大まかに言えば、「
マクロブロック」または「ブロック」を、単一のピクセルまで小さくしたり、ビ
デオフレーム全体まで大きくしたりできる。

【００１７】本発明の一つの実施形態では、関心領域は、パス１０６の高解像度画像信号の
中のこれら関心領域の対応部分が維持されるよう識別され、それにより選択的入
力画像形成が実行される。例えば、人間の話者を定義する関心領域を、入力画像
処理モジュール１１０が利用できるようにする場合、サブサンプルの採取なしで
話者の高解像度が維持され、パス１１２のエンコーダへ送られる。この方法では
、画像シーケンス内の各フレームまたはピクチャは、サブサンプルとして採取さ
れた領域と高解像度領域を含むことができる。高解像度領域を活用して、以下で
論じるズーミングや合成が可能になる。

【００１８】高解像度領域が識別され、エンコーダがそれを利用できるようになると、エン
コーダは固有のアプリケーションの要求に応じていくつかの異なる手法で画質を
高めたり、画像を符号化したりできる。例えば、画像の特定の領域の画質を高め
ることができると考えられる４つの方法を、空間解像度を変更することにより、
および／または画質を変更することにより実現できる。

【００１９】第１の実施形態では、画像解像度は一定に維持されている一方、画質が変更さ
れる。すなわち、関心領域（ＲＯＩ）の画質は改善される、例えば量子化器の縮
尺が縮小される。一方、非関心領域の画質は低下する、例えば量子化器の縮尺が
拡大される。すなわち、量子化器の縮尺を大きくしても、他のすべての領域につ
いて現フレームの画質を、少なくとも非常に低い品質に維持できるだけである。
現フレームの低画質バージョンを維持することにより、現フレームで関心領域が
別の領域に変更されたとき、システム全体が迅速に反応できる、すなわち関心領
域の変化において短い待ち時間応答が可能になる。実際に、極端な状況では、エ
ンコーダは変換係数の、例えば余り重要でないまたは重要でない領域（すなわち
非ＲＯＩ）のためだけのＤＣコンポーネントのサブセットを送るだけでもよい。
画質に影響するほかのパラメータもまた、要求に応じて変更することができる。
現フレームの非常に低い画質のバージョンは、識別された高解像度領域と組み合
わせて符号化することができる。すなわち、利用可能なコード化ビットの大部分
が、フレームの他の部分を犠牲にして、関心領域の識別に使われる。エンコーダ
は特定のフレームにおいて何が重要であるかを知っているため、必要に応じてコ
ード化リソースを効率的に割り当てることができる。

【００２０】現フレームに高解像度領域を実際に合成することは、システム全体の考えで実
行されることに留意すること。すなわち、エンコーダとデコーダの両方に合成機
能を使って仕事を割り当てることができる。ただし、合成機能がデコーダに任さ
れている場合、柔軟性がより大きくなることが認められている。下の表１は、２
つの異なる実施形態を図示している。ここで、１）識別されたＲＯＩは、より重
要性の低い領域と組み合わせた合成ストリームとして符号化される、または２）
識別されたＲＯＩとより重要性の低い領域が、２つの別々のストリームに符号化
され、合成機能はデコーダに任される。

【００２１】第２の実施形態では、画質は一定に維持される一方、ＲＯＩの解像度が変更さ
れる。例えば、「ズーミングされた」バージョンのＲＯＩだけが符号化されるの
に対し、画像の残り部分は符号化されない。

【００２２】第３の実施形態では、低画質および低解像度の非重要領域が、高画質および高
解像度ＲＯＩとともに符号化される。例えば、ＲＯＩを視野全体の低アクティビ
ティ領域で合成することができ、この合成画像が符号化される。別の方法として
、低画質および／または解像度の視野全体を、関心ウインドウの高解像度領域内
に沿って合成できる。

【００２３】第４の実施形態では、識別されたＲＯＩおよび余り重要でない領域が２つの別
のストリームに符号化され、この場合、合成機能はデコーダに任される。このよ
うに、４つの実施形態を説明したが、表１は特定のインプリメンテーションの要
求に応じて多くの変形が可能であることを示している。

【００２４】

【表１】

【００２５】図１に戻ると、好ましい実施形態では、デジタル化された入力画像信号は、予
備処理モジュール１２０の中で一つ以上の処理ステップを経る。もっと詳しく言
えば、予備処理モジュール１２０は、ブロック分類器１２１、分割モジュール１
５１、音声検出器１２５、ユーザ選択モジュール１２６、および重要性マップ生
成器または弁別器１２７から成る。簡単に言えば、予備処理モジュール１２０は
入力画像シーケンスを解析し、特定のアプリケーションにしたがって各フレーム
の関心領域または重要領域に関してフレーム単位で表示される重要性マップを生
成する。重要性マップはその後、様々な符号化機能、例えば動き推定、コード化
モード決定、レート制御および入力画像形成などを制御するのに採用される。重
要性マップの生成およびその後の使用に関する詳細説明を下に示す。

【００２６】図１へ戻ると、動きベクトル推定のため、パス１１２の入力画像も動き推定モ
ジュール（ＭＥ）１４０で受信される。動きベクトルは、動き補正が現在のピク
チャにあるブロックの座標位置から基準フレームにあるブロックの座標までのオ
フセットを提供するために使用する二次元ベクトルである。動きベクトルの使用
は、現在のフレーム内の変更箇所のみをコード化して転送するため、チャネルを
通して伝送される情報の量を減らすことにより、画像圧縮率を大幅に高める。本
発明の実施様態の一つでは、動き推定モジュール１４０がまた、処理モジュール
１２０からの重要性情報を受け取り、動き推定処理の性能を高める。例えば、重
要であると分類されたブロックは、補足的な動き推定処理、例えばハーフ−ぺル
動き推定を受け取ってもよい。

【００２７】動き推定モジュール１４０からの動きベクトルを、動き補正モジュール１５０
が受信して、サンプル値の予測の有効性を改善する。すなわち、動き補正モジュ
ール１５０は、先に復号化されたフレームと動きベクトルを使って、パス１５２
の現在のフレームの推定（動き補正された予想または予想された画像）を構築す
る。誤り信号またはパス１５３の予測剰余を作るため、現在のマイクロブロック
の中のパス１１２の入力画像から、減算器１１５を介して、この動き補正された
予想を減算する。

【００２８】次に、モード決定モジュール１５７は予測剰余を使って、各マクロブロックご
とのコード化モードの選択を決定する。モード決定は、様々なコード化モードの
中から、各ビデオエンコーダの構文の制約の範囲内で利用可能なモードを決定す
るプロセスである。概して、これらコード化モードは、インターモードコード化
とイントラモードコード化の２つの広範な区分にグループ分けされる。例えば、
ＭＰＥＧ−２は、イントラモード、動き補正なしモード（ＮｏＭＣ）、スキッ
ピング、フレーム／フィールド／デュアルプライム動き補正インターモード、フ
ォワード／バックワード／平均インターモード、およびフィールド／フレームＤ
ＣＴモードを含むマクロブロックコード化モードを提供する。現譲受人が共同所
有し、参照してここに組み込まれる、１９９７年１２月３１日に提出された、シ
リアル番号０９／００１，７０３の「コード化システムのレートおよび歪みを基
礎とするコード化モード選択のための装置と方法」と題された米国特許でコード
化モードを選択する方法が開示されている。一つの実施形態では、コード化モー
ドが、識別された関心領域にしたがって選択される。

【００２９】予測剰余信号は、例えばＤＣＴモジュール１６０または離散コサイン変換（Ｄ
ＷＴ）などの変換モジュールへ引き渡される。ＤＣＴモジュールはその後、予測
剰余信号の各ブロックでフォワード離散コサイン変換プロセスを実施し、１セッ
トの８×８ブロックＤＣＴ係数を生成する。

【００３０】結果として選られたＤＣＴ係数の８×８ブロックを、量子化（Ｑ）モジュール
１７０が受け取り、ここでＤＣＴ係数が量子化される。量子化のプロセスは、Ｄ
ＣＴ係数を整数値にするため適切な丸めが行われた１セットの量子化値または量
子化スケールで割って表される正確さを低くする。この値を用いてＤＣＴ係数を
量子化することにより、ＤＣＴ係数の多くはゼロに変換され、それによって画像
圧縮効率が改善される。

【００３１】次に、結果として選られた、量子化されたＤＣＴ係数の８×８ブロックを、例
えば可変長コード化モジュール１８０などのコーダが、信号接続１７１を介して
受け取る。このとき、量子化された係数の二次元ブロックは、「ジグザグ」順に
走査され、量子化されたＤＣＴ係数の一次元ストリングに変換される。可変長コ
ード化（ＶＬＣ）モジュール１８０は次に、量子化ＤＣＴ係数のストリングを符
号化し、例えばマクロブロックタイプや動きベクトルなどのマクロブロックに関
するあらゆる付帯情報を有効なデータストリームに変換する。

【００３２】データストリームは、例えば「先入れ先出し」（ＦＩＦＯ）バッファ１９０な
どのバッファに入り、エンコーダ出力をビットレートを平滑化するためのチャネ
ルに合わせる。ＦＩＦＯバッファ１９０からのパス１９５の出力信号は、入力画
像１１０が圧縮されたものであり、ここで前記出力信号は保存媒体または遠距離
通信チャネルへ送られる。

【００３３】レート制御モジュール１３０は、データストリームの伝送後、デコーダ側（受
信機やターゲット保存装置、（図示せず））でのオーバーフローおよびアンダー
フローを防止するため、ＦＩＦＯバッファ１９０へ入るデータストリームを監視
し、調整する役割を果す。本発明の一つの実施形態では、量子化のプロセスは、
ビット割当てを実施するため重要性マップ生成器１２７から受け取った重要性情
報にしたがって調整される。すなわち、量子化は、エンコーダを制御して、その
出力を所与のビットレートに合わせる（ビット制御）有効なツールである。すな
わち、量子化スケールが大きければ、コード化ビット数は少なくなる一方、量子
化スケールが小さければコード化ビット数は多くなる。各マクロブロックごと、
各サブブロックごと、または個々のＤＣＴ係数ごとに別々の量子化値を選択でき
るため、量子化スケールを適正に選定することによりコード化ビットの数を厳密
に制御できる。

【００３４】すなわち、共通画像コード化標準では、量子化パラメータまたはスケール、Ｑ
を変更することにより画像の様々な部分の画質を制御する。このように、ビュー
アに対する様々な領域の重要性の違いを反映するため、フレームの異なる領域を
異なるＱを用いてコード化することができる。本発明では、フレームに割り当て
られるビットの厳密な管理が維持されるよう、またＱがブロックの相対的重要性
を反映するよう、Ｑをフレームにわたって変化させる方法が提示されている。さ
らに詳しく言えば、関心領域には小さい量子化スケールが適用されるのに対し、
非関心領域には、大きい量子化スケールが適用される。本質において、現在のフ
レームへのビット割当てを維持しながら、関心領域に高画質または高解像度を提
供する交換条件として非関心領域のテクスチャ情報は犠牲にされる。

【００３５】図１へ戻ると、量子化モジュール１７０から結果として得られた、量子化済み
のＤＣＴ係数の８×８ブロックを、例えば逆ＤＣＴモジュールなどの逆量子化モ
ジュール１７５と逆変換モジュール１６５が、信号接続１７２を介して受け取る
。簡単に言えば、この段階では、エンコーダが、ＩフレームやＰフレームが後に
続く符号化の参照フレームとして使われるよう、データを復号することにより画
像シーケンスのＩフレームとＰフレームを再生成する。

【００３６】ブロック分類器１２１は、例えばスキン−トーン検出器１２２、エッジ検出器
１２３、および動き検出器１２４などの複数の検出器を使って一つのフレーム内
のブロックの相対的重要性を分類する。このようなブロック分類器の例が、本書
と同時に提出され、参照して本明細書に組み込まれる、代理人認可証番号ＳＡＲ
１２８０２の「ブロック分類と適応ビット割当てのための方法と装置」と題さ
れた米国特許出願で開示されている。ブロック分類器１２１を使って領域（例え
ばブロック）を重要領域または関心領域として迅速に分類することができる。

【００３７】次に、検出されたブロックには、「重要性マップ」または「クラスマップ」を
生成するための重要性マップ生成器１２７が適用される。「重要性マップ」は、
特定のアプリケーションにしたがって、各フレームにおける関心領域をフレーム
ごとに表示したものである。そして次に、重要性マップを使って、様々な画像処
理機能を改善し、上に論じた通り入力画像形成を実施できる。

【００３８】一つの実施形態では、重要性マップ生成器１２７は音声検出器１２５から入力
を受け取る。音声検出器１２５は、音響信号を検出するため一つ以上のマイクロ
ホン１０４に連結されている。画像内の話者を特定のマイクロホンで検出される
話者の音響信号にしたがって識別できるよう、マイクロホンを間隔をおいて配置
することができる。例としてテレビ電話を用いると、重要性マップ生成器１２７
は、電話会議開始の前に最初にすべての人の顔を関心領域として識別することが
できる。電話会議が始まると、画像シーケンスの中の話者を音声検出器１２５が
検出する。この情報は重要性マップ生成器１２７に与えられ、重要性マップ生成
器は検出された音声信号と、スキン−トーン検出器１２２が検出した人の顔を関
連付ける。その後、重要性マップは適宜洗練され、例えば現在の話者は関心領域
として分類される一方、他の非話者はもはや関心領域としては分類されなくなる
。別の方法として、特定の領域の関心度を表す、重要性の範囲または有意値を、
適宜割り当てることができる。

【００３９】別の実施形態では、重要性マップ１２７は、ユーザが予め重要であると定義し
たブロックを識別するための、ユーザ選択モジュール１２６からの入力を受け取
る。例えば、ユーザは、画像シーケンスのいくつかの領域を重要であると予め定
めることができるような画像シーケンスの内容に関する知識を事前に持っている
ことがある。例えば、テレビ電話会議でチャートを使って説明することが予定さ
れている場合、エンコーダにチャートを含むオブジェクトを重要なものとして処
理し、適宜処理リソースを割り当てるよう知らせることができる。

【００４０】別の方法として、ユーザ選択モジュール１２６はデコーダからパス１０４の入
力を受け取ることができる。この実施形態では、デコーダのビューアは会話方式
で関心領域を定義できる。例えば、デコーダ側のビューアは、非話者を現在の話
者よりもっと鮮明に見たいと希望したり、画像の特定の領域をズームインするズ
ーム機能を要求することができる。この会話方式の機能により、デコーダは適宜
ズーミングを行ったり、画像を合成したりできる。この機能なしでは、デコーダ
は符号化されたデータにしかアクセスできないため、デコーダのズーミングおよ
び合成能力は制限され、符号化されるデータはデコーダからの入力なしに生成さ
れる。デコーダに重要性マップ生成器へのアクセスを許可することにより、デコ
ーダ側のビューアは、符号化されるデータの内容をビューアの必要性に合うよう
、ここでいくらか制御することができる。

【００４１】予備処理モジュール１２０の中には、各フレーム内のオブジェクトを分割また
は弁別するための分割モジュール１５１も用意されている。動作中、セグメンテ
ーションモジュール１５１は、そのセグメンテーション方法を実施または洗練す
るため「重要性マップ」を随意に適用できる。すなわち、「重要性マップ」は顔
情報の場所、オブジェクトのエッジ、および動き情報を含んでいることがあり、
セグメンテーションモジュールが一つのフレームを一つ以上の論理オブジェクト
に分割する際にセグメンテーションモジュールを助ける情報を明らかにすること
によって、セグメンテーション方法による計算の過熱を大幅に減らすことができ
る。例えば、特定のサイズの顔情報などを持つフレーム内の各オブジェクトを分
割する場合である。別の方法として、オブジェクトをユーザからの対話方式入力
に基づいて分割することができる。例えば、チャートをもっと大きなオブジェク
ト、例えば背景、から分離したオブジェクトとして分割する場合である。

【００４２】最後に、予備処理セクション１２０も、重要性マップを生成するためのマップ
生成器または弁別器１２７含んでいる。マップ生成器１２７はブロック分類器１
２１、音声検出器１２５、およびユーザ選択モジュール１２６から、ブロック分
類に関する情報を受け取り、全体的な重要性マップを生成する。一つの実施形態
では、検出器からの様々な入力が表２に示す通り重み付けされる。

【００４３】

【表２】

【００４４】特定のアプリケーションに応じて、上の検出器のいずれかの組み合わせを採用
できることに留意のこと。このように、上で論じた通りの有意値割当てスキーム
が例として提供される。

【００４５】図２は、入力画像形成を実施するために重要性情報を適用する方法２００のフ
ローチャートを示している。方法２００はステップ２０５から始まり、ステップ
２１０まで進み、ここで関心領域情報を生成する、すなわち、重要性マップ生成
器１２７が下の図３に図示されている通りに生成する。

【００４６】ステップ２２０で、方法２００は識別された関心領域について高い解像度を獲
得する、例えば、サブサンプリングなしに画像取込みデバイスから直接獲得する
。識別された関心領域に関しては、特定のアプリケーションの要求に応じて、例
えば合成などの機能を実施するため、高解像度および低解像度の両方を獲得でき
ることに留意のこと。

【００４７】ステップ２３０では、入力画像形成が一旦実施されると、方法２００は新たに
作られた入力画像にしたがって、随時ビット割当てを変更することができる。例
えば、高解像度の関心領域には、非関心領域を犠牲にして、必要に応じてコード
化ビットが追加される。

【００４８】ステップ２４０では、入力画像形成が一旦実施されると、方法２００は新たに
作られた入力画像を用いて随時ズーミングを適用できる。例えば、高解像度の関
心領域を使って、その領域のズーミングを行うことができる。

【００４９】ステップ２５０では、入力画像形成が一旦実施されると、方法２００は新たに
作られた入力画像を用いて随時合成を適用できる。例えば、高解像度の関心領域
を低解像度領域と組み合わせて、例えばピクチャ内ピクチャ機能として表示でき
る。その後、方法２００はステップ２５５で終了する。

【００５０】図３は、重要性マップを決定するための方法３００のフローチャートである。
方法３００はステップ３０５から始まりステップ３１０へ進み、ここで方法３０
０は、ブロック分類器１２１が提供する入力にしたがって関心領域情報を生成す
る。

【００５１】ステップ３２０では、方法３００は、例えば音声検出器１２５によって、音声
が検出されたかどうかを問い合わせる。問合わせに対し否定的な回答が返された
場合、方法３００はステップ３４０へ進む。問合わせに対し肯定的な回答が返さ
れた場合、方法３００はステップ３３０へ進み、そこで関心領域は検出された音
声にしたがって修正される。

【００５２】ステップ３４０では、方法３００は、例えばユーザ選択モジュール１２６を使
って、ユーザ選択情報が検出されたかどうかを問い合わせる。問合わせに対し否
定的な回答が返された場合、方法３００はステップ３６０へ進み、そこで重要性
マップが生成される。問合わせに対し肯定的な回答が返された場合、方法３００
はステップ３５０へ進み、そこで関心領域はユーザ選択情報にしたがって修正さ
れる。方法３００はステップ３６５で終了する。

【００５３】図４は、本発明の復号化システム４００のブロック線図である。復号化システ
ム４００は、バッファ４１０、ビデオデコーダ４２０、関心領域識別器４３０、
ユーザ選択モジュール４４０、およびディスプレイバッファ４５０から成る。

【００５４】動作中、符号化されたビットストリームは通信チャネルからバッファ４１０へ
入る。符号化されたビットストリームは、符号化された画像を復号するためのビ
デオデコーダ４２０と、復号された画像シーケンス内の各フレームの関心領域を
識別するための関心領域識別器４３０の両方へ送られる。識別された関心領域に
より、ビデオデコーダ４２０は、先に論じたズーミングや合成などのいくつかの
機能を実施することができる。

【００５５】ビデオデコーダ４２０は、アルファ平面クリエータ４２２と合成モジュール４
２４を持つ物として図示されている。すなわち、アルファ平面クリエータ４２２
は形状符号化に関連する情報、例えばバイナリ形状符号化情報を活用して、様々
なオブジェクトの場所を迅速に作り出すことができる。次に、合成モジュール４
２４が一つ以上の異なる解像度の領域を一つの画像フレームに、例えばピクチャ
内ピクチャに、合成する。

【００５６】ユーザ選択モジュール４４０は、パス４４４からユーザ入力を受け取り、エン
コーダでの重要性マップの生成を通信パス１０４を介して会話方式で制御できる
。例えば、デコーダのビューアは画像内のあるオブジェクトを高解像度にするこ
とを要求できる。この要求はパス１０４を介してエンコーダへ送られ、その後パ
ス４０２から高解像度の前記オブジェクトを受け取る。ビデオデコーダ４２０は
その後、ズーミングまたは合成機能を実施することができる。最後に、復号化さ
れた画像がディスプレイバッファ４５０へ送られ、表示される。

【００５７】図５は、本発明の符号化システム５００と復号化システム５０５を図示してい
る。符号化システムは、汎用コンピュータ５１０と、様々な入出力デバイス５２
０から成る。汎用コンピュータは、一連の画像を受信し、符号化する中央処理装
置（ＣＰＵ）５１２、メモリ５１４、およびエンコーダ５１６から成る。

【００５８】好ましい実施形態では、エンコーダ５１６は上で論じた通りの単なるエンコー
ダ１００である。エンコーダ５１６は、通信チャネルを使ってＣＰＵ５１２と連
結される物理デバイスであっても良い。別の方法として、記憶デバイス、例えば
磁気ディスクまたは光りディスクからロードされ、コンピュータのメモリ５１４
に常駐するソフトウェアアプリケーションがエンコーダ５１６の代わりになるこ
とができる。このように、本発明のエンコーダ１００を、コンピュータ読出し可
能媒体に格納できる。

【００５９】コンピュータ５１０を、例えばキーボード、マウス、カメラ、カムコーダ、ビ
デオモニタ、またはテープドライブ、フロッピードライブ、ハードディスクドラ
イブまたはコンパクトディスクドライブを含むがこれらに限定されない、任意の
数のイメージングデバイスや保存デバイスなどの、複数の入出力デバイス５２０
と連結できる。入力デバイスは、複合化されたビデオビットストリームを生成す
るため、または保存デバイスから複合化されたビデオ画像のシーケンスを表示す
るため、コンピュータへ入力を提供する役割を果たす。最後に、符号化システム
からの符号化済み信号を復号化システム５０５へ送る通信チャネル５３０が示さ
れている。

【００６０】復号化システム５０５は、汎用コンピュータ５４０および種々の入力／出力デ
バイス５５０から成る。汎用コンピュータは、中央演算装置（ＣＰＵ）５４２、
メモリ５４４、および一連の画像を受け取って復号化するデコーダ５４６から成
る。

【００６１】好ましい実施態様では、デコーダ５４６は、上で論じた通りの単なるデコーダ
４００となっている。デコーダ５４６は、通信チャネルを介してＣＰＵと連結さ
れた物理デバイスであっても良い。別の方法として、デコーダ５４６を、記憶デ
バイス、例えば磁気ディスクや光ディスクなどの記憶デバイスからロードされ、
コンピュータのメモリ５４４に常駐するソフトウェアアプリケーションに代える
ことができる。このように、本発明のデコーダ４００を、コンピュータ読出し可
能媒体に格納できる。

【００６２】コンピュータ５４０を、例えばキーボード、マウス、カメラ、カムコーダ、ビ
デオモニタ、またはテープドライブ、フロッピードライブ、ハードディスクドラ
イブまたはコンパクトディスクドライブを含むがこれらに限定されない、任意の
数のイメージングデバイスや保存デバイスなどの、複数の入出力デバイス５５０
と連結できる。入力デバイスは、復号化されたビデオビットストリームを生成す
るため、または保存デバイスから復号化されたビデオ画像のシーケンスを表示す
るため、コンピュータへ入力を提供する役割を果たす。

【００６３】本書では、本発明の示すところを組み込んだ様々な実施形態を示し、詳細に説
明しているが、当業者たちは、これら教示事項を組み込んだ様々なその他実施形
態を容易に導き出すことができる。

【図面の簡単な説明】

本発明が教示するところのものは、添付の図面と組み合わせて下記の詳細説明
を見れば容易に理解される。

【図１】図１は、様々な領域の相対的「重要性」基づいて画像の領域を分類し、重要性
情報を適宜使用して処理リソースを割り当てるための本発明のエンコーダのブロ
ック線図である。

【図２】図２は、重要性情報を入力画像形成実施に適用する方法のフローチャートであ
る。

【図３】図３は、重要性マップを決定する方法のフローチャートである。

【図４】図４は、本発明のデコーダのブロック線図である。

【図５】図５は、本発明の符号化システムと復号化システムを図示している。理解しやすくするため、可能な場合には、図に共通の同一エレメントを指すの
に同じ参照番号が使われている。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＣＮ，ＩＮ，ＪＰ，ＫＲ (72)発明者セテューラマン，スリラムアメリカ合衆国，ニュージャージー州，ハイツタウン，ケンジントンアームズアパートメンツナンバー28−ビー (72)発明者ツァン，ヤ−チンアメリカ合衆国，ニュージャージー州，クランベリー，サラトガドライヴノース 73 Ｆターム(参考） 5C059 KK37 KK38 MA05 MA23 MB02 MB03 MB04 MB12 MB21 MC11 MC38 ME01 NN01 NN47 PP16 PP22 PP26 PP28 RC32 SS07 SS30 TA17 TA46 TA60 TB04 TB08 TB18 TC15 TC34 TC47 TD13 UA02 UA32

Claims

【特許請求の範囲】

【請求項１】入力画像シーケンスを作成するための方法であって、（ａ）関心領域を定義するステップと、（ｂ）入力画像シーケンスのコンポーネントを作成するために高解像度の前
記定義済み関心領域を獲得するステップと、（ｃ）前記入力画像シーケンスをエンコーダへ適用するステップとを含む方
法。
【請求項２】（ｄ）ズーミング機能を実施するのに前記定義済み関心領
域の前記高解像度を適用するステップをさらに含む、請求項１記載の方法。
【請求項３】（ｄ）合成機能を実施するのに前記定義済み関心領域の前
記高解像度を適用するステップをさらに含む、請求項１記載の方法。
【請求項４】（ｄ）非関心領域を定義するステップと、（ｅ）前記非関心領域を低画質で符号化するステップとをさらに含む、請求
項１記載の方法。
【請求項５】現在の画像内のブロックを分類するための方法であって、（ａ）音声信号を検出するステップと、（ｂ）前記音声信号と現在の画像内のブロックとを対応付けるステップと、（ｃ）前記ブロックを重要ブロックとして分類するステップとを含む方法。
【請求項６】前記検出ステップ（ａ）が複数の間隔をおいて配置されたマ
イクロホンを使って前記音声信号を検出する、請求項５記載の方法。
【請求項７】現在の画像内のブロックを分類する方法であって、（ａ）画像内のあるブロックをスキン−トーンブロック、エッジブロック、
または動きブロックとして分類するためのブロック分類器を使って、現在の画像
内のあるブロックをそのブロックの重要性に関して分類するステップと、（ｂ）ユーザの選択に従い、前記ブロック分類を対話形式で修正するステッ
プとを含む方法。
【請求項８】（ｃ）前記ブロック分類を検出された可聴音信号にしたが
って修正するステップをさらに含む、請求項７記載の方法。
【請求項９】画像内のあるブロックへ符号化リソースを割り当てる方法で
あって、（ａ）画像内の前記ブロックの重要性情報を獲得するステップと、（ｂ）符号化リソースを前記の重要性情報にしたがって前記ブロックへ割り
当てるステップとを含む方法。
【請求項１０】前記獲得ステップ（ａ）が（ａ１）スキン−トーンブロック、エッジブロック、または動きブロックとし
て分類するためのブロック分類器から重要性情報を獲得するステップをさらに含
む、請求項９記載の方法。