JP5410553B2

JP5410553B2 - テレビ電話のための品質メトリックバイアス関心領域コーディング

Info

Publication number: JP5410553B2
Application number: JP2012001295A
Authority: JP
Inventors: ハオホン・ワン; クハレド・ヘルミ・エル−マレー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-03-01
Filing date: 2012-01-06
Publication date: 2014-02-05
Anticipated expiration: 2026-02-28
Also published as: WO2006094000A3; EP1854301A2; US20060238444A1; WO2006094000A2; US7724972B2; JP2008532428A; KR20070114796A; TW200704190A; JP2012147431A

Description

関連出願

この出願は２００５年３月１日に出願された米国仮出願第６０／６５８，００８の利益を主張する。

この開示はデジタルビデオエンコーディングに関し、特に、ビデオ電話（ＶＴ）アプリケーションのための関心領域（ＲＯＩ）をエンコードする技術に関する。

デジタルビデオシーケンスをエンコードするために多数の異なるビデオエンコーディング規格が確立された。例えば、ムービングピクチャーイクスパーツグループ（ＭＰＥＧ）は、ＭＰＥＧ−１、ＭＰＥＧ−２およびＭＰＥＧ−４を含む多数の規格を開発した。他の例は国際電気通信連合(ＩＴＵ)Ｈ．２６３規格、および新生のＩＴＵＨ．２６４規格を含む。これらのビデオエンコーディング規格は一般に、圧縮された方法でデータをエンコードすることによりビデオシーケンスの改良された送信効率をサポートする。

ビデオ電話（ＶＴ）は、ユーザーがビデオおよびオーディオ情報を共有し、テレビ会議のようなアプリケーションをサポートすることを可能にする。例示テレビ電話規格は、セッションイニシエーションプロトコル（ＳＩＰ）、ＩＴＵＨ．３２３およびＩＴＵＨ．３２４規格により定義された規格を含む。ＶＴシステムにおいて、ユーザーはビデオ情報を送信および受信してもよいし、ビデオ情報を受信のみしてもよいし、ビデオ情報を送信のみしてもよい。受信者は、一般にビデオ情報が送信者から送信されるフォームで受信されたビデオ情報を見る。

ビデオ情報の選択された部分の優先的エンコーディングが提案された。例えば、送信者は、受信者に送信するためにより高い品質でエンコードされる関心領域（ＲＯＩ）を指定してもよい。送信者は遠隔の受信者にＲＯＩを強調したいと思うかもしれない。送信者はビデオシーン内の他のオブジェクトに焦点を絞りたいと思うかもしれないけれども、ＲＯＩの典型的な例は人間の顔である。ＲＯＩの優先的エンコーディングを用いて、受信者は、非ＲＯＩ領域よりもより明瞭にＲＯＩを見ることができる。

この開示はテレビ電話（ＶＴ）のための関心領域（ＲＯＩ）コーディングのための技術に向けられている。開示された技術は、ＲＯＩに割り当てるためのエンコーディングビットを節約するためにビデオフレームの非ＲＯＩエリアの適応スキッピングのための技術を含む。また、開示された技術は、ρ領域内のマクロブロック（ＭＢ）レベルにおける重み付けされたビットアロケーションモデルを用いてＲＯＩのビットのアロケーションのための技術を含む。さらに、開示された技術は、ＲＯＩビデオのための品質メトリック(metric)の発生のための技術を含む。これは、エンコードされたビデオシーケンスの品質を評価する際に、ＲＯＩ、ＲＯＩビデオフィディリティー、およびＲＯＩ知覚品質におけるユーザーの関心度を共同で検討する。

非ＲＯＩスキッピング技術は、非ＲＯＩ領域の画像品質を著しく劣化させずにＲＯＩの画像品質を高めるように機能する。特に、非ＲＯＩスキッピング技術は、ＲＯＩに割り当てるためにさらなるビットを供給するために非ＲＯＩビットを節約することができる。

品質メトリックは、ビット割当技術にバイアスをかけ、エンコードされたビデオシーン内の主観的画像品質を強化するために適用されてもよい。ρ領域におけるビット割当は、強化された見栄えのためのＲＯＩ量子化のより正確で一貫した制御を供給することができる。非ＲＯＩスキッピング、ρ領域ビット割当、及び品質メトリックは共同してまたは別個に使用して、ＲＯＩおよび非ＲＯＩエンコーディングの効率的な制御を得ることができる。

一実施形態において、この開示は、先行するフレームのビデオフィデリティー、先行するフレームの知覚品質、および関心領域におけるユーザーの好みに基いて関心領域を含むエンコードされたビデオフレームのための品質メトリックを発生することを備えた方法を提供する。

他の実施形態において、この開示は、関心領域を含むビデオフレームをエンコードするビデオエンコーダーと、先行するフレームのビデオフィデリティー、先行するフレームの知覚品質、および関心領域におけるユーザーの好みに基いてビデオフレームのための品質メトリックを発生する品質メトリック計算機とを備えた装置を提供する。

さらなる実施形態において、この開示は、関心領域内のマクロブロックと、関心領域内に無いビデオフレームのエリア内のマクロブロックとの間のフレーム量と重み付けに基いて、ビデオフレーム内の関心領域の定義を得ることと、フレームに対して利用可能なエンコーディングビットの数を定義するフレーム量を得ることと、フレーム内のマクロブロックにロー領域値を割り当てることとを備えた方法を提供する。

さらなる実施形態において、この開示は、ビデオフレーム内の関心領域の定義を発生する関心領域マッパーと、フレームに対して利用可能なエンコーディングビットの数を定義するフレーム量を発生するフレームレベルレートコントローラーと、関心領域内のマクロブロックと関心領域でないビデオフレームのエリア内のマクロブロックとの間のフレーム量と重み付けに基いてロー領域値をフレーム内のマクロブロックに割り当てるビットアロケーションモジュールとを備えた装置を提供する。

他の実施形態において、この開示は、連続するフレームをフレームユニットにグループ化することと、フレームユニット内のそれぞれのフレーム内の関心領域をエンコードすることと、フレームユニット内のフレームの少なくとも１つのフレームに対してそれぞれの関心領域に無いエリアのエンコーディングをスキップすることとを備えた方法を提供する。

さらなる実施形態において、この開示は、ビデオフレーム内の関心領域の定義を発生する関心領域マッパーと、ビデオフレームをエンコードするビデオエンコーダーと、グループ化する連続フレームをグループ化し、ビデオエンコーダーに、フレームユニット内のそれぞれのフレーム内の関心領域をエンコードするように命令し、ビデオエンコーダーに、フレームユニット内のフレームの少なくとも１つのフレームに対してそれぞれの関心領域内に無いエリアのエンコーディングをスキップするように命令するスキッピングモジュールとを備えた装置を提供する。

ここに記載された技術は、ハードウエア、ソフトウエア、ファームウエアまたはそれらの任意の組み合わせで実施してもよい。ソフトウエアで実施されるなら、この技術は、実行されると、ここに記載した１つ以上の方法を実行する命令を含むプログラムコードを備えたコンピューター読み取り可能媒体により一部分実現してもよい。

１つ以上の実施形態の詳細は、添付図面および以下の記述において述べられる。他の特徴、目的および利点は、詳細な説明と図面およびクレームから明らかになるであろう。

図１はＲＯＩイネーブルビデオエンコーダー−デコーダー（ＣＯＤＥＣｓ）を内蔵するビデオエンコーディングおよびデコーディングシステムを図解するブロック図である。図２は無線通信装置に関連したディスプレイ上に表示されたビデオシーン内のＲＯＩの定義を図解する図である。図３Ａは図２に図解されたビデオシーンのＲＯＩおよび非ＲＯＩエリアを図解する図である。図３Ｂは図２に図解されたビデオシーンのＲＯＩおよび非ＲＯＩエリアを図解する図である。図４は、非ＲＯＩスキッピングモジュール、ＲＯＩρ領域ビットアロケーションモジュール、およびＲＯＩ重み計算機を有したＲＯＩイネーブルエンコーダーを内蔵するビデオ通信装置を図解するブロック図である。図５はＲＯＩ品質メトリック計算機を図解するブロック図である。図６はＲＯＩ品質メトリック計算のためのＲＯＩユーザーし好入力装置を内蔵する無線通信装置をさらに図解する図である。図７はビデオエンコーダーにより適用されるコーディングパラメーターの最適化のためにビデオシーケンスを解析するためにＲＯＩ品質メトリック計算機の使用を図解するブロック図である。図８はビデオエンコーダーにより適用されるコーディングパラメーターの調節のためにエンコードされたビデオを解析するためにＲＯＩ品質メトリック計算機の使用を図解するブロック図である。図９はエンコードされたビデオのためのＲＯＩ品質メトリック計算を図解するフロー図である。図１０はビデオシーケンスのためのＲＯＩ品質メトリック計算を図解するフロー図である。図１１はρ領域ビットアロケーションを図解するフロー図である。図１２は重み付けされたビットアロケーションモデルおよび最適解を用いてエンコーディング技術の全体の知覚品質を比較するグラフである。図１３は非ＲＯＩスキッピングのための技術を図解するフロー図である。図１４は非ＲＯＩスキッピングをサポートするために連続するフレームをフレームユニットにグループ化することを図解する図である。図１５は非ＲＯＩスキッピングをサポートするために共通の非ＲＯＩエリアを有した連続するＲＯＩエリアのエンコーディングを図解する図である。図１６は、標準ビットアロケーション、重み付けされたビットアロケーション、およびユーザーし好係数α＝０．９を有するバックグラウンドスキッピングを用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。図１７は標準ビットアロケーション、重み付けされたビットアロケーション、およびユーザーし好係数α＝０．９を有したバックグラウンドスキッピングを用いてＲＯＩエンコーディング技術の全体のビデオフィディリティーを比較するグラフである。図１８は、標準ビットアロケーション、重み付けされたビットアロケーション、及びユーザーし好係数α＝０．９を有したバックグラウンドスキッピングを用いてＲＯＩエンコーディング技術のＲＯＩビデオフィデリティーを比較するグラフである。図１９は標準ビットアロケーション、重み付けされたビットアロケーション、及びユーザーし好係数α＝０．９を有したバックグラウンドスキッピングを用いてＲＯＩエンコーディング技術の非ＲＯＩビデオフィデリティーを比較するグラフである。図２０は標準ビットアロケーション、重み付けされたビットアロケーション、及びユーザーし好係数α＝０．７を有するバックグラウンドスキッピングを用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。図２１は標準ビットアロケーション、重み付けされたビットアロケーション、およびユーザーし好係数α＝０．７を有したバックグラウンドスキッピングを用いてＲＯＩエンコーディング技術の全体のビデオフィデリティーを比較するグラフである。 ]図２２は標準ビットアロケーション、重み付けされたビットアロケーション、及びユーザーし好係数α＝０．５を有したバックグラウンドスキッピングを用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。図２３は標準ビットアロケーション、重み付けされたビットアロケーション、およびユーザーし好係数α＝０．５を有したバックグラウンドスキッピングを用いてＲＯＩエンコーディング技術の全体のビデオフィデリティーを比較するグラフである。図２４は種々のユーザーし好係数値における標準フレームスキッピング及び非ＲＯＩスキッピングを用いてＲＯＩエンコーディング技術の知覚品質を比較するグラフである。図２５は非ＲＯＩスキッピングがオンおよびオフのときＲＯＩエンコーディング技術の知覚品質を比較するグラフである。図２６は例示ビデオシーケンスに対する非ＲＯＩスキッピングにより生じた歪みを図解するグラフである。図２７は非ＲＯＩスキッピングを用いて、非ＲＯＩスキッピングを用いないで、および適応非ＲＯＩスキッピングを用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。図２８はエンコーディングレートのレンジに対して例示ビデオシーケンスのための種々のビットアロケーション技術を用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。図２９は毎秒４０キロビット（ｋｐｓ）のエンコーディングレートで、種々のビットアロケーション技術を用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。図３０は毎秒４０キロビット（ｋｐｓ）のエンコーディングレートで種々のビットアロケーション技術を用いてＲＯＩエンコーディング技術の全体のビデオフィデリティーを比較するグラフである。図３１は毎秒４０キロビット（ｋｐｓ）のエンコーディングレートで種々のビットアロケーション技術を用いてＲＯＩエンコーディング技術のＲＯＩビデオフィデリティーを比較するグラフである。図３２は毎秒４０キロビット（ｋｐｓ）のエンコーディングレートで種々のビットアロケーション技術を用いてＲＯＩエンコーディング技術の非ＲＯＩビデオフィデリティーを比較するグラフである。図３３はエンコーディングレートのレンジに対して他の例示ビデオシーケンスのための種々のビットアロケーション技術を用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。

図１はＲＯＩイネーブルビデオエンコーダー−デコーダー（ＣＯＤＥＣｓ）を内蔵するビデオエンコーディングおよびデコーディングシステム１０を図解するブロック図である。図１に示されるように、システム１０は第１のビデオ通信装置１２と第２のビデオ通信装置１４を含む。通信装置１２、１４は送信チャネル１６により接続される。送信チャネル１６は有線または無線通信システムであってもよい。システム１０はテレビ電話のためのビデオ通信装置１２、１４間の双方向ビデオ送信をサポートする。装置１２、１４は実質的に対称な方法で動作してもよい。しかしながら、いくつかの実施形態において、一方または両方のビデオ通信装置１２、１４は、ＲＯＩイネーブルビデオストリーミングをサポートするために片方向通信だけのために構成されてもよい。

ビデオ通信装置１２の一方または両方は、ここに記載するように、テレビ電話（ＶＴ）のためのＲＯＩコーディングのための技術を適用するように構成されてもよい。ＲＯＩコーディング技術は、ＲＯＩへの割当のためのエンコーディングビットを節約するために非ＲＯＩ領域の適応スキッピングと、ビデオブロックレベル、たとえばρ領域内のマクロブロック（ＭＢ）レベルで重み付けされたビットアロケーションモデルを用いてＲＯＩへのビットの割当と、ＲＯＩビデオのためのＲＯＩビデオ品質メトリックの発生を含む。これは、エンコードされたビデオシーケンスの品質を評価する際にＲＯＩ、ＲＯＩビデオフィデリティー、ＲＯＩ知覚品質におけるユーザーの関心度を共同で検討する。ρ(ロー)パラメーターは、ＭＢのようなビデオブロック内のノンゼロＡＣ係数の数を表す。ρ領域におけるレート制御はＱＰ領域内のレート制御よりもより正確である傾向がある。非ＲＯＩスキッピング、ρ領域ビットアロケーション、および品質メトリックは、ＲＯＩおよび非ＲＯＩエンコーディングの効率的な制御を得るために共同でまたは別個に使用することができる。

マクロブロックはフレームの一部を形成するビデオブロックである。

ＭＢのサイズは１６×１６ピクセルであってもよい。しかしながら、他のＭＢサイズが可能である。マクロブロックまたは他のビデオブロックはさまざまな異なるサイズを有していてもよいという理解とともに、マクロブロックは実例の目的のためにここに記載されるであろう。

送受信両用のアプリケーションの場合、相互エンコーディング、デコーディング、マルチプレクシング（ＭＵＸ）およびデマルチプレクシング（ＤＥＭＵＸ）コンポーネントはチャネル１６の反対端に設けてもよい。図１の例において、ビデオ通信装置１２は、ＭＵＸ／ＤＥＭＵＸコンポーネント１８、ＲＯＩ-イネーブルビデオＣＯＤＥＣ２０およびオーディオＣＯＤＥＣ２２を含む。同様に、ビデオ通信装置１４は、ＭＵＸ／ＤＥＭＵＸコンポーネント２６、ＲＯＩ-イネーブルビデオＣＯＤＥＣ２８およびオーディオＣＯＤＥＣ３０を含む。

システム１０は、セッションイニシエーテッドプロトコル（ＳＩＰ）、ＩＴＵＨ．３２３規格、ＩＴＵＨ．３２４規格、または他の規格に従ってテレビ電話をサポートしてもよい。各ビデオＣＯＤＥＣ２０、２８は、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵＨ．２６３またはＩＴＵＨ．２６４のようなビデオ圧縮規格に従ってエンコードされたビデオデータを発生する。図１にさらに示されるように、ビデオＣＯＤＥＣｓ２０、２８は、それぞれのオーディオＣＯＤＥＣｓ２２、３０と統合してもよく、データストリームのオーディオ部分とビデオ部分を処理するために適当なＭＵＸ／ＤＥＭＵＸコンポーネント１８、２６を含む。オーディオ部分は音声または他のオーディオコンテンツを保持してもよい。ＭＵＸ−ＤＥＭＵＸユニット１８、２６は、ＩＴＵＨ．２２３マルチプレクサプロトコル、またはユーザーデータグラムプロトコル（ＵＤＰ）のような他のプロトコルに準拠していてもよい。

各ＲＯＩイネーブルビデオＣＯＤＥＣ２０、２８は、それぞれのビデオ通信装置１２、１４のローカルユーザーにより局所的に供給されるＲＯＩ情報または他のビデオ通信装置１２、１４の遠隔ユーザーから遠隔的に供給されるＲＯＩ情報を処理することができるようにしてもよい。例えば、ビデオ通信装置１２のローカルユーザーは、ビデオ通信装置１２により局所的に発生された「近端(near-end)」ビデオ内のＲＯＩを指定し、送信されたビデオの領域を装置１４のリモートユーザーに強調してもよい。反対に、ビデオ通信装置１２のローカルユーザーは、ビデオ通信装置１４により遠隔的に発生された「遠端(far-end)」ビデオ内のＲＯＩを指定し、そのＲＯＩをリモートビデオ通信装置に通信してもよい。この場合、ビデオ通信装置１２のユーザーは、例えば、ビデオ通信装置１４から受信されたビデオ内のＲＯＩをより明瞭に見るために、ビデオ通信装置１４によるＲＯＩの選択的エンコーディングを遠隔的に制御する。

ビデオ通信装置１２、１４は、無線モバイル端末またはビデオストリーミング、テレビ電話または両方に適するように装備された優先端末として実施されてもよい。その目的のために、ビデオ通信装置１２、１４は、さらに適当な無線送信機、受信機、モデム、および無線通信をサポートするための処理電子機器を含んでいてもよい。無線モバイル端末の例は、モバイル無線電話、モバイルパーソナルデジタルアシスタンツ（ＰＤＡｓ）、モバイルコンピューター、または、無線通信能力およびビデオエンコーディングおよび／またはデコーディング能力を備えた他のモバイル装置を含む。有線端末の例は、デスクトップコンピューター、テレビ電話、ネットワーク装置、セットトップボックス、双方向テレビまたは同種のものを含む。どちらのビデオ通信装置１２、１４もビデオ情報を送信するように、ビデオ情報を受信するようにまたはビデオ情報を送受信するように構成されてもよい。

テレビ電話アプリケーションの場合、装置１２はビデオ送信能力およびビデオ受信能力の両方をサポートすることが一般的に望ましい。しかしながら、ストリーミングビデオアプリケーションもまた意図される。テレビ電話、特に無線通信によるテレビ電話において、極めて低いビットレートがしばしば要求されるので、帯域幅は、重視される。特に、通信チャネル１６は制限された帯域幅を有していてもよく、チャネル１６に対する品質ビデオシーケンスの効率的なリアルタイム送信を取り組みがいのあるものにさせる。例えば、通信チャネル１６は、チャネル１６における物理的制約により、または恐らくは通信チャネル１６のプロバイダーにより課せられたサービスの質（ＱｏＳ）制限または帯域幅割当制限により制限された帯域幅を有した無線通信リンクであってもよい。

従って、ＲＯＩへのさらなるエンコーディングビットの選択的割当、より強いエラー保護、または他の優先的エンコーディングステップは、全体のエンコーディング効率を維持しながらビデオの一部分の画像品質を改良することができる。優先的エンコーディングの場合、さらなるビットをＲＯＩに割り当ててもよい。一方、ビデオシーン内のバックグラウンドのように、低減された数のビットを非ＲＯＩ領域に割り当ててもよい。非ＲＯＩエリアはより一般的にＲＯＩの一部を形成しないビデオシーンの任意のエリアを含むけれども、非ＲＯＩエリアは「バックグラウンドエリア」と呼ばれるであろう。従って、非ＲＯＩとバックグラウンドという用語は、指定されたＲＯＩ内に無いエリアを指すためにこの開示にわたって同義的に使用されてもよい。

一般に、システム１０はテレビ電話（ＶＴ）アプリケーションのための関心領域（ＲＯＩ）処理のための技術を採用する。しかしながら、そのような技術はまた、上で示したようなビデオストリーミングアプリケーションに適用してもよい。実例の目的のために、各ビデオ通信装置１２、１４は、ビデオ情報の送信者および受信者の両方として動作することができ、それにより、ＶＴセッションの全参加者として動作することができると仮定されるであろう。ビデオ通信装置１２からビデオ通信装置１４に送信されたビデオ情報の場合、ビデオ通信装置１２は送信者装置であり、ビデオ通信装置１４は受信者装置である。反対に、ビデオ通信装置１４からビデオ通信装置１２に送信されたビデオ情報の場合、ビデオ通信装置１２が受信者装置であり、ビデオ通信装置１４が送信者装置である。ここに記載される技術はまた、そのようなビデオを送信するのみまたは受信するのみの装置に適用可能である。ローカルビデオ通信装置１２によりエンコードされ送信されるビデオ情報を論議するとき、ビデオ情報は、上述したように、「近端」ビデオと呼んでもよい。遠隔ビデオ通信装置によりエンコードされ、遠隔ビデオ通信装置から受信されたビデオ情報を議論するとき、ビデオ情報は「遠端」ビデオと呼んでもよい。

開示された技術によれば、受信者装置として動作するとき、ビデオ通信装置１２または１４は、送信者装置から受信される遠端ビデオ情報のためのＲＯＩ情報を定義する。この場合も先と同様に、送信者装置から受信されるビデオ情報は、通信チャネルの遠端に位置づけられる他の（送信者）装置から受信されるという意味では、「遠端」ビデオ情報と呼ばれるであろう。同様に、送信者装置から受信されるビデオ情報に対して定義されるＲＯＩ情報は「遠端」ＲＯＩ情報と呼ばれるであろう。遠端ＲＯＩは一般に、遠端ビデオの受信機に最も興味を起こさせる遠端ビデオ内の領域を指す。受信者装置は遠端ビデオ情報をデコードし、デコードされた遠端ビデオをディスプレイ装置を介してユーザーに提供する。ユーザーは遠端ビデオにより提供されるビデオシーン内のＲＯＩを選択する。あるいは、ＲＯＩは自動的に定義されてもよい。

受信者装置は受信者装置におけるユーザーにより選択されたＲＯＩに基いて遠端ＲＯＩ情報を発生し、遠端ＲＯＩ情報を送信者装置に送信し、それにより送信者装置はそのような情報を使用することができる。遠端ＲＯＩ情報は、ＲＯＩ内に常駐するＭＢｓの点から見るとＲＯＩを定義するＲＯＩマクロブロック（ＭＢ）マップのフォームをとってもよい。

ＲＯＩＭＢマップは、ＲＯＩ内にあるＭＢｓに１のフラッグを立てても良く、ＲＯＩ外部のＭＢｓに０のフラッグを立ててもよく、ＲＯＩの（１）に含まれるＭＢｓを容易に識別し、（０）から排除する。

受信者装置により送信される遠端ＲＯＩ情報を用いて、送信者装置は、優先的エンコーディングをビデオシーン内の対応するＲＯＩに適用する。特に、さらなるエンコーディングビットはＲＯＩに割り当てられてもよく、一方低減された量のエンコーディングビットは非ＲＯＩ領域に割り当てられても良く、それによりＲＯＩの画像品質を改良する。このように、受信者装置は、送信者装置によって遠端ビデオ情報のＲＯＩエンコーディングを遠隔的に制御することができる。

優先的エンコーディングは、優先的ビット割当またはＲＯＩエリア内の選択的量子化によりビデオシーンの非ＲＯＩエリアに対してよりもＲＯＩエリアに対してより高い品質のエンコーディングを適用する。優先的にエンコードされたＲＯＩは受信者装置のユーザーがオブジェクトまたは領域をより明瞭に見ることを可能にする。例えば、受信者装置のユーザーは、ビデオシーンのバックグラウンド領域よりも顔またはその他のオブジェクトをより明瞭に見ることを所望してもよい。

送信者装置として動作するとき、ビデオ通信装置１２または１４もまた送信者装置により送信されるビデオ情報のためのＲＯＩ情報を定義してもよい。この場合も先と同様に、送信者装置において発生されるビデオ情報は、通信チャネル近端で発生されるという意味では、「近端」ビデオと呼ばれるであろう。送信者装置により発生されるＲＯＩ情報は、「近端」ＲＯＩ情報と呼ばれるであろう。

近端ＲＯＩは一般に、送信者が受信者に強調したい近端ビデオの領域を指す。それゆえ、ＲＯＩは、受信者装置によって遠端ＲＯＩ情報として指定されてもよく、または、送信者装置によって近端ＲＯＩ情報として使用されてもよい。送信者装置は近端ビデオをディスプレイ装置を介してユーザーに提供する。送信者装置に関連するユーザーは、近端ビデオにより提供されるビデオシーン内でＲＯＩを選択する。近端ビデオ内のＲＯＩが、例えば非ＲＯＩエリアに対してより高い品質エンコーディングで優先的にエンコードされるように、送信者装置は、ユーザーが選択したＲＯＩを用いて近端ビデオをエンコードする。

送信者装置におけるローカルユーザーにより選択されるまたは定義される近端ＲＯＩは、送信者装置のユーザーがビデオシーン内の領域またはオブジェクトを強調することを可能にし、それにより、そのような領域またはオブジェクトを受信者装置ユーザーの注意に向ける。特に、送信者装置により選択された近端ＲＯＩは受信者装置に送信される必要はない。代わりに、送信者装置は選択された近端ＲＯＩ情報を用いて、受信者装置に送信される前に、近端ビデオを局所的にエンコードする。しかしながら、いくつかの実施形態において、送信者装置は、より高い品質のエラー訂正またはポストプロセッシングのような優先的デコーディング技術のアプリケーションを可能にするために、受信者装置にＲＯＩ情報を送信してもよい。

ＲＯＩ情報が送信者装置と受信者装置の両方により提供されるなら、送信者装置は、受信者装置からの受信された遠端ＲＯＩ情報または局所的に発生された近端ＲＯＩ情報を適用して近端ビデオをエンコードする。送信者装置と受信者装置により提供される近端ＲＯＩ選択と遠端ＲＯＩ選択との間にＲＯＩ不一致が生じるかもしれない。そのような不一致は、ローカルユーザーによるアクティブ解像度または特定のアクセス権およびアクセスレベルに従う解像度のような解像度を要求してもよい。いずれにおいても、送信者装置は、送信者装置により局部的に提供されるまたは受信者装置により遠隔的に提供される近端ＲＯＩ情報に基いてＲＯＩを優先的にエンコードする。

ローカルユーザーかリモートユーザーにより指定されたＲＯＩを与えられると、この開示は一般的にＲＯＩエンコーディングのための技術に焦点を合わせる。特に、この開示は、ビデオシーン内のＲＯＩエリアと非ＲＯＩエリアとの間のビット割当に関して、ＲＯＩが優先的にエンコードされる方法を扱う。ＲＯＩビデオ品質メトリックはＲＯＩエリアと非ＲＯＩエリアとの間の重み付けされたビット割当をバイアスするために適用されてもよい。ビデオ品質メトリックは、ユーザーのし好の度合い、すなわちエンコードされたビデオシーケンスの品質を評価する際にＲＯＩにおける関心、ＲＯＩビデオフィデリティー、およびＲＯＩ知覚品質を考慮する。重み付けされたビット割当はρ領域内に適用される。さらに、非ＲＯＩ、または「バックグラウンド」スキッピングアルゴリズムは、ＲＯＩに割り当てるためのエンコーディングビットを節約するために適用されてもよい。

図２は無線通信装置３６に関連するディスプレイ３４上に提示されるビデオシーン３２内のＲＯＩの定義を図解する図である。図２の例において、ＲＯＩは長方形のＲＯＩまたは非長方形のＲＯＩ４０として描画される。非長方形のＲＯＩ４０は、円形または不規則な形状を有していてもよい。各ケースにおいて、ＲＯＩ３８またはＲＯＩ４０はビデオシーン３２に提示される人の顔４２を含む。図３Ａおよび３Ｂは、図２に描画されたビデオシーン３２のＲＯＩエリア３８および非ＲＯＩエリア４３を図解する図である。非ＲＯＩエリア、すなわち背景は、図３Ｂにおいて、シェーディングにより強調される。

ＲＯＩ３８または４０は、ユーザーにより手動で定義されてもよく、装置３６により自動的に定義されてもよく、またはユーザーにより手動のＲＯＩ描写および装置３６により自動ＲＯＩ定義の組み合わせを用いてもよい。長方形のＲＯＩ３８は、ユーザーにより選択されてもよい。非長方形のＲＯＩ４０は、ユーザーにより描画されてもよい。例えば、スタイラスペンまたはタッチスクリーンを用いて描画されてもよい。または、さまざまなオブジェクト検出またはセグメンテーション技術のいずれかを用いて装置３６により自動的に選択されてもよい。ＶＴアプリケーションの場合、ＲＯＩ３８または４０は、テレビ会議における参加者の顔４２を含むビデオシーンの一部分を含んでいてもよい。ＲＯＩ３８または４０のサイズ、形状および位置は、固定であってもよいし、調節可能であってもよく、さまざまな方法で定義され、描画され、調節されてもよい。

ＲＯＩ３８または４０は、人の顔４２のような、送信されたビデオシーン内の個々のオブジェクトをビデオ送信者が強調することを可能にする。反対に、ＲＯＩ３８または４０は、ビデオ受信者が、受信したビデオシーン３２内の所望のオブジェクトをより明瞭に見ることを可能にする。いずれの場合であっても、ＲＯＩ３８または４０内の顔は、ビデオシーン３２のバックグラウンド領域のような非ＲＯＩエリアに対してより高い画像品質でエンコードされる。このようにして、ユーザーは顔の表情、唇の動き、目の動き等をより明瞭に見ることができる。

しかしながら、ＲＯＩ３８または４０は、顔以外のオブジェクトを指定するために使用されてもよい。一般的に言えば、ＶＴアプリケーション内のＲＯＩは非常に主観的であり得、ユーザー毎に異なってもよい。また、所望のＲＯＩはどのようにＶＴが使用されるかに依存する。一部の例では、テレビ会議とは対照的にオブジェクトを見て評価するために使用されてもよい。例えば、ユーザーは、プレゼンターの顔よりもむしろ方程式とか図を含むホワイトボードの一部に焦点を合わしたいと思うかもしれない。特に、プレゼンテーションがカメラから顔をそらしホワイトボードに向いているときはそうである。一部の例では、ビデオシーンは、２以上のＲＯＩを含んでいてもよい。これらは優先的エンコーディングのために指定される。

図４はビデオ通信装置１２に使用するためのＲＯＩイネーブルビデオエンコーディングシステム４４を図解するブロック図である。図４に示されるように、システム４４は、ＲＯＩ重み計算機４６、ρ領域ビット割当モジュール４８、非ＲＯＩ（すなわち、バックグラウンド）スキッピングモジュール５０、ＲＯＩマクロブロック（ＭＢ）マッパー５２、フレームレベルレートコントローラー５４、ρ対量子化パラメーター（ＱＰ）マッパー５６、ビデオエンコーダー５８、および歪みアナライザー６０を含む。図４において、ＭＵＸ−ＤＥＭＵＸおよびオーディオコンポーネントは図を容易にするために省略されている。

図４で描画されるさまざまなコンポーネントは、各モジュールに帰する機能性を含む機能モジュールまたはモノリシックモジュールとしてさまざまな方法で形成されてもよい。いずれにしても、ビデオエンコーディングシステム４４のさまざまなコンポーネントは、ハードウエア、ソフトウエア、ファームウエアまたはそれらの組み合わせにおいて実現されてもよい。例えば、そのようなコンポーネントは、１つ以上のマイクロプロセッサーまたはデジタルシグナルプロセッサー（ＤＳＰｓ）、１つの以上の特定用途向け集積回路（ＡＳＩＣｓ）、１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡｓ）、または他の等価な集積されたまたはディスクリートな論理回路上で実行するソフトウエアプロセスとして動作してもよい。

図４の例において、ＲＯＩ重み計算機４６は、ビデオ通信装置１２のローカルユーザーまたはビデオ通信装置１４のリモートユーザーにより入力されたユーザーし好ファクターαを受信する。ユーザーし好αは、ＲＯＩのための知覚重要度ファクターである。これは、ＲＯＩのビジュアル品質の重要度が実際のユーザーの遠近感を形成することを表す。ユーザーし好αは、ユーザーがＲＯＩ内のビジュアル品質を評価する度合いを定量化する。ユーザーがＲＯＩビジュアル品質を強く評価するなら、αは高くなるであろう。ＲＯＩのビジュアル品質がそれほど重要でないなら、αは低くなるであろう。し好αに基いて、ＲＯＩ重み計算機４６は、ビデオエンコーダー５８によりエンコードされるビデオフレームの非ＲＯＩエリアとＲＯＩエリアとの間の重み付けされたビット割当をバイアスするためにＲＯＩρ領域ビット割当モジュール４８に適用される重みのセットｗｉを発生する。重みｗｉはビデオフレーム内のマクロブロック（ＭＢｓ）のような個々のビデオブロックに対して指定されてもよい。ＲＯＩ重み計算機４６は、ＲＯＩＭＢマッパー５２からＲＯＩＭＢマップを受信し、それぞれの重みｗｉをＲＯＩＭＢマッパー５２により識別されるＲＯＩおよび非ＲＯＩＭＢｓに割り当てる。より高い重みｗｉを有するマクロブロックは、より高いコーディングビットの数を受信するであろう。

ρ領域ビット割当モジュール４８は、ＲＯＩ重み計算機４６から重み入力を受信し、非ＲＯＩバックグラウンドスキッピングモジュール５０からスキッピングインディケーション（スキップオン／オフ）を受信し、ＲＯＩＭＢマッパー５２からレートバジェットＲＢＵＤＧＥＴを受信し、ビデオエンコーダー５８からエンコードされたＭＢｓのための標準偏差σを受信する。標準偏差σは、動き検出の後に得られる実際の剰余の標準偏差であってもよいし、以前のフレームからの記憶された剰余統計であり得る。ＲＯＩＭＢマッパー５２により提供されるＲＯＩＭＢマップは、指定されたＲＯＩ内に含まれる所定のビデオフレーム内のＭＢｓを識別する。ＲＯＩＭＢマップを用いて、ρ領域ビット割当モジュール４８は、ＲＯＩＭＢｓへの優先的ビット割当の目的のために、すなわち、ＲＯＩ重み計算機４６により供給される重みｗｉを用いて、非ＲＯＩＭＢｓからＲＯＩＭＢｓを区別する。ビット割当モジュール４８は各ＭＢのためのρパラメーターを発生する。ρパラメーターはＭＢにおけるノンゼロＡＣ係数の数を表す。ρ領域のレート制御はＱＰ領域におけるレート制御よりより正確である傾向がある。

この開示の目的のために、ＲＯＩＭＢマップの発生のための適切なプロセスが利用可能であることを仮定される。例えば、ＲＯＩマッピングプロセスは、ＲＯＩを定義するユーザーからの手動入力に基いていてもよいし、または、例えば、顔の検出、顔のセグメンテーション、および受け入れ可能な精度を有した目標トラッキングのような一般的な技術を用いて、ＲＯＩの自動定義または検出に基いていてもよい。この開示において、図解の目的のために、頭または頭および肩のビデオシーンが考察される。しかしながら、ここに記載した技術は、人に加えてまたは人に代わるものとしてさまざまなオブジェクトを含むビデオシーケンスの他のタイプに適用されてもよい。

フレームレベルレートコントローラー５４は、ビデオシーケンス内の個々のフレームに対してビットの割当を発生する。特に、フレームレベルコントローラー５４は、このフレーム内のＭＢｓのすべて、すなわち、ＲＯＩＭＢｓと非ＲＯＩＭＢｓの両方をエンコードするために利用可能なビットの数を示す値ＲＢＵＤＧＥＴを発生する。図４においてさらに示されるように、ρ領域ビット割当モジュール４８は、非ＲＯＩバックグラウンドスキッピングモジュール５０からのスキップ表示（スキップオン／オフ）を受信する。これは、現在のフレーム内のバックグラウンドがエンコードされるかまたはスキップされるかどうかを示す。バックグラウンドがスキップされるなら、ρ領域ビット割当モジュール４８は、実際には、そうでなければ非ＲＯＩに割り当てられていたであろうビットを取り戻し、それらをＲＯＩをエンコードするために利用可能なビットのプールに再割当する。それゆえ、スキッピングが特定のフレームにおいてオンであるなら、ρ領域ビット割当モジュール４８は、ＲＯＩに割り当てるためにＲＢＵＤＧＥＴ内により多くのビットを有する。バックグラウンドが特定のフレームでスキップされるなら、以前にエンコードされたフレームからのバックグラウンドは、その場所に置き換えられる。あるいは、スキップされたバックグラウンドは補間により生成されてもよい。

重みｗｉ、ＲＯＩＭＢマップ、ＲＢＵＤＧＥＴ、スキップオン／オフ表示、および標準偏差σを用いて、ρ領域ビット割当モジュール４８は各ＭＢのρバジェット(budget)を示すρ領域出力を発生する。ρ領域出力はρ対ＱＰマッパー５６に適用される。これは、ρ値を各ＭＢのための対応するＱＰ値にマップする。フレーム内のＭＢｓのためのＱＰ値を用いて、ビデオエンコーダー５８は、入力ビデオをエンコードしエンコードされたビデオを生成する。さらに、スキッピングモジュール５０は、ビデオエンコーダーに、連続するフレームをフレームユニットにグループ化し、フレームのＲＯＩエリアをエンコードし、フレームユニット内のフレームの１つのための非ＲＯＩエリアのエンコーディングをスキップすることを命令するためにビデオエンコーダー５８にスキップ表示（スキップオン／オフ）を供給する。先行するフレームユニットに関連する歪み値がしきい値未満ならスキッピングモジュール５０がビデオエンコーダー５８にフレームユニット内のフレームの１つのための非ＲＯＩエリアのエンコーディングをスキップすることを命令してもよいという意味においてスキッピングは適応できてもよい。このように、スキッピングモジュール５０は、ビジュアル品質を維持するために歪みのレベルに基いて適応スキッピングを適用してもよい。

入力ビデオは、ビデオ通信装置１２と集積されるまたは動作可能に接続されるビデオカメラのようなビデオキャプチャー装置から得てもよい。例えば、いくつかの実施形態において、ビデオキャプチャー装置は携帯電話と一体化されいわゆるカメラ電話またはビデオ電話を形成してもよい。このように、ビデオキャプチャー装置４０は、モバイルＶＴアプリケーションをサポートしてもよい。ビデオは、ビデオ通信装置１２または１４と一体化されてもよくまたは動作可能に接続されてもよい、液晶ディスプレイ（ＬＣＤ）、プラズマスクリーン、等のようなディスプレイ装置を介して、局部的にビデオ通信装置１２に、および送信するときにビデオ通信装置１４の両方に提示されてもよい。

歪みアナライザー６０はオリジナル入力ビデオに対してエンコードされたビデオを解析する。例えば、歪みアナライザー６０はオリジナル入力ビデオフレームＦを再構成されたビデオフレームＦ’と比較する。歪みアナライザー６０は、非ＲＯＩバックグラウンドスキッピングモジュール５０に適用するために歪み値ＤＮＯＮＲＯＩ＿ＳＫＩＰを発生する。歪み値ＤＮＯＮＲＯＩ＿ＳＫＩＰは、次のビデオフレームの非ＲＯＩエリアがスキップされるべきか、スキップされるべきではないかを示す。従って、現在のフレームにおける適応非ＲＯＩスキッピングの場合、非ＲＯＩスキッピングモジュール５０は一般的に、先行するフレームまたは２以上のフレームを含むフレームユニットに関連する歪み情報に依存してもよい。

歪み値ＤＮＯＮＲＯＩ＿ＳＫＩＰが所望のしきい値を超えるなら、非ＲＯＩバックグラウンドスキッピングモジュール５０は、次のフレーム内の非ＲＯＩはスキップされるべきではないことを示す。この場合、ＲＯＩエリアおよび非ＲＯＩエリアは両方ともエンコードされる。しかしながら、歪み値が所望のしきい値未満なら、非ＲＯＩエリアは、歪みの過度のレベルを伴わずにスキップすることができる。この場合、以前のフレームに対してエンコードされた非ＲＯＩエリアは、現在のフレームにおいて使用される。記載されるように、非ＲＯＩスキッピングモジュール５０は、連続するフレームをフレームユニットにグループ化してもよく、先行するユニット、すなわち、現在エンコードされているフレームに先行するフレームを含むフレームユニットのための歪み値ＤＮＯＮＲＯＩ＿ＳＫＩＰに依存して、ビデオエンコーダー５８にフレームの１つのための非ＲＯＩのエンコーディングをスキップするように命令してもよい。

図５はこの開示の他の実施形態に従って、ＲＯＩ品質メトリック計算機６１を図解するブロック図である。図４のＲＯＩ重み計算機４６は、ＲＯＩ品質メトリック計算機６１の一部を形成してもよい。従って、ＲＯＩ品質メトリック計算機４６の１つの成果は、重みｗｉのセットであってもよい。これは、ユーザーし好ファクターα、並びにビデオフィデリティー、空間品質、および／または一時的な品質値に基いていてもよい。図５において示されるように、ＲＯＩ品質メトリック計算機６１は、ユーザーし好値αおよび１つ以上のビデオ歪み値を受信する。ビデオ歪み値は、ＲＯＩ値および非ＲＯＩ値に分割されてもよく、ビデオフィデリティー値ＤＲＦ、ＤＮＦ、空間品質値ＤＲＳ、ＤＮＳ、および一時的な品質値ＤＲＴ、ＤＮＴを含んでいてもよい。ＤＲＦはＲＯＩ内のビデオフィデリティーを表し、一方、ＤＮＦは、非ＲＯＩ領域内のビデオフィデリティーを表す。ＤＲＳはＲＯＩエリア内の空間品質を表し、一方ＤＮＳは非ＲＯＩエリア内の空間品質を表す。ＤＲＴは、ＲＯＩエリア内の一時的な品質を表し、一方、ＤＮＴは非ＲＯＩエリア内の一時的な品質を表す。ＲＯＩ品質メトリックは、エンコードされたビデオシーケンスの品質を評価する際に、共同でユーザーの関心、ビデオフィデリティーおよび知覚品質（空間、一時的または両方）を考察する。いくつかの実施形態において、より良い主観的ビジュアル品質を得るために、ρ領域ビット割当モジュール４８により適用されるビット割当アルゴリズムをバイアスするために測定基準を用いてもよい。

ＲＯＩビデオコーディングは広範囲に研究されたけれども、ＲＯＩビデオのための品質測定は、十分に詳細には、対処されなかった。ほとんどの品質測定技術は、ピーク信号対雑音比（ＰＳＮＲ）を歪み測定として使用し、ビデオフレームのＲＯＩおよび非ＲＯＩ部分を評価する。ＲＯＩビデオ品質メトリックは、解析の目的のみならず、主観的なビジュアルの望ましい解決に向けた（例えば、図４のビット割当モジュールに適用された）重み付けされたビット割当技術をバイアスするための入力として有用である。一般に、成就したように、ＲＯＩビデオ品質の評価は、少なくとも３つのアスペクトを考察する。すなわち、ユーザーのＲＯＩビジュアル品質関心またはし好α、再構成されたビデオデータのビデオフィデリティー、および再構成されたビデオデータの知覚品質（空間、一時的または両方）である。

ユーザーのし好αはビデオフレームのＲＯＩ部分と非ＲＯＩ部分への分類および関連する知覚重要度ファクターを直接決定する。テレビ電話アプリケーションにおいて、話し手の顔領域は、典型的なＲＯＩである。なぜならば、人間の顔の表現は非常に複雑であり、小さな変化が大量の情報を運ぶ可能性がある。ビデオフィデリティーファクターの場合、ＰＳＮＲは良好な測定である。これは、オリジナルフレームと比較して、再構成されたビデオフレームの歪みの合計量を示す。再構成されたフレームは、エンコードされたビデオフレームをデコードすることにより生成されるのに対してオリジナルフレームは、エンコードする前のビデオフレームである。

多くの場合において、ビデオフィデリティーは、ビデオコーディングのための最も重要な考察であろう。この場合、任意の改良は、より良い主観的なビジュアル品質を生じるかもしれない。しかしながら、これは常にそうだとは限らない。これは、いくつかの場合において知覚品質ファクターも考慮されなければならない理由である。知覚品質は、空間エラーと一時的エラーの両方を考慮する。空間エラーは、ブロッキングの存在（すなわち、ブロッキネス(blockiness)）、リンギングアーチファクト、または両方を含んでいてもよい。一時的エラーは、一時的フリッカーの存在、すなわち、ビデオフレームのビジュアル品質が時間軸に沿って非均一に変換するときを含んでいてもよい。一時的なエラーは、ビデオシーケンスにおいて、不規則に変化する動きを生じる可能性がある。これは望ましくない。

ＤRとＤNRは、ＲＯＩと非ＲＯＩのピクセルあたりの正規化された歪みを示し、αは、ＲＯＩ知覚重要度ファクターを示す。上で示した観点の中の関係がビデオ品質評価において線形関数に簡単化することができると仮定するなら、ビデオシーケンスの全体の歪みは以下のように表すことができる。

は、ビデオシーケンス内のＭフレーム内のｉ番目のオリジナルおよび再構成されたフレームである。βとγは、重みファクターである。Ｄ_RとＤ_NRはＲＯＩおよび非ＲＯＩのための合計歪みである。Ｄ_RF、Ｄ_RS、Ｄ_RTは、フィデリティーにおけるＲＯＩの正規化されたエラー、空間知覚品質および一時的な知覚品質である。Ｄ_NF、Ｄ_NSおよびＤ_NTは非ＲＯＩエリアのための対応するものである。値、α、βおよびγは０と１の間の実値が割り当てられなければならない。結果として生じる品質メトリックは、重み付けされたビット割り当てにおけるローパラメーターのための最適化問題を説明するための費用関数として使用することができ、またはＲＯＩ処理における他の問題のために使用することができる。

無線テレビ電話のような低ビットレートビデオアプリケーションにおいて、ブロッキング（すなわち、ブロッキネス(blockiness)）アーチファクトは、空間知覚品質の主要な関心事である。この種のアーチファクトは量子化により生じる。この場合、ほとんどの高周波数係数は除去される、すなわち、ゼロに設定される。この結果得られる効果は、平坦化された画像ブロックは、ブロック境界を完全に顕著にさせるということである。極めて低ビットレートの場合において、ＤＣ係数のみがコード化されるであろう。これはデコードされた画像をピースのようなコンスタントブロックにさせる。この開示において、ＲＯＩ空間品質値ＤRS（ＤNSに類似）は、正規化されたブロッキネス歪みとして定義される。これは次のように表してもよい。

知覚可能な不連続が存在するかどうかを見るためにブロック間の境界がチェックされる。ブロック境界にわたって強度スロープの平均２乗差の和をチェックする適切な不連続検出アプローチは、S. MinamiおよびA. Zakhor著の「変換コーディングにおけるブロッキング効果を除去するための最適アプローチ］(An optimization approach for removing blocking effects in transform coding)IEEE Trans.ビデオ技術のための回路システムVol. 5, No. 2, pp.74-82１９９５年４月に記載されている。その全体の内容は参照することによりここに組み込まれる。このアプローチの仮定は、ブロック境界の両側のスロープは同じでなければならず、スロープにおける突然の変化がおそらく量子化によるものであるということである。

方程式（１）において、Ｄ_RT（またはＤ_NT）値は、ビデオシーケンスにおけるすべてのフレームのためのＤ_RS（またはＤ_NS）の分散に基いて［０，１］のレンジにおける割り当てられたスコアとして定義される。このように、ビデオフィデリティー、空間知覚品質、および一時的な知覚品質に関する表現は正規化され、重み付けされたパラメーターα、β、γによりブリッジされることが可能であり、制御可能なビデオ品質測定を形成する。これらの重み付けするパラメーターの選択は、それらの要件と期待値に基いてユーザー次第である。この場合も先と同様に、この測定は、お気に入りの主観的知覚に向けたビット割当プロセスをバイアスするために入力として有用かもしれない。従って、ユーザーは、ＲＯＩコーディングにおいて、よりビジュアルな満足のいく結果を得てもよい。

図６はＲＯＩ品質メトリック計算のためのＲＯＩユーザーし好入力装置６２を組み込む無線通信装置３６を図解する図である。図６において、無線通信装置３６は一般的に図２に準拠するが、さらにユーザーのし好を捕らえるために入力装置６２をさらに組み込む。これは、ビデオシーン３２のＲＯＩ部分と非ＲＯＩ部分に割り当てられた関連重要度を指定する。図６の例において、入力装置６２は、ユーザーの好みの度合いを示すためにスライダーバーの長手方向に沿って移動することができるスライダー６４を有するスライダーバーの形態で示される。

入力装置６２を用いて、ユーザーは、例えば品質メトリック計算機６１により、ダイナミックにＲＯＩビット割当に影響を及ぼすために、ユーザーのし好を選択的に調節することができる。ユーザーし好が変化するにつれて、ビデオフレームのＲＯＩ部分と非ＲＯＩ部分の間のビット割当は変化してもよい。図６において水平スライダーバーが描画されるけれども、入力装置６２は、垂直スライダーバー、ボタン、ダイアル、ドロップダウンパーセンテージメニュー等のようなさまざまな等価な入力媒体のいずれかにより実現されてもよい。そのような入力媒体は、タッチスクリーンを介して、またはハードキー、ソフトキー、ポインティングデバイス等のいずれかを介して操作されてもよい。

図７は、ＲＯＩイネーブルビデオエンコーダー６３により適用されるコーディングパラメーターの最適化のためにビデオシーケンスを解析するためのＲＯＩ品質メトリック計算機６１の使用を図解するブロック図である。図７で示されるように、ＲＯＩ品質メトリック計算機６１は、ビデオシーケンスがＲＯＩイネーブルビデオエンコーダー６３によりエンコードされる前に入力されるビデオシーケンスのための歪み値を解析するために適用される。それゆえ、ＲＯＩ品質メトリック計算機は、例えばビデオビットストリームに対して図５を参照して記載されるように、歪み値を解析する。歪み値およびユーザーし好値αに基いて、ＲＯＩ品質メトリック計算機は、入力されるビデオシーケンスをエンコードする際にビデオエンコーダー６３により使用するために最適化されたパラメーターのセットを発生する。最適化されたパラメーターはビデオフレームのＲＯＩエリアと非ＲＯＩエリアとの間のエンコーディングビットを割り当てるためにビット割当モジュールにより使用される重みを含んでいてもよい。すなわち、重み付けファクターβおよびγのようなビットアロケーションにおいて使用される他のパラメーターのための値を含んでいてもよい。ある意味では、図７は、オープンループインプリメンテーションを表す。この場合、ＲＯＩ品質メトリック計算機６１は、エンコーディングする前に入力されるビデオストリームを解析するがエンコードされたビデオを解析しない。品質メトリックは、エンコーダー６３により使用するための最適なコーディングパラメーターの発生を生じる。

図８は、ＲＯＩイネーブルビデオエンコーダー６３により適用されるコーディングパラメーターの調節のためにエンコードされたビデオを解析するためにＲＯＩ品質メトリック計算機６１の使用を図解するブロック図である。図８の例において、ＲＯＩ品質メトリック計算機６１はエンコードされたビデオ並びにユーザーし好値に関連する歪み値を解析し、ＲＯＩイネーブルビデオエンコーダー６３により使用されるコーディングパラメーターに対する調節を生成する。それゆえ、ＲＯＩ品質メトリック計算機６１は、ビデオがＲＯＩイネーブルビデオエンコーダー６３によりエンコードされた後でビデオを解析し、例えば、ビデオエンコーダーの性能およびエンコードされたビデオの品質を改良するためにクローズドループに基いて調節を生成する。コーディングパラメーターに対する調節は、ビデオフレームのＲＯＩエリアおよび非ＲＯＩエリアとの間にエンコーディングビットを割り当てるためにビット割当モジュールにより使用される重みを調節することを含んでいてもよい。または、重み係数βおよびγのようなビットアロケーションにおいて使用される他のパラメーターのための値を含んでいてもよい。図８の例において、しきい値との品質メトリックの比較が満足されるまで、ループで反復的に品質をエンコードし評価するために品質メトリックが使用される。各反復において、品質メトリック計算機６１は、コーディングパラメーターの改良されたセットを送信する。最終的には、反復は品質メトリックしきい値の満足かまたは結果の収束により停止する。

図９は、ＲＯＩ品質メトリック計算を図解するフロー図である。図９に示されるように、適用可能なＲＯＩＭＢマップが与えられると、ＲＯＩ品質メトリック計算機４６は、ＲＯＩユーザーし好αを取得し（６８）、ビデオフレームのＲＯＩ部分および非ＲＯＩ部分をエンコードする（７０）。エンコードされたビデオフレームを再構成すると、歪みアナライザー６０は、以前にエンコードされたビデオフレームとオリジナルビデオフレームを解析し、先行するビデオフレームのそれぞれＲＯＩ部分と非ＲＯＩ部分のビデオフィデリティーＤ_RFおよびＤ_NFを決定する。さらに歪みアナライザー６０は、それぞれＲＯＩおよび非ＲＯＩ知覚の一時的な品質値Ｄ_RT、Ｄ_NTを発生し、ならびにＲＯＩと非ＲＯＩの知覚の空間品質値Ｄ_RSおよびＤ_NSを発生する。ＲＯＩ品質メトリック計算機４６は、歪みアナライザー６０からビデオフィデリティーを取得し（７２）、ＲＯＩおよび非ＲＯＩの一時的な品質を取得し（７４）、ＲＯＩと非ＲＯＩの空間品質を取得する（７６）。

ユーザーし好、ビデオフィデリティー、空間品質、および一時的な品質に基いて、ＲＯＩ品質メトリック計算機４６はＲＯＩ品質メトリックを決定する（７８）。ビデオフィデリティーは、例えば、ピクセル毎に色の強さの値に関して、オリジナルフレームに対する再構成されたビデオフレームにおけるビデオエラーを測定する。例えば、ピクセル毎の色の強さの値に関するエラーを測定する。空間品質は、オリジナルフレームに対する再構成されたフレームにおけるブロッキングおよびリンギングアーチファクト(artifacts)のような空間エラーを測定する。一時的な品質は、フレームビジュアル品質が時間軸に沿って非均一に変化する一時的なフリッカーのようなエラーを測定する。

とりわけ、ユーザーし好は、ユーザーにより適用される現在の値であるのに対し、ビデオフィデリティー、空間品質および一時的な品質は、ビット割当モジュール４８により操作される現在のフレームに先行する１つ以上のフレームから導き出される。ユーザーし好は、ユーザーが値を変化させるときまでフレーム毎に固定されていてもよい。ユーザーが値を指定していないなら、デフォルト値をユーザーし好ファクターに割り当ててもよい。図５を参照して上述したように、現在のフレームのＲＯＩと非ＲＯＩとの間のビット割当をバイアスするためにＲＯＩ品質メトリックが適用されてもよい。例えば、品質メトリックは、ＲＯＩビット割当のための重みを調節するために使用されてもよい。いくつかの実施形態において、図９に示される機能性は、図８の「クローズドループ」例において、ＲＯＩ品質メトリック計算機６１により実行される動作を表してもよい。

図１０はビデオシーケンスのためのＲＯＩ品質メトリック計算を図解するフロー図である。

図１０は実質的に図９に相当するが、ビデオストリームがエンコードされる前に品質メトリック計算がビデオストリームに対してなされる実施形態を表す。従って、図１０のプロセスはさらにビデオストリームを取得することを含む（６７）。さらに、図９と対照的に、ビデオエンコーディング（７０）は、ＲＯＩ／非ＲＯＩビット割当をバイアスした（８０）後に実行される。いくつかの実施形態において、図９に示される機能性は、図７の「オープンループ」例においてＲＯＩ品質メトリック計算機６１により実行される動作を表してもよい。

図１１はＲＯＩρ領域ビット割当を図解するフロー図である。図１１に示されるように、ビット割当モジュール４８は、ＲＯＩ定義（８２）とフレームのためのレート量（８４）を取得する。ＲＯＩ定義は、ＲＯＩに含まれるＭＢｓまたは他のビデオブロックを識別するＲＯＩＭＢマップの形態を取ってもよい。レート量は、ＲＯＩエリアおよび非ＲＯＩエリアを含む全体のフレームをエンコーディングするために利用可能なビット数を提供する。さらに、ビット割当モジュール４８は、ＲＯＩと非ＲＯＩとの間のビット割当をバイアスするＲＯＩ重み計算機４６からＲＯＩ重みｗｉ（８６）を取得する。フレームのための非ＲＯＩスキップモードを決定すると、すなわち、フレームに対してスキッピングがオンかまたはオフかどうかを決定すると、ビット割当モジュール４８は、現在のフレームのための統計値を取得する。次に、現在のフレーム統計値（８９）は、次のフレームまたはフレーム群のためのスキッピングモード決定を行うために使用することができる。フレーム統計値は、例えば、運動推定に続くフレームの剰余の標準偏差を含んでいてもよい。あるいは、フレーム統計値は、以前のフレームまたはフレーム群に対して取得されてもよい。スキップモードインジケーション（８８）を用いて、ビット割当モジュール４８は、すべての利用可能なビットがＲＯＩ（非ＲＯＩフレームスキッピングオン）に供することができるかどうかまたはビットがＲＯＩと非ＲＯＩとの間で共有されなければならないかどうか（非ＲＯＩフレームスキッピングオフ）を決定することができる。

ＲＯＩ定義、フレームレート量、品質メトリックバイアス、及び非ＲＯＩスキップモードを使用して、ビット割当モジュール４８は、ＲＯＩＭＢｓと非ＲＯＩＭＢｓとの間の重み付けされたρ領域のビットの割当を発生する（９０）。ρ領域のビット割当を決定すると、マッパー５６は、ＱＰへのρマッピングを実行し、ビデオエンコーダー５８に適用するためにＭＢＱＰ値を供給する（９２）。マッパー５６は、ρをＱＰマッピングテーブルに適用してもよいし、または特定のρのためのＱＰを発生する方程式または関数を適用してもよい。ビデオエンコーダー５８は、ビット割当モジュール４８とマッパー５６により供給されるＱＰ値を使用して適用可能なビデオフレーム内の個々のＲＯＩおよび非ＲＯＩＭＢｓをエンコードする。結果として生じるビット割当は、適用可能なフレーム量だけでなく、非ＲＯＩスキッピングの利用可能性およびビデオシーケンス内の先行するフレームまたはフレーム群に関連する品質メトリックを考慮してもよい。ビット割当モジュール４８の動作は、以下にさらに詳細に記載されるであろう。

この開示において記載されたビット割当技術は一般的に十分なＲＯＩ検出または定義の利用可能性、および受け入れ可能なフレームレベルのレート制御の利用可能性を仮定する。これに基いて、ビット割当技術は一般的にＲＯＩと非ＲＯＩＭＢｓとの間のＭＢレベルレート制御に焦点を合わせる。ほとんどの一般的なＲＯＩビット割当アルゴリズムは、ＩＴＵＨ．２６３＋ＴＭＮ８モデルの重み付けされたバージョンに基いている。この場合、費用関数が作成され、関数内のさまざまな領域上の歪み成分があらかじめ設定された重みのセットを使用することにより異なって重みづけされる。ほとんどの他のビデオ規格のように、ＴＭＮ８はＱ領域レート制御スキームを使用する。これはＱＰの関数を用いてレートと歪みをモデル化する。しかしながら、この開示において記載されたビット割当技術は、ρ領域レート制御モジュールを使用する。この場合、ρは、ビデオコーディングにおいてＭＢ内のノンゼロ量子化ＡＣ係数の数を表す。ここに記載されるように、ρ領域ビット割当を使用することはＱＰ領域レート制御よりもより正確になる傾向があり、レート変動を効率的に低減してもよい。

ビデオコーディングアプリケーションにおいて、典型的な問題は、ビデオシーケンスのための与えられたビット量を用いて歪み値Ｄ_sequenceを最小化することである。この複雑な問題のための最適解は、最適フレームレベルレート制御アルゴリズムおよび最適のマクロブロックレベルビット割当スキームに依存する。しかしながら、現在のフレームをコーディングしているとき将来のフレームについての非常に限られた情報が入手可能なテレビ電話のようなリアルタイムのアプリケーションの場合、最適フレームレート制御を達成しようとすることは実用的ではないまたは実現可能ではない。典型的にポピュラーなアルゴリズム（「グリーディ(greedy)アルゴリズム）が適用される。グリーディアルゴリズムは、ビデオコンテンツの複雑さがビデオシーケンス内のフレームに沿って均一に分配されると仮定する。これに基いて、グリーディアルゴリズムは、利用可能なビットの一部分をシーケンス内のフレームの各々に割り当てる。リアルタイムアプリケーションにおいて、また、将来のフレーム情報の限られた利用可能性は、レート制御における一時的な品質を考慮することを困難にさせる。

この開示において、実用的な解を見つけるためにおよびビット割当問題を簡単にするために、一般的に、良好なフレームレベルレート制御が利用可能であると仮定される。この仮定は、ビット割当問題をマクロブロックレベルのビット割当に低減する。同時に、ビット割当スキームは非ＲＯＩスキッピングアプローチをうまく利用してもよい。スキップされた領域は、以前のフレームの知覚品質と同じ知覚品質を提示するので、非ＲＯＩスキッピングは、一時的な歪み期間

の値を低減するための機会を増大させる。従って、非ＲＯＩエリアのスキッピングは、連続したフレーム間の知覚品質の変動を低減してもよい。

説明のために、ビデオフレームの画像品質は方程式（１）に従って評価される。しかしながら、簡単にするために、β＋γ＝１となるようにβとγが設定される。与えられたフレームｆとフレームをコーディングするためのビットレートＲのための合計ビット量を示すと、問題は、以下の関数により表すことができる。

上述の最適化問題は、ラグランジュ緩和とダイナミックプログラミングにより解決することができるかもしれない。しかしながら、そのようなアプローチの計算上の複雑さは、リアルタイムシステムが負うことができるものよりもはるかに高いであろう。それゆえ、この開示に従って、低い複雑さの近最適解が好ましい。特に、この開示において、ρ領域における２段ビット割当アルゴリズムが適用される。第１段は以下の最適な問題を含む。

方程式（４）のための最適なコーディングパラメーターが得られた後で、第２段は、コーディングパラメーターを反復して調節し、ローカル最小値に到達するまで期間

を低減する。この２段アルゴリズムの結果は、βが相対的に大きな数であるとき、最適な解に非常に接近するかもしれない。β＝１のとき、問題（３）と（４）は同一である。この開示において、焦点は、第１段と問題（４）に対する解に当てられる。

ＲＯＩビデオコーディングにおいて、Ｎはフレーム内のＭＢｓの数であり、｛ρ_i｝、｛σ_i｝、｛Ｒ_i｝、および｛Ｄ_i｝は、それぞれｉ番目のマクロブロックのためのρのセット、標準偏差、レートおよび歪み（２乗誤差の和）である。従って、

である。重み｛ｗｉ｝のセットは、以下のようにフレーム内のすべてのＭＢｓに対して定義される。

この場合、ＫはＲＯＩ内のＭＢｓの数である。方程式（５）は、例えばＲＯＩ重み計算機４６により実施されてもよい。それゆえ、フレームの重み付けされた歪みは、

である。それゆえ、問題（４）は以下のように書き換えることができる。

Ｒ≦Ｒ_budgetとなるようにＤを最小化する。（７）
方程式（７）はモデリングベースビット割当アプローチを用いることにより解が得られる。自然画像のＡＣ係数の分配は、ラプラシアン分配

により最良に近づけることができる。それゆえ、ｉ番目のマクロブロックのレートと歪みは、ρの関数として以下に示す方程式（８）および（９）においてモデル化することができる。

例えば、レートは以下のように表すことができる。

Ｒ_i＝Ａρ_i＋Ｂ (8)
この場合、ＡおよびＢはコンスタントモデリングパラメーターである。Ａはノンゼロ係数をエンコードするために必要な平均ビット数として考えることができる。Ｂは、非テクスチャー情報によるビットとして考えることができる。

さらに、歪みは以下のように表すことができる。

この場合、θは未知の定数であり、σは、剰余データの標準偏差である。ここで、任意の選択されたρ_iから受け入れ可能な量子化の方法を発生するために利用可能な十分に正確なρ−ＱＰテーブルがあると仮定されるので、ビット割当技術は、量子化の方法のかわりにρ_iを最適化する。一般に、方程式（７）は、ラグランジュ緩和を用いて解くことができる。この場合、制限された問題は、以下のように非制限された問題に変換される。

この場合λ＊は、

をイネーブルにする解である。方程式（１０）において、部分導関数をゼロに設定することにより、最適化されたρ_iのための以下の式が得られる。

これは、

である。従って、

である。そして、

である。他方、

なので、以下の関係を保持する。

方程式（１４）と（１６）から、ビット割当モデルＩは以下のように得られる。

次に、結果として生じるρは、対応するＱＰにマップされ、適切な数のコーディングビットをそれぞれのＲＯＩＭＢまたは非ＲＯＩＭＢに割り当てるために使用される。

他のビット割当モデル（ビット割当モデルＩＩ）は、代わりの歪みモデルを用いて得てもよい。代替歪みモデルによれば、ステップサイズｑを有した均一な量子化の方法の利用可能性を仮定すると、量子化により生じる歪みは以下により与えられる。

そしてゼロのパーセンテージは以下により与えられる。

従って、

である。T.M. CoverおよびJ.A.Thomas著「情報理論の要素」(Elements of information theory)、Wiley, New York, NY., 1991に記載されるように、シャノンのソースコーディング理論によれば、ラプラシアンソースの場合、シンボルを表すために必要な最小ビット数は以下により与えられる。

であり、３８４は、４：２：０ビデオのためのｉ番目のマクロブロックにおける係数の合計数であり、方程式（２１）はテーラー展開を用いて拡張することができ、ビットレートとρとの間の関係は、Ｒ_i＝Ａρ_i＋Ｂ（２２）により近似することができる。但し、ＡおよびＢは、コンスタンとモデリングパラメーターであり、Ａは、ノンゼロ係数をエンコードするために必要な平均ビット数として考えることができ、Ｂは、非テクスチャー情報によるビットとして考えることができる。

さらに係数の分散は以下により表される。

結果として、ｉ番目のマクロブロックの歪みは以下により表すことができる。

ビット割当モデルＩの導出におけるように、最適ビット割当スキームは、最適問題（７）、すなわち、以下の問題を解くことにより得ることができる。

一般に、方程式（２５）は、ラグランジュ緩和を用いて解くことができる。この場合、制限された問題は以下のように非制限された問題に変換される。

但し、λ＊は、

をイネーブルにする解である。（２６）において部分導関数をゼロに設定することにより、最適化されたρのための以下の式が得られる。

これは、

である。従って、

である。

他方、

なので、

である。

方程式（２８）および（３０）から、以下の式が得られる。

但し、ρbudgetはフレームのための合計ρ量である。方程式（３２）において、歪みは、異なってモデル化されているけれども、そのモデルに基いて、以下のビット割当モデルＩＩが得られる。

方程式（３３）は、例えばビット割当モジュール４８により実施されてもよい。

図１２は、重み付けされたビット割当モデルＩおよびＩＩおよび最適解を用いてエンコーディング技術の全体の知覚品質を比較するグラフである。最適解はラグランジュ緩和により得られるのに対してビット割当モデルＩおよびＩＩは上述したように実施される。図１２は、標準フォーマンビデオテストシーケンスの最初の１００フレームのＲＯＩコーディング中のフレーム番号対デシベルにおけるＰＳＮＲを示す。図１２において、最適解、ビット割当モデルＩ、ビット割当モデルＩＩは、それぞれ参照符号９１、９３、および９５で識別される。ビット割当モデルＩおよびＩＩの場合、ビット割当重み付け方程式（５）の目的のためにαの値は０．９である。図１２に示されるように、ビット割当モデルＩおよびＩＩの両方は、最適解との比較において非常によく実行する。

図１３は、非ＲＯＩ（「バックグラウンド」）スキッピングのための技術を図解するフロー図である。ビデオフレームの非ＲＯＩエリアのエンコーディングをスキップする能力は、ビット割当において、著しい節約を生じることができる。非ＲＰＩがエンコードされないなら、すなわちスキップされるなら、さもなければ非ＲＯＩに割り当てられたビットは、ＲＯＩ内のＭＢｓのビジュアル品質を改良するためにＲＯＩをエンコーディングするために、代わりに再割当することができる。非ＲＯＩが所定のフレームに対してスキップされるなら、先行するフレームに対してエンコードされる非ＲＯＩは、反復されるかまたは現在のフレームの補間された非ＲＯＩエリアにより置換される。ＲＯＩエンコーディングのための節約ビットに加えて、非ＲＯＩエリアのスキッピングは、現在のフレームの一時的品質を改良してもよい。特に、２以上の連続するフレームで同じ非ＲＯＩエリアを提示することは、非ＲＯＩエリアにおける一時的なフリッカーを低減する傾向があるであろう。

非常に低いビットレート、例えば３２ｋｂｐｓにおいて、非ＲＯＩ領域は、たとえ、ビットがＭＢｓの間で均一に分配されていても通常粗雑にコード化される。この場合、フリッカリングのようなビジュアル品質問題は重要になる。他方、バックグラウンドが非ＲＯＩであるテレビ電話アプリケーションのほとんどの場合、バックグラウンドに非常に限定された動作がある。それゆえ、スキッピングがビデオフィデリティーを厳しく劣化させない限り、ＲＯＩの品質とコード化された非ＲＯＩ領域を改良するためにバックグラウンドスキッピングは、ビットを再割当するための解である。

フレームスキッピングは、コーディングビットを節約するために非常に低いビットレートのアプリケーションにおいて使用されるポピュラーなアプローチである。非ＲＯＩスキッピングとフレームスキッピングとの間の差異は、各フレームのためのＲＯＩは、ＲＯＩの良好なビジュアル品質を保証するために非ＲＯＩスキッピングアプローチにおいてコード化されることである。フレームスキッピングの多くのアプリケーションにおいて非常に有用である。しかしながら、ＲＯＩビデオコーディングにおいて、フレームスキッピングは、顔の表現のような重要な情報の損失の危険を冒すであろう。特に、方程式（１）において大きな値でαが設定されるとき、ＲＯＩの任意の歪みは、激しく重みづけされ、全体の性能を劣化させる可能性があるためである。それゆえ、非ＲＯＩスキッピングはより良い選択であり、一般的にかなりの数のビットを節約し、ＲＯＩ品質を改良する。なぜなら、バックグラウンドＭＢｓの数は、通常のビデオフレームにおいて支配的であるからである。

図１３に示されるように、非ＲＯＩスキッピング技術は、フレームのためのＲＯＩエリアおよびフレーム間で共有される共通非ＲＯＩエリアを含むユニットに、連続するフレームをグループ化することを含む。図１３の例では、２つの連続するフレームがグループ化される。非ＲＯＩバックグラウンドスキッピングモジュール５０は、フレームｉおよびｉ＋１をフレームユニットにグループ化し（９６）、ビデオエンコーダー５８に非ＲＯＩエリアがスキップされるであろうフレームを知らせる。これに応答して、ビデオエンコーダー５８は、ビット割り当てモジュール４８により供給される重み付けされたビット割り当てを用いてフレームｉおよびｉ＋１のそれぞれのＲＯＩエリアをエンコードする。（９８）さらに、ビデオエンコーダー５８は、重み付けされたビット割り当てを用いてフレームｉの非ＲＯＩエリアをエンコードする。（１００）しかしながら、ビデオエンコーダー５８は、フレームｉ＋１の非ＲＯＩエリアをエンコードしない。代わりに、フレームｉ＋１の非ＲＯＩエリアがスキップされ、先行するフレームの非ＲＯＩエリアはその場所に提供される。

非ＲＯＩスキッピングはフルタイムベースで供給されてもよい。例えば、代替フレームに基いて非ＲＯＩの連続するフルタイムスキッピングの目的のために、２フレーム毎にユニットにグループ化されてもよい。言い換えれば、毎秒フレームにおける非ＲＯＩは、フルタイムベースでスキップされてもよい。別の方法として、適応ベースに基いてアクティブにしたり非アクティブにしてもよい。最近の以前のフレームによって生成された非ＲＯＩ歪みが歪みしきい値を超えると、スキッピングは非アクティブになってもよい。図１３に示されるように、例えば、以前のフレームの非ＲＯＩエリアにおける歪みがしきい値未満なら（１０２）、フレームｉ＋１の非ＲＯＩはスキップされ（１０４）、プロセスは、フレームインクリメントｉ＝ｉ＋２により表されるように、２つの連続するフレームの次のグループに続く（１０６）。この場合、非ＲＯＩ歪みのレベルは受け入れ可能であり、スキッピングはアクティブになる。しかしながら、非ＲＯＩ歪みが歪みしきい値より大きければ（１０２）、フレームｉ＋１の非ＲＯＩエリアは、重み付けされたビット割り当てを用いてエンコードされる（１０８）。この場合、スキッピングは過度の非ＲＯＩ歪み、すなわち関連のあるビデオシーンの非ＲＯＩエリア内の過度の歪みにより非アクティブになる。

図１４は非ＲＯＩスキッピングをサポートするために、連続するフレームをユニットにグループ化することを図解する図である。図１４に示されるように、フレーム０、１、２、３はビデオシーケンス内の連続するフレームを表す。この例において、フレーム０およびフレーム１はユニット１にグループ化され、フレーム２およびフレーム３はユニット２にグループ化される。各ユニットは共通の非ＲＯＩエリアを共有する。特に、受け入れ可能な歪みを有したフルタイムスキッピングまたはアダプティブスキッピングの場合に、フレーム０の非ＲＯＩエリアは、フレーム１に対して反復される。フレーム０の非ＲＯＩエリアはフレーム１に対して反復されるので、フレーム１の非ＲＯＩエリアをエンコードする必要はない。フレームをユニットにグループ化することは、ビデオシーケンス全体にわたって適用されてもよい。図１４の例において、２つのフレームは１つのユニットにグループ化される。いくつかのアプリケーションにおいて、２以上のフレームが１ユニットにグループ化されてもよい。非ＲＯＩは全体でスキップされるがユニット内のフレームの１つにおいてである。

図１５は、共通の非ＲＯＩエリアを有する連続するＲＯＩエリアのエンコーディングを図解する図である。特に、連続フレーム０および１を１ユニットにグループ化すると、フレーム０および１内のＲＯＩエリア１１０、１１２はそれぞれエンコードされる。しかしながら、フレーム１のための非ＲＯＩエリア（図示せず）がスキップされるように、フレーム０の非ＲＯＩエリア１１４はフレーム０およびフレーム１の両方に対して反復される。この方法で、さもなければ、フレーム１非ＲＯＩエリアをエンコードするために必要なビット消費を回避することができる。図１５の例において、「バックグラウンド」と呼ばれるけれども、非ＲＯＩエリア１１４は、人の肩のようなフォーグラウンド特徴を含んでいてもよい。従って、バックグラウンドは一般的にこの開示においてＲＯＩ外の任意のエリアを呼ぶために使用され、ビデオシーン内のバックグラウンドイメージに厳密に制限されると考えるべきではないことに留意する必要がある。非ＲＯＩスキッピングは以下にさらに詳細に記載される。

図４の非ＲＯＩスキッピングモジュール５０の実施のための例示プロトタイプシステムについて以下記載する。プロトタイプシステムでは、図１３−１５を参照して上述したように、２フレーム毎にユニットにグループ化される。各ユニットにおいて、第１の非ＲＯＩエリアは、例えば、ゼロ運動ベクトルを有した予測されたＭＢｓを用いてコード化され一方第２の非ＲＯＩエリアはスキップされる。各ユニットのビット割り当ては、シーケンス内のビデオフレームのコンテンツ複雑性は、フレームにわたって均一に分配されると仮定して、「グリーディ」フレームレベルビット割り当てと同じロジックに基いていてもよい。この仮定の場合、ビットは、

として２フレームユニットの中で均一に割り当てられなければならない。但し、ρ_sequenceは、ビデオシーケンス内のＭの連続フレームのグループのための合計ρ量である。ρ_{unit i}は、ｉ番目のユニットのためのρ割り当てである。ρ_usedは、第１の（ｉ-１）／２ユニットのρ消費である。ユニット内において、ビットアロケーションモデル（ＩまたはＩＩ）は、ＲＯＩエリアと非ＲＯＩエリア内のＭＢｓにビットを割り当てるために使用されてもよい。

ここに記載されるように、非ＲＯＩスキッピングの結果を評価するために、いくつかのテストが実行された。テストにおいて、以下のビット割り当て技術が比較された。

(a) フルタイム非ＲＯＩスキッピングを有したモデルＩＩに基いた重み付けされたビット割り当てアルゴリズム
(b) 非ＲＯＩスキッピングを有さない、モデルＩＩに基いた重み付けされたビット割り当てアルゴリズム
そして(c)ＲＯＩと非ＲＯＩＭＢｓがビット割り当てにおいて等価に取扱われる「グリーディ」アルゴリズム
テストは、毎秒１５フレーム（ｆｐｓ）のレートで、標準の「自動車電話」ＱＣＩＦビデオシーケンスの最初の１５０フレームについて行った。比較の結果は、図１６−２３で示される。

図１６は、上述のエンコーディング技術（ａ）、（ｂ）、（ｃ）の全体の知覚品質を比較するグラフである。特に、図１６は毎秒あたりキロビット（ｋｂｐｓ）におけるエンコーディングレートのレンジに対してデシベル（ｄｂ）で知覚ＰＳＮＲをプロットする。図１７は上述のエンコーディング技術（ａ）、（ｂ）、（ｃ）の全体のビデオフィデリティーを比較するグラフである。「全体」のビデオフィデリティーという用語は、ＲＯＩエリアと非ＲＯＩエリア両方の組み合わせ、すなわち全体のフレームのビデオフィデリティーを指し、その代わりに、「フレーム」ビデオフィデリティーを指してもよい。図１７は、毎秒キロビット（ｋｂｐｓ）におけるエンコーディングレートのレンジに対してデシベル（ｄｂ）で「フレーム」ＰＳＮＲをプロットする。

図１８および図１９は、上述のエンコーディング技術（ａ）、（ｂ）、（ｃ）のそれぞれＲＯＩビデオフィデリティーと非ＲＯＩビデオフィデリティーを比較するグラフである。特に、図１８および図１９は、毎秒キロビット（ｋｂｐｓ）におけるエンコーディングレートのレンジに対してデシベル（ｄｂ）におけるＰＳＮＲをプロットする。図１８において、ＲＯＩビデオフィデリティーは、ビデオフレームのＲＯＩエリア内のビデオフィデリティーを指す。図１９において、非ＲＯＩビデオは、ビデオフレームの非ＲＯＩエリア内のビデオフィデリティーを指す。図１６−１９は、重み付けされたビット割り当てアルゴリズムにおいてユーザーし好ファクターα＝０．９のアプリケーションを表す。図１６−１９の各々において、（ａ）フルタイム非ＲＯＩスキッピングを有した重み付けされたビット割り当て、（ｂ）スキッピングを有さない重み付けされたビット割り当て、（ｃ）グリーディアルゴリズムのための曲線は、それぞれ１１６、１１８、１２０の参照符号により識別される。

図２０および２１は、上述したエンコーディング技術（ａ）、（ｂ）、（ｃ）のそれぞれ全体の知覚品質と全体のビデオフィデリティーを比較するグラフである。特に、図２０は、毎秒キロビット（ｋｂｐｓ）におけるエンコーディングレートのレンジに対してデシベル（ｄｂ）における知覚ＰＳＮＲをプロットする。図２１は、毎秒キロビット（ｋｂｐｓ）におけるエンコーディングレートのレンジに対してデシベル（ｄｂ）におけるＰＳＮＲをプロットする。図２０および２１は重み付けされたビット割り当てアルゴリズムにおいてユーザーし好ファクターα＝０．７のアプリケーションを表す。図２２および図２３は、エンコーディング技術（ａ）、（ｂ）、（ｃ）のそれぞれ全体の知覚品質と全体のビデオフィデリティーを比較するグラフである。図２２および２３は、重み付けされたビット割り当てアルゴリズムにおいてユーザーし好ファクターα＝０．５のアプリケーションを表す。図２０−２３において、（ａ）フルタイム非ＲＯＩスキッピングを有した重み付けされたビット割り当て、（ｂ）スキッピングを有さない重み付けされたビット割り当て、（ｃ）グリーディアルゴリズムのための曲線は、それぞれ参照符号１１６、１１８、１２０により識別される。

図１６−２３に示されるテスト結果の場合、ビデオ品質測定値、知覚ＰＳＮＲ、フレームＰＳＮＲ、ＲＯＩＰＳＮＲ、及び非ＲＯＩＰＳＮＲの４つのセットは以下のように定義された。

上の式において、ＤFrameは、フレームに対する全体の一時的歪みおよび空間歪みである。ＤFは、オリジナルフレームと再構成されたフレームとの間のビデオフィデリティーである。ＤRFは、オリジナルフレームと再構成されたフレームのＲＯＩエリア間のビデオフィデリティーである。ＤNFは、オリジナルフレームと再構成されたフレームの非ＲＯＩエリア間のビデオフィデリティーである。知覚ＰＳＮＲは図１６、２０、２２に示される。フレームＰＳＮＲは図１７、２１、２３に示される。ＲＯＩＰＮＳＲは図１８に示され、非ＲＯＩＰＳＮＲは図１９に示される。図１６−２３に示される結果は、提案されている非ＲＯＩスキッピングアプローチは、すべてのテストにおいて他のアプローチと比べて知覚ＰＳＮＲ（ＰＰＳＮＲ）において１ｄＢ以上の利得を有することを明示する。利得は、図１８および図１９に示されるように、フレームをコーディングする際にビットを非ＲＯＩからＲＯＩに再割当することによりＲＯＩ品質の改良から得られる。

関心ある観察は、図１７、２１、２３に示すように、低ビットレートにおけるフレームＰＳＮＲに関して、非ＲＯＩ（バックグラウンド）スキッピングアプローチはまた他のアプローチより効率がよいということである。さらに、グラフは、フレームＰＳＮＲにおける利得は、ユーザーし好ファクターの減少に伴い増加することを示す。これらの観察は、非ＲＯＩスキッピングアプローチは、無線ＶＴのような非常に低いビットレートアプリケーションに対して非常に魅力があることを示す。なぜならばそれは、ビデオフィデリティーの観点のみならずビジュアル品質の観点において他のアプローチより効率がよいからである。重み付けされたビット割り当てアプローチは、αに大きな値、例えば図１６においてα＝０．９が割り当てられているときグリーディアルゴリズムより効率がよいことが期待される。しかしながら、利点は、図２０および２２に示すようにアルファの減少とともに減少する。

さらなるテストは、フレームスキッピングに、すなわち、非ＲＯＩエリアのみスキップする代わりに全体のフレームのスキッピングに依存する重み付けされたビット割り当て技術に対して非ＲＯＩスキッピングを内蔵するビット割り当て技術の性能を評価するためにさらなるテストが実行された。図２４は、標準フレームスキッピングとバックグラウンドスキッピングを用いてＲＯＩエンコーディング技術の知覚品質を比較するグラフである。各ケースにおいて、ここに記載されるように、重み付けされたビット割り当てが適用された。１つのケースにおいて、非ＲＯＩ（バックグラウンド）スキッピングが適用された。他のケースにおいて、フルタイムフレームスキッピングは、１つおきの他のフレームが交互ベースでスキップされるように適用された。図２４は、毎秒キロビット（ｋｂｐｓ）におけるレートに対してデシベルにおける知覚ＰＳＮＲをプロットする。図２４において、参照符号１２２、１２４、１２６は、フレームスキッピングと、それぞれユーザーし好ファクター＝０．９、０．７、０．５を有する重み付けされたビット割り当てのための曲線を示す。参照符号１２８、１３０、１３２、は非ＲＯＩスキッピングと、それぞれユーザーし好ファクター＝０．９、０．７、０．５を有した重み付けされたビット割り当てのための曲線を同定する。図２４に示されるように、非ＲＯＩスキッピングを有した重み付けされたビット割り当ては、全てのαの設定においてフレームスキッピングを有する重み付けされたビット割り当てより効率がよい。非ＲＯＩスキッピングにより供給される性能利得は、αの値の増加に伴い増加する。この結果は合理的である。なぜなら、より大きなαの場合、フレームスキッピングのためのＲＯＩに関する相殺はより重くなるからである。

図１６−２４に明示されるように、非ＲＯＩバックグラウンドスキッピングアプローチは、良好な性能を生じる。特に、非ＲＯＩが相対的に低い運動を維持しているときそうである。しかしながら、大量の運動を含む非ＲＯＩエリアを有するビデオシーケンスの場合、性能利得は、減少されてもよい。同時に、重要なバックグラウンド情報はスキップしてもよく、システム性能の劣化を生じる。従って、スキッピングがビデオフィデリティーを厳しく低下させるとき、例えば、バックグラウンドコンテンツが重要な情報を含むとき、バックグラウンドスキッピングはオフになることが望ましい。一例として、オンおよびオフになる非ＲＯＩスキッピングを有した重み付けされたビット割り当てによりＲＯＩコーディングは、バックグラウンドが迅速に移動する標準の自動車電話ビデオテストシーケンスの第１８０番目乃至２０９番目に適用された。図２５はこの解析の結果を示す。特に、図２５は、ここに記載されるように、非ＲＯＩスキッピングがオンおよびオフになるとき、重み付けされたビット割り当てのためのＲＯＩエンコーディング技術の知覚品質を比較するグラフである。

図２５は、毎秒キロビットにおけるレートに対するデシベルにおける知覚ＰＳＮＲのグラフである。図２５において、参照符号１３４および１３６は、オンになった非ＲＯＩスキッピングと、それぞれユーザーし好ファクターα＝０．９および０．５を有する重み付けされたビット割り当てのアプリケーションを表す曲線を同定する。参照符号１３８および１４０は、オフになった非ＲＯＩスキッピングと、それぞれユーザーし好ファクターα＝０．９および０．５を有した重み付けされたビット割り当てのアプリケーションを表す曲線を同定する。図２５の結果は、比較された非ＲＯＩスキッピングの利点は、αが例えば０．９から０．５に減少するのに伴い減少することを示す。また、この結果は、ビデオシーケンスのコンテンツと、ユーザーし好ファクターにより表されるようにユーザーの関心レベルに基いて、非ＲＯＩスキッピングのダイナミック制御をイネーブルにする適応非ＲＯＩスキッピングを作成する値を示す。

非ＲＯＩスキッピングを有するおよび有さない重み付けされたビット割り当てにより生成される歪みは、以下に示すように、明示的に比較することができる。

この場合、Ｄ_{skip_on}は、非ＲＯＩスキッピングがオンのときのユニット合計歪みである。Ｄ_{skip_off}は、バックグラウンドスキッピングモードがオフのときのユニット合計歪みである。Ｄ_{NonROI_skip}はユニットの第２のフレーム内の非ＲＯＩをスキップすることにより長じる歪みである。方程式（３５）におけるρ1およびρ2および方程式（３６）におけるρ1'、ρ2'、ρ3'は、ＲＯＩｓおよび非ＲＯＩに割り当てられたＡＣ係数（ρ）の数である。

方程式（３５）および（３６）から、Ｄ_{NonROI_skip}＞＞ＤNF（ρunit-ρ1'−ρ2'−ρ3'）である場合にのみＤ_{Skip_on}＞Ｄ_{Skip_off}が適用できることを観察することができる。なぜなら、一般に以下の式が適用できるからである。

この観察は図２６に示すように自動車電話ビデオテストシーケンスのためのＤ_{NonROI_skip}の統計値から真であることが検証される。図２６は、例示ビデオシーケンスに対するバックグラウンドスキッピングにより生じた歪みを描画するグラフである。特に、図２６は、自動車電話ビデオテストシーケンスの最初の２４０フレームに対するフレーム番号対平均非ＲＯＩ領域剰余エネルギーＤ_{NonROI_skip}をプロットする。図２６からフレーム１８０−２０９の期間において値は他よりもはるかに大きいことが明らかである。これは、高度の運動により特徴づけられるフレームである。それゆえ、非ＲＯＩスキッピングは一般的に好ましいのに対して、フレーム１８０−２０９により提示される高運動部分の期間は望ましくない。

上の観察に基いて、バックグラウンドスキッピングモードをオンおよびオフさせる基準を追跡するタスクは、Ｄ_{NonROI_skip}の歪みのためのしきい値を探すタスクに変換される。ビデオシーケンスにおけるユニット歪みが平滑な方法で変化すると仮定するなら、これは一般的に真であるが、ほとんどの最近に処理されたユニット歪みの平均値は、ひずみしきい値を導き出すのに使用することができる。

を最も最近のｎユニットの平均歪みとして示すと、（３５）および（３６）に基いて、

が適用されるなら、Ｄ_{Skip_on}＞Ｄ_{Skip_off}を作ることは非常に可能である。言い換えれば、非ＲＯＩスキッピングをスイッチオフするための基準は、

として指定することができる。この基準は、適応非ＲＯＩスキッピングアルゴリズムのための基礎として機能することができる。

適応非ＲＯＩスキッピングアルゴリズムは実質的に図１３に示されるプロセスに準拠してもよく、以下のようにさらに記載することができる。

ステップ０：データをイニシャライズし、

を設定し、スキッピングモード＝ＯＮである。

ステップ１：方程式（３４）を用いて現在のユニット（２つの連続するフレームＦ_nおよびＦ_n+1のグループ）のためのρ量を割り当てる。

ステップ２：現在のユニット内において、方程式（３２）により各マクロブロックのためのビットを割り当てる。スキッピングモードがＯＮならユニット内の第２のフレームのための非ＲＯＩに対してビットは割り当てられない。

ステップ３：現在のユニットのための歪みが得られた後で、

を

だけ更新する。ただし、ηは学習ファクターであり、［０，１］のレンジにある。

ステップ４：次のユニットのためのデータを得る。これが最後のユニットならステップ６に行く。

ステップ５：新しいユニット（次の２つのフレームＦn+2とＦn+3のグループ）のためのＤ_{NonROI_skip}の歪みを計算する。

なら、スキッピングモードをオフにする。そうでなければ、スキッピングモードをオンにする。ステップ１に戻る。

ステップ６：適応スキッピングアルゴリズムを終了する。

図２７は、非ＲＯＩスキッピングを用いて、非ＲＯＩスキッピングを用いないで、および適応非ＲＯＩスキッピングを用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。各ケースにおいて、ここに記載されたような重み付けされたビット割り当てが適用された。図２７は標準自動車電話ビデオテストシーケンスのフレーム１８０−２０９のＲＯＩビデオコーディングに対する毎秒キロビットにおけるレートに対するデシベルにおける知覚ＰＳＮＲをプロットする。参照符号１４２および１４４は、非ＲＯＩスキッピングオンと、それぞれユーザーし好ファクターα＝０．９および０．５を有する重み付けされたビット割り当てを表す曲線を同定する。参照符号１４６および１４８は、非ＲＯＩスキッピングオフとそれぞれユーザーし好ファクターα＝０．９および０．５を有した重み付けされたビット割り当てを表す曲線を同定する。参照符号１５０および１５２は、適応非ＲＯＩスキッピングとそれぞれユーザーし好ファクターα＝０．９および０．５を有する重み付けされたビット割り当てを表す曲線を同定する。この評価において、値ηは、η＝０．２５に設定された。図２７における結果は、適応非ＲＯＩスキッピングアプローチの結果は、αの種々の値のための最良の解に非常に近いことを示す。

図２８−３３は、この開示において記載される重み付けされたビット割り当て技術を適用するＲＯＩコーディング技術のためのさらなる実験結果を示す。図２８−３２は、標準自動車電話ビデオテストシーケンスに対する種々のＲＯＩコーディング技術の適用を表す。図２８−３２の場合、重み付けされたビット割り当てアプローチ（「提案されたアプローチ」および「重み付けされたビット割り当て」）で使用されるユーザーし好ファクターαは０．９に設定された。「提案されたアプローチ」ラベルは、非ＲＯＩスキッピングを有する重み付けされたビット割り当てを指す。「重み付けされたビット割り当て」ラベルは、非ＲＯＩスキッピングを伴わない重み付けされたビット割り当てを指す。

図２８は、種々のビット割り当て技術を用いたＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフであり、レート対知覚ＰＳＮＲをプロットする。図２８において、参照符号１５４、１５６、１５８、１６０、１６２は、それぞれフレームスキッピングアプローチ、非ＲＯＩスキッピングを用いて重み付けされたビット割り当てアプローチ、グリーディアルゴリズム、コンスタントＱＰアルゴリズム、非ＲＯＩスキッピングを伴わない重み付けされたビット割り当てアプローチのアプリケーションを表す曲線を同定する。

図２９は毎秒４０キロビット（ｋｐｓ）のエンコーディングレートで、種々のビット割り当て技術を用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。特に、図２９は、非ＲＯＩスキッピング、グリーディアルゴリズムおよびコンスタントＱＰアルゴリズムを有した重み付けされたビット割り当てのためのフレーム番号対知覚ＰＳＮＲをプロットする。

図３０は、毎秒４０キロビット（ｋｐｓ）のエンコーディングレートで種々のビット割り当て技術を用いてＲＯＩエンコーディング技術の全体のビデオフィデリティーを比較するグラフであり、フレーム番号対ＰＳＮＲをプロットする。図３１は毎秒４０キロビット（ｋｐｓ）のエンコーディングレートで種々のビット割り当て技術を用いてＲＯＩエンコーディング技術のＲＯＩビデオフィデリティーを比較するグラフであり、フレーム番号対ＲＯＩにおけるＰＳＮＲをプロットする。図３２は、毎秒４０キロビット（ｋｐｓ）のエンコーディングレートで、種々のビット割り当て技術を用いてＲＯＩエンコーディング技術の非ＲＯＩビデオフィデリティーを比較するグラフであり、フレーム番号対非ＲＯＩＰＳＮＲをプロットする。

図２９−３２において、非ＲＯＩスキッピングを有した重み付けされたビット割り当ては参照符号１６４により示され、グリーディアルゴリズムは参照符号１６６により示され、コンスタントＱＰアルゴリズムは参照符号１６８により示される。コンスタントＱＰアルゴリズムは、フレーム内のすべてのＭＢｓに同一量子化方法が割り当てられるフレームレベルのみのレート制御アルゴリズムである。グリーディアルゴリズムは上に記述され、ＭＢレベルで動作する。フレームスキッピングアルゴリズムは、交代ベースで１つおきのフレームのコンテンツをエンコードすることを回避するために標準フレームスキッピングを適用し、ＲＯＩエリアと非ＲＯＩエリアの両方をスキップする。非ＲＯＩスキッピングと伴わない重み付けされたビット割り当てと、適応フレームスキッピング（「提案されたアプローチ」）を有した重み付けされたビット割り当てが上に記載された。

図２８は、提案されたアプローチが、全体のビットレートレンジ内のすべての他のアプローチより効率がよく、性能利得は２ｄＢまでであることを示す。図２９−３２において、提案されたアプローチ、グリーディアルゴリズムおよびコンスタントＱＰアルゴリズムのフレームレベル詳細が明示される。

図３３は、エンコーディングレートのレンジに対して他の例示ビデオシーケンスのための種々のビット割り当て技術を用いてＲＯＩエンコーディング技術の全体の知覚品質を比較するグラフである。特に、図３３は、標準フォーマンビデオテストシーケンスの最初の１８０フレームにわたってレート対知覚ＰＳＮＲをプロットする。図３３において、参照符号１５４、１５６、１５８、１６０、および１６２は、それぞれフレームスキッピングアプローチ、非ＲＯＩスキッピングを有した重み付けされたビット割り当てアプローチ、グリーディアルゴリズム、コンスタントＱＰアルゴリズム、および非ＲＯＩスキッピングを伴わない重み付けされたビット割り当てアプローチのアプリケーションを表す曲線を同定する。

図３３において示されるように、フレームスキッピングアプローチは、自動車電話シーケンスと同様に実行しない。なぜなら、フォーマンシーケンスの顔は自動車電話シーケンスに比べてより大きな運動を含むからである。結果として、フレームスキッピングは、フォーマンシーケンスにおいて過度の量のＲＯＩ情報を見逃す。とりわけ、適応非ＲＯＩスキッピングを有する重み付けされたビット割り当ての提案されたアプローチは、図３３に明示されるようにフォーマンシーケンスに対して非常によく実行する。

この開示において、テレビ電話またはビデオストリーミングアプリケーション、特に、例えば無線テレビ電話において非常に低いビットレートで定時されるときＲＯＩコーディングをサポートするために種々の技術が記載された。その開示は、ＲＯＩビデオコーディングのためのρ領域において２つの異なる最適な重み付けされたビット割り当てスキームを提供する。その開示は、また重み付けされたビット割り当てモデルと共同して動作することができ、より良い性能を得る適応非ＲＯＩ（「バックグラウンド」）スキッピングを提供する。さらに、この開示は、ＲＯＩビデオの品質を測定するためのビデオ品質メトリックを提供する。ＲＯＩ品質メトリックは、ＲＯＩにおけるユーザーし好、ビデオフィデリティー、空間知覚品質、および一時的な知覚品質を共同で考察することにより、最適化されたビット割り当て技術をガイドし、より良い主観的なビジュアル品質を生成するために使用することができる。ＲＯＩ品質メトリックは、主観的知覚品質要件を満足するためにコーディングパラメーターをバイアスするためにユーザー相互作用をイネーブルにする。

ここに記載された技術は、ハードウエア、ソフトウエア、ファームウエアまたはそれらの任意の組み合わせにおいて実施されてもよい。ソフトウエアで実施されるなら、この技術は、実行されると、上述した１つ以上の方法を実行する命令を含むプログラムコードを備えたコンピューター読み取り可能媒体により一部分実現されてもよい。この場合、コンピューター読み取り可能媒体は、シンクロナスダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）のようなランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的に消去可能なプログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、フラッシュメモリ（登録商標）、磁気または光学のデータ記憶媒体等を備えていてもよい。

プログラムコードは、１つ以上のデジタルシグナルプロセッサー（ＤＳＰｓ）、汎用マイクロプロセッサー、特定用途向け集積回路（ＡＳＩＣｓ）、フィールドプログラマブルゲートアレイ、または他の等価な集積されたまたはディスクリートな論理回路のような１つ以上のプロセッサーにより実行されてもよい。いくつかの実施形態において、ここに記載された機能性は、エンコーディングおよびデコーディングのために構成された専用のソフトウエアモジュールまたはハードウエアユニット内で提供されてもよいしまたは結合されたエンコーダー−デコーダー（ＣＯＤＥＣ）に内蔵されてもよい。

種々の実施形態が記載された。これらのおよび他の実施形態は以下のクレームの範囲内にある。
以下に他の実施形態を示す。
［１］先行フレームのビデオフィデリティ、先行フレームの知覚品質、および関心領域のユーザし好に基いて、関心領域を含むエンコードされたビデオフレームのための品質測定法を発生することを備えた方法。
［２］前記知覚品質は先行フレームのための一時的な品質値と空間品質値を含む、［１］の方法。
［３］前記一時的な品質値は、関心領域のための第１の一時的な品質値と関心領域内にないエリアのための第２の一時的な品質値を含む、［２］の方法。
［４］前記空間品質値は、関心領域のための第１の空間品質値と関心領域にないエリアのための第２の空間品質値を含む、［２］の方法。
［５］前記空間品質値は、先行フレーム内のブロッキングアーティファクトの存在に少なくとも一部分基いており、前記一時的な品質値は、先行フレーム内の一時的なフリッカーアーティファクトの存在に少なくとも一部分基いている、［２］の方法。
［６］前記ビデオフィデリティは、前記先行するビデオフレームのためのピーク信号対雑音比に少なくとも一部分基いた歪み値を含む、［１］の方法。
［７］少なくとも一部分前記品質測定法に基いて関心領域と、関心領域内にないビデオフレームのエリアとの間にエンコーディングビットを割り当てることをさらに備えた、［１］の方法。
［８］前記エンコーディングビットを割り当てることは、フレーム量、および関心領域内のマクロブロックと、関心領域内にないビデオフレームのエリア内のマクロブロックとの間の重み付けに基いてフレーム内のマクロブロックにロー領域値を割り当てることと、多数のエンコーディングビットをマクロブロックの各々に割り当てるために対応する量子化パラメータ（ＱＰ）値にロー領域値をマッピングすることとを含む、［７］の方法。
［９］前記品質測定法、ビデオフレームのために利用可能なエンコーディングビットの数を指定するレート量、および関心領域にないエリアのエンコーディングがスキップされるかどうかの表示に基いて、関心領域と関心領域内にないビデオフレームのエリアとの間にエンコーディングビットを割り当てることをさらに備えた、［１］の方法。
［１０］連続するフレームをフレームユニットにグループ化することと、それぞれのフレームに関連する関心領域をエンコードすることと、フレームユニット内のフレームの少なくとも１つに対してそれぞれの関心領域内にないエリアのエンコーディングをスキップすることとをさらに備えた、［１］の方法。
［１１］先行フレームユニットに関連する歪み値がしきい値未満のとき、前記フレームの少なくとも１つに対してそれぞれの関心領域内にないエリアのエンコーディングを選択的にスキップすることをさらに備えた、［１０］の方法。
［１２］前記ユーザし好は、ユーザによる関心領域のビジュアル品質に置かれた値を示す、［１］の方法
［１３］関心領域を含むビデオフレームをエンコードするビデオエンコーダと、
先行フレームのビデオフィデリティ、先行フレームの知覚品質、および関心領域のユーザし好に基いて前記ビデオフレームのための品質測定法を発生する品質測定法計算機と、
を備えた装置。
［１４］前記知覚品質は、先行フレームのための一時的な品質値と空間品質値を含む、［１３］の装置。
［１５］前記一次品質値は、関心領域のための第１の一時的な品質値と関心領域内にないエリアのための第２の一時的な品質値を含む、［１４］の装置。
［１６］前記空間品質値は、関心領域のための第１の空間品質値と関心領域内にないエリアのための第２の空間品質値を含む、［１４］の装置。
［１７］前記空間品質値は先行フレームにおけるブロッキングアーティファクトの存在に少なくとも一部分基いており、前記一時的な品質値は、先行フレーム内の一時的なフリッカーアーティファクトの存在に少なくとも一部分基いている、［１４］の装置。
［１８］前記ビデオフィデリティは、先行ビデオフレームのためのピーク信号対雑音比に少なくとも一部分基いた歪み値を含む、［１３］の装置。
［１９］少なくとも一部分前記品質測定法に基いて関心領域と関心領域内にないエリアとの間にエンコーディングビットを割り当てるビット割り当てモジュールをさらに備えた、［１３］の装置。
［２０］前記ビット割り当てモジュールは、フレーム量と、関心領域内のマクロブロックと関心領域内にないビデオフレームのエリア内のマクロブロックとの間の重み付けとに基いて、前記フレーム内のマクロブロックにロー領域値を割り当て、多数のエンコーディングビットをマクロブロックの各々に割り当てるために対応する量子化パラメータ（ＱＰ）値にロー領域値をマップする、［１９］の装置。
［２１］品質測定法、ビデオフレームのために利用可能なエンコーディングビットの数を指定するレート量と、関心領域内にないエリアのエンコーディングがスキップされるかどうかの表示とに基いて、関心領域と関心領域内にない前記ビデオフレームのエリアとの間にエンコーディングビットを割り当てるビット割り当てモジュールをさらに備えた、［１３］の装置。
［２２］前記ビデオエンコーダに、連続するフレームをフレームユニットにグループ化し、前記それぞれのフレームに関連する関心領域をエンコードし、前記フレームユニット内の前記フレームの少なくとも１つに対してそれぞれの関心領域内にない前記ビデオフレームのエリアのエンコーディングをスキップするように命令するスキッピングモジュールをさらに備えた、［１３］の装置。
［２３］先行フレームユニットに関連する歪み値がしきい値未満であるとき、前記スキッピングモジュールは、前記ビデオエンコーダに、前記フレームの少なくとも１つに対してそれぞれの関心領域にない前記ビデオフレームのエリアのエンコーディングを選択的にスキップするように命令する、［２２］の装置。
［２４］無線通信チャネルを介して前記エンコードされたビデオフレームを送信する無線送信機をさらに備え、前記装置は、モバイルテレビ電話をサポートするように構成される、［１３］の装置。
［２５］前記ユーザし好は、ユーザによる関心領域のビジュアル品質に置かれた値を示す、［１３］の装置。
［２６］先行フレームのビデオフィデリティ、前記先行フレームの知覚品質、および前記関心領域のためのユーザし好に基いて関心領域を含むエンコードされたビデオフレームのための品質測定法をプロセッサに発生させる命令を備えたコンピュータ読み取り可能媒体。
［２７］前記知覚品質は先行フレームのための一時的な品質値と空間品質値を含む、［２６］のコンピュータ読み取り可能媒体。
［２８］前記一時的な品質値は、関心領域のための第１の一時的な品質値と前記関心領域内にないエリアのための第２の一時的な品質値とを含む、［２７］のコンピュータ読み取り可能媒体。
［２９］前記空間品質値は、関心領域のための第１の空間品質値と前記関心領域内にないエリアのための第２の空間品質値を含む、［２７］のコンピュータ読み取り可能媒体。
［３０］前記空間品質値は、前記先行フレーム内のブロッキングアーティファクトの存在に少なくとも一部分基いており、前記一時的な品質値は、前記先行フレーム内の一時的なフリッカーアーティファクトの存在に少なくとも一部分基いている、［２７］のコンピュータ読み取り可能媒体。
［３１］前記ビデオフィデリティーは前記先行ビデオフレームのためのピーク信号対雑音比に少なくとも一部分基いた歪み値を含む、［２６］のコンピュータ読み取り可能媒体。
［３２］少なくとも一部分前記品質測定法に基いて前記関心領域と前記関心領域内にない前記ビデオフレームのエリアとの間にエンコーディングビットをプロセッサに割り当てさせるための命令をさらに備えた、［２６］のコンピュータ読み取り可能媒体。
［３３］前記命令は、フレーム量と、関心領域内のマクロブロックと関心領域内にない前記ビデオフレームのエリア内のマクロブロックとの間の重みづけに基いて、前記プロセッサーに前記フレーム内のマクロブロックにロー領域値を割り当てさせ、多数のエンコーディングビットを前記マクロブロックの各々に割り当てるために対応する量子化パラメーター（ＱＰ）値にロー領域値を前記プロセッサにマップさせる、［３２］のコンピューター読み取り可能媒体。
［３４］前記命令は、前記プロセッサに、品質測定法、前記ビデオフレームのために利用可能なエンコーディングビットの数を指定するレート量、前記関心領域内にないエリアのエンコーディングがスキップされるかどうかの表示に基いて関心領域と関心領域内にない前記ビデオフレームのエリアとの間にエンコーディングビットを割り当てさせる、［２６］のコンピュータ読み取り可能媒体。
［３５］プロセッサに連続フレームをフレームユニットにグループ化させ、それぞれのフレームに関連する関心領域をエンコードさせ、前記フレームユニット内の前記フレームの少なくとも１つに対してそれぞれの関心領域内にないエリアのエンコーディングをスキップさせる命令をさらに備えた、［２６］のコンピュータ読み取り可能媒体。
［３６］先行フレームユニットに関連する歪み値がしきい値未満であるとき、前記フレームの少なくとも１つに対してそれぞれの関心領域内にないエリアのエンコーディングを選択的にプロセッサにスキップさせるための命令をさらに備えた、［３５］のコンピューター読み取り可能媒体。
［３７］前記ユーザし好は、ユーザにより関心領域のビジュアル品質に置かれた値を示す、［２６］のコンピュータ読み取り可能媒体。

Claims

ビデオ符号化システムが、関心領域を含む符号化されたビデオフレームに関する品質メトリック(metric)を、先行フレームのビデオフィデリティ(video fidelity)、前記先行フレームの知覚品質、および前記関心領域のユーザ選好に基づいて発生すること、ここにおいて、前記ユーザ選好は、前記ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示し、前記知覚品質は、前記先行フレームに関する時間品質値と空間品質値であり、前記時間品質値は、前記先行フレーム内の時間的フリッカアーチファクト(temporal flicker artifacts)の存在に基づき、前記空間品質値は、前記先行フレーム内のブロッキングアーチファクト(blocking artifacts)の存在に基づく、
を具備する方法であって、前記方法はさらに、
前記ビデオ符号化システムが、前記品質メトリックに少なくとも一部分基づいて、前記関心領域と、前記関心領域内に無い前記ビデオフレームの領域とに、符号化ビットを割り当てること、
を具備し、さらに、
前記ビデオ符号化システムが、ビデオフレーム内の各マクロブロックに関するノンゼロ量子化ＡＣ係数の数を、前記ビデオフレームのフレーム量、および前記関心領域内のマクロブロックと前記関心領域内に無いマクロブロックとの間の重みづけに基づいて計算すること、
を具備し、前記ビデオ符号化システムが、ビデオフィデリティ、知覚品質、およびユーザ選好に基づいて、符号化されたビデオフレームに関する品質メトリックを発生する、方法。
前記時間品質値は、前記関心領域に関する第１の時間品質値、および前記関心領域内に無い領域に関する第２の時間品質値である、請求項１の方法。
前記空間品質値は、前記関心領域に関する第１の空間品質値と、前記関心領域内に無い領域に関する第２の空間品質値とを含む、請求項１の方法。
前記ビデオフィデリティは、前記先行ビデオフレームに関するピーク信号対雑音比に少なくとも一部分基づいた歪値を含む、請求項１の方法。
前記符号化ビットを割り当てることは、
前記ビデオ符号化システムが、フレーム量、および前記関心領域内のマクロブロックと前記関心領域内に無い前記ビデオフレームの領域内のマクロブロックとの間の重み付けに基づいて、前記フレーム内のマクロブロックに前記ノンゼロ量子化ＡＣ係数の数を割り当てることと、
前記ビデオ符号化システムが、マクロブロックの値における前記ノンゼロ量子化ＡＣ係数の数を、対応する量子化パラメータ（ＱＰ）値にマッピングして、前記マクロブロックの各々に符号化ビットの数を割り当てることと、
を含む、請求項１の方法。
前記品質メトリックは、
前記ビデオフレームに利用可能な符号化ビットの数を指定するレート量と、
前記関心領域内に無い領域の符号化がスキップされるか否かの表示と、
を具備する、請求項１の方法。
前記ビデオ符号化システムが、
連続フレームをフレームユニットにグループ化することと、
それぞれのフレームに関連した関心領域を符号化することと、
前記フレームユニット内の前記フレームの少なくとも１つに関するそれぞれの関心領域内に無い領域の符号化をスキップすることと、
をさらに具備する、請求項１の方法。
前記ビデオ符号化システムが、前記先行フレームの知覚品質がしきい値未満であるとき、前記フレームの少なくとも１つに関するそれぞれの関心領域内に無い領域の符号化を選択的にスキップすることをさらに具備する、請求項７の方法。
前記ビデオ符号化システムが、ユーザからのユーザ選好値としてユーザ選好を取得することをさらに具備し、前記ユーザ選好は、前記ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示す、請求項１の方法。
前記符号化されたビデオフレームは、第１のビデオフレームであり、前記方法は、前記符号化ビットの割り当てに基づいて第２のビデオフレームを符号化することをさらに具備する、請求項１の方法。
関心領域を含むビデオフレームを符号化し、ビデオフレーム内の各マクロブロックに関するノンゼロ量子化ＡＣ係数の数を、前記ビデオフレームのフレーム量、および前記関心領域内のマクロブロックと前記関心領域内に無いマクロブロックとの間の重みづけに基づいて計算するビデオエンコーダと、
前記ビデオフレームに関する品質メトリックを、先行フレームのビデオフィデリティと、先行フレームの知覚品質と、前記関心領域のユーザ選好とに基づいて発生する品質メトリック計算機と、ここにおいて、前記ユーザ選好は、前記ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示し、前記知覚品質は、前記先行フレームに関する時間品質値と空間品質値であり、前記時間品質値は、前記先行フレーム内の時間的フリッカアーチファクト(temporal flicker artifacts)の存在に基づき、前記空間品質値は、前記先行フレーム内のブロッキングアーチファクト(blocking artifacts)の存在に基づく、
を具備する装置であって、前記装置はさらに、前記品質メトリックに少なくとも一部分基づいて、前記関心領域と、前記関心領域内に無い領域とに、符号化ビットを割り当てるビット割り当てモジュールを具備し、
前記品質メトリック計算機は、ビデオフィデリティ、知覚品質、およびユーザ選好に基づいて、符号化されたビデオフレームに関する品質メトリックを発生する、装置。
前記時間品質値は、前記関心領域に関する第１の時間品質値と、前記関心領域内に無い領域に関する第２の時間品質値とを含む、請求項１１の装置。
前記空間品質値は、前記関心領域に関する第１の空間品質値と、前記関心領域内に無い領域に関する第２の空間品質値とを含む、請求項１１の装置。
前記ビデオフィデリティは、前記先行ビデオフレームに関するピーク信号対雑音比に少なくとも一部分基づいた歪値である、請求項１１の装置。
前記ビット割り当てモジュールは、フレーム量、および前記関心領域内のマクロブロックと前記関心領域内に無い前記ビデオフレームの領域内のマクロブロックとの間の重み付けに基づいて、前記フレーム内のマクロブロックにマクロブロックの値における前記ノンゼロ量子化ＡＣ係数の数を割り当て、前記ノンゼロ量子化ＡＣ係数の数を、対応する量子化パラメータ（ＱＰ）値にマッピングして、符号化ビットの数を前記マクロブロックの各々に割り当てる、請求項１１の装置。
前記品質メトリックは、前記ビデオフレームに利用可能な符号化ビットの数を指定するレート量と、前記関心領域内に無い領域の符号化がスキップされるか否かの表示とを具備する、請求項１１の装置。
連続フレームをフレームユニットにグループ化し、それぞれのフレームに関連した関心領域を符号化し、前記フレームユニット内の前記フレームの少なくとも１つに関するそれぞれの関心領域内に無い前記ビデオフレームの領域の符号化をスキップするように、前記ビデオエンコーダに指示するスキッピングモジュールをさらに具備する、請求項１１の装置。
前記スキッピングモジュールは、前記先行フレームの知覚品質がしきい値未満であるとき、前記フレームの少なくとも１つに関するそれぞれの関心領域内に無い前記ビデオフレームの領域の符号化を選択的にスキップするように、前記ビデオエンコーダに指示する、請求項１７の装置。
無線通信チャネルを介して前記符号化されたビデオフレームを送信する無線送信機を更に具備し、前記装置は、モバイルビデオテレフォニイ(mobile video telephony)をサポートするように構成されている、請求項１１の装置。
ユーザから前記ユーザ選好を取得するユーザ選好入力装置をさらに具備する、請求項１１の装置。
前記装置は、集積回路装置を具備する、請求項１１の装置。
前記符号化ビデオフレームは、第１のビデオフレームであり、前記ビデオエンコーダは、前記符号化ビットの割り当てに基づいて第２のビデオフレームを符号化する、請求項１１の装置。
プロセッサに、関心領域を含む符号化されたビデオフレームに関する品質メトリックを、先行フレームのビデオフィデリティと、前記先行フレームの知覚品質と、前記関心領域に関するユーザ選好とに基づいて発生させる命令、ここにおいて、前記ユーザ選好は、前記ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示し、前記知覚品質は、前記先行フレームに関する時間品質値と空間品質値であり、前記時間品質値は、前記先行フレーム内の時間的フリッカアーチファクト(temporal flicker artifacts)の存在に基づき、前記空間品質値は、前記先行フレーム内のブロッキングアーチファクト(blocking artifacts)の存在に基づく、
を具備するコンピュータ読み取り可能記録媒体であって、さらに、
前記プロセッサに、前記品質メトリックに少なくとも一部分基づいて、前記関心領域と、前記関心領域内に無い前記ビデオフレームの領域とに、符号化ビットを割り当てさせる命令、
を具備し、さらに、
ビデオフレームにおける各マクロブロックに関するノンゼロ量子化ＡＣ係数の数を、前記ビデオフレームのフレーム量、および前記関心領域内のマクロブロックと前記関心領域内に無いマクロブロックとの間の重みづけに基づいて計算する命令、
を具備し、さらに、
符号化されたビデオフレームに関する品質メトリックが、ビデオフィデリティと、知覚品質と、ユーザ選好とに基づいて発生される命令、
を具備するコンピュータ読み取り可能記録媒体。
前記時間品質値は、前記関心領域に関する第１の時間品質値と、前記関心領域内に無い領域に関する第２の時間品質値とを含む、請求項２３のコンピュータ読み取り可能記録媒体。
前記空間品質値は、前記関心領域に関する第１の空間品質値と、前記関心領域内に無い領域に関する第２の空間品質値とを含む、請求項２３のコンピュータ読み取り可能記録媒体。
前記ビデオフィデリティは、前記先行ビデオフレームに関するピーク信号対雑音比に少なくとも一部分基づいた歪値である、請求項２３のコンピュータ読み取り可能記録媒体。
前記命令は、前記プロセッサに、フレーム量、および前記関心領域内のマクロブロックと前記関心領域内に無い前記ビデオフレームの領域内のマクロブロックとの間の重み付けに基づいて、前記フレーム内のマクロブロックにマクロブロックの値におけるノンゼロ量子化ＡＣ係数の数を割り当てさせ、前記ノンゼロ量子化ＡＣ係数の数を、対応する量子化パラメータ（ＱＰ）値にマッピングして、符号化ビットの数を前記マクロブロックの各々に割り当てさせる、請求項２６のコンピュータ読み取り可能記録媒体。
前記品質メトリックは、前記ビデオフレームに利用可能な符号化ビットの数を指定するレート量と、前記関心領域内に無い領域の符号化がスキップされるか否かの表示とを具備する、請求項２３のコンピュータ読み取り可能記録媒体。
前記プロセッサに、
連続するフレームをフレームユニットにグループ化させ、
それぞれのフレームに関連した関心領域を符号化させ、
前記フレームユニット内の前記フレームの少なくとも１つに関するそれぞれの関心領域内に無い領域の符号化をスキップさせる、
命令を更に具備する、請求項２３のコンピュータ読み取り可能記録媒体。
前記プロセッサに、
前記先行フレームの知覚品質がしきい値未満のとき、前記フレームの少なくとも１つに関してそれぞれの関心領域内に無い領域の符号化を選択的にスキップさせる、
命令を更に具備する、請求項２８のコンピュータ読み取り可能記録媒体。
前記プロセッサに、ユーザからのユーザ選好値として前記ユーザ選好を取得させるための命令をさらに具備し、前記ユーザ選好値は、前記ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示す、請求項２９のコンピュータ読み取り可能記録媒体。
前記符号化されたビデオフレームは、第１のビデオフレームであり、前記コンピュータ読み取り可能記録媒体は、前記プロセッサに、前記符号化ビットの割り当てに基づいて第２のビデオフレームを符号化させる命令をさらに具備する、請求項２３のコンピュータ読み取り可能記録媒体。
符号化されたビデオフレームに関する関心領域を定義し、ビデオフレーム内の各マクロブロックに関するノンゼロ量子化ＡＣ係数の数を、前記ビデオフレームのフレーム量、および前記関心領域内のマクロブロックと前記関心領域内に無いマクロブロックとの間の重みづけに基づいて計算する手段と、
前記関心領域を含む前記符号化されたビデオフレームに関する品質メトリックを、先行フレームのビデオフィデリティ(video fidelity)と、先行フレームの知覚品質と、前記関心領域に関するユーザ選好とに基づいて発生する手段と、ここにおいて、前記ユーザ選好は、前記ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示し、前記知覚品質は、前記先行フレームに関する時間品質値と空間品質値であり、前記時間品質値は、前記先行フレーム内の時間的フリッカアーチファクト(temporal flicker artifacts)の存在に基づき、前記空間品質値は、前記先行フレーム内のブロッキングアーチファクト(blocking artifacts)の存在に基づく、
を具備する装置であって、前記装置はさらに、
ユーザからのユーザ選好値として前記ユーザ選好を取得する手段と、ここにおいて、前記ユーザ選好値は、ユーザによって入力された、前記ユーザの観点からの前記関心領域に対する重要度を示す、
前記品質メトリックに少なくとも一部分基づいて、前記関心領域と、前記関心領域内に無い領域とに、符号化ビットを割り当てる手段と、
を具備し、符号化されたビデオフレームの品質メトリックが、ビデオフィデリティ、知覚品質、およびユーザ選好に基づいて発生される、装置。
前記時間品質値は、前記関心領域に関する第１の時間品質値と、前記関心領域内に無い領域に関する第２の時間品質値とを含む、請求項３３の装置。
前記空間品質値は、前記関心領域に関する第１の空間品質値と、前記関心領域内に無い領域に関する第２の空間品質値とを含む、請求項３３の装置。
前記ビデオフィデリティは、前記先行ビデオフレームに関するピーク信号対雑音比に少なくとも一部分基づいた歪値を含む、請求項３３の装置。
前記符号化ビデオフレームは、第１のビデオフレームであり、前記装置は、前記割り当てられたビットに基づいて第２のビデオフレームを符号化する手段を更に具備する、請求項３３の装置。
フレーム量、および前記関心領域内のマクロブロックと前記関心領域内に無い前記ビデオフレームの領域内のマクロブロックとの間の重み付けに基づいて、前記フレーム内のマクロブロックに前記ノンゼロ量子化ＡＣ係数の数を割り当て、前記ノンゼロ量子化ＡＣ係数の数を、対応する量子化パラメータ（ＱＰ）値にマッピングして、符号化ビットの数を前記マクロブロックの各々に割り当てる手段をさらに具備する、請求項３３の装置。
前記品質メトリックは、前記ビデオフレームに利用可能な符号化ビットの数を指定するレート量と、前記関心領域内に無い領域の符号化がスキップされるか否かの表示とを具備する、請求項３３の装置。
連続フレームをフレームユニットにグループ化し、それぞれのフレームに関連した関心領域を符号化し、前記フレームユニット内の前記フレームの少なくとも１つに関するそれぞれの関心領域内に無い前記ビデオフレームの領域の符号化をスキップする手段をさらに具備する、請求項３３の装置。
前記先行フレームの知覚品質がしきい値未満であるとき、前記フレームの少なくとも１つに関するそれぞれの関心領域内に無い領域の符号化を選択的にスキップする手段をさらに具備する、請求項３３の装置。
請求項１乃至１０のいずれか一項に記載の方法をコンピュータに実行させるプログラム。
請求項１乃至１０のいずれか一項に記載の方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記憶装置。