JP2009512283A

JP2009512283A - ビデオ・フレームの動きに基づいた自動関心領域検出

Info

Publication number: JP2009512283A
Application number: JP2008534758A
Authority: JP
Inventors: ワン、ハオホン; クアン、シュシェ; エル−マレー、クハレド・ヘルミ; チウ、チンチュアン・アンドリュー; ジャン、シャオユン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-10-05
Filing date: 2006-10-05
Publication date: 2009-03-19
Anticipated expiration: 2026-10-05
Also published as: EP1932095A2; KR20080064856A; US8019170B2; KR100997061B1; JP4801164B2; WO2007044672A3; WO2007044672A2; US20070076957A1

Abstract

本開示は、ビデオ系列のビデオ・フレーム内の低複雑性自動関心領域（ＲＯＩ）検出に基づいたＲＯＩビデオ処理のための技術に向けられる。低複雑性自動ＲＯＩ検出は、ビデオ通信デバイス内部のビデオ・センサの特性に基づくことができる。別のケースでは、低複雑性自動ＲＯＩ検出は、あるビデオ・フレームとビデオ系列の別のビデオ・フレームとに関する動き情報に基づくことができる。本開示技術は、特定のビデオ・センサの特性に基づいてビデオ通信デバイス内のビデオ・センサ校正、カメラ処理、ＲＯＩ検出、及びＲＯＩビデオ処理を調整することそして高めることが可能なビデオ処理技術を含む。本開示技術は、しかもセンサに基づくＲＯＩ検出技術を含み、それはＲＯＩ検出精度を向上させるためにビデオ・センサ統計値とカメラ処理の副次的情報とを使用する。本開示技術は、同様に、動きに基づくＲＯＩ検出技術を含み、それはビデオ処理の際の動き推定の間に得られる動き情報を使用する。

Description

関連文献

本出願は、米国特許仮出願番号第６０／７２４，１３０号、２００５年１０月５日出願、に優先権を主張する。

本開示は、ビデオ・フレーム内の関心領域（ＲＯＩ：region-of-interest）検出に係り、そして特に、マルチメディア・アプリケーションのためにビデオ・フレーム内でＲＯＩを自動的に検出するための技術に関する。

ビデオ系列のビデオ・フレーム内の自動関心領域（ＲＯＩ）検出は、広い範囲のマルチメディア・アプリケーション、例えば、ビデオ監視、ビデオ同報通信、及びテレビ電話（ＶＴ：video telephony）アプリケーション、に対するＲＯＩビデオ処理システムにおいて使用されることができる。ある複数のケースでは、ＲＯＩビデオ処理システムは、ＲＯＩビデオ・コーディング・システムであり得る。別のケースでは、ＲＯＩビデオ処理システムは、ＲＯＩビデオ強調システム、又は別のタイプのビデオ処理システムを備えることができる。ＲＯＩは、ビデオ・フレーム内の“前景”エリアとして呼ばれることができ、そして非ＲＯＩエリアは、そのビデオ・フレーム内の“背景”エリアとして呼ばれることができる。ＲＯＩの典型的な例は、人物の顔である。ＲＯＩビデオ処理システムは、ビデオ・フレーム内の非ＲＯＩエリアに比較してビデオ系列のビデオ・フレームから検出されるＲＯＩを選択的に利用することができる。

ＲＯＩビデオ・コーディング・システムのケースでは、ビデオ系列のビデオ・フレーム内の選択された部分の選択的なエンコーディングが、提案されてきている。例えば、ビデオ・フレーム内で自動的に検出されるＲＯＩは、テレビ電話（ＶＴ）アプリケーションにおいて受信者への送信のために高い品質でエンコードされることがある。移動体ＶＴのような、非常に低ビット・レートのアプリケーションでは、ＲＯＩ選択的エンコーディングは、エンコードされたビデオ系列の本質的な品質を改善することができる。ＲＯＩの選択的エンコーディングを用いて、受信者は、非ＲＯＩ領域よりももっと明瞭にＲＯＩを見ることが可能である。ビデオ・フレームのＲＯＩは、ビデオ・フレームの非ＲＯＩ、すなわち背景、エリアに対してよりもＲＯＩにエンコーディング・ビットのより多くの部分を割り当てることによって選択的にエンコードされることができる。ビデオ・フレームの非ＲＯＩエリアをスキップすることは、ＲＯＩへの割り当てのためにエンコーディング・ビットを保存することを可能にする。前のフレームのエンコードされた非ＲＯＩエリアは、現在のフレーム中のスキップされた非ＲＯＩエリアに置き換えられることができる。

ビデオ取込みデバイスから受け取られるビデオ・フレームは、ＲＯＩ可能なビデオ・エンコーダ、ＲＯＩ可能なビデオ・エンハンサ、又は同種のマルチメディア・デバイスに適用される前に一般的に処理される。例えば、ビデオ処理方式は、ビデオ・フレーム内のＲＯＩを自動的に検出することができる。従来、ＲＯＩ可能なビデオ通信システムの急速な発達と広い展開を妨げる主なハードルは、自動ＲＯＩ検出のエラーに対する強さである。ある自動ＲＯＩ検出方式は、顔の検出に対して単純な肌−色調（skin-tone）に基づいたアプローチを提案し、それは入力ビデオ画像のクロミナンス成分から導かれる肌−色調マップに基づく肌−色（skin-color）の外観を有するピクセルを検出する。別の方式は、顔検出のための色バイアスを補正するために照明効果補償モデルを提案する。それに加えて、自動ＲＯＩ検出方式は、顔の候補を検証するために、又は固有マスク（eigenmasks）を使用するために、目、口、及び境界マップを構成することができ、その固有マスクはＲＯＩ検出精度を向上させるために人物の顔の重要な顔の特徴のところに大きな等級を有する。

サマリー

一般に、本明細書は、ビデオ系列のビデオ・フレーム内の低複雑性自動ＲＯＩ検出に基づいた関心領域（ＲＯＩ：region of interest）ビデオ処理のための技術に向けられる。低複雑性自動ＲＯＩ検出は、ビデオ通信デバイス内部のビデオ・センサの特性に基づくことができる。例えば、ビデオ・センサは、いわゆるカメラ電話機又はビデオ電話機の内部に存在できる。別のケースでは、低複雑性自動ＲＯＩ検出は、あるビデオ系列のビデオ・フレームとそのビデオ系列の別のビデオ・フレームに関する動き情報に基づくことができる。本技術は、ビデオ・ストリーミング及びテレビ会議のようなテレビ電話（ＶＴ）アプリケーションにおいて有用であることがあり、そして特に、移動体ＶＴのような、低ビット・レート無線通信アプリケーションにおいて有用である。

ＲＯＩビデオ処理は、ＲＯＩの選択的処理を含む。例えば、ＲＯＩビデオ・コーディング・アルゴリズムは、ビデオ・フレーム内のＲＯＩに追加のコーディング・ビットを割り当てることができ、そしてビデオ・フレーム内の非ＲＯＩエリアに少ない数のコーディング・ビットを割り当てることができる。ＲＯＩの代表的な例は、人物の顔である。非ＲＯＩエリアがより一般的にはＲＯＩの部分を形成しないビデオ・フレームの任意のエリアを取り囲むとはいえ、非ＲＯＩエリアは、“背景”エリアとして呼ばれることがある。したがって、用語“非ＲＯＩ”と“背景”とは、ＲＯＩの範囲外であるエリアを呼ぶために本明細書全体を通して互換的に使用されることがある。

開示される技術は、特定のビデオ・センサの特性に基づいて、ビデオ通信デバイス内部でビデオ・センサ校正、カメラ処理、ＲＯＩ検出、及びＲＯＩビデオ処理を調整することそして高めることが可能なビデオ処理技術を含む。そのビデオ処理技術は、別のタイプのビデオ・センサに広く適用可能であり得る。それに加えて、本技術は、順応性のある通信及びビデオ通信デバイス内部の複数の構成要素の間の協業を可能にする。このようにして、開示された技術は、ビデオ・センサに関係する物理的特性と統計値とに基づいてＲＯＩビデオ処理性能を高めることができる。

開示される技術は、センサに基づくＲＯＩ検出技術を同様に含み、それはビデオ・センサ統計値及びカメラ処理の副次的な情報を使用してＲＯＩ検出精度を改善し、それはＲＯＩビデオ処理性能を直接的に高める。例えば、肌領域検出器は、ビデオ・フレーム内の肌マップを正確に検出するためにビデオ・センサ統計値を使用し、そして顔検出器は、そのビデオ・フレーム内の１又はそれより多くの顔を検出するためにその肌マップを使用する。開示される技術は、動きに基づくＲＯＩ検出技術を同様に含み、それはビデオ処理において動き推定の間に得られる動き情報を使用する。例えば、顔検出器は、肌マップ及び動き情報、例えば、動きベクトル、を使用して、その動き情報に基づいて肌マップ内の１又はそれより多くの顔、すなわち、ＲＯＩ、を効率的に抽出する低複雑性顔検出を実行する。

自動ＲＯＩ検出技術は、次に、ビデオ・フレーム内で検出された顔のそれぞれに対してＲＯＩを生成することができる。開示される技術は、生成されたＲＯＩを含んでいるビデオ・フレームをＲＯＩビデオ処理に適用する。例えば、本技術は、ビデオ・フレームをＲＯＩビデオ・コーディング・アルゴリズムに適用することができ、そのアルゴリズムは重み付けビット割り当てと適応背景スキッピングを使用して優れたコーディング効率を提供する。

１つの実施形態では、本明細書は、ビデオ系列のビデオ・フレームの肌マップを受け取ること、及び該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとの動き情報を受け取ることを具備する方法を提供する。本方法は、しかも該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内のＲＯＩとに基づいて該ビデオ・フレーム内のＲＯＩを自動的に検出することを具備する。

別の１つの実施形態では、本明細書は、プログラム可能なプロセッサに、ビデオ系列のビデオ・フレームの肌マップを受け取るように、そして該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとの動き情報を受け取るようにさせる命令を具備する、コンピュータ読取り可能な媒体を提供する。本命令は、しかも、該プログラム可能なプロセッサに、該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内のＲＯＩとに基づいて該ビデオ・フレーム内のＲＯＩを自動的に検出するようにさせる。

さらなる実施形態では、本明細書は、ビデオ系列のビデオ・フレームの肌マップを生成する肌領域検出器、及び該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を生成するＲＯＩビデオ処理モジュールを具備する、ビデオ処理システムを提供する。本システムは、しかも、ＲＯＩ検出器を含み、それは該ビデオ・フレームに関する該肌マップと該動き情報とを受け取り、そして該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内のＲＯＩとに基づいて該ビデオ・フレーム内の該ＲＯＩを自動的に検出する。

本明細書中に記述される複数の技術は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせで与えられることができる。ソフトウェアで与えられる場合には、本技術は、プログラム可能なプロセッサによって実行されるとき、本明細書中に記載した方法のうちの１又はそれより多くを実行する命令を含んでいるプログラム・コードを備えるコンピュータ読み取り可能な媒体によって一部は実現されることができる。

１又はそれより多くの実施形態の詳細は、添付された図面及び以下の説明に記述される。その他の特徴、目的及び利点は、詳細な説明及び図面から、そして特許請求の範囲から明らかにされるであろう。

詳細な説明

図１は、関心領域（ＲＯＩ：region-of-interest）ビデオ処理システム１４を組み込んでいる具体例のビデオ通信デバイス１０を説明するブロック図である。ＲＯＩビデオ処理システム１４は、ビデオ・センサ１２の特性に基づく低複雑性ＲＯＩビデオ処理のための技術を実行する。別のケースでは、ＲＯＩビデオ処理システム１４は、同様にビデオ・フレームに関する動き情報に基づく低複雑性ＲＯＩビデオ処理を実行することができる。図１に示されたように、ビデオ通信デバイス１０は、ビデオ取込みデバイスを含み、それはビデオ・センサ１２、ＲＯＩビデオ処理システム１４、及びビデオ・メモリ１６を含む。ビデオ・センサ１２は、ビデオ・フレームを取り込み、そしてカメラの内部に与えられることができる。低複雑性ＲＯＩビデオ処理技術は、ビデオ通信デバイス１０と別のビデオ通信デバイスとの間の、ビデオ・ストリーミング及びテレビ会議のような、テレビ電話（ＶＴ：video telephony）アプリケーションにおいて有用であり得る。本技術は、移動体ＶＴのような、低ビット・レート無線通信アプリケーションにおいて特に有用であり得る。

ＲＯＩビデオ処理システム１４は、複数の構成要素を含むことができ、例えば、ビデオ・センサ校正モジュール、カメラ処理モジュール、ＲＯＩ検出モジュール、及びＲＯＩビデオ処理モジュール、であり、そのそれぞれは、ＲＯＩビデオ処理性能を高めるためにビデオ・センサ１２のセンサ固有の特性に基づいて調整されることができる。それゆえ、ＲＯＩビデオ処理システム１４は、様々なビデオ・センサの物理的特性及び処理能力に基づいて異なるビデオ取込みデバイスによって生成されるビデオ・フレームを正確に処理することができる。ある複数のケースでは、ＲＯＩビデオ処理システム１４は、ＲＯＩビデオ・コーディング・システムであり得る。別のケースでは、ＲＯＩビデオ処理システム１４は、ＲＯＩビデオ強調システム又は別のタイプのビデオ処理システムを備えることができる。

ＲＯＩビデオ処理システム１４は、ビデオ・センサ１２の特性を使用して、ビデオ・センサ１２から受け取ったビデオ・フレーム内のＲＯＩを自動的に検出し、そしてそのビデオ・フレーム内の非ＲＯＩエリアと比較して検出したＲＯＩを選択的に処理する。検出されたＲＯＩは、ビデオ通信デバイス１０のユーザに関心のあるものであり得る。例えば、ビデオ・フレームのＲＯＩは、人物の顔を含むことができる。ＲＯＩは、ビデオ・フレーム内の“前景”エリアと呼ばれることができ、そして非ＲＯＩエリアは、そのビデオ・フレーム内の“背景”エリアと呼ばれることができる。

ＲＯＩビデオ処理システム１４は、ビデオ・センサ１２の校正を実行し、それはビデオ・センサ１２の肌−色反射率スペクトルとテスティング・ターゲットとの相関に基づくセンサ固有の統計値を生成する。そのテスティング・ターゲットは、例えば、マクベス色チェッカ・チャートであり、ニューヨーク州、ニューウィンザー市のＧｒｅｔａｇＭａｃｂｅｔｈＬＬＣから商業的に利用可能である。ビデオ・センサ１２は、カメラで使用される検出素子のアレイを一般に呼ぶ。ある複数のケースでは、ビデオ・センサ１２は、相補型金属酸化物半導体（ＣＭＯＳ：complementary metal oxide semiconductor）画像検出素子のアレイを含むことができる。

ＲＯＩビデオ処理システム１４は、しかもセンサ固有の統計値及びビデオ取込みデバイス１１に付随するセンサ１２から受け取るビデオ系列のビデオ・フレームに基づいてカメラ処理を実行して、ビデオ・フレームの照明の状態を推定する。ＲＯＩビデオ処理システム１４は、次に、センサ固有の統計値とカメラ処理情報とに基づいてビデオ・フレーム内のＲＯＩを自動的に検出することができる。ある複数のケースでは、ＲＯＩビデオ処理システム１４は、センサ固有の統計値、カメラ処理情報、及び動き情報、例えば、動きベクトル、に基づいてビデオ系列の現在のビデオ・フレーム内のＲＯＩを自動的に検出することができ、その動き情報はビデオ系列の現在のビデオ・フレームと前のビデオ・フレームとの間でＲＯＩを追跡することによってビデオ処理から得られる。

ＲＯＩビデオ処理システム１４は、次に、検出したＲＯＩを含んでいるビデオ・フレームを選択的に処理し、そしてビデオ・メモリ１６にそのビデオ・フレームを記憶する。例えば、ＲＯＩビデオ処理システム１４は、ビデオ・フレーム内の非ＲＯＩエリアと比較してそのビデオ・フレーム内の検出したＲＯＩを選択的にエンコードすることができる。ビデオ系列の各フレームがエンコードされた後で、ビデオ通信デバイス１０は、選択的に処理したＲＯＩを含んでいる出力画像ビットストリームを別のビデオ通信デバイスに送ることができる。

一例として、ＶＴアプリケーションは、テレビ会議のようなアプリケーションをサポートするために、ビデオ情報とオーディオ情報とをユーザが共有することを可能にする。ＶＴシステムでは、ユーザは、ビデオ情報を送りそして受け取ることができるか、ビデオ情報を受け取ることだけができるか、又はビデオ情報を送ることだけができる。ビデオ通信デバイス１０は、適切な送信電子機器、受信電子機器、モデム、及び処理電子機器をさらに含むことができ、有線通信又は無線通信をサポートすることができる。例えば、ビデオ通信デバイス１０は、他の端末との通信のために装備された無線移動端末又は有線端末を備えることができる。

無線移動端末の例は、携帯型無線電話機、携帯型個人ディジタル補助装置（ＰＤＡ：personal digital assistants）、携帯型コンピュータ、又は無線通信能力及びビデオ・エンコーディングそして／又はビデオ・デコーディング能力を装備した別の携帯型デバイスを含む。例えば、ビデオ通信デバイス１０は、ＶＴアプリケーションにおいて使用される、いわゆるカメラ付き電話機又はビデオ電話機を含むことができる。有線端末の例は、デスクトップ・コンピュータ、テレビ電話機、ネットワーク機器、セットトップ・ボックス、双方向テレビ、又はその他を含むことができる。

ビデオ・コーディングの実施形態では、ＲＯＩビデオ処理システム１４は、ビデオ・センサ１２の特性に基づいてビデオ・センサ１２から受け取ったビデオ・フレームから自動的に検出されるＲＯＩを選択的にエンコードすることができる。例えば、ＲＯＩビデオ処理システム１４は、ビデオ・フレームの検出されたＲＯＩに追加のコーディング・ビットを割り当てることができ、そしてビデオ・フレームの非ＲＯＩエリアに少ない数のコーディング・ビットを割り当てることができる。

移動体アプリケーションでは、特に、ビデオ・フレームをエンコードするために利用可能なエンコーディング・ビットの量は、少ないことがありそして無線チャネル条件に応じて変化することがある。したがって、ＲＯＩへのコーディング・ビットの選択的な割当ては、適用可能なビット・レート要求に効果的に適応しつつ、ＲＯＩの視覚的品質を改善させる際に有用であり得る。それゆえ、検出したＲＯＩの選択的エンコーディングを用いて、受信者は、ビデオ・フレームの非ＲＯＩエリアよりもさらに鮮明にそのビデオ・フレームのＲＯＩを見ることが可能である。ビデオ通信デバイス１０は、次に、有線通信チャネル又は無線通信チャネルを経由してエンコードされたビデオ・フレームを別の通信デバイスに送信することができる。

上に説明されたように、ＲＯＩビデオ処理システム１４は、ビデオ系列のビデオ・フレーム内での低複雑性自動ＲＯＩ検出に基づいてＲＯＩビデオ処理を実行するための技術を与えることができる。低複雑性自動ＲＯＩ検出は、ビデオ通信デバイス１０内部のビデオ・センサ１２の特性に基づくことができる。開示された技術は、ビデオ通信デバイス１０に含まれるＲＯＩビデオ処理システム１４内部の構成要素を調整すること及び機能を高めることが可能なビデオ処理技術を含む。例えば、ビデオ処理技術は、ビデオ・センサ１２の特性に基づいて、ビデオ・センサ校正モジュール、カメラ処理モジュール、ＲＯＩ検出モジュール、及びＲＯＩビデオ処理モジュールを調整しそして機能を高めることができる。

本ビデオ処理技術は、別のタイプのビデオ・センサに広く適用可能である。それゆえ、本ビデオ処理技術は、様々なビデオ・センサの物理的な特性と処理能力とに基づいて様々なビデオ取込みデバイスにより生成されるビデオ・フレームを処理するために使用されることができる。それに加えて、本ビデオ処理技術は、順応性のある通信とＲＯＩビデオ処理システム１４中に含まれる複数の構成要素の間の協業とを可能にする。このようにして、開示される技術は、ビデオ・センサ１２の物理的な特性及び統計値に基づいてＲＯＩビデオ処理システム１４の性能を高めることができる。

開示される技術は、しかも自動ＲＯＩ検出技術を含み、それはビデオ・センサ１２の物理的な特性とビデオ・センサ１２からのカメラ処理の副次的情報とを使用する。例えば、そのカメラ処理の副次的情報は、ホワイト・バランス処理情報、色の精度を向上させる色補正処理情報、表示の非線形性を補償する非線形ガンマ処理情報、及び色変換処理情報を含むことができる。色変換処理情報は、ＲＧＢ色空間からＹＣｂＣｒ色空間へ変換するときに生成されることができ、ここで、Ｙはルーマ・チャネルであり、そしてＣｂＣｒはクロマ・チャネルである。自動ＲＯＩ検出技術は、ＲＯＩ検出精度を向上させ、それはＲＯＩビデオ処理システム１４の性能を直接的に高める。例えば、肌領域検出器は、ビデオ・フレーム内の肌マップを正確に検出するためにビデオ・センサ統計値を使用することができ、そして顔検出器は、そのビデオ・フレーム内の１又はそれより多くの顔を検出するためにその肌マップを使用する。

開示される技術は、しかも動きに基づくＲＯＩ検出技術を含み、それはビデオ処理の際に動き推定の間に得られる動き情報を使用する。例えば、顔検出器は、肌マップ及び動き情報、例えば、動きベクトル、を使用して低複雑性顔検出を実行し、それはその動き情報に基づいて肌マップ内の１又はそれより多くの顔、すなわち、ＲＯＩ、を抽出する。

自動ＲＯＩ検出技術は、次に、ビデオ・フレーム内で検出された複数の顔のそれぞれに対するＲＯＩを生成することができる。開示される技術は、それからＲＯＩビデオ処理システム１４中に含まれるビデオ処理モジュールにビデオ・フレーム内の生成されたＲＯＩを適用する。例えば、ビデオ・コーディングのケースでは、ＲＯＩ処理モジュールは、重み付けビット割り当てと適応背景スキッピングとを使用することができて、優れたコーディング効率を与える。ビデオ系列の各フレームが処理された後で、ビデオ通信デバイス１０は、ＲＯＩを含んでいる選択的にコード化されたビデオ・フレームの出力画像ビットストリームを別のビデオ通信デバイスに送ることができる。

ＲＯＩビデオ処理システム１４は、ハードウェア、ソフトウェア、ファームウェア又はそれらの任意の組み合わせで与えられることができる。例えば、ＲＯＩビデオ処理システム１４の様々な態様は、１又はそれより多くのディジタル信号プロセッサ（ＤＳＰ：digital signal processor）、マイクロプロセッサ、用途特定集積回路（ＡＳＩＣ：application specific integrated circuit）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：field programmable gate array）、又はいずれかの別の同等の集積論理回路又は個別論理回路、同様にそのような構成素子の任意の組み合わせの内部に与えられることができる。用語“プロセッサ”は、一般に上記の論理回路のいずれか、単独で又は別の論理回路との組み合わせを呼ぶことができる。ソフトウェアで与えられるとき、ＲＯＩビデオ処理システム１４に帰する機能は、例えば、ランダム・アクセス・メモリ（ＲＡＭ：random access memory）、読み出し専用メモリ（ＲＯＭ：read only memory）、不揮発性ランダム・アクセス・メモリ（ＮＶＲＡＭ：non-volatile RAM）、電気的消去書き込み可能ＲＯＭ（ＥＥＰＲＯＭ：electrically erasable programmable ROM）、フラッシュ・メモリ、磁気媒体、光学的媒体、及びその他のようなコンピュータ読み取り可能な媒体上の命令として組み込まれることができる。

図２Ａと図２Ｂは、ビデオ系列のビデオ・フレーム２０内のＲＯＩ２４と非ＲＯＩエリア２６との定義を説明する図である。図２Ｂの例では、ＲＯＩは、人物の顔ＲＯＩ２４として図示されている。別の実施形態では、ＲＯＩは、長方形のＲＯＩ若しくは丸型又は不定形を有することができる別の非長方形ＲＯＩを備えることができる。ＲＯＩ２４は、ビデオ・フレーム２０中に表された人物の顔２２を含む。非ＲＯＩエリア２６、すなわち、背景は、図２Ｂでは、シェーディングすることにより強調されている。

ＲＯＩ２４は、図１のＲＯＩビデオ処理システム１４中に含まれるＲＯＩ検出モジュールによりビデオ・フレーム２０から自動的に検出されることができる。ＶＴアプリケーションに関して、図１のビデオ通信デバイス１０のようなビデオ通信デバイスは、ＲＯＩビデオ処理システム１４を組み込むことができて、ビデオ・フレーム２０内のＲＯＩ２４を自動的に検出し、そしてビデオ・フレーム２０内の非ＲＯＩエリアに比較してＲＯＩ２４を選択的にエンコードする。そのケースでは、ＲＯＩ２４は、テレビ会議の参加者の顔２２を含むビデオ・フレーム２０の一部を取り囲むことができる。別の例は、ビデオ、例えば、情報を提供するビデオ、若しくはニュース又は娯楽放送、をストリームする際に情報を表している人物の顔の選択的なエンコーディングを含む。ＲＯＩ２４のサイズ、形状、及び位置は、固定であり得るか、又は調節可能であり得る、そして様々な方法で定義されるか、描かれるか、又は調節されることができる。

ＲＯＩ２４は、送信されたビデオ・フレーム２０内の個々のオブジェクト、例えば、人物の顔２２、をビデオの送り手が強調することを可能にする。逆に言えば、ＲＯＩ２４は、受け取ったビデオ・フレーム２０内の所望のオブジェクトをビデオの受け取り手がより鮮明に見ることを可能にする。いずれのケースでも、ＲＯＩオブジェクト２４内の顔２２は、ビデオ・フレーム２０の背景領域のような非ＲＯＩエリア２６に比較してより高い画像品質でエンコードされる。このようにして、ユーザは、顔の表情、唇の動き、目の動き、及びその他をより鮮明に見ることが可能である。ある複数の実施形態では、ＲＯＩ２４は、しかも追加のコーディング・ビットを用いてエンコードされることができだけでなく、エラー検出及び回復力を同様に高められることができる。

図３は、ビデオ系列のＲＯＩ内に表されるオブジェクトの動き／回転の変化及びオブジェクトに関する変形を説明する。特に、図３のフレーム０と１に描かれた人物の頭は、その位置を大きく変える。図３の例では、人物の頭は、フレーム０と比較してフレーム１では傾く。図４は、ビデオ系列のＲＯＩ内の人物についての表情の変化を説明する。特に、フレーム０と１に描かれた人物の口は、実質的に閉じられた位置から広く開いた位置へと変化する。これゆえ、図３と図４は、ビデオ系列のＲＯＩ中の大量の動きのケースを表している。

図５は、低複雑性自動ＲＯＩ検出に基づいてビデオ・フレーム内のＲＯＩを選択的に処理するビデオ通信デバイス１０内部のＲＯＩビデオ処理システムを説明するブロック図である。低複雑性自動ＲＯＩ検出は、ビデオ・センサ１２の特性に基づくことができる。ＲＯＩビデオ処理システム１４は、ビデオ・センサ１２を経由してビデオ取込みデバイス１１からビデオ・フレームを受け取ることができる。ＲＯＩビデオ処理システム１４は、そのビデオ系列の別のフレームとは独立してそして動き情報なしにビデオ系列のモード内ビデオ・フレームを処理することができる。ＲＯＩビデオ処理システム１４は、現在のビデオ・フレームとビデオ・メモリ１６中に記憶されたそのビデオ系列の前のビデオ・フレームとの間のＲＯＩに関する動き情報に基づいてモード間フレームを処理することができる。

図示された実施形態では、ＲＯＩビデオ処理システム１４は、センサ校正モジュール３０、センサ統計値３２、カメラ処理モジュール３４、自動ＲＯＩ検出モジュール３６、及びＲＯＩビデオ処理モジュール４２を含む。センサ統計値３２は、センサ校正プロセスの間にセンサ校正モジュール３０から得られる。カメラ処理モジュール３４とＲＯＩ検出モジュール３６は、センサ統計値３２を使用して、ビデオ・センサ１２を経由してビデオ取込みデバイス１１から受け取られるモード内ビデオ・フレーム内のＲＯＩを正確に検出する。ＲＯＩ検出モジュール３６は、しかもカメラ処理モジュール３４によるカメラ処理の間に検出される、照明状態のような、情報をあてにする。それに加えて、ＲＯＩ検出モジュール３６は、現在のビデオ・フレームと前のビデオ・フレームとの間でＲＯＩビデオ処理モジュール４２によって生成される動き情報、例えば、動きベクトル、を受け取ることができ、モード間フレーム内のＲＯＩ検出を可能にする。

ＲＯＩビデオ処理システム１４では、センサ校正モジュール３０は、特定のビデオ・センサ１２の固有の肌の色統計値を計算する。センサ校正モジュール３０は、様々なビデオ・センサに対するセンサ統計値３２を生成することができ、その結果、ＲＯＩビデオ処理システム１４は、ビデオ通信デバイス１０内部に含まれるいずれかのビデオ・センサに基づいてＲＯＩビデオ処理性能を高めることができる。センサ校正モジュール３０は、ビデオ・センサ３２の肌の色反射率スペクトルとテスティング・ターゲット、例えば、マクベス色チェッカ・チャートのスペクトルの相互関係に基づいてセンサ統計値３２を求める。図６Ａは、ビデオ・センサ３２の具体例の肌の色反射率スペクトルを図示する。図６Ｂは、マクベス色チェッカ・テスティング・ターゲットの具体例の反射率スペクトルを図示する。

肌の色反射率スペクトルが、限られた数のマクベス色チェッカ色パッチの反射率スペクトルの線形の組み合わせによって近似されることができると仮定することができ、例えば：

ここで、Ｋはマクベス色チェッカの反射率スペクトルの数であり、λは波長であり、Ｒ_ｓｋｉｎ（λ）とＲ_ｉ ^{Ｍａｃｈｂｅｔｈ}（λ）は肌の色とｉ番目のマクベス色チェッカ色パッチの対応する反射率であり、そして｛ｂ_ｉ｝（ｉ＝１，２，．．．，Ｋ）は計算されようとしている重み付け係数の集合である。このケースでは、肌の色の対応するＲＧＢ（赤、緑、青）信号は、対応するマクベス色パッチのＲＧＢ信号の同じ線形の組み合わせにより表されることができ、次式の通りである：

ここで、ＲＧＢ_ｓｋｉｎとＲＧＢ_ｉ ^{Ｍａｃｈｂｅｔｈ}は、肌の色とｉ番目のマクベス色チェッカ色パッチの対応するＲＧＢ信号強度値である。

上記の仮定は、所定のセンサとある反射率スペクトルに関して、対応するカメラの生のＲＧＢ信号が次式により理論的に計算されることができるという理由で許容される：

ここで、ＳＳ（λ）、Ｌ（λ）、Ｒ（λ）はセンサ・スペクトル感度関数、光源スペクトル強度分布、及びオブジェクト反射率スペクトルである。それゆえ、式（２）は、式（１）と式（３）とから導出されることが可能である。ビデオ・センサ１２のような特定のセンサに関して、全ての可能性のある重み付け係数｛ｂ_ｉ｝が得られた後で、そしてＲＧＢ_ｉ ^{Ｍａｃｈｂｅｔｈ}値を測定した後で、センサ校正モジュール３０は、式（２）を使用することによりＲＧＢ_ｓｋｉｎの全ての組み合わせを計算することができる。

このようにして、センサ校正モジュール３０は、ＲＯＩ検出モジュール３６内部の肌領域検出器３８による今後の使用のためにビデオ・センサ１２に関するＲＧＢ色空間における肌−色マップを得ることができる。センサ校正モジュール３０は、肌の色反射率スペクトル・データベースを使用して式（１）を解いて可能性のある重み付け係数｛ｂ_ｉ｝を得る。データベースを通して、式（１）で使用されるＲ_ｓｋｉｎ（λ）とＲ_ｉ ^{Ｍａｃｈｂｅｔｈ}（λ）の値は、利用可能であり、そしてそれゆえ、センサ校正モジュール３０は、全ての種類の肌の色に対して対応する｛ｂ_ｉ｝ベクトルを得ることができる。

実験結果は、上記の仮定が妥当であることを示しており、それは肌の色反射率スペクトルが２４のマクベス色チェッカ色パッチの線形の組み合わせへと分解されることが可能であることを意味する。それに加えて、導出された重み付け係数｛ｂ_ｉ｝は、構成された肌の色反射率スペクトルを元々の肌の色スペクトルと成分単位で一致させる。図６Ｃは、具体例の反射率スペクトルを図示し、それは元々の肌の色反射率スペクトルと再構成された肌の色反射率スペクトルとの整合性を検証し、そして仮定が正しいことを確認する。

上記のセンサ校正アプローチは、元々の問題の複雑性を著しく低減する。一般に、センサ校正は、時間がかかることがあり、そして特定のセンサのセンサ・スペクトル感度を測定するために高価な装置を必要とすることがある。それゆえ、光源データと反射率データの両方が得られるとはいえ、式（３）から直接的に肌の色のＲＧＢ値を導出することは、実行可能ではない。センサ校正モジュール３０により観測されるスペクトル相関は、センサ・スペクトル感度を検出する一方で、ＲＯＩビデオ処理システム１４内部のリソース消費を削減することができる。

ある複数のケースでは、照明条件は、重み付け因子｛ｂ_ｉ｝の範囲に、そしてそれゆえ結果として肌−色マップに影響を与えることがある。不均一照明及びセンサ非線形応答を削除するために、センサ校正モジュール３０は、一様なグレー・プレーン取り込み及び一定の黒色レベル（BlackLevel）引き算を通したフラット・フィールディング（flat fielding）によって、各照明の下でマクベス色チェッカのそれぞれのパッチに対する補間された生ＲＧＢ信号を規格化し、例えば：
ＲＧＢ＝（ＲＧＢ−BlackLevel）／（GrayPlane−BlackLevel）（４）
ここで、GrayPlaneは、マクベス色チェッカに対応するグレー・プレーン上の生の信号である。それに加えて、センサ校正モジュール３０は、照明を３つの種類（例えば、昼光−ＣＩＥＤ６５、タングステン光−ＣＩＥＡ、及び蛍光−ＴＬ８４）へと分類し、そしてそれらのそれぞれに対して対応するセンサ統計値を計算する。

大部分のビデオ処理システムがＲＧＢの代わりにＹＣｂＣｒ（ルミナンス、クロミナンス青、クロミナンス赤）色空間を使用するために、センサ校正モジュール３０は、白色バランス、色補正、及びガンマ補正処理を通してＹＣｂＣｒ空間へとＲＧＢ色マップを変換する。変換された色マップは、楕円体を形成し、それはＣｂＣｒ面に密集するがＹ軸に分散する。３Ｄ色空間に対する大量のデータを記憶することを避けるために、センサ校正モジュール３０は、Ｙを複数の範囲へと分割する。それぞれのＹに関して、センサ校正モジュール３０は、次に、入力クロミナンスＸが肌−色マップに属する可能性をガウス・モデルによりモデル化する：

ここで、ｘは次式として定義されるマハラノビス（Mahalanobis）距離である：
ｘ^２＝（Ｘ−μ）^ＴΛ^−１（Ｘ−μ）（６）
そして、密度の平均ベクトルμと共分散行列Λは、ＣｂＣｒ色マップ中の点の座標から計算されることが可能である。

言い換えると、しきい値、ｘ_Ｔ ^２、が与えられると、Ｘは、ｘ^２≦ｘ_Ｔ ^２の場合に肌クロミナンスとして分類され、そしてそれ以外は非肌クロミナンスとして分類されることができる。不等式ｘ^２≦ｘ_Ｔ ^２は、中心がμにより与えられそして主軸がΛの固有ベクトルにより与えられる楕円領域を定義する。しきい値ｘ_Ｔの平方根は、ルミナンス・レベルが中央値にあるときには大きく、そして遠い端で徐々に小さくなるように選択される。それゆえ、センサ校正モジュール３０は、ビデオ・センサ１２に関するセンサ統計値３２として各ルミナンス範囲についてのμとΛの対を保存する。

カメラ処理モジュール３４は、ビデオ・センサ１２を介してビデオ取込みデバイス１１からビデオ系列のビデオ・フレームを受け取る。カメラ処理モジュール３４は、上で説明したようにセンサ校正モジュール３０によって生成されたセンサ統計値３２を同様に受け取る。カメラ処理モジュール３４は、カメラ生ＲＧＢデータ生成、白色バランス、色補正、カメラ・ガンマ補正、及びＲＧＢ色空間からＹＣｂＣｒ空間への変換を取り扱う。カメラ処理モジュール３４の出力は、ＹＣｂＣｒ４：２：０生データ・フォ−マットである。

上に説明したように、肌−色マップ上の光源の影響を考慮するために、センサ校正モジュール３０は、３つの光源（例えば、昼光−ＣＩＥＤ６５、タングステン光−ＣＩＥＡ、及び蛍光灯の光−ＴＬ８４）の下でマクベス色チェッカを使用し、そして規格化されたスケールで［０．６，０．７］のルミナンス・レベル範囲で各光源について１つの肌の色領域を得る。カメラ処理モジュール３４は、次に、受け取ったビデオ・フレームの光源を推定し、そして推定した光源を３つの光源のタイプのうちの１つに分類する。このようにして、カメラ処理モジュール３４は、そのビデオ・フレームに対して１つの光源を選択する。ＲＯＩ検出モジュール３６内部の肌領域検出器３８は、次に、ビデオ・フレーム内の肌−色領域を検出するときに選択された光源に対応するセンサ統計値を使用することができる。

ＲＯＩ検出モジュール３６は、肌領域検出器３８、ＲＯＩ検出コントローラ３９、及びＲＯＩ検出器４０を含む。ある複数のケースでは、ＲＯＩ検出器４０は、例えば、ＶＴアプリケーション又はビデオ放送アプリケーションのケースでは、顔検出器を考えることができる、そのビデオ放送アプリケーションは、ライブの又は事前に録画されたニュース、若しくは娯楽放送のような情報ビデオを人間が与える。ＲＯＩ検出モジュール３６は、自動ＲＯＩ検出技術を実装し、それはビデオ・センサ１２の物理的特性及びビデオ取込みデバイス１１からのカメラ処理の副次的情報を使用する。自動ＲＯＩ検出技術は、ＲＯＩ検出精度を改善し、それはＲＯＩビデオ処理システム１４の性能を直接的に高める。例えば、肌領域検出器３８は、センサ統計値３２を使用することができて、ビデオ・フレーム内の肌マップを正確に検出し、そしてＲＯＩ検出器４０は、ビデオ・フレーム内の１又はそれより多くの顔を検出するために、その肌マップを使用することができる。

肌領域検出器３８は、センサ校正モジュール３０により生成されたセンサ統計値３２を受け取った後で比較的単純な検出プロセスを実行することができる。このケースでは、肌領域検出器３２は、クロミナンス（ＣｂＣｒ）値がセンサに依存する統計値３２により特徴づけられる楕円体の内側であるかどうかを検査する。上に説明したように、ビデオ・フレームに関する楕円体のパラメータは、センサ校正モジュール３０から得られる。それに加えて、その楕円体のパラメータは、照明と光源を重視しそしてセンサに依存する。それゆえ、本明細書中で説明される肌領域検出プロセスは、何の知識もなく大量の画像により調整される（trained）従来の肌−トーン調整アプローチよりもさらに正確であり得る。肌領域検出器３８は、次に、ビデオ・フレームの検出された肌−トーン領域から肌マップを生成する。

ＲＯＩ検出コントローラ３９は、次に、肌領域検出器３８から肌マップとビデオ・フレームに関する情報とを受け取る。ある複数のケースでは、ＲＯＩ検出コントローラ３９は、ＲＯＩビデオ処理モジュール４２からそのビデオ・フレームとそのビデオ系列の前のビデオ・フレームに関する動き情報を同様に受け取ることができる。ＲＯＩ検出コントローラ３９は、次に、肌マップの品質を判断することができる。もし肌マップが事前に決められたレベルより低い品質を有する場合には、ＲＯＩ検出コントローラ３９は、ＲＯＩ検出器４０にその肌マップを送ることができる。もし肌マップが事前に決められたレベルより高い品質を有する場合には、ＲＯＩ検出コントローラ３９は、ＲＯＩ検出器４０を止めるように決定することができる。このケースでは、肌領域検出器３８により生成された肌マップは、ビデオ・フレーム内にＲＯＩを生成することが十分に可能であるように思われる。ＲＯＩ検出モジュール３６は、その時は、その肌マップから直接そのビデオ・フレーム内にＲＯＩを生成することができる。

別のケースでは、ＲＯＩ検出コントローラ３９は、受け取った現在のビデオ・フレーム情報と動き情報とに基づいてビデオ・フレームの計算上の複雑性を判断することができる。もしビデオ・フレームが事前に決められたレベルよりも低い計算上の複雑性を有する場合には、ＲＯＩ検出コントローラ３９は、ＲＯＩ検出器４０を止めるように判断することができる。ＲＯＩ検出モジュール３６は、次に、その肌マップから直接そのビデオ・フレーム内にＲＯＩを生成することができる。もしビデオ・フレームが事前に決められたレベルよりも高い計算上の複雑性を有する場合には、ＲＯＩ検出コントローラ３９は、ＲＯＩ検出器４０にその肌マップを送ることができる。このケースでは、ビデオ・フレームは、新たなＲＯＩ又は前に処理されなかった多数のＲＯＩ特徴を含むことができる、若しくはビデオ・フレームは、ビデオ系列の前のビデオ・フレームからの大量の動きを含むことができる。

１実施形態にしたがって、ＲＯＩ検出器４０は、リアルタイム処理のために低複雑性ＲＯＩ検出アルゴリズムを実行し、それは図８に関連してさらに詳しく説明される。上に説明したように、ＲＯＩビデオ処理システム１４は、電力を節約するためにある状況ではＲＯＩ検出器４０を止めることが可能である。ＲＯＩビデオ処理システム１４は、非常に正確にセンサに最適化された肌領域検出器３８を利用し、それは肌マップ内の可能性のあるＲＯＩ特徴、例えば、目の特徴候補及び口の特徴候補、を不適切に選択しない。ＲＯＩ検出器４０は、次に、生成されたビデオ・フレームの肌マップ内の１又はそれより多くの顔又はＲＯＩを自動的に検出する。このようにして、ＲＯＩ検出器４０は、低複雑性アルゴリズムを実行することができ、それは移動体ＶＴアプリケーションにおいて特に有用である。しかしながら、ある別の肌領域検出アルゴリズムは、肌領域検出器３８の性能を高速化するために肌マップの一部として顔の特徴を分類することができる。

ＲＯＩ検出モジュール３６は、次に、ビデオ・フレーム内で検出された顔のそれぞれに対してＲＯＩを生成することができる。ＲＯＩビデオ処理モジュール４２は、次に、ビデオ・フレーム内の非ＲＯＩエリアに比較して生成されたＲＯＩを選択的に処理する。ビデオ・コーディングの実施形態では、ＲＯＩビデオ処理モジュール４２は、重み付けビット割り当てと適応背景スキッピングを使用してビデオ・フレーム内のＲＯＩを選択的にエンコードすることができ、優れたコーディング効率を提供する。特に、各ＲＯＩは、背景エリアよりも多くのビットを割り当てられ、そして背景エリアは、複数のフレームのあいだ完全にスキップされることができる。背景スキッピングのケースでは、前のフレームからの背景が、背景エンコーディングがそこではスキップされるフレームの背景を置き換えることができる。ビデオ系列の各フレームが処理された後で、ＲＯＩビデオ処理モジュール４２は、選択的にコード化されたＲＯＩの出力画像ビットストリームを別のビデオ通信デバイスに送ることができる。

図７は、ビデオ・センサ１２の特性に基づいてビデオ通信デバイス１０中に含まれるＲＯＩビデオ処理システム１４の動作を説明するフロー・チャートである。センサ校正モジュール３０は、ビデオ・センサ１２の肌の色反射率スペクトルとテスティング・ターゲット、例えば、マクベス色チェッカ・チャート、の反射率スペクトルに基づいてセンサ校正を実行する（４６）。センサ校正モジュール３０は、次に、校正プロセスに基づいてビデオ・センサ１２に関するセンサ統計値３２を生成する（４８）。前に論じたように、ある複数の実施形態では、センサ統計値は、ビデオ・センサ１２に対して準備されたＣｂＣｒ色マップ中の点の座標から計算される平均ベクトルμと共分散行列Λとを含むことができる。μとΛの対は、ビデオ・センサ１２に関するセンサ統計値３２として各ルミナンス範囲に対してセンサ校正モジュール３０によって記憶される。

カメラ処理モジュール３４は、ビデオ・センサ１２を経由してビデオ取込みデバイス１１から受け取ったビデオ・フレームとセンサ統計値３２とに基づいてカメラ処理を実行する（５０）。カメラ処理モジュール３４は、受け取ったビデオ・フレームの光源状態を推定することができ、そして推定した光源を３つの光源タイプ（すなわち、昼光−ＣＩＥＤ６５、タングステン光−ＣＩＥＡ、及び蛍光灯の光−ＴＬ８４）のうちの１つに分類することができる。カメラ処理モジュール３４からの選択された光源とその選択された光源に対応するセンサ統計値３２は、次に、ＲＯＩ検出モジュール３６へと供給される。ＲＯＩ検出モジュール３６は、肌領域検出器３８、ＲＯＩ検出コントローラ３９、及びＲＯＩ検出器４０を含む。肌領域検出器３８は、光源とセンサ統計値３２とに基づいてビデオ・フレーム内の肌領域を検出して（５０）、肌マップを生成する。

ＲＯＩ検出コントローラ３９は、次に、ビデオ・フレーム内でＲＯＩ検出を実行するかどうかを判断する（５３）。例えば、ＲＯＩ検出コントローラ３９は、もし検出された肌マップがビデオ・フレームのＲＯＩを生成するために十分な品質である場合には、ＲＯＩ検出器４０を止めるように、そしてＲＯＩ検出を実行しないように決定することができる。それに加えて、もしそのビデオ・フレームが少数の可能性のあるＲＯＩ特徴若しくはそのビデオ・フレームとそのビデオ系列の前のビデオ・フレームとの間の最小の量の動き又は変化を含む場合には、ＲＯＩ検出コントローラは、ＲＯＩ検出器４０を止めるように、そしてＲＯＩ検出を実行しないように決定することができる。ＲＯＩ検出器４０を止めることは、ＲＯＩビデオ処理システム１４内の電力消費を削減することができる。

ＲＯＩ検出コントローラ３９が低品質肌マップ又は高い複雑性のビデオ・フレームを受け取るときには、ＲＯＩ検出コントローラ３９は、その肌マップをＲＯＩ検出器４０に送る。ＲＯＩ検出器４０は、ＲＯＩ特徴検出と検証に基づいて肌領域検出器３８からの肌マップ内の１又はそれより多くのＲＯＩを検出する（５４）。ＲＯＩ検出が実行されるかどうかに拘わらず、ＲＯＩ検出モジュール３６は、検出された肌マップ又は肌マップ内の検出されたＲＯＩのいずれかに基づいて１又はそれより多くのＲＯＩを生成する（５６）。ＲＯＩ生成モジュール３６は、次に、ビデオ・フレームの生成されたＲＯＩをＲＯＩビデオ処理モジュール４２に送る。ＲＯＩビデオ処理モジュール４２は、ビデオ・フレームのＲＯＩをマルチメディア・アプリケーションのためのビットストリームへと選択的に処理する（５８）。

図８は、ＲＯＩビデオ処理システム中に含まれるＲＯＩ検出器６０を説明するブロック図である。ＲＯＩ検出器６０は、低複雑性顔検出アルゴリズムを実装することができ、それは１又はそれより多くの顔を、すなわち、ＲＯＩを、ビデオ・フレームの肌マップから効率的に抽出する。ある複数のケースでは、ＲＯＩ検出器４０は、顔検出器と考えられることができる。例えば、ＶＴアプリケーション若しくはライブ又は事前に録画されたニュース又は娯楽放送のような情報ビデオを人間がその中で与えるビデオ放送アプリケーションのケースでは。

１つの実施形態では、ＲＯＩ検出器６０は、図５のＲＯＩビデオ処理システム１４中に含まれるＲＯＩ検出器４０に実質的に同じであることができる。このケースでは、ＲＯＩ検出器６０は、ビデオ・センサ１２のセンサ統計値３２に基づいて肌領域検出器３８により生成された肌マップを受け取ることができ、そしてセンサ統計値３２に基づいて低複雑性ＲＯＩ検出を実行することができる。別の１つの実施形態では、ＲＯＩ検出器６０は、センサ統計値に基づかないで肌領域検出器から肌マップを受け取ることができる。このケースでは、ＲＯＩ検出器６０は、図５のＲＯＩビデオ処理モジュール４２と類似のＲＯＩビデオ処理モジュールから受け取られる動き情報に基づいて低複雑性ＲＯＩ検出を実行することができる。

ある複数のケースでは、ＲＯＩ検出器６０は、ビデオ系列のモード内ビデオ・フレームをそのビデオ・フレームの他のフレームとは独立してそして動き情報なしで処理することができる。別のケースでは、ＲＯＩ検出器６０は、現在のビデオ・フレームとそのビデオ系列の前のビデオ・フレームとの間のＲＯＩに関する動き情報に基づいてモード間フレームを処理することができる。モード内フレームを処理するためにＲＯＩ検出器６０により使用される動き情報は、ＲＯＩビデオ処理モジュール、例えば、ＲＯＩビデオ処理モジュール４２、において動き推定の間に得られる動きベクトルを含むことができる。

例示された実施形態では、ＲＯＩ検出器６０は、領域ラベリング・モジュール６２、領域選択モジュール６４、特徴検出及び検証モジュール６６、ＲＯＩ領域選択モジュール６８、形態的操作モジュール７０、及びＲＯＩマクロブロック（ＭＢ：macroblock）選択モジュール７２を含む。図９Ａ−図９Ｇは、センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内のＲＯＩを自動的に検出するときに、ＲＯＩ検出器６０により実行される技術の具体例の結果を説明する画面の複数の場面である。別のケースでは、ＲＯＩ検出器６０は、別の１つの方法でそしてセンサ統計値を使用することなく生成されたビデオ・フレームの肌マップ内のＲＯＩを自動的に検出することができる。

図５を参照して上に説明したように、肌領域検出器は、ビデオ・フレーム内の肌領域を検出し、そしてその検出された肌領域から肌マップを生成する。図９Ａは、ＲＯＩ検出モジュールによるいずれかの処理の前の具体例のビデオ・フレームを図示する。図９Ｂは、センサ統計値に基づいて肌領域検出器により生成されるビデオ・フレームの具体例の肌マップを図示する。一旦、肌領域検出器がビデオ・フレームの肌マップを生成すると、領域ラベリング・モジュール６２は、その肌マップを複数の繋げられていない領域へと分割する。このケースでは、肌領域検出器は、肌マップ内のそれぞれの顔又はＲＯＩが繋げられた領域中に含まれると仮定することができる。言い換えると、肌マップ内のＲＯＩ特徴、例えば、顔の特徴、は、領域ラベリング・モジュール６２が顔又はＲＯＩを１より多くの繋げられた領域へと分割することを妨げるはずである。

それに加えて、領域選択モジュール６４は、ビデオ・フレーム内に多くとも２のＲＯＩ又は顔があると仮定することができる、それは多くのケースでは妥当であり、そしてＲＯＩ検出プロセスを大いに単純化する。領域選択モジュール６４は、肌マップの繋げられていない領域から３個までの候補領域を選択し、それらの領域はビデオ・フレーム内で最大エリアを含む。ＲＯＩ領域選択モジュール６８は、次に、それぞれの候補領域内で特徴検出及び検証モジュール６６により検出された顔の特徴に基づいてその候補領域から１又はそれより多くのＲＯＩ領域を選択する。

特徴検出及び検証モジュール６６は、事前に決められたルールの集合を使用して顔の特徴に関する候補領域の全てを検査する。通常、顔の特徴は、候補領域の内側の大きな強度コントラストにより特徴付けられる肌マップの谷の領域に位置する。それゆえ、特徴検出及び検証モジュール６６は、グレースケール−密接及び拡張（grayscale-close and dilation）形態的操作を実行することによって谷領域を見つけることができる。もし顔の特徴候補が検出された谷領域と重ならないエリアを有する場合には、その顔の特徴候補は、候補リストから削除される。この実施形態では、特徴検出及び検証モジュール６６は、目の検出を主に実行し、それは２つの観察に基づくことができる。

第１に、目の周りのクロミナンス成分は、通常、高いＣｂ値と低いＣｒ値とを含む。それゆえ、特徴検出及び検証モジュール６６は、次式によりクロミナンス目マップを構築することができる。

Ｃ＝（Ｃｂ^２＋（２５５−Ｃｒ）^２＋（Ｃｂ／Ｃｒ））／３（７）
一旦、クロミナンス目マップが得られると、特徴検出及び検証モジュール６６は、目の候補に対して目マップ内の最も明るい領域の位置を決めるために、クロミナンス（Ｃ）目マップにしきい値を適用することができる。特徴検出及び検証モジュール６６は、次に、形態的操作を適用して、１つの目の候補へと実質的に閉じられた最も明るい領域を併合する。

第２に、目は、ルミナンス成分で暗いピクセルと明るいピクセルの両方を通常含む。それゆえ、特徴検出及び検証モジュール６６は、目の付近でルミナンス成分のより明るいピクセルとより暗いピクセルを強調するためにグレースケール形態的操作を使用することができる。特徴検出及び検証モジュール６６は、次式によりルミナンス目マップを構築することができる
Ｌ＝Dilation（Ｙ）／（Erosion（Ｙ）＋１）（８）。

一旦、ルミナンス目マップが得られると、特徴検出及び検証モジュール６６は、ルミナンス（Ｌ）目マップにしきい値を適用することができて、目の候補として目のマップの内の最も明るい領域の位置を決めることができる。特徴検出及び検証モジュール６６は、次に、形態的操作を適用して、実質的に最も明るい領域を閉じるために１つの目の候補へと併合する。

特徴検出及び検証モジュール６６は、次に、２つの目のマップを繋げて、最終的な目の特徴候補を見出す。図９Ｃは、特徴検出及び検証モジュール６６により検出される、目の特徴候補のような具体例の顔の特徴候補を図示する。明らかに、その他の顔の特徴、例えば、口、まゆ、鼻孔、及び顎、は、候補領域内で顔を見つけるために手がかりとして同様に検出されることができる。これらの追加の顔の特徴は、ビデオ・フレーム内のＲＯＩ又は顔を検出するとき、特に目がビデオ・フレーム中に見えない又は不鮮明であるときに、非常に有用であり得る。

一旦、特徴検出及び検証モジュール６６が１又はそれより多くの候補領域内に顔の特徴候補を検出すると、顔の特徴は、いずれかの誤りの検出を除去するためにルールのある集合に基づいて検証される。最初に、特徴検出及び検証モジュール６６は、検出された目のマップを肌領域検出器により検出されなかったビデオ・フレームの非肌領域と重ね合わせる。上記の肌領域検出器、すなわち、図５の肌領域検出器３８は、肌マップを生成するときに顔の特徴を誤って検出しない。それゆえ、正しい目の特徴は、肌マップの一部ではない。

第２に、肌マップの候補領域内の顔の特徴は、肌マップ中の内部の穴を含み、それは正しい顔の特徴が肌領域により囲まれるはずであることを意味する。第３に、目の特徴候補を含んでいる候補領域のそれぞれのエリアは、［１５，５００］の範囲内であるはずである。第４に、目の特徴候補を含んでいる候補領域のそれぞれを囲んでいる四角は、ＲＯＩ領域候補を囲んでいる四角のうちの１つに含まれる。図９Ｄは、特徴検出及び検証モジュール６６により検証される具体例の顔の特徴、例えば、目の特徴を図示する。

ＲＯＩ領域選択モジュール６８は、次に、最大の顔の特徴を含む候補領域をＲＯＩ領域として選択する。ある複数のケースでは、ＲＯＩ領域選択モジュール６８は、２つまでのＲＯＩ領域を選択することができる。ＲＯＩ領域選択モジュール６８は、ＲＯＩ領域又は顔の領域が最大の顔の特徴候補を通常含み、そして肌マップ内の他の領域よりも大きなエリアをカバーするという観察に基づいてＲＯＩ領域を選択する。それゆえ、ＲＯＩ領域選択モジュール６８は、その領域の内側の複数の顔の特徴とその領域のそのエリアとの共通部分として最大値を有する上から２つの候補領域に対応するＲＯＩ領域を選択する。もしどの候補領域も顔の特徴を含まない場合には、ＲＯＩ領域選択モジュール６８は、ＲＯＩ領域として最も大きい候補領域を選択する。

図９Ｅは、検出された顔の特徴に基づいてＲＯＩ領域選択モジュール６８により選択される具体例のＲＯＩ領域を図示する。形態的操作モジュール７０は、次に、選択されたＲＯＩ領域に形態的操作を実行して、検出された顔の特徴に対応するＲＯＩ領域内の穴を埋める。図９Ｆは、形態的操作モジュール７０により実行された形態的操作の後の具体例のＲＯＩ領域を図示する。

最後に、ＲＯＩＭＢ選択モジュール７２は、ＲＯＩに対応するビデオ・フレームのマクロブロックをＲＯＩマクロブロックとして選択する。例えば、もしあるマクロブロックの事前に決められた割合よりも広いエリアが選択されたＲＯＩ領域と重なる場合には、ＲＯＩＭＢ選択モジュール７２は、ビデオ・フレームの一部としてそのマクロブロックを選択することができる。ある複数のケースでは、事前に決められた割合は、１０％を含む。マクロブロックは、ビデオ・フレームの一部を形成するビデオ・ブロックである。ＭＢのサイズは、１６×１６であり得る。しかしながら、別のＭＢサイズが可能である。マクロブロックは、マクロブロックが様々な異なるサイズを有することができるという理解で、説明の目的のために本明細書中で記述される。図９Ｇは、ビデオ・フレームの選択されたＲＯＩ領域に基づいてＲＯＩＭＢ選択モジュール７２により選択される具体例のＲＯＩマクロブロックを図示する。ＲＯＩ検出モジュール３６は、次にＲＯＩＭＢ選択モジュール７２により選択されたＲＯＩマクロブロックに基づいてビデオ・フレームのＲＯＩを生成する。

上に説明されたＲＯＩ検出プロセスは、モード内ＲＯＩ検出プロセスを含み、そこではＲＯＩ検出器６０は、ビデオ系列の別のフレームとは独立してそして動き情報なしで、あるビデオ系列のビデオ・フレームを処理する。別のケースでは、ＲＯＩ検出器６０は、現在のビデオ・フレームとそのビデオ系列の前のビデオ・フレームとの間のＲＯＩに関する動き情報に基づいて低複雑性モード間ＲＯＩ検出プロセスを実行することができる。モード内フレームを処理するためにＲＯＩ検出器６０により使用される動き情報は、ＲＯＩビデオ処理モジュールにおける動き推定の期間に得られた動きベクトルを備えることができる。モード内ＲＯＩ検出プロセスは、より高い複雑性プロセスと考えられることができる。動き情報のおかげで、モード間ＲＯＩ検出プロセスは、より低い複雑性プロセスと考えられることができる。ＲＯＩ検出器６０によって受け取られる肌マップがセンサに固有の統計値に基づいて生成されるケースでは、肌マップの品質の改善は、モード内ＲＯＩ検出プロセスとモード間ＲＯＩ検出プロセスとの両方の複雑さをさらに低減することができる。

モード間ＲＯＩ検出プロセスでは、ＲＯＩ検出器６０は、前のフレーム中のＲＯＩを追跡することに基づいて現在のビデオ・フレーム内のＲＯＩを検出し、そしてＲＯＩビデオ処理モジュール、例えば、図５のＲＯＩビデオ処理モジュール４２、から受け取られる動きベクトルを利用する。このケースでは、ＲＯＩ検出器６０は、現在のビデオ・フレームの各マクロブロックを前のビデオ・フレームの対応するマクロブロックと比較する。ＲＯＩ検出器６０は、前のビデオ・フレームの対応するマクロブロックが前のビデオ・フレーム内のＲＯＩと十分な量の重なりを有するかどうかを判断する。ＲＯＩ検出器６０は、しかもそこにおいて現在のマクロブロックが現在のフレームの肌マップと十分な量の重なりを有するかも判断する。例えば、十分な量の重なりは、前のビデオ・フレームのＲＯＩ又は現在のビデオ・フレームの肌マップとそのマクロブロックの事前に決められた割合よりも多くのエリアとの重なりを含むことであり得る。ある複数のケースでは、事前に決められた割合は、１０％を含むことができる。

もし両方の条件が満足される場合には、ＲＯＩ検出器６０は、現在のマクロブロックをＲＯＩ領域の一部として選択する。この解は、ＲＯＩビデオ処理モジュールにより与えられるビデオ処理アルゴリズムを上手くつなげることができ、そして比較的単純な操作を含む。それゆえ、本明細書中で説明される低複雑性モード間ＲＯＩ検出プロセスは、他のモード間アプローチよりもはるかに効率的である。

低複雑性モード間ＲＯＩ検出プロセスは、早く動いているＲＯＩを追跡することが困難であることがある。それゆえ、ＲＯＩ検出器６０に接続されるＲＯＩ検出コントローラ、図５のＲＯＩ検出コントローラ３９に実質的に同じである、は、ある状況ではより高い複雑性のモード内ＲＯＩ検出プロセスを呼び出す適応アルゴリズムを実行することができる。例えば、ＲＯＩがモード間ＲＯＩ検出プロセスを使用して自動的に検出される連続するビデオ・フレームの数が、事前に決められたレベル（例えば、１０フレーム毎）よりも高いときに、ＲＯＩ検出コントローラは、ＲＯＩ検出器６０に定期的にモード内ＲＯＩ検出プロセスを実行するようにさせることができる。別の例では、ＲＯＩ検出コントローラが、ビデオ系列の複数のビデオ・フレーム間の動きのアクティビティが事前に決められたレベルよりも高いことを検出するときに、ＲＯＩ検出コントローラは、ＲＯＩ検出器６０にモード内ＲＯＩ検出を実行するようにさせることができる。このように、適応アルゴリズムがビデオ・フレーム中に現れる新しい顔を素早く検出することが不可能であり得るとはいえ、適応アルゴリズムは、ＲＯＩ検出器６０を含むＲＯＩビデオ処理システム内の複雑性を劇的に減少させる。

図１０Ａと図１０Ｂは、ＲＯＩビデオ処理システムのＲＯＩ検出モジュール内のＲＯＩ検出器６０の動作を説明するフロー・チャートである。ＲＯＩ検出器４０は、肌マップを受け取る（８０）。１つの実施形態では、ＲＯＩ検出器６０は、図５のＲＯＩビデオ処理システム１４中に含まれるＲＯＩ検出器４０と実質的に同じであり得る。このケースでは、ＲＯＩ検出器６０は、ビデオ・センサ１２のセンサ統計値３２に基づいて肌領域検出器３８により生成された肌マップを受け取り、そしてセンサ統計値３２に基づいて低複雑性ＲＯＩ検出を実行する。別の１つの実施形態では、ＲＯＩ検出器６０は、センサ統計値に基づかないで肌領域検出器からの肌マップを受け取ることができる。このケースでは、ＲＯＩ検出器６０は、図５のＲＯＩビデオ処理モジュール４２に類似のＲＯＩビデオ処理モジュールから受け取った動き情報に基づいて低複雑性ＲＯＩ検出を実行することができる。

ＲＯＩ検出モジュール中に含まれるＲＯＩ検出コントローラは、次に、ＲＯＩ検出器６０がモード内ＲＯＩ検出プロセス又はモード間ＲＯＩ検出プロセスを実行するかどうかを判断する（８１）。ＲＯＩ検出器６０は、そのビデオ系列の別のフレームとは独立してそして動き情報を用いずにビデオ系列のビデオ・フレームにモード内ＲＯＩ検出プロセスを実行することができる。ＲＯＩ検出器６０は、現在のビデオ・フレームとそのビデオ系列の前のビデオ・フレームとの間のＲＯＩに関する動き情報に基づいてモード間ＲＯＩ検出プロセスを実行することができる。

ある複数のケースでは、ＲＯＩ検出コントローラは、Ｎ個のフレーム（例えば、１０フレーム）毎に、若しくは大きな動き又は変化が現在のビデオ・フレームと前のビデオ・フレームとの間で検出されたときに、ＲＯＩ検出器６０に高複雑性モード内ＲＯＩ検出プロセスを実行するようにさせる。別のケースでは、もし最後のフレームがモード内プロセスを使用して処理された場合、若しくは最少量の動き又は変化が現在のビデオ・フレームと前のビデオ・フレームとの間で検出されたときに、ＲＯＩ検出コントローラは、ＲＯＩ検出器６０に低複雑性モード間ＲＯＩ検出プロセスを実行するようにさせる。

図１０Ａに示されたように、もしＲＯＩ検出コントローラがＲＯＩ検出器６０にモード内ＲＯＩ検出プロセスを実行するようにさせる場合に（８１のＹＥＳの枝分かれ）、領域ラベリング・モジュール６２は、肌領域検出器３８から受け取った肌マップを複数の繋がっていない領域に分割する（８２）。領域選択モジュール６４は、次に、そのビデオ・フレーム内で最大エリアを含む領域を候補領域として選択する（８４）。低複雑性を維持するために、領域選択モジュール６４は、３個の候補領域を選択するだけである。

特徴検出及び検証モジュール６６は、候補領域のそれぞれの内部の特徴検出を実行し、そして次に、顔の特徴候補を検証して誤検出を除去する（８６）。ＲＯＩ領域選択モジュール６８は、次に、最も大きなＲＯＩ特徴と最大エリアとを有する候補領域をＲＯＩ領域として検出する（８８）。例えば、ＲＯＩ領域検出モジュール６８は、最大の量のＲＯＩ特徴を有する２つの候補領域を選択することができる。候補領域のいずれもがＲＯＩ特徴を含まないケースでは、ＲＯＩ領域選択モジュール６８は、ビデオ・フレームの最大エリアを有する候補領域をＲＯＩ領域として選択することができる。

形態的操作モジュール７０は、次に、１又はそれより多くの選択されたＲＯＩ領域について形態的操作を実行して、検出された顔の特徴に対応するＲＯＩ領域内の穴を埋める（９０）。最後に、ＲＯＩＭＢ選択モジュール７２は、その選択されたＲＯＩ領域と重なるビデオ・フレームのマクロブロックをＲＯＩマクロブロックとして選択する（９２）。例えば、あるマクロブロックの範囲の事前に決められた割合、例えば、１０％、よりも多くのエリアが選択されたＲＯＩ領域と重なる場合には、ＲＯＩＭＢ選択モジュール７２は、ビデオ・フレームのＲＯＩの一部としてそのマクロブロックを選択することができる。ＲＯＩ検出モジュール３６は、次に、ＲＯＩＭＢ選択モジュール７２によって選択されたＲＯＩマクロブロックに基づいてビデオ・フレームのＲＯＩを生成する。

図１０Ｂに示されたように、もしＲＯＩ検出コントローラがＲＯＩ検出器６０にモード間ＲＯＩ検出プロセスを実行するようにさせる場合には（８１のＮＯ枝分かれ）、ＲＯＩ検出モジュール６０は、ＲＯＩビデオ処理モジュールから動きベクトルと前のビデオ・フレームのマクロブロックとを受け取る（９６）。ＲＯＩ検出器６０は、次に、現在のビデオ・フレームの各マクロブロックを前のビデオ・フレームの対応するマクロブロックと比較する（９８）。

ＲＯＩ検出器６０は、前のビデオ・フレームの対応するマクロブロックが前のビデオ・フレームのＲＯＩと十分に重なるかどうか（９９）、そして現在のビデオ・フレームのマクロブロックが現在のビデオ・フレームから生成された肌マップと十分に重なるかどうかを判断する（１００）。もしどちらかの条件が満足されない場合には、ＲＯＩ検出器６０は、ＲＯＩの一部として考えることからそのマクロブロックを落とす（１０２）。もし両方の条件が満足される場合には、ＲＯＩ検出器６０は、現在のビデオ・フレーム内のＲＯＩの一部としてそのマクロブロックを選択する（１０４）。ＲＯＩ検出器６０を含むＲＯＩ検出モジュールは、次に、ＲＯＩ検出器６０によって選択されたＲＯＩマクロブロックに基づいてビデオ・フレームのＲＯＩを生成する。

図５に戻って、ＲＯＩビデオ処理システム１４は、ＲＯＩビデオ処理モジュール４２を含み、それは生成されたＲＯＩを選択的に処理する。一例として、ＲＯＩビデオ処理モジュール４２は、ＲＯＩビデオ・コーディング・モジュールとして下記に説明され、それは重み付けビット割り当てと適応背景スキッピングとを使用することによりビデオ・フレーム内のＲＯＩを選択的にエンコードする。ビデオ系列の各フレームが処理された後で、ＲＯＩビデオ処理モジュール４２は、選択的にコード化されたＲＯＩの出力画像ビットストリームを別のビデオ通信デバイスに送ることができる。

ＲＯＩビデオ処理モジュール４２は、ＲＯＩビデオ・コーディングのために最適化されたρ−ドメイン・ビット割り当て方式を実行することができる。このケースでは、ρは、ビデオ・コーディングの際にマクロブロック中の非ゼロの量子化されたＡＣ係数の数又は割合を表す。ρ−ドメイン・レート制御モデルとＱＰ−ドメイン・レート制御モデルとの間の主な相違は、ρ−ドメイン・モデルがより正確であり、そしてそれゆえレート変動を効率的に低減することである。

それに加えて、ＲＯＩビデオ処理モジュール４２は、ＲＯＩビデオ・コーディングに対して視覚的な品質測定を使用する。例えば、ビデオ・フレームのＲＯＩと非ＲＯＩの規格化されたピクセル当たりの歪は、Ｄ_ＲとＤ_ＮＲにより表わされることができ、そしてＲＯＩ視覚重要性係数は、αによって表わされことができる。上に述べた複数の態様の間の関係がビデオ品質評価の際に線形関数へと単純化されることが可能であると仮定することができ、そのときには、ビデオ・フレームの総合歪は次式として表わされることが可能である：
Ｄ_{Ｆｒａｍｅ}＝αＤ_Ｒ（ｆ、ｆ^〜）＋（１−α）Ｄ_ＮＲ（ｆ、ｆ^〜）（９）
ここで、ｆとｆ^〜は、元々のフレームと再構成されたフレームである。式（９）から、αが０と１との間の実数を割り当てられるべきであることは、明らかであり、そしてαの選択は、ビデオ通信デバイス１０のエンド・ユーザにより彼らの必要性と期待値に基づいて決定される。再び、この測定は、完全な測定基準ではないが、その本質的な概念を好ましいものにするためにビット割り当てプロセスに役立つことができる。

所定のフレームｆに対する全ビット・バジェットは、Ｒ_{ｂｕｄｇｅｔ}により表わされることができ、そしてフレームをコーディングするためのビット・レートは、Ｒにより表わされることができ、その場合には、問題は次のように表わされることができる：
Ｒ≦Ｒ_{ｂｕｄｇｅｔ}になるように、Ｄ_{Ｆｒａｍｅ}を最小化する（１０）
ＲＯＩビデオ・コーディングでは、Ｎはフレーム中のマクロブロックの数を表すことでき、そして｛ρ_ｉ｝，｛σ_ｉ｝，｛Ｒ_ｉ｝及び｛Ｄ_ｉ｝は、それぞれ、ｉ番目のマクロブロックに関するρｓ、標準偏差、レート及び歪（すなわち、二乗誤差の総和）の集合を表わす。それゆえ、各マクロブロックに対する重み｛ｗ_ｉ｝の集合は、次式により定義されることができる：

ここで、ＫはＲＯＩ内のマクロブロックの数である。それゆえ、フレームの重み付けされた歪は：

それゆえ、式（４）は、次のように書き直されることが可能である：
Ｒ≦Ｒ_{ｂｕｄｇｅｔ}になるように、Ｄを最小化する（１３）
ＲＯＩビデオ処理モジュール４２は、モデリングに基づいたビット割り当てアプローチを使用することにより式（１３）を解くことができる。自然画像のＡＣ係数の分布は、次式のラプラス分布によって最適近似されることが可能である：

それゆえ、ｉ番目のマクロブロックのレート及び歪は、ρの関数として式（１４）と式（１５）とにおいてモデル化されることができ、
Ｒ_ｉ＝Ａρ_ｉ＋Ｂ（１４）
ここで、ＡとＢは、一定のモデリング・パラメータであり、そしてＡは非ゼロ係数をエンコードするために必要な平均ビット数として考えられることができ、そしてＢは非テクスチャ情報によるビットとして考えられることができる。

ここで、θは、未知の定数である。

ＲＯＩビデオ処理モジュール４２は、コンタイザ（quantizer）の代わりにρ_ｉを最適化することができ、その理由は、ＲＯＩビデオ処理モジュール４２が、任意の選択されたρ_ｉからきちんとしたコンタイザを生成するために利用可能な十分に正確なρ−ＱＰテーブルがあることを仮定するためである。一般に、式（１３）は、ラグランジュ緩和を使用することにより解かれることができ、そこでは拘束問題は、次式の非拘束問題へと変換される：

ここで、λ^＊は、

を使用可能にする解である。式（１６）において部分導関数をゼロに設定することにより、最適化されたρ_ｉに対して下記の式は：

によって得られる。一方で、

であるため、その結果、

である。式（２０）と式（２２）から、ビット割り当てモデルＩは、次のように得られる：

同様に、もしＲＯＩビデオ処理モジュール４２がステップ・サイズｑを有する一様なコンタイザを仮定する場合には、ビット割り当てモデルＩＩが、次式のように生成される：

結果は、両方のモデルが近い最適な解法を実行することを示す。フレームに関するビット・バジェットが与えられそして式（２３）又は式（２４）を使用して、ＲＯＩビデオ処理モジュール４２は、フレーム内のマクロブロック全体にわたりビットを最適に割り当てることが可能であり、式（９）で定義される認識される歪を最小にする。ＲＯＩビデオ処理モジュール４２は、その単純さのためにＲＯＩビデオ処理システム１４においてビット割り当てモデルＩＩを使用することができる。

非常に低ビット・レートのケースでは、ビデオ・フレームの非ＲＯＩエリアは、通常粗くコード化され、それは低い視覚的な品質をもたらす。一方で、背景が非ＲＯＩエリアと考えられるＶＴアプリケーションの大部分のケースでは、背景に限られた量の動きしかない。それゆえ、背景スキッピングは、スキッピングがビデオの忠実度をひどく害さない限り、前景領域とコード化された背景領域の品質を向上させるためにビットを再割り当てするための可能性のある解である。このケースでは、ＲＯＩビデオ処理モジュール４２は、フレームの各対をユニットへとグループ化する。各ユニットでは、第１の背景がコード化される、ところが第２の背景は、ゼロの動きベクトルを有する予測されるマクロブロックに基づいてスキップされる。フレーム・レベル・ビット割り当てでは、ＲＯＩビデオ処理モジュール４２は、ビデオ系列内のビデオ・フレームのコンテントの複雑性が一様に分散され、そしてそれゆえビットが複数のユニット間で一様に割り当てられることを仮定する。ユニット内では、式（２４）は、複数のマクロブロック間のビット割り当てのために使用されることができる。

ＲＯＩビデオ処理システム１４では、ＲＯＩビデオ処理モジュール４２は、スキッピングにより生じる歪（Ｄ_{ＮｏｎＲＯＩ＿ｓｋｉｐ}）に基づいてユニット中の背景スキッピングを適応性よく制御する。大量の動きを含んでいる背景を有するビデオ系列に関して、重要な背景情報のスキッピングは、ＲＯＩビデオ・コーディング・システム性能を損なうことがある。ＲＯＩビデオ処理モジュール４２は、背景スキッピング・モードを決定するために歪しきい値を使用する。しきい値は、最後に処理されたユニットのスキッピング歪のαと統計値に関係付けられることができる。Ｄ⁻ _ｎを最後のｎ個のユニットの平均歪として表示することにより、しきい値は、Ｄ⁻ _ｎ／２（１−α）として定義されることができる。

ＲＯＩビデオ処理モジュール４２は、以下のように適応背景スキッピング・アルゴリズムを実行することができる。最初に、ＲＯＩビデオ処理モジュール４２は、Ｄ⁻ _ｎ＝０に設定することによりそしてスキッピング・モードをＯＮに設定することにより背景スキッピング・アルゴリズムを初期化する。次に、ＲＯＩビデオ・コーディング・モジュールは、次式により現在の（ｉ番目の）ユニットに対するρバジェットを割り当てる：

ここで、Ｍはレート制御セグメント中のフレーム数であり、ρ_{ｓｅｇｍｅｎｔ}はそのセグメントに割り当てられるρの数であり、そしてρ_ｕｓｅｄはそのセグメント内で現在のユニットまでに使用されたρの数である。次に、現在のユニット内で、ＲＯＩビデオ処理モジュール４２は、式（２４）により各マクロブロックに対してビットを割り当てる。もしスキッピング・モードがＯＮである場合には、第２フレームの非ＲＯＩエリアに対して何のビットも割り当てられない。

現在のユニットに対する歪みが得られた後で、ＲＯＩビデオ処理モジュール４２は、Ｄ⁻ _ｎ＝（１−η）Ｄ⁻ _ｎ−１＋ηＤ_ｎによりＤ⁻ _ｎを更新する、ここで、ηは学習係数であり、そしてそれは［０，１］の範囲内である。ＲＯＩビデオ処理モジュール４２は、ρ統計値を更新し、そして次のユニットに対するデータを得る。もしこれが最後のユニットである場合には、ＲＯＩビデオ処理モジュール４２は、そのアルゴリズムを終わらせることができる。もしそれが最後のユニットでない場合には、ＲＯＩビデオ処理モジュール４２は、新しいユニットに対するＤ_{ＮｏｎＲＯＩ＿ｓｋｉｐ}を計算する。もし、Ｄ_{ＮｏｎＲＯＩ＿ｓｋｉｐ}＞Ｄ⁻ _ｎ／２（１−α）であれば、ＲＯＩビデオ処理モジュール４２は、スキッピング・モードを止める。それ以外は、ＲＯＩビデオ処理モジュール４２は、新しいユニットに対して上記のアルゴリズムを繰り返す。

本明細書中に記載された技術は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせとして与えられることができる。ソフトウェアにおいて与えられる場合、本技術は、命令を含んでいるプログラム・コードを備えるコンピュータ読み取り可能な媒体により部分的に実現されることができ、その命令は、実行されるときに、上に記載された１又はそれより多くの方法を実行する。そのケースでは、コンピュータ読み取り可能な媒体は、シンクロナス・ランダム・アクセス・メモリ（ＳＤＲＡＭ：synchronous random access memory）のようなランダム・アクセス・メモリ（ＲＡＭ：random access memory）、読み出し専用メモリ（ＲＯＭ：read only memory）、不揮発性ランダム・アクセス・メモリ（ＮＶＲＡＭ：non-volatile random access memory）、電気的消去書き込み可能ＲＯＭ（ＥＥＰＲＯＭ：electrically erasable programmable ROM）、フラッシュ・メモリ、磁気又は光学的データ記憶媒体、及びその他を含むことができる。

プログラム・コードは、１又はそれより多くのプロセッサ、例えば、１又はそれより多くのディジタル信号プロセッサ（ＤＳＰ：digital signal processor）、汎用マイクロプロセッサ、用途特定集積回路（ＡＳＩＣ：application specific integrated circuit）、フィールド・プログラマブル論理アレイ（ＦＰＧＡ：field programmable gate array）又は他の同等の集積回路又はディスクリート論理回路、により実行されることができる。ある複数の実施形態では、本明細書中に記載された機能は、自動オブジェクト分割のために構成された専用のソフトウェア・モジュール又はハードウェア・ユニット内に与えられることができる、若しくは自動オブジェクト分割システム中に組み込まれることができる。

本明細書では、様々な技術が、ビデオ系列のビデオ・フレーム内で低複雑性自動ＲＯＩ検出のために記載されてきている。ある複数のケースでは、低複雑性自動ＲＯＩ検出は、センサに固有の特性に基づくことができる。別のケースでは、低複雑性自動ＲＯＩ検出は、ビデオ・フレームとビデオ系列の異なるビデオ・フレームの動き情報に基づくことができる。ＲＯＩビデオ処理システムは、開示された技術の１又はそれより多くを個別に又は組み合わせで与えることができ、マルチメディア・アプリケーション、例えば、ビデオ監視アプリケーション、ＶＴアプリケーション、又はビデオ同報通信アプリケーション、における使用のために自動的に検出されそして正確に処理されたＲＯＩを提供する。

開示された技術は、特定のビデオ・センサの特性に基づいてビデオ通信デバイス内のビデオ・センサ校正、カメラ処理、ＲＯＩ検出、及びＲＯＩビデオ処理を調整すること及び向上させることが可能なビデオ処理技術を含む。そのビデオ処理技術は、別のタイプのビデオ・センサに普遍的に適用可能である。このように、開示された技術は、ビデオ・センサの物理的な特性及び統計値に基づいてＲＯＩビデオ処理能力を高めることができる。

開示された技術は、同様に、センサに基づくＲＯＩ検出技術を含み、それはビデオ・センサの物理的な特性及びカメラ処理の副次的な情報を使用してＲＯＩ検出精度を向上させる、それはＲＯＩビデオ処理能力を直接的に高める。例えば、肌領域検出器は、ビデオ・センサ統計値を使用してビデオ・フレーム内の肌マップを正確に検出し、そして顔検出器は、その肌マップを使用してビデオ・フレーム内の１又はそれより多くの顔を検出する。開示された技術は、しかも動きに基づいたＲＯＩ検出技術を含み、それはビデオ処理の際の動き推定の間に得られる動き情報を使用する。例えば、顔検出器は、肌マップと動き情報、例えば、動きベクトル、を使用して、低複雑性顔検出を実行し、それはその動き情報に基づいて肌マップ内の１又はそれより多くの顔、すなわち、ＲＯIを効率的に抽出する。これらの実施形態及びその他の実施形態は、特許請求の範囲の範囲内である。

関心領域（ＲＯＩ）ビデオ処理システムを組み込んでいる具体例のビデオ通信デバイスを説明するブロック図である。ビデオ系列のビデオ・フレーム内のＲＯＩエリアと非ＲＯＩエリアとの定義を説明する図である。ビデオ系列のビデオ・フレーム内のＲＯＩエリアと非ＲＯＩエリアとの定義を説明する図である。ビデオ系列のＲＯＩ内に表されるオブジェクトの動き／回転の変化及びオブジェクトに関する変形を説明する図である。ビデオ系列のＲＯＩ内の人物に関する表情の変化を説明する図である。ビデオ・センサの特性に基づいてビデオ・フレームのＲＯＩを選択的にコード化するビデオ通信デバイス内部のＲＯＩビデオ処理システムを説明するブロック図である。ビデオ・センサの具体例の肌の色反射率スペクトルを示す図である。マクベス色チェッカ・テスティング・ターゲットの具体例の反射率スペクトルを図示する。元々の肌の色反射率スペクトルと再構成された肌の色反射率スペクトルとの整合性を検証する具体例の反射率スペクトルを図示する。ビデオ・センサの特性に基づくビデオ通信デバイス中に含まれるＲＯＩビデオ処理システムの動作を説明するフロー・チャートを示す図である。ＲＯＩビデオ処理システムのＲＯＩ検出器を説明するブロック図である。センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でＲＯＩを自動的に検出するときに、図８のＲＯＩ検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でＲＯＩを自動的に検出するときに、図８のＲＯＩ検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でＲＯＩを自動的に検出するときに、図８のＲＯＩ検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でＲＯＩを自動的に検出するときに、図８のＲＯＩ検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でＲＯＩを自動的に検出するときに、図８のＲＯＩ検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でＲＯＩを自動的に検出するときに、図８のＲＯＩ検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でＲＯＩを自動的に検出するときに、図８のＲＯＩ検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。ＲＯＩビデオ処理システムのＲＯＩ検出モジュール内部のＲＯＩ検出器の動作を説明するフロー・チャートを示す図である。ＲＯＩビデオ処理システムのＲＯＩ検出モジュール内部のＲＯＩ検出器の動作を説明するフロー・チャートを示す図である。

Claims

ビデオ系列のビデオ・フレームの肌マップを受け取ること；
該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を受け取ること；及び
該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内の関心領域（ＲＯＩ）とに基づいて該ビデオ・フレーム内のＲＯＩを自動的に検出すること
を具備する方法。
該ビデオ・フレーム内の該ＲＯＩを自動的に検出することは、
該ビデオ・フレームの第１のマクロブロックと該第１のマクロブロックに対応する該異なるビデオ・フレームの第２のマクロブロックとを比較すること；及び
該第２のマクロブロックが該異なるビデオ・フレーム内のＲＯＩと十分に重なり、そして該第１のマクロブロックが該ビデオ・フレーム内の該肌マップと十分に重なるとき、該ビデオ・フレーム内の該ＲＯＩの一部として該第１のマクロブロックを選択すること
を具備する、請求項１の方法。
該第２のマクロブロックのうちの少なくとも１つが該異なるビデオ・フレーム内のＲＯＩと十分に重ならないとき、又は該第１のマクロブロックが該ビデオ・フレームの該肌マップと十分に重ならないときに、該ビデオ・フレーム内の該ＲＯＩの一部として考えることから該第１のマクロブロックを落とすことをさらに具備する、請求項２の方法。
動き情報を受け取ることは、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の該ＲＯＩの動きを追跡することにより得られる動きベクトルを受け取ることを具備する、請求項１の方法。
該ビデオ系列の別の１つのビデオ・フレームの肌マップを受け取ること；及び
該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置に基づきそして該別の１つのビデオ・フレームと該ビデオ系列の異なるビデオ・フレームに関する動き情報を参照することなく該別の１つのビデオ・フレーム内のＲＯＩを自動的に検出すること
をさらに具備する、請求項１の方法。
該別の１つのビデオ・フレーム内の該ＲＯＩを自動的に検出することは、
該肌マップを繋がっていない領域へと分割すること；
該別の１つのビデオ・フレームの最大エリアを含む該繋がっていない領域から候補領域を選択すること；
該候補領域内のＲＯＩ特徴を検出すること；
ＲＯＩ特徴の最大数又は該別の１つのビデオ・フレームの該最大エリアのうちの少なくとも１つを含む該候補領域から１又はそれより多くのＲＯＩ領域を選択すること；
該別の１つのビデオ・フレーム内の該１又はそれより多くのＲＯＩ領域と少なくとも部分的に重なる該別の１つのビデオ・フレームのマクロブロックからＲＯＩマクロブロックを選択すること；及び
該選択されたＲＯＩマクロブロックに基づいて該別の１つのビデオ・フレーム内に該ＲＯＩを生成すること
を具備する、請求項５の方法。
該ＲＯＩに関する正しい特徴を選択するためそして該ＲＯＩ特徴候補の集合から誤った特徴を削除するために該ビデオ・フレーム内の該検出されたＲＯＩ特徴を検証することをさらに具備する、請求項６の方法。
該検出されたＲＯＩ特徴で該ビデオ・フレームの該肌マップ中の内部の穴を閉じるために該１又はそれより多くのＲＯＩ領域に形態的操作を実行することをさらに具備する、請求項６の方法。
ビデオ・センサから該ビデオ系列の該ビデオ・フレームを受け取ること；
該ビデオ・センサに関するセンサ統計値を生成すること；
該センサ統計値に基づいて該ビデオ・フレーム内の肌領域を検出すること；及び
該検出された肌領域に基づいて該ビデオ・フレームの該肌マップを生成すること
をさらに具備する、請求項１の方法。
肌マップを受け取ることは、ビデオ・センサに関するセンサ統計値に基づいて生成された該ビデオ・フレームの肌マップを受け取ることを具備する、請求項１の方法。
該自動的に検出されたＲＯＩを含んでいる該ビデオ・フレームを処理することをさらに具備する、ここにおいて、該ビデオ・フレームを処理することは、該ビデオ・フレームの非ＲＯＩエリアに比較して該ビデオ・フレーム内の該自動的に検出されたＲＯＩを選択的に処理することを具備する、請求項１の方法。
該自動的に検出されたＲＯＩを含んでいる該ビデオ・フレームをエンコードすることをさらに具備する、ここにおいて、該ビデオ・フレームをエンコードすることは、該ビデオ・フレームの非ＲＯＩエリアに比較して該ビデオ・フレーム内の該自動的に検出されたＲＯＩを選択的にエンコードすることを具備する、請求項１の方法。
少なくとも第１のＲＯＩ検出モードと第２のＲＯＩ検出モードとから自動ＲＯＩ検出モードを選択すること；
該第１のＲＯＩ検出モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を参照することなく該ビデオ・フレームからＲＯＩを自動的に検出すること；及び
第２の分割モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報に基づいて該ビデオ・フレームからＲＯＩを自動的に検出すること
をさらに具備する、請求項１の方法。
自動ＲＯＩ検出モードを選択することは、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の動きアクティビティの量を決定すること、そして該動きアクティビティの量が事前に決められたレベルよりも大きいときに該第１のＲＯＩ検出モードを選択することを具備する、請求項１３の方法。
自動ＲＯＩ検出モードを選択することは、該第２のＲＯＩ検出モードにおいてＲＯＩがその中で自動的に検出される該ビデオ系列の連続するビデオ・フレームの数を決定すること、そして該連続する第２のＲＯＩ検出モードのビデオ・フレームの数が事前に決められたレベルより大きいときに、該第１のＲＯＩ検出モードを選択することを具備する、請求項１３の方法。
プログラム可能なプロセッサに、
ビデオ系列のビデオ・フレームの肌マップを受け取るように；
該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を受け取るように；そして
該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内の関心領域（ＲＯＩ）とに基づいて該ビデオ・フレーム内のＲＯＩを自動的に検出するように
させる命令を具備する、コンピュータ読取り可能な媒体。
該命令は、該プログラム可能なプロセッサに、
該ビデオ・フレームの第１のマクロブロックと該第１のマクロブロックに対応する該異なるビデオ・フレームの第２のマクロブロックとを比較するように；そして
該第２のマクロブロックが該異なるビデオ・フレーム内のＲＯＩと十分に重なり、そして該第１のマクロブロックが該ビデオ・フレームの該肌マップと十分に重なるときに、該ビデオ・フレーム内の該ＲＯＩの一部として該第１のマクロブロックを選択するように
させる、請求項１６のコンピュータ読取り可能な媒体。
該プログラム可能なプロセッサに、
該第２のマクロブロックのうちの少なくとも１つが該異なるビデオ・フレーム内のＲＯＩと十分に重ならないとき、又は該第１のマクロブロックが該ビデオ・フレームの該肌マップと十分に重ならないときに、該ビデオ・フレーム内のＲＯＩの一部として考えることから該第１のマクロブロックを落とすように
させる命令をさらに具備する、請求項１７のコンピュータ読取り可能な媒体。
該命令は、該プログラム可能なプロセッサに、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の該ＲＯＩの動きを追跡することにより得られる動きベクトルを受け取るようにさせる、請求項１６のコンピュータ読取り可能な媒体。
該プログラム可能なプロセッサに、
該ビデオ系列の別の１つのビデオ・フレームの肌マップを受け取るように；そして
該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置に基づきそして該別の１つのビデオ・フレームと該ビデオ系列の異なるビデオ・フレームに関する動き情報を参照することなく該別の１つのビデオ・フレーム内のＲＯＩを自動的に検出するように
させる命令をさらに具備する、請求項１６のコンピュータ読取り可能な媒体。
該命令は、該プログラム可能なプロセッサに、
該肌マップを繋がっていない領域へと分割するように；
該別の１つのビデオ・フレームの最大エリアを含む該繋がっていない領域から候補領域を選択するように；
該候補領域内のＲＯＩ特徴を検出するように；
ＲＯＩ特徴の最大数又は該別の１つのビデオ・フレームの該最大エリアのうちの少なくとも１つを含む該候補領域から１又はそれより多くのＲＯＩ領域を選択するように；
該別の１つのビデオ・フレーム内の該１又はそれより多くのＲＯＩ領域と少なくとも部分的に重なる該別の１つのビデオ・フレームのマクロブロックからＲＯＩマクロブロックを選択するように；そして
該選択されたＲＯＩマクロブロックに基づいて該別の１つのビデオ・フレーム内にＲＯＩを生成するように
させる、請求項２０のコンピュータ読取り可能な媒体。
該プログラム可能なプロセッサに、該ＲＯＩに関する正しい特徴を選択するためそして該ＲＯＩ特徴候補の集合から誤った特徴を削除するために該ビデオ・フレーム内の該検出されたＲＯＩ特徴を検証するようにさせる命令をさらに具備する、請求項２１のコンピュータ読取り可能な媒体。
該プログラム可能なプロセッサに、該検出されたＲＯＩ特徴で該ビデオ・フレームの該肌マップ中の内部の穴を閉じるために該１又はそれより多くのＲＯＩ領域に形態的操作を実行するようにさせる命令をさらに具備する、請求項２１のコンピュータ読取り可能な媒体。
該プログラム可能なプロセッサに、
ビデオ・センサから該ビデオ系列の該ビデオ・フレームを受け取るように；
該ビデオ・センサに関するセンサ統計値を生成するように；
該センサ統計値に基づいて該ビデオ・フレーム内の肌領域を検出するように；そして
該検出した肌領域に基づいて該ビデオ・フレームの該肌マップを生成するように
させる命令をさらに具備する、請求項１６のコンピュータ読取り可能な媒体。
該命令は、該プログラム可能なプロセッサに、ビデオ・センサに関するセンサ統計値に基づいて生成された該ビデオ・フレームの肌マップを受け取るようにさせる、請求項１６のコンピュータ読取り可能な媒体。
該プログラム可能なプロセッサに、該自動的に検出されたＲＯＩを含んでいる該ビデオ・フレームを処理するようにさせる命令をさらに具備する、ここにおいて、該命令は、該プログラム可能なプロセッサに、該ビデオ・フレームの非ＲＯＩエリアに比較して該ビデオ・フレーム内の該自動的に検出されたＲＯＩを選択的に処理するようにさせる、請求項１６のコンピュータ読取り可能な媒体。
該プログラム可能なプロセッサに、該自動的に検出されたＲＯＩを含んでいる該ビデオ・フレームをエンコードするようにさせる命令をさらに具備する、ここにおいて、該命令は、該プログラム可能なプロセッサに、該ビデオ・フレームの非ＲＯＩエリアに比較して該ビデオ・フレーム内の自動的に検出されたＲＯＩを選択的にエンコードするようにさせる、請求項１６のコンピュータ読取り可能な媒体。
該プログラム可能なプロセッサに、
少なくとも第１のＲＯＩ検出モードと第２のＲＯＩ検出モードから自動ＲＯＩ検出モードを選択するように；
該第１のＲＯＩ検出モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を参照することなく該ビデオ・フレームからＲＯＩを自動的に検出するように；そして
該第２の分割モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報に基づいて該ビデオ・フレームからＲＯＩを自動的に検出するように
させる命令をさらに具備する、請求項１６のコンピュータ読取り可能な媒体。
該命令は、該プログラム可能なプロセッサに、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の動きアクティビティの量を決定するように、そして該動きアクティビティの量が事前に決められたレベルよりも大きいときに該第１のＲＯＩ検出モードを選択するようにさせる、請求項２８のコンピュータ読取り可能な媒体。
該命令は、該プログラム可能なプロセッサに、ＲＯＩが該第２のＲＯＩ検出モードにおいてその中で自動的に検出される該ビデオ系列の連続するビデオ・フレームの数を決定するように、そして該連続する第２のＲＯＩ検出モードのビデオ・フレームの数が事前に決められたレベルより大きいときに該第１のＲＯＩ検出モードを選択するようにさせる、請求項２８のコンピュータ読取り可能な媒体。
ビデオ系列のビデオ・フレームの肌マップを生成する肌領域検出器；
該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を生成する関心領域（ＲＯＩ）ビデオ処理モジュール；及び
該ビデオ・フレームに関する該肌マップと該動き情報とを受け取り、該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内のＲＯＩとに基づいて該ビデオ・フレーム内の該ＲＯＩを自動的に検出するＲＯＩ検出器
を具備する、ビデオ処理システム。
該ＲＯＩ検出器は、
該ビデオ・フレームの第１のマクロブロックと該第１のマクロブロックに対応する該異なるビデオ・フレームの第２のマクロブロックとを比較する；そして
該第２のマクロブロックが該異なるビデオ・フレーム内のＲＯＩと十分に重なり、そして該第１のマクロブロックが該ビデオ・フレームの該肌マップと十分に重なるときに、該ビデオ・フレーム内の該ＲＯＩの一部として該第１のマクロブロックを選択する、
請求項３１のシステム。
該ＲＯＩ検出器は、該第２のマクロブロックのうちの少なくとも１つが該異なるビデオ・フレーム内のＲＯＩと十分に重ならないとき、又は該第１のマクロブロックが該ビデオ・フレームの該肌マップと十分に重ならないときに、該ビデオ・フレーム内の該ＲＯＩの一部として考えることから該第１のマクロブロックを落とす、請求項３２のシステム。
該第２のマクロブロックの事前に決められた割合より多くのエリアが該前のビデオ・フレームの該ＲＯＩと重なるとき、該第２のマクロブロックは、該異なるビデオ・フレーム内の該ＲＯＩと十分に重なる、請求項３２のシステム。
該第１のマクロブロックの事前に決められた割合より多くのエリアが該ビデオ・フレームの該肌マップと重なるとき、該第１のマクロブロックは、該ビデオ・フレームの該肌マップと十分に重なる、請求項３２のシステム。
該ＲＯＩビデオ処理モジュールは、動きベクトルを生成するために、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の該ＲＯＩの動きを追跡する、請求項３１のシステム。
該肌領域検出器は、該ビデオ系列の別の１つのビデオ・フレームの肌マップを生成する；及び
該ＲＯＩ検出器は、該別の１つのビデオ・フレームの該肌マップを受け取り、そして該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置に基づきそして該別の１つのビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を参照することなく該別の１つのビデオ・フレーム内のＲＯＩを自動的に検出する、
請求項３１のシステム。
該ＲＯＩ検出器は、
該肌マップを繋がっていない領域へと分割する領域ラベリング・モジュール；
該別の１つのビデオ・フレームの最大エリアを含む該繋がっていない領域から候補領域を選択する領域選択モジュール；
該候補領域内のＲＯＩ特徴を検出する特徴検出及び検証モジュール；
ＲＯＩ特徴の最大数又は該別の１つのビデオ・フレームの該最大エリアのうちの少なくとも１つを含む該候補領域から１又はそれより多くのＲＯＩ領域を選択するＲＯＩ領域選択モジュール；及び
該別の１つのビデオ・フレーム内の該１又はそれより多くのＲＯＩ領域と少なくとも部分的に重なる該別の１つのビデオ・フレームのマクロブロックからＲＯＩマクロブロックを選択するＲＯＩマクロブロック選択モジュール
を含み、
ここにおいて、該ＲＯＩ検出器は、該選択されたＲＯＩマクロブロックに基づいて該別の１つのビデオ・フレーム内に該ＲＯＩを生成する、
請求項３７のシステム。
該特徴検出及び検証モジュールは、該ＲＯＩに関する正しい特徴を選択するためにそして該ＲＯＩ特徴候補の集合から誤った特徴を削除するために該ビデオ・フレーム内の検出された該ＲＯＩ特徴を検証する、請求項３８のシステム。
該検出されたＲＯＩ特徴で該ビデオ・フレームの該肌マップ中の内部の穴を閉じるために該１又はそれより多くのＲＯＩ領域に形態的操作を実行する形態的操作モジュールをさらに具備する、請求項３８のシステム。
ビデオ・センサから該ビデオ系列の該ビデオ・フレームを受け取るカメラ処理モジュール；及び
該ビデオ・センサに関するセンサ統計値を生成するセンサ校正モジュール、
をさらに具備し、
ここにおいて、該肌領域検出器は、該センサ統計値に基づいて該ビデオ・フレーム内の肌領域を検出し、そして該検出した肌領域に基づいて該ビデオ・フレームの該肌マップを生成する、請求項３１のシステム。
該ＲＯＩ検出器は、ビデオ・センサに関するセンサ統計値に基づいて生成された肌マップを受け取る、請求項３１のシステム。
該ＲＯＩビデオ処理モジュールは、該自動的に検出されたＲＯＩを含んでいる該ビデオ・フレームを処理する、ここにおいて、該ＲＯＩビデオ処理モジュールは、該ビデオ・フレームの非ＲＯＩエリアに比較して該ビデオ・フレーム内の該自動的に検出されたＲＯＩを選択的に処理する、請求項３１のシステム。
該ＲＯＩビデオ処理モジュールは、該自動的に検出されたＲＯＩを含んでいる該ビデオ・フレームをエンコードするＲＯＩビデオ・コーディング・モジュールを具備する、ここにおいて、該ＲＯＩビデオ・コーディング・モジュールは、該ビデオ・フレームの非ＲＯＩエリアに比較して該ビデオ・フレーム内の該自動的に検出されたＲＯＩを選択的にエンコードする、請求項３１のシステム。
ＲＯＩ検出コントローラをさらに具備し、該コントローラは：
少なくとも第１のＲＯＩ検出モードと第２のＲＯＩ検出モードとから自動ＲＯＩ検出モードを選択する；
該第１のＲＯＩ検出モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を参照することなく該ビデオ・フレームからＲＯＩを自動的に検出することを決定する；及び
第２の分割モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報に基づいて該ビデオ・フレームからＲＯＩを自動的に検出することを決定する、
請求項３１のシステム。
該ＲＯＩ検出コントローラは、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の動きアクティビティの量を決定し、そして該動きアクティビティの量が事前に決められたレベルよりも大きいときに該第１のＲＯＩ検出モードを選択する、請求項４５のシステム。
該ＲＯＩ検出コントローラは、ＲＯＩが該第２のＲＯＩ検出モードにおいてその中で自動的に検出される該ビデオ系列の連続するビデオ・フレームの数を決定し、そして該連続する第２のＲＯＩ検出モードのビデオ・フレームの数が事前に決められたレベルより大きいときに該第１のＲＯＩ検出モードを選択する、請求項４５のシステム。