JP2009512283A - ビデオ・フレームの動きに基づいた自動関心領域検出 - Google Patents

ビデオ・フレームの動きに基づいた自動関心領域検出 Download PDF

Info

Publication number
JP2009512283A
JP2009512283A JP2008534758A JP2008534758A JP2009512283A JP 2009512283 A JP2009512283 A JP 2009512283A JP 2008534758 A JP2008534758 A JP 2008534758A JP 2008534758 A JP2008534758 A JP 2008534758A JP 2009512283 A JP2009512283 A JP 2009512283A
Authority
JP
Japan
Prior art keywords
roi
video
video frame
macroblock
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008534758A
Other languages
English (en)
Other versions
JP4801164B2 (ja
Inventor
ワン、ハオホン
クアン、シュシェ
エル−マレー、クハレド・ヘルミ
チウ、チンチュアン・アンドリュー
ジャン、シャオユン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2009512283A publication Critical patent/JP2009512283A/ja
Application granted granted Critical
Publication of JP4801164B2 publication Critical patent/JP4801164B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/46Colour picture communication systems
    • H04N1/56Processing of colour picture signals
    • H04N1/60Colour correction or control
    • H04N1/62Retouching, i.e. modification of isolated colours only or in isolated picture areas only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals

Abstract

本開示は、ビデオ系列のビデオ・フレーム内の低複雑性自動関心領域(ROI)検出に基づいたROIビデオ処理のための技術に向けられる。低複雑性自動ROI検出は、ビデオ通信デバイス内部のビデオ・センサの特性に基づくことができる。別のケースでは、低複雑性自動ROI検出は、あるビデオ・フレームとビデオ系列の別のビデオ・フレームとに関する動き情報に基づくことができる。本開示技術は、特定のビデオ・センサの特性に基づいてビデオ通信デバイス内のビデオ・センサ校正、カメラ処理、ROI検出、及びROIビデオ処理を調整することそして高めることが可能なビデオ処理技術を含む。本開示技術は、しかもセンサに基づくROI検出技術を含み、それはROI検出精度を向上させるためにビデオ・センサ統計値とカメラ処理の副次的情報とを使用する。本開示技術は、同様に、動きに基づくROI検出技術を含み、それはビデオ処理の際の動き推定の間に得られる動き情報を使用する。

Description

関連文献
本出願は、米国特許仮出願番号第60/724,130号、2005年10月5日出願、に優先権を主張する。
本開示は、ビデオ・フレーム内の関心領域(ROI:region-of-interest)検出に係り、そして特に、マルチメディア・アプリケーションのためにビデオ・フレーム内でROIを自動的に検出するための技術に関する。
ビデオ系列のビデオ・フレーム内の自動関心領域(ROI)検出は、広い範囲のマルチメディア・アプリケーション、例えば、ビデオ監視、ビデオ同報通信、及びテレビ電話(VT:video telephony)アプリケーション、に対するROIビデオ処理システムにおいて使用されることができる。ある複数のケースでは、ROIビデオ処理システムは、ROIビデオ・コーディング・システムであり得る。別のケースでは、ROIビデオ処理システムは、ROIビデオ強調システム、又は別のタイプのビデオ処理システムを備えることができる。ROIは、ビデオ・フレーム内の“前景”エリアとして呼ばれることができ、そして非ROIエリアは、そのビデオ・フレーム内の“背景”エリアとして呼ばれることができる。ROIの典型的な例は、人物の顔である。ROIビデオ処理システムは、ビデオ・フレーム内の非ROIエリアに比較してビデオ系列のビデオ・フレームから検出されるROIを選択的に利用することができる。
ROIビデオ・コーディング・システムのケースでは、ビデオ系列のビデオ・フレーム内の選択された部分の選択的なエンコーディングが、提案されてきている。例えば、ビデオ・フレーム内で自動的に検出されるROIは、テレビ電話(VT)アプリケーションにおいて受信者への送信のために高い品質でエンコードされることがある。移動体VTのような、非常に低ビット・レートのアプリケーションでは、ROI選択的エンコーディングは、エンコードされたビデオ系列の本質的な品質を改善することができる。ROIの選択的エンコーディングを用いて、受信者は、非ROI領域よりももっと明瞭にROIを見ることが可能である。ビデオ・フレームのROIは、ビデオ・フレームの非ROI、すなわち背景、エリアに対してよりもROIにエンコーディング・ビットのより多くの部分を割り当てることによって選択的にエンコードされることができる。ビデオ・フレームの非ROIエリアをスキップすることは、ROIへの割り当てのためにエンコーディング・ビットを保存することを可能にする。前のフレームのエンコードされた非ROIエリアは、現在のフレーム中のスキップされた非ROIエリアに置き換えられることができる。
ビデオ取込みデバイスから受け取られるビデオ・フレームは、ROI可能なビデオ・エンコーダ、ROI可能なビデオ・エンハンサ、又は同種のマルチメディア・デバイスに適用される前に一般的に処理される。例えば、ビデオ処理方式は、ビデオ・フレーム内のROIを自動的に検出することができる。従来、ROI可能なビデオ通信システムの急速な発達と広い展開を妨げる主なハードルは、自動ROI検出のエラーに対する強さである。ある自動ROI検出方式は、顔の検出に対して単純な肌−色調(skin-tone)に基づいたアプローチを提案し、それは入力ビデオ画像のクロミナンス成分から導かれる肌−色調マップに基づく肌−色(skin-color)の外観を有するピクセルを検出する。別の方式は、顔検出のための色バイアスを補正するために照明効果補償モデルを提案する。それに加えて、自動ROI検出方式は、顔の候補を検証するために、又は固有マスク(eigenmasks)を使用するために、目、口、及び境界マップを構成することができ、その固有マスクはROI検出精度を向上させるために人物の顔の重要な顔の特徴のところに大きな等級を有する。
サマリー
一般に、本明細書は、ビデオ系列のビデオ・フレーム内の低複雑性自動ROI検出に基づいた関心領域(ROI:region of interest)ビデオ処理のための技術に向けられる。低複雑性自動ROI検出は、ビデオ通信デバイス内部のビデオ・センサの特性に基づくことができる。例えば、ビデオ・センサは、いわゆるカメラ電話機又はビデオ電話機の内部に存在できる。別のケースでは、低複雑性自動ROI検出は、あるビデオ系列のビデオ・フレームとそのビデオ系列の別のビデオ・フレームに関する動き情報に基づくことができる。本技術は、ビデオ・ストリーミング及びテレビ会議のようなテレビ電話(VT)アプリケーションにおいて有用であることがあり、そして特に、移動体VTのような、低ビット・レート無線通信アプリケーションにおいて有用である。
ROIビデオ処理は、ROIの選択的処理を含む。例えば、ROIビデオ・コーディング・アルゴリズムは、ビデオ・フレーム内のROIに追加のコーディング・ビットを割り当てることができ、そしてビデオ・フレーム内の非ROIエリアに少ない数のコーディング・ビットを割り当てることができる。ROIの代表的な例は、人物の顔である。非ROIエリアがより一般的にはROIの部分を形成しないビデオ・フレームの任意のエリアを取り囲むとはいえ、非ROIエリアは、“背景”エリアとして呼ばれることがある。したがって、用語“非ROI”と“背景”とは、ROIの範囲外であるエリアを呼ぶために本明細書全体を通して互換的に使用されることがある。
開示される技術は、特定のビデオ・センサの特性に基づいて、ビデオ通信デバイス内部でビデオ・センサ校正、カメラ処理、ROI検出、及びROIビデオ処理を調整することそして高めることが可能なビデオ処理技術を含む。そのビデオ処理技術は、別のタイプのビデオ・センサに広く適用可能であり得る。それに加えて、本技術は、順応性のある通信及びビデオ通信デバイス内部の複数の構成要素の間の協業を可能にする。このようにして、開示された技術は、ビデオ・センサに関係する物理的特性と統計値とに基づいてROIビデオ処理性能を高めることができる。
開示される技術は、センサに基づくROI検出技術を同様に含み、それはビデオ・センサ統計値及びカメラ処理の副次的な情報を使用してROI検出精度を改善し、それはROIビデオ処理性能を直接的に高める。例えば、肌領域検出器は、ビデオ・フレーム内の肌マップを正確に検出するためにビデオ・センサ統計値を使用し、そして顔検出器は、そのビデオ・フレーム内の1又はそれより多くの顔を検出するためにその肌マップを使用する。開示される技術は、動きに基づくROI検出技術を同様に含み、それはビデオ処理において動き推定の間に得られる動き情報を使用する。例えば、顔検出器は、肌マップ及び動き情報、例えば、動きベクトル、を使用して、その動き情報に基づいて肌マップ内の1又はそれより多くの顔、すなわち、ROI、を効率的に抽出する低複雑性顔検出を実行する。
自動ROI検出技術は、次に、ビデオ・フレーム内で検出された顔のそれぞれに対してROIを生成することができる。開示される技術は、生成されたROIを含んでいるビデオ・フレームをROIビデオ処理に適用する。例えば、本技術は、ビデオ・フレームをROIビデオ・コーディング・アルゴリズムに適用することができ、そのアルゴリズムは重み付けビット割り当てと適応背景スキッピングを使用して優れたコーディング効率を提供する。
1つの実施形態では、本明細書は、ビデオ系列のビデオ・フレームの肌マップを受け取ること、及び該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとの動き情報を受け取ることを具備する方法を提供する。本方法は、しかも該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内のROIとに基づいて該ビデオ・フレーム内のROIを自動的に検出することを具備する。
別の1つの実施形態では、本明細書は、プログラム可能なプロセッサに、ビデオ系列のビデオ・フレームの肌マップを受け取るように、そして該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとの動き情報を受け取るようにさせる命令を具備する、コンピュータ読取り可能な媒体を提供する。本命令は、しかも、該プログラム可能なプロセッサに、該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内のROIとに基づいて該ビデオ・フレーム内のROIを自動的に検出するようにさせる。
さらなる実施形態では、本明細書は、ビデオ系列のビデオ・フレームの肌マップを生成する肌領域検出器、及び該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を生成するROIビデオ処理モジュールを具備する、ビデオ処理システムを提供する。本システムは、しかも、ROI検出器を含み、それは該ビデオ・フレームに関する該肌マップと該動き情報とを受け取り、そして該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内のROIとに基づいて該ビデオ・フレーム内の該ROIを自動的に検出する。
本明細書中に記述される複数の技術は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせで与えられることができる。ソフトウェアで与えられる場合には、本技術は、プログラム可能なプロセッサによって実行されるとき、本明細書中に記載した方法のうちの1又はそれより多くを実行する命令を含んでいるプログラム・コードを備えるコンピュータ読み取り可能な媒体によって一部は実現されることができる。
1又はそれより多くの実施形態の詳細は、添付された図面及び以下の説明に記述される。その他の特徴、目的及び利点は、詳細な説明及び図面から、そして特許請求の範囲から明らかにされるであろう。
詳細な説明
図1は、関心領域(ROI:region-of-interest)ビデオ処理システム14を組み込んでいる具体例のビデオ通信デバイス10を説明するブロック図である。ROIビデオ処理システム14は、ビデオ・センサ12の特性に基づく低複雑性ROIビデオ処理のための技術を実行する。別のケースでは、ROIビデオ処理システム14は、同様にビデオ・フレームに関する動き情報に基づく低複雑性ROIビデオ処理を実行することができる。図1に示されたように、ビデオ通信デバイス10は、ビデオ取込みデバイスを含み、それはビデオ・センサ12、ROIビデオ処理システム14、及びビデオ・メモリ16を含む。ビデオ・センサ12は、ビデオ・フレームを取り込み、そしてカメラの内部に与えられることができる。低複雑性ROIビデオ処理技術は、ビデオ通信デバイス10と別のビデオ通信デバイスとの間の、ビデオ・ストリーミング及びテレビ会議のような、テレビ電話(VT:video telephony)アプリケーションにおいて有用であり得る。本技術は、移動体VTのような、低ビット・レート無線通信アプリケーションにおいて特に有用であり得る。
ROIビデオ処理システム14は、複数の構成要素を含むことができ、例えば、ビデオ・センサ校正モジュール、カメラ処理モジュール、ROI検出モジュール、及びROIビデオ処理モジュール、であり、そのそれぞれは、ROIビデオ処理性能を高めるためにビデオ・センサ12のセンサ固有の特性に基づいて調整されることができる。それゆえ、ROIビデオ処理システム14は、様々なビデオ・センサの物理的特性及び処理能力に基づいて異なるビデオ取込みデバイスによって生成されるビデオ・フレームを正確に処理することができる。ある複数のケースでは、ROIビデオ処理システム14は、ROIビデオ・コーディング・システムであり得る。別のケースでは、ROIビデオ処理システム14は、ROIビデオ強調システム又は別のタイプのビデオ処理システムを備えることができる。
ROIビデオ処理システム14は、ビデオ・センサ12の特性を使用して、ビデオ・センサ12から受け取ったビデオ・フレーム内のROIを自動的に検出し、そしてそのビデオ・フレーム内の非ROIエリアと比較して検出したROIを選択的に処理する。検出されたROIは、ビデオ通信デバイス10のユーザに関心のあるものであり得る。例えば、ビデオ・フレームのROIは、人物の顔を含むことができる。ROIは、ビデオ・フレーム内の“前景”エリアと呼ばれることができ、そして非ROIエリアは、そのビデオ・フレーム内の“背景”エリアと呼ばれることができる。
ROIビデオ処理システム14は、ビデオ・センサ12の校正を実行し、それはビデオ・センサ12の肌−色反射率スペクトルとテスティング・ターゲットとの相関に基づくセンサ固有の統計値を生成する。そのテスティング・ターゲットは、例えば、マクベス色チェッカ・チャートであり、ニューヨーク州、ニューウィンザー市のGretagMacbeth LLCから商業的に利用可能である。ビデオ・センサ12は、カメラで使用される検出素子のアレイを一般に呼ぶ。ある複数のケースでは、ビデオ・センサ12は、相補型金属酸化物半導体(CMOS:complementary metal oxide semiconductor)画像検出素子のアレイを含むことができる。
ROIビデオ処理システム14は、しかもセンサ固有の統計値及びビデオ取込みデバイス11に付随するセンサ12から受け取るビデオ系列のビデオ・フレームに基づいてカメラ処理を実行して、ビデオ・フレームの照明の状態を推定する。ROIビデオ処理システム14は、次に、センサ固有の統計値とカメラ処理情報とに基づいてビデオ・フレーム内のROIを自動的に検出することができる。ある複数のケースでは、ROIビデオ処理システム14は、センサ固有の統計値、カメラ処理情報、及び動き情報、例えば、動きベクトル、に基づいてビデオ系列の現在のビデオ・フレーム内のROIを自動的に検出することができ、その動き情報はビデオ系列の現在のビデオ・フレームと前のビデオ・フレームとの間でROIを追跡することによってビデオ処理から得られる。
ROIビデオ処理システム14は、次に、検出したROIを含んでいるビデオ・フレームを選択的に処理し、そしてビデオ・メモリ16にそのビデオ・フレームを記憶する。例えば、ROIビデオ処理システム14は、ビデオ・フレーム内の非ROIエリアと比較してそのビデオ・フレーム内の検出したROIを選択的にエンコードすることができる。ビデオ系列の各フレームがエンコードされた後で、ビデオ通信デバイス10は、選択的に処理したROIを含んでいる出力画像ビットストリームを別のビデオ通信デバイスに送ることができる。
一例として、VTアプリケーションは、テレビ会議のようなアプリケーションをサポートするために、ビデオ情報とオーディオ情報とをユーザが共有することを可能にする。VTシステムでは、ユーザは、ビデオ情報を送りそして受け取ることができるか、ビデオ情報を受け取ることだけができるか、又はビデオ情報を送ることだけができる。ビデオ通信デバイス10は、適切な送信電子機器、受信電子機器、モデム、及び処理電子機器をさらに含むことができ、有線通信又は無線通信をサポートすることができる。例えば、ビデオ通信デバイス10は、他の端末との通信のために装備された無線移動端末又は有線端末を備えることができる。
無線移動端末の例は、携帯型無線電話機、携帯型個人ディジタル補助装置(PDA:personal digital assistants)、携帯型コンピュータ、又は無線通信能力及びビデオ・エンコーディングそして/又はビデオ・デコーディング能力を装備した別の携帯型デバイスを含む。例えば、ビデオ通信デバイス10は、VTアプリケーションにおいて使用される、いわゆるカメラ付き電話機又はビデオ電話機を含むことができる。有線端末の例は、デスクトップ・コンピュータ、テレビ電話機、ネットワーク機器、セットトップ・ボックス、双方向テレビ、又はその他を含むことができる。
ビデオ・コーディングの実施形態では、ROIビデオ処理システム14は、ビデオ・センサ12の特性に基づいてビデオ・センサ12から受け取ったビデオ・フレームから自動的に検出されるROIを選択的にエンコードすることができる。例えば、ROIビデオ処理システム14は、ビデオ・フレームの検出されたROIに追加のコーディング・ビットを割り当てることができ、そしてビデオ・フレームの非ROIエリアに少ない数のコーディング・ビットを割り当てることができる。
移動体アプリケーションでは、特に、ビデオ・フレームをエンコードするために利用可能なエンコーディング・ビットの量は、少ないことがありそして無線チャネル条件に応じて変化することがある。したがって、ROIへのコーディング・ビットの選択的な割当ては、適用可能なビット・レート要求に効果的に適応しつつ、ROIの視覚的品質を改善させる際に有用であり得る。それゆえ、検出したROIの選択的エンコーディングを用いて、受信者は、ビデオ・フレームの非ROIエリアよりもさらに鮮明にそのビデオ・フレームのROIを見ることが可能である。ビデオ通信デバイス10は、次に、有線通信チャネル又は無線通信チャネルを経由してエンコードされたビデオ・フレームを別の通信デバイスに送信することができる。
上に説明されたように、ROIビデオ処理システム14は、ビデオ系列のビデオ・フレーム内での低複雑性自動ROI検出に基づいてROIビデオ処理を実行するための技術を与えることができる。低複雑性自動ROI検出は、ビデオ通信デバイス10内部のビデオ・センサ12の特性に基づくことができる。開示された技術は、ビデオ通信デバイス10に含まれるROIビデオ処理システム14内部の構成要素を調整すること及び機能を高めることが可能なビデオ処理技術を含む。例えば、ビデオ処理技術は、ビデオ・センサ12の特性に基づいて、ビデオ・センサ校正モジュール、カメラ処理モジュール、ROI検出モジュール、及びROIビデオ処理モジュールを調整しそして機能を高めることができる。
本ビデオ処理技術は、別のタイプのビデオ・センサに広く適用可能である。それゆえ、本ビデオ処理技術は、様々なビデオ・センサの物理的な特性と処理能力とに基づいて様々なビデオ取込みデバイスにより生成されるビデオ・フレームを処理するために使用されることができる。それに加えて、本ビデオ処理技術は、順応性のある通信とROIビデオ処理システム14中に含まれる複数の構成要素の間の協業とを可能にする。このようにして、開示される技術は、ビデオ・センサ12の物理的な特性及び統計値に基づいてROIビデオ処理システム14の性能を高めることができる。
開示される技術は、しかも自動ROI検出技術を含み、それはビデオ・センサ12の物理的な特性とビデオ・センサ12からのカメラ処理の副次的情報とを使用する。例えば、そのカメラ処理の副次的情報は、ホワイト・バランス処理情報、色の精度を向上させる色補正処理情報、表示の非線形性を補償する非線形ガンマ処理情報、及び色変換処理情報を含むことができる。色変換処理情報は、RGB色空間からYCbCr色空間へ変換するときに生成されることができ、ここで、Yはルーマ・チャネルであり、そしてCbCrはクロマ・チャネルである。自動ROI検出技術は、ROI検出精度を向上させ、それはROIビデオ処理システム14の性能を直接的に高める。例えば、肌領域検出器は、ビデオ・フレーム内の肌マップを正確に検出するためにビデオ・センサ統計値を使用することができ、そして顔検出器は、そのビデオ・フレーム内の1又はそれより多くの顔を検出するためにその肌マップを使用する。
開示される技術は、しかも動きに基づくROI検出技術を含み、それはビデオ処理の際に動き推定の間に得られる動き情報を使用する。例えば、顔検出器は、肌マップ及び動き情報、例えば、動きベクトル、を使用して低複雑性顔検出を実行し、それはその動き情報に基づいて肌マップ内の1又はそれより多くの顔、すなわち、ROI、を抽出する。
自動ROI検出技術は、次に、ビデオ・フレーム内で検出された複数の顔のそれぞれに対するROIを生成することができる。開示される技術は、それからROIビデオ処理システム14中に含まれるビデオ処理モジュールにビデオ・フレーム内の生成されたROIを適用する。例えば、ビデオ・コーディングのケースでは、ROI処理モジュールは、重み付けビット割り当てと適応背景スキッピングとを使用することができて、優れたコーディング効率を与える。ビデオ系列の各フレームが処理された後で、ビデオ通信デバイス10は、ROIを含んでいる選択的にコード化されたビデオ・フレームの出力画像ビットストリームを別のビデオ通信デバイスに送ることができる。
ROIビデオ処理システム14は、ハードウェア、ソフトウェア、ファームウェア又はそれらの任意の組み合わせで与えられることができる。例えば、ROIビデオ処理システム14の様々な態様は、1又はそれより多くのディジタル信号プロセッサ(DSP:digital signal processor)、マイクロプロセッサ、用途特定集積回路(ASIC:application specific integrated circuit)、フィールド・プログラマブル・ゲート・アレイ(FPGA:field programmable gate array)、又はいずれかの別の同等の集積論理回路又は個別論理回路、同様にそのような構成素子の任意の組み合わせの内部に与えられることができる。用語“プロセッサ”は、一般に上記の論理回路のいずれか、単独で又は別の論理回路との組み合わせを呼ぶことができる。ソフトウェアで与えられるとき、ROIビデオ処理システム14に帰する機能は、例えば、ランダム・アクセス・メモリ(RAM:random access memory)、読み出し専用メモリ(ROM:read only memory)、不揮発性ランダム・アクセス・メモリ(NVRAM:non-volatile RAM)、電気的消去書き込み可能ROM(EEPROM:electrically erasable programmable ROM)、フラッシュ・メモリ、磁気媒体、光学的媒体、及びその他のようなコンピュータ読み取り可能な媒体上の命令として組み込まれることができる。
図2Aと図2Bは、ビデオ系列のビデオ・フレーム20内のROI24と非ROIエリア26との定義を説明する図である。図2Bの例では、ROIは、人物の顔ROI24として図示されている。別の実施形態では、ROIは、長方形のROI若しくは丸型又は不定形を有することができる別の非長方形ROIを備えることができる。ROI24は、ビデオ・フレーム20中に表された人物の顔22を含む。非ROIエリア26、すなわち、背景は、図2Bでは、シェーディングすることにより強調されている。
ROI24は、図1のROIビデオ処理システム14中に含まれるROI検出モジュールによりビデオ・フレーム20から自動的に検出されることができる。VTアプリケーションに関して、図1のビデオ通信デバイス10のようなビデオ通信デバイスは、ROIビデオ処理システム14を組み込むことができて、ビデオ・フレーム20内のROI24を自動的に検出し、そしてビデオ・フレーム20内の非ROIエリアに比較してROI24を選択的にエンコードする。そのケースでは、ROI24は、テレビ会議の参加者の顔22を含むビデオ・フレーム20の一部を取り囲むことができる。別の例は、ビデオ、例えば、情報を提供するビデオ、若しくはニュース又は娯楽放送、をストリームする際に情報を表している人物の顔の選択的なエンコーディングを含む。ROI24のサイズ、形状、及び位置は、固定であり得るか、又は調節可能であり得る、そして様々な方法で定義されるか、描かれるか、又は調節されることができる。
ROI24は、送信されたビデオ・フレーム20内の個々のオブジェクト、例えば、人物の顔22、をビデオの送り手が強調することを可能にする。逆に言えば、ROI24は、受け取ったビデオ・フレーム20内の所望のオブジェクトをビデオの受け取り手がより鮮明に見ることを可能にする。いずれのケースでも、ROIオブジェクト24内の顔22は、ビデオ・フレーム20の背景領域のような非ROIエリア26に比較してより高い画像品質でエンコードされる。このようにして、ユーザは、顔の表情、唇の動き、目の動き、及びその他をより鮮明に見ることが可能である。ある複数の実施形態では、ROI24は、しかも追加のコーディング・ビットを用いてエンコードされることができだけでなく、エラー検出及び回復力を同様に高められることができる。
図3は、ビデオ系列のROI内に表されるオブジェクトの動き/回転の変化及びオブジェクトに関する変形を説明する。特に、図3のフレーム0と1に描かれた人物の頭は、その位置を大きく変える。図3の例では、人物の頭は、フレーム0と比較してフレーム1では傾く。図4は、ビデオ系列のROI内の人物についての表情の変化を説明する。特に、フレーム0と1に描かれた人物の口は、実質的に閉じられた位置から広く開いた位置へと変化する。これゆえ、図3と図4は、ビデオ系列のROI中の大量の動きのケースを表している。
図5は、低複雑性自動ROI検出に基づいてビデオ・フレーム内のROIを選択的に処理するビデオ通信デバイス10内部のROIビデオ処理システムを説明するブロック図である。低複雑性自動ROI検出は、ビデオ・センサ12の特性に基づくことができる。ROIビデオ処理システム14は、ビデオ・センサ12を経由してビデオ取込みデバイス11からビデオ・フレームを受け取ることができる。ROIビデオ処理システム14は、そのビデオ系列の別のフレームとは独立してそして動き情報なしにビデオ系列のモード内ビデオ・フレームを処理することができる。ROIビデオ処理システム14は、現在のビデオ・フレームとビデオ・メモリ16中に記憶されたそのビデオ系列の前のビデオ・フレームとの間のROIに関する動き情報に基づいてモード間フレームを処理することができる。
図示された実施形態では、ROIビデオ処理システム14は、センサ校正モジュール30、センサ統計値32、カメラ処理モジュール34、自動ROI検出モジュール36、及びROIビデオ処理モジュール42を含む。センサ統計値32は、センサ校正プロセスの間にセンサ校正モジュール30から得られる。カメラ処理モジュール34とROI検出モジュール36は、センサ統計値32を使用して、ビデオ・センサ12を経由してビデオ取込みデバイス11から受け取られるモード内ビデオ・フレーム内のROIを正確に検出する。ROI検出モジュール36は、しかもカメラ処理モジュール34によるカメラ処理の間に検出される、照明状態のような、情報をあてにする。それに加えて、ROI検出モジュール36は、現在のビデオ・フレームと前のビデオ・フレームとの間でROIビデオ処理モジュール42によって生成される動き情報、例えば、動きベクトル、を受け取ることができ、モード間フレーム内のROI検出を可能にする。
ROIビデオ処理システム14では、センサ校正モジュール30は、特定のビデオ・センサ12の固有の肌の色統計値を計算する。センサ校正モジュール30は、様々なビデオ・センサに対するセンサ統計値32を生成することができ、その結果、ROIビデオ処理システム14は、ビデオ通信デバイス10内部に含まれるいずれかのビデオ・センサに基づいてROIビデオ処理性能を高めることができる。センサ校正モジュール30は、ビデオ・センサ32の肌の色反射率スペクトルとテスティング・ターゲット、例えば、マクベス色チェッカ・チャートのスペクトルの相互関係に基づいてセンサ統計値32を求める。図6Aは、ビデオ・センサ32の具体例の肌の色反射率スペクトルを図示する。図6Bは、マクベス色チェッカ・テスティング・ターゲットの具体例の反射率スペクトルを図示する。
肌の色反射率スペクトルが、限られた数のマクベス色チェッカ色パッチの反射率スペクトルの線形の組み合わせによって近似されることができると仮定することができ、例えば:
Figure 2009512283
ここで、Kはマクベス色チェッカの反射率スペクトルの数であり、λは波長であり、Rskin(λ)とR Machbeth(λ)は肌の色とi番目のマクベス色チェッカ色パッチの対応する反射率であり、そして{b}(i=1,2,...,K)は計算されようとしている重み付け係数の集合である。このケースでは、肌の色の対応するRGB(赤、緑、青)信号は、対応するマクベス色パッチのRGB信号の同じ線形の組み合わせにより表されることができ、次式の通りである:
Figure 2009512283
ここで、RGBskinとRGB Machbethは、肌の色とi番目のマクベス色チェッカ色パッチの対応するRGB信号強度値である。
上記の仮定は、所定のセンサとある反射率スペクトルに関して、対応するカメラの生のRGB信号が次式により理論的に計算されることができるという理由で許容される:
Figure 2009512283
ここで、SS(λ)、L(λ)、R(λ)はセンサ・スペクトル感度関数、光源スペクトル強度分布、及びオブジェクト反射率スペクトルである。それゆえ、式(2)は、式(1)と式(3)とから導出されることが可能である。ビデオ・センサ12のような特定のセンサに関して、全ての可能性のある重み付け係数{b}が得られた後で、そしてRGB Machbeth値を測定した後で、センサ校正モジュール30は、式(2)を使用することによりRGBskinの全ての組み合わせを計算することができる。
このようにして、センサ校正モジュール30は、ROI検出モジュール36内部の肌領域検出器38による今後の使用のためにビデオ・センサ12に関するRGB色空間における肌−色マップを得ることができる。センサ校正モジュール30は、肌の色反射率スペクトル・データベースを使用して式(1)を解いて可能性のある重み付け係数{b}を得る。データベースを通して、式(1)で使用されるRskin(λ)とR Machbeth(λ)の値は、利用可能であり、そしてそれゆえ、センサ校正モジュール30は、全ての種類の肌の色に対して対応する{b}ベクトルを得ることができる。
実験結果は、上記の仮定が妥当であることを示しており、それは肌の色反射率スペクトルが24のマクベス色チェッカ色パッチの線形の組み合わせへと分解されることが可能であることを意味する。それに加えて、導出された重み付け係数{b}は、構成された肌の色反射率スペクトルを元々の肌の色スペクトルと成分単位で一致させる。図6Cは、具体例の反射率スペクトルを図示し、それは元々の肌の色反射率スペクトルと再構成された肌の色反射率スペクトルとの整合性を検証し、そして仮定が正しいことを確認する。
上記のセンサ校正アプローチは、元々の問題の複雑性を著しく低減する。一般に、センサ校正は、時間がかかることがあり、そして特定のセンサのセンサ・スペクトル感度を測定するために高価な装置を必要とすることがある。それゆえ、光源データと反射率データの両方が得られるとはいえ、式(3)から直接的に肌の色のRGB値を導出することは、実行可能ではない。センサ校正モジュール30により観測されるスペクトル相関は、センサ・スペクトル感度を検出する一方で、ROIビデオ処理システム14内部のリソース消費を削減することができる。
ある複数のケースでは、照明条件は、重み付け因子{b}の範囲に、そしてそれゆえ結果として肌−色マップに影響を与えることがある。不均一照明及びセンサ非線形応答を削除するために、センサ校正モジュール30は、一様なグレー・プレーン取り込み及び一定の黒色レベル(BlackLevel)引き算を通したフラット・フィールディング(flat fielding)によって、各照明の下でマクベス色チェッカのそれぞれのパッチに対する補間された生RGB信号を規格化し、例えば:
RGB=(RGB−BlackLevel)/(GrayPlane−BlackLevel) (4)
ここで、GrayPlaneは、マクベス色チェッカに対応するグレー・プレーン上の生の信号である。それに加えて、センサ校正モジュール30は、照明を3つの種類(例えば、昼光−CIE D65、タングステン光−CIE A、及び蛍光−TL84)へと分類し、そしてそれらのそれぞれに対して対応するセンサ統計値を計算する。
大部分のビデオ処理システムがRGBの代わりにYCbCr(ルミナンス、クロミナンス青、クロミナンス赤)色空間を使用するために、センサ校正モジュール30は、白色バランス、色補正、及びガンマ補正処理を通してYCbCr空間へとRGB色マップを変換する。変換された色マップは、楕円体を形成し、それはCbCr面に密集するがY軸に分散する。3D色空間に対する大量のデータを記憶することを避けるために、センサ校正モジュール30は、Yを複数の範囲へと分割する。それぞれのYに関して、センサ校正モジュール30は、次に、入力クロミナンスXが肌−色マップに属する可能性をガウス・モデルによりモデル化する:
Figure 2009512283
ここで、xは次式として定義されるマハラノビス(Mahalanobis)距離である:
=(X−μ)Λ−1(X−μ) (6)
そして、密度の平均ベクトルμと共分散行列Λは、CbCr色マップ中の点の座標から計算されることが可能である。
言い換えると、しきい値、x 、が与えられると、Xは、x≦x の場合に肌クロミナンスとして分類され、そしてそれ以外は非肌クロミナンスとして分類されることができる。不等式x≦x は、中心がμにより与えられそして主軸がΛの固有ベクトルにより与えられる楕円領域を定義する。しきい値xの平方根は、ルミナンス・レベルが中央値にあるときには大きく、そして遠い端で徐々に小さくなるように選択される。それゆえ、センサ校正モジュール30は、ビデオ・センサ12に関するセンサ統計値32として各ルミナンス範囲についてのμとΛの対を保存する。
カメラ処理モジュール34は、ビデオ・センサ12を介してビデオ取込みデバイス11からビデオ系列のビデオ・フレームを受け取る。カメラ処理モジュール34は、上で説明したようにセンサ校正モジュール30によって生成されたセンサ統計値32を同様に受け取る。カメラ処理モジュール34は、カメラ生RGBデータ生成、白色バランス、色補正、カメラ・ガンマ補正、及びRGB色空間からYCbCr空間への変換を取り扱う。カメラ処理モジュール34の出力は、YCbCr4:2:0生データ・フォ−マットである。
上に説明したように、肌−色マップ上の光源の影響を考慮するために、センサ校正モジュール30は、3つの光源(例えば、昼光−CIE D65、タングステン光−CIE A、及び蛍光灯の光−TL84)の下でマクベス色チェッカを使用し、そして規格化されたスケールで[0.6,0.7]のルミナンス・レベル範囲で各光源について1つの肌の色領域を得る。カメラ処理モジュール34は、次に、受け取ったビデオ・フレームの光源を推定し、そして推定した光源を3つの光源のタイプのうちの1つに分類する。このようにして、カメラ処理モジュール34は、そのビデオ・フレームに対して1つの光源を選択する。ROI検出モジュール36内部の肌領域検出器38は、次に、ビデオ・フレーム内の肌−色領域を検出するときに選択された光源に対応するセンサ統計値を使用することができる。
ROI検出モジュール36は、肌領域検出器38、ROI検出コントローラ39、及びROI検出器40を含む。ある複数のケースでは、ROI検出器40は、例えば、VTアプリケーション又はビデオ放送アプリケーションのケースでは、顔検出器を考えることができる、そのビデオ放送アプリケーションは、ライブの又は事前に録画されたニュース、若しくは娯楽放送のような情報ビデオを人間が与える。ROI検出モジュール36は、自動ROI検出技術を実装し、それはビデオ・センサ12の物理的特性及びビデオ取込みデバイス11からのカメラ処理の副次的情報を使用する。自動ROI検出技術は、ROI検出精度を改善し、それはROIビデオ処理システム14の性能を直接的に高める。例えば、肌領域検出器38は、センサ統計値32を使用することができて、ビデオ・フレーム内の肌マップを正確に検出し、そしてROI検出器40は、ビデオ・フレーム内の1又はそれより多くの顔を検出するために、その肌マップを使用することができる。
肌領域検出器38は、センサ校正モジュール30により生成されたセンサ統計値32を受け取った後で比較的単純な検出プロセスを実行することができる。このケースでは、肌領域検出器32は、クロミナンス(CbCr)値がセンサに依存する統計値32により特徴づけられる楕円体の内側であるかどうかを検査する。上に説明したように、ビデオ・フレームに関する楕円体のパラメータは、センサ校正モジュール30から得られる。それに加えて、その楕円体のパラメータは、照明と光源を重視しそしてセンサに依存する。それゆえ、本明細書中で説明される肌領域検出プロセスは、何の知識もなく大量の画像により調整される(trained)従来の肌−トーン調整アプローチよりもさらに正確であり得る。肌領域検出器38は、次に、ビデオ・フレームの検出された肌−トーン領域から肌マップを生成する。
ROI検出コントローラ39は、次に、肌領域検出器38から肌マップとビデオ・フレームに関する情報とを受け取る。ある複数のケースでは、ROI検出コントローラ39は、ROIビデオ処理モジュール42からそのビデオ・フレームとそのビデオ系列の前のビデオ・フレームに関する動き情報を同様に受け取ることができる。ROI検出コントローラ39は、次に、肌マップの品質を判断することができる。もし肌マップが事前に決められたレベルより低い品質を有する場合には、ROI検出コントローラ39は、ROI検出器40にその肌マップを送ることができる。もし肌マップが事前に決められたレベルより高い品質を有する場合には、ROI検出コントローラ39は、ROI検出器40を止めるように決定することができる。このケースでは、肌領域検出器38により生成された肌マップは、ビデオ・フレーム内にROIを生成することが十分に可能であるように思われる。ROI検出モジュール36は、その時は、その肌マップから直接そのビデオ・フレーム内にROIを生成することができる。
別のケースでは、ROI検出コントローラ39は、受け取った現在のビデオ・フレーム情報と動き情報とに基づいてビデオ・フレームの計算上の複雑性を判断することができる。もしビデオ・フレームが事前に決められたレベルよりも低い計算上の複雑性を有する場合には、ROI検出コントローラ39は、ROI検出器40を止めるように判断することができる。ROI検出モジュール36は、次に、その肌マップから直接そのビデオ・フレーム内にROIを生成することができる。もしビデオ・フレームが事前に決められたレベルよりも高い計算上の複雑性を有する場合には、ROI検出コントローラ39は、ROI検出器40にその肌マップを送ることができる。このケースでは、ビデオ・フレームは、新たなROI又は前に処理されなかった多数のROI特徴を含むことができる、若しくはビデオ・フレームは、ビデオ系列の前のビデオ・フレームからの大量の動きを含むことができる。
1実施形態にしたがって、ROI検出器40は、リアルタイム処理のために低複雑性ROI検出アルゴリズムを実行し、それは図8に関連してさらに詳しく説明される。上に説明したように、ROIビデオ処理システム14は、電力を節約するためにある状況ではROI検出器40を止めることが可能である。ROIビデオ処理システム14は、非常に正確にセンサに最適化された肌領域検出器38を利用し、それは肌マップ内の可能性のあるROI特徴、例えば、目の特徴候補及び口の特徴候補、を不適切に選択しない。ROI検出器40は、次に、生成されたビデオ・フレームの肌マップ内の1又はそれより多くの顔又はROIを自動的に検出する。このようにして、ROI検出器40は、低複雑性アルゴリズムを実行することができ、それは移動体VTアプリケーションにおいて特に有用である。しかしながら、ある別の肌領域検出アルゴリズムは、肌領域検出器38の性能を高速化するために肌マップの一部として顔の特徴を分類することができる。
ROI検出モジュール36は、次に、ビデオ・フレーム内で検出された顔のそれぞれに対してROIを生成することができる。ROIビデオ処理モジュール42は、次に、ビデオ・フレーム内の非ROIエリアに比較して生成されたROIを選択的に処理する。ビデオ・コーディングの実施形態では、ROIビデオ処理モジュール42は、重み付けビット割り当てと適応背景スキッピングを使用してビデオ・フレーム内のROIを選択的にエンコードすることができ、優れたコーディング効率を提供する。特に、各ROIは、背景エリアよりも多くのビットを割り当てられ、そして背景エリアは、複数のフレームのあいだ完全にスキップされることができる。背景スキッピングのケースでは、前のフレームからの背景が、背景エンコーディングがそこではスキップされるフレームの背景を置き換えることができる。ビデオ系列の各フレームが処理された後で、ROIビデオ処理モジュール42は、選択的にコード化されたROIの出力画像ビットストリームを別のビデオ通信デバイスに送ることができる。
図7は、ビデオ・センサ12の特性に基づいてビデオ通信デバイス10中に含まれるROIビデオ処理システム14の動作を説明するフロー・チャートである。センサ校正モジュール30は、ビデオ・センサ12の肌の色反射率スペクトルとテスティング・ターゲット、例えば、マクベス色チェッカ・チャート、の反射率スペクトルに基づいてセンサ校正を実行する(46)。センサ校正モジュール30は、次に、校正プロセスに基づいてビデオ・センサ12に関するセンサ統計値32を生成する(48)。前に論じたように、ある複数の実施形態では、センサ統計値は、ビデオ・センサ12に対して準備されたCbCr色マップ中の点の座標から計算される平均ベクトルμと共分散行列Λとを含むことができる。μとΛの対は、ビデオ・センサ12に関するセンサ統計値32として各ルミナンス範囲に対してセンサ校正モジュール30によって記憶される。
カメラ処理モジュール34は、ビデオ・センサ12を経由してビデオ取込みデバイス11から受け取ったビデオ・フレームとセンサ統計値32とに基づいてカメラ処理を実行する(50)。カメラ処理モジュール34は、受け取ったビデオ・フレームの光源状態を推定することができ、そして推定した光源を3つの光源タイプ(すなわち、昼光−CIE D65、タングステン光−CIE A、及び蛍光灯の光−TL84)のうちの1つに分類することができる。カメラ処理モジュール34からの選択された光源とその選択された光源に対応するセンサ統計値32は、次に、ROI検出モジュール36へと供給される。ROI検出モジュール36は、肌領域検出器38、ROI検出コントローラ39、及びROI検出器40を含む。肌領域検出器38は、光源とセンサ統計値32とに基づいてビデオ・フレーム内の肌領域を検出して(50)、肌マップを生成する。
ROI検出コントローラ39は、次に、ビデオ・フレーム内でROI検出を実行するかどうかを判断する(53)。例えば、ROI検出コントローラ39は、もし検出された肌マップがビデオ・フレームのROIを生成するために十分な品質である場合には、ROI検出器40を止めるように、そしてROI検出を実行しないように決定することができる。それに加えて、もしそのビデオ・フレームが少数の可能性のあるROI特徴若しくはそのビデオ・フレームとそのビデオ系列の前のビデオ・フレームとの間の最小の量の動き又は変化を含む場合には、ROI検出コントローラは、ROI検出器40を止めるように、そしてROI検出を実行しないように決定することができる。ROI検出器40を止めることは、ROIビデオ処理システム14内の電力消費を削減することができる。
ROI検出コントローラ39が低品質肌マップ又は高い複雑性のビデオ・フレームを受け取るときには、ROI検出コントローラ39は、その肌マップをROI検出器40に送る。ROI検出器40は、ROI特徴検出と検証に基づいて肌領域検出器38からの肌マップ内の1又はそれより多くのROIを検出する(54)。ROI検出が実行されるかどうかに拘わらず、ROI検出モジュール36は、検出された肌マップ又は肌マップ内の検出されたROIのいずれかに基づいて1又はそれより多くのROIを生成する(56)。ROI生成モジュール36は、次に、ビデオ・フレームの生成されたROIをROIビデオ処理モジュール42に送る。ROIビデオ処理モジュール42は、ビデオ・フレームのROIをマルチメディア・アプリケーションのためのビットストリームへと選択的に処理する(58)。
図8は、ROIビデオ処理システム中に含まれるROI検出器60を説明するブロック図である。ROI検出器60は、低複雑性顔検出アルゴリズムを実装することができ、それは1又はそれより多くの顔を、すなわち、ROIを、ビデオ・フレームの肌マップから効率的に抽出する。ある複数のケースでは、ROI検出器40は、顔検出器と考えられることができる。例えば、VTアプリケーション若しくはライブ又は事前に録画されたニュース又は娯楽放送のような情報ビデオを人間がその中で与えるビデオ放送アプリケーションのケースでは。
1つの実施形態では、ROI検出器60は、図5のROIビデオ処理システム14中に含まれるROI検出器40に実質的に同じであることができる。このケースでは、ROI検出器60は、ビデオ・センサ12のセンサ統計値32に基づいて肌領域検出器38により生成された肌マップを受け取ることができ、そしてセンサ統計値32に基づいて低複雑性ROI検出を実行することができる。別の1つの実施形態では、ROI検出器60は、センサ統計値に基づかないで肌領域検出器から肌マップを受け取ることができる。このケースでは、ROI検出器60は、図5のROIビデオ処理モジュール42と類似のROIビデオ処理モジュールから受け取られる動き情報に基づいて低複雑性ROI検出を実行することができる。
ある複数のケースでは、ROI検出器60は、ビデオ系列のモード内ビデオ・フレームをそのビデオ・フレームの他のフレームとは独立してそして動き情報なしで処理することができる。別のケースでは、ROI検出器60は、現在のビデオ・フレームとそのビデオ系列の前のビデオ・フレームとの間のROIに関する動き情報に基づいてモード間フレームを処理することができる。モード内フレームを処理するためにROI検出器60により使用される動き情報は、ROIビデオ処理モジュール、例えば、ROIビデオ処理モジュール42、において動き推定の間に得られる動きベクトルを含むことができる。
例示された実施形態では、ROI検出器60は、領域ラベリング・モジュール62、領域選択モジュール64、特徴検出及び検証モジュール66、ROI領域選択モジュール68、形態的操作モジュール70、及びROIマクロブロック(MB:macroblock)選択モジュール72を含む。図9A−図9Gは、センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内のROIを自動的に検出するときに、ROI検出器60により実行される技術の具体例の結果を説明する画面の複数の場面である。別のケースでは、ROI検出器60は、別の1つの方法でそしてセンサ統計値を使用することなく生成されたビデオ・フレームの肌マップ内のROIを自動的に検出することができる。
図5を参照して上に説明したように、肌領域検出器は、ビデオ・フレーム内の肌領域を検出し、そしてその検出された肌領域から肌マップを生成する。図9Aは、ROI検出モジュールによるいずれかの処理の前の具体例のビデオ・フレームを図示する。図9Bは、センサ統計値に基づいて肌領域検出器により生成されるビデオ・フレームの具体例の肌マップを図示する。一旦、肌領域検出器がビデオ・フレームの肌マップを生成すると、領域ラベリング・モジュール62は、その肌マップを複数の繋げられていない領域へと分割する。このケースでは、肌領域検出器は、肌マップ内のそれぞれの顔又はROIが繋げられた領域中に含まれると仮定することができる。言い換えると、肌マップ内のROI特徴、例えば、顔の特徴、は、領域ラベリング・モジュール62が顔又はROIを1より多くの繋げられた領域へと分割することを妨げるはずである。
それに加えて、領域選択モジュール64は、ビデオ・フレーム内に多くとも2のROI又は顔があると仮定することができる、それは多くのケースでは妥当であり、そしてROI検出プロセスを大いに単純化する。領域選択モジュール64は、肌マップの繋げられていない領域から3個までの候補領域を選択し、それらの領域はビデオ・フレーム内で最大エリアを含む。ROI領域選択モジュール68は、次に、それぞれの候補領域内で特徴検出及び検証モジュール66により検出された顔の特徴に基づいてその候補領域から1又はそれより多くのROI領域を選択する。
特徴検出及び検証モジュール66は、事前に決められたルールの集合を使用して顔の特徴に関する候補領域の全てを検査する。通常、顔の特徴は、候補領域の内側の大きな強度コントラストにより特徴付けられる肌マップの谷の領域に位置する。それゆえ、特徴検出及び検証モジュール66は、グレースケール−密接及び拡張(grayscale-close and dilation)形態的操作を実行することによって谷領域を見つけることができる。もし顔の特徴候補が検出された谷領域と重ならないエリアを有する場合には、その顔の特徴候補は、候補リストから削除される。この実施形態では、特徴検出及び検証モジュール66は、目の検出を主に実行し、それは2つの観察に基づくことができる。
第1に、目の周りのクロミナンス成分は、通常、高いCb値と低いCr値とを含む。それゆえ、特徴検出及び検証モジュール66は、次式によりクロミナンス目マップを構築することができる。
C=(Cb+(255−Cr)+(Cb/Cr))/3 (7)
一旦、クロミナンス目マップが得られると、特徴検出及び検証モジュール66は、目の候補に対して目マップ内の最も明るい領域の位置を決めるために、クロミナンス(C)目マップにしきい値を適用することができる。特徴検出及び検証モジュール66は、次に、形態的操作を適用して、1つの目の候補へと実質的に閉じられた最も明るい領域を併合する。
第2に、目は、ルミナンス成分で暗いピクセルと明るいピクセルの両方を通常含む。それゆえ、特徴検出及び検証モジュール66は、目の付近でルミナンス成分のより明るいピクセルとより暗いピクセルを強調するためにグレースケール形態的操作を使用することができる。特徴検出及び検証モジュール66は、次式によりルミナンス目マップを構築することができる
L=Dilation(Y)/(Erosion(Y)+1) (8)。
一旦、ルミナンス目マップが得られると、特徴検出及び検証モジュール66は、ルミナンス(L)目マップにしきい値を適用することができて、目の候補として目のマップの内の最も明るい領域の位置を決めることができる。特徴検出及び検証モジュール66は、次に、形態的操作を適用して、実質的に最も明るい領域を閉じるために1つの目の候補へと併合する。
特徴検出及び検証モジュール66は、次に、2つの目のマップを繋げて、最終的な目の特徴候補を見出す。図9Cは、特徴検出及び検証モジュール66により検出される、目の特徴候補のような具体例の顔の特徴候補を図示する。明らかに、その他の顔の特徴、例えば、口、まゆ、鼻孔、及び顎、は、候補領域内で顔を見つけるために手がかりとして同様に検出されることができる。これらの追加の顔の特徴は、ビデオ・フレーム内のROI又は顔を検出するとき、特に目がビデオ・フレーム中に見えない又は不鮮明であるときに、非常に有用であり得る。
一旦、特徴検出及び検証モジュール66が1又はそれより多くの候補領域内に顔の特徴候補を検出すると、顔の特徴は、いずれかの誤りの検出を除去するためにルールのある集合に基づいて検証される。最初に、特徴検出及び検証モジュール66は、検出された目のマップを肌領域検出器により検出されなかったビデオ・フレームの非肌領域と重ね合わせる。上記の肌領域検出器、すなわち、図5の肌領域検出器38は、肌マップを生成するときに顔の特徴を誤って検出しない。それゆえ、正しい目の特徴は、肌マップの一部ではない。
第2に、肌マップの候補領域内の顔の特徴は、肌マップ中の内部の穴を含み、それは正しい顔の特徴が肌領域により囲まれるはずであることを意味する。第3に、目の特徴候補を含んでいる候補領域のそれぞれのエリアは、[15,500]の範囲内であるはずである。第4に、目の特徴候補を含んでいる候補領域のそれぞれを囲んでいる四角は、ROI領域候補を囲んでいる四角のうちの1つに含まれる。図9Dは、特徴検出及び検証モジュール66により検証される具体例の顔の特徴、例えば、目の特徴を図示する。
ROI領域選択モジュール68は、次に、最大の顔の特徴を含む候補領域をROI領域として選択する。ある複数のケースでは、ROI領域選択モジュール68は、2つまでのROI領域を選択することができる。ROI領域選択モジュール68は、ROI領域又は顔の領域が最大の顔の特徴候補を通常含み、そして肌マップ内の他の領域よりも大きなエリアをカバーするという観察に基づいてROI領域を選択する。それゆえ、ROI領域選択モジュール68は、その領域の内側の複数の顔の特徴とその領域のそのエリアとの共通部分として最大値を有する上から2つの候補領域に対応するROI領域を選択する。もしどの候補領域も顔の特徴を含まない場合には、ROI領域選択モジュール68は、ROI領域として最も大きい候補領域を選択する。
図9Eは、検出された顔の特徴に基づいてROI領域選択モジュール68により選択される具体例のROI領域を図示する。形態的操作モジュール70は、次に、選択されたROI領域に形態的操作を実行して、検出された顔の特徴に対応するROI領域内の穴を埋める。図9Fは、形態的操作モジュール70により実行された形態的操作の後の具体例のROI領域を図示する。
最後に、ROI MB選択モジュール72は、ROIに対応するビデオ・フレームのマクロブロックをROIマクロブロックとして選択する。例えば、もしあるマクロブロックの事前に決められた割合よりも広いエリアが選択されたROI領域と重なる場合には、ROI MB選択モジュール72は、ビデオ・フレームの一部としてそのマクロブロックを選択することができる。ある複数のケースでは、事前に決められた割合は、10%を含む。マクロブロックは、ビデオ・フレームの一部を形成するビデオ・ブロックである。MBのサイズは、16×16であり得る。しかしながら、別のMBサイズが可能である。マクロブロックは、マクロブロックが様々な異なるサイズを有することができるという理解で、説明の目的のために本明細書中で記述される。図9Gは、ビデオ・フレームの選択されたROI領域に基づいてROI MB選択モジュール72により選択される具体例のROIマクロブロックを図示する。ROI検出モジュール36は、次にROI MB選択モジュール72により選択されたROIマクロブロックに基づいてビデオ・フレームのROIを生成する。
上に説明されたROI検出プロセスは、モード内ROI検出プロセスを含み、そこではROI検出器60は、ビデオ系列の別のフレームとは独立してそして動き情報なしで、あるビデオ系列のビデオ・フレームを処理する。別のケースでは、ROI検出器60は、現在のビデオ・フレームとそのビデオ系列の前のビデオ・フレームとの間のROIに関する動き情報に基づいて低複雑性モード間ROI検出プロセスを実行することができる。モード内フレームを処理するためにROI検出器60により使用される動き情報は、ROIビデオ処理モジュールにおける動き推定の期間に得られた動きベクトルを備えることができる。モード内ROI検出プロセスは、より高い複雑性プロセスと考えられることができる。動き情報のおかげで、モード間ROI検出プロセスは、より低い複雑性プロセスと考えられることができる。ROI検出器60によって受け取られる肌マップがセンサに固有の統計値に基づいて生成されるケースでは、肌マップの品質の改善は、モード内ROI検出プロセスとモード間ROI検出プロセスとの両方の複雑さをさらに低減することができる。
モード間ROI検出プロセスでは、ROI検出器60は、前のフレーム中のROIを追跡することに基づいて現在のビデオ・フレーム内のROIを検出し、そしてROIビデオ処理モジュール、例えば、図5のROIビデオ処理モジュール42、から受け取られる動きベクトルを利用する。このケースでは、ROI検出器60は、現在のビデオ・フレームの各マクロブロックを前のビデオ・フレームの対応するマクロブロックと比較する。ROI検出器60は、前のビデオ・フレームの対応するマクロブロックが前のビデオ・フレーム内のROIと十分な量の重なりを有するかどうかを判断する。ROI検出器60は、しかもそこにおいて現在のマクロブロックが現在のフレームの肌マップと十分な量の重なりを有するかも判断する。例えば、十分な量の重なりは、前のビデオ・フレームのROI又は現在のビデオ・フレームの肌マップとそのマクロブロックの事前に決められた割合よりも多くのエリアとの重なりを含むことであり得る。ある複数のケースでは、事前に決められた割合は、10%を含むことができる。
もし両方の条件が満足される場合には、ROI検出器60は、現在のマクロブロックをROI領域の一部として選択する。この解は、ROIビデオ処理モジュールにより与えられるビデオ処理アルゴリズムを上手くつなげることができ、そして比較的単純な操作を含む。それゆえ、本明細書中で説明される低複雑性モード間ROI検出プロセスは、他のモード間アプローチよりもはるかに効率的である。
低複雑性モード間ROI検出プロセスは、早く動いているROIを追跡することが困難であることがある。それゆえ、ROI検出器60に接続されるROI検出コントローラ、図5のROI検出コントローラ39に実質的に同じである、は、ある状況ではより高い複雑性のモード内ROI検出プロセスを呼び出す適応アルゴリズムを実行することができる。例えば、ROIがモード間ROI検出プロセスを使用して自動的に検出される連続するビデオ・フレームの数が、事前に決められたレベル(例えば、10フレーム毎)よりも高いときに、ROI検出コントローラは、ROI検出器60に定期的にモード内ROI検出プロセスを実行するようにさせることができる。別の例では、ROI検出コントローラが、ビデオ系列の複数のビデオ・フレーム間の動きのアクティビティが事前に決められたレベルよりも高いことを検出するときに、ROI検出コントローラは、ROI検出器60にモード内ROI検出を実行するようにさせることができる。このように、適応アルゴリズムがビデオ・フレーム中に現れる新しい顔を素早く検出することが不可能であり得るとはいえ、適応アルゴリズムは、ROI検出器60を含むROIビデオ処理システム内の複雑性を劇的に減少させる。
図10Aと図10Bは、ROIビデオ処理システムのROI検出モジュール内のROI検出器60の動作を説明するフロー・チャートである。ROI検出器40は、肌マップを受け取る(80)。1つの実施形態では、ROI検出器60は、図5のROIビデオ処理システム14中に含まれるROI検出器40と実質的に同じであり得る。このケースでは、ROI検出器60は、ビデオ・センサ12のセンサ統計値32に基づいて肌領域検出器38により生成された肌マップを受け取り、そしてセンサ統計値32に基づいて低複雑性ROI検出を実行する。別の1つの実施形態では、ROI検出器60は、センサ統計値に基づかないで肌領域検出器からの肌マップを受け取ることができる。このケースでは、ROI検出器60は、図5のROIビデオ処理モジュール42に類似のROIビデオ処理モジュールから受け取った動き情報に基づいて低複雑性ROI検出を実行することができる。
ROI検出モジュール中に含まれるROI検出コントローラは、次に、ROI検出器60がモード内ROI検出プロセス又はモード間ROI検出プロセスを実行するかどうかを判断する(81)。ROI検出器60は、そのビデオ系列の別のフレームとは独立してそして動き情報を用いずにビデオ系列のビデオ・フレームにモード内ROI検出プロセスを実行することができる。ROI検出器60は、現在のビデオ・フレームとそのビデオ系列の前のビデオ・フレームとの間のROIに関する動き情報に基づいてモード間ROI検出プロセスを実行することができる。
ある複数のケースでは、ROI検出コントローラは、N個のフレーム(例えば、10フレーム)毎に、若しくは大きな動き又は変化が現在のビデオ・フレームと前のビデオ・フレームとの間で検出されたときに、ROI検出器60に高複雑性モード内ROI検出プロセスを実行するようにさせる。別のケースでは、もし最後のフレームがモード内プロセスを使用して処理された場合、若しくは最少量の動き又は変化が現在のビデオ・フレームと前のビデオ・フレームとの間で検出されたときに、ROI検出コントローラは、ROI検出器60に低複雑性モード間ROI検出プロセスを実行するようにさせる。
図10Aに示されたように、もしROI検出コントローラがROI検出器60にモード内ROI検出プロセスを実行するようにさせる場合に(81のYESの枝分かれ)、領域ラベリング・モジュール62は、肌領域検出器38から受け取った肌マップを複数の繋がっていない領域に分割する(82)。領域選択モジュール64は、次に、そのビデオ・フレーム内で最大エリアを含む領域を候補領域として選択する(84)。低複雑性を維持するために、領域選択モジュール64は、3個の候補領域を選択するだけである。
特徴検出及び検証モジュール66は、候補領域のそれぞれの内部の特徴検出を実行し、そして次に、顔の特徴候補を検証して誤検出を除去する(86)。ROI領域選択モジュール68は、次に、最も大きなROI特徴と最大エリアとを有する候補領域をROI領域として検出する(88)。例えば、ROI領域検出モジュール68は、最大の量のROI特徴を有する2つの候補領域を選択することができる。候補領域のいずれもがROI特徴を含まないケースでは、ROI領域選択モジュール68は、ビデオ・フレームの最大エリアを有する候補領域をROI領域として選択することができる。
形態的操作モジュール70は、次に、1又はそれより多くの選択されたROI領域について形態的操作を実行して、検出された顔の特徴に対応するROI領域内の穴を埋める(90)。最後に、ROI MB選択モジュール72は、その選択されたROI領域と重なるビデオ・フレームのマクロブロックをROIマクロブロックとして選択する(92)。例えば、あるマクロブロックの範囲の事前に決められた割合、例えば、10%、よりも多くのエリアが選択されたROI領域と重なる場合には、ROI MB選択モジュール72は、ビデオ・フレームのROIの一部としてそのマクロブロックを選択することができる。ROI検出モジュール36は、次に、ROI MB選択モジュール72によって選択されたROIマクロブロックに基づいてビデオ・フレームのROIを生成する。
図10Bに示されたように、もしROI検出コントローラがROI検出器60にモード間ROI検出プロセスを実行するようにさせる場合には(81のNO枝分かれ)、ROI検出モジュール60は、ROIビデオ処理モジュールから動きベクトルと前のビデオ・フレームのマクロブロックとを受け取る(96)。ROI検出器60は、次に、現在のビデオ・フレームの各マクロブロックを前のビデオ・フレームの対応するマクロブロックと比較する(98)。
ROI検出器60は、前のビデオ・フレームの対応するマクロブロックが前のビデオ・フレームのROIと十分に重なるかどうか(99)、そして現在のビデオ・フレームのマクロブロックが現在のビデオ・フレームから生成された肌マップと十分に重なるかどうかを判断する(100)。もしどちらかの条件が満足されない場合には、ROI検出器60は、ROIの一部として考えることからそのマクロブロックを落とす(102)。もし両方の条件が満足される場合には、ROI検出器60は、現在のビデオ・フレーム内のROIの一部としてそのマクロブロックを選択する(104)。ROI検出器60を含むROI検出モジュールは、次に、ROI検出器60によって選択されたROIマクロブロックに基づいてビデオ・フレームのROIを生成する。
図5に戻って、ROIビデオ処理システム14は、ROIビデオ処理モジュール42を含み、それは生成されたROIを選択的に処理する。一例として、ROIビデオ処理モジュール42は、ROIビデオ・コーディング・モジュールとして下記に説明され、それは重み付けビット割り当てと適応背景スキッピングとを使用することによりビデオ・フレーム内のROIを選択的にエンコードする。ビデオ系列の各フレームが処理された後で、ROIビデオ処理モジュール42は、選択的にコード化されたROIの出力画像ビットストリームを別のビデオ通信デバイスに送ることができる。
ROIビデオ処理モジュール42は、ROIビデオ・コーディングのために最適化されたρ−ドメイン・ビット割り当て方式を実行することができる。このケースでは、ρは、ビデオ・コーディングの際にマクロブロック中の非ゼロの量子化されたAC係数の数又は割合を表す。ρ−ドメイン・レート制御モデルとQP−ドメイン・レート制御モデルとの間の主な相違は、ρ−ドメイン・モデルがより正確であり、そしてそれゆえレート変動を効率的に低減することである。
それに加えて、ROIビデオ処理モジュール42は、ROIビデオ・コーディングに対して視覚的な品質測定を使用する。例えば、ビデオ・フレームのROIと非ROIの規格化されたピクセル当たりの歪は、DとDNRにより表わされることができ、そしてROI視覚重要性係数は、αによって表わされことができる。上に述べた複数の態様の間の関係がビデオ品質評価の際に線形関数へと単純化されることが可能であると仮定することができ、そのときには、ビデオ・フレームの総合歪は次式として表わされることが可能である:
Frame=αD(f、f)+(1−α)DNR(f、f) (9)
ここで、fとfは、元々のフレームと再構成されたフレームである。式(9)から、αが0と1との間の実数を割り当てられるべきであることは、明らかであり、そしてαの選択は、ビデオ通信デバイス10のエンド・ユーザにより彼らの必要性と期待値に基づいて決定される。再び、この測定は、完全な測定基準ではないが、その本質的な概念を好ましいものにするためにビット割り当てプロセスに役立つことができる。
所定のフレームfに対する全ビット・バジェットは、Rbudgetにより表わされることができ、そしてフレームをコーディングするためのビット・レートは、Rにより表わされることができ、その場合には、問題は次のように表わされることができる:
R≦Rbudgetになるように、DFrameを最小化する (10)
ROIビデオ・コーディングでは、Nはフレーム中のマクロブロックの数を表すことでき、そして{ρ},{σ},{R}及び{D}は、それぞれ、i番目のマクロブロックに関するρs、標準偏差、レート及び歪(すなわち、二乗誤差の総和)の集合を表わす。それゆえ、各マクロブロックに対する重み{w}の集合は、次式により定義されることができる:
Figure 2009512283
ここで、KはROI内のマクロブロックの数である。それゆえ、フレームの重み付けされた歪は:
Figure 2009512283
それゆえ、式(4)は、次のように書き直されることが可能である:
R≦Rbudgetになるように、Dを最小化する (13)
ROIビデオ処理モジュール42は、モデリングに基づいたビット割り当てアプローチを使用することにより式(13)を解くことができる。自然画像のAC係数の分布は、次式のラプラス分布によって最適近似されることが可能である:
Figure 2009512283
それゆえ、i番目のマクロブロックのレート及び歪は、ρの関数として式(14)と式(15)とにおいてモデル化されることができ、
=Aρ+B (14)
ここで、AとBは、一定のモデリング・パラメータであり、そしてAは非ゼロ係数をエンコードするために必要な平均ビット数として考えられることができ、そしてBは非テクスチャ情報によるビットとして考えられることができる。
Figure 2009512283
ここで、θは、未知の定数である。
ROIビデオ処理モジュール42は、コンタイザ(quantizer)の代わりにρを最適化することができ、その理由は、ROIビデオ処理モジュール42が、任意の選択されたρからきちんとしたコンタイザを生成するために利用可能な十分に正確なρ−QPテーブルがあることを仮定するためである。一般に、式(13)は、ラグランジュ緩和を使用することにより解かれることができ、そこでは拘束問題は、次式の非拘束問題へと変換される:
Figure 2009512283
ここで、λは、
Figure 2009512283
を使用可能にする解である。式(16)において部分導関数をゼロに設定することにより、最適化されたρに対して下記の式は:
Figure 2009512283
によって得られる。一方で、
Figure 2009512283
であるため、その結果、
Figure 2009512283
である。式(20)と式(22)から、ビット割り当てモデルIは、次のように得られる:
Figure 2009512283
同様に、もしROIビデオ処理モジュール42がステップ・サイズqを有する一様なコンタイザを仮定する場合には、ビット割り当てモデルIIが、次式のように生成される:
Figure 2009512283
結果は、両方のモデルが近い最適な解法を実行することを示す。フレームに関するビット・バジェットが与えられそして式(23)又は式(24)を使用して、ROIビデオ処理モジュール42は、フレーム内のマクロブロック全体にわたりビットを最適に割り当てることが可能であり、式(9)で定義される認識される歪を最小にする。ROIビデオ処理モジュール42は、その単純さのためにROIビデオ処理システム14においてビット割り当てモデルIIを使用することができる。
非常に低ビット・レートのケースでは、ビデオ・フレームの非ROIエリアは、通常粗くコード化され、それは低い視覚的な品質をもたらす。一方で、背景が非ROIエリアと考えられるVTアプリケーションの大部分のケースでは、背景に限られた量の動きしかない。それゆえ、背景スキッピングは、スキッピングがビデオの忠実度をひどく害さない限り、前景領域とコード化された背景領域の品質を向上させるためにビットを再割り当てするための可能性のある解である。このケースでは、ROIビデオ処理モジュール42は、フレームの各対をユニットへとグループ化する。各ユニットでは、第1の背景がコード化される、ところが第2の背景は、ゼロの動きベクトルを有する予測されるマクロブロックに基づいてスキップされる。フレーム・レベル・ビット割り当てでは、ROIビデオ処理モジュール42は、ビデオ系列内のビデオ・フレームのコンテントの複雑性が一様に分散され、そしてそれゆえビットが複数のユニット間で一様に割り当てられることを仮定する。ユニット内では、式(24)は、複数のマクロブロック間のビット割り当てのために使用されることができる。
ROIビデオ処理システム14では、ROIビデオ処理モジュール42は、スキッピングにより生じる歪(DNonROI_skip)に基づいてユニット中の背景スキッピングを適応性よく制御する。大量の動きを含んでいる背景を有するビデオ系列に関して、重要な背景情報のスキッピングは、ROIビデオ・コーディング・システム性能を損なうことがある。ROIビデオ処理モジュール42は、背景スキッピング・モードを決定するために歪しきい値を使用する。しきい値は、最後に処理されたユニットのスキッピング歪のαと統計値に関係付けられることができる。D を最後のn個のユニットの平均歪として表示することにより、しきい値は、D /2(1−α)として定義されることができる。
ROIビデオ処理モジュール42は、以下のように適応背景スキッピング・アルゴリズムを実行することができる。最初に、ROIビデオ処理モジュール42は、D =0に設定することによりそしてスキッピング・モードをONに設定することにより背景スキッピング・アルゴリズムを初期化する。次に、ROIビデオ・コーディング・モジュールは、次式により現在の(i番目の)ユニットに対するρバジェットを割り当てる:
Figure 2009512283
ここで、Mはレート制御セグメント中のフレーム数であり、ρsegmentはそのセグメントに割り当てられるρの数であり、そしてρusedはそのセグメント内で現在のユニットまでに使用されたρの数である。次に、現在のユニット内で、ROIビデオ処理モジュール42は、式(24)により各マクロブロックに対してビットを割り当てる。もしスキッピング・モードがONである場合には、第2フレームの非ROIエリアに対して何のビットも割り当てられない。
現在のユニットに対する歪みが得られた後で、ROIビデオ処理モジュール42は、D =(1−η)D n−1+ηDによりD を更新する、ここで、ηは学習係数であり、そしてそれは[0,1]の範囲内である。ROIビデオ処理モジュール42は、ρ統計値を更新し、そして次のユニットに対するデータを得る。もしこれが最後のユニットである場合には、ROIビデオ処理モジュール42は、そのアルゴリズムを終わらせることができる。もしそれが最後のユニットでない場合には、ROIビデオ処理モジュール42は、新しいユニットに対するDNonROI_skipを計算する。もし、DNonROI_skip>D /2(1−α)であれば、ROIビデオ処理モジュール42は、スキッピング・モードを止める。それ以外は、ROIビデオ処理モジュール42は、新しいユニットに対して上記のアルゴリズムを繰り返す。
本明細書中に記載された技術は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの組み合わせとして与えられることができる。ソフトウェアにおいて与えられる場合、本技術は、命令を含んでいるプログラム・コードを備えるコンピュータ読み取り可能な媒体により部分的に実現されることができ、その命令は、実行されるときに、上に記載された1又はそれより多くの方法を実行する。そのケースでは、コンピュータ読み取り可能な媒体は、シンクロナス・ランダム・アクセス・メモリ(SDRAM:synchronous random access memory)のようなランダム・アクセス・メモリ(RAM:random access memory)、読み出し専用メモリ(ROM:read only memory)、不揮発性ランダム・アクセス・メモリ(NVRAM:non-volatile random access memory)、電気的消去書き込み可能ROM(EEPROM:electrically erasable programmable ROM)、フラッシュ・メモリ、磁気又は光学的データ記憶媒体、及びその他を含むことができる。
プログラム・コードは、1又はそれより多くのプロセッサ、例えば、1又はそれより多くのディジタル信号プロセッサ(DSP:digital signal processor)、汎用マイクロプロセッサ、用途特定集積回路(ASIC:application specific integrated circuit)、フィールド・プログラマブル論理アレイ(FPGA:field programmable gate array)又は他の同等の集積回路又はディスクリート論理回路、により実行されることができる。ある複数の実施形態では、本明細書中に記載された機能は、自動オブジェクト分割のために構成された専用のソフトウェア・モジュール又はハードウェア・ユニット内に与えられることができる、若しくは自動オブジェクト分割システム中に組み込まれることができる。
本明細書では、様々な技術が、ビデオ系列のビデオ・フレーム内で低複雑性自動ROI検出のために記載されてきている。ある複数のケースでは、低複雑性自動ROI検出は、センサに固有の特性に基づくことができる。別のケースでは、低複雑性自動ROI検出は、ビデオ・フレームとビデオ系列の異なるビデオ・フレームの動き情報に基づくことができる。ROIビデオ処理システムは、開示された技術の1又はそれより多くを個別に又は組み合わせで与えることができ、マルチメディア・アプリケーション、例えば、ビデオ監視アプリケーション、VTアプリケーション、又はビデオ同報通信アプリケーション、における使用のために自動的に検出されそして正確に処理されたROIを提供する。
開示された技術は、特定のビデオ・センサの特性に基づいてビデオ通信デバイス内のビデオ・センサ校正、カメラ処理、ROI検出、及びROIビデオ処理を調整すること及び向上させることが可能なビデオ処理技術を含む。そのビデオ処理技術は、別のタイプのビデオ・センサに普遍的に適用可能である。このように、開示された技術は、ビデオ・センサの物理的な特性及び統計値に基づいてROIビデオ処理能力を高めることができる。
開示された技術は、同様に、センサに基づくROI検出技術を含み、それはビデオ・センサの物理的な特性及びカメラ処理の副次的な情報を使用してROI検出精度を向上させる、それはROIビデオ処理能力を直接的に高める。例えば、肌領域検出器は、ビデオ・センサ統計値を使用してビデオ・フレーム内の肌マップを正確に検出し、そして顔検出器は、その肌マップを使用してビデオ・フレーム内の1又はそれより多くの顔を検出する。開示された技術は、しかも動きに基づいたROI検出技術を含み、それはビデオ処理の際の動き推定の間に得られる動き情報を使用する。例えば、顔検出器は、肌マップと動き情報、例えば、動きベクトル、を使用して、低複雑性顔検出を実行し、それはその動き情報に基づいて肌マップ内の1又はそれより多くの顔、すなわち、ROIを効率的に抽出する。これらの実施形態及びその他の実施形態は、特許請求の範囲の範囲内である。
関心領域(ROI)ビデオ処理システムを組み込んでいる具体例のビデオ通信デバイスを説明するブロック図である。 ビデオ系列のビデオ・フレーム内のROIエリアと非ROIエリアとの定義を説明する図である。 ビデオ系列のビデオ・フレーム内のROIエリアと非ROIエリアとの定義を説明する図である。 ビデオ系列のROI内に表されるオブジェクトの動き/回転の変化及びオブジェクトに関する変形を説明する図である。 ビデオ系列のROI内の人物に関する表情の変化を説明する図である。 ビデオ・センサの特性に基づいてビデオ・フレームのROIを選択的にコード化するビデオ通信デバイス内部のROIビデオ処理システムを説明するブロック図である。 ビデオ・センサの具体例の肌の色反射率スペクトルを示す図である。 マクベス色チェッカ・テスティング・ターゲットの具体例の反射率スペクトルを図示する。 元々の肌の色反射率スペクトルと再構成された肌の色反射率スペクトルとの整合性を検証する具体例の反射率スペクトルを図示する。 ビデオ・センサの特性に基づくビデオ通信デバイス中に含まれるROIビデオ処理システムの動作を説明するフロー・チャートを示す図である。 ROIビデオ処理システムのROI検出器を説明するブロック図である。 センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でROIを自動的に検出するときに、図8のROI検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。 センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でROIを自動的に検出するときに、図8のROI検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。 センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でROIを自動的に検出するときに、図8のROI検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。 センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でROIを自動的に検出するときに、図8のROI検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。 センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でROIを自動的に検出するときに、図8のROI検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。 センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でROIを自動的に検出するときに、図8のROI検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。 センサに固有の統計値に基づいて生成されるビデオ・フレームの肌マップ内でROIを自動的に検出するときに、図8のROI検出器により実行される技術の具体例の結果を説明する画面の一場面を示す図である。 ROIビデオ処理システムのROI検出モジュール内部のROI検出器の動作を説明するフロー・チャートを示す図である。 ROIビデオ処理システムのROI検出モジュール内部のROI検出器の動作を説明するフロー・チャートを示す図である。

Claims (47)

  1. ビデオ系列のビデオ・フレームの肌マップを受け取ること;
    該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を受け取ること;及び
    該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内の関心領域(ROI)とに基づいて該ビデオ・フレーム内のROIを自動的に検出すること
    を具備する方法。
  2. 該ビデオ・フレーム内の該ROIを自動的に検出することは、
    該ビデオ・フレームの第1のマクロブロックと該第1のマクロブロックに対応する該異なるビデオ・フレームの第2のマクロブロックとを比較すること;及び
    該第2のマクロブロックが該異なるビデオ・フレーム内のROIと十分に重なり、そして該第1のマクロブロックが該ビデオ・フレーム内の該肌マップと十分に重なるとき、該ビデオ・フレーム内の該ROIの一部として該第1のマクロブロックを選択すること
    を具備する、請求項1の方法。
  3. 該第2のマクロブロックのうちの少なくとも1つが該異なるビデオ・フレーム内のROIと十分に重ならないとき、又は該第1のマクロブロックが該ビデオ・フレームの該肌マップと十分に重ならないときに、該ビデオ・フレーム内の該ROIの一部として考えることから該第1のマクロブロックを落とすことをさらに具備する、請求項2の方法。
  4. 動き情報を受け取ることは、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の該ROIの動きを追跡することにより得られる動きベクトルを受け取ることを具備する、請求項1の方法。
  5. 該ビデオ系列の別の1つのビデオ・フレームの肌マップを受け取ること;及び
    該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置に基づきそして該別の1つのビデオ・フレームと該ビデオ系列の異なるビデオ・フレームに関する動き情報を参照することなく該別の1つのビデオ・フレーム内のROIを自動的に検出すること
    をさらに具備する、請求項1の方法。
  6. 該別の1つのビデオ・フレーム内の該ROIを自動的に検出することは、
    該肌マップを繋がっていない領域へと分割すること;
    該別の1つのビデオ・フレームの最大エリアを含む該繋がっていない領域から候補領域を選択すること;
    該候補領域内のROI特徴を検出すること;
    ROI特徴の最大数又は該別の1つのビデオ・フレームの該最大エリアのうちの少なくとも1つを含む該候補領域から1又はそれより多くのROI領域を選択すること;
    該別の1つのビデオ・フレーム内の該1又はそれより多くのROI領域と少なくとも部分的に重なる該別の1つのビデオ・フレームのマクロブロックからROIマクロブロックを選択すること;及び
    該選択されたROIマクロブロックに基づいて該別の1つのビデオ・フレーム内に該ROIを生成すること
    を具備する、請求項5の方法。
  7. 該ROIに関する正しい特徴を選択するためそして該ROI特徴候補の集合から誤った特徴を削除するために該ビデオ・フレーム内の該検出されたROI特徴を検証することをさらに具備する、請求項6の方法。
  8. 該検出されたROI特徴で該ビデオ・フレームの該肌マップ中の内部の穴を閉じるために該1又はそれより多くのROI領域に形態的操作を実行することをさらに具備する、請求項6の方法。
  9. ビデオ・センサから該ビデオ系列の該ビデオ・フレームを受け取ること;
    該ビデオ・センサに関するセンサ統計値を生成すること;
    該センサ統計値に基づいて該ビデオ・フレーム内の肌領域を検出すること;及び
    該検出された肌領域に基づいて該ビデオ・フレームの該肌マップを生成すること
    をさらに具備する、請求項1の方法。
  10. 肌マップを受け取ることは、ビデオ・センサに関するセンサ統計値に基づいて生成された該ビデオ・フレームの肌マップを受け取ることを具備する、請求項1の方法。
  11. 該自動的に検出されたROIを含んでいる該ビデオ・フレームを処理することをさらに具備する、ここにおいて、該ビデオ・フレームを処理することは、該ビデオ・フレームの非ROIエリアに比較して該ビデオ・フレーム内の該自動的に検出されたROIを選択的に処理することを具備する、請求項1の方法。
  12. 該自動的に検出されたROIを含んでいる該ビデオ・フレームをエンコードすることをさらに具備する、ここにおいて、該ビデオ・フレームをエンコードすることは、該ビデオ・フレームの非ROIエリアに比較して該ビデオ・フレーム内の該自動的に検出されたROIを選択的にエンコードすることを具備する、請求項1の方法。
  13. 少なくとも第1のROI検出モードと第2のROI検出モードとから自動ROI検出モードを選択すること;
    該第1のROI検出モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を参照することなく該ビデオ・フレームからROIを自動的に検出すること;及び
    第2の分割モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報に基づいて該ビデオ・フレームからROIを自動的に検出すること
    をさらに具備する、請求項1の方法。
  14. 自動ROI検出モードを選択することは、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の動きアクティビティの量を決定すること、そして該動きアクティビティの量が事前に決められたレベルよりも大きいときに該第1のROI検出モードを選択することを具備する、請求項13の方法。
  15. 自動ROI検出モードを選択することは、該第2のROI検出モードにおいてROIがその中で自動的に検出される該ビデオ系列の連続するビデオ・フレームの数を決定すること、そして該連続する第2のROI検出モードのビデオ・フレームの数が事前に決められたレベルより大きいときに、該第1のROI検出モードを選択することを具備する、請求項13の方法。
  16. プログラム可能なプロセッサに、
    ビデオ系列のビデオ・フレームの肌マップを受け取るように;
    該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を受け取るように;そして
    該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内の関心領域(ROI)とに基づいて該ビデオ・フレーム内のROIを自動的に検出するように
    させる命令を具備する、コンピュータ読取り可能な媒体。
  17. 該命令は、該プログラム可能なプロセッサに、
    該ビデオ・フレームの第1のマクロブロックと該第1のマクロブロックに対応する該異なるビデオ・フレームの第2のマクロブロックとを比較するように;そして
    該第2のマクロブロックが該異なるビデオ・フレーム内のROIと十分に重なり、そして該第1のマクロブロックが該ビデオ・フレームの該肌マップと十分に重なるときに、該ビデオ・フレーム内の該ROIの一部として該第1のマクロブロックを選択するように
    させる、請求項16のコンピュータ読取り可能な媒体。
  18. 該プログラム可能なプロセッサに、
    該第2のマクロブロックのうちの少なくとも1つが該異なるビデオ・フレーム内のROIと十分に重ならないとき、又は該第1のマクロブロックが該ビデオ・フレームの該肌マップと十分に重ならないときに、該ビデオ・フレーム内のROIの一部として考えることから該第1のマクロブロックを落とすように
    させる命令をさらに具備する、請求項17のコンピュータ読取り可能な媒体。
  19. 該命令は、該プログラム可能なプロセッサに、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の該ROIの動きを追跡することにより得られる動きベクトルを受け取るようにさせる、請求項16のコンピュータ読取り可能な媒体。
  20. 該プログラム可能なプロセッサに、
    該ビデオ系列の別の1つのビデオ・フレームの肌マップを受け取るように;そして
    該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置に基づきそして該別の1つのビデオ・フレームと該ビデオ系列の異なるビデオ・フレームに関する動き情報を参照することなく該別の1つのビデオ・フレーム内のROIを自動的に検出するように
    させる命令をさらに具備する、請求項16のコンピュータ読取り可能な媒体。
  21. 該命令は、該プログラム可能なプロセッサに、
    該肌マップを繋がっていない領域へと分割するように;
    該別の1つのビデオ・フレームの最大エリアを含む該繋がっていない領域から候補領域を選択するように;
    該候補領域内のROI特徴を検出するように;
    ROI特徴の最大数又は該別の1つのビデオ・フレームの該最大エリアのうちの少なくとも1つを含む該候補領域から1又はそれより多くのROI領域を選択するように;
    該別の1つのビデオ・フレーム内の該1又はそれより多くのROI領域と少なくとも部分的に重なる該別の1つのビデオ・フレームのマクロブロックからROIマクロブロックを選択するように;そして
    該選択されたROIマクロブロックに基づいて該別の1つのビデオ・フレーム内にROIを生成するように
    させる、請求項20のコンピュータ読取り可能な媒体。
  22. 該プログラム可能なプロセッサに、該ROIに関する正しい特徴を選択するためそして該ROI特徴候補の集合から誤った特徴を削除するために該ビデオ・フレーム内の該検出されたROI特徴を検証するようにさせる命令をさらに具備する、請求項21のコンピュータ読取り可能な媒体。
  23. 該プログラム可能なプロセッサに、該検出されたROI特徴で該ビデオ・フレームの該肌マップ中の内部の穴を閉じるために該1又はそれより多くのROI領域に形態的操作を実行するようにさせる命令をさらに具備する、請求項21のコンピュータ読取り可能な媒体。
  24. 該プログラム可能なプロセッサに、
    ビデオ・センサから該ビデオ系列の該ビデオ・フレームを受け取るように;
    該ビデオ・センサに関するセンサ統計値を生成するように;
    該センサ統計値に基づいて該ビデオ・フレーム内の肌領域を検出するように;そして
    該検出した肌領域に基づいて該ビデオ・フレームの該肌マップを生成するように
    させる命令をさらに具備する、請求項16のコンピュータ読取り可能な媒体。
  25. 該命令は、該プログラム可能なプロセッサに、ビデオ・センサに関するセンサ統計値に基づいて生成された該ビデオ・フレームの肌マップを受け取るようにさせる、請求項16のコンピュータ読取り可能な媒体。
  26. 該プログラム可能なプロセッサに、該自動的に検出されたROIを含んでいる該ビデオ・フレームを処理するようにさせる命令をさらに具備する、ここにおいて、該命令は、該プログラム可能なプロセッサに、該ビデオ・フレームの非ROIエリアに比較して該ビデオ・フレーム内の該自動的に検出されたROIを選択的に処理するようにさせる、請求項16のコンピュータ読取り可能な媒体。
  27. 該プログラム可能なプロセッサに、該自動的に検出されたROIを含んでいる該ビデオ・フレームをエンコードするようにさせる命令をさらに具備する、ここにおいて、該命令は、該プログラム可能なプロセッサに、該ビデオ・フレームの非ROIエリアに比較して該ビデオ・フレーム内の自動的に検出されたROIを選択的にエンコードするようにさせる、請求項16のコンピュータ読取り可能な媒体。
  28. 該プログラム可能なプロセッサに、
    少なくとも第1のROI検出モードと第2のROI検出モードから自動ROI検出モードを選択するように;
    該第1のROI検出モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を参照することなく該ビデオ・フレームからROIを自動的に検出するように;そして
    該第2の分割モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報に基づいて該ビデオ・フレームからROIを自動的に検出するように
    させる命令をさらに具備する、請求項16のコンピュータ読取り可能な媒体。
  29. 該命令は、該プログラム可能なプロセッサに、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の動きアクティビティの量を決定するように、そして該動きアクティビティの量が事前に決められたレベルよりも大きいときに該第1のROI検出モードを選択するようにさせる、請求項28のコンピュータ読取り可能な媒体。
  30. 該命令は、該プログラム可能なプロセッサに、ROIが該第2のROI検出モードにおいてその中で自動的に検出される該ビデオ系列の連続するビデオ・フレームの数を決定するように、そして該連続する第2のROI検出モードのビデオ・フレームの数が事前に決められたレベルより大きいときに該第1のROI検出モードを選択するようにさせる、請求項28のコンピュータ読取り可能な媒体。
  31. ビデオ系列のビデオ・フレームの肌マップを生成する肌領域検出器;
    該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を生成する関心領域(ROI)ビデオ処理モジュール;及び
    該ビデオ・フレームに関する該肌マップと該動き情報とを受け取り、該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置と該異なるビデオ・フレーム内のROIとに基づいて該ビデオ・フレーム内の該ROIを自動的に検出するROI検出器
    を具備する、ビデオ処理システム。
  32. 該ROI検出器は、
    該ビデオ・フレームの第1のマクロブロックと該第1のマクロブロックに対応する該異なるビデオ・フレームの第2のマクロブロックとを比較する;そして
    該第2のマクロブロックが該異なるビデオ・フレーム内のROIと十分に重なり、そして該第1のマクロブロックが該ビデオ・フレームの該肌マップと十分に重なるときに、該ビデオ・フレーム内の該ROIの一部として該第1のマクロブロックを選択する、
    請求項31のシステム。
  33. 該ROI検出器は、該第2のマクロブロックのうちの少なくとも1つが該異なるビデオ・フレーム内のROIと十分に重ならないとき、又は該第1のマクロブロックが該ビデオ・フレームの該肌マップと十分に重ならないときに、該ビデオ・フレーム内の該ROIの一部として考えることから該第1のマクロブロックを落とす、請求項32のシステム。
  34. 該第2のマクロブロックの事前に決められた割合より多くのエリアが該前のビデオ・フレームの該ROIと重なるとき、該第2のマクロブロックは、該異なるビデオ・フレーム内の該ROIと十分に重なる、請求項32のシステム。
  35. 該第1のマクロブロックの事前に決められた割合より多くのエリアが該ビデオ・フレームの該肌マップと重なるとき、該第1のマクロブロックは、該ビデオ・フレームの該肌マップと十分に重なる、請求項32のシステム。
  36. 該ROIビデオ処理モジュールは、動きベクトルを生成するために、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の該ROIの動きを追跡する、請求項31のシステム。
  37. 該肌領域検出器は、該ビデオ系列の別の1つのビデオ・フレームの肌マップを生成する;及び
    該ROI検出器は、該別の1つのビデオ・フレームの該肌マップを受け取り、そして該ビデオ・フレームの該肌マップに関係する該ビデオ・フレーム中のマクロブロックの位置に基づきそして該別の1つのビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を参照することなく該別の1つのビデオ・フレーム内のROIを自動的に検出する、
    請求項31のシステム。
  38. 該ROI検出器は、
    該肌マップを繋がっていない領域へと分割する領域ラベリング・モジュール;
    該別の1つのビデオ・フレームの最大エリアを含む該繋がっていない領域から候補領域を選択する領域選択モジュール;
    該候補領域内のROI特徴を検出する特徴検出及び検証モジュール;
    ROI特徴の最大数又は該別の1つのビデオ・フレームの該最大エリアのうちの少なくとも1つを含む該候補領域から1又はそれより多くのROI領域を選択するROI領域選択モジュール;及び
    該別の1つのビデオ・フレーム内の該1又はそれより多くのROI領域と少なくとも部分的に重なる該別の1つのビデオ・フレームのマクロブロックからROIマクロブロックを選択するROIマクロブロック選択モジュール
    を含み、
    ここにおいて、該ROI検出器は、該選択されたROIマクロブロックに基づいて該別の1つのビデオ・フレーム内に該ROIを生成する、
    請求項37のシステム。
  39. 該特徴検出及び検証モジュールは、該ROIに関する正しい特徴を選択するためにそして該ROI特徴候補の集合から誤った特徴を削除するために該ビデオ・フレーム内の検出された該ROI特徴を検証する、請求項38のシステム。
  40. 該検出されたROI特徴で該ビデオ・フレームの該肌マップ中の内部の穴を閉じるために該1又はそれより多くのROI領域に形態的操作を実行する形態的操作モジュールをさらに具備する、請求項38のシステム。
  41. ビデオ・センサから該ビデオ系列の該ビデオ・フレームを受け取るカメラ処理モジュール;及び
    該ビデオ・センサに関するセンサ統計値を生成するセンサ校正モジュール、
    をさらに具備し、
    ここにおいて、該肌領域検出器は、該センサ統計値に基づいて該ビデオ・フレーム内の肌領域を検出し、そして該検出した肌領域に基づいて該ビデオ・フレームの該肌マップを生成する、請求項31のシステム。
  42. 該ROI検出器は、ビデオ・センサに関するセンサ統計値に基づいて生成された肌マップを受け取る、請求項31のシステム。
  43. 該ROIビデオ処理モジュールは、該自動的に検出されたROIを含んでいる該ビデオ・フレームを処理する、ここにおいて、該ROIビデオ処理モジュールは、該ビデオ・フレームの非ROIエリアに比較して該ビデオ・フレーム内の該自動的に検出されたROIを選択的に処理する、請求項31のシステム。
  44. 該ROIビデオ処理モジュールは、該自動的に検出されたROIを含んでいる該ビデオ・フレームをエンコードするROIビデオ・コーディング・モジュールを具備する、ここにおいて、該ROIビデオ・コーディング・モジュールは、該ビデオ・フレームの非ROIエリアに比較して該ビデオ・フレーム内の該自動的に検出されたROIを選択的にエンコードする、請求項31のシステム。
  45. ROI検出コントローラをさらに具備し、該コントローラは:
    少なくとも第1のROI検出モードと第2のROI検出モードとから自動ROI検出モードを選択する;
    該第1のROI検出モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報を参照することなく該ビデオ・フレームからROIを自動的に検出することを決定する;及び
    第2の分割モードが選択されたときに、該ビデオ・フレームと該ビデオ系列の異なるビデオ・フレームとに関する動き情報に基づいて該ビデオ・フレームからROIを自動的に検出することを決定する、
    請求項31のシステム。
  46. 該ROI検出コントローラは、該ビデオ・フレームと該ビデオ系列の該異なるビデオ・フレームとの間の動きアクティビティの量を決定し、そして該動きアクティビティの量が事前に決められたレベルよりも大きいときに該第1のROI検出モードを選択する、請求項45のシステム。
  47. 該ROI検出コントローラは、ROIが該第2のROI検出モードにおいてその中で自動的に検出される該ビデオ系列の連続するビデオ・フレームの数を決定し、そして該連続する第2のROI検出モードのビデオ・フレームの数が事前に決められたレベルより大きいときに該第1のROI検出モードを選択する、請求項45のシステム。
JP2008534758A 2005-10-05 2006-10-05 ビデオ・フレームの動きに基づいた自動関心領域検出 Expired - Fee Related JP4801164B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US72413005P 2005-10-05 2005-10-05
US60/724,130 2005-10-05
US11/364,285 US8019170B2 (en) 2005-10-05 2006-02-28 Video frame motion-based automatic region-of-interest detection
US11/364,285 2006-02-28
PCT/US2006/039407 WO2007044672A2 (en) 2005-10-05 2006-10-05 Video frame motion-based automatic region-of-interest detection

Publications (2)

Publication Number Publication Date
JP2009512283A true JP2009512283A (ja) 2009-03-19
JP4801164B2 JP4801164B2 (ja) 2011-10-26

Family

ID=37654827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008534758A Expired - Fee Related JP4801164B2 (ja) 2005-10-05 2006-10-05 ビデオ・フレームの動きに基づいた自動関心領域検出

Country Status (5)

Country Link
US (1) US8019170B2 (ja)
EP (1) EP1932095A2 (ja)
JP (1) JP4801164B2 (ja)
KR (1) KR100997061B1 (ja)
WO (1) WO2007044672A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013532439A (ja) * 2010-06-17 2013-08-15 マイクロソフト コーポレーション 変換係数ヒストグラムに基づくビデオレート制御
US9681139B2 (en) 2013-03-07 2017-06-13 Samsung Electronics Co., Ltd. Method and apparatus for ROI coding using variable block size coding information

Families Citing this family (100)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US7724972B2 (en) * 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony
US8693537B2 (en) * 2005-03-01 2014-04-08 Qualcomm Incorporated Region-of-interest coding with background skipping for video telephony
US8768084B2 (en) * 2005-03-01 2014-07-01 Qualcomm Incorporated Region-of-interest coding in video telephony using RHO domain bit allocation
US8942283B2 (en) * 2005-03-31 2015-01-27 Euclid Discoveries, Llc Feature-based hybrid video codec comparing compression efficiency of encodings
US8026945B2 (en) 2005-07-22 2011-09-27 Cernium Corporation Directed attention digital video recordation
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US8208758B2 (en) 2005-10-05 2012-06-26 Qualcomm Incorporated Video sensor-based automatic region-of-interest detection
EP1830573A1 (en) * 2006-03-02 2007-09-05 Thomson Licensing Method and apparatus for determining in picture signal encoding the bit allocation for groups of pixel blocks in a picture
ES2569411T3 (es) 2006-05-19 2016-05-10 The Queen's Medical Center Sistema de seguimiento de movimiento para imágenes adaptativas en tiempo real y espectroscopia
WO2008091484A2 (en) 2007-01-23 2008-07-31 Euclid Discoveries, Llc Object archival systems and methods
EP1865443A3 (en) * 2006-06-09 2010-03-17 Samsung Electronics Co.,Ltd. Facial feature detection method and device
JP2010517427A (ja) 2007-01-23 2010-05-20 ユークリッド・ディスカバリーズ・エルエルシー 個人向けのビデオサービスを提供するシステムおよび方法
CA2676219C (en) * 2007-01-23 2017-10-24 Euclid Discoveries, Llc Computer method and apparatus for processing image data
WO2008137830A1 (en) * 2007-05-04 2008-11-13 Smith & Nephew, Inc. Camera system for surgical applications
US8446454B2 (en) 2007-05-21 2013-05-21 Polycom, Inc. Dynamic adaption of a continuous presence videoconferencing layout based on video content
US9313504B2 (en) * 2007-07-02 2016-04-12 Vixs Systems, Inc. Pattern detection module with region detection, video encoding system and method for use therewith
US8548049B2 (en) * 2007-07-02 2013-10-01 Vixs Systems, Inc Pattern detection module, video encoding system and method for use therewith
US9239958B2 (en) 2007-11-09 2016-01-19 The Nielsen Company (Us), Llc Methods and apparatus to measure brand exposure in media streams
EP2266099A1 (en) * 2008-03-18 2010-12-29 Thomson Licensing Method and apparatus for adaptive feature of interest color model parameters estimation
US20090300692A1 (en) * 2008-06-02 2009-12-03 Mavlankar Aditya A Systems and methods for video streaming and display
US8570359B2 (en) * 2008-08-04 2013-10-29 Microsoft Corporation Video region of interest features
US20100114617A1 (en) * 2008-10-30 2010-05-06 International Business Machines Corporation Detecting potentially fraudulent transactions
US8429016B2 (en) * 2008-10-31 2013-04-23 International Business Machines Corporation Generating an alert based on absence of a given person in a transaction
US8612286B2 (en) * 2008-10-31 2013-12-17 International Business Machines Corporation Creating a training tool
US8345101B2 (en) * 2008-10-31 2013-01-01 International Business Machines Corporation Automatically calibrating regions of interest for video surveillance
CN101742324A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
WO2010057170A1 (en) * 2008-11-17 2010-05-20 Cernium Corporation Analytics-modulated coding of surveillance video
KR101549824B1 (ko) * 2008-12-11 2015-09-03 삼성전자주식회사 피부색 보정 방법 및 장치, 이를 이용한 디지털 촬영 장치
KR101173560B1 (ko) * 2008-12-15 2012-08-13 한국전자통신연구원 고속 모드 결정 장치 및 방법
US8774559B2 (en) 2009-01-19 2014-07-08 Sharp Laboratories Of America, Inc. Stereoscopic dynamic range image sequence
US8406569B2 (en) * 2009-01-19 2013-03-26 Sharp Laboratories Of America, Inc. Methods and systems for enhanced dynamic range images and video from multiple exposures
US8260055B2 (en) * 2009-03-27 2012-09-04 The Nielsen Company (Us), Llc Methods and apparatus for identifying primary media content in a post-production media content presentation
EP2462539A4 (en) * 2009-08-04 2014-10-22 Shenzhen Tcl New Technology SYSTEMS AND METHOD FOR GENERATING THREE-DIMENSIONAL VIDEOS
US8925024B2 (en) 2009-12-31 2014-12-30 The Nielsen Company (Us), Llc Methods and apparatus to detect commercial advertisements associated with media presentations
KR101536748B1 (ko) * 2010-02-08 2015-07-14 삼성전자 주식회사 클라이언트 단말, 서버, 클라우드 컴퓨팅 시스템 및 방법
CN101854547B (zh) * 2010-05-25 2013-05-08 无锡中星微电子有限公司 视频采集传输系统中运动帧及前景检测的方法及装置
US8698092B2 (en) 2010-09-10 2014-04-15 Samsung Electronics Co., Ltd. Method and apparatus for motion recognition
IT1402430B1 (it) 2010-09-17 2013-09-04 St Microelectronics Srl "procedimento e dispositivo per l'elaborazione di segnali video, trasmettitore o prodotto informatico relativi"
US9049447B2 (en) * 2010-12-30 2015-06-02 Pelco, Inc. Video coding
US9171075B2 (en) 2010-12-30 2015-10-27 Pelco, Inc. Searching recorded video
US20120243731A1 (en) * 2011-03-25 2012-09-27 Chen-Leh Wang Image processing method and image processing apparatus for detecting an object
EP2515526A3 (en) * 2011-04-08 2014-12-24 FotoNation Limited Display device with image capture and analysis module
CN103875033B (zh) * 2011-08-05 2017-06-30 福克斯体育产品公司 本地图像部分的选择性拍摄和呈现
US11039109B2 (en) 2011-08-05 2021-06-15 Fox Sports Productions, Llc System and method for adjusting an image for a vehicle mounted camera
US9606209B2 (en) 2011-08-26 2017-03-28 Kineticor, Inc. Methods, systems, and devices for intra-scan motion correction
US9171380B2 (en) * 2011-12-06 2015-10-27 Microsoft Technology Licensing, Llc Controlling power consumption in object tracking pipeline
US9681125B2 (en) 2011-12-29 2017-06-13 Pelco, Inc Method and system for video coding with noise filtering
US20150312575A1 (en) * 2012-04-16 2015-10-29 New Cinema, LLC Advanced video coding method, system, apparatus, and storage medium
US10469851B2 (en) 2012-04-16 2019-11-05 New Cinema, LLC Advanced video coding method, system, apparatus, and storage medium
US9152884B2 (en) * 2012-06-05 2015-10-06 Drvision Technologies Llc Teachable pattern scoring method
KR101964861B1 (ko) 2012-06-29 2019-04-02 삼성전자주식회사 카메라 장치 및 상기 카메라 장치에서의 물체 추적 방법
US8805017B2 (en) * 2012-12-13 2014-08-12 Intel Corporation Gesture pre-processing of video stream to reduce platform power
US8761448B1 (en) * 2012-12-13 2014-06-24 Intel Corporation Gesture pre-processing of video stream using a markered region
US8861847B2 (en) * 2012-12-21 2014-10-14 Intel Corporation System and method for adaptive skin tone detection
US9104240B2 (en) 2013-01-09 2015-08-11 Intel Corporation Gesture pre-processing of video stream with hold-off period to reduce platform power
US10045032B2 (en) * 2013-01-24 2018-08-07 Intel Corporation Efficient region of interest detection
US9305365B2 (en) 2013-01-24 2016-04-05 Kineticor, Inc. Systems, devices, and methods for tracking moving targets
US9717461B2 (en) 2013-01-24 2017-08-01 Kineticor, Inc. Systems, devices, and methods for tracking and compensating for patient motion during a medical imaging scan
US10327708B2 (en) 2013-01-24 2019-06-25 Kineticor, Inc. Systems, devices, and methods for tracking and compensating for patient motion during a medical imaging scan
GB201301445D0 (en) * 2013-01-28 2013-03-13 Microsoft Corp Adapting robustness in video coding
CN105392423B (zh) 2013-02-01 2018-08-17 凯内蒂科尔股份有限公司 生物医学成像中的实时适应性运动补偿的运动追踪系统
US9292103B2 (en) 2013-03-13 2016-03-22 Intel Corporation Gesture pre-processing of video stream using skintone detection
WO2014175919A1 (en) * 2013-04-26 2014-10-30 Intel IP Corporation Shared spectrum reassignment in a spectrum sharing context
US9852519B2 (en) * 2013-06-25 2017-12-26 Pixart Imaging Inc. Detection system
US20150063461A1 (en) * 2013-08-27 2015-03-05 Magnum Semiconductor, Inc. Methods and apparatuses for adjusting macroblock quantization parameters to improve visual quality for lossy video encoding
US10356405B2 (en) 2013-11-04 2019-07-16 Integrated Device Technology, Inc. Methods and apparatuses for multi-pass adaptive quantization
US9386275B2 (en) 2014-01-06 2016-07-05 Intel IP Corporation Interactive video conferencing
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US9621917B2 (en) 2014-03-10 2017-04-11 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10004462B2 (en) 2014-03-24 2018-06-26 Kineticor, Inc. Systems, methods, and devices for removing prospective motion correction from medical imaging scans
US9858470B2 (en) 2014-07-18 2018-01-02 Htc Corporation Method for performing a face tracking function and an electric device having the same
WO2016014718A1 (en) 2014-07-23 2016-01-28 Kineticor, Inc. Systems, devices, and methods for tracking and compensating for patient motion during a medical imaging scan
KR102212762B1 (ko) * 2014-09-17 2021-02-05 삼성전자주식회사 코덱과 이를 포함하는 장치들
US9516220B2 (en) 2014-10-02 2016-12-06 Intel Corporation Interactive video conferencing
US10021346B2 (en) 2014-12-05 2018-07-10 Intel IP Corporation Interactive video conferencing
US11159854B2 (en) 2014-12-13 2021-10-26 Fox Sports Productions, Llc Systems and methods for tracking and tagging objects within a broadcast
US11758238B2 (en) 2014-12-13 2023-09-12 Fox Sports Productions, Llc Systems and methods for displaying wind characteristics and effects within a broadcast
CN107106080A (zh) * 2014-12-24 2017-08-29 旭化成株式会社 呼吸状态估计装置、便携式设备、佩戴型仪器、程序、介质、呼吸状态估计方法以及呼吸状态估计器
US9843761B2 (en) * 2015-02-05 2017-12-12 Polycom, Inc. System and method for brightening video image regions to compensate for backlighting
US9943247B2 (en) 2015-07-28 2018-04-17 The University Of Hawai'i Systems, devices, and methods for detecting false movements for motion correction during a medical imaging scan
WO2017091479A1 (en) 2015-11-23 2017-06-01 Kineticor, Inc. Systems, devices, and methods for tracking and compensating for patient motion during a medical imaging scan
CN105512610B (zh) * 2015-11-25 2019-01-29 华南理工大学 一种基于感兴趣点位置信息的视频中人体动作识别方法
US10339650B2 (en) 2016-01-07 2019-07-02 Koios Medical, Inc. Method and means of CAD system personalization to reduce intraoperator and interoperator variation
US9536054B1 (en) 2016-01-07 2017-01-03 ClearView Diagnostics Inc. Method and means of CAD system personalization to provide a confidence level indicator for CAD system recommendations
US20170300742A1 (en) * 2016-04-14 2017-10-19 Qualcomm Incorporated Systems and methods for recognizing an object in an image
US10178394B2 (en) * 2016-06-10 2019-01-08 Apple Inc. Transcoding techniques for alternate displays
US10346982B2 (en) 2016-08-22 2019-07-09 Koios Medical, Inc. Method and system of computer-aided detection using multiple images from different views of a region of interest to improve detection accuracy
US10672132B2 (en) 2017-09-29 2020-06-02 Oracle International Corporation Post processing to improve motion detection results
WO2020036502A1 (en) * 2018-08-14 2020-02-20 Huawei Technologies Co., Ltd Machine-learning-based adaptation of coding parameters for video encoding using motion and object detection
US11216953B2 (en) 2019-03-26 2022-01-04 Samsung Electronics Co., Ltd. Apparatus and method for image region detection of object based on seed regions and region growing
CN110084835B (zh) * 2019-06-06 2020-08-21 北京字节跳动网络技术有限公司 用于处理视频的方法和装置
WO2021211884A1 (en) * 2020-04-16 2021-10-21 Intel Corporation Patch based video coding for machines
US11640655B2 (en) 2021-04-14 2023-05-02 Raytheon Company Systems and methods for image turbulence correction of moving targets
CN114339222A (zh) * 2021-12-20 2022-04-12 杭州当虹科技股份有限公司 视频编码方法
WO2024076273A1 (en) * 2022-10-07 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Object-based qp adaptation

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08181992A (ja) * 1994-12-27 1996-07-12 Sharp Corp 動画像符号化装置および領域抽出装置
JPH09322176A (ja) * 1995-12-20 1997-12-12 Sanyo Electric Co Ltd 符号化モード選択方法、動画像符号化装置、符号化方法、記録方法、及び伝送方法
JP2003085583A (ja) * 2001-09-14 2003-03-20 Mitsubishi Electric Corp 頭部姿勢計測装置およびcgキャラクタ制御装置
JP2004072655A (ja) * 2002-08-09 2004-03-04 Ricoh Co Ltd Roi領域設定装置、電子カメラ装置、roi領域設定方法、プログラム、記録媒体
WO2004044830A1 (en) * 2002-11-12 2004-05-27 Nokia Corporation Region-of-interest tracking method and device for wavelet-based video coding
JP2004219277A (ja) * 2003-01-15 2004-08-05 Sanyo Electric Co Ltd 人体検知方法およびシステム、プログラム、記録媒体
JP2004240844A (ja) * 2003-02-07 2004-08-26 Ricoh Co Ltd 画像処理装置、roi領域制御方法、プログラム、及び、記録媒体
JP4589437B2 (ja) * 2005-10-05 2010-12-01 クゥアルコム・インコーポレイテッド ビデオ・センサに基づいた自動関心領域検出

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS52156624A (en) * 1976-06-22 1977-12-27 Fuji Photo Film Co Ltd Detection of skin color of color film
US5053804A (en) * 1987-07-10 1991-10-01 Canon Kabushiki Kaisha Camera having computer
US5150432A (en) * 1990-03-26 1992-09-22 Kabushiki Kaisha Toshiba Apparatus for encoding/decoding video signals to improve quality of a specific region
US5043804A (en) * 1990-04-25 1991-08-27 Mitsubishi Denki Kabushiki Kaisha Color video camera with color reproducibility compensation for discharge lamp ambient light source
JP3017384B2 (ja) 1993-07-19 2000-03-06 シャープ株式会社 特徴領域抽出装置
US5852669A (en) * 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
US6026183A (en) * 1995-10-27 2000-02-15 Texas Instruments Incorporated Content-based video compression
US5903673A (en) * 1997-03-14 1999-05-11 Microsoft Corporation Digital video signal encoder and encoding method
US6188777B1 (en) * 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
JPH1196333A (ja) * 1997-09-16 1999-04-09 Olympus Optical Co Ltd カラー画像処理装置
WO1999023600A1 (en) 1997-11-04 1999-05-14 The Trustees Of Columbia University In The City Of New York Video signal face region detection
JP2923894B1 (ja) * 1998-03-31 1999-07-26 日本電気株式会社 光源判定方法、肌色補正方法、カラー画像補正方法、光源判定装置、肌色補正装置、カラー画像補正装置及びコンピュータ読み取り可能な記録媒体
AU739936B2 (en) 1998-06-10 2001-10-25 Canon Kabushiki Kaisha Face detection in digital images
US6205244B1 (en) 1998-06-23 2001-03-20 Intel Corporation Method for imager device color calibration utilizing light-emitting diodes or other spectral light sources
US6275614B1 (en) * 1998-06-26 2001-08-14 Sarnoff Corporation Method and apparatus for block classification and adaptive bit allocation
US6256423B1 (en) * 1998-09-18 2001-07-03 Sarnoff Corporation Intra-frame quantizer selection for video compression
JP3849834B2 (ja) * 1999-02-02 2006-11-22 富士写真フイルム株式会社 オートホワイトバランス制御方法
DE50112268D1 (de) * 2001-02-09 2007-05-10 Imaging Solutions Ag Digitale lokale Bildeigenschaftssteuerung mittels Masken
JP2003244467A (ja) * 2002-02-21 2003-08-29 Konica Corp 画像処理方法、画像処理装置、及び画像記録装置
EP1353516A1 (en) 2002-04-08 2003-10-15 Mitsubishi Electric Information Technology Centre Europe B.V. A method and apparatus for detecting and/or tracking one or more colour regions in an image or sequence of images
KR20030096685A (ko) 2002-06-17 2003-12-31 (주)제이티 경품 교환용 카드 및 이에 대한 위조 방지방법
US20050012817A1 (en) * 2003-07-15 2005-01-20 International Business Machines Corporation Selective surveillance system with active sensor management policies
GB2409028A (en) 2003-12-11 2005-06-15 Sony Uk Ltd Face detection
JP2005242582A (ja) 2004-02-25 2005-09-08 Univ Waseda 顔検出装置およびその方法
US8693537B2 (en) 2005-03-01 2014-04-08 Qualcomm Incorporated Region-of-interest coding with background skipping for video telephony
US9667980B2 (en) 2005-03-01 2017-05-30 Qualcomm Incorporated Content-adaptive background skipping for region-of-interest video coding
US8768084B2 (en) 2005-03-01 2014-07-01 Qualcomm Incorporated Region-of-interest coding in video telephony using RHO domain bit allocation
US7724972B2 (en) 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony
US8977063B2 (en) 2005-03-09 2015-03-10 Qualcomm Incorporated Region-of-interest extraction for video telephony
US8019175B2 (en) 2005-03-09 2011-09-13 Qualcomm Incorporated Region-of-interest processing for video telephony
US8154612B2 (en) 2005-08-18 2012-04-10 Qualcomm Incorporated Systems, methods, and apparatus for image processing, for color classification, and for skin color detection
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US7728904B2 (en) 2005-11-08 2010-06-01 Qualcomm Incorporated Skin color prioritized automatic focus control via sensor-dependent skin color detection
US8265349B2 (en) 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
US8265392B2 (en) 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US8315466B2 (en) 2006-12-22 2012-11-20 Qualcomm Incorporated Decoder-side region of interest video processing

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08181992A (ja) * 1994-12-27 1996-07-12 Sharp Corp 動画像符号化装置および領域抽出装置
JPH09322176A (ja) * 1995-12-20 1997-12-12 Sanyo Electric Co Ltd 符号化モード選択方法、動画像符号化装置、符号化方法、記録方法、及び伝送方法
JP2003085583A (ja) * 2001-09-14 2003-03-20 Mitsubishi Electric Corp 頭部姿勢計測装置およびcgキャラクタ制御装置
JP2004072655A (ja) * 2002-08-09 2004-03-04 Ricoh Co Ltd Roi領域設定装置、電子カメラ装置、roi領域設定方法、プログラム、記録媒体
WO2004044830A1 (en) * 2002-11-12 2004-05-27 Nokia Corporation Region-of-interest tracking method and device for wavelet-based video coding
JP2004219277A (ja) * 2003-01-15 2004-08-05 Sanyo Electric Co Ltd 人体検知方法およびシステム、プログラム、記録媒体
JP2004240844A (ja) * 2003-02-07 2004-08-26 Ricoh Co Ltd 画像処理装置、roi領域制御方法、プログラム、及び、記録媒体
JP4589437B2 (ja) * 2005-10-05 2010-12-01 クゥアルコム・インコーポレイテッド ビデオ・センサに基づいた自動関心領域検出

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013532439A (ja) * 2010-06-17 2013-08-15 マイクロソフト コーポレーション 変換係数ヒストグラムに基づくビデオレート制御
US9681139B2 (en) 2013-03-07 2017-06-13 Samsung Electronics Co., Ltd. Method and apparatus for ROI coding using variable block size coding information

Also Published As

Publication number Publication date
EP1932095A2 (en) 2008-06-18
KR20080064856A (ko) 2008-07-09
US8019170B2 (en) 2011-09-13
KR100997061B1 (ko) 2010-11-30
JP4801164B2 (ja) 2011-10-26
WO2007044672A3 (en) 2007-08-23
WO2007044672A2 (en) 2007-04-19
US20070076957A1 (en) 2007-04-05

Similar Documents

Publication Publication Date Title
JP4801164B2 (ja) ビデオ・フレームの動きに基づいた自動関心領域検出
JP4589437B2 (ja) ビデオ・センサに基づいた自動関心領域検出
KR101528895B1 (ko) 관심 특성 색 모델 변수의 적응성 추정을 위한 방법 및 장치
JP5969389B2 (ja) オブジェクト認識ビデオ符号化ストラテジ
Weng et al. A novel automatic white balance method for digital still cameras
CN101317185B (zh) 基于视频传感器的自动关注区检测
KR101437195B1 (ko) 코딩된 화상 및 영상에서 블록 아티팩트 검출
JP5318424B2 (ja) 関心領域映像符号化に関するコンテンツ適応型背景スキップ
US8588309B2 (en) Skin tone and feature detection for video conferencing compression
CN107730446B (zh) 图像处理方法、装置、计算机设备及计算机可读存储介质
CN111016445A (zh) 使用块匹配的镜头阴影颜色校正的方法和系统
AU2010350738A1 (en) Skin tone and feature detection for video conferencing compression
WO2015020919A2 (en) Encoding video captured in low light
CN110087071B (zh) 基于感知的图像处理装置及相关方法
CN107945106B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN111724447B (zh) 一种图像处理方法、系统及电子设备和存储介质
Zeng et al. Skin color modeling of digital photographic images
WO2016197323A1 (zh) 视频编解码方法和视频编解码器
JPH06309433A (ja) 画像識別方式
CN105631812B (zh) 一种对显示图像进行色彩增强的控制方法及控制装置
CN115527474A (zh) 图像显示方法、装置、显示设备、投影设备及存储介质
Duanmu Fast Screen Content Coding and Two Tier 360 Degree Video Streaming
Schumeyer A video coder based on scene content and visual perception
CN117037253A (zh) 智能影像处理中的人脸识别方法及装置
CN114125414A (zh) 图像饱和度增强方法和编解码处理方法、装置及系统

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110804

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees