JP5969389B2

JP5969389B2 - オブジェクト認識ビデオ符号化ストラテジ

Info

Publication number: JP5969389B2
Application number: JP2012543082A
Authority: JP
Inventors: バガヴァティーシタラム; リャックジョアン; ドン−チンチャン; バーコンズ−パラオジーザス
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2009-12-14
Filing date: 2010-12-08
Publication date: 2016-08-17
Anticipated expiration: 2030-12-08
Also published as: WO2011081639A2; KR20120114263A; US9118912B2; WO2011081639A3; CN102656886A; EP2514207A2; KR101882024B1; CN102656886B; JP2013513998A; US20120224629A1

Description

[関連出願]
本出願は２００９年１２月１４日に出願された米国特許仮出願第６１／２８４１５１号の優先権を主張しており、当該米国特許仮出願の内容は全て本出願に組み込まれたものとする。

本発明はオブジェクト認識ビデオ符号化に関する。

多くのビデオ（画像）符号化アプリケーションにおいて、ビデオはビットレート制限を課せられて符号化されなければならない。例えば、モバイルデバイスへの送信の場合、５０−４００ｋｂｐｓが典型的なビットレートである。低いビットレートでビデオを符号化すると、視覚情報が失われ、よって、主観的品質または視聴体験に影響を与える。このような損失のある符号化条件（状況）下では、主観的品質は顕著な（目立つ）領域または重要な領域における品質低下を低減することによって改善することができる。

図１に示されたオブジェクト強調表示システムのようなシステムにおいて、興味のあるオブジェクト（対象オブジェクト、目的オブジェクト）または領域が検出され、これらの符号化品質は、重要なオブジェクトをより良くプレザーブ（ｐｒｅｓｅｒｖｅ：保持、維持）するための前処理によって、及び／または重要なオブジェクトをより良くプレザーブするためのオブジェクト認識エンコーダを使用することによって、改善される。このようなことが行われる理由は、視聴者にとってはビデオ（画像）の中の対象オブジェクト（例えば、サッカーのビデオであれば、ボールまたはプレーヤ）がはっきりと見えることが重要であるからである。

典型的なオブジェクト認識エンコーダはビデオの中の種々のオブジェクトまたは領域に関する情報を受信することができ、且つ、当該情報を使用して重要なオブジェクトをより良くプレザーブすることができ、よって、ユーザの視聴体験を改善（向上）することができる。このようなエンコーダは通常、符号化処理（例えば、リソース割当及びモード決定）をガイドするためにオブジェクト情報を使用することによって作動する。

オブジェクトをプレザーブする方法は複数ある。しかし、与えられたビデオについて、選択した１つの方法が当該ビデオ全体に対して最適なオブジェクトプレザーブを行えるかどうかは不明である。従って、ビデオ全体を最適にプレザーブするのに十分にフレキシブルなオブジェクトプレザーブ法が必要である。

オブジェクト認識ビデオ符号化方法が提供される。この方法は、複数のフレームを有するビデオシーケンスを受信するステップと、少なくとも２つのフレームを選択するステップと、当該少なくとも２つのフレームの各々における少なくとも１つの対象オブジェクトのトータルエリアを判別（決定）するステップと、当該トータルエリアを閾値エリアと比較するステップと、前記少なくとも２つのフレームの各々を低オブジェクト重み付けフレームまたは高オブジェクト重み付けフレームに分類するステップと、を含む。低オブジェクト重み付けフレームは前記閾値エリアを超えるトータルエリアを有するフレームであり、高オブジェクト重み付けフレームは前記閾値エリアを超えないトータルエリアを有するフレームである。前記方法はさらに、各低オブジェクト重み付けフレームを１つの符号化モードに従って符号化するステップと、各高オブジェクト重み付けフレームを異なる符号化モードに従って符号化するステップを含む。前記方法は、フレーム内のどのマクロブロックが前記少なくとも１つの対象オブジェクトを含むかを判別するステップと、前記少なくとも２つのフレームの各々について当初ＱＰを決定するステップと、低オブジェクト重み付けフレームの場合に前記当初ＱＰにオフセットを与えるステップと、当該オフセットを与えるステップに応じて、前記少なくとも１つの対象オブジェクトに含まれている前記マクロブロックへのビット割り当てを増大するステップと、を含んでもよい。前記方法はさらに、連続・隣接する高オブジェクト重み付けフレームについてフレームにおけるテンポラルマスキング効果の量（ΔＱＰ_Masking）からフレーム毎のＱＰオフセット寄与を判定するステップ（１０６）と、前記ΔＱＰ_Maskingをフレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わせるステップ（１１０）と、連続・隣接する高オブジェクト重み付けフレームを、前記フレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わされるΔＱＰ_Maskingを使用することによって得られるビットレートで符号化するステップ（１１４）と、連続・隣接する高オブジェクト重み付けフレームに関するフレーム複雑度を計算するステップ（１０２）と、連続・隣接する高オブジェクト重み付けフレームの各ＧＯＰについてＧＯＰ範囲及びＧＯＰ符号化パターンに基づいてフレームタイプを選択するステップ（１０４）と、フレームタイプ（ΔＱＰ_Type）に基づいてフレーム毎のＱＰオフセット寄与を計算するステップ（１０６）と、を含む場合もある。前記フレームにおけるテンポラルマスキング効果の量（ΔＱＰ_Masking）からフレーム毎のＱＰオフセット寄与を計算するステップ（１０６）は、ΔＱＰ_Masking（ｎ）＝ａ・Ｃｏｍｐｌ_Masking（ｎ）を使用して実行され、Ｃｏｍｐｌ_Masking（ｎ）は、高オブジェクト重み付けフレームの所定サイズのウインドウにおける現在のフレームに隣接するフレームの平均として計算されたフレームのテンポラルマスキング複雑度を含む。前記方法はさらに、全高オブジェクト重み付けフレームについての平均ΔＱＰ_Maskingを計算するステップ（１０８）と、ΔＱＰ_Maskingを正規化するステップ（１１０）と、最終的なフレーム毎のΔＱＰを計算するステップ（１１０）と、当該計算された最終的なフレーム毎のΔＱＰを用いて、割り当てられたビット量（ｂｉｔｂｕｄｇｅｔ）とレート制御量（ｒａｔｅｃｏｎｔｒｏｌ）を計算するステップ（１１２）とを含んでもよい。高オブジェクト重み付けフレームについて各フレームのフレーム複雑度を計算するステップ（１０２）は、順方向フレーム間予測を使用して実行されてもよい。

オブジェクト認識ビデオ符号化方法の他の実施形態は、複数のフレームを有するビデオシーケンスを受信するステップと、少なくとも２つのフレームを選択するステップと、当該少なくとも２つのフレームの各々における少なくとも１つの対象オブジェクトのトータルエリアを判別（決定）するステップと、当該トータルエリアを閾値エリアと比較するステップと、前記少なくとも２つのフレームの各々を低オブジェクト重み付けフレームまたは高オブジェクト重み付けフレームに分類するステップと、各低オブジェクト重み付けフレームを１つの符号化モードに従って符号化すると共に、各高オブジェクト重み付けフレームを異なる符号化モードに従って符号化するステップと、連続・隣接する高オブジェクト重み付けフレームについてフレームにおけるテンポラルマスキング効果の量（ΔＱＰ_Masking）からフレーム毎のＱＰオフセット寄与を判定するステップ（１０６）と、前記ΔＱＰ_Maskingをフレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わせるステップ（１１０）と、連続・隣接する高オブジェクト重み付けフレームを、前記フレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わされたΔＱＰ_Maskingを使用することによって得られるビットレートで符号化するステップ（１１４）と、フレーム内のどのマクロブロックが前記少なくとも１つの対象オブジェクトを含むかを判定するステップと、前記少なくとも２つのフレームの各々について当初ＱＰを判定するステップと、前記低オブジェクト重み付けフレームの当初ＱＰにオフセットを与え、これにより、前記少なくとも１つの対象オブジェクトに含まれる前記マクロブロックのビット割り当てが増加するステップと、を含む。

前記方法の他の実施形態は、複数のフレームを有するビデオシーケンスを受信するステップと、少なくとも２つのフレームを選択するステップと、当該少なくとも２つのフレームの各々における少なくとも１つの対象オブジェクトのトータルエリアを判別（決定）するステップと、当該トータルエリアを閾値エリアと比較するステップと、前記少なくとも２つのフレームの各々を低オブジェクト重み付けフレームまたは高オブジェクト重み付けフレームに分類するステップと、各低オブジェクト重み付けフレームを１つの符号化モードに従って符号化すると共に、各高オブジェクト重み付けフレームを異なる符号化モードに従って符号化するステップと、前記低オブジェクト重み付けフレームについて２つ以上の符号化モードで符号化した場合の符号化マクロブロック画素とオリジナルのマクロブロック画素との間の絶対値差合計（ＳＡＤ：ｓｕｍｏｆａｂｓｏｌｕｔｅｄｉｆｆｅｒｅｎｃｅｓ）を判定するステップと、低オブジェクト重み付けフレームについての絶対値差合計判定ステップにおける少なくとも１つの他の符号化モードよりも小さな絶対値差合計を有する符号化モードを選択するステップと、当該選択するステップで選択されたそれぞれの符号化モードに従って前記低オブジェクト重み付けフレームを符号化するステップと、を含む。これら実施形態は、前記絶対値差合計判定ステップにおいてエンコーダ重みアレイを適用するステップを含むことができ、前記オブジェクトの画素には、オブジェクトではない画素よりも大きな重みが割り当てられる。

本発明の他の実施形態はビデオシーケンスを符号化するエンコーダを含み、当該エンコーダはビデオフレームにおける対象オブジェクトのエリアを判定する手段と、モード選択閾値エリアを設定する手段と、複数のフレームについて前記オブジェクトのエリアを前記閾値エリアと比較する手段と、前記比較する手段に応答して符号化モードを選択する手段と、符号化手段と、を含み、前記選択する手段は異なるフレームについて異なる符号化モードを選択し、前記符号化手段は前記異なるフレームを前記異なる符号化モードで符号化する。前記判定する手段は、前記対象オブジェクトを構成する画素の数を判定することができる。前記選択する手段は、前記閾値エリアを越える画素数のエリアを有するフレームについて知覚量子化（ｐｅｒｃｅｐｔｕａｌｑｕａｎｔｉｚａｔｉｏｎ）パラメータオフセット判定を採用し、この際、前記符号化手段は前記知覚量子化パラメータオフセット判定に応答する符号化モードにおいて前記フレームを符号化する。尚、前記選択する手段は、ナイーブ（ｎａｉｖｅ）ＱＰオフセット判定を採用してもよい。この場合、前記選択する手段は、前記閾値を超えない画素数のエリアを有する少なくとも２つのフレームの各々について当初ＱＰを判定する。これは、前記少なくとも２つのフレームについてオフセットを前記当初ＱＰに与えるためである。また、前記オフセットに応答して前記少なくとも１つの対象オブジェクトに含まれるマクロブロックへのビット割り当てを増大する。この際、前記符号化手段は、前記オフセットに応答する符号化モードにおいて前記閾値フレームを超えない画素数のエリアを有する前記少なくとも２つのフレームを符号化する。前記選択する手段は、ナイーブＱＰオフセット判定を採用することもでき、前記選択する手段は前記閾値を超えない画素数のエリアを有する少なくとも２つのフレームの各々について当初ＱＰを判定する。これは、前記少なくとも２つのフレームについてオフセットを前記当初ＱＰに与えるためである。また、前記オフセットに応答して前記少なくとも１つの対象オブジェクトに含まれるマクロブロックへのビット割り当てを増大する。この際、前記符号化手段は、前記オフセットに応答する符号化モードにおいて前記閾値フレームを超えない画素数のエリアを有する前記少なくとも２つのフレームを符号化する。

本発明は以下において添付図面を参照して例示的に説明される。

本発明で使用されるように構成されたデジタルビデオにおけるオブジェクトの見え方を強化するシステムのブロック図である。図１のシステムによって提供される近似オブジェクト位置特定（ａｐｐｒｏｘｉｍａｔｅｏｂｊｅｃｔｌｏｃａｌｉｚａｔｉｏｎ）を説明する図である。本発明によるオブジェクトハイライト処理（強調化表示、高輝度表示）のフローチャートである。（Ａ）と（Ｂ）は、オブジェクトフレンドリーなマクロブロック（ＭＢ）区分けの例を示す図であり、（Ｃ）はフレンドリーでないＭＢ区分けの例を示す図である。本発明において使用される、広域（全域）最適化Ｒ−ＱＰモデルベースのフレームレベルのビット割り当てにおける知覚フレームレベルＱＰオフセットを用いてビデオセグメント全体を符号化する方法を示す例示的なフローチャートである。本発明において使用されるビット割り当てを実行することができる例示的な標準ビデオエンコーダのブロック図である。

本発明は、量子化パラメータ（ＱＰ：ｑｕａｎｔｉｚａｔｉｏｎｐａｒａｍｅｔｅｒ）オフセット、重み付け歪みメトリック、及び知覚量子化（ＱＰ）オフセットを含むハイブリッド方法によってオブジェクトプレザベーション（ｐｒｅｓｅｒｖａｔｉｏｎ）を改良することを目的とする。

本発明は種々のタイプのオブジェクト認識エンコーダに適用可能であり、重要なオブジェクト若しくは領域を構成するマクロブロックについてＱＰ若しくは量子化ステップサイズを減ずることを含むことができ、さらに、重要でないオブジェクト若しくは領域を構成するマクロブロックについてＱＰ若しくは量子化ステップサイズを減ずることも含み得る。

本発明の一実施形態において、方法はビデオの中の重要なオブジェクトをプレザーブする。幾つかの条件に基づいて、エンコーダは例えばＱＰオフセット、重み付け歪み計測値、及び知覚的ＱＰオフセット（またはこれらの組み合わせ）を関連マクロブロック（ＭＢ）に対して使用することができる。新規な重み付け歪み計測値が導入され、これにより、オブジェクト情報は符号化モード決定に影響を与えることができる。

図１は本発明の実施形態に適用することができるオブジェクト強調表示システムを示している。特に、本発明に従って構成されたオブジェクト強化（強調）システムはトランスミッタ１０内に全コンポーネントを含むか、オブジェクト強化コンポーネントはレシーバ２０内にある。オブジェクト強調表示が実行されるプロセスチェーンにおいて３つのステージがある。３つのステージとは、（１）オブジェクトが符号化（圧縮）ステージの前にトランスミッタ１０において強化（強調）されるという前処理と、（２）オブジェクトおよびその位置に関する情報をリファインすることによって、オブジェクトを含む対象領域に対して、トランスミッタ１０において特別な処理を行うという符号化と、（３）メタデータとしてビットストリームを介してトランスミッタ１０から送信されるオブジェクト及びその位置に関する副次的情報を使用して復号化した後、オブジェクトをレシーバ２０内で強化するという後処理である。本発明に従って構成されたオブジェクト強化システムは、前記した３つのステージの１つのステージのみにおいてオブジェクト強調表示を提供するか、２つのステージにおいてオブジェクト強調表示を提供するか、３つのステージ全てにおいてオブジェクト強調表示を提供することができる。

デジタル映像内のオブジェクトの見え方（ビジビリティ、視感度、鮮明度）を強化する図１のシステムは、対象オブジェクトを含む入力ビデオを提供する手段を備える。ビジビリティ強化対象となるオブジェクトを含むデジタル映像のソースは、従来の構造及び機能を有するテレビカメラであってよく、矢印１２によって表されている。

図１のシステムはまた、対象オブジェクトの性質及び特徴を表す情報（例えば、オブジェクトテンプレート）を記憶すると共に、ビデオ入力、当該オブジェクトの性質及び特徴を表す情報に応じてオブジェクトを特定してその位置を見つけるオブジェクト位置特定情報を生成する手段を備える。このような手段は図１においてオブジェクト位置特定モジュール１４として示されており、入力ビデオをフレーム毎に走査して、記憶されている対象オブジェクトの性質及び特徴を表す情報と同様の性質及び特徴を有する映像中のオブジェクトを特定し（つまり、何がオブジェクトであるのかを見つけ）、オブジェクトの位置を見つける（つまり、オブジェクトがどこにあるのかを見つける）手段を含む。オブジェクト位置特定モジュール１４は入力ビデオのデジタル映像をフレーム毎に走査する従来の構造及び機能を有するユニットであってよい。このユニットは、走査された入力ビデオのデジタル映像のセクタ（ｓｅｃｔｏｒｓ）を記憶された対象オブジェクトの性質及び特徴を表す情報と比較して、対象オブジェクトを特定し、デジタル映像のグリッド座標値によりその位置を見つける（位置を確認・特定する）。ユニットによる比較及び位置確認は、特定のセクタの走査から得られる情報が前記記憶されたオブジェクトの性質及び特徴を表す情報と同様な情報である場合に行われる。

通常、オブジェクト位置特定モジュール１４は対象オブジェクトを特定して位置を確認（認識）する際に下記の方法の１つまたは複数を実行する。

・オブジェクトトラッキング法。オブジェクトトラッカ（トラッキング手段）の目的は、ビデオ内で動いているオブジェクトの位置（軌道）を見つけることである。典型的な場合、トラッカは、前のフレームから移動するオブジェクトの履歴が与えられると、現在のフレームにおけるオブジェクトパラメータ（例えば、位置、サイズ）を推定・予測する。トラッキング法は例えば、テンプレートマッチング、オプティカルフロー（ｏｐｔｉｃａｌｆｌｏｗ）、カルマンフィルタ、平均値シフト法（ｍｅａｎｓｈｉｆｔａｎａｌｙｓｉｓ）、隠れマルコフモデル、パーティクルフィルタ（ｐａｒｔｉｃｌｅｆｉｌｔｅｒ）に基づいて実施され得る。

・オブジェクト検出法。オブジェクト検出法の目的は、オブジェクトに関する前の知識に基づいて画像若しくはビデオフレーム内のオブジェクトの存在及び位置を検出することである。通常、オブジェクト検出法はトップダウンアプローチ及びボトムアップアプローチの組み合わせを採用する。トップダウンアプローチでは、オブジェクト検出法は、検出中のオブジェクトの人知（人間が持っている知識）から導出されるルールに基づいて行われる。ボトムアップアプローチでは、オブジェクト検出法はオブジェクトに低レベルの構造的特徴（部分）若しくはパターンを関連付け、これら特徴若しくはパターンをサーチすることによってオブジェクトの位置を見つける。

・オブジェクトセグメンテーション法。この方法では、画像またはビデオがその構成「オブジェクト」に分解され、「オブジェクト」はセマンティックエンティティ（ｓｅｍａｎｔｉｃｅｎｔｉｔｉｅｓ）またはビジュアルストラクチャ（例えば、カラーパッチ）を含み得る。一般的に、この分解は、オブジェクトの動作、色、及びテクスチャ属性に基づく。オブジェクトセグメンテーション法は幾つかのアプリケーション・用途を有する（例えば、コンパクトビデオ符号化、自動コンテンツベース説明、半自動コンテンツベース説明、フィルムポストプロダクション、及びシーン解釈）。特に、セグメンテーション法は、シーンのオブジェクトベースの説明を提供することによってオブジェクト位置特定の問題を単純にする。

図２はオブジェクト位置特定モジュール１４によって提供される近似オブジェクト位置特定を示している。ユーザは例えば、オブジェクトが位置している領域の回りに楕円を描き、オブジェクトのおおよその位置を特定する。最終的には、近似オブジェクト位置特定情報（即ち、楕円の中心点パラメータ、長軸パラメータ、及び短軸パラメータ）を微調整することができる。

理想的には、オブジェクト位置特定モジュール１４は完全に自動化されたモードで動作する。しかし、現実的には（実際には）、システムによって生ずる誤差・エラーを補正すために幾らかのマニュアル補助が必要になるであろう。少なくとも、システムが位置特定すべき重要なオブジェクトを決める（画定する）ためには、マニュアル補助が必要になるであろう。オブジェクトではないエリアを強化すると、視聴者は混乱してしまい、本当の動作（アクション）がわからなくなってしまう可能性がある。この問題を回避するか最小限に抑えるために、ユーザは上記したようにオブジェクトの回りに楕円を描くことができ、その後、システムは指定された位置からオブジェクトをトラッキングする（たどる）ことができる。もしオブジェクトをフレーム内に見つけることができれば、オブジェクト位置特定モジュール１４はこれに対応する楕円パラメータ（即ち、中心点、長軸、及び短軸）を出力する。理想的には、この範囲決定（境界画定）楕円の輪郭はオブジェクトの輪郭に一致する。

しかし、パラメータがおおよそのものに過ぎず、結果として得られる楕円がオブジェクトをぴったり（隙間なく）オブジェクトを含まずにオブジェクト強化（強調）が適用されると、２つの問題が生じ得る。第１に、オブジェクトの全体が強化されない可能性がある。なぜなら、楕円がオブジェクト全体を含まないからである。第２に、オブジェクトではないエリアが強化されてしまう可能性がある。これら２つの結果は望まれないものであるので、このような場合、強化前にオブジェクト領域を微調整（精度向上、リファイン）することが有益である。オブジェクト位置特定情報の微調整（精度向上）については、下記に詳しく説明する。

図１のシステムはさらに、オブジェクト位置特定モジュール１４から受信されたオブジェクト位置特定情報及びビデオ入力に応じて、デジタル映像の一部の強化ビデオを作る手段を備える。デジタル映像の一部とは、対象オブジェクトを含み且つオブジェクトが位置している領域を含む部分である。このような手段は図１においてオブジェクト強化モジュール１６として示されており、従来の画像処理をこの領域に適用することによって、対象オブジェクトを含むデジタル映像の領域の見え方を強化する従来のユニット（構成も機能も従来技術）であってよい。オブジェクト位置特定情報はフレーム毎にオブジェクト位置特定モジュール１４から受信される情報であって、対象オブジェクトが位置している所定サイズの領域のグリッド座標値を含む。さらに、上記したように、オブジェクト強化は強化ステージに続く符号化ステージの間にオブジェクトの品質低下を抑制するのに役立つ。これについては後述する。この時点までの図１のシステムの動作が、上記において前処理モードと称されていた動作に対応する。

オブジェクトを強化する際、オブジェクトの見え方（ビジビリティ）は対象オブジェクトが位置している領域に画像処理を適用することによって改善される。この処理は、オブジェクトの境界に沿って適用され（例えば、エッジをシャープにする）、オブジェクトの中に適用され(例えば、テクスチャ強化)、さらにオブジェクトの外にも適用されることもある（例えば、コントラストの増強、オブジェクトエリア外のぼかし）。例えば、オブジェクトにより多くの注意が向くようにする１つの手法は、オブジェクト内のエッジ及びオブジェクトの輪郭に沿ったエッジをシャープにすることである。これにより、オブジェクトの細部がよりはっきりと見えるようになり、且つ、オブジェクトが背景から際立つようになる。さらに、エッジがシャープになると、符号化が良い状態で維持される。可能性のある他の手法はオブジェクトの増補である。例えば、スムージング処理、シャープニング処理、及びオブジェクト精緻化（リファインメント）処理を繰り返し適用する（必ずしもこの順序で適用する必要はない）ことによって、オブジェクトを増補する。

図３においてより簡素化した形で示されたオブジェクト強調表示システムは入力ビデオ３０５内の重要なオブジェクト３１０を検出し、適切な前処理３１５によってオブジェクト強化を行う。このシステムはまた、オブジェクトをプレザーブするオブジェクト認識エンコーダ３２０を有する。オブジェクト認識エンコーダは、符号化処理の間、対象オブジェクトをより良くプレザーブするためにオブジェクト位置特定モジュールからのオブジェクト情報を使用する。

ビデオフレームのためのオブジェクト情報は「エンコーダ重みアレイ」Ｗ（ｘ，ｙ）で表される。これは複数の値のシーケンスであり、各値がフレーム内の各画素（ｘ，ｙ）に対応している。より重要なオブジェクトほど、その構成画素について、より大きな重みを有している。背景画素の重みは、慣例により０に設定することができる。

オブジェクトをより良くプレザーブするために、幾つかの方法がオブジェクト認識ビデオエンコーダで使用されてもよい。これらプレザーブ法は、例えば、ナイーブＱＰオフセット、重み付け歪計測及び知覚ＱＰオフセットである。

ナイーブＱＰオフセット法は通常、エンコーダ重みアレイ（配列）を使用して、フレーム内のどのマクロブロック（ＭＢ）が対象オブジェクトを含むかを判定することができる。オブジェクトの重み及びマクロブロック内のオブジェクト画素数に応じて、適切なオフセットを適用してマクロブロックのＱＰを低減することができる。これにより、より多くのビットをマクロブロックに割り当てることができ、知覚品質を向上することができる。

重み付け歪み計測を実行する場合、エンコーダは各マクロブロックについて幾つかのモード決定（例えば、イントラコーディング（ｉｎｔｒａｃｏｄｉｎｇ）、インターコーディング、スキップコーディング、ディレクトコーディング、及び図４に示されているマクロブロック区分け法（１６ｘ１６、８ｘ８、４ｘ４等））を行う。このような決定はレートと歪（ディストーション）の間のトレードオフ（Ｒ−Ｄｔｒａｄｅｏｆｆ）に基づき、レートは割り当てられたビットの数に対応し、歪は符号化忠実度（コーディングフィディリティ）の計測値である。歪は通常、オリジナルのマクロブロックの画素値と符号化されたマクロブロックの画素値との間の絶対値差合計（ＳＡＤ）として計算される。オブジェクトをより良くプレザーブするために、プロセスは重み付けされたＳＡＤを使用する。オブジェクト画素における差はオブジェクトでない画素（非オブジェクト画素）より大きな値で重み付けされる（１より大きな値で乗算される）。オブジェクト画素の重みはエンコーダ重みアレイから得られる。画素（ｘ，ｙ）の重みはＷ（ｘ，ｙ）＋１によって与えられる。オブジェクト画素における歪を強調することによって、重み付けされた歪を計測すると、より良いオブジェクトのプレザベーションが得られる。なぜならレートと歪の最適化を行おうとすれば、マクロブロック歪全体を最小化するモードを選択することになるからである。

知覚ＱＰオフセット法は知覚フレームレベルＱＰオフセット法として特徴付けることができる。知覚ＱＰオフセットは特に、知覚されるべきオブジェクトが多くのマクロブロックに亘っている場合に有用（便利）である。本質的に、知覚ＱＰオフセットは基準フレーム（Ｉフレーム及びＰフレーム）の質を向上し、よって、符号化効率全体を向上する。知覚ＱＰオフセットは以下の関係を前提としている。
ＱＰ_I＜ＱＰ_P＜ＱＰ_B （１）
ここで、ＱＰ_I、ＱＰ_P、及びＱＰ_BはそれぞれＩフレームのＱＰ、ＰフレームのＱＰ、及びＢフレームのＱＰを示している。一定の（定数の）フレームＱＰを用いたレート制御の式、つまり、フレームの最終的なＱＰを用いたレート制御の式は想定された一定のＱＰ（全てのフレームについて同じ）をこのフレームのＱＰオフセットに合計したものである。この場合、各フレームタイプについて好ましいＱＰオフセットは同じように、
ΔＱＰ_I＜ΔＱＰ_P＜ΔＱＰ_B （２）
となる。ここで、ΔＱＰ_I、ΔＱＰ_P、及びΔＱＰ_BはそれぞれＩフレームのＱＰオフセット、ＰフレームのＱＰオフセット及びＢフレームのＱＰオフセットを示している。

フレームレベルのＱＰオフセットの計算における他の重要なファクタは人間視覚システム（ＨＶＳ：ｈｕｍａｎｖｉｓｕａｌｓｙｓｔｅｍ）のテンポラルマスキング効果またはモーションマスキング効果である。基本的に、人間の目の感度は、ハイモーション（ｈｉｇｈｍｏｔｉｏｎ）フレームの品質低下に対する感度の方がローモーション（ｌｏｗｍｏｔｉｏｎ）フレームより鈍い。よって、ローモーションフレームに適用されるＱＰよりも小さなＱＰがハイモーションフレームに適用されるべきである。なぜならハイモーションフレームは高いテンポラルマスキング効果を有しているからである。このとき、符号化されたビデオにおいては依然として同じレベルの知覚品質が知覚され得る。

フレームにおけるテンポラルマスキング効果の量からフレーム毎のＱＰオフセット寄与度を効率的に計算する手法を探し、この手法をフレームタイプから得られるオリジナルの（元の）ＱＰオフセット寄与度に適切に組み合わせる。結果として得られるフレームレベルのＱＰオフセットは、フレームタイプとテンポラルマスキング効果の双方を表しており、よって、より包括的なものになっている。この手法は、オフラインビデオ符号化におけるビデオクリップ全体またはビデオシーケンス全体のフレームビット割り当て（ＦＢＡ：ｆｒａｍｅｂｉｔａｌｌｏｃａｔｉｏｎ）のために微調整される。これにも拘わらず、通常、この手法はオンラインのリアルタイムビデオ符号化にも適用することができる。この際、種々の程度の品質改善が、含まれた先読時間に応じて得られる。徹底的な（広範な、十分な）実験によって以下のことが判明した。即ち、オフラインビデオ符号化において全域最適化フレームビット割り付けから顕著な視覚品質向上を確実に得るためには、フレームタイプファクタよりもテンポラルマスキング効果をフレーム毎のＱＰオフセットにおいて説明する（重視する）ことが、より必要で且つ重要である。

オンラインまたはオフラインのビデオ符号化についてのほとんどのレート制御スキームはフレームビット割り当てにおいてフレームタイプファクタだけを説明し、ＨＶＳマスキング効果による影響を全く説明しない。よって、オフライン符号化の場合、たとえ平均ピークＳＮ比（ＰＳＮＲ：ｐｅａｋｓｉｇｎａｌ−ｔｏ−ｎｏｉｓｅｒａｔｉｏ）で計測された客観的な符号化効率がフレームタイプベースのフレーム毎のＱＰオフセットのフレームビット割り当てを介したオンライン符号化よりも著しく改善されたとしても、顕著な知覚品質改善を見ることはできない。シーケンスの全フレームビット割り当ての全域最適化の故に、ハイモーションフレームはオンライン符号化の場合よりも多くのビットが割り当てられて符号化される。オンライン符号化の場合、ビットはまず各ＧＯＰ（ｇｒｏｕｐｏｆｐｉｃｔｕｒｅｓ）に割り当てられ、一定のビットレート（ＣＢＲ：ｃｏｎｓｔａｎｔｂｉｔｒａｔｅ）を保証するために、ＧＯＰの割り当てられたビットは関与しているフレーム数だけに比例し（即ち、ＧＯＰのサイズだけに比例し）、異なる符号化複雑度（例えば、ハイモーションであるかローモーションであるか等）によって影響されない。従って、オフライン符号化の場合、多くのビットが与えられれば、ハイモーションフレームはオンライン符号化の場合よりも高いＰＳＮＲで符号化される。一方、ビットの総量（総数）は同じであるので、ローモーションフレームは低いＰＳＮＲで符号化される。この場合、ＰＳＮＲの変化はかなり低減される。しかし、ほぼ一定のＰＳＮＲであることは、ほぼ一定の知覚品質であることを意味しない。ＨＶＳテンポラルマスキング効果のために、ハイモーションフレームＰＳＮＲゲインはローモーションフレームＰＳＮＲ低下より著しく知覚されにくい。よって、全体的な知覚品質は大抵の場合、オンライン符号化より悪い。従って、クリップ全体の全域ＦＢＡにおけるテンポラルマスキング効果を考慮することが必要であり、知覚品質強化（向上）のためには重要であることが、本発明の手法により判明した。

尚、テンポラルマスキングの原因となるＦＢＡを含む手法はしばしば、分類分けベース若しくはフレーム複雑度ベースの基本レートモデルを有しているが、これはレート制御に広く採用されているＲ−ＱＰモデリング法ほど正確ではなく、一般的でものでもない。さらに、テンポラルマスキングを考慮する広く採用された方法はＦＢＡにおけるフレーム毎のＱＰを利用しないので、Ｒ−ＱＰモデルベースのレート制御による手法に適用することはできない。

よって、知覚フレームレベルＱＰオフセット法は実際には、テンポラルマスキングによるＱＰオフセット部分（ΔＱＰ_Maskingとして示されている）とフレームタイプによる部分（ΔＱＰ_Typeとして示されている）の適切な組み合わせである。このスキーム（考え方、やり方）は、リアルタイムのシングルパスコーディングに対してオフラインのマルチパスコーディングの知覚品質を著しく向上するために、重要なスキームである。

フレーム複雑度メトリックを有するテンポラルマスキング効果は次のように定義される。

Ｃｍｐｌ＝ｍａｘ（０．１，Ｃｏｍｐｌ−２）（４）
ここで、Ｃｍｐｌはフレームの複雑度を示す。

はフレームのＭＢ毎の（１ＭＢ当たりの）平均ＭＶ符号化ビットを示す。

はフレームにおける全ＭＢに対する予測残余の平均化された平均絶対値差（ＭＡＤ：ｍｅａｎ−ａｂｓｏｌｕｔｅ−ｄｉｆｆｅｒｅｎｃｅ）を示す。よって、これらの合計はまさに現在のフレームのモーション強度を示し、等しく符号化複雑度及びフレーム間変化を意味する。式（３）の簡単な足し算は広範な実験による十分な経験則（ヒューリスティックス）から導出されている。

エンコーダにおいて、

及び

、即ちＣｍｐｌはすべて、フレームの符号化の前に最初の（元の）入力フレームに基づいて計算され、

は輝度成分だけに関与する。計算は簡単な符号化プロセス（例えば、インター１６ｘ１６モード及びイントラ１６ｘ１６モードをチェックするだけ、並びに、整数モーションベクトルをサーチするだけ）に従う。

式（３）から計算されるフレームの複雑度はさらに、式（４）によって制限が付けられる。複雑度が０．１未満の場合、予測残余はもともと含まれている（内在的な）画像ノイズによって存在すると考えられる。よって、最小複雑度を０．１に設定することができ、「ゼロで割り算する」エラーを回避することもできる。また、たとえモーションベクトル差が無くても、式（３）における最小平均モーションベクトルビット

は２のままである。従って、この部分は常に除去される。

尚、本明細書において、フレーム複雑度は順方向フレーム間予測だけによってフレーム毎に計算される。なぜなら、フレーム表示順序または視聴順序は順方向に進行するからである。つまり、任意のフレームについて、フレームタイプがどのようなタイプであったとしても（即ち、ＩフレームであってもＰフレームであってもＢフレームであっても）、モーション強度やそのモーションマスキング効果を計測する際には式（３）で計算されるフレーム複雑度を使用するだけである。

下記の式（１０）から分かるように、最終的なＱＰオフセットは実際に、テンポラルマスキングによるＱＰオフセット部分（ΔＱＰ_Maskingとして示されている）とフレームタイプによる部分（ΔＱＰ_Typeとして示されている）の適切な組み合わせである。このスキームは、リアルタイムのシングルパスコーディングに対してオフラインのマルチパスコーディングの知覚品質を著しく向上するために、重要なスキームである。このスキームは次の計算を含む。

・フレームｎについてΔＱＰ_Maskingを計算する。

・フレームｎがシーン変化フレームである場合、式（５）の代わりに次の式を用いる。

ΔＱＰ_Masking（ｎ）＝ａ・Ｃｏｍｐｌ_Masking（ｎ）（７）

ここで、Ｋ＝１。２Ｋ＋１＝３がウインドゥサイズである。Ｃｏｍｐｌｍａｘ＝４０。ａ＝０．５。Ｎはビデオクリップにおける全フレーム数である。ΔＱＰ_Masking.max＝８であるとき、
ΔＱＰ_Masking.min＝−８
・フレームｎについてΔＱＰ_Typeを計算する。

・Ｉフレームなら、
ＧＯＰＳｉｚｅ＝１の場合 →ΔＱＰ_Type（ｎ）＝０
それ以外で、もしＧＯＰＳｉｚｅ＜１０なら
｛
もしＧＯＰＡｖｇＣｏｍｐｌ＜６なら、→ΔＱＰ_Type（ｎ）＝−６
それ以外で、もしＧＯＰＡｖｇＣｏｍｐｌｅ＜１４なら、→ΔＱＰ_Type（ｎ）
＝−４
それ以外は →ΔＱＰ_Type（ｎ）＝−２
｝
それ以外
｛
もしＧＯＰＡｖｇＣｏｍｐｌ＜６なら、 →ΔＱＰ_Type（ｎ）＝−８
それ以外で、もしＧＯＰＡｖｇＣｏｍｐｌ＜１４なら、→ΔＱＰ_Type（ｎ）＝
−６
それ以外は →ΔＱＰ_Type（ｎ）＝−４
｝
・Ｐフレームなら、
もしＢフレームの予測に用いられるならば、→ΔＱＰ_Type（ｎ）＝−２
それ以外は →ΔＱＰ_Type（ｎ）＝０
・Ｂフレームなら、→ΔＱＰ_Type（ｎ）＝＋４
ここで、ＧＯＰＡｖｇＣｏｍｐｌは最初のＩフレームを除く現在のＧＯＰの平均フレーム複雑度である。

・フレームｎについて最終的なΔＱＰを計算する。
ΔＱＰ（ｎ）＝ｍｉｎ（ΔＱＰ_max，ｍａｘ（ΔＱＰ_min，ΔＱＰ_Masking（ｎ）＋ΔＱＰ_Type（ｎ）））（１０）
ここで、ΔＱＰ_max＝１５、ΔＱＰ_min＝−１５。

式（５）においてフレームのテンポラルマスキング複雑度は所定サイズのウインドゥ（即ち、２Ｋ＋１）において現在のフレームの隣にある複数のフレームの平均フレーム複雑度として計算される。これにより幾らかのローパスフィルタリング処理を適用することになり、フレーム複雑度のハイダイナミック変化（ｈｉｇｈｄｙｎａｍｉｃｃｈａｎｇｅ）によるフレームのテンポラルマスキング複雑度のハイダイナミック変化を回避する。

シーン変化フレームの場合、そのフレーム複雑度は非常に高い可能性がある。よって、そのテンポラルマスキング複雑度は特別に式（６）のように計算される。ここで、最大の制約がフレーム複雑度に適用され、平均化処理は同じシーン内の順方向の複数の隣接フレームにのみ適用される。

テンポラルマスキングフレーム複雑度が与えられると、テンポラルマスキング効果から得られるＱＰオフセットの部分は式（７）のように線形マッピングによって計算される。これは十分な経験則から導き出され、複雑度メトリックと共に効率的に使うことができる。次に、式（７）から得られるΔＱＰ_Masking（ｎ）が平均ΔＱＰ_Maskingによって正規化され、式（９）に示されるように、所定の合理的な範囲内に納まる。

本発明のΔＱＰ_Typeの計算は式（２）に記載したような経験的な規則（ヒューリスティックルール）を具現化するものである。詳しくは、もしＧＯＰがより多くのフレームを有するなら、または、もしＧＯＰがローモーションであるなら、ＧＯＰの最初のＩフレームにより多くのビットを割り当てることがより好ましい。なぜならＧＯＰにおける後続フレームにとって、より大きな符号化効率（の利益）を与えるからである。従って、このような場合、よりネガティブなＱＰオフセットが望まれ、反対の場合もしかりである。

テンポラルマスキング効果とフレームタイプ効果の双方からのＱＰオフセット寄与は、式（１０）における簡単な加算及び限界値（範囲）設定により組み合わされる。式（１０）から得られるフレーム毎のＱＰオフセットは、その後、Ｒ−ＱＰモデリングベースのレート制御法に使用されて、シーケンス内の各フレームへの割り当てビットを計算する。この際、ビット割り当てにおける一定の品質のために、ＱＰは一定であると仮定する。

フレームレベルのビット割り当てについてのレート制御法に関する簡単な説明が下記においてなされる。
１．最適ＱＰ（ＱＰ_Opt）を探す場合、

２．ＱＰ_Optに基づいて各フレームの割り当てビット予定量を計算する。
Ｒ_i,alloc＝Ｒ_i（ＱＰ_Opt＋ΔＱＰ_i）（１２）
ここで、Ｒ_Totalはビデオシーケンス全体に対するビットの総数を示す。Ｎはビデオシーケンス中のフレーム総数である。Ｒ_iはフレームｉのビット数である。ΔＱＰ_iは式（８）において計算された知覚フレームレベルＱＰオフセットである。Ｒ_i,allocはフレームｉに対する割り当てビット数である。

全域最適化Ｒ−ＱＰモデルベースのフレームレベルビット割り当てにおいて知覚フレームレベルＱＰオフセットを使用したビデオシーケンス全体の処理方法５００の例が図５のフロー図に示されている。図示されているように、入力ビデオシーケンス全体が受信され、各フレーム毎に上記した簡素化された符号化法（式（３）及び（４））を用いてフレーム複雑度が計算される（５０２）。その後、各フレーム毎に、各ＧＯＰのＧＯＰ符号化パターン及びＧＯＰ境界（範囲）についての決定を使用してフレームタイプが選択される（５０４）。次に、各フレーム毎に、上記した式（７）及びΔＱＰ_Typeを使用してΔＱＰ_Maskingが計算される（５０６）。その後、全フレームについての平均ΔＱＰ_Maskingが計算される（５０８）。各フレーム毎に、式（９）を用いてΔＱＰ_Maskingが正規化され、式（１０）を用いて最終的なΔＱＰが計算される（５１０）。計算された最終的なΔＱＰを使用して、式（１１）及び（１２）に関して説明したようにＲ−ＱＰベースのレート制御を用い、各フレーム毎の割り当てビット予定量を計算する（５１２）。この段階で、シーケンス全体は、ＭＢレベルのレート制御及び符号化を用いて求めた各フレーム毎の割り当てビット予定量により符号化される（５１４）。

徹底的な実験結果から次のことが判明した。即ち、テンポラルマスキング効果を考慮することなしに、フレームＱＰオフセットとしてΔＱＰ_Typeのみを使用すると、式（９）及び（１０）のようにシーケンス全体を用いる全域最適化レート制御は、現時点で利用できる１つのＧＯＰだけで局所的最適化レート制御をする場合に比べて優れてはいない。しかしながら、本発明の実施形態で記載されているようにテンポラルマスキング効果をさらに考慮すると、知覚品質において著しい改善が達成される。即ち、ＧＯＰ最適化レート制御に比べて、上記において提案されているフレームベースのＱＰオフセットを用いてシーケンス最適化レート制御を行うと、（ｉ）ハイモーションフレームに隣接するローモーションフレームに対してかなり良い符号化品質が得られ、且つ、（ｉｉ）シーンの終わりのローモーションショートＧＯＰに対してかなり良い符号化品質が得られると共にローモーションＧＯＰの品質はわずかに低下するだけである。全体的には、符号化ビデオの視覚経験は常に向上（改善）される。

図６は本発明を適用することができる例示的ビデオエンコーダ６００のブロック図である。まず、プロセッサ６０１及びメモリ６０２がエンコーダの全要素と信号通信可能にされ、全要素を制御するよう動作する。ビデオエンコーダ６００の入力は加算接合点６１０の非反転入力に信号通信可能に接続されている。加算接合点６１０の出力は変換器／量子化器６２０に信号通信可能に接続されている。変換器／量子化器６２０の出力はエントロピ符号化器６４０に信号通信可能に接続されている。エントロピ符号化器６４０の出力はエンコーダ６００の出力として利用可能である。

変換器／量子化器６２０の出力はさらに、逆変換器／量子化器６５０に信号通信可能に接続されている。逆変換器／量子化器４５０の出力は非ブロック化（ブロック分解、デブロック）フィルタ６６０の入力に信号通信可能に接続されている。非ブロック化フィルタ６６０の出力は基準映像記憶部６７０に信号通信可能に接続されている。基準映像記憶部６７０の第１の出力はモーションエスティメータ６８０の第１の入力に信号通信可能に接続されている。エンコーダ６００の入力はさらに、モーションエスティメータ６８０の第２の入力に信号通信可能に接続されている。モーションエスティメータ６８０の出力はモーション補償器６９０の第１の入力に信号通信可能に接続されている。基準映像記憶部６７０の第２の出力はモーション補償器６９０の第２の入力に信号通信可能に接続されている。モーション補償器の出力は加算接合点６１０の反転入力に信号通信可能に接続されている。

ナイーブＱＰオフセット法においては、フレームレベルレート制御法がＭＢのＱＰを決定した後にＱＰを変える。しかしながら、このように多くのＭＢを変えると、レート制御が不安定になる可能性があり、全体の知覚品質を下げてしまう可能性がある。フレームレベルのレート制御を行う前に（所望の知覚品質に基づいて）各ＭＢの所望のＱＰオフセットを特定した方が良いことがわかった。レート制御法は、各ＭＢに適切にリソースを割り当てるために、全ての情報を考慮する。

本発明に従って対象オブジェクトをどのようにプレザーブするかは、上記した３つの方法（ナイーブ量子化パラメータ（ＱＰ）オフセット法、重み付け歪みメトリック法、及び知覚量子化（ＱＰ）オフセット法）の組み合わせによって決めてもよい。この組み合わせは、プレザーブされるべきオブジェクト及びシーンの特徴を考慮し得る幾つかの条件に依存してもよい。

１つの方法では、フレーム内における対象オブジェクトのトータルエリア（総面積）を考慮する。もし０を超えるエンコーダ重み（つまりＷ（ｘ，ｙ）＞０）で画素の数が所定の閾値エリア（Ｔ_area）より小さなエリアを画定するなら、知覚ＱＰオフセット法が採用されるべきである。

２番目の方法では、オブジェクト画素を含むＭＢの総数またはオブジェクト画素の数を考慮する。もしオブジェクト画素を含むＭＢの総数またはオブジェクト画素の数が、閾値（Ｔ_area）より小さなエリアを有するなら、ナイーブＱＰオフセット法または重み付け歪む計測法が使用される。

前記２つの方法は、プレザーブされるべきＭＢの数が多いとき、知覚ＱＰオフセット法はエラーに対して強いという期待・予想に基づいている。しかし、ナイーブＱＰオフセット法及び重み付け歪み計測法は、少ないＭＢが関与している場合にのみ、より良い結果を提供する。

どの方法にするかを決める条件は、オブジェクトの数及びシーンの特徴（例えば、対象オブジェクトのエリア、オブジェクトの重要度、オブジェクトの速度、及びオブジェクトプレザベーションの履歴）に基づいて決定される（例えば、前のフレームにおける対応ＭＢに高いＱＰが与えられていたかどうかに基づいて決定される）。

本発明の１つの適用例において、顔領域はテレビ会議（ウェブ会議）のビデオ（画像）内で検出され、背景領域の量子化粒度を制御するために用いられる。

上記の記載は本発明を実施することができる形態の幾つかの例を示している。本発明の精神及び範囲の中で多くの他の実施形態が可能である。従って、上記の説明は例示的なものであり限定的なものでないと解釈されるべきであると共に、本発明の範囲は特許請求の範囲及びその最大限の均等物によって決められるべきである。
本発明は以下の態様を含む。
（付記１）
複数のフレームを有するビデオシーケンスから少なくとも２つのフレームを選択するステップと、
前記選択されたフレームの各々における少なくとも１つの対象オブジェクトのトータルエリアを判別するステップと、
各トータルエリアを閾値エリアと比較するステップと、
前記閾値エリアを超えるトータルエリアを有する選択されたフレームの各々を低オブジェクト重み付けフレームとして分類するステップと、
前記閾値エリアを超えないトータルエリアを有する選択されたフレームの各々を高オブジェクト重み付けフレームとして分類するステップと、
各低オブジェクト重み付けフレームを第１の符号化モードに従って符号化すると共に各高オブジェクト重み付けフレームを異なる符号化モードに従って符号化するステップと、
を含む、方法。
（付記２）
フレーム内のどのマクロブロックが前記少なくとも１つの対象オブジェクトを含むかを判別するステップと、
前記少なくとも２つのフレームの各々について当初ＱＰを決定するステップと、
前記低オブジェクト重み付けフレームについては、前記当初ＱＰにオフセットを与えるステップと、
前記オフセットを与えるステップに応じて、前記少なくとも１つの対象オブジェクトに含まれている前記マクロブロックへのビット割り当てを増大するステップと、
を含む、付記１記載の方法。
（付記３）
連続する高オブジェクト重み付けフレームについてフレームにおけるテンポラルマスキング効果の量からフレーム毎のＱＰオフセット寄与（ΔＱＰ_Masking）を判定するステップと、
前記ΔＱＰ_Maskingをフレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わせるステップと、
連続する高オブジェクト重み付けフレームを、前記フレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わされた計算済みΔＱＰ_Maskingを使用することによって得られるビットレートを使用して符号化するステップと、
を含む、付記１記載の方法。
（付記４）
連続する高オブジェクト重み付けフレームに関するフレーム複雑度を計算するステップと、
連続する高オブジェクト重み付けフレームの各ＧＯＰについてＧＯＰ範囲及びＧＯＰ符号化パターンに基づいてフレームタイプを選択するステップと、
フレームタイプに基づいてフレーム毎のＱＰオフセット寄与（ΔＱＰ_Type）を計算するステップと、
をさらに含む、付記３記載の方法。
（付記５）
全ての高オブジェクト重み付けフレームについての平均ΔＱＰ_Maskingを計算するステップと、
ΔＱＰ_Maskingを正規化するステップと、
最終的なフレーム毎のΔＱＰを計算するステップと、
をさらに含む、付記４記載の方法。
（付記６）
前記計算された最終的なフレーム毎のΔＱＰを用いて、割り当てられるビット量及びレート制御量を計算するステップをさらに含む、付記５記載の方法。
（付記７）
前記フレームにおけるテンポラルマスキング効果の量からフレーム毎のＱＰオフセット寄与（ΔＱＰ_Masking）を計算するステップは、ΔＱＰ_Masking（ｎ）＝ａ・Ｃｏｍｐｌ_Masking（ｎ）を使用して実行され、Ｃｏｍｐｌ_Masking（ｎ）は、高オブジェクト重み付けフレームの所定サイズのウインドウにおける現在のフレームに隣接する複数のフレームの平均として計算されたフレームのテンポラルマスキング複雑度を含む、付記３記載の方法。
（付記８）
高オブジェクト重み付けフレームについて各フレームのフレーム複雑度を計算する前記ステップは、順方向フレーム間予測を使用して実行される、付記４記載の方法。
（付記９）
フレーム内のどのマクロブロックが前記少なくとも１つの対象オブジェクトを含むかを判定するステップと、
前記少なくとも２つのフレームの各々について当初ＱＰを決定するステップと、
前記低オブジェクト重み付けフレームの前記当初ＱＰにオフセットを与えるステップであって、これにより、前記少なくとも１つの対象オブジェクトに含まれる前記マクロブロックへのビット割り当てが増加する、ステップと、
を含む、付記３記載の方法。
（付記１０）
フレーム内のどのマクロブロックが前記少なくとも１つの対象オブジェクトを含むかを判定するステップと、
前記少なくとも２つのフレームの各々について当初ＱＰを決定するステップと、
前記低オブジェクト重み付けフレームの前記当初ＱＰにオフセットを与えるステップであって、これにより、前記少なくとも１つの対象オブジェクトに含まれる前記マクロブロックへのビット割り当てが増加する、ステップと、
を含む、付記４記載の方法。
（付記１１）
前記低オブジェクト重み付けフレームについてオリジナルのマクロブロック画素と２つ以上の符号化モードの符号化されたマクロブロック画素との間の絶対値差合計（ＳＡＤ）を判定するステップと、
前記低オブジェクト重み付けフレームについての絶対値差合計判定ステップにおける少なくとも１つの他の符号化モードよりも小さな絶対値差合計を有する符号化モードを選択するステップと、
当該選択するステップで選択されたそれぞれの符号化モードに従って前記低オブジェクト重み付けフレームを符号化するステップと、
を含む、付記１記載の方法。
（付記１２）
前記絶対値差合計判定ステップにおいてエンコーダ重みアレイを適用して、前記オブジェクトの画素にオブジェクトではない画素よりも大きな重みが割り当てられるようにするステップを含む、付記１１記載の方法。
（付記１３）
ビデオシーケンスを符号化するエンコーダであって、
ビデオフレームにおける対象オブジェクトのエリアを判定する手段と、
モード選択閾値エリアを設定する手段と、
複数のフレームについて前記オブジェクトのエリアを前記閾値エリアと比較する手段と、
前記比較する手段に応答して符号化モードを選択する手段であって、異なるフレームについて異なる符号化モードを選択するように適合される、前記選択する手段と、
符号化手段であって、前記異なるフレームを前記異なる符号化モードで符号化するように適合される、前記符号化手段と、
を含む、前記エンコーダ。
（付記１４）
前記判定する手段は、前記対象オブジェクトを構成する画素の数を判定し、
前記選択する手段は、前記閾値エリアを越える画素数のエリアを有するフレームについて知覚量子化パラメータオフセット判定を使用し、
前記符号化手段は、前記知覚量子化パラメータオフセット判定に応じた符号化モードで前記フレームを符号化する、付記１３記載のエンコーダ。
（付記１５）
前記判定する手段は、前記対象オブジェクトを構成する画素の数を判定し、
前記選択する手段は、ナイーブＱＰオフセット判定を使用し、前記選択する手段は、前記閾値を超えない画素数のエリアを有する少なくとも２つのフレームの各々について当初ＱＰを決定し、前記少なくとも２つのフレームについてオフセットを前記当初ＱＰに与え、前記オフセットに応答して前記少なくとも１つの対象オブジェクトに含まれるマクロブロックへのビット割り当てを増大させるのに適合し、
前記符号化手段は、前記オフセットに応じた符号化モードで前記閾値フレームを超えない画素数のエリアを有する前記少なくとも２つのフレームを符号化する、付記１４記載のエンコーダ。
（付記１６）
前記判定する手段は、前記対象オブジェクトを構成する画素の数を判定し、
前記選択する手段は、ナイーブＱＰオフセット判定を使用し、前記選択する手段は前記閾値を超えない画素数のエリアを有する少なくとも２つのフレームの各々について当初ＱＰを決定し、前記少なくとも２つのフレームについてオフセットを前記当初ＱＰに与え、前記オフセットに応答して前記少なくとも１つの対象オブジェクトに含まれるマクロブロックへのビット割り当てを増大させるのに適合し、
前記符号化手段は、前記オフセットに応じた符号化モードで前記閾値フレームを超えない画素数のエリアを有する前記少なくとも２つのフレームを符号化する、付記１３記載のエンコーダ。

Claims

複数のフレームを有するビデオシーケンスから少なくとも２つのフレームを選択するステップと、
前記選択されたフレームの各々における少なくとも１つの対象オブジェクトのトータルエリアを決定するステップと、
各トータルエリアを閾値エリアと比較するステップと、
前記閾値エリアを超えるトータルエリアを有する選択されたフレームの各々を低オブジェクト重み付けフレームとして分類するステップと、
前記閾値エリアを超えないトータルエリアを有する選択されたフレームの各々を高オブジェクト重み付けフレームとして分類するステップと、
各低オブジェクト重み付けフレームを第１の符号化モードに従って符号化すると共に各高オブジェクト重み付けフレームを第２の符号化モードに従って符号化するステップであって、前記第２の符号化モードは前記第１の符号化モードより高い品質をもたらす、前記ステップと、
を含み、前記符号化するステップは、
連続する前記高オブジェクト重み付けフレームについての１つのフレームにおけるテンポラルマスキング効果の量からフレーム毎のＱＰオフセット寄与（ΔＱＰ_Masking）を決定するステップと、
前記ΔＱＰ_Maskingをフレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わせるステップと、
連続する前記高オブジェクト重み付けフレームを、前記フレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わされた計算済みΔＱＰ_Maskingを使用することによって得られるビットレートを使用して符号化するステップと、
を含む、方法。
フレーム内のどのマクロブロックが前記少なくとも１つの対象オブジェクトを含むかを判定するステップと、
前記少なくとも２つのフレームの各々について当初ＱＰを決定するステップと、
前記低オブジェクト重み付けフレームについては、前記当初ＱＰにオフセットを適用するステップと、
前記オフセットを適用するステップに応じて、前記少なくとも１つの対象オブジェクトに含まれている前記マクロブロックへのビット割り当てを増加させるステップと、
を含む、請求項１記載の方法。
連続する前記高オブジェクト重み付けフレームに関するフレーム複雑度を計算するステップと、
連続する前記高オブジェクト重み付けフレームの各ＧＯＰについてＧＯＰ境界及びＧＯＰ符号化パターンに基づいてフレームタイプを選択するステップと、
フレームタイプに基づいてフレーム毎のＱＰオフセット寄与（ΔＱＰ_Type）を計算するステップと、
をさらに含む、請求項１記載の方法。
全ての高オブジェクト重み付けフレームについての平均ΔＱＰ_Maskingを計算するステップと、
ΔＱＰ_Maskingを前記平均ΔＱＰ_Maskingによって正規化するステップと、
前記フレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わされた前記正規化済みΔＱＰ_Maskingを用いて最終的なフレーム毎のΔＱＰを計算するステップと、
をさらに含む、請求項３記載の方法。
前記計算済みの最終的なフレーム毎のΔＱＰを用いて、割り当てられるビット量及びレート制御量を計算するステップをさらに含む、請求項４記載の方法。
前記フレームにおけるテンポラルマスキング効果の量からフレーム毎のＱＰオフセット寄与（ΔＱＰ_Masking）を決定するステップは、ｎ番目のフレームについてΔＱＰ_Masking（ｎ）＝ａ・Ｃｏｍｐｌ_Masking（ｎ）を使用して実行され、ここでａ＝０．５であり、Ｃｏｍｐｌ_Masking（ｎ）は、高オブジェクト重み付けフレームの所定サイズのウインドウにおける現在のフレームに隣接する複数のフレームの平均として計算されたフレームのテンポラルマスキング複雑度を含む、請求項１記載の方法。
高オブジェクト重み付けフレームについて各フレームのフレーム複雑度を計算する前記ステップは、順方向フレーム間予測を使用して実行される、請求項３記載の方法。
フレーム内のどのマクロブロックが前記少なくとも１つの対象オブジェクトを含むかを判定するステップと、
前記少なくとも２つのフレームの各々について当初ＱＰを決定するステップと、
前記低オブジェクト重み付けフレームの前記当初ＱＰにオフセットを適用するステップであって、これにより、前記少なくとも１つの対象オブジェクトに含まれる前記マクロブロックへのビット割り当てが増加する、ステップと、
を含む、請求項１記載の方法。
フレーム内のどのマクロブロックが前記少なくとも１つの対象オブジェクトを含むかを判定するステップと、
前記少なくとも２つのフレームの各々について当初ＱＰを決定するステップと、
前記低オブジェクト重み付けフレームの前記当初ＱＰにオフセットを適用するステップであって、これにより、前記少なくとも１つの対象オブジェクトに含まれる前記マクロブロックへのビット割り当てが増加する、ステップと、
を含む、請求項３記載の方法。
前記低オブジェクト重み付けフレームについてオリジナルのマクロブロック画素と２つ以上の符号化モードの符号化されたマクロブロック画素との間の絶対値差の合計（ＳＡＤ）を決定するステップと、
前記低オブジェクト重み付けフレームについての前記絶対値差の合計を決定するステップにおいて少なくとも１つの他の符号化モードよりも小さな絶対値差の合計を有する符号化モードを選択するステップと、
当該選択するステップで選択されたそれぞれの符号化モードに従って前記低オブジェクト重み付けフレームを符号化するステップと、
を含む、請求項１記載の方法。
前記絶対値差の合計を決定するステップにおいてエンコーダ重みアレイを適用して、オブジェクトの画素にオブジェクトではない画素よりも大きな重みが割り当てられるようにするステップを含む、請求項１０記載の方法。
ビデオシーケンスを符号化するエンコーダであって、
ビデオフレームにおける対象オブジェクトのエリアを決定する手段と、
モード選択の閾値エリアを設定する手段と、
複数のフレームについて前記対象オブジェクトのエリアを前記閾値エリアと比較する手段であって、前記閾値エリアを超えない前記対象オブジェクトのトータルエリアを有するフレームが高オブジェクト重み付けフレームとして分類される、前記比較する手段と、
前記比較する手段に応じて符号化モードを選択する手段であって、異なるフレームについて異なる符号化モードを選択するように適合される、前記選択する手段と、
符号化手段であって、前記異なるフレームを前記異なる符号化モードで符号化するように適合され、前記異なる符号化モードは異なる品質をもたらす、前記符号化手段と、
を含み、
前記符号化手段は、
連続する前記高オブジェクト重み付けフレームについての１つのフレームにおけるテンポラルマスキング効果の量からフレーム毎のＱＰオフセット寄与（ΔＱＰ_Masking）を決定する手段と、
前記ΔＱＰ_Maskingをフレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わせる手段と、
連続する前記高オブジェクト重み付けフレームを、前記フレームタイプから得られたＱＰオフセット寄与（ΔＱＰ_Type）に組み合わされた計算済みΔＱＰ_Maskingを使用することによって得られるビットレートを使用して符号化する手段と、
を含む、前記エンコーダ。