JP6352173B2

JP6352173B2 - プリプロセッサ方法および装置

Info

Publication number: JP6352173B2
Application number: JP2014263408A
Authority: JP
Inventors: タオ・ティアン; ファン・リウ; ファン・シ; ビジャヤラクシュミ・アール．・ラビーンドラン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2006-04-03
Filing date: 2014-12-25
Publication date: 2018-07-04
Anticipated expiration: 2027-03-13
Also published as: JP2009532741A; JP5897419B2; KR20110128366A; KR101373896B1; KR20120091423A; TW200803504A; CN104159060A; KR20100126506A; AR060254A1; WO2007114995A1; KR20090006159A; KR101377370B1; KR101127432B1; EP2002650A1; CN104159060B; KR101019010B1; KR20140010190A; JP2015109662A; JP2013031171A

Description

優先権の主張

本特許出願は、２００６年４月３日に出願された仮出願第６０／７８９，０４８号、２００６年４月４日に出願された仮出願第６０／７８９，２６６号、および２００６年４月４日に出願された仮出願第６０／７８９，３７７号の優先権を主張し、上記の仮出願のすべては、本発明の譲受人に譲渡されており、参照により本明細書に明示的に組み込まれる。

本発明は、一般に、マルチメディアデータ処理に関し、より詳細には、データ圧縮処理に先立ってまたはデータ圧縮処理と同時に実行される処理操作に関する。

仮出願第６０／７８９，０４８号仮出願第６０／７８９，２６６号仮出願第６０／７８９，３７７号Ｐ．Ｈａａｖｉｓｔｏ、Ｊ．Ｊｕｈｏｌａ、Ｙ．Ｎｅｕｖｏ、「Ｓｃａｎｒａｔｅｕｐ−ｃｏｎｖｅｒｓｉｏｎｕｓｉｎｇａｄａｐｔｉｖｅｗｅｉｇｈｔｅｄｍｅｄｉａｎｆｉｌｔｅｒｉｎｇ」、ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｏｆＨＤＴＶＩＩ、７０３〜７１０ページ、１９９０年Ｒ．Ｓｉｍｏｎｅｔｔｉ、Ｓ．Ｃａｒｒａｔｏ、Ｇ．Ｒａｍｐｏｎｉ、Ａ．ＰｏｌｏＦｉｌｉｓａｎ、「ＤｅｉｎｔｅｒｌａｃｉｎｇｏｆＨＤＴＶＩｍａｇｅｓｆｏｒＭｕｌｔｉｍｅｄｉａＡｐｐｌｉｃａｔｉｏｎｓ」、ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｏｆＨＤＴＶＩＶ、７６５〜７７２ページ、１９９３年Ｄ．Ｌ．Ｄｏｎｏｈｏ、Ｉ．Ｍ．Ｊｏｈｎｓｔｏｎｅ、「Ｉｄｅａｌｓｐａｔｉａｌａｄａｐｔａｔｉｏｎｂｙｗａｖｅｌｅｔｓｈｒｉｎｋａｇｅ」、Ｂｉｏｍｅｔｒｉｋａ、ｖｏｌ．８、４２５〜４５５ページ、１９９４年Ｓ．Ｐ．Ｇｈａｅｌ、Ａ．Ｍ．Ｓａｙｅｅｄ、Ｒ．Ｇ．Ｂａｒａｎｉｕｋ、「ＩｍｐｒｏｖｅｍｅｎｔＷａｖｅｌｅｔｄｅｎｏｉｓｉｎｇｖｉａｅｍｐｉｒｉｃａｌＷｉｅｎｅｒｆｉｌｔｅｒｉｎｇ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＳＰＩＥ、ｖｏｌ３１６９、３８９〜３９９ページ、ＳａｎＤｉｅｇｏ、１９９７年７月Ｇ．Ｄ．Ｈａａｎ、Ｅ．Ｂ．Ｂｅｌｌｅｒｓの「Ｄｅ−ｉｎｔｅｒｌａｃｉｎｇｏｆｖｉｄｅｏｄａｔａ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓ、Ｖｏｌ．４３、Ｎｏ．３、８１９〜８２５ページ、１９９７年ＳｐｅｃｉｆｉｃａｔｉｏｎｓｆｏｒＳａｆｅＡｃｔｉｏｎａｎｄＳａｆｅＴｉｔｌｅＡｒｅａｓＴｅｓｔＰａｔｔｅｒｎｆｏｒＴｅｌｅｖｉｓｉｏｎＳｙｓｔｅｍｓ、ＳＭＰＴＥ推奨実践ＲＰ２７．３−１９８９

本明細書で説明される本発明の装置および方法は各々、いくつかの態様を有し、それらの１つが単独で、その望ましい属性に責任を負うことはない。本発明の範囲を限定することなく、そのより顕著な特徴が、今から簡潔に説明される。この説明を考察した後、特に「詳細な説明」と題するセクションを読んだ後、読者は、本発明の特徴が、どのようにマルチメディアデータ処理装置および方法に改良を提供するかを理解するであろう。
一態様では、マルチメディアデータを処理する方法は、インタレースビデオフレームを受信することと、インタレースビデオフレームをプログレッシブビデオに変換することと、プログレッシブビデオに関連するメタデータを生成することと、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータの少なくとも一部とを符号器に提供することとを備える。前記方法は、メタデータを使用してプログレッシブビデオを符号化することをさらに含むことができる。いくつかの態様では、インタレースビデオフレームは、ＮＴＳＣビデオを備える。ビデオフレームを変換することは、インタレースビデオフレームをデインタレースすることを含むことができる。

いくつかの態様では、メタデータは、帯域幅情報、双方向動き情報、比帯域、時間もしくは空間複雑さの値またはその両方などの複雑さの値、ルミナンス情報を含むことができ、空間情報は、ルミナンスおよび／またはクロミナンス情報を含むことができる。前記方法は、インタレースビデオフレームの空間情報および双方向動き情報を生成することと、空間情報および双方向動き情報を使用してインタレースビデオフレームに基づいてプログレッシブビデオを生成することも含むことができる。いくつかの態様では、インタレースビデオフレームを変換することは、３／２プルダウンビデオフレームを逆テレシネすること、および／またはプログレッシブビデオをリサイズすることを備える。前記方法は、グループオブピクチャ情報を決定するためにプログレッシブビデオを区分化することをさらに備えることができ、区分化は、プログレッシブビデオのショット検出を含むことができる。いくつかの態様では、前記方法は、雑音低減フィルタを用いるプログレッシブビデオも含む。

別の態様では、マルチメディアデータを処理するための装置は、インタレースビデオフレームを受信するように構成される受信器と、インタレースビデオフレームをプログレッシブビデオに変換するように構成されるデインタレーサと、プログレッシブビデオに関連するメタデータを生成し、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータとを符号器に提供するように構成されるパーティショナとを含むことができる。いくつかの態様では、前記装置は、プログレッシブビデオを通信モジュールから受信し、提供されたメタデータを使用してプログレッシブビデオを符号化するように構成される符号器をさらに含むことができる。デインタレーサは、時空間デインタレースおよび／または逆テレシネを実行するように構成することができる。パーティショナは、ショット検出を実行し、ショット検出に基づいて圧縮情報を生成するように構成することができる。いくつかの態様では、パーティショナは、帯域幅情報を生成するように構成することができる。前記装置は、プログレッシブフレームをリサイズするように構成されるリサンプラも含むことができる。メタデータは、帯域幅情報、双方向動き情報、比帯域、ルミナンス情報、コンテンツに関係する空間複雑さの値、および／またはコンテンツに関係する時間複雑さの値を含むことができる。いくつかの態様では、デインタレーサは、インタレースビデオフレームの空間情報および双方向動き情報を生成し、空間情報および双方向動き情報を使用してインタレースビデオフレームに基づいてプログレッシブビデオを生成するように構成される。

別の態様は、インタレースビデオフレームを受信するための手段と、インタレースビデオフレームをプログレッシブビデオに変換するための手段と、プログレッシブビデオに関連するメタデータを生成するための手段と、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータの少なくとも一部とを符号器に提供するための手段とを含む、マルチメディアデータを処理するための装置を備える。いくつかの態様では、変換手段は、逆テレシネ器および／または時空間デインタレーサを備える。いくつかの態様では、生成手段は、ショット検出を実行し、ショット検出に基づいて圧縮情報を生成するように構成される。いくつかの態様では、生成手段は、帯域幅情報を生成するように構成される。いくつかの態様では、生成することは、プログレッシブフレームをリサイズするためにリサンプリングするための手段を含む。

別の態様は、マルチメディアデータを処理するための命令を備える機械可読媒体を備え、前記命令は実行された時に、機械にインタレースビデオフレームを受信させ、インタレースビデオフレームをプログレッシブビデオに変換させ、プログレッシブビデオに関連するメタデータを生成させ、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータの少なくとも一部とを符号器に提供させる。

別の態様は、インタレースビデオを受信し、インタレースビデオをプログレッシブビデオに変換し、プログレッシブビデオに関連するメタデータを生成し、プログレッシブビデオの符号化の際に使用するためにプログレッシブビデオとメタデータの少なくとも一部とを符号器に提供するための構成を備えるプロセッサを含む。インタレースビデオの変換は、時空間デインタレースを実行することを含むことができる。いくつかの態様では、インタレースビデオの変換は、逆テレシネを実行することを備える。いくつかの態様では、メタデータの生成は、ショット変化の検出に基づいて圧縮情報を生成することを含む。いくつかの態様では、メタデータの生成は、プログレッシブビデオの圧縮情報を決定することを含む。いくつかの態様では、前記構成は、リサイズされたプログレッシブフレームを生成するためにビデオをリサンプルための構成を含む。いくつかの態様では、メタデータは、帯域幅情報、双方向動き情報、コンテンツに基づいた時間もしくは空間複雑さ情報などの複雑さ情報、および／または圧縮情報を含むことができる。

ストリーミングマルチメディアデータを送り届けるための通信システムのブロック図。プリプロセッサを含むディジタル伝送機構のブロック図。プリプロセッサの例示的な態様のブロック図。マルチメディアデータを処理するためのプロセスを示す流れ図。マルチメディアデータを処理するための手段を示すブロック図。例示的なプリプロセッサの動作を示すブロック図。逆テレシネプロセスにおけるフェーズ判定の図。テレシネビデオに逆処理を施すプロセスを示す流れ図。フェーズ遷移を示す格子（trellis）の図。複数のメトリックを生成するために使用されるそれぞれのフレームを識別するための手引きの図。図８のメトリックがどのように生成されるかを説明する流れ図。推定フェーズに達するためのメトリックの処理を示す流れ図。判定変数を生成するためのシステムを説明するデータ流れ図。ブランチ情報を評価するために使用される変数を示すブロック図。下方エンベロープがどのように計算されるかを示す流れ図。下方エンベロープがどのように計算されるかを示す流れ図。下方エンベロープがどのように計算されるかを示す流れ図。整合性検出器の動作を示す流れ図。フェーズ判定における不整合性を補償するために使用される判定変数に対するオフセットを計算するプロセスを示す流れ図。プルダウンフェーズが推定された後の逆テレシネの動作を提示する図。デインタレーサデバイスのブロック図。別のデインタレーサデバイスのブロック図。インタレース画像のサブサンプリングパターンの図。デインタレースフレームを生成するためにＷｍｅｄフィルタリング動き推定を使用するデインタレーサデバイスのブロック図。マルチメディアデータの静止領域を決定するためのアパーチャの一態様を示す図。マルチメディアデータの遅い動き領域を決定するためのアパーチャの一態様を示す図。動き推定の一態様を示す図。動き補償を決定する際に使用される２つの動きベクトルマップを示す図。マルチメディアデータをデインタレースする方法を示す流れ図。時空間情報を使用してデインタレースフレームを生成する方法を示す流れ図。デインタレースのための動き補償を実行する方法を示す流れ図。いくつかの態様によるショット検出および他の前処理操作のために構成されるプロセッサを備えるプリプロセッサのブロック図。符号化の複雑さＣおよび割り当てられたビットＢの間の関係を示す図。グループオブピクチャ上で動作し、いくつかの態様では、ビデオフレーム内でのショット検出に基づいてビデオを符号化するために使用できるプロセスを示す流れ図。ショット検出のためのプロセスを示す流れ図。ビデオにおけるショットの異なる分類を決定するためのプロセスを示す流れ図。ショット検出結果に基づいてフレーム圧縮方式をビデオフレームに割り当てるためのプロセスを示す流れ図。突然シーン変化を決定するためのプロセスを示す流れ図。緩慢変化シーンを決定するためのプロセスを示す流れ図。カメラフラッシュを含むシーンを決定するためのプロセスを示す流れ図。現在フレームと先行フレームの間の動き補償ベクトルＭＶＰおよび現在フレームと次フレームの間の動き補償ベクトルＭＶＮを示す図。フレーム差分メトリックを決定する際に使用される変数についての関係を示すグラフ。データの符号化および残余の計算を示すブロック図。フレーム差分メトリックの決定を示すブロック図。圧縮タイプがフレームに割り当てられる手順を示す流れ図。１−Ｄ多相リサンプリングの一例を示す図。データのフレームのセーフアクション領域およびセーフタイトル領域を示す絵図。データのフレームのセーフアクション領域を示す絵図。

詳細な説明

以下の説明は、例の完全な理解を提供するための詳細を含む。しかし、一例または一態様におけるプロセスまたはデバイスの詳細の必ずしもすべてが本明細書で説明または図示されていなくても、例が実施され得ることは、当業者であれば理解されよう。例えば、電気的コンポーネントは、不必要な詳細によって例があいまいにならないように、そのコンポーネントの必ずしもすべての電気的接続または電気的エレメントが図示されていないブロック図で示されてよい。他の例では、そのようなコンポーネント、他の構造および技法は、例をさらに説明するために詳細に示されてよい。

本発明のある態様、ならびに既存の前処理および符号化システムの性能を改善するプリプロセッサおよびプリプロセッサ動作方法のための態様が、本明細書で説明される。そのようなプリプロセッサは、デインタレース、逆テレシネ、フィルタリング、ショットタイプ識別、メタデータ処理および生成、ならびに帯域幅情報生成を実行することを含む符号化の準備において、メタデータおよびビデオを処理することができる。本明細書における「一態様」、「態様」、「いくつかの態様」、または「ある態様」についての言及は、態様に関係して説明される１つまたは複数の特定の特徴、構造、または特性が、プリプロセッサシステムの少なくとも１つの態様に含まれ得ることを意味する。本明細書の様々な箇所におけるそのような句の出現は、必ずしもすべてが、同じ態様に言及するものではなく、他の態様と相互に排他的な別個または代替態様に言及するものでもない。さらに、いくつかの態様によって提示されることがあり、他の態様によっては提示されないことがある様々な特徴が説明される。同様に、いくつかの態様のステップであることがあり、他の態様のステップではないことがある様々なステップが説明される。

本明細書で使用される「マルチメディアデータ」または「マルチメディア」は、（オーディオデータを含み得る）ビデオデータ、オーディオデータ、またはビデオデータとオーディオデータの両方を含む広義の用語である。本明細書で使用される「ビデオデータ」または「ビデオ」は、画像、またはテキスト、画像、および／もしくはオーディオデータを含む１つもしくは複数の画像列もしくは系列を指す広義の用語であり、マルチメディアデータを指すために使用することができ、別途指摘されない限り、「マルチメディアデータ」と「ビデオデータ」は、相互交換可能に使用されてよい。

図１は、ストリーミングマルチメディアを送り届けるための通信システム１００のブロック図である。そのようなシステムは、図１に示されるような多数の端末へのディジタル圧縮ビデオの伝送において応用を見出す。ディジタルビデオ源は、例えば、ディジタルケーブルもしくは衛星供給、またはディジタル化されるアナログ源とすることができる。ビデオ源は、伝送機構１２０において処理され、ネットワーク１４０を介する１つまたは複数の端末１６０への伝送のために、符号化され、搬送波上に変調される。端末１６０は、受信したビデオを復号し、典型的にはビデオの少なくとも一部を表示する。ネットワーク１４０は、符号化データの伝送に適した有線または無線の任意のタイプの通信ネットワークを指す。例えば、ネットワーク１４０は、セル電話ネットワーク、有線もしくは無線ローカルエリアネットワーク（ＬＡＮ）もしくはワイドエリアネットワーク（ＷＡＮ）、またはインターネットとすることができる。端末１６０は、セル電話、ＰＤＡ、家庭用または商用ビデオ表示機器、コンピュータ（ポータブル、ラップトップ、ハンドヘルド、ＰＣ、およびより大規模なサーバベースのコンピュータシステム）、ならびにマルチメディアデータの使用が可能な個人向け娯楽デバイスを含むが、これらに限定されない、データの受信および表示が可能な任意のタイプの通信デバイスとすることができる。

図２および図３は、プリプロセッサ２０２のサンプル態様を示している。図２では、プリプロセッサ２０２は、ディジタル伝送機構１２０内に存在する。復号器２０１は、ディジタルビデオ源からの符号化データを復号し、メタデータ２０４およびビデオ２０５をプリプロセッサ２０２に提供する。プリプロセッサ２０２は、あるタイプの処理をビデオ２０５およびメタデータ２０４に対して実行し、処理されたメタデータ２０６（例えば、ベースレイヤ参照フレーム、エンハンスメントレイヤ参照フレーム、帯域幅情報、コンテンツ情報）およびビデオ２０７を符号器２０３に提供するように構成される。マルチメディアデータのそのような前処理は、データの視覚的鮮明度、アンチエイリアス、および圧縮効率を向上させることができる。一般に、プリプロセッサ２０２は、復号器２０１によって提供されたビデオ系列を受け取り、符号器によるさらなる処理（例えば符号化）のために、ビデオ系列をプログレッシブビデオ系列に変換する。いくつかの態様では、プリプロセッサ２０２は、逆テレシネ、デインタレース、フィルタリング（例えば、アーチファクト除去、デリンギング、デブロッキング、および雑音低減）、リサイズ（例えば、標準定義からクウォータビデオグラフィックスアレイ（ＱＶＧＡ：Quarter Video Graphics Array）への空間解像度ダウンサンプリング）、ならびにＧＯＰ構造生成（例えば、複雑さマップ生成、シーン変化検出、およびフェード／フラッシュ検出の計算）を含む数多くの操作のために構成することができる。

図３Ａは、受け取ったメタデータ２０４およびビデオ２０５に対して前処理操作を実行し、その後、さらなる処理のために、処理されたメタデータ２０６およびプログレッシブビデオ２０７を（例えば符号器に）提供するための、モジュールまたはコンポーネント（本明細書ではまとめて「モジュール」と呼ばれる）を用いて構成されるプリプロセッサ２０２を示している。モジュールは、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせで実施することができる。プリプロセッサ２０２は、皆以下でさらに説明される、逆テレシネ３０１、デインタレーサ３０２、雑音低減器３０３、エイリアス抑制器３０４、リサンプラ３０５、デブロッカ／デリンガ３０６、およびＧＯＰパーティショナ３０７を含む、１つまたは複数の図示されたモジュールを含む、様々なモジュールを含むことができる。プリプロセッサ２０２は、メモリ３０８および通信モジュール３０９を含む、ビデオおよびメタデータを処理するために使用できる他の適切なモジュールも含むことができる。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、着脱可能ディスク、ＣＤ−ＲＯＭ、または当技術分野で知られた他の形態の記憶媒体に存在することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み、記憶媒体に情報を書くことができるように、プロセッサに結合される。代替として、記憶媒体は、プロセッサに組み込まれてもよい。プロセッサおよび記憶媒体は、ＡＳＩＣに存在することができる。ＡＳＩＣは、ユーザ端末に存在することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末内の別個のコンポーネントとして存在することができる。

図３Ｂは、マルチメディアデータの処理のためのプロセス３００を示す流れ図である。プロセス３００は開始すると、ブロック３２０に進み、インタレースビデオを受信する。図２および図３に示されるプリプロセッサ２０２は、このステップを実行することができる。いくつかの態様では、復号器（例えば、図２の復号器２０１）が、インタレースデータを受信し、それをプリプロセッサ２０２に提供することができる。いくつかの態様では、プリプロセッサ２０２の一部である、図３Ｃに示されるデータ受信モジュール３３０が、このステップを実行することができる。プロセス３００は次に、ブロック３２２に進み、インタレースビデオがプログレッシブビデオに変換される。図２、図３Ａのプリプロセッサ２０２、および図３Ｃのモジュール３３２が、このステップを実行することができる。インタレースビデオがテレシネされている場合、ブロック３２２処理は、プログレッシブビデオを生成するために逆テレシネを実行することを含むことができる。プロセス３００は次に、ブロック３２４に進み、プログレッシブビデオに関連するメタデータを生成する。図３ＡのＧＯＰパーティショナ３０７、および図３Ｃのモジュール３３４が、そのような処理を実行することができる。プロセス３００は次に、ブロック３２６に進み、プログレッシブビデオとメタデータの少なくとも一部とが、符号化（例えば圧縮）のために符号器に提供される。図２、図３Ａに示されるプリプロセッサ２０２、および図３Ｃのモジュール３３６が、このステップを実行することができる。符号化のためにプログレッシブビデオおよび関連するメタデータを別のコンポーネントに提供した後、プロセス３００は終了することができる。

図３Ｃは、マルチメディアデータを処理するための手段を示すブロック図である。ここでは、そのような手段がプリプロセッサ２０２に組み込まれて示されている。プリプロセッサ２０２は、モジュール３３０などの、ビデオを受信するための手段を含む。プリプロセッサ２０２は、モジュール３３２などの、インタレースデータをプログレッシブビデオに変換するための手段も含む。そのような手段は、例えば、時空間デインタレーサおよび／または逆テレシネ器を含むことができる。プリプロセッサ２０２は、モジュール３３４などの、プログレッシブビデオに関連するメタデータを生成するための手段も含む。そのような手段は、本明細書で説明されるような様々なタイプのメタデータを生成することができるＧＯＰパーティショナ３０７（図３Ａ）を含むことができる。プリプロセッサ２０２は、モジュール３３６によって示されるように、符号化のためにプログレッシブビデオおよびメタデータを符号器に提供するための手段も含む。そのような手段は、いくつかの態様では、図３Ａに示される通信モジュール３０９を含むことができる。当業者であれば理解されるように、そのような手段は、多くの標準的な方法で実施することができる。

プリプロセッサ２０２は、１つまたは複数の前処理操作のために、取得した（例えば、復号器２０１または別の源から取得した）メタデータを使用することができる。メタデータは、マルチメディアデータの内容に関係する、内容を説明する、または分類する情報（「コンテンツ情報」）を含むことができる。特に、メタデータは、コンテンツ分類を含むことができる。いくつかの態様では、メタデータは、符号化操作にとって望ましいコンテンツ情報を含まない。そのような場合、プリプロセッサ２０２は、コンテンツ情報を決定し、そのコンテンツ情報を前処理操作のために使用し、および／またはそのコンテンツ情報を他のコンポーネント、例えば復号器２０３に提供するように構成することができる。いくつかの態様では、プリプロセッサ２０２は、ＧＯＰ区分化に影響を及ぼし、適切なタイプのフィルタリングを決定し、および／または符号器に伝えられる符号化パラメータを決定するために、そのようなコンテンツ情報を使用することができる。

図４は、プリプロセッサに含まれ得るプロセスブロックの説明的な一例を示しており、プリプロセッサ２０２によって実行され得る処理を図説している。この例では、プリプロセッサ２０２は、メタデータおよびビデオ２０４、２０５を受け取り、（処理された）メタデータおよびビデオを備える出力データ２０６、２０７を符号器２２８に提供する。一般に、プリプロセッサによって受け取られるビデオには３つのタイプが存在する。第１に、受け取られたビデオは、プログレッシブビデオとすることができ、デインタレースは、実行される必要がない。第２に、ビデオデータは、２４ｆｐｓ映画系列から変換されたテレシネ化されたインタレースビデオとすることができ、この場合、ビデオ。第３に、ビデオは、テレシネされていないインタレースビデオとすることができる。プリプロセッサ２２６は、以下で説明されるように、これらのタイプのビデオを処理することができる。

ブロック４０１において、プリプロセッサ２０２は、受け取ったビデオ２０４、２０５がプログレッシブビデオであるかどうかを判定する。ある場合には、これは、メタデータがそのような情報を含むならばメタデータから判定することができ、またはビデオ自体を処理することによって判定することができる。例えば、以下で説明される逆テレシネプロセスは、受け取ったビデオ２０５がプログレッシブビデオであるかどうかを判定することができる。プログレッシブビデオである場合、プロセスは、ブロック４０７に進み、白色ガウス雑音などの雑音を低減するために、フィルタリング操作がビデオに対して実行される。ブロック４０１において、ビデオがプログレッシブビデオではない場合、プロセスは、フェーズ検出器であるブロック４０４に進む。

フェーズ検出器６０４は、テレシネに由来するビデオと、始まりが標準放送フォーマットであるビデオとを弁別する。ビデオはテレシネされたものであるという判定が下された場合（フェーズ検出器４０４から出て行くＹＥＳ判定経路）、テレシネビデオは、逆テレシネ４０６において、元のフォーマットに戻される。冗長フィールドが、識別されて除去され、同じビデオフレームに由来するフィールドが、完全な画像に再び組み立てられる。再構成されたフィルム画像の系列は、１秒の１／２４という規則的な間隔で撮影されて記録されたものなので、ＧＯＰパーティショナ４１２または復号器において実行される動き推定プロセスは、テレシネデータではなく、規則的な時間ベースを有する逆テレシネ画像を使用したほうがより正確になる。

一態様では、フェーズ検出器４０４は、ビデオフレームを受け取った後、ある判定を下す。これらの判定は、（ｉ）現在のビデオがテレシネ出力からのものであり、３：２プルダウンフェーズが図５に示される５つのフェーズＰ０、Ｐ１、Ｐ２、Ｐ３、およびＰ４の１つであるかどうか、（ｉｉ）ビデオが従来のＮＴＳＣとして生成されたものか、を含む。その判定は、フェーズＰ５として示される。これらの判定は、図４に示されるフェーズ検出器４０４の出力として現れる。ラベル「ＹＥＳ」をもつフェーズ検出器４０４からの経路は、逆テレシネ４０６を作動させ、これは、正しいプルダウンフェーズが提供され、そのフェーズが、同じ撮影画像から形成されたフィールドを選別し、それらを組み合わせることを表す。ラベル「ＮＯ」をもつフェーズ検出器４０４からの経路は、デインタレーサ４０５を作動させ、最適な処理のために、明らかなＮＴＳＣフレームをフィールドに分割する。逆テレシネは、「ＩＮＶＥＲＳＥＴＥＬＥＣＩＮＥＡＬＧＯＲＩＴＨＭＢＡＳＥＤＯＮＳＴＡＴＥＭＡＣＨＩＮＥ」と題する同時係属中の米国特許出願［整理番号ＱＦＤＭ．０２１Ａ（０５０９４３）］にさらに記載されており、同出願は、本発明の譲受人によって所有されており、参照によってその全体が本明細書に組み込まれる。

フェーズ検出器４０４は、いつでも異なるタイプのビデオを受け取ることがあり得るので、ビデオフレームを継続的に分析することができる。例えば、ＮＴＳＣ規格に準拠したビデオが、コマーシャルとしてビデオに挿入されることがあり得る。逆テレシネの後、結果のプログレッシブビデオは、白色ガウス雑音を低減するために使用できる雑音低減器（フィルタ）４０７に送られる。

従来のＮＴＳＣビデオが認識された場合（フェーズ検出器４０１からのＮＯ経路）、そのビデオは、圧縮のために、デインタレーサ４０５に伝送される。デインタレーサ４０５は、インタレースフィールドをプログレッシブビデオに変換し、その後、雑音低減操作が、プログレッシブビデオに対して実行されることができる。

適切な逆テレシネまたはデインタレース処理の後、ブロック４０８において、プログレッシブビデオは、エイリアス抑制およびリサンプリング（例えばリサイズ）のための処理が施される。

リサンプリングの後、プログレッシブビデオは次に、ブロック４１０に進み、デブロッカおよびデリンギング操作が実行される。「ブロッキング」および「リンギング」という２つのタイプのアーチファクトが、ビデオ圧縮アプリケーションにおいて一般的に発生する。ブロッキングアーチファクトは、圧縮アルゴリズムが各フレームを数ブロック（例えば８×８ブロック）に分割するために発生する。各ブロックは、いくらかの僅かな誤差を含んで再構成され、ブロックのエッジ部分の誤差は、隣接ブロックのエッジ部分の誤差と際立った相違を示し、ブロック境界を可視化する。対照的に、リンギングアーチファクトは、画像特徴のエッジ周囲のひずみとして現れる。リンギングアーチファクトは、高周波数ＤＣＴ係数を量子化する際に、符号器が多過ぎる情報を廃棄するために発生する。いくつかの説明的な例では、デブロッキングおよびデリンギングは、これらの可視アーチファクトを目立たなくするために、ローパスＦＩＲ（有限インパルス応答）フィルタを使用することができる。

デブロッキングおよびデリンギングの後、プログレッシブビデオは、ＧＯＰパーティショナ４１２によって処理される。ＧＯＰポジショニングは、ショット変化を検出することと、複雑さマップ（例えば、時間的、空間的帯域幅マップ）を生成することと、適応ＧＯＰパーティショニングを含むことができる。ショット検出は、グループオブピクチャ（ＧＯＰ）内のフレームが、シーン変化の発生を示すデータを提示した時を決定することに関する。シーン変化検出は、ビデオ符号器が適切なＧＯＰ長を決定し、固定間隔でＩフレームを挿入する代わりに、ＧＯＰ長に基づいてＩフレームを挿入するために使用することができる。プリプロセッサ２０２は、マルチメディアデータを符号化するために使用できる帯域幅マップを生成するようにも構成することができる。いくつかの態様では、プリプロセッサの外部に配置されるコンテンツ分類モジュールが、代わりに帯域幅マップを生成する。適応ＧＯＰパーティショニングは、一緒に符号化されるグループオブピクチャの構成を適応的に変化させることができる。図４に示された操作の説明的な例が、以下で説明される。

逆テレシネ
逆テレシネ処理が、以下で説明され、逆テレシネの説明的な例が、図４〜図１６を参照して提供される。ビデオ圧縮は、源の特性が知られており、理想的に調和した処理形態を選択するために使用される場合に、最良の結果を与える。例えば、放送されないビデオは、いくつかの方法で作成することができる。ビデオカメラや放送スタジオなどで従来どおりに生成される放送用ビデオは、米国ではＮＴＳＣ規格に準拠している。この規格によれば、各フレームは、２つのフィールドから構成される。一方のフィールドは奇数ラインから成り、他方は偶数ラインから成る。これは「インタレース」フォーマットと呼ばれることがある。フレームは、約３０フレーム／秒で生成されるが、フィールドは、１／６０秒間隔のテレビカメラの画像の記録である。一方、フィルムは、２４フレーム／秒で撮影され、各フレームは、完全な画像から成る。これは「プログレッシブ」フォーマットと呼ばれることがある。ＮＴＳＣ機器での伝送のため、「プログレッシブ」ビデオは、テレシネプロセスを介して「インタレース」ビデオフォーマットに変換される。以下でさらに説明される一態様では、システムは、ビデオがいつテレシネされたかを有利に決定し、元のプログレッシブフレームを再生成するために適切な変換を実行する。

図４は、インタレースビデオに変換されたプログレッシブフレームをテレシネした結果を示している。Ｆ１、Ｆ２、Ｆ３、Ｆ４は、テレシネ器への入力となるプログレッシブ画像である。それぞれのフレームの下の番号「１」および「２」は、奇数フィールドであるか、それとも偶数フィールドであるかの表示である。フレームレート間の相違のために、いくつかのフィールドが繰り返されていることに留意されたい。図４は、プルダウンフェーズＰ０、Ｐ１、Ｐ２、Ｐ３、Ｐ４も示している。フェーズＰ０は、同じ第１フィールドを有する２つのＮＴＳＣ互換フレームの第１のフレームによってマーク付け（mark）される。後続の４つのフレームは、フェーズＰ１、Ｐ２、Ｐ３、Ｐ４に対応する。Ｐ２およびＰ３によってマーク付けされるフレームは、同じ第２フィールドを有することに留意されたい。フィルムフレームＦ１は３回走査されるので、連続して出力される２つの同じＮＴＳＣ互換の第１フィールドが形成される。フィルムフレームＦ１に由来するすべてのＮＴＳＣフィールドは、同じフィルム画像から得られたものであり、したがって、同じ瞬間に撮影されたものである。フィルムに由来する他のＮＴＳＣフレームは、１／２４秒離れた隣接フィールドをもつことができる。

図４に示されるフェーズ検出器４０４は、ビデオフレームを受け取った後、ある判定を下す。これらの判定は、（ｉ）現在のビデオがテレシネ出力からのものであり、３：２プルダウンフェーズが図５の定義５１２に示される５つのフェーズＰ０、Ｐ１、Ｐ２、Ｐ３、Ｐ４の１つであるかどうか、（ｉｉ）ビデオが従来のＮＴＳＣとして生成されたものか、を含み、その判定は、フェーズＰ５として示される。

これらの判定は、図４に示されるフェーズ検出器４０１の出力として現れる。ラベル「ＹＥＳ」をもつフェーズ検出器４０１からの経路は、逆テレシネ４０６を作動させ、これは、正しいプルダウンフェーズが提供され、そのフェーズが、同じ撮影画像から形成されたフィールドを選別し、それらを組み合わせることを表す。ラベル「ＮＯ」をもつフェーズ検出器４０１からの経路は、デインタレーサブロック４０５を同様に作動させ、最適な処理のために、明らかなＮＴＳＣフレームをフィールドに分割する。

図６は、ビデオストリームを逆テレシネするプロセス６００を示す流れ図である。一態様では、プロセス６００は、図３の逆テレシネ３０１によって実行される。ステップ６５１で開始し、逆テレシネ３０１は、受け取ったビデオに基づいて複数のメトリックを決定する。この態様では、同一フレームまたは隣接フレームから取り出されたフィールドの間の差分の合計である４つのメトリックが形成される。４つのメトリックは、６つの仮定されたフェーズの各々について、受け取ったデータに由来する４つのメトリックとこれらのメトリックの最もありそうな値との間のユークリッド距離（Euclidian measure of distance）にさらにまとめられる。ユークリッド和は、ブランチ情報（branch information）と呼ばれ、受け取った各フレームに対して、そのような量が６つ存在する。仮定された各フェーズは、後続フェーズを有し、後続フェーズは、可能なプルダウンフェーズの場合、受け取った各フレームと一緒に変化する。

遷移の可能な経路が、図７に示されており、７６７によって示されている。そのような経路が６つ存在する。判定プロセスは、仮定されたフェーズの各経路について、ユークリッド距離の和に等しい６つの尺度を維持する。変化させられた状態に手順を応答させるため、和の中の各ユークリッド距離は、それが古くなるほど小さくなる。ユークリッド距離の和が最小となるフェーズ行路（phase track）が、有効なフェーズ行路であると見なされる。この行路の現在のフェーズは、「適用可能フェーズ」と呼ばれる。選択されたフェーズがＰ５でない限り、そのフェーズに基づいた逆テレシネが、今行われることができる。Ｐ５が選択された場合、現在のフレームは、ブロック４０５（図４）においてデインタレーサを使用してデインタレースされる。要約すると、適用可能フェーズは、現在のプルダウンフェーズとして、または有効なＮＴＳＣフォーマットを有すると推定されたフレームのデインタレースを命じる表示として利用される。

入力されたビデオから受け取ったすべてのフレームについて、４つのメトリックの各々の新しい値が計算される。これらは、以下のように定義される。

ＳＡＤという用語は、「絶対差の和（summed absolute differences）」の略語である。メトリックを形成するために差がとられるフィールドが、図８に図式的に示されている。下付数字は、フィールド番号を示し、文字は、直前（＝Ｐ）または現在（＝Ｃ）を表す。図８の範囲記号（bracket）は、対を成すフィールドの間の差を示す。ＳＡＤＦＳは、ラベルＣ１を付された現在フレームのフィールド１とラベルＰ１を付された直前フレームのフィールド１の間の差を示し、図８で提供される定義では、ラベルＦＳを付された範囲記号によって間隔が表され、ＳＡＤＳＳは、ラベルＣ２を付された現在フレームのフィールド２とラベルＰ２を付された直前フレームのフィールド２の間の差を示し、ラベルＳＳを付された範囲記号によって間隔が表され、ＳＡＤＣＯは、ラベルＣ２を付された現在フレームのフィールド２とラベルＣ１を付された現在フレームのフィールド１の間の差を示し、ラベルＣＯを付された範囲記号によって間隔が表され、ＳＡＤＰＯは、現在フレームのフィールド１と直前フレームのフィールド２の間の差を示し、ラベルＰＯを付された範囲記号によって間隔が表される。

各ＳＡＤを評価するための計算負荷が、以下で説明される。従来のＮＴＳＣには約４８０本のアクティブ水平ラインが存在する。水平方向における解像度が同じである場合、４：３のアスペクト比では、４８０×４／３＝６４０に等しい垂直ラインまたは自由度が存在する。６４０×４８０ピクセルのビデオフォーマットは、高度テレビ標準委員会（Advanced Television Standards Committee）によって承認されたフォーマットの１つである。したがって、フレームの持続時間である１／３０秒ごとに、６４０×４８０＝３０７２００個の新しいピクセルが生成される。新しいデータは、９．２×１０６ピクセル／秒のレートで生成され、これは、このシステムを実行するハードウェアまたはソフトウェアが、約１０ＭＢ以上のレートでデータを処理することを含意する。これは、システムの高速部分の１つである。それは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの任意の組み合わせによって実施することができる。ＳＡＤ計算器は、スタンドアロンコンポーネントとすることができ、ハードウェア、ファームウェア、ミドルウェアとして別のデバイスのコンポーネントに組み込まれることができ、またはプロセッサ上で実行されるマイクロコードもしくはソフトウェアで実施することができ、あるいはそれらの組み合わせとすることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実施される場合、計算を実行するプログラムコードまたはコードセグメントは、記憶媒体などの機械可読媒体に保存することができる。コードセグメントは、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組み合わせに相当することができる。コードセグメントは、情報、データ、引数、パラメータ、またはメモリ内容を受け渡し、および／または受け取ることによって、別のコードセグメントまたはハードウェア回路に結合されることができる。

図９の流れ図９００は、図８の関係を明示的にするものであり、式１〜式４の図式的表現である。流れ図９００は、ＳＡＤＦＳ、ＳＡＤＣＯ、ＳＡＤＳＳ、およびＳＡＤＰＯの最も新しい値がそれぞれ保持される、記憶ロケーション９４１、９４２、９４３、９４４を示している。これらは各々、絶対差の和を求める４つの計算器９４０によって生成され、４つの計算器９４０は、直前の第１フィールドのデータのルミナンス値９３１、現在の第１フィールドのデータのルミナンス値９３２、現在の第２フィールドのデータのルミナンス値９３３、および直前の第２フィールドのデータのルミナンス値９３４を処理する。メトリックを定義する加算において、「値（ｉ，ｊ）」という用語は、位置ｉ，ｊにおけるルミナンスの値であることを意味し、加算はすべてのアクティブピクセルにわたるが、アクティブピクセルの意味のあるサブセット上での加算は除外されない。

図１０の流れ図１００は、テレシネビデオを検出し、元の走査フィルム画像に回復するためにテレシネビデオに逆処理を施すためのプロセスを説明する詳細な流れ図である。ステップ１０３０において、図９で定義されたメトリックが評価される。ステップ１０８３に進み、４つのメトリックの下方エンベロープ値（lower envelope value）が見出される。ＳＡＤメトリックの下方エンベロープは、ＳＡＤがそれを下回ることのない最高の数値的下限である、動的に決定される量である。ステップ１０８５に進み、以下の式５〜式１０で定義されるブランチ情報の量が決定され、それには、先に決定されたメトリック、下方エンベロープ値、および実験的に決定された定数Ａを使用することができる。フェーズの後続値は整合性のないものとなり得るので、ステップ１０８７において、量Δがこの明らかな不安定性を低減するように決定される。フェーズは、フェーズ判定の系列が、図７に示された問題のモデルと整合している場合、整合的と見なされる。そのステップに続いて、プロセスは、ステップ１０８９に進み、Δの現在値を使用して判定変数を計算する。判定変数計算器１０８９は、そこに到るまでの１０８０番代のブロックにおいて生成されたすべての情報を使用して、判定変数を評価する。ステップ１０３０、１０８３、１０８５、１０８７、および１０８９は、図６のメトリック決定６５１の拡張である。これらの変数から、フェーズ選択器１０９０によって、適用可能フェーズが見出される。判定ステップ１０９１は、示されるように、テレシネビデオに逆処理を施すため、またはそれをデインタレースするために、適用可能フェーズを使用する。これは、図４のフェーズ検出器４０４の動作のより明示的な言明である。一態様では、図１０の処理は、図４のフェーズ検出器４０４によって実行される。検出器４０４は、ステップ１０３０で開始して、図８を参照して上で説明されたプロセスによって複数のメトリックを決定し、ステップ１０８３、１０８５、１０８７、１０８９、１０９０、および１０９１を通って進む。

流れ図１０００は、現在のフェーズを推定するためのプロセスを示している。流れ図は、ステップ１０８３において、ブランチ情報を計算するために、決定されたメトリックおよび下方エンベロープ値を使用することを述べている。ブランチ情報は、先に説明されたユークリッド距離として認識することができる。ブランチ情報を生成するために使用できる例示的な式は、以下の式５〜式１０である。ブランチ情報の量は、図１２のブロック１２０９において計算される。

処理されたビデオデータは、例えば、プロセッサに接続されるチップ構成記憶媒体（例えば、ＲＯＭ、ＲＡＭ）またはディスクタイプ記憶媒体（例えば、磁気的もしくは光学的）を含み得る、記憶媒体に保存することができる。いくつかの態様では、逆テレシネ４０６およびデインタレーサ４０５は各々、記憶媒体の一部または全部を含むことができる。ブランチ情報の量は、以下の式によって定義される。

ブランチ計算のさらなる詳細が、図１２のブランチ情報計算器１２０９に示されている。計算器１２０９に示されるように、ブランチ情報を生成するには、ＳＡＤＦＳおよびＳＡＤＳＳの下方エンベロープ値である量ＬＳと、ＳＡＤＰＯの下方エンベロープ値である量ＬＰと、ＳＡＤＣＯの下方エンベロープ値である量ＬＣを使用する。下方エンベロープは、ＨＳ、ＨＰ、およびＨＣを生成するために、ブランチ情報計算における距離オフセットとして単独で、または所定の定数Ａと併せて使用される。それらの値は、以下で説明される下方エンベロープトラッカ（lower envelope tracker）において最新に維持される。Ｈオフセットは、以下のように定義される。

ＬＳ、ＬＰ、およびＬＣの値を追跡するプロセスが、図１３Ａ、図１３Ｂ、および図１３Ｃに提示されている。例えば、図１１Ａの１番上に示されたＬＰのための追跡アルゴリズム１３００について考える。メトリックＳＡＤＰＯが、比較器１３０５において、ＬＰの現在値にしきい値ＴＰを加えた値と比較される。ＳＡＤＰＯの方が大きければ、ブロック１３１５に示されるように、ＬＰの現在値は変更されない。ＳＡＤＰＯの方が小さければ、ブロック１３１３に示されるように、ＬＰの新しい値は、ＳＡＤＰＯとＬＰの線形結合になる。ブロック１３１５の別の態様では、ＬＰの新しい値は、ＬＰ＋ＴＰになる。

図１３Ｂおよび図１３Ｃの量ＬＳおよびＬＣも、同様に計算される。同じ機能を有する図１３Ａ、図１３Ｂ、および図１３Ｃの処理ブロックは、同じ番号が振られているが、変数の異なる組に関して動作することを示すため、プライム符号（’または”）が添えられている。例えば、ＳＡＤＰＯとＬＣの線形結合が形成される場合、その演算は、ブロック１３１３’に示される。ＬＰの場合のように、１３１５’の別の態様は、ＬＣをＬＣ＋ＴＣによって置き換えたものである。

しかし、ＬＳの場合、この下方エンベロープは、ＳＡＤＦＳおよびＳＡＤＳＳの両変数に適用されるので、代替として、図１３Ｂのアルゴリズムは、各Ｘに順番にラベルを付けながら、ＳＡＤＦＳおよびＳＡＤＳＳを処理する。ＳＡＤＦＳおよびＳＡＤＳＳの値の交替は、ブロック１３０８でのＳＡＤＦＳの現在値が、ブロック１３０３においてＸのロケーションに読み込まれた時と、それに続いて、ブロック１３０７でのＳＡＤＳＳの現在値が、ブロック１３０２においてＸのロケーションに読み込まれた時とに発生する。ＬＰの場合のように、１３１５”の別の態様は、ＬＳをＬＳ＋ＴＳによって置き換えたものである。現在の下方エンベロープ値をテストする際に使用される量Ａおよびしきい値は、実験によって事前に決定される。

図１１は、図１０のステップ１０８９を実行するための例示的なプロセスを示す流れ図である。図１１は、全体として、判定変数を更新するためのプロセスを示している。メトリックから導き出された新しい情報を用いて更新される判定変数が（６つの可能な判定に対応して）６つ存在する。判定変数は、以下のようにして見出される。

量αは、１（unity）より小さく、過去の値に対する判定変数の依存性を制限し、αの使用は、各ユークリッド距離の影響をそのデータが古くなるにつれて減少させていくことに等しい。流れ図１１６２では、更新される判定変数は、ライン１１０１、１１０２、１１０３、１１０４、１１０５、および１１０６上で利用可能であるとして、左側に列挙されている。フェーズ遷移経路の１つにおける判定変数の各々は、次にブロック１１００の１つにおいて１より小さいαを乗じられ、その後、古い判定変数の減衰値がブランチ情報の現在値に加えられ、変数は、減衰判定変数がその上に存在するフェーズ遷移経路上の次のフェーズによってインデックス付けされる。これは、ブロック１１１０において行われる。変数Ｄ５は、ブロック１１９３において、量Δだけずらされ、Δは、ブロック１１１２において計算される。以下で説明されるように、この量は、このシステムによって決定されるフェーズの系列における不整合性を低減するように選択される。最小の判定変数が、ブロック１１２０において見出される。

要約すると、各判定に固有の新しい情報が、現在の判定変数の値を得るために、αを乗じられた適切な判定変数の直前の値に加えられる。新しい判定は、新しいメトリックが手に入った時に行われることができ、したがって、この技法は、すべてのフレームのフィールド１および２を受け取った時に、新しい判定を行うことが可能である。これらの判定変数は、先に言及されたユークリッド距離の和である。

適用可能フェーズは、最小の判定変数の下付文字を有するフェーズとなるように選択される。判定変数に基づいた判定は、図１０のブロック１０９０において明示的に行われる。一定の判定が、判定空間において許容される。ブロック１０９１で説明されたように、これらの判定は、（ｉ）適用可能フェーズがＰ５ではない−ビデオの逆テレシネ、（ｉｉ）適用可能フェーズがＰ５である−ビデオのデインタレース、である。

メトリックは、本質的に変化しやすいビデオから引き出されるので、首尾一貫した判定の列には、時々誤りが存在することがある。この技法は、図７と整合性をもたないフェーズ系列を検出する。その動作が、図１４に略述されている。アルゴリズム１４００は、ブロック１４０５において現在のフェーズ判定の下付文字（＝ｘ）を、ブロック１４０６において直前のフェーズ判定の下付文字（＝ｙ）を保存する。ブロック１４１０において、ｘ＝ｙ＝５であるかどうかがテストされ、ブロック１４１１において、以下の値が、すなわち、

であるかどうかがテストされる。２つのテストのどちらかが肯定的な結果である場合、ブロック１４２０において、判定は整合的であると宣言される。どちらのテストも肯定的な結果でない場合、図１１のブロック１１９３において示されたオフセットが、図１５において計算され、Ｐ５に関連する判定変数であるＤ５に加えられる。

Ｄ５に対する変更も、プロセス１５００の一部として図１５に現れており、プロセス１５００は、フェーズの系列の不整合に対する補正アクションを提供する。流れ図１５００のブロック１５１０における整合性テストが失敗したと仮定する。ブロック１５１０から延びる「ＮＯ」ブランチに沿って進むと、ブロック１５１４における次のテストは、すべてのｉ＜５について、Ｄ５＞Ｄｉかどうかであり、または代替として、ｉ＜５について、少なくとも１つの変数ＤｉがＤ５より大きいかである。第１のケースが有効である場合、ブロック１５１６において、初期値がδ０であるパラメータδが、３δ０に変更される。第２のケースが有効である場合、ブロック１５１７において、δは４δ０に変更される。ブロック１５２Ｂにおいて、Δの値が更新されて、ΔＢになり、ここで、

である。

再びブロック１５２１０に戻り、判定の列が整合的であると判断されたと仮定する。パラメータδは、ブロック１５２１５において、

によって定義されるδ＋に変更される。

δの新しい値は、ブロック１５２Ａにおいて、Δについての更新関係であるΔＡに挿入される。これは

というものである。その後、Δの更新値が、ブロック１５９３において、判定変数Ｄ５に加えられる。

図１６は、ひとたびプルダウンフェーズが決定された後、逆テレシネプロセスがどのように進行するかを示している。この情報を用いて、フィールド１６０５および１６０５’は、ビデオの同じフィールドを表すものとして識別される。２つのフィールドは、一緒に平均され、フィールド１６０６と組み合わされて、フレーム１６２０を再構成する。再構成フレームは１６２０’である。同様のプロセスが、フレーム１６２２を再構成する。フレーム１６２１および１６２３に由来するフィールドは、重複していない。これらのフレームは、その第１および第２のフィールドを一緒に組み立てることによって再構成される。

上で説明された態様では、新しいフレームが受け取られるたびに、メトリックの４つの新しい値が見出され、６つで１組の仮定が、新たに計算された判定変数を使用してテストされる。他の処理構造は、判定変数を計算するために適合させることができる。ビタビ復号器が、一緒に経路を構成するブランチのメトリックを足し合わせて、経路メトリックを形成する。ここで定義される判定変数は、同様の規則によって形成され、その各々は、新しい情報変数の「リーキーな（leaky）」和である。（リーキーな加算では、判定変数の直前の値は、１より小さい数を乗じられた後、それに新しい情報データが加えられる）。ビタビ復号器の構造は、この手順の動作をサポートするために変更することができる。

本態様は、新しいフレームが１／３０秒ごとに出現する従来のビデオの処理に関して説明されたが、このプロセスは、時間をさかのぼって記録され、処理されるフレームにも適用され得ることに留意されたい。判定空間は同じままであるが、入力フレームの系列の時間反転を反映する小さな変更が存在する。例えば、（ここに示される）時間反転モードでの首尾一貫したテレシネ判定の列

も、時間的に反転されている。

第１の態様のこの変形の使用は、正当な判定を行う際に、判定プロセスを２回−１回は時間的に順方向（forward）で、もう１回は逆方向（backward）で−試みることを可能にする。２回の試みは、独立していないが、各試みがメトリックを異なる順序で処理する点で異なっている。

このアイデアは、付加的に必要とされ得る将来のビデオフレームを保存するために維持されるバッファと併せて適用することができる。ビデオセグメントが処理の順方向において許容し得ない不整合な結果を与えることが見出された場合、手順は、バッファから将来のフレームを取り出し、逆方向にフレームを処理することによって、ビデオの難しいひと続きの範囲（stretch）を克服しようと試みる。

本特許で説明されるビデオの処理は、ＰＡＬフォーマットのビデオにも適用することができる。

デインタレーサ
本明細書で使用される「デインタレーサ」は、プログレッシブマルチメディアデータを形成するためにインタレースマルチメディアデータを全体的にまたは重要な部分だけ処理する、（例えば、プロセスを実行するように構成されたソフトウェア、ファームウェア、またはハードウェアを含む）デインタレースシステム、デバイス、またはプロセスを示すのに使用できる広義の用語である。

ビデオカメラや放送スタジオなどで従来どおりに生成される放送用ビデオは、米国ではＮＴＳＣ規格に準拠している。ビデオを圧縮するための一般的な方法は、ビデオをインタレース化することである。インタレースデータでは、各フレームは、２つのフィールドの一方から構成される。一方のフィールドはフレームの奇数ラインから成り、他方は偶数ラインから成る。フレームは、約３０フレーム／秒で生成されるが、フィールドは、１／６０秒間隔のテレビカメラの画像の記録である。インタレースビデオ信号の各フレームは、画像の１つおきの水平ラインを示す。フレームが画面に投影されるとき、ビデオ信号は、偶数ラインと奇数ラインを交替で示す。これが十分に速く、例えば６０フレーム毎秒で行われる場合、ビデオ画像は、人間の目には滑らかに見える。

インタレースは、ＮＴＳＣ（米国）およびＰＡＬ（ヨーロッパ）フォーマットに基づいたアナログテレビ放送において、数１０年にわたって使用されてきた。各フレームを用いて画像の半分だけしか送信しないので、インタレースビデオは、画像全体を送信するのに比べて、おおよそ半分の帯域幅しか使用しない。端末１６の内部におけるビデオの最終的な表示フォーマットは、必ずしもＮＴＳＣ互換であるとは限らず、インタレースデータを直ちに表示できるとは限らない。代わりに、最新のピクセルベースディスプレイ（例えば、ＬＣＤ、ＤＬＰ、ＬＣＯＳ、プラズマなど）は、プログレッシブ走査型であり、プログレッシブ走査されたビデオ源を表示する（一方、多くのより旧式のビデオデバイスは、より旧式のインタレース走査技法を使用する）。いくつかの一般に使用されるデインタレースアルゴリズムの例が、Ｐ．Ｈａａｖｉｓｔｏ、Ｊ．Ｊｕｈｏｌａ、Ｙ．Ｎｅｕｖｏの「Ｓｃａｎｒａｔｅｕｐ−ｃｏｎｖｅｒｓｉｏｎｕｓｉｎｇａｄａｐｔｉｖｅｗｅｉｇｈｔｅｄｍｅｄｉａｎｆｉｌｔｅｒｉｎｇ」、ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｏｆＨＤＴＶＩＩ、７０３〜７１０ページ、１９９０年と、Ｒ．Ｓｉｍｏｎｅｔｔｉ、Ｓ．Ｃａｒｒａｔｏ、Ｇ．Ｒａｍｐｏｎｉ、Ａ．ＰｏｌｏＦｉｌｉｓａｎの「ＤｅｉｎｔｅｒｌａｃｉｎｇｏｆＨＤＴＶＩｍａｇｅｓｆｏｒＭｕｌｔｉｍｅｄｉａＡｐｐｌｉｃａｔｉｏｎｓ」、ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｏｆＨＤＴＶＩＶ、７６５〜７７２ページ、１９９３年に記載されている。

デインタレースの性能を向上させるために単独でまたは組み合わせて使用でき、デインタレーサ４０５（図４）において使用できる、システムおよび方法のためのデインタレース態様の例が、以下で説明される。そのような態様は、第１の暫定デインタレースフレームを決定するために時空間フィルタリングを使用して選択フレームをデインタレースすることと、選択フレームから第２の暫定デインタレースフレームを決定するために双方向動き推定および動き補償を使用することと、その後、最終のプログレッシブフレームを形成するために第１および第２の暫定フレームを組み合わせることとを含むことができる。時空間フィルタリングは、水平エッジまたは水平エッジ付近のぼやけを防止する水平エッジ検出器を含むことができる、加重メディアンフィルタ（「Ｗｍｅｄ」フィルタ）を使用することができる。「現在」フィールドの先行および後続近隣フィールドの時空間フィルタリングは、選択フレームの部分を、例えば、静止、遅い動き、および速い動きなど、異なる動きレベルに分類する強度動きレベルマップ（intensity motion-level map）を生成する。

いくつかの態様では、強度マップは、５つの近隣フィールド（２つの先行フィールド、現在フィールド、および２つの後続フィールド）のピクセルを含むフィルタアパーチャを使用して、Ｗｍｅｄフィルタリングによって生成される。Ｗｍｅｄフィルタリングは、シーン変化ならびに出現および消失する物体を効果的に扱うことができる、前方（forward）、後方（backward）、および双方向静止領域検出を決定することができる。様々な態様では、Ｗｍｅｄフィルタは、フィールド間（inter-field）フィルタリングモードにおいて同じ偶奇性の１つまたは複数のフィールド間で利用することができ、またしきい値基準を微調整することによってフィールド内（intra-field）フィルタリングモードに切り換えられることができる。いくつかの態様では、動き推定および補償は、明るさレベルはほとんど均一であるが、色が異なる、選択フレームのデインタレース領域を改善するために、ルーマ（luma）（ピクセルの輝度または明るさ）およびクロマ（chroma）（ピクセルの色情報）データを使用する。動き推定の精度を高めるために、雑音低減フィルタが使用できる。雑音低減フィルタは、Ｗｍｅｄフィルタリングによって生成されたエイリアスアーチファクトを除去するために、Ｗｍｅｄデインタレース暫定フレームに適用することができる。以下で説明されるデインタレース方法およびシステムは、良好なデインタレース結果を生み出し、高速動作のデインタレース実施を可能にする比較的低い計算の複雑さを有し、セル電話、コンピュータ、およびディスプレイを利用する他のタイプの電子または通信デバイスにデータを提供するために使用されるシステムを含む、様々なデインタレース応用例にとってそのような実施を適したものにする。

デインタレーサおよびデインタレース方法の態様が、マルチメディアデータをデインタレースするために使用される様々なコンポーネント、モジュール、および／またはステップを参照しながら本明細書で説明される。

図１７は、図４のデインタレーサ４０５として使用できるデインタレーサ１７００の一態様を示すブロック図である。デインタレーサ１７２２は、インタレースデータの少なくとも一部を空間的および時間的（「時空間的」）にフィルタリングし、時空間情報を生成する、空間フィルタ１７３０を含む。例えば、空間フィルタ１７３０において、Ｗｍｅｄが使用できる。いくつかの態様では、デインタレーサ１７００は、例えば、ワイナーフィルタ（Weiner filter）またはウェーブレット縮小フィルタ（wavelet shrinkage filter）など、雑音低減フィルタ（図示されず）も含む。デインタレーサ１７００は、インタレースデータの選択フレームの動き推定および補償を提供し、動き情報を生成する、動き推定器１７３２も含む。結合器１７３４は、プログレッシブフレームを形成するために、時空間情報および動き情報を受け取り、それらを組み合わせる。

図１８は、デインタレーサ１７００の別のブロック図である。デインタレーサ１７００のプロセッサ１８３６が、空間フィルタモジュール１８３８と、動き推定モジュール１８４０と、結合器モジュール１８４２とを含む。外部源４８からのインタレースマルチメディアデータは、デインタレーサ１７００の通信モジュール４４に提供されることができる。デインタレーサおよびそのコンポーネントまたはステップは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの任意の組み合わせによって実施することができる。例えば、デインタレーサは、スタンドアロンコンポーネントとすることができ、ハードウェア、ファームウェア、ミドルウェアとして別のデバイスのコンポーネントに組み込まれることができ、またはプロセッサ上で実行されるマイクロコードもしくはソフトウェアで実施することができ、あるいはそれらの組み合わせとすることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実施される場合、デインタレーサタスクを実行するプログラムコードまたはコードセグメントは、記憶媒体などの機械可読媒体に保存することができる。コードセグメントは、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組み合わせに相当することができる。コードセグメントは、情報、データ、引数、パラメータ、またはメモリ内容を受け渡し、および／または受け取ることによって、別のコードセグメントまたはハードウェア回路に結合されることができる。

受け取られたインタレースデータは、例えば、プロセッサ１８３６に接続されるチップ構成記憶媒体（例えば、ＲＯＭ、ＲＡＭ）またはディスクタイプ記憶媒体（例えば、磁気的もしくは光学的）を含み得る、デインタレーサ１７００の記憶媒体１８４６に保存することができる。いくつかの態様では、プロセッサ１８３６は、記憶媒体の一部または全部を含むことができる。プロセッサ１８３６は、プログレッシブフレームを形成するためにインタレースマルチメディアデータを処理するように構成され、その後、プログレッシブフレームは、別のデバイスまたはプロセスに提供される。

テレビなどの従来のアナログビデオデバイスは、インタレース方式でビデオを描画し、すなわち、そのようなデバイスは、偶数番号の走査ライン（偶数フィールド）および奇数番号の走査ライン（奇数フィールド）を伝送する。信号サンプリングの観点からは、これは、

によって示されるパターンでの時空間サブサンプリングに等しく、ここで、Θは、元のフレーム画像を表し、Ｆは、インタレースフィールドを表し、（ｘ，ｙ，ｎ）は、ピクセルの水平、垂直および時間位置をそれぞれ表す。

一般性を失うことなく、本開示ではどこでも、ｎ＝０は偶数フィールドであると仮定することができ、その結果、式２３は、

のように簡素化される。

水平次元ではデシメーションは行われないので、サブサンプリングパターンは、次のｎ−ｙ座標で表すことができる。図１９では、円形および星形の両方が、元の全フレーム画像がサンプルピクセルを有する位置を表す。インタレースプロセスは、円形ピクセルをそのままに残しながら、星形ピクセルをデシメートする。垂直位置には０から始まるインデックス付けを施してあり、したがって、偶数フィールドが最上位フィールドであり、奇数フィールドが最下位フィールドであることに留意されたい。

デインタレーサの目標は、インタレースビデオ（フィールドの系列）をインタレース化されていないプログレッシブフレーム（フレームの系列）に変換することである。言い換えると、全フレーム画像を「回復」または生成するために、偶数フィールドと奇数フィールドとで補間しあう。これは、式２５によって表すことができ、

ここで、Ｆｉは、喪失ピクセルについてのデインタレース結果を表す。

図２０は、インタレースマルチメディアデータからプログレッシブフレームを生成するためにＷｍｅｄフィルタリングおよび動き推定を使用するデインタレーサの一態様のいくつかの側面を説明するブロック図である。図２０の上側部分は、現在フィールドと、２つの先行フィールド（ＰＰフィールドおよびＰフィールド）と、２つの後続フィールド（次フィールドおよび次々フィールド）からの情報を使用して生成され得る、動き強度マップ２０５２を示している。動き強度マップ２０５２は、現在フレームを２つ以上の異なる動きレベルに分類または区分化し、以下本明細書でさらに詳細に説明される時空間フィルタリングによって生成することができる。いくつかの態様では、動き強度マップ２０５２は、式４〜８を参照しながら以下で説明されるように、静止領域、遅い動き領域、および速い動き領域を識別するために生成される。空間／時間フィルタ、例えばＷｍｅｄフィルタ２０５４は、動き強度マップに基づいた基準を使用してインタレースマルチメディアデータをフィルタリングし、時空間暫定デインタレースフレームを生成する。いくつかの態様では、Ｗｍｅｄフィルタリングプロセスは、水平近傍［−１，１］と、垂直近傍［−３，３］と、Ｚ−１が１フィールド分の遅延を表す図２０に示される５つのフィールド（ＰＰフィールド、Ｐフィールド、現在フィールド、次フィールド、次々フィールド）によって表される５つの隣接フィールドからなる時間近傍を含む。現在フィールドに対して、次フィールドおよびＰフィールドは、偶奇性が一致しないフィールドであり、ＰＰフィールドおよび次々フィールドは、偶奇性が一致するフィールドである。時空間フィルタリングに関して使用される「近傍」は、フィルタリング動作中に実際に使用されるフィールドおよびピクセルの空間的および時間位置を指し、例えば図２１および図２２に示されるように、「アパーチャ」として示すことができる。

デインタレーサは、雑音低減器（雑音低減フィルタ）２０５６も含むことができる。雑音低減器２０５６は、Ｗｍｅｄフィルタ２０５６によって生成された時空間暫定デインタレースフレームをフィルタリングするように構成される。時空間暫定デインタレースフレームの雑音低減は、源のインタレースマルチメディアデータ系列が白色雑音によって汚染されている場合は特に、後続の動き探索プロセスをより正確なものにする。雑音低減は、Ｗｍｅｄ画像における偶数行と奇数行の間のエイリアスを少なくとも部分的に除去することもできる。雑音低減器２０５６は、やはり以下本明細書でさらに説明される、ウェーブレット縮小およびウェーブレットワイナーフィルタベースの雑音低減器を含む、様々なフィルタとして実施することができる。

図２０の下側部分は、インタレースマルチメディアデータの動き情報（例えば、動きベクトル候補、動き推定、動き補償）を決定する一態様を示している。特に、図２０は、選択フレームの動き補償を施した暫定プログレッシブフレームを生成し、その後、それをＷｍｅｄ暫定フレームと組み合わせて、デインタレース現在フレーム２０６４として示された結果の「最終」プログレッシブフレームを形成するために使用される、動き推定および動き補償方式を説明している。いくつかの態様では、インタレースマルチメディアデータの動きベクトル（「ＭＶ」）候補（または推定）が、外部の動き推定器からデインタレーサに提供され、双方向動き推定器および補償器（「ＭＥ／ＭＣ」）２０６８に開始点を提供するために使用される。いくつかの態様では、ＭＶ候補選択器２０７２は、処理されるブロックのＭＶ候補のために、例えば、デインタレース先行フレーム２０７０内のブロックといった以前に処理されたブロックのＭＶなど、近隣ブロックのために以前に決定されたＭＶを使用する。動き補償は、先行デインタレースフレーム７０および次（例えば将来）のＷｍｅｄフレーム２０５８に基づいて、双方向で行われることができる。現在Ｗｍｅｄフレーム２０６０および動き補償（「ＭＣ」）現在フレーム２０６６は、結合器２０６２によって合併され、または組み合わされる。結果のデインタレース現在フレーム２０６４は、今ではプログレッシブフレームであり、デインタレース先行フレーム２０７０として使用されるために、ＭＥ／ＭＣ２０６８に戻され、例えば圧縮および表示端末への伝送など、さらなる処理のために、デインタレーサの外部へも伝達される。図２０に示された様々な態様が、以下でより詳細に説明される。

図２５は、インタレースフレームの系列からプログレッシブフレームの系列を生成するようにマルチメディアデータを処理するためのプロセス２５００を示している。一態様では、プログレッシブフレームは、図４に示されたデインタレーサ４０５によって生成される。ブロック２５０２において、プロセス２５００（プロセス「Ａ」）は、選択フレームの時空間情報を生成する。時空間情報は、マルチメディアデータの動きレベルを分類し、動き強度マップを生成するために使用される情報を含むことができ、Ｗｍｅｄ暫定デインタレースフレームおよびそのフレームを生成するために使用される情報（例えば、式２６〜式３３で使用される情報）を含む。このプロセスは、図２０の上側部分に示されるようなＷｍｅｄフィルタ２０５４と、以下でさらに詳細に説明されるその関連処理とによって実行することができる。図２６に示されるプロセスＡでは、ブロック２６０２において、領域が、以下でさらに説明されるように、異なる動きレベルのフィールドに分類される。

次にブロック２５０４（プロセス「Ｂ」）において、プロセス２５００は、選択フレームの動き補償情報を生成する。一態様では、図２０の下側部分に示された双方向動き推定器／動き補償器２０６８が、このプロセスを実行することができる。プロセス２５００は、その後、ブロック２５０６に進み、選択フレームに関連するプログレッシブフレームを形成するために、時空間情報および動き補償情報に基づいて、選択フレームのフィールドをデインタレースする。これは、図２０の下側部分に示された結合器２０６２によって実行することができる。

動き強度マップ
各フレームについて、現在フィールドのピクセルを処理して、異なる「動き」の領域を決定することによって、動き強度マップ２０５２が決定できる。３つのカテゴリの動き強度マップを決定する例示的な一態様が、図２１〜図２４を参照しながら以下で説明される。動き強度マップは、同じ偶奇性フィールドと異なる偶奇性フィールドのピクセルの比較に基づいて、各フレームの領域を、静止領域、遅い動き領域、および速い動き領域として指示することができる。

静止領域
動きマップの静止領域の決定は、あるピクセルのルミナンス差がある基準を満たすかどうかを決定するために、隣接フィールドの近傍内のピクセルを処理することを備える。いくつかの態様では、動きマップの静止領域の決定は、あるピクセルのルミナンス差があるしきい値を満たすかどうかを決定するために、５つの隣接フィールド（現在フィールド（Ｃ）、現在フィールドより時間的に前の２つのフィールド、および現在フィールドより時間的に後の２つのフレーム）の近傍内のピクセルを処理することを備える。これらの５つのフィールドは、Ｚ−１が１フィールド分の遅延を表す図２０に示されている。言い換えると、５つの隣接フィールドは一般に、Ｚ−１の遅延時間を有するそのような系列で表示される。

図２１は、いくつかの態様による、時空間フィルタリングのために使用できる、５つのフィールドの各々のあるピクセルを識別するアパーチャを示している。アパーチャは、左から右に向かって、先々フィールド（ＰＰ）、先行フィールド（Ｐ）、現在フィールド（Ｃ）、次フィールド（Ｎ）、および次々フィールド（ＮＮ）の３×３ピクセルグループを含む。いくつかの態様では、現在フィールドの領域は、それが、図２１に示されるピクセル位置および対応フィールドについて、式２６〜式２８に示される基準

かつ

または

を満たす場合、動きマップにおいて静止と見なされ、ここで、
Ｔ１はしきい値、
ＬＰはＰフィールド内に位置するピクセルＰのルミナンス、
ＬＮはＮフィールド内に位置するピクセルＮのルミナンス、
ＬＢは現在フィールド内に位置するピクセルＢのルミナンス、
ＬＥは現在フィールド内に位置するピクセルＥのルミナンス、
ＬＢＰＰはＰＰフィールド内に位置するピクセルＢＰＰのルミナンス、
ＬＥＰＰはＰＰフィールド内に位置するピクセルＥＰＰのルミナンス、
ＬＢＮＮはＮＮフィールド内に位置するピクセルＢＮＮのルミナンス、および
ＬＥＮＮはＮＮフィールド内に位置するピクセルＥＮＮのルミナンス
である。

しきい値Ｔ１は、事前決定され、特定の値に設定されることができ、デインタレース以外のプロセスによって決定され、（例えば、デインタレースされるビデオ用のメタデータとして）提供されることができ、またはデインタレースの最中に動的に決定されることができる。

上の式２６、式２７、式２８に示された静止領域基準は、少なくとも２つの理由で、従来のデインタレース技法よりも多くのフィールドを使用する。第１に、偶奇性が同じフィールド間の比較は、偶奇性が異なるフィールド間の比較よりも低いエイリアスおよびフェーズミスマッチを有する。しかし、処理されるフィールドと偶奇性が同じ直近の近隣フィールドとの間の最小時間差（したがって相関）は、２フィールド分であり、偶奇性が異なる近隣フィールドとの最小時間差よりも大きい。より信頼性の高い偶奇性が異なるフィールドとよりエイリアスが低い偶奇性が同じフィールドとの組み合わせは、静止領域検出の精度を向上させることができる。

加えて、５つのフィールドは、図２１に示されるように、現在フィールドＣのピクセルＸに対して過去および将来に対称的に分散させることができる。静止領域は、前方静止（先行フレームに対して静止）、後方静止（次フレームに対して静止）、または双方向静止（前方および後方基準がともに満たされる場合）の３つのカテゴリに細分することができる。静止領域のこのより精細な分類は、シーン変化時および物体の出現／消失時に特に性能を向上させることができる。

遅い動き領域
動きマップの領域は、あるピクセルのルミナンス値が、静止領域を指示する基準を満たさないが、遅い動き領域を指示する基準を満たす場合、動きマップにおける遅い動き領域と見なすことができる。以下の式２９は、遅い動き領域を決定するために使用できる基準を定義する。図２２を参照すると、式２９で識別されるピクセルＩａ、Ｉｃ、Ｊａ、Ｊｃ、Ｋａ、Ｋｃ、Ｌａ、Ｌｃ、Ｐ、Ｎの位置が、ピクセルＸを中心とするアパーチャ内に示されている。アパーチャは、現在フィールド（Ｃ）の３×７ピクセル近傍と、次フィールド（Ｎ）および先行フィールド（Ｐ）の３×５近傍とを含む。ピクセルＸは、それが静止領域用の上に列挙された基準を満たさず、アパーチャ内のピクセルが式２９に示される以下の基準

を満たす場合、遅い動き領域の部分であると見なされ、ここで、
Ｔ２はしきい値、
ＬＩａ、ＬＩｃ、ＬＪａ、ＬＪｃ、ＬＪａ、ＬＪｃ、ＬＫａ、ＬＫｃ、ＬＬａ、ＬＬｃ、ＬＰ、ＬＮは、それぞれピクセルＩａ、Ｉｃ、Ｊａ、Ｊｃ、Ｋａ、Ｋｃ、Ｌａ、Ｌｃ、Ｐ、Ｎのルミナンス値である。

しきい値Ｔ２はやはり、事前決定され、特定の値に設定されることができ、デインタレース以外のプロセスによって決定され、（例えば、デインタレースされるビデオ用のメタデータとして）提供されることができ、またはデインタレースの最中に動的に決定されることができる。

フィルタは、角度に依存するエッジ検出能力のため、水平な（例えば、垂直線となす角度が４５°より大きい）エッジをぼやけさせ得ることに留意されたい。例えば、図２２に示されるアパーチャ（フィルタ）のエッジ検出能力は、ピクセル「Ａ」および「Ｆ」、または「Ｃ」および「Ｄ」によって形成される角度によって影響される。そのような角度よりも水平などのようなエッジも、最適に補間されず、したがって、そのようなエッジにおいて、階段状アーチファクトが出現することがある。いくつかの態様では、遅い動きカテゴリは、このエッジ検出結果を考慮するために、「水平エッジ」と「その他」という２つのサブカテゴリに分割することができる。遅い動きピクセルは、以下に示される式３０の基準が満たされる場合、水平エッジとして分類され、式３０の基準が満たされない場合、いわゆる「その他」カテゴリに分類されることができる。

ここで、Ｔ３はしきい値であり、ＬＡ、ＬＢ、ＬＣ、ＬＤ、ＬＥ、ＬＦは、ピクセルＡ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆのルミナンス値である。

水平エッジおよびその他カテゴリの各々に対して、異なる補間方法が使用できる。

速い動き領域
静止領域用の基準および遅い動き領域用の基準が満たされない場合、ピクセルは、速い動き領域にあると見なすことができる。

選択フレームのピクセルを分類した後、プロセスＡ（図２６）は、ブロック２６０４に進み、動き強度マップに基づいて暫定デインタレースフレームを生成する。この態様では、Ｗｍｅｄフィルタ２０５４（図２０）は、以下のように定義され得る候補全フレーム画像Ｆ０を提供するために、選択フィールドおよび必要な隣接フィールドをフィルタリングし、

ここで、αｉ（ｉ＝０，１，２，３）は、以下のように計算される整数重みである。

Ｗｍｅｄフィルタリングを施された暫定デインタレースフレームは、図２０の下側部分に示されるように、動き推定および動き補償処理と協力するさらなる処理に提供される。

上で説明され、式３１に示されるように、静止補間は、フィールド間補間を備え、遅い動きおよび速い動き補間は、フィールド内補間を備える。偶奇性が同じフィールドの時間的（例えばフィールド間）補間が望ましくないある種の態様では、時間的補間は、しきい値Ｔ１（式４〜式６）をゼロ（Ｔ１＝０）に設定することによって、「使用不可」にすることができる。時間的補間を使用不可とした現在フィールドの処理は、動きレベルマップのどの領域も静止として分類しないという結果をもたらし、Ｗｍｅｄフィルタ２０５４（図２０）は、図２２のアパーチャ内に示された３つのフィールドを使用し、現在フィールドと２つの隣接する偶奇性が異なるフィールド上で動作する。

雑音低減
ある態様では、候補Ｗｍｅｄフレームが動き補償情報を使用してさらに処理される前に、候補Ｗｍｅｄフレームから雑音を除去するために、雑音低減器が使用できる。雑音低減器は、Ｗｍｅｄフレームに存在する雑音を除去し、信号の周波数内容に関わらず信号を存続させることができる。ウェーブレットフィルタを含む様々なタイプの雑音低減フィルタが使用できる。ウェーブレットは、空間およびスケーリングドメイン（scaling domain）の両方において、与えられた信号を局在化するために使用される関数のクラスである。ウェーブレットの背後の基本的アイデアは、ウェーブレット表現における小さな変化が、元の信号における対応する小さな変化を生み出すように、異なるスケールまたは解像度で信号を分析することである。

いくつかの態様では、雑音低減フィルタは、（４，２）双直交３次Ｂスプラインウェーブレットフィルタ（(4, 2) biorthogonal cubic B-spline wavelet filter）の一態様に基づく。１つのそのようなフィルタは、以下の順変換および逆変換

および

によって定義することができる。

雑音低減フィルタの適用は、雑音の多い環境において動き補償の精度を高めることができる。ビデオ系列内の雑音は、加法性白色ガウスであると仮定される。雑音の推定分散は、σによって表される。それは、０．６７４５で除算された最高周波数サブバンド係数の中央値絶対偏差として推定することができる。そのようなフィルタの実施は、Ｄ．Ｌ．Ｄｏｎｏｈｏ、Ｉ．Ｍ．Ｊｏｈｎｓｔｏｎｅの「Ｉｄｅａｌｓｐａｔｉａｌａｄａｐｔａｔｉｏｎｂｙｗａｖｅｌｅｔｓｈｒｉｎｋａｇｅ」、Ｂｉｏｍｅｔｒｉｋａ、ｖｏｌ．８、４２５〜４５５ページ、１９９４年においてさらに説明されており、同文献は、参照によりその全体が本明細書に組み込まれる。

ウェーブレット縮小またはウェーブレットワイナーフィルタも、雑音低減器として適用することができる。ウェーブレット縮小雑音低減は、ウェーブレット変換ドメインを縮小することを含むことができ、一般に、線形ウェーブレット順変換、非線形縮小雑音低減、および線形ウェーブレット逆変換の３つのステップを備える。ワイナーフィルタは、加法性雑音およびぼやけによって劣化した画像を改善するために使用できる、ＭＳＥ最適線形フィルタである。そのようなフィルタは、当技術分野において一般に知られており、例えば、上で参照した「Ｉｄｅａｌｓｐａｔｉａｌａｄａｐｔａｔｉｏｎｂｙｗａｖｅｌｅｔｓｈｒｉｎｋａｇｅ」、およびＳ．Ｐ．Ｇｈａｅｌ、Ａ．Ｍ．Ｓａｙｅｅｄ、Ｒ．Ｇ．Ｂａｒａｎｉｕｋの「ＩｍｐｒｏｖｅｍｅｎｔＷａｖｅｌｅｔｄｅｎｏｉｓｉｎｇｖｉａｅｍｐｉｒｉｃａｌＷｉｅｎｅｒｆｉｌｔｅｒｉｎｇ」、ＰｒｏｃｅｅｄｉｎｇｓｏｆＳＰＩＥ、ｖｏｌ３１６９、３８９〜３９９ページ、ＳａｎＤｉｅｇｏ、１９９７年７月で説明されている。

動き補償
図２７を参照すると、ブロック２７０２において、プロセスＢは、双方向動き推定を実行し、次にブロック１０４において、動き推定を使用して、図２０にさらに図示され、以下本明細書の例示的な態様で説明される、動き補償を実行する。Ｗｍｅｄフィルタと動き補償ベースのデインタレーサの間には１フィールド分の「遅れ」が存在する。現在フィールド「Ｃ」の「喪失」データ（本来の行ではない行（non-original rows）のピクセルデータ）についての動き補償情報は、図２３に示されるような、先行フレーム「Ｐ」および次フレーム「Ｎ」の両方の情報から予測される。現在フィールド（図２３）では、実線は、本来のピクセルデータが存在する行を表し、破線は、Ｗｍｅｄ補間ピクセルデータが存在する行を表す。ある態様では、動き補償は、４行×８列のピクセル近傍において実行される。しかし、このピクセル近傍は、説明を目的とした一例であり、動き補償が、異なる数の行および異なる数の列を備えるピクセル近傍に基づいた他の態様において実行され得ること、それらの選択が、例えば、計算スピード、利用可能な処理能力、またはデインタレースされるマルチメディアデータの特性を含む、多くの要因に基づき得ることは、当業者には明らかであろう。現在フィールドは、行の半分しかもたないので、照合される４行は、実際には８ピクセル×８ピクセルの領域に対応する。

図２０を参照すると、双方向ＭＥ／ＭＣ２０６８は、Ｗｍｅｄ現在フレーム２０６０をＷｍｅｄ次フレーム２０５８およびデインタレース現在フレーム２０７０と比較するために、予測ブロックと予測ブロックの間の類似性を測定するために使用できる、２乗誤差の和（ＳＳＥ）を使用することができる。動き補償を施された現在フレーム２０６６の生成は、その後、最も類似する照合ブロックからのピクセル情報を使用して、本来のピクセル行の間の喪失データの箇所を埋める。いくつかの態様では、双方向ＭＥ／ＭＣ２０６８は、デインタレース先行フレーム２０７０の情報からのピクセル情報にバイアスをかけ、またはより大きな重みを与えるが、それは、デインタレース先行フレーム２０７０は、動き補償情報およびＷｍｅｄ情報によって生成されるのに対し、Ｗｍｅｄ次フレーム２０５８は、時空間フィルタリングによってデインタレースされたに過ぎないからである。

いくつかの態様では、ルーマは同様だがクロマが異なる領域を有するフィールドの領域における照合性能を改善するため、１つまたは複数のルーマグループオブピクセル（luma group of pixels）（例えば、１つの４行×８列のルーマブロック）および１つまたは複数のクロマグループオブピクセル（chroma group of pixels）（例えば、２つの２行×４列のルーマブロックＵ、Ｖ）のピクセル値の寄与を含むメトリックが使用できる。そのような手法は、色敏感領域におけるミスマッチを効果的に減少させる。

動きベクトル（ＭＶ）は、垂直次元において１／２ピクセルの粒度を有し、水平次元において１／２または１／４ピクセルの粒度を有する。分数ピクセルサンプルを取得するため、補間フィルタが使用できる。例えば、半ピクセルサンプルを取得するために使用できるいくつかのフィルタは、双１次フィルタ（１，１）、Ｈ．２６３／ＡＶＣによって推奨される補間フィルタ（１，−５，２０，２０，−５，１）、および６タップハミング窓ｓｉｎｃ関数フィルタ（３，−２１，１４７，１４７，−２１，３）を含む。１／４ピクセルサンプルは、双１次フィルタを適用することによって、全および半ピクセルサンプルから生成することができる。

いくつかの態様では、動き補償は、現在フレームのある位置におけるデータ（例えば、物体の描画）を別のフレーム（例えば、次フレームまたは先行フレーム）の異なる位置における対応データと照合するために、様々なタイプの探索プロセスを使用することができ、それぞれのフレーム内の位置の差は、物体の運きを示している。例えば、探索プロセスは、より大きな探索領域をカバーできるフルモーション探索、またはより少ないピクセルおよび／もしくは例えばひし形などの特定の形を有することができる探索パターンにおいて使用される選択ピクセルを使用できる高速モーション探索を使用する。高速モーション探索の場合、探索領域の中心は、隣接フレームを探索するための開始点として使用できる動き推定または動き候補に置くことができる。いくつかの態様では、ＭＶ候補は、外部の動き推定器で生成され、デインタレーサに提供されることができる。先に動き補償を施された隣接フレーム内の対応する近傍に属するマクロブロックの動きベクトルも、動き推定として使用することができる。いくつかの態様では、ＭＶ候補は、対応する先行フレームおよび次フレームのマクロブロック近傍（例えば、３マクロブロック×３マクロブロック）を探索することから生成することができる。

図２４は、図２３に示されるような先行フレームおよび次フレームの近傍を探索することによって、動き推定／補償の最中に生成され得る、２つのＭＶマップであるＭＶＰおよびＭＶＮの例を示している。ＭＶＰおよびＭＶＮの両方において、動き情報を決定するために処理されるブロックは、「Ｘ」によって表される中央ブロックである。ＭＶＰおよびＭＶＮの両方に、処理される現在ブロックＸの動き推定の最中に使用できる、９つのＭＶ候補が存在する。この例では、先に実行された動き探索からの４つのＭＶ候補が同じフィールド内に存在し、ＭＶＰおよびＭＶＮ（図２４）において、より薄い色のブロックによって示されている。より濃い色のブロックによって示される他の５つのＭＶ候補は、先に処理されたフレームの動き情報からコピー（またはマップ）されたものである。

動き推定／補償が完了した後、Ｗｍｅｄフィルタによって生成された１つの補間結果（図２０のＷｍｅｄ現在フレーム２０６０）と、動き補償器の動き推定処理によって生成されたもう１つの補間結果（ＭＣ現在フレーム２０６６）の、２つの補間結果は、喪失ラインをもたらす。結合器２０６２は一般に、現在デインタレースフレーム２０６４を生成するために、Ｗｍｅｄ現在フレーム２０６０およびＭＣ現在フレーム２０６６の少なくとも一部を使用することによって、Ｗｍｅｄ現在フレーム２０６０とＭＣ現在フレーム２０６６とを合併する。しかし、ある条件下では、結合器２０６２は、現在フレーム２０６０またはＭＣ現在フレーム２０６６の一方だけを使用して、現在デインタレースフレームを生成することができる。一例では、結合器２０６２は、デインタレース出力信号を生成するために、式３６に示されるように、Ｗｍｅｄ現在フレーム２０６０とＭＣ現在フレーム２０６６とを合併し、

ここで、

は、フィールドｎｉの位置ｘ＝（ｘ，ｙ）ｔにおけるルミナンス値のために使用され、ｔは転置を表す。

として定義されるクリップ関数を使用すると、ｋｉは、

として計算することができ、ここで、Ｃ１は、頑健なパラメータであり、Ｄｉｆｆは、予測フレームピクセルと（既存フレームから取られた）予測フレーム内の利用可能ピクセルのルーマ差である。Ｃ１を適切に選択することによって、平均２乗誤差の相対重要度を調整することが可能である。ｋ２は、式３９に示されるように計算することができ、

ここで、

は、動きベクトルであり、δは、ゼロによる除算を防止するための小さな定数である。フィルタリングのためにクリップ関数を使用するデインタレースは、Ｇ．Ｄ．Ｈａａｎ、Ｅ．Ｂ．Ｂｅｌｌｅｒｓの「Ｄｅ−ｉｎｔｅｒｌａｃｉｎｇｏｆｖｉｄｅｏｄａｔａ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓ、Ｖｏｌ．４３、Ｎｏ．３、８１９〜８２５ページ、１９９７年においてさらに説明されており、同文献は、その全体が本明細書に組み込まれる。

いくつかの態様では、結合器２０６２は、高いＰＳＮＲおよび頑健な結果を達成するために、以下の式を試し、維持するように構成することができる。

フィールド間補間を備えるデインタレース予測方式を、Ｗｍｅｄ＋ＭＣデインタレース方式を用いるフィールド内補間から切り離すことが可能である。言い換えると、時空間Ｗｍｅｄフィルタリングは、主にフィールド内補間目的で使用することができ、一方、フィールド間補間は、動き補償の最中に実行することができる。これは、Ｗｍｅｄ結果のピークＳＮ比を低下させるが、不正確なフィールド間予測モード判定からの不良ピクセルが、Ｗｍｅｄフィルタリングプロセスから除去されるので、動き補償が適用された後の視覚的品質は、より好ましい。

クロマ処理は、共存するルーマ処理と整合的であることができる。動きマップ生成に関して、クロマピクセルの動きレベルは、４つの共存するルーマピクセルの動きレベルを観測することによって取得される。操作は、ボーティング（voting）に基づくことができる（クロマ動きレベルは優勢なルーマ動きレベルを借用する）。しかし、発明者らは、以下のような従来の手法を使用することを提案する。４つのルーマピクセルのいずれか１つが速い動きレベルを有する場合、クロマ動きレベルは速い動きであり、それ以外で、４つのルーマピクセルのいずれか１つが遅い動きレベルを有する場合、クロマ動きレベルは遅い動きであり、それ以外では、クロマ動きレベルは静止である。従来の手法は、最高のＰＳＮＲを達成しないこともあるが、クロマ動きレベルにあいまい性が存在する場合常にＩＮＴＥＲ予測を使用するリスクを回避する。

マルチメディアデータ系列は、説明されたＷｍｅｄアルゴリズムを単独で使用して、ならびに本明細書で説明されたＷｍｅｄおよび動き補償を組み合わせたアルゴリズムを使用してデインタレースされる。同じマルチメディアデータ系列は、ピクセルブレンディング（または平均）アルゴリズムを使用してもデインタレースされ、「デインタレースなし」の場合には、どのような補間またはブレンディングも伴わずにフィールドが単に組み合わされる。結果のフレームが、ＰＳＮＲを決定するために分析され、以下の表に示されている。

Ｗｍｅｄに加えてＭＣを使用してデインタレースを行ったことによるＰＳＮＲの改善が不十分なものに過ぎないとしても、上で言及されたように、Ｗｍｅｄ結果とＭＣ結果の組み合わせは、偶数フィールドと奇数フィールドの間のエイリアスおよび雑音を抑制するので、ＷｍｅｄおよびＭＣ補間結果を組み合わせることによって生成されるデインタレース画像の視覚的品質はより好ましい。

いくつかのリサンプリング態様では、画像サイズのリサイズのために、多相リサンプラが実施される。ダウンサンプリングの一例では、元の画像とリサイズ画像の間の比は、ｐ／ｑとすることができ、ここで、ｐおよびｑは、互いに素の整数である。相の総数はｐである。いくつかの態様では、リサイズ係数が約０．５である場合、多相フィルタのカットオフ周波数は０．６である。カットオフ周波数は、リサイズ系列の高周波数応答を引き上げるために、リサイズ比と正確には一致しない。これは必然的にいくらかのエイリアスを許容する。しかし、人間の目は、エイリアスなしのぼやけた画像よりも、僅かにエイリアスがあっても鮮明な画像のほうを好むことがよく知られている。

図４２は、リサイズ比が３／４である場合の相を示す、多相リサンプリングの一例を示している。図４２に示されるカットオフ周波数も３／４である。元のピクセルは、垂直軸を用いて上述の図４２に示されている。フィルタ波形を表すために、軸を中心にしてｓｉｎｃ関数も描かれている。リサンプリング比と正確に同じになるようにカットオフ周波数を選択したため、ｓｉｎｃ関数のゼロは、×印を用いて図４２に示されるように、リサイズ後のピクセルの位置と重なり合っている。リサイズ後のピクセル値を見出すため、以下の式に示されるように、元のピクセルからの寄与が合計されることができ、

ここで、ｆｃはカットオフ周波数である。上述のＩ−Ｄ多相フィルタは、水平次元および垂直次元の両方に適用することができる。

リサンプリング（リサイズ）の別の態様は、オーバスキャンを考慮する。ＮＴＳＣテレビ信号では、画像は、４８６本の走査線を有し、ディジタルビデオでは、各走査線上に７２０個のピクセルを有することができる。しかし、画像全体の必ずしもすべてが、サイズと画面形式の間のミスマッチのため、テレビ上で可視となるわけではない。可視とならない画像の部分は、オーバスキャンと呼ばれる。

放送者ができるだけ多くのテレビによって可視となる領域に有用な情報を置くための助けとなるように、映画テレビ技術者協会（ＳＭＰＴＥ：Society of Motion Picture & Television Engineers）は、セーフアクション領域およびセーフタイトル領域と呼ばれるアクションフレームの特定のサイズを定義した。ＳｐｅｃｉｆｉｃａｔｉｏｎｓｆｏｒＳａｆｅＡｃｔｉｏｎａｎｄＳａｆｅＴｉｔｌｅＡｒｅａｓＴｅｓｔＰａｔｔｅｒｎｆｏｒＴｅｌｅｖｉｓｉｏｎＳｙｓｔｅｍｓのＳＭＰＴＥ推奨実践ＲＰ２７．３−１９８９を参照されたい。セーフアクション領域は、「すべての重要なアクションが起こらなければならない」領域としてＳＭＰＴＥによって定義されている。セーフタイトル領域は、「すべての有用な情報をそこに収めることで大多数の家庭用テレビ受像機における可視性を保証することができる」領域として定義されている。例えば、図４３に示されるように、セーフアクション領域４３１０は、画面の中央９０％を占有し、その全周囲に５％の縁領域を残す。セーフタイトル領域４３０５は、画面の中央８０％を占有し、１０％の縁領域を残す。図。

ここで図４４を参照すると、セーフタイトル領域は非常に小さいので、画像により多くの内容を追加するため、いくつかの放送は、白い長方形ウィンドウ４４１５内部のセーフアクション領域にテキストを含める。通常、オーバスキャンにおいては、黒い縁領域が見えることがある。例えば、図４４では、黒い縁領域が、画像の上辺４４２０および下辺４４２５に現れている。Ｈ．２６４ビデオは、動き推定において境界拡張を使用するので、これらの黒い縁領域は、オーバスキャンにおいて除去することができる。拡張された黒い縁領域は、残余を大きくすることができる。控えめに、境界を２％だけカットし、その後、リサイズを行うことができる。リサイズ用のフィルタは、しかるべく生成することができる。多相ダウンサンプリングの前にオーバスキャンを除去するために、トランケーションが実行される。

デブロッキング／デリンギング
デブロッキング処理の一例では、デブロッキングフィルタは、フレームの境界のエッジと、デブロッキングフィルタが使用不可であるエッジとを除いて、フレームのすべての４×４ブロックエッジに適用することができる。このフィルタリングプロセスは、フレーム構成プロセスの完了後に、マクロブロックに基づいて実行され、フレーム内のすべてのマクロブロックが、マクロブロックアドレスの昇順で処理される。各マクロブロックについて、最初に垂直エッジが、左から右にフィルタリングされ、次に水平エッジが、上から下にフィルタリングされる。図３９に示されるように、水平方向および垂直方向に関して、ルーマデブロッキングフィルタプロセスは、４つの１６サンプルエッジ上で実行され、各クロマ成分用のデブロッキングフィルタプロセスは、２つの８サンプルエッジ上で実行される。先行マクロブロック上でのデブロッキングプロセス操作によってすでに変更されている場合がある、現在マクロブロックの上方および左方のサンプル値は、現在マクロブロック上でのデブロッキングフィルタプロセスへの入力として使用され、現在マクロブロックのフィルタリングの最中にさらに変更されることがある。垂直エッジのフィルタリングの最中に変更されたサンプル値は、同じマクロブロックの水平エッジのフィルタリングのための入力として使用することができる。デブロッキングプロセスは、ルーマ成分用およびクロマ成分用に別々に起動することができる。

デリンギング処理の一例では、エッジ付近の領域を平滑化するために、２−Ｄフィルタが適応的に適用されることができる。エッジピクセルは、ぼやけを回避するために、フィルタリングを僅かしか施されず、または全く施されない。

ＧＯＰパーティショナ
帯域幅マップ生成、ショット検出、および適応ＧＯＰ区分化を含む処理の説明的な例が、以下で説明され、そのような処理は、ＧＯＰパーティショナに含まれることができる。

帯域幅マップ生成
人間の視覚品質Ｖは、符号化の複雑さＣおよび割り当てられたビットＢ（帯域幅とも呼ばれる）の両方の関数とすることができる。図２９は、この関係を示すグラフである。符号化の複雑さメトリックＣが、人間の視覚の観点から時空間周波数を考慮していることに留意されたい。ひずみの場合、人間の目がより敏感に捉えるほど、複雑さの値も対応してより高くなる。ＶがＣについて単調減少し、Ｂについて単調増加することを一般に仮定することができる。

一定した視覚品質を達成するため、すぐ下の２つの式で表現される基準を満たす帯域幅（Ｂｉ）が、符号化される第ｉオブジェクト（フレームまたはＭＢ）に割り当てられる。

すぐ上の２つの式では、Ｃｉは、第ｉオブジェクトの符号化の複雑さ、Ｂは、利用可能な総帯域幅、Ｖは、オブジェクトに関して達成された視覚品質である。

人間の視覚品質は、式として定式化するのが難しい。したがって、上記の式の組は、正確に定義されたものではない。しかし、３−Ｄモデルがすべての変数で連続的であると仮定するならば、比帯域（Ｂｉ／Ｂ）は、（Ｃ，Ｖ）対の近傍内では変化がないものとして扱うことができる。比帯域βｉは、以下に示される式で定義される。

ビット割り当ては、以下の式で表現されるように定義することができる。

ここで、δは、「近傍」を表す。

符号化の複雑さは、空間的および時間的に、人間の視覚感度によって影響される。ジロ（Girod）の人間の視覚モデルは、空間複雑さを定義するために使用できるモデルの一例である。このモデルは、局所空間周波数および周囲照明を考慮する。結果のメトリックは、Ｄｃｓａｔと呼ばれる。プロセスの前処理時点において、画像がイントラ符号化されるか、それともインター符号化されるかは分からないので、両方についての比帯域が生成される。ビットは、異なるビデオオブジェクトのβＩＮＴＲＡの間の比に従って割り当てられる。イントラ符号化画像の場合、比帯域は、以下の式で表現される。

上記の式において、Ｙは、マクロブロックの平均ルミナンス成分、αＩＮＴＲＡは、ルミナンスの２乗に対する加重係数であり、それにＤｃｓａｔ項が続き、β０ＩＮＴＲＡは、

を保証するための正規化係数である。例えば、αＩＮＴＲＡ＝４という値は、良好な視覚品質を達成する。コンテンツ情報（例えば、コンテンツ分類）は、ビデオの特定のコンテンツにとって望ましい良好な視覚品質レベルに対応する値にαＩＮＴＲＡを設定するために使用することができる。一例では、ビデオコンテンツが「語り手の顔が現れる」ニュース放送を備える場合、ビデオの情報画像または表示可能部分は音声部分よりも重要性が低いと見なすことができるので、視覚品質レベルはより低く設定することができ、データを符号化するために、より少ないビットを割り当てることができる。別の例では、ビデオコンテンツがスポーツイベントを備える場合、表示画像は視聴者にとってより重要であり得るので、より高い視覚品質レベルに対応する値にαＩＮＴＲＡを設定するために、コンテンツ情報が使用でき、したがって、データを符号化するために、より多くのビットを割り当てることができる。

この関係を理解するため、帯域幅が符号化の複雑さの対数に応じて割り当てられることに留意されたい。ルミナンスの２乗項Ｙは、大きさがより大きい係数ほど符号化するのにより多くのビットを使用するという事実を反映している。対数が負の値を取ることを防止するため、括弧内の項に１が追加される。他の底をもつ対数も使用することができる。

時間複雑さは、絶対差の和（ＳＡＤ）などのフレーム差分メトリックに加えて動きの量（例えば動きベクトル）を考慮した２つの連続するフレームの間の差を測定するフレーム差分メトリックの測定によって決定される。

インター符号化画像のビット割り当ては、空間複雑さに加えて時間複雑さも考慮することができる。これは以下のように表現される。

上記の式において、ＭＶＰおよびＭＶＮは、現在のＭＢの順方向および逆方向動きベクトルである。イントラ符号化の帯域幅公式におけるＹ２は２乗残差の和（ＳＳＤ）によって置き換えられていることに留意されたい。上記の式における‖ＭＶＰ＋ＭＶＮ‖２の役割を理解するため、人間の視覚系の次の特徴、すなわち、平滑で予測可能な動きを経験している領域（小さな‖ＭＶＰ＋ＭＶＮ‖２）は、注意を引き、目によって追跡することができ、一般に静止領域と同程度のひずみにしか耐えることができないという特徴に留意されたい。しかし、速いまたは予測不可能な動きを経験している領域（大きな‖ＭＶＰ＋ＭＶＮ‖２）は、追跡することができず、相当な量子化に耐えることができる。実験は、αＩＮＴＥＲ＝１、γ＝０．００１が良好な視覚品質を達成することを示した。

ショット検出
ショット検出の説明的な一例が以下で説明される。そのようなコンポーネントおよびプロセスは、ＧＯＰパーティショナ４１２（図４）内に含まれることができる。

動き補償器２３は、ビデオ内のフレームについての双方向動き情報を決定するように構成することができる。動き補償器２３は、１つまたは複数の差分メトリック、例えば、絶対差の和（ＳＡＤ）または絶対差の和（ＳＳＤ）を決定し、１つまたは複数のフレームのルミナンス情報（例えば、マクロブロック（ＭＢ）ルミナンス平均または差分）、ルミナンスヒストグラム差分、およびその例が式１〜式３を参照して説明されたフレーム差分メトリックを含む、他の情報を計算するようにも構成することができる。ショット分類器は、動き補償器によって決定された情報を使用して、ビデオ内のフレームを２つ以上の「ショット」カテゴリに分類するように構成することができる。符号器は、ショット分類に基づいて、複数のフレームを適応的に符号化するように構成される。動き補償器、ショット分類器、および符号器は、式１〜式１０を参照して以下で説明される。

図２８は、いくつかの態様によるショット検出および他の前処理操作のために構成されるプロセッサ２８３１を備える、プリプロセッサ２０２のブロック図である。ディジタルビデオ源は、図４に示されるようなプリプロセッサ２０２の外部の源によって提供され、プリプロセッサ２０２内の通信モジュール２８３６に伝達されることができる。プリプロセッサ２０２は、プロセッサ２８３１と通信する記憶媒体２８２５を含み、その両方とも、通信モジュール２８３６と通信する。プロセッサ２８３１は、動き補償器２０３２と、ショット分類器２８３３と、前処理用の他のモジュール２０３４とを含み、それらは、動き情報を生成し、ビデオデータのフレーム内のショットを分類し、本明細書で説明されるような他の前処理テストを実行するように動作することができる。動き補償器、ショット分類器、および他のモジュールは、図４の対応するモジュールと同様のプロセスを含むことができ、以下で説明される情報を決定するためにビデオを処理することができる。特に、プロセッサ２８３１は、双方向動き情報およびルミナンス情報を備える、複数のビデオフレームのうちの隣接フレームの間の差分を表すメトリックを取得し、前記メトリックに基づいて複数のビデオフレームにおけるショット変化を決定し、ショット変化に基づいて複数のフレームを適応的に符号化するための構成を有することができ、いくつかの態様では、メトリックは、プロセッサ２８３１の外部にあるばかりか、プリプロセッサ２０２の外部にあることもできる、デバイスまたはプロセスによって計算することができ、別のデバイスまたはメモリを介して直接または間接に、プロセッサ２８３１に伝達することができる。メトリックは、プロセッサ２８３１によっても、例えば、動き補償器２８３２によっても計算することができる。

プリプロセッサ２０２は、さらなる処理、符号化、および例えば端末６（図１）など他のデバイスへの伝送のため、ビデオおよびメタデータを提供する。符号化ビデオは、いくつかの態様では、ベースレイヤおよびエンハンスメントレイヤを備え得る、スケーラブルなマルチレイヤ符号化ビデオとすることができる。スケーラブルレイヤ符号化は、本発明の譲受人によって所有される、「ＳＣＡＬＡＢＬＥＶＩＤＥＯＣＯＤＩＮＧＷＩＴＨＴＷＯＬＡＹＥＲＥＮＣＯＤＩＮＧＡＮＤＳＩＮＧＬＥＬＡＹＥＲＤＥＣＯＤＩＮＧ」と題する同時係属中の米国特許出願［整理番号０５００７８］にさらに説明されており、同出願は、その全体が参照により本明細書に組み込まれる。

図２８ならびに本明細書で開示される他の例および図に関連して説明される様々な例示的な論理ブロック、コンポーネント、モジュール、および回路は、いくつかの態様では、本明細書で説明される機能を実行するために設計された、汎用プロセッサ、ディジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）もしくは他のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理、ディスクリートハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて実施または実行することができる。図２８に示されるプロセッサなどの汎用プロセッサは、マイクロプロセッサでよいが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械でもよい。プロセッサは、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサの組み合わせ、またはそのような他の任意の構成など、コンピューティングデバイスの組み合わせとして実施されてもよい。

ビデオ符号化は通常、構造化されたグループオブピクチャ（ＧＯＰ）上で動作する。ＧＯＰは通常、イントラ符号化フレーム（Ｉフレーム）で開始し、それに一連のＰ（予測）またはＢ（双方向）フレームが続く。一般に、Ｉフレームは、フレームを表示するためのすべてのデータを保存することができ、Ｂフレームは、先行および後続フレーム内のデータに依存し（例えば、先行フレームから変更されたデータまたは次フレーム内のデータと異なるデータだけを含み）、Ｐフレームは、先行フレームから変更されたデータを含む。

一般的な使用においては、Ｉフレームは、符号化ビデオ内でＰフレームおよびＢフレームを差し入れられる。サイズ（例えば、フレームを符号化するために使用されるビットの数）に関して、Ｉフレームは一般に、Ｐフレームより大きく、Ｐフレームは、Ｂフレームよりも大きい。効率的な符号化、伝送、および復号処理のため、ＧＯＰの長さは、大きなＩフレームから効率的損失を減らすのに十分なだけ長くなければならず、符号器と復号器の間のミスマッチまたはチャネル障害に対処するのに十分なだけ短くなければならない。加えて、Ｐフレーム内のマクロブロック（ＭＢ）は、同様の理由で、イントラ符号化することができる。

シーン変化検出は、ビデオ符号器が適切なＧＯＰ長を決定し、Ｉフレームを固定間隔で挿入する代わりに、ＩフレームをＧＯＰ長に基づいて挿入するために使用することができる。実際のストリーミングビデオシステムでは、通信チャネルは通常、ビット誤りまたはパケット喪失によって障害をこうむる。ＩフレームまたはＩＭＢをどこに置くかは、復号ビデオ品質および視聴経験に大きく影響することがある。１つの符号化方式は、共存する先行の画像または画像部分から著しい変化を有する画像または画像部分のためにイントラ符号化フレームを使用することである。通常、これらの領域は、動き推定を用いて効果的かつ効率的に予測することができず、そのような領域がインターフレーム符号化技法から除外されていれば（例えば、ＢフレームおよびＰフレームを使用する符号化）、符号化はより効率的に行われることができる。チャネル障害の状況では、それらの領域は、誤り伝播の悪影響をこうむる可能性が高いが、誤り伝播は、イントラフレーム符号化によって低減または除去（もしくはほぼ除去）することができる。

ＧＯＰビデオの部分は、２つ以上のカテゴリに分類することができ、各領域は、特定の実施に依存し得る異なるイントラフレーム符号化基準を有することができる。一例として、ビデオは、突然シーン変化と、クロスフェードおよび他の緩慢シーン変化と、カメラフラッシュライトの、３つのカテゴリに分類することができる。突然シーン変化は、先行フレームから著しく異なるフレームを含み、通常はカメラ操作によって引き起こされる。これらのフレームの内容は、先行フレームの内容と異なるので、突然シーン変化フレームは、Ｉフレームとして符号化されるべきである。クロスフェードおよび他の緩慢シーン変化は、シーンの緩慢な切り換えを含み、通常はカメラショットのコンピュータ処理によって引き起こされる。２つの異なるシーンの緩やかな混合は、人間の目にとってより好ましく見えることがあるが、ビデオ符号化に難題を提示する。動き補償は、それらのフレームのビットレートを効果的に低減することができず、より多くのイントラＭＢが、これらのフレームのために更新されることがある。

カメラフラッシュライトまたはカメラフラッシュライトイベントは、フレームの内容がカメラフラッシュを含む場合に生じる。そのようなフラッシュは、持続時間が比較的短く（例えば１フレーム）、きわめて明るく、フラッシュを表現するフレーム内のピクセルは、隣接フレーム上の対応する領域と比べて異常に高いルミナンスを示す。カメラフラッシュライトは、画像のルミナンスを突然に素早く変化させる。通常、カメラフラッシュライトの持続時間は、一般に４４ｍｓであると定義される人間の視覚系（ＨＶＳ）の時間マスキング持続時間よりも短い。人間の目は、これらの短い明るさのバーストの品質に対して敏感でなく、したがって、それらは粗雑に符号化することができる。フラッシュライトフレームは、動き補償を用いて効果的に扱うことができないので、将来のフレームのための不適切な予測候補であり、これらのフレームの粗雑な符号化は、将来のフレームの符号化効率を低減させない。フラッシュライトとして分類されたシーンは、「人工的」な高いルミナンスのため、他のフレームを予測するために使用されるべきではなく、他のフレームは、同じ理由で、これらのフレームを予測するために効果的に使用することはできない。ひとたび識別されると、これらのフレームは、比較的高い処理量を必要とすることがあるので、取り除くことができる。１つの選択肢は、カメラフラッシュライトフレームを取り除き、それらの場所のＤＣ係数を符号化することであり、そのような解決法は、簡単で、計算が速く、多くのビットを節約する。

上記のフレームのいずれかが検出された場合、ショットイベントが宣言される。ショット検出は、符号化品質を高めるために有用であるばかりでなく、探索およびインデックス付けの際にビデオコンテンツを識別する助けになることもできる。シーン検出プロセスの一態様が、以下本明細書で説明される。

図３０は、ＧＯＰ上で動作し、いくつかの態様では、ビデオフレーム内でのショット検出に基づいてビデオを符号化するために使用できる、プロセス３０００を示しており、プロセス３０００の部分（またはサブプロセス）は、図３０〜図４０を参照しながら説明および図説される。プロセッサ２８３１は、プロセス３０００を組み込むように構成することができる。プロセス３０００は、開始した後、ブロック３０４２に進み、隣接フレーム間の差分を表す情報を含む、ビデオフレームに関するメトリック（情報）が取得される。メトリックは、双方向動き情報と、ショット分類のために使用できる、隣接フレーム間で発生する変化を後で決定するためのルミナンスベースの情報とを含む。そのようなメトリックは、別のデバイスもしくはプロセスから取得することができ、または例えばプロセッサ２８３１によって計算することができる。メトリック生成の説明的な例が、図３１のプロセスＡを参照しながら説明される。

プロセス３０００は次に、ブロック３０４４に進み、ビデオ内のショット変化が、メトリックに基づいて決定される。ビデオフレームは、例えば、突然シーン変化、緩慢変化シーン、または高ルミナンス値を含むシーン（カメラフラッシュ）など、どのタイプのショットがフレームに含まれるかについて、２つ以上のカテゴリに分類することができる。符号化のある実施は、他のカテゴリを必要とすることがある。ショット分類の説明的な例が、図３２のプロセスＢを参照しながら説明され、より詳細には、図３４〜図３６のプロセスＤ、Ｅ、Ｆをそれぞれ参照しながら説明される。

ひとたびフレームが分類されると、プロセス３０００は、ブロック３０４６に進み、フレームは、ショット分類の結果を用いて、符号化され、または符号化のために指定されることができる。そのような結果は、フレームをイントラ符号化フレームを用いて符号化するか、それとも予測フレーム（例えば、ＰフレームまたはＢフレーム）を用いて符号化するかに影響し得る。図３３のプロセスＣは、ショット結果を使用する符号化方式の一例を示している。

図３１は、ビデオのメトリックを取得するためのプロセスの一例を示している。図３１は、図３０のブロック３０４２で発生するいくつかのステップを示している。依然として図３１を参照すると、ブロック３１５２において、プロセスＡは、ビデオの双方向動き推定および補償情報を取得または決定する。図２８の動き補償器２８３２は、フレームに対して双方向動き推定を実行し、後続のショット分類のために使用できる動き補償情報を決定するように構成することができる。プロセスＡは次に、ブロック３１５４に進み、現在フレームまたは選択フレームおよび１つまたは複数の隣接フレームについてのルミナンス差ヒストグラムを含む、ルミナンス情報を生成する。最後に、プロセスＡは、ブロック３１５６に進み、フレーム内に含まれるショットを表すメトリックが計算される。１つのそのようなメトリックは、式４および式１０に２つの例が示された、フレーム差分メトリックである。動き情報、ルミナンス情報、およびフレーム差分メトリックを決定する説明的な例が、以下で説明される。

動き補償
双方向動き推定／補償を実行するため、ビデオ系列は、現在フレームのすべての８×８ブロックを、１つは過去、１つは将来の、直近の２つの隣接フレームと照合する双方向動き補償器を用いて、前処理することができる。動き補償器は、すべてのブロックについて、動きベクトルおよび差分メトリックを生成する。図３７は、現在フレームＣのピクセルを過去フレームＰおよび将来（または次）フレームＮと照合する一例を示して、この概念を説明しており、照合されたピクセルへの動きベクトル（過去動きベクトルＭＶＰおよび将来動きベクトルＭＶＮ）を描いてある。双方向動きベクトル生成および関係する符号化の例示的な態様の簡潔な説明が以下に続く。

図４０は、例えばＭＰＥＧ−４における、動きベクトル決定プロセスおよび予測フレーム符号化の一例を示している。図４０に示されるプロセスは、図３１のブロック３１５２において行われ得るプロセス例のより詳細な説明である。図４０では、現在画像４０３４は、５×５のマクロブロックから構成され、この例におけるマクロブロックの数は、恣意的なものである。マクロブロックは、１６×１６のピクセルから構成される。ピクセルは、８ビットのルミナンス値（Ｙ）と、２つの８ビットのクロミナンス値（ＣｒおよびＣｂ）とによって定義することができる。

ＭＰＥＧでは、Ｙ、Ｃｒ、およびＣｂ成分は、４：２：０フォーマットで保存することができ、ＣｒおよびＣｂ成分は、ＸおよびＹ方向で、２だけダウンサンプリングされる。したがって、各マクロブロックは、２５６のＹ成分、６４のＣｒ成分、および６４のＣｂ成分から成る。現在画像４０３４のマクロブロック４０３６は、現在画像４０３４とは異なる時点における参照画像４０３２から予測される。Ｙ、Ｃｒ、およびＣｂ値に関して、符号化される現在マクロブロック４０３６に最も近い、最も良く一致するマクロブロック４０３８を見つけるために、参照画像４０３２において、探索が行われる。参照画像４０３２における最も良く一致するマクロブロック１３８の位置が、動きベクトル４０４０内に符号化される。参照画像４０３２は、現在画像４０３４の構成に先立ち復号器が再構成するＩフレームまたはＰフレームとすることができる。最も良く一致するマクロブロック４０３８が、現在マクロブロック４０から減算され（Ｙ、Ｃｒ、およびＣｂ成分の各々について差分が計算され）、残余誤差４０４２をもたらす。残余誤差４０４２は、２Ｄ離散コサイン変換（ＤＣＴ）を用いて符号化４０４４され、その後、量子化４０４６される。量子化４０４６は、例えば、より少ないビットを高周波数の係数に割り当てる一方、より多くのビットを低周波数の係数に割り当てることによって、空間圧縮を提供するために実行することができる。残余誤差４０４２の量子化係数は、情報を識別する動きベクトル４０４０および参照画像４０３２と共に、現在マクロブロック４０３６を表す符号化情報である。符号化情報は、将来使用するためにメモリに保存することができ、例えば誤り訂正もしくは画像向上の目的で操作することができ、またはネットワーク１４０を介して伝送することができる。

残余誤差４０４２の符号化量子化係数は、符号器において、現在マクロブロック４０３６を再構成して、それを後続の動き推定および補償用の参照フレームの部分として使用するために、符号化動きベクトル４０４０と共に使用することができる。このＰフレーム再構成のため、符号器は、復号器の手順をエミュレートすることができる。復号器のエミュレーションは、符号器および復号器が共に、同じ参照画像を用いて作業するという結果をもたらす。さらなるインター符号化のために符号器において行われるか、それとも復号器において行われるかに関わらず、ここで再構成プロセスが提示される。Ｐフレームの再構成は、参照フレーム（または参照される画像もしくはフレームの一部）が再構成された後に開始することができる。符号化量子化係数は、逆量子化４０５０され、次に２Ｄ逆ＤＣＴすなわちＩＤＣＴ４０５２が実行され、復号または再構成残余誤差４０５４をもたらす。符号化動きベクトル４０４０は、復号され、すでに再構成された参照画像４０３２において、すでに再構成された最も良く一致するマクロブロック４０５６を見つけるために使用される。次に、再構成マクロブロック４０５８を形成するために、再構成された残余誤差４０５４が、再構成された最も良く一致するマクロブロック４０５６に加算される。再構成マクロブロック４０５８は、メモリに保存することができ、独立してもしくは画像内に他の再構成マクロブロックと一緒に表示することができ、または画像向上のためにさらに処理することができる。

Ｂフレーム（または双方向予測を用いて符号化された任意の区画）を使用する符号化は、現在画像内の領域と先行画像内の最も良く一致する予測領域および後続画像内の最も良く一致する予測領域との間の時間冗長性を利用することができる。後続の最も良く一致する予測領域と先行する最も良く一致する予測領域とは、組み合わせ双方向予測領域を形成するために組み合わされる。現在画像の領域と最も良く一致する組み合わせ双方向予測領域との間の差分が、残余誤差（または予測誤差）である。後続参照画像内の最も良く一致する予測領域の位置および先行参照画像内の最も良く一致する予測領域の位置は、２つの動きベクトル内に符号化することができる。

ルミナンスヒストグラム差分
動き補償器は、すべてのブロックについて差分メトリックを生成することができる。差分メトリックは、２乗残差の和（ＳＳＤ）または絶対差の和（ＳＡＤ）とすることができる。一般性を失うことなく、ここではＳＡＤが例として使用される。

すべてのフレームについて、ＳＡＤ比が以下のように計算され、

ここで、ＳＡＤＰおよびＳＡＤＮは、それぞれ前方および後方差分メトリックの絶対差の和である。「ゼロによる除算エラー」を防止するため、分母が小さな正の数εを含むことに留意されたい。分子も、分母における単位の影響とバランスを取るためにεを含む。例えば、先行フレーム、現在フレーム、および次フレームが同一である場合、動き探索は、ＳＡＤＰ＝ＳＡＤＮ＝０をもたらすべきである。この場合、上記の計算は、０または無限大の代わりに、γ＝１を生成する。

ルミナンスヒストグラムは、すべてのフレームについて計算することができる。一般に、マルチメディア画像は、８ビットのルミナンス深さ（例えば「ビン（bin）」の数）を有する。いくつかの態様に従ってルミナンスヒストグラムを計算するために使用されるルミナンス深さは、ヒストグラムを取得するために、１６に設定することができる。他の態様では、ルミナンス深さは、処理されるデータのタイプ、利用可能な計算能力、または他の所定の基準に依存し得る、適切な数に設定することができる。いくつかの態様では、ルミナンス深さは、データの内容など、計算したメトリックまたは受け取ったメトリックに基づいて、動的に設定することができる。

式４９は、ルミナンスヒストグラム差分（ラムダ）を計算する一例を示しており、

ここで、ＮＰｉは、先行フレームに関する第ｉのビン内のブロックの数であり、ＮＣｉは、現在フレームに関する第ｉのビン内のブロックの数であり、Ｎは、フレーム内のブロックの総数である。先行フレームおよび現在フレームのルミナンスヒストグラム差分が完全に異なる（または独立である）場合、λ＝２となる。

図５のブロック５６を参照しながら説明されたフレーム差分メトリックＤは、式５０に示されるように、計算することができ、

ここで、Ａは、応用例によって選択される定数であり、

である。

図３２は、ビデオについて取得または決定されたメトリックを使用して、ショット（またはシーン）変化の３つのカテゴリを決定するプロセスＢの一例を示している。図３２は、図３０のブロック３０４４の一態様で発生するいくつかのステップを示している。再び図３２を参照すると、ブロック３２６２において、プロセスＢは最初に、フレームが突然シーン変化を指示する基準を満たすかどうかを決定する。図３４のプロセスＤは、この決定の一例を示している。プロセスＢは次に、ブロック３２６４に進み、フレームが緩慢変化シーンの部分であるかどうかを決定する。図３５のプロセスＣは、緩慢変化シーンを決定する一例を示している。最後にブロック３３６６において、プロセスＢは、フレームがカメラフラッシュを含むかどうか、言い換えると、先行フレームと異なる大きなルミナンス値を含むかどうかを決定する。図３６のプロセスＦは、カメラフラッシュを含むフレームを決定する一例を示している。これらのプロセスの説明的な例が以下で説明される。

突然シーン変化
図３４は、突然シーン変化を決定するプロセスを示す流れ図である。図３４はさらに、図３２のブロック３２６２のいくつかの態様で発生し得るいくつかのステップを詳述している。ブロック３４８２において、フレーム差分メトリックＤが式５１に示される基準を満たすかどうかをチェックし、

ここで、Ａは応用例によって選択される定数であり、Ｔ１はしきい値である。基準が満たされる場合、ブロック３４８４において、プロセスＤは、フレームを突然シーン変化として指示し、この例では、さらなるショット分類は必要とされない。

一例では、シミュレーションは、Ａ＝１、Ｔ１＝５という設定が、良好な検出性能を達成することを示している。現在フレームが突然シーン変化フレームである場合、γＣは大きく、γＰは小さくあるべきである。コンテキストの活動レベルに対してメトリックが正規化されるように、γＣ単独ではなく、比

が使用できる。

上記の基準は、非線形の方法でルミナンスヒストグラム差分ラムダ（λ）を使用することに留意されたい。図３９は、λ×（２λ＋１）が凸関数であることを示している。λが小さい（例えば、ゼロに近い）場合、それはほとんどプリエンファシス（preemphasis）ではない。λが大きくなるほど、より大きなエンファシスが関数によって行われる。しきい値Ｔ１が５に設定された場合、このプリエンファシスを用いて、１．４より大きい任意のλについて、突然シーン変化が検出される。

クロスフェードおよび緩慢シーン変化
図３５はさらに、図３２のブロック３２６４で発生し得るいくつかの態様のさらなる詳細を示している。図３５を参照すると、ブロック３５９２において、プロセスＥは、フレームが緩慢シーン変化を表す一連のフレームの部分であるかどうかを決定する。プロセスＥは、一定の数の連続フレームについて、式５２に示されるように、フレーム差分メトリックＤが第１のしきい値Ｔ１未満であり、第２のしきい値Ｔ２以上である場合に、現在フレームはクロスフェードまたは他の緩慢シーン変化であると決定し、

ここで、Ｔ１は上で使用されたのと同じしきい値であり、Ｔ２は別のしきい値である。一般に、Ｔ１およびＴ２の正確な値は、可能な実装の相違のため、基準となる実験によって決定される。基準が満たされる場合、ブロック９４において、プロセスＥは、フレームを選択フレームエンドについての緩慢変化シーンショット分類の部分として分類する。

カメラフラッシュライトイベント
図３６に示されたプロセスＦは、現在フレームがカメラフラッシュライトを備えるかどうかを決定できるプロセスの例である。カメラのこの例示的な態様では、現在フレームがカメラフラッシュライトを備えるかどうかを決定するために、ルミナンスヒストグラム統計が使用される。プロセスＦは、ブロック３６０２に示されるように、現在フレームのルミナンスが先行フレームのルミナンスおよび次フレームのルミナンスより大きいかどうかを最初に決定することによって、カメラフラッシュイベントが選択フレーム内に存在することを決定する。大きくない場合、フレームはカメラフラッシュイベントでないが、大きい場合、フレームはカメラフラッシュイベントである可能性がある。ブロック３６０４において、プロセスＦは、逆方向差分メトリックがしきい値Ｔ３よりも大きいかどうか、順方向差分メトリックがしきい値Ｔ４よりも大きいかどうかを決定し、これらの条件が共に満たされる場合、ブロック３６０６において、プロセスＦは、現在フレームをカメラフラッシュライトを有するものとして分類する。一例では、ブロック３６０２において、プロセスＦは、式５３および式５４に示されるように、現在フレームの平均ルミナンスから先行フレームの平均ルミナンスを引いた値がしきい値Ｔ３以上かどうかを決定し、プロセスＦは、平均ルミナンスから次フレームの平均ルミナンスを引いた値がしきい値Ｔ３以上かどうかを決定する。

基準が満たされない場合、現在フレームは、カメラフラッシュライトを備えるものとして分類されず、プロセスＦは復帰する。基準が満たされる場合、プロセスＦは、ブロック３６０４に進み、以下の式５５および式５６に示されるように、後方差分メトリックＳＡＤＰおよび前方差分メトリックＳＡＤＮが、一定のしきい値Ｔ４よりも大きいかどうかを決定し、

ここで、

は、現在フレームの平均ルミナンスであり、

は、先行フレームの平均ルミナンスであり、

は、次フレームの平均ルミナンスであり、ＳＡＤＰおよびＳＡＤＮは、現在フレームに関連する前方および後方差分メトリックである。基準が満たされない場合、プロセスＦは復帰する。

説明されたプロセスの実施は、しきい値を含む動作パラメータの相違をもたらし得るので、Ｔ３の値は一般に、基準となる実験によって決定される。ＳＡＤ値はその決定に含まれるが、それは、カメラフラッシュが一般に１フレームしか要せず、ルミナンス差のため、このフレームは順方向および逆方向両方からの動き補償を使用してうまく予測し得ないからである。

いくつかの態様では、１つまたは複数のしきい値Ｔ１、Ｔ２、Ｔ３、およびＴ４は、事前決定され、そのような値は、符号化デバイス内のショット分類器に組み込まれる。一般に、これらのしきい値は、ショット検出の特定の実施のテストを通して選択される。いくつかの態様では、１つまたは複数のしきい値Ｔ１、Ｔ２、Ｔ３、およびＴ４は、ショット分類器に供給される情報（例えばメタデータ）の使用に基づいて、またはショット分類器自体によって計算される情報に基づいて、処理中に（例えば動的に）設定することができる。

ここで図３３を参照すると、図３３は、選択フレームのショット分類に基づいて、ビデオ用の符号化パラメータを決定するため、またはビデオを符号化するための、プロセスＣを示している。ブロック３３７０において、プロセスＣは、選択フレームが突然シーン変化として分類されるかどうかを決定する。分類される場合、ブロック３３７１において、現在フレームは、突然シーン変化として分類され、フレームはＩフレームとして符号化することができ、ＧＯＰ境界が決定されることができる。分類されない場合、プロセスＣは、ブロック３３７２に進み、現在フレームが緩慢変化シーンの一部として分類される場合、ブロック３３７３において、現在フレームと緩慢変化シーン内の他のフレームとは、予測フレーム（例えば、ＰフレームまたはＢフレーム）として符号化することができる。プロセスＣは次に、ブロック３３７４に進み、現在フレームがカメラフラッシュを備えるフラッシュライトシーンとして分類されるかどうかをチェックする。分類される場合、ブロック３３７５において、例えば、先行フレームの除去、複製、またはフレームの特定の係数の符号化など特別な処理のために、フレームが識別されることができる。分類されない場合、現在フレームの分類は行われず、選択フレームは、他の基準に従って符号化すること、Ｉフレームとして符号化すること、または削除することができる。プロセスＣは、符号器内で実施することができる。

上述の態様では、圧縮されるフレームとそれに隣接する２つのフレームの間の差分量は、フレーム差分メトリックＤによって表される。著しい量の一方向ルミナンス変化が検出された場合、それは、フレーム内のクロスフェード効果を示している。クロスフェードがより顕著であるほど、Ｂフレームを使用することによって、より多くの利得が達成され得る。いくつかの態様では、式５７に示されるように、修正フレーム差分メトリックが使用され、

ここで、ｄＰ＝｜ＹＣ−ＹＰ｜およびｄＮ＝｜ＹＣ−ＹＮ｜はそれぞれ、現在フレームと先行フレームの間のルーマ差および現在フレームと次フレームの間のルーマ差であり、Δは、実施に依存し得るため、基準となる実験において決定され得る定数であり、αは、０と１の間の値を有する重み変数である。

修正フレーム差分メトリックＤ１は、ルーマシフトの一貫した傾向が観察され、シフト強度が十分に大きい場合にのみ、元のフレーム差分メトリックＤとは異なる。Ｄ１は、Ｄ以下である。ルーマ変化が一定（ｄＰ＝ｄＮ）である場合、修正フレーム差分メトリックＤ１は、元のフレーム差分メトリックＤよりも低く、最低比は（１−α）である。

以下の表１は、突然シーン変化検出を追加したことによる性能改善を示している。シーン無変化（ＮＳＣ）およびシーン変化（ＳＣ）ケースの両方におけるＩフレームの総数は、ほぼ同じである。ＮＳＣケースでは、Ｉフレームは、系列全体の中に均一に分散され、一方、ＳＣケースでは、Ｉフレームは、突然シーン変化フレームにだけ割り当てられる。

一般に、ＰＳＮＲに関して、０．２〜０．３ｄＢの改善が達成され得ることが理解できる。シミュレーション結果は、上述のショットイベントを決定する上でショット検出器が非常に正確であることを示している。通常のクロスフェード効果を有する５クリップのシミュレーションは、Δ＝５．５およびα＝０．４において、同じビットレートで、０．２２６０３１ｄＢのＰＳＮＲ利得が達成されることを示している。

適応ＧＯＰ構造
適応ＧＯＰ構造操作の説明的な一例が、以下で説明される。そのような操作は、図４１２のＧＯＰパーティショナ４１２に含まれることができる。旧式のビデオ圧縮規格であるＭＰＥＧ２は、ＧＯＰが規則的な構造を有することを必要としないが、規則的な構造を課すこともできる。ＭＰＥＧ２系列は常に、Ｉフレーム、すなわち、先行画像への参照を用いずに符号化されるフレームで開始する。ＭＰＥＧ２のＧＯＰフォーマットは通常、Ｉフレームに続くＰまたは予測画像のＧＯＰ内における間隔を固定することによって、符号器において事前構成される。Ｐフレームは、先行するＩまたはＰ画像から部分的に予測される画像である。開始Ｉフレームと後続Ｐフレームの間のフレームは、Ｂフレームとして符号化される。「Ｂ」フレーム（Ｂは双方向を表す）は、先行するＩまたはＰ画像および次のＩまたはＰ画像を、参照として独立にまたは同時に使用することができる。Ｉフレームを符号化するために使用されるビットの数は、平均で、Ｐフレームを符号化するために使用されるビットの数を超え、同様に、Ｐフレームを符号化するために使用されるビットの数は、平均で、Ｂフレームのビットの数を超える。スキップフレームは、使用される場合、その表現のためのビットを使用しないことも可能である。

ＰフレームおよびＢフレームを使用すること、また最近の圧縮アルゴリズムにおいてフレームのスキップを使用することの１つの利点は、ビデオ伝送サイズを削減することが可能なことである。先に復号されたＩまたはＰ画像は、他のＰまたはＢ画像を復号するための参照として後で使用されるので、時間冗長性が高い場合、例えば、画像と画像の間に僅かな変化しか存在しない場合、Ｐ、Ｂ、またはスキップ画像の使用は、ビデオストリーミングを効率的に表現する。

グループオブピクチャパーティショナは、時間冗長性を最小化するように、フレームを適応的に符号化する。フレーム間の差分は定量化され、画像をＩ、Ｐ、Ｂ、またはスキップフレームのどれによって表現するかの決定は、適切なテストが定量化された差分に対して実行された後、自動的に行われる。ＧＯＰパーティショナにおける処理は、雑音除去用のフィルタリングを提供するプリプロセッサ２０２の他の動作によって支援される。

適応符号化プロセスは、「固定」符号化プロセスでは利用可能でない利点を有する。固定プロセスは、コンテンツ内で変化が僅かしか起こっていない可能性を無視するが、適応手順は、各ＩおよびＰフレームまたは２つのＰフレームの間に、はるかに多くのＢフレームが挿入されることを可能にし、それによって、フレームの系列を十分に表現するために使用されるビットの数を削減する。反対に、例えば、固定符号化プロセスでは、ビデオコンテンツ内での変化が著しい場合、予測フレームと参照フレームの間の相違があまりにも大きいため、Ｐフレームの効率は大きく低下する。これらの状況下では、一致する物体は、動き探索領域から脱落することがあり、または一致する物体の類似性は、カメラアングルの変化によって引き起こされるひずみのために低下する。適応符号化プロセスは、Ｐフレームが符号化されるべき場合を任意選択的に決定するために便利に使用することができる。

本明細書で開示されたシステムでは、上で説明された状況のタイプが、自動的に感知される。本明細書で説明される適応符号化プロセスは、柔軟性があり、コンテンツ内のこれらの変化に適応するように作成される。適応符号化プロセスは、フレーム間の距離の尺度と考えられ得るフレーム差分メトリックを、同じ距離の加法的特性を用いて評価する。概念的には、フレーム間距離ｄ１２およびｄ２３を有するフレームＦ１、Ｆ２、およびＦ３が与えられた場合、Ｆ１とＦ３の間の距離は、少なくともｄ１２＋ｄ２３であると見なされる。フレーム割り当ては、この距離的なメトリックおよび他のメトリックに基づいて行われる。

ＧＯＰパーティショナ４１２は、フレームを受け取ったときに、フレームに画像タイプを割り当てことによって動作する。画像タイプは、各ブロックを符号化するために使用できる予測方法を示す。

Ｉ画像は、他の画像への参照を用いずに符号化される。Ｉ画像は、単独で存在し得るので、復号を開始できるデータストリーム内のアクセスポイントを提供する。Ｉ符号化タイプは、先行フレームへの「距離」がシーン変化しきい値を超える場合に、フレームに割り当てられる。

Ｐ画像は、動き補償された予測のために、先行ＩまたはＰ画像を使用することができる。Ｐ画像は、予測されるブロックから移され得る先行フィールドまたはフレーム内のブロックを、符号化のための基礎として使用する。参照ブロックが、考察されるブロックから減算された後、残余ブロックが、空間冗長性の排除のために一般に離散コサイン変換を使用して符号化される。Ｐ符号化タイプは、あるフレームとＰフレームとして割り当てられた最後のフレームの間の「距離」が、一般に第１のしきい値より小さい第２のしきい値を超えた場合に、そのフレームに割り当てられる。

Ｂフレーム画像は、上で説明されたような動き補償のために、先行するＰまたはＩ画像および次のＰまたはＩ画像を使用することができる。Ｂ画像内のブロックは、前方、後方、および双方向予測することができ、または他のフレームへの参照なしにイントラ符号化することができる。Ｈ．２６４では、参照ブロックは、３２個ものフレームからの３２個ものブロックの線形結合とすることができる。フレームは、ＩまたはＰタイプに割り当てられない場合、そのフレームから直前フレームまでの「距離」が、一般に第２のしきい値より小さい第３のしきい値よりも大きいならば、Ｂタイプに割り当てられる。フレームは、符号化Ｂフレームになるように割り当てることができない場合、「スキップフレーム」ステータスに割り当てられる。このフレームは、実質的に先行フレームのコピーであるので、スキップすることができる。

表示順に隣接フレーム間の差分を定量化するメトリックの評価は、ＧＯＰパーティショナ４１２において行われるこの処理の第１の部分である。このメトリックは、上で言及された距離であり、それを用いて、すべてのフレームは、適切なタイプに評価される。したがって、Ｉおよび隣接Ｐフレームの間または２つの連続するＰフレームの間の間隔は、可変とすることができる。メトリックの計算は、ブロックベースの動き補償器を用いてビデオフレームを処理することによって開始し、ブロックはビデオ圧縮の基本単位であり、通常は１６×１６のピクセルから成るが、８×８、４×４、および８×１６などの他のブロックサイズも可能である。出力において存在する２つのデインタレースフィールドから成るフレームの場合、動き補償は、フィールドに基づいて行われ、参照ブロックの探索は、フレームではなくフィールド内で行われる。現在フレームの第１フィールド内のブロックの場合、順方向参照ブロックは、あとに続くフレームのフィールド内で見出され、同様に、逆方向参照ブロックは、現在フィールドのすぐ前にあるフレームのフィールド内で見出される。現在ブロックは、補償フィールド内にまとめられる。プロセスは、フレームの第２フィールドについて続けられる。２つの補償フィールドは、順方向および逆方向補償フレームを形成するために組み合わされる。

逆テレシネ４０６において生成されたフレームの場合、再構成フィルムフレームだけが生成されるので、参照ブロックの探索は、フレームだけに基づいたものとすることができる。２つの参照ブロックと、順方向および逆方向の２つの差分が見出され、順方向および逆方向補償フレームももたらす。要約すると、動き補償器は、すべてのブロックについて、動きベクトルおよび差分メトリックを生成する。メトリックの差分は、考察されるフィールドまたはフレーム内のブロックと、順方向差分が評価されるか、それとも逆方向差分が評価されるかに応じて、先行するフィールドもしくはフレーム内または直後のフィールドもしくはフレーム内の最も良く一致するブロックとの間で評価されることに留意されたい。この計算には、ルミナンス値だけが入力される。

したがって、動き補償ステップは、差分の２つの組を生成する。これらは、ルミナンスの現在値のブロックと、時間的に現在フレームの直前および直後のフレームから取られた参照ブロック内のルミナンス値との間のものである。各順方向差分および各逆方向差分の絶対値は、ブロック内の各ピクセルについて決定され、各々は別々に、フレーム全体にわたって合計される。フレームを構成するデインタレースＮＴＳＣフィールドが処理される場合、２つの合計には、両方のフィールドが含まれる。このようにして、順方向および逆方向差分の絶対値の和である、ＳＡＤＰおよびＳＡＤＮが見出される。

すべてのフレームについて、ＳＡＤ比は、関係

を使用して計算され、ここで、ＳＡＤＰおよびＳＡＤＮはそれぞれ、順方向および逆方向差分の絶対値の和である。小さな正の数が、「ゼロによる除算」エラーを防止するために分子に追加される。同様のε項が、分母に追加され、ＳＡＤＰまたはＳＡＤＮがゼロに近い場合に、γの感度をさらに低下させる。

一代替態様では、差分は、２乗残差の和であるＳＳＤおよび絶対差の和であるＳＡＤ、またはＳＡＴＤとすることができ、ＳＡＴＤでは、ブロックエレメントの差分が取られる前に、ピクセル値のブロックが、それらに２次元離散コサイン変換を適用することによって変換される。アクティブビデオの領域にわたって、和が評価されるが、他の態様では、より小さな領域が使用されてよい。

受け取ったまま（動き補償なし）のすべてのフレームのルミナンスヒストグラムも計算される。ヒストグラムは、利用可能であるならば、ＤＣ係数上で、すなわち、ルミナンス値のブロックに２次元離散コサイン変換を適用した結果である１６×１６の係数配列内の（０，０）係数上で動作する。等価的に、１６×１６ブロック内の２５６のルミナンス値の平均値が、ヒストグラムにおいて使用されてよい。ルミナンス深さが８ビットである画像の場合、ビンの数は１６に設定される。次のメトリックは、ヒストグラム差分を評価する。

上記の式において、ＮＰｉは、第ｉのビン内の先行フレームからのブロックの数であり、ＮＣｉは、第ｉのビンに属する現在フレームからのブロックの数であり、Ｎは、フレーム内のブロックの総数である。

これらの中間結果は、現在フレームの差分メトリックを形成するために、

のようにまとめられ、ここで、γＣは、現在フレームに基づいたＳＡＤ比であり、γＰは、先行フレームに基づいたＳＡＤ比である。シーンが平滑な動きを有し、そのルーマヒストグラムがほとんど変化しない場合、Ｍ≒１である。現在フレームが突然シーン変化を表示する場合、γＣは大きくなり、γＰは小さくなるべきである。コンテキストの活動レベルに対してメトリックが正規化されるように、γＣ単独ではなく、比

が使用される。

図４０のデータフロー４１００は、フレーム差分メトリックを計算するために使用できるいくつかのコンポーネントを示している。プリプロセッサ４１２５は、ＮＴＳＣ源を有するビデオの場合はインタレースフィールドを、ビデオ源が逆テレシネの結果である場合はフィルム画像のフレームを、双方向動き補償器４１３３に送り届ける。双方向動き補償器４１３３は、フィールド（またはビデオ源が映画の場合はフレーム）を１６×１６ピクセルのブロックに分割し、各ブロックを先行フレームのフィールドの定められた領域内のすべての１６×１６ブロックと比較することによって、フィールド上で動作する。最も良い一致を提供するブロックが選択され、現在ブロックから減算される。差分の絶対値が取られ、その結果が、現在ブロックを構成する２５６のピクセルにわたって合計される。これがフィールドのすべての現在ブロックについて、さらに両方のフィールドについて行われると、後方差分メトリックである量ＳＡＤＮが、逆方向差分モジュール４１３７によって計算される。同様の手順が、前方差分モジュール４１３６によっても実行されることができる。前方差分モジュール４１３６は、前方差分メトリックであるＳＡＤＰを生成するために、時間的に現在フレームの直前のフレームを参照ブロックの源として使用する。回復されたフィルムフレームを使用して行われるものの、同じ推定プロセスが、逆テレシネにおいて入力フレームが形成された場合にも行われる。フレーム差分メトリックの計算を完了するために使用できるヒストグラムは、ヒストグラム差分モジュール４１４１において形成することができる。各１６×１６ブロックは、そのルミナンスの平均値に基づいて、ビンに割り当てられる。この情報は、ブロック内の２５６すべてのピクセルルミナンス値を合計し、それを必要に応じて２５６によって正規化し、平均値が入れられるビンのカウントをインクリメントすることによって形成される。計算は、各動き補償前フレームに対して１度行われ、現在フレームのヒストグラムは、新しい現在フレームが到来した場合に、先行フレームのヒストグラムになる。式５９によって定義されたλを形成するために、２つのヒストグラムは、ヒストグラム差分モジュール４１４１において、差分が取られ、ブロック数によって正規化される。これらの結果は、フレーム差分結合器４１４３において組み合わされ、フレーム差分結合器４１４３は、式６０において定義された現在フレーム差分を評価するために、ヒストグラム差分モジュール４１３９、前方および後方差分モジュール４１３６、４１３６において見出された中間結果を使用する。

流れ図４１００のシステムおよびそのコンポーネントまたはステップは、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの任意の組み合わせによって実施することができる。プリプロセッサ４１３５、双方向動き補償器４１３３、前方および後方差分メトリックモジュール４１３６、４１３７、ヒストグラム差分モジュール４１４１、ならびにフレーム差分メトリック結合器４１４３を含む、流れ図４１００の各機能コンポーネントは、スタンドアロンコンポーネントとして実現することができ、ハードウェア、ファームウェア、ミドルウェアとして別のデバイスのコンポーネントに組み込まれることができ、またはプロセッサ上で実行されるマイクロコードもしくはソフトウェアで実施することができ、あるいはそれらの組み合わせとすることができる。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実施される場合、所望のタスクを実行するプログラムコードまたはコードセグメントは、記憶媒体などの機械可読媒体に保存することができる。コードセグメントは、プロシージャ、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令、データ構造、もしくはプログラムステートメントの任意の組み合わせに相当することができる。コードセグメントは、情報、データ、引数、パラメータ、またはメモリ内容を受け渡し、および／または受け取ることによって、別のコードセグメントまたはハードウェア回路に結合されることができる。

受け取られ処理されたデータは、例えば、プロセッサに接続されるチップ構成記憶媒体（例えば、ＲＯＭ、ＲＡＭ）またはディスクタイプ記憶媒体（例えば、磁気的もしくは光学的）を含み得る、記憶媒体に保存することができ、いくつかの態様では、結合器４１４３は、記憶媒体の一部または全部を含むことができる。図４１の流れ図４２００は、圧縮タイプをフレームに割り当てるプロセスを示している。一態様Ｍでは、式３で定義された現在フレーム差分は、フレーム割り当てに関して行われるすべての決定の基礎である。判定ブロック４２５３が示すように、考察対象のフレームが系列の最初である場合、ＹＥＳと記された判定経路がブロック４２５５まで辿られ、それによって、フレームがＩフレームであると宣言する。累積フレーム差分が、ブロック４２５７において、ゼロに設定され、プロセスは、（ブロック４２５８において）開始ブロック４２５３に復帰する。考察対象のフレームが系列の最初のフレームでない場合、判断が行われたブロック４２５３からＮＯと記された経路が辿られ、テストブロック４２５９において、現在フレーム差分が、シーン変化しきい値に対してテストされる。現在フレーム差分がシーン変化しきい値よりも大きい場合、ＹＥＳと記された判定経路がブロック４２５５まで辿られ、やはりＩフレームの割り当てをもたらす。現在フレーム差分がシーン変化しきい値よりも小さい場合、ＮＯ経路がブロック４２６１まで辿られ、現在フレーム差分が、累積フレーム差分に加算される。

流れ図を進み、判定ブロック４２６３において、累積フレーム差分が、一般にシーン変化しきい値よりも小さいしきい値ｔと比較される。累積フレーム差分がｔよりも大きい場合、制御はブロック４２６５に移り、フレームは、Ｐフレームになるように割り当てられ、その後、ステップ４２６７において、累積フレーム差分はゼロにリセットされる。累積フレーム差分がｔより小さい場合、制御はブロック４２６３からブロック４２６９に移る。そこで、現在フレーム差分は、ｔよりも小さいτと比較される。現在フレーム差分がτより小さい場合、フレームは、ブロック４２７３において、スキップされるように割り当てられ、現在フレーム差分がτより大きい場合、フレームは、βフレームになるように割り当てられる。

一代替態様では、別のフレーム符号化複雑さ表示Ｍ＊が、

として定義され、ここで、αは、スケーラであり、ＳＡＤＰは、前方動き補償を用いたＳＡＤであり、ＭＶＰは、前方動き補償からの動きベクトルのピクセルで測定した長さの合計であり、ｓおよびｍは、ＳＡＤＰがｓより低くまたはＭＶＰがｍより低い場合に、フレーム符号化複雑さ表示をゼロにする、２つのしきい値数である。Ｍ＊は、図４１の流れ図４２００において、現在フレーム差分の代わりに使用される。理解されるように、Ｍ＊は、前方動き補償が低いレベルの動きを示す場合にのみ、Ｍと異なる。この場合、ＭはＭより小さい。

本明細書で説明されたショット検出および符号化態様は、フローチャート、フロー図、構造図、またはブロック図として表されるプロセスとして説明され得ることに留意されたい。図に示された流れ図は順次プロセスとして動作を説明し得るが、多くの動作は、並列または同時に実行することもできる。加えて、動作の順序は、再構成されることもできる。プロセスは一般に、その動作が完了した時に終了する。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応することができる。プロセスが関数に対応する場合、その終了は、呼出元関数またはメイン関数への関数の復帰に対応する。

本明細書で開示されたデバイスの１つまたは複数のエレメントは、デバイスの動作に影響することなく再構成され得ることも、当業者には明らかであろう。同様に、本明細書で開示されたデバイスの１つまたは複数のエレメントは、デバイスの動作に影響することなく組み合わせることができる。情報およびマルチメディアデータが様々な異なる技術および技法のいずれかを使用して表現できることは、当業者であれば理解されよう。さらに、本明細書で開示された例に関連して説明された様々な例示的な論理ブロック、モジュール、およびアルゴリズムステップが、電子的ハードウェア、ファームウェア、コンピュータソフトウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせとして実施され得ることも、当業者であれば理解されよう。ハードウェアおよびソフトウェアのこの交換可能性を明瞭に示すため、様々な例示的なコンポーネント、ブロック、モジュール、回路、およびステップは、広くそれらの機能性に関して上では説明された。そのような機能性がハードウェアとして実施されるか、それともソフトウェアとして実施されるかは、具体的なアプリケーションおよびシステム全体に課される設計制約に依存する。当業者は、各具体的なアプリケーションのために様々な方法で説明された機能性を実施することができるが、そのような実施決定は、開示された方法の範囲からの逸脱を引き起こすと解釈されるべきではない。

例えば、本明細書で開示されたショット検出および符号化の例および図に関連して説明された方法またはアルゴリズムのステップは、直接ハードウェアで、プロセッサによって実行されるソフトウェアモジュールで、または２つの組み合わせで実施することができる。特に、方法およびアルゴリズムは、セル電話、コンピュータ、ラップトップコンピュータ、ＰＤＡ、すべてのタイプの個人用および商用通信デバイスへのビデオの無線伝送を含む通信技術に適用可能である。ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、着脱可能ディスク、ＣＤ−ＲＯＭ、または当技術分野で知られた他の形態の記憶媒体に存在することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み、記憶媒体に情報を書くことができるように、プロセッサに結合される。代替として、記憶媒体は、プロセッサに組み込まれてもよい。プロセッサおよび記憶媒体は、特定用途向け集積回路（ＡＳＩＣ）に存在することができる。ＡＳＩＣは、無線モデムに存在することができる。代替として、プロセッサおよび記憶媒体は、無線モデム内の別個のコンポーネントとして存在することができる。

加えて、本明細書で開示された例に関連して説明された様々な例示的な論理ブロック、コンポーネント、モジュール、および回路は、本明細書で説明される機能を実行するために設計された、汎用プロセッサ、ディジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）もしくは他のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理、ディスクリートハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて実施または実行することができる。汎用プロセッサは、マイクロプロセッサでよいが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械でもよい。プロセッサは、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサの組み合わせ、またはそのような他の任意の構成など、コンピューティングデバイスの組み合わせとして実施されてもよい。

開示された例についての先の説明は、当業者が開示された方法および装置を作成または使用することを可能とするために提供された。これらの例に対する様々な修正が、当業者には容易に明らかであり、本明細書で定められた原理は、他の例に適用することができ、開示された方法および装置の主旨または範囲から逸脱することなく、付加的なエレメントが追加されることができる。態様についての説明は、例示的であることを意図しており、特許請求の範囲を限定することは意図していない。

Claims

マルチメディアデータを処理するための方法において、
デジタルインタレースビデオフレームを受信することと、
前記デジタルインタレースビデオフレームをデインタレースすることにより、前記デジタルインタレースビデオフレームをデジタルプログレッシブビデオフレームに変換することとを含み、
前記デインタレースすることは、
前記デジタルインタレースビデオフレームに対する時空間情報と前記デジタルインタレースビデオフレームのうちの少なくとも１つに対する動き情報とを発生させることと、
前記時空間情報と前記動き情報とを使用して、前記デジタルプログレッシブビデオフレームを発生させることとを含み、
前記時空間情報は、前記デジタルインタレースビデオフレームの少なくとも一部を空間的および時間的にフィルタリングすることにより発生され、
前記時空間情報と前記動き情報の両方を使用して発生させた第１のフレームに対応するピクセル情報は、前記時空間情報を使用し、前記動き情報を使用することなく発生させた第２のフレームに対応するピクセル情報よりも加重されて、前記第１のフレームと前記第２のフレームとに基づいて、前記デジタルインタレースビデオフレームの１つに対する動き情報を発生させ、
前記第１のフレームは、前記デジタルプログレッシブビデオフレームである方法。
前記デインタレースすることは、
前記デジタルインタレースビデオフレームに対する双方向動き情報を発生させることと、
前記双方向動き情報を使用し、前記デジタルインタレースビデオフレームに基づいて、前記デジタルプログレッシブビデオフレームを発生させることとをさらに含む請求項１記載の方法。
前記デジタルインタレースビデオフレームを変換することは、３／２プルダウンビデオフレームを逆テレシネすることを含む請求項１記載の方法。
前記デジタルプログレッシブビデオフレームをリサイズすることをさらに含む請求項１記載の方法。
雑音低減フィルタにより、前記デジタルプログレッシブビデオフレームをフィルタリングすることをさらに含む請求項１記載の方法。
前記変換されたデジタルプログレッシブビデオフレームに基づいて、メタデータを発生させることと、
前記メタデータに基づいて、符号化パラメータを決定することと、
前記符号化パラメータにしたがって、前記デジタルプログレッシブビデオフレームを符号化することとを含む請求項１記載の方法。
マルチメディアデータを処理する装置において、
デジタルインタレースビデオフレームを受信するように構成されている受信機と、
前記デジタルインタレースビデオフレームをデインタレースすることにより、前記デジタルインタレースビデオフレームをデジタルプログレッシブビデオフレームに変換するように構成されているデインタレーサとを具備し、
前記デインタレースすることは、
前記デジタルインタレースビデオフレームに対する時空間情報と前記デジタルインタレースビデオフレームのうちの少なくとも１つに対する動き情報とを発生させることと、
前記時空間情報と前記動き情報とを使用して、前記デジタルプログレッシブビデオフレームを発生させることとを含み、
前記時空間情報は、前記デジタルインタレースビデオフレームの少なくとも一部を空間的および時間的にフィルタリングすることにより発生され、
前記時空間情報と前記動き情報の両方を使用して発生させた第１のフレームに対応するピクセル情報は、前記時空間情報を使用し、前記動き情報を使用することなく発生させた第２のフレームに対応するピクセル情報よりも加重されて、前記第１のフレームと前記第２のフレームとに基づいて、前記デジタルインタレースビデオフレームの１つに対する動き情報を発生させ、
前記第１のフレームは、前記デジタルプログレッシブビデオフレームである装置。
前記デジタルプログレッシブビデオフレームを受信して、前記デジタルプログレッシブビデオフレームに関係付けられているメタデータを発生させるように構成されているパーティショナにより発生させた圧縮情報にしたがって、前記デジタルプログレッシブビデオフレームを符号化するように構成されている符号器をさらに具備する請求項７記載の装置。
前記デジタルプログレッシブビデオフレームを雑音低減するための雑音低減フィルタをさらに具備する請求項７記載の装置。
前記デインタレーサは、逆テレシネ器を備える請求項７記載の装置。
前記デジタルプログレッシブビデオフレームのうちのプログレッシブフレームをリサイズするように構成されているリサンプラをさらに具備する請求項７記載の装置。
前記デインタレーサは、
前記デジタルインタレースビデオフレームに対する双方向動き情報を発生させるようにと、
前記双方向動き情報を使用し、前記デジタルインタレースビデオフレームに基づいて、前記デジタルプログレッシブビデオフレームを発生させるようにさらに構成されている請求項７記載の装置。
前記デジタルプログレッシブビデオフレームに関係付けられているメタデータを発生させて、前記デジタルプログレッシブビデオフレームを符号化する際に使用するために、前記デジタルプログレッシブビデオフレームと前記メタデータとを符号器に提供するように構成されているパーティショナをさらに具備し、前記メタデータは圧縮情報を含む請求項７記載の装置。
マルチメディアデータを処理する装置において、
デジタルインタレースビデオフレームを受信する手段と、
前記デジタルインタレースビデオフレームをデインタレースすることにより、前記デジタルインタレースビデオフレームをデジタルプログレッシブビデオフレームに変換する手段とを具備し、
前記デインタレースすることは、
前記デジタルインタレースビデオフレームに対する時空間情報と前記デジタルインタレースビデオフレームのうちの少なくとも１つに対する動き情報とを発生させることと、
前記時空間情報と前記動き情報とを使用して、前記デジタルプログレッシブビデオフレームを発生させることとを含み、
前記時空間情報は、前記デジタルインタレースビデオフレームの少なくとも一部を空間的および時間的にフィルタリングすることにより発生され、
前記時空間情報と前記動き情報の両方を使用して発生させた第１のフレームに対応するピクセル情報は、前記時空間情報を使用し、前記動き情報を使用することなく発生させた第２のフレームに対応するピクセル情報よりも加重されて、前記第１のフレームと前記第２のフレームとに基づいて、前記デジタルインタレースビデオフレームの１つに対する動き情報を発生させ、
前記第１のフレームは、前記デジタルプログレッシブビデオフレームである装置。
前記変換する手段は、逆テレシネ器を備える請求項１４記載の装置。
プログレッシブフレームをリサイズするためにリサンプリングする手段をさらに具備する請求項１４記載の装置。
前記デジタルプログレッシブビデオフレームに関係付けられている提供されたメタデータを使用して、前記デジタルプログレッシブビデオフレームを符号化する手段をさらに具備する請求項１４記載の装置。
前記デジタルプログレッシブビデオフレームを雑音低減する手段をさらに具備する請求項１４記載の装置。
前記変換する手段は、
前記デジタルインタレースビデオフレームに対する双方向動き情報を発生させるようにと、
前記双方向動き情報を使用し、前記デジタルインタレースビデオフレームに基づいて、前記デジタルプログレッシブビデオフレームを発生させるように構成されている請求項１４記載の装置。
前記デジタルプログレッシブビデオフレームに関係付けられているメタデータを発生させる手段と、
前記デジタルプログレッシブビデオフレームを符号化する際に使用するために、前記デジタルプログレッシブビデオフレームと前記メタデータの少なくとも一部分とを符号器に提供する手段とをさらに具備し、
符号化パラメータが、前記メタデータの少なくとも一部分に基づいて決定される請求項１４記載の装置。
コンピュータ実行可能なコードを記憶しているコンピュータ読取可能記憶媒体において、
デジタルインタレースビデオフレームを受信させるためのコードと、
前記デジタルインタレースビデオフレームをデインタレースさせることにより、前記デジタルインタレースビデオフレームをデジタルプログレッシブビデオフレームに変換させるためのコードとを含み、
前記デインタレースさせることは、
前記デジタルインタレースビデオフレームに対する時空間情報と前記デジタルインタレースビデオフレームのうちの少なくとも１つに対する動き情報とを発生させることと、
前記時空間情報と前記動き情報とを使用させて、前記デジタルプログレッシブビデオフレームを発生させることとを含み、
前記時空間情報は、前記デジタルインタレースビデオフレームの少なくとも一部を空間的および時間的にフィルタリングすることにより発生され、
前記時空間情報と前記動き情報の両方を使用させて発生させた第１のフレームに対応するピクセル情報は、前記時空間情報を使用し、前記動き情報を使用することなく発生させた第２のフレームに対応するピクセル情報よりも加重されて、前記第１のフレームと前記第２のフレームとに基づいて、前記デジタルインタレースビデオフレームの１つに対する動き情報を発生させ、
前記第１のフレームは、前記デジタルプログレッシブビデオフレームであるコンピュータ読取可能記憶媒体。
前記デジタルプログレッシブビデオフレームに関係付けられているメタデータを発生させるためのコードと、
前記デジタルプログレッシブビデオフレームを符号化させる際に使用させるために、前記デジタルプログレッシブビデオフレームと前記メタデータのうちの少なくとも一部分とを符号器に提供させるためのコードと、
前記メタデータに基づいて、符号化パラメータを決定させるためのコードと、
前記符号化パラメータにしたがって、前記デジタルプログレッシブビデオフレームを符号化させるためのコードとをさらに含む請求項２１記載のコンピュータ読取可能記憶媒体。
装置において、
メモリと、
前記メモリに結合されている少なくとも１つのプロセッサとを具備し、
前記少なくとも１つのプロセッサは、
デジタルインタレースビデオフレームを受信するようにと、
前記デジタルインタレースビデオフレームをデインタレースすることにより、前記デジタルインタレースビデオフレームをデジタルプログレッシブビデオフレームに変換するように構成され、
前記デインタレースすることは、
前記デジタルインタレースビデオフレームに対する時空間情報と前記デジタルインタレースビデオフレームのうちの少なくとも１つに対する動き情報とを発生させることと、
前記時空間情報と前記動き情報とを使用して、前記デジタルプログレッシブビデオフレームを発生させることとを含み、
前記時空間情報は、前記デジタルインタレースビデオフレームの少なくとも一部を空間的および時間的にフィルタリングすることにより発生され、
前記時空間情報と前記動き情報の両方を使用して発生させた第１のフレームに対応するピクセル情報は、前記時空間情報を使用し、前記動き情報を使用することなく発生させた第２のフレームに対応するピクセル情報よりも加重されて、前記第１のフレームと前記第２のフレームとに基づいて、前記デジタルインタレースビデオフレームの１つに対する動き情報を発生させ、
前記第１のフレームは、前記デジタルプログレッシブビデオフレームである装置。
前記少なくとも１つのプロセッサは、
前記デジタルプログレッシブビデオフレームに関係付けられているメタデータを発生させるようにと、
前記デジタルプログレッシブビデオフレームを符号化する際に使用するために、前記デジタルプログレッシブビデオフレームと前記メタデータのうちの少なくとも一部分とを符号器に提供するようにさらに構成され、前記デジタルプログレッシブビデオフレームは、前記メタデータに少なくとも部分的に基づいて符号化される請求項２３記載の装置。