JP2009508452A

JP2009508452A - 任意分解能変更サイズ縮小デコーダ

Info

Publication number: JP2009508452A
Application number: JP2008531339A
Authority: JP
Inventors: シェングオビン; リーシーペン; ツァオワンヨン; ホーユーウェン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2005-09-14
Filing date: 2006-09-13
Publication date: 2009-02-26
Also published as: WO2007033346A1; KR20080055826A; EP1915869A1; CN101263717A; BRPI0616034A2; US20070058713A1; CA2621428A1

Abstract

任意分解能変更サイズ縮小復号化について説明されている。一態様では、符号化ビットストリームが受信される。符号化ビットストリームは、ＤＣＴ領域復号化ループで縮小され、縮小データを生成する。

Description

本発明は、任意分解能変更サイズ縮小デコーダに関するものである。

デジタルビデオコンテンツは、典型的には、特定のデータ形式を対象として生成される。ビデオデータ形式は、一般に、特定のビットレート、空間分解能、フレームレートなどを有する、特定のビデオ符号化標準または専用符号化アルゴリズムに準拠する。このような符号化標準としては、ＭＰＥＧ−２およびＷＩＮＤＯＷＳ（登録商標）ＭｅｄｉａＶｉｄｅｏ（ＷＭＶ）がある。ほとんどの既存のデジタルビデオコンテンツは、ＭＰＥＧ−２データ形式に従って符号化されている。ＷＭＶは、ストリーミング技術分野における公認コーデックとして広く受け入れられ、インターネット上に広く展開され、ＨＤ−ＤＶＤコンソーシアムにより採用され、現在は、ＳＭＰＴＥ標準とみなされている。ビデオ符号化標準が異なれば、圧縮能力および画質も変わる。

トランスコーディングとは、ある圧縮ビットストリームを他の圧縮ビットストリームに変換する一般的プロセスのことである。多くの場合、デバイスの能力と配布ネットワークとを一致させるために、ＭＰＥＧ−２からＷＭＶ、Ｈ．２６４、さらにはスケーラブル形式への変換など、ある符号化形式から他の符号化形式への変換をビットストリームに対し実行することが望ましい。トランスコーティングは、無線チャネル上での伝送用のビットストリームのＶＣＲ類似機能、ロゴ挿入、または拡張誤り耐性能力などの何らかの特定の機能を実現するためにも使用できる。

図１は、従来のＣａｓｃａｄｅｄＰｉｘｅｌ−ＤｏｍａｉｎＴｒａｎｓｃｏｄｅｒ（ＣＰＤＴ）システムを示しており、このシステムは、入力ビットストリームを復号化するフロントエンドデコーダと、異なる符号化パラメータセットまたは新しい形式の新しいビットストリームを生成するエンコーダとをカスケード接続したものである。この従来のトランスコーディングアーキテクチャの欠点の１つは、実用的展開に関して、典型的にはその複雑さが障害となっている点である。その結果、図１のＣＰＤＴトランスコーディングアーキテクチャは、典型的には、改善されたスキームの性能ベンチマークとして使用される。

図２は、従来のカスケードＤＣＴ領域トランスコーダ（ＣＤＤＴ）アーキテクチャを示しており、これは、図１のＣＰＤＴアーキテクチャを簡素化したものである。図２のシステムは、機能を空間的／時間的分解能のダウンスケーリングおよび符号化パラメータ変更に制限する。ＣＤＤＴを使用すると、図１のＣＰＤＴトランスコーダにより実装されるＤＣＴ／ＩＤＣＴプロセスが不要になる。それでも、ＣＤＤＴは、ＤＣＴ領域内でＭＣを実行するが、これは、典型的には、多大な時間を必要とし、また大量の計算を必要とするオペレーションである。これは、ＤＣＴブロックがＭＣブロックと重なり合うことが多いためである。その結果、ＣＤＤＴアーキテクチャは、典型的には、ＤＣＴ領域内でＭＣを実行するために複雑な、大量の計算を必要とする浮動小数点行列オペレーションを適用する必要がある。さらに、動きベクトル（ＭＶ）の微調整は、典型的には、ＣＤＤＴアーキテクチャを使用したのでは実行不可能である。

ここでは、後でさらに説明される概念の抜粋を簡素化された形式で紹介する。ここでは、特許請求された主題の重要な特徴または本質的な特徴を識別することを意図されていないし、また特許請求された主題の範囲を決定する補助手段として使用されることも意図されていない。

上記を考慮し、任意の分解能変更サイズ縮小復号化について説明する。一態様では、符号化ビットストリームが、受信される。符号化ビットストリームは、ＤＣＴ領域復号化ループで縮小され、縮小データを生成する。

図中、コンポーネントの参照番号の一番左の数字は、そのコンポーネントが最初に出現する特定の図面であることを示す。

説明および例示のために、図の中で色を使用して、以下の規約を示す。青色の実線矢印は、実際の、または残りの画像データに関するピクセル領域信号を表す。赤色の実線の矢印は、ＤＣＴ領域内の信号を表す。オレンジ色の破線の矢印は、動き情報を表す。

［概要］
効率的なデジタルビデオトランスコーディングのシステムおよび方法を図４から１４を参照して以下に説明する。これらのシステムおよび方法では、入力ビットストリーム内の情報を使用することで、アプリケーションは、誤差伝搬の動的な制御、およびそれによる、ビデオビットストリームトランスコーディングの速度と品質の選択的な制御をすることができる。この選択的制御により、アプリケーションは、閉ループトランスコーディング（高速トランスコーディングプロファイル）から開ループ（高品質トランスコーディングプロファイル）へのトランスコーディング方式の継ぎ目のないスケーリングが可能になる。従来のトランスコーディングアーキテクチャ（例えば、図１のＣＰＤＴおよび図２のＣＤＤＴ）とは対照的に、効率的なデジタルビデオトランスコーディングのアーキテクチャは、統合され、これにより異なる種類の離散コサイン変換（ＤＣＴ）またはＤＣＴ類似変換を組み合わせて１つのトランスコーディングモジュールが形成される。効率的なビデオトランスコーディングを行うシステムおよび方法は、高速ルックアップテーブルで再量子化処理を実装し、三重閾値アルゴリズムを使用して精細ドリフト制御メカニズムを実現する。

一実装では、効率的なデジタルビデオトランスコーディングで、ビットストリームデータ形式（例えば、ＭＰＥＧ−２など）をＷＭＶにトランスコードする場合、高品質プロファイルトランスコーディングオペレーションは、ＷＭＶの高度な符号化機能をサポートする。一実装では、高速プロファイルトランスコーディングオペレーションは、例えば、任意分解能変更サイズ縮小デコーダなどで任意分解能２段階的縮小（例えば、高精細度（ＨＤ）から標準精細度（ＳＤ）にトランスコードする場合）を実行する。このような２段階的縮小オペレーションでは、縮小比の一部は、ＤＣＴ領域内で効率よく得られるが、縮小比オペレーションは、実質的に分解能を低くして空間領域内において実行される。

［例示的な概念的基礎］
図３は、ＭＰＥＧ−２をＷＭＶに変換する例示的な非統合カスケードピクセル領域トランスコーディング分割アーキテクチャ３００を示す。この分割アーキテクチャは、復号化および符号化のオペレーションを別々のモジュールがそれぞれ実行するため、統合されない。図３の分割アーキテクチャは、効率的なデジタルビデオトランスコーディングのための統合されたシステムおよび方法について続いて説明するための概念的基礎をなす。表１は、図３の説明のため、シンボルおよびそれぞれの意味をまとめたものである。

説明および例示のために、システム３００は、ビットレートの低減、空間分解能の低減、およびその組合せとともにＭＰＥＧ−２からＷＭＶへのトランスコーディングに関して説明される。多くの既存のデジタルビデオコンテンツは、ＭＰＥＧ−２データ形式により符号化される。ＷＭＶは、ストリーミング技術分野における公認コーデックとして広く受け入れられ、インターネット上に広く展開され、ＨＤ−ＤＶＤコンソーシアムにより採用され、現在は、ＳＭＰＴＥ標準とみなされている。

ＭＰＥＧ−２およびＷＭＶは、圧縮および画質に関する様々な能力を備える。例えば、ＭＰＥＧ−２およびＷＭＶによりそれぞれ使用される圧縮技術は、非常に異なる。例えば、動きベクトル（ＭＶ）精度および動き補償（ＭＣ）フィルタリング技術は、異なる。ＭＰＥＧ−２では、動き精度は、最大でも１／２ピクセル精度でしかなく、また補間法は、双一次フィルタリングである。対照的に、ＷＭＶでは、動き精度は、最大１／４ピクセル精度まで高められ、２つの補間法、つまり、双一次フィルタリングおよび双三次フィルタリングがサポートされる。さらに、フィルタリングプロセスに関わる丸め制御パラメータがある。ＷＭＶを使用すると、ＭＰＥＧ−２ビットレートに比べて、ビデオビットレートは最大５０％まで低減され、しかも画質低下は無視できるくらい小さい。

他の実施例では、ＭＰＥＧ−２およびＷＭＶにより使用される変換は、異なる。例えば、ＭＰＥＧ−２は、標準ＤＣＴ／ＩＤＣＴを使用し、変換サイズは、８×８に固定される。対照的に、ＷＭＶでは、変換カーネル行列の成分がすべての小さな整数である整数変換（ＶＣ１−Ｔ）を使用する。さらに、変換サイズは、８×８、８×４、４×８、および４×４のいずれかを使用してブロックからブロックへのＷＭＶを使用することで変更することができる。ＭＰＥＧ−２は、フレームレベルの最適化をサポートしない。その一方で、ＷＭＶは、性能最適化のため様々なフレームレベル構文をサポートする。ＷＭＶは、強度補正、範囲低減、および動的分解能変更などの他の多くの高度な符号化機能をサポートする。

上記を考慮し、分解能の変更なしでビットレート低減を行うために、図３に示されているＭＰＥＧ−２デコーダとＷＭＶエンコーダのブリッジとなるフィルタリングプロセスは、全域通過フィルタである（つまり、効果がない）。したがって、フレーム（ｉ＋１）に対するエンコーダへの入力は、

で表される。

この実装では、図３のＷＭＶ符号化効率は、より精細な動き精度から得られる。ＷＭＶでは、ＭＰＥＧ−２の場合のように共通の１／２ピクセル精度のほかに１／４ピクセル動き精度が許される。さらに、ＷＭＶでは、ＭＣフィルタリングに対する双三次補間と呼ばれるより適切な、より複雑な補間が可能である。双一次補間は、１／２ピクセルＭＣに対するＭＣモジュール（ＭＣ_mp2）においてＭＰＥＧ−２に使用される。双一次補間法は、ＭＰＥＧ−２双一次補間が丸め制御を行わないことを除き、ＷＭＶで使用されるのと似た方法である。高速化するために、１／２ピクセルの動き精度をエンコーダ部分に実現することができる。これに対する理由の１つは、絶対的なオリジナルフレームの欠如である（つまり、ビットストリーム入力データ（ＢＳ＿ＩＮ）は、すでに圧縮されている）。したがって、この実施例では、より正確な、しかも意味のある動きベクトルを得ることは難しい。その一方で、ＭＰＥＧ−２デコーダから得られる動き情報（つまり、ＭＶ_vc1＝ＭＶ_mp2）は、直接再利用できる。分解能変更はないため、この仮定ではＭＶ精度の低下はない。エンコーダが、さらに、双一次補間を使用し、丸め制御パラメータを常にオフに強制するように制約されている場合、動き補償が線形オペレーションであるとの妥当な仮定の下で、丸め誤差を無視すると（つまり、ＭＣ_vc9＝ＭＣ_mp2）、式１は、

のように簡略化される。式２により、図３の基準ＣＰＤＴトランスコーダを簡素化できる。このような簡素化されたアーキテクチャは、図５を参照して以下で説明される。簡素化されたアーキテクチャについて説明する前に、効率的なデジタルビデオトランスコーディングを行う例示的なシステムについて、最初に説明する。

［例示的なシステム］
必要というわけではないが、パーソナルコンピュータなどのコンピューティングデバイスによって実行されるコンピュータ−プログラム命令の一般的背景状況において効率的なデジタルビデオトランスコーディングについて説明する。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。これらのシステムおよび方法は、前記の文脈において説明されているが、以下で説明される活動およびオペレーションは、ハードウェアでも実装することができる。

図４は、効率的なデジタルビデオトランスコーディングを行う例示的なシステム４００を示している。この実装では、システム４００のオペレーションは、ハイブリッドＤＣＴおよびブロックベース動き補償（ＭＣ）ビデオ符号化方式に関して説明され、多くのビデオ符号化標準および専用形式がこの方式に基づく。より具体的には、システム４００は、ＭＰＥＧ−２からＷＭＶにトランスコードするために使用されるアーキテクチャ、コンポーネント、およびオペレーションと併せて説明される。しかし、ＭＰＥＧ−２をＷＭＶにトランスコードするためのシステム４００により具現化されるスケーラブルな複雑度および効率のトランスコーディングについて説明されるアーキテクチャ、コンポーネント、およびオペレーションはさらに、ＭＰＥＧ−２およびＷＭＶに加えて他のビットストリームデータ形式変換に適用可能であることが理解できる。例えば、一実装では、システム４００を使用して、ＭＰＥＧ−２ビットストリームをＭＰＥＧ−４ビットストリームにトランスコードし、ＭＰＥＧ−４ビットストリームデータをＷＭＶビットストリームデータにトランスコードするといったことを行う。このような代替え実施形態では、システム４００の以下で説明されるトランスコーディングアーキテクチャ（コンポーネントおよびそれに関連するオペレーションを含む）では、復号化され、符号化され、それぞれのデータ形式であるビットストリームデータの種類を考慮する。

この実装では、システム４００は、汎用コンピューティングデバイス４０２を含む。コンピューティングデバイス４０２は、パーソナルコンピュータ、ラップトップ、サーバ、ハンドヘルドまたはモバイルコンピューティングデバイスなどのどれかのタイプのコンピューティングデバイスを表す。コンピューティングデバイス４０２は、第１のデータ形式（例えば、ＭＰＥＧ−２）で符号化されたビットストリームを異なるデータ形式（例えば、ＷＭＶ）で符号化されたビットストリームにトランスコードするプログラムモジュール４０４およびプログラムデータ４０６を備える。プログラムモジュール４０４は、例えば、効率的なデジタルビデオトランスコーディングモジュール４０８（「トランスコーディングモジュール４０８」）および他のプログラムモジュール４１０を含む。トランスコーディングモジュール４０８は、符号化されたメディア４１２（例えば、ＭＰＥＧ−２メディア）を、トランスコードされたメディア４１４（例えば、ＷＭＶメディア）にトランスコードする。他のプログラムモジュール４１０としては、例えば、オペレーティングシステムおよびトランスコーディングモジュール４０８のビデオビットストリームトランスコーディング機能を利用するアプリケーションなどがある。一実装では、このアプリケーションは、オペレーティングシステムの一部である。一実装では、トランスコーディングモジュール４０８は、そのトランスコーディング機能を、アプリケーションプログラミングインターフェース（ＡＰＩ）４１６を介してアプリケーションに公開する。

［高速プロファイルトランスコーディング］
図５は、誤差伝搬のない例示的な簡素化された統合閉ループカスケードピクセル領域トランスコーダを示す。説明および例示のために、図５のコンポーネントは、図４のコンポーネントを参照して説明される。例えば、図５のアーキテクチャは、図４のトランスコーディングモジュール４０８の例示的なアーキテクチャの一実装を表す。図３のアーキテクチャと比較して図５のアーキテクチャを参照し、これが、独立したエンコーダおよびデコーダコンポーネントを持たない統合アーキテクチャであることに留意されたい。さらに、ＭＶ微調整動き推定モジュールが、ＭＰＥＧ−２デコーダ内のＭＣから取り除かれることに留意されたい。さらに、ＷＭＶエンコーダ内のＭＣは、累積再量子化誤差に作用するＭＣにマージされる。このようにして、図５のトランスコーディングアーキテクチャは、プログレッシブおよびインターレースのビデオデータ形式の高速トランスコーディングに関わる計算の複雑さを大幅に低減する。

ＷＭＶ変換は、ＭＰＥＧ−２で使用されているのと異なることに留意されたい。ＭＰＥＧ−２では、標準浮動小数点ＤＣＴ／ＩＤＣＴが使用されるが、ＷＭＶでは、エネルギーパッキング特性がＤＣＴに類似している整数変換が採用される。その結果、ＭＰＥＧ−２デコーダのＩＤＣＴとＷＭＶエンコーダのＶＣ１−Ｔは、互いに相殺することはない。ＷＭＶの整数変換は、ＤＣＴ／ＩＤＣＴの整数実装と異なる。ＷＭＶ整数変換は、すべての変換係数が小さな整数であるように慎重に設計される。従来のトランスコーダは、第１の変換に関して符号化されたビットストリームを第１の変換と同じではない第２の変換にトランスコードするように統合されていない。

式３は、８×８ＶＣ１−Ｔの例示的な変換行列を示している。

式３と後述の式４および５との組合せは、２つの異なる変換が、トランスコーディングモジュール４０８のスケーリングコンポーネント内にどのように実装されるかを示している（図４）。一実装では、ＶＣ１−Ｔの精度は、１６ビット精度であり、これは、ＭＭＸ実装に非常に適している。その結果、コーデックの複雑さを大幅に低減できる。

図６は、例示的な簡素化された閉ループＤＣＴ領域トランスコーダを示している。図６のアーキテクチャは、トランスコーディングモジュール４０８の例示的なアーキテクチャの一実装を表す（図４）。図６のアーキテクチャ６００は、図５のアーキテクチャ５００と比較して簡素化されているアーキテクチャである。図６を参照し、Ｃ₈を標準ＤＣＴ変換行列、Ｂを逆量子化ＭＰＥＧ−２ＤＣＴブロック、ｂをＢのＤＣＴとすると、ＭＰＥＧ−２ＩＤＣＴは、

のように計算される。そこで、

をｂのＶＣ１−Ｔとすると、

は

として計算され、ただし、ｏは、２つの行列の成分毎の乗算を表し、Ｎ₈₈は、ＶＣ１−Ｔ変換の正規化行列であり、これは、
ｃ８＝［８／２８８８／２８９８／２９２８／２９８８／２８８８／２８９８／２９２８／２９８］
として、

のように計算される。

は、Ｂから直接計算され、その際に、式

を使用する。

および

が対角行列に非常に近いことを検証するために、近似を適用する場合、式４は、行列Ｂの要素毎のスケーリングとなる。つまり、

として、

となる。

式５は、ＷＭＶエンコーダのＶＣ１−ＴとＭＰＥＧ−２デコーダのＩＤＣＴをマージできることを示している。その結果、図５のアーキテクチャは、図６に示されているアーキテクチャにさらに簡素化されうる。詳細な比較を行うと、２つのＤＣＴ／ＩＤＣＴモジュールは、２つのＣＶ１−Ｔおよび逆ＶＣ１−Ｔモジュールで置き換えられることがわかる。一実装では、単純なスケーリングモジュールも加えられる。このアーキテクチャでは、２つのスイッチが、アクティビティマスクとともに埋め込まれる。これらの埋め込まれたコンポーネントは、後述のように、トランスコーダ４０８のトランスコーディングコーティングオペレーションの複雑さを動的に制御するために使用される（図４）。この時点で、これらのコンポーネントは、接続されている。ＷＭＶ変換の１６ビット算術オペレーション特性は、ＰＣおよびＤＳＰの並列処理に役立つ。したがって、計算の複雑さは、大幅に低減される。さらに、スケーリング行列Ｓ₈₈のすべての成分は、互いに関して実質的に近接しているため、この計算、および一実装は、スカラー乗算で置き換えられる。

図５および６は、フィードバックループが関与するそれぞれの例示的な閉ループトランスコーディングアーキテクチャを示している。この実装では、ＶＣ−１逆量子化、ＶＣ−１逆変換、残誤差累積、および累積誤差に対するＭＣを含む、フィードバックループは、ＶＣ−１再量子化プロセスによりもたらされる誤差を補償する。再量子化誤差は、図１に示されているような、ビットレート削減トランスコーダに対するドリフト誤差の主原因である。図５および６のトランスコーディングアーキテクチャは、誤差補償があっても完全にドリフト誤差をなくすわけでないが、ドリフト誤差は非常に小さい。これは、動き補償フィルタリングの際のドリフト誤差の残りの原因が丸め誤差であるからである。残誤差補償のメリットの１つは、図５および６のアーキテクチャは、表２に関して後述のように、補償プロセスを動的にオンまたはオフにする機能を実現することである。図６のトランスコーディングアーキテクチャでは、実質的に最適な方法で、ＳＤからＳＤへの、またはＨＤからＨＤへの変換など、ＭＰＥＧ−２からＷＭＶへの純粋なビットレート削減トランスコーディングを実行する。

より具体的には、従来のカスケードトランスコーダアーキテクチャ（例えば、図１および２のアーキテクチャ）は、複雑度柔軟性を欠いている。計算量削減に関して、そのような従来のアーキテクチャが達成できる大半のことは、ＭＶ再利用およびモードマッピングを介してのものである。その一方で、累積残誤差補償アーキテクチャ、例えば、図６のアーキテクチャ（および後述の図８と１０のアーキテクチャ）は、複雑度に関するスケーラビリティを組み込んでいる。表２は、図６のスイッチの例示的な意味を示している。

図４のトランスコーディングモジュール４０８がドリフトのない簡素化を実装した後、アプリケーションは、複雑度とトランスコーディング速度を加速する品質との間のトレードオフの関係を動的に設定することができる。この実装では、品質は、速度を引き換えに、速度は、品質を引き換えに設定することができる。言い換えると、ある種のドリフト誤差は、他の簡素化されたトランスコーダにおいて許容されることがあるということである。この戦略では、高速な方法で持ち込まれるドリフト誤差は、制限され、完全に制御可能である。この考慮事項に基づき、３つのスイッチ（Ｓ₀、Ｓ₁、およびＳ₂）は、図６、８、および１０のアーキテクチャで実現される。これらのスイッチは、残誤差補償ベースのアーキテクチャにのみ使用される。これらのスイッチは、いくつかの時間のかかるオペレーションを選択的にスキップし、複雑度を実質的に低減するが、誤差はごくわずかしか入り込まない。様々なスイッチの意味は、表２にまとめられている。これらのスイッチに関連付けられている計算決定は、それぞれのスイッチに関して後述の基準により効率的に得られる。

スイッチＳ₀は、いつブロックの再量子化誤差を累積して残誤差バッファに入れるべきかを制御する。標準再構成セレクタと比較して、スイッチＳ₀の役割は、高速ルックアップテーブルベースの再量子化プロセスを採用し、三重閾値アルゴリズムを介してより精密なドリフト制御メカニズムを実現することにより改善される。その結果、スイッチＳ₀に関して得られる観察結果はすべて、考慮される。例えば、一実装では、ＤＣＴ領域エネルギー差をインジケータとして使用することができる。

スイッチＳ₁は、最も時間のかかるモジュールの実行時期、累積残誤差のＭＣを制御する。一実装では、スイッチＳ₁はオンである。基準フレームに対し、２値アクティビティマスクが作成される。アクティビティマスクのそれぞれの要素は、

により決定されるように、８×８ブロックのアクティブ性に対応するが、ただし、Ｅｎｅｒｇｙ（ｂｌｏｃｋ_i）は、累積残誤差バッファ内のブロックのエネルギーである。一実装では、Ｅｎｅｒｇｙ（ｂｌｏｃｋ_i）は、計算された空間領域またはＤＣＴ領域である。Ｅｎｅｒｇｙ（ｂｌｏｃｋ_i）は、絶対値の総和により近似することができる。ＭＶが、低アクティビティの領域に属しているブロックを指している場合、その特定のブロックに対する累積残誤差のＭＣは、スキップされる。

スイッチＳ₂は、早期検出を実行して、ブロック誤差を符号化すべきかどうかを決定する。これは、エンコーダが粗い量子化ステップサイズを適用する場合にアプリケーションをトランスレートするのに特に有用である。この実装では、入力信号（累積残誤差のＭＣとＭＰＥＧ−２デコーダから再構成された残差の総和）が、閾値よりも弱い場合、誤差が符号化されないようにスイッチＳ₂はオフにされる。

一実装では、スイッチＳ₀、Ｓ₁、およびＳ₂に対する閾値は、前の方の基準フレームが高い品質、遅い速度で処理されるように調節される。これは、スイッチの目的が、品質と速度との間のトレードオフの関係を高めることであり、また予測符号化の特性があるからである。

［高品質プロファイルトランスコーダ］
ビットレート変更が大きな変更でないか、または入力ソース品質があまり高くない場合、図６のアーキテクチャでは、ＭＰＥＧ−２ビットストリームをＷＭＶビットストリームに変換する際にビットレート削減を実質的に最適化する。他方、入力ソースが高品質であり、高品質出力が望ましく、さらにトランスコーディングの速度は、中程度の要求条件（例えば、リアルタイム）としてよい。ＭＶ微調整が行われる図３のカスケードピクセル領域トランスコーダ（ＣＤＰＴ）などの高品質プロファイルトランスコーダは、これらの基準を満たす。このアーキテクチャを使用すると、最高の符号化効率が必ず達成されるように、ＷＭＶエンコーダのすべての拡張符号化機能をオンにすることができる。

［分解能変更］
従来のメディアトランスコーディングシステムでは、一般に、空間分解能縮小機能でトランスコードする際に３つの誤差源がある。これらの誤差は、以下のとおりである。

・縮小：縮小されたビデオを得る際に生じる誤差。典型的には、画質と複雑度との間のトレードオフの関係を考慮するように縮小フィルタのオペレーションを設計する場合、特に空間領域において縮小する場合に、ハード配線を選択する。

・再量子化誤差：純粋なビットレート削減トランスコーディングプロセスの場合と同様に、これは、再量子化ステップサイズが粗い再量子化による誤差である。

・ＭＶ誤差：ＭＶが不正であると、動き補償予測は誤ることになる。その結果、再量子化誤差がどれだけ補償されようと、またビットレートがどの程度高かろうと、新しいＭＶおよびモードに基づいて動き補償を再計算しなければ完全な結果を得ることは困難である。ＷＭＶがＢフレームに対するＭＶモードを１つかサポートしないので、これは、Ｂフレームをトランスコードする従来のシステムの問題である。これは、最適化を実行する必要がある場合に、符号化モードが変更される、例えば、４ＭＶモードから１ＭＶモードに変わるため、問題となる可能性もある。さらに、一般的に、クロミナンス成分に対する問題が存在するが、それは、典型的には単一のＭＶで補償されるからである。（これは、Ｐフレームに適用される場合には説明されている効率的なデジタルビデオトランスコーディングアーキテクチャの問題ではない。これに対する理由の１つは、ＷＭＶがＰフレームに対する４ＭＶ符号化モードをサポートすることである。）

トランスコーディングモジュール４０８（図４）のオペレーションでは、ここで説明されるように、最後の２つの誤差発生源を解消する。

［再量子化誤差補償］
Ｄはダウンサンプリングフィルタリングを表すものとする。図３のアーキテクチャを参照すると、フレーム（ｉ＋１）に対するＶＣ−１エンコーダへの入力は、

に従って導かれることがわかる。ＭＣ_vc1＝ＭＣ_mp2、ｍｖ_mp2＝ｍｖ_vc1＝ＭＶ_mp2／２であると仮定する。近似は、

である。式６は、

に簡素化される。

式８の第１の項

は、復号化されたＭＰＥＧ−２残留信号の縮小プロセスを指している。この第１の項は、空間領域ローパスフィルタリングおよびデシメーションを使用して決定することができる。しかし、ＤＣＴ領域縮小機能を使用してこの項を求めることで、複雑度が低減され、ＰＳＮＲおよび画質が向上する。ＤＣＴ領域縮小結果は、係数（−１，０，９，１６，９，０，−１）／３２を使用する空間領域双一次フィルタリングまたは空間領域７タップフィルタリングを通じて得られる結果よりも実質的によい。この実装では、ＤＣＴ領域縮小機能は、左上４×４低周波ＤＣＴ係数のみを保持する。つまり、保持されているＤＣＴ係数上で標準４×４ＩＤＣＴを適用すると、空間的２：１縮小画像（つまり、図４のトランスコードされたメディア４１４）が得られる。

式８の第２の項

は、縮小分解能に対する再量子化誤差補償を意味する。この実装では、ＭＰＥＧ−２デコーダのＭＣおよびＷＭＶエンコーダのＭＣは、低減された分解能で累積再量子化誤差に作用する単一ＭＣプロセスにマージされる。

図７は、４つの４×４ＤＣＴブロックのオペレーションを１つの８×８ＤＣＴブロックにマージする例示的なマージオペレーションを示している。実用上の問題が１つ残っている。ＤＣＴ領域縮小では、４つの８×８ＤＣＴ（元の分解能のＭＰＥＧ−２マクロブロック（ＭＢ）内のブロックＢ₁からＢ₄）は、低減された分解能で、そのままＤＣＴ領域において、新しいＭＢの８×８ブロックの４つの４×４サブブロックにマッピングされる（例えば、図７を参照）。ＷＭＶでは、ＰフレームおよびＢフレームに対し、４×４変換タイプが許される。その結果、上述のスケーリングを除き、ほかにする必要はない。しかし、Ｉフレームについては、８×８変換タイプのみが許される。そのため、Ｉフレームを扱うときには、トランスコーディングモジュール４０８（図４）は、４つの４×４低周波ＤＣＴサブブロックを８×８ＤＣＴブロック１個

に変換する。一実装では、これは、４つの４×４ＤＣＴサブブロックをピクセル領域に逆変換し、次いで、新しい８×８ＶＣ１−Ｔを適用することにより行われる。一実装では、計算の複雑度を低減するために、これはＤＣＴ領域内で行われる。

例えば、

および

は、それぞれＢ₁、Ｂ₂、Ｂ₃、およびＢ₄の４つの４×４低周波サブブロックを表すものとし、Ｃ₄は、４×４標準ＩＤＣＴ変換行列であり、Ｔ₈は、整数ＷＭＶ変換行列であり、さらに、Ｔ₈［Ｔ_L，Ｔ_R］とし、Ｔ_LおよびＴ_Rは８×４行列である。このシナリオでは、

は、

および

から、式

を使用して直接計算される。何らかの操作をした後、

は、

のように効率的に計算されるが、ただし、

である。一実装では、上記の式のＣおよびＤは両方とも、事前に計算される。最終結果は、Ｎ₈₈で正規化される。

図８は、簡素化されたＤＣＴ領域数値２：１分解能縮小トランスコーダに対する例示的なアーキテクチャ８００を示している。一実装では、図４のトランスコーディングモジュール４０８は、例示的なアーキテクチャ８００を実装するものである。このアーキテクチャのスイッチは、表２を参照して上で説明されているように、図６に示すものと同じ機能を有する。図８、および一実装を参照すると、第１の２つのモジュール（ＭＰＥＧ−２ＶＬＤおよび逆量子化）は、図６に示されているのと比べて簡素化されていることがわかる。これは、トランスコーディングモジュール４０８は、８×８ブロックから左上４×４部分のみを取り出す。

ドリフト誤差補償が低減された分解能で行われる従来の低ドリフトのトランスコーダと比べて、図６および８のトランスコーダは、混合ブロック処理モジュールを含まない。これは、ＷＭＶが、インター符号化されたマクロブロック内の８×８ブロックに対するイントラ符号化モードをサポートしているからである。言い換えると、元の分解能のイントラＭＢは、低減された分解能のインターＭＢのイントラ８×８ブロックにマッピングされるということである。したがって、ＭＢモードマッピング規則は、

に示されているように、非常に単純な規則になる。既存の混合ブロック処理オペレーションは、典型的には、完全分解能の画像を再構成するために復号化ループを必要とする。したがって、混合ブロック処理を取り除くと、従来のシステムに比べて計算量を実質的に削減できる。

簡素化されたＤＣＴ領域２：１分解能縮小トランスコーディングアーキテクチャ８００は、Ｐフレームについては実質的にドリフトを含まない。これは、４ＭＶ符号化モードの結果である。ドリフト誤差の唯一の原因は、縮小フィルタリングを使用するＣＰＤＴアーキテクチャと比べると、ＭＶを１／４分解能から１／２分解能に丸めること（ｍｖ_mp2＝ｍｖ_vc1を保証する）とＭＣおよび縮小の非可換的特性である。そのような残りの誤差は、ローパス縮小フィルタリングに起因して、無視できるくらい小さい（例えば、ＤＣＴ領域またはピクセル領域内で達成される）。

図９は、一実施形態による、２：１空間分解能縮小トランスコーディングオペレーションのインターレースメディアに対し４つの４×４ＤＣＴブロックのオペレーションを１つの８×８ＤＣＴブロックにマージする実施例を示す。２：１縮小は、元のフレームの分解能を、水平方向と垂直方向の両方において２だけ変更する。一実装では、このインターレースプロセスは、図４のトランスコーディングモジュール４０８により実装される。より具体的には、インターレース符号化コンテンツでは、すべてのＭＢ内の左上８×４サブブロックは、ショートカットＭＰＥＧ−２デコーダにより再構成され、両方のフィールドは、垂直方向でローパスフィルタにより平滑化され、次いで１つのフィールドが、ＷＭＶ符号化プロセスの前に削除される。

［ＭＶ誤差補償］
ＷＭＶは、４ＭＶ符号化モードをサポートするが、典型的には、Ｐフレームを符号化することのみ対象とする。その結果、システム４００（図４）は、入力ＭＰＥＧ−２ストリーム内にＢフレームがないか、またはより低い時間的分解能に向けてトランスコーダ実行時にＢフレームが破棄される場合に、図６のアーキテクチャを実行する。これに対する理由の１つは、ＷＭＶがＢフレームについてＭＢ毎にＭＶを１つしか許さないという点である。このようなシナリオでは、トランスコーディング４０８（図４）は、元の分解能でＭＢに関連付けられている４つのＭＶから新しい動きベクトルを合成する。前述のＭＶ合成方法のそれぞれは、互換性を有する。一実装では、トランスコーディングモジュール４０８は、中央値フィルタリングを実行する。説明されているように、ＭＶが不正であると、動き補償予測は誤ることになる。さらに悪いことに、再量子化誤差がどれだけ補償されようと、またビットレートがどの程度高かろうと、新しいＭＶに基づいて動き補償を再実行しない場合に完全な結果を得ることは困難である。そこで、このような動き誤差を補償できるアーキテクチャを実現する。

再び、図３のアーキテクチャを参照すると、Ｂフレームであると仮定される、フレーム（ｉ＋１）に対するＶＣ−１への入力は、

のように導かれ、近似は

である。

式９は、

に簡素化される。式１１に関して、

が得られる。

式１２の中の角かっこ内の２つの項は、矛盾したＭＶ（つまり、ｍｖ_mp2は、ｍｖ_vc1と異なる）により引き起こされるか、またはＭＰＥＧ−２とＷＭＶとの間の異なるＭＣフィルタリング法により引き起こされる動き誤差を補償する。この目的に対する対応するモジュールは、ハイライトされ、図１０では、淡黄色ブロックにまとめられる。

図１０は、一実施形態による、完全なドリフト補償が行われる例示的な簡素化された２：１縮小トランスコーダアーキテクチャを示している。一実装では、図４のトランスコーディングモジュール４０８は、図１０の例示的なアーキテクチャを実行する。式１２を参照する際に、

は、元のインターＭＢに対応するすべての８×８ブロック、および１／４ピクセル精度を有するｍｖ_mp2＝ＭＶ_mp2／２について実行されることに留意されたい。ＶＣ−１エンコーダで使用されるＭＶは、単一のＭＶ：ｍｖ_vc1＝ｍｅｄｉａｎ（ＭＶ_mp2）／２である。動き誤差補償モジュールに関して、ｍｖ_vc1の精度は、１／４ピクセルレベルになりうることに留意されたい。式１２の最後の項は、基準フレームの再量子化誤差を補償する。Ｂフレームは、他のフレームの基準ではないため、誤差に強い。その結果、アプリケーション側で、高速化を達成するため誤差補償機能を安全にオフにすることができる。ここでもまた、このような近似は、Ｂフレームのみを対象としたものである。動き誤差補償に対するＭＣは、再構成されたピクセルバッファに作用するが、再量子化誤差補償に対するＭＣは、累積残誤差バッファに作用することに留意されたい。

ＭＣに関して、イントラ−インター、またはインター−イントラの変換を適用することができる。これは、ＭＰＥＧ−２デコーダがＢフレームおよび基準フレームを再構成したからである。この実装では、この変換は、図１０の混合ブロック処理モジュール内で実行される。２つのモード合成法が可能である。一実装では、基本モードが合成モードとして選択される。例えば、元の分解能の４つのＭＢのモードが、２つの双方向予測モード、１つの逆方向予測モードと１つの順方向予測モードである場合、双方向予測モードが、低減された分解能のＭＢに対するモードとして選択される。他の実装では、最大の誤差をもたらすモードが選択される。この実施例に関して、逆方向モードを使用すると、最大の誤差が生じる。このシナリオでは、誤差を補償できるように逆方向モードが選択される。結果から、後者の技術は、前者のモード選択技術に比べてわずかに優れた品質を示すことがわかる。

式１２による例示的なアーキテクチャが、図１０に示されている。表３に示されているように、特にこのアーキテクチャに対する４つのフレームレベルのスイッチがある。

４つのフレームレベルのスイッチにより、異なるフレームタイプに異なる符号化経路が確実なものとされる。特に、アーキテクチャは、Ｂフレーム（Ｓ_IP）に対する残誤差累積を実行せず、ＩおよびＰフレーム（Ｓ_B）に対するＭＶ誤差補償を実行せず、生成すべきＢフレーム（Ｓ_IP/B）がない場合には基準フレームを再構成しない。対応する４つの元のＭＶが著しく矛盾する場合のみＭＶ誤差が補償される必要があるため、フレームレベルスイッチＳ_Bはブロックレベルスイッチに変えることができることに留意されたい。

より具体的には、スイッチＳ_IPは、ＩフレームまたはＰフレームのみについて閉じられ、スイッチＳ_Pは、Ｐフレームのみについて閉じられ、スイッチＳ_Bは、Ｂフレームについてのみ閉じられる。結果として得られるアーキテクチャは、図３の基準カスケードピクセル領域トランスコーダほど複雑ではない。これに対する理由の１つは、明示的なピクセル領域縮小プロセスが回避されることである。その代わりに、ピクセル領域縮小は、高いＤＣＴ係数を単純に破棄することによりＤＣＴ領域において暗黙のうちに実行される。このアーキテクチャでは、表２に関して上で説明されているように、様々なスイッチを使用することにより優れた複雑度スケーラビリティが実現される。

超高速のトランスコーディング速度を必要とするアプリケーションでは、図１０のアーキテクチャは、すべてのスイッチをオフにすることにより開ループ内に構成されうる。この開ループアーキテクチャは、さらに、ＭＰＥＧ−２の逆量子化プロセスとＷＭＶの再量子化プロセスをマージすることにより最適化されうる。また、ＭＰＥＧ−２の逆ジグザグスキャンモジュール（ＶＬＤ内）をＷＭＶエンコーダ内のモジュールと組み合わせることもできる。

［クロミナンス成分］
ＭＰＥＧ−２およびＷＭＶのクロミナンス成分に関して、クロミナンス成分（ＵＶ）のＭＶおよび符号化モードは、ルミナンス成分（Ｙ）から導かれる。低減された分解能のＭＢに対応する元の分解能の４つのＭＢすべてが、矛盾しない符号化モードを持つ場合（つまり、すべてのインター符号化またはすべてのイントラ符号化）、問題はない。しかし、その場合でなければ、ＭＰＥＧ−２およびＷＭＶの異なる派生規則により問題が生じる。ＭＰＥＧ−２では、ＭＢがインターモードで符号化される場合に、ＵＶブロックはインター符号化される。しかし、ＷＭＶでは、ＭＢがインターモードで符号化され、イントラ符号化された８×８Ｙブロックが３個未満である場合にのみ、ＵＶブロックはインター符号化される。この問題は、ＰフレームとＢフレームの両方に存在する。図４のトランスコーディングモジュール４０８は、以下のようにこれらの問題を解消する。

・インター−イントラ変換：インター符号化されたＭＢが３つのイントラ符号化された８×８Ｙブロックを持つ場合（インター符号化されたＭＢで４つすべての８×８Ｙブロックをイントラ符号化することは不可能である）、ＵＶブロックはイントラ符号化される。この場合、元の分解能の１つのＭＢは、対応するＵＶブロックとともにインター符号化される。これらのＵＶブロックは、インターモードからイントラモードに変換される。人視覚系（ＨＶＳ）は、クロミナンス信号に対する感度が弱いため、トランスコーディングモジュール４０８では、空間的隠し技術を使用して、８×８ＵＶブロックをインターモードからイントラモードに変換する。一実装では、ＤＣ距離は、隠し方向を決定するためのインジケータとして使用される。隠しは、単純なコピーまたは他の補間法を介して行われる。

・イントラ−インター変換：インター符号化されたＭＢが１つまたは２つのイントラ符号化された８×８Ｙブロックを有している場合、トランスコーディングモジュール４０８は、ＵＶブロックをインター符号化する。このシナリオでは、元の分解能の４つの対応するＭＢのうちに１つまたは２つのイントラ符号化されたＭＢがある。これらのＵＶブロックは、イントラモードからインターモードに変換される。この実装では、トランスコーディングモジュール４０８は、ゼロ設定法と呼ばれる時間的隠し技術を使用して、これらのブロックを処理し、これにより復号化ループを回避する。

誤差隠しオペレーションを使用してクロミナンス成分のモード変換を処理すると、現在のフレームに持ち込まれた誤差は無視できるくらい小さく、したがって無視できるが、ただし、その後のフレームで色ずれを生じることがある。クロミナンス成分に対するドリフトは、典型的には、不正な動きにより生じる。これに対処し、品質を向上させるために、一実装では、トランスコーディングモジュール４０８は、クロミナンス成分に再構成ベースの補償を使用する（つまり、クロミナンス成分に対し淡黄色モジュールを常に適用する）。

［レート制御］
図１１は、デコーダに対する例示的な仮想バッファベリファイヤバッファ（ＶＢＶ）を示す。図１１のＶＢＶモデルに基づくデコーダは、典型的には、既存のＭＰＥＧ−２ビットストリームを検証する。この実装では、ビデオレートが入力レートに比例して減少する場合、トランスコードされたＷＭＶビットストリームは、自動的に、ＶＢＶの要求条件を満たすことになる。この点で、本明細書の効率的なデジタルビデオトランスコーディングアーキテクチャでは、すべてのフレームに対し、符号化されたフレームサイズが入力フレームサイズに比例する。これらの新規性のあるアーキテクチャでは、目標フレームサイズと実際の結果として得られるフレームサイズとの累積された差を継続的に補償し、学習を介して、異なるビットレート範囲について直線量子化ステップ（ＱＰ）マッピング規則を構成する。

高いビットレートでは、符号化ビット（Ｂ）とＭＰＥＧ−２ＴＭ−５レート制御法でも使用される量子化ステップ（ＱＰ）との間に近似式がある。

ただし、Ｓは、フレームの複雑度であり、Ｘは、モデルパラメータである。フレームの複雑度は異なるコーデックでも同じままであると仮定すると、

となるが、ただし、ＱＰ_vc1は、ＷＭＶ再量子化で使用されるＱＰ値であり、ＱＰ_mp2は、ＭＰＥＧ−２量子化のＱＰ値であり、ｋは、目標ビットレートに関係するモデルパラメータである。一実装では、線形モデル
ＱＰ_vc1／ＱＰ_mp2＝ｋ・（Ｂ_mp2／Ｂ_vc1）＋ｔ（１４）
が使用される。低、中、および高ビットレートの場合のパラメータｋおよびｔの値は、直線回帰法を使用して表４にまとめられている。

式１４に基づく例示的な詳細レート制御アルゴリズムが、表５に示されており、表５に示されているアルゴリズム内の様々なシンボルの意味は、以下の表６において定義されている。

［任意分解能変更］
例えば、レガシーＳＤ受信機／プレーヤをサポートするため行われるＨＤ分解能からＳＤ分解能へのコンテンツの変換は有用である。ＨＤ形式の典型的な分解能は、１９２０×１０８０ｉおよび１２８０×７２０ｐであるが、ＳＤに対しては、７２０×４８０ｉ、ＮＴＳＣに対しては７２０×４８０ｐである。１９２０×１０８０ｉから７２０×４８０ｉまでの水平および垂直の縮小比は、それぞれ、８／３および９／４である。アスペクト比を保つために、最終縮小比は、８／３となるように選択され、その結果得られる画像サイズは、７２０×４０４となる。同様に、１２８０×７２０ｐから７２０×４８０ｐでは、縮小比は、１６／９となるように選択され、その結果得られる画像サイズは、７２０×４０４となる。デコーダ／プレーヤにより、７２０×４８０の完全画像となるように黒色バナーが挿入される（ビットストリームにパディングされる代わりに）。

デジタル信号処理理論によれば、縮小比ｍ／ｎに対する実質的に最適な縮小方法は、最初に、信号をｎ倍でアップサンプリングし（つまり、元のサンプルとサンプルとの間にｎ−１個のゼロを挿入し）、ローパスフィルタ（例えば、多数のタップを有するサイン関数）を適用し、次いでその結果得られた信号をｍ倍でデシメートすることである。このようなオペレーションを実行することで、縮小により入り込むスペクトルエイリアシングは、最大限抑制される。しかし、このプロセスは、非常に多量の計算を必要とし、入力信号が高品位であるためリアルタイムで実行することが困難である。この計算複雑度を低減するために、新規性のある２段階縮小戦略がとられる。

図１２は、一実施形態による、任意空間分解能縮小機能を持つトランスコーダを示している。一実装では、図４のトランスコーディングモジュール４０８は、図１２のアーキテクチャを実行する。一実装では、任意縮小トランスコーダは、図１２などの非統合トランスコーダである。他の実装では、図１２に関して後述される、以下の任意縮小トランスコーディングオペレーションは、図５、６、８、および／または１０に示されているような統合トランスコーダで実行される。

図１２を参照すると、システム１２００は、任意縮小目標を得るために２段階縮小オペレーションを実行する。第１段階縮小の結果は、復号化ループ内に埋め込まれる。これにより、復号化オペレーションの複雑度が低減される。例えば、８／３の縮小比を得るために、縮小オペレーションが最初に実行され、２／１に縮小する。この第１段階縮小の結果は、復号化ループ内に入力され、そこで、第２段階縮小が、空間領域内で実行される。この実施例では、第２段階縮小オペレーションは、４／３の縮小を行い、８／３縮小比を得る。他の実施例では、システム１２００により、４／３縮小を２回適用して（２段階で）、縮小比１６／９が得られる。この２段階縮小方法では、すでに説明されているＤＣＴ領域縮小戦略を使用し、第１段階縮小結果を復号化ループ内に完全に埋め込む。分解能は、第１段階縮小後に著しく低減されるため、ピクセル領域上で最適な縮小方法を適用し続けることができる。

図１２を参照する際に、複数のＭＶ

が新しいＭＢ（ＭＶスケーリングおよびフィルタリングモジュール）に関連付けられていることに留意されたい。

［例示的な手順］
図１３は、一実施形態による、効率的なデジタルビデオトランスコーディングを行う手順１３００を例示する。一実装では、図４のトランスコーディングモジュール４０８は、手順１３００のオペレーションを実行する。図１３を参照すると、ブロック１３０２において、この手順は符号化されたビットストリーム（例えば、図４の符号化されたメディア４１２）を受け取る。ブロック１３０４で、この手順は、第１のメディアデータ形式（例えば、ＭＰＥＧ−２、ＭＰＥＧ−４など）に関連する圧縮技術の第１のセットに従って符号化されたビットストリームを部分的に復号化する。この部分的復号化オペレーションで、中間データストリームを生成する。統合トランスコーダは、完全な復号化を実行しない。例えば、「概念的な」ＭＰＥＧ−２デコーダのＭＣが、ＷＭＶエンコーダのＭＣとマージされる場合、復号化オペレーションを、ＭＰＥＧ−２復号化を実行するものとして記述することは難しい。ブロック１３０６で、中間データストリームの縮小が望ましい場合、この手順は、第１の縮小段階において符号化されたビットストリームに関連付けられているデータを縮小する。第１の縮小段階は、復号化ループのＤＣＴ領域内で実行される。ブロック１３０８で、２段階縮小が望ましい場合、この手順は、さらに、空間領域において、ＤＣＴ領域内で縮小されたデータを縮小する（ブロック１３０６を参照）。

ブロック１３１０で、圧縮技術の第１のセットに従って復号化されたデータは、圧縮技術の第２のセットにより符号化される。一実装では、手順１３００は、図に示され、また図１２および１４に関して説明されているような非統合トランスコーディングアーキテクチャ内に実装される。この実装では、圧縮技術の第２のセットは、圧縮技術の第１のセットと同じである。他の実装では、手順１３００は、図に示され、また図５〜１１および１４に関して説明されているような統合トランスコーディングアーキテクチャ内に実装される。この実装では、圧縮技術の第２のセットは、圧縮技術の第１のセットと同じでない。例えば、一実装では、圧縮技術の第１のセットは、ＭＰＥＧ−２に関連付けられ、圧縮技術の第２のセットは、ＷＭＶに関連付けられる。

［例示的な動作環境］
図１４は、効率的なデジタルビデオトランスコーディングを完全にまたは部分的に実装できる好適なコンピューティング環境の一実施例を示している。例示的なコンピューティング環境１４００は、図４の例示的なシステム４００の好適なコンピューティング環境の一例にすぎず、本明細書で説明されているシステムおよび方法の使用または機能性の範囲に関する制限を示唆する意図はない。コンピューティング環境１４００は、コンピューティング環境１４００に示されている１つのコンポーネントまたはその組合せに関係する何らかの依存関係または要求条件がその環境にあるものと解釈すべきでない。

本明細書で説明されている方法およびシステムは、他の数多くの汎用または専用コンピューティングシステム、環境、または構成で動作する。使用に適していると思われるよく知られているコンピューティングシステム、環境、および／または構成の実施例として、限定はしないが、パーソナルコンピュータ、サーバコンピュータ、マルチプロセッサシステム、マイクロプロセッサベースのシステム、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがある。フレームワークのコンパクト版またはサブセット版も、ハンドヘルドコンピュータまたは他のコンピューティングデバイスなどの資源の限られているクライアント内に実装することができる。本発明は、通信ネットワークを通じてリンクされているリモート処理デバイスによりタスクが実行されるネットワーク接続コンピューティング環境内で実施される。

図１４を参照すると、効率的なデジタルビデオトランスコーディングアーキテクチャを備える例示的なシステムは、例えば、図１のコンピューティングデバイス１０２に関連付けられているイニシエータオペレーションを実行するコンピュータ１４１０の形態の汎用コンピューティングデバイスを備える。コンピュータ１４１０が備えるコンポーネントとしては、限定はしないが、（複数の）演算処理装置１４１８、システムメモリ１４３０、およびシステムメモリを備える様々なシステムコンポーネントを演算処理装置１４１８に結合するシステムバス１４２１などがある。システムバス１４２１は、メモリバスまたはメモリコントローラ、周辺機器バス、および様々なバスアーキテクチャを使用するローカルバスを含む数種類のバス構造のうちのいずれでもよい。例えば、限定はしないが、このようなアーキテクチャとしては、ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ（ＩＳＡ）バス、ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ（ＭＣＡ）バス、ＥｎｈａｎｃｅｄＩＳＡ（ＥＩＳＡ）バス、ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ（ＶＥＳＡ）ローカルバス、およびＭｅｚｚａｎｉｎｅバスとも呼ばれるＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ（ＰＣＩ）バスがある。

コンピュータ１４１０は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、揮発性および不揮発性媒体、取り外し可能および取り外し不可能媒体を含む、コンピュータ１４１０によってアクセスされることができる媒体であればどのような媒体でも使用可能である。例えば、限定はしないが、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造体、プログラムモジュール、またはその他のデータなどの情報を格納する方法または技術で実装される揮発性および不揮発性、取り外し可能および取り外し不可能媒体を含む。コンピュータ記憶媒体としては、限定はしないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多目的ディスク（ＤＶＤ）またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、または所望の情報を格納するために使用することができ、しかもコンピュータ１４１０によりアクセスできるその他の媒体がある。

通信媒体は、通常、コンピュータ可読命令、データ構造体、プログラムモジュール、または搬送波もしくはその他のトランスポートメカニズムなどの変調データ信号によるその他のデータを具現するものであり、任意の情報配信媒体を含む。「変調データ信号」という用語は、信号内に情報を符号化するような方法で特性のうちの１つまたは複数が設定または変更された信号を意味する。例えば、限定はしないが、通信媒体としては、有線ネットワークまたは直接配線接続などの有線媒体、および、音響、ＲＦ、赤外線、およびその他の無線媒体などの無線媒体がある。上記のいずれの組合せもコンピュータ可読媒体の範囲に収まらなければならない。

システムメモリ１４３０は、読み取り専用メモリ（ＲＯＭ）１４３１およびランダムアクセスメモリ（ＲＡＭ）１４３２などの揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などにコンピュータ１４１０内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム１４３３（ＢＩＯＳ）は、通常、ＲＯＭ１４３１に格納される。通常、ＲＡＭ１４３２は、演算処理装置１４１８に直接アクセス可能な、および／または演算処理装置１４１８によって現在操作されているデータおよび／またはプログラムモジュールを格納する。例えば、限定はしないが、図１４は、オペレーティングシステム１４３４、アプリケーションプログラム１４３５、その他のプログラムモジュール１４３６、およびプログラムデータ１４３７を例示している。

コンピュータ１４１０はさらに、その他の取り外し可能／取り外し不可能な揮発性／不揮発性コンピュータ記憶媒体を備えることもできる。例にすぎないが、図１４は、取り外し不可能な不揮発性磁気媒体の読み書きを行うハードディスクドライブ１４４１、取り外し可能な不揮発性磁気ディスク１４５２の読み書きを行う磁気ディスクドライブ１４５１、およびＣＤＲＯＭまたはその他の光媒体などの取り外し可能な不揮発性光ディスク１４５６の読み書きを行う光ディスクドライブ１４５５を例示している。例示的な動作環境において使用できる他の取り外し可能／取り外し不可能な揮発性／不揮発性コンピュータ記憶媒体としては、限定はしないが、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどがある。ハードディスクドライブ１４４１は、典型的には、インターフェース１４４０などの取り外し不可能メモリインターフェースを介してシステムバス１４２１に接続され、磁気ディスクドライブ１４５１および光ディスクドライブ１４５５は、典型的には、インターフェース１４５０などの取り外し可能メモリインターフェースによりシステムバス１４２１に接続される。

図１４に例示されている上記のドライブおよび関連コンピュータ記憶媒体は、コンピュータ１４１０用のコンピュータ可読命令、データ構造体、プログラムモジュール、およびその他のデータを格納する機能を備える。例えば、図１４では、ハードディスクドライブ１４４１は、オペレーティングシステム１４４４、アプリケーションプログラム１４４５、その他のプログラムモジュール１４４６、およびプログラムデータ１４４７を格納するものとして例示されている。これらのコンポーネントは、オペレーティングシステム１４３４、アプリケーションプログラム１４３５、その他のプログラムモジュール１４３６、およびプログラムデータ１４３７と同じである場合もあれば異なる場合もあることに留意されたい。オペレーティングシステム１４４４、アプリケーションプログラム１４４５、その他のプログラムモジュール１４４６、およびプログラムデータ１４４７に対しては、ここで、異なる番号を割り当てて、それらが少なくとも異なるコピーであることを示している。

ユーザは、キーボード１４６２、およびマウス、トラックボール、またはタッチパッドと一般に呼ばれるポインティングデバイス１４６１などの入力デバイスを介してコンピュータ１４１０にコマンドおよび情報を入力できる。他の入力デバイス（図に示されていない）としては、マイク、ジョイスティック、ペンタブレット、衛星放送受信アンテナ、スキャナなどがある。これらの入力デバイスおよびその他の入力デバイスは、システムバス１４２１に結合されているユーザ入力インターフェース１４６０を通じて演算処理装置１４１８に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）などの他のインターフェースおよびバス構造により接続されることも可能である。この実装では、モニタ１４９１またはその他の種類のユーザインターフェースデバイスは、さらに、例えばビデオインターフェース１４９０などのインターフェースを介してシステムバス１４２１に接続される。

コンピュータ１４１０は、リモートコンピュータ１４８０などの１つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク接続環境で動作する。一実装では、リモートコンピュータ１４８０は、図１に示されているように、応答側のコンピューティングデバイス１０６を表している。リモートコンピュータ１４８０は、パーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他の共通ネットワークノードでもよく、特定の実装に応じて、コンピュータ１４１０に関係する上述の要素の多くまたはすべてを含むが、メモリ記憶デバイス１４８１だけが図１４に例示されている。図１４に示されている論理接続は、ローカルエリアネットワーク（ＬＡＮ）１４８１およびワイドエリアネットワーク（ＷＡＮ）１４７３を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体にわたるコンピュータネットワーク、イントラネット、およびインターネットでは一般的である。

ＬＡＮネットワーキング環境で使用される場合、コンピュータ１４１０は、ネットワークインターフェースまたはアダプタ１４７０を介してＬＡＮ１４７１に接続される。ＷＡＮネットワーキング環境で使用される場合、コンピュータ１４１０は、典型的には、インターネットなどのＷＡＮ１４７３上で通信を確立するためモデム１４７２またはその他の手段を備える。モデム１４７２は、内蔵でも外付けでもよいが、ユーザ入力インターフェース１４６０またはその他の適切なメカニズムを介してシステムバス１４２１に接続されうる。ネットワーク接続環境では、コンピュータ１４１０またはその一部に関して示されているプログラムモジュールは、リモートメモリ記憶装置デバイスに格納されうる。例えば、限定はしないが、図１４はリモートアプリケーションプログラム１４８５をメモリデバイス１４８１に置かれているものとして例示している。図に示されているネットワーク接続は例示的であり、コンピュータ間の通信リンクを確立するのに他の手段も使用可能である。

［結び］
上の節では構造的特徴および／または方法論的なオペレーションまたはアクションに固有の言語で任意分解能変更サイズ縮小デコーダについて説明しているが、付属の特許請求の範囲で定められている実装は、説明された特定の特徴またはアクションに必ずしも限られない。むしろ、任意分解能変更サイズ縮小デコーダの特定の特徴およびオペレーションは請求されている主題を実施するための複数の実装形態の例として開示されている。

例えば、一実装では、説明されている高速および高品質トランスコーディングシステムおよび方法は、トランスコーディング、任意サイズ縮小、レート削減を含めて、ＭＰＥＧ−２からＭＰＥＧ−４へのトランスコーディング、およびＭＰＥＧ−４からＷＭＶへのトランスコーディングに使用される。例えば、図６の簡素化された閉ループＤＣＴ領域トランスコーダは、ＭＰＥＧ−４をＷＭＶにトランスコードするために使用することができる。ＭＰＥＧ−２（ＩＳ−１３８１８Ｐａｒｔ．２）との違いは、ＭＰＥＧ−２では、ＭＣにおいて１／２ピクセル要素（ｐｅｌ）ＭＶ精度および双一次補間のみを使用することであり、ＷＭＶには、そのような同じモード（１／２ｐｅｌ双一次）がある。しかし、ＭＰＥＧ−４では、１／２ｐｅｌと１／４ｐｅｌの両方のＭＶ精度とともに、１／４ｐｅｌ位置（ＷＭＶのとは異なる）に対する補間もサポートする。この違いに対処するために、１／２ｐｅｌＭＶがＭＰＥＧ−４ビデオで使用される場合、トランスコーディングプロセスは、上述のようにＭＰＥＧ−２からＷＭＶトランスコーディングと同じである。さらに、１／４ｐｅｌＭＶがＭＰＥＧ−４ビデオに含まれる場合、図６に関して上で説明されているようにＭＣにおける補間法が異なることで誤差が入り込む。さらに、図１０に関して上で説明されている完全ドリフト補償がある簡素化された２：１縮小トランスコーダは、変更と無関係にＭＰＥＧ−４からＷＭＶへの２：１サイズ縮小トランスコーディングに適用可能である。さらに、図１２の上で説明されているレート削減および任意縮小トランスコーディングオペレーションを含む、高品質トランスコーディングは、ＭＰＥＧ−４からＷＭＶトランスコーディングに効果的である。

入力ビットストリームを復号化するフロントエンドデコーダと、異なる符号化パラメータセットまたは新しい形式の新しいビットストリームを生成するエンコーダとをカスケード接続する、従来のカスケードピクセル領域トランスコーダ（ＣＰＤＴ）システムを示す図である。図１のＣＰＤＴアーキテクチャを簡素化した、従来のカスケードＤＣＴ領域トランスコーダ（ＣＤＤＴ）アーキテクチャを示す図である。一実施形態により、ＭＰＥＧ−２をＷＭＶにトランスコードする例示的な非統合ピクセル領域トランスコーディング分割アーキテクチャを示す図である。より具体的には、この分割アーキテクチャは、効率的な統合デジタルビデオトランスコーディングの概念的基礎を形成するものである。一実施形態による、効率的な統合デジタルビデオトランスコーディングを行う例示的なシステムを示す図である。一実施形態による、例示的な簡素化された閉ループカスケードピクセル領域トランスコーダを示す図である。一実施形態による、例示的な簡素化された閉ループＤＣＴ領域トランスコーダを示す図である。一実施形態による、４つの４×４ＤＣＴブロックの１つの８×８ＤＣＴブロックへの例示的なマージオペレーションを示す図である。このマージオペレーションは、効率的ビデオコンテンツトランスコーディングの際に実行される。一実施形態による、簡素化されたＤＣＴ領域数値２：１分解能縮小トランスコーダに対する例示的なアーキテクチャを示す図である。一実施形態による、２：１空間分解能縮小トランスコーディングオペレーションのインターレースメディアに対する４つの４×４ＤＣＴブロックのオペレーションを１つの８×８ＤＣＴブロックにマージする実施例を示す図である。一実施形態による、ドリフト補償が十分な例示的な簡素化された２：１任意分解能変更縮小トランスコーダアーキテクチャを示す図である。デコーダに対する例示的な標準仮想バッファベリファイヤバッファ（ＶＢＶ）モデルを示す図である。一実施形態による、任意空間分解能縮小機能を持つトランスコーダを示す図である。一実施形態による、効率的な統合デジタルビデオトランスコーディングオペレーションの例示的な手順を示す図である。一実施形態により、効率的な統合デジタルビデオトランスコーディングを部分的にまたは完全に実装できる例示的な環境を示す図である。

Claims

コンピュータ実装方法であって、
符号化されたビットストリームを受け取るステップと、
前記符号化されたビットストリームをＤＣＴ領域復号化ループ内で縮小し、縮小データを生成するステップと
を有することを特徴とするコンピュータ実装方法。
カスケード離散コサイン変換領域（ＣＤＤＴ）デコーダで、前記縮小を実行することを特徴とする請求項１に記載のコンピュータ実装方法。
前記符号化されたビットストリームを縮小するステップは、さらに、前記符号化されたビットストリームに関連付けられているデータを高精細度分解能から標準精細度分解能に変換するステップを有することを特徴とする請求項１に記載のコンピュータ実装方法。
前記方法は、さらに、ピクセル領域内で前記縮小データの分解能を低減するステップを有することを特徴とする請求項１に記載のコンピュータ実装方法。
前記縮小は、第１および第２段階縮小を含む２段階縮小であり、前記第１段階縮小の結果、データは２：１または４：３に縮小され、第２段階縮小の結果、目標分解能低減比に基づいてデータがさらに４：３または全域通過低減されることを特徴とする請求項１に記載のコンピュータ実装方法。
前記縮小は、統合トランスコーダ内で実行される２段階縮小であり、前記統合トランスコーダは圧縮技術の第１のセットに基づいて前記符号化されたビットストリームを部分的に復号化して中間データストリームを生成し、前記統合トランスコーダは圧縮技術の前記第１のセットと異なる圧縮技術の第２のセットに従って前記中間データストリームを符号化することを特徴とする請求項１に記載のコンピュータ実装方法。
圧縮技術の前記第１のセットは、ＭＰＥＧ−２に関連付けられ、圧縮技術の前記第２のセットは、ＷＭＶに関連付けられ、または、
圧縮技術の前記第１のセットは、ＭＰＥＧ−２に関連付けられ、圧縮技術の前記第２のセットは、ＭＰＥＧ−４に関連付けられること
を特徴とする請求項６に記載のコンピュータ実装方法。
コンピュータ実装方法であって、
符号化されたビットストリームを受け取るステップと、
前記符号化されたビットストリームを部分的に復号化するステップであって、前記部分的に復号化するステップは、前記符号化されたビットストリームに関連付けられているデータをＤＣＴ領域復号化ループ内で縮小して縮小データを得るステップを有するステップと、
前記縮小データを目標メディア形式に符号化するステップと
を有することを特徴とするコンピュータ実装方法。
カスケード離散コサイン変換領域（ＣＤＤＴ）デコーダで、前記縮小を実行することを特徴とする請求項８に記載のコンピュータ実装方法。
前記符号化されたビットストリームを縮小するステップは、さらに、前記符号化されたビットストリームに関連付けられているデータを高精細度分解能から標準精細度分解能に変換するステップを有することを特徴とする請求項８に記載のコンピュータ実装方法。
前記方法は、さらに、前記符号化の前に、ピクセル領域内で前記縮小データの分解能を低減するステップを有することを特徴とする請求項８に記載のコンピュータ実装方法。
前記縮小は、２：１または４：３の第１段階縮小、および目標縮小比に基づいて４：３または全域通過決定の追加の第２段階縮小を結果として生じる２段階縮小であることを特徴とする請求項８に記載のコンピュータ実装方法。
統合トランスコーダは、前記縮小を実行し、前記統合トランスコーダは圧縮技術の第１のセットに従って前記符号化されたビットストリームを部分的に復号化して中間データストリームを生成し、前記統合トランスコーダは圧縮技術の前記第１のセットと異なる圧縮技術の第２のセットに従って前記中間データストリームを符号化することを特徴とする請求項８に記載のコンピュータ実装方法。
圧縮技術の前記第１のセットは、ＭＰＥＧ−２に関連付けられ、圧縮技術の前記第２のセットは、ＷＭＶに関連付けられ、または、
圧縮技術の前記第１のセットは、ＭＰＥＧ−２に関連付けられ、圧縮技術の前記第２のセットは、ＭＰＥＧ−４に関連付けられること
を特徴とする請求項１３に記載のコンピュータ実装方法。
コンピュータ実装方法であって、
前記符号化されたビットストリームに関連付けられているデータがＤＣＴ領域復号化ループ内で縮小データを得るように圧縮技術の第１のセットを使用して前記符号化されたビットストリームをトランスコードするステップと、
圧縮技術の前記第１のセットまたは圧縮技術の前記第１のセットと異なる圧縮技術の第２のセットに基づいて前記縮小データを目標メディア形式に符号化するステップと
を有することを特徴とするコンピュータ実装方法。
カスケード離散コサイン変換領域（ＣＤＤＴ）デコーダで、前記縮小を実行することを特徴とする請求項１５に記載のコンピュータ実装方法。
前記符号化されたビットストリームを縮小するステップは、さらに、前記符号化されたビットストリームに関連付けられているデータを高精細度分解能から標準精細度分解能に変換するステップを有することを特徴とする請求項１５に記載のコンピュータ実装方法。
前記方法は、さらに、前記符号化の前に、ＤＣＴ領域の外部のピクセル領域内で前記縮小データの分解能を低減するステップを有することを特徴とする請求項１５に記載のコンピュータ実装方法。
前記縮小は、２：１もしくは４：３の第１段階縮小、および目標縮小比に基づいて４：３もしくは全域通過決定の追加の第２段階縮小を結果として生じる２段階縮小であることを特徴とする請求項１５に記載のコンピュータ実装方法。
統合トランスコーダは前記縮小を実行し、前記統合トランスコーダは圧縮技術の第１のセットに従って前記符号化されたビットストリームを部分的に復号化して中間データストリームを生成し、前記統合トランスコーダは圧縮技術の前記第１のセットと異なる圧縮技術の第２のセットに従って前記中間データストリームを符号化することを特徴とする請求項１５に記載のコンピュータ実装方法。