JP2011510566A

JP2011510566A - スケーラブル符号化フレームワーク内でテクスチャ解析及び合成を使用するビデオ符号化システム

Info

Publication number: JP2011510566A
Application number: JP2010543155A
Authority: JP
Inventors: モハメッドゼットヴィシャラム; アリタバタバイ
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-01-16
Filing date: 2009-01-05
Publication date: 2011-03-31
Anticipated expiration: 2029-01-05
Also published as: TW200943968A; US8155184B2; US20090180552A1; CN101911712B; CN101911712A; JP5606326B2; WO2009091625A1

Abstract

スケーラブルビデオ符号化フレームワーク内でテクスチャ解析及び合成技術を使用して高分解能ビデオを効率的に符号化する装置又は方法を提供する。高分解能ビデオ信号が基層に空間的にダウンサンプリング及び復号化される。ダウンサンプリングされた信号及び基層から、テクスチャ及び構造情報が抽出されテクスチャ合成において使用される。合成器の基層からのエッジ情報を利用してテクスチャ合成を構造的及びテクスチャ的に認識し、合成を改善する。合成後、ビデオ品質評価器が、従来のＡＶＣ又はＭＰＥＧ−２符号化などの代替の（非テクスチャ式）符号化方法により、容認不可能な合成領域の強化層符号化を指示する。１つのモードでは、品質評価器が、あるブロックの合成を反復的に改善して、これらを強化層符号化に対して容認できるようにする。装置又は方法は、符号化された基層及び強化層の両方を含む単数又は複数のビットストリームを出力する。
【選択図】図１

Description

本発明は、一般にビデオ符号化に関し、より具体的には、高分解能ビデオの効率的な符号化のためのテクスチャ解析及び合成を使用するスケーラブル符号化フレームワークに関する。

（関連出題との相互参照）
本出願は、２００８年１月１６日に出願された米国仮出願番号６１／０１１，４２８号、及び２００８年９月２２日に出願された米国特許出願番号第１２／２３５，４９９号からの優先性を主張するものであり、これらの出願はその全体が引用により本明細書に組み入れられる。

（連邦政府が支援する研究又は開発に関する記述）
該当なし

（コンパクトディスクで提出された資料の引用による組み入れ）
該当なし

（著作権保護を受ける資料の通知）
この特許文献中の資料の一部は、アメリカ合衆国及びその他の国の著作権法に従って著作権保護を受ける。著作権の権利所有者は、合衆国特許商標庁の一般公開ファイル又は記録内に表されるとおりに特許文献又は特許開示を第三者が複製することには異議を唱えないが、それ以外は全ての著作権を留保する。著作権所有者は、限定的な意味ではないが、米国特許法施行規則§１．１４に従う権利を含み、この特許文献を秘密裏に保持しておく諸権利のいずれも放棄するものではない。

ＡＶＣ／Ｈ．２６４などの現在の単層ビデオ符号化標準の目的は、ＭＰＥＧ−２、Ｈ．２６３、又はＭＰＥＧ−４パート２のような、以前の標準よりも実質的に低いビットレートで良質なビデオ品質を提供できる標準を作成する一方で、複雑性を実用レベルに保つことにあった。この分野におけるさらなる拡張によって、ＳＶＣ標準などのスケーラブルビデオ符号化手法の発展に至り、スケーラブルビデオ符号化は、異なる分解能で動作する数多くの異なるアプリケーション又は装置に適合させるべくビデオを符号化するメカニズムを提供する。スケーラブル符号器は、基層及び少なくとも１つの強化層を含むような複数の層にビデオを符号化する。基層は、最も高い信頼度で送信される必要があるとともに、強化層が依拠する「基準」を含む。

ビデオ符号化標準の符号化効率の改善を模索する中で、さらなるビットレート削減を約束する一方で現在の標準に対して同等の又は改善された映像品質を提供する新技術が現在研究されている。関心が高まっている１つのこのような技術は、テクスチャ解析及び合成の分野に存在する。

ビデオ符号化及び知覚評価における最近の傾向では、オリジナルテクスチャ自体を正確に再現するよりも特定のテクスチャであるという意味合いの方が視聴者にとってより重要であることが示されている。このため、ある等級のテクスチャを納得のいく精度で再現する十分に良好なテクスチャ合成法が提供されれば、特に視聴者がオリジナルテクスチャを見ていなかった場合には、再現されたテクスチャに違いが存在することを確認できなくなる。この技術はビデオ符号化の分野で現在利用されており、符号化効率を大きく進歩させている。

しかしながら、現在利用可能な技術の大部分は、テクスチャ解析及び合成に非常に複雑なスキームを使用する。このようなスキームが高分解能ビデオデータに適用された場合、システムが非常に複雑になる。また、現在の技術の多くは、合成段階中におけるテクスチャ構造の損失を被るか、或いはテクスチャ特性を保持するために追加データ／サイド情報のような構造情報の送信を要求され、この結果、符号化データ／ビットストリームの比率が増える。従って、これらの現行のアプローチには、高度な処理の複雑性、又はビットレートに関する追加のオーバーヘッドが必要となるなどの数多くの短所が存在する。

このため、高度に複雑な処理を必要とせずに高品質な符号化を提供するスケーラブルビデオ符号化のシステム又は方法に対する必要性が存在する。これらの又はその他の必要性は本発明により満たされ、すでに開発されたビデオ符号化システム及び方法の欠点が克服される。

本発明は、スケーラブルビデオ符号化フレームワーク内でテクスチャ解析及び合成を使用して高分解能ビデオを圧縮するための装置及びシステム内で具体化できるビデオ符号化法である。本発明による方法は、より高い符号化効率を目的として、下部空間層からの情報を使用したテクスチャ解析及び合成の概念を利用し、符号化中のコンテンツの性質（例えば、テクスチャ領域、構造領域、平坦領域など）を判定する。

本発明は、基層ビデオからの構造情報を使用してビットレートのオーバーヘッドを軽減するとともによりロバストな合成結果を提供するテクスチャ解析及び合成技術を使用したスケーラブル符号化フレームワークを採用することにより、現在の方法論の短所を軽減する。この結果、本発明の装置及び方法は、現在の技術と比較して高い符号化効率を提供することを目的とした非常に競争力のある符号化パッケージを提供する。

本発明の方法は、先行のテクスチャ解析及び合成を採用したビデオ符号化システムを凌ぐいくつかの利点を提供する。単層ビデオ符号化のテクスチャ解析及び合成を採用する先行スキームには、追加のサイド情報を合成パラメータとともに送信して、合成器が構造を保ちながらテクスチャをうまく生成できるようにする必要があるという難点があった。本発明は、下位層の合成器からエッジ情報を利用して合成を改善する、構造及びテクスチャ認識合成器を提案する。このような実施構成は、空間分解能の低い基層で実行される、いわゆる「低複雑度」のテクスチャ解析を含む。ビデオ品質評価器モジュールを利用して、ある領域の合成を容認又は拒絶する。１つのモードでは、品質評価プログラミングが、わずかに容認不可能な合成領域を強化層の記録に容認可能として提供するために、合成を反復的に改善するように構成される。テクスチャ解析の大半はいくつかの低分解能の基層で行われるので、この方法は、構造を認識した高度なテクスチャ合成の使用に応じて、より空間分解能の高い強化された符号化性能を提供すると同時に低複雑度を提供する。

以下の用語は、仕様に関して一般的に記述するものであり、特定の仕様の詳述を制約するものであると解釈すべきではない。

画像に用いられるような「分解能（ｒｅｓｏｌｕｔｉｏｎ）」という用語は、通常は空間分解能のことを意味するが、本明細書では、この文字列が「時間分解能」又は「空間分解能」を指定しない場合には、「分解能」という単語のもっとも一般的な背景に即して「空間分解能」を意味するとみなすことができる。「高分解能（ｈｉｇｈ−ｒｅｓｏｌｕｔｉｏｎ）」という用語及び「高品位（ｈｉｇｈ−ｄｅｆｉｎｉｔｉｏｎ）」という用語は、両方とも空間分解能の側面を対象としたものであり、本出願の中では、従来のスケーラブル符号化フォーマットの基層において符合化できる空間分解能を超える空間分解能のことを意味する。

ビデオ圧縮において使用されるような「マクロブロック（ＭＢ）」という用語は、１６×１６画素のような画素ブロックを表し、これらは、アレイの形で配列された１６ブロックの４×４画素のような、ブロックの集合としてみなすこともできる。個々のマクロブロックは、４つのＹブロック、１つのＣｂブロック、１つのＣｒブロック（４：２：０）のような個々のカラープレーンの画素を含むが、他の構成は、４：２：２又は４：４：４のＹＣｂＣｒフォーマットを含むことが一般的である。本明細書では、「ブロック」という用語は、通常「マクロブロック」の短縮形として使用される。

本明細書で用いられる「テクスチャ的に認識した（ｔｅｘｔｕｒａｌｌｙａｗａｒｅ）」という用語は、ビデオ内におけるマクロブロック（ブロック）の視覚的テクスチャ特性の認識を意味し、本明細書ではダウンサンプリングビデオから、又はあまり好ましくはないが基本レベルの符号化からテクスチャ情報が抽出される。

本明細書で用いられる「構造的に認識した（ｓｔｒｕｃｔｕｒａｌｌｙａｗａｒｅ）」という用語は、ビデオ内におけるブロックの視覚的構造特性（例えば、エッジ、これらの方向性、厚み、及び同様の構造特性）の認識を意味し、本明細書では基本レベルの符号化から、又はあまり好ましくはないがダウンサンプリングビデオから構造情報が抽出される。

本発明は、以下の説明に限定されるものではないが、この説明を含む数多くの方法で具体化することができる。

本発明の１つの実施形態は、高分解能ビデオシーケンスを符号化する方法であり、この方法は、（ａ）入力として受け取った高分解能ビデオシーケンスに空間的ダウンサンプリングを行って、より低い空間分解能ビデオ信号を有するダウンサンプリングビデオを取得するステップと、（ｂ）従来のビデオ符号化のようないずれかの所望のビデオ符号化メカニズムを利用して、ダウンサンプリングビデオの基層を符号化するステップと、（ｃ）ダウンサンプリングビデオにテクスチャ解析及び分類を実行するステップと、（ｄ）基層の復号化ビデオからの構造情報を判定するステップと、（ｅ）構造情報に応じて、テクスチャ合成対応と判定されたブロックに構造に関する追加情報をテクスチャ合成するステップと、（ｆ）容認可能な形で合成されたブロックに対しては基層の構造解析に応じて強化層を符号化し、容認不可能な形で合成されたブロックに対しては（従来の符号化などの）代替のスケーラブル符号化フレームワークを使用するステップと、（ｇ）符合化基層及び強化層の両方を含むビットストリームを出力するステップと、を含む。

ダウンサンプリングビデオからテクスチャ解析が行われる一方で、基層の符号化から（すなわち、復号化基層から）構造認識が抽出されることが好ましい。テクスチャ合成を実行する前にテクスチャ合成対応ブロックの判定が行われ、対応性のないブロック（非テクスチャブロックと呼ばれる）は、（ＳＶＣのような従来のスケーラブル符号化アプローチなどの）非テクスチャ符号化手段により強化層に符号化される。

ダウンサンプリングビデオから得られる構造及びテクスチャ情報に基づいて行われる合成は、高分解能ビデオ内の合成領域のエッジ情報を保存する。テクスチャ−構造的に認識した合成の後、品質評価プログラミングが、強化層の符号化に対していずれのブロックが視覚的に容認可能かを判定する。容認不可能ブロックは、（ＳＶＣのような）従来の強化層符号化手段などの代替手段により符号化される。

本発明の１つのモードでは、評価によりわずかに容認不可能とされたブロックに追加の合成処理を行って、これらのブロックを容認可能なレベルの映像品質に引き上げる。これらのわずかに容認不可能なブロックは、時間、反復回数、又はその他の指数などの所望の制限内で容認可能な品質レベルに届くことができない場合には容認不可能として扱われる。

本発明の１つの実施形態は、高分解能ビデオシーケンスを符号化する方法であり、この方法は、（ａ）入力として受け取った高分解能ビデオシーケンスに空間的ダウンサンプリングを行って、より低い空間分解能ビデオ信号を有するダウンサンプリングビデオを取得するステップと、（ｂ）従来のビデオ符号化を利用してダウンサンプリングビデオの基層を符号化するステップと、（ｃ）ダウンサンプリングビデオのテクスチャ解析を実行するステップと、（ｄ）ブロックを、テクスチャ合成を行うことができるテクスチャブロック（Ｔブロック）と代替の非テクスチャ符号化を行うことになる非テクスチャブロック（ＮＴブロック）とに分類するステップと、（ｅ）復号化基層から構造情報を取得するステップと、（ｆ）テクスチャ及び構造情報に応じてテクスチャ合成を行うステップと、（ｇ）テクスチャブロックにテクスチャ品質評価を行って、合成領域の視覚的容認可能性を、容認可能、容認不可能、及び任意のわずかに容認不可能なブロックとして分類し、容認可能な形で合成されたブロックの判定を、わずかに容認不可能なブロックを容認可能なレベルの映像品質に引き上げるための反復処理を任意に利用する品質評価プログラミングによって行うステップと、（ｈ）容認可能な形で合成されたブロックに対しては基層の構造解析に応じて強化層を符号化し、容認不可能な形で合成されたブロックに対しては代替の非テクスチャ符号化を使用するステップと、（ｊ）符合化基層及び強化層の両方を含むビットストリームを出力するステップと、を含む。異なる実施構成に応じて、本明細書で説明する方法を、拡張可能な強化層及び／又は２以上の強化層をサポートするように拡張する事ができる。

本発明の１つの実施形態は、高分解能ビデオシーケンスを符号化する方法であり、この方法は、（ａ）高品位ビデオ信号を処理するように構成されたコンピュータと、（ｂ）コンピュータ上で、（ｂ）（i）入力として受け取った高分解能ビデオシーケンスに空間的ダウンサンプリングを行って、より低い空間分解能ビデオ信号を有するダウンサンプリングビデオを取得し、（ｂ）（ii）従来のビデオ符号化のようないずれかの所望のビデオ符号化メカニズムを利用して、ダウンサンプリングビデオの基層を符号化し、（ｂ）（iii）テクスチャ解析及び分類を実行し、（ｂ）（iv）復号化基層のビデオからの構造情報を判定し、（ｂ）（v）基層のビデオからの構造情報に応じて、テクスチャ合成対応と判定されたブロックをテクスチャ合成し、（ｂ）（vi）容認可能な形で合成されたブロックに対しては基層の構造解析に応じて強化層を符号化し、容認不可能な形で合成されたブロックに対しては従来のスケーラブル符号化フレームワークを使用し、（ｂ）（vii）符合化基層及び強化層の両方を含むビットストリームを出力するように実行可能なプログラミングと、を含む。

本発明の１つの実施形態は、コンピュータ上で実行可能なコンピュータプログラムを含むコンピュータ可読媒体であり、このコンピュータプログラムは、（ａ）入力として受け取った高分解能ビデオシーケンスに空間的ダウンサンプリングを行って、より低い空間分解能ビデオ信号を有するダウンサンプリングビデオを取得するステップと、（ｂ）従来のビデオ符号化のようないずれかの所望のビデオ符号化メカニズムを利用して、ダウンサンプリングビデオの基層を符号化するステップと、（ｃ）テクスチャ解析及び分類を実行するステップと、（ｄ）復号化基層からの構造情報を判定するステップと、（ｅ）基層から取得した構造情報に応じて、テクスチャ合成対応と判定されたブロックをテクスチャ合成するステップと、（ｆ）容認可能な形で合成されたブロックに対しては基層の構造解析に応じて強化層を符号化し、容認不可能な形で合成されたブロックに対しては従来のスケーラブル符号化フレームワークを使用するステップと、（ｇ）符合化基層及び強化層の両方を含むビットストリームを出力するステップと、を含むステップに応じて高分解能ビデオを処理するとともにコンピュータにスケーラブル符号化を引き起こさせるように構成される。

本発明は、単独で又は本教示から逸脱しないいずれかの組み合わせで実施できるいくつかの有利な面を提供する。

本発明の１つの態様は、高品位ビデオのスケーラブルビデオ符号化を引き起こすための装置及び方法である。

本発明の別の態様は、構造的に認識した高度なテクスチャ合成の使用に応じて高い符号化性能を提供する高品位符号器である。

本発明の別の態様は、復号化済みの基層から判定されるような構成の認識に応じて合成領域のエッジ情報を保存する高品位符号器である。

本発明の別の態様は、基層及び強化層を生成する高品位符号器である。

本発明の別の態様は、構造を認識するテクスチャ合成器を使用する高品位符号器である。

本発明の別の態様は、基層から（エッジの範囲、位置及び方向などの）エッジ情報を抽出する構造認識テクスチャ合成器である。

本発明の別の態様は、高品位ビデオ入力からダウンサンプリングされた後のデータに対して行われる低複雑度レベルのテクスチャ合成を利用する高品位符号器である。

本発明の別の態様は、生成された強化層内に合成結果を選択的に受け入れるための品質評価器を使用する高品位符号器である。

本発明の別の態様は、わずかに容認不可能な合成ブロックを強化層内で使用できるように処理しようと反復的に試みる品質評価器である。

本発明の別の態様は、十分に修正されなかったわずかに容認不可能なブロックを含む容認不可能な合成ブロックを、従来の技術などの代替の非テクスチャ手段で符号化されるように移管する品質評価器である。

本発明の別の態様は、容認可能に合成されなかったブロックを符号化するための、ＡＶＣ又はＭＰＥＧ−２プロトコルなどの代替の非テクスチャ手段を利用する高品位符号器である。

本発明のさらに別の態様は、装置、システム、方法として、コンピュータ上で実行可能なプログラミングとして、媒体上で又は通信ネットワークを介して配信されるように、及び１又はそれ以上の関連するコンピュータにより実行されるように、及びこれらを組み合わせるように構成されたプログラミングとして実装できる高品位符号器である。

本発明のさらなる態様は明細書の以下の部分において明らかになり、この詳細な説明は、本発明をこの詳細な説明に限定することなく好ましい実施形態を完全に開示することを目的とする。

例示のみを目的とした以下の図面を参照することにより、本発明をより完全に理解することが出来る。

本発明の実施形態による、テクスチャ解析及び構造的合成を使用したスケーラブルビデオ符号化のブロック図である。本発明の実施形態による強化層符号化ステップのフロー図である。本発明の態様による詳細な強化層符号化ステップのフロー図である。本発明の態様によるシステム内のコンピュータ及びメモリを示す、基層及び強化層を含むビットストリームを生成するように構成されたシステム（又は装置）のブロック図である。

図面をより具体的に参照すると、本発明は、例示として図１〜図４に大まかに示す装置及び方法の形で具体化される。本明細書で開示するような基本概念から逸脱することなく、装置（又はシステム）は構成及び各部分の詳細が異なってもよく、方法はステップ及び順序が異なってもよい。

図１は、本発明による、スケーラブルビデオ符号化システムの実施形態例１０を示しており、このシステムは、基層又はダウンサンプリングビデオなどの下位空間層から構造及びテクスチャ認識を取得するテクスチャ解析及び合成を利用する。図１に示す機能ブロックは、本発明の態様の実現に必要な処理を都合良く分割して提供するものであり、個々のブロックの境界によってこれらの機能を分離することを求めるものではない。当業者であれば、本発明の教示から逸脱せずに、正確なモジュール定義を保持することなく本発明の教示を容易に採用することができるであろう。従って、本発明の教示から逸脱することなく本発明の機能を様々な方法で組み合わせ、又は分離することができる。以下の説明では、これらの機能について言及するために「モジュール」という便利な用語をしばしば使用するが、この単語の使用は、機能の特定の物理的な分離又は包括の制限を暗示するものではない。

（高品位（ＨＤ）などの）高分解能ビデオシーケンス１２を入力として使用し、これを（ダウンサンプリングフィルタなどの）空間的ダウンサンプリング手段１４に通して低分解能ビデオ信号を取得し、これをＡＶＣ対応基層１６に代表されるようないずれかの所望のビデオ符号化システムを使用して符合化することができるが、ＭＰＥＧ−２及びその他のプロトコルを使用することもできる。このダウンサンプリングされた低空間分解能信号は、テクスチャ解析モジュール１８及びビデオ符号化システムの実施形態の残り部分への入力信号として使用される。

基層の符号化と並行して、テクスチャ解析モジュール１８が、一般的には単純に「ブロック」と呼ばれる入力ビデオ内マクロブロック（ＭＢ）の各々をテクスチャ合成との適合性に関して分類する。例えば、個々のブロックは、入力信号の時空間特性に基づく解析及びその後の判定に応じて、本明細書ではテクスチャブロック（Ｔブロック）２０と呼ぶテクスチャ合成の候補、又は非テクスチャブロック（ＮＴブロック）２２のいずれかとして分類される。

Ｔブロックとして分類されたブロックは、到来するテクスチャブロック「Ｔ」の特性を正確にカテゴリ化して次のテクスチャ合成器２６が適正な合成メカニズムを後から使用できるようにするという主機能を有するテクスチャ分類器２４を使用したさらなる絞り込みを通じて処理される。テクスチャ分類器は、例えば石及び花などのように非常に堅い例から、水及び煙などのようにそれほど堅くない例までの様々なローカル特性に基づいてＴブロックを分離することにより、合成モジュールがこのようなテクスチャによりふさわしい合成スキームを適用できるようにすることができる。テクスチャ合成器もまた、構造認識モジュール２８から入力を受け取る。本発明の方法において構造認識を使用する１つの重要な側面は、この構造認識が、通常であれば合成中に失われる合成領域内のエッジ情報を保存するという点である。構造に関する情報は基層の復号化ビデオ１６から得られる。単純なエッジ検出技術を採用することにより、或いは基層のビデオにより複雑な時空間分離技術を適用することにより、エッジの形の構造情報の範囲及び方向を得ることができる。基層１６はテクスチャ合成を受けないので、基層が乱暴に量子化されていない限りオリジナルのエッジ情報の大半が保存される。基層からの構造情報はエッジ情報を含むとともに、これらのエッジ／構造の範囲及び方向を記述することができる。構造認識合成器２６は、この構造情報を基層から受け取って合成処理を強化し導く。少なくとも１つの実施構成では、テクスチャ合成が、復号化済みの基層において入手可能なテクスチャ情報を使用してこれを合成処理中に役立てる。図１には合成器２６を基層１６につなぐフロー線が見られ、合成モジュールは、基層からの低分解能テクスチャ情報を利用して、これを高分解能層の合成処理において役立てることができる。

次に、合成領域の合成データが、合成出力の容認可能性を判定する品質評価器モジュール３０に出力される。１つの好ましい実施構成では、評価器が、合成領域が（１）視覚的に容認可能、（２）視覚的に容認不可能、又は（３）わずかに容認不可能のいずれであるかを判定する。合成領域が容認可能であれば、解析／合成パラメータ３２が、関連するマスクとともに強化層３４内へ受け入れられる。領域合成が容認不可能な場合、合成が拒否され（３６）、この合成領域の拡張符号化がスキップされて、好ましくはＮＴブロックの符号化に利用されるものと同じアプローチに従うような非構造的認識符号化法が利用される。わずかに容認不可能な合成の場合、品質評価器３０による反復絞り込み処理が開始され（３８）、この処理は、合成が容認可能になるまで、或いは処理の限界に達して最終的に合成が拒否される（３６）まで動作することが好ましい。図から、結果として得られる強化層及び基層がビットストリーム４６に組み合わせられる（４４）ことに留意されたい。

ＮＴブロックとして分類されたブロックの処理について検討すると、図は、代替の符号化メカニズムによるこれらのブロックの処理を示している。この代替の符号化には、従来のスケーラブル符号化フレームワークのようないずれかの所望の符号化フレームワークを利用することができる。

図示の例では、基層ブロックがイントラ符号化されていた場合、この基層ブロックを復号化し、オリジナルの入力済み高品位ビデオ信号１２を使用して残余符号器４２でアップサンプリングして（４０）強化層３４を符号化する。

しかしながら、基層ブロックがインター符号化されていた場合、基層ブロックからの動きベクトル情報（ｍｖ）がアップサンプリングされ、以下は限定ではなく一例として２つの例及び下位分類について説明するものである。
（１）アップサンプリングされた動きベクトルが、強化層の基準フレーム内の非合成領域に含まれる場合、絞り込みｍｖが計算され、残りが絞り込みｍｖとともに符号化される。
（２）このアップサンプリングされた動きベクトルが、基準フレーム内の合成領域内に含まれる場合、（ａ）現在のブロックを合成された基準ブロックと置き換え、残りは送らない、又は（ｂ）基層のインター符号化ブロックを復号化し、信号をアップサンプリングして、強化層のビデオから得た残りを符号化するという複数の復号機を必要とする可能性のある処理、の２つの選択肢が考えられる。

上記の処理の結果、高品位ビデオがスケーラブルビットストリームに符号化され、このスケーラブルビットストリームでは、基層が（ＡＶＣ又はＭＰＥＧ−２などの）従来のビデオ符号化システムに準拠し、強化層がテクスチャ及び非テクスチャ符号化の混合を使用する。

テクスチャ解析は低空間分解能の基層で行われるので、これは低複雑度の解析である。合成処理は、構造及びテクスチャの認識に応じて行われる。この合成処理では、合成は、合成を使用することができるか、さらなる作業が必要か、或いは従来の拡張符号化アプローチのような代替方法に敬意を表して合成を拒否するかを決定する品質評価器モジュールの動作に応じて「選択余地のある」提案となる。全体的に見て、本発明の装置及び方法は、テクスチャ及び構造合成の高度な使用の結果、空間分解能の高い改善された符号化性能を提供する。

図２は、本発明のテクスチャ及び構造的に認識した強化層符号化の実施形態を示している。フロー図を参照すると、ビデオ操作を行う対象のマクロブロック（ブロック）との混乱を最小限に抑えるために、図の個々のフローチャートの「ブロック」について言及する際には「ステップ」という用語を使用する。当業者であれば、本発明の教示から逸脱することなく具体的なステップ又は順序の変更を実施することができる。高品位ビデオの受け取りをステップ５０で示しており、ステップ５２においてこれが空間的にダウンサンプリングされ、その後ステップ５４により基層に符号化される。ステップ５６において、ダウンサンプリングビデオ基層にテクスチャ解析が行われ、ステップ５８において、ブロックがＴブロック（テクスチャ合成可能ブロック）及びＮＴブロック（非テクスチャ合成可能ブロック）として分類される。ステップ６０において行われる追加のテクスチャ分類及び構造的に認識したテクスチャ合成によりＴブロックのさらなる絞り込みが行われる。合成された情報から、強化層の符号化６２が、非テクスチャ符号化ブロックからの符号化と組み合わせて行われる。ステップ６４は、基層及び少なくとも１つの強化層を含む少なくとも１つのビットストリームを出力するステップを示す。ほとんどのアプリケーションでは、基層及び（単複の）強化層を含む単一のビットストリームが出力されるが、追加の処理を実行するためなどの情報を基層及び強化層から別々に受け取るように選択アプリケーションを構成することができる。

図３は、図２に示していない追加の詳細を示す、本発明のテクスチャ及び構造的に認識した強化層符号化の実施形態を示している。高分解能ビデオの受け取りをステップ７０で示しており、これがステップ７２において空間的にダウンサンプリングされ、その後これがステップ７４において基層に符号化される。ステップ７６において、ダウンサンプリングビデオ基層にテクスチャ解析が行われ、ステップ７８において、ブロックがＴブロック及びＮＴブロックに分類される。ステップ８０において、エッジの存在及び位置に関する情報を含む構造情報が基層から求められる。Ｔブロックのさらなる絞り込みが追加のテクスチャ分類とともに行われ、その後ステップ８２において、構造的に認識したテクスチャ合成が行われる。次にステップ８４で示すように、品質評価処理により、合成領域のテクスチャブロックが容認可能又は容認不可能として分類される。本発明の好ましいモードでは、ステップ８４において、領域を任意にわずかに容認不可能として分類することができ、この場合任意のステップ８６において、わずかに容認不可能なブロックを容認可能なレベルの合成映像品質に引き上げるために反復処理が実行される。合成領域を容認可能な品質レベルに引き上げる試みは、時間、反復回数、又はその他の閾値メカニズムに関して制限を有するが、これにより全体的な符号化処理が妨げられることはない。ステップ８８において、ＡＶＣ又はＭＰＥＧ−２符号化を含む従来のビデオ符号化のような代替の非テクスチャ符号化方法により、容認不可能ブロックの処理が行われる。合成情報から、強化層がステップ９０において非テクスチャ符号化ブロックからの情報と組み合わせて符号化される。最終的に、ステップ９２は、基層及び強化層を含むビットストリーム（又は少なくとも１つのビットストリーム）を出力するステップを示す。

図４は、コンピュータプロセッサ対応装置１１０との関連における本発明の実施構成を示している。ビデオソースが高分解能信号１１２を提供し、これが少なくとも１つのメモリ１１６へのアクセス権を有する（ＣＰＵ、マイクロプロセッサ、ＤＳＰ、プロセッサコアを含むＡＳＩＣなどの）少なくとも１つのコンピュータ処理要素１１４により受け取られ、このメモリ１１６から、本発明による方法を実施するための、及び基層と少なくとも１つの強化層とを含む少なくとも１つのビットストリーム１１８などのデータ出力を生成するための命令が実行される。

メモリ１１６は、コンピュータが処理するための実行可能命令を受け入れる（静的ランダムアクセスメモリ（ＳＲＡＭ）、動的ランダムアクセスメモリ（ＤＲＡＭ）、フラッシュメモリ、読み出し専用メモリ（ＲＯＭ）、及びその他の形のデジタルメモリなどの）内部半導体メモリのようなあらゆる所望のメモリ形式及びこれらの組み合わせを含むとともに、半導体メモリ、媒体装置、ネットワークなどを含む外部メモリソースから情報を受け取る。

本発明による構造的に認識したテクスチャ合成処理に応答して、スケーラブルビデオ符号化を含む１又はそれ以上のビットストリーム１１８が出力される。本発明のスケーラブルビデオ出力は、ビデオ出力１２０、（インターネットなどを介した）通信１２２、記憶装置１２４などに関連する数多くの用途において、及び様々なビデオ対応システム１２６内で利用することができる。従って、スケーラブル符号化技術を適用できる数多くの異なる用途範囲に本発明を適用することができる。

上記の説明は多くの詳細を含んでいるが、これらは本発明の範囲を限定するものではなく、現在のところ本発明の好ましい実施形態の一部を例示するためのものにすぎないと解釈すべきである。従って、本発明の範囲は、当業者にとって明らかになると考えられる他の実施形態も完全に含み、従って本発明の範囲は、添付の特許請求の範囲以外のいかなるものによっても限定すべきものではなく、特許請求の範囲では、単数形による要素への言及は、明述しない限り「唯一」を意味するものではなく、「１又はそれ以上」を意味することが意図されると理解できるであろう。当業者に周知の上述の好ましい実施形態の要素の構造上及び機能上の同等物は、引用により本明細書に明確に組み入れられ、本特許請求の範囲に含まれることが意図されている。さらに、本発明が解決しようとする個々の及び全ての問題は本特許請求の範囲に含まれるため、装置及び方法によりこれらの問題に対応する必要はない。さらに、本開示の要素、構成要素又は方法ステップは、これらが特許請求の範囲に明示されているかどうかにかかわらず、一般に開放することを意図されたものではない。本明細書に記載される請求項の要素は、この要素が「〜のための手段」という表現を使用して明確に示されない限り、米国特許法１１２条第６項の規定により解釈すべきではない。

１０スケーラブルビデオ符号化システム
１２高分解能ビデオ入力
１４空間的ダウンサンプリング器
１６ＡＶＣ対応基層
１８基層でのテクスチャ解析
２０テクスチャ（Ｔ）ブロック
２４テクスチャ分類器
２６テクスチャ／構造合成器
２８構造的認識
３０品質評価器
３２容認
３４ＴＡＳ／ＳＶＣスキームを利用しで強化層を符号化
３６拒否
３８絞り込み
４０基準ブロックのアップサンプリング
４２残りの符号化
４４組み合わせ
４６ビットストリーム

Claims

高分解能ビデオシーケンスを効率的に符号化する方法であって、
入力として受け取った高分解能ビデオシーケンスに空間的ダウンサンプリングを行って、より低い空間分解能ビデオ信号を有するダウンサンプリングビデオを取得するステップと、
従来のビデオ符号化を利用して前記ダウンサンプリングビデオの基層を符号化するステップと、
前記ダウンサンプリングビデオからのテクスチャ解析及び分類を実行するステップと、
前記復号化した基層からの構造情報を判定するステップと、
前記構造情報に応じて、テクスチャ合成対応と判定されたブロックにテクスチャ合成を行うステップと、
容認可能な形で合成されたブロックに対しては前記基層の構造解析に応じて強化層を符号化し、容認不可能な形で合成されたブロックに対しては従来のスケーラブル符号化フレームワークを使用するステップと、
前記符合化基層及び強化層を含む少なくとも１つのビットストリームを出力するステップと、
を含むことを特徴とする方法。
前記テクスチャ解析が、前記ダウンサンプリングビデオから実行される、
ことを特徴とする請求項１に記載の方法。
前記テクスチャ合成対応ブロックの判定が、ブロックのテクスチャ解析と、及びテクスチャ合成（Ｔブロック）及び非テクスチャブロック（ＮＴブロック）を含むテクスチャブロックへの分類とを行うステップを含み、前記非テクスチャブロック（ＮＴブロック）には代替の非テクスチャ符号化が行われる、
ことを特徴とする請求項１に記載の方法。
テクスチャ合成の視覚的容認可能性を評価し、テクスチャブロックを容認可能又は容認不可能として分類するステップをさらに含む、
ことを特徴とする請求項１に記載の方法。
わずかに容認不可能な容認不可能ブロックを判定し、これらのブロックに追加の合成処理を行って、これらのブロックを容認可能なレベルの視覚的品質に引き上げるステップをさらに含む、
ことを特徴とする請求項４に記載の方法。
前記ブロックが、時間又は反復回数という所望の制限内で容認可能な品質レベルに届くことができなかった場合には容認不可能とみなされる、
ことを特徴とする請求項５に記載の方法。
前記ダウンサンプリングビデオから得た前記構造情報に基づく合成が、前記高分解能ビデオ内の前記構造的認識データに応じて合成領域のエッジ情報を保存する、
ことを特徴とする請求項１に記載の方法。
前記合成が、前記高分解能層の合成処理中に前記復号化基層からの低分解能テクスチャ情報を利用する、
ことを特徴とする請求項１に記載の方法。
前記方法が、高品位ビデオ信号を処理するように構成された、コンピュータ上におけるプログラミングの実行に応答して行われる、
ことを特徴とする請求項１に記載の方法。
高分解能ビデオシーケンスを効率的に符号化する方法であって、
入力として受け取った高分解能ビデオシーケンスに空間的ダウンサンプリングを行って、より低い空間分解能ビデオ信号を有するダウンサンプリングビデオを取得するステップと、
従来のビデオ符号化を利用して前記ダウンサンプリングビデオの基層を符号化するステップと、
前記ダウンサンプリングビデオを、テクスチャ合成を行うことができるテクスチャブロック（Ｔブロック）と、代替の非テクスチャ符号化を行うことになる非テクスチャブロック（ＮＴブロック）とにテクスチャ分析するステップと、
Ｔブロックを、非常に堅いものから堅くないものまで様々なカテゴリにテクスチャ分類することにより、該分類に応じた効果的な合成技術を実行できるようにするステップと、
前記基層から構造情報を取得するステップと、
前記構造情報に応じてテクスチャ合成を行うステップと、
テクスチャブロックにテクスチャ品質評価を行って、合成領域の視覚的容認可能性を、容認可能、容認不可能、及びわずかに容認不可能として分類し、容認可能な形で合成されたブロックの判定を、わずかに容認不可能なブロックを容認可能なレベルの映像品質に引き上げるために反復処理を利用する品質評価プログラミングによって行うステップと、
容認可能な形で合成されたブロックに対しては基層の構造解析に応じて強化層を符号化し、容認不可能な形で合成されたブロックに対しては代替の非テクスチャ符号化を使用するステップと、
符合化基層及び強化層を含む少なくとも１つのビットストリームを出力するステップと、
を含むことを特徴とする方法。
前記テクスチャ分類するステップが、前記ダウンサンプリングビデオの時空間特性に応じて、該ダウンサンプリングビデオ内の個々のブロックをそのテクスチャ合成能力に関して特徴付けるステップを含む、
ことを特徴とする請求項１０に記載の方法。
前記代替の非テクスチャ符号化が、ＡＶＣ又はＭＰＥＧ−２プロトコルを利用する従来のビデオ符号化を含む、
ことを特徴とする請求項１０に記載の方法。
前記代替の非テクスチャ符号化が、
ブロックがイントラ符号化された非テクスチャブロックであると判断した場合、前記基層ブロックを復号化し、アップサンプリングし、オリジナルの入力済み高品位ビデオ信号を使用して残余計算するステップと、
ブロックがインター符号化された非テクスチャブロックであると判断した場合、前記基層からの動きベクトル情報（ｍｖ）をアップサンプリングするステップと、
を含み、
（i）ｍｖが、前記強化層の基準フレーム内の非合成領域内にある場合、ｍｖの絞り込みを計算し、その後残りの及び絞り込みｍｖを符号化し、又は、
（ii）ｍｖが、前記強化層の基準フレームの合成領域内にある場合、合成された基準ブロックを現在のブロックと置き換え、又は、
（iii）ｍｖが、前記強化層の基準フレームの合成領域内にある場合、基層インターブロックを復号化し、ダウンサンプリングビデオをアップサンプリングし、強化層ビデオからの残りを少なくとも１つの復号機を通じて符号化する、
ことを特徴とする請求項１０に記載の方法。
前記方法は、基層の復号化に応じて構造を認識し、構造的特徴を抽出すること、
を特徴とする請求項１０に記載の方法。
前記構造的特徴が、エッジの範囲又は構造並びにその位置及び方向を含む、
ことを特徴とする請求項１４に記載の方法。
テクスチャ合成を受けない復号化済み基層から構造情報を取得することにより構造的特徴が保存される、
ことを特徴とする請求項１５に記載の方法。
前記テクスチャ合成が、エッジの存在、範囲及び位置、及び構造に関する構造情報に応じて行われる、
ことを特徴とする請求項１０に記載の方法。
前記テクスチャ合成が、前記高分解能層の合成処理中に前記復号化基層からの低分解能テクスチャ情報を利用する、
ことを特徴とする請求項１０に記載の方法。
高分解能ビデオシーケンスの効果的な符号化のための装置であって、
高品位ビデオ信号を処理するように構成されたコンピュータと、
前記コンピュータ上で、
高分解能ビデオシーケンス入力に空間的ダウンサンプリングを行って、低空間分解能ビデオ信号を有するダウンサンプリングビデオを取得するステップと、
非テクスチャビデオ符号化を利用して、前記ダウンサンプリングビデオの基層を復号化基層に符号化するステップと、
テクスチャ解析及び分類を行うステップと、
前記復号化基層からの構造情報を判定するステップと、
前記復号化基層からの前記構造情報に応じて、テクスチャ合成対応と決定されたブロックにテクスチャ合成を行うステップと、
容認可能な形で合成されたブロックには、符号化基層からの構造情報に応じて強化層を符号化し、合成されなかったブロック又は容認可能な合成結果が得られなかったブロックには非テクスチャ符号化フレームワークを使用するステップと、
符号化済み基層及び強化層を含む少なくとも１つのビットストリームを出力するステップと、
を実行可能なプログラミングと、
を含むことを特徴とする装置。
コンピュータ上で実行可能なコンピュータプログラムを含むコンピュータ可読媒体であって、前記コンピュータプログラムは、
入力として受け取った高分解能ビデオシーケンスに空間的ダウンサンプリングを行って、より低い空間分解能ビデオ信号を有するダウンサンプリングビデオを取得するステップと、
非テクスチャビデオ符号化を利用して、前記ダウンサンプリングビデオの基層を復号化基層に符号化するステップと、
テクスチャ解析及び分類を実行するステップと、
前記復号化済み基層からの構造情報を判定するステップと、
前記復号化済み基層から取得した前記構造情報の受け取りに応答して、テクスチャ合成対応と判定されたブロックをテクスチャ合成するステップと、
容認可能な形で合成されたブロックには、基層からの構造情報に応じて強化層を符号化し、合成されなかったブロック又は容認可能な合成結果が得られなかったブロックには非テクスチャ符号化フレームワークを使用するステップと、
符号化済み基層及び強化層を含む少なくとも１つのビットストリームを出力するステップと、
を含むステップに応じて高分解能ビデオを処理するとともにコンピュータにスケーラブル符号化を引き起こさせるように構成される、
ことを特徴とするコンピュータ可読媒体。