JP2024514681A

JP2024514681A - ハイブリッド特徴ビデオ・ビットストリーム用のシステム、方法、及びビットストリーム構造、及びデコーダ

Info

Publication number: JP2024514681A
Application number: JP2023564047A
Authority: JP
Inventors: アジッチヴェリボール; カルバハリ; ファートボリヴォイェ
Original assignee: オーピーソリューションズ，エルエルシー
Priority date: 2021-04-22
Filing date: 2022-04-20
Publication date: 2024-04-02
Also published as: WO2022226087A1; KR20230175240A; US20240114147A1; EP4327555A1; CN117356092A

Abstract

ハイブリッド特徴ビデオ・ビットストリームの符号化及び復号化用の方法及びシステムを提供する。符号化は複数のモードのうちの１つで実行することができる。１つのモードでは、符号化されたビットストリームのビデオ成分が、特徴データと入力ビデオデータとの差を符号化して生成された残差データを含む。対応するデコーダは複数の復号化モードで動作することができる。１つの復号化モードでは、ビットストリーム中の符号化されたビデオ及び符号化された特徴データを用いてビデオ成分を復号化する。エンコーダとデコーダとの間のハイブリッド・ビットストリームは、複数のハイブリッド・セグメントで形成され、各セグメントは、当該セグメントの特徴及びビデオの内容の特性を指定する複数の成分を有する。

Description

発明の分野
本発明は一般にビデオ圧縮の分野に関するものである。特に、本発明は、ハイブリッド特徴ビデオ・ビットストリーム用の方法及びシステム、及びデコーダに指向したものである。

背景
ビデオは一般に人間の消費向けの媒体として考えられてきたが、先進の工業プロセス、自律走行車、ＩｏＴ（Internet of Things：物のインターネット）等のような機械用途におけるビデオの利用向けの成長する用途が存在する。これらの用途は、成長し続け、増加する需要をビデオチャネルの帯域幅にもたらし続けることが予期される。一部の用途では、人間及び機械の消費の両方にとって最適化されたビデオ・コンテンツを提供することが望ましい。こうしたビットストリームをハイブリッド・ビットストリームと称することがある。提案するビットストリーム及びデコーダの有用性は、主として、ビットストリームを人間の視聴者、及び映像データを分析する機械の両方に伝送するシナリオにとっての有用性である。ビットストリームのビデオ部分は人間の視聴者用を意図し、ビットストリームの特徴部分は機械による分析用を意図している。従って、人間及び機械の用途の両方に適したビデオ・コンテンツを圧縮し、符号化して効率的に伝送することができるシステム及び方法を開発することが有益である。

５Ｇ（fifth generation：第５世代）及びＩｏＴのような技術及び概念に関連したエッジデバイスの急増及び自動ビデオ分析の増加は、機械をエンドユーザと考えるビデオ符号化（コーディング）用の規格の必要性を提起した。

現在の最先端の方法は、エッジデバイスからの全信号を記録し、符号化してサーバーへ送信することである。サーバー上では、信号のビットストリームを復号化して、分析及び処理用の機械（マシン）アルゴリズムに渡す。こうした方法の例は、とりわけ、アマゾン社のエコー・ウィズ・アレクサ（Echo with Alexa：登録商標）、グーグル社のホーム・ウィズ・アシスタント（Home with Assistant：登録商標）、及びアップル社のシリ（Sili：登録商標）付きの機器である。これらの機器は主に音（オーディオ信号）を処理し、そのペイロードは過度に大きくはない。

しかし、リング・ドアベル（Ring Doorbell：登録商標）のようなビデオを処理する機器にとっては、ネットワークの帯域幅及び利用可能性に対する要求が非常に高い。これらの高過ぎる要求を軽減するために、他の方法が提案されている。機器自体が、処理の早期段階の一部を行って、圧縮した特徴のみをサーバーへ送信する。このようにして、エッジ上での計算の複雑性という犠牲を払ってペイロードを大幅に低減する。ペイロードの低減（低いネットワーク使用量）と計算の複雑性（高いバッテリ使用量）とのトレードオフには、適応的権限委譲によって応えることができる。処理は、全体をエッジデバイスによって行うことも、エッジデバイスとサーバーとの間で権限委譲し合うことも、全体をサーバー上で行うこともできる。

ビデオ・コーデック（符号化復号化器）は、デジタルビデオを圧縮または復元（解凍）する電子回路またはソフトウェアを含むことができる。ビデオ・コーデックは、非圧縮のビデオを圧縮フォーマットに変換することも、その逆もできる。ビデオ圧縮の関連では、ビデオを圧縮（及び／またはその一部の機能を実行）する機器を一般にエンコーダ（符号化器）と称することがあり、ビデオを復元（及び／またはその一部の機能を実行）する機器をデコーダ（復号化器）と称することがある。

圧縮されたデータのフォーマットは、標準的なビデオ圧縮仕様に適合することができる。この圧縮は、圧縮されたビデオが元のビデオ中に存在する情報の一部を欠く点で有損失であり得る。このことの結果は、復元されたビデオが元の非圧縮のビデオよりも低い品質を有することがある、ということを含み得る、というのは、存在する情報が元のビデオを正確に再構成するには不十分だからである。

ビデオの品質、ビデオを表現するために使用するデータの量（例えば、ビットレートによって決まる）、符号化及び復号化アルゴリズムの複雑性、データ損失及びエラーに対する感受性、編集の容易性、ランダムアクセス、エンド－ツー－エンド（エンド間）の遅延（例えば、レイテンシ）等の間には複雑な関係が存在し得る。

動き補償は、以前の及び／または将来のフレームのような参照フレームが与えられると、ビデオ中のカメラ及び／または物体の動きを明らかにすることによって、ビデオフレームまたはその一部分を予測する方法を含むことができる。動き補償は、ビデオデータの符号化及び復号化において、例えばモーション・ピクチャー・エキスパート・グループ（ＭＰＥＧ：Motion Picture Experts Group）のアドバンスト・ビデオ・コーディング（ＡＶＣ：Advanced Video Coding）規格（Ｈ．２６４とも称する）を用いた符号化及び復号化において、ビデオ圧縮用に用いることができる。動き補償は、参照画像から現在画像への変化の観点から画像を記述することができる。参照画像は、現在画像と比べると以前の時点とすることができ、現在画像と比べると将来の画像からのものとすることができる。以前に送信された及び／または記憶している画像から画像を正確に合成することができると、圧縮効率を向上させることができる。

１つの好適例では、ビデオ成分及び特徴成分をサポートするビデオストリーム用のハイブリッド・デコーダが提供される。ハイブリッド・デコーダはデマルチプレクサ（多重分離器）を含み、デマルチプレクサは、ビットストリームを受信し、受信したビットストリームを解析してビデオ成分と特徴成分にする。ビデオデコーダがデマルチプレクサに結合され、ビットストリームのビデオ成分を受信する。特徴デコーダもデマルチプレクサに結合され、ビットストリームの特徴成分を受信する。特徴デコーダはビデオデコーダにも結合されて、特徴データを選択的にビデオデコーダに提供して、ビデオ復号化を促進することが好ましい。機械（マシン）モデルが特徴デコーダに結合されている。上記ハイブリッド・デコーダは、少なくとも第１復号化モード及び第２復号化モードを有することが好ましく、第１復号化モードではビットストリームのビデオ成分と特徴成分とを独立して復号化し、第２復号化モードでは、ビットストリーム中の特徴成分を部分的に用いて、ビットストリーム中のビデオ成分を復号化する。

一部の好適例では、ビットストリーム中のビデオ成分が、特徴データと入力ビデオデータとの差を符号化することによって得られた残差データを含み、第２復号化モードでは特徴デコーダが特徴データをビデオデコーダに提供する。

一部の例示的な好適例では、デコーダがビットストリームの属性に基づいて復号化モードを決定する。

上記ハイブリッド・ビットストリームが複数のセグメントを含み、各セグメントが、当該セグメント内の特徴成分及びビデオ成分を規定する複数の成分を含むことが好ましい。各セグメントはハイブリッドサイズ成分を含むことができ、上記復号化モードは、少なくとも部分的に、ハイブリッドサイズ成分の特性によって決定することができる。特定の好適例では、各セグメントを別個に復号化し、復号化モードをセグメント毎に決定する。

本発明は、特徴成分及びビデオ成分を有する符号化されたハイブリッド・ビデオデータ用のビットストリーム構造も提供する。このビットストリームは、複数のハイブリッド・ビットストリーム・セグメントを含むことが好ましく、各ビットストリーム・セグメントは複数の成分を含む。例示的な成分は、ハイブリッドサイズ成分；メタデータ成分；特徴ヘッダ；特徴ペイロード；ビデオヘッダ：及びビデオ・ペイロードを含むことができる。

本発明は、ハイブリッド・ビットストリームを生成するためのハイブリッド・エンコーダも提供する。ハイブリッド・エンコーダの１つの好適例は、入力ビデオストリームを受信して、このビデオストリームをビデオ処理及び特徴処理の両方用に多重化するプリプロセッサ（前処理装置）を含む。ビデオ成分を人間の視聴用に圧縮し符号化してビットストリーム中に含めるためのビデオエンコーダを提供する。特徴抽出器も提供する。特徴抽出器は機械モデルに結合され、機械モデルは特徴抽出用のパラメータをその後の機械処理用に提供する。特徴抽出器は、ビデオエンコーダに動作的に結合され、特徴データを選択的にビデオエンコーダに提供することが好ましい。特徴エンコーダが、特徴データを特徴抽出器から受信して、特徴データをハイブリッド・ビットストリームに含めるために符号化する。マルチプレクサ（多重化器）が、ビデオエンコーダ及び特徴エンコーダに結合されて、これらからハイブリッド・ビットストリームを生成する。

一部の例示的な好適例では、ハイブリッド・エンコーダが少なくとも第１符号化モード及び第２符号化モードで動作し、第１符号化モードではビットストリームのビデオ成分と特徴成分とを独立して符号化し、第２符号化モードでは、特徴エンコーダからの特徴成分を部分的に用いて、ビットストリーム中のビデオ成分を符号化する。１つの追加的な例では、第２符号化モードで、ビデオエンコーダが、特徴データと入力ビデオデータとの差を符号化することによって残差データを生成する。

上記ハイブリッド・エンコーダは、複数のハイブリッド・ビットストリーム・セグメントを含むハイブリッド・ビットストリームを生成することが好ましい。一例では、各ビットストリーム・セグメントが複数の成分を含む。例示的な成分の集合は：ハイブリッドサイズ成分；メタデータ成分；特徴ヘッダ；特徴ペイロード；ビデオヘッダ；及びビデオ・ペイロードを含む。

本発明の非限定的な好適例のこれら及び他の態様及び特徴は、以下の本発明の具体的で非限定的な実施形態を、添付した図面と共に検討すると、当業者にとって明らかになる。

本発明を説明する目的で、これらの図面は、本発明の１つ以上の実施形態の態様を示す。しかし、本発明は、図面中に示す正確な構成及び手段に限定されないことを理解するべきである。

ハイブリッドビデオ用途における使用に適したエンコーダ及びデコーダの例示的な実施形態の簡略化したブロック図である。ハイブリッド・ビットストリーム構造の例示的な実施形態を示す図である。ハイブリッド・ビットストリーム構造の例示的な実施形態を示す図である。ハイブリッド・ビットストリーム用の復号化プロセスの例示的な実施形態の流れ図である。現在の復号化プロセスの例示的な具体例における使用に適した復号化モード選択を図示する流れ図である。ビデオデコーダの例示的な実施形態の簡略化したブロック図である。ビデオエンコーダの例示的な実施形態の簡略化したブロック図である。本明細書中に開示する方法のいずれか１つ以上、及びそのいずれか１つ以上の部分を実現するために用いることができるコンピュータシステムのブロック図である。

これらの図面は、必ずしも原寸に比例しておらず、極細線、略図表現、及び部分図によって図示されていることがある。特定例では、実施形態の理解のために必要でない細部、あるいは他の細部を理解することを困難にする細部は省略していることがある。

詳細な説明
本発明は、ハイブリッド・ビデオデータの符号化及び復号化のためのシステム及び方法に指向している。機械プロセスにおける使用向けにビデオを符号化するプロセスは、機械向けビデオ符号化またはＶＣＭ（video coding for machines）と称されることが多い。

図１は、エンコーダ１０５及びデコーダ１１０を含むハイブリッド・ビデオデータ用のＶＣＭシステムの概念的アーキテクチャを示す簡略化したブロック図である。図１中に見られるように、通常は、カメラまたは他のビデオ生成システムからのもののような生ビデオの形態のビデオストリーム１１５が、エンコーダに入力される。エンコーダ１０５はビットストリームを出力し、ビットストリームはその後にデコーダに送信され、デコーダは、このビットストリームを復号化して、人間及び／または機械によって消費される出力にする。ＶＣＭエンコーダ１０５は、入力ビデオ１１５を受信して、プリプロセッサのビデオスプリッタ（ビデオ分割器）１２０に通す。プリプロセッサ１２０は、受信したビデオデータ・ストリームを２つの成分、即ち：ビデオエンコーダ（例えば、ＲＧＢ－ＹＵＶ変換）に渡されるビデオ成分と、特徴抽出器１３０に渡されるストリームとに分割する。特徴抽出器１３０に渡されたストリームは、必要に応じて適切なフォーマットに変換される。このストリームは、必要に応じて、特徴抽出器１３０によって量子化するか、他の何らかの方法によってダウンサンプリングすることもできる。

ビデオエンコーダ１２５は、ビデオストリームを、２つの利用可能なモード、即ち「基本モード」及び「特徴補償モード」で圧縮／符号化するように構成されていることが好ましい。「基本モード」で動作する際には、ビデオエンコーダ１２５は、Ｈ．２６４、ＨＥＶＣ（High Efficiency Video Coding）、ＡＶＣ、ＶＶＣ（Versatile Video Coding）ビデオ符号化規格用の規格準拠型デコーダのような標準的なビデオエンコーダとして動作し、任意で、特徴抽出器１３０との双方向接続を有する。このモードでは、ビットストリームの所定の規格に準拠したあらゆるデコーダによって、ビデオ・サブストリーム（副次的ビデオストリーム）が復号化可能である。こうしたビデオエンコーダ１２５から特徴抽出器１３０への接続を用いて、特に知覚領域におけるより効率的な圧縮用に用いることができる追加的情報を提供することができる。一方、ビデオエンコーダ１２５は、動き情報、シーン変化情報、等のような有用なフィードバックを特徴抽出器１３０に提供することができる。

「特徴補償モード」では、ビデオエンコーダ１２５が入力ビデオ及び特徴抽出のフィードバックを共に受信することが好ましい。特徴マップに基づいて、ビデオエンコーダ１２５は、マップと入力画像との残差を推定して符号化する。

特徴補償モード（ＦＣＭ：feature-compensated mode）は、ビデオ・サブストリームが、特徴データと入力ビデオデータとの差を符号化することによって得られた残差データで構成されるビデオ符号化／復号化モードである。復号化中に、この残差をベースライン特徴データと組み合わせることができる。ベースライン特徴データは、ビデオデコーダによって特徴デコーダから得ることができる。ベースライン特徴データは、特徴デコーダの未修正の出力に等しくすることができ、あるいは特徴デコーダの出力の部分集合とすることができる。ベースライン残差データは、特徴、または特徴と入力ビデオ信号との組合せのいずれかによって構成することができる。例えば、ベースライン特徴データは、入力ビデオデータがコンボリューショナル・ニューラルネットワーク（ＣＮＮ：Convolutional Neural Network：畳み込み神経回路網）の１つ以上の層を通過する際に生じる特徴マップで構成することができる。ベースライン特徴データは、エッジ（縁部）、コーナー（隅部）、またはキーポイント（主要点）のような特徴で構成される視覚（ビジュアル）プリミティブ（視覚的な原始的要素）で構成することもできる。

特徴抽出器１３０は、プリプロセッサ１２０からの入力画素ストリームを、機械で使用するための特徴空間に変換する。特徴空間は、この機械によって完了させるべきタスクに対応する。この変換のいくつかの例は、次のものを含む：エッジ抽出－キャニー（Canny）エッジ検出のようなコンピュータビジョン・アルゴリズムを用いて、入力画像中の関係するエッジを検出して抽出する；キーポイント抽出－スケール不変の特徴変換（Scale-Invariant Feature Transform）及び頑健な特徴量の高速化（Speeded Up Robust Features）のようなアルゴリズムを用いる；信号抽出－独立成分分析または原理成分分析を用いて、スペクトルの最も関係する成分を、入力画像または入力オーディオから抽出する；特徴マップ抽出－コンボリューショナル・ニューラルネットワークのようなニューラルネットワークの下層を用いる、等。変換の種類は、機械モデル入力１３５に基づいて選択する。機械モデル１３５のコピーは、エッジデバイス上に、独立して、またはエンコーダ１０５の一部として、のいずれかで記憶することができる。このことは、構成可能なエンコーダ・ソフトウェアのスケーラブルな（拡張性のある）展開、及び端末機械へのネットワーク接続が利用可能でない際のオフラインモードを共に可能にする。この入力は、端末機械によってリアルタイムで、またはローカル記憶装置から、のいずれかで提供される。それに加えて、特徴抽出器１３０は、処理を最適化するフィードバック入力をビデオエンコーダ１２５から取得することができる。

特徴エンコーダ１４０は、特徴抽出器１３０から抽出された特徴を受信し、これらの特徴を、同様な規格（例えばＣＤＶＡ（Compact Descriptors for Video Analysis））用に開発された標準的な無損失及び有損失の技術により圧縮する。あらゆる既知の方法を用いることができるが、特徴エンコーダがある種のエントロピー符号化を主に用いることが好ましい。最適化器１４５を設けて、ビデオエンコーダ１２５及び特徴エンコーダ１４０の両方からの入力を受信して、更に圧縮または廃棄することができるデータ中のオーバーラップ（重複）及び冗長性がビデオ・ビットストリーム及び／または特徴ビットストリーム中に存在することを示す信号を、これらのブロックのそれぞれに供給することができる。ビデオエンコーダ１２５及び特徴エンコーダ１４０の出力は、マルチプレクサまたはマクサ（muxer）１５０に供給され、マルチプレクサまたはマクサ１５０は、これら２つのビットストリームを結合して１つにする。

ハイブリッド・デコーダ１１０は、符号化されたハイブリッド・ビットストリームを受信して、デマルチプレクサまたはデマクサ（demuxer）１５５に渡す。デマクサ１５５は受信したハイブリッド・ビットストリームをビデオ・ビットストリームと特徴ビットストリームとに分割する。不可欠なものには、マクサ１５０の動作と相補的な動作がある。次に、特徴ビットストリームを１つ以上の特徴デコーダ１６０ａ、１６０ｂに供給する。複数の異なる特徴の集合を用いる場合には、特徴集合抽出器１５７を、デマクサ１５５と特徴デコーダとの間に挿入して、個々の特徴の集合をビットストリームから分離して、これらの特徴の集合をそれぞれの特徴デコーダ１６０ａ、１６０ｂに回すことができる。各特徴デコーダ１６０は、機械モデル１３５からの入力を受信し、個別の特徴集合を入力として受信して復号化する。機械モデル１３５は、リモートデータ源からの入力として提供することができ、あるいはデコーダ１１０内の記憶装置内に含めることができる。それに加えて、「特徴補償モード」では、特徴デコーダ１６０が特徴の特定部分集合をビデオデコーダ１６５に送信する。特徴デコーダ１６０の出力は端末機械１７０へ送信される。ビデオデコーダ１６５は、「基本モード」では標準的なビデオデコーダであり、「特徴補償モード」ではハイブリッド・デコーダであることが好ましい（基本モードを両者用に用いる可能性がある）。

図２は、エンコーダ１０５から出力されて伝送チャネル経由でデコーダ１１０へ送信されるビデオ及び特徴を共に含むビットストリームの簡略化した概略図である。ビットストリームがビデオ及び特徴を共に含むので、このビットストリームをハイブリッド・ビットストリームと指名する。最上行２００はハイブリッド・ビットストリームを表し、ハイブリッド・ビットストリームは、ハイブリッド・セグメント２０５と称される個別の単位で構成される連続ストリームである。一連のハイブリッド・セグメント２０５は、この連続ストリームにおける時間的に連続した部分である。各ハイブリッド・セグメント２０５は、６つの成分、即ちハイブリッドサイズ２１０、メタデータ２１５、特徴ヘッダ２２０、特徴ペイロード２２５、ビデオヘッダ２３０、及びビデオ・ペイロード２３５で更に構成されることが好ましい。ハイブリッドサイズ２１０がハイブリッド・セグメント２０５中の最初の成分である限り、これらの成分は一般に任意の順序で出現することができる。一例では、個別の成分中の「種類」フィールド及び「サイズ」フィールドを用いることによって、成分の順序を暗示的に信号表示することができる。その代わりに、成分２１０～２３５は「スタートコード」フィールドを含むことができ、「スタートコード」フィールドは、「サイズ」フィールド及び「種類」フィールドを置き換えて、その代わりにデコーダによる順次の解析用に用いる。成分内部のフィールドは、デコーダによって、復号化用のパラメータを初期化または更新するものと解釈することができる。

ハイブリッドサイズ成分２１０は、列内の成分の各々の長さを指定する数の単一のフィールドアレイであることが好ましい。このフィールドアレイは、標準単位（通常はビットまたはバイト）で表現することができる。一例として、[１０，３０，５００，１００、５０００]は、１０バイトのメタデータ情報が存在し、３０バイトの特徴ヘッダデータが続き、５００バイトの特徴ペイロードが続き、１００バイトのビデオヘッダデータが続き、５０００バイトのビデオ・ペイロードが続くことを意味することができる。これらの数をデコーダが用いて、入力ビットストリーム中の現在のセグメントに属する関連部分を抽出することができる。特徴成分またはビデオ成分のいずれかが存在しない場合、このことをアレイ内の０の値によって信号表示する。

代案の復号化シナリオでは、「スタートコード」を用いて、この「スタートコード」によって指定された種類の新たな成分の先頭に印を付ける。

メタデータ成分２１５は、セグメントの内容を記述するフィールドを含み、例えば次のものであり、但しこれらに限定されない：
〇ビデオの入力解像度：これは幅及び高さの画素値として表すことができる。
〇スタートセグメント：当該セグメントが、独立して復号化可能な列の最初にある場合に１にセットされ、そうでない場合に０にセットされるバイナリ（２進数）フラグ。
〇特徴補償モード：現在のセグメントをＦＣ（feature-compensated：特徴補償）モードで符号化する場合に１にセットされ、そうでない場合に０にセットされるバイナリフラグ。
〇将来の拡張用に予約されたカスタムフィールド。

特徴ヘッダ２２０は、一般に、特徴に関係するセグメント内容を記述し、例えば次のものであり、但しこれらに限定されない：
〇解像度変更用のスケーリングファクタ（拡大縮小係数）：入力ビデオの解像度の倍率を表す単一の数。
〇特徴の種類：ペイロード中に存在する特徴の種類を指定する指数。例えば：（１－エッジ、２－キーポイント、３－ニューラルネットワーク、等）。
〇特徴の種類の構成：特徴の種類についての情報を有するフィールドの任意の集合。例えば、ニューラルネットワークのトポロジー。
〇ＲＯＩ座標：関心事の物体の周りの境界ボックスのような関心領域（ＲＯＩ：regions of interest）の存在を（暗示的に）指定し、位置を明示的に指定する４要素のアレイ。各４要素は、次の画素値（ＲＯＩの左上コーナーのｘ座標、ＲＯＩの左上コーナーのｙ座標、ＲＯＩの幅、ＲＯＩの高さ）を指定する数を含む。例えば[（１００，５０，２００，２５０），（４００，４００，２００，３００）]は２つのＲＯＩを指定する。
〇残差：ビデオデコーダが現在セグメントの特徴ペイロードをＦＣモードで用いる場合を指定するフラグ。
〇特定の特徴の種類に関係する種々のパラメータの集合。
〇将来の拡張用に予約されたカスタムフィールド。

特徴ペイロード成分２２５は、出力された特徴の再構成に必要な符号化された特徴データを含むビットストリームの一部分である。特徴データは、例えば、キーポイント、エッジ、動き情報、物体検出、境界ボックス、ニューラルネットワークの特徴マップ、及びイベント（事象）及び行動の認識及び追跡、ポーズ（姿勢）推定、等のような画像及びビデオ分析用途を可能にする類似のデータを含むことができる。特徴は、ハフマン（Huffman）符号化、算術符号化、またはＶＬＣ符号化（variable length coding：可変長符号化）、等のようなエントロピー及びバイナリ符号化を用いて符号化することができる。

ビデオヘッダ成分２３０は、一般に、ビデオに関係するセグメントの内容を記述するフィールドを含み、例えば次のものであり、但しこれらに限定されない：
〇モード：現在のビデオセグメントについて基本モードまたはＦＣモードを信号表示するために予約された単一の数（ビット）。
〇パラメータ集合：例えば、ビデオデコーダの構成を信号表示する画像パラメータ集合。場合によっては順序パラメータ集合でもある。
〇量子化メトリクス：符号化用に用いる量子化係数を有する１つ以上のメトリクス（計量）の集合。各メトリクスは、当該メトリクスが適用される領域と共に識別される。領域位置は、残差情報と共に、あるいは独立して、明示的に信号表示することができ、あるいは特徴デコーダから（ＲＯＩ座標として）取得することができる。
〇知覚パラメータ：（特徴デコーダからＲＯＩ領域として得られた）知覚的に重要な特性を有する領域内に適用される量子化スケーリング及びループフィルタのパラメータ。
〇将来の拡張用に予約されたカスタムフィールド。

ビデオ・ペイロード２３５は、ビットストリーム中で、出力された特徴の再構成に必要な符号化されたビデオデータを含む部分である。

図３に、例示的なハイブリッド・ビットストリーム構造３００を更に示す。このビットストリームは、ハイブリッド・ヘッダ３０５を含み、ハイブリッド・ヘッダ３０５は、例えば、０個または１個のビデオストリーム３１０及び０個以上の特徴ストリーム３１５ａ、３１５ｂのリストを含む。ハイブリッド・ヘッダ３０５は、関連するハイレベル・パラメータ（ビットストリーム分割、等に使用される）を含むことが好ましく、どちらのモード、即ち「基本」または「特徴補償」を符号化用に用いるかを信号表示するパラメータを含むこともできる。ビデオストリーム３１０は、シーケンス・パラメータセット（ＳＰＳ：sequence parameter set）、ピクチャ・パラメータセット（ＰＰＳ：picture parameter set）、等のような１つ以上の既知のビデオ符号化規格中に規定された標準的構造を有することが好ましい。ビデオストリームは、どちらのモードを符号化用に用いるか次第で、ＶＣＭデコーダまたはＶＶＣデコーダのいずれかによって復号化することができる。各特徴ストリーム３１５ａ、３１５ｂは、特徴シーケンス・パラメータセットＦＳＰＳ（feature sequence parameter set）３２０ａ、３２０ｂ及び特徴ピクチャ・パラメータセットＦＰＰＳ（feature picture parameter set）３２５ａ、３２５ｂ、及び対応する特徴ペイロード３３０ａ、３３０ｂを含むことが好ましい。

ハイブリッド・ビットストリーム用の復号化プロセスの概要を、図４のフローチャートに関連して説明する。デコーダ１１０は、ステップ４０５でビットストリーム・セグメント２０５を受信し、メタデータ２１５を読み取り、ステップ４１０で現在のセグメントが一連のセグメント中のスタート（開始）セグメントであるか否かを判定する。現在のセグメントがスタートセグメントである場合、復号化プロセスはステップ４１５に進んで、メタデータ成分２１５中の他のフィールド内の値、及び特徴ヘッダ２２０及びビデオヘッダ２３０内のフィールドの値に応じて、復号化パラメータを設定する。ステップ４１０において、受信したセグメントが最初のセグメントでない場合、復号化プロセスは、ステップ４２０における、現在のセグメントと以前のセグメントとの差を補償する計算に進む。差を補償する計算は、動き補償、または特徴の集合に適した他のあらゆる種類の補償を含むことができる。ステップ４１５及び４２０に続いて、処理はステップ４２５におけるペイロードデータを復号化することに進む。ステップ４３０でペイロードデータを検査して、処理がセグメントの終わりに達したか否かを判定する。ステップ４３０でセグメントの終わりに達していなければ、処理はステップ４２０に戻る。セグメントが一連のセグメントの最終セグメントである場合、現在のセグメント・グループの復号化を終了する。ステップ４３５では、デコーダが、最終セグメントが復号化されたか否かを判定する。復号化されていない場合、処理はステップ４０５に戻って、次のセグメントを復号化する。

各セグメント・グループは、連続した１つ以上のセグメントの列である。各セグメント・グループは独立して復号化可能である。１つのセグメント・グループ内のビデオセグメントは、他のビデオセグメントに対して独立して復号化可能であり、但し同じセグメント・グループ内の特徴セグメントに依存することがある。

ハイブリッド・ビットストリーム内の各ハイブリッド・セグメントまたは各セグメント・グループ内には、１個または０個の特徴セグメント及び１個または０個のビデオセグメントが存在し得る。特徴セグメント及びビデオセグメントの存在は、「ハイブリッドサイズ」成分２１０の値から暗示的に判定することができる。デコーダのモードは、セグメント毎の「特徴補償モード」（ＦＣＭ）フラグに基づいて判定することができる。

決定プロセスをＦＣＭフラグの解析用に用いると共に、サイズパラメータの解析をセグメントの存在判定用に用いる復号化モード選択を、図５に示すフローチャートに関連して更に説明する。

デコーダが、ステップ５０５でハイブリッド・セグメントを受信し、ステップ５１０で、特徴サイズを評価することによって、特徴セグメントが存在するか否かを判定する。特徴セグメントが存在しない場合（そのサイズが０）、復号化プロセスは、ステップ５１５で、サイズをチェックして、ビデオセグメントが存在するか否かを判定する。ビデオセグメントが存在しない場合（そのサイズが０）、現在のセグメントをスキップする（ステップ５２０）。ステップ５１５でビデオセグメントが存在する場合、ステップ５１０で特徴セグメントが当該セグメント内に存在しなかったものと判定した後に、ステップ５２５でモードを「基本モード」に設定して、ビデオのみを復号化する。

ステップ５１０で、特徴セグメントが存在し（特徴サイズが０でない）ビデオセグメントが存在しない場合（ステップ５３０）、ビデオ復号化はなく特徴のみを復号化する（ステップ５３５）。特徴セグメント及びビデオセグメントが共に存在する場合、ステップ４５０で、デコーダがメタデータ成分２１５からのＦＣＭフラグをチェックする。ＦＣＭモードが信号表示された場合（ＦＣＭ＝１）、特徴セグメントをまず復号化して（ステップ５４５）ベースライン特徴データをビデオデコーダに渡し、ビデオデコーダはＦＣモードで動作し（ステップ５５０）、従ってベースライン特徴データを残差と組み合わせてビデオ出力を得る。ステップ５４０でＦＣフラグが０にセットされていた場合、特徴セグメントとビデオセグメントとを独立して復号化し、ビデオデコーダは「基本モード」で動作する。

図６は、ビデオデコーダ１６５として図１に示すようなビデオデコーダ６００の一例を示すシステムブロック図であり、ビデオデコーダ６００はハイブリッド・ビットストリームのビデオ部分を復号化することができる。デコーダ６００は、エントロピーデコーダ・プロセッサ６１０と、逆量子化兼逆変換プロセッサ６２０と、デブロッキング（非ブロック化、ブロック分解）フィルタ６３０と、フレームバッファ６４０と、動き補償プロセッサ６５０と、イントラ（画面内）予測プロセッサ６６０とを含む。

動作中には、ハイブリッド・ビットストリームのビデオ部分をデコーダ６００が受信してエントロピーデコーダ・プロセッサ６１０に入力することができ、エントロピーデコーダ・プロセッサ６１０は、ビットストリームの１つ以上の部分をエントロピー復号化して、量子化された係数にする。量子化された係数は逆量子化兼逆変換プロセッサ６２０に提供することができ、逆量子化兼逆変換プロセッサ６２０は、逆量子化及び逆変換を実行して残差信号を生成し、残差信号は、処理モードに応じて動き補償プロセッサ６５０またはイントラ予測プロセッサ６６０の出力に加算することができる。動き補償プロセッサ６５０及びイントラ予測プロセッサ６６０の出力は、以前に復号化したブロックに基づくブロック予測を含むことができる。予測と残差の合計は、デブロッキングフィルタ６３０によって処理して、フレームバッファ６４０内に記憶することができる。

一実施形態では、引き続き図６を参照すれば、デコーダ６００が、上述した好適例のいずれかにおいて上述したあらゆる動作を、任意の順序で、かつ任意の反復の度合いで実行するように構成された回路を含むことができる。例えば、デコーダ６００は、所望の、あるいは指令された結果が達成されるまで、単一または一連のステップを反復して実行するように構成することができ、１つのステップまたは一連のステップの反復は、前回の反復の出力を後続する反復への入力として用いて、反復の入力及び／または出力を集計して集計結果を生成して、グローバル（広域）変数のような１つ以上の変数を削減または減少させ、及び／またはより大きな処理タスクを反復的に対処されるより小さい処理タスクに分割して、反復的及び／または再帰的に実行することができる。デコーダは、本明細書中に記載したあらゆるステップまたは一連のステップを並列的に実行することができ、例えば、２つ以上の並列スレッド、プロセッサコア、等を用いて、１つのステップを２回以上同時に及び／またはほぼ同時に実行することができ；タスクを並列なスレッド及び／またはプロセスに分割することは、タスクを複数回の反復に分割することに適したあらゆるプロトコルにより実行することができる。当業者は、本開示の全体を検討すると、ステップ、一連のステップ、処理タスク、及び／またはデータを再分割、共用、さもなければ反復法、再帰法、及び／または並列処理を用いて処理することができる種々の方法に気付く。

図７は、図１に示すビデオエンコーダ１２５のような、ハイブリッド・ビットストリームのビデオ部分を符号化するのに適したビデオエンコーダの一例７００を示すシステムブロック図である。ビデオエンコーダの例７００は入力ビデオ７０５を受信し、入力ビデオ７０５は、最初からセグメント化されていることも、ツリー（木）構造マクロブロック区分方式（例えば、四分木（クワッドツリー）＋二分木（バイナリツリー、二進木））のような処理方式により分割することができる。ツリー構造マクロブロック区分方式の一例は、画像フレームをコーディングツリーユニット（ＣＴＵ：coding tree unit：符号化木単位）と称する大きなブロック要素に区分することを含むことができる。一部の実現では、各ＣＴＵを１回以上区分して、コーディングユニット（ＣＵ：coding unit：符号化単位）と称する多数のサブブロックに更に区分することができる。こうした分割の最終結果は、予測単位（ＰＵ：predictive unit）と称することのできるサブブロックのグループを含むことができる。変換ユニット（ＴＵ：transform unit）を利用することもできる。

引き続き図７を参照すれば、ビデオデコーダの例７００が、イントラ予測プロセッサ７１５と、適応クロッピングをサポートすることができる動き推定／補償プロセッサ７２０（インター（画像間）予測プロセッサとも称する）と、変換／量子化プロセッサ７２５と、逆量子化／逆変換プロセッサ７３０と、ループ内フィルタ７３５と、復号化画像バッファ７４０と、エントロピー符号化プロセッサ７４５とを含む。ビットストリーム・パラメータをエントロピー符号化プロセッサ７４５に入力して、出力ビットストリーム７５０に含める。

動作中には、引き続き図７を参照すれば、入力ビデオ７０５のフレームのブロック毎に、当該ブロックをイントラ（画像内）予測により処理するか、動き推定／補償を用いて処理するかを決定することができる。当該ブロックは、イントラ予測プロセッサ７１０または動き推定／補償プロセッサ７２０に提供することができる。当該ブロックをイントラ予測により処理する場合、イントラ予測プロセッサ７１０が処理を実行して予測値を出力することができる。当該ブロックを動き推定／補償により処理する場合、動き推定／補償プロセッサ７２０が、適用可能であれば適応クロッピングを用いることを含む処理を実行することができる。

引き続き図７を参照すれば、入力ビデオから予測値を減算することによって残差を求めることができる。残差は、変換／量子化プロセッサ７２５によって受信することができ、変換／量子化プロセッサ７２５は変換処理（例えば、ディスクリート（離散）コサイン変換（ＤＣＴ：discrete cosine transform））を実行して係数を生成することができ、これらの係数は量子化することができる。量子化された係数、及び関連する信号表示情報をエントロピー符号化プロセッサ７４５に提供して、エントロピー符号化して出力ビットストリーム７５０に含めることができる。エントロピー符号化プロセッサ７４５は、現在ブロックを符号化することに関係する信号表示情報の符号化をサポートすることができる。それに加えて、量子化された係数は、逆量子化／逆変換プロセッサ７３０に提供することができ、逆量子化／逆変換プロセッサ７３０は画素を再生することができ、これらの画素は予測値と組み合わせてループ内フィルタ７３５によって処理することができ、ループ内フィルタ７３５の出力は、復号化画像バッファ７４０に記憶して、適応クロッピングが可能である動き推定／補償プロセッサ７２０が使用する。

引き続き図７を参照すれば、少数の変形例を詳細に上述してきたが、他の修正または追加が可能である。例えば、一部の実現では、現在のブロックが、任意の対称ブロック（８×８、１６×１６、３２×３２、６４×６４、１２８×１２８、等）並びに任意の非対称ブロック（８×４、１６×８、等）を含むことができる。

引き続き図７を参照すれば、一部の実現では、四分木＋二分決定木（ＱＴＢＴ：quadtree plus binary decision tree）を実現することができる。ＱＴＢＴでは、コーディングツリーユニットのレベルで、ＱＴＢＴの区分パラメータを動的に導出して、オーバーヘッドを何ら伝送することなしに局所的特性に適応させる。これに続いて、コーディングユニットのレベルで、同時分類決定木構造が、不要な反復を解消して、予測誤りの恐れを制御することができる。一部の実現では、ＬＴＲ（long term reference：長期基準）フレームブロック更新モードを、ＱＴＰＴのすべてのリーフ（葉）ノードにおいて利用可能な追加的選択肢として利用可能にすることができる。

一部の実現では、引き続き図７を参照すれば、追加的シンタックス（構文）要素を、ビットストリームの異なる階層レベルにおいて信号表示することができる。例えば、シーケンス・パラメータセット（ＳＰＳ）内に符号化されたイネーブルフラグを含めることによって、シーケンス全体についてフラグをイネーブル状態にすることができる。更に、ＣＴＵフラグをコーディングツリーユニット（ＣＴＵ）レベルで符号化することができる。

引き続き図７を参照すれば、エンコーダ７００が、上述したあらゆる動作を、任意の順序で、かつ任意の反復の度合いで実現するように構成された回路を含むことができる。例えば、エンコーダ７００は、所望の、あるいは指令された結果が達成されるまで、単一のステップまたは一連のステップを反復して実行することができ、１つのステップまたは一連のステップの反復は、前回の反復の出力を後続する反復への入力として用いて、反復の入力及び／または出力を集計して集計結果を生成して、グローバル変数のような１つ以上の変数を削減または減少させ、及び／またはより大きな処理タスクを反復的に対処されるより小さい処理タスクに分割して、反復的及び／または再帰的に実行することができる。エンコーダ７００は、本開示中に記載したあらゆるステップまたは一連のステップを並列的に実行することができ、例えば、２つ以上の並列スレッド、プロセッサコア、等を用いて、１つのステップを２回以上同時に及び／またはほぼ同時に実行することができ；タスクを並列なスレッド及び／またはプロセスに分割することは、タスクを複数回の反復に分割することに適したあらゆるプロトコルにより実行することができる。当業者は、本開示の全体を検討すると、ステップ、一連のステップ、処理タスク、及び／またはデータを再分割、共用、さもなければ反復法、再帰法、及び／または並列処理を用いて処理することができる種々の方法に気付く。

引き続き図７を参照すれば、非一時的コンピュータプログラム製品（即ち、物理的に具体化されたコンピュータプログラム製品）が命令を記憶することができ、これらの命令は、１つ以上のコンピュータシステムの１つ以上のデータプロセッサによって実行されると、少なくとも１つのデータプロセッサに、本開示中に記載した動作及び／またはそのステップを実行させ、これらの動作は、上述したあらゆる動作を制限なしに含む。同様に、１つ以上のデータプロセッサ、及びこれら１つ以上のデータプロセッサに結合されたメモリを含むことができるコンピュータシステムも記載する。このメモリは、一時的または永久的に命令を記憶することができ、これらの命令は、少なくとも１つのプロセッサに、本明細書中に記載した動作のうちの１つ以上を実行させる。それに加えて、１つ以上のデータプロセッサによって方法を実現することができ、これらのデータプロセッサは、単一のコンピュータシステム内にあるか、２つ以上のコンピュータシステム間に分散するかのいずれかである。こうしたコンピュータシステムは、接続することができ、そしてデータ及び／またはコマンド、あるいは他の命令等を、ネットワーク（例えば、インターネット、無線ワイドエリア・ネットワーク、ローカルエリア・ネットワーク、ワイドエリア・ネットワーク、有線ネットワーク、等）を含む１つ以上の接続を介して、複数のコンピュータシステムのうちの１つ以上の間の直接の接続を介して、等で交換することができる。

なお、本明細書中に説明する態様及び実施形態のうちの任意の１つ以上は、本明細書の教示に従ってプログラムされた１つ以上の機械（例えば、電子文書、文書サーバーのような１つ以上のサーバー装置、等用のユーザ・コンピュータ装置として利用される１つ以上のコンピュータ装置）内に実現及び／または実装されるように、デジタル電子回路、集積回路、特別に設計された特定用途向け集積回路（ＡＳＩＣ：application specific integrated circuit）、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ：field programmable gate array）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び／またはその組合せを用いて好都合に実現することができることは、通常の当業者にとって明らかである。これらの種々の態様または特徴は、少なくとも１つのプログラマブル・プロセッサを含むプログラマブル・システム上で実行可能及び／または逐次実行可能な１つ以上のコンピュータプログラム及び／またはソフトウェアの形での実現を含むことができ、上記プログラマブル・システムは、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に結合されて、これらのシステム、装置からデータ及び命令を受信し、これらのシステム、装置へデータ及び命令を送信する特定目的または汎用のプログラマブル・システムとすることができる。

適切なソフトウェア・コーディングは、技能を有するプログラマーが、本開示の教示に基づいて容易に用意することができることは、通常の当業者にとって明らかである。以上に説明した、ソフトウェア及び／またはソフトウェア・モジュールを用いる態様及び実現は、これらのソフトウェア及び／またはソフトウェア・モジュールの機械で実行可能な命令の実現に役立つ適切なハードウェアを含むこともできる。

こうしたソフトウェアは、機械可読の記憶媒体を用いるコンピュータプログラム製品とすることができる。機械可読の記憶媒体は、機械（例えば、コンピュータ装置）によって実行され、本明細書中に説明する方法及び／または実施形態のいずれかを当該機械に実行させる一連の命令を記憶及び／または符号化することができる、あらゆる媒体とすることができる。機械可読の記憶媒体の例は、磁気ディスク、光ディスク（例えば、ＣＤ（compact disc：コンパクトディスク）、ＣＤ－Ｒ（CD-recordable：記録可能ＣＤ）、ＤＶＤ（digital versatile disc：デジタル多用途ディスク）、ＤＶＤ－Ｒ（DVD-recordable：記録可能ＤＶＤ）、等）、光磁気ディスク、読出し専用メモリ「ＲＯＭ（read-only memory）」デバイス、ランダムアクセスメモリ「ＲＡＭ（random access memory）」デバイス、磁気カード、半導体メモリデバイス、ＥＰＲＯＭ（electrically programmable ROM：電気的プログラム可能ＲＯＭ）、ＥＥＰＲＯＭ（electrically erasable programmable ROM：電気的消去可能PROM）、プログラマブル・ロジック（論理）デバイス（ＰＬＤ：programmable logic device）、及び／またはその任意の組合せを含み、但しこれらに限定されない。本明細書中に用いる機械可読媒体は、単一の媒体、並びに例えばコンピュータメモリと組み合わせたコンパクトディスクまたは１つ以上のハードディスクドライブ（ハードディスク駆動装置）の集合体のような物理的に別個の媒体の集合体を意図している。本明細書中に用いる機械可読媒体は、一時的な信号伝送の形態を含まない。

こうしたソフトウェアは、キャリア（搬送）波のようなデータキャリア上のデータ信号として搬送される情報（例えば、データ）を含むこともできる。例えば、機械で実行可能な情報は、データキャリア中に具体化されるデータ搬送信号として含めることができ、ここでは、この信号が、機械（例えば、コンピュータ装置）による実行用の一連の命令、またはその一部、及び本明細書中に説明する方法及び／または実施形態のいずれかを当該機械に実行させるあらゆる関係する情報（例えば、データ構造及びデータ）を符号化する。

コンピュータ装置の例は、電子書籍読書装置、コンピュータ・ワークステーション、端末コンピュータ、サーバー・コンピュータ、ハンドヘルド装置（例えば、タブレット・コンピュータ、スマートホン、等）、ウェブ機器、ネットワーク・ルーター、ネットワーク・スイッチ、ネットワーク・ブリッジ、当該機械が行うべき動作を指定する一連の命令を実行することができるあらゆる機械、及びその組合せを含み、但しこれらに限定されない。一例では、コンピュータ装置がキオスク端末を含むことができ、及び／またはキオスク端末に含まれることができる。

図８に、コンピュータシステムの例示的形態のコンピュータ装置の一実施形態の図式表現を示し、このコンピュータ装置内で、本発明の態様及び／または方法のいずれかを制御システムに実行させる一組の命令を実行することができる。複数のコンピュータ装置を利用して、本発明の態様及び／または方法のうちのいずれか１つ以上をこれらの装置のうちの１つ以上に実行させるために具体的に構成された一組の命令を実現することができることも考えられる。コンピュータシステム８００は、プロセッサ８０４とメモリ８０８とを含み、これらは互いに通信し、バス８１２を介して他の構成要素と通信する。バス８１２は、多様なバス・アーキテクチャを用いた、メモリバス、メモリコントローラ、周辺機器用バス、ローカルバス、及びその任意の組合せを含むいくつかの種類のバス構造を含むことができ、但しこれらに限定されない。

メモリ８０８は種々の構成要素（例えば、機械可読媒体）を含むことができ、これらの構成要素は、ランダムアクセスメモリ構成要素、読出し専用構成要素、及びその任意の組合せを含み、但しこれらに限定されない。一例では、基本入出力システム（ＢＩＯＳ：basic input/output system）８１６をメモリ８０８に記憶することができ、ＢＩＯＳは、起動中のようにコンピュータシステム８００内の要素間で情報を転送することに役立つ基本ルーチンを含む。メモリ８０８は、（例えば、１つ以上の機械可読媒体上に記憶されている）命令（例えば、ソフトウェア）８２０を含むこともでき、命令８２０は、本発明の態様及び／または方法を具体化する。他の例では、メモリ８０８が任意数のプログラム・モジュールを更に含むことができ、これらのプログラム・モジュールは、オペレーティングシステム、１つ以上のアプリケーション・プログラム、他のプログラム・モジュール、プログラムデータ、及びその任意の組合せを含み、但しこれらに限定されない。

コンピュータシステム８００は記憶装置８２４を含むこともできる。記憶装置（例えば、記憶装置８２４）の例は、ハードディスクドライブ、磁気ディスクドライブ、光媒体と通信する光ディスクドライブ、半導体メモリデバイス、及びその任意の組合せを含み、但しこれらに限定されない。記憶装置８２４は、適切なインタフェース（図示せず）によってバス８１２に接続することができる。インタフェースの例は、ＳＣＳＩ（small computer system interface：小型コンピュータ用周辺機器インタフェース）、アドバンスト・テクノロジー・アタッチメント（ＡＴＡ：advanced technology attachment）、シリアルＡＴＡ、ユニバーサル・シリアルバス（ＵＳＢ：universal serial bus）、ＩＥＥＥ１３９４（ＦＩＲＥＷＡＲＥ：ファイヤーワイヤー、登録商標）、及びその任意の組合せを含み、但しこれらに限定されない。一例では、記憶装置８２４（またはその１つ以上の構成要素）を、（例えば、外部ポート・コネクタ（図示せず）を介して）コンピュータシステム８００と着脱可能にインタフェース接続することができる。特に、記憶装置８２４及び関連する機械可読媒体８２８は、コンピュータシステム８００用の機械可読な命令、データ構造、プログラム・モジュール、及び／またはデータの不揮発性及び／または揮発性の記憶装置を提供することができる。一例では、ソフトウェア８２０が、完全に、あるいは部分的に機械可読媒体８２８内に存在することができる。他の例では、ソフトウェア８２０が、完全に、あるいは部分的にプロセッサ８０４内に存在することができる。

コンピュータシステム８００は、入力装置８３２を含むこともできる。一例では、コンピュータシステム８００のユーザが、コマンド及び／または他の情報を、入力装置８３２を介してコンピュータシステム８００に入力することができる。入力装置８３２の例は、英数字入力装置（例えば、キーボード）、ポインティングデバイス（指示装置）、ジョイスティック、ゲームパッド、音声入力装置（例えば、マイクロホン、音声応答システム、等）、カーソル制御装置（例えば、マウス）、タッチパッド、光センサ、ビデオキャプチャー（捕捉）装置（例えば、スチル（静止画）カメラ、ビデオカメラ）、タッチスクリーン、及びその任意の組合せを含み、但しこれらに限定されない。入力装置８３２は、多様なインタフェース（図示せず）のいずれかを介してバス８１２とインタフェース接続することができ、これらのインタフェースは、シリアル・インタフェース、パラレル・インタフェース、ゲームポート、ＵＳＢインタフェース、ＦＩＲＥＷＡＲＥインタフェース、バス８１２とのダイレクト（直接）インタフェース、及びその任意の組合せを含み、但しこれらに限定されない。入力装置８３２は、上述したように、グラフィカル・インタフェース中の１つ以上のグラフィカル（図形的）表現を選択するためのユーザ選択装置として利用することができる。

ユーザは、コマンド及び／または他の情報を、記憶装置８２４を介してコンピュータシステム８００に入力することもできる。ネットワーク・インタフェース装置８４０のようなネットワーク・インタフェース装置を利用して、コンピュータシステム８００を、ネットワーク８４４のような多様なネットワークのうちの１つ以上、及びこれらのネットワークに接続されたリモート機器８４８に接続することができる。ネットワーク・インタフェース装置の例は、ネットワーク・インタフェースカード（例えば、モバイルネットワーク・インタフェースカード、ＬＡＮ（local area network：ローカルエリア・ネットワーク）カード）、モデム、及びその任意の組合せを含み、但しこれらに限定されない。ネットワークの例は、ワイドエリア・ネットワーク（例えば、インターネット、エンタープライズ（企業内）ネットワーク）、ローカルエリア・ネットワーク（例えば、オフィス、建物、キャンパス、または他の比較的小さい地理的空間に関連するネットワーク）、電話網、電話／音声サービス提供者に関連するデータネットワーク（例えば、モバイル（移動）通信サービス提供者のデータ及び／または音声ネットワーク）、２つのコンピュータ装置間の直接の接続、及びその任意の組合せを含み、但しこれらに限定されない。ネットワーク８４４のようなネットワークは、有線及び／または無線モードの友進を用いることができる。一般に、あらゆるネットワーク技術を用いることができる。情報（例えば、データ、ソフトウェア８２０、等）を、ネットワーク・インタフェース装置８４０を介してコンピュータシステム８００から、及び／またはコンピュータシステム８００へ伝達することができる。

コンピュータシステム８００は、表示可能な画像を表示装置８３６のような表示装置に伝達するためのビデオ表示アダプタ８５２を更に含むことができる。表示装置の例は、液晶ディスプレイ（ＬＣＤ：liquid crystal display）、陰極線管（ＣＲＴ：cathode ray tube）、プラズマ・ディスプレイ、発光ダイオード（ＬＥＤ：light emitting diode）ディスプレイ、及びその任意の組合せを含み、但しこれらに限定されない。表示アダプタ８５２及び表示装置８３６を、プロセッサ８０４と組み合わせて利用して、本発明の態様のグラフィカル表現を提供することができる。表示装置に加えて、コンピュータシステム８００は、他の１つ以上の出力周辺機器を含むことができ、これらの出力周辺機器は、オーディオスピーカ、プリンタ、及びその任意の組合せを含み、但しこれらに限定されない。こうした出力周辺機器は、バス８１２を介して周辺インタフェース８５６に接続することができる。周辺インタフェースの例は、シリアルポート、ＵＳＢ接続、ＦＩＲＥＷＡＲＥ接続、パラレル接続、及びその任意の組合せを含み、但しこれらに限定されない。

なお、本明細書中に説明する態様及び実施形態のうちの任意の１つ以上は、本明細書の教示に従ってプログラムされた１つ以上の機械（例えば、電子文書、文書サーバー、等のような１つ以上のサーバー装置用のユーザ・デコーダ及び／またはユーザ・エンコーダとして利用される１つ以上のデコーダ及び／またはエンコーダ）を用いて好都合に実現することができる。適切なソフトウェア・コーディングは、技能を有するプログラマーが、本開示の教示に基づいて容易に用意することができることは、通常の当業者にとって明らかである。以上に説明した、ソフトウェア及び／またはソフトウェア・モジュールを用いる態様及び実現は、これらのソフトウェア及び／またはソフトウェア・モジュールにおける機械で実行可能な命令の実現に役立つ適切なハードウェアを含むこともできる。

以上は、本発明の例示的実施形態の詳細な説明であった。本発明の精神及び範囲から逸脱することなしに、種々の修正及び追加を行うことができる。上述した種々の実施形態の各々の特徴を、説明した他の実施形態の特徴と適宜に組み合わせて、関連する新たな実施形態における特徴の多数の組合せを提供することができる。更に、以上は多数の別個の実施形態を説明しているが、本明細書中に記載したことは、本発明の原理の応用の例示に過ぎない。それに加えて、本明細書中の特定の方法は、特定の順序で実行されるものとして図示及び／または説明していることがあるが、この順序は、本明細書中に開示する実施形態を実現するための通常の技能の範囲内で大幅に変更可能である。

従って、本明細書の説明は、ほんの一例として解されることを意味し、そうではなく本発明の範囲を限定することを意味しない。

以上の説明及び特許請求の範囲では、「...のうちの少なくとも１つ」または「...のうちの１つ以上」が、要素または特徴を連結したリストの形で現れることがある。「及び／または」も、２つ以上の要素または特徴の形で現れることがある。この句が用いられている文脈と暗示的にせよ明示的にせよ矛盾しない限り、この句は、リスト中の要素または特徴のいずれかを個別に、あるいは列挙された要素または特徴のいずれかと他に列挙された要素または特徴のいずれかとの組合せを意味することを意図している。例えば、「Ａ及びＢのうちの少なくとも１つ」、「Ａ及びＢのうちの１つ以上」、及び「Ａ及び／またはＢ」の各々は、「Ａ単独、Ｂ単独、またはＡとＢの両方」を意味することを意図している。例えば、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」、「Ａ、Ｂ、及びＣのうちの１つ以上」、及び「Ａ、Ｂ、及び／またはＣ」の各々は、「Ａ単独、Ｂ単独、Ｃ単独、ＡとＢの両方、ＡとＣの両方、ＢとＣの両方、またはＡとＢとＣの全部」を意味することを意図している。それに加えて、上記及び特許請求の範囲における「...に基づいて」の使用は、「少なくとも部分的に...に基づいて」を意味し、列挙されていない特徴または要素も許容されることを意図している。

本明細書中に記載する主題は、所望の構成に応じて、システム、装置、方法、品目の形で具体化することができる。以上の記述において説明した実現は、本明細書中に記載する主題と矛盾しない全ての実現を代表しない。その代わりに、これらの実現は、記載した主題に関係する態様と矛盾しない一部の例に過ぎない。以上では少数の変形例を詳細に説明してきたが、他の修正または追加が可能である。特に、本明細書中に説明したものに加えて、追加的な特徴及び／または変形例を提供することができる。例えば、上述した実現は、開示した特徴の種々の組合せまたは副次的組合せ、及び／または上述したいくつかの追加的特徴の組合せまたは副次的組合せに指向したものである。それに加えて、添付した図面中に示す、及び／または本明細書中に記載した論理の流れは、所望の結果を実現するために、図示する特定の順序、あるいは連続した順序を必ずしも要求しない。他の実現も以下の特許請求の範囲内であり得る。

Claims

ビデオ成分及び特徴成分をサポートするビデオ・ビットストリーム用のハイブリッド・デコーダであって、
デマルチプレクサと、
ビデオデコーダと、
特徴デコーダと、
機械モデルとを具えたハイブリッド・デコーダにおいて、
前記デマルチプレクサは、前記ビデオ・ビットストリームを受信し、該ビデオ・ビットストリームを解析してビデオ成分と特徴成分とにし、
前記ビデオデコーダは、前記デマルチプレクサに結合され、前記ビデオ・ビットストリームの前記ビデオ成分を受信し、
前記特徴デコーダは、前記デマルチプレクサに結合され、前記ビデオ・ビットストリームの前記特徴成分を受信し、前記特徴デコーダは、前記ビデオデコーダに更に結合され、前記ビデオデコーダに特徴データを選択的に提供してビデオ符号化を促進し、
前記機械モデルは前記特徴デコーダに結合され、
前記ハイブリッド・デコーダは、第１復号化モード及び第２復号化モードを有し、前記第１復号化モードでは、前記ビデオ・ビットストリームの前記ビデオ成分と前記特徴成分とを独立して復号化し、前記第２復号化モードでは、前記ビットストリーム中の前記特徴成分を部分的に用いて、前記ビデオ・ビットストリーム中の前記ビデオ成分を復号化するハイブリッド・デコーダ。
前記ビデオ・ビットストリーム中の前記ビデオ成分が残差データを含み、該残差データは、前記特徴データと入力ビデオデータとの差を符号化して得られ、前記特徴デコーダが、前記第２復号化モードで、前記特徴データを前記ビデオデコーダに提供する、請求項１に記載のハイブリッド・デコーダ。
前記ハイブリッド・デコーダが、前記第１復号化モードか前記第２復号化モードかを、前記ビデオ・ビットストリームの属性に基づいて決定する、請求項１に記載のハイブリッド・デコーダ。
前記ビデオ・ビットストリームが複数のセグメントを含み、該セグメントの各々が、前記特徴成分及び前記ビデオ成分を規定する複数の成分を含み、該複数の成分はハイブリッドサイズ成分を含み、前記第１復号化モードか前記第２復号化モードかを、少なくとも部分的に、前記ハイブリッドサイズ成分の特性に基づいて決定する、請求項３に記載のハイブリッド・デコーダ。
前記セグメントの各々を別個に復号化し、前記第１復号化モードか前記第２復号化モードかを前記セグメント毎に決定する、請求項４に記載のハイブリッド・デコーダ。
特徴成分及びビデオ成分を有する符号化されたハイブリッド・ビデオデータ用のビットストリーム構造であって、
該ビットストリーム構造が複数のハイブリッド・ビットストリーム・セグメントを含み、前記ハイブリッド・ビットストリーム・セグメントの各々が複数の成分を含み、該複数の成分は、
ハイブリッドサイズ成分と、
メタデータ成分と、
特徴ヘッダと、
特徴ペイロードと、
ビデオヘッダと、
ビデオ・ペイロードとを含む、
ビットストリーム構造。
ハイブリッド・ビットストリームを生成するハイブリッド・エンコーダであって、
プリプロセッサと、
ビデオエンコーダと、
特徴抽出器と、
特徴エンコーダと、
マルチプレクサとを具えたハイブリッド・エンコーダにおいて、
前記プリプロセッサは、入力ビデオストリームを受信して、該入力ビデオストリームをビデオ処理及び特徴処理用に多重化し、
前記ビデオエンコーダは、前記入力ビデオストリームのビデオの内容を人間の視聴用に圧縮し符号化して前記ハイブリッド・ビットストリーム中に含め、
前記特徴抽出器は機械モデルに結合され、該機械モデルは特徴抽出用のパラメータをその後の機械処理用に提供し、前記特徴抽出器は、前記ビデオエンコーダに動作的に結合されて、前記ビデオエンコーダに特徴データを選択的に提供し、
前記特徴エンコーダは、前記特徴データを前記特徴抽出器から受信して、前記特徴データを前記ハイブリッド・ビットストリームに含めるために符号化し、
前記マルチプレクサは、前記ビデオエンコーダ及び前記特徴エンコーダに結合され、前記ビデオエンコーダ及び前記特徴エンコーダから前記ハイブリッド・ビットストリームを生成する
ハイブリッド・エンコーダ。
前記ビデオエンコーダ及び前記特徴エンコーダが、少なくとも第１符号化モード及び第２符号化モードで動作し、前記第１符号化モードでは、前記ビデオエンコーダ及び前記特徴エンコーダが、前記入力ビデオストリームのビデオ成分と特徴成分とを独立して符号化し、前記第２符号化モードでは、前記特徴エンコーダからの前記特徴データを部分的に用いて、前記入力ビデオストリーム中の前記ビデオ成分を符号化する、請求項７に記載のハイブリッド・エンコーダ。
前記第２符号化モードにおいて、前記ビデオエンコーダが、前記特徴データと前記入力ビデオストリームの入力ビデオデータとの差を符号化することによって残差データを生成する、請求項８に記載のハイブリッド・エンコーダ。
前記ハイブリッド・ビットストリームが複数のハイブリッド・ビットストリーム・セグメントを含み、該ハイブリッド・ビットストリーム・セグメントの各々が、
ハイブリッドサイズ成分と、
メタデータ成分と、
特徴ヘッダと、
特徴ペイロードと、
ビデオヘッダと、
ビデオペイロードと
を含む、請求項７に記載のハイブリッド・エンコーダ。
前記ビデオエンコーダ及び前記特徴エンコーダに結合された最適化器を更に具え、該最適化器が、前記入力ビデオストリーム中の入力ビデオデータ及び前記特徴データを前記ハイブリッド・ビットストリーム中に含めるために更に符号化する、請求項７に記載のハイブリッド・エンコーダ。