JP2024514681A - ハイブリッド特徴ビデオ・ビットストリーム用のシステム、方法、及びビットストリーム構造、及びデコーダ - Google Patents

ハイブリッド特徴ビデオ・ビットストリーム用のシステム、方法、及びビットストリーム構造、及びデコーダ Download PDF

Info

Publication number
JP2024514681A
JP2024514681A JP2023564047A JP2023564047A JP2024514681A JP 2024514681 A JP2024514681 A JP 2024514681A JP 2023564047 A JP2023564047 A JP 2023564047A JP 2023564047 A JP2023564047 A JP 2023564047A JP 2024514681 A JP2024514681 A JP 2024514681A
Authority
JP
Japan
Prior art keywords
video
feature
hybrid
bitstream
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023564047A
Other languages
English (en)
Inventor
アジッチ ヴェリボール
カルバ ハリ
ファート ボリヴォイェ
Original Assignee
オーピー ソリューションズ, エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オーピー ソリューションズ, エルエルシー filed Critical オーピー ソリューションズ, エルエルシー
Publication of JP2024514681A publication Critical patent/JP2024514681A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

ハイブリッド特徴ビデオ・ビットストリームの符号化及び復号化用の方法及びシステムを提供する。符号化は複数のモードのうちの1つで実行することができる。1つのモードでは、符号化されたビットストリームのビデオ成分が、特徴データと入力ビデオデータとの差を符号化して生成された残差データを含む。対応するデコーダは複数の復号化モードで動作することができる。1つの復号化モードでは、ビットストリーム中の符号化されたビデオ及び符号化された特徴データを用いてビデオ成分を復号化する。エンコーダとデコーダとの間のハイブリッド・ビットストリームは、複数のハイブリッド・セグメントで形成され、各セグメントは、当該セグメントの特徴及びビデオの内容の特性を指定する複数の成分を有する。

Description

発明の分野
本発明は一般にビデオ圧縮の分野に関するものである。特に、本発明は、ハイブリッド特徴ビデオ・ビットストリーム用の方法及びシステム、及びデコーダに指向したものである。
背景
ビデオは一般に人間の消費向けの媒体として考えられてきたが、先進の工業プロセス、自律走行車、IoT(Internet of Things:物のインターネット)等のような機械用途におけるビデオの利用向けの成長する用途が存在する。これらの用途は、成長し続け、増加する需要をビデオチャネルの帯域幅にもたらし続けることが予期される。一部の用途では、人間及び機械の消費の両方にとって最適化されたビデオ・コンテンツを提供することが望ましい。こうしたビットストリームをハイブリッド・ビットストリームと称することがある。提案するビットストリーム及びデコーダの有用性は、主として、ビットストリームを人間の視聴者、及び映像データを分析する機械の両方に伝送するシナリオにとっての有用性である。ビットストリームのビデオ部分は人間の視聴者用を意図し、ビットストリームの特徴部分は機械による分析用を意図している。従って、人間及び機械の用途の両方に適したビデオ・コンテンツを圧縮し、符号化して効率的に伝送することができるシステム及び方法を開発することが有益である。
5G(fifth generation:第5世代)及びIoTのような技術及び概念に関連したエッジデバイスの急増及び自動ビデオ分析の増加は、機械をエンドユーザと考えるビデオ符号化(コーディング)用の規格の必要性を提起した。
現在の最先端の方法は、エッジデバイスからの全信号を記録し、符号化してサーバーへ送信することである。サーバー上では、信号のビットストリームを復号化して、分析及び処理用の機械(マシン)アルゴリズムに渡す。こうした方法の例は、とりわけ、アマゾン社のエコー・ウィズ・アレクサ(Echo with Alexa:登録商標)、グーグル社のホーム・ウィズ・アシスタント(Home with Assistant:登録商標)、及びアップル社のシリ(Sili:登録商標)付きの機器である。これらの機器は主に音(オーディオ信号)を処理し、そのペイロードは過度に大きくはない。
しかし、リング・ドアベル(Ring Doorbell:登録商標)のようなビデオを処理する機器にとっては、ネットワークの帯域幅及び利用可能性に対する要求が非常に高い。これらの高過ぎる要求を軽減するために、他の方法が提案されている。機器自体が、処理の早期段階の一部を行って、圧縮した特徴のみをサーバーへ送信する。このようにして、エッジ上での計算の複雑性という犠牲を払ってペイロードを大幅に低減する。ペイロードの低減(低いネットワーク使用量)と計算の複雑性(高いバッテリ使用量)とのトレードオフには、適応的権限委譲によって応えることができる。処理は、全体をエッジデバイスによって行うことも、エッジデバイスとサーバーとの間で権限委譲し合うことも、全体をサーバー上で行うこともできる。
ビデオ・コーデック(符号化復号化器)は、デジタルビデオを圧縮または復元(解凍)する電子回路またはソフトウェアを含むことができる。ビデオ・コーデックは、非圧縮のビデオを圧縮フォーマットに変換することも、その逆もできる。ビデオ圧縮の関連では、ビデオを圧縮(及び/またはその一部の機能を実行)する機器を一般にエンコーダ(符号化器)と称することがあり、ビデオを復元(及び/またはその一部の機能を実行)する機器をデコーダ(復号化器)と称することがある。
圧縮されたデータのフォーマットは、標準的なビデオ圧縮仕様に適合することができる。この圧縮は、圧縮されたビデオが元のビデオ中に存在する情報の一部を欠く点で有損失であり得る。このことの結果は、復元されたビデオが元の非圧縮のビデオよりも低い品質を有することがある、ということを含み得る、というのは、存在する情報が元のビデオを正確に再構成するには不十分だからである。
ビデオの品質、ビデオを表現するために使用するデータの量(例えば、ビットレートによって決まる)、符号化及び復号化アルゴリズムの複雑性、データ損失及びエラーに対する感受性、編集の容易性、ランダムアクセス、エンド-ツー-エンド(エンド間)の遅延(例えば、レイテンシ)等の間には複雑な関係が存在し得る。
動き補償は、以前の及び/または将来のフレームのような参照フレームが与えられると、ビデオ中のカメラ及び/または物体の動きを明らかにすることによって、ビデオフレームまたはその一部分を予測する方法を含むことができる。動き補償は、ビデオデータの符号化及び復号化において、例えばモーション・ピクチャー・エキスパート・グループ(MPEG:Motion Picture Experts Group)のアドバンスト・ビデオ・コーディング(AVC:Advanced Video Coding)規格(H.264とも称する)を用いた符号化及び復号化において、ビデオ圧縮用に用いることができる。動き補償は、参照画像から現在画像への変化の観点から画像を記述することができる。参照画像は、現在画像と比べると以前の時点とすることができ、現在画像と比べると将来の画像からのものとすることができる。以前に送信された及び/または記憶している画像から画像を正確に合成することができると、圧縮効率を向上させることができる。
1つの好適例では、ビデオ成分及び特徴成分をサポートするビデオストリーム用のハイブリッド・デコーダが提供される。ハイブリッド・デコーダはデマルチプレクサ(多重分離器)を含み、デマルチプレクサは、ビットストリームを受信し、受信したビットストリームを解析してビデオ成分と特徴成分にする。ビデオデコーダがデマルチプレクサに結合され、ビットストリームのビデオ成分を受信する。特徴デコーダもデマルチプレクサに結合され、ビットストリームの特徴成分を受信する。特徴デコーダはビデオデコーダにも結合されて、特徴データを選択的にビデオデコーダに提供して、ビデオ復号化を促進することが好ましい。機械(マシン)モデルが特徴デコーダに結合されている。上記ハイブリッド・デコーダは、少なくとも第1復号化モード及び第2復号化モードを有することが好ましく、第1復号化モードではビットストリームのビデオ成分と特徴成分とを独立して復号化し、第2復号化モードでは、ビットストリーム中の特徴成分を部分的に用いて、ビットストリーム中のビデオ成分を復号化する。
一部の好適例では、ビットストリーム中のビデオ成分が、特徴データと入力ビデオデータとの差を符号化することによって得られた残差データを含み、第2復号化モードでは特徴デコーダが特徴データをビデオデコーダに提供する。
一部の例示的な好適例では、デコーダがビットストリームの属性に基づいて復号化モードを決定する。
上記ハイブリッド・ビットストリームが複数のセグメントを含み、各セグメントが、当該セグメント内の特徴成分及びビデオ成分を規定する複数の成分を含むことが好ましい。各セグメントはハイブリッドサイズ成分を含むことができ、上記復号化モードは、少なくとも部分的に、ハイブリッドサイズ成分の特性によって決定することができる。特定の好適例では、各セグメントを別個に復号化し、復号化モードをセグメント毎に決定する。
本発明は、特徴成分及びビデオ成分を有する符号化されたハイブリッド・ビデオデータ用のビットストリーム構造も提供する。このビットストリームは、複数のハイブリッド・ビットストリーム・セグメントを含むことが好ましく、各ビットストリーム・セグメントは複数の成分を含む。例示的な成分は、ハイブリッドサイズ成分;メタデータ成分;特徴ヘッダ;特徴ペイロード;ビデオヘッダ:及びビデオ・ペイロードを含むことができる。
本発明は、ハイブリッド・ビットストリームを生成するためのハイブリッド・エンコーダも提供する。ハイブリッド・エンコーダの1つの好適例は、入力ビデオストリームを受信して、このビデオストリームをビデオ処理及び特徴処理の両方用に多重化するプリプロセッサ(前処理装置)を含む。ビデオ成分を人間の視聴用に圧縮し符号化してビットストリーム中に含めるためのビデオエンコーダを提供する。特徴抽出器も提供する。特徴抽出器は機械モデルに結合され、機械モデルは特徴抽出用のパラメータをその後の機械処理用に提供する。特徴抽出器は、ビデオエンコーダに動作的に結合され、特徴データを選択的にビデオエンコーダに提供することが好ましい。特徴エンコーダが、特徴データを特徴抽出器から受信して、特徴データをハイブリッド・ビットストリームに含めるために符号化する。マルチプレクサ(多重化器)が、ビデオエンコーダ及び特徴エンコーダに結合されて、これらからハイブリッド・ビットストリームを生成する。
一部の例示的な好適例では、ハイブリッド・エンコーダが少なくとも第1符号化モード及び第2符号化モードで動作し、第1符号化モードではビットストリームのビデオ成分と特徴成分とを独立して符号化し、第2符号化モードでは、特徴エンコーダからの特徴成分を部分的に用いて、ビットストリーム中のビデオ成分を符号化する。1つの追加的な例では、第2符号化モードで、ビデオエンコーダが、特徴データと入力ビデオデータとの差を符号化することによって残差データを生成する。
上記ハイブリッド・エンコーダは、複数のハイブリッド・ビットストリーム・セグメントを含むハイブリッド・ビットストリームを生成することが好ましい。一例では、各ビットストリーム・セグメントが複数の成分を含む。例示的な成分の集合は:ハイブリッドサイズ成分;メタデータ成分;特徴ヘッダ;特徴ペイロード;ビデオヘッダ;及びビデオ・ペイロードを含む。
本発明の非限定的な好適例のこれら及び他の態様及び特徴は、以下の本発明の具体的で非限定的な実施形態を、添付した図面と共に検討すると、当業者にとって明らかになる。
本発明を説明する目的で、これらの図面は、本発明の1つ以上の実施形態の態様を示す。しかし、本発明は、図面中に示す正確な構成及び手段に限定されないことを理解するべきである。
ハイブリッドビデオ用途における使用に適したエンコーダ及びデコーダの例示的な実施形態の簡略化したブロック図である。 ハイブリッド・ビットストリーム構造の例示的な実施形態を示す図である。 ハイブリッド・ビットストリーム構造の例示的な実施形態を示す図である。 ハイブリッド・ビットストリーム用の復号化プロセスの例示的な実施形態の流れ図である。 現在の復号化プロセスの例示的な具体例における使用に適した復号化モード選択を図示する流れ図である。 ビデオデコーダの例示的な実施形態の簡略化したブロック図である。 ビデオエンコーダの例示的な実施形態の簡略化したブロック図である。 本明細書中に開示する方法のいずれか1つ以上、及びそのいずれか1つ以上の部分を実現するために用いることができるコンピュータシステムのブロック図である。
これらの図面は、必ずしも原寸に比例しておらず、極細線、略図表現、及び部分図によって図示されていることがある。特定例では、実施形態の理解のために必要でない細部、あるいは他の細部を理解することを困難にする細部は省略していることがある。
詳細な説明
本発明は、ハイブリッド・ビデオデータの符号化及び復号化のためのシステム及び方法に指向している。機械プロセスにおける使用向けにビデオを符号化するプロセスは、機械向けビデオ符号化またはVCM(video coding for machines)と称されることが多い。
図1は、エンコーダ105及びデコーダ110を含むハイブリッド・ビデオデータ用のVCMシステムの概念的アーキテクチャを示す簡略化したブロック図である。図1中に見られるように、通常は、カメラまたは他のビデオ生成システムからのもののような生ビデオの形態のビデオストリーム115が、エンコーダに入力される。エンコーダ105はビットストリームを出力し、ビットストリームはその後にデコーダに送信され、デコーダは、このビットストリームを復号化して、人間及び/または機械によって消費される出力にする。VCMエンコーダ105は、入力ビデオ115を受信して、プリプロセッサのビデオスプリッタ(ビデオ分割器)120に通す。プリプロセッサ120は、受信したビデオデータ・ストリームを2つの成分、即ち:ビデオエンコーダ(例えば、RGB-YUV変換)に渡されるビデオ成分と、特徴抽出器130に渡されるストリームとに分割する。特徴抽出器130に渡されたストリームは、必要に応じて適切なフォーマットに変換される。このストリームは、必要に応じて、特徴抽出器130によって量子化するか、他の何らかの方法によってダウンサンプリングすることもできる。
ビデオエンコーダ125は、ビデオストリームを、2つの利用可能なモード、即ち「基本モード」及び「特徴補償モード」で圧縮/符号化するように構成されていることが好ましい。「基本モード」で動作する際には、ビデオエンコーダ125は、H.264、HEVC(High Efficiency Video Coding)、AVC、VVC(Versatile Video Coding)ビデオ符号化規格用の規格準拠型デコーダのような標準的なビデオエンコーダとして動作し、任意で、特徴抽出器130との双方向接続を有する。このモードでは、ビットストリームの所定の規格に準拠したあらゆるデコーダによって、ビデオ・サブストリーム(副次的ビデオストリーム)が復号化可能である。こうしたビデオエンコーダ125から特徴抽出器130への接続を用いて、特に知覚領域におけるより効率的な圧縮用に用いることができる追加的情報を提供することができる。一方、ビデオエンコーダ125は、動き情報、シーン変化情報、等のような有用なフィードバックを特徴抽出器130に提供することができる。
「特徴補償モード」では、ビデオエンコーダ125が入力ビデオ及び特徴抽出のフィードバックを共に受信することが好ましい。特徴マップに基づいて、ビデオエンコーダ125は、マップと入力画像との残差を推定して符号化する。
特徴補償モード(FCM:feature-compensated mode)は、ビデオ・サブストリームが、特徴データと入力ビデオデータとの差を符号化することによって得られた残差データで構成されるビデオ符号化/復号化モードである。復号化中に、この残差をベースライン特徴データと組み合わせることができる。ベースライン特徴データは、ビデオデコーダによって特徴デコーダから得ることができる。ベースライン特徴データは、特徴デコーダの未修正の出力に等しくすることができ、あるいは特徴デコーダの出力の部分集合とすることができる。ベースライン残差データは、特徴、または特徴と入力ビデオ信号との組合せのいずれかによって構成することができる。例えば、ベースライン特徴データは、入力ビデオデータがコンボリューショナル・ニューラルネットワーク(CNN:Convolutional Neural Network:畳み込み神経回路網)の1つ以上の層を通過する際に生じる特徴マップで構成することができる。ベースライン特徴データは、エッジ(縁部)、コーナー(隅部)、またはキーポイント(主要点)のような特徴で構成される視覚(ビジュアル)プリミティブ(視覚的な原始的要素)で構成することもできる。
特徴抽出器130は、プリプロセッサ120からの入力画素ストリームを、機械で使用するための特徴空間に変換する。特徴空間は、この機械によって完了させるべきタスクに対応する。この変換のいくつかの例は、次のものを含む:エッジ抽出-キャニー(Canny)エッジ検出のようなコンピュータビジョン・アルゴリズムを用いて、入力画像中の関係するエッジを検出して抽出する;キーポイント抽出-スケール不変の特徴変換(Scale-Invariant Feature Transform)及び頑健な特徴量の高速化(Speeded Up Robust Features)のようなアルゴリズムを用いる;信号抽出-独立成分分析または原理成分分析を用いて、スペクトルの最も関係する成分を、入力画像または入力オーディオから抽出する;特徴マップ抽出-コンボリューショナル・ニューラルネットワークのようなニューラルネットワークの下層を用いる、等。変換の種類は、機械モデル入力135に基づいて選択する。機械モデル135のコピーは、エッジデバイス上に、独立して、またはエンコーダ105の一部として、のいずれかで記憶することができる。このことは、構成可能なエンコーダ・ソフトウェアのスケーラブルな(拡張性のある)展開、及び端末機械へのネットワーク接続が利用可能でない際のオフラインモードを共に可能にする。この入力は、端末機械によってリアルタイムで、またはローカル記憶装置から、のいずれかで提供される。それに加えて、特徴抽出器130は、処理を最適化するフィードバック入力をビデオエンコーダ125から取得することができる。
特徴エンコーダ140は、特徴抽出器130から抽出された特徴を受信し、これらの特徴を、同様な規格(例えばCDVA(Compact Descriptors for Video Analysis))用に開発された標準的な無損失及び有損失の技術により圧縮する。あらゆる既知の方法を用いることができるが、特徴エンコーダがある種のエントロピー符号化を主に用いることが好ましい。最適化器145を設けて、ビデオエンコーダ125及び特徴エンコーダ140の両方からの入力を受信して、更に圧縮または廃棄することができるデータ中のオーバーラップ(重複)及び冗長性がビデオ・ビットストリーム及び/または特徴ビットストリーム中に存在することを示す信号を、これらのブロックのそれぞれに供給することができる。ビデオエンコーダ125及び特徴エンコーダ140の出力は、マルチプレクサまたはマクサ(muxer)150に供給され、マルチプレクサまたはマクサ150は、これら2つのビットストリームを結合して1つにする。
ハイブリッド・デコーダ110は、符号化されたハイブリッド・ビットストリームを受信して、デマルチプレクサまたはデマクサ(demuxer)155に渡す。デマクサ155は受信したハイブリッド・ビットストリームをビデオ・ビットストリームと特徴ビットストリームとに分割する。不可欠なものには、マクサ150の動作と相補的な動作がある。次に、特徴ビットストリームを1つ以上の特徴デコーダ160a、160bに供給する。複数の異なる特徴の集合を用いる場合には、特徴集合抽出器157を、デマクサ155と特徴デコーダとの間に挿入して、個々の特徴の集合をビットストリームから分離して、これらの特徴の集合をそれぞれの特徴デコーダ160a、160bに回すことができる。各特徴デコーダ160は、機械モデル135からの入力を受信し、個別の特徴集合を入力として受信して復号化する。機械モデル135は、リモートデータ源からの入力として提供することができ、あるいはデコーダ110内の記憶装置内に含めることができる。それに加えて、「特徴補償モード」では、特徴デコーダ160が特徴の特定部分集合をビデオデコーダ165に送信する。特徴デコーダ160の出力は端末機械170へ送信される。ビデオデコーダ165は、「基本モード」では標準的なビデオデコーダであり、「特徴補償モード」ではハイブリッド・デコーダであることが好ましい(基本モードを両者用に用いる可能性がある)。
図2は、エンコーダ105から出力されて伝送チャネル経由でデコーダ110へ送信されるビデオ及び特徴を共に含むビットストリームの簡略化した概略図である。ビットストリームがビデオ及び特徴を共に含むので、このビットストリームをハイブリッド・ビットストリームと指名する。最上行200はハイブリッド・ビットストリームを表し、ハイブリッド・ビットストリームは、ハイブリッド・セグメント205と称される個別の単位で構成される連続ストリームである。一連のハイブリッド・セグメント205は、この連続ストリームにおける時間的に連続した部分である。各ハイブリッド・セグメント205は、6つの成分、即ちハイブリッドサイズ210、メタデータ215、特徴ヘッダ220、特徴ペイロード225、ビデオヘッダ230、及びビデオ・ペイロード235で更に構成されることが好ましい。ハイブリッドサイズ210がハイブリッド・セグメント205中の最初の成分である限り、これらの成分は一般に任意の順序で出現することができる。一例では、個別の成分中の「種類」フィールド及び「サイズ」フィールドを用いることによって、成分の順序を暗示的に信号表示することができる。その代わりに、成分210~235は「スタートコード」フィールドを含むことができ、「スタートコード」フィールドは、「サイズ」フィールド及び「種類」フィールドを置き換えて、その代わりにデコーダによる順次の解析用に用いる。成分内部のフィールドは、デコーダによって、復号化用のパラメータを初期化または更新するものと解釈することができる。
ハイブリッドサイズ成分210は、列内の成分の各々の長さを指定する数の単一のフィールドアレイであることが好ましい。このフィールドアレイは、標準単位(通常はビットまたはバイト)で表現することができる。一例として、[10,30,500,100、5000]は、10バイトのメタデータ情報が存在し、30バイトの特徴ヘッダデータが続き、500バイトの特徴ペイロードが続き、100バイトのビデオヘッダデータが続き、5000バイトのビデオ・ペイロードが続くことを意味することができる。これらの数をデコーダが用いて、入力ビットストリーム中の現在のセグメントに属する関連部分を抽出することができる。特徴成分またはビデオ成分のいずれかが存在しない場合、このことをアレイ内の0の値によって信号表示する。
代案の復号化シナリオでは、「スタートコード」を用いて、この「スタートコード」によって指定された種類の新たな成分の先頭に印を付ける。
メタデータ成分215は、セグメントの内容を記述するフィールドを含み、例えば次のものであり、但しこれらに限定されない:
〇ビデオの入力解像度:これは幅及び高さの画素値として表すことができる。
〇スタートセグメント:当該セグメントが、独立して復号化可能な列の最初にある場合に1にセットされ、そうでない場合に0にセットされるバイナリ(2進数)フラグ。
〇特徴補償モード:現在のセグメントをFC(feature-compensated:特徴補償)モードで符号化する場合に1にセットされ、そうでない場合に0にセットされるバイナリフラグ。
〇将来の拡張用に予約されたカスタムフィールド。
特徴ヘッダ220は、一般に、特徴に関係するセグメント内容を記述し、例えば次のものであり、但しこれらに限定されない:
〇解像度変更用のスケーリングファクタ(拡大縮小係数):入力ビデオの解像度の倍率を表す単一の数。
〇特徴の種類:ペイロード中に存在する特徴の種類を指定する指数。例えば:(1-エッジ、2-キーポイント、3-ニューラルネットワーク、等)。
〇特徴の種類の構成:特徴の種類についての情報を有するフィールドの任意の集合。例えば、ニューラルネットワークのトポロジー。
〇ROI座標:関心事の物体の周りの境界ボックスのような関心領域(ROI:regions of interest)の存在を(暗示的に)指定し、位置を明示的に指定する4要素のアレイ。各4要素は、次の画素値(ROIの左上コーナーのx座標、ROIの左上コーナーのy座標、ROIの幅、ROIの高さ)を指定する数を含む。例えば[(100,50,200,250),(400,400,200,300)]は2つのROIを指定する。
〇残差:ビデオデコーダが現在セグメントの特徴ペイロードをFCモードで用いる場合を指定するフラグ。
〇特定の特徴の種類に関係する種々のパラメータの集合。
〇将来の拡張用に予約されたカスタムフィールド。
特徴ペイロード成分225は、出力された特徴の再構成に必要な符号化された特徴データを含むビットストリームの一部分である。特徴データは、例えば、キーポイント、エッジ、動き情報、物体検出、境界ボックス、ニューラルネットワークの特徴マップ、及びイベント(事象)及び行動の認識及び追跡、ポーズ(姿勢)推定、等のような画像及びビデオ分析用途を可能にする類似のデータを含むことができる。特徴は、ハフマン(Huffman)符号化、算術符号化、またはVLC符号化(variable length coding:可変長符号化)、等のようなエントロピー及びバイナリ符号化を用いて符号化することができる。
ビデオヘッダ成分230は、一般に、ビデオに関係するセグメントの内容を記述するフィールドを含み、例えば次のものであり、但しこれらに限定されない:
〇モード:現在のビデオセグメントについて基本モードまたはFCモードを信号表示するために予約された単一の数(ビット)。
〇パラメータ集合:例えば、ビデオデコーダの構成を信号表示する画像パラメータ集合。場合によっては順序パラメータ集合でもある。
〇量子化メトリクス:符号化用に用いる量子化係数を有する1つ以上のメトリクス(計量)の集合。各メトリクスは、当該メトリクスが適用される領域と共に識別される。領域位置は、残差情報と共に、あるいは独立して、明示的に信号表示することができ、あるいは特徴デコーダから(ROI座標として)取得することができる。
〇知覚パラメータ:(特徴デコーダからROI領域として得られた)知覚的に重要な特性を有する領域内に適用される量子化スケーリング及びループフィルタのパラメータ。
〇将来の拡張用に予約されたカスタムフィールド。
ビデオ・ペイロード235は、ビットストリーム中で、出力された特徴の再構成に必要な符号化されたビデオデータを含む部分である。
図3に、例示的なハイブリッド・ビットストリーム構造300を更に示す。このビットストリームは、ハイブリッド・ヘッダ305を含み、ハイブリッド・ヘッダ305は、例えば、0個または1個のビデオストリーム310及び0個以上の特徴ストリーム315a、315bのリストを含む。ハイブリッド・ヘッダ305は、関連するハイレベル・パラメータ(ビットストリーム分割、等に使用される)を含むことが好ましく、どちらのモード、即ち「基本」または「特徴補償」を符号化用に用いるかを信号表示するパラメータを含むこともできる。ビデオストリーム310は、シーケンス・パラメータセット(SPS:sequence parameter set)、ピクチャ・パラメータセット(PPS:picture parameter set)、等のような1つ以上の既知のビデオ符号化規格中に規定された標準的構造を有することが好ましい。ビデオストリームは、どちらのモードを符号化用に用いるか次第で、VCMデコーダまたはVVCデコーダのいずれかによって復号化することができる。各特徴ストリーム315a、315bは、特徴シーケンス・パラメータセットFSPS(feature sequence parameter set)320a、320b及び特徴ピクチャ・パラメータセットFPPS(feature picture parameter set)325a、325b、及び対応する特徴ペイロード330a、330bを含むことが好ましい。
ハイブリッド・ビットストリーム用の復号化プロセスの概要を、図4のフローチャートに関連して説明する。デコーダ110は、ステップ405でビットストリーム・セグメント205を受信し、メタデータ215を読み取り、ステップ410で現在のセグメントが一連のセグメント中のスタート(開始)セグメントであるか否かを判定する。現在のセグメントがスタートセグメントである場合、復号化プロセスはステップ415に進んで、メタデータ成分215中の他のフィールド内の値、及び特徴ヘッダ220及びビデオヘッダ230内のフィールドの値に応じて、復号化パラメータを設定する。ステップ410において、受信したセグメントが最初のセグメントでない場合、復号化プロセスは、ステップ420における、現在のセグメントと以前のセグメントとの差を補償する計算に進む。差を補償する計算は、動き補償、または特徴の集合に適した他のあらゆる種類の補償を含むことができる。ステップ415及び420に続いて、処理はステップ425におけるペイロードデータを復号化することに進む。ステップ430でペイロードデータを検査して、処理がセグメントの終わりに達したか否かを判定する。ステップ430でセグメントの終わりに達していなければ、処理はステップ420に戻る。セグメントが一連のセグメントの最終セグメントである場合、現在のセグメント・グループの復号化を終了する。ステップ435では、デコーダが、最終セグメントが復号化されたか否かを判定する。復号化されていない場合、処理はステップ405に戻って、次のセグメントを復号化する。
各セグメント・グループは、連続した1つ以上のセグメントの列である。各セグメント・グループは独立して復号化可能である。1つのセグメント・グループ内のビデオセグメントは、他のビデオセグメントに対して独立して復号化可能であり、但し同じセグメント・グループ内の特徴セグメントに依存することがある。
ハイブリッド・ビットストリーム内の各ハイブリッド・セグメントまたは各セグメント・グループ内には、1個または0個の特徴セグメント及び1個または0個のビデオセグメントが存在し得る。特徴セグメント及びビデオセグメントの存在は、「ハイブリッドサイズ」成分210の値から暗示的に判定することができる。デコーダのモードは、セグメント毎の「特徴補償モード」(FCM)フラグに基づいて判定することができる。
決定プロセスをFCMフラグの解析用に用いると共に、サイズパラメータの解析をセグメントの存在判定用に用いる復号化モード選択を、図5に示すフローチャートに関連して更に説明する。
デコーダが、ステップ505でハイブリッド・セグメントを受信し、ステップ510で、特徴サイズを評価することによって、特徴セグメントが存在するか否かを判定する。特徴セグメントが存在しない場合(そのサイズが0)、復号化プロセスは、ステップ515で、サイズをチェックして、ビデオセグメントが存在するか否かを判定する。ビデオセグメントが存在しない場合(そのサイズが0)、現在のセグメントをスキップする(ステップ520)。ステップ515でビデオセグメントが存在する場合、ステップ510で特徴セグメントが当該セグメント内に存在しなかったものと判定した後に、ステップ525でモードを「基本モード」に設定して、ビデオのみを復号化する。
ステップ510で、特徴セグメントが存在し(特徴サイズが0でない)ビデオセグメントが存在しない場合(ステップ530)、ビデオ復号化はなく特徴のみを復号化する(ステップ535)。特徴セグメント及びビデオセグメントが共に存在する場合、ステップ450で、デコーダがメタデータ成分215からのFCMフラグをチェックする。FCMモードが信号表示された場合(FCM=1)、特徴セグメントをまず復号化して(ステップ545)ベースライン特徴データをビデオデコーダに渡し、ビデオデコーダはFCモードで動作し(ステップ550)、従ってベースライン特徴データを残差と組み合わせてビデオ出力を得る。ステップ540でFCフラグが0にセットされていた場合、特徴セグメントとビデオセグメントとを独立して復号化し、ビデオデコーダは「基本モード」で動作する。
図6は、ビデオデコーダ165として図1に示すようなビデオデコーダ600の一例を示すシステムブロック図であり、ビデオデコーダ600はハイブリッド・ビットストリームのビデオ部分を復号化することができる。デコーダ600は、エントロピーデコーダ・プロセッサ610と、逆量子化兼逆変換プロセッサ620と、デブロッキング(非ブロック化、ブロック分解)フィルタ630と、フレームバッファ640と、動き補償プロセッサ650と、イントラ(画面内)予測プロセッサ660とを含む。
動作中には、ハイブリッド・ビットストリームのビデオ部分をデコーダ600が受信してエントロピーデコーダ・プロセッサ610に入力することができ、エントロピーデコーダ・プロセッサ610は、ビットストリームの1つ以上の部分をエントロピー復号化して、量子化された係数にする。量子化された係数は逆量子化兼逆変換プロセッサ620に提供することができ、逆量子化兼逆変換プロセッサ620は、逆量子化及び逆変換を実行して残差信号を生成し、残差信号は、処理モードに応じて動き補償プロセッサ650またはイントラ予測プロセッサ660の出力に加算することができる。動き補償プロセッサ650及びイントラ予測プロセッサ660の出力は、以前に復号化したブロックに基づくブロック予測を含むことができる。予測と残差の合計は、デブロッキングフィルタ630によって処理して、フレームバッファ640内に記憶することができる。
一実施形態では、引き続き図6を参照すれば、デコーダ600が、上述した好適例のいずれかにおいて上述したあらゆる動作を、任意の順序で、かつ任意の反復の度合いで実行するように構成された回路を含むことができる。例えば、デコーダ600は、所望の、あるいは指令された結果が達成されるまで、単一または一連のステップを反復して実行するように構成することができ、1つのステップまたは一連のステップの反復は、前回の反復の出力を後続する反復への入力として用いて、反復の入力及び/または出力を集計して集計結果を生成して、グローバル(広域)変数のような1つ以上の変数を削減または減少させ、及び/またはより大きな処理タスクを反復的に対処されるより小さい処理タスクに分割して、反復的及び/または再帰的に実行することができる。デコーダは、本明細書中に記載したあらゆるステップまたは一連のステップを並列的に実行することができ、例えば、2つ以上の並列スレッド、プロセッサコア、等を用いて、1つのステップを2回以上同時に及び/またはほぼ同時に実行することができ;タスクを並列なスレッド及び/またはプロセスに分割することは、タスクを複数回の反復に分割することに適したあらゆるプロトコルにより実行することができる。当業者は、本開示の全体を検討すると、ステップ、一連のステップ、処理タスク、及び/またはデータを再分割、共用、さもなければ反復法、再帰法、及び/または並列処理を用いて処理することができる種々の方法に気付く。
図7は、図1に示すビデオエンコーダ125のような、ハイブリッド・ビットストリームのビデオ部分を符号化するのに適したビデオエンコーダの一例700を示すシステムブロック図である。ビデオエンコーダの例700は入力ビデオ705を受信し、入力ビデオ705は、最初からセグメント化されていることも、ツリー(木)構造マクロブロック区分方式(例えば、四分木(クワッドツリー)+二分木(バイナリツリー、二進木))のような処理方式により分割することができる。ツリー構造マクロブロック区分方式の一例は、画像フレームをコーディングツリーユニット(CTU:coding tree unit:符号化木単位)と称する大きなブロック要素に区分することを含むことができる。一部の実現では、各CTUを1回以上区分して、コーディングユニット(CU:coding unit:符号化単位)と称する多数のサブブロックに更に区分することができる。こうした分割の最終結果は、予測単位(PU:predictive unit)と称することのできるサブブロックのグループを含むことができる。変換ユニット(TU:transform unit)を利用することもできる。
引き続き図7を参照すれば、ビデオデコーダの例700が、イントラ予測プロセッサ715と、適応クロッピングをサポートすることができる動き推定/補償プロセッサ720(インター(画像間)予測プロセッサとも称する)と、変換/量子化プロセッサ725と、逆量子化/逆変換プロセッサ730と、ループ内フィルタ735と、復号化画像バッファ740と、エントロピー符号化プロセッサ745とを含む。ビットストリーム・パラメータをエントロピー符号化プロセッサ745に入力して、出力ビットストリーム750に含める。
動作中には、引き続き図7を参照すれば、入力ビデオ705のフレームのブロック毎に、当該ブロックをイントラ(画像内)予測により処理するか、動き推定/補償を用いて処理するかを決定することができる。当該ブロックは、イントラ予測プロセッサ710または動き推定/補償プロセッサ720に提供することができる。当該ブロックをイントラ予測により処理する場合、イントラ予測プロセッサ710が処理を実行して予測値を出力することができる。当該ブロックを動き推定/補償により処理する場合、動き推定/補償プロセッサ720が、適用可能であれば適応クロッピングを用いることを含む処理を実行することができる。
引き続き図7を参照すれば、入力ビデオから予測値を減算することによって残差を求めることができる。残差は、変換/量子化プロセッサ725によって受信することができ、変換/量子化プロセッサ725は変換処理(例えば、ディスクリート(離散)コサイン変換(DCT:discrete cosine transform))を実行して係数を生成することができ、これらの係数は量子化することができる。量子化された係数、及び関連する信号表示情報をエントロピー符号化プロセッサ745に提供して、エントロピー符号化して出力ビットストリーム750に含めることができる。エントロピー符号化プロセッサ745は、現在ブロックを符号化することに関係する信号表示情報の符号化をサポートすることができる。それに加えて、量子化された係数は、逆量子化/逆変換プロセッサ730に提供することができ、逆量子化/逆変換プロセッサ730は画素を再生することができ、これらの画素は予測値と組み合わせてループ内フィルタ735によって処理することができ、ループ内フィルタ735の出力は、復号化画像バッファ740に記憶して、適応クロッピングが可能である動き推定/補償プロセッサ720が使用する。
引き続き図7を参照すれば、少数の変形例を詳細に上述してきたが、他の修正または追加が可能である。例えば、一部の実現では、現在のブロックが、任意の対称ブロック(8×8、16×16、32×32、64×64、128×128、等)並びに任意の非対称ブロック(8×4、16×8、等)を含むことができる。
引き続き図7を参照すれば、一部の実現では、四分木+二分決定木(QTBT:quadtree plus binary decision tree)を実現することができる。QTBTでは、コーディングツリーユニットのレベルで、QTBTの区分パラメータを動的に導出して、オーバーヘッドを何ら伝送することなしに局所的特性に適応させる。これに続いて、コーディングユニットのレベルで、同時分類決定木構造が、不要な反復を解消して、予測誤りの恐れを制御することができる。一部の実現では、LTR(long term reference:長期基準)フレームブロック更新モードを、QTPTのすべてのリーフ(葉)ノードにおいて利用可能な追加的選択肢として利用可能にすることができる。
一部の実現では、引き続き図7を参照すれば、追加的シンタックス(構文)要素を、ビットストリームの異なる階層レベルにおいて信号表示することができる。例えば、シーケンス・パラメータセット(SPS)内に符号化されたイネーブルフラグを含めることによって、シーケンス全体についてフラグをイネーブル状態にすることができる。更に、CTUフラグをコーディングツリーユニット(CTU)レベルで符号化することができる。
引き続き図7を参照すれば、エンコーダ700が、上述したあらゆる動作を、任意の順序で、かつ任意の反復の度合いで実現するように構成された回路を含むことができる。例えば、エンコーダ700は、所望の、あるいは指令された結果が達成されるまで、単一のステップまたは一連のステップを反復して実行することができ、1つのステップまたは一連のステップの反復は、前回の反復の出力を後続する反復への入力として用いて、反復の入力及び/または出力を集計して集計結果を生成して、グローバル変数のような1つ以上の変数を削減または減少させ、及び/またはより大きな処理タスクを反復的に対処されるより小さい処理タスクに分割して、反復的及び/または再帰的に実行することができる。エンコーダ700は、本開示中に記載したあらゆるステップまたは一連のステップを並列的に実行することができ、例えば、2つ以上の並列スレッド、プロセッサコア、等を用いて、1つのステップを2回以上同時に及び/またはほぼ同時に実行することができ;タスクを並列なスレッド及び/またはプロセスに分割することは、タスクを複数回の反復に分割することに適したあらゆるプロトコルにより実行することができる。当業者は、本開示の全体を検討すると、ステップ、一連のステップ、処理タスク、及び/またはデータを再分割、共用、さもなければ反復法、再帰法、及び/または並列処理を用いて処理することができる種々の方法に気付く。
引き続き図7を参照すれば、非一時的コンピュータプログラム製品(即ち、物理的に具体化されたコンピュータプログラム製品)が命令を記憶することができ、これらの命令は、1つ以上のコンピュータシステムの1つ以上のデータプロセッサによって実行されると、少なくとも1つのデータプロセッサに、本開示中に記載した動作及び/またはそのステップを実行させ、これらの動作は、上述したあらゆる動作を制限なしに含む。同様に、1つ以上のデータプロセッサ、及びこれら1つ以上のデータプロセッサに結合されたメモリを含むことができるコンピュータシステムも記載する。このメモリは、一時的または永久的に命令を記憶することができ、これらの命令は、少なくとも1つのプロセッサに、本明細書中に記載した動作のうちの1つ以上を実行させる。それに加えて、1つ以上のデータプロセッサによって方法を実現することができ、これらのデータプロセッサは、単一のコンピュータシステム内にあるか、2つ以上のコンピュータシステム間に分散するかのいずれかである。こうしたコンピュータシステムは、接続することができ、そしてデータ及び/またはコマンド、あるいは他の命令等を、ネットワーク(例えば、インターネット、無線ワイドエリア・ネットワーク、ローカルエリア・ネットワーク、ワイドエリア・ネットワーク、有線ネットワーク、等)を含む1つ以上の接続を介して、複数のコンピュータシステムのうちの1つ以上の間の直接の接続を介して、等で交換することができる。
なお、本明細書中に説明する態様及び実施形態のうちの任意の1つ以上は、本明細書の教示に従ってプログラムされた1つ以上の機械(例えば、電子文書、文書サーバーのような1つ以上のサーバー装置、等用のユーザ・コンピュータ装置として利用される1つ以上のコンピュータ装置)内に実現及び/または実装されるように、デジタル電子回路、集積回路、特別に設計された特定用途向け集積回路(ASIC:application specific integrated circuit)、フィールド・プログラマブル・ゲートアレイ(FPGA:field programmable gate array)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/またはその組合せを用いて好都合に実現することができることは、通常の当業者にとって明らかである。これらの種々の態様または特徴は、少なくとも1つのプログラマブル・プロセッサを含むプログラマブル・システム上で実行可能及び/または逐次実行可能な1つ以上のコンピュータプログラム及び/またはソフトウェアの形での実現を含むことができ、上記プログラマブル・システムは、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に結合されて、これらのシステム、装置からデータ及び命令を受信し、これらのシステム、装置へデータ及び命令を送信する特定目的または汎用のプログラマブル・システムとすることができる。
適切なソフトウェア・コーディングは、技能を有するプログラマーが、本開示の教示に基づいて容易に用意することができることは、通常の当業者にとって明らかである。以上に説明した、ソフトウェア及び/またはソフトウェア・モジュールを用いる態様及び実現は、これらのソフトウェア及び/またはソフトウェア・モジュールの機械で実行可能な命令の実現に役立つ適切なハードウェアを含むこともできる。
こうしたソフトウェアは、機械可読の記憶媒体を用いるコンピュータプログラム製品とすることができる。機械可読の記憶媒体は、機械(例えば、コンピュータ装置)によって実行され、本明細書中に説明する方法及び/または実施形態のいずれかを当該機械に実行させる一連の命令を記憶及び/または符号化することができる、あらゆる媒体とすることができる。機械可読の記憶媒体の例は、磁気ディスク、光ディスク(例えば、CD(compact disc:コンパクトディスク)、CD-R(CD-recordable:記録可能CD)、DVD(digital versatile disc:デジタル多用途ディスク)、DVD-R(DVD-recordable:記録可能DVD)、等)、光磁気ディスク、読出し専用メモリ「ROM(read-only memory)」デバイス、ランダムアクセスメモリ「RAM(random access memory)」デバイス、磁気カード、半導体メモリデバイス、EPROM(electrically programmable ROM:電気的プログラム可能ROM)、EEPROM(electrically erasable programmable ROM:電気的消去可能PROM)、プログラマブル・ロジック(論理)デバイス(PLD:programmable logic device)、及び/またはその任意の組合せを含み、但しこれらに限定されない。本明細書中に用いる機械可読媒体は、単一の媒体、並びに例えばコンピュータメモリと組み合わせたコンパクトディスクまたは1つ以上のハードディスクドライブ(ハードディスク駆動装置)の集合体のような物理的に別個の媒体の集合体を意図している。本明細書中に用いる機械可読媒体は、一時的な信号伝送の形態を含まない。
こうしたソフトウェアは、キャリア(搬送)波のようなデータキャリア上のデータ信号として搬送される情報(例えば、データ)を含むこともできる。例えば、機械で実行可能な情報は、データキャリア中に具体化されるデータ搬送信号として含めることができ、ここでは、この信号が、機械(例えば、コンピュータ装置)による実行用の一連の命令、またはその一部、及び本明細書中に説明する方法及び/または実施形態のいずれかを当該機械に実行させるあらゆる関係する情報(例えば、データ構造及びデータ)を符号化する。
コンピュータ装置の例は、電子書籍読書装置、コンピュータ・ワークステーション、端末コンピュータ、サーバー・コンピュータ、ハンドヘルド装置(例えば、タブレット・コンピュータ、スマートホン、等)、ウェブ機器、ネットワーク・ルーター、ネットワーク・スイッチ、ネットワーク・ブリッジ、当該機械が行うべき動作を指定する一連の命令を実行することができるあらゆる機械、及びその組合せを含み、但しこれらに限定されない。一例では、コンピュータ装置がキオスク端末を含むことができ、及び/またはキオスク端末に含まれることができる。
図8に、コンピュータシステムの例示的形態のコンピュータ装置の一実施形態の図式表現を示し、このコンピュータ装置内で、本発明の態様及び/または方法のいずれかを制御システムに実行させる一組の命令を実行することができる。複数のコンピュータ装置を利用して、本発明の態様及び/または方法のうちのいずれか1つ以上をこれらの装置のうちの1つ以上に実行させるために具体的に構成された一組の命令を実現することができることも考えられる。コンピュータシステム800は、プロセッサ804とメモリ808とを含み、これらは互いに通信し、バス812を介して他の構成要素と通信する。バス812は、多様なバス・アーキテクチャを用いた、メモリバス、メモリコントローラ、周辺機器用バス、ローカルバス、及びその任意の組合せを含むいくつかの種類のバス構造を含むことができ、但しこれらに限定されない。
メモリ808は種々の構成要素(例えば、機械可読媒体)を含むことができ、これらの構成要素は、ランダムアクセスメモリ構成要素、読出し専用構成要素、及びその任意の組合せを含み、但しこれらに限定されない。一例では、基本入出力システム(BIOS:basic input/output system)816をメモリ808に記憶することができ、BIOSは、起動中のようにコンピュータシステム800内の要素間で情報を転送することに役立つ基本ルーチンを含む。メモリ808は、(例えば、1つ以上の機械可読媒体上に記憶されている)命令(例えば、ソフトウェア)820を含むこともでき、命令820は、本発明の態様及び/または方法を具体化する。他の例では、メモリ808が任意数のプログラム・モジュールを更に含むことができ、これらのプログラム・モジュールは、オペレーティングシステム、1つ以上のアプリケーション・プログラム、他のプログラム・モジュール、プログラムデータ、及びその任意の組合せを含み、但しこれらに限定されない。
コンピュータシステム800は記憶装置824を含むこともできる。記憶装置(例えば、記憶装置824)の例は、ハードディスクドライブ、磁気ディスクドライブ、光媒体と通信する光ディスクドライブ、半導体メモリデバイス、及びその任意の組合せを含み、但しこれらに限定されない。記憶装置824は、適切なインタフェース(図示せず)によってバス812に接続することができる。インタフェースの例は、SCSI(small computer system interface:小型コンピュータ用周辺機器インタフェース)、アドバンスト・テクノロジー・アタッチメント(ATA:advanced technology attachment)、シリアルATA、ユニバーサル・シリアルバス(USB:universal serial bus)、IEEE 1394(FIREWARE:ファイヤーワイヤー、登録商標)、及びその任意の組合せを含み、但しこれらに限定されない。一例では、記憶装置824(またはその1つ以上の構成要素)を、(例えば、外部ポート・コネクタ(図示せず)を介して)コンピュータシステム800と着脱可能にインタフェース接続することができる。特に、記憶装置824及び関連する機械可読媒体828は、コンピュータシステム800用の機械可読な命令、データ構造、プログラム・モジュール、及び/またはデータの不揮発性及び/または揮発性の記憶装置を提供することができる。一例では、ソフトウェア820が、完全に、あるいは部分的に機械可読媒体828内に存在することができる。他の例では、ソフトウェア820が、完全に、あるいは部分的にプロセッサ804内に存在することができる。
コンピュータシステム800は、入力装置832を含むこともできる。一例では、コンピュータシステム800のユーザが、コマンド及び/または他の情報を、入力装置832を介してコンピュータシステム800に入力することができる。入力装置832の例は、英数字入力装置(例えば、キーボード)、ポインティングデバイス(指示装置)、ジョイスティック、ゲームパッド、音声入力装置(例えば、マイクロホン、音声応答システム、等)、カーソル制御装置(例えば、マウス)、タッチパッド、光センサ、ビデオキャプチャー(捕捉)装置(例えば、スチル(静止画)カメラ、ビデオカメラ)、タッチスクリーン、及びその任意の組合せを含み、但しこれらに限定されない。入力装置832は、多様なインタフェース(図示せず)のいずれかを介してバス812とインタフェース接続することができ、これらのインタフェースは、シリアル・インタフェース、パラレル・インタフェース、ゲームポート、USBインタフェース、FIREWAREインタフェース、バス812とのダイレクト(直接)インタフェース、及びその任意の組合せを含み、但しこれらに限定されない。入力装置832は、上述したように、グラフィカル・インタフェース中の1つ以上のグラフィカル(図形的)表現を選択するためのユーザ選択装置として利用することができる。
ユーザは、コマンド及び/または他の情報を、記憶装置824を介してコンピュータシステム800に入力することもできる。ネットワーク・インタフェース装置840のようなネットワーク・インタフェース装置を利用して、コンピュータシステム800を、ネットワーク844のような多様なネットワークのうちの1つ以上、及びこれらのネットワークに接続されたリモート機器848に接続することができる。ネットワーク・インタフェース装置の例は、ネットワーク・インタフェースカード(例えば、モバイルネットワーク・インタフェースカード、LAN(local area network:ローカルエリア・ネットワーク)カード)、モデム、及びその任意の組合せを含み、但しこれらに限定されない。ネットワークの例は、ワイドエリア・ネットワーク(例えば、インターネット、エンタープライズ(企業内)ネットワーク)、ローカルエリア・ネットワーク(例えば、オフィス、建物、キャンパス、または他の比較的小さい地理的空間に関連するネットワーク)、電話網、電話/音声サービス提供者に関連するデータネットワーク(例えば、モバイル(移動)通信サービス提供者のデータ及び/または音声ネットワーク)、2つのコンピュータ装置間の直接の接続、及びその任意の組合せを含み、但しこれらに限定されない。ネットワーク844のようなネットワークは、有線及び/または無線モードの友進を用いることができる。一般に、あらゆるネットワーク技術を用いることができる。情報(例えば、データ、ソフトウェア820、等)を、ネットワーク・インタフェース装置840を介してコンピュータシステム800から、及び/またはコンピュータシステム800へ伝達することができる。
コンピュータシステム800は、表示可能な画像を表示装置836のような表示装置に伝達するためのビデオ表示アダプタ852を更に含むことができる。表示装置の例は、液晶ディスプレイ(LCD:liquid crystal display)、陰極線管(CRT:cathode ray tube)、プラズマ・ディスプレイ、発光ダイオード(LED:light emitting diode)ディスプレイ、及びその任意の組合せを含み、但しこれらに限定されない。表示アダプタ852及び表示装置836を、プロセッサ804と組み合わせて利用して、本発明の態様のグラフィカル表現を提供することができる。表示装置に加えて、コンピュータシステム800は、他の1つ以上の出力周辺機器を含むことができ、これらの出力周辺機器は、オーディオスピーカ、プリンタ、及びその任意の組合せを含み、但しこれらに限定されない。こうした出力周辺機器は、バス812を介して周辺インタフェース856に接続することができる。周辺インタフェースの例は、シリアルポート、USB接続、FIREWARE接続、パラレル接続、及びその任意の組合せを含み、但しこれらに限定されない。
なお、本明細書中に説明する態様及び実施形態のうちの任意の1つ以上は、本明細書の教示に従ってプログラムされた1つ以上の機械(例えば、電子文書、文書サーバー、等のような1つ以上のサーバー装置用のユーザ・デコーダ及び/またはユーザ・エンコーダとして利用される1つ以上のデコーダ及び/またはエンコーダ)を用いて好都合に実現することができる。適切なソフトウェア・コーディングは、技能を有するプログラマーが、本開示の教示に基づいて容易に用意することができることは、通常の当業者にとって明らかである。以上に説明した、ソフトウェア及び/またはソフトウェア・モジュールを用いる態様及び実現は、これらのソフトウェア及び/またはソフトウェア・モジュールにおける機械で実行可能な命令の実現に役立つ適切なハードウェアを含むこともできる。
以上は、本発明の例示的実施形態の詳細な説明であった。本発明の精神及び範囲から逸脱することなしに、種々の修正及び追加を行うことができる。上述した種々の実施形態の各々の特徴を、説明した他の実施形態の特徴と適宜に組み合わせて、関連する新たな実施形態における特徴の多数の組合せを提供することができる。更に、以上は多数の別個の実施形態を説明しているが、本明細書中に記載したことは、本発明の原理の応用の例示に過ぎない。それに加えて、本明細書中の特定の方法は、特定の順序で実行されるものとして図示及び/または説明していることがあるが、この順序は、本明細書中に開示する実施形態を実現するための通常の技能の範囲内で大幅に変更可能である。
従って、本明細書の説明は、ほんの一例として解されることを意味し、そうではなく本発明の範囲を限定することを意味しない。
以上の説明及び特許請求の範囲では、「...のうちの少なくとも1つ」または「...のうちの1つ以上」が、要素または特徴を連結したリストの形で現れることがある。「及び/または」も、2つ以上の要素または特徴の形で現れることがある。この句が用いられている文脈と暗示的にせよ明示的にせよ矛盾しない限り、この句は、リスト中の要素または特徴のいずれかを個別に、あるいは列挙された要素または特徴のいずれかと他に列挙された要素または特徴のいずれかとの組合せを意味することを意図している。例えば、「A及びBのうちの少なくとも1つ」、「A及びBのうちの1つ以上」、及び「A及び/またはB」の各々は、「A単独、B単独、またはAとBの両方」を意味することを意図している。例えば、「A、B、及びCのうちの少なくとも1つ」、「A、B、及びCのうちの1つ以上」、及び「A、B、及び/またはC」の各々は、「A単独、B単独、C単独、AとBの両方、AとCの両方、BとCの両方、またはAとBとCの全部」を意味することを意図している。それに加えて、上記及び特許請求の範囲における「...に基づいて」の使用は、「少なくとも部分的に...に基づいて」を意味し、列挙されていない特徴または要素も許容されることを意図している。
本明細書中に記載する主題は、所望の構成に応じて、システム、装置、方法、品目の形で具体化することができる。以上の記述において説明した実現は、本明細書中に記載する主題と矛盾しない全ての実現を代表しない。その代わりに、これらの実現は、記載した主題に関係する態様と矛盾しない一部の例に過ぎない。以上では少数の変形例を詳細に説明してきたが、他の修正または追加が可能である。特に、本明細書中に説明したものに加えて、追加的な特徴及び/または変形例を提供することができる。例えば、上述した実現は、開示した特徴の種々の組合せまたは副次的組合せ、及び/または上述したいくつかの追加的特徴の組合せまたは副次的組合せに指向したものである。それに加えて、添付した図面中に示す、及び/または本明細書中に記載した論理の流れは、所望の結果を実現するために、図示する特定の順序、あるいは連続した順序を必ずしも要求しない。他の実現も以下の特許請求の範囲内であり得る。

Claims (11)

  1. ビデオ成分及び特徴成分をサポートするビデオ・ビットストリーム用のハイブリッド・デコーダであって、
    デマルチプレクサと、
    ビデオデコーダと、
    特徴デコーダと、
    機械モデルとを具えたハイブリッド・デコーダにおいて、
    前記デマルチプレクサは、前記ビデオ・ビットストリームを受信し、該ビデオ・ビットストリームを解析してビデオ成分と特徴成分とにし、
    前記ビデオデコーダは、前記デマルチプレクサに結合され、前記ビデオ・ビットストリームの前記ビデオ成分を受信し、
    前記特徴デコーダは、前記デマルチプレクサに結合され、前記ビデオ・ビットストリームの前記特徴成分を受信し、前記特徴デコーダは、前記ビデオデコーダに更に結合され、前記ビデオデコーダに特徴データを選択的に提供してビデオ符号化を促進し、
    前記機械モデルは前記特徴デコーダに結合され、
    前記ハイブリッド・デコーダは、第1復号化モード及び第2復号化モードを有し、前記第1復号化モードでは、前記ビデオ・ビットストリームの前記ビデオ成分と前記特徴成分とを独立して復号化し、前記第2復号化モードでは、前記ビットストリーム中の前記特徴成分を部分的に用いて、前記ビデオ・ビットストリーム中の前記ビデオ成分を復号化するハイブリッド・デコーダ。
  2. 前記ビデオ・ビットストリーム中の前記ビデオ成分が残差データを含み、該残差データは、前記特徴データと入力ビデオデータとの差を符号化して得られ、前記特徴デコーダが、前記第2復号化モードで、前記特徴データを前記ビデオデコーダに提供する、請求項1に記載のハイブリッド・デコーダ。
  3. 前記ハイブリッド・デコーダが、前記第1復号化モードか前記第2復号化モードかを、前記ビデオ・ビットストリームの属性に基づいて決定する、請求項1に記載のハイブリッド・デコーダ。
  4. 前記ビデオ・ビットストリームが複数のセグメントを含み、該セグメントの各々が、前記特徴成分及び前記ビデオ成分を規定する複数の成分を含み、該複数の成分はハイブリッドサイズ成分を含み、前記第1復号化モードか前記第2復号化モードかを、少なくとも部分的に、前記ハイブリッドサイズ成分の特性に基づいて決定する、請求項3に記載のハイブリッド・デコーダ。
  5. 前記セグメントの各々を別個に復号化し、前記第1復号化モードか前記第2復号化モードかを前記セグメント毎に決定する、請求項4に記載のハイブリッド・デコーダ。
  6. 特徴成分及びビデオ成分を有する符号化されたハイブリッド・ビデオデータ用のビットストリーム構造であって、
    該ビットストリーム構造が複数のハイブリッド・ビットストリーム・セグメントを含み、前記ハイブリッド・ビットストリーム・セグメントの各々が複数の成分を含み、該複数の成分は、
    ハイブリッドサイズ成分と、
    メタデータ成分と、
    特徴ヘッダと、
    特徴ペイロードと、
    ビデオヘッダと、
    ビデオ・ペイロードとを含む、
    ビットストリーム構造。
  7. ハイブリッド・ビットストリームを生成するハイブリッド・エンコーダであって、
    プリプロセッサと、
    ビデオエンコーダと、
    特徴抽出器と、
    特徴エンコーダと、
    マルチプレクサとを具えたハイブリッド・エンコーダにおいて、
    前記プリプロセッサは、入力ビデオストリームを受信して、該入力ビデオストリームをビデオ処理及び特徴処理用に多重化し、
    前記ビデオエンコーダは、前記入力ビデオストリームのビデオの内容を人間の視聴用に圧縮し符号化して前記ハイブリッド・ビットストリーム中に含め、
    前記特徴抽出器は機械モデルに結合され、該機械モデルは特徴抽出用のパラメータをその後の機械処理用に提供し、前記特徴抽出器は、前記ビデオエンコーダに動作的に結合されて、前記ビデオエンコーダに特徴データを選択的に提供し、
    前記特徴エンコーダは、前記特徴データを前記特徴抽出器から受信して、前記特徴データを前記ハイブリッド・ビットストリームに含めるために符号化し、
    前記マルチプレクサは、前記ビデオエンコーダ及び前記特徴エンコーダに結合され、前記ビデオエンコーダ及び前記特徴エンコーダから前記ハイブリッド・ビットストリームを生成する
    ハイブリッド・エンコーダ。
  8. 前記ビデオエンコーダ及び前記特徴エンコーダが、少なくとも第1符号化モード及び第2符号化モードで動作し、前記第1符号化モードでは、前記ビデオエンコーダ及び前記特徴エンコーダが、前記入力ビデオストリームのビデオ成分と特徴成分とを独立して符号化し、前記第2符号化モードでは、前記特徴エンコーダからの前記特徴データを部分的に用いて、前記入力ビデオストリーム中の前記ビデオ成分を符号化する、請求項7に記載のハイブリッド・エンコーダ。
  9. 前記第2符号化モードにおいて、前記ビデオエンコーダが、前記特徴データと前記入力ビデオストリームの入力ビデオデータとの差を符号化することによって残差データを生成する、請求項8に記載のハイブリッド・エンコーダ。
  10. 前記ハイブリッド・ビットストリームが複数のハイブリッド・ビットストリーム・セグメントを含み、該ハイブリッド・ビットストリーム・セグメントの各々が、
    ハイブリッドサイズ成分と、
    メタデータ成分と、
    特徴ヘッダと、
    特徴ペイロードと、
    ビデオヘッダと、
    ビデオペイロードと
    を含む、請求項7に記載のハイブリッド・エンコーダ。
  11. 前記ビデオエンコーダ及び前記特徴エンコーダに結合された最適化器を更に具え、該最適化器が、前記入力ビデオストリーム中の入力ビデオデータ及び前記特徴データを前記ハイブリッド・ビットストリーム中に含めるために更に符号化する、請求項7に記載のハイブリッド・エンコーダ。
JP2023564047A 2021-04-22 2022-04-20 ハイブリッド特徴ビデオ・ビットストリーム用のシステム、方法、及びビットストリーム構造、及びデコーダ Pending JP2024514681A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163178352P 2021-04-22 2021-04-22
US63/178,352 2021-04-22
PCT/US2022/025584 WO2022226087A1 (en) 2021-04-22 2022-04-20 Systems, methods and bitstream structure for hybrid feature video bitstream and decoder

Publications (1)

Publication Number Publication Date
JP2024514681A true JP2024514681A (ja) 2024-04-02

Family

ID=83723135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023564047A Pending JP2024514681A (ja) 2021-04-22 2022-04-20 ハイブリッド特徴ビデオ・ビットストリーム用のシステム、方法、及びビットストリーム構造、及びデコーダ

Country Status (6)

Country Link
US (1) US20240114147A1 (ja)
EP (1) EP4327555A1 (ja)
JP (1) JP2024514681A (ja)
KR (1) KR20230175240A (ja)
CN (1) CN117356092A (ja)
WO (1) WO2022226087A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
WO2012034690A1 (en) * 2010-09-14 2012-03-22 Panasonic Corporation Limitation of error propagation in line-based prediction for intra coding
JPWO2013061584A1 (ja) * 2011-10-28 2015-04-02 パナソニック株式会社 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
WO2016098056A1 (en) * 2014-12-18 2016-06-23 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
EP3718306B1 (en) * 2017-12-08 2023-10-04 Huawei Technologies Co., Ltd. Cluster refinement for texture synthesis in video coding

Also Published As

Publication number Publication date
WO2022226087A1 (en) 2022-10-27
KR20230175240A (ko) 2023-12-29
US20240114147A1 (en) 2024-04-04
EP4327555A1 (en) 2024-02-28
CN117356092A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
JP2024045720A (ja) インタ予測における大域的運動制約運動ベクトル
JP7482536B2 (ja) 適応的な数の領域を伴う幾何学的分割のための形状適応離散コサイン変換
JP2022523309A (ja) 指数関数的分割におけるインター予測
US20230239464A1 (en) Video processing method with partial picture replacement
JP2023093765A (ja) 大域的運動を伴うフレームにおける選択的運動ベクトル予測候補
JP2022529509A (ja) 大域的運動を伴うフレームにおける候補
JP2022523697A (ja) 適応的な数の領域を伴う幾何学的分割におけるインター予測
JP2022530411A (ja) ピクチャヘッダ内の大域的運動ベクトルの信号伝達
JP2022529735A (ja) 大域的運動ベクトルの効率的なコーディング
JP2022529737A (ja) 大域的運動を伴うフレームにおける適応型運動ベクトル予測候補
WO2023164020A2 (en) Systems, methods and bitstream structure for video coding and decoding for machines with adaptive inference
JP2023105074A (ja) 運動ベクトルインタ予測のための大域的運動モデル
JP2024514681A (ja) ハイブリッド特徴ビデオ・ビットストリーム用のシステム、方法、及びビットストリーム構造、及びデコーダ
RU2782583C1 (ru) Слияние изображений на блочной основе для контекстной сегментации и обработки
TW202147850A (zh) 用於組合無損和有損寫碼之方法和系統
TW202209894A (zh) 適應性幾何分割的方法及系統
JP2022530054A (ja) ピクチャヘッダ内の大域的運動ベクトルの信号伝達
JP2023521678A (ja) 組み合わせられた可逆及び非可逆符号化のための方法及びシステム
CN118020290A (zh) 用存储器高效预测模式选择来编码和解码视频的系统和方法
CN117897954A (zh) 用于组合式无损和有损编码的机器视频编码(vcm)编码器和解码器
KR20210118155A (ko) 연장된 장기 참조 픽처 보유의 명시적 시그널링