JP2023542333A

JP2023542333A - Ｄｎｎベースのクロスコンポーネント予測

Info

Publication number: JP2023542333A
Application number: JP2023518071A
Authority: JP
Inventors: リン，シェン; ジャン，ウェイ; ワン，ウェイ; ワン，リーチャン; リウ，シャン; シュー，シャオジョン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-06-15
Filing date: 2022-05-31
Publication date: 2023-10-06
Also published as: CN116601945A; WO2022265847A1; US20240155112A1; EP4133417A1; US20220400249A1; KR20230152752A; EP4133417A4; US11909956B2

Abstract

ディープニューラルネットワーク（ＤＮＮ）ベースのクロスコンポーネント予測のためのシステムおよび方法が提供される。方法は、画像またはビデオの再構成されたルマブロックをＤＮＮに入力すること、およびＤＮＮによって、入力された再構成されたルマブロックに基づいて、画像またはビデオの再構成されたクロマブロックを予測することを含む。ルマおよびクロマ参照情報並びにサイド情報もまた再構成されたクロマブロックを予測するためにＤＮＮに入力され得る。さまざまな入力はまた、ダウンサンプリングおよび変換などのプロセスを使用して生成され得る。

Description

［関連出願の相互参照］
本出願は、2021年6月15日に出願された米国仮出願第63/210,741号および2022年5月20日に出願された米国出願第17/749,730号からの優先権を主張しており、それらの開示はその全体が参照により本出願に組み込まれる。

本開示の実施形態は、ＤＮＮベースのクロスコンポーネント予測（DNN-based cross component prediction）の方法およびシステムに向けられている。

H.264/アドバンストビデオコーディング（H.264/AVC）、高効率ビデオコーディング（High-Efficiency Video Coding）（HEVC）、多用途ビデオコーディング（Versatile Video Coding）（VVC）などの従来のビデオコーディング標準は、同様の（再帰的）ブロックベースのハイブリッド予測／変換フレームワーク上で設計されており、イントラ／インター予測（intra/inter prediction）、整数変換、コンテキスト適応エントロピーコーディング（context-adaptive entropy coding）のような個々のコーディングツールが、全体の効率を最適化するために集中的に手作りされている。基本的に、時空間的なピクセル近傍が、後続の変換、量子化、およびエントロピーコーディングのために対応する残差を取得するために、予測信号の構築に活用される。一方、ディープニューラルネットワーク（ＤＮＮ）の性質は、隣接するピクセルの受容野（receptive field）から時空間情報を分析することによって、異なるレベルの時空間刺激を抽出することである。非常に非線形且つ非局所的な時空間相関を探索する能力は、圧縮品質を大幅に向上させる有望な機会を提供する。

ビデオコーディング（video coding）およびデコーディング（decoding）の１つの目的は、圧縮を通じた入力ビデオ信号の冗長性の削減であることができる。圧縮は、前述の帯域幅またはストレージ空間の要件を、場合によっては２桁以上削減するのに役立つことができる。ロスレス（lossless（可逆））圧縮とロッシー（lossy（非可逆））圧縮の両方、およびそれらの組み合わせを使用することができる。ロスレス圧縮は、圧縮された元の信号から元の信号の正確なコピーを再構成できる技法を指す。ロッシー圧縮を使用する場合、再構成された信号は元の信号と同一ではない可能性があるが、元の信号と再構成された信号との間の歪みは、再構成された信号が意図されたアプリケーションに役立つように十分小さい。ビデオの場合、ロッシー圧縮が広く採用されている。許容される歪みの量はアプリケーションに依存する。例えば、特定のコンシューマストリーミングアプリケーションのユーザは、テレビ寄与アプリケーションのユーザよりも高い歪みを許容する場合がある。達成可能な圧縮率（compression ratio）は：受け入れ可能／許容可能な歪みが大きいほど、圧縮率が高くなることができることを反映することができる。

さまざまなコンポーネントからの情報および他のサイド情報（side information）を利用することで、従来のエンコーダは、より優れた圧縮パフォーマンスを実現するために他のコンポーネントを予測することができる。しかし、イントラ予測におけるクロスコンポーネント線形予測モードは、ＤＮＮベースの方法と比較してうまく機能することができない。ＤＮＮの性質は、異なる高レベルの刺激を抽出することであり、非常に非線形且つ非局所的な相関を探索する能力は、高い圧縮品質の有望な機会を提供する。本開示の実施形態は、ＤＮＮベースのモデルを使用して、サイド情報、参照コンポーネント（reference components）、およびルマコンポーネント（luma component）の任意の形状を処理して、より良い圧縮性能を達成するために再構成されたクロマコンポーネントを予測する。

本開示の実施形態は、ディープニューラルネットワーク（ＤＮＮ）を使用することにより、イントラ予測の新しいモードとしてクロスコンポーネント予測（ＣＣＰ）モデルを提供する。このモデルは、ルマコンポーネント、量子化パラメータ（ＱＰ）値、ブロック深さ（block depth）などのエンコーダによって提供される情報を使用して、より優れた圧縮性能を実現するためにクロマコンポーネントを予測する。以前のＮＮベースのイントラ予測アプローチは、ルマコンポーネントの予測のみを目的とするか、または３つのチャネルすべての予測を生成し、クロマコンポーネントとその他の追加情報との間の相関を無視している。

実施形態によれば、少なくとも１つのプロセッサによって実行される方法が提供される。この方法は：画像（image）またはビデオの再構成されたルマブロックを取得することと；再構成されたルマブロックをＤＮＮに入力することと；再構成されたルマブロックに関連付けられた参照コンポーネントおよびサイド情報を取得することと；参照コンポーネントおよびサイド情報をＤＮＮに入力することと；ＤＮＮによって、再構成されたルマブロック、参照コンポーネント、サイド情報に基づいて、画像またはビデオの再構成されたクロマブロックを予測することと；を含む。

実施形態によれば、システムが提供される。システムは：コンピュータプログラムコードを格納するように構成された少なくとも１つのメモリと；コンピュータプログラムコードにアクセスし、コンピュータプログラムコードの指示に従って動作するように構成された少なくとも１つのプロセッサと；を含む。コンピュータプログラムコードは：少なくとも１つのプロセッサによって実装されているディープニューラルネットワーク（ＤＮＮ）に、画像またはビデオの再構成されたルマブロック、参照コンポーネント、および再構成されたルマブロックに関連するサイド情報を少なくとも１つのプロセッサに入力させるように構成された入力コードと；少なくとも１つのプロセッサに、入力された再構成されたルマブロック、参照コンポーネント、およびサイド情報に基づいて、画像またはビデオの再構成されたクロマブロックをＤＮＮによって予測させるように構成された予測コードと；を含む。

実施形態によれば、コンピュータコードを格納する非一時的なコンピュータ可読媒体が提供される。コンピュータコードは、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに：ＤＮＮを実装させ；画像またはビデオの再構成されたルマブロック、参照コンポーネント、および再構成されたルマブロックに関連付けられたサイド情報をＤＮＮに入力させ；入力された再構成されたルマブロック、参照コンポーネント、およびサイド情報に基づいて、画像またはビデオの再構成されたクロマブロックをＤＮＮによって予測させる；ように構成される。

開示された主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになる。

一実施形態による通信システムの簡略化されたブロック図の概略図である。

一実施形態によるデコーダの簡略化されたブロック図の概略図である。

一実施形態によるエンコーダの簡略化されたブロック図の概略図である。

一実施形態による入力生成のプロセスの簡略化されたブロック図の概略図である。

一実施形態によるクロスコンポーネント予測のプロセスの簡略化されたブロック図の概略図である。

一実施形態によるコンピュータコードのブロック図である。

本開示の実施形態を実装するのに適したコンピュータシステムの図である。

図１は、本開示の一実施形態による通信システム１００の簡略化されたブロック図を示す。通信システム１００は、ネットワーク１５０を介して相互接続された少なくとも２つの端末１１０、１２０を含み得る。データの単方向伝送のために、第１の端末１１０は、ネットワーク１５０を介して他の端末１２０に伝送するために、ローカルの場所でビデオデータをコーディングする（code）し得る。第２の端末１２０は、ネットワーク１５０から他の端末のコーディングされたビデオデータを受信し、コーディングされたデータをデコードし、回復されたビデオデータを表示し得る。単方向データ伝送は、メディアサービス用途などで一般的であり得る。

図１は、例えばテレビ会議中に発生し得るコーディングされたビデオの双方向伝送をサポートするために提供される第２の端末１３０、１４０のペアを示している。データの双方向伝送のために、各端末１３０、１４０は、ネットワーク１５０を介して他の端末に伝送するためにローカルの場所でキャプチャされたビデオデータをコーディングし得る。また、各端末１３０、１４０は、他の端末によって送信されたコーディングされたビデオデータを受信し、コーディングされたデータをデコードし、ローカルの表示装置で回復されたビデオデータを表示し得る。

図１では、端末１１０～１４０は、サーバ、パーソナルコンピュータ、およびスマートフォン、および／または任意のその他のタイプの端末として示されている。例えば、端末１１０～１４０は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤー、および／または専用のビデオ会議機器であり得る。ネットワーク１５０は、例えば有線および／または無線通信ネットワークを含む、端末１１０～１４０の間でコーディングされたビデオデータを伝える任意の数のネットワークを表す。通信ネットワーク１５０は、回線交換および／またはパケット交換チャネルでデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および／またはインターネットを含む。本議論の目的上、ネットワーク１５０のアーキテクチャおよびトポロジーは、以下に説明されない限り、本開示の動作にとって重要でない場合がある。

図２は、開示された主題の適用の例として、ストリーミング環境におけるビデオエンコーダおよびデコーダの配置を示す。開示された主題は、例えば、ビデオ会議、デジタルテレビ、CD、DVD、メモリスティックなどを含むデジタルメディアへの圧縮ビデオの保存などを含む、他のビデオ対応アプリケーションにも同様に適用可能であることができる。

図２に示すように、ストリーミングシステム２００は、ビデオソース２０１およびエンコーダ２０３を含むことができるキャプチャサブシステム２１３を含み得る。ビデオソース２０１は、例えばデジタルカメラであり得、非圧縮ビデオサンプルストリーム２０２を作成するように構成され得る。非圧縮ビデオサンプルストリーム２０２は、エンコーディングされた（encoded）ビデオビットストリームと比較した場合、高いデータ量を提供し得、ビデオソース２０１に結合されたエンコーダ２０３によって処理することができる。エンコーダ２０３は、以下により詳細に説明するように、開示された主題の態様を有効にするまたは実装するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。エンコーディングされたビデオビットストリーム２０４は、サンプルストリームと比較した場合、より低いデータ量を含み得、将来の使用のためにストリーミングサーバ２０５に格納することができる。１つ以上のストリーミングクライアント２０６が、エンコーディングされたビデオビットストリーム２０４のコピーであり得るビデオビットストリーム２０９を取得するためにストリーミングサーバ２０５にアクセスすることができる。

実施形態では、ストリーミングサーバ２０５はまた、メディアアウェアネットワーク要素（Media-Aware Network Element）（ＭＡＮＥ）として機能し得る。例えば、ストリーミングサーバ２０５は、潜在的に異なるビットストリームをストリーミングクライアント２０６の１つまたは複数に合わせて調整するために、エンコーディングされたビデオビットストリーム２０４をプルーニングする（prune）ように構成され得る。実施形態では、ＭＡＮＥは、ストリーミングシステム２００において、ストリーミングサーバ２０５とは別に提供され得る。

ストリーミングクライアント２０６は、ビデオデコーダ２１０およびディスプレイ２１２を含むことができる。ビデオデコーダ２１０は、例えば、エンコーディングされたビデオビットストリーム２０４の入力（incoming）コピーであるビデオビットストリーム２０９をデコーディングし、ディスプレイ２１２または別のレンダリングデバイス（図示せず）でレンダリングできる送信ビデオサンプルストリーム２１１を作成することができる。一部のストリーミングシステムでは、ビデオビットストリーム２０４、２０９は、特定のビデオコーディング／圧縮標準に従ってエンコーディングすることができる。このような標準の例は、ITU-T勧告H.265を含むが、これに限定されない。非公式に多用途ビデオコーディング（VVC）として知られるビデオコーディング標準が開発中である。開示の実施形態は、VVCの文脈で使用され得る。

図３は、本開示の実施形態に従ってディスプレイ２１２に取り付けられるビデオデコーダ２１０の例示的な機能ブロック図を示す。

ビデオデコーダ２１０は、チャネル３１２、レシーバ３１０、バッファメモリ３１５、エントロピーデコーダ／パーサ３２０、スケーラ／逆変換ユニット３５１、イントラピクチャ予測ユニット３５２、動き補償予測ユニット３５３、アグリゲータ３５５、ループフィルタユニット３５６、参照ピクチャメモリ３５７、および現在ピクチャメモリを含み得る。少なくとも一実施形態では、ビデオデコーダ２１０は、集積回路、一連の集積回路、および／または他の電子回路を含み得る。ビデオデコーダ２１０はまた、関連するメモリを持つ１つ以上のＣＰＵで動作するソフトウェアに部分的または全体的に具体化され得る。

この実施形態および他の実施形態では、レシーバ３１０は、デコーダ２１０によってデコーディングされる１つ以上のコーディングされたビデオシーケンスを一度に１つのコーディングされたビデオシーケンスを受信し得、各コーディングされたビデオシーケンスのデコーディングは他のコーディングされたビデオシーケンスから独立している。コーディングされたビデオシーケンスは、チャネル３１２から受信され得、これは、エンコーディングされたビデオデータを格納するストレージデバイスへのハードウェア／ソフトウェアリンクであり得る。レシーバ３１０は、エンコーディングされたビデオデータを、他のデータ（例えば、コーディングされたオーディオデータおよび／または補助的なデータストリーム）とともに受信し得、これらはそれぞれの使用エンティティ（図示せず）に転送され得る。レシーバ３１０は、コーディングされたビデオシーケンスを他のデータから分離し得る。ネットワークジッターに対処するために、バッファメモリ３１５は、レシーバ３１０とエントロピーデコーダ／パーサ３２０（以下「パーサ」）の間に結合され得る。レシーバ３１０が十分な帯域幅と制御可能性を持つストア／フォワードデバイスからデータを受信している場合、またはアイソシンクロナスネットワークからデータを受信している場合、バッファメモリ３１５は使用されなくてもよく、または、小さい可能性がある。インターネットのようなベストエフォート型パケットネットワークで使用する場合、バッファメモリ３１５が必要とされることがあり、比較的大きくすることができ、適応サイズにすることができる。

ビデオデコーダ２１０は、エントロピーコーディングされたビデオシーケンスからシンボル３２１を再構成するためのパーサ３２０を含み得る。これらのシンボルのカテゴリは、例えば、デコーダ２１０の動作を管理するために使用される情報、場合によっては図２に示すようにデコーダに結合され得るディスプレイ２１２のようなレンダリングデバイスを制御するための情報を含む。レンダリングデバイス（複数可）の制御情報は、例えば、補助エンハンスメント情報（Supplementary Enhancement Information）（ＳＥＩ）メッセージまたはビデオユーザビリティ情報（Video Usability Information）（ＶＵＩ）パラメータセットフラグメント（図示せず）の形式であり得る。パーサ３２０は、受信したコーディングされたビデオシーケンスを解析（parse）／エントロピーデコーディングし得る。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術または標準に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト感度の有りまたは無しの算術コーディングなどを含む、当業者によく知られた原理に従うことができる。パーサ３２０は、コーディングされたビデオシーケンスから、グループに対応する少なくとも１つのパラメータに基づいて、ビデオデコーダ内のピクセルのサブグループの少なくとも１つのサブグループパラメータのセットを抽出し得る。サブグループは、ピクチャのグループ（Group of Pictures）（GOP）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（Coding Units）（CU）、ブロック、変換ユニット（Transform Units）（TU）、予測ユニット（Prediction Units）（PU）などを含むことができる。パーサ３２０は、また、変換係数、量子化子パラメータ値、動きベクトル（motion vectors）などのコーディングされたビデオシーケンス情報から抽出し得る。

パーサ３２０は、シンボル３２１を作成するために、バッファメモリ３１５から受信したビデオシーケンスに対してエントロピーデコーディング／解析動作を実行し得る。

シンボル３２１の再構成は、コーディングされたビデオピクチャまたはその一部（インターおよびイントラピクチャ、インターおよびイントラブロックなど）の種類、およびその他の要因に応じて、複数の異なるユニットを含むことができる。どのユニットが関与し、どのように関与するかは、パーサ３２０によってコーディングされたビデオシーケンスから解析されたサブグループ制御情報によって制御されることができる。パーサ３２０と以下の複数のユニットとの間のこのようなサブグループ制御情報の流れは、明確にするために描かれていない。

すでに述べた機能ブロックを超えて、デコーダ２１０は、以下に説明するように、概念的にいくつかの機能ユニットに細分化される（subdivided）ことができる。商業的制約の下で動作する実用的な実装では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的には、互いに統合することができる。しかし、開示された主題を記述するためには、以下の機能ユニットに概念的に細分化することが適切である。

１つのユニットは、スケーラ／逆変換ユニット３５１であり得る。スケーラ／逆変換ユニット３５１は、どの変換を使用するか、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報とともに、量子化変換係数をパーサ３２０からシンボル（複数可）３２１として受信し得る。スケーラ／逆変換ユニット３５１は、アグリゲータ３５５に入力することができるサンプル値を含むブロックを出力することができる。

場合によっては、スケーラ／逆変換ユニット３５１の出力サンプルは、イントラコーディングされたブロックに関係することができる；すなわち、以前に再構成されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構成された部分からの予測情報を使用できるブロック。このような予測情報は、イントラピクチャ予測ユニット３５２によって提供することができる。場合によっては、イントラピクチャ予測ユニット３５２は、現在のピクチャメモリ３５８からの現在の（部分的に再構成された）ピクチャから取り出された周囲の既に再構成された情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成する。アグリゲータ３５５は、場合によっては、スケーラ／逆変換ユニット３５１によって提供される出力サンプル情報に、イントラピクチャ予測ユニット３５２が生成した予測情報をサンプルごとに追加する。

他の場合には、スケーラ／逆変換ユニット３５１の出力サンプルは、インターコーディングされ（inter coded）、潜在的に動き補償ブロックに関係することができる。このような場合には、動き補償予測ユニット３５３は、予測に使用されるサンプルを取り出す（fetch）ために参照ピクチャメモリ３５７にアクセスすることができる。ブロックに関連するシンボル３２１に従って、取り出されたサンプルを動き補償した後、これらのサンプルは、出力サンプル情報を生成するために、アグリゲータ３５５によってスケーラ／逆変換ユニット３５１の出力（この場合、残差サンプルまたは残差信号と呼ばれる）に追加することができる。動き補償予測ユニット３５３が予測サンプルを取り出す参照ピクチャメモリ３５７内のアドレスは、動きベクトルによって制御することができる。動きベクトルは、例えばX、Y、および参照ピクチャコンポーネントを有することができるシンボル３２１の形で、動き補償予測ユニット３５３に利用可能であり得る。動き補償は、また、サブサンプル正確な動きベクトルが使用されているときに参照ピクチャメモリ３５７から取り出されるサンプル値の補間、動きベクトル予測メカニズムなどを含むことができる。

アグリゲータ３５５の出力サンプルは、ループフィルタユニット３５６でさまざまなループフィルタリング技術の対象とすることができる。ビデオ圧縮技術は、コーディングされたビデオビットストリームに含まれるパラメータによって制御され、パーサ３２０からシンボル３２１としてループフィルタユニット３５６に利用可能にされるインループフィルタ技術を含むことができるが、コーディングされたピクチャまたはコーディングされたビデオシーケンスの以前の（デコーディング順の）部分のデコーディング中に取得されたメタ情報に応答することもでき、以前に再構成されたサンプル値およびループフィルタリングされたサンプル値に応答することもできる。

ループフィルタユニット３５６の出力は、ディスプレイ２１２などのレンダリングデバイスに出力できるサンプルストリームであると同時に、将来のインターピクチャ予測で使用するために参照ピクチャメモリ３５７に格納することもできる。

一度完全に再構成された特定のコーディングされたピクチャは、将来の予測のための参照ピクチャとして使用することができる。コーディングされたピクチャが完全に再構成され、コーディングされたピクチャが参照ピクチャとして識別されると（例えば、パーサ３２０によって）、現在の参照ピクチャは参照ピクチャメモリ３５７の一部になることができ、次のコーディングされたピクチャの再構成を開始する前に新しい現在のピクチャメモリを再割り当てすることができる。

ビデオデコーダ２１０は、ITU-T Rec. H.265などの標準でドキュメント化されている可能性のある所定のビデオ圧縮技術に従ってデコーディング動作を実行し得る。コーディングされたビデオシーケンスは、ビデオ圧縮技術のドキュメントまたは標準、および特にそのプロファイルドキュメントで指定されているビデオ圧縮技術または標準の構文（syntax）に準拠しているという意味で、使用されているビデオ圧縮技術または標準によって指定された構文に準拠し得る。また、一部のビデオ圧縮技術または標準に準拠するために、コーディングされたビデオシーケンスの複雑さは、ビデオ圧縮技術または標準のレベルによって定義された範囲内にある場合がある。場合によっては、レベルが、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えばメガサンプル／秒などで測定される）、最大参照ピクチャサイズなどを制限する。レベルによって設定された制限は、場合によっては、コーディングされたビデオシーケンスでシグナリングされる仮想参照デコーダ（HRD）仕様およびHRDバッファ管理のためのメタデータによってさらに制限することができる。

一実施形態では、レシーバ３１０は、エンコーディングされたビデオと共に追加の（冗長な）データを受信し得る。追加データは、コーディングされたビデオシーケンス（複数可）の一部として含まれ得る。追加データは、データを適切にデコーディングするためおよび／または元のビデオデータをより正確に再構成するために、ビデオデコーダ２１０によって使用され得る。追加データは、例えば、時間的、空間的、またはＳＮＲエンハンスメントレイヤー、冗長スライス、冗長ピクチャ、順方向エラー訂正コードなどの形式にすることができる。

図４は、本開示の一実施形態によるビデオソース２０１に関連付けられたビデオエンコーダ２０３の例示的な機能ブロック図を示している。

ビデオエンコーダ２０３は、例えば、ソースコーダ４３０であるエンコーダ、コーディングエンジン４３２、（ローカル）デコーダ４３３、参照ピクチャメモリ４３４、予測器４３５、トランスミッタ４４０、エントロピーコーダ４４５、コントローラ４５０、チャネル４６０を含むことができる。

エンコーダ２０３は、エンコーダ２０３によってコーディングされるビデオ画像（複数可）をキャプチャし得るビデオソース２０１（エンコーダの一部ではない）からビデオサンプルを受信し得る。

ビデオソース２０１は、任意の適切なビット深度（例えば：８ビット、１０ビット、１２ビット、...）、任意の色空間（例えば：ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢ、...）および任意の適切なサンプリング構造（例えば：ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）を持つことができるデジタルビデオサンプルストリームの形式で、エンコーダ２０３によってコーディングされるソースビデオシーケンスを提供し得る。メディアサービングシステムでは、ビデオソース２０１は、以前に準備されたビデオを格納する記憶装置であり得る。ビデオ会議システムでは、ビデオソース２０１は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラであり得る。ビデオデータは、シーケンスで見ると動きを与える複数の個別のピクチャとして提供され得る。ピクチャ自体は、ピクセルの空間アレイとして編成され得、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、１つ以上のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。以下では、サンプルに焦点を当てて説明する。

一実施形態によれば、エンコーダ２０３は、リアルタイムでまたはアプリケーションによって要求される他の時間制約の下で、ソースビデオシーケンスのピクチャをコーディングし、コーディングされたビデオシーケンス４４３に圧縮し得る。適切なコーディング速度を強制することは、コントローラ４５０の機能の１つである。コントローラ４５０は、また、以下に説明するように他の機能ユニットを制御し得、これらのユニットに機能的に結合され得る。明確にするために結合は描かれていない。コントローラ４５０によって設定されるパラメータは、レート制御関連パラメータ（ピクチャスキップ、量子化、レート歪み最適化手法のラムダ値、...）、ピクチャサイズ、ピクチャのグループ（GOP）レイアウト、最大動きベクトル検索範囲などを含むことができる。当業者は、特定のシステム設計に最適化されたビデオエンコーダ２０３に関連する可能性があるため、コントローラ４５０の他の機能を容易に特定することができる。

一部のビデオエンコーダは、当業者が「コーディングループ」として容易に認識できるように動作する。過度に単純化された記述として、コーディングループは、（コーディングされる入力ピクチャと参照ピクチャ（複数可）に基づいてシンボルを作成する責任がある）ソースコーダ４３０のエンコード部分と、特定のビデオ圧縮技術でシンボルとコーディングされたビデオビットストリームの間の圧縮がロスレスである場合に（リモート）デコーダも作成するサンプルデータを作成するためにシンボルを再構成する、エンコーダ２０３に埋め込まれた（ローカル）デコーダ４３３で構成することができる。その再構成されたサンプルストリームは、参照ピクチャメモリ４３４に入力され得る。シンボルストリームのデコーディングはデコーダの場所（ローカルまたはリモート）に依存しないビット正確な（bit-exact）結果につながるため、参照ピクチャメモリの内容もローカルエンコーダとリモートエンコーダとの間でビット正確（bit exact）である。言い換えれば、エンコーダの予測部分は、デコード中に予測を使用した場合にデコーダが「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性（および、例えばチャネルエラーのために、同期性を維持できない場合は、結果として生じるドリフト）のこの基本原理は、当業者には知られている。

「ローカル」デコーダ４３３の動作は、すでに図３と併せて詳細に説明されている「リモート」デコーダ２１０と同じであることができる。しかし、シンボルが利用可能であり、エントロピーコーダ４４５およびパーサ３２０によるコーディングされたビデオシーケンスへのシンボルのエン／デコーディングはロスレスであることができるため、チャネル３１２、レシーバ３１０、バッファメモリ３１５、およびパーサ３２０を含むデコーダ２１０のエントロピーデコーディング部分は、ローカルデコーダ４３３で完全に実装されていない可能性がある。

この時点で可能な観察は、デコーダに存在する解析／エントロピーデコーディングを除く任意のデコーダ技術が、対応するエンコーダに実質的に同一の機能形式で存在する必要がある可能性があるということである。このため、開示された主題はデコーダの動作に焦点を当てている。エンコーダ技術の説明は、包括的に記述されたデコーダ技術の逆であり得るため、省略することができる。特定の分野においてのみ、より詳細な説明が必要であり、以下に提供される。

その動作の一部として、ソースコーダ４３０は、「参照フレーム」として指定されたビデオシーケンスからの１つ以上の以前にコーディングされたフレームを参照して、入力フレームを予測的にコーディングする動き補償予測コーディングを実行し得る。このようにして、コーディングエンジン４３２は、入力フレームのピクセルブロックと、入力フレームへの予測参照（複数可）として選択され得る参照フレーム（複数可）のピクセルブロックとの間の違いをコーディングする。

ローカルデコーダ４３３は、ソースコーダ４３０によって作成されたシンボルに基づいて、参照フレームとして指定され得るフレームのコーディングされたビデオデータをデコーディングし得る。コーディングエンジン４３２の動作は、有利にはロッシープロセスであり得る。コーディングされたビデオデータがビデオデコーダ（図４には示されていない）でデコーディングされ得る場合、再構成されたビデオシーケンスは通常、いくつかのエラーを持つソースビデオシーケンスの複製（replica）であり得る。ローカルデコーダ４３３は、ビデオデコーダによって参照フレームで実行され得るデコーディングプロセスを複製し、再構成された参照フレームが参照ピクチャメモリ４３４に格納されるようにし得る。このようにして、エンコーダ２０３は、共通の内容を持つ再構成された参照フレームのコピーを、遠端（far-end）ビデオデコーダによって取得される再構成された参照フレームとしてローカルに格納され得る（伝送エラーなし）。

予測器４３５は、コーディングエンジン４３２のために予測検索を実行し得る。すなわち、コーディングされる新しいフレームについて、予測器４３５は、新しいピクチャの適切な予測参照として機能し得るサンプルデータ（候補参照ピクセルブロックとして）または参照ピクチャの動きベクトル、ブロック形状などのような特定のメタデータについて参照ピクチャメモリ４３４を検索し得る。予測器４３５は、適切な予測参照を見つけるために、サンプルブロック／ピクセルブロック毎に（a sample block-by-pixel block basis）動作し得る。場合によっては、予測器４３５によって得られた検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ４３４に格納された複数の参照ピクチャから引き出された予測参照を有し得る。

コントローラ４５０は、例えば、ビデオデータのエンコーディングに使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ４３０のコーディング動作を管理し得る。

すべての前述の機能ユニットの出力は、エントロピーコーダ４４５におけるエントロピーコーディングを受け得る。エントロピーコーダは、例えば、ハフマンコーディング、可変長コーディング、算術コーディングなどのような当業者に知られている技術に従ってシンボルをロスレス圧縮することによって、さまざまな機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。

トランスミッタ４４０は、エンコーディングされたビデオデータを格納する記憶装置へのハードウェア／ソフトウェアリンクであり得る通信チャネル４６０を介して送信する準備をするために、エントロピーコーダ４４５によって作成されたコーディングされたビデオシーケンス（複数可）をバッファし得る。トランスミッタ４４０は、ソースコーダ４３０からのコーディングされたビデオデータを、送信される他のデータ、例えば、コーディングされたオーディオデータおよび／または補助的なデータストリーム（ソースは示されていない）とマージし得る。

コントローラ４５０は、エンコーダ２０３の動作を管理し得る。コーディング中、コントローラ４５０は、各コーディングされたピクチャに特定のコーディングされたピクチャタイプを割り当て得、これは、それぞれのピクチャに適用され得るコーディング技術に影響を与え得る。例えば、ピクチャは多くの場合、イントラピクチャ（Ｉピクチャ）、予測ピクチャ（Ｐピクチャ）、または双方向（Bi-directionally）予測ピクチャ（Ｂピクチャ）として割り当てられ得る。

イントラピクチャ（Ｉピクチャ）は、予測のソースとしてシーケンス内の他のフレームを使用せずにコーディングおよびデコーディングされ得るものであり得る。一部のビデオコーデックは、例えば、独立デコーダリフレッシュ（Independent Decoder Refresh）（ＩＤＲ）ピクチャを含む、さまざまな種類のイントラピクチャを許容する。当業者は、Ｉピクチャのこれらの変形並びにそれらのそれぞれの用途および特徴を認識する。

予測ピクチャ（Ｐピクチャ）は、各ブロックのサンプル値を予測するために、最大で１つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよびデコーディングされるものであり得る。

双方向予測ピクチャ（Ｂピクチャ）は、各ブロックのサンプル値を予測するために、最大で２つの動きベクトルおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよびデコーディングされるものであり得る。同様に、複数予測ピクチャは、単一のブロックの再構成のために２より多い参照ピクチャおよび関連するメタデータを使用することができる。

ソースピクチャは、一般的に複数のサンプルブロック（例えば、それぞれ４×４、８×８、４×８、または１６×１６サンプルのブロック）に空間的に細分化され、ブロック毎にコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されるコーディング割り当てによって決定されるように、他の（既にコーディングされている）ブロックを参照して予測的にコーディングされ得る。例えば、Ｉピクチャのブロックは、非予測的にコーディングされ得る、または同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされ得る（空間予測またはイントラ予測）。Ｐピクチャのピクセルブロックは、空間予測を介してまたは以前にコーディングされた１つの参照ピクチャを参照して時間予測を介して、非予測的にコーディングされ得る。Ｂピクチャのブロックは、空間予測を介してまたは以前にコーディングされた１つまたは２つの参照ピクチャを参照して時間予測を介して、非予測的にコーディングされ得る。

ビデオエンコーダ２０３は、ITU-T勧告H.265などの所定のビデオコーディング技術または標準に従ってコーディング動作を実行し得る。その動作では、ビデオエンコーダ２０３は、入力ビデオシーケンスの時間的および空間的冗長性を利用する予測コーディング動作を含む、さまざまな圧縮動作を実行し得る。したがって、コーディングされたビデオデータは、使用されているビデオコーディング技術または標準によって指定された構文に準拠し得る。

一実施形態では、トランスミッタ４４０はエンコーディングされたビデオと共に追加データを送信し得る。ソースコーダ４３０は、コーディングされたビデオシーケンスの一部としてそのようなデータを含み得る。追加データは、時間／空間／SNRエンハンスメントレイヤー、冗長なピクチャおよびスライスなどの他の形式の冗長データ、補助エンハンスメント情報（ＳＥＩ）メッセージ、視覚的ユーザビリティ情報（ＶＵＩ）パラメータセットフラグメントなどを含み得る。

本開示の実施形態は、ＤＮＮベースのクロスコンポーネント予測を提供する。実施形態は、図５－６を参照して以下に説明する。

本開示の実施形態によるビデオ圧縮フレームワークを以下に説明する。入力ビデオが、ビデオの合計フレーム数に等しい複数のイメージフレームを含むと仮定する。フレームは、空間ブロックに分割され（partitioned）、各ブロックは反復的により小さいブロックに分割できる。ブロックは、ルマコンポーネント５１０ｙと、クロマチャネル５２０ｕおよび５２０ｔを含むクロマコンポーネント５２０の両方を含む。イントラ予測プロセスの間、最初にルマコンポーネント５１０ｙを予測することができ、次に２つのクロマチャネル５２０ｕおよび５２０ｔを後で予測することができる。クロマチャネル５２０ｕおよび５２０ｔの両方の予測は、一緒にまたは別々に実行することができる。

本開示の一実施形態では、再構成されたクロマコンポーネント５２０は、エンコーダとデコーダの両方、またはデコーダのみでＤＮＮベースのモデルによって生成される。２つのクロマチャネル５２０ｕおよび５２０ｔは、単一のネットワークで一緒に、または異なるネットワークで別々に生成され得る。各クロマチャネルについて、クロマチャネルは、ブロックサイズに基づいて異なるネットワークを使用して生成され得る。信号処理、空間的または時間的フィルタリング、スケーリング、重み付け平均化、アップ／ダウンサンプリング、プーリング、メモリによる再帰処理、線形システム処理、非線形システム処理、ニューラルネットワーク処理、ディープラーニングベースの処理、ＡＩ処理、事前にトレーニングされたネットワーク処理、機械学習ベースの処理、またはそれらの組み合わせを含む１つ以上のプロセスを、ＤＮＮベースのクロスコンポーネント予測における本開示の実施形態のモジュールとして使用することができる。再構成されたクロマコンポーネント５２０を処理するために、一方の再構成されたクロマチャネル（例えば、クロマチャネル５２０ｕおよび５２０ｔの中からの一方）を、他方の再構成されたクロマチャネル（例えば、クロマチャネル５２０ｕおよび５２０ｔの中からの他方）を生成するために使用することができる。

本開示の実施形態によれば、ブロックの再構成されたルマコンポーネント５１０ｙ、参照コンポーネント、およびエンコーダによって提供されたその他のサイド情報に基づいて、ブロックの再構成されたクロマチャネル５２０ｕおよび５２０ｔの圧縮性能を強化するＤＮＮベースのクロスコンポーネント予測モデルが提供され得る。実施形態によれば、クロマチャネル５２０ｕおよび５２０ｔをサブサンプリングするために４：２：０が使用され得る。したがって、クロマチャネル５２０ｕおよび５２０ｔは、ルマコンポーネント５１０ｙよりも低い解像度を有し得る。

図５を参照して、プロセス５００を以下に説明する。プロセス５００は、本開示の実施形態による一般的なハイブリッドビデオコーディングシステムにおけるトレーニングおよび／または予測のための入力サンプル５８０を生成するワークフローを含む。

再構成されたルマコンポーネント５１０ｙは、２Ｎ×２Ｍブロックであるルマブロックであり得、２Ｎはルマブロックの幅、２Ｍはルマブロックの高さである。実施形態によれば、２Ｎ×２Ｋブロックである第１のルマ参照（luma reference）５１２ｙ、および２Ｋ×２Ｍブロックである第２のルマ参照５１４ｙも提供され得、２Kはルマ参照の行数または列数を表す。ルマサイズを予測出力サイズと同じにするために、ダウンサンプリングプロセス５９１が、ルマコンポーネント５１０ｙ、第１のルマ参照５１２ｙ、および第２のルマ参照５１４ｙに対して適用される。ダウンサンプリングプロセス５３０は、バイキュービック（bicubic）およびバイリニア（bilinear）などの従来の方法であることができる、またはＮＮベースのダウンサンプリング方法であることができる。ダウンサンプリングの後、ルマコンポーネント５１０ｙは、Ｎ×Ｍのブロックサイズを有するダウンサンプリングされたルマコンポーネント５３０ｙになり得、第１のルマ参照５１２ｙは、Ｎ×Ｋのブロックサイズを有するダウンサンプリングされた第１のルマ参照５３２ｙになり得、第２のルマ参照５１４ｙは、K×Mのブロックサイズを有するダウンサンプリングされた第２のルマ参照５３４ｙになり得る。ダウンサンプリングされた第１のルマ参照５３２ｙおよびダウンサンプリングされた第２のルマ参照５３４ｙは、それぞれ、ダウンサンプリングされたルマコンポーネント５３０ｙ（ルマブロックとも呼ばれる）のサイズに一致する第１の変換されたルマ参照５５２ｙおよび第２の変換されたルマ参照５５４ｙに変換され（ステップ５９２において）、第１の変換されたルマ参照５５２ｙ、第２の変換されたルマ参照５５４ｙ、およびダウンサンプリングされたルマコンポーネント５３０ｙは、一緒に連結され（concatenated）得る（ステップ５９２において）。例えば、変換は、ダウンサンプリングされた第１のルマ参照５３２ｙおよびダウンサンプリングされた第２のルマ参照５３４ｙの値を、それらのサイズが出力ブロックサイズ（例えば、ダウンサンプリングされたルマコンポーネント５３０ｙのサイズ）と同じになるまで数回複製することによって実行することができる。

クロマコンポーネント５２０を予測するために、クロマコンポーネント５２０の隣接する参照（例えば、第１のクロマ参照５２２と第２のクロマ参照５２４）を、より良いクロマコンポーネントを生成するためのオプションの参照として追加されることもできる。図５を参照すると、クロマコンポーネント５２０は、本開示の実施形態において生成／予測され得る再構成されたクロマブロックであるサイズＮ×Ｍを有するブロックであり得る。クロマコンポーネント５２０は、２つのクロマチャネル５２０ｕおよび５２０ｔを有し、両方のチャネル５２０ｕおよび５２０ｔが併用され得る。第１のクロマ参照５２２および第２のクロマ参照５２４を得ることができ（ステップ５９３において）、これらはそれぞれＮ×ＫおよびＫ×Ｍのブロックサイズを有し得る。実施形態によれば、第１のクロマ参照５２２および第２のクロマ参照５２４は、それぞれ２つのクロマチャネル５２０ｕおよび５２０ｔに対応するように２回取得され得る。第１のクロマ参照５２２および第２のクロマ参照５２４は、Ｎ×Ｍのサイズに一致する、第１の変換されたクロマ参照５４２および第２の変換されたクロマ参照５４４にそれぞれ変換され得る（ステップ５９４において）。すべての画像ベースの情報（例えば、ダウンサンプリングされたルマコンポーネント５３０ｙ、第１の変換されたルマ参照５５２ｙ、第２の変換されたルマ参照５５４ｙ、第１の変換されたクロマ参照５４２、および第２の変換されたクロマ参照５４４）を、ＤＮＮのトレーニングおよび／またはＤＮＮを使用した予測のための入力サンプル５８０を取得するために、一緒に連結することができる（ステップ５９５において）。ルマおよびクロマコンポーネントの他に、ニューラルネットワークのトレーニングおよび／または予測のためにサイド情報を入力に追加することができる。例えば、ＱＰ値およびブロック分割深度情報（block partition depth information）が、サイズＮ×Ｍを有する特徴マップを生成するために使用されることができ、トレーニングおよび／または予測用の入力サンプル５８０を生成するために、画像ベースの特徴マップ（例えば、ダウンサンプリングされたルマコンポーネント５３０ｙ、第１の変換されたルマ参照５５２ｙ、第２の変換されたルマ参照５５４ｙ、第１の変換されたクロマ参照５４２、および第２の変換されたクロマ参照５４４）と一緒に連結されることができる（ステップ５９５において）。

一般的なハイブリッドビデオコーディングシステムにおけるプロセス６００のワークフローを、図６を参照して以下に説明する。

再構成されたルマブロック６１０（ルマコンポーネントとも呼ばれる）、サイド情報６１２、ルマブロック６１０への隣接するルマ参照６１４、および再構成されるクロマブロックへの隣接するクロマ参照６１６のセットが、本開示の実施形態のモデルがトレーニングと予測の両方を実行することができるように、ＤＮＮ６２０の入力として使用され得る。ＤＮＮ６２０の出力６３０は、予測されたクロマコンポーネントであり得、２つのクロマチャネルが、異なるＤＮＮモデルまたは同じＤＮＮモデルを使用して予測され得る。

実施形態によれば、ＤＮＮ６２０への入力は、図５を参照して記述された入力サンプル５８０であり得る。例えば、再構成されたルマブロック６１０は、ダウンサンプリングされたルマコンポーネント５３０ｙであり得、隣接するルマ参照６１４は、第１の変換されたルマ参照５５２ｙおよび第２の変換されたルマ参照５５４ｙのうちの１つまたは複数であり得、隣接するクロマ参照６１６は、第１の変換されたクロマ参照５４２および第２の変換されたクロマ参照５４４のうちの１つまたは複数であり得る（クロマチャネル５２０ｕおよび５２０ｔの一方または両方に対して）。実施形態によれば、サイド情報は、例えば、ＱＰ値およびブロック分割深度情報を含み得る。

再構成されたルマブロック６１０、サイド情報６１２、隣接するルマ参照６１４、および隣接するクロマ参照６１６が入力としてどのように使用されるかの組み合わせ、連結、または順序は、さまざまに変更することができる。実施形態によれば、サイド情報６１２、隣接するルマ参照６１４、および／または隣接するクロマ参照６１６は、本開示の実施形態のコーディングシステムによる決定（複数可）に基づいて、ＤＮＮ６２０のオプション入力とすることができる。

実施形態によれば、本開示のコーディングシステムは、例えば、ＤＮＮ６２０の出力６３０（例えば、予測されるクロマコンポーネント）を元のクロマブロック６６０と比較し、他の予測モードからの１つまたは複数のクロマブロック（ステップ６５０）を元のクロマブロック６６０と比較することによって、再構成品質を計算し得る（ステップ６４０）。出力６３０（例えば、予測されるクロマコンポーネント）の中から１つを決定することおよび他の予測モードからの１つまたは複数のクロマブロック（ステップ６５０）が最も高い再構成品質を有する（例えば、元のクロマブロック６６０に最も近い）ことに基づいて、そのようなブロック（またはモード）は、コーディングシステムによって再構成されたクロマブロック６７０になるように選択され得る。

実施形態によれば、少なくとも１つのプロセッサおよびコンピュータプログラム命令を格納するとメモリが提供され得る。コンピュータプログラム命令は、少なくとも１つのプロセッサによって実行されると、本開示に記載された任意の数の機能を実行するシステムを実装し得る。例えば、図７を参照すると、少なくとも１つのプロセッサがシステム７００を実装し得る。システム７００は、ＤＮＮ（複数可）およびその少なくとも１つのモデルを含み得る。コンピュータプログラム命令は、例えば、ＤＮＮコード７１０、入力生成コード７２０、入力コード７３０、予測コード７４０、再構成品質コード７５０、画像取得コード７６０を含み得る。

ＤＮＮコード７１０は、本開示の実施形態に従って、少なくとも１つのプロセッサにＤＮＮ（複数可）（およびそのモデル）を実装させるように構成され得る。

入力生成コード７２０は、本開示の実施形態（例えば、図５の説明を参照）に従って、少なくとも１つのプロセッサにＤＮＮ（複数可）のための入力を生成させるように構成され得る。例えば、入力生成コード７２０は、図５を参照して説明された処理を実行させ得る。

入力コード７３０は、本開示の実施形態（例えば、図６に示すＤＮＮ６２０への入力の説明を参照）に従って、少なくとも１つのプロセッサに入力をＤＮＮ（複数可）に入力させるように構成され得る。例えば、図６を参照すると、入力は、再構成されたルマブロック６１０、サイド情報６１２、ルマ参照６１４、および／またはクロマ参照６１６を含み得る。

予測コード７４０は、本開示の実施形態（例えば、図６に示す出力６３０の説明を参照）に従って、少なくとも１つのプロセッサに、再構成されたクロマブロックをＤＮＮ（複数可）によって予測させるように構成され得る。

再構成品質コード７５０は、本開示の実施形態（例えば、図６に示すステップ６４０および６５０の説明を参照）に従って、ＤＮＮによって予測される再構成されたクロマブロックと、異なる予測モード（複数可）を使用して予測される別の再構成されたクロマブロック（複数可）の再構成品質を、少なくとも１つのプロセッサに計算させるように構成され得る。

画像取得コード７６０は、本開示の実施形態（例えば、図６に示すステップ６４０および再構成されたクロマブロック６７０の説明を参照）に従って、ＤＮＮによって予測される再構成されたクロマブロック、または異なる予測モード（複数可）を使用して予測される別の再構成されたクロマブロック（複数可）を使用して、少なくとも１つのプロセッサに画像を取得させるように構成され得る。例えば、画像取得コード７６０は、少なくとも１つのプロセッサに、最高の計算された再構成品質を持つものに基づいて、再構成されたクロマブロックおよび別の再構成されたクロマブロックの中から１つを選択させ、画像を取得するためにそのような再構成されたクロマブロックを使用させるように構成され得る。実施形態によれば、画像取得コード７６０は、再構成品質が計算されることなしにおよび／または再構成されたクロマブロックの間で選択するために使用されることなし、ＤＮＮによって予測される再構成されたクロマブロックを使用して、少なくとも１つのプロセッサに画像を取得させるように構成され得る。実施形態によれば、再構成されたルマブロックはまた、画像を取得するために使用され得る。

イントラ予測モードにおける以前のクロスコンポーネント予測方法と比較して、本開示の実施形態は様々な利点を提供する。例えば、本開示の実施形態は、再構成ブロックの様々な形状に対応する柔軟で一般的なフレームワークを提供する。また、本開示の実施形態は、様々な入力情報を持つ変換メカニズムを活用し、それによって、コーディング効率を向上させるためにＤＮＮモデルの学習能力を最適化する側面を含む。さらに、サイド情報が、予測結果を改善するためにＤＮＮと共に使用され得る。

上述の本開示の実施形態の技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装し、１つ以上のコンピュータ可読媒体に物理的に格納することができる。例えば、図８は、開示された主題の実施形態を実施するのに適したコンピュータシステム９００を示す。

コンピュータソフトウェアは、コンピュータ中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）などによって、直接的に、または解釈、マイクロコード実行などを通じて実行することができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンク、または同様のメカニズムの対象となり得る、任意の適切な機械コードまたはコンピュータ言語を使用してコーディングすることができる。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームミングデバイス、モノのインターネットデバイス等を含む種々のタイプのコンピュータまたはそのコンポーネント上で実行することができる。

コンピュータシステム９００についての図９に示されるコンポーネントは、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能に関する限定を示唆することを意図するものではない。また、コンポーネントの構成は、コンピュータシステム９００の例示的な実施形態に示されたコンポーネントのいずれか１つまたは組み合わせに関するいかなる従属性または要件を有するものとして解釈されてはならない。

コンピュータシステム９００は、特定のヒューマンインターフェース入力デバイスを含み得る。このようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（キーストローク、スワイプ、データグローブの動きなど）、オーディオ入力（音声、拍手など）、視覚入力（ジェスチャなど）、嗅覚入力（図示せず）を通じて、一人または複数の人間のユーザによる入力に応答し得る。また、ヒューマンインターフェースデバイスは、オーディオ（スピーチ、音楽、周囲の音声など）、画像（スキャンされた画像、静止画カメラから得られる写真画像など）、ビデオ（２次元ビデオ、立体画像を含む３次元ビデオなど）のような、人間による意識的入力に必ずしも直接関係しない特定のメディアをキャプチャするために使用することができる。

入力ヒューマンインターフェースデバイスは、キーボード９０１、マウス９０２、トラックパッド９０３、タッチスクリーン９１０、データグローブ、ジョイスティック９０５、マイクロホン９０６、スキャナ９０７、およびカメラ００８の１つ以上（それぞれのうちの１つのみ）を含み得る。

コンピュータシステム９００はまた、特定のヒューマンインターフェース出力デバイスを含み得る。このようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、およびにおい／味を通して、１人または複数の人間ユーザの感覚を刺激し得る。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン９１０、データグローブ、またはジョイスティック９０５による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスであることもできる）を含み得る。例えば、このようなデバイスは、オーディオ出力デバイス（スピーカー９０９、ヘッドフォン（図示せず）など）、視覚出力デバイス（ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含むスクリーン９１０など、各々がタッチスクリーン入力能力を有していても有していなくてもよく、各々が触覚フィードバック能力を有していても有していなくてもよい－これらのうちのいくつかは、２次元の視覚出力または立体画像出力など手段を介して３次元以上の出力を出力することができ得る；仮想現実メガネ（図示せず）、ホログラフィックディスプレイおよびスモークタンク（図示せず））、およびプリンタ（図示せず）であり得る。

コンピュータシステム９００はまた、人間がアクセス可能なストレージデバイス、および、ＣＤ／ＤＶＤまたは類似の媒体９２１を備えたＣＤ／ＤＶＤＲＯＭ／ＲＷ９２０を含む光学媒体、サムドライブ９２２、リムーバブルハードドライブまたはソリッドステートドライブ９２３、テープおよびフロッピー（登録商標）ディスク（図示せず）のようなレガシー磁気媒体、セキュリティドングル（図示せず）のような特殊化されたＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスなどの関連媒体を含むことができる。

当業者はまた、現在開示されている主題に関連して使用される用語「コンピュータ可読媒体」が、伝送媒体、搬送波、または他の一時的な信号を包含しないことを理解すべきである。

コンピュータシステム９００はまた、１つ以上の通信ネットワークへのインターフェースを含むことができる。ネットワークは、例えば、無線、有線、光であることができる。ネットワークは、さらに、ローカル、広域、メトロポリタン、車両および産業、リアルタイム、遅延耐性などであることができる。ネットワークの例は、イーサネット（登録商標）、無線LANなどのローカルエリアネットワーク、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上放送TVを含むTV有線または無線ワイドエリアデジタルネットワーク、CANバスを含む車両および産業用などを含む。特定のネットワークは、一般に、特定の汎用データポートまたは周辺バス９４９（例えば、コンピュータシステム９００のUSBポートなど）に取り付けられる外部ネットワークインターフェースアダプタを必要とする。他のものは、一般に、以下に説明するようにシステムバスに取り付けることによって、コンピュータシステム９００のコアに組み込まれる（例えば、ＰＣコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム９００は、他のエンティティと通信することができる。このような通信は、単指向性、受信のみ（例えば、放送テレビ）、単指向性送信専用（例えば、特定のCANバスデバイスへのCANバス）、または、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの双指向性であることができる。このような通信は、クラウドコンピューティング環境９５５への通信を含むことができる。特定のプロトコルおよびプロトコルスタックは、上述のように、これらのネットワークおよびネットワークインターフェースの各々で使用することができる。

前述のヒューマンインターフェースデバイス、人間がアクセス可能なストレージデバイス、およびネットワークインターフェース９５４は、コンピュータシステム９００のコア９４０に取り付けることができる。

コア９４０）は、１つ以上の中央処理装置（ＣＰＵ）９４１、グラフィックス処理ユニット（ＧＰＵ）９４２、フィールドプログラマブルゲートエリア（ＦＰＧＡ）９４３の形の特殊なプログラマブル処理ユニット、特定のタスクのためのハードウェアアクセラレータ９４４などを含むことができる。これらのデバイスは、読み取り専用メモリ（ＲＯＭ）９４５、ランダムアクセスメモリ９４６、内部非ユーザアクセス可能ハードドライブ、SSD等の内部大容量ストレージ９４７と共に、システムバス９４８を介して接続され得る。いくつかのコンピュータシステムでは、システムバス９４８は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするために、１つ以上の物理的プラグの形態でアクセス可能であることができる。周辺デバイスは、コアのシステムバス９４８に直接取り付けるか、または周辺バス９４９を介して取り付けることができる。周辺バスのアーキテクチャは、PCI、USBなどを含む。グラフィックスアダプタ９５０が、コア９４０に含まれ得る。

ＣＰＵ９４１、ＧＰＵ９４２、ＦＰＧＡ９４３、およびアクセラレータ９４４は、組み合わされて、上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ＲＯＭ９４５またはＲＡＭ９４６に格納することができる。過渡的なデータはＲＡＭ９４６に格納することもでき、一方、永久データは、例えば、内部大容量ストレージ９４７に格納することができる。メモリデバイスのいずれかへの高速ストレージおよび取得は、キャッシュメモリの使用を通して可能にすることができ、キャッシュメモリは、１つ以上のＣＰＵ９４１、ＧＰＵ９４２、大容量ストレージ９４７、ＲＯＭ９４５、ＲＡＭ９４６などと密接に関連付けることができる。

コンピュータ可読媒体は、種々のコンピュータに実装された動作を実行するためのコンピュータコードをその上に有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであることができる、またはそれらは、コンピュータソフトウェア技術の当業者に良く知られかつ入手可能な種類のものであることができる。

一例として、限定するものではなく、アーキテクチャを有するコンピュータシステム９００、具体的にはコア９４０は、プロセッサ（複数可）（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ等を含む）が１つ以上の有形のコンピュータ可読媒体に具現化されたソフトウェアを実行する結果として機能を提供することができる。そのようなコンピュータ可読媒体は、コア－内部大容量ストレージ９４７又はＲＯＭ９４５のような非一時的な性質のものであるコア９４０の特定のストレージと同様に、上述のようなユーザがアクセス可能な大容量ストレージに関連する媒体であることができる。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに格納され、コア９４０によって実行されることができる。コンピュータ可読媒体は、特定のニーズに応じて、１つ又は複数のメモリデバイス又はチップを含むことができる。ソフトウェアは、ＲＡＭ９４６に格納されたデータ構造を定義し、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含む、本明細書に記載された特定のプロセス又は特定のプロセスの特定の部分を、コア９４０、具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む）に実行させることができる。加えて又は代替的に、コンピュータシステムは、回路（例えば、アクセラレータ９４４））内に配線された又は他の方法で具現化されたロジックの結果として機能を提供することができ、これは、本明細書に記載される特定のプロセス又は特定のプロセスの特定の部分を実行するためのソフトウェアの代わりに、又はそれと共に動作することができる。ソフトウェアへの言及は、ロジックを含み、また、必要に応じて、その逆も可能である。コンピュータ可読媒体への言及は、実行のためのソフトウェアを格納する回路（集積回路（ＩＣ）など）、実行のためのロジックを具体化する回路、又は適切な場合にはその両方を含むことができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。

本開示はいくつかの非限定的な例示的な実施形態を説明してきたが、変更、順列、および様々な代替均等物があり、これらは本開示の範囲内にある。したがって、当業者は、ここに明示的に示されているわけでも記述されているわけでもないが、開示の原理を具体化し、したがってその精神と範囲内にある多数のシステムおよび方法を考え出すことができることが認められる。

Claims

少なくとも１つのプロセッサによって実行される方法であって、前記方法は：
画像またはビデオの再構成されたルマブロックを取得することと；
前記再構成されたルマブロックをディープニューラルネットワーク（ＤＮＮ）に入力することと；
前記再構成されたルマブロックに関連するサイド情報および参照コンポーネントを取得することと；
前記参照コンポーネントおよび前記サイド情報を前記ＤＮＮに入力することと；
前記ＤＮＮによって、前記再構成されたルマブロック、前記参照コンポーネント、および前記サイド情報に基づいて、前記画像またはビデオの再構成されたクロマブロックを予測することと；を含む、
方法。
前記参照コンポーネントは、前記再構成されたルマブロックの隣接するルマ参照および予測される前記再構成されたクロマブロックの隣接するクロマ参照の中からの少なくとも１つを含み、
前記予測することはさらに、前記ＤＮＮによって、前記再構成されたルマブロック、入力された前記隣接するルマ参照および前記隣接するクロマ参照の中からの前記少なくとも１つに基づいて前記再構成されたクロマブロックを予測することを含む、
請求項１に記載の方法。
前記参照コンポーネントは、前記再構成されたルマブロックの隣接するルマ参照と、予測される前記再構成されたクロマブロックの隣接するクロマ参照とを含み、
前記予測することはさらに、前記ＤＮＮによって、前記再構成されたルマブロック、前記隣接するルマ参照、および入力された前記隣接するクロマ参照に基づいて、前記再構成されたクロマブロックを予測することを含む、
請求項１に記載の方法。
前記サイド情報に基づいて特徴マップを生成すること、および生成された前記特徴マップをＤＮＮトレーニングのために他の画像ベースの特徴マップと連結することをさらに含む、
請求項１に記載の方法。
前記サイド情報は、量子化パラメータ（ＱＰ）値およびブロック分割深度情報の中からの少なくとも１つを含む、
請求項１に記載の方法。
前記ＤＮＮによって予測される前記再構成されたクロマブロックの再構成品質、および異なる予測モードを使用して予測される別の再構成されたクロマブロックの再構成品質を計算すること；および
計算された前記再構成品質の中からの最も高いものに基づいて、前記ＤＮＮによって予測された前記再構成されたクロマブロックと、前記異なる予測モードを使用して予測された前記別の再構成されたクロマブロックの中からの１つを使用して画像またはビデオを取得すること；をさらに含む、
請求項１に記載の方法。
前記ＤＮＮの入力を生成すること、をさらに含み、
前記予測することは、前記ＤＮＮによって、前記入力に基づいて前記画像またはビデオの前記再構成されたクロマブロックを予測することを含み、
前記生成することは、
ルマブロックを再構成することおよび前記ルマブロックの隣接するルマ参照を取得することと；
再構成された前記ルマブロックを前記入力の１つとして取得するために前記ルマブロックをダウンサンプリングすることと；
前記ルマブロックの前記隣接するルマ参照をダウンサンプリングすることと；
ダウンサンプリングされた前記隣接するルマ参照を、ダウンサンプリングされた前記ルマブロックと同じサイズに変換することと；を含み、
前記ＤＮＮの前記入力は、ダウンサンプリングされた前記ルマブロックおよび変換された前記隣接するルマ参照を含む、
請求項１に記載の方法。
前記ルマブロックは２Ｎ×２Ｍブロックであり、前記隣接するルマ参照は２Ｎ×２Ｋの第１のルマ参照ブロックおよび２Ｋ×２Ｍの第２のルマ参照ブロックを参照用に含み、Ｎ、Ｋ、およびＭは整数であり、２Ｎは幅であり、２Ｍは高さであり、２Ｋはルマ参照の行または列の数である、
請求項７に記載の方法。
前記ルマブロックをダウンサンプリングすることによって得られた前記再構成されたルマブロックはＮ×Ｍのサイズを有し、
前記隣接するルマ参照をダウンサンプリングした後、前記第１のルマ参照ブロックは、Ｎ×Ｋのサイズを有し、前記第２のルマ参照ブロックはＫ×Ｍのサイズを有する、
請求項８に記載の方法。
前記生成することは、ダウンサンプリングされた前記ルマブロックと同じサイズを有するように予測される前記再構成されたクロマブロックの隣接するクロマ参照を変換することをさらに含み、
前記ＤＮＮの前記入力は、ダウンサンプリングされた前記ルマブロック、変換された前記隣接するルマ参照、および変換された前記隣接するクロマ参照を含む、
請求項７に記載の方法。
コンピュータプログラムコードを格納するように構成された少なくとも１つのメモリ；および
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードの指示に従って動作するように構成された少なくとも１つのプロセッサ、を有し、前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、請求項１乃至１０のいずれか１項に記載の方法を実行させる、
システム。
コンピュータプログラムであって、少なくとも１つのプロセッサによって実行されるときに、前記少なくとも１つのプロセッサに、請求項１乃至１０のいずれか１項に記載の方法を実行させる、コンピュータプログラム。