JP2023543592A

JP2023543592A - ビデオエンコーダの少なくとも１つのプロセッサによって実行される方法、システム、及びコンピュータプログラム、並びにビデオデコーダの少なくとも１つのプロセッサによって実行される方法

Info

Publication number: JP2023543592A
Application number: JP2023519443A
Authority: JP
Inventors: リン，シェン; ジャン，ウェイ; リウ，シャン; ワン，ウェイ
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2021-06-18
Filing date: 2022-06-16
Publication date: 2023-10-17
Also published as: EP4136853A1; WO2022266338A1; KR20230169293A; CN116508319A; US20220408098A1; EP4136853A4

Abstract

ニューラル画像圧縮におけるブロックワイズのエントロピコーディング法のためのシステム及び方法が提供される。方法は、画像を含むビットストリームを受け取り、画像を複数のブロックにパーティション化し、ニューラルネットワークベースのエンコーダによって複数のブロックの夫々を圧縮し、画像において複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得し、圧縮された特徴をエントロピエンコーダによって処理して、第１の圧縮されたビットストリームを生成し、圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得し、複数のリシェープされた圧縮された特徴をエントロピエンコーダによって処理して、第２の圧縮されたビットストリームを生成し、第２の圧縮されたビットストリームに基づき、画像を含む前記ビットストリームを符号化することを含む。

Description

［関連出願への相互参照］
本願は、２０１２年６月１８日付けで出願された米国特許仮出願第６３／２１２４６９号及び２０２２年５月２６日付けで出願された米国特許出願第１７／８２５５７５の優先権を主張するものである。先願の開示は、それらの全文を参照により本願に援用される。

［分野］
本開示の実施形態は、ニューラル画像圧縮におけるブロックワイズのエントロピコーディングシステム及び方法を対象としている。

ディープニューラルネットワークベースのビデオ又は画像コーディングフレームワークでは、大量の訓練データセット及び高度な機械学習アルゴリズムを利用することによって、種々のモジュールが、最終的な目的（例えば、レート歪み損失の最小化）を改善するよう入力から出力まで一緒に最適化され得る。対照的に、従来のハイブリッドビデオコーデックは、通常、端末のモジュールを最適化することに焦点を当てており、これは、全体の性能におけるコーディングの向上をもたらさない可能性がある。従って、エンド・ツー・エンド（Ｅ２Ｅ）の最適化されたニューラル画像圧縮（ＮＩＣ）が、より良いコーディング性能を達成するために全体として最適化されるよう設計される。

近年、ＩＳＯ／ＩＥＣＭＰＥＧ（ＪＴＣ１／ＳＣ２９／ＷＧ１１）は、将来のビデオコーデック技術の標準に対する潜在的なニーズを積極的に探求してきた。ＩＳＯ／ＩＥＣＪＰＥＧは、ＡＩベースのエンド・ツー・エンドのニューラル画像圧縮に焦点を当てたＪＰＥＧ－ＡＩグループを設立した。中国ＡＶＳ標準も、ニューラル画像及びビデオ圧縮技術に取り組むためのＡＶＳ－ＡＩ特別グループを形成した。同時に、多くのテクノロジー企業も、ＮＩＣのための特別な研究プロジェクトを発足させた。最近のアプローチの成功により、進歩したニューラル画像及びビデオ圧縮メソッドロジに対して産業上の関心がますます高まっている。

ＮＩＣの一般的なフレームワークは次のステップとして説明される。入力画像ｘを考えると、ＮＩＣの目標は、ディープニューラルネットワーク（ＤＮＮ）エンコーダへの入力として画像を使用して、記憶及び送信のためにコンパクトである圧縮された表現を計算することである。また、その場合に、圧縮された表現は、ビットストリームを生成するよう算術コーディングのために量子化される。ビットストリームは、画像を再構成するためにＤＮＮデコーダへの入力として使用される算術復号化に戻される。更に、ハイパープライア（hyperprior）及びコンテキストモデルが、圧縮性能を更に改善するために使用され得る。

モデルの訓練中、以下の式１で示されるように、トレードオフハイパーパラメータλを用いて、レート歪み（Ｒ－Ｄ）損失が、再構成された画像の
（外１）
と、
（外２）
のビット消費Ｒとの間のトレードオフを達成するよう最適化される：
ここで、ｘは、入力画像であり、バーｘは、再構成された画像であり、ハット付きｘは、圧縮された表現である。

開示の実施形態は、エンド・ツー・エンド（Ｅ２Ｅ）フレームワークでの画像圧縮のレート歪み性能を最適化するブロックワイズのエントロピコーディング方法を提供する。Ｅ２Ｅの最適化されたフレームワークは、エンコーダ及びデコーダの両方のために十分に事前訓練されているＤＮＮベースの画像又はビデオコーディングフレームワークであることができる。

本開示の実施形態に従って、ビデオエンコーダの少なくとも１つのプロセッサによって実行される方法が提供される。方法は、
画像を含むビットストリームを受け取るステップと、
前記画像を複数のブロックにパーティション化するステップと、
ニューラルネットワークベースのエンコーダによって前記複数のブロックの夫々を圧縮するステップと、
前記画像において前記複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得するステップと、
前記圧縮された特徴をエントロピエンコーダによって処理して、第１の圧縮されたビットストリームを生成するステップと、
前記圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得するステップと、
前記複数のリシェープされた圧縮された特徴を前記エントロピエンコーダによって処理して、第２の圧縮されたビットストリームを生成するステップと、
前記第２の圧縮されたビットストリームに基づき、前記画像を含む前記ビットストリームを符号化するステップと
を含む。

本開示の実施形態に従って、コンピュータプログラムコードを記憶するよう構成される少なくとも１つのメモリと、前記コンピュータプログラムコードにアクセスし、該コンピュータプログラムコードによって指示されるように動作するよう構成される少なくとも１つのプロセッサとを含むシステムが提供される。前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、
ビットストリームからの画像を複数のブロックにパーティション化するステップと、
ニューラルネットワークベースのエンコーダによって前記複数のブロックの夫々を圧縮するステップと、
前記画像において前記複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得するステップと、
前記圧縮された特徴をエントロピエンコーダによって処理して、第１の圧縮されたビットストリームを生成するステップと、
前記圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得するステップと、
前記複数のリシェープされた圧縮された特徴を前記エントロピエンコーダによって処理して、第２の圧縮されたビットストリームを生成するステップと、
前記第２の圧縮されたビットストリームに基づき、前記画像を含む前記ビットストリームを符号化するステップと
を実行させるよう構成される符号化コードを含む。

本開示の実施形態に従って、少なくとも１つのプロセッサによって実行されるとき、該少なくとも１つのプロセッサに、
画像を含むビットストリームを受け取り、
前記画像を複数のブロックにパーティション化し、
ニューラルネットワークベースのエンコーダによって前記複数のブロックの夫々を圧縮し、
前記画像において前記複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得し、
前記圧縮された特徴をエントロピエンコーダによって処理して、第１の圧縮されたビットストリームを生成し、
前記圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得し、
前記複数のリシェープされた圧縮された特徴を前記エントロピエンコーダによって処理して、第２の圧縮されたビットストリームを生成し、
前記第２の圧縮されたビットストリームに基づき、前記画像を含む前記ビットストリームを符号化する
ビデオエンコーダを実装させるよう構成されるコンピュータコードを記憶する非一時的なコンピュータ可読媒体が提供される。

開示されている対象の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになる。

実施形態に係る通信システムの略ブロック図の模式図である。実施形態に従う通信システムの略ブロック図の模式図である。実施形態に従うデコーダの略ブロック図の模式図である。実施形態に従うエンコーダの略ブロック図の模式図である。エンコーダによって実行され得る本開示の実施形態に係るＮＩＣ符号化方法を表す。デコーダによって実行され得る本開示の実施形態に係るＮＩＣ復号化方法６００を表す。実施形態に係るコンピュータコードのブロック図である。実施形態に係るコンピュータコードのブロック図である。本開示の実施形態を実装するのに適したコンピュータシステムの図である。

図１は、本開示の実施形態に係る通信システム１００の略ブロック図を表す。通信システム１００は、ネットワーク１５０を介して相互接続された少なくとも２つの端末１１０、１２０を含み得る。データの１方向伝送については、第１端末１１０は、ネットワーク１５０を介した他方の端末１２０への伝送のために、ローカル位置でビデオデータをコーディングし得る。第２端末１２０は、他方の端末のコーディングされたビデオデータをネットワーク１５０から受信し、コーディングされたデータを復号し、回復されたビデオデータを表示し得る。１方向データ伝送は、メディアサービングアプリケーションなどで一般的であり得る。

図１は、例えばビデオ会議中に現れ得るコーディングされたビデオの双方向伝送をサポートするよう設けられた端末１３０、１４０の第２の対を表す。データの双方向伝送については、各端末デバイス１３０、１４０は、ネットワーク１５０を介した他方の端末への伝送のために、ローカル位置で捕捉されたビデオデータをコーディングし得る。各端末はまた、他方の端末によって送信されたコーディングされたビデオデータを受信してよく、コーディングされたビデオデータを復号してよく、そして、回復されたビデオデータをローカルの表示デバイスで表示してもよい。

図１では、端末１１０～１４０は、サーバ、パーソナルコンピュータ、及びスマートフォン、並びに／又は任意の他のタイプの端末として表され得る。例えば、端末１１０～１４０は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤー、及び／又は専用のビデオ会議装置であってよい。ネットワーク１５０は、例えば、ワイヤライン及び／又はワイヤレス通信ネットワークを含む、コーディングされたビデオデータを端末１１０～１４０の間で伝達する任意数のネットワークに相当する。通信ネットワーク１５０は、回路交換及び／又はパケット交換チャネルにおいてデータを交換してもよい。代表的なネットワークには、電気通信網、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はインターネットがある。本議論のために、ネットワーク１５０のアーキテクチャ及びトポロジは、本明細書において以降で説明されない限りは、本開示の動作にとって重要でない。

図２は、開示されている対象の適用の例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を表す。開示されている対象は、例えば、ビデオ会議と、デジタルＴＶと、ＣＤ、ＤＶＤ、メモリスティックなどを含むデジタル媒体上での圧縮されたビデオの記憶と、などを含む他のビデオ対応用途に同様に適用可能であることができる。

図２に表されるように、ストリーミングシステム２００は、ビデオソース２０１及びエンコーダ２０３を含むことができる捕捉サブシステム２１３を含み得る。ビデオソース２０１は、例えばデジタルカメラであってよく、圧縮されていないビデオサンプルストリーム２０２を生成するよう構成され得る。圧縮されていないビデオサンプルストリーム２０２は、符号化されたビデオビットストリームと比較したときに高いデータボリュームを提供する可能性があり、ビデオソース２０１へ結合されたエンコーダ２０３によって処理され得る。エンコーダ２０３は、以下で更に詳細に記載されるように、開示されている対象の態様を可能にするか又は実装するためのハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。符号化されたビデオデータ２０４は、サンプルストリームと比較したときに、より低いデータボリュームを含む可能性があり、将来の使用のためにストリーミングサーバ２０５に記憶され得る。１つ以上のストリーミングクライアント２０６は、符号化されたビデオビットストリーム２０４のコピーであり得るビデオビットストリーム２０９を読み出すためにストリーミングサーバ２０５にアクセスすることができる。

実施形態において、ストリーミングサーバ２０５は、Ｍｅｄｉａ－ＡｗａｒｅＮｅｔｗｏｒｋＥｌｅｍｅｎｔ（ＭＡＮＥ）としても機能してよい。例えば、ストリーミングサーバ２０５は、潜在的に異なるビットストリームを１つ以上のストリーミングクライアント２０６に合わせるために、符号化されたビデオビットストリーム２０４をプルーニングするよう構成されてよい。実施形態において、ＭＡＮＥは、ストリーミングシステム２００においてストリーミングサーバ２０５とは別に設けられてもよい。

ストリーミングクライアント２０６は、ビデオデコーダ２１０及びディスプレイ２１２を含むことができる。ビデオデコーダ２１０は、例えば、符号化されたビデオビットストリーム２０４の入来するコピーであるビデオビットストリーム２０９を復号し、ディスプレイ２１２又は他のレンダリングデバイス（図示せず。）でレンダリングされ得る送出ビデオサンプルストリーム２１１を生成することができる。いくつかのストリーミングシステムにおいて、ビデオビットストリーム２０４、２０９は、特定のビデオコーディング／圧縮規格に従って符号化され得る。そのような規格の例には、ＩＴＵ－Ｔ推奨Ｈ．２６５があるが限られない。開発中のビデオコーディング規格は、ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（ＶＶＣ）として俗に知られている。本開示の実施形態は、ＶＶＣに関連して使用されてもよい。

図３は、本開示の実施形態に従ってディスプレイ２１２に付随するビデオデコーダ２１０の例となる機能ブロック図を表す。

ビデオデコーダ２１０は、チャネル３１２、受信器３１０、バッファメモリ３１５、エントロピデコーダ／パーサ３２０、スケーラ／逆変換ユニット３５１、イントラピクチャ予測ユニット３５２、動き補償予測ユニット３５３、アグリゲータ３５５、ループフィルタユニット３５６、参照ピクチャメモリ３５７、及び現在ピクチャメモリを含み得る。少なくとも１つの実施形態で、ビデオデコーダ２１０は、集積回路、一連の集積回路、及び／又は他の電子回路を含んでよい。ビデオデコーダ２１０はまた、関連するメモリを備えた１つ以上のＣＰＵで実行されるソフトウェアにおいて部分的に又は全体的に具現されてもよい。

この実施形態、及び他の実施形態において、受信器３１０は、ビデオデコーダ２１０によって復号されるべき１つ以上のコーディングされたビデオシーケンスを、一度に１つのコーディングされたビデオシーケンスずつ、受信し得る。このとき、各コーディングされたビデオシーケンスの復号化は、他のコーディングされたビデオシーケンスから独立している。コーディングされたビデオシーケンスは、チャネル３１２から受信されてよく、チャネル３１２は、符号化されたビデオデータを記憶している記憶デバイスへのハードウェア／ソフトウェアリンクであってよい。受信器３１０は、符号化されたビデオデータを他のデータ、例えば、コーディングされたオーディオデータ及び／又は補助的なデータストリームとともに受信してよく、それらは、それらの各々の使用エンティティ（図示せず。）へ転送されてよい。受信器３１０は、コーディングされたビデオシーケンスを他のデータから分離してよい。ネットワークジッタに対抗するために、バッファメモリ３１５が受信器３１０とエントロピデコーダ／パーサ３２０（以降「パーサ」）との間に結合されてもよい。受信器３１０が十分な帯域幅及び可制御性の記憶／転送デバイスから、又はアイソシンクロナス（isosynchronous）ネットワークからデータを受信しているときに、バッファメモリ３１５は使用されなくてもよく、あるいは、小さくてよい。インターネットなどのベストエフォートのパケットネットワークでの使用については、バッファメモリ３１５は必要とされる場合があり、比較的に大きく、かつ、適応サイズであることができる。

ビデオデコーダ２１０は、エントロピコーディングされたビデオシーケンスからシンボル３２１を再構成するためのパーサ３２０を含んでよい。それらのシンボルのカテゴリは、デコーダ２１０の動作を管理するために使用される情報と、潜在的に、図２に示されたようにデコーダへ結合され得るディスプレイ２１２などのレンダリングデバイスを制御するための情報とを含む。レンダリングデバイスのための制御情報は、ＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｈｎｔＩｎｆｏｒｍａｔｉｏｎ（ＳＥＩ）メッセージ又はＶｉｄｅｏＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ（ＶＵＩ）パラメータセットフラグメント（図示せず。）の形をとってもよい。パーサ３２０は、受信されたコーディングされたビデオシーケンスをパース／エントロピ復号し得る。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術又は標準規格に従うことができ、可変長コーディング、ハフマンコーディング、文脈依存による又はよらない算術コーディング、などを含む、当業者によく知られた原理に従うことができる。パーサ３２０は、コーディングされたビデオシーケンスから、ビデオデコーダにおけるピクセルのサブグループのうちの少なくとも１つについてのサブグループパラメータの組を、そのグループに対応する少なくとも１つのパラメータに基づいて抽出し得る。サブグループは、グループ・オブ・ピクチャ（ＧＯＰ）、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット（ＣＵ）、ブロック、変換ユニット（ＴＵ）、予測ユニット（ＰＵ）、などを含むことができる。パーサ３２０はまた、コーディングされたビデオシーケンス情報から、変換係数、量子化パラメータ値、動きベクトル、などの情報も抽出し得る。

パーサ３２０は、シンボル３２１を生成するために、バッファメモリ３１５から受信されたビデオシーケンスに対してエントロピ復号化／パーシング動作を実行し得る。

シンボル３２１の再構成は、コーディングされたビデオピクチャ又はその部分（例えば、インター及びイントラピクチャ、インター及びイントラブロック）のタイプ及び他の因子に応じて多数の異なるユニットを有することができる。どのユニットが含まれるか、及びどのようにそれらが含まれるかは、コーディングされたビデオシーケンスからパーサ３２０によってパースされたサブグループ制御情報によって制御され得る。パーサ３２０と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明りょうさのために表されていない。

既に述べられた機能ブロックを超えて、デコーダ２１０は、概念的に、以下で説明される多数の機能ユニットに細分され得る。商業上の制約の下で動作する実際の実施では、それらのユニットの多くが互いに密に相互作用し、少なくとも部分的に互いに組み込まれ得る。しかし、開示されている対象を説明することを目的として、以下の機能ユニットへの概念的細分は適切である。

１つのユニットは、スケーラ／逆変換ユニット３５１であってよい。スケーラ／逆変換ユニット３５１は、パーサ３２０からシンボル３２１として、量子化された変換係数とともに、どの変換を使用すべきか、ブロックサイズ、量子化係数、量子化スケーリングマトリクスなどを含む制御情報を受信し得る。スケーラ／逆変換ユニット３５１は、アグリゲータ３５５へ入力することができるサンプル値を含むブロックを出力することができる。

いくつかの場合に、スケーラ／逆変換器３５１の出力サンプルは、イントラコーディングされたブロック、すなわち、前に再構成されたピクチャからの予測情報を使用しておらず、現在ピクチャの前に再構成された部分からの予測情報を使用することができるブロック、に関係することができる。かような予測情報は、イントラピクチャ予測ユニット３５５２によって供給され得る。いくつかの場合に、イントラピクチャ予測ユニット３５２は、現在ピクチャメモリ３５８からの現在（部分的に再構成された）ピクチャからフェッチされた周囲の既に再構成された情報を用いて、再構成中のブロックと同じサイズ及び形状のブロックを生成する。アグリゲータ３５５は、いくつかの場合に、サンプルごとに、イントラ予測ユニット３５２が生成した予測情報を、スケーラ／逆変換ユニット３５１によって供給される出力サンプル情報に加える。

他の場合では、スケーラ／逆変換ユニット３５１の出力サンプルは、インターコーディングされた、そして潜在的に、動き補償されたブロックに関係することができる。かような場合に、動き補償予測ユニット３５３は、予測のために使用されるサンプルをフェッチするよう参照ピクチャメモリ３５７にアクセスすることができる。ブロックに関係するシンボル３２１に従って、フェッチされたサンプルを動き補償した後に、それらのサンプルは、出力サンプル情報を生成するために、アグリゲータ３５５によって、スケーラ／逆変換ユニット３５１の出力（この場合に、残差サンプル又は残差信号と呼ばれる。）に加えられ得る。動き補償予測ユニット３５３が予測サンプルをフェッチする参照ピクチャメモリ３５７内のアドレスは、動きベクトルによって制御可能である。動きベクトルは、例えば、Ｘ、Ｙ及び参照ピクチャコンポーネントを有することができるシンボル３２１の形で動き補償予測ユニット３５３に利用可能であり得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ３５７からフェッチされるサンプル値の補間や、動きベクトル予測メカニズムなどを含むこともできる。

アグリゲータ３５５の出力サンプルは、ループフィルタユニット３５６において様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、インループフィルタ技術を含むことができる。この技術は、コーディングされたビデオビットストリームに含まれており、パーサ３２０からのシンボル３２１としてループフィルタユニット３５６に利用可能にされたパラメータによって制御されるが、コーディングされたピクチャ又はコーディングされたビデオシーケンスの（復号化順序において）前の部分の復号化中に得られたメタ情報にも応答することができ、更には、前に構成されたループフィルタ処理されたサンプル値に応答することもできる。

ループフィルタユニット３５６の出力は、ディスプレイ２１２などのレンダーデバイスへ出力され、更には、将来のインターピクチャ予測における使用のために参照ピクチャメモリ３５７に記憶され得るサンプルストリームであることができる。

特定のコーディングされたピクチャは、完全に再構成されると、将来の予測のための参照ピクチャとして使用され得る。コーディングされたピクチャが完全に再構成され、コーディングされたピクチャが（例えば、パーサ３２０によって）参照ピクチャとして識別されると、現在の参照ピクチャは、参照ピクチャメモリ３５７の部分になることができ、未使用の現在ピクチャメモリは、後続のコーディングされたピクチャの再構成を開始する前に再割り当てされ得る。

ビデオデコーダ２１０は、ＩＴＵ－Ｔ推奨Ｈ．２６５などの標準規格で文書化され得る所定のビデオ圧縮技術に従って、復号化動作を実行してよい。コーディングされたビデオシーケンスは、それが、ビデオ圧縮技術文書又は規格で、特にその中のプロファイル文書で指定されるように、ビデオ圧縮技術又は規格に従うという意味で、使用中のビデオ圧縮技術又は規格によって規定されたシンタックスに従い得る。また、いくつかのビデオ圧縮技術又は規格への準拠のために、コーディングされたビデオシーケンスの複雑さは、ビデオ圧縮技術又は規格のレベルによって定義された境界内にあり得る。いくつかの場合に、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート（例えば、メガサンプル／秒で測定される。）、最大参照ピクチャサイズ、などを制限する。レベルによって設定された制限は、いくつかの場合に、ＨｙｐｏｔｈｅｔｉｃａｌＲｅｆｅｒｅｎｃｅＤｅｃｏｄｅｒ（ＨＲＤ）仕様と、コーディングされたビデオシーケンスにおいて通知されるＨＲＤバッファ管理のためのメタデータとを通じて、更に制限可能である。

実施形態において、受信器３１０は、符号化されたビデオとともに、追加の（冗長な）データを受信してもよい。追加のデータは、コーディングされたビデオシーケンスの部分として含まれてもよい。追加のデータは、ビデオデコーダ２１０によって、データを適切に復号するために及び／又は原ビデオデータをより正確に再構成するために使用されてよい。追加のデータは、例えば、時間、空間、又は信号対雑音比（ＳＮＲ）エンハンスメントレイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号、などの形をとることができる。

図４は、本開示の実施形態に係る、ビデオソース２０１に関連したビデオエンコーダ２０３の例となる機能ブロック図を表す。

ビデオエンコーダ２０３は、例えば、ソースコーダ４３０であるエンコーダと、コーディングエンジン４３２と、（ローカル）デコーダ４３３と、参照ピクチャメモリ４３４と、予測器４３５と、送信器４４０と、エントロピコーダ４４５と、コントローラ４５０と、チャネル４６０とを含み得る。

エンコーダ２０３は、エンコーダ２０３によってコーディングされるべきビデオ画像を捕捉し得るビデオソース２０１（エンコーダの部分ではない。）からビデオサンプルを受信してよい。

ビデオソース２０１は、任意の適切なビットデプス（例えば、８ビット、１０ビット、１２ビットなど）、任意の色空間（例えば、ＢＴ．６０１ＹＣｒＣＢ、ＲＧＢなど）、及び任意の適切なサンプリング構造（例えば、ＹＣｒＣｂ４：２：０、ＹＣｒＣｂ４：４：４）であることができるデジタルビデオサンプルストリームの形で、エンコーダ２０３によってコーディングされるべきソースビデオシーケンスを供給してよい。メディアサービングシステムでは、ビデオソース２０１は、前もって準備されたビデオを記憶している記憶デバイスであってよい。ビデオ会議システムでは、ビデオソース２０１は、ローカル画像情報をビデオシーケンスとして捕捉するカメラであってよい。ビデオデータは、順に見られる場合に動きを授ける複数の個別ピクチャとして供給されてもよい。ピクチャ自体は、ピクセルの空間アレイとして編成されてよく、各ピクセルは、使用中のサンプリング構造、色空間、などに依存する１つ以上のサンプルを有することができる。当業者であれば、ピクセルとサンプルとの間の関係を容易に理解することができる。本明細書は、以下、サンプルに焦点を当てる。

実施形態に従って、エンコーダ２０３は、実時間において、又は用途によって必要とされる任意の他の時間制約の下で、ソースビデオシーケンスのピクチャを、コーディングされたビデオシーケンス４４３へとコーディング及び圧縮してよい。適切なコーディング速度を強いることは、コントローラ４５０の一機能である。コントローラ４５０はまた、以下で記載されるような他の機能ユニットも制御し、それらのユニットへ機能的に結合されてもよい。結合は明りょうさのために表されていない。コントローラ４５０によってセットされるパラメータには、レート制御に関連したパラメータ（ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、など）、ピクチャサイズ、グループ・オブ・ピクチャ（ＧＯＰ）レイアウト、最大動きベクトル探索範囲、などが含まれ得る。当業者であれば、コントローラ４５０の他の機能を、それらが特定のシステム設計のために最適化されたビデオエンコーダ２０３に関係し得るということで、容易に識別することができる。

いくつかのビデオエンコーダは、当業者が「コーディングループ」と容易に認識するものにおいて動作する。過度に単純化された記載として、例において、コーディングループは、ソースコーダ４３０の符号化部（コーディングされるべき入力ピクチャと、参照ピクチャとに基づいて、シンボルを生成することに関与する。）と、ビデオエンコーダ２０３に埋め込まれた（ローカル）デコーダ４３３とから成ることができる。デコーダ４３３は、シンボルとコーディングされたビデオストリームとの間の圧縮が特定のビデオ圧縮技術において可逆である場合に（遠隔の）デコーダも生成することになるサンプルデータを生成するように、シンボルを再構成する。その再構成されたサンプルストリームは、参照ピクチャメモリ４３４へ入力される。シンボルストリームの復号化は、デコーダの場所（ローカル又は遠隔）に依存しないビットパーフェクト（bit-exact）な結果をもたらすので、参照ピクチャメモリ内のコンテンツも、ローカルのエンコーダと遠隔のエンコーダとの間でビットパーフェクトである。すなわち、エンコーダの予測部分は、デコーダが復号化中に予測を使用するときに“見る”ことになるのとまさに同じサンプル値を参照ピクチャサンプルとして“見る”。参照ピクチャのシンクロニシティ（及び、例えば、チャネルエラーのために、シンクロニシティが維持され得ない場合に、結果として生じるドリフト）のこの基本原理は、当業者に知られている。

“ローカル”のデコーダ４３３の動作は、図３とともに詳細に既に上述されている“遠隔”のデコーダ２１０と同じであることができる。ただし、シンボルが利用可能であり、エントロピコーダ４４５及びパーサ３２０によるコーディングされたビデオシーケンスへのシンボルの符号化／復号化が可逆であることができるということで、チャネル３１２、受信器３１０、バッファメモリ３１５及びパーサ３２０を含むデコーダ２１０のエントロピ復号化部分は、ローカルのデコーダ４３３において完全には実装されなくてもよい。

この時点で観測され得ることは、デコーダに存在するパーシング／エントロピ復号化を除く如何なるデコーダ技術も、対応するエンコーダにおいて略同じ機能形態で存在する必要があり得る点である。この理由により、開示されている対象は、デコーダの動作に焦点を当てる。エンコーダ技術の説明は、それらが、包括的に記載されるデコーダ技術の逆であってよいということで、省略可能である。特定の範囲においてのみ、より詳細な説明が必要とされ、以下で与えられている。

その動作の部分として、ソースコーダ４３０は、動き補償された予測コーディングを実行してよい。これは、「参照フレーム」として指定された、ビデオシーケンスからの１つ以上の前にコーディングされたフレームを参照して、予測的に入力フレームをコーディングする。このようにして、コーディングエンジン４３２は、入力フレームに対する予測参照として選択され得る参照フレームのピクセルブロックと入力フレームのピクセルブロックとの間の差をコーディングする。

ローカルのデコーダ４３３は、ソースコーダ４３０によって生成されたシンボルに基づいて、参照フレームとして指定され得るフレームのコーディングされたビデオデータを復号し得る。コーディングエンジン４３２の動作は、有利なことに、不可逆プロセスであってよい。コーディングされたビデオデータがビデオデコーダ（図４には図示せず。）で復号され得るとき、再構成されたビデオシーケンスは、通常は、いくらかのエラーを伴ったソースビデオシーケンスの複製であり得る。ローカルのデコーダ４３３は、参照フレームに対してビデオデコーダによって実行され得る復号化プロセスを再現し、再構成された参照フレームを参照ピクチャメモリ４３４に格納されるようにしてよい。このように、エンコーダ４０３は、（伝送エラーなしで）遠端のビデオデコーダによって取得されることになる再構成された参照フレームと共通の内容を有している再構成された参照フレームのコピーをローカルで記憶し得る。

予測器４３５は、コーディングエンジン４３２のための予測探索を実行してよい。すなわち、新しいフレームがコーディングされるために、予測器４３５は、その新しいフレームのための適切な予測基準となり得る参照ピクチャ動きベクトル、ブロック形状、などの特定のメタデータ又は（候補参照ピクセルブロックとしての）サンプルデータを参照ピクチャメモリ４３４から探し得る。予測器４３５は、適切な予測基準を見つけるためにサンプルブロック・バイ・ピクセルブロックベース（sample block-by-pixel block basis）で動作してよい。いくつかの場合に、予測器４３５によって取得された探索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ４３４に記憶されている複数の参照ピクチャから引き出された予測基準を有してもよい。

コントローラ４５０は、例えば、ビデオデータを符号化するために使用されるパラメータ及びサブグループパラメータの設定を含め、ソースコーダ４３０のコーディング動作を管理してよい。

上記の全ての機能ユニットの出力は、エントロピコーダ４４５においてエントロピコーディングを受けてよい。エントロピコーダは、ハフマンコーディング、可変長コーディング、算術コーディングなどの、当業者に知られている技術に従って、シンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルを、コーディングされたビデオシーケンスへと変換する。

送信器４４０は、エントロピコーダ４４５によって生成されたコーディングされたビデオシーケンスを、通信チャネル４６０を介した伝送のために準備するようにバッファリングしてよい。通信チャネル４６０は、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア／ソフトウェアリンクであってよい。送信器４４０は、ソースコーダ４３０からのコーディングされたビデオデータを、送信されるべき他のデータ、例えば、コーディングされたオーディオデータ及び／又は補助的なデータストリーム（ソースは図示せず。）とマージしてもよい。

コントローラ４５０は、エンコーダ２０３の動作を管理してよい。コーディング中、コントローラ４５０は、各々のピクチャに適用され得るコーディング技術に影響を及ぼす可能性がある特定のコーディングされたピクチャタイプを夫々のコーディングされたピクチャに割り当ててよい。例えば、ピクチャはしばしば、イントラピクチャ（Ｉピクチャ）、予測ピクチャ（Ｐピクチャ）、又は双方向予測ピクチャ（Ｂピクチャ）として割り当てられてよい。

イントラピクチャ（Intra Picture）（Ｉピクチャ）は、予測のソースとしてシーケンス内の如何なる他のピクチャも使用せずにコーディング及び復号され得るピクチャであってよい。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ（Independent Decoder Refresh，ＩＤＲ）ピクチャを含む種々のタイプのイントラピクチャを許容する。当業者であれば、Ｉピクチャのそのような変形並びにそれらの各々の応用及び特徴を知っている。

予測ピクチャ（Predictive Picture）（Ｐピクチャ）は、各ブロックのサンプル値を予測するために多くても１つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測によりコーディング及び復号され得るピクチャであってよい。

双方向予測ピクチャ（Bi-directionally Predictive Picture）（Ｂピクチャ）は、各ブロックのサンプル値を予測するために多くても２つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測によりコーディング及び復号され得るピクチャであってよい。同様に、多重予測ピクチャ（multiple-predictive picture(s)）は、単一のブロックの再構成のために２つよりも多い参照ピクチャ及び関連するメタデータを使用することができる。

ソースピクチャは、一般に、複数のサンプルブロック（例えば、夫々、４×４、８×８、４×８、又は１６×１６のサンプルのブロック）に空間的に細分され、ブロックごとにコーディングされてよい。ブロックは、ブロックの各々のピクチャに適用されているコーディング割り当てによって決定される他の（既にコーディングされた）ブロックを参照して予測的にコーディングされてよい。例えば、Ｉピクチャのブロックは、非予測的にコーディングされてよく、あるいは、それらは、同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされてもよい（空間予測又はイントラ予測）。Ｐピクチャのピクセルブロックは、非予測的に、空間予測により、又は時間予測により１つの前にコーディングされた参照ピクチャを参照して、コーディングされてよい。Ｂピクチャのブロックは、非予測的に、空間予測により、又は時間予測により１つ又は２つの前にコーディングされた参照ピクチャを参照して、コーディングされてよい。

ビデオエンコーダ２０３は、ＩＴＵ－Ｔ推奨Ｈ．２６５のような所定のビデオコーディング技術又は規格に従ってコーディング動作を実行してよい。その動作中に、ビデオエンコーダ２０３は、入力ビデオシーケンスにおける時間及び空間冗長性を利用する予測コーディング動作を含む様々な圧縮動作を実行してよい。従って、コーディングされたビデオデータは、使用されているビデオコーディング技術又は規格によって定められているシンタックスに従い得る。

実施形態において、送信器４４０は、符号化されたビデオとともに追加のデータを送信してもよい。ソースコーダ４３０は、コーディングされたビデオシーケンスの部分としてそのようなデータを含めてよい。追加のデータは、時間／空間／ＳＮＲエンハンスメントレイヤ、冗長ピクチャ及びスライスなどの他の形式の冗長データ、ＳｕｐｐｌｅｍｅｎｔａｒｙＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ（ＳＥＩ）メッセージ、又はＶｉｓｕａｌＵｓａｂｉｌｉｔｙＩｎｆｏｒｍａｔｉｏｎ（ＶＵＩ）パラメータセットフラグメント、などを有してよい。

本開示の実施形態に従って、コーディング効率を改善するためのＮＩＣにおけるブロックワイズのエントロピコーディング方法が提供される。

例えば、図５及び図６を参照して、本開示の例示的な方法が以下で説明される。

図５は、本開示のエンコーダによって実行され得る本開示の実施形態に係るＮＩＣ符号化方法を表す。

図５を参照して、圧縮される各入力画像５１０のうち、入力画像５１０は、より小さいブロック５２０＿１、５２０＿２、・・・、５２０＿ｎにパーティション化され得る。例えば、入力画像５１０は、図５に示されるように８つのブロック５２０＿１、５２０＿２、・・・、５２０＿ｎに分割されてよい。ハードウェアにはメモリ制限があり得るので、並列処理のために高解像度画像を小さいブロックに分けることは理にかなっている。

ブロック５２０＿１、５２０＿２、・・・、５２０＿ｎの夫々は、圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎを取得するためにＮＮベースエンコーダ５３０によって圧縮され得る。例えば、ブロック５２０＿１、５２０＿２、・・・、５２０＿ｎは夫々、圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎを取得するよう圧縮されてよい。図５に示されるように、ブロック５２０＿１、５２０＿２、・・・、５２０＿ｎは、８つの圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎが８つのブロック５２０＿１、５２０＿２、・・・、５２０＿ｎに夫々対応するように、ＮＮベースエンコーダ５３０によって処理される。実施形態に従って、圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎは、圧縮された特徴ブロックであってよい。

夫々の圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎは、圧縮されたビットストリーム５７０を生成するようエントロピエンコーダ５６０によって圧縮され得る。本開示の実施形態に従って、エントロピ符号化の前に、圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎの全部又は一部は、リシェープされた圧縮された特徴５５０＿１、５５０＿２、・・・、５５０＿ｍを得るよう変換（例えば、連結）され得る。ここで、「ｍ」は「ｎ」よりも小さくてよい。すなわち、リシェープされた圧縮された特徴５５０＿１、５５０＿２、・・・、５５０＿ｍの総数は、圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎの総数よりも少なくなる。図５に示されるように、エントロピコーダのより良い圧縮性能を達成するために、８つの圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎは、４つのリシェープされた圧縮された特徴５５０＿１、５５０＿２、・・・、５５０＿ｍに変換される。実施形態に従って、変換は、連結、アップサンプリング、又はＮＮベースの方法であることができる。実施形態に従って、リシェープされた圧縮された特徴５５０＿１、５５０＿２、・・・、５５０＿ｍは、リシェープされた圧縮された特徴ブロックであってよい。実施形態に従って、リシェープされた圧縮された特徴ブロックは、それらが取得された圧縮された特徴ブロックよりも大きいサイズを有してもよい。

変換に続いて、リシェープされた圧縮された特徴５５０＿１、５５０＿２、・・・、５５０＿ｍは、圧縮されたビットストリーム５７０を生成するようエントロピエンコーダ５６０によって処理されてよい。圧縮されたビットストリーム５７０は、例えば、デコーダへ送信されてよい。

図６は、本開示のデコーダによって実行され得る本開示の実施形態に係るＮＩＣ復号化方法６００を表す。

図６を参照して、圧縮されたビットストリーム５７０は、圧縮解除された特徴６２０＿１、６２０＿２、・・・、６２０＿ｍを生成するようエントロピデコーダによって処理される。実施形態に従って、圧縮解除された特徴６２０＿１、６２０＿２、・・・、６２０＿ｍは、圧縮解除された特徴ブロックであってよい。

圧縮解除された特徴６２０＿１、６２０＿２、・・・、６２０＿ｍは、リシェープされた圧縮解除された特徴６３０＿１、６３０＿２、・・・、６３０＿ｎに変換（例えば、分割）され得る。なお、「ｎ」は「ｍ」よりも大きい。すなわち、圧縮解除された特徴６２０＿１、６２０＿２、・・・、６２０＿ｍの総数は、リシェープされた圧縮解除された特徴６３０＿１、６３０＿２、・・・、６３０＿ｎの総数よりも少なくなる。実施形態に従って、リシェープされた圧縮解除された特徴６３０＿１、６３０＿２、・・・、６３０＿ｎは、リシェープされた圧縮解除された特徴ブロックであってよい。実施形態に従って、リシェープされた圧縮解除された特徴ブロックは、それらが取得された圧縮解除された特徴ブロックよりも小さいサイズを有してもよい。

実施形態に従って、圧縮解除された特徴６２０＿１、６２０＿２、・・・、６２０＿ｍの総数は、リシェープされた圧縮された特徴５５０＿１、５５０＿２、・・・、５５０＿ｍの総数と同じであってよく、リシェープされた圧縮解除された特徴６３０＿１、６３０＿２、・・・、６３０＿ｎの総数は、圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎの総数と同じであってよい。しかし、実施形態はそのように制限されず、総数は、例えば、図５～６に示されるように、異なってもよい。例えば、非限定的な実施例として、８つの圧縮された特徴５４０＿１、５４０＿２、・・・、５４０＿ｎ、４つのリシェープされた圧縮された特徴５５０＿１、５５０＿２、・・・、５５０＿ｍ、８つの圧縮解除された特徴６２０＿１、６２０＿２、・・・、６２０＿ｍ、及び１６個のリシェープされた圧縮解除された特徴６３０＿１、６３０＿２、・・・、６３０＿ｎが存在してもよい。

リシェープされた圧縮解除された特徴６３０＿１、６３０＿２、・・・、６３０＿ｎを取得した後、リシェープされた圧縮解除された特徴６３０＿１、６３０＿２、・・・、６３０＿ｎは、再構成されたブロック６５０を取得するようＮＮベースデコーダ６４０によって復号され得る。実施形態に従って、再構成されたブロック６５０は、再構成されたピクチャであってもよい。再構成されたピクチャは全体として、再構成されたピクチャの視覚品質を改善するようポストエンハンスメント６６０によって更に処理されてもよい。例えば、ポストエンハンスメント６６０は、デブロッキング及び／又はノイズ低減を含んでもよい。実施形態に従って、再構成されたピクチャは、次いで、ディスプレイに表示されてもよい。

従来のＮＩＣフレームワークでは、ＮＮベースのエントロピコーダは、圧縮された特徴の単一ブロックしか一度に符号化せず、エントロピモデルのスケール及び分散は、ブロックごとにしか評価されない。本開示の実施形態によれば、複数のブロックがＮＮベースエンコーダによって処理され、次いで、エントロピコーディングのために結合される。

本開示の一実施形態で、本開示のＮＮベースエンコーダ及びＮＮベースデコーダによって利用されるモデルの訓練中、エンコーダ及びデコーダは一緒に又は別々に訓練され得る。圧縮された特徴とリシェープされた特徴との間の変換動作も、ビットストリームに追加可能であり、この情報は、復号化処理を実行するデコーダへの信号として扱われ得る。例えば、本開示の実施形態に従って、図５に表される符号化処理を実行するエンコーダは、符号化されたビットストリーム内で、エンコーダによって使用された変換動作のインジケータ（例えば、シンタックス要素）を、図６に表される復号化処理を実行するデコーダへ送信してよい。デコーダは、インジケータを取得し、インジケータによって通知された変換に基づいて、圧縮解除された特徴を、リシェープされた圧縮解除された特徴に変換し得る。例えば、デコーダは、エンコーダによって使用された変換に対応する逆変換を使用し得る。

圧縮された特徴ブロック、リシェープされた圧縮された特徴ブロック、圧縮解除された特徴ブロック、及び／又はリシェープされた圧縮解除された特徴ブロックの形状は、正方形又は長方形であることができる。一種類のブロック（例えば、圧縮された特徴ブロック又は圧縮解除された特徴ブロック）の中の各ブロックは、互いに同じ形状及び／又はサイズであることができ、あるいは、その一種類のブロックの中の少なくとも１つの他のブロックとは異なった形状及び／又はサイズを有してもよい。実施形態に従って、一種類のブロック（例えば、圧縮された特徴ブロック又は圧縮解除された特徴ブロック）は、異なるサイズに変換（例えば、分割又は結合）されてもよい。

実施形態に従って、少なくとも１つのプロセッサと、コンピュータプログラム命令を記憶しているメモリとが設けられてもよい。コンピュータプログラム命令は、少なくとも１つのプロセッサによって実行されると、エンコーダ又はデコーダを実装してよく、本開示で記載されている任意数の機能を実行してよい。例えば、図７を参照して、少なくとも１つのプロセッサはエンコーダ７００を実装し得る。エンコーダ７００はＮＩＣエンコーダであってよい。コンピュータプログラム命令は、例えば、少なくとも１つのプロセッサに、受信される少なくとも１つのピクチャをコーディングさせるよう構成される符号化コード７１０と、少なくとも１つのプロセッサに、少なくとも１つのピクチャをコーディングすることで得られたビットストリームを、例えばデコーダへ送信させるよう構成される送信コード７６０とを含んでよい。符号化コード７１０は、例えば、分割コード７２０、第１取得コード７３０、第２取得コード７４０、及び第３取得コード７５０を含んでよい。

分割コード７２０は、少なくとも１つのプロセッサに、本開示の実施形態に従って、画像を複数のブロックに分割させるよう構成されてよい。

第１取得コード７３０は、少なくとも１つのプロセッサに、本開示の実施形態に従って、複数のブロックを符号化することによって、圧縮された特徴を取得させるよう構成されてよい。実施形態に従って、圧縮された特徴ブロックが取得される。実施形態に従って、複数のブロックは、ＮＮベースエンコーダ５３０を使用することによってニューラルネットワークを用いて符号化される。

第２取得コード７４０は、少なくとも１つのプロセッサに、本開示の実施形態に従って、圧縮された特徴を変換することによって、リシェープされた圧縮された特徴を取得させるよう構成されてよく、リシェープされた圧縮された特徴の総数は、圧縮された特徴の総数よりも少ない。実施形態に従って、リシェープされた圧縮された特徴ブロックが取得され、圧縮された特徴を変換することは、圧縮された特徴ブロックを、圧縮された特徴ブロックよりも大きいリシェープされた圧縮された特徴ブロックに変換することを含む。実施形態に従って、変換は、連結、アップサンプリング、又はＮＮベースの方法を含む。

第３取得コード７５０は、少なくとも１つのプロセッサに、本開示の実施形態に従って、リシェープされた圧縮された特徴をエントロピ符号化することによって、符号化された画像を含むビットストリームを取得させるよう構成されてよい。実施形態に従って、第３取得コード７５０は、少なくとも１つのプロセッサに、エンコーダ７００によって使用しようされた変換動作を示すインジケータ（例えば、シンタックス要素）をビットストリーム内に含めさせるよう更に構成されてよい。

実施形態に従って、圧縮された特徴ブロック又はリシェープされた圧縮された特徴ブロックは夫々、正方形状又は長方形状を有する。実施形態に従って、リシェープされた圧縮された特徴ブロックは、互いに同じ形状である。実施形態に従って、リシェープされた圧縮された特徴ブロックの少なくとも２つは、互いに異なる形状を有する。実施形態に従って、リシェープされた圧縮された特徴ブロックは、互いに同じサイズである。実施形態に従って、リシェープされた圧縮された特徴の少なくとも２つは、互いに異なるサイズである。

実施形態に従って、上記の処理に対応するデコーダ側処理は、上記の説明に基づいて、当業者によって理解されるように、ピクチャを復号するための復号化コードによって実装されてよい。

例えば、図８を参照して、少なくとも１つのプロセッサはデコーダ８００を実装してよい。デコーダ８００はＮＩＣデコーダであってよい。デコーダ８００のメモリに記憶されているコンピュータプログラム命令は、例えば、受信コード８１０、復号化コード８２０、及び表示コード８７０を含んでよい。

受信コード８１０は、少なくとも１つのプロセッサに、少なくとも１つの符号化された画像を含むビットストリームを受信させるよう構成されてよい。

復号化コードは、少なくとも１つのプロセッサに、受信される少なくとも１つの符号化された画像を復号させるよう構成されてよい。実施形態に従って、復号化コード８２０は、例えば、第１取得コード８３０、第２取得コード８４０、第３取得コード８５０、及びポストエンハンスメントコード８６０を含んでもよい。

第１取得コード８３０は、少なくとも１つのプロセッサに、ビットストリームをエントロピ復号することによって、符号化された画像の圧縮解除された特徴を取得させるよう構成されてよい。実施形態に従って、圧縮解除された特徴ブロックが取得される。

第２取得コード８４０は、少なくとも１つのプロセッサに、圧縮解除された特徴を変換することによって、リシェープされた圧縮解除された特徴を取得させるよう構成されてよく、リシェープされた圧縮解除された特徴の総数は、圧縮解除された特徴の総数よりも多い。実施形態に従って、リシェープされた圧縮された特徴ブロックが取得され、圧縮解除された特徴を変換することは、圧縮解除された特徴ブロックを、圧縮解除された特徴ブロックよりも小さいリシェープされた圧縮解除された特徴ブロックに変換することを含む。実施形態に従って、変換は、圧縮解除された特徴ブロックを、リシェープされた圧縮された特徴ブロックに分割することを含む。実施形態に従って、第２取得コード８４０は、少なくとも１つのプロセッサに、ビットストリームに含まれているインジケータを取得させ、インジケータによって通知された変換に基づいて、圧縮解除された特徴を、リシェープされた圧縮解除された特徴に変換させるよう更に構成されてよい。

第３取得コード８５０は、少なくとも１つのプロセッサに、リシェープされた圧縮解除された特徴を復号することによって、再構成された画像を取得させるよう構成されてよい。実施形態に従って、リシェープされた圧縮解除された特徴は、ＮＮベースデコーダを使用することによってニューラルネットワークにより復号される。

ポストエンハンスメントコード８６０は、少なくとも１つのプロセッサに、再構成された画像に対してポストエンハンスメント実行させるよう構成されてよい。ポストエンハンスメントは、例えば、デブロッキング及び／又はノイズ低減を含んでもよい。

表示コード８７０は、少なくとも１つのプロセッサに、ポストエンハンスメントが実行された後に、再構成された画像を表示するようにディスプレイを制御させるよう構成されてよい。

実施形態に従って、圧縮解除された特徴ブロック又はリシェープされた圧縮解除された特徴ブロックは夫々、正方形状又は長方形状を有する。実施形態に従って、リシェープされた圧縮解除された特徴ブロックは、互いに同じ形状である。実施形態に従って、リシェープされた圧縮解除された特徴ブロックの少なくとも２つは、互いに異なる形状を有する。実施形態に従って、リシェープされた圧縮解除された特徴ブロックは、互いに同じサイズである。実施形態に従って、リシェープされた圧縮解除された特徴の少なくとも２つは、互いに異なるサイズである。

本開示の実施形態は、従前のＥ２Ｅ画像圧縮方法に対する改善を開示する。

例えば、本開示の実施形態は、エンコーダ側及びデコーダ側でブロックを分割及び変換する態様を含み、これは、妥当な圧縮性能でエンコーダ側の処理速度を向上させ、かつ、デコーダ側のメモリ負担を軽減する。

また、本開示の実施形態は、様々なタイプの品質メトリクスに適応する柔軟で一般的なフレームワークを提供する。

上述された本開示の実施形態の技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装され、１つ以上のコンピュータ可読媒体に物理的に記憶され得る。例えば、図９は、開示されている対象の実施形態を実装するのに適したコンピュータシステムを示す。

コンピュータソフトウェアは、コンピュータ中央演算処理装置（ＣＰＵ）、グラフィクス処理ユニット（ＧＰＵ）などによって、直接に、又は解釈、マイクロコード実行などを通じて、実行され得る命令を含むコードを生成するように、アセンブリ、コンパイル、リンキングなどのメカニズムに従い得る如何なる適切な機械コード又はコンピュータ言語によってもコーディング可能である。

命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、インターネット・オブ・シングス（Internet of Things）デバイス、などを含む様々なタイプのコンピュータ又はその構成要素で実行可能である。

コンピュータシステム９００に関して図９に示されるコンポーネントは、本質的に例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用又は機能の範囲に関して如何なる限定も示唆することを意図しない。コンポーネントの構成は、コンピュータシステム９００の例示的な実施形態において説明される構成要素のうちのいずれか１つ又は組み合わせに関して何らかの依存又は要件を有するものとして解釈されるべきではない。

コンピュータシステム９００は、特定のヒューマンインターフェース入力デバイスを含んでよい。かようなヒューマンインターフェース入力デバイスは、例えば、触覚入力（例えば、キーストローク、スワイプ、データグロープ動作）、音声入力（例えば、声、拍手）、視覚入力（例えば、ジェスチャ）、嗅覚入力（図示せず。）を通じた一人以上のユーザによる入力に反応してよい。ヒューマンインターフェースデバイスはまた、音声（例えば、発話、音楽、周囲音）、画像（例えば、スキャンされた画像、静止画カメラから取得された写真画像）、映像（例えば、二次元映像、立体視映像を含む三次元映像）などの、人による意識的な入力に必ずしも直接には関係しない特定のメディアを捕捉するためにも使用され得る。

入力ヒューマンインターフェースデバイスは、キーボード９０１、マウス９０２、トラックパッド９０３、タッチスクリーン９１０、データグローブ、ジョイスティック９０５、マイク９０６、スキャナ９０７、及びカメラ９０８（各１つしか表されていない。）のうちの１つ以上を含んでよい。

コンピュータシステム９００は、特定のヒューマンインターフェース出力デバイスも含んでよい。かようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音響、光、及び匂い／味を通じて一人以上のユーザの感覚を刺激するものであってよい。かようなヒューマンインターフェース出力デバイスは、触覚出力デバイス（例えば、タッチスクリーン９１０、データグローブ、又はジョイスティック９０５による触覚フィードバック、しかし、入力デバイスとして機能しない触覚フィードバックデバイスも存在することができる。）を含んでよい。例えば、そのようなデバイスは、音声出力デバイス（例えば、スピーカ９０９、ヘッドホン（図示せず。））、視覚出力デバイス（例えば、夫々タッチスクリーン入力機能の有無によらず、夫々触覚フィードバック機能の有無によらず、ＣＲＴスクリーン、ＬＣＤスクリーン、プラズマスクリーン、ＯＬＥＤスクリーンを含み、それらのうちのいくつかは、立体視出力、仮想現実メガネ（図示せず。）、ホログラフィックディスプレイ及びスモークタンク（図示せず。）などの手段により二次元視覚出力又は三次元よりも多い次元の出力を出力可能であり得るスクリーン９１０）、及びプリンタ（図示せず。）を含んでよい。

コンピュータシステム９００は、人がアクセス可能な記憶デバイス及びそれらの関連する媒体、例えば、ＣＤ／ＤＶＤ又は同様の媒体９２１によるＣＤ／ＤＶＤＲＯＭ／ＲＷ９２０、サムドライブ９２２、リムーバブルハードディスク又はソリッドステートドライブ９２３、レガシー磁気媒体、例えば、テープ及びフロッピー（登録商標）ディスク（図示せず。）、専用のＲＯＭ／ＡＳＩＣ／ＰＬＤベースデバイス、例えば、セキュリティドングル（図示せず。）、なども含むことができる。

当業者であれば、目下開示されている対象に関連して使用されている「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を含まないことも理解するはずである。

コンピュータシステム９００は、１つ以上の通信ネットワークへのインターフェースも含むことができる。ネットワークは、例えば、ワイヤレス、ワイヤライン、光であることができる。ネットワークは更に、ローカル、ワイドエリア、メトロポリタン、車両及び産業、実時間、遅延耐性、などであることができる。ネットワークの例には、イーサネット（登録商標）などのローカルエリアネットワーク、ワイヤレスＬＡＮ、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥなどを含むセルラーネットワーク、ケーブルＴＶ、衛星ＴＶ、及び地上放送ＴＶを含むＴＶワイヤライン又はワイヤレス広域デジタルネットワーク、ＣＡＮＢｕｓを含む車両及び産業ネットワーク、などがある。特定のネットワークは、一般に、特定の汎用デジタルポート又はペリフェラルバス９４９（例えば、コンピュータシステム９００のＵＳＢポートなど）に取り付けられた外付けネットワークインターフェースアダプタを必要とする。他は、一般に、後述されるようなシステムバスへの取り付け（例えば、ＰＣコンピュータシステムへのイーサネットネットワーク、又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース）によってコンピュータシステム９００のコアに組み込まれる。これらのネットワークのいずれかを使用して、コンピュータシステム９００は他のエンティティと通信することができる。そのような通信は、単方向の受信専用（例えば、ブロードキャストＴＶ）又は単方向の送信専用（例えば、特定のＣＡＮＢｕｓデバイスへのＣＡＮＢｕｓ）であることができ、あるいは、例えば、ローカル若しくは広域デジタルネットワークを使用して他のコンピュータシステムに対して双方向であることができる。そのような通信は、クラウドコンピューティング環境９５５への通信を含むことができる。特定のプロトコル又はプロトコルスタックが、上述されたようなネットワーク及びネットワークインターフェースの夫々で使用可能である。

上記のヒューマンインターフェースデバイス、人がアクセス可能な記憶デバイス、及びネットワークインターフェース９５４は、コンピュータシステム９００のコア９４０へ取り付けられ得る。

コア９４０は、１つ以上の中央演算処理装置（ＣＰＵ）９４１、グラフィクス処理ユニット（ＧＰＵ）９４２、フィールドプログラマブルゲートエリア（ＦＰＧＡ）９４３の形をとる専用のプログラム可能処理ユニット、特定のタスクのためのハードウェアアクセラレータ９４４、などを含むことができる。これらのデバイスは、リードオンリーメモリ（ＲＯＭ）９４５、ランダムアクセスメモリ９４６、内部のユーザアクセス不能ハードドライブなどの内蔵大容量記憶装置、ＳＳＤ、など９４７とともに、システムバス９４８を通じて接続されてよい。いくつかのコンピュータシステムでは、システムバス９４８は、追加のＣＰＵ、ＧＰＵなどによる拡張を可能にするように、１つ以上の物理プラグの形でアクセス可能であることができる。コアのシステムバス９４８へ直接に又はペリフェラルバス９４９を通じて、周辺機器が取り付けられ得る。ペリフェラルバスのためのアーキテクチャは、ＰＣＩ、ＵＳＢ、などを含む。グラフィクスアダプタ９５０がコア９４０に含まれてもよい。

ＣＰＵ９４１、ＧＰＵ９４２、ＦＰＧＡ９４３、及びアクセラレータ９４４は、組み合わせて上記のコンピュータコードを構成することができる特定の命令を実行可能である。そのコンピュータコードは、ＲＯＭ９４５又はＲＡＭ９４６に記憶され得る。一時データもＲＡＭ９４６に記憶可能であり、一方、永続性データは、例えば、内蔵大容量記憶装置９４７に記憶可能である。メモリデバイスのいずれかへの高速な格納及び読み出しは、キャッシュメモリの使用により可能にされ得る。キャッシュメモリは、１つ以上のＣＰＵ９４１、ＧＰＵ９４２、大容量記憶装置９４７、ＲＯＭ９４５、ＲＡＭ９４６などと密接に関連し得る。

コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構成されたものであることができ、あるいは、それらは、コンピュータソフトウェア技術で通常の知識を有する者によく知られており利用可能である種類のものであることができる。

例として、限定としてではなく、アーキテクチャ、具体的にはコア９４０を有するコンピュータシステム９００は、１つ以上の有形なコンピュータ可読媒体において具現されているソフトウェアを実行するプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ、などを含む。）の結果として機能を提供することができる。かようなコンピュータ可読媒体は、コア内蔵大容量記憶装置９４７又はＲＯＭ９４５などの、非一時的な性質であるコア９４０の特定の記憶装置に加えて、先に紹介されたユーザアクセス可能な大容量記憶装置に関連した媒体であることができる。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア９４０によって実行可能である。コンピュータ可読媒体には、特定のニーズに応じて、１つ以上のメモリデバイス又はチップが含まれ得る。ソフトウェアは、コア９４０、及び、具体的には、その中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡなどを含む。）に、ＲＡＭ９４６に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更することとを含め、本明細書で説明されている特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。追加的に、又は代替案として、コンピュータシステムは、本明細書で説明されている特定のプロセス又は特定のプロセスの特定の部分を実行するようにソフトウェアの代わりに又はそれとともに動作することができる、回路内でハードワイヤード又は別なふうに具現されたロジック（例えば、アクセラレータ９４４）の結果として、機能を提供することができる。ソフトウェアへの言及は、必要に応じて、ロジックを包含することができ、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶している回路（例えば、集積回路（ＩＣ））、実行のためのロジックを具現する回路、又は両方を包含することができる。本開示は、ハードウェア及びソフトウェアの如何なる適切な組み合わせも包含する。

本開示は、いくつかの非限定的な実施例について記載してきたが、本開示の範囲内にある代替、交換、及び様々な置換均等物が存在する。よって、明らかなように、当業者であれば、たとえ本明細書で明示的に図示又は説明されていないとしても、本開示の原理を具現し、よって、その精神及び範囲の中にある多数のシステム及び方法に想到可能である。

Claims

ビデオエンコーダの少なくとも１つのプロセッサによって実行される方法であって、
画像を含むビットストリームを受け取るステップと、
前記画像を複数のブロックにパーティション化するステップと、
ニューラルネットワークベースのエンコーダによって前記複数のブロックの夫々を圧縮するステップと、
前記画像において前記複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得するステップと、
前記圧縮された特徴をエントロピエンコーダによって処理して、第１の圧縮されたビットストリームを生成するステップと、
前記圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得するステップと、
前記複数のリシェープされた圧縮された特徴を前記エントロピエンコーダによって処理して、第２の圧縮されたビットストリームを生成するステップと、
前記第２の圧縮されたビットストリームに基づき、前記画像を含む前記ビットストリームを符号化するステップと
を有する方法。
前記圧縮された特徴を取得するステップは、圧縮された特徴ブロックを取得するステップを有し、
前記圧縮された特徴を連結させることは、前記圧縮された特徴ブロックを、該圧縮された特徴ブロックよりも大きいリシェープされた圧縮された特徴ブロックに連結させることを有する、
請求項１に記載の方法。
前記圧縮された特徴ブロック又は前記リシェープされた圧縮された特徴ブロックは夫々、正方形状を有する、
請求項２に記載の方法。
前記圧縮された特徴ブロック又は前記リシェープされた圧縮された特徴ブロックは夫々、長方形状を有する、
請求項２に記載の方法。
前記リシェープされた圧縮された特徴ブロックは、互いに形状が同じである、
請求項２に記載の方法。
前記リシェープされた圧縮された特徴ブロックの少なくとも２つは、互いに異なった形状を有する、
請求項２に記載の方法。
前記リシェープされた圧縮された特徴ブロックは、互いにサイズが同じである、
請求項２に記載の方法。
前記リシェープされた圧縮された特徴ブロックの少なくとも２つは、互いにサイズが異なる、
請求項２に記載の方法。
前記ビットストリームを符号化するステップは、前記圧縮された特徴が連結されたことを示すインジケータを前記符号化されたビットストリームに含めるステップを有する、
請求項１に記載の方法。
前記符号化されたビットストリームをデコーダへ送信するステップを更に有する、
請求項１に記載の方法。
コンピュータプログラムコードを記憶するよう構成される少なくとも１つのメモリと、
前記コンピュータプログラムコードにアクセスし、該コンピュータプログラムコードによって指示されるように動作するよう構成される少なくとも１つのプロセッサと
を有し、
前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに、
請求項１乃至１０のうちいずれか一項に記載の方法を実行させるよう構成される符号化コードを有する、システム。
少なくとも１つのプロセッサによって実行されるとき、該少なくとも１つのプロセッサに、
請求項１乃至１０のうちいずれか一項に記載の方法を実行させるコンピュータプログラム。
ビデオデコーダの少なくとも１つのプロセッサによって実行される方法であって、
圧縮されたビットストリームを受け取るステップと、
前記圧縮されたビットストリームをエントロピデコーダによって処理して、圧縮解除された特徴を生成するステップと、
前記圧縮解除された特徴を分割することによって、リシェープされた圧縮解除された特徴を取得するステップと、
ニューラルネットワークベースのデコーダによって前記リシェープされた圧縮解除された特徴を復号して、再構成されたブロックを取得するステップと
を有する方法。