JP2023543592A - ビデオエンコーダの少なくとも1つのプロセッサによって実行される方法、システム、及びコンピュータプログラム、並びにビデオデコーダの少なくとも1つのプロセッサによって実行される方法 - Google Patents

ビデオエンコーダの少なくとも1つのプロセッサによって実行される方法、システム、及びコンピュータプログラム、並びにビデオデコーダの少なくとも1つのプロセッサによって実行される方法 Download PDF

Info

Publication number
JP2023543592A
JP2023543592A JP2023519443A JP2023519443A JP2023543592A JP 2023543592 A JP2023543592 A JP 2023543592A JP 2023519443 A JP2023519443 A JP 2023519443A JP 2023519443 A JP2023519443 A JP 2023519443A JP 2023543592 A JP2023543592 A JP 2023543592A
Authority
JP
Japan
Prior art keywords
compressed
reshaped
features
bitstream
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023519443A
Other languages
English (en)
Inventor
リン,シェン
ジャン,ウェイ
リウ,シャン
ワン,ウェイ
Original Assignee
テンセント・アメリカ・エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・アメリカ・エルエルシー filed Critical テンセント・アメリカ・エルエルシー
Publication of JP2023543592A publication Critical patent/JP2023543592A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

ニューラル画像圧縮におけるブロックワイズのエントロピコーディング法のためのシステム及び方法が提供される。方法は、画像を含むビットストリームを受け取り、画像を複数のブロックにパーティション化し、ニューラルネットワークベースのエンコーダによって複数のブロックの夫々を圧縮し、画像において複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得し、圧縮された特徴をエントロピエンコーダによって処理して、第1の圧縮されたビットストリームを生成し、圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得し、複数のリシェープされた圧縮された特徴をエントロピエンコーダによって処理して、第2の圧縮されたビットストリームを生成し、第2の圧縮されたビットストリームに基づき、画像を含む前記ビットストリームを符号化することを含む。

Description

[関連出願への相互参照]
本願は、2012年6月18日付けで出願された米国特許仮出願第63/212469号及び2022年5月26日付けで出願された米国特許出願第17/825575の優先権を主張するものである。先願の開示は、それらの全文を参照により本願に援用される。
[分野]
本開示の実施形態は、ニューラル画像圧縮におけるブロックワイズのエントロピコーディングシステム及び方法を対象としている。
ディープニューラルネットワークベースのビデオ又は画像コーディングフレームワークでは、大量の訓練データセット及び高度な機械学習アルゴリズムを利用することによって、種々のモジュールが、最終的な目的(例えば、レート歪み損失の最小化)を改善するよう入力から出力まで一緒に最適化され得る。対照的に、従来のハイブリッドビデオコーデックは、通常、端末のモジュールを最適化することに焦点を当てており、これは、全体の性能におけるコーディングの向上をもたらさない可能性がある。従って、エンド・ツー・エンド(E2E)の最適化されたニューラル画像圧縮(NIC)が、より良いコーディング性能を達成するために全体として最適化されるよう設計される。
近年、ISO/IEC MPEG(JTC 1/SC 29/WG 11)は、将来のビデオコーデック技術の標準に対する潜在的なニーズを積極的に探求してきた。ISO/IEC JPEGは、AIベースのエンド・ツー・エンドのニューラル画像圧縮に焦点を当てたJPEG-AIグループを設立した。中国AVS標準も、ニューラル画像及びビデオ圧縮技術に取り組むためのAVS-AI特別グループを形成した。同時に、多くのテクノロジー企業も、NICのための特別な研究プロジェクトを発足させた。最近のアプローチの成功により、進歩したニューラル画像及びビデオ圧縮メソッドロジに対して産業上の関心がますます高まっている。
NICの一般的なフレームワークは次のステップとして説明される。入力画像xを考えると、NICの目標は、ディープニューラルネットワーク(DNN)エンコーダへの入力として画像を使用して、記憶及び送信のためにコンパクトである圧縮された表現を計算することである。また、その場合に、圧縮された表現は、ビットストリームを生成するよう算術コーディングのために量子化される。ビットストリームは、画像を再構成するためにDNNデコーダへの入力として使用される算術復号化に戻される。更に、ハイパープライア(hyperprior)及びコンテキストモデルが、圧縮性能を更に改善するために使用され得る。
モデルの訓練中、以下の式1で示されるように、トレードオフハイパーパラメータλを用いて、レート歪み(R-D)損失が、再構成された画像の
(外1)
と、
(外2)
のビット消費Rとの間のトレードオフを達成するよう最適化される:
ここで、xは、入力画像であり、バーxは、再構成された画像であり、ハット付きxは、圧縮された表現である。
開示の実施形態は、エンド・ツー・エンド(E2E)フレームワークでの画像圧縮のレート歪み性能を最適化するブロックワイズのエントロピコーディング方法を提供する。E2Eの最適化されたフレームワークは、エンコーダ及びデコーダの両方のために十分に事前訓練されているDNNベースの画像又はビデオコーディングフレームワークであることができる。
本開示の実施形態に従って、ビデオエンコーダの少なくとも1つのプロセッサによって実行される方法が提供される。方法は、
画像を含むビットストリームを受け取るステップと、
前記画像を複数のブロックにパーティション化するステップと、
ニューラルネットワークベースのエンコーダによって前記複数のブロックの夫々を圧縮するステップと、
前記画像において前記複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得するステップと、
前記圧縮された特徴をエントロピエンコーダによって処理して、第1の圧縮されたビットストリームを生成するステップと、
前記圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得するステップと、
前記複数のリシェープされた圧縮された特徴を前記エントロピエンコーダによって処理して、第2の圧縮されたビットストリームを生成するステップと、
前記第2の圧縮されたビットストリームに基づき、前記画像を含む前記ビットストリームを符号化するステップと
を含む。
本開示の実施形態に従って、コンピュータプログラムコードを記憶するよう構成される少なくとも1つのメモリと、前記コンピュータプログラムコードにアクセスし、該コンピュータプログラムコードによって指示されるように動作するよう構成される少なくとも1つのプロセッサとを含むシステムが提供される。前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに、
ビットストリームからの画像を複数のブロックにパーティション化するステップと、
ニューラルネットワークベースのエンコーダによって前記複数のブロックの夫々を圧縮するステップと、
前記画像において前記複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得するステップと、
前記圧縮された特徴をエントロピエンコーダによって処理して、第1の圧縮されたビットストリームを生成するステップと、
前記圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得するステップと、
前記複数のリシェープされた圧縮された特徴を前記エントロピエンコーダによって処理して、第2の圧縮されたビットストリームを生成するステップと、
前記第2の圧縮されたビットストリームに基づき、前記画像を含む前記ビットストリームを符号化するステップと
を実行させるよう構成される符号化コードを含む。
本開示の実施形態に従って、少なくとも1つのプロセッサによって実行されるとき、該少なくとも1つのプロセッサに、
画像を含むビットストリームを受け取り、
前記画像を複数のブロックにパーティション化し、
ニューラルネットワークベースのエンコーダによって前記複数のブロックの夫々を圧縮し、
前記画像において前記複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得し、
前記圧縮された特徴をエントロピエンコーダによって処理して、第1の圧縮されたビットストリームを生成し、
前記圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得し、
前記複数のリシェープされた圧縮された特徴を前記エントロピエンコーダによって処理して、第2の圧縮されたビットストリームを生成し、
前記第2の圧縮されたビットストリームに基づき、前記画像を含む前記ビットストリームを符号化する
ビデオエンコーダを実装させるよう構成されるコンピュータコードを記憶する非一時的なコンピュータ可読媒体が提供される。
開示されている対象の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになる。
実施形態に係る通信システムの略ブロック図の模式図である。 実施形態に従う通信システムの略ブロック図の模式図である。 実施形態に従うデコーダの略ブロック図の模式図である。 実施形態に従うエンコーダの略ブロック図の模式図である。 エンコーダによって実行され得る本開示の実施形態に係るNIC符号化方法を表す。 デコーダによって実行され得る本開示の実施形態に係るNIC復号化方法600を表す。 実施形態に係るコンピュータコードのブロック図である。 実施形態に係るコンピュータコードのブロック図である。 本開示の実施形態を実装するのに適したコンピュータシステムの図である。
図1は、本開示の実施形態に係る通信システム100の略ブロック図を表す。通信システム100は、ネットワーク150を介して相互接続された少なくとも2つの端末110、120を含み得る。データの1方向伝送については、第1端末110は、ネットワーク150を介した他方の端末120への伝送のために、ローカル位置でビデオデータをコーディングし得る。第2端末120は、他方の端末のコーディングされたビデオデータをネットワーク150から受信し、コーディングされたデータを復号し、回復されたビデオデータを表示し得る。1方向データ伝送は、メディアサービングアプリケーションなどで一般的であり得る。
図1は、例えばビデオ会議中に現れ得るコーディングされたビデオの双方向伝送をサポートするよう設けられた端末130、140の第2の対を表す。データの双方向伝送については、各端末デバイス130、140は、ネットワーク150を介した他方の端末への伝送のために、ローカル位置で捕捉されたビデオデータをコーディングし得る。各端末はまた、他方の端末によって送信されたコーディングされたビデオデータを受信してよく、コーディングされたビデオデータを復号してよく、そして、回復されたビデオデータをローカルの表示デバイスで表示してもよい。
図1では、端末110~140は、サーバ、パーソナルコンピュータ、及びスマートフォン、並びに/又は任意の他のタイプの端末として表され得る。例えば、端末110~140は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤー、及び/又は専用のビデオ会議装置であってよい。ネットワーク150は、例えば、ワイヤライン及び/又はワイヤレス通信ネットワークを含む、コーディングされたビデオデータを端末110~140の間で伝達する任意数のネットワークに相当する。通信ネットワーク150は、回路交換及び/又はパケット交換チャネルにおいてデータを交換してもよい。代表的なネットワークには、電気通信網、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又はインターネットがある。本議論のために、ネットワーク150のアーキテクチャ及びトポロジは、本明細書において以降で説明されない限りは、本開示の動作にとって重要でない。
図2は、開示されている対象の適用の例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を表す。開示されている対象は、例えば、ビデオ会議と、デジタルTVと、CD、DVD、メモリスティックなどを含むデジタル媒体上での圧縮されたビデオの記憶と、などを含む他のビデオ対応用途に同様に適用可能であることができる。
図2に表されるように、ストリーミングシステム200は、ビデオソース201及びエンコーダ203を含むことができる捕捉サブシステム213を含み得る。ビデオソース201は、例えばデジタルカメラであってよく、圧縮されていないビデオサンプルストリーム202を生成するよう構成され得る。圧縮されていないビデオサンプルストリーム202は、符号化されたビデオビットストリームと比較したときに高いデータボリュームを提供する可能性があり、ビデオソース201へ結合されたエンコーダ203によって処理され得る。エンコーダ203は、以下で更に詳細に記載されるように、開示されている対象の態様を可能にするか又は実装するためのハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。符号化されたビデオデータ204は、サンプルストリームと比較したときに、より低いデータボリュームを含む可能性があり、将来の使用のためにストリーミングサーバ205に記憶され得る。1つ以上のストリーミングクライアント206は、符号化されたビデオビットストリーム204のコピーであり得るビデオビットストリーム209を読み出すためにストリーミングサーバ205にアクセスすることができる。
実施形態において、ストリーミングサーバ205は、Media-Aware Network Element(MANE)としても機能してよい。例えば、ストリーミングサーバ205は、潜在的に異なるビットストリームを1つ以上のストリーミングクライアント206に合わせるために、符号化されたビデオビットストリーム204をプルーニングするよう構成されてよい。実施形態において、MANEは、ストリーミングシステム200においてストリーミングサーバ205とは別に設けられてもよい。
ストリーミングクライアント206は、ビデオデコーダ210及びディスプレイ212を含むことができる。ビデオデコーダ210は、例えば、符号化されたビデオビットストリーム204の入来するコピーであるビデオビットストリーム209を復号し、ディスプレイ212又は他のレンダリングデバイス(図示せず。)でレンダリングされ得る送出ビデオサンプルストリーム211を生成することができる。いくつかのストリーミングシステムにおいて、ビデオビットストリーム204、209は、特定のビデオコーディング/圧縮規格に従って符号化され得る。そのような規格の例には、ITU-T推奨H.265があるが限られない。開発中のビデオコーディング規格は、Versatile Video Coding(VVC)として俗に知られている。本開示の実施形態は、VVCに関連して使用されてもよい。
図3は、本開示の実施形態に従ってディスプレイ212に付随するビデオデコーダ210の例となる機能ブロック図を表す。
ビデオデコーダ210は、チャネル312、受信器310、バッファメモリ315、エントロピデコーダ/パーサ320、スケーラ/逆変換ユニット351、イントラピクチャ予測ユニット352、動き補償予測ユニット353、アグリゲータ355、ループフィルタユニット356、参照ピクチャメモリ357、及び現在ピクチャメモリを含み得る。少なくとも1つの実施形態で、ビデオデコーダ210は、集積回路、一連の集積回路、及び/又は他の電子回路を含んでよい。ビデオデコーダ210はまた、関連するメモリを備えた1つ以上のCPUで実行されるソフトウェアにおいて部分的に又は全体的に具現されてもよい。
この実施形態、及び他の実施形態において、受信器310は、ビデオデコーダ210によって復号されるべき1つ以上のコーディングされたビデオシーケンスを、一度に1つのコーディングされたビデオシーケンスずつ、受信し得る。このとき、各コーディングされたビデオシーケンスの復号化は、他のコーディングされたビデオシーケンスから独立している。コーディングされたビデオシーケンスは、チャネル312から受信されてよく、チャネル312は、符号化されたビデオデータを記憶している記憶デバイスへのハードウェア/ソフトウェアリンクであってよい。受信器310は、符号化されたビデオデータを他のデータ、例えば、コーディングされたオーディオデータ及び/又は補助的なデータストリームとともに受信してよく、それらは、それらの各々の使用エンティティ(図示せず。)へ転送されてよい。受信器310は、コーディングされたビデオシーケンスを他のデータから分離してよい。ネットワークジッタに対抗するために、バッファメモリ315が受信器310とエントロピデコーダ/パーサ320(以降「パーサ」)との間に結合されてもよい。受信器310が十分な帯域幅及び可制御性の記憶/転送デバイスから、又はアイソシンクロナス(isosynchronous)ネットワークからデータを受信しているときに、バッファメモリ315は使用されなくてもよく、あるいは、小さくてよい。インターネットなどのベストエフォートのパケットネットワークでの使用については、バッファメモリ315は必要とされる場合があり、比較的に大きく、かつ、適応サイズであることができる。
ビデオデコーダ210は、エントロピコーディングされたビデオシーケンスからシンボル321を再構成するためのパーサ320を含んでよい。それらのシンボルのカテゴリは、デコーダ210の動作を管理するために使用される情報と、潜在的に、図2に示されたようにデコーダへ結合され得るディスプレイ212などのレンダリングデバイスを制御するための情報とを含む。レンダリングデバイスのための制御情報は、Supplemental Enhancemehnt Information(SEI)メッセージ又はVideo Usability Information(VUI)パラメータセットフラグメント(図示せず。)の形をとってもよい。パーサ320は、受信されたコーディングされたビデオシーケンスをパース/エントロピ復号し得る。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術又は標準規格に従うことができ、可変長コーディング、ハフマンコーディング、文脈依存による又はよらない算術コーディング、などを含む、当業者によく知られた原理に従うことができる。パーサ320は、コーディングされたビデオシーケンスから、ビデオデコーダにおけるピクセルのサブグループのうちの少なくとも1つについてのサブグループパラメータの組を、そのグループに対応する少なくとも1つのパラメータに基づいて抽出し得る。サブグループは、グループ・オブ・ピクチャ(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)、などを含むことができる。パーサ320はまた、コーディングされたビデオシーケンス情報から、変換係数、量子化パラメータ値、動きベクトル、などの情報も抽出し得る。
パーサ320は、シンボル321を生成するために、バッファメモリ315から受信されたビデオシーケンスに対してエントロピ復号化/パーシング動作を実行し得る。
シンボル321の再構成は、コーディングされたビデオピクチャ又はその部分(例えば、インター及びイントラピクチャ、インター及びイントラブロック)のタイプ及び他の因子に応じて多数の異なるユニットを有することができる。どのユニットが含まれるか、及びどのようにそれらが含まれるかは、コーディングされたビデオシーケンスからパーサ320によってパースされたサブグループ制御情報によって制御され得る。パーサ320と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明りょうさのために表されていない。
既に述べられた機能ブロックを超えて、デコーダ210は、概念的に、以下で説明される多数の機能ユニットに細分され得る。商業上の制約の下で動作する実際の実施では、それらのユニットの多くが互いに密に相互作用し、少なくとも部分的に互いに組み込まれ得る。しかし、開示されている対象を説明することを目的として、以下の機能ユニットへの概念的細分は適切である。
1つのユニットは、スケーラ/逆変換ユニット351であってよい。スケーラ/逆変換ユニット351は、パーサ320からシンボル321として、量子化された変換係数とともに、どの変換を使用すべきか、ブロックサイズ、量子化係数、量子化スケーリングマトリクスなどを含む制御情報を受信し得る。スケーラ/逆変換ユニット351は、アグリゲータ355へ入力することができるサンプル値を含むブロックを出力することができる。
いくつかの場合に、スケーラ/逆変換器351の出力サンプルは、イントラコーディングされたブロック、すなわち、前に再構成されたピクチャからの予測情報を使用しておらず、現在ピクチャの前に再構成された部分からの予測情報を使用することができるブロック、に関係することができる。かような予測情報は、イントラピクチャ予測ユニット3552によって供給され得る。いくつかの場合に、イントラピクチャ予測ユニット352は、現在ピクチャメモリ358からの現在(部分的に再構成された)ピクチャからフェッチされた周囲の既に再構成された情報を用いて、再構成中のブロックと同じサイズ及び形状のブロックを生成する。アグリゲータ355は、いくつかの場合に、サンプルごとに、イントラ予測ユニット352が生成した予測情報を、スケーラ/逆変換ユニット351によって供給される出力サンプル情報に加える。
他の場合では、スケーラ/逆変換ユニット351の出力サンプルは、インターコーディングされた、そして潜在的に、動き補償されたブロックに関係することができる。かような場合に、動き補償予測ユニット353は、予測のために使用されるサンプルをフェッチするよう参照ピクチャメモリ357にアクセスすることができる。ブロックに関係するシンボル321に従って、フェッチされたサンプルを動き補償した後に、それらのサンプルは、出力サンプル情報を生成するために、アグリゲータ355によって、スケーラ/逆変換ユニット351の出力(この場合に、残差サンプル又は残差信号と呼ばれる。)に加えられ得る。動き補償予測ユニット353が予測サンプルをフェッチする参照ピクチャメモリ357内のアドレスは、動きベクトルによって制御可能である。動きベクトルは、例えば、X、Y及び参照ピクチャコンポーネントを有することができるシンボル321の形で動き補償予測ユニット353に利用可能であり得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ357からフェッチされるサンプル値の補間や、動きベクトル予測メカニズムなどを含むこともできる。
アグリゲータ355の出力サンプルは、ループフィルタユニット356において様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、インループフィルタ技術を含むことができる。この技術は、コーディングされたビデオビットストリームに含まれており、パーサ320からのシンボル321としてループフィルタユニット356に利用可能にされたパラメータによって制御されるが、コーディングされたピクチャ又はコーディングされたビデオシーケンスの(復号化順序において)前の部分の復号化中に得られたメタ情報にも応答することができ、更には、前に構成されたループフィルタ処理されたサンプル値に応答することもできる。
ループフィルタユニット356の出力は、ディスプレイ212などのレンダーデバイスへ出力され、更には、将来のインターピクチャ予測における使用のために参照ピクチャメモリ357に記憶され得るサンプルストリームであることができる。
特定のコーディングされたピクチャは、完全に再構成されると、将来の予測のための参照ピクチャとして使用され得る。コーディングされたピクチャが完全に再構成され、コーディングされたピクチャが(例えば、パーサ320によって)参照ピクチャとして識別されると、現在の参照ピクチャは、参照ピクチャメモリ357の部分になることができ、未使用の現在ピクチャメモリは、後続のコーディングされたピクチャの再構成を開始する前に再割り当てされ得る。
ビデオデコーダ210は、ITU-T推奨H.265などの標準規格で文書化され得る所定のビデオ圧縮技術に従って、復号化動作を実行してよい。コーディングされたビデオシーケンスは、それが、ビデオ圧縮技術文書又は規格で、特にその中のプロファイル文書で指定されるように、ビデオ圧縮技術又は規格に従うという意味で、使用中のビデオ圧縮技術又は規格によって規定されたシンタックスに従い得る。また、いくつかのビデオ圧縮技術又は規格への準拠のために、コーディングされたビデオシーケンスの複雑さは、ビデオ圧縮技術又は規格のレベルによって定義された境界内にあり得る。いくつかの場合に、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば、メガサンプル/秒で測定される。)、最大参照ピクチャサイズ、などを制限する。レベルによって設定された制限は、いくつかの場合に、Hypothetical Reference Decoder(HRD)仕様と、コーディングされたビデオシーケンスにおいて通知されるHRDバッファ管理のためのメタデータとを通じて、更に制限可能である。
実施形態において、受信器310は、符号化されたビデオとともに、追加の(冗長な)データを受信してもよい。追加のデータは、コーディングされたビデオシーケンスの部分として含まれてもよい。追加のデータは、ビデオデコーダ210によって、データを適切に復号するために及び/又は原ビデオデータをより正確に再構成するために使用されてよい。追加のデータは、例えば、時間、空間、又は信号対雑音比(SNR)エンハンスメントレイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号、などの形をとることができる。
図4は、本開示の実施形態に係る、ビデオソース201に関連したビデオエンコーダ203の例となる機能ブロック図を表す。
ビデオエンコーダ203は、例えば、ソースコーダ430であるエンコーダと、コーディングエンジン432と、(ローカル)デコーダ433と、参照ピクチャメモリ434と、予測器435と、送信器440と、エントロピコーダ445と、コントローラ450と、チャネル460とを含み得る。
エンコーダ203は、エンコーダ203によってコーディングされるべきビデオ画像を捕捉し得るビデオソース201(エンコーダの部分ではない。)からビデオサンプルを受信してよい。
ビデオソース201は、任意の適切なビットデプス(例えば、8ビット、10ビット、12ビットなど)、任意の色空間(例えば、BT.601 YCrCB、RGBなど)、及び任意の適切なサンプリング構造(例えば、YCrCb 4:2:0、YCrCb 4:4:4)であることができるデジタルビデオサンプルストリームの形で、エンコーダ203によってコーディングされるべきソースビデオシーケンスを供給してよい。メディアサービングシステムでは、ビデオソース201は、前もって準備されたビデオを記憶している記憶デバイスであってよい。ビデオ会議システムでは、ビデオソース201は、ローカル画像情報をビデオシーケンスとして捕捉するカメラであってよい。ビデオデータは、順に見られる場合に動きを授ける複数の個別ピクチャとして供給されてもよい。ピクチャ自体は、ピクセルの空間アレイとして編成されてよく、各ピクセルは、使用中のサンプリング構造、色空間、などに依存する1つ以上のサンプルを有することができる。当業者であれば、ピクセルとサンプルとの間の関係を容易に理解することができる。本明細書は、以下、サンプルに焦点を当てる。
実施形態に従って、エンコーダ203は、実時間において、又は用途によって必要とされる任意の他の時間制約の下で、ソースビデオシーケンスのピクチャを、コーディングされたビデオシーケンス443へとコーディング及び圧縮してよい。適切なコーディング速度を強いることは、コントローラ450の一機能である。コントローラ450はまた、以下で記載されるような他の機能ユニットも制御し、それらのユニットへ機能的に結合されてもよい。結合は明りょうさのために表されていない。コントローラ450によってセットされるパラメータには、レート制御に関連したパラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、など)、ピクチャサイズ、グループ・オブ・ピクチャ(GOP)レイアウト、最大動きベクトル探索範囲、などが含まれ得る。当業者であれば、コントローラ450の他の機能を、それらが特定のシステム設計のために最適化されたビデオエンコーダ203に関係し得るということで、容易に識別することができる。
いくつかのビデオエンコーダは、当業者が「コーディングループ」と容易に認識するものにおいて動作する。過度に単純化された記載として、例において、コーディングループは、ソースコーダ430の符号化部(コーディングされるべき入力ピクチャと、参照ピクチャとに基づいて、シンボルを生成することに関与する。)と、ビデオエンコーダ203に埋め込まれた(ローカル)デコーダ433とから成ることができる。デコーダ433は、シンボルとコーディングされたビデオストリームとの間の圧縮が特定のビデオ圧縮技術において可逆である場合に(遠隔の)デコーダも生成することになるサンプルデータを生成するように、シンボルを再構成する。その再構成されたサンプルストリームは、参照ピクチャメモリ434へ入力される。シンボルストリームの復号化は、デコーダの場所(ローカル又は遠隔)に依存しないビットパーフェクト(bit-exact)な結果をもたらすので、参照ピクチャメモリ内のコンテンツも、ローカルのエンコーダと遠隔のエンコーダとの間でビットパーフェクトである。すなわち、エンコーダの予測部分は、デコーダが復号化中に予測を使用するときに“見る”ことになるのとまさに同じサンプル値を参照ピクチャサンプルとして“見る”。参照ピクチャのシンクロニシティ(及び、例えば、チャネルエラーのために、シンクロニシティが維持され得ない場合に、結果として生じるドリフト)のこの基本原理は、当業者に知られている。
“ローカル”のデコーダ433の動作は、図3とともに詳細に既に上述されている“遠隔”のデコーダ210と同じであることができる。ただし、シンボルが利用可能であり、エントロピコーダ445及びパーサ320によるコーディングされたビデオシーケンスへのシンボルの符号化/復号化が可逆であることができるということで、チャネル312、受信器310、バッファメモリ315及びパーサ320を含むデコーダ210のエントロピ復号化部分は、ローカルのデコーダ433において完全には実装されなくてもよい。
この時点で観測され得ることは、デコーダに存在するパーシング/エントロピ復号化を除く如何なるデコーダ技術も、対応するエンコーダにおいて略同じ機能形態で存在する必要があり得る点である。この理由により、開示されている対象は、デコーダの動作に焦点を当てる。エンコーダ技術の説明は、それらが、包括的に記載されるデコーダ技術の逆であってよいということで、省略可能である。特定の範囲においてのみ、より詳細な説明が必要とされ、以下で与えられている。
その動作の部分として、ソースコーダ430は、動き補償された予測コーディングを実行してよい。これは、「参照フレーム」として指定された、ビデオシーケンスからの1つ以上の前にコーディングされたフレームを参照して、予測的に入力フレームをコーディングする。このようにして、コーディングエンジン432は、入力フレームに対する予測参照として選択され得る参照フレームのピクセルブロックと入力フレームのピクセルブロックとの間の差をコーディングする。
ローカルのデコーダ433は、ソースコーダ430によって生成されたシンボルに基づいて、参照フレームとして指定され得るフレームのコーディングされたビデオデータを復号し得る。コーディングエンジン432の動作は、有利なことに、不可逆プロセスであってよい。コーディングされたビデオデータがビデオデコーダ(図4には図示せず。)で復号され得るとき、再構成されたビデオシーケンスは、通常は、いくらかのエラーを伴ったソースビデオシーケンスの複製であり得る。ローカルのデコーダ433は、参照フレームに対してビデオデコーダによって実行され得る復号化プロセスを再現し、再構成された参照フレームを参照ピクチャメモリ434に格納されるようにしてよい。このように、エンコーダ403は、(伝送エラーなしで)遠端のビデオデコーダによって取得されることになる再構成された参照フレームと共通の内容を有している再構成された参照フレームのコピーをローカルで記憶し得る。
予測器435は、コーディングエンジン432のための予測探索を実行してよい。すなわち、新しいフレームがコーディングされるために、予測器435は、その新しいフレームのための適切な予測基準となり得る参照ピクチャ動きベクトル、ブロック形状、などの特定のメタデータ又は(候補参照ピクセルブロックとしての)サンプルデータを参照ピクチャメモリ434から探し得る。予測器435は、適切な予測基準を見つけるためにサンプルブロック・バイ・ピクセルブロックベース(sample block-by-pixel block basis)で動作してよい。いくつかの場合に、予測器435によって取得された探索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ434に記憶されている複数の参照ピクチャから引き出された予測基準を有してもよい。
コントローラ450は、例えば、ビデオデータを符号化するために使用されるパラメータ及びサブグループパラメータの設定を含め、ソースコーダ430のコーディング動作を管理してよい。
上記の全ての機能ユニットの出力は、エントロピコーダ445においてエントロピコーディングを受けてよい。エントロピコーダは、ハフマンコーディング、可変長コーディング、算術コーディングなどの、当業者に知られている技術に従って、シンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルを、コーディングされたビデオシーケンスへと変換する。
送信器440は、エントロピコーダ445によって生成されたコーディングされたビデオシーケンスを、通信チャネル460を介した伝送のために準備するようにバッファリングしてよい。通信チャネル460は、符号化されたビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクであってよい。送信器440は、ソースコーダ430からのコーディングされたビデオデータを、送信されるべき他のデータ、例えば、コーディングされたオーディオデータ及び/又は補助的なデータストリーム(ソースは図示せず。)とマージしてもよい。
コントローラ450は、エンコーダ203の動作を管理してよい。コーディング中、コントローラ450は、各々のピクチャに適用され得るコーディング技術に影響を及ぼす可能性がある特定のコーディングされたピクチャタイプを夫々のコーディングされたピクチャに割り当ててよい。例えば、ピクチャはしばしば、イントラピクチャ(Iピクチャ)、予測ピクチャ(Pピクチャ)、又は双方向予測ピクチャ(Bピクチャ)として割り当てられてよい。
イントラピクチャ(Intra Picture)(Iピクチャ)は、予測のソースとしてシーケンス内の如何なる他のピクチャも使用せずにコーディング及び復号され得るピクチャであってよい。いくつかのビデオコーデックは、例えば、独立デコーダリフレッシュ(Independent Decoder Refresh,IDR)ピクチャを含む種々のタイプのイントラピクチャを許容する。当業者であれば、Iピクチャのそのような変形並びにそれらの各々の応用及び特徴を知っている。
予測ピクチャ(Predictive Picture)(Pピクチャ)は、各ブロックのサンプル値を予測するために多くても1つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測によりコーディング及び復号され得るピクチャであってよい。
双方向予測ピクチャ(Bi-directionally Predictive Picture)(Bピクチャ)は、各ブロックのサンプル値を予測するために多くても2つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測によりコーディング及び復号され得るピクチャであってよい。同様に、多重予測ピクチャ(multiple-predictive picture(s))は、単一のブロックの再構成のために2つよりも多い参照ピクチャ及び関連するメタデータを使用することができる。
ソースピクチャは、一般に、複数のサンプルブロック(例えば、夫々、4×4、8×8、4×8、又は16×16のサンプルのブロック)に空間的に細分され、ブロックごとにコーディングされてよい。ブロックは、ブロックの各々のピクチャに適用されているコーディング割り当てによって決定される他の(既にコーディングされた)ブロックを参照して予測的にコーディングされてよい。例えば、Iピクチャのブロックは、非予測的にコーディングされてよく、あるいは、それらは、同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされてもよい(空間予測又はイントラ予測)。Pピクチャのピクセルブロックは、非予測的に、空間予測により、又は時間予測により1つの前にコーディングされた参照ピクチャを参照して、コーディングされてよい。Bピクチャのブロックは、非予測的に、空間予測により、又は時間予測により1つ又は2つの前にコーディングされた参照ピクチャを参照して、コーディングされてよい。
ビデオエンコーダ203は、ITU-T推奨H.265のような所定のビデオコーディング技術又は規格に従ってコーディング動作を実行してよい。その動作中に、ビデオエンコーダ203は、入力ビデオシーケンスにおける時間及び空間冗長性を利用する予測コーディング動作を含む様々な圧縮動作を実行してよい。従って、コーディングされたビデオデータは、使用されているビデオコーディング技術又は規格によって定められているシンタックスに従い得る。
実施形態において、送信器440は、符号化されたビデオとともに追加のデータを送信してもよい。ソースコーダ430は、コーディングされたビデオシーケンスの部分としてそのようなデータを含めてよい。追加のデータは、時間/空間/SNRエンハンスメントレイヤ、冗長ピクチャ及びスライスなどの他の形式の冗長データ、Supplementary Enhancement Information(SEI)メッセージ、又はVisual Usability Information(VUI)パラメータセットフラグメント、などを有してよい。
本開示の実施形態に従って、コーディング効率を改善するためのNICにおけるブロックワイズのエントロピコーディング方法が提供される。
例えば、図5及び図6を参照して、本開示の例示的な方法が以下で説明される。
図5は、本開示のエンコーダによって実行され得る本開示の実施形態に係るNIC符号化方法を表す。
図5を参照して、圧縮される各入力画像510のうち、入力画像510は、より小さいブロック520_1、520_2、・・・、520_nにパーティション化され得る。例えば、入力画像510は、図5に示されるように8つのブロック520_1、520_2、・・・、520_nに分割されてよい。ハードウェアにはメモリ制限があり得るので、並列処理のために高解像度画像を小さいブロックに分けることは理にかなっている。
ブロック520_1、520_2、・・・、520_nの夫々は、圧縮された特徴540_1、540_2、・・・、540_nを取得するためにNNベースエンコーダ530によって圧縮され得る。例えば、ブロック520_1、520_2、・・・、520_nは夫々、圧縮された特徴540_1、540_2、・・・、540_nを取得するよう圧縮されてよい。図5に示されるように、ブロック520_1、520_2、・・・、520_nは、8つの圧縮された特徴540_1、540_2、・・・、540_nが8つのブロック520_1、520_2、・・・、520_nに夫々対応するように、NNベースエンコーダ530によって処理される。実施形態に従って、圧縮された特徴540_1、540_2、・・・、540_nは、圧縮された特徴ブロックであってよい。
夫々の圧縮された特徴540_1、540_2、・・・、540_nは、圧縮されたビットストリーム570を生成するようエントロピエンコーダ560によって圧縮され得る。本開示の実施形態に従って、エントロピ符号化の前に、圧縮された特徴540_1、540_2、・・・、540_nの全部又は一部は、リシェープされた圧縮された特徴550_1、550_2、・・・、550_mを得るよう変換(例えば、連結)され得る。ここで、「m」は「n」よりも小さくてよい。すなわち、リシェープされた圧縮された特徴550_1、550_2、・・・、550_mの総数は、圧縮された特徴540_1、540_2、・・・、540_nの総数よりも少なくなる。図5に示されるように、エントロピコーダのより良い圧縮性能を達成するために、8つの圧縮された特徴540_1、540_2、・・・、540_nは、4つのリシェープされた圧縮された特徴550_1、550_2、・・・、550_mに変換される。実施形態に従って、変換は、連結、アップサンプリング、又はNNベースの方法であることができる。実施形態に従って、リシェープされた圧縮された特徴550_1、550_2、・・・、550_mは、リシェープされた圧縮された特徴ブロックであってよい。実施形態に従って、リシェープされた圧縮された特徴ブロックは、それらが取得された圧縮された特徴ブロックよりも大きいサイズを有してもよい。
変換に続いて、リシェープされた圧縮された特徴550_1、550_2、・・・、550_mは、圧縮されたビットストリーム570を生成するようエントロピエンコーダ560によって処理されてよい。圧縮されたビットストリーム570は、例えば、デコーダへ送信されてよい。
図6は、本開示のデコーダによって実行され得る本開示の実施形態に係るNIC復号化方法600を表す。
図6を参照して、圧縮されたビットストリーム570は、圧縮解除された特徴620_1、620_2、・・・、620_mを生成するようエントロピデコーダによって処理される。実施形態に従って、圧縮解除された特徴620_1、620_2、・・・、620_mは、圧縮解除された特徴ブロックであってよい。
圧縮解除された特徴620_1、620_2、・・・、620_mは、リシェープされた圧縮解除された特徴630_1、630_2、・・・、630_nに変換(例えば、分割)され得る。なお、「n」は「m」よりも大きい。すなわち、圧縮解除された特徴620_1、620_2、・・・、620_mの総数は、リシェープされた圧縮解除された特徴630_1、630_2、・・・、630_nの総数よりも少なくなる。実施形態に従って、リシェープされた圧縮解除された特徴630_1、630_2、・・・、630_nは、リシェープされた圧縮解除された特徴ブロックであってよい。実施形態に従って、リシェープされた圧縮解除された特徴ブロックは、それらが取得された圧縮解除された特徴ブロックよりも小さいサイズを有してもよい。
実施形態に従って、圧縮解除された特徴620_1、620_2、・・・、620_mの総数は、リシェープされた圧縮された特徴550_1、550_2、・・・、550_mの総数と同じであってよく、リシェープされた圧縮解除された特徴630_1、630_2、・・・、630_nの総数は、圧縮された特徴540_1、540_2、・・・、540_nの総数と同じであってよい。しかし、実施形態はそのように制限されず、総数は、例えば、図5~6に示されるように、異なってもよい。例えば、非限定的な実施例として、8つの圧縮された特徴540_1、540_2、・・・、540_n、4つのリシェープされた圧縮された特徴550_1、550_2、・・・、550_m、8つの圧縮解除された特徴620_1、620_2、・・・、620_m、及び16個のリシェープされた圧縮解除された特徴630_1、630_2、・・・、630_nが存在してもよい。
リシェープされた圧縮解除された特徴630_1、630_2、・・・、630_nを取得した後、リシェープされた圧縮解除された特徴630_1、630_2、・・・、630_nは、再構成されたブロック650を取得するようNNベースデコーダ640によって復号され得る。実施形態に従って、再構成されたブロック650は、再構成されたピクチャであってもよい。再構成されたピクチャは全体として、再構成されたピクチャの視覚品質を改善するようポストエンハンスメント660によって更に処理されてもよい。例えば、ポストエンハンスメント660は、デブロッキング及び/又はノイズ低減を含んでもよい。実施形態に従って、再構成されたピクチャは、次いで、ディスプレイに表示されてもよい。
従来のNICフレームワークでは、NNベースのエントロピコーダは、圧縮された特徴の単一ブロックしか一度に符号化せず、エントロピモデルのスケール及び分散は、ブロックごとにしか評価されない。本開示の実施形態によれば、複数のブロックがNNベースエンコーダによって処理され、次いで、エントロピコーディングのために結合される。
本開示の一実施形態で、本開示のNNベースエンコーダ及びNNベースデコーダによって利用されるモデルの訓練中、エンコーダ及びデコーダは一緒に又は別々に訓練され得る。圧縮された特徴とリシェープされた特徴との間の変換動作も、ビットストリームに追加可能であり、この情報は、復号化処理を実行するデコーダへの信号として扱われ得る。例えば、本開示の実施形態に従って、図5に表される符号化処理を実行するエンコーダは、符号化されたビットストリーム内で、エンコーダによって使用された変換動作のインジケータ(例えば、シンタックス要素)を、図6に表される復号化処理を実行するデコーダへ送信してよい。デコーダは、インジケータを取得し、インジケータによって通知された変換に基づいて、圧縮解除された特徴を、リシェープされた圧縮解除された特徴に変換し得る。例えば、デコーダは、エンコーダによって使用された変換に対応する逆変換を使用し得る。
圧縮された特徴ブロック、リシェープされた圧縮された特徴ブロック、圧縮解除された特徴ブロック、及び/又はリシェープされた圧縮解除された特徴ブロックの形状は、正方形又は長方形であることができる。一種類のブロック(例えば、圧縮された特徴ブロック又は圧縮解除された特徴ブロック)の中の各ブロックは、互いに同じ形状及び/又はサイズであることができ、あるいは、その一種類のブロックの中の少なくとも1つの他のブロックとは異なった形状及び/又はサイズを有してもよい。実施形態に従って、一種類のブロック(例えば、圧縮された特徴ブロック又は圧縮解除された特徴ブロック)は、異なるサイズに変換(例えば、分割又は結合)されてもよい。
実施形態に従って、少なくとも1つのプロセッサと、コンピュータプログラム命令を記憶しているメモリとが設けられてもよい。コンピュータプログラム命令は、少なくとも1つのプロセッサによって実行されると、エンコーダ又はデコーダを実装してよく、本開示で記載されている任意数の機能を実行してよい。例えば、図7を参照して、少なくとも1つのプロセッサはエンコーダ700を実装し得る。エンコーダ700はNICエンコーダであってよい。コンピュータプログラム命令は、例えば、少なくとも1つのプロセッサに、受信される少なくとも1つのピクチャをコーディングさせるよう構成される符号化コード710と、少なくとも1つのプロセッサに、少なくとも1つのピクチャをコーディングすることで得られたビットストリームを、例えばデコーダへ送信させるよう構成される送信コード760とを含んでよい。符号化コード710は、例えば、分割コード720、第1取得コード730、第2取得コード740、及び第3取得コード750を含んでよい。
分割コード720は、少なくとも1つのプロセッサに、本開示の実施形態に従って、画像を複数のブロックに分割させるよう構成されてよい。
第1取得コード730は、少なくとも1つのプロセッサに、本開示の実施形態に従って、複数のブロックを符号化することによって、圧縮された特徴を取得させるよう構成されてよい。実施形態に従って、圧縮された特徴ブロックが取得される。実施形態に従って、複数のブロックは、NNベースエンコーダ530を使用することによってニューラルネットワークを用いて符号化される。
第2取得コード740は、少なくとも1つのプロセッサに、本開示の実施形態に従って、圧縮された特徴を変換することによって、リシェープされた圧縮された特徴を取得させるよう構成されてよく、リシェープされた圧縮された特徴の総数は、圧縮された特徴の総数よりも少ない。実施形態に従って、リシェープされた圧縮された特徴ブロックが取得され、圧縮された特徴を変換することは、圧縮された特徴ブロックを、圧縮された特徴ブロックよりも大きいリシェープされた圧縮された特徴ブロックに変換することを含む。実施形態に従って、変換は、連結、アップサンプリング、又はNNベースの方法を含む。
第3取得コード750は、少なくとも1つのプロセッサに、本開示の実施形態に従って、リシェープされた圧縮された特徴をエントロピ符号化することによって、符号化された画像を含むビットストリームを取得させるよう構成されてよい。実施形態に従って、第3取得コード750は、少なくとも1つのプロセッサに、エンコーダ700によって使用しようされた変換動作を示すインジケータ(例えば、シンタックス要素)をビットストリーム内に含めさせるよう更に構成されてよい。
実施形態に従って、圧縮された特徴ブロック又はリシェープされた圧縮された特徴ブロックは夫々、正方形状又は長方形状を有する。実施形態に従って、リシェープされた圧縮された特徴ブロックは、互いに同じ形状である。実施形態に従って、リシェープされた圧縮された特徴ブロックの少なくとも2つは、互いに異なる形状を有する。実施形態に従って、リシェープされた圧縮された特徴ブロックは、互いに同じサイズである。実施形態に従って、リシェープされた圧縮された特徴の少なくとも2つは、互いに異なるサイズである。
実施形態に従って、上記の処理に対応するデコーダ側処理は、上記の説明に基づいて、当業者によって理解されるように、ピクチャを復号するための復号化コードによって実装されてよい。
例えば、図8を参照して、少なくとも1つのプロセッサはデコーダ800を実装してよい。デコーダ800はNICデコーダであってよい。デコーダ800のメモリに記憶されているコンピュータプログラム命令は、例えば、受信コード810、復号化コード820、及び表示コード870を含んでよい。
受信コード810は、少なくとも1つのプロセッサに、少なくとも1つの符号化された画像を含むビットストリームを受信させるよう構成されてよい。
復号化コードは、少なくとも1つのプロセッサに、受信される少なくとも1つの符号化された画像を復号させるよう構成されてよい。実施形態に従って、復号化コード820は、例えば、第1取得コード830、第2取得コード840、第3取得コード850、及びポストエンハンスメントコード860を含んでもよい。
第1取得コード830は、少なくとも1つのプロセッサに、ビットストリームをエントロピ復号することによって、符号化された画像の圧縮解除された特徴を取得させるよう構成されてよい。実施形態に従って、圧縮解除された特徴ブロックが取得される。
第2取得コード840は、少なくとも1つのプロセッサに、圧縮解除された特徴を変換することによって、リシェープされた圧縮解除された特徴を取得させるよう構成されてよく、リシェープされた圧縮解除された特徴の総数は、圧縮解除された特徴の総数よりも多い。実施形態に従って、リシェープされた圧縮された特徴ブロックが取得され、圧縮解除された特徴を変換することは、圧縮解除された特徴ブロックを、圧縮解除された特徴ブロックよりも小さいリシェープされた圧縮解除された特徴ブロックに変換することを含む。実施形態に従って、変換は、圧縮解除された特徴ブロックを、リシェープされた圧縮された特徴ブロックに分割することを含む。実施形態に従って、第2取得コード840は、少なくとも1つのプロセッサに、ビットストリームに含まれているインジケータを取得させ、インジケータによって通知された変換に基づいて、圧縮解除された特徴を、リシェープされた圧縮解除された特徴に変換させるよう更に構成されてよい。
第3取得コード850は、少なくとも1つのプロセッサに、リシェープされた圧縮解除された特徴を復号することによって、再構成された画像を取得させるよう構成されてよい。実施形態に従って、リシェープされた圧縮解除された特徴は、NNベースデコーダを使用することによってニューラルネットワークにより復号される。
ポストエンハンスメントコード860は、少なくとも1つのプロセッサに、再構成された画像に対してポストエンハンスメント実行させるよう構成されてよい。ポストエンハンスメントは、例えば、デブロッキング及び/又はノイズ低減を含んでもよい。
表示コード870は、少なくとも1つのプロセッサに、ポストエンハンスメントが実行された後に、再構成された画像を表示するようにディスプレイを制御させるよう構成されてよい。
実施形態に従って、圧縮解除された特徴ブロック又はリシェープされた圧縮解除された特徴ブロックは夫々、正方形状又は長方形状を有する。実施形態に従って、リシェープされた圧縮解除された特徴ブロックは、互いに同じ形状である。実施形態に従って、リシェープされた圧縮解除された特徴ブロックの少なくとも2つは、互いに異なる形状を有する。実施形態に従って、リシェープされた圧縮解除された特徴ブロックは、互いに同じサイズである。実施形態に従って、リシェープされた圧縮解除された特徴の少なくとも2つは、互いに異なるサイズである。
本開示の実施形態は、従前のE2E画像圧縮方法に対する改善を開示する。
例えば、本開示の実施形態は、エンコーダ側及びデコーダ側でブロックを分割及び変換する態様を含み、これは、妥当な圧縮性能でエンコーダ側の処理速度を向上させ、かつ、デコーダ側のメモリ負担を軽減する。
また、本開示の実施形態は、様々なタイプの品質メトリクスに適応する柔軟で一般的なフレームワークを提供する。
上述された本開示の実施形態の技術は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装され、1つ以上のコンピュータ可読媒体に物理的に記憶され得る。例えば、図9は、開示されている対象の実施形態を実装するのに適したコンピュータシステムを示す。
コンピュータソフトウェアは、コンピュータ中央演算処理装置(CPU)、グラフィクス処理ユニット(GPU)などによって、直接に、又は解釈、マイクロコード実行などを通じて、実行され得る命令を含むコードを生成するように、アセンブリ、コンパイル、リンキングなどのメカニズムに従い得る如何なる適切な機械コード又はコンピュータ言語によってもコーディング可能である。
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、インターネット・オブ・シングス(Internet of Things)デバイス、などを含む様々なタイプのコンピュータ又はその構成要素で実行可能である。
コンピュータシステム900に関して図9に示されるコンポーネントは、本質的に例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用又は機能の範囲に関して如何なる限定も示唆することを意図しない。コンポーネントの構成は、コンピュータシステム900の例示的な実施形態において説明される構成要素のうちのいずれか1つ又は組み合わせに関して何らかの依存又は要件を有するものとして解釈されるべきではない。
コンピュータシステム900は、特定のヒューマンインターフェース入力デバイスを含んでよい。かようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(例えば、キーストローク、スワイプ、データグロープ動作)、音声入力(例えば、声、拍手)、視覚入力(例えば、ジェスチャ)、嗅覚入力(図示せず。)を通じた一人以上のユーザによる入力に反応してよい。ヒューマンインターフェースデバイスはまた、音声(例えば、発話、音楽、周囲音)、画像(例えば、スキャンされた画像、静止画カメラから取得された写真画像)、映像(例えば、二次元映像、立体視映像を含む三次元映像)などの、人による意識的な入力に必ずしも直接には関係しない特定のメディアを捕捉するためにも使用され得る。
入力ヒューマンインターフェースデバイスは、キーボード901、マウス902、トラックパッド903、タッチスクリーン910、データグローブ、ジョイスティック905、マイク906、スキャナ907、及びカメラ908(各1つしか表されていない。)のうちの1つ以上を含んでよい。
コンピュータシステム900は、特定のヒューマンインターフェース出力デバイスも含んでよい。かようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音響、光、及び匂い/味を通じて一人以上のユーザの感覚を刺激するものであってよい。かようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン910、データグローブ、又はジョイスティック905による触覚フィードバック、しかし、入力デバイスとして機能しない触覚フィードバックデバイスも存在することができる。)を含んでよい。例えば、そのようなデバイスは、音声出力デバイス(例えば、スピーカ909、ヘッドホン(図示せず。))、視覚出力デバイス(例えば、夫々タッチスクリーン入力機能の有無によらず、夫々触覚フィードバック機能の有無によらず、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含み、それらのうちのいくつかは、立体視出力、仮想現実メガネ(図示せず。)、ホログラフィックディスプレイ及びスモークタンク(図示せず。)などの手段により二次元視覚出力又は三次元よりも多い次元の出力を出力可能であり得るスクリーン910)、及びプリンタ(図示せず。)を含んでよい。
コンピュータシステム900は、人がアクセス可能な記憶デバイス及びそれらの関連する媒体、例えば、CD/DVD又は同様の媒体921によるCD/DVD ROM/RW920、サムドライブ922、リムーバブルハードディスク又はソリッドステートドライブ923、レガシー磁気媒体、例えば、テープ及びフロッピー(登録商標)ディスク(図示せず。)、専用のROM/ASIC/PLDベースデバイス、例えば、セキュリティドングル(図示せず。)、なども含むことができる。
当業者であれば、目下開示されている対象に関連して使用されている「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を含まないことも理解するはずである。
コンピュータシステム900は、1つ以上の通信ネットワークへのインターフェースも含むことができる。ネットワークは、例えば、ワイヤレス、ワイヤライン、光であることができる。ネットワークは更に、ローカル、ワイドエリア、メトロポリタン、車両及び産業、実時間、遅延耐性、などであることができる。ネットワークの例には、イーサネット(登録商標)などのローカルエリアネットワーク、ワイヤレスLAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、及び地上放送TVを含むTVワイヤライン又はワイヤレス広域デジタルネットワーク、CANBusを含む車両及び産業ネットワーク、などがある。特定のネットワークは、一般に、特定の汎用デジタルポート又はペリフェラルバス949(例えば、コンピュータシステム900のUSBポートなど)に取り付けられた外付けネットワークインターフェースアダプタを必要とする。他は、一般に、後述されるようなシステムバスへの取り付け(例えば、PCコンピュータシステムへのイーサネットネットワーク、又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)によってコンピュータシステム900のコアに組み込まれる。これらのネットワークのいずれかを使用して、コンピュータシステム900は他のエンティティと通信することができる。そのような通信は、単方向の受信専用(例えば、ブロードキャストTV)又は単方向の送信専用(例えば、特定のCANBusデバイスへのCANBus)であることができ、あるいは、例えば、ローカル若しくは広域デジタルネットワークを使用して他のコンピュータシステムに対して双方向であることができる。そのような通信は、クラウドコンピューティング環境955への通信を含むことができる。特定のプロトコル又はプロトコルスタックが、上述されたようなネットワーク及びネットワークインターフェースの夫々で使用可能である。
上記のヒューマンインターフェースデバイス、人がアクセス可能な記憶デバイス、及びネットワークインターフェース954は、コンピュータシステム900のコア940へ取り付けられ得る。
コア940は、1つ以上の中央演算処理装置(CPU)941、グラフィクス処理ユニット(GPU)942、フィールドプログラマブルゲートエリア(FPGA)943の形をとる専用のプログラム可能処理ユニット、特定のタスクのためのハードウェアアクセラレータ944、などを含むことができる。これらのデバイスは、リードオンリーメモリ(ROM)945、ランダムアクセスメモリ946、内部のユーザアクセス不能ハードドライブなどの内蔵大容量記憶装置、SSD、など947とともに、システムバス948を通じて接続されてよい。いくつかのコンピュータシステムでは、システムバス948は、追加のCPU、GPUなどによる拡張を可能にするように、1つ以上の物理プラグの形でアクセス可能であることができる。コアのシステムバス948へ直接に又はペリフェラルバス949を通じて、周辺機器が取り付けられ得る。ペリフェラルバスのためのアーキテクチャは、PCI、USB、などを含む。グラフィクスアダプタ950がコア940に含まれてもよい。
CPU941、GPU942、FPGA943、及びアクセラレータ944は、組み合わせて上記のコンピュータコードを構成することができる特定の命令を実行可能である。そのコンピュータコードは、ROM945又はRAM946に記憶され得る。一時データもRAM946に記憶可能であり、一方、永続性データは、例えば、内蔵大容量記憶装置947に記憶可能である。メモリデバイスのいずれかへの高速な格納及び読み出しは、キャッシュメモリの使用により可能にされ得る。キャッシュメモリは、1つ以上のCPU941、GPU942、大容量記憶装置947、ROM945、RAM946などと密接に関連し得る。
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構成されたものであることができ、あるいは、それらは、コンピュータソフトウェア技術で通常の知識を有する者によく知られており利用可能である種類のものであることができる。
例として、限定としてではなく、アーキテクチャ、具体的にはコア940を有するコンピュータシステム900は、1つ以上の有形なコンピュータ可読媒体において具現されているソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータ、などを含む。)の結果として機能を提供することができる。かようなコンピュータ可読媒体は、コア内蔵大容量記憶装置947又はROM945などの、非一時的な性質であるコア940の特定の記憶装置に加えて、先に紹介されたユーザアクセス可能な大容量記憶装置に関連した媒体であることができる。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア940によって実行可能である。コンピュータ可読媒体には、特定のニーズに応じて、1つ以上のメモリデバイス又はチップが含まれ得る。ソフトウェアは、コア940、及び、具体的には、その中のプロセッサ(CPU、GPU、FPGAなどを含む。)に、RAM946に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更することとを含め、本明細書で説明されている特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。追加的に、又は代替案として、コンピュータシステムは、本明細書で説明されている特定のプロセス又は特定のプロセスの特定の部分を実行するようにソフトウェアの代わりに又はそれとともに動作することができる、回路内でハードワイヤード又は別なふうに具現されたロジック(例えば、アクセラレータ944)の結果として、機能を提供することができる。ソフトウェアへの言及は、必要に応じて、ロジックを包含することができ、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶している回路(例えば、集積回路(IC))、実行のためのロジックを具現する回路、又は両方を包含することができる。本開示は、ハードウェア及びソフトウェアの如何なる適切な組み合わせも包含する。
本開示は、いくつかの非限定的な実施例について記載してきたが、本開示の範囲内にある代替、交換、及び様々な置換均等物が存在する。よって、明らかなように、当業者であれば、たとえ本明細書で明示的に図示又は説明されていないとしても、本開示の原理を具現し、よって、その精神及び範囲の中にある多数のシステム及び方法に想到可能である。

Claims (13)

  1. ビデオエンコーダの少なくとも1つのプロセッサによって実行される方法であって、
    画像を含むビットストリームを受け取るステップと、
    前記画像を複数のブロックにパーティション化するステップと、
    ニューラルネットワークベースのエンコーダによって前記複数のブロックの夫々を圧縮するステップと、
    前記画像において前記複数のブロックの中からブロックごとの圧縮された特徴を取得することによって、圧縮された特徴を取得するステップと、
    前記圧縮された特徴をエントロピエンコーダによって処理して、第1の圧縮されたビットストリームを生成するステップと、
    前記圧縮された特徴を連結させることによって、複数のリシェープされた圧縮された特徴を取得するステップと、
    前記複数のリシェープされた圧縮された特徴を前記エントロピエンコーダによって処理して、第2の圧縮されたビットストリームを生成するステップと、
    前記第2の圧縮されたビットストリームに基づき、前記画像を含む前記ビットストリームを符号化するステップと
    を有する方法。
  2. 前記圧縮された特徴を取得するステップは、圧縮された特徴ブロックを取得するステップを有し、
    前記圧縮された特徴を連結させることは、前記圧縮された特徴ブロックを、該圧縮された特徴ブロックよりも大きいリシェープされた圧縮された特徴ブロックに連結させることを有する、
    請求項1に記載の方法。
  3. 前記圧縮された特徴ブロック又は前記リシェープされた圧縮された特徴ブロックは夫々、正方形状を有する、
    請求項2に記載の方法。
  4. 前記圧縮された特徴ブロック又は前記リシェープされた圧縮された特徴ブロックは夫々、長方形状を有する、
    請求項2に記載の方法。
  5. 前記リシェープされた圧縮された特徴ブロックは、互いに形状が同じである、
    請求項2に記載の方法。
  6. 前記リシェープされた圧縮された特徴ブロックの少なくとも2つは、互いに異なった形状を有する、
    請求項2に記載の方法。
  7. 前記リシェープされた圧縮された特徴ブロックは、互いにサイズが同じである、
    請求項2に記載の方法。
  8. 前記リシェープされた圧縮された特徴ブロックの少なくとも2つは、互いにサイズが異なる、
    請求項2に記載の方法。
  9. 前記ビットストリームを符号化するステップは、前記圧縮された特徴が連結されたことを示すインジケータを前記符号化されたビットストリームに含めるステップを有する、
    請求項1に記載の方法。
  10. 前記符号化されたビットストリームをデコーダへ送信するステップを更に有する、
    請求項1に記載の方法。
  11. コンピュータプログラムコードを記憶するよう構成される少なくとも1つのメモリと、
    前記コンピュータプログラムコードにアクセスし、該コンピュータプログラムコードによって指示されるように動作するよう構成される少なくとも1つのプロセッサと
    を有し、
    前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに、
    請求項1乃至10のうちいずれか一項に記載の方法を実行させるよう構成される符号化コードを有する、システム。
  12. 少なくとも1つのプロセッサによって実行されるとき、該少なくとも1つのプロセッサに、
    請求項1乃至10のうちいずれか一項に記載の方法を実行させるコンピュータプログラム。
  13. ビデオデコーダの少なくとも1つのプロセッサによって実行される方法であって、
    圧縮されたビットストリームを受け取るステップと、
    前記圧縮されたビットストリームをエントロピデコーダによって処理して、圧縮解除された特徴を生成するステップと、
    前記圧縮解除された特徴を分割することによって、リシェープされた圧縮解除された特徴を取得するステップと、
    ニューラルネットワークベースのデコーダによって前記リシェープされた圧縮解除された特徴を復号して、再構成されたブロックを取得するステップと
    を有する方法。
JP2023519443A 2021-06-18 2022-06-16 ビデオエンコーダの少なくとも1つのプロセッサによって実行される方法、システム、及びコンピュータプログラム、並びにビデオデコーダの少なくとも1つのプロセッサによって実行される方法 Pending JP2023543592A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163212469P 2021-06-18 2021-06-18
US63/212,469 2021-06-18
US17/825,575 US20220408098A1 (en) 2021-06-18 2022-05-26 Block-wise entropy coding method in neural image compression
US17/825,575 2022-05-26
PCT/US2022/033816 WO2022266338A1 (en) 2021-06-18 2022-06-16 A block-wise entropy coding method in neural image compression

Publications (1)

Publication Number Publication Date
JP2023543592A true JP2023543592A (ja) 2023-10-17

Family

ID=84489751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023519443A Pending JP2023543592A (ja) 2021-06-18 2022-06-16 ビデオエンコーダの少なくとも1つのプロセッサによって実行される方法、システム、及びコンピュータプログラム、並びにビデオデコーダの少なくとも1つのプロセッサによって実行される方法

Country Status (6)

Country Link
US (1) US20220408098A1 (ja)
EP (1) EP4136853A4 (ja)
JP (1) JP2023543592A (ja)
KR (1) KR20230169293A (ja)
CN (1) CN116508319A (ja)
WO (1) WO2022266338A1 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6468279B2 (ja) * 2014-03-07 2019-02-13 ソニー株式会社 画像符号化装置および方法、並びに、画像処理装置および方法
CN108229470B (zh) * 2017-12-22 2022-04-01 北京市商汤科技开发有限公司 文字图像处理方法、装置、设备及存储介质
US10922833B2 (en) * 2018-05-15 2021-02-16 Apical Ltd. Image processing
GB2574052B (en) * 2018-05-24 2021-11-03 Advanced Risc Mach Ltd Image processing
US11301728B2 (en) * 2018-06-18 2022-04-12 Apical Ltd. Image processing using a neural network system
US10869036B2 (en) * 2018-09-18 2020-12-15 Google Llc Receptive-field-conforming convolutional models for video coding
US10674152B2 (en) * 2018-09-18 2020-06-02 Google Llc Efficient use of quantization parameters in machine-learning models for video coding
EP3932069A1 (en) * 2019-03-01 2022-01-05 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Hypothetical reference decoder
WO2021006612A1 (ko) * 2019-07-08 2021-01-14 현대자동차주식회사 동영상 데이터의 인트라 예측 코딩을 위한 방법 및 장치

Also Published As

Publication number Publication date
EP4136853A1 (en) 2023-02-22
WO2022266338A1 (en) 2022-12-22
KR20230169293A (ko) 2023-12-15
CN116508319A (zh) 2023-07-28
US20220408098A1 (en) 2022-12-22
EP4136853A4 (en) 2023-07-12

Similar Documents

Publication Publication Date Title
JP7295289B2 (ja) 高速dst-7
JP7130851B2 (ja) ビデオ符号化において追加中間候補を有するマージモードの方法及び装置
JP7257516B2 (ja) ビデオ・コーディングのための方法、装置及びコンピュータ・プログラム
JP7108138B2 (ja) ランダムアクセスポイントおよびピクチャタイプの識別方法
CN110784711B (zh) 生成用于视频序列编码或解码的合并候选列表的方法、装置
JP7362876B2 (ja) 簡略化された最確モードリスト生成スキーム
JP7457170B2 (ja) サブブロックに基づく時間的動きベクトル予測のための方法並びにその機器及びコンピュータプログラム
JP2022515126A6 (ja) ビデオ・コーディングのための方法、装置及びコンピュータ・プログラム
KR20200125733A (ko) 비디오 코딩을 위한 방법 및 장치
JP7427814B2 (ja) ビデオ符号化及び復号の方法及び装置並びにコンピュータプログラム
CN112166611B (zh) 视频序列编码或解码的方法、装置、设备及存储介质
KR102650213B1 (ko) 코딩된 비디오 스트림에서 계층별 랜덤 엑세스하기 위한 방법
KR20210089756A (ko) 개선된 최고 확률 모드 리스트 생성 스킴
US11949856B2 (en) Intra mode selection in intra prediction
JP7442919B2 (ja) データ操作のためのパッチ可能なリモート要素方法、装置、およびコンピュータプログラム
JP7254188B2 (ja) 点群符号化のためのパラメータセット設計の方法並びにその装置及びプログラム
JP7407308B2 (ja) セッションベースdash動作を使用したセッションベース記述urlのカスタマイズ
JP7221406B2 (ja) イン・マニフェスト更新イベント
CN113491128B (zh) 已解码图片存储器管理的方法和相关装置
JP7061680B2 (ja) ビデオ符号化において縮減された前のラインバッファを使用するインター予測の方法及び装置
JP2023543592A (ja) ビデオエンコーダの少なくとも1つのプロセッサによって実行される方法、システム、及びコンピュータプログラム、並びにビデオデコーダの少なくとも1つのプロセッサによって実行される方法
RU2775739C1 (ru) Способ поуровневого произвольного доступа в кодированном видеопотоке
US11909956B2 (en) DNN-based cross component prediction
JP2023510504A (ja) ニューラルネットワークベースのビデオコーディングのためのプルーニング方法、装置およびコンピュータプログラム
JP2023126585A (ja) マルチラインイントラ予測のためのモードリストを生成する方法、並びにその装置及びコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305