JP2023530470A - ディープニューラルネットワークを符号化/復号するためのシステム及び方法 - Google Patents
ディープニューラルネットワークを符号化/復号するためのシステム及び方法 Download PDFInfo
- Publication number
- JP2023530470A JP2023530470A JP2022577696A JP2022577696A JP2023530470A JP 2023530470 A JP2023530470 A JP 2023530470A JP 2022577696 A JP2022577696 A JP 2022577696A JP 2022577696 A JP2022577696 A JP 2022577696A JP 2023530470 A JP2023530470 A JP 2023530470A
- Authority
- JP
- Japan
- Prior art keywords
- tensor
- decoded
- bitstream
- encoding
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 135
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 48
- 238000000354 decomposition reaction Methods 0.000 claims description 49
- 239000000872 buffer Substances 0.000 claims description 18
- 230000006837 decompression Effects 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 49
- 230000015654 memory Effects 0.000 description 28
- 238000007906 compression Methods 0.000 description 27
- 230000006835 compression Effects 0.000 description 27
- 238000012545 processing Methods 0.000 description 26
- 238000004891 communication Methods 0.000 description 19
- 239000011159 matrix material Substances 0.000 description 13
- 238000013139 quantization Methods 0.000 description 9
- 230000011664 signaling Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000013144 data compression Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 229940050561 matrix product Drugs 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
- G06N3/105—Shells for specifying net layout
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3057—Distributed Source coding, e.g. Wyner-Ziv, Slepian Wolf
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6005—Decoder aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3059—Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
-復号されたモデルの推論のデバイス/実装形態のいずれかがこのような分解に対応する。その場合、テンソルG及びテンソルHをそのまま出力することができる。
-又は、元のテンソル形の元のグラフが推論エンジンにより必要とされる。その場合、復元を行う必要がある(例えば、デコーダによって)。
array_name_1 とarray_name_2との行列積を返す、MatrixProd(array_name_1,array_name_2[])。
復号されたテンソルバッファ(Decoded Tensor Buffer、DTB):基準として復号されたテンソル/単位を保持するバッファ。
・NNRビットストリームのNNR単位を復号するために必要とされる情報は、NNRビットストリームの一部としてシグナリングすることができる。このような情報がNNRビットストリームの一部でない場合、それは、他の手段(例えば、復号に必要とされるが、NNRビットストリームにおいてシグナリング又は搬送されない、帯域外トポロジ情報又はパラメータ)によって、復号プロセスに提供され得る。
・復号プロセスは、タイプNNR_STRのNNR単位で開始することができる(以下の表を参照)。NNR_STR単位の受信により、デコーダは、その内部状態をリセットし、NNRビットストリームを受信する準備をすることができる。先行するNNR単位の存在及び濃度は、いくつかの従属節及び/又は付属書類において指定することができる。
・バッファDTBは、復号処理の開始時に空に設定される(DTBフルネスが0に等しく設定される)。
本明細書で詳述される例示的なシンタックスを用いて、表では、テンソル分解の場合のNNRテンソルタイプを指定することができる。
デコーダ側では、単位ヘッダ(例えば、例示的なシンタックスを有するnnr_compressed_data_unit_header)及び圧縮ペイロードを復号した後、NNR圧縮ペイロードごとにテンソル処理を1回行うことができる。
-output_original_graphが0に等しい場合、又はlps_tensor_decomposition_flagが0に場合、又はnnr_decomposition_tensor_typeが「TENSOR_OTHER」に等しい場合、そのときのテンソルが出力される。
-そうではなく、DTBにおける同じ層を指定する識別子(例えば、ref_id)を有するテンソルがない場合、そのときのテンソルをDTBに加える。出力されるテンソルがない。
-そうでない場合(そのときのnnr_decomposition_tensor_typeが、タイプ「TENSOR_G」又は「TENSOR_H」のテンソルを指定し、DTBにおける同じ層を指定する識別子(例えば、ref_id)を有するテンソルが存在する)、それぞれ、タイプ「TENSOR_G」又は「TENSOR_H」のそのときのテンソルも、それぞれ、タイプ「TENSOR_H」又は「TENSOR_G」のDTBにおけるその対応するテンソルとも渡して、上で指定されるように、その元の形状でテンソルの復元を呼び出す。後者は、DTBから削除される。戻されたテンソルが出力される。
元のテンソルの分解からもたらされテンソルの全てを復号した後、元のテンソルの形を有するテンソルの復元を行うことができる。
-タイプ「TENSOR_H」のテンソルtensor_h[]
-対応するnnr_compressed_data_unit_headerからのその復号されたシンタックスtensor_dimensionsによって定義される、tensor_h[]の次元に対応する配列tensor_dimensions_h[]
-タイプ「TENSOR_G」のテンソルtensor_g[]。
-その復号されたシンタックスtensor_dimensionsよって定義される、tensor_g[]の次元に対応する配列tensor_dimensions_g[]
-復号されたばかりのテンソルヘッダの層パラメータ集合からの値tensor_reconstruction_mode及びtensor_reconstruction_additional_info。
・使用中の圧縮単位に対し、nnr_layer_parameter_set_id により、例えばlps_layer_parameter_set_id の値を指定する。unit_layer_parameter_set_idの値は、例えば両端を含む0~63の範囲であることがある。
・テンソル分解の場合、nnr_decomposition_tensor_typeにより、例えば上で定義したテンソルタイプを指定する。
・mps_model_parameter_set_idにより、他のシンタックス要素による基準に対してMPSに識別子を提供する。mps_model_parameter_set_idの値は、0~15の両端を含む範囲に設定される場合がある。
・1に等しいdecomposition_flagにより、テンソル分解がモデルの少なくとも少なくとも1つの層の少なくとも1つのテンソルに適用されたことを指定する。
・1に等しいoutput_original_graphにより、テンソル分解が使用されるとき、デコーダがその元の形状にテンソルの重みを出力することを指定する。
・mps_max_dec_tensor_buffering_minus1+1により、NNRモデルに対し復号されたテンソルバッファの最大限必要サイズを、テンソルストレージバッファ単位で指定する。mps_max_dec_tensor_buffering_minus1の値は、0~63の範囲に設定することができる。
・lps_model_parameter_set_idにより、アクティブLPSのmps_model_parameter_set_id を指定する。。lps_model_parameter_set_idの値は、0~15の両端を含む範囲に設定することができる。
・lps_layer_parameter_set_idにより、他のシンタックス要素による基準に対してLPSの識別子を提供する。lps_layer_parameter_set_idの値は、両端を含む0~63の範囲に設定することができる。
・1に等しいlps_tensor_decomposition_flagにより、テンソル分解がこの層に使用される、ということを指定する。
・tensor_reconstruction_modeにより、上で定義した通り、分解され、復号されたテンソルから、そのときのテンソルをその元の形状で復元するために使用されるモードを指定する。
・tensor_reconstruction_additional_info_countsにより、分解されたテンソルの復元を行うために必要とされ得るパラメータ数を指定する。
・tensor_reconstruction_additional_info[i]により、分解されたテンソルを復元するために必要とされ得るパラメータ配列を指定する。(例えば、深さ方向の畳み込み層の場合、tensor_reconstruction_additional_info_countsを1に設定することができ、tensor_reconstruction__additional_info[0]により、畳み込みのカーネルサイズを指定する)。
いくつかの例示的な実施形態を、上記で詳述してきた。本開示はまた、上に述べた実施形態の多くの変形形態を包含する。
例えば、本開示のいくつかの実施形態は、以下の変形形態に関係することができる。
第1の変形形態により、変数output_original_graph(上で紹介した)を省略することができる。この変形形態では、復元は、topology_storage_format変数に左右される。それにより、上で紹介した例示的なNNR表に関して、表「NNRモデルパラメータセットペイロードシンタックス」を修正することができる(変数output_original_graphは、必要とされないため)。
テンソル出力
単位ヘッダnnr_compressed_data_unit_header及び圧縮ペイロードの復号後に、NNR圧縮ペイロードごとに、このプロセスを1回呼び出すことができる。
-If lps_tensor_decomposition_flagが0に等しいか、又はnnr_decomposition_tensor_typeが「TENSOR_OTHER」に等しいか、又はtopology_storage_formatにより、分解行列を使用して推論に対応するトポロジを指定する場合、そのときのテンソルが出力される。
-そうではなく、DTBに同じ「ref_id」を有するテンソルがない場合、そのときのテンソルをその「ref_id」を有するDTBに加える。出力されるテンソルは何もない。
-そうでなければ(そのときのnnr_decomposition_tensor_typeにより、タイプ「TENSOR_G」又は「TENSOR_H」のテンソルを指定し、DTBに同じ「ref_id」を有するテンソルが存在する)、それぞれ、タイプ「TENSOR_G」又は「TENSOR_H」のそのときのテンソルも、それぞれ、タイプ「TENSOR_H」又は「TENSOR_G」のDTBにおけるその対応するテンソルも渡して、上で指定されるように、その元の形状でテンソルの復元を呼び出す。後者は、DTBから削除される。戻されたテンソルが出力される。
topology_storage_formatにより、以下に指定されるように、格納されたニューラルネットワークトポロジ情報のフォーマットを指定する。
第2の変形形態では、分解プロセスの実施に関する情報をシグナリングにおいて提供することができる。例えば、このような情報は、分解されたテンソルとそれらの元のバージョンとの間の異なる平均二乗誤差(MSE)値と、結果としてのニューラルネットワーク(NN:Neural Network)推論精度との写像を表すことができる。
・decomposition_performance_map()により、分解されたテンソルとその元のバージョンとの間の異なる平均二乗誤差(MSE)閾値と、結果としてのNN推論精度との写像を指定する。結果としての精度は、NNの出力の異なる態様又は特性に対して別々に与えられる。分類子NNの場合、全てのクラスを考慮する全体的な精度に加えて、クラスごとに別々の精度に各MSE閾値が写像される。クラスは、ニューラルネットワーク出力順序、すなわち、訓練中に指定された順序に基づいて順序付けられる。
・count_thresholdsは、分解MSE閾値の数を指定する。
・Decomposition_thresholdは、重みの異なるテンソルのランクを導出するために適用されるMSE閾値配列を指定する。
・nn_accuracyは、NNの全体的な精度(例えば、全てのクラスを考慮することによる分類精度)を指定する。
・nn_reduction_ratio[i]は、モデル全体のテンソル分解後のパラメータ総数と、元のモデルにおけるパラメータ数との比を指定する。
・count_classesは、各分解閾値に対して別々の精度が与えられるクラス数を指定する。
・nn_class_accuracyは、特定の分解閾値が適用されるときの特定のクラスに対し精度配列を指定する。
説明を容易にするために、例示的なMPEG NNRドラフト規格(N19225-Working Draft4 of Compression of neural networks for multimedia content description and analysis)。国際標準化機構ISO/IEC JTC1/SC29/WG11,apr.2020のような)を使用して、この第3の変形形態について詳述する。このような例示的なシンタックスでは、単位内に複数のパラメータ、例えば、任意選択的に分解され得る重みテンソルパラメータ、バイアスパラメータ、バッチノームパラメータなどの複数のパラメータがあることがある。NNR_PT_BLOCK単位の面では、重みの出力テンソルは、例えば外部トポロジ情報を通して送信され得るか、又はデコーダが知ることができる元の形状に準拠しなければならない。テンソル分解がエンコーダにおいて適用された場合、テンソルの復元は、デコーダにおいて行われる。
RecWeight=TensorReshape(RecWeightG*RecWeightH,tensor_dimensions)
本出願では、ツール、特徴、実施形態、モデル、手法などを含む様々な態様について説明している。これらの態様のうちの多くは、具体的に説明され、少なくとも個々の特性を示すために、しばしば限定的に聞こえ得るように説明される。しかしながら、これは、説明を明確にするためであり、それらの態様の適用又は範囲を限定するものではない。実際には、異なる態様の全てを組み合わせ、かつ置き換えて、更なる態様を提供することができる。更に、これらの態様はまた同様に、以前の出願に記載の態様と組み合わせ、かつ置き換えすることができる。
・事前訓練されたディープニューラルネットワークのディープニューラルネットワーク圧縮を用いて符号化及び復号を行うプロセス又はデバイス。
・事前訓練されたディープニューラルネットワークの少なくとも1つの層の符号化及び復号を行って、ディープニューラルネットワーク圧縮を実施するプロセス又はデバイス。
・パラメータを表すビットストリームに挿入された情報を用いて符号化及び復号を行って、1つ以上の層を備える事前訓練されたディープニューラルネットワークのディープニューラルネットワーク圧縮を実施するプロセス又はデバイス。
・パラメータを表すビットストリームに挿入された情報を用いて符号化及び復号を行って、ディープニューラルネットワークのディープニューラルネットワーク圧縮を実施するプロセス又はデバイス。
・記載のシンタックス要素、又はその変形形態のうちの1つ以上を含むビットストリーム又は信号。
・記載の実施形態のうちのいずれかにより起こされた情報を伝達するシンタックスを含むビットストリーム又は信号。
・記載の実施形態のいずれかにより、作り出しかつ/又は送信しかつ/又は受信しかつ/又は復号する。
・記載の実施形態のいずれかによる、方法、プロセス、装置、命令を格納する媒体、データを格納する媒体、又は信号。
・エンコーダによって使用される方法に対応する様態で、デコーダが符号化モードを判定することを可能にするシンタックス要素をシグナリングに挿入する。
・記載のシンタックス要素、又はその変形形態のうちの1つ以上を含むビットストリーム又は信号を作り出しかつ/又は送信しかつ/又受信しかつ/又は復号する。
・記載の実施形態のいずれかによる、変換方法を行う、テレビ、セットトップボックス、携帯電話、タブレット、又はそれ以外の電子デバイス。
・記載の実施形態のいずれかにより、変換方法判定を下し、結果としてもたらされた画像を表示する(例えば、モニタ、スクリーン、などのタイプのディスプレイを使用して)、テレビ、セットトップボックス、携帯電話、タブレット、又はそれ以外の電子デバイス。
・符号化された画像を含む信号を受信するように、チャネルを選択し、帯域制限し、又はチューニングし(例えば、チューナを使用して)、記載の実施形態のいずれかにより変換方法を行う、テレビ、セットトップボックス、携帯電話、タブレット、又はそれ以外の電子デバイス。
・符号化された画像を含む信号を放送全体にわたって受信し、変換方法を行う、TV、セットトップボックス、携帯電話、タブレット、又はそれ以外の電子デバイス。
Claims (25)
- 方法であって、
-少なくとも1つのディープニューラルネットワークの少なくとも1つの層の少なくとも1つの第1のテンソルが、ビットストリームにおいて、そのパラメータが符号化されている第2のテンソル及び第3のテンソルに分解されているとの判定に応えて、前記ビットストリームから、前記第2のテンソル及び前記第3のテンソルのうちの少なくとも1つのテンソルのサイズを復号することと、
-前記復号されたサイズに基づいて、前記第2のテンソル及び前記第3のテンソルのうちの少なくとも1つを復号することと、を含む、方法。 - 1つ以上のプロセッサを備える装置であって、前記1つ以上のプロセッサが、
-少なくとも1つのディープニューラルネットワークの少なくとも1つの層の少なくとも1つの第1のテンソルが、ビットストリームにおいて、そのパラメータが符号化されている第2のテンソル及び第3のテンソルに分解されていると判定することと、
-前記ビットストリームから、前記第2のテンソル及び前記第3のテンソルのうちの少なくとも1つのテンソルのサイズを復号することと、
-前記復号されたサイズに基づいて、前記第2のテンソル及び前記第3のテンソルのうちの少なくとも1つを復号することと、を行うように構成されている、装置。 - 前記1つ以上のプロセッサが、前記第2のテンソル及び前記第3のテンソルに分解された前記少なくとも1つの第1のテンソルのテンソル分解の分解ランクを、前記ビットストリームから復号するように更に構成されている、更に含む、請求項1に記載の方法、又は請求項2に記載の装置。
- 前記1つ以上のプロセッサが、前記第2のテンソル及び前記第3のテンソルのうちの一方のテンソルのサイズを、前記復号されたサイズから導出するように更に構成されている、更に含む、請求項1若しくは3に記載の方法、又は請求項2若しくは3に記載の装置。
- 前記1つ以上のプロセッサが、前記導出されたサイズに基づいて、前記第2のテンソル及び前記第3のテンソルのうちの一方のテンソルを復号するように更に構成されている、更に含む、請求項4に記載の方法、又は請求項4に記載の装置。
- 前記1つ以上のプロセッサが、前記復号された第2のテンソル及び前記復号された第3のテンソルから、前記少なくとも1つの第1のテンソルを復元するように更に構成されている、更に含む、請求項1若しくは3~5のいずれか一項に記載の方法、又は請求項2若しくは3~5のいずれか一項に記載の装置。
- 前記少なくとも1つの第1のテンソルの復元中に、前記少なくとも1つの第2のテンソル及び前記少なくとも1つの第3のテンソルのうちの第1の復号されたテンソルが、復号されたテンソルバッファに格納される、請求項6に記載の方法又は装置。
- 前記1つ以上のプロセッサが、
前記復号された第2のテンソル及び前記復号された第3のテンソルから、前記第1のテンソルをその元の形状で復元するために使用されるモードを表す情報をビットストリームから復号するように更に構成されている、更に含む、請求項6若しくは7に記載の方法、又は請求項6若しくは7に記載の装置。 - 前記第2のテンソル又は前記第3のテンソルのうちの1つを復号することが、
-前記少なくとも1つの第2のテンソル及び前記少なくとも1つの第3のテンソルのうちの一方のテンソルが前記復号されたテンソルバッファにないという判定に応えて、
前記1つの復号されたテンソルを前記復号されたテンソルバッファに格納することを含む、請求項7又は8に記載の方法又は装置。 - 前記少なくとも1つの第2のテンソル及び前記少なくとも1つの第3のテンソルのうちの一方のテンソルが前記復号されたテンソルバッファにないと判定することが、前記復号されたテンソルのタイプに応えてのことである、請求項9に記載の方法又は装置。
- 前記少なくとも1つの第2のテンソル及び前記少なくとも1つの第3のテンソルのうちの一方のテンソルが前記復号されたテンソルバッファにないと判定することが、前記復号されたテンソルと同じ層を指定する識別子に関連付けられたテンソルを探すことを含む、請求項9又は10に記載の方法又は装置。
- 前記復号されたテンソルバッファが、1つより多い復号されたテンソルを格納するように構成されている、請求項7~11のいずれか一項に記載の方法又は装置。
- ビットストリーム中の前記ディープニューラルネットワークの少なくとも1つの層の少なくとも1つの第1のテンソルを表すデータを符号化することを含む方法であって、データを符号化することが、
-前記少なくとも1つの第1のテンソルが、第2のテンソル及び第3のテンソルに分解されているとの判定に応えて、前記第2のテンソル及び前記第3のテンソルのうちの少なくとも1つのテンソルのサイズを符号化することと、
-前記第2のテンソル及び前記第3のテンソルのうちの前記少なくとも1つを表すパラメータを符号化することと、を含む、方法。 - ビットストリーム中の前記ディープニューラルネットワークの少なくとも1つの層の少なくとも1つの第1のテンソルを表すデータを符号化するための装置であって、前記装置が、1つ以上のプロセッサを備え、前記1つ以上のプロセッサが、
-前記少なくとも1つの第1のテンソルが、第2のテンソル及び第3のテンソルに分解されていると判定することと、
-前記判定に応えて、前記第2のテンソル及び前記第3のテンソルのうちの少なくとも1つのテンソルのサイズを符号化することと、
-前記第2のテンソル及び前記第3のテンソルのうちの前記少なくとも1つを符号化することと、を行うように構成されている、装置。 - 前記ディープニューラルネットワークの少なくとも1つの層の少なくとも1つの第1のテンソルを表すデータを含むビットストリームを含む信号であって、前記データが、
-前記少なくとも1つの第1のテンソルが、第2のテンソル及び第3のテンソルに分解されていることを示す情報と、
-前記第2のテンソル及び前記第3のテンソルのうちの少なくとも1つのテンソルのサイズと
-前記第2のテンソル及び前記第3のテンソルのうちの前記少なくとも1つのテンソルのパラメータと、を含む、信号。 - 前記データが、前記第2のテンソル及び前記第3のテンソルに分解された前記少なくとも1つの第1のテンソルのテンソル分解の分解ランクを更に含む、請求項13に記載の方法、又は請求項14に記載の装置、又は請求項15に記載の信号。
- 前記データが、前記第2のテンソル及び前記第3のテンソルのうちの前記少なくとも1つの一方のテンソルのパラメータを含む、請求項13若しくは16に記載の方法、又は請求項14若しくは16に記載の装置、又は請求項15若しくは16に記載の信号。
- 前記データが、前記少なくとも1つの第2のテンソル又は前記少なくとも1つの第3のテンソルのテンソルタイプを表す情報を更に含む、請求項17に記載の方法、又は請求項17に記載の装置、又は請求項17に記載の信号。
- 前記データが、前記第2のテンソル及び前記第3のテンソルから、前記第1のテンソルをその元の形状で復元するために使用されるモードを表す情報を更に含む、請求項17若しくは18に記載の方法、又は請求項17若しくは18に記載の装置、又は請求項17若しくは18に記載の信号。
- 前記第2のテンソル及び前記第3のテンソルが、前記少なくとも1つの第1のテンソルの下位分解又は下位置換分解から生じる、請求項1若しくは3~13若しくは16~19のうちのいずれか一項に記載の方法、又は請求項2~12若しくは14若しくは16~19のいずれか一項に記載の装置、又は請求項15~19のいずれか一項に記載の信号。
- 前記第2のテンソルが、Gテンソルであり、前記第3のテンソルが、Hテンソルである、請求項20に記載の方法又は装置又は信号。
- 前記第2のテンソル及び前記第3のテンソルのうちの少なくとも1つのテンソルのサイズが、前記第2のテンソル及び前記第3のテンソルのうちの少なくとも1つのテンソルの行数又は列数である、請求項1若しくは3~13若しくは16~21のいずれか一項に記載の方法、又は請求項2~12若しくは14若しくは16~21のいずれか一項に記載の装置、又は請求項15~21のいずれか一項に記載の信号。
- 請求項15~22のいずれか一項による信号を含む、コンピュータ可読媒体。
- 1つ以上のプロセッサに、請求項1又は3~13又は16~22のいずれか一項に記載の方法を行わせる、命令を格納しているコンピュータ可読記憶媒体。
- プログラムが1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、請求項1又は3~13又は16~22のいずれか一項に記載の方法を行わせる、命令を含むコンピュータプログラム製品。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063040048P | 2020-06-17 | 2020-06-17 | |
US63/040,048 | 2020-06-17 | ||
US202063050052P | 2020-07-09 | 2020-07-09 | |
US63/050,052 | 2020-07-09 | ||
PCT/EP2021/065522 WO2021254855A1 (en) | 2020-06-17 | 2021-06-09 | Systems and methods for encoding/decoding a deep neural network |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023530470A true JP2023530470A (ja) | 2023-07-18 |
Family
ID=76483297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022577696A Pending JP2023530470A (ja) | 2020-06-17 | 2021-06-09 | ディープニューラルネットワークを符号化/復号するためのシステム及び方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20230252273A1 (ja) |
EP (1) | EP4168940A1 (ja) |
JP (1) | JP2023530470A (ja) |
KR (1) | KR20230027152A (ja) |
CN (1) | CN116018757A (ja) |
IL (1) | IL299171A (ja) |
WO (1) | WO2021254855A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12100185B2 (en) * | 2021-06-18 | 2024-09-24 | Tencent America LLC | Non-linear quantization with substitution in neural image compression |
AU2022202470A1 (en) * | 2022-04-13 | 2023-11-02 | Canon Kabushiki Kaisha | Method, apparatus and system for encoding and decoding a tensor |
AU2022202472A1 (en) * | 2022-04-13 | 2023-11-02 | Canon Kabushiki Kaisha | Method, apparatus and system for encoding and decoding a tensor |
AU2022202471A1 (en) * | 2022-04-13 | 2023-11-02 | Canon Kabushiki Kaisha | Method, apparatus and system for encoding and decoding a tensor |
-
2021
- 2021-06-09 JP JP2022577696A patent/JP2023530470A/ja active Pending
- 2021-06-09 US US18/010,233 patent/US20230252273A1/en active Pending
- 2021-06-09 KR KR1020237000861A patent/KR20230027152A/ko active Search and Examination
- 2021-06-09 CN CN202180047163.3A patent/CN116018757A/zh active Pending
- 2021-06-09 EP EP21732853.3A patent/EP4168940A1/en active Pending
- 2021-06-09 IL IL299171A patent/IL299171A/en unknown
- 2021-06-09 WO PCT/EP2021/065522 patent/WO2021254855A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
IL299171A (en) | 2023-02-01 |
KR20230027152A (ko) | 2023-02-27 |
US20230252273A1 (en) | 2023-08-10 |
WO2021254855A1 (en) | 2021-12-23 |
EP4168940A1 (en) | 2023-04-26 |
CN116018757A (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023543985A (ja) | 多用途ビデオコーディングのためのテンプレートマッチング予測 | |
JP2023530470A (ja) | ディープニューラルネットワークを符号化/復号するためのシステム及び方法 | |
CN113574887B (zh) | 基于低位移秩的深度神经网络压缩 | |
KR20220047725A (ko) | 암시적 다중 변환 선택을 위한 변환 선택 | |
CN113728637B (zh) | 用于对深度神经网络的基于低秩和位移秩的层进行编码和解码的框架 | |
US20230267309A1 (en) | Systems and methods for encoding/decoding a deep neural network | |
CN117256142A (zh) | 用于使用基于人工神经网络的工具对图像和视频进行编码/解码的方法和装置 | |
US20230064234A1 (en) | Systems and methods for encoding a deep neural network | |
WO2022069331A1 (en) | Karhunen loeve transform for video coding | |
KR20230025879A (ko) | 신경 네트워크 기반 인트라 예측 모드에 대한 변환 프로세스의 적응 | |
CN116134822A (zh) | 用于更新基于深度神经网络的图像或视频解码器的方法和装置 | |
US20220300815A1 (en) | Compression of convolutional neural networks | |
US20220309350A1 (en) | Systems and methods for encoding a deep neural network | |
KR20220161441A (ko) | 비디오 인코딩 및 디코딩을 위한 방법 및 장치 | |
US20230014367A1 (en) | Compression of data stream | |
WO2024158896A1 (en) | Multi-residual autoencoder for image and video compression | |
JP2022540659A (ja) | ルマツークロマ量子化パラメータテーブルシグナリング |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230220 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230228 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20230417 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20231121 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240610 |