JP7408835B2 - マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタによるビデオ処理の方法、装置及びコンピュータプログラム - Google Patents
マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタによるビデオ処理の方法、装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP7408835B2 JP7408835B2 JP2022561031A JP2022561031A JP7408835B2 JP 7408835 B2 JP7408835 B2 JP 7408835B2 JP 2022561031 A JP2022561031 A JP 2022561031A JP 2022561031 A JP2022561031 A JP 2022561031A JP 7408835 B2 JP7408835 B2 JP 7408835B2
- Authority
- JP
- Japan
- Prior art keywords
- weight parameters
- neural network
- layers
- masks
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 66
- 238000013528 artificial neural network Methods 0.000 title claims description 65
- 238000012545 processing Methods 0.000 title claims description 11
- 238000004590 computer program Methods 0.000 title claims 2
- 238000013139 quantization Methods 0.000 claims description 40
- 238000013138 pruning Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 description 25
- 230000006835 compression Effects 0.000 description 22
- 238000007906 compression Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 244000141353 Prunus domestica Species 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000011773 genetically engineered mouse model Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/86—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Description
(外1)
との間の一組の動きベクトルmtが計算される。下付き文字tは、現在のt番目の符号化サイクルを示し、これは、画像フレームのタイムスタンプと一致しなくてよいことに留意されたい。また、以前の再構成フレーム
(外2)
は、複数の以前の符号化サイクルからのフレームを含む。次に、第2の動き補償ステップでは、予測フレーム
(外3)
が、動きベクトルmtと、元のフレームxtと予測フレーム
(外4)
との間の残差rtとに基づいて、以前の再構成フレーム
(外5)
の対応するピクセルをコピーすることによって取得される。第3のステップでは、残差rtが量子化される(典型的には、より良好な量子化性能を達成するためにrtのDCT係数が量子化される、DCTのような変換の後に)。量子化ステップの結果として、量子化フレーム
(外6)
が得られる。動きベクトルmtと量子化フレーム
(外7)
の両方が、エントロピーコーディングによってビットストリームに符号化され、デコーダに送信される。次いで、デコーダ側において、量子化フレーム
(外8)
が、(典型的には、非量子化係数を用いるIDCTのような逆変換を通して)非量子化され、復元された残差
(外9)
を取得する。次に、復元された残差
(外10)
を予測フレーム
(外11)
に加算して、再構成フレーム
(外12)
を取得する。
(外13)
の視覚品質を改善するために、追加の構成要素が更に使用される。デブロッキングフィルタ(DF)、サンプル適応オフセット(SAO)、適応ループフィルタ(ALF)、クロス構成要素適応ループフィルタ(CCALF)等を含む、以下の強化モジュール(enhancement modules)の1つ又は多数が、再構成フレーム
(外14)
を処理するために選択され得る。選択されたモジュールの処理順序はこれに限定されず、変更することができる。
(外15)
の視覚品質を強化するためのMQLFを提案する。目標は、再構成フレーム
(外16)
におけるノイズ、ぼけ、ブロック効果のようなアーチファクトを低減させ、結果として高品質フレーム
(外17)
を得ることである。具体的には、MTNNを使用して、高品質フレーム
(外18)
を計算し、ここで、1つのモデルインスタンスが多数のQP値を収容することができる。バイナリMSMが各QP値に使用され、そのQP値に対するMTNNの推論計算をガイドする。
(外19)
の視覚品質を改善するために、前述した追加の構成要素(すなわち、DF、SAO、ALF、CCALF等)の1つ又は多数と組み合わせて使用されることができる。例えば再構成フレーム
(外20)
は、最初にDFを通過し、続いてMQLFを通過し、更に続いてSAOとALFを通過することができる。これらの構成要素が使用される順序は、任意に変更することができる。一例示的な実施形態では、提案される方法はまた、再構成フレーム
(外21)
の視覚品質を強化するために、他のすべての構成要素の置き換えとして単独で使用されることもできる。
(外22)
は、スライススイッチオン(Slice switch On)が適用される場合のIフレームのように、1つのフレーム全体とすることができ、階層レベル0のフレームを示す。また、再構成フレーム
(外23)
は、フレーム内のブロック、例えばCTUスイッチオン(CTU switch On)が適用される場合のCTUとすることができ、階層構造の下位レベルのフレームを示す。再構成フレーム
(外24)
を計算する特定のビデオ圧縮方法(例えばHEVC、VVC)に対する制限はない。
(外26)
の低い方から高い方への再構成品質に対応する降順でランク付けられた、p個のQP値qp1,...,qppが存在すると仮定する。
(外27)
が、SMTLの1組の重みパラメータを示すものとし、ここで、各
(外28)
は、j番目の層の重みパラメータである。
(外29)
が、QP値qpiに対応する1組のバイナリマスクを示すものとし、ここで、各バイナリマスク
(外30)
は、j番目の層の重みパラメータ
(外31)
と同じ形状を有する。バイナリマスク
(外32)
の各エントリは1又は0であり、重みパラメータ
(外33)
内の対応する重みエントリが、QP値qpiの推論計算に関与するかどうかを示す。
(外34)
が、QP値qpiに対応するTSLの1組の重みパラメータを示すものとし、ここで、
(外35)
は、j番目の層の重みパラメータである。層のタイプ(例えば畳み込み、正規化、完全接続など)及びSMTLとTSL内の層の位置に対して制限を設けない。例えばSTMLとTSLの層をインターレースして、MTNNを形成することができる。
(外36)
の各々は、サイズ(c1,k1,k2,k3,c2)の一般的な5次元(5D)テンソルである。対応する層の入力は、サイズ(h1,w1,d1,c1)の4次元(4D)テンソルAであり、出力は、サイズ(h2,w2,d2,c2)の4DテンソルBである。サイズc1,k1,k2,k3,c2,h1,w1,d1,h2,w2,d2は、1以上の整数である。サイズc1,k1,k2,k3,c2,h1,w1,d1,h2,w2,d2のいずれかが1に等しいとき、対応するテンソルはより小さい次元に減少する。各テンソルの各アイテムは浮動数(floating number)である。パラメータh1,w1及びd1は入力Aの高さ、重み及び深度である。同様に、パラメータh2,w2及びd2は出力Bの高さ、重み及び深度である。パラメータc1は、入力Aの入力チャネルの数である。同様に、パラメータc2は、出力Bの出力チャネルの数である。パラメータk1,k2及びk3は、それぞれ高さ軸、重み軸、深度軸に対応する畳み込みカーネルのサイズである。出力Bは、入力Aと、重みパラメータ
(外37)
と、可能な場合にはマスク
(外38)
とに基づいて、畳み込み演算Θを通して計算される。重みパラメータ
(外39)
については、マスク
(外40)
もそれに関連付けられてよく、マスク
(外41)
のすべてのエントリが1に設定されることに留意されたい。この観点から、個々のタスクとして、各個々のQP値について個々のモデルインスタンスをトレーニングする伝統的な方法は、本開示において提案される方法の特殊なケースとして見なされることができ、この場合、SMTLは層及びマスクを有さず、一方、TSLがすべての層を有する。
及びマスク
が、入力
(外42)
及び関連付けられるターゲットQP値
(外43)
とともに与えられると、対応するマスク
(外44)
を使用して、SMTLのためのマスク化重みパラメータ
(外45)
を生成し、QP値
(外46)
についてのTSLの対応するサブネットワークが、重みパラメータ
(外47)
を用いて選択される。次いで、SMTL推論のためのマスク化重みパラメータ
(外48)
を使用し、かつTSL推論のための重みパラメータ
(外49)
を使用して、MTNN推論モジュール310は、推論出力
(外50)
を計算し、これは、強化された高品質の結果である。
(外51)
の形状は、同じ出力を取得するために、整形(reshaped)された入力の、整形された
(外52)
との畳み込みに対応して、変更されることができる。同様に、各マスク
(外53)
の形状も変更することもできる。実施形態において、各重みパラメータの形状は、2つの構成をとり得る。まず、5D重みテンソルを、サイズ(c1’,c2’,k)の3Dテンソルに整形し、ここで、c1’×c2’×k=c1×c2×k1×k2×k3である。例えば構成はc1’=c1,c2’=c2,k=k1×k2×k3である。次に、5D重みテンソルを、(c1’,c2’)の2D行列に整形し、ここで、c1’×c2’=c1×c2×k1×k2×k3である。例えばいくつかの構成は、c1’=c1,c2’=c2×k1×k2×k3又はc2’=c2,c1’=c1×k1×k2×k3を含む。
(外54)
と、1組のマイクロ構造化マスク
(外55)
で学習し、各マスク
(外56)
及び重みパラメータ
(外57)
は、関心のあるQP値qpiの各QP値をターゲットとしている。この目標を達成するために、漸進的な多段階トレーニングフレームワークが使用され得る。
(外58)
を有する現在のモデルインスタンス及び対応するマスク
(外59)
をトレーニングすることであると仮定する。また、現在のQP値qpiは、学習すべき重みパラメータ
(外60)
を有する、それらの対応するTSLを有する。言い換えると、目標は、マスク
(外61)
と、更新された重みパラメータ
(外62)
と、新しい重みパラメータ
(外63)
を取得することである。
(外64)
によってマスク化重みパラメータ
(外65)
がフィックス(fix)される。例えば対応するマスクエントリ
(外66)
が1である重みパラメータである。次いで、学習プロセスが重み充填モジュール410を通して実施され、SMTLの
(外67)
内の残りのフィックスされていない重みと、TSLの重み
(外68)
を満たす(fill up)。この結果、一組の更新された重みパラメータ
(外69)
が得られる。
(外70)
と、マスク
(外71)
と、
(外72)
とに基づいて、マイクロ構造化プルーニングを実行して、プルーニングされたモデルインスタンス及びマスク、
(外73)
を取得する。
(外74)
と、対応するマスク
(外75)
が与えられると、
(外76)
によってマスクされる
(外77)
内の重みパラメータは、重み固定及び充填モジュール510においてフィックスされる。次いで、
(外78)
内の残りの重みパラメータが再初期化(reinitialized)される。例えばこれは、それらをいくつかのランダムな初期値に設定すること又は重み
(外79)
を有する第1の完全なモデルのような、以前に学習された完全なモデルの対応する重みを使用することによって行われてよい。これはSMTLの重みパラメータ
(外80)
を与える。TSLの重みパラメータ
(外81)
も初期化される(例えばそれらをいくつかのランダムな初期値に設定すること又は現在のQP値qpiについてトレーニングされた個々の完全なモデルのような、何らかの以前に学習された完全なモデルの対応する重みを使用することによって)。その後、トレーニング入力
(外82)
はMTNNを通過して、STML推論のための重みパラメータ
(外83)
及びTSL推論のための重みパラメータ
(外84)
を使用して、MTNN推論モジュール320において、出力
(外85)
を計算する。
(外86)
は、QP値qpiに対して対応するグラウンドトゥルース(ground-truth)
(外87)
を有する。例えばトレーニング入力
(外88)
は、QP値qpiを使用するビデオ圧縮方法でグラウンドトゥルース
(外89)
の圧縮されたバージョンから再構成される。トレーニングの一般的な目標は、グラウンドトゥルース
(外90)
と推定される出力
(外91)
との間の歪みを最小限にすることである。損失計算モジュール520は、MSEやSSIMのような、グラウンドトゥルース
(外92)
と推定される出力
(外93)
との間の歪みを測定するために、歪み損失
(外94)
又は推定される出力
(外95)
のいずれかを渡すことによって、特徴マップを計算することができ、グラウンドトゥルース
(外96)
及び推定される出力
(外97)
によって計算された特徴マップの間の差異を測定し、重み付けし、歪み損失
、グラウンドトゥルース
(外98)
又は推定される出力
(外99)
が、元(original)の入力であるか又はMTNNによる生成された入力であるかを分類しようと試みる。分類損失が、敵対的損失として使用され、重み付けされ、歪み損失
(外100)
及びTSLの重みパラメータ
(外101)
を更新する。このバックプロパゲーション及び重み更新モジュール540では、(例えば最大反復数に達するまで又は損失が収束するまで)複数の反復が行われてよい。
(外102)
とTSLの重み
(外103)
、並びに現在のマスク
(外104)
が与えられると、プルーニングマスク計算モジュール610はプルーニングマスクを計算する。詳細には、
(外105)
によってマスクされる更新された重みパラメータ
(外106)
は、
(外107)
内の残りのフィックスされていない重みパラメータについて、フィックスされ、前述のように、各マイクロ構造化ブロックbについて、プルーニング損失Lp(b)が計算される(例えばブロック内の重みのL1又はL2ノルム)。プルーニングマスク計算モジュール610は、マイクロ構造化ブロックを、それらの、プルーニング損失Lp(b)に基づいて昇順にランク付けし、ブロックは、停止基準に到達するまで、ランク付けされたリストからトップダウンにプルーニングされる(例えばプルーニングされたブロック内の対応する重みを0に設定することによって)。例えば検証データセットSvalが与えられると、重み
を有するMTNNモデルは、次のように歪み損失Lvalを生成する:
(外108)
を生成することができ、ここで、プルーニングマスク
(外109)
内のエントリは1であり、これは、
(外110)
内の対応する重みパラメータがプルーニングされることを意味する。次いで、バックプロパゲーション及び重み更新モジュール540において、プルーニングされているとしてマスク
(外111)
によってマスクされる重み
(外112)
内の追加のフィックスされていない重みがフィックスされ、プルーニングマスク
(外113)
のいずれによってもマスクされない残りの重み
(外114)
が更新され、重み
(外115)
が定期的なバックプロパゲーションによって更新されて、トレーニングデータに対して、組み合わされた損失(他の損失が使用されない場合は、歪み損失
)を最適化する。複数の反復が、例えば反復の最大数に達するまで又は損失が収束するまで行われ得る。
(外117)
においてマスクされていない
(外118)
内のプルーニングされていないエントリは更に、
(外119)
においてマスクされているとして1に設定される。また、上記のマイクロ構造化重みプルーニングプロセスは、更新された重み
(外120)
を出力する。上記のマイクロ構造化プルーニングプロセスは任意に、モデルサイズ及び推論計算を更に低減するために、重み
(外121)
に適用することもできることに留意されたい。すなわち、プルーニングマスク計算モジュール610はまた、TSLの重みをマイクロ構造に整形して区分化し、これらのマイクロ構造のプルーニング損失を計算し、プルーニング損失が小さい最上位にランク付けされたマイクロ構造をプルーニングすることができる。また、任意に、MTNN再構成品質と記憶及び計算のバランスを取るためにそうすることを選択することもできる。
Claims (15)
- マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタでビデオを処理する方法であって、当該方法は、少なくとも1つのプロセッサによって実行され、当該方法は、
ニューラルネットワークの第1の層のセットについて、第1のマスクのセット及び第1の複数の重みパラメータを用いて入力と複数の量子化パラメータ値とに基づいて、第1のマスク化重みパラメータのセットを生成するステップと、
前記複数の量子化パラメータ値に基づいて、第2の複数の重みパラメータを用いて、前記複数の量子化パラメータ値について、前記ニューラルネットワークの第2の層のセットを選択するステップと、
前記第1のマスク化重みパラメータのセットと前記第2の複数の重みパラメータとに基づいて、推論出力を計算するステップと、
前記計算された推論出力を出力するステップと、
を含む、方法。 - 前記ニューラルネットワークを、前記ニューラルネットワークの前記第1の層のセットと前記ニューラルネットワークの前記第2の層のセットとに分裂させるステップを更に含み、
前記ニューラルネットワークの前記第1の層のセットのモデルパラメータは、異なる量子化パラメータ値にわたって共有される共有層であり、該共有層の各々について前記第1の複数の重みパラメータのうちの対応する1つを有し、
前記ニューラルネットワークの前記第2の層のセットのモデルパラメータは、前記量子化パラメータ値の各々に対して異なるタスク固有層であり、該タスク固有層の各々について前記第2の複数の重みパラメータのうちの対応する1つを有する、
請求項1に記載の方法。 - 前記第1のマスクのセット内の各マスクは、前記第1の複数の重みパラメータのうちの対応する1つが、前記推論出力を計算するために使用されるかどうかを示すバイナリ値である、
請求項1に記載の方法。 - 前記ニューラルネットワークは、前記入力、前記推論出力及びそれぞれの量子化パラメータ値に基づいて決定される歪み損失を最小化するために、前記第1のマスクのセットによってそれぞれマスクされていない前記第1の複数の重みパラメータのうちの1つ以上を更新することによってトレーニングされる、
請求項1に記載の方法。 - 前記ニューラルネットワークは、
前記第1のマスクのセットによってそれぞれマスクされていない前記第1の複数の重みパラメータのうちの前記更新された1つ以上をプルーニングして、前記第1の複数の重みパラメータのうちのどれがプルーニングされたかを示すバイナリプルーニングマスクを取得することと、
前記歪み損失を最小化するために、前記第1のマスクのセットによってそれぞれマスクされていない前記第1の複数の重みパラメータと、前記取得されたバイナリプルーニングマスクのうちの少なくとも一方を更新することと、
によって更にトレーニングされる、請求項4に記載の方法。 - 前記第2の複数の重みパラメータに対応する第2のマスクのセットを選択するステップを更に含む、
請求項1に記載の方法。 - 前記第1の複数の重みパラメータ及び前記第1のマスクのセットの畳み込みを実行して、前記第1のマスク化重みパラメータのセットを取得するステップを更に含む、
請求項1に記載の方法。 - マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタでビデオを処理するための装置であって、
プログラムコードを記憶するよう構成される少なくとも1つのメモリと、
前記プログラムコードを読み出し、前記プログラムコードによって指示されるように動作するよう構成される少なくとも1つのプロセッサと、
を含み、前記プログラムコードは、
前記少なくとも1つのプロセッサに、ニューラルネットワークの第1の層のセットについて、第1のマスクのセット及び第1の複数の重みパラメータを用いて入力と複数の量子化パラメータ値とに基づいて、第1のマスク化重みパラメータのセットを生成させるよう構成される生成コードと、
前記少なくとも1つのプロセッサに、前記複数の量子化パラメータ値に基づいて、第2の複数の重みパラメータを用いて、前記複数の量子化パラメータ値について、前記ニューラルネットワークの第2の層のセットを選択させるよう構成される第1選択コードと、
前記少なくとも1つのプロセッサに、前記第1のマスク化重みパラメータのセットと前記第2の複数の重みパラメータとに基づいて、推論出力を計算させるよう構成される計算コードと、
前記少なくとも1つのプロセッサに、前記計算された推論出力を出力させるよう構成される出力コードと、
を含む、装置。 - 前記プログラムコードは、前記少なくとも1つのプロセッサに、前記ニューラルネットワークを、前記ニューラルネットワークの前記第1の層のセットと前記ニューラルネットワークの前記第2の層のセットとに分裂させるよう構成される分裂コードを更に含み、
前記ニューラルネットワークの前記第1の層のセットのモデルパラメータは、異なる量子化パラメータ値にわたって共有される共有層であり、該共有層の各々について前記第1の複数の重みパラメータのうちの対応する1つを有し、
前記ニューラルネットワークの前記第2の層のセットのモデルパラメータは、前記量子化パラメータ値の各々に対して異なるタスク固有層であり、該タスク固有層の各々について前記第2の複数の重みパラメータのうちの対応する1つを有する、
請求項8に記載の装置。 - 前記第1のマスクのセット内の各マスクは、前記第1の複数の重みパラメータのうちの対応する1つが、前記推論出力を計算するために使用されるかどうかを示すバイナリ値である、
請求項8に記載の装置。 - 前記ニューラルネットワークは、前記入力、前記推論出力及びそれぞれの量子化パラメータ値に基づいて決定される歪み損失を最小化するために、前記第1のマスクのセットによってそれぞれマスクされていない前記第1の複数の重みパラメータのうちの1つ以上を更新することによってトレーニングされる、
請求項8に記載の装置。 - 前記ニューラルネットワークは、
前記第1のマスクのセットによってそれぞれマスクされていない前記第1の複数の重みパラメータのうちの前記更新された1つ以上をプルーニングして、前記第1の複数の重みパラメータのうちのどれがプルーニングされたかを示すバイナリプルーニングマスクを取得することと、
前記歪み損失を最小化するために、前記第1のマスクのセットによってそれぞれマスクされていない前記第1の複数の重みパラメータと、前記取得されたバイナリプルーニングマスクのうちの少なくとも一方を更新することと、
によって更にトレーニングされる、請求項11に記載の装置。 - 前記少なくとも1つのプロセッサに、前記第2の複数の重みパラメータに対応する第2のマスクのセットを選択させるよう構成される第2選択コードを更に含む、
請求項8に記載の装置。 - 前記少なくとも1つのプロセッサに、前記第1の複数の重みパラメータ及び前記第1のマスクのセットの畳み込みを実行して、前記第1のマスク化重みパラメータのセットを取得させるよう構成される実行コードを更に含む、
請求項8に記載の装置。 - 少なくとも1つのプロセッサによって実行されると、該少なくとも1つのプロセッサに、請求項1乃至7のいずれか一項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163135994P | 2021-01-11 | 2021-01-11 | |
US63/135,994 | 2021-01-11 | ||
US17/500,339 | 2021-10-13 | ||
US17/500,339 US20220222505A1 (en) | 2021-01-11 | 2021-10-13 | Multi-task neural network by micro-structured parameter sharing for multi-quality loop filter |
PCT/US2021/055036 WO2022150082A1 (en) | 2021-01-11 | 2021-10-14 | Multi-task neural network by micro-structured parameter sharing for multi-quality loop filter |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023522163A JP2023522163A (ja) | 2023-05-29 |
JP7408835B2 true JP7408835B2 (ja) | 2024-01-05 |
Family
ID=82321908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022561031A Active JP7408835B2 (ja) | 2021-01-11 | 2021-10-14 | マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタによるビデオ処理の方法、装置及びコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220222505A1 (ja) |
EP (1) | EP4101072A4 (ja) |
JP (1) | JP7408835B2 (ja) |
KR (1) | KR20220166844A (ja) |
CN (1) | CN115462002B (ja) |
WO (1) | WO2022150082A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019031410A1 (ja) | 2017-08-10 | 2019-02-14 | シャープ株式会社 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
US20200120340A1 (en) | 2017-07-06 | 2020-04-16 | Samsung Electronics Co., Ltd. | Method and device for encoding or decoding image |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101998036B1 (ko) * | 2017-12-06 | 2019-07-08 | 한국과학기술원 | 왜곡 제거 방법 및 장치 |
US11457244B2 (en) * | 2018-04-09 | 2022-09-27 | Nokia Technologies Oy | Apparatus, a method and a computer program for video coding and decoding |
-
2021
- 2021-10-13 US US17/500,339 patent/US20220222505A1/en active Pending
- 2021-10-14 EP EP21918028.8A patent/EP4101072A4/en active Pending
- 2021-10-14 WO PCT/US2021/055036 patent/WO2022150082A1/en unknown
- 2021-10-14 JP JP2022561031A patent/JP7408835B2/ja active Active
- 2021-10-14 CN CN202180029727.0A patent/CN115462002B/zh active Active
- 2021-10-14 KR KR1020227039141A patent/KR20220166844A/ko active Search and Examination
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200120340A1 (en) | 2017-07-06 | 2020-04-16 | Samsung Electronics Co., Ltd. | Method and device for encoding or decoding image |
WO2019031410A1 (ja) | 2017-08-10 | 2019-02-14 | シャープ株式会社 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220222505A1 (en) | 2022-07-14 |
CN115462002A (zh) | 2022-12-09 |
CN115462002B (zh) | 2024-07-12 |
KR20220166844A (ko) | 2022-12-19 |
EP4101072A1 (en) | 2022-12-14 |
WO2022150082A1 (en) | 2022-07-14 |
JP2023522163A (ja) | 2023-05-29 |
EP4101072A4 (en) | 2023-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7374340B2 (ja) | ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム | |
JP7411113B2 (ja) | 品質入力を有するループフィルタのためのマスクされたニューラルネットワークによるモデル共有 | |
JP7551206B2 (ja) | イントラ予測残差を用いたマルチスケールニューラル画像圧縮のための方法および装置、およびコンピュータプログラム | |
JP7408835B2 (ja) | マルチタスクニューラルネットワークを使用するマルチ品質ループフィルタによるビデオ処理の方法、装置及びコンピュータプログラム | |
US20220335655A1 (en) | Substitutional input optimization for adaptive neural image compression with smooth quality control | |
US11652994B2 (en) | Neural image compression with adaptive intra-prediction | |
JP7471734B2 (ja) | メタ学習による滑らかな品質管理を用いた品質適応型のニューラル・ネットワーク・ベースのループフィルタ | |
JP7438611B2 (ja) | 品質適応型ニューラル・ネットワーク・ベースのループフィルタのための代替品質ファクター学習 | |
JP7434605B2 (ja) | メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム | |
JP7425870B2 (ja) | 積み重ね可能な入れ子モデル構造及びマイクロ構造化された重み統一によるマルチレートニューラル画像圧縮のための方法及び装置 | |
US20230186081A1 (en) | System, method, and computer program for iterative content adaptive online training in neural image compression | |
US20230186526A1 (en) | System, method, and computer program for content adaptive online training for multiple blocks based on certain patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221006 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7408835 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |