JP7260472B2 - 画像フィルタ装置 - Google Patents
画像フィルタ装置 Download PDFInfo
- Publication number
- JP7260472B2 JP7260472B2 JP2019535621A JP2019535621A JP7260472B2 JP 7260472 B2 JP7260472 B2 JP 7260472B2 JP 2019535621 A JP2019535621 A JP 2019535621A JP 2019535621 A JP2019535621 A JP 2019535621A JP 7260472 B2 JP7260472 B2 JP 7260472B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- filter
- prediction
- parameter
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013139 quantization Methods 0.000 claims description 137
- 238000001914 filtration Methods 0.000 claims description 54
- 238000013528 artificial neural network Methods 0.000 claims description 52
- 238000005192 partition Methods 0.000 claims description 34
- 238000013527 convolutional neural network Methods 0.000 description 284
- 239000010410 layer Substances 0.000 description 120
- 238000010586 diagram Methods 0.000 description 50
- 238000012545 processing Methods 0.000 description 49
- 238000000034 method Methods 0.000 description 40
- 230000006870 function Effects 0.000 description 36
- 230000015654 memory Effects 0.000 description 36
- 239000013598 vector Substances 0.000 description 36
- 230000005540 biological transmission Effects 0.000 description 27
- 230000033001 locomotion Effects 0.000 description 26
- 238000011176 pooling Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 102100033620 Calponin-1 Human genes 0.000 description 10
- 101000945318 Homo sapiens Calponin-1 Proteins 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000000638 solvent extraction Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 102100033591 Calponin-2 Human genes 0.000 description 5
- 101000945403 Homo sapiens Calponin-2 Proteins 0.000 description 5
- 230000004913 activation Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000011045 prefiltration Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 102100033592 Calponin-3 Human genes 0.000 description 3
- 101000945410 Homo sapiens Calponin-3 Proteins 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 208000034188 Stiff person spectrum disease Diseases 0.000 description 2
- 229920010524 Syndiotactic polystyrene Polymers 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 208000012112 ischiocoxopodopatellar syndrome Diseases 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229920000069 polyphenylene sulfide Polymers 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000002490 spark plasma sintering Methods 0.000 description 2
- 229910052727 yttrium Inorganic materials 0.000 description 2
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- 235000004257 Cordia myxa Nutrition 0.000 description 1
- 244000157795 Cordia myxa Species 0.000 description 1
- 101000666382 Homo sapiens Transcription factor E2-alpha Proteins 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 102100038313 Transcription factor E2-alpha Human genes 0.000 description 1
- 229910052770 Uranium Inorganic materials 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 229910052745 lead Inorganic materials 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 229910052721 tungsten Inorganic materials 0.000 description 1
- 229910052720 vanadium Inorganic materials 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/119—Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
- H04N19/105—Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
- H04N19/82—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation involving filtering within a prediction loop
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
以下、図面を参照しながら本発明の実施形態について説明する。
本明細書で用いる演算子を以下に記載する。
本実施形態に係る画像符号化装置11および画像復号装置31の詳細な説明に先立って、画像符号化装置11によって生成され、画像復号装置31によって復号される符号化ストリームTeのデータ構造について説明する。
符号化ビデオシーケンスでは、処理対象のシーケンスSEQを復号するために画像復号装置31が参照するデータの集合が規定されている。シーケンスSEQは、図1の(a)に示すように、ビデオパラメータセット(Video Parameter Set)、シーケンスパラメータセットSPS(Sequence Parameter Set)、ピクチャパラメータセットPPS(Picture Parameter Set)、ピクチャPICT、及び、付加拡張情報SEI(Supplemental Enhancement Information)を含んでいる。ここで#の後に示される値はレイヤIDを示す。図1では、#0と#1すなわちレイヤ0とレイヤ1の符号化データが存在する例を示すが、レイヤの種類およびレイヤの数はこれによらない。
符号化ピクチャでは、処理対象のピクチャPICTを復号するために画像復号装置31が参照するデータの集合が規定されている。ピクチャPICTは、図1の(b)に示すように、スライスS0~SNS-1を含んでいる(NSはピクチャPICTに含まれるスライスの総数)。
符号化スライスでは、処理対象のスライスSを復号するために画像復号装置31が参照するデータの集合が規定されている。スライスSは、図1の(c)に示すように、スライスヘッダSH、および、スライスデータSDATAを含んでいる。
符号化スライスデータでは、処理対象のスライスデータSDATAを復号するために画像復号装置31が参照するデータの集合が規定されている。スライスデータSDATAは、図1の(d)に示すように、符号化ツリーユニット(CTU:Coding Tree Unit)を含んでいる。CTUは、スライスを構成する固定サイズ(例えば64x64)のブロックであり、最大符号化単位(LCU:Largest Coding Unit)と呼ぶこともある。
図1の(e)に示すように、処理対象の符号化ツリーユニットを復号するために画像復号装置31が参照するデータの集合が規定されている。符号化ツリーユニットは、再帰的な4分木分割により分割される。再帰的な4分木分割により得られる木構造のノードのことを符号化ノード(CN:Coding Node)と称する。4分木の中間ノードは、符号化ノードであり、符号化ツリーユニット自身も最上位の符号化ノードとして規定される。CTUは、分割フラグ(cu_split_flag)を含み、cu_split_flagが1の場合には、4つの符号化ノードCNに分割される。cu_split_flagが0の場合には、符号化ノードCNは分割されず、1つの符号化ユニット(CU:Coding Unit)をノードとして持つ。符号化ユニットCUは符号化ノードの末端ノードであり、これ以上分割されない。符号化ユニットCUは、符号化処理の基本的な単位となる。
図1の(f)に示すように、処理対象の符号化ユニットを復号するために画像復号装置31が参照するデータの集合が規定されている。具体的には、符号化ユニットは、予測ツリー、変換ツリー、CUヘッダCUHから構成される。CUヘッダでは予測モード、分割方法(PU分割モード)等が規定される。
予測ユニット(PU:Prediction Unit)の予測画像は、PUに付随する予測パラメータによって導出される。予測パラメータには、イントラ予測の予測パラメータもしくはインター予測の予測パラメータがある。以下、インター予測の予測パラメータ(インター予測パラメータ)について説明する。インター予測パラメータは、予測リスト利用フラグpredFlagL0、predFlagL1と、参照ピクチャインデックスrefIdxL0、refIdxL1と、動きベクトルmvL0、mvL1から構成される。予測リスト利用フラグpredFlagL0、predFlagL1は、各々L0リスト、L1リストと呼ばれる参照ピクチャリストが用いられるか否かを示すフラグであり、値が1の場合に対応する参照ピクチャリストが用いられる。なお、本明細書中「XXであるか否かを示すフラグ」と記す場合、フラグが0以外(たとえば1)をXXである場合、0をXXではない場合とし、論理否定、論理積などでは1を真、0を偽と扱う(以下同様)。但し、実際の装置や方法では真値、偽値として他の値を用いることもできる。
参照ピクチャリストは、参照ピクチャメモリ306に記憶された参照ピクチャからなるリストである。図3は、参照ピクチャおよび参照ピクチャリストの一例を示す概念図である。図3(a)において、矩形はピクチャ、矢印はピクチャの参照関係、横軸は時間、矩形中のI、P、Bは各々イントラピクチャ、単予測ピクチャ、双予測ピクチャ、矩形中の数字は復号順を示す。図に示すように、ピクチャの復号順は、I0、P1、B2、B3、B4であり、表示順は、I0、B3、B2、B4、P1である。図3(b)に、参照ピクチャリストの例を示す。参照ピクチャリストは、参照ピクチャの候補を表すリストであり、1つのピクチャ(スライス)が1つ以上の参照ピクチャリストを有してもよい。図の例では、対象ピクチャB3は、L0リストRefPicList0およびL1リストRefPicList1の2つの参照ピクチャリストを持つ。対象ピクチャがB3の場合の参照ピクチャは、I0、P1、B2であり、参照ピクチャはこれらのピクチャを要素として持つ。個々の予測ユニットでは、参照ピクチャリストRefPicListX中のどのピクチャを実際に参照するかを参照ピクチャインデックスrefIdxLXで指定する。図では、refIdxL0およびrefIdxL1により参照ピクチャP1とB2が参照される例を示す。
予測パラメータの復号(符号化)方法には、マージ予測(merge)モードとAMVP(Adaptive Motion Vector Prediction、適応動きベクトル予測)モードがある、マージフラグmerge_flagは、これらを識別するためのフラグである。マージ予測モードは、予測リスト利用フラグpredFlagLX(またはインター予測識別子inter_pred_idc)、参照ピクチャインデックスrefIdxLX、動きベクトルmvLXを符号化データに含めずに、既に処理した近傍PUの予測パラメータから導出する用いるモードであり、AMVPモードは、インター予測識別子inter_pred_idc、参照ピクチャインデックスrefIdxLX、動きベクトルmvLXを符号化データに含めるモードである。なお、動きベクトルmvLXは、予測ベクトルmvpLXを識別する予測ベクトルインデックスmvp_LX_idxと差分ベクトルmvdLXとして符号化される。
動きベクトルmvLXは、異なる2つのピクチャ上のブロック間のずれ量を示す。動きベクトルmvLXに関する予測ベクトル、差分ベクトルを、それぞれ予測ベクトルmvpLX、差分ベクトルmvdLXと呼ぶ。
インター予測識別子inter_pred_idcと、予測リスト利用フラグpredFlagL0、predFlagL1の関係は以下のとおりであり、相互に変換可能である。
predFlagL0 = inter_pred_idc & 1
predFlagL1 = inter_pred_idc >> 1
なお、インター予測パラメータは、予測リスト利用フラグを用いても良いし、インター予測識別子を用いてもよい。また、予測リスト利用フラグを用いた判定は、インター予測識別子を用いた判定に置き替えてもよい。逆に、インター予測識別子を用いた判定は、予測リスト利用フラグを用いた判定に置き替えてもよい。
双予測BiPredであるかのフラグbiPredは、2つの予測リスト利用フラグがともに1であるかによって導出できる。たとえば以下の式で導出できる。
フラグbiPredは、インター予測識別子が2つの予測リスト(参照ピクチャ)を使うことを示す値であるか否かによっても導出できる。たとえば以下の式で導出できる。
上記式は、以下の式でも表現できる。
なお、PRED_BIはたとえば3の値を用いることができる。
次に、本実施形態に係る画像復号装置31の構成について説明する。図5は、本実施形態に係る画像復号装置31の構成を示す概略図である。画像復号装置31は、エントロピー復号部301、予測パラメータ復号部(予測画像復号装置)302、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)フィルタ305、参照ピクチャメモリ306、予測パラメータメモリ307、予測画像生成部(予測画像生成装置)308、逆量子化・逆変換部311、及び加算部312を含んで構成される。
図7は、本実施形態に係る予測画像生成部308に含まれるインター予測画像生成部309の構成を示す概略図である。インター予測画像生成部309は、動き補償部(予測画像生成装置)3091、重み予測部3094を含んで構成される。
動き補償部3091は、インター予測パラメータ復号部303から入力された、インター予測パラメータ(予測リスト利用フラグpredFlagLX、参照ピクチャインデックスrefIdxLX、動きベクトルmvLX)に基づいて、参照ピクチャメモリ306から、参照ピクチャインデックスrefIdxLXで指定された参照ピクチャRefXにおいて、復号対象PUの位置を起点として、動きベクトルmvLXだけずれた位置にあるブロックを読み出すことによって補間画像(動き補償画像predSamplesLX)を生成する。ここで、動きベクトルmvLXの精度が整数精度でない場合には、動き補償フィルタと呼ばれる小数位置の画素を生成するためのフィルタを施して、動き補償画像を生成する。
重み予測部3094は、入力される動き補償画像predSamplesLXに重み係数を乗算することによりPUの予測画像を生成する。
次に、本実施形態に係る画像符号化装置11の構成について説明する。図4は、本実施形態に係る画像符号化装置11の構成を示すブロック図である。画像符号化装置11は、予測画像生成部101、減算部102、変換・量子化部103、エントロピー符号化部104、逆量子化・逆変換部105、加算部106、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)フィルタ107、予測パラメータメモリ(予測パラメータ記憶部、フレームメモリ)108、参照ピクチャメモリ(参照画像記憶部、フレームメモリ)109、符号化パラメータ決定部110、予測パラメータ符号化部111を含んで構成される。予測パラメータ符号化部111は、インター予測パラメータ符号化部112及びイントラ予測パラメータ符号化部113を含んで構成される。
CNNフィルタ107は、本実施形態に係る画像フィルタ装置の一例である。本実施形態に係る画像フィルタ装置は、局所復号画像に作用させるフィルタとして機能する。本実施形態に係る画像フィルタ装置は、輝度又は色差を画素値とする1又は複数の第1種の入力画像データと、予測画像及び差分画像を生成するための参照パラメータに応じた値を画素値とする1又は複数の第2種の入力画像データとが入力され、輝度又は色差を画素値とする1又は複数の第1種の出力画像データを出力するニューラルネットワークを備えている。
・入力画像におけるイントラ予測及びインター予測の種別を示すパラメータ
・入力画像におけるイントラ予測方向を示すパラメータ(イントラ予測モード)
・入力画像におけるインター予測の参照ピクチャを示すパラメータ
・入力画像におけるパーティションの分割深度を示すパラメータ
・入力画像におけるパーティションのサイズを示すパラメータ
なお、参照パラメータのことを、特に混乱がない限り、単にパラメータと呼ぶこともある。また、参照パラメータを符号化データにおいて明示的に伝送してもよい。
(2)act(conv(x)):convolutionの後にactivation(非線形関数、例えば、sigmoid, tanh, relu, elu、seluなど)を実施する構成
(3)batch_norm(act(conv(x))):convolutionとactivationの後にバッチノーマライゼーション(入力のレンジの正規化)を実施する構成
(4)act(batch_norm(conv(x))):convolutionとactivationの間にバッチノーマライゼーション(入力のレンジの正規化)を実施する構成
(5)pooling:conv層間で情報の圧縮、ダウンサイジングを実施する構成
またCNNフィルタ107は、convX層の他に、次の層の少なくとも何れかを含む構成であってもよい。
(6)add/sub:要素単位で加算する構成(減算する構成を含む)
(7)concatenate/stack:複数の入力を積み上げて新たな大きな入力を構成する構成
(8)fcn:フルコネクトされたフィルタを実施する構成
(9)lcn:一部コネクトされたフィルタを実施する構成
図9に示す例においては、CNNフィルタ107は、3つのconvX層(conv1,conv2,conv3)とadd層とを含む。入力されるフィルタ前画像は、(N1+N2)xH1xW1のサイズを有する。ここで、N1は画像のチャネル数を示す。例えば、フィルタ前画像が輝度(Y)のチャネルのみを含む場合は、N1は「1」である。Y、Cb、Crのチャネルを含む場合にはN1は「3」である。R, G, Bのチャネルを含む場合にはN1は「3」である。W1はピクチャの幅パッチサイズであり、H1はピクチャの高さパッチサイズである。N2は符号化パラメータのチャネル数を示す。例えば、符号化パラメータが量子化パラメータ(QP)のチャネルのみを含む場合は、N2は「1」である。add層を備える構成は、フィルタ後画像とフィルタ前画像の差分(residual)をCNNフィルタで予測する構成であり、特に、CNN層が深くなる構成で有効であることが知られている。なお、residualを導出する層を複数重ねるResNetと呼ばれる構成が知られているように、add層は1つに限定されず複数のadd層があっても良い。
量子化パラメータ(QP)は、画像の圧縮率と画質とを制御するパラメータである。本実施形態において量子化パラメータ(QP)は、値が大きいほど画質が低くなり符号量が減少する特性、および値が小さいほど画質が高くなり符号量が増加する特性を有する。量子化パラメータ(QP)として、例えば、予測残差の量子化幅を導出するパラメータを用いることができる。
CNNフィルタ107は、訓練データ、および誤差関数を用いて学習する。
本発明の他の実施形態について、図18に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。CNNフィルタのネットワーク構成は様々な形式が考えられる。図18に示す第2の実施形態は、第1の実施形態で説明したネットワーク構成(図9、図10)とは、別のネットワーク構成のCNNフィルタの例を示すものであり、第1の実施形態と同じ効果を有する。
本発明の他の実施形態について、図19~20に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
本発明の他の実施形態について、図22に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
本発明の他の実施形態について、図24に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
本発明の他の実施形態について、図25に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
図25の(a)に本実施形態の第1の例を示す。第1の例では、画像フィルタ装置107gは、CNNフィルタ107g1とサンプルアダプティブオフセット(SAO)107g2とを含む。CNNフィルタ107g1は、ブロック歪みを低減するフィルタとして機能する。
図25の(b)に本実施形態の第2の例を示す。第2の例では、画像フィルタ装置107hは、デブロッキングフィルタ(DF)107h1とCNNフィルタ107g2とを含む。CNNフィルタ107h2は、デブロッキングフィルタの後段でさらにリンギングノイズを低減するフィルタとして機能する。
図25の(c)に本実施形態の第3の例を示す。第3の例では、画像フィルタ装置107iは、第1のCNNフィルタ107i1と第2のCNNフィルタ107i2とを含む。第1のCNNフィルタ107i1は、ブロック歪みを低減するフィルタとして機能し、第2のCNNフィルタ107i2は、ブロック歪みを低減するフィルタの後段でさらにリンギングノイズを低減するフィルタとして機能する。
本発明の他の実施形態について、図26~図30に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、その説明を省略する。
上述した画像符号化装置11及び画像復号装置31は、動画像の送信、受信、記録、再生を行う各種装置に搭載して利用することができる。なお、動画像は、カメラ等により撮像された自然動画像であってもよいし、コンピュータ等により生成された人工動画像(CGおよびGUIを含む)であってもよい。
また、上述した画像復号装置31および画像符号化装置11の各ブロックは、集積回路(ICチップ)上に形成された論理回路によってハードウェア的に実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェア的に実現してもよい。
本発明の態様1に係る画像フィルタ装置(CNNフィルタ107,305)は、輝度又は色差を画素値とする1又は複数の第1種の入力画像データと、予測画像及び差分画像を生成するための参照パラメータに応じた値を画素値とする1又は複数の第2種の入力画像データとが入力され、輝度又は色差を画素値とする1又は複数の第1種の出力画像データを出力するニューラルネットワークを備えている。
〔関連出願の相互参照〕
本出願は、2017年8月10日に出願された出願番号2017-155903号、2018年3月20日に出願された出願番号2018-053226号の出願に関するものであって上記出願を基礎として優先権を主張するものである。上記出願の内容は、参照により本明細書に含まれる。
31 画像復号装置
107 CNNフィルタ(画像フィルタ装置)
114 CNNパラメータ決定部(パラメータ決定部)
Claims (8)
- 画像フィルタ装置において、
輝度又は色差を画素値とする1又は複数の第1種の入力画像データと、予測画像又は差分画像を生成するために参照する参照パラメータの値の画素値である1又は複数の第2種の入力画像データとが入力され、輝度又は色差を画素値とする1又は複数の第1種の出力画像データを出力する第1のニューラルネットワークを備え、
上記第2種の入力画像データは、領域ごとに指定され、
上記第2種の入力画像データは、チャネルの1つとして上記第1のニューラルネットワークに入力されるデータであることを特徴とする画像フィルタ装置。 - ニューラルネットワークパラメータを更新するパラメータ決定部をさらに備えることを特徴とする請求項1に記載の画像フィルタ装置。
- 上記参照パラメータには、量子化パラメータが含まれることを特徴とする請求項1または2に記載の画像フィルタ装置。
- 上記参照パラメータには、イントラ予測及びインター予測の種別を示すパラメータが含まれることを特徴とする請求項1から3の何れか1項に記載の画像フィルタ装置。
- 上記参照パラメータには、イントラ予測方向を示すイントラ予測モードが含まれることを特徴とする請求項1から4の何れか1項に記載の画像フィルタ装置。
- 上記参照パラメータには、パーティションの分割深度を示すパラメータが含まれることを特徴とする請求項1から5の何れか1項に記載の画像フィルタ装置。
- 上記参照パラメータには、パーティションのサイズを示すパラメータが含まれることを特徴とする請求項1から6の何れか1項に記載の画像フィルタ装置。
- 上記第1のニューラルネットワークは、上記第1種の入力画像データが入力される第1のニューラルネットワークフィルタと、該第1ニューラルネットワークフィルタの出力および上記第2種の入力画像データが入力される第2のニューラルネットワークフィルタとから構成され、
上記第2のニューラルネットワークフィルタからの出力は、上記第1のニューラルネットワークの出力であることを特徴とする請求項1から7の何れか1項に記載の画像フィルタ装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023062262A JP2023076688A (ja) | 2017-08-10 | 2023-04-06 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017155903 | 2017-08-10 | ||
JP2017155903 | 2017-08-10 | ||
JP2018053226 | 2018-03-20 | ||
JP2018053226 | 2018-03-20 | ||
PCT/JP2018/029247 WO2019031410A1 (ja) | 2017-08-10 | 2018-08-03 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023062262A Division JP2023076688A (ja) | 2017-08-10 | 2023-04-06 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019031410A1 JPWO2019031410A1 (ja) | 2020-08-27 |
JP7260472B2 true JP7260472B2 (ja) | 2023-04-18 |
Family
ID=65272386
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019535621A Active JP7260472B2 (ja) | 2017-08-10 | 2018-08-03 | 画像フィルタ装置 |
JP2023062262A Pending JP2023076688A (ja) | 2017-08-10 | 2023-04-06 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023062262A Pending JP2023076688A (ja) | 2017-08-10 | 2023-04-06 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11631199B2 (ja) |
JP (2) | JP7260472B2 (ja) |
CN (2) | CN111373751B (ja) |
WO (1) | WO2019031410A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562115B2 (en) | 2017-01-04 | 2023-01-24 | Stmicroelectronics S.R.L. | Configurable accelerator framework including a stream switch having a plurality of unidirectional stream links |
JP6617783B2 (ja) | 2018-03-14 | 2019-12-11 | カシオ計算機株式会社 | 情報処理方法、電子機器及びプログラム |
CN110874605B (zh) * | 2018-08-31 | 2024-05-03 | 嘉楠明芯(北京)科技有限公司 | 图像识别处理方法和装置 |
CN110956575B (zh) * | 2018-09-26 | 2022-04-12 | 京东方科技集团股份有限公司 | 转变图像风格的方法和装置、卷积神经网络处理器 |
JP7350082B2 (ja) * | 2019-03-07 | 2023-09-25 | オッポ広東移動通信有限公司 | ループフィルタリング方法、装置およびコンピュータ記憶媒体 |
CN113747179B (zh) * | 2019-03-07 | 2023-08-08 | Oppo广东移动通信有限公司 | 环路滤波实现方法、装置及计算机存储介质 |
JP7026065B2 (ja) * | 2019-03-12 | 2022-02-25 | Kddi株式会社 | 画像復号装置、画像復号方法及びプログラム |
CN113490953A (zh) * | 2019-03-14 | 2021-10-08 | Oppo广东移动通信有限公司 | 预测值的确定方法、解码器以及计算机存储介质 |
KR20210139342A (ko) * | 2019-03-24 | 2021-11-22 | 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 | 필터링 방법, 장치, 인코더 및 컴퓨터 저장 매체 |
BR112021000379A2 (pt) * | 2019-04-26 | 2021-04-13 | Huawei Technologies Co., Ltd. | Método e aparelho para sinalização de função de mapeamento de parâmetro de quantização de croma |
CN109996084B (zh) * | 2019-04-30 | 2022-11-01 | 华侨大学 | 一种基于多分支卷积神经网络的hevc帧内预测方法 |
US11166022B2 (en) | 2019-06-04 | 2021-11-02 | Google Llc | Quantization constrained neural image coding |
US11593609B2 (en) | 2020-02-18 | 2023-02-28 | Stmicroelectronics S.R.L. | Vector quantization decoding hardware unit for real-time dynamic decompression for parameters of neural networks |
US11838519B2 (en) * | 2020-02-28 | 2023-12-05 | Lg Electronics Inc. | Image encoding/decoding method and apparatus for signaling image feature information, and method for transmitting bitstream |
US11531873B2 (en) | 2020-06-23 | 2022-12-20 | Stmicroelectronics S.R.L. | Convolution acceleration with embedded vector decompression |
US11477464B2 (en) * | 2020-09-16 | 2022-10-18 | Qualcomm Incorporated | End-to-end neural network based video coding |
US20220191482A1 (en) * | 2020-12-16 | 2022-06-16 | Tencent America LLC | Method and apparatus for video coding |
US20220222505A1 (en) * | 2021-01-11 | 2022-07-14 | Tencent America LLC | Multi-task neural network by micro-structured parameter sharing for multi-quality loop filter |
US11490085B2 (en) | 2021-01-14 | 2022-11-01 | Tencent America LLC | Model sharing by masked neural network for loop filter with quality inputs |
US20220383554A1 (en) | 2021-05-18 | 2022-12-01 | Tencent America LLC | Substitutional quality factor learning for quality-adaptive neural network-based loop filter |
WO2023149367A1 (en) * | 2022-02-02 | 2023-08-10 | Sharp Kabushiki Kaisha | Systems and methods for improving object detection in compressed feature data in coding of multi-dimensional data |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016199330A1 (ja) | 2015-06-12 | 2016-12-15 | パナソニックIpマネジメント株式会社 | 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置 |
JP2017055434A (ja) | 2011-10-28 | 2017-03-16 | サムスン エレクトロニクス カンパニー リミテッド | ビデオのイントラ予測方法及びその装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6259479B1 (en) * | 1997-09-17 | 2001-07-10 | Sony Corporation | Letterbox filter apparatus and method |
KR100743818B1 (ko) * | 2001-09-12 | 2007-07-30 | 마쯔시다덴기산교 가부시키가이샤 | 화상 부호화 방법 및 화상 복호화 방법 |
BRPI0706378A2 (pt) * | 2006-01-09 | 2011-03-22 | Lg Eletronics Inc | método de predição intercamadas para sinal de vìdeo |
CN101267560A (zh) * | 2008-03-19 | 2008-09-17 | 浙江大学 | 去块滤波方法及装置 |
CN101635849B (zh) * | 2008-07-24 | 2011-11-16 | 青岛海信信芯科技有限公司 | 一种环路滤波方法及环路滤波器 |
CN101505425B (zh) * | 2009-03-11 | 2011-11-23 | 北京中星微电子有限公司 | 一种宏块滤波方法及装置 |
CN101651829A (zh) * | 2009-06-29 | 2010-02-17 | 北京中星微电子有限公司 | 一种环路滤波的方法、装置及一种移动多媒体终端芯片 |
JP5973434B2 (ja) * | 2011-06-23 | 2016-08-23 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 画像フィルタ装置、フィルタ方法および動画像復号装置 |
KR102111917B1 (ko) * | 2011-06-30 | 2020-05-18 | 미쓰비시덴키 가부시키가이샤 | 화상 부호화 장치, 화상 복호 장치, 화상 부호화 방법, 화상 복호 방법 및 기억 매체 |
EP3146463B1 (en) * | 2014-05-23 | 2020-05-13 | Ventana Medical Systems, Inc. | Systems and methods for detection of biological structures and/or patterns in images |
KR102124714B1 (ko) * | 2015-09-03 | 2020-06-19 | 미디어텍 인크. | 비디오 코딩에서의 신경망 기반 프로세싱의 방법 및 장치 |
CN108932697B (zh) * | 2017-05-26 | 2020-01-17 | 杭州海康威视数字技术股份有限公司 | 一种失真图像的去失真方法、装置及电子设备 |
WO2019009448A1 (ko) * | 2017-07-06 | 2019-01-10 | 삼성전자 주식회사 | 영상을 부호화 또는 복호화하는 방법 및 장치 |
-
2018
- 2018-08-03 US US16/636,669 patent/US11631199B2/en active Active
- 2018-08-03 CN CN201880051253.8A patent/CN111373751B/zh active Active
- 2018-08-03 WO PCT/JP2018/029247 patent/WO2019031410A1/ja active Application Filing
- 2018-08-03 JP JP2019535621A patent/JP7260472B2/ja active Active
- 2018-08-03 CN CN202310118912.8A patent/CN116170590A/zh active Pending
-
2023
- 2023-04-06 JP JP2023062262A patent/JP2023076688A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017055434A (ja) | 2011-10-28 | 2017-03-16 | サムスン エレクトロニクス カンパニー リミテッド | ビデオのイントラ予測方法及びその装置 |
WO2016199330A1 (ja) | 2015-06-12 | 2016-12-15 | パナソニックIpマネジメント株式会社 | 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2019031410A1 (ja) | 2020-08-27 |
CN111373751B (zh) | 2023-02-28 |
JP2023076688A (ja) | 2023-06-01 |
CN116170590A (zh) | 2023-05-26 |
CN111373751A (zh) | 2020-07-03 |
US20210150767A1 (en) | 2021-05-20 |
WO2019031410A1 (ja) | 2019-02-14 |
US11631199B2 (en) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7260472B2 (ja) | 画像フィルタ装置 | |
JP7223886B2 (ja) | 画像復号方法 | |
WO2018199001A1 (ja) | 画像復号装置及び画像符号化装置 | |
WO2018116802A1 (ja) | 画像復号装置、画像符号化装置、及び画像予測装置 | |
JP7213689B2 (ja) | 画像復号装置及び画像符号化装置 | |
WO2018221368A1 (ja) | 動画像復号装置、及び動画像符号化装置 | |
JP2021010046A (ja) | 画像符号化装置及び画像復号装置 | |
WO2019182159A1 (ja) | 画像フィルタ装置、画像復号装置、及び画像符号化装置 | |
JP2021005741A (ja) | 画像符号化装置及び画像復号装置 | |
WO2019221072A1 (ja) | 画像符号化装置、符号化ストリーム抽出装置及び画像復号装置 | |
WO2019131400A1 (ja) | 画像フィルタ装置、画像復号装置、および画像符号化装置 | |
JP7139144B2 (ja) | 画像フィルタ装置 | |
WO2019087905A1 (ja) | 画像フィルタ装置、画像復号装置、および画像符号化装置 | |
JP7241153B2 (ja) | 画像復号装置 | |
JP2020120141A (ja) | 動画像符号化装置及び動画像復号装置、フィルタ装置 | |
JP2020109884A (ja) | 動画像符号化装置及び動画像復号装置 | |
JP7073186B2 (ja) | 画像フィルタ装置 | |
WO2019131349A1 (ja) | 画像復号装置、画像符号化装置 | |
JP2019201332A (ja) | 画像符号化装置、画像復号装置、及び画像符号化システム | |
WO2018061550A1 (ja) | 画像復号装置及び画像符号化装置 | |
JP7409802B2 (ja) | 動画像復号装置および動画像符号化装置 | |
JP7332753B2 (ja) | 画像フィルタ装置 | |
JP2020068462A (ja) | 画像ビット階調拡張フィルタ装置及び画像符号化装置、画像復号装置 | |
WO2019065537A1 (ja) | 動き補償フィルタ装置、画像復号装置および動画像符号化装置 | |
JP2021064817A (ja) | 動画像符号化装置及び動画像復号装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210330 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230307 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230406 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7260472 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |