JP7475842B2 - Image decoding device, control method, and program - Google Patents
Image decoding device, control method, and program Download PDFInfo
- Publication number
- JP7475842B2 JP7475842B2 JP2019213302A JP2019213302A JP7475842B2 JP 7475842 B2 JP7475842 B2 JP 7475842B2 JP 2019213302 A JP2019213302 A JP 2019213302A JP 2019213302 A JP2019213302 A JP 2019213302A JP 7475842 B2 JP7475842 B2 JP 7475842B2
- Authority
- JP
- Japan
- Prior art keywords
- inference
- data
- subband
- parameters
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 45
- 238000013139 quantization Methods 0.000 claims description 73
- 230000006835 compression Effects 0.000 claims description 28
- 238000007906 compression Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 230000015556 catabolic process Effects 0.000 description 71
- 238000006731 degradation reaction Methods 0.000 description 71
- 238000010586 diagram Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 15
- 238000000354 decomposition reaction Methods 0.000 description 13
- 230000009466 transformation Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 210000002569 neuron Anatomy 0.000 description 9
- 230000002441 reversible effect Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Description
本発明は、符号化されたデータを復号する画像復号装置、制御方法、およびプログラムに関する。 The present invention relates to an image decoding device, a control method, and a program for decoding encoded data.
近年、CCDセンサやCMOSセンサ等のイメージセンサを採用した撮像素子を有するデジタルカメラやデジタルカムコーダ等の撮像装置が使用されている。以上のようなイメージセンサにおいては、センサ表面に設けられたカラーフィルタアレイ(CFA)によって1画素が1つの色成分を構成する。CFAを用いることによって、例えば、図1に示すような周期的なパターンで色成分(R(赤)、G0(緑)、B(青)、G1(緑))が配置されたベイヤー配列の画像データ(以下、RAWデータと称することがある)が取得される。 In recent years, imaging devices such as digital cameras and digital camcorders have been used that have imaging elements that use image sensors such as CCD sensors and CMOS sensors. In such image sensors, one pixel constitutes one color component due to a color filter array (CFA) provided on the sensor surface. By using a CFA, image data (hereinafter sometimes referred to as RAW data) in a Bayer array in which color components (R (red), G0 (green), B (blue), G1 (green)) are arranged in a periodic pattern as shown in Figure 1 can be obtained.
人間の視覚特性は、輝度成分に対して相対的に高い感度を有している。以上の知見に基づき、一般的なベイヤー配列においては、図1に示すように、輝度成分をより多く含む緑成分の画素数が、赤成分の画素数および青成分の画素数よりもそれぞれ2倍となるように割り当てられている。 Human vision has a relatively high sensitivity to luminance components. Based on the above knowledge, in a typical Bayer array, as shown in Figure 1, the number of pixels for the green component, which contains more luminance components, is allocated to be twice as many as the number of pixels for the red component and the number of pixels for the blue component.
したがって、RAWデータの各画素は1つの色成分の情報のみを有する。撮像装置の画像処理において、RAWデータに対してデモザイク処理を実行することによって各画素が赤、青、緑の色成分を有することとなる。一般には、RAWデータに対するデモザイク処理によって取得されたRGB信号、またはRGB信号から変換されたYUV信号を符号化した画像データが撮像装置に記録される。 Therefore, each pixel of the RAW data only has information for one color component. In image processing by the imaging device, demosaic processing is performed on the RAW data, so that each pixel has red, blue, and green color components. Generally, image data that encodes the RGB signal obtained by demosaic processing of the RAW data, or the YUV signal converted from the RGB signal, is recorded in the imaging device.
以上のデモザイク処理によって各画素がRGBまたはYUVの3つの色成分を有することとなった画像データは、元のRAWデータの3倍のデータ量を必要とする。したがって、デモザイク処理を実行していないRAWデータ自体を直接的に符号化して記録することによりデータ容量を低減する手法が提案されている。例えば、特許文献1には、RAWデータをR、G0、B、G1の4つの色プレーンに分離した後に符号化する手法が開示されている。
Image data in which each pixel has three color components, RGB or YUV, due to the above demosaic processing requires three times the amount of data as the original RAW data. Therefore, a method has been proposed to reduce the data volume by directly encoding and recording the RAW data itself that has not been subjected to demosaic processing. For example,
上記した符号化に関し、ウェーブレット変換等の周波数変換によって周波数帯(例えば、サブバンド)毎にデータを符号化する場合、周波数帯毎に量子化の程度が異なるケースが存在する。以上のように符号化されたデータを周波数帯に関わらず一括して処理すると、元のデータを精度良く復元できないという課題がある。 Regarding the above-mentioned encoding, when data is encoded for each frequency band (e.g., subband) by frequency transformation such as wavelet transform, there are cases where the degree of quantization differs for each frequency band. If the encoded data as described above is processed collectively regardless of the frequency band, there is a problem that the original data cannot be restored with high accuracy.
以上の事情に鑑み、本発明は、符号化されたデータをより高精度に復元することができる画像復号装置、制御方法、およびプログラムを提供することを目的とする。 In view of the above, the present invention aims to provide an image decoding device, a control method, and a program that can restore encoded data with higher accuracy.
上記目的を達成するために、本発明の画像復号装置は、画像データに対して周波数変換を行うことにより得られた複数のサブバンドデータを、サブバンド毎に量子化して符号化することにより得られた符号化データを復号する画像復号装置であって、前記符号化データを復号する復号手段と、前記復号手段により復号したデータを逆量子化して、複数のサブバンドデータを取得する逆量子化手段と、前記逆量子化手段により取得した前記複数のサブバンドデータに対して推論を実行することにより、量子化により劣化したデータが復元された複数のサブバンドデータを取得する推論手段であって、前記複数のサブバンド毎に、サブバンドに対応する推論パラメータを用いて、当該サブバンドに対応するサブバンドデータに対して推論を実行する推論手段と、を備え、前記推論手段は、前記複数のサブバンドにそれぞれ対応するように学習された推論パラメータである第1の推論パラメータを用いて、前記複数のサブバンドデータに対する第1の推論を実行し、学習された第2の推論パラメータを用いて、前記第1の推論によって復元された後のサブバンドデータに対する第2の推論を実行する、ことを特徴とする。 In order to achieve the above object, an image decoding device of the present invention is an image decoding device that decodes encoded data obtained by quantizing and encoding a plurality of subband data obtained by performing a frequency transform on image data , and includes a decoding means for decoding the encoded data, an inverse quantization means for inverse quantizing the data decoded by the decoding means to obtain a plurality of subband data, and an inference means for performing inference on the plurality of subband data obtained by the inverse quantization means to obtain a plurality of subband data in which data deteriorated by quantization has been restored, the inference means performing inference on the subband data corresponding to each of the plurality of subbands using inference parameters corresponding to the subband , the inference means performing a first inference on the plurality of subband data using first inference parameters which are inference parameters learned to correspond to each of the plurality of subbands, and performing a second inference on the subband data restored by the first inference using the learned second inference parameters .
本発明によれば、符号化されたデータをより高精度に復元することができる。 The present invention makes it possible to restore encoded data with higher accuracy.
以下、本発明の実施形態について添付図面を参照しながら詳細に説明する。以下に説明される各実施形態は、本発明を実現可能な構成の一例に過ぎない。以下の各実施形態は、本発明が適用される装置の構成や各種の条件に応じて適宜に修正または変更することが可能である。また、以下の各実施形態に含まれる要素の組合せの全てが本発明を実現するに必須であるとは限られず、要素の一部を適宜に省略することが可能である。したがって、本発明の範囲は、以下の各実施形態に記載される構成によって限定されるものではない。また、相互に矛盾のない限りにおいて実施形態内に記載された複数の構成を組み合わせた構成も採用可能である。 The following describes in detail the embodiments of the present invention with reference to the accompanying drawings. Each embodiment described below is merely one example of a configuration that can realize the present invention. Each of the following embodiments can be modified or changed as appropriate depending on the configuration of the device to which the present invention is applied and various conditions. Furthermore, not all of the combinations of elements included in each of the following embodiments are necessarily essential to realize the present invention, and some of the elements can be omitted as appropriate. Therefore, the scope of the present invention is not limited to the configurations described in each of the following embodiments. Furthermore, a configuration that combines multiple configurations described in the embodiments can be adopted as long as there are no mutual contradictions.
<第1実施形態>
本発明の第1実施形態に係る画像復号装置60を説明するのに先立ち、画像復号装置60によって復号されるべき符号化データの生成について、図2から図6を参照して説明する。
First Embodiment
Prior to describing the
図2は、本発明の実施形態に係る画像符号化装置20の構成を例示するブロック図である。図2に示すように、画像符号化装置20は、プレーン変換部200、周波数変換部201、量子化部202、量子化パラメータ設定部203、およびエントロピー符号化部204を含む。
FIG. 2 is a block diagram illustrating a configuration of an
本実施形態において、符号化方式としてJPEG2000が例示され、周波数変換方式として可逆5-3DWT変換が例示される。しかしながら、本発明は以上の方式に限定されず、任意の符号化方式および周波数変換方式が採用され得る。また、本実施形態の量子化パラメータは、DWT変換によって分割されたサブバンド(周波数帯)毎に設定される。 In this embodiment, JPEG2000 is exemplified as an encoding method, and reversible 5-3 DWT is exemplified as a frequency transform method. However, the present invention is not limited to the above methods, and any encoding method and frequency transform method may be adopted. In addition, the quantization parameter in this embodiment is set for each subband (frequency band) divided by the DWT transform.
プレーン変換部200は、撮像素子を含む撮像手段から入力される画像データ(RAWデータ)に対して色分離を実行する。すなわち、プレーン変換部200は、図3に示すように、ベイヤー配列の色要素を含むRAWデータを、色プレーン(R、G0、G1、B)毎の独立したプレーンデータに分解して、周波数変換部201に出力する。
The
周波数変換部201は、プレーン変換部200から入力されるプレーンデータに対して、それぞれウェーブレット変換を実行して、サブバンド毎に変換係数(サブバンド係数)を生成し、量子化部202に出力する。変換係数は、対象データ(すなわち、プレーンデータ)とウェーブレットとの相関を示す値である。前述したように、周波数変換部201は、ウェーブレット変換として可逆5-3DWT変換を実行する。
The
図4および図5を参照して、可逆5-3DWT変換(以下、単に「DWT変換」と称する)について説明する。図4は、プレーン変換部200から出力された画素データ(プレーンデータ)に対するDWT変換によって生成される変換係数(DWT係数)を説明する説明図である。図5は、サブバンド分解についての説明図である。
The reversible 5-3 DWT transform (hereinafter simply referred to as "DWT transform") will be described with reference to Figures 4 and 5. Figure 4 is an explanatory diagram explaining transform coefficients (DWT coefficients) generated by DWT transform of pixel data (plane data) output from the
周波数変換部201が、画素データa,b,c,d,eに対してDWT変換を実行すると、高周波成分のDWT係数b’,d’が生成される。より具体的には、周波数変換部201は、画素データa,b,cに対して以下の式(1)を適用してDWT係数b’を生成すると共に、画素データc,d,eに対して以下の式(2)に適用してDWT係数d’を生成する。なお、高周波成分のDWT係数を生成する式(1)および式(2)は、使用する画素データが互いに相違しているが型は同一である。
b’=b-(a+c)/2 ……式(1)
d’=d-(c+e)/2 ……式(2)
When the
b'=b-(a+c)/2 ......Equation (1)
d'=d-(c+e)/2 ... Equation (2)
次いで、周波数変換部201が、画素データcおよび高周波成分のDWT係数b’,d’に対してDWT変換を実行すると、低周波成分のDWT係数c”が生成される。より具体的には、画素データcおよびDWT係数b’,d’に対して以下の式(3)を適用してDWT係数c”を生成する。
c”=c+(b’+d’+2)/4 ……式(3)
Next, the
c" = c + (b' + d' + 2) / 4 ... formula (3)
なお、周波数変換部201は、式(3)に代えて、画素データa,b,c,d,eに対して以下の式(4)を適用してDWT係数c”を生成してもよい。
c”=(a+2b+6c+2d-e)/8 ……式(4)
Note that the
c" = (a + 2b + 6c + 2d - e) / 8 ... formula (4)
周波数変換部201が、上述した1次元のDWT変換を垂直方向および水平方向に亘ってプレーンデータに対して実行することで、図5(a)に示すような分解レベル1の4つのサブバンド画像の信号が取得される。すなわち、以上のDWT変換によって、1つのプレーン画像が4つのサブバンド画像1LL,1HL,1LH,1HHに分解される。図5において、「H」は高周波成分を示し、「L」は低周波成分を示す。例えば、図5(a)の右下の「1HH」は、水平方向および垂直方向の双方が高周波成分(H)である分解レベル1のサブバンドを示す。
The
図5(a)に示すように、分解レベル1の各サブバンドの水平方向および垂直方向の係数の数は、入力された画素データのそれぞれの係数の数の半分である。また、図5(b)に示すように、サブバンド1LLに対してさらにDWT変換を実行した分解レベル2の各サブバンドの水平方向および垂直方向の係数の数は、分解レベル1のサブバンドのそれぞれの係数の数の半分である。
As shown in FIG. 5(a), the number of horizontal and vertical coefficients in each subband of
量子化部202は、周波数変換部201から入力されるサブバンド毎のDWT係数(変換係数)を、後述する量子化パラメータ設定部203によって設定された量子化パラメータに従って量子化して、エントロピー符号化部204に出力する。
The
量子化パラメータ設定部203は、ユーザからの指示等によって設定された圧縮率にしたがって、各サブバンドのDWT係数を量子化する際の量子化パラメータを特定して、量子化部202に設定する。一般に、サブバンドの周波数がより高いほど、またはサブバンドの分解レベルが低いほど、より強く量子化が実行されるようにパラメータを設定することで、同一の符号量で画質を向上させることができる。以上のようなサブバンドほど、量子化した際の視覚的な影響が小さいからである。本例において、分解レベル2までの周波数変換を実行する場合は、量子化の強度が2HH>2HL≒2LH>1HH>1HL≒1LH>1LLとなるように、量子化パラメータ設定部203がパラメータを設定すると好適である。
The quantization
エントロピー符号化部204は、量子化部202において量子化されたDWT係数および量子化パラメータを符号化して符号化データを生成し、符号化ストリームとして出力する。以上の符号化においては、例えば、EBCOT(Embedded Block Coding with Optimized Truncation)等のエントロピー符号化が実行される。
The
次いで、本発明の第1実施形態に係る画像復号装置60の構成および復号手法について説明する。画像復号装置60は、上記した画像符号化装置20が生成した符号化データ(サブバンド符号化された画像データ)を以下に説明するように復号して、元の画像データ(ベイヤー配列のRAWデータ)を復元する。
Next, the configuration and decoding method of the
図6は、本発明の第1実施形態に係る画像復号装置60の構成を例示するブロック図である。図6に示すように、画像復号装置60は、エントロピー復号部600、逆量子化部601、周波数劣化復元部602、逆周波数変換部603、ベイヤー変換部604、および周波数パラメータ設定部605を機能ブロックとして含む。
Figure 6 is a block diagram illustrating the configuration of an
以上の機能ブロックによって実行される以下の本実施形態の処理は、画像復号装置60が有する1以上の制御プロセッサが、ROM等の不揮発メモリ内のプログラムをRAM等の揮発メモリに展開して実行することによって実現される。上記した本実施形態の処理には、本実施形態による後述の学習モデル(ニューラルネットワーク)を用いた学習および推論が含まれる。
The following processing of this embodiment, which is executed by the above functional blocks, is realized by one or more control processors of the
エントロピー復号部600は、EBCOTのようなエントロピー符号化手法によって符号化されたDWT係数および量子化パラメータを復号して、復号されたDWT係数を取得し、逆量子化部601に出力する。
The
逆量子化部601は、エントロピー復号部600から入力された復号後のDWT係数を、量子化パラメータを用いて逆量子化して、逆量子化されたDWT係数を取得し、周波数劣化復元部602に出力する。
The
周波数パラメータ設定部605は、サブバンド毎および圧縮率毎に学習されたニューラルネットワークのパラメータ(重みおよびバイアス)を、復号される符号化ストリームの圧縮率に応じて選択して周波数劣化復元部602に設定する。以下、ニューラルネットワーク(Neural Network)を「NN」と省略することがある。
The frequency
周波数劣化復元部602(推論手段)は、逆量子化部601から入力された逆量子化後のDWT係数に対し、周波数パラメータ設定部605が設定した推論パラメータを有するNNを適用して、量子化により劣化したDWT係数を推論によって復元する。周波数劣化復元部602の構成およびパラメータの学習過程については後に詳述される。
The frequency degradation restoration unit 602 (inference means) applies a neural network having inference parameters set by the frequency
逆周波数変換部603は、周波数劣化復元部602から入力された復元後のDWT係数に対して逆周波数変換(逆DWT変換)を施して、色プレーン(R、G0、G1、B)毎の独立したプレーンデータを再構成する。再構成されたプレーンデータはベイヤー変換部604に出力される。
The inverse
図7を参照して、逆周波数変換部603が実行する逆DWT変換である可逆5-3DWT逆変換について説明する。図7において、DWT係数a’,c’,e’は高周波の周波数変換係数であり、DWT係数b”,d”は低周波の周波数変換係数である。逆周波数変換部603がDWT係数a’,b”,c’,d”,e’に対して逆DWT変換を実行すると、画素データb,c,dが生成される。より具体的には、逆周波数変換部603は、DWT係数a’,b”,c’に対して以下の式(5)を適用して画素データbを生成すると共に、DWT係数c’,d”,e’に対して以下の式(6)を適用して画素データdを生成する。なお、画素データを生成する式(5)および式(6)は、使用するDWT係数が互いに相違しているが型は同一である。図7の2行目の画素データb,dは、DWT変換開始位置の画素の0番目とした時の各プレーンにおける偶数番目の画素データを示す。
b=b”-(a’+c’+2)/4 ……式(5)
d=d”-(c’+e’+2)/4 ……式(6)
With reference to FIG. 7, the reversible 5-3 DWT inverse transform, which is the inverse DWT transform executed by the inverse
b=b″-(a′+c′+2)/4 …Equation (5)
d=d″-(c′+e′+2)/4 …Equation (6)
次いで、逆周波数変換部603が、DWT係数c’および画素データb,dに対して逆DWT変換を実行すると、画素データcが生成される。より具体的には、DWT係数c’および画素データb,dに対して以下の式(7)を適用して画素データcを生成する。図7の3行目の画素データcは、DWT変換開始位置の画素の0番目とした時の各プレーンにおける奇数番目の画素データを示す。
c=c’+(b+d)/2 ……式(7)
Next, the inverse
c=c′+(b+d)/2 ……Equation (7)
逆周波数変換部603は、水平方向および垂直方向に亘って上記した逆DWT変換を繰り返し実施することによって、各プレーンの画素データを再構成する。
The inverse
ベイヤー変換部604は、逆周波数変換部603において再構成された色プレーン(R、G0、G1、B)毎の独立したプレーンデータを、ベイヤー配列のRAW画像に再合成し、RAW画像に相当するRAWデータを出力する。
The
次いで、周波数劣化復元部602における学習モデル(ニューラルネットワーク)を用いた劣化DWT係数の推論による復元について、図8から図12を参照して詳細に説明する。図5(a)に示すような分解レベル1のDWT係数における劣化復元を例示して説明する。
Next, the inference-based restoration of degraded DWT coefficients using the learning model (neural network) in the frequency
図8に示すように、周波数劣化復元部602は、1LL復元部800、1HL復元部801、1LH復元部802、および1HH復元部803を有する。すなわち、周波数劣化復元部602は、4つのサブバンド1LL,1HL,1LH,1HHにそれぞれ対応する4つの復元部800,801,802,803を有する。
As shown in FIG. 8, the frequency
図示のように、1LL復元部800は、逆量子化部601から入力された1LLサブバンドのDWT係数(サブバンドデータ)に対して、対応するパラメータを設定したNNを適用して推論を実行し、量子化による劣化を復元した1LLサブバンドを出力する。他の復元部801,802,803も同様に、それぞれ、逆量子化部801からのサブバンドのDWT係数に対して、対応するパラメータを設定したNNを適用して、量子化による劣化を復元したサブバンドのDWT係数を出力する。
As shown in the figure, the
1LL復元部800、1HL復元部801、1LH復元部802、および1HH復元部803におけるNNの構成は、同一であっても互いに異なっていてもよい。他方、1LL復元部800、1HL復元部801、1LH復元部802、および1HH復元部803におけるNNのパラメータ(重み、バイアス)は、互いに異なっている。
The configurations of the NNs in the
図9は、復元部800~803におけるニューラルネットワークの演算単位であるニューロン900の構成を例示する図である。本実施形態のNNは、複数のニューロン900を含む。ニューロン900は、複数の入力値x1~xNに対して、重みw1~wN、バイアスb、および活性化関数による演算を行って出力値yを出力する。より詳細には以下の通りである。
9 is a diagram illustrating the configuration of a
ニューロン900は、以下の式(8)に示すように、重みw1~wNおよびバイアスbを用いて値x’を算出する。重みw1~wNおよびバイアスbは、後述される学習過程によって可変に決定される値であって、前述のように復元部800~803毎に異なる値を取り得るパラメータである。
次いで、ニューロン900は、算出された値x’を活性化関数に入力して出力yを算出する。活性化関数は、シグモイド関数やReLU関数(Rectified Linear Unit)等の非線形関数である。
Next, the
シグモイド関数に対して値x’を与えた場合の出力値yは、以下の式(9)によって求められる。 When the value x' is given to the sigmoid function, the output value y is calculated using the following formula (9).
ReLU関数に対して値x’を与えた場合の出力値yは、以下の式(10)によって求められる。 When the value x' is given to the ReLU function, the output value y is calculated using the following formula (10).
図10は、復元部800~803におけるNNの構成を例示する図である。図10に示すように、本実施形態のNNは、入力層1000と第1中間層1001と第2中間層1002と出力層1003とを有する4層構造を有する。
Figure 10 is a diagram illustrating the configuration of the NN in the
連続する2つの層は1以上のニューロン900によって接続される。前段の層の出力値がニューロン900に入力され、前述の演算処理による出力値が後段の層に出力される。
Two consecutive layers are connected by one or
入力層1000に入力されるデータin0~inNの個数と出力層1003から出力されるデータout0~outNの個数とは一致する。他方、第1中間層1001のデータmid00~mid0pの個数および第2中間層1002のデータmid11~mid1qの個数は、入力層1000および出力層1003のデータ個数と一致しなくてよい。したがって、2つの層を接続するニューロン900の個数は、1以上の任意の数であってよい。
The number of data in 0 to in N input to the input layer 1000 is equal to the number of data out 0 to out N output from the output layer 1003. On the other hand, the number of data mid 00 to mid 0p in the first hidden layer 1001 and the number of data mid 11 to mid 1q in the second hidden layer 1002 do not have to be equal to the number of data in the input layer 1000 and the output layer 1003. Therefore, the number of
入力層1000に入力されるデータin0~inNはサブバンド毎のDWT係数であり、出力層1003から出力されるデータout0~outNは劣化が復元されたサブバンド毎のDWT係数である。すなわち、1LL復元部800のNNには、1LLサブバンドのDWT係数が入力され、推論によって劣化が復元された1LLサブバンドのDWT係数が出力される。他の復元部801,802,803にも同様に、それぞれ、1HLサブバンド、1LHサブバンド、1HHサブバンドのDWT係数が入力され、劣化が復元された1HLサブバンド、1LHサブバンド、1HHサブバンドのDWT係数が出力される。
The data in 0 to in N input to the input layer 1000 are DWT coefficients for each subband, and the data out 0 to out N output from the output layer 1003 are DWT coefficients for each subband with the degradation restored. That is, the DWT coefficients of the 1LL subband are input to NN of the
図11は、復元部800~803におけるNNの他の構成を例示する図である。図11に示すように、本実施形態の別のNNは、入力層1100と第1中間層1101と第2中間層1102と出力層1103とを有する4層構造を有する。
Figure 11 is a diagram illustrating another configuration of the NN in the
図11のNNは、離れている層(入力層1100および第2中間層1102)が直接的に接続されるスキップコネクションを含む。入力層1100と第1中間層1101との間の破線矢印が、スキップされている箇所を示している。図示の通り、入力層1100のデータin0,in1は、第1中間層1101をスキップして第2中間層1102に直接的に出力されている。以上のように、復元部800~803は、スキップレイヤーを含むNNであってよい。
The NN in Fig. 11 includes skip connections that directly connect distant layers (input layer 1100 and second hidden layer 1102). The dashed arrow between input layer 1100 and first hidden layer 1101 indicates the skipped portion. As shown in the figure, data in0 and in1 of input layer 1100 are output directly to second hidden layer 1102, skipping first hidden layer 1101. As described above,
復元部800~803の少なくとも1つが図10に示される構造のNNを有し、復元部800~803の他の少なくとも1つが図11に示される構造のNNを有してもよい。
At least one of the
図12は、本発明の第1実施形態に係るニューラルネットワークの学習過程の説明図である。本実施形態では、以下に説明するように、復元のためのパラメータ(重みw1~wN、バイアスb)がサブバンド毎に学習される。図12では、1HHサブバンドに関する学習過程を説明するが、他のサブバンド(1HLサブバンド、1LHサブバンド、1HHサブバンド)についても同様の学習過程を適用できる。 12 is an explanatory diagram of the learning process of the neural network according to the first embodiment of the present invention. In this embodiment, as described below, parameters for restoration (weights w 1 to w N , bias b) are learned for each subband. In FIG. 12, the learning process for the 1HH subband is described, but the same learning process can be applied to other subbands (1HL subband, 1LH subband, 1HH subband).
概略的には、本実施形態の学習過程において、入力データはサブバンド毎のDWT係数であり、出力データは量子化による劣化が復元された復元DWT係数であり、教師データは量子化劣化の無い元画像の未劣化DWT係数である。 Overall, in the learning process of this embodiment, the input data are DWT coefficients for each subband, the output data are restored DWT coefficients in which degradation due to quantization has been restored, and the training data are undegraded DWT coefficients of the original image without quantization degradation.
画像符号化装置20の量子化部202によって量子化された1HHサブバンドのDWT係数1200が、周波数劣化復元部602の1HH復元部803に入力される。周波数パラメータ設定部605は、1HHサブバンド用の周波数パラメータ(重み、バイアス)を1HH復元部803に設定する。なお、1HH復元部803に設定される周波数パラメータの初期値は任意に設定され、例えば乱数によって決定された値が設定される。
The
1HH復元部803は、設定された周波数パラメータを適用したNNを用いて、1HHサブバンドのDWT係数1200の量子化による劣化を復元して、1HHサブバンドの復元DWT係数1201を出力する。出力された復元DWT係数1201はパラメータ更新部1203に入力される。
The
加えて、パラメータ更新部1203には、教師データとして1HHサブバンドの原画に相当する未劣化DWT係数1202が入力される。未劣化DWT係数1202は、画像符号化装置20の周波数変換部201が出力するDWT係数であって、量子化による劣化が生じていないDWT係数である。
In addition, the
パラメータ更新部1203は、入力された復元DWT係数1201と未劣化DWT係数1202との比較結果を示す指標を求め、誤差逆伝播法等の更新手法に従って1HHサブバンド用の周波数パラメータを更新する。上記の指標として、例えば、ピーク信号対雑音比(PSNR)や差分絶対値和(SAD)を用いることができる。ピーク信号対雑音比を指標として用いる場合、パラメータ更新部1203は指標の値が増大するように周波数パラメータを更新する。差分絶対値和を指標として用いる場合、パラメータ更新部1203は指標の値が減少するように周波数パラメータを更新する。
The
以上と同様の処理が、他のサブバンドに対応する復元部800~802に関して実行される。
The same processing as above is performed for the
以上の学習処理を、大量の画像データ(復元DWT係数1201および未劣化DWT係数1202の組)を用いて実行することによって、周波数パラメータ設定部605が周波数劣化復元部602に設定する周波数パラメータが決定される。
By performing the above learning process using a large amount of image data (a set of restored
一般に、量子化の程度は、サブバンドの周波数および分解レベルによって相異なる。例えば、高周波や低レベルのサブバンドは、視覚的な劣化を低減するために比較的強く量子化される一方、低周波や高レベルのサブバンドは比較的弱く量子化される。上記した本実施形態の構成によれば、量子化の程度が相異なる複数のサブバンドについてそれぞれ学習処理を実行することによって、周波数劣化復元部602のパラメータがサブバンド毎に調整されるから、より高精度に画像を復元できる。
In general, the degree of quantization varies depending on the frequency and decomposition level of the subband. For example, high-frequency and low-level subbands are quantized relatively strongly to reduce visual degradation, while low-frequency and high-level subbands are quantized relatively weakly. According to the configuration of the present embodiment described above, by performing a learning process for each of multiple subbands with different degrees of quantization, the parameters of the frequency
なお、以上の学習処理は、ユーザが選択可能な圧縮率(デジタルカメラにおいては記録画質)毎に実行されてよい。圧縮率毎に学習を実行して周波数パラメータを設定することで、圧縮率毎の劣化度を反映したより適切な復元を実現できる。 The above learning process may be performed for each compression ratio (recording image quality in the case of a digital camera) that can be selected by the user. By performing learning for each compression ratio and setting the frequency parameters, it is possible to achieve more appropriate restoration that reflects the degree of degradation for each compression ratio.
<第2実施形態>
以下、本発明の第2実施形態について説明する。なお、以下に例示する各実施形態において、作用、機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の説明を適宜に省略する。
Second Embodiment
A second embodiment of the present invention will be described below. In each of the embodiments exemplified below, elements that have the same actions and functions as those of the first embodiment will be designated by the same reference numerals as those in the above description, and the description of each element will be omitted as appropriate.
図13は、本発明の第2実施形態に係る画像復号装置130の構成を例示するブロック図である。図13に示すように、画像復号装置130は、エントロピー復号部600ないし周波数パラメータ設定部605に加え、画素劣化復元部1300および画素パラメータ設定部1301を機能ブロックとして含む。第1実施形態と同様、以上の機能ブロックによって実行される以下の本実施形態の処理は、画像復号装置130が有する1以上の制御プロセッサが、ROM等の不揮発メモリ内のプログラムをRAM等の揮発メモリに展開して実行することによって実現される。
Figure 13 is a block diagram illustrating the configuration of an
画素パラメータ設定部1301は、圧縮率毎に学習された画素パラメータ(重み、バイアス)を、復号すべき符号化ストリームの圧縮率に応じて選択し、画素劣化復元部1300に設定する。
The pixel
画素劣化復元部1300(推論手段)は、ベイヤー変換部604が出力したベイヤー配列のRAW画像に対し、画素パラメータ設定部1301が設定した推論パラメータを有するNNを適用して、量子化により劣化した画素データを推論によって復元する。
The pixel degradation restoration unit 1300 (inference means) applies a neural network having inference parameters set by the pixel
図14を参照して、周波数領域および画素領域における2段階の復元処理が好適である理由を説明する。図14は、DWT係数の最大値が1023(=210-1)である場合において511(=29-1)を単位(量子化ステップ)として比較的強い量子化を実行したときの量子化前後の値の変化を例示している。図14(a)は量子化前のDWT係数を示し、図14(b)は量子化後のDWT係数を示す。 The reason why a two-stage restoration process in the frequency domain and the pixel domain is preferable will be described with reference to Fig. 14. Fig. 14 illustrates an example of the change in value before and after quantization when relatively strong quantization is performed in units (quantization steps) of 511 (=2 9 -1) when the maximum value of the DWT coefficient is 1023 (=2 10 -1). Fig. 14(a) shows the DWT coefficient before quantization, and Fig. 14(b) shows the DWT coefficient after quantization.
図示のように、量子化前のDWT係数が511未満である場合、量子化によってそのDWT係数は0になる(すなわち、DWT係数が失われる)。また、量子化前のDWT係数が511以上であって量子化後のDWT係数が0にならなくても、量子化前のDWT係数に対する誤差が値0~510の範囲で生じる。圧縮率が比較的高い場合(例えば、分解レベルが低く高周波である1HHサブバンドに対して)、比較的強い量子化が適用されるので周波数領域における復元が困難となることがある。
As shown, if the pre-quantization DWT coefficient is less than 511, the quantization will result in the DWT coefficient becoming 0 (i.e., the DWT coefficient is lost). Also, even if the pre-quantization DWT coefficient is 511 or greater and the post-quantization DWT coefficient is not 0, an error will occur in the pre-quantization DWT coefficient with a value in the
そこで、本実施形態では、周波数領域において完全には復元できなかった画質の劣化を、他のサブバンドをも参照して構成される画素領域に基づいて推論し補完することによって、より高精度な(より原画に近い)復元を実現する。 Therefore, in this embodiment, image quality degradation that could not be completely restored in the frequency domain is inferred and complemented based on a pixel domain constructed with reference to other subbands, thereby achieving a more accurate restoration (closer to the original image).
図15は、本発明の第2実施形態に係るニューラルネットワークの学習過程の説明図である。 Figure 15 is an explanatory diagram of the learning process of a neural network according to the second embodiment of the present invention.
画像符号化装置20の量子化部202によって量子化された1LL,1HL,1LH,1HHサブバンドのDWT係数1500が、周波数劣化復元部602(推論手段)に入力される。周波数パラメータ設定部605は、第1実施形態と同様に、サブバンド毎の学習によって更新された周波数パラメータ(重み、バイアス)を周波数劣化復元部602に設定する。
The
周波数劣化復元部602は、以上のように周波数パラメータを適用したNNを用いて、量子化によって劣化したDWT係数1500を復元して、逆周波数変換部603に出力する。
The frequency
逆周波数変換部603は、周波数劣化復元部602から入力された復元後のDWT係数に対して逆周波数変換(逆DWT変換)を施して、色プレーン(R、G0、G1、B)毎の独立したプレーンデータを再構成する。再構成されたプレーンデータはベイヤー変換部604に出力される。
The inverse
ベイヤー変換部604は、逆周波数変換部603において再構成された色プレーン(R、G0、G1、B)毎の独立したプレーンデータを、ベイヤー配列のRAW画像に再合成し、RAW画像に相当するRAWデータを出力する。出力されたRAWデータは画素劣化復元部1300に入力される。
The
画素劣化復元部1300は、画素パラメータ設定部1301によって設定された画素パラメータを適用したNNを用いて、量子化により劣化したRAW画像内の画素データを復元して、復元RAW画像1501を出力する。復元RAW画像1501は、画素パラメータ更新部1502に入力される。
The pixel
加えて、画素パラメータ更新部1502には、教師データとして原画RAW画像1503が入力される。原画RAW画像1503は、画像符号化装置20に入力されるRAW画像データであって、量子化による劣化が生じていないRAW画像データである。
In addition, an original
画素パラメータ更新部1502は、入力された復元RAW画像1501と原画RAW画像1503との比較結果を示す指標を求め、誤差逆伝播法等の更新手法に従って画素パラメータを更新する。上記の指標として、例えば、ピーク信号対雑音比(PSNR)や差分絶対値和(SAD)を用いることができる。ピーク信号対雑音比を指標として用いる場合、画素パラメータ更新部1502は指標の値が増大するように画素パラメータを更新する。差分絶対値和を指標として用いる場合、画素パラメータ更新部1502は指標の値が減少するように画素パラメータを更新する。
The pixel
以上の学習処理を、大量の画像データ(復元RAW画像1501および原画RAW画像1503の組)を用いて実行することによって、画素パラメータ設定部1301が画素劣化復元部1300に設定する画素パラメータが決定される。
By performing the above learning process using a large amount of image data (a pair of restored
上記した本実施形態の構成によれば、第1実施形態と同様の技術的効果が奏される。加えて、周波数領域における復元処理では復元が困難である場合がある画質劣化が、画素領域における復元処理によって補完されるので、より高精度に画像を復元できる。 The configuration of this embodiment described above provides the same technical effect as the first embodiment. In addition, image quality degradation that may be difficult to restore using restoration processing in the frequency domain is compensated for by restoration processing in the pixel domain, allowing images to be restored with higher accuracy.
なお、以上の学習処理は、ユーザが選択可能な圧縮率(デジタルカメラにおいては記録画質)毎に実行されてよい。圧縮率毎に学習を実行して画素パラメータを設定することで、圧縮率毎の劣化度を反映したより適切な復元を実現できる。 The above learning process may be performed for each compression ratio (recording image quality in the case of a digital camera) that can be selected by the user. By performing learning for each compression ratio and setting pixel parameters, it is possible to achieve more appropriate restoration that reflects the degree of degradation for each compression ratio.
本実施形態において、周波数劣化復元部602に含まれる1つ以上の復元部800~803における処理(学習・推論)がスキップされる構成が採用されてもよい。前述のように、分解レベルが低く高周波であるサブバンドに対しては比較的強い(圧縮率が比較的高い)量子化が実行されるので、周波数領域における学習および推論を適切に実行することが困難である場合がある。本構成では、周波数領域における学習および推論が困難なサブバンド(周波数帯)の復元を、画素領域による復元処理によってカバーすることで、より高精度に画像を復元できる。加えて、所定のサブバンドに関する周波数領域の学習および推論がスキップされるので、学習処理および推論処理を実行する時間並びに学習し記憶すべき周波数パラメータを削減できる。
In this embodiment, a configuration may be adopted in which the processing (learning/inference) in one or more of the restoration units 800-803 included in the frequency
以上の構成において、さらに、所定の圧縮率α(閾値)を上回る圧縮率が適用される場合に限って、所定のサブバンドに関する処理(学習・推論)がスキップされてもよい。図16は、適用すべき圧縮率が所定の圧縮率αを上回る場合に、周波数劣化復元部602の1HH復元部803による処理がスキップされるときの周波数劣化復元部602の処理を示すフローチャートである。
In the above configuration, processing (learning and inference) for a specific subband may be skipped only when a compression rate exceeding a specific compression rate α (threshold value) is applied. FIG. 16 is a flowchart showing the processing of the frequency
ステップS1600において、周波数劣化復元部602は、ユーザによって設定された圧縮率が所定の圧縮率αよりも小さいか否かを判定する。
In step S1600, the frequency
設定された圧縮率がαより小さい場合(S1600:YES)、処理はステップS1601に進む。ステップS1601において、周波数劣化復元部602は、NN(1HH復元部803)を用いた1HHサブバンドのDWT係数の復元処理を含む各サブバンドの復元処理を実行して、復元後の各サブバンドのDWT係数を出力する。
If the set compression ratio is smaller than α (S1600: YES), the process proceeds to step S1601. In step S1601, the frequency
設定された圧縮率がα以上である場合(S1600:NO)、処理はステップS1602に進む。ステップS1602において、周波数劣化復元部602は、NN(1HH復元部803)を用いた1HHサブバンドのDWT係数の復元処理をスキップし、未処理の1HHサブバンドのDWT係数を出力する。他のサブバンドについては、第1実施形態と同様に周波数劣化復元部602(復元部800~802)が復元処理を実行して、復元後のDWT係数を出力する。
If the set compression rate is equal to or greater than α (S1600: NO), the process proceeds to step S1602. In step S1602, the frequency
上記した本実施形態では、画素劣化復元がベイヤーRAW画像データにおいて実行されるが、逆周波数変換後の色プレーン毎に画素劣化復元が実行されてもよい。図17は、逆周波数変換後に画素劣化復元を実行する画像復号装置130の他の構成を例示するブロック図である。図17に示すように、本構成においては、画素劣化復元部1300が、ベイヤー変換部604の後段ではなく逆周波数変換部603の後段に配置される。なお、本構成による学習処理および推論処理は、上記した本実施形態のRAW画像に関する処理を、そのまま色プレーン(R、G0、G1、B)毎に適用すればよい。
In the above-described embodiment, pixel degradation restoration is performed on Bayer RAW image data, but pixel degradation restoration may also be performed for each color plane after inverse frequency transformation. FIG. 17 is a block diagram illustrating another configuration of an
<第3実施形態>
図18は、本発明の第3実施形態に係る画像復号装置180の構成を例示するブロック図である。図18に示すように、画像復号装置180は、エントロピー復号部600、逆量子化部601、逆周波数変換部603、およびベイヤー変換部604を機能ブロックとして含む。加えて、画像復号装置180は、画素・周波数劣化復元部1802および画素・周波数パラメータ設定部1805を機能ブロックとして含む。画素・周波数劣化復元部1802(推論手段)は、前述した実施形態の周波数劣化復元部602と画素劣化復元部1300とを統合した要素である。画素・周波数パラメータ設定部1805は、周波数パラメータ設定部605と画素パラメータ設定部1301とを統合した要素である。前述の実施形態と同様、以上の機能ブロックによって実行される以下の本実施形態の処理は、画像復号装置180が有する1以上の制御プロセッサが、ROM等の不揮発メモリ内のプログラムをRAM等の揮発メモリに展開して実行することによって実現される。
Third Embodiment
FIG. 18 is a block diagram illustrating the configuration of an
周波数領域における周波数パラメータの学習、および画素領域における画素パラメータの学習については、前述した実施形態と同様に実行されるので、詳細な説明を省略する。 The learning of frequency parameters in the frequency domain and the learning of pixel parameters in the pixel domain are performed in the same manner as in the previously described embodiment, and therefore a detailed description is omitted.
画素・周波数パラメータ設定部1805は、サブバンド毎および圧縮率毎に学習された周波数パラメータ(重み、バイアス)を、復号すべき符号化ストリームの圧縮率に応じて選択し、画素・周波数劣化復元部1802に設定する。
The pixel/frequency
画素・周波数劣化復元部1802は、逆量子化部601から入力された逆量子化後のDWT係数に対し、画素・周波数パラメータ設定部1805が設定した推論パラメータを有するNNを適用して、量子化により劣化したDWT係数を推論によって復元する。
The pixel/frequency
上記したDWT係数の復元後、画素・周波数パラメータ設定部1805は、圧縮率毎に学習された画素パラメータ(重み、バイアス)を、復号すべき符号化ストリームの圧縮率に応じて選択し、画素・周波数劣化復元部1802に設定する。
After restoring the DWT coefficients as described above, the pixel/frequency
逆周波数変換部603は、画素・周波数劣化復元部1802から入力された復元後のDWT係数に対して逆周波数変換(逆DWT変換)を施して、色プレーン(R、G0、G1、B)毎の独立したプレーンデータを再構成する。再構成されたプレーンデータはベイヤー変換部604に出力される。
The inverse
ベイヤー変換部604は、逆周波数変換部603において再構成された色プレーン(R、G0、G1、B)毎の独立したプレーンデータを、ベイヤー配列のRAW画像に再合成し、RAW画像に相当するRAWデータを出力する。出力されたRAWデータは画素・周波数劣化復元部1802に入力される。
The
画素・周波数劣化復元部1802は、ベイヤー変換部604が出力したベイヤー配列のRAW画像に対し、画素・周波数パラメータ設定部1805が設定した画素パラメータを有するNNを適用して、量子化により劣化した画素データを推論によって復元する。
The pixel and frequency
上記した本実施形態の構成によれば、第1実施形態および第2実施形態と同様の技術的効果が奏される。加えて、本構成では、周波数劣化復元部602と画素劣化復元部1300とを統合した画素・周波数劣化復元部1802と、周波数パラメータ設定部605と画素パラメータ設定部1301とを統合した画素・周波数パラメータ設定部1805とが用いられる。結果として、第2実施形態と比較して、復元処理に用いるNNの回路規模を低減できる。
The configuration of this embodiment described above provides the same technical effects as the first and second embodiments. In addition, this configuration uses a pixel/frequency
<変形例>
以上、本発明の好ましい実施の形態について説明したが、本発明は上述した実施の形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。
<Modification>
Although the preferred embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and various modifications and changes are possible within the scope of the gist of the present invention.
周波数劣化復元部602、画素劣化復元部1300、および画素・周波数劣化復元部1802が有するNNは、それぞれ、上記した処理を実行可能な任意のネットワーク構成を有し得る。例えば、上記した各復元部(推論手段)が、CNN(Convolution Neural Network)を有してもよいし、DBP(Deep Brief Network)を有してもよい。また、上記した実施の形態においては、4層のNNが例示されるが、上記した処理を実行可能な任意の層数のNNが採用され得る。
The neural networks in the frequency
第1実施形態および第2実施形態の周波数劣化復元部602は、サブバンド毎のNN(1LL,1HL,1LH,1HH復元部800,801,802,803)を有する。しかしながら、周波数劣化復元部602は、1つのNN(復元部)のみを有し、サブバンド毎にパラメータ(重み、バイアス)を切り替えるように学習および推論を実行してもよい。以上の構成によれば、周波数劣化復元部602が1つのNNのみを有するので、回路規模を削減できる。他方、周波数劣化復元部602がサブバンド毎のNNを有する構成においては、複数のサブバンドに対する復元処理を並列的に実行できるので、本変形例の構成と比較して処理時間を削減できる。
The frequency
上記した実施形態の構成では、RAW画像に対する周波数変換方式としてウェーブレット変換が用いられるが、他の周波数変換方式が用いられてもよい。例えば、H.264規格にて用いられる4×4DCT(離散コサイン変換)が採用されてよい。図19は、4×4DCTの量子化マトリクスおよび学習・推論グループの説明図である。 In the configuration of the above embodiment, wavelet transform is used as the frequency transform method for RAW images, but other frequency transform methods may be used. For example, 4x4 DCT (discrete cosine transform) used in the H.264 standard may be adopted. Figure 19 is an explanatory diagram of the quantization matrix and learning/inference groups of 4x4 DCT.
H.264規格においては、符号化の対象である画像を16×16サイズのマクロブロック単位で分割した上で、4×4単位でのDCTを実行して符号化する。H.264規格は、視覚的な影響が小さい高周波成分を比較的強く量子化する一方、視覚的な影響が大きい低周波成分を比較的弱く量子化するために、図19に示すような量子化マトリクスを採用する。図19に示される数値は、イントラ予測時における量子化マトリクスの初期値である。図19に示される数値、すなわち量子化マトリクスに含まれる値は、量子化パラメータから求められる量子化ステップに乗算される値であって、周波数が高いほど大きな値を取る。同一値に相当する周波数成分は同一の強度で量子化が実行される。したがって、同一値を1つのグループとして、または、周波数帯毎にグループ分けし、グループ毎に、学習・推論を実行することによって、上記実施形態のようなサブバンド毎の学習・推論と同様の技術的効果を実現できる。すなわち、本変形例においては、図19においてそれぞれ点線で囲まれた周波数帯グループ(a)~(g)毎に学習処理および推論処理が実行される。 In the H.264 standard, an image to be coded is divided into 16x16 macroblocks, and then coded by performing DCT in 4x4 units. The H.264 standard employs a quantization matrix as shown in FIG. 19 to quantize high-frequency components that have a small visual impact relatively strongly, while quantizing low-frequency components that have a large visual impact relatively weakly. The values shown in FIG. 19 are the initial values of the quantization matrix during intra prediction. The values shown in FIG. 19, i.e., the values included in the quantization matrix, are values multiplied by the quantization step obtained from the quantization parameter, and the higher the frequency, the larger the value. Frequency components that correspond to the same value are quantized with the same intensity. Therefore, by grouping the same values as one group or by frequency band, and performing learning and inference for each group, it is possible to achieve the same technical effect as the learning and inference for each subband as in the above embodiment. That is, in this modified example, learning and inference processes are performed for each of the frequency band groups (a) to (g) surrounded by dotted lines in FIG. 19.
本発明は、上述の実施の形態の1以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの1つ以上のプロセッサがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。 The present invention can also be realized by supplying a program that realizes one or more of the functions of the above-mentioned embodiments to a system or device via a network or storage medium, and having one or more processors of the computer in the system or device read and execute the program. The present invention can also be realized by a circuit (e.g., an ASIC) that realizes one or more of the functions.
60 画像復号装置
130 画像復号装置
180 画像復号装置
600 エントロピー復号部
601 逆量子化部
602 周波数劣化復元部(推論手段)
603 逆周波数変換部
604 ベイヤー変換部
605 周波数パラメータ設定部
1203 パラメータ更新部
1300 画素劣化復元部(推論手段)
1301 画素パラメータ設定部
1502 画素パラメータ更新部
1802 画素・周波数劣化復元部(推論手段)
1805 画素・周波数パラメータ設定部
60
603 Inverse
1301 pixel
1805 Pixel and frequency parameter setting unit
Claims (12)
前記符号化データを復号する復号手段と、
前記復号手段により復号したデータを逆量子化して、複数のサブバンドデータを取得する逆量子化手段と、
前記逆量子化手段により取得した前記複数のサブバンドデータに対して推論を実行することにより、量子化により劣化したデータが復元された複数のサブバンドデータを取得する推論手段であって、前記複数のサブバンド毎に、サブバンドに対応する推論パラメータを用いて、当該サブバンドに対応するサブバンドデータに対して推論を実行する推論手段と、を備え、
前記推論手段は、
前記複数のサブバンドにそれぞれ対応するように学習された推論パラメータである第1の推論パラメータを用いて、前記複数のサブバンドデータに対する第1の推論を実行し、
学習された第2の推論パラメータを用いて、前記第1の推論によって復元された後のサブバンドデータに対する第2の推論を実行する、ことを特徴とする画像復号装置。 1. An image decoding device that decodes encoded data obtained by quantizing and encoding a plurality of subband data obtained by performing a frequency transform on image data , the image decoding device comprising:
A decoding means for decoding the encoded data;
an inverse quantization means for inverse quantizing the data decoded by the decoding means to obtain a plurality of subband data;
an inference means for performing inference on the plurality of subband data acquired by the inverse quantization means to acquire a plurality of subband data in which data deteriorated by quantization has been restored, the inference means performing inference on the subband data corresponding to each of the plurality of subbands by using an inference parameter corresponding to the subband ;
The inference means includes:
performing a first inference on the plurality of subband data using first inference parameters which are inference parameters trained to correspond to the plurality of subbands respectively;
11. An image decoding device, comprising: a decoder for executing a second inference on subband data restored by the first inference using learned second inference parameters .
前記推論手段は、前記重みおよび前記バイアスが設定されるニューラルネットワークを備える、ことを特徴とする請求項1に記載の画像復号装置。 the first inference parameters are weights and biases learned by a neural network to correspond to the plurality of subbands , respectively;
2. The image decoding apparatus according to claim 1, wherein the inference means comprises a neural network in which the weights and biases are set.
前記符号化データを復号する復号工程と、
前記復号工程で復号したデータを逆量子化して、複数のサブバンドデータを取得する逆量子化工程と、
前記逆量子化工程で取得した前記複数のサブバンドデータに対して推論を実行することにより、量子化により劣化したデータが復元された複数のサブバンドデータを取得する推論工程であって、前記複数のサブバンド毎に、サブバンドに対応する推論パラメータを用いて、当該サブバンドに対応するサブバンドデータに対して推論を実行する推論工程と、を備え、
前記推論工程は、
前記複数のサブバンドにそれぞれ対応するように学習された推論パラメータである第1の推論パラメータを用いて、前記複数のサブバンドデータに対する第1の推論を実行し、
学習された第2の推論パラメータを用いて、前記第1の推論によって復元された後のサブバンドデータに対する第2の推論を実行する、ことを特徴とする制御方法。 A control method for an image decoding device that decodes encoded data obtained by quantizing and encoding a plurality of subband data obtained by performing a frequency transform on image data , the method comprising the steps of:
a decoding step of decoding the encoded data;
an inverse quantization step of inverse quantizing the data decoded in the decoding step to obtain a plurality of subband data;
an inference step of performing inference on the plurality of subband data acquired in the inverse quantization step to acquire a plurality of subband data in which data deteriorated by quantization is restored, the inference step performing inference on the subband data corresponding to each of the plurality of subbands by using an inference parameter corresponding to the subband ;
The inference step includes:
performing a first inference on the plurality of subband data using first inference parameters which are inference parameters trained to correspond to the plurality of subbands respectively;
A control method comprising : performing a second inference on subband data after it has been restored by the first inference, using the learned second inference parameters .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019213302A JP7475842B2 (en) | 2019-11-26 | 2019-11-26 | Image decoding device, control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019213302A JP7475842B2 (en) | 2019-11-26 | 2019-11-26 | Image decoding device, control method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021087054A JP2021087054A (en) | 2021-06-03 |
JP7475842B2 true JP7475842B2 (en) | 2024-04-30 |
Family
ID=76088141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019213302A Active JP7475842B2 (en) | 2019-11-26 | 2019-11-26 | Image decoding device, control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7475842B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3273761B2 (en) | 1997-10-31 | 2002-04-15 | 松下電器産業株式会社 | Electrolytic capacitor and method of manufacturing the same |
JP2003101789A (en) | 2001-09-21 | 2003-04-04 | Ricoh Co Ltd | Picture data processor and picture data processing method and its program and recording medium |
JP2005260373A (en) | 2004-03-09 | 2005-09-22 | Ricoh Co Ltd | Image decoder, image decoding method, program and information recording medium |
JP2010503254A (en) | 2006-08-30 | 2010-01-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Apparatus and method for encoding data signal, and apparatus and method for decoding data signal |
JP2020198463A (en) | 2019-05-30 | 2020-12-10 | 富士通株式会社 | Encoding program, decoding program, encoding device, decoding device, encoding method, and decoding method |
-
2019
- 2019-11-26 JP JP2019213302A patent/JP7475842B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3273761B2 (en) | 1997-10-31 | 2002-04-15 | 松下電器産業株式会社 | Electrolytic capacitor and method of manufacturing the same |
JP2003101789A (en) | 2001-09-21 | 2003-04-04 | Ricoh Co Ltd | Picture data processor and picture data processing method and its program and recording medium |
JP2005260373A (en) | 2004-03-09 | 2005-09-22 | Ricoh Co Ltd | Image decoder, image decoding method, program and information recording medium |
JP2010503254A (en) | 2006-08-30 | 2010-01-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | Apparatus and method for encoding data signal, and apparatus and method for decoding data signal |
JP2020198463A (en) | 2019-05-30 | 2020-12-10 | 富士通株式会社 | Encoding program, decoding program, encoding device, decoding device, encoding method, and decoding method |
Also Published As
Publication number | Publication date |
---|---|
JP2021087054A (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7469866B2 (en) | Encoding device and encoding method, decoding device and decoding method | |
KR100971833B1 (en) | Image coding method and apparatus | |
JP2002507339A (en) | Hierarchical motion estimation execution method and apparatus using nonlinear pyramid | |
JP2003319185A (en) | Image encoding apparatus and method, image decoding apparatus and method | |
JP6857973B2 (en) | Image coding device and its control method | |
Ororbia et al. | Learned neural iterative decoding for lossy image compression systems | |
Perumal et al. | A hybrid discrete wavelet transform with neural network back propagation approach for efficient medical image compression | |
JP6986868B2 (en) | Image coding device, image decoding device, image coding method, image decoding method, program | |
Yilmaz et al. | End-to-end rate-distortion optimization for bi-directional learned video compression | |
Dardouri et al. | Dynamic neural network for lossy-to-lossless image coding | |
JP2005515731A (en) | Wavelet domain half-pixel motion compensation | |
WO2019237659A1 (en) | Blind compressive sampling method, apparatus and imaging system | |
Dardouri et al. | Optimized lifting scheme based on a dynamical fully connected network for image coding | |
JP7475842B2 (en) | Image decoding device, control method, and program | |
Kirmemis et al. | Learned compression artifact removal by deep residual networks | |
US20230133895A1 (en) | Image encoding apparatus and method for controlling the same and non-transitory computer-readable storage medium | |
Fouad | A lossless image compression using integer wavelet transform with a simplified median-edge detector algorithm | |
EP2243299B1 (en) | Method and device for compressing an image and storage medium carrying an image compressed by said method | |
Dardouri et al. | A neural network approach for joint optimization of predictors in lifting-based image coders | |
Yuan et al. | Block-based learned image coding with convolutional autoencoder and intra-prediction aided entropy coding | |
JP7469865B2 (en) | Image processing device and image processing method | |
Li et al. | Spatial-channel context-based entropy modeling for end-to-end optimized image compression | |
JP2016082395A (en) | Encoder, coding method and program | |
Rahman et al. | Efficient Image Compression Technique using JPEG2000 with Adaptive Threshold | |
Tekeste et al. | Selection of lifting scheme based wavelet filters for image compression in resource constrained wireless multimedia sensor networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240417 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7475842 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |