JP2019205011A - 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム及び復号プログラム - Google Patents
符号化装置、復号装置、符号化方法、復号方法、符号化プログラム及び復号プログラム Download PDFInfo
- Publication number
- JP2019205011A JP2019205011A JP2018097427A JP2018097427A JP2019205011A JP 2019205011 A JP2019205011 A JP 2019205011A JP 2018097427 A JP2018097427 A JP 2018097427A JP 2018097427 A JP2018097427 A JP 2018097427A JP 2019205011 A JP2019205011 A JP 2019205011A
- Authority
- JP
- Japan
- Prior art keywords
- image
- encoding
- decoding
- auxiliary information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
- H04N19/463—Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
【課題】再構成対象となる領域およびその領域における再構成処理の方式を、より少ない符号量で送受信すること。【解決手段】画像を符号化する符号化装置は、入力された画像を再構成対象とするか否かを判定する判定部と、前記再構成対象とすると判定された画像から、再構成に使うための情報である補助情報を抽出する補助情報抽出部と、前記再構成対象とすると判定された画像を変換し変換画像を得る変換部と、前記変換画像を符号化し符号化データを得る符号化部と、を備え、前記変換部は、前記符号化部が符号化する際、前記入力された画像を符号化した場合よりも少ない符号量になるよう変換する。【選択図】図2
Description
本発明は、符号化装置、復号装置、符号化方法、復号方法、符号化プログラム及び復号プログラムに関する。
映像データを圧縮符号化するための標準規格として、MPEG−4やH.264/AVC、H.265/HEVC(以下、「HEVC」という。)が知られている。また、HEVCに次ぐ新たな規格の標準化も検討が進められている。これらの映像圧縮符号化規格では、画像を矩形のブロックに分割した単位で処理を行い、予測対象ブロックに隣接する予測ブロックを参照して予測対象ブロックの画素値を予測し、予測残差信号のみを送信する予測符号化方式が採用されている。以下、HEVCを例に、フレーム内に閉じて画素信号の予測を行うイントラ予測符号化の方法を述べる。
HEVCでは、図17に示すように画面全体を64画素×64画素(以下、「64×64」という。)のブロックに区切り、各ユニットをCTU(Coding Tree Unit)として定義する。CTUは、CU(Coding Unit)と呼ばれる4つの正方形に分割することができ、これを再帰的に処理することで、細かなブロックに分割を行う。HEVCでは、CUのサイズは64×64、32×32、16×16及び8×8の4種類を用いることができ、このCUをさらに分割したPU(Prediction Unit)と呼ばれる単位で予測処理を行う。イントラ予測の場合、CUを4つの正方形に分割するか否かの2通りのPUを用いることができる。各PUは35種類の予測パラメータを選択的に適用可能であり、例えば原画像との予測残差信号が最小となる予測パラメータを符号化側で選択し、予測パラメータ及び予測残差信号を復号側に送信する。
HEVCでは、予測方式はPlanar予測、DC(Direct Current;直流成分)予測及び方向性予測の3種類から選択可能であり、方向性予測には33の予測パラメータが割り当てられていることから、予測パラメータの総数は35である。各予測方式は、図18に示すように、予測対象ブロックの左および上に位置する参照画素の画素値を用いて予測を行い、方向性予測では、定義された33方向から1つの方向を参照方向として選択し、参照方向の画素値を参照ブロックに割り当てることで、予測対象ブロックの予測画素を生成する。Planar予測では、予測対象ブロックの左下、右上、予測対象画素の左、上の4画素を参照し、それらの重み付き平均として予測対象ブロック内の各画素を予測する。DC予測では、予測対象ブロックの左および上に位置する参照画素の平均として、予測対象ブロックの予測値を単一に生成する。
画質を保持したまま符号量を削減する方法として、画素の完全再現を目的として上記に基づく予測符号化の予測方式の高精度化により予測残差の情報量を削減する方法がある。これ以外の方法として、擬似的な画像を復号側で再構成する処理方式を導入し、従来の符号化方式と併用することで、上記の予測方式やその高精度化で効率的に符号化できない画像に対しても、画素の完全再現を目的とせず復号画像の主観品質を保持しながら符号量を削減する方法が提案されている(特許文献1参照)。特許文献1に記載の技術によれば、符号化側では入力画像をCartoon-Texture信号分解により分解し、Cartoon成分ならびに非合成Texture成分の和で表現される非合成成分画像と、合成Textureの代表Textureと、合成Textureに対応する領域情報とを送信する。領域情報は画像で表現され、合成領域と当該領域に対応する合成方法が含まれる。復号側では、非合成成分画像を復号後、合成Textureの代表Textureと領域情報とを用いて、Texture合成により再構成された画像との加算により復号画像を得る。ここで、非合成成分画像、及び、合成Textureに対応する領域情報の符号化及び復号の方法には、既存の符号化標準が用いられる。特許文献1に記載の技術は、特にTexture成分の多い画像に対してより少ない符号量で符号化できる。
S.Iizuka, E.Simo-Serra, H.Ishikawa, "Globally and Locally Consistent Image Completion", ACM Transactions on Graphics, Vol.36, No.4, July 2017
特許文献1に記載の技術では、合成Textureに対応する領域情報を送信する必要があり、この領域情報を画像として復号側に送信する。このため、1フレームの送信のために非合成成分画像と領域情報画像の2フレームを送信する必要がある、これにより、補助情報の符号量が多くなるという課題がある。このように、復号側でTexture合成等の再構成を伴う符号化方式では、再構成対象となる領域をより少ない符号量で送受信可能な再構成処理を実現することが望まれる。
上記事情に鑑み、本発明は、再構成対象となる領域をより少ない符号量で送受信することができる技術の提供を目的としている。
本発明の一態様は、画像を符号化する符号化装置であって、入力された画像を再構成対象とするか否かを判定する判定部と、前記再構成対象とすると判定された画像から、再構成に使うための情報である補助情報を抽出する補助情報抽出部と、前記再構成対象とすると判定された画像を変換し変換画像を得る変換部と、前記変換画像を符号化し符号化データを得る符号化部と、を備え、前記変換部は、前記符号化部が符号化する際、前記入力された画像を符号化した場合よりも少ない符号量になるよう変換する符号化装置である。
また、本発明の一態様は、上記の符号化装置であって、前記判定部は、推定発生符号量及び推定歪量を取得してレート歪最適化を行うことによって前記入力された画像を前記再構成対象とするか否かを判定する。
また、本発明の一態様は、上記の符号化装置であって、前記補助情報は、前記変換画像を、前記再構成対象とすると判定された画像の特徴を保ちつつ、前記再構成対象とすると判定された画像よりも少ない符号量の画像に逆変換するための情報である。
また、本発明の一態様は、画像が符号化された符号化データを復号する復号装置であって、入力された符号化データを復号し復号画像を得る復号部と、前記復号画像が再構成対象の画像であるか否かを判定する判定部と、再構成に使うための情報である補助情報を取得し、前記再構成対象の画像であると判定された復号画像を、前記補助情報を用いて再構成する再構成部と、を備える復号装置である。
また、本発明の一態様は、画像を符号化する符号化装置による符号化方法であって、入力された画像を再構成対象とするか否かを判定する判定ステップと、前記再構成対象とすると判定された画像から、再構成に使うための情報である補助情報を抽出する補助情報抽出ステップと、前記再構成対象とすると判定された画像を、前記入力された画像を符号化した場合よりも少ない符号量になるよう変換し変換画像を得る変換ステップと、前記変換画像を符号化し符号化データを得る符号化ステップと、を有する符号化方法である。
また、本発明の一態様は、画像が符号化された符号化データを復号する復号装置による復号方法であって、入力された符号化データを復号し復号画像を得る復号ステップと、前記復号画像が再構成対象の画像であるか否かを判定する判定ステップと、再構成に使うための情報である補助情報を取得し、前記再構成対象の画像であると判定された復号画像を、前記補助情報を用いて再構成する再構成ステップと、を有する復号方法である。
また、本発明の一態様は、上記の符号化装置としてコンピュータを機能させるための符号化プログラムである。
また、本発明の一態様は、上記の復号装置としてコンピュータを機能させるための復号プログラムである。
本発明により、再構成対象となる領域をより少ない符号量で送受信することができる。
以下、HEVCのイントラ予測符号化との併用を例に、本発明の実施形態について説明するが、本発明はHEVCならびにイントラ予測に限定されるものではない。つまり、本発明は、HEVC以外の画像符号化方式ならびにインター予測に対しても適用できるものである。
本発明では、HEVCのCTUやCU等のブロック毎に符号化側で再構成対象とするか非再構成対象とするかを判定し、再構成対象と判定されたブロック(以下、再構成対象ブロック)から補助情報を抽出し送信する。ここで、再構成とはTexture合成や画像の補間合成処理等によって、画像の着目領域に適合する擬似的な画像を生成する処理を指す。なお、ここでいう擬似的な画像とは、例えば、入力画像と比較して、主観的な観点から差異を感じ辛い画像のことである。
また、再構成対象ブロックには、HEVCのイントラ予測で予測残差の情報量が小さくなるよう、ブロック全体に均一な画像処理を施して、HEVC符号化器に入力する。言い換えると、HEVCでは予測精度が低いブロックや、一定の精度の主観画質を確保できれば符号化前の画像の画素を正確に再現する必要が少ない被写体に係るブロックを、再構成対象ブロックとし、HEVCが予測しやすい画素で構成させるようにすることで所望の画質を保ったまま符号化に要する符号量の低減を図る。復号側では、ブロック全体に均一な画像処理が施されているか否かを判定することにより、再構成対象ブロックを判別する。
また、再構成対象ブロックには、HEVCのイントラ予測で予測残差の情報量が小さくなるよう、ブロック全体に均一な画像処理を施して、HEVC符号化器に入力する。言い換えると、HEVCでは予測精度が低いブロックや、一定の精度の主観画質を確保できれば符号化前の画像の画素を正確に再現する必要が少ない被写体に係るブロックを、再構成対象ブロックとし、HEVCが予測しやすい画素で構成させるようにすることで所望の画質を保ったまま符号化に要する符号量の低減を図る。復号側では、ブロック全体に均一な画像処理が施されているか否かを判定することにより、再構成対象ブロックを判別する。
<第1の実施形態>
以下、第1の実施形態について、図面を参照しながら説明する。
以下、第1の実施形態について、図面を参照しながら説明する。
[符号化装置の処理]
まず、本発明による符号化装置の処理について説明する。
図1に、本発明の第1の実施形態における符号化装置の処理フローを示す。
まず、本発明による符号化装置の処理について説明する。
図1に、本発明の第1の実施形態における符号化装置の処理フローを示す。
ブロック分割処理は、入力ピクチャから符号化処理ブロックの形状を決定する(ステップS101)。出力されるブロック分割の形状は、図17に示したようなCTU、CU及びPUに倣い、このブロックを復号側の再構成処理の単位かつHEVC符号化処理の単位とする。
分割形状の決定方法としては、CTUのように均一の矩形として決定する方法のほか、HEVCテストモデル(HM;HEVC Test Model)に実装されるようなレート歪最適化により決定されるCU分割形状として決定する方法、又は、画像認識で用いられる物体毎に領域分割を実行した結果をブロック単位で近似したものとして決定する方法等を用いることができる。
符号化方式判定処理は、ブロック分割処理により分割されたブロック単位で、再構成対象ブロックとするか又は非再構成対象ブロックとするかを判定する(ステップS102)。なお、判定方法としては、例えば、再構成対象とする場合と非再構成対象とする場合とで、推定発生符号量ならびに推定歪量をそれぞれ導出し、レート歪最適化を適用することで判定する方法を用いることができる。
再構成対象ブロックとして判定された場合(ステップS103・Yes)、補助情報抽出処理により、再構成処理を補助するために復号装置へ送信する補助情報を、再構成対象ブロックから抽出する(ステップS104)。なお、再構成処理とは、再構成対象のブロックに対し、後述するような何らかの変換を施したブロックを、復号側で逆変換する処理のことである。なお、補助情報抽出処理は、例えば画像合成により再構成対象ブロックを合成することによって再構成する場合には、合成時に使用する代表Texture又は物体を識別したラベル等を補助情報として抽出する。
抽出された補助情報は、補助情報エントロピー符号化処理によりエントロピー符号化され、補助情報の符号化データとなる。なお、補助情報エントロピー符号化処理には、例えばハフマン符号化又はランレングス符号化等の任意の符号化方法を用いることができる(ステップS105)。
補助情報が抽出された後の再構成対象ブロックは、画像変換処理により、HEVCでより少ない符号量で送信可能な画像に変換される(ステップS106)。なお、画像変換処理は、例えば再構成対象ブロックを当該ブロックの平均値に置き換えてもよいし、HEVCイントラ方向性予測において任意又は特定のモード番号で予測した場合の予測残差がゼロに漸近するような変換を施してもよい。
また、変換に用いたHEVCイントラ予測のモード番号を、補助情報の一部として復号側に送信してもよく、HEVCイントラ予測の特定のモード番号と復号側での再構成処理の方法とを対応付けて画像変換を行い、その対応関係を補助情報の一部として復号側へ送信してもよい。
例えば、Texture合成を再構成処理とする場合、イントラ予測モード番号と代表Textureとを対応付けて、その対応関係を補助情報として復号側へ送信してもよい。また、画像変換の方法は、HEVCイントラ予測に基づく変換以外の方法でもよい。入力ピクチャに存在しない出力を得ることができる任意の変換方法を、画像変換処理の過程で定義又は事前に定義したものから選択し、その変換方法を補助情報として復号側へ送信してもよい。
変換後の画像(以下、「変換後画像」という。)は、変換後画像イントラ符号化処理で符号化し、変換後画像の符号化データを得る(ステップS107)。
上記の処理を、全てのブロックに対して処理順に適用し(ステップS108及びステップS109)、送信情報として補助情報の符号化データならびに変換後画像の符号化データを得る。
[符号化装置の構成例]
次に、上記の処理を実現するための符号化装置の構成例について説明する。
図2に、第1の実施形態における符号化装置10の構成例を示す。図示するように、符号化装置10は、ブロック分割部101と、符号化方式判定部102と、補助情報抽出部103と、補助情報エントロピー符号化部104と、画像変換部105と、イントラ予測部107と、変換/量子化部108と、エントロピー符号化部109と、逆量子化/逆変換部110と、予測用メモリ111と、を含んで構成される。
次に、上記の処理を実現するための符号化装置の構成例について説明する。
図2に、第1の実施形態における符号化装置10の構成例を示す。図示するように、符号化装置10は、ブロック分割部101と、符号化方式判定部102と、補助情報抽出部103と、補助情報エントロピー符号化部104と、画像変換部105と、イントラ予測部107と、変換/量子化部108と、エントロピー符号化部109と、逆量子化/逆変換部110と、予測用メモリ111と、を含んで構成される。
ブロック分割部101は、入力ピクチャを入力として、ブロック分割処理を行う。ブロック分割部101は、ブロック分割された入力ピクチャを出力する。
符号化方式判定部102は、ブロック分割された入力ピクチャを入力として、符号化方式判定処理を行う。符号化方式判定部102は、ブロックの符号化方式の判定結果を出力する。
補助情報抽出部103は、再構成対象ブロック及び参照ブロックを入力として、補助情報抽出処理を行う。参照ブロックは、再構成処理で参照すべき画素を含むブロックであり、例えば再構成処理として画像の補間合成を用いる場合、補間処理で参照する画素を含むブロックである。補助情報抽出部103は、補助情報を出力する。
補助情報エントロピー符号化部104は、入力された補助情報に対してエントロピー符号化を行い、補助情報の符号化データを得る。補助情報エントロピー符号化部104は、補助情報の符号化データを出力する。
画像変換部105は、再構成対象ブロックを入力として、画像変換処理を行う。画像変換部105は、変換後ブロックを出力する。
変換後ブロック及び非再構成対象ブロックは、イントラ符号化により符号化される。イントラ符号化では、イントラ予測部107から出力される予測画像との予測残差が、変換/量子化部108により直行変換及び量子化され、エントロピー符号化部109により符号化される。これにより、画像の符号化データが得られる。
なお、本実施形態においては、上記予測残差を符号化するエントロピー符号化部109と補助情報を符号化する補助情報エントロピー符号化部104とが別々の機能ブロックである構成としたが、これらが同一の機能ブロックで構成されてもよい。すなわち、1つの符号化部によって、例えば共通のエントロピー符号化方式で、上記予測残差の符号化及び補助情報の符号化が行われる構成であってもよい。
なお、本実施形態においては、上記予測残差を符号化するエントロピー符号化部109と補助情報を符号化する補助情報エントロピー符号化部104とが別々の機能ブロックである構成としたが、これらが同一の機能ブロックで構成されてもよい。すなわち、1つの符号化部によって、例えば共通のエントロピー符号化方式で、上記予測残差の符号化及び補助情報の符号化が行われる構成であってもよい。
変換/量子化部108により量子化された予測残差は、逆量子化/逆変換部110により逆量子化及び逆変換の処理がなされ、予測用メモリ111に蓄積される。予測用メモリ111に蓄積されたデータは、イントラ予測部107によるイントラ予測処理、及び、補助情報抽出部103による補助情報報抽出処理に用いられる。
[復号装置の処理]
次に、上記の処理方法及び機能構成によって生成された符号化データから画像を復号する復号装置の処理について説明する。
図3に、第1の実施形態における復号装置の処理フローを示す。
次に、上記の処理方法及び機能構成によって生成された符号化データから画像を復号する復号装置の処理について説明する。
図3に、第1の実施形態における復号装置の処理フローを示す。
変換後画像復号処理は、変換後画像の符号化データを復号し、変換後画像の復号画像のブロックを得る(ステップS201)。なお、復号画像は、入力画像に相当する単位の画像でもよいし、入力画像がブロック化されたブロックに相当する単位の画像でもよい。以下の各処理では、復号画像は、ブロックに相当する単位の画像であるものとして説明を続ける。
符号化方式判定処理は、符号化装置10の画像変換部105によって用いられた画像変換方法で変換されたブロックを、再構成対象ブロックとして判定する(ステップS202)。例えば、符号化装置10の画像変換部105が再構成対象ブロックを平均値で均一に置き換える処理を行う場合、符号化方式判定処理は、変換後画像の復号画像から得たブロックに対して、当該処理がなされたブロックを再構成対象ブロックとして判定する。
再構成対象ブロックに対しては(ステップS203・Yes)、符号化方式判定処理は、符号化装置10の補助情報エントロピー符号化部104で適用した符号化方式に基づき、当該再構成対象ブロックに対応する補助情報の符号化データを復号する(ステップS204)。
再構成処理は、補助情報と当該再構成対象ブロックが参照できる参照ブロックとを入力として、再構成処理を行う(ステップS205)。
上記の処理を、全てのブロックに対して処理順に適用し(ステップS206及びステップS207)、最終的な復号画像を得る。
[復号装置の構成例]
次に、上記の処理を実現するための復号装置の構成例について説明する。
図4に、第1の実施形態における復号装置20の構成例を示す。図示するように、復号装置20は、エントロピー復号部201と、逆変換/逆量子化部202と、イントラ予測部203と、予測用メモリ204と、再構成部205と、符号化方式判定部206と、補助情報エントロピー復号部207と、を含んで構成される。
次に、上記の処理を実現するための復号装置の構成例について説明する。
図4に、第1の実施形態における復号装置20の構成例を示す。図示するように、復号装置20は、エントロピー復号部201と、逆変換/逆量子化部202と、イントラ予測部203と、予測用メモリ204と、再構成部205と、符号化方式判定部206と、補助情報エントロピー復号部207と、を含んで構成される。
変換後画像の符号化データは、HEVCにより復号される。HEVCによる復号では、まず変換後画像の符号化データがエントロピー復号部201によりエントロピー復号され、逆変換/逆量子化部202により逆変換及び逆量子化の処理が施される。これにより、予測残差画像が復号され、イントラ予測部203による予測結果が加算されることで、変換後画像の復号画像のブロックが得られる。
復号された変換後画像は、予測用メモリ204に蓄積されて、イントラ予測部203及び再構成部205への入力として用いられる。
符号化方式判定部206は、変換後画像の復号画像のブロックを入力とし、符号化方式判定処理を行い、判定結果を出力する。
補助情報エントロピー復号部207は、入力された補助情報の符号化データに対してエントロピー復号を行い、補助情報を得る。補助情報エントロピー復号部207は、補助情報を再構成部205へ出力する。
再構成部205は、補助情報、再構成対象ブロックが参照できる参照画素及び再構成対象ブロックを入力として再構成処理を行い、最終的な出力ピクチャを出力する。
以上説明したように、上記実施形態に係る符号化方法及び復号方法では、従来技術とは異なり、入力画像に対し、処理ブロックの単位で再構成対象とするか又は非再構成対象とするかに分類して、再構成処理を適用する。上記実施形態に係る符号化方法及び復号方法は、ブロック単位で処理を行うことに制約することによって、境界情報を送信する際の符号量を少なくすることができる。上記実施形態に係る符号化方法及び復号方法は、例えば再構成対象ブロック内を平均値で置き換えるという規則を符号化装置10と復号装置20との間で共有させることにより、境界情報を送信することなく再構成対象ブロック位置の特定を実現することができる。
従来、任意の形状で再構成対象を指定できる一方で、領域毎に、再構成対象であるか否かの情報及び再構成の方法を復号側に補助情報として送信する必要があった。これにより、従来、補助情報の符号量が多くなるという課題があった。一方、上記実施形態に係る符号化方法及び復号方法では、ブロック毎に再構成対象ブロックを指定し、指定された再構成対象ブロックに対して、符号化側でより少ない符号量でHEVCによって符号化できる処理(例えば、ブロック全体を平均値に置き換える処理)を施し、復号側で当該処理の有無を判定する処理を施す。これにより、上記実施形態に係る符号化方法及び復号方法では、補助情報として境界情報を復号側へ送信しなくても、復号側で再構成ブロックを判定することができる。また、HEVCのモード番号と再構成の方法とを関連付けることにより、再構成の方法も復号側へ同時に送信することができる。
<第2の実施形態>
以下、第2の実施形態について、図面を参照しながら説明する。以下に説明する第2の実施形態では、上述した第1の実施形態に対して、符号化装置及び復号装置の構成が異なる。
以下、第2の実施形態について、図面を参照しながら説明する。以下に説明する第2の実施形態では、上述した第1の実施形態に対して、符号化装置及び復号装置の構成が異なる。
[符号化装置の構成例]
第2の実施形態における符号化装置30の構成を図5に示す。図示するように、符号化装置30は、前処理装置31と、従来型符号化装置32と、から構成される。前処理装置31は、ブロック分割部301と、符号化方式判定部302と、補助情報抽出部303と、補助情報エントロピー符号化部304と、画像変換部305と、変換後画像メモリ306と、を含んで構成される。従来型符号化装置32は、イントラ予測部307と、変換/量子化部308と、エントロピー符号化部309と、逆量子化/逆変換部310と、予測用メモリ311と、を含んで構成される。
第2の実施形態における符号化装置30の構成を図5に示す。図示するように、符号化装置30は、前処理装置31と、従来型符号化装置32と、から構成される。前処理装置31は、ブロック分割部301と、符号化方式判定部302と、補助情報抽出部303と、補助情報エントロピー符号化部304と、画像変換部305と、変換後画像メモリ306と、を含んで構成される。従来型符号化装置32は、イントラ予測部307と、変換/量子化部308と、エントロピー符号化部309と、逆量子化/逆変換部310と、予測用メモリ311と、を含んで構成される。
図5に示すように、第2の実施形態における符号化装置30と第1の実施形態における符号化装置10との違いは、ブロック分割部、符号化方式判定部、画像変換部、補助情報抽出部及びエントロピー符号化部を備える装置が、前処理装置31として、その他の構成部(すなわち、従来型の符号化装置が備える構成部)とは独立して備えられる点である。
この場合、図5に例示した構成のように、変換後画像メモリ306に変換後画像が蓄積され、補助情報抽出部303が変換後画像メモリ306に蓄積された変換後画像を参照する構成であってもよい。前処理装置31に含まれる構成部以外の構成部は、従来型符号化装置32として独立して構成される。従来型符号化装置32として、例えば、HEVCのイントラ符号化装置のほか、JPEG(Joint Photographic Experts Group)等の画像符号化標準に則った符号化装置等を用いることができる。
なお、符号化装置30の処理の流れは図1に示した処理フローと共通であるため、説明を省略する。
[復号装置の構成例]
次に、第2の実施形態における復号装置40の構成を図6に示す。図示するように、復号装置40は、従来型復号装置41と、後処理装置42と、から構成される。従来型復号装置41は、エントロピー復号部401と、逆変換/逆量子化部402と、イントラ予測部403と、予測用メモリ404と、を含んで構成される。後処理装置42は、再構成部405と、符号化方式判定部406と、補助情報エントロピー復号部407と、を含んで構成される。
次に、第2の実施形態における復号装置40の構成を図6に示す。図示するように、復号装置40は、従来型復号装置41と、後処理装置42と、から構成される。従来型復号装置41は、エントロピー復号部401と、逆変換/逆量子化部402と、イントラ予測部403と、予測用メモリ404と、を含んで構成される。後処理装置42は、再構成部405と、符号化方式判定部406と、補助情報エントロピー復号部407と、を含んで構成される。
図6に示すように、第2の実施形態における復号装置40と第1の実施形態における復号装置20との違いは、符号化方式判定部、補助情報エントロピー復号部、再構成部を備える装置が、後処理装置42として、その他の構成部(すなわち、従来型の復号装置が備える構成部)とは独立して備えられる点である。
この場合、図6に例示した構成のように、出力ピクチャメモリ408に出力ピクチャが蓄積され、再構成部405が出力ピクチャメモリ408に蓄積された出力ピクチャを参照する構成であってもよい。後処理装置42に含まれる構成部以外の構成部は、従来型復号装置41として独立して構成される。
なお、復号装置40の処理の流れは図3に示した処理フローと共通であるため、説明を省略する。
以上説明した第2の実施形態に係る符号化方法及び復号方法によれば、従来の符号化装置及び復号装置と併用が可能な、前処理装置31及び後処理装置42を実現することができる。これにより、標準規格と、前処理装置31及び後処理装置42とにおいて、符号化効率の改善が加算的となるため、第2の実施形態に係る符号化方法及び復号方法によれば、標準規格に基づく符号化装置が高効率化した場合に、符号化装置30全体の符号化効率を改善できる。
以下、再構成対象ブロックを、機械学習を用いた画像の補間合成処理により復号側で再構成する手段について説明する。当然、本手段を上記第1及び第2の実施形態において用いることは可能である。
<第3の実施形態>
以下、第3の実施形態について、図面を参照しながら説明する。
<第3の実施形態>
以下、第3の実施形態について、図面を参照しながら説明する。
上述したように、HEVCにおいて選択可能な各予測方式(Planar予測、DC予測及び方向性予測)は参照可能な画素を参照し、単純な予測ルールに基づいて予測を行うが、例えば画面内に高周波成分が無作為に分布する画像では予測効率が低下するという課題がある。このような画像では、予測残差信号の情報量が多くなるため、予測残差信号の量子化幅を一定として符号化した場合、符号量が過剰に発生する。
このような画像に対しても主観品質を保持したまま符号量を削減する圧縮符号化を実現する方法として、予測方式の高精度化以外に、上記の予測とは異なり、擬似的に画像を再構成する処理方式を導入する方法が考えられる。
非特許文献1に記載の技術(以下、「従来技術1」という。)によれば、畳み込みニューラルネットワークにより構成される補間ネットワークと、畳み込みニューラルネットワークにより構成され補間ネットワークが補間した補間画像と補間されていない真の画像を識別する識別ネットワークの2つのネットワークを、敵対的生成ネットワークの枠組みに倣って交互に学習することで、補間ネットワークが画像の欠損領域を擬似的に再構成できるようになる。
従来技術1の補間ネットワークを復号側に適用することで、上述の予測効率が低下する画像の領域に対し復号側で画像を再構成でき、再構成領域の送信が不要になることから、符号量を削減することができる。
[補間ネットワークを用いた画像符号化、復号処理の例]
補間ネットワークを用いた画像符号化、復号処理の例を図7に示す。
補間ネットワークを用いた画像符号化、復号処理の例を図7に示す。
画像欠損処理は、入力画像から画像補間により復号側で再構成対象とする領域を選択し、欠損させて欠損画像を生成し、欠損領域を示す欠損領域情報とともに出力する(ステップS301)。ここで、欠損領域情報は欠損領域を示す2値画像等である。
欠損領域情報符号化処理は、欠損領域情報を復号側に送信するため、欠損領域情報を符号化する処理を、JPEG(Joint Photographic Experts Group)やHEVC等の従来の画像符号化方式や、ランレングス符号化等のエントロピー符号化方式により行う。これにより、欠損領域情報符号化処理は、欠損領域情報の符号化データを得る(ステップS302)。
画像符号化処理は、欠損画像をJPEGやHEVC等の従来の画像符号化方式を用いて符号化処理を行う。これにより、画像符号化処理は、欠損画像の符号化データを得る(ステップS303)。
画像復号処理は、欠損画像の符号化データから復号済み欠損画像を得る(ステップS304)。
欠損領域情報復号処理は、欠損領域情報の符号化データから、欠損領域情報を得る(ステップS305)。
画像補間処理は、従来技術1の補間ネットワークに対し、復号済み欠損画像と欠損領域情報とを入力し、最終的な出力画像を得る。なお、符号化処理及び復号処理の処理単位は、画面全体としてもよいし、HEVCのCTUのような構造を用いて画面を分割したブロック単位としてもよい(ステップS306)。
[符号化装置及び復号装置の構成例]
上記の符号化処理及び復号処理を実現する符号化装置50及び復号装置60の構成例を、図8に示す。図示するように、符号化装置50は、画像欠損処理部501と、画像符号化部502と、欠損領域情報符号化部503と、から構成される。
上記の符号化処理及び復号処理を実現する符号化装置50及び復号装置60の構成例を、図8に示す。図示するように、符号化装置50は、画像欠損処理部501と、画像符号化部502と、欠損領域情報符号化部503と、から構成される。
画像欠損処理部501は、入力画像を入力とし、画像欠損処理を行う。これにより、画像欠損処理部501は、欠損画像と欠損領域情報を出力する。
画像符号化部502は、欠損画像を入力とし、画像符号化処理を行う。これにより、画像符号化部502は、欠損画像の符号化データを出力する。
欠損領域情報符号化部503は、欠損領域情報を入力とし、欠損領域情報符号化処理を行う。これにより、欠損領域情報符号化部503は、欠損領域情報の符号化データを出力する。
欠損画像の符号化データならびに欠損領域情報の符号化データは、復号装置60に送信される。
図8に示すように、復号装置60は、画像復号部601と、欠損領域情報復号部602と、画像補間部603と、から構成される。
画像復号部601は、欠損画像の符号化データを入力とし、画像復号処理を行う。これにより、画像復号部601は、復号済み欠損画像を得る。
欠損領域情報復号部602は、欠損領域情報の符号化データを入力とし、欠損領域情報復号処理を行う。これにより、欠損領域情報を得る。
画像補間部603は、画像補間ネットワーク604を備え、復号済み欠損画像と欠損領域情報を入力とし、画像補間処理を行う。これにより、画像補間部603は、最終的な出力画像を得る。
上記の構成では、画像補間処理において欠損画像の欠損領域の面積に出力画像の主観画質が大きく依存する。具体的には、補間すべき欠損領域の面積が大きくなるほど、補間ネットワークに入力される情報量が少なくなるため、画像補間処理における欠損領域の推定が困難となり、出力画像の主観画質が劣化する。また、上記の構成では、補間すべき欠損領域に、参照可能な領域から推論できない複雑な要素が含まれていた場合に、復号側で再構成されない、もしくは出力の主観画質が劣化する。
よって、欠損領域の面積が大きな場合や欠損領域が複雑な場合にも、主観画質の劣化を抑制しながら画像補間処理を実行できる画像補間処理を含む符号化方式及び復号方式、ならびに構成要素となるネットワークの効率的な学習方法が望まれる。
以下、畳み込みニューラルネットワークを用い、識別ネットワークを用いた敵対的生成ネットワークによる学習を例に、本発明の第3の実施形態について説明するが、本発明は畳み込みニューラルネットワークによる画像補間及び敵対的生成ネットワークの枠組みによる学習に限定されるものではない。つまり、画像補間に対しては、学習によりその画像補間方法が獲得される任意の学習モデルを適用できる。また、その学習方法に対しては、任意の誤差関数を用いた学習方法を適用できる。
第3の実施形態では、符号化装置は、原画像を参照して特徴抽出を行い、画像補間を補助するための画像補間補助情報を、復号装置へ送信する。復号装置は、画像補間補助情報を用いて画像補間を行う。また、画像補間補助情報の抽出及び画像補間に用いられるネットワークは、ネットワーク毎に個別に最適化がなされた後、各ネットワークが結合されて全体最適化される。
[符号化処理及び復号処理の流れ]
まず、本発明による補間ネットワーク及び補助情報抽出ネットワークを用いた符号化処理及び復号処理について概要を説明する。
図9に、第3の実施形態による符号化処理及び復号処理の流れを示す。
まず、本発明による補間ネットワーク及び補助情報抽出ネットワークを用いた符号化処理及び復号処理について概要を説明する。
図9に、第3の実施形態による符号化処理及び復号処理の流れを示す。
画像欠損処理は、入力画像から画像補間により復号側で再構成対象とする領域を選択する。画像欠損処理は、当該領域を、例えば平均値に置き換える等の処理により欠損させて欠損画像を生成する。画像欠損処理は、生成した欠損画像を、欠損させた領域の画素値の集合である欠損領域の位置を示す欠損領域情報とともに出力する。
ここで、欠損領域情報としては、例えば欠損領域を示す2値マスク画像(以下、欠損領域マスク画像)を用いることができる。また、画像欠損処理における領域選択方法としては、HEVCのイントラ符号化において固定量子化幅を用いた際の発生符号量が多い領域を選択する方法、又は、画像認識で用いられる物体毎に領域分割を実行し補間可能な領域として選択する方法等を用いることができる(ステップS401)。
補助情報抽出処理は、入力画像のうち欠損領域情報から導出される欠損領域に対応する領域、又は、入力画像そのものから、画像補間補助情報抽出のためのネットワークを用いて画像補間補助情報を抽出する(ステップS402)。画像補間補助情報抽出のためのネットワークの詳細は後述する。
補助情報符号化処理は、補助情報抽出処理によって抽出された画像補間補助情報を、ハフマン符号化等の従来のエントロピー符号化方式により符号化する。これにより、補助情報符号化処理は、画像補間補助情報の符号化データを得る(ステップS403)。
欠損領域情報符号化処理は、欠損領域情報を復号側に送信するため、再構成対象領域を符号化する処理を、JPEGやHEVC等の従来の画像符号化方式や、ランレングス符号化等のエントロピー符号化方式により行う。これにより、欠損領域情報符号化処理は、欠損領域情報の符号化データを得る(ステップS404)。
画像符号化処理は、欠損画像に対して、JPEGやHEVC等の従来の画像符号化方式を用いて符号化処理を行う。これにより、画像符号化処理は、欠損画像の符号化データを得る(ステップS405)。
画像復号処理は、欠損画像の符号化データから、復号済み欠損画像を得る(ステップS406)。
欠損領域情報復号処理は、欠損領域情報の符号化データから、欠損領域情報を得る(ステップS407)。
補助情報復号処理は、画像補間補助情報の符号化データから、画像補間補助情報を得る(ステップS407)。
画像補間処理は、画像補間のためのネットワークに、復号済み欠損画像、欠損領域情報、及び画像補間補助情報を入力し、最終的な出力画像を得る。画像補間のためのネットワークの詳細については、後述する(ステップS408)。
なお、符号化処理及び復号処理の処理単位は、画面全体としてもよいし、HEVCのCTUのような構造を用いて画面を分割したブロック単位としてもよい。
[符号化装置及び復号装置の構成例]
次に、上記の符号化処理及び復号処理を実現する符号化装置及び復号装置の構成例を、図10に示す。図示するように、符号化装置70は、画像欠損処理部701と、画像符号化部702と、欠損領域情報符号化部703と、補助情報抽出部704と、補助情報符号化部705と、から構成される。
次に、上記の符号化処理及び復号処理を実現する符号化装置及び復号装置の構成例を、図10に示す。図示するように、符号化装置70は、画像欠損処理部701と、画像符号化部702と、欠損領域情報符号化部703と、補助情報抽出部704と、補助情報符号化部705と、から構成される。
画像欠損処理部701は、入力画像を入力とし、画像欠損処理を行う。これにより、画像欠損処理部701は、欠損画像と欠損領域情報とを出力する。
画像符号化部702は、欠損画像を入力とし、画像符号化処理を行う。これにより、画像符号化部702は、欠損画像の符号化データを出力する。
欠損領域情報符号化部703は、欠損領域情報を入力とし、欠損領域情報符号化処理を行う。これにより、欠損領域情報符号化部703は、欠損領域情報の符号化データを出力する。
補助情報抽出部704は、入力画像のうち欠損領域情報から導出される欠損領域に対応する領域、又は、欠損領域でない領域を含む画像全体を入力とし、補助情報抽出処理を行う。これにより、補助情報抽出部704は、画像補間補助情報を抽出する。
補助情報符号化部705は、画像補間補助情報を入力とし、補助情報符号化処理を行う。これにより、補助情報符号化部705は、画像補間補助情報の符号化データを出力する。
欠損画像の符号化データ、欠損領域情報の符号化データ及び画像補間補助情報の符号化データは、復号装置80へ送信される。
図10に示すように、復号装置80は、画像復号部801と、欠損領域情報復号部802と、画像補間部803と、補助情報復号部805と、から構成される。
画像復号部801は、欠損画像の符号化データを入力とし、画像復号処理を行う。これにより、画像復号部801は、復号済み欠損画像を得る。
欠損領域情報復号部802は、欠損領域情報の符号化データを入力とし、欠損領域情報復号処理を行う。これにより、欠損領域情報復号部802は、欠損領域情報を得る。
補助情報復号部805は、画像補間補助情報の符号化データを入力とし、補助情報復号処理を行う。これにより、補助情報復号部805は、画像補間補助情報を得る。
画像補間部803は、復号済み欠損画像、欠損領域情報及び画像補間補助情報を入力とし、画像補間補助情報を参照した画像補間処理を行う。これにより、画像補間部803は、最終的な出力画像を得る。
[補助情報抽出部と画像補間部の構成ならびに学習方法]
次に、補助情報抽出部704及び画像補間部803の構成、ならびに学習方法について説明する。
次に、補助情報抽出部704及び画像補間部803の構成、ならびに学習方法について説明する。
補助情報抽出部704及び画像補間部803のネットワークの構成を図11に示す。図示するように、補助情報抽出部704は、復号側に送信する画像補間補助情報を抽出するための補助情報抽出ネットワーク7041から構成される。
補助情報抽出ネットワーク7041は、入力画像及び欠損領域情報を入力として、画像補間補助情報を出力するネットワークである。補助情報抽出ネットワーク7041は、例えば入力を入力画像及び欠損領域マスク画像の2枚の画像とし、出力を任意の数のユニットとして、畳み込み層や全結合層等により中間層を構成する。
図11に示すように、画像補間部803は、画像補間補助情報を参照して欠損領域を予測するための補助情報参照ネットワーク8031、欠損画像を参照して欠損領域を予測するための欠損画像参照ネットワーク8032、及び、前記2つのネットワークの出力から最終的な補間画像を生成するための再構成ネットワーク8033から構成される。
補助情報参照ネットワーク8031は、画像補間補助情報を入力として、補助情報参照による中間画像を出力するネットワークである。補助情報参照ネットワーク8031は、例えば入力を画像補間補助情報と同数のユニットとし、出力を1枚の補助情報参照による中間画像として、全結合層、逆畳み込み層、及び、畳み込み層等により中間層を構成する。
欠損画像参照ネットワーク8032は、入力画像の欠損画像及び欠損領域マスク画像を入力として、欠損画像参照による中間画像を出力するネットワークである。欠損画像参照ネットワーク8032は、例えば入力を入力画像の欠損画像及び欠損領域マスク画像の2枚の画像、出力を1枚の欠損画像参照による中間画像として、畳み込み層、全結合層、及び、逆畳み込み層等により中間層を構成する。
再構成ネットワーク8033は、補助情報参照による中間画像及び欠損画像参照による中間画像を入力として、欠損領域が補間された最終的な出力画像を出力するネットワークである。再構成ネットワーク8033は、例えば入力を2枚の中間画像とし、出力を1枚の出力画像として、畳み込み層、全結合層、及び、逆畳み込み層等により中間層を構成する。
以上の構成により、補助情報抽出部704及び画像補間部803を学習する。学習時は、従来技術1と同様に、敵対的生成ネットワークの枠組みを用いることができる。このとき、従来技術1と同様、補間した領域の自然さを評価するための識別ネットワーク9000は、画像補間部803の出力画像を入力とし、出力画像が補間されていない真の画像である確率を出力する。
次に、図11の構成を用いたネットワークの学習方法について説明する。学習処理は、教師データとして、原画像と、原画像に欠損領域をランダムに与えて生成した原画像の欠損画像と、欠損領域情報との組を多数用意する。学習で用いる誤差関数としては、例えば原画像とネットワークの出力画像の画素の平均二乗誤差(以下、平均二乗誤差)、及び敵対的生成ネットワークの枠組みを適用し、識別ネットワークによってネットワークの出力画像が識別された誤差(以下、「識別ネットワーク誤差」という。)、又は平均二乗誤差と識別ネットワーク誤差の重み付き和による誤差(以下、重み付き誤差)のいずれかを用いることができる。
[ネットワークの学習方法]
学習処理の流れを図12に示す。
学習処理の流れを図12に示す。
欠損画像参照ネットワーク学習処理は、図11の欠損画像参照ネットワーク8032及び識別ネットワーク9000を切り出し、図13のように結合して、欠損画像参照ネットワーク8032の出力を識別ネットワーク9000への入力とみなし、欠損画像参照ネットワーク8032を学習する(ステップS501)。
具体的には、欠損画像参照ネットワーク学習処理は、原画像の欠損画像と欠損領域情報とを欠損画像参照ネットワーク8032に入力し、出力される画像が原画像に近付くよう、誤差逆伝播法によりネットワークのパラメータを更新する。ここで、欠損画像参照ネットワーク学習処理は、誤差関数として、まず平均二乗誤差を適用して学習を行った後、重み付き誤差を適用して学習を行う。以降の各ネットワークの学習処理でも、同様に平均二乗誤差を用いて学習が行われた後、重み付き誤差を用いて学習が行われる。
補助情報抽出/参照ネットワーク学習処理は、図11の補助情報抽出ネットワーク7041、補助情報参照ネットワーク8031、及び識別ネットワーク9000を切り出し、図14のように結合して、補助情報参照ネットワーク8031の出力を識別ネットワーク9000への入力とみなし、補助情報抽出ネットワーク7041と補助情報参照ネットワーク8031とを学習する(ステップS502)。
具体的には、補助情報抽出/参照ネットワーク学習処理は、原画像と欠損領域情報とを、補助情報抽出ネットワーク7041及び補助情報参照ネットワーク8031が結合されたネットワークに入力する。補助情報抽出/参照ネットワーク学習処理は、出力される画像が原画像に近付くよう、平均二乗誤差と重み付き誤差を順に適用して、誤差逆伝播法によりネットワークのパラメータを更新する。
再構成ネットワーク学習処理は、欠損画像参照ネットワーク学習処理及び補助情報抽出/参照ネットワーク学習処理で構築された欠損画像参照ネットワーク8032、補助情報抽出ネットワーク7041、補助情報参照ネットワーク8031、再構成ネットワーク8033、及び識別ネットワーク9000を図11のように結合し、再構成ネットワーク8033のみ学習する(ステップS503)。
具体的には、再構成ネットワーク学習処理は、原画像、原画像の欠損画像、及び欠損領域情報を結合されたネットワークに入力し、出力される画像が原画像に近付くよう、平均二乗誤差と重み付き誤差を順に適用して、再構成ネットワークのパラメータのみを誤差逆伝播法により更新する。
全体学習処理は、再構成ネットワーク学習処理において図11のように結合された、欠損画像参照ネットワーク8032、補助情報抽出ネットワーク7041、補助情報参照ネットワーク8031、及び再構成ネットワーク8033を同時に学習する(ステップS504)。
具体的には、全体学習処理は、原画像、原画像の欠損画像、及び欠損領域情報を結合されたネットワークに入力し、出力される画像が原画像に近付くよう、平均二乗誤差と重み付き誤差を順に適用して、全ネットワークのパラメータを誤差逆伝播法により更新する。なお、補助情報抽出ネットワークのみネットワークのパラメータを固定して学習する構成であってもよい。
なお、上記の誤差関数の適用順は一例であり、識別ネットワーク9000を含む敵対的生成ネットワークの枠組みを用いずに学習してもよく、識別ネットワーク誤差や平均二乗誤差、もしくは重み付き誤差を、学習の反復回数等に応じて随時変更しながら適用してもよい。
また、敵対的生成ネットワークの枠組みで学習する場合には、図12の各ネットワークの学習処理とは独立に、識別ネットワーク9000を、反復回数や識別ネットワーク9000の正解率に応じて学習する構成であってもよい。
識別ネットワーク9000の学習では、例えば図12の各学習処理で用いられるネットワークの出力画像と原画像とを交互に識別ネットワーク9000に入力して、入力が原画像である確率を出力させ、出力と0又は1の正解値との誤差を相互情報量等の誤差関数によって評価して、誤差逆伝播法によりパラメータを更新すればよい。
また、各学習処理の終了は、反復回数や誤差の減少に対する閾値処理を用いて判定してもよい。なお、処理の単位は、画面全体としてもよいし、HEVCのCTUのような構造を用いて画面を分割したブロック単位としてもよい。
以上説明したように、第3の実施形態における符号化方法及び復号方法は、従来技術における補間ネットワークを復号側に適用し画像生成により出力画像を得る方法とは異なり、画像補間補助情報を用いて画像生成を行う。これにより、第3の実施形態における符号化方法及び復号方法は、従来技術を用いる方法に対して予測精度を向上させることができ、原画の特徴を用いた生成を実現することができる。
また、第3の実施形態における符号化方法及び復号方法は、送信する画像補間補助情報を学習により決定可能なことから、従来のHEVCのような人手の試行錯誤により決定された画像補間補助情報の抽出に比べて、より高精度な再構成結果が得られる画像補間補助情報を抽出することができる。さらに、第3の実施形態における符号化方法及び復号方法は、ネットワークの学習順序や適用する誤差関数を制御することで、学習すべき複雑な構成のネットワークに対し、意図する動作を各ネットワークに獲得させることができる。
上述した従来技術1では、画像の補間ネットワークを学習により獲得する方法が提案されているが、この補間ネットワークを画像符号化の枠組みにおける復号側に適用する場合、特に広い面積を補間する場合や、補間したい領域が周囲から推論できない程度に複雑な場合に生成精度が低下する。
一方、第3の実施形態における符号化方法及び復号方法は、符号化側に補助情報抽出部704を設け、補間ネットワークに画像補間補助情報を与えることでこれを解決する。また、このとき、画像補間補助情報を定義する補助情報抽出ネットワーク7041も学習により獲得することで、第3の実施形態における符号化方法及び復号方法は、HEVC等の画像符号化のように、人手で設計した画像補間補助情報に比べて、画像生成の精度がより高まる画像補間補助情報を抽出することができる。
第3の実施形態における符号化方法及び復号方法の構成は、画像補間補助情報を生成する補助情報抽出部704も含めて、学習によりネットワークのパラメータを獲得させることから、補助情報抽出部704及び画像補間部803を同時に学習した場合に、各ネットワークに意図する動作を学習させることが難しい。特に、敵対的生成ネットワークの枠組みを用いた場合は、学習の調整が難しいためこの傾向は顕著となる。
しかしながら、第3の実施形態における符号化方法及び復号方法では、補助情報抽出部704及び画像補間部803を、役割毎のネットワークに分割し、学習の反復回数によって学習対象とするネットワーク及び適用する誤差関数を制御することで、各ネットワークに意図する動作を獲得させることができる。
<第4の実施形態>
以下、第4の実施形態について、図面を参照しながら説明する。
以下、第4の実施形態について、図面を参照しながら説明する。
第4の実施形態は、第3の実施形態と,補助情報抽出部及び画像補間部のネットワークの構成が異なり、画像補間補助情報を、欠損画像参照ネットワークの出力と入力画像の差分とから生成する。
第4の実施形態におけるネットワークの構成を、図15に示す。図示するように、補助情報抽出部704は、補助情報抽出ネットワーク7041と、画像補間部803と共通のネットワークのパラメータを用いた欠損画像参照ネットワーク8032と、から構成される。
補助情報抽出ネットワーク7041は、入力画像と欠損画像参照による中間画像の差分、及び欠損領域情報を入力として、画像補間補助情報を出力するネットワークである。補助情報抽出ネットワーク7041は、例えば入力を入力画像と欠損画像参照による中間画像との差分画像、及び欠損領域マスク画像の2枚の画像とし、出力を任意の数のユニットとして、畳み込み層及び全結合層等により中間層を構成する。
図15に示すように、画像補間部803は、補助情報参照ネットワーク8031と、欠損画像参照ネットワーク8032と、再構成ネットワーク8033と、から構成される。これら各ネットワークの入出力は、欠損画像参照ネットワーク8032を除き第3の実施形態と共通である。
補助情報参照ネットワーク8031は、画像補間補助情報を入力として、補助情報参照による中間画像を出力するネットワークである。
欠損画像参照ネットワーク8032は、入力画像の欠損画像と欠損領域マスク画像とを入力として、欠損画像参照による中間画像を出力するネットワークである。
欠損画像参照による中間画像は、画像補間部803の構成要素として、再構成ネットワーク8033に入力される。また、欠損画像参照による中間画像と入力画像との差分が、補助情報抽出部704の構成要素として、補助情報抽出ネットワーク7041に入力される。
再構成ネットワーク8033は、補助情報参照による中間画像と欠損画像参照による中間画像とを入力として、欠損領域が補間された最終的な出力画像を出力するネットワークである。
以上の構成によって、補助情報抽出部704及び画像補間部803の学習が行われる。なお、学習の処理は第3の実施形態と共通であるが、補助情報抽出/参照ネットワーク学習処理におけるネットワークの構成が図16のようになる。当該処理では、図16の構成で、補助情報抽出ネットワーク7041及び補助情報参照ネットワーク8031のみの学習が行われる。
以上説明したように、第4の実施形態による補助情報抽出部704は、第3の実施形態のように原画像を直接入力とすることもできるが、上述したように復号側と符号化側で周辺ブロックからの予測結果(欠損画像参照による中間画像)を共通にするという前提を置くことによって、原画像と周辺ブロックからの予測画像との差分画像を入力とすることができる。これにより、画像補間部803の出力画像が原画像から離れすぎないようにする制約を明示的に導入することができ、補間結果の主観品質が向上する。
上述した実施形態における符号化装置及び復号装置の一部又は全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
10,30…符号化装置、101,301…ブロック分割部、102,302…符号化方式判定部、103,303…補助情報抽出部、104.304…補助情報エントロピー符号化部、105,305…画像変換部、306…変換後画像メモリ、107,307…イントラ予測部、108,308…変換/量子化部、109,309…エントロピー符号化部、110,310…逆量子化/逆変換部、111,311…予測用メモリ、20…復号装置、201,401…エントロピー復号部、202,402…逆変換/逆量子化部、
203,403…イントラ予測部、204,404…予測用メモリ、205,405…再構成部、206,406…符号化方式判定部、207,407…補助情報エントロピー復号部、408…出力ピクチャメモリ、50,70…符号化装置、501,701…画像欠損処理部、502,702…画像符号化部、503,703…欠損領域情報符号化部、704…補助情報抽出部、7041…補助情報抽出ネットワーク、705…補助情報符号化部、60,80…復号装置、601,801…画像復号部、602,802…欠損領域情報復号部、603,803…画像補間部、8031…補助情報参照ネットワーク、8032…欠損画像参照ネットワーク、8033…再構成ネットワーク、604…画像補間ネットワーク、805…補助情報復号部、9000…識別ネットワーク
203,403…イントラ予測部、204,404…予測用メモリ、205,405…再構成部、206,406…符号化方式判定部、207,407…補助情報エントロピー復号部、408…出力ピクチャメモリ、50,70…符号化装置、501,701…画像欠損処理部、502,702…画像符号化部、503,703…欠損領域情報符号化部、704…補助情報抽出部、7041…補助情報抽出ネットワーク、705…補助情報符号化部、60,80…復号装置、601,801…画像復号部、602,802…欠損領域情報復号部、603,803…画像補間部、8031…補助情報参照ネットワーク、8032…欠損画像参照ネットワーク、8033…再構成ネットワーク、604…画像補間ネットワーク、805…補助情報復号部、9000…識別ネットワーク
Claims (8)
- 画像を符号化する符号化装置であって、
入力された画像を再構成対象とするか否かを判定する判定部と、
前記再構成対象とすると判定された画像から、再構成に使うための情報である補助情報を抽出する補助情報抽出部と、
前記再構成対象とすると判定された画像を変換し変換画像を得る変換部と、
前記変換画像を符号化し符号化データを得る符号化部と、
を備え、
前記変換部は、前記符号化部が符号化する際、前記入力された画像を符号化した場合よりも少ない符号量になるよう変換する
符号化装置。 - 前記判定部は、推定発生符号量及び推定歪量を取得してレート歪最適化を行うことによって前記入力された画像を前記再構成対象とするか否かを判定する
請求項1に記載の符号化装置。 - 前記補助情報は、前記変換画像を、前記再構成対象とすると判定された画像の特徴を保ちつつ、前記再構成対象とすると判定された画像よりも少ない符号量の画像に逆変換するための情報である
請求項1又は請求項2に記載の符号化装置。 - 画像が符号化された符号化データを復号する復号装置であって、
入力された符号化データを復号し復号画像を得る復号部と、
前記復号画像が再構成対象の画像であるか否かを判定する判定部と、
再構成に使うための情報である補助情報を取得し、前記再構成対象の画像であると判定された復号画像を、前記補助情報を用いて再構成する再構成部と、
を備える復号装置。 - 画像を符号化する符号化装置による符号化方法であって、
入力された画像を再構成対象とするか否かを判定する判定ステップと、
前記再構成対象とすると判定された画像から、再構成に使うための情報である補助情報を抽出する補助情報抽出ステップと、
前記再構成対象とすると判定された画像を、前記入力された画像を符号化した場合よりも少ない符号量になるよう変換し変換画像を得る変換ステップと、
前記変換画像を符号化し符号化データを得る符号化ステップと、
を有する符号化方法。 - 画像が符号化された符号化データを復号する復号装置による復号方法であって、
入力された符号化データを復号し復号画像を得る復号ステップと、
前記復号画像が再構成対象の画像であるか否かを判定する判定ステップと、
再構成に使うための情報である補助情報を取得し、前記再構成対象の画像であると判定された復号画像を、前記補助情報を用いて再構成する再構成ステップと、
を有する復号方法。 - 請求項1から請求項3のうちいずれか一項に記載の符号化装置としてコンピュータを機能させるための符号化プログラム。
- 請求項4に記載の復号装置としてコンピュータを機能させるための復号プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018097427A JP2019205011A (ja) | 2018-05-21 | 2018-05-21 | 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム及び復号プログラム |
PCT/JP2019/018568 WO2019225337A1 (ja) | 2018-05-21 | 2019-05-09 | 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム及び復号プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018097427A JP2019205011A (ja) | 2018-05-21 | 2018-05-21 | 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム及び復号プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019205011A true JP2019205011A (ja) | 2019-11-28 |
Family
ID=68615960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018097427A Pending JP2019205011A (ja) | 2018-05-21 | 2018-05-21 | 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム及び復号プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2019205011A (ja) |
WO (1) | WO2019225337A1 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009157904A1 (en) * | 2008-06-27 | 2009-12-30 | Thomson Licensing | Methods and apparatus for texture compression using patch-based sampling texture synthesis |
US10715804B2 (en) * | 2016-04-22 | 2020-07-14 | Sony Corporation | Encoding apparatus and encoding method as well as decoding apparatus and decoding method |
-
2018
- 2018-05-21 JP JP2018097427A patent/JP2019205011A/ja active Pending
-
2019
- 2019-05-09 WO PCT/JP2019/018568 patent/WO2019225337A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2019225337A1 (ja) | 2019-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102287947B1 (ko) | 영상의 ai 부호화 및 ai 복호화 방법, 및 장치 | |
JP7047119B2 (ja) | 変換領域における残差符号予測のための方法および装置 | |
US11159789B2 (en) | Generative adversarial network based intra prediction for video coding | |
JP6042899B2 (ja) | 映像符号化方法および装置、映像復号方法および装置、それらのプログラム及び記録媒体 | |
JP6356913B2 (ja) | グラフテンプレートから誘導された変換を用いてビデオ信号をデコーディング/エンコーディングする方法及び装置 | |
JP2010534015A (ja) | 画像処理方法及び対応する電子装置 | |
WO2017023152A1 (ko) | 싱글톤 계수 업데이트를 이용하여 변환을 수행하는 방법 및 장치 | |
CN112601095B (zh) | 一种视频亮度和色度分数插值模型的创建方法及系统 | |
WO2019225344A1 (ja) | 符号化装置、画像補間システム及び符号化プログラム | |
US20240163485A1 (en) | Multi-distribution entropy modeling of latent features in image and video coding using neural networks | |
US10869030B2 (en) | Method of coding and decoding images, a coding and decoding device, and corresponding computer programs | |
JP2018524916A (ja) | 拡張レイヤの現在ブロックの予測を求める方法および装置 | |
WO2019225337A1 (ja) | 符号化装置、復号装置、符号化方法、復号方法、符号化プログラム及び復号プログラム | |
JP2024532014A (ja) | 画像およびビデオ符号化のためのニューラルネットワークにおけるマルチレベル潜在の融合 | |
JP7185467B2 (ja) | 画像復号装置、画像符号化装置、画像処理システム及びプログラム | |
CN107409216B (zh) | 图像编码和解码方法、编码和解码设备以及相应的计算机程序 | |
CN116438567A (zh) | 用于视频编码的基于神经网络的环内滤波 | |
JP7303456B2 (ja) | 符号化装置、符号化方法及びプログラム | |
US20240129487A1 (en) | Keypoints based video compression | |
CN105049846A (zh) | 图像和视频编解码的方法和设备 | |
CN118524221A (zh) | 基于多维注意力的跨通道分布式视频编解码方法、系统 | |
US20200329232A1 (en) | Method and device for encoding or decoding video signal by using correlation of respective frequency components in original block and prediction block | |
CN118285096A (zh) | 帧内预测融合的变换选择 | |
JP2010041161A (ja) | 画像復号化装置、画像復号化方法、画像符号化装置、画像符号化方法 | |
Ismeel | Adaptive inter frame compression using image segmented technique |