JP2022171424A

JP2022171424A - 符号化装置、プログラム、及びモデル生成方法

Info

Publication number: JP2022171424A
Application number: JP2021078050A
Authority: JP
Inventors: 大地新井; Daichi Arai; 俊輔岩村; Shunsuke Iwamura; 敦郎市ヶ谷; Atsuro Ichigaya
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-11-11

Abstract

【課題】ニューラルネットワークモデルを用いた量子化処理を効率化する。【解決手段】符号化装置は、原画像のブロックと予測画像のブロックとの差分を表す残差信号に対して変換処理を行って得られる２次元の変換係数に対して量子化処理を行う量子化部１２２を備える。量子化部１２２は、２次元の変換係数に基づいて１次元のスケール後変換係数及び１次元の量子化後変換係数を生成し、１次元のスケール後変換係数及び１次元の量子化後変換係数を１次元ニューラルネットワークモデルに入力して得られる出力に応じて１次元の量子化後変換係数を調整する。【選択図】図３

Description

本発明は、符号化装置、プログラム、及びモデル生成方法に関する。

一般的に、動画像を符号化する符号化装置は、原画像のブロックと予測画像のブロックとの差分を表す残差信号に対して変換処理を行って得られる２次元の変換係数に対して量子化処理を行う量子化部と、量子化部により得られる２次元の量子化後変換係数をスキャン順に応じて１次元に変換したうえでエントロピー符号化を行うエントロピー符号化部とを有する。量子化部は、量子化パラメータＱＰから算出される所定値である量子化ステップ（Ｑ_step）により変換係数を除算することで、実数で表されるスケール後変換係数を導出したうえで、スケール後変換係数を丸め処理により整数に変換した量子化後変換係数を導出する。

ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）方式及びＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）方式では、量子化部が量子化後変換係数を導出（すなわち、量子化）する際に、ＲＤＯＱ（ＲａｔｅＤｉｓｔｏｒｔｉｏｎＱｕａｎｔｉｚｅｄＯｐｔｉｍｉｚａｔｉｏｎ）と呼ばれる技術が用いられている。ＲＤＯＱでは、式（１）に示すＲＤ（ＲａｔｅＤｉｓｔｏｒｔｉｏｎ）コストを最小化することで最適な量子化処理を決定する。

ここで、λはＱＰなどの量子化パラメータによって決定される定数であり、ｘは量子化前の変換係数（スケール後変換係数）であり、ｑは量子化後の変換係数（量子化後変換係数）である。また、Ｄ（ｑ，ｘ）は量子化歪みであり、一般的にｘ及びｑの残差二乗和で表される。Ｒ（ｑ）はＨＥＶＣ方式及びＶＶＣ方式で採用されているＣＡＢＡＣを用いてｑをエントロピー符号化したビットレートである。

非特許文献１には、符号化効率を向上させるために、貪欲法による量子化結果を教師データとして用いてニューラルネットワークに学習させてニューラルネットワークモデルを生成し、量子化部がニューラルネットワークモデルを用いて量子化処理を決定する技術が記載されている。

非特許文献１に記載の技術（以下、「先行研究」と呼ぶ）では、量子化部は、２次元の変換係数を所定値で除算して２次元のスケール後変換係数を導出するとともに、２次元のスケール後変換係数を丸め処理により整数に変換して２次元の量子化後変換係数を導出する。そして、量子化部は、２次元のスケール後変換係数及び２次元の量子化後変換係数を２次元ニューラルネットワークモデルに入力して得られる量子化調整値を用いて２次元の量子化後変換係数を調整する。

D. Kianfar, A. Wiggers, A. Said, R. Pourreza, T. Cohen, Parallelized Rate-Distortion Optimized Quantization using Deep Learning, IEEE MMSP 2020

上述のように、エントロピー符号化部は、量子化部により得られる２次元の量子化後変換係数をスキャン順に応じて１次元に変換したうえでＣＡＢＡＣ等のエントロピー符号化を行う。ＣＡＢＡＣにおける２値シンボルのＭＰＳ（ＭｏｓｔＰｒｏｂａｂｌｅＳｙｍｂｏｌ）生起確率は、それまでに出現した２値シンボルの値に基づいて推定される。そのため、ニューラルネットワークモデルを用いた量子化処理においてもエントロピー符号化におけるスキャン順を考慮することで符号化効率が向上すると考えられる。

しかしながら、先行研究では、２次元ニューラルネットワークモデルを用いているため、エントロピー符号化におけるスキャン順が考慮されていない。そのため、先行研究では、エントロピー符号化におけるスキャン順において隣り合わない係数の特徴も抽出しており、関係性の小さい特徴により誤った量子化調整値を導出し得るという問題がある。

そこで、本発明は、ニューラルネットワークモデルを用いた量子化処理を効率化することが可能な符号化装置、プログラム、及びモデル生成方法を提供することを目的とする。

第１の態様に係る符号化装置は、原画像のブロックと予測画像のブロックとの差分を表す残差信号に対して変換処理を行って得られる２次元の変換係数に対して量子化処理を行う量子化部を備える。前記量子化部は、前記２次元の変換係数に基づいて１次元のスケール後変換係数及び１次元の量子化後変換係数を生成し、前記１次元のスケール後変換係数及び前記１次元の量子化後変換係数を１次元ニューラルネットワークモデルに入力して得られる出力に応じて前記１次元の量子化後変換係数を調整する。

第２の態様に係るプログラムは、コンピュータを第１の態様に係る符号化装置として機能させる。

第３の態様に係るモデル生成方法は、符号化のための学習済みモデルを生成する方法である。前記モデル生成方法は、１次元のスケール後変換係数と、１次元の量子化後変換係数と、全探索又は貪欲法を用いて導出された最適な１次元の量子化後変換係数又は当該最適な１次元の量子化後変換係数に基づく量子化調整値と、のセットを教師データとして取得するステップと、前記セットを複数含む前記教師データを用いた機械学習により、前記１次元のスケール後変換係数及び前記１次元の量子化後変換係数を入力とし、前記最適な１次元の量子化後変換係数又は前記量子化調整値を出力とする前記学習済みモデルである１次元ニューラルネットワークモデルを生成するステップとを有する。

本発明によれば、ニューラルネットワークモデルを用いた量子化処理を効率化することが可能な符号化装置、プログラム、及びモデル生成方法を提供できる。

実施形態に係る符号化装置の構成を示す図である。スキャン順の種類の一例を示す図である。実施形態に係る量子化部の構成を示す図である。実施形態に係る量子化部の動作を説明するための図である。ＲＤＯＱ処理の一例を示す図である。実施形態に係る１次元ニューラルネットワークモデルの一例を示す図である。実施形態に係るモデル生成方法を示す図である。

図面を参照して、実施形態について説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。

（符号化装置）

（１）符号化装置の構成
まず、本実施形態に係る符号化装置の構成について説明する。本実施形態に係る符号化装置は、ＭＰＥＧに代表される動画像の符号化を行う。図１は、本実施形態に係る符号化装置１の構成を示す図である。符号化装置１は、画像を分割して得たブロック単位で符号化を行う装置である。

図１に示すように、符号化装置１は、ブロック分割部１００と、減算部１１０と、変換・量子化部１２０と、エントロピー符号化部１３０と、逆量子化・逆変換部１４０と、合成部１５０と、ループフィルタ１６０と、メモリ１７０と、予測部１８０とを有する。

ブロック分割部１００は、動画像を構成するフレーム（或いはピクチャ）単位の入力画像を複数の画像ブロックに分割し、分割により得た画像ブロックを減算部１１０に出力する。画像ブロックのサイズは、例えば３２×３２画素、１６×１６画素、８×８画素、又は４×４画素等である。画像ブロックの形状は正方形に限らず矩形（非正方形）であってもよい。画像ブロックは、符号化装置１が符号化を行う単位（符号化対象ブロック）であり、且つ復号装置が復号を行う単位（復号対象ブロック）である。このような画像ブロックはＣＵ（ＣｏｄｉｎｇＵｎｉｔ）と呼ばれることがある。

減算部１１０は、ブロック分割部１００が出力する符号化対象ブロックと、符号化対象ブロックを予測部１８０が予測して得た予測ブロックとの差分（誤差）を表す予測残差を算出する。減算部１１０は、ブロックの各画素値から予測ブロックの各画素値を減算することにより予測残差を算出し、算出した予測残差を変換・量子化部１２０に出力する。

変換・量子化部１２０は、ブロック単位で変換処理及び量子化処理を行う。変換・量子化部１２０は、変換部１２１と、量子化部１２２とを有する。

変換部１２１は、減算部１１０が出力する予測残差に対して変換処理を行って周波数成分ごとの変換係数を算出し、算出した変換係数を量子化部１２２に出力する。変換処理（変換）とは、画素領域の信号を周波数領域の信号に変換する処理をいい、例えば、離散コサイン変換（ＤＣＴ）や離散サイン変換（ＤＳＴ）、カルーネンレーブ変換（ＫＬＴ）、及びそれらを整数化した変換等をいう。また、変換処理には、画素領域の信号を周波数領域の信号に変換することなくスケーリング等により調整する変換スキップを含んでもよい。

量子化部１２２は、変換部１２１が出力する変換係数に対して量子化処理を行い、量子化後変換係数をエントロピー符号化部１３０及び逆量子化・逆変換部１４０に出力する。具体的には、量子化部１２２は、原画像のブロックと予測画像のブロックとの差分を表す残差信号に対して変換処理を行って得られる２次元の変換係数に対して量子化処理を行い、２次元の量子化後変換係数を出力する。

量子化処理には、予め生成された学習済みモデルとしてニューラルネットワークモデルが用いられる。本実施形態に係る量子化部１２２は、２次元の変換係数に基づいて１次元のスケール後変換係数及び１次元の量子化後変換係数を生成し、１次元のスケール後変換係数及び１次元の量子化後変換係数を１次元ニューラルネットワークモデルに入力して得られる出力に応じて１次元の量子化後変換係数を調整する。量子化部１２２の詳細については後述する。

エントロピー符号化部１３０は、量子化部１２２が出力する変換係数に対してエントロピー符号化を行い、データ圧縮を行って符号化ストリーム（ビットストリーム）を生成し、符号化ストリームを符号化装置１の外部に出力する。具体的には、エントロピー符号化部１３０は、量子化部１２２により得られる２次元の量子化後変換係数をスキャン順に応じて１次元に変換したうえでエントロピー符号化を行う。エントロピー符号化には、ハフマン符号やＣＡＢＡＣ（Ｃｏｎｔｅｘｔ－ｂａｓｅｄＡｄａｐｔｉｖｅＢｉｎａｒｙＡｒｉｔｈｍｅｔｉｃＣｏｄｉｎｇ）等を用いることができる。

エントロピー符号化部１３０が用いるスキャン順は１種類のみであってもよいし、イントラ予測モード又は変換スキップに応じて複数種類のスキャン順の中から１つのスキャン順を選択してもよい。図２は、スキャン順の種類の一例を示す図である。以下において、符号化対象ブロックが８×８のサイズを有し、エントロピー符号化部１３０が４×４の係数グループ（ＣＧ：ＣｏｅｆｆｉｃｉｅｎｔＧｒｏｕｐ）単位でスキャンを行うものとする。スキャン順は、図２（ａ）に示すｄｉａｇｏｎａｌ、図２（ｂ）に示すｈｏｒｉｚｏｎｔａｌ、及び図２（ｃ）に示すｖｅｒｔｉｃａｌの３種類を含む。エントロピー符号化部１３０は、イントラ予測モード又は変換スキップに応じて選択したスキャン順により２次元の量子化後変換係数を１次元に変換（すなわち、シリアライズ）したうえで、ＣＡＢＡＣ等のエントロピー符号化を行う。このようなシリアライズにより、８×８変換係数の場合は６４×１の変換係数に変換されることになる。エントロピー符号化部１３０は、複数種類のスキャン順の中から１つのスキャン順を選択する場合、選択したスキャン順を示す情報を量子化部１２２に出力してもよい。

なお、ＣＡＢＡＣは、二値算術符号化、及び２値シンボルの生起確率を周囲のパラメータの状態（コンテキスト）に基づいて推定するコンテキスト適応処理を用いたエントロピー符号化手法である。入力される２値シンボルの値及びＭＰＳ（ＭｏｓｔＰｒｏｂａｂｌｅＳｙｍｂｏｌ：０と１のうち出現する確率が高いシンボル）生起確率に基づいて数直線を区間分割していき、最終的に得られた区間の２進数表現を入力２値シンボル系列の符号語とする。２値シンボルのＭＰＳ生起確率は、それまでに出現した２値シンボルの値に基づいて推定する。すなわち、所定の確率推定モデルに基づき、２値シンボルがＭＰＳであった場合はＭＰＳ生起確率を高め、ＭＰＳでなかった場合はＭＰＳ生起確率を低下させる制御により、その後に出現する２値シンボルのＭＰＳ生起確率を更新する。

また、エントロピー符号化部１３０は、ブロック分割部１００から各符号化対象ブロックのサイズ・形状等の制御情報を取得し、量子化部１２２から量子化処理に関する制御情報を取得し、予測部１８０から予測に関する制御情報（例えば、予測モードや動きベクトルの情報）を取得し、これらの制御情報の符号化も行う。

逆量子化・逆変換部１４０は、ブロック単位で逆量子化処理及び逆変換処理を行う。逆量子化・逆変換部１４０は、逆量子化部１４１と、逆変換部１４２とを有する。

逆量子化部１４１は、量子化部１２２が行う量子化処理に対応する逆量子化処理を行う。具体的には、逆量子化部１４１は、量子化部１２２が出力する量子化後変換係数に対して逆量子化処理を行うことにより変換係数を復元し、復元した変換係数を逆変換部１４２に出力する。

逆変換部１４２は、変換部１２１が行う変換処理に対応する逆変換処理を行う。例えば、変換部１２１がＤＣＴを行った場合には、逆変換部１４２は逆ＤＣＴを行う。逆変換部１４２は、逆量子化部１４１が出力する変換係数に対して逆変換処理を行って予測残差を復元し、復元した予測残差である復元予測残差を合成部１５０に出力する。

合成部１５０は、逆変換部１４２が出力する復元予測残差を、予測部１８０が出力する予測ブロックと画素単位で合成する。合成部１５０は、復元予測残差の各画素値と予測ブロックの各画素値を加算して符号化対象ブロックを復号（再構成）し、復号済みブロックをループフィルタ１６０に出力する。

ループフィルタ１６０は、デブロッキングフィルタ処理及びＳＡＯ（sample adaptive offset）等のフィルタ処理を行い、フィルタ処理後復号済みブロックをメモリ１７０に出力する。

メモリ１７０は、ループフィルタ１６０が出力するフィルタ処理後復号済みブロックをフレーム単位で復号画像として蓄積する。メモリ１７０は、記憶している復号画像を予測部１８０に出力する。

予測部１８０は、ブロック単位で予測処理を行うことにより、符号化対象ブロックに対応する予測ブロックを生成し、生成した予測ブロックを減算部１１０及び合成部１５０に出力する。予測部１８０は、インター予測部１８１と、イントラ予測部１８２と、切替部１８３とを有する。

インター予測部１８１は、メモリ１７０に記憶された復号画像を参照画像として用いて、ブロックマッチング等の手法により動きベクトルを算出し、符号化対象ブロックを予測してインター予測ブロックを生成し、生成したインター予測ブロックを切替部１８３に出力する。インター予測部１８１は、複数の参照画像を用いるインター予測（典型的には、双予測）や、１つの参照画像を用いるインター予測（片方向予測）の中から最適なインター予測方法を選択し、選択したインター予測方法を用いてインター予測を行う。

イントラ予測部１８２は、複数のイントラ予測モードの中から、符号化対象ブロックに適用する最適なイントラ予測モードを選択し、選択したイントラ予測モードを用いて符号化対象ブロックを予測する。イントラ予測部１８２は、メモリ１７０に記憶された復号画像のうち、符号化対象ブロックに隣接する復号済み画素値を参照してイントラ予測ブロックを生成し、生成したイントラ予測ブロックを切替部１８３に出力する。

切替部１８３は、インター予測部１８１が出力するインター予測ブロックとイントラ予測部１８２が出力するイントラ予測ブロックとを切り替えて、いずれかの予測ブロックを減算部１１０及び合成部１５０に出力する。

（２）量子化部
次に、本実施形態に係る量子化部１２２について説明する。図３は、本実施形態に係る量子化部１２２の構成を示す図である。図４は、本実施形態に係る量子化部１２２の動作を説明するための図である。

図３に示すように、量子化部１２２は、導出部１２２ａと、次元変換部１２２ｂと、符号取得部１２２ｃと、符号除去部１２２ｄと、調整値取得部１２２ｅと、調整値加算部１２２ｆと、次元逆変換部１２２ｇとを有する。本実施形態において、符号取得部１２２ｃ、符号除去部１２２ｄ、調整値取得部１２２ｅ、及び調整値加算部１２２ｆは、量子化後変換係数を調整する調整部を構成する。

導出部１２２ａは、上述の変換部１２１が出力する２次元の変換係数を所定値で除算して２次元のスケール後変換係数を導出するとともに、２次元のスケール後変換係数を丸め処理により整数に変換して２次元の量子化後変換係数を導出し、２次元のスケール後変換係数及び２次元の量子化後変換係数を次元変換部１２２ｂに出力する。なお、図３において、便宜上、スケール後変換係数をＳＴＣ（ＳｃａｌｅｄＴｒａｎｓｆｏｒｍＣｏｅｆｆｉｃｉｅｎｔ）と表記し、量子化後変換係数をＱＴＣ（ＱｕａｎｔｉｚｅｄＴｒａｎｓｆｏｒｍＣｏｅｆｆｉｃｉｅｎｔ）と表記している。

例えば、導出部１２２ａは、変換部１２１がＤＣＴやＤＳＴなどの変換処理を施した変換係数に対して、量子化パラメータＱＰから算出される量子化ステップ（Ｑ_step）により除算した実数で表されるスケール後変換係数と、スケール後変換係数を丸め処理により整数に変換した量子化後変換係数とを導出する。量子化後変換係数には、床関数や天井関数による変換処理を施してもよいし、ＨＭやＶＴＭなどの手法による量子化処理結果を用いてもよい。なお、ＨＭはＨＥＶＣ方式のテストモデルであり、ＶＴＭはＨＥＶＣ方式のテストモデルである。スケール後変換係数から量子化後変換係数を導出する処理（すなわち、量子化）の詳細については後述する。

次元変換部１２２ｂは、導出部１２２ａが出力する２次元のスケール後変換係数及び２次元の量子化後変換係数のそれぞれをスキャン順に応じて１次元に変換（シリアライズ）し、１次元のスケール後変換係数を符号除去部１２２ｄに出力するとともに、１次元の量子化後変換係数を符号取得部１２２ｃ及び符号除去部１２２ｄに出力する。ここで、エントロピー符号化部１３０が用いるスキャン順が１つに固定されている場合、次元変換部１２２ｂは、当該１つのスキャン順によりシリアライズを行えばよい。これに対し、エントロピー符号化部１３０が複数のスキャン順の中から１つのスキャン順を選択してシリアライズを行う場合、次元変換部１２２ｂは、当該選択されたスキャン順によりシリアライズを行うものとする。

符号取得部１２２ｃは、次元変換部１２２ｂが出力する１次元の量子化後変換係数を構成する各変換係数の正負符号を取得し、取得した各正負符号を調整値加算部１２２ｆに出力する。

符号除去部１２２ｄは、１次元のスケール後変換係数を構成する各変換係数の正負符号及び１次元の量子化後変換係数を構成する各変換係数の正負符号を除去し、正負符号が除去された１次元のスケール後変換係数及び１次元の量子化後変換係数を調整値取得部１２２ｅに出力する。これにより、正負符号に依らないニューラルネットワークモデルの処理が可能になる。なお、ニューラルネットワークモデルを生成する際の学習においても正負符号を除去したものを用いる。

調整値取得部１２２ｅは、符号除去部１２２ｄが出力する１次元のスケール後変換係数及び１次元の量子化後変換係数から、１次元ニューラルネットワークモデルを用いて量子化調整値（具体的には、変換係数ごとの調整値）を取得し、取得した量子化調整値を調整値加算部１２２ｆに出力する。１次元ニューラルネットワークモデルは、１次元のスケール後変換係数と、１次元の量子化後変換係数と、全探索又は貪欲法を用いて導出された最適な１次元の量子化後変換係数（又は当該最適な１次元の量子化後変換係数に基づく量子化調整値）と、のセットを教師データとして複数用いた機械学習により生成された学習済みモデルである。そのため、１次元ニューラルネットワークモデルは、符号除去部１２２ｄが出力する１次元のスケール後変換係数及び１次元の量子化後変換係数を入力として、最適な１次元の量子化後変換係数（又は当該最適な１次元の量子化後変換係数に基づく量子化調整値）を出力する。１次元ニューラルネットワークモデルが最適な１次元の量子化後変換係数を出力する構成である場合、調整値取得部１２２ｅは、当該最適な１次元の量子化後変換係数と、符号除去部１２２ｄが出力する１次元の量子化後変換係数との差分を変換係数ごとに算出することにより、変換係数ごとの量子化調整値を取得してもよい。なお、量子化調整値としては、変換係数ごとに、「－１」、「±０」の２種類の調整値とすることができるが、３種類以上の調整値を用いてもよい。

エントロピー符号化部１３０が用いるスキャン順の候補が複数存在する場合、スキャン順ごとに個別の１次元ニューラルネットワークモデルが生成されていてもよい。例えば、図２（ａ）に示すｄｉａｇｏｎａｌに対応する１次元ニューラルネットワークモデルと、図２（ｂ）に示すｈｏｒｉｚｏｎｔａｌに対応する１次元ニューラルネットワークモデルと、図２（ｃ）に示すｖｅｒｔｉｃａｌに対応する１次元ニューラルネットワークモデルとが生成されていてもよい。このような場合、調整値取得部１２２ｅは、当該複数のスキャン順に対応する複数の１次元ニューラルネットワークモデルのうち、エントロピー符号化部１３０により選択されたスキャン順に対応する１次元ニューラルネットワークモデルを特定してもよい。そして、調整値取得部１２２ｅは、当該特定した１次元ニューラルネットワークモデルを用いて量子化調整値を取得してもよい。

調整値加算部１２２ｆは、調整値取得部１２２ｅが出力する量子化調整値を、正負符号が除去された１次元の量子化後変換係数に加算するとともに、符号取得部１２２ｃが出力する正負符号を当該１次元の量子化後変換係数に付与し、最適化された１次元の量子化後変換係数を次元逆変換部１２２ｇに出力する。

次元逆変換部１２２ｇは、調整値加算部１２２ｆが出力する最適化された１次元の量子化後変換係数に対して、次元変換部１２２ｂが行う次元変換処理の逆処理を行う。すなわち、次元逆変換部１２２ｇは、最適化された１次元の量子化後変換係数をスキャン順に応じて２次元に逆変換し、最適化された２次元の量子化後変換係数を出力する。

このように、本実施形態に係る量子化部１２２は、スキャン順に応じて１次元のスケール後変換係数及び１次元の量子化後変換係数を生成し、生成した１次元のスケール後変換係数及び１次元の量子化後変換係数を１次元ニューラルネットワークモデルに入力して得られる出力に応じて１次元の量子化後変換係数を調整する。

上述のように、エントロピー符号化部１３０は、量子化部１２２により得られる２次元の量子化後変換係数をスキャン順に応じて１次元に変換したうえでＣＡＢＡＣ等のエントロピー符号化を行う。ＣＡＢＡＣにおける２値シンボルのＭＰＳ生起確率は、それまでに出現した２値シンボルの値に基づいて推定される。

２次元ニューラルネットワークモデルを用いる先行研究では、エントロピー符号化におけるスキャン順が考慮されておらず、図４（ａ）に示すように、エントロピー符号化におけるスキャン順において隣り合わない係数の特徴も２次元ニューラルネットワークモデルにおいて抽出しており、関係性の小さい特徴により誤った予測（すなわち、誤った量子化調整値の導出）につながるという問題がある。

これに対し、本実施形態では、図４（ｂ）に示すように、エントロピー符号化におけるスキャン順を考慮し、１次元のスケール後変換係数及び１次元の量子化後変換係数を１次元ニューラルネットワークモデルに入力することで量子化調整値を導出する。エントロピー符号化におけるスキャン順において隣り合う部分の係数の特徴を１次元ニューラルネットワークモデルにおいて抽出可能であり、最適な量子化調整値を導出することが可能になる。よって、ニューラルネットワークモデルを用いた量子化処理において、エントロピー符号化におけるスキャン順を考慮することにより、符号化効率を向上させることができる。

（３）導出部における量子化後変換係数の導出処理の一例
次に、本実施形態に係る導出部１２２ａにおいてスケール後変換係数から量子化後変換係数を導出する処理（いわゆる、ＲＤＯＱ処理）の一例について説明する。図５は、ＲＤＯＱ処理の一例を示す図である。

図５（ａ）に示すように、第１に、導出部１２２ａは、２次元のスケール後変換係数に対してスカラー量子化（ＳＱ：ＳｃａｌｅｒＱｕａｎｔｉｚａｔｉｏｎ）処理を行い、２次元のスケール後変換係数の各変換係数を丸め処理する。

第２に、導出部１２２ａは、ＬＥ（ＬｅｖｅｌＥｓｔｉｍａｔｉｏｎ）処理を行い、各変換係数を「－１」、「±０」した際のＲＤコストを算出し、ＲＤコストがより最適となるレベルを推定する。

第３に、導出部１２２ａは、ＡＺ（Ａｌｌ－ｚｅｒｏＣＧ）処理を行い、ＲＤコストに基づいて、図５（ｂ）に示す各ＣＧ内の変換係数を全て０にするかどうかを決定する。

第４に、導出部１２２ａは、最終有意係数処理（ＬＡＳＴ処理）を行い、ＲＤコストに基づいて最後の非ゼロとなる変換係数の最適な位置を推定する。

第５に、導出部１２２ａは、ＳＢＨ（ＳｉｇｎＢｉｔＨｉｄｉｎｇ）処理を行い、変換の総和が偶数か奇数かに応じて、最後の変換係数の正負を暗黙的に決定するための処理を行う。

（４）１次元ニューラルネットワークモデルの一例
次に、本実施形態に係る１次元ニューラルネットワークモデルの一例について説明する。図６は、１次元ニューラルネットワークモデルの一例を示す図である。

図６に示す１次元ニューラルネットワークモデルは、正負符号が除去された１次元のスケール後変換係数（実数）及び１次元の量子化後変換係数（整数）を入力（Ｉｎｐｕｔｄａｔａ）として、当該１次元の量子化後変換係数に対する調整値を出力する。

１次元ニューラルネットワークモデルは、１次元の複数の中間層を含んで構成される。図６の８×８の変換係数において、３層の３×１の１次元畳み込みニューラルネットワークモデルを用いる場合を例示している。

まず、入力データの変換係数が平均０、分散１となるような標準化（Ｎｏｒｍａｌｉｚｅ）を行う。標準化した変換係数を３×１の畳み込み層（３×１Ｃｏｎｖ１Ｄ）へ入力する。

次に、畳み込み層ではゼロパディング処理を行うことにより、一つの畳み込み層の出力は常に６４×１に保たれる。畳み込みの後にドロップアウト及びバッチノーマライゼーション（Ｄｒｏｐｏｕｔ／ＢａｔｃｈＮｏｒｍ）による処理を施してもよい。その後、ＲｅＬＵ関数のような活性化関数を通して１層分の出力が行われる。

最終層の出力は１×１の１次元畳み込み（１×１Ｃｏｎｖ２Ｄ）を通じて、最終的にｋ種類の調整値に対して６４×k次元の調整値を表す確率が出力される。

（５）実施形態のまとめ
上述のように、量子化部１２２は、２次元の変換係数に基づいて１次元のスケール後変換係数及び１次元の量子化後変換係数を生成し、１次元のスケール後変換係数及び１次元の量子化後変換係数を１次元ニューラルネットワークモデルに入力して得られる出力に応じて１次元の量子化後変換係数を調整する。１次元ニューラルネットワークモデルにより隣り合う係数のみから特徴を抽出することで精度の高い予測をすることが可能になり、符号化効率を向上させることができる。

（モデル生成方法）
次に、本実施形態に係るモデル生成方法について説明する。本実施形態に係るモデル生成方法は、符号化のための学習済みモデルとして、上述の１次元ニューラルネットワークモデルを生成するための方法である。このモデル生成方法は、符号化装置１と異なるコンピュータにより実行されてもよいし、符号化装置１により実行されてもよい。以下において、モデル生成方法を実行する装置をモデル生成方法装置と呼ぶ。図７は、本実施形態に係るモデル生成方法を示す図である。

図７に示すように、ステップＳ１において、モデル生成装置は、２次元の変換係数を所定値で除算して２次元のスケール後変換係数を導出するとともに、２次元のスケール後変換係数を丸め処理により整数に変換して２次元の量子化後変換係数を導出する。

ステップＳ２において、モデル生成装置は、ステップＳ１で導出された２次元のスケール後変換係数及び２次元の量子化後変換係数のそれぞれをスキャン順に応じて１次元に変換（シリアライズ）することにより、１次元のスケール後変換係数及び１次元の量子化後変換係数を取得する。また、モデル生成装置は、１次元のスケール後変換係数及び１次元の量子化後変換係数に対して正負符号の除去を行う。

ステップＳ３において、モデル生成装置は、ステップＳ２で取得された１次元のスケール後変換係数及び１次元の量子化後変換係数と、全探索又は貪欲法を用いて導出された最適な１次元の量子化後変換係数（又は当該最適な１次元の量子化後変換係数に基づく量子化調整値）と、のセットを教師データとして取得する。

ステップＳ４において、モデル生成装置は、ステップＳ３で取得したセットを複数含む教師データを用いた機械学習により、１次元のスケール後変換係数及び１次元の量子化後変換係数を入力とし、最適な１次元の量子化後変換係数（又は量子化調整値）を出力とする学習済みモデルである１次元ニューラルネットワークモデルを生成する。

なお、モデル生成装置は、図７に示すモデル生成方法を、予め定められた複数のスキャン順のそれぞれについて実行し、複数のスキャン順のそれぞれに個別の１次元ニューラルネットワークモデルを生成してもよい。

（その他の実施形態）
変換部１２１が用いる変換処理の種類の候補が複数存在する場合、変換処理の種類ごとに個別の１次元ニューラルネットワークモデルが生成されていてもよい。例えば、ＤＣＴ－２に対応する１次元ニューラルネットワークモデルと、ＤＳＴ－７に対応する１次元ニューラルネットワークモデルとが生成されていてもよい。このような場合、調整値取得部１２２ｅは、複数種類の変換処理に対応する複数の１次元ニューラルネットワークモデルのうち、変換部１２１により選択された種類の変換処理に対応する１次元ニューラルネットワークモデルを特定し、当該特定した１次元ニューラルネットワークモデルを用いて量子化調整値を取得（導出）してもよい。

変換部１２１が出力する２次元の変換係数は、予め定められた複数種類のブロックサイズの中から選択されたブロックサイズを有していてもよい。すなわち、ブロックサイズの候補が複数存在してもよい。ブロックサイズは、ブロック分割部１００により選択されてもよい。このような場合、ブロックサイズごとに個別の１次元ニューラルネットワークモデルが生成されていてもよい。例えば、４×４のブロックサイズに対応する１次元ニューラルネットワークモデルと、８×８のブロックサイズに対応する１次元ニューラルネットワークモデルとが生成されていてもよい。このような場合、調整値取得部１２２ｅは、複数種類のブロックサイズに対応する複数の１次元ニューラルネットワークモデルのうち、ブロック分割部１００により選択されたブロックサイズに対応する１次元ニューラルネットワークモデルを特定し、当該特定した１次元ニューラルネットワークモデルを用いて量子化調整値を取得（導出）してもよい。

符号化装置１が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。モデル生成方法の各ステップをコンピュータに実行させるプログラムが提供されてもよい。プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭやＤＶＤ－ＲＯＭ等の記録媒体であってもよい。また、符号化装置１が行う各処理を実行する回路を集積化し、符号化装置１を半導体集積回路（チップセット、ＳｏＣ）により構成してもよい。

以上、図面を参照して実施形態について詳しく説明したが、具体的な構成は上述のものに限られることはなく、要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。

１：符号化装置
１００：ブロック分割部
１１０：減算部
１２０：変換・量子化部
１２１：変換部
１２２：量子化部
１２２ａ：導出部
１２２ｂ：次元変換部
１２２ｃ：符号取得部
１２２ｄ：符号除去部
１２２ｅ：調整値取得部
１２２ｆ：調整値加算部
１２２ｇ：次元逆変換部
１３０：エントロピー符号化部
１４０：逆量子化・逆変換部
１４１：逆量子化部
１４２：逆変換部
１５０：合成部
１６０：ループフィルタ
１７０：メモリ
１８０：予測部
１８１：インター予測部
１８２：イントラ予測部
１８３：切替部

Claims

原画像のブロックと予測画像のブロックとの差分を表す残差信号に対して変換処理を行って得られる２次元の変換係数に対して量子化処理を行う量子化部を備える符号化装置であって、
前記量子化部は、前記２次元の変換係数に基づいて１次元のスケール後変換係数及び１次元の量子化後変換係数を生成し、前記１次元のスケール後変換係数及び前記１次元の量子化後変換係数を１次元ニューラルネットワークモデルに入力して得られる出力に応じて前記１次元の量子化後変換係数を調整することを特徴とする符号化装置。
前記量子化部により得られる２次元の量子化後変換係数をスキャン順に応じて１次元に変換したうえでエントロピー符号化を行うエントロピー符号化部をさらに備え、
前記量子化部は、
前記２次元の変換係数を所定値で除算して前記２次元のスケール後変換係数を導出するとともに、前記２次元のスケール後変換係数を丸め処理により整数に変換して前記２次元の量子化後変換係数を導出する導出部と、
前記２次元のスケール後変換係数及び前記２次元の量子化後変換係数のそれぞれを前記スキャン順に応じて１次元に変換する次元変換部と、
前記次元変換部により得られる前記１次元のスケール後変換係数及び前記１次元の量子化後変換係数を前記１次元ニューラルネットワークモデルに入力して得られる量子化調整値を用いて前記１次元の量子化後変換係数を調整する調整部と、
前記調整部により調整された前記１次元の量子化後変換係数を前記スキャン順に応じて２次元に逆変換して前記２次元の量子化後変換係数を出力する次元逆変換部と、を有することを特徴とする請求項１に記載の符号化装置。
前記調整部は、
前記１次元の量子化後変換係数を構成する各変換係数の正負符号を取得する符号取得部と、
前記１次元のスケール後変換係数を構成する各変換係数の正負符号及び前記１次元の量子化後変換係数を構成する各変換係数の正負符号を除去する符号除去部と、
前記符号除去部により正負符号が除去された前記１次元のスケール後変換係数及び前記１次元の量子化後変換係数から、前記１次元ニューラルネットワークモデルを用いて前記量子化調整値を取得する調整値取得部と、
前記調整値取得部により得られる前記量子化調整値を、前記正負符号が除去された前記１次元の量子化後変換係数に加算するとともに、前記符号取得部により得られる前記正負符号を当該１次元の量子化後変換係数に付与する調整値加算部と、を有することを特徴とする請求項２に記載の符号化装置。
前記エントロピー符号化部は、予め定められた複数のスキャン順の中から選択されたスキャン順に応じて前記２次元の量子化後変換係数を１次元に変換し、
前記調整部は、前記複数のスキャン順に対応する複数の１次元ニューラルネットワークモデルのうち、前記選択されたスキャン順に対応する１次元ニューラルネットワークモデルを特定し、当該特定した１次元ニューラルネットワークモデルを用いて前記量子化調整値を導出することを特徴とする請求項２又は３に記載の符号化装置。
前記残差信号に対して前記変換処理を行う変換部をさらに備え、
前記変換部は、予め定められた複数種類の変換処理の中から選択された種類の前記変換処理を行い、
前記調整部は、前記複数種類の変換処理に対応する複数の１次元ニューラルネットワークモデルのうち、前記選択された種類の変換処理に対応する１次元ニューラルネットワークモデルを特定し、当該特定した１次元ニューラルネットワークモデルを用いて前記量子化調整値を導出することを特徴とする請求項２又は３に記載の符号化装置。
前記２次元の変換係数は、予め定められた複数種類のブロックサイズの中から選択されたブロックサイズを有し、
前記調整部は、前記複数種類のブロックサイズに対応する複数の１次元ニューラルネットワークモデルのうち、前記選択されたブロックサイズに対応する１次元ニューラルネットワークモデルを特定し、当該特定した１次元ニューラルネットワークモデルを用いて前記量子化調整値を導出することを特徴とする請求項２又は３に記載の符号化装置。
前記１次元ニューラルネットワークモデルは、１次元のスケール後変換係数と、１次元の量子化後変換係数と、全探索又は貪欲法を用いて導出された最適な１次元の量子化後変換係数又は当該最適な１次元の量子化後変換係数に基づく量子化調整値と、のセットを教師データとして複数用いた機械学習により生成された学習済みモデルであることを特徴とする請求項１乃至６のいずれか１項に記載の符号化装置。
コンピュータを請求項１乃至７のいずれか１項に記載の符号化装置として機能させることを特徴とするプログラム。
符号化のための学習済みモデルを生成するモデル生成方法であって、
１次元のスケール後変換係数と、１次元の量子化後変換係数と、全探索又は貪欲法を用いて導出された最適な１次元の量子化後変換係数又は当該最適な１次元の量子化後変換係数に基づく量子化調整値と、のセットを教師データとして取得するステップと、
前記セットを複数含む前記教師データを用いた機械学習により、前記１次元のスケール後変換係数及び前記１次元の量子化後変換係数を入力とし、前記最適な１次元の量子化後変換係数又は前記量子化調整値を出力とする前記学習済みモデルである１次元ニューラルネットワークモデルを生成するステップと、を有することを特徴とするモデル生成方法。
２次元の変換係数を所定値で除算して２次元のスケール後変換係数を導出するとともに、前記２次元のスケール後変換係数を丸め処理により整数に変換して２次元の量子化後変換係数を導出するステップをさらに有し、
前記取得するステップは、前記２次元のスケール後変換係数及び前記２次元の量子化後変換係数のそれぞれをスキャン順に応じて１次元に変換することにより、前記１次元のスケール後変換係数及び前記１次元の量子化後変換係数を取得するステップを含むことを特徴とする請求項９に記載のモデル生成方法。
前記生成するステップは、予め定められた複数のスキャン順のそれぞれについて前記１次元ニューラルネットワークモデルを生成するステップを含むことを特徴とする請求項９又は１０に記載のモデル生成方法。