JP6748022B2 - 分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラム - Google Patents

分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラム Download PDF

Info

Publication number
JP6748022B2
JP6748022B2 JP2017079585A JP2017079585A JP6748022B2 JP 6748022 B2 JP6748022 B2 JP 6748022B2 JP 2017079585 A JP2017079585 A JP 2017079585A JP 2017079585 A JP2017079585 A JP 2017079585A JP 6748022 B2 JP6748022 B2 JP 6748022B2
Authority
JP
Japan
Prior art keywords
division
node
probability
learning
shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017079585A
Other languages
English (en)
Other versions
JP2018182531A (ja
Inventor
翔太 折橋
翔太 折橋
忍 工藤
忍 工藤
正樹 北原
正樹 北原
清水 淳
淳 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017079585A priority Critical patent/JP6748022B2/ja
Publication of JP2018182531A publication Critical patent/JP2018182531A/ja
Application granted granted Critical
Publication of JP6748022B2 publication Critical patent/JP6748022B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラムに関する。
動画像符号化の標準規格として、H.264/AVC(Advanced Video Coding)(以下「AVC」という。)がある。AVCに次ぐ新たな標準規格として、H.265/HEVC(High Efficiency Video Coding)(以下「HEVC」という。)が2013年に標準化された。HEVCは、同程度の画質では、AVCと比較して2倍の圧縮性能を誇る。しかしながら、HEVCの演算量は、AVCの演算量と比較して膨大である。
HEVCでは、符号化対象画像は、64画素×64画素のサイズのブロックであるCTU(Coding Tree Unit)の単位で区切られている。画像符号化装置は、CTUごとに符号化処理を実行する。分割形状決定装置は、符号化単位であるCU(Coding Unit)と呼ばれるブロックに、CTUを再帰的に4分割することができる。HEVCでは、64画素×64画素、32画素×32画素、16画素×16画素、8画素×8画素という4種類のCUのサイズが定義されている。以下、n画素×n画素を「n×n」と表記する。
図6は、CUの分割形状の一例を示す図である。各CUは、イントラ予測やインター予測等のパラメータを共有している。CUにおける輝度値の分布が平坦である場合、CUのサイズは大きく定められる。CUにおける輝度値の分布が複雑である場合、CUのサイズは小さく定められる。これらのようにCUのサイズが定められることによって、HEVCの画像符号化装置は、符号化効率を高めることができる。
図7は、CUの分割形状を表すための四分木データ構造の例を示す図である。CUの分割形状は、四分木データ構造を用いて表現される。四分木データ構造は、階層構造を有する。四分木データ構造の各ノードは、各CUに対応付けられている。各CUは、四分木データ構造の階層(分割デプス)ごとに分類される。四分木データ構造の各ノードには、ノードに対応付けられているCU(ブロック)の分割に関するフラグが、ノードのラベルとして定められている。HEVCでは、分割に関するフラグは、分割を表す1と非分割を表す0との2値で表現される。
HEVCの分割形状決定装置は、HEVCテストモデル(HM)等の参照ソフトウェアにおいて定められたレート歪み最適化に基づいて、CUの分割形状を決定する。分割形状決定装置は、参照ソフトウェアにおいて定められたレート歪み最適化に基づいて、レート歪みコスト関数J(=D+λR)が最小となるCUの分割形状及び予測モードを算出する。レート歪みコスト関数Jにおいて、Dは、パラメータの選択に応じて発生する歪み量を表す。Rは、発生するビット量を表す。λは、ラグランジュ乗数と呼ばれる定数を表す。HEVCの分割形状決定装置は、CUの分割形状及び予測モードを、レート歪み最適化において全探索して決定する。このため、レート歪み最適化の演算量は膨大である。
そこで、分割形状決定装置がレート歪み最適化を実行せずにCUの分割形状を決定する方法として、CUの分割形状を教師データとするニューラルネットワークの学習モデルを用いてCUの分割形状を決定する方法が提案されている。教師データを用いた学習(教師あり学習)では、学習モデルの入力であるCTUと、学習モデルの出力であるCUの分割形状(分割パターン)を表す正解ラベルとが、大量に用意される。
分割形状決定装置は、CTUごとの教師データを反復して用いることによって、CUの分割形状を学習モデルに学習させる。分割形状決定装置は、CTUごとの教師データが学習モデルに反復して入力された結果として得られたCUの分割形状が正解ラベルに近づくよう、学習モデルの学習パラメータを更新する。
図8は、CUの分割形状を表す正解ラベルの例を示す図である。分割形状決定装置がCUの分割形状をCTUごとに学習する場合、CTUの単位の符号化対象画像の原画を入力としてCUの分割形状を出力とする正解ラベル(分類モデル)を分割形状決定装置に学習させる方法が、最も単純な方法である。しかしながら、CUの全ての分割形状をCTUの単位で網羅すると、正解ラベルの数が8万を超えて膨大になってしまう。したがって、膨大な数の教師データが用意されなければ、分割形状決定装置はCUの分割形状を学習することができない。
そこで、膨大な数の教師データが用意されなくても分割形状決定装置がCUの分割形状を学習することができる方法として、CUの分割又は非分割をCUの階層ごとに決定する学習モデルを用いた方法が提案されている(非特許文献1参照)。非特許文献1では、膨大な数の教師データを用意する代わりに、CUの分割又は非分割をCUの階層ごとに決定する複数の学習モデルを用意することで、分割形状決定装置は、CUの分割形状を学習することができる。
非特許文献1では、分割形状決定装置は、四分木データ構造の階層ごとの学習モデルを順次適用することによって、CUの分割形状を決定する。以下、分割又は非分割が決定される対象のブロックを「対象ブロック」という。以下、ノードに対応付けられているCU(ブロック)の分割に関する確率を「分割確率」という。学習モデル(確率分布モデル)は、ノードに対応付けられた対象ブロックごとに分割確率を表すラベルを出力する。分割(正例)を表す分割確率の値は1である。非分割(負例)を表す分割確率の値は0である。分割確率は、0及び1の平均値である0.5を含む所定範囲内の値(曖昧な値)でもよい。分割確率が曖昧である場合、非特許文献1の分割形状決定装置は、HEVCテストモデルにおいて定められたレート歪み最適化に基づいて、対象ブロックであるCUの分割形状を決定する。
F. Duanmu, Z. Ma, Y. Wang: "Fast CU Partition Decision Using Machine Learning for Screen Content Compression," IEEE International Conference of Image Processing, Sept. 2015.
図9は、非特許文献1のCUの分割形状を決定するために用意される複数の学習モデルの例を示す図である。図10は、非特許文献1の分割形状決定装置の動作の例を示すフローチャートである。図9及び図10に示されているように、非特許文献1の分割形状決定装置は、CUの分割形状を決定する場合、四分木データ構造の階層ごとに用意された複数の学習モデル(分割判定モデル)を用いる。
分割形状決定装置が複数の学習モデルを用いた場合には、画像の特徴量を抽出する処理の演算量が増えるので、CUの分割形状を決定するための演算量は膨大になる。また、分割形状決定装置が複数の学習モデルを用いた場合には、隣接するCU同士の相関を考慮せずにCUの分割形状を独立に決定することになるので、分割形状決定装置は、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することができない。
これらのように、従来の分割形状決定装置は、CUの分割形状を決定するための演算量を少なくした場合には、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することができない、という問題があった。
上記事情に鑑み、本発明は、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することが可能である分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラムを提供することを目的としている。
本発明の一態様は、分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、符号化対象画像を区切るブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力する学習部と、前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定する決定部とを備える分割形状決定装置である。
本発明の一態様は、上記の分割形状決定装置であって、前記学習部は、前記ノードが保持している前記分割確率に応じて、前記ノードの下位のノードである子ノードの前記分割確率を参照するか否かを定める。
本発明の一態様は、上記の分割形状決定装置であって、前記階層構造は、四分木データ構造であり、前記学習部は、前記ノードが保持している前記分割確率が0である場合、前記学習パラメータを更新する際に前記子ノードの前記分割確率を参照しないと定める。
本発明の一態様は、上記の分割形状決定装置であって、前記決定部は、前記ノードの下位のノードである子ノードが保持している前記分割確率に基づいて、前記ノードに対応付けられた分割するか否かを決定する。
本発明の一態様は、上記の分割形状決定装置であって、前記分割確率は、3値以上で表現される確率である。
本発明の一態様は、確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、前記ノードの確率が所定値である場合に前記ノードの子ノードの確率に基づくことなく更新する学習部を備える学習装置である。
本発明の一態様は、符号化対象画像を区切るブロックの分割形状を決定する分割形状決定装置が実行する分割形状決定方法であって、分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、前記ブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力するステップと、前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定するステップとを有する分割形状決定方法である。
本発明の一態様は、コンピュータに、分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、符号化対象画像を区切るブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力する手順と、前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定する手順とを実行させるための分割形状決定プログラムである。
本発明により、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することが可能である。
第1実施形態における、画像符号化装置1の構成の例を示す図である。 第1実施形態における、四分木データ構造及び出力ラベルの例を示す図である。 第1実施形態における、分割形状決定装置の構成の例を示す図である。 第1実施形態における、分割形状決定装置の動作の例を示すフローチャートである。 第2実施形態における、分割形状決定装置の動作の例を示すフローチャートである。 CUの分割形状の一例を示す図である。 CUの分割形状を表すための四分木データ構造の例を示す図である。 CUの分割形状を表す正解ラベルの例を示す図である。 CUの分割形状を決定するために用意される複数の学習モデルの例を示す図である。 分割形状決定装置の動作の例を示すフローチャートである。
本発明の実施形態について、図面を参照して詳細に説明する。
(第1実施形態)
図1は、画像符号化装置1の構成の例を示す図である。画像符号化装置1は、例えば、パーソナルコンピュータ装置、スマートフォン端末、タブレット端末又はサーバ装置等の情報処理装置である。画像符号化装置1は、動画像を構成する複数の画像(フレーム)を符号化対象画像として符号化する。符号化対象画像は、64画素×64画素のサイズであるCTUの単位のブロックに区切られている。
画像符号化装置1は、分割形状決定装置10と、減算器11と、直交変換・量子化部12と、可変長符号化部13と、逆量子化・逆直交変換部14と、加算器15と、ループフィルタ部16と、復号ピクチャメモリ17と、イントラ予測部18と、インター予測部19と、イントラ・インター切替スイッチ20とを備える。画像符号化装置1は、例えば、磁気ハードディスク装置や半導体記憶装置等の不揮発性の記録媒体(非一時的な記録媒体)を記憶部として更に備えてもよい。
分割形状決定装置10と減算器11と直交変換・量子化部12と可変長符号化部13と逆量子化・逆直交変換部14と加算器15とループフィルタ部16とイントラ予測部18とインター予測部19とイントラ・インター切替スイッチ20との一部又は全部は、例えば、CPU(Central Processing Unit)等のプロセッサが、記憶部に記憶されたプログラムを実行することにより実現されてもよいし、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェアを用いて実現されてもよい。
分割形状決定装置10は、単一の学習モデルを用いて学習する情報処理装置(学習装置)である。学習モデルは、分割確率を保持する複数のノードが階層構造を成しているモデルである。学習モデルは、四分木データ構造の各ノードのラベルを出力する学習モデルであれば、特定の学習モデルに限定されない。学習モデルは、ニューラルネットワークの学習モデルでもよいし、ニューラルネットワーク以外の学習モデルでもよい。ニューラルネットワーク以外の学習モデルは、例えば、遺伝的プログラミングの学習モデルでもよい。分割形状決定装置10は、四分木データ構造で表される汎用データに関する決定方法を学習する。分割形状決定装置10は、学習した結果を所定の機能部に出力する。
以下では、分割形状決定装置10は、一例として、符号化対象画像をCTUごとに取得する。分割形状決定装置10は、一例として、四分木データ構造で表されるCUの分割形状の決定方法を学習する。分割形状決定装置10は、学習モデルを用いてCUの分割形状を学習する。分割形状決定装置10は、CUの単位のブロックに、CTUを再帰的に4分割することができる。分割形状決定装置10は、CUの分割形状を学習した結果に基づいて、CUの分割形状(分割パターン)を決定する。分割形状決定装置10は、HEVC等のCUの分割形状を、CTUごとに決定する。
減算器11は、CUの分割形状が決定されたCTUごとに、符号化対象画像を分割形状決定装置10から取得する。減算器11は、各ノードの分割確率を表す出力ラベルを、CTUごとに分割形状決定装置10から取得する。減算器11は、イントラ予測部18又はインター予測部19から、CTUの予測画像を取得する。減算器11は、符号化対象画像のCTUと予測画像との差分を、直交変換・量子化部12に出力する。
直交変換・量子化部12は、CTUと予測画像との差分に、直交変換処理及び量子化処理を施す。直交変換・量子化部12は、直交変換処理及び量子化処理の結果である量子化係数を、可変長符号化部13と逆量子化・逆直交変換部14とに出力する。
可変長符号化部13は、可変長符号化処理を実行する符号化部である。可変長符号化部13は、量子化係数に可変長符号化処理を施した結果を含む符号化データを、画像復号装置等に出力する。可変長符号化部13は、動きベクトル等の符号化パラメータを含む符号化データを、画像復号装置等に出力してもよい。符号化パラメータは、例えば、レート歪み最適化の結果に基づいて定められる。
逆量子化・逆直交変換部14は、量子化係数に逆量子化処理及び逆直交変換処理を施した結果である画像を、加算器15に出力する。加算器15は、量子化係数に逆量子化処理及び逆直交変換処理を施した結果である画像を、逆量子化・逆直交変換部14から取得する。加算器15は、イントラ予測部18又はインター予測部19から、イントラ・インター切替スイッチ20を介して、CTUの予測画像を取得する。加算器15は、量子化係数に逆量子化処理及び逆直交変換処理を施した結果である画像と予測画像とを加算した結果を、ループフィルタ部16及びイントラ予測部18に出力する。
ループフィルタ部16は、量子化係数に逆量子化処理及び逆直交変換処理を施した結果である画像と予測画像とを加算器15が加算した結果に、ループフィルタを適用する。ループフィルタ部16は、ループフィルタが適用された結果を、復号ピクチャメモリ17に出力する。
復号ピクチャメモリ17は、例えば、RAM(Random Access Memory)などの揮発性の記録媒体である。復号ピクチャメモリ17は、例えば、半導体記憶装置等の不揮発性の記録媒体(非一時的な記録媒体)でもよい。復号ピクチャメモリ17は、加算器15が加算した結果にループフィルタが適用された結果(再構成された信号)を記憶した結果、複数の画像(フレーム)を記憶する。復号ピクチャメモリ17は、加算器15が加算した結果にループフィルタが適用された結果を、インター予測部19に出力する。
イントラ予測部18は、加算器15が加算した結果にループフィルタが適用された結果を、加算器15から取得する。イントラ予測部18は、加算器15が加算した結果にループフィルタが適用された結果を、参照画像として使用する。イントラ予測部18は、加算器15から取得された参照画像に基づくイントラ予測によって、符号化対象画像のCTUの予測画像を生成する。
インター予測部19は、CUの分割形状が決定されたCTUごとに、符号化対象画像を分割形状決定装置10から取得する。インター予測部19は、加算器15が加算した結果にループフィルタが適用された結果を、復号ピクチャメモリ17から取得する。インター予測部19は、加算器15が加算した結果にループフィルタが適用された結果を、参照画像として使用する。インター予測部19は、復号ピクチャメモリ17から取得された参照画像に基づくインター予測によって、符号化対象画像のCTUの予測画像を生成する。
イントラ・インター切替スイッチ20は、CTUの予測モードがイントラ予測である場合、イントラ予測部18が生成した予測画像を、減算器11及び加算器15に出力する。イントラ・インター切替スイッチ20は、CTUの予測モードがインター予測である場合、インター予測部19が生成した予測画像を、減算器11及び加算器15に出力する。
次に、四分木データ構造及び出力ラベルの例を説明する。
図2は、四分木データ構造及び出力ラベルの例を示す図である。1個のCTUにおけるCUの分割形状は、1個の四分木データ構造を用いて表される。四分木データ構造の各ノードには、ノードに対応付けられているCUの分割に関する確率(分割確率)が、ノードのラベルとして定められている。1個の四分木データ構造は、1個のCTUの各CUの分割確率を表す。
学習モデルは、符号化対象画像のCTUを入力とする。学習モデルは、入力されたCTUのCUの分割形状と学習パラメータとに基づいて、四分木データ構造の各ノードの分割確率を表すラベルを出力する。学習モデルが出力するラベル(以下「出力ラベル」という。)の要素数は、1個のCTUにおける四分木データ構造の最大ノード数と等しい。出力ラベルは、CTUの各CUの分割確率y[n](nは、0から20までの整数。)から成る。図2の四分木データ構造では、出力ラベルは、学習モデルの出力ユニットの数が21であることに対応して、y[0],y[1],…,y[20]から成る。
出力ラベルでは、最も浅い階層における64×64のサイズのCUの分割確率は、y[0]である。64×64のサイズのCUよりも1階層下の階層における、32×32のサイズの各CUの分割確率は、y[1]〜y[4]である。32×32のサイズのCUよりも1階層下の階層における、16×16のサイズの各CUの分割確率は、y[5]〜y[20]である。
学習モデルの正解ラベルの要素数は、1個のCTUにおける四分木データ構造の最大ノード数と等しい。正解ラベルは、CTUの各CUの分割確率t[n]から成る。図2の四分木データ構造では、正解ラベルtは、出力ラベルy(=y[0],y[1],…,y[20])に対応して、t[0],t[1],…,t[20]から成る。
正解ラベルでは、64×64のサイズのCUの分割確率は、t[0]である。64×64のサイズのCUよりも1階層下の階層における、32×32のサイズの各CUの分割確率は、t[1]〜t[4]である。32×32のサイズのCUよりも1階層下の階層における、16×16のサイズの各CUの分割確率は、t[5]〜t[20]である。図1に示された分割形状決定装置10は、CUの分割形状を表す出力ラベルが正解ラベルに近づくよう、学習の際に学習モデルの学習パラメータを更新する。
分割形状決定装置10は、学習パラメータが更新された学習モデルが出力した出力ラベルに基づいて、分割確率の閾値を超える分割確率を保持しているノードの分割確率を1と決定する。すなわち、分割形状決定装置10は、分割確率の閾値を超える分割確率を保持しているノードに対応付けられたCUを分割すると決定する。
分割形状決定装置10は、学習パラメータが更新された学習モデルが出力した出力ラベルに基づいて、分割確率の閾値を超えない分割確率を保持しているノードの分割確率を0と決定する。すなわち、分割形状決定装置10は、分割確率の閾値を超えない分割確率を保持しているノードに対応付けられたCUを分割しないと決定する。
分割形状決定装置10は、四分木データ構造の親ノードの分割確率が非分割を表す(0である)場合、親ノードの下位のノードである子ノードの分割確率を決定しない。すなわち、分割形状決定装置10は、分割されないCUに対応付けられた親ノードの子ノードの分割確率を決定しない。
次に、分割形状決定装置10の構成の例を説明する。
図3は、分割形状決定装置10の構成の例を示す図である。分割形状決定装置10は、特徴抽出部100を、単一の学習モデルとして備える。分割形状決定装置10は、決定部110を更に備える。
特徴抽出部100(学習部)は、符号化対象画像の原画又は特徴量を、CTUごとに取得する。特徴抽出部100は、符号化対象画像の原画又は特徴量に基づいて、四分木データ構造の各ノードの分割確率を、単一の学習モデルの出力ラベルとして出力する。特徴抽出部100は、反復された学習の結果として出力ラベルを正解ラベルに近づけるように、学習モデルの学習パラメータを更新する。特徴抽出部100は、学習の結果として学習パラメータが更新された学習モデルに基づいて、四分木データ構造の各ノードの分割確率を算出する。決定部110は、四分木データ構造のノードごとに決定された分割確率を含む出力ラベルを、減算器11に出力する。
図3では、学習モデルは、一例として、畳み込みニューラルネットワークの学習モデルである。特徴抽出部100は、畳み込み層101と、プーリング層102と、畳み込み層103と、プーリング層104と、全結合層105とを備える。
畳み込み層101(Convolution Layer)(更新部)は、学習の結果として、フィルタ係数等の学習パラメータを更新する。畳み込み層101は、二次元配列の各値に活性化関数を適用してもよい。プーリング層102(Pooling Layer)は、カーネル内の最大値、平均値等を用いて、ダウンサンプリングを実行する。すなわち、プーリング層102は、畳み込み層101の出力結果である二次元配列の各値のうちの有効な値を残す。
畳み込み層103(更新部)は、学習の結果として、フィルタ係数等の学習パラメータを更新する。畳み込み層103は、プーリング層102の出力結果である二次元配列の各値に、活性化関数を適用してもよい。プーリング層104は、カーネル内の最大値、平均値等を用いて、ダウンサンプリングを実行する。すなわち、プーリング層104は、畳み込み層103の出力結果である二次元配列の各値のうちの有効な値を残す。全結合層105(fully connected layer)(分割確率出力部)は、プーリング層104の出力を結合することによって、ノードごとに分割確率を表す出力ラベルを出力する。
決定部110(分割確率決定部)は、全結合層105の出力ラベルに基づいて、ノードに対応付けられた対象ブロックの分割確率を決定する。すなわち、決定部110は、全結合層105の出力ラベルに基づいて、ノードに対応付けられた対象ブロックを分割するか否かを決定する。決定部110は、四分木データ構造のノードごとに決定された分割確率を含む出力ラベルを、図1に示された減算器11にCTUごとに出力する。
次に、特徴抽出部100における学習モデルの学習方法を説明する。
特徴抽出部100は、CUの分割形状の正解ラベルを学習する場合、符号化対象画像の原画又は特徴量をCTUごとに取得する。全結合層105は、出力ラベルyを出力する。出力ラベルyは、四分木データ構造の各ノードの分割確率を表す。出力ラベルyは、式(1)のように表される。出力ラベルyに対応する正解ラベルtは、式(2)のように表される。
y=[y[0],y[1],…,y[20]] …(1)
t=[t[0],t[1],…,t[20]] …(2)
畳み込み層101及び畳み込み層103は、出力ラベルyと正解ラベルtとの誤差を表す誤差関数Eの値を算出する。誤差関数Eは、出力ラベルyと正解ラベルtとのクロスエントロピーや平均二乗誤差等を用いて定義される。畳み込み層101及び畳み込み層103は、誤差関数Eの値が小さくなるよう、畳み込み層101及び畳み込み層103の学習パラメータwを誤差逆伝播法等によって更新する。
畳み込み層101及び畳み込み層103は、誤差逆伝播法を実行する場合、誤差関数Eの値が小さくなる方向に学習モデルの学習パラメータwを更新する目的で、勾配降下法を用いてもよい。すなわち、畳み込み層101は、勾配∇Eを表す式(3)を用いて、式(4)のように誤差関数Eの値が小さくなる方向に、畳み込み層101の学習パラメータwを更新する。畳み込み層103は、勾配∇Eを表す式(3)を用いて、式(4)のように誤差関数Eの値が小さくなる方向に、畳み込み層103の学習パラメータwを更新する。式(3)において、Mは、学習パラメータwの要素数を表す。式(4)において、εは、学習率を表す。
勾配∇E
=∂E/∂w
=[∂E/∂w,∂E/∂w,…,∂E/∂w …(3)
w←w−ε▽E …(4)
第1実施形態では、正解ラベルtの各要素は、HEVCテストモデル(HM)等の参照ソフトウェアにおけるレート歪み最適化によって得られた分割確率を用いて表される。第1実施形態では、正解ラベルtにおけるノードの分割確率は、2値(分割又は非分割)で表される。
畳み込み層101及び畳み込み層103は、CUの分割形状の正解ラベルtを学習する場合、正解ラベルtにおいて非分割を表す親ノードの子ノードの分割確率を参照しない。例えば、正解ラベルt[1]のノードの分割確率が非分割を表している(分割確率が所定値=0である)場合、畳み込み層101及び畳み込み層103は、正解ラベルt[1]のノードの子ノードの正解ラベルt[5]〜t[8]の分割確率を参照しない。
畳み込み層101及び畳み込み層103は、正解ラベルtにおいて参照されない分割確率を学習に用いない。すなわち、畳み込み層101及び畳み込み層103は、分割確率が非分割を表している親ノードの子ノードの分割確率が存在しないものとして学習された結果に基づいて、学習モデルの学習パラメータを更新する。
次に、分割形状決定装置10の動作の例を説明する。
図4は、分割形状決定装置10の動作の例を示すフローチャートである。特徴抽出部100は、符号化対象画像をCTUごとに取得する。特徴抽出部100は、符号化対象画像のCTUから、輝度値等の特徴量を抽出する。全結合層105は、学習パラメータが更新された学習モデルに基づいて、各ノードの分割確率を算出する(ステップS101)。決定部110は、四分木データ構造における階層が浅いノードに対応する対象ブロックを優先して処理を実行する。
決定部110は、対象ブロックに対応するノードの四分木データ構造における階層が最深の階層であるか否かを判定する(ステップS102)。対象ブロックに対応するノードの四分木データ構造における階層が最深の階層でない場合(ステップS102:NO)、決定部110は、対象ブロックについて、分割確率の閾値を分割確率が超えているか否かを判定する(ステップS103)。分割確率の閾値を分割確率が超えている場合(ステップS103:YES)、決定部110は、対象ブロックを分割すると決定する。決定部110は、対象ブロックに対応するノードの分割確率を1と決定する(ステップS104)。決定部110は、1階層下の階層について、Zスキャン等の処理順で次のブロックを対象ブロックとする(ステップS105)。決定部110は、ステップS102に処理を戻す。
対象ブロックに対応するノードの四分木データ構造における階層が最深の階層である場合(ステップS102:YES)、決定部110は、ステップS106に処理を進める。分割確率の閾値を分割確率が超えていない場合(ステップS103:NO)、決定部110は、対象ブロックを分割しないと決定する。決定部110は、対象ブロックに対応するノードの分割確率を0と決定する(ステップS106)。
決定部110は、CTUにおける全てのブロック(CU)について決定部110が分割又は非分割を決定したか否かを判定する(ステップS107)。CTUにおけるいずれかのブロック(CU)について決定部110が分割又は非分割を決定していない場合(ステップS107:NO)、決定部110は、処理順で次のブロックを対象ブロックとする(ステップS108)。決定部110は、ステップS102に処理を戻す。CTUにおける全てのブロック(CU)について決定部110が分割又は非分割を決定している場合(ステップS107:YES)、決定部110は、処理を終了する。
以上のように、第1実施形態の分割形状決定装置10は、学習部としての特徴抽出部100と、決定部110とを備える。分割確率を保持する複数のノードは、階層構造を成している。特徴抽出部100は、ノードの集合である学習モデルの学習パラメータwを、符号化対象画像を区切るブロックに対応付けられたノードの分割確率に応じて更新する。特徴抽出部100は、学習パラメータが更新された学習モデルの出力として得られた分割確率を、ノードに対応付けて出力する。決定部110は、ノードに対応付けて出力された分割確率に基づいて、ノードに対応付けられたブロックを分割するか否かを決定する。
これによって、第1実施形態の分割形状決定装置10は、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することが可能である。
第1実施形態の特徴抽出部100は、ノードが保持している分割確率に応じて、ノードの下位のノードである子ノードの分割確率を参照するか否かを定める。第1実施形態の特徴抽出部100は、ノードが保持している分割確率が0である場合、学習パラメータを更新する際に子ノードの分割確率を参照しないと定める。第1実施形態の特徴抽出部100は、確率を保持する複数のノードが階層構造を成している学習モデルの学習パラメータを、ノードの確率が所定値である場合にノードの子ノードの確率に基づくことなく更新する。
一般的に、学習モデルは、CTUにおけるCUの全ての分割形状について学習モデルが正解ラベルを学習する場合、CUの分割形状の正解ラベルの数が膨大であるため、CUの分割形状を効率的に学習することができない。非特許文献1では、学習モデルは、ある程度まで効率的に学習することができる。しかしながら、非特許文献1の分割形状決定装置は、符号化処理の前にCUの分割形状を決定する処理において、複数の学習モデル(分割判定モデル)を直列に用いて原画から特徴量を抽出する処理を繰り返す。このため、非特許文献1では、原画から特徴量を抽出する処理の演算量が膨大になる。また、非特許文献1の学習モデルは、CTUにおける空間的位置の相関に基づいて、CUの分割形状を学習することができない。
これに対して、第1実施形態の分割形状決定装置10は、四分木データ構造のノードの分割確率を単一の学習モデルが学習するので、演算量が少なくても、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することができる。第1実施形態の分割形状決定装置10は、単一の学習モデルを用いてCUの分割形状を決定するので、わざわざ複数の学習モデルを直列に用いてCUの分割形状を決定しなくてもよい。第1実施形態の分割形状決定装置10は、単一の学習モデルを用いてCUの分割形状を決定するので、学習モデルの出力ユニットの数(要素数)を現実的な数に抑えることが可能である。第1実施形態の分割形状決定装置10は、輝度値等の特徴量を符号化対象画像から抽出するための演算量を削減することが可能である。第1実施形態の単一の学習モデルは、入力された画像の特徴量をまとめて抽出するので、CTUにおける空間的位置の相関に基づいて、CUの分割形状を学習することができる。第1実施形態の分割形状決定装置10は、単一の学習モデルを用いてCUの分割形状を決定するので、CTUにおける空間的位置の相関に基づいて、CUの分割形状を決定することが可能である。第1実施形態の分割形状決定装置10では、学習誤差に寄与しない正解ラベルの要素を学習モデルが学習の際に参照しないので、非分割を表す分割確率の親ノードの子ノードの分割確率は定義されなくてもよい。なお、分割確率が定義されなくても、子ノードは存在する。
(第2実施形態)
第2実施形態では、親ノードの分割確率が曖昧である場合に親ノードの子ノードの分割確率を分割形状決定装置10が評価する点が、第1実施形態と相違する。第2実施形態では、第1実施形態との相違点についてのみ説明する。
決定部110は、対象ブロックに対応付けられたノードの分割確率が曖昧(0.5を含む所定範囲内の値)である場合に、対象ブロックに対応付けられたノードの階層の1階層下の子ノードの分割確率と、所定の分割確率の閾値とを比較する。決定部110は、親ノードの複数の子ノードについて、分割確率の平均値、最大値又は最小値等を用いて、子ノードの分割確率と分割確率の閾値とを比較してもよい。決定部110は、複数の子ノードの分割確率の平均値、最大値又は最小値等のうちから、比較に用いる分割確率を選択してもよい。
決定部110は、子ノードの分割確率が分割確率の閾値を超えている場合、子ノードの階層の1階層上の親ノードに対応付けられた対象ブロックを分割すると決定する。決定部110は、子ノードの分割確率が分割確率の閾値を超えていない場合、子ノードの階層の1階層上の親ノードに対応付けられた対象ブロックを分割しないと決定する。
次に、分割形状決定装置10の動作の例を説明する。
図5は、分割形状決定装置10の動作の例を示すフローチャートである。ステップS201からステップS202までは、図4におけるステップS101からステップS102までと同様である。決定部110は、対象ブロックについて、分割確率が曖昧であるか否かを判定する。すなわち、決定部110は、対象ブロックについて、分割確率が0.5に近い値であるか否かを判定する(ステップS203)。分割確率が曖昧でない場合(ステップS203:NO)、決定部110は、ステップS04に処理を進める。ステップS204からステップS206までは、図4におけるステップS103からステップS105までと同様である。
分割確率が曖昧である場合(ステップS203:YES)、決定部110は、対象ブロックの階層の1階層下の子ノードの分割確率を取得する(ステップS207)。決定部110は、分割確率の閾値を子ノードの分割確率が超えているか否かを判定する(ステップS208)。分割確率の閾値を子ノードの分割確率が超えている場合(ステップS208:YES)、決定部110は、ステップS205に処理を進める。分割確率の閾値を子ノードの分割確率が超えていない場合(ステップS208:NO)、決定部110は、ステップS209に処理を進める。ステップS209からステップS211までは、図4におけるステップS106からステップS108までと同様である。
以上のように、第2実施形態の決定部110は、ノードの下位のノードである子ノードが保持している分割確率に基づいて、ノードに対応付けられた分割するか否かを決定する。これによって、第2実施形態の分割形状決定装置10は、出力ラベルの分割確率が曖昧である場合に、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することが可能である。
第2実施形態の分割形状決定装置10は、1個のCTUを表す四分木データ構造の全ての階層の各ノードの分割確率を、学習モデルの出力ラベルyとして並列に得ることができる。第2実施形態の分割形状決定装置10は、四分木データ構造の全ての階層の各ノードの分割確率を並列に得ることができるので、対象ブロックに対応する親ノードの子ノードの分割確率を取得することができる。これによって、第2実施形態の分割形状決定装置10は、出力ラベルの分割確率が曖昧である場合でも、レート歪み最適化を実行することなく、確率の高い判定処理を実行することができる。
(第3実施形態)
第3実施形態では、正解ラベルにおいて表されるノードの分割確率が3値以上の多値である点が、第1実施形態と相違する。第3実施形態では、第1実施形態との相違点についてのみ説明する。
決定部110は、正解ラベルtに関して、ノードの分割確率が1である場合におけるレート歪みコスト関数Jの値と、ノードの分割確率が0である場合におけるレート歪みコスト関数Jの値との差を算出する。決定部110は、算出された差が所定のコスト閾値以上である場合、重み係数を所定の係数閾値以上にする。これによって、決定部110は、分割確率の閾値から遠い分割確率を正解ラベルtの要素に含めることが可能である。決定部110は、算出された差が所定のコスト閾値未満である場合、重み係数を所定の係数閾値未満にする。これによって、決定部110は、分割確率の閾値に近い分割確率を正解ラベルtの要素に含めることが可能である。
決定部110は、算出された差に応じた重み係数を用いて、正解ラベルtにおける各ノードの分割確率を変更する。このようにして、決定部110は、正解ラベルtにおいて表されるノードの分割確率を3値以上の多値にする。例えば、正解ラベルtにおいて表されるノードの分割確率は、0から1までの間で連続する値でもよい。
畳み込み層101及び畳み込み層103は、出力ラベルyと正解ラベルtとの誤差を表す誤差関数Eの値を算出する。誤差関数Eは、出力ラベルyと正解ラベルtとの平均二乗誤差等を用いて定義される。畳み込み層101及び畳み込み層103は、誤差関数Eの値が小さくなるよう、四分木データ構造の各層の学習パラメータwを誤差逆伝播法によって更新する。
以上のように、第3実施形態の分割確率は、3値以上で表現される確率である。これによって、第3実施形態の分割形状決定装置10は、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像をより効率的に符号化するためのCUの分割形状を決定することが可能である。
第3実施形態の分割形状決定装置10は、正解ラベルを設計する場合、レート歪みコスト関数Jに応じた重み係数が乗算された多値である分割確率を、正解ラベルの要素に含める。これによって、第3実施形態の分割形状決定装置10は、CUの分割形状が符号化効率に与える影響を考慮してCUの分割形状を決定することが可能である。第3実施形態の分割形状決定装置10は、特徴量に基づく学習モデルにおける機械学習によって得られる出力とレート歪み最適化における全検索によって得られる出力との差を埋めることが可能である。
上述した実施形態における画像符号化装置、分割形状決定装置及び学習装置の少なくとも一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、画像を区切るブロックの分割形状を決定する分割形状決定装置、四分木データ構造で表現される汎用データを学習する学習装置、画像符号化装置に適用可能である。
1…画像符号化装置、10…分割形状決定装置、11…減算器、12…直交変換・量子化部、13…可変長符号化部、14…逆量子化・逆直交変換部、15…加算器、16…ループフィルタ部、17…復号ピクチャメモリ、18…イントラ予測部、19…インター予測部、20…イントラ・インター切替スイッチ、100…特徴抽出部、101…畳み込み層、102…プーリング層、103…畳み込み層、104…プーリング層、105…全結合層、110…決定部

Claims (6)

  1. 分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、符号化対象画像を区切るブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力する学習部と、
    前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定する決定部と
    を備え
    前記決定部は、前記ノードの下位のノードである子ノードが保持している前記分割確率に基づいて、前記ノードに対応付けられた分割するか否かを決定する、
    分割形状決定装置。
  2. 前記学習部は、前記ノードが保持している前記分割確率に応じて、前記ノードの下位のノードである子ノードの前記分割確率を参照するか否かを定める、請求項1に記載の分割形状決定装置。
  3. 前記階層構造は、四分木データ構造であり、
    前記学習部は、前記ノードが保持している前記分割確率が0である場合、前記学習パラメータを更新する際に前記子ノードの前記分割確率を参照しないと定める、請求項2に記載の分割形状決定装置。
  4. 前記分割確率は、3値以上で表現される確率である、請求項1から請求項のいずれか一項に記載の分割形状決定装置。
  5. 符号化対象画像を区切るブロックの分割形状を決定する分割形状決定装置が実行する分割形状決定方法であって、
    分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、前記ブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力するステップと、
    前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定するステップと
    を有し、
    前記決定するステップでは、前記ノードの下位のノードである子ノードが保持している前記分割確率に基づいて、前記ノードに対応付けられた分割するか否かを決定する、
    分割形状決定方法。
  6. コンピュータに、
    分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、符号化対象画像を区切るブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力する手順と、
    前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定する手順と
    を実行させ
    前記決定する手順では、前記ノードの下位のノードである子ノードが保持している前記分割確率に基づいて、前記ノードに対応付けられた分割するか否かを決定する、
    分割形状決定プログラム。
JP2017079585A 2017-04-13 2017-04-13 分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラム Active JP6748022B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017079585A JP6748022B2 (ja) 2017-04-13 2017-04-13 分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017079585A JP6748022B2 (ja) 2017-04-13 2017-04-13 分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラム

Publications (2)

Publication Number Publication Date
JP2018182531A JP2018182531A (ja) 2018-11-15
JP6748022B2 true JP6748022B2 (ja) 2020-08-26

Family

ID=64277256

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017079585A Active JP6748022B2 (ja) 2017-04-13 2017-04-13 分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラム

Country Status (1)

Country Link
JP (1) JP6748022B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109788296A (zh) * 2018-12-25 2019-05-21 中山大学 用于hevc的帧间编码单元划分方法、装置和存储介质
JP2021175126A (ja) 2020-04-28 2021-11-01 キヤノン株式会社 分割パターン決定装置、分割パターン決定方法、学習装置、学習方法およびプログラム
JP2022144360A (ja) * 2021-03-19 2022-10-03 公益財団法人実験動物中央研究所 排泄物性状推定モデル学習装置、排泄物性状推定装置、排泄物性状推定モデル学習方法、排泄物性状推定方法及びプログラム

Also Published As

Publication number Publication date
JP2018182531A (ja) 2018-11-15

Similar Documents

Publication Publication Date Title
CN111868751B (zh) 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数
US20230075442A1 (en) Point cloud compression method, encoder, decoder, and storage medium
CN113767400B (zh) 使用率失真成本作为深度学习的损失函数
TW201830972A (zh) 用於視訊寫碼之低複雜度符號預測
US11791837B2 (en) Method and apparatus for neural network model compression/decompression
WO2014190468A1 (en) Video encoder for images
CN110383695B (zh) 用于对数字图像或视频流进行编码和解码的方法和装置
JP6748022B2 (ja) 分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラム
US12088804B2 (en) Method and device for encoding/decoding video signal by using optimized conversion based on multiple graph-based model
CN111837140A (zh) 视频代码化的感受野一致卷积模型
US12010310B2 (en) Method and apparatus for quantization, adaptive block partitioning and codebook coding for neural network model compression
KR20230131878A (ko) 포인트 클라우드 프로세싱을 위한 장치 및 방법
CN114096987A (zh) 视频处理方法及装置
CN113795869A (zh) 用于神经网络模型压缩的量化、自适应块分区和码本编解码的方法和装置
CN114041292B (zh) 编解码的方法、装置及可读介质
JP7383720B2 (ja) 画像成分予測方法、エンコーダ、デコーダ及び記憶媒体
JP5307681B2 (ja) 画像符号化構造の自動生成方法,画像符号化構造の自動生成装置およびそのプログラム
EP4391533A1 (en) Feature map encoding method and apparatus and feature map decoding method and apparatus
CN114868389A (zh) 一种帧内预测方法、编码器、解码器及存储介质
KR20230073303A (ko) 계층적 팔레트 테이블 생성을 이용하는 팔레트 모드 비디오 인코딩
JP2005124001A (ja) 動画像符号化装置、動画像符号化方法、動画像符号化プログラム、動画像復号装置、動画像復号方法、及び動画像復号プログラム
JP2022551184A (ja) ブロック分割を伴うニューラルネットワークを復号する方法、装置及びプログラム
JP2020061596A (ja) 差異検出装置及び差異検出プログラム
CN112188216B (zh) 视频数据的编码方法、装置、计算机设备及存储介质
Ettaouil et al. Vector quantization by improved Kohonen algorithm

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190628

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200717

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200806

R150 Certificate of patent or registration of utility model

Ref document number: 6748022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150