JP2018182531A - Division shape determining apparatus, learning apparatus, division shape determining method, and division shape determining program - Google Patents
Division shape determining apparatus, learning apparatus, division shape determining method, and division shape determining program Download PDFInfo
- Publication number
- JP2018182531A JP2018182531A JP2017079585A JP2017079585A JP2018182531A JP 2018182531 A JP2018182531 A JP 2018182531A JP 2017079585 A JP2017079585 A JP 2017079585A JP 2017079585 A JP2017079585 A JP 2017079585A JP 2018182531 A JP2018182531 A JP 2018182531A
- Authority
- JP
- Japan
- Prior art keywords
- division
- node
- probability
- learning
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラムに関する。 The present invention relates to a divided shape determination device, a learning device, a divided shape determination method, and a divided shape determination program.
動画像符号化の標準規格として、H.264/AVC(Advanced Video Coding)(以下「AVC」という。)がある。AVCに次ぐ新たな標準規格として、H.265/HEVC(High Efficiency Video Coding)(以下「HEVC」という。)が2013年に標準化された。HEVCは、同程度の画質では、AVCと比較して2倍の圧縮性能を誇る。しかしながら、HEVCの演算量は、AVCの演算量と比較して膨大である。 H.264 / AVC (Advanced Video Coding) (hereinafter referred to as "AVC") is a standard of moving picture coding. As a new standard next to AVC, H.265 / HEVC (High Efficiency Video Coding) (hereinafter referred to as "HEVC") was standardized in 2013. HEVC boasts twice as much compression performance as AVC at comparable image quality. However, the amount of computation of HEVC is enormous compared to the amount of computation of AVC.
HEVCでは、符号化対象画像は、64画素×64画素のサイズのブロックであるCTU(Coding Tree Unit)の単位で区切られている。画像符号化装置は、CTUごとに符号化処理を実行する。分割形状決定装置は、符号化単位であるCU(Coding Unit)と呼ばれるブロックに、CTUを再帰的に4分割することができる。HEVCでは、64画素×64画素、32画素×32画素、16画素×16画素、8画素×8画素という4種類のCUのサイズが定義されている。以下、n画素×n画素を「n×n」と表記する。 In HEVC, an image to be encoded is divided in units of CTU (Coding Tree Unit), which is a block having a size of 64 pixels × 64 pixels. The image coding apparatus performs coding processing for each CTU. The division shape determination device can recursively divide the CTU into four blocks called a coding unit, called a CU (Coding Unit). In HEVC, four types of CU sizes are defined: 64 pixels × 64 pixels, 32 pixels × 32 pixels, 16 pixels × 16 pixels, and 8 pixels × 8 pixels. Hereinafter, n pixels × n pixels are described as “n × n”.
図6は、CUの分割形状の一例を示す図である。各CUは、イントラ予測やインター予測等のパラメータを共有している。CUにおける輝度値の分布が平坦である場合、CUのサイズは大きく定められる。CUにおける輝度値の分布が複雑である場合、CUのサイズは小さく定められる。これらのようにCUのサイズが定められることによって、HEVCの画像符号化装置は、符号化効率を高めることができる。 FIG. 6 is a diagram illustrating an example of divided shapes of CUs. Each CU shares parameters such as intra prediction and inter prediction. If the distribution of luminance values in the CU is flat, the size of the CU is determined large. If the distribution of luminance values in the CU is complex, the size of the CU is set smaller. By determining the size of the CU as described above, the image coding apparatus of HEVC can improve the coding efficiency.
図7は、CUの分割形状を表すための四分木データ構造の例を示す図である。CUの分割形状は、四分木データ構造を用いて表現される。四分木データ構造は、階層構造を有する。四分木データ構造の各ノードは、各CUに対応付けられている。各CUは、四分木データ構造の階層(分割デプス)ごとに分類される。四分木データ構造の各ノードには、ノードに対応付けられているCU(ブロック)の分割に関するフラグが、ノードのラベルとして定められている。HEVCでは、分割に関するフラグは、分割を表す1と非分割を表す0との2値で表現される。 FIG. 7 is a diagram illustrating an example of a quadtree data structure for representing a divided shape of a CU. The split shape of CU is expressed using a quadtree data structure. The quadtree data structure has a hierarchical structure. Each node of the quadtree data structure is associated with each CU. Each CU is classified by hierarchy (division depth) of the quadtree data structure. In each node of the quadtree data structure, a flag regarding division of a CU (block) associated with the node is defined as a label of the node. In HEVC, a flag relating to division is represented by a binary value of 1 representing division and 0 representing non-division.
HEVCの分割形状決定装置は、HEVCテストモデル(HM)等の参照ソフトウェアにおいて定められたレート歪み最適化に基づいて、CUの分割形状を決定する。分割形状決定装置は、参照ソフトウェアにおいて定められたレート歪み最適化に基づいて、レート歪みコスト関数J(=D+λR)が最小となるCUの分割形状及び予測モードを算出する。レート歪みコスト関数Jにおいて、Dは、パラメータの選択に応じて発生する歪み量を表す。Rは、発生するビット量を表す。λは、ラグランジュ乗数と呼ばれる定数を表す。HEVCの分割形状決定装置は、CUの分割形状及び予測モードを、レート歪み最適化において全探索して決定する。このため、レート歪み最適化の演算量は膨大である。 The split shape determination device of HEVC determines the split shape of CU based on rate distortion optimization defined in reference software such as HEVC test model (HM). The divided shape determination device calculates the divided shape and prediction mode of the CU that minimize the rate distortion cost function J (= D + λR) based on the rate distortion optimization defined in the reference software. In the rate distortion cost function J, D represents the amount of distortion generated in response to the selection of the parameter. R represents the amount of generated bits. λ represents a constant called Lagrange multiplier. The split shape determination device of HEVC determines and determines the split shape and prediction mode of a CU by performing a full search in rate distortion optimization. For this reason, the amount of computation of rate distortion optimization is enormous.
そこで、分割形状決定装置がレート歪み最適化を実行せずにCUの分割形状を決定する方法として、CUの分割形状を教師データとするニューラルネットワークの学習モデルを用いてCUの分割形状を決定する方法が提案されている。教師データを用いた学習(教師あり学習)では、学習モデルの入力であるCTUと、学習モデルの出力であるCUの分割形状(分割パターン)を表す正解ラベルとが、大量に用意される。 Therefore, as a method of determining the divided shape of the CU without performing the rate distortion optimization, the divided shape determination device determines the divided shape of the CU using a learning model of a neural network using the divided shape of the CU as teaching data. A method has been proposed. In learning using supervised data (supervised learning), a large number of CTUs, which are inputs of a learning model, and correct answer labels representing divided shapes (division patterns) of CUs, which are outputs of the learning models, are prepared.
分割形状決定装置は、CTUごとの教師データを反復して用いることによって、CUの分割形状を学習モデルに学習させる。分割形状決定装置は、CTUごとの教師データが学習モデルに反復して入力された結果として得られたCUの分割形状が正解ラベルに近づくよう、学習モデルの学習パラメータを更新する。 The divided shape determination device causes the learning model to learn the divided shape of the CU by repeatedly using the teaching data for each CTU. The divided shape determination device updates the learning parameter of the learning model so that the divided shape of the CU obtained as a result of repetitively inputting the training data for each CTU into the learning model approaches the correct answer label.
図8は、CUの分割形状を表す正解ラベルの例を示す図である。分割形状決定装置がCUの分割形状をCTUごとに学習する場合、CTUの単位の符号化対象画像の原画を入力としてCUの分割形状を出力とする正解ラベル(分類モデル)を分割形状決定装置に学習させる方法が、最も単純な方法である。しかしながら、CUの全ての分割形状をCTUの単位で網羅すると、正解ラベルの数が8万を超えて膨大になってしまう。したがって、膨大な数の教師データが用意されなければ、分割形状決定装置はCUの分割形状を学習することができない。 FIG. 8 is a diagram illustrating an example of correct answer labels indicating divided shapes of CUs. When the divided shape determination device learns the divided shape of the CU for each CTU, the correct shape label (classification model) which receives the original image of the coding target image of the CTU unit as an input and outputs the divided shape of the CU is used as the divided shape determination device The method of learning is the simplest method. However, if all divided shapes of a CU are covered in CTU units, the number of correct labels will exceed 80,000 and become enormous. Therefore, the division shape determination device can not learn the division shape of the CU unless a huge number of teacher data are prepared.
そこで、膨大な数の教師データが用意されなくても分割形状決定装置がCUの分割形状を学習することができる方法として、CUの分割又は非分割をCUの階層ごとに決定する学習モデルを用いた方法が提案されている(非特許文献1参照)。非特許文献1では、膨大な数の教師データを用意する代わりに、CUの分割又は非分割をCUの階層ごとに決定する複数の学習モデルを用意することで、分割形状決定装置は、CUの分割形状を学習することができる。
Therefore, as a method by which the divided shape determination device can learn the divided shapes of CUs without using a large number of teacher data, a learning model is used that determines division or non-division of CUs for each hierarchy of CUs. The following method has been proposed (see Non-Patent Document 1). In
非特許文献1では、分割形状決定装置は、四分木データ構造の階層ごとの学習モデルを順次適用することによって、CUの分割形状を決定する。以下、分割又は非分割が決定される対象のブロックを「対象ブロック」という。以下、ノードに対応付けられているCU(ブロック)の分割に関する確率を「分割確率」という。学習モデル(確率分布モデル)は、ノードに対応付けられた対象ブロックごとに分割確率を表すラベルを出力する。分割(正例)を表す分割確率の値は1である。非分割(負例)を表す分割確率の値は0である。分割確率は、0及び1の平均値である0.5を含む所定範囲内の値(曖昧な値)でもよい。分割確率が曖昧である場合、非特許文献1の分割形状決定装置は、HEVCテストモデルにおいて定められたレート歪み最適化に基づいて、対象ブロックであるCUの分割形状を決定する。
In
図9は、非特許文献1のCUの分割形状を決定するために用意される複数の学習モデルの例を示す図である。図10は、非特許文献1の分割形状決定装置の動作の例を示すフローチャートである。図9及び図10に示されているように、非特許文献1の分割形状決定装置は、CUの分割形状を決定する場合、四分木データ構造の階層ごとに用意された複数の学習モデル(分割判定モデル)を用いる。
FIG. 9 is a diagram showing an example of a plurality of learning models prepared to determine the divided shape of a CU of
分割形状決定装置が複数の学習モデルを用いた場合には、画像の特徴量を抽出する処理の演算量が増えるので、CUの分割形状を決定するための演算量は膨大になる。また、分割形状決定装置が複数の学習モデルを用いた場合には、隣接するCU同士の相関を考慮せずにCUの分割形状を独立に決定することになるので、分割形状決定装置は、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することができない。 When the divided shape determination device uses a plurality of learning models, the amount of operation of processing for extracting the feature amount of the image increases, so the amount of operation for determining the divided shape of the CU becomes enormous. Further, when the divided shape determination device uses a plurality of learning models, the divided shape of the CU is determined independently without considering the correlation between adjacent CUs, so the divided shape determination device It is not possible to determine the division shape of the CU for efficiently encoding the image to be digitized.
これらのように、従来の分割形状決定装置は、CUの分割形状を決定するための演算量を少なくした場合には、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することができない、という問題があった。 As described above, the conventional divided shape determination device determines the divided shape of the CU for efficiently encoding the encoding target image when the amount of operation for determining the divided shape of the CU is reduced. There was a problem that I could not do it.
上記事情に鑑み、本発明は、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することが可能である分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラムを提供することを目的としている。 In view of the above circumstances, according to the present invention, it is possible to determine the CU division shape for efficiently encoding the encoding target image even when the amount of operation for determining the CU division shape is reduced. An object of the present invention is to provide a divided shape determination device, a learning device, a divided shape determination method, and a divided shape determination program.
本発明の一態様は、分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、符号化対象画像を区切るブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力する学習部と、前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定する決定部とを備える分割形状決定装置である。 In one aspect of the present invention, a plurality of nodes holding a division probability, which is a probability relating to division, form a hierarchical structure, and learning parameters of a learning model which is a set of nodes are divided into blocks for dividing an image to be coded. A learning unit that updates according to the division probability of the associated node, and outputs the division probability obtained as an output of the learning model in which the learning parameter is updated, in association with the node; It is a division | segmentation shape determination apparatus provided with the determination part which determines whether the block matched with the said node is divided | segmented based on the said division | segmentation probability matched with the node.
本発明の一態様は、上記の分割形状決定装置であって、前記学習部は、前記ノードが保持している前記分割確率に応じて、前記ノードの下位のノードである子ノードの前記分割確率を参照するか否かを定める。 One embodiment of the present invention is the split shape determination device described above, wherein the learning unit is configured to split the child node that is a lower node of the node according to the split probability held by the node. Determine whether to refer to.
本発明の一態様は、上記の分割形状決定装置であって、前記階層構造は、四分木データ構造であり、前記学習部は、前記ノードが保持している前記分割確率が0である場合、前記学習パラメータを更新する際に前記子ノードの前記分割確率を参照しないと定める。 One aspect of the present invention is the divided shape determination device described above, wherein the hierarchical structure is a quadtree data structure, and the learning unit is configured to determine that the division probability held by the node is 0. It is determined that when the learning parameter is updated, the division probability of the child node is not referred to.
本発明の一態様は、上記の分割形状決定装置であって、前記決定部は、前記ノードの下位のノードである子ノードが保持している前記分割確率に基づいて、前記ノードに対応付けられた分割するか否かを決定する。 One aspect of the present invention is the divided shape determination device described above, wherein the determination unit is associated with the node based on the division probability held by a child node that is a subordinate node of the node. Decide whether to divide.
本発明の一態様は、上記の分割形状決定装置であって、前記分割確率は、3値以上で表現される確率である。 One aspect of the present invention is the above-described split shape determination device, wherein the split probability is a probability represented by three or more values.
本発明の一態様は、確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、前記ノードの確率が所定値である場合に前記ノードの子ノードの確率に基づくことなく更新する学習部を備える学習装置である。 According to an aspect of the present invention, when a plurality of nodes holding probabilities form a hierarchical structure, a learning parameter of a learning model which is a set of the nodes is a learning parameter of the nodes when the probability of the nodes is a predetermined value. It is a learning apparatus provided with the learning part updated without being based on the probability of a child node.
本発明の一態様は、符号化対象画像を区切るブロックの分割形状を決定する分割形状決定装置が実行する分割形状決定方法であって、分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、前記ブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力するステップと、前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定するステップとを有する分割形状決定方法である。 One aspect of the present invention is a division shape determination method executed by a division shape determination device that determines a division shape of a block that divides an encoding target image, and a plurality of nodes holding division probabilities that are probabilities related to division are hierarchical The learning parameter of a learning model that is structured and is a set of nodes, is updated according to the division probability of the nodes associated with the block, and the learning parameters are updated. Whether or not to divide the block associated with the node based on the step of outputting the division probability obtained as output in association with the node, and the division probability output in association with the node And determining the division shape.
本発明の一態様は、コンピュータに、分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、符号化対象画像を区切るブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力する手順と、前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定する手順とを実行させるための分割形状決定プログラムである。 According to one aspect of the present invention, in a computer, a plurality of nodes holding division probabilities, which are probabilities related to division, form a hierarchical structure, and learning parameters of a learning model, which is a set of nodes, are encoded target images. Updating according to the division probability of the node associated with the division block, and outputting the division probability obtained as an output of the learning model in which the learning parameter is updated in association with the node It is a division | segmentation shape determination program for performing the procedure which determines whether the block matched with the said node is divided | segmented based on the said division probability matched with the said node.
本発明により、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することが可能である。 According to the present invention, it is possible to determine the divided shape of the CU for efficiently encoding the image to be encoded, even when the amount of calculation for determining the divided shape of the CU is reduced.
本発明の実施形態について、図面を参照して詳細に説明する。
(第1実施形態)
図1は、画像符号化装置1の構成の例を示す図である。画像符号化装置1は、例えば、パーソナルコンピュータ装置、スマートフォン端末、タブレット端末又はサーバ装置等の情報処理装置である。画像符号化装置1は、動画像を構成する複数の画像(フレーム)を符号化対象画像として符号化する。符号化対象画像は、64画素×64画素のサイズであるCTUの単位のブロックに区切られている。
Embodiments of the present invention will be described in detail with reference to the drawings.
First Embodiment
FIG. 1 is a diagram showing an example of the configuration of the
画像符号化装置1は、分割形状決定装置10と、減算器11と、直交変換・量子化部12と、可変長符号化部13と、逆量子化・逆直交変換部14と、加算器15と、ループフィルタ部16と、復号ピクチャメモリ17と、イントラ予測部18と、インター予測部19と、イントラ・インター切替スイッチ20とを備える。画像符号化装置1は、例えば、磁気ハードディスク装置や半導体記憶装置等の不揮発性の記録媒体(非一時的な記録媒体)を記憶部として更に備えてもよい。
The
分割形状決定装置10と減算器11と直交変換・量子化部12と可変長符号化部13と逆量子化・逆直交変換部14と加算器15とループフィルタ部16とイントラ予測部18とインター予測部19とイントラ・インター切替スイッチ20との一部又は全部は、例えば、CPU(Central Processing Unit)等のプロセッサが、記憶部に記憶されたプログラムを実行することにより実現されてもよいし、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェアを用いて実現されてもよい。
Divided
分割形状決定装置10は、単一の学習モデルを用いて学習する情報処理装置(学習装置)である。学習モデルは、分割確率を保持する複数のノードが階層構造を成しているモデルである。学習モデルは、四分木データ構造の各ノードのラベルを出力する学習モデルであれば、特定の学習モデルに限定されない。学習モデルは、ニューラルネットワークの学習モデルでもよいし、ニューラルネットワーク以外の学習モデルでもよい。ニューラルネットワーク以外の学習モデルは、例えば、遺伝的プログラミングの学習モデルでもよい。分割形状決定装置10は、四分木データ構造で表される汎用データに関する決定方法を学習する。分割形状決定装置10は、学習した結果を所定の機能部に出力する。
The divided
以下では、分割形状決定装置10は、一例として、符号化対象画像をCTUごとに取得する。分割形状決定装置10は、一例として、四分木データ構造で表されるCUの分割形状の決定方法を学習する。分割形状決定装置10は、学習モデルを用いてCUの分割形状を学習する。分割形状決定装置10は、CUの単位のブロックに、CTUを再帰的に4分割することができる。分割形状決定装置10は、CUの分割形状を学習した結果に基づいて、CUの分割形状(分割パターン)を決定する。分割形状決定装置10は、HEVC等のCUの分割形状を、CTUごとに決定する。
Below, the division | segmentation
減算器11は、CUの分割形状が決定されたCTUごとに、符号化対象画像を分割形状決定装置10から取得する。減算器11は、各ノードの分割確率を表す出力ラベルを、CTUごとに分割形状決定装置10から取得する。減算器11は、イントラ予測部18又はインター予測部19から、CTUの予測画像を取得する。減算器11は、符号化対象画像のCTUと予測画像との差分を、直交変換・量子化部12に出力する。
The
直交変換・量子化部12は、CTUと予測画像との差分に、直交変換処理及び量子化処理を施す。直交変換・量子化部12は、直交変換処理及び量子化処理の結果である量子化係数を、可変長符号化部13と逆量子化・逆直交変換部14とに出力する。
The orthogonal transformation /
可変長符号化部13は、可変長符号化処理を実行する符号化部である。可変長符号化部13は、量子化係数に可変長符号化処理を施した結果を含む符号化データを、画像復号装置等に出力する。可変長符号化部13は、動きベクトル等の符号化パラメータを含む符号化データを、画像復号装置等に出力してもよい。符号化パラメータは、例えば、レート歪み最適化の結果に基づいて定められる。
The variable-
逆量子化・逆直交変換部14は、量子化係数に逆量子化処理及び逆直交変換処理を施した結果である画像を、加算器15に出力する。加算器15は、量子化係数に逆量子化処理及び逆直交変換処理を施した結果である画像を、逆量子化・逆直交変換部14から取得する。加算器15は、イントラ予測部18又はインター予測部19から、イントラ・インター切替スイッチ20を介して、CTUの予測画像を取得する。加算器15は、量子化係数に逆量子化処理及び逆直交変換処理を施した結果である画像と予測画像とを加算した結果を、ループフィルタ部16及びイントラ予測部18に出力する。
The inverse quantization / inverse
ループフィルタ部16は、量子化係数に逆量子化処理及び逆直交変換処理を施した結果である画像と予測画像とを加算器15が加算した結果に、ループフィルタを適用する。ループフィルタ部16は、ループフィルタが適用された結果を、復号ピクチャメモリ17に出力する。
The
復号ピクチャメモリ17は、例えば、RAM(Random Access Memory)などの揮発性の記録媒体である。復号ピクチャメモリ17は、例えば、半導体記憶装置等の不揮発性の記録媒体(非一時的な記録媒体)でもよい。復号ピクチャメモリ17は、加算器15が加算した結果にループフィルタが適用された結果(再構成された信号)を記憶した結果、複数の画像(フレーム)を記憶する。復号ピクチャメモリ17は、加算器15が加算した結果にループフィルタが適用された結果を、インター予測部19に出力する。
The decoded
イントラ予測部18は、加算器15が加算した結果にループフィルタが適用された結果を、加算器15から取得する。イントラ予測部18は、加算器15が加算した結果にループフィルタが適用された結果を、参照画像として使用する。イントラ予測部18は、加算器15から取得された参照画像に基づくイントラ予測によって、符号化対象画像のCTUの予測画像を生成する。
The
インター予測部19は、CUの分割形状が決定されたCTUごとに、符号化対象画像を分割形状決定装置10から取得する。インター予測部19は、加算器15が加算した結果にループフィルタが適用された結果を、復号ピクチャメモリ17から取得する。インター予測部19は、加算器15が加算した結果にループフィルタが適用された結果を、参照画像として使用する。インター予測部19は、復号ピクチャメモリ17から取得された参照画像に基づくインター予測によって、符号化対象画像のCTUの予測画像を生成する。
The
イントラ・インター切替スイッチ20は、CTUの予測モードがイントラ予測である場合、イントラ予測部18が生成した予測画像を、減算器11及び加算器15に出力する。イントラ・インター切替スイッチ20は、CTUの予測モードがインター予測である場合、インター予測部19が生成した予測画像を、減算器11及び加算器15に出力する。
The intra /
次に、四分木データ構造及び出力ラベルの例を説明する。
図2は、四分木データ構造及び出力ラベルの例を示す図である。1個のCTUにおけるCUの分割形状は、1個の四分木データ構造を用いて表される。四分木データ構造の各ノードには、ノードに対応付けられているCUの分割に関する確率(分割確率)が、ノードのラベルとして定められている。1個の四分木データ構造は、1個のCTUの各CUの分割確率を表す。
Next, examples of quadtree data structures and output labels are described.
FIG. 2 is a diagram showing an example of a quadtree data structure and an output label. The split shape of CU in one CTU is represented using one quadtree data structure. For each node of the quadtree data structure, a probability (division probability) regarding division of a CU associated with the node is defined as a label of the node. One quadtree data structure represents the division probability of each CU of one CTU.
学習モデルは、符号化対象画像のCTUを入力とする。学習モデルは、入力されたCTUのCUの分割形状と学習パラメータとに基づいて、四分木データ構造の各ノードの分割確率を表すラベルを出力する。学習モデルが出力するラベル(以下「出力ラベル」という。)の要素数は、1個のCTUにおける四分木データ構造の最大ノード数と等しい。出力ラベルは、CTUの各CUの分割確率y[n](nは、0から20までの整数。)から成る。図2の四分木データ構造では、出力ラベルは、学習モデルの出力ユニットの数が21であることに対応して、y[0],y[1],…,y[20]から成る。 The learning model takes as input the CTU of the image to be encoded. The learning model outputs a label representing the division probability of each node of the quadtree data structure, based on the inputted CTU CU division shape and learning parameters. The number of elements of the label (hereinafter referred to as “output label”) output by the learning model is equal to the maximum number of nodes of the quadtree data structure in one CTU. The output label consists of the division probability y [n] (n is an integer from 0 to 20) of each CU of the CTU. In the quadtree data structure of FIG. 2, the output label consists of y [0], y [1],..., Y [20], corresponding to the number of output units of the learning model being 21.
出力ラベルでは、最も浅い階層における64×64のサイズのCUの分割確率は、y[0]である。64×64のサイズのCUよりも1階層下の階層における、32×32のサイズの各CUの分割確率は、y[1]〜y[4]である。32×32のサイズのCUよりも1階層下の階層における、16×16のサイズの各CUの分割確率は、y[5]〜y[20]である。 In the output label, the division probability of a 64 × 64 sized CU in the shallowest hierarchy is y [0]. The division probability of each 32 × 32 sized CU in a hierarchy one hierarchy lower than the 64 × 64 sized CU is y [1] to y [4]. The division probability of each of the 16 × 16 sized CUs in a hierarchy one hierarchy level below the 32 × 32 sized CUs is y [5] to y [20].
学習モデルの正解ラベルの要素数は、1個のCTUにおける四分木データ構造の最大ノード数と等しい。正解ラベルは、CTUの各CUの分割確率t[n]から成る。図2の四分木データ構造では、正解ラベルtは、出力ラベルy(=y[0],y[1],…,y[20])に対応して、t[0],t[1],…,t[20]から成る。 The number of elements of the correct answer label of the learning model is equal to the maximum number of nodes of the quadtree data structure in one CTU. The correct answer label consists of the division probability t [n] of each CU of the CTU. In the quadtree data structure of FIG. 2, the correct answer label t corresponds to the output label y (= y [0], y [1],..., Y [20]), t [0], t [1]. ], ..., t [20].
正解ラベルでは、64×64のサイズのCUの分割確率は、t[0]である。64×64のサイズのCUよりも1階層下の階層における、32×32のサイズの各CUの分割確率は、t[1]〜t[4]である。32×32のサイズのCUよりも1階層下の階層における、16×16のサイズの各CUの分割確率は、t[5]〜t[20]である。図1に示された分割形状決定装置10は、CUの分割形状を表す出力ラベルが正解ラベルに近づくよう、学習の際に学習モデルの学習パラメータを更新する。
In the correct answer label, the division probability of a 64 × 64 sized CU is t [0]. The division probability of each 32 × 32 sized CU in a hierarchy one hierarchy lower than the 64 × 64 sized CU is t [1] to t [4]. The division probability of each of the 16 × 16 sized CUs in the hierarchy one hierarchy level below the 32 × 32 sized CUs is t [5] to t [20]. The divided
分割形状決定装置10は、学習パラメータが更新された学習モデルが出力した出力ラベルに基づいて、分割確率の閾値を超える分割確率を保持しているノードの分割確率を1と決定する。すなわち、分割形状決定装置10は、分割確率の閾値を超える分割確率を保持しているノードに対応付けられたCUを分割すると決定する。
The division
分割形状決定装置10は、学習パラメータが更新された学習モデルが出力した出力ラベルに基づいて、分割確率の閾値を超えない分割確率を保持しているノードの分割確率を0と決定する。すなわち、分割形状決定装置10は、分割確率の閾値を超えない分割確率を保持しているノードに対応付けられたCUを分割しないと決定する。
The division
分割形状決定装置10は、四分木データ構造の親ノードの分割確率が非分割を表す(0である)場合、親ノードの下位のノードである子ノードの分割確率を決定しない。すなわち、分割形状決定装置10は、分割されないCUに対応付けられた親ノードの子ノードの分割確率を決定しない。
When the division probability of the parent node of the quadtree data structure represents non-division (is 0), the division
次に、分割形状決定装置10の構成の例を説明する。
図3は、分割形状決定装置10の構成の例を示す図である。分割形状決定装置10は、特徴抽出部100を、単一の学習モデルとして備える。分割形状決定装置10は、決定部110を更に備える。
Next, an example of the configuration of the divided
FIG. 3 is a diagram showing an example of the configuration of the divided
特徴抽出部100(学習部)は、符号化対象画像の原画又は特徴量を、CTUごとに取得する。特徴抽出部100は、符号化対象画像の原画又は特徴量に基づいて、四分木データ構造の各ノードの分割確率を、単一の学習モデルの出力ラベルとして出力する。特徴抽出部100は、反復された学習の結果として出力ラベルを正解ラベルに近づけるように、学習モデルの学習パラメータを更新する。特徴抽出部100は、学習の結果として学習パラメータが更新された学習モデルに基づいて、四分木データ構造の各ノードの分割確率を算出する。決定部110は、四分木データ構造のノードごとに決定された分割確率を含む出力ラベルを、減算器11に出力する。
The feature extraction unit 100 (learning unit) acquires, for each CTU, the original image or feature amount of the encoding target image. The feature extraction unit 100 outputs the division probability of each node of the quadtree data structure as an output label of a single learning model based on the original image or the feature amount of the encoding target image. The feature extraction unit 100 updates the learning parameters of the learning model so that the output label approaches the correct answer label as a result of repeated learning. The feature extraction unit 100 calculates a division probability of each node of the quadtree data structure based on a learning model in which learning parameters are updated as a result of learning. The
図3では、学習モデルは、一例として、畳み込みニューラルネットワークの学習モデルである。特徴抽出部100は、畳み込み層101と、プーリング層102と、畳み込み層103と、プーリング層104と、全結合層105とを備える。
In FIG. 3, the learning model is, as an example, a learning model of a convolutional neural network. The feature extraction unit 100 includes a
畳み込み層101(Convolution Layer)(更新部)は、学習の結果として、フィルタ係数等の学習パラメータを更新する。畳み込み層101は、二次元配列の各値に活性化関数を適用してもよい。プーリング層102(Pooling Layer)は、カーネル内の最大値、平均値等を用いて、ダウンサンプリングを実行する。すなわち、プーリング層102は、畳み込み層101の出力結果である二次元配列の各値のうちの有効な値を残す。
The convolution layer 101 (Convolution Layer) (updating unit) updates learning parameters such as filter coefficients as a result of learning. The
畳み込み層103(更新部)は、学習の結果として、フィルタ係数等の学習パラメータを更新する。畳み込み層103は、プーリング層102の出力結果である二次元配列の各値に、活性化関数を適用してもよい。プーリング層104は、カーネル内の最大値、平均値等を用いて、ダウンサンプリングを実行する。すなわち、プーリング層104は、畳み込み層103の出力結果である二次元配列の各値のうちの有効な値を残す。全結合層105(fully connected layer)(分割確率出力部)は、プーリング層104の出力を結合することによって、ノードごとに分割確率を表す出力ラベルを出力する。
The convolutional layer 103 (update unit) updates learning parameters such as filter coefficients as a result of learning. The
決定部110(分割確率決定部)は、全結合層105の出力ラベルに基づいて、ノードに対応付けられた対象ブロックの分割確率を決定する。すなわち、決定部110は、全結合層105の出力ラベルに基づいて、ノードに対応付けられた対象ブロックを分割するか否かを決定する。決定部110は、四分木データ構造のノードごとに決定された分割確率を含む出力ラベルを、図1に示された減算器11にCTUごとに出力する。
The determination unit 110 (division probability determination unit) determines the division probability of the target block associated with the node based on the output labels of all the combined layers 105. That is, based on the output labels of all the combined
次に、特徴抽出部100における学習モデルの学習方法を説明する。
特徴抽出部100は、CUの分割形状の正解ラベルを学習する場合、符号化対象画像の原画又は特徴量をCTUごとに取得する。全結合層105は、出力ラベルyを出力する。出力ラベルyは、四分木データ構造の各ノードの分割確率を表す。出力ラベルyは、式(1)のように表される。出力ラベルyに対応する正解ラベルtは、式(2)のように表される。
Next, the learning method of the learning model in the feature extraction unit 100 will be described.
When learning the correct answer label of the divided shape of the CU, the feature extraction unit 100 acquires, for each CTU, the original image or the feature amount of the encoding target image. The
y=[y[0],y[1],…,y[20]]T …(1) y = [y [0], y [1], ..., y [20]] T (1)
t=[t[0],t[1],…,t[20]]T …(2) t = [t [0], t [1], ..., t [20] T (2)
畳み込み層101及び畳み込み層103は、出力ラベルyと正解ラベルtとの誤差を表す誤差関数Eの値を算出する。誤差関数Eは、出力ラベルyと正解ラベルtとのクロスエントロピーや平均二乗誤差等を用いて定義される。畳み込み層101及び畳み込み層103は、誤差関数Eの値が小さくなるよう、畳み込み層101及び畳み込み層103の学習パラメータwを誤差逆伝播法等によって更新する。
The
畳み込み層101及び畳み込み層103は、誤差逆伝播法を実行する場合、誤差関数Eの値が小さくなる方向に学習モデルの学習パラメータwを更新する目的で、勾配降下法を用いてもよい。すなわち、畳み込み層101は、勾配∇Eを表す式(3)を用いて、式(4)のように誤差関数Eの値が小さくなる方向に、畳み込み層101の学習パラメータwを更新する。畳み込み層103は、勾配∇Eを表す式(3)を用いて、式(4)のように誤差関数Eの値が小さくなる方向に、畳み込み層103の学習パラメータwを更新する。式(3)において、Mは、学習パラメータwの要素数を表す。式(4)において、εは、学習率を表す。
The
勾配∇E
=∂E/∂w
=[∂E/∂w1,∂E/∂w2,…,∂E/∂wM]T …(3)
Gradient ∇ E
= ∂ E / ∂ w
= [∂ E / ∂ w 1 , ∂ E / ∂ w 2 , ..., ∂ E / ∂ w M ] T ... (3)
w←w−ε▽E …(4) w w w-ε E E (4)
第1実施形態では、正解ラベルtの各要素は、HEVCテストモデル(HM)等の参照ソフトウェアにおけるレート歪み最適化によって得られた分割確率を用いて表される。第1実施形態では、正解ラベルtにおけるノードの分割確率は、2値(分割又は非分割)で表される。 In the first embodiment, each element of the correct answer label t is represented using a division probability obtained by rate distortion optimization in reference software such as HEVC test model (HM). In the first embodiment, the division probability of the node in the correct answer label t is represented by a binary value (division or non-division).
畳み込み層101及び畳み込み層103は、CUの分割形状の正解ラベルtを学習する場合、正解ラベルtにおいて非分割を表す親ノードの子ノードの分割確率を参照しない。例えば、正解ラベルt[1]のノードの分割確率が非分割を表している(分割確率が所定値=0である)場合、畳み込み層101及び畳み込み層103は、正解ラベルt[1]のノードの子ノードの正解ラベルt[5]〜t[8]の分割確率を参照しない。
The
畳み込み層101及び畳み込み層103は、正解ラベルtにおいて参照されない分割確率を学習に用いない。すなわち、畳み込み層101及び畳み込み層103は、分割確率が非分割を表している親ノードの子ノードの分割確率が存在しないものとして学習された結果に基づいて、学習モデルの学習パラメータを更新する。
The
次に、分割形状決定装置10の動作の例を説明する。
図4は、分割形状決定装置10の動作の例を示すフローチャートである。特徴抽出部100は、符号化対象画像をCTUごとに取得する。特徴抽出部100は、符号化対象画像のCTUから、輝度値等の特徴量を抽出する。全結合層105は、学習パラメータが更新された学習モデルに基づいて、各ノードの分割確率を算出する(ステップS101)。決定部110は、四分木データ構造における階層が浅いノードに対応する対象ブロックを優先して処理を実行する。
Next, an example of the operation of the divided
FIG. 4 is a flowchart showing an example of the operation of the divided
決定部110は、対象ブロックに対応するノードの四分木データ構造における階層が最深の階層であるか否かを判定する(ステップS102)。対象ブロックに対応するノードの四分木データ構造における階層が最深の階層でない場合(ステップS102:NO)、決定部110は、対象ブロックについて、分割確率の閾値を分割確率が超えているか否かを判定する(ステップS103)。分割確率の閾値を分割確率が超えている場合(ステップS103:YES)、決定部110は、対象ブロックを分割すると決定する。決定部110は、対象ブロックに対応するノードの分割確率を1と決定する(ステップS104)。決定部110は、1階層下の階層について、Zスキャン等の処理順で次のブロックを対象ブロックとする(ステップS105)。決定部110は、ステップS102に処理を戻す。
The
対象ブロックに対応するノードの四分木データ構造における階層が最深の階層である場合(ステップS102:YES)、決定部110は、ステップS106に処理を進める。分割確率の閾値を分割確率が超えていない場合(ステップS103:NO)、決定部110は、対象ブロックを分割しないと決定する。決定部110は、対象ブロックに対応するノードの分割確率を0と決定する(ステップS106)。
If the hierarchy in the quadtree data structure of the node corresponding to the target block is the deepest hierarchy (step S102: YES), the
決定部110は、CTUにおける全てのブロック(CU)について決定部110が分割又は非分割を決定したか否かを判定する(ステップS107)。CTUにおけるいずれかのブロック(CU)について決定部110が分割又は非分割を決定していない場合(ステップS107:NO)、決定部110は、処理順で次のブロックを対象ブロックとする(ステップS108)。決定部110は、ステップS102に処理を戻す。CTUにおける全てのブロック(CU)について決定部110が分割又は非分割を決定している場合(ステップS107:YES)、決定部110は、処理を終了する。
The
以上のように、第1実施形態の分割形状決定装置10は、学習部としての特徴抽出部100と、決定部110とを備える。分割確率を保持する複数のノードは、階層構造を成している。特徴抽出部100は、ノードの集合である学習モデルの学習パラメータwを、符号化対象画像を区切るブロックに対応付けられたノードの分割確率に応じて更新する。特徴抽出部100は、学習パラメータが更新された学習モデルの出力として得られた分割確率を、ノードに対応付けて出力する。決定部110は、ノードに対応付けて出力された分割確率に基づいて、ノードに対応付けられたブロックを分割するか否かを決定する。
As described above, the divided
これによって、第1実施形態の分割形状決定装置10は、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することが可能である。
As a result, the division
第1実施形態の特徴抽出部100は、ノードが保持している分割確率に応じて、ノードの下位のノードである子ノードの分割確率を参照するか否かを定める。第1実施形態の特徴抽出部100は、ノードが保持している分割確率が0である場合、学習パラメータを更新する際に子ノードの分割確率を参照しないと定める。第1実施形態の特徴抽出部100は、確率を保持する複数のノードが階層構造を成している学習モデルの学習パラメータを、ノードの確率が所定値である場合にノードの子ノードの確率に基づくことなく更新する。 The feature extraction unit 100 according to the first embodiment determines whether to refer to the division probability of a child node that is a subordinate node of the node, according to the division probability held by the node. When the division probability held by the node is 0, the feature extraction unit 100 of the first embodiment determines that the division probability of the child node is not referred to when updating the learning parameter. The feature extraction unit 100 according to the first embodiment uses the learning parameters of a learning model in which a plurality of nodes holding probabilities form a hierarchical structure to the probability of child nodes of the node when the probability of the nodes is a predetermined value. Update without being based.
一般的に、学習モデルは、CTUにおけるCUの全ての分割形状について学習モデルが正解ラベルを学習する場合、CUの分割形状の正解ラベルの数が膨大であるため、CUの分割形状を効率的に学習することができない。非特許文献1では、学習モデルは、ある程度まで効率的に学習することができる。しかしながら、非特許文献1の分割形状決定装置は、符号化処理の前にCUの分割形状を決定する処理において、複数の学習モデル(分割判定モデル)を直列に用いて原画から特徴量を抽出する処理を繰り返す。このため、非特許文献1では、原画から特徴量を抽出する処理の演算量が膨大になる。また、非特許文献1の学習モデルは、CTUにおける空間的位置の相関に基づいて、CUの分割形状を学習することができない。
Generally, when the learning model learns correct labels for all divided shapes of CU in CTU, the number of correct labels of divided shapes of CU is enormous, so the divided shapes of CUs can be efficiently used. I can not learn. In
これに対して、第1実施形態の分割形状決定装置10は、四分木データ構造のノードの分割確率を単一の学習モデルが学習するので、演算量が少なくても、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することができる。第1実施形態の分割形状決定装置10は、単一の学習モデルを用いてCUの分割形状を決定するので、わざわざ複数の学習モデルを直列に用いてCUの分割形状を決定しなくてもよい。第1実施形態の分割形状決定装置10は、単一の学習モデルを用いてCUの分割形状を決定するので、学習モデルの出力ユニットの数(要素数)を現実的な数に抑えることが可能である。第1実施形態の分割形状決定装置10は、輝度値等の特徴量を符号化対象画像から抽出するための演算量を削減することが可能である。第1実施形態の単一の学習モデルは、入力された画像の特徴量をまとめて抽出するので、CTUにおける空間的位置の相関に基づいて、CUの分割形状を学習することができる。第1実施形態の分割形状決定装置10は、単一の学習モデルを用いてCUの分割形状を決定するので、CTUにおける空間的位置の相関に基づいて、CUの分割形状を決定することが可能である。第1実施形態の分割形状決定装置10では、学習誤差に寄与しない正解ラベルの要素を学習モデルが学習の際に参照しないので、非分割を表す分割確率の親ノードの子ノードの分割確率は定義されなくてもよい。なお、分割確率が定義されなくても、子ノードは存在する。
On the other hand, since the single learning model learns the division probability of the nodes of the quadtree data structure in the division
(第2実施形態)
第2実施形態では、親ノードの分割確率が曖昧である場合に親ノードの子ノードの分割確率を分割形状決定装置10が評価する点が、第1実施形態と相違する。第2実施形態では、第1実施形態との相違点についてのみ説明する。
Second Embodiment
The second embodiment is different from the first embodiment in that the division
決定部110は、対象ブロックに対応付けられたノードの分割確率が曖昧(0.5を含む所定範囲内の値)である場合に、対象ブロックに対応付けられたノードの階層の1階層下の子ノードの分割確率と、所定の分割確率の閾値とを比較する。決定部110は、親ノードの複数の子ノードについて、分割確率の平均値、最大値又は最小値等を用いて、子ノードの分割確率と分割確率の閾値とを比較してもよい。決定部110は、複数の子ノードの分割確率の平均値、最大値又は最小値等のうちから、比較に用いる分割確率を選択してもよい。
When the division probability of the node associated with the target block is ambiguous (value within a predetermined range including 0.5), the
決定部110は、子ノードの分割確率が分割確率の閾値を超えている場合、子ノードの階層の1階層上の親ノードに対応付けられた対象ブロックを分割すると決定する。決定部110は、子ノードの分割確率が分割確率の閾値を超えていない場合、子ノードの階層の1階層上の親ノードに対応付けられた対象ブロックを分割しないと決定する。
When the division probability of the child node exceeds the threshold of the division probability, the
次に、分割形状決定装置10の動作の例を説明する。
図5は、分割形状決定装置10の動作の例を示すフローチャートである。ステップS201からステップS202までは、図4におけるステップS101からステップS102までと同様である。決定部110は、対象ブロックについて、分割確率が曖昧であるか否かを判定する。すなわち、決定部110は、対象ブロックについて、分割確率が0.5に近い値であるか否かを判定する(ステップS203)。分割確率が曖昧でない場合(ステップS203:NO)、決定部110は、ステップS04に処理を進める。ステップS204からステップS206までは、図4におけるステップS103からステップS105までと同様である。
Next, an example of the operation of the divided
FIG. 5 is a flowchart showing an example of the operation of the divided
分割確率が曖昧である場合(ステップS203:YES)、決定部110は、対象ブロックの階層の1階層下の子ノードの分割確率を取得する(ステップS207)。決定部110は、分割確率の閾値を子ノードの分割確率が超えているか否かを判定する(ステップS208)。分割確率の閾値を子ノードの分割確率が超えている場合(ステップS208:YES)、決定部110は、ステップS205に処理を進める。分割確率の閾値を子ノードの分割確率が超えていない場合(ステップS208:NO)、決定部110は、ステップS209に処理を進める。ステップS209からステップS211までは、図4におけるステップS106からステップS108までと同様である。
If the division probability is ambiguous (step S203: YES), the
以上のように、第2実施形態の決定部110は、ノードの下位のノードである子ノードが保持している分割確率に基づいて、ノードに対応付けられた分割するか否かを決定する。これによって、第2実施形態の分割形状決定装置10は、出力ラベルの分割確率が曖昧である場合に、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像を効率的に符号化するためのCUの分割形状を決定することが可能である。
As described above, the
第2実施形態の分割形状決定装置10は、1個のCTUを表す四分木データ構造の全ての階層の各ノードの分割確率を、学習モデルの出力ラベルyとして並列に得ることができる。第2実施形態の分割形状決定装置10は、四分木データ構造の全ての階層の各ノードの分割確率を並列に得ることができるので、対象ブロックに対応する親ノードの子ノードの分割確率を取得することができる。これによって、第2実施形態の分割形状決定装置10は、出力ラベルの分割確率が曖昧である場合でも、レート歪み最適化を実行することなく、確率の高い判定処理を実行することができる。
The split
(第3実施形態)
第3実施形態では、正解ラベルにおいて表されるノードの分割確率が3値以上の多値である点が、第1実施形態と相違する。第3実施形態では、第1実施形態との相違点についてのみ説明する。
Third Embodiment
The third embodiment is different from the first embodiment in that the division probability of the node represented in the correct answer label is a multivalue of three or more. In the third embodiment, only differences from the first embodiment will be described.
決定部110は、正解ラベルtに関して、ノードの分割確率が1である場合におけるレート歪みコスト関数Jの値と、ノードの分割確率が0である場合におけるレート歪みコスト関数Jの値との差を算出する。決定部110は、算出された差が所定のコスト閾値以上である場合、重み係数を所定の係数閾値以上にする。これによって、決定部110は、分割確率の閾値から遠い分割確率を正解ラベルtの要素に含めることが可能である。決定部110は、算出された差が所定のコスト閾値未満である場合、重み係数を所定の係数閾値未満にする。これによって、決定部110は、分割確率の閾値に近い分割確率を正解ラベルtの要素に含めることが可能である。
The
決定部110は、算出された差に応じた重み係数を用いて、正解ラベルtにおける各ノードの分割確率を変更する。このようにして、決定部110は、正解ラベルtにおいて表されるノードの分割確率を3値以上の多値にする。例えば、正解ラベルtにおいて表されるノードの分割確率は、0から1までの間で連続する値でもよい。
The
畳み込み層101及び畳み込み層103は、出力ラベルyと正解ラベルtとの誤差を表す誤差関数Eの値を算出する。誤差関数Eは、出力ラベルyと正解ラベルtとの平均二乗誤差等を用いて定義される。畳み込み層101及び畳み込み層103は、誤差関数Eの値が小さくなるよう、四分木データ構造の各層の学習パラメータwを誤差逆伝播法によって更新する。
The
以上のように、第3実施形態の分割確率は、3値以上で表現される確率である。これによって、第3実施形態の分割形状決定装置10は、CUの分割形状を決定するための演算量を少なくした場合でも、符号化対象画像をより効率的に符号化するためのCUの分割形状を決定することが可能である。
As mentioned above, the division | segmentation probability of 3rd Embodiment is a probability represented by three or more values. Thus, the division
第3実施形態の分割形状決定装置10は、正解ラベルを設計する場合、レート歪みコスト関数Jに応じた重み係数が乗算された多値である分割確率を、正解ラベルの要素に含める。これによって、第3実施形態の分割形状決定装置10は、CUの分割形状が符号化効率に与える影響を考慮してCUの分割形状を決定することが可能である。第3実施形態の分割形状決定装置10は、特徴量に基づく学習モデルにおける機械学習によって得られる出力とレート歪み最適化における全検索によって得られる出力との差を埋めることが可能である。
When designing the correct answer label, the divided
上述した実施形態における画像符号化装置、分割形状決定装置及び学習装置の少なくとも一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。 At least a part of the image coding device, the divided shape determination device, and the learning device in the embodiments described above may be realized by a computer. In that case, a program for realizing this function may be recorded in a computer readable recording medium, and the program recorded in the recording medium may be read and executed by a computer system. Here, the “computer system” includes an OS and hardware such as peripheral devices. The term "computer-readable recording medium" refers to a storage medium such as a flexible disk, a magneto-optical disk, a ROM, a portable medium such as a ROM or a CD-ROM, or a hard disk built in a computer system. Furthermore, “computer-readable recording medium” dynamically holds a program for a short time, like a communication line in the case of transmitting a program via a network such as the Internet or a communication line such as a telephone line. It may also include one that holds a program for a certain period of time, such as volatile memory in a computer system that becomes a server or a client in that case. Further, the program may be for realizing a part of the functions described above, or may be realized in combination with the program already recorded in the computer system. It may be realized using a programmable logic device such as an FPGA (Field Programmable Gate Array).
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design and the like within the scope of the present invention.
本発明は、画像を区切るブロックの分割形状を決定する分割形状決定装置、四分木データ構造で表現される汎用データを学習する学習装置、画像符号化装置に適用可能である。 The present invention is applicable to a division shape determination device that determines the division shape of a block that divides an image, a learning device that learns general-purpose data represented by a quadtree data structure, and an image coding device.
1…画像符号化装置、10…分割形状決定装置、11…減算器、12…直交変換・量子化部、13…可変長符号化部、14…逆量子化・逆直交変換部、15…加算器、16…ループフィルタ部、17…復号ピクチャメモリ、18…イントラ予測部、19…インター予測部、20…イントラ・インター切替スイッチ、100…特徴抽出部、101…畳み込み層、102…プーリング層、103…畳み込み層、104…プーリング層、105…全結合層、110…決定部
DESCRIPTION OF
Claims (8)
前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定する決定部と
を備える分割形状決定装置。 A plurality of nodes that hold a division probability, which is a probability related to division, form a hierarchical structure, and learning parameters of a learning model that is a set of nodes are associated with a block that divides a coding target image. A learning unit that updates according to the division probability, and outputs the division probability obtained as an output of the learning model with the learning parameter updated, in association with the node;
A determination unit that determines whether to divide a block associated with a node based on the division probability output in association with the node.
前記学習部は、前記ノードが保持している前記分割確率が0である場合、前記学習パラメータを更新する際に前記子ノードの前記分割確率を参照しないと定める、請求項2に記載の分割形状決定装置。 The hierarchical structure is a quadtree data structure,
The divided shape according to claim 2, wherein, when the division probability held by the node is 0, the learning unit determines not to refer to the division probability of the child node when updating the learning parameter. Decision device.
を備える学習装置。 The plurality of nodes holding the probability form a hierarchical structure, and the learning parameter of the learning model which is a set of the nodes is based on the probabilities of the child nodes of the node when the probability of the node is a predetermined value. A learning device provided with a learning unit that updates without updating.
分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、前記ブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力するステップと、
前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定するステップと
を有する分割形状決定方法。 A division shape determination method executed by a division shape determination device that determines a division shape of a block that divides an image to be encoded.
A plurality of nodes holding a division probability, which is a probability related to division, form a hierarchical structure, and learning parameters of a learning model which is a set of the nodes are determined according to the division probability of the node associated with the block. Outputting the division probability obtained as an output of the learning model in which the learning parameter is updated, in association with the node; and
Determining whether or not to divide the block associated with the node based on the division probability output in association with the node.
分割に関する確率である分割確率を保持する複数のノードが階層構造を成しており、前記ノードの集合である学習モデルの学習パラメータを、符号化対象画像を区切るブロックに対応付けられた前記ノードの前記分割確率に応じて更新し、前記学習パラメータが更新された前記学習モデルの出力として得られた前記分割確率を、前記ノードに対応付けて出力する手順と、
前記ノードに対応付けて出力された前記分割確率に基づいて、前記ノードに対応付けられたブロックを分割するか否かを決定する手順と
を実行させるための分割形状決定プログラム。 On the computer
A plurality of nodes that hold a division probability, which is a probability related to division, form a hierarchical structure, and learning parameters of a learning model that is a set of nodes are associated with a block that divides a coding target image. A procedure of updating according to the division probability and outputting the division probability obtained as an output of the learning model with the learning parameter updated, in association with the node;
A division shape determination program for executing the steps of determining whether to divide a block associated with a node based on the division probability output in association with the node.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017079585A JP6748022B2 (en) | 2017-04-13 | 2017-04-13 | Division shape determining apparatus, learning apparatus, division shape determining method, and division shape determining program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017079585A JP6748022B2 (en) | 2017-04-13 | 2017-04-13 | Division shape determining apparatus, learning apparatus, division shape determining method, and division shape determining program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018182531A true JP2018182531A (en) | 2018-11-15 |
JP6748022B2 JP6748022B2 (en) | 2020-08-26 |
Family
ID=64277256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017079585A Active JP6748022B2 (en) | 2017-04-13 | 2017-04-13 | Division shape determining apparatus, learning apparatus, division shape determining method, and division shape determining program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6748022B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109788296A (en) * | 2018-12-25 | 2019-05-21 | 中山大学 | Interframe encode dividing elements method, apparatus and storage medium for HEVC |
WO2022196400A1 (en) * | 2021-03-19 | 2022-09-22 | 公益財団法人実験動物中央研究所 | Excrement property estimation model training device, excrement property estimation device, excrement property estimation model training method, excrement property estimation method, and program |
US11695928B2 (en) | 2020-04-28 | 2023-07-04 | Canon Kabushiki Kaisha | Dividing pattern determination device capable of reducing amount of computation, dividing pattern determination method, learning device, learning method, and storage medium |
-
2017
- 2017-04-13 JP JP2017079585A patent/JP6748022B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109788296A (en) * | 2018-12-25 | 2019-05-21 | 中山大学 | Interframe encode dividing elements method, apparatus and storage medium for HEVC |
US11695928B2 (en) | 2020-04-28 | 2023-07-04 | Canon Kabushiki Kaisha | Dividing pattern determination device capable of reducing amount of computation, dividing pattern determination method, learning device, learning method, and storage medium |
WO2022196400A1 (en) * | 2021-03-19 | 2022-09-22 | 公益財団法人実験動物中央研究所 | Excrement property estimation model training device, excrement property estimation device, excrement property estimation model training method, excrement property estimation method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6748022B2 (en) | 2020-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6356912B2 (en) | Method and apparatus for performing graph-based prediction using an optimization function | |
TW201830972A (en) | Low-complexity sign prediction for video coding | |
KR102252816B1 (en) | Method and apparatus for determining depth of encoding unit | |
CN111868751A (en) | Using non-linear functions applied to quantization parameters in a machine learning model for video coding | |
KR20220070326A (en) | Predictive Frame Generation by Transformable Convolution for Video Coding | |
CN110383695B (en) | Method and apparatus for encoding and decoding digital image or video stream | |
CN110753225A (en) | Video compression method and device and terminal equipment | |
JP6748022B2 (en) | Division shape determining apparatus, learning apparatus, division shape determining method, and division shape determining program | |
Zhang et al. | Lossless image compression using a multi-scale progressive statistical model | |
CN107113426B (en) | Method and apparatus for performing graph-based transformations using generalized graph parameters | |
KR102605285B1 (en) | Method and device for encoding/decoding video signals using optimized transformation according to a multigraph-based model | |
CN113747163A (en) | Image coding and decoding method and compression method based on context reorganization modeling | |
CN113795869A (en) | Method and apparatus for quantization, adaptive block partitioning and codebook coding and decoding for neural network model compression | |
CN114071141A (en) | Image processing method and equipment | |
US20220101492A1 (en) | Method and apparatus for block-wise neural image compression with post filtering | |
JP5307681B2 (en) | Image coding structure automatic generation method, image coding structure automatic generation apparatus and program thereof | |
US10715802B2 (en) | Method for encoding/decoding video signal by using single optimized graph | |
CN117980914A (en) | Method for encoding, transmitting and decoding images or video in a lossy manner, and data processing system | |
JP6737700B2 (en) | Linear prediction coefficient output method, linear prediction coefficient output device, and linear prediction coefficient output program | |
US11503292B2 (en) | Method and apparatus for encoding/decoding video signal by using graph-based separable transform | |
JP2020061596A (en) | Difference detection device and difference detection program | |
JP2015035788A (en) | Image encoder, image encoding method, and program | |
JP2019205010A (en) | Encoding device, image interpolation system, and encoding program | |
WO2023248486A1 (en) | Information processing device and method | |
JP7075012B2 (en) | Image processing device, image processing method and image processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190628 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200623 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200804 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200806 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6748022 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |