JP2024002320A - Image encoding device, method, and program - Google Patents
Image encoding device, method, and program Download PDFInfo
- Publication number
- JP2024002320A JP2024002320A JP2022101437A JP2022101437A JP2024002320A JP 2024002320 A JP2024002320 A JP 2024002320A JP 2022101437 A JP2022101437 A JP 2022101437A JP 2022101437 A JP2022101437 A JP 2022101437A JP 2024002320 A JP2024002320 A JP 2024002320A
- Authority
- JP
- Japan
- Prior art keywords
- block
- geometric division
- division mode
- information
- geometric
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 73
- 238000011156 evaluation Methods 0.000 claims abstract description 5
- 230000033001 locomotion Effects 0.000 claims description 83
- 230000008569 process Effects 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 17
- 239000000470 constituent Substances 0.000 claims 3
- 238000012545 processing Methods 0.000 abstract description 63
- 238000000638 solvent extraction Methods 0.000 abstract description 16
- 238000012986 modification Methods 0.000 description 32
- 230000004048 modification Effects 0.000 description 32
- 239000013598 vector Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 238000010187 selection method Methods 0.000 description 14
- 238000010561 standard procedure Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 12
- 238000013139 quantization Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000007430 reference method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Abstract
Description
本発明は、幾何学的分割を適用する画像符号化装置、方法及びプログラムに関する。 The present invention relates to an image encoding device, method, and program that apply geometric division.
非特許文献1では、幾何学的分割と呼ばれる技術に関して、符号化装置において、符号化ブロックをあらかじめ定義されている方法で分割し、それぞれの領域においてマージ部で生成された動き情報を用いて予測符号化する技術が開示されている。ここで、動き情報とは動きベクトルと参照フレームを特定するインデックスを指す。 In Non-Patent Document 1, regarding a technique called geometric segmentation, an encoding device divides an encoded block using a predefined method, and predicts each region using motion information generated by a merging unit. A technique for encoding is disclosed. Here, motion information refers to a motion vector and an index that specifies a reference frame.
非特許文献1の幾何学的分割には、符号化処理量が多いという課題があった。 The geometric division in Non-Patent Document 1 has a problem in that it requires a large amount of encoding processing.
すなわち、非特許文献1では、幾何学的分割モードセットから、対象符号化ブロックに適用する幾何学的分割モードを1つ決定する。ここで幾何学的分割モードは、分割境界(対象符号化ブロックを2つの領域に分割する線)と、予測符号化に用いる2つの動き情報と、から構成される情報である。また幾何学的分割モードセットは、幾何学的分割モードを要素とする集合である。幾何学的分割モードセットから、レート歪コスト(ビットレートRと歪みDによるコスト関数J=D+λR等によるコスト)を最小とする幾何学的分割モードを選択するため、幾何学的分割モードセットの要素数が多い場合、非常に多くの符号化処理量を要するという課題が存在する。 That is, in Non-Patent Document 1, one geometric division mode to be applied to the target encoding block is determined from the geometric division mode set. Here, the geometric division mode is information composed of a division boundary (a line that divides the target encoding block into two regions) and two pieces of motion information used for predictive encoding. Moreover, the geometric division mode set is a set whose elements are geometric division modes. In order to select the geometric partitioning mode that minimizes the rate-distortion cost (cost by the cost function J=D+λR etc. due to bit rate R and distortion D) from the geometric partitioning mode set, the geometric partitioning mode set is When the number of elements is large, there is a problem that a very large amount of encoding processing is required.
上記従来技術の課題に鑑み、本発明は、品質を確保しながら符号化処理量を抑制することのできる画像符号化装置、方法及びプログラムを提供することを目的とする。 In view of the above problems of the prior art, an object of the present invention is to provide an image encoding device, method, and program that can suppress the amount of encoding processing while ensuring quality.
上記目的を達成するため、本発明は、ブロック単位での予測を適用することで映像を符号化する画像符号化装置において、予測モードとしてインター予測及び幾何学的分割が適用される符号化対象ブロックを扱う場合に、当該符号化対象ブロックに関する情報である符号化対象ブロック情報を抽出し、当該符号化対象ブロック情報に基づいて、前記幾何学的分割において予め定義される幾何学的分割モードセットの全体から選別した部分セットのみを、当該符号化対象ブロックにインター予測及び幾何学的分割を適用したうえで符号化するために用いる評価対象とすることを第1の特徴とする。また、ブロック単位での予測を適用することで映像を符号化する画像符号化装置において、予測モードとしてインター予測及び幾何学的分割が適用される符号化対象ブロックを扱う場合に、前記幾何学的分割において予め定義される幾何学的分割モードセットの全体から選別した部分セットのみを、当該符号化対象ブロックにインター予測及び幾何学的分割を適用したうえで符号化するために用い、前記幾何学的分割モードセットの全体を構成する幾何的分割モード候補と動き情報候補の組み合わせのうち、幾何学的分割モード候補の全体として予め定義される分割線分の角度及びブロック中心からの距離の組み合わせに関して、当該組み合わせの一部分のみを用いることで、前記部分セットを決定することを第2の特徴とする。また当該装置に対応する方法及びプログラムであることを特徴とする。 In order to achieve the above object, the present invention provides an image encoding device that encodes a video by applying prediction in units of blocks. When handling the encoding target block, the encoding target block information, which is information about the encoding target block, is extracted, and based on the encoding target block information, the geometric division mode set predefined in the geometric division is set. The first feature is that only a partial set selected from the entire block is used as an evaluation target for encoding after applying inter prediction and geometric division to the encoding target block. In addition, in an image encoding device that encodes video by applying prediction in units of blocks, when dealing with a block to be encoded to which inter prediction and geometric division are applied as prediction modes, the geometric Only a partial set selected from the entire geometric division mode set predefined in the division is used for encoding after applying inter prediction and geometric division to the block to be encoded, and Among the combinations of geometric division mode candidates and motion information candidates that make up the entire geometric division mode set, regarding the combination of the angle and distance from the block center of the division line segment that is predefined as the entire geometric division mode candidate. , the second feature is that the partial set is determined by using only a part of the combination. Further, the present invention is characterized in that it is a method and a program compatible with the device.
前記第1の特徴によれば、当該符号化対象ブロック情報に基づいて、前記幾何学的分割において予め定義される幾何学的分割モードセットの全体から選別した部分セットのみを、当該符号化対象ブロックにインター予測及び幾何学的分割を適用したうえで符号化するために用いる評価対象とすることにより、品質を確保しながら符号化処理量を抑制することができる。前記第2の特徴によれば、幾何学的分割モードセットの全体を構成する幾何的分割モード候補と動き情報候補の組み合わせのうち、幾何学的分割モード候補の全体として予め定義される分割線分の角度及びブロック中心からの距離の組み合わせに関して、当該組み合わせの一部分のみを用いることで、同様に、品質を確保しながら符号化処理量を抑制することができる。 According to the first feature, based on the information on the current block to be encoded, only a partial set selected from the entire geometric division mode set predefined in the geometric division is used for the block to be encoded. By applying inter prediction and geometric division to the image and then using it as an evaluation target for encoding, it is possible to suppress the amount of encoding processing while ensuring quality. According to the second feature, among the combinations of geometric division mode candidates and motion information candidates that constitute the entire geometric division mode set, the dividing line segment is defined in advance as the entire geometric division mode candidate. By using only a part of the combination of angle and distance from the block center, it is possible to similarly suppress the amount of encoding processing while ensuring quality.
以下、本発明の種々の実施形態について、図面を参照しながら説明する。なお、以下の実施形態における構成要素は、適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、以下の実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。 Various embodiments of the present invention will be described below with reference to the drawings. Note that the components in the following embodiments can be replaced with existing components as appropriate, and various variations including combinations with other existing components are possible. Therefore, the content of the invention described in the claims is not limited to the following description of the embodiments.
(第1実施形態…符号化ブロックの大きさを用いた幾何学的分割の符号化処理量削減方式)
以下、図1~図8を参照して、本発明の第1実施形態に係る画像処理システム10について説明する。図1は、本実施形態に係る画像処理システム10を示す図である。
(First embodiment: encoding processing amount reduction method of geometric division using encoding block size)
An
(画像処理システム10)
図1に示すように、画像処理システム10は、画像符号化装置100及び画像復号装置200を有する。画像符号化装置100は、入力画像信号を符号化することによって符号化データを生成するように構成されている。画像復号装置200は、符号化データを復号することによって出力画像信号を生成するように構成されている。ここで、符号化データは、画像符号化装置100から画像復号装置200に対して伝送路を介して送信されてもよい。また、符号化データは、画像符号化装置100において生成されて記憶媒体に格納された上で、記憶媒体からこの符号化データを読み込むことで画像復号装置200に提供されてもよい。
(Image processing system 10)
As shown in FIG. 1, the
(画像符号化装置100)
以下、図2を参照して、本実施形態に係る画像符号化装置100を説明する。図2は、本実施形態に係る画像符号化装置100の機能ブロックの一例を示す図である。画像符号化装置100は、インター予測部111と、イントラ予測部112と、減算器121と、加算器122と、変換・量子化部131と、逆変換・逆量子化部132と、符号化部140と、インループフィルタ処理部150と、フレームバッファ160とブロック分割部170とを備える。
(Image encoding device 100)
The
インター予測部111は、インター予測(フレーム間予測)によって符号化対象信号に対応する予測画素を生成するように構成されている。具体的には、インター予測部111は、符号化対象のフレーム(以下、対象フレーム)とフレームバッファ160に格納される参照フレーム(既に符号化済みのフレーム(フレームの一部分でもよい)が逆変換部・逆量子化部132以降の処理で再構成されたフレームとしての参照フレーム)との比較によって、参照フレームに含まれる参照ブロックを特定し、対応する動きベクトル(MV:Motion Vector)を決定する。また、インター予測部111は、参照ブロック及び動きベクトルに基づいて符号化対象のブロック(以下、対象ブロック)毎に予測画素を生成する。インター予測部111は、予測画素を減算器121及び加算器122に出力する。
The
イントラ予測部112は、イントラ予測(フレーム内予測)によって符号化対象信号に対応する予測画素を生成するように構成されている。具体的には、イントラ予測部112は、対象フレームに含まれる参照ブロックを特定し、参照ブロックに基づいて対象ブロック毎に予測画素を生成する。イントラ予測部112は、予測画素を減算器121及び加算器122に出力する。参照ブロックは、例えば、対象ブロックに隣接するブロックである。
The
減算器121は、入力画像信号から予測画素(インター予測部111またはイントラ予測部112によって予測された予測画素)を減算して予測残差信号を生成し、予測残差信号を変換・量子化部131に出力するように構成されている。
The
加算器122は、逆変換・逆量子化部132から出力される予測残差信号に予測画素(インター予測部111またはイントラ予測部112によって予測された予測画素)を加算してフィルタ処理前復号信号を生成し、フィルタ処理前復号信号をイントラ予測部112及びインループフィルタ処理部150に出力するように構成されている。
The
変換・量子化部131は、減算器121から出力される予測残差信号を変換処理と量子化処理して量子化後レベル値を生成し、量子化後レベル値を逆変換・逆量子化部132及び符号化部140に出力するように構成されている。変換処理は、予測残差信号を周波数成分信号に変換する処理である。かかる変換処理では、離散コサイン変換(DCT:Discrete Cosine Transform)に対応する基底パタン(変換行列)が用いられてもよく、離散サイン変換(DST:Discrete Sine Transform)に対応する基底パタン(変換行列)が用いられてもよい。変換処理を行わなくてもよい。
The conversion/
逆変換・逆量子化部132は、量子化後レベル値を逆量子化処理と逆変換処理して予測残差信号を生成し、加算部122に出力するように構成されている。
The inverse transformation/
符号化部140は、変換・量子化部131から出力された量子化後レベル値を符号化し、符号化データを出力するように構成されている。符号化は、量子化後レベル値の発生確率に基づいて異なる長さの符号語を割り当てるエントロピー符号化である。また、符号化部140は、画像復号装置200における復号処理で用いる制御データを符号化し、符号化データを出力するように構成されている。ここで、制御データとは、ブロックの分割モードや予測モードや動き情報などを画像復号装置200が特定するための付加情報である。これらは図面簡素化の観点から図示することを省略しているが、符号化装置100の各機能ブロックから出力される。たとえば、ブロックの分割モードはブロック分割部170から出力され、イントラ予測モードはイントラ予測部112から出力され、インター予測モードや動き情報はインター予測部111から出力される。図示していない制御部によって、各機能ブロックで出力される複数の制御データの候補から単一の制御データが特定される。特定方法としてレート歪コストを最小化する制御データを選択しても良い。
The
インループフィルタ処理部150は、フィルタ処理前復号信号をフィルタ処理し、フィルタ処理後復号信号(再構成画像信号又は参照フレーム、なお、参照フレームは再構成画像信号のうち、インター予測部111で他のフレームの予測符号化に用いられるものを指す)を生成し、フレームバッファ160に出力するように構成されている。フィルタ処理は、符号化ブロック又は予測ブロック又は変換ブロックの境界部分で生じる歪みを減少するデブロッキングフィルタ処理や、画像符号化装置100から伝送されるフィルタ係数やフィルタ選択情報や画像の絵柄の局所的な性質等に基づいてフィルタを切り替える適応ループフィルタ処理である。
The in-loop
フレームバッファ160は、フィルタ処理後復号信号を蓄積し、インター予測部111に参照フレームとして出力するように構成されている。
ブロック分割部170は、対象フレームをお互いに重複しない正方形または長方形から成るブロックに分割し、ブロック毎に符号化対象信号をインター予測器111及びイントラ予測器112に出力するように構成されている。ここでブロックの分割方法は例えばインター予測部111とイントラ予測部112で別にしてもよいし、輝度信号と色差信号で別にしてもよい。またブロックの分割には縦と横の長さを半分にする四分割、縦または横の長さを半分にする二分割、縦または横の長さを1:2:1にする三分割のいずれかを用いてもよい。
The
(対象符号化ブロックの大きさを用いた幾何学的分割モード候補選択方法(以下、基準手法))
(インター予測部111)
図3~図8を用いて、本実施形態に係るインター予測部111を説明する。図3は本実施形態に係るインター予測部111の機能ブロックの一例である。図3のインター予測部111はマージ部1111、符号化ブロック情報抽出部1112、幾何学的分割モード候補選択部1113、予測画素生成部1114を備えるものとして構成される。
(Geometric division mode candidate selection method using the size of the target coding block (hereinafter referred to as the standard method))
(Inter prediction unit 111)
The
なお、図3のインター予測部111は、符号化ブロックにインター予測が適用され、且つ、符号化ブロック全体にインター予測を適用するのではなく、幾何学的分割を適用したうえでの分割部分ごとにインター予測を適用する場合の処理を行う構成である。(前述のように、当該符号化ブロックにインター予測を適用するか否か、インター予測を適用したうえでさらに幾何学的分割の手法を適用するか否かの判断は、画像符号化装置100に備わる不図示の制御部が任意の手法を用いて別途に行うことができる。)
Note that the
マージ部1111は、対象符号化ブロックに対して時空間上の隣接位置(隣接ブロック)の動き情報から対象ブロックの動き情報を複数導出し、動き情報を出力する。
The merging
マージ部1111では、マージモードの手法を用いることで、符号化済みの隣接ブロックに対して既に決定されている動き情報から、対象符号化ブロックに適用すべき動き情報の候補としての動き情報を複数導出し、符号化ブロック情報抽出部1112へと出力することができる。(なお、この符号化済みの隣接ブロックに対して既に決定されている動き情報の各々には、一つの動き情報として一組の動きベクトル、参照フレームを特定するインデックス(以下参照インデックス)を含む場合と、二組の動きベクトル、参照インデックスを含む場合がある。具体的には、空間的・時間的に隣接する領域が含まれる符号化ブロックにて参照フレームを1つ用いる片予測が適用された場合は一組の動きベクトルと参照インデックス、参照フレームを2つ用いる双予測が適用された場合または幾何学的分割が適用された場合は二組の動きベクトルと参照インデックスが含まれる。なお、空間的・時間的に隣接する領域に幾何学的分割が適用されている場合、幾何学的分割によるブロック分割に基づいて、当該の隣接領域の予測符号化に用いる一組の動きベクトルと参照インデックスのみを取得することとしても良い。)
By using a merge mode technique, the merging
符号化ブロック情報抽出部1112は、対象符号化ブロックの大きさを抽出し、符号化ブロック情報を幾何学的分割モード候補選択部1113へと出力する。ここで、符号化ブロック情報は、例えば、(1)対象符号化ブロックの短辺の長さ、(2)長辺の長さ、または(3)対象符号化ブロックの画素数の全部または任意の一部(1つまたは2つ)として与えることができる。
Encoding block
幾何学的分割モード候補選択部1113は、符号化ブロック情報をもとに、幾何学的分割モードセットの中から、複数の幾何学的分割モード候補を選択し、それら幾何学的分割モード候補を出力する。図4は幾何学的分割の説明例である。本実施例では、分割境界の例として、図5に示す角度パターンと距離パターンの組み合わせとして表現する。
The geometric division mode
図4では、符号化対象のフレームF内の対象符号化ブロックBLに適用する幾何学的分割(複数の分割候補のうちの1つ)の例として、対象符号化ブロックBLを直線の分割境界DBによって第1部分PA及び第2部分PBに分割することが示されている。なお、第1部分PAについては第1動きベクトルMVAが、第2部分PBについては第2動きベクトルMVBが、コストを最適化するものとして後段側の予測画素生成部1114において、マージ部1111で与えられた候補の動き情報の中から探索される対象となる。これら動きベクトルMVA,MVBは分割境界DBによって幾何学的分割された部分PA,PBごとの動きベクトルMV=(MVA,MVB)を構成する。ここで、動きベクトルMVAは第1部分PAの参照先として参照フレームFA内のブロックBLAを指し示しており、動きベクトルMVBは第2部分PBの参照先として参照フレームFB内のブロックBLBを指し示している。
In FIG. 4, as an example of geometric division (one of multiple division candidates) applied to the target encoded block BL in the frame F to be encoded, the target encoded block BL is divided into a straight line division boundary DB It is shown that it is divided into a first part PA and a second part PB. Note that the first motion vector MVA for the first portion PA and the second motion vector MVB for the second portion PB are given by the merging
図5では、図4に1つの場合の分割境界DBを示した分割境界の(全)候補である幾何学的分割モードセットが、角度パラメータφ及び距離(オフセット)パラメータρの組み合わせ(φ,ρ)によって与えられることが示されている。 In Fig. 5, the geometric partitioning mode set, which is (all) candidates for the partitioning boundary whose partitioning boundary DB is shown in one case in Fig. 4, is a combination of angle parameter φ and distance (offset) parameter ρ (φ, ρ ) is shown to be given by
角度パラメータφは、分割境界DBの直線がブロックに対してなす角度を与えるものであり、ブロック中心から水平右に向かう方向をφ=0°=φ1として、図示するようにこの角度が増える順番でφ={φ1,φ2,φ3,…,φ20}のように例えば20通りの候補を用意しておくことができる。これらの角度φの各々について、tanφの取りうる値が例えば以下となるように、20通りの角度φの各々を定めておくことができる。
tanφ=0, ±1/4, ±1/2, ±1, ±2, ±∞
The angle parameter φ gives the angle that the straight line of the division boundary DB makes with the block, and the direction from the center of the block to the horizontal right is φ=0°=φ1, and the angle increases in the order shown in the figure. For example, 20 candidates can be prepared such as φ={φ1, φ2, φ3,..., φ20}. For each of these angles φ, 20 different angles φ can be determined so that the possible values of tanφ are, for example, as follows.
tanφ=0, ±1/4, ±1/2, ±1, ±2, ±∞
距離(オフセット)パラメータρは、分割境界DBの直線のブロック中心からの変位(角度パラメータφで与えられる向きへの変位(φ+90°の方向への平行移動))を与えるものであり、各角度φに対してそれぞれ距離パラメータρ={ρ1, ρ2, ρ3, ρ4}のように中心に近い順から4通りの距離パラメータ候補を定めておくことができる。(ρ=ρ1はブロック中心に最も近く、ブロック中心を分割境界DBが通る場合に該当し、ρ=ρ4がブロック中心から最も遠い場合に該当し、向きφの直線に対する水平移動として、φ+90°の方向にブロック中心から直線を距離パラメータρだけ水平移動させることで、距離パラメータρごとの分割境界DBを構成する。) The distance (offset) parameter ρ gives the displacement of the straight line of the division boundary DB from the block center (displacement in the direction given by the angle parameter φ (parallel movement in the direction of φ + 90°)), and each For each angle φ, four distance parameter candidates can be determined in order of distance parameter ρ={ρ1, ρ2, ρ3, ρ4}, starting from the distance closest to the center. (ρ=ρ1 is the closest to the block center and corresponds to the case where the division boundary DB passes through the block center, and ρ=ρ4 corresponds to the farthest from the block center. As a horizontal movement with respect to the straight line in the direction φ, φ+90 By horizontally moving a straight line from the block center in the direction of ° by the distance parameter ρ, a division boundary DB for each distance parameter ρ is constructed.)
図5では角度パラメータφ=φ3,φ9,φ13,φ19=45°,135°,225°,315°の場合について当該角度φの向きにおいてブロック中心からの距離として共通に定義される距離パラメータρ={ρ1, ρ2, ρ3, ρ4}が示されている。 In FIG. 5, for the case of angle parameters φ=φ3, φ9, φ13, φ19=45°, 135°, 225°, 315°, the distance parameter ρ= commonly defined as the distance from the block center in the direction of the angle φ {ρ1, ρ2, ρ3, ρ4} are shown.
図4,5に模式的に示されるように、幾何学的分割を適用する場合、探索対象となる組み合わせ全体(幾何学的分割モード「セット」の全体)は例えば以下の通りの「分割境界」候補数と「動き情報」候補数との乗算で64*30=1920通り等となり、膨大な数となる。なお、1つの動き情報の中に二組の動きベクトルと参照フレームを特定するインデックスが存在する場合、所定の方法で二組の動きベクトルと参照フレームを特定するインデックスのうちどちらを使用するか決定する。具体的には、例えば非特許文献1に記載の方法で決定することができる。
分割境界…64通り
(図5の20×4=80通りから同一分割境界と、ブロック分割部170の四分割・二分割・三分割と同一の分割をする分割境界と、を除いた64通りとなる。)
動き情報の候補…30通り
(マージ部1111では、符号化済みの時空間的に隣接する領域で、予測符号化時に適用された動き情報のなかから、6つの動き情報を取得できる。幾何学的分割ではこの6通りから、対象符号化ブロックを分割した後の二つの領域に適用する動き情報を選択できる。二つの領域に適用する動き情報は同じものを選べないため、二つの領域の動き情報の組み合わせの数は6P2=30通りとなる。)
As schematically shown in Figures 4 and 5, when applying geometric division, the entire combination to be searched (the entire geometric division mode "set") is the "division boundary" as shown below. Multiplying the number of candidates by the number of "motion information" candidates yields 64*30=1920, which is a huge number. In addition, if there are two sets of motion vectors and an index specifying a reference frame in one motion information, it is determined which of the two sets of motion vectors and an index specifying the reference frame to use using a predetermined method. do. Specifically, it can be determined, for example, by the method described in Non-Patent Document 1.
Division boundary... 64 ways (64 ways excluding the same division boundary and the division boundary that divides the block into four, two, and three in the same way as the 20×4=80 ways in FIG. 5) Become.)
Candidates for motion information...30 types (The merging
本実施形態の幾何学的分割モード候補選択部1113は、後述する各手法によって上記膨大な候補から予め絞り込みを行う(幾何学的分割モードについて全候補の中から絞り込みを行う)ことで、計算量の低減に寄与することができる。
The geometric division mode
図3の説明に戻り、予測画素生成部1114は、幾何学的分割モード候補選択部1113で選択した複数の幾何学的分割モード候補を用いて、予測画素を生成する。ここで予測画素は二つの参照フレームの各々のブロックの重み付き平均によって生成してもよい。分割境界に応じて重みを決定してもよい。
Returning to the explanation of FIG. 3, the predicted
なお、予測画素生成部1114では幾何学的分割モード候補選択部1113によって低減された候補のそれぞれについて予測画素を生成してインター予測部111の出力となす。前述のように、幾何学的分割モードの低減された候補の中から実際にどの1つの幾何学的分割モードが符号化に利用されるかは、画像符号化装置100に備わる不図示の制御部により、レート歪コストを最小するものとして決定することができる。
Note that the predicted
本実施形態のインター予測部111のうち、符号化ブロック情報抽出部1112と、幾何学的分割モード候補選択部1113と予測画素生成部1114で実行される幾何学的分割モード候補の選択および予測信号の生成フローについて図6を用いて説明する。
Selection of geometric division mode candidates and prediction signals performed by the encoded block
ステップS1では、画像符号化装置100の設定で、対象符号化ブロックに対して幾何学的分割が有効であるかを判定する。有効である場合ステップS2に進み、無効である場合は本処理を終了する。(なお、無効である場合は、当該対象符号化ブロックについては、適用されている幾何学的分割以外の予測符号化方式により符号化が行われることとなる。)
In step S1, it is determined in the settings of the
ステップS2では、対象符号化ブロックの大きさを抽出する。前述のように、対象符号化ブロックの大きさとして、短辺の長さ、長辺の長さ、画素数の全てまたは一部を用いてよい。 In step S2, the size of the target encoding block is extracted. As described above, all or part of the length of the short side, the length of the long side, and the number of pixels may be used as the size of the target encoding block.
ステップS3では、対象符号化ブロックの大きさに基づいて、幾何学的分割モードセットの全体から候補として絞り込んだものとして、複数の幾何学的分割モード候補を選択する。 In step S3, a plurality of geometric division mode candidates are selected as candidates narrowed down from the entire geometric division mode set based on the size of the target encoding block.
ステップS4では、幾何学的分割モード候補を用いて、予測画素の生成を行い、図6のフローを終了する。 In step S4, predicted pixels are generated using the geometric division mode candidates, and the flow of FIG. 6 ends.
以下、ステップS3の選択処理の詳細について説明する。 Details of the selection process in step S3 will be described below.
この選択処理では、対象符号化ブロックの短辺の長さまたは長辺の長さまたは面積(画素数でもよい)に対してあらかじめ定めた閾値を用いてもよく、具体的に、以下の各手法1~5を利用できる。 In this selection process, a predetermined threshold value may be used for the short side length or long side length or area (the number of pixels may be used) of the target encoding block. 1 to 5 can be used.
<手法1…長辺が短いと判定される場合の候補数を低減>
例えば、対象符号化ブロックの長辺の大きさが閾値以下である場合の候補数が、閾値よりも大きい場合の候補数よりも少なくなるように、幾何学的分割モード候補を選択してもよい。具体的には、閾値以下である場合は幾何学的分割モードセットから複数の幾何学的分割モード候補を選択し、閾値より大きい場合は幾何学的分割モードセット全てを幾何学的分割モード候補としてもよい。
<Method 1...Reducing the number of candidates when the long side is determined to be short>
For example, geometric division mode candidates may be selected such that the number of candidates when the size of the long side of the target encoding block is less than or equal to a threshold is smaller than the number of candidates when the size of the long side of the target encoding block is larger than the threshold. . Specifically, if it is less than the threshold, multiple geometric division mode candidates are selected from the geometric division mode set, and if it is greater than the threshold, all the geometric division mode sets are selected as geometric division mode candidates. Good too.
この理由を述べる。対象符号化ブロックが小さい場合、分割境界のパターンが少なくても、ブロック内の被写体や前景および背景の境界を、限定的な分割パターンに適合させることができ、符号化性能を保ちつつも、符号化処理量を削減できると期待できる。閾値は任意の値に設定してよく、長辺の長さに対して16画素としてもよい。 I will explain the reason for this. When the target encoding block is small, even if there are few division boundary patterns, the subject, foreground, and background boundaries in the block can be adapted to the limited division pattern, and the encoding performance is maintained while the encoding performance is maintained. It is expected that the amount of processing will be reduced. The threshold value may be set to an arbitrary value, and may be set to 16 pixels with respect to the length of the long side.
<手法2…短辺が長いと判定される場合の候補数を低減>
例えば、対象符号化ブロックの短辺の大きさが閾値以上である場合の候補数が、閾値よりも小さい場合の候補数よりも少なくなるように、幾何学的分割モード候補を選択してもよい。具体的には、閾値以上である場合は幾何学的分割モードセットから複数の幾何学的分割モード候補を選択し、閾値より小さい場合は幾何学的分割モードセット全てを幾何学的分割モード候補としてもよい。
<
For example, geometric division mode candidates may be selected such that the number of candidates when the size of the short side of the target coded block is equal to or larger than a threshold is smaller than the number of candidates when the size is smaller than the threshold. . Specifically, if it is greater than or equal to the threshold, multiple geometric division mode candidates are selected from the geometric division mode set, and if it is smaller than the threshold, all the geometric division mode sets are selected as geometric division mode candidates. Good too.
この理由を述べる。対象符号化ブロックが大きい場合、小さいときと比較して、ブロック内の被写体や前景・背景の境界が複数の直線で構成されやすい。また、そのブロック内の境界が1種類の直線で構成される場合であっても、ブロックサイズが大きい場合は幾何学的分割モードの各分割境界でブロック内の境界を正確に適合させにくい。よって、幾何学的分割モードを構成する角度と距離のパターンから類似するパターンを一定数削減しても、幾何学的分割によるブロック内の境界を考慮した予測精度は著しく低下せず、一方で幾何学的分割モードを選択するための符号化処理量を大幅に削減できる効果が期待できる。なお、閾値は任意の値に設定してよく、短辺の長さに対して32画素としてもよい。 The reason for this will be explained. When the target encoding block is large, the boundaries between the subject and the foreground/background within the block are more likely to be composed of a plurality of straight lines than when the block is small. Furthermore, even if the boundaries within the block are composed of one type of straight line, if the block size is large, it is difficult to accurately fit the boundaries within the block at each division boundary in the geometric division mode. Therefore, even if a certain number of similar patterns are reduced from the angle and distance patterns constituting the geometric division mode, the prediction accuracy considering the boundaries within the block due to geometric division does not drop significantly; This can be expected to have the effect of significantly reducing the amount of encoding processing required to select the logical division mode. Note that the threshold value may be set to an arbitrary value, and may be set to 32 pixels with respect to the length of the short side.
<手法3…面積または画素数が小さいと判定される場合の候補数を低減>
また、幾何学的分割モード候補を選択するために、前述した長辺または短辺の大きさの代わりに、対象符号化ブロックの面積を閾値処理してもよい。閾値以下であれば、閾値より大きい場合の候補数よりも少なくなるように、幾何学的分割モード候補を選択してもよい。対象符号化ブロックの面積は、例えば対象符号化ブロックの画素数を用いてもよい。また閾値は任意の値にしてもよく、1024画素としてもよい。
<
Furthermore, in order to select a geometric division mode candidate, the area of the target coding block may be subjected to threshold processing instead of the above-described size of the long side or the short side. If the number is less than or equal to the threshold, geometric division mode candidates may be selected so that the number of candidates is smaller than the number of candidates when the number is greater than the threshold. For example, the number of pixels of the target encoding block may be used as the area of the target encoding block. Further, the threshold value may be set to an arbitrary value, and may be set to 1024 pixels.
<手法4…細長いと判定される場合の候補数を低減>
この選択処理では、対象符号化ブロックの短辺の長さと長辺の長さとの比率(アスペクト比)に対してあらかじめ定めた閾値を用いてもよい。例えば、長辺の長さを短辺の長さで除算した結果が閾値以上である場合の候補数が、閾値よりも小さい場合の候補数よりも少なくなるように、幾何学的分割モード候補を選択してもよい。
<
In this selection process, a predetermined threshold value may be used for the ratio (aspect ratio) between the length of the short side and the length of the long side of the target encoding block. For example, set geometric division mode candidates so that the number of candidates when the long side length divided by the short side length is greater than or equal to the threshold is smaller than the number of candidates when the result is smaller than the threshold. You may choose.
この理由を述べる。対象符号化ブロックが細長いときに、正方形のときと同じ角度のパターンや距離のパターンの組み合わせで分割境界を構成した場合、類似した分割境界パターンが複数存在する。(例えば、横方向に細長い場合、図5の角度φ={φ5,φ6,φ7, φ15,φ16,φ17}(tanφ=±∞の近傍角度φ)等は、互いにほとんど同じ分割境界パターンになることが想定される。)類似したパターンを削減することで、符号化性能を保ちつつも、符号化処理量を削減できると期待できる。なお、閾値は任意の値に設定してよく、長辺の長さを短辺の長さで除算した結果に対して2としてもよい。 The reason for this will be explained. When the target encoding block is long and narrow, if the division boundary is configured with the same combination of angle patterns and distance patterns as in the case of a square block, a plurality of similar division boundary patterns will exist. (For example, if it is elongated in the horizontal direction, the angles φ={φ5, φ6, φ7, φ15, φ16, φ17} (near angle φ of tanφ=±∞) in Figure 5 will result in almost the same dividing boundary pattern. ) By reducing similar patterns, it is expected that the amount of encoding processing can be reduced while maintaining encoding performance. Note that the threshold value may be set to an arbitrary value, and may be set to 2 for the result of dividing the length of the long side by the length of the short side.
<手法5…幾何学的分割モードセットに対する間引き>
この選択処理では、幾何学的分割モードセットから、角度パターン及び距離パターンに対してあらかじめ定めたパターン(全パターンが網羅された状態から間引いたパターン)の幾何学的分割モードを選択してもよい。
<
In this selection process, a geometric division mode of a predetermined pattern (a pattern thinned out from a state in which all patterns are covered) may be selected for the angle pattern and the distance pattern from the geometric division mode set. .
<手法5の実装例その1>
例えば、図7に示すように、角度φの全20通りの中から間引かれた{0°,45°,90°,135°,180°,225°,270°,315°}の8通りのみを用いるようにし、且つ/又は、距離ρの全4通りの中から半分に間引かれた、中心から2番目に近い分割境界と4番目に近い分割境界{ρ2,ρ4}の2通りのみを用いるようにしてもよい。
<Implementation example 1 of
For example, as shown in Figure 7, 8 angles {0°, 45°, 90°, 135°, 180°, 225°, 270°, 315°} are thinned out from a total of 20 angles φ. and/or thinned out in half from all four ways of distance ρ, with only two ways: the second closest dividing boundary and the fourth closest dividing boundary {ρ2,ρ4} from the center. You may also use
なお、図7では、図5の例を前提として、角度φを8通りに間引いたものと、距離ρのパターンを角度φ=45°,90°の場合について2通り{ρ2,ρ4}に間引いたものの例が示されている。 In addition, in Figure 7, based on the example in Figure 5, the angle φ is thinned out in 8 ways, and the distance ρ pattern is thinned out in 2 ways {ρ2, ρ4} for angles φ=45° and 90°. Examples are shown.
この理由を述べる。一般に映像を撮影する際には、カメラを地面に対して水平・垂直にすることが多い。そのため映像内の人工物などの被写体の境界の多くは、対象ブロックに水平または垂直で存在すると考えられる。ここで分割境界の角度パターンを水平・垂直のみすることが考えられるが、水平・垂直でない境界に整合できず、予測精度が低下することが考えられる。したがって、角度パターンを水平・垂直とそれらの中間の角度である45°,135°,225°,315°を用いる。また角度パターンが水平または垂直で、中心を通る距離のパターンを用いる幾何学的分割モードは、ブロック分割部170で二分割をしたあとそれぞれのブロックで予測符号化することと同じ処理になるため、処理の重複を避けるために幾何学的分割モードセットに存在しない。(すなわち、前述のように、幾何学的分割モードセットは重複を避けて定義されている。)したがって、距離パターンを中心から2番目に近いものと4番目にすることで、分割境界を空間的に偏りなく削減することができる。これにより、符号化性能を保ちつつも符号化処理量を削減できると期待できる。
I will explain the reason for this. Generally, when shooting video, the camera is often held horizontally or vertically to the ground. Therefore, many boundaries of objects such as artificial objects in the video are considered to exist horizontally or vertically to the target block. Here, it is conceivable to make the angle pattern of the division boundary only horizontal and vertical, but it is conceivable that it will not be able to match boundaries that are not horizontal or vertical, resulting in a decrease in prediction accuracy. Therefore, the angle patterns used are horizontal, vertical, and intermediate angles of 45°, 135°, 225°, and 315°. In addition, the geometric division mode in which the angular pattern is horizontal or vertical and uses a distance pattern passing through the center is the same process as dividing into two by the
<手法5の実装例その2>
また例えば、図8に示すように、角度が45°,135°,225°,315°であり距離が中心を通る分割境界と3番目に近い分割境界と、角度が0°,90°,180°,270°であり距離が中心から2番目に近い分割境界と4番目に近い分割境界とを用いることとしてもよい。すなわち、全64通りの幾何学的分割モードセットから絞り込む候補(φ,ρ)として以下の集合A(4*2=8通り)または集合B(4*2=8通り)の8+8=16通りを用いるようにしてもよい。
(φ,ρ)∈A∪B
A={45°,135°,225°,315°}×{ρ1,ρ3}
B={0°,90°,180°,270°}×{ρ2,ρ4}
<Implementation example 2 of
For example, as shown in Figure 8, the angles are 45°, 135°, 225°, 315°, and the distances are between the division boundary passing through the center and the third nearest division boundary, and the angles are 0°, 90°, 180°. 270 degrees, and the second closest dividing boundary and fourth closest dividing boundary from the center may be used. In other words, the following set A (4*2=8 ways) or set B (4*2=8 ways) is 8+8=16 as candidates (φ, ρ) to be narrowed down from a total of 64 geometric division mode sets. It is also possible to use the street.
(φ,ρ)∈A∪B
A={45°,135°,225°,315°}×{ρ1,ρ3}
B={0°,90°,180°,270°}×{ρ2,ρ4}
なお、図8の例では、図5の例を前提として、角度φについての集合A,Bを示し、距離ρについては集合Aの角度φ=45°の場合の候補ρ={ρ1,ρ3}と、集合Bの角度φ=90°の場合の候補ρ={ρ2,ρ4}とを示している。 In addition, in the example of FIG. 8, sets A and B are shown for the angle φ based on the example of FIG. and candidate ρ={ρ2,ρ4} when the angle φ=90° of set B.
この理由を述べる。角度パターンの選び方の理由は前述したとおりである。また距離パターンは、45°,135°,225°,315°のときのみ、中心を通るものと中心から3番目に近いものを選ぶことができる。ここで(45°,225°)や(135°,315°)のような、角度が180°異なる組み合わせでは、中心を通る距離パターンは同じ分割境界を表すため、片方の分割境界のみ幾何学的分割モードセットに存在する。(すなわち、前述のように、幾何学的分割モードセットは重複を避けて定義されている。)したがって、図8に示す選び方は、分割境界が空間的に偏るのを避けつつも、図7の選び方よりも幾何学的分割候補の要素数を減らすことができるため、符号化性能を保ちつつもより符号化処理量を削減できると期待できる。 The reason for this will be explained. The reason for selecting the angle pattern is as described above. Also, as the distance pattern, you can select one that passes through the center or the one that is third closest to the center only when the distance pattern is 45°, 135°, 225°, or 315°. Here, for combinations such as (45°, 225°) and (135°, 315°) where the angles differ by 180°, the distance pattern passing through the center represents the same division boundary, so only one division boundary is geometrically Present in split mode set. (In other words, as mentioned above, the geometric partitioning mode set is defined to avoid duplication.) Therefore, the selection method shown in FIG. Since the number of elements of geometric division candidates can be reduced compared to the selection method, it is expected that the amount of encoding processing can be further reduced while maintaining encoding performance.
なお、手法5は単独で用いるのではなく、手法1~4のいずれかと組み合わせて用いることができる。手法5を単独で利用する場合については、次の変形例1として説明する。
Note that
(変形例1:より小さい構成での幾何学的分割モード候補選択手法)
以下、図9及び図10を参照して、前述した基準手法に対する、本変形例との差異を説明する。差異は、本変形例は対象符号化ブロックの大きさを使わずに幾何学的分割モード候補を選択することである。
(Modification 1: Geometric division mode candidate selection method in smaller configuration)
Hereinafter, with reference to FIGS. 9 and 10, differences between this modified example and the reference method described above will be explained. The difference is that this modification selects geometric division mode candidates without using the size of the target encoding block.
図9は、変形例1に係るインター予測部111の構成を示した図である。以下に、図9の図3で示した構成との差異を説明する。図9のインター予測部111は、図3にある符号化ブロック情報抽出部1112を持たない(省略されている)ものとして構成される。
FIG. 9 is a diagram showing the configuration of the
当該省略されることに伴い、幾何学的分割モード候補選択部1113は、基準手法の場合のように対象符号化ブロック情報を用いることなく、幾何学的分割モードセットの中から、複数の幾何学的分割モード候補を選択し、それら幾何学的分割モード候補を出力する。
Due to this omission, the geometric division mode
図10は本変形例において、幾何学的分割モード候補選択部1113と予測画素生成部1114で実行される幾何学的分割モード候補の選択および予測信号の生成フローを示したものである。以下に、図10の図6で示したフローに対する差異を説明する。
FIG. 10 shows the flow of selecting geometric division mode candidates and generating a prediction signal, which are executed by the geometric division mode
図10のフローでは、図5のステップS2をもたず、図5のステップS3に対応する図10のステップS13の処理の内容が一部異なる。また、図10のステップS1とステップS4は、同一の参照符号で示す通り、図5のステップS1とステップS4と処理が同じである。 The flow in FIG. 10 does not include step S2 in FIG. 5, and the contents of the process in step S13 in FIG. 10, which corresponds to step S3 in FIG. 5, are partially different. Furthermore, steps S1 and S4 in FIG. 10 are the same as steps S1 and S4 in FIG. 5, as indicated by the same reference numerals.
ステップS13では、対象符号化ブロックに依らず、幾何学的分割モードセットから複数の幾何学的分割モード候補を選択する。幾何学的分割モード候補の選択は、対象符号化ブロックの大きさを用いた幾何学的分割モード候補選択方法(基準手法)において既に説明したのと同様に、角度パターン及び距離パターンに対してあらかじめ定めたパターンの幾何学的分割モードを選択してもよい。 In step S13, a plurality of geometric division mode candidates are selected from the geometric division mode set, regardless of the target encoding block. The selection of geometric division mode candidates is performed in advance with respect to angle patterns and distance patterns, in the same way as explained in the geometric division mode candidate selection method (standard method) using the size of the target coding block. A geometric division mode of a defined pattern may be selected.
すなわち、ステップS13では例えば、基準手法において手法5「幾何学的分割モードセットに対する間引き」として説明した手法を、対象符号化ブロックの情報(大きさ情報等)を用いることなく適用することができる。
That is, in step S13, for example, the method described as
上記の差異により得られる効果は以下のとおりである。基準手法では少数の幾何学的分割モード候補が選択されていなかった対象符号化ブロックに対しても、少数の幾何学的分割モード候補から対象符号化ブロックに適用する幾何学的分割モードを決定するため、さらなる符号化処理量の削減が期待できる。 The effects obtained from the above differences are as follows. Even for a target coded block for which a small number of geometric partition mode candidates were not selected in the standard method, the geometric partition mode to be applied to the target coded block is determined from a small number of geometric partition mode candidates. Therefore, further reduction in the amount of encoding processing can be expected.
(変形例2~7の説明)
以下では、変形例2~7として、抽出する符号化ブロック情報を基準手法から変更した、六つの幾何学的分割モード候補選択方法を説明する。どの方法も機能構成は基準方法と同じであるが、符号化ブロック情報抽出部1112の処理内容が異なる。また生成フローは、図6のステップS2およびステップS3に対応する処理内容が異なる。
(Explanation of
Below, as modified examples 2 to 7, six geometric division mode candidate selection methods will be described in which the coded block information to be extracted is changed from the standard method. Although the functional configuration of each method is the same as that of the standard method, the processing contents of the encoded block
(変形例2:対象フレームと参照フレームの距離を用いた幾何学的分割モード候補選択手法)
以下に、本変形例と基本選択方法の差異を述べる。本変形例の符号化情報ブロック抽出部1112では、対象フレームの出力順序(POC: Picture Order Count)を抽出し、符号化ブロック情報として出力する。なお、既知のように、POCは対象フレームが再生される順番であり、再構成直後のフレームは時系列順に並んでいないため、それを並べなおすための情報に相当し、符号化の際に既存手法により自動決定することができる。
(Modification 2: Geometric division mode candidate selection method using distance between target frame and reference frame)
The differences between this modification and the basic selection method will be described below. The encoded information
次に図11を参照して、本方法本変形例の生成フローの差異を説明する。なお、図11のステップS1およびS4は、同一参照符号で示すように、図6のステップS1およびS4と処理内容が同じである。 Next, with reference to FIG. 11, differences in the generation flow of this modified example of the method will be explained. Note that steps S1 and S4 in FIG. 11 have the same processing contents as steps S1 and S4 in FIG. 6, as indicated by the same reference numerals.
ステップS22では、対象フレームのPOCを抽出する。ステップS23では、対象フレームのPOCに基づいて、幾何学的分割モードセットから複数の幾何学的分割モード候補を選択する。 In step S22, the POC of the target frame is extracted. In step S23, a plurality of geometric division mode candidates are selected from the geometric division mode set based on the POC of the target frame.
この選択処理では、対象フレームのPOCと、幾何学的分割モードセットの動き情報に含まれる参照フレームのPOCを閾値処理してもよい。例えば、対象フレームのPOCと、ある一つの幾何学的分割モードの参照フレームのPOCの、差分の絶対値を計算し、計算結果が閾値以下であった場合は、その幾何学的分割モードを幾何学的分割モード候補の要素一つとして選択し(すなわち、候補から除外しないように扱い)、閾値より大きい場合は、幾何学的分割モード候補に含めない(すなわち、候補から除外する)、としてもよい。 In this selection process, the POC of the target frame and the POC of the reference frame included in the motion information of the geometric division mode set may be subjected to threshold processing. For example, calculate the absolute value of the difference between the POC of the target frame and the POC of the reference frame in one geometric division mode, and if the calculation result is less than the threshold, change the geometric division mode to Select it as one element of the geometric division mode candidates (i.e., treat it not to be excluded from the candidates), and if it is larger than the threshold, do not include it in the geometric division mode candidates (i.e., exclude it from the candidates). good.
図4の例であれば、符号化対象ブロックBL及び分割境界DB(この分割境界DB及び対応する動きベクトルはすなわち、幾何学的分割モードセット全体のうち任意の1つである)に対して、この符号化対象ブロックBLが含まれる対象フレームFのPOC(POC[F]とする)を抽出し、且つ、動きベクトルMV=(MVA,MVB)がそれぞれ参照する参照フレームFA,FBのPOC(それぞれPOC[FA],POC[FB]とする)を抽出し、閾値THを用いて以下のようにする。
|POC(FA)-POC(F)|>THならば、FAを参照する幾何学的分割モードは用いない(FBについても同様)。
In the example of FIG. 4, for the encoding target block BL and the division boundary DB (this division boundary DB and the corresponding motion vector are any one of the entire geometric division mode set), Extract the POC (referred to as POC[F]) of the target frame F that includes this encoding target block BL, and extract the POC (respectively POC[FA],POC[FB]) are extracted and the following is done using the threshold TH.
If |POC(FA)-POC(F)|>TH, the geometric division mode that refers to FA is not used (the same applies to FB).
この理由を述べる。二つのフレームのPOCの差分の絶対値が大きい場合は時系列的に遠い場合に相当するため、物体境界を予測する幾何学的分割では動物体側の予測が外れやすく、幾何学的分割候補に選択しない方がよいためである。 The reason for this will be explained. If the absolute value of the difference in POC between two frames is large, this corresponds to a case where the two frames are far apart in time. Therefore, in geometric segmentation that predicts the object boundary, the prediction of the animal side is likely to be incorrect, and this is selected as a candidate for geometric segmentation. This is because it is better not to do so.
(変形例3:近傍ブロックの幾何学的分割モード情報を利用した、対象符号化ブロックの幾何学的分割モード候補選択手法)
以下、本変形例と基準手法の差異を述べる。符号化情報ブロック抽出部1112では、対象符号化ブロックの近傍ブロックに適用された幾何学的分割モード情報を抽出し、符号化ブロック情報として出力する。
(Modification 3: Geometric division mode candidate selection method for target coding block using geometric division mode information of neighboring blocks)
The differences between this modified example and the standard method will be described below. The encoded information
次に図12を参照して、生成フローの差異を説明する。なお、図12のフローにおける、ステップS1及びステップS4は、同一参照符号で示すように、図6のステップS1及びステップS4と処理内容が同じである。 Next, the difference in generation flow will be explained with reference to FIG. 12. Note that Step S1 and Step S4 in the flow of FIG. 12 have the same processing contents as Step S1 and Step S4 in FIG. 6, as indicated by the same reference numerals.
ステップS32では、近傍ブロックに適用された幾何学的分割モード情報を抽出する。この近傍ブロックは、隣接する符号化済みのブロックであり、かつ幾何学的分割モードが適用されたブロックのなかから複数乃至一つを所定規則で選んでよい。例えば、対象符号化ブロックの左に接するブロックと上に接するブロックを選んでもよい。該当するブロックが存在しない場合は、該当ブロックが存在しなかったという情報を近傍ブロックに適用された幾何学的分割モード情報とする。 In step S32, geometric division mode information applied to neighboring blocks is extracted. The neighboring blocks may be selected from a plurality of adjacent encoded blocks to which the geometric division mode is applied according to a predetermined rule. For example, a block adjacent to the left and a block above the target encoding block may be selected. If the corresponding block does not exist, information indicating that the corresponding block does not exist is set as geometric division mode information applied to neighboring blocks.
ステップS33では、近傍ブロックに適用された幾何学的分割モード情報に基づいて、幾何学的分割モードセットから複数の幾何学的分割モード候補を以下の手法31~33のいずれかにより選択する。(なお、手法33は、変形例3が適用できない場合のスキップ処理に相当するものである。)
In step S33, a plurality of geometric division mode candidates are selected from the geometric division mode set by one of the following methods 31 to 33, based on the geometric division mode information applied to the neighboring blocks. (Note that method 33 corresponds to skip processing when
<手法31>
この選択処理では、近傍ブロックの分割境界と対象符号化ブロックの分割境界が連続すると判定される幾何学的分割モードを、幾何学的分割モード候補として選択してもよい。この理由を述べる。一般に対象フレームに存在する被写体や前景・背景の境界の多くは連続している。そのため、近傍ブロックの分割境界と対象符号化ブロックの分割境界が連続する幾何学的分割モードを幾何学的分割モード候補として選択することで、符号化性能を保ちつつも符号化処理量を削減できると期待できる。
<Method 31>
In this selection process, a geometric division mode in which it is determined that the division boundary of the neighboring block and the division boundary of the target encoded block are continuous may be selected as a geometric division mode candidate. The reason for this will be explained. Generally, most of the boundaries between the subject and the foreground/background that exist in the target frame are continuous. Therefore, by selecting a geometric division mode in which the division boundaries of neighboring blocks and the division boundaries of the target encoding block are continuous as a geometric division mode candidate, it is possible to reduce the amount of encoding processing while maintaining encoding performance. You can expect that.
図13の例EX1,EX2に、分割境界が連続すると判定される例を示す。例EX1は、対象符号化ブロックBLの分割境界DBとして、2つの近傍ブロックである上側隣接ブロックBLU及び左側隣接ブロックBLLにそれぞれ適用された分割境界DBU,DBLと、その境界箇所が(完全)一致することで連続すると判定されるものを選択する例であり、同様に例EX2は、分割境界DBとして、隣接する分割境界DBU,DBLと、その境界箇所が一致すると判定される(完全一致ではない場合も含めて境界箇所の距離が閾値判定で近いと判定される)ことで連続すると判定されるものを選択する例である。 Examples EX1 and EX2 in FIG. 13 show examples in which division boundaries are determined to be continuous. In example EX1, as the division boundary DB of the target encoding block BL, the division boundaries DBU and DBL applied to two neighboring blocks, the upper adjacent block BLU and the left adjacent block BLL, respectively, and their boundary locations (perfectly) match. This is an example of selecting those that are determined to be continuous by doing this. Similarly, example EX2 is determined as a division boundary DB, and the boundary location is determined to match the adjacent division boundaries DBU and DBL (not an exact match). In this example, the distance between the boundary points is determined to be close based on the threshold value determination, and those determined to be continuous are selected.
<手法32>
また近傍ブロックの分割境界(φ,ρ)の角度パターンφを参照して、対象符号化ブロックの幾何学的分割モード候補を選択してもよい。
<Method 32>
Alternatively, geometric division mode candidates for the target encoding block may be selected with reference to the angle pattern φ of the division boundary (φ, ρ) of neighboring blocks.
ここで、上記の角度パターンφが近いものとして対象符号化ブロックの幾何学的分割モード候補を選択する例を説明する。なお、角度パターンφが近いことは、|tanφ|が近いこと等で判断すればよい。すなわち、φの値の違いが±180°で逆向きとなっているものは角度パターンφを同一として扱い、φの値の違いが±90°に近いほど、角度パターンの違いがより大きいものとして扱い、φの値の違いが±0°または±180°に近いほど角度パターンの違いが小さいものとして扱うようにすればよい。(換言すれば、2つの角度φa,φbについて、180°で逆向きの場合を同一の角度として扱うと、2つの角度φa,φbの差の絶対値は0°以上90°以下の範囲で得られることになるので、この絶対値差に対して例えば閾値45°以下であれば近い角度パターン、そうでなければ遠い角度パターンとして扱うようにしてよい。あるいは同様に、180°違う場合を自動的に同一方向として判定できる手法として、|cos(φa-φb)|の大小で角度φa,φbの遠近を判定してもよい。) Here, an example will be described in which geometric division mode candidates for the target encoding block are selected based on the angle pattern φ being close to each other. Note that the fact that the angle patterns φ are close may be determined based on the fact that |tanφ| is close. In other words, if the difference in the value of φ is ±180° and the directions are opposite, the angle patterns φ are treated as the same, and the closer the difference in the value of φ is ±90°, the larger the difference in the angle patterns. In other words, the closer the difference in the value of φ is to ±0° or ±180°, the smaller the difference in the angular patterns. (In other words, if two angles φa, φb are 180° and opposite directions, they are treated as the same angle, then the absolute value of the difference between the two angles φa, φb can be obtained within the range of 0° to 90°. Therefore, for example, if the absolute value difference is less than the threshold of 45 degrees, it can be treated as a close angle pattern, otherwise it can be treated as a far angle pattern.Alternatively, if the difference is 180 degrees, it can be automatically handled. As a method for determining whether the angles φa and φb are in the same direction, it is also possible to determine the distance of the angles φa and φb based on the magnitude of |cos(φa-φb)|.)
また、角度パターンφが予め設定されたいずれの範囲に属するかで、同じ範囲に属するか否かにより角度パターンφが近いか否かを判定してもよい。例えば、上に接する近傍ブロックの角度パターンが縦方向であった場合、縦方向の角度パターンから組み合わされる幾何学的分割モードを幾何学的分割モード候補として選択してもよい。また左に接する近傍ブロックの角度パターンが横方向であった場合、横方向の角度パターンから組み合わされる幾何学的分割モードを幾何学的分割モード候補として選択してもよい。 Alternatively, it may be determined whether the angle patterns φ are close or not depending on which preset range the angle patterns φ belong to, and whether they belong to the same range. For example, if the angular pattern of the neighboring block adjacent to the top is vertical, a geometric division mode that is combined from the vertical angular pattern may be selected as a geometric division mode candidate. Furthermore, if the angle pattern of the neighboring block adjacent to the left is horizontal, a geometric division mode that is combined from the horizontal angle pattern may be selected as a geometric division mode candidate.
なお、ここで角度パターンが縦方向であるとは、図13の例EX3に示す通り、45°~135°および225°~315°の範囲内の角度パターンのことを指し、横方向であるとは、図13の例EX4が示す通り、0°~45°と135°~225°と315°から360°の範囲内の角度パターンを指す。なお、図13では縦方向(垂直方向)または横方向(水平方向)で近い角度の判定例を示したが、垂直または水平からずれている斜めの角度についても同様に、近い角度を判定することができる。 Note that here, when the angle pattern is in the vertical direction, it refers to an angle pattern within the range of 45° to 135° and 225° to 315°, as shown in example EX3 in Fig. 13, and when it is in the horizontal direction, refers to an angular pattern within the ranges of 0° to 45°, 135° to 225°, and 315° to 360°, as shown in example EX4 in FIG. Although FIG. 13 shows an example of determining angles that are close in the vertical direction (vertical direction) or horizontal direction (horizontal direction), it is also possible to determine close angles in the same way for diagonal angles that are deviated from the vertical or horizontal direction. Can be done.
<手法33>
また対象符号化ブロックに隣接し、かつ幾何学的分割モードが適用された符号化済みのブロックが存在しなかった場合、幾何学的分割モードセット(全体)をそのまま幾何学的分割モード候補として選択してもよい。
<Method 33>
In addition, if there is no encoded block adjacent to the target encoding block to which the geometric division mode has been applied, the geometric division mode set (the entire set) is selected as is as a geometric division mode candidate. You may.
(変形例4:動き情報導出時に参照した、隣接ブロックの位置を利用した幾何学的分割モード候補選択手法)
以下、本変形例と基準手法の差異を述べる。符号化情報ブロック抽出部1112では、幾何学的分割モードセットの動き情報をマージ部1111で導出した際の、参照した隣接ブロックの位置を抽出し、符号化ブロック情報として出力する。
(Modification 4: Geometric division mode candidate selection method using the positions of adjacent blocks referred to when deriving motion information)
The differences between this modified example and the standard method will be described below. The encoded information
次に図14を参照して、生成フローの差異を説明する。なお、図14のフローにおける、ステップS1及びステップS4は、同一参照符号で示すように、図6のステップS1及びステップS4と処理内容が同じである。 Next, the difference in generation flow will be explained with reference to FIG. Note that Step S1 and Step S4 in the flow of FIG. 14 have the same processing contents as Step S1 and Step S4 in FIG. 6, as indicated by the same reference numerals.
ステップS42では、幾何学的分割モードセットの動き情報をマージ部1111で導出した際に、参照した隣接ブロックの位置を抽出する。ステップS43では、動き情報の導出時に参照した隣接ブロックの位置に基づいて、幾何学的分割モードセットから複数の幾何学的分割モード候補を選択する。
In step S42, the position of the adjacent block referenced when the
次に図15を参照して、この選択処理において、幾何学的分割モードセットのどの幾何学的分割モードを幾何学的分割モード候補に選択するかの例を述べる。まず、図15のように幾何学的分割モードセットの各々の幾何学的分割モード(図15では、前述した図4と同一の例として分割境界DBを与える1つの幾何学的分割モードが例示される)について、その幾何学的分割モードが適用されたときの分割された対象符号化ブロックを考える。 Next, with reference to FIG. 15, an example of which geometric division mode from the geometric division mode set is selected as a geometric division mode candidate in this selection process will be described. First, as shown in FIG. 15, each geometric division mode of the geometric division mode set (in FIG. 15, one geometric division mode that gives the division boundary DB as the same example as in FIG. 4 described above is illustrated). ), consider the divided target coded block when the geometric division mode is applied.
このとき、分割された左側の領域PAに適用する動き情報MVA(図4参照)が、3つの隣接ブロックA0,A1,A2のように適用する領域PAに隣接するブロックのうち一つを参照して導出されており、かつもう一方の領域PBでも同様に適用する動き情報MVB(図4参照)が2つの隣接ブロックB0,B1のような、隣接するブロックのうち一つを参照している場合、この幾何学的分割モードを幾何学的分割モード候補と選択してもよい。(なお、図15の例では、対象符号化ブロックBLに対して時刻が一致した空間的範囲での隣接ブロックのみを考慮しているが、同様に、時間的範囲での隣接ブロックを考慮するようにしてもよいし、時間及び空間の両範囲での隣接ブロックを考慮するようにしてもよい。) At this time, the motion information MVA (see Figure 4) applied to the divided left area PA refers to one of the blocks adjacent to the area PA to be applied, such as three adjacent blocks A0, A1, and A2. When the motion information MVB (see Fig. 4) that is derived in the same way and applied in the same way in the other area PB refers to one of the adjacent blocks, such as two adjacent blocks B0 and B1. , this geometric division mode may be selected as a geometric division mode candidate. (In the example of FIG. 15, only adjacent blocks in a spatial range whose time coincides with the target coded block BL are considered, but similarly, adjacent blocks in a temporal range can also be considered. (Also, adjacent blocks in both time and space may be considered.)
ここで、前述の通り、マージ部1111は空間的・時間的に隣接する領域で実際に予測符号化に用いられた動き情報を例えば6つ集め、対象符号化ブロックの予測符号化に用いる動き情報の候補(分割モードセットの要素)として出力する。例えば、符号化ブロックBLに対して、1例としての隣接領域A0を含むブロックに適用された動き情報があるかを調べ、あればその動き情報を候補とし、次に隣接領域A1を調べて…と動き情報が6つになるまでマージ部1111は隣接領域を調べる処理を行う。従って、分割モードセットに含まれる動き情報の中には、A0を参照したもの、B0を参照したもの、などが含まれうることとなる。
Here, as described above, the merging
そのため、PAに適用する動き情報がA0, A1, A2のどれかを参照したものであり、PBに適用する動き情報がB1, B0のどれかを参照したものである幾何学的分割モードは幾何学的分割モード候補と選択してもよい、という手法を変形例4では用いることができる。(すなわち、変形例4では動き情報に関して、前述の通り2部分PA,PB(任意の1つの分割境界DBによって分割される2部分PA,PB)で網羅的には6P2=30通りが存在しうるところ、この分割境界DBにおける部分PAについては別部分PBの隣接領域B1,B0等を候補から除外し、部分PBについては別部分PAの隣接領域A0,A1,A12等を候補から除外することで、64通りの分割境界DBの各々について対応する動き情報に関して、30通りよりも少ない動き情報の候補に絞り込むことができる。)
Therefore, the geometric division mode in which the motion information applied to PA refers to any of A0, A1, or A2, and the motion information applied to PB refers to any of B1 or B0 is geometric. Modified example 4 can use a method in which a logical division mode candidate may be selected. (In other words, in
この理由を述べる。図15のように対象符号化ブロックBLが分割境界DBの線分で分割された場合を考える。このとき、分割された各々の領域PA,PBは異なる動きMVA,MVBをもつと仮定できる。隣接ブロックA0,A1,A2から導出される動き情報MV[A0],MV[A1],MV[A2]のいずれか1つは、当該隣接ブロックA0,A1,A2に対して隣接する対象符号化ブロックBLの左側の領域PAを精度よく予測符号化できることが多いが、右側の領域PBを精度よく予測符号化できることは少ないと考えられる。 I will explain the reason for this. Consider a case where the target encoded block BL is divided by the line segment of the division boundary DB as shown in FIG. 15. At this time, it can be assumed that the divided areas PA and PB have different motions MVA and MVB. Any one of the motion information MV[A0], MV[A1], MV[A2] derived from the adjacent blocks A0, A1, A2 is the target encoding adjacent to the adjacent block A0, A1, A2. Although it is often possible to predictively encode the area PA on the left side of the block BL with high accuracy, it is considered that it is rare that the area PB on the right side can be predictively encoded with high accuracy.
したがって、前述したように参照した隣接ブロックの位置を用いることで、精度よく予測符号化できる組み合わせの幾何学的分割モードを幾何学的分割モード候補として選択でき、符号化効率を保ちつつも符号化処理量を削減できると期待できる。 Therefore, by using the positions of the adjacent blocks referenced as described above, it is possible to select a combination of geometric division modes that can perform predictive coding with high accuracy as geometric division mode candidates, and it is possible to perform coding while maintaining coding efficiency. It can be expected that the amount of processing can be reduced.
また上記の図15の例では、幾何学的分割モードの選択条件を、どちらの領域PA,PBも隣接するブロックのどれか1つを参照していることとしたが、どちらか片方の領域(分割された2つの領域PA,PBのいずれか一方のみ)が隣接するブロックのどれか1つを参照していることとしてもよい。 In addition, in the example shown in FIG. 15 above, the selection condition for the geometric division mode is that both areas PA and PB refer to any one of the adjacent blocks, but only one of the areas ( Only one of the two divided areas PA, PB) may refer to any one of the adjacent blocks.
(変形例5:イントラ予測の予測方向を用いた幾何学的分割モード候補選択手法)
以下、本変形例と基準手法の差異を述べる。符号化情報ブロック抽出部1112では、イントラ予測部112での対象符号化ブロックの方向性予測の参照方向を抽出し、符号化ブロック情報として出力する。(なお、対象符号化ブロックは、本実施形態によりインター予測部111が幾何学的分割モードを適用して符号化するものであるが、変形例5では追加処理として、イントラ予測部112の処理(参照方向ごとのSAD,SSD等を評価してこれを最小とする参照方向を決定する処理)も適用することで、幾何学的分割の方向で候補の絞り込みを可能とする。)
(Modification 5: Geometric division mode candidate selection method using prediction direction of intra prediction)
The differences between this modified example and the standard method will be described below. The encoded information
次に図16を参照して、生成フローの差異を説明する。なお、図16のフローにおける、ステップS1及びステップS4は、同一参照符号で示すように、図6のステップS1及びステップS4と処理内容が同じである。 Next, the difference in generation flow will be explained with reference to FIG. In addition, step S1 and step S4 in the flow of FIG. 16 have the same processing content as step S1 and step S4 of FIG. 6, as indicated by the same reference numerals.
ステップS52では、対象符号化ブロックのイントラ予測部112での方向性予測の参照方向を抽出する。ステップS53では、抽出した参照方向に基づいて、幾何学的分割モードセットから複数の幾何学的分割モード候補を選択する。
In step S52, a reference direction for directional prediction in the
この選択方式では、イントラ予測部112での対象符号化ブロックの方向性予測の参照方向を参照し、参照方向と角度が近い角度パターンφを用いている幾何学的分割モードを幾何学的分割モード候補として選択してもよい。角度が近いとは、例えば各々の角度の差分が閾値以下であることをいう。このとき閾値は任意に指定してもよく、例えば10°としてもよい。この際、前述の変形例3の場合と同様に、180°違う逆向きの場合は同じ向き(角度)として扱うことで、角度の差分を評価すればよい。
In this selection method, the reference direction of the directionality prediction of the target coded block in the
この理由を述べる。方向性予測の参照方向は、対象符号化ブロックのエッジや境界方向に沿って決定されることが多い。そのため、方向性予測の参照方向と角度が近い角度パターンの幾何学的分割モードを幾何学的分割モード候補として選択することで、前景・背景や被写体の境界に近い幾何学的分割モードを選択でき、符号化効率を保ちつつも符号化処理量を削減できると期待できる。 I will explain the reason for this. The reference direction for directional prediction is often determined along the edge or boundary direction of the target encoding block. Therefore, by selecting a geometric division mode with an angular pattern that is close to the reference direction for directional prediction as a geometric division mode candidate, you can select a geometric division mode that is close to the foreground/background or subject boundary. , it is expected that the amount of encoding processing can be reduced while maintaining encoding efficiency.
(変形例6:参照ブロックの幾何学的分割モード情報を利用した幾何学的分割モード候補選択手法)
以下、本変形例と基準方法の差異を述べる。符号化情報ブロック抽出部1112では、対象符号化ブロックの参照ブロックに適用された幾何学的分割モード情報を抽出し、符号化ブロック情報として出力する。
(Modification 6: Geometric division mode candidate selection method using geometric division mode information of reference block)
The differences between this modified example and the standard method will be described below. The encoded information
次に図17を参照して、生成フローの差異を説明する。なお、図17のフローにおける、ステップS1及びステップS4は、同一参照符号で示すように、図6のステップS1及びステップS4と処理内容が同じである。 Next, the difference in generation flow will be explained with reference to FIG. 17. Note that steps S1 and S4 in the flow of FIG. 17 have the same processing contents as steps S1 and S4 in FIG. 6, as indicated by the same reference numerals.
ステップS62では、参照ブロックに適用された幾何学的分割モード情報を抽出する。ここで、参照ブロックとは、当該符号化対象ブロックに対してマージ部1111で得られた複数の動き情報(例えば6通り)が参照する全ての参照ブロック(例えば6個以下)を列挙したものである。ステップS63では、参照ブロックに適用された幾何学的分割モード情報(例えば6通り以下)に基づいて、幾何学的分割モードセットから複数の幾何学的分割モード候補を選択する。
In step S62, geometric division mode information applied to the reference block is extracted. Here, the reference block is a list of all reference blocks (for example, 6 or less) that are referenced by multiple pieces of motion information (for example, 6 ways) obtained by the merging
この選択処理では、参照ブロックの幾何学的分割モード(と同一の幾何学的分割モード)を、対象符号化ブロックの幾何学的分割モード候補として選択してもよい。(すなわち、対象符号化ブロックBLの参照ブロックに適用された幾何学的分割モードは例えば6通り以下であるため、図5で説明したような64通りから6通り以下に候補を絞り込むことができる。なお、動き情報の30通りは最適な符号化の探索範囲として残ることとなる。)また参照ブロックの幾何学的分割モードと、角度パターン近い幾何学的分割モードを対象符号化ブロックの幾何学的分割モード候補として選択してもよい。角度パターンが近いとは例えば、二つの角度パターンの角度の差分の絶対値が閾値以下であることを指す。この閾値は任意の数値でよく、例えば10°でもよい。この際、変形例3と同様に、180°違う逆向きの場合は同じ向きとして、角度の差分を評価すればよい。
In this selection process, the geometric division mode of the reference block (the same geometric division mode) may be selected as the geometric division mode candidate of the target encoded block. (In other words, since the number of geometric division modes applied to the reference block of the target encoded block BL is, for example, six or less, the candidates can be narrowed down from 64 as explained in FIG. 5 to six or less. Note that 30 motion information options remain as the search range for optimal encoding.) Also, the geometric division mode of the reference block and the geometric division mode close to the angle pattern are It may be selected as a division mode candidate. For example, the angle patterns being close means that the absolute value of the difference in angle between the two angle patterns is less than or equal to a threshold value. This threshold value may be any numerical value, for example 10°. At this time, as in
この理由を述べる。参照ブロックは対象符号化ブロックと画素値が近いものが多く、したがって前景・背景や被写体間の境界の位置が近いことが考えられる。したがって、参照ブロックの幾何学的分割モードを、幾何学的分割モード候補として選択することで、符号化効率を保ちつつも符号化処理量を削減できると期待できる。 I will explain the reason for this. Many of the reference blocks have pixel values close to those of the target encoded block, and therefore it is thought that the foreground/background or the boundary between subjects are close to each other. Therefore, by selecting the geometric division mode of the reference block as a geometric division mode candidate, it is expected that the amount of encoding processing can be reduced while maintaining encoding efficiency.
(変形例7:最確モード(Most Probable Mode、MPM)の情報を用いた幾何学的分割モード候補選択手法)
以下、本変形例と基準手法の差異を述べる。符号化情報ブロック抽出部1112では、イントラ予測部112で適用された対象符号化ブロックのMPMの情報を抽出し、符号化ブロック情報として出力する。(なお、変形例5と同様に、幾何学的分割モードによる対象符号化ブロックに対して追加処理として、イントラ予測部112の処理も適用することで、MPMの情報を抽出することができる。また、隣接ブロックでイントラ予測部112が実際の符号化のために適用されたかを確認し、もし適用されていたのなら、そのブロックで使用されたモードに基づいてMPMの情報を構築してよい。)
(Modification 7: Geometric division mode candidate selection method using Most Probable Mode (MPM) information)
The differences between this modified example and the standard method will be described below. The encoded information
次に図18を参照して、生成フローの差異を説明する。なお、図18のフローにおける、ステップS1及びステップS4は、同一参照符号で示すように、図6のステップS1及びステップS4と処理内容が同じである。 Next, the difference in generation flow will be explained with reference to FIG. It should be noted that Step S1 and Step S4 in the flow of FIG. 18 have the same processing contents as Step S1 and Step S4 of FIG. 6, as indicated by the same reference numerals.
ステップS72では、対象符号化ブロックのMPMの情報(通常のイントラ予測の場合と同様に、方向の情報で構成される)を抽出する。ステップS73では、MPMの情報に基づいて、幾何学的分割モードセットから複数の幾何学的分割モード候補を選択する。 In step S72, MPM information (consisting of direction information, as in the case of normal intra prediction) of the target coded block is extracted. In step S73, a plurality of geometric division mode candidates are selected from the geometric division mode set based on the MPM information.
この選択処理では、MPMの情報によっては、あらかじめMPMの情報によって対応付けた、複数乃至は一つの幾何学的分割モードを幾何学的分割モード候補として選択してもよい。(すなわち、MPMの情報が示す1つの方向に角度φが近いと判定される1つ以上の幾何学的分割モードを候補としてよい。この際、変形例3と同様に、180°異なる逆向きの場合は同じ角度として角度の差分を評価すればよい。)またMPMの情報を用いて符号化効率の高い幾何学的分割モードを推定してもよい。
In this selection process, depending on the MPM information, a plurality of geometric division modes or one geometric division mode that has been associated in advance based on the MPM information may be selected as a geometric division mode candidate. (In other words, one or more geometric division modes whose angle φ is determined to be close to one direction indicated by the MPM information may be used as candidates. In this case, as in
この理由を述べる。MPMの情報は、イントラ予測部112で対象符号化ブロックに最終的に適用される可能性が高いと推定した複数の予測モードの情報である。そのため、対象符号化ブロックの境界やテクスチャの方向の情報が含まれていることが多いと考えられる。したがって、MPMの情報を利用することで、符号化効率の高い幾何学的分割モードを選択・推定することができると考えられる。したがって、選択・推定した幾何学的分割モードを幾何学的分割モード候補として選択することで、符号化効率を保ちつつも符号化処理量を削減できると期待できる。
I will explain the reason for this. The MPM information is information on a plurality of prediction modes estimated by the
なお、上記の基準方式、および各変形例1~7はそれぞれ組み合わせてもよい。例えば、基準方式と変形例2を組み合わせて、対象符号化ブロックの大きさと対象フレームと参照フレームの距離を考慮して幾何学的分割モード候補を選択してもよい。
Note that the above reference method and each of Modifications 1 to 7 may be combined. For example, the standard method and
以上、本発明の各実施形態によれば、予め定義されている幾何学的分割モードセットの全体をそのまま候補とするのではなく、当該全体から少数の幾何学的分割モード候補を決定するため、幾何学的分割モードセット全体から対象符号化ブロックに適用する幾何学的分割モードを決定するよりも、符号化性能を低下させることなく、符号化処理量が削減できる効果が期待できる。 As described above, according to each embodiment of the present invention, in order to determine a small number of geometric division mode candidates from the entire geometric division mode set, instead of using the entire predefined geometric division mode set as candidates as is, Compared to determining the geometric division mode to be applied to the target encoding block from the entire geometric division mode set, it is expected that the amount of encoding processing can be reduced without deteriorating the encoding performance.
以下、種々の補足例、代替例、追加例等に関して説明する。 Various supplementary examples, alternative examples, additional examples, etc. will be described below.
(1) 本発明の実施形態に係る画像符号化装置100の利用例として、映像を用いた遠隔でのテレビ会議における遠隔地への映像伝送の際の符号化に利用することができ、映像品質を確保したうえで、この符号化処理の高速化できるため、遠隔会議での遅延を抑制して臨場感を持った遠隔会議の実現に寄与できる。これにより、スムーズな遠隔コミュニケーションを実現するといったことが可能であり、実際にユーザが会議等で遠隔地に赴くことを省略する(遠隔地への移動を必ずしも必須とはしない)ことが可能である。従って、本発明の実施形態のこのような利用例により、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標(SDGs)の目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。
(1) As an example of the use of the
(2) 図19は、一般的なコンピュータ装置60におけるハードウェア構成の例を示す図である。本実施形態の画像符号化装置100及び画像復号装置200は、このような構成を有する1台以上のコンピュータ装置60として実現可能である。なお、2台以上のコンピュータ装置60で各装置を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置60は、映像の符号化や復号の処理に特化したプロセッサである専用プロセッサ60、所定命令を実行するCPU(中央演算装置)61、CPU61の実行命令の一部又は全部をCPU61に代わって又はCPU61と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)62、CPU61(及び専用プロセッサ60、GPU62)にワークエリアを提供する主記憶装置としてのRAM63、補助記憶装置としてのROM64、通信インタフェース65、ディスプレイ66、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース67と、これらの間でデータを授受するためのバスBSと、を備える。
(2) FIG. 19 is a diagram showing an example of the hardware configuration of a
画像符号化装置100及び画像復号装置200の各機能部や、この各装置が実行する符号化方法や復号方法は、各部や各ステップ等の機能に対応する所定のプログラムをROM64から読み込んで実行する専用プロセッサ60、CPU61及びGPU62の全部または一部によって実現することができる。なお、専用プロセッサ60、CPU61及びGPU62は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ66が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース65が連動して動作する。
Each functional unit of the
100…画像符号化装置、111…インター予測部、1111…マージ部、1112…符号化ブロック情報抽出部、1113…幾何学的分割モード候補選別部、1114…予測画素生成部 100...Image encoding device, 111...Inter prediction unit, 1111...Merge unit, 1112...Encoded block information extraction unit, 1113...Geometric division mode candidate selection unit, 1114...Predicted pixel generation unit
Claims (17)
予測モードとしてインター予測及び幾何学的分割が適用される符号化対象ブロックを扱う場合に、当該符号化対象ブロックに関する情報である符号化対象ブロック情報を抽出し、当該符号化対象ブロック情報に基づいて、前記幾何学的分割において予め定義される幾何学的分割モードセットの全体から選別した部分セットのみを、当該符号化対象ブロックにインター予測及び幾何学的分割を適用したうえで符号化するために用いる評価対象とすることを特徴とする画像符号化装置。 In an image encoding device that encodes video by applying block-by-block prediction,
When dealing with a block to be coded to which inter prediction and geometric division are applied as the prediction mode, extract the block to be coded information that is information about the block to be coded, and extract the block information to be coded based on the information of the block to be coded. , in order to encode only a partial set selected from the entire geometric division mode set predefined in the geometric division after applying inter prediction and geometric division to the block to be encoded. An image encoding device characterized in that it is used as an evaluation target.
前記幾何学的分割モードセットの全体を構成する幾何学的分割モード候補と動き情報候補の組み合わせのうち、幾何学的分割モードの各々によって分割される第1部分及び/又は第2部分の動き情報候補の参照ブロックの出力順序と、当該符号化対象ブロックの出力順序との違いが大きいと判定されるものを除外したものとして前記部分セットを決定することを特徴とする請求項1に記載の画像符号化装置。 Extracting the encoding target block information including information on the output order of a target frame including the encoding target block and the output order of reference blocks of the encoding target block,
Motion information of a first part and/or a second part divided by each of the geometric division modes among the combinations of geometric division mode candidates and motion information candidates that constitute the entire geometric division mode set. The image according to claim 1, wherein the partial set is determined by excluding those that are determined to have a large difference between the output order of the candidate reference blocks and the output order of the encoding target block. Encoding device.
前記部分セットを、当該近傍ブロックに対して既に適用されている幾何学的分割モードの分割境界と当該部分セットの分割境界とが連続すると判定されるものとして、または、当該近傍ブロックに対して既に適用されている幾何学的分割モードと角度が近いと判定されるものとして決定することを特徴とする請求項1に記載の画像符号化装置。 The encoding target block information includes the geometric division mode that has already been applied to neighboring blocks that are located in the vicinity of the encoding target block and are defined as blocks that have already been encoded. Extract including information,
The partial set is determined to be continuous with the division boundary of the geometric division mode that has already been applied to the neighboring block, or 2. The image encoding apparatus according to claim 1, wherein the image encoding apparatus determines that the angle is determined to be close to the applied geometric division mode.
前記幾何学的分割モードセットの全体を構成する幾何学的分割モード候補と動き情報候補の組み合わせのうち、幾何学的分割モードの各々に対応する動き情報候補の全部から、幾何学的分割モードの各々によって分割される第1部分及び第2部分に時空間で隣接する隣接ブロックに適用済みの動き情報のみを選別することで、前記部分セットを決定することを特徴とする請求項1に記載の画像符号化装置。 Extracting coded motion information by inter prediction in an adjacent block temporally and spatially adjacent to the current block to be coded as a motion information candidate to be applied to the coded block;
Among the combinations of geometric division mode candidates and motion information candidates that constitute the entire geometric division mode set, the geometric division mode is selected from all the motion information candidates corresponding to each of the geometric division modes. 2. The partial set is determined by selecting only motion information that has been applied to adjacent blocks that are temporally and spatially adjacent to the first portion and the second portion that are divided by the first portion and the second portion, respectively. Image encoding device.
前記符号化対象ブロック情報に、当該抽出した参照方向の情報を含めて抽出し、
前記部分セットを、幾何学的分割モードセットのうち角度が前記参照方向に近いと判定されるものとして決定することを特徴とする請求項1に記載の画像符号化装置。 Extracting a reference direction when applying intra prediction to the encoding target block is performed as an additional process,
extracting information on the extracted reference direction in the encoding target block information;
The image encoding apparatus according to claim 1, wherein the partial set is determined as a set of geometric division modes whose angle is determined to be close to the reference direction.
当該動き情報が参照する参照ブロックを抽出し、
前記幾何学的分割モードセットの全体を構成する幾何的分割モード候補と動き情報候補の組み合わせのうち、幾何学的分割モード候補を、前記参照ブロックに適用済みである幾何学的分割モードのみに限定することで、前記部分セットを決定することを特徴とする請求項1に記載の画像符号化装置。 Extracting coded motion information by inter prediction in an adjacent block temporally and spatially adjacent to the current block to be coded as a motion information candidate to be applied to the coded block;
Extract the reference block referenced by the motion information,
Among the combinations of geometric division mode candidates and motion information candidates that make up the entire geometric division mode set, geometric division mode candidates are limited to only the geometric division modes that have been applied to the reference block. The image encoding apparatus according to claim 1, wherein the partial set is determined by performing the following steps.
前記符号化対象ブロック情報に、当該抽出した最確モードの情報を含めて抽出し、
前記部分セットを、幾何学的分割モードセットのうち角度が前記最確モードの方向に近いと判定されるものとして決定することを特徴とする請求項1に記載の画像符号化装置。 Extracting the most probable mode when applying intra prediction to the encoding target block is performed as an additional process,
extracting information on the extracted most probable mode in the encoding target block information;
The image encoding apparatus according to claim 1, wherein the partial set is determined as a set of geometric division modes whose angle is determined to be close to the direction of the most probable mode.
予測モードとしてインター予測及び幾何学的分割が適用される符号化対象ブロックを扱う場合に、前記幾何学的分割において予め定義される幾何学的分割モードセットの全体から選別した部分セットのみを、当該符号化対象ブロックにインター予測及び幾何学的分割を適用したうえで符号化するために用い、
前記幾何学的分割モードセットの全体を構成する幾何的分割モード候補と動き情報候補の組み合わせのうち、幾何学的分割モード候補の全体として予め定義される分割線分の角度及びブロック中心からの距離の組み合わせに関して、当該組み合わせの一部分のみを用いることで、前記部分セットを決定することを特徴とする画像符号化装置。 In an image encoding device that encodes video by applying block-by-block prediction,
When dealing with a block to be encoded to which inter prediction and geometric division are applied as prediction modes, only a subset selected from the entire geometric division mode set predefined in the geometric division is used. Used to encode after applying inter prediction and geometric division to the block to be encoded,
Among the combinations of geometric division mode candidates and motion information candidates that constitute the entire geometric division mode set, the angle and distance from the block center of the dividing line segment defined in advance as the entire geometric division mode candidate. An image encoding apparatus characterized in that the partial set is determined by using only a part of the combination.
予測モードとしてインター予測及び幾何学的分割が適用される符号化対象ブロックを扱う場合に、当該符号化対象ブロックに関する情報である符号化対象ブロック情報を抽出し、当該符号化対象ブロック情報に基づいて、前記幾何学的分割において予め定義される幾何学的分割モードセットの全体から選別した部分セットのみを、当該符号化対象ブロックにインター予測及び幾何学的分割を適用したうえで符号化するために用いる評価対象とすることを特徴とする画像符号化方法。 In an image encoding method that encodes video by applying block-by-block prediction,
When dealing with a block to be coded to which inter prediction and geometric division are applied as the prediction mode, extract the block to be coded information that is information about the block to be coded, and extract the block information to be coded based on the information of the block to be coded. , in order to encode only a partial set selected from the entire geometric division mode set predefined in the geometric division after applying inter prediction and geometric division to the block to be encoded. An image encoding method characterized in that an evaluation target is used.
予測モードとしてインター予測及び幾何学的分割が適用される符号化対象ブロックを扱う場合に、前記幾何学的分割において予め定義される幾何学的分割モードセットの全体から選別した部分セットのみを、当該符号化対象ブロックにインター予測及び幾何学的分割を適用したうえで符号化するために用い、
前記幾何学的分割モードセットの全体を構成する幾何的分割モード候補と動き情報候補の組み合わせのうち、幾何学的分割モード候補の全体として予め定義される分割線分の角度及びブロック中心からの距離の組み合わせに関して、当該組み合わせの一部分のみを用いることで、前記部分セットを決定することを特徴とする画像符号化方法。 In an image encoding method that encodes video by applying block-by-block prediction,
When dealing with a block to be encoded to which inter prediction and geometric division are applied as prediction modes, only a subset selected from the entire geometric division mode set predefined in the geometric division is used. Used to encode after applying inter prediction and geometric division to the block to be encoded,
Among the combinations of geometric division mode candidates and motion information candidates that constitute the entire geometric division mode set, the angle and distance from the block center of the dividing line segment defined in advance as the entire geometric division mode candidate. An image encoding method characterized in that the partial set is determined by using only a part of the combination.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022101437A JP2024002320A (en) | 2022-06-23 | 2022-06-23 | Image encoding device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022101437A JP2024002320A (en) | 2022-06-23 | 2022-06-23 | Image encoding device, method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024002320A true JP2024002320A (en) | 2024-01-11 |
Family
ID=89472996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022101437A Pending JP2024002320A (en) | 2022-06-23 | 2022-06-23 | Image encoding device, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024002320A (en) |
-
2022
- 2022-06-23 JP JP2022101437A patent/JP2024002320A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10110902B2 (en) | Method and apparatus for encoding/decoding motion vector | |
CN110741640B (en) | Optical flow estimation for motion compensated prediction in video coding | |
TWI692248B (en) | Method of decoding image, apparatus and method of encoding an image, and non-transitory computer-readable medium | |
KR101672790B1 (en) | Prediction encoding method, prediction encoding device, and prediction encoding program for motion vector, as well as prediction decoding method, prediction decoding device, and prediction decoding program for motion vector | |
JP2020526109A (en) | Motion vector refinement for multi-reference prediction | |
JP2018088695A (en) | Merge candidate block guide method and apparatus using the same | |
WO2016050051A1 (en) | Image prediction method and relevant device | |
JP2012504924A (en) | Video signal processing method and apparatus | |
CN108419082B (en) | Motion estimation method and device | |
JP2024002320A (en) | Image encoding device, method, and program | |
CN113873257B (en) | Method, device and equipment for constructing motion information candidate list | |
CN112449180B (en) | Encoding and decoding method, device and equipment | |
CN112449181B (en) | Encoding and decoding method, device and equipment | |
CN113747166B (en) | Encoding and decoding method, device and equipment | |
CN111699689B (en) | Video processing method, device and equipment | |
CN112055220B (en) | Encoding and decoding method, device and equipment | |
KR20130065673A (en) | Apparatus for decoding motion vector | |
KR20130065672A (en) | Method for decoding motion vector | |
CN118055253A (en) | Optical flow estimation for motion compensated prediction in video coding | |
KR20160059511A (en) | Method and apparatus for block vector prediction of intra block copy in video encoder and decoder | |
KR20130062960A (en) | Method for decoding motion vector |