JP7265114B2 - 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム - Google Patents

予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム Download PDF

Info

Publication number
JP7265114B2
JP7265114B2 JP2018213790A JP2018213790A JP7265114B2 JP 7265114 B2 JP7265114 B2 JP 7265114B2 JP 2018213790 A JP2018213790 A JP 2018213790A JP 2018213790 A JP2018213790 A JP 2018213790A JP 7265114 B2 JP7265114 B2 JP 7265114B2
Authority
JP
Japan
Prior art keywords
predicted image
image
signal
predicted
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018213790A
Other languages
English (en)
Other versions
JP2020080515A (ja
Inventor
陽光 曽我部
志織 杉本
誠之 高村
淳 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018213790A priority Critical patent/JP7265114B2/ja
Priority to US17/291,394 priority patent/US11523132B2/en
Priority to PCT/JP2019/043593 priority patent/WO2020100701A1/ja
Publication of JP2020080515A publication Critical patent/JP2020080515A/ja
Application granted granted Critical
Publication of JP7265114B2 publication Critical patent/JP7265114B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラムに関する。
圧縮センシングは、本来、取得したい対象である未知の原信号を、原信号の代わりに取得された、より少ない要素数の観測信号から生成するサンプリング技術である(非特許文献1参照)。観測信号は、N次元のベクトルである原信号xに「M×N」次元の観測行列Φを乗算することによって生成されるM次元(ここで、M<<N)のベクトルである。圧縮センシングでは、対象の原信号がスパース(疎)であることが仮定されている。また、原信号自体がスパースでなくとも、ある線形変換によってスパースに変換される場合でもよい。以下、圧縮センシングにおいて、観測行列Φと観測信号とから原画像を求める処理を「復元」という。また、観測行列Φは、事前に定義されており、常に既知として扱われる。
M次元の観測信号からN次元の原信号を復元することは、不良設定問題である。つまり、一般に解を一意に定めることはできない。圧縮センシングでは、原信号がある変換行列によってスパースに変換されることが仮定されることによって、M次元の観測信号からN次元の原信号が復元される。
原信号を復元する方法の典型例では、ある変換によって原信号をスパースな変換係数に変換可能であることが仮定されている。変換係数のL1ノルム(絶対値和)を正則化項として式に追加することによって、式(1)のように原信号が復元される。
Figure 0007265114000001
ここで、Ψは、離散コサイン変換又は離散ウェーブレット変換等のスパース変換行列を表す。λは、重み係数を表す。一般に画像信号を、離散コサイン変換すると、高周波成分の基底ベクトルに対応する変換係数の絶対値が小さくなることが知られており、Ψxはスパースなベクトルであると仮定できる。式(1)において、Mが小さいほど圧縮効率は高いが、Mが小さいほど復元性能は低下する。(M/N)が1に近いほど、圧縮センシングにおける復元性能は高くなる。原信号の変換係数Ψxが高いスパース性を有しているほど、すなわち変換係数Ψxにおいて非ゼロ係数が少ないほど、圧縮センシングにおける復元性能は高くなる。したがって、復元対象の原信号が高いスパース性を有していれば、Mが小さい場合でも、観測信号から原画像を高精度で復元することが可能である。また、L1正則化による復元以外にも、機械学習を用いる復元等が提案されている。例えば、畳み込みニューラルネットワークを用いる復元では、変換行列Ψが明に定義されておらず、観測信号を入力とし、復元した原信号を出力とする畳み込みニューラルネットワークが構築される。
圧縮センシングを用いる動画像符号化では、復号装置は、圧縮センシングにおける復元処理を観測信号から原画像に対して行うのではなく、原画像自体よりもスパース性が高いと仮定される予測残差信号が、式(2)のように復元される(非特許文献2参照)。これは、復元対象の信号が高いスパース性を有しているほど、復元性能が向上できるという圧縮センシングの性質に基づいている。符号データは、観測信号から生成されるため、符号データの符号量はMに大きく依存する。そのため、復元性能向上は、符号化性能向上を意味する。
Figure 0007265114000002
ここで、xは、復元された予測残差信号を表す。yは、予測残差信号の観測信号を表す。予測残差信号の観測信号yは、「y=y-Φp」と表される。この「p」は、予測信号を表す。
このような圧縮センシングを用いる動画像符号化装置は、原信号に対して圧縮サンプリングを実行することによって観測信号を生成し、生成された観測信号を符号化すればよく、原信号についての予測信号(予測画像)を生成する必要はない。復号装置は、伝送された符号データから観測信号を復号する。復号装置は、復号された観測信号及び参照信号(参照画像)から、予測信号を生成する。復号装置は、復号された観測信号と復号装置で生成した予測信号とから、行列の乗算及び引き算によって、予測残差信号の観測信号(y=y-Φp)を生成する。復号装置は、圧縮センシングにおける復元処理を適用することで、予測残差の観測信号から、予測残差信号を生成する。復号装置は、復元された予測残差信号と予測信号との和を求めることで原画像を復元し、復元された原画像を復号装置から出力する。
H.265/HEVC(High Efficiency Video Coding)(非特許文献3参照)等の一般的な動画像符号化方式では、符号化装置が、復号済み画像を用いて予測画像を生成する。そのために、符号化装置は、構成要素として、復号済み画像の生成のための復号装置を持つことが必須となる。この制約により、符号化装置の計算負荷は、復号装置の計算負荷よりも常に大きくなる。一方で、圧縮センシングを用いる動画像符号化装置では、予測画像を生成しないために、符号化装置が復号装置を内包する必要がなく、復号装置よりも計算負荷が小さい符号化装置の実現が可能である。
圧縮センシングを用いる動画像符号化において、予測処理は非常に重要な技術である。圧縮センシングを用いる動画像符号化において高精度の予測残差信号を生成することは、符号量の削減に直結する。復号装置は、予測残差信号のスパース性に基づいて、原信号を観測信号から復元する。このため、画像信号の予測精度が高いほど予測残差信号のスパース性が向上するので、復号装置は、高精度の予測残差信号を生成することができる。
H.265/HEVC等の一般的な動画像符号化方式では、符号化装置が、予測信号を生成し、その予測信号と同一の予測信号を復号装置で生成するために必要な予測情報を復号装置に伝送する。そのため、予測精度と予測情報の符号量はトレードオフの関係にある。したがって、一般的な動画像符号化では、非常に多数の変数を必要とする予測方法は適さない。例えば、動き補償予測における予測信号を生成するために必要な予測情報である動きベクトルの数は、1本又は2本が一般的である。2本以上の動きベクトルを用いて符号化装置が予測信号を生成する場合、従来の符号化装置は、各動きベクトルから予測信号を生成し、生成された2本以上の予測信号を単純に平均するか、フレーム又はブロックごとに定められる重み係数を用いて2本以上の予測信号を足し合わせる。
圧縮センシングを用いる動画像符号化において、復号装置は予測処理を実行するが、符号化装置は予測処理を実行しない。このため、予測情報が符号データに含まれないので、符号化装置が符号データのデータ量を予測信号によって増加させることなく、復号装置は、多数の変数に基づいて予測信号を生成することができる。
圧縮センシングを用いる動画像符号化における予測信号の生成方法は、多数提案されている。ブロック単位の圧縮センシングを用いる動画像符号化において、符号化装置は、線形結合によって、複数の予測画像が合成された画像(以下「合成予測画像」という。)を生成する(非特許文献4)。重み係数wは、Tikhonov正則化法が用いられることによって、閉形式で決定される。合成予測画像pは、式(3)のように表される。
Figure 0007265114000003
ここで、合成予測画像pは、「N=B」次元の列ベクトルの形式で表現される。Bは、ブロックサイズを表す。Hは、「B×K」次元の行列を表す。Kは、予測画像候補に含まれている予測画像の数を表す。Hの各列ベクトルは、参照画像の中の探索範囲のブロック列を表す。式(3)に示された重み係数wは、K次元の列ベクトルで表される。重み係数wの各要素は、Hの各列ベクトルである予測画像候補に対応するスカラー値である。式(3)は、式(4)のように表される。
Figure 0007265114000004
ここで、hは、集合Rの要素(予測画像候補)であり、Hのj列目の列ベクトルを表す。cは、集合Rの要素であり、式(3)に示された重み係数wのj列目の要素を表す。合成予測画像pは、予測画像候補hの線型結合によって生成される。最適な重み係数wは、式(5)のように表される。
Figure 0007265114000005
ここで、Φは、観測信号の行列(観測行列)を表す。これを解く問題は不良設定問題である。このため、Tikhonov正則化項Γが式(5)に追加され、重み係数wt,iは、式(6)のような閉形式で表される。
Figure 0007265114000006
非特許文献5では、4分割された特定のサブブロック以外の要素が0である。このようにして予測画像候補が生成されることによって、最適な予測画像がサブブロック単位で生成される。非特許文献5の重み係数は、非特許文献4と同様に、Tikhonov正則化によって決定される。
Emmanuel J Cand`es and Michael B Wakin. "An introduction to compressive sampling," IEEE signal processing magazine, Vol. 25, No. 2, pp. 21-30, 2008. Thong T Do, Yi Chen, Dzung T Nguyen, Nam Nguyen, Lu Gan, and Trac D Tran, "Distributed compressed video sensing," In Information Sciences and Systems, 2009. CISS 2009. 43rd Annual Conference on, pp. 1-2. IEEE, 2009. ISO ISO/IEC 23008-2:2017, "Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 2: High efficiency video coding," Oct 2017. Eric W Tramel and James E Fowler, "Video compressed sensing with multihypothesis," In Data Compression Conference (DCC), 2011, pp. 193-202. IEEE, 2011. Chen Chen, Eric W Tramel, and James E Fowler, "Compressed-sensing recoveryof images and video using multihypothesis predictions," In Signals, Systems and Computers (ASILOMAR), 2011 Conference Record of the Forty Fifth Asilomar Conference on, pp. 1193-1198. IEEE, 2011.
圧縮センシングを用いる動画像符号化において、高精度の予測画像の生成は、符号化効率に直結する。H.265/HEVC等の一般的な動画像符号化方式では、Prediction Unit(PU)と呼ばれる予測単位ブロックが設定されており、PUの可変的なブロック分割形状がレート歪最適化によって決定される。一方で、画像のフレームを構成するブロック単位の圧縮センシングを用いる動画像符号化では、レート歪最適化が実行されず、固定サイズのブロックに原画像が分割される。このため、1本の動きベクトルによる動き補償では、高精度の予測画像が生成されず、予測残差信号がスパースにならないことがある。例えば、原画像を構成するあるブロックにおいて前景画像及び背景画像が別々に移動する場合、1本の動きベクトルによる動き補償では原画像が正確に近似されず、予測残差信号がスパースにならないことがある。このような場合、復号装置は、前景画像用の予測画像を合成予測画像の前景領域に当てはめ、背景画像用の予測画像を合成予測画像の背景領域に当てはめれば、原画像に類似する高精度の合成予測画像を生成することができる。しかしながら、この方法は、例えば非特許文献4では問題がある。
図6は、予測画像候補に含まれている2枚の予測画像と合成予測画像との例を示す図である。非特許文献4では、復号装置は、予測画像候補をスカラー値の重み係数を用いて線形結合することによって、合成予測画像を生成する。図6では、合成予測画像p(=ka+kb)は、予測画像a及び予測画像bとスカラー値k及びkとに基づいて、非特許文献4に開示された方法によって生成されている。
図6では、予測画像aは、原画像xにおける右下以外の領域に一致している。予測画像bは、原画像xにおける右下の領域に一致している。このように、予測画像が原画像xの局所領域のみで正確である場合、非特許文献4のように予測画像候補ごとにスカラー値の重み係数を持つ線型結合では、予測画像候補は、原画像の全域に対する重み係数を有している。このため、予測画像a及び予測画像bが合成された画像である合成予測画像pは、原画像に類似していない。非特許文献5では、予測画像候補がサブブロック単位で生成されているものの、予測画像候補は、サブブロックの全域に対する重み係数を有している。サブブロックの分割方式は、四分木分割であり、サブブロックの各辺を半分とした4個の正方形への固定的な分割である。このため、そのサブブロックと前景領域の形状とが一致しないとき、合成予測画像pは、原画像を近似していない。このように、従来の装置は、動画像等の信号の圧縮効率を向上させることができない場合があった。
上記事情に鑑み、本発明は、信号の圧縮効率を向上させることが可能である予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラムを提供することを目的としている。
本発明の一態様は、復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置であって、前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得る補間係数取得部と、前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得る合成予測画像取得部とを備え、前記観測信号を構成する画素は、前記原画像の線形和で表現されている、予測画像取得装置である。
本発明の一態様は、上記の予測画像取得装置であって、前記第1の予測画像は、前記原画像における第1領域との相関が高い領域を含み、前記第2の予測画像は、前記原画像における第1領域の相補領域である第2領域との相関が高い領域を含む。
本発明の一態様は、上記の予測画像取得装置であって、前記補間係数は、予め定められた変換基底に基づいて、スパース性が高くなるよう設定されている。
本発明の一態様は、上記の予測画像取得装置であって、前記補間係数は、前記第1の予測画像の画素と前記第2の予測画像の画素とのいずれを前記合成予測画像の画素とするかを、画素ごとに表す実数である。
本発明の一態様は、復号対象の信号である原信号から得られた信号であり、かつ、前記原信号よりも低次元な信号である観測信号と、前記原信号との相関が高い第1の予測信号と、前記原信号との相関が高い第2の予測信号と、を関連付けることで合成予測信号を得る予測信号取得装置を備える原信号取得装置であって、前記第1の予測信号と、前記第2の予測信号と、前記観測信号とから、前記合成予測信号の要素ごとに設定される補間係数を得る補間係数取得部と、前記第1の予測信号と前記第2の予測信号とを、要素ごとに前記補間係数を用いて合成することで前記合成予測信号を得る合成予測信号取得部と、前記合成予測信号を用いて前記原信号を再構成する再構成部とを備え、前記観測信号を構成する要素は、前記原信号の線形和で表現されている、原信号取得装置である。
本発明の一態様は、復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置が実行する予測画像取得方法であって、前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得るステップと、前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得るステップとを有し、前記観測信号を構成する画素は、前記原画像の線形和で表現されている、予測画像取得方法である。
本発明の一態様は、復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置のコンピュータに、前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得る手順と、前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得る手順とを実行させ、前記観測信号を構成する画素は、前記原画像の線形和で表現されている、プログラムである。
本発明により、信号の圧縮効率を向上させることが可能である。
実施形態における、符号化装置の構成例を示す図である。 実施形態における、符号化装置の動作例を示すフローチャートである。 実施形態における、復号装置の構成例を示す図である。 実施形態における、復号装置の動作例を示すフローチャートである。 実施形態における、予測画像候補に含まれている2枚の予測画像と合成予測画像との例を示す図である。 予測画像候補に含まれている2枚の予測画像と合成予測画像との例を示す図である。
本発明の実施形態について、図面を参照して詳細に説明する。
(概要)
圧縮センシングを用いる符号化において、符号化装置は、符号化対象のデータ(原信号)に対して圧縮センシングのサンプリング(以下「圧縮サンプリング」という。)を実行することによって、観測信号を生成する。符号化装置は、観測信号に対して量子化処理を実行する。符号化装置は、量子化された観測信号に対してエントロピー符号化を実行することによって、観測信号の符号データを生成する。原信号は、画像信号に限られない。以下では、符号化装置は、圧縮センシングを用いる符号化の一例として、原画像の量子化及びエントロピー符号化を実行することよって、画像の符号データを生成する。画像は、2次元の動画像と、2次元の静止画像と、3次元の動画像と、3次元の静止画像と、医療用等の透視画像と、グラフとのうちのいずれでもよい。
実施形態の復号装置は、予測画像取得装置を備える。以下、補間係数は、第1の予測画像の画素と第2の予測画像の画素とのいずれを合成予測画像の画素とするかを画素ごとに表す任意の実数である。補間係数は、予め定められた変換基底に基づいて、スパース性が高くなるよう設定されている。補間係数は、画素ごとに設定されている。このため、以下、補間係数を「補間係数ベクトル」という。予測画像取得装置は、予測画像(予測信号)の補間係数ベクトルに基づいて、2枚以上の予測画像(予測画像候補)を線形結合等によって合成する。補間係数ベクトルは、2枚以上の予測画像のうちのいずれの予測画像が合成予測画像に影響を強く与えているのかを、予測画像の画素ごとに表す。実施形態では、補間係数ベクトルがスパースであることが仮定されている。
補間係数ベクトルは、復号対象画像(原画像)のブロックの次元数と同じ次元数を持つ列ベクトルで表現される。2枚の予測画像とM次元の観測信号とに基づいてN次元の補間係数ベクトルを算出するという問題は、一般に不良設定問題である。実施形態では、補間係数ベクトルがスパースであることが仮定されているので、通常の圧縮センシングと同様の方法、すなわちL1ノルム正則化項が式に追加されるという方法によって、予測画像取得装置は補間係数ベクトルを生成する。
以下では、数式において文字の上に付されている記号は、文字の前に記載される。例えば、数式において文字の上に付されている記号「^」は、以下では文字「x」の前に「^x」のように記載される。
予測画像取得装置は、予測画像候補である予測画像a及び予測画像bと補間係数ベクトルwとに基づいて、式(7)のように合成予測画像「^x」を生成する。
Figure 0007265114000007
ここで、「^x」と「a」と「b」と「w」とのそれぞれは、N(=B)次元の列ベクトルで表現される。記号「〇」はアダマール積を表す。予測画像bに含まれている領域は、原画像に含まれている第1領域(局所空間的)に類似する。予測画像aに含まれている領域は、原画像に含まれている第2領域に類似する。第2領域は、原画像における第1領域の相補領域である。補間係数ベクトルwは、スパース性を有する。
予測画像取得装置は、観測信号(符号データ)に基づいて、補間係数ベクトルを決定する。予測画像取得装置は、原画像の領域に類似する予測画像の領域の特徴を、補間係数ベクトルとして保存する。
予測画像取得装置は、予測画像候補のうちから、合成される2枚の予測画像を選択する。実施形態では、予測画像の全域が原画像の全域に類似しているよりも、原画像における第1領域に第1の予測画像の領域が類似し、原画像における第2領域に第2の予測画像の領域が類似しているほうが望ましい。予測画像取得装置は、原画像における相補的な各領域に類似する領域を含む2枚の予測画像を、予測画像候補のうちから選択する。予測画像取得装置は、選択された第1の予測画像に含まれている領域と、選択された第2の予測画像に含まれている領域とを、画素ごとの補間係数ベクトルに基づいて合成する。
(第1実施形態)
図1は、符号化装置100の構成例を示す図である。符号化装置100は、圧縮センシングを用いる符号化処理を実行する装置である。符号化装置100は、動画像入力部101と、圧縮サンプリング部102と、量子化部103と、エントロピー符号化部104とを備える。
符号化装置100は、記憶部を更に備えてもよい。記憶部は、例えばフラッシュメモリ、HDD(Hard Disk Drive)などの不揮発性の記録媒体(非一時的な記録媒体)が好ましい。記憶部は、RAM(Random Access Memory)などの揮発性の記録媒体を備えてもよい。記憶部は、例えば、符号化用のプログラムを記憶する。
符号化装置100の一部又は全部は、CPU(Central Processing Unit)等のプロセッサが、記憶部に記憶されたプログラムを実行することにより実現される。符号化装置100の各機能部のうち一部又は全部は、例えば、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェアを用いて実現されてもよい。
動画像入力部101は、符号化対象の動画像を、符号化装置100の外部から取得する。圧縮サンプリング部102は、予め定められた観測行列Φを用いて、符号化対象のフレームを構成するブロック(符号化対象ブロック)に対して圧縮サンプリングを実行することによって、観測信号を生成する。観測行列Φは、どのような要素の行列でもよく、例えばランダム行列でもよい。量子化部103は、生成された観測信号を量子化することによって、量子化データを生成する。
エントロピー符号化部104は、量子化データに対してエントロピー符号化を実行することによって、観測信号の符号データを生成する。量子化及びエントロピー符号化の方式は、特定の方式に限定されない。エントロピー符号化部104は、符号化対象の全フレームを、圧縮センシングを用いて符号化する必要はない。エントロピー符号化部104は、圧縮センシングを用いて符号化対象の一部のフレームを符号化し、HEVC又はJPEG(Joint Photographic Experts Group)等の画像符号化方式を用いて符号化対象の残りのフレームを符号化してもよい。これによって、エントロピー符号化部104は、計算量が多いHEVC又はJPEG等の画像符号化方式を用いて符号化されるフレームの枚数を削減することができるので、符号化の計算量を削減することができる。
図2は、符号化装置100の動作例を示すフローチャートである。動画像入力部101は、符号化対象の動画像を、符号化装置100の外部から取得する。動画像入力部101は、符号化対象の動画像の各フレームを、符号化対象画像として圧縮サンプリング部102に順次出力する(ステップS101)。
符号化装置100は、ステップS102からステップS104までの各処理を、符号化対象画像の符号化対象ブロックごとに実行する。
圧縮サンプリング部102は、符号化対象画像の符号化対象ブロックを取得する(ステップS102)。圧縮サンプリング部102は、予め定められた観測行列Φを用いて符号化対象ブロックに対して圧縮サンプリングを実行することによって、観測信号を生成する。すなわち、圧縮サンプリング部102は、N次元の列ベクトルxで表現される符号化対象画像の符号化対象ブロックに、M×N(ここで、M<<N)次元の観測行列Φを乗算することによって、M次元の列ベクトルで表現される観測信号y(=Φx)を生成する(ステップS103)。
なお、圧縮サンプリング部102は、演算処理以外によって、観測信号y(=Φx)を生成してもよい。例えば、圧縮サンプリング部102は、レンズ及び撮像素子の間にコーデッド・アパーチャ・マスク(coded aperture masks)が配置されている場合、コーデッド・アパーチャ・マスクを用いて光の透過率を画素単位で制御することによって、原画像の撮像時に観測信号yを生成してもよい。
量子化部103は、生成された観測信号を量子化することによって、量子化データを生成する。エントロピー符号化部104は、量子化データに対してエントロピー符号化を実行することによって、符号化対象画像の符号データを生成する(ステップS104)。
ステップS102からステップS104までの各処理が符号化対象画像の全ての符号化対象ブロックに対して実行された場合、エントロピー符号化部104は、符号化対象画像の符号データを、復号装置に出力する(ステップS105)。
次に、復号装置(原信号取得装置、原画像取得装置)について説明する。
図3は、復号装置200の構成例を示す図である。圧縮センシングを用いる復号処理を実行する装置である。復号装置200は、符号データ入力部201と、エントロピー復号部202と、逆量子化部203と、参照画像メモリ204と、予測画像取得装置205とを備える。予測画像取得装置205は、予測画像候補生成部206と、予測画像選択部207と、係数ベクトル生成部208と、予測画像合成部209とを備える。復号装置200は、圧縮サンプリング部210と、減算部211と、予測残差復元部212と、加算部213とを更に備える。
復号装置200は、記憶部を更に備えてもよい。記憶部は、例えばフラッシュメモリ、HDDなどの不揮発性の記録媒体(非一時的な記録媒体)が好ましい。記憶部は、RAMなどの揮発性の記録媒体を備えてもよい。記憶部は、例えば、復号用のプログラムを記憶する。
復号装置200の一部又は全部は、CPU等のプロセッサが、記憶部に記憶されたプログラムを実行することにより実現される。復号装置200の各機能部のうち一部又は全部は、例えば、LSIやASIC等のハードウェアを用いて実現されてもよい。
符号データ入力部201は、符号データを符号化装置100から取得する。エントロピー復号部202(再構成部)は、復号対象ブロックの符号データに対して、エントロピー復号処理(再構成処理)を実行する。逆量子化部203は、エントロピー復号された符号データに対して逆量子化処理を実行することによって、観測信号yを復号する。
復号装置200は、符号データ入力部201に順次入力された各符号データに含まれている復号対象フレームについて、観測信号を復号する。参照画像メモリ204は、例えば前回までに復号された画像を、参照画像として記憶する。予測画像取得装置205は、復号された観測信号と、参照画像メモリ204に記憶されてる画像とに基づいて、原画像の予測画像(予測信号)である合成予測画像を生成する。
予測画像候補生成部206は、参照画像メモリ204に記憶されている参照画像に基づいて、複数の予測画像を予測画像候補として生成する。予測画像選択部207は、予測画像候補のうちから2枚の予測画像(予測画像ペア)を、復号された観測信号に基づいて選択する。
選択された第1の予測画像に含まれている第1領域は、原画像(復号対象画像)に含まれている第1領域との相関が高い。選択された第2の予測画像に含まれている第2領域は、原画像に含まれている第1領域以外の領域である第2領域との相関が高い。この相関とは、原画像の画素の画素値と予測画像の画素の画素値との差(近さ)、すなわち、原画像に含まれている領域の画像と予測画像に含まれている領域の画像との類似度である。相関が高い(低い)とは、原画像及び第1の予測画像の間の相関と、原画像及び第2の予測画像の間の相関とのうちで、相対的にどちらの相関が高いか(低いか)を意味する。
係数ベクトル生成部208は、2枚の予測画像と観測信号yとに基づいて、最適化問題によって補間係数ベクトルwを生成する。予測画像合成部209(予測信号合成部、合成予測信号取得部、予測信号取得装置)は、2枚の予測画像に基づいて、合成予測画像302「p」を生成する。
圧縮サンプリング部210は、合成予測画像pを予測画像合成部209から取得する。圧縮サンプリング部210は、合成予測画像p及び観測行列Φに基づいて、予測画像(予測信号)の観測信号Φpを生成する。減算部211は、逆量子化部203によって復号された観測信号yから、予測信号の観測信号Φpを減算する。減算部211は、減算結果である予測残差信号の観測信号「y-Φp」を、予測残差復元部212に出力する。予測残差復元部212は、予測残差信号の観測信号「y-Φp」に基づいて、予測残差信号を復元する。加算部213は、復元された予測残差信号と予測画像とを加算することによって、復号対象ブロックの画像を復号する。復号対象画像のフレームにおける全ての復号対象ブロックの画像が復号された場合、加算部213は、復号された復号対象画像(動画像)のフレームを、参照画像メモリ204と所定の外部装置とに出力する。
図4は、復号装置200の動作例を示すフローチャートである。符号データ入力部201は、符号データを符号化装置100から取得する。符号データ入力部201は、符号データをエントロピー復号部202に出力する。観測行列Φは予め定義されており、符号化装置100及び復号装置200は、同一の観測行列Φを保持している。また、符号データ入力部201は、符号化装置100によって符号化された観測行列Φを取得してもよい。復号装置200は、符号化装置100が使用した観測行列Φと同じ観測行列Φを取得する(ステップS201)。
復号装置200は、ステップS202からステップS209までの各処理を、復号対象画像(原画像)の復号対象ブロックごとに実行する。
エントロピー復号部202は、復号対象ブロックの符号データに対して、エントロピー復号処理を実行する(ステップS202)。逆量子化部203は、エントロピー復号された符号データに対して逆量子化処理を実行することによって、観測信号を生成する(ステップS203)。
参照画像メモリ204は、予測画像取得装置205と予測残差復元部212と加算部213とによって復号された画像を、参照画像として記憶する。参照画像は、予測画像取得装置205が復号対象画像の合成予測画像を予測する際に参照可能な画像である。参照画像は、復号対象画像に対して高い相関性を有する画像(画素値が互いに近い画像)であれば、特定の画像に限定されない。参照画像は、復号対象画像のフレームとは別のフレームが復号された画像でもよいし、復号対象画像のフレームと同じフレームにおける復号済のブロックの画像でもよい。参照画像は、HEVC又はJPEG等の画像符号化方式で符号化及び復号された画像でもよい。参照画像は、何らかの方法で生成された復号対象画像に含まれている前景画像(被写体等の画像)及び背景画像を含んでもよい。
予測画像取得装置205は、ステップS202からステップS209において、観測信号及び参照画像に基づいて予測画像(予測信号)を生成する。
図5は、予測画像候補に含まれている2枚の予測画像と合成予測画像との例を示す図である。予測画像取得装置205は、予測画像選択部207によって選択された予測画像300「a」及び予測画像301「b」に対して補間係数ベクトルwを用いた線形補間を実行することによって、式(8)のように合成予測画像pを生成する。
Figure 0007265114000008
ここで、「p」と「a」と「b」と「w」とのそれぞれは、N(=B)次元の列ベクトルで表現される。記号「〇」はアダマール積を表す。予測画像300「a」に含まれている領域は、原画像303「x」に含まれている第1領域(局所空間的)に類似する。予測画像301「b」に含まれている領域は、原画像303「x」に含まれている第2領域に類似する。第2領域は、原画像における第1領域の相補領域である。補間係数ベクトルwは、スパース性を有する。
予測画像取得装置205は、2枚の予測画像を予測画像候補から選択する。予測画像取得装置205は、補間係数ベクトルwを用いた線形補間を、選択された2枚の予測画像に対して実行する。予測画像取得装置205は、予測画像300「a」において原画像303「x」の第1領域に類似する領域と、予測画像301「b」において原画像303「x」の第2領域に類似する領域とを合成することによって、原画像303「x」に類似する合成予測画像302「p」を生成する。
図4に戻り、復号装置200の動作例の説明を続ける。予測画像候補生成部206は、参照画像メモリ204に記憶されている参照画像に基づいて、K枚の予測画像を予測画像候補として生成する。予測画像候補生成部206が予測画像候補hを生成する方法は、特定の方法に限定されない。
例えば、予測画像候補生成部206は、参照画像を参照するインター予測によって予測画像候補hを生成する場合、参照画像における探索範囲内で所定数の画素ごとに参照領域をずらすことによって、予測画像候補hを生成する。予測画像候補生成部206は、復号対象画像のフレームと同じフレームにおける復号されたブロックの画像に基づいてイントラ予測で予測画像を生成する場合、取り得る全ての予測モードでそれぞれ生成された各予測画像を、予測画像候補に含めてもよい。予測画像候補において、インター予測によって生成された予測画像と、インター予測によって生成された予測画像とが混在してもよい。予測画像候補生成部206は、一般的な動画像符号化でも試みられているアフィン変換又は輝度補正等を用いて、予測画像候補に含まれる予測画像を生成してもよい(ステップS204)。
予測画像選択部207は、予測画像候補を予測画像候補生成部206から取得する。予測画像選択部207は、復号された観測信号を、逆量子化部203から取得する。予測画像選択部207は、予測画像候補のうちから2枚の予測画像(予測画像ペア)を、復号された観測信号に基づいて選択する。予測画像選択部207が予測画像候補{h|k∈K}のうちから2枚の予測画像を選択する方法は、特定の方法に限定されない。
仮に1枚の予測画像を予測画像選択部207が予測画像候補から選択する場合、復号装置200では原画像xが未知であるため、予測画像候補hのうちから最適な予測画像を選択することは困難である。そこで、予測画像候補hのうちから最適な予測画像を選択する2通りの方法(第1の選択方法及び第2の選択方法)が存在する。
第1の選択方法において、予測画像選択部207は、原画像xを観測信号yから復号し、復号された原画像xと予測画像との間の残差平方和(sum of squared errors of prediction:SSE)を最小化する予測画像を、予測画像候補から選択する。
Figure 0007265114000009
ここで、「x」は、復号された原画像を表す。第1の選択方法(xドメインのSSE)による予測画像の推定精度は、「x」の復号性能に大きく依存する。予測画像選択部207は、復号された原画像「x」を、予測画像の選択に用いる。予測画像選択部207は、予測残差信号を復号することによって、最終的に復号された原画像(復号対象画像)を生成する。
第2の選択方法(yドメインのSSE)において、予測画像選択部207は、復号された観測信号と予測画像の観測信号との残差平方和に基づいて、式(10)のように予測画像を予測画像候補から選択する。
Figure 0007265114000010
2枚の予測画像を予測画像選択部207が予測画像候補から選択する場合、選択される予測画像300「a」及び予測画像301「b」が原画像303「x」の全域に類似しているよりも、原画像303「x」における第1領域に予測画像300「a」の領域が類似し、原画像303「x」における第1領域の相補領域である第2領域に予測画像301「b」の領域が類似しているほうが望ましい。このため、予測画像選択部207は、「xドメインのSSE」又は「yドメインのSSE」が小さい順に、単に1番目の予測画像候補hを予測画像300「a」とし、単に2番目の予測画像候補hを予測画像301「b」としなくてもよい。予測画像選択部207は、式(11)に示された目的関数に基づいて、予測画像300「a」及び予測画像301「b」のコストを評価する。式(11)は、原画像303「x」における領域で、予測画像300「a」が原画像303「x」に類似し、原画像303「x」における相補領域で、予測画像301「b」が原画像303「x」に類似するほど、小さい値(少ないコスト)を示す。
Figure 0007265114000011
ここで、「」は、復号された観測信号(原画像)「x」のi番目の要素(画素)を表す。予測画像「a」は、予測画像「a」のi番目の要素(画素)を表す。予測画像「b」は、予測画像「b」のi番目の要素(画素)を表す。
予測画像選択部207は、式(11)に示された目的関数に基づいてxドメインで予測画像300「a」及び予測画像301「b」のコストを評価してもよいし、同様の目的関数に基づいてyドメインで予測画像300「a」及び予測画像301「b」のコストを評価してもよい。
予測画像選択部207は、参照画像と予測画像候補と復号された観測信号とを用いて、式(12)に基づいて、予測画像300「a」及び予測画像301「b」を予測画像候補から選択する。
Figure 0007265114000012
式(12)の時間計算量は、式(13)のように表される。
Figure 0007265114000013
式(12)の時間計算量は、予測画像選択部207がインター予測を実行する場合、予測画像候補「h∈{h|k∈K}」のうちの探索空間における極小値の時間計算量のみが対象とされてもよい。極小値の数がK’(ここで、K’≦K)である場合、式(13)の時間計算量は、式(14)のように表される(ステップS205)。
Figure 0007265114000014
係数ベクトル生成部208は、予測画像300「a」及び予測画像301「b」と、観測信号yに基づいて、最適化問題によって補間係数ベクトルwを生成する(ステップS206)。
補間係数ベクトルwのスパース性について説明する。図5では、予測画像合成部209は、予測画像300「a」及び予測画像301「b」に基づいて、合成予測画像302「p」を生成する。予測画像300「a」は、原画像303「x」における第1領域で、原画像303「x」に一致している。予測画像301「b」は、原画像303「x」における第1領域の相補領域である第2領域で、原画像303「x」に一致している。「w∈{0,1}」が成立する場合、補間係数ベクトルwは、予測画像300「a」及び予測画像301「b」に対するマスクの役割を果たす。すなわち、補間係数ベクトルwは、予測画像300「a」又は予測画像301「b」のどちらの画素を選択するかを、合成予測画像302「p」の画素ごとに表す。
補間係数ベクトルwは、予測画像候補に含まれている1枚の予測画像で高精度に表現できる原画像303「x」の領域を意味する。補間係数ベクトルwは、高いスパース性を持っていると仮定できる。なぜなら、例えば、予測画像300「a」及び予測画像301「b」のそれぞれが動き補償によるインター予測画像である場合、補間係数ベクトルwが原画像303「x」における移動体画像の形状を表すセグメンテーション画像となるので、補間係数ベクトルwが高いスパース性を持っていると期待できるからである。
図4に戻り、復号装置200の動作例の説明を続ける。補間係数ベクトルwの要素wが「w∈[0,1]」であると定義された場合、式(8)で定義された合成予測画像pの要素pが「p=w+(1-w)b」となる。このため、合成予測画像pは、予測画像a及び予測画像bの内挿補間で表される。合成予測画像pは、予測画像aの画素値と予測画像bの画素値との間の画素値で表される。
補間係数ベクトルwの要素wが任意の実数であると定義された場合、合成予測画像pは、互いに画素値が異なる予測画像a及び予測画像bの外挿補間で表される。合成予測画像pは、係数w1iと係数w2iとの和が任意である場合、「p=w1i+w2i」のような線形結合で表される。なお、合成予測画像pの画素値の表現範囲は、内挿補間、外挿補間又は線形結合に応じて限定されてもよい。
補間係数ベクトルwのスパース性が仮定されているので、補間係数ベクトルwは、圧縮センシングの復元方法と同様の方法で生成される。補間係数ベクトルwを生成する方法は、圧縮センシングの復元で用いられる効果的な方法と同様の方法であれば、L1正則化又は機械学習を用いた復元方法等のどのような方法でもよい。
式(15)は、L1正則化によって補間係数ベクトルwを生成する最適化問題の目的関数の定義例を表す。
Figure 0007265114000015
ここで、式(16)及び式(17)が成立している。
Figure 0007265114000016
Figure 0007265114000017
式(15)の形式と式(1)の形式とが同じであるため、補間係数ベクトルwを生成する最適化問題は、凸最適問題である。圧縮センシングで用いられるL1正則化の解法は、補間係数ベクトルwの生成に適用可能である。
L1正則化によって補間係数ベクトルwを生成する最適化問題の目的関数は、TV(Total Variation)ノルム項が追加された式(18)でもよい。式(18)を用いることによって、予測画像合成部209は、高周波ノイズを抑制して、主観画質が向上された合成予測画像pを生成することが可能である。
Figure 0007265114000018
ここで、λ及びλは、予め定められた任意の重み係数を表す。
係数ベクトル生成部208は、式(15)及び式(18)で表される補間係数ベクトルwのスパース性を利用して、L1正則化等によって最適化問題を解くことで、補間係数ベクトルwを生成する。補間係数ベクトルwを生成する方法は、補間係数ベクトルwのスパース性を利用し、圧縮センシングされた信号の復元に利用可能な方法であれば、特定の方法に限定されない。例えば、補間係数ベクトルwを生成する方法は、式(15)及び式(18)で表される最適化問題に帰着する復元方法以外でもよいし、混合ガウシアンモデル又は畳み込みニューラルネットワーク等の機械学習を用いる復元方法でもよい。式(15)及び式(18)で表される最適化問題に生成方法が帰着した場合、その最適化問題を解くアルゴリズムは、特定のアルゴリズムに限定されない(ステップS206)。
予測画像合成部209は、予測画像300「a」及び予測画像301「b」と補間係数ベクトルwとを取得する。予測画像合成部209は、式(8)に基づいて予測画像300「a」及び予測画像301「b」を合成することによって、合成予測画像pを生成する。予測画像合成部209の出力は、予測画像取得装置205の出力である(ステップS207)。
予測画像合成部209は、3枚以上の予測画像を合成することによって、合成予測画像pを生成してもよい。予測画像合成部209が3枚以上の予測画像を合成する場合、予測画像合成部209は、2枚の予測画像を合成する処理を繰り返し実行する。例えば、3枚の予測画像を合成する場合、予測画像合成部209は、2枚の予測画像をまず合成する。予測画像合成部209は、これら2枚の予測画像から生成された合成予測画像と3枚目の予測画像とを合成する。予測画像合成部209が4枚以上の予測画像を合成する場合も同様に、2枚の予測画像を合成する処理を繰り返し実行する。
予測画像合成部209は、予測画像aと予測画像bと予測画像cとの3枚の予測画像を、補間係数ベクトルwと補間係数ベクトルwとの2本の補間係数ベクトルを用いて合成することによって、式(19)及び式(20)のように合成予測画像pを生成してもよい。このとき、wとwをL1正則化によって求める際に、wとwが結合されたテンソルに対して変換を行うことが可能となる。このとき、2枚の予測画像の合成を繰り返して3枚の予測画像の合成を実現したときでは不可能であるwとwの間の相関性が考慮された、より3次元的な変換が可能である。圧縮センシングにおける復元の性質にも基づいて、復元対象信号がより効率的な変換によってスパースに変換されることで、より高品質な補間係数ベクトルを求めることが期待できる。
Figure 0007265114000019
Figure 0007265114000020
圧縮サンプリング部210は、予測画像取得装置205の予測画像合成部209から出力された合成予測画像pと観測行列Φとに基づいて、合成予測画像(予測信号)の観測信号Φpを生成する。減算部211は、逆量子化部203によって復号された観測信号yから、予測信号の観測信号Φpを減算する。減算部211は、減算結果である残差信号(x-p)の観測信号「y-Φp(=Φ(x-p)」を、予測残差復元部212に出力する。予測残差復元部212は、予測残差信号の観測信号「y-Φp」から、予測残差信号を復元する。
予測残差の復元方法は、圧縮センシングの復元で用いられる方法と同様の方法であれば、L1正則化又は機械学習を用いた復元等のどのような方法でもよい。なお、係数ベクトル生成部208及び予測残差復元部212が実行する各処理は、スパース性が仮定されるN次元の原信号をM次元の観測信号から復元するという同様の処理である。このため、係数ベクトル生成部208及び予測残差復元部212が実行する各処理の正則化法が共通である場合、係数ベクトル生成部208及び予測残差復元部212は、共通の機能部として一体化されてもよい(ステップS208)。
加算部213は、復元された予測残差信号と予測画像とを加算することによって、復号対象ブロックの画像を復号する(ステップS209)。動画像のフレームにおける全ての復号対象ブロックの画像が復号された場合、加算部213は、復号された動画像のフレームを、参照画像メモリ204と所定の外部装置とに出力する(ステップS210)。
以上のように、予測画像取得装置205は、復号対象の画像である原画像から得られた信号でありかつ原画像よりも低次元な信号である観測信号と、原画像との相関が高い予測画像aと、原画像との相関が高い予測画像bと、を関連付けることで合成予測画像を得る。予測画像取得装置205は、予測画像候補生成部206(補間係数取得部)と、予測画像合成部209(合成予測画像取得部、合成予測信号取得部)を備える。予測画像候補生成部206は、予測画像aと、予測画像bと、観測信号とから、合成予測画像の画素ごとに設定される補間係数を得る。予測画像合成部209は、予測画像aと予測画像bとを、画素ごとに補間係数を用いて合成することで合成予測画像pを得る。観測信号を構成する画素は、原画像の線形和で表現されている。
このように、予測画像合成部209は、予測画像aの第1領域と予測画像bの第1領域以外の領域である第2領域とを補間係数ベクトルに基づいて合成することによって、合成予測画像を生成する。
これによって、実施形態の予測画像取得装置205は、信号の圧縮効率を向上させることが可能である。
2枚の予測画像同士の類似度が高い(2枚の予測画像同士が似通っている)場合、予測画像の画素ごとの補間係数ベクトルが全て又は概ね同じ値であることによって、予測画像取得装置205は、予測画像の全領域に1個のスカラー値の重み係数を用いて2枚の予測画像を合成する場合と同様の効果を奏する。すなわち、予測画像取得装置205は、HEVCにおける双予測又は双方向予測と同様に格別の効果を奏する。これに対して、2枚の予測画像同士が類似度が高くない(2枚の予測画像同士が似通っていない)場合、原画像に類似する領域を、2枚の予測画像のうちのいずれかの予測画像の領域から適応的に選択して、高精度の合成予測画像を生成することが可能である。なお、2枚の予測画像同士の類似度が高い又は低いのいずれであるかは、明示的に区別されなくてもよい。
実施形態の予測画像取得装置205は、例えば、圧縮センシングを用いる動画像符号化において画像の予測精度を向上させるので、符号化効率を向上させることが可能である。予測画像の各画素に対応する補間係数ベクトルのスパース性が仮定されている場合、予測画像取得装置205は、予測画像及び補間係数ベクトルに基づいて、原画像に類似する合成予測画像を生成することが可能である。予測画像取得装置205は、画像信号及び予測残差信号よりも高いスパース性を持つ補間係数ベクトルを推定することによって、補間係数ベクトルを推定しない場合と比較して高い復元性能を得ることが可能である。予測画像取得装置205は、補間係数ベクトルの生成方法を予測残差信号の復元方法の形式と同じ形式の最適化問題に帰着できるので、最適化問題の探索プログラム及び機能部を共通化することが可能である。
符号化装置100は、予測及び最適化等を実行することなくサンプリング処理を実行することによって原画像の観測信号を符号化するので、予測及び最適化処理における計算量を削減することが可能である。復号装置200が実行する処理の計算量は、圧縮センシングを用いる動画像符号化において符号化装置100が実行する処理の計算量と比較して多い。このように、符号化装置100は、低消費電力の動画像符号化が求められる場合、又は、符号化された膨大な動画像の一部のみが復号される場合に、符号化と復号における総計算量を効果的に削減することが可能である。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
下記の(A)から(D)までを満たす信号(データ)であれば、符号化又は復号の対象は画像でなくてもよい。
(A)予測信号を生成可能である(自己相関性がある、又は、相関の高い他の信号を予測可能である)。
(B)2個の予測信号の(要素単位での)線形補間によって、更に高精度の合成予測信号を生成することが可能である。
(C)補間係数ベクトルがスパースであることが仮定される。
(D)合成された予測信号と原信号との差がスパースであることが仮定される。
符号化又は復号の対象は、例えば、多チャンネル等の音響信号、ニューラルネットワークの内部信号若しくは出力信号、又は、多変量解析等の対象となるビッグデータでもよい。
上述した実施形態には、画像の符号化及び復号に対して予測画像取得装置205が適用された例が示されている。しかし、「y=Φx」という関係、すなわち、低次元のデータの各要素が高次元のデータの線形和であるという関係を持つ低次元のデータと高次元のデータとに対して、予測画像取得装置205は適用可能である。例えば、原画像そのものを低次元データとして捉えた場合、原画像よりも高次元の画像、すなわち、原画像を撮影したカメラ素子の限界を超えた画像を得るといった目的にも、予測画像取得装置205は適用可能である。
上述の「復元」という文言は、原画像と完全に等価な画像を観測信号から得るものではなく、原画像に近似する画像を得ることを意図する。「復元」という文言は、例えば、「再構成」と言い換えられてもよい。また、上述の「要素」という文言は、画像に関して「画素」と言い換えられてもよい。
上述した実施形態における予測画像取得装置、符号化装置及び復号装置をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
本発明は、予測を伴う変換及び逆変換を実行するシステム、例えば、画像等の信号を符号化及び復号するシステムに適用可能である。
100…符号化装置、101…動画像入力部、102…圧縮サンプリング部、103…量子化部、104…エントロピー符号化部、200…復号装置、201…符号データ入力部、202…エントロピー復号部、203…逆量子化部、204…参照画像メモリ、205…予測画像取得装置、206…予測画像候補生成部、207…予測画像選択部、208…係数ベクトル生成部、209…予測画像合成部、210…圧縮サンプリング部、211…減算部、212…予測残差復元部、213…加算部、300…予測画像、301…予測画像、302…合成予測画像、303…原画像

Claims (7)

  1. 復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置であって、
    前記原画像における第1領域との相関が高い領域を前記第1の予測画像が含むように、且つ、前記原画像における第1領域の相補領域である第2領域との相関が高い領域を前記第2の予測画像が含むように定められた目的関数に基づいて、前記第1の予測画像と前記第2の予測画像とを選択する予測画像選択部と、
    前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得る補間係数取得部と、
    前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得る合成予測画像取得部とを備え、
    前記観測信号を構成する画素は、前記原画像の線形和で表現されており
    前記目的関数は、前記第1領域で前記第1の予測画像が前記原画像に類似し、且つ、前記第2領域で前記第2の予測画像が前記原画像に類似するほど、小さい値を示し、
    前記予測画像選択部は、前記目的関数を最小化する前記第1の予測画像及び前記第2の予測画像を、予測画像候補から選択する、
    予測画像取得装置。
  2. 前記補間係数取得部は、前記原画像を用いる代わりに、前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、L1正則化の解法を用いて、前記補間係数を得る、
    請求項1に記載の予測画像取得装置。
  3. 前記補間係数は、予め定められた変換基底に基づいて、スパース性が高くなるよう設定されている、
    請求項1又は請求項2に記載の予測画像取得装置。
  4. 前記補間係数は、前記第1の予測画像の画素と前記第2の予測画像の画素とのいずれを前記合成予測画像の画素とするかを、画素ごとに表す実数である、
    請求項1から請求項3のいずれか一項に記載の予測画像取得装置。
  5. 復号対象の信号である原信号から得られた信号であり、かつ、前記原信号よりも低次元な信号である観測信号と、前記原信号との相関が高い第1の予測信号と、前記原信号との相関が高い第2の予測信号と、を関連付けることで合成予測信号を得る予測信号取得装置を備える原信号取得装置であって、
    前記原信号における第1領域との相関が高い領域を前記第1の予測信号が含むように、且つ、前記原信号における第1領域の相補領域である第2領域との相関が高い領域を前記第2の予測信号が含むように定められた目的関数に基づいて、前記第1の予測信号と前記第2の予測信号とを選択する予測信号選択部と、
    前記第1の予測信号と、前記第2の予測信号と、前記観測信号とから、前記合成予測信号の要素ごとに設定される補間係数を得る補間係数取得部と、
    前記第1の予測信号と前記第2の予測信号とを、要素ごとに前記補間係数を用いて合成することで前記合成予測信号を得る合成予測信号取得部と、
    前記合成予測信号を用いて前記原信号を再構成する再構成部とを備え、
    前記観測信号を構成する要素は、前記原信号の線形和で表現されており、
    前記目的関数は、前記第1領域で前記第1の予測信号が前記原信号に類似し、且つ、前記第2領域で前記第2の予測信号が前記原信号に類似するほど、小さい値を示し、
    前記予測信号選択部は、前記目的関数を最小化する前記第1の予測信号及び前記第2の予測信号を、予測信号候補から選択する、
    原信号取得装置。
  6. 復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置が実行する予測画像取得方法であって、
    前記原画像における第1領域との相関が高い領域を前記第1の予測画像が含むように、且つ、前記原画像における第1領域の相補領域である第2領域との相関が高い領域を前記第2の予測画像が含むように定められた目的関数に基づいて、前記第1の予測画像と前記第2の予測画像とを選択するステップと、
    前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得るステップと、
    前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得るステップとを有し、
    前記観測信号を構成する画素は、前記原画像の線形和で表現されており
    前記目的関数は、前記第1領域で前記第1の予測画像が前記原画像に類似し、且つ、前記第2領域で前記第2の予測画像が前記原画像に類似するほど、小さい値を示し、
    前記第1の予測画像と前記第2の予測画像とを選択するステップは、前記目的関数を最小化する前記第1の予測画像及び前記第2の予測画像を、予測画像候補から選択することを含む、
    予測画像取得方法。
  7. 復号対象の画像である原画像から得られた信号であり、かつ、前記原画像よりも低次元な信号である観測信号と、前記原画像との相関が高い第1の予測画像と、前記原画像との相関が高い第2の予測画像と、を関連付けることで合成予測画像を得る予測画像取得装置のコンピュータに、
    前記原画像における第1領域との相関が高い領域を前記第1の予測画像が含むように、且つ、前記原画像における第1領域の相補領域である第2領域との相関が高い領域を前記第2の予測画像が含むように定められた目的関数に基づいて、前記第1の予測画像と前記第2の予測画像とを選択する手順と、
    前記第1の予測画像と、前記第2の予測画像と、前記観測信号とから、前記合成予測画像の画素ごとに設定される補間係数を得る手順と、
    前記第1の予測画像と前記第2の予測画像とを、画素ごとに前記補間係数を用いて合成することで前記合成予測画像を得る手順とを実行させ、
    前記観測信号を構成する画素は、前記原画像の線形和で表現されており
    前記目的関数は、前記第1領域で前記第1の予測画像が前記原画像に類似し、且つ、前記第2領域で前記第2の予測画像が前記原画像に類似するほど、小さい値を示し、
    前記第1の予測画像と前記第2の予測画像とを選択する手順は、前記目的関数を最小化する前記第1の予測画像及び前記第2の予測画像を、予測画像候補から選択することを含む、
    プログラム。
JP2018213790A 2018-11-14 2018-11-14 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム Active JP7265114B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018213790A JP7265114B2 (ja) 2018-11-14 2018-11-14 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム
US17/291,394 US11523132B2 (en) 2018-11-14 2019-11-07 Prediction image acquisition apparatus, original signal acquisition apparatus, prediction image acquisition method and program
PCT/JP2019/043593 WO2020100701A1 (ja) 2018-11-14 2019-11-07 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018213790A JP7265114B2 (ja) 2018-11-14 2018-11-14 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020080515A JP2020080515A (ja) 2020-05-28
JP7265114B2 true JP7265114B2 (ja) 2023-04-26

Family

ID=70732086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018213790A Active JP7265114B2 (ja) 2018-11-14 2018-11-14 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム

Country Status (3)

Country Link
US (1) US11523132B2 (ja)
JP (1) JP7265114B2 (ja)
WO (1) WO2020100701A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014131210A (ja) 2012-12-28 2014-07-10 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8111754B1 (en) * 2001-07-11 2012-02-07 Dolby Laboratories Licensing Corporation Interpolation of video compression frames
JP5474586B2 (ja) * 2010-01-25 2014-04-16 オリンパス株式会社 画像処理装置
JP6231284B2 (ja) * 2013-02-21 2017-11-15 クラリオン株式会社 撮像装置
US9313493B1 (en) * 2013-06-27 2016-04-12 Google Inc. Advanced motion estimation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014131210A (ja) 2012-12-28 2014-07-10 Nippon Telegr & Teleph Corp <Ntt> 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム、映像復号プログラム及び記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TRAMEL, Eric W. et al.,Video Compressed Sensing with Multihypothesis,Proceedings of 2011 Data Compression Conference,2011年03月29日,pp.193-202

Also Published As

Publication number Publication date
JP2020080515A (ja) 2020-05-28
US20220007049A1 (en) 2022-01-06
WO2020100701A1 (ja) 2020-05-22
US11523132B2 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
US8625682B2 (en) Nonlinear, prediction filter for hybrid video compression
JP4767860B2 (ja) 段階的可逆ビデオ符号化方法,段階的可逆ビデオ復号方法,段階的可逆ビデオ符号化装置,段階的可逆ビデオ復号装置,これらのプログラムおよびそのプログラムの記録媒体
KR20090095014A (ko) 필터링된 예측 블록을 이용한 영상 부호화, 복호화 방법 및장치
JP5306485B2 (ja) 動きベクトル予測符号化方法、動きベクトル予測復号方法、動画像符号化装置、動画像復号装置およびそれらのプログラム
WO2017183448A1 (ja) データ処理装置、データ処理方法、プログラム
JP7168896B2 (ja) 画像符号化方法、及び画像復号方法
US11394966B2 (en) Video encoding and decoding method and apparatus
US7702017B2 (en) Moving picture encoding apparatus, moving picture encoding method, moving picture encoding program, moving picture decoding apparatus, moving picture decoding method, and moving picture decoding program
Song et al. Novel near-lossless compression algorithm for medical sequence images with adaptive block-based spatial prediction
Di et al. Learned compression framework with pyramidal features and quality enhancement for SAR images
JP7265114B2 (ja) 予測画像取得装置、原信号取得装置、予測画像取得方法及びプログラム
JP2023053272A (ja) 画像符号化装置、画像復号装置、及びプログラム
JP2016536859A (ja) メディア信号のエンコード及びデコード方法並びにそれを用いる装置
JP5931747B2 (ja) 画像シーケンスのブロックの符号化および復元の方法
JP7453561B2 (ja) 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、及びプログラム
JP6004852B2 (ja) ピクセルブロックを符号化及び再構成する方法と装置
US7580461B2 (en) Barbell lifting for wavelet coding
JP4344184B2 (ja) 動画像符号化装置、動画像符号化方法、動画像符号化プログラム、動画像復号装置、動画像復号方法、及び動画像復号プログラム
JP6846134B2 (ja) 映像符号化装置及び映像復号装置
JP6581045B2 (ja) 画像符号化方法、画像符号化装置及び画像符号化プログラム
Sun An Experimental Analysis of Predictive Coding Based On Artificial Neural Networks for Image Decoding
JP2022171424A (ja) 符号化装置、プログラム、及びモデル生成方法
Bhardwaj Generalized Digital Pulse Code Modulation and its comparison with other compression schemes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230314

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230327

R150 Certificate of patent or registration of utility model

Ref document number: 7265114

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150