JP2017532858A - Perceptual optimization for model-based video coding - Google Patents

Perceptual optimization for model-based video coding Download PDF

Info

Publication number
JP2017532858A
JP2017532858A JP2017513750A JP2017513750A JP2017532858A JP 2017532858 A JP2017532858 A JP 2017532858A JP 2017513750 A JP2017513750 A JP 2017513750A JP 2017513750 A JP2017513750 A JP 2017513750A JP 2017532858 A JP2017532858 A JP 2017532858A
Authority
JP
Japan
Prior art keywords
block
frame
tcsf
motion vector
quantization parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017513750A
Other languages
Japanese (ja)
Other versions
JP6698077B2 (en
JP2017532858A5 (en
Inventor
リー・ニゲル
パーク・サンソク
トゥン・ミョー
コッケ・デーン・ピー
リー・ジェユン
ウィード・クリストファー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Euclid Discoveries LLC
Original Assignee
Euclid Discoveries LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/532,947 external-priority patent/US9621917B2/en
Application filed by Euclid Discoveries LLC filed Critical Euclid Discoveries LLC
Publication of JP2017532858A publication Critical patent/JP2017532858A/en
Publication of JP2017532858A5 publication Critical patent/JP2017532858A5/ja
Application granted granted Critical
Publication of JP6698077B2 publication Critical patent/JP6698077B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】映像符号化の品質を向上させるように重要度マップを映像圧縮に適用する、映像データを処理するコンピュータに基づく方法を提供する。【解決手段】知覚的統計量が、映像フレームのどの領域が人間の視覚系にとって重要かを示す重要度マップを算出するのに用いられる。重要度マップは、符号化ビットストリームの品質を向上させるように映像符号化プロセスに適用される。時間的コントラスト感度関数(TCSF)が、エンコーダの動きベクトルから算出される。動きベクトル品質尺度が、真の動きベクトルマップ(TMVM)を構築するのに用いられる。真の動きベクトルマップ(TMVM)は、TCSFを洗練化するのに用いられる。空間的複雑度マップ(SCM)が算出される。SCMは、統合化された重要度マップを得るようにTCSFと組み合わされる。重要度マップは符号化を向上させるように用いられる。【選択図】図8BA computer-based method for processing video data that applies an importance map to video compression to improve the quality of video coding. Perceptual statistics are used to calculate an importance map that indicates which regions of a video frame are important to the human visual system. The importance map is applied to the video encoding process so as to improve the quality of the encoded bitstream. A temporal contrast sensitivity function (TCSF) is calculated from the motion vector of the encoder. A motion vector quality measure is used to build a true motion vector map (TMVM). True motion vector maps (TMVM) are used to refine the TCSF. A spatial complexity map (SCM) is calculated. SCM is combined with TCSF to obtain an integrated importance map. The importance map is used to improve encoding. [Selection] Figure 8B

Description

関連出願Related applications

本願は、2015年5月7日出願の米国仮特許出願第62/158,523号および2014年11月11日出願の米国仮特許出願第62/078,181号の利益を主張する。本願は、さらに、2014年11月4日出願の米国特許出願第14/532,947号の一部継続出願(CIP)である。この米国特許出願第14/532,947号は、2014年3月10日出願の米国仮特許出願第61/950,784号および2014年9月11日出願の米国仮特許出願第62/049,342号の利益を主張する。これら参照した特許出願の全教示内容は、参照をもって本明細書に取り入れたものとする。   This application claims the benefit of US Provisional Patent Application No. 62 / 158,523 filed May 7, 2015 and US Provisional Patent Application No. 62 / 078,181 filed November 11, 2014. This application is further a continuation-in-part (CIP) of US patent application Ser. No. 14 / 532,947, filed Nov. 4, 2014. This U.S. Patent Application No. 14 / 532,947 claims the benefit of U.S. Provisional Patent Application No. 61 / 950,784, filed March 10, 2014, and U.S. Provisional Patent Application No. 62 / 049,342, filed September 11, 2014. To do. The entire teachings of these referenced patent applications are incorporated herein by reference.

映像圧縮は、デジタル映像データを、記憶時又は伝送時において少ないビット数を用いた形式で表現するプロセスであると考えられる。映像符号化は、映像データの空間的冗長性、時間的冗長性又は色空間冗長性を利用することにより圧縮を達成することができる。典型的に、映像圧縮プロセスは、映像データをフレームの集まりやペルの集まりなどの各部位に分割して、その映像内における冗長な部分を特定し、当該冗長な部分を元々の映像データで求められるよりも少ないビット数で表現し得る。データのこのような冗長性を利用することにより、より大きな圧縮を達成することができる。映像データを符号化フォーマットに変換するにはエンコーダが用いられ得る。そして、デコーダを用いることにより、符号化された映像を元々の映像データに匹敵する形態に変換することができる。エンコーダ/デコーダを実現するものがコーデックと称される。   Video compression is considered to be a process of expressing digital video data in a format using a small number of bits during storage or transmission. Video coding can achieve compression by exploiting the spatial redundancy, temporal redundancy, or color space redundancy of video data. Typically, the video compression process divides video data into parts such as a collection of frames or a collection of pels, identifies redundant parts in the video, and finds the redundant parts in the original video data. It can be expressed with a smaller number of bits than is possible. By taking advantage of this redundancy of data, greater compression can be achieved. An encoder can be used to convert the video data into an encoded format. Then, by using the decoder, the encoded video can be converted into a form comparable to the original video data. What implements an encoder / decoder is called a codec.

標準のエンコーダ(標準エンコーダ)は、符号化にあたって、所与の映像フレームを、互いに重なり合わない複数の符号化単位すなわちマクロブロック(複数の連続するペルからなる矩形領域)に分割する。典型的に、マクロブロック(本明細書では、より包括的に「入力ブロック」や「データブロック」と称される)は、映像フレームの左から右の走査順序や上から下の走査順序で処理される。圧縮は、入力ブロックが符号化済みのデータを用いて予測・符号化されることで達成され得る。入力ブロックを、同じフレーム内の先に符号化されたブロックのうち、当該入力ブロックと空間的に隣接するサンプルを用いて符号化するプロセスは、イントラ予測と称される。イントラ予測は、データにおける空間的冗長性を利用しようとするものである。入力ブロックを、動き推定プロセスを用いて見つけ出された、先に符号化したフレームからの類似する領域を用いて符号化することは、インター予測と称される。インター予測は、データにおける時間的冗長性を利用しようとするものである。動き推定プロセスは、動きベクトルを生成し得る。動きベクトルは、例えば、参照フレーム内の一致する領域の、符号化中の入力ブロックに対する位置を指定する。大抵の動き推定プロセスは、所与の入力ブロックについての動きベクトルの初めの粗推定(および対応する時間的予測)を提供する動き初期推定(初期の動き推定)と、この初めの推定の近傍において局所探索を実行することによってその入力ブロックについての動きベクトルのより正確な推定(および対応する予測)を決定する動き精推定(精細な動き推定)との、2つの主なステップからなる。   In encoding, a standard encoder (standard encoder) divides a given video frame into a plurality of encoding units, that is, macro blocks (rectangular regions including a plurality of continuous pels) that do not overlap each other. Typically, macroblocks (more generally referred to herein as “input blocks” or “data blocks”) are processed in a left-to-right scan order or top-to-bottom scan order of a video frame. Is done. The compression can be achieved by predicting and encoding the input block using encoded data. The process of encoding an input block using samples spatially adjacent to the input block among previously encoded blocks in the same frame is called intra prediction. Intra prediction seeks to exploit spatial redundancy in the data. Encoding an input block with similar regions from previously encoded frames found using a motion estimation process is referred to as inter prediction. Inter prediction seeks to take advantage of temporal redundancy in the data. The motion estimation process may generate a motion vector. The motion vector specifies, for example, the position of the matching region in the reference frame with respect to the input block being encoded. Most motion estimation processes involve a motion initial estimate (initial motion estimate) that provides an initial coarse estimate (and corresponding temporal prediction) of the motion vector for a given input block, and in the vicinity of this initial estimate. It consists of two main steps: fine motion estimation (fine motion estimation) that determines a more accurate estimation (and corresponding prediction) of the motion vector for the input block by performing a local search.

エンコーダは、符号化すべきデータと予測(予測結果)との差分を測定することにより、残差を生成し得る。この残差は、予測されたブロックと元々の入力ブロックとの差分を提供し得る。これらの予測、動きベクトル(インター予測用)、残差および関連データは、空間変換、量子化、エントロピー符号化、ループフィルタなどの他のプロセスと組み合わされることにより、映像データの効率的な符号(符号化)を生成することができる。量子化及び変換を受けた残差は、処理されて且つ上記予測に組み戻されることで復号化フレームへと組み立てられて、フレームストアに記憶される。このような映像符号化技術の詳細は、当業者であればよく知っている。   The encoder can generate a residual by measuring the difference between the data to be encoded and the prediction (prediction result). This residual may provide the difference between the predicted block and the original input block. These predictions, motion vectors (for inter prediction), residuals and related data are combined with other processes such as spatial transformation, quantization, entropy coding, loop filter, etc., to efficiently code video data ( Encoding) can be generated. The quantized and transformed residuals are processed and recombined into the prediction, assembled into a decoded frame and stored in the frame store. Details of such video encoding techniques are well known to those skilled in the art.

MPEG−2(H.262)およびH.264(MPEG−4 Part10 Advanced Video Coding(AVC))は、比較的低いビットレートで高品質映像表現を達成する、映像圧縮用の2種類のコーデック規格である(以降では、それぞれMPEG−2、H.264と称する)。MPEG−2及びH.264の符号化基本単位は、16×16マクロブロックである。H.264は、広く普及している最近の映像圧縮規格であると共に、映像データを圧縮するにあたってMPEG−2の2倍の効率を有すると一般的に考えられている。   MPEG-2 (H.262) and H.264 (MPEG-4 Part 10 Advanced Video Coding (AVC)) are two types of codec standards for video compression that achieve high quality video representation at relatively low bit rates. (Hereinafter referred to as MPEG-2 and H.264, respectively). MPEG-2 and H.264 An H.264 encoding basic unit is a 16 × 16 macroblock. H. H.264 is a widespread recent video compression standard and is generally considered to have twice the efficiency of MPEG-2 in compressing video data.

基礎的なMPEG規格は、フレーム内の入力ブロックの符号化方法に基づいて3種類のフレーム(又はピクチャ)を規定する。Iフレーム(イントラ符号化ピクチャ)は、そのフレームに存在するデータのみを用いて符号化されるものなので、イントラ予測ブロックのみで構成される。Pフレーム(予測ピクチャ)は、予め復号化されたIフレーム又はPフレーム(参照フレームとも称される)からのデータを用いた前方向予測により符号化される。Pフレームは、イントラブロックおよび(前方向)予測ブロックのいずれも含み得る。Bフレーム(双予測ピクチャ)は、前のフレームと後のフレームの両方からのデータを用いた双方向予測により符号化される。Bフレームは、イントラブロック、(前方向)予測ブロックおよび双予測ブロックのいずれも含み得る。   The basic MPEG standard defines three types of frames (or pictures) based on the encoding method of input blocks in a frame. An I frame (intra-encoded picture) is encoded using only data existing in the frame, and is therefore composed only of intra-predicted blocks. A P frame (predicted picture) is encoded by forward prediction using data from an I frame or P frame (also referred to as a reference frame) decoded in advance. A P frame may include both intra blocks and (forward) predicted blocks. B frames (bi-predictive pictures) are encoded by bi-directional prediction using data from both the previous and subsequent frames. A B frame may include any of an intra block, a (forward) prediction block, and a bi-prediction block.

参照フレームの特定の集合のことを、Group of Pictures(ピクチャの集まり)(GOP)と称する。GOPは、各参照フレーム内の復号化されたペルのみを含み、入力ブロックやフレームがどのように符号化されたのか(Iフレームなのか、Bフレームなのか、それともPフレームなのか)についての情報を含まない。MPEG−2などの古い映像圧縮規格は、Pフレームを予測するのに1つの参照フレーム(過去のフレーム)を利用し、Bフレームを予測するのに2つの参照フレーム(1つ前のフレームと1つ後のフレーム)を利用する。対照的に、H.264、HEVC(High Efficiency Video Coding)などのより新しい圧縮規格は、Pフレーム及びBフレームの予測に複数の参照フレームを利用することを可能にする。典型的な参照フレームは現在のフレームと時間的に隣接するフレームであるが、これらの規格は、時間的に隣接しないフレームを参照フレームとすることも可能である。   A specific set of reference frames is referred to as a Group of Pictures (GOP). The GOP contains only the decoded pels in each reference frame, and information about how the input block or frame was encoded (I frame, B frame or P frame) Not included. Older video compression standards such as MPEG-2 use one reference frame (past frame) to predict P frames and two reference frames (previous frame and 1) to predict B frames. Use the next frame). In contrast, H. Newer compression standards such as H.264, HEVC (High Efficiency Video Coding) make it possible to use multiple reference frames for P and B frame prediction. A typical reference frame is a frame that is temporally adjacent to the current frame, but these standards also allow a frame that is not temporally adjacent to be a reference frame.

従来のインター予測は、ブロックベースの動き推定・補償(BBMEC)に基づくものである。BBMECプロセスは、ターゲットブロック(符号化中の現在の入力ブロック)と予め復号化された参照フレーム内の同サイズの領域との最良の一致を探索する。そのような一致が見つかると、エンコーダは、参照フレーム内でのこの最良の一致の位置へのポインタの役割を果たす動きベクトルを送信し得る。しかし、BBMEC探索プロセスは、演算上の理由により、探索対象にできる参照フレームの観点からみて時間的に制限されているだけでなく、探索対象にできる近傍領域の観点からみて空間的にも制限されている。これは、「考えられる最良の」一致が常に見つかるとは限らず、また、高速で変化するデータの場合には特にそうであることを意味する。   Conventional inter prediction is based on block-based motion estimation and compensation (BBMEC). The BBMEC process searches for the best match between the target block (the current input block being encoded) and a region of the same size in a previously decoded reference frame. If such a match is found, the encoder may send a motion vector that acts as a pointer to the position of this best match in the reference frame. However, the BBMEC search process is not only limited in terms of time in terms of reference frames that can be searched, but also in terms of space in terms of neighboring regions that can be searched, for computational reasons. ing. This means that the “best possible” match is not always found, and is especially true for fast changing data.

最も単純な形式のBBMECプロセスは、動き推定の初期設定を、(0,0)動きベクトルとする。これは、つまり、ターゲットブロックの初めの推定が、参照フレーム内での同位置のブロックであることを意味する。次に、動き精推定が、この領域の局所近傍においてそのターゲットブロックと最良に一致する(すなわち、そのターゲットブロックに対する誤差が最小になる)領域を探索することによって行われる。この局所探索は、その局所近傍を網羅的にクエリすることによって行われたり、ダイヤモンドサーチや六角形サーチなどといった幾つかの「高速探索」法のうちの任意のものを用いて行われたりし得る。   The simplest form of BBMEC process takes a (0,0) motion vector as the initial setting for motion estimation. This means that the initial estimation of the target block is the block at the same position in the reference frame. Next, motion refinement estimation is performed by searching for a region that best matches the target block in the local neighborhood of this region (ie, the error for the target block is minimized). This local search can be done by exhaustively querying the local neighborhood or by using any of several “fast search” methods such as diamond search, hexagonal search, etc. .

MPEG−2の後発バージョン以降の標準コーデックに設けられた、BBMECプロセスの改良として、拡張予測区域探索(enhanced predictive zonal search)(EPZS)法(非特許文献1:Tourapis達による「単・多フレーム動き推定のための拡張予測区域探索(Enhanced predictive zonal search for single and multiple frame motion estimation)」)が挙げられる。このEPZS法は、ターゲットブロックの初めの推定用として、既に符号化済みの近傍ブロックの動きベクトルならびに前の参照フレームにおける同位置のブロック(および近傍)の動きベクトルに基づく、動きベクトル候補の集合を検討する。EPZS法は、映像の動きベクトル場が幾らかの空間的及び時間的冗長性を有すると考え、よって、ターゲットブロックについての動き推定の初期設定は、近傍ブロックの動きベクトルまたは符号化済みのフレームにおける近隣ブロックからの動きベクトルとするのが合理的であると仮定する。EPZS法は、それら初めの推定の集合が集まると、近似レート歪み解析によって当該集合を絞り込む。この後に、動き精推定が行われる。   An improved predictive zone search (EPZS) method (Non-Patent Document 1: “Single-multi-frame motion by Tourapis et al.”) Enhanced predictive zonal search for single and multiple frame motion estimation ”). This EPZS method uses a motion vector candidate set based on a motion vector of a neighboring block that has already been encoded and a motion vector of a block (and a neighborhood) of the same position in the previous reference frame for initial estimation of the target block. consider. The EPZS method considers that the motion vector field of the video has some spatial and temporal redundancy, so the initial motion estimation for the target block is either in the motion vector of the neighboring block or in the encoded frame. Assume that it is reasonable to use motion vectors from neighboring blocks. In the EPZS method, when a set of initial estimates is collected, the set is narrowed down by approximate rate distortion analysis. After this, motion precision estimation is performed.

任意の所与のターゲットブロックについて、エンコーダが、選択候補となる複数のインター予測を生成し得る。これらの予測は、複数の予測プロセス(例えば、BBMEC方式、EPZS方式、モデルベース方式等)から生じ得る。また、これらの予測は、ターゲットブロックのサブ区分処理に基づいて異なり得る。サブ区分処理では、相異なる動きベクトルがターゲットブロックの相異なるサブ区分に対応付けられ、かつ、それぞれの動きベクトルが参照フレーム内のサブ区分サイズの領域をそれぞれ指し示す。また、これらの予測は、動きベクトルが指し示す参照フレームに基づいて異なり得る。というのも、前述したように、最近の圧縮規格は、複数の参照フレームの使用を可能にするからである。通常、所与のターゲットブロックについての最良の予測の選択は、レート歪み最適化により達成される。レート歪み最適化では、最良の予測は、レート歪み尺度D+λR(式中、歪みDは、ターゲットブロックと予測との誤差であり、レートRは、予測を符号化するコスト(ビット単位)を定量化し、λは、スカラー重み付け係数である。)を最小化する予測とされる。   For any given target block, the encoder may generate multiple inter predictions that are selection candidates. These predictions can arise from multiple prediction processes (eg, BBMEC, EPZS, model-based, etc.). Also, these predictions may differ based on the target block sub-partitioning process. In the sub-partition processing, different motion vectors are associated with different sub-partitions of the target block, and each motion vector indicates an area of the sub-partition size in the reference frame. Also, these predictions may differ based on the reference frame that the motion vector points to. This is because, as described above, recent compression standards allow the use of multiple reference frames. Usually, the selection of the best prediction for a given target block is achieved by rate distortion optimization. In rate distortion optimization, the best prediction is the rate distortion measure D + λR, where distortion D is the error between the target block and the prediction, and rate R quantifies the cost (in bits) to encode the prediction. , Λ is a scalar weighting factor).

Tourapis, A., 2002, "Enhanced predictive zonal search for single and multiple frame motion estimation," Proc. SPIE 4671, Visual Communications and Image Processing, pp. 1069- 1078Tourapis, A., 2002, "Enhanced predictive zonal search for single and multiple frame motion estimation," Proc. SPIE 4671, Visual Communications and Image Processing, pp. 1069-1078

過去、BBMEC予測の限界を回避する目的で、数多くのモデルベース圧縮スキームが提案されてきた。このようなモデルベース圧縮スキーム(この種のスキームとして、MPEG−4 Part2規格が恐らく最も良く知られている)は、映像内のオブジェクトや特徴(一般的に「関心成分」と定義される)の検出及び追跡、さらに、これらの特徴/オブジェクトを映像フレームの残りの部分とは別に符号化する方法を利用する。特徴/オブジェクトの検出/追跡は、標準の動き推定プロセスにおける空間的探索と独立して行われるので、特徴/オブジェクトのトラックは、標準の動き推定により得られるものとは異なる集合の予測を生じさせ得る。   In the past, many model-based compression schemes have been proposed in order to avoid the limitations of BBMEC prediction. Such a model-based compression scheme (the MPEG-4 Part 2 standard is perhaps best known as this kind of scheme) is an object or feature (generally defined as “component of interest”) in a video. Detection and tracking as well as a method of encoding these features / objects separately from the rest of the video frame. Since feature / object detection / tracking is done independently of the spatial search in the standard motion estimation process, the feature / object track results in a different set of predictions than those obtained by standard motion estimation. obtain.

しかし、特徴/オブジェクトに基づくそのようなモデルベース圧縮スキームでは、映像フレームをオブジェクト領域とオブジェクトでない領域と(あるいは、特徴領域と特徴でない領域と)に分割することによる問題に直面する。第一に、オブジェクトのサイズは多種多様であり得るので、オブジェクトのテクスチャ(カラーコンテンツ)だけでなくオブジェクトの形状も符号化する必要がある。第二に、動きを伴うオブジェクトを複数追跡することは困難であり得て、精度の低いトラッキング(追跡)は不正確なセグメンテーション(分割)を引き起こし、通常、低い圧縮性能につながる。第三の問題は、全ての映像コンテンツがオブジェクトや特徴で構成されるとは限らないので、オブジェクト/特徴が存在しない場合には、代わりの符号化スキームが必要となる。   However, such model-based compression schemes based on features / objects face problems due to dividing a video frame into object regions and non-object regions (or feature regions and non-feature regions). First, since the size of an object can vary widely, it is necessary to encode not only the texture (color content) of the object but also the shape of the object. Second, tracking multiple objects with motion can be difficult, and inaccurate tracking causes inaccurate segmentation and usually leads to poor compression performance. The third problem is that not all video content is composed of objects and features, so if no object / feature exists, an alternative encoding scheme is required.

2014年11月4日出願の同時係属中の米国仮特許出願第61/950,784号(本明細書では「‘784出願」と称する)は、上記のセグメンテーション問題を回避するモデルベース圧縮スキームを提示している。‘784出願の連続的ブロックトラッカー(連続的ブロック追跡手段)(CBT)は、オブジェクトや特徴を検出せず、オブジェクトや特徴をオブジェクトでない/特徴でない背景と分割する必要性をなくす。むしろ、CBTは、フレーム−フレーム間の動き推定を連続的なトラックへと組み込むことにより、映像フレーム内の全ての入力ブロック(「マクロブロック」)をあたかも関心領域であるかの如く追跡する。こうすることにより、CBTは、インター予測を向上させるというデータの高次モデリング(モデル化)の恩恵を、セグメンテーション問題を回避しつつ享受するように映像内の動きをモデル化する。   Co-pending US Provisional Patent Application No. 61 / 950,784, filed November 4, 2014 (referred to herein as the '784 application), presents a model-based compression scheme that avoids the above segmentation problem. ing. The continuous block tracker (CBT) of the '784 application does not detect objects or features, and eliminates the need to split objects and features from non-object / non-feature backgrounds. Rather, CBT tracks all input blocks (“macroblocks”) in a video frame as if they were a region of interest by incorporating frame-to-frame motion estimation into a continuous track. By doing so, the CBT models the motion in the video so as to enjoy the benefits of higher-order modeling (modeling) of data to improve inter prediction while avoiding the segmentation problem.

他のモデルベース圧縮アプローチとして、映像データのコンテンツに対する人間の視覚系(HVS)の応答を、映像フレームのどの部分が人間の知覚にとって最も気付き易いのかを示す重要度マップとしてモデル化するものが挙げられる。重要度マップは、映像フレーム内のそれぞれの入力ブロック又はデータブロックについて数値を取る。また、所与のどのブロックについての重要度マップ値(重要度マップの数値)も、映像をとおしてフレーム−フレーム間で変化し得る。一般的に、重要度マップは、より高い数値がより重要なデータブロックを示すように定義される。   Another model-based compression approach is to model the human visual system (HVS) response to video data content as an importance map that indicates which parts of the video frame are most noticeable to human perception. It is done. The importance map takes a numerical value for each input block or data block in the video frame. Also, the importance map value (value of the importance map) for any given block can vary from frame to frame throughout the video. In general, importance maps are defined such that higher numbers indicate more important data blocks.

重要度マップの一種として、時間的コントラスト感度関数(TCSF)(de Lange, H., 1954, "Relationship between critical flicker frequency and a set of low frequency characteristics of the eye(臨界融合周波数と眼の低周波数特性のセットとの関係)," J. Opt. Soc. Am., 44:380-389)が挙げられる。TCSFは、周期的な刺激に対するHVSの応答を時間的に測定し、データ内の特定の時間的特性が観測者である人間にとって気付き易いものであることを明らかにする。これらの時間的特性がデータ内の動きに関連付けられて、TCSFは、データ内で最も気付き易い種類の動きが極めて高い時間的周波数および極めて低い時間的周波数のいずれにも該当しない「中程度」の動きであることを予測する。   As a kind of importance map, temporal contrast sensitivity function (TCSF) (de Lange, H., 1954, "Relationship between critical flicker frequency and a set of low frequency characteristics of the eye" And J. Opt. Soc. Am., 44: 380-389). TCSF measures the response of HVS to periodic stimuli over time, revealing that certain temporal characteristics in the data are easily noticeable to the observer human. With these temporal characteristics associated with movement in the data, the TCSF is a “medium” that does not fall into either the very high or very low temporal frequencies of the type of movement most noticeable in the data. Predict that it is movement.

留意すべき重要な点として、TCSFが、正確な時間的コントラスト値を生成するのに、映像内の動きを伴うコンテンツの速度の正確な測定を必要とすることが挙げられる。このような速度は、カメラの動きおよび/またはオブジェクトの動きによる映像コンテンツの正味の(明らかな)動きを表す、オプティカルフローを算出することによって近似を求めることが可能である。しかし、標準の映像エンコーダの大半は、オプティカルフローを正確に算出するよりも、圧縮効率を最適化する動き推定プロセスを採用している。   An important point to note is that the TCSF requires an accurate measurement of the speed of the content with motion in the video in order to generate an accurate temporal contrast value. Such a speed can be approximated by calculating an optical flow that represents the net (apparent) motion of the video content due to camera motion and / or object motion. However, most standard video encoders employ a motion estimation process that optimizes compression efficiency rather than accurately calculating the optical flow.

他種の重要度マップとして、空間的コントラスト感度に基づくものが挙げられ、これは、明るさ、エッジ、空間的周波数、色などの空間的特性に対するHVSの応答を測定する。空間的コントラスト感度関数(SCSF)(例えば、Barten, P., 1999, Contrast Sensitivity of the Human Eye and Its Effects on Image Quality(人間の眼のコントラスト感度および画像品質へのその影響), SPIE Press等を参照のこと)は、単にコントラスト感度関数(CSF)としても知られており、HVSにとって顕著である空間的コントラストを測定する。SCSFは、JPEG2000画像圧縮規格において、画像圧縮アーチファクトを低減する目的での適用が成功を収めている。オブジェクトや特徴についても、空間的コントラスト手法の支援(例えば、空間的周波数勾配により示されるエッジの存在等)によって典型的に検出される。空間的コントラスト感度は画像圧縮(例えば、JPEG2000コーデック等)においては研究・利用されてきたものの、また、オブジェクト・特徴の検出に基づく映像圧縮プロセスが数多く提案されてきたものの、TCSFで表される時間的コントラスト感度がこれまで映像圧縮に適用されることはなかった。   Other types of importance maps include those based on spatial contrast sensitivity, which measures the response of HVS to spatial characteristics such as brightness, edges, spatial frequency, and color. Spatial contrast sensitivity function (SCSF) (eg Barten, P., 1999, Contrast Sensitivity of the Human Eye and Its Effects on Image Quality), SPIE Press, etc. (See also), also known simply as the contrast sensitivity function (CSF), measures the spatial contrast that is significant for HVS. SCSF has been successfully applied in the JPEG2000 image compression standard for the purpose of reducing image compression artifacts. Objects and features are also typically detected with the aid of spatial contrast techniques (eg, the presence of edges indicated by spatial frequency gradients). Spatial contrast sensitivity has been studied and used in image compression (for example, JPEG2000 codec), and many video compression processes based on object / feature detection have been proposed, but the time represented by TCSF. Conventional contrast sensitivity has never been applied to video compression.

開示する幾つかの発明的実施形態は、映像符号化の品質を向上させるように、重要度マップを映像圧縮に適用する。例示的な一実施形態では、標準の映像符号化処理ストリーム内での時間的周波数が、色空間領域における構造的類似度(SSIM)を用いて波長の近似を求めることにより、かつ、エンコーダの動きベクトル(エンコーダ動きベクトル)を用いて速度の近似を求めることにより算出される。次に、時間的周波数が、時間的コントラスト感度関数(TCSF)への入力としての役割を果たす。TCSFは、全てのデータブロックについて算出され得て、これにより、映像フレームのどの領域が観測者である人間にとって最も気付き易いのかを示す時間的重要度マップを生成し得る。   Some inventive embodiments disclosed apply an importance map to video compression so as to improve the quality of video coding. In an exemplary embodiment, the temporal frequency within the standard video encoding process stream is determined by determining the wavelength approximation using structural similarity (SSIM) in the color space domain, and encoder motion. It is calculated by obtaining an approximation of speed using a vector (encoder motion vector). The temporal frequency then serves as an input to the temporal contrast sensitivity function (TCSF). The TCSF may be calculated for all data blocks, thereby generating a temporal importance map that indicates which regions of the video frame are most noticeable to the human being who is the observer.

例示的なさらなる実施形態では、エンコーダにより生成された動きベクトルの相対品質についての情報が、符号化プロセスにおける種々の時点で算出され得て、真の動きベクトルマップを生成するのに用いられ得る。真の動きベクトルマップは、それぞれのターゲットブロックについて、その動きベクトルがどれほど信頼できるのかを出力する。0または1の数値を取るこの真の動きベクトルマップは、動きベクトルが正確でないターゲットブロック(すなわち、真の動きベクトルマップが0であるターゲットブロック)にはTCSFが適用されないようにTCSFを洗練化するマスクとして用いられ得る。   In an exemplary further embodiment, information about the relative quality of the motion vectors generated by the encoder can be calculated at various points in the encoding process and used to generate a true motion vector map. The true motion vector map outputs how reliable the motion vector is for each target block. This true motion vector map that takes a value of 0 or 1 refines the TCSF so that TCSF is not applied to target blocks whose motion vectors are not accurate (ie, target blocks whose true motion vector map is 0). Can be used as a mask.

さらなる実施形態では、空間的複雑度マップ(SCM)が、所与のターゲットブロックの、その近傍に対する空間的コントラストを決定するように、ブロック分散(ブロック内分散)、ブロック輝度、エッジ検出などの尺度から算出され得る。他の実施形態では、SCMからの情報が、複合的な統合化された重要度マップを得るようにTCSFと組み合わされ得る。この統合化された重要度マップにおける空間的および時間的コントラスト情報の組合せは、人間の視覚的応答の両側面を効果的に両立させる。   In further embodiments, measures such as block variance (intra-block variance), block luminance, edge detection, etc., so that the spatial complexity map (SCM) determines the spatial contrast of a given target block to its neighborhood. Can be calculated from In other embodiments, information from the SCM can be combined with the TCSF to obtain a composite integrated importance map. The combination of spatial and temporal contrast information in this integrated importance map effectively balances both sides of the human visual response.

例示的な一実施形態では、統合化された重要度マップ(TCSFおよびSCMの両方からの情報を含む重要度マップ)が、標準のレート歪み尺度であるD+λRのうちの歪み部分を重み付けるのに用いられる。これにより、それぞれのターゲットブロックの知覚的相対重要度に合ったソリューション(重要度マップがその最大値に近いときには低歪みソリューションで、重要度マップがその最小値に近いときには低レートソリューション)へと重み付けされた、改変されたレート歪み最適化が得られる。代替的な一実施形態では、上記の目的に、TCSF又はSCMが独立して用いられ得る。   In one exemplary embodiment, an integrated importance map (an importance map that includes information from both TCSF and SCM) is used to weight the distortion portion of the standard rate distortion measure D + λR. Used. This weights the solution that matches the perceptual relative importance of each target block (a low distortion solution when the importance map is close to its maximum value and a low rate solution when the importance map is close to its minimum value) Modified rate distortion optimization is obtained. In an alternative embodiment, TCSF or SCM can be used independently for the above purposes.

例示的な他の実施形態では、(真の動きベクトルによる洗練化を伴う)TCSFおよびSCMが、エンコーダのブロックレベル量子化を調整するように用いられ得る。前記重要度マップが高い数値をとるターゲットブロックでは、量子化パラメータがフレーム量子化パラメータに比べて小さくされることで、これらのブロックについては高い品質が得られる。前記重要度マップが低い数値をとるターゲットブロックでは、量子化パラメータがフレーム量子化パラメータに比べて大きくされることで、これらのブロックについては低い品質が得られる。代替的な一実施形態では、上記の目的に、TCSF又はSCMが独立して用いられ得る。   In another exemplary embodiment, TCSF and SCM (with refinement with true motion vectors) may be used to adjust the block level quantization of the encoder. In the target block in which the importance map has a high numerical value, the quantization parameter is made smaller than the frame quantization parameter, so that high quality can be obtained for these blocks. In the target block having a low importance map, the quantization parameter is set larger than the frame quantization parameter, so that a low quality can be obtained for these blocks. In an alternative embodiment, TCSF or SCM can be used independently for the above purposes.

TCSFは、インター予測を組み込み且つ動きベクトル(映像内のコンテンツの速度の近似を求めるのにTCSFにより利用される)を生成するエンコーダであればどのようなエンコーダの場合にも算出可能であるが、映像圧縮へのTCSFの適用は、どの動きベクトルが真の動きベクトルであるのかを正確に決定可能な ‘784出願の連続的ブロックトラッカー(CBT)などの、モデルベース圧縮フレームワークにおいて最も効果的となる。前述したように、標準の映像エンコーダの大半は、真の動きを反映するよりも圧縮効率を最適化する動きベクトルを算出する。対照的に、CBTは、高い圧縮効率に適した動きベクトルとTCSFの効果を最大化するモデル化情報との両方を提供する。   The TCSF can be calculated for any encoder that incorporates inter prediction and generates motion vectors (used by the TCSF to approximate the speed of the content in the video), Applying TCSF to video compression is most effective in model-based compression frameworks, such as the '784 application continuous block tracker (CBT), which can accurately determine which motion vectors are true motion vectors. Become. As described above, most standard video encoders calculate motion vectors that optimize compression efficiency rather than reflecting true motion. In contrast, CBT provides both motion vectors suitable for high compression efficiency and modeling information that maximizes the effect of TCSF.

例示的な一部の発明的実施形態は、得られたビットストリームが、ブロックベースの動き推定を用いて且つその後に残差信号の変換、量子化及びエントロピー符号化が続けられる任意の映像圧縮規格に準拠したものとなるように構築される。そのような映像圧縮規格は、MPEG−2、H.264およびHEVCを含むが、これらに限定されるわけではない。本発明は、ブロックベースでない非標準の映像エンコーダであっても、インター予測を組み込み且つ動きベクトルを生成するものであれば、そのような映像エンコーダにも適用可能である。   Some exemplary inventive embodiments are directed to any video compression standard in which the resulting bitstream uses block-based motion estimation followed by residual signal transformation, quantization and entropy coding. Constructed to be compliant. Such video compression standards are MPEG-2, H.264, etc. Including, but not limited to, H.264 and HEVC. The present invention can be applied to a non-standard video encoder that is not block-based as long as it incorporates inter prediction and generates a motion vector.

例示的な一部の実施形態は、映像データを符号化する方法及びシステム、ならびにこれを実現するための任意のコーデック(エンコーダおよびデコーダ)を含み得る。複数の映像フレームであって、当該映像フレームが互いに重なり合わないターゲットブロックを有する複数の映像フレームが、エンコーダにより処理され得る。前記複数の映像フレームは、重要度マップを用いて、当該重要度マップが量子化を改変(調整)することによって各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質に変更を加えるように、前記エンコーダにより符号化され得る。   Some exemplary embodiments may include a method and system for encoding video data, and any codecs (encoders and decoders) to implement it. A plurality of video frames that have target blocks that are non-overlapping video frames can be processed by the encoder. The plurality of video frames uses an importance map, and the importance map modifies (adjusts) quantization so as to change the encoding quality of each target block to be encoded in each video frame. Can be encoded by the encoder.

前記重要度マップは、時間的情報と空間的情報の少なくとも一方を用いて構成され得る。時間的情報と空間的情報との両方が用いられた場合、前記重要度マップは統合化された重要度マップと見なされる。前記重要度マップは、前記複数の映像フレームのうちのある映像フレームの、人間の知覚にとって最も気付き易い部分を示す(特定する、または表す)ように設定され得る。具体的に述べると、前記重要度マップが高い数値をとるブロックでは、ブロック量子化パラメータ(QP)がフレーム量子化パラメータQPframeに比べて小さくされることで、これらのブロックについては高い品質が得られる。また、前記重要度マップが低い数値をとるターゲットブロックでは、前記ブロック量子化パラメータが前記フレーム量子化パラメータQPframeに比べて大きくされることで、これらのブロックについては低い品質が得られる。 The importance map may be configured using at least one of temporal information and spatial information. When both temporal information and spatial information are used, the importance map is considered as an integrated importance map. The importance map may be set so as to indicate (specify or represent) a portion of a certain video frame that is most noticeable to human perception. More specifically, in blocks where the importance map has a high value, the block quantization parameter (QP) is made smaller than the frame quantization parameter QP frame , so that high quality is obtained for these blocks. It is done. Further, in the target block having a low importance map, the block quantization parameter is set larger than the frame quantization parameter QP frame , so that low quality is obtained for these blocks.

前記空間的情報は、ルールに基づく空間的複雑度マップ(SCM)により提供され得て、その最初のステップは、前記フレーム内のどのターゲットブロックが当該フレーム内の平均ブロック分散varframeよりも大きい分散を有するかを決定することである。平均ブロック分散varframeよりも大きい分散を有するブロックに対して、前記フレーム量子化パラメータQPframeよりも高いQP値が振り当てられ得て、このブロックQPの振当量QPblockは、そのブロック分散varblockがvarframeよりもいかなる程度大きいかに従って、QPframeと量子化パラメータ上限QPmaxとの間で線形的に増減される。 The spatial information may be provided by a rule-based spatial complexity map (SCM), the first step of which is to determine which target block in the frame is greater than the average block variance var frame in the frame Is to determine whether to have A QP value higher than the frame quantization parameter QP frame can be assigned to a block having a variance greater than the average block variance var frame , and the block equivalent QP block of the block QP is the block variance var block. Is linearly increased or decreased between the QP frame and the quantization parameter upper limit QP max according to how much is larger than the var frame .

好ましくは、前記時間的情報は、どのターゲットブロックが観測者である人間にとって時間的に最も気付き易いかを示す時間的コントラスト感度関数(TCSF)、および、どのターゲットブロックが前景データに相当するかを示す真の動きベクトルマップ(TMVM)により提供され得る。なお、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされ得る。   Preferably, the temporal information includes a temporal contrast sensitivity function (TCSF) indicating which target block is most easily noticed by a human being who is an observer, and which target block corresponds to foreground data. It can be provided by a true motion vector map (TMVM) shown. The TCSF can be valid only for the target block specified as the foreground data.

分散の大きい(high-variance)ブロックは、そのブロックのQPの振当量QPblockが、前記TMVMがターゲットブロックを前景データとして特定し且つ前記TCSFのこのブロックについてのコントラスト感度対数値が0.5未満である場合にはQPblockが2増加するように、前記TCSF及び前記TMVMによりさらに洗練化され得る。 A high-variance block has a QP block equivalent QP block for which the TMVM identifies the target block as foreground data and the contrast sensitivity log value for this block in the TCSF is less than 0.5. The QP block can be further refined by the TCSF and the TMVM to increase by 2.

前記SCMは、極めて明るい(170超の輝度)か又は極めて暗い(60未満の輝度)ターゲットブロックのブロック量子化パラメータQPblockがQPmaxに調節し直される輝度マスキングを含み得る。前記SCMは、符号化された映像の品質レベルに基づくQPmaxの動的な決定を含み得て、この動的な決定では、イントラ(I)フレーム内のターゲットブロックの平均構造的類似度(SSIM)算出結果をこれらフレームの平均ブロック分散varframeと共に用いて、品質が測定され、測定された品質が低いと、前記量子化パラメータ上限QPmaxの数値が前記フレーム量子化パラメータQPframeに幾分近づくように減らされる。 The SCM may include luminance masking in which the block quantization parameter QP block of the target block that is very bright (luminance greater than 170) or extremely dark (luminance less than 60) is readjusted to QP max . The SCM may include a dynamic determination of QP max based on the quality level of the encoded video, where the dynamic determination of the average structural similarity (SSIM) of the target block within an intra (I) frame. ) Using the calculation result together with the average block variance var frame of these frames, the quality is measured, and if the measured quality is low, the numerical value of the quantization parameter upper limit QP max is somewhat closer to the frame quantization parameter QP frame As reduced.

分散の極めて小さい(very-low-variance)ブロックに対して、これらの領域における高品質符号化を確実にするために、前記ブロック分散が小さいほど前記振当量QPblockの数値が低くなるように(、かつ、品質が高くなるように)決められた低い量子化パラメータ(QP)の値である前記振当量QPblockが振り当てられ得る。分散の極めて小さいブロックに対する前記低い量子化パラメータ(QP)の値である前記振当量QPblockは、最初に、Iフレームについて決められ、その後、Pフレーム及びBフレームについてはipratioパラメータ及びpbratioパラメータを用いて決められ得る。分散は小さいが、分散が極めて小さいとは見なさないブロックは、当該ブロックについて品質向上が必要か否かを判定するために、前記ブロック量子化パラメータ(QP)の初めの推定値である前記振当量QPblockが現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックの量子化パラメータ(QP)の値を平均することによって算出されるように調べられる。前記現在のブロックの前記SSIMの推定SSIMestが、前記現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックのSSIM値から算出され得る。SSIMestが0.9未満の場合、前記振当量QPblockの数値が2減少され得る。 In order to ensure high quality coding in these regions for very-low-variance blocks, the smaller the block variance, the lower the value of the vibration equivalent QP block ( In addition, the shaking equivalent QP block, which is a value of the determined low quantization parameter (QP), can be assigned (so that the quality is high). The shaking equivalent QP block , which is the value of the low quantization parameter (QP) for a very small variance block, is first determined for I frames, and then using the i and p brati parameters for P and B frames. Can be determined. A block whose variance is small but whose variance is not considered to be extremely small is the initial equivalent value of the block quantization parameter (QP) to determine whether quality improvement is necessary for the block. The QP block is examined to be calculated by averaging the quantization parameter (QP) values of the already encoded neighboring blocks at the left, upper left, right and upper right of the current block. The estimated SSIM est of the SSIM of the current block may be calculated from the SSIM values of the already encoded neighboring blocks at the left, upper left, right and upper right of the current block. When the SSIM est is less than 0.9, the value of the shaking equivalent QP block may be decreased by 2.

一部の実施形態において、前記品質向上は、前記TMVMにより前景データとして特定されて且つ前記TCSFのコントラスト感度対数値が0.8超であるブロックにのみ適用される。前記TMVMは、前景データの場合にのみ1に設定され得る。   In some embodiments, the quality enhancement is applied only to blocks identified as foreground data by the TMVM and having a contrast sensitivity logarithm value of the TCSF greater than 0.8. The TMVM can be set to 1 only for foreground data.

一部の実施形態において、前記TCSFの時間的周波数は、前記ターゲットブロックとその参照ブロックとの間の色空間領域におけるSSIMを用いて波長の近似を求めて且つ動きベクトルの大きさ(動きベクトル大きさ)とフレームレートとを用いて速度の近似を求めることによって算出される。   In some embodiments, the temporal frequency of the TCSF is determined using a SSIM in the color space region between the target block and its reference block to approximate the wavelength and the magnitude of the motion vector (motion vector magnitude). And the frame rate are used to calculate an approximation of the speed.

前記TCSFは、現在のフレームについての当該TCSFが最近のフレームにおけるTCSFマップの重み付き平均であるように且つより最近のフレームがより大きい重み付けを受けるように、複数のフレームにわたって算出され得る。   The TCSF may be calculated over multiple frames so that the TCSF for the current frame is a weighted average of the TCSF maps in the most recent frame and more recent frames receive greater weighting.

前景データは、所与のターゲットブロックについてのエンコーダ動きベクトルと当該ブロックについてのグローバル動きベクトルとの差分を算出し、十分に大きい差分を有するブロックが前景データであると判断されることによって特定され得る。   Foreground data can be identified by calculating the difference between the encoder motion vector for a given target block and the global motion vector for that block, and determining that a block with a sufficiently large difference is foreground data. .

前景データとして特定されたデータブロックについて、前記グローバル動きベクトルから前記エンコーダ動きベクトルが減算されることによって差分動きベクトルを得ることがあり得て、この差分動きベクトルの大きさが前記TCSFの時間的周波数を算出するのに用いられる。   For a data block identified as foreground data, a difference motion vector may be obtained by subtracting the encoder motion vector from the global motion vector, and the magnitude of the difference motion vector is a temporal frequency of the TCSF. Is used to calculate

映像データを処理するコンピュータに基づく方法、映像データを処理するコーデック(エンコーダおよびデコーダ)、ならびに映像データを処理するその他のコンピュータシステム及び装置が、本発明の前述した原理を具現化し得る。   Computer based methods for processing video data, codecs (encoders and decoders) for processing video data, and other computer systems and devices for processing video data may embody the aforementioned principles of the present invention.

前述の内容は、添付の図面に示す本発明の例示的な実施形態についての、以下のより詳細な説明から明らかになる。図面では、異なる図をとおして同一の参照符号が同一の構成/構成要素を指すものとする。図面は必ずしも縮尺どおりではなく、むしろ、本発明の実施形態を示すことに重点が置かれている。   The foregoing will become apparent from the following more detailed description of exemplary embodiments of the invention as illustrated in the accompanying drawings. In the drawings, like reference numerals refer to like elements / components throughout the different views. The drawings are not necessarily to scale, emphasis instead being placed upon illustrating embodiments of the present invention.

標準のエンコーダの構成を示すブロック図である。It is a block diagram which shows the structure of a standard encoder. 一般的なエンコーダの場合のインター予測に伴うステップを示すブロック図である。It is a block diagram which shows the step accompanying the inter prediction in the case of a general encoder. 連続的ブロック追跡による動き初期推定に伴うステップを示すブロック図である。It is a block diagram which shows the step accompanying the motion initial estimation by continuous block tracking. 連続的ブロック追跡と拡張予測区域探索との組合せによる統合化された動き推定を示すブロック図である。FIG. 6 is a block diagram illustrating integrated motion estimation through a combination of continuous block tracking and extended prediction area search. Wooten達による時間的コントラスト感度関数の最近の測定結果(2010年)を示すプロットである。It is a plot which shows the latest measurement result (2010) of the temporal contrast sensitivity function by Wooten et al. 本発明の一実施形態における、CIE1976Lab色空間における構造的類似度(SSIM)の算出の様子を示すブロック図である。It is a block diagram which shows the mode of calculation of the structural similarity (SSIM) in CIE1976Lab color space in one Embodiment of this invention. 本発明の一実施形態における、映像符号化の知覚的品質を向上させるための知覚的統計量の一般的な適用の様子を示すブロック図である。FIG. 6 is a block diagram illustrating a general application of perceptual statistics to improve the perceptual quality of video encoding in one embodiment of the present invention. 本発明の一実施形態における、連続的ブロック追跡によるインター予測を改変して映像符号化の知覚的品質を向上させるための知覚的統計量の適用の様子を示すブロック図である。FIG. 6 is a block diagram illustrating the application of perceptual statistics to improve the perceptual quality of video coding by modifying inter prediction with continuous block tracking in one embodiment of the present invention. 重要度マップを用いてブロック量子化を改変して符号化するプロセスの一例を示すブロック図である。FIG. 6 is a block diagram illustrating an example of a process for modifying and encoding block quantization using an importance map. 各実施形態が配備されるコンピュータネットワーク環境の概略図である。It is the schematic of the computer network environment by which each embodiment is deployed. 図9Aのネットワークにおけるコンピュータノードのブロック図である。FIG. 9B is a block diagram of computer nodes in the network of FIG. 9A.

本明細書で引用する全ての特許公報、全ての特許出願公報及び全ての刊行物の全教示内容は、参照をもって本明細書に取り入れたものとする。以下では、本発明の例示的な実施形態について説明する。   The entire teachings of all patent publications, all patent application publications and all publications cited herein are hereby incorporated by reference. In the following, exemplary embodiments of the invention will be described.

本発明は、標準の様々な符号化に適用可能である。以下では、特記しない限り、「従来」や「標準」という語(しばしば、「圧縮」、「コーデック」、「符号化(encoding)」や「エンコーダ」と共に用いられる)は、MPEG−2、MPEG−4、H.264またはHEVCのことを指し得る。「入力ブロック」は、一般性を失うことなく、エンコーダの符号化基本単位のことを指すものとし、しばしば、「データブロック」や「マクロブロック」と同じ意味で称され得る。符号化中の現在の入力ブロックは、「ターゲットブロック」と称される。   The present invention is applicable to various standard encodings. In the following, unless otherwise specified, the terms “conventional” and “standard” (often used in conjunction with “compression”, “codec”, “encoding” and “encoder”) are MPEG-2, MPEG- 4. H. H.264 or HEVC. “Input block” refers to the basic encoding unit of the encoder without loss of generality, and can often be referred to as “data block” or “macroblock”. The current input block being encoded is referred to as the “target block”.

<連続的ブロック追跡による映像符号化及びインター予測>
符号化プロセスは、映像データを、圧縮フォーマットつまり符号化フォーマットに変換するものであり得る。同様に、解凍つまり復号化プロセスは、圧縮された映像を、圧縮される前のつまり未処理のフォーマットに変換するものであり得る。映像圧縮・解凍プロセスは、一般的にコーデックと称されるエンコーダおよびデコーダのペアとして実現され得る。
<Video coding and inter prediction by continuous block tracking>
The encoding process may convert video data into a compressed or encoded format. Similarly, the decompression or decoding process may convert the compressed video to an uncompressed or raw format. The video compression / decompression process may be implemented as an encoder and decoder pair commonly referred to as a codec.

図1は、標準の変換ベース且つ動き補償のエンコーダのブロック図である。図1のエンコーダは、ソフトウェア環境、ハードウェア環境又はこれらの組合せで実現され得る。このエンコーダは、任意の組合せの構成要素を備え得る。これらの構成要素は、インター予測手段20に出力する動き推定手段15、イントラ予測手段30、変換・量子化手段60、逆変換・量子化手段70、ループ内フィルタ80、フレームストア85およびエントロピー符号化手段90を含むが、これらに限定されるわけではない。上記の予測手段(インター予測とイントラ予測との両方)の目的は、所与の入力映像ブロック10(略して「入力ブロック」、あるいは、「マクロブロック」又は「データブロック」)についての最良の予測信号40を生成することである。入力ブロック10から予測信号40が減算されることによって予測残差50を生成し、この予測残差50が変換・量子化60を受ける。その後、この残差の量子化係数65がエントロピー符号化手段90へと渡されて、エントロピー符号化手段90が圧縮ビットストリームへと符号化する。量子化係数65は逆変換・量子化手段70にも渡されて、その結果得られる信号(前記予測残差の近似)が予測信号40に組み戻されて、これによって入力ブロック10についての再構成信号75を生成する。再構成信号75はデブロッキングフィルタなどのループ内フィルタ80に通され得て、この(場合によってフィルタリング済みである)再構成信号がフレームストア85の一部となる。フレームストア85は、今後の入力ブロックの予測を支援する。図1に示すエンコーダの各構成要素の機能は、当業者であればよく知っている。   FIG. 1 is a block diagram of a standard transform-based and motion compensated encoder. The encoder of FIG. 1 may be implemented in a software environment, a hardware environment, or a combination thereof. The encoder may comprise any combination of components. These components are the motion estimation unit 15 output to the inter prediction unit 20, the intra prediction unit 30, the transform / quantization unit 60, the inverse transform / quantization unit 70, the in-loop filter 80, the frame store 85, and the entropy coding. Including, but not limited to, means 90. The purpose of the above prediction means (both inter prediction and intra prediction) is to provide the best prediction for a given input video block 10 (abbreviated “input block”, or “macroblock” or “data block”). Generating a signal 40. A prediction residual 50 is generated by subtracting the prediction signal 40 from the input block 10, and the prediction residual 50 is subjected to transformation / quantization 60. Thereafter, the quantized coefficient 65 of the residual is passed to the entropy encoding unit 90, and the entropy encoding unit 90 encodes the compressed bit stream. The quantization coefficient 65 is also passed to the inverse transform / quantization means 70, and the resulting signal (approximation of the prediction residual) is recombined into the prediction signal 40, thereby reconstructing the input block 10 A signal 75 is generated. The reconstructed signal 75 can be passed through an in-loop filter 80, such as a deblocking filter, and this (optionally filtered) reconstructed signal becomes part of the frame store 85. The frame store 85 supports prediction of future input blocks. Those skilled in the art are familiar with the function of each component of the encoder shown in FIG.

図2に、標準のインター予測(図1の符号30)における各種ステップを示す。インター予測の目的は、新たなデータを、前のフレームからの予め復号化されたデータを用いて、当該データにおける時間的冗長性を利用して符号化することである。インター予測では、現在符号化中のフレーム(ターゲットフレームとも称される)からの入力ブロック10が、図1のフレームストア85に記憶された、予め復号化された参照フレーム内の同サイズの領域から「予測」される。符号化中のフレーム内の入力ブロックの位置と参照フレーム内のこれと一致する領域の位置との(x、y)のずれを示す二成分ベクトルは、動きベクトルと称される。このように、動き推定のプロセスは、符号化すべき入力ブロックを参照フレーム内のこれと一致する領域と最良に結び付ける動きベクトルを決定することを伴う。   FIG. 2 shows various steps in standard inter prediction (reference numeral 30 in FIG. 1). The purpose of inter prediction is to encode new data using pre-decoded data from the previous frame, taking advantage of temporal redundancy in the data. In inter prediction, an input block 10 from a frame that is currently being encoded (also referred to as a target frame) is stored from a region of the same size in a pre-decoded reference frame stored in the frame store 85 of FIG. "is expected. A two-component vector indicating a shift of (x, y) between the position of an input block in a frame being encoded and the position of a region matching this in a reference frame is referred to as a motion vector. Thus, the process of motion estimation involves determining the motion vector that best associates the input block to be encoded with the matching region in the reference frame.

大半のインター予測プロセスは、所与の入力ブロックについての「良好」な動きベクトル115の1つ以上の粗推定を生成する動き初期推定(図2の符号110)から始まる。この後に、任意で、複数の動きベクトル候補が近似レート歪み尺度を用いて単一の候補に低減され得る動きベクトル候補フィルタリングステップ120が続けられる。レート歪み解析では、最良の動きベクトル候補(予測)は、レート歪み尺度D+λR(式中、歪みDは、入力ブロックとこれと一致する領域との誤差であり、レートRは、予測を符号化するコスト(ビット単位)を定量化し、λは、スカラー重み付け係数である。)を最小化するものが選ばれる。実際のレートコストは、テクスチャビットと動きベクトルビットとの2種類の成分を含む。テクスチャビットは、残差信号(入力ブロックから予測を減算したもの)の量子化変換係数を符号化するのに必要なビットの数であり、動きベクトルビットは、動きベクトルを符号化するのに必要なビットの数である。通常、動きベクトルは、既に符号化済みの動きベクトルに対して差分符号化される。エンコーダにおける初期の段階ではテクスチャビットが利用可能でないので、レート歪み尺度のうちのレート部分は、動きベクトルビットにより近似で求められる。一方で、動きベクトルビットは、差分動きベクトルの大きさに依存する動きベクトルペナルティ係数として近似される。したがって、動きベクトル候補フィルタリングステップ120において、この近似レート歪み尺度が、単一の「最良」の初めの動きベクトル又はより少数の集合の「最良」の初めの動きベクトル125を選び出すのに用いられる。次に、そのような初めの動きベクトル125は、動き精推定130により洗練化(refine(さらに改良))される。動き精推定130は、それぞれの初めの推定の近傍において局所探索を行うことにより、その入力ブロックについての動きベクトル(および対応する予測)のより正確な推定を決定する。通常、この局所探索の後に、整数値動きベクトルが内挿により1/2又は1/4ピクセル精度まで洗練化されるサブピクセル洗練化が続けられる。動き精推定ブロック130は、洗練化済みの動きベクトル135の集合を生成する。   Most inter prediction processes begin with an initial motion estimate (reference 110 in FIG. 2) that generates one or more coarse estimates of the “good” motion vector 115 for a given input block. This is optionally followed by a motion vector candidate filtering step 120 where multiple motion vector candidates can be reduced to a single candidate using an approximate rate distortion measure. In rate distortion analysis, the best motion vector candidate (prediction) is the rate distortion measure D + λR, where distortion D is the error between the input block and the matching region, and rate R encodes the prediction. The one that quantifies the cost (in bits) and minimizes λ is a scalar weighting factor is selected. The actual rate cost includes two types of components, texture bits and motion vector bits. Texture bits are the number of bits required to encode the quantized transform coefficients of the residual signal (input block minus prediction) and motion vector bits are required to encode the motion vector The number of bits. Usually, a motion vector is differentially encoded with respect to an already encoded motion vector. Since texture bits are not available at an early stage in the encoder, the rate portion of the rate distortion measure is approximated by motion vector bits. On the other hand, the motion vector bit is approximated as a motion vector penalty coefficient depending on the magnitude of the difference motion vector. Thus, in the motion vector candidate filtering step 120, this approximate rate distortion measure is used to select a single “best” initial motion vector or a smaller set of “best” initial motion vectors 125. Such initial motion vector 125 is then refined (refine) by motion refinement estimation 130. Motion refinement estimate 130 performs a local search in the vicinity of each initial estimate to determine a more accurate estimate of the motion vector (and corresponding prediction) for that input block. This local search is usually followed by sub-pixel refinement where integer motion vectors are refined to 1/2 or 1/4 pixel accuracy by interpolation. The motion refinement estimation block 130 generates a refined set of motion vectors 135.

次に、動き精ベクトル135が与えられると、モード生成手段140がそのエンコーダが採用し得る符号化モードに基づいて予測候補145の集合を生成する。このようなモードは、コーデックによって異なる。符号化モードが異なるというのは、インターレース対プログレッシブ(フィールド対フレーム)動き推定、参照フレームの方向(前方向予測、後方向予測、双予測)、参照フレームのインデックス(複数の参照フレームを可能にするH.264、HEVCなどのコーデックの場合)、インター予測対イントラ予測(良好なインター予測が存在しない場合にイントラ予測へと戻ることを可能にする一部のシナリオ)、異なる量子化パラメータ、および入力ブロックの異なるサブ区分である(ただし、これらに限定されるわけではない)。予測候補145の集合の全体が、単一の最良の候補を決定するように「最終」のレート歪み解析150を受ける。「最終」のレート歪み解析では、正確なレート歪み尺度D+λRが用いられて、歪み部分用の予測誤差D(通常、二乗誤差和(SSE)として算出)およびレート部分用の実際の符号化ビットR(図1のエントロピー符号化90からのもの)を算出する。最終の予測160(つまり図1の符号40)は、全ての候補のなかで最小のレート歪みスコアD+λRを有する予測であり、この最終の予測が、その動きベクトル及び他の符号化パラメータと共にエンコーダにおける後続のステップへと渡される。   Next, when the motion vector 135 is given, the mode generation unit 140 generates a set of prediction candidates 145 based on the encoding modes that can be adopted by the encoder. Such a mode differs depending on the codec. Different coding modes mean interlaced vs progressive (field vs frame) motion estimation, reference frame direction (forward prediction, backward prediction, bi-prediction), reference frame index (multiple reference frames allowed H.264, for codecs such as HEVC), inter prediction versus intra prediction (some scenarios that allow returning to intra prediction in the absence of good inter prediction), different quantization parameters, and inputs Different sub-sections of the block (but not limited to). The entire set of prediction candidates 145 is subjected to a “final” rate distortion analysis 150 to determine a single best candidate. In the “final” rate-distortion analysis, an accurate rate-distortion measure D + λR is used to predict the distortion error D (usually calculated as the sum of squared errors (SSE)) and the actual coded bit R for the rate part. (From the entropy encoding 90 of FIG. 1) is calculated. The final prediction 160 (ie, code 40 in FIG. 1) is the prediction with the lowest rate distortion score D + λR among all candidates, and this final prediction along with its motion vector and other coding parameters at the encoder. Passed to subsequent steps.

図3に、インター予測時に、連続的ブロック追跡(CBT)による動き初期推定がどのようにして行われ得るのかを示す。CBTは、ターゲットフレームと時間的予測が導き出される参照フレームとの間に、複数のフレーム分のギャップが存在する場合に有用である。MPEG−2の場合、IBBPBBP(イントラ予測Iフレーム、双予測Bフレームおよび前方向予測Pフレームからなる)の典型的なGOP構造は、現在のフレームから最大3フレーム分離れた参照フレームを可能にする(その理由は、MPEG−2ではBフレームが参照フレームとして機能できないからである)。符号化すべき各フレームにつき複数の参照フレームを可能にするH.264やHEVCでは、上記と同じGOP構造でも、現在のフレームから6フレーム分以上離れた参照フレームを可能にする。より長いGOP構造(例えば、Pフレーム同士の間に7つのBフレーム等)であれば、参照フレームは、ターゲットフレームからなおいっそう離れたものとなり得る。現在のフレームと参照フレームとの間に複数のフレーム分のギャップが存在するとき、連続的追跡は標準の時間的予測手法では捉えられないデータ内の動きをエンコーダが捉えることを可能にするので、CBTはより優れた時間的予測を生成することを可能にする。   FIG. 3 shows how initial motion estimation by continuous block tracking (CBT) can be performed during inter prediction. CBT is useful when there are multiple frame gaps between a target frame and a reference frame from which temporal prediction is derived. In the case of MPEG-2, the typical GOP structure of IBBPBBP (consisting of intra-predicted I-frames, bi-predicted B-frames and forward-predicted P-frames) allows for reference frames that are separated by up to 3 frames from the current frame. (The reason is that in MPEG-2, the B frame cannot function as a reference frame). H. allows multiple reference frames for each frame to be encoded. In H.264 and HEVC, even with the same GOP structure as described above, a reference frame that is more than six frames away from the current frame is enabled. For longer GOP structures (eg, 7 B frames between P frames, etc.), the reference frame can be even further away from the target frame. When there are multiple frame gaps between the current frame and the reference frame, continuous tracking allows the encoder to capture motion in the data that is not captured by standard temporal prediction techniques, CBT makes it possible to generate better temporal predictions.

CBTでの最初のステップは、フレーム−フレーム間追跡(図3の符号210)を実行することである。所与のフレーム内の入力ブロック10ごとに、フレームバッファ205内の前のフレームへの後方向と当該フレームバッファ内の次のフレームへの前方向との両方の動きベクトルが算出される。一実施形態において、フレーム−フレーム間追跡は、再構成された参照フレームではなく元々のソース映像からのフレームに作用する。これは、ソース映像のフレームが量子化や他の符号化アーチファクトによって劣化していないことから、ソース映像のフレームに基づく追跡は映像における真の動き場をより正確に表すので有利だからである。フレーム−フレーム間追跡は、従来のブロックベースの動き推定(BBME)又は階層的な動き推定(HME)を用いて行われ得る。   The first step in CBT is to perform frame-to-frame tracking (reference 210 in FIG. 3). For each input block 10 in a given frame, motion vectors are calculated both backward to the previous frame in the frame buffer 205 and forward to the next frame in the frame buffer. In one embodiment, frame-to-frame tracking operates on frames from the original source video rather than reconstructed reference frames. This is because the source video frame is not degraded by quantization or other coding artifacts, so tracking based on the source video frame is advantageous because it more accurately represents the true motion field in the video. Frame-to-frame tracking may be performed using conventional block-based motion estimation (BBME) or hierarchical motion estimation (HME).

フレーム−フレーム間追跡の結果は、フレーム内のそれぞれの入力ブロックごとに対する、フレームバッファ205内の一番最近のフレーム内での最良に一致する領域と、フレームバッファ205内の一番最近のフレームのブロックごとに対する、現在のフレーム内での最良に一致する領域とを表す、フレーム−フレーム間動きベクトル215の集合である。次に、連続的追跡220が、利用可能なフレーム−フレーム間追跡情報を集約することにより、複数の参照フレームにわたってそれぞれの入力ブロックについての連続的なトラックを生成する。連続的追跡を行う方法の詳細については、全内容を参照をもって本明細書に取り入れた‘784出願に記載されている。連続的追跡220の出力は、符号化中の現在のフレーム内の全ての入力ブロックを過去の参照フレーム内のこれらと一致する領域へと追跡する連続的ブロック追跡(CBT)動きベクトル225である。CBTの場合、これらのCBT動きベクトルが初めの動きベクトル(図2の符号125)となり且つ前述したように動き精推定(図2の符号130)により洗練化され得る。   The result of the frame-to-frame tracking is the result of the best matching region in the most recent frame in the frame buffer 205 and the most recent frame in the frame buffer 205 for each input block in the frame. A set of frame-to-frame motion vectors 215 representing the best matching region within the current frame for each block. Next, continuous tracking 220 generates a continuous track for each input block across multiple reference frames by aggregating available frame-to-frame tracking information. Details of how to perform continuous tracking are described in the '784 application, which is incorporated herein by reference in its entirety. The output of continuous tracking 220 is a continuous block tracking (CBT) motion vector 225 that tracks all input blocks in the current frame being encoded to regions that match them in past reference frames. In the case of CBT, these CBT motion vectors become the initial motion vector (reference numeral 125 in FIG. 2) and can be refined by motion refinement estimation (reference numeral 130 in FIG. 2) as described above.

図4に、本発明の一実施形態において、CBTがどのようにしてEPZS法と組み合わされることで統合化された動き推定プロセスを作り出し得るのかを示す。図4では、CBTが動き初期推定110のためにフレーム−フレーム間追跡210及び連続的追跡220により動きベクトルを生成した後、動き精推定130のための局所探索及びサブピクセル洗練化250が続けられる。EPZSが候補生成手段230により初めの動きベクトルを生成した後、先に詳述したような近似レート歪み解析によってフィルタリングを行う候補フィルタリング手段240が続けられる。この後に、さらに、局所探索及びサブピクセル洗練化260による動き精推定130が続けられる。このようにして得られたCBT動きベクトル255およびEPZS動きベクトル265の両方が、総合的な「最良」のインター予測を決定するために残りのインター予測ステップ(図2のモード生成140及び最終のレート歪み解析150)へと渡される。   FIG. 4 illustrates how in one embodiment of the invention, CBT can be combined with the EPZS method to create an integrated motion estimation process. In FIG. 4, after the CBT generates motion vectors with frame-to-frame tracking 210 and continuous tracking 220 for initial motion estimation 110, local search and subpixel refinement 250 for motion refinement estimation 130 is continued. . After the EPZS generates the initial motion vector by the candidate generation means 230, the candidate filtering means 240 for performing filtering by the approximate rate distortion analysis as described in detail above is continued. This is further followed by motion refinement estimation 130 with local search and subpixel refinement 260. Both the CBT motion vector 255 and the EPZS motion vector 265 obtained in this way are used for the remaining inter prediction steps (mode generation 140 and final rate in FIG. 2) to determine the overall “best” inter prediction. To the distortion analysis 150).

代替的な一実施形態では、図4のCBT動きベクトル候補255及びEPZS動きベクトル候補265に、さらなる候補が追加され得る。このような候補は、ランダム動きベクトル、(0,0)動きベクトル、およびいわゆる「中央値予測子(median predictor)」を含む(ただし、これらに限定されるわけではない)。ランダム動きベクトルには、その局所近傍において最良の候補を見つけ出すように動き精推定130が適用されてもよい。(0,0)動きベクトルは、EPZSの初めの候補のうちの一つであるが、EPZS候補フィルタリング(図4の符号240)後の時点で常に選び出されているとは限らず、仮に候補フィルタリング後の時点で選び出されていたとしても、動き精推定130によって(0,0)以外の動きベクトルが出力される可能性がある。(動き精推定を受けない)(0,0)動きベクトルを最終のレート歪み解析用の候補として明示的に含めることは、少なくとも1つの、大きさの小さい且つ「動きの小さい」候補が検討されることを確実にする。同様に、「中央値予測子」もEPZSの初めの候補のうちの一つであるが、EPZS候補フィルタリング(図4の符号240)後の時点で常に選び出されているとは限らない。中央値予測子は、現在符号化中のデータブロックの左、上および右上のデータブロックで予め算出された動きベクトルの、中央値として定義される。(動き精推定を受けない)中間値予測子を最終のレート歪み解析用の候補として明示的に含めることは、映像フレームのうちの空間的に均質な(「フラット」な)領域を符号化するうえで特に有益となり得る。つまり、代替的なこの実施形態では、5種類以上の動きベクトル候補(CBT由来の動きベクトル、EPZS由来の動きベクトル、ランダム動きベクトル由来の動きベクトル、(0,0)動きベクトル、および中央値予測子を含む(ただし、これらに限定されるわけではない))が、残りのインター予測ステップ(図2のモード生成140及び最終のレート歪み解析150)へと渡され得る。   In an alternative embodiment, additional candidates may be added to the CBT motion vector candidate 255 and EPZS motion vector candidate 265 of FIG. Such candidates include (but are not limited to) random motion vectors, (0,0) motion vectors, and so-called “median predictors”. The motion refinement estimation 130 may be applied to the random motion vector so as to find the best candidate in the local vicinity. The (0,0) motion vector is one of the first candidates for EPZS, but is not always selected at the time after EPZS candidate filtering (reference numeral 240 in FIG. 4). Even if selected at the time after filtering, there is a possibility that a motion vector other than (0, 0) may be output by the motion refinement estimation 130. Explicit inclusion of (0,0) motion vectors (not subject to fine motion estimation) as candidates for the final rate distortion analysis is considered at least one small and "small motion" candidate Make sure. Similarly, the “median predictor” is one of the first candidates for EPZS, but is not always selected at the time after EPZS candidate filtering (reference numeral 240 in FIG. 4). The median predictor is defined as the median of motion vectors calculated in advance in the left, upper and upper right data blocks of the data block currently being encoded. Explicit inclusion of intermediate predictors (not subject to motion estimation) as candidates for final rate distortion analysis encodes spatially uniform ("flat") regions of the video frame Can be particularly beneficial. That is, in this alternative embodiment, five or more types of motion vector candidates (motion vector derived from CBT, motion vector derived from EPZS, motion vector derived from random motion vector, (0, 0) motion vector, and median prediction) Including (but not limited to) children may be passed to the remaining inter prediction steps (mode generation 140 and final rate distortion analysis 150 of FIG. 2).

<映像符号化用の重要度マップの算出>
知覚的統計量が、映像フレームのどの領域が人間の視覚系(HVS)にとって重要なのかを示す重要度マップを算出するのに用いられ得る。
<Calculation of importance map for video coding>
Perceptual statistics can be used to calculate an importance map that indicates which regions of the video frame are important to the human visual system (HVS).

知覚的統計量の一例として、時間的に周期的な刺激に対する人間の視覚系(HVS)の応答をモデル化する、いわゆる時間的コントラスト感度関数(TCSF)が挙げられる。背景技術の欄で述べたように、TCSFの概念は(「時間変調伝達関数」として紹介された)1950年代から存在しているが、これまで映像圧縮に適用されることはなかった。図5に、TCSFの最近の測定結果(Wooten, B. 達による2010, "A practical method of measuring the temporal contrast sensitivity function(時間的コントラスト感度関数を測定する実用的な方法)," Biomedical Optical Express, l(l):47-58)を、周波数の対数の関数としての時間的コントラスト感度の対数(横軸に周波数の対数、縦軸に時間的コントラスト感度の対数)のかたちで示す。測定データ点(図5の丸印)は、3次多項式(図5の実線)を用いてフィッティングされている。なお、後述の全てのTCSF算出に、このフィッティングを用いている。TCSFは、人間の視覚系(HVS)が中程度の周波数域に対して最大の応答を示す一方で、低周波数域ではHVSの応答がわずかに低下し且つ高周波数域では急激に低下するものと予想する。   An example of a perceptual statistic is the so-called temporal contrast sensitivity function (TCSF), which models the human visual system (HVS) response to temporally periodic stimuli. As mentioned in the background section, the concept of TCSF has existed since the 1950s (introduced as “time-modulated transfer function”), but has never been applied to video compression. Figure 5 shows recent results of TCSF (Wooten, B. et al. 2010, "A practical method of measuring the temporal contrast sensitivity function", "Biomedical Optical Express, l (l): 47-58) in the form of logarithm of temporal contrast sensitivity as a function of logarithm of frequency (logarithm of frequency on the horizontal axis and logarithm of temporal contrast sensitivity on the vertical axis). Measurement data points (circles in FIG. 5) are fitted using a cubic polynomial (solid line in FIG. 5). This fitting is used for all TCSF calculations described later. TCSF shows that the human visual system (HVS) shows a maximum response to the medium frequency range, while the HVS response slightly decreases in the low frequency range and decreases rapidly in the high frequency range. I expect.

映像圧縮へのTCSFの適用には、TCSFへの入力である時間的周波数(図5の横軸)を算出する方法が必要となる。周波数を算出するための本発明の一実施形態にかかる方法の一つを、次で説明する。周波数fは、f=v/λ(式中、vは速度で、λは波長である)により与えられる。一実施形態において、任意のデータブロックのコンテンツの速度v(ピクセル/秒単位)は、エンコーダにより生成された動きベクトル(例えば、図2の符号135、図3の符号215,225、図4の符号255,265等)の大きさからv=|MV|×フレームレート/N(式中、|MV|は、そのデータブロックの動きベクトルの大きさであり、フレームレートはその映像が生成された1秒当たりのフレームの数であり、Nは動きベクトルにより指し示される参照フレームと現在のフレームとの間のフレームの数である)として算出され得る。   Application of TCSF to video compression requires a method of calculating a temporal frequency (horizontal axis in FIG. 5) that is an input to TCSF. One method according to an embodiment of the present invention for calculating the frequency will be described below. The frequency f is given by f = v / λ, where v is the velocity and λ is the wavelength. In one embodiment, the content speed v (in pixels / second) of any data block is determined by the motion vector generated by the encoder (eg, reference numeral 135 in FIG. 2, reference numerals 215 and 225 in FIG. 3, reference numerals in FIG. 4). V = | MV | × frame rate / N (where | MV | is the magnitude of the motion vector of the data block, and the frame rate is 1 at which the video was generated). The number of frames per second, where N is the number of frames between the reference frame pointed to by the motion vector and the current frame.

波長λの適切な近似は、CIE 1976 Lab色空間(www://en.wikipedia.org/wiki/Lab_color_space)において算出される構造的類似度(SSIM)(Wang, Z. 達による2004, "Image quality assessment: From error visibility to structural similarity(画像品質評価:誤差可視度から構造的類似度まで)," IEEE Trans, on Image Processing, 13(4):600-612)の算出結果から導き出され得る。図6に、Lab色空間におけるSSIMの算出の様子を示す。SSIMは、ターゲットブロック300(符号化すべき現在のデータブロック)とその動きベクトルが指し示す参照ブロック310との間で算出される。通常、エンコーダにより処理される映像データはYUV420などの標準の空間で表現されるので、次のステップは、それらターゲットブロック(符号320)および参照ブロック(符号330)の両方を一般的に文献に記載されている任意の手法を用いてCIE 1976 Lab空間に変換することである。次に、Lab空間におけるこれらのターゲットブロックと参照ブロックとの間の誤差ΔE(符号340)が、   A suitable approximation of the wavelength λ is the structural similarity (SSIM) calculated in the CIE 1976 Lab color space (www: //en.wikipedia.org/wiki/Lab_color_space) (Wang, Z. et al. 2004, “Image quality assessment: From error visibility to structural similarity, "IEEE Trans, on Image Processing, 13 (4): 600-612). FIG. 6 shows how the SSIM is calculated in the Lab color space. The SSIM is calculated between the target block 300 (the current data block to be encoded) and the reference block 310 pointed to by its motion vector. Usually, video data processed by the encoder is represented in a standard space such as YUV420, so the next step is to generally describe both the target block (reference numeral 320) and the reference block (reference numeral 330) in the literature. It is to convert to CIE 1976 Lab space using an arbitrary method. Next, the error ΔE (reference numeral 340) between these target block and reference block in Lab space is

(式中、添字Tは「ターゲットブロック」を意味し、添字Rは「参照ブロック」を意味する)として算出される。最後に、誤差ΔEと同次元のゼロ行列との間のSSIM360が、データの色空間変化の尺度を示すものとして算出される。初めに定まるSSIMは、−1〜1の数値を取り、数値の1は完全な類似(空間的な差異がないこと)を示す。SSIMを波長λに変換する目的に、0〜1の数値を取る空間的非類似度DSSIM=(1−SSIM)/2を使用することが可能であり得て、0は短い波長(最大の空間的類似度)に相当し、1は長い波長(最小の空間的類似度)に相当する。SSIMをピクセル単位に変換するには、SSIMの数値を、算出対象のブロックのピクセルの数で乗算することが可能であり得る。一実施形態では、SSIMのブロックサイズが8×8なので、DSSIM値に64が乗算される。この場合、周波数の最終的な算出結果は、
f=|MV|×フレームレート/(N×64×(1−SSIM)/2)
により与えられる。
(In the formula, subscript T means “target block” and subscript R means “reference block”). Finally, the SSIM 360 between the error ΔE and the same dimension zero matrix is calculated as indicating a measure of the color space change of the data. The SSIM determined at the beginning takes a value of −1 to 1, and the value 1 indicates complete similarity (no spatial difference). For the purpose of converting SSIM to wavelength λ, it may be possible to use a spatial dissimilarity DSSIM = (1−SSIM) / 2 which takes a value between 0 and 1, where 0 is the short wavelength (maximum space 1 corresponds to a long wavelength (minimum spatial similarity). To convert SSIM to pixel units, it may be possible to multiply the SSIM value by the number of pixels in the block to be calculated. In one embodiment, the DSSIM value is multiplied by 64 because the block size of the SSIM is 8x8. In this case, the final calculation result of the frequency is
f = | MV | × frame rate / (N × 64 × (1-SSIM) / 2)
Given by.

所与のターゲットブロックについての周波数が算出されれば、このブロックについてのTCSF値が、図5の曲線フィット(実線)から決定可能であり得る。TCSFは、log10スケールで0〜1.08または絶対スケールで1〜11.97の数値を取る。フレーム内の相異なるブロックが相異なるTCSF値を取ることにより、フレーム内の全てのブロックにわたるTCSF値の集約集合(aggregate set)が重要度マップを形成し、高い数値は時間的コントラストの観点からみて知覚的に重要なブロックを示し且つ低い数値は知覚的に重要でないブロックを示す。 Once the frequency for a given target block is calculated, the TCSF value for this block can be determined from the curve fit (solid line) of FIG. TCSF takes a numerical value of 0 to 1.08 on a log 10 scale or 1 to 11.97 on an absolute scale. Different blocks in a frame take different TCSF values, so an aggregate set of TCSF values across all blocks in the frame forms an importance map, with higher numbers in terms of temporal contrast Perceptually important blocks are indicated and low numbers indicate perceptually insignificant blocks.

さらなる実施形態では、最近のフレームからのTCSFの数値が、TCSFベースの重要度マップがフレーム間で変動し過ぎることのないようにそれぞれのデータブロックにつき平均化され得る。例えば、平均TCSFTCSFavgのそのような計算の一つとして、TCSFavg=0.7×TCSFcur+0.3×TCSFprev(式中、TCSFcurは現在のフレームからのTCSF値であり、TCSFprevは一番最近符号化された過去のフレームからのTCSF値である)が挙げられ得る。TCSFの計算は、このように平均化されることでよりロバスト(頑健)になる。 In a further embodiment, TCSF values from recent frames may be averaged for each data block so that the TCSF-based importance map does not fluctuate too much between frames. For example, as one such calculation of the average TCSFTCSF avg , TCSF avg = 0.7 × TCSF cur + 0.3 × TCSF prev (where TCSF cur is the TCSF value from the current frame and TCSF prev is The TCSF value from the most recently encoded past frame). The calculation of TCSF becomes more robust by being averaged in this way.

さらなる実施形態では、エンコーダにより生成された動きベクトルの相対品質についての情報が、符号化プロセスにおける種々の時点で算出され得て、真の動きベクトルマップ(TMVM)を生成するのに用いられ得る。真の動きベクトルマップ(TMVM)は、それぞれのデータブロックについて、その動きベクトルがどれほど信頼できるのかを出力する。0または1の数値を取るこの真の動きベクトルマップは、動きベクトルが正確でないデータブロック(すなわち、TMVM値が0であるデータブロック)にはTCSFが適用されないようにTCSFを洗練化するマスクとして用いられ得る。   In further embodiments, information about the relative quality of the motion vectors generated by the encoder can be calculated at various points in the encoding process and used to generate a true motion vector map (TMVM). A true motion vector map (TMVM) outputs for each data block how reliable the motion vector is. This true motion vector map, which takes a value of 0 or 1, is used as a mask to refine the TCSF so that TCSF is not applied to data blocks whose motion vectors are not accurate (ie, data blocks with a TMVM value of 0). Can be.

一実施形態において、動きベクトルの正確さは、所与の映像フレームについてのグローバル動きモデルを推定し且つこの動きモデルを当該フレーム内のそれぞれのデータブロックに適用することによってそれぞれのデータブロックについてのグローバル動きベクトルを決定してから且つこのグローバル動きベクトルをそのデータブロックについてのエンコーダの動きベクトル(エンコーダ動きベクトル)と比較することにより、決定され得る。グローバル動きは、そのフレームからの符号化動きベクトルの集約集合であって、6つのパラメータ又は8つのパラメータのアフィン動きモデルにフィッティングされた集約集合から推定され得る。所与のデータブロックについてグローバル動きベクトルとエンコーダ動きベクトルとが同一である(又は類似する)場合、エンコーダ動きベクトルが正確であると見なされる(そして、そのデータブロックについてTMVN=1となる)。それら2つのベクトルが同一でない場合、それらの(二乗誤差和(SSE)又は差分絶対値和(SAD)で測定された)予測誤差同士を比較してもよい。一方の誤差が小さくて他方の誤差が大きい場合には、誤差が小さいほうの動きベクトルが、符号化に使われて且つ正確と見なされる(TMVM=1)。   In one embodiment, the accuracy of the motion vector is determined by estimating the global motion model for a given video frame and applying the motion model to each data block in the frame. It can be determined by determining a motion vector and comparing this global motion vector with the encoder motion vector (encoder motion vector) for that data block. Global motion is an aggregated set of encoded motion vectors from that frame, and can be estimated from an aggregated set fitted to a 6-parameter or 8-parameter affine motion model. If the global motion vector and the encoder motion vector are the same (or similar) for a given data block, the encoder motion vector is considered accurate (and TMVN = 1 for that data block). If the two vectors are not identical, their prediction errors (measured by sum of squared errors (SSE) or sum of absolute differences (SAD)) may be compared. If one error is small and the other error is large, the motion vector with the smaller error is used for encoding and considered accurate (TMVM = 1).

代替的な一実施形態では、所与のデータブロックについてグローバル動きベクトルとエンコーダ動きベクトルとの差分の大きさが、そのデータブロックが前景データであること(これは、そのデータブロック内のコンテンツが、フレームの残りの部分(背景)と異なる動きを伴っていることを意味する)を特定するのに用いられる。この実施形態では、TMVMが1に設定されて、TCSFが前景データの場合にのみ適用される。さらなる実施形態では、前景データとして特定されたデータブロックについて、グローバル動きベクトルからエンコーダ動きベクトルが減算されることによって差分動きベクトルを得て、(エンコーダ動きベクトルではなくて)この差分動きベクトルの大きさがTCSFの周波数を算出するのに用いられる(前述の式において、|MV|を|DMV|(DMVは差分動きベクトルである)に置き換える)。   In an alternative embodiment, the magnitude of the difference between the global motion vector and the encoder motion vector for a given data block is such that the data block is foreground data (this means that the content in the data block is Used to identify a different motion than the rest of the frame (background). In this embodiment, TMVM is set to 1 and this is applied only when TCSF is foreground data. In a further embodiment, for a data block identified as foreground data, a differential motion vector is obtained by subtracting the encoder motion vector from the global motion vector, and the magnitude of this differential motion vector (not the encoder motion vector). Is used to calculate the frequency of the TCSF (in the above equation, | MV | is replaced with | DMV | (DMV is a differential motion vector)).

他の実施形態では、動きベクトル対称度が、TMVMを洗練化するのに用いられ得る。動きベクトル対称度(Bartels, C.及びde Haan, G.による2009, "Temporal symmetry constraints in block matching(ブロックマッチングにおける時間的対称度制約)," Proc. IEEE 13th Int'l. Symposium on Consumer Electronics, pp. 749-752)は、動き推定の時間的方向を切り替えたときに互いに対をなす、動きベクトルのペアの相対対称度として定義され、算出された動きベクトルの品質の尺度となる(対称度が高ければ高いほど、動きベクトルの品質が優れている)。「対称度誤差ベクトル」は、前方向動き推定により得られた動きベクトルと後方向動き推定により得られた動きベクトルとの差分として定義される。動きベクトル対称度が低いこと(対称度誤差ベクトルが大きいこと)は、しばしば、オクルージョン(あるオブジェクトが別のオブジェクトの前側を動くことにより、その背景オブジェクトを隠したり露わにしたりすること)、オブジェクトの動きが映像フレーム上に又は映像フレーム外になること、照明変化など(いずれも、正確な動きベクトルを導き出すことを困難にする)の複雑な現象が存在することの指標となる。 In other embodiments, motion vector symmetry may be used to refine the TMVM. Motion vector symmetry (Bartels, C. and de Haan, 2009 by G., "Temporal symmetry constraints in block matching ( temporal symmetry constraints in block matching)," Proc. IEEE 13 th Int'l. Symposium on Consumer Electronics , pp. 749-752) is defined as the relative symmetry of a pair of motion vectors that pair with each other when the temporal direction of motion estimation is switched, and is a measure of the quality of the calculated motion vector (symmetric) The higher the degree, the better the quality of the motion vector). The “symmetry error vector” is defined as a difference between a motion vector obtained by forward motion estimation and a motion vector obtained by backward motion estimation. Low motion vector symmetry (large symmetry error vector) often results in occlusion (obtaining or exposing the background object by moving one object in front of another object) It is an indicator that there is a complicated phenomenon such as that the movement of the image moves on or out of the video frame, illumination change, etc. (both make it difficult to derive an accurate motion vector).

一実施形態では、対称度誤差ベクトルの大きさが符号化中のデータブロックの範囲の半分よりも大きい場合(例えば16×16マクロブロックのときには、大きさが(8,8)ベクトルよりも大きい場合)に、低対称度(対称度が低い)と判断される。他の実施形態では、対称誤差ベクトルの大きさが追跡プロセス時に導き出された動きベクトル統計量に基づく閾値(例えば、現在のフレーム又は最近のフレーム同士の所与の組合せにおける、動きベクトル大きさ(動きベクトルの大きさ)の平均値に動きベクトル大きさの標準偏差の倍数を足したもの等)よりも大きい場合に、低対称度(対称度が低い)と判断される。一実施形態では、動きベクトルが上記の定義で低対称度を有するデータブロックに対してTMVM値=0が自動的に振り当てられて、他のデータブロックはグローバル動きベクトルとエンコーダ動きベクトルとの比較に由来するそれまでのTMVM値を維持する。   In one embodiment, the magnitude of the symmetry error vector is greater than half of the range of the data block being encoded (eg, for a 16 × 16 macroblock, the magnitude is greater than the (8,8) vector). ) Is determined to have a low degree of symmetry (low degree of symmetry). In other embodiments, the magnitude of the symmetric error vector is based on a motion vector statistic derived during the tracking process (eg, the motion vector magnitude (motion at a given combination of current or recent frames). If the average value of the vector magnitude) is larger than the average value of the motion vector magnitude plus a multiple of the standard deviation of the motion vector magnitude), it is determined that the degree of symmetry is low (the degree of symmetry is low). In one embodiment, TMVM value = 0 is automatically assigned to a data block whose motion vector has low symmetry in the above definition, and the other data block compares the global motion vector with the encoder motion vector. The previous TMVM value derived from is maintained.

フラットなブロックは、高い空間的コントラスト感度を有するものの、動きベクトルを算出する際のよく知られている開口問題(aperture problem)   Flat blocks have a high spatial contrast sensitivity but are well known aperture problems when calculating motion vectors

が原因となり、信頼できない動きベクトルを生じる傾向にある。フラットなブロックは、例えば、エッジ検出プロセス(データブロック内においてエッジが検出されなかった場合にフラットなブロックであると判断される)を用いて、あるいは、データブロックの分散を閾値と比較すること(この閾値よりも小さい分散がフラットなブロックを示す)によって検出され得る。一実施形態では、ブロックのフラットさが、前述のように算出されたTMVMを変更するように用いられ得る。例えば、フラットなブロックであると検出されたブロックには、TMVM値=0が振り当て直され得る。 Tends to produce unreliable motion vectors. A flat block is, for example, using an edge detection process (determined to be a flat block if no edge is detected in the data block) or by comparing the variance of the data block with a threshold ( A variance less than this threshold indicates a flat block). In one embodiment, the flatness of the block may be used to change the TMVM calculated as described above. For example, a TMVM value = 0 can be reassigned to a block detected as a flat block.

一実施形態では、TMVMが、信頼できる動きベクトルを有するか否かに影響されるTCSFを洗練化するマスクとして用いられ得る。TMVMの数値は0又は1なので、あるブロックについてのTMVM値を、そのブロックについてのTCSF値へとブロック毎に乗算することには、TCSFをマスクする効果がある。TMVM値が0であるブロックの場合、TCSFの算出に必要な動きベクトルが信頼できないことになるので、そのTCSFが「無効」にされる。TMVM値が1であるブロックの場合、TCSF算出結果が信頼できるとみなされて且つこれまでに述べた任意の手法が確信して利用される。   In one embodiment, TMVM can be used as a mask to refine TCSF that is affected by whether it has reliable motion vectors. Since the value of TMVM is 0 or 1, multiplying the TMVM value for a block by the TCSF value for that block for each block has the effect of masking the TCSF. In the case of a block having a TMVM value of 0, the motion vector necessary for calculating the TCSF is unreliable, so that the TCSF is “invalid”. In the case of a block having a TMVM value of 1, the TCSF calculation result is considered to be reliable, and any method described so far is used with certainty.

他の実施形態では、時間的コントラストマップ(前述のTCSF)の代わりに、あるいは、これに加えて、空間的コントラストマップが生成され得る。本発明では、空間的コントラスト(これの反対は「空間的複雑度」と称される)を測定するのに、単純な尺度が用いられる。一実施形態では、データの輝度成分と色差成分との両方について測定されるブロック分散が、所与の入力ブロックの空間的複雑度を測定するのに用いられる。分散の大きい入力ブロックは、空間的に複雑であり且つHVSにとって気付き難いと考えられるので、その空間的コントラストは小さいことになる。   In other embodiments, a spatial contrast map may be generated instead of or in addition to the temporal contrast map (TCSF described above). In the present invention, a simple measure is used to measure spatial contrast (the opposite is referred to as “spatial complexity”). In one embodiment, block variance measured for both the luminance and chrominance components of the data is used to measure the spatial complexity of a given input block. An input block with a large variance is spatially complex and difficult to notice for HVS, so its spatial contrast is small.

他の実施形態では、データの輝度成分について測定されるブロック輝度が、空間的複雑度の分散測定結果を洗練化するのに用いられる。分散は小さい(空間的複雑度が低い、空間的コントラストが大きい)が極めて明るいか又は極めて暗い入力ブロックは、空間的コントラストが小さいと自動的に見なされて且つその前に大きいと測定された空間的コントラストを上書きする。その理由は、極めて暗い領域や極めて明るい領域が、HVSにとって気付き難いからである。所与のブロックを極めて明るい又は極めて暗いと分類するための輝度閾値は、その時々の用途に特化したものとされるが、8ビットの映像の場合の典型的な数値は、極めて明るいが「170超」で、極めて暗いが「60未満」である。   In other embodiments, block luminance measured for the luminance component of the data is used to refine the spatial complexity variance measurement. An input block that has a small variance (low spatial complexity, high spatial contrast) but is very bright or very dark is automatically considered low spatial contrast and has previously been measured as large Overrides the contrast. The reason is that an extremely dark area or an extremely bright area is difficult for the HVS to notice. The brightness threshold for classifying a given block as very bright or very dark is specific to the occasional application, but typical values for 8-bit video are very bright, More than 170 ", very dark but" less than 60 ".

上記のようにブロック輝度により改変されたブロック分散が、空間的コントラストの観点からHVSにとっての気付き易さの高い領域及び気付き易さの低い領域を示す空間的コントラストマップ(SCM)を形成するために、映像フレームの全ての入力ブロックについて算出され得る。   In order to form a spatial contrast map (SCM) indicating the regions that are easy to notice for HVS and the regions that are not easily noticed from the viewpoint of spatial contrast, the block dispersion modified by the block luminance as described above. Can be calculated for all input blocks of a video frame.

一実施形態では、SCMが、(TMVMにより洗練化された)TCSFと組み合わされることによって、統合化された重要度マップを形成し得る。この統合化されたマップは、例えば、SCMおよびTCSFの両方を適宜正規化したうえで、所与のブロックについてのSCM値をそのブロックについてのTCSF値へとブロック毎に乗算することによって形成され得る。他の実施形態では、TCSFの代用としてSCMが使用され得る。他の実施形態では、SCMが、TCSFを洗練化するのに用いられ得る。例えば、複雑度の高いブロックではSCM値がそのブロックについてのTCSF値を上書きし得て、複雑度の低いブロックではそのブロックについてのTCSF値が直接使用され得る。   In one embodiment, SCM can be combined with TCSF (refined by TMVM) to form an integrated importance map. This integrated map can be formed, for example, by normalizing both SCM and TCSF as appropriate, and then multiplying the SCM value for a given block by the TCSF value for that block on a block-by-block basis. . In other embodiments, SCM can be used as a substitute for TCSF. In other embodiments, SCM can be used to refine the TCSF. For example, for a high complexity block, the SCM value may overwrite the TCSF value for that block, and for a low complexity block, the TCSF value for that block may be used directly.

<映像符号化への重要度マップの適用>
前述した重要度マップは、一般的なエンコーダ(図2)及びCBTエンコーダ(図3)のいずれの映像符号化プロセスにも適用され得て、符号化ビットストリームの品質を向上させる。
<Application of importance map to video coding>
The importance map described above can be applied to any video encoding process of a general encoder (FIG. 2) and a CBT encoder (FIG. 3) to improve the quality of the encoded bitstream.

図7に、映像符号化への重要度マップの一般的な適用の様子を示す。入力映像フレーム5およびフレームストア85が、知覚的統計量390を生成するように使用される。そして、知覚的統計量390が、前述したような(TMVMにより洗練化された)TCSFおよび/またはSCMの重要度マップ400を形成するように適用される。知覚的統計量390は、動きベクトル大きさ、ブロック分散、ブロック輝度、エッジ検出、およびグローバル動きモデルパラメータを含み得る(ただし、これらに限定されるわけではない)。入力映像フレーム5およびフレームストア85は、さらに、符号450での映像フレームの符号化へと通常どおり入力される。その符号化は、通常の符号化ステップ(図1の動き推定15、インター予測20、イントラ予測30、変換・量子化60およびエントロピー符号化90)を含む。ただし図7では、符号化450が、後述の方法で重要度マップ400により機能拡張される。   FIG. 7 shows a general application of the importance map to video coding. Input video frame 5 and frame store 85 are used to generate perceptual statistics 390. Perceptual statistics 390 are then applied to form a TCSF and / or SCM importance map 400 (refined by TMVM) as described above. Perceptual statistics 390 may include (but is not limited to) motion vector magnitude, block variance, block luminance, edge detection, and global motion model parameters. The input video frame 5 and the frame store 85 are further input as usual into the encoding of the video frame at 450. The encoding includes normal encoding steps (motion estimation 15, inter prediction 20, intra prediction 30, transformation / quantization 60 and entropy encoding 90 in FIG. 1). However, in FIG. 7, the encoding 450 is expanded by the importance map 400 in a method described later.

図8Aに、CBTを用いた映像符号化を向上するための、重要度マップの具体的な適用の様子を示す。図8Aには、CBTからのフレーム−フレーム間追跡210ステップ及び連続的追跡220ステップによる動き初期推定(図2の符号110)が示されている。そして、動き精推定130が、既述したものと同じ局所探索及びサブピクセル洗練化の動き精推定ステップ(図4の符号250)で、グローバルCBT動きベクトル225に適用される。ここでも、その後に、エンコーダが採用し得る符号化モードに基づいて予測候補145の集合を生成するモード生成手段140が続く。図4と同じく、EPZSおよびモデルベースでない他の候補(例えば、(0,0)動きベクトル、中央値予測子等)も、統合化された動き推定フレームワークの一部として並行して生成され得る(図8Aでは、図示を簡略化するためにこれら他の候補の図示を省略している)。図8Aにおいても、CBT候補のあらゆる符号化モードおよび場合によってはモデルベースでない他の候補のあらゆる符号化モードも含め、予測候補145の集合の全体が、単一の最良の候補を決定するように「最終」のレート歪み解析155を受ける。「最終」のレート歪み解析では、正確なレート歪み尺度D+λRが用いられて、歪み部分用の予測誤差Dおよびレート部分用の実際の符号化ビットR(図1のエントロピー符号化90からのもの)を算出する。最終の予測160(または図1の符号40)が、その動きベクトル及び他の符号化パラメータと共にエンコーダにおける後続のステップへと渡される。   FIG. 8A shows a specific application of the importance map for improving video coding using CBT. FIG. 8A shows an initial motion estimation (reference numeral 110 in FIG. 2) with a frame-to-frame tracking 210 step and a continuous tracking 220 step from the CBT. Then, the motion refinement estimation 130 is applied to the global CBT motion vector 225 in the same local search and subpixel refinement motion refinement estimation step (reference numeral 250 in FIG. 4) as described above. Again, this is followed by mode generation means 140 that generates a set of prediction candidates 145 based on encoding modes that the encoder may employ. Similar to FIG. 4, EPZS and other non-model based candidates (eg, (0,0) motion vectors, median predictors, etc.) can also be generated in parallel as part of an integrated motion estimation framework. (In FIG. 8A, these other candidates are not shown for the sake of simplicity). Also in FIG. 8A, the entire set of prediction candidates 145, including every coding mode of the CBT candidate and possibly every other coding mode that is not model-based, determines the single best candidate. A “final” rate distortion analysis 155 is received. In the “final” rate distortion analysis, an accurate rate distortion measure D + λR is used to predict the distortion error D for the distortion portion and the actual coded bit R for the rate portion (from entropy coding 90 in FIG. 1). Is calculated. The final prediction 160 (or 40 in FIG. 1) is passed along with its motion vector and other coding parameters to subsequent steps in the encoder.

図8Aにおいて、知覚的統計量390が、フレーム−フレーム間動き追跡210から導き出された動きベクトルから算出され得て、その後、前述したような重要度マップ400を形成するように適用され得る。そして、これらの重要度マップ400が、最終のレート歪み解析155へと入力される。ここでも、知覚的統計量390は、動きベクトル大きさ、ブロック分散、ブロック輝度、エッジ検出、およびグローバル動きモデルパラメータを含み得る(ただし、これらに限定されるわけではない)。   In FIG. 8A, perceptual statistics 390 may be calculated from motion vectors derived from frame-to-frame motion tracking 210 and then applied to form importance map 400 as described above. These importance maps 400 are input to the final rate distortion analysis 155. Again, perceptual statistics 390 may include (but is not limited to) motion vector magnitude, block variance, block luminance, edge detection, and global motion model parameters.

一実施形態では、重要度マップが、レート歪み最適化条件を当該重要度マップに応じて改変するように用いられる。標準のエンコーダ(図2を参照のこと)では、所与の入力ブロック10についての予測候補145の集合の全体が、単一の最良の候補を決定するように「最終」のレート歪み解析150を受ける。「最終」のレート歪み解析では、正確なレート歪み尺度D+λRが用いられて、歪み部分用の予測誤差Dおよびレート部分用の実際の符号化ビットR(図1のエントロピー符号化90からのもの)を算出する。レート歪み尺度D+λRのスコアが最小である候補が、所与の入力ブロック10についての最終の予測160となる。本発明の一実施形態において、図7又は図8の知覚的に最適化されたエンコーダの場合、符号400で重要度マップIMが算出されて、かつ、最終のレート歪み解析155が改変されたレート歪み尺度D×IM+λRを使用する。この改変されたレート歪み尺度では、所与の入力ブロックについてのIM値が歪み項に乗算されて、IM値が高ければ高いほど、歪みの小さいソリューションにより大きな重要度が振り当てられる。というのも、高いIM値は、対応する入力ブロックが知覚的に重要であることを示すからである。重要度マップは、(場合によってはTMVM値により洗練化されている)TCSF、SCMまたはこれらを複合したものを含み得る。   In one embodiment, an importance map is used to modify the rate distortion optimization conditions in response to the importance map. In a standard encoder (see FIG. 2), the “final” rate distortion analysis 150 is performed so that the entire set of prediction candidates 145 for a given input block 10 determines a single best candidate. receive. In the “final” rate distortion analysis, an accurate rate distortion measure D + λR is used to predict the distortion error D for the distortion portion and the actual coded bit R for the rate portion (from entropy coding 90 in FIG. 1). Is calculated. The candidate with the lowest score for the rate distortion measure D + λR becomes the final prediction 160 for a given input block 10. In one embodiment of the invention, for the perceptually optimized encoder of FIG. 7 or FIG. 8, the rate at which the importance map IM is calculated at 400 and the final rate distortion analysis 155 is modified. The distortion scale D × IM + λR is used. In this modified rate distortion measure, the IM value for a given input block is multiplied by the distortion term, the higher the IM value, the more importance is assigned to the less distorted solution. This is because a high IM value indicates that the corresponding input block is perceptually important. The importance map may include TCSF, SCM (possibly refined with TMVM values), or a combination of these.

さらなる実施形態では、上記に加えて、レート歪み尺度における歪みDが、SSE(二乗誤差和:歪みを算出する「標準」の手法)とYUV空間において算出されたSSIMとの重み付け和として算出され得る。重み付けγは、映像のうちの最初の幾つか(又は一番最近の幾つか)のフレームにおける平均SSIM値SSIMavgが当該映像のうちの当該最初の幾つか(又は当該一番最近の幾つか)のフレームにおける平均SSE値SSEavgと等しくなる(γ×SSIMavg=SSEavg)ように適応的に算出され得る。つまり、それぞれの入力ブロックについて、改変されたレート歪み尺度は、(SSE+γ×SSIM)×IM+2λR(式中、λR項の前にある乗算係数2は、歪み項が2つあることを意味している)となる。歪み測定にSSIMを含めることは、SSIMがデータの構造的情報に相当することから、レート歪み最適化においてHVS知覚が占める割合をなおいっそう増やすことになる。 In a further embodiment, in addition to the above, the distortion D on the rate distortion measure may be calculated as a weighted sum of SSE (square error sum: “standard” technique for calculating distortion) and SSIM calculated in YUV space. . The weight γ is the average SSIM value SSIM avg in the first few (or most recent) frames of the video is the first few (or the most recent) of the video. Can be calculated adaptively so as to be equal to the average SSE value SSE avg in the frames (γ × SSIM avg = SSE avg ). That is, for each input block, the modified rate distortion measure is (SSE + γ × SSIM) × IM + 2λR, where the multiplication factor 2 in front of the λR term means that there are two distortion terms. ) Inclusion of SSIM in the distortion measurement further increases the proportion of HVS perception in rate distortion optimization since SSIM corresponds to the structural information of the data.

他の実施形態では、重要度マップ(例えば、TMVMによる洗練化を伴うTCSF、SCM等)が、レート歪み最適化を改変するのに加えて(あるいは、この代わりに)、エンコーダのブロックレベル量子化を改変するように用いられ得る。量子化は、所与の入力ブロックが符号化される相対品質を制御するものである。つまり、高度に量子化されたデータは低品質の符号化済み出力となり、低度に量子化されたデータは高品質の符号化済み出力となる。量子化の量は、量子化パラメータQPによって制御される。標準のエンコーダは、異なるフレームタイプに異なるQP値QPframeを振り当てて、Iフレームは最小のQP(最も高品質)で符号化されて且つBフレームは最大のQP(最も低品質)で符号化されて且つPフレームは中間のQP(中間の品質)で符号化される。 In other embodiments, importance maps (eg, TCSF with TMVM refinement, SCM, etc.), in addition to (or instead of) modifying rate distortion optimization, encoder block level quantization Can be used to modify Quantization controls the relative quality with which a given input block is encoded. That is, highly quantized data is a low quality encoded output, and low quantized data is a high quality encoded output. The amount of quantization is controlled by the quantization parameter QP. The standard encoder allocates different QP values QP frame to different frame types, I frames are encoded with the lowest QP (highest quality) and B frames are encoded with the highest QP (lowest quality) And the P frame is encoded with an intermediate QP (intermediate quality).

つまり、上記の手法は、複数の映像フレーム(当該映像フレームは、互いに重なり合わないターゲットブロックを有している)を、重要度マップを用いて、各映像フレーム内の各ターゲットブロックの量子化を改変すること(そして、これによってその符号化品質に影響を与えること)によって符号化する方法を提示している。そのような重要度マップは、時間的情報(TMVMによる洗練化を伴うTCSF)、空間的情報、またはこれら2種類の組合せ(すなわち、統合化された重要度マップ)を用いて設定され得る。重要度マップは各映像フレームのどの部分が人間の知覚にとって最も気付き易いのかを示すものなので、前記重要度マップの数値は、それぞれのターゲットブロックについてのQPを、(i)当該重要度マップが高い数値をとるブロックでは、ブロックQPがQPframeに比べて小さくされることで、これらのブロックについては高い品質となるように、かつ、(ii)当該重要度マップが低い数値をとるブロックでは、前記ブロックQPが前記フレーム量子化パラメータQPframeに比べて大きくされることで、これらのブロックについては低い品質となるように、変更するのが望ましい。 In other words, the above method is to quantize a plurality of video frames (the video frames have target blocks that do not overlap each other) using an importance map, and each target block in each video frame is quantized. It presents a method of encoding by altering (and thereby affecting its encoding quality). Such importance maps can be set using temporal information (TCSF with TMVM refinement), spatial information, or a combination of the two types (ie, an integrated importance map). Since the importance map indicates which part of each video frame is most easily noticed by human perception, the numerical value of the importance map indicates the QP for each target block, and (i) the importance map is high. In the block that takes a numerical value, the block QP is made smaller than the QP frame , so that these blocks have high quality, and (ii) in the block in which the importance map has a low numerical value, It is desirable that the block QP is changed so as to have a lower quality by making the block QP larger than the frame quantization parameter QP frame .

図8Bに、重要度マップ400を用いて符号化時の量子化を改変するプロセスの一例を示す。符号400では、知覚的統計量390から導き出された時間的情報および/または空間的情報を用いて重要度マップが構成/形成され得る。時間的情報は、例えば、どのターゲットブロックが観測者である人間にとって時間的に最も気付き易いのかを示す時間的コントラスト感度関数(TCSF)、および、どのターゲットブロックが前景データに相当するのかを示す真の動きベクトルマップ(TMVM)により提供され得て、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされる。空間的情報は、例えば、ルールに基づく空間的複雑度マップ(SCM)により提供され得る。   FIG. 8B shows an example of a process for modifying quantization during encoding using the importance map 400. At 400, an importance map may be constructed / formed using temporal and / or spatial information derived from perceptual statistics 390. The temporal information includes, for example, a temporal contrast sensitivity function (TCSF) indicating which target block is most easily noticed in time by a human being who is an observer, and a true value indicating which target block corresponds to the foreground data. The TCSF is valid only for target blocks identified as foreground data. Spatial information may be provided, for example, by a rule-based spatial complexity map (SCM).

そして、重要度マップ400は、符号化450内の量子化ステップ430を上記のように改変するのに用いられる。当該重要度マップが高い数値を取るブロックでは、ブロック量子化パラメータ(QP)が、フレーム量子化パラメータQPframeに対して減らされて、これらのブロックについては高い符号化品質が得られる。当該重要度マップが低い数値を取るブロックでは、前記ブロック量子化パラメータが、前記フレーム量子化パラメータQPframeに対して増やされて、これらのブロックについては低い符号化品質が得られる。重要度マップからの情報を用いることにより、量子化は、各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質を向上させるように改変され得る。 The importance map 400 is then used to modify the quantization step 430 in the encoding 450 as described above. In blocks where the importance map takes a high value, the block quantization parameter (QP) is reduced with respect to the frame quantization parameter QP frame , and high coding quality is obtained for these blocks. In blocks where the importance map has a low value, the block quantization parameter is increased with respect to the frame quantization parameter QP frame , and low coding quality is obtained for these blocks. By using information from the importance map, the quantization can be modified to improve the encoding quality of each target block to be encoded in each video frame.

一実施形態では、所与のフレームについてのTCSFマップが、フレームQPをブロック毎に調節するように用いられ得る。ブロックQP、QPblockを算出する方法の一つは、(Li, Z.達による2011, "Visual attention guided bit allocation in video compression(映像圧縮における、視覚注意によって導かれたビット振当), J. of Image and Vision Computing, 29(1): 1-14)の手法に従って、その調節量をフレームにおけるTCSFマップ全体と関連付けることである。その結果得られる式は、QPblock=(TCSFframe/(TCSFblock×M))×QPframe(式中、TCSFframeはフレーム内の全てのブロックについてのTCSF値の合計であり、QPframeはフレームQPであり、Mはフレーム内のブロックの数である)により与えられる。さらなる実施形態では、乗算係数(TCSFframe/(TCSFblock×M))が、QPblockの最終的な数値がQPframeに対して大きくなり過ぎたり小さくなり過ぎたりすることのないように増減され得る。 In one embodiment, the TCSF map for a given frame may be used to adjust the frame QP on a block-by-block basis. One method of calculating the block QP and QP block is (2011, “Visual attention guided bit allocation in video compression by Li, Z. et al.), J. of the image and vision computing, 29 (1): 1-14), associating the amount of adjustment with the entire TCSF map in the frame, the resulting expression is QP block = (TCSF frame / (TCSF) block × M)) × QP frame (where TCSF frame is the sum of TCSF values for all blocks in the frame , QP frame is frame QP, and M is the number of blocks in the frame). given. in a further embodiment, the multiplication factor (TCSF frame / (TCSF block × M)) is, QP b The final value of the ock can be increased or decreased so as not to become too small or too large for QP frame.

代替的な一実施形態では、TCSFマップによるQPのブロック毎の調節が、そのフレームについてのTCSFマップ全体を参照することなく達成され得る。この実施形態では、QPblockの計算がより単純になる:QPblock=QPframe/TCSFblock。一実施形態では、QPblockの得られる数値が、そのフレームについての所定の上限QP値を上回ったり下限QP値を下回ったりしないように範囲限定される(クリップされる):QPmin≦QPblock≦QPmaxIn an alternative embodiment, block-by-block adjustment of a QP with a TCSF map may be achieved without reference to the entire TCSF map for that frame. In this embodiment, the calculation of QP block is simpler: QP block = QP frame / TCSF block . In one embodiment, the resulting numerical value of the QP block is range limited (clipped) so as not to exceed a predetermined upper limit QP value or lower limit QP value for the frame: QP min ≦ QP block ≦ QP max .

他の実施形態では、SCMの出力が、ルールに基づくアプローチを用いてブロック毎に量子化パラメータを改変するように用いられ得る。この実施形態は、まず、分散の大きいブロックに高いQP値(低品質)を振り当てることから始まる。というのも、高度に複雑な領域は、HVSにとって気付き難いからである。分散の小さいブロックには、低いQP値(高品質)が振り当てられる。というのも、低度に複雑な領域は、HVSにとって気付き易いからである。一実施形態では、所与のブロックについてのQP振当量が、フレームの上限QP値であるQPmax及び下限QP値であるQPminによって規制されており、かつ、そのフレーム内の他のブロック分散に対する自身のブロック分散に基づき線形的に増減される。代替的な一実施形態では、フレーム全体の平均分散よりも大きい分散を有するブロックのみに、フレームQPであるQPframeとQPmaxとの間のQP値が振り当てられて、かつ、その振当量はQPblock=((varblock−varframe/varblock))×(QPmax−QPframe)+QPframeとなるように線形的に増減される。この代替的な実施形態において、分散の大きいブロックに対するQP振当量は、TCSFによりさらに洗練化されてもよい。例えば、TMVMでそのブロックが前景データと見なされて且つTCSFのコントラスト感度対数値(図5の縦軸)が0.5未満である(そのブロックが時間的に重要でないことを意味する)場合には、QPblockが2だけ増やされる。代替的な一実施形態では、エッジ検出プロセスが適用され得て、エッジを含むブロックのQPが、それまでに振り当てられていた空間的複雑度からのQPを上書きするようにQPminに調節され得る。その理由は、エッジが、HVSにとって極めて気付き易いものだからである。さらなる実施形態では、極めて明るいか又は極めて暗いブロックのQPが、それまでに振り当てられていた分散及び(場合によっては)エッジ検出からのQPを上書きすることによってQPmaxに調節し直され得る。その理由は、極めて暗い領域や極めて明るい領域が、HVSにとって気付き難いからである。このプロセスは、輝度マスキングとして知られる。 In other embodiments, the output of the SCM can be used to modify the quantization parameter on a block-by-block basis using a rule-based approach. This embodiment starts by assigning a high QP value (low quality) to a block with a large variance. This is because highly complex areas are difficult for HVS to notice. A low QP value (high quality) is assigned to a block with small variance. This is because low complexity areas are easily noticed by HVS. In one embodiment, the QP swing equivalent for a given block is regulated by the upper limit QP value QP max and the lower limit QP value QP min of the frame, and relative to other block variances in the frame It is linearly increased or decreased based on its own block distribution. In an alternative embodiment, only blocks having a variance greater than the average variance of the entire frame are assigned a QP value between QP frame and QP max , which are frame QPs, and the equivalent weight is It is linearly increased or decreased so that QP block = ((var block −var frame / var block )) × (QP max −QP frame ) + QP frame . In this alternative embodiment, the QP swing equivalent for highly dispersed blocks may be further refined by TCSF. For example, if the block is considered foreground data in TMVM and the contrast sensitivity logarithm of TCSF (vertical axis in FIG. 5) is less than 0.5 (meaning that the block is not temporally important) The QP block is increased by 2. In an alternative embodiment, an edge detection process can be applied and the QP of the block containing the edge is adjusted to QP min to overwrite the QP from the spatial complexity previously allocated. obtain. The reason is that the edge is very noticeable to HVS. In a further embodiment, the QP of a very bright or very dark block can be readjusted to QP max by overwriting the QP from previously distributed variance and (possibly) edge detection. The reason is that an extremely dark area or an extremely bright area is difficult for the HVS to notice. This process is known as luminance masking.

さらなる実施形態では、上記に加えて、分散の大きいブロックについてのQPmaxの数値が、符号化された映像の品質レベルに基づいて動的に決定され得る。その思想は、低品質の符号化では分散の大きいブロックにおける品質低下を許容できないのでQPmaxはQPframeにより近づけるのが望ましい一方、高品質の符号化ではビットを節約するために分散の大きいブロックについてのQPmaxを増やすことを許容できるというものである。符号化の品質は、各I(イントラ)フレーム毎に、平均フレーム分散の±5%以内の分散を有するブロックの平均SSIMを算出することによって更新され得て、かつ、SSIM値が高ければ高いほどQPmaxのより高い数値に対応するようにされる。代替的な一実施形態では、品質指標が平均SSIMと平均フレーム分散との積として算出されるように、平均SSIMがそのフレームの平均分散によって調節される。 In a further embodiment, in addition to the above, the value of QP max for a highly distributed block may be dynamically determined based on the quality level of the encoded video. The idea is that QP max should be closer to QP frame because low quality coding cannot tolerate quality degradation in blocks with high variance, whereas high quality coding is about blocks with high variance to save bits. It is acceptable to increase the QP max . The quality of the encoding can be updated for each I (intra) frame by calculating the average SSIM of blocks with a variance within ± 5% of the average frame variance, and the higher the SSIM value, the higher It corresponds to the higher numerical value of QP max . In an alternative embodiment, the average SSIM is adjusted by the average variance of that frame so that the quality indicator is calculated as the product of the average SSIM and the average frame variance.

さらなる実施形態では、上記に加えて、分散の極めて小さいブロック(HVSにとって特に可視的であるフラットな領域に相当)に対して、これらの領域における高品質符号化を確実にするために、決まった低いQP値が振り当てられ得る。例えば、I(イントラ)フレームの場合、0〜10の分散を有するブロックにQP=28が振り当てられ得て、10〜30の分散を有するブロックにQP=30が振り当てられ得て、30〜60の分散を有するブロックにQP=32が振り当てられ得る。それから、P及びBフレーム内のブロックに対するQP振当量が、上記のQPからそれぞれipratio(ip率)パラメータ及びpbratio(pb率)パラメータを用いて導き出され得る。   In a further embodiment, in addition to the above, for very small blocks of variance (corresponding to flat regions that are particularly visible to HVS), a decision was made to ensure high quality coding in these regions. A low QP value can be allocated. For example, in the case of an I (intra) frame, QP = 28 can be allocated to a block having a variance of 0 to 10, and QP = 30 can be allocated to a block having a variance of 10 to 30, A block with 60 variances can be allocated QP = 32. Then, QP equivalents for the blocks in the P and B frames can be derived from the above QP using the ipratio (ip rate) and pbratio (pb rate) parameters, respectively.

さらなる実施形態では、上記に加えて、分散の小さいブロック(例えば、60〜平均フレーム分散の分散を有するブロック等)に対してフレームQPQPframeが振り当てられて、それから、当該分散の小さいブロックが、さらなる品質向上が必要なのか否かを判定するように調べられる。一実施形態では、ブロックノイズ(blockiness)アーチファクトを、符号化中の現在の(ターゲット)ブロックからの再構成されたピクセル及び元々のピクセルの空間的複雑度及び輝度を符号化済みの周囲のブロック(例えば、左、左上、上、右上(これらが存在する場合)のブロック等)の空間的複雑度及び輝度と比較することによって検出し得る。仮に、ターゲットブロックの再構成されたピクセルの空間的複雑度尺度及び輝度尺度と近傍ブロックの対応する尺度との間には大きな違いがあるものの、そのターゲットブロックの元々のピクセルとその近傍ブロックの元々のピクセルとの間には空間的複雑度及び輝度にそのような違いがない場合には、そのターゲットブロックが「ブロックノイズ(blocky)」であると見なされる。この場合、そのブロックのQP値が、当該ブロックの符号化品質を向上させるように減らされる(例えば、2だけ減らされる)。他の実施形態では、ターゲットブロックの推定品質が、符号化済みの周囲のブロック(例えば、左、左上、右、右上(これらが存在する場合)のブロック等)のSSIM値及びQP値を平均化することによって算出される。その平均QP値QPavgが、そのターゲットブロックについての推定QPQPblockとされる。平均SSIM値SSIMestが0.9未満であると、QPblock=QPavgが2だけ減らされてその品質を向上させる。さらなる実施形態において、TMVMにより前景データとして特定されたターゲットブロックは、そのTCSFのコントラスト感度対数値(図5の縦軸)が0.8超である(そのブロックが時間的に重要であることを意味する)場合にのみ、QPblockが2だけ減らされる。 In a further embodiment, in addition to the above, a frame QPQP frame is allocated to a low variance block (eg, a block having a variance of 60 to average frame variance), and then the low variance block is A check is made to determine if further quality improvement is required. In one embodiment, blockiness artifacts are reconstructed from the current (target) block being encoded and the surrounding blocks that have encoded the spatial complexity and intensity of the original pixel ( For example, it can be detected by comparing with the spatial complexity and luminance of the left, upper left, upper, upper right (if they exist) blocks, etc. Although there are significant differences between the spatial complexity measure and luminance measure of the reconstructed pixel of the target block and the corresponding measure of the neighboring block, the original pixel of the target block and the original of the neighboring block A target block is considered to be “blocky” if there is no such difference in spatial complexity and brightness from that pixel. In this case, the QP value of the block is reduced so as to improve the coding quality of the block (for example, reduced by 2). In other embodiments, the estimated quality of the target block averages the SSIM and QP values of the encoded surrounding blocks (eg, the left, upper left, right, upper right blocks, etc.). It is calculated by doing. The average QP value QP avg is used as the estimated QPQP block for the target block. If the average SSIM value SSIM est is less than 0.9, QP block = QP avg is reduced by 2 to improve its quality. In a further embodiment, the target block identified as foreground data by TMVM has a TCSF contrast sensitivity logarithm value (vertical axis in FIG. 5) greater than 0.8 (that block is temporally significant). QP block is decreased by 2 only if

これまでに説明した方法は、時間的重要度マップ(TMVMによる洗練化を伴うか又は伴わないTCSF)、空間的重要度マップまたは両方を使用し得る。時間的重要度マップと空間的重要度マップとの両方が用いられた場合、その結果生じるものは、統合化された重要度マップと称される。   The methods described so far may use temporal importance maps (TCSF with or without TMVM refinement), spatial importance maps, or both. If both a temporal importance map and a spatial importance map are used, the result is referred to as an integrated importance map.

前述したような知覚的統計量から生成された重要度マップは、動き補償を用いて動きベクトルを生成する映像圧縮フレームであればどのような映像圧縮フレームにも適用可能であり得て、これにより、同じ符号化サイズで視覚的により優れた符号化を作り出すようにレート歪み解析と量子化との両方が向上される。映像圧縮への重要度マップの適用は、既に詳述した連続的ブロックトラッカー(CBT)に適用するうえで特殊な適用を必要としない。しかも、CBTは、どの動きベクトルが真の動きベクトルであるのかを正確に決定するという追加の能力を提供するので、重要度マップはCBTベースの符号化フレームワークにおいてより効果的である。その具体的な理由として、CBTのフレーム−フレーム間動きベクトル(図8Aのフレーム−フレーム間追跡210からのもの)が、映像の元々のフレームから生成されたものであって再構成されたフレームから生成されたものではない点が挙げられる。一般的なエンコーダの場合の図2及び図7のフレームストア85は符号化プロセスから生成された再構成後のフレームを含むのに対し、図3、図4及び図8Aのフレームストア205は元々の映像フレームを含んでいる。そのため、CBTのフレーム−フレーム間追跡(図3、図4及び図8の符号210)は映像の真の動きをより良好に追跡することが可能であり、かつ、そのフレーム−フレーム間動きベクトルはより正確な真の動きベクトルマップを生成する。対照的に、一般的なエンコーダの動きベクトルは、レート歪み(圧縮)性能を最適化するように選択されており、映像の真の動きを反映しない可能性がある。   The importance map generated from the perceptual statistic as described above can be applied to any video compression frame that generates motion vectors using motion compensation. Both rate distortion analysis and quantization are improved to produce visually better coding with the same coding size. The application of the importance map to the video compression does not require any special application when applied to the continuous block tracker (CBT) already described in detail. Moreover, the importance map is more effective in a CBT-based coding framework because CBT provides the additional ability to accurately determine which motion vector is a true motion vector. Specifically, the CBT frame-to-frame motion vector (from frame-to-frame tracking 210 in FIG. 8A) is generated from the original frame of the video and is reconstructed. It is a point that was not generated. The frame store 85 of FIGS. 2 and 7 for a typical encoder includes the reconstructed frame generated from the encoding process, while the frame store 205 of FIGS. Includes picture frames. Therefore, the CBT frame-to-frame tracking (reference numeral 210 in FIGS. 3, 4 and 8) can better track the true motion of the video, and the frame-to-frame motion vector is Generate a more accurate true motion vector map. In contrast, typical encoder motion vectors have been selected to optimize rate distortion (compression) performance and may not reflect the true motion of the video.

なお、生成された重要度マップは、イントラ予測フレームにも、これまでに述べた手法に従ってイントラ予測モード間のレート歪み最適化を改変するか又はブロックレベル量子化を改変することによって適用可能であり得る。ただし、オールイントラエンコーダ(全イントラエンコーダ)の場合には、TCSFを算出するうえで、映像フレーム内のそれぞれのデータブロックについての動きベクトルを生成するための別個の符号化手段(例えば、図8Aのフレーム−フレーム間追跡210等)が必要となる。   The generated importance map can also be applied to intra prediction frames by modifying the rate distortion optimization between intra prediction modes or modifying block level quantization according to the method described above. obtain. However, in the case of an all-intra encoder (all-intra-encoder), in calculating the TCSF, separate encoding means (for example, FIG. 8A) for generating a motion vector for each data block in the video frame. Frame-to-frame tracking 210).

<デジタル処理環境>
本発明の例示的な実装は、ソフトウェア環境でもファームウェア環境でもハードウェア環境でも実現可能であり得る。図9Aに、そのような環境の一つを示す。少なくとも1つのクライアントコンピュータ/デバイス950(例えば、携帯電話、コンピューティングデバイス等)およびクラウド960(またはサーバコンピュータもしくはサーバコンピュータのクラスタ)は、アプリケーションプログラムを実行する処理機能、記憶機能、符号化機能、復号化機能および入出力装置などを提供する。
<Digital processing environment>
An exemplary implementation of the invention may be feasible in a software environment, a firmware environment, or a hardware environment. FIG. 9A shows one such environment. At least one client computer / device 950 (e.g., cell phone, computing device, etc.) and cloud 960 (or server computer or cluster of server computers) have processing, execution, storage, encoding, and decoding capabilities for executing application programs. Provide the function and I / O device.

また、少なくとも1つのクライアントコンピュータ/デバイス950は、通信ネットワーク970を介して、他のクライアントデバイス/プロセス950および少なくとも1つのサーバコンピュータ960を含む他のコンピューティングデバイスと接続可能であり得る。通信ネットワーク970は、リモートアクセスネットワークの一部、グローバルネットワーク(例えば、インターネット等)の一部、世界規模のコンピュータの集まりの一部、ローカルエリアネットワークの一部、ワイドエリアネットワークの一部、あるいは、現在それぞれのプロトコル(TCP/IP、Bluetooth(登録商標)など)を用いて相互通信するゲートウェイの一部であり得る。それ以外の電子デバイス/コンピュータネットワークアーキテクチャも使用可能である。   Also, at least one client computer / device 950 may be connectable with other computing devices including other client devices / processes 950 and at least one server computer 960 via a communication network 970. The communication network 970 can be part of a remote access network, part of a global network (eg, the Internet, etc.), part of a worldwide collection of computers, part of a local area network, part of a wide area network, or Currently, it may be part of a gateway that communicates with each other using respective protocols (TCP / IP, Bluetooth (registered trademark), etc.). Other electronic device / computer network architectures can also be used.

本発明の実施形態は、映像又はデータ信号情報を符号化、追跡、モデル化、フィルタリング、調整、復号化又は表示する手段を含み得る。図9Bは、そのような映像又はデータ信号情報の符号化を促進するのに用いられ得る、図9Aの処理環境における所与のコンピュータ/コンピューティングノード(例えば、クライアントプロセッサ/デバイス/携帯電話デバイス/タブレット950、サーバコンピュータ960等)の内部構造の図である。各コンピュータ950,960は、コンピュータ又は処理システムの構成要素間のデータ転送に用いられる実在する又は仮想的なハードウェアラインのセットであるシステムバス979を備える。バス979は、コンピュータシステムの相異なる構成要素(例えば、プロセッサ、エンコーダチップ、デコーダチップ、ディスクストレージ、メモリ、入力/出力ポート等)同士を接続する共有の配管のようなものであり、それら構成要素間のデータのやり取りを可能にする。システムバス979には、様々な入出力装置(例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカ等)をコンピュータ950,960に接続するための入出力装置インターフェース982が取り付けられている。ネットワークインターフェース986は、コンピュータがネットワーク(例えば、図9Aの符号970で示されるネットワーク等)に取り付けられた他の様々なデバイスと接続することを可能にする。メモリ990は、本発明のソフトウェア実装を実現するのに用いられるコンピュータソフトウェア命令992及びデータ994を記憶する揮発性メモリである。   Embodiments of the present invention may include means for encoding, tracking, modeling, filtering, adjusting, decoding or displaying video or data signal information. FIG. 9B illustrates a given computer / computing node in the processing environment of FIG. 9A (eg, client processor / device / cell phone device /) that can be used to facilitate the encoding of such video or data signal information. 2 is a diagram of the internal structure of a tablet 950, a server computer 960, and the like. Each computer 950, 960 includes a system bus 979, which is a set of real or virtual hardware lines used to transfer data between components of the computer or processing system. The bus 979 is like a common pipe that connects different components (for example, a processor, an encoder chip, a decoder chip, a disk storage, a memory, an input / output port, etc.) of the computer system. Exchange of data between them. An input / output device interface 982 for connecting various input / output devices (eg, keyboard, mouse, display, printer, speaker, etc.) to the computers 950 and 960 is attached to the system bus 979. The network interface 986 allows the computer to connect to various other devices attached to the network (eg, the network indicated by reference numeral 970 in FIG. 9A). Memory 990 is a volatile memory that stores computer software instructions 992 and data 994 used to implement the software implementation of the present invention.

ディスクストレージ995は、本発明の一実施形態を実現するのに用いられるコンピュータソフトウェア命令998(等価的には「OSプログラム」)及びデータ994を記憶する不揮発性ストレージである。また、ディスクストレージ995は、映像を圧縮フォーマットで長期的に記憶するのにも使用され得る。システムバス979には、さらに、コンピュータ命令を実行する中央演算処理装置984も取り付けられている。なお、本明細書をとおして「コンピュータソフトウェア命令」と「OSプログラム」は互いに等価物とする。   Disk storage 995 is a non-volatile storage that stores computer software instructions 998 (equivalently “OS programs”) and data 994 used to implement one embodiment of the present invention. The disk storage 995 can also be used for long-term storage of video in a compressed format. Also attached to the system bus 979 is a central processing unit 984 that executes computer instructions. Throughout this specification, “computer software instructions” and “OS programs” are equivalent to each other.

一例として、エンコーダは、時間的情報や空間的情報から形成された重要度マップを用いて映像データを符号化するためのコンピュータ読取り可能な命令992により構成され得る。これらの重要度マップは、映像データの符号化/復号化を最適化するための、エンコーダ(又はエンコーダの構成要素)へのフィードバックループを提供するように構成され得る。   As an example, the encoder may be configured with computer readable instructions 992 for encoding video data using an importance map formed from temporal and spatial information. These importance maps may be configured to provide a feedback loop to the encoder (or encoder components) to optimize the encoding / decoding of the video data.

一実施形態において、プロセッサルーチン992及びデータ994は、エンコーダ(概して符号992で示す)を備えるコンピュータプログラムプロダクトである。このようなコンピュータプログラムプロダクトは、そのエンコーダ用のソフトウェア命令の少なくとも一部を提供する、ストレージ装置994に記憶可能なコンピュータ読取り可能な媒体を含む。   In one embodiment, processor routine 992 and data 994 are computer program products that comprise an encoder (generally indicated by reference numeral 992). Such a computer program product includes a computer readable medium that can be stored in the storage device 994 that provides at least a portion of the software instructions for the encoder.

コンピュータプログラムプロダクト992は、当該技術分野において周知である任意の適切なソフトウェアインストール方法によってインストール可能なものであり得る。また、他の実施形態において、前記エンコーダの前記ソフトウェア命令の少なくとも一部は、ケーブルおよび/または通信および/または無線接続を介してダウンロード可能なものであり得る。他の実施形態において、エンコーダシステムソフトウェアは、非過渡的なコンピュータ読取り可能な媒体に組み込まれたコンピュータプログラム伝播信号プロダクト907(図9A)であり、当該コンピュータプログラム伝播信号プロダクト907は、実行されると、伝播媒体上の伝播信号(例えば、電波、赤外線波、レーザ波、音波、インターネットなどのグローバルネットワークや他の少なくとも1つのネットワークによって伝播される電気波など)として実現され得る。このような搬送媒体又は搬送信号が、本発明にかかるルーチン/プログラム992用のソフトウェア命令の少なくとも一部を提供する。   Computer program product 992 may be installable by any suitable software installation method known in the art. In other embodiments, at least some of the software instructions of the encoder may be downloadable via cable and / or communication and / or wireless connection. In other embodiments, the encoder system software is a computer program propagated signal product 907 (FIG. 9A) embedded in a non-transient computer readable medium that is executed when executed. It can be realized as a propagation signal on a propagation medium (for example, a radio wave, an infrared wave, a laser wave, a sound wave, an electric wave propagated by a global network such as the Internet or at least one other network). Such a carrier medium or carrier signal provides at least part of the software instructions for the routine / program 992 according to the invention.

代替的な実施形態において、前記伝播信号は、伝播媒体によって搬送されるアナログ搬送波またはデジタル信号である。例えば、前記伝播信号は、グローバルネットワーク(例えば、インターネット等)、電気通信網または他のネットワークによって搬送されるデジタル信号であり得る。一実施形態において、前記伝播信号は、所与の期間のあいだ伝播媒体によって送信されるものであり、例えば、数ミリ秒、数秒、数分またはそれ以上の期間のあいだネットワークによってパケットで送信される、ソフトウェアアプリケーション用の命令等であり得る。他の実施形態において、コンピュータプログラムプロダクト992の前記コンピュータ読取り可能な媒体は、コンピュータシステム950が受け取って読み取りし得る伝播媒体である。例えば、コンピュータシステム950は、前述したコンピュータプログラム伝播信号プロダクトの場合のように、伝播媒体を受け取ってその伝播媒体内に組み込まれた伝播信号を特定する。   In an alternative embodiment, the propagation signal is an analog carrier wave or digital signal carried by a propagation medium. For example, the propagated signal can be a digital signal carried by a global network (eg, the Internet, etc.), a telecommunications network, or other network. In one embodiment, the propagated signal is transmitted by a propagation medium for a given period of time, for example, transmitted in packets by the network for a period of milliseconds, seconds, minutes or longer. And instructions for software applications. In another embodiment, the computer readable medium of computer program product 992 is a propagation medium that can be received and read by computer system 950. For example, the computer system 950 receives a propagation medium and identifies a propagation signal embedded in the propagation medium, as in the computer program propagation signal product described above.

本発明を例示的な実施形態を参照しながら具体的に図示・説明したが、当業者であれば、添付の特許請求の範囲に包含された本発明の範囲を逸脱しない範疇で形態や細部に様々な変更を施せることを理解するであろう。   Although the present invention has been particularly shown and described with reference to exemplary embodiments, those skilled in the art will recognize that the form and details fall within the scope of the invention as encompassed by the appended claims. You will understand that various changes can be made.

Claims (34)

複数の映像フレームを符号化する方法であって、
前記映像フレームは、互いに重なり合わないターゲットブロックを有しており、
当該方法は、
重要度マップが量子化を調整することによって各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質に影響を与えるように、前記重要度マップを用いて前記複数の映像フレームを符号化する過程、
を備え、前記重要度マップが:
時間的情報及び空間的情報を用いて当該重要度マップを設定すること;ならびに、
(i)当該重要度マップが高い数値をとるブロックでは、ブロック量子化パラメータ(QP)がフレーム量子化パラメータQPframeに比べて小さくされることで、これらのブロックについては高い品質となるように、かつ、(ii)当該重要度マップが低い数値をとるターゲットブロックでは、前記ブロック量子化パラメータが前記フレーム量子化パラメータQPframeに比べて大きくされることで、これらのブロックについては低い品質となるように、計算によって、前記複数の映像フレームのうちのある映像フレームのどの部分が人間の知覚にとって最も気付き易いのかを当該重要度マップに示させること;
によって構成されている、方法。
A method of encoding a plurality of video frames,
The video frames have target blocks that do not overlap each other;
The method is
Encoding the plurality of video frames using the importance map such that the importance map affects the encoding quality of each target block to be encoded in each video frame by adjusting quantization ,
The importance map comprises:
Setting up the importance map using temporal and spatial information; and
(I) In blocks where the importance map has a high numerical value, the block quantization parameter (QP) is made smaller than the frame quantization parameter QP frame , so that these blocks have high quality. And (ii) in the target block in which the importance map has a low value, the block quantization parameter is set larger than the frame quantization parameter QP frame , so that these blocks have low quality. And causing the importance map to indicate which part of the video frame among the plurality of video frames is most easily noticed by human perception by calculation;
Consists of, the method.
請求項1に記載の方法において、前記空間的情報が、ルールに基づく空間的複雑度マップ(SCM)により提供されて、その最初のステップが、前記フレーム内のどのターゲットブロックが当該フレーム内の平均ブロック分散varframeよりも大きい分散を有するかを決定することであり、
前記平均ブロック分散varframeよりも大きい分散を有するブロックに対して、前記フレーム量子化パラメータQPframeよりも高い量子化パラメータ(QP)値を振り当て、このブロック量子化パラメータ(QP)の振当量QPblockは、そのブロック分散varblockが前記平均ブロック分散varframeよりもいかなる程度大きいかに従って、前記フレーム量子化パラメータQPframeと量子化パラメータ上限QPmaxとの間で線形的に増減される、方法。
The method of claim 1, wherein the spatial information is provided by a rule-based spatial complexity map (SCM), the first step of which target blocks within the frame are averaged within the frame. Determining whether to have a variance greater than the block variance var frame ;
A block having a variance larger than the average block variance var frame is assigned a quantization parameter (QP) value higher than the frame quantization parameter QP frame , and a block equivalent QP of the block quantization parameter (QP) is assigned. The block is linearly increased or decreased between the frame quantization parameter QP frame and the quantization parameter upper limit QP max according to how much the block variance var block is larger than the average block variance var frame .
請求項1に記載の方法において、前記時間的情報が、
どのターゲットブロックが観測者である人間にとって時間的に最も気付き易いかを示す時間的コントラスト感度関数(TCSF)、および、
どのターゲットブロックが前景データに相当するかを示す真の動きベクトルマップ(TMVM)
により提供されて、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされる、方法。
The method of claim 1, wherein the temporal information is
A temporal contrast sensitivity function (TCSF) that indicates which target block is most noticeable in time for the observer human, and
True motion vector map (TMVM) showing which target blocks correspond to foreground data
Provided that the TCSF is only valid for target blocks identified as foreground data.
請求項2に記載の方法において、分散の大きいブロックは、そのブロック量子化パラメータ(QP)である前記振当量QPblockが、前記TMVMがターゲットブロックを前景データとして特定し且つ前記TCSFのこのブロックについてのコントラスト感度対数値が0.5未満である場合には前記振当量QPblockが2増加するように、前記TCSF及び前記TMVMによりさらに洗練化される、方法。 3. The method according to claim 2, wherein a block having a large variance has a block quantization parameter (QP) of the shaking equivalent QP block , the TMVM identifies a target block as foreground data, and the block of the TCSF. The method is further refined by the TCSF and the TMVM such that the shaking equivalent QP block is increased by 2 when the contrast sensitivity logarithm of is less than 0.5. 請求項2に記載の方法において、前記SCMは、さらに、極めて明るい(170超の輝度)か又は極めて暗い(60未満の輝度)ターゲットブロックのブロック量子化パラメータである前記振当量QPblockがQPmaxに調節し直される輝度マスキングを含む、方法。 3. The method of claim 2, wherein the SCM further comprises the vibration equivalent QP block that is a block quantization parameter of a very bright (greater than 170 brightness) or very dark (less than 60 brightness) target block QP max. A method comprising luminance masking re-adjusted. 請求項2に記載の方法において、前記SCMは、さらに、前記符号化された映像の品質レベルに基づく前記量子化パラメータ上限QPmaxの動的な決定を含み、
この動的な決定では、イントラ(I)フレーム内のターゲットブロックの平均構造的類似度(SSIM)算出結果をこれらフレームの平均ブロック分散varframeと共に用いて、品質が測定され、
前記測定された品質が低いと、前記量子化パラメータ上限QPmaxの数値が前記フレーム量子化パラメータQPframeに近づくように減らされる、方法。
3. The method of claim 2, wherein the SCM further includes a dynamic determination of the quantization parameter upper limit QP max based on a quality level of the encoded video.
In this dynamic decision, the quality is measured using the average structural similarity (SSIM) calculation result of the target blocks in an intra (I) frame together with the average block variance var frame of these frames,
The method, wherein if the measured quality is low, the value of the quantization parameter upper limit QP max is reduced to approach the frame quantization parameter QP frame .
請求項2に記載の方法において、分散の極めて小さいブロックに対して、これらの領域における高品質符号化を確実にするために、前記ブロック分散が小さいほど前記振当量QPblockの数値が低くなるように(、かつ、品質が高くなるように)、決められた低い量子化パラメータ(QP)の値である前記振当量QPblockが振り当てられる、方法。 3. The method according to claim 2, wherein for a block with extremely small variance, in order to ensure high quality coding in these regions, the smaller the block variance, the lower the value of the vibration equivalent QP block. (And so that the quality is high), the shaking equivalent QP block, which is a value of a determined low quantization parameter (QP), is allocated. 請求項7に記載の方法において、分散の極めて小さいブロックに対する前記低い量子化パラメータ(QP)の値である前記振当量QPblockは、最初に、Iフレームについて決められ、その後、Pフレーム及びBフレームについてはipratioパラメータ及びpbratioパラメータを用いて決められる、方法。 8. The method of claim 7, wherein the equivalent QP block , which is the value of the low quantization parameter (QP) for a very small variance block, is first determined for an I frame and then for P and B frames. Is determined using the ipratio and pbratio parameters. 請求項7に記載の方法において、分散は小さいが、分散が極めて小さいとは見なさないブロックは、当該ブロックについて品質向上が必要か否かを判定するために、
前記ブロック量子化パラメータ(QP)の初めの推定値である前記振当量QPblockが現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックの量子化パラメータ(QP)の値を平均することによって算出されて、且つ、
前記現在のブロックの前記SSIMの推定SSIMestが前記現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックのSSIM値から算出されて、且つ、
SSIMestが0.9未満の場合、前記振当量QPblockの数値が2減少されるように、
調べられる、方法。
The method according to claim 7, wherein a block whose variance is small but which is not considered to be extremely small is used to determine whether or not quality improvement is necessary for the block.
The shaking equivalent QP block, which is the initial estimate of the block quantization parameter (QP), is the value of the quantization parameter (QP) of the already-encoded neighboring block on the left, upper left, right and upper right of the current block. Calculated by averaging, and
An estimated SSIM est of the SSIM of the current block is calculated from the SSIM values of the already encoded neighboring blocks at the left, upper left, right and upper right of the current block; and
When the SSIM est is less than 0.9, the numerical value of the shaking equivalent QP block is decreased by 2,
Examine the method.
請求項9に記載の方法において、前記品質向上は、前記TMVMにより前景データとして特定されて且つ前記TCSFのコントラスト感度対数値が0.8超であるブロックにのみ適用される、方法。   10. The method of claim 9, wherein the quality enhancement is applied only to blocks identified as foreground data by the TMVM and having a contrast sensitivity logarithm value of the TCSF greater than 0.8. 請求項3に記載の方法において、前記TCSFの時間的周波数は、前記ターゲットブロックとその参照ブロックとの間の色空間領域におけるSSIMを用いて波長の近似を求めて且つ動きベクトルの大きさとフレームレートとを用いて速度の近似を求めることによって算出される、方法。   4. The method according to claim 3, wherein the temporal frequency of the TCSF is obtained by approximating the wavelength using SSIM in a color space region between the target block and its reference block, and the magnitude and frame rate of the motion vector. And a method of calculating an approximation of speed using 請求項3に記載の方法において、前記TCSFは、現在のフレームについての当該TCSFが最近のフレームにおけるTCSFマップの重み付き平均であるように且つより最近のフレームがより大きい重み付けを受けるように、複数のフレームにわたって算出される、方法。   4. The method of claim 3, wherein the TCSF is multiple such that the TCSF for a current frame is a weighted average of the TCSF maps in a recent frame and that more recent frames receive a greater weight. Calculated over a number of frames. 請求項3に記載の方法において、前記TMVMは、前景データの場合にのみ1に設定される、方法。   4. The method of claim 3, wherein the TMVM is set to 1 only for foreground data. 請求項13に記載の方法において、前景データは、所与のターゲットブロックについてのエンコーダ動きベクトルと当該ブロックについてのグローバル動きベクトルとの差分を算出し、十分に大きい差分を有するブロックが前景データであると判断されることによって特定される、方法。   14. The method according to claim 13, wherein foreground data is calculated by calculating a difference between an encoder motion vector for a given target block and a global motion vector for the block, and a block having a sufficiently large difference is foreground data. The method specified by being judged. 請求項14に記載の方法において、前景データとして特定されたデータブロックについて、前記グローバル動きベクトルから前記エンコーダ動きベクトルが減算されることによって差分動きベクトルを得て、この差分動きベクトルの大きさが前記TCSFの時間的周波数を算出するのに用いられる、方法。   15. The method according to claim 14, wherein a difference motion vector is obtained by subtracting the encoder motion vector from the global motion vector for a data block identified as foreground data, and the magnitude of the difference motion vector is the value of the difference motion vector. A method used to calculate the temporal frequency of a TCSF. 請求項3に記載の方法において、前記TCSFは、エンコーダからの動きベクトルから算出される、方法。   4. The method of claim 3, wherein the TCSF is calculated from a motion vector from an encoder. 請求項1に記載の方法において、前記重要度マップが前記時間的情報及び前記空間的情報で設定されたものである場合、当該重要度マップは統合化された重要度マップである、方法。   The method according to claim 1, wherein when the importance map is set by the temporal information and the spatial information, the importance map is an integrated importance map. 映像データを符号化するシステムであって、
重要度マップを用いて複数の映像フレームを符号化するコーデックであって、当該映像フレームは、互いに重なり合わないターゲットブロックを有している、コーデック、
を備え、前記重要度マップは、量子化を調整することによって各映像フレーム内の符号化すべき各ターゲットブロックの符号化品質に影響を与えるように構成されており、
前記重要度マップが:
時間的情報及び空間的情報を用いて当該重要度マップを設定することであって、これら時間的情報と空間的情報とにより設定された重要度マップは、統合化された重要素マップであること;ならびに、
(i)当該重要度マップが高い数値をとるブロックでは、ブロック量子化パラメータ(QP)がフレーム量子化パラメータQPframeに比べて小さくされることで、これらのブロックについては高い品質となるように、かつ、(ii)当該重要度マップが低い数値をとるターゲットブロックでは、前記ブロック量子化パラメータが前記フレーム量子化パラメータQPframeに比べて大きくされることで、これらのブロックについては低い品質となるように、計算によって、前記複数の映像フレームのうちのある映像フレームの、人間の知覚にとって最も気付き易い部分を当該重要度マップに示させること;
によって構成されている、システム。
A system for encoding video data,
A codec that encodes a plurality of video frames using an importance map, wherein the video frames have target blocks that do not overlap each other;
The importance map is configured to influence the encoding quality of each target block to be encoded in each video frame by adjusting quantization,
The importance map is:
The importance map is set using temporal information and spatial information, and the importance map set by these temporal information and spatial information is an integrated heavy element map. As well as
(I) In blocks where the importance map has a high numerical value, the block quantization parameter (QP) is made smaller than the frame quantization parameter QP frame , so that these blocks have high quality. And (ii) in the target block in which the importance map has a low value, the block quantization parameter is set larger than the frame quantization parameter QP frame , so that these blocks have low quality. And, by calculating, let the importance level map indicate a part of the video frame that is most easily noticed by human perception of the video frame;
The system that is configured by.
請求項18に記載のエンコーダにおいて、前記空間的情報が、ルールに基づく空間的複雑度マップ(SCM)により提供されて、その最初のステップが、前記フレーム内のどのターゲットブロックが当該フレーム内の平均ブロック分散varframeよりも大きい分散を有するかを決定することであり、
前記平均ブロック分散varframeよりも大きい分散を有するブロックに対して、前記フレーム量子化パラメータQPframeよりも高い量子化パラメータ(QP)値を振り当て、このブロック量子化パラメータ(QP)の振当量QPblockは、そのブロック分散varblockが前記平均ブロック分散varframeよりもいかなる程度大きいかに従って、前記フレーム量子化パラメータQPframeと量子化パラメータ上限QPmaxとの間で線形的に増減される、エンコーダ。
19. The encoder of claim 18, wherein the spatial information is provided by a rule-based spatial complexity map (SCM), the first step of which target blocks within the frame are averaged within the frame. Determining whether to have a variance greater than the block variance var frame ;
A block having a variance larger than the average block variance var frame is assigned a quantization parameter (QP) value higher than the frame quantization parameter QP frame , and a block equivalent QP of the block quantization parameter (QP) is assigned. The encoder is linearly increased or decreased between the frame quantization parameter QP frame and the quantization parameter upper limit QP max according to how much the block variance var block is larger than the average block variance var frame .
請求項18に記載のエンコーダにおいて、前記時間的情報が、
どのターゲットブロックが観測者である人間にとって時間的に最も気付き易いかを示す時間的コントラスト感度関数(TCSF)、および、
どのターゲットブロックが前景データに相当するかを示す真の動きベクトルマップ(TMVM)
により提供されて、前記TCSFは、前景データとして特定されたターゲットブロックについてのみ有効とされる、エンコーダ。
The encoder according to claim 18, wherein the temporal information is
A temporal contrast sensitivity function (TCSF) that indicates which target block is most noticeable in time for the observer human, and
True motion vector map (TMVM) showing which target blocks correspond to foreground data
Provided that the TCSF is only valid for target blocks identified as foreground data.
請求項19に記載のエンコーダにおいて、分散の大きいブロックは、そのブロック量子化パラメータ(QP)である前記振当量QPblockが、前記TMVMがターゲットブロックを前景データとして特定し且つ前記TCSFのこのブロックについてのコントラスト感度対数値が0.5未満である場合には前記振当量QPblockが2増加するように、前記TCSF及び前記TMVMによりさらに洗練化される、エンコーダ。 20. The encoder according to claim 19, wherein a block having a large variance has a block quantization parameter (QP) of the shaking equivalent QP block , the TMVM specifies a target block as foreground data, and the block of the TCSF. The encoder is further refined by the TCSF and the TMVM so that the vibration equivalent QP block is increased by 2 when the contrast sensitivity logarithm of is less than 0.5. 請求項19に記載のエンコーダにおいて、前記SCMは、さらに、極めて明るい(170超の輝度)か又は極めて暗い(60未満の輝度)ターゲットブロックのブロック量子化パラメータである前記振当量QPblockがQPmaxに調節し直される輝度マスキングを含む、エンコーダ。 20. The encoder according to claim 19, wherein the SCM is further the block equivalent parameter QP block of a very bright (greater than 170 brightness) or very dark (less than 60 brightness) target block QP max Encoder, including brightness masking re-adjusted. 請求項19に記載のエンコーダにおいて、前記SCMは、さらに、符号化された映像の品質レベルに前記量子化パラメータ上限基づくQPmaxの動的な決定を含み、
この動的な決定では、イントラ(I)フレーム内のターゲットブロックの平均構造的類似度(SSIM)算出結果をこれらフレームの平均ブロック分散varframeと共に用いて、品質が測定され、
測定された品質が低いと、前記量子化パラメータ上限QPmaxの数値が前記フレーム量子化パラメータQPframe近づくように減らされる、エンコーダ。
The encoder of claim 19, wherein the SCM further comprises a dynamic determination of QP max based on the quantization parameter upper limit on the quality level of the encoded video.
In this dynamic decision, the quality is measured using the average structural similarity (SSIM) calculation result of the target blocks in an intra (I) frame together with the average block variance var frame of these frames,
If the measured quality is low, the numerical value of the quantization parameter upper limit QP max is reduced so as to approach the frame quantization parameter QP frame .
請求項19に記載のエンコーダにおいて、分散の極めて小さいブロックに対して、これらの領域における高品質符号化を確実にするために、前記ブロック分散が小さいほど前記振当量QPblockの数値が低くなるように(、かつ、品質が高くなるように)、決められた低い量子化パラメータ(QP)の値である前記振当量QPblockが振り当てられる、エンコーダ。 The encoder according to claim 19, wherein the block equivalent QP block has a lower numerical value as the block variance is smaller, in order to ensure high quality coding in these regions for blocks with extremely small variance. (And so that the quality is high), the predetermined equivalent quantization parameter QP block, which is a value of a low quantization parameter (QP), is allocated. 請求項24に記載のエンコーダにおいて、分散の極めて小さいブロックに対する前記低い量子化パラメータ(QP)の値である前記振当量QPblockは、最初に、Iフレームについては決められ、その後、Pフレーム及びBフレームについてはipratioパラメータ及びpbratioパラメータを用いて決められる、エンコーダ。 25. The encoder according to claim 24, wherein the vibration equivalent QP block , which is the value of the low quantization parameter (QP) for a very small variance block, is first determined for an I frame, and then P frames and B An encoder, which is determined using ipratio and pbratio parameters for a frame. 請求項19に記載のシステムにおいて、分散は小さいが、分散が極めて小さいとは見なさないブロックは、当該ブロックについて品質向上が必要か否かを判定するために、
前記ブロック量子化パラメータ(QP)の初めの推定値である前記振当量QPblockが現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックの量子化パラメータ(QP)の値を平均することによって算出されて、且つ、
前記現在のブロックの前記SSIMの推定SSIMestが前記現在のブロックの左、左上、右および右上の既に符号化済みの近傍ブロックのSSIM値から算出されて、且つ、
SSIMestが0.9未満の場合、前記振当量QPblockの数値が2減少されるように、
調べられる、システム。
The system according to claim 19, wherein a block whose variance is small but which is not considered to be extremely small is to determine whether a quality improvement is necessary for the block.
The shaking equivalent QP block, which is the initial estimate of the block quantization parameter (QP), is the value of the quantization parameter (QP) of the already-encoded neighboring block on the left, upper left, right and upper right of the current block. Calculated by averaging, and
An estimated SSIM est of the SSIM of the current block is calculated from the SSIM values of the already encoded neighboring blocks at the left, upper left, right and upper right of the current block; and
When the SSIM est is less than 0.9, the numerical value of the shaking equivalent QP block is decreased by 2,
The system being examined.
請求項26に記載のシステムにおいて、前記品質向上は、前記TMVMにより前景データとして特定されて且つ前記TCSFのコントラスト感度対数値が0.8超であるブロックにのみ適用される、システム。   27. The system of claim 26, wherein the quality enhancement is applied only to blocks identified as foreground data by the TMVM and having a contrast sensitivity logarithm value of the TCSF greater than 0.8. 請求項20に記載のシステムにおいて、前記TCSFの時間的周波数は、前記ターゲットブロックとその参照ブロックとの間の色空間領域におけるSSIMを用いて波長の近似を求めて且つ動きベクトルの大きさとフレームレートとを用いて速度の近似を求めることによって算出される、システム。   21. The system according to claim 20, wherein the temporal frequency of the TCSF is obtained by approximating a wavelength using SSIM in a color space region between the target block and its reference block, and a motion vector magnitude and a frame rate. The system is calculated by calculating the approximation of speed using 請求項20に記載のシステムにおいて、前記TCSFは、現在のフレームについての当該TCSFが最近のフレームにおけるTCSFマップの重み付き平均であるように且つより最近のフレームがより大きい重み付けを受けるように、複数のフレームにわたって算出される、システム。   21. The system of claim 20, wherein the TCSF is multiple such that the TCSF for a current frame is a weighted average of the TCSF maps in a recent frame and a more recent frame receives a greater weight. The system is calculated over a number of frames. 請求項20に記載のシステムにおいて、前記TMVMは、前景データの場合にのみ1に設定される、システム。   21. The system of claim 20, wherein the TMVM is set to 1 only for foreground data. 請求項30に記載のシステムにおいて、前景データは、所与のターゲットブロックについてのエンコーダ動きベクトルと当該ブロックについてのグローバル動きベクトルとの差分を算出し、十分に大きい差分を有するブロックが前景データであると判断されることによって特定される、システム。   The system according to claim 30, wherein the foreground data is calculated by calculating a difference between an encoder motion vector for a given target block and a global motion vector for the block, and a block having a sufficiently large difference is foreground data. A system identified by being judged. 請求項20に記載のシステムにおいて、前景データとして特定されたデータブロックについて、前記グローバル動きベクトルから前記エンコーダ動きベクトルが減算されることによって差分動きベクトルを得て、この差分動きベクトルの大きさが前記TCSFの時間的周波数を算出するのに用いられる、システム。   The system according to claim 20, wherein a difference motion vector is obtained by subtracting the encoder motion vector from the global motion vector for a data block identified as foreground data, and the magnitude of the difference motion vector is the size of the difference motion vector. A system used to calculate the temporal frequency of TCSF. 請求項20に記載のシステムにおいて、前記TCSFは、前記エンコーダからの動きベクトルから算出される、システム。   21. The system of claim 20, wherein the TCSF is calculated from a motion vector from the encoder. 請求項18に記載のシステムにおいて、前記重要度マップが前記時間的情報と前記空間的情報で設定されたものである場合、当該重要度マップは統合化された重要度マップである、システム。   The system according to claim 18, wherein the importance map is an integrated importance map when the importance map is set by the temporal information and the spatial information.
JP2017513750A 2014-09-11 2015-09-03 Perceptual optimization for model-based video coding Active JP6698077B2 (en)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201462049342P 2014-09-11 2014-09-11
US62/049,342 2014-09-11
US14/532,947 2014-11-04
US14/532,947 US9621917B2 (en) 2014-03-10 2014-11-04 Continuous block tracking for temporal prediction in video encoding
US201462078181P 2014-11-11 2014-11-11
US62/078,181 2014-11-11
US201562158523P 2015-05-07 2015-05-07
US62/158,523 2015-05-07
PCT/US2015/048353 WO2016040116A1 (en) 2014-09-11 2015-09-03 Perceptual optimization for model-based video encoding

Publications (3)

Publication Number Publication Date
JP2017532858A true JP2017532858A (en) 2017-11-02
JP2017532858A5 JP2017532858A5 (en) 2018-10-11
JP6698077B2 JP6698077B2 (en) 2020-05-27

Family

ID=55459438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017513750A Active JP6698077B2 (en) 2014-09-11 2015-09-03 Perceptual optimization for model-based video coding

Country Status (5)

Country Link
EP (1) EP3175618A1 (en)
JP (1) JP6698077B2 (en)
CN (1) CN106688232A (en)
CA (1) CA2960617A1 (en)
WO (1) WO2016040116A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019194572A1 (en) * 2018-04-03 2019-10-10 Samsung Electronics Co., Ltd. Methods and apparatus for determining adjustment parameter during encoding of spherical multimedia content
JP7487423B2 (en) 2021-03-19 2024-05-20 クアルコム,インコーポレイテッド Learned Multi-scale Optical Flow for Video Compression

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
CA2942336A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
CN109547802A (en) * 2017-09-22 2019-03-29 江苏智谋科技有限公司 Unmanned plane obstacle avoidance system based on 3D vision technology
CN107843227B (en) * 2017-12-09 2020-04-10 连云港杰瑞电子有限公司 Method for improving precision of encoder based on calibration technology
CN108172168B (en) * 2017-12-22 2019-11-15 深圳市华星光电半导体显示技术有限公司 A kind of compensation table compression method
US10652550B2 (en) 2017-12-22 2020-05-12 Shenzhen China Star Optoelectronics Semiconductor Display Technology Co., Ltd. Compensation table compressing method
CN111279685A (en) * 2018-04-28 2020-06-12 深圳市大疆创新科技有限公司 Motion estimation
WO2019234609A1 (en) 2018-06-05 2019-12-12 Beijing Bytedance Network Technology Co., Ltd. Interaction between ibc and bio
CN110636300B (en) 2018-06-21 2022-07-29 北京字节跳动网络技术有限公司 Sub-block motion vector inheritance between color components
TWI739120B (en) 2018-06-21 2021-09-11 大陸商北京字節跳動網絡技術有限公司 Unified constrains for the merge affine mode and the non-merge affine mode
WO2020000444A1 (en) * 2018-06-29 2020-01-02 深圳市大疆创新科技有限公司 Method and device for determining motion vector, and machine-readable storage medium
CN110944193B (en) 2018-09-24 2023-08-11 北京字节跳动网络技术有限公司 Weighted bi-prediction in video encoding and decoding
US10992938B2 (en) * 2018-09-28 2021-04-27 Ati Technologies Ulc Spatial block-level pixel activity extraction optimization leveraging motion vectors
JP7324841B2 (en) 2018-11-10 2023-08-10 北京字節跳動網絡技術有限公司 Video data processing method, apparatus, storage medium and storage method
CN109819252B (en) * 2019-03-20 2021-05-18 福州大学 Quantization parameter cascading method independent of GOP structure
CN109982082B (en) * 2019-05-05 2022-11-15 山东大学 HEVC multi-distortion criterion rate-distortion optimization method based on local texture characteristics
CN111882564A (en) * 2020-07-27 2020-11-03 山东大学 Compression processing method for ultra-high definition medical pathological image
CN113556544B (en) * 2021-06-30 2024-04-19 北京锐马视讯科技有限公司 Video coding method, device, equipment and storage medium based on scene self-adaption

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6831947B2 (en) * 2001-03-23 2004-12-14 Sharp Laboratories Of America, Inc. Adaptive quantization based on bit rate prediction and prediction error energy
US8135062B1 (en) * 2006-01-16 2012-03-13 Maxim Integrated Products, Inc. Method and apparatus for QP modulation based on perceptual models for picture encoding
CN101184221A (en) * 2007-12-06 2008-05-21 上海大学 Vision attention based video encoding method
CN101325711A (en) * 2008-07-16 2008-12-17 上海大学 Method for controlling self-adaption code rate based on space-time shielding effect
US8848788B2 (en) * 2009-05-16 2014-09-30 Thomson Licensing Method and apparatus for joint quantization parameter adjustment
US8737464B1 (en) * 2011-07-21 2014-05-27 Cisco Technology, Inc. Adaptive quantization for perceptual video coding

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019194572A1 (en) * 2018-04-03 2019-10-10 Samsung Electronics Co., Ltd. Methods and apparatus for determining adjustment parameter during encoding of spherical multimedia content
US11272209B2 (en) 2018-04-03 2022-03-08 Samsung Electronics Co., Ltd. Methods and apparatus for determining adjustment parameter during encoding of spherical multimedia content
JP7487423B2 (en) 2021-03-19 2024-05-20 クアルコム,インコーポレイテッド Learned Multi-scale Optical Flow for Video Compression

Also Published As

Publication number Publication date
JP6698077B2 (en) 2020-05-27
WO2016040116A1 (en) 2016-03-17
EP3175618A1 (en) 2017-06-07
CN106688232A (en) 2017-05-17
CA2960617A1 (en) 2016-03-17

Similar Documents

Publication Publication Date Title
JP6698077B2 (en) Perceptual optimization for model-based video coding
US10091507B2 (en) Perceptual optimization for model-based video encoding
US10097851B2 (en) Perceptual optimization for model-based video encoding
US11228766B2 (en) Dynamic scaling for consistent video quality in multi-frame size encoding
US10212456B2 (en) Deblocking filter for high dynamic range (HDR) video
US9621917B2 (en) Continuous block tracking for temporal prediction in video encoding
US9313526B2 (en) Data compression for video
KR102295520B1 (en) Optical Flow Estimation for Motion Compensation Prediction in Video Coding
US9591313B2 (en) Video encoder with transform size preprocessing and methods for use therewith
US20110206132A1 (en) Data Compression for Video
US9838690B1 (en) Selective prediction signal filtering
US10574997B2 (en) Noise level control in video coding
CN110741641B (en) Method and apparatus for video compression
US10440384B2 (en) Encoding method and equipment for implementing the method
JP2023164443A (en) Method, apparatus, and program for video coding
US9438925B2 (en) Video encoder with block merging and methods for use therewith
KR20150034699A (en) Method and apparatus for image interpolation having quarter pixel accuracy using intra prediction modes
CN115428451A (en) Video encoding method, encoder, system, and computer storage medium
KR102402671B1 (en) Image Processing Device Having Computational Complexity Scalable Interpolation Filter, Image Interpolation Method and Image Encoding Method
Li et al. Fast mode decision based on human noticeable luminance difference and rate distortion cost for H. 264/AVC
Lin et al. Perceptual importance analysis-based rate control method for HEVC
US20230179774A1 (en) Method and apparatus for scene detection based encoding
WO2022146215A1 (en) Temporal filter
WO2023102293A1 (en) Scene transition detection based encoding methods for bcw
KR20170012524A (en) Method and apparatus for image interpolation having quarter pixel accuracy using intra prediction modes

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180830

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200427

R150 Certificate of patent or registration of utility model

Ref document number: 6698077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250