JP5927117B2 - ビデオ符号化及び復号化のための適応的変換選択のための方法及び装置 - Google Patents

ビデオ符号化及び復号化のための適応的変換選択のための方法及び装置 Download PDF

Info

Publication number
JP5927117B2
JP5927117B2 JP2012521624A JP2012521624A JP5927117B2 JP 5927117 B2 JP5927117 B2 JP 5927117B2 JP 2012521624 A JP2012521624 A JP 2012521624A JP 2012521624 A JP2012521624 A JP 2012521624A JP 5927117 B2 JP5927117 B2 JP 5927117B2
Authority
JP
Japan
Prior art keywords
transforms
transform
picture
block
inverse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012521624A
Other languages
English (en)
Other versions
JP2012533963A (ja
JP2012533963A5 (ja
Inventor
ルー,シャオアン
ソレ,ジョエル
イン,ペン
スー,チエン
チェン,ユンフェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2012533963A publication Critical patent/JP2012533963A/ja
Publication of JP2012533963A5 publication Critical patent/JP2012533963A5/ja
Application granted granted Critical
Publication of JP5927117B2 publication Critical patent/JP5927117B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Description

本出願は、参照することによってその全体がここに援用される、2009年7月23日に出願された米国仮出願第61/227,938号(代理人整理番号第PU090100号)の利益を請求する。
本原理は、一般にビデオ符号化及び復号化に関し、より詳細には、ビデオ符号化及び復号化のための適応的変換選択のための方法及び装置に関する。
ブロックベース離散変換は、例えば、JPEG(Joint Photographic Experts Group)、ITU−T(International Telecommunication Union,Telecommunication Sector)のH.263 Recommendation(以降、“H.263 Recommendation”)、ISO/IEC(International Organization for Standardization/International Electrotechnical Commission)のMPEG−1(Moving Picture Experts Group−1)規格、ISO/IECのMPEG−2規格、ISO/IECのMPEG−4 Part10 AVC(Advanced Video Coding)規格/ITU−T H.264 Recommendation(以降、“MPEG−4 AVC規格”)などを含む多数のイメージ及びビデオ圧縮規格の基本的なコンポーネントであり、広範な用途において利用される。変換は、信号を変換領域に変換し、当該信号を変換基底関数セットの線形結合として表す。その後に、量子化段階が続く。ビデオ符号化のための良好な変換は、(1)量子化対象の信号を相関解除し、これにより、個々の値に対するスカラー量子化がベクトル量子化と比較して符号化効率を大きく失わせることなく効果的に利用可能にし、(2)ビデオ信号のエネルギーを可能な限り少数の係数にコンパクト化し、エンコーダがイメージを大きな規模の少数の係数によって表現することを可能にすべきである。上記2つの基準の下で良好に実行される変換は、Karhunen−Loeve変換(KLT)である。離散コサイン変換(DCT)は、通常のイメージ信号に対してKLTの良好な近似を提供し、ほとんどすべての現在のビデオ符号化規格において利用される。
DCT方式は、イメージ/フレームをピクセルのブロック(通常は、4×4、8×8及び16×16)に分割し、離散コサイン変換を利用して各ブロックを空間領域から周波数領域に変換し、DCT係数を量子化することによって、イメージ/フレームのローカルな空間相関性質を利用する。大部分のイメージ及びビデオ圧縮規格は、固定的な2次元(2D)分離可能なDCTブロック変換を利用する。複数のブロックサイズが許容される場合(典型的には、4×4から16×16ブロック)、それらはブロックに対応するサイズによってDCTを利用する。
MPEG−4 AVC規格などのイメージ及びビデオ符号化規格では、利用すべき変換はブロックサイズに依存する。例えば、4×4ブロックには4×4整数DCTが利用され、8×8ブロックには8×8整数DCTが利用され、イントラ16×16ブロックには4カスケード4×4整数DCTが利用される。DCT基底関数は予め決定され、ビデオコンテンツや符号化パラメータに適応するものでない。
KLTは最適化された線形変換であるため、第1の従来アプローチでは、MPEG−4 AVC規格における9つのイントラ予測モードのそれぞれについて最良の変換を導くのに利用される。各モードの統計量が抽出され、対応するKLTが導かれる。各イントラ予測モードの残差データが、対応するKLTにより符号化される。9つのイントラモードは、DCTが最良の変換に決して近づかないようにデータ空間を効果的に分割し、これにより、最良な各変換が導かれ、良好に適用可能となる。概して、第1の従来アプローチは複数の変換を利用し、各変換は、ビデオコンテンツに関係なく選択されたイントラ予測モードに固定される。
第2の従来アプローチでは、1以上の変換をオフラインにトレーニングすることが提案され、その後にエンコーダは、これらのブロックの各ブロックについて圧縮パフォーマンスを最適化する変換を選択する。この選択は、各ブロックについて通知される。しかしながら、イメージ及びビデオコンテンツは、変動する統計量と性質とを備えたデータを有する。エンコーダはまた、異なるターゲットビットレートなどの異なる符号化パラメータを利用して動作する。オリジナルイメージ及び残差イメージにおける変化は、DCTによって常にキャプチャ可能であるとは限らない。
図1を参照して、エンコーダにおける典型的な変換選択方法が、参照番号100により全体的に示される。方法100は、機能ブロック120に制御をわたすスタートブロック110を含む。機能ブロック120は変換セットを初期化し、ループ制限ブロック130に制御をわたす。ループ制限ブロック130は、1から現在のビデオシーケンス(処理中の)のピクチャ数(#)までの範囲を有する変数jを用いてループ(以降、“ループ(1)”)を開始し、ループ制限ブロック140に制御をわたす。ループ制限ブロック140は、1から処理中の現在のピクチャのブロック数(#)までの範囲を有する変数iを用いてループ(以降、“ループ(2)”)を開始し、機能ブロック150に制御をわたす。機能ブロック350は、ブロックに対する最良の変換を選択する(例えば、1以上の基準に基づき)、機能ブロック160に制御をわたす。機能ブロック160は、ピクチャjのブロックiを符号化し、ループ制限ブロック180に制御をわたす。ループ制限ブロック170はループ(2)を終了し、ループ制限ブロック180に制御をわたす。ループ制限ブロック180はループ(1)を終了し、エンドブロック199に制御をわたす。
従来技術では、変換セットは、大きなトレーニングデータセットによってオフラインにトレーニングされる。トレーニング技術は、通常のKLT、疎目的関数などに基づくものとすることができる。符号化中、エンコーダは、圧縮パフォーマンスを向上させるため、各ブロックについてトレーニングセットから最良の変換を選択する。この選択はビットストリームにより通知され、これにより、対応するデコーダは、ビットストリームを解析し、エンコーダにより利用されたものと同じ(しかしながら逆の)変換を利用してビデオ信号を復号化することができる。
図2を参照して、デコーダにおける典型的な変換選択方法が、参照番号200により全体的に示される。方法200は、機能ブロック220に制御をわたすスタートブロック210を有する。機能ブロック220は、変換セットを初期化し、ループ制限ブロック230に制御をわたす。ループ制限ブロック230は、1から現在のビデオシーケンス(処理中の)におけるピクチャ数(#)までの範囲を有する変数jを用いてループ(以降、“ループ(1)”)を開始し、ループ制限ブロック240に制御をわたす。ループ制限ブロック240は、1から処理中の現在のピクチャのブロック数(#)までの範囲を有する変数iを用いてループ(以降、“ループ(2)”)を開始し、機能ブロック250に制御をわたす。機能ブロック250は、(現在)ブロックについて変換を復号化し、機能ブロック260に制御をわたす。機能ブロック260は、ピクチャjのブロックiを復号化し、ループ制限ブロック270に制御をわたす。ループ制限ブロック270はループ(2)を終了し、ループ制限ブロック280に制御をわたす。ループ制限ブロック280はループ(1)を終了し、エンドブロック299に制御をわたす。
従って、方法200において、デコーダは、各ブロックに対してエンコーダにより利用された変換をビットストリームから取得し、その後、通知された変換(逆変換)を用いてビデオ信号を再構成する。しかしながら、変換セットは、オフラインに導出され、入力されたビデオシーケンス及び符号化パラメータに適応することができない。
従来技術の上記及び他の欠点及び短所が、ビデオ符号化及び復号化のための適応的な変換選択のための方法及び装置に関する本原理により解決される。
本原理の一態様によると、装置が提供される。本装置は、変換を用いてピクチャにおける少なくとも1つのブロックを符号化するビデオエンコーダを有する。ブロックを符号化するのに用いられる変換は、複数の変換から選択される。複数の変換が、ピクチャの符号化中に適応的に更新される。
本原理の他の態様によると、ビデオエンコーダにおける方法が提供される。本方法は、変換を用いてピクチャにおける少なくとも1つのブロックを符号化することを有する。ブロックを符号化するのに用いられる変換は、複数の変換から選択される。複数の変換が、ピクチャの符号化中に適応的に更新される。
本原理のさらなる他の態様によると、装置が提供される。本装置は、逆変換を用いてピクチャにおける少なくとも1つのブロックを復号化するビデオデコーダを有する。ブロックを復号化するのに用いられる逆変換は、複数の逆変換から選択される。複数の逆変換が、ピクチャの復号化中に適応的に更新される。
本原理のさらなる態様によると、ビデオデコーダにおける方法が提供される。本方法は、逆変換を用いてピクチャにおける少なくとも1つのブロックを復号化することを有する。ブロックを復号化するのに用いられる逆変換は、複数の逆変換から選択される。複数の逆変換が、ピクチャの復号化中に適応的に更新される。
本原理の上記及び他の態様、特徴及び効果は、添付した図面に関して参照されるべき以下の実施例の詳細な説明から明らかになるであろう。
図1は、従来技術によるエンコーダにおける典型的な変換選択方法を示すフロー図である。 図2は、従来技術によるデコーダにおける典型的な変換選択方法を示すフロー図である。 図3は、本原理の実施例による本原理が適用される一例となるビデオエンコーダを示すブロック図である。 図4は、本原理の実施例による本原理が適用される一例となるビデオデコーダを示すブロック図である。 図5は、本原理の実施例による符号化中に更新され、対応するデコーダに送信される変換を用いてピクチャを符号化する一例となる方法を示すフロー図である。 図6は、本原理の実施例によるエンコーダから受信した更新された変換を用いてピクチャを復号化する一例となる方法を示すフロー図である。 図7は、本原理の実施例による符号化中に更新された変換を用いてピクチャを符号化する一例となる方法を示すフロー図である。 図8は、本原理の実施例による復号化中に更新された変換を用いてピクチャを復号化する一例となる方法を示すフロー図である。 図9は、本原理の実施例による符号化中に更新された変換と、対応するデコーダに送信される変換インデックスを用いてピクチャを符号化する一例となる方法を示すフロー図である。 図10は、本原理の実施例による対応するエンコーダから受信した変換インデックスを用いてピクチャを復号化する一例となる方法を示すフロー図である。 図11は、本原理の実施例による特異値分解を用いてエンコーダにおいて変換を導出する一例となる方法を示すフロー図である。 図12は、本原理の実施例による特異値分解を用いてデコーダにおいて変換を導出する一例となる方法を示すフロー図である。
本原理は、ビデオ符号化及び復号化のための適応的変換選択のための方法及び装置に関する。
本開示は、本原理を説明する。当業者は、ここに明示的には説明又は図示されないが、本原理を実現し、その趣旨及び範囲内に含まれる各種構成を構成可能であることが理解されるであろう。
ここに記載されるすべての具体例と条件付言語とは、技術の進歩のため発明者が貢献した本原理とコンセプトとを読者が理解するのに役立つように、教育的な目的のために意図されており、このように具体的に記載された具体例と条件とに限定されることなく解釈されるべきである。
さらに、本原理の原理、態様及び実施例と共にこれらの具体的な具体例を記載したここでのすべての記述は、これらの構成的及び機能的な均等を含むことが意図される。さらに、このような均等は、現在知られている均等と共に、将来開発される均等、すなわち、構成に関係なく同一の機能を実行する開発される任意の要素を含むことが意図される。
従って、例えば、ここに提供されるブロック図は本原理を実現する例示的な回路の概念図を表すことが、当業者に理解されるであろう。同様に、何れかのフローチャート、フロー図、状態遷移図、擬似コードなどは、コンピュータ又はプロセッサが明示的に図示されるか否かにかかわらず、コンピュータ可読媒体に実質的に表され、コンピュータ又はプロセッサにより実行される各種処理を表すことが理解されるであろう。
図示される各種要素の機能は、専用のハードウェア又は適切なソフトウェアに関してソフトウェアを実行可能なハードウェアを利用することによって提供されてもよい。プロセッサにより提供されるとき、これらの機能は、単一の専用プロセッサ、単一の共有プロセッサ又は一部が共有される複数の個別のプロセッサによって提供されてもよい。さらに、“プロセッサ”又は“コントローラ”という用語の明示的な利用は、ソフトウェアを実行可能なハードウェアのみを参照するものと解釈されるべきでなく、限定することなく、デジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを格納するROM(Read−Only Memory)、RAM(Random Access Memory)及び不揮発性ストレージを暗黙的に含むものであってもよい。
従来の及び/又はカスタムな他のハードウェアがまた含まれてもよい。同様に、図示される何れかのスイッチは単なる概念的なものである。それらの機能は、プログラムロジックの処理を介し、専用ロジックを介し、プログラム制御及び専用ロジックのやりとりを介し、又は手動により実行されてもよく、特定の技術は、コンテクストからより具体的に理解されるように、実現者によって選択可能である。
請求項において、指定された機能を実行する手段として表現される何れかの要素は、例えば、a)当該機能を実行する回路要素の組み合わせ、又はb)当該機能を実行するためソフトウェアを実行するための適切な回路と組み合わされたファームウェア、マイクロコードなどを含む何れかの形態によるソフトウェアなどを含む、当該機能を実行する何れかの方法を含むことが意図される。このような請求項に規定される本原理は、記載された各種手段によって提供される機能が、請求項が求める方法により組み合わされ、一緒にされるという事実にある。従って、これらの機能を提供可能な何れかの手段がここに示されたものと等価であるとみなされる。
本原理の“一実施例”又は“実施例”という明細書の表現は、これらの他の変形と共に、当該実施例に関して説明された特定の特徴、構成、特性などが本原理の少なくとも1つの実施例に含まれることを意味する。従って、明細書を通じて各所に出現する“一実施例では”又は“実施例では”という表現の出現は、他の何れかの変形と共に、すべてが同一の実施例を必ずしも参照しているとは限らない。
例えば、“A/B”、“A及び/又はB”及び“AとBの少なくとも1つ”のケースなど、“/”、“及び/又は”及び“少なくとも1つ”の何れかの利用は、列記された第1オプション(A)のみの選択、列記された第2オプション(B)のみの選択、又は双方のオプション(A及びB)の選択を含むことが意図される。さらなる具体例として、“A,B及び/又はC”と“A,B,Cの少なくとも1つ”のケースでは、このような表現は、列記された第1オプション(A)のみの選択、列記された第2オプション(B)のみの選択、列記された第3オプション(C)のみの選択、列記された第1及び第2オプション(A及びB)の選択、列記された第1及び第3オプション(A及びC)の選択、列記された第2及び第3オプション(B及びC)の選択、又は3つすべてのオプション(A及びB及びC)の選択を含むことが意図される。これは、列記された多数のアイテムと同様に、当該及び関連技術における当業者によって容易に明らかなように拡張されてもよい。
ここで用いられる“ハイレベルシンタックス”とは、階層的にマクロブロックレイヤより上位のビットストリームにあるシンタックスを意味する。例えば、ここで用いられるハイレベルシンタックスは、限定することなく、スライスヘッダレベルのシンタックス、SEI(Supplemental Enhancement Information)レベル、PPS(Picture Parameter Set)レベル、SPS(Sequence Parameter Set)レベル、及びNAL(Network Abstraction Layer)ユニットヘッダレベルを意味するものであってもよい。
また、ここで用いられる“ピクチャ”及び“イメージ”という単語は、互換的に用いられ、ビデオシーケンスからの静止したイメージ又はピクチャを意味する。知られているように、ピクチャはフレーム又はフィールドであってもよい。
さらに、ここで用いられるように、“ビットストリーム”という単語はエンコーダの出力を意味する。もちろん、エンコーダの出力は、そのすべてが本原理により想到される多くの形態によるものとすることができる。例えば、“ビットストリーム”は、限定することなく、ブロードキャスト、ポイント・ツー・ポイント又はマルチキャスト伝送アプローチなどを用いて信号として送信可能であり、又は限定することなく、光、磁気又は他の記憶媒体などの固定媒体に記録可能である。
さらに、ここで用いられる“信号”という単語は、対応するデコーダに何れかを通知することを意味する。例えば、エンコーダは、何れの変換(又は変換サブセット)がエンコーダ側で利用されたかデコーダに認識させるため、当該変換(又は変換サブセット)を通知してもよい。このように、同じ変換(又は変換サブセット)がエンコーダ側とデコーダ側との双方において利用されてもよい。従って、例えば、エンコーダは、デコーダが同じ変換(又は変換サブセット)を利用できるように、マッピング関数をデコーダに送信してもよく、又はデコーダがすでに当該変換(又は変換サブセット)を有している場合、デコーダが当該変換(変換サブセット)を認識及び選択することを単に可能にするため、通知が(送信なしに)が利用されてもよい。何れかの実際の変換の送信を回避することによって、ビットの節約が実現されてもよい。通知は各種方法により実現可能であることが理解されるべきである。例えば、1以上のシンタックス要素やフラグなどが対応するデコーダに情報を通知するのに利用されてもよい。上述された通知は変換に関して説明されているが、それは等しく逆変換に適用される。
図3を参照して、本原理が適用される一例となるビデオエンコーダが、参照番号300によって全体的に示される。
ビデオエンコーダ300は、合成手段385の非反転入力と信号通信接続される出力を有するフレームオーダリングバッファ310を有する。合成手段385の出力は、変換量子化手段325の第1入力と信号通信接続される。変換量子化手段325の出力は、エントロピー符号化手段345の第1入力と逆変換逆量子化手段350の第1入力と信号通信接続される。エントロピー符号化手段345の出力は、合成手段390の第1非反転入力と信号通信接続される。合成手段390の出力は、出力バッファ335の第1入力と信号通信接続される。
エンコーダコントローラ305の第1出力は、フレームオーダリングバッファ310の第2入力と、逆変換逆量子化手段350の第2入力と、ピクチャタイプ判定モジュール315の入力と、マクロブロックタイプ(MBタイプ)判定モジュール320の第1入力と、イントラ予測モジュール360の第2入力と、デブロッキングフィルタ365の第2入力と、動き補償手段370の第1入力と、動き推定手段375の第1入力と、リファレンスピクチャバッファ380の第2入力と信号通信接続される。
エンコーダコントローラ305の第2出力は、SEI(Supplemental Enhancement Information)挿入手段330の第1入力と、変換量子化手段325の第2入力と、エントロピー符号化手段345の第2入力と、出力バッファ335の第2入力と、SPS(Sequence Parameter Set)及びPPS(Picture Parameter Set)挿入手段340の入力と信号通信接続される。
SEI挿入手段330の出力は、合成手段390の第2非反転入力と信号通信接続される。
ピクチャタイプ判定モジュール315の第1出力は、フレームオーダリングバッファ310の第3入力と信号通信接続される。ピクチャタイプ判定モジュール315の第2出力は、マクロブロックタイプ判定モジュール320の第2入力と信号通信接続される。
SPS及びPPS挿入手段340の出力は、合成手段390の第3非反転入力と信号通信接続される。
逆変換逆量子化手段350の出力は、合成手段319の第1非反転入力と信号通信接続される。合成手段319の出力は、イントラ予測モジュール360の第1入力とデブロッキングフィルタ365の第1入力と信号通信接続される。デブロッキングフィルタ365の出力は、リファレンスピクチャバッファ380の第1入力と信号通信接続される。リファレンスピクチャバッファ380の出力は、動き推定手段375の第2入力と動き補償手段370の第3入力と信号通信接続される。動き推定手段375の第1出力は、動き補償手段370の第2入力と信号通信接続される。動き推定手段375の第2出力は、エントロピー符号化手段345の第3入力と信号通信接続される。
動き補償手段370の出力は、スイッチ397の第1入力と信号通信接続される。イントラ予測モジュール360の出力は、スイッチ397の第2入力と信号通信接続される。マクロブロックタイプ判定モジュール320の出力は、スイッチ397の第3入力と信号通信接続される。スイッチ397の第3入力は、スイッチの“データ”入力(制御入力、すなわち、第3入力と対比して)が、動き補償手段370又はイントラ予測モジュール360によって提供されるべきか判断する。スイッチ397の出力は、合成手段319の第2非反転入力と合成手段385の反転入力と信号通信接続される。
フレームオーダリングバッファ310の第1入力とエンコーダコントローラ105の入力とは、入力ピクチャを受信するため、エンコーダ300の入力として利用可能である。さらに、SEI挿入手段330の第2入力は、メタデータを受信するため、エンコーダ300の入力として利用可能である。出力バッファ335の出力は、ビットストリームを出力するため、エンコーダ300の出力として利用可能である。
図4を参照して、本原理が適用される一例となるビデオデコーダが、参照番号400によって全体的に示される。
ビデオデコーダ400は、エントロピー復号化手段445の第1入力と信号通信接続される出力を有する入力バッファ410を有する。エントロピー復号化手段445の第1出力は、逆変換逆量子化手段450の第1入力と信号通信接続される。逆変換逆量子化手段450の出力は、合成手段425の第2非反転入力と信号通信接続される。合成手段425の出力は、デブロッキングフィルタ465の第2入力とイントラ予測モジュール460の第1入力と信号通信接続される。デブロッキングフィルタ465の第2出力は、リファレンスピクチャバッファ480の第1入力と信号通信接続される。リファレンスピクチャバッファ480の出力は、動き補償手段470の第2入力と信号通信接続される。
エントロピー復号化手段445の第2出力は、動き補償手段470の第3入力と、デブロッキングフィルタ465の第1入力と、イントラ予測モジュール460の第3入力と信号通信接続される。エントロピー復号化手段445の第3出力は、デコーダコントローラ405の入力と信号通信接続される。デコーダコントローラ405の第1出力は、エントロピー復号化手段445の第2入力と信号通信接続される。デコーダコントローラ405の第2出力は、逆変換逆量子化手段450の第2入力と信号通信接続される。デコーダコントローラ405の第3出力は、デブロッキングフィルタ465の第3入力と信号通信接続される。デコーダコントローラ405の第4出力は、イントラ予測モジュール460の第2入力と、動き補償手段470の第1入力と、リファレンスピクチャバッファ480の第2入力と信号通信接続される。
動き補償手段470の出力は、スイッチ497の第1入力と信号通信接続される。イントラ予測モジュール460の出力は、スイッチ497の第2入力と信号通信接続される。スイッチ497の出力は、合成手段425の第1非反転入力と信号通信接続される。
入力バッファ410の入力は、入力ビットストリームを受信するため、デコーダ400の入力として利用可能である。デブロッキングフィルタ465の第1出力は、出力ピクチャを出力するため、デコーダ400の出力として利用可能である。
変換がビデオコンテンツと符号化パラメータとに選択的に適用可能である場合、潜在的な圧縮ゲインが利用可能であることを認識していた。従って、本原理によると、ビデオ符号化及び復号化により利用されるコンテンツ適応的変換選択のための方法及び装置が開示される。また、何れの変換が利用されるべきか最も良く選択する方法に関する方法が説明される。変換セットが、符号化処理中に導出される。変換は符号化中に導出されるため、それらは、入力ビデオシーケンスと符号化パラメータとに自動的に適応し、より高い圧縮パフォーマンスを提供可能である。
従来アプローチと対照的に、本原理の1以上の実施例によると、利用される変換は、符号化処理中に以前に符号化されたピクチャから導出された情報を利用して、符号化処理中にリアルタイムにトレーニングされる。ビデオ信号はしばしばシーン内の隣接ピクチャ間で類似しているため、以前のピクチャを用いてトレーニングされた変換は、しばしば現在ピクチャのものに大変近いものとなる。以前に符号化されたピクチャを利用することによって、トレーニング処理は、入力されるビデオシーケンスと符号化パラメータとの特性を自動的に考慮する。
図5を参照して、符号化中に更新され、対応するデコーダに送信される変換を用いてピクチャを符号化する一例となる方法が、参照番号500によって全体的に示される。方法500は、機能ブロック520に制御をわたすスタートブロック510を有する。機能ブロック520は、変換セットを初期化し、ループ制限ブロック530に制御をわたす。ループ制限ブロック530は、1から現在のビデオシーケンス(処理中の)におけるピクチャ数(#)までの範囲を有する変数jを用いて、ループ(以降、“ループ(1)”)を開始し、ループ制限ブロック540に制御をわたす。ループ制限ブロック540は、1から処理中の現在のピクチャのブロック数(#)までの範囲を有する変数iを用いて、ループ(以降、“ループ(2)”)を開始し、機能ブロック550に制御をわたす。機能ブロック550は、(現在)ブロックについて最良の変換を選択肢、機能ブロック560に制御をわたす。機能ブロック560は、ピクチャjのブロックiを符号化し、ループ制限ブロック570に制御をわたす。ループ制限ブロック570は、ループ(2)を終了し、機能ブロック580に制御をわたす。機能ブロック580は、符号化されたピクチャから変換を更新し、更新された変換を送信し、ループ制限ブロック590に制御をわたす。ループ制限ブロック590は、ループ(1)を終了し、エンドブロック599に制御をわたす。機能ブロック580に関して、変換は、例えば、フレームベース、GOP(Group Of Picture)ベース及び/又はシーンベースにより更新されてもよい。さらに、機能ブロック580に関して、変換は、例えば、以前に符号化されたピクチャから提供された情報又はその一部などに基づき更新されてもよい。
方法500に関して、変換セットは、変換が各ピクチャの符号化後に更新されるように、符号化中にトレーニングされる。この更新処理は、計算複雑性を低減するため、例えば、GOP又はシーンなどの少数のピクチャの後に適用することも可能である。変換を更新するため、1以上の符号化されたピクチャが利用可能である。利用される以前に符号化されたピクチャの量は、エンコーダとデコーダとの双方に知られているいくつかのルールに基づくものとすることが可能であり、又はデコーダにビットストリームなで伝送されるいくつかの他の基準に基づくものとしてもよい。リセット処理は、シーン変更において初期的なものに変換をリセットするため搭載することが可能である。デコーダが適切に機能するため、変換は、シンタックスにより具体的に示され、ビットストリームにより伝送される。
図6を参照して、エンコーダから受信した更新された変換を用いてピクチャを復号化する一例となる方法が、参照番号600により全体的に示される。方法600は、機能ブロック620に制御をわたすスタートブロック610を有する。機能ブロック620は、変換セットを初期化し、ループ制限ブロック630に制御をわたす。ループ制限ブロック630は、1から現在のビデオシーケンス(処理中の)におけるピクチャ数(#)までの範囲を有する変数jを用いて、ループ(以降、“ループ(1)”)を開始し、機能ブロック640に制御をわたす。機能ブロック640は、ビットストリームから変換を復号化し、ループ制限ブロック650に制御をわたす。ループ制限ブロック650は、1から処理中の現在のピクチャのブロック数(#)までの範囲を有する変数iを用いて、ループ(以降、“ループ(2)”)を開始し、機能ブロック660に制御をわたす。機能ブロック660は、(現在)ブロックについて変換を復号化し、機能ブロック670に制御をわたす。機能ブロック670は、ピクチャjのブロックiを復号化し、ループ制限ブロック680に制御をわたす。ループ制限ブロック680はループ(2)を終了し、ループ制限ブロック690に制御をわたす。ループ制限ブロック690はループ(1)を終了し、エンドブロック699に制御をわたす。
方法600に関して、デコーダは、各ピクチャについて変換セットを導出するため、ビットストリームを解析する。その後、各ブロックについて、デコーダは、エンコーダにより用いられる変換を取得し、その後に、対応する逆変換を利用することによってビデオ信号を再構成する。従って、方法600では、トレーニングされた変換が、各ピクチャについて受信される。
しかしながら、変換の送信は大きなオーバヘッドを生じさせる。従って、変換がデコーダに送信されず、その代わりにデコーダが使用すべき変換を決定するとデコーダにおいて更新される本原理の他の実施例が開示される。
図7を参照して、符号化中に更新された変換を用いてピクチャを符号化する一例となる方法が、参照番号700により全体的に示される。方法700は、機能ブロック720に制御をわたすスタートブロック710を有する。機能ブロック720は、変換セットを初期化し、ループ制限ブロック730に制御をわたす。ループ制限ブロック730は、1から現在のビデオシーケンス(処理中の)におけるピクチャ数(#)までの範囲を有する変数jを用いてループ(以降、“ループ(1)”)を開始し、ループ制限ブロック740に制御をわたす。ループ制限ブロック740は、1から処理中の現在ピクチャのブロック数(#)までの範囲を有する変数iを用いてループ(以降、“ループ(2)”)を開始し、機能ブロック750に制御をわたす。機能ブロック750は、(現在)ブロックについて最良の変換を選択し、機能ブロック760に制御をわたす。機能ブロック760は、ピクチャjのブロックiを符号化し、ループ制限ブロック770に制御をわたす。ループ制限ブロック770は、ループ(2)を終了し、機能ブロック780に制御をわたす。機能ブロック780は、符号化されたピクチャから変換を更新し、ループ制限ブロック790に制御をわたす。ループ制限ブロック790は、ループ(1)を終了し、エンドブロック799に制御をわたす。機能ブロック780に関して、変換は、例えば、フレーム単位、GOP単位及び/又はシーン単位で更新されてもよい。さらに、機能ブロック780に関して、変換は、例えば、以前に符号化されたピクチャから提供される情報又は以前に符号化されたピクチャから提供される情報の一部などに基づき更新されてもよい。
図8を参照して、復号化中に更新された変換を用いてピクチャを復号化する一例となる方法が、参照番号800により全体的に示される。方法800は、機能ブロック820に制御をわたすスタートブロック810を有する。機能ブロック820は、変換セットを初期化し、ループ制限ブロック830に制御をわたす。ループ制限ブロック830は、1から現在のビデオシーケンス(処理中の)におけるピクチャ数(#)までの範囲を有する変数jを用いてループ(以降、“ループ(1)”)を開始し、ループ制限ブロック840に制御をわたす。ループ制限ブロック840は、1から現在ピクチャ(処理中の)のブロック数(#)までの範囲を有する変数iを用いてループ(以降、“ループ(2)”)を開始し、ループ制限ブロック850に制御をわたす。機能ブロック850は、ブロックの変換を復号化し、機能ブロック860に制御をわたす。機能ブロック860は、ピクチャjのブロックiを復号化し、ループ制限ブロック870に制御をわたす。ループ制限ブロック870は、ループ(2)を終了し、機能ブロック880に制御をわたす。機能ブロック880は、変換を更新し、ループ制限ブロック890に制御をわたす。機能ブロック880に関して、変換は、例えば、フレーム単位、GOP単位及び/又はシーン単位などにより更新されてもよい。また、機能ブロック880に関して、変換は、例えば、以前に復号化されたピクチャから提供される情報又は以前に復号化されたピクチャから提供される情報の一部などに基づき更新されてもよい。
多数の変換(及び逆変換)がエンコーダ及びデコーダにおいて既知である本原理の他の実施例がまた開示される。各ピクチャについて、変換サブセットが選択され、それらのインデックスがデコーダに送信される。
図9を参照して、符号化中に更新された変換と対応するデコーダに送信される変換インデックスとを用いてピクチャを符号化する一例となる方法が、参照番号900により全体的に示される。方法900は、機能ブロック920に制御をわたすスタートブロック910を有する。機能ブロック920は、大きな変換セットを初期化し、ループ制限ブロック930に制御をわたす。ループ制限ブロック930は、1から現在のビデオシーケンス(処理中の)におけるピクチャ数(#)までの範囲を有する変数jを用いてループを開始し、機能ブロック940に制御をわたす。機能ブロック940は、ピクチャjを符号化し、機能ブロック950に制御をわたす。機能ブロック950は、変換をトレーニングし、機能ブロック960に制御をわたす。機能ブロック960は、(大きな変換セットから)変換サブセットを選択肢、機能ブロック970に制御をわたす。機能ブロック970は、変換のインデックスを送信し、ループ制限ブロック980に制御をわたす。ループ制限ブロック980は、ループを終了し、エンドブロック999に制御をわたす。機能ブロック970に関して、変換インデックスは、例えば、1以上のハイレベルシンタックス要素などを用いて送信されてもよい。
方法900に関して、エンコーダは、トレーニングされた変換を用いて変換セットがコンテンツにより良好にマッチすることを可能にすることによって、大きな変換セットを更新する。トレーニングされた変換に近い変換は、対応するデコーダが大きな負荷を要することなくこのような情報を取得することを可能にするため、インデックスを介し通知される。これは、選択するためのピクチャのサブ最適な変換のコストをもたらす。
図10を参照して、対応するエンコーダから受信した変換インデックスを用いてピクチャを復号化する一例となる方法が、参照番号1000により全体的に示される。方法1000は、機能ブロック820に制御をわたすスタートブロック1010を有する。機能ブロック1020は、大きな変換セットを初期化し、ループ制限ブロック1030に制御をわたす。ループ制限ブロック1030は、1から現在のビデオシーケンス(処理中の)におけるピクチャ数(#)までの範囲を有する変数jを用いてループ(以降、“ループ(1)”)を開始し、機能ブロック1040に制御をわたす。機能ブロック1040は、変換インデックスを復号化し、ビットストリームから当該変換を取得し、ループ制限ブロック1050に制御をわたす。ループ制限ブロック1050は、1から処理中の現在ピクチャのブロック数(#)までの範囲を有する変数iを用いてループ(以降、“ループ(2)”)を開始し、機能ブロック1060に制御をわたす。機能ブロック1060は、ブロックの変換を復号化し、機能ブロック1070に制御をわたす。機能ブロック1070は、ピクチャjのブロックiを復号化し、ループ制限ブロック1080に制御をわたす。ループ制限ブロック1080は、ループ(2)を終了し、ループ制限ブロック1090に制御をわたす。ループ制限ブロック1090は、ループ(1)を終了し、エンドブロック1099に制御をわたす。機能ブロック1040に関して、変換インデックスは、例えば、ビットストリームの(及び/又はサイド情報からの)1以上のシンタックス要素などから復号化されてもよい。
図11を参照して、特異値分解を用いてエンコーダにおいて変換を導出する一例となる方法が、参照番号1100により全体的に示される。方法1100は、機能ブロック1120に制御をわたすスタートブロック1110を有する。機能ブロック1120は、以前に符号化されたピクチャからトレーニングデータを収集し、機能ブロック1130に制御をわたす。機能ブロック1120により収集されたデータに関して、当該データは、現在のピクチャについて同一の変換が利用可能となるように、非ゼロの残差又は残差の一部を有してもよい。機能ブロック1130は、トレーニングデータに特異値分解(SVD)を適用し、機能ブロック1140に制御をわたす。機能ブロック1140は、変換基底を計算し、エンドブロック1199に制御をわたす。
図12を参照して、特異値分解を用いてデコーダにおいて変換を導出する一例となる方法が、参照番号1200により全体的に示される。方法1200は、機能ブロック1220に制御をわたすスタートブロック1210を有する。機能ブロック1220は、以前に復号化されたピクチャからトレーニングデータを収集し、機能ブロック1230に制御をわたす。機能ブロック1230は、トレーニングデータに特異値分解(SVD)を適用し、機能ブロック1240に制御をわたす。機能ブロック1240は、変換基底を計算し、エンドブロック1299に制御をわたす。
[シンタックス]
変換セットは、例えば、1以上のハイレベルシンタックス要素などにより指定可能である。図5の方法500に関する実施例についてシンタックスを規定する方法の具体例が提供される。テーブル1は、本原理の実施例(方法500に関する)によるピクチャパラメータセット(PPS)の一例となるシンタックスを示す。同様のシンタックスの変更は、各種レベルにおいて他のシンタックス要素に適用可能である。本例では、4×4、8×8及び16×16の3つの変換サイズが検討される。各ブロックサイズについて、ピクチャパラメータセットを介し変換セットが示される。N4,N8及びN16はそれぞれ、4×4、8×8及び16×16の変換のセットの変換の個数を示す。
Figure 0005927117
テーブル1のシンタックス要素のいくつかの意味は、以下の通りである。
transform_selection_present_flagが1に等しいことは、変換の選択がピクチャパラメータセットにあることを示す。transform_selection_present_flagが0に等しいことは、変換の選択がピクチャパラメータセットにないことを示す。
transform_basis_4×4[i][j]は、i番目の4×4変換のj番目の変換基底要素の値を示す。
transform_basis_8×8[i][j]は、i番目の8×8変換のj番目の変換基底要素の値を示す。
transform_basis_16×16[i][j]は、i番目の16×16変換のj番目の変換基底要素の値を示す。
また、図9の方法900に関する実施例についてシンタックスを規定する方法の具体例が提供される。テーブル2は、本原理の他の実施例(方法900に関する)によるピクチャパラメータセット(PPS)の一例となるシンタックスを示す。各ブロックサイズについて、ピクチャパラメータセットを介し変換のインデックスが示される。指定されたインデックスに対応する変換は、エンコーダとデコーダの双方において知られている。
Figure 0005927117
テーブル2のシンタックス要素のいくつかの意味は、以下の通りである。
transform_selection_present_flagが1に等しいことは、変換の選択がピクチャパラメータセットにあることを示す。transform_selection_present_flagが0に等しいことは、変換の選択がピクチャパラメータセットにないことを示す。
transform_basis_4×4_index[i]は、4×4変換のi番目の変換基底のインデックスを示す。
transform_basis_8×8_index[i]は、8×8変換のi番目の変換基底のインデックスを示す。
transform_basis_16×16_index[i]は、16×16変換のi番目の変換基底のインデックスを示す。
[ピクチャに対して変換セットを決定する方法]
符号化対象のデータが利用可能であるとき、又は適切なトレーニングデータセットが存在するとき、最適な変換セットを導出するための技術が存在する。これらの技術は、通常のKLT、疎目的関数又はその他に基づくものとすることが可能である。本原理の実施例によると、特異値分解(SVD)を用いて変換セットを導出する方法が提案される。もちろん、本原理はSVDのみに限定されず、変換セットを導出する他の方法がまた、本原理の趣旨及び範囲を維持しながら本原理により利用されてもよい。以下の具体例では、ピクチャについてエンコーダが2つの変換から選択し、これら2つの変換の1つがDCTであるシナリオが検討される。トレーニングデータを収集し、ピクチャについてTsvdとして示されるピクチャnの他方の変換を生成する必要がある。
ピクチャについてTsvdをトレーニングするため、以前に符号化されたピクチャからのトレーニングデータセットが、変換としてTsvdを選択する現在のピクチャの残差に類似することが重要である。トレーニングの残差の一部のみを利用することが提案される。一実施例では、残差全体の当該部分は、非ゼロであり、前のピクチャにおいてDCTを選択していない残差とすることが可能である。その後、SVDが選択された残差ブロックに適用され、変換Tsvd,0が生成される。図5の方法500について、Tsvd,0は、Tsvdとして利用され、ビットストリームにより送信される。図9の方法900について、Tsvd,0が大きな変換セットの各変換と比較され、最も近い変換が現在ピクチャのTsvdとして利用される。Tsvdのインデックスがビットストリームにおいて送信される。
一部が上述された本発明の多数の付随する効果/特徴の一部が説明される。例えば、1つの効果/特徴は、変換を用いてピクチャにおける少なくとも1つのブロックを符号化するビデオエンコーダを有する装置である。ブロックを符号化するのに用いられる変換は、複数の変換から選択される。複数の変換は、ピクチャの符号化中に適応的に更新される。
他の効果/特徴は、複数の変換が以前に符号化されたピクチャから提供される情報に応じて適応的に更新される、上述されたビデオエンコーダを有する装置である。
さらなる他の効果/特徴は、複数の変換が以前に符号化されたピクチャから提供される情報に応じて適応的に更新され、以前に符号化されたピクチャから提供される情報の一部のみが複数の変換を適応的に更新するのに利用される、上述されたビデオエンコーダを有する装置である。
さらなる他の効果/特徴は、複数の変換が以前に符号化されたピクチャから提供される情報に応じて適応的に更新され、特異値分解トレーニングが複数の変換を適応的に更新するのに利用される、上述されたビデオエンコーダを有する装置である。
さらに、他の効果/特徴は、複数の変換が以前に符号化されたピクチャから提供される情報に応じて適応的に更新され、複数の変換がフレーム単位、GOP単位及びシーン単位の少なくとも1つに基づく適応的に更新される、上述されたビデオエンコーダを有する装置である。
さらに、他の効果/特徴は、選択された変換が対応するデコーダにないとき、選択された変換が対応するデコーダに送信され、選択された変換が対応するデコーダにすでにあるとき、選択された変換が対応するデコーダに特定され、選択された変換が対応するデコーダにないとき、選択された変換が対応するデコーダにおいて再生成される、上述されたビデオエンコーダを有する装置である。
また、他の効果/特徴は、ピクチャが複数のピクチャを有するビデオシーケンスに含まれ、複数の変換と対応する複数の逆変換とがビデオエンコーダと対応するデコーダとの双方において知られ、複数の変換と複数の逆変換との少なくとも一方のサブセットが、複数のピクチャのそれぞれについて選択される、上述されたビデオエンコーダを有する装置である。
さらに、他の効果/特徴は、ピクチャが複数のピクチャを有するビデオシーケンスに含まれ、複数の変換と対応する複数の逆変換とがビデオエンコーダと対応するデコーダとの双方において知られ、複数の変換と複数の逆変換との少なくとも一方のサブセットが、複数のピクチャのそれぞれについて選択され、サブセットのインデックスが1以上のハイレベルシンタックス要素を用いて対応するビットストリームにおいて送信される、上述されたビデオエンコーダを有する装置である。
さらに、他の効果/特徴は、ピクチャが複数のピクチャを有するビデオシーケンスに含まれ、複数の変換と対応する複数の逆変換とがビデオエンコーダと対応するデコーダとの双方において知られ、複数の変換と複数の逆変換との少なくとも一方のサブセットが、複数のピクチャのそれぞれについて選択され、複数の変換が複数のトレーニングされた変換を取得するのに適応的に更新され、サブセットの選択が複数の変換と複数のトレーニングされた変換とに基づく、上述されたビデオエンコーダを有する装置である。
さらに、他の効果/特徴は、ピクチャが複数のピクチャを有するビデオシーケンスに含まれ、複数の変換と対応する複数の逆変換とがビデオエンコーダと対応するデコーダとの双方において知られ、複数の変換と複数の逆変換との少なくとも一方のサブセットが、複数のピクチャのそれぞれについて選択され、複数の変換が以前に符号化されたピクチャから提供される情報に応じて適応的に更新される、上述されたビデオエンコーダを有する装置である。
本原理の上記及び他の特徴及び効果は、ここでの教示に基づき当業者によって容易に確信されてもよい。本原理の教示はハードウェア、ソフトウェア、ファームウェア、特定用途プロセッサ又はこれらの組み合わせの各種形態により実現されてもよいことが理解されるべきである。
より好適には、本原理の教示は、ハードウェアとソフトウェアとの組み合わせとして実現される。さらに、ソフトウェアは、プログラム記憶ユニット上に有形に実現されるアプリケーションプログラムとして実現されてもよい。アプリケーションプログラムは、何れか適切なアーキテクチャを有するマシーンにアップロード及び実行されてもよい。好ましくは、マシーンは、1以上の中央処理ユニット(CPU)、RAM(Random Access Memory)及びI/O(Input/Output)インタフェースなどのハードウェアを有するコンピュータプラットフォーム上で実現される。コンピュータプラットフォームはまた、オペレーティングシステムとマイクロ命令コードとを有してもよい。ここに開示される各種処理及び機能は、CPUにより実行可能なマイクロ命令コードの一部、アプリケーションプログラムの一部又はこれらの何れかの組み合わせであってもよい。さらに、さらなるデータ記憶ユニットと印刷ユニットなどの各種の他の周辺ユニットが、コンピュータプラットフォームに接続されてもよい。
さらに、添付した図面に示される構成要素となるシステムコンポーネントと方法との一部は、好ましくはソフトウェアにより実現されるため、システムコンポーネント又は処理機能ブロックとの間の実際の接続は、本原理がプログラムされる方法に応じて異なってもよいことが理解されるべきである。ここでの教示が与えられると、当業者は、本原理の上記及び同様の実現形態又は構成を想到しうるであろう。
例示された実施例は添付した図面を参照して説明されたが、本原理はこれらの正確な実施例に限定されず、本原理の範囲又は趣旨から逸脱することなく各種変更及び改良が当業者に実現可能であることが理解されるべきである。このようなすべての変更及び改良は、添付した請求項に提供される本原理の範囲内に含まれることが意図される。
以上の実施例に関し、更に、以下の項目を開示する。
(付記1)変換を用いてピクチャにおける少なくとも1つのブロックを符号化するビデオエンコーダを有する装置であって、
前記ブロックを符号化するのに用いられる変換は、複数の変換から選択され、
前記複数の変換は、前記ピクチャの符号化中に適応的に更新される装置。
(付記2)ビデオエンコーダにおける方法であって、
変換を用いてピクチャにおける少なくとも1つのブロックを符号化するステップを有し、
前記ブロックを符号化するのに用いられる変換は、複数の変換から選択され、
前記複数の変換は、前記ピクチャの符号化中に適応的に更新される方法。
(付記3)前記複数の変換は、以前に符号化されたピクチャから提供される情報に応じて適応的に更新される、付記2記載の方法。
(付記4)前記以前に符号化されたピクチャから提供される情報の一部のみが、前記複数の変換を適応的に更新するのに利用される、付記3記載の方法。
(付記5)特異値分解トレーニングが、前記複数の変換を適応的に更新するのに利用される、付記3記載の方法。
(付記6)前記複数の変換は、フレーム単位、GOP(Group Of Picture)単位及びシーン単位の少なくとも1つに基づき適応的に更新される、付記3記載の方法。
(付記7)前記選択された変換が対応するデコーダにないとき、前記選択された変換は前記対応するデコーダに送信されるか、前記選択された変換が前記対応するデコーダにすでにあるとき、前記選択された変換は前記対応するデコーダに特定されるか、又は前記選択された変換が前記対応するデコーダにないとき、前記選択された変換は前記対応するデコーダにおいて再生成される、付記2記載の方法。
(付記8)前記ピクチャは、複数のピクチャを有するビデオシーケンスにおいて構成され、
前記複数の変換と対応する複数の逆変換とは、前記ビデオエンコーダと対応するデコーダとの双方において知られ、
前記複数の変換と前記複数の逆変換との少なくとも一方のサブセットは、前記複数のピクチャのそれぞれについて選択される、付記2記載の方法。
(付記9)前記サブセットのインデックスは、1以上のハイレベルシンタックス要素を用いて対応するビットストリームにより送信される、付記8記載の方法。
(付記10)前記複数の変換は、複数のトレーニングされた変換を取得するため適応的に更新され、
前記サブセットの選択は、前記複数の変換と前記複数のトレーニングされた変換とに基づく、付記8記載の方法。
(付記11)前記複数の変換は、以前に符号化されたピクチャから提供される情報に応じて適応的に更新される、付記8記載の方法。
(付記12)逆変換を用いてピクチャにおける少なくとも1つのブロックを復号化するビデオデコーダを有する装置であって、
前記ブロックを復号化するのに用いられる逆変換は、複数の逆変換から選択され、
前記複数の逆変換は、前記ピクチャの復号化中に適応的に更新される装置。
(付記13)ビデオデコーダにおける方法であって、
逆変換を用いてピクチャにおける少なくとも1つのブロックを復号化するステップを有し、
前記ブロックを復号化するのに用いられる逆変換は、複数の逆変換から選択され、
前記複数の逆変換は、前記ピクチャの復号化中に適応的に更新される方法。
(付記14)前記複数の逆変換は、以前に復号化されたピクチャから提供される情報に応じて適応的に更新される、付記13記載の方法。
(付記15)前記以前に復号化されたピクチャから提供される情報の一部のみが、前記複数の逆変換を適応的に更新するのに利用される、付記14記載の方法。
(付記16)特異値分解トレーニングが、前記複数の逆変換を適応的に更新するのに利用される、付記14記載の方法。
(付記17)前記複数の逆変換は、フレーム単位、GOP(Group Of Picture)単位及びシーン単位の少なくとも1つに基づき適応的に更新される、付記14記載の方法。
(付記18)前記選択された逆変換が前記ビデオデコーダにないとき、前記選択された逆変換は前記ビデオデコーダによって受信され、前記選択された変換が前記ビデオデコーダにすでにあるとき、前記選択された逆変換は前記ビデオデコーダに特定される、付記13記載の方法。
(付記19)前記ピクチャは、複数のピクチャを有するビデオシーケンスにおいて構成され、
前記複数の変換と対応する複数の逆変換とは、前記ビデオデコーダと対応するエンコーダとの双方において知られ、
前記複数の変換と前記複数の逆変換との少なくとも一方のサブセットが、前記複数のピクチャのそれぞれについて選択される、付記13記載の方法。
(付記20)前記サブセットのインデックスは、1以上のハイレベルシンタックス要素を用いて対応するビットストリームにより受信される、付記19記載の方法。
(付記21)前記複数の変換は、複数のトレーニングされた変換を取得するため適応的に更新され、
前記サブセットの選択は、前記複数の変換と前記複数のトレーニングされた変換とに基づく、付記19記載の方法。
(付記22)前記複数の変換は、以前に復号化されたピクチャから提供される情報に応じて適応的に更新される、付記19記載の方法。
(付記23)符号化されたビデオ信号データを有する記憶媒体であって、
変換を用いて符号化されたピクチャにおける少なくとも1つのブロックを有し、
前記ブロックを符号化するのに用いられる変換は、複数の変換から選択され、
前記複数の変換は、前記ピクチャの符号化中に適応的に更新される記憶媒体。

Claims (18)

  1. 複数の変換から選択された変換を用いてピクチャにおける少なくとも1つのブロックを符号化するように構成されたビデオエンコーダを有する装置であって、
    前記複数の変換は、1つ以上のピクチャが符号化された後に、前記符号化された1つ以上のピクチャからの残差情報に基づいて適応的に更新される装置。
  2. ビデオエンコーダにおける方法であって、
    複数の変換から選択された変換を用いてピクチャにおける少なくとも1つのブロックを符号化するステップを有し、
    前記複数の変換は、1つ以上のピクチャが符号化された後に、前記符号化された1つ以上のピクチャからの残差情報に基づいて適応的に更新される方法。
  3. 前記選択された変換が対応するデコーダにないとき、前記選択された変換は前記対応するデコーダに送信される、請求項2記載の方法。
  4. 逆変換を用いてピクチャにおける少なくとも1つのブロックを復号化するビデオデコーダを有する装置であって、
    前記ブロックを復号化するのに用いられる逆変換は、複数の逆変換から選択され、
    前記複数の逆変換は、1つ以上のピクチャが復号化された後に、前記復号化された1つ以上のピクチャからの残差情報に基づいて適応的に更新される装置。
  5. ビデオデコーダにおける方法であって、
    逆変換を用いてピクチャにおける少なくとも1つのブロックを復号化するステップを有し、
    前記ブロックを復号化するのに用いられる逆変換は、複数の逆変換から選択され、
    前記複数の逆変換は、1つ以上のピクチャが復号化された後に、前記復号化された1つ以上のピクチャからの残差情報に基づいて適応的に更新される方法。
  6. 以前に復号化されたピクチャから提供される残差情報の非ゼロの部分のみが、前記複数の逆変換を適応的に更新するのに利用される、請求項5記載の方法。
  7. 特異値分解トレーニングが、前記複数の逆変換を適応的に更新するのに利用される、請求項5記載の方法。
  8. 前記選択された逆変換が前記ビデオデコーダにないとき、前記選択された逆変換は前記ビデオデコーダによって受信される、請求項5記載の方法。
  9. 前記ピクチャは、複数のピクチャを有するビデオシーケンスに含まれ、
    前記複数の変換と対応する複数の逆変換とは、前記ビデオエンコーダとビデオデコーダとの双方において知られ、
    前記複数の変換と複数の逆変換との少なくとも一方のサブセットが、前記複数のピクチャのそれぞれについて選択される、請求項2記載の方法。
  10. 前記サブセットのインデックスは、1以上のハイレベルシンタックス要素を用いて対応するビットストリームにより送信される、請求項9記載の方法。
  11. 前記複数の変換は、複数のトレーニングされた変換を取得するため適応的に更新され、
    前記サブセットの選択は、前記複数の変換と前記複数のトレーニングされた変換とに基づく、請求項9記載の方法。
  12. 符号化されたビデオ信号データを有する記憶媒体であって、
    複数の変換から選択された変換を用いて符号化されたピクチャにおける少なくとも1つのブロックを有し、
    前記複数の変換は、1つ以上のピクチャが符号化された後に、前記符号化された1つ以上のピクチャからの残差情報に基づいて適応的に更新される記憶媒体。
  13. 以前に符号化されたピクチャから提供される残差情報の非ゼロの部分のみが、前記複数の変換を適応的に更新するのに利用される、請求項2記載の方法。
  14. 特異値分解トレーニングが、前記複数の変換を適応的に更新するのに利用される、請求項記載の方法。
  15. 前記複数の変換は、フレームベース、グループオブピクチャベース及びシーンベースのグループから選択された少なくとも1つに基づいて適応的に更新される、請求項2記載の方法。
  16. 前記複数の逆変換は、フレームベース、グループオブピクチャベース及びシーンベースのグループから選択された少なくとも1つに基づいて適応的に更新される、請求項5記載の方法。
  17. 前記複数の変換は、シーンベースで更新され、リセット処理がシーンの変更において前記複数の変換をリセットするために利用される、請求項2記載の方法。
  18. 前記複数の逆変換は、シーンベースで更新され、リセット処理がシーンの変更において前記複数の逆変換をリセットするために利用される、請求項5記載の方法。
JP2012521624A 2009-07-23 2010-07-22 ビデオ符号化及び復号化のための適応的変換選択のための方法及び装置 Active JP5927117B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22793809P 2009-07-23 2009-07-23
US61/227,938 2009-07-23
PCT/US2010/002065 WO2011011074A1 (en) 2009-07-23 2010-07-22 Methods and apparatus for adaptive transform selection for video encoding and decoding

Publications (3)

Publication Number Publication Date
JP2012533963A JP2012533963A (ja) 2012-12-27
JP2012533963A5 JP2012533963A5 (ja) 2013-09-05
JP5927117B2 true JP5927117B2 (ja) 2016-05-25

Family

ID=42635252

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012521624A Active JP5927117B2 (ja) 2009-07-23 2010-07-22 ビデオ符号化及び復号化のための適応的変換選択のための方法及び装置

Country Status (6)

Country Link
US (1) US9357221B2 (ja)
EP (1) EP2457377A1 (ja)
JP (1) JP5927117B2 (ja)
KR (1) KR101837206B1 (ja)
CN (1) CN102474607B (ja)
WO (1) WO2011011074A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110090954A1 (en) * 2009-10-21 2011-04-21 Cohen Robert A Video Codes with Directional Transforms
KR101441879B1 (ko) * 2009-12-09 2014-09-23 에스케이텔레콤 주식회사 영상 부호화 장치 및 방법, 및 거기에 이용되는 변환 부호화 장치 및 방법, 변환기저 생성장치 및 방법, 및 영상 복호화 장치 및 방법
US8630341B2 (en) * 2011-01-14 2014-01-14 Mitsubishi Electric Research Laboratories, Inc. Method for training and utilizing separable transforms for video coding
US8929455B2 (en) * 2011-07-01 2015-01-06 Mitsubishi Electric Research Laboratories, Inc. Method for selecting transform types from mapping table for prediction modes
FR2996093A1 (fr) * 2012-09-27 2014-03-28 France Telecom Procede de codage et decodage d'images, dispositifs de codage et decodage et programmes d'ordinateur correspondants
CN103002284B (zh) * 2012-11-20 2016-06-08 北京大学 一种基于场景模型自适应更新的视频编解码方法
JP2015002512A (ja) * 2013-06-18 2015-01-05 三菱電機株式会社 画像符号化装置及び画像符号化方法
CN103974076B (zh) * 2014-05-19 2018-01-12 华为技术有限公司 图像编解码方法和设备、系统
CN113873243B (zh) * 2016-08-31 2024-02-20 株式会社Kt 用于对视频进行解码的方法和用于对视频进行编码的方法
US10554974B2 (en) * 2017-01-13 2020-02-04 Mediatek Inc. Method and apparatus enabling adaptive multiple transform for chroma transport blocks using control flags
EP3451663A1 (en) * 2017-08-31 2019-03-06 Thomson Licensing Pools of transforms for local selection of a set of transforms in video coding
WO2019191888A1 (zh) * 2018-04-02 2019-10-10 北京大学 环路滤波的方法、装置和计算机系统
CN114745556B (zh) * 2022-02-07 2024-04-02 浙江智慧视频安防创新中心有限公司 编码方法、装置、数字视网膜系统、电子设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6011864A (en) * 1996-07-03 2000-01-04 Apple Computer, Inc. Digital image coding system having self-adjusting selection criteria for selecting a transform function
CN1217852A (zh) * 1997-02-13 1999-05-26 三菱电机株式会社 动态图象预测方式
JP3887178B2 (ja) 2001-04-09 2007-02-28 株式会社エヌ・ティ・ティ・ドコモ 信号符号化方法及び装置並びに復号方法及び装置
JP4447197B2 (ja) 2002-01-07 2010-04-07 三菱電機株式会社 動画像符号化装置および動画像復号装置
AU2003226585A1 (en) * 2002-04-23 2003-11-10 Nokia Corporation Method and device for indicating quantizer parameters in a video coding system
US7894530B2 (en) 2004-05-07 2011-02-22 Broadcom Corporation Method and system for dynamic selection of transform size in a video decoder based on signal content
US7664173B2 (en) * 2004-06-07 2010-02-16 Nahava Inc. Method and apparatus for cached adaptive transforms for compressing data streams, computing similarity, and recognizing patterns
GB0522036D0 (en) * 2005-10-28 2005-12-07 Univ Hong Kong Science & Techn Effective rate control for video encoding and transcoding
EP2047687B1 (en) * 2006-08-02 2018-05-16 Thomson Licensing DTV Adaptive geometric partitioning for video encoding
CN105430399A (zh) * 2006-11-08 2016-03-23 汤姆逊许可证公司 用于环内去伪影滤波的方法和设备
US8488668B2 (en) 2007-06-15 2013-07-16 Qualcomm Incorporated Adaptive coefficient scanning for video coding
US8437564B2 (en) * 2007-08-07 2013-05-07 Ntt Docomo, Inc. Image and video compression using sparse orthonormal transforms
JP5341095B2 (ja) * 2007-10-05 2013-11-13 ドルビー ラボラトリーズ ライセンシング コーポレイション メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント
EP2131594B1 (en) * 2008-06-06 2013-08-14 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Method and device for image compression
KR20220041931A (ko) 2009-01-27 2022-04-01 인터디지털 매디슨 페턴트 홀딩스 에스에이에스 비디오 인코딩 및 디코딩에서 변환 선택을 위한 방법 및 장치

Also Published As

Publication number Publication date
US20120121009A1 (en) 2012-05-17
EP2457377A1 (en) 2012-05-30
CN102474607A (zh) 2012-05-23
JP2012533963A (ja) 2012-12-27
WO2011011074A1 (en) 2011-01-27
CN102474607B (zh) 2016-05-11
KR20120039728A (ko) 2012-04-25
KR101837206B1 (ko) 2018-03-09
US9357221B2 (en) 2016-05-31

Similar Documents

Publication Publication Date Title
JP5927117B2 (ja) ビデオ符号化及び復号化のための適応的変換選択のための方法及び装置
US20230051065A1 (en) Methods and apparatus for transform selection in video encoding and decoding
JP5882984B2 (ja) ビデオ符号化およびビデオ復号化のための暗示的適応型動きベクトル予測子選択の方法および装置
US20180091817A1 (en) Methods and apparatus for transform selection in video encoding and decoding
JP5224458B2 (ja) マルチビュービデオ符号化のための低解像度アップデートモードを提供する方法及び装置
JP5869493B2 (ja) ビデオ符号化および復号化のためのテンプレート・マッチング予測の適応型残差更新のための方法および装置
JP2015164335A (ja) スパース性ベースのアーティファクト除去フィルタリングにおける可変変換に応じてフィルタ・パラメータの決定および選択を行う方法および装置
JP2013522957A (ja) 変換選択を有するビデオ符号化および復号のための制約付きの変換を行う方法および装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130719

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150331

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160425

R150 Certificate of patent or registration of utility model

Ref document number: 5927117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250