JP2022028089A - 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法 - Google Patents

画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法 Download PDF

Info

Publication number
JP2022028089A
JP2022028089A JP2018235107A JP2018235107A JP2022028089A JP 2022028089 A JP2022028089 A JP 2022028089A JP 2018235107 A JP2018235107 A JP 2018235107A JP 2018235107 A JP2018235107 A JP 2018235107A JP 2022028089 A JP2022028089 A JP 2022028089A
Authority
JP
Japan
Prior art keywords
prediction
image
subblock
identification information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018235107A
Other languages
English (en)
Inventor
健治 近藤
Kenji Kondo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2018235107A priority Critical patent/JP2022028089A/ja
Priority to PCT/JP2019/047342 priority patent/WO2020129636A1/ja
Priority to US17/311,800 priority patent/US20220021899A1/en
Publication of JP2022028089A publication Critical patent/JP2022028089A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】サブブロックを使用するインター予測処理の処理量を削減しつつ、画質の低下を抑制する。【解決手段】アフィン変換における動き補償で用いられる動きベクトルに基づいて、画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別するサブブロックサイズ識別情報が設定され、その設定に応じた大きさまたは形状のサブブロックに対してアフィン変換を適用するインター予測処理を行って画像を符号化し、サブブロックサイズ識別情報を含むビットストリームが生成される。本技術は、例えば、画像を符号化する符号化装置や画像を復号する復号装置に適用できる。【選択図】図1

Description

本開示は、画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法に関し、特に、サブブロックを使用するインター予測処理の処理量を削減しつつ、画質の低下を抑制することができるようにした画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法に関する。
ITU-T(International Telecommunication Union Telecommunication Standardization Sector)では、次世代ビデオ符号化の開発を進めているJVET(Joint Video Exploration Team)において、非特許文献1に開示されているように、多彩なビデオコーディングを提案している。
例えば、JVETでは、サブブロックの頂点の動きベクトルに基づいて参照画像をアフィン変換することにより動き補償を行うインター予測処理(Affine motion compensation (MC) prediction)が提案されている。かかるインター予測処理によれば、画面間の並進移動(平行移動)だけでなく、回転や、スケーリング(拡大/縮小)、スキューと呼ばれる、より複雑な動きなどを予測することができ、予測の品質が改善されるのに伴って符号化効率が改善することが期待される。
Benjamin Bross, Jianle Chen, Shan Liu, "Versatile Video Coding (Draft 2)", Document: JVET-K1001-v7, Joint Video Experts Team (JVET)of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 1111th Meeting: Ljubljana, SI, 10-18 July 2018
ところで、上述したようなサブブロックを使用するインター予測処理では、サブブロックのサイズが小さくなるのに伴って、より多くのサブブロックに対して処理を行うことになる結果、符号化または復号を実行する際の処理量が増大することになる。これに対し、インター予測処理の処理量の削減を図った場合には、画質が低下することが懸念される。
本開示は、このような状況に鑑みてなされたものであり、サブブロックを使用するインター予測処理の処理量を削減しつつ、画質の低下を抑制することができるようにするものである。
本開示の第1の側面の画像符号化装置は、アフィン変換における動き補償で用いられる動きベクトルに基づいて、画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する識別情報を設定する設定部と、前記設定部による設定に応じた大きさまたは形状の前記サブブロックに対して前記アフィン変換を適用する前記インター予測処理を行って前記画像を符号化し、前記識別情報を含むビットストリームを生成する符号化部とを備える。
本開示の第1の側面の画像符号化方法は、画像を符号化する画像符号化装置が、アフィン変換における動き補償で用いられる動きベクトルに基づいて、前記画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する識別情報を設定することと、その設定に応じた大きさまたは形状の前記サブブロックに対して前記アフィン変換を適用する前記インター予測処理を行って前記画像を符号化し、前記識別情報を含むビットストリームを生成することとを含む。
本開示の第1の側面においては、アフィン変換における動き補償で用いられる動きベクトルに基づいて、画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する識別情報が設定され、その設定に応じた大きさまたは形状のサブブロックに対してアフィン変換を適用するインター予測処理が行われて画像が符号化されて、識別情報を含むビットストリームが生成される。
本開示の第2の側面の画像符号化装置は、アフィン変換における動き補償で用いられる動きベクトルに基づいて設定される識別情報であって、画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する識別情報を含むビットストリームから、前記識別情報をパースするパース部と、前記パース部によりパースされた前記識別情報に従った大きさまたは形状の前記サブブロックに対してアフィン変換を適用する前記インター予測処理を行って、前記ビットストリームを復号して前記画像を生成する復号部とを備える。
本開示の第2の側面の画像復号方法は、画像を復号する画像復号装置が、アフィン変換における動き補償で用いられる動きベクトルに基づいて設定される識別情報であって、前記画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する前記識別情報を含むビットストリームから、前記識別情報をパースすることと、そのパースされた前記識別情報に従った大きさまたは形状の前記サブブロックに対してアフィン変換を適用する前記インター予測処理を行って、前記ビットストリームを復号して前記画像を生成することとを含む。
本開示の第2の側面においては、アフィン変換における動き補償で用いられる動きベクトルに基づいて設定される識別情報であって、画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する識別情報を含むビットストリームから、識別情報がパースされ、そのパースされた識別情報に従った大きさまたは形状のサブブロックに対してアフィン変換を適用するインター予測処理が行われて、ビットストリームが復号されて画像が生成される。
本技術を適用した画像処理システムの一実施の形態の構成例を示すブロック図である。 符号化回路において行われる処理について説明する図である。 復号回路において行われる処理について説明する図である。 回転操作を伴うアフィン変換について説明する図である。 補間フィルタ処理について説明する図である。 4×4のサブブロックと8×4のサブブロックとで必要となる画素値の個数について説明する図である。 サブブロックの形状が8×4であるタイプ1でアフィン変換が行われる様子を示す図である。 サブブロックの形状が4×8であるタイプ2でアフィン変換が行われる様子を示す図である。 L0予測にタイプ1の形状のサブブロックを用い、L1予測にタイプ2の形状のサブブロックを用いる例について説明する図である。 L0予測にタイプ2の形状のサブブロックを用い、L1予測にタイプ1の形状のサブブロックを用いる例について説明する図である。 L0予測とL1予測とで、タイプ1およびタイプ2の使い分けについて説明する図である。 画像符号化装置の一実施の形態の構成例を示すブロック図である。 画像復号装置の一実施の形態の構成例を示すブロック図である。 画像符号化処理を説明するフローチャートである。 サブブロックサイズ識別情報を設定する処理の第1の処理例を説明するフローチャートである。 サブブロックサイズ識別情報を設定する処理の第2の処理例を説明するフローチャートである。 サブブロックサイズ識別情報を設定する処理の第3の処理例を説明するフローチャートである。 サブブロックサイズ識別情報を設定する処理の第4の処理例を説明するフローチャートである。 画像復号処理を説明するフローチャートである。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
<技術内容・技術用語をサポートする文献等>
本技術で開示される範囲は、実施の形態に記載されている内容だけではなく、出願当時において公知となっている以下の非特許文献に記載されている内容も含まれる。
非特許文献1:Jianle Chen, Elena Alshina, Gary J. Sullivan, Jens-Rainer, JillBoyce, "Algorithm Description of Joint Exploration Test Model 4", JVET-G1001_v1, Joint Video Exploration Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 7th Meeting: Torino, IT, 13-21 July 2017
非特許文献2:TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU(International Telecommunication Union), "High efficiency video coding", H.265, 12/2016
非特許文献3:TELECOMMUNICATION STANDARDIZATION SECTOR OF ITU(International Telecommunication Union), "Advanced video coding for generic audiovisual services", H.264, 04/2017
つまり、上述の非特許文献1乃至3に記載されている内容もサポート要件を判断する際の根拠となる。例えば、非特許文献1に記載されているQTBT(Quad Tree Plus Binary Tree) Block Structure、または、非特許文献2に記載されているQT(Quad-Tree Block Structure)が、実施の形態において直接的な記載がない場合でも、本技術の開示範囲内であり、特許請求の範囲のサポート要件を満たすものとする。また、例えば、パース(Parsing)、シンタックス(Syntax)、セマンティクス(Semantics)等の技術用語についても同様に、実施の形態において直接的な記載がない場合でも、本技術の開示範囲内であり、特許請求の範囲のサポート要件を満たすものとする。
<用語>
本願では、以下の用語を、以下のように定義する。
<ブロック>
画像(ピクチャ)の部分領域や処理単位として説明に用いる「ブロック」(処理部を示すブロックではない)は、特に言及しない限り、ピクチャ内の任意の部分領域を示し、その大きさ、形状、および特性等は限定されない。例えば、「ブロック」には、TB(Transform Block)、TU(Transform Unit)、PB(Prediction Block)、PU(Prediction Unit)、SCU(Smallest Coding Unit)、CU(Coding Unit)、LCU(Largest Coding Unit)、CTB(Coding TreeBlock)、CTU(Coding Tree Unit)、変換ブロック、サブブロック、マクロブロック、タイル、またはスライス等、任意の部分領域(処理単位)が含まれるものとする。
<ブロックサイズの指定>
また、このようなブロックのサイズを指定するに当たって、直接的にブロックサイズを指定するだけでなく、間接的にブロックサイズを指定するようにしてもよい。例えばサイズを識別する識別情報を用いてブロックサイズを指定するようにしてもよい。また、例えば、基準となるブロック(例えばLCUやSCU等)のサイズとの比または差分によってブロックサイズを指定するようにしてもよい。例えば、シンタックス要素等としてブロックサイズを指定する情報を伝送する場合に、その情報として、上述のような間接的にサイズを指定する情報を用いるようにしてもよい。このようにすることにより、その情報の情報量を低減させることができ、符号化効率を向上させることができる場合もある。また、このブロックサイズの指定には、ブロックサイズの範囲の指定(例えば、許容されるブロックサイズの範囲の指定等)も含む。
<情報・処理の単位>
各種情報が設定されるデータ単位や、各種処理が対象とするデータ単位は、それぞれ任意であり上述した例に限定されない。例えば、これらの情報や処理が、それぞれ、TU(Transform Unit)、TB(Transform Block)、PU(Prediction Unit)、PB(Prediction Block)、CU(Coding Unit)、LCU(Largest Coding Unit)、サブブロック、ブロック、タイル、スライス、ピクチャ、シーケンス、またはコンポーネント毎に設定されるようにしてもよいし、それらのデータ単位のデータを対象とするようにしてもよい。もちろん、このデータ単位は、情報や処理毎に設定され得るものであり、全ての情報や処理のデータ単位が統一されている必要はない。なお、これらの情報の格納場所は任意であり、上述したデータ単位のヘッダやパラメータセット等に格納されるようにしてもよい。また、複数個所に格納されるようにしてもよい。
<制御情報>
本技術に関する制御情報を符号化側から復号側に伝送するようにしてもよい。例えば、上述した本技術を適用することを許可(または禁止)するか否かを制御する制御情報(例えばenabled_flag)を伝送するようにしてもよい。また、例えば、上述した本技術を適用する対象(または適用しない対象)を示す制御情報を伝送するようにしてもよい。例えば、本技術を適用する(または、適用を許可若しくは禁止する)ブロックサイズ(上限若しくは下限、またはその両方)、フレーム、コンポーネント、またはレイヤ等を指定する制御情報を伝送するようにしてもよい。
<フラグ>
なお、本明細書において「フラグ」とは、複数の状態を識別するための情報であり、真(1)または偽(0)の2状態を識別する際に用いる情報だけでなく、3以上の状態を識別することが可能な情報も含まれる。したがって、この「フラグ」が取り得る値は、例えば1/0の2値であってもよいし、3値以上であってもよい。すなわち、この「フラグ」を構成するbit数は任意であり、1bitでも複数bitでもよい。また、識別情報(フラグも含む)は、その識別情報をビットストリームに含める形だけでなく、ある基準となる情報に対する識別情報の差分情報をビットストリームに含める形も想定されるため、本明細書においては、「フラグ」や「識別情報」は、その情報だけではなく、基準となる情報に対する差分情報も包含する。
<メタデータを関連付ける>
また、符号化データ(ビットストリーム)に関する各種情報(メタデータ等)は、符号化データに関連づけられていれば、どのような形態で伝送または記録されるようにしてもよい。ここで、「関連付ける」という用語は、例えば、一方のデータを処理する際に他方のデータを利用し得る(リンクさせ得る)ようにすることを意味する。つまり、互いに関連付けられたデータは、1つのデータとしてまとめられてもよいし、それぞれ個別のデータとしてもよい。例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の伝送路上で伝送されるようにしてもよい。また、例えば、符号化データ(画像)に関連付けられた情報は、その符号化データ(画像)とは別の記録媒体(または同一の記録媒体の別の記録エリア)に記録されるようにしてもよい。なお、この「関連付け」は、データ全体でなく、データの一部であってもよい。例えば、画像とその画像に対応する情報とが、複数フレーム、1フレーム、またはフレーム内の一部分などの任意の単位で互いに関連付けられるようにしてもよい。
なお、本明細書において、「合成する」、「多重化する」、「付加する」、「一体化する」、「含める」、「格納する」、「入れ込む」、「差し込む」、「挿入する」等の用語は、例えば符号化データとメタデータとを1つのデータにまとめるといった、複数の物を1つにまとめることを意味し、上述の「関連付ける」の1つの方法を意味する。また、本明細書において、符号化とは、画像をビットストリームに変換する全体の処理だけではなく、一部の処理も含む。例えば、予測処理、直交変換、量子化、算術符号化等を包括した処理を含むだけではなく、量子化と算術符号化とを総称した処理、予測処理と量子化と算術符号化とを包括した処理、などを含む。同様に、復号とは、ビットストリームを画像に変換する全体の処理だけではなく、一部の処理も含む。例えば、逆算術復号、逆量子化、逆直交変換、予測処理等を包括した処理を含むだけではなく、逆算術復号と逆量子化とを包括した処理、逆算術復号と逆量子化と予測処理とを包括した処理、などを含む。
以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
<本技術の概要>
図1乃至図11を参照して、本技術の概要について説明する。
図1は、本技術を適用した画像処理システムの一実施の形態の構成例を示すブロック図である。
図1に示すように、画像処理システム11は、画像符号化装置12および画像復号装置13を備えて構成される。例えば、画像処理システム11では、図示しない撮像装置により撮像された画像が画像符号化装置12に入力され、画像符号化装置12において画像が符号化されることで符号化データが生成される。これにより、画像処理システム11では、画像符号化装置12から画像復号装置13へ、符号化データがビットストリームとして伝送される。そして、画像処理システム11では、画像復号装置13において符号化データが復号されることで画像が生成され、図示しない表示装置に表示される。
画像符号化装置12は、画像処理チップ21および外部メモリ22がバスを介して接続された構成となっている。
画像処理チップ21は、画像を符号化する符号化回路23、および、符号化回路23が画像を符号化する際に必要となるデータを一時的に記憶するキャッシュメモリ24により構成される。
外部メモリ22は、例えば、DRAM(Dynamic Random Access Memory)により構成され、画像符号化装置12において符号化の対象となる画像のデータを、画像処理チップ21で処理する処理単位(例えば、フレーム)ごとに記憶する。なお、非特許文献1に記載されているQTBT(Quad Tree Plus Binary Tree) Block Structure、または、非特許文献2に記載されているQT(Quad-Tree) Block Structureが、Block Structureとして適用される場合には、CTB(Coding TreeBlock)、CTU(Coding Tree Unit)、PB(Prediction Block)、PU(Prediction Unit)、CU(Coding Unit)、CB(Coding Block)を処理単位として外部メモリ22に記憶される場合もある。好適には、シーケンスレベルでブロックサイズが固定された処理単位であるCTBやCTUを処理単位とすることが想定される。
例えば、画像符号化装置12では、外部メモリ22に記憶されている1フレーム分(またはCTB)の画像のデータのうちの、インター予測処理で用いられる処理単位であるサブブロックごとに分割されたデータがキャッシュメモリ24に読み込まれる。そして、画像符号化装置12では、キャッシュメモリ24に記憶されているサブブロックごとに符号化回路23による符号化が行われ、符号化データが生成される。
ここで、サブブロックの大きさ(画素の総個数)、および、サブブロックの形状(画素の縦個数×横個数)は、サブブロックサイズ識別情報により識別される。そして、画像処理システム11では、符号化回路23においてサブブロックサイズ識別情報が設定され、サブブロックサイズ識別情報を含むビットストリームが画像符号化装置12から画像復号装置13へ伝送される。
例えば、サブブロックを構成する画素が2×2である場合には、サブブロックサイズ識別情報には0が設定される。同様に、サブブロックを構成する画素が4×4である場合には、サブブロックサイズ識別情報には1が設定され、サブブロックの大きさが8×8である場合には、サブブロックサイズ識別情報には2が設定される。
さらに、サブブロックを構成する画素が8×4である場合(後述の図7のタイプ1)には、サブブロックサイズ識別情報には3が設定され、サブブロックの大きさが4×8である場合(後述の図8のタイプ2)には、サブブロックサイズ識別情報には4が設定される。その他、16×16以上の大きさおよび形状のサブブロックを用いてもよい。要するに、サブブロックサイズ識別情報は、サブブロックのサイズおよび形状を識別することができる情報であれば、その表現形態は問われない。なお、サブブロックサイズ識別情報が、サブブロックの大きさまたは形状の一方だけを識別するようにしてもよい。
画像復号装置13は、画像処理チップ31および外部メモリ32がバスを介して接続された構成となっている。
画像処理チップ31は、符号化データを復号して画像を生成する復号回路33、および、復号回路33が符号化データを復号する際に必要となるデータを一時的に記憶するキャッシュメモリ34により構成される。
外部メモリ32は、例えば、DRAMにより構成され、画像復号装置13において復号の対象となる符号化データを画像のフレームごとに記憶する。
例えば、画像復号装置13では、ビットストリームからサブブロックサイズ識別情報がパースされ、そのサブブロックサイズ識別情報で設定されている大きさおよび形状のサブブロックに従って、外部メモリ32からキャッシュメモリ34に符号化データが読み出される。そして、画像復号装置13では、キャッシュメモリ34に記憶されているブロックごとに復号回路33により符号化データが復号されることにより画像が生成される。
このように、画像処理システム11では、画像符号化装置12において、サブブロックの大きさおよび形状を識別するためのサブブロックサイズ識別情報が設定され、サブブロックサイズ識別情報を含むビットストリームが画像復号装置13へ伝送される。例えば、画像処理システム11では、サブブロックサイズ識別情報(subblocksize_idx)を、SPS,PPS,SLICE headerなどのハイレベルシンタックスで定義することができる。また、予測との関係性と性能向上の観点からSLICE headerにサブブロックサイズ識別情報を定義することが好ましく、処理の簡略化や、画像復号装置13でのパースの観点からSPSまたはPPSにサブブロックサイズ識別情報を定義することが好ましい。
そして、画像処理システム11では、大きなサイズのサブブロックを用いることにより、例えば、処理単位(例えば、1フレームや、1CTBなど)当たりのサブブロック数を少なくすることができる結果、サブブロックごとに行われるインター予測処理の処理量を削減することができる。従って、例えば、処理量を抑制することが要求されるアプリケーションでは、大きなサブブロックを使用してインター予測処理を行うようにすることで、より確実に符号化または復号を行うことができる。
また、画像処理システム11では、大きなサブブロックを使用することで処理量を削減した場合には、画質が低下することが懸念される。そこで、画像処理システム11では、例えば、処理能力に応じて、8×8のサブブロックではなく、8×4または4×8のサブブロックを用いることによって、画質の低下を抑制することができる。
図2を参照して、画像符号化装置12の符号化回路23が行う処理について、さらに説明する。
例えば、符号化回路23は、図示するような設定部および符号化部として機能するように設計される。
即ち、符号化回路23は、画像の符号化する際のインター予測処理で用いられるサブブロックの大きさおよび形状(例えば、2×2,4×4,8×8,4×8,8×4など)を識別するためのサブブロックサイズ識別情報を設定する設定処理を行うことができる。
このとき、符号化回路23は、例えば、画像符号化装置12における画像の符号化を実行するアプリケーションにおいて要求される処理量が、所定の設定値以下である場合、サブブロックが大きくなるようにサブブロックサイズ識別情報を設定する。同様に、符号化回路23は、例えば、画像復号装置13におけるビットストリームの復号を実行するアプリケーションにおいて要求される処理量が、所定の設定値以下である場合、サブブロックが大きくなるようにサブブロックサイズ識別情報を設定する。ここで、画像符号化装置12および画像復号装置13には、それぞれが備える処理能力に従って、実行するアプリケーションにおける処理量を規定する設定値が予め設定されている。例えば、処理能力が低いモバイル端末において符号化処理または復号処理が行われる場合には、その処理能力に従った低い設定値が設定される。
さらに、符号化回路23は、インター予測処理における予測方向に従って、サブブロックの大きさを設定することができる。例えば、符号化回路23は、インター予測処理における予測方向がBi-predictionであるか否かに従って、サブブロックの大きさが異なるようにサブブロックサイズ識別情報を設定する。また、符号化回路23は、インター予測処理における予測方向がBi-predictionである場合、サブブロックが大きくなるようにサブブロックサイズ識別情報を設定する。または、符号化回路23は、インター予測処理としてアフィン変換を適用し、かつ、インター予測処理における予測方向がBi-predictionである場合、サブブロックが大きくなるようにサブブロックサイズ識別情報を設定する。
また、符号化回路23は、インター予測処理としてアフィン変換が適用される場合、アフィン変換における動きベクトルに従って、サブブロックの形状を設定することができる。例えば、符号化回路23は、アフィン変換における動きベクトルから後述する式(1)に従って求められるX方向ベクトル差分がY方向ベクトル差分より小さい場合、矩形形状のサブブロックの長手方向がX方向となるタイプ1(図7参照)の形状にサブブロックサイズ識別情報を設定する。一方、符号化回路23は、アフィン変換における動きベクトルから後述する式(1)に従って求められるY方向ベクトル差分がX方向ベクトル差分より小さい場合、矩形形状のサブブロックの長手方向がY方向となるタイプ2(図8参照)の形状にサブブロックサイズ識別情報を設定する。
そして、符号化回路23は、サブブロックの大きさまたは形状を切り替えてインター予測処理を行って画像を符号化し、サブブロックサイズ識別情報を含むビットストリームを生成する符号化処理を行うことができる。
このとき、符号化回路23は、サブブロックに対して、アフィン変換またはFRUC(Frame Rate Up Conversion)を適用してインター予測処理を行う。その他、符号化回路23は、並進移動などを適用してインター予測処理を行ってもよい。なお、符号化回路23は、サブブロックサイズ識別情報を参照してサブブロックの大きさまたは形状を切り替えてもよいし、インター予測処理を行う際に、上述したような予測方向などに従った判断を行ってサブブロックの大きさまたは形状を切り替えるようにしてもよい。
図3を参照して、画像復号装置13の復号回路33が行う処理について、さらに説明する。
例えば、復号回路33は、図示するようなパース部および復号部として機能するように設計される。
即ち、復号回路33は、画像符号化装置12から伝送されてくるビットストリームから、画像の復号する際のインター予測処理で用いられるサブブロックの大きさを表すサブブロックサイズ識別情報をパースするパース処理を行うことができる。
そして、復号回路33は、サブブロックサイズ識別情報に従ってサブブロックの大きさまたは形状を切り替えてインター予測処理を行い、ビットストリームを復号して画像を生成する復号処理を行うことができる。このとき、復号回路33は、符号化回路23におけるインター予測処理で適用されたアフィン変換またはFRUCに応じて、インター予測処理を行う。
ここで、図4を参照して、異なる大きさのサブブロックで分割されたコーディングユニットにおける回転操作を伴うアフィン変換について説明する。
図4のAには、4×4の16個のサブブロックに分割されたコーディングユニットで回転操作を伴うアフィン変換が行われる一例が示されている。また、図4のBには、8×8の64個のサブブロックに分割されたコーディングユニットで回転操作を伴うアフィン変換が行われる一例が示されている。
例えば、アフィン変換の動き補償では、参照画像内の、頂点Aから動きベクトルv0だけ離れた点A'を左上の頂点とし、頂点Bから動きベクトルv1だけ離れた点B'を右上の頂点とし、頂点Cから動きベクトルv2だけ離れた点C'を左下の頂点とするコーディングユニットCU'を参照ブロックとして、そのコーディングユニットCU'を、動きベクトルv0ないしv2に基づいてアフィン変換することにより動き補償が行われ、コーディングユニットCUの予測画像が生成される。
すなわち、処理対象のコーディングユニットCUが、サブブロックに分割され、各サブブロックの動きベクトルv=(vx,vy)が、動きベクトルv0=(v0x,v0y),v1=(v1x,v1y)、及び、v2=(v2x,v2y)に基づいて、図示する式に従って求められる。
そして、参照画像内の、各サブブロックから動きベクトルvだけ離れたサブブロックと同一のサイズの参照サブブロックを、動きベクトルvに基づいて並進移動することにより、コーディングユニットCUの予測画像がサブブロック単位で生成される。
ここで、このような回転操作が伴うアフィン変換が行われる場合、図4のAに示すように大きなサイズのサブブロックに分割するよりも、図4のBに示すように、小さなサイズのサブブロックに分割する方が、より予測精度の高い予測画像を得ることができる。しかしながら、小さなサイズのサブブロックに分割すると、サブブロックの数が増加するのに伴って、より多くの演算を行う必要があり処理量が増加するだけでなく、メモリからデータを読み出すのに時間を要することになり処理の高速化が妨げられてしまう。
従って、特に、このようなアフィン変換において、サブブロックを大きく設定することで、より効果的に処理量を削減することができるとともに、処理の高速化を図ることができる。なお、ここでは、CUとPUとを同じ次元でブロックと処理していることを説明しているが、QTのようにCUとPUが別次元でブロックを構成できる場合はPUを基準として、サブブロックに分割されてもよい。
ここで、図5を参照して、補間フィルタ処理について説明する。なお、ここでは、画像復号装置13による復号処理について説明するが、画像符号化装置12による符号化処理においても同様に補間フィルタ処理が行われる。
例えば、画像復号装置13が画像を復号する際に、アフィン変換における動き補償を行うとき、例えば、外部メモリ32に格納されている符号化済みデコードフレーム(または、Decoded picture bufferと称される)のうちの、動き補償で必要な符号化データが、画像処理チップ31の内部のキャッシュメモリ34に読み込まれる。そして、復号回路33において、図5に示すような構成による補間フィルタ処理が施される。
図5のAには、予測方向がUni- predictionであるときに補間フィルタ処理を行うフィルタ処理部が示されており、図5のBには、予測方向がBi-predictionであるときに補間フィルタ処理を行うフィルタ処理部が示されている。
例えば、図5のAに示すように、Uni- predictionでは、キャッシュメモリ34から読み出されたサブブロック分の符号化データ(画素値)に対して、水平方向補間フィルタ35において水平方向の補間フィルタ処理が施される。そして、垂直方向に符号化データを取り出すために転置用メモリ36に記憶された後、転置用メモリ36から読み出された符号化データに対して、垂直方向補間フィルタ37において垂直方向の補間フィルタ処理が施され、後段の処理部へ出力される。
また、図5のBに示すように、Bi-predictionでは、水平方向補間フィルタ35-1、転置用メモリ36-1、および垂直方向補間フィルタ37-1によるL0参照の補間フィルタ処理と、水平方向補間フィルタ35-2、転置用メモリ36-2、および垂直方向補間フィルタ37-2によるL1参照の補間フィルタ処理とが、並列的に行われる。そして、垂直方向補間フィルタ37-1からの出力と、垂直方向補間フィルタ37-2からの出力とが、平均化部38において平均化された後、後段の処理部へ出力される。
このようなサブブロックに対する補間フィルタ処理を行う際に、キャッシュメモリ34から水平方向補間フィルタ35への符号化データの読み出し、および、転置用メモリ36から垂直方向補間フィルタ37への符号化データの読み出しにおいて、それぞれメモリの帯域による制限を受けることになる。これにより、高速化が妨げられることになる。特に、インター予測処理における予測方向がBi-predictionである場合には、2倍のメモリの帯域が必要となり、メモリの帯域による制限を、より受け易くなる。
そこで、復号回路33は、補間フィルタ処理を行う際に、メモリの帯域による制限を回避し、復号処理における処理量を削減することが求められる。
そこで、例えば、従来では4×4のサブブロックで補間フィルタ処理を行っていたのに対し、それよりも大きな8×4または4×8のサブブロックで補間フィルタ処理を行うことで、処理量の削減を図ることができるとともに、補間フィルタ処理に必要な画素値の個数を削減することができる。
例えば、図6のAに示すように、2×2のサブブロックで4個の画素値を求める補間フィルタ処理を行う場合には、13×13個の画素値が必要となる。また、図6のBに示すように、4×2のサブブロックで8個の画素値を求める補間フィルタ処理を行う場合には、13×15個の画素値が必要になる。このため、8個の画素値を求めるのに、2×2のサブブロックを用いた補間フィルタ処理を2回行うときには、13×13個の2倍の画素値が必要となってしまい、4×2のサブブロックを用いた補間フィルタ処理を行う方が、必要な画素値の個数が削減されることになる。従って、同様に、8×4のサブブロックを用いることで、4×4のサブブロックを用いるときよりも、同一の個数の画素値を求める補間フィルタ処理に必要な画素値の個数を削減することができる。
このように、例えば、4×4よりも大きな8×4または4×8に分割されたサブブロックを用いることで、1画素を生成するために必要となるメモリアクセス量および補間フィルタの処理量を削減することができる。その一方で、サブブロックの粒度が大きくなったことで、アフィン変換の動き補償における誤差が大きくなるのに伴って、予測の性能が低下することが想定される。そこで、なるべく小さい粒度を保つために矩形形状としている。
ここで、図7および図8を参照して、矩形形状のサブブロックのタイプについて説明する。
図7には、サブブロックの形状が8×4であるタイプ1において、回転操作が伴うアフィン変換が行われる様子が示されている。同様に、図8には、サブブロックの形状が4×8であるタイプ2において、回転操作が伴うアフィン変換が行われる様子が示されている。即ち、図7に示すように、長手方向をX方向とした矩形形状のサブブロックをタイプ1と称し、図8に示すように、長手方向をY方向とした矩形形状のサブブロックをタイプ2と称する。
そして、符号化回路23は、予測誤差が少なくなるように、サブブロックの形状をタイプ1とタイプ2とで切り替えて使用する。例えば、コーディングユニットの3つの頂点について、左上頂点の動きベクトルのX方向成分と右上頂点の動きベクトルのX方向成分との差分に基づいたX方向ベクトル差分が、左上頂点の動きベクトルのY方向成分と左下頂点の動きベクトルのY方向成分との差分に基づいたY方向ベクトル差分よりも小さいときは、X方向に並ぶサブブロックの各動きベクトルの差が小さいことより、8×4のタイプ1を使用する。一方、コーディングユニットの3つの頂点について、左上頂点の動きベクトルのX方向成分と右上頂点の動きベクトルのX方向成分との差分に基づいたX方向ベクトル差分が、左上頂点の動きベクトルのY方向成分と左下頂点の動きベクトルのY方向成分との差分に基づいたY方向ベクトル差分以下であるときは、Y方向に並ぶサブブロックの各動きベクトルの差が小さいことより、4×8のタイプ2を使用する。即ち、サブブロック間の動きベクトルの差が小さいということは、同じ動きベクトルになるように制限した際の影響が小さくなるという特性があり、この特性を利用することで、画質の劣化を抑制することができる。
具体的には、図7および図8に示したように、コーディングユニットの左上頂点の動きベクトルv(v1x,v1y)、コーディングユニットの右上頂点の動きベクトルv(v2x,v2y)、および、コーディングユニットの左下頂点の動きベクトルv(v3x,v3y)を用いて、次の式(1)を演算する。そして、この演算により求められるX方向ベクトル差分dvおよびY方向ベクトル差分dvの絶対値の大小関係に従って、タイプ1とタイプ2とが切り替えられる。
Figure 2022028089000002
即ち、X方向ベクトル差分dvの絶対値がY方向ベクトル差分dvの絶対値より小さい場合、タイプ1の形状のサブブロックを用い、X方向ベクトル差分dvの絶対値がY方向ベクトル差分dvの絶対値以上である場合、タイプ2の形状のサブブロックを用いる。
これにより、インター予測処理の処理量を削減しても予測性能の低下を低減することができ、画質の劣化を抑制することができる。
さらに、予測方向がBi-predictionであるときには、処理量が増加することになる。従って、処理量の少ないUni- predictionの場合には、4×4のサブブロックを使用し、処理量の多いBi-predictionの場合には、8×4または4×8のサブブロックを使用するようにしてもよい。
そして、予測方向がBi-predictionであるときに、図9に示すように、L0予測にタイプ1の形状のサブブロックを用い、L1予測にタイプ2の形状のサブブロックを用いる。または、予測方向がBi-predictionであるときに、図10に示すように、L0予測にタイプ2の形状のサブブロックを用い、L1予測にタイプ1の形状のサブブロックを用いる。
このように、タイプ1(横方向)とタイプ2(縦方向)のサブブロックの境界のアライメントが、L1予測とL0予測とで異なるようにするため、平均化部38(図5のB)で平均化する際に、予測誤差の低減を図ることが期待される。即ち、L1予測とL0予測とでサブブロックの境界が重なることを回避することで、例えば、その境界でのノイズが増幅することを回避することができる結果、画質の低下を抑制することができる。
さらには、予測方向がBi-predictionであるときに、L0予測およびL1予測それぞれで、上述したようにX方向ベクトル差分dvとY方向ベクトル差分dvとの絶対値の大小関係に従って、タイプ1およびタイプ2の切り替えを行ってもよい。しかしながら、この場合、L0予測およびL1予測で同じタイプのサブブロックが用いられると、サブブロックの境界でノイズが目立つことが想定される。
そこで、L0予測およびL1予測で異なるタイプのサブブロックが用いられるようにすることで、サブブロックの境界におけるノイズが目立たないようにし、画質の低下を抑制することができる。
例えば、図11に示すようなL0予測の左上頂点の動きベクトルv1L0、L0予測の右上頂点の動きベクトルv2L0、およびL0予測の左下頂点の動きベクトルv3L0を用いて、次の式(2)を演算することにより、L0予測のX方向ベクトル差分dvxL0およびL0予測のY方向ベクトル差分dvyL0を求める。同様に、図11に示すようなL1予測の左上頂点の動きベクトルv1L1、L0予測の右上頂点の動きベクトルv2L1、およびL0予測の左下頂点の動きベクトルv3L1を用いて、次の式(2)を演算することにより、L1予測のX方向ベクトル差分dvxL1およびL1予測のY方向ベクトル差分dvyL1を求める。
Figure 2022028089000003
そして、このように求められるL0予測のX方向ベクトル差分dvxL0、L0予測のY方向ベクトル差分dvyL0、L1予測のX方向ベクトル差分dvxL1、およびL1予測のY方向ベクトル差分dvyL1の大小関係に従って、タイプ1とタイプ2とを切り替える。
例えば、L0予測のX方向ベクトル差分dvxL0またはL1予測のY方向ベクトル差分dvyL1が最も大きい場合、L0予測で用いるサブブロックをタイプ2とし、かつ、L1予測で用いるサブブロックをタイプ1とする。また、L0予測のY方向ベクトル差分dvyL0またはL1予測のX方向ベクトル差分dvxL1が最も大きい場合、L0予測で用いるサブブロックをタイプ1とし、かつ、L1予測で用いるサブブロックをタイプ2とする。
これにより、より画質の低下を抑制することができる。
<画像符号化装置の構成例>
図12は、本技術を適用した画像符号化装置の一実施の形態の構成例を示すブロック図である。
図12に示される画像符号化装置12は、動画像の画像データを符号化する装置である。例えば、画像符号化装置12は、非特許文献1、非特許文献2、または非特許文献3に記載されている技術を実装し、それらの文献のいずれかに記載された規格に準拠した方法で動画像の画像データを符号化する。
なお、図12においては、処理部やデータの流れ等の主なものを示しており、図12に示されるものが全てとは限らない。つまり、画像符号化装置12において、図12においてブロックとして示されていない処理部が存在したり、図12において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
図12に示されるように画像符号化装置12は、制御部101、並べ替えバッファ111、演算部112、直交変換部113、量子化部114、符号化部115、蓄積バッファ116、逆量子化部117、逆直交変換部118、演算部119、インループフィルタ部120、フレームメモリ121、予測部122、およびレート制御部123を備えて構成される。なお、予測部122は、不図示のイントラ予測部およびインター予測部を備えている。画像符号化装置12は、動画像データを符号化することによって、符号化データ(ビットストリーム)を生成するための装置である。
<制御部>
制御部101は、外部、または予め指定された処理単位のブロックサイズに基づいて、並べ替えバッファ111により保持されている動画像データを処理単位のブロック(CU, PU, 変換ブロックなど)へ分割する。また、制御部101は、各ブロックへ供給する符号化パラメータ(ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo、フィルタ情報Finfoなど)を、例えば、RDO(Rate-Distortion Optimization)に基づいて、決定する。
これらの符号化パラメータの詳細については後述する。制御部101は、以上のような符号化パラメータを決定すると、それを各ブロックへ供給する。具体的には、以下の通りである。
ヘッダ情報Hinfoは、各ブロックに供給される。
予測モード情報Pinfoは、符号化部115と予測部122とに供給される。
変換情報Tinfoは、符号化部115、直交変換部113、量子化部114、逆量子化部117、および逆直交変換部118に供給される。
フィルタ情報Finfoは、インループフィルタ部120に供給される。
さらに、制御部101は、処理単位を設定する際に、図2を参照して上述したように、サブブロックの大きさおよび形状を識別するサブブロックサイズ識別情報を設定することができる。そして、制御部101は、サブブロックサイズ識別情報も符号化部115に供給する。
<並べ替えバッファ>
画像符号化装置12には、動画像データの各フィールド(入力画像)がその再生順(表示順)に入力される。並べ替えバッファ111は、各入力画像をその再生順(表示順)に取得し、保持(記憶)する。並べ替えバッファ111は、制御部101の制御に基づいて、その入力画像を符号化順(復号順)に並べ替えたり、処理単位のブロックに分割したりする。並べ替えバッファ111は、処理後の各入力画像を演算部112に供給する。また、並べ替えバッファ111は、その各入力画像(元画像)を、予測部122やインループフィルタ部120にも供給する。
<演算部>
演算部112は、処理単位のブロックに対応する画像I、および予測部122より供給される予測画像Pを入力とし、画像Iから予測画像Pを減算して、予測残差Dを導出(D=I-P)し、それを直交変換部113に供給する。
<直交変換部>
直交変換部113は、演算部112から供給される予測残差Dと、制御部101から供給される変換情報Tinfoとを入力とし、その変換情報Tinfoに基づいて、予測残差Dに対して直交変換を行い、変換係数Coeffを導出する。直交変換部113は、その得られた変換係数Coeffを量子化部114に供給する。
<量子化部>
量子化部114は、直交変換部113から供給される変換係数Coeffと、制御部101から供給される変換情報Tinfoとを入力とし、その変換情報Tinfoに基づいて、変換係数Coeffをスケーリング(量子化)する。なお、この量子化のレートは、レート制御部123により制御される。量子化部114は、このような量子化により得られた量子化後の変換係数、すなわち量子化変換係数レベルlevelを、符号化部115および逆量子化部117に供給する。
<符号化部>
符号化部115は、量子化部114から供給された量子化変換係数レベルlevelと、制御部101から供給される各種符号化パラメータ(ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo、フィルタ情報Finfoなど)と、インループフィルタ部120から供給されるフィルタ係数等のフィルタに関する情報と、予測部122から供給される最適な予測モードに関する情報とを入力とする。符号化部115は、量子化変換係数レベルlevelを可変長符号化(例えば、算術符号化)し、ビット列(符号化データ)を生成する。
また、符号化部115は、その量子化変換係数レベルlevelから残差情報Rinfoを導出し、残差情報Rinfoを符号化し、ビット列を生成する。
さらに、符号化部115は、インループフィルタ部120から供給されるフィルタに関する情報をフィルタ情報Finfoに含め、予測部122から供給される最適な予測モードに関する情報を予測モード情報Pinfoに含める。そして、符号化部115は、上述した各種符号化パラメータ(ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo、フィルタ情報Finfoなど)を符号化し、ビット列を生成する。
また、符号化部115は、以上のように生成された各種情報のビット列を多重化し、符号化データを生成する。符号化部115は、その符号化データを蓄積バッファ116に供給する。
それらに加え、符号化部115は、制御部101から供給されるサブブロックサイズ識別情報を符号化し、ビット列を生成して、そのビット列を多重化し、符号化データを生成することができる。これにより、図1を参照して上述したように、サブブロックサイズ識別情報を含む符号化データ(ビットストリーム)が伝送される。
<蓄積バッファ>
蓄積バッファ116は、符号化部115において得られた符号化データを、一時的に保持する。蓄積バッファ116は、所定のタイミングにおいて、保持している符号化データを、例えばビットストリーム等として画像符号化装置12の外部に出力する。例えば、この符号化データは、任意の記録媒体、任意の伝送媒体、任意の情報処理装置等を介して復号側に伝送される。すなわち、蓄積バッファ116は、符号化データ(ビットストリーム)を伝送する伝送部でもある。
<逆量子化部>
逆量子化部117は、逆量子化に関する処理を行う。例えば、逆量子化部117は、量子化部114から供給される量子化変換係数レベルlevelと、制御部101から供給される変換情報Tinfoとを入力とし、その変換情報Tinfoに基づいて、量子化変換係数レベルlevelの値をスケーリング(逆量子化)する。なお、この逆量子化は、量子化部114において行われる量子化の逆処理である。逆量子化部117は、このような逆量子化により得られた変換係数Coeff_IQを、逆直交変換部118に供給する。
<逆直交変換部>
逆直交変換部118は、逆直交変換に関する処理を行う。例えば、逆直交変換部118は、逆量子化部117から供給される変換係数Coeff_IQと、制御部101から供給される変換情報Tinfoとを入力とし、その変換情報Tinfoに基づいて、変換係数Coeff_IQに対して逆直交変換を行い、予測残差D'を導出する。なお、この逆直交変換は、直交変換部113において行われる直交変換の逆処理である。逆直交変換部118は、このような逆直交変換により得られた予測残差D'を演算部119に供給する。なお、逆直交変換部118は、復号側の逆直交変換部(後述する)と同様であるので、逆直交変換部118については、復号側について行う説明(後述する)を適用することができる。
<演算部>
演算部119は、逆直交変換部118から供給される予測残差D’と、予測部122から供給される予測画像Pとを入力とする。演算部119は、その予測残差D’と、その予測残差D’に対応する予測画像Pとを加算し、局所復号画像Rlocalを導出(Rlocal=D’+P)する。演算部119は、導出した局所復号画像Rlocalをインループフィルタ部120およびフレームメモリ121に供給する。
<インループフィルタ部>
インループフィルタ部120は、インループフィルタ処理に関する処理を行う。例えば、インループフィルタ部120は、演算部119から供給される局所復号画像Rlocalと、制御部101から供給されるフィルタ情報Finfoと、並べ替えバッファ111から供給される入力画像(元画像)とを入力とする。なお、インループフィルタ部120に入力される情報は任意であり、これらの情報以外の情報が入力されてもよい。例えば、必要に応じて、予測モード、動き情報、符号量目標値、量子化パラメータQP、ピクチャタイプ、ブロック(CU、CTU等)の情報等がインループフィルタ部120に入力されるようにしてもよい。
インループフィルタ部120は、そのフィルタ情報Finfoに基づいて、局所復号画像Rlocalに対して適宜フィルタ処理を行う。インループフィルタ部120は、必要に応じて入力画像(元画像)や、その他の入力情報もそのフィルタ処理に用いる。
例えば、インループフィルタ部120は、非特許文献1に記載のように、バイラテラルフィルタ、デブロッキングフィルタ(DBF(DeBlocking Filter))、適応オフセットフィルタ(SAO(Sample Adaptive Offset))、および適応ループフィルタ(ALF(Adaptive Loop Filter))の4つのインループフィルタをこの順に適用する。なお、どのフィルタを適用するか、どの順で適用するかは任意であり、適宜選択可能である。
もちろん、インループフィルタ部120が行うフィルタ処理は任意であり、上述の例に限定されない。例えば、インループフィルタ部120がウィーナーフィルタ等を適用するようにしてもよい。
インループフィルタ部120は、フィルタ処理された局所復号画像Rlocalをフレームメモリ121に供給する。なお、例えばフィルタ係数等のフィルタに関する情報を復号側に伝送する場合、インループフィルタ部120は、そのフィルタに関する情報を符号化部115に供給する。
<フレームメモリ>
フレームメモリ121は、画像に関するデータの記憶に関する処理を行う。例えば、フレームメモリ121は、演算部119から供給される局所復号画像Rlocalや、インループフィルタ部120から供給されるフィルタ処理された局所復号画像Rlocalを入力とし、それを保持(記憶)する。また、フレームメモリ121は、その局所復号画像Rlocalを用いてピクチャ単位毎の復号画像Rを再構築し、保持する(フレームメモリ121内のバッファへ格納する)。フレームメモリ121は、予測部122の要求に応じて、その復号画像R(またはその一部)を予測部122に供給する。
<予測部>
予測部122は、予測画像の生成に関する処理を行う。例えば、予測部122は、制御部101から供給される予測モード情報Pinfoと、並べ替えバッファ111から供給される入力画像(元画像)と、フレームメモリ121から読み出す復号画像R(またはその一部)を入力とする。予測部122は、予測モード情報Pinfoや入力画像(元画像)を用い、インター予測やイントラ予測等の予測処理を行い、復号画像Rを参照画像として参照して予測を行い、その予測結果に基づいて動き補償処理を行い、予測画像Pを生成する。予測部122は、生成した予測画像Pを演算部112および演算部119に供給する。また、予測部122は、以上の処理により選択した予測モード、すなわち最適な予測モードに関する情報を、必要に応じて符号化部115に供給する。
ここで、予測部122は、このようなインター予測処理を行う際に、図2を参照して上述したように、サブブロックの大きさおよび形状を切り替えることができる。
<レート制御部>
レート制御部123は、レート制御に関する処理を行う。例えば、レート制御部123は、蓄積バッファ116に蓄積された符号化データの符号量に基づいて、オーバフローあるいはアンダーフローが発生しないように、量子化部114の量子化動作のレートを制御する。
以上のような構成の画像符号化装置12において、制御部101は、サブブロックの大きさおよび形状を識別するサブブロックサイズ識別情報を設定し、符号化部115は、サブブロックサイズ識別情報を含む符号化データを生成する。また、予測部122は、サブブロックの大きさおよび形状を切り替えてインター予測処理を行う。従って、画像符号化装置12は、大きなサブブロックを使用したり、矩形形状のサブブロックを使用したりすることで、インター予測処理における処理量を削減するとともに、画質の低下を抑制することができる。
なお、図2を参照して上述したような符号化回路23において設定部および符号化部として行われる各処理は、図12に示す各ブロックにおいて個々に行われるのではなく、例えば、複数のブロックにより行われるようにしてもよい。
<画像復号装置の構成例>
図13は、本技術を適用した画像復号装置の一実施の形態の構成例を示すブロック図である。図13に示される画像復号装置13は、AVCやHEVCのように、画像とその予測画像との予測残差が符号化された符号化データを復号する装置である。例えば、画像復号装置13は、非特許文献1、非特許文献2、または非特許文献3に記載されている技術を実装し、それらの文献のいずれかに記載された規格に準拠した方法で動画像の画像データが符号化された符号化データを復号する。例えば、画像復号装置13は、上述の画像符号化装置12により生成された符号化データ(ビットストリーム)を復号する。
なお、図13においては、処理部やデータの流れ等の主なものを示しており、図13に示されるものが全てとは限らない。つまり、画像復号装置13において、図13においてブロックとして示されていない処理部が存在したり、図13において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
図13において、画像復号装置13は、蓄積バッファ211、復号部212、逆量子化部213、逆直交変換部214、演算部215、インループフィルタ部216、並べ替えバッファ217、フレームメモリ218、および予測部219を備えて構成される。なお、予測部219は、不図示のイントラ予測部およびインター予測部を備えている。画像復号装置13は、符号化データ(ビットストリーム)を復号することによって、動画像データを生成するための装置である。
<蓄積バッファ>
蓄積バッファ211は、画像復号装置13に入力されたビットストリームを取得し、保持(記憶)する。蓄積バッファ211は、所定のタイミングにおいて、または、所定の条件が整う等した場合、蓄積しているビットストリームを復号部212に供給する。
<復号部>
復号部212は、画像の復号に関する処理を行う。例えば、復号部212は、蓄積バッファ211から供給されるビットストリームを入力とし、シンタックステーブルの定義に沿って、そのビット列から、各シンタックス要素のシンタックス値を可変長復号し、パラメータを導出する。
シンタックス要素およびシンタックス要素のシンタックス値から導出されるパラメータには、例えば、ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo、残差情報Rinfo、フィルタ情報Finfoなどの情報が含まれる。つまり、復号部212は、ビットストリームから、これらの情報をパースする(解析して取得する)。これらの情報について以下に説明する。
<ヘッダ情報Hinfo>
ヘッダ情報Hinfoは、例えば、VPS(Video Parameter Set)/SPS(Sequence Parameter Set)/PPS(Picture Parameter Set)/SH(スライスヘッダ)などのヘッダ情報を含む。ヘッダ情報Hinfoには、例えば、画像サイズ(横幅PicWidth、縦幅PicHeight)、ビット深度(輝度bitDepthY, 色差bitDepthC)、色差アレイタイプChromaArrayType、CUサイズの最大値MaxCUSize/最小値MinCUSize、4分木分割(Quad-tree分割ともいう)の最大深度MaxQTDepth/最小深度MinQTDepth、2分木分割(Binary-tree分割)の最大深度MaxBTDepth/最小深度MinBTDepth、変換スキップブロックの最大値MaxTSSize(最大変換スキップブロックサイズともいう)、各符号化ツールのオンオフフラグ(有効フラグともいう)などを規定する情報が含まれる。
例えば、ヘッダ情報Hinfoに含まれる符号化ツールのオンオフフラグとしては、以下に示す変換、量子化処理に関わるオンオフフラグがある。なお、符号化ツールのオンオフフラグは、該符号化ツールに関わるシンタックスが符号化データ中に存在するか否かを示すフラグとも解釈することができる。また、オンオフフラグの値が1(真)の場合、該符号化ツールが使用可能であることを示し、オンオフフラグの値が0(偽)の場合、該符号化ツールが使用不可であることを示す。なお、フラグ値の解釈は逆であってもよい。
コンポーネント間予測有効フラグ(ccp_enabled_flag):コンポーネント間予測(CCP(Cross-Component Prediction),CC予測とも称する)が使用可能であるか否かを示すフラグ情報である。例えば、このフラグ情報が「1」(真)の場合、使用可能であることが示され、「0」(偽)の場合、使用不可であることが示される。
なお、このCCPは、コンポーネント間線形予測(CCLMまたはCCLMP)とも称する。
<予測モード情報Pinfo>
予測モード情報Pinfoには、例えば、処理対象PB(予測ブロック)のサイズ情報PBSize(予測ブロックサイズ)、イントラ予測モード情報IPinfo、動き予測情報MVinfo等の情報が含まれる。
イントラ予測モード情報IPinfoには、例えば、JCTVC-W1005, 7.3.8.5 Coding Unit syntax中のprev_intra_luma_pred_flag, mpm_idx, rem_intra_pred_mode、およびそのシンタックスから導出される輝度イントラ予測モードIntraPredModeY等が含まれる。
また、イントラ予測モード情報IPinfoには、例えば、コンポーネント間予測フラグ(ccp_flag(cclmp_flag))、多クラス線形予測モードフラグ(mclm_flag)、色差サンプル位置タイプ識別子(chroma_sample_loc_type_idx)、色差MPM識別子(chroma_mpm_idx)、および、これらのシンタックスから導出される輝度イントラ予測モード(IntraPredModeC)等が含まれる。
コンポーネント間予測フラグ(ccp_flag(cclmp_flag))は、コンポーネント間線形予測を適用するか否かを示すフラグ情報である。例えば、ccp_flag==1のとき、コンポーネント間予測を適用することを示し、ccp_flag==0のとき、コンポーネント間予測を適用しないことを示す。
多クラス線形予測モードフラグ(mclm_flag)は、線形予測のモードに関する情報(線形予測モード情報)である。より具体的には、多クラス線形予測モードフラグ(mclm_flag)は、多クラス線形予測モードにするか否かを示すフラグ情報である。例えば、「0」の場合、1クラスモード(単一クラスモード)(例えばCCLMP)であることを示し、「1」の場合、2クラスモード(多クラスモード)(例えばMCLMP)であることを示す。
色差サンプル位置タイプ識別子(chroma_sample_loc_type_idx)は、色差コンポーネントの画素位置のタイプ(色差サンプル位置タイプとも称する)を識別する識別子である。例えば色フォーマットに関する情報である色差アレイタイプ(ChromaArrayType)が420形式を示す場合、色差サンプル位置タイプ識別子は、次に示すような割り当て方となる。
chroma_sample_loc_type_idx == 0 : Type2
chroma_sample_loc_type_idx == 1 : Type3
chroma_sample_loc_type_idx == 2 : Type0
chroma_sample_loc_type_idx == 3 : Type1
なお、この色差サンプル位置タイプ識別子(chroma_sample_loc_type_idx)は、色差コンポーネントの画素位置に関する情報(chroma_sample_loc_info())として(に格納されて)伝送される。
色差MPM識別子(chroma_mpm_idx)は、色差イントラ予測モード候補リスト(intraPredModeCandListC)の中のどの予測モード候補を色差イントラ予測モードとして指定するかを表す識別子である。
動き予測情報MVinfoには、例えば、merge_idx, merge_flag, inter_pred_idc, ref_idx_LX, mvp_lX_flag, X={0,1}, mvd等の情報が含まれる(例えば、JCTVC-W1005, 7.3.8.6 Prediction Unit Syntaxを参照)。
もちろん、予測モード情報Pinfoに含まれる情報は任意であり、これらの情報以外の情報が含まれるようにしてもよい。
<変換情報Tinfo>
変換情報Tinfoには、例えば、以下の情報が含まれる。もちろん、変換情報Tinfoに含まれる情報は任意であり、これらの情報以外の情報が含まれるようにしてもよい。
処理対象変換ブロックの横幅サイズTBWSizeおよび縦幅TBHSize(または、2を底とする各TBWSize、TBHSizeの対数値log2TBWSize、log2TBHSizeであってもよい)。
変換スキップフラグ(ts_flag):(逆)プライマリ変換および(逆)セカンダリ変換をスキップか否かを示すフラグである。
スキャン識別子(scanIdx)
量子化パラメータ(qp)
量子化マトリックス(scaling_matrix(例えば、JCTVC-W1005, 7.3.4 Scaling list data syntax))
<残差情報Rinfo>
残差情報Rinfo(例えば、JCTVC-W1005の7.3.8.11 Residual Coding syntaxを参照)には、例えば以下のシンタックスが含まれる。
cbf(coded_block_flag):残差データ有無フラグ
last_sig_coeff_x_pos:ラスト非ゼロ係数X座標
last_sig_coeff_y_pos:ラスト非ゼロ係数Y座標
coded_sub_block_flag:サブブロック非ゼロ係数有無フラグ
sig_coeff_flag:非ゼロ係数有無フラグ
gr1_flag:非ゼロ係数のレベルが1より大きいかを示すフラグ(GR1フラグとも呼ぶ)
gr2_flag:非ゼロ係数のレベルが2より大きいかを示すフラグ(GR2フラグとも呼ぶ)
sign_flag:非ゼロ係数の正負を示す符号(サイン符号とも呼ぶ)
coeff_abs_level_remaining:非ゼロ係数の残余レベル(非ゼロ係数残余レベルとも呼ぶ)
など。
もちろん、残差情報Rinfoに含まれる情報は任意であり、これらの情報以外の情報が含まれるようにしてもよい。
<フィルタ情報Finfo>
フィルタ情報Finfoには、例えば、以下に示す各フィルタ処理に関する制御情報が含まれる。
デブロッキングフィルタ(DBF)に関する制御情報
画素適応オフセット(SAO)に関する制御情報
適応ループフィルタ(ALF)に関する制御情報
その他の線形・非線形フィルタに関する制御情報
より具体的には、例えば、各フィルタを適用するピクチャや、ピクチャ内の領域を指定する情報や、CU単位のフィルタOn/Off制御情報、スライス、タイルの境界に関するフィルタOn/Off制御情報などが含まれる。もちろん、フィルタ情報Finfoに含まれる情報は任意であり、これらの情報以外の情報が含まれるようにしてもよい。
復号部212の説明に戻り、復号部212は、残差情報Rinfoを参照して、各変換ブロック内の各係数位置の量子化変換係数レベルlevelを導出する。復号部212は、その量子化変換係数レベルlevelを、逆量子化部213に供給する。
また、復号部212は、パースしたヘッダ情報Hinfo、予測モード情報Pinfo、量子化変換係数レベルlevel、変換情報Tinfo、フィルタ情報Finfoを各ブロックへ供給する。具体的には以下の通りである。
ヘッダ情報Hinfoは、逆量子化部213、逆直交変換部214、予測部219、インループフィルタ部216に供給される。
予測モード情報Pinfoは、逆量子化部213および予測部219に供給される。
変換情報Tinfoは、逆量子化部213および逆直交変換部214に供給される。
フィルタ情報Finfoは、インループフィルタ部216に供給される。
もちろん、上述の例は一例であり、この例に限定されない。例えば、各符号化パラメータが任意の処理部に供給されるようにしてもよい。また、その他の情報が、任意の処理部に供給されるようにしてもよい。
さらに、復号部212は、サブブロックの大きさおよび形状を識別するサブブロックサイズ識別情報がビットストリームに含まれている場合、そのサブブロックサイズ識別情報をパースすることができる。
<逆量子化部>
逆量子化部213は、逆量子化に関する処理を行う。例えば、逆量子化部213は、復号部212から供給される変換情報Tinfoおよび量子化変換係数レベルlevelを入力とし、その変換情報Tinfoに基づいて、量子化変換係数レベルlevelの値をスケーリング(逆量子化)し、逆量子化後の変換係数Coeff_IQを導出する。
なお、この逆量子化は、量子化部114による量子化の逆処理として行われる。また、この逆量子化は、逆量子化部117による逆量子化と同様の処理である。つまり、逆量子化部117は、逆量子化部213と同様の処理(逆量子化)を行う。
逆量子化部213は、導出した変換係数Coeff_IQを逆直交変換部214に供給する。
<逆直交変換部>
逆直交変換部214は、逆直交変換に関する処理を行う。例えば、逆直交変換部214は、逆量子化部213から供給される変換係数Coeff_IQ、および、復号部212から供給される変換情報Tinfoを入力とし、その変換情報Tinfoに基づいて、変換係数Coeff_IQに対して逆直交変換処理を行い、予測残差D'を導出する。
なお、この逆直交変換は、直交変換部113による直交変換の逆処理として行われる。また、この逆直交変換は、逆直交変換部118による逆直交変換と同様の処理である。つまり、逆直交変換部118は、逆直交変換部214と同様の処理(逆直交変換)を行う。
逆直交変換部214は、導出した予測残差D'を演算部215に供給する。
<演算部>
演算部215は、画像に関する情報の加算に関する処理を行う。例えば、演算部215は、逆直交変換部214から供給される予測残差D'と、予測部219から供給される予測画像Pとを入力とする。演算部215は、予測残差D'とその予測残差D'に対応する予測画像P(予測信号)とを加算し、局所復号画像Rlocalを導出(Rlocal=D'+P)する。
演算部215は、導出した局所復号画像Rlocalを、インループフィルタ部216およびフレームメモリ218に供給する。
<インループフィルタ部>
インループフィルタ部216は、インループフィルタ処理に関する処理を行う。例えば、インループフィルタ部216は、演算部215から供給される局所復号画像Rlocalと、復号部212から供給されるフィルタ情報Finfoとを入力とする。なお、インループフィルタ部216に入力される情報は任意であり、これらの情報以外の情報が入力されてもよい。
インループフィルタ部216は、そのフィルタ情報Finfoに基づいて、局所復号画像Rlocalに対して適宜フィルタ処理を行う。
例えば、インループフィルタ部216は、非特許文献1に記載のように、バイラテラルフィルタ、デブロッキングフィルタ(DBF(DeBlocking Filter))、適応オフセットフィルタ(SAO(Sample Adaptive Offset))、および適応ループフィルタ(ALF(Adaptive Loop Filter))の4つのインループフィルタをこの順に適用する。なお、どのフィルタを適用するか、どの順で適用するかは任意であり、適宜選択可能である。
インループフィルタ部216は、符号化側(例えば、図12の画像符号化装置12のインループフィルタ部120)により行われたフィルタ処理に対応するフィルタ処理を行う。
もちろん、インループフィルタ部216が行うフィルタ処理は任意であり、上述の例に限定されない。例えば、インループフィルタ部216がウィーナーフィルタ等を適用するようにしてもよい。
インループフィルタ部216は、フィルタ処理された局所復号画像Rlocalを並べ替えバッファ217およびフレームメモリ218に供給する。
<並べ替えバッファ>
並べ替えバッファ217は、インループフィルタ部216から供給された局所復号画像Rlocalを入力とし、それを保持(記憶)する。並べ替えバッファ217は、その局所復号画像Rlocalを用いてピクチャ単位毎の復号画像Rを再構築し、保持する(バッファ内に格納する)。並べ替えバッファ217は、得られた復号画像Rを、復号順から再生順に並べ替える。並べ替えバッファ217は、並べ替えた復号画像R群を動画像データとして画像復号装置13の外部に出力する。
<フレームメモリ>
フレームメモリ218は、画像に関するデータの記憶に関する処理を行う。例えば、フレームメモリ218は、演算部215より供給される局所復号画像Rlocalを入力とし、ピクチャ単位毎の復号画像Rを再構築して、フレームメモリ218内のバッファへ格納する。
また、フレームメモリ218は、インループフィルタ部216から供給される、インループフィルタ処理された局所復号画像Rlocalを入力とし、ピクチャ単位毎の復号画像Rを再構築して、フレームメモリ218内のバッファへ格納する。フレームメモリ218は、適宜、その記憶している復号画像R(またはその一部)を参照画像として予測部219に供給する。
なお、フレームメモリ218が、復号画像の生成に係るヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo、フィルタ情報Finfoなどを記憶するようにしても良い。
<予測部>
予測部219は、予測画像の生成に関する処理を行う。例えば、予測部219は、復号部212から供給される予測モード情報Pinfoを入力とし、その予測モード情報Pinfoによって指定される予測方法により予測を行い、予測画像Pを導出する。その導出の際、予測部219は、その予測モード情報Pinfoによって指定される、フレームメモリ218に格納されたフィルタ前またはフィルタ後の復号画像R(またはその一部)を、参照画像として利用する。予測部219は、導出した予測画像Pを、演算部215に供給する。
ここで、予測部219は、インター予測処理を行う際に、図3を参照して上述したように、復号部212がビットストリームからパースしたサブブロックサイズ識別情報に従って、サブブロックの大きさおよび形状を切り替えることができる。
以上のような構成の画像復号装置13において、復号部212は、ビットストリームからサブブロックサイズ識別情報をパースするパース処理を行う。また、予測部219は、そのサブブロックサイズ識別情報に従って、サブブロックの大きさおよび形状を切り替えてインター予測処理を行う。従って、画像復号装置13は、大きなサブブロックを使用したり、矩形形状のサブブロックを使用したりすることで、インター予測処理における処理量を削減するとともに、画質の低下を抑制することができる。
なお、図3を参照して上述したような復号回路33においてパース部および復号部として行われる各処理は、図13に示す各ブロックにおいて個々に行われるのではなく、例えば、複数のブロックにより行われるようにしてもよい。
<画像符号化処理および画像復号処理>
図14乃至図18のフローチャートを参照して、画像符号化装置12が実行する画像符号化処理、および、画像復号装置13が実行する画像復号処理について説明する。
図14は、画像符号化装置12が実行する画像符号化処理を説明するフローチャートである。
画像符号化処理が開始されると、ステップS11において、並べ替えバッファ111は、制御部101に制御されて、入力された動画像データのフレームの順を表示順から符号化順に並べ替える。
ステップS12において、制御部101は、並べ替えバッファ111が保持する入力画像に対して、処理単位を設定する(ブロック分割を行う)。ここで処理単位を設定する際に、図15乃至図18を参照して後述するようなサブブロックサイズ識別情報を設定する処理も行われる。
ステップS13において、制御部101は、並べ替えバッファ111が保持する入力画像についての符号化パラメータを決定(設定)する。
ステップS14において、予測部122は、予測処理を行い、最適な予測モードの予測画像等を生成する。例えば、この予測処理において、予測部122は、イントラ予測を行って最適なイントラ予測モードの予測画像等を生成し、インター予測を行って最適なインター予測モードの予測画像等を生成し、それらの中から、コスト関数値等に基づいて最適な予測モードを選択する。ここで予測処理を行う際に、図2を参照して上述したように、インター予測処理で用いるサブブロックの大きさおよび形状を切り替えることができる。
ステップS15において、演算部112は、入力画像と、ステップS14の予測処理により選択された最適なモードの予測画像との差分を演算する。つまり、演算部112は、入力画像と予測画像との予測残差Dを生成する。このようにして求められた予測残差Dは、元の画像データに比べてデータ量が低減される。したがって、画像をそのまま符号化する場合に比べて、データ量を圧縮することができる。
ステップS16において、直交変換部113は、ステップS15の処理により生成された予測残差Dに対して直交変換処理を行い、変換係数Coeffを導出する。
ステップS17において、量子化部114は、制御部101により算出された量子化パラメータを用いる等して、ステップS16の処理により得られた変換係数Coeffを量子化し、量子化変換係数レベルlevelを導出する。
ステップS18において、逆量子化部117は、ステップS17の処理により生成された量子化変換係数レベルlevelを、そのステップS17の量子化の特性に対応する特性で逆量子化し、変換係数Coeff_IQを導出する。
ステップS19において、逆直交変換部118は、ステップS18の処理により得られた変換係数Coeff_IQを、ステップS16の直交変換処理に対応する方法で逆直交変換し、予測残差D'を導出する。なお、この逆直交変換処理は、復号側において行われる逆直交変換処理(後述する)と同様であるので、このステップS19の逆直交変換処理については、復号側について行う説明(後述する)を適用することができる。
ステップS20において、演算部119は、ステップS19の処理により導出された予測残差D'に、ステップS14の予測処理により得られた予測画像を加算することにより、局所的に復号された復号画像を生成する。
ステップS21において、インループフィルタ部120は、ステップS20の処理により導出された、局所的に復号された復号画像に対して、インループフィルタ処理を行う。
ステップS22において、フレームメモリ121は、ステップS20の処理により導出された、局所的に復号された復号画像や、ステップS21においてフィルタ処理された、局所的に復号された復号画像を記憶する。
ステップS23において、符号化部115は、ステップS17の処理により得られた量子化変換係数レベルlevelを符号化する。例えば、符号化部115は、画像に関する情報である量子化変換係数レベルlevelを、算術符号化等により符号化し、符号化データを生成する。また、このとき、符号化部115は、各種符号化パラメータ(ヘッダ情報Hinfo、予測モード情報Pinfo、変換情報Tinfo)を符号化する。さらに、符号化部115は、量子化変換係数レベルlevelから残差情報RInfoを導出し、その残差情報RInfoを符号化する。
ステップS24において、蓄積バッファ116は、このようにして得られた符号化データを蓄積し、例えばビットストリームとして、それを画像符号化装置12の外部に出力する。このビットストリームは、例えば、伝送路や記録媒体を介して復号側に伝送される。また、レート制御部123は、必要に応じてレート制御を行う。
ステップS24の処理が終了すると、画像符号化処理が終了する。
以上のような流れの画像符号化処理において、ステップS12およびステップS14の処理として、上述した本技術を適用した処理が行われる。従って、この画像符号化処理を実行することにより、大きなサブブロックを使用したり、矩形形状のサブブロックを使用したりすることで、インター予測処理における処理量を削減するとともに、画質の低下を抑制することができる。
図15は、図14のステップS12においてサブブロックサイズ識別情報を設定する処理の第1の処理例を説明するフローチャートである。
ステップS31において、制御部101は、上述した式(1)の演算結果に基づき、X方向ベクトル差分dvが、Y方向ベクトル差分dvより小さいか否かを判定する。
ステップS31において、制御部101が、X方向ベクトル差分dvが小さいと判定した場合、処理はステップS32に進む。そして、ステップS32において、制御部101は、図7のタイプ1(即ち、矩形形状の長手方向がX方向)の形状のサブブロックを用いるようにサブブロックサイズ識別情報を設定した後、処理は終了される。
一方、ステップS31において、制御部101が、X方向ベクトル差分dvが小さくない(X方向ベクトル差分dvはY方向ベクトル差分dv以上である)と判定した場合、処理はステップS33に進む。そして、ステップS33において、制御部101は、図8のタイプ2(即ち、矩形形状の長手方向がY方向)の形状のサブブロックを用いるようにサブブロックサイズ識別情報を設定した後、処理は終了される。
以上のように、制御部101は、Y方向ベクトル差分dvおよびX方向ベクトル差分dvの大小関係に基づいて、矩形形状のサブブロックの長手方向をX方向とY方向とで切り替えてサブブロックサイズ識別情報を設定することができる。
図16は、図14のステップS12においてサブブロックサイズ識別情報を設定する処理の第2の処理例を説明するフローチャートである。
ステップS41において、制御部101は、インター予測処理における予測方向はBi-predictionであるか否かを判定する。
ステップS41において、制御部101が、インター予測処理における予測方向はBi-predictionであると判定した場合、処理はステップS42に進む。そして、ステップS42乃至S44において、図15のステップS31乃至S33と同様の処理が行われ、Y方向ベクトル差分dvおよびX方向ベクトル差分dvの大小関係に基づいて、サブブロックサイズ識別情報が設定される。
一方、ステップS41において、制御部101が、インター予測処理における予測方向はBi-predictionでないと判定した場合、処理はステップS45に進む。ステップS45において、制御部101は、4×4の大きさのサブブロックを用いるようにサブブロックサイズ識別情報を設定した後、処理は終了される。
以上のように、処理量の多いBi-predictionでインター予測処理を行う場合には、4×4より大きな4×8または8×4のサブブロックを用いることで、インター予測処理における処理量を削減することができる。また、Bi-predictionではなく、例えば、処理量の少ないUni- predictionでインター予測処理を行う場合には、小さな4×4のサブブロックを用いることで、より高画質となるようにインター予測処理を行うことができる。
図17は、図14のステップS12においてサブブロックサイズ識別情報を設定する処理の第3の処理例を説明するフローチャートである。
ステップS51において、制御部101は、インター予測処理における予測方向はBi-predictionであるか否かを判定する。
ステップS51において、制御部101が、インター予測処理における予測方向はBi-predictionであると判定した場合、処理はステップS52に進む。ステップS52において、制御部101は、上述の図9に示したように、L0予測についてはタイプ1の形状のサブブロックを設定し、L1予測についてはタイプ2の形状のサブブロックを設定した後、処理は終了される。
一方、ステップS51において、制御部101が、インター予測処理における予測方向はBi-predictionでないと判定した場合、処理はステップS53に進む。ステップS53において、制御部101は、4×4の大きさのサブブロックを用いるようにサブブロックサイズ識別情報を設定した後、処理は終了される。
以上のように、Bi-predictionにおいて、L0予測にタイプ1の形状のサブブロックを用い、L1予測にタイプ2の形状のサブブロックを用いることで、図9を参照して上述したように、画質の劣化を抑制することができる。
図18は、図14のステップS12においてサブブロックサイズ識別情報を設定する処理の第4の処理例を説明するフローチャートである。
ステップS61において、制御部101は、インター予測処理における予測方向はBi-predictionであるか否かを判定する。
ステップS61において、制御部101が、インター予測処理における予測方向はBi-predictionであると判定した場合、処理はステップS62に進む。
ステップS62において、制御部101は、上述した式(2)の演算結果に基づき、L0予測のX方向ベクトル差分dvxL0がL0予測のY方向ベクトル差分dvyL0より大きいか否かを判定する。
ステップS62において、制御部101が、L0予測のX方向ベクトル差分dvxL0はL0予測のY方向ベクトル差分dvyL0より大きくない(L0予測のX方向ベクトル差分dvxL0はL0予測のY方向ベクトル差分dvyL0以下である)と判定した場合、処理はステップS63に進む。
ステップS63において、制御部101は、上述した式(2)の演算結果に基づき、L1予測のX方向ベクトル差分dvxL1がL1予測のY方向ベクトル差分dvyL1より大きいか否かを判定する。
ステップS63において、制御部101が、L1予測のX方向ベクトル差分dvxL1はL1予測のY方向ベクトル差分dvyL1より大きくない(L1予測のX方向ベクトル差分dvxL1はL1予測のY方向ベクトル差分dvyL1以下である)と判定した場合、処理はステップS64に進む。
ステップS64において、制御部101は、上述した式(2)の演算結果に基づき、L0予測のY方向ベクトル差分dvyL0がL1予測のY方向ベクトル差分dvyL1より大きいか否かを判定する。
ステップS64において、制御部101が、L0予測のY方向ベクトル差分dvyL0はL1予測のY方向ベクトル差分dvyL1より大きくない(L0予測のY方向ベクトル差分dvyL0はL1予測のY方向ベクトル差分dvyL1以下である)と判定した場合、処理はステップS65に進む。即ち、この場合、L1予測のY方向ベクトル差分dvyL1が最も大きい。
ステップS65において、制御部101は、上述の図10に示したように、L0予測についてはタイプ2の形状のサブブロックを設定し、L1予測についてはタイプ1の形状のサブブロックを設定した後、処理は終了される。
一方、ステップS64において、制御部101が、L0予測のY方向ベクトル差分dvyL0はL1予測のY方向ベクトル差分dvyL1より大きいと判定した場合、処理はステップS66に進む。即ち、この場合、L0予測のY方向ベクトル差分dvyL0が最も大きい。
ステップS66において、制御部101は、上述の図9に示したように、L0予測についてはタイプ1の形状のサブブロックを設定し、L1予測についてはタイプ1の形状のサブブロックを設定した後、処理は終了される。
一方、ステップS63において、制御部101が、L1予測のX方向ベクトル差分dvxL1がL1予測のY方向ベクトル差分dvyL1より大きいと判定した場合、処理はステップS67に進む。
ステップS67において、制御部101は、上述した式(2)の演算結果に基づき、L0予測のY方向ベクトル差分dvYL0がL1予測のX方向ベクトル差分dvXL1より大きいか否かを判定する。
ステップS67において、制御部101が、L0予測のY方向ベクトル差分dvYL0はL1予測のX方向ベクトル差分dvXL1より大きくない(L0予測のY方向ベクトル差分dvYL0はL1予測のX方向ベクトル差分dvXL1以下である)と判定した場合、処理はステップS65に進む。即ち、この場合、L1予測のX方向ベクトル差分dvXL1が最も大きい。従って、ステップS65において、上述の図9に示したように、L0予測についてはタイプ2の形状のサブブロックが設定され、L1予測についてはタイプ1の形状のサブブロックが設定される。
一方、ステップS67において、制御部101が、L0予測のY方向ベクトル差分dvyL0はL1予測のY方向ベクトル差分dvyL1より大きいと判定した場合、処理はステップS66に進む。即ち、この場合、L0予測のY方向ベクトル差分dvyL0が最も大きい。従って、ステップS66において、上述の図9に示したように、L0予測についてはタイプ1の形状のサブブロックが設定され、L1予測についてはタイプ1の形状のサブブロックが設定される。
ステップS68において、制御部101は、上述した式(2)の演算結果に基づき、L1予測のX方向ベクトル差分dvXL1がL1予測のY方向ベクトル差分dvYL1より大きいか否かを判定する。
ステップS68において、制御部101が、L1予測のX方向ベクトル差分dvXL1はL1予測のY方向ベクトル差分dvYL1より大きくない(L1予測のX方向ベクトル差分dvXL1はL1予測のY方向ベクトル差分dvYL1以下である)と判定した場合、処理はステップS69に進む。
ステップS69において、制御部101は、上述した式(2)の演算結果に基づき、L0予測のX方向ベクトル差分dvXL0がL1予測のY方向ベクトル差分dvYL1より大きいか否かを判定する。
ステップS69において、制御部101が、L0予測のX方向ベクトル差分dvXL0はL1予測のY方向ベクトル差分dvYL1より大きくない(L0予測のX方向ベクトル差分dvXL0はL1予測のY方向ベクトル差分dvYL1以下である)と判定した場合、処理はステップS66に進む。即ち、この場合、L1予測のY方向ベクトル差分dvYL1が最も大きい。従って、ステップS66において、上述の図9に示したように、L0予測についてはタイプ1の形状のサブブロックが設定され、L1予測についてはタイプ1の形状のサブブロックが設定される。
一方、ステップS69において、制御部101が、L0予測のX方向ベクトル差分dvXL0はL1予測のY方向ベクトル差分dvYL1より大きいと判定した場合、処理はステップS65に進む。即ち、この場合、L0予測のX方向ベクトル差分dvXL0が最も大きい。従って、ステップS65において、上述の図9に示したように、L0予測についてはタイプ2の形状のサブブロックが設定され、L1予測についてはタイプ1の形状のサブブロックが設定される。
一方、ステップS68において、制御部101が、L1予測のX方向ベクトル差分dvXL1はL1予測のY方向ベクトル差分dvYL1より大きいと判定した場合、処理はステップS70に進む。
ステップS70において、制御部101は、上述した式(2)の演算結果に基づき、L0予測のX方向ベクトル差分dvXL0がL1予測のX方向ベクトル差分dvXL1より大きいか否かを判定する。
ステップS70において、制御部101が、L0予測のX方向ベクトル差分dvXL0はL1予測のX方向ベクトル差分dvXL1より大きくない(L0予測のX方向ベクトル差分dvXL0はL1予測のX方向ベクトル差分dvXL1以下である)と判定した場合、処理はステップS66に進む。即ち、この場合、L1予測のX方向ベクトル差分dvXL1が最も大きい。従って、ステップS66において、上述の図9に示したように、L0予測についてはタイプ1の形状のサブブロックが設定され、L1予測についてはタイプ1の形状のサブブロックが設定される。
一方、ステップS70において、制御部101が、L0予測のX方向ベクトル差分dvXL0はL1予測のX方向ベクトル差分dvXL1より大きいと判定した場合、処理はステップS65に進む。即ち、この場合、L0予測のX方向ベクトル差分dvXL0が最も大きい。従って、ステップS65において、上述の図9に示したように、L0予測についてはタイプ2の形状のサブブロックが設定され、L1予測についてはタイプ1の形状のサブブロックが設定される。
一方、ステップS61において、制御部101が、インター予測処理における予測方向はBi-predictionでないと判定した場合、処理はステップS71に進む。ステップS71において、制御部101は、4×4の大きさのサブブロックを用いるようにサブブロックサイズ識別情報を設定した後、処理は終了される。
以上のように、L0予測のX方向ベクトル差分dvXL0、L0予測のY方向ベクトル差分dvYL0、L1予測のX方向ベクトル差分dvXL1、およびL1予測のY方向ベクトル差分dvYL1の比較結果に基づいて、L0予測とL1予測とで、矩形形状のサブブロックの長手方向をX方向とY方向とで切り替えてサブブロックサイズ識別情報を設定することができる。
図19は、画像復号装置13が実行する画像復号処理を説明するフローチャートである。
画像復号処理が開始されると、蓄積バッファ211は、ステップS81において、画像復号装置13の外部から供給される符号化データ(ビットストリーム)を取得して保持する(蓄積する)。
ステップS82において、復号部212は、その符号化データ(ビットストリーム)を復号し、量子化変換係数レベルlevelを得る。また、復号部212は、この復号により、符号化データ(ビットストリーム)から各種符号化パラメータをパースする(解析して取得する)。ここで復号処理を行う際に、図3を参照して上述したように、ビットストリームからサブブロックサイズ識別情報をパースする処理も行われる。
ステップS83において、逆量子化部213は、ステップS82の処理により得られた量子化変換係数レベルlevelに対して、符号化側で行われた量子化の逆処理である逆量子化を行い、変換係数Coeff_IQを得る。
ステップS84において、逆直交変換部214は、ステップS83の処理により得られた変換係数Coeff_IQに対して、符号化側で行われた直交変換処理の逆処理である逆直交変換処理を行い、予測残差D'を得る。
ステップS85において、予測部219は、ステップS82においてパースされた情報に基づいて、符号化側より指定される予測方法で予測処理を実行し、フレームメモリ218に記憶されている参照画像を参照する等して、予測画像Pを生成する。ここで予測処理を行う際に、図3を参照して上述したように、ステップS82でパースしたサブブロックサイズ識別情報に従って、インター予測処理で用いるサブブロックの大きさおよび形状を切り替えることができる。
ステップS86において、演算部215は、ステップS84の処理により得られた予測残差D'と、ステップS85の処理により得られた予測画像Pとを加算し、局所復号画像Rlocalを導出する。
ステップS87において、インループフィルタ部216は、ステップS86の処理により得られた局所復号画像Rlocalに対して、インループフィルタ処理を行う。
ステップS88において、並べ替えバッファ217は、ステップS87の処理により得られたフィルタ処理された局所復号画像Rlocalを用いて復号画像Rを導出し、その復号画像R群の順序を復号順から再生順に並べ替える。再生順に並べ替えられた復号画像R群は、動画像として画像復号装置13の外部に出力される。
また、ステップS89において、フレームメモリ218は、ステップS86の処理により得られた局所復号画像Rlocal、および、ステップS87の処理により得られたフィルタ処理後の局所復号画像Rlocalの内、少なくとも一方を記憶する。
ステップS89の処理が終了すると、画像復号処理が終了する。
以上のような流れの画像復号処理において、ステップS82およびステップS85の処理として、上述した本技術を適用した処理が行われる。従って、この画像復号処理を実行することにより、大きなサブブロックを使用したり、タイプ1またはタイプ2の形状のサブブロックを使用したりすることで、インター予測処理における処理量を削減することができる。
なお、上述したような補間フィルタについての処理を、例えば、AIF(Adaptive Interpolation Filter)に適用してもよい。
<コンピュータの構成例>
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
図20は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示すブロック図である。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク305やROM303に予め記録しておくことができる。
あるいはまた、プログラムは、ドライブ309によって駆動されるリムーバブル記録媒体311に格納(記録)しておくことができる。このようなリムーバブル記録媒体311は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体311としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体311からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク305にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit) 302を内蔵しており、CPU302には、バス301を介して、入出力インタフェース310が接続されている。
CPU302は、入出力インタフェース310を介して、ユーザによって、入力部307が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory) 303に格納されているプログラムを実行する。あるいは、CPU302は、ハードディスク305に格納されたプログラムを、RAM(Random Access Memory) 304にロードして実行する。
これにより、CPU302は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU302は、その処理結果を、必要に応じて、例えば、入出力インタフェース310を介して、出力部306から出力、あるいは、通信部308から送信、さらには、ハードディスク305に記録等させる。
なお、入力部307は、キーボードや、マウス、マイク等で構成される。また、出力部306は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
さらに、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
また、例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。
また、例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、例えば、上述したプログラムは、任意の装置において実行することができる。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。
また、例えば、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。
なお、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。
なお、本明細書において複数説明した本技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。
<本技術の適用対象>
本技術は、任意の画像符号化・復号方式に適用することができる。つまり、上述した本技術と矛盾しない限り、変換(逆変換)、量子化(逆量子化)、符号化(復号)、予測等、画像符号化・復号に関する各種処理の仕様は任意であり、上述した例に限定されない。また、上述した本技術と矛盾しない限り、これらの処理の内の一部を省略してもよい。
また本技術は、複数の視点(ビュー(view))の画像を含む多視点画像の符号化・復号を行う多視点画像符号化・復号システムに適用することができる。その場合、各視点(ビュー(view))の符号化・復号において、本技術を適用するようにすればよい。
さらに本技術は、所定のパラメータについてスケーラビリティ(scalability)機能を有するように複数レイヤ化(階層化)された階層画像の符号化・復号を行う階層画像符号化(スケーラブル符号化)・復号システムに適用することができる。その場合、各階層(レイヤ)の符号化・復号において、本技術を適用するようにすればよい。
実施形態に係る画像符号化装置や画像復号装置は、例えば、衛星放送、ケーブルTVなどの有線放送、インターネット上での配信、およびセルラー通信による端末への配信などにおける送信機や受信機(例えばテレビジョン受像機や携帯電話機)、または、光ディスク、磁気ディスクおよびフラッシュメモリなどの媒体に画像を記録したり、これら記憶媒体から画像を再生したりする装置(例えばハードディスクレコーダやカメラ)などの、様々な電子機器に応用され得る。
また、本技術は、任意の装置またはシステムを構成する装置に搭載するあらゆる構成、例えば、システムLSI(Large Scale Integration)等としてのプロセッサ(例えばビデオプロセッサ)、複数のプロセッサ等を用いるモジュール(例えばビデオモジュール)、複数のモジュール等を用いるユニット(例えばビデオユニット)、ユニットにさらにその他の機能を付加したセット(例えばビデオセット)等(すなわち、装置の一部の構成)として実施することもできる。
さらに、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、コンピュータ、AV(Audio Visual)機器、携帯型情報処理端末、IoT(Internet of Things)デバイス等の任意の端末に対して、画像(動画像)に関するサービスを提供するクラウドサービスに適用することもできる。
なお、本技術を適用したシステム、装置、処理部等は、例えば、交通、医療、防犯、農業、畜産業、鉱業、美容、工場、家電、気象、自然監視等、任意の分野に利用することができる。また、その用途も任意である。
例えば、本技術は、観賞用コンテンツ等の提供の用に供されるシステムやデバイスに適用することができる。また、例えば、本技術は、交通状況の監理や自動運転制御等、交通の用に供されるシステムやデバイスにも適用することができる。さらに、例えば、本技術は、セキュリティの用に供されるシステムやデバイスにも適用することができる。また、例えば、本技術は、機械等の自動制御の用に供されるシステムやデバイスに適用することができる。さらに、例えば、本技術は、農業や畜産業の用に供されるシステムやデバイスにも適用することができる。また、本技術は、例えば火山、森林、海洋等の自然の状態や野生生物等を監視するシステムやデバイスにも適用することができる。さらに、例えば、本技術は、スポーツの用に供されるシステムやデバイスにも適用することができる。
<構成の組み合わせ例>
なお、本技術は以下のような構成も取ることができる。
(1)
アフィン変換における動き補償で用いられる動きベクトルに基づいて、画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する識別情報を設定する設定部と、
前記設定部による設定に応じた大きさまたは形状の前記サブブロックに対して前記アフィン変換を適用する前記インター予測処理を行って前記画像を符号化し、前記識別情報を含むビットストリームを生成する符号化部と
を備える画像符号化装置。
(2)
前記設定部は、矩形形状の前記サブブロックについて、その矩形形状の長手方向をX方向およびY方向で切り替えて設定する
上記(1)に記載の画像符号化装置。
(3)
前記設定部は、X方向ベクトル差分が、Y方向ベクトル差分より小さい場合、矩形形状の前記サブブロックの長手方向をX方向として前記識別情報を設定する
上記(1)または(2)に記載の画像符号化装置。
(4)
前記設定部は、前記X方向ベクトル差分が、前記Y方向ベクトル差分より小さい場合、矩形形状の前記サブブロックのサイズを8×4として前記識別情報を設定する
上記(3)に記載の画像符号化装置。
(5)
前記設定部は、Y方向ベクトル差分が、X方向ベクトル差分より小さい場合、矩形形状の前記サブブロックの長手方向をY方向として前記識別情報を設定する
上記(1)から(4)までのいずれかに記載の画像符号化装置。
(6)
前記設定部は、前記Y方向ベクトル差分が、前記X方向ベクトル差分より小さい場合、矩形形状の前記サブブロックのサイズを4×8として前記識別情報を設定する
上記(5)に記載の画像符号化装置。
(7)
前記設定部は、前記サブブロックの左上頂点、右上頂点、および左下頂点の動きベクトルを用いてX方向ベクトル差分およびY方向ベクトル差分を算出し、
前記X方向ベクトル差分の絶対値が、前記Y方向ベクトル差分の絶対値より大きい場合、矩形形状の前記サブブロックの長手方向をX方向として前記識別情報を設定し、
前記X方向ベクトル差分の絶対値が、前記Y方向ベクトル差分の絶対値以下である場合、矩形形状の前記サブブロックの長手方向をY方向として前記識別情報を設定する
上記(1)から(6)までのいずれかに記載の画像符号化装置。
(8)
前記設定部は、前記インター予測処理における予測方向がBi-predictionである場合に、矩形形状の前記サブブロックを用いるように前記識別情報を設定する
上記(1)から(7)までのいずれかに記載の画像符号化装置。
(9)
前記設定部は、Bi-predictionの前記インター予測処理における前方向予測および後方向予想のうちの、いずれか一方で用いる矩形形状の前記サブブロックの長手方向をX方向とし、他方で用いる矩形形状の前記サブブロックの長手方向をY方向として前記識別情報を設定する
上記(8)に記載の画像符号化装置。
(10)
前記設定部は、
前記前方向予測で用いる前記サブブロックの左上頂点、右上頂点、および左下頂点の動きベクトルを用いて、前方向予測のX方向ベクトル差分および前方向予測のY方向ベクトル差分を算出し、
前記後方向予測で用いる前記サブブロックの左上頂点、右上頂点、および左下頂点の動きベクトルを用いて、後方向予測のX方向ベクトル差分および後方向予測のY方向ベクトル差分を算出して、
前記前方向予測のX方向ベクトル差分または前記後方向予測のX方向ベクトル差分が最も大きい場合、前記前方向予測で用いる矩形形状の前記サブブロックの長手方向をY方向とし、かつ、前記後方向予測で用いる矩形形状の前記サブブロックの長手方向をX方向として前記識別情報を設定し、
前方向予測のY方向ベクトル差分または前記後方向予測のY方向ベクトル差分が最も大きい場合、前記前方向予測で用いる矩形形状の前記サブブロックの長手方向をX方向とし、かつ、前記後方向予測で用いる矩形形状の前記サブブロックの長手方向をY方向として前記識別情報を設定する
上記(9)に記載の画像符号化装置。
(11)
画像を符号化する画像符号化装置が、
アフィン変換における動き補償で用いられる動きベクトルに基づいて、前記画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する識別情報を設定することと、
その設定に応じた大きさまたは形状の前記サブブロックに対して前記アフィン変換を適用する前記インター予測処理を行って前記画像を符号化し、前記識別情報を含むビットストリームを生成することと
を含む画像符号化方法。
(12)
アフィン変換における動き補償で用いられる動きベクトルに基づいて設定される識別情報であって、画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する前記識別情報を含むビットストリームから、前記識別情報をパースするパース部と、
前記パース部によりパースされた前記識別情報に従った大きさまたは形状の前記サブブロックに対して前記アフィン変換を適用する前記インター予測処理を行って、前記ビットストリームを復号して前記画像を生成する復号部と
を備える画像復号装置。
(13)
画像を復号する画像復号装置が、
アフィン変換における動き補償で用いられる動きベクトルに基づいて設定される識別情報であって、前記画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する前記識別情報を含むビットストリームから、前記識別情報をパースすることと、
そのパースされた前記識別情報に従った大きさまたは形状の前記サブブロックに対してアフィン変換を適用する前記インター予測処理を行って、前記ビットストリームを復号して前記画像を生成することと
を含む画像復号方法。
なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
11 画像処理システム, 12 画像符号化装置, 13 画像復号装置, 21 画像処理チップ, 22 外部メモリ, 23 符号化回路, 24 キャッシュメモリ 31 画像処理チップ, 32 外部メモリ, 33 復号回路, 34 キャッシュメモリ, 35 水平方向補間フィルタ, 36 転置用メモリ, 37 垂直方向補間フィルタ, 38 平均化部, 101 制御部, 122 予測部, 113 直交変換部, 115 符号化部, 118 逆直交変換部, 120 インループフィルタ部, 212 復号部, 214 逆直交変換部, 216 インループフィルタ部, 219 予測部

Claims (13)

  1. アフィン変換における動き補償で用いられる動きベクトルに基づいて、画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する識別情報を設定する設定部と、
    前記設定部による設定に応じた大きさまたは形状の前記サブブロックに対して前記アフィン変換を適用する前記インター予測処理を行って前記画像を符号化し、前記識別情報を含むビットストリームを生成する符号化部と
    を備える画像符号化装置。
  2. 前記設定部は、矩形形状の前記サブブロックについて、その矩形形状の長手方向をX方向およびY方向で切り替えて設定する
    請求項1に記載の画像符号化装置。
  3. 前記設定部は、X方向ベクトル差分が、Y方向ベクトル差分より小さい場合、矩形形状の前記サブブロックの長手方向をX方向として前記識別情報を設定する
    請求項1に記載の画像符号化装置。
  4. 前記設定部は、前記X方向ベクトル差分が、前記Y方向ベクトル差分より小さい場合、矩形形状の前記サブブロックのサイズを8×4として前記識別情報を設定する
    請求項3に記載の画像符号化装置。
  5. 前記設定部は、Y方向ベクトル差分が、X方向ベクトル差分より小さい場合、矩形形状の前記サブブロックの長手方向をY方向として前記識別情報を設定する
    請求項1に記載の画像符号化装置。
  6. 前記設定部は、前記Y方向ベクトル差分が、前記X方向ベクトル差分より小さい場合、矩形形状の前記サブブロックのサイズを4×8として前記識別情報を設定する
    請求項5に記載の画像符号化装置。
  7. 前記設定部は、前記サブブロックの左上頂点、右上頂点、および左下頂点の動きベクトルを用いてX方向ベクトル差分およびY方向ベクトル差分を算出し、
    前記X方向ベクトル差分の絶対値が、前記Y方向ベクトル差分の絶対値より大きい場合、矩形形状の前記サブブロックの長手方向をX方向として前記識別情報を設定し、
    前記X方向ベクトル差分の絶対値が、前記Y方向ベクトル差分の絶対値以下である場合、矩形形状の前記サブブロックの長手方向をY方向として前記識別情報を設定する
    請求項1に記載の画像符号化装置。
  8. 前記設定部は、前記インター予測処理における予測方向がBi-predictionである場合に、矩形形状の前記サブブロックを用いるように前記識別情報を設定する
    請求項1に記載の画像符号化装置。
  9. 前記設定部は、Bi-predictionの前記インター予測処理における前方向予測および後方向予想のうちの、いずれか一方で用いる矩形形状の前記サブブロックの長手方向をX方向とし、他方で用いる矩形形状の前記サブブロックの長手方向をY方向として前記識別情報を設定する
    請求項8に記載の画像符号化装置。
  10. 前記設定部は、
    前記前方向予測で用いる前記サブブロックの左上頂点、右上頂点、および左下頂点の動きベクトルを用いて、前方向予測のX方向ベクトル差分および前方向予測のY方向ベクトル差分を算出し、
    前記後方向予測で用いる前記サブブロックの左上頂点、右上頂点、および左下頂点の動きベクトルを用いて、後方向予測のX方向ベクトル差分および後方向予測のY方向ベクトル差分を算出して、
    前記前方向予測のX方向ベクトル差分または前記後方向予測のX方向ベクトル差分が最も大きい場合、前記前方向予測で用いる矩形形状の前記サブブロックの長手方向をY方向とし、かつ、前記後方向予測で用いる矩形形状の前記サブブロックの長手方向をX方向として前記識別情報を設定し、
    前方向予測のY方向ベクトル差分または前記後方向予測のY方向ベクトル差分が最も大きい場合、前記前方向予測で用いる矩形形状の前記サブブロックの長手方向をX方向とし、かつ、前記後方向予測で用いる矩形形状の前記サブブロックの長手方向をY方向として前記識別情報を設定する
    請求項9に記載の画像符号化装置。
  11. 画像を符号化する画像符号化装置が、
    アフィン変換における動き補償で用いられる動きベクトルに基づいて、前記画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する識別情報を設定することと、
    その設定に応じた大きさまたは形状の前記サブブロックに対して前記アフィン変換を適用する前記インター予測処理を行って前記画像を符号化し、前記識別情報を含むビットストリームを生成することと
    を含む画像符号化方法。
  12. アフィン変換における動き補償で用いられる動きベクトルに基づいて設定される識別情報であって、画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する前記識別情報を含むビットストリームから、前記識別情報をパースするパース部と、
    前記パース部によりパースされた前記識別情報に従った大きさまたは形状の前記サブブロックに対して前記アフィン変換を適用する前記インター予測処理を行って、前記ビットストリームを復号して前記画像を生成する復号部と
    を備える画像復号装置。
  13. 画像を復号する画像復号装置が、
    アフィン変換における動き補償で用いられる動きベクトルに基づいて設定される識別情報であって、前記画像に対するインター予測処理で用いられるサブブロックの大きさまたは形状を識別する前記識別情報を含むビットストリームから、前記識別情報をパースすることと、
    そのパースされた前記識別情報に従った大きさまたは形状の前記サブブロックに対してアフィン変換を適用する前記インター予測処理を行って、前記ビットストリームを復号して前記画像を生成することと
    を含む画像復号方法。
JP2018235107A 2018-12-17 2018-12-17 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法 Pending JP2022028089A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018235107A JP2022028089A (ja) 2018-12-17 2018-12-17 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法
PCT/JP2019/047342 WO2020129636A1 (ja) 2018-12-17 2019-12-04 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法
US17/311,800 US20220021899A1 (en) 2018-12-17 2019-12-04 Image encoding apparatus, image encoding method, image decoding apparatus, and image decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018235107A JP2022028089A (ja) 2018-12-17 2018-12-17 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法

Publications (1)

Publication Number Publication Date
JP2022028089A true JP2022028089A (ja) 2022-02-15

Family

ID=71101104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018235107A Pending JP2022028089A (ja) 2018-12-17 2018-12-17 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法

Country Status (3)

Country Link
US (1) US20220021899A1 (ja)
JP (1) JP2022028089A (ja)
WO (1) WO2020129636A1 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016008157A1 (en) * 2014-07-18 2016-01-21 Mediatek Singapore Pte. Ltd. Methods for motion compensation using high order motion model
CN106303543B (zh) * 2015-05-15 2018-10-30 华为技术有限公司 视频图像编码和解码的方法、编码设备和解码设备
WO2017118409A1 (en) * 2016-01-07 2017-07-13 Mediatek Inc. Method and apparatus for affine merge mode prediction for video coding system
WO2018070152A1 (en) * 2016-10-10 2018-04-19 Sharp Kabushiki Kaisha Systems and methods for performing motion compensation for coding of video data
US10609384B2 (en) * 2017-09-21 2020-03-31 Futurewei Technologies, Inc. Restriction on sub-block size derivation for affine inter prediction
US11425418B2 (en) * 2017-11-01 2022-08-23 Vid Scale, Inc. Overlapped block motion compensation
US11051025B2 (en) * 2018-07-13 2021-06-29 Tencent America LLC Method and apparatus for video coding

Also Published As

Publication number Publication date
US20220021899A1 (en) 2022-01-20
WO2020129636A1 (ja) 2020-06-25

Similar Documents

Publication Publication Date Title
US11343538B2 (en) Image processing apparatus and method
WO2021125309A1 (ja) 画像処理装置および方法
US20220400285A1 (en) Image processing apparatus and method
US20210144376A1 (en) Image processing apparatus and method
JP7235030B2 (ja) 画像処理装置および方法
WO2021039650A1 (ja) 画像処理装置および方法
US20240040137A1 (en) Image processing apparatus and method
WO2019188465A1 (ja) 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法
JP2022016726A (ja) 画像処理装置および方法
WO2019188464A1 (ja) 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法
JP7235031B2 (ja) 画像処理装置および方法
JP7494858B2 (ja) 画像処理装置および方法
WO2022044845A1 (ja) 画像処理装置および方法
WO2021117500A1 (ja) 画像処理装置、ビットストリーム生成方法、係数データ生成方法、および量子化係数生成方法
US20220124334A1 (en) Image processing apparatus and method
WO2020008714A1 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
WO2020066641A1 (ja) 画像処理装置および方法
WO2020129636A1 (ja) 画像符号化装置、画像符号化方法、画像復号装置、および画像復号方法
WO2021117866A1 (ja) 画像処理装置および方法
JP7484923B2 (ja) 画像処理装置および方法
US20230045106A1 (en) Image processing apparatus and method
US20220086489A1 (en) Image processing apparatus and method
KR20240024808A (ko) 화상 처리 장치 및 방법