JP2018125718A - モード予測情報生成装置およびプログラム - Google Patents

モード予測情報生成装置およびプログラム Download PDF

Info

Publication number
JP2018125718A
JP2018125718A JP2017016776A JP2017016776A JP2018125718A JP 2018125718 A JP2018125718 A JP 2018125718A JP 2017016776 A JP2017016776 A JP 2017016776A JP 2017016776 A JP2017016776 A JP 2017016776A JP 2018125718 A JP2018125718 A JP 2018125718A
Authority
JP
Japan
Prior art keywords
mode
information
unit
intra prediction
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017016776A
Other languages
English (en)
Inventor
俊枝 三須
Toshie Misu
俊枝 三須
井口 和久
Kazuhisa Iguchi
和久 井口
境田 慎一
Shinichi Sakaida
慎一 境田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2017016776A priority Critical patent/JP2018125718A/ja
Publication of JP2018125718A publication Critical patent/JP2018125718A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】変化し得る映像の特性も対応して、イントラ予測モードの候補に関する情報を生成することのできるモード予測情報生成装置を提供する。【解決手段】モード予測情報生成装置は、符号化の対象である対象ブロックに隣接する領域である隣接ブロックに関する情報である隣接ブロック情報を入力とし、識別モードにおいては、前記隣接ブロック情報と、内部の状態を表す内部状態情報に基づいて、前記対象ブロックについての予測モード毎の評価値情報を出力するとともに、さらに、学習モードにおいては、前記予測モードの前記評価値情報に関する正解データを入力とし、前記正解データに基づいて前記内部状態情報を更新する識別部と、前記対象ブロックの最適イントラ予測モードを入力とし、前記最適イントラ予測モードに基づいて前記正解データを生成して前記識別部に供給する正解データ生成部と、を具備する。【選択図】図3

Description

本発明は、画像の符号化におけるモードを予測するためのモード予測情報生成装置およびプログラムに関する。
画像符号化や映像符号化のイントラスライスにおいては、画面内の既に符号化済みの領域内の情報に基づき、これから符号化すべき対象領域の画素値列を予測する。そして、その対象領域の実際の画素値列と予測による画素値列との差分を取って、エントロピー符号化する。これにより、前記差分が統計的に0付近の値に偏在する傾向を活用して符号化効率の向上を実現している。
例えば、MPEG−H HEVC/H.265(以下、HEVCと呼ぶ)においては、方向予測モード(33種類)と、DC予測と、平面予測との、合計35種類の画面内予測モードが利用可能である。このうち、方向予測モードは、符号化対象ブロック近傍の参照画素値列を所定方向へ外挿することにより予測ブロックを得るものである。また、DC予測は、予測ブロック内の全画素を参照画素値列の平均値とするものである。また、平面予測は、参照画素値列に近似的な双一次補間を適用することで予測ブロックを得るものである。
HEVCにおいて、画面内予測はTU(トランスフォームユニット、Transform Unit)と称するブロック単位で実行される。このとき、TUに適用した画面内予測モードを、符号化器側から復号器側へ通知する必要がある。HEVCにおいては、注目するTU(以下、対象TU)の左に隣接するTU(左に隣接するTUが複数ある場合には、そのうち最も上のTU)、および対象TUの上に隣接するTU(上に隣接するTUが複数ある場合には、そのうち最も左のもの)の画面内予測モード番号に応じて対象TUの画面内予測モード番号を符号化することにより、画面内予測モードの空間的相関を利用したエントロピー削減を図っている。
また、特許文献1には、対象TUに隣接するTUの画素値のパターンに応じて、対象TUの画面内予測モード(方向予測の方向)を予測する手法が開示されている。
特許第5514130号公報
HEVCにおける画面内予測モードの符号化法では、対象TUの画面内予測モードが、隣接TUの画面内予測モードと一致する可能性が高いという傾向を利用する。このとき、対象TUの左または上における画面内予測モードを既定の場合分けルールに当てはめ、対象TUの画面内予測モードに対する3つの候補を画一的に定める。そして、これら3候補内に対象TUの実際の画面内予測モードが含まれれば3候補のうち一を特定するインデックスを通知し、含まれなければ当該3候補を除いて数えたときの画面内予測モード番号を通知するようにする。
例えば、対象TUの左隣接ブロックが画面内予測モード16(左斜め上、勾配21/32(約33.3度)の方向を参照する方向予測)、上隣接ブロックが画面内予測モード18(左斜め上、勾配32/32(45.0度)方向を参照する方向予測)であった場合、HEVCでは、モード16、モード18、およびモード0(平面予測)を前述の3候補として設定する。つまり、左および上の隣接ブロックの予測モードがそれぞれモード16およびモード18である場合、モード16とモード18の中間の方向を参照するモード17(左斜め上、勾配26/32(約39.1度)の方向を参照する方向予測)が出現する確率も高いにもかかわらず、モード17は3候補には含まれない。これにより、符号化が非効率となる可能性がある。
また、HEVCにおいては、対象TUの画面内予測モードが上記の3候補に含まれれば大幅なビット削減が期待できる反面、対象TUの画面内予測モードがその3候補から漏れた場合については、符号化における効率の損失を余儀なくされるという問題がある。
さらに、HEVCにおけるイントラ予測モードの3つの候補は、隣接TUのイントラ予測モード番号のみによって決定され、当該隣接TU内の画素値のパターンは考慮されないという問題がある。例として、左隣接TUが横方向の規則的な縞模様を有する場合と、ランダムなパターンを有する場合とでは、対象TUのイントラ予測モードを言い当てられる確率は異なるはずであるが、HEVCの手法ではこれら両者の画素値パターンを画一的に扱ってしまうことになる。
また、特許文献1に記載されている手法では、隣接TUの画素値パターンの空間周波数に応じて対象TUのイントラ予測モードの候補を決定する。この手法では規則的なパターンを有する画像領域に対しては適切なイントラ予測モード候補を提示することができるものの、画像パターンの規則性が乏しい場合や、パターンが平坦な場合への対応に課題が残る。
また、HEVCおよび特許文献1のいずれの手法においても、対象TUのイントラ予測モード候補を絞り込む手法は画一的であり、符号化対象の映像に応じて手法を逐一変化させることはできない。つまり、時々刻々の映像の特性に合わせた候補生成に対応していないため、未だ符号化効率を改善する余地が残っている。
本発明は、上記のような課題認識に基づいて為されたものであり、変化し得る映像の特性も対応して、イントラ予測モードの候補に関する情報を生成することのできるモード予測情報生成装置およびプログラムを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様によるモード予測情報生成装置は、符号化の対象である対象ブロックに隣接する領域である隣接ブロックに関する情報である隣接ブロック情報を入力とし、識別モードにおいては、前記隣接ブロック情報と、内部の状態を表す内部状態情報に基づいて、前記対象ブロックについての予測モード毎の評価値情報を出力するとともに、さらに、学習モードにおいては、前記予測モードの前記評価値情報に関する正解データを入力とし、前記正解データに基づいて前記内部状態情報を更新する識別部と、前記対象ブロックの最適イントラ予測モードを入力とし、前記最適イントラ予測モードに基づいて前記正解データを生成して前記識別部に供給する正解データ生成部と、を具備することを特徴とする。
[2]また、本発明の一態様は、上記のモード予測情報生成装置において、前記識別部から出力される前記評価値情報に基づいて、前記予測モード毎の生起可能性の順序を表す情報を含むシンタックス要素値を生成するシンタックス要素値生成部、をさらに具備することを特徴とする。
[3]また、本発明の一態様は、上記のモード予測情報生成装置において、前記隣接ブロック情報は、前記隣接ブロックに含まれる画素値に基づく画素値列の情報を含む、ことを特徴とする。
[4]また、本発明の一態様は、上記のモード予測情報生成装置において、前記隣接ブロック情報は、前記隣接ブロックにおける最適イントラ予測モードの情報を含む、ことを特徴とする。
[5]また、本発明の一態様は、上記のモード予測情報生成装置において、前記識別部が、ニューラルネットワークを用いて実装される、ことを特徴とする。
[6]また、本発明の一態様は、コンピューターを、上記の[1]から[5]までのいずれか一項に記載のモード予測情報生成装置として機能させるためのプログラムである。
本発明によれば、対象ブロックのイントラ予測モードと、隣接ブロック情報との間の関連性を学習することにより、適切なイントラ予測モード候補の提示が可能となり、符号化効率が改善される。そして、変化する映像に追随して適切なイントラ予測モード候補の提示が可能となり、符号化効率が改善される。
本発明の実施形態による映像符号化装置の概略機能構成を示すブロック図である。 同実施形態において、符号化および復号の対象である画像の、対象ブロックと、隣接ブロック最適イントラ予測モードと、参照画素値列との配置等の関係の一例を示す概略図である。 同実施形態によるイントラモード予測装置の概略機能構成を示すブロック図である。 同実施形態による映像復号装置の概略機能構成を示すブロック図である。
[第1実施形態]
次に、図面を参照しながら、本発明の実施形態について説明する。
本実施形態によるイントラモード予測装置は、映像符号化装置または映像復号装置内の一機能として組み込まれ、イントラ予測(画面内予測)における予測モード情報を予測する。映像符号化装置は、静止画や動画を符号化する。映像復号装置は、静止画や動画を復号する。以下において、静止画および動画を「画像」と総称する場合がある。
図1は、映像符号化装置1の概略機能構成を示すブロック図である。
図4は、映像復号装置3の概略機能構成を示すブロック図である。
映像符号化装置1と映像復号装置3とは相互に対応するものである。映像符号化装置1から映像復号装置3へ、伝送路(伝送装置を含む)や、蓄積装置や、あるいはその両者の復号媒体(以下、これらを総称して伝送・蓄積装置と呼ぶ)を介して、符号化したビット列を受け渡す。
次に、映像符号化装置1の機能構成について説明する。なお、映像復号装置3の機能構成については後で説明する。
図1に示すように、映像符号化装置1は、ブロック分割部10と、メモリ11と、イントラ予測部12と、減算部13と、変換部14と、量子化部15と、エントロピー符号化部16と、逆量子化部17と、逆変換部18と、加算部19と、最適化部20と、本発明に係るイントラモード予測装置21と、シンタックス要素値生成部22と、を含んで構成される。
ブロック分割部10は、入力画像(動画像にあってはフレーム)を部分領域(ブロック)に分割する。典型的には、ブロック分割部10は、入力画像を矩形の部分領域に分割する。
部分領域は、例えば、所定の形状および大きさを有する。部分領域の形状および大きさのことを、以下において「ブロック形状」と呼ぶ場合がある。ブロック形状の一例は、矩形であり、且つ水平方向8画素および垂直方向8画素の合計64画素の領域に対応する。
あるいは、ブロック分割部10が、異なる複数のブロック形状の中から、例えば画像の特徴や符号化時のレート歪特性に応じて、ブロック形状を適応的に選択するようにしてもよい。
つまり、ブロック分割部10は、ブロック位置を変えながら、また必要に応じてブロックの大きさや形状を変えながら、入力画像から順次ブロックを切り出す。以後の符号化処理は、このブロックの単位で行われる。
メモリ11は、符号化処理および復号処理をブロック単位で実行した結果(局部復号ブロック)を順次記憶する。すなわち、メモリ11は、画像のうちこれまでに符号化・復号された部分領域の画素値列を保持する。また、メモリ11には、後述する最適化部20が行った最適化の結果(モード)を記憶する。最適化の結果とは、特に、最適化部20が後述するイントラ予測部12に対してブロックごとに指示した最適イントラ予測モードである。
イントラ予測部12は、メモリ11に保持されている画素値列に基づき、ブロック分割部10が分割した、次に符号化するブロック(対象ブロック)内の画素値列を推測(予測)する。イントラ予測部12の動作として、複数のイントラ予測モードが存在する。イントラ予測部12は、後述する最適化部20によって指定される最適イントラ予測モードによって、対象ブロックの画素値列を予測する動作を行う。
例えば、イントラ予測部12は、メモリ11に保持されている画素値列のうち、対象ブロックに近接する画素値列(以下、「参照画素値列」と呼ぶ)に基づき、対象ブロックの画素値列を予測する。ここで参照画素値列は、例えば、対象ブロックの左辺に隣接する画素値列およびその直下の所定個数の画素値列、対象ブロックの上辺に隣接する画素値列およびその真横右方に並ぶ所定個数の画素値列、並びに対象ブロックの最も左上の画素の左斜め上に存在する画素の画素値である。
また、イントラ予測部12は、HEVCにおけるイントラ予測と同様に、参照画素値列に基づいて、イントラ予測モードに応じた予測を行う。例えば、イントラ予測部12は、イントラ予測モード0では平面予測を行い、イントラ予測モード1ではDC予測を行い、イントラ予測モード2から34のそれぞれにおいては各種方向を参照して外挿により予測値を得る方向予測を行う。
減算部13は、ブロック分割部10によって分割されたブロック内の画素値列から、イントラ予測部12により予測された画素値列を画素位置ごとに減じ、その結果たる残差値列を出力する。
変換部14は、減算部13からの残差値列に対し、数学的な変換を施し、その結果たる変換係数列を出力する。変換部14において実行する変換は、単一種類であっても構わないし、ブロック形状や画像の特徴やレート歪特性等に応じて適応的に複数種類の変換の中から選択したものであっても構わない。
変換部14が実行する変換の種類は、例えば、離散コサイン変換(DCT: Discrete Cosine Transform)、離散サイン変換(DST: Discrete Sine Transform)、ウェーブレット変換、ウォルシュ・アダマール変換、およびこれらの変換に整数近似や離散近似を施した変換などである。
量子化部15は、変換部14によって得られた変換係数列を、より多くない信号値レベルに変換(量子化)する。量子化部15は、例えば、変換部14から出力される変換係数列を所定の正値(量子化ステップ)によって除し、その結果を整数値に丸めた数列を出力する。または、量子化部15は、例えば、変換係数列の各項を、各項の位置ごとに決められた量子化ステップ(量子化テーブル)によって除すよう構成してもよい。さらに、量子化ステップや量子化テーブルを複数備え、それらの中から使用者が一つを指定したり、自動的に選択したり、さらに自動的に切り替えるよう構成してもよい。
エントロピー符号化部16は、量子化部15によって量子化された変換係数列をそのエントロピーに着目して符号化する。また、エントロピー符号化部16は、後述するシンタックス要素値生成部22から渡されるイントラ予測モードに関する情報を符号化する。エントロピー符号化部16は、前記の量子化された変換係数列および前記のイントラ予測モードに関する情報(イントラ予測モードに関するシンタックス要素値)のほか、符号化の各処理(ブロック分割部10、変換部14、量子化部15、イントラ予測部12)の動作状態(複数の異なる動作のうちいずれを用いたかを表す識別子:モード)をも符号化してもよい。
エントロピー符号化部16は、符号化方式として、例えば、可変長符号化(例えば、ハフマン符号化やその変形であるCAVLC(コンテキスト適応型可変長符号化方式))を用いることができる。あるいは、エントロピー符号化部16は、算術符号化やその変形であるCABAC(コンテキスト適応型二値算術符号化方式)を用いることができる。
逆量子化部17は、量子化部15によって量子化された変換係数列に、量子化ステップを乗ずることにより、逆量子化された変換係数列を得る。
逆変換部18は、逆量子化部17によって得られた逆量子化された変換係数列に対し変換部14が行った変換の逆変換を実行し、その結果を復号された残差値列として出力する。
加算部19は、イントラ予測部12により予測された画素値列と逆変換部18から出力された復号された残差値列とを画素位置ごとに加算し、その結果を復号画素値列として出力する。
なお、加算部19が出力する復号画素値列は、メモリ11内の現在処理中のブロックに対応する記憶領域に書き込まれる。
最適化部20は、ブロック分割部10、変換部14、量子化部15、逆量子化部17、逆変換部18、およびイントラ予測部12のうち、少なくともイントラ予測部12を含む1以上の機能について、最適モードを判定する。具体的には、最適化部20は、その機能の複数通りの動作状態(モード)中から最も符号化効率が良くなると判断されるモードを判定し、該モードにおいて対象の機能を動作せしめる。なお、最適化部20は、量子化歪および符号量の線形結合によるラグランジュコスト関数や、これを近似したコスト関数に基づき、コスト最小のモードを探索することで、最適化を実現する。
図1に示す構成では、最適化部20は、イントラ予測部12におけるモード選択の最適化のみを行う。よって、最適化部20からイントラ予測部12への信号線のみが記載されている。
イントラモード予測装置21は、最適化部20がイントラ予測部12に対して指示すると予期される最適イントラ予測モードを推定(最適イントラ予測モードの予測)する。具体的には、イントラモード予測装置21は、メモリ11内に保持されている対象ブロックに隣接するブロック(隣接ブロック)の最適イントラ予測モード(以下、隣接ブロック最適イントラ予測モードと呼ぶ)および参照画素値列に基づき、上記の予測を行う。
また、イントラモード予測装置21は、最適化部20が実際に選択した最適イントラ予測モードと、そのときにメモリ11内に保持されていた隣接ブロック最適イントラ予測モードと参照画素値列とに基づいて、イントラモード予測装置21の動作状態の調整を行う。この調整は、イントラモード予測装置21による最適イントラ予測モードの予測の精度向上を図るためのものである。具体例として、イントラモード予測装置21は、最適イントラ予測モードを予測するために用いる予測式を、パラメーターにより可変としておく。そして、そのパラメーターを変化させることによって、上記の動作状態の調整を実現する。
シンタックス要素値生成部22は、イントラモード予測装置21によって推定された最適イントラ予測モードに関する情報を、イントラ予測モードに関するシンタックス要素値に変換して出力する。シンタックス要素値生成部22は、入力される情報のエントロピーよりも、出力する情報のエントロピーのほうが小さくなることが期待されるよう、機能する。シンタックス要素値生成部22の詳細については、後述する。
図2は、対象ブロックと、隣接ブロック最適イントラ予測モードと、参照画素値列との関係の一例を示す概略図である。
図2(a)は、対象ブロックと隣接ブロック最適イントラ予測モードとの関係を示している。
図2(b)は、対象ブロックと、参照画素値列との関係の一例を示している。
図2(a)および図2(b)は、画像内の同一の領域を示している。その領域には、4つのブロックが含まれている。各ブロックは、水平方向4画素×垂直方向4画素のサイズを持つ、即ち16個の画素を有する矩形領域である。図2(a)および図2(b)のいずれにおいても、示されている4つのブロックのうち、「M」で示したブロックが対象ブロックである。
また、図2(a)において、「A」、「B」、「C」で示したそれぞれのブロックが、対象ブロックの隣接ブロックである。具体的には、対象ブロックMの左に隣接するブロックがAであり、対象ブロックMの上に隣接するブロックがBであり、対象ブロックMの斜め左上に隣接するブロックがCである。
また、図2(b)において、対象ブロックMに隣接する領域に含まれる48個の参照画素を、rからr47までの記号で示している。rからr47までの記号は、対象ブロックMからの距離と、画素配置とに基づき、所定の順序で割り振られている。対象ブロックMについての参照画素値列は、rからr47までの画素値を並べたものである。
次に、イントラモード予測装置の機能構成について説明する。
図3は、本実施形態によるイントラモード予測装置21の概略機能構成を示すブロック図である。図示するように、イントラモード予測装置21は、識別部211と、正解データ生成部212と、モード候補生成部213とを含んで構成される。
識別部211は、識別モードおよび学習モードの二つの動作モードを有する。識別部211は、一例としてニューラルネットワークを用いて実現される。ニューラルネットワークによる識別部211実現方法の詳細については、後述する。識別部211は、上記の二つの動作モードに応じて、それぞれ、次のような処理を行う。
識別部211は、識別モードにおいては、隣接ブロックの最適イントラ予測モードと参照画素値列の入力を受け、対象ブロックに対する各イントラ予測モードの適否の評価値を出力する。図2においてA,B,Cを付して示した各隣接ブロックの最適イントラ予測モードを、図3では、それぞれA,B,Cで表している。また、図2においてrからr47までの記号を付して示した各画素(参照画素)の画素値(参照画素値)を、図3では、それぞれrからr47までで表している。また、対象ブロックに対する各イントラ予測モード(35種類)の適否の評価値を、図3では、yからy34までで表している。yからy34までの値は、各イントラ予測モードの適否の度合いを表す実数である。なお、yからy34までの各々の値が0.0以上且つ1.0以下(値が大きいほど、そのイントラ予測モードは適していることを表す)になるよう正規化してもよい。
なお、識別部211への入力である隣接ブロック最適イントラ予測モード(A,B,C)と参照画素値の列である参照画素値列(r,r,・・・,r47)とを合わせて、隣接ブロック情報と呼ぶ。
識別部211は、学習モードにおいては、隣接ブロック最適イントラ予測モード(A,B,C)と、参照画素値列(r,r,・・・,r47)と、正解データ生成部212が出力する評価値の正解データ(tからt34まで)とを入力値として取得する。そして、識別部211は、これらの入力値に基づいて、識別部211自身の挙動を変化させる処理を行う。具体的には、識別部211は、前記の入力値に基づいて、識別部211が処理のために用いる内部パラメーターを、更新する。ここで、内部パラメーターの更新とは、内部パラメーターの集合が最適な値になることを目的として、変化させることである。つまり、識別部211は、学習用データに基づいて、機械学習処理を行うことにより、上記の内部パラメーターの値を変更させる。
なお、上記の評価値の正解データ(tからt34まで)は、各イントラ予測モード(35種類)に対応するものである。また、正解データtは、評価値yに対応する。そして、正解データtは、評価値yに対応し、以下も同様である。
なお、識別部211は、識別モード時における入力値(隣接ブロック最適イントラ予測モードと参照画素値列)に対する出力値が、前記評価値の正解データとなるよう(あるいは、前記評価値の正解データに距離が近づくよう)、学習することが好ましい。このように好ましい挙動をもたらす学習処理は、例えば、識別部211の内部のパラメーターを、バッチ処理や繰り返し演算処理により回帰を行うことで実現できる。
識別部211に入力する隣接ブロック最適イントラ予測モード(A,B,C)の値としては、例えば、隣接ブロックの最適イントラ予測モードの番号をそのまま用いる。あるいは、最適イントラ予測モードの番号をそのまま入力する代わりに、所定の変換を施してから入力してもよい。
一例として、最適イントラ予測モードの番号i(0≦i≦34)ついて、下の式(1)で表されるsを求め、このsを識別部211への入力としてもよい。
Figure 2018125718
また、識別部211に入力する参照画素値列の値としては、例えば、画素値の列をそのまま用いる。あるいは、参照画素の画素値をそのまま入力する代わりに、画素値を所定の値域に規格化して用いてもよい。このとき、値域として、例えば、[0,1]や、[−1,1]や、[−0.5,0.5]などといった範囲を用いる。
また、識別部211に入力する参照画素値列の値として、参照領域の画素の値をそのまま用いる代わりに、近傍の画素値間で演算を行ってその結果を入力値として用いるようにしてもよい。一例として、ある1つの画素について、その画素を中心とした3画素×3画素の領域(合計9画素)の平均値あるいは加重平均値を計算し、その結果をその画素に関する入力値として用いてもよい(平滑化処理の例)。
なお、識別部211の動作モードとして、同一の対象ブロックに対する処理中においては、学習モードが識別モードに先行してはならない。したがって、識別部211は、同一の対象ブロックに対する処理中に、学習モードが識別モードに先行することのないよう、制御する。
また、識別部211の学習モードは、すべての対象ブロックに対して実行される必要はない。
また、識別部211が、事前に(例えば、映像符号化装置および映像復号装置の出荷前や、標準化前)、学習用の適当な映像に対して学習モードでの動作を実行しておくようにしてもよい。このように事前に学習モードの処理を実行した場合、その学習モード実行の結果として得られた状態(パラメーター集合の値等)を、映像符号化装置1側と映像復号装置3側とで、共通に設定されるようにする。つまり、イントラモード予測装置21(図1)における識別部211と、イントラモード予測装置40(図3)における識別部211との両方に、共通の学習結果が反映されるように、システムを構成する。具体的には、例えば、映像符号化装置や映像復号装置の初期化処理において、識別部211の状態が共通になるようにする。例えば、映像符号化装置1側のイントラモード予測装置21における識別部211と、映像復号装置3側のイントラモード予測装置40における識別部211とをニューラルネットワークで構成する場合には、各シナプス結合の重み付けが同値になるよう初期化する。この初期化は、例えば、符号化すべき映像シーケンスごと、映像シーケンスを所定の規則で区分した単位(例えばGroup Of Pictures(GOP))ごとに実行したり、あるいは映像符号化装置から映像復号装置へ適宜通知するタイミング(同期点)に実行したりする。
識別部211を前述のニューラルネットワークにより構成する方法は、次の通りである。ニューラルネットワークは、ニューロンと呼ばれる処理単位を複数有するシステムである。ニューラルネットワークにおいて、入力とニューロンとの間、ニューロンと出力との間、およびニューロンとニューロンとの間で、信号を授受するための結合(シナプス結合)が設定される。シナプス結合においては、そのシナプスの信号に対する重み付けが課される。そして、ニューロンは、シナプス結合を通じて入力される1以上の信号の各々にそのシナプスの重み付けを適用しつつ加算(重み付き加算,weighted sum)する。ニューロンは、その加算結果に対して所定の関数(活性化関数と呼ぶ)を適用して、この活性化関数の適用結果を出力する。ニューラルネットワークにおいて、前記の重み付けは内部パラメーターに対応するものであり、この内部パラメーターを更新することができる。
識別部211は、前述の学習モードにおいてこの内部パラメーターを更新して最適化を図り、前述の識別モードにおいてその時点での内部パラメーターに基づいた識別処理を行う。
識別部211を実現するために用いるニューラルネットワークは、例えば、パーセプトロン構成とすることができる。図3に示す識別部211は、入力層と、2つの中間層と、出力層の4層パーセプトロンのニューラルネットワークを用いて構成されている。
識別部211をニューラルネットワークで実現する場合、学習モードにおいては、例えば、ニューラルネットワークに対して誤差逆伝搬法(バックプロパゲーション)を適用することで、各シナプス結合の重みづけを更新する。
なお、識別部211が学習モードで動作するタイミングは、適宜、決めればよい。一例としては、予めサンプル画像を用いて学習モードでの処理を済ませておくようにしてもよい。また、別の例としては、符号化処理および復号処理の対象である映像について、フレームごと、GOP毎(「GOP」は、グループオブピクチャーズ(Group of pictures)を表す)、フレーム内のブロック毎などといった単位で、動的に学習モードでの処理を行う様にしてもよい。
正解データ生成部212は、識別部211を学習モードで動作させる場合に動作する。正解データ生成部212は、入力された対象ブロック最適イントラ予測モードに応じて、識別部211から出力させたい評価値列(tからt34まで)を出力する。この評価値列は、識別部211の正解値入力に入力される。
例えば、正解データ生成部212は、対象ブロックの最適イントラ予測モードMに対して、下の式(2)により評価値の正解データを生成する。すると、識別部211は、この正解データに基づいて、ニューラルネットワークに対して誤差逆伝搬法(バックプロパゲーション)を適用することで、各シナプス結合の重み付けを更新する。
Figure 2018125718
モード候補生成部213は、識別部211から出力された評価値に基づいて、対象ブロックのイントラ予測モードの候補(以下、対象ブロックイントラ予測モード候補と呼ぶ)を出力する。
モード候補生成部213の出力する対象ブロックイントラ予測モード候補の一例は、評価値の高い順に整列したイントラ予測モードの数列(整列候補モード番号)である。この整列候補モード番号は、(m,m,・・・,m34)という数列の形式で表される。ただし、mは評価値が第i位(0≦i≦34)のイントラ予測モードの番号である。
あるいは、モード候補生成部213の出力する対象ブロックイントラ予測モード候補の他の例は、イントラ予測モードごとの順位情報の列(以下、候補モード順位と呼ぶ)である。この候補モード順位は、(d,d,・・・,d34)という数列の形式で表される。ただし、dは評価値が第i番目(0≦i≦34)のイントラ予測モードの評価値の順位を表す数値である。
より一般化すると、整列候補モード番号を出力とする場合、モード候補生成部213は、評価値の高い順に整列したイントラ予測モードの数列(m,m,・・・,mQ−1)を出力する。ただし、Qは全モード数を表す2以上の整数である。このとき、m(q∈{0,1,・・・,Q−1})は、評価値列(y,y,・・・,yQ−1)を降順に整列したときに第q項(なお、初項は第0項とする)に来るイントラ予測モード番号を表す。なお、降順に整列を行う際、同一の評価値を有するイントラ予測モードが複数存在する場合には、所定の規則により整列の順序を一意に定める。例えば、その規則として、「同一の評価値を有するイントラ予測モードが複数存在する場合には、整列後の数列内においてイントラ予測モード番号の若いものがより前に来るよう整列する」と定める。
一方、候補モード順位を出力する場合、モード候補生成部213は、候補モード順位の列(d,d,・・・,dQ−1)を出力する。このとき、d(q∈{0,1,・・・,Q−1})は、イントラ予測モード番号qが、全Qモード中d番目に評価値が高かったことを表す。なお、同一の評価値を有するイントラ予測モードが複数存在する場合には、それら複数モードに対して、同一の順位を与えてはならず、所定の規則等によりすべて異なる順位値を割り振るようにする。例えば、その規則として、「同一の評価値を有するイントラ予測モードが複数存在する場合、モード番号の若いものを高順位にする」と定める。
以上、説明したように、イントラモード予測装置21は、整列候補モード番号または候補モード順位を出力する。
次に、図1に戻って、シンタックス要素値生成部22の機能についてより詳しく説明する。
上で説明したようにイントラモード予測装置21出力される整列候補モード番号または候補モード順位は、シンタックス要素値生成部22へ入力される。
シンタックス要素値生成部22は、入力された整列候補モード番号または候補モード順位に基づき、入力された最適イントラ予測モード番号Mをシンタックス要素値Dに変換して出力する。なお、最適予測モード番号Mのエントロピーよりも、シンタックス要素値Dのエントロピーの方が小さいことが期待される。つまり、シンタックス要素値生成部22が最適予測モード番号Mをシンタックス要素値Dに変換することにより、よりエントロピーの小さいシンタックス要素値Dをエントロピー符号化部16に供給することが期待される。すなわち、映像内のさまざまな対象ブロックについて統計を取ったときに、Mの頻度分布よりもDの頻度分布の方が特定のビンに偏在する度合いが高いことが期待される。
具体的には、モード候補生成部213が候補モード順位を出力するか、整列候補モード番号を出力するか、に応じて、シンタックス要素値生成部22は次の処理を行う。
モード候補生成部213が候補モード順位を出力する場合は、次の通りである。即ち、シンタックス要素値生成部22は、例えば、入力された候補モード順位(d,d,・・・,dQ−1)から、入力された最適イントラ予測モード番号Mの順位を特定し、その結果たる順位dをシンタックス要素値Dとして出力する。この場合、シンタックス要素値Dは、下の式(3)で表される。
Figure 2018125718
また、モード候補生成部213が成立候補モード番号を出力する場合は、次の通りである。即ち、シンタックス要素値生成部22は、例えば、入力された整列候補モード番号(m,m,・・・,mQ−1)から、入力された最適イントラ予測モード番号Mの順位を特定し、その結果たる順位dをシンタックス要素値Dとして出力する。この場合、シンタックス要素値Dは、下の式(4)で表される。
Figure 2018125718
なお、数列(mq=1,2,…,Q−1には同じ数値の項が複数存在することはない。また、イントラモード予測装置21内のモード候補生成部213において「同一の評価値を有するイントラ予測モードが複数存在する場合には、整列後の数列内においてイントラ予測モード番号の若いものがより前に来るよう整列すること」と規則を定めている。これにより、式(4)におけるDは一意に決定され、且つMとDとは一対一に対応する関係となる。
シンタックス要素値生成部22から出力されたシンタックス要素値Dは、エントロピー符号化部16に入力され、データ圧縮される。
イントラモード予測装置21内の識別部211におけるイントラ予測モードの予測精度が高ければ、シンタックス要素値Dの値は、相対的に小さい側(即ち、最適イントラ予測モード番号Mの順位が高い側)に偏在する。このように、シンタックス要素値生成部22は、モード番号のエントロピーよりも小さいエントロピーを有するシンタックス要素値Dを生成し出力する。
したがって、モード番号Mをエントロピー符号化する場合よりも、シンタックス要素値Dをエントリピー符号化する方が、圧縮効率が向上する。即ち、シンタックス要素値生成部22の作用により、エントロピー符号化部16による符号化における圧縮効率が向上する。
なお、式(3)や式(4)に示したようにシンタックス要素値生成部22は、最適イントラ予測モード番号Mの順位を表す数値を、シンタックス要素値Dとして出力するようにしたが、シンタックス要素値生成部22が他の方法でシンタックス要素値Dを求めてもよい。一例として、シンタックス要素値生成部22が、最適イントラ予測モード番号Mの順位の逆順を表す数値をシンタックス要素値Dとして出力するようにしてもよい。このような場合にも、出力されるシンタックス要素値Dのエントロピーは、最適イントラ予測モード番号Mのエントロピーよりも小さい。
次に、映像復号装置3の機能について説明する。
図4は、映像復号装置3の概略機能構成を示すブロック図である。図示するように、映像復号装置3は、エントロピー復号部30と、逆量子化部31と、逆変換部32と、メモリ33と、イントラ予測部34と、加算部35と、イントラモード予測装置40と、シンタックス要素値解析部41とを含んで構成される。
エントロピー復号部30は、映像符号化装置1のエントロピー符号化部16により符号化されたビット列を復号し、量子化された変換係数列やイントラ予測モードに関するシンタックス要素値Dを出力する。なお、量子化された変換係数列は、映像符号化装置1の量子化部15から出力されたものである。また、シンタックス要素値Dは、映像符号化装置1のシンタックス要素値生成部22から出力されたものである。
逆量子化部31は、映像符号化装置1の量子化部15によって量子化された変換係数列に、量子化ステップを乗ずることにより、逆量子化された変換係数列を得る。
逆変換部32は、逆量子化部31によって得られた逆量子化された変換係数列に対し、映像符号化装置1における変換部14の逆変換を実行し、その結果を復号された残差値列として出力する。
メモリ33は、復号処理をブロック単位で実行した結果(復号ブロック)を順次記憶する。つまり、メモリ33は、画像のうちその時点までに復号された部分領域の画素値列を保持する。また、メモリ33は、イントラ予測部34に対するブロックごとの制御値である最適イントラ予測モードを記憶する。
イントラ予測部34は、メモリ33に保持されている画素値列に基づき、次に復号するブロック(すなわち対象ブロック)内の画素値列を予測する。イントラ予測部34は、映像符号化装置1のイントラ予測部12と同一の複数のイントラ予測モードで動作し得る。そして、イントラ予測部34は、後述するシンタックス要素値解析部41によって指定される最適イントラ予測モードにより予測動作を行う。
加算部35は、イントラ予測部34により予測された画素値列と逆変換部32から出力された復号された残差値列とを画素位置ごとに加算し、その結果を復号画素値列として出力する。加算部35が出力する復号画素値列は、メモリ33内の現在処理中のブロックに対応する所定の記憶領域に書き込まれる。
イントラモード予測装置40は、映像符号化装置1側のイントラモード予測装置21と同一の機能を有し、同一の挙動をする。
イントラモード予測装置40は、対象ブロックの隣接ブロック最適イントラ予測モードおよび参照画素値列をメモリ33から読み出す。そして、イントラモード予測装置40は、隣接ブロック最適イントラ予測モードと参照画素値列に基づき、映像符号化装置1において最適化部20がイントラ予測部12に対して指示したと推定される最適イントラ予測モードを予測する。
また、イントラモード予測装置40は、後述するシンタックス要素値解析部41から出力される最適イントラ予測モード(即ち、映像符号化装置1において最適化部20が実際に選択した最適イントラ予測モード)と、そのときにメモリ33内に保持されていた隣接ブロック最適イントラ予測モードと参照画素値列とに基づいてイントラモード予測装置40の動作状態の調整を行う。即ちこの調整は、イントラモード予測装置40の内部パラメーター(重み付け)の値を更新し、イントラモード予測装置21との挙動の一致を図るものである。イントラモード予測装置40は、前記「最適化部20がイントラ予測部12に対して指示したと推定される最適イントラ予測モード」の予測値として、イントラモード予測装置21と同様に、整列候補モード番号(m,m,・・・,mQ−1)または候補モード順位(d,d,・・・,dQ−1)を出力する。
イントラモード予測装置40によって予測された最適イントラ予測モードの情報(整列候補モード番号または候補モード順位)は、シンタックス要素値解析部41に入力される。
なお、イントラモード予測装置40の詳細な機能構成は、図3においてイントラモード予測装置21について説明した機能構成と同様であるため、ここではその説明を省略する。
シンタックス要素値解析部41は、イントラモード予測装置40から入力される整列候補モード番号または候補モード順位と、エントロピー復号部30から入力されたシンタックス要素値Dとに基づいて、対象ブロックの最適イントラ予測モードMを復号する。
イントラモード予測装置40が候補モード順位を出力する場合の処理は次の通りである。即ち、シンタックス要素値解析部41は、具体的には、入力された候補モード順位(d,d,…,dQ−1)とシンタックス要素値Dから、順位がDであるモード番号を特定し、該特定したモード番号を最適イントラ予測モード番号Mとして出力する。具体的には、シンタックス要素値解析部41は、下の式(5)により、最適イントラ予測モード番号Mを決定する。
Figure 2018125718
なお、イントラモード予測装置40内のモード候補生成部213が候補モード順位の列(d,d,・・・,dQ−1)を出力する際、同一の評価値を有するイントラ予測モードが複数存在する場合にも、ユニークな順位値を付与している。つまり、同一の評価値を有するイントラ予測モードが複数存在する場合、例えばモード番号の若いものを高順位にすることなどにより、すべて異なる順位値を割り振っている。このため、式(5)におけるMは一意に定まる。
イントラモード予測装置40が整列候補モード番号を出力する場合の処理は次の通りである。即ち、シンタックス要素値解析部41は、入力された整列候補モード番号(m,m,…,mQ−1)とシンタックス要素値Dから、数列(m,m,…,mQ−1)の第D項を参照することで、最適イントラ予測モード番号Mを特定して出力する。具体的には、シンタックス要素値解析部41は、下の式(6)により、最適イントラ予測モード番号Mを決定する。
Figure 2018125718
シンタックス要素値解析部41の出力する最適イントラ予測モード番号Mは、映像符号化装置1の最適化部20が求めた最適イントラ予測モード番号と一致する。よって、シンタックス要素値解析部41の出力する最適イントラ予測モード番号Mを取得したイントラ予測部34は、映像符号化装置1のイントラ予測部12と同一の挙動をとる。その結果、メモリ33に構築される復号映像は、映像符号化装置1においてメモリ11内に構築される局部復号映像に一致する。つまり、映像復号装置3は映像符号化装置1による符号化に対応して、正しく映像を復号することができる。
なお、シンタックス要素値解析部41もまた、「識別部から出力される評価値情報に基づいて、予測モード毎の生起可能性の順序を表す情報を含むシンタックス要素値を生成するシンタックス要素値生成部」を含むものである。そして、生成されたシンタックス要素値と、エントロピー復号部30から入力されたシンタックス要素値Dとに基づいて、対象ブロックの最適イントラ予測モードMを決定する。
以上、説明したように、本実施形態におけるイントラモード予測装置21が単独で、あるいは、イントラモード予測装置21とシンタックス要素値生成部22との複合が、モード予測情報生成装置として機能する。また、本実施形態におけるイントラモード予測装置40が単独で、あるいは、イントラモード予測装置21とシンタックス要素値解析部41に含まれる機能との複合が、モード予測情報生成装置として機能する。
本実施形態におけるイントラモード予測装置(21または40)内の識別部211は、符号化の対象である対象ブロックに隣接する領域である隣接ブロックに関する情報である隣接ブロック情報を入力とし、識別モードにおいては、前記隣接ブロック情報と、内部の状態を表す内部状態情報に基づいて、前記対象ブロックについての予測モード毎の評価値情報を出力するとともに、さらに、学習モードにおいては、前記予測モードの前記評価値情報に関する正解データを入力とし、前記正解データに基づいて前記内部状態情報を更新する。
また、正解データ生成部212は、前記対象ブロックの最適イントラ予測モードを入力とし、前記最適イントラ予測モードに基づいて前記正解データを生成して識別部211に供給する。
本実施形態におけるシンタックス要素値生成部22は、前記識別部から出力される前記評価値情報に基づいて、前記予測モード毎の生起可能性の順序を表す情報を含むシンタックス要素値を生成する。またシンタックス要素値解析部41も、シンタックス要素値生成部22と同様の機能を含む。
また、前記隣接ブロック情報は、前記隣接ブロックに含まれる画素値に基づく画素値列の情報を含む。画素値列の情報は、近傍の画素値同士の演算の結果である場合がある。
また、前記隣接ブロック情報は、前記隣接ブロックにおける最適イントラ予測モードの情報を含む。
また、識別部211が、ニューラルネットワークを用いて実装される。
本実施形態によれば、対象ブロックのイントラ予測モードと、隣接ブロック情報との間の関連性を学習することにより、適切なイントラ予測モード候補の提示が可能となり、符号化効率が改善される。
特に、学習モードで動作する頻度を高くする場合には、時々刻々変化する映像に追随して適切なイントラ予測モード候補の提示が可能となり、符号化効率が改善される。
また、本実施形態によれば、識別部211が、ニューラルネットワークによって実装されることにより、対象ブロックと隣接ブロック情報との間の関連性に非線形的な性質がある場合においても、効果的に学習を行うことができる。
また、ニューラルネットワークによる実装は、画素値等に基づくイントラ予測モードの識別と、良い親和性を有する。
また、本実施形態によれば、参照画素値列を識別部211への入力とすることにより、隣接ブロックの画素値パターンを考慮して、対象ブロックのイントラ予測モード候補を生成することができ、画像への適応性を向上させることができる。
また、本実施形態によれば、シンタックス要素値生成部22の作用により、複数のイントラ予測モード候補を順位付けして出力する。これにより、最上位(あるいはHEVCのように3モードまで)のイントラ予測モード候補に最適イントラ予測モードが含まれなかった場合においても、より出現確率が高いと想定されるイントラ予測モードにより小さい(出現確率の高い)シンタックス要素値を割り振ることが可能となってエントロピーが下がり、符号化効率が改善する。
[第2実施形態]
次に、本発明の第2実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
第1実施形態においては、図3に示したように、識別部211に入力される隣接ブロック情報は、隣接ブロック最適イントラ予測モード(A,B,C)と、参照画素値列(rからr47まで)の両方を含む。
一方、本実施形態では、識別部211に入力される隣接ブロック情報は、参照画素値列のみを含み、隣接ブロック最適イントラ予測モードを含まない。つまり、本実施形態では、識別部211は、参照画素値列のみに基づいて、各イントラ予測モードの評価値を出力する。
[第3実施形態]
次に、本発明の第3実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
第1実施形態においては、図3に示したように、識別部211に入力される隣接ブロック情報は、隣接ブロック最適イントラ予測モード(A,B,C)と、参照画素値列(rからr47まで)の両方を含む。
一方、本実施形態では、識別部211に入力される隣接ブロック情報は、隣接ブロック最適イントラ予測モードのみを含み、参照画素値列を含まない。つまり、本実施形態では、識別部211は、隣接ブロック最適イントラ予測モードのみに基づいて、各イントラ予測モードの評価値を出力する。
なお、上述した実施形態における映像符号化装置、映像復号装置、およびそこに含まれるイントラモード予測装置などの装置の少なくとも一部の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM、DVD−ROM、USBメモリ等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
[変形例1]
上記の各実施形態では、学習モードを備えた識別部を、ニューラルネットワークで実現していた。一方、変形例1では、ニューラルネットワーク以外の機械学習手段を用いて、識別部を実現する。変形例1における識別部が備えるべき機能は、識別モードにおいては、隣接ブロック情報と、内部状態を表す内部状態情報(内部パラメーター等)とに基づいて、イントラ予測モード毎の評価値を識別することである。また、学習モードにおいては、隣接ブロック情報と、イントラ予測モード毎の評価値の正解データとに基づいて、上記の内部状態情報を更新することによって、識別部の挙動を変更(調整)することである。例えば、ニューラルネットワークの代わりに用いることができる手段は、SVM(サポート・ベクター・マシン)等である。
[変形例2]
第1実施形態においては、図2にも示したように、最適イントラ予測モードを予測するための隣接ブロックの領域の集合と、参照画素値列を取得する対象である画素集合の領域とが一致していた。変形例2においては、この両者が必ずしも一致しなくても良い。
なお、最適イントラ予測モードを予測するための隣接ブロックの領域とは、通常は、既に最適イントラ予測モードが決定済みのブロック(既に符号化した処理における対象ブロック)の集合である。変形例2においては、この隣接ブロックの領域とはことなる近隣の領域に含まれる画素を参照画素とする。そして、その参照画素の値を、参照画素値列として取得し、識別部に入力する。
[変形例3]
上記の各実施形態においては、図3も示したように、ブロックのサイズは、水平方向4画素、垂直方向4画素の、合計16画素であった。変形例3においては、これ以外のブロックサイズを用いることができる。
また、上記の各実施形態においては、最適イントラ予測モードを予測するための隣接ブロックは、対象ブロックの左上と、上と、左の3個であった。変形例3においては、異なる任意の数あるいは任意の配置の隣接ブロックを用いることができる。
[変形例4]
上記の各実施形態においては、シンタックス要素値生成部22は、イントラモード予測値が出力した各イントラモードの評価値の厳密な順位の値を、シンタックス要素値として出力していた。変形例4では、シンタックス要素値生成部22は、各イントラモードの評価値の大まかな順位の値を、シンタックス要素値として出力する。このようなシンタックス要素値生成部22もまた、識別部211から出力される評価値情報に基づいて、予測モード毎の生起可能性の順序を表す情報を含むシンタックス要素値を生成するものである。ここでの「順序を表す情報を含む」ということは、すべての予測モードについての全順序の情報に限らず、少なくとも一部の予測モードの対の間での順序の情報を含むことを意味する。このようなシンタックス要素値であっても、シンタックス要素値生成部22は、情報のエントロピーを小さくする作用を及ぼす。これにより、変形例4は、上記の各実施形態とほとんど同等の効果、あるいは上記の各実施形態に準じる効果を生じさせる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、画像(静止画像および動画像)を符号化したり復号したりするための装置あるいはプログラムに利用することができる。また、画像を記録媒体に記録したり、伝送媒体で伝送したりすることに利用することができる。なお、本発明の用途は、ここに例示した分野には限定されない。
1 映像符号化装置
2 伝送・蓄積装置
3 映像復号装置
10 ブロック分割部
11 メモリ
12 イントラ予測部
13 減算部
14 変換部
15 量子化部
16 エントロピー符号化部
17 逆量子化部
18 逆変換部
19 加算部
20 最適化部
21 イントラモード予測装置
22 シンタックス要素値生成部
30 エントロピー復号部
31 逆量子化部
32 逆変換部
33 メモリ
34 イントラ予測部
35 加算部
40 イントラモード予測装置
41 シンタックス要素値解析部
211 識別部
212 正解データ生成部
213 モード候補生成部

Claims (6)

  1. 符号化の対象である対象ブロックに隣接する領域である隣接ブロックに関する情報である隣接ブロック情報を入力とし、識別モードにおいては、前記隣接ブロック情報と、内部の状態を表す内部状態情報に基づいて、前記対象ブロックについての予測モード毎の評価値情報を出力するとともに、さらに、学習モードにおいては、前記予測モードの前記評価値情報に関する正解データを入力とし、前記正解データに基づいて前記内部状態情報を更新する識別部と、
    前記対象ブロックの最適イントラ予測モードを入力とし、前記最適イントラ予測モードに基づいて前記正解データを生成して前記識別部に供給する正解データ生成部と、
    を具備することを特徴とするモード予測情報生成装置。
  2. 前記識別部から出力される前記評価値情報に基づいて、前記予測モード毎の生起可能性の順序を表す情報を含むシンタックス要素値を生成するシンタックス要素値生成部、
    をさらに具備することを特徴とする請求項1に記載のモード予測情報生成装置。
  3. 前記隣接ブロック情報は、前記隣接ブロックに含まれる画素値に基づく画素値列の情報を含む、
    ことを特徴とする請求項1また2に記載のモード予測情報生成装置。
  4. 前記隣接ブロック情報は、前記隣接ブロックにおける最適イントラ予測モードの情報を含む、
    ことを特徴とする請求項1から3までのいずれか一項に記載のモード予測情報生成装置。
  5. 前記識別部が、ニューラルネットワークを用いて実装される、
    ことを特徴とする請求項1から4までのいずれか一項に記載のモード予測情報生成装置。
  6. コンピューターを、
    請求項1から5までのいずれか一項に記載のモード予測情報生成装置として機能させるためのプログラム。
JP2017016776A 2017-02-01 2017-02-01 モード予測情報生成装置およびプログラム Pending JP2018125718A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017016776A JP2018125718A (ja) 2017-02-01 2017-02-01 モード予測情報生成装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017016776A JP2018125718A (ja) 2017-02-01 2017-02-01 モード予測情報生成装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2018125718A true JP2018125718A (ja) 2018-08-09

Family

ID=63111657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017016776A Pending JP2018125718A (ja) 2017-02-01 2017-02-01 モード予測情報生成装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2018125718A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003775A (ja) * 2018-06-19 2022-01-11 株式会社ソニー・インタラクティブエンタテインメント ニューラルネットワークを利用したコーデック

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007281634A (ja) * 2006-04-04 2007-10-25 Hitachi Ltd 画像処理装置及び動画像符号化方法。
JP2009111691A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd 画像符号化装置及び符号化方法、画像復号化装置及び復号化方法
CN105306947A (zh) * 2015-10-27 2016-02-03 中国科学院深圳先进技术研究院 基于机器学习的视频转码方法
WO2016199330A1 (ja) * 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007281634A (ja) * 2006-04-04 2007-10-25 Hitachi Ltd 画像処理装置及び動画像符号化方法。
JP2009111691A (ja) * 2007-10-30 2009-05-21 Hitachi Ltd 画像符号化装置及び符号化方法、画像復号化装置及び復号化方法
WO2016199330A1 (ja) * 2015-06-12 2016-12-15 パナソニックIpマネジメント株式会社 画像符号化方法、画像復号方法、画像符号化装置および画像復号装置
CN105306947A (zh) * 2015-10-27 2016-02-03 中国科学院深圳先进技术研究院 基于机器学习的视频转码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MING YANG AND NIKOLAOS BOURBAKIS: "H.264/AVC intra-only coding (iAVC) and neural network based fast prediction mode decision", 2010 22ND INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE, JPN6020046552, 2010, pages 57 - 60, XP031837830, ISSN: 0004522607 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003775A (ja) * 2018-06-19 2022-01-11 株式会社ソニー・インタラクティブエンタテインメント ニューラルネットワークを利用したコーデック
JP7098805B2 (ja) 2018-06-19 2022-07-11 株式会社ソニー・インタラクティブエンタテインメント ニューラルネットワークを利用したコーデック

Similar Documents

Publication Publication Date Title
TWI794623B (zh) 用於逐塊圖片編碼的幀內預測模式概念
TWI791222B (zh) 變換集合
CN110679148B (zh) 用于代码化视频数据块的方法和装置
KR102314801B1 (ko) 비디오 압축에서의 엔트로피 코딩을 위한 선택적 혼합
US11265549B2 (en) Method for image coding using convolution neural network and apparatus thereof
CN105052140B (zh) 用于下一代视频的模式和参考类型数据的内容自适应熵编码
KR100751869B1 (ko) 적응 블록 변환을 위한 콘텍스트-기반 적응 가변장 부호화
CN104853209B (zh) 图像编码、解码方法及装置
KR20090058954A (ko) 사이드 매칭을 이용한 영상의 부호화 방법 및 장치, 그복호화 방법 및 장치
CN110800299B (zh) 用于对图像数据的块进行熵代码化的扫描顺序自适应
CN108141596A (zh) 用于视频译码的非可分离二次变换
CN109309838A (zh) 用于硬件视频编码的技术
CN104823448A (zh) 视频编码中的颜色自适应
CN109936742B (zh) 对视频序列进行编码的方法、编码装置和存储介质
CN104823447A (zh) 视频编码中的颜色自适应
TW202306384A (zh) 算術編碼器、算術解碼器、視訊編碼器、視訊解碼器、編碼方法、解碼方法及電腦程式
JP2016134860A (ja) 動画像符号化装置、動画像符号化方法及び動画像符号化用コンピュータプログラム
CN110710206A (zh) 修改扫描顺序以限制扫描距离
CN110324639A (zh) 用于视频数据的高效熵编码的技术
JP2018125718A (ja) モード予測情報生成装置およびプログラム
JP2018125713A (ja) 予測装置およびプログラム
WO2019126347A1 (en) Method and apparatus for video compression using efficient multiple transforms
CN111052743A (zh) 视频编码中用于局部选择变换集的变换池
JP6649184B2 (ja) 線形予測係数出力装置、線形予測係数出力方法及び線形予測係数出力プログラム
CN104506860A (zh) 视频编码的参考图像选择方法及系统

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210520

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210608