JP6941943B2 - 予測装置およびプログラム - Google Patents

予測装置およびプログラム Download PDF

Info

Publication number
JP6941943B2
JP6941943B2 JP2017016622A JP2017016622A JP6941943B2 JP 6941943 B2 JP6941943 B2 JP 6941943B2 JP 2017016622 A JP2017016622 A JP 2017016622A JP 2017016622 A JP2017016622 A JP 2017016622A JP 6941943 B2 JP6941943 B2 JP 6941943B2
Authority
JP
Japan
Prior art keywords
neuron
input
value
output
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017016622A
Other languages
English (en)
Other versions
JP2018125713A (ja
Inventor
俊枝 三須
俊枝 三須
市ヶ谷 敦郎
敦郎 市ヶ谷
菊文 神田
菊文 神田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2017016622A priority Critical patent/JP6941943B2/ja
Publication of JP2018125713A publication Critical patent/JP2018125713A/ja
Application granted granted Critical
Publication of JP6941943B2 publication Critical patent/JP6941943B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Description

本発明は、予測装置およびプログラムに関する。
画像符号化や映像符号化のイントラスライスにおいては、画面内の既に符号化済みの領域内の情報に基づき、これから符号化すべき対象領域の画素値列を予測し、対象領域の実際の画素値列と予測による画素値列との差分をとってエントロピー符号化する。これにより、実際の画素値列と予測された画素値列との差分が統計的に0付近の値に偏在する傾向を活用して、符号化効率の向上を実現している。
例えば、MPEG−H HEVC/H.265においては、方向予測モード(33種類)と、平均値予測と、平面予測の、計35モードの画面内予測法が利用可能である。このうち、方向予測モードは、符号化対象ブロックの近傍の参照画素値列を所定方向へ外挿することにより、予測ブロックを得るものである。また、平均値予測は、予測ブロック内の全画素を参照画素値列の平均値とするものである。また、平面予測は、参照画素値列に近似的な双一次補間を適用することで予測ブロックを得るものである。
また、参照ブロックおよび予測ブロックからなる処理ブロックに対して、直交変換を適用し、その変換係数の高域成分が小さくなるよう予測ブロックの係数を修正することで、参照ブロックおよび予測ブロックの間の波形の交流的な連続性を持たせる画面内予測手法もある(特許文献1に記載)。
特許第5509048号公報
しかし、従来の画面内予測法は、入力画像によらず固定的であり、その適応性は画像に応じて(レート歪最適化によって)複数手法を切り替えるにとどまっていた。また、予測ブロックは、周辺画素値の内挿、外挿、または一定値(例えば平均値)によりパディングされるだけで、例えば周辺画素値列のなすテクスチャパターンや曲線的なパターンなどを反映した予測は実現できなかった。即ち、周辺画素値列と符号化対象の画素値列の間に存在する相関性を活用して符号化することが従来技術では十分にできていないため、符号化効率を向上させる余地は未だ残されている。
特許文献1に記載された手法によれば、予測ブロックと参照ブロックとの間の交流的な連続性を持たせることができ、周辺画素値列のなす曲線的なパターンを反映した予測が可能である。しかしながら、特許文献1に記載された手法は、変換係数の高域成分を低減させる反復動作によって、細かいテクスチャパターンに含まれる高域成分をも減衰させてしまう。これにより、特に周辺画素値列のなすテクスチャパターンが細かいパターンで構成される場合には、十分な予測性能を発揮できないという問題がある。
本発明は、上記の事情に鑑みて為されたものであり、細かいパターンをも含め、様々なパターンの参照領域の画素値を、対象領域の画素値の予測に利用することのできる、予測装置およびプログラムを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様による予測装置は、画像内の参照領域内の画素値列から、前記画像内の対象領域内の画素値列を予測する予測装置であって、1個以上の入力値に対する重み和を算出し、前記重み和に関数を適用することで出力値を得る回路であるニューロンを複数備え、各々の前記ニューロンの入力は、前記参照領域内の画素値または他の前記ニューロンからの出力値が接続されるものであり、各々の前記ニューロンからの出力値は、他の前記ニューロンの入力に接続され、または前記対象領域内の画素値の予測値として出力される、ことを特徴とする。
[2]また、本発明の一態様は、上記の予測装置において、前記参照領域内の画素値列を入力する層である入力層に属するニューロン以外の前記ニューロンは、前記重み和に非線形関数を適用することで前記出力値を得る、ことを特徴とする。
[3]また、本発明の一態様は、上記の予測装置において、前記参照領域内の部分領域である近傍参照領域の画素値列から前記対象領域内の画素値の予測値へのニューロン接続のネットワークが、3層以上の多層パーセプトロンであり、さらに、前記ネットワークは、前記近傍参照領域内の画素値列から、少なくとも一層をスキップして前記多層パーセプトロンの中間層または出力層に属するニューロンへ至る短絡的な接続を有する、ことを特徴とする。
[4]また、本発明の一態様は、上記の予測装置において、画像符号化装置内または画像復号装置内に設けられる予測装置であって、前記ニューロンが前記重み和を算出する際に用いるための重み値を記憶する更新可能なメモリと、前記対象領域の画素値として予測した予測値と、前記画像符号化装置内または前記画像復号装置内の復号手段が復号した結果得られる当該対象領域の画素値との差に基づいて、前記メモリに記憶された前記重み値を更新する学習手段と、をさらに具備することを特徴とする。
[5]また、本発明の一態様は、コンピューターを、上記[1]から[4]までのいずれか一項に記載の予測装置として機能させるためのプログラムである。
本発明によれば、複数のニューロンの結合により実現される関数により、様々な画素値パターンにも対応して、参照領域内の画素値列から対象領域の画素値列を予測する精度を上げることができる。また、予測装置の予測精度が上がることにより、符号化の効率を向上させることができる。
本発明の第1実施形態による画面内予測装置を組み込んだ、符号化装置および復号装置の概略機能構成を示すブロック図である。 同実施形態による画面内予測装置が処理の対象とする、画像内の参照領域および対象領域の配置の一例を示す概略図である。 同実施形態による画面内予測装置内のニューラルネットワークの構成要素となるニューロンの回路の一例を示す概略図である。 同実施形態による画面内予測装置内におけるニューラルネットワークの構成例を示す概略図である。 同実施形態による画面内予測装置内におけるニューラルネットワークの別の構成例を示す概略図である。 同実施形態におけるニューロン間における接続と、ニューロンでの演算処理を説明するための概略図である。 第2実施形態による画面内予測装置が処理の対象とする、画像内の参照領域および対象領域の配置の一例であって、近傍参照領域を含む例を示す概略図である。 実施形態の変形例における、画像内の参照領域と対象領域の配置の例を示す概略図である。 実施形態の変形例における、画像内の参照領域と対象領域の配置の例(近傍参照領域を含む例)を示す概略図である。
[第1実施形態]
次に、本発明の第1実施形態について、図面を参照しながら説明する。
図1は、本実施形態による画面内予測装置を組み込んだ、符号化装置および復号装置の概略機能構成を示すブロック図である。画像符号化装置1および画像復号装置3がそれぞれ符号化および復号の対象とするものは、静止画および動画(以下では、これらを総称して「画像」と呼ぶ)である。画像符号化装置1は、その機能の一部として画面内予測装置12を組み込んでいるまた、画像復号装置3は、その機能の一部として画面内予測装置34を組み込んでいる。画面内予測装置12および画面内予測装置34は、それぞれ、画面内での画素値の予測(フレーム内予測)を行うものである。
なお、画像符号化装置1と画像復号装置3とは対をなす。画像符号化装置1が出力した符号列(ビット列)は、伝送路を経由して、または蓄積装置に蓄積されて、あるいは伝送路と蓄積装置とを複合した媒体ないしは装置を介して、画像復号装置3に渡される。なお、伝送路や蓄積装置やそれら両者の複合した装置等を、「伝送・蓄積装置」と総称する。つまり、画像符号化装置1と画像復号装置3との間で、符号列(ビット列)が受け渡される。
同図において、画像符号化装置1は、ブロック分割部10と、メモリ11と、画面内予測装置12と、減算部13と、変換部14と、量子化部15と、エントロピー符号化部16と、逆量子化部17と、逆変換部18と、加算部19とを含んで構成される。これら各部は、電子回路等により実現される。各部の機能は、次の通りである。
ブロック分割部10は、入力画像(静止画像、または動画像における1フレーム)を部分領域(ブロック)に分割する。典型的には、ブロック分割部10は、矩形領域のブロックへの分割を行う。ブロック分割部10は、例えば所定の形状および大きさ(以下、形状および大きさを合わせて、「ブロック形状」と言う)(例えば、水平8画素および垂直8画素の64画素の領域)によって画像を分割する。あるいは、ブロック分割部10が、異なる複数のブロック形状の中から、画像の特徴や符号化時のレート歪特性に応じて適応的にブロック形状を選択して、ブロック分割するものであっても構わない。ブロック分割部10は、ブロック位置を変えつつ、順次ブロックを切り出し、当該ブロック単位で以降の符号化処理を行う。なお、ブロック分割部10が、ブロック位置を変えるときに必要に応じてブロック形状をも変更するようにしてもよい。
メモリ11は、符号化処理および復号処理をブロック単位で実行した結果(局部復号ブロック)を順次記憶する。すなわち、メモリ11は、画像のうちこれまでに符号化・復号された部分領域の画素値列を保持する。
画面内予測装置12は、メモリ11に保持されている画素値列に基づき、ブロック分割部10が次に符号化するブロック内の画素値列を推測(予測)する。より具体的に言うと、画面内予測装置12は、画像内の参照領域内の画素値列から、その画像内の対象領域内の画素値列を予測するものである。
減算部13は、ブロック分割部10から渡されるブロックについて、当該ブロック内の画素値列から、画面内予測装置12により予測された画素値列を画素位置ごとに減じ、その結果たる残差値列を出力する。
変換部14は、減算部13から渡される残差値列に対し、数学的な変換を施し、その結果たる変換係数列を出力する。変換部14において実行する数学的な変換は、単一種類の変換であっても構わないし、複数種類の変換の中からブロック形状や画像の特徴やレート歪特性等に応じて適応的に選択した変換であっても構わない。
変換部14において実行する変換としては、例えば、離散コサイン変換(DCT:Discrete Cosine Transform)、離散サイン変換(DST:Discrete Sine Transform)、ウェーブレット変換、ウォルシュ・アダマール変換など、およびこれらの変換に整数近似や離散近似を施した変換が挙げられる。
量子化部15は、変換部14によって出力された変換係数列を、より多くない信号値レベルに変換(量子化)する。例えば、量子化部15は、変換係数列を所定の正値(量子化ステップ)によって除し、その結果を整数値に丸めた数列を出力する。または、例えば、量子化部15は、変換係数列の各項を、各項の位置ごとに決められた量子化ステップ(量子化テーブル)によって除すよう構成してもよい。さらに、量子化ステップや量子化テーブルを複数備え、それらの中から一つを、使用者が指定したり、自動的に選択したり、さらに自動的に切り替えて選択するように構成しても構わない。
エントロピー符号化部16は、量子化部15において量子化された変換係数列をそのエントロピーに着目して符号化する。エントロピー符号化部16は、前記量子化された変換係数列のほか、符号化の各処理(ブロック分割部10、変換部14、量子化部15、画面内予測装置12)の動作状態(複数の異なる動作のうちいずれを用いたかを表す識別子:モード)をも符号化しても構わない。
エントロピー符号化部16には、例えば、可変長符号化(例えば、ハフマン符号化やその変形であるCAVLC(Context-based Adaptive VLC,コンテキスト適応型可変長符号化方式))を用いることができる。あるいは、エントロピー符号化部16には、例えば、算術符号化やその変形であるCABAC(Context-based Adaptive Binary Arithmetic Coding,コンテキスト適応型二値算術符号化方式)を用いることができる。
逆量子化部17は、量子化部15によって量子化された変換係数列に、量子化ステップを乗ずることにより、逆量子化された変換係数列を得る。
逆変換部18は、逆量子化部17によって得られた逆量子化された変換係数列に対し変換部14の逆変換を実行し、その結果を復号された残差値列として出力する。
加算部19は、画面内予測装置12により予測された画素値列と逆変換部18から出力された復号された残差値列とを画素位置ごとに加算し、その結果を復号画素値列として出力する。
加算部19の出力する復号画素値列は、メモリ11内の現在処理中のブロックに対応する記憶領域に書き込まれる。
以上の動作により、画像符号化装置1は、入力画像をビット列に変換する。
続いて、画像復号装置3の機能構成および動作について説明する。
図示するように、画像復号装置3は、エントロピー復号部30と、逆量子化部31と、逆変換部32と、メモリ33と、画面内予測装置34と、加算部35と、を含んで構成される。これら各部は、電子回路等により実現される。各部の機能は、次の通りである。
エントロピー復号部30は、画像符号化装置1内のエントロピー符号化部16と対をなすものであり、エントロピー符号化部16から出力され、必要に応じて伝送・蓄積装置2によって伝送・蓄積されたビット列を復号し、量子化された変換係数列を出力する。また、エントロピー復号部30は、前記量子化された変換係数列に加えて、符号化の各処理(ブロック分割部10、変換部14、量子化部15、画面内予測装置12)の動作状態を出力する。
逆量子化部31は、画像符号化装置1内の逆量子化部17と同様の動作により、エントロピー復号部30からの量子化された変換係数列に対して逆量子化を施し、逆量子化された変換係数列を出力する。
以降、逆量子化部31、逆変換部32、メモリ33、画面内予測装置34、および加算部35は、それぞれ、画像符号化装置1内の逆量子化部17、逆変換部18、メモリ11、画面内予測装置12、および加算部19と同様の動作を行う。これにより、メモリ33内には、復号画像が書き込まれていく。なお、この復号処理は、ブロックごとに順次行われる。
メモリ33内に画像が完全に構成されたとき、メモリ33はこの画像を出力する。なお、画像符号化装置1および画像復号装置3が動画像を処理するものである場合には、メモリ33に構成された画像(動画像におけるフレーム)を必要に応じて保持して、画像の出力のタイミングを調整してもよい。さらに、画像符号化装置1および画像復号装置3が動画像のフレームの順序を入れ替えて符号化を行うものである場合には、メモリ33からの出力画像をメモリ33内もしくはその後段に設けられる他のメモリに一時的に蓄積し、画像の出力順序を調節する。つまり、画像復号装置3は、画像の出力順序が入力画像の順序と整合(一致)するように、画像の出力順序を入れ替える。
次に、画面内予測装置12および画面内予測装置34の動作について説明する。以下では、画面内予測装置12を取り上げてその動作について説明するが、画面内予測装置34の動作もこれと同様ある。
画面内予測装置12は、処理対象である画像内の参照領域Rに属する画素の画素値から、同画像内の対象領域Pに属する画素の画素値を推定する。
図2は、参照領域Rおよび対象領域Pの配置の一例を示す概略図である。ここに図示する参照領域Rおよび対象領域Pの例は、ブロックごとの符号化処理を、左上から右下の方向へ順次進行させる場合に好適である。
図示する例は、縦・横が同数(K個)のマス目を示している。各マス目が、画像内の画素に相当する。この例では、K行K列の画素のうち、最上側の2行または最左側の2列のいずれか(両方でもよい)に含まれる領域が、参照領域R(符号では、101)である。参照領域Rに含まれる画素には、便宜上、r,r,・・・,rのラベルを付している。また、K行K列の画素のうち、下側の(K−2)行であって且つ右側の(K−2)列に含まれる領域が、対象領域P(符号では、100)である。対象領域Pに含まれる画素には、便宜上、p,p,・・・,pのラベルを付している。なお、ある対象領域Pの画素値を画面内予測装置12が推定(予測)する時点において、参照領域R内に復号済みでない画素が含まれる場合には、当該画素の画素値としては、当該画素の近傍の復号済みの画素(例えば、最近傍の復号済みの画素)の画素値を流用する。
画面内予測装置12は、ニューラルネットワークによって、参照領域Rに属する画素の画素値から対象領域Pに属する画素の画素値を推定する。ニューラルネットワークとは、ニューロンと呼ばれる演算回路を複数接続した回路網である。なお、ニューロンは、ネットワークにおける「ノード」とも呼ばれる。
図3は、ニューラルネットワークの構成要素となるニューロンの回路の一例を示す概略図である。同図において、符号4は、1個のニューロンである。ニューロン4は、複数の入力値(x乃至x)を基に、演算により、出力値yを得る。ニューラルネットワークは、多数のニューロンを接続して構成される。ニューロン4の入力には、ニューラルネットワーク全体の入力、または他のニューロンの出力が接続される。また、ニューロン4の出力には、他のニューロンの入力、またはニューラルネットワーク全体の出力が接続される。ニューロン4は、1個以上の入力値に対する重み和を算出し、その重み和に関数を適用することで出力値を得る回路である。画像の符号化処理あるいは復号処理のための装置に設けられる画像内予測装置においては、各々のニューロン4の入力には、画像の参照領域内の画素値または他のニューロン4からの出力値が接続される。また、各々のニューロン4からの出力値は、他のニューロン4の入力に接続され、または画像の対象領域内の画素値の予測値として出力される。
ニューロン4は、自己の入出力関係を可変かつ学習可能とするよう内部パラメーターを有する。この内部パラメーターは、例えば、ニューロン4内のメモリに保持され、記憶されたパラメーター値を必要に応じて外部から更新することができるように構成されている。この内部パラメーターは、例えば、入力x乃至xにそれぞれ対応付けられる重み値w乃至wである。つまり、ニューロン4は、その内部においてまず、入力x乃至xを取得すると、重み値w乃至wを用いた積和計算を行う。その時点での重み値w乃至wは、図中にも示すメモリから読み出すことができる。さらに、ニューロン4の入出力関係は非線形であることが好ましい。ニューロン4は、上記の積和計算の結果を入力とする関数φの演算回路を備えている。関数φが非線形関数であるとき、ニューロン4の入出力関係は非線形性を有する。即ち、この場合、ニューロン4が有する入出力関係は、下の式(1)で表される。
Figure 0006941943
上の関数φは、活性化関数と呼ばれる。活性化関数は、好ましくは非線形関数である。但し、後でも述べるように入力層に属するニューロンについては、通常はφ(z)=zとする。つまり、参照領域内の画素値列を入力する層である入力層に属するニューロン以外のニューロンは、入力値の重み和に非線形関数を適用することで出力値を得る。
活性化関数φとして用いることのできる関数は、例えば、ReLU関数(Rectified Linear Unit, Rectifier, 正規化線形関数)や、シグモイド関数や、双曲線正接関数などである。
ReLU関数は、下の式(2)で表される。
Figure 0006941943
また、シグモイド関数は、下の式(3)で表される。ただし、式(3)におけるaは、適宜定められる定数である。
Figure 0006941943
また、双曲線正接関数は、φ(z)=tanh(z)である。
以下では、活性化関数φとしてReLU関数を用いる場合を説明する。
図4は、ニューラルネットワークの構成例を示す概略図である。ここに図示する構成は、4層のパーセプトロンによるものの一例である。図示するように、ニューラルネットワーク5は、入力層50、第1中間層51、第2中間層52、および出力層53の4層によって構成される。各層には1個以上のニューロンを有する。基本的に、ある層に属するニューロンからの出力が、次の層(次段)に属するニューロンの入力に接続される。ただし、入力層への入力は、ニューラルネットワーク全体への入力である。また、出力層からの出力は、ニューラルネットワーク全体からの出力である。図示する構成では、入力層への入力は、図2にも示した参照領域Rに属する画素r,r,・・・,rの画素値である。また、出力層からの出力は、図2にも示した対象領域Pに属する画素p,p,・・・,pの画素値の予測値である。
なお、ニューロンからニューロンへデータ(信号値)を伝達する線を、「シナプス」と呼ぶ場合がある。
また、必要に応じて、定数を所定のニューロンに入力するよう構成してもよい。図4に示す構成では、定数50−0,51−0,52−0の値は、それぞれ「1」である。そして、定数50−0は、第1中間層51に含まれるニューロン51−1,・・・,51−Pに入力されている。また、定数51−0は、第2中間層52に含まれるニューロン52−1,52−2,・・・,52−Qに入力されている。また、定数52−0は、出力層53に含まれるニューロン53−1,53−2,・・・53−Sに入力されている。
図5は、ニューラルネットワークのまた別の構成例を示す概略図である。ここに示す構成は、スキップレイヤー結合を含んだニューラルネットワークである。同図において、破線で示すシナプスが、スキップレイヤー結合である。破線矢印で示すシナプスは、第1中間層を跨いで、入力層における入力r,・・・,r17に対応するニューロンから、第2中間層に属するシナプスまでの直接の接続を実現している。つまり、ここでの破線矢印は、第1中間層をスキップした結合を実現している。このように、ニューラルネットワークがスキップレイヤー結合を含む構成としてもよい。
画面内予測装置12が、ニューラルネットワークを用いて、参照領域Rに属する画素の画素値から対象領域Pに属する画素の画素値を推定する手順を次に述べる。
ニューラルネットワークを構成するニューロンの総数をB個(Bは自然数)とする。なお、ここで例示するニューラルネットワークでは、1≦a<b≦Bなる整数対(a,b)に対し、第aニューロンは第bニューロンの下流には絶対に存在しないような構成を用いる。換言すれば、そのニューラルネットワークは階層型であり、かつニューロンの識別番号が大きいほど下流側(出力層に近い側)に位置するよう識別番号を割り振られている。また、上記の整数対(a,b)に関して言うと、第aニューロンは、第bニューロンよりも上流側の階層か、あるいは第bニューロンと同一の階層に位置している。
ここで、B個のニューロンのうちの第bニューロン(1≦b≦B)について、図面を参照しながら説明する。
図6は、ニューロン間における接続と、ニューロンでの演算処理を説明するための概略図である。図示するように、第bニューロンは、N入力、M出力である(N,Mは自然数)。即ち、第bニューロンは、N個の入力(xb,1,xb,2,・・・,xb,N)を有し、1個の出力値yをM個の他のニューロンへ分配する。なお、第bニューロンのn番目(1≦n≦N)の入力xb,nに対する重みは、wb,nである。
第bニューロンのn番目の入力xb,nは、第F(b,n)ニューロンからの出力に接続される。即ち、第bニューロンへの入力値xb,nは、第F(b,n)ニューロンからの出力値である。ここで、Fは関数である。関数F(b,n)は、第bニューロンの第n入力がいずれのニューロンの出力に接続されるかを特定する、バックポインターとして作用する。
第bニューロンの出力は、M個の他のニューロンの各々の入力のうちの1つに接続される。これらM個の接続のうち、m番目(1≦m≦M)の宛先(接続先)を、第T(b,m)ニューロンの第U(b,m)入力とする。すなわち、T(b,m)は、関数であり、第bニューロンのm番目の宛先のニューロンを表すポインターとして作用する。
また、関数U(b,m)は、第bニューロンのm番目の宛先のニューロン(つまり、第T(b,m)ニューロン)の入力先である端子(いずれの入力端子に入力するか)を表すポインターとして作用する。
画面内予測装置12が動作するとき、一例として、第1ニューロンから第Bニューロンまでの昇順により順次ニューロンを動作させる。この場合、あるニューロンが動作する時よりも前に、その上流のニューロンは既に動作している。
第bニューロンは、動作時に、下の式(4)による演算を実行する。
Figure 0006941943
つまり、式(4)に表す通り、第bニューロンは、既に演算済みの第F(b,n)ニューロンからの出力値と、メモリから読み出した重み値wb,nと(但し、n=1,2,・・・,N)を用いて積和演算を行い、その演算結果に活性化関数φを適用する。これにより、第bニューロンは、出力値yを、さらに下流のニューロンに渡す。
なお、上では、第1ニューロンから第Bニューロンまでの昇順により順次ニューロンを動作させる場合を説明したが、代わりに、次のような順序でニューロンを動作させてもよい。即ち、番号の昇順または降順と無関係に、出力値yを知りたい任意のニューロン(第bニューロン)について、式(4)による演算を行う。ただし、このとき、式(4)の右辺のyF(b,n)のうち、未計算のものがあれば、そのニューロン(第F(b,n)ニューロン)について、式(4)による演算を行う。つまり、任意のニューロンを起点として、再帰呼び出しを行いながら各ニューロンの出力値を求める演算を順次行っていくような実装形態としてもよい。
なお、活性化関数φは、ニューロンごとに異なる関数であってもよい。また、複数のニューロンの活性化関数φb1とφb2が互いに同じ関数であってもよい。
なお、通常、入力層に属する各ニューロンは、単一の入力値をそのまま出力して分配するだけである。即ち、そのニューロンは1入力であり、恒等的にwb,1=1であり、且つ、φ(z)=zである。
次に、画面内予測装置12が用いる、ニューラルネットワークの学習について説明する。
ここで言う学習とは、ニューラルネットワークを構成するニューロンの各入力に対応する重みを、事例(学習データ)に基づいて適切に設定する手法を指す。学習データは、入力層に属するニューロンに与える入力値列(参照領域の画素値列)と、出力層に属するニューロンが出力すべき出力値列(対象領域の画素値列)の対である。
学習時においては、まず、学習データ(入力値列と出力値列の対)のうちの入力値列を、入力層に属する各ニューロンの入力として与える。そして、式(4)で説明した、画面内予測動作時の、各ニューロンの動作(式(4)による演算)を実行して、各ニューロンの出力値yを求めておく。
続いて、第Bニューロンから第1ニューロンへの降順により、以下に述べる学習を実行する。具体的には、第bニューロンの学習において、次の式(5)による演算を行う。
Figure 0006941943
式(5)による演算により、第bニューロンの誤差値δを求めることができる。
ここで、tは、第bニューロンが出力層に属する場合における教師データである。教師データとは、即ち、学習データが含む出力値列(正解データの列)のうちの第bニューロン用の値である。
また、第bニューロンが中間層に属する場合は、δは、第bニューロンの宛先(接続先)である第T(b,m)ニューロンにおいて求められた誤差値δT(b,m)と、その第T(b,m)ニューロンにおける第bニューロンからの入力端子に対応する重み値wT(b,m),U(b,m)とから求められる、重み付けされた誤差値総量である。言い換えれば、ニューラルネットワークの下流から上流に遡る誤差値の重み付け積和である。
なお、上では、第Bニューロンから第1ニューロンへの降順により、式(5)による演算を行うと説明したが、代わりに、次のような順序で学習を行ってもよい。即ち、ニューロンの番号の昇順または降順と無関係に、誤差値δを知りたい任意のニューロン(第bニューロン)について、式(5)による演算を行う。ただし、このとき、式(5)の右辺のδT(b,n)のうち、未計算のものがあれば、そのニューロン(第T(b,n)ニューロン)について、式(5)による演算を行う。つまり、任意のニューロンを起点として、再帰呼び出しを行いながら各ニューロンの誤差値を求める演算を順次行っていくような実装形態としてもよい。
そして、次の式(6)による計算を行って、重み値を更新する。即ち、重み値を記憶しているメモリを書き換える。なお、式(6)において、更新前の重みがwであり、更新後の重みがw (new)である。
Figure 0006941943
なお、ここで、sgn(z)は、符号関数である。即ち、zが負数のときにsgn(z)は−1、zが零のときにsgn(z)は0、またzが正数のときにsgn(z)は+1である。
また、ηは学習速度を調整するためのパラメーターである。ηは、正の定数または正の変数である。ηの値が大きいほど高速に学習できる反面、学習結果が最適値に収束しづらくなる。また、ηの値が大きいと、学習結果がうまく収束しない可能性もある。
また、λはLasso回帰におけるL1正則化をどれほど強く効かせるかを定める非負の定数である。λが大きいほど正則化が強く効いて過学習を防ぐことができる反面、学習データに対する回帰の精度は低下する。
画面内予測装置12におけるニューラルネットワークの学習を、オフラインで事前に実施しておいてもよいし、符号化および復号の処理中にオンラインで実施してもよい。さらには、ニューラルネットワークの学習を事前にオフラインで実施しておいた上で、符号化および復号の処理中にもオンラインで学習を実施しても構わない。いずれの場合も、画像内に参照領域と対象領域を設定し、この対を事例として学習を実施する。
事前に学習を実施する場合には、例えば、非可逆符号化/復号処理を適用していない画像内に、画面内予測実行時の参照領域と対象領域との相対位置関係で参照領域および対象領域を設定し、参照領域内の画素値列および対象領域内の画素値列の対を学習データとして学習を実施する。
あるいは、例えば、非可逆符号化/復号処理を適用した画像(復号画像)内に参照領域を設け、非可逆符号化/復号処理を適用していない画像(原画像)内に対象領域を設ける。そして、参照領域内の画素値列および対象領域内の画素値列の対を学習データとして学習を実施してもよい。これら参照領域と対象領域の各画像座標は、画面内予測実行時の参照領域と対象領域の画像座標の相対位置関係にあるものとする。
一方、オンラインで学習を実施する場合には、非可逆符号化/復号処理を適用した画像内に、画面内予測実行時の参照領域と対象領域との相対位置関係で参照領域および対象領域を設定し、参照領域内の画素値列および学習用対象領域内の画素値列の対を学習データとして学習を実施する。
なお、学習に用いる画像として、回転を施したり鏡像を用いたりしないそのままの画像を用いてもよく、その画像を回転させたり、鏡像を用いたり、またはその両者を適用した画像を用いてもよい。また、これらを併用してもよい。
学習処理を行うための画面内予測装置12の構成の一例は次の通りである。即ち、各ニューロンは、入力値の重み和を算出する際に用いるための重み値(図3におけるw,w,・・・,w)を記憶するメモリを、更新可能なメモリとする。そして、不図示の学習手段が、対象領域の画素値として予測した予測値と、画像符号化装置1内の復号手段が復号した結果得られる当該対象領域の画素値との差に基づいて、重み値の更新値を計算する(式(6)の計算)。そして、学習手段は、この更新値を用いて、上記のメモリに記憶された重み値を更新する。
なお、画面内予測装置34も、上記と同様の学習手段を有する。画面内予測装置34の場合には、重み値の更新値を計算する際に、画像復号装置3内の復号手段が復号した結果得られる対象領域の画素値を用いる。
[第2実施形態]
次に、本発明の第2実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
第1実施形態では、画像内に、参照領域と対象領域とを設け、画面内予測装置12および画面内予測装置34が、参照領域の画素値を基に対象領域の画素値を推定(予測)する構成としていた。
これに対して、本実施形態では、参照領域内の部分領域として、さらに近傍参照領域を設ける。ここで、近傍参照領域とは、参照領域に属する画素のうちの特定の部分領域である。参照領域内における近傍参照領域の配置は、任意である。また、参照領域内において近傍参照領域が「飛び地」状態であってもよい。しかし、特に、参照領域のうち、比較的対象領域に近い位置の領域を近傍参照領域とすることが好適である。領域の構成の具体例については、後で、図面を参照しながら説明する。
そして、参照領域の画素値を入力側とし、対象領域の画素値の予測値を出力側とするニューラルネットワークにおいて、近傍参照領域に属する画素については、近傍参照領域以外の参照領域の画素とは、異なる接続形態とする。
図7は、本実施形態における画素内の領域の配置の一例を示す概略図である。図示するのは、縦16画素×横16画素の合計256画素で構成される画素のマトリックスである。これら256個の画素は、参照領域と、対象領域とに分かれる。
具体的には、第9行から第16行までの範囲に属し、且つ第9列から第16列までの範囲に属する画素が、対象領域の画素である。対象領域には、縦8画素×横8画素の合計64画素が含まれている。図中において、対象領域の画素には、p,p,・・・,p64というラベルを付与している。これらのラベルは、対象領域内の、最も左上の画素をpとし、そこからまず右方向に順次番号を進め、右端(第16列)に達した後はまた、左端の次の行から順次番号を進める形で付与されている。そして、最も右下の画素(第16行,第16列)のラベルがp64である。
次に、合計256画素のうちの、上記の対象領域以外の192画素が、参照領域の画素である。言い換えれば、第1行目から第8行目までの範囲か、あるいは第1列目から第8列目までの範囲の、少なくともいずれかに属する画素が、参照領域の画素である。
そして、参照領域の画素のうち、特に、対象領域の画素に、縦、横、あるいは斜めに、隣接している(距離が1画素)画素を、近傍参照領域としている。言い換えれば、第8列目における第8行目から第16行目までの画素と、第8行目における第8列目から第16列目までの画素との集合が、近傍参照領域の画素である。つまり、近傍参照領域は、17個の画素を含む。近傍対象領域の画素には、r,r,・・・,r17というラベルを付与している。近傍参照領域の縦のラインの最も下の画素(第16行,第8列)のラベルがrである。その画素から順次上に数字を進め、近傍参照領域の縦・横の角の画素(第8行,第8列)のラベルがrである。その画素から、右に順次数字を進め、近傍参照領域の横のラインにおける最も右の画素(第8行,第16列)のラベルがr17である。
また、参照領域の画素のうち、上記の近傍参照領域には属さない残りの画素(計175個の画素)には、r18,r19,・・・,r192というラベルを付与している。ラベルの数字の順序は、図示する通りである。
上記のように参照領域(そのさらに部分領域が近傍参照領域)と対象領域を設けたことを前提として、ニューラルネットワークの具体的な構成例は、次の通りである。
まず、近傍参照領域の画素値列から対象領域の画素値列へのニューロン接続のネットワークは、3層以上の多層パーセプトロンであることを基本構成とする。
また、そのネットワークに重畳する形で、近傍参照領域内の画素値列から、前記多層パーセプトロンの中間層(ただし、前記基本構成の入力層に隣接するニューロンを除く)に属するニューロン、または出力層に属するニューロンに至る、短絡的な接続(スキップレイヤー結合)を設ける。言い換えれば、ネットワークは、近傍参照領域内の画素値列(入力層のニューロン)から、少なくとも一層をスキップして多層パーセプトロンの中間層または出力層に属するニューロンへ至る短絡的な接続を有する。
図7に示した参照領域、近傍参照領域、および対象領域の配置を前提としたとき、既に説明した図5に示すニューラルネットワークは、本実施形態による画面内予測装置を構成するニューラルネット枠である。つまり、本実施形態では、図7における近傍参照領域に属する画素r,r,・・・,r17の各画素値は、ニューラルネットワークの入力層のうち、スキップレイヤー結合を有するニューロン(図5におけるニューロン群61)に接続される。一方、参照領域には属するものの近傍参照領域には属さない画素r18,r19,・・・,r192の各画素値は、ニューラルネットワークの入力層のうち、スキップレイヤー結合を有しないニューロン(図5におけるニューロン群62)に接続される。そして、このニューラルネットワークの出力層からの信号値列(図5における信号値列63)が対象領域の画素p,p,・・・,p64の画素値列の予測値である。
本実施形態では、近傍参照領域を、参照領域内の、特に対象領域の近傍に設けた。そして、図5に示したニューラルネットワークの構成として、入力層の一部においてスキップレイヤー結合を有するニューロン群を設けた。そして、参照領域に含まれる画素の画素値列のうち、近傍参照領域に含まれる画素の画素値列を、入力層のニューロンのうちのスキップレイヤー結合を有するニューロン群(図5における61)に割り当てた。そして、参照領域に含まれる画素の画素値列のうち、近傍参照領域には含まれない画素の画素値列を、入力層のニューロンのうちのスキップレイヤー結合を有しないニューロン群(図5における62)に割り当てた。つまり、図5の例では、第1中間層に含まれる各ニューロンは、参照領域に含まれる画素(近傍参照領域に含まれる画素も、含まれない画素も)の画素値に対応するニューロンからの直接の接続による入力を有する。また、第2中間層に含まれるニューロンは、近傍参照領域に含まれる画素の画素値に対応する入力層のニューロンからの直接の接続による入力を有し、第1中間層に含まれる各ニューロンからの直接の接続による入力を有する。しかし、第2中間層に含まれるニューロンは、近傍参照領域に含まれない画素の画素値に対応する入力層のニューロンからは、直接の接続による入力を有さない。
上記のような構成が生み出す作用の一つは、第1中間層が実質的にモード決定の役割を担うことであり、この作用が、画素値の予測の精度を向上させる。
なお、上述した実施形態における画面内予測装置、画像符号化装置、画像復号装置の各装置の機能の少なくとも一部をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、さらに次のような変形例でも実施することが可能である。
[変形例1:参照領域と対象領域の配置]
第1実施形態および第2実施形態において、画像内の、参照領域と対象領域とのそれぞれの画素の配置の例を説明した(図2,図7)。実際には、例示したそれらの例による画素の配置だけでなく、他の配置を用いるようにしてもよい。また、参照領域および対象領域のそれぞれのサイズ(画素数)を変えてもよい。また、参照領域と対象領域とを合わせた領域の形状は、長方形には限られない。以下に、参照領域と対象領域の配置の変形例を説明する。
図8は、参照領域と対象領域の配置の例を示す概略図である。同図に示す配置では、参照領域内に特に近傍参照領域を設けていない。つまり、参照領域内において、近傍参照領域と近傍参照領域以外の領域とは特に区別されない。そして、対象領域は、縦L画素×横L画素(ただし、Lは自然数)の、n個(n=L×L)の画素を含んでいる。対象領域に含まれる画素には、p,p,・・・,pというラベルを付与している。そして、参照領域は、上記の対象領域の上側と左側とをカバーするL字(逆L字)型の領域である。参照領域に含まれる画素には、r,r,・・・,rというラベルを付与している。このように対象領域の上側と左側に参照領域が存在する配置は、上側から、そして左側から、順にブロックごとに符号化していく場合に好適である。同図に示す領域の配置の特徴は、対象領域よりも上側に存在する参照領域の部分が、水平方向の位置において、対象領域の最右側の画素よりも、さらに右側に出ている点である。具体的には、対象領域の横方向のサイズがL[画素]であり、対象領域の最右側の画素よりも、水平方向においてさらにL[画素]分右側まで、参照領域の画素が出ている。また、垂直方向においても同様であり、対象領域よりも左側に存在する参照領域の部分が、垂直方向の位置において、対象領域の最下側の画素よりも、さらに下側に出ている点である。具体的には、対象領域の縦方向のサイズがL[画素]であり、対象領域の最下側の画素よりも、垂直方向においてさらにL[画素]分下側まで、参照領域の画素が出ている。
なお図8では、画像のブロックごとの符号化を上側からそして左側から行っていく場合の参照領域と対象領域の配置について説明した。例えば、図示した配置を、90度、180度、あるいは270度回転させれば、他の方向から順次ブロック化を行っていく場合にも適した配置とすることができる。
また図8では、参照領域の厚み(短手方向の画素サイズ)が2[画素]の場合を例示したが、この厚みのサイズも、任意である。
図9は、参照領域と対象領域の配置の例を示す概略図である。同図に示す配置では、参照領域内に特に近傍参照領域を設けている。つまり、参照領域内において、近傍参照領域と近傍参照領域以外の領域とが区別される。
そして、対象領域は、縦L画素×横L画素(ただし、Lは自然数)の、n個(n=L×L)の画素を含んでいる。対象領域に含まれる画素には、p,p,・・・,pというラベルを付与している。そして、参照領域は、上記の対象領域の上側と左側とをカバーするL字(逆L字)型の領域である。参照領域に含まれる画素には、r,r,・・・,rというラベルを付与している。このように対象領域の上側と左側に参照領域が存在する配置は、上側から、そして左側から、順にブロックごとに符号化していく場合に好適である。
参照領域のうち、逆L字の内側の部分の所定の厚さ(図示する例では、厚さ1[画素])の部分が、近傍参照領域である。言い換えれば、図示する例では、参照領域に含まれる画素のうち、対象領域の左上端の画素のさらに左上に配置された画素を含み、その画素と同行に存在してより右側の画素は、近傍参照領域に属する画素である。また、対象領域の左上端の画素のさらに左上に配置された画素を含み、その画素と同列に存在してより下側の画素は、近傍参照領域に属する画素である。
なお、図示する例では、近傍参照領域の厚み(短手方向の画素サイズ)が1[画素]の場合を例示したが、この厚みのサイズも、任意である。
同図に示す領域の配置の特徴は、対象領域よりも上側に存在する参照領域の部分が、水平方向の位置において、対象領域の最右側の画素よりも、さらに右側に出ている点である。これは、近傍参照領域についても、近傍参照領域以外の参照領域の部分についても同様である。具体的には、対象領域の横方向のサイズがL[画素]であり、対象領域の最右側の画素よりも、水平方向においてさらにL[画素]分右側まで、参照領域の画素が出ている。また、垂直方向においても同様であり、対象領域よりも左側に存在する参照領域の部分が、垂直方向の位置において、対象領域の最下側の画素よりも、さらに下側に出ている点である。これは、近傍参照領域についても、近傍参照領域以外の参照領域の部分についても同様である。具体的には、対象領域の縦方向のサイズがL[画素]であり、対象領域の最下側の画素よりも、垂直方向においてさらにL[画素]分下側まで、参照領域の画素が出ている。
なおここでは、画像のブロックごとの符号化を上側からそして左側から行っていく場合の参照領域と対象領域の配置について説明した。例えば、図示した配置を、90度、180度、あるいは270度回転させれば、他の方向から順次ブロック化を行っていく場合にも適した配置とすることができる。
なお、近傍参照領域の有無という点に着目すれば、図8に示した領域の配置は、図2の配置の変形例であると言える。また、図9に示した領域の配置は、図7の配置の変形例であると言える。
そして、これら図8および図9の領域の配置に限らず、他の変形例(領域の形状やサイズの変形)による領域の配置を用いてもよいことは言うまでもない。
[変形例2:ニューラルネットワークの層の数]
実施形態では、使用するニューラルネットワークとして、入力層および出力層を含めて4層のニューラルネットワークを示した(図4,図5)。しかし、層の数は任意である。通常は、4層以上の構成とする。なお、層数を大きくしてもよいが、層数が大きくなるほど、学習処理による重み値の収束が遅くなる点に注意が必要である。
[変形例3:学習結果の伝達について]
オンラインでの学習では、画像符号化装置1側と、画像復号装置3側とで、同じ学習データに基づく学習を蓄積的に行っていく。このとき、適宜チェックポイントを設けて、画像符号化装置1側と画像復号装置3側の間で、チェックポイントのタイミングにおける学習結果の同期を図るような処理を行ってもよい。具体的には、チェックポイントのタイミングで、学習結果である重み値の集合を、一方の装置から他方の装置に伝達し、両装置側で学習結果である重み値を強制的に一致させる。
以上、この発明の実施形態および変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
以上説明した少なくとも一つの実施形態によれば、複数のニューロンの結合により実現される関数により、様々な画素値パターンにも対応して参照領域内の画素値列から対象領域の画素値列を予測することができる。
また、ニューロンが非線形性を有する場合、それらの複数のニューロンの結合で実現される非線形関数により、線形的な内挿演算や外挿演算のみでは実現できないような画素値パターンにも対応して参照領域内の画素値列から対象領域の画素値列を予測することができる。
また、短絡的な接続を有するニューロンを含む場合、近傍参照領域に属する画素の情報をより濃厚に出力層へ導くことが可能となり、より効率的な画像の予測が可能となる。
本発明は、画像(静止画像や動画像)の配信、流通等に関する産業に利用可能である。
1 画像符号化装置
2 伝送・蓄積装置
3 画像復号装置
4 ニューロン
5 ニューラルネットワーク
10 ブロック分割部
11 メモリ
12 画面内予測装置(予測装置)
13 減算部
14 変換部
15 量子化部
16 エントロピー符号化部
17 逆量子化部
18 逆変換部
19 加算部
30 エントロピー復号部
31 逆量子化部
32 逆変換部
33 メモリ
34 画面内予測装置(予測装置)
35 加算部
50 入力層
50−0,51−0,52−0 定数
51 第1中間層
52 第2中間層
53 出力層
61 スキップレイヤー結合を有する入力層のニューロン群
62 スキップレイヤー結合を有しない入力層のニューロン群
63 出力層からの信号値列
100 対象領域
101 参照領域

Claims (4)

  1. 画像内の参照領域内の画素値列から、前記画像内の対象領域内の画素値列を予測する予測装置であって、
    1個以上の入力値に対する重み和を算出し、前記重み和に関数を適用することで出力値を得る回路であるニューロンを複数含んだニューラルネットワークを備え、
    前記ニューラルネットワークは、1層の入力層と、1層以上の中間層と、1層の出力層とを備え、
    前記入力層が有する前記ニューロンに関しては、入力は前記参照領域内の画素値が接続され、出力値は他の前記ニューロンの入力に接続され、
    前記中間層が有する前記ニューロンに関しては、入力は他の前記ニューロンからの出力値が接続され、出力値は他の前記ニューロンの入力に接続され、
    前記出力層が有する前記ニューロンに関しては、入力は他の前記ニューロンからの出力値が接続され、出力値は対象領域内の画素値の予測値として出力され、
    前記参照領域内の部分領域である近傍参照領域の画素値列から前記対象領域内の画素値の予測値へのニューロン接続が、3層以上の多層パーセプトロンであり、
    さらに、
    記近傍参照領域内の画素値列から、少なくとも一層をスキップして前記多層パーセプトロンの中間層または出力層に属するニューロンへ至る短絡的な接続を有する、
    予測装置。
  2. 画像符号化装置内または画像復号装置内に設けられ、画像内の参照領域内の画素値列から、前記画像内の対象領域内の画素値列を予測する予測装置であって、
    1個以上の入力値に対する重み和を算出し、前記重み和に関数を適用することで出力値を得る回路であるニューロンを複数含んだニューラルネットワークを備え、
    前記ニューラルネットワークは、1層の入力層と、1層以上の中間層と、1層の出力層とを備え、
    前記入力層が有する前記ニューロンに関しては、入力は前記参照領域内の画素値が接続され、出力値は他の前記ニューロンの入力に接続され、
    前記中間層が有する前記ニューロンに関しては、入力は他の前記ニューロンからの出力値が接続され、出力値は他の前記ニューロンの入力に接続され、
    前記出力層が有する前記ニューロンに関しては、入力は他の前記ニューロンからの出力値が接続され、出力値は対象領域内の画素値の予測値として出力され、
    さらに、
    前記ニューロンが前記重み和を算出する際に用いるための重み値を記憶する更新可能なメモリと、
    前記対象領域の画素値として予測した予測値と、前記画像符号化装置内または前記画像復号装置内の復号手段が復号した結果得られる当該対象領域の画素値との差に基づいて、前記メモリに記憶された前記重み値を更新する学習手段と、
    備える予測装置。
  3. 前記参照領域内の画素値列を入力する層である入力層に属するニューロン以外の前記ニューロンは、前記重み和に非線形関数を適用することで前記出力値を得る、
    請求項1または2に記載の予測装置。
  4. コンピューターを、
    請求項1からまでのいずれか一項に記載の予測装置として機能させるためのプログラム。
JP2017016622A 2017-02-01 2017-02-01 予測装置およびプログラム Active JP6941943B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017016622A JP6941943B2 (ja) 2017-02-01 2017-02-01 予測装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017016622A JP6941943B2 (ja) 2017-02-01 2017-02-01 予測装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2018125713A JP2018125713A (ja) 2018-08-09
JP6941943B2 true JP6941943B2 (ja) 2021-09-29

Family

ID=63111710

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017016622A Active JP6941943B2 (ja) 2017-02-01 2017-02-01 予測装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6941943B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11500442B2 (en) 2019-01-18 2022-11-15 Silicon Storage Technology, Inc. System for converting neuron current into neuron current-based time pulses in an analog neural memory in a deep learning artificial neural network
US10452980B1 (en) * 2019-01-25 2019-10-22 StradVision, Inc. Learning method and learning device for extracting feature from input image by using convolutional layers in multiple blocks in CNN, resulting in hardware optimization which allows key performance index to be satisfied, and testing method and testing device using the same
EP3925214A4 (en) 2019-02-15 2022-11-23 Nokia Technologies Oy DEVICE, METHOD AND COMPUTER PROGRAM FOR VIDEO ENCODING AND DECODING

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3310058B1 (en) * 2015-06-12 2023-02-22 Panasonic Intellectual Property Management Co., Ltd. Image coding method, image decoding method, image coding device and image decoding device

Also Published As

Publication number Publication date
JP2018125713A (ja) 2018-08-09

Similar Documents

Publication Publication Date Title
Choi et al. Task-aware quantization network for jpeg image compression
Guo et al. Building dual-domain representations for compression artifacts reduction
JP6941943B2 (ja) 予測装置およびプログラム
JP2888186B2 (ja) 画像符号化装置および画像復号装置
US20230062752A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
JP7356513B2 (ja) ニューラルネットワークのパラメータを圧縮する方法および装置
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
JP2009509418A (ja) 時間予測のための分類フィルタリング
JP6789894B2 (ja) ネットワーク係数圧縮装置、ネットワーク係数圧縮方法およびプログラム
CN110073663A (zh) 使用级别图的变换系数代码化
WO1993003443A1 (en) Signal processor and learning method thereof
KR101276450B1 (ko) 적응형 영향 영역 필터
US20230110503A1 (en) Method, an apparatus and a computer program product for video encoding and video decoding
Jeong et al. An overhead-free region-based JPEG framework for task-driven image compression
JP6960784B2 (ja) ニューラルネットワーク、符号化装置、復号装置、学習方法、制御方法、およびプログラム
JP2018182531A (ja) 分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラム
CN110062237B (zh) 视频编码的帧内编码模式选择方法和装置
Rizvi et al. Nonlinear vector prediction using feed-forward neural networks
Masmoudi et al. A finite mixture model of geometric distributions for lossless image compression
JP2018125718A (ja) モード予測情報生成装置およびプログラム
US11936866B2 (en) Method and data processing system for lossy image or video encoding, transmission and decoding
US20240223762A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
EP4391533A1 (en) Feature map encoding method and apparatus and feature map decoding method and apparatus
EP4310783A1 (en) Transformer based neural network for 3d human pose estimation
US20230306239A1 (en) Online training-based encoder tuning in neural image compression

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210907

R150 Certificate of patent or registration of utility model

Ref document number: 6941943

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250