JP7104352B2

JP7104352B2 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP7104352B2
Application number: JP2020548382A
Authority: JP
Inventors: 忍工藤; 翔太折橋; 正樹北原; 淳清水
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-09-19
Filing date: 2019-09-11
Publication date: 2022-07-21
Anticipated expiration: 2039-09-11
Also published as: JPWO2020059581A1; US20210344967A1; US11516515B2; WO2020059581A1

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。
本願は、２０１８年９月１９日に、日本に出願された特願２０１８－１７４９８２号に基づき優先権を主張し、その内容をここに援用する。

画像を符号化する方法の一つとして、オートエンコーダ（自己符号化器）を利用した方法がある。ここでいう画像には、静止画像及び動画像（以下「映像」という。）が含まれる。オートエンコーダは、入力層（エンコーダ）、隠れ層、及び出力層（デコーダ）からなる３層のニューラルネットワークである。オートエンコーダは、エンコーダにより入力データを符号化データに符号化し、デコーダにより符号化データを入力データに復元するように設計される。エンコーダ及びデコーダは、任意の演算器によって構築される。例えば入力データが画像である場合、エンコーダは畳み込み演算を行う複数の演算器、及び、デコーダはエンコーダによる畳み込み演算に対する逆演算を行う複数の演算器によって構築される。

ニューラルネットワークによる演算では、パラメータの数を増やすことによって表現能力及び性能の向上が見込まれる。しかしながら、入力データが例えば解像度の高い画像である場合、パラメータ数が多くなると、演算に必要なメモリの容量が膨大になる。そのため、パラメータ数を増やすことよって表現能力及び性能を向上させることは現実的ではない。

そこで、例えば図１４に示すように、入力データを演算可能なサイズの複数のデータに分割し、分割されたそれぞれのデータに対してニューラルネットワークによる演算処理を行い、出力された復号データを結合して元の入力データを復元する方法が考えられる。しかしながら、この方法では、分割されたそれぞれのデータは互いに独立に処理される。そのため、この方法では、復元された入力データは、特に分割がなされた画像の境界部分において、隣接する復号データの間の連続性が保たれておらず、不自然な画像になる可能性が高い。

これに対し、例えば図１５に示すように、処理対象データと併せて周囲の復号データを、エンコーダ、デコーダ、又はその両方に再帰的に入力する従来技術がある。このように、再帰的に周囲の復号データを入力することによって、処理対象データと周囲の復号データとの連続性が考慮され、より自然な復元データが得られる。

Nitish Srivastava et al., "Unsupervised Learning of Video Representations using LSTMs," arXiv, 2016.

しかしながら上記の従来技術は、ランダムアクセス性に欠けるという課題がある。ここでいうランダムアクセス性とは、データに対して離散的にアクセスしても所望のデータを容易に得ることができる性質のことである。従来技術では、例えば入力データが映像データである場合、映像データの先頭から順に符号化及び復号が行われる。この場合、例えば映像データの所望の位置の復号データのみを得たい場合であっても、映像データの先頭から順に復号を行っていかなければ、所望の位置の復号データを得ることができない。
また、上記の従来技術は、並列性に欠けるという課題がある。従来技術は、再帰的に演算処理を行うことから、並列処理が行うことが難しい。そのため、従来技術は、分散処理システム等を用いて効率的に演算処理を行うことが難しい。

本発明はこのような状況を鑑みてなされたもので、画像データに対するランダムアクセス性、及び並列性を有する符号化及び復号を行うことができる技術の提供を目的としている。

本発明の一態様は、映像データが分割された所定のフレーム数からなるフレーム群ごとに補正を行う画像処理装置であって、前記フレーム群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、第１のフレーム群の前記伸張復号データを、前記第１のフレーム群と時間的に連続したフレーム群である第２のフレーム群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより、補正後フレーム群を得る復号部を備え、前記復号部は、入力画像が真の画像であるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後フレーム群と、前記第２のフレーム群の前記伸張復号データを前記第２のフレーム群より時間的に後のフレーム群の前記伸張復号データに結合させて得られる補正後フレーム群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行う画像処理装置である。

また、本発明の一態様は、データが分割された所定の部分データ数からなる部分データ群ごとに補正を行う画像処理装置であって、前記部分データ群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、第１の部分データ群の前記伸張復号データを、前記第１の部分データ群と時間的に連続した部分データ群である第２の部分データ群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより補正後部分データ群を得る復号部を備え、前記復号部は、入力データが真のデータであるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後部分データ群と、前記第２の部分データ群の前記伸張復号データを前記第２の部分データ群より時間的に後の部分データ群の前記伸張復号データに結合させて得られる補正後部分データ群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行う画像処理装置である。

また、本発明の一態様は、映像データが分割された所定のフレーム数からなるフレーム群ごとに補正を行う画像処理方法であって、前記フレーム群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、第１のフレーム群の前記伸張復号データを、前記第１のフレーム群と時間的に連続したフレーム群である第２のフレーム群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより、補正後フレーム群を得るステップと、入力画像が真の画像であるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後フレーム群と、前記第２のフレーム群の前記伸張復号データを前記第２のフレーム群より時間的に後のフレーム群の前記伸張復号データに結合させて得られる補正後フレーム群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行うステップと、を有する画像処理方法である。

また、本発明の一態様は、上記の画像処理装置としてコンピュータを機能させるための画像処理プログラムである。

本発明により、画像データに対するランダムアクセス性、及び並列性を有する符号化及び復号を行うことができる。

第１の実施形態に係る映像符号化・復号システム１の全体構成図である。第１の実施形態に係る映像符号化・復号システム１の符号化部１２０の構成図である。第１の実施形態に係る映像符号化・復号システム１の復号部２１０の構成図である。従来技術における映像符号化・復号システムの復号部の構成図である。第１の実施形態に係る映像符号化装置１０の動作を示すフローチャートである。第１の実施形態に係る映像符号化・復号システム１の次元圧縮部１２１の構成図である。第１の実施形態に係る映像復号装置２０の動作を示すフローチャートである。第１の実施形態に係る映像符号化・復号システム１の次元伸張部２１２の構成図である。第１の実施形態に係る映像符号化・復号システム１の補正部２１４の構成図である。第１の実施形態に係る映像符号化・復号システム１による学習処理を説明するための模式図である。第２の実施形態に係る映像符号化・復号システムの復号部２１０ａの構成図である。第２の実施形態に係る映像復号装置の動作を示すフローチャートである。第２の実施形態に係る映像符号化・復号システムによる学習処理を説明するための模式図である。従来技術における映像符号化・復号システムによる学習処理を説明するための模式図である。従来技術における映像符号化・復号システムによる学習処理を説明するための模式図である。

＜第１の実施形態＞
以下、本発明の第１の実施形態について、図面を参照しながら説明する。

以下、映像データを符号化及び復号する映像符号化・復号システム１について説明する。但し、当該システムは、映像データ以外の画像データを符号化及び復号する場合にも適用可能である。

［映像符号化・復号システムの構成］
以下、映像符号化・復号システム１の構成について説明する。
図１は、第１の実施形態に係る映像符号化・復号システム１（画像処理装置）の全体構成図である。図１に示すように、映像符号化・復号システム１は、符号化の対象となる入力映像データを取得し、当該入力映像データに対応する復号映像データを出力する。映像符号化・復号システム１は、映像符号化装置１０と、映像復号装置２０と、を含んで構成される。

映像符号化装置１０は、映像分割部１１０と、符号化部１２０と、を含んで構成される。映像分割部１１０は、入力映像データを取得する。入力映像データは、時間的に連続した複数のフレームによって構成される。映像分割部１１０は、取得された入力映像データを構成する連続した複数のフレームを所定のフレーム数ごとに分割することにより、複数の入力フレーム群を生成する。映像分割部１１０は、生成された複数の入力フレーム群を、符号化部１２０へ順に出力する。

符号化部１２０の構成を図２に示す。図２に示すように、符号化部１２０は、次元圧縮部１２１と、量子化／エントロピー符号化部１２２と、を含んで構成される。
次元圧縮部１２１は、映像分割部１１０から出力された入力フレーム群を取得する。次元圧縮部１２１は、取得された入力フレーム群に対し、次元数を少なくするように圧縮することにより圧縮フレーム群を生成する。次元圧縮部１２１は、生成された圧縮フレーム群を、量子化／エントロピー符号化部１２２へ出力する。

量子化／エントロピー符号化部１２２は、次元圧縮部１２１から出力された圧縮フレーム群を取得する。量子化／エントロピー符号化部１２２は、取得された圧縮フレーム群を構成する圧縮フレームそれぞれの値に対し、量子化及びエントロピー符号化を行う。そして、量子化／エントロピー符号化部１２２は、量子化及びエントロピー符号化された圧縮フレーム群を連結することにより、符号化データを生成する。量子化／エントロピー符号化部１２２は、生成された符号化データを、映像復号装置２０の後述する復号部２１０へ出力する。

再び図１に戻って説明する。
映像復号装置２０は、復号部２１０と、映像結合部２２０と、を含んで構成される。
復号部２１０の構成を図３に示す。図３に示すように、復号部２１０は、エントロピー復号部２１１と、次元伸張部２１２と、中間データメモリ２１３と、補正部２１４と、を含んで構成される。

エントロピー復号部２１１は、符号化部１２０の量子化／エントロピー符号化部１２２から出力された符号化データを取得する。エントロピー復号部２１１は、取得された符号化データをエントロピー復号することにより、エントロピー復号データを生成する。エントロピー復号部２１１は、生成されたエントロピー復号データを、次元伸張部２１２へ出力する。

次元伸張部２１２は、エントロピー復号部２１１から出力されたエントロピー復号データに対し、上述した（次元圧縮部１２１によって圧縮される前の）入力フレーム群と同一の次元数になるまで伸張することにより伸張復号データを生成する。次元伸張部２１２は、生成された伸張復号データを、中間データメモリ２１３及び補正部２１４へそれぞれ出力する。

中間データメモリ２１３は、次元伸張部２１２から出力された伸張復号データを取得し、記憶する。なお、中間データメモリ２１３に記憶された伸張復号データを、以下「中間データ」という。中間データは、必要に応じて補正部２１４へ出力される。中間データメモリ２１３は、例えばＲＡＭ（Random Access Memory；読み書き可能なメモリ）等の揮発性の記録媒体である。

補正部２１４は、次元伸張部２１２から出力された伸張復号データを取得する。また、補正部２１４は、中間データメモリ２１３に記憶された中間データを取得する。補正部２１４は、中間データを用いて伸張復号データを補正することにより復号フレーム群を生成する。補正部２１４は、生成された復号フレーム群を映像結合部２２０へ出力する。

再び図１に戻って説明する。
映像結合部２２０は、復号部２１０から出力された復号フレーム群を取得する。映像結合部２２０は、取得された復号フレーム群を結合することにより復号映像データを生成する。映像結合部２２０は、生成された復号映像データを最終的な出力データとして出力する。

なお、従来技術との差異を説明するため、従来技術における映像符号化・復号システムの復号部２１０の構成を図４に示す。図３及び図４に示すように、上述した第１の実施形態に係る復号部２１０の構成と従来技術における復号部の構成との差異は、従来技術における復号部が補正部を備えないのに対して、第１の実施形態に係る復号部２１０が補正部２１４を備える点である。

従来技術における復号部の次元伸張部は、エントロピー復号部から出力されたエントロピー復号データを取得する。従来技術における次元伸張部は、取得されたエントロピー復号データに対して、中間データメモリに記憶された中間データを用いて次元数の伸張を行い、復号フレーム群を生成する。

一方、第１の実施形態に係る復号部２１０では、上述したように、補正部２１４が、次元伸張部２１２から伸張復号データを取得し、中間データメモリ２１３から中間データを取得する。そして、補正部２１４が、中間データを用いて伸張復号データを補正することにより復号フレーム群を生成する。

［映像符号化装置の動作］
以下、映像符号化装置１０の動作の一例について説明する。
図５は、第１の実施形態に係る映像符号化装置１０の動作を示すフローチャートである。

映像分割部１１０は、水平方向ｘ、垂直方向ｙ、時間方向ｚとする入力映像データＳ（ｘ，ｙ，ｚ）を取得する。映像分割部１１０は、取得された入力映像データＳ（ｘ，ｙ，ｚ）をＮ個のフレームごとに分割することにより、複数の入力フレーム群Ｓｉ（ｘ，ｙ，ｚ）を生成する（ステップＳ１０１）。ここで、ｘ，ｙ，ｚの次元数を、それぞれＸ，Ｙ，Ｚとする。また、ｉは、入力フレーム群の番号を表すインデックスである。

なお、各フレーム群のサイズは必ずしも同一である必要はない。例えば、Ｎ個のフレームからなるフレーム群と、Ｌ個（ＬはＮとは異なる正数）のフレームからなるフレーム群とが混在していても構わない。また、例えば、入力映像データＳ（ｘ，ｙ，ｚ）がＮ個のフレームとＬ個のフレームとに交互に分割されて、Ｎ個のフレーム群からなるフレーム群とＬ個のフレーム群からなるフレーム群とが交互に生成される構成であってもよい。

符号化部１２０の次元圧縮部１２１は、各入力フレーム群Ｓｉ（ｘ，ｙ，ｚ）を、次元数（Ｘ’，Ｙ’，Ｎ’）となるように圧縮することにより圧縮フレーム群を生成する（ステップＳ１０２）。なお、次元数（Ｘ’，Ｙ’，Ｎ’）は、Ｘ’＊Ｙ’＊Ｎ’＜Ｘ＊Ｙ＊Ｎを満たす次元数である。

なお、次元圧縮部１２１は、例えば図６に示すような、ニューラルネットワーク（畳み込み演算、ダウンサンプリング及び非線形変換の組み合わせ）によって構成される。
図６は、第１の実施形態に係る映像符号化・復号システム１の次元圧縮部１２１の構成図である。図６に示すように、次元圧縮部１２１は、Ｍ層からなる構成部（第１層構成部１２１ａ－１～第Ｍ層構成部１２１ａ－Ｍ）によって構成される。各構成部は、畳み込み層部ｃ１と、ダウンサンプリング部ｃ２と、非線形変換部ｃ３と、によって構成される。

第１層構成部１２１ａ－１の畳み込み層部ｃ１は、映像分割部１００から出力された入力フレーム群を取得する。第１層構成部１２１ａ－１の畳み込み層部ｃ１は、取得された入力フレーム群に対して畳み込み演算を行う。畳み込み層部ｃ１は、畳み込み演算が行われたフレーム群をダウンサンプリング部ｃ２へ出力する。
第１層構成部１２１ａ－１のダウンサンプリング部ｃ２は、畳み込み層部ｃ１から出力されたフレーム群を取得する。ダウンサンプリング部ｃ２は、取得されたフレーム群を、次元数を少なくするように圧縮する。ダウンサンプリング部ｃ２は、圧縮されたフレーム群を非線形変換部ｃ３へ出力する。
第１層構成部１２１ａ－１の非線形変換部ｃ３は、ダウンサンプリング部ｃ２から出力されたフレーム群を取得する。非線形変換部ｃ３は、取得されたフレーム群に対し非線形変換処理を行う。非線形変換部ｃ３は、非線形変換処理が行われたフレーム群を、次の層の構成部（第２層構成部）の畳み込み層部ｃ１へ出力する。

上記の処理を第１層から第Ｍ層まで繰り返すことにより、次元圧縮部１２１は、映像分割部１００から入力された入力フレーム群を、次元数が削減ざれた圧縮フレーム群に変換し、量子化／エントロピー符号化部１２２へ出力する。

再び図５に戻って説明する。
符号化部１２０の量子化／エントロピー符号化部１２２は、各圧縮フレーム群に対して量子化及びエントロピー符号化を行う。そして、量子化／エントロピー符号化部１２２は、量子化及びエントロピー符号化された圧縮フレーム群を連結することにより、符号化データを生成する（ステップＳ１０３）。
以上で、図５のフローチャートが示す映像符号化装置１０の動作が終了する。

［映像復号装置の動作］
以下、映像復号装置２０の動作の一例について説明する。
図７は、第１の実施形態に係る映像復号装置２０の動作を示すフローチャートである。

復号部２１０のエントロピー復号部２１１は、符号化データを取得する。エントロピー復号部２１１は、取得された符号化データに対してエントロピー復号を行うことにより、エントロピー復号データを生成する（ステップＳ１１１）。
復号部２１０の次元伸張部２１２は、生成されたエントロピー復号データに対して、（次元圧縮部１２１によって次元数が削減される前の）元の次元数に復元することにより伸張復号データを生成する（ステップＳ１１２）。

なお、次元伸張部２１２は、例えば図８に示すような、ニューラルネットワーク（逆畳み込み演算及び非線形変換の組み合わせ）によって構成される。
図８は、第１の実施形態に係る映像符号化・復号システム１の次元伸張部２１２の構成図である。図８に示すように、次元伸張部２１２は、Ｍ層からなる構成部（第１層構成部２１２ａ－１～第Ｍ層構成部２１２ａ－Ｍ）によって構成される。各構成部は、逆畳み込み層部ｃ４と、非線形変換部ｃ５と、によって構成される。

第１層構成部２１２ａ－１の逆畳み込み層部ｃ４は、エントロピー復号部２１１から出力されたエントロピー復号フレーム群を取得する。逆畳み込み層部ｃ４は、取得されたエントロピー復号フレーム群に対して逆畳み込み演算を行う。逆畳み込み層部ｃ４は、逆畳み込み演算が行われたフレーム群を非線形変換部ｃ５へ出力する。
第１層構成部２１２ａ－１の非線形変換部ｃ５は、逆畳み込み層部ｃ４から出力されたフレーム群を取得する。非線形変換部ｃ５は、取得されたフレーム群に対し非線形変換処理を行う。非線形変換部ｃ５は、非線形変換処理が行われたフレーム群を、次の層の構成部（第２層構成部）の逆畳み込み層部ｃ４へ出力する。

上記の処理を第１層から第Ｍ層まで繰り返すことにより、次元伸張部２１２は、エントロピー復号部２１１から出力されたエントロピー復号フレーム群を、次元数が復元ざれた次元伸張データに変換し、中間データメモリ２１３及び補正部２１４へ出力する。

再び図７に戻って説明する。
復号部２１０の中間データメモリ２１３は、ステップＳ１１２によって生成された伸張復号データである中間データＭｉを記憶する（ステップＳ１１３）。
復号部２１０の補正部２１４は、中間データメモリ２１３に記憶された中間データＭｉを用いて、次元伸張部２１２から取得した伸張復号データを補正する。

ここで、補正部２１４は、補正の対象である伸張復号データに対して、当該伸張復号データに相当する中間データよりも以前に中間データメモリ２１３に記憶された中間データである中間データＭi－１を用いて補正を行う。例えば、補正部２１４は、中間データＭｉに相当する伸張復号データを、当該中間データＭｉよりも時間方向に１つ前の中間データである中間データＭｉ－１を用いて補正する。なお、補正に用いられる中間データは２つ以上であってもよい。

補正部２１４は、中間データＭｉに相当する伸張復号データに対して、中間データＭｉ－１をｚ方向の次元で結合することにより補正する。補正部２１４は、全ての伸張復号データに対して上記の処理を行うことにより、復号フレーム群を生成する（ステップＳ１１４）。

なお、補正部２１４によって補正処理が行われる理由は以下のとおりである。時間方向ｚのフレームによって構成されたフレーム群毎に符号化がなされているため、時間的に互いに近接ないし隣接するフレーム群同士の間に主観的な連続性が担保されない場合がある。そこで、連続性を担保するために、伸張復号データに対して、当該伸張復号データに時間的に近接ないし隣接する中間データを用いて補正処理が行われる。連続性を持たせることによって、フレーム群を結合して得られる復号映像の主観画質が向上される。

映像結合部２２０は、生成された復号フレーム群を結合することにより復号映像データを生成する（ステップＳ１１５）。
以上で、図７のフローチャートが示す映像復号装置２０の動作が終了する。

なお、補正部２１４は、例えば図９に示すようなニューラルネットワーク（畳み込み演算及び非線形変換の組み合わせ、及びスケーリング処理）によって構成される。
図９は、第１の実施形態に係る映像符号化・復号システム１の補正部２１４の構成図である。図９に示すように、補正部２１４は、Ｍ層からなる構成部（第１層構成部２１４ａ－１～第Ｍ層構成部２１４ａ－Ｍ）と、スケーリング部２１４ｂと、によって構成される。各構成部は、畳み込み層部ｃ６と、非線形変換部ｃ７と、によって構成される。

第１層構成部２１４ａ－１の畳み込み層部ｃ６は、次元伸張部２１２から出力された伸張復号データと、中間データメモリ２１３に記憶された中間データと、を取得する。畳み込み層部ｃ６は、取得された伸張復号データに対して畳み込み演算を行う。畳み込み層部ｃ６は、畳み込み演算が行われたフレーム群を非線形変換部ｃ７へ出力する。
第１層構成部２１４ａ－１の非線形変換部ｃ７は、畳み込み層部ｃ６から出力されたフレーム群を取得する。非線形変換部ｃ５は、取得されたフレーム群に対し非線形変換処理を行う。非線形変換部ｃ７は、非線形変換処理が行われたフレーム群を出力する。次の層の構成部（第２層構成部）の畳み込み層部ｃ６へは、非線形変換部ｃ７から出力されたフレーム群と時間的に１つ前の中間データとが加算されたデータが入力される。

補正部２１４は、上記の処理を第１層から第Ｍ層まで繰り返すことによって得られたフレーム群に対してスケーリング部２１４ｂによってスケーリングを行う。以上の処理により、補正部２１４は、次元伸張部２１２から出力された伸張復号データを、中間データメモリ２１３に記憶された中間データによって補正し、補正された伸張復号データである復号フレーム群を映像結合部２２０へ出力する。

［学習処理］
以下、次元圧縮部１２１、次元伸張部２１２、及び補正部２１４のニューラルネットワークによる学習処理について説明する。
次元圧縮部１２１、次元伸張部２１２、及び補正部２１４のニューラルネットワークによる学習処理は、同時に行われる。

図１０は、第１の実施形態に係る映像符号化・復号システム１による学習処理を説明するための模式図である。
図１０に示すように、まず入力データとして、３つの時間的に連続する入力フレーム群を１つのサンプルデータとするデータセットが入力される。以下、これら３つの入力フレーム群を、時間順にそれぞれＳ１（ｘ，ｙ，ｚ），Ｓ２（ｘ，ｙ，ｚ）（第１のフレーム群），Ｓ３（ｘ，ｙ，ｚ）（第２のフレーム群）とする。

次に、各入力フレーム群Ｓ１（ｘ，ｙ，ｚ），Ｓ２（ｘ，ｙ，ｚ），Ｓ３（ｘ，ｙ，ｚ）に対し、それぞれ処理Ａが実行される。ここでいう処理Ａとは、次元圧縮処理、量子化／エントロピー符号化処理、エントロピー復号処理、及び次元伸張処理である。これにより、中間データがそれぞれ生成される。以下、各入力フレーム群Ｓ１（ｘ，ｙ，ｚ），Ｓ２（ｘ，ｙ，ｚ），Ｓ３（ｘ，ｙ，ｚ）に基づいて生成される中間データを、それぞれＭ１（ｘ，ｙ，ｚ）、Ｍ２（ｘ，ｙ，ｚ）（第１のフレーム群の特徴量），Ｍ３（ｘ，ｙ，ｚ）（第２のフレーム群の特徴量）とする。

次に、図１０に示すように、Ｍ１（ｘ，ｙ，ｚ）とＭ２（ｘ，ｙ，ｚ）、及び、Ｍ２（ｘ，ｙ，ｚ）とＭ３（ｘ，ｙ，ｚ）をセットとして、それぞれ補正が行われる。具体的には、中間データＭ１（ｘ，ｙ，ｚ）に対応する伸張復号データと中間データＭ２（ｘ，ｙ，ｚ）、及び、中間データＭ２（ｘ，ｙ，ｚ）に対応する伸張復号データと中間データＭ３（ｘ，ｙ，ｚ）をセットとして、それぞれ補正が行われる。これにより、２つの復号フレーム群が生成される。以下、各復号フレーム群を、それぞれＲ２（ｘ，ｙ，ｚ），Ｒ３（ｘ，ｙ，ｚ）（補正後フレーム群）とする。

次に、以下に示す式（１）～式（３）によって定義される損失関数を用いて、損失値ｌｏｓｓが算出される。

ｌｏｓｓ＝
復元誤差１＋復元誤差２＋ＧＡＮ（ｃｏｎｃａｔ（Ｒ２，Ｒ３））
＋ＦＭ（ｃｏｎｃａｔ（Ｓ２，Ｓ３），ｃｏｎｃａｔ（Ｒ２，Ｒ３））
・・・（１）

復元誤差１＝
ΣｘΣｙΣｚ（ｄｉｆｆ（Ｓ２（ｘ，ｙ，ｚ），Ｒ２（ｘ，ｙ，ｚ）））
＋ΣｘΣｙΣｚ（ｄｉｆｆ（Ｓ３（ｘ，ｙ，ｚ），Ｒ３（ｘ，ｙ，ｚ）））
・・・（２）

復元誤差２＝
ΣｘΣｙΣｚ（ｗ（ｚ）＊ｄｉｆｆ（Ｍ２（ｘ，ｙ，ｚ），Ｒ２（ｘ，ｙ，ｚ）））
＋ΣｘΣｙΣｚ（ｗ（ｚ）＊ｄｉｆｆ（Ｍ３（ｘ，ｙ，ｚ），Ｒ３（ｘ，ｙ，ｚ）））
・・・（３）

ここで、ｄｉｆｆ（ａ，ｂ）は、ａとｂとの距離を測る関数（例えば二乗誤差等）である。また、ｗ（ｚ）は、時間方向ｚに応じた重み係数である。なお、ｗ（ｚ）は、インデックスｚが大きいほど重み付けが重くなるように設定される。すなわち、符号化対象の入力フレーム群に対して時間的により後の入力フレーム群に対応する中間データであるほど、補正における重み付けが重くなるように設定される。例えば、ｗ（ｚ）＝ｚ、又はｗ（ｚ）＝ｚ２等が用いられる。

ｃｏｎｃａｔ（）は、各入力を時間方向に連結する操作である。ＧＡＮ（ｘ）は、入力映像ｘが真の映像であるか否かを判定し、その確率を出力する識別器である。当該識別器は、ニューラルネットワークによって構築される。ＦＭ（ａ，ｂ）は、当該識別器に対して、それぞれａとｂとを入力した場合における、ニューラルネットワークの中間層の値についての誤差和（例えば二乗誤差等）である。

次に、算出された損失値を用いて、逆誤差伝播法等により各部のパラメータ値が更新される。上記の一連の流れを１回として、複数のサンプルデータを用いて、一定回数繰り返されることによって学習が行われる。又は、損失値が収束するまで繰り返されることによって学習が行われる。なお、上記式（１）～式（３）で示した損失関数の構成は一例であり、上記のうち一部の誤差のみが計算される損失関数、又は、異なる誤差項を追加された損失関数等であってもよい。

上述したように、第１の実施形態における学習処理の流れは以下のとおりである。
１．３つの連続する入力フレーム群を１サンプルとして用意する。
２．各サンプルを、オートエンコーダとしてのニューラルネットワーク（エンコーダ／デコーダ）に入力し、中間データを得る。
３．補正のためのニューラルネットワークよって、上記Ｓ２（ｘ，ｙ，ｚ）とＳ３（ｘ，ｙ，ｚ）に対応する復号映像データを得る。
４．下記１）～４）の値を加算することにより損失計算を行う。
１）Ｓ２（ｘ，ｙ，ｚ）とＲ２（ｘ，ｙ，ｚ）との復元誤差、及び、Ｓ３（ｘ，ｙ，ｚ）とＲ３（ｘ，ｙ，ｚ）との復元誤差。
２）Ｍ２（ｘ，ｙ，ｚ）とＲ２（ｘ，ｙ，ｚ）との重み付き復元誤差、及び、Ｍ３（ｘ，ｙ，ｚ）とＲ３（ｘ，ｙ，ｚ）との重み付き復元誤差。
３）ＧＡＮ誤差（識別処理を行うニューラルネットワークに対し、Ｒ２（ｘ，ｙ，ｚ）及びＲ３（ｘ，ｙ，ｚ）を入力した時のバイナリクロスエントロピー誤差）。
４）ＦＭ誤差（識別処理を行うニューラルネットワークに対し、Ｓ２（ｘ，ｙ，ｚ）及びＳ３（ｘ，ｙ，ｚ）と、Ｒ２（ｘ，ｙ，ｚ）及びＲ３（ｘ，ｙ，ｚ）と、を入力した時の中間層特徴量の誤差）。
５．誤差逆伝播法により各ニューラルネットワークを更新する。
なお、ここでいう識別処理とは、入力された映像データに基づく映像が真の映像であるか否かを識別する処理である。
なお、２）の重み付き復元誤差は、時間的に後に隣接するフレーム群と連続させるように算出される項である。３）のＧＡＮ誤差と４）のＦＭ誤差は、映像復号データに基づく映像がより自然な出力となるように算出される項である。

なお、上記の通り、ここでは３つの時間的に連続する入力フレーム群であるＳ１（ｘ，ｙ，ｚ），Ｓ２（ｘ，ｙ，ｚ），Ｓ３（ｘ，ｙ，ｚ）から、Ｍ１（ｘ，ｙ，ｚ）、Ｍ２（ｘ，ｙ，ｚ），Ｍ３（ｘ，ｙ，ｚ）とＲ２（ｘ，ｙ，ｚ），Ｒ３（ｘ，ｙ，ｚ）とが生成され、Ｒ２（ｘ，ｙ，ｚ）＋Ｒ３（ｘ，ｙ，ｚ）が自然になるように（すなわち、連続性を持つように）学習が行われる構成であった。

しかしながら、上記のように３つの時間的に連続する入力フレーム群からなるデータセットが入力される構成に限られるものではなく、４つ以上の時間的に連続する入力フレーム群からなるデータセットが入力される構成であってもよい。
例えば、４つの時間的に連続する入力フレーム群であるＳ１（ｘ，ｙ，ｚ），Ｓ２（ｘ，ｙ，ｚ），Ｓ３（ｘ，ｙ，ｚ）Ｓ４（ｘ，ｙ，ｚ）から、Ｍ１（ｘ，ｙ，ｚ）、Ｍ２（ｘ，ｙ，ｚ），Ｍ３（ｘ，ｙ，ｚ），Ｍ４（ｘ，ｙ，ｚ）とＲ２（ｘ，ｙ，ｚ），Ｒ３（ｘ，ｙ，ｚ），Ｒ４（ｘ，ｙ，ｚ）とが生成され、Ｒ２（ｘ，ｙ，ｚ）＋Ｒ３（ｘ，ｙ，ｚ）＋Ｒ４（ｘ，ｙ，ｚ）が自然になるように（すなわち、連続性を持つように）学習が行われる構成であってもよい。

以上説明したように、第１の実施形態に係る映像符号化・復号システム１は、符号化データをそのまま復号映像データに復号するのではなく、中間データとして中間データメモリ２１３に格納する。そして、映像符号化・復号システム１は、処理対象の符号化データに対して、時間的に連続する周囲のデータ（中間データ）を用いて補正処理を行い、復号する。これにより、時間的に連続する周囲のデータと処理対象の符号化データとの連続性が保たれる。

なおかつ、第１の実施形態に係る映像符号化・復号システム１では、処理対象の符号化データを復号する際に必要なデータは、周囲の少数データのみ（第１の実施形態においては、時間的に１つ前の中間データのみ）である。これにより、映像符号化・復号システム１は、画像データに対するランダムアクセス性、及び並列性を有する符号化及び復号を行うことができる。

また、第１の実施形態に係る映像符号化・復号システム１は、上述したように、復元誤差２を用いて学習を行う。そのため、例えば図１０に示したＭ２（ｘ，ｙ，ｚ）をＲ２（ｘ，ｙ，ｚ）に補正する場合には、Ｒ２（ｘ，ｙ，ｚ）とＲ３（ｘ，ｙ，ｚ）との連続性を保つために、Ｒ３（ｘ，ｙ，ｚ）に近いフレームでは変化が起きないような拘束条件になっている。すなわち、Ｓ２（ｘ，ｙ，ｚ）とＳ２（ｘ，ｙ，ｚ）より時間的に後の入力フレーム群であるＳ３（ｘ，ｙ，ｚ）との関係に基づく主観画質が高くなるような拘束条件になっている。これにより、映像符号化・復号システム１によれば、Ｒ２（ｘ，ｙ，ｚ）がＲ３（ｘ，ｙ，ｚ）と連続するように補正が行われるため、画質が向上する。

また、第１の実施形態に係る映像符号化・復号システム１では、オートエンコーダとしてのニューラルネットワーク（次元圧縮部１２１及び次元伸張部２１２）（第１の学習モデル）と、連続性の確保のためのニューラルネットワーク（補正部２１４）（第２の学習モデル）とが、別々のニューラルネットワークであり、別々に学習処理が行われるため、学習処理が安定する。

＜第２の実施形態＞
以下、本発明の第２の実施形態について、図面を参照しながら説明する。

以下、第２の実施形態に係る映像符号化・復号システムについて説明する。なお、第２の実施形態に係る映像符号化・復号システムの全体構成及び符号化部の構成は、図１及び図２を参照しながら説明した第１の実施形態に係る映像符号化・復号システム１の全体構成及び符号化部１２０の構成と同一であるため、説明を省略する。第１の実施形態に係る映像符号化・復号システム１と、以下に説明する第２の実施形態に係る映像符号化・復号システムとは、映像復号装置が備える復号部の構成が異なる。

以下、第２の実施形態に係る映像符号化・復号システムの映像復号装置が備える復号部２１０ａの構成を図１１に示す。なお、第１の実施形態と機能構成が同一である機能ブロックに対しては同一の符号を付し、説明を省略する。図１１に示すように、復号部２１０は、エントロピー復号部２１１と、次元伸張部２１２と、中間データメモリ２１３と、補正部２１４と、補正切り替えスイッチ２１５と、を含んで構成される。

第２の実施形態に係る復号部２１０ａと第１の実施形態に係る復号部２１０との差異点は、復号部２１０の機能構成に加えて、復号部２１０ａが、さらに補正処理切り替えスイッチ２１５を備える構成である点である。

次元伸張部２１２は、生成された伸張復号データを、中間データメモリ２１３及び補正処理切り替えスイッチ２１５へそれぞれ出力する。

補正処理切り替えスイッチ２１５は、次元伸張部２１２から出力された伸張復号データを取得する。補正処理切り替えスイッチ２１５は、取得された伸張復号データを、そのまま復号フレーム群として映像結合部へ出力するか、又は、補正部２１４へ出力するかを切り替える。

補正部２１４は、補正処理切り替えスイッチ２１５から出力された伸張復号データを取得する。また、補正部２１４は、中間データメモリ２１３に記憶された中間データを取得する。補正部２１４は、中間データを用いて伸張復号データを補正することにより復号フレーム群を生成する。補正部２１４は、生成された復号フレーム群を映像結合部２２０へ出力する。

第２の実施形態に係る映像符号化装置の動作は、図５を参照しながら説明した第１の実施形態に係る映像符号化装置１０の動作と同一である。よって、第２の実施形態に係る映像符号化装置の動作についての説明は省略する。

［映像復号装置の動作］
以下、第２の実施形態に係る映像復号装置の動作の一例について説明する。
図１２は、第１の実施形態に係る映像復号装置２０の動作を示すフローチャートである。

復号部２１０ａのエントロピー復号部２１１は、符号化データを取得する。エントロピー復号部２１１は、取得された符号化データに対してエントロピー復号を行うことにより、エントロピー復号データを生成する（ステップＳ２１１）。
復号部２１０ａの次元伸張部２１２は、生成されたエントロピー復号データに対して、（次元圧縮部によって次元数が削減される前の）元の次元数に復元することにより伸張復号データを生成する（ステップＳ２１２）。

復号部２１０ａの中間データメモリ２１３は、ステップＳ２１２によって生成された伸張復号データである中間データＭｉを記憶する（ステップＳ２１３）。

復号部２１０ａの補正処理切り替えスイッチ２１５は、次元伸張部２１２によって生成された伸張復号データを参照し、入力フレーム群の番号を表すインデックスｉの値を確認する。ｉの値が奇数である場合（ステップＳ２１４・ＹＥＳ）、補正処理切り替えスイッチ２１５は、取得された伸張復号データを、そのまま復号フレーム群として映像結合部へ出力する。
映像結合部は、生成された復号フレーム群を結合することにより復号映像データを生成する（ステップＳ２１６）。
以上で、図１２のフローチャートが示す映像復号装置２０の動作が終了する。

一方、ｉの値が偶数である場合（ステップＳ２１４・ＮＯ）、補正処理切り替えスイッチ２１５は、取得された伸張復号データを、復号部２１０ａの補正部２１４へ出力する。補正部２１４は、中間データメモリ２１３に記憶された中間データＭｉを用いて、補正処理切り替えスイッチ２１５を介して取得した伸張復号データを補正する。

なお、補正処理切り替えスイッチ２１５が、ｉの値が偶数である場合に、伸張復号データをそのまま復号フレーム群として映像結合部へ出力し、ｉの値が奇数である場合に、伸張復号データを補正部２１４へ出力する構成であってもよい。

なお、上記の通り、補正処理切り替えスイッチ２１５は、取得される伸長復号データに対して１つおきに補正処理を行うが、その目的は以下のとおりである。
第１の実施形態では、補正対象のフレーム群（Ｍｉ）が、時間的に前のフレーム群（Ｍｉ－１）と時間的に連続するように補正されることによって主観画質が向上する構成であった。しかしながら、時間的に前のフレーム群（Ｍｉ－１）は、更に時間的に前のフレーム群（Ｍｉ－２）に基づいて補正される。そのため、時間的に前のフレーム群（Ｍｉ－１）は、補正対象のフレーム群（Ｍｉ）が参照された時点とは異なるフレーム群になっているため、最終的な出力が時間的に連続性を有していることは担保されない。

一方、第２の実施形態では、補正されるフレーム群と補正されないフレーム群とが交互に連続する構成である。これによって、第２の実施形態では、補正対象のフレーム群が補正された後に、その前後のフレーム群は参照された時点から変化しないため、時間的な連続性が担保される。

ここで、補正部２１４は、補正の対象である伸張復号データ（第２のフレーム群）に対して、中間データＭi－１（第１のフレーム群）と中間データＭi＋１（第３のフレーム群）とを用いて補正を行う。ここで、中間データＭi－１は、当該伸張復号データに相当する中間データＭｉよりも先に中間データメモリ２１３に記憶された中間データである。また、中間データＭi＋１は、当該伸張復号データに相当する中間データＭｉよりも後に中間データメモリ２１３に記憶された中間データである。例えば、補正部２１４は、中間データＭｉに相当する伸張復号データを、当該中間データＭｉよりも時間方向に１つ前の中間データである中間データＭｉ－１と、当該中間データＭｉよりも時間方向に１つ後の中間データである中間データＭｉ＋１と、を用いて補正する。なお、補正に用いられる中間データは３つ以上であってもよい。

補正部２１４は、中間データＭｉに相当する伸張復号データに対して、中間データＭｉ－１と中間データＭｉ＋１をｚ方向の次元で結合することにより補正する。補正部２１４は、全ての伸張復号データに対して上記の処理を行うことにより、復号フレーム群を生成する（ステップＳ２１５）。
映像結合部は、生成された復号フレーム群を結合することにより復号映像データを生成する（ステップＳ２１６）。
以上で、図１２のフローチャートが示す映像復号装置２０の動作が終了する。

［学習処理］
以下、第２の実施形態に係る、次元圧縮部、次元伸張部、及び補正部２１４のニューラルネットワークによる学習処理について説明する。
次元圧縮部、次元伸張部、及び補正部２１４のニューラルネットワークによる学習処理は、同時に行われる。

図１３は、第２の実施形態に係る映像符号化・復号システムによる学習処理を説明するための模式図である。
図１３に示すように、まず入力データとして、３つの時間的に連続する入力フレーム群を１つのサンプルデータとするデータセットが入力される。以下、これら３つの入力フレーム群を、時間順にそれぞれＳ１（ｘ，ｙ，ｚ），Ｓ２（ｘ，ｙ，ｚ），Ｓ３（ｘ，ｙ，ｚ）とする。

次に、各入力フレーム群Ｓ１（ｘ，ｙ，ｚ），Ｓ２（ｘ，ｙ，ｚ），Ｓ３（ｘ，ｙ，ｚ）に対し、それぞれ処理Ａが実行される。ここでいう処理Ａとは、上述したように、次元圧縮処理、量子化／エントロピー符号化処理、エントロピー復号処理、及び次元伸張処理である。これにより、中間データがそれぞれ生成される。以下、各入力フレーム群Ｓ１（ｘ，ｙ，ｚ），Ｓ２（ｘ，ｙ，ｚ），Ｓ３（ｘ，ｙ，ｚ）に基づいて生成される中間データを、それぞれＭ１（ｘ，ｙ，ｚ）、Ｍ２（ｘ，ｙ，ｚ），Ｍ３（ｘ，ｙ，ｚ）とする。

次に、図１３に示すように、Ｍ１（ｘ，ｙ，ｚ）、Ｍ２（ｘ，ｙ，ｚ）、及びＭ３（ｘ，ｙ，ｚ）をセットとして補正が行われる。具体的には、中間データＭ２（ｘ，ｙ，ｚ）に対応する伸張復号データ、中間データＭ１（ｘ，ｙ，ｚ）、及び中間データＭ３（ｘ，ｙ，ｚ）をセットとして、それぞれ補正が行われる。これにより、復号フレーム群が生成される。以下、生成された復号フレーム群を、Ｒ２（ｘ，ｙ，ｚ）とする。

次に、以下に示す式（４）～式（５）によって定義される損失関数を用いて、損失値ｌｏｓｓが算出される。

ｌｏｓｓ＝
復元誤差１＋ＧＡＮ（ｃｏｎｃａｔ（Ｍ１，Ｒ２，Ｍ３））
＋ＦＭ（ｃｏｎｃａｔ（Ｓ１，Ｓ２，Ｓ３），ｃｏｎｃａｔ（Ｍ１，Ｒ２，Ｍ３））
・・・（４）

復元誤差１＝
ΣｘΣｙΣｚ（ｄｉｆｆ（Ｓ１（ｘ，ｙ，ｚ），Ｍ１（ｘ，ｙ，ｚ）））
＋ΣｘΣｙΣｚ（ｄｉｆｆ（Ｓ３（ｘ，ｙ，ｚ），Ｍ３（ｘ，ｙ，ｚ）））
・・・（５）

ここで、ｄｉｆｆ（ａ，ｂ）は、ａとｂとの距離を測る関数（例えば二乗誤差等）である。ｃｏｎｃａｔ（）は、各入力を時間方向に連結する操作である。ＧＡＮ（ｘ）は、入力映像ｘが真の映像であるか否かを判定し、その確率を出力する識別器である。当該識別器は、ニューラルネットワークによって構築される。ＦＭ（ａ，ｂ）は、当該識別器に対して、それぞれａとｂとを入力した場合における、ニューラルネットワークの中間層の値についての誤差和（例えば二乗誤差等）である。

次に、算出された損失値を用いて、逆誤差伝播法等により各部のパラメータ値が更新される。上記の一連の流れを１回として、複数のサンプルデータを用いて、一定回数繰り返されることによって学習が行われる。又は、損失値が収束するまで繰り返されることによって学習が行われる。なお、上記式（４）～式（５）で示した損失関数の構成は一例であり、上記のうち一部の誤差のみが計算される損失関数、又は、異なる誤差項を追加された損失関数等であってもよい。

以上の構成を備えることによって、第２の実施形態に係る映像符号化・復号システムは、画像データに対するランダムアクセス性、及び並列性を有する符号化及び復号を行うことができる。

また、上述したように、第１の実施形態に係る映像符号化・復号システム１は、各入力フレーム群を独立に補正する。そのため、第１の実施形態に係る映像符号化・復号システム１では、それぞれの入力は時間的に前の出力と連続するように補正が行われるものの、前の出力がどのように補正されるかは未知である。そのため、第１の実施形態に係る映像符号化・復号システム１では、補正後の復号フレーム群どうしが連続性を有することを確実には担保できない可能性がある。

一方、以上説明したように、第２の実施形態に係る映像符号化・復号システムは、インデックスの値が奇数（又は偶数）のフレーム群については、伸張復号データそのものを復号フレーム群とするように学習を行い、インデックスの値が奇数（又は偶数）でないフレーム群と連続するように補正を行う。これにより、補正処理対象のフレーム群の前後の出力は変化しないことから、第２の実施形態に係る映像符号化・復号システムは、補正後の復号フレーム群と、当該補正後の復号フレーム群と時間的に前後に隣接する復号フレーム群とが、連続性を有することを担保することができる。

上述した実施形態における映像符号化・復号システムの一部又は全部を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、上述した機能の一部を実現するためのものであっても良く、さらに上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＰＬＤ（Programmable Logic Device)やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されるものであってもよい。

以上、図面を参照して本発明の実施形態を説明してきたが、上記実施形態は本発明の例示に過ぎず、本発明が上記実施形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び要旨を逸脱しない範囲で構成要素の追加、省略、置換、及びその他の変更を行ってもよい。

１映像符号化・復号システム
１０映像符号化装置
２０映像復号装置
１１０映像分割部
１２０符号化部
１２１次元圧縮部
１２２エントロピー符号化部
２１０復号部
２１１エントロピー復号部
２１２次元伸張部
２１３中間データメモリ
２１４補正部
２２０映像結合部

Claims

映像データが分割された所定のフレーム数からなるフレーム群ごとに補正を行う画像処理装置であって、
前記フレーム群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、第１のフレーム群の前記伸張復号データを、前記第１のフレーム群と時間的に連続したフレーム群である第２のフレーム群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより、補正後フレーム群を得る復号部
を備え、
前記復号部は、入力画像が真の画像であるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後フレーム群と、前記第２のフレーム群の前記伸張復号データを前記第２のフレーム群より時間的に後のフレーム群の前記伸張復号データに結合させて得られる補正後フレーム群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行う
画像処理装置。
データが分割された所定の部分データ数からなる部分データ群ごとに補正を行う画像処理装置であって、
前記部分データ群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、第１の部分データ群の前記伸張復号データを、前記第１の部分データ群と時間的に連続した部分データ群である第２の部分データ群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより補正後部分データ群を得る復号部
を備え、
前記復号部は、入力データが真のデータであるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後部分データ群と、前記第２の部分データ群の前記伸張復号データを前記第２の部分データ群より時間的に後の部分データ群の前記伸張復号データに結合させて得られる補正後部分データ群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行う
画像処理装置。
映像データが分割された所定のフレーム数からなるフレーム群ごとに補正を行う画像処理方法であって、
前記フレーム群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、第１のフレーム群の前記伸張復号データを、前記第１のフレーム群と時間的に連続したフレーム群である第２のフレーム群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより、補正後フレーム群を得るステップと、
入力画像が真の画像であるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後フレーム群と、前記第２のフレーム群の前記伸張復号データを前記第２のフレーム群より時間的に後のフレーム群の前記伸張復号データに結合させて得られる補正後フレーム群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行うステップと、
を有する画像処理方法。
請求項１又は２に記載の画像処理装置としてコンピュータを機能させるための画像処理プログラム。