JP7104352B2 - 画像処理装置、画像処理方法及び画像処理プログラム - Google Patents

画像処理装置、画像処理方法及び画像処理プログラム Download PDF

Info

Publication number
JP7104352B2
JP7104352B2 JP2020548382A JP2020548382A JP7104352B2 JP 7104352 B2 JP7104352 B2 JP 7104352B2 JP 2020548382 A JP2020548382 A JP 2020548382A JP 2020548382 A JP2020548382 A JP 2020548382A JP 7104352 B2 JP7104352 B2 JP 7104352B2
Authority
JP
Japan
Prior art keywords
data
decoding
frame group
unit
decompression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020548382A
Other languages
English (en)
Other versions
JPWO2020059581A1 (ja
Inventor
忍 工藤
翔太 折橋
正樹 北原
淳 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020059581A1 publication Critical patent/JPWO2020059581A1/ja
Application granted granted Critical
Publication of JP7104352B2 publication Critical patent/JP7104352B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/177Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • H04N19/426Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements using memory downsizing methods
    • H04N19/428Recompression, e.g. by spatial or temporal decimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。
本願は、2018年9月19日に、日本に出願された特願2018-174982号に基づき優先権を主張し、その内容をここに援用する。
画像を符号化する方法の一つとして、オートエンコーダ(自己符号化器)を利用した方法がある。ここでいう画像には、静止画像及び動画像(以下「映像」という。)が含まれる。オートエンコーダは、入力層(エンコーダ)、隠れ層、及び出力層(デコーダ)からなる3層のニューラルネットワークである。オートエンコーダは、エンコーダにより入力データを符号化データに符号化し、デコーダにより符号化データを入力データに復元するように設計される。エンコーダ及びデコーダは、任意の演算器によって構築される。例えば入力データが画像である場合、エンコーダは畳み込み演算を行う複数の演算器、及び、デコーダはエンコーダによる畳み込み演算に対する逆演算を行う複数の演算器によって構築される。
ニューラルネットワークによる演算では、パラメータの数を増やすことによって表現能力及び性能の向上が見込まれる。しかしながら、入力データが例えば解像度の高い画像である場合、パラメータ数が多くなると、演算に必要なメモリの容量が膨大になる。そのため、パラメータ数を増やすことよって表現能力及び性能を向上させることは現実的ではない。
そこで、例えば図14に示すように、入力データを演算可能なサイズの複数のデータに分割し、分割されたそれぞれのデータに対してニューラルネットワークによる演算処理を行い、出力された復号データを結合して元の入力データを復元する方法が考えられる。しかしながら、この方法では、分割されたそれぞれのデータは互いに独立に処理される。そのため、この方法では、復元された入力データは、特に分割がなされた画像の境界部分において、隣接する復号データの間の連続性が保たれておらず、不自然な画像になる可能性が高い。
これに対し、例えば図15に示すように、処理対象データと併せて周囲の復号データを、エンコーダ、デコーダ、又はその両方に再帰的に入力する従来技術がある。このように、再帰的に周囲の復号データを入力することによって、処理対象データと周囲の復号データとの連続性が考慮され、より自然な復元データが得られる。
Nitish Srivastava et al., "Unsupervised Learning of Video Representations using LSTMs," arXiv, 2016.
しかしながら上記の従来技術は、ランダムアクセス性に欠けるという課題がある。ここでいうランダムアクセス性とは、データに対して離散的にアクセスしても所望のデータを容易に得ることができる性質のことである。従来技術では、例えば入力データが映像データである場合、映像データの先頭から順に符号化及び復号が行われる。この場合、例えば映像データの所望の位置の復号データのみを得たい場合であっても、映像データの先頭から順に復号を行っていかなければ、所望の位置の復号データを得ることができない。
また、上記の従来技術は、並列性に欠けるという課題がある。従来技術は、再帰的に演算処理を行うことから、並列処理が行うことが難しい。そのため、従来技術は、分散処理システム等を用いて効率的に演算処理を行うことが難しい。
本発明はこのような状況を鑑みてなされたもので、画像データに対するランダムアクセス性、及び並列性を有する符号化及び復号を行うことができる技術の提供を目的としている。
本発明の一態様は、映像データが分割された所定のフレーム数からなるフレーム群ごとに補正を行う画像処理装置であって、前記フレーム群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、第1のフレーム群の前記伸張復号データを、前記第1のフレーム群と時間的に連続したフレーム群である第2のフレーム群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより、補正後フレーム群を得る復号部を備え、前記復号部は、入力画像が真の画像であるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後フレーム群と、前記第2のフレーム群の前記伸張復号データを前記第2のフレーム群より時間的に後のフレーム群の前記伸張復号データに結合させて得られる補正後フレーム群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行う画像処理装置である。
また、本発明の一態様は、データが分割された所定の部分データ数からなる部分データ群ごとに補正を行う画像処理装置であって、前記部分データ群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、第1の部分データ群の前記伸張復号データを、前記第1の部分データ群と時間的に連続した部分データ群である第2の部分データ群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより補正後部分データ群を得る復号部を備え、前記復号部は、入力データが真のデータであるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後部分データ群と、前記第2の部分データ群の前記伸張復号データを前記第2の部分データ群より時間的に後の部分データ群の前記伸張復号データに結合させて得られる補正後部分データ群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行う画像処理装置である。
また、本発明の一態様は、映像データが分割された所定のフレーム数からなるフレーム群ごとに補正を行う画像処理方法であって、前記フレーム群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、第1のフレーム群の前記伸張復号データを、前記第1のフレーム群と時間的に連続したフレーム群である第2のフレーム群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより、補正後フレーム群を得るステップと、入力画像が真の画像であるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後フレーム群と、前記第2のフレーム群の前記伸張復号データを前記第2のフレーム群より時間的に後のフレーム群の前記伸張復号データに結合させて得られる補正後フレーム群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行うステップと、を有する画像処理方法である。
また、本発明の一態様は、上記の画像処理装置としてコンピュータを機能させるための画像処理プログラムである。
本発明により、画像データに対するランダムアクセス性、及び並列性を有する符号化及び復号を行うことができる。
第1の実施形態に係る映像符号化・復号システム1の全体構成図である。 第1の実施形態に係る映像符号化・復号システム1の符号化部120の構成図である。 第1の実施形態に係る映像符号化・復号システム1の復号部210の構成図である。 従来技術における映像符号化・復号システムの復号部の構成図である。 第1の実施形態に係る映像符号化装置10の動作を示すフローチャートである。 第1の実施形態に係る映像符号化・復号システム1の次元圧縮部121の構成図である。 第1の実施形態に係る映像復号装置20の動作を示すフローチャートである。 第1の実施形態に係る映像符号化・復号システム1の次元伸張部212の構成図である。 第1の実施形態に係る映像符号化・復号システム1の補正部214の構成図である。 第1の実施形態に係る映像符号化・復号システム1による学習処理を説明するための模式図である。 第2の実施形態に係る映像符号化・復号システムの復号部210aの構成図である。 第2の実施形態に係る映像復号装置の動作を示すフローチャートである。 第2の実施形態に係る映像符号化・復号システムによる学習処理を説明するための模式図である。 従来技術における映像符号化・復号システムによる学習処理を説明するための模式図である。 従来技術における映像符号化・復号システムによる学習処理を説明するための模式図である。
<第1の実施形態>
以下、本発明の第1の実施形態について、図面を参照しながら説明する。
以下、映像データを符号化及び復号する映像符号化・復号システム1について説明する。但し、当該システムは、映像データ以外の画像データを符号化及び復号する場合にも適用可能である。
[映像符号化・復号システムの構成]
以下、映像符号化・復号システム1の構成について説明する。
図1は、第1の実施形態に係る映像符号化・復号システム1(画像処理装置)の全体構成図である。図1に示すように、映像符号化・復号システム1は、符号化の対象となる入力映像データを取得し、当該入力映像データに対応する復号映像データを出力する。映像符号化・復号システム1は、映像符号化装置10と、映像復号装置20と、を含んで構成される。
映像符号化装置10は、映像分割部110と、符号化部120と、を含んで構成される。映像分割部110は、入力映像データを取得する。入力映像データは、時間的に連続した複数のフレームによって構成される。映像分割部110は、取得された入力映像データを構成する連続した複数のフレームを所定のフレーム数ごとに分割することにより、複数の入力フレーム群を生成する。映像分割部110は、生成された複数の入力フレーム群を、符号化部120へ順に出力する。
符号化部120の構成を図2に示す。図2に示すように、符号化部120は、次元圧縮部121と、量子化/エントロピー符号化部122と、を含んで構成される。
次元圧縮部121は、映像分割部110から出力された入力フレーム群を取得する。次元圧縮部121は、取得された入力フレーム群に対し、次元数を少なくするように圧縮することにより圧縮フレーム群を生成する。次元圧縮部121は、生成された圧縮フレーム群を、量子化/エントロピー符号化部122へ出力する。
量子化/エントロピー符号化部122は、次元圧縮部121から出力された圧縮フレーム群を取得する。量子化/エントロピー符号化部122は、取得された圧縮フレーム群を構成する圧縮フレームそれぞれの値に対し、量子化及びエントロピー符号化を行う。そして、量子化/エントロピー符号化部122は、量子化及びエントロピー符号化された圧縮フレーム群を連結することにより、符号化データを生成する。量子化/エントロピー符号化部122は、生成された符号化データを、映像復号装置20の後述する復号部210へ出力する。
再び図1に戻って説明する。
映像復号装置20は、復号部210と、映像結合部220と、を含んで構成される。
復号部210の構成を図3に示す。図3に示すように、復号部210は、エントロピー復号部211と、次元伸張部212と、中間データメモリ213と、補正部214と、を含んで構成される。
エントロピー復号部211は、符号化部120の量子化/エントロピー符号化部122から出力された符号化データを取得する。エントロピー復号部211は、取得された符号化データをエントロピー復号することにより、エントロピー復号データを生成する。エントロピー復号部211は、生成されたエントロピー復号データを、次元伸張部212へ出力する。
次元伸張部212は、エントロピー復号部211から出力されたエントロピー復号データに対し、上述した(次元圧縮部121によって圧縮される前の)入力フレーム群と同一の次元数になるまで伸張することにより伸張復号データを生成する。次元伸張部212は、生成された伸張復号データを、中間データメモリ213及び補正部214へそれぞれ出力する。
中間データメモリ213は、次元伸張部212から出力された伸張復号データを取得し、記憶する。なお、中間データメモリ213に記憶された伸張復号データを、以下「中間データ」という。中間データは、必要に応じて補正部214へ出力される。中間データメモリ213は、例えばRAM(Random Access Memory;読み書き可能なメモリ)等の揮発性の記録媒体である。
補正部214は、次元伸張部212から出力された伸張復号データを取得する。また、補正部214は、中間データメモリ213に記憶された中間データを取得する。補正部214は、中間データを用いて伸張復号データを補正することにより復号フレーム群を生成する。補正部214は、生成された復号フレーム群を映像結合部220へ出力する。
再び図1に戻って説明する。
映像結合部220は、復号部210から出力された復号フレーム群を取得する。映像結合部220は、取得された復号フレーム群を結合することにより復号映像データを生成する。映像結合部220は、生成された復号映像データを最終的な出力データとして出力する。
なお、従来技術との差異を説明するため、従来技術における映像符号化・復号システムの復号部210の構成を図4に示す。図3及び図4に示すように、上述した第1の実施形態に係る復号部210の構成と従来技術における復号部の構成との差異は、従来技術における復号部が補正部を備えないのに対して、第1の実施形態に係る復号部210が補正部214を備える点である。
従来技術における復号部の次元伸張部は、エントロピー復号部から出力されたエントロピー復号データを取得する。従来技術における次元伸張部は、取得されたエントロピー復号データに対して、中間データメモリに記憶された中間データを用いて次元数の伸張を行い、復号フレーム群を生成する。
一方、第1の実施形態に係る復号部210では、上述したように、補正部214が、次元伸張部212から伸張復号データを取得し、中間データメモリ213から中間データを取得する。そして、補正部214が、中間データを用いて伸張復号データを補正することにより復号フレーム群を生成する。
[映像符号化装置の動作]
以下、映像符号化装置10の動作の一例について説明する。
図5は、第1の実施形態に係る映像符号化装置10の動作を示すフローチャートである。
映像分割部110は、水平方向x、垂直方向y、時間方向zとする入力映像データS(x,y,z)を取得する。映像分割部110は、取得された入力映像データS(x,y,z)をN個のフレームごとに分割することにより、複数の入力フレーム群Si(x,y,z)を生成する(ステップS101)。ここで、x,y,zの次元数を、それぞれX,Y,Zとする。また、iは、入力フレーム群の番号を表すインデックスである。
なお、各フレーム群のサイズは必ずしも同一である必要はない。例えば、N個のフレームからなるフレーム群と、L個(LはNとは異なる正数)のフレームからなるフレーム群とが混在していても構わない。また、例えば、入力映像データS(x,y,z)がN個のフレームとL個のフレームとに交互に分割されて、N個のフレーム群からなるフレーム群とL個のフレーム群からなるフレーム群とが交互に生成される構成であってもよい。
符号化部120の次元圧縮部121は、各入力フレーム群Si(x,y,z)を、次元数(X’,Y’,N’)となるように圧縮することにより圧縮フレーム群を生成する(ステップS102)。なお、次元数(X’,Y’,N’)は、X’*Y’*N’<X*Y*Nを満たす次元数である。
なお、次元圧縮部121は、例えば図6に示すような、ニューラルネットワーク(畳み込み演算、ダウンサンプリング及び非線形変換の組み合わせ)によって構成される。
図6は、第1の実施形態に係る映像符号化・復号システム1の次元圧縮部121の構成図である。図6に示すように、次元圧縮部121は、M層からなる構成部(第1層構成部121a-1~第M層構成部121a-M)によって構成される。各構成部は、畳み込み層部c1と、ダウンサンプリング部c2と、非線形変換部c3と、によって構成される。
第1層構成部121a-1の畳み込み層部c1は、映像分割部100から出力された入力フレーム群を取得する。第1層構成部121a-1の畳み込み層部c1は、取得された入力フレーム群に対して畳み込み演算を行う。畳み込み層部c1は、畳み込み演算が行われたフレーム群をダウンサンプリング部c2へ出力する。
第1層構成部121a-1のダウンサンプリング部c2は、畳み込み層部c1から出力されたフレーム群を取得する。ダウンサンプリング部c2は、取得されたフレーム群を、次元数を少なくするように圧縮する。ダウンサンプリング部c2は、圧縮されたフレーム群を非線形変換部c3へ出力する。
第1層構成部121a-1の非線形変換部c3は、ダウンサンプリング部c2から出力されたフレーム群を取得する。非線形変換部c3は、取得されたフレーム群に対し非線形変換処理を行う。非線形変換部c3は、非線形変換処理が行われたフレーム群を、次の層の構成部(第2層構成部)の畳み込み層部c1へ出力する。
上記の処理を第1層から第M層まで繰り返すことにより、次元圧縮部121は、映像分割部100から入力された入力フレーム群を、次元数が削減ざれた圧縮フレーム群に変換し、量子化/エントロピー符号化部122へ出力する。
再び図5に戻って説明する。
符号化部120の量子化/エントロピー符号化部122は、各圧縮フレーム群に対して量子化及びエントロピー符号化を行う。そして、量子化/エントロピー符号化部122は、量子化及びエントロピー符号化された圧縮フレーム群を連結することにより、符号化データを生成する(ステップS103)。
以上で、図5のフローチャートが示す映像符号化装置10の動作が終了する。
[映像復号装置の動作]
以下、映像復号装置20の動作の一例について説明する。
図7は、第1の実施形態に係る映像復号装置20の動作を示すフローチャートである。
復号部210のエントロピー復号部211は、符号化データを取得する。エントロピー復号部211は、取得された符号化データに対してエントロピー復号を行うことにより、エントロピー復号データを生成する(ステップS111)。
復号部210の次元伸張部212は、生成されたエントロピー復号データに対して、(次元圧縮部121によって次元数が削減される前の)元の次元数に復元することにより伸張復号データを生成する(ステップS112)。
なお、次元伸張部212は、例えば図8に示すような、ニューラルネットワーク(逆畳み込み演算及び非線形変換の組み合わせ)によって構成される。
図8は、第1の実施形態に係る映像符号化・復号システム1の次元伸張部212の構成図である。図8に示すように、次元伸張部212は、M層からなる構成部(第1層構成部212a-1~第M層構成部212a-M)によって構成される。各構成部は、逆畳み込み層部c4と、非線形変換部c5と、によって構成される。
第1層構成部212a-1の逆畳み込み層部c4は、エントロピー復号部211から出力されたエントロピー復号フレーム群を取得する。逆畳み込み層部c4は、取得されたエントロピー復号フレーム群に対して逆畳み込み演算を行う。逆畳み込み層部c4は、逆畳み込み演算が行われたフレーム群を非線形変換部c5へ出力する。
第1層構成部212a-1の非線形変換部c5は、逆畳み込み層部c4から出力されたフレーム群を取得する。非線形変換部c5は、取得されたフレーム群に対し非線形変換処理を行う。非線形変換部c5は、非線形変換処理が行われたフレーム群を、次の層の構成部(第2層構成部)の逆畳み込み層部c4へ出力する。
上記の処理を第1層から第M層まで繰り返すことにより、次元伸張部212は、エントロピー復号部211から出力されたエントロピー復号フレーム群を、次元数が復元ざれた次元伸張データに変換し、中間データメモリ213及び補正部214へ出力する。
再び図7に戻って説明する。
復号部210の中間データメモリ213は、ステップS112によって生成された伸張復号データである中間データMiを記憶する(ステップS113)。
復号部210の補正部214は、中間データメモリ213に記憶された中間データMiを用いて、次元伸張部212から取得した伸張復号データを補正する。
ここで、補正部214は、補正の対象である伸張復号データに対して、当該伸張復号データに相当する中間データよりも以前に中間データメモリ213に記憶された中間データである中間データMi-1を用いて補正を行う。例えば、補正部214は、中間データMiに相当する伸張復号データを、当該中間データMiよりも時間方向に1つ前の中間データである中間データMi-1を用いて補正する。なお、補正に用いられる中間データは2つ以上であってもよい。
補正部214は、中間データMiに相当する伸張復号データに対して、中間データMi-1をz方向の次元で結合することにより補正する。補正部214は、全ての伸張復号データに対して上記の処理を行うことにより、復号フレーム群を生成する(ステップS114)。
なお、補正部214によって補正処理が行われる理由は以下のとおりである。時間方向zのフレームによって構成されたフレーム群毎に符号化がなされているため、時間的に互いに近接ないし隣接するフレーム群同士の間に主観的な連続性が担保されない場合がある。そこで、連続性を担保するために、伸張復号データに対して、当該伸張復号データに時間的に近接ないし隣接する中間データを用いて補正処理が行われる。連続性を持たせることによって、フレーム群を結合して得られる復号映像の主観画質が向上される。
映像結合部220は、生成された復号フレーム群を結合することにより復号映像データを生成する(ステップS115)。
以上で、図7のフローチャートが示す映像復号装置20の動作が終了する。
なお、補正部214は、例えば図9に示すようなニューラルネットワーク(畳み込み演算及び非線形変換の組み合わせ、及びスケーリング処理)によって構成される。
図9は、第1の実施形態に係る映像符号化・復号システム1の補正部214の構成図である。図9に示すように、補正部214は、M層からなる構成部(第1層構成部214a-1~第M層構成部214a-M)と、スケーリング部214bと、によって構成される。各構成部は、畳み込み層部c6と、非線形変換部c7と、によって構成される。
第1層構成部214a-1の畳み込み層部c6は、次元伸張部212から出力された伸張復号データと、中間データメモリ213に記憶された中間データと、を取得する。畳み込み層部c6は、取得された伸張復号データに対して畳み込み演算を行う。畳み込み層部c6は、畳み込み演算が行われたフレーム群を非線形変換部c7へ出力する。
第1層構成部214a-1の非線形変換部c7は、畳み込み層部c6から出力されたフレーム群を取得する。非線形変換部c5は、取得されたフレーム群に対し非線形変換処理を行う。非線形変換部c7は、非線形変換処理が行われたフレーム群を出力する。次の層の構成部(第2層構成部)の畳み込み層部c6へは、非線形変換部c7から出力されたフレーム群と時間的に1つ前の中間データとが加算されたデータが入力される。
補正部214は、上記の処理を第1層から第M層まで繰り返すことによって得られたフレーム群に対してスケーリング部214bによってスケーリングを行う。以上の処理により、補正部214は、次元伸張部212から出力された伸張復号データを、中間データメモリ213に記憶された中間データによって補正し、補正された伸張復号データである復号フレーム群を映像結合部220へ出力する。
[学習処理]
以下、次元圧縮部121、次元伸張部212、及び補正部214のニューラルネットワークによる学習処理について説明する。
次元圧縮部121、次元伸張部212、及び補正部214のニューラルネットワークによる学習処理は、同時に行われる。
図10は、第1の実施形態に係る映像符号化・復号システム1による学習処理を説明するための模式図である。
図10に示すように、まず入力データとして、3つの時間的に連続する入力フレーム群を1つのサンプルデータとするデータセットが入力される。以下、これら3つの入力フレーム群を、時間順にそれぞれS1(x,y,z),S2(x,y,z)(第1のフレーム群),S3(x,y,z)(第2のフレーム群)とする。
次に、各入力フレーム群S1(x,y,z),S2(x,y,z),S3(x,y,z)に対し、それぞれ処理Aが実行される。ここでいう処理Aとは、次元圧縮処理、量子化/エントロピー符号化処理、エントロピー復号処理、及び次元伸張処理である。これにより、中間データがそれぞれ生成される。以下、各入力フレーム群S1(x,y,z),S2(x,y,z),S3(x,y,z)に基づいて生成される中間データを、それぞれM1(x,y,z)、M2(x,y,z)(第1のフレーム群の特徴量),M3(x,y,z)(第2のフレーム群の特徴量)とする。
次に、図10に示すように、M1(x,y,z)とM2(x,y,z)、及び、M2(x,y,z)とM3(x,y,z)をセットとして、それぞれ補正が行われる。具体的には、中間データM1(x,y,z)に対応する伸張復号データと中間データM2(x,y,z)、及び、中間データM2(x,y,z)に対応する伸張復号データと中間データM3(x,y,z)をセットとして、それぞれ補正が行われる。これにより、2つの復号フレーム群が生成される。以下、各復号フレーム群を、それぞれR2(x,y,z),R3(x,y,z)(補正後フレーム群)とする。
次に、以下に示す式(1)~式(3)によって定義される損失関数を用いて、損失値lossが算出される。
loss=
復元誤差1+復元誤差2+GAN(concat(R2,R3))
+FM(concat(S2,S3),concat(R2,R3))
・・・(1)
復元誤差1=
ΣxΣyΣz(diff(S2(x,y,z),R2(x,y,z)))
+ΣxΣyΣz(diff(S3(x,y,z),R3(x,y,z)))
・・・(2)
復元誤差2=
ΣxΣyΣz(w(z)*diff(M2(x,y,z),R2(x,y,z)))
+ΣxΣyΣz(w(z)*diff(M3(x,y,z),R3(x,y,z)))
・・・(3)
ここで、diff(a,b)は、aとbとの距離を測る関数(例えば二乗誤差等)である。また、w(z)は、時間方向zに応じた重み係数である。なお、w(z)は、インデックスzが大きいほど重み付けが重くなるように設定される。すなわち、符号化対象の入力フレーム群に対して時間的により後の入力フレーム群に対応する中間データであるほど、補正における重み付けが重くなるように設定される。例えば、w(z)=z、又はw(z)=z2等が用いられる。
concat()は、各入力を時間方向に連結する操作である。GAN(x)は、入力映像xが真の映像であるか否かを判定し、その確率を出力する識別器である。当該識別器は、ニューラルネットワークによって構築される。FM(a,b)は、当該識別器に対して、それぞれaとbとを入力した場合における、ニューラルネットワークの中間層の値についての誤差和(例えば二乗誤差等)である。
次に、算出された損失値を用いて、逆誤差伝播法等により各部のパラメータ値が更新される。上記の一連の流れを1回として、複数のサンプルデータを用いて、一定回数繰り返されることによって学習が行われる。又は、損失値が収束するまで繰り返されることによって学習が行われる。なお、上記式(1)~式(3)で示した損失関数の構成は一例であり、上記のうち一部の誤差のみが計算される損失関数、又は、異なる誤差項を追加された損失関数等であってもよい。
上述したように、第1の実施形態における学習処理の流れは以下のとおりである。
1.3つの連続する入力フレーム群を1サンプルとして用意する。
2.各サンプルを、オートエンコーダとしてのニューラルネットワーク(エンコーダ/デコーダ)に入力し、中間データを得る。
3.補正のためのニューラルネットワークよって、上記S2(x,y,z)とS3(x,y,z)に対応する復号映像データを得る。
4.下記1)~4)の値を加算することにより損失計算を行う。
1)S2(x,y,z)とR2(x,y,z)との復元誤差、及び、S3(x,y,z)とR3(x,y,z)との復元誤差。
2)M2(x,y,z)とR2(x,y,z)との重み付き復元誤差、及び、M3(x,y,z)とR3(x,y,z)との重み付き復元誤差。
3)GAN誤差(識別処理を行うニューラルネットワークに対し、R2(x,y,z)及びR3(x,y,z)を入力した時のバイナリクロスエントロピー誤差)。
4)FM誤差(識別処理を行うニューラルネットワークに対し、S2(x,y,z)及びS3(x,y,z)と、R2(x,y,z)及びR3(x,y,z)と、を入力した時の中間層特徴量の誤差)。
5.誤差逆伝播法により各ニューラルネットワークを更新する。
なお、ここでいう識別処理とは、入力された映像データに基づく映像が真の映像であるか否かを識別する処理である。
なお、2)の重み付き復元誤差は、時間的に後に隣接するフレーム群と連続させるように算出される項である。3)のGAN誤差と4)のFM誤差は、映像復号データに基づく映像がより自然な出力となるように算出される項である。
なお、上記の通り、ここでは3つの時間的に連続する入力フレーム群であるS1(x,y,z),S2(x,y,z),S3(x,y,z)から、M1(x,y,z)、M2(x,y,z),M3(x,y,z)とR2(x,y,z),R3(x,y,z)とが生成され、R2(x,y,z)+R3(x,y,z)が自然になるように(すなわち、連続性を持つように)学習が行われる構成であった。
しかしながら、上記のように3つの時間的に連続する入力フレーム群からなるデータセットが入力される構成に限られるものではなく、4つ以上の時間的に連続する入力フレーム群からなるデータセットが入力される構成であってもよい。
例えば、4つの時間的に連続する入力フレーム群であるS1(x,y,z),S2(x,y,z),S3(x,y,z)S4(x,y,z)から、M1(x,y,z)、M2(x,y,z),M3(x,y,z),M4(x,y,z)とR2(x,y,z),R3(x,y,z),R4(x,y,z)とが生成され、R2(x,y,z)+R3(x,y,z)+R4(x,y,z)が自然になるように(すなわち、連続性を持つように)学習が行われる構成であってもよい。
以上説明したように、第1の実施形態に係る映像符号化・復号システム1は、符号化データをそのまま復号映像データに復号するのではなく、中間データとして中間データメモリ213に格納する。そして、映像符号化・復号システム1は、処理対象の符号化データに対して、時間的に連続する周囲のデータ(中間データ)を用いて補正処理を行い、復号する。これにより、時間的に連続する周囲のデータと処理対象の符号化データとの連続性が保たれる。
なおかつ、第1の実施形態に係る映像符号化・復号システム1では、処理対象の符号化データを復号する際に必要なデータは、周囲の少数データのみ(第1の実施形態においては、時間的に1つ前の中間データのみ)である。これにより、映像符号化・復号システム1は、画像データに対するランダムアクセス性、及び並列性を有する符号化及び復号を行うことができる。
また、第1の実施形態に係る映像符号化・復号システム1は、上述したように、復元誤差2を用いて学習を行う。そのため、例えば図10に示したM2(x,y,z)をR2(x,y,z)に補正する場合には、R2(x,y,z)とR3(x,y,z)との連続性を保つために、R3(x,y,z)に近いフレームでは変化が起きないような拘束条件になっている。すなわち、S2(x,y,z)とS2(x,y,z)より時間的に後の入力フレーム群であるS3(x,y,z)との関係に基づく主観画質が高くなるような拘束条件になっている。これにより、映像符号化・復号システム1によれば、R2(x,y,z)がR3(x,y,z)と連続するように補正が行われるため、画質が向上する。
また、第1の実施形態に係る映像符号化・復号システム1では、オートエンコーダとしてのニューラルネットワーク(次元圧縮部121及び次元伸張部212)(第1の学習モデル)と、連続性の確保のためのニューラルネットワーク(補正部214)(第2の学習モデル)とが、別々のニューラルネットワークであり、別々に学習処理が行われるため、学習処理が安定する。
<第2の実施形態>
以下、本発明の第2の実施形態について、図面を参照しながら説明する。
以下、第2の実施形態に係る映像符号化・復号システムについて説明する。なお、第2の実施形態に係る映像符号化・復号システムの全体構成及び符号化部の構成は、図1及び図2を参照しながら説明した第1の実施形態に係る映像符号化・復号システム1の全体構成及び符号化部120の構成と同一であるため、説明を省略する。第1の実施形態に係る映像符号化・復号システム1と、以下に説明する第2の実施形態に係る映像符号化・復号システムとは、映像復号装置が備える復号部の構成が異なる。
以下、第2の実施形態に係る映像符号化・復号システムの映像復号装置が備える復号部210aの構成を図11に示す。なお、第1の実施形態と機能構成が同一である機能ブロックに対しては同一の符号を付し、説明を省略する。図11に示すように、復号部210は、エントロピー復号部211と、次元伸張部212と、中間データメモリ213と、補正部214と、補正切り替えスイッチ215と、を含んで構成される。
第2の実施形態に係る復号部210aと第1の実施形態に係る復号部210との差異点は、復号部210の機能構成に加えて、復号部210aが、さらに補正処理切り替えスイッチ215を備える構成である点である。
次元伸張部212は、生成された伸張復号データを、中間データメモリ213及び補正処理切り替えスイッチ215へそれぞれ出力する。
補正処理切り替えスイッチ215は、次元伸張部212から出力された伸張復号データを取得する。補正処理切り替えスイッチ215は、取得された伸張復号データを、そのまま復号フレーム群として映像結合部へ出力するか、又は、補正部214へ出力するかを切り替える。
補正部214は、補正処理切り替えスイッチ215から出力された伸張復号データを取得する。また、補正部214は、中間データメモリ213に記憶された中間データを取得する。補正部214は、中間データを用いて伸張復号データを補正することにより復号フレーム群を生成する。補正部214は、生成された復号フレーム群を映像結合部220へ出力する。
第2の実施形態に係る映像符号化装置の動作は、図5を参照しながら説明した第1の実施形態に係る映像符号化装置10の動作と同一である。よって、第2の実施形態に係る映像符号化装置の動作についての説明は省略する。
[映像復号装置の動作]
以下、第2の実施形態に係る映像復号装置の動作の一例について説明する。
図12は、第1の実施形態に係る映像復号装置20の動作を示すフローチャートである。
復号部210aのエントロピー復号部211は、符号化データを取得する。エントロピー復号部211は、取得された符号化データに対してエントロピー復号を行うことにより、エントロピー復号データを生成する(ステップS211)。
復号部210aの次元伸張部212は、生成されたエントロピー復号データに対して、(次元圧縮部によって次元数が削減される前の)元の次元数に復元することにより伸張復号データを生成する(ステップS212)。
復号部210aの中間データメモリ213は、ステップS212によって生成された伸張復号データである中間データMiを記憶する(ステップS213)。
復号部210aの補正処理切り替えスイッチ215は、次元伸張部212によって生成された伸張復号データを参照し、入力フレーム群の番号を表すインデックスiの値を確認する。iの値が奇数である場合(ステップS214・YES)、補正処理切り替えスイッチ215は、取得された伸張復号データを、そのまま復号フレーム群として映像結合部へ出力する。
映像結合部は、生成された復号フレーム群を結合することにより復号映像データを生成する(ステップS216)。
以上で、図12のフローチャートが示す映像復号装置20の動作が終了する。
一方、iの値が偶数である場合(ステップS214・NO)、補正処理切り替えスイッチ215は、取得された伸張復号データを、復号部210aの補正部214へ出力する。補正部214は、中間データメモリ213に記憶された中間データMiを用いて、補正処理切り替えスイッチ215を介して取得した伸張復号データを補正する。
なお、補正処理切り替えスイッチ215が、iの値が偶数である場合に、伸張復号データをそのまま復号フレーム群として映像結合部へ出力し、iの値が奇数である場合に、伸張復号データを補正部214へ出力する構成であってもよい。
なお、上記の通り、補正処理切り替えスイッチ215は、取得される伸長復号データに対して1つおきに補正処理を行うが、その目的は以下のとおりである。
第1の実施形態では、補正対象のフレーム群(Mi)が、時間的に前のフレーム群(Mi-1)と時間的に連続するように補正されることによって主観画質が向上する構成であった。しかしながら、時間的に前のフレーム群(Mi-1)は、更に時間的に前のフレーム群(Mi-2)に基づいて補正される。そのため、時間的に前のフレーム群(Mi-1)は、補正対象のフレーム群(Mi)が参照された時点とは異なるフレーム群になっているため、最終的な出力が時間的に連続性を有していることは担保されない。
一方、第2の実施形態では、補正されるフレーム群と補正されないフレーム群とが交互に連続する構成である。これによって、第2の実施形態では、補正対象のフレーム群が補正された後に、その前後のフレーム群は参照された時点から変化しないため、時間的な連続性が担保される。
ここで、補正部214は、補正の対象である伸張復号データ(第2のフレーム群)に対して、中間データMi-1(第1のフレーム群)と中間データMi+1(第3のフレーム群)とを用いて補正を行う。ここで、中間データMi-1は、当該伸張復号データに相当する中間データMiよりも先に中間データメモリ213に記憶された中間データである。また、中間データMi+1は、当該伸張復号データに相当する中間データMiよりも後に中間データメモリ213に記憶された中間データである。例えば、補正部214は、中間データMiに相当する伸張復号データを、当該中間データMiよりも時間方向に1つ前の中間データである中間データMi-1と、当該中間データMiよりも時間方向に1つ後の中間データである中間データMi+1と、を用いて補正する。なお、補正に用いられる中間データは3つ以上であってもよい。
補正部214は、中間データMiに相当する伸張復号データに対して、中間データMi-1と中間データMi+1をz方向の次元で結合することにより補正する。補正部214は、全ての伸張復号データに対して上記の処理を行うことにより、復号フレーム群を生成する(ステップS215)。
映像結合部は、生成された復号フレーム群を結合することにより復号映像データを生成する(ステップS216)。
以上で、図12のフローチャートが示す映像復号装置20の動作が終了する。
[学習処理]
以下、第2の実施形態に係る、次元圧縮部、次元伸張部、及び補正部214のニューラルネットワークによる学習処理について説明する。
次元圧縮部、次元伸張部、及び補正部214のニューラルネットワークによる学習処理は、同時に行われる。
図13は、第2の実施形態に係る映像符号化・復号システムによる学習処理を説明するための模式図である。
図13に示すように、まず入力データとして、3つの時間的に連続する入力フレーム群を1つのサンプルデータとするデータセットが入力される。以下、これら3つの入力フレーム群を、時間順にそれぞれS1(x,y,z),S2(x,y,z),S3(x,y,z)とする。
次に、各入力フレーム群S1(x,y,z),S2(x,y,z),S3(x,y,z)に対し、それぞれ処理Aが実行される。ここでいう処理Aとは、上述したように、次元圧縮処理、量子化/エントロピー符号化処理、エントロピー復号処理、及び次元伸張処理である。これにより、中間データがそれぞれ生成される。以下、各入力フレーム群S1(x,y,z),S2(x,y,z),S3(x,y,z)に基づいて生成される中間データを、それぞれM1(x,y,z)、M2(x,y,z),M3(x,y,z)とする。
次に、図13に示すように、M1(x,y,z)、M2(x,y,z)、及びM3(x,y,z)をセットとして補正が行われる。具体的には、中間データM2(x,y,z)に対応する伸張復号データ、中間データM1(x,y,z)、及び中間データM3(x,y,z)をセットとして、それぞれ補正が行われる。これにより、復号フレーム群が生成される。以下、生成された復号フレーム群を、R2(x,y,z)とする。
次に、以下に示す式(4)~式(5)によって定義される損失関数を用いて、損失値lossが算出される。
loss=
復元誤差1+GAN(concat(M1,R2,M3))
+FM(concat(S1,S2,S3),concat(M1,R2,M3))
・・・(4)
復元誤差1=
ΣxΣyΣz(diff(S1(x,y,z),M1(x,y,z)))
+ΣxΣyΣz(diff(S3(x,y,z),M3(x,y,z)))
・・・(5)
ここで、diff(a,b)は、aとbとの距離を測る関数(例えば二乗誤差等)である。concat()は、各入力を時間方向に連結する操作である。GAN(x)は、入力映像xが真の映像であるか否かを判定し、その確率を出力する識別器である。当該識別器は、ニューラルネットワークによって構築される。FM(a,b)は、当該識別器に対して、それぞれaとbとを入力した場合における、ニューラルネットワークの中間層の値についての誤差和(例えば二乗誤差等)である。
次に、算出された損失値を用いて、逆誤差伝播法等により各部のパラメータ値が更新される。上記の一連の流れを1回として、複数のサンプルデータを用いて、一定回数繰り返されることによって学習が行われる。又は、損失値が収束するまで繰り返されることによって学習が行われる。なお、上記式(4)~式(5)で示した損失関数の構成は一例であり、上記のうち一部の誤差のみが計算される損失関数、又は、異なる誤差項を追加された損失関数等であってもよい。
以上の構成を備えることによって、第2の実施形態に係る映像符号化・復号システムは、画像データに対するランダムアクセス性、及び並列性を有する符号化及び復号を行うことができる。
また、上述したように、第1の実施形態に係る映像符号化・復号システム1は、各入力フレーム群を独立に補正する。そのため、第1の実施形態に係る映像符号化・復号システム1では、それぞれの入力は時間的に前の出力と連続するように補正が行われるものの、前の出力がどのように補正されるかは未知である。そのため、第1の実施形態に係る映像符号化・復号システム1では、補正後の復号フレーム群どうしが連続性を有することを確実には担保できない可能性がある。
一方、以上説明したように、第2の実施形態に係る映像符号化・復号システムは、インデックスの値が奇数(又は偶数)のフレーム群については、伸張復号データそのものを復号フレーム群とするように学習を行い、インデックスの値が奇数(又は偶数)でないフレーム群と連続するように補正を行う。これにより、補正処理対象のフレーム群の前後の出力は変化しないことから、第2の実施形態に係る映像符号化・復号システムは、補正後の復号フレーム群と、当該補正後の復号フレーム群と時間的に前後に隣接する復号フレーム群とが、連続性を有することを担保することができる。
上述した実施形態における映像符号化・復号システムの一部又は全部を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、上述した機能の一部を実現するためのものであっても良く、さらに上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
以上、図面を参照して本発明の実施形態を説明してきたが、上記実施形態は本発明の例示に過ぎず、本発明が上記実施形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び要旨を逸脱しない範囲で構成要素の追加、省略、置換、及びその他の変更を行ってもよい。
1 映像符号化・復号システム
10 映像符号化装置
20 映像復号装置
110 映像分割部
120 符号化部
121 次元圧縮部
122 エントロピー符号化部
210 復号部
211 エントロピー復号部
212 次元伸張部
213 中間データメモリ
214 補正部
220 映像結合部

Claims (4)

  1. 映像データが分割された所定のフレーム数からなるフレーム群ごとに補正を行う画像処理装置であって、
    前記フレーム群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、 第1のフレーム群の前記伸張復号データを、前記第1のフレーム群と時間的に連続したフレーム群である第2のフレーム群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより、補正後フレーム群を得る復号部
    を備え、
    前記復号部は、入力画像が真の画像であるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後フレーム群と、前記第2のフレーム群の前記伸張復号データを前記第2のフレーム群より時間的に後のフレーム群の前記伸張復号データに結合させて得られる補正後フレーム群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行う
    画像処理装置。
  2. データが分割された所定の部分データ数からなる部分データ群ごとに補正を行う画像処理装置であって、
    前記部分データ群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、 第1の部分データ群の前記伸張復号データを、前記第1の部分データ群と時間的に連続した部分データ群である第2の部分データ群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより補正後部分データ群を得る復号部
    を備え、
    前記復号部は、入力データが真のデータであるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後部分データ群と、前記第2の部分データ群の前記伸張復号データを前記第2の部分データ群より時間的に後の部分データ群の前記伸張復号データに結合させて得られる補正後部分データ群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行う
    画像処理装置。
  3. 映像データが分割された所定のフレーム数からなるフレーム群ごとに補正を行う画像処理方法であって、
    前記フレーム群の次元を圧縮させる符号化によって得られた符号化データに対して符号化前の前記次元に伸張させる復号がなされた伸張復号データであって、 第1のフレーム群の前記伸張復号データを、前記第1のフレーム群と時間的に連続したフレーム群である第2のフレーム群の前記伸張復号データに対して時間方向に結合させる補正を行うことにより、補正後フレーム群を得るステップと、
    入力画像が真の画像であるか否かを識別する識別処理を行うニューラルネットワークに対して、前記補正後フレーム群と、前記第2のフレーム群の前記伸張復号データを前記第2のフレーム群より時間的に後のフレーム群の前記伸張復号データに結合させて得られる補正後フレーム群と、を入力することによって得られるバイナリクロスエントロピー誤差を最小化させるように前記補正を行うステップと、
    を有する画像処理方法。
  4. 請求項1又は2に記載の画像処理装置としてコンピュータを機能させるための画像処理プログラム。
JP2020548382A 2018-09-19 2019-09-11 画像処理装置、画像処理方法及び画像処理プログラム Active JP7104352B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018174982 2018-09-19
JP2018174982 2018-09-19
PCT/JP2019/035631 WO2020059581A1 (ja) 2018-09-19 2019-09-11 画像処理装置、画像処理方法及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2020059581A1 JPWO2020059581A1 (ja) 2021-05-20
JP7104352B2 true JP7104352B2 (ja) 2022-07-21

Family

ID=69887000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020548382A Active JP7104352B2 (ja) 2018-09-19 2019-09-11 画像処理装置、画像処理方法及び画像処理プログラム

Country Status (3)

Country Link
US (1) US11516515B2 (ja)
JP (1) JP7104352B2 (ja)
WO (1) WO2020059581A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008177648A (ja) 2007-01-16 2008-07-31 Nippon Hoso Kyokai <Nhk> 動画像データ復号装置、及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999030505A1 (en) * 1997-12-08 1999-06-17 Sony Corporation Encoder and encoding method
US7136508B2 (en) * 2000-11-09 2006-11-14 Minolta Co., Ltd. Image processing apparatus, method, and program for processing a moving image
US7680326B2 (en) * 2004-03-18 2010-03-16 Fujifilm Corporation Method, system, and program for correcting the image quality of a moving image
JP4440051B2 (ja) * 2004-09-08 2010-03-24 キヤノン株式会社 画像符号化装置及び方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
JP4867235B2 (ja) * 2004-10-26 2012-02-01 ソニー株式会社 情報処理装置および情報処理方法、記録媒体、並びに、プログラム
JP4618098B2 (ja) * 2005-11-02 2011-01-26 ソニー株式会社 画像処理システム
US20080002771A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Video segment motion categorization
JP4747975B2 (ja) * 2006-07-14 2011-08-17 ソニー株式会社 画像処理装置および方法、プログラム、並びに、記録媒体
JP5643574B2 (ja) * 2010-08-26 2014-12-17 キヤノン株式会社 画像処理装置及び画像処理方法
WO2015009750A1 (en) * 2013-07-15 2015-01-22 Fox Broadcasting Company Providing bitmap image format files from media
US10679145B2 (en) * 2015-08-07 2020-06-09 Nec Corporation System and method for balancing computation with communication in parallel learning
US11586960B2 (en) * 2017-05-09 2023-02-21 Visa International Service Association Autonomous learning platform for novel feature discovery
CN112204580B (zh) * 2018-03-27 2024-04-12 诺基亚通信公司 使用深度q网络促进资源配对的方法和装置
US11019355B2 (en) * 2018-04-03 2021-05-25 Electronics And Telecommunications Research Institute Inter-prediction method and apparatus using reference frame generated based on deep learning
US10798394B2 (en) * 2018-06-27 2020-10-06 Avago Technologies International Sales Pte. Limited Low complexity affine merge mode for versatile video coding
US11526953B2 (en) * 2019-06-25 2022-12-13 Iqvia Inc. Machine learning techniques for automatic evaluation of clinical trial data
CN110464326B (zh) * 2019-08-19 2022-05-10 上海联影医疗科技股份有限公司 一种扫描参数推荐方法、系统、装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008177648A (ja) 2007-01-16 2008-07-31 Nippon Hoso Kyokai <Nhk> 動画像データ復号装置、及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AKBARI, Mohammad and LIANG, Jie,Semi-Recurrent Cnn-Based Vae-Gan for Sequential Data Generation,2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2018年09月13日,pp. 2321-2325
MAHASSENI, Behrooz et al.,Unsupervised Video Summarization with Adversarial LSTM Networks,2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2017年11月09日,pp. 2982-2991
XIE, Jianwen et al.,Synthesizing Dynamic Patterns by Spatial-Temporal Generative ConvNet,2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2017年11月09日,pp. 1061-1069

Also Published As

Publication number Publication date
JPWO2020059581A1 (ja) 2021-05-20
US20210344967A1 (en) 2021-11-04
US11516515B2 (en) 2022-11-29
WO2020059581A1 (ja) 2020-03-26

Similar Documents

Publication Publication Date Title
CN109451308B (zh) 视频压缩处理方法及装置、电子设备及存储介质
KR100561875B1 (ko) 위치 인터폴레이터 복호화 방법 및 장치
CN113454691A (zh) 自适应点云属性编解码的方法和装置
Ayzik et al. Deep image compression using decoder side information
JP2023532397A (ja) ポストフィルタリングのためのコンテンツ適応型オンライン訓練方法、装置およびコンピュータプログラム
JP7434604B2 (ja) ニューラル画像圧縮における画像置換を用いたコンテンツ適応型オンライン訓練
CN113747163A (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
EP2498497A1 (en) Method and system using prediction and error correction for the compact representation of quantization matrices in video compression
RU2313174C2 (ru) Адаптивный способ и система для отображения значений параметров в индексы кодовых слов
JP7041380B2 (ja) 符号化システム、学習方法、及びプログラム
Mahmud An improved data compression method for general data
JP7104352B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US8594196B2 (en) Spatial Wyner Ziv coding
EP3186781B1 (en) Extension of the mpeg/sc3dmc standard to polygon meshes
JP7141007B2 (ja) 符号化装置、符号化方法及びプログラム
US11350134B2 (en) Encoding apparatus, image interpolating apparatus and encoding program
Lee et al. Lossless compression of medical images by prediction and classification
Siddeq et al. DCT and DST based Image Compression for 3D Reconstruction
WO2024214422A1 (ja) メッシュ復号装置、メッシュ復号方法及びプログラム
JP2023528180A (ja) ポストフィルタリングを伴うニューラル画像圧縮におけるブロック単位のコンテンツ適応オンライン訓練の方法、装置、およびコンピュータプログラム
JP2005236723A (ja) 動画像符号化装置、動画像符号化方法、動画像復号化装置及び動画像復号化方法
WO2021111595A1 (ja) フィルタ生成方法、フィルタ生成装置及びプログラム
WO2011049175A1 (ja) 画像符号化装置、画像復号化装置、画像符号化方法、及び画像復号化方法
Mukati Light field coding and processing for view sequences
JP2024152415A (ja) メッシュ復号装置、メッシュ復号方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220620

R150 Certificate of patent or registration of utility model

Ref document number: 7104352

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150