JP2020039087A - 画像処理装置、画像処理方法及び画像処理プログラム - Google Patents

画像処理装置、画像処理方法及び画像処理プログラム Download PDF

Info

Publication number
JP2020039087A
JP2020039087A JP2018166303A JP2018166303A JP2020039087A JP 2020039087 A JP2020039087 A JP 2020039087A JP 2018166303 A JP2018166303 A JP 2018166303A JP 2018166303 A JP2018166303 A JP 2018166303A JP 2020039087 A JP2020039087 A JP 2020039087A
Authority
JP
Japan
Prior art keywords
image
vector
feature vector
code amount
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018166303A
Other languages
English (en)
Other versions
JP7075012B2 (ja
Inventor
志織 杉本
Shiori Sugimoto
志織 杉本
誠之 高村
Masayuki Takamura
誠之 高村
清水 淳
Atsushi Shimizu
淳 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018166303A priority Critical patent/JP7075012B2/ja
Priority to PCT/JP2019/033317 priority patent/WO2020050089A1/ja
Priority to US17/273,157 priority patent/US11546588B2/en
Publication of JP2020039087A publication Critical patent/JP2020039087A/ja
Application granted granted Critical
Publication of JP7075012B2 publication Critical patent/JP7075012B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】演算コストを抑えつつ、品質と符号量とを調整すること。【解決手段】処理対象画像の画素値を更新して新たな画像を生成する画像処理装置は、処理対象画像と少なくとも1つのフィルタとによって生成された第1の特徴マップに基づいて第1の特徴ベクトルを生成し、処理対象画像を更新して更新画像を生成し、更新画像と少なくとも1つのフィルタとによって生成された第2の特徴マップに基づいて第2の特徴ベクトルを生成し、第1の特徴ベクトルと第2の特徴ベクトルとに基づいて更新画像の品質評価を行い品質評価の結果に基づくベクトルである品質フィードバックベクトルを生成し、更新画像に対する符号量評価を行い、符号量評価の結果に基づくベクトルである符号量フィードバックベクトルを生成し、品質フィードバックベクトルと符号量フィードバックベクトルとに基づいて更新画像の更新における更新量を決定する。【選択図】図1

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。
一般に、動画像を符号化する際には、ストレージ又は伝送ネットワークの帯域の制約から、目標とするビットレートに合わせて符号量を制御する必要がある。一般的な符号化装置は、その内部に符号量制御機構を備えており、符号化・復号後の画質と発生符号量のバランスとを鑑みて符号量制御を行う。
一般的な動画像符号化の標準規格であるH.264/AVC及びH.265/HEVCでは、DCT(Discrete Cosine Transform;離散コサイン変換)やDST(Discrete Sine Transform;離散サイン変換)の係数を量子化する際のQP(Quantization Parameter;量子化パラメータ)を調整することで、発生符号量を制御する。一方、QPの上昇に伴う高周波成分の欠落、及びブロック境界に発生するブロック歪みが、画像品質に影響を与える。
一般的な符号化装置は、品質と符号量との調整を行うために、品質評価と符号量評価とのトレードオフ評価を内部に備える。しかしながら、パラメータを調整する度に再度符号化を行う必要があるため、演算コストが高くなる。そのため、より簡易に、品質と符号量との調整を行う方法が求められている。
これに対し、例えば、符号化対象となる動画像に前処理を行う方法が提案されている。例えば非特許文献1には、前処理としてローパスフィルタを画像に適用し、一般に多くの符号量を必要とする高周波成分を予め取り除くことで、本来その高周波成分に対して割かれるはずだった符号量を画面全体に分散させ、ブロック歪みの抑制を図る技術が記載されている。また、例えば非特許文献2には、適応的フィルタを画像に適用してノイズ成分を除去し、符号量の削減を図る技術が記載されている。
I.Kopilovic and T.Sziranyi, "Artifact reduction with diffusion preprocessing for image compression," Optical Engineering, vol.44, no.2, pp.1-14, February 2005. E.Vidal, N.Sturmel, C.Guillemot, P.Corlay and F.X.Coudoux, "New Adaptive Filters as Perceptual Preprocessing for Rate-Quality Performance Optimization of Video Coding," Signal Processing: Image Communication, vol.52, pp.124-137, 2017. L.A.Gatys, A.S.Ecker, and M.Bethge, "Image Style Transfer Using Convolutional Neural Networks," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.2414-2423, June 2016. X.Jing and L.P.Chau, "A Novel Intra-Rate Estimation Method for H.264 Rate Control," IEEE International Symposium on Circuits and Systems, pp.5019-5022, May 2006.
上述したように、事前に符号化対象画像の高周波成分を除去することにより、符号量の削減を図ることが可能である。しかしながら、フィルタリング処理によって全体的に画像のディティールが欠損し、対象となる画像によってはコンテキストに関わる情報が欠損する。これにより、画像の品質が低下する。これに対し、ノイズ等の劣化モデルを仮定することによって品質への影響を抑制することはできるが、適用対象となる画像は限定的であり、モデルに当てはまらない画像に対しては効果がない。また、実際に削減される符号量を制御することも困難である。
本発明はこのような状況を鑑みてなされたもので、演算コストを抑えつつ、品質と符号量とを調整することができる技術の提供を目的としている。
本発明の一態様は、処理対象画像の画素値を更新して新たな画像を生成する画像処理装置であって、前記処理対象画像と予め定められた少なくとも1つのフィルタとによって生成された第1の特徴マップに基づいて第1の特徴ベクトルを生成する第1特徴ベクトル生成部と、前記処理対象画像を更新し更新画像を生成する画像更新部と、前記更新画像と予め定められた少なくとも1つのフィルタとによって生成された第2の特徴マップに基づいて第2の特徴ベクトルを生成する第2特徴ベクトル生成部と、前記第1の特徴ベクトルと前記第2の特徴ベクトルとに基づいて前記更新画像の品質評価を行い、前記品質評価の結果に基づくベクトルである品質フィードバックベクトルを生成する品質評価部と、前記更新画像に対する符号量評価を行い、前記符号量評価の結果に基づくベクトルである符号量フィードバックベクトルを生成する符号量評価部と、前記品質フィードバックベクトルと前記符号量フィードバックベクトルとに基づいて前記更新画像の更新における更新量を決定する更新量決定部と、を備える画像処理装置である。
また、本発明の一態様は上記の画像処理装置であって、前記第1の特徴マップ及び前記第2の特徴マップのうち少なくとも一方は、複数の前記フィルタによる階層的な畳み込み処理が行われることによって生成される。
また、本発明の一態様は上記の画像処理装置であって、前記第1の特徴ベクトル及び前記第2の特徴ベクトルのうち少なくとも一方は、前記第1の特徴マップ又は前記第2の特徴マップの統計量に基づいて生成される。
また、本発明の一態様は上記の画像処理装置であって、前記第1の特徴ベクトル及び前記第2の特徴ベクトルのうち少なくとも一方は、前記第1の特徴マップどうしの相互相関又は前記第2の特徴マップどうしの相互相関に基づいて生成される。
また、本発明の一態様は、処理対象画像の画素値を更新して新たな画像を生成する画像処理装置が行う画像処理方法であって、前記処理対象画像と予め定められた少なくとも1つのフィルタとによって生成された第1の特徴マップに基づいて第1の特徴ベクトルを生成する第1特徴ベクトル生成ステップと、前記処理対象画像を更新し更新画像を生成する画像更新ステップと、前記更新画像と予め定められた少なくとも1つのフィルタとによって生成された第2の特徴マップに基づいて第2の特徴ベクトルを生成する第2特徴ベクトル生成ステップと、前記第1の特徴ベクトルと前記第2の特徴ベクトルとに基づいて前記更新画像の品質評価を行い、前記品質評価の結果に基づくベクトルである品質フィードバックベクトルを生成する品質評価ステップと、前記更新画像に対する符号量評価を行い、前記符号量評価の結果に基づくベクトルである符号量フィードバックベクトルを生成する符号量評価ステップと、前記品質フィードバックベクトルと前記符号量フィードバックベクトルとに基づいて前記更新画像の更新における更新量を決定する更新量決定ステップと、を有する画像処理方法である。
また、本発明の一態様は、上記の画像処理装置としてコンピュータを機能させるための画像処理プログラムである。
本発明により、演算コストを抑えつつ、品質と符号量とを調整することができる。
本発明の一実施形態による画像処理装置100の機能構成を示すブロック図である。 処理対象画像と生成される特徴マップの一例を示す図である。 本発明の一実施形態による画像処理装置100の動作を示すフローチャートである。
<実施形態>
以下、本発明の一実施形態に係る画像処理装置について説明する。
[画像処理装置の機能構成]
以下、画像処理装置の機能構成について、図面を参照しながら説明する。
図1は、本発明の一実施形態による画像処理装置100の機能構成を示すブロック図である。
図1に示すように、画像処理装置100は、画像入力部101と、画像記憶部102と、参照特徴マップ生成部103と、参照特徴ベクトル生成部104(第1特徴ベクトル生成部)と、参照特徴ベクトル記憶部105と、画像更新部106と、更新特徴マップ生成部107と、更新特徴ベクトル生成部108(第2特徴ベクトル生成部)と、品質評価部109と、符号量評価部110と、更新量決定部111と、を備えている。
画像入力部101は、符号化処理の処理対象となる画像(以下「処理対象画像」という。)の入力を受け付ける。画像入力部101は、入力された処理対象画像を、画像記憶部102へ出力する。
画像記憶部102は、画像入力部101から入力された処理対象画像を記憶する。画像記憶部102は、例えばRAM(Random Access Memory;読み書き可能なメモリ)等の揮発性の記録媒体である。
参照特徴マップ生成部103は、画像記憶部102から処理対象画像を取得する。参照特徴マップ生成部103は、処理対象画像と少なくとも1つのフィルタ(図示せず)とに基づいて、特徴マップを生成する。なお、参照特徴マップ生成部103によって生成される特徴マップを、以下「参照特徴マップ」という。参照特徴マップ生成部103は、生成された参照特徴マップ(第1の特徴マップ)を、参照特徴ベクトル生成部104へ出力する。
なお、特徴マップとは、フィルタによってフィルタ処理が施された画像を示す。したがって、参照特徴マップは、フィルタによって処理対象画像に対してフィルタ処理が施された画像である。
なお、ここで用いられるフィルタは、任意のフィルタで構わない。例えば、エッジ抽出フィルタ、平滑化フィルタ、先鋭化フィルタ、又は統計フィルタ等の、任意の線形又は非線形のフィルタを使用することができる。
例えば、エッジ抽出フィルタが用いられた場合における、推定対象画像と生成される特徴マップの一例を図2に示す。図2(A)は、コンクリート構造物のひび割れが発生した箇所が撮像された推定対象画像である。これに対し、図2(B)は、図2(A)の推定対象画像に対し、エッジ抽出フィルタによりフィルタ処理が施されることによって生成された特徴マップである。このように、エッジ抽出フィルタが用いられた場合には、特徴マップは、推定対象画像において明るさ(濃淡)あるいは色が急に変化している箇所(エッジ)を表す画像である。
参照特徴ベクトル生成部104は、参照特徴マップ生成部103から入力された参照特徴マップに基づいて、特徴ベクトルを生成する。なお、参照特徴ベクトル生成部104によって生成される特徴ベクトルを、以下「参照特徴ベクトル」という。参照特徴ベクトル生成部104は、生成された参照特徴ベクトル(第1の特徴ベクトル)を、参照特徴ベクトル記憶部105へ出力する。
なお、ここでいう特徴ベクトルとは、特徴マップの変化領域に対応する画像が符号化されたデータに基づいて算出されるベクトル値である。
参照特徴ベクトル記憶部105は、参照特徴ベクトル生成部104から入力された参照特徴ベクトルを記憶する。参照特徴ベクトル記憶部105は、例えばRAM等の揮発性の記録媒体である。
画像更新部106は、画像記憶部102から処理対象画像を取得する。画像更新部106は、後述する更新量決定部111から入力された更新量に従って処理対象画像の画素値を更新することにより、更新画像を生成する。画像更新部106は、生成された更新画像を、更新特徴マップ生成部107及び符号量評価部110へ出力する。
また、画像更新部106は、所定の条件が満たされた場合、更新特徴マップ生成部107及び符号量評価部110への更新画像の出力を終了し、外部の装置へ更新画像を出力する。なお、所定の条件とは、例えば、所定の回数の更新画像の生成が行われること、あるいは、任意の評価方法によって行われる更新画像の評価結果の値が所定の値に達したこと等である。
更新特徴マップ生成部107は、画像更新部106から入力された更新画像と少なくとも1つのフィルタ(図示せず)とに基づいて、少なくとも1つの特徴マップを生成する。なお、更新特徴マップ生成部107によって生成される特徴マップを、以下「更新特徴マップ」という。更新特徴マップ生成部107は、生成された更新特徴マップ(第2の特徴マップ)を、更新特徴ベクトル生成部108へ出力する。
更新特徴ベクトル生成部108は、更新特徴マップ生成部107から入力された更新特徴マップに基づいて、特徴ベクトル(以下「更新特徴ベクトル」という。)を生成する。更新特徴ベクトル生成部108は、生成した更新特徴ベクトル(第2の特徴ベクトル)を品質評価部109へ出力する。
品質評価部109は、参照特徴ベクトル記憶部105から参照特徴ベクトルを取得する。品質評価部109は、参照特徴ベクトルと更新特徴ベクトル生成部108から入力された更新特徴ベクトルとに基づいて更新画像の品質を評価し、品質評価の結果を示すベクトル値である品質フィードバックベクトルを生成する。品質評価部109は、生成された品質フィードバックベクトルを、更新量決定部111へ出力する。
なお、上記更新画像の品質評価の評価方法には、任意の方法を用いることができる。例えば、後述する損失関数による評価方法を用いることができる。
符号量評価部110は、画像更新部106から入力された更新画像の符号量を評価し、符号量評価の結果を示すベクトル値である符号量フィードバックベクトルを生成する。符号量評価部110は、生成された符号量フィードバックベクトルを、更新量決定部111へ出力する。
なお、上記更新画像の符号量評価の評価方法には、任意の方法を用いることができる。例えば、後述する損失関数による評価方法を用いることができる。
更新量決定部111は、品質評価部109から入力された品質フィードバックベクトルと、符号量評価部110から入力された符号量フィードバックベクトルと、に基づいて更新量を決定する。更新量決定部111は、決定された更新量を示す情報を、画像更新部106へ出力する。
[画像処理装置の動作]
以下、画像処理装置の動作の一例について、図面を参照しながら説明する。
図3は、本発明の一実施形態による画像処理装置100の動作を示すフローチャートである。
まず、画像入力部101は、処理対象画像の入力を受け付ける。画像記憶部102は、入力された処理対象画像を記憶する(ステップS101)。
次に、参照特徴マップ生成部103は、画像記憶部102に記憶された処理対象画像と少なくとも1つのフィルタとに基づいて、少なくとも1つの参照特徴マップを生成する(ステップS102)。
なお、ステップS102において使用されるフィルタは、上述したように、任意のフィルタで構わない。なお、使用するフィルタの数、及び使用するフィルタの組み合わせも任意である。例えば、処理対象画像に対して線形フィルタが適用された情報に対して、更に、絶対値、ステップ関数、シグモイド関数、ソフトサイン、又はランプ関数等の非線形関数が更に適用された情報を、特徴マップとする構成でもよい。
なお、特徴マップは、任意の階数及び任意の要素数のテンソルでよい。したがって、例えば、特徴マップが2階のテンソルである場合には、その要素数が、入力された処理対象画像の要素数と同一である必要はない。すなわち、特徴マップの画素数は、処理対象画像の画素数より多くてもよいし、少なくてもよい。
なお、生成される特徴マップの数も任意である。
以下、説明を簡単にするため、処理対象画像Iがn×nの2階のテンソルであり、処理対象画像Iに対してm個のフィルタfが畳み込まれ、それぞれの結果に対して非線形関数gが適用された情報を特徴マップとする場合について説明する。
i番目の特徴マップφは以下の式(1)で表される。
なお、生成された特徴マップに対して更に階層的に複数の任意のフィルタを適用し、各階層におけるフィルタの適用結果の全て又は一部を、特徴マップとしてもよい。なお、階層的なフィルタ処理(畳み込み処理)によって得られる特徴マップの各階層において、上位の層にはディティールに関わる特徴が反映され、下位の層には画像のコンテキストに関わる特徴が反映されることが知られている。
再び図3に戻って説明する。
次に、参照特徴ベクトル生成部104は、参照特徴マップ生成部103によって生成された参照特徴マップに基づいて参照特徴ベクトルを生成する。そして、参照特徴ベクトル記憶部105は、参照特徴ベクトル生成部104によって生成された参照特徴ベクトルを記憶する(ステップS103)。
なお、ステップS103において、参照特徴マップから参照特徴ベクトルを生成する方法には、任意の方法を用いることができる。
なお、参照特徴マップに基づいて生成される参照特徴ベクトルは、ベクトルではなく1階以上の任意のテンソルであってもよい。以下、説明を簡単にするため、生成される参照特徴ベクトルが1階のテンソルΨである場合について説明する。
最も単純な場合として、参照特徴マップの各要素を並べた1階のテンソルを参照特徴ベクトルとして使用することができる。また例えば、各参照特徴マップについて、参照特徴マップ内のテンソルの、平均値、分散値、中央値、最大値、最小値、歪度、及び尖度等の統計量を、まとめて参照特徴ベクトルとして使用することができる。
例えば、統計量として平均値を用いる場合、参照特徴ベクトルはm個の要素を持ち、各要素は以下の式(2)のように表される。
また例えば、要素ごとの統計量を求め、求められた統計量を全ての要素について並べたものを参照特徴ベクトルとして使用することができる。
例えば、統計量として平均値を用いる場合、この参照特徴ベクトルはn個の要素を持ち、各要素は以下の式(3)のように表される。
あるいは、参照特徴マップどうしの相互相関によって生成されるグラム行列の集合、又はその統計量の集合を、参照特徴ベクトルとして使用することができる。なお、グラム行列は、画像の大域的なスタイル特徴を反映することが知られている(非特許文献3参照)。
例えば、統計量として平均値を用いる場合、この参照特徴ベクトルはm個の要素を持ち、各要素は以下の式(4)のように表される。
なお、特徴マップの要素をランダムサンプリングしたものを並べて参照特徴ベクトルとする方法、又は、参照特徴マップの要素どうしを所定の重み係数に基づいて加算・乗算する方法等の、その他の任意の方法が用いられてもよい。その場合のサンプリング行列や重み係数は、事前に学習によって得られたものであってもよいし、コンテキストに合わせて生成されたものでもよい。
なお、参照特徴マップと参照特徴ベクトルの生成方法には、一般的な画像識別等に用いられる特徴抽出方法を用いることができる。なお、参照特徴ベクトルの要素数は任意であり、要素数1のスカラー値であっても構わない。
再び図3に戻って説明する。
次に、画像更新部106は、更新画像を初期値にする初期化を行う。そして、画像更新部106は、更新画像の更新を逐次繰り返すことによって、出力画像を生成する(ステップS104)。
なお、ここでいう更新画像の初期値とは、画像更新部106によって画像更新処理が行われる対象の画像を任意の画像(初期値)にする処理である。以下、説明を簡単にするため、本実施形態においては、画像入力部101に入力された処理対象画像を初期値とする。なお、その他、任意の分布関数を用いた乱数、又は、任意の符号化方法によって符号化されて復号された後の画像等が、更新画像の初期値として用いられても構わない。
なお、逐次行われる更新画像の更新方法は任意であるが、以下、説明を簡単にするため、本実施形態においては、誤差逆伝搬法による更新方法を用いる場合について説明する。
以下、ステップS105からステップS110までの繰り返し処理について説明する。
画像更新部106は、更新量に基づいて、更新画像の各要素を更新し、新たな更新画像を生成する(ステップS105)。更新量は、後述の更新量決定部111により決定されるが、初回のみ任意の初期値が用いられる。あるいは、初回のみ、更新量に基づく更新画像の各要素の更新処理を省略してもよい。
次に、更新特徴マップ生成部107は、画像更新部106によって更新された更新画像と少なくとも1つのフィルタとに基づいて、更新特徴マップを生成する(ステップS106)。 なお、更新特徴マップ生成部107は、上述した参照特徴マップ生成部103が実行する処理と同様の処理を行うことにより、更新特徴マップを生成する。但し、処理量の削減等を目的として、上記処理の一部のみを行う構成にしてもよい。
更新特徴ベクトル生成部108は、更新特徴マップ生成部107によって生成された更新特徴マップから、更新特徴ベクトルを生成する(ステップS107)。なお、更新特徴ベクトル生成部108は、上述した参照特徴ベクトル生成部104が実行する処理と同様の処理を行うことにより、更新特徴ベクトルを生成する。但し、処理量の削減等を目的として、上記処理の一部のみを行う構成にしてもよい。
次に、品質評価部109は、参照特徴ベクトル生成部104によって生成された参照特徴ベクトルと更新特徴ベクトル生成部108によって生成された更新特徴ベクトルとに基づいて更新画像の品質を評価して品質フィードバックベクトルを生成し、出力する(ステップS108)。
なお、上述したように、上記更新画像の品質評価における評価方法には、任意の方法を用いることができる。また、品質フィードバックベクトルの構成は任意である。例えば、誤差逆伝搬法による更新を行う場合、品質に関する損失関数の偏微分ベクトルを、品質フィードバックベクトルとすればよい。
なお、損失関数には、任意の関数を用いることができる。例えば、平均二乗誤差を使用する場合、更新画像I’の特徴ベクトルΨ(I’)と、処理対象画像Iの参照特徴ベクトルΨ(I)に対する損失Eqは、以下の式(5)のように定義することができる。
なお、特徴ベクトル(参照特徴ベクトル及び更新特徴ベクトル)の各要素に任意の重みをつけて損失を計算してもよい。例えば、特徴マップ(参照特徴マップ及び更新特徴マップ)が階層的な畳み込み処理によって生成されており、特徴ベクトルの各要素が各特徴マップに対応する場合に、上位の層で生成された特徴マップに対応する要素に対する重みよりも、下位の層で生成された特徴マップに対応する要素に対する重み重くすることで、より抽象的なコンテキストを重視する損失となる。
なお、特徴ベクトルの比較による損失関数に代えて、一般的な画像識別において用いられる識別方法を使用して画像識別を行い、その識別精度による損失関数を使用する構成にしてもよい。また、目標品質を設定し、目標に近づける上での損失を表す損失関数を定義して用いるようにしてもよい。
なお、複数の損失関数を組み合わせてもよい。また、損失関数毎に異なる特徴ベクトルを生成して用いるようにしてもよい。この場合、追加で使用する特徴ベクトルとして、入力された処理対象画像そのもの及び更新画像そのものを使用するようにしてもよい。
例えば、第一特徴ベクトルΨとして抽象的なコンテキストを示すベクトル、第二特徴ベクトルΨとして画像の画素値そのものを並べたベクトルを使用する場合について説明する。第一特徴ベクトルによる損失関数を第一損失関数Eq1(I’)、及び、第二特徴ベクトルによる更新画像と処理対象画像の損失関数を第二損失関数Eq2(I’)として、以下の式(6)及び式(7)のようにそれぞれ定義する。
ここで、tは目標品質を示すMSE(Mean Squared Error;平均二乗誤差)値である。上記の第一損失関数Eq1(I’)と第二損失関数Eq2(I’)とを線形結合したものを損失関数とすることにより、画素単位の品質を目標の範囲に合わせつつ抽象的な品質を高めること、あるいは抽象的な品質を目標の範囲に合わせつつ画素単位の品質を高めることが可能になる。
再び図3に戻って説明する。
次に、符号量評価部110は、画像更新部106によって更新された更新画像の符号量を評価して符号量フィードバックベクトルを生成し、出力する(ステップS109)。
なお、上述したように、更新画像の符号量の評価における評価方法には、任意の方法を用いることができる。また、符号量フィードバックベクトルの構成は任意である。例えば、誤差逆伝搬法による更新を行う場合、符号量に関する損失関数の偏微分ベクトルを、符号量フィードバックベクトルとすればよい。
なお、損失関数には、任意の関数を用いることができる。例えば、符号化モデルがH.264のイントラ符号化であることを想定した場合、例えば非特許文献4に記載の技術のように、画像の一次微分の絶対値の平均が符号量に比例するものとして、損失関数を定義することができる。このとき、平均二乗誤差を使用すると、更新画像I’の損失Eは以下の式(8)のように定義することができる。
なお、目標符号量を設定し、目標に近づける上での損失を表す損失関数を定義して用いるようにしてもよい。
再び図3に戻って説明する。
次に、更新量決定部111は、品質評価部109によって生成された品質フィードバックベクトルと、符号量評価部110によって生成された符号量フィードバックベクトルと、に基づいて更新量を決定し、更新量を示す情報を画像更新部106へ出力する(ステップS110)。
なお、更新量の決定方法には、任意の方法を用いることができる。例えば、誤差逆伝搬法による更新を行う場合、各損失の偏微分ベクトルを逆伝搬させ、更新対象である画像に関する勾配を求めることによって更新量を決定する。
上記ステップS105〜ステップS110の処理は、繰り返し行われる。そして、所定の条件を満たした場合、画像更新部106は、上記の繰り返し処理を終了し(ステップS111)、更新画像を出力する(ステップS112)。
なお、ここでいう所定の条件とは、上記の繰り返し処理が予め定められた回数行われたこと、あるいは、任意の評価方法によって更新画像に対する評価が行われ、その評価結果があらかじめ定められた評価結果であること等である。
以上説明したように、本発明の一実施形態による画像処理装置100は、画像の本質的な特徴を示す特徴ベクトル(品質フィードバックベクトル)を生成して画像品質を評価する。また、画像処理装置100は、画像の符号量と相関を持つ特徴ベクトル(符号量フィードバックベクトル)を生成して画像符号量を評価する。そして、画像処理装置100は、画像品質と画像符号量とを最適化するように画像更新を行う。そして、画像処理装置100は、品質評価において画素単位の比較評価ではなく特徴ベクトルを使用して評価する。また、画像処理装置100は、フィルタリング処理ではなく画素値の更新を行う。これにより、画像処理装置100は、画像のコンテキストやディティールを維持しつつ、各種予測・符号化ツールによって性能よく予測・符号化可能な画像を生成することができる。
上記の構成を備えることにより、本発明の一実施形態による画像処理装置100は、演算コストを抑えつつ、品質と符号量とを調整することができる。
上述した実施形態における画像処理装置100の一部又は全部を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、上述した機能の一部を実現するためのものであっても良く、さらに上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されるものであってもよい。
以上、図面を参照して本発明の実施形態を説明してきたが、上記実施形態は本発明の例示に過ぎず、本発明が上記実施形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び要旨を逸脱しない範囲で構成要素の追加、省略、置換、及びその他の変更を行ってもよい。
100…画像処理装置、101…画像入力部、102…画像記憶部、103…参照特徴マップ生成部、104…参照特徴ベクトル生成部、105…参照特徴ベクトル記憶部、106…画像更新部、107…更新特徴マップ生成部、108…更新特徴ベクトル生成部、109…品質評価部、110…符号量評価部、111…更新量決定部

Claims (6)

  1. 処理対象画像の画素値を更新して新たな画像を生成する画像処理装置であって、
    前記処理対象画像と予め定められた少なくとも1つのフィルタとによって生成された第1の特徴マップに基づいて第1の特徴ベクトルを生成する第1特徴ベクトル生成部と、
    前記処理対象画像を更新し更新画像を生成する画像更新部と、
    前記更新画像と予め定められた少なくとも1つのフィルタとによって生成された第2の特徴マップに基づいて第2の特徴ベクトルを生成する第2特徴ベクトル生成部と、
    前記第1の特徴ベクトルと前記第2の特徴ベクトルとに基づいて前記更新画像の品質評価を行い、前記品質評価の結果に基づくベクトルである品質フィードバックベクトルを生成する品質評価部と、
    前記更新画像に対する符号量評価を行い、前記符号量評価の結果に基づくベクトルである符号量フィードバックベクトルを生成する符号量評価部と、
    前記品質フィードバックベクトルと前記符号量フィードバックベクトルとに基づいて前記更新画像の更新における更新量を決定する更新量決定部と、
    を備える画像処理装置。
  2. 前記第1の特徴マップ及び前記第2の特徴マップのうち少なくとも一方は、複数の前記フィルタによる階層的な畳み込み処理が行われることによって生成される
    請求項1に記載の画像処理装置。
  3. 前記第1の特徴ベクトル及び前記第2の特徴ベクトルのうち少なくとも一方は、前記第1の特徴マップ又は前記第2の特徴マップの統計量に基づいて生成される
    請求項1又は請求項2に記載の画像処理装置。
  4. 前記第1の特徴ベクトル及び前記第2の特徴ベクトルのうち少なくとも一方は、前記第1の特徴マップどうしの相互相関又は前記第2の特徴マップどうしの相互相関に基づいて生成される
    請求項1又は請求項2に記載の画像処理装置。
  5. 処理対象画像の画素値を更新して新たな画像を生成する画像処理装置が行う画像処理方法であって、
    前記処理対象画像と予め定められた少なくとも1つのフィルタとによって生成された第1の特徴マップに基づいて第1の特徴ベクトルを生成する第1特徴ベクトル生成ステップと、
    前記処理対象画像を更新し更新画像を生成する画像更新ステップと、
    前記更新画像と予め定められた少なくとも1つのフィルタとによって生成された第2の特徴マップに基づいて第2の特徴ベクトルを生成する第2特徴ベクトル生成ステップと、
    前記第1の特徴ベクトルと前記第2の特徴ベクトルとに基づいて前記更新画像の品質評価を行い、前記品質評価の結果に基づくベクトルである品質フィードバックベクトルを生成する品質評価ステップと、
    前記更新画像に対する符号量評価を行い、前記符号量評価の結果に基づくベクトルである符号量フィードバックベクトルを生成する符号量評価ステップと、
    前記品質フィードバックベクトルと前記符号量フィードバックベクトルとに基づいて前記更新画像の更新における更新量を決定する更新量決定ステップと、
    を有する画像処理方法。
  6. 請求項1から請求項4のうちいずれか一項に記載の画像処理装置としてコンピュータを機能させるための画像処理プログラム。
JP2018166303A 2018-09-05 2018-09-05 画像処理装置、画像処理方法及び画像処理プログラム Active JP7075012B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018166303A JP7075012B2 (ja) 2018-09-05 2018-09-05 画像処理装置、画像処理方法及び画像処理プログラム
PCT/JP2019/033317 WO2020050089A1 (ja) 2018-09-05 2019-08-26 画像処理装置、画像処理方法及び画像処理プログラム
US17/273,157 US11546588B2 (en) 2018-09-05 2019-08-26 Image processing apparatus, image processing method and image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018166303A JP7075012B2 (ja) 2018-09-05 2018-09-05 画像処理装置、画像処理方法及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2020039087A true JP2020039087A (ja) 2020-03-12
JP7075012B2 JP7075012B2 (ja) 2022-05-25

Family

ID=69722555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018166303A Active JP7075012B2 (ja) 2018-09-05 2018-09-05 画像処理装置、画像処理方法及び画像処理プログラム

Country Status (3)

Country Link
US (1) US11546588B2 (ja)
JP (1) JP7075012B2 (ja)
WO (1) WO2020050089A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180131953A1 (en) * 2015-03-31 2018-05-10 Magic Pony Technology Limited Training end-to-end video processes
WO2018095890A1 (en) * 2016-11-23 2018-05-31 Thomson Licensing Methods and apparatuses for encoding and decoding video based on perceptual metric classification
JP2018516412A (ja) * 2015-06-05 2018-06-21 ソニー株式会社 畳み込みニューラルネットワークに基づいたフルリファレンス画像品質評価方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US10798387B2 (en) * 2016-12-12 2020-10-06 Netflix, Inc. Source-consistent techniques for predicting absolute perceptual video quality
US11113800B2 (en) * 2017-01-18 2021-09-07 Nvidia Corporation Filtering image data using a neural network
US10699160B2 (en) * 2017-08-23 2020-06-30 Samsung Electronics Co., Ltd. Neural network method and apparatus
US11216698B2 (en) * 2018-02-16 2022-01-04 Spirent Communications, Inc. Training a non-reference video scoring system with full reference video scores
US10916003B2 (en) * 2018-03-20 2021-02-09 Uber Technologies, Inc. Image quality scorer machine
US11055819B1 (en) * 2018-09-27 2021-07-06 Amazon Technologies, Inc. DualPath Deep BackProjection Network for super-resolution
US10877540B2 (en) * 2019-10-04 2020-12-29 Intel Corporation Content adaptive display power savings systems and methods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180131953A1 (en) * 2015-03-31 2018-05-10 Magic Pony Technology Limited Training end-to-end video processes
JP2018516412A (ja) * 2015-06-05 2018-06-21 ソニー株式会社 畳み込みニューラルネットワークに基づいたフルリファレンス画像品質評価方法
WO2018095890A1 (en) * 2016-11-23 2018-05-31 Thomson Licensing Methods and apparatuses for encoding and decoding video based on perceptual metric classification

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GATYS, LEON A. ET AL.: "Image Style Transfer Using Convolutional Neural Networks", 2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6019041592, 12 December 2016 (2016-12-12), pages 2414 - 2423, ISSN: 0004607578 *
YANG, RUOZHANG ET AL.: "No-reference image quality assessment based on deep learning method", 2017 IEEE 3RD INFORMATION TECHNOLOGY AND MECHATRONICS ENGINEERING CONFERENCE (ITOEC), JPN6019041593, 1 December 2017 (2017-12-01), pages 476 - 479, ISSN: 0004607579 *

Also Published As

Publication number Publication date
WO2020050089A1 (ja) 2020-03-12
US20210329232A1 (en) 2021-10-21
US11546588B2 (en) 2023-01-03
JP7075012B2 (ja) 2022-05-25

Similar Documents

Publication Publication Date Title
JP7168896B2 (ja) 画像符号化方法、及び画像復号方法
US11335034B2 (en) Systems and methods for image compression at multiple, different bitrates
JP2023532397A (ja) ポストフィルタリングのためのコンテンツ適応型オンライン訓練方法、装置およびコンピュータプログラム
CN116349225B (zh) 视频解码方法和装置、电子设备和存储介质
JP2009503977A (ja) 多次元デジタル信号のフィルタリング方法及び装置、並びに、関連する符号化/復号化方法及び装置
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
JP7434604B2 (ja) ニューラル画像圧縮における画像置換を用いたコンテンツ適応型オンライン訓練
Cui et al. An efficient deep quantized compressed sensing coding framework of natural images
Zhou et al. $\ell_ {2} $ Restoration of $\ell_ {\infty} $-Decoded Images Via Soft-Decision Estimation
CN110730347A (zh) 图像压缩方法、装置及电子设备
JP7141007B2 (ja) 符号化装置、符号化方法及びプログラム
WO2020050089A1 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
Petrov et al. Intra frame compression and video restoration based on conditional markov processes theory
CN115665413A (zh) 图像压缩最优量化参数的估计方法
CN106447610B (zh) 图像重建方法及装置
US20180020217A1 (en) Image encoding apparatus, image decoding apparatus, and control methods therefor
WO2020050075A1 (ja) 符号量推定装置、符号量推定方法及び符号量推定プログラム
US20210377523A1 (en) Encoding device, encoding method, decoding device, and decoding method
JP4784386B2 (ja) 復号化装置、逆量子化方法及びプログラム
JP2016082395A (ja) 符号化装置、符号化方法及びプログラム
JP3299073B2 (ja) 量子化装置及び量子化方法
JP2019205010A (ja) 符号化装置、画像補間システム及び符号化プログラム
US20220321879A1 (en) Processing image data
JP7406208B2 (ja) 符号化装置、符号化方法及びプログラム
Presta et al. STanH: Parametric Quantization for Variable Rate Learned Image Compression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220425

R150 Certificate of patent or registration of utility model

Ref document number: 7075012

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150