JP2017158183A - 画像処理装置 - Google Patents

画像処理装置 Download PDF

Info

Publication number
JP2017158183A
JP2017158183A JP2017034786A JP2017034786A JP2017158183A JP 2017158183 A JP2017158183 A JP 2017158183A JP 2017034786 A JP2017034786 A JP 2017034786A JP 2017034786 A JP2017034786 A JP 2017034786A JP 2017158183 A JP2017158183 A JP 2017158183A
Authority
JP
Japan
Prior art keywords
quantization
image
quantization coefficient
coefficient
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017034786A
Other languages
English (en)
Inventor
ジーン チョン
Gene Cheung
ジーン チョン
シャミング リュー
Xiaming Liu
シャミング リュー
チャウェン リン
Jiawen Lin
チャウェン リン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Research Organization of Information and Systems
National Tsing Hua University NTHU
Original Assignee
Peking University
Research Organization of Information and Systems
National Tsing Hua University NTHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Research Organization of Information and Systems, National Tsing Hua University NTHU filed Critical Peking University
Publication of JP2017158183A publication Critical patent/JP2017158183A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/007Transform coding, e.g. discrete cosine transform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding

Abstract

【課題】高い圧縮率を実現しつつ、復号時にユーザにとって許容できる画質を保証すること。【解決手段】本発明にかかるクラウドレット20は、入力画像P1を第1の量子化幅(q)に基づき量子化した第1の量子化係数(a)から当該第1の量子化幅より広い第2の量子化幅(Q)に基づき量子化した第2の量子化係数(b)について、第1の量子化係数への逆写像を行う粗密変換部22を備える。粗密変換部22は、第2の量子化幅の範囲内の第1の量子化係数の候補の中から、事前確率(prior probability)に基づく量子化セル量が最大となる量子化係数を選択して、第1の量子化係数として逆写像を行う。【選択図】図4

Description

本発明は、画像処理装置に関し、特に、トランスコーディングされた圧縮画像を処理するための画像処理装置に関する。
近年、ソーシャルメディアサイトや写真共有サイトが普及し、増加するユーザにより日々、大量の画像データがアップロードされている。そのため、このようなサイトを運営する事業者は、アップロード画像を高速かつ大量に保存することが求められる。
しかしながら、生成される情報にヒープは成長するにもかかわらず人間に与えられた時間や関心は、限られたリソースといえる(非特許文献1)。そのため、実際にアクセスされ、ユーザに閲覧される画像は、大量に保存された画像の中のほんの一部である。つまり、ユーザによりアップロードされる画像の量とユーザによりダウンロード(アクセスされて閲覧)される画像の量とは非対称の関係がある。そのため、サイト運営者のためにストレージ全体のコストを最小化するための方法が必要とされている。
ここで、非特許文献2には、スパース信号(sparse signal)やスパース性モデル(sparsity model)に関する技術が開示されている。非特許文献3及び4には、逆量子化に関する技術が開示されている。
また、クラウドストレージについての画像圧縮に関する技術は、例えば、非特許文献5〜8に開示されている。非特許文献5には、SIFTディスクリプタを介した大規模画像データベースから画像を再構成する技術が開示されている。非特許文献6には、画像間の相関を分析及び探索する画素値よりむしろローカルな特徴を探索することにより、写真アルバムを圧縮するための改良された技術が開示されている。
非特許文献7には、新規なクラウドベース分配画像コーディングスキームに関する技術が開示されている。
また、非特許文献8には、JBIGに関する技術が開示されている。
ここで、特許文献1には、圧縮データの圧縮度を向上させるためのJPEG画像のトランスコーディングに関する技術が開示されている。また、特許文献2には、画像データをパケットデータとして取扱い、リアルタイムに画像データをメモリの記憶容量以内のデータ量として圧縮するための画像処理装置に関する技術が開示されている。
特表2006−501736号公報 特開2003−244446号公報
D. J. Levitin, The Organized Mind: Thinking Straight in the Age of Information Overload, Penguin, 2014. M. Elad, M.A.T. Figueiredo, and Y. Ma, "On the role of sparse and redundant representations in image processing," Proc. IEEE, vol. 98, no. 6, pp. 972-982, June 2010. X. Liu, G. Cheung, X. Wu, and D. Zhao, "Inter-block soft decoding of JPEG images with sparsity and graphsignal smoothness priors," in IEEE International Conference on Image Processing, Quebec City, Canada, September 2015. X. Liu, X. Wu, J. Zhou, and D. Zhao, "Data-driven sparsity-based restoration of JPEG-compressed images in dual transform-pixel domain," in IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. H. Yue, X. Sun, J. Yang, and F. Wu, "Cloud-based image coding for mobile devices-toward thousands to one compression," IEEE Trans. Multimedia, vol. 15, no. 4, pp. 845-857, June 2013. Z. Shi, X. Sun, and F. Wu, "Photo album compression for cloud storage using local features," IEEE J. Emerg. Sel. Topic Circuits Syst., vol. 4, no. 1, pp. 17-28, Mar. 2014. X. Song, X. Peng, J. Xu, G. Shi, and F. Wu, "Cloud based distributed image coding," IEEE Trans. Circuits Syst. Video Technol., vol. 26, no. 6, pp. 1-1, June 2016. F. Ono, W. Rucklidge, R. Arps, and C. Constantinescu, "JBIG2-the ultimate bi-level image coding standard," in IEEE International Conference on Image Processing, Vancouver, Canada, September 2000. Xianming Liu, Gene Cheung, Xiaolin Wu, Debin Zhao, "Random Walk Graph Laplacian based Smoothness Prior for Soft Decoding of JPEG Images," accepted to IEEE Transactions on Image Processing, October 2016. (arXiv) M. Elad and M. Aharon, "Image denoising via sparse and redundant representation over learned dictionaries," in IEEE Transactions on Image Processing, vol. 15, no.12, December 2006. J. Pang, G. Cheung, W. Hu, and O. C. Au, "Redefining self-similarity in natural images for denoising using graph signal gradient," in APSIPA ASC, Siem Reap, Cambodia, December 2014. A. Gersho and R. M. Gray, Vector Quantization and Signal Compression. Norwell, MA, USA: Kluwer Academic Publishers, 1991. L. Y. Wei and M. Levoy, "Fast texture synthesis using tree-structured vector quantization," in SIGGRAPH ’00: Proceedings of the 27th annual conference on Computer graphics and interactive techniques. New York, NY, USA: ACM Press/Addison-Wesley Publishing Co., 2000, pp. 479-488. [Online]. Available: http://dx.doi.org/10.1145/344779.345009 K. Ramchandran and M. Vetterli, "Best wavelet packet bases in a rate- distortion sense," IEEE Transactions on Image Processing, vol. 2, no. 2, pp. 160-175, Apr 1993.
ここで、上述した特許文献1等におけるトランスコーディングでは、復号時に粗量子化ビンインデクス(2回目の量子化による量子化係数)から密量子化ビンインデクス(1回目の量子化による量子化係数)への逆写像が困難であるという問題(量子化ビンマッチング(QBM、quantization bin matching)問題)がある。
尚、非特許文献5から8に記載の技術は、ユーザによりアップロードされたオリジナル画像の正確な回復を保証できない。
本発明は、このような問題点を解決するためになされたものであり、高い圧縮率を実現しつつ、復号時にユーザにとって許容できる画質を保証するための画像処理システムを提供することを目的とする。
本発明の第1の態様にかかる画像処理装置は、
入力画像を第1の量子化幅に基づき量子化した第1の量子化係数から当該第1の量子化幅より広い第2の量子化幅に基づき量子化した第2の量子化係数について、前記第1の量子化係数への逆写像を行う逆写像部を備え、
前記逆写像部は、
前記第2の量子化幅の範囲内の前記第1の量子化係数の候補の中から、事前確率(prior probability)に基づく量子化セル量が最大となる量子化係数を選択して、前記第1の量子化係数として前記逆写像を行う。
本発明の第2の態様にかかる画像処理装置は、
複数の画像の特徴量の分布から複数のクラスタに分類した過完備辞書(over-complete dictionary)と、
前記特徴量の分布をグラフ化し、前記複数のクラスタに分類した散在(sparse)グラフテンプレートと、
前記複数の画像から前記過完備辞書と前記散在グラフテンプレートとを学習する学習部と、
入力画像を第1の量子化幅に基づき量子化した第1の量子化係数を含む符号化画像について、前記第1の量子化係数から、前記第1の量子化幅より広い第2の量子化幅に基づき量子化した第2の量子化係数へ再符号化する再符号化部と、
前記第2の量子化係数について、前記過完備辞書と前記散在グラフテンプレートとを用いて、前記第1の量子化係数への逆写像を行う逆写像部と、を備え、
前記学習部は、
前記複数の画像から抽出された複数のブロック画像について、TSVQ(Tree-Structured Vector Quantization)により複数のクラスタに分類して二分木を構築し、
前記分類された各クラスタに対してクラスタインデクスのオフセットが減少するように、前記二分木のノードを入れ替え、
前記入れ替え後の前記二分木に対してレート歪みを最適化するように枝刈りを行い、
前記枝刈り後の前記二分木に対して前記過完備辞書と前記散在グラフテンプレートとを学習し、
前記再符号化部は、
再符号化時に、前記入力画像が前記学習後の前記過完備辞書及び前記散在グラフテンプレートのクラスタのいずれに該当するかを判別したクラスタインデクスを、前記第2の量子化係数に対応付けて記憶装置に格納し、
前記逆写像部は、
前記第2の量子化係数に対応付けられた前記クラスタインデクスに基づき前記過完備辞書及び前記散在グラフテンプレート内のクラスタを特定し、当該特定したクラスタを用いて前記逆写像を行う。
本発明により、高い圧縮率を実現しつつ、復号時にユーザにとって許容できる画質を保証するための画像処理システムを提供することができる。
本発明の実施の形態1にかかるクラウドストレージシステムの全体構成を示すブロック図である。 本発明の実施の形態1にかかる画像アップロード時の流れを説明するためのシーケンス図である。 本発明の実施の形態1にかかる画像ダウンロード時の流れを説明するためのシーケンス図である。 本発明の実施の形態1にかかるQBMの解法の概念を説明するための図である。 本発明の実施の形態1にかかる粗密変換処理(量子化ビンマッチング)の流れを説明するためのフローチャートである。 本発明の実施の形態1にかかる圧縮利得の例を示す図である。 本発明の実施の形態1にかかるレート歪み性能圧縮の例を示す図である。 本発明の実施の形態1にかかるレート歪み性能圧縮の例を示す図である。 本発明の実施の形態1にかかるレート歪み性能圧縮の例を示す図である。 本発明の実施の形態2にかかるブロック内の画素に対する密量子化と粗量子化の関係を説明するための図である。 本発明の実施の形態3にかかる画像処理システムの全体構成を示すブロック図である。 本発明の実施の形態3にかかる粗密変換処理の流れを説明するためのフローチャートである。 本発明の実施の形態3にかかるBag of Visual Words(BoVW)を利用する場合の概念を示す図である。 本発明の実施の形態3にかかるある画像における特徴量の分布の例を示す図である。 本発明の実施の形態4にかかるクラウドストレージシステムの全体構成を示すブロック図である。 本発明の実施の形態4にかかるオフライントレーニングの流れを説明するための図である。 本発明の実施の形態4にかかる散在グラフテンプレートの例を示す図である。 本発明の実施の形態4にかかるオフライントレーニングで生成されるツリーの概念を説明するための図である。 部分空間の検索を説明するための図である。 二分木のノードの入れ替えを説明するための図である。 ビット割当前後のインデクスオフセットの確率分布の比較を示す図である。 微分カウンタの概念を説明するための図である。 本発明の実施の形態4にかかるコードブック設計アルゴリズムの例を示す図である。
以下では、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。
<実施形態1>
図1は、本発明の実施の形態1にかかるクラウドストレージシステムの全体構成を示すブロック図である。クラウドストレージシステムは、ユーザ端末11、12等と、クラウドレット20と、クラウドストレージ30とを備える。ユーザ端末11等は、ネットワーク(不図示)を介してクラウドレット20と接続されている。
ユーザ端末11は、ユーザU1が操作する情報処理端末であり、例えば、携帯電話機、スマートフォン、タブレット端末、PC等である。ユーザ端末11は、画像符号化部111と、画像復号化部112とを備える。画像符号化部111は、カメラ等により撮影された入力画像P1について量子化パラメータ(quantization parameters (QP))qを用いてJPEGの符号化を行い、符号化画像P2を生成する。つまり、符号化画像P2は、入力画像P1に対する圧縮データである。ここで、ユーザ端末11は、符号化画像P2をクラウドレット20へアップロードすることができる。画像復号化部112は、JPEGで符号化された画像を表示用に復号化する。
ユーザ端末12は、ユーザU2が操作する情報処理端末である。ユーザ端末12は、ユーザ端末11と同等の構成である画像符号化部121及び画像復号化部122を備える。ユーザ端末12は、クラウドレット20からJPEGで符号化された画像である復元符号化画像P4をダウンロードした場合に、量子化パラメータqを用いてJPEGの復号化を行い、復号画像P5として出力(表示等)する。
クラウドレット20は、1以上のコンピュータ装置により実現されたクラウドサーバである。クラウドレット20は、ネットワークを介してユーザ端末11等と、クラウドストレージ30と接続されている。クラウドレット20は、再符号化部21と、粗密変換部22と、辞書DB23とを備える。辞書DB23は、復号時に参照する情報が格納されたデータベースである。
再符号化部21は、符号化画像P2に対して、QP qより粗い(幅の広い)Qを用いて再符号化を行い、再符号化画像P3を生成する。そして、クラウドレット20は、再符号化画像P3をクラウドストレージ30へ送信し、保存する。
粗密変換部22は、逆写像部の一例であり、ユーザ端末12からの画像の要求に応じてクラウドストレージ30から再符号化画像P3を取得し、辞書DB23に基づき再符号化画像P3に対して粗密変換(量子化ビンマッチング)により復元符号化画像P4に復元し、ユーザ端末12へ返信する。
クラウドストレージ30は、複数の永続型のストレージ31〜3nを備えたクラウド型のストレージであり、セントラルクラウドとも呼ばれる。クラウドストレージ30は、ネットワークを介してクラウドレット20と接続される。例えば、ストレージ31には、上述した再符号化画像P3が格納される。
図2は、本発明の実施の形態1にかかる画像アップロード時の流れを説明するためのシーケンス図である。まず、ユーザ端末11は、入力画像P1についてQP qを用いてJPEGの符号化を行い、符号化画像P2を生成する(S101)。具体的には、画像符号化部111は、入力画像P1についてDCT(Discrete Cosine Transform)によりDCT係数へ変換する。次に、画像符号化部111は、量子化パラメータ(QP)qを用いて量子化を行い、DCT係数から量子化係数へ変換する。すなわち、画像符号化部111は、Nピクセルのコードブロックmごとに、QP q = [q1, ... , qN]を用いて量子化インデクス集合a(m) = [a1(m), ... , aN(m)]を計算する。尚、以降では、a(m)を「密(fine)量子化ビンインデクスa」と表現する場合がある。そして、画像符号化部111は、量子化係数に対してエントロピー符号化により符号データに変換する。つまり、符号化画像P2には、密量子化ビンインデクスaが含まれている。尚、「量子化パラメータ」は、「量子化テーブル」や「量子化の幅」と呼ぶことができるものとする。
そして、ユーザ端末11は、符号化画像P2(密量子化ビンインデクスa)をクラウドレット20へアップロードする(S102)。クラウドレット20の再符号化部21は、受信した符号化画像P2に対してQP Qを用いてJPEG再符号化を行い、再符号化画像P3に変換する(S103)。具体的には、再符号化部21は、コードブロックmごとに、各a(m)をQP Q = [Q1, ... ,QN]を用いて、対応する量子化インデクス集合b(m)= [b1(m), ... , bN(m)]へ写像し、順番に再符号化する。ここで、QP Qは、上述したqよりも粗い(coarser)、つまり、量子化の幅が広いものとする。言い換えると、QP qは、Qよりも精細(fine)、つまり、量子化の幅が狭い。尚、以降では、b(m)を「粗(coarse)量子化ビンインデクスb」と表現する場合がある。また、JPEG再符号化には、例えば、特許文献1の手法を用いることもできる。
ここで、a(m)からb(m)への写像は、一意でなくてよい。例えば、再符号化部21は、各画素の量子化係数を再符号化する際に、一旦、QP Qで量子化した後に、復号を行い、可逆変換が行えることを確認できた場合に、実際に、当該画素の再符号化を行い、可逆変換とならない場合には、QP qのままとする。このとき、オリジナル信号を見積もるために、例えば、非特許文献3の逆量子化処理を用いることができる。つまり、粗量子化ビンインデクスbは、一部が粗いQP Qで量子化(再符号化)されているが、残りは精細なQP qで量子化されたままである。
その後、クラウドレット20は、再符号化画像P3(粗量子化ビンインデクスb)をクラウドストレージ30へ保存する(S104)。
図3は、本発明の実施の形態1にかかる画像ダウンロード時の流れを説明するためのシーケンス図である。ここでは、既に図2の処理によりクラウドストレージ30に再符号化画像P3が保存済みとする。
まず、ユーザ端末12は、ユーザU2の操作により入力画像P1に相当する画像の要求をクラウドレット20へ送信する(S201)。続いて、クラウドレット20は、クラウドストレージ30に対して再符号化画像P3の検索を行う(S202)。そして、クラウドレット20は、クラウドストレージ30から画像の検索結果として再符号化画像P3(粗量子化ビンインデクスb)を取得する(S203)。
ここで、クラウドレット20の粗密変換部22は、辞書DB23を参照し、各b(m)をa(m)へ戻す変換である逆写像を実行し、つまり、粗密変換により復元符号化画像P4(密量子化ビンインデクスa)に復元する(S204)。すなわち、粗いQP Qからより精細なQP qに戻される。そして、粗密変換部22は、復元符号化画像P4をユーザ端末12へ送信する。つまり、ユーザ端末12は、復元符号化画像P4をダウンロードする(S205)。その後、ユーザ端末12の画像復号化部122は、復元符号化画像P4に対して量子化パラメータqを用いてJPEGの復号化を行う(S206)。これにより、ユーザ端末12は、復号画像P5を表示等できる。
このように本発明の実施の形態1は、全画像を保存することによるストレージコストと、全画像のほんの一部を復号(逆写像)するための演算コストとのトレードオフにより、効果的となるクラウドストレージシステムといえる。つまり、まず、永続的ストレージには、アップロードされたJPEG画像を粗い量子化パラメータ(QP)を用いて再符号化した再符号化画像を保存することで、ストレージコストを削減する。そして、要求画像については、再符号化画像を粗量子化ビンインデクスから密量子化ビンインデクスへの逆写像を行うことで、ユーザ端末側では通常の復号を行わせる。このとき、再符号化画像の逆写像処理には、通常より演算コストがかかるが、上述したように、保存を要求される画像は大量であるが、実際に閲覧を要求される画像はほんの一部である。よって、復号時の演算コストをかけたとしてもストレージコストを削減できることの意義は大きいといえる。
そして、ユーザ側の視点に立てば、最終的に復号化され表示された画像は、当初アップロードされたものと同じレベルの密量子化ビンインデクスの画像といえる。つまり、人間の目により区別がつかないビジュアル品質を維持しており、典型的なクラウドストレージと同等のサービスレベルを提供できる。一方、運営者(オペレータ)側の視点に立てば、保存前の再符号化によって、当初よりも粗い粗量子化ビンインデクスの画像を保存できるため、通常より高い圧縮利得及びより低いストレージコストという結果をもたらす。
但し、上述したようにQP Qは、QP qよりも粗い(すなわち、Qiはqiより大きい)ので、bi(m)はai(m)よりもゼロである可能性が高い。すなわち、ai(m)で0以外だった量子化係数が、bi(m)では0となるものがある。そのため、画像が要求された場合に、クラウドレットにおいて粗量子化ビンインデクスから密量子化ビンインデクスへの逆写像をより精度良く行う必要がある。このことを、量子化ビンマッチング問題(quantization bin matching (QBM) problem)と呼ぶ。
本実施の形態では、後述する最大事後確率(maximum a posteriori(MAP))公式を介して粗量子化ビンインデクスから密量子化ビンインデクスへの逆写像を行い、そのために信号スパース性モデル(signal sparsity prior)を有効活用する。
ここで、信号スパース性モデル(非特許文献2)を仮定すると、辞書のスパース線形結合(sparse linear combination)により良く近似される信号がより可能性が高く、固定サイズNピクセルのコードブロックのそれぞれについて、N個の粗量子化ビンインデクスが与えられる周波数領域内の最も確からしいN個の密量子化ビンインデクスを見つけ出すための最大事後確率(maximum a posteriori(MAP))問題を公式化する。
この公式は、所与のN次元量子化セル上での事前分布の統合を要求し、過去の逆量子化研究よりも量子化セル内の単独で最も可能性の高い信号が探索される事前分布統合を近似する速いアルゴリズムを提案するものである。
よって、本実施の形態では、入力画像が十分に復元できることを保証するために以下を考慮して設計される。
1)各ブロックmについて元の密量子化ビンインデクスa(m)が正確に復元されること
2)復元画像がピーク信号対雑音比(Peak signal-to-noise ratio(PSNR))内の入力圧縮画像に非常に近いために、ユーザにとって視覚的に見分けがつかないこと
そのため、オリジナルのQP qよりも粗いQP Qについて、入力画像がよく復元されるような逆写像f(b)を設計することを目的とする。ここで、QP Qを用いて再符号化される画像内の充分大きなブロックの一部について、逆写像が可能であることのみが要求され、残りのブロックはQP qを用いて変更されない。JBIGでロスレス符号化される小さなバイナリ画像は、ブロックがQを用いて再量子化されるデコーダを通知するために追加的に符号化される。以降では、粗いQP Qから密なQP qへの量子化ビンマッチング問題について検討する。
(量子化セルに関するMAP公式)
前提として、Xiは、ターゲットコードブロックxのグランドトゥルース(ground-truth)のi番目のDCT係数を表す。そして、aiは、以下の式(1)に示すように、XiをQP qiを用いて量子化した量子化係数(密量子化ビンインデクス)である。
従って、ai及びqiを備えるデコーダにおいて、Xiが間隔I(ai, qi) = [(ai - 0.5)qi, (ai + 0.5)qi)の範囲に存在しなければならない。また、biは、再符号化画像内のXiについてQP Qi(Qiはqi以上)を用いて量子化した量子化係数(粗量子化ビンインデクス)である。従って、再符号化後のXiは、より大きな間隔I(bi, Qi) = [(bi -0.5)Qi, (bi + 0.5)Qi)の範囲に存在しなければならない。なぜならば、オリジナル符号化内の間隔I(ai, qi)及び再符号化内の間隔I(ai, Qi)の両方に同じXiに含まれるため、それらは重複するためである。
従って、逆写像f : bi → aiを実行する時、式(2)に示す、実現可能なビン集合Fbiを検討する必要がある。
続いて、P(Xi)は、Xiの事前確率(prior probability)とする。最大事後確率(maximum a posteriori(MAP))公式は、以下の式(3)及び式(4)に基づき、離散集合Fbi内の最も確からしいビン^aiを探索する。
ここで、
である。
一次元でのQBM問題のMAP公式が図4に示される。図4は、本発明の実施の形態1にかかるQBMの解法の概念を説明するための図である。幅Qの粗量子化ビンと重複する幅qの3つの密量子化ビン(A,B,C)の中から最大集計確率(largest aggregate probability)(P(Xi|bi)の積分値)の一つを選択する。これは、非特許文献3のような典型的な逆量子化研究とは異なり、量子化ビン内の最も可能性の高い信号についてのMAP公式は、ビンの範囲内でP(Xi|bi)のピーク位置へ簡潔に導く。
ここで、N次元の事前確率P(X)と共にブロックx内のN個のDCT係数Xの全てを考えると、以下の式(5)に示す、より一般的なMAP最適化問題を定式化できる。
ここで、
である。
以下の式(7)は、多次元の積分を示す式(5)をより簡潔な形式で書き直したものである。
ここで、P ̄a(X|b)は、a(すなわち、I(ai, qi); i = 1, ... , N)により定義される量子化セルCa内の確率P(X|b)の集計である。式(7)を解くための課題は、P(X)を適切に定義する方法、P ̄a(X|b)を効率的かつ正確に計算する方法である。
(事前確率P(X)の定義)
続いて、事前確率P(X)を定義するためのスパースモデル(非特許文献2)を仮定する。具体的には、kスパースの信号モデルは、画素領域内のN次元信号xが過完備辞書(over-complete dictionary)Φからのk又は少ない原子(最小単位)の線形結合により十分に近似されることである。
ここで、モデルエラーεは小さい。本実施の形態では、機械学習駆動方法内でPCA経由で適応辞書を学習する。
式(8)の両辺にDCT演算子Τを適用することにより、式(9)が得られる。
ここで、Ψ=ΤΦである。それ故、Xのスパース性は、Φに関してxのスパース性により測定され得る。
このモデルが与えられ、同時確率分布P(X)は、式(10)として表され得る。
ここで、σは、モデルパラメータである。L0ノルムからL1ノルムへさらに緩和する。
最後に、目的関数は、式(11)として書き換えられ得る。
上述したように、QBM問題は、大抵、画像逆量子化(非特許文献3及び4)で行われるシングルベストスパース解(sparse solution)よりむしろ、その境界内で最大かつ最もスパースな解を用いて量子化セルを見出すこととして再公式化できる。
(最適化)
上述した式(11)の目的関数を直接最適化することは困難である。そこで、量子化セル内の全ての可能なスパース解について検索する代わりに、代表としてシングルベストスパース解を見つけ出し、セルのボリュームによる解(解のスパースカウントの指数関数)の事前確率値を乗ずる。これは、式(11)の多次元統合の近似値であり、本質的に、セルボリュームが大きくなるほど、より確からしい発見されたもののような、それ故に、より大きな集計確率の他のスパース解を見つけ出す。インデクスされた粗量子化セルb内の初期スパース解を見つける問題を式(12)に示す。
スパース解αに関する最適化は、拡張ラグランジュ法(Augmented Lagrangian Methods (ALM))として知られる速いL1最小化アルゴリズムにより効果的かつ効率的に解かれる。
式(13)のような本スパース解を含む密量子化セルaを同定する。
同定された密量子化セルaが(例えば、図4のセルA及びCのように)粗量子化セルbと部分的にのみ重複する場合、セルボリュームが小さいため、その集計確率は小さい。他の解の候補をテストするために、式(12)を介して密な隣接の量子化セルについて、スパース解について検索する。これらのセルの中で、(セル内の同定されたスパース解の)信号モデルとセルボリュームの乗算結果のうち最大であるものが、最終的な解として選択される。
図5は、本発明の実施の形態1にかかる粗密変換処理(図3のS204)の流れを説明するためのフローチャートである。まず、事前に、クラウドレット20は、8x8ブロックについて辞書を学習しておくものとする。
次に、粗密変換部22は、式(12)を用いて、粗量子化ビンインデクス内で最もスパースな解の結果を探索する(S302)。すなわち、粗密変換部22は、粗量子ビンインデクスbiの範囲内の複数の候補範囲(A,B,C)それぞれについて、最もスパースな解を探索する。図4の場合、x3、x4、x6が求まる。
そして、粗密変換部22は、P(X|a)を推定する(S303)。つまり、Aの中で最大のP(x3)を算出する。そして、Aの幅(x4−x2)に、P(x3)を乗じて量子化セルAの量を算出する。同様に、Bについては、Bの幅(x5−x4)に最大値P(x4)を乗じて量子化セルBの量を算出する。Cについては、Cの幅(x6−x5)に最大値P(x6)を乗じて量子化セルCの量を算出する。
その後、粗密変換部22は、隣接量子化セル(A,B,C)の間で量子化セル量を比較して、QP qの密量子化ビンインデクスa*を特定する。図4では、Bが特定される。尚、上述した通り、図4は、一次元の場合を示しており、より一般的には、8x8ブロックにおける64次元があり得る。
(実験結果)
本実施の形態の有効性を実証するための次の実験を行った。まず、周知のコダックデータセットを用いた。5つの画像が辞書学習用のデータを学習(training)するようにランダムに選択され、残りはテスト画像として使用される。
JPEG符号化での品質要素(quality factor (QF))は、量子化マトリクスの集合から一つを選択することにより、圧縮後に画像の相対的なビジュアル品質を1から100の範囲で示す。実験では、粗いQFは異なる画像について50及び55から選択されるが、JPEG符号化の精細なQFは80で固定される。
ここで、第1の設計目的は、オリジナルアップロードバージョンとしての密量子化ビンインデクスの正確な回復を保証することである。この場合、正確なビンインデクスの回復は、質的にロスがないことを意味する。それ故に、ビット節約(bit saving)について報告する。尚、ビット節約は、正確なビンインデクス回復を保証できる粗いQFを有する画像ブロックの一部を再符号化することにより達成される。
図6は、本発明の実施の形態1にかかる圧縮利得の例を示す図である。図6では、精細なQF及び粗いQF、再符号化されるために選択されたブロックの割合、及び、8つのテスト画像における本手法の純粋な圧縮利得を表にしたものである。テスト画像について、42.18%以下のブロックは、粗いQFを使用する追加の圧縮のために選択され、14.19%以下のビット節約という結果が示された。
第2の代替案の設計目的は、人間の目には見わけがつかないほど、質的に非常に近いアップロード画像の回復を保証することである。これを達成するために、回復された及び入力の密量子化ビンインデクス間の違いを許可することにより、「正確なビンマッチング」を緩和する。差分のレベルは、ブロックレベルビンエラーの合計により計測される。本実験では、エラーの合計が0,2,3,4,5及び6である6ケースをテストする。
図7はLighthouse、図8はAhoy、図9はAirplaneの3テスト画像でJPEGを用いた本発明の実施の形態1にかかるレート歪み性能圧縮を示す。6ケースのPSNRロスは0.13dB以内である。そのような小さなPSNRロスは典型的には、視覚的な違いがないといえる。つまり、結果として、本手法のJPEGの効率が良いことを示す。
さらに、非常にわずかなPSNRの費用で、視覚的に見分けがつかない再構成オプションは、正確なビンインデクス回復のケースと比較して、充分に高いビット節約を達成する。例として6のエラー合計を用いて、本手法は、Lighthouse、Ahoy及びAirplaneのそれぞれについて、図6に示される3.32%、2.01%及び14.19%とは対照的に、16.71%、12.82%及び20.7%のビット節約を達成する。つまり、充分なストレージの節約を実現できるといえる。
以上のことから、本実施の形態では、大量のアップロード画像を保存するためのストレージコストと、少数の要求画像を粗密変換することの計算コストとをトレードオフするJPEG画像に関するクラウドストレージシステムを提案した。具体的には、予めユーザ端末において量子化パラメータ(QP)qを用いて量子化された符号化画像に対して、より粗いQP Qを用いて再符号化してストレージに保存しておく。これにより、ストレージコストを低減できる。その上で、画像の取得要求に応じて、上述した粗密変換(量子化ビンマッチング)により粗量子化ビンインデクスから密量子化ビンインデクスへ復元を行うものである。これにより、ユーザにとっては、視覚的に違和感の少ない画像品質を維持できる。
ここで、本実施の形態は、次のように表現することもできる。すなわち、入力画像P1を第1の量子化幅(QP q)に基づき量子化した第1の量子化係数(密量子化ビンインデクスa)から当該第1の量子化幅より広い第2の量子化幅(QP Q)に基づき量子化した第2の量子化係数(粗量子化ビンインデクスb)について、前記第1の量子化係数への逆写像を行う逆写像部を備える画像処理装置である。特に、前記逆写像部は、前記第2の量子化幅の範囲内の前記第1の量子化係数の候補の中から、(例えば、対象画素のDCT係数Xiの)事前確率(prior probability)に基づく量子化セル量が最大となる量子化係数を選択して、前記第1の量子化係数として前記逆写像を行うものである。つまり、逆写像部は、図4に示すようにQP Qの幅(x6−x2)の範囲内の密量子化ビンインデクスの候補(A,B及びCのそれぞれに属する密量子化ビンインデクス)の中から、P(X)と各候補の幅(Aの場合、x4−x2、Bの場合、x5−x4、Cの場合、x6−x5)とから量子化セル量(A,B,CのそれぞれのP(X)の積分値相当)を求め、各量子化セル量の中で最大のものを逆写像後の密量子化ビンインデクスとする。
また、前記逆写像部は、前記事前確率を定義するスパース性モデル(sparsity model)に基づいて前記第1の量子化係数を近似して前記逆写像を行う。
さらに、前記逆写像部は、前記第2の量子化幅の範囲内の前記第1の量子化係数の範囲のうち前記事前確率の最大値を前記候補ごとに探索し、当該最大値と前記第1の量子化係数の範囲とに基づいて前記量子化セル量を算出し、前記候補の間で前記量子化セル量を比較することにより、前記量子化セル量が最大となる量子化係数を選択する。つまり、逆写像部は、密量子化ビンインデクスの候補A,B及びCのそれぞれについてP(X)の最大値を算出し、P(X)の最大値とA,B及びCの幅との積(面積)を算出し、それらを比較することで、最大のものを選択するものである。
<実施形態2>
続いて、上述した実施形態1の変形例である実施形態2について説明する。実施形態1では、再符号化部21における再符号化(トランスコーディング)の際に、一旦、QP Qを用いて変換した上で、元の符号に復元できるかをシミュレーションし、可逆変換が保証された場合のみQP Qによる再符号化を行う。また、実施形態1では、1画素単位に再符号化を行っていたため、処理効率及び圧縮効率に改善の余地があった。
そこで、本実施形態2では、再符号化の対象画素を1画素置きとする。つまり、1ブロックの画素について、密量子化と粗量子化とが交互になるようにする。図10は、本発明の実施の形態2にかかるブロック内の画素に対する密量子化と粗量子化の関係を説明するための図である。図10の上部で示すように、再符号化の際に、密量子化ビンインデクス(fine)と粗量子化ビンインデクス(coarse)の画素が交互に配置されていることを示す。特に、本実施形態2にかかる再符号化部21は、破線で囲んだように4画素を一単位とし、図10の下部で示すように、右下の画素(4)について再符号化した場合に、隣接する3画素(1,2,3)を用いて粗密変換をすることで、可逆変換が保証されるかを判定するものである。また、右下の画素(4)の上の画素(2)と左の画素(3)とは、密量子化ビンインデクス(fine)のままであり、再符号化されておらず情報量が保持されている。また、右下の画素(4)と左上の画素(1)とは、粗量子化ビンインデクス(coarse)となり得ることを示す。
そのため、再符号化部21は、少なくとも上の画素(2)と左の画素(3)の2画素を用いて可逆変換の保証を判定することにより、右下の画素(4)の再符号化の可否を判定し、粗密変換部22は、上の画素(2)と左の画素(3)の2画素を加味して右下の画素(4)の逆写像を行うことが望ましい。これにより、実施形態1と比べて、可逆変換の精度が向上し、結果として、再符号化ができる確率が上がり、圧縮率が向上する。
さらに、上記に加え、再符号化部21及び粗密変換部22は、左上の画素(1)を加味して、右下の画素(4)の再符号化の可否判定及び逆写像を行うとよい。これにより、上記よりさらに可逆変換の精度及び圧縮率が向上する。
また、本実施形態2では、上述したように4画素単位で可逆変換の保証を判定することから、クラウドレット20による事前の辞書学習について、16x16ブロックについて行うものとする。
また、本実施形態2では、粗密変換処理において、図5のステップS302の際に、以下の式(14)を用いることとなる。
つまり、制約条件として、密量子化と粗量子化とが交互になった4画素を対象とすることになる。このように、4画素を対象とすることで粗密変換(量子化ビンマッチング)の際に、並列に復号処理を行うことで、粗密変換処理を効率化できる。
ここで、本実施の形態は、次のように表現することもできる。すなわち、前記第1の量子化係数を含む符号化画像P2について、前記第1の量子化係数と前記第2の量子化係数とが交互になるように再符号化を行う(図10)ことにより再符号化画像へ変換する再符号化部をさらに備える。そして、前記逆写像部は、前記再符号化画像内の前記第2の量子化係数(画素(4)の粗量子化ビンインデクス)に対して、当該第2の量子化係数と隣接する画素の前記第1の量子化係数(画素(2,3)の密量子化ビンインデクス)を用いて、前記逆写像を行う。
さらに、前記逆写像部は、前記隣接する画素と隣接する画素の前記第2の量子化係数(画素(1)の粗量子化ビンインデクス)をさらに用いて、前記逆写像を行う。
<実施形態3>
続いて、上述した実施形態1又は2の変形例である実施形態3について説明する。本実施形態3では、複数の種類の辞書を用いるものである。図11は、本発明の実施の形態3にかかる画像処理システムの全体構成を示すブロック図である。本発明の実施の形態3では、図1と比べてクラウドレット20がクラウドレット20aに置き換わり、ストレージ31に再符号化画像P3と対応付けられたクラスタインデクス311が保存されるものである。クラウドレット20aは、再符号化部21aと粗密変換部22aと辞書DB23aとを備える。
辞書DB23aは、複数のテスト画像の特徴量に基づきその傾向が分類された複数のクラスタのデータベースである。再符号化部21aは、辞書DB23aを参照し、符号化画像P2が属するクラスタを特定する。クラウドレット20aは、再符号化画像P3及び特定したクラスタのクラスタインデクス311をクラウドストレージ30へ送信し、保存する。ストレージ31は、再符号化画像P3に対応付けてクラスタインデクス311も保存する。
粗密変換部22aは、ユーザ端末12からの画像の要求に応じてクラウドストレージ30から再符号化画像P3及びクラスタインデクス311を取得し、辞書DB23aを参照し、クラスタインデクス311に対応する辞書を用いて、再符号化画像P3に対して粗密変換により復元符号化画像P4に復元し、ユーザ端末12へ返信する。
図12は、本発明の実施の形態3にかかる粗密変換処理の流れを説明するためのフローチャートである。具体的には、図5の最初にステップS301が追加されたものであり、以降の処理は同等である。すなわち、粗密変換部22aは、クラウドストレージ30から再符号化画像P3に加えて、再符号化画像P3に対応付けられたクラスタインデクス311を取得する。そして、粗密変換部22aは、辞書DB23aを参照し、クラスタインデクス311から使用する辞書を選択する(S301)。以後、粗密変換部22aは、辞書DB23a内の選択された辞書を用いて粗密変換処理を行う。
ここで、本実施の形態3における辞書の学習の仕方について説明する。辞書の学習は、(ステップ1)特徴量のヒストグラムにより各画像をクラスタに分類し、(ステップ2)クラスタごとに辞書の学習を行う。
ここで、本実施の形態3における辞書の学習の一例として、Bag of Visual Words(BoVW)を利用する場合を説明する。図13は、本発明の実施の形態3にかかるBoVWを利用する場合の概念を示す図である。上記ステップ1について説明する。まず、図13の上段の3つのテスト画像について複数のブロック(又は画素)に分割する(図13の下段)。そして、例えば、各ブロックを解析し、3種類の特徴fa、fb及びfcのそれぞれの出現頻度(適合度合)を集計する。図13の中段は、特徴fa、fb及びfcのそれぞれについてのヒストグラムの例である。そして、これらのヒストグラムにより、各テスト画像をクラスタに分類する。例えば、自転車のサドルのブロックは特徴fbが強く、人物の肌や目のブロックは特徴faが強く、バイオリンの一部のブロックは特徴fcが強いという傾向があり、各ブロックについて、クラスタ分類ができる。
図14は、本発明の実施の形態3にかかるある画像における特徴量の分布の例(ヒストグラム)を示す図である。つまり、ある画像における各ブロックについての特定の特徴量のヒストグラムを示す。そのため、以降、上記ステップ2については、学習対象の画像についてはいずれのクラスタに属するかにより該当するクラスタに対して学習が行われる。これにより、辞書の精度が向上する。
そして、上述の通り再符号化の際には、符号化画像P2についてクラスタの分類を行い、クラスタインデクス(画像の特徴)を特定してクラウドストレージ30に保存する。また、復号時には、粗量子化ビンインデクスと共に、対応するクラスタインデクスに基づく辞書を用いる。そのため、計算速度及び計算の質が向上する。
ここで、本実施の形態は、次のように表現することもできる。すなわち、複数の画像について各画像の特徴量の分布から複数のクラスタに分類した辞書情報(辞書DB23a)と、前記第1の量子化係数から前記第2の量子化係数への再符号化時に、前記入力画像が前記複数のクラスタのいずれに該当するかを判別したクラスタインデクス311を、前記第2の量子化係数(粗量子化ビンインデクスb)に対応付けて記憶装置(ストレージ31)に格納する再符号化部21aと、をさらに備える。そして、前記逆写像部は、前記第2の量子化係数に対応付けられた前記クラスタインデクスに基づき前記辞書情報内のクラスタを特定し、当該特定したクラスタを用いて前記逆写像を行う。
<実施形態4>
続いて、上述した実施形態1乃至3の変形例である実施形態4について説明する。図15は、本発明の実施の形態4にかかるクラウドストレージシステムの全体構成を示すブロック図である。クラウドストレージシステムには、ユーザ端末11(ユーザU1)及びユーザ端末12(ユーザU2)、クラウドレット20b、及びクラウドストレージ30が存在する。システムは、3つの主要な動作を有している:オフライントレーニング、画像アップロード、画像ダウンロードである。
画像アップロード動作では、ユーザ端末11は、細かく(密に)量子化(以降、密量子化と呼ぶ)されたJPEG画像(符号化画像P2)をクラウドレット20bにアップロードし、そして、クラウドレット20bの再符号化部21bは、粗めの量子化(以降、粗量子化と呼ぶ)パラメータ(QP)を用いて画像のコードブロックのサブセットを再符号化し、再符号化画像P3(及び後述する副情報312)をクラウドストレージ30へ格納する。
画像ダウンロード動作では、クラウドレット20bの粗密変換部22bは、要求された粗量子化画像(再符号化画像P3及び副情報312)をクラウドストレージ30から取り出し、粗量子化されたコードブロックを密量子化ブロックに逆写像する。
オフライントレーニング動作では、クラウドレット20bの学習部25は、画像ダウンロード中の粗量子化ブロックから密量子化ブロックへの逆写像を容易にするために、適切な辞書23bおよびグラフテンプレート24を事前に計算し記憶する。尚、学習部25は、クラウドレット20bの外部にあっても構わない。次にこれら動作の詳細を説明する。
1)オフライントレーニング:画像ダウンロード中の粗量子化ブロックから密量子化ブロックへの逆写像を信号復元問題とする。
近年、非特許文献9ではJPEG圧縮形式から画像ピクセルパッチを復元するために、スパース性モデル(sparsity prior)(非特許文献10)とグラフ‐信号平滑モデル(graph-signal smoothness prior)(非特許文献11)の組み合わせを正常に使用した。これら2つのモデルは、それぞれピクセルパッチにおける組織的かつ構造的な画像コンテキストの回復を容易にする。
これら2つのモデルを使用することを仮定すると、高速実施は、画像の復元中に小辞書と散在的な(sparse)グラフを必要とする。この目標にむけて、我々は、まず、ピクセルブロックΨを大きなトレーニングセットΨからツリーのエンドノードに対応する類似のブロックの異なるクラスタに分類するために、ツリー構造のベクトル量子化(Tree-Structured Vector Quantization:TSVQ)(非特許文献12)を構築する。各クラスタiに対して、このクラスタに関連するトレーニングデータΨに基づいて、過完備辞書および散在グラフテンプレートを学習させる。分類ツリーを構築すると、重要なアイデアは、画像のダウンロード中に、元のブロックが分類されるクラスタを正しく識別できる場合、関連する辞書およびクラスタに関連付けられたグラフが、粗ブロックから密ブロックに逆写像することを容易にすることが出来ることである。
2)画像アップロード:ユーザ端末11は、JPEG圧縮画像(符号化画像P2)をクラウドレット20bにアップロードする。ここで、N−ピクセルコードブロックxのそれぞれは、精密なQPq=[q,...,q]で与えられるN量子化ビンインデクスa(x)=[a(x),...,a(x)]の集合により表される。詳細には、i番目の量子化ビン計数a(x)は、以下のようになる。
・・・(15)
ここで、TはDCT変換行列Tのi行目である。
そして、クラウドレット20bの再符号化部21bは、粗いQP Q=[Q,...,Q]を用いて、符号化画像P2におけるブロックのサブセットを再符号化し、精密なビンインデクスa(x)を、クラウドストレージ30に恒久的に格納されているコードブックxに対する粗いビンインデクスb(x)へマッピングする。クラウドレット20bは、画像アップロード中、再符号化されたブロックに対して、信号モデルを用いた粗いb(x)から精細なa(x)へ戻すための逆写像を実施する。再符号化部21bは、「正常に」逆写像することができた画像におけるブロックxのみを、アップロード中に逆写像する。小さなバイナリ画像は、デコーダにどのブロックがQを用いて粗く再符号化されたかについての情報を与える副情報(side information:SI)312としてJBIG(非特許文献8)を用いて、損失無く符号化される。
本システムは、JPEG画像における再符号化されたブロックが、2つのモードのいずれかにおいて正常に逆写像されることを保証する。i)無損失復元(可逆復元、lossless recovery)(無損失モード):正確に復元されるために、各再符号化されたブロックxに対する元のa(x)が確定的に保証されることを意味する。または、ii)近無損失復元(near-lossless recovery)(近無損失モード):高い確率で正確に復元されるために、元の画像に対するa(x)は、統計的に保証されることを意味する。これは、デコードされたJPEG画像が、ユーザにとって視覚的に区別が出来ない元の画像に近いことをもたらす。無損失モードにおいて、再符号化されたブロックxのそれぞれに対するa(x)の完全な復元のために使用される適切な辞書およびグラフテンプレートを保証するために、TSVQにおけるxに対するクラスタインデクスも、アップロード中に、提案する分散型符号化方法を用いて、SIとして符号化される。
3)画像ダウンロード:ユーザU2が事前にアップロードされた画像を呼び戻すとき、クラウドレット20bは、クラウドストレージ30から粗量子化された画像(再符号化画像P3)を取り出し、ユーザU2に対してブロックxの粗量子化されたb(x)のそれぞれを密量子化されたa(x)に逆写像する。画像取り出し遅延を最小化するために、逆写像は、画像アップロード中にSIとして符号化されたクラスタインデクスにより示される適切な小型の辞書および散在的なグラフテンプレートを用いて高速に行われるべきである。
ここで、量子化ビンマッチング問題を、粗量子化ビン内で、まず、(図4のx3として示されている)最も可能性の高い信号を探すことに書き直すことができる。
・・・(16)
そして、最も可能性の高い信号Xを含む密量子化ビンベクトルaを特定する。
・・・(17)
次に、粗いビンベクトルb内で、最も可能性の高い信号Xを見つけるという問題に焦点を当てる。
ここで、2つの信号モデルを用いて粗いビンインデクスベクトルbが与えられる最も可能性の高い信号X^を見つけることに焦点をあてる。尚、見つけられた最も可能性の高い信号を含む密量子化ビンは、復元された密ビンインデクスである。また、2つの信号モデルとは、スパース性モデルと、グラフ‐信号平滑モデルである。さらに、高速実施を達成するために、我々は、各クラスタに対する小さな辞書および散在されたグラフテンプレートをトレーニングする。
二つのモデルP(X)及びP(X)を結合することによって、P(X)を以下のように定義する。
・・・(18)
インデクスが付けられた粗量子化セルb内の最も可能性のある信号を見つけ出す問題は以下のように定式化することができる。
・・・(19)
目的関数は、交互最適化を介して解くことができる。
図16は、本発明の実施の形態4にかかるオフライントレーニングの流れを説明するための図である。学習部25は、トレーニング画像PGからトレーニングブロック集合BS(ブロック画像)を抽出(収集)する(S401)。トレーニング画像PGは、例えば、多数の高解像度の画像群であるとよい。次に、学習部25は、トレーニングブロック集合BSについて、TSVQにより複数のクラスタに分類してツリー構造(二分木)TSを構築する(S402)。そして、学習部25は、分類された各クラスタに対してクラスタインデクスのオフセットが減少するように、ツリー構造(二分木)TSのノードを入れ替える(S403)。尚、当該ノードの入れ替えは、後述するツリーノードのビット割り当てに対応する。また、学習部25は、入れ替え後の二分木に対してレート歪みを最適化するように枝刈りを行う(S404)。尚、当該枝刈りは、後述するレート歪み最適化ツリープルーニングに対応する。その後、学習部25は、枝刈り後の二分木に対して過完備辞書と散在グラフテンプレートとを学習し(S405及びS406)、辞書DB23b及びグラフテンプレート24として記憶装置(不図示)に保存する。尚、当該記憶装置は、クラウドレット20b内又は外であって構わない。尚、完全なTSVQは、デコーダにおいて必要とされ、フルツリーのインデクスは、各ブロックに対して計算される。
(適応性のある辞書及びグラフテンプレート学習)
多数のオフライントレーニングデータを考慮して、類似したピクセルブロックの異なったクラスタに対して辞書及びグラフテンプレートをトレーニングする。各クラスタに対し、そのクラスタに分類されたトレーニングデータのピクセルブロックに基づいて、過完備辞書及び1つの散在グラフテンプレートを学習させる。
1)小辞書学習:特定のクラスタに対して、割り当てられたnトレーニングブロックY=[y、y、・・・、y]が存在する。ここで、yは、ベクトル形式内のトレーニングブロックiを示す。K−SVD(非特許文献10)に従い、以下の目的関数を最小化することにより辞書Φを計算する。
・・・(20)
2)散在グラフテンプレート学習:同様に、特定のクラスタについて散在グラフを学習する。各クラスタに対し、まず、重心(Centroid)ブロックを計算する。重心ブロックは該クラスタに割り当てられたトレーニングブロックの中心又は平均である。そして、この重心ブロックに対して散在グラフテンプレートを構築する。図17は、本発明の実施の形態4にかかる散在グラフテンプレートの例を示す図である。図17に示すように、縦、横、斜めの隣接ノードのみが接続される。その理由は、グラフがスパースであり、Lがスパース行列であるならば、I+λL^の逆行列の高速解法を採用でき、式(21)の計算複雑性を低くすることができるためである。また、各テンプレートが接続されたグラフだからである。
・・・(21)
(完全なTSVQ構築(Full TSVQ Construction))
トレーニングデータセットΨを仮定すると、我々は、まず、目標となる高さHmaxのバイナリフルツリー(a binary full tree、全二分木)Tを構築する(図18(a))。具体的には、フルツリーの作成は、以下のステップを有している(非特許文献12):
1)初期化:ツリーの高さH=0に初期化する。我々は、トレーニングセットΨ全体を、関連するトレーニングセットの平均として計算される、重心cと共に、高さ0のルートノードrに関連付ける。
2)バイナリ分割:高さHの各ノードiに対して、我々は、2つの子ノードjおよびkを生成する。ここで、i→j、i→kである。我々は、それらの重心cおよびcに関する総距離が最小化されるように、ノードiに関連するトレーニングセットΨを2つの重複しないサブセットΨおよびΨに分割する。
・・・(22)
ロイドアルゴリズム(Lloyd Algorithm)を用いて、局所的に最適に式(22)を解くことができる。局所収束性(local convergence)まで交互に実行される2つのステップから構成される。
・固定された重心cとcとが与えられた場合、各ψ∈Ψをより近い重心とする分割(partition)にΨを割り当てることにより、局所的に最適な分割ΨとΨとを求める。
・固定された分割ΨおよびΨが与えられた場合、それぞれの二乗誤差を最小化することにより、重心cおよびcを更新する。cに対して以下の計算をする:
・・・(23)
これは、Ψの平均値をとることにより、クラスタのΨの「中心」としてcを計算することを意味する。
交互におこるロイドアルゴリズムの開始に先立って、非特許文献13に従って、高さHのノードiに対する2つの子の重心cおよびcをcおよび摂動バージョン(perturbed version)として初期化する。すなわち、
・・・(24)
ここで、ηは、ノイズ分散σ=1とするガウス雑音である。
3)より大きなバイナリフルツリー(Bigger Binary Full Tree)の生成:構成されたバイナリフルツリーの高さHが目標値Hmaxよりも小さい場合、Hを1インクリメントし、ステップ2に進む。
(クラスタインデクスの分散符号化)
無損失モードにおいて、画像ダウンロード中の再符号されたブロックxの粗いインデクスb(x)を精密なインデクスa(x)に逆写像するために適切な辞書およびグラフテンプレートを特定するために、「正確な」クラスタインデクスiを画像アップロード中にSIとして決定し符号化している。具体的には、精密なインデクスa(x)の入力を使用して、まずハード復号化された(hard-decoded)ブロックx^を構築し、これを用いてルートノードrから高さHmaxのエンドノードeまでフルツリーTを走査する(traverse)。走査によって、ノードiにおいて、x^とそれぞれの子ノードjおよびkの2つの重心cおよびcと比較し、より近い重心を有するノードに進む。
エンドノードeに到達すると、関連する文字列Se0をXとして特定する。(後述する)クラスタとして使用する実際に最適化されたVLT(Variable-Length Tree) T(図18(b))は、典型的にフルツリーTのサブセットであるため、x^を使用する代わりに、Tを走査することは、Tにおける中間ノードであるTにおけるエンドノードで終端されることがあり、この場合、SはSe0の部分文字列(substring)である。Se0の部分文字列であるSをQ(X)と示す。2つのエンドノードTおよびTの文字列の例を、図18(c)に示す。
符号化コストを軽減するために、直接符号化Q(X)の代わりに、粗いインデクスb(x)でハード復号されたブロックx^を使用してTを走査することにより、画像ダウンロード中に取得される文字列である、Xとそのノイズ観測Yとの間の相関を利用する、効率的な分散符号化方式を提案する。基本的な考えは、より多くの観測/目標文字列のペア(y、x)に対して、Q(y+Δ)=Q(X)となるような、SIとして適切な差分Δを符号化するために、コードブックCにおける差分コードワードΔを設計することである。差分Δが高い確率p(Δ)で選択される場合、算術符号化(arithmetic coding)を使用する(近似された)コードレート‐log(Δ)は低い。
(y+Δ)=Q(X)となるような、差分Δ∈Cが存在しない場合、直接インデクスコードワードdを符号化する。ここで、iは、ブロックx^のクラスタインデクスである。直接インデクスコードワードは、各クラスタに対してユニーク(固有)であることから、それらの確率は典型的に低く、符号化コストはより高い。
(無損失モードのためのツリー構造ベクトル量子化の最適化)
ここで、TSVQ最適化問題を定義して、それを最適化する方法を議論する。2つの最適化変数VLT TとコードブックCとがあることを考慮して、交互最適化方法を提案する。
(A)Cを固定して、Tを最適化。これを最適VLT設計問題と呼ぶ。
(B)Tを固定してCを最適化。これを最適差分コードブック問題と呼ぶ。
以下では、順番に、これら2つの問題を解決するための詳細なアルゴリズムを説明する。
(A)最適VLT設計
Cを固定すると、最適化問題は以下のようになる。
・・・(25)
上記の目的関数は、VLT TのRDコストが、それぞれが確率P(i)で重み付けされたエンドノードiの個々のRDコストの合計であることを示している。式(25)を最小にする2つの手順を説明する。
まず、式(25)において、異なったエンドノードiに対する、より有利な誤差分布P(y|i)(例えば、エンドノードiに対して、より小さい比率の結果となるであろう、P(s|i)を中心に分布する非対称分布)を誘導するために、VLT Tにおけるノードにバイナリビット(0および1)を再割り当てする手順(1)を提案する。
次に、VLT Tへの所定のビットの割り当てに対して、初期のツリーTからエンドノードを最適に取り除く、RD−最適化ツリープルーニング手順(2)を提案する。
これら2つの手順は、収束するまで交互に行われる。続いて、これら2つの手順について、説明する。
(1)ツリーノードのビット割り当て:密量子化ブロックxに対して、その確率を以下のように定義する。
・・・(26)
ここで、P(i)は、エンドノードiの確率であり、P(x)は、クラスタiに属するブロックによって広がる(spanned)部分空間(subspace)S内のxの確率である。粗量子化ブロックyは、xのノイズバージョン(noisy version)とみなすことができ、以下の様にモデル化される。
・・・(27)
ここで、zは、ノイズである。
以下の最適化問題を解決することにより、yの最も可能性の高いクラスタインデクスjを見出す。
・・・(28)
ノイズモデルによれば、上記の最適化は以下のように書き換えることが出来る。
・・・(29)
しかし、xおよびzの両方は、高次元のベクトル(high-dimensional vectors)であり、式(29)を解くことは自明ではない問題であることを意味する。代わりに、Sの重心であるCと最も類似した重心を持つように、yの最も可能性の高い部分空間を見つける。
・・・(30)
ここで、mはyの部分空間の候補の数である。
yを求めた後、インデクスjであるノードがノードiと近くなることを強制するために、ツリーノードのバイナリビットを再割り当てする。図19および図20に例を示す。図19は、部分空間の検索を説明するための図である。密量子化ブロックxは、部分空間Sに配置される。ノイズモデルによれば、可能性の高いノイズ観測yが太字破線で示される。式(29)を処理することにより、yの最も可能性の高い部分空間のインデクスが検索される。図20は、二分木のノードの入れ替えを説明するための図である。xがSに配置され、検索された最も可能性の高いyはSに配置されたと仮定する。インデクスオフセットは2である。S1及びS3を互いに近付けるためにツリーブランチに正しいバイナリビットを再割り当てする。インデクスオフセットは、1に減少する。このように、クラスタインデクスのオフセットは減少する。図21は、ビット割当前後のインデクスオフセットの確率分布の比較を示す図である。図21に示すように、インデクスオフセットの確率は、0の周辺により集中し、コードブックCの伝送コストがより小さくなる。したがって、エンドノードiに対して、より小さい比率が達成される。
(2)レート歪み最適化ツリープルーニング(Rate-Distortion Optimized Tree Pruning):ビットの再割り当て後、初期ツリーTからエンドノードを最適に除去するために、RD−最適化ツリープルーニング手順が行われる。より多くのエンドノードを除去することは、歪みがより大きく、より短いツリーとなるが、比率はより小さくなる。我々が行うことは、ツリーの深さを変えることにより、歪みと比率の間で最良のトレードオフを達成することである。レート歪みフレームワーク(rate-distortion framework)を利用したプルーンツリーアルゴリズム(prune-tree algorithms)がいくつか存在する。ここでは、我々のシステムでは、子を刈り取る(pruning)という手法を採用する(非特許文献14)。但し、これに限定されない。
所定のツリーT’に対して、有限な数の刈り取られたサブツリー(pruned subtrees){T}が存在する。我々は、式(25)の最小値につながるものを見つけるために、それらを網羅的に検索する。具体的には、2つの兄弟エンドノード(brother end nodes)を刈り取り、それらの親ノードを新しいエンドノードとして、新しいVLT Tを得る。Tに対して、すべてのエンドノードの歪みと比率(rate)とを合計してRDコストを計算する。
・・・(31)
この処理が、左から右にエンドノードの全てのペアに対して、再帰的に行われる。最終的に、最適なVLTツリーを次のように取得する:
・・・(32)
(B)最適なコードブック設計
1)分散符号化手法:ここで、VLT Tが与えられた最適なコードブックCを設計する問題に焦点を当てる。統計P(y|x)は固定であり、既知であると仮定する。実行可能な(feasible)コードブックCは、P(y|x)>0であるような観測/目標ペア(y,x)について、i)Q(y+Δ)=Q(x)であるような差分コードワードΔj∈Cを選択することができ、ii)s=Q(x)であるような直接インデクスコードワードcを選択することができる、ことを意味している。最適なコードブックCは、全てのペア(y,x)について、上述した実行可能な選択が、予想された符号化コストを最小に至ることを意味する。
まず、典型的な差分符号化と異なり、各観測/目標ペア(y,x)に対する正確な差分Δ=x−yを符号化するために、エンコーダを必要としない;Q(y+Δ)=Q(x)であるような任意の実行可能な差分コードワードΔは、同じように受け入れられる。我々は、r(y,x)により、実行可能な差分の範囲を示す。VLT Tにおける量子化ビンi=Q(x)の下限と上限を[l, u)により示す。明らかに、量子化ビンiのサイズu−lが大きくなれば、より大きな範囲r(y,x)となる。
コードブックを設計するとき、直感的に、小さいコードブックCが望ましい;確率は、少数のコードワードΔまたはcのみに集中し、そのため、符号化コスト−logp(Δ)または−logp(c)は小さくなる。上述したように、ペア(y,x)に対するクラスタインデクスを符号化するとき、範囲r(y,x)により提供される自由度が与えられると、我々の設計方法は、以下の様になる。まず、より多くの範囲r(y,x)をカバーする少数の差分Δのみを選択する。そして、残りのペア(y,x)に対して、実行可能性を維持するために直接インデクスコードワードcを使用する。次に、この処理の詳細を説明する。
2)コードブック設計アルゴリズム:まず、実行可能性を保証するために、VLT Tにおけるエンドノードiに対応する、全ての直接インデクスコードワードcは、コードブックCに含まれていると仮定する。そして、差分コードワードΔを次のように追加する。まず、P(y|x)は、高くなる傾向があるため、最も一般的に使用されるコードワードである、初期(デフォルト)差分Δ=0を追加する。
観測/目標ペア(y,x)のそれぞれに対して、範囲r(y,x)が現在のコードブックCにおける既存の差分Δと重複していないかを確認する。重複していない場合、図22に示すように、P(y|x)で縮尺されたr(y,x)を差分カウンタH(Δ)に加える。既存の差分コードワードと重複しないすべてのペア(y,x)からの範囲を累積した後、ピークΔ=maxΔH(Δ)をCに加える次の候補として特定する。
次に、差分コードワードの候補ΔがCに追加された場合の予測される符号化コストを計算する。各ペア(y,x)に対して、0に近い範囲r(y,x)において、コードワードΔ∈Cを検索する。r(y,x)内でΔ∈Cが無い場合、このペアに対して直接インデクス(direct index)cを使用する。ここで、i=Q(x)である。全てのペア(y,x)のコードワードへのマッピングが与えられると、各コードワードに対する確率を一覧化することができ、式(33)を使用して比率を計算することが出来る。
・・・(33)
得られた比率が減少した場合のみ、この候補Δは、最終的に追加される。他の差分コードワードの候補を追加することを試みるために、比率が減少した場合、手順は繰り返される。アルゴリズムの擬似コードをアルゴリズム1(図23)に示す。
(統計的保証を伴う近無損失モード(Near-Lossless Mode))
続いて、近無損失モードについて説明する。近無損失モードは、各ブロックxに対する粗いインデクスb(x)から復元することが出来る精密なビンインデクスa(x)を決定論的に保証する無損失モードと異なり、高い確率でb(x)からa(x)を復元することが出来るという統計的な保証を有している。復元要件を下げることにより、近無損失モードは、はるかに低い計算量を達成することができる。
具体的には、オフライントレーニングにおいて、完全なTSVQ構築の後、トレーニングブロックを異なるクラスタに分類する。同一クラスタのブロックは、類似した構造を共有する。各クラスタに対して、このクラスタに関連する辞書およびグラフテンプレートを使用して、精密なインデクスa(x)が粗いインデクスb(x)から正確に逆写像されるブロックの割合を計算する。完全な画像に対する統計的な保証を保証するために、各クラスタの復元成功率が使用される。
画像アップロードでは、各コードブロックxに対して、オフライン統計により、関連した復元成功確率P(x)が存在する。無損失復元とは異なり、どのブロックが再符号化されるかを決定するために、量子化ビンマッチングの最適化を実行するのではなく、事前に設定した閾値Pよりも平均復元成功確率が高いものを選択する。より具体的に、列にそって全てのコードブロックを詳しく調べ(スキャンし)、再符号化するコードブロックを徐々に決定する。コードブロックxに来ると、調べたブロック{x j=1の平均復元成功確率APを以下の様に計算する。
・・・(34)
AP≧Pである場合、xを再符号化のサブセットに追加する。この決定処理は、ブロック毎に実際の逆写像を実行しないことから高速である。
QBMのための辞書とグラフテンプレートを選択し、フルツリーを走査するために、画像ダウンロードでは、粗量子化ブロックを使用する。無損失復元において、行われたように、クラスタインデクスを符号化するための追加的なコストを払う必要がなく、そのため、より多くの記憶領域を節約することが出来る。
ここで、本実施の形態は、次のように表現することもできる。すなわち、画像処理装置(クラウドレット20b)は、複数の画像の特徴量の分布から複数のクラスタに分類した過完備辞書(over-complete dictionary)(辞書DB23b)と、前記特徴量の分布をグラフ化し、前記複数のクラスタに分類した散在(sparse)グラフテンプレート(グラフテンプレート24)と、前記複数の画像から前記過完備辞書と前記散在グラフテンプレートとを学習する学習部25と、入力画像を第1の量子化幅に基づき量子化した第1の量子化係数を含む符号化画像について、前記第1の量子化係数から、前記第1の量子化幅より広い第2の量子化幅に基づき量子化した第2の量子化係数へ再符号化する再符号化部21bと、前記第2の量子化係数について、前記過完備辞書と前記散在グラフテンプレートとを用いて、前記第1の量子化係数への逆写像を行う逆写像部(粗密変換部22b)と、を備える。そして、学習部25は、前記複数の画像から抽出された複数のブロック画像について、TSVQ(Tree-Structured Vector Quantization)により複数のクラスタに分類して二分木を構築し、前記分類された各クラスタに対してクラスタインデクスのオフセットが減少するように、前記二分木のノードを入れ替え、前記入れ替え後の前記二分木に対してレート歪みを最適化するように枝刈りを行い、前記枝刈り後の前記二分木に対して前記過完備辞書と前記散在グラフテンプレートとを学習する。再符号化部21bは、再符号化時に、前記入力画像が前記学習後の前記過完備辞書及び前記散在グラフテンプレートのクラスタのいずれに該当するかを判別したクラスタインデクスを、前記第2の量子化係数に対応付けて記憶装置(クラウドストレージ30)に格納する。逆写像部は、前記第2の量子化係数に対応付けられた前記クラスタインデクスに基づき前記過完備辞書及び前記散在グラフテンプレート内のクラスタを特定し、当該特定したクラスタを用いて前記逆写像を行う。これにより、辞書とグラフテンプレートの精度を向上し、逆写像の精度も向上させることができる。
<その他の発明の実施の形態>
尚、上記説明では、画像圧縮手法としてJPEGの例を挙げたため、変換係数としてDCT係数としていた。但し、本発明は、DCTの代わりに、離散サイン変換(Discrete Sine Transform (DST))、又は、非対称離散サイン変換(Asymmetric Discrete Sine Transform (ADST))等のような他のブロックベースの変換符号化及び復号化装置に適用可能である。
さらに、本発明は上述した実施の形態のみに限定されるものではなく、既に述べた本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。例えば、上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。この場合、コンピュータプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。
非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、コンピュータプログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
U1 ユーザ
11 ユーザ端末
111 画像符号化部
112 画像復号化部
U2 ユーザ
12 ユーザ端末
121 画像符号化部
122 画像復号化部
20 クラウドレット
21 再符号化部
22 粗密変換部
23 辞書DB
20a クラウドレット
21a 再符号化部
22a 粗密変換部
23a 辞書DB
30 クラウドストレージ
31 ストレージ
3n ストレージ
311 クラスタインデクス
P1 入力画像
P2 符号化画像
P3 再符号化画像
P4 復元符号化画像
P5 復号画像
20b クラウドレット
21b 再符号化部
22b 粗密変換部
23b 辞書DB
24 グラフテンプレート
25 学習部
312 副情報
PG トレーニング画像
BS トレーニングブロック集合
TS ツリー構造(二分木)

Claims (7)

  1. 入力画像を第1の量子化幅に基づき量子化した第1の量子化係数から当該第1の量子化幅より広い第2の量子化幅に基づき量子化した第2の量子化係数について、前記第1の量子化係数への逆写像を行う逆写像部を備え、
    前記逆写像部は、
    前記第2の量子化幅の範囲内の前記第1の量子化係数の候補の中から、事前確率(prior probability)に基づく量子化セル量が最大となる量子化係数を選択して、前記第1の量子化係数として前記逆写像を行う
    画像処理装置。
  2. 前記逆写像部は、
    前記事前確率を定義するスパース性モデル(sparsity model)に基づいて前記第1の量子化係数を近似して前記逆写像を行う
    請求項1に記載の画像処理装置。
  3. 前記逆写像部は、
    前記第2の量子化幅の範囲内の前記第1の量子化係数の範囲のうち前記事前確率の最大値を前記候補ごとに探索し、当該最大値と前記第1の量子化係数の範囲とに基づいて前記量子化セル量を算出し、前記候補の間で前記量子化セル量を比較することにより、前記量子化セル量が最大となる量子化係数を選択する
    請求項1又は2に記載の画像処理装置。
  4. 前記第1の量子化係数を含む符号化画像について、前記第1の量子化係数と前記第2の量子化係数とが交互になるように再符号化を行うことにより再符号化画像へ変換する再符号化部をさらに備え、
    前記逆写像部は、
    前記再符号化画像内の前記第2の量子化係数に対して、当該第2の量子化係数と隣接する画素の前記第1の量子化係数を用いて、前記逆写像を行う
    請求項1に記載の画像処理装置。
  5. 前記逆写像部は、
    前記隣接する画素と隣接する画素の前記第2の量子化係数をさらに用いて、前記逆写像を行う
    請求項4に記載の画像処理装置。
  6. 複数の画像について各画像の特徴量の分布から複数のクラスタに分類した辞書情報と、
    前記第1の量子化係数から前記第2の量子化係数への再符号化時に、前記入力画像が前記複数のクラスタのいずれに該当するかを判別したクラスタインデクスを、前記第2の量子化係数に対応付けて記憶装置に格納する再符号化部と、をさらに備え、
    前記逆写像部は、前記第2の量子化係数に対応付けられた前記クラスタインデクスに基づき前記辞書情報内のクラスタを特定し、当該特定したクラスタを用いて前記逆写像を行う
    請求項1に記載の画像処理装置。
  7. 複数の画像の特徴量の分布から複数のクラスタに分類した過完備辞書(over-complete dictionary)と、
    前記特徴量の分布をグラフ化し、前記複数のクラスタに分類した散在(sparse)グラフテンプレートと、
    前記複数の画像から前記過完備辞書と前記散在グラフテンプレートとを学習する学習部と、
    入力画像を第1の量子化幅に基づき量子化した第1の量子化係数を含む符号化画像について、前記第1の量子化係数から、前記第1の量子化幅より広い第2の量子化幅に基づき量子化した第2の量子化係数へ再符号化する再符号化部と、
    前記第2の量子化係数について、前記過完備辞書と前記散在グラフテンプレートとを用いて、前記第1の量子化係数への逆写像を行う逆写像部と、を備え、
    前記学習部は、
    前記複数の画像から抽出された複数のブロック画像について、TSVQ(Tree-Structured Vector Quantization)により複数のクラスタに分類して二分木を構築し、
    前記分類された各クラスタに対してクラスタインデクスのオフセットが減少するように、前記二分木のノードを入れ替え、
    前記入れ替え後の前記二分木に対してレート歪みを最適化するように枝刈りを行い、
    前記枝刈り後の前記二分木に対して前記過完備辞書と前記散在グラフテンプレートとを学習し、
    前記再符号化部は、
    再符号化時に、前記入力画像が前記学習後の前記過完備辞書及び前記散在グラフテンプレートのクラスタのいずれに該当するかを判別したクラスタインデクスを、前記第2の量子化係数に対応付けて記憶装置に格納し、
    前記逆写像部は、
    前記第2の量子化係数に対応付けられた前記クラスタインデクスに基づき前記過完備辞書及び前記散在グラフテンプレート内のクラスタを特定し、当該特定したクラスタを用いて前記逆写像を行う
    画像処理装置。
JP2017034786A 2016-02-29 2017-02-27 画像処理装置 Pending JP2017158183A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016036602 2016-02-29
JP2016036602 2016-02-29

Publications (1)

Publication Number Publication Date
JP2017158183A true JP2017158183A (ja) 2017-09-07

Family

ID=59810837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017034786A Pending JP2017158183A (ja) 2016-02-29 2017-02-27 画像処理装置

Country Status (2)

Country Link
JP (1) JP2017158183A (ja)
CN (1) CN107231556B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022510193A (ja) * 2018-11-28 2022-01-26 カイ インコーポレイテッド 映像を処理する方法、映像を再生する方法及びその装置
US11494659B2 (en) 2019-06-26 2022-11-08 Kioxia Corporation Information processing method and information processing apparatus

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792767B (zh) * 2021-08-27 2023-06-27 国网福建省电力有限公司 基于图信号处理的负荷用电特征监测分析方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6441754B1 (en) * 1999-08-17 2002-08-27 General Instrument Corporation Apparatus and methods for transcoder-based adaptive quantization
JP2003244446A (ja) * 2002-02-21 2003-08-29 Canon Inc 画像処理装置及び画像処理方法
US7260265B2 (en) * 2002-10-04 2007-08-21 International Business Machines Corporation Enhancing compression while transcoding JPEG images
JP2009152895A (ja) * 2007-12-20 2009-07-09 Panasonic Corp 符号量制御方法および装置、符号量制御プログラム、カメラシステム
CN101989355A (zh) * 2009-07-31 2011-03-23 北京邮电大学 一种针对jpeg图像二次压缩的检测方法
CN102238374B (zh) * 2010-04-21 2016-08-24 腾讯科技(深圳)有限公司 对图像数据进行压缩编码的方法和装置
JP5286581B2 (ja) * 2010-05-12 2013-09-11 日本電信電話株式会社 動画像符号化制御方法,動画像符号化装置および動画像符号化プログラム
CA2853002C (en) * 2011-10-18 2017-07-25 Kt Corporation Method for encoding image, method for decoding image, image encoder, and image decoder
CN102413328B (zh) * 2011-11-11 2013-11-06 中国科学院深圳先进技术研究院 Jpeg图像双重压缩检测方法及系统
CN102903100B (zh) * 2012-09-06 2015-04-29 宁波大学 一种数字照片图像压缩历史的检测方法
WO2015176280A1 (en) * 2014-05-22 2015-11-26 Microsoft Technology Licensing, Llc Re-encoding image sets using frequency-domain differences
CN104506752B (zh) * 2015-01-06 2017-08-25 河海大学常州校区 一种基于残差压缩感知的相似图像压缩方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022510193A (ja) * 2018-11-28 2022-01-26 カイ インコーポレイテッド 映像を処理する方法、映像を再生する方法及びその装置
US11494659B2 (en) 2019-06-26 2022-11-08 Kioxia Corporation Information processing method and information processing apparatus

Also Published As

Publication number Publication date
CN107231556A (zh) 2017-10-03
CN107231556B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
Zou et al. The devil is in the details: Window-based attention for image compression
Huang et al. Octree-Based Progressive Geometry Coding of Point Clouds.
US10616603B2 (en) Methods and apparatuses for encoding and decoding digital images through superpixels
Digne et al. Self‐similarity for accurate compression of point sampled surfaces
Jamil et al. Learning-driven lossy image compression: A comprehensive survey
Dupont et al. Coin++: Neural compression across modalities
CN117061766A (zh) 基于机器学习的视频压缩
CN108028945A (zh) 通过使用单例系数更新执行变换的设备和方法
CN113537456B (zh) 一种深度特征压缩方法
Pal et al. An efficient codebook initialization approach for LBG algorithm
Gu et al. Compression of human motion capture data using motion pattern indexing
Liu et al. Prior-based quantization bin matching for cloud storage of JPEG images
Chang et al. Thousand to one: Semantic prior modeling for conceptual coding
JP2017158183A (ja) 画像処理装置
Cui et al. OctFormer: Efficient octree-based transformer for point cloud compression with local enhancement
Hoogeboom et al. High-fidelity image compression with score-based generative models
Sivam et al. Survey on video compression techniques for efficient transmission
JP2016535382A (ja) 元の画像の低品質バージョン及びエピトミから元の画像の推定を構築する方法及び装置
WO2023118317A1 (en) Method and data processing system for lossy image or video encoding, transmission and decoding
Hajizadeh et al. Predictive compression of animated 3D models by optimized weighted blending of key‐frames
Thakker et al. Lossy Image Compression-A Comparison Between Wavelet Transform, Principal Component Analysis, K-Means and Autoencoders
US9049432B1 (en) Motion differential set partition coding for color image sequence compression
Ding et al. Improved frequency table adjusting algorithms for context-based adaptive lossless image coding
Chaker et al. An improved image retrieval algorithm for JPEG 2000 compressed images
Zhao et al. Image and Graphics: 10th International Conference, ICIG 2019, Beijing, China, August 23–25, 2019, Proceedings, Part III

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170901