JP5391465B2 - デジタル画像の画質認識トランスコードシステムにおける画質予測テーブルを生成するためのシステム及び方法。 - Google Patents

デジタル画像の画質認識トランスコードシステムにおける画質予測テーブルを生成するためのシステム及び方法。 Download PDF

Info

Publication number
JP5391465B2
JP5391465B2 JP2012106825A JP2012106825A JP5391465B2 JP 5391465 B2 JP5391465 B2 JP 5391465B2 JP 2012106825 A JP2012106825 A JP 2012106825A JP 2012106825 A JP2012106825 A JP 2012106825A JP 5391465 B2 JP5391465 B2 JP 5391465B2
Authority
JP
Japan
Prior art keywords
image
image quality
input
output
transcoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012106825A
Other languages
English (en)
Other versions
JP2012199939A (ja
Inventor
クーロン、ステファン
ピジョン、スティーブン
フランシェ、ジーン−フランソワ
Original Assignee
エコール・ドゥ・テクノロジー・スュペリュール
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/CA2007/001974 external-priority patent/WO2009055896A1/en
Priority claimed from US12/164,873 external-priority patent/US8295624B2/en
Application filed by エコール・ドゥ・テクノロジー・スュペリュール filed Critical エコール・ドゥ・テクノロジー・スュペリュール
Publication of JP2012199939A publication Critical patent/JP2012199939A/ja
Application granted granted Critical
Publication of JP5391465B2 publication Critical patent/JP5391465B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4092Image resolution transcoding, e.g. by using client-server architectures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/15Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/192Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding the adaptation method, adaptation tool or adaptation type being iterative or recursive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Description

本発明は、Stephane Coulombe等に対する2007年12月03日出願の「Quality-Aware Selection of Quality Factor and Scaling Parameters in JPEG Image Transcoding」なる名称の米国特許仮出願第60/991,956号明細書、Stephane Coulombe等に対する2008年6月30日出願の「Method and System for Quality-Aware Selection of Parameters in Transcoding of Digital Images」なる名称の米国特許出願第12/164,836号明細書、および、Steven Pigeonに対する2007年11月02日出願の「System and Method for Predicting the File Size of Images Subject to Transformation by Scaling and Change of Quality-Controlling Parameters」なる名称のPCT特許出願第PCT/CA2007/001974号明細書の恩恵を主張する。
本発明は、概して画像のトランスコードに係り、より具体的には、マルチメディアメッセージングサービス(MMS)メッセージに含まれる画像のトランスコードに係る。
URL(http://www.openmobilealliance.org/Technical/release_program/mms_v1_2.aspx)から情報入手可能なOMAマルチメディアメッセージングサービス仕様(承認版1.2、2005年5月、オープンモバイルアライアンス、OMA-ERP-MMS-V1_2-200504295-A.zip)に記載されているマルチメディアメッセージングサービス(MMS)は、主に無線ネットワークを介したテキスト、オーディオ、静止画、および動画を含む様々な種類のデータのピアツーピアおよびサーバツークライアント送信方法を提供している。
MMSは、データのカプセル化の標準的な方法を提供するが、データの種類は、平文、3GPビデオおよびオーディオ/音声、合成オーディオ用のSP−MIDI、JPEG静止画(これらについての詳細は、URL(http://www.3gpp.org/ftp/Specs/html-info/26140.htm)から情報入手可能な、マルチメディアメッセージングサービス、メディアフォーマットおよびコーデック、3GPP TS 26.140, V7.1.0 (2007-06)を参照のこと)等の多数の標準フォーマットのうちのいずれかにより符号化されている可能性がある。静止画はJPEGフォーマットで符号化されることが多く、これに関しては、「The independent jpeg group」によりソフトウェアライブラリが記載され、「ftp.uu.net/graphics/jpeg/jpegsrc.v6b.tar.gz」で公開されている。
図1は、MMSシステムアーキテクチャ100の一例を示しており、これは、発信元ノード102、サービス配信プラットフォーム104、発信先ノード106、および適合エンジン108を含む。発信元ノード102は、ネットワーク「A」110を介してサービス配信プラットフォーム104と通信可能である。同様に発信先ノード106も、ネットワーク「B」112を介してサービス配信プラットフォーム104と通信可能である。ネットワーク「A」および「B」は、可能性のある接続のセットを示す例示に過ぎず、他にも多くの構成が可能である。例えば、発信元および発信先ノード(102および106)は、単一のネットワークを介してサービス配信プラットフォーム104と通信可能であってもよいし、発信元ノード102がネットワークを介さずにサービス配信プラットフォーム104と直接接続されてもよい。
適合エンジン108は、図1に示すようにリンク114を介して直接サービス配信プラットフォーム104と接続されても、または、ネットワーク経由で接続されても、または、サービス配信プラットフォーム104内に埋め込まれていてもよい。
稀なケースでは、発信元ノード102は、発信先ノード106を宛先とする(マルチメディア)メッセージを送信することができる。メッセージは、ネットワーク「A」110を介してサービス配信プラットフォーム104へと転送されて、そこからメッセージはネットワーク「B」112を介して発信先ノード106へと送られる。発信元および発信先ノード(102および106)は、例えば、無線デバイスであってよく、その場合、ネットワーク「A」および「B」(110および112)は無線ネットワークであり、サービス配信プラットフォーム104はマルチメディアメッセージ転送サービスを提供してよい。
別の例では、発信元ノード102は、データネットワークを介してサービス配信プラットフォーム104に接続されたコンテンツプロバイダのサーバであってよい(つまり、ネットワーク「A」110がインターネットであり、ネットワーク「B」112が、無線デバイスでありうる発信先ノード106に機能を提供する無線ネットワークであってよい)。
マルチメディアメッセージングサービス(MMS)のサーバ側の適合の概略については、Stephane Coulombおよび Guido GrasselによるIEEE Communications Magazine, 42巻、第7号、pp.120-126(2004年7月)掲載の「Multimedia Adaptation for the Multimedia Messaging Service」という名称の論文に記されている。
特に画像の場合には、発信元ノード102が送信するメッセージは、画像(特にJPEG符号化画像)を含みうる。発信先ノード106の機能は、元の形式のままで画像を表示する機能を有するとは限らない(例えば、画像の解像度である画素数である画像の高さまたは幅が、発信先ノード106の表示デバイスのサイズまたは解像度を超えているという理由等から)。発信先ノード106における受信および表示を可能とさせる目的で、画像を、発信先ノード106への配信前に、適合エンジン108の画像トランスコーダ116で修正することができる。画像トランスコーダ116による画像の修正は、通常、スケーリング(つまり、画像の解像度および圧縮率の変更)を含みうる。
画像圧縮による画像のファイルサイズの低減は、保存および送信の際の便宜上、または、ネットワークで決められているファイルサイズ制限、またはビットレート制限要件を満たす目的から行われることが多い。さらには、MMSの受信デバイスもメモリに関する制限要件を有する場合もあり、これにより、ファイルサイズが制限される。JPEG規格は、広く利用されている画像圧縮方法である。公知なように、JPEG圧縮は「ロスが多い」、つまり、圧縮された画像が原画像に含まれていたデジタル情報を100パーセント含まないことがある。情報のロスは、圧縮時に「画質係数」QFを設定することにより制御可能である。QFが低いということは、高い圧縮率と同等の意味を持ち、概してファイルサイズも小さくなる。逆に、QFが高くなると、ファイルサイズが大きくなり、これは一般的に、認識される「画質」が高いことを意味する。
画像の解像度を端末の機能に合わせて変更、またはスケーリングすることに関する問題には、既に幾らかの解決法が存在する。しかし、画質係数QF、認識される画質、および、圧縮ファイルサイズ間に広く認められた関係というものがないために、ファイルサイズ面の制約を鑑みて画質を最適化する方法が見つかっていない。スケーリングを単なる解像度適合ではなくて、ファイルサイズ低減のための追加手段として利用する方法の発見となると、さらに難しい課題である。
視覚コンテンツのファイルサイズ低減に関しては既に多く研究されている。Zhijun LeiおよびN.D. GeorganasによるIEEE CCECE 2002. Canadian Conference on Electrical and Computer Engineering, 2巻、pp. 968‐973(2002年)掲載の「Accurate bit allocation and rate control for DCT domain video transcoding」という名称の論文では、ビットレートの低減が、スケーリングではなくて量子パラメータ間の適合により可能であることが示されている。これは、解像度が所定のフォーマット数に限られていることが多い低ビットレートのビデオでは理解できる。Justin RidgeによるSignal Processing: Image Communication, 18巻、第8号、pp. 621-639(2003年9月)掲載の「Efficient transform-domain size and resolution reduction of images」という名称の論文では、スケーリン行った後にJPEG画像のファイルサイズを低減させる技法が記載されている。しかしこの技法では、推定スケーリングと画質低減との組み合わせが考慮されていない。既存のJPEGファイルのサイズを低減させる方法の例は、Viresh RatnakarおよびVictor Ivashinによる「File size bounded JPEG transcoder」なる名称の米国特許第6,233,359号明細書(2001年5月)に記載されている。しかし、この方法は画像の画質およびビットレートを低下させてはいるものの、画像のスケーリングを含まない。
スケーリングおよびQFを同時に変更されるJPEG画像の圧縮ファイルサイズの推定については、Data Compression Conference (DCC 2008)、p. 538(2008年)の「Very Low Cost Algorithms for Predicting the File Size of JPEG Images Subject to Changes of Quality Factor and Scaling」という名称の概略メモで簡単に報告されており、Proceedings of the 24th Queen's Biennial Symposium on Communications, Queen's University, Kingston, Canada, 2008の「Computationally efficient algorithms for predicting the file size of JPEG images subject to changes of quality factor and scaling」という名称の論文(所謂、「Kingston」論文)、および、2007年11月02日出願の「System and Method for Predicting the File Size of Images Subject to Transformation by Scaling and Change of Quality-Controlling Parameters」なる名称のPCT特許出願第PCT/CA2007/001974号明細書に完全な説明が見つかる。
画像トランスコード分野における近年の進歩にも関わらず、スケーリング、圧縮ファイルサイズ制限および画質を考慮にいれた向上したトランスコード法の開発はまだ完全ではない。
[先行技術文献]
[特許文献]
[特許文献1]米国特許第6992686号明細書
[特許文献2]米国特許第7245842号明細書
[特許文献3]米国特許第6233359号明細書
[特許文献4]米国特許出願公開第2007/0239634号明細書
[特許文献5]米国特許出願公開第2004/0220891号明細書
[特許文献6]米国特許出願公開第2003/0161541号明細書
[特許文献7]国際公開第2006/085301号
[特許文献8]国際公開第2006/094000号
[特許文献9]国際公開第2006/110975号
[非特許文献]
[非特許文献1]"The independent JPEG Group" ftp.uu.net/graphics/jpeg/jpegsrc.v6b.tar.gz, August 03, 2007
[非特許文献2]Multimedia Messaging Service, Media formats and codecs 3GPP TS 26. 140, V7.1.0, http://www.3gpp.org/ftp/specs/html-info/26140.htm, June 2007
[非特許文献3]PIGEON, S., COULOMBE, S. "Very Low Cost Algorithms for Predicting the File Size of JPEG Images Subject to Changes of Quality Factor and Scaling" Data Compression Conference p. 528, 2008
[非特許文献4]PIGEON, S., COULOMBE, S. "Computationally Efficient Algorithms for Predicting the File Size of JPEG Images Subject to Changes of Quality Factor and Scaling "Proceedings of ghe 24th Queen"s Biennial Symposium on Communications, Queen's University, Kingston, Canada, 2008
[非特許文献5]WANG, Z., BOVIC, A., RAHIM, H., SHEIKH, SIMONCELLI, E. "Image Quality Assessment: From Error Visibility to Structural Similarity" IEEE Transactions on Image Processing, vol. 13, no.4, p.p. 600-612, April 2004
[非特許文献6]JPEG - Wikipedia, the free encyclopedia, http://en.wikipedia.org/wiki/JPEG, August 05, 2007
[非特許文献7]S. CHANDRA and C.S.ELLIS "JPEG Compression Metric as a Quality Aware Image Transcoding"Proceedings of USITS' 99: The 2nd USENIX Symposium on Internet Technologies and Systems, Boulder, Colorado, USA, October 11-14, 1999.
[非特許文献8]S.COULOMBE and G.GRASSEL, "Multimedia adaptation for the multimedia messaging service, "IEEE Communications Magazine, vol.42, no.7, pp.120-126, July 2004.
[非特許文献9]Z.LEI and N.D.GEORGANS, "Accurate bit allocation and rate control for DCT domain video transcoding," in IEEE CCECE 2002. Canadian Conference on Electrical and Computer Engineering, vol.2, pp.968-973, 2002.
[非特許文献10]A.VETRO, C.CHRISTOPOULOS, and H.SUN, "Video transcoding architectures and techniques: an overview," IEEE Signal Processing Magazine, vol.20, no.2, pp.18-29, March 2003.
[非特許文献11]J.RIDGE, "Efficient transform-domain size and resolution reduction of images, "Signal Processing Image Communication, vol.18, no.8, pp.621-639, September 2003
[非特許文献12]The independent JPEG Group's JPEG Software, release 6b, Documentation Roadmap and associated software, published on the Internet at ftp.uu.net (Internet address 192.48.96.9) on March 27, 1998
[非特許文献13]S.GRGI'C, M.GRGI'C, and M.MRAK, "Reliability of objective picture quality measures," Journal of Electrical Engineering, vol.55, no.1-2, pp.3-10, 2004
[非特許文献14]OMA Multimedia Messaging Service, Architecture Overview, Approved Version 1.2 01 March 2005, published by Open Mobile Alliance, available from http://www.openmobilealliance.org/release_program/mms_v1_2.html
[非特許文献15]3GPP in 3GPP TS 23.140 V6.14.0 (November 06, 2006) Technical Specification 3rd Generation Partnership Project; Technical Specification Group Core Network and Terminals; Multimedia Messaging Service (MMS); Functional description; Stage 2 (Release 6) at http://www.3gpp.org/ftp/Specs/html-info/23140.htm (document http://www.3gpp.org/FTP/Specs/archive/23_series/23.140/23140-6e0.zip)
[非特許文献16]International Serch Report and Written Opinion rendered by CIPO, dated October 06, 2008
上述に鑑みて、本発明の目的の1つは、先行技術の欠点がない、または軽減された画像スケーリング方法およびシステムを提供することである。
本発明の一側面によると、ファイルサイズおよび画像サイズにおける制約のある端末用に入力画像を出力画像にトランスコードする画像トランスコードシステムであって、コンピュータ実行可能命令を格納するコンピュータ可読格納媒体を有するコンピュータを備え、コンピュータ実行可能命令はコンピュータに実行されると、入力画像のサイズ、ファイルサイズ、および符号化画質係数QF(I)を判断する画像特徴抽出モジュールと、トランスコーダスケーリング係数zTとトランスコーダ画質係数QFTとを含むトランスコードパラメータで、入力画像を出力画像にトランスコードするトランスコードモジュールと、トランスコードの画質メトリックを決定する画質決定ブロックと、出力画像の相対的な出力ファイルサイズを、トランスコードパラメータの関数として決定する画質およびファイルサイズ予測モジュールと、相対的なファイルサイズの最大値を満たす最適なトランスコードパラメータを決定して、最適な品質メトリックを生成する画質認識パラメータ選択モジュールとを提供する画像トランスコードシステムが提供される。
トランスコードモジュールは、入力画像を伸張する伸張モジュールと、伸張された入力画像をトランスコーダスケーリング係数zTでスケーリングするスケーリングモジュールと、伸張されスケーリングされた入力画像を、トランスコーダ画質係数QFTで圧縮する圧縮モジュールとを含む。
画質認識パラメータ選択モジュールは、入力画像のサイズおよび端末の制約から決定されるスケーリング係数の最大値より小さいスケーリング係数zTと、トランスコーダ画質係数QFTとの実現可能な組み合わせを選択する計算手段と、画質メトリックが最適化されるまで、特異な値の対(zT、QFT)を反復して選択する計算手段とを含み、実現可能な組み合わせにより、相対的なファイルサイズの最大値を考慮する相対的な出力ファイルサイズ予測が行われる。
画質決定ブロックは、画質メトリックを明示的に計算する画質評価モジュールを含み、画質評価モジュールは、出力画像を伸張する伸張(R)モジュールと、伸張した出力画像をリスケーリング係数zRでスケーリングするスケーリング(zR)モジュールと、入力画像を伸張する伸張(V)モジュールと、伸張した入力画像をスケーリング係数zVでスケーリングするスケーリング(zV)モジュールと、伸張されスケーリングされた出力画像と、伸張されスケーリングされた入力画像とから、画質メトリックを計算する画質計算モジュールとを含む。
好適には、画質メトリックは、入力画像に対する出力画像のピーク信号対ノイズ比(PSNR)測度に基づく。または、画質メトリックは、入力画像に対する出力画像の極大差(MD)測度のいずれかに基づく。出入力画像間の他の測度を利用することもできる。
入力画像および出力画像はJPEG(ジェイペグ)画像である。
画質決定ブロックは、画質メトリックとして予測された画質メトリックを検索する画質予測テーブルを含み、画質予測テーブルは、予測された画質メトリックを示す複数のテーブル入力値を含み、予測された画質メトリックは、入力画像の符号化画質係数QF(I)に等しい入力画質係数QF_inと、トランスコーダスケーリング係数zTまたは出力画像の観察条件に適した別の値に等しくなるよう設定されうる観察スケーリング係数zVと、出力符号化画質係数QFTと、トランスコーダスケーリング係数zTとにより指標付される。
画質予測テーブルは、予測された画質メトリックを示す複数のテーブル入力値を含み、予測された画質メトリックは、さらに、観察スケーリング係数zVにより指標付され、観察スケーリング係数zVは、トランスコーダスケーリング係数zTとスケーリング係数の最大値との間の範囲の値に等しくなるよう設定される。
画質決定ブロックは、さらに、画質メトリックを明示的に計算する画質評価モジュールを含み、画質評価モジュールは、出力画像を伸張する伸張(R)モジュールと、伸張した出力画像をリスケーリング係数zRでスケーリングするスケーリング(zR)モジュールと、入力画像を伸張する伸張(V)モジュールと、伸張した入力画像をスケーリング係数zVでスケーリングするスケーリング(zV)モジュールと、伸張されスケーリングされた出力画像と、伸張されスケーリングされた入力画像とから、画質メトリックを計算する画質計算モジュールとを含む。
画質認識パラメータ選択モジュールは、さらに、実現可能な組み合わせ(zT,QFT)の実現可能なセット「F」を格納する手段と、画質予測テーブルから得られた予測された画質メトリックにより実現可能なセット「F」の中の入力値をソートする計算手段と、実現可能なセット「F」の、期待できるサブセットを生成する計算手段と、画質メトリックが最適化されるまで、画質評価モジュールで、期待できるサブセットから特異な値の対(zT,QFT)を反復して選択し、対応する画質メトリックを計算する計算手段とを含む。
本発明の別の側面によると、デバイスファイルサイズおよび画像サイズにおける制約のある端末での表示用に入力画像を出力画像に画質を認識してトランスコードする方法であって、(a)端末の制約を取得する段階と、(b)入力画像を取得する段階と、(c)入力画像のサイズとファイルサイズとを含む入力画像の特徴を抽出する段階と、(d)入力画像の画像サイズとサイズとからスケーリング係数の最大値z_maxを決定する段階と、(e)デバイスファイルサイズと入力画像のファイルサイズとから、相対的なファイルサイズの最大値を決定する段階と、(f)複数の実現可能なトランスコードパラメータの値の対を選択する段階であって、各値の対は、スケーリング係数の最大値z_maxを超えないトランスコーダスケーリング係数zTと、予測される相対的な出力ファイルサイズが、相対的なファイルサイズの最大値を超えないよう選択されるトランスコーダ画質係数QFTとを含む段階と、(g)複数の実現可能なトランスコードパラメータの値の対のなかから選択されたものにより入力画像を出力画像にトランスコードする段階と、(h)トランスコードの計測メトリックを決定する段階と、(j)最良の画質メトリックに関連する出力画像を、最良の画像として保存する段階と、(k)複数の実現可能なトランスコードパラメータの値の対の別のいずれかを選択して、最良の画質のメトリックが見つかるまで段階(g)から(j)までを繰り返す段階と、(l)最良の画像を出力する段階とを備える。
段階(c)は、入力画像の符号化画質係数QF(I)を抽出する段階を有し、段階(e)は、相対的な出力ファイルサイズを、符号化画質係数QF(I)と、トランスコーダスケーリング係数zTと、トランスコーダ画質係数QFTとの関数として予測する段階を有する。
段階(g)は、トランスコード後の出力画像の実際の相対的なファイルサイズが相対的なファイルサイズの最大値を超える場合に段階(k)を省く段階を有する。
段階段階(h)は、(i)入力画像を伸張して、観察スケーリング係数zVでスケーリングして、第1の中間画像を生成する段階と、(ii)出力画像を伸張して、リスケーリング係数zRでスケーリングして、第2の中間画像を生成する段階と、(iii)第2の中間画像と第1の中間画像との間のピーク信号対ノイズ比(PSNR)として画質メトリックを計算する段階とを有し、観察スケーリング係数zVは、出力画像に予測される観察条件に基づいてzTおよび1の間で選択され、zRはzR = zV / zと計算される。
段階(h)は、2以上の指標により指標付される多次元画質予測テーブルから画質メトリックを読み出す段階を有し、2以上の指標は、(指標1)入力画像の入力画質係数QF(I)、(指標2)出力画像に予測される観察条件に基づいてzTおよび1の間で選択される観察スケーリング係数zV、(指標3)トランスコーダ画質係数QFT、および(指標4)トランスコーダスケーリング係数zTから選択される。
好適には、段階(h)は、画質予測テーブルの複数の入力値の間を、2以上の指標のうち少なくとも1つについて補間する段階を有する。
段階(f)は、実現可能なトランスコードパラメータの値の対の実現可能なセット「F」を生成して、セットに対して最高画質メトリックを生じることが予想されるトランスコードパラメータの値の対の定義可能な数C_maxのみがセット内に残り、選択に利用可能なように維持されるまで、切り捨てを行い、予測された画質メトリックは、2以上の指標により指標付される多次元画質予測テーブルから読み出すことにより得られ、2以上の指標は、(指標1)入力画像の入力画質係数QF(I)、(指標2)出力画像に予測される観察条件に基づいてzTおよび1の間で選択される観察スケーリング係数zV、(指標3)トランスコーダ画質係数QFT、および(指標4)トランスコーダスケーリング係数zTであり、段階(h)は、(i)入力画像を伸張して、観察スケーリング係数zVでスケーリングして、第1の中間画像を生成する段階と、(ii)出力画像を伸張して、リスケーリング係数zRでスケーリングして、第2の中間画像を生成する段階と、(iii)第2の中間画像と第1の中間画像との間のピーク信号対ノイズ比(PSNR)として画質メトリックを計算する段階とを有し、観察スケーリング係数zVは、出力画像に予測される観察条件に基づいてzTおよび1の間で選択され、zRはzR = zV / zと計算される。
適宜、段階(f)は、テーブルの複数の入力値の間を、2以上の指標のうち少なくとも1つについて補間する段階を有する。
プロセッサにより実行されると上述の方法の複数の段階を実行するコンピュータ可読命令を格納して備えるコンピュータ可読媒体、およびコンピュータ可読媒体を備える製品も提供される。
本発明のまた別の1以上の側面によると、デバイスファイルサイズおよび画像サイズにおける制約のある表示デバイスでの表示用に入力画像を出力画像に画質を認識してトランスコードする方法であって、(a)表示デバイスの制約を取得する段階と、(b)入力画像を取得する段階と、(c)入力画像の特徴を抽出する段階と、(d)デバイスの制約と抽出された特徴とから出力画像のファイルサイズを予測する段階と、(e)デバイスの制約を充たす実現可能なトランスコードパラメータセットを選択する段階と、(f)選択された実現可能なトランスコードパラメータで、入力画像を出力画像にトランスコードする段階と、(g)出力画像の画質メトリックを決定する段階と、(h)最高画質の画質メトリックが見つかるまで段階(e)から(g)を繰り返す段階とを備える方法が提供される。
上述した方法において、段階(g)は、入力画像に対する出力画像のピーク信号対ノイズ比(PSNR)または極大差(MD)、または出入力画像間の別の測度の計算に基づいて画質メトリックを決定する段階を有する。
好適には、段階(g)は、画質予測テーブルを検索することにより、画質メトリックを予測する段階を有する。適宜、段階(g)は、テーブルの入力値間を補間する段階を有する。
段階(e)は、高画質メトリックを生じることが予測される実現可能なトランスコードパラメータのみを維持することにより、より小さなセットになるよう実現可能なトランスコードパラメータセットに対して切り捨てを行う段階を有する。段階(e)は、画質予測テーブルを用いて、実現可能なトランスコードパラメータが指標付する画質予測テーブルを予測された画質メトリックを検索するべく用いる段階を有する。
上述のシステムおよび方法が処理する入出力画像は、JPEG画像であることが好ましい。本発明の実施形態の方法およびシステムは、さらに、他のフォーマットで符号化されたデジタル画像(例えば、ロスの多い圧縮モードで利用されている際のGIF(グラフィック交換フォーマット)およびPNG(ポータブルネットワークグラフィックス)等)にも応用可能である。
このように、向上したデジタル画像のトランスコードシステムおよび方法が提供された。
以下に、添付図面を参照しながら本発明の実施形態を例示する。
先行技術のMMSシステムアーキテクチャ100の例を示す。
基本的な画質認識画像トランスコードシステム200(基本的なシステム)を示す。
基本的なシステム200の画質評価モジュール210の詳細を示す。
基本的なシステム200に対応するJPEG画像トランスコードのパラメータを選択する、基本的な画質認識パラメータ選択方法(基本的な方法)400のフローチャートである。
基本的な方法400のステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の拡張を示すフローチャートである。
画質予測テーブル生成システム500を示す。
単純な画質認識画像トランスコードシステム(単純なシステム)600を示す。
単純なシステム600に応用可能なJPEG画像トランスコードにおける画質認識パラメータ選択の予測方法700のフローチャートである。
予測方法700のステップ702「予測画質認識パラメータ選択ループを実行する」の拡張を示すフローチャートである。
向上した画質認識トランスコードシステム(向上したシステム)800のブロック図を示す。
向上したシステム800に応用可能なJPEG画像トランスコードの画質認識パラメータ選択のための、向上した方法900のフローチャートである。
向上した方法900の「セット「F」を生成する」ステップ902の拡張を示すフローチャートである。
向上した方法900のステップ904「向上したQ認識パラメータ選択およびトランスコードを実行する」の拡張を示すフローチャートである。
zV=0.7およびs_max = 1.0におけるソートされたPSNR値の例を示す。 zV=0.7および s_max = 0.7におけるソートされたPSNR値の例を示す。
図6の画質予測テーブル生成システム500の機能を示す、画質予測テーブル生成方法1000のフローチャートである。
本発明の実施形態の目的の1つは、解像度、画像サイズ、およびファイルサイズ面でのディスプレイデバイスの制約を満たしつつ、ユーザ体験またはトランスコードされた画像の目標画質を最大化することのできる、画像をスケーリングするための方法および画質認識画像トランスコーダを提供することである。
第1の実施形態では、多数の画像をトランスコードした結果に基づく予測テーブル(以下のテーブル1)を利用するトランスコーダシステムを記載する。予測テーブル、およびこのようなテーブルの生成方法のさらなる詳細は、上述した、Steven PigeonおよびStephane Coulombeによる「Computationally efficient algorithms for predicting the file size of JPEG images subject to changes of quality factor and scaling」という名称の論文に説明されている。
予測テーブルは3次元のルックアップテーブルであり、トンラスコード前の画像の入力画質係数(QF_in)、スケーリング係数(「z」)、および、スケーリングされた画像の圧縮に利用される出力画質係数(QF_out)という3つの量子化変数の関数として一定の統計的信頼度をもってトランスコードされた画像のファイルサイズを予測することができる。
読者の簡便性のために、上述の論文から予測テーブルの二次元スライスの一例を再現する。
Figure 0005391465
テーブル1:相対的なファイルサイズ予測
テーブル1は、スケーリング係数「z」の関数である入力画質係数QF_in=80パーセント、および、出力画質関数QF_outを有する画像をトランスコードする際の相対的なファイルサイズ予測値の二次元スライスである。テーブルでは、相対的なファイルサイズの予測値を10×10の相対的なサイズ係数のマトリックスに量子化している。マトリックスの各値は、選択された出力画質係数QF_outおよび量子化されたスケーリング係数「z」の関数である、スケーリングされたJPEG画像の相対的なファイルサイズ予測値の平均値の例である。出力画質係数は、マトリックスの行の指標となっている10から100の範囲の10単位の値に量子化されている。10パーセントから100パーセントの範囲の量子化されたスケーリング係数「z」は、サブアレイの列の指標となっている。テーブルの各値は、相対的なサイズ係数を表しており、この係数は、選択されたパラメータによる画像のトランスコードにより、画像のファイルサイズがこの値分だけ変化(伸張、スケーリング、再圧縮)することが予想される係数である。
一例として、70パーセントのスケーリング係数および90の出力画質係数QF_outでトランスコードされたファイルサイズが100KBの入力画像により、100 KB * 0.75 = 75 KBのファイルサイズの出力画像が生成されると予想される。この結果は、多数の異なる画像を利用して予め計算された大きなトランスコードセットからの平均値に基づいた予測であり、ある特定の画像をトランスコードすることで、異なるファイルサイズが生じることもある。
上述の論文では詳述されていることでが、テーブルは、多数の画像からなるトレーニングセットから生成され、最適化されてよい。
80パーセントの入力画質係数QF_inは、ワールドワイドウェブ上で見つかる画像の大多数を代表する値として選択された。予測テーブルは、異なる入力画質係数の画像をトランスコードする際のファイルサイズ予測値を表す、さらなる二次元スライスを含んでよい。さらに、テーブル1をサイズ10×10のマトリックスの一例として選択する。これとは異なるサイズのマトリックスを利用することもできる。さらに、以下の記載では、QF_in およびz等のパラメータが量子化されているが、この代わりに、テーブルの値間を補間してもよい。例えばテーブル1では、65パーセントのスケーリング係数および75の出力画質係数の相対的なファイルサイズ予測をする際に、線形補間を利用して、相対的なファイルサイズ(0.33+0.42+0.41+0.52) / 4 = 0.42を得ることができる。
本発明の実施形態の残りの説明では、80パーセントの入力画質係数、および、10×10サイズのテーブル1を利用することが前提となる。
テーブル1を調べると明らかなように、QF_outおよびスケーリング係数「z」の異なる組み合わせによっても同じ予測ファイルサイズ概算値が生じているケースがあり、これでは、どの組み合わせが主観的なユーザ体験または客観的な画質を最大化するかという疑問が生じる。
客観的な画質は、幾らかの異なる方法で計算可能である。本発明の第1の実施形態は、入力(トランスコード前)画像と出力(トランスコード後)画像とを比較する画質メトリック(quality metric)を提案する。画像圧縮の際の再構築画質の測度としては、通常、所謂「ピーク信号対ノイズ比(PSNR)」が利用されている。「極大差」(MD)等の他のメトリックも、一般性を損なわずに利用可能である。
図2は、基本的な画質認識画像トランスコードシステム200(基本的なシステム)を示し、このシステムはコンピュータを含み、コンピュータは、プロセッサと、コンピュータ実行可能な命令を記憶するコンピュータ可読媒体とを含み、コンピュータ実行可能な命令はプロセッサにより実行されると、画像特徴抽出モジュール202、画質およびファイルサイズ予測モジュール204、画質認識パラメータ選択モジュール206、トランスコードモジュール208、および、画質評価モジュール210を含む基本的な画質決定ブロック209というモジュールを提供する。トランスコードモジュール208は、伸張212、スケーリング214、および圧縮216用のモジュールを含む。基本的なシステム200は、さらに、入力画像(入力画像「I」)218、出力画像(出力画像「J」)220、予測テーブル「M」222、および端末制約(制約)セット224を記憶する(例えばデータ記憶)手段を含む。端末制約セット224は、最大デバイスファイルサイズS(D)、およびデバイスの最大許容画像サイズ(つまり、最大許容画像幅W(D)および最大許容画像高さH(D))を含む。
テーブル「M」222は、上述の「Kingston」論文に示されている方法により得ることができ、これを用いてテーブル「M」222のサブアレイの一例としてテーブル1が再生される。
入力画像「I」218は、トランスコードモジュール208の画像入力226に連結されて、トランスコードモジュール208の画像出力228で変換および出力され、出力画像「J」220へと連結される。
入力画像「I」218はさらに、画像特徴抽出モジュール202の入力に、および、画質評価モジュール210の第1の画像入力230に連結される。
出力画像「J」220を出力するトランスコードモジュール208の画像出力228は、さらに、画質評価モジュール210の第2の画像出力232に連結される。品質評価モジュール210は、画質メトリック「QM」を出力して、これが、画質認識パラメータ選択モジュール206のQM入力234に送られる。
画像特徴抽出モジュール202の出力は、画質およびファイルサイズ予測モジュール204の入力画像パラメータ(IIP)入力236に、および、画質認識パラメータ選択モジュール206の画像パラメータ入力238に連結されるIIPのセットである。入力画像パラメータ(IIP)のセットは、入力画像「I」218のファイルサイズS(I)、符号化画質係数QF(I)、および、幅および高さサイズW(I)およびH(I)を含む。
画質およびファイルサイズ予測モジュール204の出力は、テーブル「M」222のサブアレイM(I)である(つまり、入力画像「I」218の量子化された符号化画質係数に対応するQF_in = QF(I)で指標付されているテーブル「M」222の一部分である)。サブアレイM(I)は、画質認識パラメータ選択モジュール206のファイルサイズ予測入力240に入力される。
画質認識パラメータ選択モジュール206の出力は、トランスコーダスケーリング係数「zT」およびトランスコーダ画質係数「QFT」(出力符号化画質係数QFTとも称される)を含むトランスコードパラメータセットである。これらトランスコードパラメータは、トランスコードモジュール208のトランスコードパラメータ入力242に連結される。
好適な実施形態では、基本的なシステム200は、好適にはソフトウェアプログラムに実装されてよく、ここでは、モジュール202および216がサブルーチン関数のソフトウェアモジュールであり、モジュールの入力および出力が、それぞれ、関数呼び出しパラメータおよび関数戻り値である。入力画像I 218、出力画像I 220、およびテーブル「M」222等のデータが、全ての関数がアクセス可能なグローバルデータとして記憶されてよい。端末制約セット224は、デバイス特性のデータベースから入手されてよい。
入力画像「I」218のトランスコードはトランスコードモジュール208で行われ、具体的には、伸張モジュール212で伸張され、スケーリングモジュール214で、トランスコーダスケリーング係数「zT」でスケーリングされ、スケーリングされた画像を圧縮モジュール216で、トランスコーダ画質係数「QFT」で圧縮することにより行われる。
このようにトランスコードパラメータzTおよびQFTはトランスコード動作を制御するが、これらトランスコードパラメータの値は、画質認識パラメータ選択モジュール206により決定される。画質評価モジュール210の趣意は、入力画像「I」218を、出力画像「J」220と比較して、画質係数「QM」(トランスコード処理により生じる歪みの測度)を計算することである。本発明の好適な実施形態では、画質メトリック「QM」は、画像対(つまり、画像JおよびI)のPSNRとして明示的に計算され、dB単位で計測され、高いdB値ほど少ない歪み(つまり、高画質)を示す。
ファイルサイズ予測モジュール204の画質は、入力画像パラメータ「IIP」のセットの符号化画質係数QF(I)を利用して、テーブル「M」222のサブアレイM(I)を選択するが、ここでサブアレイM(I)は、画質係数QF(I)で元々符号化されていた画像(例えば、入力画像「I」218)のトランスコードにより出力が予測される相対的出力ファイルサイズを表す。画質係数QF(I)は、実際の入力画質係数QF_inの最も近い量子化数である。
画質認識パラメータ選択モジュール206は、トランスコードパラメータzTおよびQFTの実現可能な値の対(zT,QFT)を選択するための計算手段を含むが、ここで、実現可能な、とは、以下のように定義される。 トランスコードパラメータの全範囲から、テーブル「M」222の指標範囲(「z」およびQF_out)から特異な値の対(distinct value pair)(zT,QFT)を選択し、 この値の対(zT,QFT)は、トランスコーダスケーリング係数zTがスケーリング係数の最大値「z_max」を超えない場合に許容され(スケーリング係数の最大値「z_max」は、端末制約セット224から、最大許容画像幅W(D)または高さH(D)を超えないように決定される)、 次にこの値の対(zT,QFT)を利用して、サブアレイM(I)を指標付して、対応する予測された相対的な出力ファイルサイズsTを求め、 予測された相対的な出力ファイルサイズsTが相対的なファイルサイズの最大値s_maxを超えない場合に、この値の対(zT,QFT)を、「実現可能である」とし(s_maxは、1、または、制約224からの最大デバイスファイルサイズS(D)を、入力画像「I」218の実際のファイルサイズS(I)で除算した割合のうちいずれか小さいほうの値)、s_maxを超える場合には、他の特異な値の対が選択される。
画質メトリックQMが最適化されるまで特異な値の対(zT,QFT)を反復して探す計算手段は、実現可能なzTおよびQFTの組み合わせ各々のループを含む。つまり、 トランスコード処理(入力画像「I」218から出力画像「J」220まで)を、トランスコードモジュール208により行い、 得られた出力画像「J」220は、実際のファイルサイズS(J)を有し、トランスコードは、出力画像「J」220の実際のファイルサイズS(J)を入力画像「I」218の実際のファイルサイズS(I)で除算することで得られた相対的なファイルサイズが、相対的なファイルサイズの最大値s_maxを超える場合には、依然として拒絶され、 トランスコードの画質は、画質メトリックQMを特定のトランスコードに生成することで画質評価モジュール210により評価され(詳細は以下を参照のこと)、 最大の関連画質係数QMを有する出力画像「J」220を、最良の画像として保持する。
画質評価モジュール210における入力画像「I」218と出力画像「J」220との比較は、同じ画像解像度を有する2つの画像を比較するためには、少なくとも1つ追加的スケーリング処理が必要となるという事実により複雑化する。
図3は、基本的なシステム200の画質評価モジュール210の詳細を示す。画質評価モジュール210は、伸張(R)モジュール302、スケーリング(zR)モジュール304、伸張(V)モジュール306、スケーリング(zV)モジュール308、および画質計算モジュール310を含む。画質評価モジュール210の画像入力230に連結された入力画像「I」は、伸張(V)モジュール306により伸張され、スケーリング(zV)モジュール308によりスケーリングされ、画質計算モジュール310の第1の入力に連結される。同様に、第2の画像入力232に連結された出力画像「J」は、伸張(R)モジュール302により伸張され、スケーリング(zR)モジュール304によりスケーリングされ、画質計算モジュール310の第2の入力に連結される。画質計算モジュール310は画質メトリックQMを生成する。
ここで、スケーリング(zR)モジュール304で利用されるリスケーリング係数zRと、スケーリング(zV)モジュール308で利用される観察スケーリング係数zVという、2つのリスケーリングパラメータが定義される。
画像解像度が同等になるには、zV = zT * zRでなくてはならず、本式において、zTは上述したトランスコーダスケーリング係数zTである。画質を比較する際には元の画像解像度を増加させたくはないので、観察スケーリング係数zVは1以下でなくてはならない。トランスコーダスケーリング係数zTは常に1以下であり、デバイスの制約を満たすべく選択される。
観察スケーリング係数zVは、出力画像「J」をスケーリングする観察条件に基づき決定され、観察者の体験を最大化する(最適化する)ように(つまり、期待される主観的な画質が得られるように)選択されるべきである。
3つのケースが対象となる。
観察ケース1:zV=1である。入力画像「I」の解像度で画像間を比較する。これは、zR = 1 / zTに対応しており、出力画像「J」を拡大する必要がある。
観察ケース2:zV=zTである。出力画像「J」の解像度で画像間を比較するので、zR = 1である。
観察ケース3:zT < zV < 1である。元の(I)およびトランスコードされた(J)画像解像度の間のある解像度で画像間を比較するので、zR = zV / zTである。これによりzR > 1となり、出力画像(J)を拡大する必要がある。
予期される観察条件は、観察スケーリング係数zVの選択に対応しており、トランスコードされた結果に対するユーザの評価に大きな影響を持つ。出力画像「J」が端末で視られるだけであれば、観察ケース2を選択するとよいであろう。
しかし、出力画像「J」が別の、より多機能のデバイス(例えばパソコン等)に後に転送され、再度拡大される可能性がある場合には、元の画像(入力画像「I」)の解像度を考慮する必要があるので、観察ケース1となろう。
観察ケース3は、出力画像「J」が、トランスコードされた解像度と元の画像の解像度との間のある解像度で視られる際に利用されるであろう(例えば、デバイスがサポートする最大解像度で、ユーザがそれ自身の解像度にとらわれず、デバイスでパンおよびズーム機能を利用する際)。
観察ケース3は、入出力画像両方がスケーリング係数zVおよびzRをそれぞれ用いてスケーリングされる場合に最も一般的なケースである。特殊な場合(観察ケース1および観察ケース2)でも、容易に理解されるように、画質計算モジュール310において幾らかの処理効率が達成される。
例えば、観察ケース1では(zV=1)、比較の際に、入力画像「I」を実際にリスケーリングする必要はない。この結果、既に伸張された入力画像「I」が、トランスコードモジュール208の伸張モジュール212の出力で既に利用可能であり、これを画質計算モジュール310が直接利用することができる。
観察ケース2でも同様に、比較の際に、出力画像「J」を実際にリスケーリングする必要はない。この結果、出力画像「J」には伸張(R)モジュール302による伸張のみが必要となり、スケーリング(zR)モジュール304によるリスケーリング処理を省略することができる。
スケーリングおよび圧縮処理全般に固有の量子化によって、元の画像(入力画像「I」)と比べてトランスコードされた画像(出力画像「J」)には歪みが生じる。同様に、これら画像のいずれかまたは両方に対して画質評価モジュール210でリスケーリングが行われることにより、さらなる歪みが導入される。この結果、上述した3つのケースに対応する観察条件は、互いに画質計算において異なる結果を生じ、観察スケーリング係数zVおよび、結果得られるリスケーリング係数zRの選択に基づいて、値の対(zT,QFT)のトランスコードパラメータにおける互いに異なるパラメータ設定で最良画質の画像が得られることになる。基本的なシステム200が意図している用途においては、観察スケーリング係数zV(および暗黙のzR)を選択して、画質およびファイルサイズ予測モジュール204に設定してよい。最も簡単なケースでは、観察スケーリング係数zVは、トランスコーダスケーリング係数zTと等しくなるよう設定される(観察ケース2)。画像について、端末上での観察用のみの最適化が必要な場合には、観察条件を、デバイスがサポートする最大解像度に対応するように設定することが推奨される。
図4は、基本的なシステム200に対応するJPEG画像トランスコードのパラメータを選択する、基本的な画質認識パラメータ選択方法(基本的な方法)400のフローチャートである。基本的な方法400は、以下の連続ステップを含む。
ステップ402「デバイス制約を取得する」
ステップ404「入力画像Iを取得する」
ステップ406「画像特徴を抽出する」
ステップ408「画質およびファイルサイズを予測する」
ステップ410「パラメータを初期化する」
ステップ412「画質認識パラメータ選択およびトランスコードループを実行する」
ステップ414「結果を確認する」
ステップ416「画像Jを返す」
ステップ402「デバイス制約を取得する」では、ディスプレイデバイス(図1の発信先ノード106)の最大デバイスファイルサイズS(D)、最大許容画像幅W(D)、および最大許容画像高さH(D)を含む端末制約セット(図2の制約224)を、データベースから、または、ネットワークを介して直接ディスプレイデバイスから取得する。
ステップ404「入力画像Iを取得する」では、トランスコードする画像(入力画像「I」)を発信元端末またはサーバ(図1の発信元ノード102)から受信する。
ステップ406「画像特徴を抽出する」では(図2の、画像特徴抽出モジュール202参照)、ファイルサイズS(I)、画像幅W(I)、画像高さH(I)、および符号化画質係数QF(I)を含む入力画像パラメータのセットを入力画像「I」から取得する。JPEG符号化された画像では、ファイルサイズS(I)、画像幅W(I)、および画像高さH(I)は画像ファイルから容易に入手できる。画像の符号化に利用される符号化画質係数QF(I)は、画像ファイルには明らかな形で符号化はされてはいないかもしれないが、Surendar ChandraおよびCarla Schlatter EllisによるUnix(登録商標) Symposium on Internet Technologies and Systems(1999年)の「JPEG compression metric as a quality aware transcoding」という名称の論文に記載されている方法を用いることでかなり信頼性高く推定することができる。または、入力画像「I」の画質係数QF(I)を、単に、その用途に典型的な画質係数として仮定してしまうこともできる(例えば80パーセントといった具合に)。
ステップ408「画質およびファイルサイズを予測する」では(図2の画質およびファイルサイズ予測モジュール204参照)、観察条件を構築する、つまり、観察スケーリング係数zVに適切な値を選択する。
zV = min ( W(D)/W(I), H(D)/H(I), 1) ここで、zVは最大許容画像幅W(D)の入力画像幅W(I)に対する比率、最大許容画像高さH(D)の入力画像高さH(I)に対する比率、および1のうちいずれか最小のものである。画像のアスペクト比は通常トランスコードにおいて維持されると仮定する。1を上限とすることで、ディスプレイデバイスが元の入力画像「I」よりも大きな画像を表示する機能を有する場合においても、zVが1を超えないようにしている。変形例では適宜、水平方向および垂直方向のトランスコードを行う際に異なるスケーリング係数を利用することもできる。
符号化画質係数QF(I)を指標QF_inに量子化する際、テーブル「M」222のサブアレイM(I)が、ローカルファイルまたはデータベースから取得される。サブアレイM(I)は、スケーリング係数「z」の関数である相対的なファイルサイズ予測値と、スケーリングされた画像(QF_out)を圧縮するのに利用される出力画質係数QF_outとを含む。サブアレイM(I)は、さらに、zVを超えるスケーリング係数(「z」)およびディスプレイデバイスの相対的なファイルサイズの最大値s_maxを超える相対的なファイルサイズ予測値により指標付される列も含み、サブアレイM(I)の残りの値は、実現可能な指標値の対のセット(「z」,QF_out)により指標付される。
ステップ410「パラメータを初期化する」では、幾らかの変数を初期化して、後のステップに備えさせる。変数は以下の通りである。
最良のトランスコーダ画質係数=0
最良のトランスコーダスケーリング係数=0
最良の画質メトリックQM=0、および
最良の画像=NIL
さらに2つの制約である、相対的なファイルサイズの最大値s_maxおよびスケーリング係数の最大値z_maxも初期化する。相対的なファイルサイズの最大値s_maxは、最大デバイスファイルサイズS(D)を、1を上限として、入力画像「I」218の実際のファイルサイズS(I)で除算することで計算される。スケーリング係数の最大値z_maxは、既に前のステップで計算された観察スケーリング係数zVにより与えられる(つまり、z_max = zV)。
ステップ412「画質認識パラメータ選択およびトランスコードループを実行する」は、特異な値の対(z,QF_out)をサブアレイM(I)から取り、zTおよびQFTをこれら値に割り当て、入力画像「I」を、zTおよびQFTで出力画像「J」にトランスコードして、結果得られる画質メトリックQMを計算し、最良の画像が見つかるまでループを実行するが、ここで「最良」とは、最高の画質のメトリックQMが得られるという意味である。同時に、ループは、トランスコードステップで利用され、最良の出力画像(図5には不図示)が得られたトランスコーダ画質係数QFTおよびトランスコーダスケーリング係数zTの記録を残してよいが、最終的に最良の画像のみが対象となるという観点からはこれは必須ではない。
図5は、基本的な方法400のステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の拡張を示すフローチャートであり、以下のサブステップを含む。
ステップ452「次の値の対を入手する」
ステップ454「値の対は利用可能か?」
ステップ456「値の対は実現可能か?」
ステップ458「IをJにトランスコードする」
ステップ460「実際のサイズOK?」
ステップ462「Jを伸張して、zRでXにスケーリングする」
ステップ464「Iを伸張して、zVでYにスケーリングする」
ステップ466「メトリックQM=PSNR(X,Y)を計算」
ステップ468「QM>最良のQ?」
ステップ470「最良のQ:=QM、最良の画像:=Jに設定する」
ステップ472「J:=最良の画像に設定する」
ステップ462から466は、組み合わせられて、画質評価機能を有する「画質評価ステップ」474(図2の画質評価モジュール210参照)となる。
ステップ452「次の値の対を入手する」で、特異な値の対が利用可能な限り、サブアレイM(I)を指標付する次の値の対(「z」,QF_out)を取っていく。
ステップ454「値の対は利用可能か?」で、特異な値の対が利用可能か否かをテストする。利用可能であれば(ステップ454「YES」)、次いでステップ456「値の対は実現可能か?」を実行し、利用できないということであれば(ステップ454「NO」)、全ての特異な値の対を使い切っているということなので、ループはステップ472「J:=最良の画像に設定する」へと抜ける。
ステップ456「値の対は実現可能か?」では2つのテストを行う。先ず、値の対(「z」,QF_out)からのスケーリング係数「z」を、スケーリング係数の最大値「z_max」と比較する。スケーリング係数「z」がスケーリング係数の最大値z_maxを超える場合には、値の対(「z」,QF_out)は無効であり、実現不可能である。値の対(「z」,QF_out)が無効の場合には、ステップ456「値の対は実現可能か?」を(「NO」)で早急に退出して、ループの初めにジャンプして戻る。
そして、予測された相対的ファイルサイズsを、特異な値の対(「z」,QF_out)が指標付するサブアレイM(I)から読み出し、相対的なファイルサイズの最大値s_maxと比較する。予測された相対的ファイルサイズsが許容可能な場合(つまり、相対的なファイルサイズの最大値s_maxを超えない場合)、ステップ456「値の対は実現可能か?」を「YES」で抜けて、続いてステップ458「IをJにトランスコードする」を行い、許容不可能な場合には(ステップ456:NO)、ループの初めにジャンプして戻る(つまりステップ452「次の値の対を入手する」へ戻る)。
ステップ458「IをJにトランスコードする」で、入力画像「I」を伸張して、トランスコーダスケーリング係数zT=「z」でスケーリングして、スケーリングされた画像をトランスコーダ画質係数QFT = QF_outで圧縮することで、出力画像「J」を得る。
ステップ460「実際のサイズOK?」で、出力画像「J」のファイルサイズを、入力画像「I」のファイルサイズで除算することにより、実際の相対的サイズs_outを計算する。実際の相対的サイズs_outが相対的ファイルサイズの最大値s_maxを超えない場合(ステップ460がYESの場合)、続いてステップ474「画質評価ステップ」を行い、超える場合には(ステップ460:NO)、ループの初めにジャンプして戻る(つまりステップ452「次の値の対を入手する」へ戻る)。実際の相対的サイズs_outは、実際には、予測された相対的ファイルサイズ「s」よりも大きい場合があることに留意されたい。
ステップ474「画質評価ステップ」のステップ462「Jを伸張して、zRでXにスケーリングする」では、出力画像「J」を伸張してリスケーリング係数zR(zR = zV / zT)でスケーリングすることで、リスケーリングされた出力画像「X」である第1の中間画像を得る。同様にして、ステップ464「Iを伸張して、zVでYにスケーリングする」では、入力画像「I」を伸張して観察スケーリング係数zVでスケーリングすることで、リスケーリングされた入力画像「Y」である第2の中間画像を得る。上述したように、観察スケーリング係数zVは、ユーザ体験を最大化する値に、前もって選択されている。3つの観察ケース1から3を考慮することができる。
ステップ466「メトリックQM=PSNR(X,Y)を計算」で、画質メトリックQMの値を、リスケーリングされた出力画像「J」および入力画像「I」のピーク信号対ノイズ比(PSNR)として計算する。または、例えば「極大差(MD)」に基づくもののような、これとは異なるメトリックも、一般性を損なわずに利用可能である。
ステップ468「QM>最良のQ?」では、計算された画質メトリックQMを、ループでそれまでに見つかっているもののうちの最良の画質メトリックと比較する。ここで、「最良なQ」とは、ステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の開始前にゼロに初期化されたものであるので、それまでに見つかっているもののうちの最良の画質メトリックである。計算された画質メトリックQMが最良の画質メトリックよりも大きい場合(「最良のQ」、ステップ468:YES)、続いてステップ470「最良のQ:=QM、最良の画像:=Jに設定する」を行い、大きくない場合には(ステップ468:NO)、ループの初めにジャンプして戻る(つまりステップ452「次の値の対を入手する」へ戻る)。
ステップ470「最良のQ:=QM、最良の画像:=Jに設定する」では、それまでで最良の結果を保存する、つまり、最大の画質メトリック「最良のQ」を、計算された画質メトリックQと等しいものとして設定して、最良の画像を出力画像「J」と等しいものとして設定して、トランスコードパラメータQF_outおよびzTを、それぞれ最良のトランスコーダ画質係数および最良のトランスコーダスケーリング係数(図5には不図示)として保存してよい。ステップ470の後、ループの初めにジャンプして戻り(つまりステップ452「次の値の対を入手する」へ戻る)、全ての実現可能なパラメータの対が使い果たされるまでに、入力画像「I」のより良いトランスコードが見つかる可能性もある。ループを最終的に抜けると(ステップ454「値の対は利用可能か?」:NO)、続いてステップ472「J:=最良の画像に設定する」を行い、出力画像「J」を、ループの実行中に見つかった最良の画像と等しいものとして設定する。
これにより、ステップ412「画質認識パラメータ選択およびトランスコードループを実行する」を拡張したステップが終了し、続いてステップ414「結果を確認する」に移る(図4)。
ステップ414「結果を確認する」では、有効な最良の画像が実際に見つかり、出力画像「J」に割り当てられたことを確認する、という単純なチェックを行う(つまり、「J」はNILではない)。ステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の実行中に、実現可能なトランスコードパラメータが見つからない場合があり、最良の画像がNILのままである場合には出力画像「J」をNILに設定する。これは異常または欠陥的な条件とも考えられるので、例外的エラーを適合エンジン108に返してもよい。
最終ステップ416「画像Jを返す」では、トランスコードされた出力画像「J」をシステムに返すことにより、JPEG画像トランスコードにおける基本的な画質認識パラメータ選択方法400が終了する。
基本的な画質認識パラメータ選択方法400を採用する基本的なシステム200は、このようにして用いられて画質認識トランスコーダを提供するが、処理コストは高価となりうる、というのも、与えられた入力画像「I」および端末制約セットの元で最良の出力画像「J」を見つけるには多数のトランスコードおよびスケーリング処理を行う必要がある場合が多いからである。
画質認識パラメータ選択およびトランスコードループを、予測された画質メトリック情報、入力画像制約から得られたテーブル指標、デバイス制約、および観察条件を含むルックアップテーブルで補強する、または置き換えることにより、より効率的なシステムを構築することもできる。入力画像制約には、入力画像の高さ、幅、および元の画質係数が含まれ、デバイス制約には、出力画像のサイズおよび最大ファイルサイズが含まれ、観察条件は、画質が最適であることが意図された所望のスケーリング係数で表される。このようなルックアップテーブルは、後述する予測テーブル生成システム(図6)、および、対応する予測テーブル生成方法(図15)により、オフラインで生成可能である。
図6は画質予測テーブル生成システム500を示し、このシステムはコンピュータを含み、コンピュータは、プロセッサと、コンピュータ実行可能な命令を記憶するコンピュータ可読媒体とを含み、コンピュータ実行可能な命令はプロセッサにより実行されると、入力画像のトレーニングセット502を含むデータベース、画質予測テーブル計算モジュール504、画質予測テーブル「N」506への格納、およびテーブル更新モジュール508といったモジュールを提供する。画質予測テーブル生成システム500はさらに、基本的なシステム200のものと同じ参照番号を付された同じモジュールである、画像特徴抽出モジュール202、トランスコードモジュール208、および、画質評価モジュール210も含む。
入力画像のトレーニングセット502は、多数のJPEG画像を含み、例えば、上述のSteven Pigeon等による「Kingston」論文に示されている70,300ファイルの画像トレーニングセットを含むことができる。この結果、基本的なシステム200の場合と同様に、画像特徴抽出モジュール202、トランスコードモジュール208、および、画質評価モジュール210に個々に入力される入力画像「I」列が出力される。
画質予測テーブル生成システム500の趣意は、観察条件(観察スケーリング係数zV)を表すトランスコーダスケーリング係数zTの範囲について、および入力画質係数QF_outの範囲について、入力画像のトレーニングセット502に含まれる各画像をトランスコードすることにより、画質予測テーブル「N」506を生成することである。
画質予測テーブル「N」506は、多次元テーブル(例えば四次元テーブル)であり、入力画像のトレーニングセット502からの入力画像の符号化画質係数QF_in、観察スケーリング係数zV、トランスコーダで出力画像を圧縮するのに利用される符号化画質係数QF_out、および、トランスコーダスケーリング係数zT、という4つの指標付変数で指標付される画質メトリックQを含む。これらの指標付変数は以下のようにして生成される。
入力画像の符号化画質係数QF_inは、入力画像のトレーニングセット502からの入力画像に固有であり、上述したように、画像抽出モジュール202で各画像からQF(I)として抽出、量子化されてよい。さらには、画像トレーニングセットを、任意の符号化画質係数QF_inの量子化値の周りに集団化された(clustered)(例えば80%)多数の画像グループに分割すると、より便利であろう。
観察条件には、上述した観察スケーリング係数zVの様々な値により定義される少なくとも3つの特異な観察ケースが含まれる。テーブル「N」506の生成には、zVの値に範囲(例えば10%の量子化されたステップ)を持たせると好適である。
このように、画質予測テーブル生成システム500は、基本的なシステム200に類似してはいるが、トランスコーダ画質係数QF_out、および、トランスコーダスケーリング係数zTを、基本的なシステム200でのようにデバイス制約を満たすように計算するのではなくて、直接生成する。
入力画像のトレーニングセット502は、各画像を入力画像「I」として、画像特徴抽出モジュール202、トランスコードモジュール208、および、画質評価モジュール210に送る。画像特徴抽出モジュール202は、入力画像パラメータ「IIP」のセットを画質予測テーブルモジュール504の計算用に送り、画質評価モジュール210は、計算された画質測度QMを画質予測テーブルモジュール504の計算用に送り、画質予測テーブルモジュール504の計算により、トランスコードパラメータ対(zT,QFT)でトランスコードモジュール208が制御される。トランスコードモジュール208は、出力画像「J」を生成して、画質評価モジュール210に送る。
テーブル「N」506は、最初は空の状態である。入力画像のトレーニングセット502の各入力画像について、および、観察条件の各範囲(観察スケーリング係数zVにより表される)およびトランスコーダスケーリング係数zTの各範囲について、および、符号化画質係数QF_outの各範囲について、画質予測テーブル生成システム500は、最良の画質メトリックQで最良のトランスコードされた画像(出力画像「J」を生成する。各計算された最良の画質メトリックQ(「最良のQ」))は、各計算の4つの指標値(QF_in, zV, QF_out,およびzT)とともに送られ、テーブル更新モジュール508によりテーブル「N」506が更新される。
多くの画像により、同じ指標に対するものではあるが僅かに実際の値が異なっている最良の画質メトリックQが生成されるので、画質予測テーブル生成システム500が生成する元データを、上述のSteven Pigeon等による「Kingston」論文に示されているような方法によりテーブル更新モジュール508で収集および処理すると好適であろう。このようにして、データのグループ化および量子化を行うことで、4つの指標値の組み合わせについて画質メトリックの最適なLMS(最小2乗平均)推定値を計算して、画質予測テーブル「N」506に格納することができる。
以下のテーブル2、3、および4は、本発明の実施形態による画質予測テーブル生成システム500により計算された、画質予測テーブル「N」506のインスタンスの二次元サブテーブルの例を示している。
Figure 0005391465
Figure 0005391465
Figure 0005391465
テーブル2および3は、上述した、入力画像の大きなトレーニングセット503について観察ケース1および2それぞれについて計算されたQF_in = 80のPSNR値の平均値の分布を示している。テーブル4は、観察ケース3のPSNR値の平均値を示しており、ここでは、観察条件が元の画像のサイズの90パーセントの最大ズームに対応している。
テーブル2、3、および4は、以下で記載する向上したトランスコードシステムの画質推定値として利用可能である。
観察ケース1(テーブル2)では、拡大されたトランスコード出力画像を、元の入力画像と比較する。トランスコーダスケーリング係数zTおよび符号化画質係数QF_outの両方が画質の測度に影響を与える。しかし、低符号化画質係数によるブロックアーチファクトに起因するトランスコードされた画像および元の画像の間の差異が、PSNRが等しい場合には、スケーリング効果と同等のものと考えられる。ブロックアーチファクトは、よりスムーズな低解像度の画像よりも視覚的には観察者を悩ませるものであるので、これはパラドックスである。従って計測においては、高解像度で低QFの画像が、低解像度で高QF画像よりも好まれる。この比較では、低解像度の画像を見せたときのユーザが知覚する画質ロスは考慮されていないので、このバイアスは幾らか補償される。
観察ケース2(テーブル3)では、画像間を、トランスコードされた画像解像度において比較する。画質推定値は、スケーリングによってよりも、符号化画質係数によっての影響のほうが大きい、というのも、両画像は比較前に同じ解像度にまで縮小され、スケーリングにより欠陥が平準化されるからである。さらに、ファイルサイズは、符号化画質係数QF_outの変化によってよりも、スケーリングによっての変化のほうが大きいので、高いQF_outで小さな画像のほうが、小さなQF_outで大きな画像よりも好適である。これはトランスコードされた画像が、低解像度でのみ視られる場合には合理的であるが、さもなくば、観察者の体験におけるロスは大きい。観察ケース3(テーブル4)は、ユーザの観察条件に合わせたものであり、画質の推定としてはより正確である。
画質予測テーブル「N」506は、基本的なシステム200よりも簡略化され効率的な、より単純な画質認識トランスコードシステムにおいて利用されても好適である。
図7は、単純な画質認識画像トランスコードシステム(単純なシステム)600を示し、このシステムはコンピュータを含み、コンピュータは、プロセッサと、コンピュータ実行可能な命令を記憶するコンピュータ可読媒体とを含み、コンピュータ実行可能な命令はプロセッサにより実行されると、基本的なシステム200と類似したモジュールを提供するが、ここでは、画質係数の計算について、演算上高価な反復処理を、コンピュータ可読媒体に記憶する画質予測テーブル「N」506の単純なテーブル検索で置き換えている。
単純なシステム600は、画質評価モジュール210を含む基本的な画質決定ブロック209を除く、基本的なシステム200の全ての同じモジュールを含む。これらモジュール(202から208)は図2と同じ参照番号を持ち、同じ機能を有し、前述したものと変わらない。さらに、単純なシステム600は、図6からのテーブルN506を含む単純な画質決定ブロック602を含む。
計算される画質測度QMは、単純なシステム600では、画質評価モジュールが生成するのではなくて、画質予測テーブル「N」506から直接入手される。画質予測テーブル「N」506は、図6に示したものと同じ構成および生成方法を有しており、テーブル2、3、および4に、その部分的な例が示されている。画質予測テーブル「N」506では、画像特徴抽出モジュール202から得られる入力画質係数QF_in、1に設定されうる(観察ケース1)または観察条件に応じた別の値に設定されうる観察スケーリング係数zV、トランスコーダ画質係数QFT、およびトランスコーダスケーリング係数zT、という4つのパラメータが用いられている。QFTおよびzTは、QM最大化ループにおいて画質認識パラメータ選択モジュール206により選択される。このことを、以下の方法例において詳述する。
図8は、単純なシステム600に応用可能なJPEG画像トランスコードにおける画質認識パラメータ選択の予測方法700のフローチャートである。この予測方法700は、図4の基本的な方法400と同じ連続ステップの多くを含み、これらについては同じ参照番号を付している。
ステップ402「デバイス制約を取得する」
ステップ404「入力画像Iを取得する」
ステップ406「画像特徴を抽出する」
ステップ408「画質およびファイルサイズを予測する」
ステップ410「パラメータを初期化する」
ステップ414「結果を確認する」
ステップ416「画像Jを返す」
本予測方法700では、図4のステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の代わりに、ステップ410「パラメータを初期化する」およびステップ414「結果を確認する」の間に挿入された新たなステップとして、ステップ702「予測Q認識パラメータ選択ループを実行する」を含む。
図9は、予測方法700のステップ702「予測画質認識パラメータ選択ループを実行する」の拡張を示すフローチャートであるが、これは、図5のステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の拡張ステップと幾らか類似したステップを含むので、同じ参照番号が付され、同じ機能を有している。
ステップ452「次の値の対を入手する」
ステップ454*「値の対は利用可能か?」
ステップ456*「値の対は実現可能か?」
ステップ458「IをJにトランスコードする」
さらに、ステップ702「予測画質認識パラメータ選択ループを実行する」の拡張ステップは、3つの新たなステップを含む。
ステップ706「予測される画質メトリックQMをテーブルNから入手する」
ステップ708「QM>最良のQ?」
ステップ710「最良のQ:= QM, zT := z, QFT := QF_outに設定する」
*図9においては図5から以下の修正がなされている。ステップ454の退出(抜ける)「NO」は、ステップ458にそれぞれ移動した(この後に、トランスコードされた出力画像「J」を戻すという関数リターンが行われる)。ステップ456の退出「YES」は、ステップ706に移動した。
ステップ706「予測される画質メトリックQMをテーブルNから入手する」では、テーブル「N」に、4つのパラメータ(ステップ406(「画像特徴抽出」(図8))で得られた入力画質係数QF(I)、ステップ408「画質およびファイルサイズを予測する」で選択された観察スケーリング係数zV、符号化画質係数QF_out、およびトランスコーダスケーリング係数z)という指標を与えることで、予め計算された画質メトリック値QMをテーブル「N」から取得する。
ステップ706「予測される画質メトリックQMをテーブルNから入手する」の後にステップ708「QM>最良のQ?」が行われる。
ステップ708「QM>最良のQ?」では、前のステップで得られた画質メトリックQMを、それまでに見つかったなかで最高画質のメトリックである「最良のQ」と比較する。「最良のQ」は、予めステップ410「パラメータを初期化する」(図8)でゼロに初期化され、より高い値が見つかるたびに、比較結果に従って更新される。比較結果が肯定的である場合(YES)、続いてステップ710「最良のQ:= QM, zT := z, QFT := QF_outに設定する」を行い、比較結果が否定的である場合には、ステップ452「次の値の対を入手する」にループして戻る。
ステップ710「最良のQ:= QM, zT := z, QFT := QF_outに設定する」で、最高画質のメトリックである「最良のQ」を、ステップ706「予測される画質メトリックQMをテーブルNから入手する」で見つかったQMの値に更新する。さらに、値の対(「z」, QF_out)を、現在の画像における最良のトランスコードパラメータ対(zT, QFT)として記録する。
これにより、ステップ702「予測画質認識パラメータ選択ループを実行する」を拡張したステップが終了し、続いてステップ414「結果を確認する」に移る(図8)。
最終ステップ416「画像Jを返す」(図8)では、トランスコードされた出力画像「J」をシステムに返すことにより(例えば、出力画像「J」220としての格納用に)、JPEG画像トランスコードにおける基本的な画質認識パラメータ選択方法400が終了する。
画質認識パラメータ選択を行う予測方法700を採用する単純なシステム600は、このようにして用いられて画質認識トランスコーダを提供するが、基本的なシステム200の場合よりも処理コストは大幅に低減されるものの、予測画質メトリックの不完全な性質から実際に最良のトランスコードパラメータが見つからない可能性もある。
より向上した画質認識トランスコードシステムは、基本的なシステム200を元に構築され、テーブル「N」により向上したものとなる。本システムでは、最適な画質の検索をテーブル「N」の利用により大幅に短縮することができる、つまり、全ての可能性ある有効なzTおよびQFTの組み合わせに対してステップ412「画質認識パラメータ選択およびトランスコードループを実行する」(図4および図5)に含まれる全ループを実行する代わりに、先ずテーブル「N」を参照することにより、ループにおける多くの反復の高価な処理ステップを避けることができる。
ステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の一つの単純な変形例では、テーブル「N」から予測される画質メトリックにより、既に見つかったものよりも高い画質を有するものが、これらステップが示す全分析によって得られそうにない場合、ステップ458「IをJにトランスコードする」、ステップ460「実際のサイズOK?」、およびステップ474「画質評価ステップ」(図5)を省略することができる。
図10は、向上した画質認識トランスコードシステム(向上したシステム)800のブロック図を示し、このシステムはコンピュータを含み、コンピュータは、プロセッサと、コンピュータ実行可能な命令を記憶するコンピュータ可読媒体とを含み、コンピュータ実行可能な命令はプロセッサにより実行されると、向上したシステム800のそれぞれのモジュールを提供する。向上したシステム800は、基本的なシステム200に基づいており、これに対してさらにコンピュータ可読媒体に記憶されたテーブル「N」506を加え、画質認識パラメータ選択モジュール206を向上した画質認識パラメータ選択モジュール802で置き換えることで形成される。テーブル「N」506と画質認識モジュール210とをともに格納する手段が、向上した画質決定ブロック804を成している。
テーブル「N」506の出力は、向上した画質認識パラメータ選択モジュール802に対して、予測される画質メトリックQxを提供する。画質予測テーブル「N」506には、単純なシステム600におけるものと同じ4つの指標パラメータが用いられる(すなわち、入力画質係数QF_in、観察スケーリング係数zV、トランスコーダ画質係数QFT,およびトランスコーダスケーリング係数zT)。QFTおよびzTは、向上した画質認識パラメータ選択モジュール802では以下に説明する図11に関する方法により選択される。
簡潔にまとめると、向上した画質認識パラメータ選択モジュール802の機能では、複数の実現可能な(つまり、入力画像「I」およびデバイス制約を満たす)値の対(zT,QFT)の実現可能なセット「F」806が収集される。複数の値の対のセットはその後、値の対により指標付される画質予測テーブル「N」506から予測された画質メトリックQxに従ってソートにかけられてよい。そして実際の画質メトリックQMを、画質評価モジュール210の助けを得て(図2の基本的なシステム200参照)計算するが、これは、予測される画質メトリックQxの最大値を予測する実現可能なセット「F」806からの限定数の値の対(zT,QFT)のうち期待できるサブセットのみに行われる。
図11は、向上したシステム800に応用可能なJPEG画像トランスコードの画質認識パラメータ選択のための、向上した方法900のフローチャートである。向上した方法900は、図4の基本的な方法400と同じ連続ステップの多くを含み、これらについては同じ参照番号を付している。
ステップ402「デバイス制約を取得する」
ステップ404「入力画像Iを取得する」
ステップ406「画像特徴を抽出する」
ステップ408「画質およびファイルサイズを予測する」
ステップ410「パラメータを初期化する」
ステップ414「結果を確認する」
ステップ416「画像Jを返す」
本向上した方法900では、図4のステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の代わりに、ステップ410「パラメータを初期化する」およびステップ414「結果を確認する」の間に挿入された2つの新たなステップとして、ステップ902「セット「F」を生成する」およびステップ904「向上したQ認識パラメータ選択およびトランスコードを実行する」を含む。
図12は、向上した方法900の「セット「F」を生成する」ステップ902の拡張を示すフローチャートであり、図5のステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の拡張ステップのうち同じステップを3つ有し、これには同じ参照番号が付され、同じ機能を有している。
ステップ452「次の値の対を入手する」
ステップ454*「値の対は利用可能か?」
ステップ456*「値の対は実現可能か?」
拡張ステップ902「セット「F」を生成する」は、さらに新たなステップを有する。
ステップ906「空の実現可能なセットFを生成する」
ステップ908「値の対を実現可能なセットFに追加する」
ステップ910「Fをソートする」
ステップ912「Fに切り捨てを行う」
*図12において、以下のステップ列が図5から修正されている。ステップ454の退出(抜ける)「NO」は、関数リターンに移動し(ここで実現可能なセット「F」が返される)、ステップ456の退出「YES」は、ステップ908に移動した。
ステップ452、454、456、および908は、初期化ステップ906の前に行われるループを形成する。
ステップ906「空の実現可能なセットFを生成する」では、実現可能なセット「F」806を空として生成する。以下のステップ(452から456、および908)は、幾らかの特異な値の対を生成し(ステップ452)、利用可能性をチェックし(ステップ454)、実現可能性をチェックし(ステップ456)、実現可能なセット「F」806に追加する(ステップ908)ループを形成する。生成された値の対が実現不可能である場合(ステップ456の退出「NO」)、ループを最初から再度行う。もう利用可能な特異な値の対がない場合(ステップ454の退出「NO」)、ループを抜けて、特異な値の対が指標付する画質予測テーブル「N」506から予測される画質メトリックQxにより、ステップ910「Fをソートする」で、実現可能なセット「F」806をソートする。実現可能なセット「F」806は、この段階で、全ての実現可能な値の対を、予測される画質に応じて降順で含む。
次のステップであるステップ912「Fに切り捨てを行う」では、実現可能なセット「F」806に対して、実現可能なセット「F」806内に定義可能な数C_maxの値の対のみが残るまで、予測される画質が低い値の対を除去していくことにより、末尾から切り捨てを行う。
図13は、向上した方法900のステップ904「向上したQ認識パラメータ選択およびトランスコードを実行する」の拡張を示すフローチャートであり、図5のステップ412「画質認識パラメータ選択およびトランスコードループを実行する」の拡張ステップと同じステップを幾らか有し、これには同じ参照番号が付され、同じ機能を有している。
ステップ458「IをJにトランスコードする」
ステップ460「実際のサイズOK?」
ステップ462「Jを伸張して、zRでXに拡大する」
ステップ464「Iを伸張して、zVでYにスケーリングする」
ステップ466「メトリックQM=PSNR(X,Y)を計算」
ステップ468「QM>最良のQ?」
ステップ470「最良のQ:=QM、最良の画像:=Jに設定する」
ステップ472「J:=最良の画像に設定する」
拡張ステップ904「向上したQ認識パラメータ選択およびトランスコードを実行する」は、さらに新たなステップを有する。
ステップ914「Fは空?」
ステップ916「Fから最上の値の対を取得する」
ステップ918「Fから最上の値の対を除去する」
拡張ステップ904「向上したQ認識パラメータ選択およびトランスコードを実行する」は、基本的なシステム200のものと類似した最良の画像(画質評価ステップ474で最良の画質であると評価される画像のこと(ステップ462から466の列))を探すループを形成する。全ての実現可能な値の対についてループを実行する(基本的な方法400)代わりに、向上した方法900のループは、実現可能なセット「F」806の値の対への適用に制限される。ステップ910「Fをソートする」およびステップ912「Fに切り捨てを行う」は、トランスコードおよび画質評価対象の値の対の数を、予測される画質測度が高いもののみに限定することができるメカニズムを提供する。
ステップ914「Fは空?」でループに入る。
ステップ914「Fは空?」では、実現可能なセット「F」806を検査する。これが空である場合(ステップ914の退出「YES」)、ループを抜けて、ステップ472「J:=最良の画像に設定する」にジャンプして、拡張ステップ904「向上したQ認識パラメータ選択およびトランスコードを実行する」を抜ける(リターン「J」)。
ステップ916「Fから最上の値の対を取得する」では、予測される最高画質のメトリック(「最上の値の対」)を、実現可能なセット「F」806からトランスコーダ値の対(zT,QFT)にコピーする。
ステップ918「Fから最上の値の対を除去する」では、「最上の値の対」を実現可能なセット「F」806から除去して、次のステップ458「IをJにトランスコードする」に移動する。
基本的な方法400同様に、後続するステップでは、画質メトリックが評価され、最良の画質メトリックと最良の画像とを保存し、ループの初めにジャンプして戻る(ステップ914で)。
図12で実現可能なセット「F」806をソートし、切り捨てを行うことの利点は以下の通りである。実現可能なセット「F」806に対して切り捨てを行わず、ソートのみを行うとすると、全ての値の対を、単に予測される画質の順に評価することになる(トランスコードされてから画質を評価される必要がある)。これは、基本的な方法200のものと同じ最良の画像が生じることになり、処理コスト面の利点がない。
実現可能なセット「F」806に対して切り捨てを行うことにより、C_maxの値の対の数がセットに残ることになる。セットは先ずソートされるので、これらC_maxの値の対は、最も期待のもてる画質のメトリックを生じることが予期される値の対である。故に、基本的な方法と比して、完全な評価を行うべき値の対の数が減り、(基本的なシステム200で)低画質を生じる値の対の評価に対して費やされていた処理分を節約できる。
C_maxを1に設定する場合、1つの値の対のみを完全に評価することになるが、これは実際の画質の評価に関わらず行われ、この結果生じる最良の画像は、単純なシステム600の予測方法700のものと同じになる。
1)故に、予測される最高画質は必ずしも実際の最高品質ではないため、C_maxは1よりも大きい値に設定されるべきである。C_maxを値5に設定することで良好な結果が生じるということが分かっており、実際に最良の値の対を含む可能性が非常に高いことも分かっている。または、画質閾値を設けることも可能である。予測される画質メトリックが、それまで予測されたうち最良の画質のメトリックよりも任意のマージン分(例えば3dB等)小さくなった段階で処理を停止する。さらなる変形例としては、セット「F」を以下のようにソートしておくことも考えられる。
2)各実現可能なスケーリング値「z」について、予測される画質値が最良の、実現可能なセット「F」内の値の対を見つける。例えばこのような値の対がP個あると仮定する(つまり、z=10パーセントの最良の値の対を見つけ、次に20パーセントについて見つける、等である)。
3)ステップ1で得られたP個の値の対を、最高予測画質値から最低予測画質値へとソートする。これらステップは、実現可能なセット「F」の開始時に挿入される。
4)そして、最高予測画質値から最低予測画質値へと、得られた値の対の残りをソートする。これは、前のP個の値の対の後の、実現可能なセット「F」に対して挿入される。
前述同様に、C_max >= Pを行う。
図14Aおよび図14Bに示されるチャートは、ソート後に実現可能な「F」に記録される画質メトリック値(PSNR)のグラフィック表現を示す。図14Aは、zV=0.7についてソートされたPSNR値の例を示し、図14Bは、図14Aと同じ画像に対して、zV=0.7、s_max=0.7でソートされたPSNR値の例を示す。
図15は、図6の画質予測テーブル生成システム500の機能を示す、画質予測テーブル生成方法1000のフローチャートである。画質予測テーブル生成方法1000は、図4および5の基本的な方法400のステップと同じステップを幾らか有し、これには同じ参照番号が付され、同じ機能を有している(ステップ406、458、および474)。画質予測テーブル生成方法1000は以下のステップを有する。
ステップ1002「N(QF_in,zV)を初期化する」
ステップ1004「QF(I)= QF_inである画像がまだ他に利用可能?」
ステップ1006「次の画像「I」を取得する」
ステップ406「画像特徴を抽出する」
ステップ1008「値の対(z,QF_out)をループにかけるべくパラメータを設定する」
ステップ1010「最初の値の対(z,QF_out)を取得する」
ステップ458「IをJにトランスコードする」
ステップ474「画質評価ステップ」
ステップ1012「N(QF_in,zV)を更新する」
ステップ1014「他に利用可能な値の対(z,QF_out)が存在するか?」
ステップ1016「次の値の対(z,QF_out)を取得する」
上述したように、画質予測テーブル「N」506(図6)は、四次元テーブルであり、4つの指標付変数(入力画像のトレーニングセット502からの入力画像の符号化画質係数QF_in、観察スケーリング係数zV、トランスコーダの出力画像を圧縮するのに利用される符号化画質係数QF_out、およびトランスコーダで出力画像を圧縮するのに利用されるスケーリング係数「z」)が指標付する画質メトリックQを含む。図15は、画質予測テーブル生成方法1000を示し、これは、入力符号化画質係数QF_inの1つの値および観察スケーリング係数zVの1つの値についてのサブテーブルである、画質予測テーブル「N」の1つのサブテーブル(つまり、N(QF_in,zV))の生成に限定されている。QF_inおよびzVのさらなる値を含む画質予測テーブル「N」全体は、画質予測テーブル生成方法1000のステップをこれらさらなる値QF_inおよびzVについて繰り返すことで生成されうる。
ステップ1002「N(QF_in,zV)を初期化する」では、サブテーブルN(QF_in,zV)がゼロにクリアされる。
ステップ1004「QF(I)=QF_である画像がまだ他に利用可能?」では、画像トレーニングセット502内に、まだ他に利用可能な入力符号化画質係数QF(I) = QF_inがあるか否かを判断する(図6)。もしもこれ以上利用可能な画像がないという場合には(つまり、このような画像が全て処理済みとなっている場合)、判断結果は「NO」となり、サブテーブルN(QF_in,zV)をポピュレートして、画質予測テーブル生成方法1000を抜け、判断結果が「YES」の場合には、続いてステップ1006「次の画像「I」を取得する」へ進む。
ステップ1006「次の画像「I」を取得する」では、次の画像を、画像トレーニングセット502から取得して、入力画像「I」とする。
ステップ406「画像特徴を抽出する」では、上述したように(図4で)、入力画像「I」の特徴(幅および高さ等)を決定する。
ステップ1008「値の対(z,QF_out)をループにかけるべくパラメータを設定する」では、値の対(z,QF_out)について画像毎のループ1018を準備して、画像毎のループ1018は、ステップ1010、458、474、1012、1014、および1016を含む。画像毎のループ1018は、集合{K, 2*K, 3*K, ... , 100%}からのスケーリング係数「z」および集合{L, 2*L, 3*L, ... , 100}からの出力画質係数QF_outの各組み合わせについて実行され、例えば、増分「K」および「L」は、K=10パーセントおよびL=10として選択されてよい。テーブル2から4は、これら値で計算されている。「z」およびQF_outの組み合わせは、値の対(z,QF_out)と称される。
ステップ1010「最初の値の対(z,QF_out)を取得する」では、最初の値の対(z,QF_out)を決定する(例えば、(z = 10%, QF_out = 10)と決定する)。
ステップ458「IをJにトランスコードする」では、トランスコードパラメータzT=「z」およびQFT=QF_outとして、入力画像「I」を出力画像「J」にトンラスコードする(図5で上述したように)。
ステップ474「画質評価ステップ」では、トランスコードの画質メトリックQMを決定する(図5で上述したように)。
ステップ1012「N(QF_in,zV)を更新する」では、サブテーブルN(QF_in,zV)を、値の対(z,QF_out)で示されるテーブル位置において、画質メトリックで更新される(より詳しくは、そのテーブル位置の予測される画質メトリックを、同じテーブル位置の全ての画像からの画質メトリック値の単純な平均値で更新する)。
ステップ1014「他に利用可能な値の対(z,QF_out)が存在するか?」で、まだ他に利用可能なスケーリング係数「z」と画質係数QF_outとの組み合わせが残っていないかを確かめる。これ以上利用可能な特異な値の対(z,QF_out)がないということであれば(既に全ての組み合わせが処理済である場合)、判断結果は「NO」となり、画像毎のループ1018を抜けて、ステップ1004「QF(I)=QF_である画像がまだ他に利用可能?」に移り、画像トレーニングセット502から次の画像を見つけて処理を開始するが、さもなくば(判断結果が「YES」の場合)、画像毎のループ1018をステップ1016「次の値の対(z,QF_out)を取得する」で続ける。
ステップ1016「次の値の対(z,QF_out)を取得する」で、次の値の対(z,QF_out)を判断する。
先に示したように、画像トレーニングセット502は、同じ値の対の指標について最良な画質メトリックの僅かに異なる実際の値を生成する多くの画像を含みうる。上述した画質予測テーブル生成方法1000では、計算される画質メトリックを用いて、画質予測テーブル「N」506を直接更新するが、その方法についてはここでは詳述しない。好適には、画質予測テーブル生成方法1000により生成される原データは、上述のSteven Pigeon等による「Kingston」論文に示されている方法で収集および処理される。このようにして、データのグループ化および量子化を行い、さらに統計的処理を行うことにより、画質メトリックの最適なLMS(最小2乗平均)推定値を計算して、画質予測テーブル「N」506に保存することができる。
本発明の実施形態のシステムおよび方法は、スケーリング、圧縮されたファイルサイズ制限、および画像画質を考慮に入れることでトランスコードを向上させる。本発明の実施形態は、JPEG符号化画像との関連で記載されたが、ロスの多い圧縮モードで利用された際の例えばGIF(グラフィック交換フォーマット)およびPNG(ポータブルネットワークグラフィック)等の他のフォーマットで符号化されたデジタル画像のトランスコードに本原理を応用することもできる。本発明の実施形態のシステムは、CPUおよびコンピュータ可読媒体(例えばメモリ)を有する汎用および専用コンピュータを含むことができる、あるいはシステムが、ファームウェアに対して、またはファームウェアと専用コンピュータとの組み合わせに対して実装可能である。本発明の実施形態では、画質予測テーブルは、4つのパラメータで指標付された四次元テーブルであった。画質予測テーブルは一般的に多次元テーブルであってよく、4より大きくても小さくてもよい任意の必要数のパラメータによる指標付が可能である。
実行されると本発明の実施形態の方法のステップを実行するコンピュータ可読命令を格納したDVD,CD−ROM、フロッピー(登録商標)等のコンピュータ可読媒体、または例えば不揮発性メモリ等のメモリも提供される。
本発明の実施形態を詳述してきたが、当業者には、実施形態の変形例および変更例が請求項の範囲に含まれることが明らかである。
[項目1]
ファイルサイズおよび画像サイズにおける制約のある端末用に入力画像を出力画像にトランスコードする画像トランスコードシステムであって、
コンピュータ実行可能命令を格納するコンピュータ可読格納媒体を有するコンピュータを備え、前記コンピュータ実行可能命令は前記コンピュータに実行されると、
前記入力画像のサイズ、ファイルサイズ、および符号化画質係数QF(I)を判断する画像特徴抽出モジュールと、
トランスコーダスケーリング係数zTとトランスコーダ画質係数QFTとを含むトランスコードパラメータで、前記入力画像を前記出力画像にトランスコードするトランスコードモジュールと、
前記トランスコードの画質メトリックを決定する画質決定ブロックと、
前記出力画像の相対的な出力ファイルサイズを、前記トランスコードパラメータの関数として決定する画質およびファイルサイズ予測モジュールと、
相対的なファイルサイズの最大値を満たす最適なトランスコードパラメータと、前記出力画像の最高画質に対応する前記画質メトリックとを決定する画質認識パラメータ選択モジュールとを提供する画像トランスコードシステム。
[項目2]
前記トランスコードモジュールは、
前記入力画像を伸張する伸張モジュールと、
前記伸張された入力画像を前記トランスコーダスケーリング係数zTでスケーリングするスケーリングモジュールと、
前記伸張されスケーリングされた入力画像を、前記トランスコーダ画質係数QFTで圧縮する圧縮モジュールとを含む項目1に記載の画像トランスコードシステム。
[項目3]
前記画質認識パラメータ選択モジュールは、
前記入力画像のサイズおよび前記端末の制約から決定されるスケーリング係数の最大値より小さい前記スケーリング係数zTと、前記トランスコーダ画質係数QFTとの実現可能な組み合わせを選択する計算手段と、
前記出力画像の最高画質に対応する前記画質メトリックが見つかるまで、特異な値の対(zT、QFT)を反復して選択する計算手段とを含み、
前記実現可能な組み合わせにより、前記相対的なファイルサイズの最大値を考慮する相対的な出力ファイルサイズ予測が行われる項目2に記載の画像トランスコードシステム。
[項目4]
前記画質決定ブロックは、前記画質メトリックとして予測された画質メトリックを検索する画質予測テーブルを含み、
前記画質予測テーブルは、前記予測された画質メトリックを示す複数のテーブル入力値を含み、
前記予測された画質メトリックは、
前記入力画像の前記符号化画質係数QF(I)に等しい入力画質係数QF_inと、
前記トランスコーダスケーリング係数zTまたは前記出力画像の観察条件に適した別の値に等しくなるよう設定されうる観察スケーリング係数zVと、
前記トランスコーダ画質係数QFTと、
前記トランスコーダスケーリング係数zTとにより指標付される項目3に記載の画像トランスコードシステム。
[項目5]
前記画質予測テーブルは、前記予測された画質メトリックを示す複数のテーブル入力値を含み、
前記予測された画質メトリックは、さらに、前記観察スケーリング係数zVにより指標付され、
前記観察スケーリング係数zVは、前記トランスコーダスケーリング係数zTと前記スケーリング係数の最大値との間の範囲の値に等しくなるよう設定される項目4に記載の画像トランスコードシステム。
[項目6]
前記画質決定ブロックは、前記画質メトリックを明示的に計算する画質評価モジュールを含み、
前記画質評価モジュールは、
前記出力画像を伸張する伸張(R)モジュールと、
前記伸張した出力画像をリスケーリング係数zRでスケーリングするスケーリング(zR)モジュールと、
前記入力画像を伸張する伸張(V)モジュールと、
前記伸張した入力画像を前記観察スケーリング係数zVでスケーリングするスケーリング(zV)モジュールと、
前記伸張されスケーリングされた出力画像と、前記伸張されスケーリングされた入力画像とから、前記画質メトリックを計算する画質計算モジュールとを含む項目4または5に記載の画像トランスコードシステム。
[項目7]
前記画質認識パラメータ選択モジュールは、
前記実現可能な組み合わせ(zT,QFT)の実現可能なセット「F」を格納する手段と、
前記画質予測テーブルから得られた前記予測された画質メトリックにより前記実現可能なセット「F」の中の入力値をソートする計算手段と、
前記実現可能なセット「F」の、期待できるサブセットを生成する計算手段と、
前記画質メトリックが最適化されるまで、前記画質評価モジュールで、前記期待できるサブセットから特異な値の対(zT,QFT)を反復して選択し、対応する画質メトリックを計算する計算手段とを含む項目6に記載の画像トランスコードシステム。
[項目8]
前記画質メトリックは、前記入力画像と比較した前記出力画像の測度に基づく項目1から7のいずれか一項に記載の画像トランスコードシステム。
[項目9]
前記測度は、前記入力画像に対する前記出力画像のピーク信号対ノイズ比(PSNR)測度、または、前記入力画像に対する前記出力画像の極大差(MD)測度のいずれかである項目8に記載の画像トランスコードシステム。
[項目10]
前記入力画像および前記出力画像はJPEG画像である項目1から9のいずれか一項に記載の画像トランスコードシステム。
[項目11]
デバイスファイルサイズおよび画像サイズにおける制約のある端末での表示用に入力画像を出力画像に画質を認識してトランスコードする方法であって、
(a)前記端末の前記制約を取得する段階と、
(b)前記入力画像を取得する段階と、
(c)前記入力画像のサイズと前記ファイルサイズとを含む前記入力画像の特徴を抽出する段階と、
(d)前記端末の前記制約と前記抽出された特徴とから前記出力画像のファイルサイズを予測する段階と、
(e)前記端末の前記制約を充たす実現可能なトランスコードパラメータセットを選択する段階と、
(f)選択された実現可能なトランスコードパラメータで、前記入力画像を前記出力画像にトランスコードする段階と、
(g)前記出力画像の画質メトリックを決定する段階と、
(h)前記出力画像の最高画質に対応する前記画質メトリックが見つかるまで前記段階(e)から(g)を繰り返す段階とを備える方法。
[項目12]
前記段階(d)は、
前記入力画像の前記画像サイズとサイズとから、スケーリング係数の最大値z_maxを決定する段階と、
前記デバイスファイルサイズと前記入力画像の前記ファイルサイズとから、相対的なファイルサイズの最大値を決定する段階とを有する項目11に記載の方法。
[項目13]
前記段階(e)は、
複数の実現可能なトランスコードパラメータの値の対を選択する段階を有し、
各値の対は、前記スケーリング係数の最大値z_maxを超えないトランスコーダスケーリング係数zTと、予測される相対的な出力ファイルサイズが、前記相対的なファイルサイズの最大値を超えないよう選択されるトランスコーダ画質係数QFTとを含む項目12の記載の方法。
[項目14]
前記段階(c)は、前記入力画像の符号化画質係数QF(I)を抽出する段階を有し、
前記段階(e)は、前記相対的な出力ファイルサイズを、前記符号化画質係数QF(I)と、前記トランスコーダスケーリング係数zTと、前記トランスコーダ画質係数QFTとの関数として予測する段階を有する項目13に記載の方法。
[項目15]
前記段階(g)は、
(i)前記入力画像を伸張して、観察スケーリング係数zVでスケーリングして、第1の中間画像を生成する段階と、
(ii)前記出力画像を伸張して、リスケーリング係数zRでスケーリングして、第2の中間画像を生成する段階と、
(iii)前記第1の中間画像と比較した前記第2の中間画像の測度に基づいて前記画質メトリックを計算する段階とを有し、
前記観察スケーリング係数zVは、前記出力画像に予測される観察条件に基づいてzTおよび1の間で選択され、
zRはzR = zV / zと計算される項目13または14に記載の方法。
[項目16]
前記段階(e)は、前記画質メトリックを検索するべく画質予測テーブルを用いる段階を有し、前記画質予測テーブルは前記複数の実現可能なトランスコードパラメータにより指標付される項目11から15の何れか1項に記載の方法。
[項目17]
前記段階(g)は、2以上の指標により指標付される多次元画質予測テーブルから前記画質メトリックを読み出す段階を有し、
前記2以上の指標は、
(指標1)前記入力画像の前記符号化画質係数QF(I)、
(指標2)前記出力画像に予測される観察条件に基づいてzTおよび1の間で選択される観察スケーリング係数zV、
(指標3)前記トランスコーダ画質係数QFT、および、
(指標4)前記トランスコーダスケーリング係数zTから選択される項目16に記載の方法。
[項目18]
前記段階(g)は、前記画質予測テーブルの複数の入力値の間を、前記2以上の指標のうち少なくとも1つについて補間する段階を有する項目17に記載の方法。
[項目19]
前記段階(g)は、前記入力画像と比較した前記出力画像の測度に基づいて前記画質メトリックを計算する段階を有する項目11から18のいずれか一項に記載の方法。
[項目20]
前記測度は、前記出力画像と前記入力画像との間のピーク信号対ノイズ比(PSNR)測度、または、前記出力画像と前記入力画像との間の極大差(MD)測度のいずれかである項目19に記載の方法。
[項目21]
プロセッサに実行されると項目11から20のいずれか一項に記載の前記方法の前記複数の段階を実行するコンピュータ可読命令を格納して備えるコンピュータ可読媒体。

Claims (18)

  1. 画像トランスコードにおいて画像の画質を予測するための画質予測テーブルを生成するためのシステムであって、
    プロセッサと、前記プロセッサによって実行するためのコンピュータ可読命令を格納するコンピュータ可読媒体とを有するコンピュータであって、
    トランスコーダスケーリング係数の範囲及び出力符号化画質係数の範囲について、入力画像を出力画像にトランスコードするトランスコードモジュールと、
    前記出力画像と、前記出力画像に対応する入力画像との比較を通して、各トランスコードのために画質メトリックを決定する画質評価モジュールであって、前記画質メトリックは前記画質予測テーブルの形式で前記コンピュータ可読媒体に格納され、前記コンピュータ可読媒体は、前記トランスコードにおいて使用される前記トランスコーダスケーリング係数及び前記出力符号化画質係数のそれぞれによって指標付けされた画質メトリックの格納位置を有する、画質評価モジュールと、
    前記画質予測テーブル、前記トランスコーダスケーリング係数の範囲及び前記出力符号化画質係数の範囲を生成し、トランスコード対象となる複数の入力画像を取得し、前記画質予測テーブル内の、各指標の位置の、前記画質メトリックを更新する計算モジュールと、
    を形成するコンピュータ
    を備えるシステム。
  2. 前記コンピュータ可読媒体に格納された複数の入力画像を含むトレーニングセットを更に備える、請求項1に記載のシステム。
  3. 前記入力画像の入力符号化画質係数と、前記入力画像の画像解像度とを決定する画像特徴抽出モジュールであって、前記入力符号化画質係数及び前記画像解像度は、前記画質予測テーブル内に指標付けする、画像特徴抽出モジュールを更に備える請求項1または2に記載のシステム。
  4. 前記画質予測テーブルは、さらに、前記出力画像の観察者によって体験される画像の質を最適化するために選択される観察条件によってインデックスされている請求項1から3のいずれか1項に記載のシステム。
  5. 前記画質メトリックは、入力画像に対する出力画像の測度に基づく、請求項1から4のいずれか1項に記載のシステム。
  6. 前記測度は、前記入力画像に対する前記出力画像のピーク信号対ノイズ比(PSNR)測度、及び前記入力画像に対する前記出力画像の極大差(MD)測度のうちの1つである、請求項5に記載のシステム。
  7. 前記トランスコーダスケーリング係数は、0%から100%まで増加され、前記出力符号化画質係数は10から100の、それぞれ予め定められたサイズを有するステップで増加される、請求項1から6のいずれか1項に記載のシステム。
  8. 前記入力画像及び前記出力画像は、JPEG画像である、請求項1から7のいずれか1項に記載のシステム。
  9. 画像トランスコードにおいて画像の画質を予測するための画質予測テーブルを生成する方法であって、
    (a)画像のトレーニングセットから入力画像を取得する段階と、
    (b)トランスコーダスケーリング係数の範囲内のトランスコーダスケーリング係数及び出力符号化画質係数の範囲内の出力符号化画質係数で、前記入力画像を出力画像にトランスコードする段階と、
    (c)前記出力画像と、前記出力画像に対応する前記入力画像との比較を通して、前記出力画像の画質メトリックを決定する段階と、
    (d)前記決定された前記画質メトリックで、前記画質予測テーブルを更新する段階と、
    (e)前記トランスコーダスケーリング係数の範囲及び前記出力符号化画質係数の範囲で、前記段階(b)から前記段階(d)を繰り返す段階と、
    (f)前記トレーニングセット内に全ての画像に対して、前記段階(a)から前記段階(e)を繰り返す段階とを備える方法。
  10. 前記段階(d)は、前記トランスコードにおいて使用された前記トランスコーダスケーリング係数及び前記出力符号化画質係数によって指標付けされた、メモリ内の前記画質予測テーブル内に前記画質メトリックを格納する段階を有する、請求項9に記載の方法。
  11. 前記入力画像の入力符号化画質係数及び画像解像度を決定する段階と、前記入力符号化画質係数及び前記画像解像度によって前記画質予測テーブルを指標付けする段階とを更に備える、請求項9または10に記載の方法。
  12. 前記出力画像の観察者によって体験される画像の画質を最適化するべく観察条件を選択することを含む、前記観察条件によって前記画質予測テーブルを指標付けする段階を更に備える請求項9から11のいずれか1項に記載の方法。
  13. 前記段階(c)は、前記入力画像に対する前記出力画像の測度に基づいて前記画質メトリックを決定する、請求項9から12のいずれか1項に記載の方法。
  14. 前記測度は、前記入力画像に対する前記出力画像のピーク信号対ノイズ比(PSNR)測度、及び前記入力画像に対する前記出力画像の極大差(MD)測度のうちの1つである、請求項13に記載の方法。
  15. 前記段階(e)は、前記トランスコーダスケーリング係数を10%から100%まで増加することと、予め定められたサイズ毎に前記出力符号化画質係数を10から100に増加することとを備える、請求項9から14のいずれか1項に記載の方法。
  16. 前記入力画像及び前記出力画像は、JPEG画像である、請求項9から15のいずれか1項に記載の方法。
  17. 前記画質予測テーブル内の計算された入力値間を補間することによって、前記画質予測テーブル内に中間エントリを作成する段階を更に備える、請求項9から16のいずれか1項に記載の方法。
  18. プロセッサにより実行されると、請求項9から17のいずれか1項に記載の方法を実行するコンピュータ可読命令を格納したコンピュータ可読媒体。
JP2012106825A 2007-11-02 2012-05-08 デジタル画像の画質認識トランスコードシステムにおける画質予測テーブルを生成するためのシステム及び方法。 Expired - Fee Related JP5391465B2 (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
PCT/CA2007/001974 WO2009055896A1 (en) 2007-11-02 2007-11-02 System and method for predicting the file size of images subject to transformation by scaling and a change of quality-controlling parameters
CAPCT/CA2007/001974 2007-11-02
US99195607P 2007-12-03 2007-12-03
US60/991,956 2007-12-03
US12/164,873 US8295624B2 (en) 2007-12-03 2008-06-30 Method and system for generating a quality prediction table for quality-aware transcoding of digital images
US12/164,836 US8270739B2 (en) 2007-12-03 2008-06-30 System and method for quality-aware selection of parameters in transcoding of digital images
US12/164,836 2008-06-30
US12/164,873 2008-06-30

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2010531383A Division JP4994500B2 (ja) 2007-11-02 2008-07-16 デジタル画像のトランスコードにおけるパラメータの画質を認識した選択のためのシステムおよび方法

Publications (2)

Publication Number Publication Date
JP2012199939A JP2012199939A (ja) 2012-10-18
JP5391465B2 true JP5391465B2 (ja) 2014-01-15

Family

ID=42272245

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2010531383A Expired - Fee Related JP4994500B2 (ja) 2007-11-02 2008-07-16 デジタル画像のトランスコードにおけるパラメータの画質を認識した選択のためのシステムおよび方法
JP2012106825A Expired - Fee Related JP5391465B2 (ja) 2007-11-02 2012-05-08 デジタル画像の画質認識トランスコードシステムにおける画質予測テーブルを生成するためのシステム及び方法。

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2010531383A Expired - Fee Related JP4994500B2 (ja) 2007-11-02 2008-07-16 デジタル画像のトランスコードにおけるパラメータの画質を認識した選択のためのシステムおよび方法

Country Status (6)

Country Link
EP (2) EP2220617B1 (ja)
JP (2) JP4994500B2 (ja)
KR (1) KR101459395B1 (ja)
CN (2) CN101842812B (ja)
IL (1) IL204726A (ja)
WO (2) WO2009055898A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8270739B2 (en) 2007-12-03 2012-09-18 Ecole De Technologie Superieure System and method for quality-aware selection of parameters in transcoding of digital images
JP5176175B2 (ja) 2007-11-02 2013-04-03 エコール・ドゥ・テクノロジー・スュペリュール 品質制御パラメータの変更及びスケーリングによって変換される画像のファイルサイズを予想するシステム、方法及びプログラム
US8300961B2 (en) * 2008-12-12 2012-10-30 Ecole De Technologie Superieure Method and system for low complexity transcoding of images with near optimal quality
WO2011042900A1 (en) * 2009-10-05 2011-04-14 I.C.V.T Ltd. A method and system for processing an image
EP2633685A1 (en) * 2010-10-27 2013-09-04 VID SCALE, Inc. Systems and methods for adaptive video coding
KR101688946B1 (ko) * 2010-11-26 2016-12-22 엘지전자 주식회사 신호 처리 장치 및 그 방법
WO2012095487A1 (de) 2011-01-12 2012-07-19 Siemens Aktiengesellschaft Kompression und dekompression von referenzbildern in einem videokoder
JP5736863B2 (ja) * 2011-03-15 2015-06-17 富士通株式会社 トランスコード装置及びトランスコード方法
CN103220550B (zh) * 2012-01-19 2016-12-07 华为技术有限公司 视频转换的方法及装置
US9661331B2 (en) 2013-03-18 2017-05-23 Vantrix Corporation Method and apparatus for signal encoding realizing optimal fidelity
US9338450B2 (en) 2013-03-18 2016-05-10 Ecole De Technologie Superieure Method and apparatus for signal encoding producing encoded signals of high fidelity at minimal sizes
US10609405B2 (en) 2013-03-18 2020-03-31 Ecole De Technologie Superieure Optimal signal encoding based on experimental data
DE102013211571B4 (de) 2013-06-19 2016-02-11 Opticom Dipl.-Ing. Michael Keyhl Gmbh Konzept zur bestimmung der qualität eines mediadatenstroms mit variierender qualität-zu-bitrate
CN103546755B (zh) * 2013-08-22 2015-05-20 合一网络技术(北京)有限公司 固定码率的自适应分辨率转码方法
US9621907B2 (en) * 2014-08-15 2017-04-11 Lattice Semiconductor Corporation System and method for transcoding data
US9613294B2 (en) * 2015-03-19 2017-04-04 Intel Corporation Control of computer vision pre-processing based on image matching using structural similarity
KR102468223B1 (ko) * 2015-07-10 2022-11-18 한국전자통신연구원 3dtv 방송 송신 장치 및 그의 기준영상 선택 방법
KR101832418B1 (ko) * 2015-12-31 2018-02-26 네이버 주식회사 이미지 압축 품질을 최적화 하기 위한 방법 및 시스템
CN108805943B (zh) * 2017-04-27 2022-12-09 腾讯科技(深圳)有限公司 图片转码方法和装置
CN110166797B (zh) * 2019-05-17 2022-02-01 北京达佳互联信息技术有限公司 视频转码方法、装置、电子设备及存储介质
CN111901631B (zh) * 2020-07-30 2023-02-17 有半岛(北京)信息科技有限公司 一种直播视频的转码方法、装置、服务器和存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05130431A (ja) * 1991-11-07 1993-05-25 Matsushita Electric Ind Co Ltd デイジタル画像信号の高能率符号化装置
JP3738574B2 (ja) * 1998-09-18 2006-01-25 富士ゼロックス株式会社 画像情報符号化装置
JP2001238213A (ja) * 2000-02-25 2001-08-31 Canon Inc 画像処理装置およびその方法
US6937759B2 (en) 2002-02-28 2005-08-30 Nokia Corporation Method and device for reducing image by palette modification
JP4301366B2 (ja) * 2003-11-27 2009-07-22 株式会社リコー 画像形成システム
JP2005311822A (ja) * 2004-04-23 2005-11-04 Hitachi Ltd デジタル信号トランスコード装置
US8073275B2 (en) * 2005-02-09 2011-12-06 Mobixell Networks Ltd. Image adaptation with target size, quality and resolution constraints
US7724972B2 (en) * 2005-03-01 2010-05-25 Qualcomm Incorporated Quality metric-biased region-of-interest coding for video telephony
JP2006246008A (ja) * 2005-03-03 2006-09-14 Ntt Docomo Inc 映像トランスコードシステム、映像取得装置、トランスコーダ装置、及び、映像トランスコーディング方法
JP2008533885A (ja) * 2005-03-15 2008-08-21 ネロ アーゲー 画像データストリームを生成するための装置および方法ならびに画像データストリームを処理するための装置および方法
WO2006110975A1 (en) * 2005-04-22 2006-10-26 Logovision Wireless Inc. Multimedia system for mobile client platforms
CN101273637B (zh) * 2005-09-28 2013-04-03 艾利森电话股份有限公司 媒体管理器、媒体内容管理方法和系统以及包含媒体管理器的通信单元
CN101001371B (zh) * 2007-01-19 2010-05-19 华为技术有限公司 视频转码的方法及其装置

Also Published As

Publication number Publication date
WO2009055899A1 (en) 2009-05-07
IL204726A (en) 2015-08-31
WO2009055898A1 (en) 2009-05-07
CN102737390A (zh) 2012-10-17
EP2220617A4 (en) 2012-02-01
EP2210237B1 (en) 2018-09-05
CN101842812A (zh) 2010-09-22
JP2011502406A (ja) 2011-01-20
EP2210237A1 (en) 2010-07-28
JP2012199939A (ja) 2012-10-18
IL204726A0 (en) 2010-11-30
KR20100092950A (ko) 2010-08-23
EP2220617B1 (en) 2018-10-24
JP4994500B2 (ja) 2012-08-08
KR101459395B1 (ko) 2014-11-10
CN101842812B (zh) 2012-05-30
EP2210237A4 (en) 2012-02-15
EP2220617A1 (en) 2010-08-25

Similar Documents

Publication Publication Date Title
JP5391465B2 (ja) デジタル画像の画質認識トランスコードシステムにおける画質予測テーブルを生成するためのシステム及び方法。
US8559739B2 (en) System and method for quality-aware selection of parameters in transcoding of digital images
KR101483137B1 (ko) 근사 최적 퀄리티를 갖는 낮은 복잡성의 이미지 트랜스코딩을 위한 방법 및 시스템
Katsenou et al. Content-gnostic bitrate ladder prediction for adaptive video streaming
JP2015111954A (ja) 大きいサイズの変換単位を用いた映像符号化、復号化方法及び装置
KR101428671B1 (ko) 스케일링 및 퀄리티-컨트롤 파라미터의 변경에 의한 변환이 가능한 이미지의 파일 사이즈 예측 시스템 및 방법
JP2011502406A5 (ja)
US11593966B2 (en) Method of providing image storage service, recording medium and computing device
KR102113904B1 (ko) 보간을 이용한 연산 방법, 인코더, 및 디코더
CA2703048C (en) System and method for quality-aware selection of parameters in transcoding of digital images
HUE033524T2 (en) Procedure for compressing data
CA2703046C (en) Method and system for generating a quality prediction table for quality-aware transcoding of digital images
JP2009273096A (ja) 中間動画ファイル生成装置およびその動作制御方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130925

R150 Certificate of patent or registration of utility model

Ref document number: 5391465

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees