JP2012226744A

JP2012226744A - 画質評価

Info

Publication number: JP2012226744A
Application number: JP2012087667A
Authority: JP
Inventors: Marchetti Luca; ルカ・マルケソッティ; Nkoutche Rodrigue; ロドリグ・ンクッチ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2011-04-19
Filing date: 2012-04-06
Publication date: 2012-11-15
Anticipated expiration: 2032-04-06
Also published as: JP5782404B2; US8712157B2; FR2974433A1; US20120269441A1

Abstract

【課題】画像の画質を予測するコンピュータで実行するシステム及び方法を開示する。
【解決手段】入力画像に関して、この方法は、画像に関する意味内容情報に基づいて第一の記述子を生成する工程と、画像から抽出される美的特徴に基づいて第二の記述子を生成する工程とを含む。第一の記述子及び第二の記述子に基づいて訓練されて品質値を画像割り当てるカテゴライザを用いて第一の記述子及び第二の記述子に基づいて品質値を画像に割り当て、出力する。
【選択図】図１

Description

本明細書に開示されている例示的な実施形態の様態は、写真画像の品質を評価するシステム及び方法に関し、美的特徴だけでなくコンテンツ特徴にも基づいて画質を予測する、自動システムにおける特定な用途を見出すものである。

プロやアマチュアの写真家により作られるデジタル写真画像は、ますます増えてきている。公衆のウェブサイトを通じてこれらの画像にアクセスすることができ、ウェブサイトの閲覧者がその品質やその他の特徴を評価することができる。

画像品質評価の分野では、知覚画質を自動的に予測できる品質測定法を考案するために相当な努力がなされてきた。１つの目的は人間の好みと良い相関を有するデジタル画像から記述子を抽出することであった。過去には不規則な又は計画されたノイズ（例えば、ごま塩ノイズ、ＪＰＥＧアーティファクト、リンギング）及びブラー等の特定の信号レベルの劣化の有無が、写真画像の品質を規定するうえで一般に使用されてきた。しかし、現在では高解像度デジタルセンサが容易に使用でき、写真家はこれらの劣化を克服できる。最近の画像品質評価では、低いレベルの画像品質よりも、高いレベルの特徴を評価することに焦点があてられてきている。以下を参照されたい。２００６年ＥＣＣＶ（３）でのＲ．Ｄａｔｔａｅｔａｌ．による「Ｓｔｕｄｙｉｎｇａｅｓｔｈｅｔｉｃｓｉｎｐｈｏｔｏｇｒａｐｈｉｃｉｍａｇｅｓｕｓｉｎｇａｃｏｍｐｕｔａｔｉｏｎａｌａｐｐｒｏａｃｈ」の２８８〜３０１ページ（以下「Ｄａｔｔａ２００６」とする）、２００７年ＭＵＬＴＩＭＥＤＩＡ ’０７：Ｐｒｏｃ．１５ｔｈＩｎｔｅｒｎ’ｌＣｏｎｆ．ｏｎＭｕｌｔｉｍｅｄｉａでのＲ．Ｄａｔｔａｅｔａｌ．による「Ｌｅａｒｎｉｎｇｔｈｅｃｏｎｓｅｎｓｕｓｏｎｖｉｓｕａｌｑｕａｌｉｔｙｆｏｒｎｅｘｔ−ｇｅｎｅｒａｔｉｏｎｉｍａｇｅｍａｎａｇｅｍｅｎｔ」の５３３〜５３６ページ（以下「Ｄａｔｔａ２００７」とする）、２００８年１０月１５ｔｈＩＥＥＥＩｎｔｅｒｎ’ｌＣｏｎｆ．ｏｎｉｍａｇｅＰｒｏｃｅｓｓｉｎｇでのＲ．Ｄａｔｔａｅｔａｌ．による「Ａｌｇｏｒｉｔｈｍｉｃｉｎｆｅｒｅｎｃｉｎｇｏｆａｅｓｔｈｅｔｉｃｓａｎｄｅｍｏｔｉｏｎｉｎｎａｔｕｒａｌｉｍａｇｅｓ：Ａｎｅｘｐｏｓｉｔｉｏｎ，」の１０５〜１０８ページ。

画質に関する特徴は、画像のコンテンツには直接かかわりはなく、画像の知覚品質に影響を与える配色、構図、構成等の特定な視覚要素をとらえるために考案されているために、よく美的特徴と呼ばれる。

訓練データとして使用可能な、ソーシャルネットワーク、写真共有ウェブサイト等を通じてアクセスできる注釈付の画像データが増えてきているが、ハイレベルの品質評価に関する課題は依然として残っている。第一にこれらのデータは大抵、固有のノイズと共に注釈を付けられているが、人間の好みを扱う場合、全員が一致することはあまりない。

第二の課題は人間の好みをとらえるための特徴を考案することである。現時点で使用されている特徴は、人間の知覚と密接にかかわりあっているとは限らない。すなわち、それらは閲覧者が画質を評価するのに使用する全ての視覚情報をとらえるのに十分なほど強力ではない。

自動の画像品質評価を改善できるシステム及び方法の必要性が残されている。

例示的な実施形態の一様態によると、画像の画質を予測する方法は入力画像に関して、画像に関する意味内容情報に基づく第一の記述子を生成する工程と、画像から抽出される美的特徴に基づく第二の記述子を生成する工程とを含む。第一の記述子及び第二の記述子に基づいて品質値を画像に割り当てるために訓練されたカテゴライザを用いて、第一の記述子及び第二の記述子に基づいて品質値を画像に割り当て、画質値を出力する。

第一の記述子は、画像及び画像の画像データに関連する文字情報のうちの少なくとも１つから生じ得る。

文字情報は画像及び画像に組み込まれたメタデータに関連する文字標識のうちの少なくとも一方を含むことができる。

第一の記述子は複数のコンテンツカテゴリ毎に値を含むことができる。

この方法は入力画像からローカル特徴のセット抽出する工程と、ローカル特徴の分布を示す画像表現を生成する工程と、及び画像表現に基づいて複数のコンテンツカテゴリ毎に値を割り当てる工程とを含むことができる。

第二の記述子を生成する工程は画像のパッチから複数の美的特徴を抽出することを含むことができる。

第二の記述子は、指向勾配のヒストグラム（ＨＯＧ）特徴、スケール不変特徴変換（ＳＩＦＴ）特徴、及びガボール特徴のうちの少なくとも１つを含む一般特徴をさらに含むことができる。

ガボール特徴は、ガウスエンベローブにより変調された特定な周波数及び方向性を持つ正弦平面でよい。

品質値を割り当てる工程は、随意に重み付けされた第一の記述子及び第二の記述子の組み合わせである組み合わせ記述子を生成することを含むことができる。

組み合わせ記述子を以下の形をとる集計関数と組み合わせてもよい。
但し
ｘ_ｃは第一の記述子を示す
ｘ_ａは第二の記述子を示す
０＜α＜１

品質値を割り当てる工程は、の分類子のセットを用いて第二の記述子をコンテンツカテゴリごとに１つ分類して、コンテンツカテゴリ毎に各分類子スコアを生成し、重み付けした分類子スコアの組み合わせに基づく品質値を生成することを含むことができ、分類子スコア毎の重みは第一の記述子の各特徴の値から生じる。

方法は訓練画像のセットを用いてカテゴライザを訓練することをさらに含むことができ、各訓練画像は関連する品質情報を有し、訓練には訓練画像毎に、
ａ）品質情報から品質値を生成することと、
ｂ）コンテンツ特徴の記述子を生成することであって、
ｉ）画像に関連するコンテンツ情報、及び
ｉｉ）画像の画像データに基づいて意味的カテゴライザにより出力されるカテゴリ情報のうちの少なくとも一方に基づいて生成すること、
ｃ）画像から抽出される美的特徴に基づいて美的特徴の記述子を生成することと、
訓練セット内の各画像の品質値、コンテンツ特徴の記述子、及び美的特徴の記述子上のカテゴライザを訓練することが含まれる。

品質情報には、画像毎に閲覧者の入力による品質に関連する序列又は画像の評価のうちの少なくとも１つが含まれ得る。

方法は情報検索システムにおける画像の検索のためのパラメータとして品質値を使用する工程をさらに含むことができる。

コンピュータプログラム製品は、コンピュータで実行したとき上記の方法を行う命令を符号化する非一時的記憶媒体を含むことができる。

上記の方法を行うシステムは、方法を行う命令を格納する非一時的メモリ及び命令を実行するコンピュータプロセッサを含むことができる。

別の様態では、画像に関する画像品質評価を生成するシステムは入力画像に関するコンテンツ情報に基づいて第一の記述子を生成するコンテンツ特徴エクストラクタと、画像から抽出される美的特徴に基づいて第二の記述子を生成する美的特徴エクストラクタと、第一の記述子及び第二の記述子に基づいて品質値を画像に割り当てるために訓練されたカテゴライザとを格納するメモリを含む。コンピュータプロセッサは、エクストラクタとカテゴライザを実装するメモリと通信する。

カテゴライザは、少なくとも１つ分類子と、前期融合及び後期融合のうちの一方を行う融合モジュールと、を含むことができる。

融合モジュールは、組み合わせ記述子を生成することを含む前期融合を行うことができ、この組み合わせ記述子とは、第一の記述子と第二の記述子の随意的に重み付けされた組み合わせであり分類子に入力される。

少なくとも１つの分類子は複数のコンテンツカテゴリのうちの１つ毎に１つの分類子を含む複数の分類子を含むことができる。融合モジュールは、第二の記述子に基づいて複数の分類子により出力される複数の分類子スコアの重み付けされた組み合わせに基づいて品質値を生成することを含む後期融合を行い、それぞれの分類子スコアに関する重みは第一の記述子の各特徴値から生じる。

別の様態では、画像の画質を予測する方法が訓練画像のセットを受け取る工程を含み、セットの各画像は関連する画像の意味内容を示す文字情報と、ユーザにより提供される画質情報に基づく画質値とを有する。カテゴライザは、画像から抽出される画像の標識、その画質値、及び特徴に基づいて訓練される。文字情報を有するが画質値のない入力画像に関して、この方法は画像の画像データから特徴を抽出する工程と、カテゴライザを用いて文字情報及び抽出される特徴に基づいて品質値を画像に割り当てる工程とを含んでいる。画質値が出力値である。

訓練中及び使用中における例示的なカテゴライザへの入力の概略図である。例示的な実施形態の一様態による画像品質評価に関するシステムの機能ブロック図である。例示的な実施形態の別の様態による画像品質評価の方法を示すフローチャートである。例示的な方法及び比較の方法により生成された結果を示すグラフである。後期融合法における異なるαの値を選択する影響を示すグラフである。異なる数の方向を用いたガボール特徴の使用の精度への影響を示すグラフである。

例示的な実施形態は画像品質評価のためのコンピュータで実行するシステム及び方法に関する。例示的なシステム及び方法は画像品質評価における特徴の組み合わせ及び異種の情報の統合を組み込む。画像の全特性を示す低レベルの画像特徴、及び画像領域の特性を示す高レベルの特徴の２種類の特徴が考えられる。２つの異なる種類の特徴に基づいて分類を組み合わせるために、２つの分類子融合法が提案される。第一に、組み合わせは低レベルの特徴とハイレベルの特徴の随意的に重み付けされた融合として実現される。第二に、組み合わせはコンテンツのクラス特定のスコアの後期融合における重みを付けて実現される。

データから直接人間の好みを自動予測することが有効であり得る事例が数多く存在する。例えば、画像検索システムでは、従来のコンテンツベースの検索方法の結果を例示的なシステムを用いて改良又はまとめることができる。また、システムを直接カメラに配置して所与のシーンに写し出されたものに対してリアルタイムで提案を行うことも可能である。

図１は例示的な実施形態の様態を概略的に示す。図２は画像品質評価を画像１２に割り当てる例示的なシステム１０を示す。図３は画像品質評価を画像に割り当てる例示的な方法を示し、この画像は平均的な閲覧者の知覚画質を一致する知覚画質を提供することを目的とする。図１に示す通り、実行時間では、例示的なシステム１０はコンテンツ特徴１４と美的特徴１６の両方を含むことができ、分類される画像１２に関する特徴のセットを生成する。組合せカテゴライザ１８は、画像品質評価２０を入力画像１２に割り当てるために訓練されている。評価は、コンテンツ特徴（ハイレベル特徴）１４と美的特徴（低レベル特徴）１６の関数である品質値２０の形をとる。

従って、画像品質評価２０は一連の人間の閲覧者により知覚される画質を予測する、画像１２の品質の自動評価である。本システムにより出力される画像品質評価２０は、例えば、０は最も低い画質、すなわち非常に悪い画像を示し、１は最も高い画像、すなわち非常に良い画像を示す０から１の段階等の、所定の最大値と最小値の範囲内の実数の値であるスコアでよい。つまり星評価（例えば、１つ星は最も低くＫ星は最も高い、Ｋは５〜１０の所定の最大値）のような量子化されたスコアである。別の実施形態では、値２０は序列（例えば、１最も高い画質に対応し、その他の画像は高い値を有するに従って低い序列に対応する）又は可能な言語による表現（「低品質」、「平均品質」、「良品質」、及び「優良品質」等の）の有限集合から選択される画質の言語による表現でよい。

コンテンツ特徴１４とはカテゴリにより画像の目で見える知覚コンテンツを示す。意味内容のカテゴリのセットを規定することができ、それぞれいくつかの入力画像１２内に存在することが期待され得る概念を示す。一例として、あるカテゴリのセットは以下の概念を表すことができる。動物、風景、人々、都市、花、対象等。少なくとも５つのカテゴリ等のあらゆる数のカテゴリを提供できることを理解されたい。例えば、１０のコンテンツカテゴリまででもよく、またいくつかの実施形態では２０まであり、又は１００コンテンツカテゴリまでよく、それより多くてもよい。画像１２には、１つ以上のコンテンツ特徴１４に基づいてカテゴリ毎に値を含む特徴ベクトルの形をとるコンテンツ特徴の記述子２２を割り当てることができる。画像のコンテンツ上の意味、画像に組み込まれるメタデータ及び／又は画像に関連するＧＰＳ又はその他の位置情報を示す文字標識等の画像１２に関連する文字情報２３からコンテンツ特徴１４を抽出することができる。あるいは又はさらに、以下に記載する通りコンテンツ特徴を画像データ自体、すなわち画像画素から、例えば、意味的カテゴライザを用いて抽出することもできる。コンテンツ特徴の記述子を形成する値は、量子化することができる、例えば、二値（０又は１）又は［０，１］の範囲等の所定の範囲内の実数の値でよい。

美的特徴１６は画像の画素に基づいて抽出することができる特徴である。全ての好適な美的特徴の組み合わせを選択することができ、それによりブラー、粒状感、コントラスト、彩度、配色、三分割法の順守、独自性、補色の使用、被写界深度、美しい形状の外観、画像サイズ、画像アスペクト比、赤目又は他のアーティファクトの存在等の知覚画質問題の範囲を評価する。

カテゴライザ１８は、１００から１００万の訓練画像等の訓練画像３０、３２、３４のセットを用いて訓練される。各訓練画像３０、３２、３４は画素の配列を有する画像データ３６を含む。訓練画像はそれぞれ人間の批評家により割り当てられるスコア（又は複数のスコア）等の品質情報３８で標識される。訓練画像３０、３２、３４を、批評家により割り当てられるカテゴリ等のコンテンツ情報４０（情報２３に類似する）で標識することができる。品質情報３８及びコンテンツ情報４０のうちの１つ以上に基づいて訓練画像の削減したセット４２を訓練のめに選択することができる。

コンテンツ特徴５０及び美的特徴５２等の特徴と正規化された品質値５４が画像毎に生成される。コンテンツと美的特徴の記述子５６、５８（分類される画像１２の特徴１４、１６と同じ形で）がカテゴライザ１８に入力される。カテゴライザ１８は、入力された特徴の記述子５６、５８及び訓練画像３０、３２、３４等のそれぞれの関連する品質値５４に基づいて、品質値２０を新しい画像１２に割り当てることを覚える。

次に図２を参照すると、画質システム１０が動作する典型的な環境が示されている。システム１０は図示されたサーバコンピュータ等の１つ以上のコンピュータ装置を備え、メインメモリ６０及びデータメモリ６２として図示されているメモリ、コンピュータのＣＰＵ等のプロセッサ６４、及び他の装置と通信するための１つ以上のネットワークインターフェース（Ｉ／Ｏ）６６を含み、全てデータ／コミュニケーションバス６８により通信可能に接続されている。コンピュータは、デスクトップ、ラップトップ等のＰＣ、パームトップコンピュータ、携帯情報端末（ＰＤＡ）、デジタルカメラ、サーバコンピュータ、携帯電話、タブレットコンピュータ、ポケットベル、又は例示的な方法を行うための命令を実行できるその他のコンピュータ装置でよい。

デジタルプロセッサ６４をシングルコアプロセッサ、デュアルコアプロセッサ（又はより一般的にマルチコアプロセッサにより）、デジタルプロセッサ及び協働数値演算プロセッサ、デジタルコントローラ等によりさまざまに組み込むことができる。

メモリ又は一連のメモリ６０、６２は、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、磁気ディスク又はテープ、光ディスク、フラッシュメモリ、又はホログラムメモリ、又はそれらの組み合わせ等のあらゆる種類の非一時的コンピュータ可読媒体でよい。下記に示す通り、メモリ６０はサーバコンピュータの動作及び画質を評価する例示的な方法を行うための命令を格納することができる。メモリ６２は、例示的な方法により処理される画像１２及び処理されたデータ２０を格納する。

ネットワークインターフェース６６は、コンピュータがコンピュータネットワーク７０、例えばローカル・エリア・ネットワーク（ＬＡＮ）、インターネット、電話回線、有線接続、又はそれらの組み合わせ等のワイド・エリア・ネットワーク（ＷＡＮ）等の有線又は無線接続を介して、他の装置と通信することを可能にし、変調器／復調器（ＭＯＤＥＭ）を含むことができる。

分類される画像１２は、ＰＣ、ラップトップ、カメラ、携帯電話等の汎用又は専用コンピュータ装置等の画像のソース８０から、又はフラッシュドライブ、ディスク、ポータブル・ハード・ドライブ、カメラ・メモリ・スティック等の非一時的メモリ格納装置からシステム１０に入力される。例示的な実施形態では、ソース８０は画像１２及びサーバコンピュータにホストされたウェブポータルに画像をアップロードするためのウェブブラウザ８４を格納するメモリ８２を含むクライアントのコンピュータ装置であり、プロセッサ８６により実行される。メモリ８２及びプロセッサ８６をメモリ６０、６２及びプロセッサ６４と同じように設定することができる。１つ以上のインターフェース８８、９０により、コンピュータ８０はシステム１０及びコンピュータモニタ、ＬＣＤスクリーン等のディスプレイ装置９２、及びタッチスクリーン、キーボード、キーパッド、カーソルコントロール・装置又はそれらの組み合わせ等の１つ以上のユーザ入力装置９４と通信することができる。

訓練画像３２、３４、３６等の訓練画像のセットは、データベース（又は複数のデータベース）１００内に格納される。データベース１００をメモリ６２又は、システム１０に（例えば、ネットワーク７０を介して）アクセス可能なメモリ内に格納することができる。

システム１０は、画像１２、３２、３４、３６を、ＪＰＥＧ、ＴＩＦＦ、ＧＩＦ、ＪＢＩＧ、ＢＭＰ又はその他の画像に使用される共通のファイル形式等のあらゆる便宜なファイル形式で受け取ることができ、処理をする前にそれらを随意的に別の好適な形式に変換することができる。画像は、文字／図及び写真等を含む各写真、ビデオ画像、三次元画像、組合せ画像でよい。一般に、各入力デジタル画像は、画像を形成する画素の配列に関する画像データを含む。画像データは、ＲＧＢ等の色分解のセットごとにグレースケール値等の色の値を含むことができる、又は、画像データを異なる色で表すことができる異なる色空間で表すことができる。一般に、「グレースケール」とは、あらゆる単一の色分解の光学濃度の値のことを指すが、表示される（ＲＧＢ、Ｌ^＊ａ^＊ｂ^＊、ＹＣｂＣｒ、等）。例示的なシステム及び方法はモノクロ画像（単一色分解）及び多色画像（複数の色分解）に適用できる。本明細書に使用される通り、メタデータ、ＨＴＭＬ標識、関連するファイル内の情報等として、画像データ添付される文字情報２３、４０は「画像データ」には含まれない。

システム１０、図３に示す例示的な方法を行うための、メインメモリ６０に格納されたソフトウェア命令を含む。これらの命令はプロセッサ６４により実行され、次の一連の構成要素として示されている。品質値エクストラクタ１０２、コンテンツ特徴エクストラクタ１０４、美的特徴エクストラクタ１０６、及び組合せカテゴライザ１８。組合せカテゴライザ１８は、１つ以上の特徴の分類子１１０及び融合モジュール１１２を含むことができる。

簡単に言うと、品質値エクストラクタ１０２は訓練画像３２、３４、３６毎に品質値５４を抽出する。品質値は単純に人間の批評家により提供され、情報画像に関連する品質情報３８における情報から生じる数字の実数の値でよい。例えば、批評家は１〜１０の整数を各画像３２、３４、３６に割り当て、１０を最も高い品質又は序列（１は最も高い）とすることができる。いくつかの訓練画像３２、３４、３６は数人の批評家により評価されたものでもよく、その場合、品質値５４平均は又は批評家スコア３８の別の関数でよい。カテゴライザ１８が訓練されたら、構成要素１０２はもはや必要ないことを理解されたい。

コンテンツ特徴エクストラクタ１０４は、画像１２、３２、３４、３６に関するコンテンツ特徴１４、５０を抽出し、画像の意味内容を表現するコンテンツ特徴１４又は５０に基づいて各画像に関するコンテンツ特徴の記述子２２、５６を生成する。ある実施形態では、コンテンツ特徴エクストラクタ１０４は意味的カテゴライザ１１４を含む、又はアクセスする。この意味的カテゴライザ１１４は画像１２、３２、３４、３６の画像データからのコンテンツ特徴１４、５０のいくつかの又は全てを抽出する。従って、例示的なコンテンツ特徴の記述子２２、５６は、美的特徴のいずれにも基づいていない。

美的特徴エクストラクタ１０６は、画像１２、３２、３４、３６に関する美的特徴１６、５２を抽出し、画像に関する特徴１６、５２から各美的特徴の記述子２４、５８を生成し、この美的特徴の記述子２４、５８が画像の美的外観を少なくとも部分的に予測する。従って、例示的な美的特徴記述子２４、５８はコンテンツ特徴のどれにも基づいていない。

コンテンツ特徴の記述子５６、美的特徴の記述子５８及び品質値５４を用いて訓練された組合せカテゴライザ１８は、コンテンツ及び美的特徴の記述子２２、２４（従って、いずれの関連する品質情報に基づいていない）に基づいて新しい画像１２（関連する品質情報を持たない）分類することができる。融合モジュール１１２は二つ以上の分類子１１０から結果を融合する、又は例えば、後期融合法又は前期融合法をそれぞれ用いて分類子１１０を入力する前に記述子２２、２４を融合する。ある実施形態では、融合モジュール１１２は、分類子１１０を入力する前に、特徴の記述子２２及び２４（又は訓練中の５６及び５８）を単一の記述子に融合させる前期融合モジュールである。別の実施形態では、融合モジュール１１２は、各分類子１１０によりカテゴリ毎に１つ出力されるスコアを受け取り、分類子１１０により出力される、重み付けされたスコアの関数として全体の品質スコア２０を生成する後期融合モジュールである。

様々なソフトウェアの構成要素１０２、１０４、１０６、１８、１１４が、独立したモジュールとして記載されているが、これらのうちの１つ以上を分離して追加モジュールする、又は組み合わせることができることを理解されたい。構成要素のうちのいくつかは、前のモジュールの入力上で機能することができる。いくつかのケースでは、それから抽出される画像データ又は情報を、さらに処理するために前のモジュールに戻すことができる。

本明細書で使用される用語「ソフトウェア」は、コンピュータ又はその他のデジタルシステムを設定して、ソフトウェアの目的とする作業を行うために、コンピュータ又はその他のデジタルシステムにより実行できる、あらゆる命令の集まり又はセットを包含することを意図する。本明細書に使用される用語「ソフトウェア」は、ローカル又はリモートの記憶媒体に格納されるそのような命令を包含することを意図する。

図３は、図２のシステムを用いて行われる画像品質評価の方法を示す。方法はＳ１００から始まる。

Ｓ１０２で、訓練画像３２、３４、３６のセットが提供される。訓練画像３２、３４、３６はコンテンツ情報品質スコアを含む文字情報３８、４０と関連することができる。

Ｓ１０４で、訓練画像毎に品質値５４が、例えば品質情報３８（エクストラクタ１０２により）から抽出される。ある実施形態では、（平均の）ユーザスコアが量子化され得る。例えば、閾値スコアｔｈを選択し、画像＜閾値の場合、不良（例えば、−１）と標識し、その他の画像、すなわちそれらの画像≧閾値ｔｈの場合、良（例えば、＋１）と標識することにより二値化される。別の実施形態では、訓練画像を随意的にフィルタ（Ｓ１０６）にかけて、例えば、第一の閾品質値を超えた画像、及び第二の高い閾値より低い画像を取り除くことにより、訓練画像４２の削減したセットを供給する。これにより、ボーダラインの画像を取り除く。Ｓ１０４では、残った画像が、第一の閾値の以下の場合、不良（例えば、−１）で標識し、その他の画像、すなわち、それらの画像が第二の閾値以上の場合、良（例えば、＋１）で標識する。

Ｓ１０８で、（随意的にフィルタにかけられた）訓練画像３２、３４、３６のセットからコンテンツ特徴５０が（エクストラクタ１０４により）抽出される。例えば、ｉ）手動で適用された標識４０と、ｉｉ）画像データに基づいて意味的カテゴライザ１１４により出力される、コンテンツの値のうちの１つ以上から、これらの特徴を抽出することができる。

Ｓ１１０で、抽出されるコンテンツ特徴５０に基づいてコンテンツ特徴の記述子５６が画像３２、３４、３６ごとに（エクストラクタ１０４により）生成される。

Ｓ１１２で、訓練画像３２、３４、３６から美的特徴５２が（エクストラクタ１０６により）抽出される。

Ｓ１１４で、抽出された美的特徴５２に基づいて美的特徴の記述子５８が訓練画像３２、３４、３６ごとに（エクストラクタ１０６により）生成される。

Ｓ１１６で、Ｓ１０４で抽出された品質値５４及び各コンテンツ及びＳ１１０及びＳ１１４で生成された美的特徴の記述子５６、５８に基づいて分類子１１０が訓練される。特に、訓練された分類子１１０のパラメータはメモリ６０内に格納される。

Ｓ１１８で、あらゆる品質情報３８を持たない新しい画像１２（テスト画像）がシステム１０に入力される。

Ｓ１２０で、コンテンツ特徴１４が新しい画像１２から（エクストラクタ１０４により）抽出される。

Ｓ１２２で、Ｓ１２０で（エクストラクタ１０４により）抽出されたコンテンツ特徴１４に基づいてコンテンツ特徴の記述子２２が新しい画像１２に対して生成される。

Ｓ１２４で、美的特徴１６が新しい画像１２から（エクストラクタ１０６により）抽出される。

Ｓ１２６で、Ｓ１２４で抽出された美的特徴１６に基づいて美的特徴の記述子２４が新しい画像１２に対して（エクストラクタ１０６により）生成される。

Ｓ１２８で、新しい画像１２に関する美的記述子２４及びコンテンツ記述子２２に基づいて品質値２０が訓練されたカテゴライザ１８を用いて生成される。上記に記載した通り、品質値２０は、例えば、画像１２を品質に関して良、又は不良として指定する量子化された二進値（例えば、＋１、−１）でよい、又は、例えば、０から１又は１から１０の範囲の実数の値でよい。

Ｓ１３０で、品質値２０が、例えば、サーバコンピュータ１０上に常駐するメモリ格納装置６２に出力される又はＩ／Ｏ装置６６を介して、外部メモリ、クライアント装置８０、又はプリンタ、ディスプレイ装置９２、又はその他の外部の出力装置等の外部の装置に出力される。

Ｓ１３２で、処理を実行する別のコンピュータへ品質スコア２０を入力することができる。方法はＳ１３４で完了する。

一度カテゴライザ１８訓練されたら、新しい画像に関してステップＳ１０４〜Ｓ１１６を繰り返す必要はないことを理解されたい。また、全てのステップが示された順番で行われる必要もない。例えば、ステップＳ１０８とＳ１１２は入れ替える又は同時に行うことができる。

図３に示される方法は、コンピュータ上で実行されるコンピュータプログラム製品内で実行することができる。コンピュータプログラム製品は、ディスク、ハードドライブ等の方法を実行する制御プログラムが記録されている非一時的コンピュータ可読記憶媒体を含むことができる。

あるいは、電波通信及び赤外線通信の間に生成される音波又は光波等の伝送媒体を用いたデータ信号として制御プログラムが組み込まれた伝送搬送波等の一時的媒体内で、この方法を実行することもできる。

次に、システム及び方法の様々な様態をより詳細に説明する。
コンテンツ特徴の抽出

例示的な実施形態は、画像１２に割り当てられた画質値２０が、画像の意味内容に部分的に依存することを前提とする。従って、下記の例で証明される通り、画像１２の主題を示すコンテンツ特徴１４を用いることにより、その品質の評価を改善することができる。画像の意味内容１４は、手書きの注釈２３、その画像と別の画像の類似性に基づいて文字情報を別の画像から画像に組み込む自動モデルにより作られる文字標識、メタデータ、ＧＰＳ又はその他の位置情報、分類スコア等のうちの１つ以上から生じ、それらうちのいくつかは画像のコンテンツベースの記述子を生成するために用いられる。

画像１２、３２、３４、３６は、Ｎ_ｃ個のセットの異なる概念又はコンテンツカテゴリを用いて示される。各画像Ｘ（ｉ）に特徴ベクトルｘ_ｃ（ｉ）２２、５６の形をとる第一の記述子を次のように割り当てることができる。｜ｘ_ｃ｜＝Ｎ_ｃ（すなわち、カテゴリ毎に１特徴）、ここで各次元は特定の概念が画像Ｘ（ｉ）内に表されている可能性を示す。
但し各特徴の可能性（重みｗ）は二進値又は実数の値でよい。
第一の記述子Ｘ_ｃ（ｉ）において、全ての重みを正規化することができ、その合計は１となる。

例えば、コンテンツ情報２３、４０が画像のテキストの記述を含む人間により割り当てられるカテゴリ又は標識上の情報の場合、コンテンツ特徴エクストラクタ１０４は、コンテンツ特徴記述子２２、５６を生成する際に、この情報を用いることができる。

一実施形態では、このテキストコンテンツ情報は、閲覧者カテゴリの所定のセットから選ばれる。例えば、ユーザが見る画像は、セット内の１つ以上の（しかし一般には全部ではない）閲覧者カテゴリを選択に限定される。閲覧者カテゴリをシステム１０により用いられるコンテンツカテゴリと連携させることができ、そのため各閲覧者カテゴリはコンテンツカテゴリのうちの各１つに対応する（いくつかのケースでは、二つ以上の閲覧者カテゴリを同じコンテンツカテゴリに連携させることができる）。従って、例えば、閲覧者が「風景」の標識だけを画像に添付した場合、１の特徴値ｗｊが対応する「風景」コンテンツ特徴に割り当てられ、（０、１、０、０、０、０、０）等の第一の記述子を生成することができる。コンテンツカテゴリは、例えば、動物、風景、人々、都市、花、対象等である。

標識２３、４０が自由形式の場合、すなわち、どのカテゴリにも限定されていない場合、システム１０は構文解析を行って文字情報２３、４０を分析してコンテンツカテゴリとして認識されるテキストを識別することができる。例えば、「これは赤いバラです」という文を例にとると、システムは、バラ（名詞）を抽出し画像をコンテンツカテゴリ「花」に１の特徴の重みｗｊとともに割り当てる。

追加的に又は代替的に、コンテンツ特徴記述子２２、５６は、画像１２、３２、３４、３６の画像データ（画素）から抽出される特徴に基づく。この場合、コンテンツ特徴の記述子の生成子は、１つ以上の視覚コンテンツ分類子を含むことができる意味的カテゴライザ１１４にアクセスすることができる。カテゴライザ１１４は、画像を単一の最も可能性の高いカテゴリ又は確率的に全てのカテゴリに割り当てることができる。従って、第一の記述子は、テキストコンテンツ及び／又はテキストコンテンツ及び画像データコンテンツの両方の関数である画像データベースの重み又は一連の重みを含むことができる。

例示的な意味内容の特徴の記述子２２、５６を生成するために使用することができる、画像の視覚コンテンツを分類するための方法は、例えば、米国公開広報第２００７００５３５６号、第２００７０２５８６４８号、第２００８００６９４５６号、第２００８０３１７３５８号、第２００９０１４４０３３号、第２０１０００４０２８５号、第２０１０００９２０８４号、第２０１０００９８３４３号、第２０１００３１８４７７号、米国特許出願第１２／５１２，２０９号、第１２／６９３，７９５号、第１２／９６０，０１８号、及びＰｅｒｒｏｎｎｉｎ，Ｆ．，Ｄａｎｃｅ，Ｃによる２００７年ＣＶＰＲでの「ＦｉｓｈｅｒＫｅｒｎｅｌｓｏｎＶｉｓｕａｌＶｏｃａｂｕｌａｒｉｅｓｆｏｒｉｍａｇｅＣａｔｅｇｏｒｉｚａｔｉｏｎ」に記載されている。

例えば、意味的カテゴライザ１１４はパッチエクストラクタを含み、画像１２、３２、３４、３６の形状、質感、色等のパッチの特徴に関連するコンテンツが抽出及び分析される。パッチは、画像の区分化すること、特に関心のあるポイントを検出すること、規則的な格子を考慮すること、又は単に画像パッチを不規則にサンプリングすることにより得ることができる。各パッチから抽出される低レベルの特徴（ベクトル等）を融合して画像の印として機能する特徴ベクトルを形成することができる。別の方法では、画像の特徴ベクトルをクラスタに割り当てることができる。例えば、Ｋ平均法等を用いて訓練画像から抽出された低レベルの特徴をクラスタリングすることにより視覚の語彙を前もって得る。次いで、各パッチベクトルが最も近いクラスタに割り当てられ、割り当てのヒストグラムを生成することができる。他の方法では、確率論的枠組みが用いられる。例えば、混合ガウス分布モデル（ＧＭＭ）等の基本的な発生モデルが存在することを前提とし、そこから全てのベクトルが放射される。この場合、期待値最大化（ＥＭ）アルゴリズムを用いて視覚ボキャブラリを放出することができる。いずれの場合でも、語彙内の各視覚単語は、一般的な低レベルの特徴のグループに対応する。視覚単語はそれぞれ、視覚（デジタルよりむしろ）対象の種類（例えば、ボール又は球、ロッド又はシャフト等）、特徴のある背景（例えば、星空、青空、草原等）等の中間レベルの画像特徴に（おおよそ）対応できる。分類される画像を考慮すると、確率論的モデルの場合は、抽出される各特徴ベクトルは前もって訓練された語彙又は全ての視覚単語の中からその最も近い視覚単語に確率的な方法で割り当てられる。この割り当てに基づいて、単一のコンテンツカテゴリを割り当てることができる、又は全てのコンテンツカテゴリに対する確率的な割り当てを行うことができる。
美的特徴の抽出

美的特徴エクストラクタ１０６は、画像１２、３２、３４、３６毎に、直接画像上で評価される特徴から成るベクトルｘ_ａ（ｉ）２４、５８の形をとる第二の特徴記述子を規定する。

美的特徴は、低レベルの特徴、すなわち画像の全範囲の特性をとらえる特徴、及び画像内のローカル領域に焦点を合わせる高レベルの特徴を含むことができる。

低レベルの特徴を抽出する技術には、配色、露光又はエッジ分布、明度、モーションブラー、ダイナミックレンジ、焦点外背景、白黒、明暗対照法、ロングシャッタースピード、三分割法、マクロ／クローズアップ写真、対称性とパターン、リード線、オフセンタ被写体、自然構成、視点変化等のうちの１つ以上が含まれ得る。画像内のローカル領域の特徴を示す高レベルの記述子は、Ｋ平均法の区分化、特徴抽出法によりその領域を抽出し、幾何学的コンテキストを用いることができる。理由は優勢領域又は写真の主題の位置を見ることにより構図及び構成の特性をとらえるためである。当技術分野で多くの特徴機構が実行及びテストされているが、画像分類の文字に使用される典型的な記述子はこのコンテキストには用いられていない。

例示的な低レベルの美的特徴うちの少なくともいくつかをＤａｔｔａ２００６に記載された方法に従って演算することができる。Ｄａｔｔａ２００６の特徴には、ｆ１：光の使用の特徴を示す平均画素明度、ｆ２：マルチカラー画像モノクロから区別する相対的配色、セピア又は単に低コントラスト画像、ｆ３平均彩度、ｆ４平均色相、ｆ５、ｆ６及びｆ７三分割法特徴、（ｆ２、ｆ３及びｆ４に類似するが三分割法に従う画像に対して画像が人間の好みに合うかどうか評価するため画像の領域を考慮している。）ｆ８及びｆ９：画像と他の画像を比較して主題がより親しみがあるかどうか評価し、親しみのない（すなわちオリジナル）画像に対して高い値が得られる親しみの測定、ｆ１０〜ｆ２１：Ｄａｕｂｅｃｈｉｅｓのウェーブレット変換を用いて演算される粒状感の特徴、ｆ２２：画像の２つの寸法の合計である画像サイズ、ｆ２３：画像の２つの寸法の比であるアスペクト比、ｆ２４〜ｆ４７＋：画素をクラスタリングして類似色のパッチ及び補色パッチの配列にすることを記載した区分化に関連する特徴、ｆ５４、ｆ５５：被写界深度に関連する特徴、及びｆ５６：完全な月のような形状に対して高い値が得られ、凹又は複雑な形状に関しては低い値が得られるスコアによる凸形状に関連する特徴、が含まれる。さらに、これらの各特徴の非線形の累乗を用いてこの一連の特徴を増大させることができる。すなわちそれらを二乗、三乗、及び平方根して、各画像を示すＤ＝２２４の次元特徴ベクトルを得ることができる。以上Ｄａｔｔａ２００７、及び／又はＹ．Ｋｅ、Ｘ．Ｔａｎｇ、ａｎｄＦ．Ｊｉｎｇ．の２００６年６月「ＴｈｅｄｅｓｉｇｎｏｆＨｉｇｈ−ｌｅｖｅｌｆｅａｔｕｒｅｓｆｏｒｐｈｏｔｏｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔＶｏｌ．」のページ４１９〜４２６（以後本明細書ではＫｅ２００６と呼ぶ）に記載されている特徴を参照。Ｋｅの特徴は、エッジの空間分布、ブラー、その配色ヒストグラムとプロ画像及びスナップ写真の配色の間の距離、簡単、コントラスト、及び明度の測定としての色相カウントである。

画像カテゴリのうちの少なくともいくつかは、特徴値を正規化して［０、１］の範囲にすることができ、高い値のスコアは高い知覚品質と関連する傾向にある。使用される特徴のうちのいくつかは、他の特徴と実質的に重複してもよく、例示的な実施形態では、カテゴライザ１８の重みを特徴に割り当てるため、それにより方法が損なわれることはない。

指向勾配（ＨＯＧ）の特徴のヒストグラム、スケール不変特徴変換（ＳＩＦＴ）特徴（又は、その他の勾配ベースの特徴）、及びガボール特徴のうちの１つ以上等のより、高レベルの記述子の特徴を有する美的特徴の記述子２４、５８では、これらの美的特徴を組み合わせることができる。ＨＯＧ、ＳＩＦＴ及びガボール特徴により画像の構造及びそれらの質感の特性をとらえることができる。これら三つの特徴は美的特徴よりは一般的であるが、それらは美的分類に関して上記の美的記述子の特徴を補うことができる。

例えば、ガボールフィルタは質感の区分化、顔認識、対象検知等に有用である。ガボールフィルタは、人間の視覚システムと類似する周波数及び方向の表現を有する線形フィルタである。空間領域では、２Ｄガボールフィルタは、ｘ軸及びｙ軸にそれぞれ沿って変動する、ｘ軸及びｙ軸にそれぞれ沿って空間センタ周波数を有する正弦平面波により変調されたガウスカーネル関数である。ガボールフィルタは自己相似であり、したがって１つのマザーウェーブレットから全てのフィルタを拡張及び回転することにより生成することができる。各ガボールフィルタは方向性を有し、従って複数の方向性のそれぞれを用いて例示的な記述子に関する特徴を提供することができる。

ガボールフィルタはガウスエンベローブ（関数）により変調された、特定の周波数及び方向性の正弦平面とみなすことができ、下記のように表される。：
及びその周波数応答：

これはガウス関数を周波数領域内の（ｕ_０、ｖ_０）により変換することと同等である。従って、ガボール関数を周波数内の位置（ｕ_０、ｖ_０）に、すなわち、オリジナルから
の距離で
の方向にシフトしたガウス関数とみなすことができる。上記の方程式２及び３において、
（ｕ_０、ｖ_０）はガボールフィルタ空間センタ周波数である。パラメータ（σ_ｘ、σ_ｙ）はガウスエンベローブのｘ方向とｙ方向に沿った標準偏差である。σ_ｘ、σ_ｙはフィルタの帯域幅を決定し、ｊは指数関数の複雑度を表す。

入力画像データからガボールフィルタを生成する様々なソフトウェア・アプリケーション（例えば、Ｍａｔｌａｂで実行されている）が市販されており、それらは例示的な実施形態において、例えば、σ_ｘ、σ_ｙのデフォルト値を用いて例示的な記述子に関する１つ以上の特徴を生成している。値ｕ_０、ｖ_０は美的特徴として使用することができる。異なるガボールフィルタ方向性により、異なる画像の端を検知する。

１９９９年のＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＩＣＣＶ）で「ＯｂｊｅｃｔＲｅｃｏｇｎｉｔｉｏｎＦｒｏｍＬｏｃａｌＳｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅｓ」の中でＬｏｗｅにより記載された通り、例示的な勾配ベースの特徴はＳＩＦＴ記述子であり、各パッチに関して演算される。ＳＩＦＴ記述子は、例えば、空間的位置の４４のグリッド上の８つの配向面で演算され、１２８次元ベクトル（つまり、この実施形態では特徴ベクトルごとに１２８の特徴）を与えるガウス導関数等の近隣の画像のマルチ画像表現である。ＳＩＦＴ特徴を用いたある説明例では、５階級の規則的な格子上（１６画素毎に）の３２×３２画素パッチから特徴を抽出して１２８次元のＳＩＦＴ記述子を提供する。特徴の数は随意的に減少する、例えば主成分分析（ＰＣＡ）を用いて例えば６４次元まで減少する。
訓練に使用する品質値の抽出

例示的な実施形態では、訓練画像３２、３４、３６の品質値５４は、写真共有ウェブサイトから得た画像に関連する品質情報３８（例えば、品質スコア、序列）から生じる。ソーシャルネットワークには、大抵テキストラベル（「好き」、「嫌い」）又は数値の段階（評価）を含む注釈ポリシがある。例えば、写真ネットのウェブサイト上では、ユーザは１（見苦しい）から７（美しい）の間のスコアで画像を評価することできる。このウェブサイトのユーザはサイトの運営管理者から次のようなガイドラインを提供されている。「７に近い評価の理由：ａ）見た目が良い、ｂ）魅力的／注意を引く、ｃ）面白い構図、ｄ）色使いが良い、ｅ）（フォトジャーナリズム場合）ドラマがある、ユーモアがある、インパクトがある、ｆ）（スポーツの場合）絶頂期、アスリートの頑張り」。評価が、「好き」等の選択可能なテキスト回答の形をとれば、その評価をスコアに換算することができる。

いくつかの実施形態では、訓練に使用される画像３２、３４、３６のうちの少なくともいくつか又は全てが、少なくとも５又は少なくともの１０スコア／序列３８を有する画像等のように複数のスコア／序列を有する。中間、中央、又はそれらのスコアのモード等の平均を、品質値５４としてとることができる。いくつかの実施形態では、異常値、例えば中間から１つ又は２つより多い標準偏差分異なるスコア３８を品質値５４の演算から除外することができる。

標識からの素のスコア３を用いてカテゴライザ１８を訓練することができる、又はスコアを二値化あるいは量子化（例えば、３つ以上の量子化レベルに）することができる。ある実施形態では、画像（ｉ）について、この画像ｑ_ａｖ（ｉ）に関して得られるスコア３８の平均を画像毎に算出する。２つの閾値θ_１＝μ＋δ／２及びθ_２＝μ−δ／２が規定され、μは平均スコア等のユーザスコアの範囲のほぼ中間の値をとることができ、δは、不確定スコアを有するいくつかの画像を除去して選択した数字（又は他の因子）であり、どの画像の割合が中間、中間範囲なのかを決定する好適な数字である。これにより基本的に３つの範囲が作られる。次いで各画像は、ｑ_ａｖ（ｉ）≧θ_１の場合、ラベル「良」（＋１）で注記され、ｑ_ａｖ（ｉ）≦θ_２の場合、「不良」（−１）で注記される。従ってθ_２＜ｑ_ａｖ（ｉ）＜θ_１の中間範囲内の画像３２、３４、３６は、カテゴライザを訓練する目的のため除去され、無視される。δの値は訓練セットのサイズに依存する。δが大きすぎる場合、適切な数の良と不良の画像を有することはできない。小さすぎる場合、セット内の不確定画像が多くなりすぎる可能性があり、分類子システムを正確に訓練することができない。例として、可能性のあるスコアの範囲が１〜７の場合、μは約３〜６、例えば約５でよく、δは、１〜２等の０．５から３でよい。この場合、δ＜４又は良に分類される画像がない可能性がある。ユーザにより割り当てられるスコアの範囲に基づいて閾値を設定するために用いられるスコア（この例では５）を変えることができ、「良」と「不良」で標識されるスコアｑ_ａｖ（ｉ）
が、ほぼ同数になるように選択できることを理解されたい。
カテゴライザ

画像品質評価に関して、例示的なカテゴライザ１８は複数のソース（画像、手動の注釈、及び文字標識）から生じ得る異種の特徴（視覚及び文字）の組み合わせを、入力として受け取ることができる。具体的には、通常コンテンツベースの分類に関して用いられる特徴１４は、コンテンツに依存する画像品質評価を提供する品質の分析のために特に考案された、別の特徴１６と組み合わされる。画像１２の主題に関する情報の使用により、より正確な画像の品質の予測が可能となる。具体的には、分類の枠組みの中のコンテンツ特徴と美的特徴の融合に関して、２つのソリューション（前期融合及び後期融合）が考えられる。

カテゴライザ分類子１１０は、スパースロジスティック回帰、単純ベイズ、線形判別分析、サポートベクタマシン（ＳＶＭ）、線形回帰、又はその他の好適なマシン学習法等のあらゆる好適な線形又は非線形訓練アルゴリズムで訓練された二値分類子である。例示的な実施形態では、例えば、Ｄａｔｔａ２００６に記載されている放射基底関数（ＲＢＦ）カーネルを用いたＳＶＭが用いられる。これにより、Ｄａｔｔａの結果と直接比較することが可能である。しかし、別の分類子学習法も検討できることを理解されたい。

特徴の記述子５４、５６又は２２、２４を二つ方法、前期融合と後期融合のうち１つにより組み合わせることができる。
１．前期融合

この実施形態では、特徴の記述子ｘ_ａ及びｘ_ｃを単一のベクトルｘ_ｔに融合することにより、特徴レベルの美的情報とコンテンツの情報とを組み合わせる。この実施形態では、異なるソース（例えば、画像の視覚分析からのｘ_ａ、文字標識、手書きの注記、及び自動分類のうちの１つ以上のからのｘ_ｃ、）から生じる可能性のある、異なる階級を有する特徴の記述子を組み合わせることができる。このため、線形正規化を記述子の各特徴に別々に適用することができる。

特徴の２つのセットに重みを付けるため、重み付けされた集計関数を２つの記述子の線形重み付けされた組み合わせ等のｘ_ａとｘ_ｃの混合に適用して画像の品質の特徴を示す単一の記述子ｘ_ｔを生成する。分類子１１０をｘ_ｔに供給し、品質コア２０を出力する。

集計関数（融合モジュール１１２により適用される）は以下の形をとる。
ここで、αは０〜１の実数の値である。

方程式４は、それらの各重みが合計して同じ値、例えば１、になるように記述子ｘ_ａ及びｘ_ｃがそれぞれ正規化される制約に基づくことができる。例えば、美的記述子の特徴（重み）はｘ_ａ＝（ｗ_ａ１、ｗ_ａ２、ｗ_ａ３、・・・ｗ_ｎａ）で表され、コンテンツ記述子の特徴（重み）ｘ_ｃ＝（ｗ_ｃ１、ｗ_ｃ２、ｗ_ｃ３、・・・ｗ_ｎｃ）はで表される。
ここで、ｗ_ａ１＋ｗ_ａ２＋ｗ_ａ３＋、・・・ｗ_ｎａ＝１、及びｗ_ａ１＋ｆ_ａ２＋ｗ_ａ３＋、・・・ｗ_ｎａ＝１。

方程式４においてαを０とした場合、美的特徴１６だけを用いて分類し、α＝１の場合、画像のコンテンツ特徴１４だけを用いて品質を評価することは明らかである。例示的なカテゴライザ１８は、０＜α＜１の動作のモードの少なくとも１つを有するため、両方の特徴が考慮される。ある例示的な実施形態では、０．０１≦α、例えば、０．０３≦α、であり、ある実施形態では、０．０５≦α又は０．１≦αである。別の例示的な実施形態では、α≦０．９、例えばα≦０．８であり、ある特定な実施形態では、α≦０．６又はα≦０．５である。例示的な一実施形態では０．０５≦α≦０．５である。

αの最適値、すなわちコンテンツ特徴なしで実現できる精度よりも少なくとも高い精度を提供する値は、選択される特徴及び画像データのセットに部分的に依存することができる。従って、例示的な方法では、所与のデータベースに関するαの最適値を確認するためのαの異なる値を用いてシステム１０の結果をテストする。

次いで、画像３２、３４、３６毎に組み合わせた記述子ｘ_ｔ、及び対応する品質値５４は分類子１１０に入力されて分類子を訓練する。新しい画像１２に関して、組み合わされた記述子ｘ_ｔを入力して分類子１１０を訓練し、画像１２に関する品質スコアｑ出力し、それを品質値２０として用いることができる。
２．後期融合

この実施形態では、特徴レベルでコンテンツと視覚情報を組み合わせる代わりに、融合モジュール１１２によりコンテンツ従属記述子５６を用いて訓練された複数の分類子１１０の出力を直接組み合わせることができる。例えば、コンテンツカテゴリ毎にＮ_ｃ個の異なる分類子１１０が用いられ、各コンテンツカテゴリｊの画像３２、３４、３６だけを用いて各分類子のパラメータ（随意的に、ハイパーパラメータのセットλ_ｊを含む）が評価される。従って、訓練中、分類子１１０に入力された特徴ベクトル５８だけがｘ_ａである。テスト中、記述子２４を全ての訓練されたＮ_ｃ個の分類子１１０に入力することにより、新しい画像Ｘ（ｉ）が分類される。分類スコアｓ_ｊの対応する数が集められる。最終スコアｑは、各分類子スコア及びそれらの関連する重みの関数のスコアである。例えば、ｑは各分類子スコアをｘ_ｃ記述子２２各の特徴の重みで重み付けすることにより得られる。平均スコアは重み付けされたスコアの合計をコンテンツカテゴリの数で割ることにより得られる
ここで各ｗ_ｊは、特徴の重みｘ_ｃのｗ_ｃ１、ｗ_ｃ２、ｗ_ｃ３、・・・ｗ_ｎｃの各１つを表す。別の実施形態では、全ての重みｘ_ｃ所与の同じ値である。

次いで、値ｑを画像の品質スコア２０として用いることができる。実際には、別のセット／特徴の種類により、異なる結果がでる可能性はあったものの、この方法が前期融合法を改良した結果を提供することが分かった。
品質値の使用

システム１０により出力された品質値２０は様々な用途で使用することできる（Ｓ１３２にて）。例えば、画像１２の品質スコア２０を単独又は他のパラメータと組み合わせ使用して、サーチエンジンが、ユーザにより入力されるクエリに応答して検索した、そのような画像１２のセットをランク付けすることができる情報検索処理において品質スコア２０を使用することができる。この実施形態では、セット内の各画像１２は品質スコア２０を持ち、このパラメータに基づいてスコアが高いほど、その画像は最初にユーザへ提示される画像の中に含まれている可能性が高い。

別の実施形態では、品質値２０を使用して画像を品質値に基づく配列で（例えば、最も高いスコアの画像を最初に示すよう）ディスプレイ９２に表示することができる。

またさらに別の実施形態では、全部ではないが少なくとも１つのそれぞれにシステムにより品質値２０を割り当てられた画像１２のセットがその品質値に基づいて選ぶことができる。例えば、文書に貼り付ける、ウェブコンテンツを作る等のために画像を選択することができる。例えば、最も高いスコアの画像を選択する。

別の実施形態では、スコア２０に基づく標識、例えば、１つ星〜５つ星の星評価をユーザ’の画像コレクションに割り当てることができる。次いで、ユーザは、例えば、少なくとも４つ星又は少なくとも５つ星の星評価の画像を検索することができる。

別の実施形態では、品質スコア２０を使用して新しいカテゴライザの訓練に使用する一連の画像を選択することができる。例えば、少なくとも閾値の品質スコアを有する画像１２だけをカテゴライザに入力する。カテゴライザは、分類子１１４に関して記載した意味的カテゴライザでよい。

別の実施形態では、訓練されたカテゴライザ１８を写真用カメラに直接配置して画像１２を撮影する前でさえもリアルタイムの提案をユーザに行うことができる。例えば、カメラのスクリーンの中の画像１２を処理して品質スコアを決定する。画像１２が撮影されたときその品質が芳しくなさそうな場合（例えば、閾値より低い場合）、カメラはそのスクリーン上に警告を表示する。

例示的な実施形態の趣旨を制限することなく、以下の事例は実行する例示的な方法の実施を示している。
実施例

プロトタイプのシステム１０は最初下記文献に記載された美的分類にリスト化された全ての特徴を使用して実行される。Ｄａｔｔａ２００６（５６特徴）、Ｋｅ２００６（７特徴）、及びＥＣＣＶ（３）（２００８年）でのＹ．ＬｕｏとＸ．Ｔａｎｇによる「Ｐｈｏｔｏａｎｄｖｉｄｅｏｑｕａｌｉｔｙｅｖａｌｕａｔｉｏｎ：Ｆｏｃｕｓｉｎｇｏｎｔｈｅｓｕｂｊｅｃｔ、」内のページ３８６〜３９９。Ｌｕｏの参考文献に記載された５つの特徴は、他の６３の特徴に比べて改善と見なされず、放棄された。

画像データのセット：訓練画像１００及び画像１２の両方に関して、写真ネット１のデータセットが使用された。このデータベースのセットは、公的ウェブサイトの写真ネットからランダムに選択した３、５８１枚の写真のセットである。しかし、何枚かはオリジナルの画像とハイパーリンクされているため、すでに入力の対象ではなく、それらの画像のうちの３、１１８枚だけがダウンロード可能であった。これら画像を使用してテストを実施した。写真ネット１のデータセット内の画像に１．０から７．０の間（７が最も高い品質スコア）の値でスコアを付け、画像毎に複数の投票を可能にした。画像の被写体は非常に多岐に及ぶ。画像のタイトル及び写真ネットウェブサイトにより行われた画像の分類を調査することにより、７つの主なコンテンツカテゴリを識別した。次いで手作業で各画像に、７つカテゴリのうちの１つを標識した。カテゴリ毎の画像の数を表１に示す。

分類子１１０として、標準のサポートベクタマシン分類のツールキットを使用した。（ｌｉｂＳＶＭツールキット、Ｃ．−Ｃ．ＣｈａｎｇとＣ．−Ｊ．Ｌｉｎによる、ＬＩＢＳＶＭ：サポートベクタマシンに関するライブラリ、２００１年、ソフトウェアはｈｔｔｐ：／／ｗｗｗ．ｃｓｉｅ．ｎｔｕ．ｅｄｕ．ｔｗ／〜ｃｊｌｉｎ／ｌｉｂｓｖｍ．で入手可能）

訓練画像及びテスト画像を提供するために、全部で３１１８枚の画像を五つのフォルダに分け、各フォルダは続いてセットされた５つフォルダのクロス検証で画像１２をテストするために使用する。

画質注記プロトコルを作成する。２つの美的品質カテゴリ（良、不良）を規定することにより画質に関する二項分類を確立する。データベース内の各画像ｉに割り当てる平均美的スコアｑ_ｍ（ｉ）（すなわち、１〜７の値）。２つの閾値θ_１＝５＋δ／２及びθ_２＝５−δ／２をセットする。各画像が、ｑ_ａｖ（ｉ）≧θ_１の場合「良」（＝１）の標識で注記を付けられ、ｑ_ａｖ（ｉ）≦θ_２の場合、「不良」（＝−１）で注記を付けられる。δは数字である。これらの標識は訓練画像関して用いられ、正確に評価するためにも用いられる。

Ｄａｔｔａ２００６の同じ分類枠組みも使用し、それには下記の形のＲＢＦカーネル関数を有するＳＶＭ含まれる。

以下の実験では、放射基底関数のパラメータに関して、γ＝３．７、コストｃ＝１．０、ｕとｖをカーネル関数に入力した。

α＝０．１５又はα＝０．３５を用いてコンテンツ特徴及び美的特徴を前期融合において組み合わせることによりカテゴライザを訓練した（「前期融合」と標識される）。訓練及びテスト中に用いたコンテンツ記述子は、表１に示した７つカテゴリのうちの１つだけを画像に手書きで注記することにより生成された７つ特徴ベクトルである。

システムの精度は、テスト画像ごとに、二項分類でシステムにより出力されたその画像に関する品質値を比較し、エラー、すなわち２つの値の間の差を決定することにより決定される。次いでフォルダ内の全てのテスト画像に関するエラーを平均化して０〜１の値にしてパーセンテージで表すことができる。いくつかの実施形態では、５つのフォルダに関するパーセンテージを平均化することができる。１００％の精度は全ての画像が二項品質分類と一致する品質スコアを有していることを意味する。しかし、実際にはユーザにより適用されるスコアにばらつきがあるため、これは期待できない。

図４には、α＝０．３５を用いた例示的なシステムの結果が示されている。結果を「基本線」システム（コンテンツ特徴が使用され、融合の必要がないときを除いた「前期融合」と同じ）及び、「最適化基本線」システム（ＳＶＭのハイパーパラメータが最適化されたときを除いた「基本」と同じ）と比較する。図４の結果では基本線システム及び最適化基本線システムに対して、精度が改善されていることが示されている。

図５には、変動するαの前期融合の結果に対する影響が示されている。この例では比較的単純なコンテンツ特徴を用いており改善は０．０５〜０．５５の範囲に渡って示されているが、αの最適値は約１．５である。

図６では、基本の結果と様々な数のガボール特徴（２、３、及び６個の方向）を加えることにより得られた結果とを比較している。ガボール特徴を追加することにより、基本の結果が改善されている。方向性の数は著しく精度に影響しないようである。

ガボール特徴と例示的なコンテンツ特徴を組み合わせることにより精度がさらに改善されることが期待できる。

Claims

画像の画質を予測する方法であって、
入力画像に関して、
前記画像に関する意味内容の情報に基づいて第一の記述子を生成する工程と、
前記画像から抽出される美的特徴に基づいて第二の記述子を生成する工程と、
前記第一の記述子及び前記第二の記述子に基づいて訓練されて品質値を画像に割り当てるカテゴライザを用いて、前記第一の記述子及び前記第二の記述子に基づいて品質値を前記画像に割り当てる工程と、
前記画質値を出力する工程と、を含む方法。
前記第一の記述子が前記画像及び画像の画像データに関連する文字情報のうちの少なくとも１つから生じる、請求項１に記載の方法。
前記文字情報が、前記画像に関連する文字標識及び前記画像に組み込まれたメタデータのうちの少なくとも１つを含む、請求項２に記載の方法。
前記第一の記述子が、複数のコンテンツカテゴリ毎に値を含む、
請求項１に記載の方法。
前記入力画像からローカル特徴のセットを抽出する工程と、前記ローカル特徴の分布を示す画像表現を生成する工程と、前記画像表現に基づいて前記第一の記述子内の前記複数のコンテンツカテゴリ毎に前記値を割り当てる工程と、を含む請求項４に記載の方法。
前記第二の記述子を生成する前記工程には、前記画像のパッチから複数の美的特徴を抽出することが含まれる、請求項１に記載の方法。
前記第二の記述子が、指向勾配（ＨＯＧ）特徴のヒストグラム、スケール不変特徴変換（ＳＩＦＴ）特徴、及びガボール特徴のうちの少なくとも１つが含まれる一般特徴をさらに含む、請求項１に記載の方法。
前記品質値を割り当てる前記工程には、随意的に重み付けされた前記第一の記述子及び前記第二の記述子の組み合わせである組み合わせ記述子を生成することが含まれる、請求項１に記載の方法。
訓練画像のセットを用いて前記カテゴライザを訓練する工程をさらに含み、前記各訓練画像は関連する品質情報を有し、前記訓練する工程には、
訓練画像毎に、
ａ）前記品質情報から品質値を生成することと、
ｂ）コンテンツ特徴記述子を生成することであって、
ｉ）前記画像に関連するコンテンツ情報及び
ｉｉ）前記画像の画像データに基づいて意味的カテゴライザにより出力されるカテゴリ情報のうちの少なくとも一方に基づいて生成することと、
ｃ）画像から抽出される美的特徴に基づいて美的特徴の記述子を生成することと、
前各記画像の前記品質値、コンテンツ特徴の記述子、及び美的特徴の記述子上の前記カテゴライザを訓練セット内で訓練することと、が含まれる、請求項１に記載の方法。
画像に関する画像品質評価を生成するシステムであって、
入力画像に関する意味内容情報に基づいて第一の記述子を生成するコンテンツ特徴エクストラクタと、
前記画像から抽出される美的特徴に基づいて第二の記述子を生成する美的特徴エクストラクタと、
前記第一の記述子及び前記第二の記述子に基づいて訓練されて品質値を画像に割り当てるカテゴライザと、
前記エクストラクタ及び前記カテゴライザを実行する、前記メモリと通信するコンピュータプロセッサと、を格納するメモリを含むシステム。