JP2010506296A - コレクションからのデジタル画像の供給 - Google Patents
コレクションからのデジタル画像の供給 Download PDFInfo
- Publication number
- JP2010506296A JP2010506296A JP2009531412A JP2009531412A JP2010506296A JP 2010506296 A JP2010506296 A JP 2010506296A JP 2009531412 A JP2009531412 A JP 2009531412A JP 2009531412 A JP2009531412 A JP 2009531412A JP 2010506296 A JP2010506296 A JP 2010506296A
- Authority
- JP
- Japan
- Prior art keywords
- image
- output
- records
- user
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Studio Devices (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
コレクションから画像のレコードを供給するコンピュータを利用した方法及びシステムにおいて、出力の要求がユーザから受信される。要求に対応するコレクションにおける画像のレコードのセットを決定し、出力に関する1以上の制約を決定し、セットにおける画像レコードのそれぞれの値のインデックスを特定し、セットにおける値のインデックスの統計的尺度を計算し、制約に応答してセットにおける画像のレコードの数を低減して、統計的な尺度を最適化して低減された画像のレコードのセットを提供し、低減された画像のレコードのセットを使用して出力を供給することで、要求に応答して出力が生成される。
Description
本発明は、デジタル画像のレコードの管理及び編成に関し、より詳細には、コレクションからのデジタル画像のレコードを供給する方法及び装置に関する。
デジタルカメラ及びスキャナの急増は、膨大な数のデジタル画像及びビデオにつながり、手動でブラウジング及びサーチするには不十分な画像のレコードのコレクションが形成される。ユーザが画像のレコードのコレクション、特にリモートシステムのデータベースに記憶されるコレクションにアクセスすることができる無数の異なるやり方で、更なる問題が与えられる。たとえば、ユーザは、携帯電話で見るため、携帯電話よりも大型のディスプレイを有する携帯端末で見るため、パーソナルコンピュータで見るため、大型ディスプレイを有する家庭娯楽システムで見るため、あるコレクションにおける画像のレコードにアクセスすることができる。同様に、ユーザは、様々なプリンタでの印刷のため、又はデジタルファイルとしての転送のため、画像のレコードにアクセスすることができる。更なる問題は、携帯電話カメラ、携帯メディアプレーヤ及びパーソナルコンピュータのような異なる装置からの捕捉及び/又は送信から得られるコレクションにおける、異なる特性のデジタルレコードにより形成される。
リモートデータベースにアクセスするために使用される異なる装置は、異なる特性を有することができる。たとえば、携帯電話は、セルラーネットワーク及び公衆交換電話網を通して接続する。携帯端末は、ローカルの無線周波ネットワークを通して接続する。パーソナルコンピュータは、ブロードバンドコネクションを通して接続することができる。これらの装置のそれぞれは、異なる制約を有する。係る制約の例は、ディスプレイの解像度及びリモートデータベースからの画像の転送のための利用可能な帯域幅を含む。ユーザは、異なる時間で異なる要件又は制約を有する。係る制約の例は、異なる装置で画像を見るためにユーザにとって利用可能な時間である。特定のユーザについて、携帯電話は、立っている間又は歩いている間に迅速に使用される可能性が高く、携帯端末は、僅かに長い期間に座っている間に使用される可能性が高く、パーソナルコンピュータは、延長された期間に使用される可能性が高い。これらの制約にも関わらず、これらの装置のそれぞれからデータベースに与えられる同じ問い合わせは、同じ結果を与える。これは、問題となる可能性がある。
Sezan等による米国特許第6285788号は、問い合わせに応答してリターンされる個々の画像は制限された帯域幅で送信されるため、情報量を低減するために要約される方法を開示する。使用される要約のレベルは、最高(詳細なし)であり、問い合わせに応じてユーザにより選択された数よりも少ない画像を供給する。次いで、ユーザは、サブセットを選択し、次いで、このサブセットは、要約なし(多くの詳細)で送出される。サブセットの選択を繰り返すことができる。このアプローチの問題は、ユーザが特定の画像を真剣にサーチしていることを想定していることである。要約された、低解像度の画像を繰り返し見る必要は、くだけた使用を阻止する傾向にある。Sezan等による米国特許第6356658号及び第6925207号は、類似している。
これらの問題を有さない方法及びシステムを提供することが望まれる。
本発明は、特許請求の範囲により定義される。本発明は、広範な態様において、あるコレクションから画像のレコードを供給するコンピュータが介在する方法及びシステムを提供する。方法及びシステムにおいて、出力要求は、ユーザから受信される。要求に応答して、要求に対応するコレクションにおける画像のレコードのセットを探し、出力に関する1以上の制約を決定し、該セットにおける画像のレコードのそれぞれの値のインデックスを特定し、該セットの値のインデックスの統計的尺度を計算し、統計的尺度を最適化して低減された画像のレコードのセットを提供しつつ、該制約に応じて該セットにおける画像のレコードの数を低減し、低減された画像のレコードのセットを使用して出力を提供することで、出力が生成される。
本発明の有利な効果は、特定の出力に関連する制約を考慮して、画像のレコードがコレクションから供給される改善された方法及びシステムが提供されることである。
本発明の上述された特徴及び目的、他の特徴及び目的、並びにそれらに付随する方法は、より明らかとなり、本発明自身は、添付図面と共に行われる本発明の実施の形態の以下の説明を参照することで、良好に理解されるであろう。
本発明の実施の形態に係る方法のフローチャートである。
本発明の実施の形態に係るシステムの概観図である。
本発明の別の実施の形態に係るシステムの概観図である。
本発明の実施の形態におけるクラスタリングの概観図である。
本発明の別の実施の形態におけるクラスタリングの概観図である。
図1の実施の形態の更に詳細な図である。
同じコレクションの、異なる制約をもつ同じ要求に応答して図2又は図3のシステムにより供給される出力の概念図である。
装置の制約は、画像のコレクション(集合)を有効にブラウジング及びサーチするユーザの能力に影響を与える。装置の制約は、メモリ及びCPUの処理能力を含む1以上のハードウェアの制約を含む。ユーザの入力方法は、マウス、ジェスチャーに基づくシステム、音声入力、他のポインティングデバイス、タッチスクリーンを含み、ディスプレイの制約は、解像度、色の解像度、及び輝度レンジ、ネットワーク及び通信帯域幅の制約を含む。本発明は、特定の出力に関連される制約に依存して、画像のレコードのデータベースに問い合わせの結果を提供して画像のレコードの数の観点で変化させる方法及びシステムを提供する。それらの制約は、装置の特性又は特定の通信経路によるものであるか、ユーザがその装置又は経路と対話する方式によるものである。たとえば、問い合わせ「私の孫を見せて下さい」により、少数の画像が携帯電話に提供され、中程度の数の画像が携帯端末に提供され、多数又は全ての入手可能な数の画像がパーソナルコンピュータに提供される。
本発明は、本明細書で記載される実施の形態の組み合わせを包含する。「特定の実施の形態」等への引用は、本発明の少なくとも1つの実施の形態で存在する特徴を示す。「実施の形態」又は「特定の実施の形態」等への個別の引用は、必ずしも同じ実施の形態を引用しないが、係る実施の形態は、相互に排他することが示されない場合又は当業者にとって容易に明らか出ない場合、相互に排他するものではない。「方法“method”」又は「方法“methods”」等の引用における単数及び/又は複数の使用は、限定するものではない。
用語「画像のレコード“image record”」は、デジタル静止画像、ビデオ系列、又はマルチメディアレコードを示すために使用される。画像のレコードは、1以上のデジタル画像を含むものであり、音又はテクスチャの注釈のようなメタデータを含むことができる。特定の画像のレコードは、1つのデジタルファイル又は複数のデジタルファイルとすることができるが、関連されるデジタルファイルとすることができる。メタデータは、関連されるデジタル画像と同じ画像ファイルで記憶することができ、又は、個別に記憶することができる。画像のレコードの例は、複数のスペクトル画像、スキャナレスの距離画像、デジタルアルバムページ、及びマルチメディアビデオプレゼンテーションを含む。ビデオ系列により、画像の系列は、1つの画像のレコードである。ある系列における画像のそれぞれは、個別の画像のレコードとして代替的に扱われる。本明細書での説明は、デジタルカメラを使用して捕捉された画像のレコードに一般に向けられる。また、画像のレコードは、他の捕捉装置を使用して、写真フィルム又は他の手段を使用し、次いでデジタル化することで捕捉される。本明細書で説明されるように、画像のレコードは、関連される情報と共にデジタルで記憶される。
用語「被写体」は、遠近及び/又は距離データの結果として、バックグランドと呼ばれる、シーンの残りから区別可能な捕捉されたシーンにおける1以上の人又は他のアイテムを示すため、写真の観点で使用される。遠近は、線遠近(消滅点への収束)、オーバラップ、フィールドの深さ、明るさ及び色の手掛かり、適切な場合、動きの遠近及び運動視差のようなファクタを包括する。
以下の記載では、幾つかの特徴は、「ソフトウェア」又は「ソフトウェアプログラム」として記載される。当業者であれば、係るソフトウェアの等価は、ハードウェアで容易に構築することができることを認識されるであろう。画像処理アルゴリズム及びシステムは公知であるため、本発明の記載は、本方法の一部を形成するアルゴリズム及び特徴を強調するか、本方法と更に直接に協働するアルゴリズム及び特徴を強調する。本明細書で記載されるコンピュータシステムのタイプの一般的な特徴は、公知であり、本発明の記載は、本発明の方法に直接関連される態様に制限される。本明細書で特に図示又は記載されていない、係るアルゴリズム及び装置の他の態様、本発明に関わる画像信号を生成又は処理するハードウェア及び/又はソフトウェアの他の態様は、当該技術分野で知られる、係るシステム、アルゴリズム、コンポーネント及びエレメントから選択される場合がある。
図3は、本発明の実施の形態のシステムを例示する。システム10は、筐体12、画像のレコードのコレクションを有するメモリ14、制御ユニット16、(ユーザコントロールを含む)入力ユニット18、及び、制御ユニット16に接続される(ディスプレイを含む)出力ユニット20を有する。システム10は、ユーザインタフェース22を有し、このインタフェースは、ユーザコントロール24を含み、入力及び出力ユニット18,20の一部又は全部を含む。信号経路26によりコンポーネントが接続され、この実施の形態では、システムコンポーネント及び信号経路は、例示されるように筐体12内に位置される。他の実施の形態では、1以上のコンポーネント及び信号経路は、全部又は一部において筐体の外に位置することができる。本発明は、コンピュータハードウェア及びコンピュータ機器で実現することができる。たとえば、1以上のデジタルカメラ又は他の捕捉装置及び/又は1以上のパーソナルコンピュータを含むシステムを使用して、方法を実行することができる。
図2は、別の実施の形態を例示するものであり、システムは、汎用コンピュータと各種周辺装置を含む。本発明は、図示されるコンピュータシステム110に限定されないが、デジタルカメラ、カメラ付き携帯電話及び他の移動体装置、ホームコンピュータ、キオスク、小売又は卸売りの写真仕上げ、或いはデジタル画像の処理のための他のシステムで見られるような電子的な処理システムで使用される場合がある。異なるシステムのコンポーネントは、完全に個別にすることができ、又は1以上のハードウェア及び/又はソフトウェアの機能を他のコンポーネントと共有することができる。
制御ユニットは、入力ユニットからの信号に基づいて、記憶されているソフトウェア及びデータを利用して、システムの他のコンポーネントを動作させる。制御ユニットは、限定されるものではないが、プログラマブルデジタルコンピュータ、プログラマブルマイクロプロセッサ、プログラマブルロジックプロセッサ、一連の電子回路、集積回路の形式に縮小された一連の電子回路、又は、一連のディスクリートなコンポーネントを含む。
システムを動作させるために必要な機能に加えて、制御ユニットは、自動的に、又はユーザの介入により、メモリに記憶されたソフトウェアプログラムに従って画像のレコードを処理することができる。たとえば、デジタル静止画像は、デジタルシグナルプロセッサにより処理され、補間及びエッジの強調が提供される。同様に、画像のレコードは、グレイスケール、カラーギャマット、及びディスプレイのホワイトポイントのような異なる出力の機能を収容するために変換される。表示された画像は、切り取られ、解像度及び/又はコントラストレベルにおいて低減されるか、又は、画像における情報の他の部分は、表示されない場合がある。ファイル転送に関連する変更は、JPEG圧縮及びファイルフォーマット化のような動作を含む。他のエンハンスメントを提供することもできる。画像の変更は、メタデータ、すなわち非画像の情報に関連される画像のレコードの追加又は変更を含むこともできる。
「メモリ」は、半導体メモリ又は磁気メモリ等で提供される物理メモリの1以上の適切なサイズの論理ユニットを示す。システムのメモリは、コンピュータ読み取り可能な記憶媒体に記憶されるプログラムを有するコンピュータプログラムプロダクトを記憶することができる。メモリは、固体、磁気、光又は他のデータ記憶装置を含む従来のメモリ装置を含み、システム内に固定されるか又は取り外し可能とすることができる。たとえば、メモリは、SDRAM又はフラッシュEPROMメモリのような内部メモリであるか、代替的に取り外し可能なメモリであるか、或いは両者の組み合わせとすることができる。取り外し可能なメモリは、ソケットに挿入され、メモリインタフェースを介して制御ユニットに接続されるセキュアデジタル(SD)タイプのカードのような任意のタイプとすることができる。利用される他のタイプのストレージは、限定することなしに、PCカード、及び、埋め込まれた及び/又は取り外し可能なハードドライブを含む。
図2の実施の形態では、ハードドライブ、光、磁気又は他のディスクメモリ(図示せず)のような取り外し可能なディスク用のディスクドライブ、及び、取り外し可能なメモリカードのような取り外し可能なメモリを保持して、取り外し可能なメモリと通信する取り外し可能なメモリインタフェースを有するメモリカードスロットを有するシステムが示される。限定されるものではないが制御プログラム、デジタル画像及び他の画像レコードを含むデータ、及びメタデータは、パーソナルコンピュータ、コンピュータネットワーク又は他のデジタルシステムのようなリモートメモリシステムに記憶することができる。
入力ユニットは、ユーザからの入力を受け、この入力制御ユニットにより使用することができる形式に変換可能なトランスデューサ又は他の装置の形式を有する。同様に、出力ユニットは、信号又はコンピュータプログラムプロダクトの一部として、人間が知覚できる形式又はコンピュータ読み取り可能な形式で出力を伝達可能な形式の装置を有する。入力及び出力ユニットは、ローカル又はリモートとすることができる。1以上の入力及び出力ユニットのハードウェア及びソフトウェアを組み込む有線又は無線通信システムは、システムに含むことができる。
このユーザインタフェースの入力ユニットは、様々な形式をとることができる。たとえば、ユーザインタフェースは、タッチスクリーンの入力、タッチパッドの入力、4方向スイッチ、6方向スイッチ、8方向スイッチ、スタイラスシステム、トラックボールシステム、ジョイステックシステム、音声認識システム、ジェスチャー認識システム、キーボード、リモートコントロール又は他の係るシステムを含むことができる。ユーザインタフェースは、リモートキーボード及びリモートマウスを含む、任意のリモートユニットを含む。
入力装置は、システムの環境における状態を検出し、この情報をシステムの制御ユニットにより使用することができる形式に変換するために使用される、光センサ、バイオメトリックセンサ及び当該技術分野で公知の他のセンサを含む1以上のセンサを含む。光センサは、1以上の通常のカメラ及び/又はマルチスペクトルセンサを含む。また、センサは、音声を捕捉するために調整されるオーディオセンサを含む。また、センサは、無意識の肉体的及び精神的反応を測定するバイオメトリック又は他のセンサを含み、係るセンサは、限定されないが、声の抑揚、体の動き、目の動き、瞳の拡張、体温及びp4000波センサを含む。
出力ユニットは、広く変わることができる。特定の実施の形態では、システムは、ディスプレイ、プリンタ、及びメモリライタを出力ユニットとして含む。プリンタは、限定されないが、従来の4色のオフセット分離印刷又は他のコンタクト印刷、スクリーン印刷、(Eastman Kodak Company, Rochester, New York, USAによる販売されるNexPress2500で使用される)乾式の電子写真、熱転写印刷、ドロップオンデマンド・インクジェット技術及び連続式インクジェット技術を含む様々な公知の技術を使用して、受信媒体に画像を記録する。以下の説明のため、プリンタは、ペーパーレシーバでカラー画像を生成するタイプであるとして記載されるが、これは必須ではなく、特許請求される方法及び装置は、白黒のようなモノトーン画像、グレイスケール又はセピアトーンの画像を印刷するプリンタ、及び他のタイプの受信機で印刷するプリンタで実施することができる。
通信システムは、光信号、無線周波信号又は他の形式の信号を使用して、リモートメモリシステム又はリモートディスプレイ装置56のようなリモート装置に伝達することができる形式に画像及び他のデータを変換する、たとえば1以上の光、無線周波又は他のトランスデューサ回路、或いは他のシステムを有する。また、通信システム54は、ホスト又はサーバコンピュータ或いはネットワーク(図示せず)、リモートメモリシステム52又はリモート入力58から、デジタル画像及び他のデータを受けるために使用することもできる。通信システム54は、受信された信号から情報及び命令を制御ユニット34に供給する。典型的に、通信システム54は、インターネット、セルラーネットワーク、ピアツーピアネットワーク、又は他の形式の移動通信ネットワーク、有線又は無線のローカルエリアネットワークのようなローカル通信ネットワーク、或いは他の従来の有線又は無線のデータ転送システムのような、従来の電気通信又はデータ転送ネットワークのような通信ネットワークにより、リモートメモリシステム52と通信するために適合される。
画像のレコードのソースは、システムに設けることができる。画像のレコードのソースは、適切なデジタルデータを制御回路に供給する電子回路又は他の回路或いはシステムの形式を含む。画像のレコードのソースは、画像のレコードにおける使用のためにコンテンツデータを捕捉することができ、及び/又は、他の装置により用意されるか又は他の装置を使用して用意される画像のレコードを取得することができるカメラ又は他の捕捉装置とすることができる。たとえば、画像のレコードのソースは、ドッキングステーション、間欠的にリンクされる外部デジタル捕捉及び/又は表示装置のセット、有線通信システムへのコネクション、携帯電話、及び/又は無線通信ネットワークへの無線コネクションを提供する無線ブロードバンドトランシーバを有する。他の例として、ケーブルリンクは、ケーブル通信ネットワークへのコネクションを提供し、ディッシュサテライトシステムは、サテライト通信システムへのコネクションを提供する。インターネットリンクは、リモートサーバにおけるリモートメモリへの通信コネクションを提供する。ディスクプレーヤ/ライタは、光ディスクに記録されるコンテンツへのアクセスを提供する。
図2を参照して、コンピュータシステム110は、ソフトウェアプログラムを受けて処理し、他の処理機能を実行する制御ユニット112を含む。ディスプレイ114は、たとえばグラフィカルユーザインタフェースにより、ソフトウェアに関連されるユーザ関連情報を表示するために制御ユニット112に電気的に接続される。また、キーボード116は、ソフトウェアにユーザが情報を入力するのを可能にするため、制御ユニット112に接続される。入力のためにキーボード116を使用する代替として、ディスプレイ114上でセレクタ120を移動させ、その上でセレクタ120が重なるアイテムを選択するため、マウス118が使用される。
取り外し可能なメモリは、任意の形式で含まれ、コンパクトディスク・リードオンリメモリ(CD-ROM)124として例示され、このCD-ROMは、ソフトウェアプログラムを含むことができ、ソフトウェアプログラム及び他の情報を制御ユニット112に入力する手段を提供するマイクロプロセッサに基づくユニットに挿入される。(ここでは、フロプティカルディスク126により例示される)多数のタイプの取り外し可能なメモリを提供することができ、データは、適切なタイプの取り外し可能なメモリに書き込むことができる。メモリは、直接に、又はインターネットのようなローカル又はローカルエリアネットワークを介して、有線又は無線コネクションを使用して外部且つアクセス可能とすることができる。さらに、制御ユニット112は、当該技術分野で公知であるように、ソフトウェアプログラムを内部で記憶するためにプログラムされる。プリンタ又は他の出力装置128は、コンピュータシステム110からのハードコピー出力を印刷する制御ユニット112に接続される。制御ユニット112は、ローカルエリアネットワーク又はインターネットのような外部ネットワークへの、電話回線又は無線ネットワークのようなネットワークコネクション127を有する。
画像は、デジタルカメラ又はスキャナのような様々なソースから取得される。また、画像は、制御ユニット112に接続されたカメラドッキングポート136を介してデジタルカメラ134から直接に入力することができ、制御ユニット112へのケーブルコネクション138を介してデジタルカメラ134から直接に入力することができ、制御ユニット112への無線コネクション140を介して直接に入力することができ、又はメモリから入力することもできる。
出力装置128は、変換の対象となっている最終画像を提供する。出力装置は、波又は他のハードコピーの最終画像を提供するプリンタ又は他の出力装置である。出力装置は、ソフトコピーの最終画像を提供することができる。係るソフトコピーの出力装置は、ディスプレイ及びプロジェクタを含む。また、出力装置は、デジタルファイルとして最終画像を提供する出力装置とすることもできる。また、出力装置は、印刷された画像、及びCD又はDVDのようなメモリユニットのデジタルファイルのような、出力の組み合わせを含み、このCD又はDVDは、パーソナルメディアプレーヤ又はフラットスクリーンテレビジョンのような様々な家庭用及び携帯用のビューイングデバイスと共に使用される。
制御ユニット112は、デジタル画像を処理して、意図された出力装置又はメディアで楽しんで見える画像を生成する手段を提供する。制御ユニット112は、デジタル画像を処理して、楽しんで見える画像が画像出力装置により生成されるようなやり方で、デジタル画像の全体の明るさ、トーンスケール、画像構造等の調整を行うために使用される。当業者であれば、本発明がこれら説明された画像処理機能のみに限定されないことを認識されるであろう。
図2〜図3を参照して、特定の実施の形態では、システムはカメラであるか、又はカメラを含んでおり、このカメラは、構造的な支持及び他のコンポーネントの保護を提供するボディを有する。電子画像捕捉ユニット(図示せず)は、ボディに搭載され、撮影レンズと該撮影レンズに揃えられる電子アレイ画像センサとを有する。捕捉ユニットでは、イメージセンサからの捕捉された電子画像は増幅され、アナログからデジタルに変換され、1以上の画像のレコードを提供するために処理される。
カメラは、ユーザインタフェースを有し、このインタフェースは、撮影者に出力を提供し、撮影者の入力を受ける。ユーザインタフェースは、1以上のユーザ入力制御(図3で「ユーザ入力」とラベル付けされる)及びイメージディスプレイを含む。ユーザ入力制御は、シャッターリリース、レンズユニットのズームを制御するズームイン/アウト制御、及び他のユーザ制御を含む。ユーザ入力制御は、ボタン、ロッカースイッチ、ジョイスティック、ロータリーダイアル、タッチスクリーン、ユーザにより始動された音声コマンドに応じて音声認識を行うマイクロフォン及びプロセッサの組み合わせの形式で提供される。ユーザインタフェースは、イメージセンサ、ガルバニックレスポンスセンサ、上述されたマイクロフォンのような、ユーザの反応を追跡する機能を含む。これらの機能は、後の分析のために分析されていない情報を記憶することができるか、又は、ユーザ応答を分析し、適切なメタデータを生成可能なモジュールは、ユーザインタフェースに含まれる。Matraszek等により出願された米国特許公開2003/0128389A1は、ユーザの反応の追跡からのメタデータの生成を説明している。
ユーザインタフェースは、露光レベル、露光の残り、バッテリ状態、フラッシュ状態等のようなカメラ情報を撮影者に提示する1以上のインフォメーションディスプレイを含む。イメージディスプレイは、代わりに又は付加的に、カメラ設定のような非画像情報を表示するために使用される。たとえば、オプションセレクション及び捕捉画像を調べるレビューモードを提示するメニューを含むグラフィカルユーザインタフェース(GUI)を設けられる。イメージディスプレイ及びデジタルビューファインダディスプレイ(図示せず)の両者は、同じ機能を提供することができ、1つ又は他の機能が除かれる。カメラは、オーディオ入力を受け、オーディオ出力を提供するスピーカ及び/又はマイクロフォン(図示せず)を含む。
カメラは、撮像装置及び/又は他のセンサを使用して、周囲の光及び/又は他の状態を評価し、シャッター速度及び絞りの設定のようなシーンパラメータを決定する。イメージディスプレイは、ユーザにより見られる光画像(本実施の形態では「表示画像」としても示される)を生成する。
制御ユニットは、露光調整エレメント及び他のカメラコンポーネントを制御又は調節し、画像及び他の信号の転送を容易にし、画像に関連する処理を実行する。制御ユニットは、システムコントローラ、タイミングジェネレータ、アナログシグナルプロセッサ、A/Dコンバータ、デジタルシグナルプロセッサ、及び専用のメモリのようなサポート機能を含む。先に記載された制御ユニットのように、制御ユニットは、1つの物理的な装置により提供されるか、又は、多数の個別のコンポーネントにより提供される。たとえば、制御ユニットは、データ処理及び汎用プログラムの実行のためにRAMを有する内蔵のマイクロプロセッサのような、適切に構成されたマイクロコンピュータの形式をとることができる。タイミングジェネレータは、タイミングの関係において、全ての電子コンポーネントについて制御信号を供給する。ユーザインタフェースのコンポーネントは、制御ユニット及び実行されたソフトウェアプログラムによる機能に接続される。また、制御ユニットは、ドライバ及びメモリを含む他のコンポーネントを動作させる。
カメラは、捕捉された画像情報に対する補足の情報を提供するため、他のコンポーネントを含む。係るコンポーネントの例は、方位センサ、リアルタイムクロック、グローバルポジショニングシステムレシーバ、及び、ユーザの注釈又は他の情報の入力のためのキーパッド又は他の入力装置である。
本実施の形態における方法及び装置は、たとえば誕生パーティの写真の誕生ケーキといった画像で示されるシーンを解釈するため、又は、特定の人体の部位を捕捉している医療画像のケースにおけるように画像を特徴づけるため、顔検出、皮膚検出、人物検出、他のオブジェクト検出のような様々なデータ検出及び低減技術を利用するソフトウェア及び/又はハードウェアにより提供される機能を含む。
図示及び記載される回路は、当業者にとって公知のやり方で変更することができることを理解されるであろう。また、物理的な回路の観点で本実施の形態で記載される様々な機能は、ファームウェア又はソフトウェアの機能又は2つの組み合わせとして代替的に提供することができることを理解されるであろう。同様に、本実施の形態で個別のユニットとして例示されるコンポーネントは、便宜的に結合又は共有される。多数のコンポーネントは、分散されたロケーションで提供することができる。
画像のレコードは、自動化されたパターン分類を受ける。本発明は、特に示された場合を除いて、これらの目的のために使用される特定の技術に関して制限されないことを理解されるであろう。たとえば、パターン分類は、以下のいずれかにより、個別的に又は組み合わせで提供することができる。ルールに基づくシステム、セマンティックナレッジネットワークアプローチ、フレームに基づくナレッジシステム、ニューラルネットワーク、ファジーロジックに基づくシステム、遺伝的アルゴリズムのメカニズム、及び経験則に基づくシステム。
デジタル画像は、1以上のデジタル画像チャネル又は色成分を含む。それぞれのデジタル画像チャネルは、画素の2次元アレイである。それぞれの画素値は、画素の物理領域に対応する画像形成の捕捉装置により受信された光の量に関連する。カラー画像形成の用途について、デジタル画像は、赤、緑、及び青のデジタル画像のチャネルからなることがある。動画像形成の応用は、デジタル画像の系列として考えられる。当業者であれば、限定されるものではないが、本発明は、上述された応用の何れか向けのデジタル画像チャネルに適用できることを認識されるであろう。デジタル画像チャネルは、行及び列により配列される2次元の画素値のアレイとして記載されるが、当業者であれば、本発明は、同じ作用をもつ非直線的なアレイに適用することができることを認識されるであろう。
また、本発明は、ソフトウェア及び/又はハードウェアの組み合わせで実現することができ、物理的に接続され及び/又は同じ物理的な位置に位置される装置に限定されない。図2及び図3に例示される1以上の装置は、遠隔的に位置することができ、ネットワークを介して接続することができる。1以上の装置は、直接的に又はネットワークを介して、無線周波リンクによるように、無線で接続される。
本発明は、様々なユーザコンテクスト及び環境で利用される。例示的なコンテクスト及び環境は、制限されることなしに、大規模な画像形成サービス、小売の画像形成サービス、デスクトップの家庭用及び業務用のコンピュータでの使用、キオスクでの使用、移動体装置での使用、及びインターネット又はセルラーコミュニケーションネットワークのようなネットワークを介して提供されるサービスとしての使用を含む。
DVDプレーヤ、パーソナルデジタルアシスタント(PDA)、カメラ及び携帯電話のような携帯用の表示装置は、本発明を実施するために必要な機能を有する。他の機能は、当業者にとって公知である。以下では、カメラは、スチルカメラ及びビデオカメラと呼ばれることがある。それぞれの用語は、それぞれスチル又はビデオ捕捉機能について使用されるとき、両方ともに専用のスチルカメラ及びビデオカメラを含み、スチル/ビデオカメラの組み合わせを含むことが理解される。また、カメラは、取り外し可能及び交換可能なレンズ及び複数の捕捉レンズのような、本実施の形態で詳細に説明されていない様々な機能の何れかを含むことができることを理解されたい。カメラは、携帯することができるか、又は位置的に固定されており、画像形成に関連されるか、又は関連されない1以上の他の機能を提供することができる。たとえば、カメラは、携帯電話のカメラとすることができるか、又は、他のやり方で通信機能を提供することができる。同様に、システムは、携帯用コンピュータ、編集スタジオ、キオスク、又は他の非携帯用の装置の形態をとることができる。
それぞれのコンテクストで、本発明は、スタンドアロンであるか、又は大型システムのソリューションのコンポーネントである。さらに、たとえばスキャニング又は入力、デジタル処理、ユーザへのディスプレイ、ユーザ要求又は処理命令の入力(必要な場合)、出力といったヒューマンインターフェースは、同じ装置又は異なる装置上にあり、装置と位置との間の通信は、公衆通信回線網又はプライベートネットワークコネクションを介するか、又はメディアに基づく通信である。本発明の開示と一致する場合、本発明の方法は、完全に自動とすることができ、ユーザ入力を有する場合があり(完全又は部分的に手動)、ユーザ又はオペレータに結果を許可/拒否するために検討させる場合があり、又は、メタデータにより支援される場合がある(ユーザにより供給されたメタデータ、測定装置(たとえばカメラ)により供給されたメタデータ、又はアルゴリズムにより決定されるメタデータ)。さらに、アルゴリズムは、様々なワークフローのユーザインタフェースのスキームとインタフェースする場合がある。
図1及び図4〜図7を参照して、本方法において、ユーザからの出力要求の受信(200)に応答して、コレクション400から出力が供給される。出力は、要求に応答する画像のレコード402のセットからであるが、供給される画像のレコードの数は、出力の制約412に関する最適化ルーチン414のパフォーマンス及び値のインデックスに基づいて、人間の介入なしに、その画像のレコードのセットに関して低減される。出力406は、画像のレコード、又はレコードのリスト、或いはレコード又はリストに関して実行される機能のプロダクトである。出力は、たとえば、表示又は印刷或いはメモリへの記憶に適した形式である。制約は、出力装置の制限又はユーザによる制限、或いはその両者による制限である。図7は、同じ要求であるが、3つの異なる制約のセットをもつ要求に応答して、出力700,702,704で提供される、詳細のレベルである「粒状度」における差の例を示す。
図6は、特定の実施の形態の詳細を示す。画像のレコードは、この場合には静止画像に制限され、要求408は、問い合わせとして問い合わせエンジン410に提供され、最適化ルーチン414は、最適化ループであり、出力406は、ユーザに表示される画像である。
出力装置の機能、位置される画像のレコードのセットの値のインデックス、及び低減される画像のレコードのセットの間の機能的な関係である。同じ要求により、異なる制約をもつそれぞれの装置は、異なる機能的な関係を有し、異なる低減された画像のレコードのセットが提供される。たとえば、同じコレクションへの同じ要求に応答して、制限された帯域幅又はハードウェアが制限された装置は、低減された10の静止画像のセットを受けることができ、制限されていない装置は、低減された100の画像のセットを受ける。
図1を参照して、要求が受信された後(200)、要求に対応するコレクションにおける画像のレコードのセットが決定される(202)。要求は、特定のシステムの入力要件に一致するが、その上、要求が提供されるやり方は重要ではない。たとえば、要求は、マウス等を使用してメニューで一覧されるプリセットカテゴリを作動するユーザにより始動されるか、自然言語でタイプするか、又は具体的な要求をプログラムするか、或いは、音声認識を使用して要求を音声化することができる。要求の形式は、同様に、システムの論理的な処理能力と一致するが、さもなければ重要ではない。サーチのルーチンは、当業者とって公知であり、画像のレコードのセットを探すためにコレクションがどのようにサーチされるかは重要ではない。簡単な例として、要求は、具体的な英数字の文字列を含むメタデータを有する画像のレコードのセットを問う。別の例では、要求に合致する画像のレコードのセットは、データベースソフトウェアの要件に合致する問い合わせとして要求を提供することで、データベースソフトウェアを介して供給される。別の例では、要求に合致する画像のレコードのセットは、1以上のパターン認識技術により動作する分類ソフトウェアを使用して決定される。
要求に応答して、出力に関する1以上の制約が決定される(204)。制約は、システム全体の制約又はユーザの好みの制約である。システムの制約は、どの機器が利用可能であるか及びその機器の制約のため、特定の要求に応答してどのシステムが何を行うことができ、何を行うことができないかである。物理的な制約の例は、利用可能な帯域幅及び通信経路、出力装置のハードウェアにおける制約、及びソフトウェア能力、ユーザ入力の能力における制約を含む。
ユーザの好みは、ユーザ及び/又はシステムのオペレータにより課される更なる制約である。ユーザの好みの例は、好みの再生、好みの最大の出力遅延、好みの出力における画像のレコードの特性、及び好みの出力における画像及び/又は他の情報の特性のうちの1以上を含む。ユーザの好みは、異なるやり方で動作することができる。たとえば、ユーザの好みは、コレクションに関連されるか、特定のユーザからの全ての要求に関連されるか、又は特定の要求に関連される。ユーザの好みは、幾つかの実施の形態において、はじめにユーザの好みを問い合わせるか、又は利用を追跡し、利用に基づいてデフォルトの制約を変更することで提供される。
出力及び制約は、要求で明示的に指定されるが、よりふさわしくは、少なくとも部分的に、特定の要求に固有となるように、要求で明示的に指定される。また、たとえ要求が不明瞭であるとしても出力が提供されるように、デフォルトの出力及び制約は予め定義することができる。明示的な制約の例は、A4紙の1ページに出力を印刷するコマンド、又は出力をプレビューするコマンドを含む要求である。明示的な制約の別の例は、利用可能なディスプレイの解像度の仕様を含む携帯電話のカメラからの要求である。固有の制約は、要求において直接に規定されないが、一般的なユーザの好みとして間接的に規定されるか、或いは、他の代替又は予め定義された階層における優れた代替が利用可能ではないために必要とされる。固有の制約の例は、2方向のダイアルアップインターネット接続を介して、その接続を通してデジタル形式で画像のレコードを伝達するため、提示される要求の帯域幅の制約である。デフォルトの例は、特定の出力装置及び通信経路の使用である。
明示的な制約は、特定の出力装置の識別の形式で与えられる。出力装置をその実際の制約に関連付けするルックアップテーブルが提供される。インターネットの制約は、特定の要求において利用可能な出力装置を特定のインデックスに関連付ける予め定義されたルックアップテーブルの仕様により決定することができる。たとえば、携帯電話ネットワーク及びインターネットの使用を示すルーティング情報を有する要求は、通信ネットワークの帯域幅の制約及び携帯電話のディスプレイの利用可能な解像度により課される制約に適した画像の解像度に予め割り当てられる。広帯域幅のネットワークを介して受信された要求も同様に、異なる制約に適した異なるルーティング情報を有する。さもなければ公知ではない情報は、ユーザの好み又はデフォルトにより提供することができる。
ユーザの好みの例は、カメラ付き携帯電話、デスクトップコンピュータ、パーソナルデジタルアシスタント、携帯用表示ユニット、及びテレビジョンのような、再生用の好みの装置又は再生用の好みの装置の階層である。他の例は、画像のレコードを見ること、出力を形成すること、画像レコードをサーチすること、画像レコードをブラウジングすること、及び画像レコードを購入すること、のような画像の利用の意図であり、ユーザコンタクトリストの使用、グループの共有、個人の共有、のような画像を使用する社会的なパターンである。それぞれの意図又は社会的なパターンは、要求で伝達されるか、供給の特性から帰属され、出力の制約と予め関連付けされる。幾つかのユーザの好みは、出力装置の制約のように機能する。たとえば、ユーザは、最初の画像のレコード及び後続する画像のレコードの提示において最大の許容可能な遅延、最小の許容可能な画像の解像度及びハードコピーの出力特性を定義することができる。
個人の好みは、全体的に適用されるか、或いは特定の出力装置又は特定の使用に適用可能である。たとえば、ユーザの好みは、ユーザにとって利用可能な複数の異なる表示装置のそれぞれについて、或いは、ブロードバンド通信網又はWi-Fi(IEEE902.11(a))のようなローカルワイヤレスコネクションにより接続される同じ装置の使用について、画像を提示するために必要とされる異なる最小の速度を規定することができる。
ユーザの好みは、蓄積され、ユーザプロファイルに記憶される。システムは、異なるユーザについてシステムを特徴付けるため、異なるユーザプロファイルを含む。ユーザプロファイルは、コレクションとは独立に転送可能であり、ユーザプロファイルは、システム内の異なる出力装置に移されるか又は別のシステムに移され、必要に応じて、全ての装置で同じ方式で動作するか又は装置に依存して動作する。後者の場合、ユーザプロファイルは、複数の異なるユーザの好みのセットを有しており、それぞれのセットは、複数の出力装置の異なる1つに適用可能である。
コレクションで決定される画像のレコードのセットは、以下に記載されるようにサンプリングにより低減される。ユーザの好みは、異なる出力装置又は異なる使用について相対的なサンプリングレートを定義する。たとえば、ユーザは、表示される出力画像の比較的迅速な共有を可能にするため、デジタルカメラへの出力のために第一の比較的に低いサンプリングレートのユーザの好みを提供し、別の人の人生を記念する写真を形成するために使用される出力のために第二の比較的高いサンプリングレートのユーザの好みを提供する。
図1を参照して、決定されたセットにおける画像のレコードのそれぞれについて、値のインデックスが確定される(206)。値のインデックスは予め決定することができ、この場合、それぞれの値のインデックスは、画像レコードのメタデータから読み取られる。また、値のインデックスは、必要に応じて計算することができる。コレクションは、予め決定された値のインデックスをもつ画像、及び予め決定された値のインデックスをもたない画像を有することができるため、多数の要求は、両方のアプローチを必要とする場合がある。決定された値のインデックスは、将来の要求の計算上の要件を低減するため、それぞれの画像のレコードのメタデータとして保存される。
値のインデックスは、決定されたセットにおける画像レコードのそれぞれの相対的な値を意図されたユーザに提供することが意図される。値のインデックスは、個々の画像レコードの早期のユーザの評価に基づく。このアプローチは面倒であり、ユーザの介入なしで又は任意のユーザの介入により決定される値のインデックスを使用することが好ましい。多数の異なるタイプの値のインデックスは、当業者にとって知られている。値のインデックスは、“VALUE INDEX FROM INCOMPLETE DATA”と題されたElena A, Fedorovskaya等により2006年4月13日に提出された米国特許出願第11/403686号、“CAMERA USER INPUT BASED IMAGE VALUE INDEX”と題されたJOSEPH A. Minico等により2006年4月13日に提出された米国特許出願第11/403583号の何れかで開示又は記載されており、両者は、引用により本明細書に盛り込まれる。値のインデックスは、これら特許出願における値のインデックの形成で使用される情報の何れかに基づくか又は該情報の何れかから導出され、或いはそれらの結合に基づくか又は該結合から導出される。導出されたパラメータの例は、“MULTI-TIERED IMAGE CLUSTERING BY EVENT”と題されたBryan D.Kraus等により2005年8月4日に提出された米国特許出願第11/197243号に記載されるように、当業者にとって公知の方法のうちの1つで決定されるイベント及びサブイベントであり、この米国特許出願は、引用により本明細書に盛り込まれる。特定の値のインデックスは、特定のユーザの期待に基づいて事前に選択される。また、ユーザは、ユーザの好みを設定する一部として、特定の値のインデックスの選択が与えられる。
値のインデックスは、ユーザの好みの設定においてユーザによりカスタマイズされる。このカスタマイズは、値のインデックスを置き換え又は変更する。後者のケースでは、読み取られ又は計算された値のインデックスは、低減された画像レコードのセットの決定において次に使用される変更された値のインデックスを提供するため、更なる計算により変更される。このアプローチの利点は、変更されていない値のインデックスは、他のユーザのメタデータで保持されることである。特定の実施の形態では、変更により、画像のレコード、ユーザの好み、及び該セットの画像レコードの顕著な特徴に関連されるメタデータの1以上又は組み合わせに基づいて、画像のレコードが再評価される。
画像のレコードに関連するメタデータのコレクション及び利用は、当該技術分野で知られている。値のインデックスを変更する適切なメタデータは、可用性及びユーザへの関連性に基づいて選択される。特に有効なタイプのメタデータは、画像の捕捉の時間での状態に関連する捕捉メタデータ、後続する捕捉を特定の画像又は画像のグループの利用に関連させる利用のメタデータを含む。
捕捉のメタデータは、露光、位置、日付、カメラ機能の状態等のような捕捉の状態を定義する捕捉時に利用可能なデータである。捕捉のメタデータの例は、GPSデータのようなタイムスタンプ及び地理位置情報のような時間空間情報、焦点距離、フラッシュ使用、シャッター速度、レンズアパーチャ、露光時間、デジタル/光ズーム状態、及び(ポートレイトモード又はスポーツ/アクションモードのような)カメラモードのようなカメラ設定、画像サイズ、撮影者のアイデンティフィケーション、捕捉で提供されるテクスチャ又は言葉の注釈、検出された被写体の距離、フラッシュが焚かれた状態を含む。
捕捉のメタデータは、画像レコードのセットアップ及び捕捉の両者に関連し、また、画像のレコードの撮影中のレビューに関連する。捕捉のメタデータは、カメラ又は他の捕捉装置に対するユーザ入力から導出される。ユーザ入力の例は、部分的なシャッターボタンの押し下げ、フルシャッターボタンの押し下げ、焦点距離の選択、カメラディスプレイの作動、編集パラメータの選択、画像レコードのユーザ分類、カメラディスプレイの不作動を含む。ビューファインダディスプレイ制御は、たとえば「共有」又は「好み」ボタンといった手動的なユーザの画像の分類のため、1以上のユーザ制御を含む。ユーザ入力に基づくメタデータは、構成、捕捉の間、任意に画像レコードのビューの間に、受信された入力を含む。(たとえば、被写体を追跡するオートフォーカスシステム及びそれぞれの画像の記録された時間/日付により決定される)同じシーンからなる幾つかの画像又はシーンにおける僅かなシフトをもつ幾つかの画像が撮影された場合、全ての画像に関連する情報データは、それぞれの画像の捕捉メタデータの導出で使用される。
捕捉メタデータの別の例は、2以上のカメラ入力間の時間的な関係から計算される時間の値である。時間の関係は、特定の時間スパンで生じる2つの入力又はイベント間の経過時間である。例は、画像構成時間、S1〜S2ストローク時間、撮影中の編集時間、撮影中の見る時間、及び、電源オン状態におけるカメラによる(カメラ等におけるグローバルポジショニングシステムレシーバにより決定される)特定の位置での経過時間、のうちの1以上を定義する入力である。特定の画像又は画像の系列を捕捉するためにユーザのパートで更なる労力を全て例示するように、時間の関係が選択される。2以上の入力間の地理的な関係は、特定の時間スパン及び地理的な範囲での入力のような異なる種類の関係を結合することができるとき、時間的な関係と同じやり方で情報データを得る。
捕捉に関連する画像データの他の例は、画像のレコード、位置情報、現在の日付、撮影者のアイデンティティで保持されるテクスチャ又は言葉の注釈から導出された情報を含む。係るデータは、ユーザにより入力されるか又は自動的に入力される。注釈は、ユーザにより個々に提供されるか、或いは、情報コンテンツ又はプリセット情報から生成される。たとえば、カメラは、選択された地理的な位置で注釈「家」を自動的に生成するか、ユーザは、同じ注釈を追加することができる。グローバルポジショニングシステム装置のような位置情報を決定する適切なハードウェア及びソフトウェアは、当業者にとって公知である。撮影者のアイデンティティは、無線周波識別装置のような識別トランスポンダの使用、識別データのユーザ入力、音声認識、又は、ユーザの顔の認識又は指紋の整合のような生体識別、のような手段により決定される。係るメタデータと他のパラメータの組み合わせは、画像データを提供するために使用される。たとえば、日時情報は、休日、誕生日等の予め記録されたアイデンティフィケーションとの組み合わせで使用される。
画像の使用データは、捕捉に続いて特定の画像のレコードの利用に関連するデータである。このデータは、利用それ自身又はその利用の前置きのステップを反映する。画像の利用のデータの例は、編集時間、見る時間、レビューの数、作られたハードコピーの数、作られたソフトコピーの数、コピーを含む電子メール又はそれぞれの画像レコードの数、受信者の数、アルバムにおける利用、ウェブサイトにおける利用、スクリーンセーバとしての利用、リネーミング、注釈、記録文書の状態、及び他のフルフィルメントの利用を含む。画像利用データが基づく利用の例は、コピー、記憶、編集、ラベリング、他の情報との集約、画像処理、非画像処理の計算、ハードコピー出力、ソフトコピー表示、及び非画像出力を含む。画像記録の利用に適した機器及び技術は、当業者にとって公知である。たとえば、パーソナルコンピュータの一部であるデータベースユニットは、ディスプレイ又はプリンタを介して出力を提供する。ダイレクトな利用の情報に加えて、利用データは、先に説明された時間の値に直接に比較されるデータを含む。たとえば、タイム視聴及び編集に特化した画像レコードが考慮される。
顕著な特徴の性質及び使用は、“METHOD FOR AUTOMATIC ASSESSMENT OF EMPHASIS AND APPEAL IN CONSUMER IMAGES”と題されたSavakis等により米国特許第6671405号で説明されており、この特許は、引用により本明細書に盛り込まれる。
適切な顕著な特徴は、構造的な顕著な特徴及び意味の顕著な特徴を含む。構造的な顕著な特徴は、画像レコードにおける画像の物理的な特性であり、低レベルの初期視覚の特徴及び幾何学的な特徴を含む。低レベルの初期視覚の特徴は、色、明るさ及びテクスチャを含む。幾何学的な特徴は、中心のような位置と、境界、近接、周囲及び閉鎖された状態のような空間関係と、サイズと、形状と対称性とを含む。構造的な顕著な特徴の他の例は、画像の鮮鋭度、画像のノイズ、コントラスト、暗いバックグランドの存在/不存在、シーンバランス、スキントーンカラー、飽和、クリッピング、エリアシング、及び圧縮状態を含む。係る特徴に基づいた例となるパラメータは、解像度の数値尺度、画像における非常に低いコントラストの存在/不存在の二進尺度である。構造的な顕著な特徴は、画像レコードの画像データの分析から導出される。構造的な顕著な特徴は、オリジナルのシーンの捕捉及び捕捉された情報における後の変化における制限に関連される。
意味の顕著な特徴は、画像の鍵となる主題の形式におけるハイレベルの特徴である。意味の顕著な特徴の例は、人又は皮膚又は顔の存在/不存在、人の数、人の性、人の年齢、目の充血、瞬目、笑顔の表現、頭のサイズ、変換の問題、被写体の重要性、(屋内、市街地及び風景のような)シーンタイプ、他の画像レコードと相対的なシーンの独自性、空の存在又は不存在、草又は緑の植生の存在又は不存在、スポーツ機材の存在又は不存在、建物の存在又は不存在、動物の存在又は不存在(「変換の問題」は、人の顔又は体のような、あるシーンにおけるメインの被写体の不完全な表現として定義される。)たとえば、A.Gallagher,等により提出された米国特許出願US20050147298A1におけるように、全体の画像の色の分析により決定され、肖像画は、S.Chenにより提出された米国公開特許出願US20040179719A1のような、顔検出ソフトウェアにより決定される。本実施の形態で用語が使用されるように、「画像コンテンツ」の分析は、画像合成を包含する。
顕著な特徴は、特定の画像のレコードにのみ関連するか、コレクションにおける画像のレコードの全て又はそれらのレコードの特定のサブセットに関連する。顕著な特徴及びメタデータは、組み合わせて使用することができる。たとえば、キャンドル又はウェディングドレスの存在といったシーンコンテンツは、誕生日、結婚式、旅行及び休日のような予め決定されたイベントタイプのセットのうちの1つを示す導出されたメタデータを生成するため、メタデータと共に使用することができる。
図1を参照して、値のインデックスのセットから統計的尺度が計算される(208)。1以上の制約に応じて、このセットにおける画像のレコードの数が低減され(210)、低減された画像レコードのセットが提供される。低減の間、統計的な尺度が最適化される(212)。次いで、低減された画像レコードのセットを使用して、出力が提供される(214)。出力に関する制約に従って統計的尺度及び最適化が選択される。
低減された画像レコードのセットをユーザの期待に整合するため、統計的な尺度が選択される。ユーザの好みで期待が提供することができ、仮定することができる。統計的な尺度の例は、算術平均、メディアン、最頻値及び分散を含む。これらの尺度の最適化は、低減されたセットについて異なるポテンシャルの画像レコードのグループを繰り返し導出し、それぞれの統計的尺度を計算し、どのグルーピングが予め決定された統計的な尺度の好適な値に最も接近するかを判定することで実行される。たとえば、統計的な尺度の好適な値は、値のインデックスの最も高い値であり、最適化は、その最も高い値に最も接近する画像のレコードのグループを与える。
代替として、統計的な尺度は、閾値に比較するための値を決定するために使用される確率的ルールの形式を取ることができる。たとえば、1つのルール又はルールのグループ、及び最適化プロセスは、ベイジアンネットの形式で提供することができる。適切なルール及び閾値は、試行錯誤的に決定されるか、遺伝的アルゴリズムの使用のような、自動化された分類技術の使用により決定することができる。これらの技術の使用は、当業者にとって公知である。
図4を参照して、オプションとして、低減された画像レコードのセット404は、出力される前に複数のクラスタ418に分割される。クラスタリング技術のタイプの例は、k平均法のクラスタリング及び階層的クラスタリングを含む。詳細なクラスタリング技術は、米国特許第6606411号で開示されており、ここではクラスタリングはイベントによる。分割の結果は、次いで、出力に提供される。たとえば、クラスタはリストで指定されるか、又は、表示される画像はグループ化されるか、或いは、クラスタを示すように扱われる。ユーザ入力又は装置の制約をもつ装置に関して、クラスタの数は、これら制約に基づいて変化する。幾つかの装置は、それらのナビゲーション機能において制限される入力手段を使用し、カメラ付き携帯電話のような小型のスクリーンサイズを含む。これらの装置について、更に有効なブラウジング手段は、ユーザにより望まれる。ユーザが特定のクラスタを更に迅速に発見することができるように、出力におけるクラスタの数は、比較的小さい。
更なるオプションとして、ユーザは、出力におけるクラスタのうちの1うちの1つを識別する更なる入力を入力することが許可される。次いで、低減されていない画像のレコードのセットにおける全ての画像のレコードを識別する更なる出力が供給される。分割を決定するために使用されるパラメータは、1以上の顕著な特徴及びメタデータに基づく。
図5を参照して、決定される画像のレコードのセットは、統計的な尺度の決定の一部として低減される前に、クラスタ420に分割される(416)。構造的及び意味の顕著な特徴、ユーザの好み、及びメタデータは、クラスタリングを提供するため、組み合わせで使用される。たとえば、ユーザは、それぞれの月について1つの画像をもつカレンダーを形成することを望む場合がある。クラスタリング方法は、画像を月によるグループにクラスタリングするために使用される。それぞれのカレンダーの月が1つのオープンスロットを含む場合、画像のコレクションは、12の画像に低減される。最適化は、それぞれの月について最も高い値のインデックスを選択する。別の例では、コレクションは、人の数の意味の顕著な特徴に関して、それぞれがゼロ人、一人、二人、三人を有する2以上の画像レコードの4つのクラスタに分割される。次いで、全体の画像のレコードの数は、できるだけ等しく、それぞれのクラスタから予め決定された閾値を超えるインデックスの値を持つ画像のレコードを選択することで低減される。
決定された画像レコードのセットがクラスタに分割されたとき、低減された画像レコードのセット404は、低減の間に異なるクラスタ424に再び分割される(422)。同じ分割の手順は、両方のケースで使用することができるが、結果は、利用可能な画像のレコードに依存して変化する。前の例では、分割は、0−1人及び2−3人といった2つのクラスタを生成する。
コレクションから画像のレコードを供給する装置は、画像のレコードのコレクションを保持するメモリ、1以上の入力コントロール及び1以上の出力装置を有するユーザインタフェース、前記メモリ及び前記ユーザインタフェースに接続される制御ユニットを有し、前記制御ユニットは、前記ユーザインタフェースを介してユーザから受信された出力要求に対応する前記コレクションにおける画像のレコードのセットを決定する画像レコードロケータ、前記出力に関する1以上の制約を決定する制約決定手段、前記セットにおける前記画像レコードのそれぞれの、それぞれの値のインデックスを確定する確定ユニット、前記セットの前記値のインデックスの統計的な尺度を計算する計算手段、前記1以上の制約に応じて前記セットにおける画像レコードの数を低減して低減された画像レコードのセットを生成する低減手段、前記低減の間に前記統計的尺度を最適化する最適化手段、及び前記低減された画像レコードのセットを使用して前記出力装置のうちの1つに出力を提供する出力ユニットを含む。
Claims (18)
- コレクションから画像のレコードを供給するコンピュータを利用した方法であって、
ユーザからの出力要求を受信するステップと、
前記要求に対応する前記コレクションにおける画像のレコードのセットを決定するステップと、
前記出力に関する1以上の制約を決定するステップと、
前記セットにおける前記画像レコードのそれぞれの値のインデックスを特定するステップと、
前記セットにおける前記値のインデックスの統計的尺度を計算するステップと、
前記1以上の制約に応答して前記セットにおける画像のレコードの数を低減して、低減された画像のレコードのセットを提供するステップと、
前記低減の間に前記統計的な尺度を最適化するステップと、
前記低減された画像のレコードのセットを使用して出力を供給するステップと、
を含むことを特徴とする方法。 - 前記決定するステップは、前記出力要求に関連される出力装置を識別するステップを更に含み、前記制約は、前記出力装置の制限を含む、
請求項1記載の方法。 - 前記制約は、複数のユーザの好みを含む、
請求項2記載の方法。 - 前記出力は、画像のレコードの前記セットのハードコピーとソフトコピーの一方又は両方を含み、前記出力装置の前記制約は、ハードウェア機能における制限、ユーザ入力機能における制限、ディスプレイ機能における制限、ネットワーク及び通信の帯域幅の制限のうちの1以上を含み、
前記ユーザの好みは予め決定され、好適な再生装置、好適な最大出力遅延、前記出力における前記画像のレコードの好適な特性のうちの1以上を含む、
請求項3記載の方法。 - 前記ユーザの好みは、複数の異なるユーザの好みのセットを含み、それぞれの前記セットは、前記識別された出力装置を含めて複数の出力装置のうちの異なる装置に適用可能である、
請求項4記載の方法。 - 前記ユーザの好みは、前記画像のレコードとは独立にユーザプロファイルで転送可能である、
請求項4記載の方法。 - 前記統計的な尺度は、パターン識別である、
請求項1記載の方法。 - 前記パターン識別は、ベイジアンネットである、
請求項7記載の方法。 - 前記出力を供給する前に、前記低減された画像のレコードのセットを複数のクラスタに分割するステップを更に含む、
請求項1記載の方法。 - 画像のレコードの前記コレクションをクラスタのセットに分割するステップと、
前記出力において、前記低減された画像のレコードのセットを含めて前記クラスタのサブセットを識別するステップと、
前記識別されたクラスタのうちの1つを指定するユーザ入力を受けるステップと、
前記ユーザ入力に応答して、前記コレクションにおける前記指定されたクラスタのそれぞれのレコードの全てを識別するステップと、
を更に含む請求項9記載の方法。 - 前記受信の前に、画像のレコードの前記コレクションを第一の複数のクラスタに分割するステップと、
前記供給の前に、画像のレコードの前記セットを第二の複数のクラスタに分割するステップとを更に含み、
前記分割はアルゴリズム的であり、前記第一の複数のクラスタは、前記第二の複数のクラスタと異なる、
請求項1記載の方法。 - 前記特定するステップは、
前記値のインデックスのメタデータを有する画像のレコードの前記セットのうちの画像のレコードのそれぞれの値のインデックスを示す値のインデックスのメタデータを読み取るステップと、
前記値のインデックスのメタデータが欠けている画像のレコードの前記セットのうちの他の画像のレコードのそれぞれの値のインデックスを計算するステップと、
を更に含む請求項1記載の方法。 - 前記特定するステップは、
前記セットの前記画像のレコードのそれぞれの値のインデックスを示す値のインデックスのメタデータを決定するステップと、
前記セットの前記画像のレコードのそれぞれの1以上の顕著な特徴を計算するステップと、
前記顕著な特徴のそれぞれに応じて前記値のインデックスのそれぞれを変更して、変更された値のインデックスを供給するステップと、
前記計算及び最適化において、前記変更された値のインデックスを使用するステップと、
を更に含む請求項1記載の方法。 - 前記1以上の顕著な特徴は、構造的な顕著な特徴及び意味的な顕著な特徴を含む、
請求項13記載の方法。 - 前記構造的な顕著な特徴は、色、明るさ、テクスチャ、中心であること、境界であること、近接していること、囲まれていること、閉鎖されていること、サイズ、形状及び対象性、画像の鮮鋭度、画像のノイズ、コントラスト、暗い背景の存在の有無、シーンバランス、肌の色合い、飽和、クリッピング、エリアシング、及び圧縮状態、のうちの1つを含み、
前記意味的な顕著な特徴は、人又は皮膚又は顔の存在/不存在、人の数、人の性、人の年齢、目の充血、瞬目、笑顔の表現、頭のサイズ、変換の問題、被写体が中心であること、(屋内、市街地及び風景のような)シーンタイプ、他の画像のレコードと相対的なシーンの独自性、空の存在又は不存在、草又は緑の植生の存在又は不存在、スポーツ用品の存在又は不存在、建物の存在又は不存在、動物の存在又は不存在のうちの1以上を含む、
請求項14記載の方法。 - 前記セットの画像のレコードに関連されるメタデータを読み取るステップを更に含み、
前記値のインデックスのそれぞれを変更する前記ステップは、それぞれの前記顕著な特徴及び前記メタデータに応答する、
請求項13記載の方法。 - 前記メタデータは、捕捉に関連されるメタデータ及び利用のメタデータのうちの1つである、
請求項16記載の方法。 - コレクションから画像のレコードを供給する装置であって、
画像のレコードの前記コレクションを保持するメモリと、
1以上の入力コントロール及び1以上の出力装置を有するユーザインタフェースと、
前記メモリ及び前記ユーザインタフェースに接続される制御手段とを有し、
前記制御手段は、
前記ユーザインタフェースを介してユーザから受信された出力要求に対応する前記コレクションにおける画像のレコードのセットを決定する手段と、
前記出力に関する1以上の制約を決定する手段と、
前記セットにおける前記画像のレコードのそれぞれの値のインデックスを特定する手段と、
前記セットにおける前記値のインデックスの統計的尺度を計算する手段と、
前記1以上の制約に応じて前記セットにおける画像のレコードの数を低減して、低減された画像のレコードのセットを供給する手段と、
前記低減の間の前記統計的尺度を最適化する手段と、
前記低減された画像のレコードのセットを使用して、前記出力装置のうちの1つに前記出力を供給する手段と、
を含むことを特徴とする装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US82849406P | 2006-10-06 | 2006-10-06 | |
US11/747,933 US20080085032A1 (en) | 2006-10-06 | 2007-05-14 | Supplying digital images from a collection |
PCT/US2007/021130 WO2008045233A2 (en) | 2006-10-06 | 2007-10-02 | Supplying digital images from a collection |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010506296A true JP2010506296A (ja) | 2010-02-25 |
JP2010506296A5 JP2010506296A5 (ja) | 2010-11-25 |
Family
ID=39056599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009531412A Pending JP2010506296A (ja) | 2006-10-06 | 2007-10-02 | コレクションからのデジタル画像の供給 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20080085032A1 (ja) |
EP (1) | EP2069974A2 (ja) |
JP (1) | JP2010506296A (ja) |
WO (1) | WO2008045233A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014526738A (ja) * | 2011-09-07 | 2014-10-06 | インテレクチュアル ベンチャーズ ファンド 83 エルエルシー | 光源検出を利用したイベント分類方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7861037B2 (en) * | 2007-06-27 | 2010-12-28 | Sandisk Corporation | Methods of auto starting with portable mass storage device |
US7917697B2 (en) * | 2007-06-27 | 2011-03-29 | Sandisk Corporation | Auto start configuration with portable mass storage device |
JP5060358B2 (ja) * | 2008-03-25 | 2012-10-31 | 株式会社トプコン | 測量システム |
EP2138940A1 (en) * | 2008-06-23 | 2009-12-30 | Alcatel Lucent | A system and method for automatically generating an extra data layer |
US20100118342A1 (en) * | 2008-11-10 | 2010-05-13 | Seiko Epson Corporation | Image forming apparatus and program |
WO2013013087A2 (en) * | 2011-07-20 | 2013-01-24 | The Regents Of The University Of California | Efficient searching of stationary datasets |
US20140049546A1 (en) * | 2012-08-16 | 2014-02-20 | The Penn State Research Foundation | Automatically computing emotions aroused from images through shape modeling |
US9558425B2 (en) | 2012-08-16 | 2017-01-31 | The Penn State Research Foundation | Automatically computing emotions aroused from images through shape modeling |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6285788B1 (en) * | 1997-06-13 | 2001-09-04 | Sharp Laboratories Of America, Inc. | Method for fast return of abstracted images from a digital image database |
US6606411B1 (en) * | 1998-09-30 | 2003-08-12 | Eastman Kodak Company | Method for automatically classifying images into events |
US6671405B1 (en) * | 1999-12-14 | 2003-12-30 | Eastman Kodak Company | Method for automatic assessment of emphasis and appeal in consumer images |
US20020010716A1 (en) * | 2000-02-24 | 2002-01-24 | Mccartney Alan F. | System and method for dynamically publishing XML-compliant documents |
US20030128389A1 (en) * | 2001-12-26 | 2003-07-10 | Eastman Kodak Company | Method for creating and using affective information in a digital imaging system cross reference to related applications |
FR2846769B1 (fr) * | 2002-11-06 | 2005-04-15 | France Telecom | Procede et systeme d'elaboration dynamique d'images |
US7508961B2 (en) * | 2003-03-12 | 2009-03-24 | Eastman Kodak Company | Method and system for face detection in digital images |
US7336819B2 (en) * | 2003-12-29 | 2008-02-26 | Eastman Kodak Company | Detection of sky in digital color images |
KR100738069B1 (ko) * | 2004-10-04 | 2007-07-10 | 삼성전자주식회사 | 디지털 사진 앨범의 카테고리 기반 클러스터링 방법 및시스템 |
US7643686B2 (en) * | 2004-11-17 | 2010-01-05 | Eastman Kodak Company | Multi-tiered image clustering by event |
US7715597B2 (en) * | 2004-12-29 | 2010-05-11 | Fotonation Ireland Limited | Method and component for image recognition |
-
2007
- 2007-05-14 US US11/747,933 patent/US20080085032A1/en not_active Abandoned
- 2007-10-02 EP EP07852490A patent/EP2069974A2/en not_active Withdrawn
- 2007-10-02 WO PCT/US2007/021130 patent/WO2008045233A2/en active Application Filing
- 2007-10-02 JP JP2009531412A patent/JP2010506296A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014526738A (ja) * | 2011-09-07 | 2014-10-06 | インテレクチュアル ベンチャーズ ファンド 83 エルエルシー | 光源検出を利用したイベント分類方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2069974A2 (en) | 2009-06-17 |
WO2008045233A2 (en) | 2008-04-17 |
US20080085032A1 (en) | 2008-04-10 |
WO2008045233A3 (en) | 2008-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7869658B2 (en) | Representative image selection based on hierarchical clustering | |
JP2010506296A (ja) | コレクションからのデジタル画像の供給 | |
JP5364573B2 (ja) | 不完全なデータからの評価指標 | |
US20080085055A1 (en) | Differential cluster ranking for image record access | |
US7929809B2 (en) | Method for assembling a collection of digital images | |
JP2013225327A (ja) | カメラへのユーザ入力に基づく画像値インデックス | |
US8761523B2 (en) | Group method for making event-related media collection | |
US7720851B2 (en) | Active context-based concept fusion | |
JP5761322B2 (ja) | 端末、画像処理方法、プログラム | |
US20130130729A1 (en) | User method for making event-related media collection | |
US20130128038A1 (en) | Method for making event-related media collection | |
Yin et al. | Socialized mobile photography: Learning to photograph with social context via mobile devices | |
US9336442B2 (en) | Selecting images using relationship weights | |
US20070185890A1 (en) | Automatic multimode system for organizing and retrieving content data files | |
US20130050747A1 (en) | Automated photo-product specification method | |
JP2008529150A (ja) | ダイナミックフォトコラージュ | |
JP2007094762A (ja) | 情報処理装置および方法、並びにプログラム | |
TW201327423A (zh) | 用於形成影像之裝置與方法 | |
US20130050744A1 (en) | Automated photo-product specification method | |
CN101578859B (zh) | 基于编辑状态的图像数字处理 | |
Yin | Mobile multimedia: From acquisition to adaptation with semantics, context and social information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100928 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100928 |
|
A072 | Dismissal of procedure [no reply to invitation to correct request for examination] |
Free format text: JAPANESE INTERMEDIATE CODE: A073 Effective date: 20120214 |