JP2010521024A

JP2010521024A - 階層的クラスタリングによる代表画像選定

Info

Publication number: JP2010521024A
Application number: JP2009550913A
Authority: JP
Inventors: アンドリューシーブローズ; アレクサンダーシールイ
Original assignee: イーストマンコダックカンパニー
Priority date: 2007-02-22
Filing date: 2008-02-21
Publication date: 2010-06-17
Anticipated expiration: 2028-02-21
Also published as: US20080205772A1; WO2008103412A1; EP2122498A1; US7869658B2; JP5261724B2

Abstract

本方法では、コンピュータを利用し代表画像を求めるに当たり、画像レコードを時空間情報に基づき分類し、そのグループ毎にレコードをクラスタに振り分け最上位階層のクラスタを認定する。その振分は、そのレコードが階層構造上で上位の有特徴クラスタに係る突出特徴のうちいずれかを有しているならそのクラスタに、またそのクラスタに係る突出特徴は有していないがより下位の有特徴クラスタに係る突出特徴のうちいずれかを有しているなら後者のクラスタに、そしてそれらのクラスタに係るどの突出特徴も欠くなら残り物クラスタに、という要領で、有特徴クラスタ毎に一種類又は複数種類、都合複数種類ある所定の突出特徴に基づき行う。そして、そのグループの最上位クラスタが有特徴クラスタならそのクラスタの突出特徴に基づき、また残り物クラスタならどの突出特徴とも無関係に、そのグループのレコードから代表画像を選定する。

Description

本発明はディジタル画像の整頓及び管理、特に階層的クラスタリング(hierarchical clustering)による代表画像選定に関する。

ディジタルスチルカメラ、ビデオカメラ、カメラ付携帯電話等のランダムアクセス型ディジタル撮像装置を使用して画像を撮影した場合、その画像のデータ（ディジタル画像）はひとまずその装置内に保存され、ユーザからの指示を待ってパーソナルコンピュータ（ＰＣ）のディスク乃至メモリ上又はオンラインストレージ上に移されるのが普通である。撮像装置内の画像やＰＣ上／オンラインストレージ上にある画像は、ユーザ自身のマニュアル操作や自動処理によって、アルバム、フォルダ等と呼ばれる“入れ物”に入れて整頓することができる。更に、画像の“入れ物”に他の“入れ物”を入れ子にすることで、ディジタル画像群を階層的に整頓することができる。なかでも、誕生会、祝日パーティ等のような実生活上のイベントに従い画像を整頓するやり方が、多くのディジタル写真撮影者に常用されているやり方である。

その階層的ディジタル画像群から目的とする画像を探してブラウズすることができるようにするため、ディジタル撮像装置、ＰＣ、オンラインストレージ等で稼働するファイルシステム、画像整頓用ソフトウェア等では、種々の画像の内容をアイコンやサムネイルで表示させることが多い。特に、サムネイルはその画像群を代表する画像の縮小画像であるので、その画像群が多数の画像を含んでいる場合でも、ユーザは対応するサムネイルの外観からその画像群の内容及びそれにまつわるイベントを知ることができる。こうした点で、サムネイル表示は画像群名表示やアイコン表示より重宝である。また、サムネイルの基になる画像は、その画像群を代表する画像という意味で、代表画像(representative image)又はキー画像(key image)と呼ばれる。動画を構成する複数個のフレームを代表するフレームは、同様の名称のほか、キーフレーム(key frame)等の名称でも呼ばれる。

また、ディジタル静止画データ、動画データ、マルチメディアデータ等を包括する用語としては画像レコード(image record)なる用語が知られている。画像レコードとディジタル画像との関係は１対１に限られず、１個の画像レコードに複数個のディジタル画像が含まれることもある。更に、画像レコード中に画像以外のデータ、例えば音声又はテキストによる注釈を表現するメタデータが含まれることもある。画像レコードと画像データファイルとも関係も１対１に限られず、１個の画像レコードを複数個のデータファイルに分割して保存しそれらを相互に関連付ける処置を執ることもある。メタデータを対応するディジタル画像と同一のファイルに入れることもあるし別のファイルにすることもある。多スペクトラム画像、スキャナレスレンジ画像、ディジタルアルバム内頁画像、マルチメディアプレゼンテーション用動画等も画像レコードとして扱える。動画データの場合、その動画データ全体を１個の画像レコードとして扱えるほか、その動画データを構成する個々のフレーム（静止画）のデータも各１個の画像レコードとして扱える。そして、本願ではディジタルカメラで撮影された画像レコードを主たる例にして説明を行うが、ディジタルカメラ以外の撮像装置で撮影したものや、写真フィルムで撮影してディジタル化したものも、画像レコードとして扱うことができる。即ち、本願では、ディジタル的に保存された画像データ（及びそれに随伴する情報）のことを画像レコードと呼んでいる。

ユーザの多くは、こうした画像レコードをエピソード別に、即ち出来事別に収集する。その分類の際にも、日時、場所等の時空間情報を利用するか、一歩進んでイベント及びそのサブイベントに着目することで、エピソード別の分類を行うことが多い。イベント及びサブイベントに着目するやり方は多くのユーザにとって至便であるが難点もある。例えば、複数個の画像レコードにて形成されるグループ及びそのサブグループの主題を、その分類のされ方から察知できない場合がある。適切な画像が代表画像に選ばれていれば、その画像からそのグループ乃至サブグループの主題を察知することもできようが、そうした画像を決めるのは結構面倒なことである。無論、同様の被写体が写った画像ばかりを集めてグループ乃至サブグループを形成すれば、そのグループ乃至サブグループ内のどの画像も、そのグループ乃至サブグループの代表画像になりうる。例えば、新生児写真ばかり集めたグループなら、どのグループ内写真にも新生児が写っているので、どのグループ内写真もそのグループの代表画像として使用することができる。但し、これは例外的なことである。

そのため、一般に、グループ内筆頭画像レコードをそのグループの代表画像とする方式が採られている。ただ、筆頭にあるといっても、通常はその撮影時期が最も古いというだけであるので、グループ内諸画像の由緒や内容を的確に表しているとは限らない。例えば、実際にそのイベントが始まる前に、使用するカメラの調子を確かめるため画像を撮影したとする。そうした試し撮り画像はグループの筆頭にくることが多いが、試し撮りでは何を撮影してもよいので、その画像に写っている事物がそのイベント本番での撮影内容と関係があるとは限らない。また、イベント自体が長時間に亘る場合、そのイベントの初っぱなに撮影されたためそのイベント全体の設定や流れを正しく反映していない画像が、そのグループの筆頭にきてしまうこともある。

なお、特許文献８（発明者：Savakis et al.）に記載の方法では、画像を複数のグループに分類してそのグループの代表画像を決定する際に、そのグループに属する画像の内容（意味的(semantic)突出特徴）を利用している。特許文献７（発明者：Qian et al.）に記載の方法では、動画を解析することによって意味的突出特徴等の突出特徴(saliency feature)を調べて要約文を生成している。これらの方法はいずれも有益なものであるが、おしなべて、それを実行するための情報処理が多量且つ複雑になりがちである。

米国特許第６２８２３１７号明細書（Ｂ１）米国特許第６３５１５５６号明細書（Ｂ１）米国特許第６６０６４１１号明細書（Ｂ１）米国特許第６６５４５０６号明細書（Ｂ１）米国特許第６６６１９０７号明細書（Ｂ２）米国特許第６６９７５０２号明細書（Ｂ２）米国特許第６７２１４５４号明細書（Ｂ１）米国特許第６８４７７３３号明細書（Ｂ２）米国特許第６９１５０１１号明細書（Ｂ２）米国特許第７０３５４５６号明細書（Ｂ２）米国特許第７０６２０８５号明細書（Ｂ２）米国特許第７１６２１０２号明細書（Ｂ２）米国特許出願公開第２００３／０１２８３８９号明細書（Ａ１）米国特許出願公開第２００３／０２１０８０８号明細書（Ａ１）米国特許出願公開第２００４／０１７９７１９号明細書（Ａ１）米国特許出願公開第２００６／０１０４５２０号明細書（Ａ１）米国特許出願公開第２００６／０１２６９４４号明細書（Ａ１）米国特許第６３６０２３４号明細書（Ｂ２）米国特許第６４６３４４４号明細書（Ｂ１）米国特許第６５４９６４３号明細書（Ｂ１）米国特許第６５６７９８０号明細書（Ｂ１）米国特許第６７３８１００号明細書（Ｂ２）米国特許第６８０７３０６号明細書（Ｂ１）米国特許第６８３３８６５号明細書（Ｂ１）米国特許第６８７７１３４号明細書（Ｂ１）米国特許出願公開第２００３／００４８９５０号明細書（Ａ１）米国特許出願公開第２００５／００３３７５８号明細書（Ａ１）

"An automatic facial feature finding system for portrait images", by Bolin and Chen in the Proceedings of IS&T PICS conference, 2002

本発明の目的の一つは、上述した如き難点がない方法及びシステムを提案することにある。

本発明の構成は別紙特許請求の範囲に記載の通りである。その好適な実施形態は、撮影により得られた１個又は複数個のディジタル画像をそれぞれ含む画像レコードの集まりである画像レコード群について、その画像レコード群の代表画像を求める方法及びシステムである。その実施形態では、まず、それらの画像レコードを時空間情報に基づき複数のグループに分類する。次いで、その画像レコードが階層構造上で比較的上位の有特徴(feature)クラスタに係る一種類又は複数種類の所定の突出特徴のうちいずれかを有している場合は当該比較的上位の有特徴クラスタに、また当該比較的上位の有特徴クラスタに係る突出特徴は有していないが階層構造上でより下位の有特徴クラスタに係る一種類又は複数種類の所定の突出特徴のうちいずれかを有している場合は当該より下位の有特徴クラスタに、そしてそれら複数個の有特徴クラスタに係る都合複数種類の突出特徴をいずれも有していない場合は残り物(remainder)クラスタに、という要領で、各グループの画像レコードを、その突出特徴に基づき、有特徴クラスタ複数個及び残り物クラスタからなり階層構造を形成する一群のクラスタに振り分ける。更に、グループ毎に、そのグループに存するクラスタのなかで最上位階層のクラスタを以てそのグループの最上位(highest)クラスタと認定する。そして、そのグループの最上位クラスタが有特徴クラスタである場合はその最上位クラスタに係る突出特徴に基づき、またそのグループの最上位クラスタが残り物クラスタである場合は上記突出特徴のいずれとも無関係に、各グループの代表画像をそのグループを構成する画像レコードのなかから選定する。

即ち、本発明の好適な実施形態に係る方法及びシステムによれば、画像レコードのグループからそのグループを代表する画像レコードを、そのための処理の難度をそのグループに属する画像レコードの種類に相応するレベルに抑えながら、効率的に選定することができる。

一例手順を示すフローチャートである。一例システムを示す模式図である。別例システムを示す模式図である。画像群のイベント別及びサブイベント別グループ化を示す図である。図１に示した手順のうち振分ステップを示すより詳細なフローチャートである。図１に示した手順のうち認定ステップ及び選定ステップを示すより詳細なフローチャートである。

以下、本発明の好適な実施形態に関し別紙図面を参照しつつ説明する。これを参照することにより、上記以外のものを含め本発明の諸特徴、諸目的及びその実現形態を、より好適に理解することができよう。

これから説明する方法及びシステムでは、時空間情報に基づき画像レコードを複数のグループに分類し、各グループの代表画像をそのグループの画像レコードのなかからある有限個数の突出特徴に基づき選定する。こうした手法を採るのは、その主題が異なる様々な場面で撮影した画像を、場面毎の主題の違いを無視してひとまとめにしてしまうことがしばしばあるからである。例えば、祝日パーティに人物写真を撮影し又は他人からそれをもらい、それらの人物写真だけをより分けておくことがある反面、休暇中に撮影した風景写真の大半をひとまとめにしてしまうことも多いものである。そうした雑多な写真のなかから代表画像を選定するには、それらの写真のコンテンツを意味論的に詳細に解析し、特定の撮影場面の総体的主題に基づき代表画像を決めるようにすればよいが、そうしたやり方を採ると情報処理負荷が非常に重くなってしまう。これは、どういった種類の画像レコードでも概ね同様であり、一般に、解析対象が多ければ多いほど上昇処理負荷は重くなる。なお、便宜上以下の説明では各画像レコード中のディジタル画像が１個であるとするが、そうした構成を採らない画像レコードについても以下と同様の説明が成り立つ。例えば、複数個のフレームから構成される動画であれば、各フレームを個別のディジタル画像と見なし、フレーム毎に処理を繰り返せばよい。

また、突出特徴とは、人間の介在無しでその画像のデータから導出できる客観的画像特性のことである。これには意味的突出特徴と構造的(structural)突出特徴がある。意味的突出特徴の方は、その画像に情報として含まれている個々の事物の意味、特にその画像を閲覧した人間がその事物の意味として理解するであろうものに相応している。例えば、人間の目に“一対の目”として映るような光陰パターンがある画像中に存している場合、“一対の目が写っている”という意味的突出特徴がその画像に備わっていると称することができる。意味的突出特徴のなかには、サイズ、場所等といった条件乃至制約を伴うものもある。更に、意味的突出特徴が往々にして比較的複雑な情報処理で導出される特徴であるのに対し、構造的突出特徴の方はその画像に備わる特性のなかでも比較的簡単な情報処理で導出できるものであることが多く、意味的突出特徴と違いその画像を見た人が直ちに理解できる情報に相応しないことが多い。また、ある光景にある特定の主題が存していること等は、例えば既存の画像処理アルゴリズム及び画像解釈アルゴリズムを用い迅速に識別することが可能である。本願では、更に突出特徴同士の組合せのことも突出特徴と呼ぶ。その組合せを形成している突出特徴のなかに１個でも意味的突出特徴が含まれていれば、その組合せたる突出特徴も意味的突出特徴になる。特許文献１（出願日：１９９８年１２月３１日、発明者：Luo et al.）に記載の方法等では、主被写体(main subject)に備わる組合せ的意味的突出特徴を自動判別するのに、肉体、顔、空、草等の意味的突出特徴を、色、模様、輝度等の構造的突出特徴と併せ利用している。

そして、以下の説明では、幾つかの部材をソフトウェア（プログラム）で実現した例を示しているが、本件技術分野で習熟を積まれた方々（いわゆる当業者）には自明な通り、ソフトウェアではなくハードウェアによってそうした部材を実現することもできる。また、画像を取り扱うためのアルゴリズムやそれを実行できるシステムは周知であるので、本願では本発明の実施形態に係る方法を構成し又はそれと密接に関連するアルゴリズム及び要素に重点を置いて説明を行っている。即ち、本発明の実施形態に係る方法は周知な要素で構成されている周知のコンピュータシステムで実施することができるので、本願ではそうしたシステム及び構成要素のうち当該方法と直に関連するものを中心に説明を行っている。例えば、画像信号の生成乃至処理に関わるアルゴリズム、装置、ハードウェア乃至ソフトウェアのうち、本願中に具体的な記載や説明がないものについては、本件技術分野で既知のシステム、アルゴリズム、部材乃至要素のなかで相応しいものを選べばよい。いわゆる当業者であれば、本願での説明を参照し、本願記載のものとは異なるソフトウェア／ハードウェアを使用又は追加し本発明を実施することができよう。

図２にシステム構成の一例を示す。このシステムは、ハウジング２２、画像群記憶用のメモリ２４、プロセッサ２６、並びにそのプロセッサ２６に接続されている入力ユニット２８及び出力ユニット３０を備えている。このシステムのユーザインタフェースはユニット２８，３０又はその一部により形成されており、例えばユニット２８のうち何個かにはユーザ操作部、ユニット３０のうち１個にはディスプレイを使用している。また、この図示例では、構成要素間を接続する信号経路及びその信号経路によって接続される諸構成要素がハウジング２２内に収まっているが、信号経路や構成要素のうち何個かが部分的に又は丸ごとハウジング外にある形態のシステムにすることもできる。例えば図３に示す別例では、汎用コンピュータに様々な周辺機器を接続することによってシステムが構成されている。更に、システムを構成する様々な部材を互いに全く別体にしてもよいし、同一のハードウェア乃至ソフトウェアをシステム構成部材間で共用するようにしてもよい。

まず、プロセッサは、所与のソフトウェア及びデータに基づき動作し、入力ユニットから供給される信号に応じて他のシステム構成部材を稼働させる。プロセッサとしては、ディジタルコンピュータ、マイクロプロセッサ又はロジックプロセッサ等のプログラマブルなデバイスや、一群の電子回路、それを集積回路化したもの又は一群のディスクリート部品を使用する。

プロセッサは、システム稼働に必要な諸機能を提供するほか、メモリ上に格納されているプログラムに従い、且つ自動的に又はユーザの指令に応じ、画像の操作を実行する。実行される操作の例としては、まず、ディジタル静止画像に補間やエッジ強調を施すディジタル信号処理がある。次に、グレースケール、色域、白バランス等、ディスプレイ仕様に適合するよう画像を調整乃至加工する操作がある。更に、表示画像をクロッピングし、或いはその解像度又はコントラスト値を落とす等、画像データの一部が表示されないようにする操作がある。ファイル転送に関連する変形、例えばＪＰＥＧ圧縮やファイルフォーマット変更といった操作もある。そして、これ以外の種類の画像変形乃至強調を施すこと、例えばメタデータ等の非画像情報をその画像に追加又は修正することもできる。

メモリは、半導体メモリ、磁気メモリ等の物理メモリ上で提供される適当なサイズの論理ユニット（群）である。本システムでは、コンピュータ可読記録媒体等に格納されているコンピュータプログラム乃至そのユニットをそのメモリ上にロードして実行する。データを格納しうるデバイスであればその種類を問わないので、固体メモリ、磁気メモリ、光学メモリ等、既知のあらゆる種類のメモリを使用することができる。システム内固定配設型でもリムーバブル型でもよい。従って、メモリとしては、ＳＤＲＡＭ、フラッシュＥＰＲＯＭ等の内蔵型メモリデバイスの他に、ＣＦ(Compact Flash)カード、ＳＤ(Secure Digital)カード、ＰＣカード、ＭＭＣ(MultiMedia Card）等のようにソケットに差しメモリインタフェース経由でプロセッサに接続するリムーバブルメモリカードや、内蔵型ハードディスク、外付け型ハードディスクドライブ等のリムーバブルディスクも使用可能であり、更にはそれらの併用も可能である。例えば図３に示すシステムでは、ハードディスクドライブや、光ディスク、磁気ディスク等のディスク型メモリに対応しているリムーバブルディスクドライブ（図示せず）や、リムーバブルメモリカード等のリムーバブルメモリが随時装填されるメモリカードスロット（及びそのリムーバブルメモリと交信すべく搭載されているリムーバブルメモリインタフェース）を、使用することができる。更に、制御プログラム、ディジタル画像、メタデータ等の画像乃至非画像情報を記憶させるメモリとしてリモートメモリ、即ちＰＣ、コンピュータネットワーク等のディジタルシステム上に遠隔配設されているメモリも使用可能である。

入力ユニットはユーザから情報を受け取りプロセッサで利用可能な形態に変換する装置乃至トランスデューサであり、出力ユニットは人間が知覚可能な信号やコンピュータ可読な信号乃至プログラムといった形態で情報を出力する装置である。入力ユニット及び出力ユニットとして使用できる装置には多様な種類があり、ローカルに配設することもリモート配設することもできる。入力ユニット乃至出力ユニットを構成するハードウェア乃至ソフトウェアが参加する有線又は無線通信システムを、システム内に設けてもよい。

入力ユニットとしては、第１に、様々な方式のユーザインタフェースを形成するユニットがある。例えば、タッチスクリーン入力、タッチパッド入力、４ウェイスイッチ、６ウェイスイッチ、８ウェイスイッチ、スタイラス、トラックボール、ジョイスティック、音声認識、ジェスチャ認識、キーボード、リモートコントローラ等のシステムである。入力ユニットとしては、第２に、本システムが置かれている環境の状態を検知しその結果をプロセッサで利用可能な形態に変換するセンサとして機能するものがある。本件技術分野ではその種のセンサとして光センサ、音響センサ、バイオメトリックセンサ等が知られており、本システムではそれらのセンサを適宜併用することもできる。光センサとは、通常のカメラや、多スペクトラムセンサや、それらの任意の組合せのことである。音響センサは音響を捉えることが可能なセンサである。バイオメトリックセンサは、不随意的な心身反応を計測するタイプのセンサであり、音声抑揚センサ、身体運動センサ、眼球運動センサ、瞳孔散大センサ、体温センサ、ｐ４０００波センサ等がこれに該当する。

出力ユニットはディスプレイ、プリンタ、メモリライタ等の装置である。プリンタとは記録媒体上に画像を記録する装置のことであり、本システムでは既知の様々な方式のプリンタを使用することができる。例えば、原色別四色オフセット印刷をはじめとする接触方式や、シルクスクリーン方式、乾式電子写真方式、サーマル印刷方式、ドロップオンデマンドインクジェット方式、連続インクジェット方式等のプリンタである。使用できる乾式電子写真方式プリンタの例は、米国ニューヨーク州ロチェスター所在のＥａｓｔｍａｎＫｏｄａｋＣｏｍｐａｎｙにより市販されているＮｅｘＰｒｅｓｓ（登録商標）２１００である。以下の説明では記録用紙上にカラー画像を発現させるタイプのプリンタを採り上げるが、本発明の方法及び装置にとってこれは必須な事項ではなく、例えば白黒画像、グレースケール画像、セピアトーン画像等の単色画像を印刷するタイプのプリンタや、紙以外の媒体上に印刷するタイプのプリンタでも、その実施には特に支障がない。

通信システムとしては、画像等のデータをリモートメモリ、リモートディスプレイ等のリモートデバイスへと搬送可能な光信号、無線周波数信号等の信号形態へと変換する光トランスデューサ、無線周波数トランスデューサ等の回路乃至回路群や、図示しないホスト乃至サーバコンピュータ乃至ネットワーク、リモートメモリシステム乃至リモート入力装置等からディジタル画像等のデータを受信する回路乃至回路群や、その双方を有するシステム等を使用する。プロセッサ２６は、この通信システムで受信された信号から情報や指令を抽出することや、その通信システムを介し通信網に接続してリモートメモリ等と通信することができる。使用できる通信網例えば既存の遠隔通信／データ伝送網には、インターネット、セルラ、ピアトゥピア等の形態によるモバイル通信網、有線ＬＡＮ(local area network)、無線ＬＡＮ等のローカル通信網、従来からある他の種類の有線乃至無線データ伝送システム等、様々な種類がある。

そして、本システムに対する画像レコードの供給源としては、適切なディジタルデータをプロセッサに供給可能な様々な種類の（電子）回路乃至システム、例えば画像レコードを構成する画像データを撮影によって取得するカメラ等の撮像装置や、他の装置で撮影され又は調達された画像レコードを取得する装置を、使用することができる。後者の例としては、種々のドッキングステーションや、随時接続される外部ディジタル撮像乃至表示機器や、無線通信システムとの接続手段や、無線通信網との無線接続に利用できる携帯電話乃至無線ブロードバンドトランシーバや、それらの組合せ等がある。その他の例としては、ケーブル通信網に接続するためのケーブル接続手段や、衛星通信システムに接続するためのｄｉｓｈ（商標）衛星受信機や、リモートサーバ上のリモートメモリに接続するためのインターネット接続手段や、光ディスク上に記録されている画像へのアクセスに使用可能なディスクプレイヤ／レコーダがある。

次に、本発明のコンピュータ利用実施形態について説明する。これから説明する実施形態では、ディジタルカメラ等の撮像装置乃至周辺装置を１個又は複数個、またＰＣ等のコンピュータを１台又は複数台使用し、本発明に係る方法を実施可能なシステムを構成している。図３に、その種の実施形態に係るコンピュータシステム１１０を示す。本システム１１０は、図中デスクトップＰＣの本体として描かれているプロセッサ１１２や、それに接続されているディスプレイ１１４、キーボード１１６、マウス１１８等を有している。プロセッサ１１２は、プログラムを読み込み実行する等、種々の処理及び制御機能を担っている。ディスプレイ１１４は、そのプログラムの実行に伴い発生する情報のうち、ユーザに提示すべき情報を、例えばＧＵＩ(graphical user interface)を用いて表示する。キーボード１１６及びマウス１８は、そのプログラムを実行させるべく必要な情報を入力する際、ユーザが操作する装置である。例えば、マウス１１８を操作することで、本件技術分野にて周知の通り、ディスプレイ１１４の画面上でカーソル１２０を動かすことができ、またそのカーソル１２０でポイントされている項目を選択することができる。なお、便宜上、図２と図３では異なる参照符号が使用されているが、符号が違っていても名称が同じなら同様の機能を有するものと理解されたい。また、このシステム１１０は本発明の好適な実施形態に係るものである。即ち、本発明は、このシステム１１０と異なるタイプの電子情報処理システムでも実施することができる。そうしたシステムの例としては、ディジタルカメラ、カメラ付携帯電話等のモバイルデバイスに内蔵されているシステムや、ホームコンピュータシステムや、現像サービススタンド（キオスク）、現像サービス店、写真仕上げ工場等にある写真仕上げシステム等がある。ディジタル画像処理機能を有するものならどのようなシステムでもよい。

リムーバブルメモリとしては様々な形態のものを使用できるが、この図ではＣＤ−ＲＯＭ１２４、フロッピー（商標）ディスク１２６及びメモリカード１３０が例示されている。それらのうちＣＤ−ＲＯＭ１２４はＣＤ(compact disk)の形態を採るＲＯＭ(read only memory)である。例えば、プログラム等の情報が格納されているＣＤ−ＲＯＭ１２４をマイクロプロセッサベースのユニットに挿入することで、そのユニットを構成するプロセッサにプログラムやデータをロードすることができる。データの書き込み先としては、ディスク１２６、カード１３０等を含め、複数種類のリムーバブルメモリのなかから適当な種類のものを選んで使用することができる。メモリとしては、この他、有線又は無線接続を介し直接に或いはＬＡＮや広域網（インターネット等）経由でアクセス可能な外付けメモリを、利用することもできる。プロセッサ１１２をＬＡＮ、インターネット等の外部ネットワークに接続するには、電話回線、無線リンク等のネットワーク接続手段１２７を使用すればよい。そして、本件技術分野で周知の通り、プロセッサ１１２自体にプログラムを書き込んでおくこともできる。

画像データを入力する手段としては、ＣＤ−ＲＯＭ１２４、フロッピー（商標）ディスク１２６、メモリカード１３０、ネットワーク接続手段１２７、ディジタルカメラ１３４等を使用している。例えば、画像を表すディジタルデータが電子的に書き込まれているカード１３０を、プロセッサ１１２又はそれに接続されている外付け型のカードリーダ１３２に差し込むことで、その画像データをそのプロセッサ１１２に入力することができる。また、こうしてＣＤ−ＲＯＭ１２４、ディスク１２６、カード１３０等のリムーバブルメモリから或いは接続手段１２７経由で入力される画像データは、元々はディジタルカメラ、スキャナ等といった画像データ源から供給されたものである。そうした画像データ源、例えばディジタルカメラ１３４からプロセッサ１１２へと直に画像データを入力するには、そのカメラ１３４を、そのプロセッサ１１２に接続されているカメラドッキングポート１３６に接続してもよいし、接続用ケーブル１３８でプロセッサ１１２に接続してもよいし、無線伝送路１３８を経由してプロセッサ１１２に接続してもよい。ディスプレイ１１４の画面上には、入力された画像データに基づき画像を可視表示させることができる。

プロセッサ１１２には、更にプリンタ等の出力装置１２８も接続されている。これは、本システム１１０から変換処理後の画像等を得るための装置である。例えば、画像に適当な変換処理を施した上で紙等の媒体上にその画像を印刷即ちハードコピーして出力するプリンタや、そうした画像をディジタルファイルの形態で出力する装置や、それらハードコピー出力及びファイル出力の両機能を併有する装置等を、装置１２８として使用する。ファイル出力先媒体としては、パーソナルメディアプレイヤ、フラットパネルテレビジョン受像機等、様々な種類の家庭用・個人用視聴機器で再生可能な記憶ユニット、例えばＣＤ、ＤＶＤ（登録商標）等を使用する。

そして、プロセッサ１１２では、ディジタル画像に対する処理を実行する。その目的の一つは、多々ある出力装置のうちの指定された出力装置、例えばディジタル写真プリンタやソフトコピーディスプレイで印刷、表示等される画像の見栄えをよくすることである。即ち、プロセッサ１１２では、その出力装置から出力される画像がより見栄えのする画像になるよう、ディジタル画像を処理してその画像の輝度、階調スケール、構図等を総合的に調整する。なお、いわゆる当業者には自明な通り、本発明はこうした画像処理機能の子細により限縮解釈されるべきものではない。

次に、本発明のカメラ依拠実施形態について説明する。これは、図２に基づき概説したシステムをカメラ内に構築したものである。本カメラは、その筐体内又は筐体上に種々の部材を実装し、それらの部材をその筐体で構造的に支持及び保護する構成を採っている。支持乃至保護される部材の一つは電子撮像ユニットである。これは、撮像用のレンズや、そのレンズに対して位置決めされている電子式のイメージセンサアレイを備えるユニットである。電子撮像ユニットでは、イメージセンサアレイで電子的に捉えた画像に増幅、Ａ／Ｄ(analog-to-digital)変換等の処理を施し、１個又は複数個の画像レコードを生成する。

本カメラは、ユーザインタフェースを形成する入出力部材として、ユーザ（撮影者）向けに画像を表示する画像表示用ディスプレイのほか、ユーザによる情報入力のためのユーザ操作部を１個又は複数個備えている。ユーザ操作部とは、シャッタのレリース、レンズユニットによるズームイン／ズームアウト等を制御するためユーザが操作する部材のことであり、ボタン、ロッカースイッチ、ジョイスティック、ロータリダイアル、タッチスクリーン、ユーザ発音声指令認識用マイクロホン／プロセッサ、それらの組合せ等で形成されている。ユーザ発の方法を受け取る部材としては、こうしたユーザ操作部の他に、イメージセンサ、ガルバニックレスポンスセンサ、音声指令認識用マイクロホン等、ユーザの反応を捉えてその情報を暫時保存するユーザ反応追跡器を設けることができる。こうしたユーザ反応追跡器で得られた情報を、同じくそのユーザインタフェースを形成しているユーザ反応解析モジュールによって解析することによって、適切なメタデータを生成することができる。ユーザ反応追跡によるメタデータ生成については特許文献１３（発明者：Matraszek et al.）の記載を参照されたい。

本カメラは、画像表示用ディスプレイの他に情報表示用ディスプレイを１個又は複数個備えている。ユーザ（撮影者）は、情報表示用ディスプレイの画面を見ることで、露光レベル、残り撮影可能枚数、電池残量、フラッシュ状態等のカメラ状態情報を得ることができる。更に、カメラ設定等の非画像情報は、情報表示用ディスプレイに限らず画像表示用ディスプレイにも表示させることができる。例えば、画像表示用ディスプレイのＧＵＩを利用しメニューを表示させることができる。ユーザは、そのメニューに含まれるオプション、例えば撮影済画像閲覧モードについてのオプションのなかから、任意のものを選択することができる。更に、画像表示用ディスプレイと類似乃至共通する機能を有するディジタルビューファインダディスプレイ（図示せず）を設けることもできる。ディジタルビューファインダディスプレイか画像表示用ディスプレイの一方で足りるなら他方を省略してもよい。以上のほか、ユーザインタフェースを形成する部材としては、音声入力用のマイクロホンや音声出力用のスピーカ（いずれも図示せず）等を設けることができる。

本カメラは、外光条件等の環境条件を調べてシャッタ速度、絞り設定等の光景パラメタを決定する機能を有している。環境条件はイメージャ等のセンサで調べることができる。画像表示用ディスプレイの画面上には、その設定下で得られた光像をユーザ向け表示画像として発現させることができる。

本カメラは、露光制御要素等のカメラ構成部材を制御乃至調整し、画像や信号の伝送を司り、またその画像に関わる処理を実行するプロセッサを備えている。このプロセッサは、システムコントローラ、タイミング発生器、アナログ信号プロセッサ、Ａ／Ｄコンバータ、ディジタル信号プロセッサ、専用メモリ等の部材を内蔵又は随伴しており、先に説明したプロセッサと同じく、単体のデバイスとして構成することも複数のデバイスで形成することも可能である。例えば、データ操作用及び一般プログラム実行用のＲＡＭを有する内蔵型マイクロプロセッサ等、相応の構成を有するマイクロプロセッサを、このカメラのプロセッサとして用いるとよい。プロセッサは、所与のプログラムを実行することによって、自分につながっている種々のユーザインタフェース形成部材を稼働させ、またドライバ、メモリ等の部材も稼働させる。カメラを構成する種々の電子部品の動作タイミングは、タイミング発生器からの制御信号に従い揃えることができる。

そして、本カメラは、撮影で得られた画像データについての補足的な情報を取得する手段を備えている。具体的には、方向／姿勢センサや、リアルタイムクロックや、ＧＰＳ(global positioning system)受信機や、ユーザによる表題等の情報入力に使用できるキーパッド等の入力装置である。

加えて、本発明の諸実施形態に係る方法及び装置では、上記以外のソフトウェア乃至ハードウェアも使用する。特に、データ検知／整理用のソフトウェア／ハードウェアである。例えば、顔検知、肌検知、人物検知等の被写体検知を行えるソフトウェア／ハードウェアは、バースデイパーティの写真に写っているバースデイケーキを検知する等、画像に写っている光景の解釈や、医用画像に写っている特定の身体部分を調べる等、画像の精査に使用することができる。

なお、本願に記載されているどの回路もいわゆる当業者にとり周知の様々な手法に従い変形可能であることや、本願中で実体のある回路として説明されているどの部材もファームウェア、ソフトウェア或いはその組合せに置換可能であること等を、ご理解頂きたい。本願中で互いに別体のユニットとして構成されている部材を全体的又は部分的に一体化させることや、種々の部材を互いに別々の場所に分散して配置することもできる。

また、画像ファイルを自動パターン分類に供する際に、本発明では、ルールベースシステム、意味知識ネットワーク、フレームベース知識システム、ニューラルネットワーク、ファジー論理ベースシステム、遺伝的アルゴリズム機構、ヒューリスティックベースシステム、その任意の組合せ等の技術を使用することができる。但し、特に明示のない限り、自動パターン分類にどのような手法を用いるかに関して本発明を限縮解釈すべきでないことを、ご理解頂きたい。

更に、本願におけるディジタル画像は、複数個の画素を行列配置した二次元画素アレイとして捉えることができる。個々の画素はそれぞれある物理的空間に対応しており、その画素値は撮像装置がその空間から受光した光量に相応している。複数のチャネルを有する画像、例えばレッド、グリーン及びブルーの各色成分（チャネル）からなるカラー画像の場合は、そのチャネル毎に二次元画素アレイが形成される。動画は、一群のディジタル画像のシーケンスで表現することができる。但し、いわゆる当業者にはご理解頂けるように、本発明は、どのような用途に係るディジタル画像乃至チャネルにも適用することができる。例えば、本願では画素群を二次元アレイ状に行列配置したもので説明を行っているが、本発明は非矩形画素アレイに対しても遜色無しに適用することができる。

また、念のために述べると、本発明は、ソフトウェアでも、ハードウェアでも、その組合せでも、実施することができる。装置間の物理的な接続形態の如何や、諸装置の配設場所の異同には影響されない。例えば、図２及び図３に示した諸装置のうち１個又は複数個を他の装置とは別の場所に配置しネットワーク経由で接続するようにしてもよい。部材間の接続を無線接続、例えば直接の又はネットワーク経由での無線周波数リンクによる接続にしてもよい。

更に、本発明は様々な利用環境及び設備で採用することができる。その例としては、写真仕上げ工場、現像サービス店、家庭内のデスクトップコンピュータ、職場にあるコンピュータ、現像サービススタンド、モバイルデバイス、（インターネットや携帯電話通信網等を介し接続できる）ネットワーク上のサービスサイト等がある。

そして、表示機能のある可搬型の装置、例えばＤＶＤ（登録商標）プレイヤ、ＰＤＡ(personal digital assistant)、カメラ、携帯電話等の装置で本発明を実施するには、いわゆる当業者にとり自明な諸部材乃至機能の他に、本発明を実施するのに必要な部材乃至機能をその装置に設ければよい。また、本願でいうカメラとはスチルカメラやビデオカメラのことである。ご理解頂けるように、スチルカメラには、静止画撮影専用のカメラのほか、静止画動画両用のカメラや静止画撮影機能を備えた他種装置も含まれ、ビデオカメラには、動画撮影専用のカメラのほか、静止画動画両用のカメラや動画撮影機能を備えた他種装置も含まれる。これもまたご理解頂けるように、そのカメラに他の様々な部材乃至機能を持たせることもできる。例えば着脱可能なレンズや複数個の撮像ユニット等であるが、本願ではこれらについて詳細には説明しないこととする。携帯型のカメラでも固定配設型のカメラでも使用できる。本願で説明していない機能を備えるものであってもよい。撮影に関係ない機能を備えていてもよい。カメラ付携帯電話等、カメラ機能と通信機能を併有する装置であってももよい。ポータブルコンピュータや、ポータブルな装置といえない編集スタジオ、フォトサービススタンド等のシステムでもよい。

加えて、本発明は、その利用環境を問わずスタンドアローン的な形態でも大規模システム構成要素の形態でも実施することができる。更に、入力乃至スキャン、ディジタル処理、ユーザ向け表示、随時行われるユーザからのリクエスト乃至処理指令の入力、それに対する出力等といった対人インタフェース機能を、単一の装置に兼ねさせてもよいし複数の装置に分担させてもよい。当該複数の装置を一個所にまとめて配置してもよいし様々な場所に分散して配置してもよい。装置間乃至場所間での通信は、公衆又は専用ネットワーク接続を介して、或いは媒体の引渡で行えばよい。本発明の趣旨に反しない限り、本発明に係る方法は、全自動的な形態でも、部分的に又は全面的にマニュアルでのユーザ入力を受ける形態でも、ユーザ乃至オペレータが閲覧して処理結果を認否する形態でも、或いはメタデータで補足される形態でも、実施することができる。そのメタデータは、ユーザから供給されるものでも、カメラ等の計測装置から供給されるものでも、或いはアルゴリズム的に生成されるものでもよい。更に、諸アルゴリズムとユーザとのやりとりは様々な方式の作業用ユーザインタフェースで行うことができる。

図１に、本発明の一実施形態に係る手順を示す。この手順では、諸画像レコードをまず時空間情報に基づき複数のグループに分類する（ステップ１０）。例えば、それらの画像レコードをイベント別に仕分け（ステップ１２）、その結果を更にそのイベントのサブイベント別に仕分ける（ステップ１４）ことで、サブイベント別のグループを生成する。イベントとは個々の出来事のことであり、サブイベントとはそれを細分したもののことである。但し、出来事等に関するユーザの主観的な認識そのものではなく、それとできるだけ整合するようコンピュータ上の処理で設定した客観的な分類乃至範疇のことである。この手順では、次いで、各グループの画像レコードを一群のクラスタに振り分ける（ステップ１６）。即ち、ある種の階層構造を形成している複数個の有特徴クラスタ及び１個の残り物クラスタのうちいずれかへと、ある所定の突出特徴に基づき画像レコードを振り分ける。有特徴クラスタに振り分けられるのは、それらの突出特徴のうちそのクラスタに対応する１個又は複数個の突出特徴を備える画像レコードであり、残り物クラスタに振り分けられるのは、それら所定の突出特徴のいずれも備えていない画像レコードである。階層構造上で比較的上位の有特徴クラスタに係る突出特徴を備えている画像レコードは当該比較的上位の有特徴クラスタに振り分けられるので、各有特徴クラスタに振り分けられるのは、その有特徴クラスタに係る突出特徴を備える画像レコード（その有特徴クラスタより階層構造上で下位の有特徴クラスタに係る突出特徴を備えているものでもよい）のうち、その有特徴クラスタより上位の有特徴クラスタに係る突出特徴を備えていないもののみである。更に、本願では、個々の有特徴クラスタに係る突出特徴のうち、階層構造におけるそのクラスタの順位を決定づけるある１個の突出特徴のことをそのクラスタの一次(primary)突出特徴と呼んでおり、それ以外の諸突出特徴のことをそのクラスタの二次(secondary)突出特徴と呼んでいる。

その一次突出特徴としては、同じグループを形成しているクラスタ間で互いに異なるものを使用する。後に各グループの代表画像を好適に選定することができるよう、クラスタの個数は４個以上にした方がよい。但し、個々のグループ内に実際に生じるクラスタの個数は上掲の振分処理にて決まり、またそのグループに属する画像レコードの個数によって左右される。従って、個々のグループ内には、最も多い場合は、突出特徴毎にその突出特徴に係る有特徴クラスタが生じ、更に残り物クラスタが生じる。逆に、最も少ない場合は、有特徴クラスタのうち１個か、残り物クラスタが生じるのみ、即ち１個のクラスタが生じるのみである。

クラスタへの振分が済んだら、グループ毎に、そのグループで生じたクラスタのうち最上位階層のものを最上位クラスタとして認定し（ステップ１８）、更にそのグループの代表画像を選定する（ステップ２０）。その際、最上位クラスタが有特徴クラスタであるグループについては、その最上位クラスタに係る一次突出特徴に基づきそのグループの代表画像を選定する。最上位クラスタが残り物クラスタであるグループについては、予め複数種類定められている突出特徴のいずれとも無関係に、そのグループの代表画像を選定する。

図４に、一群の画像レコードとイベント及びサブイベントとの関係を示す。この図では、矢印線３００に沿い撮影日時順に一群の画像レコードを並べてある。それらの画像レコードには、イベント３１０に属するものとイベント３２０に属するものとがある。イベント３１０はサブイベント３３０、３４０及び３５０を含んでおり、イベント３２０はサブイベント３６０、３７０及び３８０を含んでいる。このように、一群の画像レコードをイベント別に仕分け、その結果を更にそのイベントのサブイベント別に仕分けてサブイベント別のグループを形成することができる（ステップ１４）。更に、時空間情報に基づくこうしたイベント別・サブイベント別のグループ分類には、既に知られている様々なイベント別分類法を使用することができる。例えば特許文献３（発明者：A.Loui and E.Pavie、名称：イベント別画像自動分類方法（原題A Method for Automatically Classifying Images into Events）、発行日：２００３年８月１２日）及び特許文献２（発明者：A.Loui and E.Pavie、名称：イベント別分類対象画像コンテンツ自動比較方法（原題A Method for Automatically Comparing Content of Images for Classification into Events）、発行日：２００２年２月２６日）には、イベント毎及びサブイベント毎に画像コンテンツを分類するアルゴリズムが記載されている。特許文献１６（発明者：B.Kraus and A.Loui、名称：イベント別多段画像分類（原題Multi-Tiered Image Clustering by Event）、発行日：２００６年５月１８日）及び特許文献１７（発明者：A.Loui and B.Kraus、名称：分散ベースイベント別分類（原題Variance-Based Event Clustering）、発行日：２００６年１月１５日）には、イベント別に画像を自動分類する手法が記載されている。特許文献９（発明者：A.Loui,M.Jeanson and Z.Sun、名称：前景背景セグメント化によるイベント別画像分類（原題Event Clustering of Images Using Foreground and Background Segmentation）、発行日２００５年７月５日）には、イベント別に画像を自動整頓する手法が記載されている。どういった手法を用い時空間情報による分類を行うかは、個々の手法の長所に基づき決めればよい。対象となる画像群の性質から見て好都合なものを選んでもよい。

図５に、クラスタへの振分手法の一例を示す。この図の手法では、各グループの画像レコードを有特徴クラスタと無特徴(non-feature)クラスタとに振り分ける二分岐クラスタリング(two-way clustering)を何回か繰返して実行している。即ち、この手法では、個々の有特徴クラスタに突出特徴を１個ずつ関連付けた上で、“その有特徴クラスタに係る突出特徴を備えている画像レコードはその有特徴クラスタに振り分け、備えていない画像レコードは無特徴クラスタに振り分ける”という二分岐クラスタリングを、調べる突出特徴を変えて繰返し実行している。具体的には、ステップ１４におけるサブイベント別グループの生成を待ち（ステップ１３）、生成されたら次の手順で個々のグループを処理する（ステップ１５）。この処理では、まず、そのサブイベントに係る全ての画像レコードを対象に第１回二分岐クラスタリングを実行する。このクラスタリングでは、それらの画像レコードが第１突出特徴を備えているか否かを判別し（ステップ１６Ａ）、備えているとされた画像レコードを階層構造上で最上位のクラスタ１０１に振り分け、残りを無特徴クラスタに振り分ける。次いで、この第１回二分岐クラスタリングで無特徴クラスタに振り分けられた画像レコードを対象に第２回二分岐クラスタリングを実行する。このクラスタリングでは、それらの画像レコードが第２突出特徴を備えているか否かを判別し（ステップ１６Ｂ）、備えているとされた画像レコードを階層構造上で第２位のクラスタ１０２に振り分け、残りを無特徴クラスタに振り分ける。更に、この第２回二分岐クラスタリングで無特徴クラスタに振り分けられた画像レコードを対象に第３回二分岐クラスタリングを実行する。このクラスタリングでは、それらの画像レコードが第３突出特徴を備えているか否かを判別し（ステップ１６Ｃ）、備えているとされた画像レコードを階層構造上で第３位のクラスタ１０３に振り分け、残りを無特徴クラスタに振り分ける。二分岐クラスタリングの回数、ひいては突出特徴の個数及びその階層構造上のクラスタ数は更に増やしてもよい。最終回の二分岐クラスタリングまでにいずれの有特徴クラスタにも振り分けられず無特徴クラスタに残った画像レコードは残り物クラスタ１０４に振り分けられる。以上の処理を全てのサブイベントについて実行し終えたら（ステップ１９）ステップ１８に移行する（ステップ２１）。

この手順で突出特徴として使用するのは、ユーザにとり何らかの意味がある特徴である。そうした特徴を使用し上掲の手順を実行することにより、ユーザ自身が画像を整頓する際の分け方に対応するよう、複数個のクラスタからなる階層構造を生成することができる。多くのユーザが重宝するであろう主要な突出特徴としては、人物の存否、顔の存否、主被写体の存否、主被写体のカラフル度、主被写体の中心度、重複する画像レコードの存否、画像の利用回数（電子メール添付、印刷、閲覧等の回数）等がある。

例えば、第１回二分岐クラスタリングを顔指標、第２回二分岐クラスタリングを主被写体指標、そして第３回二分岐クラスタリングを重複画像レコード指標に基づき実行するようにすれば、好適にも、ユーザにとって重要度の高いことが多い特徴に基づき代表画像を選定することができる。しかも、全ての画像レコードについてその細かな意味を調べること、例えば主被写体の主題を識別することが不要になる。また、顔指標としては画像における顔の存否、主被写体指標としては画像における主被写体の存否、重複画像レコード指標としては重複する画像レコードの存否を使用ことができる。それらの指標に基づく二分岐クラスタリングは、それらの指標の値をその指標に対応する所定のしきい値と比較する動作、例えばしきい値超過判別を行いその結果に基づき行えばよい。更に、検知した顔が所定のリストに掲載されている特定の人物の顔か否かを識別する顔認識処理を実行すれば、どのような画像レコードが代表画像として選定されるかをユーザの好みに応じ調整することや、ある特定の人物のものを代表画像に選定されやすくすることができる。

それらのうち人間の「顔」は、本件技術分野で既知の顔検知手法に則り画像から検知することができる。例えば特許文献１５（発明者：S.Chen,H.Nicponski and L.Ray、名称：ディジタル画像内顔検知方法及びシステム（原題Method and System for Face Detection in Digital Images）、発行日：２００４年９月１６日）、特許文献１０（発明者：F.Lestideau、名称：複雑な背景を伴うカラー画像における顔検知（原題Face Detection in Color Images with Complex Background）、発行日：２００６年４月２５日）、特許文献５（発明者：E.Ho and J.Lennon、名称：ディジタル画像内顔検知（原題Face Detection in Digital Images）、発行日：２００３年１２月９日）等に記載の手法である。こうした顔検知では、その画像におけるその顔の位置やその画像に占める顔の大きさを求めることができる。本件技術分野で既知の人物検知法、例えば特許文献６（発明者：J.Luo、名称：ディジタル画像内人物画像検知用画像処理方法（原題Image Processing Method for Detecting Human Figures in a Digital Image）、発行日：２００４年２月１７日）に記載の手法で人物やその集まりを検知するようにしてもよい。

顔認識は顔検知と共に又はそれに続き行えばよい。顔認識は、画像レコードに含まれる個々の顔に識別子を割り当てる処理、並びに画像に写っている人間の顔をその識別子に基づき人物別に分類する処理からなる自動処理によって、実行することができる。その前半の識別子割当には、例えば非特許文献１に記載の能動形状モデルベース顔面特徴点ファインダ法を使用できる。後半の人物別顔分類には、米国特許出願第１０／１４３，２７２号（発明者：Chen et al.、名称：人面含有画像整頓再生方法及び装置（原題Method and Apparatus for Organizing and Retrieving Images Containing Human Faces）、出願日：２００２年５月１０日、この参照を以て本願に繰入）に記載の顔類似度別分類法を使用できる。その際、全面的な顔認識処理を全画像レコードについて行う必要はない。例えば、ある画像レコードにある人物の顔が写っているなら、その画像レコードと同じグループに属する他の画像レコード、即ち同じサブイベントで撮影された他の画像レコードにも、その人物の顔が写っている蓋然性が高いといえよう。従って、あるグループに属するある画像レコードからある人物の顔が認識された場合、そのグループに属する他の画像レコードに対しては、同じやり方で顔認識を行ってもよいけれども、それを一部変形したやり方、即ち顔面特徴点、着衣等といた特徴点が完全には共通していなくても先の画像で認識した顔と同じ人物の顔と認識されるようなやり方で、顔認識を行うことができる。

顔指標としては、この他にも、グループ内画像のクラスタ間振分に適するものであれば様々な種類のものを使用することができる。クラスタ間振分に使用する指標としてどのような指標が適切か、またそのしきい値としてどのような値が適切かについては、他の指標に基づくクラスタ間振分と同様に、ユーザ画像その他の画像からなるグループに対する評価結果から見出すことができる。例えば、その画像群に属する画像中で顔を含む画像が占める比率の計算値を顔指標として用い、その比率がある所定のしきい値を上回っている場合にその群に属する画像を丸ごと人物指向クラスタに振り分けるようにしてもよい。そのしきい値としては、予め設定されている値を使用してもよいし、ユーザが随時設定する値を使用してもよい。例えばしきい値＝５０％にすれば、顔を含む画像が多数を占める画像群が人物指向クラスタに振り分けられることとなる。

次に、「主被写体」とは写真等の分野でいう主被写体のことである。即ち、撮影した画像で光景の一部を構成していて、その光景の残りの部分（背景）から何らかの手段で弁別できる１個又は風数個の事物のことである。主被写体を背景から弁別する手段としては、まず遠近法を使用することができる。例えば、消失点への収束具合（線遠近法）、重複関係、視界深さ、照明／色キュー等や、状況によっては運動遠近法、運動視差等を、遠近法に基づく弁別に使用できる。更に、主被写体を背景から弁別する手段として、距離情報を利用できる場合もある。例えば、メタデータの一部を構成しているカメラレンジファインダデータや、スキャナレスレンジ撮像でもたらされる画素別のレンジデータである。

主被写体の存否は、様々な手法で検知することができる。例えば、メタデータの一部を構成し又はその基となっている撮影時のカメラレンジファインダデータや、自動ズーム／クロップ処理でもたらされるデータを、その検知に利用することができる。例えば、サブイベント別に分類されている個々の画像レコードに対して自動ズーム／クロップ処理を施す際には、特許文献１（発明者：J.Luo,S.Etz and A.Singhal、名称：写真画像内主被写体自動判別方法（原題Method for Automatic Determination of Main Subjects in Photographic Images）、発行日；２００１年８月２８日）、特許文献１１（発明者：J.Luo and A.Singhal、名称：画像内被写体領域検知方法（原題Method for Detecting Subject Matter Regions in Images）、発行日；２００６年６月１３日）等に記載のアルゴリズムに従い画像中の主被写体を自動識別し、次に、その主被写体識別結果に基づき且つ特許文献４（発明者：J.Luo and R.Gray、名称：クロッピング版及びズーミング版写真画像自動生成方法（原題Method for Automatically Creating Cropped and Zoomed Versions of Photographic Images）、発行日；２００３年１１月１１日）等に記載のアルゴリズムに従いその画像をズーム／クロップする。更に、こうしたズーム／クロップ処理でもたらされる様々な種類のデータのうち、例えばズーム率やクロップ部分面積といったデータを用い、或いはそうしたデータから別の数値例えばクロッピングされた部分が画像全体に占める面積比（クロップ部分比率）を求め、主被写体の存否を客観的に判別する。例えば、そのグループに属する個々の画像レコードについてクロップ部分比率を算出し、予め定めてある一対のしきい値にそのクロップ部分比率を照らすことで、その画像における主被写体の存否を判別することができる。使用するしきい値のうち一方はクロップ部分比率の下限についてのしきい値、他方は上限についてのしきい値である。クロップ部分比率が下限しきい値未満の場合、即ちクロップ部分が画像全体に比して狭すぎる場合や、クロップ部分比率が上限しきい値超の場合、即ちクロップ部分が画像全体に比して広すぎる場合は、そのクロップ部分については主被写体でないと判別する。これは、狭すぎ又は広すぎるクロップ部分は背景とあまり違いがないからである。また、ある実施形態について調べたところ、上限しきい値としては０．８０（＝８０％）、下限しきい値としては０．２０（＝２０％）が適しているとの結果が得られた。

クラスタ間振分用の主被写体指標としては、他にも様々な種類のものを使用することができる。例えば、主被写体が写っている画像レコードがその所属先グループ内でどういった個数比率を占めるかを算出し、算出した比率が所定のしきい値を上回っていたらそのグループに属する画像を丸ごと被写体指向クラスタに振り分けるようにしてもよい。その際使用するしきい値としては、ユーザが指定する値を使用してもよいし、５０％超の適当な値を予め設定しておいてもよい。

更に、主被写体の識別は他種計測値の導出時にも行われうる。例えば、主被写体のカラフル度、主被写体の中心度等を算出する際である。そうした値を算出するには、例えば特許文献１（発明者：Luo et al.）及び特許文献１２（発明者：N.Cahill and L.Ray、名称：クロッピング版画像生成用画像合成方法及びシステム（原題Method and System for Compositing Images to Produce a Cropped Image）、この参照を以て本願に繰入）に記載の手法を用いればよい。

そして、個々のグループにおける「重複画像レコード」の存否は、互いに全く又はほぼ同一のコンテンツ及び構図を呈しており、且つ互いに全く又はほぼ同一の角度及び距離から撮影されている画像レコードを、そのグループ内で探すことによって判別することができる。例えば特許文献２（発明者：A.Loui and E.Pavie、名称：イベント別分類用画像コンテンツ自動比較方法（原題A Method for Automaticall Comparing Content of Images for Classification into Events）、この参照を以て本願に繰入）に記載の手法では、画像毎にブロックベース色ヒストグラムを算出し、更にそれらのヒストグラムを他の画像と比較することによって類似度スコアを求めている。この手法を、同一グループ内のあらゆる画像レコード対に適用して類似度スコアを求め、予め定められているしきい値より大きな高い類似度スコアを呈する画像レコード対を探し、その画像レコード対を形成している各画像レコードを重複画像レコードと判別すればよい。類似度スコアを特許文献２に従い算出する場合、そのしきい値としては例えば９０％を使用すればよい。

こうして１個又は複数個の有特徴クラスタを含むグループが形成されたら、それらのグループそれぞれについて、そのグループの最上位クラスタに係る一次突出特徴に基づき、そのグループの代表画像を選定する。この選定は、一組の所定ルールに従い判別する、というやり方で行えばよい。使用するルールは、例えば、顔等のように最も重要な突出特徴に係るクラスタの画像をまず使用し、次いでその次に重要な別の突出特徴に係るクラスタの画像を使用し、というように、突出特徴の重要度順にクラスタを採用するものである。個々の用途で個々の突出特徴がどの程度重要かは、例えばユーザによる試行等を通じ見出すようにすればよい。

図６に、最上位クラスタ認定手法及び代表画像選定手法の一例を示す。この例では、その最上位クラスタが有特徴クラスタであるグループについてはその最上位クラスタに係る突出特徴に基づき、またその最上位クラスタが残り物クラスタであるグループについてはどの突出特徴とも無関係に、そのグループの代表画像を選定するようにしている。具体的には、ステップ１６におけるクラスタ間振分を待ち（ステップ１７）、振分が済んだら個々のサブイベント別グループを次の手順で調べる（ステップ１５）。この手順では、まず、そのサブイベント別グループ内に実際に生じているクラスタのなかで最上位階層のクラスタはどれかを調べる。図示例は、顔の存否、主被写体の存否、重複する画像レコードの存否の順に判別を行うことでサブイベント別グループ内の画像レコードを三種類の有特徴クラスタに振り分け、そのグループ内の残りの画像レコードを残り物クラスタに振り分ける処理（図５）に続き実行される処理であるので、そのサブイベント別グループ内に実際に生じているクラスタのなかで、顔の存否に係るクラスタが最上位階層なら（ステップ１８Ａ）そのクラスタ即ち人物指向クラスタをそのグループの最上位クラスタと認定し、主被写体の存否に係るクラスタが最上位階層なら（ステップ１８Ｂ）そのクラスタ即ち被写体指向クラスタをそのグループの最上位クラスタと認定し、重複する画像レコードの存否に係るクラスタが最上位階層なら（ステップ１８Ｃ）そのクラスタ即ちテーマ指向クラスタをそのグループの最上位クラスタと認定し、いずれにも該当しない場合は残り物クラスタが最上位クラスタであると認定している。図５におけるクラスタ間振分の順序と図６における最上位クラスタ認定の順序は同じであるので、いわゆる当業者には自明な通り、クラスタ間振分及び最上位クラスタ認定がサブイベント毎に一括実行されるよう、図５に示した手順と図６に示す手順とを合体させることも可能である。例えば、ステップ１６Ａの後ステップ１８Ａ、ステップ１６Ｂの後ステップ１８Ｂ、ステップ１６Ｃの後ステップ１８Ｃを実行し、残り物クラスタ１０４について認定ステップ２０Ｄを実行するようにすればよい。

クラスタ間振分で生じたクラスタのなかで顔の存否に係るクラスタがグループ内最上位クラスタである場合、そのグループの代表画像は、当該最上位クラスタに属する個々の画像レコード中の顔面積を評価し、顔面積が最大の画像レコードのうち１個、例えば顔面積が最大の画像レコードのうちその画質（鮮明さやコントラスト）が所定の条件を満たすものを選ぶことで、選定することができる。或いは、当該最上位クラスタに属する個々の画像レコードに含まれる顔を認識し、誰の顔か認識できた画像レコードのうち１個を選ぶことでも選定することができる。これらのやり方を組み合わせること、例えば画像レコードのうち誰の顔か認識できた顔の顔面積が最大でその画質が所定の条件を満たすものを代表画像に選定するようにすることも可能である。

クラスタ間振分で生じたクラスタのなかで主被写体の存否に係るクラスタがグループ内最上位クラスタである場合、そのグループの代表画像は、当該最上位クラスタに属する個々の画像レコードにおける主被写体相対サイズを算出し、主被写体相対サイズが中庸な画像レコードのうち１個を選ぶことで、選定することができる。その“中庸”な画像レコードは、例えばその最上位クラスタに属する画像レコードのうちその主被写体相対サイズが画像レコード間の平均値又はメディアン値に最も近い画像レコードを選ぶ、というように、所定のルールに従い選べばよい。また、“中庸”ではなく“最大”の主被写体相対サイズを有する画像レコードを画像を選ぶようにしてもよい。このやり方で選定される代表画像は、携帯電話の表示画面等のように画面が小さな装置に表示させるのに適している。或いは、主被写体エリアの画質に基づき選別、選定してもよい。

クラスタ間振分で生じたクラスタのなかで重複画像レコードの存否に係るクラスタがグループ内最上位クラスタである場合、そのグループの代表画像は、当該最上位クラスタから互いに重複する複数個の画像レコードの組を１個又は複数個識別し、いずれかの組に係る重複画像レコードのうち１個、例えば最多個数の重複レコードを含む組に係る重複画像レコードのうち１個を選ぶことで、選定することができる。重複レコードを選別する際には、鮮明さ、コントラスト等の画質を計測し、得られた値が所定の条件を満たすものを選んでもよい。

クラスタ間振分で生じたクラスタのなかで残り物クラスタがグループ内最上位クラスタである場合、そのグループの代表画像は、そのクラスタ内で時空間的に又は時間的に中庸な１個又は複数個の画像レコードから１個を選ぶことで、選定することができる。このやり方を採ることで、イベントの始まり頃又は終わり頃の画像、即ち過渡的なコンテンツになりがちな画像が代表画像になることを、回避することができる。

イベント及びそのサブイベントがそれぞれ複数ある場合は、まず各サブイベントの代表画像を選定し、それらサブイベントの代表画像のなかからその所属先イベントの代表画像を選定するようにするとよい。例えば、各イベントのサブイベントのなかからそのサブイベントに関わる画像レコードが最も多いものを探し、探し当てたサブイベントの代表画像を以て、そのサブイベントが属するイベントの代表画像に任ずるようにする。このようにすると、好適なことに、そのイベントでの画像撮影枚数から見てそのユーザにとり最も肝要そうなサブイベントから、そのイベントの代表画像が選定されることが多くなる。また、最も高い画質を呈する画像が属するグループから、対応するサブイベント乃至グループの代表画像を選定するようにしてもよい。或いは、最も多数の顔を検知できた画像が属するグループや、ユーザが知っている人物の顔を最も多く認識できた画像が属するグループから、対応するサブイベント乃至グループの代表画像を選定するようにしてもよい。

選定された代表画像は、平易な索引若しくは要約として使用することができる。場合によっては、ＤＶＤ（登録商標）等のディジタル媒体におけるチャプタアイコンのように、階層構造化して提示することもできる。代表画像は、修正せずに使用してもよいし、画像サイズ修正、画質拡張等の修正を施して使用してもよい。例えば、その表示画面のサイズが小さいハンドヘルドデバイス等で使用する場合、顔又は主被写体が写っている画像領域が残るよう、代表画像を適切な規模へとクロッピングするとよい。

Claims

撮影により得られた１個又は複数個のディジタル画像をそれぞれ含む画像レコードの集まりである画像レコード群について、コンピュータを利用しその画像レコード群の代表画像を求める方法であって、
それらの画像レコードを時空間情報に基づき複数のグループに分類する分類ステップと、
その画像レコードが階層構造上で比較的上位の有特徴クラスタに係る一種類又は複数種類の所定の突出特徴のうちいずれかを有している場合は当該比較的上位の有特徴クラスタに、また当該比較的上位の有特徴クラスタに係る突出特徴は有していないが階層構造上でより下位の有特徴クラスタに係る一種類又は複数種類の所定の突出特徴のうちいずれかを有している場合は当該より下位の有特徴クラスタに、そしてそれら複数個の有特徴クラスタに係る都合複数種類の突出特徴をいずれも有していない場合は残り物クラスタに、という要領で、各グループの画像レコードを、その突出特徴に基づき、有特徴クラスタ複数個及び残り物クラスタからなり階層構造を形成する一群のクラスタに振り分ける振分ステップと、
グループ毎に、そのグループに存するクラスタのなかで最上位階層のクラスタを以てそのグループの最上位クラスタと認定する認定ステップと、
そのグループの最上位クラスタが有特徴クラスタである場合はその最上位クラスタに係る突出特徴に基づき、またそのグループの最上位クラスタが残り物クラスタである場合は上記突出特徴のいずれとも無関係に、各グループの代表画像をそのグループを構成する画像レコードのなかから選定する選定ステップと、
を有する方法。
請求項１記載の方法であって、上記振分ステップが、各グループの画像レコードを有特徴クラスタと無特徴クラスタに振り分ける二分岐クラスタリングを繰返し実行するステップを含み、最終回の無特徴クラスタを以て残り物クラスタとする方法。
請求項１記載の方法であって、その最上位クラスタが残り物クラスタであるグループについて、上記選定ステップにて、そのクラスタ内で時空間的に中庸な１個又は複数個の画像レコードからそのグループの代表画像を選定する方法。
請求項１記載の方法であって、上記分類ステップが、画像レコードをイベント別に仕分け、その結果を更にそのイベントのサブイベント別に仕分ける仕訳ステップを含み、それによってサブイベント別のグループを形成する方法。
請求項４記載の方法であって、上記選定ステップが、サブイベント別に代表画像を選定するステップと、それらの代表画像のなかからイベント別に代表画像を選定するステップと、を含む方法。
請求項４記載の方法であって、上記選定ステップが、
各イベントのサブイベントのなかからそのサブイベントに関わる画像レコードが最も多いものを探すステップと、
探し当てたサブイベントの代表画像を以てそのサブイベントが属するイベントの代表画像に任ずるステップと、
を含む方法。
請求項４記載の方法であって、上記突出特徴として、人物の存否、顔の存否、主被写体の存否、主被写体のカラフル度、主被写体の中心度、重複する画像レコードの存否、並びに画像利用情報のうち少なくともいずれかを使用する方法。
請求項４記載の方法であって、上記仕訳ステップが、
（ａ）各サブイベントの画像レコードを顔指標に基づき第１有特徴クラスタと第１無特徴クラスタに振り分けるステップと、
（ｂ）その第１無特徴クラスタに画像レコードが１個又は複数個含まれる場合に、それらの画像レコードを主被写体指標に基づき第２有特徴クラスタと第２無特徴クラスタに振り分けるステップと、
（ｃ）その第２無特徴クラスタに画像レコードが１個又は複数個含まれる場合に、それらの画像レコードを重複画像レコード指標に基づき第３有特徴クラスタと残り物クラスタに振り分けるステップと、
を含む方法。
請求項８記載の方法であって、顔の存否という突出特徴を顔指標、主被写体の存否という突出特徴を主被写体指標、そして重複する画像レコードの存否という突出特徴を重複画像レコード指標として用い、且つその指標が対応する所定のしきい値を上回る値か否かを判別することによってその指標に基づく上記振分を行う方法。
請求項９記載の方法であって、その最上位クラスタが第１有特徴クラスタであるグループについて、上記選定ステップにて、
その最上位クラスタに属する個々の画像レコード中の顔面積を評価し、
その顔面積が最大の画像レコードのうち１個を代表画像に選定する方法。
請求項１０記載の方法であって、その最上位クラスタが第１有特徴クラスタであるグループについて、上記選定ステップにて、
その最上位クラスタに属する画像レコード中の顔を認識し、
顔が１個以上写っている画像レコードのうち１個を代表画像に選定する方法。
請求項１１記載の方法であって、その最上位クラスタが第２有特徴クラスタであるグループについて、上記選定ステップにて、
その最上位クラスタに属する個々の画像レコードにおける主被写体相対サイズを判別し、
主被写体相対サイズが中庸な画像レコードのうち１個を代表画像に選定する方法。
請求項１２記載の方法であって、代表画像の選定に当たり各画像レコードの画質を勘案する方法。
請求項１２記載の方法であって、その最上位クラスタが第３有特徴クラスタであるグループについて、上記選定ステップにて、
その最上位クラスタから互いに重複する複数個の画像レコードの組を１個又は複数個識別し、
いずれかの組に係る重複画像レコードのうち１個を代表画像に選定する方法。
請求項１４記載の方法であって、そのサブイベントに係る重複画像レコードの組のうち最多個数の画像レコードを含む組に係る重複画像レコードのうち１個を代表画像に選定する方法。
請求項１４記載の方法であって、その最上位クラスタが残り物クラスタであるクラスタについて、上記選定ステップにて、
その最上位クラスタ中で時空間的に中庸な１個又は複数個の画像レコードを判別し、
それら時空間的に中庸な画像レコードのうち１個を代表画像に選定する方法。
撮影により得られた１個又は複数個のディジタル画像をそれぞれ含む画像レコードの集まりである画像レコード群について、その代表画像を求めるコンピュータプログラムを、コンピュータ可読記録媒体上に記録した製造物であって、そのコンピュータプログラムを実行することにより、
それらの画像レコードを時空間情報に基づき複数のグループに分類する分類ステップと、
その画像レコードが階層構造上で比較的上位の有特徴クラスタに係る一次突出特徴を有している場合は当該比較的上位の有特徴クラスタに、また当該比較的上位の有特徴クラスタに係る一次突出特徴は有していないが階層構造上でより下位の有特徴クラスタに係る一次突出特徴を有している場合は当該より下位の有特徴クラスタに、そしてそれら複数個の有特徴クラスタに係る突出特徴をいずれも有していない場合は残り物クラスタに、という要領で、各グループの画像レコードを、都合複数種類あり有特徴クラスタ毎に異なる所定の一次突出特徴に基づき、有特徴クラスタ複数個及び残り物クラスタからなり階層構造を形成する一群のクラスタに振り分ける振分ステップと、
グループ毎に、そのグループに存するクラスタのなかで最上位階層のクラスタを以てそのグループの最上位クラスタと認定する認定ステップと、
そのグループの最上位クラスタが有特徴クラスタである場合はその最上位クラスタに係る一次突出特徴に基づき、またそのグループの最上位クラスタが残り物クラスタである場合は上記突出特徴のいずれとも無関係に、各グループの代表画像をそのグループを構成する画像レコードのなかから選定する選定ステップと、
が実行される製造物。
１個又は複数個のディジタル画像をそれぞれ含む画像レコードの集まりである画像レコード群に索引を付するシステムであって、
それらの画像レコードを時空間情報に基づき複数のグループに分類する手段と、
その画像レコードが階層構造上で比較的上位の有特徴クラスタに係る一次突出特徴を有している場合は当該比較的上位の有特徴クラスタに、また当該比較的上位の有特徴クラスタに係る一次突出特徴は有していないが階層構造上でより下位の有特徴クラスタに係る一次突出特徴のうちいずれかを有している場合は当該より下位の有特徴クラスタに、そしてそれら複数個の有特徴クラスタに係る突出特徴をいずれも有していない場合は残り物クラスタに、という要領で、各グループの画像レコードを、都合複数種類あり有特徴クラスタ毎に異なる所定の一次突出特徴に基づき、有特徴クラスタ複数個及び残り物クラスタからなり階層構造を形成する一群のクラスタに振り分ける手段と、
グループ毎に、そのグループに存するクラスタのなかで最上位階層のクラスタを以てそのグループの最上位クラスタと認定する手段と、
そのグループの最上位クラスタが有特徴クラスタである場合はその最上位クラスタに係る一次突出特徴に基づき、またそのグループの最上位クラスタが残り物クラスタである場合は上記突出特徴のいずれとも無関係に、各グループの代表画像をそのグループを構成する画像レコードのなかから選定する手段と、
各イベント及びサブイベントの索引としてその代表画像を表示するディスプレイと、
を備えるシステム。