JP2009514107A

JP2009514107A - 集合体からの特定の人物の割り出し

Info

Publication number: JP2009514107A
Application number: JP2008538013A
Authority: JP
Inventors: ギャラガー，アンドリュー，チャールズ; ダス，マディラクシ; シー．ルイ，アレキサンダー
Original assignee: イーストマンコダックカンパニー
Priority date: 2005-10-31
Filing date: 2006-10-27
Publication date: 2009-04-02
Also published as: WO2007053458A1; KR20080060265A; EP1955256A1; CN101300588A; US20070098303A1

Abstract

デジタル画像集合体内の画像のうちの少なくとも1つが2人以上の人物を含有する、デジタル画像集合体内の特定の人物を識別する方法であって：特定の人物及び少なくとも1人の他の人物を含有するデジタル画像集合体内の第1画像のための、特定の人物を識別する少なくとも1つの第1ラベルと、特定の人物を識別する、デジタル画像集合体内の第2画像のための第2ラベルとを提供し；特定の人物を識別するために第1及び第2のラベルを使用し；第1画像又は第2画像又はその両方から特定の人物に関連する特徴を割り出し；そして特定の人物を含有すると考えられる、デジタル画像集合体内の別の画像を識別するために、そのような特定の特徴を使用することを含む、デジタル画像集合体内の特定の人物を識別する方法。

Description

本発明は概ね、画像処理の分野に関する。より具体的には、本発明は、捕捉された画像の対応する消点位置に基づく、画像捕捉時に発生する意図しない回転カメラ角度の推定及び補正に関する。さらに、本発明は、デジタルカメラにおいてこのような画像処理を実施することに関する。

本発明は、デジタル画像集合体の特定の画像中に、該当する物体又は人物が存在するかどうかを割り出すことに関する。

デジタル写真技術の到来に伴って、消費者は、デジタル画像及びビデオの大量のコレクションを蓄えつつある。1撮影者当たりのデジタルカメラによる画像捕捉平均数は、年々さらに増えつつある。結果として、画像及びビデオの編成及び検索は、典型的な消費者にとって既に問題である。目下のところ、典型的な消費者のデジタル画像収集歴は数年に過ぎない。平均的なデジタル画像及びビデオの収集歴が長くなるのに伴って、編成及び検索の問題は増大し続けることになる。

ユーザーは、該当する特定の人物を含有する画像及びビデオを見いだすことを望む。ユーザーは、該当人物を含有する画像及びビデオを見いだすために、手による検索を実施することができる。しかし、これは緩慢な、骨の折れるプロセスである。後から検索ができるように画像内の人々を指し示すラベルをユーザーが画像に付けるのを可能にする商業的ソフトウェア(例えばAdobe Album)があるものの、最初のラベル付けプロセスは、依然として極めて退屈なものであり、また多大な時間がかかる。

顔認識ソフトウェアは、グラウンド・トルースでラベル付けされた画像集合(すなわち、対応する人物同一性を有する画像集合)の存在を想定する。ほとんどの消費者画像集合体は、同様のグラウンド・トルース集合を有していない。加えて、画像内の顔のラベル付けは複雑である。なぜならば、多くの消費者画像は多数の人物を有するからである。そのため、画像内の人々の同一性を画像に単純にラベル付けすることは、画像内のどの人物がどの同一性と関連付けられるかは指示されない。

人々をセキュリティ又はその他の目的のために認識しようと試みる多くの画像処理パッケージが存在する。いくつかの例は、Cognitec Systems GmbHのFaceVACS顔認識ソフトウェア、及びImagis Technologies Inc.及びIdentix Inc.のFacial Recognition SDKである。これらのパッケージは主に、人物が均一の照明、正面のポーズ、及び中立的な表情のもとでカメラに向き合うセキュリティ・タイプ用途向きである。これらの方法は個人消費者の画像において用いるには、この分野の画像内ではポーズ、照明、表情、及び顔のサイズのばらつきに直面するため、適していない。

本発明の目的は、デジタル画像集合体内の画像又はビデオにおいて該当する物体又は人物を容易に識別することである。

この目的は、デジタル画像集合体内の画像のうちの少なくとも1つが2人以上の人物を含有する、デジタル画像集合体内の特定の人物を識別する方法であって：
(a) 特定の人物及び少なくとも1人の他の人物を含有するデジタル画像集合体内の第1画像のための、特定の人物を識別する少なくとも1つの第1ラベルと、特定の人物を識別する、デジタル画像集合体内の第2画像のための第2ラベルとを提供し；
(b) 特定の人物を識別するために第1及び第2のラベルを使用し；
(c) 第1画像又は第2画像又はその両方から特定の人物に関連する特徴を割り出し；そして
(d) 特定の人物を含有すると考えられる、デジタル画像集合体内の別の画像を識別するために、そのような特定の特徴を使用する
ことを含む、デジタル画像集合体内の特定の人物を識別する方法によって達成される。

この方法は、使いやすいインターフェイスによって、ユーザーが該当人物を見いだすのを可能にするという利点を有する。さらに、この方法は、該当人物に関係するラベルが自動的に画像に付けられ、ユーザーがラベルを見直すのを可能にするという利点を有する。

本発明の主題を、図面に示された態様を参照しながら説明する。
下記において、本発明のいくつかの態様をソフトウェア・プログラムとして説明する。このような方法の等価のものを、本発明の範囲内でハードウェア又はソフトウェアとして構成することもできることは、当業者は容易に理解するであろう。

画像操作アルゴリズム及びシステムは良く知られているので、本説明は具体的には、本発明に基づく方法の一部を形成するか、又はこの方法とより直接的に協働するアルゴリズム及びシステムを対象とすることになる。このようなアルゴリズム及びシステム、並びにここで具体的には図示又は記載されていない、これらと関与して画像信号を生成し、その他の形式で処理するためのハードウェア又はソフトウェアの他の態様は、当業者に知られているそのようなシステム、アルゴリズム、成分、及び要素から選択することができる。下記明細書における記載内容を考えると、その全てのソフトウェアの実行は従来通りであり、当業者の通常の技術範囲内にある。

図1は、本発明を実施することができる、デジタルカメラ付き電話機301に基づく画像形成システムのブロックダイヤグラムである。デジタルカメラ付き電話機301は、デジタルカメラの1つのタイプである。好ましくは、デジタルカメラ付き電話機301は、画像を捕捉して見直すときにユーザーが容易に手で持つのに十分に小さな、携帯可能な電池動作型デバイスである。デジタルカメラ付き電話機300は、例えば内部フラッシュEPROMメモリー、又は取り外し可能なメモリーカードであることが可能な画像データ／メモリー330を使用して記憶されるデジタル画像を生成する。画像データ／メモリー330を提供するために、代わりに他のタイプのデジタル画像記憶媒体、例えば磁気ハードドライブ、磁気テープ、又は光デスクを使用することもできる。

デジタルカメラ付き電話機301は、シーン(図示せず)からCMOS画像センサー311の画像センサーアレイ314上に光を集束するレンズ305を含む。画像センサーアレイ314は、よく知られたBayerカラーフィルター・パターンを使用してカラー画像情報を提供することができる。画像センサーアレイ314は、タイミング発生器312によって制御され、タイミング発生器312はまた、周囲の照明が暗いときにシーンを照らすために、フラッシュ303を制御する。画像センサーアレイ314は、例えば1280列×960行の画素を有することができる。

いくつかの態様の場合、デジタルカメラ付き電話機301は、低解像度ビデオ画像フレームを形成するために、画像センサーアレイ314の複数の画素を合計する(例えば画像センサーアレイ314の各4列×4行領域内部に同じ色の画素を合計する)ことによって、ビデオクリップを記憶することもできる。ビデオ画像フレームは、例えば1秒当たり24フレームの読み出し速度を用いて、規則的なインターバルで、画像センサーアレイ314から読み取られる。

画像センサーアレイ314からのアナログ出力信号は増幅され、そしてCMOS画像センサー311上のアナログ-デジタル(A/D)変換器回路316によって、デジタルデータに変換される。デジタルデータは、DRAMバッファメモリー318内に記憶され、そして続いて、フラッシュEPROMメモリーであってよいファームウェア・メモリー328内に記憶されたファームウェアによって制御されるデジタルプロセッサ320によって処理される。デジタルプロセッサ320は、デジタルカメラ付き電話機301及びデジタルプロセッサ320が低電力状態にある時にもデータ及び時間を保持するリアルタイム・クロック324を含む。

処理されたデジタル画像ファイルは、画像／データメモリー330内に記憶される。画像／データメモリー330は、図11を参照して後で説明するように、ユーザーのパーソナル・カレンダー情報を記憶するために使用することもできる。画像／データメモリーは、他のタイプのデータ、例えば電話番号、しなければならないことのリストなどを記憶することもできる。

静止画像モードの場合、デジタルプロセッサ320は、レンダリングされたsRGB画像データを生成するために、カラー補間、及びこれに続いてカラー及びトーンの補正を行う。デジタルプロセッサ320は、ユーザーによって選択された種々様々な画像サイズを提供することもできる。レンダリングされたsRGB画像データは次いでJPEG圧縮され、そして画像／データメモリー330内にJPEG画像ファイルとして記憶される。JPEGファイルは、前述のいわゆる「Exif」画像フォーマットを使用する。このフォーマットは、種々のTIFFタグを使用して特定の画像メタデータを記憶するExifアプリケーション・セグメントを含む。例えば、ピクチャが捕捉された日付及び時刻、レンズのf／ナンバー及びその他のカメラ設定値を記憶し、そして画像キャプションを記憶するために、別個のTIFFを使用することができる。具体的には、ラベルを記憶するためにImageDescriptionタグを使用することができる。リアルタイム・クロック324は、日付／時刻値を提供し、この値は、各Exif画像ファイル内に日付／時刻メタデータとして記憶される。

場所決定子325が、画像捕捉と関連する地理的場所を提供する。場所は好ましくは、緯度及び経度の単位で記憶される。なお、場所決定子325は、画像捕捉時間とは僅かに異なる時間における地理的場所を割り出すことがある。その場合、場所決定子325は、画像と関連する地理的場所として、最も近い時間から地理的場所を使用することができる。或いは、場所決定子325は、画像捕捉と関連する地理的場所を割り出すために、画像捕捉の前及び／又は後の時間における複数の地理的場所間を補間することもできる。場所決定子325が地理的場所を割り出すことは常に可能というわけではないので、補間が必要とされることがある。例えば、GPS受信器は、屋内にある時に信号を検出し損なうことがしばしばある。その場合、特定の画像捕捉と関連する地理的場所を推定するために、最後に獲得に成功した地理的場所(すなわち建物に入る前)を、場所決定子325によって使用することができる。場所決定子325は、数多くの画像場所割り出し法のうちのいずれかを利用することができる。例えば、地理的場所は、よく知られた全地球測位システム衛星(GPS)からの通信を受信することによって割り出すことができる。

デジタルプロセッサ320はまた、低解像度「サムネイル」サイズ画像を形成する。この画像は、同一譲受人による米国特許第5,164,831号明細書(Kuchta他)に記載されているように形成することができる。この開示内容を引用することにより本明細書の内容とする。サムネイル画像は、RAMメモリー322内に記憶し、カラーディスプレイ332に供給することができる。カラーディスプレイは例えば、アクティブ・マトリックスLCD又は有機発光ダイオード(OLED)であってよい。画像が捕捉された後、これらは、サムネイル画像データを使用することにより、カラーLCD画像ディスプレイ332上で素早く見直すことができる。

カラーディスプレイ332上に表示されたグラフィカル・ユーザー・インターフェイスは、ユーザー制御装置334によって制御される。ユーザー制御装置334は、電話番号をダイアルするための専用のプッシュボタン(例えば電話機キーパッド)、モード(例えば「電話」モード、「カメラ」モード)を設定するための制御装置、4方向制御手段(上、下、左、右)、及びプッシュボタン・センター「OK」スイッチを含むジョイスティック・コントローラ、などを含むことができる。

デジタルプロセッサ320に接続された音声コーデック340は、マイクロフォン342から音声信号を受け取り、そしてスピーカー344に音声信号を提供する。これらの成分は、電話会話のためと、ビデオシーケンス又は静止画像と一緒に音声トラックを記録して再生するためとの両方の目的で使用することができる。スピーカー344は、電話着呼をユーザーに知らせるために使用することもできる。このことは、ファームウェア・メモリー328内に記憶された標準着信音を使用して、又は携帯電話ネットワーク358からダウンロードされ、そして画像／データメモリー330内に記憶されたカスタム着信音を使用することにより行うことができる。加えて、電話着呼のサイレント(例えば非可聴)通知を提供するために、振動デバイス(図示せず)を使用することができる。

汎用制御コンピュータ40に接続されたドック／充電器364にデジタルカメラ付き電話機301を接続するために、ドック・インターフェイス362を使用することができ、ドック・インターフェイス362は汎用制御コンピュータ40に接続される。ドック・インターフェイス362は例えば、周知のUSBインターフェイス仕様に適合してよい。或いは、デジタルカメラ300と汎用制御コンピュータ40との間のインターフェイスは、無線インターフェイス、例えば周知のBluetooth（登録商標）無線インターフェイス又は周知の802.11b無線インターフェイスであることが可能である。ドック・インターフェイス362は、画像／データメモリー330から汎用制御コンピュータ40へ画像をダウンロードするために使用することができる。ドック・インターフェイス362は、汎用制御コンピュータ40からデジタルカメラ付き電話機301内の画像／データメモリーへ、カレンダー情報を転送するために使用することもできる。ドック／充電器364は、デジタルカメラ付き電話機301内の電池(図示せず)を再充電するために使用することもできる。

デジタルプロセッサ320は、無線モデム350にカップリングされており、無線モデム350は、デジタルカメラ付き電話機301がRFチャネル352を介して情報を送信し受信するのを可能にする。無線モデム350は、ラジオ周波数(例えば無線)リンクを介して、携帯電話ネットワーク358、例えば3GSMネットワークと交信する。携帯電話ネットワーク358は、写真サービス・プロバイダー372と交信し、写真サービス・プロバイダー372は、デジタルカメラ付き電話機300からアップロードされたデジタル画像を記憶することができる。これらの画像は、汎用制御コンピュータ40を含む他のデバイスによって、インターネット370を介してアクセスすることができる。携帯電話ネットワーク358はまた、通常の電話サービスを提供するために、標準的な電話ネットワーク(図示せず)に接続する。

本発明の態様が図2に示されている。人々を含有するデジタル画像集合体102が、人物ファインダー108によって該当人物に関して検索される。デジタル画像集合体部分集合112は、該当人物を含有すると考えられるデジタル画像集合体102からの画像集合である。デジタル画像集合体102は、画像及びビデオの両方を含む。便宜上、「画像」という用語は、単独画像及びビデオの両方を意味する。ビデオは、音声及び時には文字を伴う画像の集合体である。デジタル画像集合体部分集合112は、人間のユーザーによって見直すために、ディスプレイ332上に表示される。

該当人物の検索は、下記のようにユーザーによって開始される：デジタル画像集合体102の画像又はビデオは、ディスプレイ332上に表示され、そしてユーザーによって観察される。ユーザーは、画像のうちの1つ又は2つ以上に対して、ラベラー104を用いて1つ又は2つ以上のラベルを確立する。特徴抽出子106が、ラベラー104から提供されたラベルと関連して、デジタル画像集合体から特徴を抽出する。特徴は、データベース114内のラベルと関連して記憶される。ラベル付け及び特徴抽出を補助するために、人物検出子110を任意選択的に使用することができる。デジタル画像集合体部分集合112がディスプレイ332上に表示されると、ユーザーはその結果を見直し、そしてさらに、表示画像にラベル付けすることができる。

ラベラー104から提供されたラベルは、特定の画像又はビデオが該当人物を含有することを示し、そして下記のもののうちの少なくとも1つを含む：
(1) 画像又はビデオにおける該当人物の名前。人物の名前は、クリスチャンネーム又はニックネームであってよい。

(2) 該当人物と関連する文字列のような識別子、又は「人物A」又は「人物B」のような識別子。

(3) 画像又はビデオ内部の該当人物の位置。好ましくは、該当人物の位置は、該当人物の目の座標(例えば行及び列の画素アドレス)(及びビデオの場合には関連フレーム番号)によって特定される。或いは、該当人物の位置は、該当人物の身体又は顔を取り囲むボックスの座標によって特定することもできる。更なる別の態様としては、該当人物の位置は、該当人物内部に含有される位置を指し示す座標によって特定することもできる。ユーザーは、例えば目の位置をマウスでクリックすることにより、該当人物の位置を指し示すことができる。人物検出子110が人物を検出すると、その人物の位置は、例えばディスプレイ332上で顔を円で囲むことによって、強調して使用者に示すことができる。次いで、ユーザーは強調された人物に対応する名前又は識別子を提供し、これにより、人物の位置を、ユーザーが提供したラベルと関連付けることができる。2人以上が画像内で検出される場合には、これらの人物たちの位置を順番に強調し、そしてこれらの人物たちのいずれかに、ユーザーによってラベルを提供することができる。

(4) 該当人物を含有すると考えられる画像集合体から画像又はビデオを検索するための指示。

(5) 画像内にはない該当人物の名前又は識別子。

デジタル画像集合体102は、2人以上の人物を有する少なくとも1つの画像を含有する。使用者によってラベラー104を介してラベルが提供され、画像が該当人物を含有することを示す。特徴抽出子106によって、該当人物に関連する特徴が割り出され、そしてこれらの特徴は、該当人物を含有すると考えられる集合体内で他の画像を識別するために、人物ファインダー108によって使用される。

なお「タグ」、「キャプション」及び「注釈」という用語は、「ラベル」という用語と同義に使用される。

図3は、該当人物を含有すると考えられる画像を識別するために、デジタルカメラを使用する方法を示すフローダイヤグラムである。本発明を用いる処理プラットフォームがカメラ、パーソナル・コンピュータ、インターネットのようなネットワークを介して評価されるリモート・コンピュータ、又はプリンターなどであり得ることは、当業者には明らかである。この態様の場合、ユーザーは、該当人物を含有するいくつかの画像又はビデオを選択し、そしてシステムは、該当人物を含有すると考えられるデジタル画像集合体の部分集合から画像又はビデオを割り出し、そして表示する。表示された画像はユーザーによって見直すことができ、そしてユーザーは、表示された画像が該当人物を含有するかどうかを指示することができる。加えて、ユーザーは、該当人物の名前を検証又は提供することができる。最後に、ユーザーからの入力に基づいて、システムは、該当人物を含有すると考えられる画像集合を再び割り出すことができる。

ブロック202において、ディスプレイ332上に画像が表示される。ブロック204において、ユーザーは、各画像が該当人物を含有する画像を選択する。選択された画像のうちの少なくとも1つは、該当人物の他に人物を含有する。例えば、図4は、3つの選択画像から成る集合を示しており、それぞれが該当人物を含有し、そして画像のうちの1つが2人を含有する。ブロック206において、ユーザーは、選択画像が該当人物を含有することを示すラベルをラベラー104を介して提供し、そして画像集合体に由来する画像及びビデオは、該当人物を含有すると考えられるものを識別するために、人物ファインダー108によって検索されることになる。

ブロック208において、人物識別子は、データベース114内に記憶された特徴及び関連ラベルにアクセスし、そして該当人物を含有すると考えられる画像及びビデオの集合体部分集合112を割り出す。ブロック210において、デジタル画像集合体部分集合112は、ディスプレイ332上に表示される。例えば、図5は、デジタル画像集合体部分集合112内の画像を示す。デジタル画像集合体部分集合は、ラベル付き画像220、該当人物を含有すると正しく考えられる画像222、及び該当人物を含有すると誤って考えられる画像224を含有する。これは、現在の顔検出・認識技術の不完全な性質の結果である。

ブロック212において、ユーザーは、デジタル画像集合体部分集合112を見直し、そして、デジタル画像集合体部分集合112内の各画像が正しいことを指示することができる。正しいことを指示するこのようなユーザー指示は、ブロック214において、ラベラー104を介して追加のラベルを提供するために使用される。例えば、ユーザーは、デジタル画像集合体部分集合112の、該当人物を含有すると正しく考えられる画像及びビデオ222の全てが、該当人物を含有することを、ユーザー・インターフェイスを介して指示する。次いで、該当人物の名前がユーザーによって提供されているならば、デジタル画像集合体の各画像及びビデオにその名前がラベル付けされる。該当人物の名前がユーザーによって提供されていないならば、該当人物の名前は、いくつかの事例において、ラベラー104によって割り出すことができる。

デジタル画像集合体部分集合112の画像及びビデオは、該当する人物の名前を示すラベルを有する画像及びビデオに関して、そして人物検出子110がただ1人だけを割り出す画像及びビデオに関して検査される。ユーザーはデジタル画像集合体部分集合112の画像及びビデオが該当人物を含有し、そして人物検出子110はただ1人を見いだすことを検証しているので、ラベラー104は、関連ラベル内の人物の名前が該当人物の名前であることを結論づける。もしも人物検出子110が自動的な間違いやすいアルゴリズムであるならば、ラベラー104は、2つ以上の画像及びビデオが人物の名前を含有する関連ラベルを有し、そして人物検出子110がただ1人を見いだし、また関連ラベル内の人物の名前が一致していない場合には投票スキームを実施することが必要な場合がある。

例えば、人物検出子110によってそれぞれ検出された1人を含有する画像がデジタル画像集合体部分集合112の中に3つあり、そして各画像が人物の名前を含有するラベルを有し、そしてこれらの名前が「ハンナ」、「ハンナ」、及び「ホリー」である場合、ラベラー104によって実施される投票スキームは、その人物の名前が「ハンナ」であることを割り出す。ラベラー104は次いで、デジタル画像集合体部分集合112の画像及びビデオに、該当人物の名前を含有するラベル(例えば「ハンナ」)をラベル付けする。ユーザーは、ディスプレイを介してラベラー104によって割り出された該当人物の名前を見直すことができる。ユーザーが、デジタル画像集合体部分集合112の画像及びビデオが該当人物を含有することを示した後、「ハンナとしてラベル付けしますか？」というメッセージが現れ、ユーザーは、「yes」を押すことによって該当人物の割り出された名前を確認するか、又は、「no」を押すことによって該当人物に対応する異なる名前を入力することができる。ラベラー104が該当人物の名前を割り出すことができない場合には、目下使用されていない識別子が該当人物に割り当てられ(例えば人物12)、そしてデジタル画像集合体部分集合112の画像及びビデオは相応にラベラー104によってラベル付けされる。

或いは、ラベラー104は、該当人物に対するいくつかの候補ラベルを割り出すこともできる。候補ラベルは、リストの形態でユーザーに表示することができる。候補ラベルのリストは、過去に使用されたことのあるラベルのリストであってよく、或いは、目下の特定の該当人物に対応する最も可能性の高いラベルのリストであってもよい。ユーザーは次いで、リストから該当人物の望ましいラベルを選択することができる。

或いは、ラベラー104が該当人物の名前を割り出すことができない場合、「これは誰ですか？」というメッセージをディスプレイ332上に表示し、そしてユーザーが該当人物の名前を入力するのを許すことによって、ユーザーに該当人物の名前を入力するように求めることもでき、この名前は次いで、デジタル画像集合体部分集合112の画像及びビデオにラベル付けするためにラベラー104によって使用することができる。

ユーザーは、デジタル画像集合体部分集合112の画像及びビデオのこれらの画像が該当人物を含有しないことを、ユーザー・インターフェイスを介して指示することもできる。指示された画像は次いで、デジタル画像集合体部分集合112から除去することができ、そして残りの画像に前述のようにラベル付けすることができる。指示された画像には、これらが該当人物を含有しないことを指示するためにラベル付けすることにより、同じ該当人物を探す将来の検索時に、該当人物を含有しないものとして明確にラベル付けされた画像がユーザーに示されないようにすることができる。例えば、図6は、該当人物を含有すると誤って考えられた画像が除去された後の、デジタル画像集合体部分集合112を示す。

図7は、該当人物を含有すると考えられる画像を識別する別の方法を示すフローダイヤグラムである。この態様の場合、ユーザーは1つ又は2つ以上の画像又はビデオ内の人々にラベル付けし、該当人物に対する検索を開始し、そしてシステムは、該当人物を含有すると考えられるデジタル画像集合体102の部分集合から画像又はビデオを割り出し、そして表示する。表示された画像はユーザーによって見直すことができ、そしてユーザーは、表示された画像が該当人物を含有するかどうかを指示することができる。加えて、ユーザーは、該当人物の名前を検証又は提供することができる。最後に、ユーザーからの入力に基づいて、システムは、該当人物を含有すると考えられる画像集合を再び割り出すことができる。

ブロック202において、ディスプレイ332上に画像が表示される。ブロック204において、ユーザーは、各画像が該当人物を含有する画像を選択する。選択された画像のうちの少なくとも1つは、2人以上の人物を含有する。ブロック206において、ユーザーは、選択された画像内の人物を識別するために、ラベラー104を介してラベルを提供する。好ましくは、ラベルは、画像又はビデオ内部の人物の位置を指示しない。好ましくは、ラベルは、選択された画像又はビデオ内の人物又は人物たちの名前を指示する。図8は、2つの選択された画像と、2つの選択された画像のそれぞれの中の人物たちの名前を指示する関連ラベル226とを示す。ブロック207において、ユーザーは、該当人物の検索を開始する。該当人物は、選択された画像内の人物たちにラベル付けしたときにラベルとして使用されている人物の名前である。例えば、ユーザーは、「ジョーナ」の画像の検索を開始する。ブロック208において、人物識別子は、特徴抽出子106から抽出された特徴、及びデータベース114内に記憶された関連ラベルにアクセスし、そして該当人物を含有すると考えられる画像及びビデオのデジタル画像集合体部分集合112を割り出す。ブロック210において、デジタル画像集合体部分集合112は、ディスプレイ332上に表示される。図9は、デジタル画像集合体部分集合112は、ラベル付き画像220、該当人物を含有すると正しく考えられる画像222、及び該当人物を含有すると誤って考えられる画像224を含有する。これは、現在の顔検出・認識技術の不完全な性質の結果である。ブロック212において、ユーザーは、デジタル画像集合体部分集合112を見直し、そして、デジタル画像集合体部分集合112内の各画像が正しいことを指示することができる。正しいことを示すこのようなユーザー指示は、ブロック204において、ラベラー104を介して追加のラベルを提供するために使用される。例えば、ユーザーは、デジタル画像集合体部分集合112の、該当人物を含有すると正しく考えられる画像及びビデオ222の全てが、該当人物を含有することを、ユーザー・インターフェイスを介して指示する。ユーザーは、デジタル画像集合体部分集合112の画像及びビデオのこれらの画像が該当人物を含有しないことを、ユーザー・インターフェイスを介して指示することもできる。指示された画像は次いで、デジタル画像集合体部分集合112から除去され、そして残りの画像に前述のようにラベル付けすることができる。デジタル画像集合体部分集合112のそれぞれの画像及びビデオに、次いで該当人物の名前がラベル付けされる。ユーザーは、ディスプレイを介してラベラー104によって割り出された該当人物の名前を見直すことができる。ユーザーが、デジタル画像集合体部分集合112の画像及びビデオが該当人物を含有することを示した後、「ジョーナとしてラベル付けしますか？」というメッセージが現れ、ユーザーは、「yes」を押すことによって該当人物の割り出された名前を確認するか、又は、「no」を押すことによって該当人物に対応する異なる名前を入力することができる。図10は、ユーザーが該当人物を含有すると誤って考えられる画像を除去した後のデジタル画像集合体部分集合112、及び、ユーザーによって見直された画像にラベル付けするために使用される自動生成ラベル228を示す。

なお、該当人物及び画像又はビデオは、当業者に知られた任意のユーザー・インターフェイスによって選択することができる。例えば、ディスプレイ332が接触感受性ディスプレイである場合、該当人物の適切な位置は、ユーザーがディスプレイ332に接触する位置を割り出すことによって見いだすことができる。

図11は、図2の特徴抽出子106をより詳細に示している。特徴抽出子106は、デジタル画像集合体内の画像及びビデオの人物に関連する特徴を割り出す。これらの特徴は次いで、該当人物を含有すると考えられるデジタル画像集合体内の画像又はビデオを見いだすために、人物ファインダー108によって使用される。特徴抽出子106は、人物たちに関係する2つのタイプの特徴を割り出す。グローバル特徴検出子242は、グローバル特徴246を割り出す。グローバル特徴246は、ビデオの画像内のその人物の同一性又は位置とは無関係の特徴である。例えば撮影者の同一性はグローバル特徴である。なぜならば、撮影者の同一性は、いかに多くの人物たちが画像又はビデオ内に存在しようとも不変であり、またこれらの人物達の位置及び同一性とも同じく無関係であるからである。

追加のグローバル特徴246は下記のものを含む：
画像／ビデオのファイル名。

画像／ビデオ捕捉時間。画像捕捉時間は、時刻において正確な分、例えば2004年3月27日午前10:17であることが可能である。或いは、画像捕捉時間はさほど正確でなくても、例えば2004年又は2004年3月であることも可能である。画像捕捉時間は、確率分布関数の形態、例えば95%の信頼度で2004年3月27日±2日の形態であることが可能である。多くの場合、捕捉時間は、デジタル画像又はビデオのファイルヘッダ内に埋め込まれる。例えばEXIF画像フォーマット(www.exif.orgに記載)は、画像捕捉デバイスが、デジタル画像又はビデオと関連付けられる情報をファイルヘッダ内に記憶するのを可能にする。「日付＼時刻」の入力は、画像が捕捉された日付及び時刻と関連付けられる。いくつかの事例の場合、デジタル画像又はビデオは、フィルムの走査から生じ、そして画像捕捉時間は、(しばしば捕捉時に行われるように)通常は画像の左下コーナーの画像領域内にプリントされた日付を検出することによって割り出される。写真がプリントされた日付はしばしば、プリントの裏側に印刷される。或いは、いくつかのフィルム系は、捕捉日付のような情報を記憶するために、フィルム内に磁気層を含有する。

捕捉条件メタデータ(例えばフラッシュ発光情報、シャッタースピード、絞り、ISO、光景の明るさなど)
地理的場所。場所は好ましくは緯度及び経度の単位で記憶される。

シーン環境情報。シーン環境情報は、人物を含有しない領域内の画像又はビデオの画素値から導き出された情報である。例えば、画像又はビデオ内の人物を含有しない領域の平均値は、シーン環境情報の一例である。シーン環境情報の別の例は、テクスチャ・サンプルである(例えば画像内の壁紙領域からの画素値のサンプリング)。

地理的場所及びシーン環境情報は、関連画像内の人物の同一性に対する重要な手がかりである。例えば、撮影者が祖母の家を訪問した場合、この家は、祖母が撮影されている唯一の場所であり得る。2つの画像が同様の地理的場所及び環境で捕捉された時には、これら2つの画像内で検出される人物も同じである可能性はより高い。

シーン環境情報は、2つの画像を見当合わせするために、人物検出子110によって使用することができる。このことは、被撮影者たちはほとんど不動であるが、しかしカメラが連続した写真の間で僅かに動くときに有用である。シーン環境情報は、2つの画像を見当合わせし、これにより、2つのフレームにおける人物たちの位置を整合させるために使用される。この整合は人物ファインダー108によって行われる。なぜならば、2人が、時間的に接近して捕捉され見当合わせされた2つの画像内に同じ位置を占める場合には、2人は同一人物である尤度が高いからである。

ローカル特徴検出子240は、ローカル特徴244を算出する。ローカル特徴は、画像又はビデオ内の人物の外観に直接的に関連する特徴である。画像又はビデオ内の人物に対応するこれらの特徴を算出するためには、その人物の位置に関する知識が必要である。ローカル特徴検出子240は、人物検出子110、又はデータベース114、又はその両方から、画像又はビデオ内の人物の位置に関係する情報を渡される。人物検出子110は、手で操作することができ、この場合、ユーザーは、画像及びビデオ内の人物たちを輪郭付け、目の位置を示し、又はこれと類似のことを行うことにより、画像及びビデオ内の人物たちの位置を入力する。好ましくは、人物検出子110は、顔検出アルゴリズムを実施する。ヒトの顔を検出する方法が、デジタル画像処理の分野においてよく知られている。例えば、画像内の人間の顔を見いだす顔検出法が、下記論文に記載されている：Jones, M.J.;Viola, P.,「Fast Multi-view Face Detection(高速マルチビュー顔検出)」IEEE Conference on Computer Vision and Pattern Recognition(CVPR)、2003年6月。

デジタル画像及びビデオと関連する画像捕捉時間に基づく、効果的な人物検出子110を、図12Aに関して説明する。デジタル画像集合体102の画像及びビデオは、顔検出子270、例えばJones及びViolaによる上述の顔検出子によって分析される。顔検出子は、誤った検出を最小限に抑えつつ、検出された人々274を提供するように調整される。結果として、画像内の多数の人々は検出されない。このことは、例えばカメラに背を向けている、又は顔を手で覆っている結果であり得る。顔検出子270及びデジタル画像集合体102から検出された顔は、顔検出子207によって見過ごされた人物たちを含有する画像を見いだすために、捕捉時間アナライザー272に渡される。捕捉時間アナライザー272は、2つの画像が時間的に極めて接近して捕捉されたときには、1人が1つの画像内に現れるならば、彼又は彼女は他の画像内にも現れる可能性が高い、という考えに基づいて作業する。事実、このような関係は、画像内の人物の同一性が既知であるときに画像大型集合体を分析することによって、かなり良好な精度をもって割り出すことができる。ビデオを処理する際には、ビデオのフレーム全体にわたって人物の位置を見いだすために、顔追跡技術が用いられる。1つのビデオ内顔追跡法が、米国特許第6,700,999号明細書に記載されており、ビデオ内の顔を追跡するために動作分析が用いられる。

図12Bは、捕捉時間アナライザー272によって用いられる関係のプロットを示す。このプロットは、第1画像内にその人物が現れると考えた場合に、その人物が第2画像内に現れる確率を、画像間の画像捕捉時間差の関数として示している。予想したように、2つの画像が続けざまに捕捉されるときには、人物が一方の画像内に現れ、しかも他方の画像内には現れない尤度は極めて低い。

捕捉時間アナライザー272は、デジタル画像集合体110内の画像及びビデオを検査する。所与の画像内で顔検出子270によって顔が検出されるときには、その同じ人物が別の画像内に現れる確率が、図12Bに示す関係を用いて計算される。

例えば、顔検出子270が1つの画像内で2つの顔を検出し、そしてたった1秒後に捕捉された第2画像内では、顔検出子270が1つの顔だけを見いだしたと仮定する。第1画像から検出された顔が真陽性であると仮定すると、第2画像も2つの顔を含有するがしかし顔検出子270によって1つしか見いだされなかった確率は極めて高い(0.99*0.99)。この場合、第2画像に関して検出された人々274は、顔検出子270によって見いだされた第1の顔、及び信頼度0.98の第2の顔である。第2の顔の位置は知られていないが、しかし、捕捉時間差が小さいときにはカメラも被撮影者も素早く移動する傾向がないので、推定することができる。従って、第2画像内の第2の顔の位置は、捕捉時間アナライザー272によって推定される。例えば1人が2つの画像内に現れたときには、相対顔サイズ(小さな顔と大きな顔とのサイズ比)を検査することができる。同じ人物を含有する2つの画像の捕捉時間差が小さい場合には、相対顔サイズは通常1に近い。なぜならば、撮影者、及び被撮影者、及びカメラ設定値がほぼ不変であるからである。相対顔サイズの下限は、図12Cにおける画像捕捉時間差の関数としてプロットされる。この倍率は、顔が第2画像内に現れる領域を推定するために、第1画像内の顔の既知の顔位置と相俟って使用することができる。

なお、捕捉時間アナライザー272によって用いられる方法は、該当人物が特定の画像又はビデオ内にある尤度を人物ファインダー108によって割り出すために用いることもできる。

また、データベース114は、図2のラベラー104から提供されたラベルと関連する情報を記憶する。ラベルが人物と関連する位置情報を含有する場合には、ローカル特徴検出子240は、その人物と関連するローカル特徴244を割り出すことができる。

人物の位置が知られたら、ローカル特徴検出子240は、その人物と関連するローカル特徴244を検出することができる。顔の位置が知られたら、顔特徴(例えば目、鼻、口など)を、よく知られた方法、例えばYuille他の「Feature Extraction from Faces Using Deformable Templates(変形可能なテンプレートを使用した顔からの特徴抽出)」、Int. Journal of Comp. Vis.,第8巻、第2号、1992年、第99-111頁によって記載された方法を用いて位置特定することもできる。この著者は、口、目、及び虹彩／強膜境界の位置を特定するためのテンプレート照合を用いた、エネルギー最小化法を記載している。顔特徴は、T.F. Cootes及びC.J. Taylor「Constrained active appearance models(制約されたアクティブ外観モデル)、8th International Conference on Computer Vision、第1巻、第748-754頁、IEEE Computer Society Press、2001年7月に記載されているようなアクティブ外観モデルを使用して見いだすこともできる。好ましい態様の場合、Bolin及びChenの「An automatic facial feature finding system for portrait images(ポートレート画像のための自動顔特徴発見システム)」、Proceedings of IS&T PICS Conference、2002年に記載されている人間の顔のアクティブ形状モデルに基づいた顔特徴点の位置特定方法が用いられる。

ローカル特徴244は、人物の定量的記述である。好ましくは、人物ファインダー特徴抽出子106は、ローカル特徴244の1集合と、グローバル特徴246の1集合とを、検出された人物毎に出力する。好ましくは、ローカル特徴244は、Cootes他の前述のアクティブ外観モデルと類似の方法を用いて見いだされた特定の顔特徴と関連する82個の特徴点の場所に基づいている。顔の画像に対応するローカル特徴点を視覚的に表したものが一例として図12Dに示されている。ローカル特徴は、具体的な特徴点間の距離、又は具体的な特徴点の集合を繋ぐ線によって形成された角度、又は顔の外観のばらつきを記述する主成分上への特徴点の投影係数であってもよい。

使用される特徴を表1に挙げ、またこれらの計算は、図12Dに示された符号を有する顔上の点を参照して行われる。Arc(Pn,Pm)は、

として定義され、||Pn-Pm||は、特徴点n及びmの間のユークリッド距離を意味する。これらの弧長特徴は、種々異なる顔サイズ全体にわたって正規化するために、眼球間距離によって割り算される。点PCは、点0及び1のセントロイドに位置する点(すなわち正確に両眼間にある点)である。ここに使用された顔測定値は、性別、年齢、魅力、及び民族性を判断するのに重要であることが示されている、人間の顔の身体測定値から導き出される[「Anthropometry of the Head and Face(頭及び顔の身体計測)」Farkas編、第2版、Raven Press、New York、1994年参照]。

人物及び顔特徴が人物ファインダー106によって位置特定されたら、デジタル画像又はビデオからカラー行列が容易に抽出される。

或いは、異なるローカル特徴を使用することもできる。例えば、1つの態様は、「Eigenfaces for Recognition(認識のための固有の顔)」、Journal of Cognitive Neuroscience.第3巻、第1号、71-86、1991においてM. Turk及びA. Pentlandによって記載された顔類似性測定基準に基づくことができる。顔の外観のばらつきを記述する主成分関数の集合上へ顔画像を投影させることによって、顔記述子が得られる。任意の2つの顔の類似性は、同じ関数集合上へ各顔を投影させることにより得られる特徴のユークリッド距離を算出することにより測定される。

ローカル特徴244は、いくつかの異種の特徴タイプ、例えば固有の顔、顔測定値、カラー／テクスチャ情報、ウェーブレット特徴などの組み合わせを含むこともできる。

或いは、ローカル特徴244は加えて、定量化可能な記述子、例えば目の色、肌の色、顔の形状、眼鏡の存在、衣服の記述、毛髪の記述などで表すことができる。

例えば、Wiskottは「Phantom Faces for Face Analysis(顔分析のための仮想の顔)」、Pattern Recognition、第30巻、第6号、第837-846頁、1997年において、顔上の眼鏡の存在を検出する方法を記載している。ローカル特徴は、眼鏡の存在及び形状に関係する情報を含有する。

図12Eは、顔検出子によって生成された目の位置に基づいて顔領域282、衣服領域284、及び背景領域286であると仮定された画像内の区域を示す。サイズは、眼球間距離、又はIOD(左目及び右目の位置間の距離)の点で測定される。顔は、図示のようにIODの3倍×IODの4倍の面積を占める。衣服領域は、IODの5倍を占め、画像の下側に延びている。画像内の残りの領域は、背景として処理される。なお、何らかの衣服領域が他の顔、及びこれらの顔に対応する衣服領域によって占められることもある。

デジタル画像集合体102内の画像及びビデオは、米国特許第6,606,411号明細書に従って、一貫したカラー分布を有する事象及び部分事象にクラスタリングされ、従って、これらのピクチャは、同じ背景をもって撮影されている可能性が高い。部分事象毎に、単独のカラー及びテクスチャの表現が、一緒に撮影された全ての背景領域に関して算出される。カラー及びテクスチャの表現及び類似性は、Zhu及びMehrotraによる米国特許第6,480,840号明細書から導き出される。彼らの方法によれば、カラー特徴に基づく画像表現は、有意なサイズのコヒーレント色画像領域が知覚的に有意であるとの仮定に基づいている。従って有意なサイズのコヒーレント色画像領域のカラーは、知覚的に有意なカラーであると考えられる。従って入力画像毎に、そのコヒーレント色ヒストグラムが先ず算出される。画像のコヒーレント色ヒストグラムは、コヒーレント色領域に属する特定の色の画素数の関数である。その色が、予め特定された最小数の隣接画素の色に等しいか又は類似しているならば、画素は、コヒーレント色領域に属すると考えられる。さらに、テクスチャ特徴に基づく画像表現は、知覚的に有意な各テクスチャが、同じ色移行の多数の繰り返しから成るとの仮定に基づいている。頻繁に発生する色移行を識別し、そしてこれらのテクスチャ特性を分析することによって、知覚的に有意なテクスチャを抽出して表現することができる。

顔検出子によって生成された目の位置は、顔特徴発見のための開始顔位置を初期化するために使用される。図12Fは、顔上の特徴点の位置、及び対応画像パッチを示す。これらのパッチにおいて、名称を付けた二次特徴を位置特定することができる。

表3は、図12Fに示されたこれらの画像パッチ、すなわち毛髪領域502、前髪領域504、眼鏡領域506、頬領域508、長髪領域510、顎髭領域512、及び口髭領域514のための境界ボックスを挙げる。図面において、Pnは、図12F又は図12Dの顔点番号nを意味し、そして[x]及び[y]は、点のx及びy座標を意味する。(Pn-Pm)は、点n及びmの間のユークリッド距離である。「頬」及び「毛髪」パッチは、それぞれ顔の無特徴領域及び人物の毛髪を示す基準パッチ(表中[R]によって示す)として処理される。二次特徴は、二次特徴を含有する潜在的パッチと、適切な基準パッチとの間のグレースケール・ヒストグラム差として算出される。左及び右のパッチは、各二次特徴のヒストグラムを生成するために組み合わされる。ヒストグラムは画素数によって正規化されるので、比較されるパッチの相対サイズは、算出される差の因子ではない。二次特徴は、これらが存在するか又は存在しないかという二元特徴として処理される。二次特徴が存在するかどうかを確かめるために、閾値が使用される。表4は、検出されるべき二次特徴のそれぞれに対して使用されるヒストグラム差を示す表を提供する。

図11を再び参照すると、グローバル特徴246及びローカル特徴244は、データベース114内に記憶される。画像内の全ての人々と関連するグローバル特徴は、F_Gによって表される。画像内のN人と関連するN個のローカル特徴集合は、F_L0、F_L1、...、F_LN-1として表される。画像内の人物nに対応する完全な特徴集合は、F_nとして表され、そして、グローバル特徴F_Gとローカル特徴F_Lnとを含む。画像と関連するM個のラベルは、F₀、F₁、...、F_M-1として表される。ラベルが人物の位置を含まないときには、どのラベルが画像又はビデオ内の人物を表すどの特徴集合と関連付けられるかを知る上で曖昧さがある。例えば、画像内の2人を記述する2つの特徴集合、及び2つのラベルが存在する場合、どの特徴がどのラベルと関連するかは明らかではない。人物ファインダー108は、このラベルをローカル特徴集合と照合し、ラベル及びローカル特徴が単一の画像と関連付けられる、このような制約された分類の問題を解決する。任意の数のラベル及びローカル特徴があってよく、またそれぞれの数が異なっていてもよい。

ここで、データベース114における画像と関連するラベル及び特徴の入力例を挙げる：
画像101-346.JPG
ラベルL₀：ハンナ
ラベルL₁：ジョーナ

特徴F₀：
グローバル特徴F_G：
捕捉時間：2005年8月7日、東部標準時午後6時41分
フラッシュ発光：なし
シャッタースピード：1/724秒
カメラ・モデル：Kodak C360 ズーム・デジタル・カメラ
絞り：F/2.7
環境：

ローカル特徴F_L0：
位置：左目：[1400 198] 右目：[1548 202]
C₀=[-0.8, -0.01]'；
眼鏡：なし

関連ラベル：不明

図13は、図2の人物ファインダー108をより詳細に説明する。人物識別子250は、データベース114内の特徴及びラベルを考察し、そして人物の位置を含有しないラベルを付けられた画像内の人々の識別子を割り出す(すなわち関連する特徴の集合を割り出す)。人物識別子250は、特徴抽出子106から抽出された特徴を、ラベラー104から提供されたラベルと関連付け、これにより、画像又はビデオ内の人物を識別する。人物識別子250はデータベースからの特徴を更新し、そしてデータベース114内に記憶された修正特徴254を生成する。一例として、図8に示された画像を考察する。第1画像260は2人を含有する。これらの人物は、ラベル226によればハンナ及びジョーナである。しかし、ラベルが位置を含有しないので、どちらがハンナであり、どちらがジョーナであるかは不明である。第2画像262にはハンナのラベルが付けられている。ここには1人しかいないので、その人物は、高い信頼度でハンナとして識別することができる。人物識別子250は、第2画像262から得られたハンナに関連する特徴を使用し、そして第1画像260内の人々の特徴を比較することにより、第1画像260内の人々の同一性を割り出すことができる。人物266は、第2画像262内のハンナとして識別された人物264の特徴と同様の特徴を有している。人物識別子250は、第1画像260内のその人物266がハンナであり、そして消去法により、人物268がジョーナであることを、高い信頼度で結論づけることができる。第1画像260のラベル226ハンナは、その画像に対応するグローバル特徴F_G、及びその人物266と関連するローカル特徴と関連付けられる。第1画像260のラベル226ジョーナは、その画像に対応するグローバル特徴、及びその人物268と関連するローカル特徴と関連付けられる。人物たちの同一性が割り出されるので、ユーザーは、適切な特徴を使用して、ハンナ又はジョーナの検索を開始することができる。

一般的に言えば、人物識別子250は分類の問題を解決する。この問題は、位置情報を含まないラベルをローカル特徴と関連付け、ラベル及びローカル特徴が両方とも同じ画像と関連付けられることである。この問題を解決するアルゴリズムは、人物識別子250によって実施される。図14は、デジタル画像集合体から算出された実際のローカル特徴を示す図である。15個のローカル特徴集合の位置は、プロット上にマークされている。マークを表すために使用される符号は、ローカル特徴と関連付けられた人物の真の同一性、つまりハンナに対応する「x」、ジョーナに対応する「+」、ホリーに対応する「*」、そしてアンディに対応する「□」(四角)を示す。それぞれのローカル特徴集合は、画像に割り当てられたラベルのいずれかと関連付けることができる。プロット上にマークされたそれぞれのローカル特徴集合の近くには、ローカル特徴と関連付けることができる可能なラベル、つまりアンディに対応する「A」、ハンナに対応する「H」、ジョーナに対応する「J」、及びホリーに対応する「O」が存在する。下記表はそのデータを示す。プロット上のマーク間のリンクは、ローカル特徴集合が同じ画像に由来することを示している。ローカル特徴をラベルに割り当てるために使用されるアルゴリズムは、データ点の集合体分散(すなわち、各人物に割り当てられたデータ点の広がりの和)を最小化する、ラベルへのローカル特徴の割り当てを見いだすことにより働く。ラベルへのローカル特徴の割り当ては、各画像に対して1回(すなわち、リンクによって繋がれた各データ点集合に対して1回)しかラベルを使用することができないという制約を被る。好ましくは、集合体分散は、データ点から、その同じ人物に割り当てられた全てのデータ点のセントロイドまでの距離の二乗の、各データ点にわたる和として算出される。

ローカル特徴を分類するためのアルゴリズムは、式：

によって要約することができる。

上記式中：
f_jは、j番目のローカル特徴集合を表し、
d_jは、j番目のローカル特徴集合が割り当てられたクラス(すなわちその人物の同一性)を表し、
cd_jは、j番目のローカル特徴集合が割り当てられたクラスのセントロイドを表す。

この表現は、j番目のローカル特徴集合のそれぞれに対してクラスの割り当てを選択することにより最小化される。

この式において、ユークリッド距離尺度が使用される。当業者には明らかなように、多くの異なる距離尺度、例えばマハラノビス距離、又は現在のデータ点と、同じクラスに割り当てられた別のデータ点との間の最小距離を使用することもできる。

このアルゴリズムは、例における15個全てのローカル特徴を、正しいラベルと正しく関連付ける。この例では、ラベルの数と各画像におけるローカル特徴集合の数とが、それぞれの画像の事例において同じであるが、このことは、人物識別子250によって使用されるアルゴリズムが有用であるために必要というわけではない。例えば、ユーザーは3人を含有する画像に対して2つのラベルだけを提供することができ、そして、この画像から、3つのローカル特徴集合が導き出される。

いくつかの事例において、人物識別子250から形成される修正特徴254は、容易にデータベース114から生成することができる。例えば、データベースがグローバル特徴だけを含有し、ローカル特徴を含有しないときには、それぞれのラベルと関連する特徴は、(ラベルが位置情報を含有するかしないかにはかかわりなく)同一になる。例えば、ただ1つの特徴が画像捕捉時間である場合、画像と関連するそれぞれのラベルは、画像捕捉時間と関連付けられる。また、ラベルが位置情報を含有する場合には、特徴をラベルと関連付けることは容易である。なぜならば、特徴がローカル特徴を含まず、従って同じ特徴が各ラベルと関連付けられるか、又は、特徴がローカル特徴を含有し、そしてローカル特徴が算出される画像領域の位置が、(近接性に基づいて)特徴をラベルと関連付けるために使用されるからである。

人物分類子256は、該当人物を含有すると考えられる画像及びビデオのデジタル画像集合体部分集合112を割り出すために、修正特徴254及び該当人物の同一性252を使用する。修正特徴254は、関連ラベルを有するいくつかの特徴(ラベル付き特徴として知られる)を含む。他の特徴(ラベル無し特徴として知られる)は、関連ラベル(例えば、ラベラー104によってラベル付けされなかったデジタル画像集合体102内の画像及びビデオの全て)を有さない。人物分類子256は、ラベル無し特徴を分類するために、ラベル付き特徴を使用する。この問題は、実際には極めて難しいものの、パターン認識の分野において研究されている。ラベル無し特徴を分類するためには、いかなる分類子を使用することもできる。好ましくは、人物分類子は、ラベル無し特徴のそれぞれに対応する提案ラベル、及び、提案ラベルと関連する信頼度、信用度、又は確率を決定する。一般に、分類子は、特定のラベル無し特徴集合とラベル付き特徴集合との間の類似性を考察することにより、ラベルをラベル無し特徴に割り当てる。いくつかの分類子(例えばガウス最大尤度)を用いて、単独の人物と関連するラベル付き特徴集合が、その人物の外観モデルを形成するように集約される。デジタル画像集合体部分集合112は、閾値T₀を超える確率を有する関連提案ラベルを含む画像及びビデオの集合体である。T₀の範囲は、0＜= T₀＜=1.0である。好ましくは、デジタル画像集合体部分集合112はまた、該当人物252の同一性とマッチするラベルを有する特徴と関連する画像及びビデオを含有する。デジタル画像集合体部分集合の画像及びビデオは、該当人物252の同一性とマッチするラベルを有する特徴を含む画像及びビデオだけが現れるのに続いて、該当人物を含有する最高信用度を有すると割り出された画像及びビデオが、部分集合のトップに現れるようにソートされる。

人物分類子256は、人物の類似性を割り出し、そしてこれによりこれらの人物が同じである尤度を割り出すために、2人又は3人と関連する特徴集合間の類似性を測定することができる。特徴集合の類似性の測定は、特徴部分集合の類似性を測定することにより達成される。例えば、ローカル特徴が衣服を記述するとき、2つの特徴集合を比較するために、下記方法が用いられる。画像捕捉時間差が小さい(少なくとも数時間未満)場合、そして衣服の定量的記述が2つの特徴集合のそれぞれにおいて類似している場合、2つのローカル特徴集合が同じ人物に属する尤度が高められる。加えて、衣服が両ローカル特徴集合に関して極めて一意的又は区別可能なパターン(例えば大きな緑、赤、及び青のパッチから成るシャツ)を有するならば、関連する人々が同一人物である尤度は一層大きくなる。

種々異なる方法で衣服を表現することができる。Zhu及びMehrotraによる米国特許第6,480,840号明細書に記載されたカラー及びテクスチャの表現及び類似性は、1つの可能な方法である。別の可能な表現において、Zhu及びMehrotraは、米国特許第6,584,465号明細書における布地に見いだされるようなパターンを表現し照合するために具体的に意図された方法を記載している。この方法は色不変を用い、そしてエッジ方向のヒストグラムを特徴として使用する。或いは、エッジマップ、又は衣服パッチ画像のフーリエ変換係数から導き出された特徴を、照合のための特徴として使用することもできる。エッジに基づく又はフーリエに基づく特徴を算出する前に、エッジ不変の頻度をカメラ／ズームからの被写体の距離にするために、パッチは、同じサイズに対して正規化される。検出された顔の眼球間距離を標準的な眼球間距離に変換する倍数因子が算出される。パッチ・サイズは眼球間距離から算出されるので、衣服パッチは、標準サイズの顔に対応するように、この因子によってサブ・サンプリング又は拡張される。

表5に示すように、人物に関するマッチ・スコア全体に対する、マッチ又はミスマッチの関与を割り出す一意性尺度が、各衣服パターン毎に算出される。+は正の関与を示し、そして-は負の関与を示すと共に、関与の強さを示すために+又は-の数を使用する。一意性スコアは、パターンの一意性及びカラーの一意性の和として算出される。パターンの一意性は、パッチのフーリエ変換における閾値を上回るフーリエ係数の数に対して比例する。例えば、無地のパッチ、及び等しい間隔の単独の縞を有するパッチは、それぞれ1つ(dcのみ)の係数及び2つの係数を有し、従って一意性が低い。パターンが複雑であればあるほど、これを記述するために必要となる係数の数は多くなり、また、その一意性スコアも高くなる。カラーの一意性は、人々の大型画像データベースから、特定のカラーが衣服において発生する尤度を学習することにより測定される。例えば、人が白いシャツを着る尤度は、人がオレンジ色及び緑色のシャツを着る尤度よりも遙かに高い。或いは、信頼性のある尤度統計が存在しない場合には、カラーの一意性はその飽和に基づく。それというのも、飽和色は両方とも稀であり、しかも曖昧さをあまり伴うことなしに照合することもできるからである。このように、画像の捕捉時間を用いて求められた衣服の類似性又は非類似性、並びに衣服の一意性は、人物分類子256が該当人物を認識するのに重要な特徴である。

衣服の一意性は、人々の大型画像データベースから、特定の衣服が現れる尤度を学習することにより測定される。例えば、人物が白いシャツを着る尤度は、人物がオレンジ色及び緑色の格子縞のシャツを着る尤度よりも遙かに高い。このように、画像の捕捉時間を用いて求められた衣服の類似性又は非類似性、並びに衣服の一意性は、人物分類子256が該当人物を認識するのに重要な特徴である。

表5は、衣類の記述を使用することにより、どのように2人の尤度が影響を受けるかを示している。2人が同一事象に由来する画像又はビデオから現れるときには、衣類がマッチしない場合には、彼らが同一人物である尤度は大幅に低くなる(---)。「同一事象」とは、画像の画像捕捉時間の差が僅かでしかない(すなわち数時間未満)こと、又は、画像がユーザーによって、又は米国特許第6,606,411号明細書に記載されているようなアルゴリズムによって同一事象に属するものとして分類されていることを意味する。手短に要約すると、画像集合体は、画像をクラスタリングし、そして1つ又は2つ以上の最大画像捕捉時間差に対応する1つ又は2つ以上の境界を事象間に有することに基づいて複数の画像を当該事象に分ける時刻及び／又は日付に基づいて、1つ又は2つ以上の最大画像捕捉時間差を決定する1つ又は2つ以上の事象に分類される。

2人の衣服がマッチし、そして画像が同一事象に由来する場合には、2人が同一人物である尤度は、衣服の一意性に依存する。2人の間でマッチする衣服の一意性が高くなればなるほど、2人が同一人物である尤度も高くなる。

2人が、異なる事象に属する画像に由来するときには、衣服間のミスマッチは、この2人が同一人物である尤度に対して、(人々が衣服を替えることが考えられるように)何の効果も持たない。

好ましくは、ユーザーはユーザー・インターフェイスを介してT₀の値を調節することができる。値が増大するのに伴って、デジタル画像集合体部分集合112が含有する画像又はビデオは少なくなるが、しかしデジタル画像集合体部分集合112内の画像及びビデオが実際に該当人物を含有する尤度は増大する。このようにユーザーは、検索結果の数及び精度を決定することができる。

本発明は、人物認識を超えて、図2と類似する図15に示したように一般の物体の認識に対して一般化することができる。物体を含有するデジタル画像集合体12が、物体ファインダー408によって該当物体に関して検索される。デジタル画像集合体部分集合112は、人間のユーザーによって見直すために、ディスプレイ332上に表示される。

該当物体の検索は、下記のようにユーザーによって開始される：デジタル画像集合体102の画像又はビデオは、ディスプレイ332上に表示され、そしてユーザーによって観察される。ユーザーは、画像のうちの1つ又は2つ以上に対して、ラベラー104を用いて1つ又は2つ以上のラベルを確立する。特徴抽出子106が、ラベラー104から提供されたラベルと関連して、デジタル画像集合体から特徴を抽出する。特徴は、データベース114内のラベルと関連して記憶される。ラベル付け及び特徴抽出を補助するために、物体検出子410を任意選択的に使用することができる。デジタル画像集合体部分集合112がディスプレイ332上に表示されると、ユーザーはその結果を見直し、そしてさらに、表示画像にラベル付けすることができる。

ラベラー104から提供されたラベルは、特定の画像又はビデオが該当物体を含有することを示し、そして下記のもののうちの少なくとも1つを含む：
(1) 画像又はビデオにおける該当物体の名前。
(2) 該当物体と関連する文字列のような識別子、又は「物体A」又は「物体B」のような識別子。
(3) 画像又はビデオ内部の該当物体の位置。好ましくは、該当物体の位置は、該当物体を取り囲むボックスの座標によって特定される。ユーザーは、例えば目の位置をマウスでクリックすることにより、該当物体の位置を指し示すことができる。物体検出子410が物体を検出すると、その物体の位置は、例えばディスプレイ332上で物体を円で囲むことによって、強調して使用者に示すことができる。次いで、ユーザーは強調された物体に対応する名前又は識別子を提供し、これにより、物体の位置を、ユーザーが提供したラベルと関連付けることができる。

(4) 該当物体を含有すると考えられる画像集合体から画像又はビデオを検索するための指示。
(5) 画像内にはない該当物体の名前又は識別子。例えば、当該物体は、人物、顔、車両、乗り物、又は動物であってよい。

図1は、本発明を実施することができるカメラ付き電話機に基づく画像形成システムを示すブロックダイヤグラムである。図2は、デジタル画像集合体内に該当人物を見いだすための、本発明の態様を示すフローチャートである。図3は、デジタル画像集合体内に該当人物を見いだすための、本発明の態様を示すフローチャートである。図4は、該当人物の検索を開始するために使用される代表的な画像集合を示す図である。図5は、該当人物の検索の結果として、ユーザーに表示される代表的な画像部分集合を示す図である。図6は、該当人物を含有しない画像をユーザーが除去した後、ユーザーに表示された画像の部分集合を示す図である。図7は、デジタル画像集合体において該当人物を見いだすための本発明の別の態様を示すフローチャートである。図8は、画像及び関連ラベルを示す図である。図9は、該当人物の検索の結果として、ユーザーに表示される代表的な画像部分集合を示す図である。図10は、該当人物を含有しない画像をユーザーが除去した後、ユーザーに表示された画像及びラベルの部分集合を示す図である。図11は、図2の特徴抽出子をより詳細に示す図である。図12Aは、図2の人物検出子をより詳細に示す図である。図12Bは、画像捕捉時間の差と、1つの画像内に現れる人物が第2画像にも現れる確率との関係をプロットした図である。図12Cは、画像捕捉時間の差の関数としての顔サイズ比の関係をプロットした図である。図12Dは、図2の特徴抽出子によって顔から抽出された特徴点を示す図である。図12Eは、顔領域、衣服領域、及び背景領域を示す図である。図12Fは、種々の顔特徴領域を示す図である。図13は、図2の人物ファインダーをより詳細に示す図である。図14は、15の顔のローカル特徴、顔の実際の同一性、及び顔の可能な同一性をプロットした図である。図15は、デジタル画像集合体において該当物体を見いだすための本発明の態様を示すフローチャートである。

符号の説明

10 画像捕捉
25 一緒に撮影された背景領域
40 汎用制御コンピュータ
102 デジタル画像集合体
104 ラベラー
106 特徴抽出子
108 人物ファインダー
110 人物検出子
112 デジタル画像集合体部分集合
114 データベース
202 ブロック
204 ブロック
206 ブロック
207 ブロック
208 ブロック
210 ブロック
212 ブロック
214 ブロック
220 ラベル付き画像
222 該当人物を含有すると正しく考えられる画像
224 該当人物を含有すると誤って考えられる画像
226 ラベル
228 生成ラベル
240 ローカル特徴検出子
242 グローバル特徴検出子
244 ローカル特徴
246 グローバル特徴
250 人物識別子
252 該当人物の同一性
254 修正特徴
256 人物分類子
260 第1画像
262 第2画像
264 人物
266 人物
268 人物
270 顔検出子
272 捕捉時間アナライザー
274 検出された人々
282 顔領域
284 衣服領域
286 背景領域
301 デジタルカメラ付き電話機
303 フラッシュ
305 レンズ
311 CMOS画像センサー
312 タイミング発生器
314 画像センサーアレイ
316 A/D変換器回路
318 DRAMバッファメモリー
320 デジタルプロセッサ
322 RAMメモリー
324 リアルタイム・クロック
325 場所決定子
328 ファームウェア・メモリー
330 画像／データメモリー
332 カラーディスプレイ
334 ユーザー制御装置
340 音声コーデック
342 マイクロフォン
344 スピーカー
350 無線モデム
352 RFチャネル
358 電話ネットワーク
362 ドック・インターフェイス
364 ドック／充電器
370 インターネット
372 写真サービス・プロバイダー
408 物体ファインダー
410 物体検出子
502 毛髪領域
504 前髪領域
506 眼鏡領域
508 頬領域
510 長髪領域
512 顎髭領域
514 口髭領域

Claims

デジタル画像集合体内の特定の人物を識別する方法であって、デジタル画像集合体内の画像のうちの少なくとも1つは、2人以上の人物を含有しており、該方法は：
(a) 特定の人物及び少なくとも1人の他の人物を含有するデジタル画像集合体内の第1画像のための、該特定の人物を識別する少なくとも1つの第1ラベルと、該特定の人物を識別する、該デジタル画像集合体内の第2画像のための第2ラベルとを提供し、
(b) 該特定の人物を識別するために該第1及び第2のラベルを使用し；
(c) 該第1画像又は第2画像又はその両方から該特定の人物に関連する特徴を割り出し；そして
(d) 該特定の人物を含有すると考えられる、該デジタル画像集合体内の別の画像を識別するために、そのような具体的な特徴を使用する
ことを含んで成る。
該第1及び第2ラベルがそれぞれ、該特定の人物の名前、又は該特定の人物が該第1及び第2画像の両方にあるという指示を含んでいる請求項1に記載の方法。
該デジタル画像集合体内の異なる画像に対応する3つ以上のラベルがある請求項1に記載の方法。
ユーザーが該第1及び第2ラベルを提供する請求項1に記載の方法。
ステップ(c)は、該特定の人物の特徴を割り出すために、該画像内の人々を検出することを含む請求項1に記載の方法。
画像内の該特定の人物の位置が、該ユーザーによって提供されない請求項4に記載の方法。
該デジタル画像集合体の該画像のうちの少なくとも1つの画像内の該特定の人物の位置が、該ユーザーによって提供される請求項4に記載の方法。
該第1ラベルが、該特定の人物の名前と、該第1画像内のその特定の人物の位置とを含み、そして該第2ラベルが、該特定の人物が複数の人々を含む第2画像内にあることを示す請求項1に記載の方法。
複数の異なる人物を識別する複数のラベルがある請求項8に記載の方法。
ユーザーが、特定の人物、及び画像内のその人物の位置を識別するラベルを提供し、そして該複数のラベルが、該特定の人物を含有する画像を識別するために使用され、そして該特徴を割り出すために、該使用された識別された人物を分析する請求項9に記載の方法。
各ラベルが、該特定の人物の名前を含む請求項10に記載の方法。
(e) 該特定の人物を含有すると考えられる1つ又は複数の画像を該ユーザーに表示し；そして
(f) 該特定の人物が該表示された1つ又は複数の画像内に含有されているかどうかを検証するために、該ユーザーが該表示された画像を観察する
ことをさらに含む請求項1に記載の方法。
デジタル画像集合体内の特定の人物を識別する方法であって、該画像のうちの少なくとも1つが2人以上の人物を含有しており、該方法は：
(a) 特定の人物を含有する1つ又は複数の画像のための、該画像が該特定の人物を含有することを識別する少なくとも1つのラベルを提供し；
(b) 該特定の人物に関連する特徴を割り出し；
(c) 該特定の人物を含有すると考えられる該集合体内の1つ又は複数の画像を識別するために、そのような特定の人物の特徴及び該ラベルを使用し；
(d) 該特定の人物を含有すると考えられる1つ又は複数の画像を該ユーザーに表示し；そして、
(e) 該特定の人物が該表示された1つ又は複数の画像内に含有されているかどうかを検証するために、該ユーザーが該表示された1つ又は複数の画像を観察する
ことを含んで成る。
該ユーザーが、該表示された画像内に該特定の人物が含有されていることを検証したときに、該ユーザーがラベルを提供する請求項13に記載の方法。
該割り出された特徴が、該ユーザーによって提供されたラベルを使用して更新される請求項14に記載の方法。
該特徴が、顔測定値、衣服、もしくは眼鏡、又はこれらの組み合わせから割り出される請求項1に記載の方法。
該特徴が、顔測定値、衣服、もしくは眼鏡、又はこれらの組み合わせから割り出される請求項13に記載の方法。