JP3842994B2

JP3842994B2 - 画像の統合された注釈及び検索のためのエージェント

Info

Publication number: JP3842994B2
Application number: JP2001311928A
Authority: JP
Inventors: リーバーマンヘンリー; ローゼンツウェイグエリザベス; シンプッシュピンダー; ディーウッドマーク
Original assignee: イーストマンコダックカンパニー
Priority date: 2000-10-10
Filing date: 2001-10-09
Publication date: 2006-11-08
Anticipated expiration: 2021-10-09
Also published as: DE60112212T2; EP1197879A2; US7028253B1; DE60112212D1; EP1197879A3; JP2002207749A; EP1197879B1

Description

【０００１】
【発明の属する技術分野】
本発明は一般的な画像処理の分野に関し、特に、データベースから選択された画像の注釈及び検索に関する。
【０００２】
【従来の技術】
デジタル写真の出現により、消費者は、彼らの日常にわたる大量の画像を今や容易に蓄積することができる。これらの画像は、「シューボックス」（又は等価な電子装置）に格納される。該画像は稀に見られ、折りにアルバムに入れられるが数年間使用されず、見られることもなく、通常は置きっぱなしにされる。
【０００３】
この「シューボックス」の問題は、特に適切である。これは、「シューボックス」が現在失われている共有される記憶を伝達するための口をつけていない源であるためである。（現像した又はコンピュータにダウンロードされたフィルムから画像が戻った後に）画像を最初に見た後、多くの人は、大きな略式の、書庫コレクションに彼らの画像を蓄積する。ハードコピー写真又はプリント出力の場合、これらの写真は、便利なサイズにされたシューボックス又はアルバムに蓄積されることがある。シューボックスにおける画像、又はフォルダ或いは取り外し可能なメディアにおける等価な電子装置は、特定の画像の検索、管理不可能な大量のコレクションのブラウジング、及びそれらの編成の困難さのために、（非常に稀に見るか又は）決して再び見ることはない。典型的に、雑な逆の年代順から離れた編成は、通常決して実行されないユーザ側に関する努力を含む。結果的に、検索は、多くの、大部分が関連性のない画像の労力を要する再検討に通常基づいた特別な成果である。
【０００４】
勿論、潜在的に、画像をテキストのラベルで注釈してリレーショナルデータベースに格納し、キーワードで検索することができる。しかし、画像を自動的に分析することができる点にコンピュータビジョンが到達するまで、殆どの自動的な画像検索は、特定の画像に手動で付された原文のキーワードに依存している。しかし、キーワードで画像を注釈することは退屈な仕事であり、現在のインタフェースでは、通常の人は、将来の検索を容易にするために全ての彼らの画像を注釈するための大量の正直な努力を当然の事として考えることができない。加えて、画像を自動的に解釈することができたとしても、画像の多くの突出した特徴はユーザの記憶にのみ存在し、画像を索引付けするために、どうにかしてマシンに伝達することが必要となる。したがって、画像の原文注釈に基づいた検索は、予見しうる将来にとっても依然として重要である。
【０００５】
さらに、検索プリケーションそれ自身は、ユーザが便利なライブラリから画像を探す場合に使用されないことがあるほど扱い難い。たとえば、検索それ自身は、オーバヘッドの開始、アプリケーションの終了及びキーワードの入力のみであっても、それ自身が処理にオーバヘッドを課すサーチエンジン又は他のアプリケーションを扱うことを含んでいる。このオーバヘッドのために、画像を使用するための機会が見落とされるか、又は無視されることがある。
【０００６】
消費者の画像撮影の利用についての主な機会は、画像及びイベントについて彼らが語る話を通して人々を繋ぐことにある。画像は、言葉にはできないようなやり方で感情を伝達する。たとえば、最近出席した結婚式を想像し、友人に送られるかも知れないイベントを記述した結果的な電子メールのメッセージを考える。イベントの画像及び関連する人々の画像、過去における場所及びイベントの画像を含むことにより話を図示することができる場合、メールは大いに向上される。これを達成するために何が必要とされるか？ここで、人がしなければならないことの例を示す。
【０００７】
・結婚式における重要なイベントで画像を撮影する。誓約の交換、ケーキカット、カップルのキッス等。それぞれのディナーテーブル、人々のダンス、会話等で画像を撮影する。
【０００８】
・画像をコンピュータに取り込む。これは、以下を含む。カメラからの記憶媒体（メモリカード、フロッピーディスク）の取出し、及びそのリーダへの挿入。ケーブルを有するリーダ装置又はカメラをコンピュータへの可能な接続。通信ソフトウェアの起動又は転送を実行するためのモードの設定。画像を転送すべきコンピュータ上の場所の選択。その画像が何であるかを忘れないように画像セットについての名前の選択。
【０００９】
・画像表示／操作／カタログプログラム（たとえば、Adobe Photoshop^TM,PicturePage^TM）。画像の初期操作、及び成功していない露光である「失敗（duds）」の除去。その内容を記述するための個々の画像のファイル名の可能な変更。画像のデータベースを有する場合、個々の画像又は画像セットに対してキーワードを付してもよい。画像上の画像操作(切取り、明るさ調整等)の可能な実行。記憶のための画像のハードコピーの可能なプリント出力、又は他への送出。他への画像の可能な電子メーリング、又はＷｅｂページ上でのポスティング。
【００１０】
・数週間又は数ヶ月後に、結婚式に関する友人又は家族への電子メールメッセージを作成している時に、該画像を使用したくなる。電子メールアプリケーションそれ自身の起動及び動作に加えて、画像ビューア／カタログ／サーチアプリケーションの様な別のアプリケーションを起動しなければならない。ファイルシステムの周りをサーチし、ブラウジング又はファイル名による検索のいずれかにより、関連する画像を含むフォルダを見つけるかも知れない。Ｗｅｂブラウザの起動、及びＵＲＬのタイプ入力、サーチエンジンの使用を必要として、関連する画像が、あなた自身所有の又はあなたの知人のＷｅｂページ上に記憶されているかも知れない。キーワードを介して画像データベースをサーチするかも知れない。必要に応じて、アプリケーション間でスイッチバック及びスイッチフォースする。画像を発見することに成功した場合、イメージアプリケーションから画像を切取り、それを電子メールエディタに貼り付ける。
【００１１】
たとえば、将来異なる人に関連する話を離そうとする場合に、このインタラクションに関することは容易なことではなく、次回このタスクをより容易に行うようにするものはない。この問題を緩和するための１つのアプローチは、エージェントの使用によるものである。エージェントとは、バックグランドでタスクを収集又は処理するある情報を実行するプログラムである。典型的に、エージェントは、非常に小さく及び上手く定義されたタスクで与えられる。より詳細には、この関係において有効な２つのタイプのエージェントは、インタフェースエージェント、すなわちインタラクティブインタフェースの動作において能動的にユーザを支持するソフトウェアであり、及び自律的なエージェント、すなわちユーザの介入なしに動作を行い、ユーザがアイドル状態又は他の動作を行っている間のいずれであっても、同時に動作するソフトウェアである。
【００１２】
自律的なインタフェースエージェントは、自然言語通信の分野を記憶拡張の分野に拡張している。たとえば、1996年のProc.of the First International Conference on the Practical Application of Intelligent Agents and Multi Agent Technologyに見られるB.J.Rhodes等による論文“Remembrance Agent：A Continuously Running Automated Information Retrieval System”より、記憶エージェントは、ユーザのデータ入力を監視するための連続的に動作する自動化された情報検索システムを提供することにより、システムユーザを自動的に支持することができる、ユーザの思考プロセスが知られている。たとえば、システムは、ユーザのタイプ入力動作の周りのウィンドウにおけるテキストを連続的に監視する記憶エージェントを提供する。該エージェントは、問合せテキスト及び参照文書に共通の言葉の頻度に基づいて、電子メール書庫のような記憶された個人文書のデータベースに対するウィンドウにおけるテキストの整合を周期的に実行する。該エージェントは、ｋ個の最も関連する入力について（ｋはユーザにより設定される）、ユーザのスクリーンの下部でのランク付けされたリストの提案を現在の動作に与える。ユーザは、容易に検索して入力テキストを見ることができる。記憶エージェントは、書庫の人間による前処理を必要としない。しかし、記憶エージェントは、記憶されたテキスト入力を走査するために設計されており、画像マテリアルを検索することをそれ自身に与えておらず、かかるマテリアルの注釈を容易にしていない。
【００１３】
Ｗｅｂブラウザのための自律的なインタフェースエージェント（“Letizia”と呼ばれる）は、International Joint Conference on Artificial Intelligence, Montreal 1995に見られる“Letizia：An Agent that Assists Web Browsing”、及びProceeding of CHI'97,Atlanta,GA,March 1997,pp.67-74に見られる“Autonomous Interface Agents”を含むH.Liebermanによる幾つもの論文において記載されている。Letiziaは、ユーザブラウザWorld Wide Webを支持するユーザインタフェースエージェントである。Letiziaは、ユーザにより選択されたＵＲＬを記録し、ユーザの興味のプロファイルを編集するためにページを読む。結果的に、ユーザが典型的なＷｅｂブラウザを動作する時、エージェントはユーザの操作を追跡し、ユーザの現在の位置からのリンクの同時で自動的な調査を行うことにより、興味の項目を予想しようとする。エージェントは、ブラウザの動きからユーザの興味を学習的に推論することにより議論されるベストファーストサーチから構成されるブラウザ方法を自動化する。Letiziaは、エージェントブラウザのページがユーザの興味を引くと思われる独立なウィンドウを使用して、その結果を与えるために、ブラウザが所有のインタフェースを使用する。しかし、記憶エージェントに関して、Letiziaは、画像マテリアルの検索のために設計されておらず、かかるマテリアルの注釈を容易にはしない。
【００１４】
J.Budzik及びK.Hammond等による論文“Watson：Anticipating and Contextualizing Information Needs”，Proc Of the Sixty-second Annual Meeting of the American Society for Information Science(1999）、Information Today，Inc.:Medford,N.J.,では、情報管理アシスタント（“Watson”と呼ぶ）は、文書構造の文脈において特定目的のサーチを実行するための機会を検出する。たとえば、ユーザが彼らの文書において画像なしで表題を挿入してそれを満たす時、Watsonは、表題においてリストに載せられた言葉の停止を使用し、画像サーチエンジンに対して問い合わせを形成する。ユーザは、表示されている画像をドラッグして文書にドロップする。しかし、記憶エージェントに関して、かかるマテリアルの注釈を容易にするための努力が行われていない。
【００１５】
認識構造と知覚構造とを混合することにより、より効果的な情報調査ツールを構築することができることが認識されている。A.Kuchinskyによる論文“Multimedia Information Explolation”CHI98 Workshop on Information Explolation,FX Palo Alto Laboratory,Inc.:Palo Alto CA(1998)に見られるように、物語りのツールがスタンドアローンとして扱われていないばかりか、情報注釈及び検索についてのフレームワーク内に埋め込まれていない場合、かかるツールは、ユーザからメタデータを引き出すための伝達手段として作用することができる。しかし、この潜在的なパスフォワードの考察は、電子メールのようなアプリケーションにおける画像の文脈上の使用から分離し、ユーザからの考察的な学習を提案していない。
【００１６】
異なるアプローチを試みるための上述した主張にもかかわらず、典型的なビューは、注釈及び検索が２つの完全に分離した動作であることのままであり、互いに及び画像が使用されるいずれかのアプリケーションから独立に動作するアプリケーションにより述べられる。これにより、ユーザには入力する負担が残され、専用される時のアプリケーション、及び通常カットアンドペーストを介してあるアプリケーションから別のアプリケーションへの詳細な転送データが残される。ユーザは、アプリケーション及び転送データに反して、彼ら自身のタスクについて考えるようになる。電子メールメッセージの送出のようなそれぞれのユーザのタスクは、共に作用するデータ、利用可能なツール、目的地等を含んでいる文脈を転送する。これらは、他のアプリケーションの文脈から自然に分離する傾向にある。
【００１７】
【発明が解決しようとする課題】
結果的に、消費者の画像撮影の典型的な使用との関連における原文注釈及び検索処理を十分に自動化するよりもむしろ容易にすることにおいて、ユーザインタフェースエージェントのための役割が必要とされる。エージェントの役割は、注釈及び検索の自動的な実行にあるのみでなく、注釈及び検索のための機会を検出し、それらの機会にユーザに通知することである。また、エージェントは、専用する時に動作を完成することをできるだけ容易にするべきである。確かに、ユーザの日常の作業の文脈において、画像注釈及び画像検索のための機会を事前に能動的に発見するユーザインタフェースエージェントが特に必要とされている。
【００１８】
【課題を解決するための手段】
本発明は、上述した１つ又は複数の問題を克服することに向けられる。要約すると、本発明による１態様によれば、記憶された画像の統合された検索及び注釈のための方法は、テキストにより表現される文脈を分離するために、ユーザにより入力されたテキストが連続的に監視されるユーザアプリケーションを実行することを含んでいる。
【００１９】
文脈は、記憶画像と関連するメタデータと整合される。したがって、１つ又は複数の整合された画像が提供され、該整合画像が検索され、該テキストの近くに表示される。文脈は、整合画像との後続する関連についてある示唆された注釈を選択する能力と共に、整合画像について示唆された注釈をユーザに提供するために利用される。さらなる拡張では、本方法は、整合画像のうちの選択された１つをアプリケーションのテキストに挿入する能力をユーザに提供する。さらに、本方法は、整合された画像についてメタデータを自動的に更新することを提供する。
【００２０】
本発明により講じられるアプローチは、画像の注釈、検索、及び１つのアプリケーションへの使用を統合することを試みることである。ユーザ中心の設計プロセスに従えば、最も重要なことは使用である。１実施の形態では、テキスト編集、特に電子メールのメッセージの編集では、画像ライブラリからの画像検索が使用を自然に見つけるようなアプリケーションとして選択される。この実施の形態において、検索及び注釈アプリケーションは統合され、分離アプリケーションを有することの文脈の切り替えの混同が回避される。
【００２１】
問題解決におけるいわゆる「知的な」の多くは、実は、現在の問題解決の文脈において何が関連しており、何が重要であるかを識別するための能力であり、かんばん方式で使用するために利用するようにするための能力である。統合されたアプリケーションにおけるエージェントの仕事は、関連するテキスト及び画像について適切な文脈を利用できるようにし、及び便利にアクセス可能にすることである。
【００２２】
電子メールメッセージの編集のタスクについて、テキスト記述をタイプ入力することにより、その文脈に関連する画像の検索が適切である意味に関する文脈が設定される。この文脈はすなわち、人間の識別作用に対応し、ユーザに個人的に価値がある点での情報を表す文脈である。同様に、現在の文脈において存在するあるテクスチャ記述を適用するための文脈を画像が設定することを考えると、注釈のための機会を設定する。これらの理由のために、本明細書ではインタフェースが記載され、簡単なクリック操作のみで両方向について、これら機会を利用する。
【００２３】
本発明のこれら及び他の態様、目的、特徴及び利点は、より明確に理解され、以下の好適な実施の形態の詳細な記載及び特許請求の範囲のレビュー、及び添付図面の参照により、評価される。
【００２４】
本発明の利点は、１つの簡単なプロセスにおける注釈と検索との結合であり、ユーザが時間を取ることを望まず、彼らの画像を注釈するためのエネルギーを望まないという問題を述べている。このプロセスは退屈であり、最も流通しているアプリケーションは扱い難く、使用することが難しい。したがって、殆どの画像は注釈されていない。加えて、互いに独立に動作し、他のアプリケーションが使用される場合がある注釈と検索が２つの分離した動作である定式的な視野では、ユーザにとって高い経費の状況をつくり、注釈を実行しない理由が追加される。
【００２５】
本発明のさらなる利点は、使用する画像で注釈と検索とを統合するための能力にあり、ユーザのテキストエディタ入力を再試行し、リアルタイムの画像推薦及び注釈を提供する。
【００２６】
より詳細には、本発明は、ユーザインタフェースエージェントを提供する。該エージェントは、ユーザの日常作業の文脈において、画像注釈及び画像検索のための機会を先取りして探すことにより、ユーザを支持する。本発明の１つの変形例は、ユーザの電子メールエディタを代理し、連続的にタイプ入力を監視する。
【００２７】
連続的に、ランク付けされたサーチは、画像ライブラリから自動的に実行される。現在のテキストに関連する画像は、簡単なクリックで挿入することができる。電子メールにおいて物語の話のために入力される画像の記述は、画像注釈のための生の材料として継ぎ目なく使用することができる。画像注釈及び検索プロセスを完全に自動化していないが、本発明は、ユーザインタフェースの経費を大幅に低減することができ、良好に注釈された画像ライブラリ、及び画像の使用についての機会の喪失をより少なくすることができる。
【００２８】
【発明の実施の形態】
処理エージェントを使用したデータ処理システムがよく知られているので、ここでの記載は、本発明によるシステム及び方法の部分の構成、又はより直接な協力に特に帰することに向けられる。本明細書で特に示されていないか、又は記載されていない特性は、当該技術分野において知られている特性から選択される。
【００２９】
以下の記載では、本発明の好適な実施の形態は、通常ソフトウェアとして実現されるが、かかるソフトウェアと等価なハードウェアで構成されてもよいことは、当業者であれば容易に認識されよう。
【００３０】
以下のマテリアルにおける本発明により記載されるようなシステム及び方法を仮定した場合、本発明の実現のために有用な、本明細書で特に示されず、示唆されず又は記載されないソフトウェアは、典型的なものであり、かかる技術分野において通常の技術内のものである。
【００３１】
本発明がコンピュータプログラムとして実現される場合、プログラムは、典型的なコンピュータ読み取り可能な記憶媒体に記憶されてもよい。該媒体は、たとえば、磁気ディスク（たとえば、ハードディスクドライブ又はフロッピーディスク）又は磁気テープのような磁気記憶媒体、光ディスク、光テープ又は機械読み取り可能なバーコードのような光記憶媒体、ランダムアクセスメモリ（ＲＡＭ）、又はリードオンリメモリ（ＲＯＭ）、又はコンピュータプログラムを記憶するために使用されるいずれかの物理的装置或いは媒体のような固体電子記憶装置、を備えていてもよい。
【００３２】
はじめに図１を参照して、図１は、本発明の例示的な実施の形態におけるソフトウェアアプリケーションの機能ブロック図である。たとえば、電子メールテキストエディタであるユーザアプリケーション２は、プロセッサユニット４上で動作する。該ユニットは、プロセッサ、メモリ、電力供給、入力／出力回路、大容量記憶装置、及びコンピュータにおいて見られる他の回路及び装置を含んでいる典型的なパーソナルコンピュータであってもよい。
【００３３】
加えて、注釈及び検索エージェント６は、プロセッサユニット４上で動作する。必要条件ではないが、この例示的な実施の形態において、２つのエージェントが同じプロセッサユニット４上で動作するように示されている。プロセッサユニット４は、グラフィカルユーザインタフェース８及びピクチャアーカイブ１４に接続されている。
【００３４】
グラフィカルユーザインタフェース８は、ディスプレイ１０を有する機能的インタフェースを提供する。ディスプレイ１０は、ユーザへのビジュアルインタフェースとしての役割を果たし、限定されないが陰極線管、マトリクスディスプレイ、ＬＣＤディスプレイ、ＴＦＴディスプレイ等を含み、典型的にはキーボードであるがタッチスクリーン、文字認識システム、マウス、トラックボール、タッチパッドのような他の入力装置、或いはヒューマンインタフェース装置又は周辺装置とすることもできる入力装置１２を有しているコンピュータビジュアルディスプレイ装置で一般に使用されるいずれかであってもよい。
【００３５】
注釈及び検索アプリケーション６は、グラフィカルマテリアルデータベースと通信する。好適な実施の形態において、データベースは、デジタルピクチャアーカイブ１４であり、該アーカイブは、スチル画像のアーカイブを記憶する。代替的に又は加えて、データベースは、動きビデオ系列を記憶するデジタルビデオデータベースを含むことができる。
【００３６】
かかるデータベースは、サーチ機能によりアクセス可能な複数のデジタルグラフィカル及び／又は画像マテリアルを備えている。典型的に、データベースは、複数のインデックスにより索引付けされたリレーショナルデータベースである。かかるデータベースをサーチするための典型的なアプローチは、１つ又は複数の優先付けされたキーワードを設けることである。データベースは、複数のヒットを列挙するサーチ結果でかかる要求に応答する。
【００３７】
アーカイブ１４のようなデータベースがより洗練されたインデックス方法を使用してもよく、かかるデータベースが本発明に適用することは、当業者には理解される。たとえば、画像がキーワードよりもむしろ画像コンテンツ記述子に基づいて索引付けされていてもよい。また、キーワードは、画像の周囲の状況、すなわち、誰が、何を、何処で、何時、及び何処でといったパラメータを記述していてもよい。コンテンツ記述子は、デジタルグラフィカルマテリアル内のデータを現実に記述する。かかる要素は、画像そのものから引き出され、カラーヒストグラム、テクスチャデータ、解像度、明るさ、コントラスト等を含んでいてもよい。
【００３８】
フィルムスキャナ又はデジタルカメラのような典型的な画像発生装置のみならず、画像マテリアルは、ストックフォトデータベース又はプライベートデータベースのような実在するデータベースから発生されてもよい。また、公共の場は、かかるグラフィカル及び／又は画像マテリアルの配信のために発展するであろうことは予知できる。
【００３９】
ピクチャアーカイブ１４は、パーソナルコンピュータの大容量のメモリにおいて、プロセッサユニット４と共に存在してもよいし、又はピクチャアーカイブ１４がプロセッサユニット４の外部にあってもよい。後者の場合、プロセッサユニット４は、ネットワークインタフェース１５を介して、ピクチャアーカイブ１４に接続されていてもよい。
【００４０】
ネットワークインタフェース１５は、プロセッサユニット４の外側にあるものとして例示されているが、プロセッサユニット４の内側に配置されていていてもよい。ネットワークインタフェースは、プロセッサユニット４をインターネットのような外部ネットワークにインタフェースするためのいずれかの装置、又は簡単な電導回路とすることができる。しかし、利用されるネットワークは、プライベートネットワーク、インターネット、商業ネットワーク又はグラフィカルデータのデータベースを運営する他のネットワークとすることができる。
【００４１】
ネットワークインタフェース装置１５に関して、これは、本明細書で記載されるように、典型的なダイアルアップモデム、ＡＤＳＬモデム、ＩＳＤＮインタフェース、ケーブルモデム、ディレクトハードウェア、無線モデム、光モデム、又はプロセッサユニット４を外部ネットワークに相互接続するに適したいずれか他の装置とすることができる。
【００４２】
図２を参照して、注釈及び検索統合エージェント（ＡＲＩＡ）６は、以下の幾つかの論理的なコンポーネントを備えている。ピクチャアーカイブ１４は、先に記載されており、画像の表現及びそれらの関連するメタデータを含んでいるピクチャオブジェクトの記憶を提供する。メタデータは、画像に関連するキーワード又は他のキー情報（たとえば、コンテンツ情報）を含んでいる。
【００４３】
自動インポートエージェント１６は、新たなピクチャコンテンツについて、特定のソース入力を周期的に走査し、このコンテンツをピクチャアーカイブ１４に自動的に組込む。たとえば、特定のソース入力は、たとえば、プロセッシングユニット４に取り付けられたデジタルカメラからのフラッシュカードのような取り外し可能なメモリ、又はネットワークインタフェース１５にわたり外部データベースへの接続であってもよい。
【００４４】
明らかに、通常の技術の１つである他のソース入力は、本実施の形態に従い使用されてもよい。ピクチャデータベースビューア１８は、ディスプレイ１０上のピクチャアーカイブ１４のコンテンツを見るためにナビゲーションの容易さを提供し、小さな選択された画像、及び関連するキーワードのようなその関連するメタデータの両者を表示する。検索エージェント２０のような他のエージェントは、表示されるビューを更新する。または、ピクチャデータベースビューア１８により、ピクチャをドラッグ及びドロップすることができ、さもなければユーザアプリケーション２のウィンドウに移動することができる。
【００４５】
言語アナライザ２２は、ユーザアプリケーション２により発生された単語を分析し、アーカイブ１４からの画像の選択のために、文脈情報を検索エージェント２０に提供する。
【００４６】
ユーザアプリケーション２０は、電子メール、ウェブページポスティング、ワードプロセッシング、プレゼンテーションソフトウェア、カレンダリング等のような異なる形式をとる。以下の記載のために、電子メールテキストエディタは、典型的な応用に使用される。
【００４７】
言語アナライザ２２は、電子メールの応用に入力されているユーザ入力を分析し、コンテンツ情報を検索エージェント２０に提供する。典型的な使用において、冠詞、接続詞等のような共通の英語の単語は無視される。検索エージェント２０は、言語アナライザ２２から入力を受ける。検索エージェント２０は、文脈として該入力を使用し、関連性に従いデータベース１４における画像をランク付けし、ピクチャデータベースビューア１８によりディスプレイ１０上に示されるようなビューを更新する。
【００４８】
ユーザが、画像を更新されたビューからアプリケーションウィンドウにドラッグ及びドロップ、又は移動するのに入力装置１２を援用する時、画像がドロップされる周囲からの文脈は言語アナライザ２２により分析され、ピクチャアーカイブ１４における画像に付属するために自動的に提案されるキーワードが抽出される。
【００４９】
実在する注釈は、ピクチャアーカイブ１４においてもしあれば、言語アナライザ２２により抽出されるキーワードの現在のセットにより、手動的又は自動的に注釈される。たとえば、注釈エージェント２４は、ピクチャデータベースビューア１８からユーザにより明確に援用することができる。ユーザは、提案されたキーワードを受けるか、又は手動で編集して画像に対してキーワードを付すことができる。代替的に又は加えて、注釈エージェント２４は、ピクチャアーカイブ１４により抽出されたキーワードの全てで自動的に増加する。
【００５０】
後者の場合、自動的に抽出されたキーワードは、自動的に抽出されたキーワードにより低い信頼度を割当てることにより、手動により付加されたキーワードから区別することができる。これらの構成要素は、注釈及び検索統合エージェント６を構成し、このサブシステムは、電子メールアプリケーションのような１つ又は複数のターゲットアプリケーションに統合されるように設計される。
【００５１】
図３は、注釈及び検索統合エージェント６により実行される検索動作の基本的な論理フローを示している。ステップ３０において、検索エージェント２０は、言語アナライザ２２により抽出された新たな文脈を受ける。文脈は、現実的に時間的（たとえば、「昨日」、又は「日曜日」）であるか否かに依存する異なるやり方で扱われてもよい。
【００５２】
ステップ３２において、アーカイブ文脈が時間的な参照であると判定された場合、次いで、ステップ３４において、整合のためにピクチャアーカイブ１４がサーチされる。たとえば、デジタル画像は、メタデータとして日付−時間スタンプを有して捕捉される。参照される時間点、すなわち同じ日又は同じ月のいずれかに整合する画像が発見された場合に、整合が行われる。
【００５３】
整合する場合、次いで、ステップ３６において、参照時間点からの時間的な距離に従って画像はランク付けされる。ディスプレイ１０上のピクチャデータベースビューア１８により示されるビューは、ステップ３８に従い更新される。たとえば、高くランク付けされた画像は、より低くランク付けされた画像よりもリストの更に上の方に上げることができる。
【００５４】
ステップ３２において、文脈が時間的な参照ではないと判定された場合、次いで、ステップ４０において、特定の画像への関連性に従い画像はランク付けされ、ピクチャデータベースビューア１８により示されるビューは、ステップ３８に従い更新される。画像のランク付けは、文脈において提供されているどの位のキーワードがピクチャオブジェクトに付されるキーワードに整合するかにより判定される。考慮される文脈のサイズは、プログラム変数である。
【００５５】
たとえば、抽出された文脈が単語「海岸」及び「フロリダ」を含んでいる場合、それに付されている両キーワードを有する画像は、高くランク付けされ、それに付されているたった１個のキーワードを有する画像が続いてランク付けされる。
【００５６】
他のランク付けを定義することができる。たとえば、空間的なランク付けである（ここでは、言語アナライザ２２により抽出された文脈において高められる参照位置名からの距離に従い画像がランク付けされる）。さらには、手動で注釈された画像にはより高い信頼度が割当てられるので、ランク付けもまた、抽出されたキーワードが自動的に提供されるか、又は抽出されたキーワードが手動で選択されるか、を考慮することができる。
【００５７】
加えて、画像が時間的及び非時間的な参照の混合を有していてもよいので、整合機能は、時間的な文脈に従い整合される画像とキーワードの文脈に従い整合される画像との交差に注目してもよい。この場合において、該交差を有する画像が検索及びランク付けされてもよく、又は該交差を有する画像を両方の参照を有していない画像よりも高くランク付けすることができる。
【００５８】
注釈及び検索統合エージェント６の例示的な実現は、図４〜図６の画面構成において示されている。最初の実現は、カスタムビルト（custom-built）画像検索及び注釈アプリケーションを含んでいる窓５２に結合される、標準Java Swing Text Editorのような標準的なテキストエディタ５０を備えている。
【００５９】
テキストエディタ５０の下には、ボックス５４において、エディタのカーソル５６を囲んでいるテキストから取られた検索用語表示されている。テキストエディタ５０の右に、検索窓５８において検索された画像６０の列が表示されている。この列は、動的に更新される。それぞれの画像６０の右に、該画像に付属する注釈キーワードのリスト６２が現れている。
【００６０】
ユーザは、テキストエディタ５０において、自由にタイプ入力することができる。テキスト編集操作は、図４において示されるように、注釈及び検索統合エージェント６により記録される。注釈及び検索統合エージェント６は、連続的に動作し、テキストエディタ５０においてユーザのタイプ入力を観察する。
【００６１】
注釈及び検索統合エージェント６への入力は、言語アナライザ２２により分析され、テキストカーソル５６の周辺の文脈におけるキーワードを抽出する。テキスト分析を実行する異なる典型的な方法が存在するが、確かなアプローチは、情報検索の用語頻度−逆文書頻度（ＴＦＩＤＦ）方法、のような、一般的な情報抽出発見、一般的な単語除去（word elimination）を使用することである。
【００６２】
たとえば、ＴＦＩＤＦ方法は、あるユーザと通信している全ての人々によりその単語がどのくらい希に使用されているかに関連して、ある人からの電子メール通信を該単語がどのくらいよく特徴付けているかに加えて、その言葉が問い合わせにおいてどのくらい重要であるかを考慮している。
【００６３】
カーソル５６への１つ又は複数のより近いキーワードは、テキストエディタ窓５２の下のボックス５４において連続的に表示される。ここでは、言語アナライザ２２により考慮される文脈のサイズに依存して、多数のキーワードが表示されている。キーワードは、ピクチャアーカイブ１４における画像データベースに問い合わせするために使用され、画像６０のランク付けされたリストが、関連性の順に、列５８において右にグラフィカルに表示される。キーワードは、キーストローク毎に再計算される。
【００６４】
たとえば、図４において示されるように、ユーザは、テキストエディタに電子メールメッセージ、“Dear Karen, Last Week Joe and kids made a birthday”をタイプ入力することにより開始し、エージェントはキーワード“birthday”を抽出する。さしあたり、少なくとも１つの画像がこの単語で予め注釈されていると仮定すると、この単語は、イベントの画像を検索するのに十分なものであり、列５８におけるテキストエディタ５０の右へ現れている。
【００６５】
この時点で、電子メールメッセージについての良好な例示となる画像６０ａを作る可能性が高く、列５８における更新されたビューから画像をドラッグして、テキストエディタ５０のアプリケーション窓５２にドロップしてもよい。代替的に、たとえば、画像６０ａへの簡単なクリックにより、画像をカーソル５６の点に挿入することができる。
【００６６】
次いで、図６において示されるような電子メールに画像６０ａが挿入されて、ユーザは、テキストエディタに電子メールメッセージ、“Dear Karen, Last Week Joe and kids made a birthday party for me. They made me wear a party hat. I got a motorcycle for a present…”をタイプ入力し続け、注釈及び検索統合エージェント６は、キーワード“party”、“hat”及び“motorcycle”を抽出する。
【００６７】
上述したように、画像がこれらの単語で注釈されていると仮定すると、これらに単語は、このイベントの画像を検索するのに十分なものである。該画像は、列５８におけるテキストエディタ５０の右に現れている。先のように、この時点で、電子メールメッセージについて良好な例示となる１つ又は複数の画像を作る可能性が高く、ドラッグ及びドロップ動作（又は画像上での１回のクリック）により、画像がカーソル５６の点でエディタに挿入される。
【００６８】
このインタラクションが、典型的な画像検索からどのくらい異なるかを理解することは重要である。たとえば、画像検索アプリケーションにスイッチする必要がない。キーワードの問い合わせをタイプする必要がなく、ファイルダイアログボックスをプルダウンする必要がない。
【００６９】
さらに、電子メールにおいて画像を使用するために、カットアンドペーストを必要としない。最も重要なことは、全体のユーザインタラクションは、僅か簡単な動き、すなわちワンクリックであることが好ましい。勿論、所望の画像は、即時に現れない場合があるが、その場合、適切な画像を発見するまでリストを通してスクロールし、ダイアログボックスを呼び出して他の画像セット等をロードする。その場合であっても、典型的なアプローチと比較して若干のインタラクションをなお節約することができるが、重要なことは、最も可能性のある場合が我々の指先での訂正であり、平均的なインタラクションがより低減される。
【００７０】
検索を援用するために使用されるタイプ入力されたテキストにおいて現れる他の種類の情報がある。１つの情報の種類は、時間的な参照である。多くの場合、自動インポートエージェント１６によりインポートされる画像は、捕捉した日付及び時間を含んでおり、注釈及び検索統合エージェント６は、かかる時間的な情報を利用するために設計される。
【００７１】
たとえば、タイプ入力“Last week”により、システムは、先週に関連する日付の範囲を判定することができ、該範囲と画像毎にタイムスタンプされた日付とを比較することができ、該日付の範囲内の画像を検索することができる。この能力には、特定及び相関的な日付、間隔、「約」等を含んでいる時間参照の大量のボキャブラリが含まれる。
【００７２】
別の情報の種類は、位置的な参照である。デジタルカメラは、現在手に入れることができ、画像と共にグローバルポジショニング（ＧＰＳ）データを捕捉する。たとえば、“San Francisco”と位置をタイプ入力することで、システムは、対応するＧＰＳ座標を探し出し、この情報を画像が撮影された位置に関連付けし、次いで同じ座標を有する画像を検索する。
【００７３】
所望の画像が未だ注釈されていないと仮定すると、たとえば、デジタルカメラで通常使用されるコンパクトフラッシュカードのような画像記憶メディアを挿入することにより、画像が自動インポートエージェント１６により最初にロードされている場合の通りとなる。
【００７４】
フラッシュカードメディアがコンピュータに挿入されるとすぐに、注釈及び検索統合エージェント６は、フラッシュカード上の画像をピクチャアーカイブ１４に即時にロードする。注釈及び検索統合エージェント６は起動して、数秒毎に到来する入力について、自動的にポーリングされる。これは些細な事のように思えるが、ファイルダイアログボックスがポップアップされるのを待ち、ファイルシステムにおいて画像を送るべき場所を見つけ、該画像を何と呼ぶべきか及び次回検索することができるように該呼び名を覚える、といった「画像をロードする」動作を援用するための必要が無くなる。挿入されたばかりの画像は、ユーザが直ぐに見ることを望む可能性があるので検索ウィンドウ５８の一番上に即時に移動される。
【００７５】
上記タイプ入力された文字の開始文を例示するために画像を通してスクロールして検索する一方で、ユーザは、画像が、該画像を記述するために適切な多くのキーワードを含んでいるテキストの隣のテキストエディタ５０において在位して今現れていることに注目する。これは、次回に検索がより簡単になるように、存在するテキストを使用して画像を注釈するための機会を表している。
【００７６】
たとえば、ユーザは、テキストエディタ５０から単語“hat”、“party”等のいずれかを画像６０ａにドラッグして、該画像に関する注釈を配置することができる。たとえば、図６に示されるように、ユーザは、画像６０ａに注釈“hat”を加えるために選定される。
【００７７】
図５において示されるように、注釈及び検索統合エージェント６は、周囲のテキストから候補となるキーワードを提案するダイアログボックス７０（記述子が画像の前に、後に現れることがあるが、通常閉じている）を表示することにより、整合に応答することができる。これにより、ユーザは、（ボックス７４をチェックすることにより）１つ又は複数の適切なキーワードを直ぐに選択することができ、関連のないキーワードを避けることができる。次いで、選択されたキーワードは、ＡＤＤボタン７６上をクリックすることにより、該画像についての注釈に追加される。
【００７８】
また一方、インタラクションは、注釈アプリケーション内又は外での文脈スイッチに加えて、タイプ入力及びカットアンドペースト又はキーワードの外部リストからの選択、典型的な画像注釈アプリケーションにおけるものを基準にして合理化される。
【００７９】
要約すると、注釈及び検索統合エージェントは、典型的な電子メールエディタ及び典型的な検索アプリケーションの結合であり、幾つかの特徴は、電子メールのメッセージを作成する間に画像注釈及び検索のために一般に使用される動作を実行するために、ユーザにとってより便利なものとなっている。
【００８０】
電子メールエディタにより、ユーザは、メッセージをタイプ入力することができ、インターネットのようなネットワークにわたり該メッセージを送出することができる。画像検索アプリケーションは、画像のデータベースを記憶しており、それぞれの画像とキーワードのセットを関連付ける。これにより、ユーザは、新たなキーワードを画像に付属させるか、存在するキーワードを削除するか、又はキーワードのセットに基づいてデータベースにおける画像のセットを検索するか、のいずれかを行うことができる。
【００８１】
キーワードのセットのそれぞれについて、画像検索アプリケーションは、ユーザのキーワードに最も整合したものが最初に現れる順序に順序化されたリストを戻す。画像と電子メールメッセージをより便利に結合するために、注釈及び検索統合エージェントは、電子メールメッセージにおいて最近タイプ入力されたキーワードに基づいて、画像を検索する。
【００８２】
画像は、画像検索アプリケーションから電子メールアプリケーションにドラッグされてもよく、この場合には、電子メールメッセージに挿入される。電子メールメッセージからの単語は、電子メールアプリケーションから画像検索アプリケーションにおける画像にドラッグされてもよく、この場合には、それらの単語は、画像検索アプリケーションデータベースにおける該画像に関連付けられる。
【００８３】
電子メールメッセージにおいて現れている画像上で左クリックすると、画像を囲んでいる単語から取られたキーワードのセットがチェックボックスにおいて表示され、対応するボックスがチェックされると、該単語は画像検索アプリケーションデータベースにおける該画像と記憶される。
【図面の簡単な説明】
【図１】本発明の例示的な実施の形態における、注釈及び検索エージェントを含むソフトウェアアプリケーションの機能ブロック図である。
【図２】本発明による注釈及び検索エージェントの機能ブロック図である。
【図３】図２において示される注釈及び検索エージェントの基本的なロジックフローのフローチャートである。
【図４】本発明の実施の形態による注釈及び検索エージェントのアプリケーションを示す、電子メールテキストエディタのメインウィンドウのスクリーンレイアウトの例である。
【図５】図４において示されるメインウィンドウにおいて現れるキーボードダイアログボックスの例である。
【図６】最後に電子メールが書かれ、送出準備がなされた図４において示されるメインウィンドウの例である。
【符号の説明】
２：ユーザアプリケーション
４：プロセッシングユニット
６：注釈及び検索統合ユニット
８：グラフィカルユーザインタフェース
１０：ディスプレイ
１２：入力装置
１４：ピクチャアーカイブ
１５：ネットワークインタフェース
１６：自動インポートエージェント
１８：ピクチャデータベースビューア
２０：検索エージェント
２２：言語アナライザ
２４：（手動）注釈エージェント
３０：新たな文脈分析ステップ
３２：時間的な判定ステップ
３４：時間的なステップへのマッピング
３６：時間的なランク付けステップ
３８：更新ビューステップ
４０：キーワードランク付けステップ
５０：テキストエディタ
５２：窓
５４：ボックス
５６：カーソル
５８：検索ウィンドウ
６０：画像
６０ａ：選択された画像
６２：注釈キーワードのリスト
７０：ダイアログボックス
７２：示唆される注釈
７４：注釈選択チェックボックス
７６：ＡＤＤボタン

Claims

テキスト入力機能を有するアプリケーションプログラムに入力されたテキストを使用して、画像と該画像についての注釈とを得るためのコンピュータシステムを動作する方法であって、
複数の画像と該複数の画像のそれぞれに関連するデータとを記憶手段に記憶するステップと、
入力手段を介してテキストを入力し、入力されたテキストを前記アプリケーションプログラムの表示領域のうちで前記テキスト入力機能が提供するテキスト表示領域に表示するステップと、
前記テキスト表示領域で表示されているテキストを分析し、前記テキスト表示領域で表示されているテキストの文脈に基づいてキーワードを抽出するステップと、
前記記憶手段に記憶されている画像から、抽出されたキーワードに対応するデータを有する画像を検索し、検索された画像を画像表示領域に表示するステップと、
前記テキスト表示領域で表示されているテキストから抽出されたキーワードに基づいて決定される少なくとも１つの注釈のためのキーワードを提案するための注釈表示領域を提供し、前記入力手段を使用して、提案されるキーワードのうちの少なくとも１つを前記検索された画像の１つ以上と関連付けするステップと、
前記注釈表示領域により関連付けされた画像とキーワードとを前記記憶手段に記憶するステップと、を備える方法。