JP5680063B2

JP5680063B2 - デジタル写真のコレクションからのランドマーク

Info

Publication number: JP5680063B2
Application number: JP2012511045A
Authority: JP
Inventors: ハートウィグアダム，; リーチャン，
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2009-05-15
Filing date: 2010-05-14
Publication date: 2015-03-04
Anticipated expiration: 2030-05-14
Also published as: US9721188B2; US20130202198A1; US9020247B2; KR101672570B1; CN102549571A; AU2010248862B2; CA2762090C; US20100290699A1; US20180211134A1; JP2012527057A; US8396287B2; KR20120026093A; US20150213329A1; CA2762090A1; EP2430572A1; CN102549571B; AU2010248862A1; US10303975B2; WO2010132789A1

Description

（背景）
（技術分野）
本発明は、概して、デジタル写真のコレクションに関し、より具体的に、大規模のデジタル写真のコレクションにおいて人気のランドマークを識別することに関する。

（背景技術）
増大したデジタル画像の使用、増大したデジタル記憶容量、およびインターネットのようなデジタル媒体によって提供された相互接続性と共に、ますます増大する数の人にとって、常により大規模のデジタル写真の集合がアクセス可能である。広い幅の関心を有する人々は、世界に広がるさまざまな場所からさまざまな対象物の写真を撮り、他の人が、例えば、インターネットで見るために、利用可能なそれらの写真を作る。例えば、世界にわたるさまざまなランドマークおよび観光地のデジタル写真は、写真を撮るのに異なる熟練レベルを有する人々によってウェブ上に投稿され得る。そのような写真は、異なる視点から、異なる状況の下、および／または異なる距離から同じのランドマークを見せ得る。

膨大な数のこのような利用可能な画像は、人気のランドマークの指針またはガイドとして有用であり得る。デジタル画像のこれらの大規模集合に含まれた情報を利用するために、集合が編成される必要がある。例えば、（ＧｏｏｇｌｅＩｎｃ．，ＭｏｕｎｔａｉｎＶｉｅｗ，Ｃａｌｉｆｏｒｎｉａからの）ＰｉｃａｓａＷｅｂＡｌｂｕｍｓのようなデジタル画像ウェブサイトには、高いレベルのメニューで始まり、人は、写真が利用可能である対象体の詳細なリスティングまで掘り下げ得る。代替的には、人は、デジタル写真を有する１つ以上のサイトを検索することが可能であり得る。いくつかの観光情報のウェブサイトは、例えば、出版された人気の観光地のリストに関連付けられるランドマークの画像をダウンロードしている。

多くの従来のデジタル写真編成システムは、写真にタグを付けるために、ユーザーに頼る。数多くの新しい写真が、これらのデジタル画像のコレクションに加えられるので、ユーザーがそれらのデジタル画像のコレクションの有用性を増大する完全かつ一致した方式で手動に写真にラベルを付けるように実行できない場合にある。これらの大規模のコレクションから情報（例えば、最も人気の観光目的地）を自動的に抽出し得るシステムは、「ＡｕｔｏｍａｔｉｃＤｉｓｃｏｖｅｒｙｏｆＰｏｐｕｌａｒＬａｎｄｍａｒｋｓ」という名称の、またＧｏｏｇｌｅＩｎｃ．，Ｃａｌｉｆｏｒｎｉａに譲渡された米国特許出願第１２／１１９，３５９号に説明される。米国特許出願第１２／１１９，３５９号に説明されたシステムは、地理的コーディングに基づくクラスター化ステージと、画像のマッチング視覚特徴に基づくクラスター化ステージとを含む処理パイプラインを使用する。しかしながら、自動的にランドマークを発見し、ランドマークを含む画像に注釈を付けるための他のアプローチが必要とされる。

（要約）
デジタル画像におけるランドマークの自動検出と、それらの画像の注釈とのための方法およびシステムが開示される。１つ実施形態において、デジタル画像においてランドマークを検出し、かつ注釈を付けるための方法は、複数のテキストに関連付けられたデジタル画像における１つ以上の画像に、ランドマークを説明するタグを自動的に割り当てるステップを含む。これは、タグを付けられたランドマークの画像のセットを生成する。出現モデルは、タグを付けられたランドマークの画像のセットからのランドマーク対して記憶され得る。これは、出現モデルを用いる新しいデジタル画像のランドマークの検出を可能にする。方法はまた、ランドマークを説明するタグを用いて新しい画像に注釈を付けるステップを含み得る。

もう１つの実施形態は、デジタル画像においてランドマークを自動的に検出し、かつ注釈を付けるためのシステムである。システムは、メモリ媒体に格納されているテキストに関連付けられたデジタル画像の少なくとも１つのコレクションと、媒体に通信連結された少なくとも１つのプロセッサとを有する。プロセッサは、複数のテキストに関連付けられたデジタル画像における１つ以上の画像に、ランドマークを説明するタグを自動的に割り当てるように構成される。これは、タグを付けられたランドマークの画像のセットを生成する。出現モデルは、タグを付けられたランドマークの画像のセットからのランドマーク対して記憶され得る。これは、出現モデルを用いる新しいデジタル画像のランドマークの検出を可能にする。

本発明のさらなる特徴および利点も、本発明のさまざまな実施形態の構造および動作も、添付した図面を参照して以下に詳細に説明される。本発明は、本明細書において説明される具体的な実施形態に限定されないことが留意される。このような実施形態は、ただ例示的な目的のために本明細書において示される。追加の実施形態は、本明細書に含まれる教示に基づき、当業者にとって明白である。
本願明細書は、例えば、以下の項目も提供する。
（項目１）
デジタル画像においてランドマークを検出し、かつ注釈を付けるための方法であって、
該方法は、
（ａ）タグを付けられたランドマークの画像のセットを生成するために、複数のテキストに関連付けられたデジタル画像における１つ以上の画像に、ランドマークを説明するタグを自動的に割り当てることであって、該タグを付けられたランドマークの画像のセット内の画像は、該ランドマークを含むようにアルゴリズム的に決定される、ことと、
（ｂ）該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
（ｃ）該出現モデルを用いて新しい画像において該ランドマークを検出することと
を含み、該ステージ（ａ）〜（ｃ）が、少なくとも１つのプロセッサによって行われる、方法。
（項目２）
前記方法は、
（ｄ）前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けることをさらに含む、項目１に記載の方法。
（項目３）
ステージ（ａ）は、
（ｉ）前記複数のテキストに関連付けられたデジタル画像からランドマークｎ−グラムのリストを生成することと、
（ｉｉ）ｎ−グラムセットの各ランドマークｎ−グラムに対してｎ−グラム点数を計算することであって、該ｎ−グラムセットは、該ランドマークｎ−グラムのリストのサブセットである、ことと、
（ｉｉｉ）前記画像に対して前記ランドマークを説明する前記タグを割り当てることであって、該ランドマークを説明する該タグは、該ｎ−グラムセットにおける少なくとも１つのランドマークｎ−グラムに基づく、ことと
を含む、項目１に記載の方法。
（項目４）
ステージ（ａ）（ｉ）は、
前記複数のテキストに関連付けられたデジタル画像に電子的にアクセスすることと、
該複数のテキストに関連付けられたデジタル画像において画像に関連付けられたテキストから前記ランドマークｎ−グラムのうちの少なくとも１つを検索することと
を含む、項目３に記載の方法。
（項目５）
ステージ（ａ）（ｉ）は、
少なくとも最小確実性尺度を有する前記ランドマークｎ−グラムを選ぶことをさらに含む、項目４に記載の方法。
（項目６）
前記確実性尺度は、特有の著者の数に基づく、項目５に記載の方法。
（項目７）
ステージ（ａ）（ｉｉ）は、
前記複数のテキストに関連付けられたデジタル画像に相関加重を割り当てることであって、該相関加重は、該複数のテキストに関連付けられたデジタル画像における画像のメタデータの相関に基づき、該複数のテキストに関連付けられたデジタル画像は、前記テキストに関連付けられた画像のセットを含む、ことと、
該複数のテキストに関連付けられたデジタル画像からマッチング画像グラフを生成することと、
ランドマークｎ−グラムと、該複数のテキストに関連付けられたデジタル画像の画像との間のリンクを生成するために、前記ランドマークｎ−グラムを該複数のテキストに関連付けられたデジタル画像の画像にリンクさせることと
を含む、項目３に記載の方法。
（項目８）
ステージ（ａ）（ｉｉ）は、
前記マッチング画像グラフを用いて前記複数のテキストに関連付けられたデジタル画像の各画像に対して地理的確実性の点数を推定することをさらに含む、項目７に記載の方法。
（項目９）
前記ｎ−グラム点数は、前記マッチング画像グラフに基づく、項目７に記載の方法。
（項目１０）
前記ｎ−グラム点数は、前記マッチング画像グラフの内部エッジの強さと、該マッチング画像グラフの外部エッジの強さとの比率として計算され、内部エッジは、少なくとも１つの共通ランドマークｎ−グラムを有する画像の間に存在し、外部エッジは、少なくとも１つの共通ランドマークｎ−グラムを有しない画像の間に存在する、項目９に記載の方法。
（項目１１）
ステージ（ａ）（ｉｉ）は、
前記ｎ−グラムセットのランドマークｎ−グラムに対して地理的場所の分散を計算することであって、該分散は、前記マッチング画像グラフにおける画像のｎ−グラムセットの前記ランドマークｎ−グラムを有する画像の地理的場所に基づく、ことと、
該ｎ−グラムセットから、所定の閾値を超える地理的場所の分散を有する任意のランドマークｎ−グラムを除去することと
をさらに含む、項目８に記載の方法。
（項目１２）
ステージ（ａ）（ｉ）は、
前記ｎ−グラムセットにおいて２つ以上のランドマークｎ−グラムを統合することをさらに含む、項目７に記載の方法。
（項目１３）
前記統合することは、前記２つ以上のランドマークｎ−グラムの前記点数の類似と、リンクされたランドマークｎ−グラムにおいて該２つ以上のランドマークｎ−グラムを有する画像の重なりとのうちの少なくとも１つに基づく、項目１２に記載の方法。
（項目１４）
前記メタデータは、
著者と、
地理的場所と、
オリジンの時間と
のうちの少なくとも１つに関連する情報を含む、項目７に記載の方法。
（項目１５）
前記マッチンググラフの各リンクは、前記複数のテキストに関連付けられたデジタル画像の２つの画像の間のマッチング特徴説明子を表す、項目７に記載の方法。
（項目１６）
デジタル画像においてランドマークを自動的に検出し、かつ注釈を付けるためのシステムであって、該システムは、
メモリ媒体に格納されているテキストに関連付けられたデジタル画像の少なくとも１つのコレクションと、
該媒体に通信連結された少なくとも１つのプロセッサと
を含み、該少なくとも１つのプロセッサは、
タグを付けられたランドマークの画像のセットを生成するために、複数のテキストに関連付けられたデジタル画像における１つ以上の画像に、ランドマークを説明するタグを自動的に割り当てることであって、該タグを付けられたランドマークの画像のセット内の画像は、該ランドマークを含むようにアルゴリズム的に決定される、ことと、
該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
該出現モデルを用いて新しい画像において該ランドマークを検出することと
を行うように構成される、システム。
（項目１７）
前記少なくとも１つのプロセッサは、
前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けるようにさらに構成される、項目１６に記載のシステム。
（項目１８）
前記少なくとも１つのプロセッサは、
前記複数のテキストに関連付けられたデジタル画像からランドマークｎ−グラムのリストを生成することと、
ｎ−グラムセットの各ランドマークｎ−グラムに対してｎ−グラム点数を計算することであって、該ｎ−グラムセットは、該ランドマークｎ−グラムのリストのサブセットである、ことと、
前記画像に対して前記ランドマークを説明する前記タグを割り当てることであって、該ランドマークを説明する該タグは、該ｎ−グラムセットにおける少なくとも１つのランドマークｎ−グラムに基づく、ことと
を行うようにさらに構成される、項目１６に記載のシステム。
（項目１９）
前記少なくとも１つのプロセッサは、
前記複数のテキストに関連付けられたデジタル画像に相関加重を割り当てることであって、該相関加重は、該複数のテキストに関連付けられたデジタル画像における画像のメタデータの相関に基づき、該複数のテキストに関連付けられたデジタル画像は、前記テキストに関連付けられた画像のセットを含む、ことと、
該複数のテキストに関連付けられたデジタル画像からマッチング画像グラフを生成することと、
ランドマークｎ−グラムと、該複数のテキストに関連付けられたデジタル画像の画像との間のリンクを生成するために、前記ランドマークｎ−グラムを該複数のテキストに関連付けられたデジタル画像の画像にリンクさせることと
を行うようにさらに構成される、項目１８に記載のシステム。
（項目２０）
コンピュータ読み取り可能な媒体を含むコンピュータプログラム製品であって、該コンピュータ読み取り可能な媒体は、プロセッサが画像に名前を付けることを可能にするために、該媒体に記録されたコンピュータプログラム論理を有し、該コンピュータプログラム論理は、
タグを付けられたランドマークの画像のセットを生成するために、該プロセッサが、複数のテキストに関連付けられたデジタル画像における１つ以上の画像に、ランドマークを説明するタグを割り当てることを可能にするように構成される第１のモジュールであって、該タグを付けられたランドマークの画像のセット内の画像は、該ランドマークを含むようにアルゴリズム的に決定される、第１のモジュールと、
該プロセッサが、該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することを可能にするように構成される第２のモジュールと、
該プロセッサが、該出現モデルを用いて新しい画像において該ランドマークを検出することを可能にするように構成される第３のモジュールと
を含む、コンピュータプログラム製品。
（項目２１）
前記コンピュータプログラム製品は、
該プロセッサが、前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けることを可能にするように構成される第４のモジュールをさらに含む、項目２０に記載のコンピュータプログラム製品。
（項目２２）
前記第１のモジュールは、
前記複数のテキストに関連付けられたデジタル画像からランドマークｎ−グラムのリストを生成することと、
ｎ−グラムセットの各ランドマークｎ−グラムに対してｎ−グラム点数を計算することであって、該ｎ−グラムセットは、該ランドマークｎ−グラムのリストのサブセットである、ことと、
前記画像に対して前記ランドマークを説明する前記タグを割り当てることであって、該ランドマークを説明する該タグは、該ｎ−グラムセットにおける少なくとも１つのランドマークｎ−グラムに基づく、ことと
を行うようにさらに構成される、項目２０に記載のコンピュータプログラム製品。
（項目２３）
前記第１のモジュールは、
前記複数のテキストに関連付けられたデジタル画像に相関加重を割り当てることであって、該相関加重は、該複数のテキストに関連付けられたデジタル画像における画像のメタデータの相関に基づき、該複数のテキストに関連付けられたデジタル画像は、前記テキストに関連付けられた画像のセットを含む、ことと、
該複数のテキストに関連付けられたデジタル画像からマッチング画像グラフを生成することと、
ランドマークｎ−グラムと、該複数のテキストに関連付けられたデジタル画像の画像との間のリンクを生成するために、前記ランドマークｎ−グラムを該複数のテキストに関連付けられたデジタル画像の画像にリンクさせることと
を行うようにさらに構成される、項目２２に記載のコンピュータプログラム製品。

本発明の実施形態について、添付した図面に例示され得る本発明の実施形態の例が参照される。これらの図面は、限定ではなく、例示的であると意図される。本発明が、概してこれらの実施形態の前後関係で説明されるが、本発明の範囲をこれらの特定の実施形態に限定しないと意図されることが理解されるべきである。

図１は、本発明の実施形態に従う、デジタル画像におけるランドマークの自動検出のためのシステムを示す。図２は、本発明の実施形態に従う図１のシステムの部品のさらなる詳細を示す。図３は、本発明の実施形態に従って、自動的にデジタル画像においてランドマークを検出し、かつデジタル画像に注釈を付けるためのプロセスである。図４は、本発明の実施形態に従う、ランドマークに対するタグを選択されたテキストに関連付けられた画像に割り当てるためのプロセスである。図５は、本発明の実施形態に従う、テキストに関連付けられた画像に基づいてｎ−グラム（ｇｒａｍ）のリストを生成するためのプロセスである。図６は、本発明の実施形態に従う、図４のプロセスに従って生成されたｎ−グラムのリストからｎ−グラムのセットを選択するプロセスである。

（詳細な説明）
本発明が本明細書において特定の応用のための例示的な実施形態を参照して説明されるが、本発明は、それらに限定されないことが理解されるべきである。当業者は、本明細書の教示に触れて、本明細書の範囲内の追加の変更、応用、および実施形態、並びに本発明が著しい実用性があり得る追加の分野を認識する。

概説
本発明は、デジタル画像において自動的に物体を認識し、かつ分類するための方法およびシステムを含む。例えば、本発明の実施形態は、インターネット上にアクセス可能であるデジタル画像のコレクションに基づいて最も人気の観光ランドマークを認識し得、分類し得、そして順位を付け得る。本発明の方法およびシステムは、最も人気の観光場所に対して、画像の最新のリストおよびコレクションの有効的なメンテナンスを可能にし得る。いくつかの実施形態において、観光場所の人気は、ユーザーによってインターネット上に投稿されたその場所の画像の数に基づいて近似され得る。

数多くの個人は、彼らの近隣の周囲、彼らの日常活動において訪れた場所、および彼らの観光旅行において訪れた地のデジタル写真を撮る。使用されているカメラは、さまざまなレベルの品質および高度化である。画像を捉える個人は、さまざまな熟練レベルである。画像は、さまざまな角度から、さまざまなレベルの照明で、さまざまなレベルの周囲視覚ノイズと共に、さまざまな天気状況等で捉えられる。次に、これらの画像のうちの多くのは、写真共有ウェブサイト上に投稿され、または他の手段を通してデジタル化利用可能に作られる。デジタル画像、例えばデジタル写真の膨大のコレクションへのアクセスは、インターネットのようなネットワークを通して利用可能にされる。

しばしば、オンラインに画像を投稿するユーザーはまた、例えば、１つ以上のタブおよび／またはキャプションを加えることによって投稿された画像に注釈を付ける。タグは、画像に名前を付けるために使用され得る。タグはまた、画像に関連するキーワードを割りたてるために、画像に割り当てられ得る。例えば、ＥｉｆｆｅｌＴｏｗｅｒの画像は、タグ「ＥｉｆｆｅｌＴｏｗｅｒ」、「Ｐａｒｉｓ」、「Ｆｒａｎｃｅ」、「Ｅｕｒｏｐｅ」、「ｓｕｍｍｅｒ」、またはＴｏｗｅｒの前にポーズしているように見せられる人の名前に割り当てられ得る。タグは、さまざまなレベルの粒度での編成ツールとして価値があり、「Ｆｒａｎｃｅ」は、フランスにおけるランドマークに対するサーチで画像を分類するために有用であり得るが、タグとして「ＥｉｆｆｅｌＴｏｗｅｒ」のみを有することは、「Ｐａｒｉｓ」および／または「フランス」におけるランドマークに対するサーチから画像を除去し得る。それらの画像に含まれるランドマークを決定するのにおいて画像のタグの精度および有用性のバリエーションにも関わらず、ユーザーにタグを付けられた画像の集合は、自動ランドマーク認識システムを構築する目的のための価値のある情報のソースである。

情報の他の潜在的なソースは、テキストおよび画像にリンクするさまざまな他のドキュメントおよび電子ソースを含む。例えば、ＥｉｆｆｅｌＴｏｗｅｒについての雑誌記事は、その対象物の写真を含み得る。さまざまなランドマークについてのブログ投稿を含む、個人によって書かれ、そして／または投稿された新聞コンテンツ、雑誌およびジャーナルコンテンツ、記事等は、しばしば、テキスト記述に直接に試みされる画像を含む。テキストに関連付けられた認識可能なランドマークを有する画像は、タグを付けたランドマークの画像と呼ばれ得る。

本発明の実施形態は、人気のランドマークについての情報を得るために、画像に関するいくつかのタイプの利用可能なデータを利用する。例えば、地理的タグ、テキストタグ、著者の情報、時間スタンプ（例えば、時間またはオリジン）、および視覚マッチ情報は、本発明の実施形態において利用されるタイプの情報のうちのいくつかである。この情報のうちのいくつかは、各画像に対して（例えば、画像に関連付けられたＥＸＩＦタグで）利用可能である。他の情報は、ユーザー割り当てであるかまたはアルゴリズム的に割り当てられる。個々に扱われた場合に、これらのデータの各々は、実質的な弱さを有し得る。例えば、地理的場所データ（例えば、地理的タグ）は、概して写真にされたランドマークではなく、カメラの場所に基づく。または、いくつかの場合において、地理的場所の情報は、ユーザーから提供された情報、例えば、都市名に基づき、それゆえに、正確ではない場合もある。著者および第３者によって提供されたテキストタグは、ランドマークを正確に説明しない場合がある。各画像に対する著者の情報は、カメラの識別子、画像を捉える人、または画像をウェブサイトにアップロードする人に基づき得る。視覚マッチ情報はまた、いくつかのランドマークが小さいエリアに存在する場合、ランドマークの外観がよく似ている場合、および／または画像品質が十分ではない場合のような状況において誤りであり得る。それゆえに、本発明の実施形態は、デジタル画像において高度のランドマーク検出および正確な注釈を得るために、いくつかのタイプの利用可能な情報を利用する。

自動ランドマーク認識および注釈のためのシステム
本発明の実施形態に従う、注釈を付けられた人気のランドマーク画像のデータベースを構築するためのシステム１００が図１に示される。システム１００は、コンピュータ１０１、ユーザーインターフェース１０２、ネットワーク１０３と１０４、テキスト／画像ドキュメントコレクション１０７、ｎ−グラムコレクション１０８、ｎ−グラムフィルタデータベース１０９、注釈を付けられていない画像のデータベース１１０、出現モデルのデータベース１１１、注釈を付けられた画像１１２、およびテキスト／画像ソース１０５を含む。当業者は、システム１００が上にリストされたそれらより多く、少なく、または異なる部品およびモジュールを含み得ると同時になお、本発明と一致することを分かる。

コンピュータ１０１は、通信媒体によって相互接続される１つ以上のコンピュータ、サーバー、または同様の計算デバイスを含み得る。例えば、コンピュータ１０１は、１つ以上のローカルエリアネットワーク、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）ネットワーク、ＧｉｇａｂｉｔＥｔｈｅｒｎｅｔ（登録商標）ネットワーク、ＷＩＦＩネットワーク等によって連結されている１つ以上の市販の利用可能な計算サーバーを含み得る。コンピュータ１０１は、プロセッサ１２１、揮発性メモリ１２２、永続メモリ１２３、ネットワークインターフェース１２４、データベースインターフェース１２５、コンピュータ１０１のモジュールを連結するための通信媒体１２６、および管理されていない画像注釈子モジュール１２７を含む。プロセッサ１２１は、１つ以上の市販の利用可能な中央処理ユニット（ＣＰＵ）、グラフィックスプロセッサユニット（ＧＰＵ）、フィールドプログラマブルゲートアレイ（ＥＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）、および特定用途の集積回路（ＡＳＩＣ）を含み得る。プロセッサ１２１は、コンピュータ１０１内の処理すること、入力を受信すること、およびコンピュータ１０１へまたはコンピュータ１０１からデータを出力することを制御する。例えば、管理されていない画像注釈子モジュール１２７の処理論理がプロセッサ１２１で実行され得る。

揮発性メモリ１２２は、動的ランダムアクセスメモリ（ＤＲＡＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）等のような揮発性メモリを含む。揮発性メモリ１２２は、構成パラメータ、ソースデータおよびモジュール１２７の処理の中間結果を格納するために使用され得る。構成パラメータは、テキスト／画像ソース１０５のための接続情報および、例えば、管理されていない画像注釈子モジュール１２７の処理の動作を構成する他のパラメータを含み得る。永続メモリ１２３は、１つ以上の非揮発性メモリデバイス、例えば、磁気テープ、光学ディスク、フラッシュメモリ、読み取り専用のメモリ（ＲＯＭ）等を含み得る。永続メモリ１２３は、管理されていない画像注釈子モジュール１２７に対する倫理命令、構成パラメータを格納し、モジュール１２７の処理の中間結果および他の結果を格納するために使用され得る。

ネットワークインターフェース１２４は、ネットワーク１０３を含むネットワークを通してコンピュータ１０１に接続されるエンティティ、例えば、テキスト／画像ソース１０５と通信するための機能を含み得る。例えば、ネットワークインターフェース１２４は、インターネットプロトコル（ＩＰ）とハイパーテキスト転送プロトコル（ＨＴＴＰ）処理を含む処理部品を含み得、それにより、コンピュータ１０１がテキストおよび画像情報を得るためにテキスト／画像ソース１０５に接続すること可能にする。例えば、ＨＴＴＰプロトコル処理マシンソフトウェアは、ネットワークインターフェース１２４の一部分として実装され得る。データベースインターフェース１２５は、本発明の実施形態の実施形態に従ってランドマークの画像を処理において使用された１つ以上のデータベースにコンピュータ１０１を接続するための機能を含む。用語「データベース」が必ずしもデータベースマネジメントシステム（ＤＢＭＳ）を指さず、むしろデータの任意のコレクションを含むことが留意されるべきである。それゆえに、データベースインターフェース１２５は、１つ以上のデータベース１０７〜１１２、またはデータベース１０７〜１１２の各タイプのデータベースのタイプと通信するための処理論理を含む１つ以上のＤＢＭＳシステムに接続するためのＤＢＭＳ機能を含み得る。通信媒体１２６は、モジュール１２１〜１２５および１２７を含むコンピュータ１０１のモジュールを接続し得る。通信媒体１２６は、ＰＣＩバス、ＵＳＢ、Ｅｔｈｅｒｎｅｔ（登録商標）等のような通信デバイスを含み得る。

管理されていない画像注釈子モジュール１２７は、本発明の実施形態に従って、ランドマークを識別し、選択されたランドマークに対して出現モデルを生成し、そして画像に注釈を付けるための機能を含む。画像に含まれるランドマークは、画像に既に関連付けられた明示タグに基づいて、または以下に説明されるアルゴリズムの手段を通して識別され得る。管理されていない画像注釈子モジュール１２７の機能は、ソフトウェア、フォームウェア、ハードウェアまたはそれらの組み合わせで実装され得る。１つの実施形態において、管理されていない画像注釈子モジュール１２７の機能のための処理論理は、コンピュータ言語またはスクリプト言語、例えば、Ｃ、Ｃ＋＋、Ａｓｓｅｍｂｌｙ、Ｊａｖａ（登録商標）、ＪａｖａＳｃｒｉｐｔ（登録商標）、Ｐｅｒｌ等で実装され得る。

ネットワーク１０３は、コンピュータ１０１を１つ以上のテキスト／画像ソース１０５に接続する手段を含み得る。ネットワーク１０４は、コンピュータ１０１を１つ以上データベース１０７〜１１２に接続する手段を含み得る。ネットワーク１０３および１０４は、周辺接続、例えば、ＵＳＢ、ＦｉｒｅＷｉｒｅ、またはＥｔｈｅｒｎｅｔ（登録商標）、ＷＩＦＩのようなローカルエリアネットワーク、またはＰＳＴＮまたはインターネットのような広エリアネットワークを含む１つ以上のネットワーク媒体を含み得る。１つの実施形態において、ネットワーク１０３は、インターネットを含み、ネットワーク１０４は、Ｅｔｈｅｒｎｅｔ（登録商標）ベースローカルエリアネットワークを含む。

ユーザーインターフェース１０２は、ＰＣＩバス、ＩＥＥＥ１３９４Ｆｉｒｅｗｉｒｅインターフェース、Ｅｔｈｅｒｎｅｔ（登録商標）インターフェース、ＩＥＥＥ８０２．１１インターフェース等のような相互接続機構のうちのいずれか１つまたはそれらの組み合わせを用いて１つ以上のコンピュータ１０１に接続され得る。ユーザーインターフェース１０２は、ユーザーまたは他の外部エンティティがコンピュータ１０１と相互作用することを可能にする。いくつかの実施形態において、１つ以上のデータベース１０７〜１１２はまた、ユーザーインターフェース１０２を通じて相互作用され得る。グラフィックユーザーインターフェース、ウェブインターフェース、および応用プログラマブルインターフェースのうちの１つ以上は、ユーザーインターフェース１３０に含まれ得る。

テキスト／画像ソース１０５は、ランドマークの画像および関連付けられたテキスト（例えば、タグを付けられたランドマークの画像）を含むさまざまなタイプのデジタルドキュメントコレクションを含み得る。１つの実施形態において、テキスト／画像ソース１０５は、キャプションおよびタグに関連付けられた写真を有する１つ以上の写真コレクションを含む。本明細書に使用されるようなキャプションは、写真に割り当てられるタイトルを指す。本明細書に使用されるようなタグは、写真に割り当てられる１つ以上の単語または句を指す。しばしば、キャプションもタグも写真の著者（例えば、写真の創作者、または写真を写真共有ウェブサイトにアップロードする人）によって割り当てられる。しかしながら、キャプションおよびタグはまた、第３者、または自動化ツールによって、写真に割り当てられ得る。各々が別々に識別されることを除いて、以下の説明における用語「タグ」は、タグもキャプションも含む。

テキスト／画像ソース１０５はまた、画像をドキュメントにハイパーリンクする（およびその逆である）ハイパーテキストドキュメントのコレクションを含み得、新聞集合、雑誌およびジャーナル集合、ブログアーカイブ、デジタル化された書籍を有するデジタル図書館、第３者に注釈を付けられた写真の倉庫、並びに個人およびビジネスのウェブサイトを含み得る。例えば、観光および／または旅行関連のウェブサイト、デジタル旅行ガイド、都市ウェブサイト等は、概してランドマークの画像と、それらのランドマークの説明と含むいくつかのリソースである。しかしながら、１つ以上の画像と関連付けられたテキストとの間の相関が引き出され得るデジタルデータの任意のコレクションは、テキスト／画像ソース１０５に含まれ得る。

テキスト／画像コレクション１０７は、データベースであり、いくつかの実施形態において、テキスト／画像ソース１０５に遠隔で本来にアクセスされたテキスト／画像データのローカルコピーおよび／または修正されたバージョンが、例えば、管理されていない画像注釈子１２７による処理に対してより便利かつ信頼できるアクセスのために保存される。例えば、インターネットのような広エリアネットワークであり得るネットワーク１０３にわたってテキスト／画像ソース１０５のデータおよび画像にアクセスすることが、長い待ち時間を必要とし得るので、コンピュータ１０１において、ローカルで、またはテキスト／画像コレクション１０７のようなネットワーク場所にローカル的に張り付けられるそのようなデータおよび画像のコピーを作るプロセス（示されていない）があり得る。テキスト／画像コレクション１０７はまた、既にタグを付けられた画像のコレクション、例えば、ＰｉｃａｓａＷｅｂＡｌｂｕｍｓのユーザー写真コレクションおよび／または本発明の教示に従って既に処理された画像コレクションを含み得る。いくつかの実施形態において、テキスト／画像コレクション１０７は、各画像に対応するデータ構造を含み得、データ構造は、例えば、テキスト／画像ソース１０５から画像および／またはドキュメントの別個のコピーを生成しなければならないことを避けるために、テキスト／画像ソース１０５の画像およびドキュメントに対する１つ以上のポインターを含む。

ｎ−グラムコレクション１０８は、ｎ−グラムのコレクションを含むデータベースである。ｎ−グラムは、例えば、テキスト／画像コレクション１０７またはテキスト／画像ソース１０５の画像におけるイメージに関連付けられたキャプション、タグ、またはテキストドキュメントから抽出され得る。本明細書に使用されるように、ｎ−グラムは、一連の１つ以上の単語である。ｎ−グラムの選択は、例えば、テキスト分析において使用されるいくつかの技術のうちの１つ以上に類似する方法を用いて行われ得る。本発明の実施形態に従うｎ−グラムの選択および抽出は、以下にさらに説明される。

ｎ−グラムフィルタデータベース１０９は、ｎ−グラムコレクション１０８から濾過されるべきｎ−グラムの１つ以上のリスト、および／またはｎ−グラムコレクション１０８に適用されるべき１つ以上のフィルタリングルールを含む。例えば、ｎ−グラムフィルタデータベース１０９の１つのリストは、「悪い単語リスト」であり得、悪い単語リストに出現するｎ−グラムは、テキスト／画像コレクション１０７、またはテキスト／画像ソース１０５から抽出されず、それらが存在するように見つけられた場合に、ｎ−グラムコレクション１０８から除去される。もう１つのリストは、テキストに関連付けられた画像においてあまりに頻繁に生じるｎ−グラムのリストであり得、それゆえに、ランドマークの識別子として価値があまりない。「ｔｈｅ」および「ｏｆ」のような単語は、このカテゴリ内に考慮され得る。もう１つのリストは、あまり頻繁に出現するように既知である句のリストであり得、それゆえに、判別ランドマーク識別子として十分に有用ではない。

注釈を付けられていない画像データベース１１０は、なお本発明の実施形態に従って注釈を付けられる（例えば、タグを付けられる）べきである画像を含む。例えば、注釈を付けられていない画像データベース１１０は、本発明の実施形態を用いて処理されるために、１人以上のユーザーによってアップロードされ、タグを付けられていないデジタル画像を含み得る。

出現モデルデータベース１１１は、認識モデルを保持し、本明細書において出現モデルと呼ばれ得、画像、例えば、注釈を付けられていない画像データベース１１０の画像においてランドマークを認識するために引き出される。

注釈を付けられた画像データベース１１２は、本発明の実施形態に従って注釈を付けられる画像を含む。例えば、注釈を付けられていない画像データベース１１０からの画像は、それらが本発明の実施形態に従って管理されていない画像注釈子１２７によって処理された後に、注釈を付けられた画像データベース１１２に格納される。データベース１０７〜１１２が上の別々のデータベースとして説明されるが、当業者は、データベース１０７〜１１２が、本発明に一致するさまざまな方法で配列され得、そして／または実装され得る。

図２は、本発明の実施形態に従う管理されていない画像注釈子モジュール１２７のさらなる詳細を示す。この実施形態において、管理されていない画像注釈子モジュール１２７は、３つの処理モジュール：ランドマーク識別子２０１、出現モデル生成子２０２、および画像注釈子２０３を含む。モジュール２０１、２０２、および２０３は、ソフトウェア、フォームウェア、ハードウェアまたはそれらの組み合わせで実装され得る。１つの実施形態において、モジュール２０１〜２０３は、Ｃ＋＋プログラミング言語を用いてソフトウェアで実装される。１つの実施形態において、コンピュータプログラム製品は、コンピュータ読み取り可能な媒体、例えば、ハードディスク、フラッシュディスク、または他の形の記憶体に記録されたモジュール２０１〜２０３のコンピュータプログラム論理を含む論理を有し得る。

ランドマーク識別子モジュール２０１は、テキスト／画像コレクション１０７および／またはテキスト／画像ソース１０５においてランドマークを識別するための機能を含む。１つの実施形態において、ランドマーク識別子モジュール２０１は、入力としてテキスト／画像ソース１０５から画像および関連付けられたテキストを使用し得、そのような画像および関連付けられたテキストをテキスト／画像コレクション１０７にコピーし得る。ランドマーク識別子モジュール２０１はまた、テキスト／画像ソース１０５のテキストを分析し得ると同時に、ｎ−グラムコレクション１０８を使用し、かつ更新する。ｎ−グラムフィルタデータベース１０９はまた、ランドマーク識別子モジュール２０１内の処理において使用され得る。

出現モデル生成子２０２は、例えば、ランドマーク識別子モジュール２０１によって識別された各ランドマークに対して１つ以上の出現モデルを生成するための機能を含む。１つの実施形態において、出現モデル生成子２０２は、入力としてテキスト／画像コレクション１０７の画像および識別されたランドマークを取り得、ランドマークの各々に対して１つ以上の出現モデルを生成し得る。生成された出現モデルは、出現モデルデータベース１１１に書き込まれ得る。

本明細書において使用されるような出現モデルは、画像のある共通特徴の自動認識において使用されるためのテンプレートである。本発明の１つの実施形態において、ランドマークの認識のために使用された出現モデルは、所定の画像特徴のセットに対する数的な点数を含む特徴ベクトルを含み得る。画像の物体認識の方法および特徴ベクトルを生成する方法は、当技術分野において周知である。例えば、画像の物体認識の方法は、ＤａｖｉｄＧ．Ｌｏｗｅ「Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｌｏｃａｌｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ」、ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、Ｃｏｒｆｕ、Ｇｒｅｅｃｅ（１９９９年９月）、ページ１１５０〜１１５７に説明される。視覚認識部品に加えて、出現モデルはまた、対応するランドマークのための地理的場所の情報のような情報を含み得る。例えば、特定のランドマークに対する出現モデルの地理的場所の情報は、地理的ポイントおよび／または地理的エリアを指定し得る。地理的エリアを指定することは、画像の地理的場所の情報の精度のバリエーションのために生成された不確定さを減少し得る。

画像注釈子モジュール２０３は、画像においてランドマークを自動的に認識し、かつ１つ以上の対応するランドマークを識別する情報を用いてこのような画像に適切に注釈を付けるための機能を含む。１つの実施形態において、画像注釈子モジュール２０３は、注釈を付けられていない画像データベース１１０からの画像においてランドマークを自動的に認識するために、出現モデルデータベース１１１からの出現モデルを使用し得る。次に、画像は、各画像における認識されたランドマークに従って、例えば、１つ以上のタグに関連付けさせることによって注釈を付けられ得、注釈を付けられた画像は、注釈を付けられた画像データベース１１２に書き込まれ得る。

自動ランドマーク認識および注釈のための方法
図３は、本発明の実施形態に従う、１つ以上の人気のランドマークを含む画像に注釈を付けるプロセス３００を示す。プロセス３００は、例えば、管理されていない画像注釈子モジュール１２７に実装され得る。プロセス３００のステップ３０１〜３０４は、適切のように、ランドマーク識別子モジュール２０１、出現モデル生成子モジュール２０２、および画像注釈子モジュール２０３に実装され得る。当業者は、本明細書においてプロセス３００に対して説明される機能が、以下に説明される方法以外の方法でモジュール２０１〜２０３を用いて実装され得ることを理解する。例えば、１つの実施形態において、ランドマーク識別子モジュール２０１、出現モデル生成子モジュール２０２、および画像注釈子モジュール２０３は、それぞれ、一緒にプロセス３００を実装する別個のプロセスであり得る。もう１つの実施形態において、ランドマーク識別子モジュール２０１、出現モデル生成子モジュール２０２、および画像注釈子モジュール２０３は、それぞれ、一緒にプロセス３００を実装する別個のスレッドであり得る。なお、もう１つの実施形態において、ランドマーク識別子モジュール２０１、出現モデル生成子モジュール２０２、および画像注釈子モジュール２０３は、プロセス３００を実装する単一のプロセスとして全部に実装され得る。

ステップ３０１において、画像とそれらの画像に関連付けられたテキストは、ランドマーク、特に人気のランドマークを識別するために分析される。概して、人気のランドマークは、分析された画像／テキストソース、例えば、画像／テキストソース１０５において最も頻繁に出現するランドマークである。１つの実施形態において、ステップ３０１の処理への入力は、プロセス３００が実行される１つ以上のコンピュータにアクセス可能な１つ以上の画像／テキストソースである。例えば、プロセス３００は、コンピュータ１０１上に実行され得、そしてネットワーク１０３にわたる画像／テキストソース１０５へのアクセス能力を有し得る。１つの実施形態に従うステップ３０１からの出力は、画像の選択されたセット、それらの画像における識別されたランドマーク、および関連付けられたテキストとｎ−グラムであり得る。例えば、ステップ３０１の出力は、画像／テキストコレクション１０７に書き込まれ得る。ステップ３０１は、以下の図４〜６を参照してさらに説明される。

ステップ３０２において、１つ以上の出現モデルは、ステップ３０１において識別されたランドマークに対して引き出され得、または記憶され得る。当業者は、多くの方法のうちの１つがステップ３０１の結果として得られたタグを付けられたランドマークの画像から出現モデルを記憶するために使用され得ることを認識する。１つの実施形態に従って、特定のランドマークに対する出現モデルは、特定のランドマークを含むように考慮される１つ以上の画像の１つ以上の視覚局面を数的に定量化する特徴ベクトルを含む。前述のように、特徴ベクトルの生成は、当技術分野において周知であり、例えば、本発明において使用され得る特徴ベクトルの生成のためのアプローチは、上に引用されたＤａｖｉｄＧ．Ｌｏｗｅ「Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｌｏｃａｌｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ」において説明される。例えば、特徴ベクトルは、理想的に、カメラ距離、カメラ角度、カメラ品質、照明状況等のような多くの変化する状況に対して相対的に不変である実質的数の特徴を含む。本発明のいくつかの実施形態において、特定の画像に対応する１つ以上の出現モデルはまた、画像の非視覚局面、例えば、地理的場所の情報を含み得る。出現モデルは、特定のモデルの視覚特性と地理的場所の情報とを含む任意の情報を含み得、地理的場所の情報は、画像においてそのランドマークの存在を自動的に認識するのに使用され得る。

ステップ３０３において、ステップ３０２において得られた１つ以上の出現モデルは、画像において対応するランドマークを検出するために使用される。１つの実施形態において、出現モデルデータベース１１１における１つ以上の出現モデルは、注釈を付けられていない画像データベース１１０における対応するランドマークの検出において使用される。例えば、出現モデルデータベース１１１からの出現モデルの特徴ベクトルは、考慮されている注釈を付けられていない画像データベース１１０からの画像に対して生成された特徴ベクトルと比較され得る。特徴ベクトルが所定の閾値レベルを超えてマッチする場合に、考慮されている画像は、マッチした出現モデルに対応するランドマークを含むように認識される。例えば、本発明の実施形態のステップ３０３において使用され得る物体認識テクノロジーは、概して周知である。本発明において使用され得る物体認識へのアプローチは、上に引用されたＬｏｗｅ、「Ｏｂｊｅｃｔｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍｌｏｃａｌｓｃａｌｅ−ｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ」において説明される。

ステップ３０４において、分析されている画像は、画像内に、例えば、ステップ３０３において検出に使用された１つ以上の出現モデルに対応する特定のランドマークを有することが決定された場合に注釈を付けられ得る。注釈を付けられた画像およびそれぞれの注釈は、注釈を付けられた画像データベース１１２に書き込まれ得る。注釈を付けられた画像に関連付けられた注釈は、その注釈を付けられた画像においてマッチを有するように見つけられた出現モデルの各々に関連付けられたテキストを含み得る。注釈を付けられた画像に関連付けられた注釈は、対応する出現モデルに関連付けられたテキストの追加処理に基づくテキストまたは句を含み得ることも考えられる。例えば、対応する出現モデルに関連付けられたテキストが「ＳｔａｔｕｅｏｆＤａｖｉｄ」および「Ｒｏｍｅ」のような簡単なタグの形である実施形態において、ステップ３０４は、「ＳｔａｔｕｅｏｆＤａｖｉｄｉｎＲｏｍｅ，Ｉｔａｌｙ，」「ＳｔａｔｕｅｏｆＤａｖｉｄｉｎＰａｌａｃｉｏＶｅｃｃｉｏ，Ｒｏｍｅ，Ｉｔａｌｙ」等のような文を生成するための追加処理を含み得る。

図４において、ステップ３０１に含まれる処理が、より詳細に示される。ステップ３０１の機能は、ステップ４０１〜４０３を含む。ステップ４０１において、ランドマークを説明する単語または句のｎ−グラムセットが生成され、そして／または存在するｎ−グラムセットが更新される。例えば、ステップ４０１は、入力としてテキスト／画像ソース１０５を取り得、出力としとｎ−グラムコレクション１０８のｎ−グラムを生成し得る。ランドマークを説明する１つ以上のｎ−グラムがどうやって生成されるかのステップ４０１のより詳細な説明は、図５に関連して以下に提供される。

ステップ４０２において、ランドマークの決定に有用であるように予備に考えられているｎ−グラムのセットが採点される。例えば、ステップ４０２において考えられたｎ−グラムの最初のセットは、ステップ４０１のテキスト／画像ソース１０５から引き出されるｎ−グラムのセットであり得る。ステップ４０２の処理は、ｎ−グラムコレクション１０８においてｎ−グラムのリストを生成し得る。ｎ−グラムは、採点された各ｎ−グラムを有し、かつ所定数のｎ−グラムのみを最も高い点数に保つことを含むさまざまな基準に従って濾過される。ｎ−グラムの点数Ｓ（ｋ）は、ｎ−グラムコレクション１０８のｎ−グラムＮ（Ｋ）の各々に割り当てられる。Ｓ（ｋ）を決定する方法が以下に説明される。ステップ４０２の処理は、以下の図６に対してさらに説明される。

ステップ４０３において、画像は、ｎ−グラムコレクション１０８からのタグを割り当てられる。例えば、各ペアの画像およびｎ−グラムの組み合わせに対して、ペアリング点数が割り当てられ得る。より高い価値があるペアリング点数が強く関連した画像およびｎ−グラムのペアを意味するように、ペアリング点数が規定され得る。１つの実施形態において、テキスト／画像コレクション１０７からの画像Ｉ（ｉ）と、ｎ−グラムコレクション１０８からのｎ−グラムＮ（ｋ）とによって形成されたペアリングは、Ｉ（ｉ）とＮ（ｋ）との間のリンクの強さＬ（ｉ，ｋ）と、Ｎ（ｋ）のｎ−グラム点数との積、すなわち、Ｌ（ｉ，Ｋ）＊Ｓ（ｋ）によって規定されたペアリング点数を割り当てられ得る。Ｌ（ｉ，ｋ）を決定する方法が、以下に説明される。候補のｎ−グラムのリストは、高いペアリング点数を用いてｎ−グラムに焦点を合わせ、適切にリストを切り捨てることによって生成され得る。１つの例において、ペアリング点数がリストの最も高いペアリング点数の半分より下に落ちる場合に、リストが切り捨てられ得る。このように、各画像は、最も関連性のあるｎ−グラムを割り当てられ得る。

図５は、前述のステップ４０１に従うｎ−グラムのセットの生成における処理ステップ５０１〜５０４を示す。ステップ５０１において、１つ以上のテキスト／画像ソース１０５は、例えば、ランドマーク識別子モジュール２０１によってアクセスされる。テキスト／画像ソース１０５へのアクセスは、ローカルネットワークかまたはインターネットワークのような広エリアネットワークにわたってこのようなソースに接続することを含み得る。処理されるように選択されているテキスト／画像ソース１０５は、さまざまな方法、例えば、ユーザーまたはオペレータからの入力、プログラム部品によって設けられたウェブの自動識別および分類（例えば、ウェブボットによる写真保管ウェブサイトの識別）、またはコンテンツに対して監視されているウェブサイトまたは他の保管場所のリストに基づいて識別され得る。テキスト／画像ソース１０５のようなソースに接続する方法は、周知である。必要の場合に、本発明の実装はまた、さまざまな人に所有である画像の使用に含まれ得る著者権、プライバシー等の局面も考慮すべきである。

ステップ５０２において、潜在的なランドマーク記述子ｎ−グラムのリストは、テキスト／画像ソース１０５における画像に関連付けられたテキストから検索される。写真がタグおよび／またはキャプションに関連付けられる写真保管場所からのｎ−グラムの抽出は、テキスト／画像ソース１０５の写真保管場所の写真に関連付けられたタグおよびキャプションのセットのコレクションを含み得る。テキスト／画像ソースが、画像を対応するテキストに関連づける他のドキュメントおよび／またはコンテンツを含む場合に、数多くのテキスト分析方法のうちの１つ以上は、潜在的にランドマークに対応する用語（タグ）を抽出するために使用され得る。例えば、観光ウェブサイトの画像に関連されたテキストは、潜在的なタグを識別するために、用語頻度逆数ドキュメント頻度（ＴＦ−ＩＤＦ）のような技術における周知の方法を用いて、利用可能なテキストにわたって自動的に分析され得る。１つの実施形態において、ＴＦ−ＩＤＦは、テキスト／画像ソース１０５からの写真保管場所の写真に関連付けられたタグに適用される。

所定のルールは、潜在的大規模の利用可能なタグから、ランドマークを指すタグの、狭まれ、そして／または濾過されたセットを決定するように適用され得る。例えば、ステップ５０３において、１つ以上のフィルタリングルールまたは基準は、ステップ５０２において収集された潜在的なランドマーク記述子のｎ−グラムのセットに適用され得る。潜在的なランドマーク記述子ｎ−グラムのリストに適用され得る１つのフィルタは、悪い単語フィルタである。悪い単語フィルタは、ランドマークの中に区別するのに不良および／または不要として事前に決定されているｎ−グラムおよび句のリストを含む。適用されるもう１つのフィルタは、停止単語リストであり得る。停止単語リストは、タグおよび／または記述子において頻繁に生じるように期待されるｎ−グラムを含み得、それらのｎ−グラムは、ランドマーク記述子として有用そうもない。「ｏｆ」、「ｔｈｅ」および「ａｎｄ」のような単語は、停止単語リストに含まれ得る例のｎ−グラムである。適用され得るもう１つのフィルタは、最小確実性尺度、例えば、最小数の著者フィルタである。最小数の著者フィルタは、そのタグのそれらのｎ−グラムを用いて、所定の数の特有の著者より少ない数を有する潜在的なランドマーク記述子ｎ−グラムのリストから任意のｎ−グラムを除去するために使用され得る。例えば、ｎ−グラムコレクション１０８に含まれるべき任意のｎ−グラムに対して、ｎ−グラムが３人以上の特有の著者によって使用されるタグにおいて検出されるべきであることが事前に決定され得る。

ステップ５０４において、１つ以上のルールおよび／またはフィルタがステップ５０３において適用された後に残る潜在的なランドマーク記述子ｎ−グラムのリストは、ｎ−グラムコレクション１０８に書き込まれ得る。その後の処理ステップ、例えば、処理ステップ４０２によって使用されたｎ−グラムコレクション１０８からのｎ−グラムのセットは、前述のようのいくつかのフィルタに従って濾過されるｎ−グラムのセットであり、それゆえに、実質的にランドマークを説明するｎ−グラムのみを含み得る。

図６は、１つの実施形態に従う、ステップ４０２に必要とされる処理を例示するステップ６０１〜６０８を示す。ステップ６０１において、ステップ４０１に選択されたｎ−グラムに関連付けられた画像は、相関加重を割り当てられる。１つの実施形態において、ステップ４０１に選択されたｎ−グラムに関連付けられた画像は、テキスト／画像コレクション１０７にコピーされ、加重の割り当ておよび追加処理は、それらの画像上に行われる。画像Ｉ（ｉ）の相関加重Ｗ（ｉ）は、テキスト／画像コレクション１０７内の他の画像に対する画像Ｉ（ｉ）の相関レベルの逆数の尺度である。例えば、画像Ｉ（ｉ）がテキスト／画像コレクション１０７内の任意の他の画像との相関がない場合に、次に、画像Ｉ（ｉ）は、１の相関加重を割り当てられ、画像Ｉ（ｉ）がテキスト／画像コレクション１０７内の２つの他の画像との相関がある場合に、次に、画像Ｉ（ｉ）とその２つの相関がある画像の各々とは、１／３の相関加重を割り当てられる。ルールまたは基準の所定のセットは、２つの画像の相関があるか否かを決定するために使用され得る。例えば、２つの画像が同じ著者によって撮られ得、非常に近い地理的場所（例えば、互いから１／４マイル内）にある場合に、それらに相関があると考えられ得る。

ステップ６０２において、マッチング画像グラフは、例えば、テキスト／画像コレクション１０７の画像から生成される。マッチング画像グラフのノードは、テキスト／画像コレクション１０７の画像を表す。マッチング画像グラフの各エッジは、２つの接続されたノードに対応する画像がマッチする程度を表す。例えば、画像Ｉ（ｉ）とＩ（ｊ）との間のエッジに割り当てられたマッチング点数Ｍ（ｉ，ｊ）は、画像Ｉ（ｉ）の特徴ベクトルと、画像Ｉ（ｊ）の特徴ベクトルとの間のマッチに基づいて引き出される数値であり得る。特徴ベクトルの個々の特徴は、構成可能な加重を割り当てられ得、マッチング点数Ｍ（ｉ，ｊ）は、マッチング特徴のこのような加重の合計であり得る。

ステップ６０３において、リンク（画像名前リンクと呼ばれる）は、ｎ−グラムコレクション１０８のｎ−グラムの各々とテキスト／画像コレクション１０７の画像の各々との間に形成される。画像名前リンクは、ｎ−グラムが画像のタグによって含まれる場合に、１までの二進変数セットであり得、他の場合に０であり得る。しかしながら、結果のロバストを増大するために、出力は、単一の画像を考えるより視覚的に類似である画像のセットにわたって平均化することによって平坦化にされる。例えば、画像Ｉ（ｉ）とｎ−グラムｋとの間の画像名前リンクＬ（ｉ，ｋ）は、

として規定され得、そこで、前述のように、Ｍ（ｉ，ｊ）は、画像マッチンググラフにおける画像Ｉ（ｉ）とＩ（ｊ）との間のマッチング点数であり、Ｗ（ｊ）は、画像Ｉ（ｊ）の相関加重である。

ステップ６０４において、テキスト／画像コレクション１０７の各画像の地理的確実性が推定される。画像Ｉ（ｉ）、Ｇ（ｉ）の地理的確実性は、互いに対する所定の距離内に地理的場所の座標を用いる画像の視覚的一致の比較に基づく、画像の地理的場所の情報の精度の推定である。例えば、

そこで、ｎは、構成可能なパラメータであり得る。

ステップ６０５において、地理的分散は、オプション的に、各ｎ−グラムＮ（ｋ）に対して計算され得る。例えば、Ｎ（ｋ）の地理的分散Ｖ（ｋ）は、
Ｖ（ｋ）＝ＥＷ［（ｌｏｃ（ｉ）−ＥＷ（ｌｏｃ（ｉ））^２］
として表され得、そこで、ｌｏｃ（ｉ）は、画像Ｉ（ｉ）の地理的場所を表し、ＥＷは、加重された期待値である。加重された期待値は、ｎ−グラムに対して最も著しい場所ポイントの分散を捉えるのに有用である。加重は、Ｌ（ｉ，ｋ）＊Ｗ（ｉ）＊Ｇ（ｉ）、すなわち、画像名前リンク、画像の加重および画像の地理的確実性の積として計算され得る。その後に、閾値の地理的分散より大きなＶ（ｋ）を有するｎ−グラムは、ｎ−グラムコレクション１０８から濾過されて除かれ得る。

ステップ６０６において、テキスト／画像コレクション１０７の各ｎ−グラムＮ（ｋ）のｎ−グラム点数Ｓ（ｋ）は、画像のタグのｎ−グラムＮ（ｋ）を有する画像の間の内部リンク強さと、画像のタグのｎ−グラムＮ（ｋ）を有する画像と、画像のタグのｎ−グラムＮ（ｋ）を有しない画像との間の外部リンク強さとを捉えるように設計される尺度を用いて決定される。例えば、Ｓ（ｋ）は、

として表され得る。

Ｓ（ｋ）が大きいほど、意味のある視覚的区別可能なエンティティを指すｎ−グラムＮ（ｋ）が高い可能性であるほど、それゆえに、ランドマークの名前がより確実になる。

ステップ６０７において、ｎ−グラムが採点された後に、さらなるフィルタリングは、オプション的に、最も人気のランドマークｎ−グラムを識別するために、実装され得る。例えば、最も高いｎ−グラム点数を有する所定の数のｎ−グラムのｎ−グラム点数は、閾値の平均点数を決定するために平均され得る。その後に、閾値の平均点数より高い点数を有するそれらのｎ−グラム以外の全部のｎ−グラムは、ｎ−グラムテキスト／画像１０８から除去され得る。

ステップ６０８において同じランドマークの場所を指すように考えられるｎ−グラムが統合される。採点するステップ、点数に基づく後のフィルタリングは、概して有意義にランドマークを指すｎ−グラムのリストを残すが、なお同じランドマークを指す多くのｎ−グラムは、ｎ−グラムコレクション１０８に残り得る。同じランドマークを指す複数のｎ−グラムは、同じランドマークの異なる名前、同じランドマークの異なる説明、および福記号列の切り捨てを含むいくつかの理由のために存在し得る。意味のある方式でこのような重複ｎ−グラムを一緒に統合することが望ましくあり得る。１つの例において、これを解決するために、２つのｎ−グラムＮ（ｋ）とＮ（ｌ）が互いからの所定の距離内のそれらの点数を有する場合に、かつｎ−グラムがリンクされる画像が実質的に重ねられる場合に、次に２つのｎ−グラムＮ（ｋ）とＮ（ｌ）が統合される。画像の実質的な重なりは、例えば、各画像Ｉ（ｉ）とｎ−グラムＮ（ｋ）とのペアに対してＢｈａｔｔａｃｈａｒｙａ距離Ｌ（ｉ，ｋ）を考慮することと、Ｂｈａｔｔａｃｈａｒｙａ距離が所定の閾値以上にあるか否かを決定することとによって決定され得る。Ｂｈａｔｔａｃｈａｒｙａ距離の計算は、当技術分野において周知である。

（結論）
モジュール１２７および／またはモジュール２０１〜２０３の処理能力は、ソフトウェア、ハードウェア、またはそれらの組み合わせで達成され得る。例えば、モジュール２０１と２０３は、全体的にソフトウェアとして実装され得、または出現モデル生成子モジュール２０２の機能のうちのいくつかは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）のようなハードウェアを用いて実装され得る。当業者は、管理されていない画像注釈子モジュール１２７および／またはコンピュータ１０１が本発明の機能を容易にする追加の部品およびモジュールを含み得ることを理解し得る。

要約および摘要のセクションではなく、詳細な説明のセクションが請求範囲を解釈するために使用されると意図されることが認識されるべきである。要約および摘要のセクションは、発明者によって考えられるように本発明の代表的な実施形態の全部ではなく、１つ以上を説明し得、従って、任意の方法で本発明および添付請求範囲を限定すると意図されていない。

本発明は、特定された機能およびそれらの関係の実装を例示する機能構築ブロックの支援と共に上に説明されている。これらの機能構築ブロックの境界は、説明の便利のために本明細書において勝手に規定されている。代替的な境界は、特定された機能およびそれらの関係が適切に行われる限り、規定され得る。

具体的な実施形態の前記説明は、本発明の一般的な本質を完全に明らかにし、他には、当業者の知識を適用することによって、必要以上の実験なしに、本発明の一般的なコンセプトから逸脱することなしに、既に変更し得、そして／または具体的な実施形態のようなさまざまな応用に対して適合し得る。それゆえに、このような適合および変更は、本明細書に示された教示および助言に基づいて、開示された実施形態の同等物の意味および範囲内にあると意図されている。本明細書の表現または専門用語は、限定ではなく、説明の目的のためであることが理解されるべきであり、その結果、本明細書の専門用語または表現は、教示および助言を考慮して、当業者によって解釈されるべきでる。

本発明の幅および範囲は、前述の代表的な実施形態によって限定されるべきではなく、むしろただ後の請求範囲およびそれらの同等物に従って規定されるべきである。

Claims

デジタル画像においてランドマークを検出し、かつランドマークに注釈を付けるための方法であって、該方法は、
（ａ）タグを付けられたランドマークの画像のセットを生成するために、複数のデジタル画像における１つ以上の画像に、ランドマークを説明するタグを自動的に割り当てることであって、該複数のデジタル画像は、テキストに関連付けられており、該ランドマークを説明する該タグは、該複数のデジタル画像に関連付けられた該テキストから生成される、ことと、
（ｂ）該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
（ｃ）該出現モデルを用いて新しい画像において該ランドマークを検出することと
を含み、該ステージ（ａ）〜（ｃ）が、少なくとも１つのプロセッサによって行われる、方法。
前記方法は、
（ｄ）前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けることをさらに含む、請求項１に記載の方法。
ステージ（ａ）は、
（ｉ）前記複数のデジタル画像に関連付けられた前記テキストからランドマークｎ−グラムのリストを生成することと、
（ｉｉ）ｎ−グラムセットの各ランドマークｎ−グラムに対してｎ−グラム点数を計算することであって、該ｎ−グラムセットは、該ランドマークｎ−グラムのリストのサブセットであり、該ｎ−グラムセットのランドマークｎ−グラムに対する該ｎ−グラム点数は、ランドマークｎ−グラムを有するタグを含む画像間の内部リンク強さ、およびランドマークｎ−グラムを有するタグを含む画像とランドマークｎ−グラムを有するタグを含まない画像との間の外部リンク強さに基づいて計算される、ことと、
（ｉｉｉ）前記ランドマークを説明する前記タグを該複数のデジタル画像における前記１つ以上の画像に割り当てることであって、該ランドマークを説明する該タグは、該ｎ−グラムセットにおける少なくとも１つのランドマークｎ−グラムに基づく、ことと
を含む、請求項１に記載の方法。
ステージ（ａ）（ｉ）は、
前記複数のデジタル画像に電子的にアクセスすることと、
該複数のデジタル画像における画像に関連付けられたテキストから前記ランドマークｎ−グラムのうちの少なくとも１つを検索することと
を含む、請求項３に記載の方法。
ステージ（ａ）（ｉ）は、
少なくとも最小確実性尺度を有する前記ランドマークｎ−グラムを選ぶことをさらに含む、請求項４に記載の方法。
前記確実性尺度は、特有の著者の数に基づく、請求項５に記載の方法。
ステージ（ａ）（ｉｉ）は、
前記複数のデジタル画像に相関加重を割り当てることであって、該相関加重は、該複数のデジタル画像における画像のメタデータの相関に基づく、ことと、
該複数のデジタル画像からマッチング画像グラフを生成することと、
前記ランドマークｎ−グラムと、該複数のデジタル画像における画像との間のリンクを生成し、かつ、該ランドマークｎ−グラムが該複数のデジタル画像における該画像に関連付けられたテキストの中に含まれているか否かに基づいて値を該リンクに割り当てることと
を含む、請求項３に記載の方法。
ステージ（ａ）（ｉｉ）は、
前記マッチング画像グラフを用いて前記複数のデジタル画像の各画像に対して地理的確実性の点数を推定することをさらに含む、請求項７に記載の方法。
前記ｎ−グラム点数は、前記マッチング画像グラフに基づく、請求項７に記載の方法。
ステージ（ａ）（ｉｉ）は、
前記ｎ−グラムセットのランドマークｎ−グラムに対して地理的場所の分散を計算することであって、該分散は、前記マッチング画像グラフにおける画像のｎ−グラムセットの前記ランドマークｎ−グラムを有する画像の地理的場所に基づく、ことと、
該ｎ−グラムセットから、所定の閾値を超える地理的場所の分散を有する全てのランドマークｎ−グラムを除去することと
をさらに含む、請求項８に記載の方法。
ステージ（ａ）（ｉｉ）は、
前記ｎ−グラムセットにおいて２つ以上のランドマークｎ−グラムを統合することをさらに含む、請求項７に記載の方法。
前記統合することは、前記２つ以上のランドマークｎ−グラムの前記点数の類似と、該２つ以上のランドマークｎ−グラムにリンクする画像の重なりとのうちの少なくとも１つに基づく、請求項１１に記載の方法。
前記メタデータは、
著者と、
地理的場所と、
時間スタンプと
のうちの少なくとも１つに関連する情報を含む、請求項７に記載の方法。
前記マッチング画像グラフは、前記複数のデジタル画像のそれぞれを表す複数のノードと、エッジとを含み、該エッジは、２つのノードごとに、該２つのノードを接続し、各エッジは、各エッジによって接続された２つのノードに対応する２つのデジタル画像の間のマッチング程度を表す値を割り当てられる、請求項７に記載の方法。
デジタル画像においてランドマークを自動的に検出し、かつランドマークに注釈を付けるためのシステムであって、該システムは、
メモリ媒体に格納されている複数のデジタル画像の少なくとも１つのコレクションと、
該媒体に通信連結された少なくとも１つのプロセッサと
を含み、該少なくとも１つのプロセッサは、
タグを付けられたランドマークの画像のセットを生成するために、複数のデジタル画像における１つ以上の画像に、ランドマークを説明するタグを自動的に割り当てることであって、該複数のデジタル画像は、テキストに関連付けられており、該ランドマークを説明する該タグは、該複数のデジタル画像に関連付けられた該テキストから生成される、ことと、
該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
該出現モデルを用いて新しい画像において該ランドマークを検出することと
を行うように構成されている、システム。
前記少なくとも１つのプロセッサは、
前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けるようにさらに構成されている、請求項１５に記載のシステム。
前記少なくとも１つのプロセッサは、
前記複数のデジタル画像に関連付けされた前記テキストからランドマークｎ−グラムのリストを生成することと、
ｎ−グラムセットの各ランドマークｎ−グラムに対してｎ−グラム点数を計算することであって、該ｎ−グラムセットは、該ランドマークｎ−グラムのリストのサブセットであり、該ｎ−グラムセットのランドマークｎ−グラムに対する該ｎ−グラム点数は、ランドマークｎ−グラムを有するタグを含む画像間の内部リンク強さ、およびランドマークｎ−グラムを有するタグを含む画像とランドマークｎ−グラムを有するタグを含まない画像との間の外部リンク強さに基づいて計算される、ことと、
前記ランドマークを説明する前記タグを該複数のデジタル画像における前記１つ以上の画像に割り当てることであって、該ランドマークを説明する該タグは、該ｎ−グラムセットにおける少なくとも１つのランドマークｎ−グラムに基づく、ことと
を行うようにさらに構成されている、請求項１５に記載のシステム。
前記少なくとも１つのプロセッサは、
前記複数のデジタル画像に相関加重を割り当てることであって、該相関加重は、該複数のデジタル画像における画像のメタデータの相関に基づく、ことと、
該複数のデジタル画像からマッチング画像グラフを生成することと、
前記ランドマークｎ−グラムと、該複数のデジタル画像における画像との間のリンクを生成し、かつ、該ランドマークｎ−グラムが該複数のデジタル画像における該画像に関連付けられたテキストの中に含まれているか否かに基づいて値を該リンクに割り当てることと
を行うようにさらに構成されている、請求項１７に記載のシステム。
プロセッサが画像に名前を付けることを可能にするためのコンピュータプログラム論理を記録したコンピュータ読み取り可能な記憶媒体であって、プロセッサによって実行される場合、コンピュータプログラムは、
（ａ）タグを付けられたランドマークの画像のセットを生成するために、複数のデジタル画像における１つ以上の画像に、ランドマークを説明するタグを割り当てることであって、該複数のデジタル画像は、テキストに関連付けられており、該ランドマークを説明する該タグは、該複数のデジタル画像に関連付けられた該テキストから生成される、ことと、
（ｂ）該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
（ｃ）該出現モデルを用いて新しい画像において該ランドマークを検出することと
を行うように該プロセッサに命令する、コンピュータ読み取り可能な記憶媒体。
前記コンピュータ読み取り可能な記憶媒体は、
（ｄ）前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けるようにさらに前記プロセッサに命令する、請求項１９に記載のコンピュータ読み取り可能な記憶媒体。
（ａ）は、
前記複数のデジタル画像に関連付けされた前記テキストからランドマークｎ−グラムのリストを生成することと、
ｎ−グラムセットの各ランドマークｎ−グラムに対してｎ−グラム点数を計算することであって、該ｎ−グラムセットは、該ランドマークｎ−グラムのリストのサブセットであり、該ｎ−グラムセットのランドマークｎ−グラムに対する該ｎ−グラム点数は、ランドマークｎ−グラムを有するタグを含む画像間の内部リンク強さ、およびランドマークｎ−グラムを有するタグを含む画像とランドマークｎ−グラムを有するタグを含まない画像との間の外部リンク強さに基づいて計算される、ことと、
前記画像に対して前記ランドマークを説明する前記タグを割り当てることであって、該ランドマークを説明する該タグは、該ｎ−グラムセットにおける少なくとも１つのランドマークｎ−グラムに基づく、ことと
をさらに含む、請求項１９に記載のコンピュータ読み取り可能な記憶媒体。
（ａ）は、
前記複数のデジタル画像に相関加重を割り当てることであって、該相関加重は、該複数のデジタル画像における画像のメタデータの相関に基づく、ことと、
該複数のデジタル画像からマッチング画像グラフを生成することと、
前記ランドマークｎ−グラムと、該複数のデジタル画像における画像との間のリンクを生成し、かつ、該ランドマークｎ−グラムが該複数のデジタル画像における該画像に関連付けられたテキストの中に含まれているか否かに基づいて値を該リンクに割り当てることと
をさらに含む、請求項２１に記載のコンピュータ読み取り可能な記憶媒体。