JP5680063B2 - デジタル写真のコレクションからのランドマーク - Google Patents

デジタル写真のコレクションからのランドマーク Download PDF

Info

Publication number
JP5680063B2
JP5680063B2 JP2012511045A JP2012511045A JP5680063B2 JP 5680063 B2 JP5680063 B2 JP 5680063B2 JP 2012511045 A JP2012511045 A JP 2012511045A JP 2012511045 A JP2012511045 A JP 2012511045A JP 5680063 B2 JP5680063 B2 JP 5680063B2
Authority
JP
Japan
Prior art keywords
landmark
image
gram
images
digital images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012511045A
Other languages
English (en)
Other versions
JP2012527057A (ja
JP2012527057A5 (ja
Inventor
ハートウィグ アダム,
ハートウィグ アダム,
リー チャン,
リー チャン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2012527057A publication Critical patent/JP2012527057A/ja
Publication of JP2012527057A5 publication Critical patent/JP2012527057A5/ja
Application granted granted Critical
Publication of JP5680063B2 publication Critical patent/JP5680063B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Description

(背景)
(技術分野)
本発明は、概して、デジタル写真のコレクションに関し、より具体的に、大規模のデジタル写真のコレクションにおいて人気のランドマークを識別することに関する。
(背景技術)
増大したデジタル画像の使用、増大したデジタル記憶容量、およびインターネットのようなデジタル媒体によって提供された相互接続性と共に、ますます増大する数の人にとって、常により大規模のデジタル写真の集合がアクセス可能である。広い幅の関心を有する人々は、世界に広がるさまざまな場所からさまざまな対象物の写真を撮り、他の人が、例えば、インターネットで見るために、利用可能なそれらの写真を作る。例えば、世界にわたるさまざまなランドマークおよび観光地のデジタル写真は、写真を撮るのに異なる熟練レベルを有する人々によってウェブ上に投稿され得る。そのような写真は、異なる視点から、異なる状況の下、および/または異なる距離から同じのランドマークを見せ得る。
膨大な数のこのような利用可能な画像は、人気のランドマークの指針またはガイドとして有用であり得る。デジタル画像のこれらの大規模集合に含まれた情報を利用するために、集合が編成される必要がある。例えば、(Google Inc.,Mountain View,Californiaからの)Picasa Web Albumsのようなデジタル画像ウェブサイトには、高いレベルのメニューで始まり、人は、写真が利用可能である対象体の詳細なリスティングまで掘り下げ得る。代替的には、人は、デジタル写真を有する1つ以上のサイトを検索することが可能であり得る。いくつかの観光情報のウェブサイトは、例えば、出版された人気の観光地のリストに関連付けられるランドマークの画像をダウンロードしている。
多くの従来のデジタル写真編成システムは、写真にタグを付けるために、ユーザーに頼る。数多くの新しい写真が、これらのデジタル画像のコレクションに加えられるので、ユーザーがそれらのデジタル画像のコレクションの有用性を増大する完全かつ一致した方式で手動に写真にラベルを付けるように実行できない場合にある。これらの大規模のコレクションから情報(例えば、最も人気の観光目的地)を自動的に抽出し得るシステムは、「Automatic Discovery of Popular Landmarks」という名称の、またGoogle Inc.,Californiaに譲渡された米国特許出願第12/119,359号に説明される。米国特許出願第12/119,359号に説明されたシステムは、地理的コーディングに基づくクラスター化ステージと、画像のマッチング視覚特徴に基づくクラスター化ステージとを含む処理パイプラインを使用する。しかしながら、自動的にランドマークを発見し、ランドマークを含む画像に注釈を付けるための他のアプローチが必要とされる。
(要約)
デジタル画像におけるランドマークの自動検出と、それらの画像の注釈とのための方法およびシステムが開示される。1つ実施形態において、デジタル画像においてランドマークを検出し、かつ注釈を付けるための方法は、複数のテキストに関連付けられたデジタル画像における1つ以上の画像に、ランドマークを説明するタグを自動的に割り当てるステップを含む。これは、タグを付けられたランドマークの画像のセットを生成する。出現モデルは、タグを付けられたランドマークの画像のセットからのランドマーク対して記憶され得る。これは、出現モデルを用いる新しいデジタル画像のランドマークの検出を可能にする。方法はまた、ランドマークを説明するタグを用いて新しい画像に注釈を付けるステップを含み得る。
もう1つの実施形態は、デジタル画像においてランドマークを自動的に検出し、かつ注釈を付けるためのシステムである。システムは、メモリ媒体に格納されているテキストに関連付けられたデジタル画像の少なくとも1つのコレクションと、媒体に通信連結された少なくとも1つのプロセッサとを有する。プロセッサは、複数のテキストに関連付けられたデジタル画像における1つ以上の画像に、ランドマークを説明するタグを自動的に割り当てるように構成される。これは、タグを付けられたランドマークの画像のセットを生成する。出現モデルは、タグを付けられたランドマークの画像のセットからのランドマーク対して記憶され得る。これは、出現モデルを用いる新しいデジタル画像のランドマークの検出を可能にする。
本発明のさらなる特徴および利点も、本発明のさまざまな実施形態の構造および動作も、添付した図面を参照して以下に詳細に説明される。本発明は、本明細書において説明される具体的な実施形態に限定されないことが留意される。このような実施形態は、ただ例示的な目的のために本明細書において示される。追加の実施形態は、本明細書に含まれる教示に基づき、当業者にとって明白である。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
デジタル画像においてランドマークを検出し、かつ注釈を付けるための方法であって、
該方法は、
(a)タグを付けられたランドマークの画像のセットを生成するために、複数のテキストに関連付けられたデジタル画像における1つ以上の画像に、ランドマークを説明するタグを自動的に割り当てることであって、該タグを付けられたランドマークの画像のセット内の画像は、該ランドマークを含むようにアルゴリズム的に決定される、ことと、
(b)該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
(c)該出現モデルを用いて新しい画像において該ランドマークを検出することと
を含み、該ステージ(a)〜(c)が、少なくとも1つのプロセッサによって行われる、方法。
(項目2)
前記方法は、
(d)前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けることをさらに含む、項目1に記載の方法。
(項目3)
ステージ(a)は、
(i) 前記複数のテキストに関連付けられたデジタル画像からランドマークn−グラムのリストを生成することと、
(ii) n−グラムセットの各ランドマークn−グラムに対してn−グラム点数を計算することであって、該n−グラムセットは、該ランドマークn−グラムのリストのサブセットである、ことと、
(iii)前記画像に対して前記ランドマークを説明する前記タグを割り当てることであって、該ランドマークを説明する該タグは、該n−グラムセットにおける少なくとも1つのランドマークn−グラムに基づく、ことと
を含む、項目1に記載の方法。
(項目4)
ステージ(a)(i)は、
前記複数のテキストに関連付けられたデジタル画像に電子的にアクセスすることと、
該複数のテキストに関連付けられたデジタル画像において画像に関連付けられたテキストから前記ランドマークn−グラムのうちの少なくとも1つを検索することと
を含む、項目3に記載の方法。
(項目5)
ステージ(a)(i)は、
少なくとも最小確実性尺度を有する前記ランドマークn−グラムを選ぶことをさらに含む、項目4に記載の方法。
(項目6)
前記確実性尺度は、特有の著者の数に基づく、項目5に記載の方法。
(項目7)
ステージ(a)(ii)は、
前記複数のテキストに関連付けられたデジタル画像に相関加重を割り当てることであって、該相関加重は、該複数のテキストに関連付けられたデジタル画像における画像のメタデータの相関に基づき、該複数のテキストに関連付けられたデジタル画像は、前記テキストに関連付けられた画像のセットを含む、ことと、
該複数のテキストに関連付けられたデジタル画像からマッチング画像グラフを生成することと、
ランドマークn−グラムと、該複数のテキストに関連付けられたデジタル画像の画像との間のリンクを生成するために、前記ランドマークn−グラムを該複数のテキストに関連付けられたデジタル画像の画像にリンクさせることと
を含む、項目3に記載の方法。
(項目8)
ステージ(a)(ii)は、
前記マッチング画像グラフを用いて前記複数のテキストに関連付けられたデジタル画像の各画像に対して地理的確実性の点数を推定することをさらに含む、項目7に記載の方法。
(項目9)
前記n−グラム点数は、前記マッチング画像グラフに基づく、項目7に記載の方法。
(項目10)
前記n−グラム点数は、前記マッチング画像グラフの内部エッジの強さと、該マッチング画像グラフの外部エッジの強さとの比率として計算され、内部エッジは、少なくとも1つの共通ランドマークn−グラムを有する画像の間に存在し、外部エッジは、少なくとも1つの共通ランドマークn−グラムを有しない画像の間に存在する、項目9に記載の方法。
(項目11)
ステージ(a)(ii)は、
前記n−グラムセットのランドマークn−グラムに対して地理的場所の分散を計算することであって、該分散は、前記マッチング画像グラフにおける画像のn−グラムセットの前記ランドマークn−グラムを有する画像の地理的場所に基づく、ことと、
該n−グラムセットから、所定の閾値を超える地理的場所の分散を有する任意のランドマークn−グラムを除去することと
をさらに含む、項目8に記載の方法。
(項目12)
ステージ(a)(i)は、
前記n−グラムセットにおいて2つ以上のランドマークn−グラムを統合することをさらに含む、項目7に記載の方法。
(項目13)
前記統合することは、前記2つ以上のランドマークn−グラムの前記点数の類似と、リンクされたランドマークn−グラムにおいて該2つ以上のランドマークn−グラムを有する画像の重なりとのうちの少なくとも1つに基づく、項目12に記載の方法。
(項目14)
前記メタデータは、
著者と、
地理的場所と、
オリジンの時間と
のうちの少なくとも1つに関連する情報を含む、項目7に記載の方法。
(項目15)
前記マッチンググラフの各リンクは、前記複数のテキストに関連付けられたデジタル画像の2つの画像の間のマッチング特徴説明子を表す、項目7に記載の方法。
(項目16)
デジタル画像においてランドマークを自動的に検出し、かつ注釈を付けるためのシステムであって、該システムは、
メモリ媒体に格納されているテキストに関連付けられたデジタル画像の少なくとも1つのコレクションと、
該媒体に通信連結された少なくとも1つのプロセッサと
を含み、該少なくとも1つのプロセッサは、
タグを付けられたランドマークの画像のセットを生成するために、複数のテキストに関連付けられたデジタル画像における1つ以上の画像に、ランドマークを説明するタグを自動的に割り当てることであって、該タグを付けられたランドマークの画像のセット内の画像は、該ランドマークを含むようにアルゴリズム的に決定される、ことと、
該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
該出現モデルを用いて新しい画像において該ランドマークを検出することと
を行うように構成される、システム。
(項目17)
前記少なくとも1つのプロセッサは、
前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けるようにさらに構成される、項目16に記載のシステム。
(項目18)
前記少なくとも1つのプロセッサは、
前記複数のテキストに関連付けられたデジタル画像からランドマークn−グラムのリストを生成することと、
n−グラムセットの各ランドマークn−グラムに対してn−グラム点数を計算することであって、該n−グラムセットは、該ランドマークn−グラムのリストのサブセットである、ことと、
前記画像に対して前記ランドマークを説明する前記タグを割り当てることであって、該ランドマークを説明する該タグは、該n−グラムセットにおける少なくとも1つのランドマークn−グラムに基づく、ことと
を行うようにさらに構成される、項目16に記載のシステム。
(項目19)
前記少なくとも1つのプロセッサは、
前記複数のテキストに関連付けられたデジタル画像に相関加重を割り当てることであって、該相関加重は、該複数のテキストに関連付けられたデジタル画像における画像のメタデータの相関に基づき、該複数のテキストに関連付けられたデジタル画像は、前記テキストに関連付けられた画像のセットを含む、ことと、
該複数のテキストに関連付けられたデジタル画像からマッチング画像グラフを生成することと、
ランドマークn−グラムと、該複数のテキストに関連付けられたデジタル画像の画像との間のリンクを生成するために、前記ランドマークn−グラムを該複数のテキストに関連付けられたデジタル画像の画像にリンクさせることと
を行うようにさらに構成される、項目18に記載のシステム。
(項目20)
コンピュータ読み取り可能な媒体を含むコンピュータプログラム製品であって、該コンピュータ読み取り可能な媒体は、プロセッサが画像に名前を付けることを可能にするために、該媒体に記録されたコンピュータプログラム論理を有し、該コンピュータプログラム論理は、
タグを付けられたランドマークの画像のセットを生成するために、該プロセッサが、複数のテキストに関連付けられたデジタル画像における1つ以上の画像に、ランドマークを説明するタグを割り当てることを可能にするように構成される第1のモジュールであって、該タグを付けられたランドマークの画像のセット内の画像は、該ランドマークを含むようにアルゴリズム的に決定される、第1のモジュールと、
該プロセッサが、該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することを可能にするように構成される第2のモジュールと、
該プロセッサが、該出現モデルを用いて新しい画像において該ランドマークを検出することを可能にするように構成される第3のモジュールと
を含む、コンピュータプログラム製品。
(項目21)
前記コンピュータプログラム製品は、
該プロセッサが、前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けることを可能にするように構成される第4のモジュールをさらに含む、項目20に記載のコンピュータプログラム製品。
(項目22)
前記第1のモジュールは、
前記複数のテキストに関連付けられたデジタル画像からランドマークn−グラムのリストを生成することと、
n−グラムセットの各ランドマークn−グラムに対してn−グラム点数を計算することであって、該n−グラムセットは、該ランドマークn−グラムのリストのサブセットである、ことと、
前記画像に対して前記ランドマークを説明する前記タグを割り当てることであって、該ランドマークを説明する該タグは、該n−グラムセットにおける少なくとも1つのランドマークn−グラムに基づく、ことと
を行うようにさらに構成される、項目20に記載のコンピュータプログラム製品。
(項目23)
前記第1のモジュールは、
前記複数のテキストに関連付けられたデジタル画像に相関加重を割り当てることであって、該相関加重は、該複数のテキストに関連付けられたデジタル画像における画像のメタデータの相関に基づき、該複数のテキストに関連付けられたデジタル画像は、前記テキストに関連付けられた画像のセットを含む、ことと、
該複数のテキストに関連付けられたデジタル画像からマッチング画像グラフを生成することと、
ランドマークn−グラムと、該複数のテキストに関連付けられたデジタル画像の画像との間のリンクを生成するために、前記ランドマークn−グラムを該複数のテキストに関連付けられたデジタル画像の画像にリンクさせることと
を行うようにさらに構成される、項目22に記載のコンピュータプログラム製品。
本発明の実施形態について、添付した図面に例示され得る本発明の実施形態の例が参照される。これらの図面は、限定ではなく、例示的であると意図される。本発明が、概してこれらの実施形態の前後関係で説明されるが、本発明の範囲をこれらの特定の実施形態に限定しないと意図されることが理解されるべきである。
図1は、本発明の実施形態に従う、デジタル画像におけるランドマークの自動検出のためのシステムを示す。 図2は、本発明の実施形態に従う図1のシステムの部品のさらなる詳細を示す。 図3は、本発明の実施形態に従って、自動的にデジタル画像においてランドマークを検出し、かつデジタル画像に注釈を付けるためのプロセスである。 図4は、本発明の実施形態に従う、ランドマークに対するタグを選択されたテキストに関連付けられた画像に割り当てるためのプロセスである。 図5は、本発明の実施形態に従う、テキストに関連付けられた画像に基づいてn−グラム(gram)のリストを生成するためのプロセスである。 図6は、本発明の実施形態に従う、図4のプロセスに従って生成されたn−グラムのリストからn−グラムのセットを選択するプロセスである。
(詳細な説明)
本発明が本明細書において特定の応用のための例示的な実施形態を参照して説明されるが、本発明は、それらに限定されないことが理解されるべきである。当業者は、本明細書の教示に触れて、本明細書の範囲内の追加の変更、応用、および実施形態、並びに本発明が著しい実用性があり得る追加の分野を認識する。
概説
本発明は、デジタル画像において自動的に物体を認識し、かつ分類するための方法およびシステムを含む。例えば、本発明の実施形態は、インターネット上にアクセス可能であるデジタル画像のコレクションに基づいて最も人気の観光ランドマークを認識し得、分類し得、そして順位を付け得る。本発明の方法およびシステムは、最も人気の観光場所に対して、画像の最新のリストおよびコレクションの有効的なメンテナンスを可能にし得る。いくつかの実施形態において、観光場所の人気は、ユーザーによってインターネット上に投稿されたその場所の画像の数に基づいて近似され得る。
数多くの個人は、彼らの近隣の周囲、彼らの日常活動において訪れた場所、および彼らの観光旅行において訪れた地のデジタル写真を撮る。使用されているカメラは、さまざまなレベルの品質および高度化である。画像を捉える個人は、さまざまな熟練レベルである。画像は、さまざまな角度から、さまざまなレベルの照明で、さまざまなレベルの周囲視覚ノイズと共に、さまざまな天気状況等で捉えられる。次に、これらの画像のうちの多くのは、写真共有ウェブサイト上に投稿され、または他の手段を通してデジタル化利用可能に作られる。デジタル画像、例えばデジタル写真の膨大のコレクションへのアクセスは、インターネットのようなネットワークを通して利用可能にされる。
しばしば、オンラインに画像を投稿するユーザーはまた、例えば、1つ以上のタブおよび/またはキャプションを加えることによって投稿された画像に注釈を付ける。タグは、画像に名前を付けるために使用され得る。タグはまた、画像に関連するキーワードを割りたてるために、画像に割り当てられ得る。例えば、Eiffel Towerの画像は、タグ「Eiffel Tower」、「Paris」、「France」、「Europe」、「summer」、またはTowerの前にポーズしているように見せられる人の名前に割り当てられ得る。タグは、さまざまなレベルの粒度での編成ツールとして価値があり、「France」は、フランスにおけるランドマークに対するサーチで画像を分類するために有用であり得るが、タグとして「Eiffel Tower」のみを有することは、「Paris」および/または「フランス」におけるランドマークに対するサーチから画像を除去し得る。それらの画像に含まれるランドマークを決定するのにおいて画像のタグの精度および有用性のバリエーションにも関わらず、ユーザーにタグを付けられた画像の集合は、自動ランドマーク認識システムを構築する目的のための価値のある情報のソースである。
情報の他の潜在的なソースは、テキストおよび画像にリンクするさまざまな他のドキュメントおよび電子ソースを含む。例えば、Eiffel Towerについての雑誌記事は、その対象物の写真を含み得る。さまざまなランドマークについてのブログ投稿を含む、個人によって書かれ、そして/または投稿された新聞コンテンツ、雑誌およびジャーナルコンテンツ、記事等は、しばしば、テキスト記述に直接に試みされる画像を含む。テキストに関連付けられた認識可能なランドマークを有する画像は、タグを付けたランドマークの画像と呼ばれ得る。
本発明の実施形態は、人気のランドマークについての情報を得るために、画像に関するいくつかのタイプの利用可能なデータを利用する。例えば、地理的タグ、テキストタグ、著者の情報、時間スタンプ(例えば、時間またはオリジン)、および視覚マッチ情報は、本発明の実施形態において利用されるタイプの情報のうちのいくつかである。この情報のうちのいくつかは、各画像に対して(例えば、画像に関連付けられたEXIFタグで)利用可能である。他の情報は、ユーザー割り当てであるかまたはアルゴリズム的に割り当てられる。個々に扱われた場合に、これらのデータの各々は、実質的な弱さを有し得る。例えば、地理的場所データ(例えば、地理的タグ)は、概して写真にされたランドマークではなく、カメラの場所に基づく。または、いくつかの場合において、地理的場所の情報は、ユーザーから提供された情報、例えば、都市名に基づき、それゆえに、正確ではない場合もある。著者および第3者によって提供されたテキストタグは、ランドマークを正確に説明しない場合がある。各画像に対する著者の情報は、カメラの識別子、画像を捉える人、または画像をウェブサイトにアップロードする人に基づき得る。視覚マッチ情報はまた、いくつかのランドマークが小さいエリアに存在する場合、ランドマークの外観がよく似ている場合、および/または画像品質が十分ではない場合のような状況において誤りであり得る。それゆえに、本発明の実施形態は、デジタル画像において高度のランドマーク検出および正確な注釈を得るために、いくつかのタイプの利用可能な情報を利用する。
自動ランドマーク認識および注釈のためのシステム
本発明の実施形態に従う、注釈を付けられた人気のランドマーク画像のデータベースを構築するためのシステム100が図1に示される。システム100は、コンピュータ101、ユーザーインターフェース102、ネットワーク103と104、テキスト/画像ドキュメントコレクション107、n−グラムコレクション108、n−グラムフィルタデータベース109、注釈を付けられていない画像のデータベース110、出現モデルのデータベース111、注釈を付けられた画像112、およびテキスト/画像ソース105を含む。当業者は、システム100が上にリストされたそれらより多く、少なく、または異なる部品およびモジュールを含み得ると同時になお、本発明と一致することを分かる。
コンピュータ101は、通信媒体によって相互接続される1つ以上のコンピュータ、サーバー、または同様の計算デバイスを含み得る。例えば、コンピュータ101は、1つ以上のローカルエリアネットワーク、例えば、Ethernet(登録商標)ネットワーク、Gigabit Ethernet(登録商標)ネットワーク、WIFIネットワーク等によって連結されている1つ以上の市販の利用可能な計算サーバーを含み得る。コンピュータ101は、プロセッサ121、揮発性メモリ122、永続メモリ123、ネットワークインターフェース124、データベースインターフェース125、コンピュータ101のモジュールを連結するための通信媒体126、および管理されていない画像注釈子モジュール127を含む。プロセッサ121は、1つ以上の市販の利用可能な中央処理ユニット(CPU)、グラフィックスプロセッサユニット(GPU)、フィールドプログラマブルゲートアレイ(EPGA)、デジタル信号プロセッサ(DSP)、および特定用途の集積回路(ASIC)を含み得る。プロセッサ121は、コンピュータ101内の処理すること、入力を受信すること、およびコンピュータ101へまたはコンピュータ101からデータを出力することを制御する。例えば、管理されていない画像注釈子モジュール127の処理論理がプロセッサ121で実行され得る。
揮発性メモリ122は、動的ランダムアクセスメモリ(DRAM)、静的ランダムアクセスメモリ(SRAM)等のような揮発性メモリを含む。揮発性メモリ122は、構成パラメータ、ソースデータおよびモジュール127の処理の中間結果を格納するために使用され得る。構成パラメータは、テキスト/画像ソース105のための接続情報および、例えば、管理されていない画像注釈子モジュール127の処理の動作を構成する他のパラメータを含み得る。永続メモリ123は、1つ以上の非揮発性メモリデバイス、例えば、磁気テープ、光学ディスク、フラッシュメモリ、読み取り専用のメモリ(ROM)等を含み得る。永続メモリ123は、管理されていない画像注釈子モジュール127に対する倫理命令、構成パラメータを格納し、モジュール127の処理の中間結果および他の結果を格納するために使用され得る。
ネットワークインターフェース124は、ネットワーク103を含むネットワークを通してコンピュータ101に接続されるエンティティ、例えば、テキスト/画像ソース105と通信するための機能を含み得る。例えば、ネットワークインターフェース124は、インターネットプロトコル(IP)とハイパーテキスト転送プロトコル(HTTP)処理を含む処理部品を含み得、それにより、コンピュータ101がテキストおよび画像情報を得るためにテキスト/画像ソース105に接続すること可能にする。例えば、HTTPプロトコル処理マシンソフトウェアは、ネットワークインターフェース124の一部分として実装され得る。データベースインターフェース125は、本発明の実施形態の実施形態に従ってランドマークの画像を処理において使用された1つ以上のデータベースにコンピュータ101を接続するための機能を含む。用語「データベース」が必ずしもデータベースマネジメントシステム(DBMS)を指さず、むしろデータの任意のコレクションを含むことが留意されるべきである。それゆえに、データベースインターフェース125は、1つ以上のデータベース107〜112、またはデータベース107〜112の各タイプのデータベースのタイプと通信するための処理論理を含む1つ以上のDBMSシステムに接続するためのDBMS機能を含み得る。通信媒体126は、モジュール121〜125および127を含むコンピュータ101のモジュールを接続し得る。通信媒体126は、PCIバス、USB、Ethernet(登録商標)等のような通信デバイスを含み得る。
管理されていない画像注釈子モジュール127は、本発明の実施形態に従って、ランドマークを識別し、選択されたランドマークに対して出現モデルを生成し、そして画像に注釈を付けるための機能を含む。画像に含まれるランドマークは、画像に既に関連付けられた明示タグに基づいて、または以下に説明されるアルゴリズムの手段を通して識別され得る。管理されていない画像注釈子モジュール127の機能は、ソフトウェア、フォームウェア、ハードウェアまたはそれらの組み合わせで実装され得る。1つの実施形態において、管理されていない画像注釈子モジュール127の機能のための処理論理は、コンピュータ言語またはスクリプト言語、例えば、C、C++、Assembly、Java(登録商標)、JavaScript(登録商標)、Perl等で実装され得る。
ネットワーク103は、コンピュータ101を1つ以上のテキスト/画像ソース105に接続する手段を含み得る。ネットワーク104は、コンピュータ101を1つ以上データベース107〜112に接続する手段を含み得る。ネットワーク103および104は、周辺接続、例えば、USB、FireWire、またはEthernet(登録商標)、WIFIのようなローカルエリアネットワーク、またはPSTNまたはインターネットのような広エリアネットワークを含む1つ以上のネットワーク媒体を含み得る。1つの実施形態において、ネットワーク103は、インターネットを含み、ネットワーク104は、Ethernet(登録商標)ベースローカルエリアネットワークを含む。
ユーザーインターフェース102は、PCIバス、IEEE1394Firewireインターフェース、Ethernet(登録商標)インターフェース、IEEE802.11インターフェース等のような相互接続機構のうちのいずれか1つまたはそれらの組み合わせを用いて1つ以上のコンピュータ101に接続され得る。ユーザーインターフェース102は、ユーザーまたは他の外部エンティティがコンピュータ101と相互作用することを可能にする。いくつかの実施形態において、1つ以上のデータベース107〜112はまた、ユーザーインターフェース102を通じて相互作用され得る。グラフィックユーザーインターフェース、ウェブインターフェース、および応用プログラマブルインターフェースのうちの1つ以上は、ユーザーインターフェース130に含まれ得る。
テキスト/画像ソース105は、ランドマークの画像および関連付けられたテキスト(例えば、タグを付けられたランドマークの画像)を含むさまざまなタイプのデジタルドキュメントコレクションを含み得る。1つの実施形態において、テキスト/画像ソース105は、キャプションおよびタグに関連付けられた写真を有する1つ以上の写真コレクションを含む。本明細書に使用されるようなキャプションは、写真に割り当てられるタイトルを指す。本明細書に使用されるようなタグは、写真に割り当てられる1つ以上の単語または句を指す。しばしば、キャプションもタグも写真の著者(例えば、写真の創作者、または写真を写真共有ウェブサイトにアップロードする人)によって割り当てられる。しかしながら、キャプションおよびタグはまた、第3者、または自動化ツールによって、写真に割り当てられ得る。各々が別々に識別されることを除いて、以下の説明における用語「タグ」は、タグもキャプションも含む。
テキスト/画像ソース105はまた、画像をドキュメントにハイパーリンクする(およびその逆である)ハイパーテキストドキュメントのコレクションを含み得、新聞集合、雑誌およびジャーナル集合、ブログアーカイブ、デジタル化された書籍を有するデジタル図書館、第3者に注釈を付けられた写真の倉庫、並びに個人およびビジネスのウェブサイトを含み得る。例えば、観光および/または旅行関連のウェブサイト、デジタル旅行ガイド、都市ウェブサイト等は、概してランドマークの画像と、それらのランドマークの説明と含むいくつかのリソースである。しかしながら、1つ以上の画像と関連付けられたテキストとの間の相関が引き出され得るデジタルデータの任意のコレクションは、テキスト/画像ソース105に含まれ得る。
テキスト/画像コレクション107は、データベースであり、いくつかの実施形態において、テキスト/画像ソース105に遠隔で本来にアクセスされたテキスト/画像データのローカルコピーおよび/または修正されたバージョンが、例えば、管理されていない画像注釈子127による処理に対してより便利かつ信頼できるアクセスのために保存される。例えば、インターネットのような広エリアネットワークであり得るネットワーク103にわたってテキスト/画像ソース105のデータおよび画像にアクセスすることが、長い待ち時間を必要とし得るので、コンピュータ101において、ローカルで、またはテキスト/画像コレクション107のようなネットワーク場所にローカル的に張り付けられるそのようなデータおよび画像のコピーを作るプロセス(示されていない)があり得る。テキスト/画像コレクション107はまた、既にタグを付けられた画像のコレクション、例えば、Picasa Web Albumsのユーザー写真コレクションおよび/または本発明の教示に従って既に処理された画像コレクションを含み得る。いくつかの実施形態において、テキスト/画像コレクション107は、各画像に対応するデータ構造を含み得、データ構造は、例えば、テキスト/画像ソース105から画像および/またはドキュメントの別個のコピーを生成しなければならないことを避けるために、テキスト/画像ソース105の画像およびドキュメントに対する1つ以上のポインターを含む。
n−グラムコレクション108は、n−グラムのコレクションを含むデータベースである。n−グラムは、例えば、テキスト/画像コレクション107またはテキスト/画像ソース105の画像におけるイメージに関連付けられたキャプション、タグ、またはテキストドキュメントから抽出され得る。本明細書に使用されるように、n−グラムは、一連の1つ以上の単語である。n−グラムの選択は、例えば、テキスト分析において使用されるいくつかの技術のうちの1つ以上に類似する方法を用いて行われ得る。本発明の実施形態に従うn−グラムの選択および抽出は、以下にさらに説明される。
n−グラムフィルタデータベース109は、n−グラムコレクション108から濾過されるべきn−グラムの1つ以上のリスト、および/またはn−グラムコレクション108に適用されるべき1つ以上のフィルタリングルールを含む。例えば、n−グラムフィルタデータベース109の1つのリストは、「悪い単語リスト」であり得、悪い単語リストに出現するn−グラムは、テキスト/画像コレクション107、またはテキスト/画像ソース105から抽出されず、それらが存在するように見つけられた場合に、n−グラムコレクション108から除去される。もう1つのリストは、テキストに関連付けられた画像においてあまりに頻繁に生じるn−グラムのリストであり得、それゆえに、ランドマークの識別子として価値があまりない。「the」および「of」のような単語は、このカテゴリ内に考慮され得る。もう1つのリストは、あまり頻繁に出現するように既知である句のリストであり得、それゆえに、判別ランドマーク識別子として十分に有用ではない。
注釈を付けられていない画像データベース110は、なお本発明の実施形態に従って注釈を付けられる(例えば、タグを付けられる)べきである画像を含む。例えば、注釈を付けられていない画像データベース110は、本発明の実施形態を用いて処理されるために、1人以上のユーザーによってアップロードされ、タグを付けられていないデジタル画像を含み得る。
出現モデルデータベース111は、認識モデルを保持し、本明細書において出現モデルと呼ばれ得、画像、例えば、注釈を付けられていない画像データベース110の画像においてランドマークを認識するために引き出される。
注釈を付けられた画像データベース112は、本発明の実施形態に従って注釈を付けられる画像を含む。例えば、注釈を付けられていない画像データベース110からの画像は、それらが本発明の実施形態に従って管理されていない画像注釈子127によって処理された後に、注釈を付けられた画像データベース112に格納される。データベース107〜112が上の別々のデータベースとして説明されるが、当業者は、データベース107〜112が、本発明に一致するさまざまな方法で配列され得、そして/または実装され得る。
図2は、本発明の実施形態に従う管理されていない画像注釈子モジュール127のさらなる詳細を示す。この実施形態において、管理されていない画像注釈子モジュール127は、3つの処理モジュール:ランドマーク識別子201、出現モデル生成子202、および画像注釈子203を含む。モジュール201、202、および203は、ソフトウェア、フォームウェア、ハードウェアまたはそれらの組み合わせで実装され得る。1つの実施形態において、モジュール201〜203は、C++プログラミング言語を用いてソフトウェアで実装される。1つの実施形態において、コンピュータプログラム製品は、コンピュータ読み取り可能な媒体、例えば、ハードディスク、フラッシュディスク、または他の形の記憶体に記録されたモジュール201〜203のコンピュータプログラム論理を含む論理を有し得る。
ランドマーク識別子モジュール201は、テキスト/画像コレクション107および/またはテキスト/画像ソース105においてランドマークを識別するための機能を含む。1つの実施形態において、ランドマーク識別子モジュール201は、入力としてテキスト/画像ソース105から画像および関連付けられたテキストを使用し得、そのような画像および関連付けられたテキストをテキスト/画像コレクション107にコピーし得る。ランドマーク識別子モジュール201はまた、テキスト/画像ソース105のテキストを分析し得ると同時に、n−グラムコレクション108を使用し、かつ更新する。n−グラムフィルタデータベース109はまた、ランドマーク識別子モジュール201内の処理において使用され得る。
出現モデル生成子202は、例えば、ランドマーク識別子モジュール201によって識別された各ランドマークに対して1つ以上の出現モデルを生成するための機能を含む。1つの実施形態において、出現モデル生成子202は、入力としてテキスト/画像コレクション107の画像および識別されたランドマークを取り得、ランドマークの各々に対して1つ以上の出現モデルを生成し得る。生成された出現モデルは、出現モデルデータベース111に書き込まれ得る。
本明細書において使用されるような出現モデルは、画像のある共通特徴の自動認識において使用されるためのテンプレートである。本発明の1つの実施形態において、ランドマークの認識のために使用された出現モデルは、所定の画像特徴のセットに対する数的な点数を含む特徴ベクトルを含み得る。画像の物体認識の方法および特徴ベクトルを生成する方法は、当技術分野において周知である。例えば、画像の物体認識の方法は、David G.Lowe「Object recognition from local scale−invariant features」、International Conference on Computer Vision、Corfu、Greece (1999年9月)、ページ1150〜1157に説明される。視覚認識部品に加えて、出現モデルはまた、対応するランドマークのための地理的場所の情報のような情報を含み得る。例えば、特定のランドマークに対する出現モデルの地理的場所の情報は、地理的ポイントおよび/または地理的エリアを指定し得る。地理的エリアを指定することは、画像の地理的場所の情報の精度のバリエーションのために生成された不確定さを減少し得る。
画像注釈子モジュール203は、画像においてランドマークを自動的に認識し、かつ1つ以上の対応するランドマークを識別する情報を用いてこのような画像に適切に注釈を付けるための機能を含む。1つの実施形態において、画像注釈子モジュール203は、注釈を付けられていない画像データベース110からの画像においてランドマークを自動的に認識するために、出現モデルデータベース111からの出現モデルを使用し得る。次に、画像は、各画像における認識されたランドマークに従って、例えば、1つ以上のタグに関連付けさせることによって注釈を付けられ得、注釈を付けられた画像は、注釈を付けられた画像データベース112に書き込まれ得る。
自動ランドマーク認識および注釈のための方法
図3は、本発明の実施形態に従う、1つ以上の人気のランドマークを含む画像に注釈を付けるプロセス300を示す。プロセス300は、例えば、管理されていない画像注釈子モジュール127に実装され得る。プロセス300のステップ301〜304は、適切のように、ランドマーク識別子モジュール201、出現モデル生成子モジュール202、および画像注釈子モジュール203に実装され得る。当業者は、本明細書においてプロセス300に対して説明される機能が、以下に説明される方法以外の方法でモジュール201〜203を用いて実装され得ることを理解する。例えば、1つの実施形態において、ランドマーク識別子モジュール201、出現モデル生成子モジュール202、および画像注釈子モジュール203は、それぞれ、一緒にプロセス300を実装する別個のプロセスであり得る。もう1つの実施形態において、ランドマーク識別子モジュール201、出現モデル生成子モジュール202、および画像注釈子モジュール203は、それぞれ、一緒にプロセス300を実装する別個のスレッドであり得る。なお、もう1つの実施形態において、ランドマーク識別子モジュール201、出現モデル生成子モジュール202、および画像注釈子モジュール203は、プロセス300を実装する単一のプロセスとして全部に実装され得る。
ステップ301において、画像とそれらの画像に関連付けられたテキストは、ランドマーク、特に人気のランドマークを識別するために分析される。概して、人気のランドマークは、分析された画像/テキストソース、例えば、画像/テキストソース105において最も頻繁に出現するランドマークである。1つの実施形態において、ステップ301の処理への入力は、プロセス300が実行される1つ以上のコンピュータにアクセス可能な1つ以上の画像/テキストソースである。例えば、プロセス300は、コンピュータ101上に実行され得、そしてネットワーク103にわたる画像/テキストソース105へのアクセス能力を有し得る。1つの実施形態に従うステップ301からの出力は、画像の選択されたセット、それらの画像における識別されたランドマーク、および関連付けられたテキストとn−グラムであり得る。例えば、ステップ301の出力は、画像/テキストコレクション107に書き込まれ得る。ステップ301は、以下の図4〜6を参照してさらに説明される。
ステップ302において、1つ以上の出現モデルは、ステップ301において識別されたランドマークに対して引き出され得、または記憶され得る。当業者は、多くの方法のうちの1つがステップ301の結果として得られたタグを付けられたランドマークの画像から出現モデルを記憶するために使用され得ることを認識する。1つの実施形態に従って、特定のランドマークに対する出現モデルは、特定のランドマークを含むように考慮される1つ以上の画像の1つ以上の視覚局面を数的に定量化する特徴ベクトルを含む。前述のように、特徴ベクトルの生成は、当技術分野において周知であり、例えば、本発明において使用され得る特徴ベクトルの生成のためのアプローチは、上に引用されたDavid G.Lowe「Object recognition from local scale−invariant features」において説明される。例えば、特徴ベクトルは、理想的に、カメラ距離、カメラ角度、カメラ品質、照明状況等のような多くの変化する状況に対して相対的に不変である実質的数の特徴を含む。本発明のいくつかの実施形態において、特定の画像に対応する1つ以上の出現モデルはまた、画像の非視覚局面、例えば、地理的場所の情報を含み得る。出現モデルは、特定のモデルの視覚特性と地理的場所の情報とを含む任意の情報を含み得、地理的場所の情報は、画像においてそのランドマークの存在を自動的に認識するのに使用され得る。
ステップ303において、ステップ302において得られた1つ以上の出現モデルは、画像において対応するランドマークを検出するために使用される。1つの実施形態において、出現モデルデータベース111における1つ以上の出現モデルは、注釈を付けられていない画像データベース110における対応するランドマークの検出において使用される。例えば、出現モデルデータベース111からの出現モデルの特徴ベクトルは、考慮されている注釈を付けられていない画像データベース110からの画像に対して生成された特徴ベクトルと比較され得る。特徴ベクトルが所定の閾値レベルを超えてマッチする場合に、考慮されている画像は、マッチした出現モデルに対応するランドマークを含むように認識される。例えば、本発明の実施形態のステップ303において使用され得る物体認識テクノロジーは、概して周知である。本発明において使用され得る物体認識へのアプローチは、上に引用されたLowe、「Object recognition from local scale−invariant features」において説明される。
ステップ304において、分析されている画像は、画像内に、例えば、ステップ303において検出に使用された1つ以上の出現モデルに対応する特定のランドマークを有することが決定された場合に注釈を付けられ得る。注釈を付けられた画像およびそれぞれの注釈は、注釈を付けられた画像データベース112に書き込まれ得る。注釈を付けられた画像に関連付けられた注釈は、その注釈を付けられた画像においてマッチを有するように見つけられた出現モデルの各々に関連付けられたテキストを含み得る。注釈を付けられた画像に関連付けられた注釈は、対応する出現モデルに関連付けられたテキストの追加処理に基づくテキストまたは句を含み得ることも考えられる。例えば、対応する出現モデルに関連付けられたテキストが「Statue of David」および「Rome」のような簡単なタグの形である実施形態において、ステップ304は、「Statue of David in Rome,Italy,」「Statue of David in Palacio Veccio, Rome, Italy」等のような文を生成するための追加処理を含み得る。
図4において、ステップ301に含まれる処理が、より詳細に示される。ステップ301の機能は、ステップ401〜403を含む。ステップ401において、ランドマークを説明する単語または句のn−グラムセットが生成され、そして/または存在するn−グラムセットが更新される。例えば、ステップ401は、入力としてテキスト/画像ソース105を取り得、出力としとn−グラムコレクション108のn−グラムを生成し得る。ランドマークを説明する1つ以上のn−グラムがどうやって生成されるかのステップ401のより詳細な説明は、図5に関連して以下に提供される。
ステップ402において、ランドマークの決定に有用であるように予備に考えられているn−グラムのセットが採点される。例えば、ステップ402において考えられたn−グラムの最初のセットは、ステップ401のテキスト/画像ソース105から引き出されるn−グラムのセットであり得る。ステップ402の処理は、n−グラムコレクション108においてn−グラムのリストを生成し得る。n−グラムは、採点された各n−グラムを有し、かつ所定数のn−グラムのみを最も高い点数に保つことを含むさまざまな基準に従って濾過される。n−グラムの点数S(k)は、n−グラムコレクション108のn−グラムN(K)の各々に割り当てられる。S(k)を決定する方法が以下に説明される。ステップ402の処理は、以下の図6に対してさらに説明される。
ステップ403において、画像は、n−グラムコレクション108からのタグを割り当てられる。例えば、各ペアの画像およびn−グラムの組み合わせに対して、ペアリング点数が割り当てられ得る。より高い価値があるペアリング点数が強く関連した画像およびn−グラムのペアを意味するように、ペアリング点数が規定され得る。1つの実施形態において、テキスト/画像コレクション107からの画像I(i)と、n−グラムコレクション108からのn−グラムN(k)とによって形成されたペアリングは、I(i)とN(k)との間のリンクの強さL(i,k)と、N(k)のn−グラム点数との積、すなわち、L(i,K)*S(k)によって規定されたペアリング点数を割り当てられ得る。L(i,k)を決定する方法が、以下に説明される。候補のn−グラムのリストは、高いペアリング点数を用いてn−グラムに焦点を合わせ、適切にリストを切り捨てることによって生成され得る。1つの例において、ペアリング点数がリストの最も高いペアリング点数の半分より下に落ちる場合に、リストが切り捨てられ得る。このように、各画像は、最も関連性のあるn−グラムを割り当てられ得る。
図5は、前述のステップ401に従うn−グラムのセットの生成における処理ステップ501〜504を示す。ステップ501において、1つ以上のテキスト/画像ソース105は、例えば、ランドマーク識別子モジュール201によってアクセスされる。テキスト/画像ソース105へのアクセスは、ローカルネットワークかまたはインターネットワークのような広エリアネットワークにわたってこのようなソースに接続することを含み得る。処理されるように選択されているテキスト/画像ソース105は、さまざまな方法、例えば、ユーザーまたはオペレータからの入力、プログラム部品によって設けられたウェブの自動識別および分類(例えば、ウェブボットによる写真保管ウェブサイトの識別)、またはコンテンツに対して監視されているウェブサイトまたは他の保管場所のリストに基づいて識別され得る。テキスト/画像ソース105のようなソースに接続する方法は、周知である。必要の場合に、本発明の実装はまた、さまざまな人に所有である画像の使用に含まれ得る著者権、プライバシー等の局面も考慮すべきである。
ステップ502において、潜在的なランドマーク記述子n−グラムのリストは、テキスト/画像ソース105における画像に関連付けられたテキストから検索される。写真がタグおよび/またはキャプションに関連付けられる写真保管場所からのn−グラムの抽出は、テキスト/画像ソース105の写真保管場所の写真に関連付けられたタグおよびキャプションのセットのコレクションを含み得る。テキスト/画像ソースが、画像を対応するテキストに関連づける他のドキュメントおよび/またはコンテンツを含む場合に、数多くのテキスト分析方法のうちの1つ以上は、潜在的にランドマークに対応する用語(タグ)を抽出するために使用され得る。例えば、観光ウェブサイトの画像に関連されたテキストは、潜在的なタグを識別するために、用語頻度逆数ドキュメント頻度(TF−IDF)のような技術における周知の方法を用いて、利用可能なテキストにわたって自動的に分析され得る。1つの実施形態において、TF−IDFは、テキスト/画像ソース105からの写真保管場所の写真に関連付けられたタグに適用される。
所定のルールは、潜在的大規模の利用可能なタグから、ランドマークを指すタグの、狭まれ、そして/または濾過されたセットを決定するように適用され得る。例えば、ステップ503において、1つ以上のフィルタリングルールまたは基準は、ステップ502において収集された潜在的なランドマーク記述子のn−グラムのセットに適用され得る。潜在的なランドマーク記述子n−グラムのリストに適用され得る1つのフィルタは、悪い単語フィルタである。悪い単語フィルタは、ランドマークの中に区別するのに不良および/または不要として事前に決定されているn−グラムおよび句のリストを含む。適用されるもう1つのフィルタは、停止単語リストであり得る。停止単語リストは、タグおよび/または記述子において頻繁に生じるように期待されるn−グラムを含み得、それらのn−グラムは、ランドマーク記述子として有用そうもない。「of」、「the」および「and」のような単語は、停止単語リストに含まれ得る例のn−グラムである。適用され得るもう1つのフィルタは、最小確実性尺度、例えば、最小数の著者フィルタである。最小数の著者フィルタは、そのタグのそれらのn−グラムを用いて、所定の数の特有の著者より少ない数を有する潜在的なランドマーク記述子n−グラムのリストから任意のn−グラムを除去するために使用され得る。例えば、n−グラムコレクション108に含まれるべき任意のn−グラムに対して、n−グラムが3人以上の特有の著者によって使用されるタグにおいて検出されるべきであることが事前に決定され得る。
ステップ504において、1つ以上のルールおよび/またはフィルタがステップ503において適用された後に残る潜在的なランドマーク記述子n−グラムのリストは、n−グラムコレクション108に書き込まれ得る。その後の処理ステップ、例えば、処理ステップ402によって使用されたn−グラムコレクション108からのn−グラムのセットは、前述のようのいくつかのフィルタに従って濾過されるn−グラムのセットであり、それゆえに、実質的にランドマークを説明するn−グラムのみを含み得る。
図6は、1つの実施形態に従う、ステップ402に必要とされる処理を例示するステップ601〜608を示す。ステップ601において、ステップ401に選択されたn−グラムに関連付けられた画像は、相関加重を割り当てられる。1つの実施形態において、ステップ401に選択されたn−グラムに関連付けられた画像は、テキスト/画像コレクション107にコピーされ、加重の割り当ておよび追加処理は、それらの画像上に行われる。画像I(i)の相関加重W(i)は、テキスト/画像コレクション107内の他の画像に対する画像I(i)の相関レベルの逆数の尺度である。例えば、画像I(i)がテキスト/画像コレクション107内の任意の他の画像との相関がない場合に、次に、画像I(i)は、1の相関加重を割り当てられ、画像I(i)がテキスト/画像コレクション107内の2つの他の画像との相関がある場合に、次に、画像I(i)とその2つの相関がある画像の各々とは、1/3の相関加重を割り当てられる。ルールまたは基準の所定のセットは、2つの画像の相関があるか否かを決定するために使用され得る。例えば、2つの画像が同じ著者によって撮られ得、非常に近い地理的場所(例えば、互いから1/4マイル内)にある場合に、それらに相関があると考えられ得る。
ステップ602において、マッチング画像グラフは、例えば、テキスト/画像コレクション107の画像から生成される。マッチング画像グラフのノードは、テキスト/画像コレクション107の画像を表す。マッチング画像グラフの各エッジは、2つの接続されたノードに対応する画像がマッチする程度を表す。例えば、画像I(i)とI(j)との間のエッジに割り当てられたマッチング点数M(i,j)は、画像I(i)の特徴ベクトルと、画像I(j)の特徴ベクトルとの間のマッチに基づいて引き出される数値であり得る。特徴ベクトルの個々の特徴は、構成可能な加重を割り当てられ得、マッチング点数M(i,j)は、マッチング特徴のこのような加重の合計であり得る。
ステップ603において、リンク(画像名前リンクと呼ばれる)は、n−グラムコレクション108のn−グラムの各々とテキスト/画像コレクション107の画像の各々との間に形成される。画像名前リンクは、n−グラムが画像のタグによって含まれる場合に、1までの二進変数セットであり得、他の場合に0であり得る。しかしながら、結果のロバストを増大するために、出力は、単一の画像を考えるより視覚的に類似である画像のセットにわたって平均化することによって平坦化にされる。例えば、画像I(i)とn−グラムkとの間の画像名前リンクL(i,k)は、
Figure 0005680063
として規定され得、そこで、前述のように、M(i,j)は、画像マッチンググラフにおける画像I(i)とI(j)との間のマッチング点数であり、W(j)は、画像I(j)の相関加重である。
ステップ604において、テキスト/画像コレクション107の各画像の地理的確実性が推定される。画像I(i)、G(i)の地理的確実性は、互いに対する所定の距離内に地理的場所の座標を用いる画像の視覚的一致の比較に基づく、画像の地理的場所の情報の精度の推定である。例えば、
Figure 0005680063
そこで、nは、構成可能なパラメータであり得る。
ステップ605において、地理的分散は、オプション的に、各n−グラムN(k)に対して計算され得る。例えば、N(k)の地理的分散V(k)は、
V(k)=EW[(loc(i)−EW(loc(i))
として表され得、そこで、loc(i)は、画像I(i)の地理的場所を表し、EWは、加重された期待値である。加重された期待値は、n−グラムに対して最も著しい場所ポイントの分散を捉えるのに有用である。加重は、L(i,k)*W(i)*G(i)、すなわち、画像名前リンク、画像の加重および画像の地理的確実性の積として計算され得る。その後に、閾値の地理的分散より大きなV(k)を有するn−グラムは、n−グラムコレクション108から濾過されて除かれ得る。
ステップ606において、テキスト/画像コレクション107の各n−グラムN(k)のn−グラム点数S(k)は、画像のタグのn−グラムN(k)を有する画像の間の内部リンク強さと、画像のタグのn−グラムN(k)を有する画像と、画像のタグのn−グラムN(k)を有しない画像との間の外部リンク強さとを捉えるように設計される尺度を用いて決定される。例えば、S(k)は、
Figure 0005680063
として表され得る。
S(k)が大きいほど、意味のある視覚的区別可能なエンティティを指すn−グラムN(k)が高い可能性であるほど、それゆえに、ランドマークの名前がより確実になる。
ステップ607において、n−グラムが採点された後に、さらなるフィルタリングは、オプション的に、最も人気のランドマークn−グラムを識別するために、実装され得る。例えば、最も高いn−グラム点数を有する所定の数のn−グラムのn−グラム点数は、閾値の平均点数を決定するために平均され得る。その後に、閾値の平均点数より高い点数を有するそれらのn−グラム以外の全部のn−グラムは、n−グラムテキスト/画像108から除去され得る。
ステップ608において同じランドマークの場所を指すように考えられるn−グラムが統合される。採点するステップ、点数に基づく後のフィルタリングは、概して有意義にランドマークを指すn−グラムのリストを残すが、なお同じランドマークを指す多くのn−グラムは、n−グラムコレクション108に残り得る。同じランドマークを指す複数のn−グラムは、同じランドマークの異なる名前、同じランドマークの異なる説明、および福記号列の切り捨てを含むいくつかの理由のために存在し得る。意味のある方式でこのような重複n−グラムを一緒に統合することが望ましくあり得る。1つの例において、これを解決するために、2つのn−グラムN(k)とN(l)が互いからの所定の距離内のそれらの点数を有する場合に、かつn−グラムがリンクされる画像が実質的に重ねられる場合に、次に2つのn−グラムN(k)とN(l)が統合される。画像の実質的な重なりは、例えば、各画像I(i)とn−グラムN(k)とのペアに対してBhattacharya距離L(i,k)を考慮することと、Bhattacharya距離が所定の閾値以上にあるか否かを決定することとによって決定され得る。Bhattacharya距離の計算は、当技術分野において周知である。
(結論)
モジュール127および/またはモジュール201〜203の処理能力は、ソフトウェア、ハードウェア、またはそれらの組み合わせで達成され得る。例えば、モジュール201と203は、全体的にソフトウェアとして実装され得、または出現モデル生成子モジュール202の機能のうちのいくつかは、フィールドプログラマブルゲートアレイ(FPGA)のようなハードウェアを用いて実装され得る。当業者は、管理されていない画像注釈子モジュール127および/またはコンピュータ101が本発明の機能を容易にする追加の部品およびモジュールを含み得ることを理解し得る。
要約および摘要のセクションではなく、詳細な説明のセクションが請求範囲を解釈するために使用されると意図されることが認識されるべきである。要約および摘要のセクションは、発明者によって考えられるように本発明の代表的な実施形態の全部ではなく、1つ以上を説明し得、従って、任意の方法で本発明および添付請求範囲を限定すると意図されていない。
本発明は、特定された機能およびそれらの関係の実装を例示する機能構築ブロックの支援と共に上に説明されている。これらの機能構築ブロックの境界は、説明の便利のために本明細書において勝手に規定されている。代替的な境界は、特定された機能およびそれらの関係が適切に行われる限り、規定され得る。
具体的な実施形態の前記説明は、本発明の一般的な本質を完全に明らかにし、他には、当業者の知識を適用することによって、必要以上の実験なしに、本発明の一般的なコンセプトから逸脱することなしに、既に変更し得、そして/または具体的な実施形態のようなさまざまな応用に対して適合し得る。それゆえに、このような適合および変更は、本明細書に示された教示および助言に基づいて、開示された実施形態の同等物の意味および範囲内にあると意図されている。本明細書の表現または専門用語は、限定ではなく、説明の目的のためであることが理解されるべきであり、その結果、本明細書の専門用語または表現は、教示および助言を考慮して、当業者によって解釈されるべきでる。
本発明の幅および範囲は、前述の代表的な実施形態によって限定されるべきではなく、むしろただ後の請求範囲およびそれらの同等物に従って規定されるべきである。

Claims (22)

  1. デジタル画像においてランドマークを検出し、かつランドマークに注釈を付けるための方法であって、該方法は、
    (a)タグを付けられたランドマークの画像のセットを生成するために、複数デジタル画像における1つ以上の画像に、ランドマークを説明するタグを自動的に割り当てることであって、該複数のデジタル画像は、テキストに関連付けられており、該ランドマークを説明する該タグは、該複数デジタル画像に関連付けられたテキストから生成される、ことと、
    (b)該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
    (c)該出現モデルを用いて新しい画像において該ランドマークを検出することと
    を含み、該ステージ(a)〜(c)が、少なくとも1つのプロセッサによって行われる、方法。
  2. 前記方法は、
    (d)前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けることをさらに含む、請求項1に記載の方法。
  3. ステージ(a)は、
    (i) 前記複数デジタル画像に関連付けられた前記テキストからランドマークn−グラムのリストを生成することと、
    (ii) n−グラムセットの各ランドマークn−グラムに対してn−グラム点数を計算することであって、該n−グラムセットは、該ランドマークn−グラムのリストのサブセットであり、該n−グラムセットのランドマークn−グラムに対する該n−グラム点数は、ランドマークn−グラムを有するタグを含む画像間の内部リンク強さ、およびランドマークn−グラムを有するタグを含む画像とランドマークn−グラムを有するタグを含まない画像との間の外部リンク強さに基づいて計算される、ことと、
    (iii)前記ランドマークを説明する前記タグを該複数デジタル画像における前記1つ以上の画像に割り当てることであって、該ランドマークを説明する該タグは、該n−グラムセットにおける少なくとも1つのランドマークn−グラムに基づく、ことと
    を含む、請求項1に記載の方法。
  4. ステージ(a)(i)は、
    前記複数デジタル画像に電子的にアクセスすることと、
    該複数デジタル画像における画像に関連付けられたテキストから前記ランドマークn−グラムのうちの少なくとも1つを検索することと
    を含む、請求項3に記載の方法。
  5. ステージ(a)(i)は、
    少なくとも最小確実性尺度を有する前記ランドマークn−グラムを選ぶことをさらに含む、請求項4に記載の方法。
  6. 前記確実性尺度は、特有の著者の数に基づく、請求項5に記載の方法。
  7. ステージ(a)(ii)は、
    前記複数デジタル画像に相関加重を割り当てることであって、該相関加重は、該複数デジタル画像における画像のメタデータの相関に基づく、ことと、
    該複数デジタル画像からマッチング画像グラフを生成することと、
    前記ランドマークn−グラムと、該複数デジタル画像における画像との間のリンクを生成し、かつ、該ランドマークn−グラムが該複数デジタル画像における該画像に関連付けられたテキストの中に含まれているか否かに基づいて値を該リンクに割り当てることと
    を含む、請求項3に記載の方法。
  8. ステージ(a)(ii)は、
    前記マッチング画像グラフを用いて前記複数デジタル画像の各画像に対して地理的確実性の点数を推定することをさらに含む、請求項7に記載の方法。
  9. 前記n−グラム点数は、前記マッチング画像グラフに基づく、請求項7に記載の方法。
  10. ステージ(a)(ii)は、
    前記n−グラムセットのランドマークn−グラムに対して地理的場所の分散を計算することであって、該分散は、前記マッチング画像グラフにおける画像のn−グラムセットの前記ランドマークn−グラムを有する画像の地理的場所に基づく、ことと、
    該n−グラムセットから、所定の閾値を超える地理的場所の分散を有する全てのランドマークn−グラムを除去することと
    をさらに含む、請求項8に記載の方法。
  11. ステージ(a)(ii)は、
    前記n−グラムセットにおいて2つ以上のランドマークn−グラムを統合することをさらに含む、請求項7に記載の方法。
  12. 前記統合することは、前記2つ以上のランドマークn−グラムの前記点数の類似と、該2つ以上のランドマークn−グラムにリンクする画像の重なりとのうちの少なくとも1つに基づく、請求項11に記載の方法。
  13. 前記メタデータは、
    著者と、
    地理的場所と、
    時間スタンプと
    のうちの少なくとも1つに関連する情報を含む、請求項7に記載の方法。
  14. 前記マッチング画像グラフは、前記複数デジタル画像のそれぞれを表す複数のノードと、エッジとを含み、該エッジは、2つのノードごとに、該2つのノードを接続し、各エッジは、各エッジによって接続された2つのノードに対応する2つデジタル画像の間のマッチング程度を表す値を割り当てられる、請求項7に記載の方法。
  15. デジタル画像においてランドマークを自動的に検出し、かつランドマークに注釈を付けるためのシステムであって、該システムは、
    メモリ媒体に格納されている複数のデジタル画像の少なくとも1つのコレクションと、
    該媒体に通信連結された少なくとも1つのプロセッサと
    を含み、該少なくとも1つのプロセッサは、
    タグを付けられたランドマークの画像のセットを生成するために、複数デジタル画像における1つ以上の画像に、ランドマークを説明するタグを自動的に割り当てることであって、該複数のデジタル画像は、テキストに関連付けられており、該ランドマークを説明する該タグは、該複数デジタル画像に関連付けられたテキストから生成される、ことと、
    該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
    該出現モデルを用いて新しい画像において該ランドマークを検出することと
    を行うように構成されている、システム。
  16. 前記少なくとも1つのプロセッサは、
    前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けるようにさらに構成されている、請求項15に記載のシステム。
  17. 前記少なくとも1つのプロセッサは、
    前記複数デジタル画像に関連付けされた前記テキストからランドマークn−グラムのリストを生成することと、
    n−グラムセットの各ランドマークn−グラムに対してn−グラム点数を計算することであって、該n−グラムセットは、該ランドマークn−グラムのリストのサブセットであり、該n−グラムセットのランドマークn−グラムに対する該n−グラム点数は、ランドマークn−グラムを有するタグを含む画像間の内部リンク強さ、およびランドマークn−グラムを有するタグを含む画像とランドマークn−グラムを有するタグを含まない画像との間の外部リンク強さに基づいて計算される、ことと、
    前記ランドマークを説明する前記タグを該複数デジタル画像における前記1つ以上の画像に割り当てることであって、該ランドマークを説明する該タグは、該n−グラムセットにおける少なくとも1つのランドマークn−グラムに基づく、ことと
    を行うようにさらに構成されている、請求項15に記載のシステム。
  18. 前記少なくとも1つのプロセッサは、
    前記複数デジタル画像に相関加重を割り当てることであって、該相関加重は、該複数デジタル画像における画像のメタデータの相関に基づく、ことと、
    該複数デジタル画像からマッチング画像グラフを生成することと、
    前記ランドマークn−グラムと、該複数デジタル画像における画像との間のリンクを生成し、かつ、該ランドマークn−グラムが該複数デジタル画像における該画像に関連付けられたテキストの中に含まれているか否かに基づいて値を該リンクに割り当てることと
    を行うようにさらに構成されている、請求項17に記載のシステム。
  19. プロセッサが画像に名前を付けることを可能にするためのコンピュータプログラム論理を記録したコンピュータ読み取り可能な記憶媒体であって、プロセッサによって実行される場合、コンピュータプログラムは、
    (a)タグを付けられたランドマークの画像のセットを生成するために、複数デジタル画像における1つ以上の画像に、ランドマークを説明するタグを割り当てることであって、該複数のデジタル画像は、テキストに関連付けられており、該ランドマークを説明する該タグは、該複数デジタル画像に関連付けられたテキストから生成される、ことと、
    (b)該タグを付けられたランドマークの画像のセットからの該ランドマークに対して出現モデルを記憶することと、
    (c)該出現モデルを用いて新しい画像において該ランドマークを検出することと
    を行うように該プロセッサに命令する、コンピュータ読み取り可能な記憶媒体。
  20. 前記コンピュータ読み取り可能な記憶媒体は、
    (d)前記ランドマークを説明する前記タグを用いて前記新しい画像に注釈を付けるようにさらに前記プロセッサに命令する、請求項19に記載のコンピュータ読み取り可能な記憶媒体。
  21. (a)は、
    前記複数デジタル画像に関連付けされた前記テキストからランドマークn−グラムのリストを生成することと、
    n−グラムセットの各ランドマークn−グラムに対してn−グラム点数を計算することであって、該n−グラムセットは、該ランドマークn−グラムのリストのサブセットであり、該n−グラムセットのランドマークn−グラムに対する該n−グラム点数は、ランドマークn−グラムを有するタグを含む画像間の内部リンク強さ、およびランドマークn−グラムを有するタグを含む画像とランドマークn−グラムを有するタグを含まない画像との間の外部リンク強さに基づいて計算される、ことと、
    前記画像に対して前記ランドマークを説明する前記タグを割り当てることであって、該ランドマークを説明する該タグは、該n−グラムセットにおける少なくとも1つのランドマークn−グラムに基づく、ことと
    をさらに含む、請求項19に記載のコンピュータ読み取り可能な記憶媒体。
  22. (a)は、
    前記複数デジタル画像に相関加重を割り当てることであって、該相関加重は、該複数デジタル画像における画像のメタデータの相関に基づく、ことと、
    該複数デジタル画像からマッチング画像グラフを生成することと、
    前記ランドマークn−グラムと、該複数デジタル画像における画像との間のリンクを生成し、かつ、該ランドマークn−グラムが該複数デジタル画像における該画像に関連付けられたテキストの中に含まれているか否かに基づいて値を該リンクに割り当てることと
    をさらに含む、請求項21に記載のコンピュータ読み取り可能な記憶媒体。
JP2012511045A 2009-05-15 2010-05-14 デジタル写真のコレクションからのランドマーク Active JP5680063B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/466,880 2009-05-15
US12/466,880 US8396287B2 (en) 2009-05-15 2009-05-15 Landmarks from digital photo collections
PCT/US2010/034930 WO2010132789A1 (en) 2009-05-15 2010-05-14 Landmarks from digital photo collections

Publications (3)

Publication Number Publication Date
JP2012527057A JP2012527057A (ja) 2012-11-01
JP2012527057A5 JP2012527057A5 (ja) 2013-06-27
JP5680063B2 true JP5680063B2 (ja) 2015-03-04

Family

ID=42629562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012511045A Active JP5680063B2 (ja) 2009-05-15 2010-05-14 デジタル写真のコレクションからのランドマーク

Country Status (8)

Country Link
US (4) US8396287B2 (ja)
EP (1) EP2430572A1 (ja)
JP (1) JP5680063B2 (ja)
KR (1) KR101672570B1 (ja)
CN (1) CN102549571B (ja)
AU (1) AU2010248862B2 (ja)
CA (1) CA2762090C (ja)
WO (1) WO2010132789A1 (ja)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676001B2 (en) 2008-05-12 2014-03-18 Google Inc. Automatic discovery of popular landmarks
US8396287B2 (en) * 2009-05-15 2013-03-12 Google Inc. Landmarks from digital photo collections
US8611592B2 (en) * 2009-08-26 2013-12-17 Apple Inc. Landmark identification using metadata
JP2011055250A (ja) * 2009-09-02 2011-03-17 Sony Corp 情報提供方法及び装置、情報表示方法及び携帯端末、プログラム、並びに情報提供システム
US8897816B2 (en) * 2010-06-17 2014-11-25 Nokia Corporation Method and apparatus for locating information from surroundings
US8385593B2 (en) 2010-06-18 2013-02-26 Google Inc. Selecting representative images for establishments
US8724910B1 (en) * 2010-08-31 2014-05-13 Google Inc. Selection of representative images
US9384408B2 (en) * 2011-01-12 2016-07-05 Yahoo! Inc. Image analysis system and method using image recognition and text search
US20120213404A1 (en) * 2011-02-18 2012-08-23 Google Inc. Automatic event recognition and cross-user photo clustering
JP2012190244A (ja) * 2011-03-10 2012-10-04 Fujitsu Ltd 情報提供方法及び情報提供装置
US9251130B1 (en) * 2011-03-31 2016-02-02 Amazon Technologies, Inc. Tagging annotations of electronic books
US9552376B2 (en) 2011-06-09 2017-01-24 MemoryWeb, LLC Method and apparatus for managing digital files
US10972530B2 (en) 2016-12-30 2021-04-06 Google Llc Audio-based data structure generation
US8688514B1 (en) 2011-06-24 2014-04-01 Google Inc. Ad selection using image data
US11087424B1 (en) 2011-06-24 2021-08-10 Google Llc Image recognition-based content item selection
US8635519B2 (en) 2011-08-26 2014-01-21 Luminate, Inc. System and method for sharing content based on positional tagging
US20130086112A1 (en) 2011-10-03 2013-04-04 James R. Everingham Image browsing system and method for a digital content platform
US8737678B2 (en) 2011-10-05 2014-05-27 Luminate, Inc. Platform for providing interactive applications on a digital content platform
USD737290S1 (en) 2011-10-10 2015-08-25 Yahoo! Inc. Portion of a display screen with a graphical user interface
USD736224S1 (en) 2011-10-10 2015-08-11 Yahoo! Inc. Portion of a display screen with a graphical user interface
US11093692B2 (en) 2011-11-14 2021-08-17 Google Llc Extracting audiovisual features from digital components
US10586127B1 (en) 2011-11-14 2020-03-10 Google Llc Extracting audiovisual features from content elements on online documents
JP5775466B2 (ja) * 2012-01-13 2015-09-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
US9026540B1 (en) * 2012-01-31 2015-05-05 Google Inc. Systems and methods for information match scoring
US9495334B2 (en) * 2012-02-01 2016-11-15 Adobe Systems Incorporated Visualizing content referenced in an electronic document
US8255495B1 (en) 2012-03-22 2012-08-28 Luminate, Inc. Digital image and content display systems and methods
US9122927B2 (en) 2012-03-26 2015-09-01 Google Inc. Generating an image tour based on a set of images
US8495489B1 (en) 2012-05-16 2013-07-23 Luminate, Inc. System and method for creating and displaying image annotations
US8996305B2 (en) * 2012-06-07 2015-03-31 Yahoo! Inc. System and method for discovering photograph hotspots
US9020278B2 (en) * 2012-06-08 2015-04-28 Samsung Electronics Co., Ltd. Conversion of camera settings to reference picture
US9391792B2 (en) 2012-06-27 2016-07-12 Google Inc. System and method for event content stream
AU2013300031B2 (en) 2012-08-08 2015-05-28 Google Llc Browsing images of a point of interest within an image graph
US9036865B2 (en) * 2012-09-12 2015-05-19 International Business Machines Corporation Location determination for an object using visual data
US9317531B2 (en) * 2012-10-18 2016-04-19 Microsoft Technology Licensing, Llc Autocaptioning of images
US9418370B2 (en) 2012-10-23 2016-08-16 Google Inc. Obtaining event reviews
CN103853797B (zh) * 2012-12-07 2017-10-17 中兴通讯股份有限公司 一种基于n元图片索引结构的图片检索方法与系统
CN103853792B (zh) * 2012-12-07 2018-06-15 中兴通讯股份有限公司 一种图片语义自动标注方法与系统
US20140279261A1 (en) 2013-03-15 2014-09-18 Google Inc. Destination and point of interest search
CN103226575A (zh) * 2013-04-01 2013-07-31 北京小米科技有限责任公司 一种图像处理方法和装置
US10474714B2 (en) * 2013-05-01 2019-11-12 Kble Ltd Method and component for classifying resources of a database
CN103218460B (zh) * 2013-05-14 2016-08-10 清华大学 基于最优线性稀疏重构的图像标签补全方法
US10402661B2 (en) 2013-07-22 2019-09-03 Opengate Development, Llc Shape/object recognition using still/scan/moving image optical digital media processing
US9082047B2 (en) * 2013-08-20 2015-07-14 Xerox Corporation Learning beautiful and ugly visual attributes
US9208171B1 (en) * 2013-09-05 2015-12-08 Google Inc. Geographically locating and posing images in a large-scale image repository and processing framework
US9069794B1 (en) * 2013-10-11 2015-06-30 Google Inc. Determining location information for images using landmark, caption, and metadata location data
US9531722B1 (en) 2013-10-31 2016-12-27 Google Inc. Methods for generating an activity stream
US9542457B1 (en) 2013-11-07 2017-01-10 Google Inc. Methods for displaying object history information
US9614880B1 (en) 2013-11-12 2017-04-04 Google Inc. Methods for real-time notifications in an activity stream
US10013639B1 (en) 2013-12-16 2018-07-03 Amazon Technologies, Inc. Analyzing digital images based on criteria
US9509772B1 (en) 2014-02-13 2016-11-29 Google Inc. Visualization and control of ongoing ingress actions
US10318543B1 (en) 2014-03-20 2019-06-11 Google Llc Obtaining and enhancing metadata for content items
US9536199B1 (en) 2014-06-09 2017-01-03 Google Inc. Recommendations based on device usage
US9507791B2 (en) 2014-06-12 2016-11-29 Google Inc. Storage system user interface with floating file collection
US10078781B2 (en) 2014-06-13 2018-09-18 Google Llc Automatically organizing images
US9842102B2 (en) * 2014-11-10 2017-12-12 Oracle International Corporation Automatic ontology generation for natural-language processing applications
US9471695B1 (en) * 2014-12-02 2016-10-18 Google Inc. Semantic image navigation experiences
US9870420B2 (en) 2015-01-19 2018-01-16 Google Llc Classification and storage of documents
CN104794171B (zh) * 2015-03-31 2018-06-05 百度在线网络技术(北京)有限公司 标记图片地理位置信息的方法及装置
RU2632133C2 (ru) 2015-09-29 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и система (варианты) создания модели прогнозирования и определения точности модели прогнозирования
US20170132821A1 (en) * 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Caption generation for visual media
CN106776658B (zh) * 2015-11-25 2020-05-19 宏碁股份有限公司 照片整理的方法及其电子装置
US10026021B2 (en) * 2016-09-27 2018-07-17 Facebook, Inc. Training image-recognition systems using a joint embedding model on online social networks
US10878020B2 (en) * 2017-01-27 2020-12-29 Hootsuite Media Inc. Automated extraction tools and their use in social content tagging systems
JP7142420B2 (ja) * 2017-07-10 2022-09-27 キヤノン株式会社 画像処理装置、学習方法、学習済モデル、画像処理方法
RU2693324C2 (ru) 2017-11-24 2019-07-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер преобразования значения категориального фактора в его числовое представление
WO2019109223A1 (zh) * 2017-12-04 2019-06-13 华为技术有限公司 一种生成相册标题的方法及设备
US11163941B1 (en) * 2018-03-30 2021-11-02 Snap Inc. Annotating a collection of media content items
CN110147701A (zh) * 2018-06-27 2019-08-20 腾讯科技(深圳)有限公司 关键点标注方法、装置、计算机设备及存储介质
US11821747B2 (en) * 2018-09-06 2023-11-21 Google Llc Displaying personalized landmarks in a mapping application
US10929714B2 (en) 2018-11-19 2021-02-23 Ford Global Technologies, Llc High-throughput automated annotation of visual data for training neural networks used for landmark detection
US10936178B2 (en) 2019-01-07 2021-03-02 MemoryWeb, LLC Systems and methods for analyzing and organizing digital photos and videos
WO2020146784A1 (en) * 2019-01-10 2020-07-16 Chevron U.S.A. Inc. Converting unstructured technical reports to structured technical reports using machine learning
CN110222569B (zh) * 2019-05-05 2021-04-23 北京三快在线科技有限公司 对象检测方法、装置、电子设备及可读存储介质
US11501067B1 (en) * 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus
US10909167B1 (en) * 2020-09-17 2021-02-02 Pure Memories Ltd Systems and methods for organizing an image gallery

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07168855A (ja) 1993-09-21 1995-07-04 Toshiba Corp 情報記録再生装置
JP3307843B2 (ja) * 1996-10-30 2002-07-24 松下電器産業株式会社 ハイパーテキスト構造における地図表示装置
JP3970520B2 (ja) 1998-04-13 2007-09-05 アイマティック・インターフェイシズ・インコーポレイテッド 人間の姿を与えたものを動画化するためのウェーブレットに基づく顔の動きの捕捉
JPH11328194A (ja) 1998-05-13 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> キーワード検索方法及び装置及びキーワード検索プログラムを格納した記憶媒体
US6711293B1 (en) 1999-03-08 2004-03-23 The University Of British Columbia Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image
JP2000259669A (ja) * 1999-03-12 2000-09-22 Ntt Data Corp 文書分類装置及びその方法
US6411724B1 (en) * 1999-07-02 2002-06-25 Koninklijke Philips Electronics N.V. Using meta-descriptors to represent multimedia information
JP2002010178A (ja) 2000-06-19 2002-01-11 Sony Corp 画像管理システム及び画像管理方法、並びに、記憶媒体
US7233942B2 (en) 2000-10-10 2007-06-19 Truelocal Inc. Method and apparatus for providing geographically authenticated electronic documents
JP3437555B2 (ja) * 2001-03-06 2003-08-18 キヤノン株式会社 特定点検出方法及び装置
GB0114271D0 (en) * 2001-06-12 2001-08-01 Univ Manchester Parameterisation
JP2004021717A (ja) 2002-06-18 2004-01-22 Toshiba Corp 空間データ分析装置、空間データ分析プログラムおよび空間データ分析方法
US7911497B2 (en) 2003-04-25 2011-03-22 Lockheed Martin Corporation Method and apparatus for video on demand
JP4388301B2 (ja) 2003-05-08 2009-12-24 オリンパス株式会社 画像検索装置、画像検索方法、画像検索プログラム及びそのプログラムを記録した記録媒体
US7313574B2 (en) 2003-10-02 2007-12-25 Nokia Corporation Method for clustering and querying media items
WO2005055138A2 (en) 2003-11-26 2005-06-16 Yesvideo, Inc. Statical modeling of a visual image for use in determining similarity between visual images
US7697792B2 (en) 2003-11-26 2010-04-13 Yesvideo, Inc. Process-response statistical modeling of a visual image for use in determining similarity between visual images
US20060020597A1 (en) 2003-11-26 2006-01-26 Yesvideo, Inc. Use of image similarity in summarizing a collection of visual images
US20060015497A1 (en) 2003-11-26 2006-01-19 Yesvideo, Inc. Content-based indexing or grouping of visual images, with particular use of image similarity to effect same
US7707239B2 (en) * 2004-11-01 2010-04-27 Scenera Technologies, Llc Using local networks for location information and image tagging
US7574409B2 (en) 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
US7653249B2 (en) 2004-11-17 2010-01-26 Eastman Kodak Company Variance-based event clustering for automatically classifying images
US8027832B2 (en) * 2005-02-11 2011-09-27 Microsoft Corporation Efficient language identification
US8732175B2 (en) * 2005-04-21 2014-05-20 Yahoo! Inc. Interestingness ranking of media objects
US7760917B2 (en) * 2005-05-09 2010-07-20 Like.Com Computer-implemented method for performing similarity searches
US7353114B1 (en) 2005-06-27 2008-04-01 Google Inc. Markup language for an interactive geographic information system
WO2007013432A1 (ja) * 2005-07-26 2007-02-01 Matsushita Electric Industrial Co., Ltd. 画像データ管理装置および画像データ管理方法
US7840558B2 (en) 2005-11-04 2010-11-23 Microsoft Corporation Geo-tagged based listing service and mapping engine
US8098899B2 (en) 2005-11-14 2012-01-17 Fujifilm Corporation Landmark search system for digital camera, map data, and method of sorting image data
JP2007142672A (ja) 2005-11-16 2007-06-07 Fujifilm Corp 画像分類装置及び方法、並びにデジタルカメラ
US7663671B2 (en) 2005-11-22 2010-02-16 Eastman Kodak Company Location based image classification with map segmentation
EP1816836A3 (en) 2005-12-30 2010-01-13 LG Electronics Inc. Apparatus and method for managing images of mobile terminal
US7725451B2 (en) 2006-01-23 2010-05-25 Microsoft Corporation Generating clusters of images for search results
JP4671235B2 (ja) 2006-01-26 2011-04-13 田岡化学工業株式会社 フルオレン誘導体の製造方法
KR100641791B1 (ko) * 2006-02-14 2006-11-02 (주)올라웍스 디지털 데이터에 대한 태깅 방법 및 시스템
US20070208776A1 (en) 2006-03-06 2007-09-06 Microsoft Corporation Assignment of metadata
JP2007316876A (ja) * 2006-05-25 2007-12-06 Hitachi Ltd 文書検索プログラム
US8015183B2 (en) 2006-06-12 2011-09-06 Nokia Corporation System and methods for providing statstically interesting geographical information based on queries to a geographic search engine
JP2007334505A (ja) 2006-06-13 2007-12-27 Mitsubishi Electric Corp 施設検索システムならびにこれに用いられる移動体端末およびサーバ
US7739221B2 (en) 2006-06-28 2010-06-15 Microsoft Corporation Visual and multi-dimensional search
JP2008033399A (ja) 2006-07-26 2008-02-14 Fujifilm Corp 情報提供システム
DE102006043910B4 (de) * 2006-09-19 2010-02-25 Siemens Ag Ergebnisfilter und Verfahren zur Selektion der Ergebnisdaten einer Applikation zur automatischen Mustererkennung
US7707208B2 (en) 2006-10-10 2010-04-27 Microsoft Corporation Identifying sight for a location
US7657504B2 (en) * 2006-10-10 2010-02-02 Microsoft Corporation User interface for displaying images of sights
WO2008055120A2 (en) 2006-10-30 2008-05-08 Seeqpod, Inc. System and method for summarizing search results
US8037051B2 (en) 2006-11-08 2011-10-11 Intertrust Technologies Corporation Matching and recommending relevant videos and media to individual search engine results
JP4891740B2 (ja) * 2006-11-22 2012-03-07 株式会社日立製作所 コンテンツ検索装置及びコンテンツ検索方法
US20080118160A1 (en) 2006-11-22 2008-05-22 Nokia Corporation System and method for browsing an image database
JP2008165303A (ja) * 2006-12-27 2008-07-17 Fujifilm Corp コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム
JP4672692B2 (ja) * 2007-03-14 2011-04-20 株式会社東芝 単語認識システムおよび単語認識プログラム
US20080268876A1 (en) 2007-04-24 2008-10-30 Natasha Gelfand Method, Device, Mobile Terminal, and Computer Program Product for a Point of Interest Based Scheme for Improving Mobile Visual Searching Functionalities
US8155399B2 (en) * 2007-06-12 2012-04-10 Utc Fire & Security Corporation Generic face alignment via boosting
JP5200015B2 (ja) * 2007-06-14 2013-05-15 パナソニック株式会社 画像認識装置及び画像認識方法
US20080320036A1 (en) * 2007-06-22 2008-12-25 Winter Gentle E Automatic data collection
US7870227B2 (en) 2007-07-31 2011-01-11 Yahoo! Inc. System and method for merging internet protocol address to location data from multiple sources
US10318110B2 (en) 2007-08-13 2019-06-11 Oath Inc. Location-based visualization of geo-referenced context
US20080104040A1 (en) 2007-09-26 2008-05-01 Ramakrishna Krishnamsetty C Visually intuitive search method
US9612126B2 (en) 2007-12-03 2017-04-04 Nokia Technologies Oy Visual travel guide
US8150098B2 (en) * 2007-12-20 2012-04-03 Eastman Kodak Company Grouping images by location
US8019536B2 (en) 2007-12-28 2011-09-13 At&T Intellectual Property I, L.P. Methods, devices, and computer program products for geo-tagged photographic image augmented GPS navigation
US7925653B2 (en) 2008-02-27 2011-04-12 General Electric Company Method and system for accessing a group of objects in an electronic document
US8676001B2 (en) 2008-05-12 2014-03-18 Google Inc. Automatic discovery of popular landmarks
US20090292685A1 (en) 2008-05-22 2009-11-26 Microsoft Corporation Video search re-ranking via multi-graph propagation
US8086048B2 (en) 2008-05-23 2011-12-27 Yahoo! Inc. System to compile landmark image search results
US8126249B2 (en) * 2008-05-30 2012-02-28 Optasia Medical Limited Methods of and system for detection and tracking of osteoporosis
US20100076976A1 (en) * 2008-09-06 2010-03-25 Zlatko Manolov Sotirov Method of Automatically Tagging Image Data
US8037011B2 (en) * 2008-09-15 2011-10-11 Motorola Mobility, Inc. Method and apparatus for recommending content items
US20100205176A1 (en) * 2009-02-12 2010-08-12 Microsoft Corporation Discovering City Landmarks from Online Journals
US8483715B2 (en) * 2009-03-26 2013-07-09 Yahoo! Inc. Computer based location identification using images
US8396287B2 (en) * 2009-05-15 2013-03-12 Google Inc. Landmarks from digital photo collections

Also Published As

Publication number Publication date
US9721188B2 (en) 2017-08-01
US20130202198A1 (en) 2013-08-08
US9020247B2 (en) 2015-04-28
KR101672570B1 (ko) 2016-11-03
CN102549571A (zh) 2012-07-04
AU2010248862B2 (en) 2016-06-09
CA2762090C (en) 2018-09-04
US20100290699A1 (en) 2010-11-18
US20180211134A1 (en) 2018-07-26
JP2012527057A (ja) 2012-11-01
US8396287B2 (en) 2013-03-12
KR20120026093A (ko) 2012-03-16
US20150213329A1 (en) 2015-07-30
CA2762090A1 (en) 2010-11-18
EP2430572A1 (en) 2012-03-21
CN102549571B (zh) 2015-11-25
AU2010248862A1 (en) 2012-01-12
US10303975B2 (en) 2019-05-28
WO2010132789A1 (en) 2010-11-18

Similar Documents

Publication Publication Date Title
JP5680063B2 (ja) デジタル写真のコレクションからのランドマーク
US8520909B2 (en) Automatic and semi-automatic image classification, annotation and tagging through the use of image acquisition parameters and metadata
KR101417548B1 (ko) 사진 콜렉션에서 이벤트들을 생성하고 라벨링하는 방법 및 시스템
Zheng et al. Tour the world: building a web-scale landmark recognition engine
US8676001B2 (en) Automatic discovery of popular landmarks
CN102053991B (zh) 用于多语言文档检索的方法及系统
Ruocco et al. A scalable algorithm for extraction and clustering of event-related pictures
Dias et al. Temporal web image retrieval
Ruocco et al. Event clusters detection on flickr images using a suffix-tree structure
US20210342393A1 (en) Artificial intelligence for content discovery
Byrne et al. Validating the detection of everyday concepts in visual lifelogs
Lee et al. A scalable service for photo annotation, sharing, and search
Seo Metadata Processing Technique for Similar Image Search of Mobile Platform
Badghaiya et al. Image classification using tag and segmentation based retrieval
Paniagua et al. Indexing media by personal events
Xiong et al. Picture or it didn’t happen: catch the truth for events
Liu et al. On the automatic online collection of training data for visual event modeling
Gavade et al. Review on Image Retrieval Systems
Cheng et al. Image near-duplicate retrieval using local dependencies in spatial-scale space
Rabbath et al. Detecting Multimedia Contents of Social Events in Social Networks
Komathi et al. Image Recognition By Majority Voting
Hughes et al. A Study into Annotation Ranking Metrics in Community Contributed Image Corpora
Hejazi et al. Using Context Information to Improve Retrieval Accuracy in Content-Based Image Retrieval Systems
Shaw Learning from a Visual Folksonomy Automatically Annotating Images from Flickr Visual Databases Project

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130513

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140409

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150106

R150 Certificate of patent or registration of utility model

Ref document number: 5680063

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250