JP2008536195A - 曖昧な地理的参照の分類 - Google Patents

曖昧な地理的参照の分類 Download PDF

Info

Publication number
JP2008536195A
JP2008536195A JP2007549581A JP2007549581A JP2008536195A JP 2008536195 A JP2008536195 A JP 2008536195A JP 2007549581 A JP2007549581 A JP 2007549581A JP 2007549581 A JP2007549581 A JP 2007549581A JP 2008536195 A JP2008536195 A JP 2008536195A
Authority
JP
Japan
Prior art keywords
geographic
relevance
document
string
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007549581A
Other languages
English (en)
Other versions
JP4633803B2 (ja
Inventor
エグノール,ダニエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2008536195A publication Critical patent/JP2008536195A/ja
Application granted granted Critical
Publication of JP4633803B2 publication Critical patent/JP4633803B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

場所分類子は、入力テキスト中のテキスト文字列に基づいて場所情報を生成する。場所情報は、入力テキストの潜在的な地理的関連性を規定する。場所情報を定める際、場所分類子は、入力テキスト中の少なくとも1つの文字列に関連付けられる少なくとも1つの地理関連性プロファイルを受け、少なくとも1つの地理関連性プロファイルから文書についての地理関連性プロファイル組合せを得て、地理関連性プロファイル組合せに基づいて入力テキストの地理的関連性を判断し得る。

Description

背景
A.発明の分野
本明細書中に記載されるシステムおよび方法は検索エンジンに関し、より特定的には、地理的領域に関連性があるものとしてテキストを分類するための技術に関する。
B.関連技術の説明
ワールドワイドウェブ(「ウェブ」)は大量の情報を含んでいる。しかしながら、情報の所望の部分を探し出すことは困難であり得る。ウェブ上の情報量およびインターネット検索に不慣れな新しいユーザの数は急速に増加しているため、この問題は倍加している。
検索エンジンは、ユーザが関心のあるウェブページへのハイパーリンクを返そうと試みる。一般的に、検索エンジンによるユーザの関心の判断は、ユーザが入力する(検索クエリーと称される)検索用語に基づいている。検索エンジンの目標は、検索クエリーに基づき、ユーザに、(たとえばウェブページなどの)高品質の関連性ある結果へのリンクを提供することである。典型的に、検索エンジンは、検索クエリー中の用語を予め記憶されたウェブページのコーパスと一致させることによってこれを達成する。ユーザの検索用語を含むウェブページは「ヒット」であり、リンクとしてユーザに返される。
ユーザに返されるウェブページの関連性および品質を向上させようとして、検索エンジンは、最も関連性が高いおよび/または最も高品質のページが、ユーザに返されるヒットリストの一番上に来るようにヒットリストを並べ替えるよう試み得る。たとえば、検索エンジンは、各々のヒットにランクまたはスコアを割当て得る。ここでスコアとは、ウェブページの関連性または重要性に対応するように設計される。
ローカル検索エンジンは、特定の地理的領域内の関連のウェブページを返すよう試みる検索エンジンである。ローカル検索エンジンのために文書をインデックス付けする際は、文書または文書の部分を特定の地理的領域と適宜自動的に関連付けできることが望ましい。たとえば、ニューヨーク市のレストランについてのウェブページはニューヨーク市に関連付けられるべきである。多くの場合、地理的に特定的なウェブページは、所在地住所またはウェブページを地理的領域に明確に関連付ける他の地理的情報を含む。しかしながら他の場合、ウェブページは、特定の地理的領域に関連付けられ得るが、依然として部分的な所在地住所情報しか含まなかったり、または特定の地理的場所に関連付けられていることを容易に認識できないかもしれない他の用語を含んだりし得る。このためにウェブページに関連付けられている地理的領域を判断することが困難になっている。
発明の概要
発明の1つの局面は、文書の地理的関連性を判断する方法に向けられている。この方法は、文書の中の少なくとも1つの文字列に関連付けられている少なくとも1つの地理関連性プロファイルを受けるステップと、少なくとも1つの地理関連性プロファイルから文書についての地理関連性プロファイル組合せを得るステップと、地理関連性プロファイル組合せに基づいて文書の地理的関連性を判断するステップとを含む。
発明の別の局面は、プロセッサによる実行のためのプログラミング命令を含むコンピュータ読出可能媒体に向けられている。コンピュータ読出可能媒体は、文書の中のそれぞれの文字列に関連付けられている地理関連性プロファイルを受けるためのプログラミング命令を含む。地理関連性プロファイルは各々、地理的領域に対する文字列の地理的関連性を規定する。コンピュータ読出可能媒体は、地理関連性プロファイルに基づいて文書の地理的関連性を判断するためのプログラミング情報をさらに含む。
発明のさらに別の局面は、文字列についての地理関連性プロファイルを生成するための方法に向けられている。この方法は、その各々が地理的領域に関連付けられているトレーニングテキストの複数の部分を定めるステップと、トレーニングテキストの複数のセレクション中の文字列の出現を累積するステップと、累積された文字列の出現に基づいて地理関連性プロファイルをヒストグラムとして生成するステップとを含む。
この明細書に組入れられかつその一部を構成する添付の図面は、この発明の実施例を説明し、その記載とともにこの発明を説明する。
詳細な説明
以下のこの発明の詳細な説明は添付の図面を参照する。詳細な説明はこの発明を限定するものではない。
概要
本明細書中では、入力テキストを特定の地理的領域に適宜自動的に分類する場所分類子を説明する。図1は、場所分類子100を含む、この発明の局面に整合する一般的概念を説明する図である。場所分類子100の動作の例として、カリフォルニア州マウンテンビューのカストロ通りの店舗を記載する、図1に示される例示的な文書などの入力文書を考える。文書は、湾岸地域のカストロ通りに存在するとして店舗を記載するが、完全な所在地住所、電話番号を具体的に含んでおらず、かつ明示的に「カリフォルニア州マウンテンビュー」と述べていないと仮定する。
場所分類子100は、文書の中の連語「湾岸地域」および「カストロ通り」が地理的に有意義であると認識し得る。「湾岸地域」自体はカリフォルニア州のサンフランシスコ湾を取囲む区域を参照するのに頻繁に用いられるが、これはウィスコンシン州のグリーンベイ地域などの他の湾岸の場所を参照するのにも共通して用いられる。さらに、カストロ通り自体はよくある通り名であり得る。場所分類子100は、「湾岸地域」および「カストロ通り」という語句の両者の出現が、文書がカリフォルニア州マウンテンビューに位置するカストロ通りに属することを示す可能性があると認識することによって、これらの語句の個々の地理的曖昧さを解決し得る。
次に、場所分類子100は、文書で言及されている店舗の潜在的対応物として、完全な住所または郵便番号94043、カリフォルニア州マウンテンビューなどの他の場所識別子を生成し得る。
例示的なネットワークの概要
図2は、この発明の原則に整合するシステムおよび方法を実現し得るネットワーク200の例示的な図である。ネットワーク200は、ネットワーク240を介してサーバ220に接続されるクライアント210を含み得る。ネットワーク240は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、公衆電話交換網(PSTN)などの電話網、イントラネット、インターネット、またはネットワークの組合せを含み得る。簡略化のため、2つのクライアント210および1つのサーバ220がネット
ワーク240に接続されて図示されている。実際には、より多くのクライアントおよび/またはサーバが存在し得る。また、いくつかの例では、クライアントがサーバの機能を果たし、サーバがクライアントの機能を果たすことがある。
クライアント210は、無線電話、パーソナルコンピュータ、パーソナルデジタルアシスタント(PDA)、ラップトップ、もしくは別のタイプの電算もしくは通信装置などのデバイス、これらのデバイスのうち1つで実行されるスレッドもしくはプロセス、および/またはこれらのデバイスのうち1つによって実行可能なオブジェクトを含み得る。クライアント210およびサーバ220は、有線、無線または光接続を介してネットワーク240に接続し得る。
サーバ220は、クライアント210が利用可能な検索エンジン225を含み得る。検索エンジン225は、クエリーに基づく文書検索エンジンなどの検索エンジンであり得る。いくつかの実現例では、検索エンジン225は、地理的領域にローカルな結果を返すように特に設計され得る。検索エンジン225は場所分類子100を含み得る。場所分類子100は、部分的な住所または地理的関連性を有する用語/語句を含み得、入力文書に対応する地理的区域に対応する1つ以上の場所識別子を生成し得る入力データを受ける。たとえば、検索エンジン225は、場所分類子100を用いてウェブページなどの文書を地理的区域に関連付けたり、またはユーザの検索クエリーが特定の地理的場所に関するか否かを判断したりし得る。
本明細書中で使用されるような文書という用語は、いずれの機械読取可能なおよび機械上に記憶可能なワークプロダクトも含むと広く解釈されるべきである。文書は、電子メール、検索クエリー、ファイル、ファイルの組合せ、他のファイルへの埋込リンクを備える1つ以上のファイル、ニュースグループへの投稿などであり得る。インターネットの文脈では、通常の文書がウェブページである。ウェブページはしばしばコンテンツを含み、(メタ情報、ハイパーリンクなどの)埋込情報および/または(JavaScriptなどの)埋込命令を含み得る。
例示的なクライアント/サーバアーキテクチャ
図3は、発明の原則に整合する実現例に従う、コンピュータデバイス300と称されるクライアント210またはサーバ220の例示的な図である。コンピュータデバイス300は、バス310、プロセッサ320、メインメモリ330、読出専用メモリ(ROM)340、記憶装置350、入力装置360、出力装置370および通信インターフェイス380を含み得る。バス310は、コンピュータデバイス300の構成要素間の通信を可能にする経路を含み得る。
プロセッサ320は、命令を解釈しかつ実行し得る、いずれの種類の従来のプロセッサ、マイクロプロセッサまたは処理ロジックも含み得る。メインメモリ330は、ランダムアクセスメモリ(RAM)、またはプロセッサ320による実行のための命令および情報を記憶する別のタイプの動的記憶装置を含み得る。ROM340は、従来のROMデバイス、またはプロセッサ320が使用するための命令および静的情報を記憶する別のタイプの静的記憶装置を含み得る。記憶装置350は磁気的および/または光学的記録媒体ならびにその対応のドライブを含み得る。
入力装置360は、キーボード、マウス、ペン、音声認識および/またはバイオメトリックメカニズムなどの、ユーザがコンピュータデバイス300に情報を入力できるようにする従来のメカニズムを含み得る。出力装置370は、ディスプレイ、プリンタ、スピーカなどを含む、情報をユーザに出力する従来のメカニズムを含み得る。通信インターフェイス380は、コンピュータデバイス300が他のデバイスおよび/またはシステムと通
信できるようにするいずれのトランシーバ状のメカニズムも含み得る。たとえば、通信インターフェイス380は、ネットワーク240などのネットワークを介して別のデバイスまたはシステムと通信するためのメカニズムを含み得る。
発明の原則に整合するサーバ220は、検索エンジン225および/または場所分類子エンジン100を通じて、ある検索または文書検索関連の動作を行なう。検索エンジン225および/または場所分類子エンジン100は、メモリ330などのコンピュータ読出可能媒体に記憶され得る。コンピュータ読出可能媒体は、1つ以上の物理的または論理的メモリデバイスおよび/または搬送波として規定され得る。
検索エンジン225を規定するソフトウェア命令は、通信インターフェイス380を介してデータ記憶装置350などの別のコンピュータ読出可能媒体から、または別のデバイスからメモリ330に読込まれ得る。メモリ330に含まれるソフトウェア命令は、後述される処理をプロセッサ320に行なわせる。これに代えて、配線で接続された回路構成をソフトウェア命令の代わりにまたはこれと組合せて用いて、本発明に整合する処理を実行してもよい。このように、この発明の原則に整合する実現例は、ハードウェア回路構成とソフトウェアとのいずれの特定の組合せに限定されるものでもない。
場所分類子100のトレーニング
場所分類子100は、入力文書または文書の部分について地理的場所情報を自動的に生成し得る。場所分類子100が地理的場所情報を生成できるようになる前に、これは多数のトレーニング文書に対してトレーニングされ得る。1つの実現例では、文書はウェブページであり得る。
図4は、場所分類子100をトレーニングするための例示的な手順を説明するフローチャートである。
場所分類子100は、多数のウェブ文書などの多数の文書に対してトレーニングされ得る。場所分類子エンジン100は、文書のうちの第1のものを検索し(ステップ401)、文書内の既知の地理的シグナルを探し出す(ステップ402)ことによってトレーニングを開始し得る。既知の地理的シグナルは、たとえば、地理的場所を明確に特定する完全な住所を含み得る。地理的シグナルは、たとえば、住所の一般的な形態にあるテキストの部分を探すパターンマッチング技術によって探し出され得る。たとえば、場所分類子エンジン100は、州名または州の略号の近くに位置する5桁の整数としての郵便番号、および「通り」、「通」、「大通り」などの語を含む文字列を後に従える一連の数字としての通り名を探し得る。このように、場所分類子100は、地理的住所を明確に参照するテキストの部分として既知の地理的シグナルを探し出し得る。
図5は、2つの地理的シグナルが存在する例示的な文書500を説明する図である。示されるように、文書500は、第1の地理的シグナル505、テキストの段落510、第2の地理的シグナル515、および第2のテキストの段落520を含む。
第1の地理的シグナルであるシグナル505は、「コーヒータイム」という仮想のコーヒーショップについてのものであり、標準的な所在地住所としてコーヒータイムの場所を特定する。場所分類子100は、住所の構造ならびに/または郵便番号、通り名および町の名前がすべてカリフォルニア州の既知の場所と整合することに基づいて、この住所が有効な住所であると認識し得る。同様に、場所分類子100は、地理的シグナル515も物理的場所に明確に関連付けられている有効な住所を表わすことを認識し得る。なお、当業者は、手作業での文書の分類など、文書が地理的場所に関連付けられているか否かを判断するための他の技術を用い得ることを認識するであろう。
ステップ402で有効な地理的シグナルに関連付けられていると判断される文書は、既知の地理的領域に対応する文書と考えられる。現在処理中の文書が特定の地理的領域に関連付けられていないウェブ文書などの文書ではない場合、次の文書が処理され得る(ステップ403および405)。しかしながら、有効な地理的シグナルを含む文書については、場所分類子100は、発見された地理的シグナルに関連付けられているトレーニングテキストとして用いるべき文書からテキストを選択し得る(ステップ404)。
文書に関連付けられているトレーニングテキストとしてステップ404で選択されたテキストは、多数の異なる態様で選択され得る。たとえば、各々の地理的シグナルの周りの固定ウインドウ(たとえば100語のウインドウ)がトレーニングテキストとして選択され得る。他の実現例では、文書全体が選択され得る。さらに他の実現例では、複数の地理的シグナルを含む文書が、文書中の目に見える切れ目およびセグメントから取ったトレーニングテキストに基づいてセグメント化され得る。図5に示す文書については、たとえば、段落510は住所シグナル505に関連付けられ得、段落520は住所シグナル515に関連付けられ得る。
ステップ402−405は、トレーニング文書として用いるべき文書のコーパス中の各々の文書について繰返され得る(ステップ406)。一般的に、ステップ401−405は、多数(通常は大多数)の既知の場所の各々がテキストに関連付けられているトレーニングデータを生成するように働く。図6は、ステップ402−405で生成される例示的なトレーニングデータを説明する表の一部の図である。表600は、多数の場所識別子フィールド605および対応のテキスト部分610を含み得る。識別子フィールド605は地理的シグナルに基づき得、テキスト部分610は各々の地理的シグナルごとに選択されたテキストを含み得る。このように、各々の探し出された地理的シグナルは表600の中のエントリに対応し得る。
1つの実現例では、場所識別子フィールド605は、ステップ402で識別された地理的シグナルに対応する郵便番号を含み得る。郵便番号は、地理的場所の識別子として用いるのに特に有用である。なぜなら、番号が互いに近い郵便番号は、地理的に互いに近い場所に対応する傾向があるからである。しかしながら、郵便番号以外の場所識別子も用いてもよい。
表600には2つのエントリが特に示される。これらの2つのエントリは文書500からの2つの地理的シグナルに対応する。第1のエントリは探し出された識別子として郵便番号94040を含み、選択されたテキストとして段落510を含む。第2のエントリは探し出された識別子として郵便番号94041を含み、選択されたテキストとして段落520を含む。
表600中のトレーニングデータは、本明細書中で、トレーニングの残余(すなわちステップ407−410)と同じプロセスで場所分類子100によって生成されると説明されているが、トレーニングデータは前もって、または別の構成要素もしくはデバイスによって生成されてもよい。
この発明の1つの局面に従うと、場所分類子100は、部分的に、地理的シグナルの近傍にある文書中のテキストが地理的シグナルに関する用語または語句を用いる方にバイアスされるという前提で動作する。ステップ401−406で得られるトレーニングデータは、ステップ407−410を参照して以下に説明されるように、場所分類子100によってさらに処理されて、ある用語/語句についての地理関連性プロファイルを得ることができる。
場所分類子100は、選択用語または語句について、用語/語句が出現する場所識別子に対するテキストセレクション610中の(テキスト文字列または本明細書中では単に文字列とも称される)用語/語句のすべての出現を累積する(ステップ407)ことによって開始し得る。換言すると、場所分類子100は、用語/語句の出現数を場所識別子に関連させるヒストグラムを生成し得る。ヒストグラムは、本明細書中では、用語/語句の地理関連性プロファイルとも称される。
図7Aは、連語「キャピトルヒル」についての例示的なヒストグラム700を説明する図である。示されるように、ヒストグラムは3つの顕著なピーク、すなわちワシントンDCの「キャピトルヒル」地域に対応する郵便番号20515の近傍に中心を置く大きなピーク、カリフォルニア州サクラメントの「キャピトルヒル」地域に対応する郵便番号95814の近傍に中心を置く比較的小さなピーク、およびワシントン州シアトルの「キャピトルヒル」地域に対応する郵便番号98104の近傍に中心を置く中程度のピークを含む。テキストセレクション610は「キャピトルヒル」への数多くの参照を潜在的に含み、その多くはワシントンDC、サクラメントまたはシアトルの近傍ではない区域に連付けられたが、ヒストグラム700は、これらの3つの場所のうち1つを参照する際に「キャピトルヒル」が用いられる傾向に全般的にあることを図示する。最大のピークに対応するワシントンDCは、「キャピトルヒル」という語句を用いる人が意図する可能性が最も高い地理的領域と解釈することができる。
図7Bは、連語「湾岸地域」についての別の例示的なヒストグラムであるヒストグラム710を説明する図である。ヒストグラム710は2つのピーク、すなわちウィスコンシン州のグリーンベイ地域付近に中心を置く小さい方と、カリフォルニア州サンフランシスコの湾岸地域を規定する大きい方のピークとを含む。
場所分類子100は、テキストセレクション610に出現する用語/語句のうちいくつかまたはすべてに対してステップ407を実行し得る。1つの実現例では、場所分類子100は、テキスト610に出現するすべての連語(2語の語句)についてのヒストグラムを生成し得る。他の実現例では、ヒストグラムはより長い語句または単一の用語についても生成され得る。
用語/語句のある出現は、用語/語句の出現を累積する際には無視され得る。いくつかの定型的表現はトレーニング文書のセット中に頻繁に出現し得る。しかし定型的表現は地理的関連性を判断するのに必ずしも関連性があるとは限らない。したがって、いくつかの実現例では、選択用語/語句の左側および/または右側の用語も調べて、これらの用語が用語/語句の左側または右側の用語の以前の事例とは異なっている場合にしか用語/語句を累積しない。これにより、用語/語句が正当な新しい文脈で出現していない場合は、これは無視され得る。
場所分類子100は次に、地理的に関連性のある用語/語句に対応する生成されたヒストグラムを選択し、記憶し得る(ステップ408および409)。記憶されたヒストグラムは用語/語句についての地理関連性プロファイルとして働く。ステップ407でヒストグラムが生成される用語/語句の多くは、地理的に関連性がないかもしれない。図7Cは、連語「ライブブックマーク」についての例示的なヒストグラム720の図である。この語句は地理的な関連性がなく、したがってヒストグラムは比較的平らである。しかしながら、ヒストグラム700および710は、これらの用語/語句が特定の地理的場所に関連性があり得ることを示す統計的に有意義な山を含む。当業者は、ヒストグラムが統計的に有意義なピークを含むか否かを判断するのに多数の公知の技術を用い得ることを認識するであろう。
テキストセレクション610中の多数の用語/語句についてステップ408および409を繰返してもよい(ステップ410)。1つの実現例では、場所分類子100は、テキストセレクション610中に存在するあらゆる連語の地理的関連性を調べ得る。他の実現例では、地理的関連性について単一の用語を調べたり、または3つ以上の用語を有する語句を調べたりし得る。
図4に示されるトレーニングの結果、場所分類子100は、多数(潜在的には大多数)の用語/語句およびそれらの対応の地理関連性プロファイルを記憶し得る。図8は、例示的な用語/語句およびそれらの対応の地理関連性プロファイルを含む表800を概念的に説明する図である。
1つの実現例では、ステップ409で記憶される地理関連性プロファイルは、トレーニングデータ中の郵便番号のグローバルな分布に基づいて正規化され得る。このように、トレーニングデータ中で頻繁に言及される領域が地理関連性プロファイルの中で強調され過ぎることはない。
場所分類子100の動作
図9は、入力文書について潜在的に関連性のある地理的区域を判断する際の場所分類子100の例示的な動作を図示するフローチャートである。
場所分類子100は、入力文書を受ける(ステップ901)ことによって開始し得る。一般的に、入力文書は、場所に対して潜在的に曖昧な参照を含むものであろう。たとえば、入力文書は、検索クエリーなどの比較的短いテキストの部分、またはウェブ文書などのテキストのより長いブロックであり得る。用語/語句は、表800に記憶される用語/語句に対応する入力文書の中から探し出され得る(ステップ902)。換言すると、地理的関連性を有すると以前判断された用語/語句が識別される。
次に、識別された用語/語句の各々についての地理関連性プロファイルを組合せて、入力文書についての結果的な地理関連性プロファイルを生成する(ステップ903)。1つの実現例では、地理関連性プロファイルは、ステップ902で識別された地理関連性プロファイルの各々を掛け合わせることによって組合され得る。すなわち、郵便番号ごとに、各々のヒストグラムの値をともに掛け合わせて、結果的に得られるヒストグラム中のその郵便番号の値を得ることができる。図10A−図10Cは、複数の地理関連性プロファイルを組合せてプロファイル組合せを得ることを説明する。この例では、入力文書が表800中に存在する2つの連語を含む1ページのテキストである(すなわち、入力ページが2つの地理的に関連性のある用語/語句を含む)と仮定する。2つの連語は「カストロ通り」および「湾岸地域」である。カストロ通りの地理関連性プロファイルは図10Aに示され、湾岸地域の地理関連性プロファイルは図10Bに示される。図10Cは地理関連性プロファイルの組合せを説明する。示されるように、図10Aおよび図10Bのヒストグラムは両者とも複数のピークを含むが、組合されると、ピークは、両者のプロファイルが地理的関連性を示す区域を除いて互いに打消し合う傾向にある。これにより、図10Cの地理関連性プロファイルの組合せは、「カストロ通り」および「湾岸地域」への参照が北カリフォルニア湾岸地域に位置するカストロ通りへの参照である可能性が非常に高いことを正しく示す。
図10Cに示される例示的なプロファイルなどの地理関連性プロファイルの組合せに基づき、場所分類子100は、1つ以上の地理的領域に対する入力文書の潜在的関連性を規定する出力情報を生成し得る(ステップ904)。出力情報は一般的に、ピークについて地理関連性プロファイル組合せを調べることによって得られ得る。図10Cの例では、た
とえば、出力情報は、北カリフォルニアのカストロ通りを含む領域の郵便番号を含み得る。いくつかの実現例では、郵便番号は、郵便番号で規定される区域が正しいという可能性または確実性に関する値にも関連付けられ得る。
1つの実現例では、ステップ901で受ける文書は、ウェブページ、検索クエリーまたは他のソースから取られる部分的住所などの部分的住所であり得る。次に出力情報を用いて部分的住所を明確にし得る。たとえば、町または州を含まない文書中に「カストロ通り650番地」などの住所が識別される場合、住所それ自体は完全な住所ではない。しかしながら、場所分類子100が、文書が郵便番号94043のマウンテンビューに関連性があると結論付ければ、住所は明確になり、正確な地理的場所(緯度/経度)になり得る。
例示的な実現例
図11は、検索エンジンの文脈で実現される場所分類子100の例示的な実現例を説明する図である。多数のユーザ1105がインターネットなどのネットワーク1115を介して検索エンジン1110に接続し得る。検索エンジン1110は、ユーザがある地理的領域への適用を意図するユーザクエリーに関する、データベース1120からのランク付けされた文書のセットへのリンクを返すローカル検索エンジンであり得る。
場所分類子100は、データベース1120中の文書の(もしあれば)地理的関連性を判断する際に検索エンジン1110を支援し得る。特に、場所分類子100は、そうしなければ特定の地理的区域に関連付けられているとははっきりと識別できない文書または文書の一部の各々を地理的に分類し得る。次にこの地理的分類情報を、検索エンジン1110がユーザ検索クエリーへの応答の際に用い得る対応の文書とともに、場所識別子としてデータベース1120に記憶し得る。
別の可能な例示的な実現例では、場所分類子100は、ユーザ1105から受けた検索クエリー上で動作し得る。このように、場所分類子100は、検索クエリーに属する地理的関連性情報を与え得る。関連性ある結果をユーザに返す際に、この情報を用いて検索エンジン1110を支援し得る。
むすび
上述のように、場所分類子は、入力テキスト中の用語/語句に基づいて場所情報を生成する。用語/語句は、通常ならば地理的に曖昧であると考えられる用語/語句を含み得る。
当業者には、図で説明された実現例において、上述のような発明の局面をソフトウェア、ファームウェアおよびハードウェアの多くの異なる形態で実現し得ることが明らかであろう。本発明に整合する局面を実現するのに用いられる実際のソフトウェアコードまたは特別なコントロールハードウェアは本発明を限定するものではない。このように、特定のソフトウェアコードを参照せずに局面の動作および挙動を説明した。当業者ならば、本明細書中の説明に基づいて局面を実現するようにソフトウェアおよびコントロールハードウェアを設計できるであろうと理解される。
本発明の好ましい実施例の以上の説明は例示および説明を与えるが、網羅的になったり、または開示された厳密な形態に発明を限定したりすることを意図するものではない。上記教示に照らして修正例および変形例が可能であり、またはそれらは発明の実践から得られ得る。たとえば、上述の動作の多くは特定の順序で説明されたが、動作の多くは同時にまたは異なる順序で行なわれてもよい。さらに、一般的に検索エンジンの一部として場所分類子を説明したが、検索エンジンはより一般的には場所分類子とは別個のものであり得ることを理解されたい。
本願で用いられるいずれの要素、ステップまたは命令も、そのようなものであると明示的に説明されない場合は、本発明に不可欠または必須と解釈されてはならない。また、本明細書中で使用されるような冠詞「a」は1つ以上のものを潜在的に許容することが意図される。単一のものが意図される場合は、「1つの」という用語または同様の文言が用いられる。さらに、「基づいて」という語句は、他に明示的に記載されなければ、「少なくとも部分的に基づいて」を意味することが意図される。この発明の範囲は請求項およびその均等物によって規定される。
発明の局面に整合する一般的概念を説明する図である。 発明の原則に整合するシステムおよび方法を実現し得るネットワークの例示的な図である。 図2に示されるクライアントまたはサーバの例示的な図である。 図1および図2に示される場所分類子エンジンをトレーニングするための例示的な手順を説明するフローチャートの図である。 2つの地理的シグナルが存在する例示的な文書を説明する図である。 トレーニングデータを説明する例示的な表の一部の図である。 用語/語句についての例示的な地理関連性プロファイルを説明する図である。 用語/語句についての例示的な地理関連性プロファイルを説明する図である。 用語/語句についての例示的な地理関連性プロファイルを説明する図である。 例示的な用語/語句およびそれらの対応の地理関連性プロファイルを含む表を概念的に説明する図である。 入力文書について、潜在的に関連性のある地理的区域を定める際の場所分類子の例示的な動作を説明するフローチャートの図である。 複数の地理関連性プロファイルを組合わせてプロファイル組合せを得ることを説明する図である。 複数の地理関連性プロファイルを組合わせてプロファイル組合せを得ることを説明する図である。 複数の地理関連性プロファイルを組合わせてプロファイル組合せを得ることを説明する図である。 検索エンジンの文脈で実現される場所分類子の例示的な実現例を説明する図である。

Claims (30)

  1. 文書の地理的関連性を判断する方法であって、
    前記文書の中の少なくとも1つの文字列に関連付けられている少なくとも1つの地理関連性プロファイルを受けるステップと、
    前記少なくとも1つの地理関連性プロファイルから前記文書についての地理関連性プロファイル組合せを得るステップと、
    前記地理関連性プロファイル組合せに基づいて前記文書の地理的関連性を定めるステップとを含む、方法。
  2. 前記少なくとも1つの地理関連性プロファイルは複数の地理関連性プロファイルを含み、前記複数の地理関連性プロファイルの各々は、前記文字列のうち1つの出現を地理的領域に関連させるヒストグラムである、請求項1に記載の方法。
  3. 前記地理関連性プロファイル組合せを得るステップは、前記複数のヒストグラムを掛け合わせるステップを含む、請求項2に記載の方法。
  4. 前記地理関連性プロファイル組合せに基づいて前記文書の地理的関連性を判断するステップは、ピークについて前記地理関連性プロファイル組合せを分析するステップを含む、請求項1に記載の方法。
  5. 少なくとも1つの地理関連性プロファイルを受けるステップは、前記文書を調べて、前記文書の中の文字列と地理関連性プロファイルが以前に生成された複数の文字列とを比較することによって前記少なくとも1つの文字列を探し出すステップを含む、請求項1に記載の方法。
  6. 前記少なくとも1つの文字列は単一の用語の文字列である、請求項1に記載の方法。
  7. 前記少なくとも1つの文字列は連語を含む、請求項1に記載の方法。
  8. 前記文書はウェブページである、請求項1に記載の方法。
  9. 前記文書は検索クエリーである、請求項1に記載の方法。
  10. 場所分類子であって、
    入力テキストを受けるための手段と、
    地理的に関連性があると以前判断された前記入力テキスト内の文字列を探し出すための手段と、
    前記探し出された文字列について地理関連性プロファイルを検索するための手段と、
    前記検索された地理関連性プロファイルに基づいて前記入力テキストが地理的に関連性があるか否かを判断するための手段とを含む、場所分類子。
  11. 前記検索された地理関連性プロファイルを組合せるための手段をさらに含む、請求項10に記載の場所分類子。
  12. プロセッサによる実行のためのプログラミング命令を含むコンピュータ読出可能媒体であって、
    文書内の複数の文字列のそれぞれに関連付けられている複数の地理関連性プロファイルを受けるためのプログラミング命令を含み、前記地理関連性プロファイルは各々、地理的領域に対して前記文字列の地理的関連性を規定しており、さらに
    前記複数の地理関連性プロファイルに基づいて前記文書の地理的関連性を判断するためのプログラミング命令を含む、コンピュータ読出可能媒体。
  13. 前記文書についての地理関連性プロファイル組合せを得るように前記複数の地理関連性プロファイルを組合せるためのプログラミング命令をさらに含む、請求項12に記載のコンピュータ読出可能媒体。
  14. 前記地理関連性プロファイルを組合せるための前記プログラミング命令は、前記複数の地理関連性プロファイルをともに掛け合わせるためのプログラミング命令を含む、請求項13に記載のコンピュータ読出可能媒体。
  15. 前記文書の地理的関連性を判断するための前記プログラミング命令は、ピークについて前記地理関連性プロファイル組合せを分析するためのプログラミング命令をさらに含む、請求項13に記載のコンピュータ読出可能媒体。
  16. 前記複数の地理関連性プロファイルはヒストグラムを含む、請求項12に記載のコンピュータ読出可能媒体。
  17. 前記文字列は単一の用語の文字列を含む、請求項12に記載のコンピュータ読出可能媒体。
  18. 前記文字列は連語を含む、請求項12に記載のコンピュータ読出可能媒体。
  19. 前記文書はウェブページである、請求項12に記載のコンピュータ読出可能媒体。
  20. 前記文書は検索クエリーである、請求項12に記載のコンピュータ読出可能媒体。
  21. 文字列の地理関連性プロファイルを生成するための方法であって、
    トレーニングテキストの複数の部分を定めるステップを含み、トレーニングテキストの各々の部分は地理的領域に関連付けられており、さらに
    トレーニングテキストの複数のセレクション中の文字列の出現を累積するステップと、
    累積された前記文字列の前記出現に基づいてヒストグラムとして前記地理関連性プロファイルを生成するステップとを含む、方法。
  22. 前記ヒストグラムは前記文字列の前記出現を地理的領域に関連させる、請求項21に記載の方法。
  23. トレーニングテキストの複数の部分を定めるステップは、
    複数の文書の中の既知の地理的シグナルを探し出すステップと、
    前記既知の地理的シグナルを含む前記複数の文書の部分からトレーニングテキストの部分を選択するステップとを含む、請求項21に記載の方法。
  24. 前記文書はウェブ文書である、請求項21に記載の方法。
  25. 前記トレーニングテキスト内の地理的領域のグローバルな分布に基づいて、生成された前記地理関連性プロファイルを正規化するステップをさらに含む、請求項21に記載の方法。
  26. 前記地理的領域は郵便番号で表わされる、請求項21に記載の方法。
  27. 前記地理関連性プロファイルが統計的に関連性のあるピークを含む場合、前記生成された地理関連性プロファイルを将来の使用のために保存するステップをさらに含む、請求項21に記載の方法。
  28. 前記文字列の出現を累積するステップは、前記文字列の周りのテキスト文脈が前記文字列の以前の出現の周りの前記テキスト文脈に一致する場合に前記文字列の出現を累積しないステップをさらに含む、請求項21に記載の方法。
  29. プロセッサと、
    前記プロセッサに結合され、命令を含むコンピュータ読出可能メモリとを含み、前記コンピュータ読出可能メモリは、前記プロセッサによって実行されると、前記プロセッサに、
    トレーニングテキストの複数の部分を定めさせ、前記トレーニングテキストの各々の部分は地理的領域に関連付けられており、さらに
    トレーニングテキストの複数のセレクション中の文字列の出現を累積させ、かつ
    累積された前記文字列の前記出現に基づいて地理的領域に対する前記文字列の前記地理的関連性を規定する地理関連性プロファイルを生成させる、装置。
  30. 文書を調べて、地理的関連性を有すると以前判断された文字列を探し出すステップと、
    前記文字列に関連付けられている地理関連性文字列を受けるステップと、
    受けた地理関連性プロファイルをともに掛け合わせることによって、受けた前記地理関連性プロファイルから前記文書についての地理関連性プロファイル組合せを得るステップと、
    ピークについて前記地理関連性プロファイル組合せを分析するステップと、
    前記地理関連性プロファイルの組合せ中にピークが存在するか否かに基づいて前記文書の地理的関連性を定めるステップとを含む、方法。
JP2007549581A 2004-12-30 2005-12-30 曖昧な地理的参照の分類 Expired - Fee Related JP4633803B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/024,785 US7716162B2 (en) 2004-12-30 2004-12-30 Classification of ambiguous geographic references
PCT/US2005/047211 WO2006073977A1 (en) 2004-12-30 2005-12-30 Classification of ambiguous geographic references

Publications (2)

Publication Number Publication Date
JP2008536195A true JP2008536195A (ja) 2008-09-04
JP4633803B2 JP4633803B2 (ja) 2011-02-16

Family

ID=36261057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007549581A Expired - Fee Related JP4633803B2 (ja) 2004-12-30 2005-12-30 曖昧な地理的参照の分類

Country Status (8)

Country Link
US (3) US7716162B2 (ja)
EP (1) EP1839208A1 (ja)
JP (1) JP4633803B2 (ja)
KR (1) KR101219366B1 (ja)
CN (1) CN101128821B (ja)
AU (1) AU2005322967B2 (ja)
CA (2) CA2593377C (ja)
WO (1) WO2006073977A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012510667A (ja) * 2008-12-01 2012-05-10 トプシー ラブズ インコーポレイテッド 計算された評判又は影響度スコアに基づくランキング及び選択エンティティ
JP2016177764A (ja) * 2015-03-20 2016-10-06 富士ゼロックス株式会社 施設推定方法、デバイス及びプログラム
JP2017151788A (ja) * 2016-02-25 2017-08-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972444B2 (en) * 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US7716162B2 (en) * 2004-12-30 2010-05-11 Google Inc. Classification of ambiguous geographic references
US7933929B1 (en) 2005-06-27 2011-04-26 Google Inc. Network link for providing dynamic data layer in a geographic information system
US20070033089A1 (en) * 2005-08-04 2007-02-08 Microsoft Corporation User interface and geo-parsing data structure
US7933897B2 (en) 2005-10-12 2011-04-26 Google Inc. Entity display priority in a distributed geographic information system
US20080208847A1 (en) * 2007-02-26 2008-08-28 Fabian Moerchen Relevance ranking for document retrieval
WO2008129339A1 (en) * 2007-04-18 2008-10-30 Mitsco - Seekport Fz-Llc Method for location identification in web pages and location-based ranking of internet search results
US20080270375A1 (en) * 2007-04-27 2008-10-30 France Telecom Local news search engine
US7987195B1 (en) 2008-04-08 2011-07-26 Google Inc. Dynamic determination of location-identifying search phrases
US8286171B2 (en) 2008-07-21 2012-10-09 Workshare Technology, Inc. Methods and systems to fingerprint textual information using word runs
CN101661461B (zh) * 2008-08-29 2016-01-13 阿里巴巴集团控股有限公司 确定文档中核心地理信息的方法、系统
WO2010059747A2 (en) 2008-11-18 2010-05-27 Workshare Technology, Inc. Methods and systems for exact data match filtering
US8768759B2 (en) 2008-12-01 2014-07-01 Topsy Labs, Inc. Advertising based on influence
US8631007B1 (en) 2008-12-09 2014-01-14 Google Inc. Disambiguating keywords and other query terms used to select sponsored content
US9454586B2 (en) 2009-12-01 2016-09-27 Apple Inc. System and method for customizing analytics based on users media affiliation status
US9280597B2 (en) 2009-12-01 2016-03-08 Apple Inc. System and method for customizing search results from user's perspective
US11036810B2 (en) 2009-12-01 2021-06-15 Apple Inc. System and method for determining quality of cited objects in search results based on the influence of citing subjects
US11122009B2 (en) 2009-12-01 2021-09-14 Apple Inc. Systems and methods for identifying geographic locations of social media content collected over social networks
US9110979B2 (en) 2009-12-01 2015-08-18 Apple Inc. Search of sources and targets based on relative expertise of the sources
US8892541B2 (en) 2009-12-01 2014-11-18 Topsy Labs, Inc. System and method for query temporality analysis
US9129017B2 (en) 2009-12-01 2015-09-08 Apple Inc. System and method for metadata transfer among search entities
US11113299B2 (en) 2009-12-01 2021-09-07 Apple Inc. System and method for metadata transfer among search entities
US8285716B1 (en) * 2009-12-21 2012-10-09 Google Inc. Identifying and ranking digital resources relating to places
US11030163B2 (en) 2011-11-29 2021-06-08 Workshare, Ltd. System for tracking and displaying changes in a set of related electronic documents
US8635295B2 (en) 2010-11-29 2014-01-21 Workshare Technology, Inc. Methods and systems for monitoring documents exchanged over email applications
US10783326B2 (en) 2013-03-14 2020-09-22 Workshare, Ltd. System for tracking changes in a collaborative document editing environment
EP2747014A1 (en) 2011-02-23 2014-06-25 Bottlenose, Inc. Adaptive system architecture for identifying popular topics from messages
US10963584B2 (en) 2011-06-08 2021-03-30 Workshare Ltd. Method and system for collaborative editing of a remotely stored document
US9948676B2 (en) 2013-07-25 2018-04-17 Workshare, Ltd. System and method for securing documents prior to transmission
US10880359B2 (en) 2011-12-21 2020-12-29 Workshare, Ltd. System and method for cross platform document sharing
US9613340B2 (en) 2011-06-14 2017-04-04 Workshare Ltd. Method and system for shared document approval
US10574729B2 (en) 2011-06-08 2020-02-25 Workshare Ltd. System and method for cross platform document sharing
US9170990B2 (en) 2013-03-14 2015-10-27 Workshare Limited Method and system for document retrieval with selective document comparison
WO2013025206A2 (en) 2011-08-16 2013-02-21 Empire Technology Development Llc Allocating data to plurality storage devices
US9189797B2 (en) 2011-10-26 2015-11-17 Apple Inc. Systems and methods for sentiment detection, measurement, and normalization over social networks
US8832092B2 (en) 2012-02-17 2014-09-09 Bottlenose, Inc. Natural language processing optimized for micro content
US8589404B1 (en) * 2012-06-19 2013-11-19 Northrop Grumman Systems Corporation Semantic data integration
US9009126B2 (en) 2012-07-31 2015-04-14 Bottlenose, Inc. Discovering and ranking trending links about topics
US9094788B2 (en) 2012-08-03 2015-07-28 Blackberry Limited Centralized data store for providing all place-related data to applications on a mobile device
US9173055B2 (en) 2012-08-03 2015-10-27 Blackberry Limited Managing of application access to centrally stored place-related data on a mobile device
US9049547B2 (en) 2012-08-31 2015-06-02 Blackberry Limited Displaying place-related content on a mobile device
US20140074871A1 (en) * 2012-09-07 2014-03-13 Research In Motion Limited Device, Method and Computer-Readable Medium For Recognizing Places
WO2014071055A1 (en) * 2012-10-31 2014-05-08 Virtualbeam, Inc. Distributed association engine
US8762302B1 (en) 2013-02-22 2014-06-24 Bottlenose, Inc. System and method for revealing correlations between data streams
US11567907B2 (en) 2013-03-14 2023-01-31 Workshare, Ltd. Method and system for comparing document versions encoded in a hierarchical representation
US10911492B2 (en) 2013-07-25 2021-02-02 Workshare Ltd. System and method for securing documents prior to transmission
US10021737B2 (en) 2013-09-17 2018-07-10 Qualcomm Incorporated Techniques for determining common characteristics of groups of wireless access points
CN103678629B (zh) * 2013-12-19 2016-09-28 北京大学 一种地理位置敏感的搜索引擎方法和系统
US11182551B2 (en) 2014-12-29 2021-11-23 Workshare Ltd. System and method for determining document version geneology
US10133723B2 (en) 2014-12-29 2018-11-20 Workshare Ltd. System and method for determining document version geneology
US11763013B2 (en) 2015-08-07 2023-09-19 Workshare, Ltd. Transaction document management system and method
US10474672B2 (en) * 2015-08-25 2019-11-12 Schlafender Hase GmbH Software & Communications Method for comparing text files with differently arranged text sections in documents
US10621216B2 (en) 2017-02-28 2020-04-14 International Business Machines Corporation Generating a ranked list of best fitting place names
CN110609936A (zh) * 2018-06-11 2019-12-24 广州华资软件技术有限公司 一种模糊地址数据智能分类的方法
CN114247591A (zh) 2020-09-24 2022-03-29 厦门松霖科技股份有限公司 出液装置除垢机构、出液装置、花洒及龙头

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
US20010011270A1 (en) * 1998-10-28 2001-08-02 Martin W. Himmelstein Method and apparatus of expanding web searching capabilities
WO2001063479A1 (en) * 2000-02-22 2001-08-30 Metacarta, Inc. Spatially coding and displaying information
WO2004084099A2 (en) * 2003-03-18 2004-09-30 Metacarta, Inc. Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5257242A (en) * 1991-07-24 1993-10-26 Amoco Corporation Method of geophysical exploration
US6148289A (en) * 1996-05-10 2000-11-14 Localeyes Corporation System and method for geographically organizing and classifying businesses on the world-wide web
US5960435A (en) * 1997-03-11 1999-09-28 Silicon Graphics, Inc. Method, system, and computer program product for computing histogram aggregations
JP3226020B2 (ja) * 1997-05-28 2001-11-05 日本電気株式会社 動きベクトル検出装置
US6006321A (en) * 1997-06-13 1999-12-21 Malleable Technologies, Inc. Programmable logic datapath that may be used in a field programmable device
US5995929A (en) * 1997-09-12 1999-11-30 Nortel Networks Corporation Method and apparatus for generating an a priori advisor for a speech recognition dictionary
US6694311B1 (en) * 1999-01-25 2004-02-17 International Business Machines Corporation Method and apparatus for fast query approximation using adaptive query vector projection
US6904409B1 (en) * 1999-06-01 2005-06-07 Lucent Technologies Inc. Method for constructing an updateable database of subject behavior patterns
CA2743462C (en) * 1999-07-30 2012-10-16 Basantkumar John Oommen A method of generating attribute cardinality maps
US6993502B1 (en) * 1999-11-11 2006-01-31 Cch Incorporated Transaction tax collection system and method
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US20050105713A1 (en) * 2000-10-03 2005-05-19 Dialtech Llc Intelligent telephone number dialer and method
US6763148B1 (en) * 2000-11-13 2004-07-13 Visual Key, Inc. Image recognition methods
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US6865295B2 (en) * 2001-05-11 2005-03-08 Koninklijke Philips Electronics N.V. Palette-based histogram matching with recursive histogram vector generation
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6993515B2 (en) * 2001-09-17 2006-01-31 Coemergence Inc. Intelligence system and a method of generating flags for use therein
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7130865B2 (en) * 2001-12-19 2006-10-31 First Data Corporation Methods and systems for developing market intelligence
US7137062B2 (en) 2001-12-28 2006-11-14 International Business Machines Corporation System and method for hierarchical segmentation with latent semantic indexing in scale space
US7424438B2 (en) * 2002-03-19 2008-09-09 Marc Vianello Apparatus and methods for providing career and employment services
US20050171948A1 (en) 2002-12-11 2005-08-04 Knight William C. System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
US7340460B1 (en) * 2003-04-04 2008-03-04 Yahoo! Inc. Vector analysis of histograms for units of a concept network in search query processing
US20040220907A1 (en) * 2003-04-30 2004-11-04 Camarillo David W. Technique for searching for contact information concerning desired parties
US7523139B1 (en) * 2003-05-02 2009-04-21 Symantec Operating Corporation Volume server and volume owner communication protocol in a distributed storage management system
US20050187823A1 (en) * 2004-02-23 2005-08-25 Howes Jeffrey V. Method and system for geographically-targeted internet advertising
US20050197894A1 (en) * 2004-03-02 2005-09-08 Adam Fairbanks Localized event server apparatus and method
US7483881B2 (en) 2004-12-30 2009-01-27 Google Inc. Determining unambiguous geographic references
US7716162B2 (en) 2004-12-30 2010-05-11 Google Inc. Classification of ambiguous geographic references

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
US20010011270A1 (en) * 1998-10-28 2001-08-02 Martin W. Himmelstein Method and apparatus of expanding web searching capabilities
WO2001063479A1 (en) * 2000-02-22 2001-08-30 Metacarta, Inc. Spatially coding and displaying information
WO2004084099A2 (en) * 2003-03-18 2004-09-30 Metacarta, Inc. Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012510667A (ja) * 2008-12-01 2012-05-10 トプシー ラブズ インコーポレイテッド 計算された評判又は影響度スコアに基づくランキング及び選択エンティティ
JP2016177764A (ja) * 2015-03-20 2016-10-06 富士ゼロックス株式会社 施設推定方法、デバイス及びプログラム
JP2017151788A (ja) * 2016-02-25 2017-08-31 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
AU2005322967B2 (en) 2009-07-09
CA2593377C (en) 2014-05-27
KR101219366B1 (ko) 2013-01-09
CN101128821B (zh) 2010-06-23
US9323738B2 (en) 2016-04-26
US20100076985A1 (en) 2010-03-25
CA2845194C (en) 2016-08-30
US20060149742A1 (en) 2006-07-06
CN101128821A (zh) 2008-02-20
AU2005322967A1 (en) 2006-07-13
CA2845194A1 (en) 2006-07-13
CA2593377A1 (en) 2006-07-13
EP1839208A1 (en) 2007-10-03
KR20070094944A (ko) 2007-09-27
US7716162B2 (en) 2010-05-11
US8856143B2 (en) 2014-10-07
WO2006073977A1 (en) 2006-07-13
US20150012542A1 (en) 2015-01-08
JP4633803B2 (ja) 2011-02-16

Similar Documents

Publication Publication Date Title
JP4633803B2 (ja) 曖昧な地理的参照の分類
US7676745B2 (en) Document segmentation based on visual gaps
US8650197B2 (en) Authoritative document identification
US8078601B1 (en) Determining unambiguous geographic references
JP5226095B2 (ja) ローカル項目抽出
US9031898B2 (en) Presentation of search results based on document structure
US8799107B1 (en) Systems and methods for scoring documents

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100430

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100512

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100601

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100701

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101117

R150 Certificate of patent or registration of utility model

Ref document number: 4633803

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees