JP5226095B2 - ローカル項目抽出 - Google Patents

ローカル項目抽出 Download PDF

Info

Publication number
JP5226095B2
JP5226095B2 JP2011047519A JP2011047519A JP5226095B2 JP 5226095 B2 JP5226095 B2 JP 5226095B2 JP 2011047519 A JP2011047519 A JP 2011047519A JP 2011047519 A JP2011047519 A JP 2011047519A JP 5226095 B2 JP5226095 B2 JP 5226095B2
Authority
JP
Japan
Prior art keywords
word
candidate
information
probability
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011047519A
Other languages
English (en)
Other versions
JP2011129154A (ja
Inventor
ライリー,マイケル・デニス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2011129154A publication Critical patent/JP2011129154A/ja
Application granted granted Critical
Publication of JP5226095B2 publication Critical patent/JP5226095B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Description

背景
発明の分野
ここに記述される実現例は、一般的には、ローカル(local)情報検索、より特定的には、住所に関連付けられるビジネス情報の特定に関する。
関連技術の説明
ワールドワイドウェブ(「ウェブ」)は大量の情報を含んでいる。情報のうち所望される部分を見つけることは、しかしながら、困難であり得る。この問題は悪化しており、なぜならば、ウェブ上の情報量、およびウェブ検索において経験のない新規のユーザの数が急速の増大しているからである。
検索システムは、ユーザが興味を持っているウェブページにハイパーリンクを返すことを試みる。一般に、検索システムは、それらの、ユーザの関心についての判断を、ユーザによって入力された検索語(検索クエリと呼ばれる)に基づかせる。検索システムの目的は、検索クエリに基づいて、高品質の、関連性のある結果(たとえばウェブページ)へのリンクを、ユーザに与えることである。典型的には、検索システムは、予め記憶されたウェブページのコーパスに検索クエリ中の語を突合わせることにより、これを達成する。ユーザの検索語を包含しているウェブページは「ヒット」であり、リンクとしてユーザに返される。
ローカル検索システムは、特定の地域内の関連性のあるウェブページおよび/またはビジネスリストを返すことを試みる。ビジネスがウェブページにおいて言及されるとき、既存のローカル検索システムは、そのビジネスを職業別電話帳データと突合わせることにより、対応するビジネスリストを特定してもよい。この技術は、しかしながら、職業別電話帳データが存在しないか、または職業別電話帳データがビジネスに対して不正確であるときには、実行可能ではない。
概要
1つの局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてビジネス情報を見つけるステップと、そのビジネス情報に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアはそのビジネス情報がその住所に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて住所にビジネス情報を関連付けるべきかどうかを判断するステップを含んでもよい。
別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてその住所に先行する語の組を特定するステップと、それらの語の各々がその住所に関連付けられるタイトルの一部である確率を判断するステップとを含んでもよい。この方法は、さらに、住所に関連付けられるタイトルの一部である高い確率を有している語の1つ以上に基づいて候補タイトルを特定するステップと、候補タイトルに信頼度スコアを割当てるステップと、割当てられた信頼度スコアに基づいて住所に候補タイトルを関連付けるべきかどうかを判断するステップとを含んでもよい。
さらに別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書において候補電話番号の組を特定するステップと、その候補電話番号の組における各候補電話番号が住所に関連付けられる確率を判断するステップと、判断された確率に基づいて住所に候補番号のうちの1つを関連付けるべきかどうかを判断するステップとを含んでもよい。
さらなる局面によれば、ある方法は、目印を含むウェブページを特定するステップと、そのウェブページにおいて属性を特定するステップと、その属性に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアは、属性が目印に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて属性を目印に関連付けるべきかどうかを判断するステップを含んでもよい。
住所を含む例示的文書の図である。 この発明の原理に一致するシステムおよび方法が実現されてもよいネットワークの例示的な図である。 この発明の原理に一致するある実現例に従う図2のクライアントサーバの例示的な図である。 この発明の原理に一致するある実現例に従うトレーニングシステムの例示的な図である。 この発明の原理に一致するある実現例に従う統計的モデルをトレーニングするための例示的処理のフローチャートである。 この発明の原理に一致するある実現例に従うローカル項目抽出部の例示的な図である。 この発明の原理に一致するある実現例に従って住所に関連付けられる商号(タイトル)を特定するための例示的処理のフローチャートである。 この発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。 この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。 この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。 この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。 この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。 この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。 この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。 この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。
添付の図面は、この明細書において援用され、その一部を構成するものであるが、この発明の実施例を示し、記載とともに、この発明を説明するものである。
詳細な説明
この発明の以下の詳細な説明は、添付図面に言及する。異なる図面における同じ参照番号は同じまたは同様の要素を特定する場合がある。さらに、以下の詳細な説明はこの発明を限定しはしない。
外観
ローカル検索は特定の地域に関連付けられるビジネスリストを特定することを伴う。ウェブは何十億もの文書を含んでおり、それらのうちのいくつかはビジネスに言及しているかもしれない。できるだけ多くの異なるビジネスに関連付けられたビジネス情報を特定することは、ローカル検索システムに有益である。しばしば、職業別電話帳データがビジネスに関連付けられている。しかしながら、時には、ビジネスは、職業別電話帳データがないか、または、職業別電話帳データがおそらくは不正確な文書中で、言及されている。
この発明の原理と一致するシステムおよび方法は、ウェブ文書中で言及される住所に関連付けられるビジネス情報を特定してもよい。1つの実現例では、ビジネス情報は住所に関連付けられたビジネスの名称を含んでいる。別の実現例では、ビジネス情報は、住所に関連付けられた電話番号を含んでいる。さらに別の実現例では、ビジネス情報は、住所に関連付けられたビジネスについての営業時間またはウェブサイトもしくは地図へのリンクのような別の種類の情報を含んでもよい。
図1は住所を含んでいる例示的文書の図である。図示されるように、この文書はPennsylvania(ペンシルベニア州)のOakmont(オークモント)にあるレストランであるVeltri's Pizza(ベルトリズ・ピザ)のレビューに関連付けられている。文書は、それが郵便住所(つまり123 Allegheny Avenue in Oakmont, PA(123、アレゲーニー・アベニュー、オークモント、ペンシルベニア州))を含むことを判断するよう分析されてもよい。ベルトリズは関連付けられた職業別電話帳データを有していないかまたはおそらく不正確な職業別電話帳データを有している、と仮定する。
ここに記載される技術を用いて、文書は、さらに、住所に関連付けられたビジネス情報を判断するよう分析されてもよい。ビジネス情報は住所に関連付けられた商号(ここにおいては「タイトル」とも称される)および/または電話番号を含んでもよい。ビジネス情報は住所に関連付けられるビジネスリストを生成または訂正するよう用いられてもよい。
「文書」という語は、ここで用いられるとおりでは、いかなる機械読取可能なおよび機械記憶可能なワークプロダクト(work product)をも含むよう広く解釈される。文書は、たとえばeメール、ウェブサイト、ビジネスリスト、ファイル、ファイルの組合せ、他のファイルへの埋込まれたリンクを備えた1つ以上のファイル、ニュースグループポスティング、ブログ、ウェブ広告などを含んでもよい。インターネットの中では、ある一般的な文書はウェブページである。ウェブページはしばしばテキスト情報を含んでおり、埋込まれた情報(メタ情報、画像、ハイパーリンクなど)および/または埋込まれた命令(ジャバスクリプト(Java(登録商標)script)など)を含んでもよい。「リンク」という語は、ここで用いられるとおりでは、ある文書から別の文書または同じ文書内の別の部分への、またはその逆の、いかなる参照をも含めるよう広く解釈される。
例示的ネットワーク構成
図2は、この発明の原理と一致するシステムおよび方法が実現されてもよいネットワーク200の例示的な図である。ネットワーク200は、ネットワーク250を介して複数のサーバ220〜240に接続される複数のクライアント210を含んでもよい。簡潔性のため、2つのクライアント210および3つのサーバ220〜240がネットワーク250に接続されるように図示される。実際には、より多くの、またはより少ないクライアントおよびサーバがあってもよい。さらに、いくつかの例では、あるクライアントはサーバの機能を実行してもよく、あるサーバはクライアントの機能を実行してもよい。
クライアント210はクライアントエンティティを含んでもよい。エンティティは、無線電話、パソコン、携帯情報端末(PDA)、ラップトップ、もしくは別の種類の計算もしくは通信装置のような装置、これらの装置のうちの1つの上で実行されるスレッドもしくは処理、および/またはこれらの装置のうちの1つによって実行可能なオブジェクトとして規定されてもよい。サーバ220〜240はこの発明の原理と一致する態様で文書を収集し、処理し、検索し、および/または維持するサーバエンティティを含んでもよい。
この発明の原理と一致するある実現例では、サーバ220はクライアント210によって使用可能な検索エンジン225を含んでもよい。サーバ220は、文書(たとえばウェブ文書)のコーパスを巡回し、文書にインデックスを付け、文書に関連付けられる情報を文書のレポジトリに記憶してもよい。サーバ230および240はサーバ220により巡回または分析されてもよい文書を記憶または維持してもよい。
サーバ220〜240は別々のエンティティとして示されているが、サーバ220〜240の1つ以上が、サーバ220〜240のうちの別の1つ以上の、1つ以上の機能を実行することが可能であってもよい。たとえば、サーバ220〜240のうちの2つ以上が単一のサーバとして実現されることが可能であってもよい。さらに、サーバ220〜240のうちの1つが2つ以上の別々の(およびおそらくは分散された)装置として実現されることが可能であってもよい。
ネットワーク250は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、電話網、たとえば公衆交換電話網(PSTN)、イントラネット、インターネット、記憶装置、またはネットワークの組合せを含んでもよい。クライアント210およびサーバ220〜240は、ネットワーク250に、有線、無線、および/または光接続を介して接続してもよい。
例示的クライアント/サーバアーキテクチャ
図3はクライアントまたはサーバエンティティ(以下「クライアント/サーバエンティティ」と称される)の例示的な図であるが、それは、この発明の原理に一致する実現例によれば、1つ以上のクライアント210および/またはサーバ220〜240に対応してもよい。クライアント/サーバエンティティは、バス310、プロセッサ320、メインメモリ330、リードオンリメモリ(ROM)340、記憶装置350、入力装置360、出力装置370、および通信インターフェイス308を含んでもよい。バス310はクライアント/サーバエンティティの要素間において通信を可能にする通路を含んでもよい。
プロセッサ320は、命令を解釈および実行する従来のプロセッサ、マイクロプロセッサまたは処理論理を含んでもよい。メインメモリ330は、プロセッサ320による実行のため情報および命令を記憶してもよいランダムアクセスメモリ(RAM)または別のタイプの動的記憶装置を含んでもよい。ROM340はプロセッサ320による使用のため静的情報および命令を記憶してもよい従来のROM装置または別のタイプの静的記憶装置を含んでもよい。記憶装置350は磁気および/または光記録媒体ならびにその対応するドライブを含んでもよい。
入力装置360はオペレータが情報をクライアント/サーバエンティティに入力できるような従来の機構、たとえばキーボード、マウス、ペン、音声認識および/またはバイオメトリック機構などを含んでもよい。出力装置370は、情報をオペレータに出力する、ディスプレイ、プリンタ、スピーカなどの従来の機構を含んでもよい。通信インターフェイス380はクライアント/サーバエンティティが他の装置および/またはシステムと通信することを可能にする任意のトランシーバのような機構を含んでもよい。たとえば、通信インターフェイス380は、別の装置またはシステムと、ネットワーク、たとえばネットワーク250を介して通信するための機構を含んでもよい。
この発明の原理と一致するクライアント/サーバエンティティは、以下に詳細に記載されるように、ある動作を実行してもよい。クライアント/サーバエンティティは、これらの動作を、プロセッサ320がたとえばメモリ330のようなコンピュータ読取可能媒体に含まれるソフトウェア命令を実行することに応答して実行してもよい。コンピュータ読取可能媒体は物理もしくは論理メモリ装置および/または搬送波として定義されてもよい。
ソフトウェア命令は、別のコンピュータ読取可能媒体、たとえばデータ記憶装置350から、または別の装置から通信インターフェイス380を介して、メモリ330に読込まれてもよい。メモリ330に含まれるソフトウェア命令は、プロセッサ320に、後に記載されるような処理を実行させてもよい。代替的に、結線で接続された回路系をソフトウェア命令の代わりにまたはソフトウェア命令との組合せで用いてこの発明の原理に一致する処理を実現してもよい。このように、この発明の原理に一致する実現例はハードウェア回路系およびソフトウェアのいかなる特定の組合せにも限定されるものではない。
例示的なトレーニングシステム
図4はこの発明の原理に一致するある実現例に従うトレーニングシステム400の例示的な図である。1つの実現例においては、トレーニングシステム400は、ソフトウェアおよび/またはハードウェアにより、サーバ220(図2)、別の装置、またはサーバ220とは別途のもしくはサーバ220を含む装置の群内において実現されてもよい。
図4に示されるように、トレーニングシステム400はトレーニングセットに基づいた統計的モデル420を発生させるトレーナ410を含んでもよい。1つの実現例では、職業別電話帳データが存在する住所を含む文書の組を特定してもよい。一般的には、トレーナ410は職業別電話帳データが存在する文書の組においてビジネス情報と共通に関連付けられる特徴を特定して統計的モデル420を発生させてもよい。統計的モデル420は、職業別電話帳データが存在しないかまたはおそらくは不正確な職業別電話帳データが存在する住所を含む文書内においてビジネス情報がどこに見つかるかもしれないかを予想するよう用いられてもよい。
図5はこの発明の原理に一致するある実現例に従うトレーニング統計的モデル420に対する例示的処理のフローチャートである。処理は、文書のコーパスを分析して、職業別電話帳データが存在する住所を含む文書を特定することから始まってもよい(ブロック510)。たとえば、文書コーパス内の文書は、それらの文書が住所を含むかどうかを判断するよう分析されてもよい。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
ある文書が、住所を含むとして特定されると、その住所を、職業別電話帳データに対して分析して、職業別電話帳データがその住所と一致するビジネスリストを含むかどうかを判断してもよい。職業別電話帳のビジネスリストから、ビジネス情報、たとえば商号(「タイトル」)および/または電話番号などが特定されてもよい。このビジネス情報は、次いで、文書内において特定されてもよい(ブロック520)。たとえば、文書のテキストを分析して、テキストのいずれかがビジネス情報に一致するかどうかを判断してもよい。
テキストのいずれもビジネス情報に一致しないときは、その文書はトレーニングセットから取除かれてもよい。文書のテキストがビジネス情報に一致すると、その住所およびビジネス情報はその文書内にマーキングされてもよく(ブロック530)、その文書はトレーニングセットに含まれてもよい。任意の周知のマーキング技術を用いて住所およびビジネス情報を文書においてマーキングしてよい。1つの実現例では、ビジネス情報が住所の付近に生ずる文書のみ(たとえば、住所の左および/または右に対して予め定められた数の語、たとえば20語または60語内など)がトレーニングセットに含まれてもよい。別の実現例では、ビジネス情報が文書においてどこでもよいから生ずる文書がトレーニングセットに含まれてもよい。
一旦トレーニングセットが確立されると、それは何百万もの文書を含んでもよいものでであるが、統計的モデルがそのトレーニングセットに基づいて発生されてもよい(ブロック540)。たとえば、トレーニングセットにおける文書を分析して、文書が住所を含むときに文書においてビジネス情報をどのように認識するかに関する情報を収集してもよい。それらの特徴は、参照点(たとえば文書における住所)からの候補語の距離、候補語の特性、候補語に関連付けられる境界情報、および/または候補語に関連付けられる句読点情報に関連付けられてもよい。タイトルを判断するのに有用な特定の特徴は電話番号を判断するのに有用な情報と異なっていてもよい。これらの特徴は、さらに、他の種類のビジネス情報を判断することに関し、異なっていてもよい。
候補タイトル語の特性に関する特徴の例は、その語が何であるか、それは数であるかどうか、それは大文字で始まっているか、大文字で書かれているか、太字であるか、斜体字であるか、下線付きであるか、もしくは中央揃えされているか、それはアンカーテキストの一部であるか、およびその長さは文字においてどのようであるか、を含むかもしれない。候補タイトル語に対する境界情報に関する特徴の例は、境界マーキング(たとえばHTMLタグ)の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補タイトル語と先行するまたは後続の語との間における表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。ある候補タイトル語に対する句読点情報に関する特徴の例は、コンマ、ピリオド、感嘆符、疑問符、コロン、セミコロン、ダッシュ、一重もしくは二重引用符、括弧、またはスペースが候補タイトル語と先行するもしくは後続の語との間にあるかどうかを含むかもしれない。他の特徴は当業者には明らかであろう。
候補電話番号語の特徴に関する特徴の例は、その語が何であるか、その長さは文字においてどのようであるか、およびもし電話がエリアコードを含む場合には、そのエリアコードはその住所がある地域に対して適切に見えるかどうかを含むかもしれない。ある候補電話番号語に対する境界情報に関する特徴の例は、境界マーキング(たとえばHTMLタグ)の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補電話番号語と住所との間において表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。候補電話番号語と関連性があるいくつかの他の特徴は、一般的な電話番号語(たとえば「電話(call, calling, telephone, telephoning, phone, phoning, tel, tele, (T))など」)が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語(たとえば「ファックス(fax, faxing, (F))など」)が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、候補電話番号語と住所との間に別の電話番号があるかどうか、を含むかもしれない。他の特徴は当業者には明らかであろう。
統計的モデルを、ある文書におけるある語と関連付けられる特徴に基づいて用いて、その語がその文書においてある住所と関連付けられるビジネス情報の一部であるかどうかを予想してもよい。換言すると、統計的モデルはある数の異なる手掛かりをトレーニングセットから特定し、それらの手掛かりを用いて、あるタイトルがある文書内においてどこにおいて始まりそして終わりそうか、および/またはどの電話番号がその文書内におけるある住所に対応しそうかを判断してもよい。
例示的なローカル項目抽出部
図6はこの発明の原理に一致するある実現例に従うローカル項目抽出部600の例示的な図である。1つの実現例においては、ローカル項目抽出部600は、ソフトウェアおよび/またはハードウェアによって、サーバ220(図2)、別の装置、またはサーバ220とは別のもしくはサーバ220を含む装置の群内において実現されてもよい。
図6に示されるように、ローカル項目抽出部600は、住所を伴う文書を分析して、統計的モデル420に基づいてその住所に関連付けられるビジネス情報を判断してもよい分類部610を含んでもよい。分類部610によって分析される文書は、対応する職業別電話帳データがない住所を伴う文書、および/またはおそらく不正確な職業別電話帳データが存在する住所を伴う文書を含んでもよい。分類部610により実行される機能は、ビジネス情報が商号(タイトル)情報または電話番号情報に対応するかどうかに基づいて異なってもよい。さらに別の機能が、ビジネス情報が商号または電話番号情報以外の情報を含むときに実行されてもよい。
図7はこの発明の原理に一致するある実現例に従って住所に関連付けられる商号(タイトル)を特定するための例示的処理のフローチャートである。処理は、住所を含む文書の特定で始まってもよい(ブロック710)。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
住所付近の語を分析してもよく、各語がタイトルの一部である確率を判断してもよい(ブロック720および730)。1つの実現例では、分析を、文書内における住所の直前の語で始めてもよい。換言すると、タイトルに対する検索を、住所において始めて、文書のテキストを逆方向に見てもよい。その理論は、タイトルが文書において住所に関連して生ずるとき、それはほとんどいつも文書において住所の前に生ずる、というものである。
候補語を分析するとき、先行する語に関する予想が与えられ、および候補語の周りにおいて語のウィンドウが与えられるとして(たとえば左および右のある予め定められた数の語を見て)、統計的モデルに基づいて、候補語がタイトルの一部である確率を判断してもよい。この確率判断は、そのウィンドウにおける候補語および他の語の特徴に基づいてもよい。候補語に関連付けられる特徴は、たとえば、候補語の、住所からの距離、候補語の特性、候補語と先行するもしくは後続の語との間における境界情報、および/または候補語と先行するもしくは後続の語との間における句読点情報を含むかもしれない。
0または1のいずれかであるt(i)を、住所の始まりに先行するi番目の語がタイトルにおける語である(=1)かまたはそうでない(=0)かの予想であるとする。x(i)をi番目の語それ自体とし、s(i)をx(i)の属性(たとえば距離および特性)とし、h(i)をx(i)と後続の(または先行する)語との間の境界情報とし、q(i)をx(i)と後続の(または先行する)語との間における句読点情報であるとする。その場合、x(i)がそのコンテキストにおいて条件付けられるタイトルの一部である確率は以下のように表現されてもよい:
F(i)=Prob[t(i)given x(i+2)x(i+1)x(i)x(i−1)x(i−2),s(i+2)s(i+1)s(i)s(i−1)s(i−2),h(i+1)h(i)h(i−1)h(i−2),q(i+1)q(i)q(i−1)q(i−2),t(i−1)]
式中、x(i+2)x(i+1)x(i)x(i−1)x(i−2)はx(i)の付近の語のウィンドウを指してもよく(語のウィンドウはx(i)の左に対し2つおよび右に対し2つとして示されているが、ウィンドウはこの発明の原理に一致する他の実現例においてはより大きくてもまたはより小さくてもよい)、s(i+2)s(i+1)s(i)s(i−1)s(i−2)はウィンドウにおける語の属性を示してもよく、h(i+1)h(i)h(i−1)h(i−2)はウィンドウにおける語の間の境界情報を示してもよく、q(i+1)q(i)q(i−1)q(i−2)はウィンドウにおける語の間の句読点情報を示してもよく、t(i−1)はx(i)に先行する語(つまりx(i−1))に関する予想を示してもよい。
X=x(n)x(n−1)...x(2)x(1)とし、ここで、nは考慮されるテキストストリングのサイズ(たとえば20語)を示し、S=s(n)s(n−1)...s(2)s(1)、H=h(n−1)...h(2)h(1)、Q=q(n−1)...q(2)q(1)およびT=t(n)t(n−1)...t(2)t(1)とする。全ストリングの確率は、この場合、Prob(T given X,S,H,Q)から判断されてもよい。条件付き確率の定義およびマルコフのような仮定(つまりローカルなコンテキスト事項のみ)に基づいて、このストリングの確率は次のように表現されてもよい:
Prob(T given X,S,H,Q)=kF(n)F(n−1)...F(2)F(1)
式中、kはこのコンテキストに対する定数であり、この等式の右側においてF(i)においてt(i)およびt(i−1)はこの等式の左側においてTにあるものと一致する。
Tは、次いで、Tにおけるすべての1は隣接しているという制約の対象となるProb(Tgiven X,S,H,Q)を最大にするよう選択されてもよい。そのようにするために、徹底的な検索をすべての2nTにわたって実行し、Prob(T given X,S,H,Q)を各Tごとに評価してもよい。まさにベストのタイトルを得るために、周知の、単一ソースの、最短経路アルゴリズムを用いてもよい。j個のベストのタイトルを得るために、周知のjベストアルゴリズムを用いてもよい。
信頼度スコアを、特定される各候補タイトルに割当ててもよい(ブロック740)。この信頼度スコアはそのタイトルに関連付けられる確率(たとえばProb(T given X,S,H,Q))に関係していてもよい。選択肢として、住所に対するベストのタイトルを候補タイトルの組から判断してもよい(ブロック750)。1つの実現例では、住所に対するベストのタイトルは最も高い信頼度スコアを伴う候補タイトルとして特定されてもよい。別の実現例では、住所が文書の群に現われると、その住所に対するベストのタイトルを、文書の群にわたって最も高い信頼度スコアを伴う候補タイトル、または文書の群において最も多くの文書に現われる最も高い信頼度スコアを伴う候補タイトルとして特定してもよい。
タイトルは次いで住所と関連付けられてビジネスリストを形成するかまたは補足してもよい。住所はその関連付けられたタイトルとともにメモリに記憶されてもよい。
図8はこの発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。処理は住所を含む文書の特定で始まってもよい(ブロック810)。任意の周知の住所認識技術を用いて文書において住所を認識してよい。
文書における候補電話番号の組を特定してもよい(ブロック820)。1つの実現例では、文書におけるすべての電話番号を候補電話番号として特定してもよい。別の実現例では、住所のある距離内における電話番号を特定してもよい。任意の周知のパターンマッチング技術を用いて候補電話番号の組を特定してよい。
先行する候補電話番号に関する予想が与えられ、候補電話番号の付近において語のウィンドウが与えられるとして(たとえば左および右のある予め定められた数の語を見て)、候補電話番号の各々が住所に関連付けられる確率を、統計的モデルに基づいて判断してもよい(ブロック830)。この確率判断は、さらに、候補電話番号に関連付けられる特徴に基づいてもよい。特徴は、上記において説明されるように、候補電話番号の、住所からの距離、候補電話番号の特性、候補電話番号と住所との間における境界情報、および/または候補電話番号と住所との間における句読点情報を含むかもしれない。この確率は上記においてタイトルに関し記載された態様と同様の態様で判断されてもよく、そこにおいて、x(i)は、この場合においては、候補電話番号を示す。
信頼度スコアを、候補電話番号に対し、それらの判断された確率に基づいて割当ててもよい(ブロック840)。選択肢として、住所に対するベストの電話番号を判断してもよい(ブロック850)。1つの実現例では、住所に対するベストの電話番号は、最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。別の実現例では、住所が文書の群の中に現われる場合には、住所に対するベストの電話番号は、文書の群にわたって最も高い信頼度スコアを伴う候補電話番号として、または文書の群において最も多くの文書中に現われる最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。
電話番号は、次いで、住所と関連付けられて、ビジネスリストを形成または補足してもよい。住所と、その関連付けられた電話番号は、ともに、メモリに記憶されてもよい。

図9〜図15はこの発明の原理に一致するある実現例に従って例示的な文書において実行されてもよい処理を示す図である。図9に示されるように、この文書はWashington, DC(ワシントンDC)にあるMorton's(モートンの)レストランのレビューに関連付けられるウェブページである。このウェブページに対し、周知の住所認識技術を用いて分析を行なって、このウェブページに郵便住所が含まれることを判断してもよい。図10に示されるように、住所は、123 Connecticut Avenue, Washington, DC 20200(123 コネチカット・アベニュー、ワシントン、DC 20200)に対応している。Morton'sは、関連付けられる職業別電話帳データを全く持たないか、またはおそらく不正確な職業別電話帳データを有している、と仮定する。
住所に関連付けられる商号(タイトル)を特定しようと試みる際、検索を、その住所の直前の語で始めて、逆向きに進んでもよい。この場合では、検索は、図11に示されるように、「at(〜の)」という語で始まってもよい。候補語「at」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
この確率は、F(at)=Prob[t(at)given“visited Morton's at 123 Connecticut,”s(visited)s(Morton's)s(at)s(123)s(Connecticut),h(Morton's)h(at)h(123)h(Connecticut),q(Morton's)q(at)q(123)q(Connecticut),0]として表現されてもよく、そこにおいて、たとえば、s(at)は「at」という語の属性を示してもよく、h(at)は「at」という語とそれに続く語「Morton's」との間における境界情報を示してもよく、q(at)は「at」という語とそれに続く語「Morton's」という語との間における句読点情報を示してもよく、「0」は前の語に関する予想を示し、それはこの場合においては住所の一部に対応する。この単純な例は、候補語の左および右に2つの語のウィンドウを仮定するが、このウィンドウは実際にはより大きくてもまたはより小さくてもよい。
候補語「at」に関連付けられる属性は、「at」という語の、住所からの距離を含むかもしれない。この場合においては、「at」という語は住所の直前になる。属性は、さらに、「at」という語の特性を含むかもしれない。この場合においては、語は「at」であり;それは数ではなく;それは大文字で始まってもいなければ、大文字でもなければ、太字でもなければ、斜体字でもなければ、下線を付けられてもいなければ、中央揃えされてもおらず;それはアンカーテキストの一部ではなく;それは長さにおいて2つの文字である。境界情報に対しては、「at」という語の左(または右)には境界マーカはないと仮定する。さらに、「at」という語の左(または右)には句読点もない。この確率判断は、「at」という語はタイトルの一部ではない(たとえばt(at)=0)という予想をもたらす結果となる。
検索は、図12に示されるように、「Morton's」という語で続いてもよい。「Morton's」という候補語が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
この確率はP(Morton's)=Prob[t(Morton's)given“recently visited Morton's at 123,”s(recently)s(visited)s(Morton's)s(at)s(123),h(visited)h(Morton's)h(at)h(123),q(visited)q(Morton's)q(at)q(123),0]として表現されてもよい。「Morton's」という語に関連付けられる属性は、「Morton's」という語の、住所からの距離を含むかもしれない。この場合においては、「Morton's」という語は住所から1語離れている。属性は、さらに、「Morton's」という語の特性を含むかもしれない。この場合においては、語は「Morton's」であり;、それは数ではなく;それは最初の文字が大文字であり;それは大文字ではなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず;それはアンカーテキストの一部ではなく;それは長さが8文字である。境界情報に対しては、「Morton's」という語の左(または右)には境界マーカはないと仮定する。さらに、「Morton's」という語の左(または右)には句読点はない。この確率判断は、「Morton's」という語はタイトルの一部である(たとえばt(Morton's)=1)という予想をもたらす結果となる。
検索は、図13に示されるように、「visited(訪ねた)」という語で続いてもよい。候補語「visited」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。
この確率はP(visited)=Prob[t(visited)given“I recently visited Morton's at,”s(I)s(recently)s(visited)s(Morton's)s(at),h(recently)h(visited)h(Morton's)h(at),q(recently)q(visited)q(Morton's)q(at),1]として表現されてもよい。「visited」という語に関連付けられる属性は、「visited」という語の、住所からの距離を含むかもしれない。この場合においては、「visited」という語は住所から2語離れている。属性は、さらに、「visited」という語の特性を含むかもしれない。この場合においては、語は「visited」であり;それは数ではなく;それは大文字で始まってはおらず、大文字でもなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず;それはアンカーテキストの一部ではなく;それは長さが7文字である。境界情報に対しては、「visited」という語の左(または右)には境界マーカはないと仮定する。さらに、「visited」という語の左(または右)には句読点はない。この確率判断は、「visited」という語はタイトルの一部ではない((t(visited)=0)という予想をもたらす結果となる。
(ウェブページにおけるなんらかの語の組またはウェブページにおける語のすべてに関し)候補語の各々がタイトルの一部であるかどうか予想がなされると、スライドする語のストリングを考慮して、その語がタイトルを含む確率を最大にするストリングを特定してもよい。この処理は「Morton's」という語を住所に対する候補タイトルとして特定すると仮定する。ある信頼度スコアを、上記のように、候補タイトルに割当ててもよい。
住所に関連付けられる電話番号を特定しようと試みる際、検索は、図14に示されるように、周知のパターンマッチング技術を用いて、ウェブページにおける電話番号のすべてを特定することにより、開始してもよい。この場合においては、2つの候補電話番号、つまり202−987−6543および202−987−6542が特定された。
候補電話番号の各々が、その候補電話番号の付近に語のウィンドウが与えられ、候補電話番号に関連付けられる特徴が与えられ、先の電話番号に関連付けられる予想が与えられるとして、その住所に対する電話番号である確率はどのようであるかを判断してもよい。候補電話番号に関連付けられる特徴は、電話番号の、住所からの距離を含むかもしれない。この場合においては、双方の候補電話番号は住所から約150語分離れている。特徴は、さらに、境界情報が電話番号と住所との間に存在するかどうかを含むかもしれない。この場合においては、2つの段落境界が候補電話番号と住所との間に存在する。
電話番号に関連性がある他の特徴は、一般的な電話番号語(たとえば「電話(call, calling, telephone, telephoning, phone, phoning, tel, tele, (T))など」)が電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語(たとえば「ファックス(fax, faxing, (F))など」)が電話番号語の前のある予め定められた数の語内に現われるかどうか、それと住所との間に別の電話番号があるかどうか、を含む。この場合においては、確率判断は、202−987−6543という電話番号候補は202−987−6542という電話番号候補よりも住所に合っている電話番号でありそうであるという予想をもたらす結果となってもよい。
候補電話番号は、それらの、住所に関連付けられる確率に基づいて、信頼度スコアを割当てられてもよい。
住所に関連付けられるビジネスリストは、図15に示されるように、最も高い信頼度スコアを伴うタイトルおよび/または電話番号から情報を伴って形成または補足されてもよい。ビジネスリストはビジネスに関連付けられる文書へのリンク、ビジネスに対する住所情報、ビジネスに関する電話番号、ビジネスに言及する文書からの抜粋、および/またはビジネスに言及する文書への1つ以上のリンクを含んでもよい。
結論
この発明の原理に一致するシステムおよび方法は、文書においてなんらかの目印(たとえば、郵便住所)を与えられるとして、目印の属性(たとえばビジネス情報、たとえば商号、電話番号、営業時間、またはウェブサイトもしくはマップへのリンク)をその文書において見つけるよう試みる。先の記載は文書において住所に関連付けられるビジネス情報を見つけることに焦点を置いたが、これは必ずしもそうである必要はない。他の実現例では、上記の処理は他の目印および属性に当てはまってもよく、たとえば、製品(目印)に関連付けられる価格(属性)または製品識別番号(属性)を見つけ出してもよい。文書に現われてもよい他の種類の目印および属性は当業者には明らかであろう。
この発明の好ましい実施例の、前述の記載は、説明および記載を与えてはいるが、排他的であったり、またはこの発明を開示される形式そのものに限定するよう意図されるものではない。修正および変形が、上記の教示に照らして可能であり、またはこの発明の実施から得られてもよい。
たとえば、一連の動作が図5、図7および図8を参照して記載されているが、これら動作の順序はこの発明の原理に従う他の実現例においては修正されてもよい。さらに、非依存性の動作を平行して実行してもよい。
さらに、候補語が住所に関連付けられるビジネス情報の一部である確率は、特徴、たとえばその語の付近の語からなるウィンドウ、先の語に関する予想、ならびにそのウィンドウにおける1つ以上の語に関連付けられる属性、境界情報および句読点などに基づくと記載されたが、別の実現例では、より多くの、より少ない、または異なる特徴を用いて、候補語が住所に関連付けられるビジネス情報の一部であるかどうかを予想してもよい。
当業者には、上記のような、この発明の局面は、図に示される実現例において数多くの異なる形式のソフトウェア、ファームウェアおよびハードウェアにおいて実現されてもよいことは明らかである。この発明の原理に一致する局面を実現するよう用いられる実際のソフトウェアコードまたは専門化された制御ハードウェアはこの発明の限定ではない。このように、それら局面の動作およびふるまいは具体的なソフトウェアコードに対する言及なく記載され−−当業者であればここにおける記載に基づいてそれらの局面を実現するようソフトウェアおよび制御ハードウェアを設計することが可能であろうことが理解される。
本願において用いられるいかなる要素、行為または命令も、この発明にとって重要または本質的であるとして明記されるのでなければ、そのように解釈されるべきではない。さらに、ここで用いられるとおりでは、「a(ある〜)」という冠詞は1つ以上のものを含むよう意図される。たった1つのものを意図する場合には、「1つの」または同様の文言が用いられている。さらに、「〜に基づく」という表現は、特段の明記がなければ、「少なくとも一部は〜に基づく」を意味するよう意図される。

Claims (34)

  1. 1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサにより実現される方法であって、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、地理的な住所を含む文書を特定するステップと、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書において、前記地理的な住所に先行するかまたは後続の複数の語から、候補ビジネス情報を見つけ出すステップと、
    前記候補ビジネス情報が前記地理的な住所に関連付けられる確率を判断するステップとを含み、前記候補ビジネス情報が前記地理的な住所に関連付けられる確率は、既知の地理的な住所および関連付けられたビジネス情報を伴う複数の文書のビジネス情報におけるある特徴の発生に基づく、前記複数の語の前記特徴の分析から判断され、前記方法はさらに、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記候補ビジネス情報に、前記候補ビジネス情報が前記地理的な住所に関連付けられる確率に関する信頼度スコアを割当てるステップと
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記割当てられた信頼度スコアに基づいて前記候補ビジネス情報は前記地理的な住所に関連付けられると判断するステップと
    前記候補ビジネス情報を前記地理的な住所に関連付けてメモリに記憶するステップとを含む、方法。
  2. 前記候補ビジネス情報はタイトルであり、前記候補ビジネス情報見つけ出すステップは、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書における前記地理的な住所に先行する複数の語を、前記候補ビジネス情報として特定するステップを含む、請求項1に記載の方法。
  3. 前記候補ビジネス情報が前記地理的な住所に関連付けられる前記確率を判断するステップは、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記複数の語のうちのある語が前記タイトルの一部である確率を計算するステップを含む、請求項2に記載の方法。
  4. 前記ある語が前記タイトルの一部である前記確率を計算するステップは、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記ある語に先行するかまたは後続の語の数を判断するステップを含む、請求項3に記載の方法。
  5. 前記ある語が前記タイトルの一部である前記確率を計算するステップは、
    前記複数の語のうちの第2の語が前記タイトルの一部である確率を計算するステップと、
    前記第2の語が前記タイトルの一部である前記確率を用いて、前記ある語が前記タイトルの一部である前記確率を計算するステップとを含む、請求項3に記載の方法。
  6. 前記ある語が前記タイトルの一部である前記確率を計算するステップは、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記ある語に関連付けられる特徴の組を分析するステップを含む、請求項3に記載の方法。
  7. 前記特徴の組は、
    前記ある語の前記地理的な住所からの距離に関する情報と、
    前記ある語の特性に関する情報と、
    前記ある語と前記複数の語のうちの先行するかまたは後続の語との間の境界に関連付けられる情報と、
    前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における句読点情報に関する情報とのうちの少なくとも1つを含む、請求項6に記載の方法。
  8. 前記ある語の特性に関する前記情報は、
    前記ある語が数であるかどうかに関する情報と、
    前記ある語が大文字にされているかどうかに関する情報と、
    前記ある語が太字にされているかどうかに関する情報と、
    前記ある語が斜体字にされているかどうかに関する情報と、
    前記ある語が下線を引かれているかどうかに関する情報と、
    前記ある語がアンカーテキストの一部であるかどうかに関する情報と、
    前記ある語における文字の数に関する情報とのうちの1つ以上を含む、請求項6に記載の方法。
  9. 前記境界に関連付けられる前記情報は、
    HTMLタグの存在に関する情報と、
    改行の存在に関する情報と、
    リスト項目マーカの存在に関する情報と、
    前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における表またはリストの始めまたは終わりに関するマーカの存在に関する情報とのうちの少なくとも1つを含む、請求項6に記載の方法。
  10. 前記複数の語のうちの1つが前記タイトルの一部である確率は、前記特徴の組のうち、公知の地理的な住所および関連付けられるタイトルを伴う複数の文書における地理的な住所に関連付けられるタイトルにおける前記ある語に関連付けられる特徴の発生を分析することにより生成される統計的モデルから判断される、請求項6に記載の方法。
  11. 前記候補ビジネス情報は電話番号に対応し;
    前記文書において前記候補ビジネス情報を見つけ出すステップは:
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書において候補電話番号の組を特定するステップと、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記候補電話番号の組における各候補電話番号が前記地理的な住所に関連付けられる確率を計算するステップとを含む、請求項1に記載の方法。
  12. 前記候補電話番号の組のうちのある候補電話番号が前記地理的な住所に関連付けられる確率を計算するステップは、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記ある候補電話番号に関連付けられる特徴を分析するステップを含む、請求項11に記載の方法。
  13. 前記特徴は、
    前記文書内における、前記ある候補電話番号の前記地理的な住所からの距離に関する情報と、
    前記ある候補電話番号と前記地理的な住所との間における境界情報と、
    第2の電話番号が前記ある候補電話番号の前に現れるかどうかに関する情報と、
    ファクシミリ番号が前記ある候補電話番号の前に現れるかどうかに関する情報と、
    第2の候補電話番号が前記ある候補電話番号と前記地理的な住所との間に存在するかどうかに関する情報とのうちの少なくとも1つを含む、請求項12に記載の方法。
  14. 前記ある候補電話番号が前記地理的な住所に関連付けられる前記確率は、前記ある候補電話番号に関連付けられる、公知の地理的な住所および関連付けられる電話番号を伴う複数の文書における前記特徴の発生を分析することにより生成される統計的モデルから判断される、請求項12に記載の方法。
  15. 少なくとも1つのプロセッサと、
    メモリとを含み、前記メモリは、前記少なくとも1つのプロセッサによって実行されると前記少なくとも1つのプロセッサに、
    地理的な住所を含む文書を特定させ、
    前記文書において前記地理的な住所に先行するかまたは後続の複数の語からビジネス情報を特定させ、
    前記ビジネス情報が前記地理的な住所に関連付けられる確率を計算させ、前記確率は、公知の地理的な住所および関連付けられるビジネス情報を伴う複数の文書のビジネス情報におけるある特徴の発生に基づく、前記複数の語の前記ある特徴の分析から生成される統計的モデルから判断され、さらに、
    前記ビジネス情報が前記確率に基づいて前記地理的な住所に関連付けられると判断させ、
    前記ビジネス情報を前記地理的な住所に関連付けて前記メモリに記憶させる命令を記憶する、システム。
  16. 前記ビジネス情報はタイトルであり、ビジネス情報を前記文書において特定する際、前記少なくとも1つのプロセッサは、さらに、前記ビジネス情報として、前記文書において前記地理的な住所に先行する複数の語を特定する、請求項15に記載のシステム。
  17. 前記ビジネス情報が前記地理的な住所に関連付けられる前記確率を計算する際、前記少なくとも1つのプロセッサは、さらに、前記複数の語のうちのある語が前記タイトルの一部である確率を計算する、請求項16に記載のシステム。
  18. 前記ある語が前記タイトルの一部である前記確率を計算する際、前記少なくとも1つのプロセッサは、さらに、前記ある語に先行するかまたは後続の語の数を判断する、請求項16に記載のシステム。
  19. 前記ある語が前記タイトルの一部である前記確率は、さらに、前記ある語に関連付けられる特徴の組に基づく、請求項16に記載のシステム。
  20. 前記特徴の組は、
    前記ある語の前記地理的な住所からの距離に関する情報と、
    前記ある語の特性に関する情報と、
    前記ある語と前記複数の語のうちの先行するかまたは後続の語との間の境界に関連付けられる情報と、
    前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における句読点情報に関する情報とのうちの少なくとも1つを含む、請求項19に記載のシステム。
  21. 前記ある語の特性に関する前記情報は、
    前記ある語が数であるかどうかに関する情報と、
    前記ある語が大文字にされているかどうかに関する情報と、
    前記ある語が太字にされているかどうかに関する情報と、
    前記ある語が斜体字にされているかどうかに関する情報と、
    前記ある語が下線を引かれているかどうかに関する情報と、
    前記ある語がアンカーテキストの一部であるかどうかに関する情報と、
    前記ある語における文字の数に関する情報とのうちの1つ以上を含む、請求項20に記載のシステム。
  22. 前記境界に関連付けられる前記情報は、
    HTMLタグの存在に関する情報と、
    改行の存在に関する情報と、
    リスト項目マーカの存在に関する情報と、
    前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における表またはリストの始めまたは終わりに関するマーカの存在に関する情報とのうちの少なくとも1つを含む、請求項20に記載のシステム。
  23. 前記ビジネス情報は電話番号であり、前記ビジネス情報を前記文書において特定する際、前記少なくとも1つのプロセッサは、さらに、
    前記文書において候補電話番号の組を特定し、
    前記候補電話番号の組における各候補電話番号が、前記候補電話番号の組のうちの各候補電話番号に近い語の数に関連付けられる確率に基づいて、前記地理的な住所に関連付けられる確率を計算する、請求項15に記載のシステム。
  24. 前記候補電話番号の組のうちのある候補電話番号が前記地理的な住所に関連付けられる確率は、前記ある候補電話番号に関連付けられる特徴の組に基づく、請求項23に記載のシステム。
  25. 前記特徴の組は、
    前記ある候補電話番号の前記住所からの距離に関する情報と、
    前記ある候補電話番号と前記地理的な住所との間における境界情報と、
    一般的な電話番号語が前記ある候補電話番号の前に現れるかどうかに関する情報と、
    一般的なファクシミリ番号語が前記ある候補電話番号の前に現れるかどうかに関する情報と、
    第2の候補電話番号が前記ある候補電話番号と前記地理的な住所との間に存在するかどうかに関する情報とのうちの少なくとも1つを含む、請求項24に記載のシステム。
  26. 1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサにより実施される方法であって、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、地理的な住所を含む文書を特定するステップと、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書における前記地理的な住所に先行する複数の語を特定するステップと、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記複数の語の各々が前記地理的な住所に関連付けられるタイトルの一部である確率を計算するステップとを含み、前記複数の語の各々が前記タイトルの一部である前記確率は、公知の地理的な住所および関連のタイトルを伴う複数の文書のタイトルにおける特徴の発生に基づいて、前記複数の語のその特徴から計算され、前記方法はさらに、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記地理的な住所に関連付けられるタイトルの一部である確率を有する前記複数の語のうちの1つ以上に基づいて候補タイトルを判断するステップと、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記タイトルにおける前記複数の語の各々が前記タイトルの一部である確率に基づいて、前記候補タイトルに対する信頼度スコアを判断するステップと、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記信頼度スコアに基づき、前記候補タイトルを前記地理的な住所に関連付けるかどうかを判断するステップとを含む、方法。
  27. 1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサにより実施される方法であって、
    地理的な住所を含む文書を特定するステップと、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書において候補電話番号の組を特定するステップと、
    前記候補電話番号の組における各候補電話番号が前記地理的な住所に関連付けられる確率を計算するステップとを含み、ある候補電話番号が前記住所に関連付けられる確率は、当該候補電話番号のある特徴から、公知の地理的な住所および関連付けられる電話番号を伴う複数の文書の電話番号における当該特徴の発生に基づいて計算され、前記方法はさらに、
    前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記候補電話番号の1つが前記判断された確率に基づいて前記地理的な住所に関連付けられると判断するステップと、
    前記候補電話番号のうち選択された電話番号を前記住所と関連付けてメモリに記憶するステップとを含む、方法。
  28. 1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサにより実施され、商号を、文書において見出される地理的な住所に関連付けるための方法であって、
    前記文書において前記地理的な住所を特定するステップと、
    前記特定された地理的な住所に先行するかまたは後続の複数の語から、候補商号の組または候補電話番号の組を判断するステップと、
    前記候補商号の組において各候補商号に対する信頼度を判断するか、または前記候補電話番号の組において各候補電話番号に対し信頼度を判断するステップとを含み、前記信頼度は、ある候補商号が前記住所に関連付けられるビジネスの名称である確率を反映し、または、前記信頼度は、ある候補電話番号が前記特定された地理的な住所に関連付けられる前記ビジネスの電話番号である確率を反映し、前記方法はさらに、
    ある信頼度を有する候補商号または候補電話番号を、前記特定された地理的な住所と共に、メモリに記憶するステップを含む、方法。
  29. 前記候補商号または前記候補電話番号の前記信頼度を判断するステップは、
    前記候補商号または前記候補電話番号の特徴を特定するステップと、
    前記特定された特徴を用いて、前記候補商号が前記ビジネスの名称である確率を判断するか、または前記候補電話番号が前記ビジネスの電話番号である確率を判断するステップとを含み、前記確率は、公知の商号または電話番号および公知の地理的な住所を有する文書のコーパスにおいて見出される商号または電話番号に前記特徴が生ずる尤度から判断される、請求項28に記載の方法。
  30. 前記特徴は、前記候補商号におけるある語の、前記特定された地理的な住所からの距離であるか、または前記候補電話番号の、前記特定された地理的な住所からの距離である、請求項29に記載の方法。
  31. 前記特徴は、前記候補商号または前記候補電話番号におけるある語のフォントの属性である、請求項29に記載の方法。
  32. 前記フォントの前記属性は、前記ある語の表現における、大文字の使用、斜体字の使用、太字の使用、下線の使用、および中央寄せの使用の1つ以上を含む、請求項29に記載の方法。
  33. 前記特徴は、前記候補商号または前記候補電話番号の文字長である、請求項29に記載の方法。
  34. 前記特徴は、
    前記候補商号におけるある語と先行するかまたは後続の語との間におけるコンマと、
    前記候補商号におけるある語と先行するかまたは後続の語との間におけるピリオドと、
    前記候補商号におけるある語と先行するかまたは後続の語との間における感嘆符と、
    前記候補商号におけるある語と先行するかまたは後続の語との間における疑問符と、
    前記候補商号におけるある語と先行するかまたは後続の語との間におけるコロン記号と、
    前記候補商号におけるある語と先行するかまたは後続の語との間におけるセミコロン記号と、
    前記候補商号におけるある語と先行するかまたは後続の語との間におけるダッシュ記号と、
    前記候補商号におけるある語と先行するかまたは後続の語との間における一重または二重引用符と、
    前記候補商号におけるある語と先行するかまたは後続の語との間における括弧と、
    前記候補商号におけるある語と先行するかまたは後続の語との間におけるスペースとのうちの1つ以上である、請求項29に記載の方法。
JP2011047519A 2004-12-30 2011-03-04 ローカル項目抽出 Active JP5226095B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/024,765 2004-12-30
US11/024,765 US7831438B2 (en) 2004-12-30 2004-12-30 Local item extraction

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007549625A Division JP2008527502A (ja) 2004-12-30 2005-12-30 ローカル項目抽出

Publications (2)

Publication Number Publication Date
JP2011129154A JP2011129154A (ja) 2011-06-30
JP5226095B2 true JP5226095B2 (ja) 2013-07-03

Family

ID=36218348

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007549625A Pending JP2008527502A (ja) 2004-12-30 2005-12-30 ローカル項目抽出
JP2011047519A Active JP5226095B2 (ja) 2004-12-30 2011-03-04 ローカル項目抽出

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007549625A Pending JP2008527502A (ja) 2004-12-30 2005-12-30 ローカル項目抽出

Country Status (8)

Country Link
US (2) US7831438B2 (ja)
EP (2) EP1839211A1 (ja)
JP (2) JP2008527502A (ja)
KR (1) KR100974905B1 (ja)
CN (1) CN101128819B (ja)
AU (1) AU2005322850C1 (ja)
CA (1) CA2593378C (ja)
WO (1) WO2006074052A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831438B2 (en) * 2004-12-30 2010-11-09 Google Inc. Local item extraction
US8731954B2 (en) 2006-03-27 2014-05-20 A-Life Medical, Llc Auditing the coding and abstracting of documents
US7908552B2 (en) 2007-04-13 2011-03-15 A-Life Medical Inc. Mere-parsing with boundary and semantic driven scoping
US8682823B2 (en) 2007-04-13 2014-03-25 A-Life Medical, Llc Multi-magnitudinal vectors with resolution based on source vector features
WO2008129339A1 (en) * 2007-04-18 2008-10-30 Mitsco - Seekport Fz-Llc Method for location identification in web pages and location-based ranking of internet search results
US9946846B2 (en) 2007-08-03 2018-04-17 A-Life Medical, Llc Visualizing the documentation and coding of surgical procedures
US20090182759A1 (en) * 2008-01-11 2009-07-16 Yahoo! Inc. Extracting entities from a web page
US8812362B2 (en) * 2009-02-20 2014-08-19 Yahoo! Inc. Method and system for quantifying user interactions with web advertisements
US8468144B2 (en) * 2010-03-19 2013-06-18 Honeywell International Inc. Methods and apparatus for analyzing information to identify entities of significance
US10541053B2 (en) 2013-09-05 2020-01-21 Optum360, LLCq Automated clinical indicator recognition with natural language processing
US10133727B2 (en) 2013-10-01 2018-11-20 A-Life Medical, Llc Ontologically driven procedure coding
US9317873B2 (en) 2014-03-28 2016-04-19 Google Inc. Automatic verification of advertiser identifier in advertisements
US20150287099A1 (en) * 2014-04-07 2015-10-08 Google Inc. Method to compute the prominence score to phone numbers on web pages and automatically annotate/attach it to ads
US11115529B2 (en) 2014-04-07 2021-09-07 Google Llc System and method for providing and managing third party content with call functionality
US10469424B2 (en) 2016-10-07 2019-11-05 Google Llc Network based data traffic latency reduction
CN109933785B (zh) * 2019-02-03 2023-06-20 北京百度网讯科技有限公司 用于实体关联的方法、装置、设备和介质
CN111723165B (zh) * 2019-03-18 2024-06-11 阿里巴巴集团控股有限公司 地址兴趣点确定方法、装置及系统
DE112020000554T5 (de) * 2019-04-02 2021-10-21 International Business Machines Corporation Verfahren zum zugreifen auf datensätze eines stammdatenverwaltungssystems

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6701307B2 (en) * 1998-10-28 2004-03-02 Microsoft Corporation Method and apparatus of expanding web searching capabilities
US6374241B1 (en) * 1999-03-31 2002-04-16 Verizon Laboratories Inc. Data merging techniques
CA2400161C (en) 2000-02-22 2015-11-24 Metacarta, Inc. Spatially coding and displaying information
US20020156779A1 (en) 2001-09-28 2002-10-24 Elliott Margaret E. Internet search engine
US6965900B2 (en) 2001-12-19 2005-11-15 X-Labs Holdings, Llc Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
JP4005477B2 (ja) 2002-05-15 2007-11-07 日本電信電話株式会社 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2005535039A (ja) 2002-08-05 2005-11-17 メタカータ・インコーポレーテッド 地理的なテキスト検索システムを備えたデスクトップクライアントとの対話
US8037078B2 (en) 2003-03-18 2011-10-11 Nokia Corporation Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
US8346770B2 (en) * 2003-09-22 2013-01-01 Google Inc. Systems and methods for clustering search results
US7349901B2 (en) * 2004-05-21 2008-03-25 Microsoft Corporation Search engine spam detection using external data
US7831438B2 (en) 2004-12-30 2010-11-09 Google Inc. Local item extraction
US9552420B2 (en) * 2005-10-04 2017-01-24 Thomson Reuters Global Resources Feature engineering and user behavior analysis
WO2008074152A1 (en) * 2006-12-20 2008-06-26 Ma, Gary, Manchoir Method of displaying a subjective score with search engine results
US7877385B2 (en) * 2007-09-21 2011-01-25 Microsoft Corporation Information retrieval using query-document pair information

Also Published As

Publication number Publication date
EP2372584A1 (en) 2011-10-05
AU2005322850B2 (en) 2010-02-11
JP2008527502A (ja) 2008-07-24
CN101128819A (zh) 2008-02-20
CA2593378C (en) 2012-06-05
JP2011129154A (ja) 2011-06-30
CN101128819B (zh) 2011-06-22
CA2593378A1 (en) 2006-07-13
AU2005322850C1 (en) 2010-07-15
WO2006074052A1 (en) 2006-07-13
US20110047151A1 (en) 2011-02-24
US7831438B2 (en) 2010-11-09
EP1839211A1 (en) 2007-10-03
KR20070092755A (ko) 2007-09-13
US8433704B2 (en) 2013-04-30
AU2005322850A1 (en) 2006-07-13
KR100974905B1 (ko) 2010-08-09
US20060149565A1 (en) 2006-07-06

Similar Documents

Publication Publication Date Title
JP5226095B2 (ja) ローカル項目抽出
JP4633803B2 (ja) 曖昧な地理的参照の分類
JP5420243B2 (ja) 所望リポジトリの判定
JP4850845B2 (ja) 方法、システムおよびメモリ装置
US8983962B2 (en) Question and answer data editing device, question and answer data editing method and question answer data editing program
KR101412763B1 (ko) 문맥적 입력 방법
JP4708436B2 (ja) 信頼性のある文書の識別
CN100478949C (zh) 具有实体检测的查询改写
US7676745B2 (en) Document segmentation based on visual gaps
US7984000B2 (en) Predicting and using search engine switching behavior
US8346757B1 (en) Determining query terms of little significance
US8271865B1 (en) Detection and utilization of document reading speed
US10140297B2 (en) Supplementing search results with information of interest
US20120089619A1 (en) Systems and methods for determining document freshness
JP5218409B2 (ja) 関連情報検索システム及び関連情報検索方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110317

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130313

R150 Certificate of patent or registration of utility model

Ref document number: 5226095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250