JP5226095B2

JP5226095B2 - ローカル項目抽出

Info

Publication number: JP5226095B2
Application number: JP2011047519A
Authority: JP
Inventors: ライリー，マイケル・デニス
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2004-12-30
Filing date: 2011-03-04
Publication date: 2013-07-03
Anticipated expiration: 2025-12-30
Also published as: EP2372584A1; AU2005322850B2; JP2008527502A; CN101128819A; CA2593378C; JP2011129154A; CN101128819B; CA2593378A1; AU2005322850C1; WO2006074052A1; US20110047151A1; US7831438B2; EP1839211A1; KR20070092755A; US8433704B2; AU2005322850A1; KR100974905B1; US20060149565A1

Description

背景
発明の分野
ここに記述される実現例は、一般的には、ローカル(local）情報検索、より特定的には、住所に関連付けられるビジネス情報の特定に関する。

関連技術の説明
ワールドワイドウェブ（「ウェブ」）は大量の情報を含んでいる。情報のうち所望される部分を見つけることは、しかしながら、困難であり得る。この問題は悪化しており、なぜならば、ウェブ上の情報量、およびウェブ検索において経験のない新規のユーザの数が急速の増大しているからである。

検索システムは、ユーザが興味を持っているウェブページにハイパーリンクを返すことを試みる。一般に、検索システムは、それらの、ユーザの関心についての判断を、ユーザによって入力された検索語（検索クエリと呼ばれる）に基づかせる。検索システムの目的は、検索クエリに基づいて、高品質の、関連性のある結果（たとえばウェブページ）へのリンクを、ユーザに与えることである。典型的には、検索システムは、予め記憶されたウェブページのコーパスに検索クエリ中の語を突合わせることにより、これを達成する。ユーザの検索語を包含しているウェブページは「ヒット」であり、リンクとしてユーザに返される。

ローカル検索システムは、特定の地域内の関連性のあるウェブページおよび／またはビジネスリストを返すことを試みる。ビジネスがウェブページにおいて言及されるとき、既存のローカル検索システムは、そのビジネスを職業別電話帳データと突合わせることにより、対応するビジネスリストを特定してもよい。この技術は、しかしながら、職業別電話帳データが存在しないか、または職業別電話帳データがビジネスに対して不正確であるときには、実行可能ではない。

概要
１つの局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてビジネス情報を見つけるステップと、そのビジネス情報に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアはそのビジネス情報がその住所に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて住所にビジネス情報を関連付けるべきかどうかを判断するステップを含んでもよい。

別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてその住所に先行する語の組を特定するステップと、それらの語の各々がその住所に関連付けられるタイトルの一部である確率を判断するステップとを含んでもよい。この方法は、さらに、住所に関連付けられるタイトルの一部である高い確率を有している語の１つ以上に基づいて候補タイトルを特定するステップと、候補タイトルに信頼度スコアを割当てるステップと、割当てられた信頼度スコアに基づいて住所に候補タイトルを関連付けるべきかどうかを判断するステップとを含んでもよい。

さらに別の局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書において候補電話番号の組を特定するステップと、その候補電話番号の組における各候補電話番号が住所に関連付けられる確率を判断するステップと、判断された確率に基づいて住所に候補番号のうちの１つを関連付けるべきかどうかを判断するステップとを含んでもよい。

さらなる局面によれば、ある方法は、目印を含むウェブページを特定するステップと、そのウェブページにおいて属性を特定するステップと、その属性に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアは、属性が目印に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて属性を目印に関連付けるべきかどうかを判断するステップを含んでもよい。

住所を含む例示的文書の図である。この発明の原理に一致するシステムおよび方法が実現されてもよいネットワークの例示的な図である。この発明の原理に一致するある実現例に従う図２のクライアントサーバの例示的な図である。この発明の原理に一致するある実現例に従うトレーニングシステムの例示的な図である。この発明の原理に一致するある実現例に従う統計的モデルをトレーニングするための例示的処理のフローチャートである。この発明の原理に一致するある実現例に従うローカル項目抽出部の例示的な図である。この発明の原理に一致するある実現例に従って住所に関連付けられる商号（タイトル）を特定するための例示的処理のフローチャートである。この発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。この発明の原理に一致するある実現例に従ってある例示的文書において実行されてもよい処理を例示する図である。

添付の図面は、この明細書において援用され、その一部を構成するものであるが、この発明の実施例を示し、記載とともに、この発明を説明するものである。

詳細な説明
この発明の以下の詳細な説明は、添付図面に言及する。異なる図面における同じ参照番号は同じまたは同様の要素を特定する場合がある。さらに、以下の詳細な説明はこの発明を限定しはしない。

外観
ローカル検索は特定の地域に関連付けられるビジネスリストを特定することを伴う。ウェブは何十億もの文書を含んでおり、それらのうちのいくつかはビジネスに言及しているかもしれない。できるだけ多くの異なるビジネスに関連付けられたビジネス情報を特定することは、ローカル検索システムに有益である。しばしば、職業別電話帳データがビジネスに関連付けられている。しかしながら、時には、ビジネスは、職業別電話帳データがないか、または、職業別電話帳データがおそらくは不正確な文書中で、言及されている。

この発明の原理と一致するシステムおよび方法は、ウェブ文書中で言及される住所に関連付けられるビジネス情報を特定してもよい。１つの実現例では、ビジネス情報は住所に関連付けられたビジネスの名称を含んでいる。別の実現例では、ビジネス情報は、住所に関連付けられた電話番号を含んでいる。さらに別の実現例では、ビジネス情報は、住所に関連付けられたビジネスについての営業時間またはウェブサイトもしくは地図へのリンクのような別の種類の情報を含んでもよい。

図１は住所を含んでいる例示的文書の図である。図示されるように、この文書はPennsylvania（ペンシルベニア州）のOakmont（オークモント）にあるレストランであるVeltri's Pizza（ベルトリズ・ピザ)のレビューに関連付けられている。文書は、それが郵便住所（つまり123 Allegheny Avenue in Oakmont, PA(１２３、アレゲーニー・アベニュー、オークモント、ペンシルベニア州）)を含むことを判断するよう分析されてもよい。ベルトリズは関連付けられた職業別電話帳データを有していないかまたはおそらく不正確な職業別電話帳データを有している、と仮定する。

ここに記載される技術を用いて、文書は、さらに、住所に関連付けられたビジネス情報を判断するよう分析されてもよい。ビジネス情報は住所に関連付けられた商号（ここにおいては「タイトル」とも称される）および／または電話番号を含んでもよい。ビジネス情報は住所に関連付けられるビジネスリストを生成または訂正するよう用いられてもよい。

「文書」という語は、ここで用いられるとおりでは、いかなる機械読取可能なおよび機械記憶可能なワークプロダクト（work product）をも含むよう広く解釈される。文書は、たとえばｅメール、ウェブサイト、ビジネスリスト、ファイル、ファイルの組合せ、他のファイルへの埋込まれたリンクを備えた１つ以上のファイル、ニュースグループポスティング、ブログ、ウェブ広告などを含んでもよい。インターネットの中では、ある一般的な文書はウェブページである。ウェブページはしばしばテキスト情報を含んでおり、埋込まれた情報（メタ情報、画像、ハイパーリンクなど）および／または埋込まれた命令（ジャバスクリプト（Java（登録商標）script）など）を含んでもよい。「リンク」という語は、ここで用いられるとおりでは、ある文書から別の文書または同じ文書内の別の部分への、またはその逆の、いかなる参照をも含めるよう広く解釈される。

例示的ネットワーク構成
図２は、この発明の原理と一致するシステムおよび方法が実現されてもよいネットワーク２００の例示的な図である。ネットワーク２００は、ネットワーク２５０を介して複数のサーバ２２０〜２４０に接続される複数のクライアント２１０を含んでもよい。簡潔性のため、２つのクライアント２１０および３つのサーバ２２０〜２４０がネットワーク２５０に接続されるように図示される。実際には、より多くの、またはより少ないクライアントおよびサーバがあってもよい。さらに、いくつかの例では、あるクライアントはサーバの機能を実行してもよく、あるサーバはクライアントの機能を実行してもよい。

クライアント２１０はクライアントエンティティを含んでもよい。エンティティは、無線電話、パソコン、携帯情報端末（ＰＤＡ）、ラップトップ、もしくは別の種類の計算もしくは通信装置のような装置、これらの装置のうちの１つの上で実行されるスレッドもしくは処理、および／またはこれらの装置のうちの１つによって実行可能なオブジェクトとして規定されてもよい。サーバ２２０〜２４０はこの発明の原理と一致する態様で文書を収集し、処理し、検索し、および／または維持するサーバエンティティを含んでもよい。

この発明の原理と一致するある実現例では、サーバ２２０はクライアント２１０によって使用可能な検索エンジン２２５を含んでもよい。サーバ２２０は、文書（たとえばウェブ文書）のコーパスを巡回し、文書にインデックスを付け、文書に関連付けられる情報を文書のレポジトリに記憶してもよい。サーバ２３０および２４０はサーバ２２０により巡回または分析されてもよい文書を記憶または維持してもよい。

サーバ２２０〜２４０は別々のエンティティとして示されているが、サーバ２２０〜２４０の１つ以上が、サーバ２２０〜２４０のうちの別の１つ以上の、１つ以上の機能を実行することが可能であってもよい。たとえば、サーバ２２０〜２４０のうちの２つ以上が単一のサーバとして実現されることが可能であってもよい。さらに、サーバ２２０〜２４０のうちの１つが２つ以上の別々の（およびおそらくは分散された）装置として実現されることが可能であってもよい。

ネットワーク２５０は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、電話網、たとえば公衆交換電話網（ＰＳＴＮ）、イントラネット、インターネット、記憶装置、またはネットワークの組合せを含んでもよい。クライアント２１０およびサーバ２２０〜２４０は、ネットワーク２５０に、有線、無線、および／または光接続を介して接続してもよい。

例示的クライアント／サーバアーキテクチャ
図３はクライアントまたはサーバエンティティ（以下「クライアント／サーバエンティティ」と称される）の例示的な図であるが、それは、この発明の原理に一致する実現例によれば、１つ以上のクライアント２１０および／またはサーバ２２０〜２４０に対応してもよい。クライアント／サーバエンティティは、バス３１０、プロセッサ３２０、メインメモリ３３０、リードオンリメモリ（ＲＯＭ）３４０、記憶装置３５０、入力装置３６０、出力装置３７０、および通信インターフェイス３０８を含んでもよい。バス３１０はクライアント／サーバエンティティの要素間において通信を可能にする通路を含んでもよい。

プロセッサ３２０は、命令を解釈および実行する従来のプロセッサ、マイクロプロセッサまたは処理論理を含んでもよい。メインメモリ３３０は、プロセッサ３２０による実行のため情報および命令を記憶してもよいランダムアクセスメモリ（ＲＡＭ）または別のタイプの動的記憶装置を含んでもよい。ＲＯＭ３４０はプロセッサ３２０による使用のため静的情報および命令を記憶してもよい従来のＲＯＭ装置または別のタイプの静的記憶装置を含んでもよい。記憶装置３５０は磁気および／または光記録媒体ならびにその対応するドライブを含んでもよい。

入力装置３６０はオペレータが情報をクライアント／サーバエンティティに入力できるような従来の機構、たとえばキーボード、マウス、ペン、音声認識および／またはバイオメトリック機構などを含んでもよい。出力装置３７０は、情報をオペレータに出力する、ディスプレイ、プリンタ、スピーカなどの従来の機構を含んでもよい。通信インターフェイス３８０はクライアント／サーバエンティティが他の装置および／またはシステムと通信することを可能にする任意のトランシーバのような機構を含んでもよい。たとえば、通信インターフェイス３８０は、別の装置またはシステムと、ネットワーク、たとえばネットワーク２５０を介して通信するための機構を含んでもよい。

この発明の原理と一致するクライアント／サーバエンティティは、以下に詳細に記載されるように、ある動作を実行してもよい。クライアント／サーバエンティティは、これらの動作を、プロセッサ３２０がたとえばメモリ３３０のようなコンピュータ読取可能媒体に含まれるソフトウェア命令を実行することに応答して実行してもよい。コンピュータ読取可能媒体は物理もしくは論理メモリ装置および／または搬送波として定義されてもよい。

ソフトウェア命令は、別のコンピュータ読取可能媒体、たとえばデータ記憶装置３５０から、または別の装置から通信インターフェイス３８０を介して、メモリ３３０に読込まれてもよい。メモリ３３０に含まれるソフトウェア命令は、プロセッサ３２０に、後に記載されるような処理を実行させてもよい。代替的に、結線で接続された回路系をソフトウェア命令の代わりにまたはソフトウェア命令との組合せで用いてこの発明の原理に一致する処理を実現してもよい。このように、この発明の原理に一致する実現例はハードウェア回路系およびソフトウェアのいかなる特定の組合せにも限定されるものではない。

例示的なトレーニングシステム
図４はこの発明の原理に一致するある実現例に従うトレーニングシステム４００の例示的な図である。１つの実現例においては、トレーニングシステム４００は、ソフトウェアおよび／またはハードウェアにより、サーバ２２０（図２）、別の装置、またはサーバ２２０とは別途のもしくはサーバ２２０を含む装置の群内において実現されてもよい。

図４に示されるように、トレーニングシステム４００はトレーニングセットに基づいた統計的モデル４２０を発生させるトレーナ４１０を含んでもよい。１つの実現例では、職業別電話帳データが存在する住所を含む文書の組を特定してもよい。一般的には、トレーナ４１０は職業別電話帳データが存在する文書の組においてビジネス情報と共通に関連付けられる特徴を特定して統計的モデル４２０を発生させてもよい。統計的モデル４２０は、職業別電話帳データが存在しないかまたはおそらくは不正確な職業別電話帳データが存在する住所を含む文書内においてビジネス情報がどこに見つかるかもしれないかを予想するよう用いられてもよい。

図５はこの発明の原理に一致するある実現例に従うトレーニング統計的モデル４２０に対する例示的処理のフローチャートである。処理は、文書のコーパスを分析して、職業別電話帳データが存在する住所を含む文書を特定することから始まってもよい（ブロック５１０）。たとえば、文書コーパス内の文書は、それらの文書が住所を含むかどうかを判断するよう分析されてもよい。任意の周知の住所認識技術を用いて文書において住所を認識してよい。

ある文書が、住所を含むとして特定されると、その住所を、職業別電話帳データに対して分析して、職業別電話帳データがその住所と一致するビジネスリストを含むかどうかを判断してもよい。職業別電話帳のビジネスリストから、ビジネス情報、たとえば商号（「タイトル」）および／または電話番号などが特定されてもよい。このビジネス情報は、次いで、文書内において特定されてもよい（ブロック５２０）。たとえば、文書のテキストを分析して、テキストのいずれかがビジネス情報に一致するかどうかを判断してもよい。

テキストのいずれもビジネス情報に一致しないときは、その文書はトレーニングセットから取除かれてもよい。文書のテキストがビジネス情報に一致すると、その住所およびビジネス情報はその文書内にマーキングされてもよく（ブロック５３０）、その文書はトレーニングセットに含まれてもよい。任意の周知のマーキング技術を用いて住所およびビジネス情報を文書においてマーキングしてよい。１つの実現例では、ビジネス情報が住所の付近に生ずる文書のみ（たとえば、住所の左および／または右に対して予め定められた数の語、たとえば２０語または６０語内など）がトレーニングセットに含まれてもよい。別の実現例では、ビジネス情報が文書においてどこでもよいから生ずる文書がトレーニングセットに含まれてもよい。

一旦トレーニングセットが確立されると、それは何百万もの文書を含んでもよいものでであるが、統計的モデルがそのトレーニングセットに基づいて発生されてもよい（ブロック５４０）。たとえば、トレーニングセットにおける文書を分析して、文書が住所を含むときに文書においてビジネス情報をどのように認識するかに関する情報を収集してもよい。それらの特徴は、参照点（たとえば文書における住所）からの候補語の距離、候補語の特性、候補語に関連付けられる境界情報、および／または候補語に関連付けられる句読点情報に関連付けられてもよい。タイトルを判断するのに有用な特定の特徴は電話番号を判断するのに有用な情報と異なっていてもよい。これらの特徴は、さらに、他の種類のビジネス情報を判断することに関し、異なっていてもよい。

候補タイトル語の特性に関する特徴の例は、その語が何であるか、それは数であるかどうか、それは大文字で始まっているか、大文字で書かれているか、太字であるか、斜体字であるか、下線付きであるか、もしくは中央揃えされているか、それはアンカーテキストの一部であるか、およびその長さは文字においてどのようであるか、を含むかもしれない。候補タイトル語に対する境界情報に関する特徴の例は、境界マーキング（たとえばＨＴＭＬタグ）の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補タイトル語と先行するまたは後続の語との間における表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。ある候補タイトル語に対する句読点情報に関する特徴の例は、コンマ、ピリオド、感嘆符、疑問符、コロン、セミコロン、ダッシュ、一重もしくは二重引用符、括弧、またはスペースが候補タイトル語と先行するもしくは後続の語との間にあるかどうかを含むかもしれない。他の特徴は当業者には明らかであろう。

候補電話番号語の特徴に関する特徴の例は、その語が何であるか、その長さは文字においてどのようであるか、およびもし電話がエリアコードを含む場合には、そのエリアコードはその住所がある地域に対して適切に見えるかどうかを含むかもしれない。ある候補電話番号語に対する境界情報に関する特徴の例は、境界マーキング（たとえばＨＴＭＬタグ）の存在に基づくかもしれず、段落、区切り、またはリスト項目マーカがあるかどうか、および候補電話番号語と住所との間において表もしくはリストの始まりもしくは終わりに関するマーカがあるかどうかを含むかもしれない。候補電話番号語と関連性があるいくつかの他の特徴は、一般的な電話番号語（たとえば「電話（call, calling, telephone, telephoning, phone, phoning, tel, tele, (T)）など」）が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語（たとえば「ファックス（fax, faxing, (F)）など」）が候補電話番号語の前のある予め定められた数の語内に現われるかどうか、候補電話番号語と住所との間に別の電話番号があるかどうか、を含むかもしれない。他の特徴は当業者には明らかであろう。

統計的モデルを、ある文書におけるある語と関連付けられる特徴に基づいて用いて、その語がその文書においてある住所と関連付けられるビジネス情報の一部であるかどうかを予想してもよい。換言すると、統計的モデルはある数の異なる手掛かりをトレーニングセットから特定し、それらの手掛かりを用いて、あるタイトルがある文書内においてどこにおいて始まりそして終わりそうか、および／またはどの電話番号がその文書内におけるある住所に対応しそうかを判断してもよい。

例示的なローカル項目抽出部
図６はこの発明の原理に一致するある実現例に従うローカル項目抽出部６００の例示的な図である。１つの実現例においては、ローカル項目抽出部６００は、ソフトウェアおよび／またはハードウェアによって、サーバ２２０（図２）、別の装置、またはサーバ２２０とは別のもしくはサーバ２２０を含む装置の群内において実現されてもよい。

図６に示されるように、ローカル項目抽出部６００は、住所を伴う文書を分析して、統計的モデル４２０に基づいてその住所に関連付けられるビジネス情報を判断してもよい分類部６１０を含んでもよい。分類部６１０によって分析される文書は、対応する職業別電話帳データがない住所を伴う文書、および／またはおそらく不正確な職業別電話帳データが存在する住所を伴う文書を含んでもよい。分類部６１０により実行される機能は、ビジネス情報が商号（タイトル）情報または電話番号情報に対応するかどうかに基づいて異なってもよい。さらに別の機能が、ビジネス情報が商号または電話番号情報以外の情報を含むときに実行されてもよい。

図７はこの発明の原理に一致するある実現例に従って住所に関連付けられる商号（タイトル）を特定するための例示的処理のフローチャートである。処理は、住所を含む文書の特定で始まってもよい（ブロック７１０）。任意の周知の住所認識技術を用いて文書において住所を認識してよい。

住所付近の語を分析してもよく、各語がタイトルの一部である確率を判断してもよい（ブロック７２０および７３０）。１つの実現例では、分析を、文書内における住所の直前の語で始めてもよい。換言すると、タイトルに対する検索を、住所において始めて、文書のテキストを逆方向に見てもよい。その理論は、タイトルが文書において住所に関連して生ずるとき、それはほとんどいつも文書において住所の前に生ずる、というものである。

候補語を分析するとき、先行する語に関する予想が与えられ、および候補語の周りにおいて語のウィンドウが与えられるとして（たとえば左および右のある予め定められた数の語を見て）、統計的モデルに基づいて、候補語がタイトルの一部である確率を判断してもよい。この確率判断は、そのウィンドウにおける候補語および他の語の特徴に基づいてもよい。候補語に関連付けられる特徴は、たとえば、候補語の、住所からの距離、候補語の特性、候補語と先行するもしくは後続の語との間における境界情報、および／または候補語と先行するもしくは後続の語との間における句読点情報を含むかもしれない。

０または１のいずれかであるｔ（ｉ）を、住所の始まりに先行するｉ番目の語がタイトルにおける語である（＝１）かまたはそうでない（＝０）かの予想であるとする。ｘ（ｉ）をｉ番目の語それ自体とし、ｓ（ｉ）をｘ（ｉ）の属性（たとえば距離および特性）とし、ｈ（ｉ）をｘ（ｉ）と後続の（または先行する）語との間の境界情報とし、ｑ（ｉ）をｘ（ｉ）と後続の（または先行する）語との間における句読点情報であるとする。その場合、ｘ（ｉ）がそのコンテキストにおいて条件付けられるタイトルの一部である確率は以下のように表現されてもよい：
Ｆ（ｉ）＝Prob［ｔ（ｉ）given ｘ（ｉ＋２）ｘ（ｉ＋１）ｘ（ｉ）ｘ（ｉ−１）ｘ（ｉ−２），ｓ（ｉ＋２）ｓ（ｉ＋１）ｓ（ｉ）ｓ（ｉ−１）ｓ（ｉ−２），ｈ（ｉ＋１）ｈ（ｉ）ｈ（ｉ−１）ｈ（ｉ−２），ｑ（ｉ＋１）ｑ（ｉ）ｑ（ｉ−１）ｑ（ｉ−２），ｔ（ｉ−１）］
式中、ｘ（ｉ＋２）ｘ（ｉ＋１）ｘ（ｉ）ｘ（ｉ−１）ｘ（ｉ−２）はｘ（ｉ）の付近の語のウィンドウを指してもよく（語のウィンドウはｘ（ｉ）の左に対し２つおよび右に対し２つとして示されているが、ウィンドウはこの発明の原理に一致する他の実現例においてはより大きくてもまたはより小さくてもよい）、ｓ（ｉ＋２）ｓ（ｉ＋１）ｓ（ｉ）ｓ（ｉ−１）ｓ（ｉ−２）はウィンドウにおける語の属性を示してもよく、ｈ（ｉ＋１）ｈ（ｉ）ｈ（ｉ−１）ｈ（ｉ−２）はウィンドウにおける語の間の境界情報を示してもよく、ｑ（ｉ＋１）ｑ（ｉ）ｑ（ｉ−１）ｑ（ｉ−２）はウィンドウにおける語の間の句読点情報を示してもよく、ｔ（ｉ−１）はｘ（ｉ）に先行する語（つまりｘ（ｉ−１））に関する予想を示してもよい。

Ｘ＝ｘ（ｎ）ｘ（ｎ−１）...ｘ（２）ｘ（１）とし、ここで、ｎは考慮されるテキストストリングのサイズ（たとえば２０語）を示し、Ｓ＝ｓ（ｎ）ｓ（ｎ−１）...ｓ（２）ｓ（１）、Ｈ＝ｈ（ｎ−１）...ｈ（２）ｈ（１）、Ｑ＝ｑ（ｎ−１）...ｑ（２）ｑ（１）およびＴ＝ｔ（ｎ）ｔ（ｎ−１）...ｔ（２）ｔ（１）とする。全ストリングの確率は、この場合、Prob（Ｔ given Ｘ，Ｓ，Ｈ，Ｑ）から判断されてもよい。条件付き確率の定義およびマルコフのような仮定（つまりローカルなコンテキスト事項のみ）に基づいて、このストリングの確率は次のように表現されてもよい：
Prob（Ｔ given Ｘ，Ｓ，Ｈ，Ｑ）＝ｋＦ（ｎ）Ｆ（ｎ−１）...Ｆ（２）Ｆ（１）
式中、ｋはこのコンテキストに対する定数であり、この等式の右側においてＦ（ｉ）においてｔ（ｉ）およびｔ（ｉ−１）はこの等式の左側においてＴにあるものと一致する。

Ｔは、次いで、Ｔにおけるすべての１は隣接しているという制約の対象となるProb（Ｔgiven Ｘ，Ｓ，Ｈ，Ｑ）を最大にするよう選択されてもよい。そのようにするために、徹底的な検索をすべての２ⁿＴにわたって実行し、Prob（Ｔ given Ｘ，Ｓ，Ｈ，Ｑ）を各Ｔごとに評価してもよい。まさにベストのタイトルを得るために、周知の、単一ソースの、最短経路アルゴリズムを用いてもよい。ｊ個のベストのタイトルを得るために、周知のｊベストアルゴリズムを用いてもよい。

信頼度スコアを、特定される各候補タイトルに割当ててもよい（ブロック７４０）。この信頼度スコアはそのタイトルに関連付けられる確率（たとえばProb（Ｔ given Ｘ，Ｓ，Ｈ，Ｑ））に関係していてもよい。選択肢として、住所に対するベストのタイトルを候補タイトルの組から判断してもよい（ブロック７５０）。１つの実現例では、住所に対するベストのタイトルは最も高い信頼度スコアを伴う候補タイトルとして特定されてもよい。別の実現例では、住所が文書の群に現われると、その住所に対するベストのタイトルを、文書の群にわたって最も高い信頼度スコアを伴う候補タイトル、または文書の群において最も多くの文書に現われる最も高い信頼度スコアを伴う候補タイトルとして特定してもよい。

タイトルは次いで住所と関連付けられてビジネスリストを形成するかまたは補足してもよい。住所はその関連付けられたタイトルとともにメモリに記憶されてもよい。

図８はこの発明の原理に一致するある実現例に従って住所に関連付けられる電話番号を特定するための例示的処理のフローチャートである。処理は住所を含む文書の特定で始まってもよい（ブロック８１０）。任意の周知の住所認識技術を用いて文書において住所を認識してよい。

文書における候補電話番号の組を特定してもよい（ブロック８２０）。１つの実現例では、文書におけるすべての電話番号を候補電話番号として特定してもよい。別の実現例では、住所のある距離内における電話番号を特定してもよい。任意の周知のパターンマッチング技術を用いて候補電話番号の組を特定してよい。

先行する候補電話番号に関する予想が与えられ、候補電話番号の付近において語のウィンドウが与えられるとして（たとえば左および右のある予め定められた数の語を見て）、候補電話番号の各々が住所に関連付けられる確率を、統計的モデルに基づいて判断してもよい（ブロック８３０）。この確率判断は、さらに、候補電話番号に関連付けられる特徴に基づいてもよい。特徴は、上記において説明されるように、候補電話番号の、住所からの距離、候補電話番号の特性、候補電話番号と住所との間における境界情報、および／または候補電話番号と住所との間における句読点情報を含むかもしれない。この確率は上記においてタイトルに関し記載された態様と同様の態様で判断されてもよく、そこにおいて、ｘ（ｉ）は、この場合においては、候補電話番号を示す。

信頼度スコアを、候補電話番号に対し、それらの判断された確率に基づいて割当ててもよい（ブロック８４０）。選択肢として、住所に対するベストの電話番号を判断してもよい（ブロック８５０）。１つの実現例では、住所に対するベストの電話番号は、最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。別の実現例では、住所が文書の群の中に現われる場合には、住所に対するベストの電話番号は、文書の群にわたって最も高い信頼度スコアを伴う候補電話番号として、または文書の群において最も多くの文書中に現われる最も高い信頼度スコアを伴う候補電話番号として特定されてもよい。

電話番号は、次いで、住所と関連付けられて、ビジネスリストを形成または補足してもよい。住所と、その関連付けられた電話番号は、ともに、メモリに記憶されてもよい。

例
図９〜図１５はこの発明の原理に一致するある実現例に従って例示的な文書において実行されてもよい処理を示す図である。図９に示されるように、この文書はWashington, DC（ワシントンＤＣ）にあるMorton's（モートンの）レストランのレビューに関連付けられるウェブページである。このウェブページに対し、周知の住所認識技術を用いて分析を行なって、このウェブページに郵便住所が含まれることを判断してもよい。図１０に示されるように、住所は、123 Connecticut Avenue, Washington, DC 20200（１２３コネチカット・アベニュー、ワシントン、ＤＣ２０２００）に対応している。Morton'sは、関連付けられる職業別電話帳データを全く持たないか、またはおそらく不正確な職業別電話帳データを有している、と仮定する。

住所に関連付けられる商号（タイトル）を特定しようと試みる際、検索を、その住所の直前の語で始めて、逆向きに進んでもよい。この場合では、検索は、図１１に示されるように、「at（〜の）」という語で始まってもよい。候補語「at」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。

この確率は、Ｆ（at）＝Prob［t（at）given“visited Morton's at １２３ Connecticut,”s（visited）s（Morton's）s（at）s（１２３）s（Connecticut），h（Morton's）h（at）h（１２３）h（Connecticut），q（Morton's）q（at）q（１２３）q（Connecticut），０］として表現されてもよく、そこにおいて、たとえば、s（at）は「at」という語の属性を示してもよく、h（at）は「at」という語とそれに続く語「Morton's」との間における境界情報を示してもよく、q（at）は「at」という語とそれに続く語「Morton's」という語との間における句読点情報を示してもよく、「０」は前の語に関する予想を示し、それはこの場合においては住所の一部に対応する。この単純な例は、候補語の左および右に２つの語のウィンドウを仮定するが、このウィンドウは実際にはより大きくてもまたはより小さくてもよい。

候補語「at」に関連付けられる属性は、「at」という語の、住所からの距離を含むかもしれない。この場合においては、「at」という語は住所の直前になる。属性は、さらに、「at」という語の特性を含むかもしれない。この場合においては、語は「at」であり；それは数ではなく；それは大文字で始まってもいなければ、大文字でもなければ、太字でもなければ、斜体字でもなければ、下線を付けられてもいなければ、中央揃えされてもおらず；それはアンカーテキストの一部ではなく；それは長さにおいて２つの文字である。境界情報に対しては、「at」という語の左（または右）には境界マーカはないと仮定する。さらに、「at」という語の左（または右）には句読点もない。この確率判断は、「at」という語はタイトルの一部ではない（たとえばt（at）＝０）という予想をもたらす結果となる。

検索は、図１２に示されるように、「Morton's」という語で続いてもよい。「Morton's」という候補語が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。

この確率はＰ（Morton's）＝Prob［t（Morton's）given“recently visited Morton's at １２３，”s（recently）s（visited）s（Morton's）s（at）s（１２３），h（visited）h（Morton's）h（at）h（１２３），q（visited）q（Morton's）q（at）q（１２３），０］として表現されてもよい。「Morton's」という語に関連付けられる属性は、「Morton's」という語の、住所からの距離を含むかもしれない。この場合においては、「Morton's」という語は住所から１語離れている。属性は、さらに、「Morton's」という語の特性を含むかもしれない。この場合においては、語は「Morton's」であり；、それは数ではなく；それは最初の文字が大文字であり；それは大文字ではなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず；それはアンカーテキストの一部ではなく；それは長さが８文字である。境界情報に対しては、「Morton's」という語の左（または右）には境界マーカはないと仮定する。さらに、「Morton's」という語の左（または右）には句読点はない。この確率判断は、「Morton's」という語はタイトルの一部である（たとえばt（Morton's）＝１）という予想をもたらす結果となる。

検索は、図１３に示されるように、「visited（訪ねた）」という語で続いてもよい。候補語「visited」が、その候補語の付近に語のウィンドウが与えられ、そのウィンドウにおけるそれらの語に関連付けられる特徴が与えられ、先の語に関連付けられる予想が与えられるとして、タイトルの一部である確率はどのようであるかを判断してもよい。

この確率はＰ（visited）＝Prob［t（visited）given“I recently visited Morton's at，”s（Ｉ）s（recently）s（visited）s（Morton's）s（at），h（recently）h（visited）h（Morton's）h（at），q（recently）q（visited）q（Morton's）q（at），１］として表現されてもよい。「visited」という語に関連付けられる属性は、「visited」という語の、住所からの距離を含むかもしれない。この場合においては、「visited」という語は住所から２語離れている。属性は、さらに、「visited」という語の特性を含むかもしれない。この場合においては、語は「visited」であり；それは数ではなく；それは大文字で始まってはおらず、大文字でもなく、太字でもなく、斜体字でもなく、下線を付けられてもおらず、中央揃えされてもおらず；それはアンカーテキストの一部ではなく；それは長さが７文字である。境界情報に対しては、「visited」という語の左（または右）には境界マーカはないと仮定する。さらに、「visited」という語の左（または右）には句読点はない。この確率判断は、「visited」という語はタイトルの一部ではない（（t（visited）＝０）という予想をもたらす結果となる。

（ウェブページにおけるなんらかの語の組またはウェブページにおける語のすべてに関し）候補語の各々がタイトルの一部であるかどうか予想がなされると、スライドする語のストリングを考慮して、その語がタイトルを含む確率を最大にするストリングを特定してもよい。この処理は「Morton's」という語を住所に対する候補タイトルとして特定すると仮定する。ある信頼度スコアを、上記のように、候補タイトルに割当ててもよい。

住所に関連付けられる電話番号を特定しようと試みる際、検索は、図１４に示されるように、周知のパターンマッチング技術を用いて、ウェブページにおける電話番号のすべてを特定することにより、開始してもよい。この場合においては、２つの候補電話番号、つまり２０２−９８７−６５４３および２０２−９８７−６５４２が特定された。

候補電話番号の各々が、その候補電話番号の付近に語のウィンドウが与えられ、候補電話番号に関連付けられる特徴が与えられ、先の電話番号に関連付けられる予想が与えられるとして、その住所に対する電話番号である確率はどのようであるかを判断してもよい。候補電話番号に関連付けられる特徴は、電話番号の、住所からの距離を含むかもしれない。この場合においては、双方の候補電話番号は住所から約１５０語分離れている。特徴は、さらに、境界情報が電話番号と住所との間に存在するかどうかを含むかもしれない。この場合においては、２つの段落境界が候補電話番号と住所との間に存在する。

電話番号に関連性がある他の特徴は、一般的な電話番号語（たとえば「電話（call, calling, telephone, telephoning, phone, phoning, tel, tele, (T)）など」）が電話番号語の前のある予め定められた数の語内に現われるかどうか、一般的なファクシミリ番号語（たとえば「ファックス（fax, faxing, (F)）など」）が電話番号語の前のある予め定められた数の語内に現われるかどうか、それと住所との間に別の電話番号があるかどうか、を含む。この場合においては、確率判断は、２０２−９８７−６５４３という電話番号候補は２０２−９８７−６５４２という電話番号候補よりも住所に合っている電話番号でありそうであるという予想をもたらす結果となってもよい。

候補電話番号は、それらの、住所に関連付けられる確率に基づいて、信頼度スコアを割当てられてもよい。

住所に関連付けられるビジネスリストは、図１５に示されるように、最も高い信頼度スコアを伴うタイトルおよび／または電話番号から情報を伴って形成または補足されてもよい。ビジネスリストはビジネスに関連付けられる文書へのリンク、ビジネスに対する住所情報、ビジネスに関する電話番号、ビジネスに言及する文書からの抜粋、および／またはビジネスに言及する文書への１つ以上のリンクを含んでもよい。

結論
この発明の原理に一致するシステムおよび方法は、文書においてなんらかの目印（たとえば、郵便住所）を与えられるとして、目印の属性（たとえばビジネス情報、たとえば商号、電話番号、営業時間、またはウェブサイトもしくはマップへのリンク）をその文書において見つけるよう試みる。先の記載は文書において住所に関連付けられるビジネス情報を見つけることに焦点を置いたが、これは必ずしもそうである必要はない。他の実現例では、上記の処理は他の目印および属性に当てはまってもよく、たとえば、製品（目印）に関連付けられる価格（属性）または製品識別番号（属性）を見つけ出してもよい。文書に現われてもよい他の種類の目印および属性は当業者には明らかであろう。

この発明の好ましい実施例の、前述の記載は、説明および記載を与えてはいるが、排他的であったり、またはこの発明を開示される形式そのものに限定するよう意図されるものではない。修正および変形が、上記の教示に照らして可能であり、またはこの発明の実施から得られてもよい。

たとえば、一連の動作が図５、図７および図８を参照して記載されているが、これら動作の順序はこの発明の原理に従う他の実現例においては修正されてもよい。さらに、非依存性の動作を平行して実行してもよい。

さらに、候補語が住所に関連付けられるビジネス情報の一部である確率は、特徴、たとえばその語の付近の語からなるウィンドウ、先の語に関する予想、ならびにそのウィンドウにおける１つ以上の語に関連付けられる属性、境界情報および句読点などに基づくと記載されたが、別の実現例では、より多くの、より少ない、または異なる特徴を用いて、候補語が住所に関連付けられるビジネス情報の一部であるかどうかを予想してもよい。

当業者には、上記のような、この発明の局面は、図に示される実現例において数多くの異なる形式のソフトウェア、ファームウェアおよびハードウェアにおいて実現されてもよいことは明らかである。この発明の原理に一致する局面を実現するよう用いられる実際のソフトウェアコードまたは専門化された制御ハードウェアはこの発明の限定ではない。このように、それら局面の動作およびふるまいは具体的なソフトウェアコードに対する言及なく記載され−−当業者であればここにおける記載に基づいてそれらの局面を実現するようソフトウェアおよび制御ハードウェアを設計することが可能であろうことが理解される。

本願において用いられるいかなる要素、行為または命令も、この発明にとって重要または本質的であるとして明記されるのでなければ、そのように解釈されるべきではない。さらに、ここで用いられるとおりでは、「a（ある〜）」という冠詞は１つ以上のものを含むよう意図される。たった１つのものを意図する場合には、「１つの」または同様の文言が用いられている。さらに、「〜に基づく」という表現は、特段の明記がなければ、「少なくとも一部は〜に基づく」を意味するよう意図される。

Claims

１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサにより実現される方法であって、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、地理的な住所を含む文書を特定するステップと、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記文書において、前記地理的な住所に先行するかまたは後続の複数の語から、候補ビジネス情報を見つけ出すステップと、
前記候補ビジネス情報が前記地理的な住所に関連付けられる確率を判断するステップとを含み、前記候補ビジネス情報が前記地理的な住所に関連付けられる確率は、既知の地理的な住所および関連付けられたビジネス情報を伴う複数の文書のビジネス情報におけるある特徴の発生に基づく、前記複数の語の前記特徴の分析から判断され、前記方法はさらに、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記候補ビジネス情報に、前記候補ビジネス情報が前記地理的な住所に関連付けられる確率に関する信頼度スコアを割当てるステップと、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記割当てられた信頼度スコアに基づいて前記候補ビジネス情報は前記地理的な住所に関連付けられると判断するステップと、
前記候補ビジネス情報を前記地理的な住所に関連付けてメモリに記憶するステップとを含む、方法。
前記候補ビジネス情報はタイトルであり、前記候補ビジネス情報を見つけ出すステップは、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記文書における前記地理的な住所に先行する複数の語を、前記候補ビジネス情報として特定するステップを含む、請求項１に記載の方法。
前記候補ビジネス情報が前記地理的な住所に関連付けられる前記確率を判断するステップは、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記複数の語のうちのある語が前記タイトルの一部である確率を計算するステップを含む、請求項２に記載の方法。
前記ある語が前記タイトルの一部である前記確率を計算するステップは、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記ある語に先行するかまたは後続の語の数を判断するステップを含む、請求項３に記載の方法。
前記ある語が前記タイトルの一部である前記確率を計算するステップは、
前記複数の語のうちの第２の語が前記タイトルの一部である確率を計算するステップと、
前記第２の語が前記タイトルの一部である前記確率を用いて、前記ある語が前記タイトルの一部である前記確率を計算するステップとを含む、請求項３に記載の方法。
前記ある語が前記タイトルの一部である前記確率を計算するステップは、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記ある語に関連付けられる特徴の組を分析するステップを含む、請求項３に記載の方法。
前記特徴の組は、
前記ある語の前記地理的な住所からの距離に関する情報と、
前記ある語の特性に関する情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間の境界に関連付けられる情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における句読点情報に関する情報とのうちの少なくとも１つを含む、請求項６に記載の方法。
前記ある語の特性に関する前記情報は、
前記ある語が数であるかどうかに関する情報と、
前記ある語が大文字にされているかどうかに関する情報と、
前記ある語が太字にされているかどうかに関する情報と、
前記ある語が斜体字にされているかどうかに関する情報と、
前記ある語が下線を引かれているかどうかに関する情報と、
前記ある語がアンカーテキストの一部であるかどうかに関する情報と、
前記ある語における文字の数に関する情報とのうちの１つ以上を含む、請求項６に記載の方法。
前記境界に関連付けられる前記情報は、
ＨＴＭＬタグの存在に関する情報と、
改行の存在に関する情報と、
リスト項目マーカの存在に関する情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における表またはリストの始めまたは終わりに関するマーカの存在に関する情報とのうちの少なくとも１つを含む、請求項６に記載の方法。
前記複数の語のうちの１つが前記タイトルの一部である確率は、前記特徴の組のうち、公知の地理的な住所および関連付けられるタイトルを伴う複数の文書における地理的な住所に関連付けられるタイトルにおける前記ある語に関連付けられる特徴の発生を分析することにより生成される統計的モデルから判断される、請求項６に記載の方法。
前記候補ビジネス情報は電話番号に対応し；
前記文書において前記候補ビジネス情報を見つけ出すステップは：
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記文書において候補電話番号の組を特定するステップと、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記候補電話番号の組における各候補電話番号が前記地理的な住所に関連付けられる確率を計算するステップとを含む、請求項１に記載の方法。
前記候補電話番号の組のうちのある候補電話番号が前記地理的な住所に関連付けられる確率を計算するステップは、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記ある候補電話番号に関連付けられる特徴を分析するステップを含む、請求項１１に記載の方法。
前記特徴は、
前記文書内における、前記ある候補電話番号の前記地理的な住所からの距離に関する情報と、
前記ある候補電話番号と前記地理的な住所との間における境界情報と、
第２の電話番号が前記ある候補電話番号の前に現れるかどうかに関する情報と、
ファクシミリ番号が前記ある候補電話番号の前に現れるかどうかに関する情報と、
第２の候補電話番号が前記ある候補電話番号と前記地理的な住所との間に存在するかどうかに関する情報とのうちの少なくとも１つを含む、請求項１２に記載の方法。
前記ある候補電話番号が前記地理的な住所に関連付けられる前記確率は、前記ある候補電話番号に関連付けられる、公知の地理的な住所および関連付けられる電話番号を伴う複数の文書における前記特徴の発生を分析することにより生成される統計的モデルから判断される、請求項１２に記載の方法。
少なくとも１つのプロセッサと、
メモリとを含み、前記メモリは、前記少なくとも１つのプロセッサによって実行されると前記少なくとも１つのプロセッサに、
地理的な住所を含む文書を特定させ、
前記文書において前記地理的な住所に先行するかまたは後続の複数の語からビジネス情報を特定させ、
前記ビジネス情報が前記地理的な住所に関連付けられる確率を計算させ、前記確率は、公知の地理的な住所および関連付けられるビジネス情報を伴う複数の文書のビジネス情報におけるある特徴の発生に基づく、前記複数の語の前記ある特徴の分析から生成される統計的モデルから判断され、さらに、
前記ビジネス情報が前記確率に基づいて前記地理的な住所に関連付けられると判断させ、
前記ビジネス情報を前記地理的な住所に関連付けて前記メモリに記憶させる命令を記憶する、システム。
前記ビジネス情報はタイトルであり、ビジネス情報を前記文書において特定する際、前記少なくとも１つのプロセッサは、さらに、前記ビジネス情報として、前記文書において前記地理的な住所に先行する複数の語を特定する、請求項１５に記載のシステム。
前記ビジネス情報が前記地理的な住所に関連付けられる前記確率を計算する際、前記少なくとも１つのプロセッサは、さらに、前記複数の語のうちのある語が前記タイトルの一部である確率を計算する、請求項１６に記載のシステム。
前記ある語が前記タイトルの一部である前記確率を計算する際、前記少なくとも１つのプロセッサは、さらに、前記ある語に先行するかまたは後続の語の数を判断する、請求項１６に記載のシステム。
前記ある語が前記タイトルの一部である前記確率は、さらに、前記ある語に関連付けられる特徴の組に基づく、請求項１６に記載のシステム。
前記特徴の組は、
前記ある語の前記地理的な住所からの距離に関する情報と、
前記ある語の特性に関する情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間の境界に関連付けられる情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における句読点情報に関する情報とのうちの少なくとも１つを含む、請求項１９に記載のシステム。
前記ある語の特性に関する前記情報は、
前記ある語が数であるかどうかに関する情報と、
前記ある語が大文字にされているかどうかに関する情報と、
前記ある語が太字にされているかどうかに関する情報と、
前記ある語が斜体字にされているかどうかに関する情報と、
前記ある語が下線を引かれているかどうかに関する情報と、
前記ある語がアンカーテキストの一部であるかどうかに関する情報と、
前記ある語における文字の数に関する情報とのうちの１つ以上を含む、請求項２０に記載のシステム。
前記境界に関連付けられる前記情報は、
ＨＴＭＬタグの存在に関する情報と、
改行の存在に関する情報と、
リスト項目マーカの存在に関する情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における表またはリストの始めまたは終わりに関するマーカの存在に関する情報とのうちの少なくとも１つを含む、請求項２０に記載のシステム。
前記ビジネス情報は電話番号であり、前記ビジネス情報を前記文書において特定する際、前記少なくとも１つのプロセッサは、さらに、
前記文書において候補電話番号の組を特定し、
前記候補電話番号の組における各候補電話番号が、前記候補電話番号の組のうちの各候補電話番号に近い語の数に関連付けられる確率に基づいて、前記地理的な住所に関連付けられる確率を計算する、請求項１５に記載のシステム。
前記候補電話番号の組のうちのある候補電話番号が前記地理的な住所に関連付けられる確率は、前記ある候補電話番号に関連付けられる特徴の組に基づく、請求項２３に記載のシステム。
前記特徴の組は、
前記ある候補電話番号の前記住所からの距離に関する情報と、
前記ある候補電話番号と前記地理的な住所との間における境界情報と、
一般的な電話番号語が前記ある候補電話番号の前に現れるかどうかに関する情報と、
一般的なファクシミリ番号語が前記ある候補電話番号の前に現れるかどうかに関する情報と、
第２の候補電話番号が前記ある候補電話番号と前記地理的な住所との間に存在するかどうかに関する情報とのうちの少なくとも１つを含む、請求項２４に記載のシステム。
１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサにより実施される方法であって、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、地理的な住所を含む文書を特定するステップと、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記文書における前記地理的な住所に先行する複数の語を特定するステップと、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記複数の語の各々が前記地理的な住所に関連付けられるタイトルの一部である確率を計算するステップとを含み、前記複数の語の各々が前記タイトルの一部である前記確率は、公知の地理的な住所および関連のタイトルを伴う複数の文書のタイトルにおける特徴の発生に基づいて、前記複数の語のその特徴から計算され、前記方法はさらに、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記地理的な住所に関連付けられるタイトルの一部である確率を有する前記複数の語のうちの１つ以上に基づいて候補タイトルを判断するステップと、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記タイトルにおける前記複数の語の各々が前記タイトルの一部である確率に基づいて、前記候補タイトルに対する信頼度スコアを判断するステップと、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記信頼度スコアに基づき、前記候補タイトルを前記地理的な住所に関連付けるかどうかを判断するステップとを含む、方法。
１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサにより実施される方法であって、
地理的な住所を含む文書を特定するステップと、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記文書において候補電話番号の組を特定するステップと、
前記候補電話番号の組における各候補電話番号が前記地理的な住所に関連付けられる確率を計算するステップとを含み、ある候補電話番号が前記住所に関連付けられる確率は、当該候補電話番号のある特徴から、公知の地理的な住所および関連付けられる電話番号を伴う複数の文書の電話番号における当該特徴の発生に基づいて計算され、前記方法はさらに、
前記１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサを用いて、前記候補電話番号の１つが前記判断された確率に基づいて前記地理的な住所に関連付けられると判断するステップと、
前記候補電話番号のうち選択された電話番号を前記住所と関連付けてメモリに記憶するステップとを含む、方法。
１つ以上のサーバ装置に関連付けられた１つ以上のプロセッサにより実施され、商号を、文書において見出される地理的な住所に関連付けるための方法であって、
前記文書において前記地理的な住所を特定するステップと、
前記特定された地理的な住所に先行するかまたは後続の複数の語から、候補商号の組または候補電話番号の組を判断するステップと、
前記候補商号の組において各候補商号に対する信頼度を判断するか、または前記候補電話番号の組において各候補電話番号に対し信頼度を判断するステップとを含み、前記信頼度は、ある候補商号が前記住所に関連付けられるビジネスの名称である確率を反映し、または、前記信頼度は、ある候補電話番号が前記特定された地理的な住所に関連付けられる前記ビジネスの電話番号である確率を反映し、前記方法はさらに、
ある信頼度を有する候補商号または候補電話番号を、前記特定された地理的な住所と共に、メモリに記憶するステップを含む、方法。
前記候補商号または前記候補電話番号の前記信頼度を判断するステップは、
前記候補商号または前記候補電話番号の特徴を特定するステップと、
前記特定された特徴を用いて、前記候補商号が前記ビジネスの名称である確率を判断するか、または前記候補電話番号が前記ビジネスの電話番号である確率を判断するステップとを含み、前記確率は、公知の商号または電話番号および公知の地理的な住所を有する文書のコーパスにおいて見出される商号または電話番号に前記特徴が生ずる尤度から判断される、請求項２８に記載の方法。
前記特徴は、前記候補商号におけるある語の、前記特定された地理的な住所からの距離であるか、または前記候補電話番号の、前記特定された地理的な住所からの距離である、請求項２９に記載の方法。
前記特徴は、前記候補商号または前記候補電話番号におけるある語のフォントの属性である、請求項２９に記載の方法。
前記フォントの前記属性は、前記ある語の表現における、大文字の使用、斜体字の使用、太字の使用、下線の使用、および中央寄せの使用の１つ以上を含む、請求項２９に記載の方法。
前記特徴は、前記候補商号または前記候補電話番号の文字長である、請求項２９に記載の方法。
前記特徴は、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるコンマと、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるピリオドと、
前記候補商号におけるある語と先行するかまたは後続の語との間における感嘆符と、
前記候補商号におけるある語と先行するかまたは後続の語との間における疑問符と、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるコロン記号と、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるセミコロン記号と、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるダッシュ記号と、
前記候補商号におけるある語と先行するかまたは後続の語との間における一重または二重引用符と、
前記候補商号におけるある語と先行するかまたは後続の語との間における括弧と、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるスペースとのうちの１つ以上である、請求項２９に記載の方法。