JP5226095B2 - ローカル項目抽出 - Google Patents
ローカル項目抽出 Download PDFInfo
- Publication number
- JP5226095B2 JP5226095B2 JP2011047519A JP2011047519A JP5226095B2 JP 5226095 B2 JP5226095 B2 JP 5226095B2 JP 2011047519 A JP2011047519 A JP 2011047519A JP 2011047519 A JP2011047519 A JP 2011047519A JP 5226095 B2 JP5226095 B2 JP 5226095B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- candidate
- information
- probability
- address
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
発明の分野
ここに記述される実現例は、一般的には、ローカル(local)情報検索、より特定的には、住所に関連付けられるビジネス情報の特定に関する。
ワールドワイドウェブ(「ウェブ」)は大量の情報を含んでいる。情報のうち所望される部分を見つけることは、しかしながら、困難であり得る。この問題は悪化しており、なぜならば、ウェブ上の情報量、およびウェブ検索において経験のない新規のユーザの数が急速の増大しているからである。
1つの局面によれば、ある方法は、住所を含む文書を特定するステップと、その文書においてビジネス情報を見つけるステップと、そのビジネス情報に信頼度スコアを割当てるステップとを含んでもよく、信頼度スコアはそのビジネス情報がその住所に関連付けられる確率に関してもよい。この方法は、さらに、割当てられた信頼度スコアに基づいて住所にビジネス情報を関連付けるべきかどうかを判断するステップを含んでもよい。
この発明の以下の詳細な説明は、添付図面に言及する。異なる図面における同じ参照番号は同じまたは同様の要素を特定する場合がある。さらに、以下の詳細な説明はこの発明を限定しはしない。
ローカル検索は特定の地域に関連付けられるビジネスリストを特定することを伴う。ウェブは何十億もの文書を含んでおり、それらのうちのいくつかはビジネスに言及しているかもしれない。できるだけ多くの異なるビジネスに関連付けられたビジネス情報を特定することは、ローカル検索システムに有益である。しばしば、職業別電話帳データがビジネスに関連付けられている。しかしながら、時には、ビジネスは、職業別電話帳データがないか、または、職業別電話帳データがおそらくは不正確な文書中で、言及されている。
図2は、この発明の原理と一致するシステムおよび方法が実現されてもよいネットワーク200の例示的な図である。ネットワーク200は、ネットワーク250を介して複数のサーバ220〜240に接続される複数のクライアント210を含んでもよい。簡潔性のため、2つのクライアント210および3つのサーバ220〜240がネットワーク250に接続されるように図示される。実際には、より多くの、またはより少ないクライアントおよびサーバがあってもよい。さらに、いくつかの例では、あるクライアントはサーバの機能を実行してもよく、あるサーバはクライアントの機能を実行してもよい。
図3はクライアントまたはサーバエンティティ(以下「クライアント/サーバエンティティ」と称される)の例示的な図であるが、それは、この発明の原理に一致する実現例によれば、1つ以上のクライアント210および/またはサーバ220〜240に対応してもよい。クライアント/サーバエンティティは、バス310、プロセッサ320、メインメモリ330、リードオンリメモリ(ROM)340、記憶装置350、入力装置360、出力装置370、および通信インターフェイス308を含んでもよい。バス310はクライアント/サーバエンティティの要素間において通信を可能にする通路を含んでもよい。
図4はこの発明の原理に一致するある実現例に従うトレーニングシステム400の例示的な図である。1つの実現例においては、トレーニングシステム400は、ソフトウェアおよび/またはハードウェアにより、サーバ220(図2)、別の装置、またはサーバ220とは別途のもしくはサーバ220を含む装置の群内において実現されてもよい。
図6はこの発明の原理に一致するある実現例に従うローカル項目抽出部600の例示的な図である。1つの実現例においては、ローカル項目抽出部600は、ソフトウェアおよび/またはハードウェアによって、サーバ220(図2)、別の装置、またはサーバ220とは別のもしくはサーバ220を含む装置の群内において実現されてもよい。
F(i)=Prob[t(i)given x(i+2)x(i+1)x(i)x(i−1)x(i−2),s(i+2)s(i+1)s(i)s(i−1)s(i−2),h(i+1)h(i)h(i−1)h(i−2),q(i+1)q(i)q(i−1)q(i−2),t(i−1)]
式中、x(i+2)x(i+1)x(i)x(i−1)x(i−2)はx(i)の付近の語のウィンドウを指してもよく(語のウィンドウはx(i)の左に対し2つおよび右に対し2つとして示されているが、ウィンドウはこの発明の原理に一致する他の実現例においてはより大きくてもまたはより小さくてもよい)、s(i+2)s(i+1)s(i)s(i−1)s(i−2)はウィンドウにおける語の属性を示してもよく、h(i+1)h(i)h(i−1)h(i−2)はウィンドウにおける語の間の境界情報を示してもよく、q(i+1)q(i)q(i−1)q(i−2)はウィンドウにおける語の間の句読点情報を示してもよく、t(i−1)はx(i)に先行する語(つまりx(i−1))に関する予想を示してもよい。
Prob(T given X,S,H,Q)=kF(n)F(n−1)...F(2)F(1)
式中、kはこのコンテキストに対する定数であり、この等式の右側においてF(i)においてt(i)およびt(i−1)はこの等式の左側においてTにあるものと一致する。
図9〜図15はこの発明の原理に一致するある実現例に従って例示的な文書において実行されてもよい処理を示す図である。図9に示されるように、この文書はWashington, DC(ワシントンDC)にあるMorton's(モートンの)レストランのレビューに関連付けられるウェブページである。このウェブページに対し、周知の住所認識技術を用いて分析を行なって、このウェブページに郵便住所が含まれることを判断してもよい。図10に示されるように、住所は、123 Connecticut Avenue, Washington, DC 20200(123 コネチカット・アベニュー、ワシントン、DC 20200)に対応している。Morton'sは、関連付けられる職業別電話帳データを全く持たないか、またはおそらく不正確な職業別電話帳データを有している、と仮定する。
この発明の原理に一致するシステムおよび方法は、文書においてなんらかの目印(たとえば、郵便住所)を与えられるとして、目印の属性(たとえばビジネス情報、たとえば商号、電話番号、営業時間、またはウェブサイトもしくはマップへのリンク)をその文書において見つけるよう試みる。先の記載は文書において住所に関連付けられるビジネス情報を見つけることに焦点を置いたが、これは必ずしもそうである必要はない。他の実現例では、上記の処理は他の目印および属性に当てはまってもよく、たとえば、製品(目印)に関連付けられる価格(属性)または製品識別番号(属性)を見つけ出してもよい。文書に現われてもよい他の種類の目印および属性は当業者には明らかであろう。
Claims (34)
- 1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサにより実現される方法であって、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、地理的な住所を含む文書を特定するステップと、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書において、前記地理的な住所に先行するかまたは後続の複数の語から、候補ビジネス情報を見つけ出すステップと、
前記候補ビジネス情報が前記地理的な住所に関連付けられる確率を判断するステップとを含み、前記候補ビジネス情報が前記地理的な住所に関連付けられる確率は、既知の地理的な住所および関連付けられたビジネス情報を伴う複数の文書のビジネス情報におけるある特徴の発生に基づく、前記複数の語の前記特徴の分析から判断され、前記方法はさらに、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記候補ビジネス情報に、前記候補ビジネス情報が前記地理的な住所に関連付けられる確率に関する信頼度スコアを割当てるステップと、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記割当てられた信頼度スコアに基づいて前記候補ビジネス情報は前記地理的な住所に関連付けられると判断するステップと、
前記候補ビジネス情報を前記地理的な住所に関連付けてメモリに記憶するステップとを含む、方法。 - 前記候補ビジネス情報はタイトルであり、前記候補ビジネス情報を見つけ出すステップは、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書における前記地理的な住所に先行する複数の語を、前記候補ビジネス情報として特定するステップを含む、請求項1に記載の方法。 - 前記候補ビジネス情報が前記地理的な住所に関連付けられる前記確率を判断するステップは、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記複数の語のうちのある語が前記タイトルの一部である確率を計算するステップを含む、請求項2に記載の方法。 - 前記ある語が前記タイトルの一部である前記確率を計算するステップは、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記ある語に先行するかまたは後続の語の数を判断するステップを含む、請求項3に記載の方法。 - 前記ある語が前記タイトルの一部である前記確率を計算するステップは、
前記複数の語のうちの第2の語が前記タイトルの一部である確率を計算するステップと、
前記第2の語が前記タイトルの一部である前記確率を用いて、前記ある語が前記タイトルの一部である前記確率を計算するステップとを含む、請求項3に記載の方法。 - 前記ある語が前記タイトルの一部である前記確率を計算するステップは、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記ある語に関連付けられる特徴の組を分析するステップを含む、請求項3に記載の方法。 - 前記特徴の組は、
前記ある語の前記地理的な住所からの距離に関する情報と、
前記ある語の特性に関する情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間の境界に関連付けられる情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における句読点情報に関する情報とのうちの少なくとも1つを含む、請求項6に記載の方法。 - 前記ある語の特性に関する前記情報は、
前記ある語が数であるかどうかに関する情報と、
前記ある語が大文字にされているかどうかに関する情報と、
前記ある語が太字にされているかどうかに関する情報と、
前記ある語が斜体字にされているかどうかに関する情報と、
前記ある語が下線を引かれているかどうかに関する情報と、
前記ある語がアンカーテキストの一部であるかどうかに関する情報と、
前記ある語における文字の数に関する情報とのうちの1つ以上を含む、請求項6に記載の方法。 - 前記境界に関連付けられる前記情報は、
HTMLタグの存在に関する情報と、
改行の存在に関する情報と、
リスト項目マーカの存在に関する情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における表またはリストの始めまたは終わりに関するマーカの存在に関する情報とのうちの少なくとも1つを含む、請求項6に記載の方法。 - 前記複数の語のうちの1つが前記タイトルの一部である確率は、前記特徴の組のうち、公知の地理的な住所および関連付けられるタイトルを伴う複数の文書における地理的な住所に関連付けられるタイトルにおける前記ある語に関連付けられる特徴の発生を分析することにより生成される統計的モデルから判断される、請求項6に記載の方法。
- 前記候補ビジネス情報は電話番号に対応し;
前記文書において前記候補ビジネス情報を見つけ出すステップは:
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書において候補電話番号の組を特定するステップと、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記候補電話番号の組における各候補電話番号が前記地理的な住所に関連付けられる確率を計算するステップとを含む、請求項1に記載の方法。 - 前記候補電話番号の組のうちのある候補電話番号が前記地理的な住所に関連付けられる確率を計算するステップは、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記ある候補電話番号に関連付けられる特徴を分析するステップを含む、請求項11に記載の方法。 - 前記特徴は、
前記文書内における、前記ある候補電話番号の前記地理的な住所からの距離に関する情報と、
前記ある候補電話番号と前記地理的な住所との間における境界情報と、
第2の電話番号が前記ある候補電話番号の前に現れるかどうかに関する情報と、
ファクシミリ番号が前記ある候補電話番号の前に現れるかどうかに関する情報と、
第2の候補電話番号が前記ある候補電話番号と前記地理的な住所との間に存在するかどうかに関する情報とのうちの少なくとも1つを含む、請求項12に記載の方法。 - 前記ある候補電話番号が前記地理的な住所に関連付けられる前記確率は、前記ある候補電話番号に関連付けられる、公知の地理的な住所および関連付けられる電話番号を伴う複数の文書における前記特徴の発生を分析することにより生成される統計的モデルから判断される、請求項12に記載の方法。
- 少なくとも1つのプロセッサと、
メモリとを含み、前記メモリは、前記少なくとも1つのプロセッサによって実行されると前記少なくとも1つのプロセッサに、
地理的な住所を含む文書を特定させ、
前記文書において前記地理的な住所に先行するかまたは後続の複数の語からビジネス情報を特定させ、
前記ビジネス情報が前記地理的な住所に関連付けられる確率を計算させ、前記確率は、公知の地理的な住所および関連付けられるビジネス情報を伴う複数の文書のビジネス情報におけるある特徴の発生に基づく、前記複数の語の前記ある特徴の分析から生成される統計的モデルから判断され、さらに、
前記ビジネス情報が前記確率に基づいて前記地理的な住所に関連付けられると判断させ、
前記ビジネス情報を前記地理的な住所に関連付けて前記メモリに記憶させる命令を記憶する、システム。 - 前記ビジネス情報はタイトルであり、ビジネス情報を前記文書において特定する際、前記少なくとも1つのプロセッサは、さらに、前記ビジネス情報として、前記文書において前記地理的な住所に先行する複数の語を特定する、請求項15に記載のシステム。
- 前記ビジネス情報が前記地理的な住所に関連付けられる前記確率を計算する際、前記少なくとも1つのプロセッサは、さらに、前記複数の語のうちのある語が前記タイトルの一部である確率を計算する、請求項16に記載のシステム。
- 前記ある語が前記タイトルの一部である前記確率を計算する際、前記少なくとも1つのプロセッサは、さらに、前記ある語に先行するかまたは後続の語の数を判断する、請求項16に記載のシステム。
- 前記ある語が前記タイトルの一部である前記確率は、さらに、前記ある語に関連付けられる特徴の組に基づく、請求項16に記載のシステム。
- 前記特徴の組は、
前記ある語の前記地理的な住所からの距離に関する情報と、
前記ある語の特性に関する情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間の境界に関連付けられる情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における句読点情報に関する情報とのうちの少なくとも1つを含む、請求項19に記載のシステム。 - 前記ある語の特性に関する前記情報は、
前記ある語が数であるかどうかに関する情報と、
前記ある語が大文字にされているかどうかに関する情報と、
前記ある語が太字にされているかどうかに関する情報と、
前記ある語が斜体字にされているかどうかに関する情報と、
前記ある語が下線を引かれているかどうかに関する情報と、
前記ある語がアンカーテキストの一部であるかどうかに関する情報と、
前記ある語における文字の数に関する情報とのうちの1つ以上を含む、請求項20に記載のシステム。 - 前記境界に関連付けられる前記情報は、
HTMLタグの存在に関する情報と、
改行の存在に関する情報と、
リスト項目マーカの存在に関する情報と、
前記ある語と前記複数の語のうちの先行するかまたは後続の語との間における表またはリストの始めまたは終わりに関するマーカの存在に関する情報とのうちの少なくとも1つを含む、請求項20に記載のシステム。 - 前記ビジネス情報は電話番号であり、前記ビジネス情報を前記文書において特定する際、前記少なくとも1つのプロセッサは、さらに、
前記文書において候補電話番号の組を特定し、
前記候補電話番号の組における各候補電話番号が、前記候補電話番号の組のうちの各候補電話番号に近い語の数に関連付けられる確率に基づいて、前記地理的な住所に関連付けられる確率を計算する、請求項15に記載のシステム。 - 前記候補電話番号の組のうちのある候補電話番号が前記地理的な住所に関連付けられる確率は、前記ある候補電話番号に関連付けられる特徴の組に基づく、請求項23に記載のシステム。
- 前記特徴の組は、
前記ある候補電話番号の前記住所からの距離に関する情報と、
前記ある候補電話番号と前記地理的な住所との間における境界情報と、
一般的な電話番号語が前記ある候補電話番号の前に現れるかどうかに関する情報と、
一般的なファクシミリ番号語が前記ある候補電話番号の前に現れるかどうかに関する情報と、
第2の候補電話番号が前記ある候補電話番号と前記地理的な住所との間に存在するかどうかに関する情報とのうちの少なくとも1つを含む、請求項24に記載のシステム。 - 1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサにより実施される方法であって、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、地理的な住所を含む文書を特定するステップと、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書における前記地理的な住所に先行する複数の語を特定するステップと、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記複数の語の各々が前記地理的な住所に関連付けられるタイトルの一部である確率を計算するステップとを含み、前記複数の語の各々が前記タイトルの一部である前記確率は、公知の地理的な住所および関連のタイトルを伴う複数の文書のタイトルにおける特徴の発生に基づいて、前記複数の語のその特徴から計算され、前記方法はさらに、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記地理的な住所に関連付けられるタイトルの一部である確率を有する前記複数の語のうちの1つ以上に基づいて候補タイトルを判断するステップと、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記タイトルにおける前記複数の語の各々が前記タイトルの一部である確率に基づいて、前記候補タイトルに対する信頼度スコアを判断するステップと、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記信頼度スコアに基づき、前記候補タイトルを前記地理的な住所に関連付けるかどうかを判断するステップとを含む、方法。 - 1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサにより実施される方法であって、
地理的な住所を含む文書を特定するステップと、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記文書において候補電話番号の組を特定するステップと、
前記候補電話番号の組における各候補電話番号が前記地理的な住所に関連付けられる確率を計算するステップとを含み、ある候補電話番号が前記住所に関連付けられる確率は、当該候補電話番号のある特徴から、公知の地理的な住所および関連付けられる電話番号を伴う複数の文書の電話番号における当該特徴の発生に基づいて計算され、前記方法はさらに、
前記1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサを用いて、前記候補電話番号の1つが前記判断された確率に基づいて前記地理的な住所に関連付けられると判断するステップと、
前記候補電話番号のうち選択された電話番号を前記住所と関連付けてメモリに記憶するステップとを含む、方法。 - 1つ以上のサーバ装置に関連付けられた1つ以上のプロセッサにより実施され、商号を、文書において見出される地理的な住所に関連付けるための方法であって、
前記文書において前記地理的な住所を特定するステップと、
前記特定された地理的な住所に先行するかまたは後続の複数の語から、候補商号の組または候補電話番号の組を判断するステップと、
前記候補商号の組において各候補商号に対する信頼度を判断するか、または前記候補電話番号の組において各候補電話番号に対し信頼度を判断するステップとを含み、前記信頼度は、ある候補商号が前記住所に関連付けられるビジネスの名称である確率を反映し、または、前記信頼度は、ある候補電話番号が前記特定された地理的な住所に関連付けられる前記ビジネスの電話番号である確率を反映し、前記方法はさらに、
ある信頼度を有する候補商号または候補電話番号を、前記特定された地理的な住所と共に、メモリに記憶するステップを含む、方法。 - 前記候補商号または前記候補電話番号の前記信頼度を判断するステップは、
前記候補商号または前記候補電話番号の特徴を特定するステップと、
前記特定された特徴を用いて、前記候補商号が前記ビジネスの名称である確率を判断するか、または前記候補電話番号が前記ビジネスの電話番号である確率を判断するステップとを含み、前記確率は、公知の商号または電話番号および公知の地理的な住所を有する文書のコーパスにおいて見出される商号または電話番号に前記特徴が生ずる尤度から判断される、請求項28に記載の方法。 - 前記特徴は、前記候補商号におけるある語の、前記特定された地理的な住所からの距離であるか、または前記候補電話番号の、前記特定された地理的な住所からの距離である、請求項29に記載の方法。
- 前記特徴は、前記候補商号または前記候補電話番号におけるある語のフォントの属性である、請求項29に記載の方法。
- 前記フォントの前記属性は、前記ある語の表現における、大文字の使用、斜体字の使用、太字の使用、下線の使用、および中央寄せの使用の1つ以上を含む、請求項29に記載の方法。
- 前記特徴は、前記候補商号または前記候補電話番号の文字長である、請求項29に記載の方法。
- 前記特徴は、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるコンマと、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるピリオドと、
前記候補商号におけるある語と先行するかまたは後続の語との間における感嘆符と、
前記候補商号におけるある語と先行するかまたは後続の語との間における疑問符と、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるコロン記号と、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるセミコロン記号と、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるダッシュ記号と、
前記候補商号におけるある語と先行するかまたは後続の語との間における一重または二重引用符と、
前記候補商号におけるある語と先行するかまたは後続の語との間における括弧と、
前記候補商号におけるある語と先行するかまたは後続の語との間におけるスペースとのうちの1つ以上である、請求項29に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/024,765 | 2004-12-30 | ||
US11/024,765 US7831438B2 (en) | 2004-12-30 | 2004-12-30 | Local item extraction |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007549625A Division JP2008527502A (ja) | 2004-12-30 | 2005-12-30 | ローカル項目抽出 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011129154A JP2011129154A (ja) | 2011-06-30 |
JP5226095B2 true JP5226095B2 (ja) | 2013-07-03 |
Family
ID=36218348
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007549625A Pending JP2008527502A (ja) | 2004-12-30 | 2005-12-30 | ローカル項目抽出 |
JP2011047519A Active JP5226095B2 (ja) | 2004-12-30 | 2011-03-04 | ローカル項目抽出 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007549625A Pending JP2008527502A (ja) | 2004-12-30 | 2005-12-30 | ローカル項目抽出 |
Country Status (8)
Country | Link |
---|---|
US (2) | US7831438B2 (ja) |
EP (2) | EP1839211A1 (ja) |
JP (2) | JP2008527502A (ja) |
KR (1) | KR100974905B1 (ja) |
CN (1) | CN101128819B (ja) |
AU (1) | AU2005322850C1 (ja) |
CA (1) | CA2593378C (ja) |
WO (1) | WO2006074052A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7831438B2 (en) * | 2004-12-30 | 2010-11-09 | Google Inc. | Local item extraction |
US8731954B2 (en) | 2006-03-27 | 2014-05-20 | A-Life Medical, Llc | Auditing the coding and abstracting of documents |
US7908552B2 (en) | 2007-04-13 | 2011-03-15 | A-Life Medical Inc. | Mere-parsing with boundary and semantic driven scoping |
US8682823B2 (en) | 2007-04-13 | 2014-03-25 | A-Life Medical, Llc | Multi-magnitudinal vectors with resolution based on source vector features |
WO2008129339A1 (en) * | 2007-04-18 | 2008-10-30 | Mitsco - Seekport Fz-Llc | Method for location identification in web pages and location-based ranking of internet search results |
US9946846B2 (en) | 2007-08-03 | 2018-04-17 | A-Life Medical, Llc | Visualizing the documentation and coding of surgical procedures |
US20090182759A1 (en) * | 2008-01-11 | 2009-07-16 | Yahoo! Inc. | Extracting entities from a web page |
US8812362B2 (en) * | 2009-02-20 | 2014-08-19 | Yahoo! Inc. | Method and system for quantifying user interactions with web advertisements |
US8468144B2 (en) * | 2010-03-19 | 2013-06-18 | Honeywell International Inc. | Methods and apparatus for analyzing information to identify entities of significance |
US10541053B2 (en) | 2013-09-05 | 2020-01-21 | Optum360, LLCq | Automated clinical indicator recognition with natural language processing |
US10133727B2 (en) | 2013-10-01 | 2018-11-20 | A-Life Medical, Llc | Ontologically driven procedure coding |
US9317873B2 (en) | 2014-03-28 | 2016-04-19 | Google Inc. | Automatic verification of advertiser identifier in advertisements |
US20150287099A1 (en) * | 2014-04-07 | 2015-10-08 | Google Inc. | Method to compute the prominence score to phone numbers on web pages and automatically annotate/attach it to ads |
US11115529B2 (en) | 2014-04-07 | 2021-09-07 | Google Llc | System and method for providing and managing third party content with call functionality |
US10469424B2 (en) | 2016-10-07 | 2019-11-05 | Google Llc | Network based data traffic latency reduction |
CN109933785B (zh) * | 2019-02-03 | 2023-06-20 | 北京百度网讯科技有限公司 | 用于实体关联的方法、装置、设备和介质 |
CN111723165B (zh) * | 2019-03-18 | 2024-06-11 | 阿里巴巴集团控股有限公司 | 地址兴趣点确定方法、装置及系统 |
DE112020000554T5 (de) * | 2019-04-02 | 2021-10-21 | International Business Machines Corporation | Verfahren zum zugreifen auf datensätze eines stammdatenverwaltungssystems |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6701307B2 (en) * | 1998-10-28 | 2004-03-02 | Microsoft Corporation | Method and apparatus of expanding web searching capabilities |
US6374241B1 (en) * | 1999-03-31 | 2002-04-16 | Verizon Laboratories Inc. | Data merging techniques |
CA2400161C (en) | 2000-02-22 | 2015-11-24 | Metacarta, Inc. | Spatially coding and displaying information |
US20020156779A1 (en) | 2001-09-28 | 2002-10-24 | Elliott Margaret E. | Internet search engine |
US6965900B2 (en) | 2001-12-19 | 2005-11-15 | X-Labs Holdings, Llc | Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents |
JP4005477B2 (ja) | 2002-05-15 | 2007-11-07 | 日本電信電話株式会社 | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2005535039A (ja) | 2002-08-05 | 2005-11-17 | メタカータ・インコーポレーテッド | 地理的なテキスト検索システムを備えたデスクトップクライアントとの対話 |
US8037078B2 (en) | 2003-03-18 | 2011-10-11 | Nokia Corporation | Corpus clustering, confidence refinement, and ranking for geographic text search and information retrieval |
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及系统 |
US8346770B2 (en) * | 2003-09-22 | 2013-01-01 | Google Inc. | Systems and methods for clustering search results |
US7349901B2 (en) * | 2004-05-21 | 2008-03-25 | Microsoft Corporation | Search engine spam detection using external data |
US7831438B2 (en) | 2004-12-30 | 2010-11-09 | Google Inc. | Local item extraction |
US9552420B2 (en) * | 2005-10-04 | 2017-01-24 | Thomson Reuters Global Resources | Feature engineering and user behavior analysis |
WO2008074152A1 (en) * | 2006-12-20 | 2008-06-26 | Ma, Gary, Manchoir | Method of displaying a subjective score with search engine results |
US7877385B2 (en) * | 2007-09-21 | 2011-01-25 | Microsoft Corporation | Information retrieval using query-document pair information |
-
2004
- 2004-12-30 US US11/024,765 patent/US7831438B2/en not_active Expired - Fee Related
-
2005
- 2005-12-30 KR KR1020077017429A patent/KR100974905B1/ko not_active IP Right Cessation
- 2005-12-30 EP EP05855882A patent/EP1839211A1/en not_active Ceased
- 2005-12-30 EP EP11163711A patent/EP2372584A1/en not_active Withdrawn
- 2005-12-30 AU AU2005322850A patent/AU2005322850C1/en not_active Ceased
- 2005-12-30 CA CA2593378A patent/CA2593378C/en not_active Expired - Fee Related
- 2005-12-30 CN CN2005800486396A patent/CN101128819B/zh not_active Expired - Fee Related
- 2005-12-30 JP JP2007549625A patent/JP2008527502A/ja active Pending
- 2005-12-30 WO PCT/US2005/047391 patent/WO2006074052A1/en active Application Filing
-
2010
- 2010-09-23 US US12/888,925 patent/US8433704B2/en active Active
-
2011
- 2011-03-04 JP JP2011047519A patent/JP5226095B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP2372584A1 (en) | 2011-10-05 |
AU2005322850B2 (en) | 2010-02-11 |
JP2008527502A (ja) | 2008-07-24 |
CN101128819A (zh) | 2008-02-20 |
CA2593378C (en) | 2012-06-05 |
JP2011129154A (ja) | 2011-06-30 |
CN101128819B (zh) | 2011-06-22 |
CA2593378A1 (en) | 2006-07-13 |
AU2005322850C1 (en) | 2010-07-15 |
WO2006074052A1 (en) | 2006-07-13 |
US20110047151A1 (en) | 2011-02-24 |
US7831438B2 (en) | 2010-11-09 |
EP1839211A1 (en) | 2007-10-03 |
KR20070092755A (ko) | 2007-09-13 |
US8433704B2 (en) | 2013-04-30 |
AU2005322850A1 (en) | 2006-07-13 |
KR100974905B1 (ko) | 2010-08-09 |
US20060149565A1 (en) | 2006-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5226095B2 (ja) | ローカル項目抽出 | |
JP4633803B2 (ja) | 曖昧な地理的参照の分類 | |
JP5420243B2 (ja) | 所望リポジトリの判定 | |
JP4850845B2 (ja) | 方法、システムおよびメモリ装置 | |
US8983962B2 (en) | Question and answer data editing device, question and answer data editing method and question answer data editing program | |
KR101412763B1 (ko) | 문맥적 입력 방법 | |
JP4708436B2 (ja) | 信頼性のある文書の識別 | |
CN100478949C (zh) | 具有实体检测的查询改写 | |
US7676745B2 (en) | Document segmentation based on visual gaps | |
US7984000B2 (en) | Predicting and using search engine switching behavior | |
US8346757B1 (en) | Determining query terms of little significance | |
US8271865B1 (en) | Detection and utilization of document reading speed | |
US10140297B2 (en) | Supplementing search results with information of interest | |
US20120089619A1 (en) | Systems and methods for determining document freshness | |
JP5218409B2 (ja) | 関連情報検索システム及び関連情報検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110317 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5226095 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160322 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |