JP2005539283A - 名前をハイパーリンクするためのシステム、方法、及びソフトウェア - Google Patents

名前をハイパーリンクするためのシステム、方法、及びソフトウェア Download PDF

Info

Publication number
JP2005539283A
JP2005539283A JP2003560793A JP2003560793A JP2005539283A JP 2005539283 A JP2005539283 A JP 2005539283A JP 2003560793 A JP2003560793 A JP 2003560793A JP 2003560793 A JP2003560793 A JP 2003560793A JP 2005539283 A JP2005539283 A JP 2005539283A
Authority
JP
Japan
Prior art keywords
name
names
computer
implemented method
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003560793A
Other languages
English (en)
Other versions
JP4436909B2 (ja
Inventor
クリストファー シー. ドジアー,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2005539283A publication Critical patent/JP2005539283A/ja
Application granted granted Critical
Publication of JP4436909B2 publication Critical patent/JP4436909B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

ドキュメント内にある人の名前に基づいて、ドキュメントの、他のドキュメントへのハイパーリンク又は関連付けが望まれるようになった。このようなハイパーリンクの、裁判官の見解へのインストールのための自動化システムは存在するが、このシステムは、他の種類の名前及びドキュメントに一般に適用可能でないばかりか、2人以上の類似する名前の人に参照される名前のためのハイパーリンクの決定にはほとんど適合しない。従って、本発明者は、ドキュメント内にある名前のハイパーリンクを、種類によらず容易にするシステム、方法、及びソフトウェアを発明した。1つの例示的なシステムは、記述子モジュールと、リンクモジュールとを含む。記述子モジュールは、名前と専門家の種類との間の関係の認識に必要な、共起するドキュメント情報を選択するための記述的なパターンを開発する。

Description

本特許書類の一部は、著作権保護に従うものを含む。著作権保持者は、それが特許商標庁において特許出願又は記録として現れる場合、いずれの者による本特許書類及び本特許開示のファックスによる複製に異議を申しませんが、それ以外では、どのようなものであれ全ての著作権を保有する。以下の注意書は、本書類に適用される。著作権(C)2001,West Group。
本出願は、2001年12月21日出願の米国仮出願第60/342,952号及び2002年6月13日出願の米国出願第10/171,170号に対する優先権を主張するものである。
本発明は、ドキュメントにある名前をハイパーリンクするためのシステム、方法、及びソフトウェアに関連するものである。
近年、インターネット及び他のコンピュータネットワークの急激な成長は、これらのネットワークを介してアクセス可能なデータにおいて同じく急激な成長を促した。このデータに相互作用する将来性のある1つの様式に、電子ドキュメントにおけるハイパーリンクの使用を介するものがある。
ハイパーリンクは、ハイライトされたテキスト又はアイコンのようなユーザ選択可能な要素であり、電子ドキュメントの1部分を同じドキュメントの他の部分又は他のドキュメントに、データベース又はコンピュータネットワーク上でリンクする。適切なコンピュータ設備及びネットワークアクセスにより、ユーザは、ハイパーリンクを選択又は呼出し、他のドキュメントをほとんど瞬間的に閲覧することができ、それらドキュメントは、世界のほとんどどこにあってもよい。更に、他のドキュメント自身、ハイパーリンクを含む更に他のドキュメントへのハイパーリンクを含み、これにより、ユーザは世界中を関連する情報を求めてドキュメントからドキュメントへ随意に「ホップ」することができる。
最近、ドキュメント内の人名に基づいて、ドキュメントを他のドキュメントにハイパーリンクすることが話題になっている。例えば、法的な調査を促すため、ミネソタ州セントポールにあるWest Publishing Company社は、代理人及び裁判官の名前をWest Legal Directory(1,000,000人の米国代理人及び20,000人の裁判官を有する専門ディレクトリ)に登録されているオンライン人名登録にハイパーリンクする数千もの電子裁判官の見解を提供している。これらハイパーリンクにより、裁判官の見解にアクセスするユーザは、見解に名前のある弁護士及び裁判官へのコンタクト及び彼らについての他の特定の情報を即時に得ることができる。
これらの裁判官の見解におけるハイパーリンクは、名前のある代理人及び裁判官を、対応する専門家ディレクトリにある登録にリンクする手掛りになる、ファーストネーム、ミドルネーム、ラストネーム、法律事務所名、都市、州、裁判所情報を扱うシステムを用いて、自動的に生成される。Christopher Dozier及びRobert Haschartによる「Automatic Extraction and Linking of Person Names in Legal Text」(会報RIAO2000:Content Based Multimedia Information Access、パリ、フランス、1305〜1321ページ、2000年4月)を参照し、前記文献はここに参照として援用する。
自動的なシステムは非常に効果的であるが、本発明者は、それは少なくとも2つの限定を受けると認めている。第1に、前記システムは、裁判官の見解において、異なるドキュメントにおいては共通ではなく、それゆえ異なる種類の名前及びドキュメントへのその一般的な応用を限定する、ケースヘッダのような構造的な(組織的な)特徴を開拓することになる。第2に、前記システムは、事実いくつかの名前は他のものより多かれ少なかれ曖昧であるが、全ての名前を等しく曖昧に、又は等しく一般的に扱う。例えば、Davis Smithという名前は、Seven Drakeという名前より一般的であり、従ってより曖昧であり、即ち、1人以上の人を同定する可能性がある。
従って、本発明者は、名前、或いは一般に、名前を含む関連するデータのためのハイパーリンクを生成する他の方法の必要性を認めるに至った。
このこと及び他の要求に対処するため、本発明者は、ニュース記事のようなドキュメント内にある名前の、専門家ディレクトリ内にある記録のような他のデータ構造内にある名前へのハイパーリンク又は関連付けを容易にするシステム、方法、及びソフトウェアを発明した。1つの例示的なシステムは、記述子モジュールと、リンクモジュールとを含む。記述子モジュールは、名前と専門家の種類との間の関係の認識に必要な、共起するドキュメント情報を選択するための記述的なパターンを開発する。リンクモジュールは、入力ドキュメント内にある名前をタグ付けし、記述的なパターンを用いて共起する情報を抽出し、特定の専門職に属するように個々の名前を分類し、専門家ディレクトリ内にある対応する登録を検索するよう試みる。
対応する登録検索のため、リンクモジュールは、個々の名前に名前希少出現(一意性又は曖昧さ)スコアを決定し、名前を伴ったスコア及び選択された共起するドキュメント情報をベイズ推定ネットワークに入力する。推定ネットワークでは、名前が所定の専門家ディレクトリにある特定の候補記録(又は登録)に参照される確率を測定する。リンクモジュールは、確率測定に基づいて候補記録に等級を付け、所定の閾値を越える最高の等級の記録に基づいてハイパーリンク(又は、他の論理的関連)を定義する。
本発明者はまた、人又は他の実態の名前のような潜在的に曖昧な用語を含むデータの検索を容易にするシステム、方法、及びソフトウェアを発明した。例えば、1つの方法は、ユーザからクエリを受取り、クエリ内にある1つ以上の名前を同定し、名前の曖昧さ又は一意性を評価し、曖昧さが十分に大きい場合、更なる情報を得て、曖昧さの回復又は減少を補助するようクエリを更新又は補う。例えば、専門家肩書き、位置、又は組織を含む更なる情報は、ユーザから、又は自動的な補助検索を介して直接得ることができる。
図1〜6を参照し、それを組入れた以下の詳細な説明は、本発明の1つ以上の例示的な実施形態を説明し、示したものである。本発明を限定するものではなく、例示及び教示するために提供されたこれらの実施形態を、当業者が本発明を達成し、使用することが可能なように、十分に詳細に示し、説明する。従って、本発明を曖昧にすることを回避するため、適宜、本明細書は当業者に知られた確定した情報を省略する。
(定義)
本明細書は多数の用語を含み、その意味は、当技術におけるそれらの使用法又は本明細書の文脈内でのそれらの使用に由来するものである。更なる補助として、以下の用語の定義を示す。
数詞の付いていない加算名詞は、少なくとも1つを意味する。
用語「又は」は、「どちらか」と共に用いられていない限り、ブール論理の意味に用いられる。
用語「ドキュメント」は、ファイル名を有する機械読取り可能なデータのいずれかの論理集合又は論理配置を意味する。
用語「データベース」は、機械読取り可能なドキュメントのいずれかの論理集合又は論理配置を含む。
用語「ハイパーリンク」は、過去、現在、又は未来のいずれかのURL(Uniform Resource Locator)基準に構造的又は機能的に適合するドキュメントにあるいずれかの象徴を含む。それはまた、特定のコンピュータシステム又はネットワークデバイスを同定する情報を含むいずれかの象徴を含む。
用語「名前」は、それにより人、動物、場所、物、団体、組織、又は法的実体のような実体が、命名され、他と区別される1つ以上の単語を含む。
用語「プログラム・モジュール」は、ルーチン、プログラム、物体、構成要素、データ構造、及び指示又は指示セット等を含み、特定のタスクを実施し、又は特定の抽象的なデータ型を実行する。本用語は、特定のキャリア媒体に関して限定されない。
(本発明を実施する例示的なコンピュータシステム)
図1は、自動的に、ドキュメントを1つ以上の部分に分割し、個々のマーキング部分に対応する1つ以上のハイパーリンクを定義する、システム、方法、及びソフトウェアを組入れた例示的なコンピュータシステム100の図を示す。例示的なシステムは、互いに接続された分割構成要素の集合として示されるが、他のいくつかの実施形態では、より多くの或いはより少ない要素を用いてそれらの機能を実施する。更に、いくつかの実施形態では、有線又は無線ローカル又はワイドエリアネットワークを介して、1つ以上の要素を互いに接続する。いくつかの実施形態では、1つ以上のメーンフレームコンピュータ又はサーバを用いて、システム100の1つ以上の部分を実施する。従って、本発明は、いずれの特定機能部分に限定されるものではない。
一般に、システム100は、入力ドキュメントデータベース110と、名前リンクサブシステム120と、専門家ディレクトリ130と、出力ドキュメントデータベース140と、アクセスデバイス150とを含む。
入力ドキュメントデータベース110は、1つ以上の電子ドキュメントを含み、そのうち、ドキュメント112が、代表として示されている。ドキュメント112は、人、場所、物、又は法的実体の1つ以上の名前(ドキュメント内に分布するN1、N2、N3、N4、及びN5のような一般的な適切な名詞)を含む。本例示的な実施形態では、ドキュメント112は、例えば、裁判官の見解又は他の種類の法的ドキュメントのような、書面にされたニュース記事又は他のテキストドキュメントの電子版である。しかし、他の実施形態では、ドキュメント112は、1つ以上の名前を含む1つ以上の画像データ又はマルチメディアデータを含む。
データベース110と接続しているのは、コンピュータ化された名前リンクシステム120である。システム120は、1つ以上の従来のプロセッサ121と、表示デバイス122と、インターフェースデバイス123と、ネットワーク通信デバイス124と、メモリデバイス125と、ドキュメント処理ソフトウェア126と、マーキング・リンクソフトウェア127とを含む。ソフトウェア126及び127は、電気的、磁気的、及び/又は光学的キャリア媒体上にコードされた指示又はデータのような様々な形態をとることができ、そして、ネットワークダウンロード又は他のソフトウェア移動方法を介して、単独に又は組合せによりシステム120上にインストールできる、色々なソフトウェア及びデータ要素を含む。
ドキュメント処理ソフトウェアの例として、ワードプロセッサプログラム、HTML編集プログラム、スプレッドシートプログラム、電子メールプログラム、プレゼンテーション作成プログラム、閲覧プログラム、ドキュメント処理プログラム、及びファイル・バックアッププログラムがある。
本例示的な実施形態では、ソフトウェア127は、ドキュメント処理ソフトウェア126の追加器具である。しかしながら、他の実施形態では、それは、ネットワークアクセス可能なプログラムのような独立したアプリケーションプログラムとして、又は、基本ソフトの核又は外郭の一部として、機能する。特に、ソフトウェア127は、記述子モジュール1271と、リンクモジュール1272と、トレーニングモジュール1273とを含み、その全てが以下に詳細に説明される。
システム120は、専門家ディレクトリ130と、出力ドキュメントデータベース140とに接続されている。
専門家ディレクトリ130は、代理人住所人名録132、裁判官住所人名録134、専門家データベース136、及び他の専門家住所人名録138のような1つ以上の専門家住所人名録を含む。個々の住所人名録(又は一般的にデータベース)は、人、場所、物、又は法的実体のような命名され、或いは同定される1つ以上の実体に関連する一組の記録又は他のデータ構造含む。例えば、代理人ディレクトリ132は、例示的な代理人記録A1のような多数の代理人記録を含み、裁判官ディレクトリ134は、例示的な裁判官記録J1のような多数の裁判官記録を含み、専門家ディレクトリ136は、例示的な専門家記録E1のような多数の裁判官記録を含み、そして、他のディレクトリは、医者、教授、計理士、教師、有名人等のような他の個人に関連する情報を含む多数の記録を含む。いくつかの実施形態では、電話番号や電子メールアドレス、クレジット報告書、税金報告書、犯罪記録、医療情報、学歴記録等のデータベースを含んでもよい。
出力ドキュメントデータベース140は、例示的なドキュメント142のような1つ以上の処理されたドキュメントを含む。ドキュメント142は、マーキングされた名前N1、N2、N3、N4、N5及び対応するハイパーリンク1421、1422、1423、
1424、及び1425を含み、各々は、少なくとも1つの専門家ディレクトリ130内の履歴又は他のデータ構造を、特定のディレクトリ記録の指定なしに専門家ディレクトリの1つに、或いは、ディレクトリにおける記録のサブセットに、参照される。名前リンクプロセッサ120により生成され、そこに埋込まれ、或いはドキュメントに関連するハイパーリンク1421〜1425は、ドキュメント140内の対応するマーキングされた名前N1、N2、N3、N4、N5を、公的又は私的なローカル又はワイドエリアネットワーク又は専用通信パス(図示しない)を介して、データベース130、132、134にリンクするのに選択可能である。本例示的な実施形態は、色やフォントのコントラストにより、或いはユーザが検出可能な他の方法により、マーキングされた名前を示し、存在するハイパーリンクへの関連を知らせる。出力データベース140内のドキュメントは、アクセスデバイス150を介して、ローカル又はワイドエリアネットワーク中にアクセス可能である。
本例示的な実施形態は、プロセッサ、拡張メモリ、ディスク配置を伴ったいくつかのサーバのネットワーク上を検索するMicrosoft Internet Information Server 4.0のようなウェブサーバの一部として、出力データベース140を提供する。データベース140は、様々なコンピュータプラットフォーム上でいくつもの形態を採ることができる。更に、いくつかの実施形態では、データベース140は、複数の同じ要素を含み、アクセスデバイス150のような複数のデバイスが、同じドキュメントの複数の複製に同時にアクセスすることができる。
アクセスデバイス150は、例示的なアクセスデバイス152、154、156、及び158を含む。個々のアクセスデバイスは、ディスプレイと、プロセッサ(uP)と、ソフトウェア(SW)とを含む。用語「アクセスデバイス」は、ここに用いられるように、ブラウザ装備のパーソナルコンピュータ、ネットアプライアンス、携帯情報端末、電話、携帯電話、ウェブ電話、テレビ、ウェブテレビ等を含む。それはまた、モニタと、ユーザ又は他のコンピュータが相互作用する形態でデータを出力することのできる他の種類の備品とを含む。従って、本発明は、アクセスデバイスの特定の種類又は形態に限定されない。
(システム100の例示的な機能)
一般に、システム100の例示的な機能は、記述子モジュール1271と、リンクモジュール1272と、トレーニングモジュール1273との機能を含む。記述子モジュール1271は、1つ以上の特定の専門家の種類の中にある個人に関連する可能性のある(又は、他の所定の基準を満たす)名前の同定に用いるために、1つ以上の専門家名前記述子構造又はパターンを生成する。リンクモジュール1272は、ドキュメント110のような入力ドキュメントを受取り、専門家名前記述子構造、及び/又はドキュメント110から抽出し、ベイズ推定ネットワークに入力する他のデータに基づき、入力ドキュメントにある1つ以上の名前を1つ以上の専門家ディレクトリにハイパーリンクする。トレーニングモジュール1273は、リンクモジュール1272により用いられるベイズ推定ネットワークにおける様々なノードの条件付き確率を定義する。
(記述子モジュール構造及び機能)
特に、図2は、記述子モジュール1271を作動して、名前記述子を生成する例示的な方法を示すフローチャート200である。本例示的な実施形態の1つの前提は、いくつかの個人の名前は、他の名前より単一の個人に属する可能性がずっと大きく、これらの名前が共通の専門職(または、他の分類)に属する場合、ユーザは、その専門職(又は分類)の人に共通の記述的な言語を自動的に同定することができることである。次にこの言語は、その専門職(又は分類)のほとんどのメンバーを同定するのに用いることができる。
フローチャート200は、過程ブロック210〜260を含む。これらのブロック(及び、本書類における他のフローチャートのそれら)は、本例示的な実施形態において、直列に配列されているが、他の実施形態では、ブロックを並替えたり、1つ以上のブロックを省略したり、及び/又は複数のプロセッサ又は2つ以上の仮想マシン又はサブプロセッサを編成する単一のプロセッサを用いて、2つ以上のブロックを並列に実施してもよい。更に、他の実施形態では、互いに接続された複数の特定のハードウェア、又はモジュール間で、そしてモジュールを介して通信される関連する制御及びデータシグナルを伴った集積回路モジュールとしてブロックを実施する。従って、この及び他の例示的な過程フローは、本書類において、ソフトウェア、ファームウェア、ハードウェア、及び他の種類の実施に応用することができる。
ブロック210は、専門家住所指名録にある名前とマッチングするドキュメントの集合(即ち、コーパス)にある名前と、マッチングしない名前との同定を含む。マッチングする名前及びマッチングしない名前、即ちディレクトリ内の名前及びディレクトリ外の名前の同定は、名前タグプログラムを用いて、集合にある全ての名前を同定し、次に、専門家ディレクトリ130のような専門化ディレクトリに対する検索を実施することを含む。本発明は、いかなる部類又は種類の名前タグ装置に限定しないが、適切な名前タグ装置の例として、バージニア州フェアファックスにあるIsoQuest,Inc.社のNetOwl parsing softwareを含む。(本発明者は、最大エントロピーモデルに基づいて名前タグ装置を考慮した。)
検索実行後、本例示的な実施形態は、ディレクトリ内の名前のサブセットをディレクトリ内の希少な或は独特な名前として同定する。これは、個々のディレクトリ内の名前について、名前一意性確率を計算することを含み、前記名前一意性確率は、ディレクトリにある名前の言語モデルに基づく。例示的な言語モデルは、個々のファーストネームの確率及びラストネームの確率について定義され、個々のファーストネーム及びラストネームの確率はそれぞれ、一般の集団から導かれる名前の一覧にある名前の総数に対する、ファーストネーム及びラストネームの起こる総数の比に基づく。
名前の一覧は、一般の集団における名前の分布を正確に表すように十分に大きくなければならない。専門家ディレクトリ又は他のデータベースが十分に大きい場合、それは、言語モデルの基準として用いることができる。専門家ディレクトリが小さい場合、言語モデルは、米国中の公文書に一覧する免許取得専門家一覧のような、他の一覧を基にすべきである。以下の説明は、問題となる専門家ディレクトリ(又はデータベース)が十分に大きく、一般の集団における名前の代表になるよう仮定する。
一旦、言語モデルが定義されると、個々のディレクトリ内の名前の名前マッチング確率スコアは、以下の式を用いて計算される。
P(name)=P(first name)・P(last name) (1)
ここで、P(first name)はディレクトリ内の全てのファーストネームから無作為にファーストネームが導かれる確率であり、P(last name)はディレクトリ内の全てのラストネームから無作為にラストネームが導かれる確率である。次に、名前一意性確率は以下のように計算される。
P(nameUniqueness)=1/(H・P(name)+1) (2)
ここで、Hはコーパスにおいて参照され得る人口母集団の大きさである。例えば、Wall Street Journalの記事からなるコーパスの場合、Hは3億であり、およそ米国の人口になる。閾値(0.07のような)を越える名前一意性確率をもつ個々のディレクトリ内の名前は、ブロック220の更なる過程におけるディレクトリ外の名前と共に基準として用いられる。
ブロック220は、同定された1つ以上のディレクトリ内の名前及び1つ以上のディレクトリ外の名前と共起する、或はそうでなければそれらに関連するドキュメント情報を抽出する。本例示的な実施形態において、これは、ディレクトリ内の個々の希少な名前及び全てのディレクトリ外の名前について、ある文字枠(又はドキュメント部分)内のテキスト又は情報を抽出することを含む。
より明確にすると、例示的な抽出は、コーパスにある、ディレクトリ内の同定された希少な名前及びディレクトリ外の名前の個々の発生の8単語前及び8単語後に拡張した文字枠内で起こるユニグラム及びバイグラムの抽出を含む。(他の実施形態では、ドキュメント文法構造及び構成構造のような他の文字枠の大きさ及び形態を用いる。例えば、いくつかの実施形態は、文字、文、又はサブセクションの数に基づいて枠を定義する。)ディレクトリ内の名前に関連するユニグラム及びバイグラムは、共起するディレクトリ内のユニグラム及びバイグラムとして定義され、ディレクトリ外の名前に関連するそれらは、共起するディレクトリ外のユニグラム及びバイグラムとして参照される。実施はブロック230に続く。
ブロック230は、抽出された情報が、ディレクトリ外の名前よりもディレクトリ内の名前と起こる確率又は可能性を決定する。本例示的な実施形態において、これは、ディレクトリ外の名前の前後8単語枠内で起こる個々のディレクトリ内のユニグラム及びバイグラムの確率と、ディレクトリ内の名前の前後8単語枠内で起こる個々のディレクトリ外のユニグラム及びバイグラムの確率とを含む。これらの共起確率は以下のように計算される。
P(unigram/in−directory rare name)=IU/NI (3)
ここで、IUはディレクトリ内の希少な名前の枠内で起こるユニグラム度数であり、NIはディレクトリ内の希少な名前の数である。
P(unigram/out−of−directory rare name)=OU/NO (4)
ここで、OUはディレクトリ外の名前の枠内で起こるユニグラム度数であり、NOはディレクトリ外の名前の数である。
P(bigram/in−directory rare name)=IB/NI (5)
ここで、IBはディレクトリ内の希少な名前の枠内で起こるバイグラム度数であり、NIはディレクトリ内の希少な名前の数である。
P(unigram/out−of−directory rare name)=OB/NO (6)
ここで、OBはディレクトリ外の名前の枠内で起こるバイグラム度数であり、NOはディレクトリ外の名前の数である。
ディレクトリ外の名前よりもディレクトリ内の希少な名前と共起するユニグラム及びバイグラムの可能性を決定するために、本例示的な実施形態は、ディレクトリ内の希少な名前同時発生確率をディレクトリ外の同時発生確率で割る。これらの可能性公式は、以下のように表される。
L(unigram)=P(unigram/in−directory rare name)/P(unigram/out−of−directory rare name) (7)
L(unigram)=P(bigram/in−directory rare name)/P(bigram/out−of−directory rare name) (8)
ここで、L(unigram)は所定のユニグラムのディレクトリ内の希少な名前と共起する可能性であり、L(bigram)は所定のバイグラムのディレクトリ内の希少な名前と共起する可能性である。
ブロック240は、先行及び追尾するユニグラム及びバイグラムの同時発生可能性に基づく抽出された情報に等級を付ける。この目的のため、本例示的な実施形態は、同時発生ディレクトリ内ユニグラム及びバイグラムをそれらのディレクトリ内の希少な名前同時発生可能性の降べきの順に等級付け又は分類する。(他の実施形態では、同時発生確率を計算し、用いてもよい。)法律専門家に対する先行及び追尾するユニグラム及びバイグラムの等級付けされた一覧の例を、それらの可能性スコアと共に、以下の2つの表に示す。
表1:先行及び追尾ユニグラムの例
Figure 2005539283
表2:先行及び追尾バイグラムの例
Figure 2005539283
ブロック250は、等級に基づいて1つ以上の抽出情報を選択することを含む。本例示的な実施形態の場合、これは手作業による選択であるが、他の実施形態では、例えば、特定の最小等級又は最小閾値と共同した特定の最小等級に基づいて自動的な選択基準を適用してもよい。
より明確にすると、本例示的な実施形態は、アンカー用語として参照する2セットの用語を選択する。最初のセットのアンカー用語は、先行するディレクトリ内の希少な名前の最も高い可能性を有する用語を含み、第2のセットのアンカー用語は、追尾するそのような名前の高い可能性を有する用語を含む。多くの場合、アンカー用語は、所定の名前に先行する又は追尾する同格の句又は節における名詞を含む。本例示的な実施形態はまた、互いに同義語である小文字用語をひとまとめにする。例えば、「法律家」、「弁護士」、及び「検察官」のような用語は「代理人」と同義語であると考えられ、従って、一括され、単一のアンカー用語を形成することにより、ブロック260で生成する正規の表現又は記述子の数が減少する。
ブロック260は、専門職の構成員に関連する専門職記述子パターン(又は表現)を生成する。本例示的な記述子は、ディレクトリ内の希少な名前及び選択されたアンカー用語により括られたコーパス断片における文法パターンを表す。
本例示的な実施形態は、以下のようにパターンを生成する。アンカー用語及び希少な名前により一括された個々の文の断片のために、本例示的な実施形態は、スペース及びコンマ上の断片を独立した象徴に分割し、次に、英語辞書において言葉の最も一般的に関連する部分に基づいて個々の象徴を標準化することにより、一般化されたパターン(又は構造)を導く。辞書外の象徴は、「その他」とタイプされ、動詞の形態である「to be」は、「is」とタイプしてそれらを他の動詞と区別する。コンマ以外の句読点は、「その他」とタイプされる。本例示的な実施形態は、約90,000語の一般に購入可能な英語辞書を用い、個々の単語は、1つ以上の言葉の部分に関連し、コーパス内の頻度順に一覧する。表現パターンの例示的な語彙を表3に示す。
表3:表現パターンの例示的な語彙
Figure 2005539283
次に、本例示的な実施形態は、独特のパターンの融合された一覧を生成し、各々がコーパスの中で何回繰返されるか数える。そして、それらの発生数を基にして、パターンは分類され、特異的なパターンは消去される。残ったパターンは、所定の専門職の構成員の表示として採られる。
挿入ボックス260’は、例示的なパターン構造が名前構造261と、文法構造262と、アンカー用語構造263と、相対的位置データ264及び265とを含むことを示す。名前構造261は、断片にある名前の位置ホルダである。文法構造262は、句読点と、言葉部分識別子と、名前とアンカー用語との間で存在する文法構造パターンの関連する位置情報表示とを含む。アンカー用語構造263は、1つ以上のアンカー用語を示し、含む。
相対的位置データ264及び265は、それぞれ、名前構造261と文法構造263との相対的位置、及び文法構造262とアンカー用語263との相対的位置を表示する。本例示的な実施形態は、パターン構造内のデータ順に相対的位置データを暗示的に実施するが、他の実施形態では、「前」又は「後」として相対的位置を明示的に表記する。いくつかの実施形態は、名前構造及び/又は介在する文法構造を省略し、アンカー用語と暗示的な名前構造との間の単語及び文字の距離に関するパターンを定義する。
ニュース記事のコーパスから代理人を同定するための専門職表示パターンの例を、以下の表に示す。これらのパターンを用いてドキュメントから抽出した対応する文断片もまた示す。
表4:代理人表示パターン及び文断片の例
Figure 2005539283
本質的に、本例示的な実施形態は命名された専門家の表現を含み、文法的な表現パターンを定義する基準として用いられる、セットの例示的な分断片を同定し、或はフィルタアウトする実質的なタグとして希少な又は曖昧さの少ない名前を用いる。この希少にするフィルタは、一般に個人名の文断片を検索するよりずっと効果的に好例を同定するのに役立つ。これらのパターンは次に、リンクモジュール1272において、ハイパーリンクの自動的な生成を補助するために用いられる。
(リンクモジュール構造及び機能)
一般に、リンクモジュール1272(図1における)は、ドキュメント110のような入力ドキュメントを受取り、記述子モジュール1271により定義される専門家名前記述子構造に基づいて、入力ドキュメントにある1つ以上の名前を1つ以上の専門家ディレクトリにハイパーリンクする。
図3は、リンクモジュール1272で実施する例示的な方法を示すフローチャート300である。フローチャート300は、過程ブロック310〜370を含む。
例示的な方法の実施は、ドキュメント112のようなドキュメントを入力ドキュメントデータベース110から受取ることを含むブロック310から開始する。いくつかの実施形態では、リンクモジュール1272は、ドキュメント処理ソフトウェア127により開始される、1つ以上のセッション状況において実施され、入力ドキュメントは、ドキュメント処理ソフトウェアによりホストされる全てのドキュメント、又はドキュメント処理プログラムにおいて作動する処理枠内のドキュメントの1つ以上の選択された部分を示す。しかしながら、他の実施形態において、ドキュメント又はドキュメント部分は、ドキュメント処理プログラムにおいて現在作動する処理枠から受取られ、又は回復される。いくつかの他の実施形態では、リンクモジュールは、ワークステーションのようなホストコンピュータシステムに接続された1つ以上のデータベースに相互作用する孤立したアプリケーションである。実施はブロック320に続く。
ブロック320では、リンクモジュールは、入力ドキュメント内の個々の名前、場所、及び組織名をタグ或は符号付けする一般的なタグ装置を用いる。本例示的な実施形態では、記述子モジュールで用いたものと同じタグ装置を用いる。本例示的な実施形態において、名前をタグ付けすることは、入力ドキュメント内の同一名に明らかな同一参照を分析することを含む。
この目的のため、本例示的な実施形態は、一連の名前比較規則を用いて、ドキュメント内の参照を同一名にリンクする。これらのリンクを、ドキュメント内同一参照チェイン、即ち名前チェインと命名する。タグ過程において、個々の新規に検索された名前のラストネームは、既存の名前のラストネームと比較される。マッチングが検索されない場合、前記新規に検索された名前は、ドキュメント内で独特な名前として扱われる。前記新規に検索されたラストネームが既存のラストネームにマッチングした場合、前記新規に検索されたラストネームに伴うファーストネームが、マッチングしたラストネームに伴うファーストネームと比較される。ファーストネームがマッチング或は適合した場合、その名前は同一であると仮定する。ファーストネームが、マッチングしたラストネームのいずれのファーストネームに適合しない場合、前記名前は、ドキュメント内で独特であるとして扱われる。前記新規に検索された名前がファーストネームを明示しない場合、前記名前は、同一のラストネームを有する最も最近に検索された名前に参照として扱われる。他の実施形態では、ドキュメント内同一参照を分析するのに他の方法を用いてもよい。
ブロック330では、リンクモジュールは、タグ付けされた1つ以上の名前チェインのうちどれが1つ以上の専門家ディレクトリに関連する可能性があるか決定する。本例示的な実施形態では、このことは、記述子モジュール1271により生成された1つ以上の専門家記述パターンを適用することを含む。記述パターンの適用の際、本例示的な実施形態は、所定の専門職の個々の記述パターンを、入力ドキュメントにあるタグ付けされた名前の個々の発生についてマッチング又はマッピングするよう試みる。記述パターンが名前発生へのマッピングに成功した場合、その名前(及びそのドキュメント内同時参照)は、専門家の候補とされ、所定の種類の専門家候補一覧に加えられる。(他の実施形態では、ドキュメントにある名前の性質に関する更なる証拠として、ドキュメントの正規な構造又は手がかりとなる特徴を探求する。例えば、裁判官の見解(判例法)は、件名、弁護人フレーズ、同意意見、代理人及び裁判官を同定及び/又は分類に用いた日付を含む。)名前チェイン候補一覧は、ブロック340の更なる過程に進む。
ブロック340は、専門家候補のタグ付けされた名前チェイン及び関連する同時発生テキスト又はドキュメントからの他の情報に基づいて、1つ以上の名前テンプレート又は他のデータ構造を定義することを含む。本例示的な実施形態において、名前テンプレートを定義することは、個々のタグ付けされた名前チェーンのため、チェインにある名前を含むドキュメントにある文の集合と、チェインにある名前を含むドキュメントにある段落の集合と形成することを含む。いくつかの実施形態では、文及び段落の集合は、文及び段落の開始及び/又は終了を示すドキュメント位置標識となる。
文及び段落集合の形成後、リンクモジュールは、個々の名前チェーンに対するテンプレートを定義し、個々のテンプレートは、例示的な名前テンプレート340’の形態を有する。名前テンプレート340’は、名前記録341と、記述子データ記録342と、位置データ記録343と、組織記録344と、名前一意性(又は希少出現)記録345とを含む。
名前記録341は、ファーストネームフィールド(ファースト)と、ミドルネームフィールド(ミドル)と、ラストネームフィールド(ラスト)と、接尾辞フィールド(接尾辞)とを含む。他の実施形態では、ルックアップ表からのニックネーム又は一般的な代替の綴りのような他の名前関連データを含む。そして、更に他の実施形態では、接尾辞のような、本例示的な実施形態で用いられている1つ以上のフィールドを除外する。
記述子データ記録342は、D1、D2、D3、…、Dnのような1つ以上の記述子フィールドを含む。本例示的な実施形態において、個々の記述子フィールドは、所定の専門職について、記述子モジュール1271により生成される1つ以上の専門職記述パターンを用いて、入力ドキュメントから抽出される文断片を含む。名前が複数の場所で繰返され、或は同一参照されるドキュメントの場合、記述子構造は、そのセットの記述子フィールドを集めるため、名前の個々の発生に適用される。いくつかの実施形態では、記述子パターンを所定の名前への代名詞参照にさえ適用し得る。(他の実施形態では、記述子はまた、名前のある範囲内で共起する動詞を含む。)
パターンの適用は、個々のパターンの名前の部分を文集合にある名前と提携させ、その文の隣接する部分(断片)の文法がパターンの文法に一致するか決定する。一致する場合、例示的なリンクモジュールは、アンカー用語のような対応する文断片の1つ以上の部分を、記述子データ記録342の対応する記述子フィールドに複製する。
位置データ記録343は、同一文フィールドと、同一段落フィールドとを含む。同一文フィールドは、サブフィールドLS1、LS2、…、LSjを含み、個々のLSサブフィールドは、名前データ記録341にある名前を参照する文内で共起する位置名を含む。同一段落フィールドは、サブフィールドLP1、LP2、…、LPkを含む。個々のLPサブフィールドは、データ記録341にある名前への参照を含む段落内で共起する位置名を含む。本例示的な実施形態において、この記録の構築は、所定の名前に対する文及び段落における位置を検索することと、検索された位置を対応するサブフィールドに複製することとを含む。
組織データ記録344は、同一文フィールドと、同一段落フィールドとを含む。同一文フィールドは、サブフィールドOS1、OS2、…、OSjを含み、個々のサブフィールドは、名前データ記録341にある名前を参照する文内で共起する組織を含む。同一段落フィールドは、サブフィールドOP1、OP2、…、OPkを含む。個々のOPサブフィールドは、データ記録341にある名前への参照を含む段落内で共起する組織を含む。
本例示的な実施形態において、文は文法的であると同時に印刷上の文を含み、段落は、1つ以上の文の他の群から、句読点又は他のシグナルデバイス又は技術により範囲を定められ、或は分割される1つ以上の文のいかなる群を含む。また、本例示的な実施形態において、同一文及び同一段落位置及び組織は、互いに排他的である必要はない。即ち、用語が文に名前の発生と共起する場合、それは、その段落を含む同一段落においても起こる。しかしながら、他の実施形態では、同一文及び同一段落位置は、互いに排他的であるとして定義することができる。
例示的な実施形態は、位置及び組織の位置情報を同一フィールド及び同一段落フィールドの構造を介して提供するが、他の実施形態は、名前テンプレートにおける所定の名前に相対的な位置情報を組入れた他の技術を用いてもよい。例えば、いくつかの実施形態は、名前、正確には所定の名前発生からオフセットされる文字、単語、文、段落、又は頁を用いる。他の実施形態は、位置情報を2進コード又はフラッグのセットにより提供し、個々のフラッグは、論理的に関連又は対応する位置又は組織がその関連する名前を伴った文又は段落内で起こったかどうか示す。更に他の実施形態は、場所が、名前に対応するあるテキスト枠又はドキュメント域の内側か又は外側かを示すフラッグを提供する。更にまた、他の実施形態は、個々の組織又は位置に対して相対的なドキュメント位置又は絶対的なドキュメント位置を提供する。
名前一意性(希少出現)記録345は、それに関連する名前の一意性又は希少出現標識を含むスコアフィールドを含む。本例示的な実施形態において、この標識は、特定のディレクトリから導かれる候補記録にマッチングする名前の事前確率を表示する数量である。詳細には、本例示的な実施形態は、名前一意性確率としての数量を定義し、以下を用いて計算する。
P(nameUniquness)=1/(H’・P(name)+1) (9)
ここで、H’は標識マッチングにより表示される専門化分類の大きさを示し、P(name)は以下のように定義される。
P(name)=P(first name)・P(last name) (10)
ここで、P(first name)は、一般の集団に代表される名前一覧における全てのファーストネームから無作為にファーストネームが導かれる確率を示し、P(last name)は、一般の集団に代表される名前一覧における全てのラストネームから無作為にラストネームが導かれる確率を示す。
本例示的な実施形態は、複数の種類の専門職のため、名前テンプレート340’のようなテンプレートを用いるが、いくつかの実施形態では、他のテンプレートの特徴を省略しても、或は付加えてもよい。例えば、裁判署名のような組織情報は、暗示的に位置情報を含んでいるので、裁判官のテンプレートは、独立した位置情報を省略してもよい。他の実施形態では、その明示的な形態というよりは、情報の全てを省略してもよい。
ブロック350は、ブロック340において名前テンプレートを定義した後に実行され、それは、1つ以上の専門家ディレクトリ130からディレクトリ登録候補のセットを回復する。この目的のため、本例示的な実施例は、専門家名前候補の1つとして同一のラストネームを有するディレクトリ登録を検索する。次にそれは、これらのディレクトリ登録候補のために、フルネーム、肩書き、組織、場所、及び登録同定情報を回復し、ブロック360の更なる過程に進む。
ブロック360は、個々の名前テンプレートの類似を、1つ以上の回復された記録又はデータ構造の候補に比較し、スコアをつける。本例示的な実施形態では、図4に示すような1つ以上のベイズ推定システムの使用を含む。
図4は、例示的な干渉システム400を示し、前記干渉システムは、入力名前テンプレート410と、入力候補記録420と、ベイズ推定エンジン430のような1つ以上のベイズ推定エンジンとを含む。
入力名前テンプレート410は、名前データ411と、記述子データ412と、位置データ413と、組織データ414と、名前一意性データ415とを含む。入力候補記録420は、名前データ421と、肩書きデータ422と、位置データ423と、組織データ424と、記録同定データ425とを含む。
干渉エンジン430は、証拠比較モジュール431〜434と、計算モジュール435とを含む。比較モジュール431〜434は、対応するデータと、様々な比較状態及び関連する確率を定義する論理規則構造とを含む。本例示的な実施形態において、個々の推定エンジンは、特定の専門家ディレクトリ又は他のデータベースに適合される。また、本例示的な実施形態は、比較論理及び計算を定義する配列オプションを伴った再配列可能なソフトウェアモジュールを用いて、個々のエンジンを実施する。しかしながら、他の実施形態では、全く別の推定エンジン構造を用いてもよい。
個々の比較モジュールは一般的に、候補データ項目と対応する入力データ項目との比較の可能な結果を示す2つ以上の互いに排他的な状態を有する。個々の状態は、特定の比較論理と、候補レコードが入力名前テンプレートにマッチングする状態、及び候補レコードが入力名前テンプレートにマッチングしない状態の条件付き確率とに関連する。(いくつかの実施形態は、複数のセットの状態、論理、条件付き確率を有し、個々のセットは、特定の専門家ディレクトリ又は専門職に関連する。)例示的な状態は、正確なマッチングと、強いファジーマッチングと、弱いファジーマッチングと、不明(不特定の)マッチングと、ミスマッチングとを含む。
正確なマッチングは、データ項目又は要素が性格にマッチングした場合に起こる。強いファジーマッチングは、要素が正確なマッチングに達しないが、強く匹敵する場合に起こる。弱いファジーマッチングは、要素が正確なマッチングに達せず、弱く匹敵する場合に起こる。不明マッチングは、データがマッチングか、ミスマッチングかを決定するのに情報が不十分な場合に起こる。そしてミスマッチングは、項目が適合しない場合に起こる。
詳細には、本例示的な実施形態は、個々の証拠比較モジュールの個々の状態を以下のように決定する。比較モジュール431は、正確なマッチング(EX)状態、強いファジー(SF)状態、及び弱いファジー(WF)状態の3つの状態を有する。正確なマッチングが起こる場合、抽出された名前の全ての要素は、候補記録のそれらに正確に一致する。例えば、Abraham Lincolnは、Abraham Lincolnに正確にマッチングし、Abe Lincoln、Abraham Lincoln, Jr.、又はAbraham S. Lincolnにはマッチングしない。強いファジーマッチングの場合、タグ付けされたドキュメント内のファースト及びラストネームは、記録内のファースト及びラストネームにマッチングしなければならず、記録内にある全ての他の要素は、不明又は空欄であってもよい。従って、Abraham Lincolnは、Abraham Lincoln, Jr.及びAbraham S. Lincolnに強いファジーマッチングする。弱いファジーマッチングの場合、ラストネームのみがマッチングするが、全ての他の要素は、不明であるか、ニックネームのようなマッチングング変化形態を有する。従って、Abraham Lincolnは、Abe Lincolnに弱いファジーマッチングする。(図には示していないが、比較431は、名前及び一般的なニックネームのデータベース又はその変形を含み、或いはアクセス可能であり、それは、名前比較が、ファーストネームが正確にマッチングしないと判断した場合にアクセスする。しかしながら、他の実施形態では、そのようなニックネームを名前テンプレート自身に含ませても、或いは反対に、ニックネームの考慮を完全に省略してもよい。)
比較モジュール432は、正確なマッチング(EX)状態、強いファジー(SF)状態、弱いファジー(WF)状態、及びノーマッチング(NO)状態の4つの状態を有する。完全に特定された記述子の全ての要素がマッチングする場合、正確なマッチングが起こる。例えば、記述子「U.S. Supreme Court Justice」は、肩書き「U.S. Supreme Court Justice」に正確にマッチングする。全てではなくいくつかの記述子及び肩書きの要素がマッチングする場合、強いファジーマッチングが起こる。例えば、記述子「Supreme Court Justice」は、肩書き「U.S. Supreme Court Justice」に強いファジーマッチングする。記述子が、ディレクトリ範囲内の専門職と矛盾のない一般的な専門職を同定する場合、不明状態が起こる。例えば、記述子が「judge」で、ディレクトリ登録内の肩書きが「U.S. 8th Circuit Court Judge」である場合、マッチングは、不明又は不特定であるとみなされる。記述子が記録にある明細と矛盾又は不一致する場合、ミスマッチング又は「ノーマッチング」状態が起こる。例えば、記述子が「New York District Judge」で、ディレクトリ登録内の肩書きが「U.S. 8th Circuit Court Judge」である場合、マッチング状態はミスマッチングである。
位置証拠を比較する比較モジュール433は、正確なマッチング(EX)状態、強いファジー(SF)状態、弱いファジー(WF)状態、不明又は不特定(UN)状態、及びノーマッチング(NO)状態の5つの状態を有する。ドキュメント内で、抽出された名前に明示的にリンクする都市及び州の位置証拠が、ディレクトリ記録の都市及び州にマッチングする場合、正確なマッチングが起こる。例えば、位置が同一文で起こる場合、明示的なリンクが起こる。抽出された名前と同一段落内で起こる都市又は州が、候補ディレクトリ内の対応する都市又は州にマッチングする場合、強いファジーマッチングが起こる。抽出された名前と同一ドキュメント内であるが、同一段落外で起こる都市又は州が、ディレクトリ内に一覧する都市又は州にマッチングする場合、弱いファジーマッチングが起こる。抽出された名前が特定の都市又は州に明示的にリンクされず、テキストにある位置が候補記録内の都市又は州情報にマッチングしない場合、不明又は不特定状態が起こる。抽出された名前が候補記録内の都市又は州情報にマッチングしない都市又は州の名前に明示的にリンクする場合、ミスマッチングが起こる。
組織データを比較する比較モジュール434は、正確なマッチング(EX)状態、強いファジー(SF)状態、弱いファジー(WF)状態、不明又は不特定(UN)状態、及びノーマッチング(NO)状態の5つの状態を有する。抽出された名前がテキスト内の特定の組織に明示的にリンクされ、その組織が候補記録内の組織にマッチングする場合、正確なマッチングが起こる。例えば、位置が同一文で共起する場合、明示的なリンクが起こる。例えば、テキストがSmith & Jones社で働いているとして代理人を記載し、ディレクトリ登録が関連する法律事務所又は他の組織としてSmith & Jones社を一覧する場合、正確なマッチングが存在する。抽出された名前が同一の段落で抽出された組織として起こり、抽出された組織が候補記録内の組織にマッチングする場合、強いファジーマッチングが起こる。抽出された名前が同一のドキュメントだが、その段落外で起こり、抽出された組織が候補組織にマッチングする場合、弱いファジーマッチングが起こる。抽出された名前が特定の組織に明示的にリンクされず、テキスト内の組織の名前が候補記録の組織情報にマッチングする場合、不明マッチングが起こる。そして、抽出された名前が組織の名前に明示的にリンクされ、組織の名前が候補記録の組織の名前にマッチングしない場合、ミスマッチングが起こる。
以下の表に、例示的なベイズ推定エンジンにおける個々の証拠比較モジュールに対して効力のある様々な状態をまとめる。
Figure 2005539283
証拠比較モジュール431〜434は、それらに対応する比較を実施し、それらの結果を8つの条件付き確率の形で計算モジュール435に出力する。
計算モジュール435は、これらの条件付き確率と、入力名前テンプレートの一意性又は名前希少出現データとに基づいて、類似スコア又はマッチング確率を計算する。例示的な計算において、以下の形式のベイズの法則を用いる。
Figure 2005539283
ここで、P(M/E)は、テンプレートが、入力名前テンプレート及び候補記録のようなあるセットの証拠が与えられた候補記録に、マッチングする確率である。P(M)は、テンプレート及び履歴がマッチングする(即ち、同一人物に参照される)事前確率であり、P(−M)は、テンプレート及び履歴がマッチングしない事前確率である。本例示的な実施形態では、P(M)を、専門家集合内の名前一意性又は名前希少出現確率として定義し、P(−M)を以下のように定義する。
P(−M)=1−P(M) (12)
P(Ei/M)は、入力名前テンプレートが候補記録にマッチングする場合、Eiが特定の状態をとる条件付き確率である。例えば、E3が位置マッチング証拠を示す場合、P(E3/M)は、名前テンプレート及び候補記録がマッチングする場合、名前テンプレート及び候補記録内の位置情報が、比較モジュール433により決定されたマッチング状態(正確なマッチング、強いファジーマッチング、弱いファジーマッチング、不明マッチング、又はノーマッチング)を有する確率である。P(Ei/−M)は、名前テンプレートが専門家ディレクトリにあるいずれの記録にもマッチングしない場合、Eiが特定の状態をとる条件付き確率である。例えば、P(E3/−M)は、テンプレート及び候補がマッチングしない場合、名前テンプレート及び候補記録内の位置情報がマッチングする確率である。(他の実施形態では、より多い又はより少ない数の状態及び他の種類の共起する情報を含む。)
個々の候補記録名前テンプレート比較のスコアは、候補記録の候補記録同定424に関連する。図4に、この関係をスコア440と候補記録同定425との間の破線により示す。図3のブロック370において実施を続ける。
ブロック370では、リンクモジュールが、比較スコアに基づいて、入力ドキュメントにおいてタグ付けされた1つ以上の専門職の名前を1つ以上の候補専門家ディレクトリにリンクする。本例示的な実施形態において、これは、挿入371‘に示すように過程ブロック371〜375を実施することを含む。
ブロック371は、特定の名前テンプレートのため、候補記録から最もよい候補記録を選択する。詳細には、これは、最高の比較スコアを有する候補を選択することを含む。最高のスコアを有する単一の候補がない場合、本例示的な実施形態は、名前テンプレートのための候補の選択なしにブロック372に進む。しかしながら、他の実施形態では、ある形のタイブレイク(例えば、年代順に基づくもの)を採用し、又はリンクの精度における不確かさを適切にするメッセージと共に個々の最高等級の候補記録へのリンクを作成し、或いはユーザのために、最高等級の候補のメニューを表示するリンクを構築する。
ブロック372では、選択された候補記録が他の基準を満たすか決定する。この目的のため、本例示的な実施形態において、選択された候補記録のスコアが0.05以上のような所定の閾値の基準を満たすか決定する。しかしながら、他の実施形態では、候補記録を含む専門家ディレクトリとの商業的又は年代的な関係のような追加基準を用いる。候補記録がリンク基準の実施を満たす場合、ブロック373に継続する。
ブロック373は、入力ドキュメント内で考慮する少なくとも1つの名前の発生を、候補記録をホストする専門家ディレクトリにおける登録に、リンクするハイパーリンクを構築することを含む。本例示的な実施形態において、これは、ドキュメント内の全ての名前の発生に印を付け、ドキュメント内の候補記録を同定するURL(Uniform Resource Locator)を埋込むことを含む。(いくつかの実施形態において、候補参照同定及び入力ドキュメントのドキュメント同定番号は、名前に基づく検索を容易にするために用いることのできるインデックスと、専門家ディレクトリとドキュメントデータベースとの間をリンクする更なるドキュメントとに書込まれる。)印付けは、ドキュメント内の他のテキストに相対するフォントの変化のようないかなる数の形態を採ることができる。他の実施形態では、ディレクトリ内の特定の記録の代りに専門家ディレクトリを参照するハイパーリンクを挿入してもよい。他のテンプレートは、所定の文、段落、又はドキュメント内の正確な場所にハイパーリンクを置くのに用いられる文字オフセット情報を含む。更に他の実施形態では、所望のリンクを実施するため、ディレクトリ又はディレクトリ記録に送られる、又はそうでなければ経由する1つ以上の中間目的地に関するハイパーリンクを定義してもよい。
ブロック373でリンクを構築した後(ブロック372で、リンク基準に満たないと決定された後)、実施はブロック374に進む。ブロック374では、可能なリンクのため、入力ドキュメントが他の名前を含むかどうか決定する。肯定的な決定の場合、他の名前テンプレートの候補記録選択のため、実施はブロック371に戻り、否定的な決定の場合、実施はブロック375に分岐する。ブロック375は、更なる過程で他の入力ドキュメントを受取るため、実施をブロック310に戻す。
(トレーニングモジュール構造及び機能)
図5は、図4のベイズ推定エンジンで用いる条件付き確率を定義する例示的な構造及び機能を示すフローチャート500である。フローチャート500は、過程ブロック510〜560を含む。
ブロック510では、専門家ディレクトリで名前をマッチングしたと解されるタグ付けされた名前を有するトレーニングドキュメントのセットを受取ることにより実施が開始する。本例示的な実施形態では、トレーニングドキュメントは手作業によりタグ付けされるが、他の実施形態では、ドキュメントは自動的にタグ付けされてもよい。トレーニングドキュメントは、ローカル又は離れたデータベースに保持され、様々な移動技術を介して、トレーニングモジュールに通信される。
ブロック520は、タグ付けされた名前に基づき、トレーニングドキュメントからデータを抽出する。この目的のため、本例示的な実施形態は、リンクモジュール1272からの抽出モジュールを用いて、個々のタグ付けされた名前のために、名前テンプレートを生成し、個々のテンプレートは、抽出された名前と、抽出された記述子テキストと、抽出された位置リストと、抽出された組織リストとを含む。名前テンプレートは、図3の名前テンプレート340‘と類似の構造を有する。
ブロック530は、トレーニングデータ構造における名前に基づいて、1つ以上の専門家ディレクトリを検索することを含む。本例示的な実施形態では、これは、1つ以上の専門家ディレクトリを検索することと、更なる過程のため、名前テンプレートにあるラストネームにマッチングするラストネームと共にディレクトリ登録を回復することを含む。
ブロック540は、個々の証拠変数の個々の状態の条件付き確率を決定することを含む。本例示的な実施形態では、この決定は、手作業でタグ付けされたドキュメントセットのための名前テンプレートに基づいて、個々の比較状態の頻度の回数を決定することを含む。詳細には、タグ付けされた名前が手作業で候補記録にマッチングした場合、本実施形態では、名前、記述子、位置、及び組織のような個々の証拠変数のため、個々の特定の証拠状態が起こる回数を数える。次に、実施形態は、個々の証拠状態の回数を全マッチング数で割り、P(Ei/M)、即ちマッチングにより得られる個々の状態の条件付き確率を得る。正確には、本例示的な実施形態では、以下の公式を用いて、条件付き確率を決定する。
P(E=particular state/M)=a・y/z+(1−a)/x (13)
ここで、xは名前の3つの状態のような証拠変数Eiの証拠状態の数であり、yは例えば正確なマッチングのような特定の状態が起こったディレクトリ記録の数であり、zは代理人マッチングペアの総数であり、aは0.999のような補正定数である。
同様に、本例示的な実施形態では、候補の名前がテンプレートの名前とマッチングしない場合、個々の証拠状態が起こる回数を数え、それを全ミスマッチング数で割り、個々の状態のP(Ei/−M)、即ち名前におけるミスマッチングにより得られる特定の証拠状態マッチングの確率を得る。計算を軽減するため、いくつかの実施形態では、マッチング及び/又はミスマッチング候補記録を、例えば10番目の記録毎に選択することにより、見本をとってもよい。
(他の応用例)
図6は、本発明の教示するものが名前のハイパーリンクの生成を簡略化する以外の応用を有することを示す。特に、図6は、本発明の教示するものを組入れたデータ回復システムを作動する例示的な方法を示すフローチャート600である。フローチャート600は過程ブロック610〜670を含む。
ブロック610では、例示的な方法が情報のクエリを受取ることから始まる。本例示的な実施形態において、クエリはブール又は自然言語形態を有し、個人のような実体の名前を含む。いくつかの実施形態では、クエリは、クライアント・サーバ環境における、クライアントコンピュータ、又は図1のアクセスデバイス150の1つのようなアクセスデバイスにより提供され、前記アクセスデバイスは、図1のデータベースサーバ140のようなサーバにアクセスする。これらの場合、例示的な方法は、サーバ上のソフトウェアに組入れられる。しかしながら、他の実施形態では、クエリは、実施のためのサーバへの送信の前に、クライアント側で受取られ、(この例示的な方法に従って)処理してもよい。この場合、例示的な方法は、ブラウザ、ブラウザ付属品、クライアント側の基本ソフト、又は検索ソフトに組入れてもよい。
ブロック620は、クエリの曖昧さ又はクエリにある1つ以上の用語を決定することを含む。本例示的な実施形態において、これは、クエリにある少なくとも1つの名前を同定し、以下により名前一意性確率を計算することを含む。
P(nameUniqueness)=1/(H・P(name)+1) (14)
ここで、Hは、クエリにより目的とされるコーパス又はデータベースにおいて参照され得る人口母集団の見積もりの大きさである。Hを見積もる1つの方法は、参照され得る団体コーパスの大きさをとり、参照された団体の外部の人への必然的な参照を勘定に入れるため、数パーセント増やせばよい。P(name)は以下のように定義される。
P(name)=P(first name)・P(last name) (15)
ここで、P(first name)は専門家ディレクトリのような関連する検索母集団内の全てのファーストネームから無作為にファーストネームが導かれる確率であり、同様に、P(last name)は母集団内の全てのラストネームから無作為にラストネームが導かれる確率である。
ブロック630は、クエリにある名前(又は他の部分)の決定された曖昧さに基づくクエリの回答を補助する追加情報を要求するかどうか決定する。例示的な実施形態において、これは、計算された名前一意性確率を閾値と比較することを含む。名前一意性確率が閾値より小さい場合、実施はブロック640に進み、それ以外の実施は660に続く。
ブロック640は、クエリに関する追加情報を得ることを含む。1つの例示的な実施形態において、追加情報を得ることは、ユーザに、クエリにある名前のようなクエリの1つ以上の曖昧な部分に関連する追加情報を要求することを含む。いくつかの実施形態において、前記要求は、名前に関連する専門職、位置、及び/又は組織に関連する情報を要求するダイアログ枠として表示される。
他の実施形態では、追加情報を得ることは、同定された名前又は名前の部分のような受取ったクエリの1つ以上の曖昧な部分に基づく1つ以上のクエリを自動的に形成し、例えば、専門家ディレクトリや、他のデータに関連する名前を含む他のデータベースのような1つ以上のデータベースに対するクエリを実施することを含む。例えば、1つのクエリは、受取ったクエリに同定される名前のラストネームにマッチングするラストネームを有する記録又は記録の部分を要求できる。1つの実施形態では、記録の部分は、位置、組織、及び/又は専門家肩書き情報を含む。追加情報を得た後、実施は、ブロック650に進む。
ブロック650は、追加情報に基づいてクエリを変更することを含む。ユーザから追加情報を要求する1つの実施形態において、クエリの変更は、例えば、1つ以上の追加されたテキスト群のような、追加情報の1つ以上の部分をクエリに追加することを含む。しかしながら、いくつかの他の実施例は、ANDオペレータのような検索オペレータや、追加情報の1つ以上の部分を追加することによりクエリを変更する。更に他の実施形態、特に、追加情報をサブクエリの自動的な使用を介して得るいくつかの実施形態では、クエリの変更は、ブロック650で得られる都市、州、組織、及び専門家肩書きのような追加情報を用いて、1つ以上のサブクエリを加えることを含む。いくつかの他の実施例では、クエリの変更は、例えば、追加情報に基づいて、クエリの目的とされる1つ以上のデータベースを足したり引いたりすることにより、検索の範囲を変更することを含む。
ブロック660は、元のクエリ又は変更されたクエリに基づいて、検索を実行する。1つの例示的な実施形態において、変更されたクエリに基づいて検索することは、元の目的とされるデータベース及び/又は1つ以上の他のデータベースに対する検索を実施することを含む。実施は、ブロック670に続く。
ブロック670は、クエリの結果を出力することを含む。本例示的な実施形態では、これは、ディスプレイ上に結果を出力することを含む。追加情報に基づき、サブクエリを加えることにより、受取ったクエリを変更する1つの実施形態において、結果の出力は、受取った元のクエリの結果と、サブクエリの結果とを、ディスプレイ画面上の異なる領域に表示することを含む。この実施形態のいくつかの変形例において、両方の領域における結果は並置される。
本発明が教示するものの更に他への応用は、有名な名前、政治家、有名人に基づくデータベースの新規名前ディレクトリを生成すること、現行のディレクトリにおけるギャップを埋めること、ディレクトリにおけるギャップを同定し、発見することを含む。他の応用例は、書類の自動生成と、個人、ビジネス、資産、公文書、及び私文書の相互参照とを含む。
(結果)
技術推進において、本発明者は、専門家ディレクトリ又は他の種類のデータベースにおけるドキュメント又は記録のような他のデータ構造における名前の論理的な関連を容易にする様々な例示的なシステム、方法、及びソフトウェアを示した。更に本発明者は、実体の名前のような曖昧なクエリ用語に基づき、クエリを処理したり、増加させる様々なシステム、方法、及びソフトウェアを示した。
以上に説明した本実施形態は、本発明を実施又は実行する1つ以上の方法を表示し、教示することのみを意図するものであり、その範囲を限定するものではない。本発明の実質的な範囲は、本発明の教示するものを実施又は実行するあらゆる方法を包含し、ここに示す特許請求の範囲及びそれに等価なものによってのみ定義される。
図1は、本発明の技術を組入れた例示的なシステム100のブロック図である。 図2は、名前を分類し、リンクするのに用いる表示又は記述子を定義するシステム100の機能の例示的な方法を示すフローチャートである。 図3は、図5により教示されるベイズ推定ネットワークに基づく、ドキュメントにある名前とデータベースにある名前との間でのハイパーリンクを定義するシステム100の機能の例示的な方法を示すフローチャートである。 図4は、ハイパーリンクを定義するシステム100の機能に用いられる例示的なベイズ推定システムのブロック図である。 図5は、ドキュメントにある名前とデータベースにある名前とが同一人物である確率の測定に用いられるベイズ推定ネットワークを教示するシステム100の機能の例示的な方法を示すフローチャートである。 図6は、本発明の教示するものを組入れた例示的な検索方法を示すフローチャートである。

Claims (39)

  1. コンピュータにより実施される方法であって、
    ドキュメント内にある名前を同定する工程と、
    該名前のための希少出現標識を決定する工程と、
    該希少出現標識に基づいて該名前のハイパーリンクを定義する工程とを
    含むことを特徴とする方法。
  2. 請求項1に記載のコンピュータにより実施される方法であって、
    前記名前が、人の名前であることを特徴とする方法。
  3. 請求項1に記載のコンピュータにより実施される方法であって、
    前記希少出現標識が、関連する人口母集団の1セットの見本の名前の代表から無作為に前記名前の少なくとも1つの部分を導く確率に基づく数量であることを特徴とする方法。
  4. 請求項1に記載のコンピュータにより実施される方法であって、
    前記希少出現標識が、人口母集団の大きさと、無作為に前記名前の第1の部分を導く確率と、無作為に前記名前の第2の部分を導く確率とに基づく数量であることを特徴とする方法。
  5. 請求項1に記載のコンピュータにより実施される方法であって、
    前記第1の部分が前記名前のファーストネーム部分であり、前記第2の部分が前記名前のラストネーム部分であることを特徴とする方法。
  6. 請求項1に記載のコンピュータにより実施される方法であって、
    前記希少出現標識に基づいて前記名前のハイパーリンクを定義する前記工程が、
    前記ドキュメントから1つ以上の人以外の名前用語を同定する工程と、
    前記名前の少なくとも1つの部分に基づいてデータベース内の1つ以上の候補記録を同定する工程と、
    個々の該候補記録のための該人以外の名前用語を前記ドキュメントからの該人以外の名前用語と比較する工程と、
    1つ以上の数量を、各々、前記人の名前のための前記希少出現標識と、該候補記録の1つのための該人以外の名前用語の比較とに基づいて計算する工程と、
    該計算された1つ以上の数量に基づいて前記ハイパーリンクを定義する工程とを
    含むことを特徴とする方法。
  7. 請求項6に記載のコンピュータにより実施される方法であって、
    1つ以上の数量を、各々、前記人の名前のための前記希少出現標識と、前記候補記録の1つのための前記人以外の名前用語の比較とに基づいて計算する前記工程が、ベイズ推定エンジンを用いることを含むことを特徴とする方法。
  8. 請求項6に記載のコンピュータにより実施される方法であって、
    前記計算された1つ以上の数量に基づいて前記ハイパーリンクを定義する前記工程が、
    前記数量を閾値と比較する工程と、
    該閾値を越えた前記数量の最大のものに基づいて前記ハイパーリンクを定義する工程とを
    含むことを特徴とする方法。
  9. 請求項8に記載のコンピュータにより実施される方法であって、
    前記閾値を越えた前記数量の最大のものに基づいて前記ハイパーリンクを定義する前記工程が、前記数量の最大のものに対応する前記候補記録を選定するようハイパーリンクを定義することを含むことを特徴とする方法。
  10. 機械読取り可能な媒体であって、
    請求項1に記載のコンピュータにより実施される方法を実行するための機械実施可能な命令を含むことを特徴とする媒体。
  11. 機械読取り可能な媒体であって、
    請求項9に記載のコンピュータにより実施される方法を実行するための機械実施可能な命令を含むことを特徴とする媒体。
  12. ハイパーリンクを人の名前を含むドキュメントに加えるシステムであって、
    少なくとも1つのプロセッサと、
    該プロセッサに接続されたメモリとを含むシステムであり、該メモリが、
    ドキュメント内にある名前を同定する命令と、
    該名前のための希少出現標識を決定する命令と、
    該希少出現標識に基づいて該名前のハイパーリンクを定義する命令とを
    含むことを特徴とするシステム。
  13. 請求項12に記載のシステムであって、
    前記名前が、人の名前であることを特徴とするシステム。
  14. 請求項12に記載のシステムであって、
    前記希少出現標識が、関連する人口母集団の1セットの見本の名前の代表から無作為に前記名前の少なくとも1つの部分を導く確率に基づく数量であることを特徴とするシステム。
  15. 請求項12に記載のシステムであって、
    前記希少出現標識が、人口母集団の大きさと、関連する人口母集団の1セットの見本の名前の代表から無作為に前記名前の第1の部分を導く確率と、無作為に前記名前の第2の部分を導く確率とに基づく数量であることを特徴とするシステム。
  16. 請求項12に記載のシステムであって、
    前記希少出現標識に基づいて前記名前のハイパーリンクを定義する前記命令が、
    前記ドキュメントから1つ以上の人以外の名前用語を同定する命令と、
    前記名前の少なくとも1つの部分に基づいてデータベース内の1つ以上の候補記録を同定する命令と、
    個々の該候補記録のための該人以外の名前用語を前記ドキュメントからの該人以外の名前用語と比較する命令と、
    1つ以上の数量を、各々、前記人の名前のための前記希少出現標識と、該候補記録の1つのための該人以外の名前用語の比較とに基づいて計算する命令と、
    該計算された1つ以上の数量に基づいて前記ハイパーリンクを定義する命令とを
    含むことを特徴とするシステム。
  17. コンピュータにより実施される方法であって、
    1セットの1つ以上のドキュメント内にある1つ以上の人の名前を同定し、個々の同定された人の名前が、該ドキュメント内にある他の人の名前より専門職の単一の人に参照される可能性が大きくなるように同定する工程と、
    該同定された名前に基づいて、1つ以上のドキュメントからの記述的な言語を同定する工程と、
    該同定された記述的な言語の1つ以上の部分に基づいて、該専門職の人に参照される他の人の名前を、1つ以上のドキュメント内で同定する工程とを
    含むことを特徴とする方法。
  18. 請求項17に記載のコンピュータにより実施される方法であって、
    1セットのドキュメント内にある人の名前を同定する前記工程が、
    前記セットのドキュメント内にある、各々が少なくともラストネームを含む複数の人の名前を同定する工程と、
    検索母集団内にあるセットのラストネームから無作為にそのラストネームを導く確率に基づいて、個々の該複数の人の名前のための数量を計算する工程とを
    含むことを特徴とする方法。
  19. 請求項17に記載のコンピュータにより実施される方法であって、
    セットのラストネームから無作為にそのラストネームを導く確率に基づいて、個々の前記複数の人の名前のための数量を計算する前記工程が、
    人口母集団の大きさと、関連する検索母集団内にある全てのファーストネームから無作為に前記名前の第1の部分を導く確率と、前記検索母集団内にある全ての前記ラストネームから無作為に前記名前の第2の部分を導く確率とに基づく数量を計算する工程を含むことを特徴とする方法。
  20. 請求項17に記載のコンピュータにより実施される方法であって、
    前記同定された名前に基づいて、1つ以上のドキュメントからの記述的な言語を同定する前記工程が、前記同定された名前に関連する同格語を同定する工程を含むことを特徴とする方法。
  21. 請求項17に記載のコンピュータにより実施される方法であって、
    前記セットのドキュメント内にある前記同定された名前に基づいて、1つ以上のドキュメントからの記述的な言語を同定する前記工程が、
    1つ以上の前記同定された名前に先行する1つ以上の第1の用語と、1つ以上の前記同定された名前に追尾する1つ以上の第2の用語とを含むセットの用語を同定する工程を含むことを特徴とする方法。
  22. 請求項17に記載のコンピュータにより実施される方法であって、
    前記1つ以上の第1の用語が言葉の1つ以上の部分を含み、前記1つ以上の第2の用語が言葉の1つ以上の部分を含むことを特徴とする方法。
  23. 機械読取り可能な媒体であって、
    請求項16に記載のコンピュータにより実施される方法を実行するための機械実施可能な命令を含むことを特徴とする媒体。
  24. システムであって、
    少なくとも1つのプロセッサと、
    該プロセッサに接続されたメモリとを含むシステムであり、該メモリが、
    1セットの1つ以上のドキュメント内にある1つ以上の人の名前を同定し、個々の同定された人の名前が、該ドキュメント内にある他の人の名前より専門職の単一の人に参照される可能性が大きくなるように同定する命令と、
    該同定された名前に基づいて、1つ以上のドキュメントからの記述的な言語を同定する命令と、
    該同定された記述的な言語の1つ以上の部分に基づいて、それらの名前一意性に関係なく、該専門職の人に参照される他の人の名前を、1つ以上のドキュメント内で同定する命令とを
    含むことを特徴とするシステム。
  25. データ構造であって、
    名前と、
    どのくらいの頻度で該名前が母集団内にある2つ以上の実体に参照されるかを表示する名前希少出現標識とを
    含むことを特徴とするデータ構造。
  26. 請求項25に記載のデータ構造であって、
    前記名前と共に存在する、ドキュメント内にある1つ以上の組織と、
    前記名前と共に存在する、ドキュメント内にある1つ以上の位置とを
    含むことを特徴とするデータ構造。
  27. 請求項2に記載のデータ構造であって、
    前記名前に対する個々の組織及び個々の位置の相対的位置を表示する位置情報を更に含むことを特徴とするデータ構造。
  28. コンピュータにより実施される方法であって、
    実体の名前を含む検索クエリを受取る工程と、
    該名前が母集団内でどのくらい希少であるかの測定を決定する工程と、
    該決定された測定に応じて、該クエリの回答を補助するための追加情報を得る工程とを
    含むことを特徴とする方法。
  29. 請求項28に記載のコンピュータにより実施される方法であって、
    前記決定された測定に応じて、前記クエリの回答を補助するための追加情報を得る前記工程が、
    前記測定を閾値と比較する工程と、
    前記測定が該閾値より小さい場合、追加情報を要求する工程とを
    含むことを特徴とする方法。
  30. 請求項28に記載のコンピュータにより実施される方法であって、
    前記追加情報に基づいて、前記検索クエリを更新する工程を更に含むことを特徴とする方法。
  31. 請求項28に記載のコンピュータにより実施される方法であって、
    追加情報を要求する前記工程が、専門職、位置、及び/又は組織に関連する情報を要求する工程を含むことを特徴とする方法。
  32. 請求項28に記載のコンピュータにより実施される方法であって、
    前記決定された測定に応じて、前記クエリの回答を補助するための追加情報を得る前記工程が、
    前記測定を閾値と比較する工程と、
    前記名前に基づいて、1つ以上のデータベースを検索する工程と、
    該1つ以上のデータベースの検索結果に基づいて、前記クエリを更新又は補う工程を含むことを特徴とする方法。
  33. 請求項28に記載のコンピュータにより実施される方法であって、
    前記クエリを更新又は補う前記工程が、
    各々が前記名前に関連する専門家肩書き、組織、又は位置についての情報を含む複数のサブクエリを定義する工程を含むことを特徴とする方法。
  34. コンピュータにより実施される方法であって、
    母集団内にある名前の希少出現を決定することを特徴とする方法。
  35. 請求項34に記載のコンピュータにより実施される方法であって、
    少なくともその1部が前記決定された希少出現に基づいて定義されるハイパーリンクを前記名前に関連付ける工程を更に含むことを特徴とする方法。
  36. 請求項34に記載のコンピュータにより実施される方法であって、
    前記名前の少なくとも1つの発生を含むドキュメントを受取る工程と、
    その希少出現を決定する前に、該ドキュメント内にある前記名前を同定する工程とを
    更に含むことを特徴とする方法。
  37. 請求項34に記載のコンピュータにより実施される方法であって、
    前記名前が、人の名前であることを特徴とする方法。
  38. システムであって、
    母集団内にある名前の希少出現を決定する手段を含むことを特徴とするシステム。
  39. 請求項38に記載のシステムであって、
    少なくともその1部が前記決定された希少出現に基づいて定義されるハイパーリンクを前記名前に関連付ける手段を更に含むことを特徴とするシステム。
JP2003560793A 2001-12-21 2002-12-20 名前をハイパーリンクするためのシステム、方法、及びソフトウェア Expired - Fee Related JP4436909B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US34295601P 2001-12-21 2001-12-21
US10/171,170 US7333966B2 (en) 2001-12-21 2002-06-13 Systems, methods, and software for hyperlinking names
PCT/US2002/041144 WO2003060767A2 (en) 2001-12-21 2002-12-20 System, method and software for automatic hyperlinking of persons’ names in documents to professional directories

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009105735A Division JP5252725B2 (ja) 2001-12-21 2009-04-23 名前をハイパーリンクするためのシステム、方法、及びソフトウェア

Publications (2)

Publication Number Publication Date
JP2005539283A true JP2005539283A (ja) 2005-12-22
JP4436909B2 JP4436909B2 (ja) 2010-03-24

Family

ID=26866803

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003560793A Expired - Fee Related JP4436909B2 (ja) 2001-12-21 2002-12-20 名前をハイパーリンクするためのシステム、方法、及びソフトウェア
JP2009105735A Expired - Lifetime JP5252725B2 (ja) 2001-12-21 2009-04-23 名前をハイパーリンクするためのシステム、方法、及びソフトウェア

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009105735A Expired - Lifetime JP5252725B2 (ja) 2001-12-21 2009-04-23 名前をハイパーリンクするためのシステム、方法、及びソフトウェア

Country Status (10)

Country Link
US (2) US7333966B2 (ja)
EP (3) EP2336903A1 (ja)
JP (2) JP4436909B2 (ja)
CN (1) CN1623146B (ja)
AT (1) ATE530989T1 (ja)
AU (3) AU2002364593B2 (ja)
CA (3) CA2754006C (ja)
ES (1) ES2378653T3 (ja)
NZ (3) NZ567455A (ja)
WO (1) WO2003060767A2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008529171A (ja) * 2005-01-28 2008-07-31 トムソン グローバル リソーシーズ 判例法、法律上の訴訟事件摘要書および/または訴訟ドキュメントの法律事務所のワークフローへの統合のためのシステム、方法およびソフトウェア
JP2009510639A (ja) * 2005-10-04 2009-03-12 トムソン グローバル リソーシーズ 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
JP2009181183A (ja) * 2008-01-29 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 人名表現同定装置、その方法、プログラム及び記録媒体
JP2010503066A (ja) * 2006-09-01 2010-01-28 トムソン ルーターズ グローバル リソーシーズ 法律的引用をフォーマットするためのシステム、方法、ソフトウェア、およびインターフェイス
JP2011505638A (ja) * 2007-12-06 2011-02-24 グーグル・インコーポレーテッド Cjk名前検出
JP2011191982A (ja) * 2010-03-15 2011-09-29 Nippon Telegr & Teleph Corp <Ntt> 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
JP2013518357A (ja) * 2010-01-29 2013-05-20 ダン アンド ブラッドストリート コーポレーション 所属データと商用データコンテンツとの集約および関連付けのシステムおよび方法
JP2013109364A (ja) * 2013-01-15 2013-06-06 Google Inc Cjk名前検出
JP2013186798A (ja) * 2012-03-09 2013-09-19 Dainippon Printing Co Ltd リンク付与装置、リンク付与方法、およびプログラム

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003719B1 (en) * 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
US20040205484A1 (en) * 2002-05-01 2004-10-14 Pennington Stanford E. System and method for dynamically generating customized pages
US6856679B2 (en) * 2002-05-01 2005-02-15 Sbc Services Inc. System and method to provide automated scripting for customer service representatives
US7766743B2 (en) * 2002-08-29 2010-08-03 Douglas Schoellkopf Jebb Methods and apparatus for evaluating a user's affinity for a property
CN100517300C (zh) 2002-11-28 2009-07-22 皇家飞利浦电子股份有限公司 分配词类信息的设备和方法
US7792827B2 (en) * 2002-12-31 2010-09-07 International Business Machines Corporation Temporal link analysis of linked entities
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
AU2011204902B2 (en) * 2003-12-31 2015-01-15 Thomson Reuters Enterprise Centre Gmbh Systems, Methods, Interfaces And Software For Automated Collection And Integration Of Entity Data Into Online Databases And Professional Directories
AR047362A1 (es) 2003-12-31 2006-01-18 Thomson Global Resources Ag Sistemas, metodos, interfases y software para recoleccion automatizada e integracion de datos de entidades en bases de datos y directorios profesionales en linea.
US20050149851A1 (en) * 2003-12-31 2005-07-07 Google Inc. Generating hyperlinks and anchor text in HTML and non-HTML documents
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
US7424472B2 (en) * 2005-05-27 2008-09-09 Microsoft Corporation Search query dominant location detection
US8689134B2 (en) 2006-02-24 2014-04-01 Dana W. Paxson Apparatus and method for display navigation
US8091017B2 (en) * 2006-07-25 2012-01-03 Paxson Dana W Method and apparatus for electronic literary macramé component referencing
US7810021B2 (en) * 2006-02-24 2010-10-05 Paxson Dana W Apparatus and method for creating literary macramés
US8595245B2 (en) * 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
US9026514B2 (en) * 2006-10-13 2015-05-05 International Business Machines Corporation Method, apparatus and article for assigning a similarity measure to names
US10635455B2 (en) * 2007-02-13 2020-04-28 Oracle International Corporation Simplifying understanding of procedure dependencies in a form definition
US20110179344A1 (en) * 2007-02-26 2011-07-21 Paxson Dana W Knowledge transfer tool: an apparatus and method for knowledge transfer
US20140257939A9 (en) * 2007-06-05 2014-09-11 Mark Britton Rating system that characterizes attorneys based on attributes
US7912767B1 (en) * 2007-10-29 2011-03-22 Intuit Inc. Tax preparation system facilitating remote assistance
US20090222395A1 (en) * 2007-12-21 2009-09-03 Marc Light Systems, methods, and software for entity extraction and resolution coupled with event and relationship extraction
US9501467B2 (en) 2007-12-21 2016-11-22 Thomson Reuters Global Resources Systems, methods, software and interfaces for entity extraction and resolution and tagging
US8788523B2 (en) * 2008-01-15 2014-07-22 Thomson Reuters Global Resources Systems, methods and software for processing phrases and clauses in legal documents
WO2009097558A2 (en) * 2008-01-30 2009-08-06 Thomson Reuters Global Resources Financial event and relationship extraction
US8423882B2 (en) * 2008-02-27 2013-04-16 International Business Machines Corporation Online navigation of choice data sets
US20090248595A1 (en) * 2008-03-31 2009-10-01 Yumao Lu Name verification using machine learning
US8843522B2 (en) 2008-09-15 2014-09-23 Thomson Reuters (Markets) Llc Systems and methods for rapid delivery of tiered metadata
US10346835B1 (en) * 2008-10-07 2019-07-09 United Services Automobile Association (Usaa) Systems and methods for presenting recognizable bank account transaction descriptions compiled through customer collaboration
US8234274B2 (en) * 2008-12-18 2012-07-31 Nec Laboratories America, Inc. Systems and methods for characterizing linked documents using a latent topic model
US8250124B2 (en) * 2009-01-29 2012-08-21 Hewlett-Packard Development Company, L.P. Assigning content to an entry in directory
US8190538B2 (en) * 2009-01-30 2012-05-29 Lexisnexis Group Methods and systems for matching records and normalizing names
US8949241B2 (en) * 2009-05-08 2015-02-03 Thomson Reuters Global Resources Systems and methods for interactive disambiguation of data
BR112012026345A2 (pt) * 2010-04-14 2020-08-25 The Dun And Bradstreet Corporation imputação de atributos acionáveis a dados que descrevem uma identidade pessoal
US11386510B2 (en) 2010-08-05 2022-07-12 Thomson Reuters Enterprise Centre Gmbh Method and system for integrating web-based systems with local document processing applications
US10089390B2 (en) * 2010-09-24 2018-10-02 International Business Machines Corporation System and method to extract models from semi-structured documents
US9104979B2 (en) * 2011-06-16 2015-08-11 Microsoft Technology Licensing, Llc Entity recognition using probabilities for out-of-collection data
US8706723B2 (en) * 2011-06-22 2014-04-22 Jostle Corporation Name-search system and method
US9361131B1 (en) * 2011-06-24 2016-06-07 Amazon Technologies, Inc. Network resource access via a mobile shell
US9454528B2 (en) * 2011-10-17 2016-09-27 Xerox Corporation Method and system for creating ordered reading lists from unstructured document sets
US8812496B2 (en) * 2011-10-24 2014-08-19 Xerox Corporation Relevant persons identification leveraging both textual data and social context
US11455350B2 (en) * 2012-02-08 2022-09-27 Thomson Reuters Enterprise Centre Gmbh System, method, and interfaces for work product management
CN103365831B (zh) * 2012-03-29 2017-07-21 深圳市世纪光速信息技术有限公司 一种为文本添加超级链接的方法和装置
US10089697B2 (en) * 2013-01-25 2018-10-02 Capital One Services, Llc Systems and methods for extracting information from a transaction description
US9286291B2 (en) * 2013-02-15 2016-03-15 International Business Machines Corporation Disambiguation of dependent referring expression in natural language processing
US9110869B2 (en) * 2013-09-27 2015-08-18 Nokia Technologies Oy Visual representation of a character identity and a location identity
GB201320334D0 (en) 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
US10628411B2 (en) * 2013-11-20 2020-04-21 International Business Machines Corporation Repairing a link based on an issue
US9990340B2 (en) 2014-02-03 2018-06-05 Bluebeam, Inc. Batch generation of links to documents based on document name and page content matching
JP5723472B1 (ja) * 2014-08-07 2015-05-27 廣幸 田中 データリンク生成装置、データリンク生成方法、データリンク構造および電子ファイル
US10409909B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US10409910B2 (en) 2014-12-12 2019-09-10 Omni Ai, Inc. Perceptual associative memory for a neuro-linguistic behavior recognition system
US9535903B2 (en) 2015-04-13 2017-01-03 International Business Machines Corporation Scoring unfielded personal names without prior parsing
WO2017017533A1 (en) 2015-06-11 2017-02-02 Thomson Reuters Global Resources Risk identification and risk register generation system and engine
CN106709318B (zh) * 2017-01-24 2019-05-03 腾云天宇科技(北京)有限公司 一种用户设备唯一性的识别方法、装置和计算设备
US10599129B2 (en) * 2017-08-04 2020-03-24 Duro Labs, Inc. Method for data normalization
US11176156B2 (en) * 2019-05-10 2021-11-16 Salesforce.Com, Inc. Efficiently and accurately assessing the number of identifiable records for creating personal profiles
US11861296B2 (en) * 2021-09-08 2024-01-02 Google Llc People suggestion in collaborative online text editors

Family Cites Families (185)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US174105A (en) * 1876-02-29 Improvement in jig-saws
US3872448A (en) 1972-12-11 1975-03-18 Community Health Computing Inc Hospital data processing system
US4384288A (en) 1980-12-31 1983-05-17 Walton Charles A Portable radio frequency emitting identifier
US4799258A (en) 1984-02-13 1989-01-17 National Research Development Corporation Apparatus and methods for granting access to computers
US4575621A (en) 1984-03-07 1986-03-11 Corpra Research, Inc. Portable electronic transaction device and system therefor
US4817050A (en) 1985-11-22 1989-03-28 Kabushiki Kaisha Toshiba Database system
US4893270A (en) 1986-05-12 1990-01-09 American Telephone And Telegraph Company, At&T Bell Laboratories Medical information system
US4887212A (en) 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4958283A (en) 1987-07-08 1990-09-18 Kabushiki Kaisha Toshiba Method and system for storing and communicating medical image data
US4864501A (en) 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US4878175A (en) 1987-11-03 1989-10-31 Emtek Health Care Systems Method for generating patient-specific flowsheets by adding/deleting parameters
US5157783A (en) 1988-02-26 1992-10-20 Wang Laboratories, Inc. Data base system which maintains project query list, desktop list and status of multiple ongoing research projects
US4994966A (en) 1988-03-31 1991-02-19 Emerson & Stern Associates, Inc. System and method for natural language parsing by initiating processing prior to entry of complete sentences
US5146439A (en) 1989-01-04 1992-09-08 Pitney Bowes Inc. Records management system having dictation/transcription capability
US5408655A (en) 1989-02-27 1995-04-18 Apple Computer, Inc. User interface system and method for traversing a database
US5842224A (en) 1989-06-16 1998-11-24 Fenner; Peter R. Method and apparatus for source filtering data packets between networks of differing media
US5860136A (en) 1989-06-16 1999-01-12 Fenner; Peter R. Method and apparatus for use of associated memory with large key spaces
US5418942A (en) 1989-07-06 1995-05-23 Krawchuk; Kenneth V. System and method for storing and managing information
US5065315A (en) 1989-10-24 1991-11-12 Garcia Angela M System and method for scheduling and reporting patient related services including prioritizing services
US5233513A (en) 1989-12-28 1993-08-03 Doyle William P Business modeling, software engineering and prototyping method and apparatus
US5253362A (en) 1990-01-29 1993-10-12 Emtek Health Care Systems, Inc. Method for storing, retrieving, and indicating a plurality of annotations in a data cell
US5218697A (en) 1990-04-18 1993-06-08 Microsoft Corporation Method and system for networking computers having varying file architectures
US5291399A (en) 1990-07-27 1994-03-01 Executone Information Systems, Inc. Method and apparatus for accessing a portable personal database as for a hospital environment
US5317729A (en) 1990-10-24 1994-05-31 International Business Machines Corporation Method for the storage of multi-versioned data with retrieval based on searched query
US5297249A (en) 1990-10-31 1994-03-22 International Business Machines Corporation Hypermedia link marker abstract and search services
US5204947A (en) 1990-10-31 1993-04-20 International Business Machines Corporation Application independent (open) hypermedia enablement services
US5581460A (en) 1990-11-06 1996-12-03 Kabushiki Kaisha Toshiba Medical diagnostic report forming apparatus capable of attaching image data on report
US5414838A (en) 1991-06-11 1995-05-09 Logical Information Machine System for extracting historical market information with condition and attributed windows
CA2066559A1 (en) 1991-07-29 1993-01-30 Walter S. Rosenbaum Non-text object storage and retrieval
US5377323A (en) 1991-09-13 1994-12-27 Sun Microsytems, Inc. Apparatus and method for a federated naming system which can resolve a composite name composed of names from any number of disparate naming systems
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5488725A (en) 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
JP3300391B2 (ja) 1991-10-11 2002-07-08 株式会社東芝 画像処理装置
US5283884A (en) 1991-12-30 1994-02-01 International Business Machines Corporation CKD channel with predictive track table
US5490250A (en) 1991-12-31 1996-02-06 Amdahl Corporation Method and apparatus for transferring indication of control error into data path of data switcher
US5361346A (en) 1992-01-15 1994-11-01 Santa Monica Pioneer Research Inc. Portable tester (qualifier) for evaluating and testing SCSI interface magnetic disc drives in accordance with ANSI SCSI-A and SCSI-2 definitions
US5434974A (en) 1992-03-30 1995-07-18 International Business Machines Corporation Name resolution for a multisystem network
US5319711A (en) 1992-08-19 1994-06-07 Gte Laboratories Incorporated Wireless device for verifying identification
US5515534A (en) 1992-09-29 1996-05-07 At&T Corp. Method of translating free-format data records into a normalized format based on weighted attribute variants
US5459860A (en) 1992-10-05 1995-10-17 International Business Machines Corporation Computerized system and process for managing a distributed database system
US5558638A (en) 1993-04-30 1996-09-24 Healthdyne, Inc. Patient monitor and support system
US5544352A (en) 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5361202A (en) 1993-06-18 1994-11-01 Hewlett-Packard Company Computer display system and method for facilitating access to patient data records in a medical information system
US5506984A (en) 1993-06-30 1996-04-09 Digital Equipment Corporation Method and system for data retrieval in a distributed system using linked location references on a plurality of nodes
US5438655A (en) 1993-07-29 1995-08-01 Hewlett-Packard Company Methods and apparatus for updating and antialiasing waveforms
US5477215A (en) 1993-08-02 1995-12-19 At&T Corp. Arrangement for simultaneously interrogating a plurality of portable radio frequency communication devices
US6339767B1 (en) 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US5806079A (en) 1993-11-19 1998-09-08 Smartpatents, Inc. System, method, and computer program product for using intelligent notes to organize, link, and manipulate disparate data objects
US5497317A (en) 1993-12-28 1996-03-05 Thomson Trading Services, Inc. Device and method for improving the speed and reliability of security trade settlements
US5822720A (en) 1994-02-16 1998-10-13 Sentius Corporation System amd method for linking streams of multimedia data for reference material for display
US5560005A (en) 1994-02-25 1996-09-24 Actamed Corp. Methods and systems for object-based relational distributed databases
US6141663A (en) 1994-03-18 2000-10-31 Unimax Systems Corporation Automatic external data synchronization method
DE69408439T2 (de) 1994-03-22 1998-09-17 Agfa Gevaert Nv Verfahren zur Identifizierung eines Strahlungsbildes
CA2125300C (en) 1994-05-11 1999-10-12 Douglas J. Ballantyne Method and apparatus for the electronic distribution of medical information and patient services
US5557539A (en) 1994-06-13 1996-09-17 Centigram Communications Corporation Apparatus and method for testing an interactive voice messaging system
US5608900A (en) 1994-06-21 1997-03-04 Internationl Business Machines Corp. Generation and storage of connections between objects in a computer network
US5535372A (en) 1994-07-06 1996-07-09 International Business Machines Corporation Method and apparatus for efficient updating of CKD data stored on fixed block architecture devices
US5623652A (en) 1994-07-25 1997-04-22 Apple Computer, Inc. Method and apparatus for searching for information in a network and for controlling the display of searchable information on display devices in the network
US5434932A (en) 1994-07-28 1995-07-18 West Publishing Company Line alignment apparatus and process
US5629981A (en) 1994-07-29 1997-05-13 Texas Instruments Incorporated Information management and security system
US5603025A (en) 1994-07-29 1997-02-11 Borland International, Inc. Methods for hypertext reporting in a relational database management system
US5715445A (en) 1994-09-02 1998-02-03 Wolfe; Mark A. Document retrieval system employing a preloading procedure
US5659676A (en) 1994-09-20 1997-08-19 International Business Machines Corporation Systems and methods for creating and refreshing compound documents
EP0792493B1 (en) 1994-11-08 1999-08-11 Vermeer Technologies, Inc. An online service development tool with fee setting capabilities
US5630852A (en) * 1994-11-23 1997-05-20 Fmc Corporation Organophosphorus additives for improved fuel lubricity
US5617565A (en) 1994-11-29 1997-04-01 Hitachi America, Ltd. Broadcast interactive multimedia system
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
FR2728088A1 (fr) 1994-12-13 1996-06-14 Inst Nat Rech Inf Automat Procede d'echange d'informations en mode client/serveur, entre stations reliees par un reseau de communication
US5530852A (en) 1994-12-20 1996-06-25 Sun Microsystems, Inc. Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics
GB9426165D0 (en) 1994-12-23 1995-02-22 Anthony Andre C Method of retrieving and displaying data
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5873077A (en) 1995-01-13 1999-02-16 Ricoh Corporation Method and apparatus for searching for and retrieving documents using a facsimile machine
DE69606021T2 (de) 1995-01-23 2000-08-03 British Telecommunications P.L.C., London Verfahren und/oder vorrichtungen für den zugriff auf informationen
JP2947111B2 (ja) 1995-02-17 1999-09-13 日本電気株式会社 交換機のデータ引き継ぎ方法およびシステム
US5708825A (en) 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5963205A (en) 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
US5664109A (en) 1995-06-07 1997-09-02 E-Systems, Inc. Method for extracting pre-defined data items from medical service records generated by health care providers
US5870770A (en) * 1995-06-07 1999-02-09 Wolfe; Mark A. Document research system and method for displaying citing documents
US5740549A (en) 1995-06-12 1998-04-14 Pointcast, Inc. Information and advertising distribution system and method
JP3700733B2 (ja) * 1995-06-12 2005-09-28 富士ゼロックス株式会社 文書管理装置及び文書管理方法
US5860073A (en) 1995-07-17 1999-01-12 Microsoft Corporation Style sheets for publishing system
US5878421A (en) 1995-07-17 1999-03-02 Microsoft Corporation Information map
US5644720A (en) 1995-07-31 1997-07-01 West Publishing Company Interprocess communications interface for managing transaction requests
US5942986A (en) 1995-08-09 1999-08-24 Cedars-Sinai Medical Center System and method for automatic critical event notification
US5745360A (en) 1995-08-14 1998-04-28 International Business Machines Corp. Dynamic hypertext link converter system and process
US5963940A (en) 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
WO1997012334A1 (en) 1995-09-25 1997-04-03 International Compu Research, Inc. Matching and ranking legal citations
US5740252A (en) 1995-10-13 1998-04-14 C/Net, Inc. Apparatus and method for passing private demographic information between hyperlink destinations
US5764906A (en) 1995-11-07 1998-06-09 Netword Llc Universal electronic resource denotation, request and delivery system
US5754857A (en) 1995-12-08 1998-05-19 Sun Microsystems, Inc. Distributed asynchronous workflow on the net
US5822539A (en) 1995-12-08 1998-10-13 Sun Microsystems, Inc. System for adding requested document cross references to a document by annotation proxy configured to merge and a directory generator and annotation server
US5781900A (en) 1996-01-02 1998-07-14 Sofmap Future Design, Inc. Flexible hyperlink association system
US5751961A (en) 1996-01-31 1998-05-12 Bell Communications Research, Inc. Integrated internet system for translating logical addresses of internet documents to physical addresses using integrated service control point
US5862325A (en) 1996-02-29 1999-01-19 Intermind Corporation Computer-based communication system and method using metadata defining a control structure
US5926811A (en) 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5875431A (en) 1996-03-15 1999-02-23 Heckman; Frank Legal strategic analysis planning and evaluation control system and method
US5745908A (en) 1996-03-29 1998-04-28 Systems Focus International Method for converting a word processing file containing markup language tags and conventional computer code
US5867562A (en) 1996-04-17 1999-02-02 Scherer; Gordon F. Call processing system with call screening
US5905866A (en) 1996-04-30 1999-05-18 A.I. Soft Corporation Data-update monitoring in communications network
EP0909414A1 (en) * 1996-05-06 1999-04-21 Adobe Systems Incorporated Internet hyperlink drag and drop
EP0810534B1 (en) 1996-05-13 2003-03-19 Oki Electric Industry Co., Ltd. Document display system and electronic dictionary
US5794236A (en) 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US5742181A (en) 1996-06-04 1998-04-21 Hewlett-Packard Co. FPGA with hierarchical interconnect structure and hyperlinks
US5724595A (en) 1996-06-19 1998-03-03 Sun Microsystems, Inc. Simple method for creating hypertext links
US5907680A (en) 1996-06-24 1999-05-25 Sun Microsystems, Inc. Client-side, server-side and collaborative spell check of URL's
US5963950A (en) 1996-06-26 1999-10-05 Sun Microsystems, Inc. Method and system for facilitating access to selectable elements on a graphical user interface
US5761436A (en) 1996-07-01 1998-06-02 Sun Microsystems, Inc. Method and apparatus for combining truncated hyperlinks to form a hyperlink aggregate
US6516321B1 (en) * 1996-07-30 2003-02-04 Carlos De La Huerga Method for database address specification
US6434567B1 (en) 1996-07-30 2002-08-13 Carlos De La Huerga Method for specifying enterprise-wide database address formats
US6272505B1 (en) * 1998-07-07 2001-08-07 Carlos De La Huerga Document modification based hyperlink limiting method and apparatus
US6308171B1 (en) 1996-07-30 2001-10-23 Carlos De La Huerga Method and system for automated data storage and retrieval
US6345268B1 (en) * 1997-06-09 2002-02-05 Carlos De La Huerga Method and system for resolving temporal descriptors of data records in a computer system
US5895461A (en) 1996-07-30 1999-04-20 Telaric, Inc. Method and system for automated data storage and retrieval with uniform addressing scheme
US5903889A (en) 1997-06-09 1999-05-11 Telaric, Inc. System and method for translating, collecting and archiving patient records
US6353822B1 (en) * 1996-08-22 2002-03-05 Massachusetts Institute Of Technology Program-listing appendix
JP3773602B2 (ja) 1996-09-18 2006-05-10 株式会社東芝 ハイパーテキスト処理装置及びその方法
US5764916A (en) 1996-09-27 1998-06-09 Ichat, Inc. Method and apparatus for real time communication over a computer network
US6037944A (en) * 1996-11-07 2000-03-14 Natrificial Llc Method and apparatus for displaying a thought network from a thought's perspective
US5836771A (en) 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6216141B1 (en) * 1996-12-06 2001-04-10 Microsoft Corporation System and method for integrating a document into a desktop window on a client computer
EP0848337A1 (en) 1996-12-12 1998-06-17 SONY DEUTSCHLAND GmbH Server with automatic document assembly
AUPO489297A0 (en) 1997-01-31 1997-02-27 Aunty Abha's Electronic Publishing Pty Ltd A system for electronic publishing
JPH10228473A (ja) * 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像処理方法、文書画像処理装置および記憶媒体
US5875446A (en) 1997-02-24 1999-02-23 International Business Machines Corporation System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships
AU2002301438B2 (en) 1997-03-18 2006-09-21 Trade Me Limited Vehicle Information System Part 1
US5970505A (en) 1997-03-31 1999-10-19 Sun Mirosystems, Inc. Linking related data in a document set including a plurality of books written by different groups of authors in a computer network
US6038573A (en) * 1997-04-04 2000-03-14 Avid Technology, Inc. News story markup language and system and process for editing and processing documents
US5987454A (en) 1997-06-09 1999-11-16 Hobbs; Allen Method and apparatus for selectively augmenting retrieved text, numbers, maps, charts, still pictures and/or graphics, moving pictures and/or graphics and audio information from a network resource
US6025844A (en) * 1997-06-12 2000-02-15 Netscape Communications Corporation Method and system for creating dynamic link views
US5974413A (en) 1997-07-03 1999-10-26 Activeword Systems, Inc. Semantic user interface
US6073140A (en) 1997-07-29 2000-06-06 Acxiom Corporation Method and system for the creation, enhancement and update of remote data using persistent keys
US5905991A (en) 1997-08-21 1999-05-18 Reynolds; Mark L System and method providing navigation between documents by creating associations based on bridges between combinations of document elements and software
US6009428A (en) 1997-09-15 1999-12-28 International Business Machines Corporation System and method for providing a single application program interface for heterogeneous databases
US6356922B1 (en) * 1997-09-15 2002-03-12 Fuji Xerox Co., Ltd. Method and system for suggesting related documents
US6256631B1 (en) * 1997-09-30 2001-07-03 International Business Machines Corporation Automatic creation of hyperlinks
US6091412A (en) * 1997-09-30 2000-07-18 The United States Of America As Represented By The Secretary Of The Navy Universal client device permitting a computer to receive and display information from several special applications
US5940843A (en) 1997-10-08 1999-08-17 Multex Systems, Inc. Information delivery system and method including restriction processing
US6014662A (en) * 1997-11-26 2000-01-11 International Business Machines Corporation Configurable briefing presentations of search results on a graphical interface
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6151624A (en) 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
US6092074A (en) * 1998-02-10 2000-07-18 Connect Innovations, Inc. Dynamic insertion and updating of hypertext links for internet servers
US6263212B1 (en) * 1998-02-17 2001-07-17 Alcatel Usa Sourcing, L.P. Short message service center
US6457028B1 (en) 1998-03-18 2002-09-24 Xerox Corporation Method and apparatus for finding related collections of linked documents using co-citation analysis
JP3744676B2 (ja) * 1998-03-20 2006-02-15 沖電気工業株式会社 情報抽出装置及びその方法
US6122647A (en) 1998-05-19 2000-09-19 Perspecta, Inc. Dynamic generation of contextual links in hypertext documents
US6529911B1 (en) * 1998-05-27 2003-03-04 Thomas C. Mielenhausen Data processing system and method for organizing, analyzing, recording, storing and reporting research results
US6205576B1 (en) * 1998-06-05 2001-03-20 Nortel Networks Limited Method and apparatus for identifying indirect messaging relationships between software entities
US6263121B1 (en) * 1998-09-16 2001-07-17 Canon Kabushiki Kaisha Archival and retrieval of similar documents
US7003719B1 (en) 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
AU3747200A (en) 1999-03-08 2000-10-09 Alexander Sann Computerized research system and methods for processing and displaying scientific, technical, academic, and professional information
NZ515293A (en) 1999-05-05 2004-04-30 West Publishing Company D Document-classification system, method and software
EP1203315A1 (en) 1999-06-15 2002-05-08 Kanisa Inc. System and method for document management based on a plurality of knowledge taxonomies
US6591261B1 (en) 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites
US6341306B1 (en) * 1999-08-13 2002-01-22 Atomica Corporation Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm
JP2001075959A (ja) * 1999-08-31 2001-03-23 Matsushita Electric Ind Co Ltd 文書処理装置
GB2371901B (en) 1999-09-21 2004-06-23 Andrew E Borthwick A probabilistic record linkage model derived from training data
CA2389375C (en) 1999-11-01 2005-12-20 Lockheed Martin Corporation System and method for the storage and access of electronic data in a web-based computer system
US7216115B1 (en) 1999-11-10 2007-05-08 Fastcase.Com, Inc. Apparatus and method for displaying records responsive to a database query
AU6175100A (en) 1999-11-15 2001-05-30 Openpark Limited A graphic language representation and communication method/system and its application to a graphic navigation method for retrieving information in a computer database and an internet search engine
US6731802B1 (en) * 2000-01-14 2004-05-04 Microsoft Corporation Lattice and method for identifying and normalizing orthographic variations in Japanese text
US6738760B1 (en) 2000-03-23 2004-05-18 Albert Krachman Method and system for providing electronic discovery on computer databases and archives using artificial intelligence to recover legally relevant data
US20010037380A1 (en) * 2000-04-24 2001-11-01 Communityiq.Com Web site hosting model
WO2001082117A1 (en) 2000-04-27 2001-11-01 Webfeat, Inc. Method and system for retrieving search results from multiple disparate databases
WO2001093655A2 (en) * 2000-06-05 2001-12-13 Shiman Associates, Inc. Method and apparatus for managing documents in a centralized document repository system
US6507837B1 (en) * 2000-06-08 2003-01-14 Hyperphrase Technologies, Llc Tiered and content based database searching
AR029290A1 (es) 2000-06-28 2003-06-18 American Express Travel Relate Sistema y metodo para integrar datos publicos y privados
US6654758B1 (en) * 2000-07-21 2003-11-25 Unisys Corporation Method for searching multiple file types on a CD ROM
US6618717B1 (en) 2000-07-31 2003-09-09 Eliyon Technologies Corporation Computer method and apparatus for determining content owner of a website
JP4200645B2 (ja) 2000-09-08 2008-12-24 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
CN1253815C (zh) * 2000-09-08 2006-04-26 百度在线网络技术(北京)有限公司 计算机在中文数据中识别中文姓名的方法
TW548557B (en) * 2000-09-13 2003-08-21 Intumit Inc A method and system for electronic document to have fast-search category and mutual link
AU2002214540A1 (en) * 2000-09-20 2002-04-02 A2I, Inc. Method and apparatus for dynamically formatting and displaying tabular data in real time
CN1493044A (zh) 2000-10-03 2004-04-28 ���ɵ¡�N���ʸ��� 通过利用可视图像定位网页的方法
WO2002031738A1 (en) 2000-10-11 2002-04-18 Healthtrio, Inc. System for communication of health care data
JP2002140339A (ja) 2000-10-31 2002-05-17 Tonfuu:Kk 法律等検索システムおよび法律等検索装置ならびに法律等検索プログラム
US20020087469A1 (en) * 2000-12-28 2002-07-04 Ravi Ganesan Technique of registration for and direction of electronic payments in real-time
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US6662178B2 (en) 2001-03-21 2003-12-09 Knowledge Management Objects, Llc Apparatus for and method of searching and organizing intellectual property information utilizing an IP thesaurus
US20020165856A1 (en) 2001-05-04 2002-11-07 Gilfillan Lynne E. Collaborative research systems
US20030041305A1 (en) * 2001-07-18 2003-02-27 Christoph Schnelle Resilient data links
US7333966B2 (en) 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
JP4255239B2 (ja) 2002-03-29 2009-04-15 富士通株式会社 文書検索方法
AR047362A1 (es) 2003-12-31 2006-01-18 Thomson Global Resources Ag Sistemas, metodos, interfases y software para recoleccion automatizada e integracion de datos de entidades en bases de datos y directorios profesionales en linea.

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008529171A (ja) * 2005-01-28 2008-07-31 トムソン グローバル リソーシーズ 判例法、法律上の訴訟事件摘要書および/または訴訟ドキュメントの法律事務所のワークフローへの統合のためのシステム、方法およびソフトウェア
JP2009510639A (ja) * 2005-10-04 2009-03-12 トムソン グローバル リソーシーズ 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
JP2011233162A (ja) * 2005-10-04 2011-11-17 Thomson Reuters Global Resources 医療用語の曖昧性を判定するシステム、方法およびソフトウェア
JP2010503066A (ja) * 2006-09-01 2010-01-28 トムソン ルーターズ グローバル リソーシーズ 法律的引用をフォーマットするためのシステム、方法、ソフトウェア、およびインターフェイス
KR101453937B1 (ko) 2007-12-06 2014-10-23 구글 인코포레이티드 Cjk 성명 검출
JP2011505638A (ja) * 2007-12-06 2011-02-24 グーグル・インコーポレーテッド Cjk名前検出
US8478787B2 (en) 2007-12-06 2013-07-02 Google Inc. Name detection
JP2009181183A (ja) * 2008-01-29 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 人名表現同定装置、その方法、プログラム及び記録媒体
JP4693065B2 (ja) * 2008-01-29 2011-06-01 日本電信電話株式会社 人名表現同定装置、その方法、プログラム及び記録媒体
JP2013518357A (ja) * 2010-01-29 2013-05-20 ダン アンド ブラッドストリート コーポレーション 所属データと商用データコンテンツとの集約および関連付けのシステムおよび方法
US8930383B2 (en) 2010-01-29 2015-01-06 The Dun & Bradstreet Corporation System and method for aggregation and association of professional affiliation data with commercial data content
JP2011191982A (ja) * 2010-03-15 2011-09-29 Nippon Telegr & Teleph Corp <Ntt> 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
JP2013186798A (ja) * 2012-03-09 2013-09-19 Dainippon Printing Co Ltd リンク付与装置、リンク付与方法、およびプログラム
JP2013109364A (ja) * 2013-01-15 2013-06-06 Google Inc Cjk名前検出

Also Published As

Publication number Publication date
WO2003060767A2 (en) 2003-07-24
EP2336903A1 (en) 2011-06-22
EP1474759A2 (en) 2004-11-10
WO2003060767A3 (en) 2004-08-26
EP2328101A1 (en) 2011-06-01
ATE530989T1 (de) 2011-11-15
AU2002364593A1 (en) 2003-07-30
AU2008212604A1 (en) 2008-10-02
AU2002364593B2 (en) 2008-10-02
CN1623146A (zh) 2005-06-01
US20030135826A1 (en) 2003-07-17
AU2008212267A1 (en) 2008-10-02
ES2378653T3 (es) 2012-04-16
US20080301074A1 (en) 2008-12-04
CA2754006A1 (en) 2003-07-24
CA2471592C (en) 2011-12-13
JP5252725B2 (ja) 2013-07-31
CA2471592A1 (en) 2003-07-24
US9002764B2 (en) 2015-04-07
NZ534222A (en) 2007-05-31
NZ552575A (en) 2008-06-30
EP1474759B1 (en) 2011-10-26
CN1623146B (zh) 2014-04-02
US7333966B2 (en) 2008-02-19
CA2924140A1 (en) 2003-07-24
NZ567455A (en) 2009-06-26
CA2754006C (en) 2016-05-31
JP4436909B2 (ja) 2010-03-24
JP2009259252A (ja) 2009-11-05

Similar Documents

Publication Publication Date Title
JP4436909B2 (ja) 名前をハイパーリンクするためのシステム、方法、及びソフトウェア
US9760570B2 (en) Finding and disambiguating references to entities on web pages
US8977953B1 (en) Customizing information by combining pair of annotations from at least two different documents
US7882097B1 (en) Search tools and techniques
US10423649B2 (en) Natural question generation from query data using natural language processing system
US20080147642A1 (en) System for discovering data artifacts in an on-line data object
US20080147578A1 (en) System for prioritizing search results retrieved in response to a computerized search query
US20080065621A1 (en) Ambiguous entity disambiguation method
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
US20080147641A1 (en) Method for prioritizing search results retrieved in response to a computerized search query
Kienreich et al. Plagiarism detection in large sets of press agency news articles
AU2011253680B2 (en) Systems, methods, and software for hyperlinking names
AU2011253689B2 (en) Systems, methods, and software for hyperlinking names
Xu et al. A machine learning approach to recognizing acronyms and their expansion
Saggion et al. Automatic Annotation and Ontology Population for Business Intelligence

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081023

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090122

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090219

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090226

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090319

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090327

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090623

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090918

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091204

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091229

R150 Certificate of patent or registration of utility model

Ref document number: 4436909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130108

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees