JP2005509952A - 知識ベースに対して情報抽出および品質管理を実施する方法およびシステム - Google Patents

知識ベースに対して情報抽出および品質管理を実施する方法およびシステム Download PDF

Info

Publication number
JP2005509952A
JP2005509952A JP2003544634A JP2003544634A JP2005509952A JP 2005509952 A JP2005509952 A JP 2005509952A JP 2003544634 A JP2003544634 A JP 2003544634A JP 2003544634 A JP2003544634 A JP 2003544634A JP 2005509952 A JP2005509952 A JP 2005509952A
Authority
JP
Japan
Prior art keywords
information
article
server
articles
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003544634A
Other languages
English (en)
Inventor
チョー、レイモンド、ジェイ.
チェン、リチャード、オー.
フェルシアーノ、ラモン、エム.
リチャーズ、ダニエル、アール.
ノーマン、フィリィパ
Original Assignee
インジェヌイティ システムズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インジェヌイティ システムズ インコーポレイテッド filed Critical インジェヌイティ システムズ インコーポレイテッド
Publication of JP2005509952A publication Critical patent/JP2005509952A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/918Location
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本発明(図3)は情報抽出および格納の分野に関連し、特に、複数の記事から分散方式で情報を抽出して情報記憶部に格納する技術に関連する。本発明の実施例は、情報が抽出される複数の記事と、その記事から情報を抽出する複数の情報エクストラクタと、を識別する(56)。複数の記事と複数の情報エクストラクタとに関連する情報を格納するためのデータベースが提供される(58)。複数の記事は情報抽出のために複数の情報エクストラクタに割り当てられる。情報エクストラクタにより、その記事から抽出された情報は、情報記憶部内に格納される(64)。

Description

(著作権通告)
本発明文書の開示の一部は著作権保護の対象となる資料を含んでいる。著作権所有者は誰でも米国特許庁特許ファイルまたは記録に載っているままの形で特許文書や特許開示をゼロックスで再生することに異議を唱えないが、そうでないものについては全て著作権を保持するものとする。
(関連出願の相互参照)
本出願は本出願の譲受人Ingenuity Systems, Inc.が予め譲り受けている2000年12月8日に出願した出願中の米国特許出願第09/733,495号“Techniques For Facilitating Information Acquisition and Storage”の一部継続出願である。前に出願した出願中の特許出願の全体が本開示の一部としてここに組み入れられている。
(発明の背景)
本発明は情報抽出および格納の分野に関するものであり、特に、分散情報取得および情報格納プロセスの管理技術に関する。
情報消費者が利用できる情報の量および複雑さは激増してきており、また激増し続けると思われる。しかしながら、パブリックドメイン内で利用可能な異種情報の大きさにより、情報消費者は典型的には利用可能な情報の非常に僅かなパーセンテージにしかアクセス、理解、および有意使用することができない。それは、主として、情報が典型的には雑誌、定期刊行物、書類、新聞、書籍、ノートブック、等内に含まれることがある記事の中に埋もれたり、あるいはデータベース、デジタルライブラリ、等の情報記憶部(information stores)内にデジタルフォーマットで格納されるためである。特記なき限り、本出願で使用される“記事(article)”という用語は任意の転写または印刷された情報、またはデジタルフォーマットで利用可能な情報、またはその組合せや一部分を含むものと解釈してよい。記事内の情報はテキスト、グラフィックス、図表、オーディオ情報、ビデオ情報、マルチメディア情報、およびさまざまなフォーマットの他のタイプの情報を含むことができる。記事は出版済または未出版のものとすることができる。これらの記事は数百または数千に達することがあるため、情報消費者は実際の時間枠内でそれら全てにアクセス、読出し、および理解することはできない。さまざまな記事からの情報を統合するためにいくつかのデータ保管技術が使用されてきているが、これらの技術は利用可能な情報のまん延についていけるほど柔軟ではない。また、それらは情報過負荷問題に役立つことはめったにない。事実、データを集約することにより、これらのデータ保管技術は情報過負荷問題を悪化させることがある。
過去10年間において情報のすさまじい激増が見られた一つの分野は、生態科学における遺伝子の識別および機能的特性付けの指数関数的増加から利益を得ているライフサイエンスの分野である。10年前は“データウェアハウス”のためには研究所のノートで十分な場合が多かった。研究者は自分の研究に関する情報に基づく判断を行うのに、一握りの遺伝子の深い理解力を頼りにすることができた。今日、情報の流入および従来の生物学的研究境界の漠然化により、研究データを完全に吸収、合成、および評価する研究者の能力が追い越されるようになってきている。研究者に対する主要な障害は情報の不足ではなく、情報を格納するのに使用される大量の体系をもたないフォーマットである。大規模実験の結果を評価するために、研究者は刊行された研究文献を非常に頼りにして情報に基づく判断を行うのに重要なキー情報を識別する。膨大な数の記事、情報の体系をもたないフォーマット、および特定の実験結果について研究者が照会できないことにより文献の精査に数日、数週間、またはそれ以上かかることがある。非常に時間集約的である他に、研究者による知識の累積は容易にアクセス可能なフォーマットではないため他の研究者に容易に伝えることができない。
前記に基づいて、さまざまなソースから情報を抽出して情報消費者が容易にアクセスまたは照会できるフォーマットで格納することができる技術が必要とされている。また、この技術は情報の急増と歩調を合わせるのに十分柔軟であることが望ましい。さらに、この技術はさまざまな領域および分野に関連する情報を抽出かつ格納するように適合できることが望ましい。
(発明の概要)
本発明は複数の記事から情報を抽出して情報記憶部内に格納する技術について検討する。一実施例では、本発明は情報が抽出される複数の記事を識別する。また、本発明は複数の記事から情報を抽出する複数の情報エクストラクタ(information extractors)を識別する。複数の記事および複数の情報エクストラクタに関連する情報を格納するデータベースも提供される。この実施例では、本発明は情報抽出のために複数の記事を複数の情報エクストラクタに割り当てる。本発明は情報エクストラクタに割り当てられた記事から情報エクストラクタにより抽出された情報を受信する。次に、抽出された情報は情報記憶部内に格納される。
本発明の一実施例では、情報記憶部は抽出された情報をオントロジーに従って格納するように構成される知識ベースである。この実施例では、事実ベースモデルを使用して記事から情報を抽出することができる。
もう一つの実施例では、本発明は、抽出情報が情報記憶部に格納される前に情報エクストラクタにより抽出された情報に品質管理処理を実施することができる。この実施例では、本発明は、コンテンツレビューア(content reviewer)が情報エクストラクタから受信した抽出情報を検査(review)できるようにする。本発明は抽出情報に関連付けられたエラーを識別するコンテンツレビューアから情報を受信することができる。
一実施例では、本発明は、コンテンツレビューアから受信した情報から、情報エクストラクタから受信した抽出情報内のエラー数を示すエラーカウントを決定する。エラーカウントが閾値エラーカウントレベルよりも上であれば、情報抽出のために記事を情報エクストラクタに再割当てすることができる。エラーカウントが閾値エラーレベル以下であれば、本発明はコンテンツレビューアが情報エクストラクタから受信した抽出情報を変えてエラーを訂正できるようにするサービスを提供することができる。
もう一つの実施例では、本発明は記事から情報を抽出する情報エクストラクタのための報酬(compensation)を計算する。情報エクストラクタに対する報酬額は情報エクストラクタにより抽出された情報内のエラー数、記事に割り当てられた品質得点、および品質管理処理中に捕捉された他のメトリック情報等のいくつかの規準に基づいて計算することができる。
さらにもう一つの実施例では、情報記憶部は抽出情報を情報モデルに従って格納するように構成される。この実施例では、本発明によりレビューアは抽出情報を検査して、もし何かあれば、情報モデルに変更を加えて抽出情報を調整する。この実施例では、本発明により、レビューアは抽出情報およびそれにより導入された新しい概念を検査して、もし何かあれば、情報モデルに加える変更を識別する情報を提供することができる。特定の実施例では、レビューアにより提供される情報を次に第2のレビューアにより検査することができる。第2のレビューアが変更を承認した後で、情報モデルを変更することができる。特定の実施例では、情報記憶部はオントロジーに従って抽出情報を格納するように構成される知識ベースである。本発明はオントロジストが新しい概念を調べてオントロジーに変更を加え新しい概念を適合できるようにするサービスを提供する。他の情報モデルも本発明と共に使用することができる。
明細書の残部および添付図を参照すれば本発明のさらなる性質および利点を理解することができる。
(特定実施例の説明)
本発明は複数の記事から情報または知識を分散式に抽出して情報消費者がアクセスまたは照会することができる体系化されたフォーマットで格納する技術を提供する。情報抽出および格納処理を管理する技術が検討される。図1は本発明の実施例を取り入れることができる分散コンピュータ網10の単純化されたブロック図である。コンピュータ網10は複数の通信リンク18を介して通信網16に接続されたいくつかのコンピュータシステム12,14−1,14−2,および14−3を含んでいる。コンピュータシステムは複数のクライアントコンピュータシステム14−1,14−2,および14−3とサーバコンピュータシステム12を含んでいる。クライアントシステム14は典型的にはサーバコンピュータシステムから情報を要求し、それはクライアント要求に応答して処理を実施して要求された情報をクライアントシステムに提供する。そのために、サーバは典型的にはクライアントシステムよりも大きい計算および格納能力を有する。しかしながら、特定のコンピュータシステムはそれが情報を要求しているかまたは提供しているかに応じてクライアントまたはサーバとして動作することができる。
通信網16は分散網10のさまざまな構成要素が互いに情報を通信かつ交換できるようにする機構を提供する。通信網16自体は多くの相互接続されたコンピュータシステムおよび通信リンクにより構成することができる。通信リンク18はハードワイヤリンク、光リンク、衛星その他の無線通信リンク、電波伝播リンク、または任意の他の情報通信機構とすることができる。一実施例では、通信網16はインターネットであり、他の実施例では、通信網16は任意の適切な通信網とすることができる。図1に示す分散コンピュータ網10は本発明を取り入れた実施例を単に例示するものであり、特許請求の範囲に詳述された発明の範囲を限定するものではない。当業者ならば他のバリエーション、修正、および変更を考えることができる。たとえば、2つ以上のサーバシステム12を通信網16に接続することができる。
本発明の教示に従って、サーバシステム12は、さまざまな記事から抽出された情報を受信し、情報を処理し、情報消費者が情報を照会またはアクセスできるフォーマットでそれを格納する作業を担当する。本出願において使用される“サーバシステム”という用語は図1に示すような単一サーバシステム、またはコンピュータ網10内に分散された一つ以上のサーバシステムとすることができる。したがって、本発明により実施される機能またはタスクはコンピュータ網16に接続された一つ以上のサーバに分散することができる。特定の実施例では、サーバはセキュリティの目的でファイアウォールの後に隔離することができ、サーバ間の通信は符号化および暗号化することができる。
本発明の実施例では、抽出情報はサーバ12に接続された情報記憶部15内に格納することができる。情報記憶部はデータベース、知識ベース、ファイルサーバ、または任意の他のタイプの格納機構とすることができる。本出願において使用される“情報記憶部”という用語は単一の情報記憶部、またはコンピュータ網10内に分散された複数の情報記憶部とすることができる。たとえば、情報記憶部15はサーバ12に局所的に接続するかあるいは分散コンピュータ網10にわたって分散させ通信網16を介してサーバ12によりアクセスすることができる。
本発明の特定実施例では、情報記憶部15はオントロジーに従って情報を格納するように構成された知識ベースである。オントロジーは実世界またはその一部の知識表現である。オントロジーは典型的には単一事物すなわち要素を表す“個体(individual)”、同じ性質を共有する一群の事物を表す“クラス”、事物間の関係を表す“スロット”、スロットに関する詳細情報を表す“ファセット(facet)”、前記した事物間の詳細関係を表す“関係(relation)”、および他の情報により構成される。関係は限定はしないが分類学的(taxonomic)関係およびパートノミック(partonomic)関係を含むことができる。オントロジーはこれらの関係に基づいた複数のブランチ(branch)を含むことができる。
サーバシステム12は本発明の教示に従って複数の機能を実施するように構成することができる。これらの機能は典型的にはサーバシステム12で実行するソフトウェアコードモジュールにより実施される。この機能はサーバシステム12に接続されたハードウェアモジュール、またはソフトウェアおよびハードウェアモジュールの組合せにより実施することもできる。サーバ12により実施される機能には、情報が抽出される記事の識別を容易にする、記事から情報を抽出する作業を担当する情報エクストラクタを決定する、情報抽出技術の情報エクストラクタを証明する、情報抽出のために情報エクストラクタに記事を割り当てる、情報エクストラクタにより記事から抽出された情報を受信する、抽出情報の正確さおよび精度を保証する品質管理アクティビティの実行を容易にする、ユーザが情報を格納するモデルを変更できるようにする、情報を情報記憶部15内に格納する、および本発明の教示に従って他の機能を実施する、ことが含まれる。サーバシステム12により実施されるさまざまな機能の詳細については後述する。
図1に示すように、データベース13はサーバ12に接続することができる。データベース13は記事から情報を抽出するために本発明により実施される処理に関連付けられた情報を格納するのにも使用することができる。データベース13内に格納された情報は情報抽出および格納プロセスのさまざまなステップを追従し続けるのにも使用することができる。たとえば、情報取得プロセスの任意の特定のステップの進行状態はデータベース13内に格納された情報から確認することができる。したがって、本発明のさまざまなユーザに関連する情報、およびプロセスの進行につれて抽出される情報の状態もデータベース13内に格納することができる。また、ユーザはさまざまなグループに分類することができ、役割および許可はユニットが属するグループに基づいてユーザに許可を割り当てることができる。グループおよび役割に関連する情報およびグループに関連付けられた許可もデータベース13内に格納することができる。
本出願において使用される“データベース13”という用語は単一のデータベース、またはコンピュータ網10内に分散された複数のデータベースを参照してもよい。たとえば、データベース13はサーバ12に局所的に接続することができるし、あるいはコンピュータ網10にわたって分散させ通信網16を介してサーバ12によりアクセスすることができる。データベース13はリレーショナルデータベース、オブジェクトリレーショナルデータベース、オブジェクトオリエンテッドデータベース、知識ベース、フラットファイル、または任意の他の情報記憶部とすることができる。図1は情報記憶部15およびデータベース13を2つの別々のエンティティとして示しているが、本発明の特定の実施例では、情報記憶部15およびデータベース13は単一の情報記憶部またはデータベースとして結合できることは明らかである。
サーバ12と相互作用するためにクライアントシステム14を使用することができる。たとえば、クライアントシステム14は情報エクストラクタが記事から抽出された情報を入力するのに使用することができる。また、クライアントシステム14はユーザが情報エクストラクタとなるために使用することができる。一度情報エクストラクタとして任命/指定されると、ユーザはクライアントシステム14を使用してサーバシステム12により提供される情報抽出プロセスに関連する証明およびテストアクティビティに参加することができる。また、クライアントシステム14はサーバシステム12で実行されるモジュールにより提供される品質管理および情報モデルレビューアアクティビティに参加することもできる。
図2は本発明の実施例に従った模範的なコンピュータシステム20の単純化されたブロック図である。コンピュータシステム20は典型的に少なくとも一つのプロセッサ24を含み、それはバスサブシステム22を介していくつかの周辺装置と通信する。これらの周辺装置は典型的にメモリサブシステム34とファイル記憶サブシステム40とを含む記憶サブシステム32、ユーザインターフェイス入力装置30、ユーザインターフェイス出力装置28、およびネットワークインターフェイスサブシステム26を含んでいる。入力および出力装置によりユーザはコンピュータシステム20と相互作用することができる。ユーザは人間のユーザ、デバイス、もう一つのコンピュータ、等とすることができる。ネットワークインターフェイスサブシステム26は、通信網16へのインターフェイスを含む、外部網へのインターフェイスを提供し、通信網16を介して他の通信システム内の対応するインターフェイス装置に接続されている。
ユーザインターフェイス入力装置30はキーボード、マウス、トラックボール、タッチパッド、またはグラフィックスタブレット等のポインティングデバイス、スキャナ、記事バーコードを走査するバーコードスキャナ、ディスプレイに内蔵されたタッチスクリーン、音声認識システム、マイクロホン等のオーディオ入力装置、その他のタイプの入力装置を含むことができる。一般的に、“入力装置”という用語の使用はコンピュータシステム20内やコンピュータ網16上に情報を入力するための可能な全てのタイプの装置および方法を含むものとする。
ユーザインターフェイス出力装置28は表示サブシステム、プリンタ、ファックスマシン、またはオーディオ出力装置等の非視覚表示を含むことができる。表示サブシステムは陰極線管(CRT)、液晶表示(LCD)等のフラットパネル装置、または投光装置とすることができる。表示サブシステムはオーディオを介する出力装置等の非視覚表示を含むこともできる。一般的に、“出力装置”という用語の使用はコンピュータシステム20から人間または他のマシンやコンピュータシステムへ情報を出力するための可能な全てのタイプの装置および方法を含むものとする。
記憶サブシステム32は本発明を実施するさまざまなシステムの機能性を提供する基本的プログラミングおよびデータ構造を格納する。たとえば、本発明の機能性を実現するさまざまなモジュールを記憶サブシステム32内に格納することができる。これらのソフトウェアモジュールは一般的にプロセッサ24により実行される。分散型環境において、ソフトウェアモジュールは複数のコンピュータシステム上に格納してそれらのプロセッサにより実行することができる。また、本発明に従って記憶サブシステム32は情報を格納するさまざまなデータベースを格納するための収納庫も提供する。記憶サブシステム32は典型的にはメモリサブシステム34およびファイル記憶サブシステムを含んでいる。
メモリサブシステム34は典型的にはプログラム実行中に命令およびデータを格納するための主ランダムアクセスメモリ(RAM)38と、一定の命令が格納されるリードオンリーメモリ(ROM)36と、を含むいくつかのメモリを含んでいる。ファイル記憶サブシステム40はプログラムおよびデータファイルに対するパーシステント(非揮発性)記憶部を提供し、ハードディスクドライブ、関連付けられた着脱式媒体付フロッピー(登録商標)ディスクドライブ、Compact Digital Read Only Memory (CD-ROM)ドライブ、光ドライブ、着脱式媒体キャリッジ、および他の同様な記憶媒体を含むことができる。一つ以上のドライブは通信網16上のもう一つのサイトにおける他の接続されたコンピュータ上の離れた場所に配置することができる。また、本発明の教示に従って格納された情報をファイル記憶サブシステム40により格納することもできる。
バスサブシステム22はコンピュータシステム20のさまざまな構成要素およびサブシステムに互いに所期の通信を行わせる機構を提供する。コンピュータシステム20のさまざまなサブシステムおよび構成要素は同じ物理的場所とする必要はなく、分散網10内のさまざまな場所に分散させることができる。バスサブシステム22は単一のバスとして略示されているが、バスサブシステムの代替実施例では多数のバスを使用することができる。
コンピュータシステム20自体はパーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビジョン、メインフレーム、または任意の他の処理システムを含むさまざまなタイプとすることができる。コンピュータおよびネットワークの性質は変化し続けるため、図2に示すコンピュータシステム20の説明は本発明の好ましい実施例を例示するための特定例にすぎない。図2に示すコンピュータシステム20よりも多くのまたは少ない構成要素を有するコンピュータシステムの他の多くの構成が可能である。クライアントコンピュータシステム14およびサーバコンピュータシステム12は一般的に図2に示すものと同じ構成を有し、サーバシステムは一般的にクライアントシステムよりも多くの記憶容量および計算能力を有する。
図3は情報抽出および格納プロセスを容易にするために本発明の実施例により実施される処理を示す単純化されたフロー図50である。図3に示すように、プロセスはいくつかのステップすなわちステージを含んでいる。各ステージに関連する状態情報はサーバ12により維持される。フロー図50に従って処理を実施するモジュールはフロー図50のさまざまなステージを通る記事および情報のフローおよび配信を制御する作業も担当する。処理はそこから情報が抽出される記事を識別して開始される(ステップ56)。前記したように、本出願において使用される“記事”という用語は任意の複写または印刷された情報、またはデジタルフォーマットで得られる情報、またはそれらの組合せまたは一部を含むものとする。記事内の情報はテキスト、グラフィックス、図表、オーディオ情報、ビデオ情報、マルチメディア情報、およびさまざまなフォーマットの他のタイプの情報を含むことができる。記事は出版されたものでもされないものでもよい。さらに、本出願において使用される“情報”という用語はコンテンツ、データ、知識、および記事から抽出することもできる他のタイプの情報を含むものとする。
記事を識別するのにいくつかの異なる技術を使用することができる。第1の技術では、そこから情報が抽出される記事を識別する情報54を特定的にサーバ12に提供することができる。もう一つの技術では、情報が抽出される記事を検索するためにサーバ12により使用される、ユーザ規準52をサーバ12に提供することができる。本発明の特定の実施例では、情報54およびユーザ規準52を独立に使用して記事を識別することができる。本発明の別の実施例では、情報54とユーザ規準52とのさまざまな組合せを使用して記事を識別することができる。
ユーザ規準は見つけ出される記事のタイプを特徴付けるのに使用することもできる。本発明のユーザはユーザ規準52を使用して、特定の領域または分野または産業に関連する記事を識別するようにサーバ12により実施される検索を適応させることができる。ユーザ規準52は領域に対する固有のキーワード、領域に関連する出版物名、定期刊行物名、新聞名、データベース名、デジタルライブラリ、さまざまな概念、著者名、出版日付、等、および他の同様な情報を含むことができる。
たとえば、ライフサイエンス分野に対して、ユーザ規準52は遺伝子名、アレイ技術名、蛋白およびアミノ酸名、遺伝子配列、遺伝子発現プロファイル、薬品名、概念、実験方法および技術、出版物および定期刊行物名、出版日付、等のキーワードを含むことができる。また、ユーザ規準52は検索に含まれるNature,Cell,Science,Nature Medicine,Nature Genetics,Proceedings of the National Academy of Sciences (PNAS), Journal of Biological Chemistry, European Molecular Biology Organization (EMBO)出版物、Journal of Cell Biology, Genes and Development, Molecular and Cellular Biology,等の出版物を識別することもできる。また、ユーザ規準52はMedline データベース、Genbank データベース、SwissProt データベース、ProSite データベース、Interpro データベース、LocusLink データベース、Unigene データベース、その他さまざまなデータベース等の、公開および非公開データベース(許可される場合)を含む、被検索データベースを識別することもできる。ライフサイエンス領域に関連するさまざまな他のタイプの情報もユーザ規準52内に含めることができる。
サーバ12に提供されるユーザ規準52はサーバ12に接続されたデータベース13内に格納することができる。ユーザ規準に基づいて、サーバ12は分散ネットワーク10に接続されたさまざまなリソースを検索してユーザ規準を満たしそれに関連する記事を識別する。前記したように、サーバ12により検索されるリソースは雑誌収納庫、定期刊行物、研究論文、新聞、書籍、および他の資料収納庫を含むことができる。リソースは通信網16に接続されたオンラインデータベース、デジタルライブラリ、データバンク、等を含むこともできる。サーバ12はさまざまな検索技術を使用してユーザ規準に関連する記事を識別することができる。これらの技術は自然言語処理を使用して検索を実施する技術、同義語および語/句拡張を使用する技術、および他の同様な技術を含むことができる。さらに、サーバ12はユーザ規準または前の検索の結果に基づいて単一の検索または複数の検索を実施することができる。
サーバ12により実施される検索により一つ以上の記事が得られることがある。特定の実施例では、検索により識別された記事はユーザ規準に対するその関連度に基づいてカテゴリーに分類することもできる。サーバ12は記事をその関連度に基づいてフィルタリングすることもできる。たとえば、ユーザ規準に対する関連度が閾値よりも低い記事は、ステップ56の一部として、サーバ12によりフィルタリングすることができる。閾値はユーザ設定可能とすることができる。別の実施例では、自然言語処理(NLP;Natural Language Processing)に基づくフィルタを使用してユーザ規準に関連する記事を識別することができる。また、ユーザは特定のソースからの記事は情報抽出の目的に対して考慮されないことを示すことができる。次に、サーバ12はこれら特定のソースからの記事を自動的にフィルタリングして取り除くことができる。記事はそのソース、出版日付、著者、等の他の規準に基づいて分類することもできる。分類規準は本発明のユーザが設定してサーバ12に提供することができる。たとえば、ユーザは特定セットの定期刊行物からの記事は一つのカテゴリーに分類されることを示すことができる。フィルタリングおよび分類技術はユーザ設定可能であることは明らかである。
ステップ56の出力は記事のフィルタリングすなわち分類されたリストを含み、それはユーザにより明白に識別された記事および/またはサーバ12により実施された検索を介して識別された記事を含むことができる。これらの記事に関連する情報はデータベース13内に格納される(ステップ58)。各記事に対して、格納された情報は記事のタイトル、記事の著者、記事のソース、記事の出版日付、および記事に関連する他の同様な情報等の記事に関する記述的情報を含むことができる。格納された情報は記事がユーザにより特定的に識別されたかまたは検索、記事の分類に関連する情報、等を介して識別されたかを示すこともできる。ステップ56においてフィルタリングにより取り除かれる記事に関連する情報も参照の目的でデータベース13内に格納することができる。ステップ56において明瞭に分類できなかった記事に関連する情報もデータベース13内に格納することができる。この情報により分類されていない記事を手動分類することができる。記事の手動分類に関連する情報もデータベース13内に格納することができる。本発明の特定の実施例では、サーバ12は各記事に一意に記事識別子を割り当てる。記事識別子により本発明のユーザは情報抽出および情報格納プロセス中に記事の状態を照会または追従することができる。
ステップ58の一部として、サーバ12は各記事に対するアクセス情報も格納し(データベース13内に)それにより情報エクストラクタは情報を抽出するために記事にアクセスすることができる。実施例では、この情報は記事のタイトル、記事の著者、記事のソース、等を含むことができる。次に、情報エクストラクタはこの情報を使用して記事にアクセスする。もう一つの実施例では、サーバ12は情報エクストラクタがそこから記事にアクセスすることができるウェブサイトを示す記事に対するuniform resource locator (URL) 情報を格納することができる。
本発明のさらにもう一つの実施例では、もし許されれば、サーバ12はステップ58の一部として記事のデジタルコピーを入手して格納することができる。この実施例では、サーバ12はステップ56で識別された記事のリストから電子的に入手できるもの(すなわち、デジタルフォーマットで入手できるもの)と、入手できないものを決定する。電子的に入手できる記事に対しては、もし許されれば、サーバ12は記事のデジタルバージョンに自動的にアクセスする。サーバ12は記事へのアクセスが許されるかどうかを記事毎のベースで決定することができる。本発明はPDFフォーマット、Postscriptフォーマット、ワードプロセッサ生成フォーマット、テキストフォーマット、HTMLフォーマット、その他いくつかのフォーマット等のさまざまなタイプのデジタルフォーマットにアクセスするように構成することができる。実施例では、もし許されれば、サーバ12は記事のデジタルコピーを作ってデータベース13内に格納する。本発明の別の実施例では、デジタルコピーは図1に示す他の構成要素により格納することができ、たとえば、コピーは通信網16に接続されたファイルサーバ上に格納することができる。本発明が記事のデジタルコピーを作ることを許可されない場合、サーバ12は情報エクストラクタが記事にアクセスできるようにする記事に関連する情報を格納することができる。たとえば、前記したように、サーバ12はたとえ記事が外国サイト上に格納される場合であっても、記事を表示するのに使用することができる記事に対応するURLを格納することができる。デジタルフォーマットで入手できない記事に対しては、記事のコピーを手動で得ることができる。許されれば、手動で得られたコピーを次に走査して記事のデジタルバージョンを作り出すことができる。次に、デジタルバージョンを、たとえば、データベース13内またはファイルサーバ上に格納することができる。前記したように、本発明が記事のデジタルバージョンを作ることを許可されない場合、サーバ12は情報エクストラクタが記事にアクセスできるようにする記事に関連する情報を格納することができる。
記事に対する情報がデータベース13内に格納された後で、サーバ12は記事の状態をデータベース13内に設定して記事は情報抽出の準備が完了していることを示すことができる。本発明の実施例では、次に処理はステップ64またはステップ60に続く。
本発明の実施例では、本発明は情報抽出準備完了としてタグ付けされている記事の順序付けリスト(すなわち、“待ち行列”)を生成する(ステップ60)。待ち行列内の記事の位置が情報抽出のために情報エクストラクタに記事が与えられる順序を決定し--順序付けリスト内でランクの高い記事はランクの低い記事よりも前に情報抽出のために提供される。記事をこのように順序付けすることにより“より重要”と見なされ、したがってより高い優先順位が割り当てられ、記事は“あまり重要ではない”と見なされる記事よりも前に情報抽出のために提供されることが保証される。また、それにより本発明は情報抽出リソースを最適に使用することができる。たとえば、情報エクストラクタの有限セットが与えられると、順序付けリストは“あまり重要ではない”記事から情報を抽出するためにリソースが使用される前に“より重要な”記事からの情報が抽出されることを保証する。待ち行列内の各記事は記事に対応するURL、記事に対する記述情報、記事のデジタルコピー、等の記事に関連する情報により表現できることは明白である。
待ち行列内の記事の順序は、サーバ12により生成され且つ記事に関連付けられた優先順位得点により、決定される。優先順位のより高い記事にはより高い優先順位得点が割り当てられ、優先順位のより低い記事よりも順序付けリストの上位にランク付けされる。各記事に対する優先順位は記事の特性に基づいてユーザ設定可能優先順位計算の技術/アルゴリズムを使用して計算することができる。たとえば、ステップ56における記事の分類に基づいて記事を優先順位付けすることができる。ユーザ規準により関連する記事には関連度のより低い記事よりも高い優先順位を割り当てることができる。サーバ12は本発明のユーザが設定してデータベース13内に格納される優先順位付け規準61に基づいて記事を優先順位付けすることもできる。優先順位付け規準61は記事のソース、すなわち、定期刊行物、雑誌、または記事、記事の出版日付、記事の著者、を含むデータベースに関連する情報、その他同様な情報を含むことができる。たとえば、ユーザにより“より重要な”定期刊行物として識別された特定の定期刊行物からの記事には他のソースからの記事よりも高い優先順位得点を割り当てることができる。記事に関連付けられた優先順位得点および待ち行列内の記事のその後のランク付けに関連する情報はデータベース13内に格納される。記事に関連付けられた優先順位得点は、優先順位付けに対する規準が変更されるか優先順位の計算に使用されるアルゴリズムが変更される場合に、サーバ12により定期的に変更することができる。優先順位得点は各記事に対して個別的にまたは記事の全体集合に対して再計算することができる。この変更は順序付けリスト内にダイナミックに反映される。
本発明のもう一つの実施例では、記事を単一の待ち行列に優先順位付けする替わりに、サーバ12は記事を議論の異なる主題またはエリアに対応する多数の待ち行列内に優先順位付けすることができる。たとえば、ライフサイエンス分野において、サーバ12は腫瘍学関連トピックスを議論する記事に対する待ち行列、心臓血管病関連トピックスを議論する記事に対する待ち行列、遺伝子機能に関連するトピックスを議論する記事に対する待ち行列、等を生成することができる。記事をこのように系統立てることにより、領域内の問題エリアの特殊な専門知識で情報エクストラクタへの記事の割当てを容易にすることができる。たとえば、腫瘍学の待ち行列からの記事は腫瘍学の専門知識で情報エクストラクタに割り当てることができる。
記事の識別と平行して、本発明は記事から情報を抽出する作業を担当する情報エクストラクタを識別する処理を実施することもできる(ステップ62)。これらの情報エクストラクタは記事から情報を抽出するために本発明のユーザにより選定されている人間とすることができる。本発明の別の実施例では、情報エクストラクタは記事から情報を自動的に抽出するように構成することができるアプリケーションプログラムとすることができる。情報エクストラクタの選択を容易にする処理が、本発明の実施例に従って、後述される。
図4は図3のステップ62に従って情報エクストラクタの識別を容易にするためにサーバ12によって実施される処理を示す単純化されたフロー図である。この処理は一般的にサーバ12が情報抽出を実施する一組の潜在的候補者を識別する時に開始される(ステップ98)。一組の候補者は一般的に情報エクストラクタになる意向のある複数の候補者から選択される。
本発明は一組の潜在的候補者を識別するいくつかの技術を使用することができる。特定の実施例では、サーバ12は情報エクストラクタになることに興味のある候補者に関連する情報92を受信することができる。候補者はクライアントシステム14を使用してサーバ12に情報92を提供することができる。このようにして、候補者はそれらの地理的場所にかかわらず情報エクストラクタになる申し込みをすることができる。候補者情報は候補者の履歴書(resume)その他の情報の形とすることができ、サーバ12によりデータベース13内に格納することができる。次に、サーバ12は情報エクストラクタになるための閾値要求96(一般的に本発明のユーザにより提供される)を自動的に候補者情報と比較して、資格(qualification)が閾値要求条件と同等以上となる一組の候補者を識別するように構成することができる。いくつかのcommercial-off-the-shelf(COTS)履歴書整合プロダクトを本発明により使用して、一組の潜在的候補者の比較識別を自動的に実施することもできる。閾値要求情報96はユーザ定義可能である。
もう一つの実施例では、サーバ12は雇用システムまたは履歴書管理システムにより提供されるサービスおよび情報を利用して候補者の潜在的リストを識別することができる。たとえば、サーバ12は履歴書管理システムを使用してインターネット上で候補者が履歴書を出しているかをデータベースに照会して、情報エクストラクタとなるための最低要求条件を満たす候補者を識別する情報93を受信することができる。
本発明の別の実施例では、一組の潜在的候補者を識別する情報は本発明のユーザによりサーバ12へ特定的に提供することができる。
本発明の教示に従って、ステップ98において識別された一組の潜在的候補者に関連する情報はデータベース13に格納することができる。たとえば、ステップ98において選択された各候補者に対して、サーバ12は候補者に関連する情報をデータベース13内に格納する。格納された情報は候補者名、候補者のコンタクト情報、候補者の学究的情報、候補者の研究経験、候補者の任意特殊専門知識、その他同様な情報を含むことができる。サーバ12は候補者を一意的に識別する一意的識別子を選択された各候補者に割り当てることもできる。識別子情報はデータベース13内に格納して候補者の状態を追跡するのに使用することができる。また、サーバ12は選択された候補者がサーバ12により提供されるオンライン証明モジュールにアクセスできるようにするアクセス権を選択された各候補者に対して設定することができる。
次に、選択された候補者は証明プロセスを経て記事から情報を抽出するための手順およびプロトコルについて学習する(ステップ100)。本発明の実施例では、サーバ12は選択された候補者がクライアントシステム14を介してアクセスすることができるオンライン証明モジュールを提供する。証明プロセスは典型的には記事から情報を抽出するために各情報エクストラクタが従うべきプロトコル/手順を明らかにする。このようなプロトコルは、複数の異種の記事からの情報がコヒーレントであり、標準的であり、同種であるフォーマットで抽出されることを保証する。情報抽出のために使用できるプロトコルの例が付録Aに記述されている。また、証明プロセスは情報抽出のために情報エクストラクタにより使用される情報抽出ツールの使用を導入し明らかにすることができる。本発明の実施例では、証明プロセスの一部として、各候補者は記事から情報を抽出するために情報エクストラクタにより使用されるソフトウェアツールを使用することが許される。
候補者による証明プロセスの進行はサーバ12により追従してデータベース13内に格納することができる。たとえば、証明モジュールが成功裡に完了した後で、候補者に関連付けられたデータベース13内に格納された情報を更新して候補者によりモジュールが成功裡に完了したことを表示することができる。このようにして、候補者による証明プロセスの進行を容易に追従することができる。
候補者が証明プロセスを成功裡に完了しているとサーバ12が判断した後で(ステップ102)、候補者は情報エクストラクタとしての資格を与えるのに十分な技量を取得しているかどうかを確認するためのテストを受ける資格があるものとしてタグ付けされる。本発明の実施例では、候補者に関連付けられたデータベース13内に格納された情報は候補者が証明プロセスを成功裡に完了してテストを受ける準備が完了していることを示すように更新される。候補者に関連付けられたアクセス権は候補者がオンラインテストに参加できるように更新される。
いくつかの異なるテスト技術を使用することができる。第1の技術では、証明モジュールと関連付けられた練習問題とが成功裡に完了した時に候補者はテストにパスしたものと見なすことができる。もう一つの技術では、候補者はサーバ12により提供されるオンラインテストを受ける必要があり(ステップ104)、候補者の情報エクストラクタとしての任命はテスト結果次第となることがある。候補者がテストにパスしたことをサーバ12が確認した後で(ステップ106)、候補者は情報エクストラクタとして証明され任命される(ステップ108)。テストに失敗したら、候補者は再テストを受けることが許されるか(ステップ104)あるいは情報エクストラクタになる資格を奪われる(ステップ107)。本発明の別の実施例では、証明およびテストアクティビティはオフライン環境で実施することもできる。しかしながら、アクティビティをオンライン分散式に実施すると、本発明はインターネット等の通信網のパワーを利用して情報抽出プロセスの範囲を拡張することもできる。
本発明の実施例では、候補者に対してデータベース13内に格納された情報は候補者がテストプロセスを成功裡に完了し情報エクストラクタとして任命されていることを示すように更新される。本発明の実施例では、ステップ108の一部として、候補者に本発明のユーザと契約上の協定を受け入れるかを尋ねることができる。これらの契約上の協定は非開示条項に関する項、情報エクストラクタの報酬に関する項、その他の項を含むことができる。特定の実施例では、情報エクストラクタは記事当りベースで情報抽出に対して支払われる。本発明の実施例では、契約プロセスは電子署名等の機能を使用してオンラインで遂行することができる。情報エクストラクタにより署名される契約に関する情報はデータベース13内に格納される。候補者に関連付けられたアクセス権は情報エクストラクタが情報抽出のためにマークされた記事にアクセスできるように更新される。
図3に戻って、ステップ62において情報エクストラクタが識別された後で、情報抽出のためにタグ付けされた記事が情報抽出のために情報エクストラクタに割り当てられる(ステップ64)。一つ以上の記事を情報抽出のために各情報エクストラクタに割り当てることができる。また、2つ以上の情報エクストラクタに同時に記事を割り当てることができる。2つ以上の情報エクストラクタに記事を割り当てることにより冗長情報取得が可能となる。
記事を情報エクストラクタに割り当てるのにいくつかの異なる技術を使用することができる。情報抽出準備完了の記事がサーバ12により待ち行列に加えられない(すなわち、ステップ60が実施されない)本発明の実施例では、記事は予め設定された方式またはランダム方式で情報エクストラクタに割り当てることができる。あるいは、情報エクストラクタは情報抽出のための記事の選択を許されることがある。
サーバ12が待ち行列内への記事の優先順位付けを行う本発明の実施例では、記事は待ち行列内の最初の記事で始まる順序で記事を情報エクストラクタに割り当てることができる。前記したように、それにより“より重要な”記事は“あまり重要ではない”と思われる記事よりも前に提供されることが保証され、情報抽出リソースを最適に使用することができる。
本発明のもう一つの実施例では、サーバ12は各情報エクストラクタに対して待ち行列を生成することができ、ステップ60において生成された待ち行列からの記事は各情報エクストラクタの待ち行列に割り当てることができる。サーバ12は主の待ち行列内および個体の情報エクストラクタの待ち行列内の記事を周期的に優先順位付けすることができる。また、情報エクストラクタは各グループに対する待ち行列のあるグループに構成することができる。ステップ60において生成された待ち行列からの記事は、次に、グループの待ち行列に割り当てることができる。
さらにもう一つの実施例では、サーバ12は情報エクストラクタの専門知識に基づいて記事を割り当てることができる。たとえば、サーバ12が記事の議論のトピックに基づいて記事を多数の待ち行列内に優先順位付けする実施例では、サーバ12は情報エクストラクタの専門知識の分野に関連する記事を格納する待ち行列から情報エクストラクタに記事を割り当てることができる。たとえば、腫瘍学の待ち行列からの記事は腫瘍学の分野の専門知識を有する情報エクストラクタに割り当てることができる。
各割当記事に対するデータベース13内の情報は記事が情報抽出のために情報エクストラクタに割り当てられていることを示すように更新することができる。各割当記事に対してデータベース13内に格納された情報は、記事が割り当てられた情報エクストラクタを識別する情報、情報エクストラクタに記事が割り当てられた日付、その他同様な情報を含むことができる。同様に、情報エクストラクタに対してデータベース13内に格納された情報も記事が情報抽出のために情報エクストラクタに割り当てられていることを示すように更新することができる。各情報エクストラクタに対して、格納された情報は、情報エクストラクタに割り当てられた記事数、割当記事を識別する情報、記事が割り当てられた日付、その他同様な情報を含むことができる。
次に、サーバ12は情報エクストラクタに割り当てられた記事から情報エクストラクタにより抽出された情報を受信する(ステップ66)。情報エクストラクタはクライアントシステム14を使用して抽出された情報を入力することができる。前記したように、情報エクストラクタはデータベース13内に格納された情報を使用して記事にアクセスすることができる。たとえば、情報エクストラクタは記事に対するURL情報を使用して記事にアクセスすることができる。もう一つの実施例では、情報エクストラクタは記事に関連する記述情報を使用して記事のハードコピーにアクセスすることができる。データベース13が記事のデジタルバージョンを格納する実施例では、許可された時には、情報エクストラクタはクライアントシステム14を使用して記事の格納されたデジタルバージョンにアクセスし格納することができる。記事にアクセスした後で、情報エクストラクタは記事から情報を抽出してサーバ12に入力する。情報は本発明のユーザにより確立されたプロトコル(付録Aに記述されているようなプロトコル)に従って抽出することができる。
本発明の実施例では、サーバ12は抽出情報の受け入れ(entry)を容易にするようにユーザインターフェイスおよびサービスを提供することができる。これらのユーザインターフェイスおよびサービスはクライアントシステム14を使用して情報エクストラクタによりアクセスすることができる。サーバ12は情報エクストラクタが抽出情報を入力できるようにするいくつかの技術を提供することができる。第1の技術に従って、情報エクストラクタは自然言語の文章の形式で抽出情報を受け入れることができる。もう一つの技術に従って、サーバ12は抽出情報を受け入れるためのテンプレートを提供することができる。さらにもう一つの技術に従って、サーバ12は情報エクストラクタが画像または図表、スピーチ、ファックス、電子メール、または手書きを介して、または前記した技術および他の技術の任意の組合せを使用して抽出情報を入力できるようにする機能を提供することができる。また、サーバ12は情報エクストラクタが前記した技術および他の技術の組合せを使用して抽出情報を入力できるようにすることもできる。次に、サーバ12は情報エクストラクタにより受け入れられた情報を処理して情報記憶部15内に格納される情報を決定する。
たとえば、本発明の実施例では、情報記憶部15はフレームベース知識ベースとすることができ情報を抽出するプロトコルは事実モデルに基づく、たとえば、付録Aに記述されたプロトコルとすることができる。この実施例では、情報エクストラクタにより入力された抽出情報は一つ以上の事実および事実に関連付けられた情報を含むことができる。事実(または“発見”)は規定構造を有しプロトコル/手順に従って記事から抽出される一片の情報とすることができる。事実は離散オブジェクトおよびプロセスにより構成することができる。離散オブジェクトは物理的事柄、時間的事柄、抽象的事柄、等を表すことができる。たとえば、ライフサイエンス分野では、離散オブジェクトは遺伝子、蛋白質、細胞、有機体、等とすることができる。プロセスはやはり離散オブジェクトであるターゲット、または他のプロセスに作用するアクションである。情報エクストラクタは各事実に対するメタデータも入力することができる。メタデータは一般的に事実が観察された状況を記述する情報であるが、情報源--たとえば、記事の著者および出版日付に関する情報を含むこともできる。事実の例は次のようなものである。
“...GST-bax binds to bcl2...”
上に示す事実は2つの離散オブジェクト、すなわち“GST-bax”および“bcl2”を含んでいる。事実に対するメタデータは“CHO細胞およびGSTプルダウンアッセイ内のヒューマン・バックスおよびバッド(bax and bad)の再結合GST融合から表現され精製されたヒューマンbcl2により実験が実施された”を示すこともできる。事実に関連付けられた付加情報も情報エクストラクタにより入力することができる。本発明の実施例に従って情報エクストラクタにより入力することができる情報のタイプに関する詳細については付録Aを参照されたい。本発明は事実ベース情報抽出モデルに制限されないことは明白である。本発明に従って、いくつかの他のタイプの情報抽出モデルも使用することができる。
前記した事実ベース情報抽出実施例では、情報エクストラクタはこの情報を自然言語の文章を使用して、サーバ12により提供されるユーザインターフェイステンプレートを介して、サーバ12により提供されるAPIを使用して、図表または画像、スピーチ、ファックス、電子メール、または手書きを介して、または前記した技術および他の技術の任意の組合せを使用して入力することができる。自然言語の文章またはテンプレートを解析し、事実およびメタデータを識別し、事実からのオブジェクトおよびプロセスを識別し、オブジェクトおよびプロセス間のオントロジーの関係を決定し、抽出情報を知識ベース内に格納するように、サーバ12を構成することができる。
情報エクストラクタが特定の記事に対する情報を入力している間に、記事に対してデータベース13内に格納された情報は、現在、記事の情報抽出が行われていることを示すようにサーバ12により更新される。記事に対する情報抽出が完了していることを示す信号をサーバ12が情報エクストラクタから受信した後で、データベース13内の記事に関連する状態情報は、記事に対する情報抽出が完了していることと、記事が品質管理プロセスに対して準備完了であることと、を示すように更新される(ステップ67)。
サーバ12は情報エクストラクタが記事に関連するコメントを提供できるようにすることもできる。たとえば、情報エクストラクタが記事に対する情報抽出においてなんらかの問題を経験する場合、サーバ12は情報エクストラクタがデータベース13内に格納された問題に関連する詳細を提供できるようにする。これらのコメントは記事の後の処理に使用することができる有用な情報を提供する。たとえば、コメントは抽出情報を格納する既存モデルの不足、記事選択規準の不足、等を含むことができる。抽出情報がオントロジーに基づいて知識ベース内に格納される本発明の特定の実施例では、サーバ12は情報エクストラクタが抽出情報内で遭遇する新しい用語や概念を表示または議論できるようにすることができる。新しい用語や概念に関する情報エクストラクタにより入力された情報は後述する“情報モデルレビュー”フェーズ中に使用することができる(ステップ74)。情報エクストラクタは新しい各概念または用語に対するスーパークラスを示唆することもできる。新しい用語や概念に関する情報エクストラクタにより入力された情報はデータベース13内に格納することができる。
サーバ12は情報エクストラクタがオンラインヘルプサービスにアクセスできるようにする機能を提供することもできる。たとえば、サーバ12は情報エクストラクタが人間または非人間ヘルプシステムとリアルタイム通信を行うことができる施設を提供することができる。これらのヘルプサービスは、情報抽出に対するプロセスまたはプロトコルについてさらに学習する、情報抽出プロセス中に生じることがある問題について議論する、等のいくつかの目的、およびその他の目的に対して情報エクストラクタが使用することができる。
本発明の実施例では、ステップ66の一部として、記事に対する情報抽出が完了した後で、サーバ12は記事に対する情報抽出プロセスに関連付けられたメトリクスを自動的に記録する。これらのメトリクスは記事に対して入力された事実の総数と、情報エクストラクタが事実を抽出するのに要した時間と、記事の長さとを示す情報、および他の同様な情報を含むことができる。メトリクス情報は記事と関連付けられてデータベース13内に格納される。この情報は情報抽出プロセスの性能を改善かつ最適化させる、情報エクストラクタのための支払を計算する、情報エクストラクタの効率を確かめる、情報抽出プロトコル/手順を改善する、等のいくつかの目的、および他の目的に使用することができる。
前記したように、ステップ66に従って情報エクストラクタが記事に対する情報の入力を終了した後で、データベース13内に格納された記事の状態は記事が品質管理処理に対して準備完了であることを示すように変更される(ステップ67)。次に、記事は品質管理処理を受けるように自動的に待ち行列に加えられる。品質管理ステージに入ると、データベース13内に格納された記事に関連する情報は記事が品質管理処理ステージにあることを示すようにサーバ12により更新される。品質管理処理(ステップ68)は、情報エクストラクタによりに入力されたデータの精度を改善し、本発明のユーザにより確立されたプロトコル/手順に従って情報が抽出されていることを保証し、入力データ内のエラーを識別して訂正し、記事当たりエラーカウントを求め、かつ情報抽出プロセスの全体品質および効率を改善する他のアクティビティを実施するように合わせて調整される。一般的に、品質管理処理は情報記憶部15内に格納される情報の精度および完全性を保証する。
図5は図3のステップ68の一部として本発明の実施例により実施される品質管理処理を示す単純化されたフロー図120である。品質管理手順は一般的に、品質管理に対する準備完了としてタグ付けされている記事がサーバ12によりコンテンツレビューアに割り当てられる時に、開始される(ステップ122)。記事は2つ以上のコンテンツレビューアに同時に割り当てることもできる。記事を2つ以上のコンテンツレビューアに割り当てることにより冗長品質管理処理が可能になる。コンテンツレビューアは、任意の人間でも良く、情報エクストラクタにより入力された情報に品質管理処理を実施するように設定されるアプリケーションプログラムでも良い。コンテンツレビューアはクライアントシステム14を使用して記事を見て、記事に対する情報エクストラクタにより入力された情報を見て、入力情報に関するサーバ12へのフィードバックを提供することができる。サーバ12は品質管理処理を容易にするさまざまな機能を提供する。たとえば、コンテンツレビューアが記事に対して抽出された情報を見ることができるようにするユーザインターフェイスを提供することができる。たとえば、情報エクストラクタが事実の形式で抽出情報を入力している実施例では、コンテンツレビューアにより記事が選択されると、記事に対する情報エクストラクタにより受け入れられた事実をコンテンツレビューアに表示することができる。
情報エクストラクタは、記事からの情報抽出と情報記憶部15へ挿入するその抽出情報の適切な構造化とにおける専門技術を発達させると、さらにコンテンツレビューアの機能を実施するのに十分な専門技術のレベルに達することができる。情報エクストラクタがいつコンテンツレビューアとしての仕事をなし遂げるのに必要な技能レベルに達するかの決定は、任意の単一の規準またはいくつかの規準に基づくことができる。適切な試験だけでなくオンライン訓練モジュールの完了によりコンテンツレビューア地位に対する資格を確立することができる。予め定められた数の記事に対する情報エクストラクタに対してここに記述されたいずれかの関連メトリクスの例外的なスコアは、コンテンツレビューアの作業を担当する情報エクストラクタの能力を確立することができる。簡単に言えば、模範的方法でその役割を果たす情報エクストラクタは、自動的にコンテンツレビューアの仕事に変えるかあるいはその地位の資格をとるよう求められる。
サーバ12により提供されるさまざまな機能を使用して、コンテンツレビューアは記事がなんらかの抽出可能なコンテンツを含んでいるかどうかを確認してサーバ12に示す(ステップ123)。コンテンツレビューアから受信した入力が記事の中に抽出可能なコンテンツがないことを示す場合には、記事はそのようにタグ付けされて将来の情報抽出のために待ち行列に加えられる(ステップ124)。たとえば、記事内に含まれる情報が本発明のユーザに興味ある領域の範囲外であれば、その記事は抽出可能なコンテンツを含んでいないとタグ付けすることができる。データベース13内の記事に関連する状態情報は、記事が将来の情報抽出のために待ち行列に加えられていることを示すように更新される。
記事が抽出可能なコンテンツを含んでおれば、コンテンツレビューアは情報エクストラクタにより入力された情報の構造および精度を評価し、情報エクストラクタにより記事に対して入力された抽出情報にエラーがあればサーバ12に対して示す(ステップ125)。エラーは情報エクストラクタにより入力された抽出情報の不正確さによるもの、情報抽出に対して確立された手順/プロトコルに従うことに失敗した情報エクストラクタによるもの、情報エクストラクタ側に責任のある手落ちエラー、その他のエラーがある。サーバ12は、記事に関連付けられたエラーカウントが予め設定された閾値エラーカウントよりも大きいことを確認すると(ステップ130)、サーバ12はその記事を“不完全”として再分類する(ステップ132)。データベース13内に格納された記事に関連する情報は記事の不完全状態を示すようにサーバ12により更新される。次に、不完全な記事は以前に抽出された情報内のエラーを訂正するために情報エクストラクタに再割当てされる(ステップ134)。
エラーカウントが閾値エラーカウントよりも下であれば、サーバ12はコンテンツレビューアがエラーを訂正するのを許す(ステップ136)。本発明の実施例では、サーバ12はさまざまなサービスおよびユーザインターフェイスを提供し、それによりコンテンツレビューアは記事に対する抽出情報をエラー訂正するように編集することができる。たとえば、事実の形式で情報が抽出される実施例では、サーバ12で実行するモジュールによりコンテンツレビューアは事実を削除し、事実をコピーし、事実を編集し、かつ他の同様なアクティビティを遂行することができる。これらのサービスおよびユーザインターフェイスをクライアントシステム14を使用しているコンテンツレビューアによりアクセスすることができる。
本発明の実施例では、記事に関連付けられたエラーがコンテンツレビューアにより訂正された後で(ステップ138)、サーバ12は記事に対する品質管理処理に関連するメトリクスを自動的に記録する(ステップ140)。サーバ12により記録されるメトリクス情報はコンテンツレビューアによりなされる編集の数、記事に対する品質管理プロセスに要した時間、記事に対するエラーカウント、コンテンツレビューアが遭遇するエラーのタイプ、および他の同様な情報を含むことができる。メトリクス情報は記事に関連付けられてデータベース13内に格納される。
情報エクストラクタおよびコンテンツレビューアの両方の資格を有する個体は、情報を抽出して情報記憶部15内に入力する効率性に、全体的改善が見込まれる。このような二重資格個体は情報抽出またはコンテンツレビューを遂行することができる。情報抽出またはコンテンツレビューを必要とする記事の未処理分は絶えず変化するため、知識取得プロセスの管理者はこれらの二重資格個者の割当ておよび再割当てを継続的に、リアルタイムベースで行って最適システムスループットの維持を保証することができる。あるいは、これらの二重資格個体の割当てプロセスは完全自動化され、これらの個体が最初に品質管理の待ち行列内の記事に品質管理処理を実施し、未処理記事の情報抽出はその後でしか実施されないようにすることができる。
品質管理メトリクス情報に基づいて、サーバ12はデータベース13内に格納される記事に対する品質管理得点を計算する。たとえば、抽出情報が知識ベース内に格納されかつ事実ベース情報検索プロトコルを使用する本発明の実施例では、記事に対する品質管理(QC)得点は次式に従って計算することができる。
Figure 2005509952

ここで、
FE=事実データエラー数を測定する。これらは記事に対して情報エクストラクタにより入力される事実データ内のエラーである。
FM=欠落事実データエラーを測定する。これらは情報エクストラクタが記事に対して必要な事実情報の入力に失敗する時の手落ちエラーである。
ME=メタデータエラー数を測定する。これらは記事に対して情報エクストラクタにより入力されるメタデータ内のエラーである。
MM=欠落メタデータデータエラーを測定する。これらは記事に対して情報エクストラクタにより入力されるメタデータ情報内の欠陥のエラーである。
MF=記事に対して情報エクストラクタにより入力される情報内の欠落事実数を測定する。
EF=記事に対して情報エクストラクタにより情報入力される外部事実数である。外部事実は一般的に情報エクストラクタにより入力されるが情報抽出プロトコルに従って資格を与えられない事実である。
総事実=品質管理プロセス後に決定された記事に対する事実の総数である。
前記公式に従って、低いQC得点は高品質を示す(理想的にはエラーがなければ、QC=0)。本発明の別の実施例では、さまざまな他の公式および変数を使用できることは明らかである。
二重資格情報エクストラクタ/コンテンツレビューアの技能レベルは情報を抽出した記事が品質管理を必要とせずに、直接、オントロジストに転送され、抽出情報をどのように情報記憶部15に内蔵させるかをオントロジストが決定するのに十分であると予期される(図8以下に関連する検討を参照されたい)。
サーバ12により記録されるメトリクス情報は情報抽出プロセスに関連するリポートを生成するのにも使用することができる。これらのリポートは周期的ベースで生成することができる。次に、データベース13内の記事の状態は記事に対する品質管理が完了していることを示すように更新される(ステップ142)。次に、記事は次の処理ステップのために待ち行列に加えられる。本発明の実施例では、サーバ12は情報エクストラクタが記事に対して支払われる資格があることを示すようにデータベース13内の情報エクストラクタに関連付けられた情報を更新する(ステップ144)。
図3に戻って、記事が品質管理ステップ68を成功裡に通過した後、情報エクストラクタは記事に対する情報抽出に対して報酬を受ける(ステップ70)。情報エクストラクタに対してデータベース13内に格納された情報が、情報エクストラクタは記事に対して報酬を受ける資格があることを示すように、サーバ12により更新される時に、このプロセスは自動的にトリガすることができる。あるいは、記事に対する品質管理処理は完了していることを示すように記事の状態が更新される時に、プロセスは自動的にトリガすることができる。また、このプロセスは情報エクストラクタがデータベース13に照会して記事が品質管理処理を完了していることを確認した後で情報エクストラクタによりトリガすることができる。いくつかの異なる技術を使用して情報エクストラクタに報酬を支払うことができる。たとえば、情報エクストラクタは即時払いすることができ、またポイント、ストックオプション、等の他の技術を使用して支払うことができる。
本発明の実施例では、サーバ12は情報エクストラクタのための支払を情報エクストラクタにより実施される仕事の品質に基づいて決定し、それは記事に関連付けられた品質管理得点、記事が情報抽出に対して再割当てされたかどうか、情報エクストラクタにより入力された情報に関連付けられたエラーカウント、その他の同様な情報等のいくつかの要因に基づくことができる。情報エクストラクタに支払うことができる報酬に関する情報はデータベース13内に格納される。
図6は情報エクストラクタのための報酬を自動的に計算する本発明の実施例により実施される処理を示すフロー図160である。この実施例は情報が事実ベース情報検索モデルを使用して抽出されているものと仮定する。図6に示す実施例では、サーバ12は最初に記事に対する支払のベースレート(BR)を決定する(ステップ162)。このベースレートは一般的にデータベース13内に格納される。次に、サーバ12は記事が訂正のために情報エクストラクタに再割当てされたことがあるかどうかを確認する(ステップ164)。記事は再割当てされたことがないと確認されたら、処理はステップ171に続く。記事が再割当てされたことがあれば、サーバ12は再割当てされた回数を決定する(ステップ166)。記事が再割当てされた回数が閾値を超える場合、サーバ12は情報エクストラクタが記事に対する報酬を受けとる資格がないことを表示することができる(ステップ168)。その旨の情報をデータベース13内に格納することができる。記事が再割当てされた回数が閾値以下であれば、現在のベースレートに90%を乗じて新しいベースレートを計算することができる(ステップ170)。次に、処理はステップ171に続く。
ステップ171において、サーバ12は記事に対する事実の総数をユーザ設定可能低事実水準値と比較する。特定の実施例では、低事実水準値は10に設定される。記事に対する事実カウントが低事実水準値以下であれば、現在のベースレートに75%を乗じて新しいベースレートを計算することができる(ステップ172)。次に、処理はステップ174に続く。記事に対する事実カウントが低事実水準値よりも大きければ、処理はステップ174に続く。ステップ174において、サーバ12は記事に対する事実の総数をユーザ設定可能高事実水準値と比較する。特定の実施例では、高事実水準値は50に設定される。記事に対する事実カウントが高事実水準値よりも大きければ、現在のベースレートに125%を乗じて新しいベースレートが計算される(ステップ176)。次に、処理はステップ178に続く。記事に対する事実カウントが高事実水準値以下であれば、処理はステップ178に続く。
次に、サーバ12は記事に関連付けられた品質得点をユーザ設定可能品質得点閾値と比較する(ステップ178)。低閾値得点がより良い品質に対応する実施例では、記事に関連付けられた品質得点が品質得点閾値よりも低ければ、すなわち高品質を示す場合には、現在のベースレートに120%を乗じて新しいベースレートが計算される(ステップ180)。次に、処理はステップ182に続く。品質得点が品質得点閾値以上であれば、処理はステップ182に続く。
ステップ182において、計算された支払いレートに調整を加えることができる。たとえば、調整は情報エクストラクタの地理的場所に基づいて行うことができ、たとえば、米国外の国にある情報エクストラクタはその国の現行の市場相場に応じてより高いまたはより低いレートで支払うことができる。調整を加えた後で、最終計算支払レートは記事に対する情報エクストラクタのための報酬額を示す。次に、この情報は情報エクストラクタへの報酬額の支払いを容易にさせるためにデータベース13内に格納される(ステップ184)。
図6に示すフロー図は本発明の特定実施例に従って実施される処理を記述していることは明らかである。同様に、前記したパーセント乗算器は本発明の特定の実施例を示す。本発明の他の実施例に従って情報エクストラクタのための報酬を計算するために使用することができるいくつかの他の技術および乗算器がある。報酬に関して、二重資格情報エクストラクタ/コンテンツレビューアは情報エクストラクタまたはコンテンツレビューアとしての資格しかないものへの報酬支払に使用されるレートよりも高いレートで支払うことができ、あるいは完了したタスクに応じて異なるレートで支払うことができる。
また、情報エクストラクタへの報酬額の実際の支払いはさまざまな技術を使用して達成することができる。特定の実施例では、サーバ12は支払勘定アプリケーションにメッセージを送って、情報エクストラクタに支払額に対する小切手を発行するよう支払勘定アプリケーションに命令することができる。あるいは、サーバ12自体が情報エクストラクタに支払う処理を実施することができる。たとえば、本発明は情報エクストラクタの口座を満期支払高に対して自動的に貸方記入することができる。また、本発明は情報エクストラクタに支払額に対する小切手を発行することができる。別の実施例では、サーバ12は支払勘定人員がデータベース13内に格納された情報にアクセスできるようにするインターフェイスを提供することができる。金額が支払われた時の情報エクストラクタに支払われた金額に関する情報、および他の同様な情報をデータベース13内に記録することができる。
また、サーバ12はそれに対して情報を抽出した記事の状態を情報エクストラクタが決定できるようにするユーザインターフェイスを提供することができる。たとえば、情報エクストラクタが情報を抽出したさまざまな記事の状態を表示するウェブページを各情報エクストラクタに対して表示することができる。ウェブページは各記事に対する報酬支払いの状態も表示することができる。図7はサーバ12により情報エクストラクタに表示することができる模範的なウェブページ190を示す。図7に示すように、ウェブページ190は情報エクストラクタ名、情報エクストラクタの在住国、および情報エクストラクタの識別番号等の情報エクストラクタに関連する情報191を表示することができる。前記したように、識別番号は通常サーバ12により情報エクストラクタを一意的に識別するように割り当てられる。ウェブページ190は情報抽出のために情報エクストラクタに割り当てられた記事のリスト192も表示することができる。前記したように、サーバ12により割り当てることができる記事識別番号により、各記事を識別することができる。リスト内の各記事に対して、情報抽出プロセスにおける記事の状態/進行を表示することができる。ウェブページ190は記事に対して計算された品質得点“事実範囲”等の品質管理関連メトリクス、および他の同様な情報も表示することができる。“事実範囲”は情報エクストラクタの報酬を決定するのに使用することができる記事内の事実数を示す。たとえば、記事が10以下の事実を有する場合、それは“低”事実範囲に属するものとして分類することができ、情報エクストラクタにはより低いレートで支払われる。記事が11−50の事実を有する場合、記事は“正規”事実範囲に属するものとして分類することができ、支払レートはそれに応じて調整される。51以上の事実があれば、記事は正規事実範囲“より上”に属するものとして分類することができ、支払レートはより高い。記事内の事実数に基づいた支払レートの計算が図6に関して記述されている。さらに、ウェブページ190は支払関連情報193も表示することができる。
図3に戻って、記事に対する品質管理処理が完了した後で、データベース13内の記事の状態は次の処理フェーズに対して準備完了であることを示すように更新される。次に、記事は“情報モデルレビュー”ステージに対して待ち行列に加えることができ、その間モデルレビューアは記事から抽出された情報を検査して情報記憶部15内に情報を格納するために使用されたモデルを抽出情報を調整するように変更する必要があるかどうかを決定する(ステップ74)。情報記憶部に対する“情報モデル”は情報記憶部15内に情報を格納するために使用された情報表現に関係する。たとえば、知識ベースに対して、“モデル”は知識ベース内の知識を表すのに使用されたオントロジーに関係することがある。前記したように、オントロジーは典型的に世界または世界の一部の表現である。リレーショナルデータベースに対して、“モデル”は情報を格納するのに使用されたテーブル構造に関係することがある。モデルレビューアは抽出情報を検査するように訓練される人間または検査を実施するように設定されたアプリケーションプログラムとすることができる。
サーバ12はモデルレビュープロセスを容易にさせかつモデルレビューアが既存の情報モデル構造を検査、変更、または更新できるようにするいくつかのサービスおよびユーザインターフェイスを提供する。モデルレビューアは通信網16を介してサーバ12に接続されたクライアントシステム14を使用してこれらのアクティビティを実施することができる。たとえば、オントロジーに従って情報が知識ベース内に格納される場合、モデルレビューア(すなわち、オントロジスト)は記事から抽出された情報内に導入される新しい用語や概念を検査してオントロジーに適切な変更を加えることができる。
図8は情報モデルレビューステージ中に本発明の実施例により実施される処理を示す単純化されたフロー図200である。図8に示す実施例に対して、情報抽出は事実ベースモデルに基づいておりかつ抽出情報はオントロジーに基づいた知識ベース内に格納されるものと仮定する。フロー図200は、新しい概念や用語を検査してその新しい概念や用語を調整してオントロジーを変更するために、本発明の実施例により実施される処理を示す。サーバ12が抽出情報に関連付けられた新しい概念を識別する時に、処理は開始される(ステップ202)。各概念に対する情報はデータベース13内に格納することができる。前記したように、抽出情報内に新しい概念が存在する可能性に関する情報は一般的に、図3のステップ66中に抽出情報を入力する傍ら、情報エクストラクタにより表示される。たとえば、情報エクストラクタにより入力された情報は記事に対する新しい概念、各概念に対する示唆されたスーパークラス、各概念を記述する情報、等を示すことができる。各概念に対してデータベース13内に格納される情報は概念のソースに関する情報、新しい概念がサーバ12に入力された日付、および他の同様な情報も含むことができる。
次に、サーバ12は概念を優先順位付けしてオントロジーレビューアに割り当てるために待ち行列に加える(ステップ204)。本発明の実施例では、サーバ12は記事の優先順位付けに使用されたのと同じ優先順位付け規準に基づいて概念を優先順位付けすることができる。もう一つの実施例では、概念に対応する事実を知識ベース内に入力できる前にオントロジーを変更する必要があるため、オントロジーに変更を求める概念に高い優先順位を与えることができる。
次に、待ち行列からの新しい概念や用語をオントロジーの異なるブランチ(branch)の作業を担当するオントロジスト(“ブランチ・オントロジスト”とも呼ばれる)に優先順位付けの決定すなわち割り当てることができる(ステップ206)。データベース13内の概念に関連付けられた情報は概念が割り当てられたブランチ・オントロジストを識別するように更新される。本発明の実施例では、割当ては新しい概念に対して示唆されたスーパークラスにより自動的に駆動することができる。たとえば、“ネズミ”等の新しい概念が話題に上りそれに関連付けられた“哺乳動物”の示唆されたスーパークラスを有する場合、その新しい概念はオントロジーの“哺乳動物”ブランチの作業を担当するブランチ・オントロジストに自動的に割り当ててもよい。
次に、サーバ12は概念が割り当てられたブランチ・オントロジストが割当ては正しかったかを表示できるようにする(ステップ207)。概念が誤ってブランチ・オントロジストに割り当てられたか、またはそのブランチ・オントロジストが概念をもう一人のブランチ・オントロジストに割り当てることを好む場合、サーバ12は概念をもう一人のブランチ・オントロジストに割り当てるサービスを提供する。概念が正しく割り当てられた場合、処理はステップ208に続く。
一度優先順位付けの決定がなされると、概念が割当てられる第1のオントロジストは概念および概念に関連する情報を検査してその概念を調整するためにオントロジーを変更する必要があるか確認することを許される。サーバ12は概念レビュープロセスを容易にさせるいくつかのユーザインターフェイスおよびサービスを提供することができる。たとえば、サーバ12は新しい概念を調べ、いくつかの規準に基づいて概念を区分けし、示唆されたスーパークラスを調べ、新しいオブジェクトを付加/削除し、スロットを付加/削除する、等のサービスを提供することができる。ブランチ・オントロジストはこれらのサービスおよびユーザインターフェイスを使用して概念に関連する情報を検査し概念レビュー情報をサーバ12を提供することができる(ステップ208)。ブランチ・オントロジストにより入力される概念レビュー情報は新しい概念に対する分類情報、新しい概念を定義またはドキュメント化する情報、その他の情報を含むことができる。ブランチ・オントロジストは概念をオントロジー内にモデル化する情報も入力することができる。
概念の検査が完了していることをブランチ・オントロジストが示した後で、データベース13内の概念に関連付けられた情報は、概念レビューが完了して概念は第2のオントロジストからの承認を待っていることを、示すように更新される。次に、概念は第1のオントロジストにより提供される情報を検査して品質をチェックする第2のオントロジストに割り当てられる(ステップ210)。サーバ12は第2のオントロジストが第1のオントロジストにより入力された情報を検査して必要ならば情報に変更を加えられるようにするユーザインターフェイスおよびサービスを提供することができる。第2のオントロジストは第1のオントロジストの仕事のサーバ12へのフィードバックを提供する(ステップ212)。第1のオントロジストの仕事の品質がユーザ設定可能許容品質閾値よりも低ければ(ステップ214)、概念は、訂正のために第1のオントロジストに、返還/再割当てされる(ステップ216)。再割当て概念に関連付けられた情報は第1のオントロジストにより入力された情報内の第2のオントロジストにより識別されたエラーを示すことができる。品質が閾値よりも上であれば(すなわち、第2のオントロジストが新しい概念を“承認”している)、データベース13内に格納された概念に関連付けられた情報は、概念や用語が承認されていることを示すように、更新される(ステップ218)。サーバ12はオントロジーおよびモデル化されている概念/用語に対してなされた変更を追従し続ける。変更に関連する情報は、次に、データベース13内に格納することができる(ステップ220)。記事に関連付けられた新しい概念が検査され承認された後で、オントロジーに変更が加えられることがある。これらの概念に関連付けられた事実は、その時、情報記憶部15内に格納される準備が完了する。データベース13内の記事に対する状態情報は記事からの情報が情報記憶部15内に格納される準備を完了していることを示すように更新される。
本発明の実施例では、図8に示す処理は情報モデルへの変更が提案され、検査され、受け入れられるまで抽出情報は情報記憶部15内にロードされないことを保証する。それにより、情報記憶部15に受け入れられた事実関連情報は情報記憶部15内に情報を格納するために使用された情報モデルに違反しないことが保証される。
情報記憶部が複数のテーブルを含むリレーショナルデータベースである場合、モデルレビューアは情報エクストラクタにより入力される情報を調整するように一つ以上のテーブルの構造またはテーブル間の関係を変更する必要があるかを確認する。サーバ12はレビューおよび変更プロセスを容易にさせるインターフェイスおよびサービスを提供することができる。同様に、サーバ12はオブジェクト指向データベース等の他のタイプの情報記憶部に対する情報モデルを検査および修正する容易性を提供することができる。
サーバ12はモデルレビューアが記事に対するモデルの検査を完了している表示をモデルレビューアから受信した後で、サーバ12は記事に対するモデルレビューアフェーズの完了を示し、かつ記事から抽出された知識は情報記憶部15内に保管される準備完了であることを示すようにデータベース13内の記事の状態を変更する。
図3に戻って、記事に対するモデルレビューが完了した後で、記事から抽出した情報は自動的に情報記憶部15内に保管かつ格納される(ステップ76)。ステップ76の一部として、サーバ12は抽出情報を処理して情報記憶部15内に格納するのに適切なフォーマットに変換する。次に、情報は情報記憶部15に加えられる。たとえば、情報記憶部15が知識ベースである本発明の特定の実施例では、サーバ12は抽出情報を知識ベース内に格納するのに適切なフォーマットに変換することができる。サーバ12は情報が加えられるフレームが存在することをチェックすることができる。また、サーバ12はフレームにスロットを加え次にスロットを抽出情報で占めることができる。次に、変換された情報を知識ベース内に格納することができる。
前記したように、本発明は情報抽出および格納プロセスを管理する。図3に示すステップは同時に実施できることは明らかである。たとえば、情報エクストラクタが第1の記事に対する抽出情報を入力している間に、本発明は情報が既に入力されている第2の記事に品質管理を実施し、第3の記事に対するモデルレビューを実施し、第4の記事に対する情報記憶部15内への情報の格納を行うことができる。したがって、記事を識別する、情報エクストラクタを識別する、抽出情報を受信する、品質管理処理、モデルレビュー、および情報格納のタスクを並列に段階的に実施することができる。
前記したように、情報抽出プロセスおよびコンテンツレビュープロセスは地理的に分散することができる。インターネットを介してアクセスしたウェブサイト上に訓練材料を提供することができかつ情報抽出およびコンテンツレビューに対して選択された記事は、インターネットを介して電子バージョンで提供することもできるため、個体を一つの場所に物理的に集中させる必要性はほとんどない。コンテンツレビューのタスクのために、情報抽出の結果だけでなくオリジナル記事もインターネットを介して電子的ドキュメントとして提供することができる。この電子的分散網が確立されると、それは情報記憶部15を占める全体コストを最小限に抑えるようにいくつかの方法で利用することができる。任意の定められた時間において、いくつかの異なる国のコンテンツレビューアは情報抽出プロセスを既に経由している記事を検査することができる。同等技能が身についている個体に対しては国ごとにサラリーが変動するため、一般的により低い報酬レートで働くコンテンツレビューアにはより高いレートで支払われるコンテンツレビューアよりも多くの仕事を受け取るように自動的に指示することができる。個体の技能を磨きつづけるだけでなくそのサービスを維持するために、このような仕事に対する資格のある全ての個体にある最低量のコンテンツレビュー仕事を流さなければならない。仕事が最初に報酬の多くない個体に配布され次に高い報酬レベルで働く個体に配布されることがあるため、同様な仕事の割当ては情報抽出プロセスでも起こることがある。ここでも、全有資格情報エクストラクタのサービスを維持するために、ある最少数の記事を各有資格情報エクストラクタに提供しなければならない。あるいは、より良い資格のあるエクストラクタおよびレビューアに抽出または品質管理レビューのための記事を選択する機会を与えることができる。もう一つの代替策として、エクストラクタが予め割り当てられている記事のタイプに基づいて記事を割り当てることができる。
図9A−9Cは本発明の実施例に従ってデータベース13内に格納することができる情報を示す。図9A−9Cに示す実施例において、情報はテーブル間のリンク付テーブルの形式で格納される。テーブルConcepts244はユーザ規準52(図3参照)内に含めることができ情報が抽出される記事を識別するのに使用される概念に対する情報を格納する。概念を記述するのに使用することができる用語に関する情報はテーブルTerms250内に格納される。テーブルConceptReference248は用語を概念にマッピングするのに使用される情報を格納する。用語のソースおよび記述に関する情報は、それぞれ、テーブルTermSource252およびテーブルDescription256内に格納される。記事を検索するのに使用されるさまざまなカテゴリーに関連する情報はテーブルCategory254内に格納される。カテゴリーに関連するコンテキスト情報はテーブルArcheTypes246内に格納される。たとえば、検索に対して“遺伝子”カテゴリーが使用された場合、テーブルArcheTypes246は遺伝子のタイプ、遺伝子の有機体ソース、遺伝子の化学構造、に関するコンテキスト情報、および他の同様な情報を含むことができる。
テーブルCMAArticles240およびテーブルCMAJournals242は情報抽出に対する候補者である記事に関する情報を格納する。格納された情報は情報エクストラクタが、URL情報等の、記事にアクセスできるようにする情報を含むことができる。これらのテーブルは記事に対する出版日付情報、記事が識別された日付、および記事に対する他の記述的情報も格納する。
前記したように、処理のさまざまなステージにおいて多様なメトリクス情報が捕捉される。テーブルAMSArticle258は記事に対するメトリクス情報を格納する。格納された情報は情報抽出プロセスに関連するメトリクス、品質管理プロセス中に記録されたメトリクス、各記事に対する品質管理得点を計算するための情報、情報エクストラクタのための報酬額を求めるのに使用されたメトリクス、および他の同様な情報を含むことができる。
テーブルAMSConcepts262はオントロジー内でモデル化する必要がある概念や用語に関する情報を格納する。テーブルAMSConceptTranscript264内の情報はモデルレビューステージ中にオントロジストにより更新され、新しい概念がオントロジー内でどのようにモデル化されるかを記述する。テーブルAMSDocument260は抽出情報を知識ベース内の格納を容易にするフォーマットに変換するために使用される情報を格納する。テーブルAbstractMarkup266は記事のタイトルおよび/または要約に基づく記事の自動的検証に関連する結果を格納する。この情報は特定の記事がなぜサーバ12により適切であったまたはなかったと見なされたかを表示することができる。この情報はサーバ12により明瞭に検証および分類できなかった記事を手動で検証および分類するのに使用することができる。
前記したように、処理のさまざまなステージにおいて待ち行列が使用される。テーブルQueueItems268、QueueItemData270、およびQueueItemLog272は待ち行列に関連する情報を格納する。テーブルQueueItems268は個体のアイテムおよびアイテムを含む待ち行列をマッピングする情報を格納する。テーブルQueueItemData270は待ち行列内の記事を優先順位付けするために使用される情報を格納する。テーブルQueueItemLog272は待ち行列アイテムに関連する情報をロギングするのに使用される。図9A−9Cは本発明の特定の実施例を記述しており特許請求の範囲に列挙された発明の範囲を制限するものではない。
本発明の特定の実施例について記述してきたが、さまざまな修正、変更、代替構造、および同等のものも本発明の範囲内に入る。記述された発明はある特定のデータ処理環境内での動作に制限されず、複数のデータ処理環境内で自由に動作することができる。たとえば、本発明は情報抽出および格納から利益を得る任意の領域または産業に対する情報抽出および格納に使用することができる。さらに、トランザクションおよびステップの特定シリーズを使用して本発明を記述してきたが、当業者ならば本発明の範囲はトランザクションおよびステップの記述されたシリーズに限定されないことは自明である。
さらに、ハードウェアとソフトウェアの特定の組合せを使用して本発明を記述してきたが、ハードウェアとソフトウェアの他の組合せも本発明の範囲内に入ることを認識しなければならない。本発明はハードウェアのみまたはソフトウェアのみまたはそれらの組合せにより実現することができる。
したがって、明細書および図面は説明用であって制約的意味合いはないと考えるべきである。しかしながら、特許請求の範囲に記載された本発明のより広い精神および範囲から逸脱することなく追加、除去、削除、その他の修正および変更を行えることは明白である。
本発明の実施例を内蔵することができる分散コンピュータ網の単純化されたブロック図である。 本発明の実施例を内蔵することができるコンピュータシステムの単純化されたブロック図である。 情報抽出および格納を容易にするために本発明の実施例により実施される処理を示す単純化されたフロー図である。 情報エクストラクタを識別するために本発明の実施例により実施される処理を示す単純化されたフロー図である。 本発明の実施例により実施される品質管理処理を示す単純化されたフロー図である。 情報エクストラクタのための報酬を計算するために本発明の実施例により実施される処理を示す単純化されたフロー図である。 情報エクストラクタに表示することができる模範的なウェブページを示す図である。 新しい概念または用語を調べて、その新しい概念または用語を適合させるためにオントロジーに変更を加える、本発明の実施例により実施される処理を示す単純化されたフロー図である。 本発明の実施例に従ってデータベース内に格納することができる情報を示す図である。 本発明の実施例に従ってデータベース内に格納することができる情報を示す図である。 本発明の実施例に従ってデータベース内に格納することができる情報を示す図である。

Claims (8)

  1. 記事から情報を抽出し該抽出した情報をフレームベース知識表現で格納するシステムであって、
    情報が抽出される記事を選択して優先順位付けする記事選択ユニットと、
    該記事選択ユニットに接続されると共に通信を行い、前記記事選択ユニットから選択された記事を受信し予め定められた情報抽出プロトコルに従って前記選択された記事から情報を抽出する情報抽出ユニットと、
    該情報抽出ユニットに接続されると共に通信を行い、前記抽出された情報が適切に抽出されかつフレームベース知識表現で格納するためにフォーマットされているかを確認する知識表現管理ユニットと、
    該知識表現管理ユニットに接続されると共に通信を行い、適切に抽出されかつフォーマットされていれば前記情報をその表現で格納しかつ格納された表現に関する問い合わせに応答する情報格納ユニットと、
    該情報格納ユニットに接続されると共に通信を行い、前記情報格納ユニット内に格納された情報に対するユーザの問い合わせに応答し、該問い合わせに応答して情報格納ユニットから情報を検索し該検索した情報を表示する照会管理および情報表示ユニットと、
    を含む前記システム。
  2. 請求項1に記載のシステムであって、前記情報抽出ユニットと前記知識表現管理ユニットとは結合される前記システム。
  3. 請求項1に記載のシステムであって、少なくとも前記情報抽出ユニットと前記知識表現管理ユニットとは地理的に広範に離されており、前記各ユニットはその機能を最低コストで実施できるところならばどこでも配置される前記システム。
  4. フレームベース知識表現の構成方法であって、
    前記知識表現に対する情報源として使える記事を選択するステップと、
    前記選択された記事から情報を抽出しそれを知識表現で格納するためにフォーマットするステップと、
    前記選択された記事から抽出された情報は正しいことおよび正しいフォーマットで配置されていることを検証するステップと、
    フォーマットされた情報を前記知識表現で格納するステップと、
    を含む前記方法。
  5. 請求項4に記載の方法であって、前記情報抽出ステップは知識抽出者によって実施され、前記検証ステップは品質管理者によって実施される前記方法。
  6. 請求項5に記載の方法であって、前記抽出ステップおよび前記検証ステップは共に同じ者によって実施され、その者は予め定められた手順により両方のステップを同時に実施する資格を与えられている者である前記方法。
  7. 請求項4に記載の方法であって、少なくとも前記抽出と前記検証ステップとは地理的に離れた場所で行われる前記方法。
  8. 請求項7に記載の方法であって、前記地理的に離れた場所は前記抽出および前記検証の各ステップを実施するコストに基づいて選択され、各ステップに対する最低コストとなる場所が選択される方法。
JP2003544634A 2001-11-09 2002-11-07 知識ベースに対して情報抽出および品質管理を実施する方法およびシステム Pending JP2005509952A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/038,197 US6741986B2 (en) 2000-12-08 2001-11-09 Method and system for performing information extraction and quality control for a knowledgebase
PCT/US2002/035650 WO2003042872A1 (en) 2001-11-09 2002-11-07 Method and system for performing information extraction and quality control for a knowledge base

Publications (1)

Publication Number Publication Date
JP2005509952A true JP2005509952A (ja) 2005-04-14

Family

ID=21898592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003544634A Pending JP2005509952A (ja) 2001-11-09 2002-11-07 知識ベースに対して情報抽出および品質管理を実施する方法およびシステム

Country Status (6)

Country Link
US (3) US6741986B2 (ja)
EP (2) EP2549392A3 (ja)
JP (1) JP2005509952A (ja)
AU (1) AU2002340393B2 (ja)
CA (1) CA2465592C (ja)
WO (1) WO2003042872A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008041090A (ja) * 2006-08-04 2008-02-21 Xerox Corp 文書カタログシステム
WO2008146807A1 (ja) * 2007-05-31 2008-12-04 Nec Corporation オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US6772160B2 (en) * 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US7577683B2 (en) * 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
EP1308863A1 (de) * 2001-11-06 2003-05-07 ALSTOM (Switzerland) Ltd Verfahren zur nichtlinearen Bewertung von Dokumenten
US7024624B2 (en) * 2002-01-07 2006-04-04 Kenneth James Hintz Lexicon-based new idea detector
EP3633680A1 (en) * 2002-02-04 2020-04-08 QIAGEN Redwood City, Inc. Drug discovery methods
US8793073B2 (en) * 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
JP3809863B2 (ja) * 2002-02-28 2006-08-16 インターナショナル・ビジネス・マシーンズ・コーポレーション サーバ
JP2003316807A (ja) * 2002-04-23 2003-11-07 Communication Research Laboratory 情報検索装置及び情報検索ソフトウェアを格納した記憶媒体
US7865534B2 (en) * 2002-09-30 2011-01-04 Genstruct, Inc. System, method and apparatus for assembling and mining life science data
US7395536B2 (en) * 2002-11-14 2008-07-01 Sun Microsystems, Inc. System and method for submitting and performing computational tasks in a distributed heterogeneous networked environment
US20040249620A1 (en) * 2002-11-20 2004-12-09 Genstruct, Inc. Epistemic engine
GB2399665A (en) * 2003-03-18 2004-09-22 British Telecomm Access control to shared resources
US20040193591A1 (en) * 2003-03-27 2004-09-30 Winter Robert William Searching content information based on standardized categories and selectable categorizers
US8005709B2 (en) 2003-06-17 2011-08-23 Oracle International Corporation Continuous audit process control objectives
US7899693B2 (en) * 2003-06-17 2011-03-01 Oracle International Corporation Audit management workbench
US7941353B2 (en) * 2003-06-17 2011-05-10 Oracle International Corporation Impacted financial statements
US8296167B2 (en) * 2003-06-17 2012-10-23 Nigel King Process certification management
US20050055312A1 (en) * 2003-08-18 2005-03-10 Wilson Kelce Steven Software control flow watermarking
US8661559B2 (en) * 2003-08-18 2014-02-25 Riverside Research Institute Software control flow watermarking
EP1690212A2 (en) * 2003-11-26 2006-08-16 Genstruct, Inc. System, method and apparatus for causal implication analysis in biological networks
US20050154535A1 (en) * 2004-01-09 2005-07-14 Genstruct, Inc. Method, system and apparatus for assembling and using biological knowledge
US7584221B2 (en) * 2004-03-18 2009-09-01 Microsoft Corporation Field weighting in text searching
JP2007537515A (ja) * 2004-05-13 2007-12-20 ロジャーズ,ロバート,ジョン 情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法
US7464110B2 (en) * 2004-06-30 2008-12-09 Nokia Corporation Automated grouping of image and other user data
US20060004698A1 (en) * 2004-06-30 2006-01-05 Nokia Corporation Automated prioritization of user data files
US7606793B2 (en) * 2004-09-27 2009-10-20 Microsoft Corporation System and method for scoping searches using index keys
US7761448B2 (en) * 2004-09-30 2010-07-20 Microsoft Corporation System and method for ranking search results using click distance
US7739277B2 (en) * 2004-09-30 2010-06-15 Microsoft Corporation System and method for incorporating anchor text into ranking search results
US7827181B2 (en) * 2004-09-30 2010-11-02 Microsoft Corporation Click distance determination
US20060089861A1 (en) * 2004-10-22 2006-04-27 Oracle International Corporation Survey based risk assessment for processes, entities and enterprise
US20060140860A1 (en) * 2004-12-08 2006-06-29 Genstruct, Inc. Computational knowledge model to discover molecular causes and treatment of diabetes mellitus
US7716198B2 (en) * 2004-12-21 2010-05-11 Microsoft Corporation Ranking search results using feature extraction
US20060200460A1 (en) * 2005-03-03 2006-09-07 Microsoft Corporation System and method for ranking search results using file types
US7792833B2 (en) * 2005-03-03 2010-09-07 Microsoft Corporation Ranking search results using language types
US20070016580A1 (en) * 2005-07-15 2007-01-18 International Business Machines Corporation Extracting information about references to entities rom a plurality of electronic documents
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US8095565B2 (en) * 2005-12-05 2012-01-10 Microsoft Corporation Metadata driven user interface
US7885841B2 (en) * 2006-01-05 2011-02-08 Oracle International Corporation Audit planning
US8005873B2 (en) * 2006-01-25 2011-08-23 Microsoft Corporation Filtering and sorting information
US20070225956A1 (en) * 2006-03-27 2007-09-27 Dexter Roydon Pratt Causal analysis in complex biological systems
CA2658991A1 (en) * 2006-07-28 2008-01-31 Ingenuity Systems, Inc. Genomics based targeted advertising
US7668791B2 (en) * 2006-07-31 2010-02-23 Microsoft Corporation Distinguishing facts from opinions using a multi-stage approach
US10453029B2 (en) 2006-08-03 2019-10-22 Oracle International Corporation Business process for ultra transactions
JP2008083806A (ja) * 2006-09-26 2008-04-10 Hitachi Software Eng Co Ltd 研究開発財産管理システム
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US7958103B1 (en) * 2007-03-30 2011-06-07 Emc Corporation Incorporated web page content
US8082109B2 (en) * 2007-08-29 2011-12-20 Selventa, Inc. Computer-aided discovery of biomarker profiles in complex biological systems
EP2212815A1 (en) * 2007-09-26 2010-08-04 Genstruct, Inc. Software assisted methods for probing the biochemical basis of biological states
US7840569B2 (en) * 2007-10-18 2010-11-23 Microsoft Corporation Enterprise relevancy ranking using a neural network
US9348912B2 (en) * 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US9146985B2 (en) * 2008-01-07 2015-09-29 Novell, Inc. Techniques for evaluating patent impacts
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
US20090327229A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Automatic knowledge-based geographical organization of digital media
US8126899B2 (en) 2008-08-27 2012-02-28 Cambridgesoft Corporation Information management system
US9223770B1 (en) * 2009-07-29 2015-12-29 Open Invention Network, Llc Method and apparatus of creating electronic forms to include internet list data
US20110083084A1 (en) * 2009-10-05 2011-04-07 Hans-Diedrich Kreft Method and device for employing editors to compoile data for competence functions
US8793208B2 (en) * 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
EP2530605A4 (en) * 2010-01-29 2013-12-25 Panasonic Corp DATA PROCESSING UNIT
US9760634B1 (en) 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US8463789B1 (en) 2010-03-23 2013-06-11 Firstrain, Inc. Event detection
EP2567338B1 (en) * 2010-05-03 2020-04-08 Perkinelmer Informatics, Inc. Method and apparatus for processing documents to identify chemical structures
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8793706B2 (en) 2010-12-16 2014-07-29 Microsoft Corporation Metadata-based eventing supporting operations on data
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US8612990B1 (en) 2011-10-25 2013-12-17 Google Inc. Prioritized rate scheduler for a storage system
EP2776962A4 (en) 2011-11-07 2015-12-02 Ingenuity Systems Inc METHODS AND SYSTEMS FOR IDENTIFICATION OF CAUSAL GENOMIC VARIANTS
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
US20130218914A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation System and method for providing recommendations based on information extracted from reviewers' comments
US9977876B2 (en) 2012-02-24 2018-05-22 Perkinelmer Informatics, Inc. Systems, methods, and apparatus for drawing chemical structures using touch and gestures
US8747115B2 (en) 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
US9600625B2 (en) 2012-04-23 2017-03-21 Bina Technologies, Inc. Systems and methods for processing nucleic acid sequence data
US9002702B2 (en) * 2012-05-03 2015-04-07 International Business Machines Corporation Confidence level assignment to information from audio transcriptions
WO2014019126A1 (en) * 2012-07-31 2014-02-06 Hewlett-Packard Development Company, L. P. Context-aware category ranking for wikipedia concepts
US8539001B1 (en) 2012-08-20 2013-09-17 International Business Machines Corporation Determining the value of an association between ontologies
US20140149846A1 (en) * 2012-09-06 2014-05-29 Locu, Inc. Method for collecting offline data
US20140089328A1 (en) * 2012-09-27 2014-03-27 International Business Machines Corporation Association of data to a biological sequence
US9535583B2 (en) 2012-12-13 2017-01-03 Perkinelmer Informatics, Inc. Draw-ahead feature for chemical structure drawing applications
US10592480B1 (en) * 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
US10412131B2 (en) 2013-03-13 2019-09-10 Perkinelmer Informatics, Inc. Systems and methods for gesture-based sharing of data between separate electronic devices
US8854361B1 (en) 2013-03-13 2014-10-07 Cambridgesoft Corporation Visually augmenting a graphical rendering of a chemical structure representation or biological sequence representation with multi-dimensional information
CN105264555A (zh) 2013-04-12 2016-01-20 培生教育公司 评估控制
US9430127B2 (en) 2013-05-08 2016-08-30 Cambridgesoft Corporation Systems and methods for providing feedback cues for touch screen interface interaction with chemical and biological structure drawing applications
US9751294B2 (en) 2013-05-09 2017-09-05 Perkinelmer Informatics, Inc. Systems and methods for translating three dimensional graphic molecular models to computer aided design format
US10460830B2 (en) 2013-08-22 2019-10-29 Genomoncology, Llc Computer-based systems and methods for analyzing genomes based on discrete data structures corresponding to genetic variants therein
US10162852B2 (en) 2013-12-16 2018-12-25 International Business Machines Corporation Constructing concepts from a task specification
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10917304B2 (en) * 2015-12-30 2021-02-09 Paypal, Inc. Task monitoring system
US10706113B2 (en) 2017-01-06 2020-07-07 Microsoft Technology Licensing, Llc Domain review system for identifying entity relationships and corresponding insights
CA3055172C (en) 2017-03-03 2022-03-01 Perkinelmer Informatics, Inc. Systems and methods for searching and indexing documents comprising chemical information

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259498A (ja) * 1998-03-10 1999-09-24 Fujitsu Ltd 文書処理装置および記録媒体
JP2001134600A (ja) * 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5317507A (en) * 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
US5371807A (en) 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
US5418971A (en) * 1992-04-20 1995-05-23 International Business Machines Corporation System and method for ordering commands in an automatic volume placement library
US5377103A (en) 1992-05-15 1994-12-27 International Business Machines Corporation Constrained natural language interface for a computer that employs a browse function
DE69331456T2 (de) 1992-10-09 2002-11-07 Matsushita Electric Ind Co Ltd Überprüfbare optische Zeichenerkennung
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US6061675A (en) * 1995-05-31 2000-05-09 Oracle Corporation Methods and apparatus for classifying terminology utilizing a knowledge catalog
US5963966A (en) 1995-11-08 1999-10-05 Cybernet Systems Corporation Automated capture of technical documents for electronic review and distribution
JP3612125B2 (ja) 1995-12-14 2005-01-19 株式会社東芝 情報フィルタリング方法および情報フィルタリング装置
US6076088A (en) * 1996-02-09 2000-06-13 Paik; Woojin Information extraction system and method using concept relation concept (CRC) triples
JPH1049549A (ja) 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US6101488A (en) 1996-09-04 2000-08-08 Fujitsu Limited Intelligent information program generation and retrieval system
US6023659A (en) 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
JPH10207939A (ja) * 1997-01-17 1998-08-07 Nec Corp ワークフローシステム
US6038560A (en) 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US6345235B1 (en) * 1997-05-30 2002-02-05 Queen's University At Kingston Method and apparatus for determining multi-dimensional structure
DE69823206T2 (de) 1997-07-25 2004-08-19 Affymetrix, Inc. (a Delaware Corp.), Santa Clara Verfahren zur herstellung einer bio-informatik-datenbank
US6554705B1 (en) * 1997-08-22 2003-04-29 Blake Cumbers Passive biometric customer identification and tracking system
US5976842A (en) * 1997-10-30 1999-11-02 Clontech Laboratories, Inc. Methods and compositions for use in high fidelity polymerase chain reaction
US6055538A (en) * 1997-12-22 2000-04-25 Hewlett Packard Company Methods and system for using web browser to search large collections of documents
US6226377B1 (en) * 1998-03-06 2001-05-01 Avaya Technology Corp. Prioritized transaction server allocation
US6236987B1 (en) 1998-04-03 2001-05-22 Damon Horowitz Dynamic content organization in information retrieval systems
US6424980B1 (en) 1998-06-10 2002-07-23 Nippon Telegraph And Telephone Corporation Integrated retrieval scheme for retrieving semi-structured documents
US6067548A (en) 1998-07-16 2000-05-23 E Guanxi, Inc. Dynamic organization model and management computing system and method therefor
US6370542B1 (en) * 1998-10-23 2002-04-09 Qwest Communications International, Inc. Method and apparatus for knowledge acquisition and management
US6498795B1 (en) 1998-11-18 2002-12-24 Nec Usa Inc. Method and apparatus for active information discovery and retrieval
US6442566B1 (en) * 1998-12-15 2002-08-27 Board Of Trustees Of The Leland Stanford Junior University Frame-based knowledge representation system and methods
US6904423B1 (en) * 1999-02-19 2005-06-07 Bioreason, Inc. Method and system for artificial intelligence directed lead discovery through multi-domain clustering
US6292796B1 (en) 1999-02-23 2001-09-18 Clinical Focus, Inc. Method and apparatus for improving access to literature
US6581038B1 (en) 1999-03-15 2003-06-17 Nexcura, Inc. Automated profiler system for providing medical information to patients
US6741976B1 (en) * 1999-07-01 2004-05-25 Alexander Tuzhilin Method and system for the creation, application and processing of logical rules in connection with biological, medical or biochemical data
WO2001013105A1 (en) 1999-07-30 2001-02-22 Agy Therapeutics, Inc. Techniques for facilitating identification of candidate genes
US6598043B1 (en) * 1999-10-04 2003-07-22 Jarg Corporation Classification of information sources using graph structures
US7022905B1 (en) * 1999-10-18 2006-04-04 Microsoft Corporation Classification of information and use of classifications in searching and retrieval of information
GB2363874B (en) * 1999-11-06 2004-08-04 Dennis Sunga Fernandez Bioinformatic transaction scheme
US20010049671A1 (en) * 2000-06-05 2001-12-06 Joerg Werner B. e-Stract: a process for knowledge-based retrieval of electronic information
US6772160B2 (en) * 2000-06-08 2004-08-03 Ingenuity Systems, Inc. Techniques for facilitating information acquisition and storage
US7577683B2 (en) * 2000-06-08 2009-08-18 Ingenuity Systems, Inc. Methods for the construction and maintenance of a knowledge representation system
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US20020194201A1 (en) * 2001-06-05 2002-12-19 Wilbanks John Thompson Systems, methods and computer program products for integrating biological/chemical databases to create an ontology network
US20030018522A1 (en) * 2001-07-20 2003-01-23 Psc Scanning, Inc. Biometric system and method for identifying a customer upon entering a retail establishment
US8793073B2 (en) * 2002-02-04 2014-07-29 Ingenuity Systems, Inc. Drug discovery methods
EP3633680A1 (en) * 2002-02-04 2020-04-08 QIAGEN Redwood City, Inc. Drug discovery methods
US20040249620A1 (en) * 2002-11-20 2004-12-09 Genstruct, Inc. Epistemic engine
US7914468B2 (en) * 2004-09-22 2011-03-29 Svip 4 Llc Systems and methods for monitoring and modifying behavior
US20060143082A1 (en) * 2004-12-24 2006-06-29 Peter Ebert Advertisement system and method
US20070282632A1 (en) * 2006-05-30 2007-12-06 Eric Sachs Method and apparatus for serving advertisements in an electronic medical record system
CA2658991A1 (en) * 2006-07-28 2008-01-31 Ingenuity Systems, Inc. Genomics based targeted advertising

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11259498A (ja) * 1998-03-10 1999-09-24 Fujitsu Ltd 文書処理装置および記録媒体
JP2001134600A (ja) * 1999-11-08 2001-05-18 Nec Corp 情報抽出システム、情報抽出方法および情報抽出用プログラムを記録した記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008041090A (ja) * 2006-08-04 2008-02-21 Xerox Corp 文書カタログシステム
WO2008146807A1 (ja) * 2007-05-31 2008-12-04 Nec Corporation オントロジ処理装置、オントロジ処理方法、及びオントロジ処理プログラム
US8244769B2 (en) 2007-05-31 2012-08-14 Nec Corporation System and method for judging properties of an ontology and updating same

Also Published As

Publication number Publication date
US20050055347A9 (en) 2005-03-10
CA2465592A1 (en) 2003-05-22
US20110191286A1 (en) 2011-08-04
AU2002340393B2 (en) 2007-01-18
US20030074516A1 (en) 2003-04-17
EP1454264A4 (en) 2007-10-24
CA2465592C (en) 2013-05-21
EP1454264A1 (en) 2004-09-08
US6741986B2 (en) 2004-05-25
EP2549392A2 (en) 2013-01-23
EP2549392A3 (en) 2014-02-12
WO2003042872A1 (en) 2003-05-22
US20040236740A1 (en) 2004-11-25

Similar Documents

Publication Publication Date Title
AU2002340393B2 (en) Method and system for performing information extraction and quality control for a knowledge base
US6772160B2 (en) Techniques for facilitating information acquisition and storage
AU2002340393A1 (en) Method and system for performing information extraction and quality control for a knowledge base
KR100996131B1 (ko) 리스팅 관리 시스템 및 방법
US7702621B2 (en) System and method for providing profile matching within an unstructured document
US6694331B2 (en) Apparatus for and method of searching and organizing intellectual property information utilizing a classification system
US8024333B1 (en) System and method for providing information navigation and filtration
US20140143269A1 (en) Simultaneous Intellectual Property Search and Valuation System and Methodology (SIPS-VSM)
US8103678B1 (en) System and method for establishing relevance of objects in an enterprise system
US20130046782A1 (en) Method and system to provide subsequent history field for intellectual property document
CN1650295A (zh) 用于数据库查询和信息提交的方法和系统
JP2013503400A (ja) 公的セクタの雇用と私的セクタの雇用の間における労働力移行を管理するためのシステムおよび方法
AU2014318392A1 (en) Systems, methods, and software for manuscript recommendations and submissions
JP2008537811A (ja) リスティングを管理するためのシステム及び方法
US20090112850A1 (en) Bioitem Searcher, Bioitem Search Terminal, Bioitem Search Method, and Program
JP5266975B2 (ja) 個人検索システム、情報処理装置、個人検索方法、プログラムおよび記録媒体
Moore Performance Measures for Knowledge
US20020147596A1 (en) On-line laboratory services brokerage system
Gáspári et al. Efficient recognition of folds in protein 3D structures by the improved PRIDE algorithm
US8250024B2 (en) Search relevance in business intelligence systems through networked ranking
AU2006201478B2 (en) Method and system for performing information extraction and quality control for a knowledge base
Weinzierl et al. Epidemic Question Answering: question generation and entailment for Answer Nugget discovery
Oliver et al. Here, there and everywhere: an analysis of reference services in academic archives
CN117668242A (zh) 一种数据分析方法、系统及相关设备
Kochen Quality Control in the Publishing Process and

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080919

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081120

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090611

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090724

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20091009

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110722

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110727

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110822

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110825

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110922

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110929