JP2005509952A

JP2005509952A - 知識ベースに対して情報抽出および品質管理を実施する方法およびシステム

Info

Publication number: JP2005509952A
Application number: JP2003544634A
Authority: JP
Inventors: チョー、レイモンド、ジェイ．; チェン、リチャード、オー．; フェルシアーノ、ラモン、エム．; リチャーズ、ダニエル、アール．; ノーマン、フィリィパ
Original assignee: インジェヌイティシステムズインコーポレイテッド
Priority date: 2001-11-09
Filing date: 2002-11-07
Publication date: 2005-04-14
Also published as: US20050055347A9; CA2465592A1; US20110191286A1; AU2002340393B2; US20030074516A1; EP1454264A4; CA2465592C; EP1454264A1; US6741986B2; EP2549392A2; EP2549392A3; WO2003042872A1; US20040236740A1

Abstract

本発明（図３）は情報抽出および格納の分野に関連し、特に、複数の記事から分散方式で情報を抽出して情報記憶部に格納する技術に関連する。本発明の実施例は、情報が抽出される複数の記事と、その記事から情報を抽出する複数の情報エクストラクタと、を識別する（５６）。複数の記事と複数の情報エクストラクタとに関連する情報を格納するためのデータベースが提供される（５８）。複数の記事は情報抽出のために複数の情報エクストラクタに割り当てられる。情報エクストラクタにより、その記事から抽出された情報は、情報記憶部内に格納される（６４）。

Description

（著作権通告）
本発明文書の開示の一部は著作権保護の対象となる資料を含んでいる。著作権所有者は誰でも米国特許庁特許ファイルまたは記録に載っているままの形で特許文書や特許開示をゼロックスで再生することに異議を唱えないが、そうでないものについては全て著作権を保持するものとする。
（関連出願の相互参照）
本出願は本出願の譲受人Ingenuity Systems, Inc.が予め譲り受けている2000年12月8日に出願した出願中の米国特許出願第09/733,495号“Techniques For Facilitating Information Acquisition and Storage”の一部継続出願である。前に出願した出願中の特許出願の全体が本開示の一部としてここに組み入れられている。
（発明の背景）
本発明は情報抽出および格納の分野に関するものであり、特に、分散情報取得および情報格納プロセスの管理技術に関する。

情報消費者が利用できる情報の量および複雑さは激増してきており、また激増し続けると思われる。しかしながら、パブリックドメイン内で利用可能な異種情報の大きさにより、情報消費者は典型的には利用可能な情報の非常に僅かなパーセンテージにしかアクセス、理解、および有意使用することができない。それは、主として、情報が典型的には雑誌、定期刊行物、書類、新聞、書籍、ノートブック、等内に含まれることがある記事の中に埋もれたり、あるいはデータベース、デジタルライブラリ、等の情報記憶部(information stores)内にデジタルフォーマットで格納されるためである。特記なき限り、本出願で使用される“記事(article)”という用語は任意の転写または印刷された情報、またはデジタルフォーマットで利用可能な情報、またはその組合せや一部分を含むものと解釈してよい。記事内の情報はテキスト、グラフィックス、図表、オーディオ情報、ビデオ情報、マルチメディア情報、およびさまざまなフォーマットの他のタイプの情報を含むことができる。記事は出版済または未出版のものとすることができる。これらの記事は数百または数千に達することがあるため、情報消費者は実際の時間枠内でそれら全てにアクセス、読出し、および理解することはできない。さまざまな記事からの情報を統合するためにいくつかのデータ保管技術が使用されてきているが、これらの技術は利用可能な情報のまん延についていけるほど柔軟ではない。また、それらは情報過負荷問題に役立つことはめったにない。事実、データを集約することにより、これらのデータ保管技術は情報過負荷問題を悪化させることがある。

過去１０年間において情報のすさまじい激増が見られた一つの分野は、生態科学における遺伝子の識別および機能的特性付けの指数関数的増加から利益を得ているライフサイエンスの分野である。１０年前は“データウェアハウス”のためには研究所のノートで十分な場合が多かった。研究者は自分の研究に関する情報に基づく判断を行うのに、一握りの遺伝子の深い理解力を頼りにすることができた。今日、情報の流入および従来の生物学的研究境界の漠然化により、研究データを完全に吸収、合成、および評価する研究者の能力が追い越されるようになってきている。研究者に対する主要な障害は情報の不足ではなく、情報を格納するのに使用される大量の体系をもたないフォーマットである。大規模実験の結果を評価するために、研究者は刊行された研究文献を非常に頼りにして情報に基づく判断を行うのに重要なキー情報を識別する。膨大な数の記事、情報の体系をもたないフォーマット、および特定の実験結果について研究者が照会できないことにより文献の精査に数日、数週間、またはそれ以上かかることがある。非常に時間集約的である他に、研究者による知識の累積は容易にアクセス可能なフォーマットではないため他の研究者に容易に伝えることができない。

前記に基づいて、さまざまなソースから情報を抽出して情報消費者が容易にアクセスまたは照会できるフォーマットで格納することができる技術が必要とされている。また、この技術は情報の急増と歩調を合わせるのに十分柔軟であることが望ましい。さらに、この技術はさまざまな領域および分野に関連する情報を抽出かつ格納するように適合できることが望ましい。

（発明の概要）
本発明は複数の記事から情報を抽出して情報記憶部内に格納する技術について検討する。一実施例では、本発明は情報が抽出される複数の記事を識別する。また、本発明は複数の記事から情報を抽出する複数の情報エクストラクタ(information extractors)を識別する。複数の記事および複数の情報エクストラクタに関連する情報を格納するデータベースも提供される。この実施例では、本発明は情報抽出のために複数の記事を複数の情報エクストラクタに割り当てる。本発明は情報エクストラクタに割り当てられた記事から情報エクストラクタにより抽出された情報を受信する。次に、抽出された情報は情報記憶部内に格納される。

本発明の一実施例では、情報記憶部は抽出された情報をオントロジーに従って格納するように構成される知識ベースである。この実施例では、事実ベースモデルを使用して記事から情報を抽出することができる。

もう一つの実施例では、本発明は、抽出情報が情報記憶部に格納される前に情報エクストラクタにより抽出された情報に品質管理処理を実施することができる。この実施例では、本発明は、コンテンツレビューア(content reviewer)が情報エクストラクタから受信した抽出情報を検査(review)できるようにする。本発明は抽出情報に関連付けられたエラーを識別するコンテンツレビューアから情報を受信することができる。

一実施例では、本発明は、コンテンツレビューアから受信した情報から、情報エクストラクタから受信した抽出情報内のエラー数を示すエラーカウントを決定する。エラーカウントが閾値エラーカウントレベルよりも上であれば、情報抽出のために記事を情報エクストラクタに再割当てすることができる。エラーカウントが閾値エラーレベル以下であれば、本発明はコンテンツレビューアが情報エクストラクタから受信した抽出情報を変えてエラーを訂正できるようにするサービスを提供することができる。

もう一つの実施例では、本発明は記事から情報を抽出する情報エクストラクタのための報酬(compensation)を計算する。情報エクストラクタに対する報酬額は情報エクストラクタにより抽出された情報内のエラー数、記事に割り当てられた品質得点、および品質管理処理中に捕捉された他のメトリック情報等のいくつかの規準に基づいて計算することができる。

さらにもう一つの実施例では、情報記憶部は抽出情報を情報モデルに従って格納するように構成される。この実施例では、本発明によりレビューアは抽出情報を検査して、もし何かあれば、情報モデルに変更を加えて抽出情報を調整する。この実施例では、本発明により、レビューアは抽出情報およびそれにより導入された新しい概念を検査して、もし何かあれば、情報モデルに加える変更を識別する情報を提供することができる。特定の実施例では、レビューアにより提供される情報を次に第２のレビューアにより検査することができる。第２のレビューアが変更を承認した後で、情報モデルを変更することができる。特定の実施例では、情報記憶部はオントロジーに従って抽出情報を格納するように構成される知識ベースである。本発明はオントロジストが新しい概念を調べてオントロジーに変更を加え新しい概念を適合できるようにするサービスを提供する。他の情報モデルも本発明と共に使用することができる。

明細書の残部および添付図を参照すれば本発明のさらなる性質および利点を理解することができる。

（特定実施例の説明）
本発明は複数の記事から情報または知識を分散式に抽出して情報消費者がアクセスまたは照会することができる体系化されたフォーマットで格納する技術を提供する。情報抽出および格納処理を管理する技術が検討される。図１は本発明の実施例を取り入れることができる分散コンピュータ網１０の単純化されたブロック図である。コンピュータ網１０は複数の通信リンク１８を介して通信網１６に接続されたいくつかのコンピュータシステム１２，１４−１，１４−２，および１４−３を含んでいる。コンピュータシステムは複数のクライアントコンピュータシステム１４−１，１４−２，および１４−３とサーバコンピュータシステム１２を含んでいる。クライアントシステム１４は典型的にはサーバコンピュータシステムから情報を要求し、それはクライアント要求に応答して処理を実施して要求された情報をクライアントシステムに提供する。そのために、サーバは典型的にはクライアントシステムよりも大きい計算および格納能力を有する。しかしながら、特定のコンピュータシステムはそれが情報を要求しているかまたは提供しているかに応じてクライアントまたはサーバとして動作することができる。

通信網１６は分散網１０のさまざまな構成要素が互いに情報を通信かつ交換できるようにする機構を提供する。通信網１６自体は多くの相互接続されたコンピュータシステムおよび通信リンクにより構成することができる。通信リンク１８はハードワイヤリンク、光リンク、衛星その他の無線通信リンク、電波伝播リンク、または任意の他の情報通信機構とすることができる。一実施例では、通信網１６はインターネットであり、他の実施例では、通信網１６は任意の適切な通信網とすることができる。図１に示す分散コンピュータ網１０は本発明を取り入れた実施例を単に例示するものであり、特許請求の範囲に詳述された発明の範囲を限定するものではない。当業者ならば他のバリエーション、修正、および変更を考えることができる。たとえば、２つ以上のサーバシステム１２を通信網１６に接続することができる。

本発明の教示に従って、サーバシステム１２は、さまざまな記事から抽出された情報を受信し、情報を処理し、情報消費者が情報を照会またはアクセスできるフォーマットでそれを格納する作業を担当する。本出願において使用される“サーバシステム”という用語は図１に示すような単一サーバシステム、またはコンピュータ網１０内に分散された一つ以上のサーバシステムとすることができる。したがって、本発明により実施される機能またはタスクはコンピュータ網１６に接続された一つ以上のサーバに分散することができる。特定の実施例では、サーバはセキュリティの目的でファイアウォールの後に隔離することができ、サーバ間の通信は符号化および暗号化することができる。

本発明の実施例では、抽出情報はサーバ１２に接続された情報記憶部１５内に格納することができる。情報記憶部はデータベース、知識ベース、ファイルサーバ、または任意の他のタイプの格納機構とすることができる。本出願において使用される“情報記憶部”という用語は単一の情報記憶部、またはコンピュータ網１０内に分散された複数の情報記憶部とすることができる。たとえば、情報記憶部１５はサーバ１２に局所的に接続するかあるいは分散コンピュータ網１０にわたって分散させ通信網１６を介してサーバ１２によりアクセスすることができる。

本発明の特定実施例では、情報記憶部１５はオントロジーに従って情報を格納するように構成された知識ベースである。オントロジーは実世界またはその一部の知識表現である。オントロジーは典型的には単一事物すなわち要素を表す“個体(individual)”、同じ性質を共有する一群の事物を表す“クラス”、事物間の関係を表す“スロット”、スロットに関する詳細情報を表す“ファセット(facet)”、前記した事物間の詳細関係を表す“関係(relation)”、および他の情報により構成される。関係は限定はしないが分類学的(taxonomic)関係およびパートノミック(partonomic)関係を含むことができる。オントロジーはこれらの関係に基づいた複数のブランチ(branch)を含むことができる。

サーバシステム１２は本発明の教示に従って複数の機能を実施するように構成することができる。これらの機能は典型的にはサーバシステム１２で実行するソフトウェアコードモジュールにより実施される。この機能はサーバシステム１２に接続されたハードウェアモジュール、またはソフトウェアおよびハードウェアモジュールの組合せにより実施することもできる。サーバ１２により実施される機能には、情報が抽出される記事の識別を容易にする、記事から情報を抽出する作業を担当する情報エクストラクタを決定する、情報抽出技術の情報エクストラクタを証明する、情報抽出のために情報エクストラクタに記事を割り当てる、情報エクストラクタにより記事から抽出された情報を受信する、抽出情報の正確さおよび精度を保証する品質管理アクティビティの実行を容易にする、ユーザが情報を格納するモデルを変更できるようにする、情報を情報記憶部１５内に格納する、および本発明の教示に従って他の機能を実施する、ことが含まれる。サーバシステム１２により実施されるさまざまな機能の詳細については後述する。

図１に示すように、データベース１３はサーバ１２に接続することができる。データベース１３は記事から情報を抽出するために本発明により実施される処理に関連付けられた情報を格納するのにも使用することができる。データベース１３内に格納された情報は情報抽出および格納プロセスのさまざまなステップを追従し続けるのにも使用することができる。たとえば、情報取得プロセスの任意の特定のステップの進行状態はデータベース１３内に格納された情報から確認することができる。したがって、本発明のさまざまなユーザに関連する情報、およびプロセスの進行につれて抽出される情報の状態もデータベース１３内に格納することができる。また、ユーザはさまざまなグループに分類することができ、役割および許可はユニットが属するグループに基づいてユーザに許可を割り当てることができる。グループおよび役割に関連する情報およびグループに関連付けられた許可もデータベース１３内に格納することができる。

本出願において使用される“データベース１３”という用語は単一のデータベース、またはコンピュータ網１０内に分散された複数のデータベースを参照してもよい。たとえば、データベース１３はサーバ１２に局所的に接続することができるし、あるいはコンピュータ網１０にわたって分散させ通信網１６を介してサーバ１２によりアクセスすることができる。データベース１３はリレーショナルデータベース、オブジェクトリレーショナルデータベース、オブジェクトオリエンテッドデータベース、知識ベース、フラットファイル、または任意の他の情報記憶部とすることができる。図１は情報記憶部１５およびデータベース１３を２つの別々のエンティティとして示しているが、本発明の特定の実施例では、情報記憶部１５およびデータベース１３は単一の情報記憶部またはデータベースとして結合できることは明らかである。

サーバ１２と相互作用するためにクライアントシステム１４を使用することができる。たとえば、クライアントシステム１４は情報エクストラクタが記事から抽出された情報を入力するのに使用することができる。また、クライアントシステム１４はユーザが情報エクストラクタとなるために使用することができる。一度情報エクストラクタとして任命/指定されると、ユーザはクライアントシステム１４を使用してサーバシステム１２により提供される情報抽出プロセスに関連する証明およびテストアクティビティに参加することができる。また、クライアントシステム１４はサーバシステム１２で実行されるモジュールにより提供される品質管理および情報モデルレビューアアクティビティに参加することもできる。

図２は本発明の実施例に従った模範的なコンピュータシステム２０の単純化されたブロック図である。コンピュータシステム２０は典型的に少なくとも一つのプロセッサ２４を含み、それはバスサブシステム２２を介していくつかの周辺装置と通信する。これらの周辺装置は典型的にメモリサブシステム３４とファイル記憶サブシステム４０とを含む記憶サブシステム３２、ユーザインターフェイス入力装置３０、ユーザインターフェイス出力装置２８、およびネットワークインターフェイスサブシステム２６を含んでいる。入力および出力装置によりユーザはコンピュータシステム２０と相互作用することができる。ユーザは人間のユーザ、デバイス、もう一つのコンピュータ、等とすることができる。ネットワークインターフェイスサブシステム２６は、通信網１６へのインターフェイスを含む、外部網へのインターフェイスを提供し、通信網１６を介して他の通信システム内の対応するインターフェイス装置に接続されている。

ユーザインターフェイス入力装置３０はキーボード、マウス、トラックボール、タッチパッド、またはグラフィックスタブレット等のポインティングデバイス、スキャナ、記事バーコードを走査するバーコードスキャナ、ディスプレイに内蔵されたタッチスクリーン、音声認識システム、マイクロホン等のオーディオ入力装置、その他のタイプの入力装置を含むことができる。一般的に、“入力装置”という用語の使用はコンピュータシステム２０内やコンピュータ網１６上に情報を入力するための可能な全てのタイプの装置および方法を含むものとする。

ユーザインターフェイス出力装置２８は表示サブシステム、プリンタ、ファックスマシン、またはオーディオ出力装置等の非視覚表示を含むことができる。表示サブシステムは陰極線管（ＣＲＴ）、液晶表示（ＬＣＤ）等のフラットパネル装置、または投光装置とすることができる。表示サブシステムはオーディオを介する出力装置等の非視覚表示を含むこともできる。一般的に、“出力装置”という用語の使用はコンピュータシステム２０から人間または他のマシンやコンピュータシステムへ情報を出力するための可能な全てのタイプの装置および方法を含むものとする。

記憶サブシステム３２は本発明を実施するさまざまなシステムの機能性を提供する基本的プログラミングおよびデータ構造を格納する。たとえば、本発明の機能性を実現するさまざまなモジュールを記憶サブシステム３２内に格納することができる。これらのソフトウェアモジュールは一般的にプロセッサ２４により実行される。分散型環境において、ソフトウェアモジュールは複数のコンピュータシステム上に格納してそれらのプロセッサにより実行することができる。また、本発明に従って記憶サブシステム３２は情報を格納するさまざまなデータベースを格納するための収納庫も提供する。記憶サブシステム３２は典型的にはメモリサブシステム３４およびファイル記憶サブシステムを含んでいる。

メモリサブシステム３４は典型的にはプログラム実行中に命令およびデータを格納するための主ランダムアクセスメモリ（ＲＡＭ）３８と、一定の命令が格納されるリードオンリーメモリ（ＲＯＭ）３６と、を含むいくつかのメモリを含んでいる。ファイル記憶サブシステム４０はプログラムおよびデータファイルに対するパーシステント（非揮発性）記憶部を提供し、ハードディスクドライブ、関連付けられた着脱式媒体付フロッピー（登録商標）ディスクドライブ、Compact Digital Read Only Memory (CD-ROM)ドライブ、光ドライブ、着脱式媒体キャリッジ、および他の同様な記憶媒体を含むことができる。一つ以上のドライブは通信網１６上のもう一つのサイトにおける他の接続されたコンピュータ上の離れた場所に配置することができる。また、本発明の教示に従って格納された情報をファイル記憶サブシステム４０により格納することもできる。

バスサブシステム２２はコンピュータシステム２０のさまざまな構成要素およびサブシステムに互いに所期の通信を行わせる機構を提供する。コンピュータシステム２０のさまざまなサブシステムおよび構成要素は同じ物理的場所とする必要はなく、分散網１０内のさまざまな場所に分散させることができる。バスサブシステム２２は単一のバスとして略示されているが、バスサブシステムの代替実施例では多数のバスを使用することができる。

コンピュータシステム２０自体はパーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビジョン、メインフレーム、または任意の他の処理システムを含むさまざまなタイプとすることができる。コンピュータおよびネットワークの性質は変化し続けるため、図２に示すコンピュータシステム２０の説明は本発明の好ましい実施例を例示するための特定例にすぎない。図２に示すコンピュータシステム２０よりも多くのまたは少ない構成要素を有するコンピュータシステムの他の多くの構成が可能である。クライアントコンピュータシステム１４およびサーバコンピュータシステム１２は一般的に図２に示すものと同じ構成を有し、サーバシステムは一般的にクライアントシステムよりも多くの記憶容量および計算能力を有する。

図３は情報抽出および格納プロセスを容易にするために本発明の実施例により実施される処理を示す単純化されたフロー図５０である。図３に示すように、プロセスはいくつかのステップすなわちステージを含んでいる。各ステージに関連する状態情報はサーバ１２により維持される。フロー図５０に従って処理を実施するモジュールはフロー図５０のさまざまなステージを通る記事および情報のフローおよび配信を制御する作業も担当する。処理はそこから情報が抽出される記事を識別して開始される（ステップ５６）。前記したように、本出願において使用される“記事”という用語は任意の複写または印刷された情報、またはデジタルフォーマットで得られる情報、またはそれらの組合せまたは一部を含むものとする。記事内の情報はテキスト、グラフィックス、図表、オーディオ情報、ビデオ情報、マルチメディア情報、およびさまざまなフォーマットの他のタイプの情報を含むことができる。記事は出版されたものでもされないものでもよい。さらに、本出願において使用される“情報”という用語はコンテンツ、データ、知識、および記事から抽出することもできる他のタイプの情報を含むものとする。

記事を識別するのにいくつかの異なる技術を使用することができる。第１の技術では、そこから情報が抽出される記事を識別する情報５４を特定的にサーバ１２に提供することができる。もう一つの技術では、情報が抽出される記事を検索するためにサーバ１２により使用される、ユーザ規準５２をサーバ１２に提供することができる。本発明の特定の実施例では、情報５４およびユーザ規準５２を独立に使用して記事を識別することができる。本発明の別の実施例では、情報５４とユーザ規準５２とのさまざまな組合せを使用して記事を識別することができる。

ユーザ規準は見つけ出される記事のタイプを特徴付けるのに使用することもできる。本発明のユーザはユーザ規準５２を使用して、特定の領域または分野または産業に関連する記事を識別するようにサーバ１２により実施される検索を適応させることができる。ユーザ規準５２は領域に対する固有のキーワード、領域に関連する出版物名、定期刊行物名、新聞名、データベース名、デジタルライブラリ、さまざまな概念、著者名、出版日付、等、および他の同様な情報を含むことができる。

たとえば、ライフサイエンス分野に対して、ユーザ規準５２は遺伝子名、アレイ技術名、蛋白およびアミノ酸名、遺伝子配列、遺伝子発現プロファイル、薬品名、概念、実験方法および技術、出版物および定期刊行物名、出版日付、等のキーワードを含むことができる。また、ユーザ規準５２は検索に含まれるNature,Cell,Science,Nature Medicine,Nature Genetics,Proceedings of the National Academy of Sciences (PNAS), Journal of Biological Chemistry, European Molecular Biology Organization (EMBO)出版物、Journal of Cell Biology, Genes and Development, Molecular and Cellular Biology,等の出版物を識別することもできる。また、ユーザ規準５２はMedline データベース、Genbank データベース、SwissProt データベース、ProSite データベース、Interpro データベース、LocusLink データベース、Unigene データベース、その他さまざまなデータベース等の、公開および非公開データベース（許可される場合）を含む、被検索データベースを識別することもできる。ライフサイエンス領域に関連するさまざまな他のタイプの情報もユーザ規準５２内に含めることができる。

サーバ１２に提供されるユーザ規準５２はサーバ１２に接続されたデータベース１３内に格納することができる。ユーザ規準に基づいて、サーバ１２は分散ネットワーク１０に接続されたさまざまなリソースを検索してユーザ規準を満たしそれに関連する記事を識別する。前記したように、サーバ１２により検索されるリソースは雑誌収納庫、定期刊行物、研究論文、新聞、書籍、および他の資料収納庫を含むことができる。リソースは通信網１６に接続されたオンラインデータベース、デジタルライブラリ、データバンク、等を含むこともできる。サーバ１２はさまざまな検索技術を使用してユーザ規準に関連する記事を識別することができる。これらの技術は自然言語処理を使用して検索を実施する技術、同義語および語/句拡張を使用する技術、および他の同様な技術を含むことができる。さらに、サーバ１２はユーザ規準または前の検索の結果に基づいて単一の検索または複数の検索を実施することができる。

サーバ１２により実施される検索により一つ以上の記事が得られることがある。特定の実施例では、検索により識別された記事はユーザ規準に対するその関連度に基づいてカテゴリーに分類することもできる。サーバ１２は記事をその関連度に基づいてフィルタリングすることもできる。たとえば、ユーザ規準に対する関連度が閾値よりも低い記事は、ステップ５６の一部として、サーバ１２によりフィルタリングすることができる。閾値はユーザ設定可能とすることができる。別の実施例では、自然言語処理（ＮＬＰ；Natural Language Processing）に基づくフィルタを使用してユーザ規準に関連する記事を識別することができる。また、ユーザは特定のソースからの記事は情報抽出の目的に対して考慮されないことを示すことができる。次に、サーバ１２はこれら特定のソースからの記事を自動的にフィルタリングして取り除くことができる。記事はそのソース、出版日付、著者、等の他の規準に基づいて分類することもできる。分類規準は本発明のユーザが設定してサーバ１２に提供することができる。たとえば、ユーザは特定セットの定期刊行物からの記事は一つのカテゴリーに分類されることを示すことができる。フィルタリングおよび分類技術はユーザ設定可能であることは明らかである。

ステップ５６の出力は記事のフィルタリングすなわち分類されたリストを含み、それはユーザにより明白に識別された記事および/またはサーバ１２により実施された検索を介して識別された記事を含むことができる。これらの記事に関連する情報はデータベース１３内に格納される（ステップ５８）。各記事に対して、格納された情報は記事のタイトル、記事の著者、記事のソース、記事の出版日付、および記事に関連する他の同様な情報等の記事に関する記述的情報を含むことができる。格納された情報は記事がユーザにより特定的に識別されたかまたは検索、記事の分類に関連する情報、等を介して識別されたかを示すこともできる。ステップ５６においてフィルタリングにより取り除かれる記事に関連する情報も参照の目的でデータベース１３内に格納することができる。ステップ５６において明瞭に分類できなかった記事に関連する情報もデータベース１３内に格納することができる。この情報により分類されていない記事を手動分類することができる。記事の手動分類に関連する情報もデータベース１３内に格納することができる。本発明の特定の実施例では、サーバ１２は各記事に一意に記事識別子を割り当てる。記事識別子により本発明のユーザは情報抽出および情報格納プロセス中に記事の状態を照会または追従することができる。

ステップ５８の一部として、サーバ１２は各記事に対するアクセス情報も格納し（データベース１３内に）それにより情報エクストラクタは情報を抽出するために記事にアクセスすることができる。実施例では、この情報は記事のタイトル、記事の著者、記事のソース、等を含むことができる。次に、情報エクストラクタはこの情報を使用して記事にアクセスする。もう一つの実施例では、サーバ１２は情報エクストラクタがそこから記事にアクセスすることができるウェブサイトを示す記事に対するuniform resource locator (URL) 情報を格納することができる。

本発明のさらにもう一つの実施例では、もし許されれば、サーバ１２はステップ５８の一部として記事のデジタルコピーを入手して格納することができる。この実施例では、サーバ１２はステップ５６で識別された記事のリストから電子的に入手できるもの（すなわち、デジタルフォーマットで入手できるもの）と、入手できないものを決定する。電子的に入手できる記事に対しては、もし許されれば、サーバ１２は記事のデジタルバージョンに自動的にアクセスする。サーバ１２は記事へのアクセスが許されるかどうかを記事毎のベースで決定することができる。本発明はＰＤＦフォーマット、Postscriptフォーマット、ワードプロセッサ生成フォーマット、テキストフォーマット、ＨＴＭＬフォーマット、その他いくつかのフォーマット等のさまざまなタイプのデジタルフォーマットにアクセスするように構成することができる。実施例では、もし許されれば、サーバ１２は記事のデジタルコピーを作ってデータベース１３内に格納する。本発明の別の実施例では、デジタルコピーは図１に示す他の構成要素により格納することができ、たとえば、コピーは通信網１６に接続されたファイルサーバ上に格納することができる。本発明が記事のデジタルコピーを作ることを許可されない場合、サーバ１２は情報エクストラクタが記事にアクセスできるようにする記事に関連する情報を格納することができる。たとえば、前記したように、サーバ１２はたとえ記事が外国サイト上に格納される場合であっても、記事を表示するのに使用することができる記事に対応するＵＲＬを格納することができる。デジタルフォーマットで入手できない記事に対しては、記事のコピーを手動で得ることができる。許されれば、手動で得られたコピーを次に走査して記事のデジタルバージョンを作り出すことができる。次に、デジタルバージョンを、たとえば、データベース１３内またはファイルサーバ上に格納することができる。前記したように、本発明が記事のデジタルバージョンを作ることを許可されない場合、サーバ１２は情報エクストラクタが記事にアクセスできるようにする記事に関連する情報を格納することができる。

記事に対する情報がデータベース１３内に格納された後で、サーバ１２は記事の状態をデータベース１３内に設定して記事は情報抽出の準備が完了していることを示すことができる。本発明の実施例では、次に処理はステップ６４またはステップ６０に続く。

本発明の実施例では、本発明は情報抽出準備完了としてタグ付けされている記事の順序付けリスト（すなわち、“待ち行列”）を生成する（ステップ６０）。待ち行列内の記事の位置が情報抽出のために情報エクストラクタに記事が与えられる順序を決定し--順序付けリスト内でランクの高い記事はランクの低い記事よりも前に情報抽出のために提供される。記事をこのように順序付けすることにより“より重要”と見なされ、したがってより高い優先順位が割り当てられ、記事は“あまり重要ではない”と見なされる記事よりも前に情報抽出のために提供されることが保証される。また、それにより本発明は情報抽出リソースを最適に使用することができる。たとえば、情報エクストラクタの有限セットが与えられると、順序付けリストは“あまり重要ではない”記事から情報を抽出するためにリソースが使用される前に“より重要な”記事からの情報が抽出されることを保証する。待ち行列内の各記事は記事に対応するＵＲＬ、記事に対する記述情報、記事のデジタルコピー、等の記事に関連する情報により表現できることは明白である。

待ち行列内の記事の順序は、サーバ１２により生成され且つ記事に関連付けられた優先順位得点により、決定される。優先順位のより高い記事にはより高い優先順位得点が割り当てられ、優先順位のより低い記事よりも順序付けリストの上位にランク付けされる。各記事に対する優先順位は記事の特性に基づいてユーザ設定可能優先順位計算の技術/アルゴリズムを使用して計算することができる。たとえば、ステップ５６における記事の分類に基づいて記事を優先順位付けすることができる。ユーザ規準により関連する記事には関連度のより低い記事よりも高い優先順位を割り当てることができる。サーバ１２は本発明のユーザが設定してデータベース１３内に格納される優先順位付け規準６１に基づいて記事を優先順位付けすることもできる。優先順位付け規準６１は記事のソース、すなわち、定期刊行物、雑誌、または記事、記事の出版日付、記事の著者、を含むデータベースに関連する情報、その他同様な情報を含むことができる。たとえば、ユーザにより“より重要な”定期刊行物として識別された特定の定期刊行物からの記事には他のソースからの記事よりも高い優先順位得点を割り当てることができる。記事に関連付けられた優先順位得点および待ち行列内の記事のその後のランク付けに関連する情報はデータベース１３内に格納される。記事に関連付けられた優先順位得点は、優先順位付けに対する規準が変更されるか優先順位の計算に使用されるアルゴリズムが変更される場合に、サーバ１２により定期的に変更することができる。優先順位得点は各記事に対して個別的にまたは記事の全体集合に対して再計算することができる。この変更は順序付けリスト内にダイナミックに反映される。

本発明のもう一つの実施例では、記事を単一の待ち行列に優先順位付けする替わりに、サーバ１２は記事を議論の異なる主題またはエリアに対応する多数の待ち行列内に優先順位付けすることができる。たとえば、ライフサイエンス分野において、サーバ１２は腫瘍学関連トピックスを議論する記事に対する待ち行列、心臓血管病関連トピックスを議論する記事に対する待ち行列、遺伝子機能に関連するトピックスを議論する記事に対する待ち行列、等を生成することができる。記事をこのように系統立てることにより、領域内の問題エリアの特殊な専門知識で情報エクストラクタへの記事の割当てを容易にすることができる。たとえば、腫瘍学の待ち行列からの記事は腫瘍学の専門知識で情報エクストラクタに割り当てることができる。

記事の識別と平行して、本発明は記事から情報を抽出する作業を担当する情報エクストラクタを識別する処理を実施することもできる（ステップ６２）。これらの情報エクストラクタは記事から情報を抽出するために本発明のユーザにより選定されている人間とすることができる。本発明の別の実施例では、情報エクストラクタは記事から情報を自動的に抽出するように構成することができるアプリケーションプログラムとすることができる。情報エクストラクタの選択を容易にする処理が、本発明の実施例に従って、後述される。

図４は図３のステップ６２に従って情報エクストラクタの識別を容易にするためにサーバ１２によって実施される処理を示す単純化されたフロー図である。この処理は一般的にサーバ１２が情報抽出を実施する一組の潜在的候補者を識別する時に開始される（ステップ９８）。一組の候補者は一般的に情報エクストラクタになる意向のある複数の候補者から選択される。

本発明は一組の潜在的候補者を識別するいくつかの技術を使用することができる。特定の実施例では、サーバ１２は情報エクストラクタになることに興味のある候補者に関連する情報９２を受信することができる。候補者はクライアントシステム１４を使用してサーバ１２に情報９２を提供することができる。このようにして、候補者はそれらの地理的場所にかかわらず情報エクストラクタになる申し込みをすることができる。候補者情報は候補者の履歴書(resume)その他の情報の形とすることができ、サーバ１２によりデータベース１３内に格納することができる。次に、サーバ１２は情報エクストラクタになるための閾値要求９６（一般的に本発明のユーザにより提供される）を自動的に候補者情報と比較して、資格(qualification)が閾値要求条件と同等以上となる一組の候補者を識別するように構成することができる。いくつかのcommercial-off-the-shelf(COTS)履歴書整合プロダクトを本発明により使用して、一組の潜在的候補者の比較識別を自動的に実施することもできる。閾値要求情報９６はユーザ定義可能である。

もう一つの実施例では、サーバ１２は雇用システムまたは履歴書管理システムにより提供されるサービスおよび情報を利用して候補者の潜在的リストを識別することができる。たとえば、サーバ１２は履歴書管理システムを使用してインターネット上で候補者が履歴書を出しているかをデータベースに照会して、情報エクストラクタとなるための最低要求条件を満たす候補者を識別する情報９３を受信することができる。

本発明の別の実施例では、一組の潜在的候補者を識別する情報は本発明のユーザによりサーバ１２へ特定的に提供することができる。

本発明の教示に従って、ステップ９８において識別された一組の潜在的候補者に関連する情報はデータベース１３に格納することができる。たとえば、ステップ９８において選択された各候補者に対して、サーバ１２は候補者に関連する情報をデータベース１３内に格納する。格納された情報は候補者名、候補者のコンタクト情報、候補者の学究的情報、候補者の研究経験、候補者の任意特殊専門知識、その他同様な情報を含むことができる。サーバ１２は候補者を一意的に識別する一意的識別子を選択された各候補者に割り当てることもできる。識別子情報はデータベース１３内に格納して候補者の状態を追跡するのに使用することができる。また、サーバ１２は選択された候補者がサーバ１２により提供されるオンライン証明モジュールにアクセスできるようにするアクセス権を選択された各候補者に対して設定することができる。

次に、選択された候補者は証明プロセスを経て記事から情報を抽出するための手順およびプロトコルについて学習する（ステップ１００）。本発明の実施例では、サーバ１２は選択された候補者がクライアントシステム１４を介してアクセスすることができるオンライン証明モジュールを提供する。証明プロセスは典型的には記事から情報を抽出するために各情報エクストラクタが従うべきプロトコル/手順を明らかにする。このようなプロトコルは、複数の異種の記事からの情報がコヒーレントであり、標準的であり、同種であるフォーマットで抽出されることを保証する。情報抽出のために使用できるプロトコルの例が付録Ａに記述されている。また、証明プロセスは情報抽出のために情報エクストラクタにより使用される情報抽出ツールの使用を導入し明らかにすることができる。本発明の実施例では、証明プロセスの一部として、各候補者は記事から情報を抽出するために情報エクストラクタにより使用されるソフトウェアツールを使用することが許される。

候補者による証明プロセスの進行はサーバ１２により追従してデータベース１３内に格納することができる。たとえば、証明モジュールが成功裡に完了した後で、候補者に関連付けられたデータベース１３内に格納された情報を更新して候補者によりモジュールが成功裡に完了したことを表示することができる。このようにして、候補者による証明プロセスの進行を容易に追従することができる。

候補者が証明プロセスを成功裡に完了しているとサーバ１２が判断した後で（ステップ１０２）、候補者は情報エクストラクタとしての資格を与えるのに十分な技量を取得しているかどうかを確認するためのテストを受ける資格があるものとしてタグ付けされる。本発明の実施例では、候補者に関連付けられたデータベース１３内に格納された情報は候補者が証明プロセスを成功裡に完了してテストを受ける準備が完了していることを示すように更新される。候補者に関連付けられたアクセス権は候補者がオンラインテストに参加できるように更新される。

いくつかの異なるテスト技術を使用することができる。第１の技術では、証明モジュールと関連付けられた練習問題とが成功裡に完了した時に候補者はテストにパスしたものと見なすことができる。もう一つの技術では、候補者はサーバ１２により提供されるオンラインテストを受ける必要があり（ステップ１０４）、候補者の情報エクストラクタとしての任命はテスト結果次第となることがある。候補者がテストにパスしたことをサーバ１２が確認した後で（ステップ１０６）、候補者は情報エクストラクタとして証明され任命される（ステップ１０８）。テストに失敗したら、候補者は再テストを受けることが許されるか（ステップ１０４）あるいは情報エクストラクタになる資格を奪われる（ステップ１０７）。本発明の別の実施例では、証明およびテストアクティビティはオフライン環境で実施することもできる。しかしながら、アクティビティをオンライン分散式に実施すると、本発明はインターネット等の通信網のパワーを利用して情報抽出プロセスの範囲を拡張することもできる。

本発明の実施例では、候補者に対してデータベース１３内に格納された情報は候補者がテストプロセスを成功裡に完了し情報エクストラクタとして任命されていることを示すように更新される。本発明の実施例では、ステップ１０８の一部として、候補者に本発明のユーザと契約上の協定を受け入れるかを尋ねることができる。これらの契約上の協定は非開示条項に関する項、情報エクストラクタの報酬に関する項、その他の項を含むことができる。特定の実施例では、情報エクストラクタは記事当りベースで情報抽出に対して支払われる。本発明の実施例では、契約プロセスは電子署名等の機能を使用してオンラインで遂行することができる。情報エクストラクタにより署名される契約に関する情報はデータベース１３内に格納される。候補者に関連付けられたアクセス権は情報エクストラクタが情報抽出のためにマークされた記事にアクセスできるように更新される。

図３に戻って、ステップ６２において情報エクストラクタが識別された後で、情報抽出のためにタグ付けされた記事が情報抽出のために情報エクストラクタに割り当てられる（ステップ６４）。一つ以上の記事を情報抽出のために各情報エクストラクタに割り当てることができる。また、２つ以上の情報エクストラクタに同時に記事を割り当てることができる。２つ以上の情報エクストラクタに記事を割り当てることにより冗長情報取得が可能となる。

記事を情報エクストラクタに割り当てるのにいくつかの異なる技術を使用することができる。情報抽出準備完了の記事がサーバ１２により待ち行列に加えられない（すなわち、ステップ６０が実施されない）本発明の実施例では、記事は予め設定された方式またはランダム方式で情報エクストラクタに割り当てることができる。あるいは、情報エクストラクタは情報抽出のための記事の選択を許されることがある。

サーバ１２が待ち行列内への記事の優先順位付けを行う本発明の実施例では、記事は待ち行列内の最初の記事で始まる順序で記事を情報エクストラクタに割り当てることができる。前記したように、それにより“より重要な”記事は“あまり重要ではない”と思われる記事よりも前に提供されることが保証され、情報抽出リソースを最適に使用することができる。

本発明のもう一つの実施例では、サーバ１２は各情報エクストラクタに対して待ち行列を生成することができ、ステップ６０において生成された待ち行列からの記事は各情報エクストラクタの待ち行列に割り当てることができる。サーバ１２は主の待ち行列内および個体の情報エクストラクタの待ち行列内の記事を周期的に優先順位付けすることができる。また、情報エクストラクタは各グループに対する待ち行列のあるグループに構成することができる。ステップ６０において生成された待ち行列からの記事は、次に、グループの待ち行列に割り当てることができる。

さらにもう一つの実施例では、サーバ１２は情報エクストラクタの専門知識に基づいて記事を割り当てることができる。たとえば、サーバ１２が記事の議論のトピックに基づいて記事を多数の待ち行列内に優先順位付けする実施例では、サーバ１２は情報エクストラクタの専門知識の分野に関連する記事を格納する待ち行列から情報エクストラクタに記事を割り当てることができる。たとえば、腫瘍学の待ち行列からの記事は腫瘍学の分野の専門知識を有する情報エクストラクタに割り当てることができる。

各割当記事に対するデータベース１３内の情報は記事が情報抽出のために情報エクストラクタに割り当てられていることを示すように更新することができる。各割当記事に対してデータベース１３内に格納された情報は、記事が割り当てられた情報エクストラクタを識別する情報、情報エクストラクタに記事が割り当てられた日付、その他同様な情報を含むことができる。同様に、情報エクストラクタに対してデータベース１３内に格納された情報も記事が情報抽出のために情報エクストラクタに割り当てられていることを示すように更新することができる。各情報エクストラクタに対して、格納された情報は、情報エクストラクタに割り当てられた記事数、割当記事を識別する情報、記事が割り当てられた日付、その他同様な情報を含むことができる。

次に、サーバ１２は情報エクストラクタに割り当てられた記事から情報エクストラクタにより抽出された情報を受信する（ステップ６６）。情報エクストラクタはクライアントシステム１４を使用して抽出された情報を入力することができる。前記したように、情報エクストラクタはデータベース１３内に格納された情報を使用して記事にアクセスすることができる。たとえば、情報エクストラクタは記事に対するＵＲＬ情報を使用して記事にアクセスすることができる。もう一つの実施例では、情報エクストラクタは記事に関連する記述情報を使用して記事のハードコピーにアクセスすることができる。データベース１３が記事のデジタルバージョンを格納する実施例では、許可された時には、情報エクストラクタはクライアントシステム１４を使用して記事の格納されたデジタルバージョンにアクセスし格納することができる。記事にアクセスした後で、情報エクストラクタは記事から情報を抽出してサーバ１２に入力する。情報は本発明のユーザにより確立されたプロトコル（付録Ａに記述されているようなプロトコル）に従って抽出することができる。

本発明の実施例では、サーバ１２は抽出情報の受け入れ(entry)を容易にするようにユーザインターフェイスおよびサービスを提供することができる。これらのユーザインターフェイスおよびサービスはクライアントシステム１４を使用して情報エクストラクタによりアクセスすることができる。サーバ１２は情報エクストラクタが抽出情報を入力できるようにするいくつかの技術を提供することができる。第１の技術に従って、情報エクストラクタは自然言語の文章の形式で抽出情報を受け入れることができる。もう一つの技術に従って、サーバ１２は抽出情報を受け入れるためのテンプレートを提供することができる。さらにもう一つの技術に従って、サーバ１２は情報エクストラクタが画像または図表、スピーチ、ファックス、電子メール、または手書きを介して、または前記した技術および他の技術の任意の組合せを使用して抽出情報を入力できるようにする機能を提供することができる。また、サーバ１２は情報エクストラクタが前記した技術および他の技術の組合せを使用して抽出情報を入力できるようにすることもできる。次に、サーバ１２は情報エクストラクタにより受け入れられた情報を処理して情報記憶部１５内に格納される情報を決定する。

たとえば、本発明の実施例では、情報記憶部１５はフレームベース知識ベースとすることができ情報を抽出するプロトコルは事実モデルに基づく、たとえば、付録Ａに記述されたプロトコルとすることができる。この実施例では、情報エクストラクタにより入力された抽出情報は一つ以上の事実および事実に関連付けられた情報を含むことができる。事実（または“発見”）は規定構造を有しプロトコル/手順に従って記事から抽出される一片の情報とすることができる。事実は離散オブジェクトおよびプロセスにより構成することができる。離散オブジェクトは物理的事柄、時間的事柄、抽象的事柄、等を表すことができる。たとえば、ライフサイエンス分野では、離散オブジェクトは遺伝子、蛋白質、細胞、有機体、等とすることができる。プロセスはやはり離散オブジェクトであるターゲット、または他のプロセスに作用するアクションである。情報エクストラクタは各事実に対するメタデータも入力することができる。メタデータは一般的に事実が観察された状況を記述する情報であるが、情報源--たとえば、記事の著者および出版日付に関する情報を含むこともできる。事実の例は次のようなものである。
“...GST-bax binds to bcl2...”
上に示す事実は２つの離散オブジェクト、すなわち“GST-bax”および“bcl2”を含んでいる。事実に対するメタデータは“ＣＨＯ細胞およびＧＳＴプルダウンアッセイ内のヒューマン・バックスおよびバッド(bax and bad)の再結合ＧＳＴ融合から表現され精製されたヒューマンbcl2により実験が実施された”を示すこともできる。事実に関連付けられた付加情報も情報エクストラクタにより入力することができる。本発明の実施例に従って情報エクストラクタにより入力することができる情報のタイプに関する詳細については付録Ａを参照されたい。本発明は事実ベース情報抽出モデルに制限されないことは明白である。本発明に従って、いくつかの他のタイプの情報抽出モデルも使用することができる。

前記した事実ベース情報抽出実施例では、情報エクストラクタはこの情報を自然言語の文章を使用して、サーバ１２により提供されるユーザインターフェイステンプレートを介して、サーバ１２により提供されるＡＰＩを使用して、図表または画像、スピーチ、ファックス、電子メール、または手書きを介して、または前記した技術および他の技術の任意の組合せを使用して入力することができる。自然言語の文章またはテンプレートを解析し、事実およびメタデータを識別し、事実からのオブジェクトおよびプロセスを識別し、オブジェクトおよびプロセス間のオントロジーの関係を決定し、抽出情報を知識ベース内に格納するように、サーバ１２を構成することができる。

情報エクストラクタが特定の記事に対する情報を入力している間に、記事に対してデータベース１３内に格納された情報は、現在、記事の情報抽出が行われていることを示すようにサーバ１２により更新される。記事に対する情報抽出が完了していることを示す信号をサーバ１２が情報エクストラクタから受信した後で、データベース１３内の記事に関連する状態情報は、記事に対する情報抽出が完了していることと、記事が品質管理プロセスに対して準備完了であることと、を示すように更新される（ステップ６７）。

サーバ１２は情報エクストラクタが記事に関連するコメントを提供できるようにすることもできる。たとえば、情報エクストラクタが記事に対する情報抽出においてなんらかの問題を経験する場合、サーバ１２は情報エクストラクタがデータベース１３内に格納された問題に関連する詳細を提供できるようにする。これらのコメントは記事の後の処理に使用することができる有用な情報を提供する。たとえば、コメントは抽出情報を格納する既存モデルの不足、記事選択規準の不足、等を含むことができる。抽出情報がオントロジーに基づいて知識ベース内に格納される本発明の特定の実施例では、サーバ１２は情報エクストラクタが抽出情報内で遭遇する新しい用語や概念を表示または議論できるようにすることができる。新しい用語や概念に関する情報エクストラクタにより入力された情報は後述する“情報モデルレビュー”フェーズ中に使用することができる（ステップ７４）。情報エクストラクタは新しい各概念または用語に対するスーパークラスを示唆することもできる。新しい用語や概念に関する情報エクストラクタにより入力された情報はデータベース１３内に格納することができる。

サーバ１２は情報エクストラクタがオンラインヘルプサービスにアクセスできるようにする機能を提供することもできる。たとえば、サーバ１２は情報エクストラクタが人間または非人間ヘルプシステムとリアルタイム通信を行うことができる施設を提供することができる。これらのヘルプサービスは、情報抽出に対するプロセスまたはプロトコルについてさらに学習する、情報抽出プロセス中に生じることがある問題について議論する、等のいくつかの目的、およびその他の目的に対して情報エクストラクタが使用することができる。

本発明の実施例では、ステップ６６の一部として、記事に対する情報抽出が完了した後で、サーバ１２は記事に対する情報抽出プロセスに関連付けられたメトリクスを自動的に記録する。これらのメトリクスは記事に対して入力された事実の総数と、情報エクストラクタが事実を抽出するのに要した時間と、記事の長さとを示す情報、および他の同様な情報を含むことができる。メトリクス情報は記事と関連付けられてデータベース１３内に格納される。この情報は情報抽出プロセスの性能を改善かつ最適化させる、情報エクストラクタのための支払を計算する、情報エクストラクタの効率を確かめる、情報抽出プロトコル/手順を改善する、等のいくつかの目的、および他の目的に使用することができる。

前記したように、ステップ６６に従って情報エクストラクタが記事に対する情報の入力を終了した後で、データベース１３内に格納された記事の状態は記事が品質管理処理に対して準備完了であることを示すように変更される（ステップ６７）。次に、記事は品質管理処理を受けるように自動的に待ち行列に加えられる。品質管理ステージに入ると、データベース１３内に格納された記事に関連する情報は記事が品質管理処理ステージにあることを示すようにサーバ１２により更新される。品質管理処理（ステップ６８）は、情報エクストラクタによりに入力されたデータの精度を改善し、本発明のユーザにより確立されたプロトコル/手順に従って情報が抽出されていることを保証し、入力データ内のエラーを識別して訂正し、記事当たりエラーカウントを求め、かつ情報抽出プロセスの全体品質および効率を改善する他のアクティビティを実施するように合わせて調整される。一般的に、品質管理処理は情報記憶部１５内に格納される情報の精度および完全性を保証する。

図５は図３のステップ６８の一部として本発明の実施例により実施される品質管理処理を示す単純化されたフロー図１２０である。品質管理手順は一般的に、品質管理に対する準備完了としてタグ付けされている記事がサーバ１２によりコンテンツレビューアに割り当てられる時に、開始される（ステップ１２２）。記事は２つ以上のコンテンツレビューアに同時に割り当てることもできる。記事を２つ以上のコンテンツレビューアに割り当てることにより冗長品質管理処理が可能になる。コンテンツレビューアは、任意の人間でも良く、情報エクストラクタにより入力された情報に品質管理処理を実施するように設定されるアプリケーションプログラムでも良い。コンテンツレビューアはクライアントシステム１４を使用して記事を見て、記事に対する情報エクストラクタにより入力された情報を見て、入力情報に関するサーバ１２へのフィードバックを提供することができる。サーバ１２は品質管理処理を容易にするさまざまな機能を提供する。たとえば、コンテンツレビューアが記事に対して抽出された情報を見ることができるようにするユーザインターフェイスを提供することができる。たとえば、情報エクストラクタが事実の形式で抽出情報を入力している実施例では、コンテンツレビューアにより記事が選択されると、記事に対する情報エクストラクタにより受け入れられた事実をコンテンツレビューアに表示することができる。

情報エクストラクタは、記事からの情報抽出と情報記憶部１５へ挿入するその抽出情報の適切な構造化とにおける専門技術を発達させると、さらにコンテンツレビューアの機能を実施するのに十分な専門技術のレベルに達することができる。情報エクストラクタがいつコンテンツレビューアとしての仕事をなし遂げるのに必要な技能レベルに達するかの決定は、任意の単一の規準またはいくつかの規準に基づくことができる。適切な試験だけでなくオンライン訓練モジュールの完了によりコンテンツレビューア地位に対する資格を確立することができる。予め定められた数の記事に対する情報エクストラクタに対してここに記述されたいずれかの関連メトリクスの例外的なスコアは、コンテンツレビューアの作業を担当する情報エクストラクタの能力を確立することができる。簡単に言えば、模範的方法でその役割を果たす情報エクストラクタは、自動的にコンテンツレビューアの仕事に変えるかあるいはその地位の資格をとるよう求められる。

サーバ１２により提供されるさまざまな機能を使用して、コンテンツレビューアは記事がなんらかの抽出可能なコンテンツを含んでいるかどうかを確認してサーバ１２に示す（ステップ１２３）。コンテンツレビューアから受信した入力が記事の中に抽出可能なコンテンツがないことを示す場合には、記事はそのようにタグ付けされて将来の情報抽出のために待ち行列に加えられる（ステップ１２４）。たとえば、記事内に含まれる情報が本発明のユーザに興味ある領域の範囲外であれば、その記事は抽出可能なコンテンツを含んでいないとタグ付けすることができる。データベース１３内の記事に関連する状態情報は、記事が将来の情報抽出のために待ち行列に加えられていることを示すように更新される。

記事が抽出可能なコンテンツを含んでおれば、コンテンツレビューアは情報エクストラクタにより入力された情報の構造および精度を評価し、情報エクストラクタにより記事に対して入力された抽出情報にエラーがあればサーバ１２に対して示す（ステップ１２５）。エラーは情報エクストラクタにより入力された抽出情報の不正確さによるもの、情報抽出に対して確立された手順/プロトコルに従うことに失敗した情報エクストラクタによるもの、情報エクストラクタ側に責任のある手落ちエラー、その他のエラーがある。サーバ１２は、記事に関連付けられたエラーカウントが予め設定された閾値エラーカウントよりも大きいことを確認すると（ステップ１３０）、サーバ１２はその記事を“不完全”として再分類する（ステップ１３２）。データベース１３内に格納された記事に関連する情報は記事の不完全状態を示すようにサーバ１２により更新される。次に、不完全な記事は以前に抽出された情報内のエラーを訂正するために情報エクストラクタに再割当てされる（ステップ１３４）。

エラーカウントが閾値エラーカウントよりも下であれば、サーバ１２はコンテンツレビューアがエラーを訂正するのを許す（ステップ１３６）。本発明の実施例では、サーバ１２はさまざまなサービスおよびユーザインターフェイスを提供し、それによりコンテンツレビューアは記事に対する抽出情報をエラー訂正するように編集することができる。たとえば、事実の形式で情報が抽出される実施例では、サーバ１２で実行するモジュールによりコンテンツレビューアは事実を削除し、事実をコピーし、事実を編集し、かつ他の同様なアクティビティを遂行することができる。これらのサービスおよびユーザインターフェイスをクライアントシステム１４を使用しているコンテンツレビューアによりアクセスすることができる。

本発明の実施例では、記事に関連付けられたエラーがコンテンツレビューアにより訂正された後で（ステップ１３８）、サーバ１２は記事に対する品質管理処理に関連するメトリクスを自動的に記録する（ステップ１４０）。サーバ１２により記録されるメトリクス情報はコンテンツレビューアによりなされる編集の数、記事に対する品質管理プロセスに要した時間、記事に対するエラーカウント、コンテンツレビューアが遭遇するエラーのタイプ、および他の同様な情報を含むことができる。メトリクス情報は記事に関連付けられてデータベース１３内に格納される。

情報エクストラクタおよびコンテンツレビューアの両方の資格を有する個体は、情報を抽出して情報記憶部１５内に入力する効率性に、全体的改善が見込まれる。このような二重資格個体は情報抽出またはコンテンツレビューを遂行することができる。情報抽出またはコンテンツレビューを必要とする記事の未処理分は絶えず変化するため、知識取得プロセスの管理者はこれらの二重資格個者の割当ておよび再割当てを継続的に、リアルタイムベースで行って最適システムスループットの維持を保証することができる。あるいは、これらの二重資格個体の割当てプロセスは完全自動化され、これらの個体が最初に品質管理の待ち行列内の記事に品質管理処理を実施し、未処理記事の情報抽出はその後でしか実施されないようにすることができる。

品質管理メトリクス情報に基づいて、サーバ１２はデータベース１３内に格納される記事に対する品質管理得点を計算する。たとえば、抽出情報が知識ベース内に格納されかつ事実ベース情報検索プロトコルを使用する本発明の実施例では、記事に対する品質管理（ＱＣ）得点は次式に従って計算することができる。

ここで、
ＦＥ＝事実データエラー数を測定する。これらは記事に対して情報エクストラクタにより入力される事実データ内のエラーである。
ＦＭ＝欠落事実データエラーを測定する。これらは情報エクストラクタが記事に対して必要な事実情報の入力に失敗する時の手落ちエラーである。
ＭＥ＝メタデータエラー数を測定する。これらは記事に対して情報エクストラクタにより入力されるメタデータ内のエラーである。
ＭＭ＝欠落メタデータデータエラーを測定する。これらは記事に対して情報エクストラクタにより入力されるメタデータ情報内の欠陥のエラーである。
ＭＦ＝記事に対して情報エクストラクタにより入力される情報内の欠落事実数を測定する。
ＥＦ＝記事に対して情報エクストラクタにより情報入力される外部事実数である。外部事実は一般的に情報エクストラクタにより入力されるが情報抽出プロトコルに従って資格を与えられない事実である。
総事実＝品質管理プロセス後に決定された記事に対する事実の総数である。
前記公式に従って、低いＱＣ得点は高品質を示す（理想的にはエラーがなければ、ＱＣ＝０）。本発明の別の実施例では、さまざまな他の公式および変数を使用できることは明らかである。

二重資格情報エクストラクタ/コンテンツレビューアの技能レベルは情報を抽出した記事が品質管理を必要とせずに、直接、オントロジストに転送され、抽出情報をどのように情報記憶部１５に内蔵させるかをオントロジストが決定するのに十分であると予期される（図８以下に関連する検討を参照されたい）。

サーバ１２により記録されるメトリクス情報は情報抽出プロセスに関連するリポートを生成するのにも使用することができる。これらのリポートは周期的ベースで生成することができる。次に、データベース１３内の記事の状態は記事に対する品質管理が完了していることを示すように更新される（ステップ１４２）。次に、記事は次の処理ステップのために待ち行列に加えられる。本発明の実施例では、サーバ１２は情報エクストラクタが記事に対して支払われる資格があることを示すようにデータベース１３内の情報エクストラクタに関連付けられた情報を更新する（ステップ１４４）。

図３に戻って、記事が品質管理ステップ６８を成功裡に通過した後、情報エクストラクタは記事に対する情報抽出に対して報酬を受ける（ステップ７０）。情報エクストラクタに対してデータベース１３内に格納された情報が、情報エクストラクタは記事に対して報酬を受ける資格があることを示すように、サーバ１２により更新される時に、このプロセスは自動的にトリガすることができる。あるいは、記事に対する品質管理処理は完了していることを示すように記事の状態が更新される時に、プロセスは自動的にトリガすることができる。また、このプロセスは情報エクストラクタがデータベース１３に照会して記事が品質管理処理を完了していることを確認した後で情報エクストラクタによりトリガすることができる。いくつかの異なる技術を使用して情報エクストラクタに報酬を支払うことができる。たとえば、情報エクストラクタは即時払いすることができ、またポイント、ストックオプション、等の他の技術を使用して支払うことができる。

本発明の実施例では、サーバ１２は情報エクストラクタのための支払を情報エクストラクタにより実施される仕事の品質に基づいて決定し、それは記事に関連付けられた品質管理得点、記事が情報抽出に対して再割当てされたかどうか、情報エクストラクタにより入力された情報に関連付けられたエラーカウント、その他の同様な情報等のいくつかの要因に基づくことができる。情報エクストラクタに支払うことができる報酬に関する情報はデータベース１３内に格納される。

図６は情報エクストラクタのための報酬を自動的に計算する本発明の実施例により実施される処理を示すフロー図１６０である。この実施例は情報が事実ベース情報検索モデルを使用して抽出されているものと仮定する。図６に示す実施例では、サーバ１２は最初に記事に対する支払のベースレート（ＢＲ）を決定する（ステップ１６２）。このベースレートは一般的にデータベース１３内に格納される。次に、サーバ１２は記事が訂正のために情報エクストラクタに再割当てされたことがあるかどうかを確認する（ステップ１６４）。記事は再割当てされたことがないと確認されたら、処理はステップ１７１に続く。記事が再割当てされたことがあれば、サーバ１２は再割当てされた回数を決定する（ステップ１６６）。記事が再割当てされた回数が閾値を超える場合、サーバ１２は情報エクストラクタが記事に対する報酬を受けとる資格がないことを表示することができる（ステップ１６８）。その旨の情報をデータベース１３内に格納することができる。記事が再割当てされた回数が閾値以下であれば、現在のベースレートに９０％を乗じて新しいベースレートを計算することができる（ステップ１７０）。次に、処理はステップ１７１に続く。

ステップ１７１において、サーバ１２は記事に対する事実の総数をユーザ設定可能低事実水準値と比較する。特定の実施例では、低事実水準値は１０に設定される。記事に対する事実カウントが低事実水準値以下であれば、現在のベースレートに７５％を乗じて新しいベースレートを計算することができる（ステップ１７２）。次に、処理はステップ１７４に続く。記事に対する事実カウントが低事実水準値よりも大きければ、処理はステップ１７４に続く。ステップ１７４において、サーバ１２は記事に対する事実の総数をユーザ設定可能高事実水準値と比較する。特定の実施例では、高事実水準値は５０に設定される。記事に対する事実カウントが高事実水準値よりも大きければ、現在のベースレートに１２５％を乗じて新しいベースレートが計算される（ステップ１７６）。次に、処理はステップ１７８に続く。記事に対する事実カウントが高事実水準値以下であれば、処理はステップ１７８に続く。

次に、サーバ１２は記事に関連付けられた品質得点をユーザ設定可能品質得点閾値と比較する（ステップ１７８）。低閾値得点がより良い品質に対応する実施例では、記事に関連付けられた品質得点が品質得点閾値よりも低ければ、すなわち高品質を示す場合には、現在のベースレートに１２０％を乗じて新しいベースレートが計算される（ステップ１８０）。次に、処理はステップ１８２に続く。品質得点が品質得点閾値以上であれば、処理はステップ１８２に続く。

ステップ１８２において、計算された支払いレートに調整を加えることができる。たとえば、調整は情報エクストラクタの地理的場所に基づいて行うことができ、たとえば、米国外の国にある情報エクストラクタはその国の現行の市場相場に応じてより高いまたはより低いレートで支払うことができる。調整を加えた後で、最終計算支払レートは記事に対する情報エクストラクタのための報酬額を示す。次に、この情報は情報エクストラクタへの報酬額の支払いを容易にさせるためにデータベース１３内に格納される（ステップ１８４）。

図６に示すフロー図は本発明の特定実施例に従って実施される処理を記述していることは明らかである。同様に、前記したパーセント乗算器は本発明の特定の実施例を示す。本発明の他の実施例に従って情報エクストラクタのための報酬を計算するために使用することができるいくつかの他の技術および乗算器がある。報酬に関して、二重資格情報エクストラクタ/コンテンツレビューアは情報エクストラクタまたはコンテンツレビューアとしての資格しかないものへの報酬支払に使用されるレートよりも高いレートで支払うことができ、あるいは完了したタスクに応じて異なるレートで支払うことができる。

また、情報エクストラクタへの報酬額の実際の支払いはさまざまな技術を使用して達成することができる。特定の実施例では、サーバ１２は支払勘定アプリケーションにメッセージを送って、情報エクストラクタに支払額に対する小切手を発行するよう支払勘定アプリケーションに命令することができる。あるいは、サーバ１２自体が情報エクストラクタに支払う処理を実施することができる。たとえば、本発明は情報エクストラクタの口座を満期支払高に対して自動的に貸方記入することができる。また、本発明は情報エクストラクタに支払額に対する小切手を発行することができる。別の実施例では、サーバ１２は支払勘定人員がデータベース１３内に格納された情報にアクセスできるようにするインターフェイスを提供することができる。金額が支払われた時の情報エクストラクタに支払われた金額に関する情報、および他の同様な情報をデータベース１３内に記録することができる。

また、サーバ１２はそれに対して情報を抽出した記事の状態を情報エクストラクタが決定できるようにするユーザインターフェイスを提供することができる。たとえば、情報エクストラクタが情報を抽出したさまざまな記事の状態を表示するウェブページを各情報エクストラクタに対して表示することができる。ウェブページは各記事に対する報酬支払いの状態も表示することができる。図７はサーバ１２により情報エクストラクタに表示することができる模範的なウェブページ１９０を示す。図７に示すように、ウェブページ１９０は情報エクストラクタ名、情報エクストラクタの在住国、および情報エクストラクタの識別番号等の情報エクストラクタに関連する情報１９１を表示することができる。前記したように、識別番号は通常サーバ１２により情報エクストラクタを一意的に識別するように割り当てられる。ウェブページ１９０は情報抽出のために情報エクストラクタに割り当てられた記事のリスト１９２も表示することができる。前記したように、サーバ１２により割り当てることができる記事識別番号により、各記事を識別することができる。リスト内の各記事に対して、情報抽出プロセスにおける記事の状態/進行を表示することができる。ウェブページ１９０は記事に対して計算された品質得点“事実範囲”等の品質管理関連メトリクス、および他の同様な情報も表示することができる。“事実範囲”は情報エクストラクタの報酬を決定するのに使用することができる記事内の事実数を示す。たとえば、記事が１０以下の事実を有する場合、それは“低”事実範囲に属するものとして分類することができ、情報エクストラクタにはより低いレートで支払われる。記事が１１−５０の事実を有する場合、記事は“正規”事実範囲に属するものとして分類することができ、支払レートはそれに応じて調整される。５１以上の事実があれば、記事は正規事実範囲“より上”に属するものとして分類することができ、支払レートはより高い。記事内の事実数に基づいた支払レートの計算が図６に関して記述されている。さらに、ウェブページ１９０は支払関連情報１９３も表示することができる。

図３に戻って、記事に対する品質管理処理が完了した後で、データベース１３内の記事の状態は次の処理フェーズに対して準備完了であることを示すように更新される。次に、記事は“情報モデルレビュー”ステージに対して待ち行列に加えることができ、その間モデルレビューアは記事から抽出された情報を検査して情報記憶部１５内に情報を格納するために使用されたモデルを抽出情報を調整するように変更する必要があるかどうかを決定する（ステップ７４）。情報記憶部に対する“情報モデル”は情報記憶部１５内に情報を格納するために使用された情報表現に関係する。たとえば、知識ベースに対して、“モデル”は知識ベース内の知識を表すのに使用されたオントロジーに関係することがある。前記したように、オントロジーは典型的に世界または世界の一部の表現である。リレーショナルデータベースに対して、“モデル”は情報を格納するのに使用されたテーブル構造に関係することがある。モデルレビューアは抽出情報を検査するように訓練される人間または検査を実施するように設定されたアプリケーションプログラムとすることができる。

サーバ１２はモデルレビュープロセスを容易にさせかつモデルレビューアが既存の情報モデル構造を検査、変更、または更新できるようにするいくつかのサービスおよびユーザインターフェイスを提供する。モデルレビューアは通信網１６を介してサーバ１２に接続されたクライアントシステム１４を使用してこれらのアクティビティを実施することができる。たとえば、オントロジーに従って情報が知識ベース内に格納される場合、モデルレビューア（すなわち、オントロジスト）は記事から抽出された情報内に導入される新しい用語や概念を検査してオントロジーに適切な変更を加えることができる。

図８は情報モデルレビューステージ中に本発明の実施例により実施される処理を示す単純化されたフロー図２００である。図８に示す実施例に対して、情報抽出は事実ベースモデルに基づいておりかつ抽出情報はオントロジーに基づいた知識ベース内に格納されるものと仮定する。フロー図２００は、新しい概念や用語を検査してその新しい概念や用語を調整してオントロジーを変更するために、本発明の実施例により実施される処理を示す。サーバ１２が抽出情報に関連付けられた新しい概念を識別する時に、処理は開始される（ステップ２０２）。各概念に対する情報はデータベース１３内に格納することができる。前記したように、抽出情報内に新しい概念が存在する可能性に関する情報は一般的に、図３のステップ６６中に抽出情報を入力する傍ら、情報エクストラクタにより表示される。たとえば、情報エクストラクタにより入力された情報は記事に対する新しい概念、各概念に対する示唆されたスーパークラス、各概念を記述する情報、等を示すことができる。各概念に対してデータベース１３内に格納される情報は概念のソースに関する情報、新しい概念がサーバ１２に入力された日付、および他の同様な情報も含むことができる。

次に、サーバ１２は概念を優先順位付けしてオントロジーレビューアに割り当てるために待ち行列に加える（ステップ２０４）。本発明の実施例では、サーバ１２は記事の優先順位付けに使用されたのと同じ優先順位付け規準に基づいて概念を優先順位付けすることができる。もう一つの実施例では、概念に対応する事実を知識ベース内に入力できる前にオントロジーを変更する必要があるため、オントロジーに変更を求める概念に高い優先順位を与えることができる。

次に、待ち行列からの新しい概念や用語をオントロジーの異なるブランチ(branch)の作業を担当するオントロジスト（“ブランチ・オントロジスト”とも呼ばれる）に優先順位付けの決定すなわち割り当てることができる（ステップ２０６）。データベース１３内の概念に関連付けられた情報は概念が割り当てられたブランチ・オントロジストを識別するように更新される。本発明の実施例では、割当ては新しい概念に対して示唆されたスーパークラスにより自動的に駆動することができる。たとえば、“ネズミ”等の新しい概念が話題に上りそれに関連付けられた“哺乳動物”の示唆されたスーパークラスを有する場合、その新しい概念はオントロジーの“哺乳動物”ブランチの作業を担当するブランチ・オントロジストに自動的に割り当ててもよい。

次に、サーバ１２は概念が割り当てられたブランチ・オントロジストが割当ては正しかったかを表示できるようにする（ステップ２０７）。概念が誤ってブランチ・オントロジストに割り当てられたか、またはそのブランチ・オントロジストが概念をもう一人のブランチ・オントロジストに割り当てることを好む場合、サーバ１２は概念をもう一人のブランチ・オントロジストに割り当てるサービスを提供する。概念が正しく割り当てられた場合、処理はステップ２０８に続く。

一度優先順位付けの決定がなされると、概念が割当てられる第１のオントロジストは概念および概念に関連する情報を検査してその概念を調整するためにオントロジーを変更する必要があるか確認することを許される。サーバ１２は概念レビュープロセスを容易にさせるいくつかのユーザインターフェイスおよびサービスを提供することができる。たとえば、サーバ１２は新しい概念を調べ、いくつかの規準に基づいて概念を区分けし、示唆されたスーパークラスを調べ、新しいオブジェクトを付加/削除し、スロットを付加/削除する、等のサービスを提供することができる。ブランチ・オントロジストはこれらのサービスおよびユーザインターフェイスを使用して概念に関連する情報を検査し概念レビュー情報をサーバ１２を提供することができる（ステップ２０８）。ブランチ・オントロジストにより入力される概念レビュー情報は新しい概念に対する分類情報、新しい概念を定義またはドキュメント化する情報、その他の情報を含むことができる。ブランチ・オントロジストは概念をオントロジー内にモデル化する情報も入力することができる。

概念の検査が完了していることをブランチ・オントロジストが示した後で、データベース１３内の概念に関連付けられた情報は、概念レビューが完了して概念は第２のオントロジストからの承認を待っていることを、示すように更新される。次に、概念は第１のオントロジストにより提供される情報を検査して品質をチェックする第２のオントロジストに割り当てられる（ステップ２１０）。サーバ１２は第２のオントロジストが第１のオントロジストにより入力された情報を検査して必要ならば情報に変更を加えられるようにするユーザインターフェイスおよびサービスを提供することができる。第２のオントロジストは第１のオントロジストの仕事のサーバ１２へのフィードバックを提供する（ステップ２１２）。第１のオントロジストの仕事の品質がユーザ設定可能許容品質閾値よりも低ければ（ステップ２１４）、概念は、訂正のために第１のオントロジストに、返還/再割当てされる（ステップ２１６）。再割当て概念に関連付けられた情報は第１のオントロジストにより入力された情報内の第２のオントロジストにより識別されたエラーを示すことができる。品質が閾値よりも上であれば（すなわち、第２のオントロジストが新しい概念を“承認”している）、データベース１３内に格納された概念に関連付けられた情報は、概念や用語が承認されていることを示すように、更新される（ステップ２１８）。サーバ１２はオントロジーおよびモデル化されている概念/用語に対してなされた変更を追従し続ける。変更に関連する情報は、次に、データベース１３内に格納することができる（ステップ２２０）。記事に関連付けられた新しい概念が検査され承認された後で、オントロジーに変更が加えられることがある。これらの概念に関連付けられた事実は、その時、情報記憶部１５内に格納される準備が完了する。データベース１３内の記事に対する状態情報は記事からの情報が情報記憶部１５内に格納される準備を完了していることを示すように更新される。

本発明の実施例では、図８に示す処理は情報モデルへの変更が提案され、検査され、受け入れられるまで抽出情報は情報記憶部１５内にロードされないことを保証する。それにより、情報記憶部１５に受け入れられた事実関連情報は情報記憶部１５内に情報を格納するために使用された情報モデルに違反しないことが保証される。

情報記憶部が複数のテーブルを含むリレーショナルデータベースである場合、モデルレビューアは情報エクストラクタにより入力される情報を調整するように一つ以上のテーブルの構造またはテーブル間の関係を変更する必要があるかを確認する。サーバ１２はレビューおよび変更プロセスを容易にさせるインターフェイスおよびサービスを提供することができる。同様に、サーバ１２はオブジェクト指向データベース等の他のタイプの情報記憶部に対する情報モデルを検査および修正する容易性を提供することができる。

サーバ１２はモデルレビューアが記事に対するモデルの検査を完了している表示をモデルレビューアから受信した後で、サーバ１２は記事に対するモデルレビューアフェーズの完了を示し、かつ記事から抽出された知識は情報記憶部１５内に保管される準備完了であることを示すようにデータベース１３内の記事の状態を変更する。

図３に戻って、記事に対するモデルレビューが完了した後で、記事から抽出した情報は自動的に情報記憶部１５内に保管かつ格納される（ステップ７６）。ステップ７６の一部として、サーバ１２は抽出情報を処理して情報記憶部１５内に格納するのに適切なフォーマットに変換する。次に、情報は情報記憶部１５に加えられる。たとえば、情報記憶部１５が知識ベースである本発明の特定の実施例では、サーバ１２は抽出情報を知識ベース内に格納するのに適切なフォーマットに変換することができる。サーバ１２は情報が加えられるフレームが存在することをチェックすることができる。また、サーバ１２はフレームにスロットを加え次にスロットを抽出情報で占めることができる。次に、変換された情報を知識ベース内に格納することができる。

前記したように、本発明は情報抽出および格納プロセスを管理する。図３に示すステップは同時に実施できることは明らかである。たとえば、情報エクストラクタが第１の記事に対する抽出情報を入力している間に、本発明は情報が既に入力されている第２の記事に品質管理を実施し、第３の記事に対するモデルレビューを実施し、第４の記事に対する情報記憶部１５内への情報の格納を行うことができる。したがって、記事を識別する、情報エクストラクタを識別する、抽出情報を受信する、品質管理処理、モデルレビュー、および情報格納のタスクを並列に段階的に実施することができる。

前記したように、情報抽出プロセスおよびコンテンツレビュープロセスは地理的に分散することができる。インターネットを介してアクセスしたウェブサイト上に訓練材料を提供することができかつ情報抽出およびコンテンツレビューに対して選択された記事は、インターネットを介して電子バージョンで提供することもできるため、個体を一つの場所に物理的に集中させる必要性はほとんどない。コンテンツレビューのタスクのために、情報抽出の結果だけでなくオリジナル記事もインターネットを介して電子的ドキュメントとして提供することができる。この電子的分散網が確立されると、それは情報記憶部１５を占める全体コストを最小限に抑えるようにいくつかの方法で利用することができる。任意の定められた時間において、いくつかの異なる国のコンテンツレビューアは情報抽出プロセスを既に経由している記事を検査することができる。同等技能が身についている個体に対しては国ごとにサラリーが変動するため、一般的により低い報酬レートで働くコンテンツレビューアにはより高いレートで支払われるコンテンツレビューアよりも多くの仕事を受け取るように自動的に指示することができる。個体の技能を磨きつづけるだけでなくそのサービスを維持するために、このような仕事に対する資格のある全ての個体にある最低量のコンテンツレビュー仕事を流さなければならない。仕事が最初に報酬の多くない個体に配布され次に高い報酬レベルで働く個体に配布されることがあるため、同様な仕事の割当ては情報抽出プロセスでも起こることがある。ここでも、全有資格情報エクストラクタのサービスを維持するために、ある最少数の記事を各有資格情報エクストラクタに提供しなければならない。あるいは、より良い資格のあるエクストラクタおよびレビューアに抽出または品質管理レビューのための記事を選択する機会を与えることができる。もう一つの代替策として、エクストラクタが予め割り当てられている記事のタイプに基づいて記事を割り当てることができる。

図９Ａ−９Ｃは本発明の実施例に従ってデータベース１３内に格納することができる情報を示す。図９Ａ−９Ｃに示す実施例において、情報はテーブル間のリンク付テーブルの形式で格納される。テーブルConcepts２４４はユーザ規準５２（図３参照）内に含めることができ情報が抽出される記事を識別するのに使用される概念に対する情報を格納する。概念を記述するのに使用することができる用語に関する情報はテーブルTerms２５０内に格納される。テーブルConceptReference２４８は用語を概念にマッピングするのに使用される情報を格納する。用語のソースおよび記述に関する情報は、それぞれ、テーブルTermSource２５２およびテーブルDescription２５６内に格納される。記事を検索するのに使用されるさまざまなカテゴリーに関連する情報はテーブルCategory２５４内に格納される。カテゴリーに関連するコンテキスト情報はテーブルArcheTypes２４６内に格納される。たとえば、検索に対して“遺伝子”カテゴリーが使用された場合、テーブルArcheTypes２４６は遺伝子のタイプ、遺伝子の有機体ソース、遺伝子の化学構造、に関するコンテキスト情報、および他の同様な情報を含むことができる。

テーブルCMAArticles２４０およびテーブルCMAJournals２４２は情報抽出に対する候補者である記事に関する情報を格納する。格納された情報は情報エクストラクタが、ＵＲＬ情報等の、記事にアクセスできるようにする情報を含むことができる。これらのテーブルは記事に対する出版日付情報、記事が識別された日付、および記事に対する他の記述的情報も格納する。

前記したように、処理のさまざまなステージにおいて多様なメトリクス情報が捕捉される。テーブルAMSArticle２５８は記事に対するメトリクス情報を格納する。格納された情報は情報抽出プロセスに関連するメトリクス、品質管理プロセス中に記録されたメトリクス、各記事に対する品質管理得点を計算するための情報、情報エクストラクタのための報酬額を求めるのに使用されたメトリクス、および他の同様な情報を含むことができる。

テーブルAMSConcepts２６２はオントロジー内でモデル化する必要がある概念や用語に関する情報を格納する。テーブルAMSConceptTranscript２６４内の情報はモデルレビューステージ中にオントロジストにより更新され、新しい概念がオントロジー内でどのようにモデル化されるかを記述する。テーブルAMSDocument２６０は抽出情報を知識ベース内の格納を容易にするフォーマットに変換するために使用される情報を格納する。テーブルAbstractMarkup２６６は記事のタイトルおよび/または要約に基づく記事の自動的検証に関連する結果を格納する。この情報は特定の記事がなぜサーバ１２により適切であったまたはなかったと見なされたかを表示することができる。この情報はサーバ１２により明瞭に検証および分類できなかった記事を手動で検証および分類するのに使用することができる。

前記したように、処理のさまざまなステージにおいて待ち行列が使用される。テーブルQueueItems２６８、QueueItemData２７０、およびQueueItemLog２７２は待ち行列に関連する情報を格納する。テーブルQueueItems２６８は個体のアイテムおよびアイテムを含む待ち行列をマッピングする情報を格納する。テーブルQueueItemData２７０は待ち行列内の記事を優先順位付けするために使用される情報を格納する。テーブルQueueItemLog２７２は待ち行列アイテムに関連する情報をロギングするのに使用される。図９Ａ−９Ｃは本発明の特定の実施例を記述しており特許請求の範囲に列挙された発明の範囲を制限するものではない。

本発明の特定の実施例について記述してきたが、さまざまな修正、変更、代替構造、および同等のものも本発明の範囲内に入る。記述された発明はある特定のデータ処理環境内での動作に制限されず、複数のデータ処理環境内で自由に動作することができる。たとえば、本発明は情報抽出および格納から利益を得る任意の領域または産業に対する情報抽出および格納に使用することができる。さらに、トランザクションおよびステップの特定シリーズを使用して本発明を記述してきたが、当業者ならば本発明の範囲はトランザクションおよびステップの記述されたシリーズに限定されないことは自明である。

さらに、ハードウェアとソフトウェアの特定の組合せを使用して本発明を記述してきたが、ハードウェアとソフトウェアの他の組合せも本発明の範囲内に入ることを認識しなければならない。本発明はハードウェアのみまたはソフトウェアのみまたはそれらの組合せにより実現することができる。

したがって、明細書および図面は説明用であって制約的意味合いはないと考えるべきである。しかしながら、特許請求の範囲に記載された本発明のより広い精神および範囲から逸脱することなく追加、除去、削除、その他の修正および変更を行えることは明白である。

本発明の実施例を内蔵することができる分散コンピュータ網の単純化されたブロック図である。本発明の実施例を内蔵することができるコンピュータシステムの単純化されたブロック図である。情報抽出および格納を容易にするために本発明の実施例により実施される処理を示す単純化されたフロー図である。情報エクストラクタを識別するために本発明の実施例により実施される処理を示す単純化されたフロー図である。本発明の実施例により実施される品質管理処理を示す単純化されたフロー図である。情報エクストラクタのための報酬を計算するために本発明の実施例により実施される処理を示す単純化されたフロー図である。情報エクストラクタに表示することができる模範的なウェブページを示す図である。新しい概念または用語を調べて、その新しい概念または用語を適合させるためにオントロジーに変更を加える、本発明の実施例により実施される処理を示す単純化されたフロー図である。本発明の実施例に従ってデータベース内に格納することができる情報を示す図である。本発明の実施例に従ってデータベース内に格納することができる情報を示す図である。本発明の実施例に従ってデータベース内に格納することができる情報を示す図である。

Claims

記事から情報を抽出し該抽出した情報をフレームベース知識表現で格納するシステムであって、
情報が抽出される記事を選択して優先順位付けする記事選択ユニットと、
該記事選択ユニットに接続されると共に通信を行い、前記記事選択ユニットから選択された記事を受信し予め定められた情報抽出プロトコルに従って前記選択された記事から情報を抽出する情報抽出ユニットと、
該情報抽出ユニットに接続されると共に通信を行い、前記抽出された情報が適切に抽出されかつフレームベース知識表現で格納するためにフォーマットされているかを確認する知識表現管理ユニットと、
該知識表現管理ユニットに接続されると共に通信を行い、適切に抽出されかつフォーマットされていれば前記情報をその表現で格納しかつ格納された表現に関する問い合わせに応答する情報格納ユニットと、
該情報格納ユニットに接続されると共に通信を行い、前記情報格納ユニット内に格納された情報に対するユーザの問い合わせに応答し、該問い合わせに応答して情報格納ユニットから情報を検索し該検索した情報を表示する照会管理および情報表示ユニットと、
を含む前記システム。
請求項１に記載のシステムであって、前記情報抽出ユニットと前記知識表現管理ユニットとは結合される前記システム。
請求項１に記載のシステムであって、少なくとも前記情報抽出ユニットと前記知識表現管理ユニットとは地理的に広範に離されており、前記各ユニットはその機能を最低コストで実施できるところならばどこでも配置される前記システム。
フレームベース知識表現の構成方法であって、
前記知識表現に対する情報源として使える記事を選択するステップと、
前記選択された記事から情報を抽出しそれを知識表現で格納するためにフォーマットするステップと、
前記選択された記事から抽出された情報は正しいことおよび正しいフォーマットで配置されていることを検証するステップと、
フォーマットされた情報を前記知識表現で格納するステップと、
を含む前記方法。
請求項４に記載の方法であって、前記情報抽出ステップは知識抽出者によって実施され、前記検証ステップは品質管理者によって実施される前記方法。
請求項５に記載の方法であって、前記抽出ステップおよび前記検証ステップは共に同じ者によって実施され、その者は予め定められた手順により両方のステップを同時に実施する資格を与えられている者である前記方法。
請求項４に記載の方法であって、少なくとも前記抽出と前記検証ステップとは地理的に離れた場所で行われる前記方法。
請求項７に記載の方法であって、前記地理的に離れた場所は前記抽出および前記検証の各ステップを実施するコストに基づいて選択され、各ステップに対する最低コストとなる場所が選択される方法。