JP2006503351A

JP2006503351A - 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法

Info

Publication number: JP2006503351A
Application number: JP2004537843A
Authority: JP
Inventors: アールガーナーハロルド; ディーレンジョナサン
Original assignee: ボードオブリージェンツユニバーシティオブテキサスシステム
Priority date: 2002-09-20
Filing date: 2003-09-19
Publication date: 2006-01-26
Also published as: AU2003270678A1; EP1547009A1; WO2004027706A1; CA2499513A1; CN1701343A; US20040093331A1

Abstract

本発明は、情報のドメインにアクセスして、さまざまなデータ（７）のソース間の今まで未知であった関係を識別して、ナレッジ（１８）を探して得るシステムと方法であるが、本発明は、１つ又はそれ以上の情報ドメインを持つデータソースと、１つ又はそれ以上の情報ドメインからのオブジェクトを統合するオブジェクト−関係データベース（５３）とナレッジ発見エンジン（５４）とを含み、２つ又はそれ以上のオブジェクト間の関係が識別され、検索され、グループ化され、ランク付けされ、フィルタリングされ、数値評価されることを特徴とする。

Description

（関連出願）
本出願は、２００２年９月２０日に出願された米国仮出願第６０／４１２，３９８号の優先権を特許法§１１９（ｅ）に基づいて主張するものであり、その全文は参照として本明細書に組み込まれる。

（政府の認可）
米国政府は、ゲノム研究のＮＩＨナショナルセンター（ＮＨＧＲＩ）のゲノムトレーニンググラント番号２−Ｔ３２−ＨＧ０００３８−０６に基づいて本発明の特定の権利を有するものである。

（技術分野）
本発明は、一般的にはナレッジ発見の分野に関し、より詳しくは、前もって無関係なオブジェクトをリンクさせることによって、共有された関係を識別して評価する手段としての関係分析に関する。

これまでは、情報やデータからなる互いに独立したパーセル間の新しい関係を識別する手段は、無境界の検索に依存していたが、これは多くの擬陽性を発生するものである。残念ながら、調査目的で利用可能なデータ（及びデータを含んで成るオブジェクト）の量は日々増大する一方で、増大し続けるデータソースを蓄積して使用する個人の能力は当然限られたものである。それと同様に重要なのは、新しいデータの有する多大な含意と、新しいデータと周知のデータとの間に存在する潜在的な関連性を理解する能力も限られていると言える。たとえば生物学の分野では、過去１０年間でデータ量が爆発的に増加している。２００２年の初期に、１１７，７６４を超える種に対してＤＮＡ配列が寄託され、３５２，９２４種類の周知の化合物の内の１１７，４８１種類の分子構造が識別されてリストアップされた。更に、少なくとも１つの機能を有する１８，０００以上のヒト遺伝子の位置が同定されている。データ（データベース）の１つのソースは、少なくとも１３，０３４種類のヒトの疾患、症状又は症候群を含んでいる。関連する生物学的データを収容している最大の文献データソースはＭＥＤＬＩＮＥである。２００２年の初期には、このデータソースは約１２００万のレコードを包含しており、毎年５００，０００件の割合でレコードが増え続けている。

データ量がますます増大するに連れて、データ管理を向上させ、これで、データのストアハウスだけではなく、データオブジェクト、特に以前には無関係と考えられていたオブジェクトを検索し、解釈し、リンクさせ、関連付けることによってデータを「理解する」ことが可能なマネージャを提供する必要性が出てきた。事実、データ管理のほとんどの経済的なアプローチは、既存のデータをうまく用いて新規なソリューションに到達しようというものである。したがって、ナレッジが発見できるかどうかは、既存のデータと新しいデータとの双方に依存しており、１つ又はそれ以上のリンクされた又はリンクされていないデータソースから（新旧双方の）オブジェクトを検索し、オブジェクト間で共有される潜在的な関係を検査し、オブジェクトのための新規な機能やソリューションを提示し、将来の動作及び／又はさらなる分析のための新しい関係や、機能やソリューションをストアしたりする。

この新しい情報化時代に必要とされる解決法を提示するデータマイニングという技法が存在する。このような検索ツールの１つに、ＡＲＲＯＷＳＭＩＴＨがあるが、これは、定義された２つの所定の分野を「連携させる（bridging)」ことによって新しい情報を検索する方法に基づいている。残念ながら、このツールは単一レベルで、従って、単一方向で探索するのみであり、「結果」をスコア化することはなく、その提示する分析の深さも限られたものとなっている。別の検索ツールとしてはＯＰＵＳがあるが、これは、現象に関連する遺伝子を同定するのに用いられる。遺伝（関連の）ツールとしては有効であるが、他の情報分野での用途は限られる。２００２年７月に発行されたNature Geneticsの第２１巻の３１６〜３１９ページに記載されているPerez-Iratxetaらの、バイナリリレーションのファジーロジックを用いて遺伝子を遺伝病と関連付ける、データマイニング技法も同様に限られたものである。

前述の説明によって明らかなように、大量の無関係なデータ及び情報を管理し分析するコストパフォーマンスのよいシステムが必要されている。そのシステムとは、複数のデータソースで作動する複数の分析レベルを持つユーザフレンドリーな（利用者にとって使いやすい）フォーマットを提示して、クエリーに基づいた方法や単一レベルの検索では現在不可能な無関係事項を新規に発見することを可能にするシステムである。このような自動化されたナレッジ発見システムを用いることによって、個人及び組織は、現在利用可能なデータに関する理解を向上させ、これまではリンクが存在しなかったところに新規な関係を確立させるナレッジベースのツールによってパワーを得、また、経済的な恩恵も付加されて、効率よく、効果的に重要なソリューションに到達でき、社会的にも恩恵を被ることができる。

本明細書に開示される発明は、オブジェクト間の関係からなるネットワークを確立して新規な相関性を識別、評価及びスコア化する自動化されたナレッジ発見システムである。このネットワークはまた、暗示的にしか知られていなかったオブジェクトを識別、評価することはもとより、それらの共有の相関性に照らして、オブジェクト集合間の共有の相関性を識別、評価するのにも用いることができる。この識別、評価された関係をスコア化することは本発明のシステムにとっては不可欠である。このシステムは、調査、発見、スクリーニング（選別）、診断及びソリューション管理のための他の指標の有無にかかわらず用いることができる。このシステムは、企業や政府組織に於ける戦略的管理、母集団（たとえば、消費者や患者など）の行動を予測すること、環境への影響を予測すること、フロードを識別すること、リソース活用パターンを識別すること、並びにバイオテクノロジー、化学、物理学、工学、天文学、地質学及び管理科学等の科学分野に於けるナレッジ発見に無限の応用分野を呈する。

情報科学というアプローチは、大量の非構造化データ及び構造化データを管理、データ中のオブジェクト間の新規な共有関係を識別し、また、このようなオブジェクトに対する新規なソリューションや潜在的な機能に到達するために必要なものである。情報科学は、オブジェクトに関する論理的な解釈を提示し、また、新しい関係を誘導することを可能とする。

１つの態様では、本発明は、１つ又はそれ以上のデータソースから自動的に抽出することによってオブジェクト間の相関性ネットワークを確立するシステムを提供する。本システムは、コンピュータでエンティティベースのネットワークを構築することによって、データソースのオブジェクト間の暗示的な相関性を決定する。このデータソースはテキストを含んでいるのが好ましい。このデータソースは、非構造化されたフリーテキストを含んでいるのがより好ましい。本システムは、個人や組織が、所定の「オブジェクト」を入力して、それが直接的又は間接的に関連する他のオブジェクトに関する情報を、その関連性の強度を含んで検索することを可能とする。たとえば、１つ又はそれ以上の科学技術分野で作業する場合、オブジェクトには、遺伝子（又はそのアレル、転写物、フラグメント若しくはメチル化されたもの）、タンパク質（又はその処理されたもの、未処理のもの、修飾されたもの若しくは未修飾のもの）、化合物、疾病及び／又は臨床的な表現型が含まれる。

一般的に、本発明のシステムは、１つ又はそれ以上のデータソースを用いて、ナレッジのドメインを表す。複数のデータソースは、非構造化されたデータと構造化されたデータの双方を含む。エントリ（「オブジェクト」と呼ばれる）は、本システムによって評価されて、このソース中のデータを認識するのに用いられるが、ソース中でエントリの同時発生が起こると、オブジェクト間の潜在的な関係をしだいに識別するようになる。このような相関関係は、本システム中の新たに形成された、又は既存の動的データベース内にストアされて、更なる分析のための相関性の包括的なネットワークを構築するために用いられる。

１つの態様では、本発明は、以下のタスクを１つ又はそれ以上、好ましくは全てを実行する能力を持つマルチタスクシステムをさらに提供する：（ａ）ソース全体（たとえば、ナレッジのドメインやデータベースなど）を獲得して、それを解析して、複数のオブジェクトを正確に識別するタスク；（ｂ）代表的なデータベース及び／又はエントリを作成／フォーマッティングするタスク；（ｃ）自由形式のテキスト（ＡＳＣＩＩなど）を処理するタスク；（ｄ）たとえば、一般的な語や情報価値のない語又はオブジェクトを選別することによってデータを処理して、次のステップの分析を軽減するタスク；（ｅ）オブジェクトの大文字を使用する必要性を識別して、精度と再現度（recall）を増すタスク；（ｆ）頭字語を分解して、精度と、情報価値のあるオブジェクトの数と、認識済みオブジェクトの数とを増すタスク；（ｇ）同義語を増やして、再現度（recall）を増すタスク；（ｈ）内部又は外部のサブルーチンを用いて、データ処理の速度及び効率を向上させるタスク；（ｉ）共有されている暗示的関係の分析のために問い合わせ（クエリー）を利用するタスク；（ｊ）ユーザフレンドリーなインタフェースで作業するタスク；（ｋ）他の設計システムやネットワークと相互動作するタスク；（ｌ）スコアリングメカニズムを用いて、適合性の尺度を提供して出力するタスク；（ｍ）相関性のスコアを有する出力ファイルを作成するタスク；（ｎ）単一ステップ又はマルチステップの分析を実行するタスク；及び／又は（ｏ）大規模分析又はグローバル分析のためにネットワークとしてモデリングするタスク。

本システムは、その多くの機能（タスク）を、たとえば、オブジェクト−関係データベース「ＯＲＤ」、すなわち、同じソースからの他のオブジェクトと直接的関係及び間接的関係を持つオブジェクト（一般にテキストフォーマットで与えられる）の統合データベースによって実行する。ＯＲＤはまた、複数のソースと共に用いられる。ソースは、一般的には、レコード中に、又は単一エントリとして、コーディングされた数百万のオブジェクトを含んでいるデータベースである。

本システムは、（ａ）データフォーマッティング；（ｂ）データ処理；（ｃ）テキストのソースからのデータ又は情報の抽出；（ｄ）ＯＲＤの充溢（populate）；（ｅ）ソースの参照；（ｆ）品質チェック用のルーチン；（ｇ）データベースの内部保守及び外部保守；（ｈ）ネットワークのインタフェース；（ｉ）ユーザのインタフェース；（ｊ）データの入力、分析及び出力で用いられるルーチン；の内の１つ又はそれ以上のためのプライマリとサポートのコードを提供する。さらなるプログラム及びルーチンもまた、本システムの範囲に含まれる。

１つの態様では、本発明は情報のドメインにアクセスするシステムを提供するが、本システムでは、１つ又はそれ以上の情報ドメインを含むデータのソースをオブジェクト−関係データベースでアクセスして、１つ又はそれ以上の情報ドメインからのオブジェクトを統合し、また、ナレッジ発見エンジンを用いて、２つ又はそれ以上のオブジェクト間の関係を発見して、識別し、検索し、グループ化し、ランク付けし、フィルタリングし、また、数値的に評価する。本明細書で用いるオブジェクトという用語は、所定の項目や情報（一般的にテキスト形式のもので、名詞、動詞、形容詞、副詞、句、文、記号、数字などを含む）のことである。したがって、オブジェクトとは、相関関係を形成することが可能なものであり、また、ソースから獲得、識別及び／又は検索することが可能なものである。このデータソースは、テキスト情報、数値情報、記号情報及びこれらの組み合わせを持つナレッジの１つ又はそれ以上のデータベース又はドメイン（必ずしもデータベースではない）である。１つ又はそれ以上のオブジェクト間の関係は、直接的又は間接的なものとして識別され、また、直接的オブジェクトと間接的オブジェクト間の関係の相対的強度に基づいてランク付けさせされる。相関性は、これを肯定的な関係、否定的な関係、物理的な関係及び論理的な関係から成る群より選択されるカテゴリにランク付けすることによって分類される。本発明で用いられる情報のドメインは、データのパーセルを、テキスト、記号、数値及びこれらの組み合わせからなる情報として用いる。１つの態様では、本システムは、部分的又は完全に自動化されている。別の態様では、上記のナレッジ発見エンジンは、語彙的な処理によって１つ又はそれ以上のオブジェクトをトリミングする。

さらに別の態様では、オブジェクト−関係データベース（ＯＲＤ）を作成するシステムは、次に示す非制限的な機能を１つ又はそれ以上の実行する：１つ又はそれ以上のシステムデータベースオブジェクトをコンパイルする機能、データベースオブジェクトの同義語を追加する機能、１つ又はそれ以上のデータベース中のオブジェクト間の相関性に関連する情報をオブジェクト−関係データベースとしてグループ化する機能、このオブジェクト−関係データベースから語彙的な異形のデータベースを構築する機能、この語彙的異形のデータベースでオブジェクト−関係データベースを走査して冗長度を軽減し、このオブジェクト−関係データベースにエラーがないかどうかチェックする機能。本システムの効率を上昇させるには、たとえば、各オブジェクトに固有の数値ＩＤ（たとえば、長い整数など）を割り当てて、まず最も低いＩＤで非方向性関係をストアすればよい。

データコレクション又はソースデータベースは、データソースとして役立ち、一般に、システムデータベースオブジェクトをコンパイルするために用いられるが、このようなソースデータベースには、少なからず例を挙げると、化合物や小分子薬物のデータベース、ＣｈｅｍＩＤ、ＭｅＳＨ、ＦＤＡ locuslink、ＧＤＢ、ＨＧＮＣ、ＭｅＳＨ及びＯＭＩＭがある。一般的な語の選別・除去と大文字化の識別とは、語のデータベースをアクセスすることによって達成される。語彙的な異形は、たとえば、同義語データベース又は頭字語分解アルゴリズムを用いることによって識別される。１つの態様では、本システムはまた、本システムと連動しているグラフィカルユーザインタフェース上にあるワンクリック問い合わせ（クエリー）ボタン又はコントロール部位を提供し、これで、データソース中のテキストから誘導されたシステムデータベース中のオブジェクトをユーザが閲覧することを可能とする。たとえば、ユーザは、グラフィカルユーザインタフェース上のデータソースから表示されているテキストを閲覧し、このテキストの所定のセクション（たとえば、句や要約）をハイライトし、ボタンなどのコントロール部位をクリックして、本システムに、この句の中の１つ又はそれ以上の語がシステムデータベース中にオブジェクトとしてストアされていれば表示させることができる。以下に考察されるように、システムデータベース中には新たなオブジェクトが含まれていてもよい。

１つの態様では、オブジェクト−関係データベースを含む本発明のシステムデータベースは、データソースからテキストのブロックを入力し、タイトル、要約、日付及びＰＭＩＤのフィールドの情報などの選択済み情報をこのソースから抽出してレコードを作成し、このレコードを解析して文とし、各文を解析して語とし、語を句に適合させる１つ又はそれ以上の配列をこのオブジェクト−関係データベース中に作成し、頭字語を分解することによって構成されている。テキストのブロックは、語、句、章、本、新聞（a paper）、雑誌、Ｗｅｂページの部分及び表から成る群より選択される。この情報のソースが、他の同様のソースより強い影響力を有すると考えられれば、たとえば、Journal of Irreproducible Resultsの要約よりScience 又は New England Journal of Medicineの要約のオブジェクト間の接続に高いウェイトを置くといったように、そのテキストブロックに高い価値付けがなされる。

本発明のさらに別の態様は、関連性のないオブジェクトを前もって関係付けるシステムである。１つの態様では、本システムは、１つ又はそれ以上の情報ソースデータベースを含むデータソースから生成されたオブジェクト−関係データベース及び当該オブジェクト−関係データベース内のオブジェクト間の意味ある関係を認識するナレッジ発見エンジンとを含む。当該ナレッジ発見エンジンは、データソース内のオブジェクトの１つ又はそれ以上の同時発生を識別して、相関関係の包括的ネットワークを生成するのが好ましい。１つの態様では、この識別された相関関係は、システムデータベース中にストアされて、統計的に有界である１つ又はそれ以上のネットワークモデル（たとえば、ベイジアンネットワークモデル）及びナレッジ発見エンジンによって識別された相関関係からユーザが暗示的相関関係を識別することを可能とする問い合わせ（クエリー）モジュールとによって評価される。

本発明は、既存の及び候補となる薬物の相互作用、副作用及び薬理遺伝学的効果は勿論、既存の薬物の新しい治療法、新しい用途又は適応、禁忌、副作用及び／又は合併症を見出すシステムとして用いることができる。本発明のシステムは、データソースに問い合わせて、後述の治療剤及び／又は疾病に関連するオブジェクトを識別することによって、候補となる治療剤（たとえば、薬物、タンパク質、遺伝子、リボザイム、アンチセンス分子、アプタマーなど）と疾病との相関関係を見出すのに用いることができる。１つの態様では、本発明のシステムは、既存の薬物（たとえば、既存の適応症に対してＦＤＡによって現在承認されているもの）の新しい適応に関する予測を提供する。たとえば、本発明のシステムはシルデナフィルに対する新しい用途を見出すために用いられる。

１つの態様では、本発明のシステムは、１つ又はそれ以上の情報ソースデータベースを含むデータソースからオブジェクト−関係データベースを生成して、薬物や治療剤のオブジェクト−関係データベース内の意味のある関係を認識するナレッジ発見エンジンを用いて、このオブジェクト−関係データベース内でのオブジェクトの１つ又はそれ以上の同時発生とその薬物名又はその同義語とを識別し、また、オブジェクト−関係データベース中のデータと薬物との相関関係の包括的なネットワークを生成する。１つの好ましい態様では、本発明のシステムは統計的に有界であるネットワークモデルを用いて、この相関関係のネットワークを識別する。本発明のシステムは、共有された暗示的な関係をシステムデータベース中にストアするものが好ましい。このシステムデータベースは、動的であって、さらなる既知の又は候補となる薬物が評価されるに連れて、本発明のシステムデータベースにストアされるネットワークは、追加された薬物との相互作用を含む進化したものとなる。別の態様では、ソースデータベースには、患者の病歴、人口統計的データ、家族の病歴、患者及び／又はその家族の遺伝学的データ、研究対象除外／包含基準、有害事象データ、効力データ、薬物動力学データなどの臨床データが含まれる。さらに別の態様では、このデータには、縦断的調査、回顧調査及び患者個人の調査で得られたデータが含まれる（たとえば、本発明のシステムは、専用医療の分野で用いることができる）。

本発明はまた、本発明のシステムの関係データベース内の相関関係を識別する方法を提供する。当該方法は、ユーザが１つ又はそれ以上のオブジェクトリストを分析目的で入力した後で、オブジェクト間に共有されている相関関係を識別するステップと、この１つ又はそれ以上のリストから各オブジェクトに対する全ての関係をコンパイルして１つのリストに包含するステップと、関係するオブジェクトを頻度によってカウントするステップと、期待値を計算するステップとを含む。１つの態様では、可能性のある全ての関連性がｙ％未満又は観察／期待比がｙ％未満である共有オブジェクトは、関係データベースから除外される。

１つの態様では、暗示的な相関性があるオブジェクトが識別される。このような相関関係が有意義である尤度は、たとえば、直接的な観察／期待比を測定して、この値に暗示的オブジェクトに至る固有の経路（パス）の数を乗算するといった、相関関係をスコア化又はランク付けすることによって評価される。

別の態様では、暗示的関係は、１つ又はそれ以上の第１、第２及び第３のオブジェクト間の関連性の強度ベクトルを計算し、この第１、第２又は第３のオブジェクトに対する１つ又はそれ以上のオブジェクトのソースインパクトスコアのデータベースからソースインパクトスコアを獲得し、強度ベクトルに１つ又はそれ以上の第１、第２又は第３のオブジェクトに対するソースインパクトスコアを乗算することによって識別される。このソースインパクトスコアは、以下の限定されない要素に基づくものである：（１）前記の１つ又はそれ以上のオブジェクトを得た出版物；（２）前記の１つ又はそれ以上のオブジェクトのソースが、別のソースによって引用された回数；（３）前記の１つ又はそれ以上のオブジェクトのソースが、学術論文、教科書、総説によって引用された及び／又はピアレビュージャーナルに公開された回数。たとえば、より高スコアの暗示的な相関関係は、前記の１つ又はそれ以上のオブジェクトのソースが、英国の出版物ネーチャー誌に発表された回数に応じて高スコアを与えられている（即ち、相関関係に対するソースインパクトのスコアは高くなる）。相関関係はインパクトスコアを有するが、オブジェクトは一般的にインパクトスコアを有さない、なぜなら相関関係とは、品質(例えば、インパクト)が異なるデータソース由来のものであるからである。一方、オブジェクトは、その基となっているデータソースの品質によってスコア化できる。インパクトスコアは重要度を推定するのに用いられ、本明細書では確実性又は関連性の推定として用いられている。

本発明はまた、１つ又はそれ以上のデータソースから情報のドメインをアクセスする、コンピュータ読み取り可能媒体上で実施されるコンピュータプログラムを含む。１つの態様では、このコンピュータプログラムは、１つ又はそれ以上の情報ドメインを含むデータソースを包含するように適合化されたコードセグメント、１つ又はそれ以上の情報ドメインからオブジェクトを統合するオブジェクト−関係データベースを維持（たとえば、構築、維持、更新）するように適合化されたコードセグメント、及び１つ又はそれ以上のオブジェクト間の相関関係が探索され、グループ化され、ランク付けされ、フィルタリングされ、検索されるナレッジ発見エンジンを包含するように適合化されたコードセグメントとを含んでいる。

オブジェクト−関係データベース（ＯＲＤ）を作成するためにコンピュータ読み取り可能媒体上で実施されるコンピュータプログラムは、１つ又はそれ以上のデータベースオブジェクトをコンパイルするように適合化されたコードセグメント、１つ又はそれ以上のデータベース中の情報をオブジェクト−関係データベースにグループ化するように適合化されたコードセグメント、このオブジェクト−関係データベースから語彙的な異形のデータベースを構築するように適合化されたコードセグメント、語彙的な異形のデータベースでオブジェクト−関係データベースを走査して、冗長度を軽減するように適合化されたコードセグメント、各オブジェクトに固有な数値ＩＤ（長い整数）を割り当てて、まず最も低いＩＤで単方向性又は非方向性の関係をストアするように適合化されたコードセグメント、オブジェクト−関係データベースをエラーがないかどうかチェックするように適合化されたコードセグメントとを含んでいてもよい。

本発明のさらに別の態様は、１つ又はそれ以上の情報ドメインを含むデータソースにアクセスするステップと、情報ドメインをオブジェクト−関係データベース中にコンパイルして、１つ又はそれ以上の情報ドメインからオブジェクトを統合するステップと、２つ又はそれ以上のオブジェクト間の関係が識別され、検索され、グループ化され、ランク付けされ、フィルタリングされ、数値評価されるナレッジ発見エンジンを用いるステップとを含む方法によって生成された新しい薬物療法のための候補化合物のリストである。このリストは、たとえば、コンピュータプログラムと相互作用して、データ４５を問い合わせ、編成、選択及び／又は管理するデータ構造の形式で存在する。

本明細書で開示する更なる別の発明は、既存の化合物又は薬物のための新しい療法、たとえば、心臓肥大を治療する必要がある患者を識別し、この患者に、本発明のシステムをを用いて見出された化合物の製薬的に有効な量を投与することによって心臓肥大を治療する方法である。たとえば、心臓肥大の治療のために本発明のシステムを用いて見出された化合物に、クロルプロマジンがある。

本発明を用いて見出された更に別の発明は、インシュリン非依存性糖尿病（ＮＩＤＤＭ）の治療の必要がある患者を識別し、この患者に、本発明のシステムを用いて見出された化合物を製薬的に有効な量を投与することによってＮＩＤＤＭを治療するメカニズム及び方法である。１つの態様では、この化合物は、細胞に於ける核酸のメチル化を増進させる医薬組成物、たとえば、ＤＮＡメチル化前駆体である。さらに別の発明は、細胞内のＤＮＡのメチル化を全体的に増進させる有効量の１つ又はそれ以上のＤＮＡメチル化前駆体を含む、ＮＩＤＤＭの危険性がある個人向けの栄養補助剤である。

本発明の方法は、頭痛を治療する必要がある患者を識別して、この患者にシルデナフィルを製薬的に有効な量を投与して頭痛を治療することを含む。又は、筋肉痙攣を治療する方法は、筋肉痙攣を治療する必要がある患者を識別し、この患者に、シルデナフィルを製薬的に有効な量を投与することを含む。

本発明は、また、選別（スクレーニング）する対象の遺伝子を識別するための上記の選別システムと、遺伝子及び核酸配列を選択してスクリーニングするためのアレイを作成するオリゴヌクレオチド選択モジュールと、オリゴヌクレオチド選択モジュールから核酸配列を受けとり、基質上に核酸アレイを作成するＤＮＡオンチップアセンブリ装置とを備えた自動化された選別システムを含むが、ここに於いて核酸アレイは遺伝子を選別（スクレーニング）するために用いられる。一例としては、当該対象遺伝子はＮＩＤＤＭを選別するために用いられるが、当業者であれば、遺伝子との関連性が知られているか又は知られていない他の疾病も、本発明のスクリーニングのためのアレイを作成するの用いることができることは容易に認識できるものである。

（発明の詳細な説明）
本発明のさまざまな態様の構成及び使用については以下に詳細に考察するが、本発明は、広範囲の特定分野での実施に適応する新規な発明概念を提供するものであると評価されたい。本明細書で考察される特定の態様は、単に、本発明を構成し、使用する具体的な方法を説明するものであり、本発明の範囲を制限するものではない。本発明の解説的な態様のさまざまな改変や組み合わせは、本発明のその他の実施態様と同様に、本明細書を参照すすことにより当業者には明らかなものであろう。したがって、特許請求の範囲はこれらの改変及び実施態様を全て包含するものである。

定義
本明細書で用いられる全ての専門用語や科学用語は、別に定義されない限り、本発明の属する技術分野の通常のスキルを有する者によって一般的に理解されるものと同じ意味を有するものである。本発明の理解を容易にするために、多数の用語を以下に定義する。本明細書に定義する用語は、本発明に関連する分野における通常のスキルを有する者によって一般的に理解される意味を有するものである。

「ａ」、「ａｎ」、「ｔｈｅ」などの用語は、単に、単数のエンティティを示すのではなく、説明のために具体的な例が用いられている一般的な類（class）をも包含するものである。本明細書における用語は、本発明の特定の態様を説明するために用いられているものであって、特許請求の範囲に於いて発明の範囲を特定する場合を除いて、なんら本発明を制限するものではない。

以下に、本発明に適用される用語を示す。

本明細書で用いられる「オブジェクト」と言う用語は、所定の項目又は情報（一般的に、名詞、動詞、形容詞、副詞、句、文、記号、数字などを含むテキスト）のどのようなものであってもよい。したがって、オブジェクトは、相関関係を形成できるものであればよく、また、ソースから獲得、識別及び／又は探索できるものであればよい。「オブジェクト」には、遺伝子、タンパク質、疾病、表現型、メカニズム、薬物などの所定のエンティティが含まれるがこれらに限定されるものではない。ある態様では、オブジェクトは、更に以下に記載するようにデータであってもよい。

「関係（相関関係）」とは、同じユニット内（たとえば、句、文、２つ又はそれ以上のテキスト行、パラグラフ、Ｗｅｂページのセクション、ページ、マガジン、新聞（paper）、本など）でオブジェクトが同時発生することである。それは、テキスト、記号、数字及びこれらの組み合わせであってもよい。

「メタデータコンテンツ」は、データソース中でのテキストの編成に関する情報を提供する。メタデータは、ダブリンコアメタデータのような標準のメタデータを含むことが可能であり、また、コレクションに特異的なものも可能である。メタデータフォーマットの例としては、図書館のカタログように用いられる機械読み取り可能カタログ（ＭＡＲＣ）レコード、リソース記述フォーマット（ＲＤＦ）及び拡張マークアップ言語（ＸＭＬ）があるが、これらに制限されるものではない。メタオブジェクトは、手動で又は自動情報抽出アルゴリズムを介して生成される。

本明細書で用いる「エンジン」という用語は、その他のプログラムの中心又は基幹的な機能を実行するプログラムのことである。たとえば、エンジンは、その他のプログラムの全動作を調整するオペレーティングシステム又はアプリケーションプログラムに於ける中心となるプログラムである。「エンジン」という用語はまた、変更可能なアルゴリズムを包含するプログラムのことである。たとえば、ナレッジ発見エンジンは、関係を識別するそのアプローチを、関係を識別してランク付けする新しいルールが反映されるように変更可能なように設計される。

データを評価するにはさまざまなタイプの分析が利用される。「正字法分析」は、文字コードからなっているテキスト中の意味単位の認識である。英語では、通常、テキストを白色のスペース（スペース、タブ、改行など）のところで分離し、次に、結果として得られる単位又は「トークン」を単語として扱う。単語の境界がない言語の場合、１つの一般的なアプローチは、スライドウインドウを用いて、「文字ｎグラム」又は「ｎグラフ」として知られているオーバラップするｎ文字の文字列を作成する。「意味論分析」は、類似の概念を表す単語間の関係を、たとえば、接尾辞を除去又はトリミング、シソーラスを用いたりして識別する。「統計的分析」とは、各用語（単語、語根、語幹、ｎグラム、句など）の発生の数をカウントすることに基づいた技法のことである。主語に関して制限のないコレクションでは、同じ句でも、用いられる文脈が異なれば、表す概念も異なる。句の同時発生の統計的分析は、語彙の曖昧さを解決するのに役立つ。「構文分析」を用いると、スピーチ部分(part-of-speech)分析によって曖昧さをさらに減少させることが可能である。本明細書で用いられるこのような分析の１つ又はそれ以上が、より一般的には、「語彙的分析」と呼ばれる。「人工知能（ＡＩ）」とは、コンピュータなどの人間ではないデバイスが、人間が注意に値する又は「インテリジェント」であると見なすタスクを実行する方法のことである。その例としては、画像の識別、話された言葉や書かれたテキストの理解、及び問題の解決がある。

本明細書で用いられる「データベース」と言う用語は、さまざまな情報ファセットがデータフィールド内に存在していてもよいが、生のデータ及びコンパイル済みデータのレポジトリの意味で用いられる。データベースは、通常、その内容がアクセス、管理、更新可能であるように編成されている。（即ち、データベースは動的なものである）。「データベース」と「ソース」いう用語はまた、本発明では交換可能なものとして用いられるが、それは、データ及び情報の主要なソースがデータベースであるからである。しかしながら、一般的には、「ソースデータベース」又は「ソースデータ」とは、オブジェクトを識別し相関関係を割り出すためにシステムに入力される非構造化データ及び／又は構造化データのことである。ソースデータベースは、関係データベースであってもよいし、そうでなくてもよい。しかしながら、システムデータベースは、オブジェクト間の相関性に関連する値をストアしている関係データベース又は同等のタイプのデータベースを含むのが好ましい。

本明細書で用いられる「システムデータベース」と「関係データベース」は交換可能に用いられる。より具体的には、「関係データベース」とは、定義済みのカテゴリに合致するデータを含むテーブルの集合として編成されたデータのコレクションのことである。たとえば、データベーステーブルは、カラム（列）に定義される１つ又はそれ以上のカテゴリ（たとえば属性）を含み、一方、データベースの「行」はカラム（列）によって定義されたカテゴリに対する特定のオブジェクトを含む。したがって、遺伝子などのオブジェクトは、ヌクレオチド配列、アミノ酸配列、特定の組織や細胞に於ける発現、由来する有機体、表現型との関連性等のカラム（列）を有する。関係データベースの「行」はまた「集合」と呼ばれ、一般的に、そのカラム（列）の値によって定義される。関係データベースの文脈中の「ドメイン」は、カラム（列）などのフィールドに含まれる有効な値の範囲である。

本明細書で用いられる「ナレッジのドメイン」とは、本発明のシステムが有効である研究の分野、たとえば、すべての生物医学的なデータのことである。いくつかのドメインからのデータ、たとえば、生物医学的データと工学的データとを組み合わせることには利点がある、それは、この多様なデータは時として、１つの分野又は探求／研究（１つのドメイン）しか知らない通常の人間にとっては考え付かないようなことを結びつけることが可能であることを指摘しておく必要がある。

「分散型データベース」とは、ネットワーク上のさまざまなポイント間で分散したり複製したりすることが可能なものである。

「データ」と「情報」という用語は、「情報」と「ナレッジ」がそうであるように、しばしば交換可能なものとして用いられ、したがって、用語間の相違を理解しておく必要がある。「データ」は最も基本的な単位であり、実験による測定値又は測定値の集合から成っている。データはコンパイルされて情報となるが、それは基本的には情報とは独立したものである。それとは対照的に、情報は興味から発する。たとえば、心臓病の危険性と相互に関連する変数を見出すために身長、体重、人種、食習慣に関するデータが収集される。しかしながら、同じデータはまた、身長／体重、又は人種／食習慣の相関関係に関する公式を開発したりそれに関する情報を作成するのに用いることができる。

「情報」とは、それがデータの集合を意味する場合、データの集合に基づく又はそれらから誘導される、数値、数値の集合又は結論などを含むものである。即ち、「データ」とは統計の測定値及び情報の基本的単位のことである。「情報」はまた、語、記号、自由記載の非構造化テキストなどのテキスト、コード等の他のタイプのデータを含む。「ナレッジ」とは、因果関係をモデリングするに十分な程度にシステムを理解させる情報の集合であるとゆるやかに定義される。上述の例をさらに広げれば、人種と食習慣に関する情報は、食品販売のための地域的マーケティング戦略を展開するのに用いてもよいし、また、身長／体重比に関する情報は医師が食事療法推奨の指針として用いることもできる。データ、情報、ナレッジ間に厳密な境界はないことに注意することが重要であるが、これら３つの用語は、同義であると考えられることもある。通常は、データは試験により、情報は相互相関によりまたナレッジはモデリングにより得られる。

本明細書で用いる「プログラム」又は「コンピュータプログラム」と言う用語は、一般に、特定のプログラム言語のルールに適合し、また、宣言とステートメント又は命令から成る構文単位であって、ある機能、タスク又は問題を解決したり実行したりするために必要とされる「コードセグメント」に分割可能なものである。プログラム言語は一般に、プログラムを表す人工言語である。

「システム」又は「コンピュータシステム」とは、一般に、１つ又はそれ以上のコンピュータ、ペリフェラル装置、及びデータ処理を実行するソフトウエアを含む。「ユーザ」又は「システムオペレータ」とは、一般にデータ処理と情報交換目的で「ユーザデバイス」（たとえば、コンピュータ、無線デバイスなど）を介してアクセスされるコンピュータネットワークを利用する人間を含む。「コンピュータ」とは、一般に、数値演算と論理演算を含むかなりの量の計算を人間に介入なしで実行することが可能な機能単位である。

「アプリケーションソフトウエア」又は「アプリケーションプログラム」とは、一般に、アプリケーションの問題のソリューションに固有のソフトウエア又はプログラムのことである。「アプリケーション問題」とは、一般に、エンドユーザによって提出され、そのソリューションのために情報処理が必要とされる問題のことである。

「自然言語」とは、具体的に規制されることなく現行の用法に基づくルールを持つ言語のことである。自然言語の例には、たとえば、英語、ロシア語、中国語がある。それと対照的に、「人工言語」とは、その使用に先立って明示的に確立されたルールを持つ言語のことである。人工言語の例には、Ｃ、Ｊａｖａ、ＢＡＳＩＣ、ＦＯＲＴＲＡＮ、ＣＯＢＯＬなどのコンピュータプログラム言語がある。

本明細書で用いられる「物理的関連性」とは、データソースの選択された部分（たとえば、句、行、パラグラフ、節、章、本、など）中でのオブジェクトの同時発生のことである。

本明細書で用いられる「論理的な関連性」とは、「not」、「includes」、「and」、「or」などの論理的演算子によってリンクされる関連性のことであり、接続語が、特定の方法でオブジェクトを関連付けるが、たとえば、「我々は遺伝子ＸＸ、ＹＹ、ＺＺを研究して、これらが遺伝子的には癌とは関連性がない」という文の場合、ＸＸ、ＹＹ、ＺＺは同時発生だけがリンクするように用いられるが、残りの文の文脈から論理的に判断すればそのようにはなっていない。論理的な関連は、ゲノムオントロジー（ＧＯ）のようなオブジェクトがはっきりとリンク又は関連付けられたデータベースから得ることができる。

本明細書で用いられる「関係の包括的ネットワーク」とは、多くのソース又はナレッジのドメインからのデータを含む、できる限り完全なネットワークのことである。好ましくは、このようなネットワークに関連するこのようなデータは、「Ｍｅｄｌｉｎｅテキストからの関連性だけを提示して、他の文献から派生した関連性を含まないようにせよ」といった制約によって制限されることなくアクセス可能である。

本明細書で用いられる「部分的ネットワーク」とは、利用可能なデータソース（たとえば、科学雑誌で公開された文献など）の部分的なもののみから計算されたネットワークのことである。１つのデータソース中で識別された部分的ネットワークは、別のデータソース中で識別された部分的ネットワークと比較して、関係を有効化することが可能である。この用語はまた、たとえば「Ｍｅｄｌｉｎｅだけから得られた文献からの関連性を提示せよ」又は「癌のことだけを考察しているＭｅｄｌｉｎｅ文献からの関連性を提示せよ」といった事前計算済みネットワークのある部分だけを用いることを表すものである。

本明細書で用いる「主題クラスタ」とは、「乳がん」とか「心臓病の患者及び正常者で調査した場合の再現可能に差別的な発現を有する遺伝子」等の主題によって関連付けられるオブジェクトのグループ、又は、任意の研究若しくは仮説のためのさらなる情報又は検証用の情報を生成するためにユーザによって生成されたオブジェクトの任意のグループ化のことである。

本明細書で用いる「統計的関与度」とは、相関性がランダムに発生する場合と較べて発生する頻度が顕著に多い場合に「統計的に関与している」と判定される、１つ又はそれ以上のランク付け方式（Ｏ／Ｅ比、強度など）を取り扱うことである。

本明細書で用いる「解決する」とは、オブジェクト−関係データベース中にオブジェクトが存在することを検証、及び、語彙的な異形や同義語などもまたそのオブジェクトのオブジェクト−関係データベース中に包含されていると想定することである。それはまた、文献からオブジェクトとその異形を発見すること、すなわち、それらを文献から首尾よく抽出することである。

本明細書で用いる「関係に資質（nature）を割り当てる」とは、１つのタイプの関係を別のタイプの関係と区別するために用いられる方法であり、これには、同時発生のみによる関係と特定のクラスのオブジェクト（たとえば、薬物、遺伝子など）に包含されることによる関係とが含まれる。それはまた、オブジェクト集合に関連するなにか、たとえば、その集合のメンバーはしばしば「転写調節因子」であり、したがって、あるタイプの制御機能を示しており、おそらくＤＮＡとある種のタンパク質間の相互作用を伴うであろうということ等を明らかにすることが可能な、結果オブジェクトを含む。

ナレッジ発見
科学等の技術分野では、データを収集して、所定のオブジェクトに関する情報及び／又はナレッジを得るが、それはまた、元来は研究対象ではなかった他のオブジェクトに関する新しい情報を含んでいたり、結果としてつながっていたりする。関連のない分野での研究から偶然又は突然の洞察によってひらめいた科学的発見に関する逸話は多い。このような経験に基づいた所見は、無関係に見えても、オブジェクト間には重要な関係が存在する可能性があり、これがオブジェクトを新しい関係の集合に統合することを示している。

情報とは、通常、特定の興味（interest）から生成され、また、ほとんどのデータはその興味の追求のために収集されるが、本発明によるシステムは、経費の追加なく興味を拡大させることを可能にする。したがって、本発明のシステムはまた、経費の追加なくして、より多くのナレッジを生成する。こうした付加価値の恩恵は無限であり、ナレッジ発見に於ける本発明のシステムの役割の基幹となるものである。

個人は、パターンを発見してデータ内の関係を解明することには卓越しているが、新しいデータを類似化する分量と速度の能力は限られる。一方、コンピュータは、パターンを発見したり関係を理解したりする能力は限られるが、データの類似化と言う点ではより迅速で包括的である。既存のデータを包括的に探索してパターンを求めるには、したがって、コンピュータを用いる必要がある。本発明のシステムは、データの関係分析のための主要なタスクを遂行するがこれには、（ａ）電子的に読み取り可能なフォーマットでのナレッジのドメインの獲得；（ｂ）このドメインに含まれるデータの認識用ソフトウエアの使用；（ｃ）それに含まれるデータの項目間の情報の関係の識別；（ｄ）これらの関係を用いての新規な傾向、機能及びソリューションの発見と識別、が含まれる。

ナレッジ発見の非効率的な方法
科学技術分野のナレッジを追求する者らにとって興味深いデータの一つのソースはＭＥＤＬＩＮＥである。１９８６年、ＭＥＤＬＩＮＥが今日の半分未満のエントリしかなかったころ、Don Swansonとう研究者が、既知のリンクを持たない２つの生物学的現象を、半自動的な方法で中間リンクを介して関係付けることが可能であることを証明した。この概念を図２に示すが、この図でＡとＢ間の関係及びＢとＣ間の関係が検討されているが、ＡとＣ間にはなんの関係も識別されていない。Swansonは、このような関係を「非相互作用的文献（Non-interactive literature」と名づけて、ＭＥＤＬＩＮＥレコードのタイトルから得たキーワードをペアリングして２つの文献集合間の共通性を識別する非相互作用的文献を扱う方法を開発した。この方法を用いて、彼は、循環器系の疾病（文献Ａ）であるレイノー病と魚油（文献Ｃ）との間の関係を、双方の現象（文献Ｂ）に関連のある対応する血液と血管の変化から見出した。この検証からSwansonは、魚油（循環系に有効に作用する多くのもの（agents）を増加させる物質）がレイノー病に罹患した患者に有効である仮定することができた。この方法を用いて、以前に知られていなかった他の関係、たとえば、マグネシウムのレベルと偏頭痛の関係、及びアルギニンのレベルと血漿ソマトメジンの関係が見出された。

SwansonはＡＲＲＯＷＳＭＩＴＨというプログラムを公開したが、これは、「非相互作用的」文献を探索することを可能とするものであった。図３Ａと３Ｂに、ＡＲＲＯＷＳＭＩＴＨがどのように動作するかその概念を示す。図３Ａでは、２つの概念ＡとＣ間での方向付け探索の方法を示すが、ここで、ＡとＣはＭＥＤＬＩＮＥの主題探索で用いられるテキスト（キーワード又は句）という形態を持つ一般的な対象概念である。この探索で得られたタイトルは解析されて個々の単語の集合となる。この集合から、「情報価値のない」語がフィルタリングされて、キーワードの集合（Ａの下の陰影のないボックス）が残る。Ｃは、異なる主題探索では、Ａとオーバラップすることは分からない。すなわち、ＭＥＤＬＩＮＥを探索して合成集合“Ａ and Ｃ"を求めても、何も見つからないはずで、すなわち、関係を示すエントリはなにもないということである。ＡＲＲＯＷＳＭＩＴＨを用いると、Ｂで表されるキーワードの集合がＡとＣ双方で発見される。文書化されていない関連性が発見されるのはこの集合においてであるが、関連性Ｂが関与しているのか重要であるのかを判定するのは個人しだいである。

図３Ｂに、ＡＲＲＯＷＳＭＩＴＨを無方向探索、すなわち、Ａに関連したなんらかの新しいまたは興味ある関連性を単に発見したい場合にとる方式の結果を表す。Ａの主題探索から誘導された初期のキーワード集合から、このキーワード集合全体に対して独立した別の探索を実行する。その結果を別のキーワード集合Ｂに合成して、再度、これらキーワードの各々から、別の探索を実行する。Ｂの全てのキーワードに対する探索から得られた第３の参考文献リストを処理して、初期集合Ａにすでに発見された参考文献を除外して、最終集合Ｃを残すことが可能である。

本方法は独創的なものであればあるほど、Swansonの方法が如何に非効率的かという理由が多く挙げられる。第一に、ＡＲＲＯＷＳＭＩＴＨは記事のタイトルしか用いない。そのため、ユーザが分析しなければならないキーワードの数を減少させて実用的には働くが、タイトルは必ずしも、発見を特定の用語で記述してはいないし、また、要約などの他の記事の部分で見受けられる関連情報を多く含んでもいない。第二に、句ではなくキーワードだけを用いて、有用な因子同士を区別しない。たとえば、「心臓の」は「心不全」や「心臓の発生」と関連する用語を収集する。第三に、本方法は「自動式」と銘打っているが、実際には半自動式であり、それは、レコードを入力として手動でコンパイルし、さらに、各々の整合するキーワードをそれが関連性を持つか手動で評価する必要があるからであるが、ここで、この評価には、一般的に、所定の特定分野の「専門家」が必要である。しかしながら、１つのグループは、キーワードとキーフレーズの発生の正規化された統計的頻度を用いて、最も関連性の高い単語と句を探索のトップに浮揚させようとしてきた。データプールが限られるということを別にしても、キーワードベースのアプローチの欠点は、分析されるドメインのサイズである。ストップワードを除外しても、固有のキーワードの数は、図３Ｂに示すように急速に増える。したがって、このタイプの探索を用いる無方向性の探索と方法は、多量のデータを分析する場合にはほとんど得るところがない。

語のペアリングとその制限
語のペアリング又は用語の同時発生を利用するいかなるナレッジ発見システムでも、分析の規模で制限される。１つのソース中に存在するデータの最大規模の例は、データベースを見れば分かる。データベースは、たとえさまざまな情報ファセットがデータフィールド中で発見可能であろうと生データのレポジトリであると考えられる。すでに述べたように、広範囲に及ぶ科学技術のナレッジの１つのソースとしてＭＥＤＬＩＮＥがあるが、これは、National Library of Medicine（ＮＬＭ）からのＸＭＬ（拡張マークアップ言語）フォーマットで電子テキストとして無料で利用可能である。

２００２年初頭、ＭＥＤＬＩＮＥは１２，０６３，０００のレコードを保有していたが、その内の６，４００，０００が要約付きであった。解析したら、この１千２百万のレコードは、４，４００，０００を超える固有の単語を含んでいることが分かった。共通の主題に関連する要約の集合からの固有の単語が如何に急速に増加し得るかを説明するのに、９７３のＭＥＤＬＩＮＥレコードからタイトルと要約を、キーワード「ｗｎｔ」を用いた主題探索によって得て、本発明のシステムの単語解析ルーチンを用いて処理して個々の単語に分解した。全１１，２２６個の固有の単語が全１９１，１６５個の単語中に見出された。単語の単純な語形変化を統合し（たとえば、「bind」、「binds」及び「binding」を１つの語とカウントする）だけで、リスト中の単語が９，４７９個に減少した。次に、フィルタをかけて、２２０個の情報価値のない単語（たとえば、「hence」、「where」、「did」、「at」の様な）及び副詞のような語（「ly」で終わる語）を除外した。最終的なリストでは、８，４９５個のキーワードを含むものであった。これらの多くのものはより複雑な語形変化を有する語である（たとえば、bind/bound、cell／cellular）、固有名詞（たとえば、"Beckman"、"Smith"）、数値もしくはパーセンテージ、選別されなかったいくつかの情報価値のない単語（たとえば、「hundred」、「liter」）であった。さらに探索する際におそらく有用性が低い単語（たとえば、「agarose」、「filter」）が多く存在し、また、表す概念があまりに広すぎるために有用性が不確かな単語（たとえば、「cell」、「development」、「Drosophila」）が多く存在する。ＭＥＤＬＩＮＥの要約を問い合わせることによって、National library of MedicineのPubMedのＷｅｂサイトでこのリストで最も頻繁に使用されているキーワードを累積的に用い（すなわち、１語、そして２語、そして３語、最高５０語まで）、また、その漸近線を計算して、推定で６，１００，０００のＭＥＤＬＩＮＥの記事がその要約中にｗｎｔリストからのキーワードを１つ又はそれ以上含む。これは、要約を含んでいるＭＥＤＬＩＮＥレコードの約９７％を表している。したがって、暗示的に関連する記事のドメインを潜在的な関係がないか検査することは、１千２百万のＭＥＤＬＩＮＥの記事の大多数を読むことと同じである。

このタイプのシステムがいかに途方もなく非効率的であるかをさらに説明するには、ランダムに検査されたレコードからのキーワードの増加率を見れば分かる。図４で、要約ｗｎｔからの固有のキーワードの合計の増加を、同じ数の有効にランダムな要約（「result」と言うキーワードを用いてＭＥＤＬＩＮＥから得られたもの）に対してプロットしてある。これら要約中の全ての語がデータベースに記録され、これで、新しい語が発見される度に累積合計が増す。

図４に示すように、１００の要約からなる比較的小さい集合が、４，０００の固有の単語に急速に膨張する。キーワードｗｎｔの成長分析を見れば、小さい開始ドメイン以外の何れのドメインに対する無方向性探索も急速に非効率的で非実用的なものとなることが分かる。したがって、効果的なシステムはまた、無関連のキーワードを分析しないように除去することが可能である。幸いにも、本発明のシステムではこれが可能である。
テキストベースのソースを用いてナレッジ発見の障害を克服する方法

テキストベースのソースを用いてナレッジ発見の障害を克服する方法
どのようなソースでも評価する非常に実用的な方法は、次の３つの質問に答えることである：
（１）そのソースがどれほど包括的であるか？
（２）そのソースのエラーレートはどれほどか？；及び
（３）新規だが有用な関係を識別するのにどれほど多くの作業を必要とするか？

ある関係の有効性を評価する際に直面する時間と金に対する非常に実際的な制限を考えて、本発明のシステムは、ある特定の所定分野で関連性及び／又は関与性があることがわかっている物事だけに分析を制限するように設計されている。たとえば、バイオテクノロジでは、現在の所定分野は一般に、遺伝子、疾病、臨床的表現型、タンパク質、小分子、作用のメカニズム、潜在的な新しい薬物及び治療用の化合物である。本発明によるシステムはまた、特に、分析を所定の分野にかかわるソースに制限している。たとえば、ＭＥＤＬＩＮＥをソースとして用いて、探索を、タイトルと要約とに制限する。これは主として、このような分野は、新しい関係の発見に適する多量の情報を収容しているからである。

多量のテキストを持つデータソースを用いて関係分析を実施するという点では、克服しなければならない特有の困難が多く存在する。最大の困難は、テキストを、それが存在している文脈中で適切に割り当てて評価することである。本来文脈的である人工的な関係が存在するが、これは、科学的なソースの場合特に重要である。たとえば、要約で、試験条件に依存する相互作用を識別する。遺伝子ノックアウト突然変異体を含む動物種を用いて薬物の効果を判定し、その薬物とその効果との間の誤解を招く恐れのある関係を構築する、たとえば、「薬物ＡＢＣは飲めば死ぬ」。情報の誤った評価を克服するために、１つの態様では、本発明のシステムは、オブジェクト又は関係が識別される毎にカウントする増分カウンタを含む。オブジェクトが偶然この特殊環境カテゴリに入る場合、文書化された関係は、オブジェクトの発生回数の合計と較べて、それに釣り合う小さいカウント値を有するべきである。

解決すべきもう一つの問題点は、人工的な構築物を記述する標準化されていない表記法を使用することである。たとえば、「ＡＢＣΔ１３０〜１４０タンパク質はＤＥＦを結合できなかった」とうステートメントを取り上げてみる。このステートメントから次の２つのことが理解される：ＡＢＣは通常はＤＥＦを結合するが（暗示的である）、アミノ酸１３０〜１４０がないと、結合できない。このような表記法はそれが標準的であれば容易に対処可能であるが、この欠損を示す方法には、ＡＢＣΔ１ｄ（第１のドメイン用）、ΔＡＢＣ−２（第２の欠損部位用）、ＡＢＣ−ＤＥＦＢＲ（ＤＥＦ結合領域なしのＡＢＣ用）等の方法、又は、研究中の物に関連するかなりの数の方法がある。本発明のシステムは、識別されたオブジェクトの関係のみをカタログ化するものである。

他に２つのタイプのエラーがデータソース中に存在する。たとえば、本発明によるシステムは、オブジェクト−関係又は研究の結論／結果を正確に識別するように教示されている。２つのオブジェクト間の関係が識別され、エラーを見出すために用いられた回数の合計を加算する１つ又はそれ以上の変数に依存することによって、より良好な評価がなされる。オブジェクト−関係データベース（ＯＲＤ）中のエントリのサブ集合を取り上げ、オリジナルの参考文献に立ち返り、正確なものがいくつあるかで評価した。評価の正確さは、潜在的に非文書化された関係をランク付けするためのスコアを提供するのに重要である。したがって、本明細書に記載のシステムは、ＯＲＤを構築する際のシステムエラーを軽減するように設計されている。滅多にない又は下手なやりかた（意味論的句切り法）で区切ったために起きるタイプのエラーは遙かに難題である。本発明のシステムとしては、徹底性よりも正確さを強調するシステムが好ましいが、即ち、正確だと識別される関係を見出すことの方を優先するもので、きわめてまれな関係は見過ごしてもよいということである。

研究対象のオブジェクトに対して一貫した標準の分類を実行することによって、上記の上記の問題は殆ど解決できる。更に、メタシソーラス用にＮＬＭのＭｅｔａＭａｐなどのツールをまず用いて、句及び単語の異形をメタシソーラスに含まれている概念で整合させる。このメタシソーラスは、ユーザが、自身の一般的な興味を「フリーハンド」方式で一旦入力すれば、さまざまな主題分野を選択する際に助けとなる。

新規なナレッジ発見システム
本発明が解決する問題は、ソースを用いて、関係を包括的に識別して、次いでそれをモデリングし、これによって、新しいナレッジを発見して、探索分野（たとえば、研究分野）内のローカルトレンドとグローバルトレンドを識別する。

１つの態様では、本発明のシステムは情報マイニング用の文書をストアするメモリを具備するものである。その代わりに又は加えて、本発明のシステムは、それを介して１つ又はそれ以上の文書のコレクション（総称的にはデータソース）にアクセスできる、ネットワークに接続可能なプロセッサを備える。

本発明のシステムのプロセッサは中央処理装置（ＣＰＵ）を具備するのが好ましいが、これは、コンピュータ読み取り可能媒体に埋め込まれた１つ又はそれ以上のプログラム（「コンピュータプログラムプロダクツ」）を実行して、以下に説明する評価方法を実行するものである。コンピュータ読み取り可能媒体には、ハードディスク、フロッピディスク、コンパクトディスク、ＤＶＤ、フラッシュメモリ、オンラインインターネットＷｅｂサイト、イントラネットＷｅｂサイト、さらに、他のタイプの光、磁気、又はディジタル式の揮発性若しくは不揮発性の記憶媒体が含まれるが、これらに限定されるものではない。本明細書で用いられる「コンピュータ読み取り可能媒体」には、協調型又は相互接続型のコンピュータ読み取り可能媒体が含まれるが、これは、１つのコンピュータシステム上で単独で存在するか、又はローカル若しくはリモート接続された複数の相互接続されたコンピュータシステム間に分散されている。したがって、１つの態様では、プロセッサは、１つ又はそれ以上のシステム機能を実行するために、クライアント（たとえば、コンピュータ、ワークステーション、携帯式デバイス、Ｄｅｌｌ４６００などのマルチＣＰＵサーバ、ラップトップ、オフィスアシスタント又は、ネットワークに接続可能な他の無線デバイス）からの要求を受信し、遂行するサーバプログラムを履行する。サーバによって履行されるサーバプログラムは、オブジェクト−関係（以下にさらに説明する）のネットワークを定期的に再計算して、ネットワークデータベースを提供し、次いでこれは、クライアントのマシンにダウンロードすることができ、ユーザは、対話や問い合わせをすることが可能である。又は、サーバコンピュータはネットワークデータベースを保持し、クライアント／ユーザは、クライアントマシン上のローカルコピーを有する必要性なくこのネットワークデータベースとサーバを介して対話する。このアーキテクチャによってフレキシビリティが与えられて、データベースが成長でき、これで、クライアント／ユーザマシンで得られる以上に広いディスクスペースと速度とが得られる。

本発明のシステムで用いるのに適したサーバには、ＳＱＬサーバ、Ｏｒａｃｌｅ及びＭｉｃｒｏｓｏｆｔのアクセスがあるがこれらに限定はされない。

１つの好ましい態様では、本発明のシステムは、企業のデータベースアプリケーション（たとえば、Ｍｉｃｒｏｓｏｆｔのアクセスプログラムなど）を開発し、展開し、管理するプログラムをさらに含む。

１つの態様では、本システムは、ネットワークデータベースの（文献又は新しいオブジェクトを追加した後の）再計算結果を監視して、新しく追加されたなんらかのオブジェクト又はソースデータによって突然リンクされるようになるオブジェクトのグループを識別し、これで、フラグやシステムをトリガーして、結果を点検する命令を含むコードセグメントを持つプログラムを実行させるエンジンを備える。このようにして、本発明のシステムは、発見の新しい機会を（たとえば、候補となる標的の薬物を同定することによって）提供する関係を識別する。このように、本発明のシステムは一般的な人間の思考と科学的方法とをモデリングし、なんらかの発見がなされ、次に、本発明のシステムはこの新たな発見を利用してさらなる新しい発見をする。

システム機能を実施する本明細書に記載するコンピュータプログラムプロダクツは、汎用コンピュータ上で動作する。コンピュータとは、スタンドアローンユニットや相互接続されたいくつかのユニットを含むことが可能なものである。機能ユニットは、指定された目的を遂行することが可能なハードウエア、ソフトウエア又はその双方のエンティティであると考えられる。ハードウエアは、コンピュータやペリフェラルデバイスなどの情報処理ステムの物理的コンポーネントの一部又は全部を含む。

本発明のシステムは、データ評価方法の結果を表示するユーザインタフェースをさらに含むのが好ましい。このユーザインタフェースは、サーバにアクセスすることによって本発明によるシステムにアクセスするクライアントシステム上に装備したり、ユーザインタフェースとシステムの双方を汎用コンピュータ上に具備させたりすることが可能である。実行されているデータマイニング動作のタイプによってカスタマイズされるウインドウ（たとえば、データが表示される境界が定められる表示画像の一部）を備えることが可能である。たとえば、このウインドウは、遺伝子、タンパク質、化合物、その機能及び／または相互作用などに関連するデータをユーザフレンドリーな図形フォーマットで表示するようにカスタマイズされる。たとえば、ウインドウはタイトルバー、ツールバー、ドロップダウンメニューなどの部品及びボタンやリンクなどの制御部品を含むことが可能である。

１つの態様では、ユーザインタフェースは、ユーザの興味に関連したユーザからのテキスト入力（たとえばクエリー）又はデータソースからのデータに関連する入力（テキスト、数値、記号、化学式、数式及び類似物）を受信する１つ又はそれ以上のフィールドや、インタフェースとのユーザの相互作用、たとえば、制御部品（たとえば、ボタン、ドロップダウンメニュー、タスクバー、リンクなど）を選択したりクリックしたりするなどのユーザ動作に反応してシステムによってアクセスされたリモートコンピュータからの入力を受信する１つ又はそれ以上のフィールドを含むが、これに制限されるものではない。このユーザインタフェースは、ユーザの特定の興味を反映する、たとえば、ユーザの興味に特に関与するデータソースに対するリンクを含むようにカスタマイズされる。

データソースからのデータに関連する入力は、標準のテキストコンバータ又はデータコンバータを用いてＸＭＬなどの容易に交換可能なフォーマットに変換される。したがって、ｐｄｆフォーマット、ｂｍｐフォーマット、ｔｉｆｆフォーマット、ＨＴＭＬ、ＣＨＭ、ＲＴＦ、ＨＬＰ、ＴＸＴ（ＡＮＳＩ及びユニコード）、ＤＯＣ、ＸＬＳ、ＭＣＷ、ＷＲＩ、ＷＰＤ、ＷＫ４、ＷＰＳ、ＳＡＭ、ＲＦＴ、ＷＳＤを含むデータソースを、ＸＭＬなどのフォーマットに変換することが可能である。本発明の１つの好ましい態様では、本発明のシステムのデータコンバータ機能を用いて、Ｍｅｄｌｉｎｅなどのデータソースに類似したフォーマットにデータを変換する。

本発明による１つの例示のシステムでは、たとえば、２５６ＭＢのＲＤＲＡＭと３６ＧＢのＳＣＨＳＩハードドライブを持つデスクトップ８００ＭＨｚのPentium IIIと、１ＧＢのＲＤＲＡＭ、３６ＧＢのＳＣＳＩドライブ及びバックアップ７２ＧＢのＳＣＳＩドライブを持つPentium-4型ＰＣとを用いて計算される。以下に説明する例では、ＭＥＤＬＩＮＥが、ローカルの１．３テラバイトクラスタの不安定性のために７２ＧＢドライブ上でローカルモードでストアされていた。１つの態様では、本発明のシステムのプログラムコードはVisual Basic6.0(VB6)で書かれているが、当業者であれば、本明細書の開示に従って多数のプログラム言語の内の何れかを用いて、本発明を実行できるものである。たとえば、本発明のシステムは、たとえば拡張されたOpen Database Connectivity (ODBC)を用いて、Microsoft Access2000からのデータベースアクセスを可能とする。ＶＢ６もまた、ＯＤＢＣを介して拡張型ＳＱＬサーバに対処するが、これでグレードアップを可能とする。

本発明によって実行される評価方法又はデータマイニング動作は一般的に次の部分に分割される：
１．あるナレッジドメイン内の情報の関係は類似化される。
２．（ナレッジのドメイン、たとえば、データソース中の）意味ある関係の認識は、一次ドメインは通常の方法でカテゴリに分類され、これらのカテゴリは、特定のデータベース内に包含されるのに十分なほど重要である、という仮定に基づいている。
３．ナレッジドメイン内の関係の包括的識別は、ナレッジのドメインのキーとなる分野内でのオブジェクトの同時発生によってなされる。
４．関係の包括的ネットワークはデータベースにストアされ、次いで、共有関係を伴うクエリー及び暗示的にしか知られていないクエリーとを作成するために用いられる。
５．共有関係及び暗示的関係とは、有界ネットワークモデルを用いて統計的に評価される。
６．識別された関係は、それを既存の問題に照らし合わせてその正確さを試験する。

あるナレッジドメイン内の情報の関係の類似化は一般的に、データソースからシステムに入力することから始まる。

データソースの例には、公開された研究論文（たとえば、Science Citation Index、Medline、BIOSIS）、公開された技術論文（たとえば、Engineering Compendex）、会議議事録、公開された技術報告書の結果データベース（たとえば、NTIS）、患者のデータベース（たとえば、 www.uspto.govで利用可能なものや、DERWENT、LEXIS、WESTLAW、DELPHION、MICROPATENTなどのデータベースなど）、プログラムナラティブのデータベース（たとえば、RADIUS）、規制当局のＷｅｂページ（たとえば、FDA、NIH、USPTO、FTC、SECのWｅｂサイト）、手紙、メモ、白書、チャットルームテキスト、裁判の判決、ニュースの記事、百科事典の記事、本、学術論文、リスト、表、目次、指標、市場分析、及び一般的にはオンライン又はディジタル形式で公開されている他のデータがあるが、これに制限はされない。インターネットのソースに加えて、イントラネットのソースや、メモ、手紙、ビジネスプラン、研究論文、補助金提案、ｅメール、マニュアル、ハンドブック、臨床データ（処理データと未処理データを含む）、顧客情報、競合者情報などを含むがこれらに限定されない、特定の企業構造に固有の及び／又はその企業にとって専売特許の他の文書が、データソースとなる。加えて、書籍（たとえば、MerckマニュアルのPhysician's Desk Reference：２００１年発行のMcGraw-Hill出版社のA. Gilman、J. Hardman及びL. Limbird編集のGoodmanとGilmanの「治療学の薬理学的基礎」の第１０版155-173；http://onlinebooks.library.upenn.edu/new.html" http://onlinebooks.library.upenn.edu/new.html、http://www.bartleby.com/" http://www.bartleby.com/、http://www.jpl.org/div/books/" http://www.jpl.org/div/books/、http://promo.net/pg/" http://promo.net/pg/、http://.bibliomania.com/" http://www.bibliomania.com/、http://www.netlibrary.com" www.netlibrary.comなどで入手可能なさまざまなオンライン本）などの教育資料や参考資料も含まれる。

文書には、現在オンラインされている文書や、たとえば、ＯＣＲ走査によって電子文書に過去に翻って変換されている文書が含まれる。たとえば、オンラインでは入手不可能な文書又は遺物文書は、標準のゼロックス技法及び／又はスキャナによってコピーすることが可能である。

１つの態様では、本発明によるシステムは、スキャナと、システムデータベースにリンクされているシステムプロセッサと通信しているこのスキャナと連通しているプロセッサとを含むＯＣＲモジュールを備えている。このスキャナを用いて、データソース（たとえば、本、雑誌、手紙、実験室ノートなど）とスキャナと連通しているプロセッサの画像を得、また、システムがテキストを印刷形態からデータソースとして使用可能なファイルに翻訳するのが好ましい。

このモジュールを用いて、１ページ全体又は２ページを一時に（フラットベッドスキャナを用いて）走査する、又は、あるページの選択された部分を走査することが可能である（たとえば、スキャナは携帯式デバイスという形態であったりする）。１つの態様では、スキャナは、多量のルース文書、すなわち、紙をそれから除去したりそのスパインから切り取って別々のページにできる使い捨て本を走査したりするフィーダシステムを含む。

１つの態様では、データソースファイルは、それから関連データを抽出することが可能な編集式テキストファイル又はグラフィックである。本発明のシステムで走査される文書は、この文書の少なくとも１つのキーとなる特徴に関連する少なくとも１つのメタオブジェクトと関連しているのが好ましい。文書をメタオブジェクトと関連付けるには、走査方法又は変換方法を制御し、これで、上記の少なくとも１つのメタオブジェクトも持たない文書がシステムデータソースの一部とは成らないようにするように、システムのオペレータとの対話することが必要である。１つの態様では、調査される文書をストアする一時的データベースを生成してデータソースとして削除又は編集して要約コンテンツとする。オペレータは、専門家であったり、１つ又はそれ以上のキーワードがないか文書を調査するように訓練されている個人であったりする。

オーディオでストアされる又はグラフィックコンポーネントを含む文書の場合、テキストデータをこのようなコンポーネントから抽出する方法（たとえば、スピーチツーテキスト（speech-to-text）アルゴリズム又は光学的文字認識アルゴリズム）を用いて、さらなるデータソースを生成する。データソースに貢献する文書は、１つのメモリ中にストアするか又は、たとえばWorld Wide Webもしくはインターネットにカップリングされている多くのサーバ上に分散される。このような文書は、以下に説明する方法に先立って又はその最中に本発明のシステムのプロセッサによってネットワークを介してアクセスされる。本発明のシステムで操作される文書のコレクションを生成する際にＷｅｂクローラを利用してもよい。

ソースの選択は、評価される特定の技術分野及び／又は評価の目的（たとえば、薬物の発見対薬物の副作用の識別、薬物の相互作用の識別、消費者のトレンドの識別など）に基づいてなされる。重要とされる他の判断基準には、新しいトレンドの出現を識別するためのデータソースの時間的範囲（たとえば、最近の公開又は選択されたタイムスタンプ）及び地理的範囲（たとえば、公開された場所）があるが、これらに限定はされない。

１つの態様では、評価されたデータソースは、たとえば、同類の及び／又は多様な技術分野といった複数のデータベース、又は複数のナレッジドメインをカバーするデータベースを組み合わせたものである。たとえば、組み合わされたデータベースには、いくつかの組み合わせを挙げると、製薬データベースとバイオテクノロジーデータベース、生物医学データベースと工学データベース、バイロテクノロジーデータベースと情報技術データベースといったものがある。幾つかの態様では、データソースを識別して評価する場合、技術に制限はない。たとえば、DIALOGデータソース及びSTNデータソースには、異なる技術分野のデータベースが含まれるが、それらは組み合わせて又は個々に評価してもよい。

さらなる態様では、データソースは、構造化データのみならず非構造化テキストデータ（たとえば、科学文献からのテキスト）も含む。１つの態様では、データソースは、ＤＮＡ配列ホモロジデータ、ゲノムオントロジーグループ名、タンパク質構造類似性等の科学文献のデータコレクション（たとえば、ジャーナル記事、教科書、特許文書、Ｗｅｂサイトデータ）からの非構造化データを含む。

システム機能の概要
たとえばMEDLINEなどのさまざまなソースを用いる一般的なシステムロジックのフローチャートを図５に示す。オンライン科学テキスト５０、MEDLINE要約５１又は電子データベース５２などの選択されたソースは、ブロック５３中で走査されたテキストである。この方法は、完全に自動化されていてもよいし、又は、対話形式で実行してもよい。複数のテキストコレクションをデータソースとして用いると、このデータは１つのマシン上又はクライアント／サーバアーキテクチャ中にストアすることが可能である。コレクションに特異的なメタオブジェクトは各々のコレクションと関連している。

情報は、ブロック５３中で推定抽出によって選択ソースから抽出されて、ＯＲＤ５４中に供給される。データは、多様な形態で存在するデータソース、たとえば、ASCII、Doc、PDF、データベースレコード、フラットファイルなどのファイルディレクトリから抽出される。１つの態様では、本発明のシステムは、複数の異なったファイルタイプでストアされているデータを１つの形態に変換するプログラムコードを提供するが、たとえば、PDF、TIFF、Word、及びテキストファイルなどとしてストアされている非構造化データがXLMに変換される。

ＯＲＤ５４の後は発見エンジン５５となっており、ここで関係ネットワークの分岐探索とトリミングが実行される。発見エンジン５５は、歴史的発見を、間接的接続５７及び／又は今日の間接的接続５６のランク付けされたリストを介して生成する。

図６は、本発明のシステムのキーとなるコンポーネントを解説するフローチャートである。一般に、本発明によるシステムは、ブロック６０でデータベースオブジェクトをコンパイルし、次に、ブロック６１でこのデータベースオブジェクトを純化し、ブロック６２でオブジェクトの同時発生がないかソースを走査し、ブロック６３で１つ又はそれ以上の関係データベースを作成する。この関係データベース６３は、ブロック６７で共有関係を識別し、ブロック６４で暗示的関係を識別し及び／又はブロック６５で共有された暗示的関係を識別することが可能である。

１つの態様では、本発明のシステムは図７に示すようにデータベースオブジェクトをコンパイルする。フィールドは、一緒のグループとすることが可能な所定の領域であり、また、類似の情報グループを収容するデータベースは、必要に応じて、合成されたものとは独立して用いられる。たとえば、科学技術分野で所定の３つのフィールドは：遺伝子７１（ここで、データベースはローカスリンク（locuslink）７１ａ、ＧＤＢ７１ｂ及びＨＧＮＣ７１ｃを含む）；化合物、小分子及び薬物７２（ここで、データベースはＣｈｅｍＩＤ７２ａ、ＭｅＳＨ７２ｂ及びＦＤＡ７２ｃを含む）；並びに疾病及び臨床的表現型７３（ここで、データベースはＭｅＳＨ７３ａとＯＭＩＭ７３ｂである）である。次に、遺伝子７１のデータベースと、化合物と、小分子と、薬物７２と、疾病及び臨床的表現型７３とのグループがブロック７４で前処理されてデータベースエントリとしてフォーマッティングされる。次に、エントリはブロック７５で分解されて合成され、ブロック７６でエラーがないかチェックされる。望まれない又は「情報価値のない」あらゆるエントリ（自動的に又はユーザによってそのように定義された）は、ブロック７７で削除される。

別の態様では、本発明のシステムのユーザは、データソースからのテキストの表示を（たとえば、オンラインで又はＯＣＲモジュールによって本発明のシステムに提供されたものを）閲覧して、テキストを選択して強調して、新しい語をオブジェクトリストに追加することが可能である。テキストが表示されるグラフィカルユーザインタフェースは、閲覧中のテキスト中のどの語が現在オブジェクトリスト中にあるかを示す表示も含むのが好ましい。このようにして、テキストを迅速に走査して、現在使用されていない重要で新しいオブジェクトを選択する。

この処理された情報は、他のデータソースからの情報と組み合わせる及び／又は前のコンパイルと関係決定ステップから得ることが可能である。ある実施形態では、この情報を、クラスタ化、分類、予測的モデリングなどの従来のデータマイニング技法を用いてさらに評価することが可能である。

図８に示すようにデータベースオブジェクトを純化するために、１つの態様では、本発明のシステムは最初に、ブロック８１で曖昧な頭字語に（たとえば、以下に考察されるように頭字語分解プログラムを用いて）フラグ付けする。一般的な単語は、ブロック８２で、一般に、別の単語データベース又はリソース、たとえば、Merriam-Websterデータベース（Ｍ−Ｗ）を用いてフラグ付けする。くわえて、ブロック８３で、大文字化パターンが重要とされるエントリが、（これまた、自動化されたシステム、ツール又は、Ｍ−Ｗなどのリソースを用いて）フラグ付けされる。別の純化方法としては、ブロック８４で、たとえば、頭字語分解プログラムを用いて語彙的異形を発見して、ブロック８５で、たとえば、頭字語分解プログラムを用いてさらなる同義語を発見する方法である。

次に、本発明のシステムは、冗長度を軽減し、図９に示すような関係を作成するために、同時発生しているオブジェクトがないかソースを走査する。たとえば、ブロック９０で、テキストのブロックを、データベース、たとえばソースフラットライン（saurce flat-line）から入力する。次に、本発明のシステムは、ブロック９１でこのソースから情報を抽出する。たとえば、ＭＥＤＬＩＮＥをソースとして用いて、本発明のシステムは、レコード毎にタイトル、要約、日付およびＰＭＩＤのフィールドを含む情報を抽出することが可能である。本発明のシステムは、ブロック９２で、このソースからのレコードをプリメソッディング（pre-method）してフォーマッティングし、ブロック９３でこのレコードを解析して文とし、ブロック９４で各文を解析して単語とし、ブロック９５で単語を１つ又はそれ以上のアレイにする。くわえて、本発明のシステムは、オブジェクトデータベースを探索して、句（ここで、１〜５の語を合わせて、いずれかの配列からの句を形成する）と整合しているか調べる。次に、ブロック９７での判定で、整合しているかどうか判断する。整合していれば、いずれかのフラグ付けされた頭字語をブロック９８で分解して、ブロック９９で、大文字化（ＣＡＰＳ）を、フラグ付けされていればチェックする。整合していなければ、ブロック９４に戻って、新しい語の集合を文から解析して、上記のプロセスを続行する。ブロック１００で判定された整合に基づいた新しい関係が（フラグが全てチェックされて分解された後で）、ブロック１０２でデータベースに対して新しい関係として追加される。しかしながら、新しい関係が発見されなかった場合、同時観察カウンタをブロック１０１でインクレメントする。

図１０に、本発明のシステムが、ブロック１０５でどのようにして、各オブジェクトに固有の数値ＩＤ（長い整数）を割り当てることによって１つ又はそれ以上の関係を作成して、ブロック１０６で最も低いＩＤで最初に非方向性関係をストアするかを示す。

図１１に示すように、ブロック１１０で、本発明のシステムは、ユーザが１つ又はそれ以上のオブジェクトリストを分析目的で入力した後で共有関係を識別する。この入力された１つ又はそれ以上のリストから、各オブジェクトに対する全ての関係をブロック１１２で１つのリストにコンパイルして、ブロック１１４で、関連するオブジェクトを頻度でカウントして、期待値を計算する。この期待値は、オブジェクトの同時発生確率がオブジェクト間の重要な（non-trivial）関係に等しくなる確率に基づいている。

次に、本発明のシステムは、図１２に示すように入力された情報からの暗示的関係を識別する。以前と同様に、ブロック１２０でユーザ又は自動化されたシステムによって分析目的で入力されたオブジェクトはすべて、オブジェクト毎の直接的関係であって、ブロック１２２で識別される。直接的に関係するオブジェクトに関係する全てのオブジェクトは、ブロック１２４で暗示的な関係として識別され、以下に詳述するようにブロック１２６で、暗示的に関連するオブジェクトに至る経路は全て、識別され、カウントされ、スコア化される。

共有される暗示的関係は、図１３に示すように識別される。ここで、ユーザ又は自動化システムは、ブロック１３０で、１つ又はそれ以上のオブジェクトリストを分析目的で入力する。各オブジェクトに対する全ての直接的関係をブロック１３２で識別して、その後で、ブロック１３４で、可能な全接続のｘ％未満又は観察／期待比のｙ％未満の共有オブジェクトを実行する。暗示的に関係しているオブジェクトがブロック１３６で共有関係毎に識別され、暗示的に関係しているオブジェクトは、ブロック１３８で、直接観察／期待比に暗示的オブジェクトに至る固有経路の数を乗算したものをスコアとする。

図１４は、動作中の本発明のシステムを示すフローチャートである。データソース、たとえば、要約がブロック１４０でデータベースに入力されて、ブロック１４１でメタオブジェクトがないかどうか走査される。ブロック１４１でメタオブジェクトが発見されない場合、データソース１４０をブロック１４２で、関係がないかどうか走査するが、データソース１４０中でメタオブジェクトが発見されたら、そのメタオブジェクトはオブジェクトテーブル１４６にストアされる。次に、１４６にストされたオブジェクトが走査して、関係がないかどうか１４２で調べる。ブロック１４１でメタオブジェクトが発見されない場合、データソース１４０を走査して関係がないか１４２でどうか探し、関係が発見されれば、メタオブジェクトを１４４でオブジェクトがないかどうか走査し、なければ、本発明のシステムは戻って別のデータソース、例えば、要約を１４０で入力する。１４４でのオブジェクトの走査が成功であれば、判断ツリーに達して、１４５で、ナレッジエンジンがオブジェクト間の関係を決定するか判定し、関係が識別されたら、その関係を１４９でストアし、されなかったら、本発明のシステムは１４０に戻って別の要約を入力する。

本発明のシステムは、データを要約して識別された関係の表現物を表示する。グラフィカルな（たとえば、ビジュアルな）表示が一般的に用いられるが、他の意義を伴う表示（たとえば、聴覚的表示）が場合のよっては有用でありえる。

図１５が、本発明の一態様によるシステムによって識別されたスコアによるフルオキセチン（Prozac（登録商標））の上位６，０００の暗示的関係を示すグラフである。直接的強度は、直接的関連性の分量によって測定される。強度は、２つのオブジェクトが同時発生した回数と、各同時発生が重要な（non-trivial）関係を表す確率の関数である。暗示的関係をグラフではゼロとして示している。

本発明の１つの態様では、ユーザインタフェースによってユーザは、暗示的関係を表すグラフ中の領域（areas）及び／又は線（lines）のところでクリックして、本発明のシステムによって発見された暗示的関係の実際のソースを閲覧することが可能である。又は、ユーザは、暗示的関係が発見されたテーブル、さらには、オリジナルのソースデータ内の位置に対して方向付けされることを選ぶことがあり、そのため、本発明のシステムは、実際のソースの文脈中のキーワードを表示する。スコア化の効率を向上させるため、本発明のシステムは、高い直接的強度関連性を提供するソースを選別して除外して、信号対雑音比を変化させて暗示的関係のスコアを増加させるように指示されることさえある。

本発明のシステムはまた、無関連の又は負の関連性を選別して除外するために用いられる。グラフの底部でのスコアは、本発明のシステムが、関係ベクトルの強度と言う意味で、位置する関連性のリンク数を示している。アートがどれほど混雑するか、データベースのサイズがどれほどか、ソースの信頼性やインパクトはどれほどか、オブジェクトに変換されるテキストのサイズはどれほどかなどによって変動するある閾値未満になると、スコアはほとんどの場合無関連となり、したがって、ユーザの焦点は、ある強度スコアの閾値を超える暗示的関係のところに合わされる。

処理
新しいオブジェクトを本発明のシステムのデータベースに追加すると、逆指数関数１／ｎ^２（ここで、ｎ＞０）にしがって探索時間が増す。テキスト走査時間も直線的に増す。データベースのサイズとテキストの分量は双方とも、連続的に増加させることが可能である。
オブジェクトベースの分析

ほとんどのソースは、複雑な構造を持つデータと情報とを包含しており、そのフォーマットは多様であり、良好に定義された基準はない。他方、ほとんどのソースは、用語の認識のための卓越した媒体となる。

１つの態様では、システムルーチンを書いて、多くの多様なテキストフォーマットを処理して、ＯＲＤをオブジェクトで占めるようにする。別の態様では、本発明によるシステムは、科学技術における新規な関係を識別するために多くの追加の特徴を提供する。たとえば、遺伝子エントリは、遺伝子ノーメンクラチュアの容認済み基準を収容しているＧＤＢ（ゲノムデータベース）とＨＧＮＣ（ヒトゲノムノーメンクラチュア委員会）のデータソースと、ローカスリンク（LocusLink）とから得られたものである。３つの全てのリスト中のエントリに対する１３，１０４を超えるの公式の遺伝子名に対してリストアップされている３５，５７９を超える同義語（公式の名称を含む）が作成された。遺伝性障害（及び潜在的障害）に関するＯＭＩＭエントリの数は、７，２９０を超えるエントリに対して１３，０６８を超え、たいていの臨床的形式も含めて組み込まれた。ＭｅＳＨからの７，７１３より多い副題が組み込まれて、主カテゴリ「Ｄ」であれば小分子（薬物、代謝体、薬品、エレメント）として分類された。エントリは、ＭｅＳＨ「Ｃ」カテゴリであれば、疾患／表現型として分類された。用いられたいくつかのファイルのインターネットのロケーションを表１に示す。ＭＥＤＬＩＮＥは、ＮＬＭからＸＭＬフォーマットで得られたものであり、コンピュータ上の７３ＧＢドライブのローカルで置かれており、そのコピーはアクセス可能なＷｅｂサイトに保管されている。したがって、本発明のシステムは非構造化テキストデータ（たとえば、科学雑誌からのテキストなど）と構造化データ（たとえば、配列情報；マイクロアレイ分析から得られたものなどの発現データ；薬物の効果、薬物間の相互作用に関するデータ、薬物及び薬物の組み合わせに関連する効き目及び／又は安全性に関するデータ等）双方の評価を統合することが可能である。

生物化学（たとえば、バイロテクノロジー、生物医学）の一部の例示的データソースを以下の表１にリストアップする。

表１に、ＯＲＤを構築するために用いられるソースの内の多くのものを示す。くわえて、表１は、科学技術における補足的データ（たとえば、同義語やタイプ）を提供する追加のオンラインテキストベースのソースを含んでいる。表１は主として生物学的又は化学的データベースを示しているが、他の多くの分野から得た他の多くのデータベースを上記のデータソースとして用いることが可能である。本発明のシステムは動的なものであって、データベースを新しく作成すると、それは、本発明のシステムのためのデータソースとなりえる。同様に、データソースを更新して、既存のデータベースに追加される新しいデータを取り込むことが可能である。

本発明による追加データソースは、進行中の実験から得られたデータ、たとえば、ハイスループットスクリーニングアッセイやマイクロアレイデータなどのコレクションを含む。１つの態様では、このデータソースは、生物分子アレイの発現データ、たとえば、オリゴヌクレオチドアレイ、発現配列アレイ、ｃＤＮＡアレイ、ＳＮＰアレイ、タンパク質アレイ又はペプチドアレイ、抗体アレイ、糖タンパク質アレイ、組織アレイ等を含む。このデータソースは、遺伝子名、受託番号、核酸配列、アミノ酸配列、細胞株（セルライン）番号（たとえば、ＡＴＣＣ寄託番号）、結合親和性、修飾の状態、Ｔｍ値、発現パターン、代替（alternative）アレル、マイクロアレイ上の座標、及び、たとえば、サンプルを得る基となる有機体、細胞タイプ、組織タイプ、系統、発達段階、サンプルの薬剤に対する暴露、サンプル内での細胞の表現型／形態学、サンプルがヒト等の哺乳類から得られた場合の患者情報などのアレイに接触するサンプルに関する情報などのオブジェクトを含むが、これらに限定はされない。マイクロアレイ解析から得た発現データは定性的なもの（発現対非発現）又は定量的（たとえば、発現のレベルに関連する）であったりする。このデータは、さらに、他のデータソースと相互関連又はリンクされる；たとえば、疾患に関連する多形性の配列に関するデータが、野生型の機能、遺伝子産物等との薬物の相互作用、ＭＥＤＬＩＮＥに関する情報及び／又は上記の表にリストアップされているデータソースと関連するデータにリンクされる。

同様に、他のハイスループットスクリーニングの様相はデータソースを提供できるが、たとえば、マススペクトロメトリー、細胞ベースのアッセイ、転写アッセイ、結合アッセイ、ＦＲＥＴベースのアッセイ等に基づいたシステムからの出力は本発明のシステムによって評価されるデータソースを提供することができる。

１つの態様では、オブジェクト間の新規な関係に関して本発明のシステムによる予測に基づいて実験を行い、この実験から得られたデータを、本発明のシステムによって実施される方法のための追加のデータソースとして用いる。

システムデータベースのエントリは、カテゴリー化よりはテキストマッチを目指すものであることから、更なるフォーマッティングが必要である。たとえば、「カセット、ＡＴＰ結合（cassette, ATP-Binding」等のエントリは、要約に於いては「ＡＴＰ結合カセット(ATP-Binding Cassette」と書かれるのが好しいし、同様に「色盲（Ｘリンク）シンドローム」などの括弧付けのコメントはテキスト入力とはマッチしないものである。このようなフォーマッティングの問題は後述されるように必要不可欠のものである。

ナレッジ発見のキーワードベースのアプローチは現在では不可能である（ＭＥＤＥＬＩＮＥ内だけでも４２０万を超える固有の語があり、１つ単語及び１つのキーワードだけでも、しばしば操作上の制限を受ける）ので、別のアプローチが用いられた。このアプローチは、計算力の大半を「the」及び「what」などの無関連用語に限定して用いている。本発明によるシステムは先に定義されたオブジェクトに重点を置いて分析するもので、これによって情報価値の高い関係が得られるようにしている。他の自然言語システムは一般的に、一連のルールに従う全ての語を抽出するが、現実の言語は非常に複雑なので多くのシステムが破綻している。システムに自由にオブジェクトを選択させるのではなく一連のオブジェクトを事前に定義することによって、本明細書で考察されたオブジェクトリストのデータベースからコンパイルされた、又は自動抽出システムから手動で識別された若しくはヒトによって検証された適切なオブジェクトのみが、重要でない語（unimportant words）をリンクすることによって擬陽性（false positive）の関係を最小限にするのが一般的である。「the」などの語が見過ごされれば、全ての語が、その時点で関連性の無い一連の関係に於けるその他の全ての語にリンクすることになる。重要なことは、本発明のシステムにとっては、できる限り多くのオブジェクトを類似化することが必要なのではなく、むしろ、非常に広範でポピュラーな用途／興味の領域や分野を表示する一連のオブジェクトを有することが必要である。

同時発生用語を用いて潜在的な関係を徹底的に識別する
本発明によるシステムは、２つのオブジェクト間に、それらが同じデータレコード（たとえば、要約など）内に同時発生することが観察された場合、潜在的な関係が存在すると前提することによってできる限り多くの関係を識別するように設計されている。同時発生は、データレコード内とテキストの拡大物（text extension）（たとえば、文）内の双方で計算されるが、同じテキスト拡大物中で言及されている２つのオブジェクトは重要（non-trivial）な関係を表す確率が高いことを前提としている。同時発生するオブジェクトをクラスタ化してその関連する頻度を識別するという方法は、同時発生マトリックスを作成することによって、若しくは、句がどのようにして他の句とリンクしているかを示すデンドログラムを作成することによって、又は、当該技術分野で公知のその他の標準の統計的アルゴリズムを用いることによって実行される。

この方法を試験するため、２５のＭＥＤＬＩＮＥレコード（タイトルと要約）から成るランダム集合が選ばれて、各要約内で同時発生するオブジェクトが手動で評価され、これらのオブジェクトが重要（non-trivial）な関係を共有していたかどうかが明らかにされた。同じ文内で同時に言及されている２つのオブジェクトの方が重要（non-trivial）な様式で互いに関連している確率（８３％）が、同じ要約内で同時言及されているオブジェクトの確率（５８％）より高いと判定された。しかしながら、文中で同時に言及される場合は、擬陰性（false nagative）である割合が比較的高く、要約内の重要（non-trivial）な関係の４３％を見過ごしている。

２つのタイプの擬陽性（ＦＰ）エラー、すなわち、ランダムエラーとシステマティックエラーが観察されている。ランダムＦＰエラーは、たとえば、要約内のオブジェクトが、たとえば、アッセイ固有のものであって研究対象（たとえば、ナトリウム、ＥＤＴＡ（sodium, EDTA））ではない場合、なんら関係が存在しなかった場合（たとえば、「我々はＡとＢ間になんら関係は発見しなかった（We find no relationship between A and B」）、又は、推測的な情報が含まれていた（たとえば、「我々は・・・・に可能な役割を仮定した（We hypothesize a possible role in …」）場合に発生する。しかしながら、ランダムＦＰエラーは、予測されるものであり；２つのオブジェクト間により多くの同時言及が観察されるほど、このエラーのランダムソースの重要度は減少するが、それは、関係の数が不正確であっても、関係の存在は真実であるからである。

しかしながら、システマティックＦＰエラーはより問題であって；これは観察された同時言及間の関係を最少１％から最大１００％まで無効化した。システマティックエラーを発生させる主な原因は、同音異義語のような用語と多義語のような用語である。同音異義語とは、スペルは同じであるが意味が異なる語であり、多義語のような用語とは必ずしも単語ではなく、頭字語や略語をその範囲に含み得る整合する用語（matching term）のことである。多義語は、スペルが同じであるが、複数の定義を持つ頭字語であり、多義語のような用語は、それ自体が必ずしも頭字語である必要はないが、同じグループ（たとえば遺伝子）内の互いに異なったオブジェクトを言及するために用いられる記号（たとえばｐ４０）をその範囲に含む。

頭字語の分解
正確さと想起性とを増すのに重要である。頭字語、略語及び他の形態の語又は句を短縮すること（以降「頭字語」と総称する）は、コミュニケーションの効率に於いては助けとなるが、頭字語が複数の定義を持つ（たとえば多義語がそうである）場合にはテキストマイニングソフトウエアを混乱させる。１つのデータベースＭＥＤＬＩＮＥに発見される一部の曖昧な頭字語の例を表２に示す。ある頭字語が文献内にさまざまな意味を有する場合、データソース内での各定義の発生頻度は固有頭字語の定義パーセンテージ（Definition Percentage of unique Acronym、ＤＰＡ）のスコアから推定することが可能である。ＤＰＡは、１つの特定の定義が固有の頭字語に対して用いられている回数（＃）をその頭字語に対して用いられている全定義数（＃）で除算することによって計算される。

１つの態様では、頭字語の曖昧さを取り除くために、本発明のシステムは頭字語分解プログラムコードを導入する。このコードは、頭字語定義の対が開発されたことを識別する自動式で、正確で拡張可能な（scalable）方法を提供するのが好ましい。たとえば、頭字語分解ジェネラルヒューリスティック（Acronym Resolving General Heuristic「ＡＲＧＨ」）ソフトウエア内に包含されているようなプログラムを用いる（「包括的頭字語定義辞書の自動的構築に向けての、医学分野における情報の２０００の方法」というWren、J及びGarner、Hらによるテキスト内頭字語定義パターンの識別のヒューリスティック。参照部分と関連部分をここに参照として取り込む。）。

頭字語分解プログラムによって、本発明によるシステムは、テキスト内の著者によって定義された（author-defined）頭字語を分解することが可能である。１つの態様では、本発明のシステムによって実行可能なこの頭字語分解プログラムは、複数の頭字語定義を含むことが可能である。この頭字語分解プログラムは、頭字語と定義が交番する相対的頻度と、固有の頭字語／定義対のスペリング、フレージング及びハイフォネーションの異形を識別できるものが好ましい。ヒューリスティックの集合は、頭字語／定義対の境界を正確に突き止めて識別し、また、ソースレコードのサブ集合の正確さと想起性を純化する。このようなサブ集合（トレーニングセットと呼ばれる）は、次第にそのサイズを増大させ、次いで、ヒューリスティックによって再評価されて、拡張性（scalability）が保証されるようになる。本発明のシステムの頭字語分解コンポーネントは、特定のソースに対して調整されて、正確さを向上させる。

１つの態様では、本発明のシステムの頭字語分解プログラムはオンライン頭字語と略語定義データベースとは異なって、手動によるコンパイルとキュレーション(curation)とを必要としない。本発明のシステムの頭字語分解コンポーネントは範囲が狭いというのではなく、他のもののようにあまりに多くの異なったソースを含むのではなく、通常、特定のソース（たとえば、生物医学ソース）に合わせてあるのが好ましい。加えて、本発明のシステムは、どの頭字語を分解する必要があるかを「判断」しなければならないため、本発明による頭字語分解システムは、テキスト内で未だ関係が確立されていない頭字語が発生するたびに、主要な意味が９０％未満のすでに認識済みの定義から成っているＯＲＤ中の頭字語を更に分解するためにフラグ付けする。

他の自動式方法／プログラムは、頭字語がどのようなものであるべきかを事前定義し、次に、その認識のルールを記述する。たとえば、他のプログラムでは、頭字語はアルファベット文字で始まり、指定された文字長（たとえば、３〜６文字長など）であることを必要とする。このようなプログラムは一般的に事前定義されたルールの集合の精度と想起性とを測定する。本発明によるシステムは、できるだけ多くの頭字語を識別する頭字語分解プログラムと、擬陽性の量を軽減するヒューリスティックを実行するのが好ましい。本発明による頭字語分解プログラムを数回使用した後、ＦＰとＦＮのレートを追跡すると、そのシステムはさらに純化され、また、１千２百万を超える要約を持つＭＤＥＬＩＮＥのような極めて大きいソースで用いることが可能である。

本発明のシステムによって実行される頭字語分解プログラムは、頭字語／定義対のパターンを事前定義しない。１つの態様では、このプログラムは最初に、テキスト全体を右から左に移動して、頭字語内で発見された連続する文字を頭字語／定義リスト中の定義内の文字と整合させ、次に、ヒューリスティック集合を用いて、有効なパターンマッチと無効であるパターンマッチとを区別する。また、好ましくは、本発明の頭字語分解プログラムは、定義と頭字語の長さに対して非常に緩やかな長さ制限（たとえば、最大で約２５５文字）を課し、マッチングするパターンでスキップされる「ノイズ・ワード」のリストを用いる代わりに、プログラムは単に、限られた数のマッチしない中間言語を許容する（たとえば、「ラット」は、それが「スプレイグ・ドーリーラット（Sprague-Dawley rats:ＳＤ）」として用いられる場合はスキップされる）。

表３に、ＭＥＤＬＩＮＥなどの科学技術のソース内で頭字語がどのようにして構築されるかを示す例を解説する。ここで、１００の要約から成るサンプルを検査し、いくつかの頭字語と略語が識別された。これらは、用語（Term）として識別されたものである。次に、これらの用語は、１つ又は２つの主要なタイプ、すなわち、頭字語のようなカテゴリ（タイプＩ）と略語のようなカテゴリ（タイプＩＩ）に分類された。各タイプはまた、サブ集合として定義されるいくつかの異形を含んでいた。たとえば、タイプＩＩａは、不連続で定義レターを用いることから略語構築の標準的方法から逸脱している。表３はまた、各タイプの相対的な頻度を示している。

１つの態様では、本発明の頭字語分解プログラムは、対応する定義から、頭字語を語や句のなんらかの略短縮形と定義していて、本来純粋な記号としては定義していない。カリウム（Ｋ）と銀（Ａｇ）とは、純粋な記号表示の例であるが、語を表すために用いられている記号はその単語自体に由来するものではない。代表的な語と参照記号との組み合わせから生成された頭字語は有効な頭字語としてはカウントされない（たとえば、トリヨードチロニン（triiodothyronine［Ｔ３］）。定義と頭字語もまた、その文字長は２５５文字を超えない。くわえて、システマティックな精度のレート（真陽性／［真陽性＋擬陽性］）、システマティックな想起性（真陽性／［真陽性＋擬陽性］）及び識別イベント毎の（per-identification-event）精度と想起性のレートが決定される。

「システマティックレート」とは、データベースのエントリのことであり、ソース（以降「文献」）中の集合から得られたコンパイルされた頭字語／定義パターンがどれほど正確で包含的であるかを反映している。識別イベント毎の（per-identification-event）レートとは、テキスト内の頭字語／定義パターンのインスタンスを認識するシステムの能力のことである。この両者は異なるが、それは、システムが、テキスト処理において用語を自動的に認識するのに適切であるが、より多くの文献を処理するに連れてエラーがデータベース中に累積するため自動的な構築には不十分である、比較的小規模な文献集合に於ける識別イベント毎の正確度が９８％というめざましいレートを有することができるからである。

擬陽性と考えられるエントリは、頭字語の定義とは無関係な語を含むものである。たとえば、頭字語「ＩＬ−２」に対する「インターロイキン−２」の定義は、擬陽性エラーと考えられる。このエントリを除外したヒューリスティックを付加し、それがＩＬ−２の定義として「インターロイキン−２（interleukin-2）」を含む唯一のものであるとした場合、この除外によってシステマティックな想起性が影響される。しかしながら、ヒューリスティックがこのエントリを除外するが、ＩＬ−２に対する有効な定義を含む他のエントリは除外しなかった場合、単に識別イベント毎の想起性が低くなるだけである。ＩＬ−２の「インターロイキン−２遺伝子（interleukin-2 gene）」などの定義はエラーとはみなされることはない、それは、たとえ「遺伝子」という語が頭字語内の如何なる記号でも表せないとしても、それは、ＩＬ−２が何であるかという説明と直接的に関与しており、また、定義的な異形であると考えられるからである。最終的に、ソフトウエア識別エラーに起因するエントリだけがＦＰとしてカウントされる。たとえば、ＩＬ−２に対する「インターロイキン−２(interleukine-2)」という定義はスペルエラーである可能性が高いが、また、有効な異形でありえる（たとえば、“armor"対“armour"）。このようなスペルの異形は、本発明によるステムでは許容される。

本発明の１つの態様による頭字語分解プログラムで用いられるヒューリスティックの集合を表４と５に要約する。表４は頭字語／定義対を突き止めるために用いられるヒューリスティックとその境界を示している。この表に示す態様に於いては、頭字語／定義パターンを識別するために、ヒューリスティックの集合が累積的にレコードのバッチ（この場合、ＭＥＤＬＩＮＥのタイトルと要約）に加算された。データセットのサイズが増すに連れて、より多くの異形が、頭字語／定義パターンが構築された様式で観察され、全体的な精度を増すために新たなヒューリスティックを追加する必要があった。追加のルールに対する擬陰性は、どのくらいの量の有効な追加エントリがデータベースから除外されるのかということで報告される。

表５に、大規模ソース、すなわち、百万を越えるデータ集合、たとえば、レコードを持つソースでのエラーレートを減少させるために開発されたヒューリスティックを示す。表４に示すような頭字語／定義パターンを識別する基本的ヒューリスティックは小規模データセットには良好に作用するが、これらのパターンを構築する際の可変性はついには、分析されるテキストの量が多くなるに連れて、システマティック精度（正確なエントリの数（＃）／エントリの合計（＃））を低下させる。表５の場合、１５３，６１６を超える数の固有の頭字語／定義パターンが、１，０００，０００のＭＥＤＬＩＮＥレコード内で認識された。これら固有の頭字語／定義パターンの内の約１３３，０３１が有効なエントリであることが分かった。

表５はまた、ＸＬＭフォーマットで国立医学図書館（ＮＬＭ）から得た全ての記録を処理した結果を示し、２００２年２月にさかのぼって合計で１２，０３７，７６３のレコード（サイズで３７．３ギガバイト）を表している。合計で６，４１８，９１９の要約から、本発明による頭字語処理モジュールは４，５６２，５６７の頭字語／定義パターンを識別し、その内の９８．８％がフォーマット定義（頭字語）として、それ以外の１．２％がフォーマット頭字語（定義）として発見された。これらのパターンから、７３７，３３０のレコードを持つデータベースが作成され、１７４，９４０の固有の頭字語／略語（以降「頭字語」）と、６３８，９７６の固有な定義とが含まれている。この固有の頭字語の内、６３，４４０（３６％）が２つ又はそれ以上の定義と関連しており、６２，９７４の定義（１０％）が２つ又はそれ以上の頭字語を関連していた。

データベースエントリ毎の全体的精度を推定するにあたって、５００のレコードから成る３つのランダムなサブ集合がランダムなレコードＩＤ番号を作成することによって選ばれた。各サブ集合で、１９、１５又は１８のＦＰエラーを識別した。したがって、全体的なシステマティック精度レートは、１エントリ当たり９６．５±０．４％である。除外された固有の頭字語／定義パターンの数を観察すると、システマティック想起性レートは９２．８％であると推定された。この推定値の正確度を検証するために、１００個のランダムな要約（上記の集合とは異なる）から成る更なる３つの集合を、非主題的なキーワード「決定された（determined)」、「未満（below）」及び「集合（set）」を用いてＰｕｂＭｅｄを探索することによって収集した。集合毎にタイトル及び要約中の頭字語の数は、何れの様式で定義されているものであっても手動で測定され、対応する頭字語／定義対の存在も同様に測定された。識別された／既存の頭字語／定義対の比は、各集合毎にそれぞれ１３９／１５２（９１．４％）、１０１／１０５（９６．１％）及び８６／９４（９１．５％）であり、全体的なレートは９３．０±２．７％であった。

ＭＥＤＬＩＮＥ内で発見された頭字語／定義パターン毎に頻度統計がコンパイルされ、この統計を、オンラインインタフェースで用いて、頭字語又は定義をその相対的な発生量によってソーティングした。頻度統計を用いることによって、ユーザは、より一般的又はさらなる情報の非存在下で示されることが多い頭字語／定義を迅速に識別することが可能である。頻度ランキングはまた、好ましい又は「標準的」なスペル、ハイフォネーション又は句切り法の異形を識別するために用いられる。各頭字語又は定義の最も早期の発生の日付もまた、（履歴上の観点、数量及び異形の増加に関する分析用の）データベース中に含まれていた。

図１６Ａ及び１６Ｂは、オブジェクト及び関係の分布を示す。データベース中のオブジェクトの比較的小さなフラクションのみが直接的に関係しており、一方、関係の大部分は暗示的である（図１６Ａ）。実際、ほとんどのオブジェクトは、直接的に又は暗示的にデータベース中の他のオブジェクトと関係している。内在するこれらの特質は、暗示的な関連性をスコア化し、その潜在的な関与性をランク付けする方法の必要性を強調している。オリジナルのテキスト内に定義が不在であっても、頭字語は意図する定義と明確な関連性を持つということはあまりない。この関連性の故に、所与の頭字語が１つの特定的な定義に、又は逆に、定義が頭字語にどれ程関連している可能性があるかを知ることが重要である。この関連性を形成するために、固有の頭字語の定義パーセンテージ（ＤＰＡ）と固有の定義の頭字語パーセンテージ（ＡＰＤ）とが、明確な定義の非存在下で、特定の頭字語が特定の定義と関連している尤度を推定することによって計算される。

表６に、多くの代替の定義を持つ頭字語の例を、データベース中で２つの最もポピュラーな定義及びそれらのＤＰＡスコアを挙げて示す。ＣＴなどの一部の頭字語は１つの定義（又はその異形）と主に関連しているが、その一方では、ＰＡなどの他の頭字語はそうではない。その曖昧さが、表６に示されるように、定義から頭字語を生じる。ＭＥＤＬＩＮＥ内では、多くの頭字語が多くのさまざまな定義を有している（多義語）。表６は、１０個のもっとも曖昧な頭字語を含んでいるが、その多くが、それを表すレターの組み合わせ数が最少である。ＤＰＡのスコアが、定義非存在下で頭字語が（検査されたレコードの内で）定義と具体的に関連している尤度の定量的な推定値を与える。

表６に、ソース内の固有の定義に対して複数の頭字語が存在しえることを示す。定義と固有に関連する頭字語に於いて異なった種類の曖昧さを加えることによって、頭字語はさまざまな方法で定義から形成可能である。表７に、最大数の頭字語及び／又は略語を持つ１０個の定義をそのＡＰＤスコアと共に示し、固有の定義を表すのに特定の頭字語をどのくらい頻繁に用いるかの推定値を提供する。ＡＰＤスコアは、他の定義を表す頭字語の曖昧さを考慮していないことに注意されたい。たとえば、ＢＧはベータグルクロニダーゼとしては４０回、血糖としては１９９回定義された。

ＤＰＡスコア。ＤＰＡスコアは、頭字語が（定義の非存在下で）どれほど曖昧であるかを推定するのに有用である。しかしながら、ＤＰＡスコアは、定義が多様なスペル、ハイフォネーションパターン又は句切り法を有する場合には限られたものとなる。たとえば、“ＪＮＫ"は１つのデータベースの中に７７個の異なった定義があるが、その全てが「ｃ−ＪｕｎＮ末端キナーゼ」という定義の異形である。この頭字語の場合、ほとんどの通常の定義に対してＤＰＡスコアが４１．６％ということは、ＪＮＫは代替の定義を、たとえ持っていなくても、有するという印象を与える。この問題に対する部分的解決法として、「ステミングされた（stemmed）」バージョンの頭字語分解データベースが作成された。これによって、複数形を表す語尾、スペース、句読点が除かれた。ステミングによって、固有の定義の数を５４０，８２１（オリジナルのサイズの８５％）に減少させたが、二番目に一般的な定義が「ｃ−ＪｕｎＮＨ２末端キナーゼ」であるＪＮＫなどの一部のエントリの場合には、固有の定義の数を減少させなかった。次に、定義をアライメントし、類似性スコアを比較するルーチンが開発されたが、これは、一般的に、有用であることが分かった（表８を参照）。しかしながら、このルーチンは、些細な変動が定義の意味にとって決定的である（表９を参照）条件を区別できなかった。それでも、このルーチンは概念的にはその意味論的変形体から得られる同一の定義とマッチする。このルーチンによって、用語がその長さの所与のパーセンテージに渡って同一であっても、テキストの１つの隣接するブロック中に相違が存在するか判定することが可能である。したがって、どの用語の意味が同じであるか推定することが可能となる。

テキストの要件と情報価値のない語の選別・除去
テキストを直接比較する場合、テキスト語の大文字化パターンは重要である。たとえば、科学技術データベースでは、全ての遺伝子名が大文字化されるわけではない（たとえば、alpha−２−microglobulin）が、そのテキスト語が文の始まりにある場合は、強制的に大文字にしなければならない。更に、大文字化パターンのなかには、データベースで与えられるオブジェクトとテキスト中のオブジェクトで一貫性がないものがある。それ故、本発明によるシステムの１つの態様に於いては、全ての語彙の比較を全て小文字で行う。

図１０に示すのは、一般的な語とマッチする５つの遺伝子名と、ＰｕｂＭｅｄクエリーからそのエントリがほとんど返された遺伝子である。この５つの遺伝子の語は一般用語と同じスペルを共有する。テキストを走査している間、このタイプのエラーは大文字化パターンをチェックすることによって補正される。

ある語内の大文字化パターンが問題であるかどうかを判定するため、メリアム・ウエブスター（ＭＷ）の辞書をプロジェクト・グーテンベルグから取り込んだ。どのようなテキスト語ソース（たとえば、雑誌Cosmopolitan）でも使えるが、電子形態で利用可能なソースは有用である。ＭＷ辞書からのエントリとマッチするＯＲＤ中の語はフラグ付けされ、これで、その大文字化パターンは、テキスト中で識別されると、ＯＲＤ中のそれに照らし合わせてチェックされる。それでも本発明の方法は、冗長性／不規則性のインスタンスをまだ少しは形成する(表１１)。一般に、本方法は、「一般の」語（ＭＷ辞書によってそのように定義されている）と同一である用語の数は表１２に示すようにソースによって変動することを示している。

ＭＷ辞書内で発見された１５０，９２２の語のすべてが、あるデータベース中に取り込まれて、表１２で用いられたソース中の単一語エントリの各々と比較された。この比較を実行することによって、有効と考えられるかどうかをチェックする大文字化を必要とするエントリと、大文字化とは無関係に一般語と混同される確率が高いエントリとを、発見することが可能である。

用語の不一致と識別
前に説明したように、多くの用語が、ソース内で及びソース間でさまざまなスペルを有している。更に、他の用語の頭字語や略語としても認識／使用されている、公式の略語や記号を割り当てられている用語もある。たとえば、ヒト遺伝子ノーメンクラチュア委員会（ＨＧＮＣ）は、公式の名称を全ての遺伝子に割り当てて、これで、記号の重複を避けるようにしているが、それでも、「記号」の多くが１つ又は複数のレコード中に同義語を有しているか、又は、データベースで使用／記入されている他の一般的な略語、記号、及び頭字語と同義である（表１３を参照）。

また、記号（たとえば、略語、頭字語、公式名称）が時間が経つに連れて変化又は進化するのは一般的であるが、このような進化する割には、古い記録は「正しく」更新されることはまれである。これは、用語を正しく認識する際に問題となりかねない。表１４に示すのは、ＭＥＤＬＩＮＥ内で観察される特定の「記号」が特定の定義と関連する回数である。ＴＮＦＲ２などの頭字語の場合、ネスティングされた頭字語（たとえば、ＴＮＦ）を、比較してその二つの定義は等しいかどうか判定する前に、その全ての定義に照らし合わせることによって、部分的には重複に対処できる。「ＴＮＦレセプタータイプ２」という定義の場合のように２つの用語がそれでも等しくなければ、完全な解決ではないが、すでに考察したように異なった定義を「アライメントする（align）」方法がある。

ナレッジのソースとしてＭＥＤＬＩＮＥを用いる分析
１つの例では、本発明によるシステムを用いて、ＭＥＤＬＩＮＥから得た１２，０３７，７６３のテキストレコード（以降「ソース」という、レコードは１９６７年〜２００２年１月の日付のものである）を処理して、データベース中のオブジェクト間の３，４８２，２０４の固有の関係からなるネットワークを作成した。このデータベース中のオブジェクトの約２／３が正確に文字通りに整合し、このデータベース内で３３，５３９（同義語を含めれば合計で８５，２３４の用語）の固有オブジェクトの内の２２，４８２に対して少なくとも１つの関係を識別した。

オブジェクト識別の基礎としてのエントリ
１つの態様では、本発明のシステムの想起性レートが、ＭＥＤＬＩＮＥから選抜されたレコードの集合（すなわち、総説）から推定された。少なくとも２つのＭＥＤＬＩＮＥレコード（総説）が過去３年以内のオブジェクトに関するものである本発明のシステムの全オブジェクトデータベースから、それぞれ、各オブジェクトタイプの１つを代表する４つのオブジェクトがランダムに選ばれた。次に、２〜３つの総説レコードの集合が選択され、そこで言及される、オリジナルのクエリーオブジェクトに重要（non-trivial）な関係を有するその他の全てのオブジェクトのリストがコンパイルされた。中央データベース中のそれらと同じタイプのオブジェクトのみが、カウントされた（たとえば、遺伝子、疾病、表現型及び小分子）。ＣＴＬＡ−４（遺伝子）、虚弱Ｘシンドローム（疾病）、悪液質（カヘキシー）（臨床表現型）及びダイノルフィン（小分子）の総説レコードが選択された。次に、各レコード集合からのリストを、ＭＥＤＬＩＮＥの全てを処理した後で本発明のシステムによって識別された関係と比較した。

表１５に示すように、全システムデータベース内に含まれるオブジェクトは、上記の選択されたレコード内で発見されたそのタイプのオブジェクトの合計の７８％（１４１／１８１）という推定値を表している。ここで、ＭＥＤＬＩＮＥレコード内の関係は、選択されたレコード中のオブジェクト間の関連性を有する関係と比較される。文献中に言及されているがデータベース中には発見されない４０個のオブジェクトの内の２個は疾病と表現型、７個が遺伝子、２２個が小分子であった。２個の疾病の名称（グレーブス眼症と回帰性軽減脳脊髄炎）及び９個の表現型はＯＭＩＭに言及されていなかった。表現型の内の３つは、ＯＭＩＭとＭＥＤＬＩＮＥ間の意味論的相違（すなわち、"rocking"対"body-rocking"、"greater interocular distance"対"increased interocular distacnce"及び"fetal akinesia"対"akinesia"）の結果であることが分かった。小分子というカテゴリの場合、ＭＥＤＬＩＮＥ中に言及されている多くの化学薬品と薬物（たとえば、DAMGO、DADLE、イソプレナリン）がそのＭｅＳＨツリーデータベース中に発見されなかったことは興味深いことである。

さらに分析すると、中央クエリーオブジェクトの内の１つに関連しているはずのＭＥＤＬＩＮＥレコード中で引用されている１４１個のデータベースオブジェクトの内の１７個が、クエリーオブジェクトに関連しているＭＥＤＬＩＮＥのタイトルと要約のどれにも言及されていなかったことが明らかになった。この内、９つが、スペル／句切り法の相違のため、１つが曖昧な頭字語としてフラグ付けされておりレコード（ＰＫＩ）中に定義されていなかったため、１つが総説レコードがＭＥＤＬＩＮＥ要約に用いられていない名称（ＮＦＡＴ）を用いていたために関連づけられていなかった。残る６つの無関係のオブジェクトが、総説レコードのタイトル／要約中に言及されていない関係を表していた。ＭＥＤＬＩＮＥ（すなわち、タイトルと要約）に言及されている１３８の関連性を有する関係から、本発明の１態様によるシステムはその内の１２７を識別し、テキスト入力（textual）に於いてデータベースオブジェクトの理論的な発生を識別するという点で９２％という想起性レートを有することを証明した。

ＭＥＤＬＩＮＥ内のオブジェクトタイプ間の価値のある関係を識別するという点で、本発明のシステムは、関連性を有する関係であると考えられるもの推定値を７８％（１４１／１８１）と認識し、（ドメイン内の関連性を有する関係を識別する）想起性レートの推定値は７０％（１２７／１８１）であった。

ＦＮ（すなわち、テキスト内のオブジェクトの識別の失敗）は一般的に、システマティクエラーであることが分かった（たとえば、ＭｅＳＨエントリ５，８，１１，１４，１７−Eicosapentaenoic Acid はほとんど常に、ＭＥＤＬＩＮＥでは、eicosapentaenoic acid の形で扱われていう様な）。失敗のレートは変動するが、たとえば、ＪＮＫは８１の異なった様式でスペリングされていたが、それには、「c-Jun末端キナーゼ」（６０５回）、「c-JunＮＨ２末端キナーゼ」（１５４回）、「c-Junアミノ末端キナーゼ」（６２回）が含まれていた。

スコア化
スコア化のメカニズムは、ネットワーク上の関係の統計的特性に基づいて開発されてきた。図示するように、オブジェクト毎に識別された関係の数の前に、分布が指数関数的に減少し（図１６Ａ）、ソース内のオブジェクト用語の分布が非常に不均衡であることを示している。ＭＥＤＬＩＮＥソースを例として用いると、ナトリウムは、最もふんだんに言及されるオブジェクトであることが分かった。それは、８，８６８の他のオブジェクト（識別された全てのオブジェクトの−４０％）を持つ同じ要約中に少なくとも一回は発見された。これを関係のネットワークとして用いて、各オブジェクトに直接接続する数、対、完全に間接的に（暗示的な）接続するの数を描出することが可能である(図１６Ｂ)。この描出は、直接的関係の数が増すに連れて、暗示的関係の数が、ネットワーク中のノードの合計である理論的最大値に急速に近づくことを示している。比較的少ない数の直接的関係を持つオブジェクトでさえ、ネットワーク中で圧倒的多数のオブジェクトに暗示的に関連づけられている。この高い暗示的関連性は、一つには、一部のオブジェクトがナトリウムのような極端にふんだんな用語と関連していることによるが、それはまた、暗示的関係が事実、如何に些細（trivial）であるかを示している。

したがって、潜在的な値によって新規な関係を識別する際の基本的な課題は、関与性と各暗示的関係に関与性を割り当てることにある。さらには、本発明のシステムは、ネットワーク及び接続プロパティの状況に於いて（例外性の尺度として）共有関係の関与性を確実にすることが可能でなければならない。

２つのオブジェクト間の直接的な関係の場合、強度スコアを、エラーレートと同時発生の頻度との推定値に基づいて各関係に割り当てる直接的な方法が存在する。同時発生がより頻繁に起きる用語は、有効性の高い関係を表している場合が多く、したがって、オブジェクト−関係には、観察された同時言及の数とタイプ（たとえば、要約、対、文で）とそれに対応するエラーレートとに基づいてスコアが割り当てられる。

グラフ理論に基づいて適応された用語法を用いると、オブジェクトは「ノード」、関係（同時引用又は同時発生）は「接続」みなされ、また、ノード間の「エッジ」としても知られている。暗示的に関連しているノード（Ｃ）はクエリーノード（Ａ）とはなんら直接的関係を有しないが、Ａに対して同時に接続している１つ又はそれ以上の中間ノード（Ｂ）には接続しているノードと定義される。暗示的に関連しているノードの潜在的重要度を評価するために、クエリーノードＡと暗示的ノードＣとによって共有されているｉノードの集合（Ｂｉ）は、ランダムネットワークモデルと比較される。所定のノードＡ及びＡと関連する文献は集合Ｂｉ中の全てのノードと関連しているので、偶然発生しえるＢｉとＣ間の接続の数が決まる。たとえば、Ｃが１０００個のノードから成るネットワーク中の全てのノードに関連しており、また、Ａがこのネットワーク内で１００個の接続を有していて、その接続の全てがＣによって共有されていれば、これは予測されることであり、したがってごく一般的なことである。このように、ＢｉとＣ間での観察された接続の数（Ｏｂｓ）を偶然発生すると予測される接続の数（Ｅｘｐ）で除算すると、共有接続の統計的重要度を反映する値が与えられる。

この値によって、ある接続集合の潜在的関与性の推定値を決定することが可能である。質問。たとえば、疾病（Ａ）を薬品（Ｃ）にリンクする接続の集合が、真偽のほどはさておき、「ナトリウム」や「症状」などの極めて一般的なノードを包含すると、このようなタイプの接続は十分曖昧であって、ＡとＣがこれらの中間物を介して興味深い特定の関連性をどのように有するかを科学者が判断する際にほとんど役に立たない。この共有関連性が、文献中ではそれほど頻繁に言及されないが、具体的なトランスポータや遺伝子を伴う場合、（Ｃ）の具体的な作用がどのようにして（Ａ）を発生させるかを判断するのが容易になる。

ＡとＢ間の関係がエラーである確率は、この２つのオブジェクトが同時言及される回数ｎの関数として表され、関係確立のため用いられる同時言及測定基準と関連するランダムエラーレートｒは、次式で表される：

したがって、関係が有効である確率は次式で書くことが可能である：

関係の強度は、それが観察された回数と、各観察がエラーである全確率の関数としてみることが可能である。互いに異なった２つの関係測定基準、すなわち、文の同時言及度（Ｃ_Ｓ）と要約の同時言及度（Ｃ_ａ）が計算されるため、関連性のスコア（Ｓ）の全体強度はそれぞれその個々のエラーレートｒ_ｓ（１７％ＦＰ）とｒ_ａ（４２％ＦＰ）とに基づいて割り当てられ、これで、次の式となる：

暗示的な関係の場合、それが有効な関係を表す確率と相互関連する明瞭な統計的パラメータは存在しないが、暗示的関係（Ａ−Ｂ−Ｃ）が有効である確率はそれらがリンク（Ａ−Ｂ又はＢ−Ｃ）される２つのそれぞれの関係の最低の確率よりは高くはないと推測できる。したがって、記号：
（記１）

が２つのオブジェクト間に無指向性の関係が存在すると定義される場合、それは次式のように推定される：

関係から成る集合と暗示的関係から成る集合にコントロールを供給して、このようなオブジェクトのグループ化が意味あるものであるかどうかを確認することが重要である。一般的なオブジェクト「癌」で観察されている多くの共有関係などの一部の極めて暗示的な関係は意味がないと証明することは困難であるとはいえ、例外性の尺度は、各オブジェクトがネットワーク内に有する関係の合計数に基づいて、関係に対して割り当てられる。多くのオブジェクトが、図１６Ａに示すように同じ接続性でネットワーク上でランダムに接続しているものと仮定すると、何れかの２つのオブジェクトが暗示的に関係しており、どれくらいの中間関係をオブジェクトが共有すると予測されるかという可能性が計算可能である。ネットワーク中の２つのオブジェクトＡとＢが互いに関連している確率は、分布がランダムであると仮定し、各オブジェクトがそれぞれＫ_ａ個のオブジェクトとＫ_ｂ個のオブジェクトの合計に関連することが知られていることを考えると、Ｎ_ｔ個のノードの合計を含むネットワーク中では、次の公式で与えられる：

個々の関係の確率を合計すると、この式はさらに拡張されて、集合Ｂ中のｎ個のオブジェクトが別のオブジェクトＡと関連する予想回数が次の等式で推定される：

公式（５）が２つのオブジェクトが関連している確率を予測する能力は、ネットワークがランダムに接続されていると仮定して、ランダムな数の関係（１〜１０，０００）を１０，０００個のノードからなるネットワーク内の２つのオブジェクトに割り当て、これら関係の内の１つがこの２つのオブジェクトに接続されているかどうか判定することによって確認された。これを１０，０００回繰り返して実行して、関係の数の期待値と比較された。その結果、観察／期待比は集合サイズが増加するに連れて１．０に収束し、公式（５）は正確にこのタイプのネットワークにおける動作を予測していたのであった。これを、各々がネットワーク内の少なくとも１つの関係を有する２つのオブジェクトをランダムに選び出して、本発明のシステムの文献から引き出したネットワークに対して１０，０００回だけ繰り返すと、観察関係、対、期待関係の比は０．４０であると判定された。比が１未満であれば、接続性がランダムでないネットワークと矛盾しない。

公式（６）が関連のグループを定量的に評価する際に助けとなることを立証するために、このデータベースからランダムに作成されたオブジェクトの集合を、（ゲノムオントロジーデータベースから具体的に定義されたオントロジーのカテゴリの遺伝子を用いて得られた）共通のエレメントを共有するものと期待されるオブジェクトの集合と比較した。公式（６）を用いてオブジェクト間の最も頻繁に共有されている１０の関係に対する観察／期待比の平均値を計算することによって、この比は、図１７に示されるように、ランダムな集合の場合より主題的な集合又はクラスタの場合のほうが一貫して高かった。
２つのオブジェクトの関連性をその共有関係によって推定する方法

２つのオブジェクトの関連性をその共有関係によって推定する方法
１つの態様では、公式（６）を用いて、ネットワーク内で２つのオブジェクトの各々の相対的な発生量を考慮して、暗示的な関係がどれほど例外的であるかを推定する。このスコア法によって、関係又は特性が潜在的に異質であるオブジェクトの集合によって共有される確率を評価する。暗示的な関係を評価する場合、たとえばＡとＣ間で特定の関係がどれほど関連性を有しているかを判定することがしばしば必要である。本発明によるシステムによって、関連性を主観的な品質とすることが可能である。したがって、ＡとＣ間で関係がどれほど重要であるかは、分析、条件、リサーチなどによって異なる。互いに関連していることが周知である関係の定量的で統計的な特性（プロパティ）を評価することによって、暗示的関係を有していると思われる同じ特性（プロパティ）のオブジェクトと比較することが可能である。

多くの特性（プロパティ）の間で、２つのオブジェクト間の関係強度が強いほど、図１８Ａに示すようにこれらのオブジェクトはより多くの関係を共有する傾向があり、また図１８Ｂに示すようにこれらの共有関係は強力になる傾向がある。その結果、２つのオブジェクトが共有する関係が多くなり、これらの共有関係が強力になるほど、この２つのオブジェクトが関連する尤度が高くなる。２つのオブジェクトがどのように関連しているかの定量的推定値は、オーバラップする関係のパーセンテージを計算することによって誘導することが可能である。

本発明のシステムは、どれほどの比率で重要な関係が共有されているかを推定することが可能である。オブジェクトＡが別のオブジェクトＣに対して多くの中間物Ｂによって暗示的に関係している場合、ＡとＣ間の関係の確立は、これらが弱い関係より強い関係の集合を共有する方が大きくなると推測できる。共有されている関係の強度の合計を全ての関係の強度の合計で除算することによって、どれほどの比率で重要な関係が共有されているかを推定される。曲線下面積を関係の強度合計の積分値として計算して、強度の合計数値すなわちベクトルを出すことが可能である。Ａ又はＣが共有する関係の強度合計数値を計算して、部分的にこれら関係の指向性を反映することが可能である。たとえば、心臓肥大の進展は、本態性高血圧の存在と高度に相互関連している。心臓肥大との共有関係の多くが、本態性高血圧の原因であることが知られている（たとえば、遺伝子と表現型）。しかしながら、本態性高血圧は、糖尿病、脳卒中及び肥満症などのその他の人間の条件（human condition）と関連している。心臓肥大との共有関係の強度は相応して低い。

この指数関数的重み付け方式の欠点は、その多くが一般的にすでに理解されているか又は予測されていて、したがって新規ではない曲腺の左端部分を含む少ない関係に高い優先度を与えることである。すでに述べたように、同時発生の高頻度は、一部には、どれほど長期にわたって関係が知られているかの関数である。新しい重要な関係は、高頻度の同時発生を累積する十分な時間がなったかかもしれない。これを克服するために、曲線をその強度によって線形の関係ランク付けに変換して、因子としての時間の相対的重要度を消滅させることなく減少させる。例として、生物的製剤カルシニューリン(calcineurin)は、心臓肥大の進展に繋がりかねない細胞のシグナル変換に貢献する比較的新しい重要な因子である。指数関数的重み付け方式では、カルシニューリンの曲線下面積に対する相対的な貢献度は［Ｘ］である。線形ランク付けスケールを用いると、その相対的貢献度は上昇して［Ｙ］になる。

多くの追加の因子を用いて関係をランク付けする。たとえば、結果をランク付けする追加の用語には、オブジェクトをリンクした情報のインパクト因子又は重要度（たとえば、科学記事からの要約中でのオブジェクト間の接続を、Jounal of Irreproducible Resultsからの記事のものより高く重み付けする）、記事が公開された日付であって、オブジェクトを結合した最近の記事を優先するもの、関係の強度であって、オブジェクトＡがＢにリンクされ、Ｂが次にＣにリンクされ、各リンクが非常に強い場合は、Ａ−Ｂ−Ｄ（ここで、Ｂ−Ｄは弱い）間の結合性より高くランク付けされるといった、強度がある。強度は、発生数と発生の期待数とに基づいている。更なる他の因子には、作品の重要度をランク付けする方法としての著者の信頼性又は著者が属している機関；ＭＥＤＬＩＮＥ要約と本などの文献といった２つの別の集合に顕れることによって価値付けされた結合性があるが、これらに限定はされない。くわえて、ランクは、ネットワーク（文献データベース）中のいずれかのオブジェクトとその他のオブジェクト間の接続の数に正規化されたオブジェクト間の接続の数に基づいている。なぜならば、それは、重要な、そして恐らく、オブジェクト（単語）がネットワーク（文献）中に顕れる回数より重要な接続であるからである。今回の引用例では、本発明のシステムは、Ｂが他の全てのオブジェクトに接続される回数に正規化された、オブジェクトＢへ又はＢからの接続が観察された数に基づいてランク付けを計算する。たとえば、「癌」というオブジェクトはすべてのＭＥＤＬＩＮＥ要約の２０％に表われ、また、これを用いると、オブジェクトの用途に基づいてＯ／Ｅ比を計算することが可能であるが、それは、ＭＥＤＬＩＮＥ中の全てのさまざまなオブジェクトの２７％に接続されており、したがって、接続の数に基づいたＯ／Ｅ比を作成することが可能である。もちろん、上記の項目＃１０での場合のように、これらの後続の項目は全て、これも含めて含めて、適切に重み付けされたこれら全てのさまざまな判断基準からなる代数的ランク付け値の基礎の一部となるものを形成することが可能である。

１つの態様では、関係は、本発明のシステムによって実行されるファジー集合プログラムによって識別され、ランク付けされる。古典的には、集合はそのメンバーによって定義される。あるオブジェクトは集合に対するメンバーシップ度（μ）を有するが、これは１に等しい（μ＝１）、すなわちこの集合のメンバーであるか、又は、ゼロに等しい（μ＝０）、すなわちこの集合のメンバーではない。ファジー集合理論では、いかなるオブジェクトもある程度はある集合のメンバーである（メンバーシップ度はゼロと１の間（すなわち、０≦μ≦１））と認識される、すなわち、ファジー集合理論では、ある集合でのメンバーシップは常に明瞭に定義されるとは限らない。

複数のナレッジドメインを含むデータソースを処理することによって、一時的な関係の包括的ネットワークが作成され、これで、オブジェクト集合の関係性をそれらが共有する関係に基づいて評価することが可能となる。「結束性」の尺度をある集合に割り当てることによって、研究者は、実験的なグループ化には（グループ化されたオブジェクトは文献中で適切に表されているものと仮定して）目的性があると推論することが可能となる。結束性は、ある集合の観察／期待スコアの平均値がランダムな平均値よりどれほど高いかによって決まる。あるオブジェクト集合が共有する関係を分析するために用いられると、一般的な「テーマ」（たとえば、癌、アポトーシス、糖尿病）をリスト内の統計的に例外的なグループ付け（たとえば、遺伝子グループの活動に影響する薬物）を伴ってに識別することが可能である。さらに、それによって、集合中の「行方不明なメンバー」を、グループ全体に対するその関係度によって識別する方法が提供される。

１つの態様では、本発明のシステムは、そのスコア化機能を実行して、マイクロアレイデータを評価する。たとえば、本発明のシステムは、転写応答群の集合が文書化された関係を持つメンバーを含んでいるかどうかを確認する方法となる。このようにして、研究者は、実験が特定の応答を測定したかどうかを判断することが可能であり、これで、転写応答があまりストリンジェントではない条件下でのハイブリダイゼーションの結果であるか又はクロスハイブリダイゼーションなどのエラーの結果であるかを認識する可能性が与えられる。重要なことは、本発明のシステムは、識別されランク付けされるマイクロアレイ実験から得られた非遺伝因子（たとえば、表現型、疾病、代謝体及び化合物）を関係付ける方法となる。

信憑性のスコア
一部のインスタンスでは、関係の強度はその確実性ほどには重要ではない。たとえば、２つのオブジェクトが、特定の生物学的プロセス（たとえば、急性期免疫応答、細胞分裂、微小管アセンブリなど）に対して連帯責任を持つオブジェクトに対する関係のサブ集合を共有している場合、このような関係の相対的強度は必ずしも、これらの関係が共有されることほどには重要ではない。このような状況下では、同時言及が実際の関係を表しているかどうかを評価することが好ましい。１つの同時言及がＦＰエラーである可能性が５０％であると仮定すると、信憑性のスコアを用いて、２つの同時言及が双方ともエラーである可能性は５０％・５０％＝２５％すなわち０．２５である。任意の関係の信憑性スコアは、一般に、同時言及の測定された最も低いＦＰレートから１の範囲である。共有関係をその集積された信憑性のスコアで表したものがプロットされる。

システムロジック：メタ関係、意味論的解析、情報抽出
研究対象の項目を検索する（たとえば、ＰｕｂＭｅｄを用いて実行される検索など）標準的なクエリーベースのアプローチにおいては、関連性のない結果がしばしば得られることがある。それを介してユーザがＰｕｂＭｅｄと対話するグラフィカルユーザインタフェースは簡単で直感的であるとはいえ、利用可能な情報量が多くなるほど、所定の項目を発見するのが困難となる。

たとえば、マグネシウムのレベルを増加させる現象に興味を持った研究者は、「マグネシウム」と「増加する」という語又はそれらの異形の語を用いて探索する。句ベースで探索することによって、接続的用語、たとえば、「マグネシウムレベルを増加する」を用いることが可能である。しかしながら、接続的用語は多くの並べ替え、たとえば、「マグネシウム密度を増加させることが分かった」や「マグネシウムの細胞内レベルの増加が観察された」、「マグネシウムレベルの増加が実証された」などがある。標準のクエリーベースの方法では、検索対象となる項目を探索するブール代数アプローチを用いる。しかしながら、このようなクエリーは、不慮の事態が連鎖することにその限界があって、「マグネシウム」と「増加する」に対してブール代数探索を実行すると、解釈が困難な結果が返ってくる。たとえば、この帰ってきた結果がマグネシウムの増加の影響についてであるのか、何がマグネシウムを増加させるのか、どのようにしてマグネシウムが増加したのか、なにがマグネシウムの増加に影響したのかなどが不明瞭である。さらに、この結果は、「・・・は細胞内でのマグネシウムの欠乏や細胞内カルシウムの増加を引き起こしかねない」などの選択された探索語に適合する句を含む多くの擬陽性を含む可能性が高い。また、「増加している」や「増加した」のような語根の異形が除外されていないことを確認したいので、"increas*"のようなワイルドカードを用いることも可能である。ワイルドカードは、探索をより包括的なものとする助けとなるが、また、擬陽性の数を急速に増加させる。それより悪いことには、［Ｍｇ２＋］と「上昇」、「上がる」と「・・・のより高いレベル」などの同じ現象を記述する同義語は、探索には含まれないということである。

一部のソースでは、情報のカテゴリ化のための制御されたボキャブラリに対して語をマッピングする方法を提供することによって色々なバリエーションを試みた。ＭＥＤＬＩＮＥはＭｅＳＨ（医学主題見出し）を用いて、語や句を主題（主題見出し）の探索にマッピングするが、これで、探索に同義語を含むようになっており、また、調査に関与する一般的に用いられるキーワードがタイトルや要約に含まれない文書を発見することを可能としている。ＭｅＳＨによって、後や句を主題（主題の見出し）の探索に対してマッピングすることが可能となる。生物医学に関与する同義語のすべてがマッピングされていなくても、ＭｅＳＨは通常は、個別の主題に対して情報を探索する際には語を非常に良好に用いており、さらにサブ題目の選択も可能としている。しかしながら、ＭｅＳＨは主として名詞に限られており、したがって、名詞が有しているかもしれない相互作用に関しては探索を許容していない。それはまた、文脈又は所定の項目とその他の項目の間にある関係を解明する効果的な方法も提供しない。表１６に、ＭＥＤＬＩＮＥ探索で帰ってきた結果のキーワードの変化を示す。

信じられないほどのデータと情報がこのような探索で利用可能となるが、皮肉なことには、関連情報を発見するのが難しくなる。科学者は、このタスクを支援するためにさまざまなショートカットを用いて、彼らが読むジャーナルの範囲を焦点また高品質だと思うものに絞って、関連する情報が公開されるようにしたり、また、全国会議に出席して、同僚やその分野における現在の研究に触れるようにしている。これはある程度までは効果的であるが、これら二つの方法は単に情報の包括や選別をする人々に依存しているだけである。また、不運なことに、このような戦略は人々に情報を与える助けにはなるが、ナレッジの最前線に立たせるものではない。他に何も手立てがないとすれば、あまりに多くの擬陽性の結果があるからには、所定の事象に関する文献を探索する、より効率的な方法が必要であることは明らかである。

擬陽性の結果の数を減少させるために、本発明によるシステムは、あるデータソース（たとえば、テキスト及び／又はデータ）に関連する入力を受信してオブジェクトという形態で出力する推論抽出（ＩＥ）エンジンを提供する。次に、本発明のシステムは、出力中にパターン（たとえば、要約中で同時発生するオブジェクト；文中で同時発生するオブジェクト）があるかどうか判定して、オブジェクト間の関係を判断して、主題のクラスタを識別する。本明細書で用いられる「主題のクラスタ」又は「主題の集合」という用語は、交換可能なものとして用いられているが、これは、所定の情報（データ）の（用語、句、カテゴリとしての）グループ分けのことである。主題のクラスタ中でオブジェクトが同時発生すると、これらは関係している可能性がある。主題の単位はまたソースによって定義されたグルーピングであるが、この場合、各ソースは異なったグループ分けを有していてもよい。たとえば、（ソースとしての）ＭＥＤＬＩＮＥでは、主題のクラスタは要約である。他のソースでは、主題のクラスタはパラグラフ、ページ、スプレッドシートであるが、この場合、グループ分けは数値、テキスト、記号によるグループ分け又はその何れかの組み合わせでもよい。

くわえて、本発明のシステムは他の接続と帰納／演繹ロジックを用いて、他の類似のオブジェクト間にも類似の関係集合があるとして、どのような種類の特性や動作をあるオブジェクトが有するはずであるかを推定する。１つの態様では、本発明のシステムは、同時引用に基づいて、本来単方向性である関係を確立する。別の態様では、本発明のシステムは、このような関係の性質が未知である場合にさまざまなタイプの分析、たとえば、拮抗的又は補完的現象を探索するなどを遂行して、この関係の性質を識別することを可能としている。このＩＥエンジンのルール決定機能を用いて、関係のカタログ化、たとえば、以下にさらに説明するようなメタ関係の定義を実施する。

メタ関係
オブジェクトは、それが語であれ句であれ多くの同義語を有するが、これによって、「多対一（many-to-one）」マッピングが可能となる。同様に、作用、反応、変化、変動又はオブジェクトが他のオブジェクトと有しえる他のなんらかの関係の記述を、多くのさまざまな様式で記すことが可能となる。関係の同義語を決定するだけでは十分でないが、それは、所定の事象の、さまざまな同義語によって表される一般的な関係やカテゴリであるからである。このような一般的な関係又はカテゴリによるクラスタ化には、本明細書に「メタ関係」と言及されているさまざまな相互作用が含まれる。

たとえば、２つのタンパク質の相互作用に関して観察して、その結果を、「会合する（associate）」、「分離する（dissociate）」、「付着する（adhere）」又は「結合する（bind）」などの用語を用いて記述することが可能である。「会合する（associate）」は「結合する（bind）」とは微妙に異なった意味を有するが、相互作用を、各個別の見出しではなく「物理的会合（physical association）」などの一般的な用語としてカタログ化してもまったく不正確というわけではない。このようなカテゴリ別のクラスタ化の例はＮＣＩのＭｅｄＭｉｎｅｒに見受けられるが、これは、探索用キーワードを含む文を一般的なカテゴリにグループ化しようとするものであるが、より正確な比較には、ＮＩＨのＵＭＬＳシステムが「意味論的関係」と呼び、また、同様に多くの用語を包括しているものがある。

１つの態様では、本発明のシステムは基本的な４つのタイプのメタ関係、すなわち、陽性効果（増加）、陰性効果（減少）、物理的関連及び論理的関連を識別する。このような関係を示すキーワードの語根のリストを以下の表１７に示すが、この表はこれらの単語やその語根の異形がＭＥＤＬＩＮＥ中に現れる頻度を示している。単語のスペルの異形（たとえば、release対releasor、disassociate対dissociate）は一つ一つチェックされているが含まれることはなく、それはこれらの用途が少ない（一般的には２％未満）からである。

これら具体的なメタ関係はエンドユーティリティ目的で選ばれており、すなわち、所定のオブジェクトを定義するだけではなく、これらを特徴付けるために選ばれている。一般的関連性及びカテゴリ化はさまざまな目的に役に立つが、本発明のシステムは、語形を変化させることによって補完的な現象と拮抗的な現象とを、定性的ではなく定量的に探索できるようになる。疾病の表現型と、他のどの現象が類似の表現型と反対の表現型の発生に寄与しているかわかれば、疾病の原因を判定したり、潜在的な療法を探索したりするのに助けとなりえる。

たとえば、病状によっては、アルコール脱水素酵素（ＡＤＨ）が減少する。この定量的表現型は本発明のシステムにとっては興味深いものであるが、それは、この症状を治療する方法では、ＡＤＨのレベルを上げるからである。同じ病状が肝臓毒性という別の表現型を有するが、毒性の反対は、「回復」、「再生」又は「成長」のような対立する語が考えられはするが、定義するのが難しい。毒性は比較的一般的な用語であり、現象を記述する際には定性的であり、また、何が拮抗的であり何が補完的であるかを定義するのが難しい。しかしながら、誰かが、原因不明の肝臓毒性をわずらっている患者を扱っているかどうかを理解することははリンクとして有用である。

定量的関係とは、「増加する」、「上方調整する」又は「・・・のレベルを上昇させる」などの動詞と動詞句を用いてあらわされる関係のことである。定性的関係とは、定量的に測定されるが、特徴が「もっと」とか「それ以下」とかより広い用語で表される関係のことである。これらの関係は、「肥大性」、「発育不全」、「巨大脳髄症」などの形容詞や名詞を用いて示される。１つの好ましい態様では、推論抽出エンジンは、本発明のシステム中でさらなる言語学的能力を含んでおり、これで、生物医学分野では一般的（たとえば、「増加する」、「結合する」、「調整する」など）であるような現行のオブジェクトをリンクする用語（たとえば、動詞、副詞、形容詞など）や否定する用語（たとえば、「・・・・しない」とか「・・・でない」とか「逆に」など）に対する関係分析を含んでいる。

図２６に示すように、１つの態様では、本発明のシステムの推論抽出エンジンは、オブジェクトテーブル（"tblObjectSynonyms"）中にメタオブジェクトをカタログ化するために要約（たとえば、ＭＥＤＬＩＮＥや他のソースから得られたもの）からの文を走査する。次に、テキストを、可能な関係を示すメタ関係キーワードがないかどうか走査する。関係が発見されたら、本発明のシステムはオブジェクトがないかどうか文を走査する。２つ未満のオブジェクトが発見されたら、次の文を走査する。ある関係と２つのオブジェクトが発見されたら、本発明のシステムは文を文法パーサーに、次にＩＥルール判定集合に送って、この関係を適切にカタログ化しようとする。良好なマッチング見出されれば、それは本発明のシステムのデータベース中にストアされる。

関係：ＡをＢにリンクする
オブジェクト間の関係はメタ関係としてストアされるが、同じタイプの関係が、以下の表に示すように、文献中で文法的に様々な語形で用いられている。本発明によるシステムは、このような関係（すなわち、「inhibit」が「decrease」というメタ関係に対応すると判断する）、また、そのオブジェクト（「wnt」「the quaternary complex」）をデータソースから抽出することができるのが好ましい。以下の表に、「ｗｎｔシグナリングが四次複合体のキナーゼ活性を何らかの形で抑制する…」という概念を表現するさまざまな文法的構成を示す。

メタ関係中に含まれる用語と句は、必要に応じて追加したり修正したりすることが可能である。一部のメタ関係の例とそれらがどのように用いられるかを表１９に示す。

オブジェクト−関係データベース
本発明のシステムによって用いられるオブジェクト−関係データベース（ＯＲＤ）はその機能の中核をなすものである。テーブルとクエリーの構成とレイアウトを表２０に示す。

オブジェクト−関係データベースは、本発明のシステムに入力するデータソースとまさに同じほど動的である。１つの態様では、本発明のシステムは、本発明のシステムと連通しているグラフィカルユーザインタフェースに制御部品（たとえば、ボタンやドロップダウンメニューなど）を装備しており、これで、ユーザは、データソースから得たテキストから誘導されたシステムデータベース中のオブジェクトを閲覧することが可能である。たとえば、ユーザは、データソースからの表示テキストをグラフィカルユーザインタフェース上で閲覧し、このテキストのある部分（たとえば、句や要約）を強調し、ボタンなどの制御部品をクリックし、これで、本発明のシステムに、句の中の１つ又はそれ以上の語がシステムデータベース中でオブジェクトとしてストアされているか表示させる。新たなオブジェクトをシステムデータベース（たとえば、以下にさらに説明するオブジェクト関係データベースなど）中に含むことが可能である。これで、ユーザが、文献を走査して新しいオブジェクトを識別してフラグ付けし、これらをコンパイルしてオブジェクトリストに付け加えて、接続を評価するために用いられるネットワークを次にコンパイルする助けとなる。

意味論的分析と情報の抽出
１つ又はそれ以上の語を持つレコードや要約などのテキスト情報は入力されて解析される。適切なパーサーは、ｄｐａｒｓｅｒ、Ｅｓｓｅｎｓ、Ｇｒａｙ、ｏｐａｒｓ、ｉｐａｒｓ、ｌｆｇ、Ｏｌｅｘ、Ｐａｒｓｅｃ、ＳＰＡＲＫＳｃａｎｎｉｎｇ、ＰａｒｓｉｎｇａｎｄＲｅｗｒｉｔｉｎｇＫｉｔ、Ｔ−ＧｅｎＴ−Ｇｅｎ−ＴｈｅＰａｒｓｅｒＧｅｎｅｒａｔｏｒｆｏｒＶｉｓｕａｌｗｏｒｋｓｆｔｐａＳｍａｌｌＴａｌｋパーサージェネレータ、解析ツリーのための次世代探索エンジンＴＧｒｅｐ２等を含むが、これらに限定されるものではない。

レコードが文を含む場合、これらのレコードは文毎に解析されて、メタオブジェクトやメタ関係がないかどうかチェックする。本発明のシステムが実行する情報抽出（ＩＥ）のステップのフローチャートを以下の図１４で示す。ＩＥはまた、非テキストデータ又は構造化データである情報の解析を含む。たとえば、ＩＥでは、化学的物質や生物学的物質（核酸プローブ、オリゴククレオチド、タンパク質、ポリペプチド、有機もしくは無機の分子／化合物等）を含む高密度アレイが走査される。従来のフォトリソグラフ法を用いて製造されるような６５，０００パーセルを超える情報を含むアレイ（すなわち、プローブ、分子、薬品など）が用いられる。より従来的な技法又は化学反応も用いられて、分子や化学薬品を基質の表面に付着させるが、これは、基質の性質、付着される分子／薬品及び化学的付着及び合成の当業者には周知であるその他の因子によって異なる。生物学的アレイを、遺伝子の分析、選別、診断などに用いる。一部のアレイは少なくとも約２０ミクロンという極端に小さいサイズのものもある。

一例としては、基質の表面に核酸が形成されると、ＩＥ用のデータのソースが提供される。統計的に関連する発現分析を、全てのクエリーオープンリーディングフレームを配列類似性がないかどうか探索したり、又は、ｃＤＮＡ配列ライブラリとタグが付けられた発現済み配列に照らし合わせて遺伝子配列を探索したりすることによって実行することが可能である。米国国立衛生研究所・米国国立癌研究所（ＮＩＨ−ＮＣＩ）との遺伝子ネットワーク研究プロジェクトがあり、本発明のシステムを用いるのに特に適したものである。

本発明のシステムは、いずれかの研究分野で現在識別されている問題に対する１つ又はそれ以上の新規な効果又は将来的な解決策を識別するツールを提供する。本発明のシステムを用いると、オブジェクト間の１つ又はそれ以上の未知の関係をコストパフォーマンス良く識別することが可能となる。以下の実施例１でさらに説明するように、本発明のシステムは、クロルプロマジンというよく知られているの薬剤に対する新規な治療応用、すなわち、深刻で衰弱させる結果となる疾病である心臓肥大の治療用の治療剤としてのその用途を同定した。本発明のシステムはまた、インシュリン非依存性糖尿病（ＮＩＤＤＭ）の潜在的因果関係の根元をとりわけ発症が後天的なものであると同定した。

１つの態様では、本発明のシステムは自動スクリーニングシステムに接続されている。本発明のシステムを用いてＮＩＤＤＭに関連する遺伝子の文献を走査すると、標的の遺伝子はメチル化のスクリーニングを行うことによって同定される。本発明のシステムは、標的の配列を探索してダウンロードし、たとえば、スクリーニング用のアレイのプローブとして機能するオリゴヌクレオチドを設計する。次に、このスクリーニング用のアレイをたとえば、ディジタル光化学さらには厄介なフォトリソグラフィーによるＤＮＡオンチップ法を用いてアセンブルして、スクリーニング、診断及び罹患の危険性のある又は羅患しているＮＩＤＤＭ患者のメチル化状況の追跡に用いる。１つの態様では、アレイの設計はオンラインの注文書と結びついており、それで、本発明のシステムと対話しているユーザは、適切な配列を備えたアレイの製造を注文することが可能である。グラフィカルユーザインタフェースは、このアレイの画像を表示することができる。１つの態様では、カーソルをアレイ上の特別な座標集合に移動させると、本発明のシステムは、その座標（例えば、ヌクレオチド配列、遺伝子名、既知の発現プロファイル及び機能等を）に位置するプローブに関する情報を表示することが可能である。

（実施例）
本発明を以下の実施例を参照して更に説明するものである。以下の記載は例示のみであり、詳細の変更は本発明の範囲に包含されるものである。

システムの検証：心臓肥大を治療する薬剤
症状の多くが公知であり、またその相関性が十分確立されている、心臓肥大の新規かつ有用な暗示的関係を識別するシステムの能力を、ソースとしてＭＥＤＬＩＮＥを使用して実践した。分析の目標は、心臓肥大に暗示的に関係付けられる以前には関係付けがなされていなかった化合物を同定し、またその潜在的な治療上の利点を同定することである。

システムによる新規な相関性の発見
心臓肥大は心臓の細胞のサイズが拡大し、ついには血液を送る心臓の能力が低下する機序である。この症状は「心臓肥大」という語句を含むＭＥＤＬＩＮＥ中の３，６５４を超える文献により証明されるように、広範に研究されている。文献からは、本発明によるシステムは少なくとも約２，１０２のオブジェクト及び心臓肥大に暗示的に関係する少なくとも約１９，７１８の固有のオブジェクトを識別しており、１，８４２，５９９の異なるパスが使用されていた。システムのスコア化スキームを用いて、心臓肥大に暗示的に関係付けられた小分子（例えば薬品、代謝産物および化合物）のランク付けされたリストがコンパイルされており、うち２０個は表２１に示すとおりである。スコア化とは各々の関係が有効である確率、各オブジェクトがネットワーク中に比較的豊富である場合に、それが有すると推定される関係の数、及び、各接続関係の暗示的強度の合成関数である。心臓肥大と暗示的に関係するオブジェクトとの間の共有された関係の数を固有のパスに示す。これらの固有のパスのうちいくつが有効な関係を示すかの統計学的推定をクオリティ評価（Quality Estimate）として提示する。ネットワーク内の各暗示的オブジェクトの頻度は関連数（Number of relationships（Number of Rel））であり、各オブジェクトの相対的頻度において偶然起こると推定される関係の数を「期待（Expect）」と示す。

ランク付けされたリストから、１分子のクロルプロマジンをその後の分析に用いた。クロルプロマジンは抗精神病薬および抗嘔吐剤として主に使用されている脂肪族のフェノチアジン化合物である。これは数種の分子標的に対して多くの生理学的効果を示す。公知の機能の一つは、α−アドレナリンブロッカーとしての機能である。本発明のシステムを用いることで、未知の関連、即ち、クロルプロマジンがアゴニストとしてのαアドレナリン受容体の過剰刺激を介した肥大の機序、および、αアドレナリン拮抗剤によりブロックされることのできる効果に関わっていることを発見した。従って、本発明のシステムはクロルプロマジンと心臓肥大との間に関係があるという、これまで未知であった関連を顕在化したのである。

ＭＥＤＬＩＮＥを通した直接の検索は２つのオブジェクト間の直接の関係は確立していなかったことを示したため、分析は新規であることが確認された。

システムの新規な発見の検証
クロルプロマジンと心臓肥大の間の該当する関係の検証は既知のβアドレナリンアゴニスト（肥大を誘導するものとしても知られている）であるイソプロテレノールを、イソプロテレノール＋クロルプロマジンと比較したマウスにおける一連の実験室での研究を通して行った。

要約すると、試験には浸透圧マイクロ注入ポンプを装着したマウス８匹の２群を使用した。１群では２０ｍｇ／ｋｇ／日イソプロテレノールの連続投与を行い、もう一方では２０ｍｇ／ｋｇ／日イソプロテレノール＋１０ｍｇ／ｋｇ／日クロルプロマジンを投与した。給餌挙動の変化を最小限にするためにクロルプロマジンは高用量ではなく低用量を用いた。更に、これにより、クロルプロマジンと麻酔薬であるアベルチン（トリブロモエタノール）の間の副作用も低減した。投与前および注入開始後７日に心エコー図を撮った。マウスを屠殺し、心臓を計量した。

図１９および２２は試験の結果を総括したものである。一般的に、心臓肥大（心エコー図により評価）はクロルプロマジン＋イソプロテレノールを投与したマウスでは低減した。図１９はクロルプロマジンが心臓肥大の発症からマウスを防御したことを示している。心エコー図を用いて治療過程を通じた数種の異なる心臓の構造の重量および厚みの変化を推定した。図１９については、マウス１０匹にイソプロテレノール（ＩＳＯ）を投与し、８匹にイソプロテレノールおよびクロルプロマジン（ＣＰＺ＋ＩＳＯ）を投与し、ここでＬＶＷ＝左心室重量（ＣＰＺ＋ＩＳＯ１１±２７％、ＩＳＯ５１±４３％、ｐ＜０．０２）；ＬＶＭＩ＝左心室容積指数（ＣＰＺ＋ＩＳＯ１１±２８％、ＩＳＯ５０±５２％、Ｐ＜０．０４）；ＰＷＴ＝後壁厚み（ＣＰＺ＋ＩＳＯ１６±１６％、ＩＳＯ３６±２７％、Ｐ＜０．０５）、ＩＶＳＷＴ＝心室内隔壁厚み（ＣＰＺ＋ＩＳＯ１９±１８％、ＩＳＯ３１±２０％、Ｐ＜０．１２）である。

システムを用いてコンピュータで発見できた別の治療薬には、ロフェコキシブ、ナプロキセン、プロスタグランジン、メラトニン、ナロキソンおよびナルトレキソンが包含された。治療薬としてのナロキソンの有用性は上記した心臓肥大のマウスモデルにおける薬剤の効果を測定することにより検証した。同様の薬理学的効果により、ナルトレキソンはまたインビボで同様に有効であり、その好都合な薬物動態特性（例えばより長い半減期）のためにより優れた薬剤であると考えられる。

本発明のシステムは更に別の症状の心筋症の治療に関して他候補を同定した。この症状の治療薬として以前には同定されていなかった薬剤候補のリストから、本発明のシステムは、まず最初に心臓疾患に対する直接または間接の薬理学的リンクに基づいて選択（薬剤を筋細胞保護剤として前もって同定するといった）をして、心筋症に対して考えられる効果でもって薬剤候補をランク付けすることができる。この分析の結果は後に記載するが、そこではランクキング「５」が最高スコアであり、薬剤がインビボの試験で良好な結果を収める可能性が高いことを示す。３以上のランキングのものを用いて心筋症の治療のための薬剤候補としての化合物を同定した。

トリヨードチロニン（Ｔ３）：３
Ｔ３およびチロキシン（Ｔ４）は活性甲状腺ホルモンを構成する。甲状腺ホルモン、特にＴ３は心筋細胞の原形質膜のイオン輸送を促進することが明らかにされている。臨床試験は、心筋症患者における甲状腺機能低下症およびＴ３低下症候群の予期しない高リスクを示す。Ｔ３は潜在的に有利な心臓血管効果を有するにもかかわらず、心筋症集団におけるこの薬効を評価した研究は極めて少ない。今日まで、心筋症患者におけるＴ３の積極的な臨床検討は行われておらず、Ｔ３は興味深いが未だあまり試験の対象とはなっていない。

クロニジン：４
交感神経系（ＳＮＳ）は血圧および心臓機能の調節において重要な役割を果たす。交感神経様効果の薬剤の効果はαおよびβサブタイプを含むアドレナリン受容体を介して媒介される。クロニジンはα２アドレナリン受容体アゴニストである。その交感神経抑制機能を発揮しながら中枢の交感神経ニューロンに作用し、これによりノルエピネフリンの放出および交感神経活性を低減し、交感神経の緊張を全体的に低下させる。βアドレナリン受容体ブロッカーは、現在は拡張型および肥大型心筋症を治療するために用いられているが、αブロッカーの使用は以前には研究されていない。クロニジンは抗高血圧ＳＮＳ抑制剤として３５年前に導入され、最近になってやっと他の治療方法において検討されている。例えばクロニジンは心筋虚血およびうっ血性心疾患の治療において有望である。クロニジンと他のアドレナリン受容体剤との間の相違はその中枢神経系作用部位であり、これが潜在的により広範な使用をもたらすやもしれない。

エストロゲン：３
心臓血管疾患は顕著な性差を示す。エストロゲンは心疾患の発症において重要な役割を果たし、疾患の進行を調節することができる。エストロゲンの有利な影響における焦点は、血管系から心筋へと徐々に移行している。心筋における機能的エストロゲン受容体の存在が明らかにされている。左心室肥大（ＬＶＨ）のげっ歯類モデルにおいて、エストロゲン置換により左右両心室の肥大の発症が減衰する。エストロゲンはまた心筋虚血において広範な心筋保護をもたらすために使用されている。用量の範囲はエストロゲンについては極めて厳密である。異なる用量は非常に異なった効果をもたらす。例えば、一日当たり０．６２５ｍｇエストロゲンは更年期以降の使用を意図し、一日当たり２０〜３５ｕｇは経口避妊薬用である。

タモキシフェン：３
タモキシフェンはエストロゲン受容体を活性化する臨床使用における化合物の１つである。心臓血管系に対してエストロゲン様の効果を有する。

コルヒチン：３
コルヒチンは強力で迅速な好中球の抑制剤であり、炎症性の白血球増多症を低減し、虚血後の心筋の好中球蓄積を防止し、心筋を保護する。コルヒチンの心臓血管に対する効果に対する研究は殆ど行われていないが、一部では陽性効果（心臓肥大の発症を減衰する）を示している。

ブラジキニン：４
ブラジキニンは新規で有望な心筋細胞保護物質である。カリクレイン−キニン系は血圧調節系の１つである。カリクレイン−キニン系の重要な薬剤として、ブラジキニンは長年公知な冠動脈拡張および血管症以外にも効果を有する。最近の研究においては、ブラジキニンは心筋細胞の虚血耐容性を増強することがわかった。虚血は拡張型心筋症の主要な原因の１つであり、心筋虚血は拡張型および肥大性の心筋症の両方において極めて共通しているため、ブラジキニンは心臓肥大の治療のための薬剤候補である。

オマパトリラット：４
ブラジキニンは数種の酵素、特にアンジオテンシン変換酵素（ＡＣＥ）および中性エンドペプチダーゼ（ＮＥＰ）により効率的および急速に分解される。従って、オマパトリラットはＡＣＥおよびＮＥＰに対する二重阻害を示す新規化合物として理論的にはブラジキニンと同様の効果を有する。オマパトリラットは慢性心障害のために暫定的に臨床使用されている。

アプスタチン：４
ＡＣＥおよびＮＥＰはブラジキニンの異化において主要な役割を果たしていると考えられるが、最近の報告では、アミノペプチダーゼＰが内因性のブラジキニンのターンオーバーに寄与していることが示唆されている。アミノペプチダーゼ抑制剤のアスプタチンはもう１つの心筋保護剤の候補である。

ＣＯＸ−２選択的阻害剤（セレコキシブ）：３
この化合物の心臓血管に対する効果は興味深い。一方で薬剤の使用は血管の損傷およびアテローム性血栓症に対する炎症の寄与を低減する。他方で、血管拡張型および抗凝集性のプロスタサイクリンの生産を低減することにより、投与は上昇した血圧およびプロトロンビン活性をもたらす場合がある。従って種々の実験の矛盾する結果の全てが意外なことではない。コンピュータによるランキングに基づけば、セレコキシブはインビボの心臓肥大に対するその効果を試験するための薬剤候補である。

５−ＬＯＸ阻害剤（リコフェロン）：４
５−ＬＯＸ阻害剤は抗血小板、抗白血球および抗炎症特性を有するがＣｏｘ−１阻害剤の胃の副作用やＣｏｘ−２阻害剤の血栓の危険を伴わない新規化合物のクラスである。リコフェロンは現在骨関節炎の治療に関する臨床第３相の試験に付されている。

トロンボキサンＡ２受容体拮抗剤（スルトロバン）：３
ＴＸＡ２は強力な血管収縮剤であり、血小板の凝集および放出の強力な誘導剤である。プロスタグランジンとは血小板の調節に関して逆の機序を有する。トロンボキサン受容体の密度は障害のある心臓では正常心臓と比較して顕著に上昇し、これは、トロンボキサン受容体が治療の有意な標的となることを示唆している。ＴＸＡ２合成酵素阻害剤またはＴＸＡ２受容体抑制剤は心筋症患者にとって有益であると考えられる。

メラトニン：２
メラトニンは松果体の最も有名な生成物である。抗酸化剤として概日リズムに直接影響するという周知の役割のほかに、実際は人体においてより広範な役割を果たす。少なくとも１０年間の証拠によれば、メラトニンは心臓血管系に影響する。動脈および心室の受容体の存在が明らかにされている。メラトニンは心筋虚血後の心臓の保護においても寄与している。メラトニンは現在は薬剤とは考えられておらず、その理由は、一部にはメラトニンの安全性、副作用、薬剤相互作用および長期の作用に関して殆ど研究されていないためである。

以下の候補化合物を更に本発明のシステムを用いて同定した。

モルヒネ：
モルヒネはオピオイドペプチドであり、重要な心臓血管に対する効果を示すことができる。特定のオピオイド受容体の活性化により実験動物において梗塞サイズを低減し、単離された心筋における細胞死を低減する強力な心臓保護効果がもたらされた。薬剤は短期間および緊急時の使用に限定されている。

ナロキソン：
ナロキセンはオピオイド拮抗剤である。通常の状況下においては、オピオイドが前もって投与されていない限り殆ど効果をもたらさない。しかしながら、内因性のオピオイド系が例えば心筋梗塞または拡張型心筋症の場合のように特定の形態のストレスにより活性化されると、ナロキソンはオピオイド系の心臓保護効果を抑制する場合がある。これは疾患に対して陰性の影響を有する。上記した通り、コンピュータで予測されたナロキソンの陽性効果はインビボで検証されている。

ワーファリン／ヘパリン：
両薬剤は活性化凝集因子を抑制し、従って、抗凝固効果を有する。心筋症患者は血栓塞栓の危険性を有しているため、ワーファリンおよびヘパラリンは卒中および末梢塞栓形成の予防において使用する薬剤候補である。両薬剤とも、拡張型心筋症、特に心房細動を伴うものの管理のために有用であると報告されている。

コルチゾール：
コルチゾールはヒトの主要なグルココルチコイドである。コルチコステロイドの効果は多く、広範にわたっている。心臓血管系においては、コルチゾールの強力な効果は高血圧および高血圧性心筋症の誘導であるが、根本となる機序は不明である。コルチゾールは抗炎症および免疫抑制剤であり、これは心筋症に二次的に起こるリンパ球浸潤を抑制することができる。しかしながら、コルチコステロイドの現在の臨床使用の多くは、薬剤が作用する機序の詳細な理解ではなく、むしろ実証的なアプローチに基づいている。コルチゾールは以前は拡張型心筋症の治療のために提案されていた。治療は臨床的に重要な作用を有さないようであり、顕著な合併症を伴うと考えられた。日常的に臨床で使用することは今では推奨されないが、その目下の用途については、推奨されていないが、新しい薬効および新しい用法についてはこの化合物を再び使用することができるであろう。

接続性の評価：間接的接続性およびβカテニン
間接的接続性
本発明のシステムのために設計されたもう一つのタスクは、オブジェクト間の直接で関与性のある関係が、何モデム日（modem day）に一回の割合で間接的関係にあったかを示すことである。ナレッジが発見される２つの基本的な方法、即ち（１）新規な発見によるか、または（２）従来のナレッジに依存するかである。重要な点は、新規な発見は偶然得られたかもしれないし、又は、ランダムなアプローチを系統的に試験して、それ以外に予測される余地のない関連性に至って得られたものであるかもしれないということである。同様に、従来のナレッジは明示的な仮設（例えば、ＡとＣは相互作用する）又は暗示的な仮説（例えば、特定の性質／特性を有する標的が、全候補を試験することによって発見される拮抗剤候補とみられる数種の薬剤と相互作用するといった）をもたらす場合がある。

歴史的にはナレッジ的な発見は双方の種類の発見よりなるものであった。ナレッジに基づいた理由付けにより達成される発見は、あるオブジェクトが他のオブジェクトに対して有する関係をカタログ化することにより測定できる。ある所定の時点において、あるオブジェクトは他のオブジェクトと多数の直接的関係を有すると同時に他の潜在的オブジェクトと多くの間接的関係を有するはずである。間接的関係の一部が直接的関係として発見されることが疑われる場合、次のステップはどれだけ多くの歴史的に間接的な接続が最終的に直接的となったかを測定し、推定することである。

一例として、１９９５年にＡ（遺伝子）がＢ（疾患）に関係あることが発見されたと仮定する。この時点において、ＢはＣ（表現型）と関係することがわかっていた。ここで関係の性質に応じてＡとＣとの間の連結性を合理的に推量することができる。恐らくは表現型はＡが直接または間接的に関係している他の疾患において観察される。即ち、Ａ−Ｃの接続性は自明であり、更に分析または研究を行うことにより確認されるかもしれない。一方、関係は自明ではない場合もある（例えば、関係はその時点で適切ではないと考えられる）。システムが注目するのはこの点である。

システムは以下に記載するとおり、別の分析による試験に付した。

少なくとも約１２７０のアブストラクト群をＭＥＤＬＩＮＥソースから「ｂｅｔａ−ｃａｔｅｎｉｎ（βカテニン）」というキーワードを用いてダウンロードした。βカテニンは哺乳類の上皮における接着結合部の形成に関与する蛋白であり、その遺伝子はヒト染色体３ｐ２１、即ち腫瘍発生への数種のリンクを有する領域に位置している。この分析に関し、オブジェクトはｎであり、ｎに直接関連するオブジェクトはｎ＋１である。ｎ＋１オブジェクトに直接関連するがｎではないオブジェクトは暗示的に関連しており、ｎ＋２と称される。図２０Ａは接続の総数がどのように指数的に経時増加するかを示しており；図２０Ｂは今日観察されている直接接続を有するどのくらいの数のオブジェクトが以前には恐らくは中間体（異なる中間体の数は示されていない）を介して、単に間接的に接続されていたかを示している。一部の接続は擬似性であるため、下流の接続性を確立するために必要とされる観察の最少数は１〜３であった。ｎとｎ＋１との間の接続性の最少数は、新しい発見への感度を増大させ、確立する下流の接続性を発見するために１に維持した。最少観察基準が緩和されるに従いオブジェクトの総数は上昇する。いくつの未発見の暗示的接続性がより以前に存在していたかを評価するために現在の直接接続性を使用することにより、グラフは必然的に今日に近接するにつれてゼロ値に低下する。

試験セット分析を行うデータ（たとえば、文献）のセットはＰｒｉｍａｒｙＤｏｍａｉｎＡｎａｌｙｓｉｓ（ＰＤＡ）と命名する。ＰＤＡは１つのキーワード型の主題（一般的にはテキスト）に集中させ；ＰＤＡを使用する場合は、全ての間接的で未発見の関連はそのデータセットからのみ誘導される。何れのキーワードも一般的には３種の一般的カテゴリ、即ち、（ａ）データまたはレコードの一次的なアスペクト／オブジェクトである；（ｂ）データまたはレコードの二次的な検討事項である；および／または（ｃ）データまたはレコードに対して無視できる関係を有する、に属する。図２０Ａおよび２０Ｂに示した挙動は、オブジェクトが発見された時点において知られていた接続の数に応じて変化する。間接的接続の数はＰＤＡを超えて検索が行われるにつれて拡大する（例えばＰＤＡ外のより大量の従来のナレッジ、情報および／またはデータを組み込むことによって）。図２１Ａ〜２１Ｄに示すとおり、モデムデー（modem day）関連の間接的接続のパーセンテージは経時的に低下している。この観察された低下は関連性を示すのに十分な時間が経過していないためであるか、または、最も早期の直接的関係が最強であるためである。図２１Ａ〜２１Ｄのグラフはまた、僅か数個の間接的接続を加算することにより総接続数は大きく拡大することも示している。この拡大に次いで、下流の接続を同定するストリンジェンシーを増加させることは、後に直接的であると判明する間接的接続の総数に大きく影響する。

接続の頻度の変化を分析するために、βカテニンに対して最初は間接的関係を有していて、後に直接的に接続されたオブジェクト全てを調べた。オブジェクトにはネットワーク距離ｎ＋３を有し１９９７年より前のデータベース中のものが包含される。システムにより探索されたオブジェクトのリストを、βカテニンへの固有のパスの数および接続性を決定するために必要な最少の観察数（即ち同じ文中のオブジェクトの同時発生）ごとに表２３に列挙する。この分析は図２１Ａ〜２１Ｄと同様の観察パラメーターの最小の数を使用している。

表２３によれば、ＥＧＦＲ（表皮成長因子受容体）は１９９７年より以前にβカテニンに対して間接的な接続を有していた上位３オブジェクトのうちの１つであることがわかる。接続の連鎖において、Ｅカドヘリンは１９９２年にさかのぼってβカテニンと極めて強力な関連（４８４の同時言及）を有していたことがわかる。βカテニンはまた、アクチン細胞骨格およびＥＧＦＲに曝露されると細胞外マトリックスから解離するＥカドヘリンとの相互作用を介して、Ｅカドヘリンとも分子的関連を有している。その結果、間接的βカテニン−ＥＧＦＲ接続を有するネットワーク中の２９の固有のパスの各々が、異なる中間性を介してＥＧＦＲ−Ｅカドヘリンの関連に渡って分岐している。ＥＧＦＲとβカテニンが相互に直接関連していることをシステムが最初に明らかにしたのは１９９７年７月であり、このときＥＧＦＲはβカテニンをホスホリル化することがわかった。興味深いことに、これ以前には、レコードはＥＧＦＲをＥカドヘリンにリンクさせていたが、それはＥＧＦＲではなくＥＧＦを介してのものであった。システムは新聞からの情報としてＥＧＦ−βカテニンの接続を認識していたが、ＥＧＦとＥＧＦＲの間の関係は理解していない。システムにより同定されて、ＯＲＤにカタログ化されたβカテニンとＥＧＦＲとの間の接続は表２４に示すとおりである。１９９７年より前に接続を確立した代名詞照応（pronoun reference）はないことを確認するために、ＭＥＤＬＩＮＥをキーワード「βカテニン」および「ＥＧＦＲ」で検索した。

βカテニンに間接的に関係する第２の接続の最も一般的なオブジェクトは皮膚および粘膜が罹患する希少な水ぶくれを生じる自己免疫疾患である尋常天疱瘡であった（ＯＭＩＭレコード１６９６１０参照）。間接的ＥＧＦＲ接続の様に、中間的接続の大部分が１９９４年のレコードにより最初に確立されたカドヘリンと尋常天疱瘡の１つの共通の中間性パスを共有していた。本発明のシステムは関係が１９９８年２月まで確立されなかったことを発見した。１９９４年の文献はβカテニンと天疱瘡の関係に言及しているが；２つのオブジェクトは同じ文の中に含まれておらず、正規の用語よりはむしろ疾患の略語（ＯＶＡ）が使用されていた。従って、システムは分析に付された条件想定からは関係を識別しなかった。

システムはまたバナデートとβカテニンとの間の関係も発見している。バナデートは通常はチロシンホスファターゼの阻害剤として種々の生物学的経路において使用されている遷移元素のオキシアニオンの小型分子である。２つのオブジェクトの間の強力な接続性がチロシンとバナデートの間の中間関係を介して発見された。この中間の関係の最初の言及は１９９５年２月であり、その後も数回行われている。βカテニンとチロシンの間の接続もまた頻繁に、１９９２年１２月という早期に観察されている。しかしなお、バナデートを伴ったβカテニンの最初の言及は１９９７年１０月まではなされなかった。

ＰＴＰＲＵとは蛋白チロシンホスファターゼ受容体Ｕ型の頭字語である。ＨＧＮＣデータベースにおいては、頭字語ＰＴＰがＰＴＰＲＵと同義語として掲載されているが、これは必ずしも正確ではなく、その理由はＰＴＰ即ち蛋白チロシンホスファターゼとＰＴＰＲＵは関連するが明らかに異なるオブジェクトであるからである。従って、システムは実際はβカテニンとＰＴＰ、即ちチロシンと共に作用し、バナデートとの以前に確立された中間性関係にある蛋白との間の関係を識別したのである。

βカテニンはｗｎｔと強力な関連を有し、そのため、ｗｎｔに関係する遺伝子がβカテニンと共に言及されることは意外ではない。βカテニンが縮毛遺伝子に対して有する間接的関係はｗｎｔおよびｗｉｎｇｌｅｓｓの両方、および、ＬＥＦ−１、ＡＰＣ、ＪＵＰおよびｄｓｈのようなそれらに直接関係する遺伝子を通って進行する。βカテニンとｗｎｔとの間の接続は１９９３年１０月の文献において早くも言及されている。ｗｎｔと縮毛の間の接続はより早期より知られていたが、しかし、１９９６年のアブストラクトの集合において最初に言及されている（レコードには月が記載されておらず、従ってシステムはセイフサイド上で誤作動となるように１月１日で不履行となっている）。

βカテニンと縮毛は１９９７年８月に最初に言及されたが、Ｃ．ｅｌｅｇａｎｓにおいて試験されたものと同様の遺伝子のリストに関してのみであった。機能的関係が明らかになったのは２者を同時言及した次のアブストラクトが１９９８年５月に発表されたときである。

本発明のシステムデータベースは持続的に向上させなければならない点が重要である。例えば、実施したばかりのものような分析の後に、データベースから擬似的な関係が取り除かれる場合がある。

システムの検証：糖尿病およびエピジェネシス（後成説）
明らかに、本発明のシステムは、疾患、遺伝子、表現型および化合物（「オブジェクト」と総称する）の名称および同義語を、それらがＭＥＤＬＩＮＥのタイトルおよびアブストラクトのようなソースに存在すれば、認識することができる。システムはまた、用語の混乱を回避するために頭字語を分解することができる。

別の実施例においては、オブジェクトの関係の包括的ネットワークを構築するためにシステムによりＭＥＤＬＩＮＥレコード（２００２年１月時点で少なくとも約１２，０６３，８１７レコード）を処理した。次にオブジェクトの集合のうちで共有されている関係を、別な方法で関係していることが知られていない２つのオブジェクト間で共有されている関係も含めて、評価する。これらの暗示的関係を用いて新規な関係を発見する。科学技術においては、例えば新規な関係は疾患の病因、薬剤の作用、新規治療法、診断方法の機序を理解しやすくし、１つ又はそれ以上のオブジェクト、特に疾患の原因と治癒との間の相関的関係をスクリーニングするためのコスト効率的な方法として使用できる。

非インスリン依存性真性糖尿病（ＮＩＤＤＭ）は世界中でますます増加している疾患であり、特に米国では１９９１年〜２０００年の間に新しい患者の数が４９％も増大した。ＮＩＤＤＭの経済的コストは驚異的であり、１９９７年には年間９８０億ドルと推定され、米国だけで人口の６％もが罹患している。ＮＩＤＤＭは主にインスリン抵抗性および高血糖症を特徴とし、グルコース不耐性、高インスリン血症、高コレステロール血症および高脂血症を伴う場合が多い。ＮＩＤＤＭの発症の危険性と相関する多くの要因が発見されているが、因果関係は不明である。ＮＩＤＤＭは最終的には「複合的な」障害と称され、環境の影響と遺伝的背景の間の複合的な相互作用の結果であると考えられている。今日までＮＤＤＭの病因と、例えばＤＮＡメチル化状態又はクロマチンの縮合の変化とといったエピジェネティックな（後成説的）変性との関連は報告されていない。

ＤＮＡのメチル化は真核生物内の基本的重要現象であり、外来物質から宿主ＤＮＡを識別し、ＤＮＡのどの鎖が新しく複製されたかを決定し、転写プログラムを不活化できるようにクロマチンの縮合のためのシグナルを与える手段、即ち正常な発達の間で特に重要な体系として作用する。ＤＮＡの調節領域におけるメチル化の消失は癌研究における盛んな研究分野であり、多くの遺伝子が特定の腫瘍におけるメチル化の消失により調節不全となることがわかっている。ＤＮＡメチル化の消失は化学的に（例えば５−アザ−２'−デオキシシチジンにより）誘導できるが、同じ作用を有するどのような因子が環境中に存在するかは不明である。

本発明のシステムによるＮＩＤＤＭとの新規な関係の発見
非インスリン依存性真性糖尿病（ＮＩＤＤＭ）としても知られているＩＩ型糖尿病に暗示的に関係するＭＥＤＬＩＮＥ内のオブジェクトを発見してランク付けするためにシステムを使用した。ＮＩＤＤＭはデータベース中の２つの特定のオブジェクト：「Ｍｅｔｈｙｌａｔｉｏｎ（メチル化）」および「Ｃｈｒｏｍａｔｉｎ（クロマチン）」と多くの関係を共有していることがわかった（表２５）。

表２５はＮＩＤＤＭに暗示的に関係する上位５オブジェクト（遺伝子、疾患、表現型および小分子）を明らかにしている（最上段は照会（クエリー）のための陽性対照）。これらのオブジェクトはＮＩＤＤＭとの如何なる直接の関連も有することはわかっておらず（ＭＥＤＬＩＮＥ内で）、多くの共有された関係のために、暗示的に関連している（図２２参照）。各暗示的関係の性質は様々であり、中間的接続性の検討により決定しなければならない。例外は推定された数値であり、文献から引き出されたものとして同じ性質を有する関係のランダムに接続されたネットワークがある場合にいくつの共有された関係が予測されるかを示している。性質はスコアであり、同時発生オブジェクトの頻度に基づいた実際の関係を示す同時言及の数の統計学的推定値である。暗示的関係は、最も共有されている関係により（広範で重要な傾向を発見するために本発明において行ってきたとおり）、所定の集合の関係が如何に例外的であるかにより（観察／推定スコアに基づいて分類（ソート）することによって）、またはその両方（図示せず）により、順位付される。

オブジェクト間の新規な関係を仮定する際に科学者が直面する最初の障壁は共通の関係の認知である。エピジェネティックな修飾とＮＩＤＤＭの間の新規な関係を仮定する理由が存在していたとすれば、ＮＩＤＤＭに関する２４，７５２文献およびメチル化に関する２５，３３８文献を読解して組織化することにより共有性を同定することが更に必要となる（ＭＥＤＬＩＮＥキーワード照会（クエリー）により決定された２００２年７月５日現在の統計値）。情報科学的手法がこのようなスケールのデータの照合には必要であった。

ＮＩＤＤＭに関連するＭＥＤＬＩＮＥ文献の全体を調べることにより、同じジャーナルアブストラクト内の同時出現により、ＮＩＤＤＭが他のオブジェクトに対して有する全ての潜在的関係を発見した。３３，５３４個の固有のオブジェクトから、システムはテキスト内で、合計２，１０５個がＮＩＤＤＭに直接関係することを認識できる。次にシステムはこれらの２，１０５オブジェクトに直接関係する全てのオブジェクトについて、直接関係のリストに既に含まれるものを除外しながらＭＥＤＬＩＮＥを分析した。得られたリストは暗示的にのみ知られている関係を含んでおり、即ち、２個のオブジェクトの間の関係はＭＥＤＬＩＮＥのタイトル及びアブストラクトの本体内には発見されなかったことを意味する。次にこれらの暗示的関係をそれらが相互に保有していた共有された関係の数、各関係の相対強度、関係の性質（各関係が有効である統計学的な確率）、及びオブジェクトとそれらが共有する中間体がネットワーク内に比較的豊富である場合に、２つのオブジェクトが一つの関係集合（a set of relationship）を偶然共有する尤度に基づいて、システムにより評価した。

「メチル化」および「ＮＩＤＤＭ］の間に共有された１，２８７個の関係のうち全部が必ずしも因果関係、相関性またはむしろ意味が有るというわけではないが、多くのものが因果関係、相関性および／または意味のあるものであった。総括すれば、エピジェネティックな対照とＮＩＤＤＭとの間には関係が存在するという証拠が示され、次にエピジェネティックな原因病理とＮＩＤＤＭの病因に関するより包括的な理論を開発するためにこれを用いた。

ＮＩＤＤＭに於ける共有される関連性
図２３に示すとおり、システムはメチル化状態における変化に関連する疾患によっても共有されるＮＩＤＤＭの発症および病態における多くをの共通の表現型確認した。これらの共有される関係は環境または遺伝子突然変異モデルでは容易に説明されないＮＩＤＤＭの難解な特性の一部について予測を可能とするものである。例えば、ＮＩＤＤＭは変動性の遅延した発症時期、Ｘリンク遺伝子の異常発現のようなＤＮＡの低メチル化を介した一部のエピジェネティックな疾患にリンクした表現型、ハンチントン病の発症および腫瘍の発癌性を伴った疾患である。遅発性の疾病の全てがエピジェネティックな変化により誘発されるわけではないが、他のものの殆どは疾患に独特の表現型の異常、例えばアルツハイマー病におけるアミロイド前駆体蛋白またはパーキンソン病におけるレーヴィー体の蓄積を共有している。ＮＩＤＤＭは肥満および進行性グリコシル化最終産物（ＡｄｖａｎｃｅｄＧｌｙｃｏｓｉｌａｔｉｏｎＥｎｄＰｒｏｄｕｃｔｓ：ＡＧＥ）の存在と高度に相関しているが、何れもその発症の要件や疾患としてそれに独特のものではない。ＮＩＤＤＭはまた、その重篤度においても異なっており、一般的には経時的に上昇する。重篤度の上昇は、プロモーター配列のメチル化の変化が起こっているため、遺伝子発現性がより高く、より攻撃的な表現型となっている一部の腫瘍によって共有されている表現型である。ＮＩＤＤＭの他の興味深い観察結果はＮＩＤＤＭ患者では糖尿病の母方家族歴が高頻度であることが報告されている「母方作用」である。

このような効果は発達の間のＤＮＡ配列の新規なメチル化が母方の影響によるものであるかどうかを説明していると考えられる。このタイプの現象は実際、マウスにおいて観察されている。

システムはまたＮＩＤＤＭの存在または疾病素因に相関するＤＮＡをメチル化する身体の能力の多くの代謝的改変を確認している。例えば、ＮＩＤＤＭ患者においてはホモシステイン濃度の上昇が観察されており、死亡率により定義される疾患の上昇した重篤度に相関している。ホモシステインはメチル化反応を司る重要な代謝中間体であり、この血清中濃度の上昇はＤＮＡの低メチル化に相関している。メチオニンからのシステインの合成を強制するイオウ欠乏食餌は個体を生存後期においてＩＩ型糖尿病に対して易罹患性とすることが報告されている。メチオニンは新規に合成されたＤＮＡのメチル化のためのメチルドナーであるＳ−アデノシルメチオニン（ＳＡＭ）に影響するため、これらの個体は新規なＤＮＡメチル化パターンを確立する能力が損なわれた状態で発達する。メチル化経路における欠損をもたらす遺伝子的要因はまた個体がＮＩＤＤＭを発症しやすくする。メチレンテトラヒドロフォレート還元酵素（ＭＴＨＦＲ）の遺伝子にはよく知られた多形（Ｃ６７７Ｔ）があり、これはその効率を低下させ、ＤＮＡの全般的低メチル化をもたらす。この突然変異を有する個体もまたＮＩＤＤＭおよび代謝症候群の他の合併症を発症しやすい。

異常なメチル化パターンは別の形態の糖尿病、即ち一過性新生児真性糖尿病（ＴｒａｎｓｉｅｎｔＮｅｏｎａｔａｌＤｉａｂｅｔｉｓＭｅｌｌｉｔｕｓ：ＴＮＤＭ）における糖尿病症候群を誘発することがわかっており、これは遺伝子的刷り込みの結果である。しかしながらＴＮＤＭをもたらす同様の刷り込み領域はＮＩＤＤＭをもたらすことはわかっていない。エピジェネティックな改変がＮＩＤＤＭの原因であるとすれば、３つの疑問点が当然ながら生じる。第一に、どのような分泌因子がＮＩＤＤＭの表現型をもたらしているか、第二に、どのような組織型がＮＩＤＤＭの表現型を誘導する因子の発現をもたらしているか、第三に、どのような環境因子がメチル化の消失およびその結果である分泌因子の調節不全の原因となっているかである。

第１の疑問点に対する解答の導入口は、暗示的に関係するオブジェクトの表２５中のシステムのリスト上の、スコアが最も高いオブジェクト、エンドトキシンである。エンドトキシンはＮＩＤＤＭとの関連や因果関係は知られていないが、肥満およびインスリン抵抗性を誘導することがわかっている。ＮＩＤＤＭとエンドトキシンとの間に共有されている関係の大部分は免疫応答に影響するかそれに関与するオブジェクト、特にサイトカインおよび炎症因子である。プロ炎症性サイトカインの濃度上昇はＮＩＤＤＭ患者において発見されており、肥満と正の相関を有し、ＴＮＦαのような一部のものはインスリン抵抗性を誘導することがわかっている。実際、サイトカイン、特にプロ炎症性サイトカインがＮＩＤＤＭ表現型をもたらしているという証拠がますます増加しつつある。例えばＮＩＤＤＭ症状の退行は高用量のアスピリンを用いた炎症経路の破壊により誘導される。ＮＩＤＤＭの治療に使用されていた医薬品であるトログリタゾンもまた抗炎症特性を有することがわかっており、ＮＩＤＤＭ表現型を退行させることに成功したＮＩＤＤＭ患者に処方された運動習慣の変化および食餌の変化もまた炎症サイトカインの低減と関連していた。

プロ炎症性性サイトカインがＮＩＤＤＭの原因となる因子であるという証拠があるため、その起源を同定することは興味深い。Ｂ細胞およびＴ細胞のほかに、脂肪細胞および内皮細胞のみがサイトカインを通常生産することがわかっている他の細胞型である。Ｔ細胞内においては、サイトカイン発現はＤＮＡメチル化パターンにより測定され、脱メチル化剤により改変できる。Ｔ細胞およびＢ細胞の何れも、それらがナイーブ型またはメモリ型ではそれほど代謝的に活性ではなく、それらのより活性な分化形態は比較的短命であるため、候補である可能性は低い。しかしながら脂肪細胞は脂質のための主要な容器であり、その大きさや周囲の肥満のような要因に比例してサイトカインを生産する。興味深いことに、ある研究では短鎖脂肪酸（ＳＣＦＡ）が活発に転写される領域の脱メチル化を促進することが明らかにされている。ＳＣＦＡはまたＨＤＡＣを抑制することによりクロマチンの構造に影響することができ、ヒストンの過剰アセチル化を起こし、ＤＮＡの領域を転写因子がよりアクセスしやすいものとする。ＳＣＦＡは正常では脂肪細胞中高濃度で存在しないが、貯蔵されている長鎖脂肪酸の正常な代謝副生成物である。脂肪細胞中のＳＣＦＡ代謝産物の量が多い場合、活動的転写活性と組み合わせられたＤＮＡメチル化の消失が起こりえる環境が与えられ、低メチル化およびその結果としてのＮＩＤＤＭをもたらすサイトカインまたはサイトカイン様因子の調節不全がもたらされる場合がある。ＩＬ−６およびＴＮＦ−αの濃度は胃絞扼術の前及び１年後の女性２０人において観察されている。個々では、Ｃ反応性蛋白（ＣＲＰ）のような他の肥満マーカーの濃度は低下していたが、ＩＬ−６およびＴＮＦ−αは低下していなかった。

提案されたモデル内では、ＮＩＤＤＭの病因は脂肪細胞内で起こり、脂肪細胞により通常分泌されるサイトカインおよび／またはサイトカイン様因子のプロモーターの周囲のＤＮＡメチル化の緩徐な消失が関与している。このメチル化の消失は肥満により与えられる条件化では好ましいものであり、転写活性により誘発される。その後のメチル化の消失により、これらの因子の調節不全が起こり、脂肪細胞からのサイトカインの生成の構成的増加が起こる。陰性調節因子はこれらの因子の発現を低下させ、それらが存在する限りではあるが、ＮＩＤＤＭ表現型を維持できる。

本発明と共に使用するための総合的な細胞メチル化アッセイの例は、以下の遺伝子（ＧｅｎＢａｎｋレファレンスの識別子を含む）の１つ又はそれ以上、即ち、ＦＩＺＺ？（ＮＭ＿０２０４１５）；ＩＬ−６（ＮＭ＿０００６００）；ＴＮＦ−アルファ（ＮＭ＿０００５９４）；レプチン'ＮＭ＿０００２３０）；ＩＬ１−ベータ（ＮＭ＿０００５７６）；ＩＦＮ−ガンマ（ＮＭ＿０００６１９）；ＩＬ−４（ＮＭ＿０００５９８）；ＰＰＡＲ−ガンマ（ＮＭ＿００５０３７）；ＳＴＡＴ３（ＮＭ＿００３１５０）；ＮＦ−カッパＢ（ＮＭ＿００３９９８）；ＩＬ−８（ＮＭ＿０００５８４）；ＩＫＫ−ベータ（ＸＭ＿０３２４９１）である。例えばメチル化アレイを用いてこれらの遺伝子の１つ又はそれ以上のメチル化をモニタリングすることにより、メチル化前駆体を１種又はそれ以上を含む栄養補給剤の効果を評価することにより、ＮＩＤＤＭに罹患する危険性のある個体における効果または細胞のエピジェネティックなメチル化パターンの改善が示される。

ＮＩＤＤＭの病因モデル
この新しく提案されたモデルをＮＩＤＤＭの病因および病原に関する３種の既存のモデル、即ち遺伝子、環境および両方の因子の複合相互作用の範囲において試験する。

遺伝子の研究によって、遺伝が個体のＮＩＤＤＭ発症の危険性を判定する役割を担うということが明らかになってきた。多くの潜在的に影響を受けやすい領域を明らかにするリンケージの研究は、これまでのところ、大規模な集団（コホート）が関係しているにもかかわらず、ＮＩＤＤＭの最も優勢な形態に関与する特定の遺伝子または遺伝子の集合を未だ良好には同定できていない。肥満とＮＩＤＤＭの間の十分確立された相関もまた、ＮＩＤＤＭの発症に環境上の変数が影響することを示している。しかしながら環境上の変数は原因となるよりも相関している。優勢な理論は、ＮＩＤＤＭの発症が多くの寄与遺伝子が存在する遺伝子的背景に対して作用する１つ又はそれ以上の環境上の変数により起こるというものである。この理論はＮＩＤＤＭにどの程度易罹患性であるかは、人種のような遺伝子的背景、並びに食餌や運動のような環境上の変数に相関していることを明らかにしている。複合的なモデルではできないがエピジェネティックなモデルでは説明できるＮＩＤＤＭの性質に関する別の観察がある、即ち、時間依存性及び全身性の記憶である。

環境上の変数が易罹患性の遺伝子的背景上に存在する場合でも、ＮＩＤＤＭの発症はなお時間依存性である。即ち、ＮＩＤＤＭを発症する危険性は年齢と正の相関を有する。このことは感染のようないまだ未知の「トリガー（誘因）」事象を推測すること以外は、複合的疾患モデルにより容易には説明されるものではない。このことが真実であるとしても、発症後のＮＩＤＤＭの持続性は説明できない。ＮＩＤＤＭは患者により経験されるインスリン抵抗性とグルコース不耐性の水準、即ち、生活様式を大幅に変えることにより前糖尿病の水準まで改変できるといった水準によって診断される。しかしながらＮＩＤＤＭは退行させることができない。既存のモデルの何れも、身体がその状態を「記憶する」ことができる機序を説明しない。しかしながら遺伝子のメチル化状態は、細胞をその分化した状態とするための比較的持続性のある現象であると考えられる。ＤＮＡメチル化の消失が年齢と相関しており、ゲノム内のメチル化部位の数が遺伝により決定され、メチル化の消失が環境上の変数により影響を受けるとすれば、案件のエピジェネティックモデルは重要な検討事項に値するものである。

ＤＮＡにおける身体性または遺伝性の突然変異に基づいた機能または活性における変化を想定する突然変異を中心とするモデルとは逆に、エピジェネティックなモデルは遺伝子または遺伝子の集合の調節不全を意味するものである。即ち、このような遺伝子の発現から生じる表現型は他の生理学的条件下では生物学的な意味を有すると考えられる。インスリン抵抗性を誘導する細胞内へのエネルギー流入の防止は、免疫系の役割の範囲内で検討する場合には意味がある。前述したとおり、サイトカインの発現は、特にＩＬ−６、ＴＮＦ−αおよびＩＬ−１ｂのようなサイトカインの場合、ＮＩＤＤＭの兆候を誘発する。Ｂ細胞の成熟および抗体の産生といった後天的な免疫は時間を要し、その間に、病原体は複製することができる。早期の免疫応答として一部には循環血流中にプロ炎症性サイトカインの量が増えることが挙げられる。これらの早期応答物質の１つの役割は、グルコースのようなリソースが細胞内へ流入するのを阻止して、侵入してきた病原体にそれらを利用させないようにするためであると考えれば意味を成す。脂肪細胞はエネルギーの大量貯蔵物を含んでいるため、侵入してくる病原体にとって理想的な標的であり、感染と戦うために他の体細胞と較べてより活発な役割を果たさなければならなくなっている。

最後に、この理論は、正確であるとすれば、患者におけるＮＩＤＤＭに至るエピジェネティックな進行の現在のレベルを診断し、突然変異中心のモデルでは容易に得ることができなかったＮＩＤＤＭの治癒のための希望を与えるものである。どのようにして領域特異的メチル化が再導入されて領域に作用するかは不明であるが、新たなメチル化は発症の通常の過程であるため、その機序が既に定着しているのは当然である。

シルデナフィル（ＶＩＡＧＲＡ（登録商標））の新しい治療への適用を同定するためのシステムの使用
本発明のシステムを用いて、シルデナフィル（ＶＩＡＧＲＡ（登録商標））との関係分析を実施した。１つの実施形態においては、分析によりシルデナフィルに関する約１０００個の電子的に入手可能なＭＥＤＬＩＮＥ要約の間の関係が発見された。更にまた、オブジェクト（例えば他の化学物質、遺伝子、薬品、表現型および/または疾患）との関係に基づいた薬品の新しい用途をスコア化し、評価した。最も高スコアの５０個の関係のみを検討し、システムは薬剤の数種の潜在的な代替用途を発見した。予測されたとおり、最高スコアの関係は抗高血圧剤とのものであり、既に提案されている関係であった。

喘息との関係（２７８個の共有された関係）
システムの上位２０件のシルデナフィルとの同定された関係のうち、数件は喘息および症状の治療に使用される２個の化合物（即ちエピネフリンおよびテオフィリン）とのものであった。興味深いことに、ｃＧＭＰ−５は肺と陰茎の組織の両方において豊富に存在する酵素である。更にまた、１つの観察結果は、慢性閉塞性肺疾患（ＣＯＰＤ）を有しシルデナフィルを服用している患者における呼吸の改善であった。システムは血管拡張剤としてシルデナフィルが肺胞の収縮に関連する症状を低減するという潜在的関係を発見している。他の証拠（例えば肺組織中の標的酵素ＰＤＥ５の優勢性）はこの発見された関係および薬剤の別の治療用途を裏付けている（そして薬効は確認されなかったが、個々の患者における特定の生理学的状態の存在は多剤の使用を排除し、その際、シルデナフィルが好ましい治療法となる得る）。

アテローム性動脈硬化症との関係（２６８個の共有された関係）
システムはまたアテローム性動脈硬化症との潜在的関係も同定している。ここでは、シルデナフィルに誘導された血管の変化とアテローム性動脈硬化症危険因子に対するその潜在的治療用途との間の数個の関係が存在する。１つの危険因子は高血圧である。シルデナフィルの長期投与は現実的ではないが、これは一時的に高血圧を軽減（例えば末梢血管への血流を増大させる）し、ひいてはアテローム性動脈硬化症に関連する危険因子を軽減する。

偏頭痛との関係（２１６個の共有された関係）
シルデナフィルと偏頭痛との関係はそれほど明確ではない。選択的血管収縮特性を有する数種の薬剤、例えばトリプタン（例えば５−ＨＴ１ｂ受容体を介したスマトリプタン）は偏頭痛の治療に使用されているが；他の抗偏頭痛剤は血管収縮を介して作用しない（血管収縮は相関または因果関係による）。頭痛はシルデナフィル（および他の血管拡張剤）の頻発する副作用であるが、偏頭痛（独特で特殊な頭痛の形態）は薬剤の頻発する副作用には一般的に分類されていない。シルデナフィルの降圧効果が実際は偏頭痛の基となる未知の機序と対抗している可能性がある。システムは難治性の偏頭痛と共存する高血圧との間の候補関係を発見している。

痙攣との関係（２２０個の共有された関係）
システムはシルデナフィルと痙攣との間の一般的関係を発見している（痙攣の種々の臨床型、例えば平滑筋、骨格筋または心筋におけるもの、または、微小または巨大血管系のものを識別するフィルターは使用しなかった）。同様に、シルデナフィルと同定された筋肉群の突然局所収縮との間には関係があった。興味深いことに、シルデナフィルは元来は心臓への血流の増大により冠動脈狭心症の治療に関して評価されていた。分析によりシルデナフィルの痙攣制御としての効果の仮説が生じた。以前の仮説は薬剤が血流を制限（傷害、虚血または痙攣を介する）することにより狭心症に影響するというものであった。

即ち本発明のシステムは研究に焦点を置き、オブジェクトの複数の以前は知られていない用途を同定するための技術的および財政的なリソースのより効率的な使用を提供するものである。これはまた以前は知られていなかったオブジェクトが相互作用する潜在的機序を同定する場合がある。

本発明のシステムによる分析は中間性の（共有された）関係の数を変動することによりシルデナフィルに関係付けられた多くのオブジェクトを創生した。関係は直接の強度のスコアとして識別された。図２４は同定された純粋に暗示的な（直接の強度のスコアではない）関係を総括するものであり、従ってグラフ中では小さなバーで表されるか又はバーとして表示されない。既知の関係はシステムが相関性を有する関係を同定したという信頼性の尺度、および、それがどのようなオブジェクトをＭＥＤＬＩＮＥのようなソース内で認識することができるかに関する考えをユーザーに与えるために記載した。実際の文献の強度との共有された関係の分析からシステムが引き出すスコアの相関は、スコアリングマトリックスから取り出し、スコアリンググラフに掲載し、プロットした。図２４に示すとおり、最も強力な既知の関係（勃起不全は左側のスケール外）は共有された関係のみを用いてシステムが帰属させるスコアと相関する。ギャップは暗示的関係の存在を示す。システムにより作成された最終アウトプット、「ＳｈａｒｅｄＲｅｌａｔｉｏｎｓｈｉｐ（共有された関係）」は上記したオブジェクトにシルデナフィルを関連づける多くの関係リストを含んでいる。病的状態の治療に有用な薬剤のようなオブジェクト間の別の共有された暗示的な関係は図２５に示す。図２５は数種のクエリーオブジェクトに関する以前は関係のなかった多くの新規な暗示的関係を識別している。クエリーオブジェクトには、ヒトにおける１つ又はそれ以上の病的状態の治療のために適応症に対して当局が許可した薬剤が包含される。薬剤にはアレンドロネート、アトロバスタチン、セレコキシブ、フィナステリド、フルオキセチン、ゲムシタイン、インジナビル、ロサルチン、オラザピン、オメプラゾール、ピオグリタゾン、ロフェコキシブ、セルトラリン、シンビスタチンおよびチロフィバンが含まれる。図２５は本発明のシステムがこれらの薬剤の新しい用途を容易に発見し、これにより新しい適応症とその使用を確立したことを示している。

オブジェクトのグループの結束性分析の一例としての乳癌に関連する遺伝子の同定
乳癌マイクロアレイから得た遺伝子の群を入手し、本発明のシステムにより処理してどの生物医学的オブジェクトを遺伝子が共有しているかを調べた。この種の分析はどのような共通のテーマまたは要素が遺伝子の集合内に存在するかを発見する際に役立ち、結束性分析とも本発明者等が称している特に例外的であるものに注目させるものである。この集合においては、クオリティスコア（ＱｕａｌｉｔｙＳｃｏｒｅ）（各特定の観察に関する全体的な統計学的誤差の比率を掛け合わせた、オブジェクトが集合のメンバーに関係するとみなされた回数）に基づいてソートし、システムはアクチン・リモデリングおよび転写プログラムの開始に関与するものとしてこれらの遺伝子の多くを同定した。図２７を参照されたい。更にまた、遺伝子の一部は反復的配列を有しており、多形の可能性およびオルタナティブスプライシング部位を示唆しており、そのうち、異なるスプライス型が乳癌と因果関係が有るか、相関していると考えられる。リストの一部の項目の相関性は自明ではなく、例えばメチオニンは共通のアミノ酸とは擬似的な関連を有すると考えられるが、転移性の乳癌の腫瘍はこのアミノ酸に高度に依存性であり、その枯渇は腫瘍特異的な成長停止をもたらす（ＰＭＩＤ９７１９４７７６）。これらの遺伝子の一部はメチオニン代謝／分布に関与しており、従って標的となる薬剤候補である。

リストを観察／期待比により再ソートした場合、システムは文献における相対的豊富度よりもはるかに高い比率で遺伝子リストに関連する多くの遺伝子を同定し、相関性の高い関連であることを示唆している。例えばＥＲＢＢ４および３は正常および形質転換細胞の成長／分化において機能し、表皮成長因子受容体（ＥＧＦＲ）ファミリーのメンバーである膜貫通チロシンキナーゼである。これらの遺伝子の多くがＥＲＢＢ３／４に関連しているとすれば、これはそれらが乳房組織の癌原性の形質転換においても役割を果たしていることを高度に示唆している。この役割は非転写性であり、これは、この水準の分析ではマイクロアレイ分析で検出できないものである。しかしながら、マイクロアレイのデータは他のデータソース（例えばＭｅｄｌｉｎｅ）から得たデータと組み合わせることにより、別の機能的関係を同定することができる。

説明のための実施態様を参照として用いて本発明は記載されてきたが、当該記載は発明を制限することを意図するものではない。説明のための実施態様並びに本発明の他の実施態様におけるの種々の変更および組み合わせは明細書の記載を参照することにより当業者には明らかなものである。従って添付する請求項はこのような変更または実施態様の何れも包含するものとする。

本発明の特徴と長所をより完全に理解するために、上述の発明の詳細な説明と共に図面を以下に添付するものである。
Ｇｅｎｂａｎｋ中にリストアップされているヌクレオチド配列データの指数関数的な増加を示す図である。３次元構造データベースＰＤＢのデータの指数関数的な増加を示す図である。Ｓｗｉｓｓｐｒｏｔのタンパク質データの指数関数的な増加を示す図である。 Online Mendelian Inheritance in Manに登録されているヒト遺伝子及び遺伝障害のデータの指数関数的な増加を示す図である。ＭＥＤＬＩＮＥ中にリストアップされている本発明に基づく記事のデータの指数関数的な増加を示す図である。何れか一方を独立に検討したのでは明らかにならない、何か共通するものをもつ集合（たとえば、ＡとＣ）を示す図である。（Ａ）２つの概念（ＡとＣ）が、中間物Ｂ以外には支持する証拠なしで、互いに関係しているものと仮定され、また、（Ｂ）概念Ａに対する新たな関連性を発見しようとすると、関係する事項Ｂを介して探索することになり、その後で、最初の探索Ａでは見つけられなかった項目Ｃを介して探索が実行される、関係しているが相互に作用しない（非相互作用的な）ソース（たとえば、文献）を用いて探索するアプローチを示す図である。キーワードと要約との間の関係を示す図である。一般的なシステムロジックを解説する図である本発明の１つの態様によるシステムの重要な構成部品を解説するフローチャートである。本発明の１つの態様によるシステムがデータベースオブジェクトをコンパイルする１つの実施形態を示すフローチャートである。本発明の１つの態様によるシステムがどのようにして、曖昧な頭字語に最初にフラグ付けすることによってデータベースオブジェクトを純化するかを示すフローチャートである。本発明の１つの態様によるシステムが、オブジェクトの同時発生がないかソースを走査して冗長度を軽減し、また、関係を作成する１つの実施形態を示すフローチャートである。本発明の１つの態様によるシステムがどのようにして、各オブジェクトに固有な数値ＩＤ（長い整数）を割り当てて、最も低いＩＤで非方向性関係をストアすることによって１つ又はそれ以上の関係を作成するかを示すフローチャートである。１つの実施形態によるシステムがどのようにして、ユーザが分析目的で１つ又はそれ以上のオブジェクトリストを入力した後で、共有関係を識別するかを示すフローチャートである。本発明のシステムがどのようにして、入力された情報から暗示的な関係を識別するかを示すフローチャートである。共有された暗示的関係をどのようにして識別するかを示すフローチャートである。本発明の１つの態様によるシステムの動作を示すフローチャートである。フルオキセチン（Prozac（登録商標））の上から６，０００の暗示的な関係をスコアで示すグラフである。本発明における、データベース中の各オブジェクトが有する関係の数の分布を示す図である。本発明における、データベース中の各オブジェクトが有する暗示的な関係と直接的な関係の分布を示す図である。図１７は、ランダムな集合と主題の集合との間でもっとも高度に関係する１０のオブジェクトの観察対期待比の平均値の比較を示す図であり、ここで、ランダム集合に対してｎ＝１０であり、主題の集合に対してはｎは変化するが少なくとも５である。関係の強度と相互関連している関係オブジェクトとの統計的特性を示す図であり、ここで、２０，０００の関係オブジェクトが関係データベースからランダムに選ばれて、それが共有する全ての既知の関係の平均パーセンテージについて分析されている。関係の強度と相互関連している関係オブジェクトとの統計的特性を示す図であり、ここで、２０，０００の関係オブジェクトが関係データベースからランダムに選ばれて、それが共有する関係の平均強度について分析されている。心臓肥大の発症に対するクロルプロマジンの防護効果を示す図であり、ここで、心エコー図を用いて、治療（処置）の過程で互いに異なったいくつかの心臓構造物の重量と厚さの変化を推定した。遺伝子ベータカテニンに関連するオブジェクトと、有効であると考えられる接続に対する観察の回数の最小数を可変させる効果とを示す図であり、時間に対して指数関数的に成長する接続の合計である。遺伝子ベータカテニンに関連するオブジェクトと、有効であると考えられる接続に対する観察の回数の最小数を可変させる効果とを示す図であり、どれほど多くのオブジェクトが、任意の時点で暗示的にベータカテニンに関連していることが知られていたかを過去にさかのぼって見るものである。時間に対するベータカテニンと暗示的に関連するオブジェクトの合計を示すグラフであり、「ベータカテニン」というキーワードでＭＥＤＬＩＮＥを探索することによって得られた１，２７０の要約のみ（１９９２〜２００２年）を用いた一次的ドメイン分析を示すものである。時間に対するベータカテニンと暗示的に関連するオブジェクトの合計を示すグラフであり、ベータカテニンに密接に関係するオブジェクトであるｗｎｔを伴う１，９７０のレコード（１９８９〜２００２年）の追加である。時間に対するベータカテニンと暗示的に関連するオブジェクトの合計を示すグラフであり、Ｗｉｎｇｌｅｓｓ、アルファカテニン、アルマジロ、Ｎカドヘリン、Ｅカドヘリン、プラコグロビン、ウボモルビン及びｐ１２０というオブジェクトを含むベータカテニンと直接に関連する４，０２８の早期の（１９９３年以前）レコードをさらに追加するものである。時間に対するベータカテニンと暗示的に関連するオブジェクトの合計を示すグラフであり、ＭｅＳＨドメイン探索「マグネシウム」とキーワード「増加」から得られる９，４９０のレコードをさらに追加するものである。本発明の１つの態様によるシステムによって実行されるナレッジ発見方法を示す。本発明のシステムは、ＮＩＤＤＭ（黒色のノード）などの一次対象オブジェクトから始めて、直接的に既知である関係を表すＭＥＤＬＩＮＥ内で観察される他のオブジェクト（灰色のノード）との全ての同時引用と同時発生とを識別する。次に、本発明のシステムは、これらのノードを全て、それが、一次オブジェクトと関係していることがわかっていない他の（白色のノード）オブジェクトとどのような関係にあるか検討し、暗示的に関係しているオブジェクトを識別する。一次オブジェクトと多くの関係を共有する暗示的に関係しているオブジェクト（たとえば、トップから３番目のノード）はさらに分析されるべき主要な候補と考えられる。本発明によって、メチル化とＮＩＤＤＭ間の重要な共有関係を示すが、ここで二者間で合計で１，２８７の同時引用されたオブジェクトが識別され、その内、推定で９５９のオブジェクトが重要度のある（non-trivial nature）実際的な関係を表している。シルデナフィル（Viagra（登録商標））に対する直接的な関係と暗示的な関係と本発明の１つの態様によるシステムによって決定されたスコアとの相関関係を示すグラフである。オブジェクトクエリーと、その暗示的な関係、スコア及び他の分析を含む関係との表であり、ここで、略式に示されているものは次の通りである：「クエリーオブジェクト」とは暗示的な関係に関して問い合わされているオブジェクトのことであり、「共有関係」とはクエリーオブジェクトが暗示的オブジェクトと共有している関係の数のことであり、「暗示的な関係」とは共有されている中間的関係の集合を通じてクエリーオブジェクトと暗示的に関係しているオブジェクトのことであり、「タイプ」とはオブジェクトのタイプ（薬物、化合物、遺伝子、表現型など）のタイプのことであり、「品質」とは各々の関係が真実である全体的な統計確率に基づいて真実であると推定される共有関係の数のことであり、「AB_int_str」とはＡとＢ間でマッチする関係の曲線下面積（ＡＵＣ）で計算された統合強度のことである［すなわち、Ａの持つ関係の全てのことであり、Ｂとマッチする関係の（全体の％としての）総合強度であり、全ての関係が完全にマッチすれば、強度は１であり、整合する関係の多くが弱ければ、この数値は小さくなる］、「BC_int_str」とはＣ及びＢと同じであり、「Inp_int_str」とはＡとＢを接続する関係の内の最も弱い関係（暗示的強度）のことである、「Imp_Int_Ver」とは信憑性のスコアの曲線下面積のことであり、関係の重要度という点ではなく、真実である尤度の推定値という点での関係を測定する方法である、[Direct_Str]「直接強度」とは直接的な強度であって、ＭＥＤＬＩＮＥ内で見受けられる同時発生の数の関数であり、暗示的であればこれはブランクである、「期待」とはＡの可能性とＣの可能性間で我々がどれほど多くの関係を期待するかを示すものであり、「Obs/Exp」とは、スコア化に対するキーであり、品質の推定値を期待値で除算したものであり、「スコア」とは品質／期待値のことである。本発明によるシステムで実行される情報抽出（ＩＥ）ステップを解説するフローチャートである。図２７−１から２７−４５は本発明の１つの態様によるシステムを用いるマイクロアレイ分析によって識別された関係を示す図である。

Claims

１つ又はそれ以上の情報ドメインを含むデータソース、
１つ又はそれ以上の情報ドメインからのオブジェクトを含むオブジェクト−関係データベース、及び
２つ又はそれ以上の統合されたオブジェクトが識別され、検索され、グループ化され、ランク付けされ、フィルタリングされ、数値評価されるナレッジ発見エンジン、を備える
１つ又はそれ以上のデータソースからデータをマイニングするシステム。
前記ソースが文字情報（textual information）を含む１つ又はそれ以上のデータベースである、請求項1に記載のシステム。
前記ソースが数値情報を含む１つ又はそれ以上のデータベースである、請求項1に記載のシステム。
前記２つ又はそれ以上のオブジェクト間の関係が直接的又は間接的であると識別される、請求項１に記載のシステム。
前記２つ又はそれ以上の統合されたオブジェクト間の関係が、直接的オブジェクト及び間接的オブジェクト間の関係の相対的強度に基づいてランク付けされる、請求項４に記載のシステム。
前記関係が、陽性（positive）、陰性（negative）、物理的及び論理的な関連性から成る群より選択されるカテゴリに設定される、請求項１に記載のシステム。
前記情報ドメインが、テキスト、記号、数値及びそれらの組み合わせを情報とするデータのパーセルを含む、請求項１に記載のシステム。
前記システムが少なくとも部分的に自動化されている、請求項1に記載のシステム。
前記ナレッジ発見エンジンが、語彙的処理によって２つ又はそれ以上の統合オブジェクトをフィルタリングする、請求項１に記載のシステム。
前記オブジェクト−関係データベース（ＯＲＤ）が：
１つ又はそれ以上のデータソースオブジェクトをコンパイルするステップ、
前記データベースオブジェクトの同義語を追加するステップ、及び
前記１つ又はそれ以上のデータソース中の情報をオブジェクト−関係データベース中にグループ化するステップ、を含む
方法を用いて作成される、請求項１に記載のシステム。
データソースからの語彙的異形のデータベースをさらに含む、請求項１０に記載のシステム。
前記システムが、同義語を追加するために、前記語彙的異形のデータベースで前記オブジェクト−関係データベースを走査するプログラムをさらに含む、請求項１１に記載のシステム。
前記システムが、前記オブジェクト−関係データベースにエラーがないかどうかチェックするプログラムを含む、請求項１２に記載のシステム。
前記ＯＲＤ作成方法が、各データベースに、固有の数値ＩＤを割り当てて、最初に最も低いＩＤで非方向性関係をストアすることによって、処理効率を向上させるステップをさらに含む、請求項１０に記載のシステム。
非構造化テキスト、構造化データ、リスト、表、句、パラグラフ、要約、プログラム、マニュアル、教科書、参考書、学術論文、実験ノート、手紙、メモ、ｅメール、目次、指標、雑誌、記事、科学文献、特許、特許出願、国際出願、Ｗｅｂページ、スプレッドシート、ＵＲＬ、又は関係データベース、及びこれらの組み合わせからオブジェクトが検索される、請求項１に記載のシステム。
前記オブジェクトが、遺伝子、タンパク質、化合物、小分子、薬物、疾病、臨床的表現型並びに、ＣｈｅｍＩＤ、ＭｅＳＨ、ＦＤＡ、ｌｏｃｕｓｌｉｎｋ、ＧＤＢ、ＨＧＮＣ、ＭｅＳＨ、Ｍｅｄｌｉｎｅ、Ｓｎｏｗｍｅｄ及びＯＭＩＭから成る群より選択される他の識別子、から成る群より選択される、請求項１５に記載のシステム。
前記ＯＲＤ作成方法が、一般語を選別・除去するステップをさらに含む請求項１０に記載のシステム。
前記ＯＲＤ作成方法が、語データベースをアクセスすることによって語の大文字化とパターンとを識別するステップをさらに含む請求項１０に記載のシステム。
前記語彙的異形を構築するステップが、同義語データベースを用いるステップをさらに含む、請求項１１に記載のシステム。
前記語彙的異形を構築するステップが、同義語分解アルゴリズムを用いるステップをさらに含む、請求項１０に記載のシステム。
１つ又はそれ以上のオブジェクトを表示するグラフィカルユーザインタフェースをさらに含む、請求項１に記載のシステム。
前記インタフェースが制御部品を備え、この部品をクリックすると、前記ソースデータの文脈から誘導された統合オブジェクトを表示することが可能である、請求項２１に記載のシステム。
前記オブジェクト−関係データベースの一部が：
前記データソースからテキストのブロックを入力するステップ、
前記ソースから情報を抽出して、レコード（記録）を作成するステップ、及び
前記オブジェクト−関係データベース中の句と前記レコード中の語がマッチするように１つ又はそれ以上のアレイを作成するステップ、を含む
方法を用いて構築される、請求項１に記載のシステム。
前記方法が、頭字語を分解するステップをさらに含む、請求項２３に記載のシステム。
前記方法が、前記レコードを解析して文とし、各文を解析して語とするステップをさらに含む、請求項２３又は２４に記載のシステム。
前記情報がタイトル、要約、日付及びＰＭＩＤのフィールドを含む、請求項２３に記載のシステム。
前記テキストのブロックが、リスト、表、句、パラグラフ、要約、プログラム、マニュアル、教科書、参考書、実験ノート、レター、メモ、ｅメール、目次、雑誌、記事、科学文献、特許、特許出願、国際出願、Ｗｅｂページ、スプレッドシート、ＵＲＬもしくは関係データベース及びこれらの組み合わせからなる群より選択される、請求項２２に記載のシステム。
前記テキストのブロックがＰｈｙｓｉｃｉａｎ’ｓＤｅｓｋＲｅｆｅｒｅｎｃｅ（米国医師の処方医薬品情報事典）から選択される、請求項２７に記載のシステム。
前記テキストのブロックには、前記情報のソースが、選択されたインパクトの判断基準による他の同様のソースよりも高いインパクトを有するものと考えられる場合に、より高い値が与えられる、請求項２３に記載のシステム。
１つ又はそれ以上の情報ドメインを含むデータソースから形成された（generated）オブジェクト−関係データベース、及び
データソース中のオブジェクト間の関係を識別するナレッジ発見エンジンであり、前記ナレッジ発見エンジンは前記データソース内のオブジェクトの１つ又はそれ以上の同時発生を識別して、前記オブジェクト間の暗示的関係を識別する、前記ナレッジ発見エンジン、を含む
オブジェクトを関係付けるシステム。
前記ナレッジ発見エンジンが包括的な関係ネットワークを形成する（generate）請求項３０に記載のシステム。
前記ナレッジ発見ネットワークが部分的な関係ネットワークを形成する請求項３１に記載のシステム。
前記識別された関係がシステムデータベース中にストアされ、また、前記システムが、ユーザに前記暗示的関係に関する情報にアクセスすることを可能とするクエリーモジュールをさらに含む、請求項３０に記載のシステム。
前記ナレッジ発見エンジンが、１つ又はそれ以上の統計的に境界付けされたネットワークモデルを用いて関係を評価する、請求項３０に記載のシステム。
薬物に関連する情報を含む１つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベース、及び
前記薬物のデータソース中の意味ある関係を認識するナレッジ発見エンジン、を含み、前記ナレッジ発見エンジンは、前記データソース内のオブジェクトの１つ又はそれ以上の同時発生と前記薬物とを識別し、前記オブジェクト−関係データベース中のオブジェクト間の関係と前記薬物の包括的ネットワークを形成し、少なくとも１つの関係が前記薬物の新しい指示（indication）を識別する、
薬物の新しい指示を識別するシステム。
前記ナレッジ発見エンジンが、１つ又はそれ以上の統計的に境界付けされたネットワークモデルを用いて関係を評価する、請求項３５に記載のシステム。
前記システムが、共有された暗示的関係を結果データベース中にさらにストアする、請求項３５に記載のシステム。
薬物に関連する情報を含む１つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベース、及び
前記オブジェクト関係データベース中の意味ある関係を認識するナレッジ発見エンジンとを含み、前記ナレッジ発見エンジンは、前記データソース内のオブジェクトの１つ又はそれ以上の同時発生と前記薬物とを識別し、オブジェクトと薬物の間に共有された暗示的関係を識別し、また、前記１つ又はそれ以上の関係が前記薬物の１つ又はそれ以上の禁忌及び／又は副作用を示す尤度を識別する、
薬物の禁忌及び／又は副作用を識別するシステム。
前記ナレッジ発見エンジンが、前記データソース中のデータと前記薬物間の関係の包括的ネットワークを形成して、１つ又はそれ以上の統計的に境界付けされたネットワークモデルによって評価された前記共有された暗示的関係をストアする、請求項３８に記載のシステム。
少なくとも２つ薬物に関連する情報を含む１つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベース、及び
前記オブジェクト関係データベース中の意味ある関係を認識するナレッジ発見エンジンとを含み、前記ナレッジ発見エンジンは、前記データソース内のオブジェクトの１つ又はそれ以上の同時発生と薬物とを識別し、オブジェクトと薬物の間に共有された暗示的関係を識別し、また、前記１つ又はそれ以上のオブジェクトの前記少なくとも２つの薬物、２つの遺伝子又は薬物と遺伝子、すなわち、他の値関係でもありえるが、との同時発生が前記少なくとも２つの薬物間の相互作用を示す尤度を識別する、
少なくとも２つの薬物間の相互作用を識別するシステム。
前記ナレッジ発見エンジンが、前記データソース中の関係と前記薬物との包括的ネットワークを形成して、１つ又はそれ以上の統計的に境界付けされたネットワークモデルによって評価された前記共有された暗示的関係をストアする、請求項４０に記載のシステム。
疾病及び化合物又は生体分子に関連する情報を含む１つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベース、及び
前記疾病のデータベース中の意味ある関係を認識するナレッジ発見エンジン、を含み、前記ナレッジ発見エンジンは、前記データソース内でのオブジェクト、すなわち前記疾病及び／又は化合物又は生体分子の１つ又はそれ以上の同時発生を識別し、また、前記化合物又は生体分子と前記疾病間の共有された暗示的関係を識別する、
化合物又は生体分子と疾病間との関係を識別するシステム。
前記ナレッジ発見エンジンが、前記オブジェクト−関係データベース中のデータと前記疾病との間の関係の包括的ネットワークを形成し、１つ又はそれ以上の統計的に境界付けされたネットワークモデルによって評価された前記共有された暗示的関係をストアする、請求項４２に記載のシステム。
前記生体分子が核酸又はタンパク質である、請求項４２に記載のシステム。
印刷された情報を走査して、前記印刷された情報からデータソースを形成するスキャナを含む走査モジュールをさらに含む、請求項１、３０、３５、３８、４０又は４２に記載のシステム。
前記システムが前記ナレッジエンジンの機能を実行するプロセッサを含む、請求項１、３０、３５、３８、４０又は４２に記載のシステム。
前記オブジェクト−関係データベースをストアするコンピュータ読み取り可能媒体をさらに含む、請求項４６に記載のシステム。
前記システムの少なくとも２つの機能が、前記ネットワークに接続可能なサーバと少なくとも１つのクライアントコンピュータに分散されるクライアント／サーバアーキテクチャをさらに含む、請求項４７に記載のシステム。
前記システムが１つ又はそれ以上のデータソースにアクセスするプログラムを含む、請求項４８に記載のシステム。
前記オブジェクト関係データベースが動的であり、また、前記１つ又はそれ以上のデータソースからの新しいオブジェクトを前記データベースに追加する、請求項４８に記載のシステム。
前記システムが、新しいオブジェクトが前記１つ又はそれ以上のデータソースから追加されたときにオブジェクトネットワークを再計算する、請求項５０に記載のシステム。
前記システムが、再計算結果を監視するエンジンをさらに含み、また、前記システムがオブジェクト間の関係を再評価する、請求項５１に記載のシステム。
前記データベースが前記少なくとも１つのクライアントコンピュータにダウンロード可能である、請求項４８に記載のシステム。
前記データベース（ネットワーク）が前記サーバコンピュータのメモリ中にストアされ、また、前記少なくとも１つのクライアントが前記データベースに対して前記サーバと通信することによってアクセスすることが可能である、請求項４８に記載のシステム。
前記システムが結果と分析のデータベースをさらに含み、前記結果と分析のデータベースがオブジェクトの関係に関するクエリー（問い合わせ）と前記クエリーの結果とに関連する情報を含む、請求項１、３０、３５、３８、４０又は４２に記載のシステム。
前記結果と分析のデータベースが、前記結果の解釈に関連する情報を含むレコード（記録）をさらに含む、請求項５５に記載のシステム。
前記結果と分析のデータベースが、前記結果を確認するデータをさらに含む、請求項５５に記載のシステム。
前記システムが、関係をランク付けする命令を含むコンピュータコードを実行するアプリケーションプログラムをさらに含む、請求項１、３０、３５、３８、４０又は４２に記載のシステム。
前記コンピュータコードが、個々のランク付け因子の線形又は非線形のグルーピングをシステムプロセッサに形成させる命令を含む、請求項５８に記載のシステム。
各個々のランク付け因子が各項目を重み付けする係数と関連する、請求項５９に記載のシステム。
重みが、次の因子、すなわち、前記データソースのソースと、前記データソースが公開された日付と、オブジェクトの同時発生期待頻度に対するオブジェクトの同時発生観察頻度の比と、前記データソースと関連する著者の名称と、前記データソースと関連する機関の名称と、別のデータソース中でのオブジェクトの同時発生頻度との内の１つ又はそれ以上によって決定される、請求項６０に記載のシステム。
データソースを得る又はこれにアクセスするステップ、
前記データソースデータからのオブジェクトを含むオブジェクト−関係データベースを形成するステップ、及び
前記オブジェクト−関係データベース中の直接的関係と暗示的関係との強度を識別するステップを含む、１つ又はそれ以上のナレッジドメインを含む、データソースからデータをマイニングする方法。
前記データソースソース中のデータを前記データソース中のオブジェクトの同時発生がないかどうか探索し、前記データソースからオブジェクトを検索して、前記同時発生に基づいて前記オブジェクト−関係データベース中にストアするようにする、請求項６２に記載の方法。
前記データが、非構造化テキスト、構造化データ、リスト、表、句、パラグラフ、要約、プログラム、マニュアル、教科書、参考書、学術論文、実験ノート、レター、メモ、ｅメール、目次、指標、雑誌、記事、科学文献、特許、特許出願、国際出願、Ｗｅｂページ、スプレッドシート、ＵＲＬもしくは関係データベース及びこれらの組み合わせからなる群より選択される、請求項６１に記載の方法。
関係がその強度によってランク付けされる、請求項６３に記載の方法。
強度が、次の因子、すなわち、前記データソースのソースと、前記データソースが公開された日付と、オブジェクトの同時発生期待頻度に対するオブジェクトの同時発生観察頻度の比と、前記データソースと関連する著者の名称と、前記データソースと関連する機関の名称と、別のデータソース中でのオブジェクトの同時発生頻度との内の１つ又はそれ以上によって決定される、請求項６３に記載の方法。
１つ又はそれ以上のデータソースを含むデータソースから形成されたオブジェクト−関係データベースを形成する又は前記オブジェクト−関係データベースにアクセスするステップ、
オブジェクト間の暗示的関係を、ナレッジ発見エンジンを用いて識別するステップ、及び
前記関係の強度を判定するステップを含む、
オブジェクトを関係付ける方法。
前記データソース内のオブジェクトの同時発生頻度が判定される、請求項６１に記載の方法。
前記ナレッジ発見エンジンが、暗示的関係を識別するために関係の包括的ネットワークを形成する、請求項６１に記載の方法。
前記関係の強度が１つ又はそれ以上の統計的に境界付けされたネットワークモデルを用いて評価される、請求項６７に記載の方法。
薬物に関連する情報を含むデータソースから形成されたオブジェクト−関係データベースを得る又はこれにアクセスするステップ、及び
前記データソースからのオブジェクトの１つ又はそれ以上の同時発生を識別し、前記オブジェクト−関係データベース中のオブジェクト間の関係と前記薬物との包括的ネットワークを形成して、前記オブジェクトと前記薬物間の暗示的関係を識別することによって、意味ある関係を認識するナレッジ発見エンジンで前記オブジェクト−関係データベース中の情報の処理し、少なくとも１つの関係が前記薬物の新しい指示を識別するステップ、を含む
薬物の新しい指示を識別する方法。
１つ又はそれ以上の統計的に境界付けされたネットワークモデルによって評価された共有関係をストアするステップをさらに含む、請求項７１に記載の方法。
薬物に関連する情報を含む１つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベースを得る又はこれにアクセスするステップ、及び
前記オブジェクト−関係データベース中の情報を、前記オブジェクト−関係データベース中の意味ある関係を認識するナレッジ発見エンジンで処理するステップ、とを含み、前記ナレッジ発見エンジンはデータソース内のオブジェクトの１つ又はそれ以上の同時発生と薬物とを識別し、オブジェクトと前記薬物間の共有された暗示的関係を識別し、また、前記１つ又はそれ以上の関係が前記薬物の１つ又はそれ以上の禁忌及び／又は副作用を示す尤度を識別する、
薬物の禁忌又は副作用を識別する方法。
少なくとも２つの薬物に関連する情報を含む１つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベースを得る又はこれにアクセスするステップ、及び
前記オブジェクト−関係データベース中の情報を、前記オブジェクト−関係データベース中の意味ある関係を認識するナレッジ発見エンジンで処理するステップ、とを含み、前記ナレッジ発見エンジンは前記データソース内のオブジェクトの１つ又はそれ以上の同時発生と薬物とを識別し、オブジェクトと前記薬物間の共有された暗示的関係を識別し、また、前記１つ又はそれ以上のオブジェクトと前記少なくとも２つの薬物との同時発生が、前記２つ又はそれ以上の薬物間の相互作用を示す尤度を識別する、
少なくとも２つの薬物間の相互作用を識別する方法。
１つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベースを得るステップ、及び
前記オブジェクト−関係データベース中の情報をナレッジ発見エンジンで処理するステップとを含み、前記ナレッジ発見エンジンは、前記データソース内でのオブジェクト、疾病及び／又は化合物又は生体分子の１つ又はそれ以上の同時発生を識別し、化合物又は生体分子と疾病間の共有された暗示的関係を識別する、
化合物又は生体分子と疾病との間の関係を識別する方法。
１つ又はそれ以上のデータソースから１つ又はそれ以上のオブジェクトをコンパイルするステップ、
前記１つ又はそれ以上のデータソース中の情報をオブジェクト−関係データベース中にグループ化するステップ、
１つ又はそれ以上のデータソースから語彙的異形のデータベースを構築するステップ、
前記語彙的異形のデータベースを前記オブジェクト−関係データベース中のオブジェクトと比較するステップ、
前記語彙的異形データベースで前記オブジェクト−関係データベースを走査して、同義語を追加するステップ、
各オブジェクトに固有の数値ＩＤを割り当てて、非方向性関係を最初に最も低いＩＤでストアするステップ、及び
前記オブジェクト−関係データベースをエラーがないかどうかチェックするステップ、を含む
オブジェクト−関係データベース（ＯＲＤ）を作成する方法。
データベースオブジェクトをコンパイルするために用いられるデータソースが、化合物、小分子、疾病、表現型、遺伝子、タンパク質、臨床データ、薬物、ＣｈｅｍＩＤからの識別子、ＭｅＳＨからの識別子、ＦＤＡからの識別子、ｌｏｃｕｓｌｉｎｋからの識別子、ＧＤＢからの識別子、ＨＧＮＣからの識別子、ＭｅＳＨからの識別子、ＯＭＩＭからの識別子から成る群より選択される、請求項７６に記載の方法。
データベースオブジェクトをコンパイルするデータソースが、リスト、表、句、パラグラフ、要約、プログラム、マニュアル、教科書、参考書、実験ノート、レター、メモ、ｅメール、目次、雑誌、記事、科学文献、特許、特許出願、国際出願、Ｗｅｂページ、スプレッドシート、ＵＲＬもしくは関係データベース及びこれらの組み合わせを含む、請求項７６に記載の方法。
１つ又はそれ以上のデータソース又は１つ又はそれ以上のデータソースの部分を走査して、新しいオブジェクトを抽出する、請求項７６に記載の方法。
前記抽出ステップが、１つ又はそれ以上のデータソース又はその部分からデータの文脈中のオブジェクトを選択して、前記オブジェクトが前記オブジェクト−関係データベース中に含まれているか判定するステップを含む、請求項７６に記載の方法。
オブジェクトが含まれていなかった場合、それは前記オブジェクト−関係データベース中にストアされる、請求項８０に記載の方法。
オブジェクトが前記オブジェクト−関係データベース中に含まれているかどうかに関する情報が、グラフィカルユーザインタフェースに表示される、請求項８０に記載の方法。
前記走査され選択されたデータもまた前記グラフィカルユーザインタフェース上に表示される、請求項８２に記載の方法。
前記オブジェクト関係データベース中のオブジェクトがテキスト、数字又は記号である、請求項７６に記載の方法。
語データベースを用いて前記オブジェクト関係データベースをフィルタリングして、曖昧な頭字語を除去するステップをさらに含む、請求項７６に記載の方法。
同義語データベースを用いて語彙的異形を識別するステップをさらに含む、請求項７６に記載の方法。
頭字語分解アルゴリズムを用いて語彙的異形を識別するステップをさらに含む、請求項７６又は８５に記載の方法。
前記意データベース中のデータのソースからのテキストの文脈中のオブジェクトを提供するステップをさらに含む請求項７６に記載の方法。
前記データソース中の冗長度を減少させるステップをさらに含む、請求項７６に記載の方法。
前記冗長度を減少させる方法が：
ソースからテキストのブロックを入力するステップ、
前記ソースから情報を抽出して、レコード（記録）を作成するステップ、
前記レコードを解析して文とし、各文を解析して語とするステップ、
前記オブジェクト−関係データベース中の句と語がマッチするように１つ又はそれ以上のアレイを作成するステップ、
頭字語にフラグ付けするステップ、及び
前記頭字語を前記語彙的異形データベースにストアするステップとを含む、
請求項８９に記載の方法。
データソースから１つ又はそれ以上の主題のクラスタを識別するステップ、
１つ又はそれ以上の主題のクラスタからオブジェクトのデータベースをコンパイルするステップ、
前記オブジェクトのデータベースを純化して冗長度を減少させるステップ、
前記データソースからの主題の集合を、同時発生するオブジェクトがないか走査するステップ、
同時発生オブジェクトを関係として識別するステップ、
前記識別された関係を分析して、１つ又はそれ以上のオブジェクトに対する統計的関与度を求めるステップ、
１つ又はそれ以上の関係データベースを作成するステップ、及び
前記関係と前記関係データベースをストアするステップを含む、
新規な相互関連関係を識別する方法。
前記オブジェクトのデータベースをコンパイルするステップが：
一緒にグループ化される所定のフィールドを作成するステップ、
類似の情報グループを収容するデータベースを識別するステップ、
データベースエントリを事前定義されたフォーマットに前処理するステップ、
前記エントリを分解するステップ、及び
エラーがあるかどうかチェックして、事前選択された判断基準に基づいて興味のないエントリを除去するステップ、をさらに含む
請求項９１に記載の方法。
前記オブジェクトのデータベースを純化するステップが、語彙的異形の語データベースを用いて曖昧な頭字語にフラグ付けするステップをさらに含む、請求項９１に記載の方法。
前記オブジェクトのデータベースを純化するステップが、同時発生オブジェクトがないかソースを走査して、冗長度を軽減させて関係を作成するステップをさらに含み：
前記ソースからテキストのブロックを入力するステップ、
前記テキストブロックからデータを抽出するステップ、
前記データを解析して文とするステップ、
各文を解析して語とするステップ、
前記語を１つ又はそれ以上のアレイ中に入れるステップ、
どのアレイからの語ともマッチするように前記オブジェクトデータベースをマッチさせるステップ、及び
前記オブジェクトデータベースと前記アレイからの語とがマッチするか判定するステップ、を含む
請求項９１に記載の方法。
前記関係データベース内の関係を識別するステップが：
各オブジェクトに固有の数値ＩＤを割り当てるステップ、及び
最初に最も低いＩＤで非方向性関係をストアするステップを含む、
請求項９４に記載の方法。
前記関係データベース内の関係を識別するステップが：
ユーザが１つ又はそれ以上のオブジェクトリストを分析目的で入力した後で共有関係を識別するステップ、
オブジェクト毎に前記１つ又はそれ以上のリストからの全ての関係を１つのリストにコンパイルするステップ、
関係するオブジェクトを頻度でカウントするステップ、及び
期待値を計算するステップを含む、
請求項９４に記載の方法。
可能な全接続のｘ％未満又は観察／期待比のｙ％未満の共有オブジェクトを除外するステップ、
共有関係毎に暗示的に関係しているオブジェクトを識別するステップ、及び
暗示的に関係しているオブジェクトに、直接的な観察／期待比に前記暗示的オブジェクトに至る固有経路の数を乗算することによってスコア化するステップをさらに含む、
請求項８５に記載の方法。
前記ユーザが前記可能な接続の合計のｘ％を可変させて、前記暗示的関係のスコアを可変させる、請求項９７に記載の方法。
前記ユーザが前記観察／期待比のｙ％を可変させて、前記暗示的関係のスコアを可変させる、請求項９７に記載の方法。
前記相互関連関係は、薬物、化合物、小分子、表現型、疾病、遺伝子、遺伝子型及びこれらの組み合わせの間の関係である、請求項９７に記載の方法。
１つ又はそれ以上の第１、第２及び第３のオブジェクト間の関連強度ベクトルを計算するステップ、
前記第１、第２及び第３のオブジェクトの１つ又はそれ以上のオブジェクトに対するソースインパクトのスコアのデータソースからソースインパクトのスコアを得るステップ、及び
前記強度ベクトルに、前記第１、第２及び第３のオブジェクトの１つ又はそれ以上のオブジェクトのソースインパクトスコアを乗算するステップ、を含む
１つ又はそれ以上のオブジェクト間の直接的関係を評価する方法。
前記ソースインパクトのスコアが、前記１つ又はそれ以上のオブジェクトがそれから得られた出版物に基づいている、請求項１０１に記載の方法。
前記ソースインパクトのスコアが、前記１つ又はそれ以上のオブジェクトのソースが他のソースによって引用された回数に基づいている、請求項１０１に記載の方法。
前記ソースインパクトのスコアが、前記１つ又はそれ以上のオブジェクトのソースが学術論文によって引用された回数に基づいている、請求項１０１に記載の方法。
前記ソースインパクトのスコアが、前記１つ又はそれ以上のオブジェクトのソースが１つ又はそれ以上の教科書中で引用された回数に基づいている、請求項１０１に記載の方法。
前記ソースインパクトのスコアが、前記１つ又はそれ以上のオブジェクトが総説中で引用された回数に基づいている、請求項１０１に記載の方法。
前記ソースインパクトのスコアが、その重要度と関与度の推定値に基づいている、請求項１０１に記載の方法。
前記ソースインパクトのスコアはその値として、前記１つ又はそれ以上のオブジェクトのソースがピアレビュージャーナルで刊行された回数に基づいたスコアを与えられる、請求項１０１に記載の方法。
インパクトのスコアが高ければ重要度と関与度も高いことを含意する、請求項１０１に記載の方法。
１つ又はそれ以上の情報ドメインを含むデータのソースを含むようになっているコードセグメント、
オブジェクト−関係データベースを維持するようになっているコードセグメント、及び
２つ又はそれ以上のオブジェクト間で関係が探索され、グループ化され、ランク付けされ、フィルタリングされ、検索されるナレッジ発見エンジンを含むようになっているコードセグメント、を含む
情報ドメインにアクセスするコンピュータ読み取り可能媒体上に実現されたコンピュータプログラム。
１つ又はそれ以上のデータベースオブジェクトをコンパイルするようになっているコードセグメント、
前記１つ又はそれ以上のデータベースオブジェクト中の情報をオブジェクト−関係データベース中にグループ化するようになっているコードセグメント、
１つ又はそれ以上のデータベースから語彙的異形のデータベースを構築するようになっているコードセグメント、
前記語彙的異形のデータベースで前記オブジェクト−関係データベースを走査して、同義語を追加するようになっているコードセグメント、及び
各オブジェクトに固有の数値ＩＤを割り当てて、最初に最も低いＩＤで非方向性関係をストアするようになっているコードセグメント、及び
前記オブジェクト−関係データベースをエラーがないかどうかチェックするようになっているコードセグメント、を含む
オブジェクト−関係データベース（ＯＲＤ）を作成するコンピュータ読み取り可能媒体上に実現されるコンピュータプログラム。
１つ又はそれ以上の情報ドメインを含むデータのソースにアクセスするステップ、
前記情報ドメインをオブジェクト−関係データベース中にコンパイルして、前記１つ又はそれ以上の情報ドメインからのオブジェクトを統合するステップ、及び
２つ又はそれ以上の統合オブジェクト間の関係が識別され、検索され、グループ化され、ランク付けされ、フィルタリングされ、数値評価される、ナレッジ発見エンジンを用いるステップ、を含む
方法によって形成される
新しい薬物療法のための複数の候補化合物を含むデータ構造。
１つ又はそれ以上の情報データベースを含むデータソースから生成されたオブジェクト−関係データベースを得るステップ、並びに
データソースからの意味ある関係を識別するために、ナレッジ発見エンジンを用いて１つ又はそれ以上のオブジェクトを処理するステップであり、そのステップが、
データソースからのオブジェクトの１つ又はそれ以上の同時発生を識別して、関係の包括的ネットワークを生成するステップ、及び
１つ又はそれ以上の統計的境界付けされたネットワークモデルによって評価された共有関係をストアし、共有関係上で問い合わせ（クエリー）が行われ、関係の包括的ネットワークから新規の関係を識別するステップ、を含む方法によって生成された
評価のための複数の候補化合物を含むデータ構造。
化合物に関連する情報を含む１つ又はそれ以上の情報ドメインを含むデータソースから生成されたオブジェクト−関係データベースを得るステップ、及び
データベース中でのオブジェクトの１つ又はそれ以上の同時発生を識別することによって薬物と１つ又はそれ以上のオブジェクト間の意味ある関係を認識するナレッジ発見エンジンを用いて前記データソース中の情報を処理し、関係の包括的ネットワークを生成し、１つ又はそれ以上の統計的境界付けされたネットワークモデルによって評価された共有関係をストアするステップ、を含む
化合物の以前には未確認の用途を識別するシステム。
心臓肥大の治療を必要とする患者を識別するステップ、及び
心臓肥大という用語を含むとクエリーを用いて、請求項１に記載のシステムを用いて識別された化合物の薬学的に効果のある分量を前記患者に提供するステップを含む、
心臓肥大を治療する方法。
クロルプロマジンの薬学的に効果のある分量を、治療を必要とする患者に提供するステップを含む、心臓肥大を治療する方法。
クロルプロマジンの薬学的に効果のある分量を、治療を必要とする患者に提供するステップを含む、心臓肥大を治療する方法。
ナロキソン、ナルトレキソン、トリオドシロニン、クロニジン、エストロゲン、タモキシフェン、コルヒチン、ブラジキニン、オマパトリラート(Omapatrilat)、アプスタチン(Apstatin)、ＣＯＸ−２選択性抑制剤、５−ＬＯＸ抑制剤、トロンボキサンＡ２レセプター拮抗薬、メラトニン、モルフィネ、ワルファリン／ヘパリン、コルチゾール及びメチオニンから成る群より選択される化合物から（組み合わせ療法で用いられる化合物のグループに対する別の請求項を構成する）の薬学的に効果のある分量を、治療を必要としている患者に与えるステップを含む、心臓肥大を治療する方法。
ＮＩＤＤＭの治療を必要とする患者を識別するステップ、及び
請求項１に記載のシステムを用いて識別された化合物の薬学的に効果的な分量を前記患者に与えるステップを含む、
インシュリン非依存性糖尿病（ＮＩＤＤＭ）を治療する方法。
ＮＩＤＤＭの治療を必要とする患者に、細胞核酸のメチル化を促進する化合物の薬学的に効果的な分量を投与するステップを含む、インシュリン非依存性糖尿病（ＮＩＤＤＭ）を治療する方法。
ＮＩＤＤＭの治療を必要とする患者に、ＤＮＡメチル化前駆体の薬学的に効果的な分量を投与するステップを含む、インシュリン非依存性糖尿病（ＮＩＤＤＭ）を治療する方法。
ＤＮＡメチル化のレベルを正常化する効果のある分量の１つ又はそれ以上のＤＮＡメチル化前駆体を含む、インシュリン非依存性糖尿病（ＮＩＤＤＭ）の危険がある個人用の栄養補給剤。
偏頭痛治療を必要とする患者を識別して、前記患者にシルデナフィルの薬学的に効果のある分量を与えるステップを含む偏頭痛治療方法。
筋肉痙攣治療を必要とする患者を識別するステップ、及び
前記患者にシルデナフィルの薬学的に効果のある分量を与えるステップを含む、
筋肉痙攣を治療する方法。
オブジェクト関係データベースが、核酸、タンパク質配列又はこのような配列の識別子であるオブジェクトを含む請求項１に記載のシステム、及び
オブジェクト間の関係に基づいて核酸配列と、核酸及び／又はタンパク質配列及び／又はこのような配列の識別子に対応する遺伝子とを、ナレッジエンジンを用いて選択して、ＤＮＡオンチップアセンブリ装置に対して、前記選択された核酸配列をソリッドサポート上で固定化する命令を与えるオリゴヌクレオチド選択モジュール、を含む
自動的選別システム。
前記命令が前記システムのユーザを介して前記装置に提供される、請求項１２４に記載のシステム。
前記核酸配列がＮＩＤＤＭと相互関連性を有するものと前記システムによって識別された、請求項１２４に記載のシステム。
情報ドメイン中の１つ又はそれ以上の主題の集合内のオブジェクトの１つ又はそれ以上の同時発生を識別するステップ、及び
前記オブジェクトの１つ又はそれ以上の同時発生が１つ又はそれ以上の主題の集合内の意味ある関係を表している確率を評価するステップと；
を含む、請求項１に記載のシステムを用いて識別された各関係に重要度を数値的に割り当てる方法。
前記重要度が、２つのオブジェクトが前記情報ドメイン中の主題の集合内で同時言及される回数の関数である、請求項１２７に記載の方法。
前記重要度が、２つのオブジェクト間の文字情報距離の関数である、請求項１２７に記載の方法。
前記重要度が前記主題の集合の外部尺度であり、前記外部尺度が重要度、関与度及び品質から成る群より選択される、請求項１２７に記載の方法。
前記重要度が、時間の経過による１つ又はそれ以上の同時発生パターンの評価を含む、請求項１２７に記載の方法。
自然言語処理エンジンを用いて、オブジェクトの１つ又はそれ以上の同時発生を識別する、請求項１２７に記載の方法。
前記主題の集合内の文脈情報を用いて重要度を割り当てる、請求項１２７に記載の方法。
前記テキストの主題の単位内の文脈情報を用いて関係に性質を割り当てる、請求項１３３に記載の方法。
重要度が信憑性である、請求項１２７に記載の方法。
１つ又はそれ以上のクエリーオブジェクトに直接的に関係している１つ又はそれ以上のオブジェクトを直接関係しているオブジェクトの集合として識別するステップ、
前記の直接関係しているオブジェクトの集合に関係している１つ又はそれ以上のオブジェクトを暗示的に関係しているオブジェクトの集合として識別するステップ、及び
暗示的に関係している各オブジェクトを定量的に評価して、それが前記クエリーオブジェクトと意味ある関係を共有する確率を、重要度スコアと信憑性スコアを誘導することによって決定するステップ、を含む
暗示的関係を識別する方法。
定量的評価が、統計的に類似の関係が偶然観察される確率をさらに含む、請求項１３６に記載の方法。
次の式（６）：

が用いられる、請求項１３６に記載の方法。
オブジェクトの集合を列挙するステップ、
前記集合に関係しているすべての新しいオブジェクトをデータソースから識別するステップ、及び
前記新しいオブジェクトが前記集合に関係している統計的有意性を定量的に評価するステップ、を含む
複数のオブジェクトを含む集合中の１つ又はそれ以上のオブジェクトによって共有される関係を識別する方法。
他のオブジェクトを前記集合にリンクするオブジェクトが識別され、前記集合に対して共通な１つ又はそれ以上の関係を識別するために用いられる、請求項１３９に記載の方法。
前記集合中の１つ又はそれ以上の主題のグルーピングが識別されて、ランダムグルーピングとはその結束性に基づいて区別される、請求項１３９に記載の方法。
前記統計的優位性が選択された値を満たせば、前記新しいオブジェクトが前記集合に追加される、請求項１３９に記載の方法。
少なくとも１つのオブジェクトが、マイクロアレイ上に配列された生体分子、アレイに結合する生体分子、遺伝子、生体分子の発現値、表現型、疾病、小分子、化合物、代謝体、薬物、治療剤、候補遺伝子、発現された配列及びこれらの組み合わせに対応する、請求項１３９に記載の方法。
前記発現値が０又は１であり、０は発現されていなくて１は発現されていることを示す、請求項１４３に記載の方法。
前記発現値が発現の定量的尺度を含む、請求項１４３に記載の方法。
前記集合が発現値を含むオブジェクトを含み、前記新しいオブジェクトが発現値を含む、請求項１４３に記載の方法。
前記新しいオブジェクトの発現値を評価して、前記集合の既知のオブジェクトに対するその関係を判定する、請求項１４６に記載の方法。
前記新しいオブジェクトが前記集合と意味ある関係を共有する確率の定量的評価が、重要度スコアと信憑性スコアを誘導することによって判定される、請求項１３９に記載の方法。
定量的評価が、統計的に類似の関係が偶然観察されえる確率をさらに含む、請求項１３９に記載の方法。
図２５に記載されているような暗示的関係を含むデータ構造。
請求項１、３０、３５、３８、４０又は４２及び１２４の何れかに記載のシステムの機能を実行するプログラムコードを含むコンピュータ読み取り可能媒体上にストアされるコンピュータプロクラムプロダクツ。
前記薬物がシルデナフィルである、請求項７１に記載の方法。