JP2006503351A - 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法 - Google Patents

情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法 Download PDF

Info

Publication number
JP2006503351A
JP2006503351A JP2004537843A JP2004537843A JP2006503351A JP 2006503351 A JP2006503351 A JP 2006503351A JP 2004537843 A JP2004537843 A JP 2004537843A JP 2004537843 A JP2004537843 A JP 2004537843A JP 2006503351 A JP2006503351 A JP 2006503351A
Authority
JP
Japan
Prior art keywords
objects
database
relationships
relationship
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004537843A
Other languages
English (en)
Other versions
JP2006503351A5 (ja
Inventor
アール ガーナー ハロルド
ディー レン ジョナサン
Original Assignee
ボード オブ リージェンツ ユニバーシティ オブ テキサス システム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ボード オブ リージェンツ ユニバーシティ オブ テキサス システム filed Critical ボード オブ リージェンツ ユニバーシティ オブ テキサス システム
Publication of JP2006503351A publication Critical patent/JP2006503351A/ja
Publication of JP2006503351A5 publication Critical patent/JP2006503351A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P21/00Drugs for disorders of the muscular or neuromuscular system
    • A61P21/02Muscle relaxants, e.g. for tetanus or cramps
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P25/00Drugs for disorders of the nervous system
    • A61P25/06Antimigraine agents
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P9/00Drugs for disorders of the cardiovascular system
    • A61P9/04Inotropic agents, i.e. stimulants of cardiac contraction; Drugs for heart failure
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Organic Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Medicinal Chemistry (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Cardiology (AREA)
  • Computing Systems (AREA)
  • Pain & Pain Management (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Neurology (AREA)
  • Neurosurgery (AREA)
  • Hospice & Palliative Care (AREA)
  • Heart & Thoracic Surgery (AREA)

Abstract

本発明は、情報のドメインにアクセスして、さまざまなデータ(7)のソース間の今まで未知であった関係を識別して、ナレッジ(18)を探して得るシステムと方法であるが、本発明は、1つ又はそれ以上の情報ドメインを持つデータソースと、1つ又はそれ以上の情報ドメインからのオブジェクトを統合するオブジェクト−関係データベース(53)とナレッジ発見エンジン(54)とを含み、2つ又はそれ以上のオブジェクト間の関係が識別され、検索され、グループ化され、ランク付けされ、フィルタリングされ、数値評価されることを特徴とする。

Description

(関連出願)
本出願は、2002年9月20日に出願された米国仮出願第60/412,398号の優先権を特許法§119(e)に基づいて主張するものであり、その全文は参照として本明細書に組み込まれる。
(政府の認可)
米国政府は、ゲノム研究のNIHナショナルセンター(NHGRI)のゲノムトレーニンググラント番号2−T32−HG00038−06に基づいて本発明の特定の権利を有するものである。
(技術分野)
本発明は、一般的にはナレッジ発見の分野に関し、より詳しくは、前もって無関係なオブジェクトをリンクさせることによって、共有された関係を識別して評価する手段としての関係分析に関する。
これまでは、情報やデータからなる互いに独立したパーセル間の新しい関係を識別する手段は、無境界の検索に依存していたが、これは多くの擬陽性を発生するものである。残念ながら、調査目的で利用可能なデータ(及びデータを含んで成るオブジェクト)の量は日々増大する一方で、増大し続けるデータソースを蓄積して使用する個人の能力は当然限られたものである。それと同様に重要なのは、新しいデータの有する多大な含意と、新しいデータと周知のデータとの間に存在する潜在的な関連性を理解する能力も限られていると言える。たとえば生物学の分野では、過去10年間でデータ量が爆発的に増加している。2002年の初期に、117,764を超える種に対してDNA配列が寄託され、352,924種類の周知の化合物の内の117,481種類の分子構造が識別されてリストアップされた。更に、少なくとも1つの機能を有する18,000以上のヒト遺伝子の位置が同定されている。データ(データベース)の1つのソースは、少なくとも13,034種類のヒトの疾患、症状又は症候群を含んでいる。関連する生物学的データを収容している最大の文献データソースはMEDLINEである。2002年の初期には、このデータソースは約1200万のレコードを包含しており、毎年500,000件の割合でレコードが増え続けている。
データ量がますます増大するに連れて、データ管理を向上させ、これで、データのストアハウスだけではなく、データオブジェクト、特に以前には無関係と考えられていたオブジェクトを検索し、解釈し、リンクさせ、関連付けることによってデータを「理解する」ことが可能なマネージャを提供する必要性が出てきた。事実、データ管理のほとんどの経済的なアプローチは、既存のデータをうまく用いて新規なソリューションに到達しようというものである。したがって、ナレッジが発見できるかどうかは、既存のデータと新しいデータとの双方に依存しており、1つ又はそれ以上のリンクされた又はリンクされていないデータソースから(新旧双方の)オブジェクトを検索し、オブジェクト間で共有される潜在的な関係を検査し、オブジェクトのための新規な機能やソリューションを提示し、将来の動作及び/又はさらなる分析のための新しい関係や、機能やソリューションをストアしたりする。
この新しい情報化時代に必要とされる解決法を提示するデータマイニングという技法が存在する。このような検索ツールの1つに、ARROWSMITHがあるが、これは、定義された2つの所定の分野を「連携させる(bridging)」ことによって新しい情報を検索する方法に基づいている。残念ながら、このツールは単一レベルで、従って、単一方向で探索するのみであり、「結果」をスコア化することはなく、その提示する分析の深さも限られたものとなっている。別の検索ツールとしてはOPUSがあるが、これは、現象に関連する遺伝子を同定するのに用いられる。遺伝(関連の)ツールとしては有効であるが、他の情報分野での用途は限られる。2002年7月に発行されたNature Geneticsの第21巻の316〜319ページに記載されているPerez-Iratxetaらの、バイナリリレーションのファジーロジックを用いて遺伝子を遺伝病と関連付ける、データマイニング技法も同様に限られたものである。
前述の説明によって明らかなように、大量の無関係なデータ及び情報を管理し分析するコストパフォーマンスのよいシステムが必要されている。そのシステムとは、複数のデータソースで作動する複数の分析レベルを持つユーザフレンドリーな(利用者にとって使いやすい)フォーマットを提示して、クエリーに基づいた方法や単一レベルの検索では現在不可能な無関係事項を新規に発見することを可能にするシステムである。このような自動化されたナレッジ発見システムを用いることによって、個人及び組織は、現在利用可能なデータに関する理解を向上させ、これまではリンクが存在しなかったところに新規な関係を確立させるナレッジベースのツールによってパワーを得、また、経済的な恩恵も付加されて、効率よく、効果的に重要なソリューションに到達でき、社会的にも恩恵を被ることができる。
本明細書に開示される発明は、オブジェクト間の関係からなるネットワークを確立して新規な相関性を識別、評価及びスコア化する自動化されたナレッジ発見システムである。このネットワークはまた、暗示的にしか知られていなかったオブジェクトを識別、評価することはもとより、それらの共有の相関性に照らして、オブジェクト集合間の共有の相関性を識別、評価するのにも用いることができる。この識別、評価された関係をスコア化することは本発明のシステムにとっては不可欠である。このシステムは、調査、発見、スクリーニング(選別)、診断及びソリューション管理のための他の指標の有無にかかわらず用いることができる。このシステムは、企業や政府組織に於ける戦略的管理、母集団(たとえば、消費者や患者など)の行動を予測すること、環境への影響を予測すること、フロードを識別すること、リソース活用パターンを識別すること、並びにバイオテクノロジー、化学、物理学、工学、天文学、地質学及び管理科学等の科学分野に於けるナレッジ発見に無限の応用分野を呈する。
情報科学というアプローチは、大量の非構造化データ及び構造化データを管理、データ中のオブジェクト間の新規な共有関係を識別し、また、このようなオブジェクトに対する新規なソリューションや潜在的な機能に到達するために必要なものである。情報科学は、オブジェクトに関する論理的な解釈を提示し、また、新しい関係を誘導することを可能とする。
1つの態様では、本発明は、1つ又はそれ以上のデータソースから自動的に抽出することによってオブジェクト間の相関性ネットワークを確立するシステムを提供する。本システムは、コンピュータでエンティティベースのネットワークを構築することによって、データソースのオブジェクト間の暗示的な相関性を決定する。このデータソースはテキストを含んでいるのが好ましい。このデータソースは、非構造化されたフリーテキストを含んでいるのがより好ましい。本システムは、個人や組織が、所定の「オブジェクト」を入力して、それが直接的又は間接的に関連する他のオブジェクトに関する情報を、その関連性の強度を含んで検索することを可能とする。たとえば、1つ又はそれ以上の科学技術分野で作業する場合、オブジェクトには、遺伝子(又はそのアレル、転写物、フラグメント若しくはメチル化されたもの)、タンパク質(又はその処理されたもの、未処理のもの、修飾されたもの若しくは未修飾のもの)、化合物、疾病及び/又は臨床的な表現型が含まれる。
一般的に、本発明のシステムは、1つ又はそれ以上のデータソースを用いて、ナレッジのドメインを表す。複数のデータソースは、非構造化されたデータと構造化されたデータの双方を含む。エントリ(「オブジェクト」と呼ばれる)は、本システムによって評価されて、このソース中のデータを認識するのに用いられるが、ソース中でエントリの同時発生が起こると、オブジェクト間の潜在的な関係をしだいに識別するようになる。このような相関関係は、本システム中の新たに形成された、又は既存の動的データベース内にストアされて、更なる分析のための相関性の包括的なネットワークを構築するために用いられる。
1つの態様では、本発明は、以下のタスクを1つ又はそれ以上、好ましくは全てを実行する能力を持つマルチタスクシステムをさらに提供する:(a)ソース全体(たとえば、ナレッジのドメインやデータベースなど)を獲得して、それを解析して、複数のオブジェクトを正確に識別するタスク;(b)代表的なデータベース及び/又はエントリを作成/フォーマッティングするタスク;(c)自由形式のテキスト(ASCIIなど)を処理するタスク;(d)たとえば、一般的な語や情報価値のない語又はオブジェクトを選別することによってデータを処理して、次のステップの分析を軽減するタスク;(e)オブジェクトの大文字を使用する必要性を識別して、精度と再現度(recall)を増すタスク;(f)頭字語を分解して、精度と、情報価値のあるオブジェクトの数と、認識済みオブジェクトの数とを増すタスク;(g)同義語を増やして、再現度(recall)を増すタスク;(h)内部又は外部のサブルーチンを用いて、データ処理の速度及び効率を向上させるタスク;(i)共有されている暗示的関係の分析のために問い合わせ(クエリー)を利用するタスク;(j)ユーザフレンドリーなインタフェースで作業するタスク;(k)他の設計システムやネットワークと相互動作するタスク;(l)スコアリングメカニズムを用いて、適合性の尺度を提供して出力するタスク;(m)相関性のスコアを有する出力ファイルを作成するタスク;(n)単一ステップ又はマルチステップの分析を実行するタスク;及び/又は(o)大規模分析又はグローバル分析のためにネットワークとしてモデリングするタスク。
本システムは、その多くの機能(タスク)を、たとえば、オブジェクト−関係データベース「ORD」、すなわち、同じソースからの他のオブジェクトと直接的関係及び間接的関係を持つオブジェクト(一般にテキストフォーマットで与えられる)の統合データベースによって実行する。ORDはまた、複数のソースと共に用いられる。ソースは、一般的には、レコード中に、又は単一エントリとして、コーディングされた数百万のオブジェクトを含んでいるデータベースである。
本システムは、(a)データフォーマッティング;(b)データ処理;(c)テキストのソースからのデータ又は情報の抽出;(d)ORDの充溢(populate);(e)ソースの参照;(f)品質チェック用のルーチン;(g)データベースの内部保守及び外部保守;(h)ネットワークのインタフェース;(i)ユーザのインタフェース;(j)データの入力、分析及び出力で用いられるルーチン;の内の1つ又はそれ以上のためのプライマリとサポートのコードを提供する。さらなるプログラム及びルーチンもまた、本システムの範囲に含まれる。
1つの態様では、本発明は情報のドメインにアクセスするシステムを提供するが、本システムでは、1つ又はそれ以上の情報ドメインを含むデータのソースをオブジェクト−関係データベースでアクセスして、1つ又はそれ以上の情報ドメインからのオブジェクトを統合し、また、ナレッジ発見エンジンを用いて、2つ又はそれ以上のオブジェクト間の関係を発見して、識別し、検索し、グループ化し、ランク付けし、フィルタリングし、また、数値的に評価する。本明細書で用いるオブジェクトという用語は、所定の項目や情報(一般的にテキスト形式のもので、名詞、動詞、形容詞、副詞、句、文、記号、数字などを含む)のことである。したがって、オブジェクトとは、相関関係を形成することが可能なものであり、また、ソースから獲得、識別及び/又は検索することが可能なものである。このデータソースは、テキスト情報、数値情報、記号情報及びこれらの組み合わせを持つナレッジの1つ又はそれ以上のデータベース又はドメイン(必ずしもデータベースではない)である。1つ又はそれ以上のオブジェクト間の関係は、直接的又は間接的なものとして識別され、また、直接的オブジェクトと間接的オブジェクト間の関係の相対的強度に基づいてランク付けさせされる。相関性は、これを肯定的な関係、否定的な関係、物理的な関係及び論理的な関係から成る群より選択されるカテゴリにランク付けすることによって分類される。本発明で用いられる情報のドメインは、データのパーセルを、テキスト、記号、数値及びこれらの組み合わせからなる情報として用いる。1つの態様では、本システムは、部分的又は完全に自動化されている。別の態様では、上記のナレッジ発見エンジンは、語彙的な処理によって1つ又はそれ以上のオブジェクトをトリミングする。
さらに別の態様では、オブジェクト−関係データベース(ORD)を作成するシステムは、次に示す非制限的な機能を1つ又はそれ以上の実行する:1つ又はそれ以上のシステムデータベースオブジェクトをコンパイルする機能、データベースオブジェクトの同義語を追加する機能、1つ又はそれ以上のデータベース中のオブジェクト間の相関性に関連する情報をオブジェクト−関係データベースとしてグループ化する機能、このオブジェクト−関係データベースから語彙的な異形のデータベースを構築する機能、この語彙的異形のデータベースでオブジェクト−関係データベースを走査して冗長度を軽減し、このオブジェクト−関係データベースにエラーがないかどうかチェックする機能。本システムの効率を上昇させるには、たとえば、各オブジェクトに固有の数値ID(たとえば、長い整数など)を割り当てて、まず最も低いIDで非方向性関係をストアすればよい。
データコレクション又はソースデータベースは、データソースとして役立ち、一般に、システムデータベースオブジェクトをコンパイルするために用いられるが、このようなソースデータベースには、少なからず例を挙げると、化合物や小分子薬物のデータベース、ChemID、MeSH、FDA locuslink、GDB、HGNC、MeSH及びOMIMがある。一般的な語の選別・除去と大文字化の識別とは、語のデータベースをアクセスすることによって達成される。語彙的な異形は、たとえば、同義語データベース又は頭字語分解アルゴリズムを用いることによって識別される。1つの態様では、本システムはまた、本システムと連動しているグラフィカルユーザインタフェース上にあるワンクリック問い合わせ(クエリー)ボタン又はコントロール部位を提供し、これで、データソース中のテキストから誘導されたシステムデータベース中のオブジェクトをユーザが閲覧することを可能とする。たとえば、ユーザは、グラフィカルユーザインタフェース上のデータソースから表示されているテキストを閲覧し、このテキストの所定のセクション(たとえば、句や要約)をハイライトし、ボタンなどのコントロール部位をクリックして、本システムに、この句の中の1つ又はそれ以上の語がシステムデータベース中にオブジェクトとしてストアされていれば表示させることができる。以下に考察されるように、システムデータベース中には新たなオブジェクトが含まれていてもよい。
1つの態様では、オブジェクト−関係データベースを含む本発明のシステムデータベースは、データソースからテキストのブロックを入力し、タイトル、要約、日付及びPMIDのフィールドの情報などの選択済み情報をこのソースから抽出してレコードを作成し、このレコードを解析して文とし、各文を解析して語とし、語を句に適合させる1つ又はそれ以上の配列をこのオブジェクト−関係データベース中に作成し、頭字語を分解することによって構成されている。テキストのブロックは、語、句、章、本、新聞(a paper)、雑誌、Webページの部分及び表から成る群より選択される。この情報のソースが、他の同様のソースより強い影響力を有すると考えられれば、たとえば、Journal of Irreproducible Resultsの要約よりScience 又は New England Journal of Medicineの要約のオブジェクト間の接続に高いウェイトを置くといったように、そのテキストブロックに高い価値付けがなされる。
本発明のさらに別の態様は、関連性のないオブジェクトを前もって関係付けるシステムである。1つの態様では、本システムは、1つ又はそれ以上の情報ソースデータベースを含むデータソースから生成されたオブジェクト−関係データベース及び当該オブジェクト−関係データベース内のオブジェクト間の意味ある関係を認識するナレッジ発見エンジンとを含む。当該ナレッジ発見エンジンは、データソース内のオブジェクトの1つ又はそれ以上の同時発生を識別して、相関関係の包括的ネットワークを生成するのが好ましい。1つの態様では、この識別された相関関係は、システムデータベース中にストアされて、統計的に有界である1つ又はそれ以上のネットワークモデル(たとえば、ベイジアンネットワークモデル)及びナレッジ発見エンジンによって識別された相関関係からユーザが暗示的相関関係を識別することを可能とする問い合わせ(クエリー)モジュールとによって評価される。
本発明は、既存の及び候補となる薬物の相互作用、副作用及び薬理遺伝学的効果は勿論、既存の薬物の新しい治療法、新しい用途又は適応、禁忌、副作用及び/又は合併症を見出すシステムとして用いることができる。本発明のシステムは、データソースに問い合わせて、後述の治療剤及び/又は疾病に関連するオブジェクトを識別することによって、候補となる治療剤(たとえば、薬物、タンパク質、遺伝子、リボザイム、アンチセンス分子、アプタマーなど)と疾病との相関関係を見出すのに用いることができる。1つの態様では、本発明のシステムは、既存の薬物(たとえば、既存の適応症に対してFDAによって現在承認されているもの)の新しい適応に関する予測を提供する。たとえば、本発明のシステムはシルデナフィルに対する新しい用途を見出すために用いられる。
1つの態様では、本発明のシステムは、1つ又はそれ以上の情報ソースデータベースを含むデータソースからオブジェクト−関係データベースを生成して、薬物や治療剤のオブジェクト−関係データベース内の意味のある関係を認識するナレッジ発見エンジンを用いて、このオブジェクト−関係データベース内でのオブジェクトの1つ又はそれ以上の同時発生とその薬物名又はその同義語とを識別し、また、オブジェクト−関係データベース中のデータと薬物との相関関係の包括的なネットワークを生成する。1つの好ましい態様では、本発明のシステムは統計的に有界であるネットワークモデルを用いて、この相関関係のネットワークを識別する。本発明のシステムは、共有された暗示的な関係をシステムデータベース中にストアするものが好ましい。このシステムデータベースは、動的であって、さらなる既知の又は候補となる薬物が評価されるに連れて、本発明のシステムデータベースにストアされるネットワークは、追加された薬物との相互作用を含む進化したものとなる。別の態様では、ソースデータベースには、患者の病歴、人口統計的データ、家族の病歴、患者及び/又はその家族の遺伝学的データ、研究対象除外/包含基準、有害事象データ、効力データ、薬物動力学データなどの臨床データが含まれる。さらに別の態様では、このデータには、縦断的調査、回顧調査及び患者個人の調査で得られたデータが含まれる(たとえば、本発明のシステムは、専用医療の分野で用いることができる)。
本発明はまた、本発明のシステムの関係データベース内の相関関係を識別する方法を提供する。当該方法は、ユーザが1つ又はそれ以上のオブジェクトリストを分析目的で入力した後で、オブジェクト間に共有されている相関関係を識別するステップと、この1つ又はそれ以上のリストから各オブジェクトに対する全ての関係をコンパイルして1つのリストに包含するステップと、関係するオブジェクトを頻度によってカウントするステップと、期待値を計算するステップとを含む。1つの態様では、可能性のある全ての関連性がy%未満又は観察/期待比がy%未満である共有オブジェクトは、関係データベースから除外される。
1つの態様では、暗示的な相関性があるオブジェクトが識別される。このような相関関係が有意義である尤度は、たとえば、直接的な観察/期待比を測定して、この値に暗示的オブジェクトに至る固有の経路(パス)の数を乗算するといった、相関関係をスコア化又はランク付けすることによって評価される。
別の態様では、暗示的関係は、1つ又はそれ以上の第1、第2及び第3のオブジェクト間の関連性の強度ベクトルを計算し、この第1、第2又は第3のオブジェクトに対する1つ又はそれ以上のオブジェクトのソースインパクトスコアのデータベースからソースインパクトスコアを獲得し、強度ベクトルに1つ又はそれ以上の第1、第2又は第3のオブジェクトに対するソースインパクトスコアを乗算することによって識別される。このソースインパクトスコアは、以下の限定されない要素に基づくものである:(1)前記の1つ又はそれ以上のオブジェクトを得た出版物;(2)前記の1つ又はそれ以上のオブジェクトのソースが、別のソースによって引用された回数;(3)前記の1つ又はそれ以上のオブジェクトのソースが、学術論文、教科書、総説によって引用された及び/又はピアレビュージャーナルに公開された回数。たとえば、より高スコアの暗示的な相関関係は、前記の1つ又はそれ以上のオブジェクトのソースが、英国の出版物ネーチャー誌に発表された回数に応じて高スコアを与えられている(即ち、相関関係に対するソースインパクトのスコアは高くなる)。相関関係はインパクトスコアを有するが、オブジェクトは一般的にインパクトスコアを有さない、なぜなら相関関係とは、品質(例えば、インパクト)が異なるデータソース由来のものであるからである。一方、オブジェクトは、その基となっているデータソースの品質によってスコア化できる。インパクトスコアは重要度を推定するのに用いられ、本明細書では確実性又は関連性の推定として用いられている。
本発明はまた、1つ又はそれ以上のデータソースから情報のドメインをアクセスする、コンピュータ読み取り可能媒体上で実施されるコンピュータプログラムを含む。1つの態様では、このコンピュータプログラムは、1つ又はそれ以上の情報ドメインを含むデータソースを包含するように適合化されたコードセグメント、1つ又はそれ以上の情報ドメインからオブジェクトを統合するオブジェクト−関係データベースを維持(たとえば、構築、維持、更新)するように適合化されたコードセグメント、及び1つ又はそれ以上のオブジェクト間の相関関係が探索され、グループ化され、ランク付けされ、フィルタリングされ、検索されるナレッジ発見エンジンを包含するように適合化されたコードセグメントとを含んでいる。
オブジェクト−関係データベース(ORD)を作成するためにコンピュータ読み取り可能媒体上で実施されるコンピュータプログラムは、1つ又はそれ以上のデータベースオブジェクトをコンパイルするように適合化されたコードセグメント、1つ又はそれ以上のデータベース中の情報をオブジェクト−関係データベースにグループ化するように適合化されたコードセグメント、このオブジェクト−関係データベースから語彙的な異形のデータベースを構築するように適合化されたコードセグメント、語彙的な異形のデータベースでオブジェクト−関係データベースを走査して、冗長度を軽減するように適合化されたコードセグメント、各オブジェクトに固有な数値ID(長い整数)を割り当てて、まず最も低いIDで単方向性又は非方向性の関係をストアするように適合化されたコードセグメント、オブジェクト−関係データベースをエラーがないかどうかチェックするように適合化されたコードセグメントとを含んでいてもよい。
本発明のさらに別の態様は、1つ又はそれ以上の情報ドメインを含むデータソースにアクセスするステップと、情報ドメインをオブジェクト−関係データベース中にコンパイルして、1つ又はそれ以上の情報ドメインからオブジェクトを統合するステップと、2つ又はそれ以上のオブジェクト間の関係が識別され、検索され、グループ化され、ランク付けされ、フィルタリングされ、数値評価されるナレッジ発見エンジンを用いるステップとを含む方法によって生成された新しい薬物療法のための候補化合物のリストである。このリストは、たとえば、コンピュータプログラムと相互作用して、データ45を問い合わせ、編成、選択及び/又は管理するデータ構造の形式で存在する。
本明細書で開示する更なる別の発明は、既存の化合物又は薬物のための新しい療法、たとえば、心臓肥大を治療する必要がある患者を識別し、この患者に、本発明のシステムをを用いて見出された化合物の製薬的に有効な量を投与することによって心臓肥大を治療する方法である。たとえば、心臓肥大の治療のために本発明のシステムを用いて見出された化合物に、クロルプロマジンがある。
本発明を用いて見出された更に別の発明は、インシュリン非依存性糖尿病(NIDDM)の治療の必要がある患者を識別し、この患者に、本発明のシステムを用いて見出された化合物を製薬的に有効な量を投与することによってNIDDMを治療するメカニズム及び方法である。1つの態様では、この化合物は、細胞に於ける核酸のメチル化を増進させる医薬組成物、たとえば、DNAメチル化前駆体である。さらに別の発明は、細胞内のDNAのメチル化を全体的に増進させる有効量の1つ又はそれ以上のDNAメチル化前駆体を含む、NIDDMの危険性がある個人向けの栄養補助剤である。
本発明の方法は、頭痛を治療する必要がある患者を識別して、この患者にシルデナフィルを製薬的に有効な量を投与して頭痛を治療することを含む。又は、筋肉痙攣を治療する方法は、筋肉痙攣を治療する必要がある患者を識別し、この患者に、シルデナフィルを製薬的に有効な量を投与することを含む。
本発明は、また、選別(スクレーニング)する対象の遺伝子を識別するための上記の選別システムと、遺伝子及び核酸配列を選択してスクリーニングするためのアレイを作成するオリゴヌクレオチド選択モジュールと、オリゴヌクレオチド選択モジュールから核酸配列を受けとり、基質上に核酸アレイを作成するDNAオンチップアセンブリ装置とを備えた自動化された選別システムを含むが、ここに於いて核酸アレイは遺伝子を選別(スクレーニング)するために用いられる。一例としては、当該対象遺伝子はNIDDMを選別するために用いられるが、当業者であれば、遺伝子との関連性が知られているか又は知られていない他の疾病も、本発明のスクリーニングのためのアレイを作成するの用いることができることは容易に認識できるものである。
(発明の詳細な説明)
本発明のさまざまな態様の構成及び使用については以下に詳細に考察するが、本発明は、広範囲の特定分野での実施に適応する新規な発明概念を提供するものであると評価されたい。本明細書で考察される特定の態様は、単に、本発明を構成し、使用する具体的な方法を説明するものであり、本発明の範囲を制限するものではない。本発明の解説的な態様のさまざまな改変や組み合わせは、本発明のその他の実施態様と同様に、本明細書を参照すすことにより当業者には明らかなものであろう。したがって、特許請求の範囲はこれらの改変及び実施態様を全て包含するものである。
定義
本明細書で用いられる全ての専門用語や科学用語は、別に定義されない限り、本発明の属する技術分野の通常のスキルを有する者によって一般的に理解されるものと同じ意味を有するものである。本発明の理解を容易にするために、多数の用語を以下に定義する。本明細書に定義する用語は、本発明に関連する分野における通常のスキルを有する者によって一般的に理解される意味を有するものである。
「a」、「an」、「the」などの用語は、単に、単数のエンティティを示すのではなく、説明のために具体的な例が用いられている一般的な類(class)をも包含するものである。本明細書における用語は、本発明の特定の態様を説明するために用いられているものであって、特許請求の範囲に於いて発明の範囲を特定する場合を除いて、なんら本発明を制限するものではない。
以下に、本発明に適用される用語を示す。
本明細書で用いられる「オブジェクト」と言う用語は、所定の項目又は情報(一般的に、名詞、動詞、形容詞、副詞、句、文、記号、数字などを含むテキスト)のどのようなものであってもよい。したがって、オブジェクトは、相関関係を形成できるものであればよく、また、ソースから獲得、識別及び/又は探索できるものであればよい。「オブジェクト」には、遺伝子、タンパク質、疾病、表現型、メカニズム、薬物などの所定のエンティティが含まれるがこれらに限定されるものではない。ある態様では、オブジェクトは、更に以下に記載するようにデータであってもよい。
「関係(相関関係)」とは、同じユニット内(たとえば、句、文、2つ又はそれ以上のテキスト行、パラグラフ、Webページのセクション、ページ、マガジン、新聞(paper)、本など)でオブジェクトが同時発生することである。それは、テキスト、記号、数字及びこれらの組み合わせであってもよい。
「メタデータコンテンツ」は、データソース中でのテキストの編成に関する情報を提供する。メタデータは、ダブリンコアメタデータのような標準のメタデータを含むことが可能であり、また、コレクションに特異的なものも可能である。メタデータフォーマットの例としては、図書館のカタログように用いられる機械読み取り可能カタログ(MARC)レコード、リソース記述フォーマット(RDF)及び拡張マークアップ言語(XML)があるが、これらに制限されるものではない。メタオブジェクトは、手動で又は自動情報抽出アルゴリズムを介して生成される。
本明細書で用いる「エンジン」という用語は、その他のプログラムの中心又は基幹的な機能を実行するプログラムのことである。たとえば、エンジンは、その他のプログラムの全動作を調整するオペレーティングシステム又はアプリケーションプログラムに於ける中心となるプログラムである。「エンジン」という用語はまた、変更可能なアルゴリズムを包含するプログラムのことである。たとえば、ナレッジ発見エンジンは、関係を識別するそのアプローチを、関係を識別してランク付けする新しいルールが反映されるように変更可能なように設計される。
データを評価するにはさまざまなタイプの分析が利用される。「正字法分析」は、文字コードからなっているテキスト中の意味単位の認識である。英語では、通常、テキストを白色のスペース(スペース、タブ、改行など)のところで分離し、次に、結果として得られる単位又は「トークン」を単語として扱う。単語の境界がない言語の場合、1つの一般的なアプローチは、スライドウインドウを用いて、「文字nグラム」又は「nグラフ」として知られているオーバラップするn文字の文字列を作成する。「意味論分析」は、類似の概念を表す単語間の関係を、たとえば、接尾辞を除去又はトリミング、シソーラスを用いたりして識別する。「統計的分析」とは、各用語(単語、語根、語幹、nグラム、句など)の発生の数をカウントすることに基づいた技法のことである。主語に関して制限のないコレクションでは、同じ句でも、用いられる文脈が異なれば、表す概念も異なる。句の同時発生の統計的分析は、語彙の曖昧さを解決するのに役立つ。「構文分析」を用いると、スピーチ部分(part-of-speech)分析によって曖昧さをさらに減少させることが可能である。本明細書で用いられるこのような分析の1つ又はそれ以上が、より一般的には、「語彙的分析」と呼ばれる。「人工知能(AI)」とは、コンピュータなどの人間ではないデバイスが、人間が注意に値する又は「インテリジェント」であると見なすタスクを実行する方法のことである。その例としては、画像の識別、話された言葉や書かれたテキストの理解、及び問題の解決がある。
本明細書で用いられる「データベース」と言う用語は、さまざまな情報ファセットがデータフィールド内に存在していてもよいが、生のデータ及びコンパイル済みデータのレポジトリの意味で用いられる。データベースは、通常、その内容がアクセス、管理、更新可能であるように編成されている。(即ち、データベースは動的なものである)。「データベース」と「ソース」いう用語はまた、本発明では交換可能なものとして用いられるが、それは、データ及び情報の主要なソースがデータベースであるからである。しかしながら、一般的には、「ソースデータベース」又は「ソースデータ」とは、オブジェクトを識別し相関関係を割り出すためにシステムに入力される非構造化データ及び/又は構造化データのことである。ソースデータベースは、関係データベースであってもよいし、そうでなくてもよい。しかしながら、システムデータベースは、オブジェクト間の相関性に関連する値をストアしている関係データベース又は同等のタイプのデータベースを含むのが好ましい。
本明細書で用いられる「システムデータベース」と「関係データベース」は交換可能に用いられる。より具体的には、「関係データベース」とは、定義済みのカテゴリに合致するデータを含むテーブルの集合として編成されたデータのコレクションのことである。たとえば、データベーステーブルは、カラム(列)に定義される1つ又はそれ以上のカテゴリ(たとえば属性)を含み、一方、データベースの「行」はカラム(列)によって定義されたカテゴリに対する特定のオブジェクトを含む。したがって、遺伝子などのオブジェクトは、ヌクレオチド配列、アミノ酸配列、特定の組織や細胞に於ける発現、由来する有機体、表現型との関連性等のカラム(列)を有する。関係データベースの「行」はまた「集合」と呼ばれ、一般的に、そのカラム(列)の値によって定義される。関係データベースの文脈中の「ドメイン」は、カラム(列)などのフィールドに含まれる有効な値の範囲である。
本明細書で用いられる「ナレッジのドメイン」とは、本発明のシステムが有効である研究の分野、たとえば、すべての生物医学的なデータのことである。いくつかのドメインからのデータ、たとえば、生物医学的データと工学的データとを組み合わせることには利点がある、それは、この多様なデータは時として、1つの分野又は探求/研究(1つのドメイン)しか知らない通常の人間にとっては考え付かないようなことを結びつけることが可能であることを指摘しておく必要がある。
「分散型データベース」とは、ネットワーク上のさまざまなポイント間で分散したり複製したりすることが可能なものである。
「データ」と「情報」という用語は、「情報」と「ナレッジ」がそうであるように、しばしば交換可能なものとして用いられ、したがって、用語間の相違を理解しておく必要がある。「データ」は最も基本的な単位であり、実験による測定値又は測定値の集合から成っている。データはコンパイルされて情報となるが、それは基本的には情報とは独立したものである。それとは対照的に、情報は興味から発する。たとえば、心臓病の危険性と相互に関連する変数を見出すために身長、体重、人種、食習慣に関するデータが収集される。しかしながら、同じデータはまた、身長/体重、又は人種/食習慣の相関関係に関する公式を開発したりそれに関する情報を作成するのに用いることができる。
「情報」とは、それがデータの集合を意味する場合、データの集合に基づく又はそれらから誘導される、数値、数値の集合又は結論などを含むものである。即ち、「データ」とは統計の測定値及び情報の基本的単位のことである。「情報」はまた、語、記号、自由記載の非構造化テキストなどのテキスト、コード等の他のタイプのデータを含む。「ナレッジ」とは、因果関係をモデリングするに十分な程度にシステムを理解させる情報の集合であるとゆるやかに定義される。上述の例をさらに広げれば、人種と食習慣に関する情報は、食品販売のための地域的マーケティング戦略を展開するのに用いてもよいし、また、身長/体重比に関する情報は医師が食事療法推奨の指針として用いることもできる。データ、情報、ナレッジ間に厳密な境界はないことに注意することが重要であるが、これら3つの用語は、同義であると考えられることもある。通常は、データは試験により、情報は相互相関により またナレッジはモデリングにより得られる。
本明細書で用いる「プログラム」又は「コンピュータプログラム」と言う用語は、一般に、特定のプログラム言語のルールに適合し、また、宣言とステートメント又は命令から成る構文単位であって、ある機能、タスク又は問題を解決したり実行したりするために必要とされる「コードセグメント」に分割可能なものである。プログラム言語は一般に、プログラムを表す人工言語である。
「システム」又は「コンピュータシステム」とは、一般に、1つ又はそれ以上のコンピュータ、ペリフェラル装置、及びデータ処理を実行するソフトウエアを含む。「ユーザ」又は「システムオペレータ」とは、一般にデータ処理と情報交換目的で「ユーザデバイス」(たとえば、コンピュータ、無線デバイスなど)を介してアクセスされるコンピュータネットワークを利用する人間を含む。「コンピュータ」とは、一般に、数値演算と論理演算を含むかなりの量の計算を人間に介入なしで実行することが可能な機能単位である。
「アプリケーションソフトウエア」又は「アプリケーションプログラム」とは、一般に、アプリケーションの問題のソリューションに固有のソフトウエア又はプログラムのことである。「アプリケーション問題」とは、一般に、エンドユーザによって提出され、そのソリューションのために情報処理が必要とされる問題のことである。
「自然言語」とは、具体的に規制されることなく現行の用法に基づくルールを持つ言語のことである。自然言語の例には、たとえば、英語、ロシア語、中国語がある。それと対照的に、「人工言語」とは、その使用に先立って明示的に確立されたルールを持つ言語のことである。人工言語の例には、C、Java、BASIC、FORTRAN、COBOLなどのコンピュータプログラム言語がある。
本明細書で用いられる「物理的関連性」とは、データソースの選択された部分(たとえば、句、行、パラグラフ、節、章、本、など)中でのオブジェクトの同時発生のことである。
本明細書で用いられる「論理的な関連性」とは、「not」、「includes」、「and」、「or」などの論理的演算子によってリンクされる関連性のことであり、接続語が、特定の方法でオブジェクトを関連付けるが、たとえば、「我々は遺伝子XX、YY、ZZを研究して、これらが遺伝子的には癌とは関連性がない」という文の場合、XX、YY、ZZは同時発生だけがリンクするように用いられるが、残りの文の文脈から論理的に判断すればそのようにはなっていない。論理的な関連は、ゲノムオントロジー(GO)のようなオブジェクトがはっきりとリンク又は関連付けられたデータベースから得ることができる。
本明細書で用いられる「関係の包括的ネットワーク」とは、多くのソース又はナレッジのドメインからのデータを含む、できる限り完全なネットワークのことである。好ましくは、このようなネットワークに関連するこのようなデータは、「Medlineテキストからの関連性だけを提示して、他の文献から派生した関連性を含まないようにせよ」といった制約によって制限されることなくアクセス可能である。
本明細書で用いられる「部分的ネットワーク」とは、利用可能なデータソース(たとえば、科学雑誌で公開された文献など)の部分的なもののみから計算されたネットワークのことである。1つのデータソース中で識別された部分的ネットワークは、別のデータソース中で識別された部分的ネットワークと比較して、関係を有効化することが可能である。この用語はまた、たとえば「Medlineだけから得られた文献からの関連性を提示せよ」又は「癌のことだけを考察しているMedline文献からの関連性を提示せよ」といった事前計算済みネットワークのある部分だけを用いることを表すものである。
本明細書で用いる「主題クラスタ」とは、「乳がん」とか「心臓病の患者及び正常者で調査した場合の再現可能に差別的な発現を有する遺伝子」等の主題によって関連付けられるオブジェクトのグループ、又は、任意の研究若しくは仮説のためのさらなる情報又は検証用の情報を生成するためにユーザによって生成されたオブジェクトの任意のグループ化のことである。
本明細書で用いる「統計的関与度」とは、相関性がランダムに発生する場合と較べて発生する頻度が顕著に多い場合に「統計的に関与している」と判定される、1つ又はそれ以上のランク付け方式(O/E比、強度など)を取り扱うことである。
本明細書で用いる「解決する」とは、オブジェクト−関係データベース中にオブジェクトが存在することを検証、及び、語彙的な異形や同義語などもまたそのオブジェクトのオブジェクト−関係データベース中に包含されていると想定することである。それはまた、文献からオブジェクトとその異形を発見すること、すなわち、それらを文献から首尾よく抽出することである。
本明細書で用いる「関係に資質(nature)を割り当てる」とは、1つのタイプの関係を別のタイプの関係と区別するために用いられる方法であり、これには、同時発生のみによる関係と特定のクラスのオブジェクト(たとえば、薬物、遺伝子など)に包含されることによる関係とが含まれる。それはまた、オブジェクト集合に関連するなにか、たとえば、その集合のメンバーはしばしば「転写調節因子」であり、したがって、あるタイプの制御機能を示しており、おそらくDNAとある種のタンパク質間の相互作用を伴うであろうということ等を明らかにすることが可能な、結果オブジェクトを含む。
ナレッジ発見
科学等の技術分野では、データを収集して、所定のオブジェクトに関する情報及び/又はナレッジを得るが、それはまた、元来は研究対象ではなかった他のオブジェクトに関する新しい情報を含んでいたり、結果としてつながっていたりする。関連のない分野での研究から偶然又は突然の洞察によってひらめいた科学的発見に関する逸話は多い。このような経験に基づいた所見は、無関係に見えても、オブジェクト間には重要な関係が存在する可能性があり、これがオブジェクトを新しい関係の集合に統合することを示している。
情報とは、通常、特定の興味(interest)から生成され、また、ほとんどのデータはその興味の追求のために収集されるが、本発明によるシステムは、経費の追加なく興味を拡大させることを可能にする。したがって、本発明のシステムはまた、経費の追加なくして、より多くのナレッジを生成する。こうした付加価値の恩恵は無限であり、ナレッジ発見に於ける本発明のシステムの役割の基幹となるものである。
個人は、パターンを発見してデータ内の関係を解明することには卓越しているが、新しいデータを類似化する分量と速度の能力は限られる。一方、コンピュータは、パターンを発見したり関係を理解したりする能力は限られるが、データの類似化と言う点ではより迅速で包括的である。既存のデータを包括的に探索してパターンを求めるには、したがって、コンピュータを用いる必要がある。本発明のシステムは、データの関係分析のための主要なタスクを遂行するがこれには、(a)電子的に読み取り可能なフォーマットでのナレッジのドメインの獲得;(b)このドメインに含まれるデータの認識用ソフトウエアの使用;(c)それに含まれるデータの項目間の情報の関係の識別;(d)これらの関係を用いての新規な傾向、機能及びソリューションの発見と識別、が含まれる。
ナレッジ発見の非効率的な方法
科学技術分野のナレッジを追求する者らにとって興味深いデータの一つのソースはMEDLINEである。1986年、MEDLINEが今日の半分未満のエントリしかなかったころ、Don Swansonとう研究者が、既知のリンクを持たない2つの生物学的現象を、半自動的な方法で中間リンクを介して関係付けることが可能であることを証明した。この概念を図2に示すが、この図でAとB間の関係及びBとC間の関係が検討されているが、AとC間にはなんの関係も識別されていない。Swansonは、このような関係を「非相互作用的文献(Non-interactive literature」と名づけて、MEDLINEレコードのタイトルから得たキーワードをペアリングして2つの文献集合間の共通性を識別する非相互作用的文献を扱う方法を開発した。この方法を用いて、彼は、循環器系の疾病(文献A)であるレイノー病と魚油(文献C)との間の関係を、双方の現象(文献B)に関連のある対応する血液と血管の変化から見出した。この検証からSwansonは、魚油(循環系に有効に作用する多くのもの(agents)を増加させる物質)がレイノー病に罹患した患者に有効である仮定することができた。この方法を用いて、以前に知られていなかった他の関係、たとえば、マグネシウムのレベルと偏頭痛の関係、及びアルギニンのレベルと血漿ソマトメジンの関係が見出された。
SwansonはARROWSMITHというプログラムを公開したが、これは、「非相互作用的」文献を探索することを可能とするものであった。図3Aと3Bに、ARROWSMITHがどのように動作するかその概念を示す。図3Aでは、2つの概念AとC間での方向付け探索の方法を示すが、ここで、AとCはMEDLINEの主題探索で用いられるテキスト(キーワード又は句)という形態を持つ一般的な対象概念である。この探索で得られたタイトルは解析されて個々の単語の集合となる。この集合から、「情報価値のない」語がフィルタリングされて、キーワードの集合(Aの下の陰影のないボックス)が残る。Cは、異なる主題探索では、Aとオーバラップすることは分からない。すなわち、MEDLINEを探索して合成集合“A and C"を求めても、何も見つからないはずで、すなわち、関係を示すエントリはなにもないということである。ARROWSMITHを用いると、Bで表されるキーワードの集合がAとC双方で発見される。文書化されていない関連性が発見されるのはこの集合においてであるが、関連性Bが関与しているのか重要であるのかを判定するのは個人しだいである。
図3Bに、ARROWSMITHを無方向探索、すなわち、Aに関連したなんらかの新しいまたは興味ある関連性を単に発見したい場合にとる方式の結果を表す。Aの主題探索から誘導された初期のキーワード集合から、このキーワード集合全体に対して独立した別の探索を実行する。その結果を別のキーワード集合Bに合成して、再度、これらキーワードの各々から、別の探索を実行する。Bの全てのキーワードに対する探索から得られた第3の参考文献リストを処理して、初期集合Aにすでに発見された参考文献を除外して、最終集合Cを残すことが可能である。
本方法は独創的なものであればあるほど、Swansonの方法が如何に非効率的かという理由が多く挙げられる。第一に、ARROWSMITHは記事のタイトルしか用いない。そのため、ユーザが分析しなければならないキーワードの数を減少させて実用的には働くが、タイトルは必ずしも、発見を特定の用語で記述してはいないし、また、要約などの他の記事の部分で見受けられる関連情報を多く含んでもいない。第二に、句ではなくキーワードだけを用いて、有用な因子同士を区別しない。たとえば、「心臓の」は「心不全」や「心臓の発生」と関連する用語を収集する。第三に、本方法は「自動式」と銘打っているが、実際には半自動式であり、それは、レコードを入力として手動でコンパイルし、さらに、各々の整合するキーワードをそれが関連性を持つか手動で評価する必要があるからであるが、ここで、この評価には、一般的に、所定の特定分野の「専門家」が必要である。しかしながら、1つのグループは、キーワードとキーフレーズの発生の正規化された統計的頻度を用いて、最も関連性の高い単語と句を探索のトップに浮揚させようとしてきた。データプールが限られるということを別にしても、キーワードベースのアプローチの欠点は、分析されるドメインのサイズである。ストップワードを除外しても、固有のキーワードの数は、図3Bに示すように急速に増える。したがって、このタイプの探索を用いる無方向性の探索と方法は、多量のデータを分析する場合にはほとんど得るところがない。
語のペアリングとその制限
語のペアリング又は用語の同時発生を利用するいかなるナレッジ発見システムでも、分析の規模で制限される。1つのソース中に存在するデータの最大規模の例は、データベースを見れば分かる。データベースは、たとえさまざまな情報ファセットがデータフィールド中で発見可能であろうと生データのレポジトリであると考えられる。すでに述べたように、広範囲に及ぶ科学技術のナレッジの1つのソースとしてMEDLINEがあるが、これは、National Library of Medicine(NLM)からのXML(拡張マークアップ言語)フォーマットで電子テキストとして無料で利用可能である。
2002年初頭、MEDLINEは12,063,000のレコードを保有していたが、その内の6,400,000が要約付きであった。解析したら、この1千2百万のレコードは、4,400,000を超える固有の単語を含んでいることが分かった。共通の主題に関連する要約の集合からの固有の単語が如何に急速に増加し得るかを説明するのに、973のMEDLINEレコードからタイトルと要約を、キーワード「wnt」を用いた主題探索によって得て、本発明のシステムの単語解析ルーチンを用いて処理して個々の単語に分解した。全11,226個の固有の単語が全191,165個の単語中に見出された。単語の単純な語形変化を統合し(たとえば、「bind」、「binds」及び「binding」を1つの語とカウントする)だけで、リスト中の単語が9,479個に減少した。次に、フィルタをかけて、220個の情報価値のない単語(たとえば、「hence」、「where」、「did」、「at」の様な)及び副詞のような語(「ly」で終わる語)を除外した。最終的なリストでは、8,495個のキーワードを含むものであった。これらの多くのものはより複雑な語形変化を有する語である(たとえば、bind/bound、cell/cellular)、固有名詞(たとえば、"Beckman"、"Smith")、数値もしくはパーセンテージ、選別されなかったいくつかの情報価値のない単語(たとえば、「hundred」、「liter」)であった。さらに探索する際におそらく有用性が低い単語(たとえば、「agarose」、「filter」)が多く存在し、また、表す概念があまりに広すぎるために有用性が不確かな単語(たとえば、「cell」、「development」、「Drosophila」)が多く存在する。MEDLINEの要約を問い合わせることによって、National library of MedicineのPubMedのWebサイトでこのリストで最も頻繁に使用されているキーワードを累積的に用い(すなわち、1語、そして2語、そして3語、最高50語まで)、また、その漸近線を計算して、推定で6,100,000のMEDLINEの記事がその要約中にwntリストからのキーワードを1つ又はそれ以上含む。これは、要約を含んでいるMEDLINEレコードの約97%を表している。したがって、暗示的に関連する記事のドメインを潜在的な関係がないか検査することは、1千2百万のMEDLINEの記事の大多数を読むことと同じである。
このタイプのシステムがいかに途方もなく非効率的であるかをさらに説明するには、ランダムに検査されたレコードからのキーワードの増加率を見れば分かる。図4で、要約wntからの固有のキーワードの合計の増加を、同じ数の有効にランダムな要約(「result」と言うキーワードを用いてMEDLINEから得られたもの)に対してプロットしてある。これら要約中の全ての語がデータベースに記録され、これで、新しい語が発見される度に累積合計が増す。
図4に示すように、100の要約からなる比較的小さい集合が、4,000の固有の単語に急速に膨張する。キーワードwntの成長分析を見れば、小さい開始ドメイン以外の何れのドメインに対する無方向性探索も急速に非効率的で非実用的なものとなることが分かる。したがって、効果的なシステムはまた、無関連のキーワードを分析しないように除去することが可能である。幸いにも、本発明のシステムではこれが可能である。
テキストベースのソースを用いてナレッジ発見の障害を克服する方法
テキストベースのソースを用いてナレッジ発見の障害を克服する方法
どのようなソースでも評価する非常に実用的な方法は、次の3つの質問に答えることである:
(1) そのソースがどれほど包括的であるか?
(2) そのソースのエラーレートはどれほどか?;及び
(3) 新規だが有用な関係を識別するのにどれほど多くの作業を必要とするか?

ある関係の有効性を評価する際に直面する時間と金に対する非常に実際的な制限を考えて、本発明のシステムは、ある特定の所定分野で関連性及び/又は関与性があることがわかっている物事だけに分析を制限するように設計されている。たとえば、バイオテクノロジでは、現在の所定分野は一般に、遺伝子、疾病、臨床的表現型、タンパク質、小分子、作用のメカニズム、潜在的な新しい薬物及び治療用の化合物である。本発明によるシステムはまた、特に、分析を所定の分野にかかわるソースに制限している。たとえば、MEDLINEをソースとして用いて、探索を、タイトルと要約とに制限する。これは主として、このような分野は、新しい関係の発見に適する多量の情報を収容しているからである。
多量のテキストを持つデータソースを用いて関係分析を実施するという点では、克服しなければならない特有の困難が多く存在する。最大の困難は、テキストを、それが存在している文脈中で適切に割り当てて評価することである。本来文脈的である人工的な関係が存在するが、これは、科学的なソースの場合特に重要である。たとえば、要約で、試験条件に依存する相互作用を識別する。遺伝子ノックアウト突然変異体を含む動物種を用いて薬物の効果を判定し、その薬物とその効果との間の誤解を招く恐れのある関係を構築する、たとえば、「薬物ABCは飲めば死ぬ」。情報の誤った評価を克服するために、1つの態様では、本発明のシステムは、オブジェクト又は関係が識別される毎にカウントする増分カウンタを含む。オブジェクトが偶然この特殊環境カテゴリに入る場合、文書化された関係は、オブジェクトの発生回数の合計と較べて、それに釣り合う小さいカウント値を有するべきである。
解決すべきもう一つの問題点は、人工的な構築物を記述する標準化されていない表記法を使用することである。たとえば、「ABCΔ130〜140タンパク質はDEFを結合できなかった」とうステートメントを取り上げてみる。このステートメントから次の2つのことが理解される:ABCは通常はDEFを結合するが(暗示的である)、アミノ酸130〜140がないと、結合できない。このような表記法はそれが標準的であれば容易に対処可能であるが、この欠損を示す方法には、ABCΔ1d(第1のドメイン用)、ΔABC−2(第2の欠損部位用)、ABC−DEFBR(DEF結合領域なしのABC用)等の方法、又は、研究中の物に関連するかなりの数の方法がある。本発明のシステムは、識別されたオブジェクトの関係のみをカタログ化するものである。
他に2つのタイプのエラーがデータソース中に存在する。たとえば、本発明によるシステムは、オブジェクト−関係又は研究の結論/結果を正確に識別するように教示されている。2つのオブジェクト間の関係が識別され、エラーを見出すために用いられた回数の合計を加算する1つ又はそれ以上の変数に依存することによって、より良好な評価がなされる。オブジェクト−関係データベース(ORD)中のエントリのサブ集合を取り上げ、オリジナルの参考文献に立ち返り、正確なものがいくつあるかで評価した。評価の正確さは、潜在的に非文書化された関係をランク付けするためのスコアを提供するのに重要である。したがって、本明細書に記載のシステムは、ORDを構築する際のシステムエラーを軽減するように設計されている。滅多にない又は下手なやりかた(意味論的句切り法)で区切ったために起きるタイプのエラーは遙かに難題である。本発明のシステムとしては、徹底性よりも正確さを強調するシステムが好ましいが、即ち、正確だと識別される関係を見出すことの方を優先するもので、きわめてまれな関係は見過ごしてもよいということである。
研究対象のオブジェクトに対して一貫した標準の分類を実行することによって、上記の上記の問題は殆ど解決できる。更に、メタシソーラス用にNLMのMetaMapなどのツールをまず用いて、句及び単語の異形をメタシソーラスに含まれている概念で整合させる。このメタシソーラスは、ユーザが、自身の一般的な興味を「フリーハンド」方式で一旦入力すれば、さまざまな主題分野を選択する際に助けとなる。
新規なナレッジ発見システム
本発明が解決する問題は、ソースを用いて、関係を包括的に識別して、次いでそれをモデリングし、これによって、新しいナレッジを発見して、探索分野(たとえば、研究分野)内のローカルトレンドとグローバルトレンドを識別する。
1つの態様では、本発明のシステムは情報マイニング用の文書をストアするメモリを具備するものである。その代わりに又は加えて、本発明のシステムは、それを介して1つ又はそれ以上の文書のコレクション(総称的にはデータソース)にアクセスできる、ネットワークに接続可能なプロセッサを備える。
本発明のシステムのプロセッサは中央処理装置(CPU)を具備するのが好ましいが、これは、コンピュータ読み取り可能媒体に埋め込まれた1つ又はそれ以上のプログラム(「コンピュータプログラムプロダクツ」)を実行して、以下に説明する評価方法を実行するものである。コンピュータ読み取り可能媒体には、ハードディスク、フロッピディスク、コンパクトディスク、DVD、フラッシュメモリ、オンラインインターネットWebサイト、イントラネットWebサイト、さらに、他のタイプの光、磁気、又はディジタル式の揮発性若しくは不揮発性の記憶媒体が含まれるが、これらに限定されるものではない。本明細書で用いられる「コンピュータ読み取り可能媒体」には、協調型又は相互接続型のコンピュータ読み取り可能媒体が含まれるが、これは、1つのコンピュータシステム上で単独で存在するか、又はローカル若しくはリモート接続された複数の相互接続されたコンピュータシステム間に分散されている。したがって、1つの態様では、プロセッサは、1つ又はそれ以上のシステム機能を実行するために、クライアント(たとえば、コンピュータ、ワークステーション、携帯式デバイス、Dell4600などのマルチCPUサーバ、ラップトップ、オフィスアシスタント又は、ネットワークに接続可能な他の無線デバイス)からの要求を受信し、遂行するサーバプログラムを履行する。サーバによって履行されるサーバプログラムは、オブジェクト−関係(以下にさらに説明する)のネットワークを定期的に再計算して、ネットワークデータベースを提供し、次いでこれは、クライアントのマシンにダウンロードすることができ、ユーザは、対話や問い合わせをすることが可能である。又は、サーバコンピュータはネットワークデータベースを保持し、クライアント/ユーザは、クライアントマシン上のローカルコピーを有する必要性なくこのネットワークデータベースとサーバを介して対話する。このアーキテクチャによってフレキシビリティが与えられて、データベースが成長でき、これで、クライアント/ユーザマシンで得られる以上に広いディスクスペースと速度とが得られる。
本発明のシステムで用いるのに適したサーバには、SQLサーバ、Oracle及びMicrosoftのアクセスがあるがこれらに限定はされない。
1つの好ましい態様では、本発明のシステムは、企業のデータベースアプリケーション(たとえば、Microsoftのアクセスプログラムなど)を開発し、展開し、管理するプログラムをさらに含む。
1つの態様では、本システムは、ネットワークデータベースの(文献又は新しいオブジェクトを追加した後の)再計算結果を監視して、新しく追加されたなんらかのオブジェクト又はソースデータによって突然リンクされるようになるオブジェクトのグループを識別し、これで、フラグやシステムをトリガーして、結果を点検する命令を含むコードセグメントを持つプログラムを実行させるエンジンを備える。このようにして、本発明のシステムは、発見の新しい機会を(たとえば、候補となる標的の薬物を同定することによって)提供する関係を識別する。このように、本発明のシステムは一般的な人間の思考と科学的方法とをモデリングし、なんらかの発見がなされ、次に、本発明のシステムはこの新たな発見を利用してさらなる新しい発見をする。
システム機能を実施する本明細書に記載するコンピュータプログラムプロダクツは、汎用コンピュータ上で動作する。コンピュータとは、スタンドアローンユニットや相互接続されたいくつかのユニットを含むことが可能なものである。機能ユニットは、指定された目的を遂行することが可能なハードウエア、ソフトウエア又はその双方のエンティティであると考えられる。ハードウエアは、コンピュータやペリフェラルデバイスなどの情報処理ステムの物理的コンポーネントの一部又は全部を含む。
本発明のシステムは、データ評価方法の結果を表示するユーザインタフェースをさらに含むのが好ましい。このユーザインタフェースは、サーバにアクセスすることによって本発明によるシステムにアクセスするクライアントシステム上に装備したり、ユーザインタフェースとシステムの双方を汎用コンピュータ上に具備させたりすることが可能である。実行されているデータマイニング動作のタイプによってカスタマイズされるウインドウ(たとえば、データが表示される境界が定められる表示画像の一部)を備えることが可能である。たとえば、このウインドウは、遺伝子、タンパク質、化合物、その機能及び/または相互作用などに関連するデータをユーザフレンドリーな図形フォーマットで表示するようにカスタマイズされる。たとえば、ウインドウはタイトルバー、ツールバー、ドロップダウンメニューなどの部品及びボタンやリンクなどの制御部品を含むことが可能である。
1つの態様では、ユーザインタフェースは、ユーザの興味に関連したユーザからのテキスト入力(たとえばクエリー)又はデータソースからのデータに関連する入力(テキスト、数値、記号、化学式、数式及び類似物)を受信する1つ又はそれ以上のフィールドや、インタフェースとのユーザの相互作用、たとえば、制御部品(たとえば、ボタン、ドロップダウンメニュー、タスクバー、リンクなど)を選択したりクリックしたりするなどのユーザ動作に反応してシステムによってアクセスされたリモートコンピュータからの入力を受信する1つ又はそれ以上のフィールドを含むが、これに制限されるものではない。このユーザインタフェースは、ユーザの特定の興味を反映する、たとえば、ユーザの興味に特に関与するデータソースに対するリンクを含むようにカスタマイズされる。
データソースからのデータに関連する入力は、標準のテキストコンバータ又はデータコンバータを用いてXMLなどの容易に交換可能なフォーマットに変換される。したがって、pdfフォーマット、bmpフォーマット、tiffフォーマット、HTML、CHM、RTF、HLP、TXT(ANSI及びユニコード)、DOC、XLS、MCW、WRI、WPD、WK4、WPS、SAM、RFT、WSDを含むデータソースを、XMLなどのフォーマットに変換することが可能である。本発明の1つの好ましい態様では、本発明のシステムのデータコンバータ機能を用いて、Medlineなどのデータソースに類似したフォーマットにデータを変換する。
本発明による1つの例示のシステムでは、たとえば、256MBのRDRAMと36GBのSCHSIハードドライブを持つデスクトップ800MHzのPentium IIIと、1GBのRDRAM、36GBのSCSIドライブ及びバックアップ72GBのSCSIドライブを持つPentium-4型PCとを用いて計算される。以下に説明する例では、MEDLINEが、ローカルの1.3テラバイトクラスタの不安定性のために72GBドライブ上でローカルモードでストアされていた。1つの態様では、本発明のシステムのプログラムコードはVisual Basic6.0(VB6)で書かれているが、当業者であれば、本明細書の開示に従って多数のプログラム言語の内の何れかを用いて、本発明を実行できるものである。たとえば、本発明のシステムは、たとえば拡張されたOpen Database Connectivity (ODBC)を用いて、Microsoft Access2000からのデータベースアクセスを可能とする。VB6もまた、ODBCを介して拡張型SQLサーバに対処するが、これでグレードアップを可能とする。
本発明によって実行される評価方法又はデータマイニング動作は一般的に次の部分に分割される:
1. あるナレッジドメイン内の情報の関係は類似化される。
2.(ナレッジのドメイン、たとえば、データソース中の)意味ある関係の認識は、一次ドメインは通常の方法でカテゴリに分類され、これらのカテゴリは、特定のデータベース内に包含されるのに十分なほど重要である、という仮定に基づいている。
3.ナレッジドメイン内の関係の包括的識別は、ナレッジのドメインのキーとなる分野内でのオブジェクトの同時発生によってなされる。
4.関係の包括的ネットワークはデータベースにストアされ、次いで、共有関係を伴うクエリー及び暗示的にしか知られていないクエリーとを作成するために用いられる。
5.共有関係及び暗示的関係とは、有界ネットワークモデルを用いて統計的に評価される。
6.識別された関係は、それを既存の問題に照らし合わせてその正確さを試験する。
あるナレッジドメイン内の情報の関係の類似化は一般的に、データソースからシステムに入力することから始まる。
データソースの例には、公開された研究論文(たとえば、Science Citation Index、Medline、BIOSIS)、公開された技術論文(たとえば、Engineering Compendex)、会議議事録、公開された技術報告書の結果データベース(たとえば、NTIS)、患者のデータベース(たとえば、 www.uspto.govで利用可能なものや、DERWENT、LEXIS、WESTLAW、DELPHION、MICROPATENTなどのデータベースなど)、プログラムナラティブのデータベース(たとえば、RADIUS)、規制当局のWebページ(たとえば、FDA、NIH、USPTO、FTC、SECのWebサイト)、手紙、メモ、白書、チャットルームテキスト、裁判の判決、ニュースの記事、百科事典の記事、本、学術論文、リスト、表、目次、指標、市場分析、及び一般的にはオンライン又はディジタル形式で公開されている他のデータがあるが、これに制限はされない。インターネットのソースに加えて、イントラネットのソースや、メモ、手紙、ビジネスプラン、研究論文、補助金提案、eメール、マニュアル、ハンドブック、臨床データ(処理データと未処理データを含む)、顧客情報、競合者情報などを含むがこれらに限定されない、特定の企業構造に固有の及び/又はその企業にとって専売特許の他の文書が、データソースとなる。加えて、書籍(たとえば、MerckマニュアルのPhysician's Desk Reference:2001年発行のMcGraw-Hill出版社のA. Gilman、J. Hardman及びL. Limbird編集のGoodmanとGilmanの「治療学の薬理学的基礎」の第10版155-173;http://onlinebooks.library.upenn.edu/new.html" http://onlinebooks.library.upenn.edu/new.html、http://www.bartleby.com/" http://www.bartleby.com/、http://www.jpl.org/div/books/" http://www.jpl.org/div/books/、http://promo.net/pg/" http://promo.net/pg/、http://.bibliomania.com/" http://www.bibliomania.com/、http://www.netlibrary.com" www.netlibrary.comなどで入手可能なさまざまなオンライン本)などの教育資料や参考資料も含まれる。
文書には、現在オンラインされている文書や、たとえば、OCR走査によって電子文書に過去に翻って変換されている文書が含まれる。たとえば、オンラインでは入手不可能な文書又は遺物文書は、標準のゼロックス技法及び/又はスキャナによってコピーすることが可能である。
1つの態様では、本発明によるシステムは、スキャナと、システムデータベースにリンクされているシステムプロセッサと通信しているこのスキャナと連通しているプロセッサとを含むOCRモジュールを備えている。このスキャナを用いて、データソース(たとえば、本、雑誌、手紙、実験室ノートなど)とスキャナと連通しているプロセッサの画像を得、また、システムがテキストを印刷形態からデータソースとして使用可能なファイルに翻訳するのが好ましい。
このモジュールを用いて、1ページ全体又は2ページを一時に(フラットベッドスキャナを用いて)走査する、又は、あるページの選択された部分を走査することが可能である(たとえば、スキャナは携帯式デバイスという形態であったりする)。1つの態様では、スキャナは、多量のルース文書、すなわち、紙をそれから除去したりそのスパインから切り取って別々のページにできる使い捨て本を走査したりするフィーダシステムを含む。
1つの態様では、データソースファイルは、それから関連データを抽出することが可能な編集式テキストファイル又はグラフィックである。本発明のシステムで走査される文書は、この文書の少なくとも1つのキーとなる特徴に関連する少なくとも1つのメタオブジェクトと関連しているのが好ましい。文書をメタオブジェクトと関連付けるには、走査方法又は変換方法を制御し、これで、上記の少なくとも1つのメタオブジェクトも持たない文書がシステムデータソースの一部とは成らないようにするように、システムのオペレータとの対話することが必要である。1つの態様では、調査される文書をストアする一時的データベースを生成してデータソースとして削除又は編集して要約コンテンツとする。オペレータは、専門家であったり、1つ又はそれ以上のキーワードがないか文書を調査するように訓練されている個人であったりする。
オーディオでストアされる又はグラフィックコンポーネントを含む文書の場合、テキストデータをこのようなコンポーネントから抽出する方法(たとえば、スピーチツーテキスト(speech-to-text)アルゴリズム又は光学的文字認識アルゴリズム)を用いて、さらなるデータソースを生成する。データソースに貢献する文書は、1つのメモリ中にストアするか又は、たとえばWorld Wide Webもしくはインターネットにカップリングされている多くのサーバ上に分散される。このような文書は、以下に説明する方法に先立って又はその最中に本発明のシステムのプロセッサによってネットワークを介してアクセスされる。本発明のシステムで操作される文書のコレクションを生成する際にWebクローラを利用してもよい。
ソースの選択は、評価される特定の技術分野及び/又は評価の目的(たとえば、薬物の発見対薬物の副作用の識別、薬物の相互作用の識別、消費者のトレンドの識別など)に基づいてなされる。重要とされる他の判断基準には、新しいトレンドの出現を識別するためのデータソースの時間的範囲(たとえば、最近の公開又は選択されたタイムスタンプ)及び地理的範囲(たとえば、公開された場所)があるが、これらに限定はされない。
1つの態様では、評価されたデータソースは、たとえば、同類の及び/又は多様な技術分野といった複数のデータベース、又は複数のナレッジドメインをカバーするデータベースを組み合わせたものである。たとえば、組み合わされたデータベースには、いくつかの組み合わせを挙げると、製薬データベースとバイオテクノロジーデータベース、生物医学データベースと工学データベース、バイロテクノロジーデータベースと情報技術データベースといったものがある。幾つかの態様では、データソースを識別して評価する場合、技術に制限はない。たとえば、DIALOGデータソース及びSTNデータソースには、異なる技術分野のデータベースが含まれるが、それらは組み合わせて又は個々に評価してもよい。
さらなる態様では、データソースは、構造化データのみならず非構造化テキストデータ(たとえば、科学文献からのテキスト)も含む。1つの態様では、データソースは、DNA配列ホモロジデータ、ゲノムオントロジーグループ名、タンパク質構造類似性等の科学文献のデータコレクション(たとえば、ジャーナル記事、教科書、特許文書、Webサイトデータ)からの非構造化データを含む。
システム機能の概要
たとえばMEDLINEなどのさまざまなソースを用いる一般的なシステムロジックのフローチャートを図5に示す。オンライン科学テキスト50、MEDLINE要約51又は電子データベース52などの選択されたソースは、ブロック53中で走査されたテキストである。この方法は、完全に自動化されていてもよいし、又は、対話形式で実行してもよい。複数のテキストコレクションをデータソースとして用いると、このデータは1つのマシン上又はクライアント/サーバアーキテクチャ中にストアすることが可能である。コレクションに特異的なメタオブジェクトは各々のコレクションと関連している。
情報は、ブロック53中で推定抽出によって選択ソースから抽出されて、ORD54中に供給される。データは、多様な形態で存在するデータソース、たとえば、ASCII、Doc、PDF、データベースレコード、フラットファイルなどのファイルディレクトリから抽出される。1つの態様では、本発明のシステムは、複数の異なったファイルタイプでストアされているデータを1つの形態に変換するプログラムコードを提供するが、たとえば、PDF、TIFF、Word、及びテキストファイルなどとしてストアされている非構造化データがXLMに変換される。
ORD54の後は発見エンジン55となっており、ここで関係ネットワークの分岐探索とトリミングが実行される。発見エンジン55は、歴史的発見を、間接的接続57及び/又は今日の間接的接続56のランク付けされたリストを介して生成する。
図6は、本発明のシステムのキーとなるコンポーネントを解説するフローチャートである。一般に、本発明によるシステムは、ブロック60でデータベースオブジェクトをコンパイルし、次に、ブロック61でこのデータベースオブジェクトを純化し、ブロック62でオブジェクトの同時発生がないかソースを走査し、ブロック63で1つ又はそれ以上の関係データベースを作成する。この関係データベース63は、ブロック67で共有関係を識別し、ブロック64で暗示的関係を識別し及び/又はブロック65で共有された暗示的関係を識別することが可能である。
1つの態様では、本発明のシステムは図7に示すようにデータベースオブジェクトをコンパイルする。フィールドは、一緒のグループとすることが可能な所定の領域であり、また、類似の情報グループを収容するデータベースは、必要に応じて、合成されたものとは独立して用いられる。たとえば、科学技術分野で所定の3つのフィールドは:遺伝子71(ここで、データベースはローカスリンク(locuslink)71a、GDB71b及びHGNC71cを含む);化合物、小分子及び薬物72(ここで、データベースはChemID72a、MeSH72b及びFDA72cを含む);並びに疾病及び臨床的表現型73(ここで、データベースはMeSH73aとOMIM73bである)である。次に、遺伝子71のデータベースと、化合物と、小分子と、薬物72と、疾病及び臨床的表現型73とのグループがブロック74で前処理されてデータベースエントリとしてフォーマッティングされる。次に、エントリはブロック75で分解されて合成され、ブロック76でエラーがないかチェックされる。望まれない又は「情報価値のない」あらゆるエントリ(自動的に又はユーザによってそのように定義された)は、ブロック77で削除される。
別の態様では、本発明のシステムのユーザは、データソースからのテキストの表示を(たとえば、オンラインで又はOCRモジュールによって本発明のシステムに提供されたものを)閲覧して、テキストを選択して強調して、新しい語をオブジェクトリストに追加することが可能である。テキストが表示されるグラフィカルユーザインタフェースは、閲覧中のテキスト中のどの語が現在オブジェクトリスト中にあるかを示す表示も含むのが好ましい。このようにして、テキストを迅速に走査して、現在使用されていない重要で新しいオブジェクトを選択する。
この処理された情報は、他のデータソースからの情報と組み合わせる及び/又は前のコンパイルと関係決定ステップから得ることが可能である。ある実施形態では、この情報を、クラスタ化、分類、予測的モデリングなどの従来のデータマイニング技法を用いてさらに評価することが可能である。
図8に示すようにデータベースオブジェクトを純化するために、1つの態様では、本発明のシステムは最初に、ブロック81で曖昧な頭字語に(たとえば、以下に考察されるように頭字語分解プログラムを用いて)フラグ付けする。一般的な単語は、ブロック82で、一般に、別の単語データベース又はリソース、たとえば、Merriam-Websterデータベース(M−W)を用いてフラグ付けする。くわえて、ブロック83で、大文字化パターンが重要とされるエントリが、(これまた、自動化されたシステム、ツール又は、M−Wなどのリソースを用いて)フラグ付けされる。別の純化方法としては、ブロック84で、たとえば、頭字語分解プログラムを用いて語彙的異形を発見して、ブロック85で、たとえば、頭字語分解プログラムを用いてさらなる同義語を発見する方法である。
次に、本発明のシステムは、冗長度を軽減し、図9に示すような関係を作成するために、同時発生しているオブジェクトがないかソースを走査する。たとえば、ブロック90で、テキストのブロックを、データベース、たとえばソースフラットライン(saurce flat-line)から入力する。次に、本発明のシステムは、ブロック91でこのソースから情報を抽出する。たとえば、MEDLINEをソースとして用いて、本発明のシステムは、レコード毎にタイトル、要約、日付およびPMIDのフィールドを含む情報を抽出することが可能である。本発明のシステムは、ブロック92で、このソースからのレコードをプリメソッディング(pre-method)してフォーマッティングし、ブロック93でこのレコードを解析して文とし、ブロック94で各文を解析して単語とし、ブロック95で単語を1つ又はそれ以上のアレイにする。くわえて、本発明のシステムは、オブジェクトデータベースを探索して、句(ここで、1〜5の語を合わせて、いずれかの配列からの句を形成する)と整合しているか調べる。次に、ブロック97での判定で、整合しているかどうか判断する。整合していれば、いずれかのフラグ付けされた頭字語をブロック98で分解して、ブロック99で、大文字化(CAPS)を、フラグ付けされていればチェックする。整合していなければ、ブロック94に戻って、新しい語の集合を文から解析して、上記のプロセスを続行する。ブロック100で判定された整合に基づいた新しい関係が(フラグが全てチェックされて分解された後で)、ブロック102でデータベースに対して新しい関係として追加される。しかしながら、新しい関係が発見されなかった場合、同時観察カウンタをブロック101でインクレメントする。
図10に、本発明のシステムが、ブロック105でどのようにして、各オブジェクトに固有の数値ID(長い整数)を割り当てることによって1つ又はそれ以上の関係を作成して、ブロック106で最も低いIDで最初に非方向性関係をストアするかを示す。
図11に示すように、ブロック110で、本発明のシステムは、ユーザが1つ又はそれ以上のオブジェクトリストを分析目的で入力した後で共有関係を識別する。この入力された1つ又はそれ以上のリストから、各オブジェクトに対する全ての関係をブロック112で1つのリストにコンパイルして、ブロック114で、関連するオブジェクトを頻度でカウントして、期待値を計算する。この期待値は、オブジェクトの同時発生確率がオブジェクト間の重要な(non-trivial)関係に等しくなる確率に基づいている。
次に、本発明のシステムは、図12に示すように入力された情報からの暗示的関係を識別する。以前と同様に、ブロック120でユーザ又は自動化されたシステムによって分析目的で入力されたオブジェクトはすべて、オブジェクト毎の直接的関係であって、ブロック122で識別される。直接的に関係するオブジェクトに関係する全てのオブジェクトは、ブロック124で暗示的な関係として識別され、以下に詳述するようにブロック126で、暗示的に関連するオブジェクトに至る経路は全て、識別され、カウントされ、スコア化される。
共有される暗示的関係は、図13に示すように識別される。ここで、ユーザ又は自動化システムは、ブロック130で、1つ又はそれ以上のオブジェクトリストを分析目的で入力する。各オブジェクトに対する全ての直接的関係をブロック132で識別して、その後で、ブロック134で、可能な全接続のx%未満又は観察/期待比のy%未満の共有オブジェクトを実行する。暗示的に関係しているオブジェクトがブロック136で共有関係毎に識別され、暗示的に関係しているオブジェクトは、ブロック138で、直接観察/期待比に暗示的オブジェクトに至る固有経路の数を乗算したものをスコアとする。
図14は、動作中の本発明のシステムを示すフローチャートである。データソース、たとえば、要約がブロック140でデータベースに入力されて、ブロック141でメタオブジェクトがないかどうか走査される。ブロック141でメタオブジェクトが発見されない場合、データソース140をブロック142で、関係がないかどうか走査するが、データソース140中でメタオブジェクトが発見されたら、そのメタオブジェクトはオブジェクトテーブル146にストアされる。次に、146にストされたオブジェクトが走査して、関係がないかどうか142で調べる。ブロック141でメタオブジェクトが発見されない場合、データソース140を走査して関係がないか142でどうか探し、関係が発見されれば、メタオブジェクトを144でオブジェクトがないかどうか走査し、なければ、本発明のシステムは戻って別のデータソース、例えば、要約を140で入力する。144でのオブジェクトの走査が成功であれば、判断ツリーに達して、145で、ナレッジエンジンがオブジェクト間の関係を決定するか判定し、関係が識別されたら、その関係を149でストアし、されなかったら、本発明のシステムは140に戻って別の要約を入力する。
本発明のシステムは、データを要約して識別された関係の表現物を表示する。グラフィカルな(たとえば、ビジュアルな)表示が一般的に用いられるが、他の意義を伴う表示(たとえば、聴覚的表示)が場合のよっては有用でありえる。
図15が、本発明の一態様によるシステムによって識別されたスコアによるフルオキセチン(Prozac(登録商標))の上位6,000の暗示的関係を示すグラフである。直接的強度は、直接的関連性の分量によって測定される。強度は、2つのオブジェクトが同時発生した回数と、各同時発生が重要な(non-trivial)関係を表す確率の関数である。暗示的関係をグラフではゼロとして示している。
本発明の1つの態様では、ユーザインタフェースによってユーザは、暗示的関係を表すグラフ中の領域(areas)及び/又は線(lines)のところでクリックして、本発明のシステムによって発見された暗示的関係の実際のソースを閲覧することが可能である。又は、ユーザは、暗示的関係が発見されたテーブル、さらには、オリジナルのソースデータ内の位置に対して方向付けされることを選ぶことがあり、そのため、本発明のシステムは、実際のソースの文脈中のキーワードを表示する。スコア化の効率を向上させるため、本発明のシステムは、高い直接的強度関連性を提供するソースを選別して除外して、信号対雑音比を変化させて暗示的関係のスコアを増加させるように指示されることさえある。
本発明のシステムはまた、無関連の又は負の関連性を選別して除外するために用いられる。グラフの底部でのスコアは、本発明のシステムが、関係ベクトルの強度と言う意味で、位置する関連性のリンク数を示している。アートがどれほど混雑するか、データベースのサイズがどれほどか、ソースの信頼性やインパクトはどれほどか、オブジェクトに変換されるテキストのサイズはどれほどかなどによって変動するある閾値未満になると、スコアはほとんどの場合無関連となり、したがって、ユーザの焦点は、ある強度スコアの閾値を超える暗示的関係のところに合わされる。
処理
新しいオブジェクトを本発明のシステムのデータベースに追加すると、逆指数関数1/n(ここで、n>0)にしがって探索時間が増す。テキスト走査時間も直線的に増す。データベースのサイズとテキストの分量は双方とも、連続的に増加させることが可能である。
オブジェクトベースの分析
ほとんどのソースは、複雑な構造を持つデータと情報とを包含しており、そのフォーマットは多様であり、良好に定義された基準はない。他方、ほとんどのソースは、用語の認識のための卓越した媒体となる。
1つの態様では、システムルーチンを書いて、多くの多様なテキストフォーマットを処理して、ORDをオブジェクトで占めるようにする。別の態様では、本発明によるシステムは、科学技術における新規な関係を識別するために多くの追加の特徴を提供する。たとえば、遺伝子エントリは、遺伝子ノーメンクラチュアの容認済み基準を収容しているGDB(ゲノムデータベース)とHGNC(ヒトゲノムノーメンクラチュア委員会)のデータソースと、ローカスリンク(LocusLink)とから得られたものである。3つの全てのリスト中のエントリに対する13,104を超えるの公式の遺伝子名に対してリストアップされている35,579を超える同義語(公式の名称を含む)が作成された。遺伝性障害(及び潜在的障害)に関するOMIMエントリの数は、7,290を超えるエントリに対して13,068を超え、たいていの臨床的形式も含めて組み込まれた。MeSHからの7,713より多い副題が組み込まれて、主カテゴリ「D」であれば小分子(薬物、代謝体、薬品、エレメント)として分類された。エントリは、MeSH「C」カテゴリであれば、疾患/表現型として分類された。用いられたいくつかのファイルのインターネットのロケーションを表1に示す。MEDLINEは、NLMからXMLフォーマットで得られたものであり、コンピュータ上の73GBドライブのローカルで置かれており、そのコピーはアクセス可能なWebサイトに保管されている。したがって、本発明のシステムは非構造化テキストデータ(たとえば、科学雑誌からのテキストなど)と構造化データ(たとえば、配列情報;マイクロアレイ分析から得られたものなどの発現データ;薬物の効果、薬物間の相互作用に関するデータ、薬物及び薬物の組み合わせに関連する効き目及び/又は安全性に関するデータ等)双方の評価を統合することが可能である。
生物化学(たとえば、バイロテクノロジー、生物医学)の一部の例示的データソースを以下の表1にリストアップする。
Figure 2006503351
Figure 2006503351
表1に、ORDを構築するために用いられるソースの内の多くのものを示す。くわえて、表1は、科学技術における補足的データ(たとえば、同義語やタイプ)を提供する追加のオンラインテキストベースのソースを含んでいる。表1は主として生物学的又は化学的データベースを示しているが、他の多くの分野から得た他の多くのデータベースを上記のデータソースとして用いることが可能である。本発明のシステムは動的なものであって、データベースを新しく作成すると、それは、本発明のシステムのためのデータソースとなりえる。同様に、データソースを更新して、既存のデータベースに追加される新しいデータを取り込むことが可能である。
本発明による追加データソースは、進行中の実験から得られたデータ、たとえば、ハイスループットスクリーニングアッセイやマイクロアレイデータなどのコレクションを含む。1つの態様では、このデータソースは、生物分子アレイの発現データ、たとえば、オリゴヌクレオチドアレイ、発現配列アレイ、cDNAアレイ、SNPアレイ、タンパク質アレイ又はペプチドアレイ、抗体アレイ、糖タンパク質アレイ、組織アレイ等を含む。このデータソースは、遺伝子名、受託番号、核酸配列、アミノ酸配列、細胞株(セルライン)番号(たとえば、ATCC寄託番号)、結合親和性、修飾の状態、Tm値、発現パターン、代替(alternative)アレル、マイクロアレイ上の座標、及び、たとえば、サンプルを得る基となる有機体、細胞タイプ、組織タイプ、系統、発達段階、サンプルの薬剤に対する暴露、サンプル内での細胞の表現型/形態学、サンプルがヒト等の哺乳類から得られた場合の患者情報などのアレイに接触するサンプルに関する情報などのオブジェクトを含むが、これらに限定はされない。マイクロアレイ解析から得た発現データは定性的なもの(発現対非発現)又は定量的(たとえば、発現のレベルに関連する)であったりする。このデータは、さらに、他のデータソースと相互関連又はリンクされる;たとえば、疾患に関連する多形性の配列に関するデータが、野生型の機能、遺伝子産物等との薬物の相互作用、MEDLINEに関する情報及び/又は上記の表にリストアップされているデータソースと関連するデータにリンクされる。
同様に、他のハイスループットスクリーニングの様相はデータソースを提供できるが、たとえば、マススペクトロメトリー、細胞ベースのアッセイ、転写アッセイ、結合アッセイ、FRETベースのアッセイ等に基づいたシステムからの出力は本発明のシステムによって評価されるデータソースを提供することができる。
1つの態様では、オブジェクト間の新規な関係に関して本発明のシステムによる予測に基づいて実験を行い、この実験から得られたデータを、本発明のシステムによって実施される方法のための追加のデータソースとして用いる。
システムデータベースのエントリは、カテゴリー化よりはテキストマッチを目指すものであることから、更なるフォーマッティングが必要である。たとえば、「カセット、ATP結合(cassette, ATP-Binding」等のエントリは、要約に於いては「ATP結合カセット(ATP-Binding Cassette」と書かれるのが好しいし、同様に「色盲(Xリンク)シンドローム」などの括弧付けのコメントはテキスト入力とはマッチしないものである。このようなフォーマッティングの問題は後述されるように必要不可欠のものである。
ナレッジ発見のキーワードベースのアプローチは現在では不可能である(MEDELINE内だけでも420万を超える固有の語があり、1つ単語及び1つのキーワードだけでも、しばしば操作上の制限を受ける)ので、別のアプローチが用いられた。このアプローチは、計算力の大半を「the」及び「what」などの無関連用語に限定して用いている。本発明によるシステムは先に定義されたオブジェクトに重点を置いて分析するもので、これによって情報価値の高い関係が得られるようにしている。他の自然言語システムは一般的に、一連のルールに従う全ての語を抽出するが、現実の言語は非常に複雑なので多くのシステムが破綻している。システムに自由にオブジェクトを選択させるのではなく一連のオブジェクトを事前に定義することによって、本明細書で考察されたオブジェクトリストのデータベースからコンパイルされた、又は自動抽出システムから手動で識別された若しくはヒトによって検証された適切なオブジェクトのみが、重要でない語(unimportant words)をリンクすることによって擬陽性(false positive)の関係を最小限にするのが一般的である。「the」などの語が見過ごされれば、全ての語が、その時点で関連性の無い一連の関係に於けるその他の全ての語にリンクすることになる。重要なことは、本発明のシステムにとっては、できる限り多くのオブジェクトを類似化することが必要なのではなく、むしろ、非常に広範でポピュラーな用途/興味の領域や分野を表示する一連のオブジェクトを有することが必要である。
同時発生用語を用いて潜在的な関係を徹底的に識別する
本発明によるシステムは、2つのオブジェクト間に、それらが同じデータレコード(たとえば、要約など)内に同時発生することが観察された場合、潜在的な関係が存在すると前提することによってできる限り多くの関係を識別するように設計されている。同時発生は、データレコード内とテキストの拡大物(text extension)(たとえば、文)内の双方で計算されるが、同じテキスト拡大物中で言及されている2つのオブジェクトは重要(non-trivial)な関係を表す確率が高いことを前提としている。同時発生するオブジェクトをクラスタ化してその関連する頻度を識別するという方法は、同時発生マトリックスを作成することによって、若しくは、句がどのようにして他の句とリンクしているかを示すデンドログラムを作成することによって、又は、当該技術分野で公知のその他の標準の統計的アルゴリズムを用いることによって実行される。
この方法を試験するため、25のMEDLINEレコード(タイトルと要約)から成るランダム集合が選ばれて、各要約内で同時発生するオブジェクトが手動で評価され、これらのオブジェクトが重要(non-trivial)な関係を共有していたかどうかが明らかにされた。同じ文内で同時に言及されている2つのオブジェクトの方が重要(non-trivial)な様式で互いに関連している確率(83%)が、同じ要約内で同時言及されているオブジェクトの確率(58%)より高いと判定された。しかしながら、文中で同時に言及される場合は、擬陰性(false nagative)である割合が比較的高く、要約内の重要(non-trivial)な関係の43%を見過ごしている。
2つのタイプの擬陽性(FP)エラー、すなわち、ランダムエラーとシステマティックエラーが観察されている。ランダムFPエラーは、たとえば、要約内のオブジェクトが、たとえば、アッセイ固有のものであって研究対象(たとえば、ナトリウム、EDTA(sodium, EDTA))ではない場合、なんら関係が存在しなかった場合(たとえば、「我々はAとB間になんら関係は発見しなかった(We find no relationship between A and B」)、又は、推測的な情報が含まれていた(たとえば、「我々は・・・・に可能な役割を仮定した(We hypothesize a possible role in …」)場合に発生する。しかしながら、ランダムFPエラーは、予測されるものであり;2つのオブジェクト間により多くの同時言及が観察されるほど、このエラーのランダムソースの重要度は減少するが、それは、関係の数が不正確であっても、関係の存在は真実であるからである。
しかしながら、システマティックFPエラーはより問題であって;これは観察された同時言及間の関係を最少1%から最大100%まで無効化した。システマティックエラーを発生させる主な原因は、同音異義語のような用語と多義語のような用語である。同音異義語とは、スペルは同じであるが意味が異なる語であり、多義語のような用語とは必ずしも単語ではなく、頭字語や略語をその範囲に含み得る整合する用語(matching term)のことである。多義語は、スペルが同じであるが、複数の定義を持つ頭字語であり、多義語のような用語は、それ自体が必ずしも頭字語である必要はないが、同じグループ(たとえば遺伝子)内の互いに異なったオブジェクトを言及するために用いられる記号(たとえばp40)をその範囲に含む。
頭字語の分解
正確さと想起性とを増すのに重要である。頭字語、略語及び他の形態の語又は句を短縮すること(以降「頭字語」と総称する)は、コミュニケーションの効率に於いては助けとなるが、頭字語が複数の定義を持つ(たとえば多義語がそうである)場合にはテキストマイニングソフトウエアを混乱させる。1つのデータベースMEDLINEに発見される一部の曖昧な頭字語の例を表2に示す。ある頭字語が文献内にさまざまな意味を有する場合、データソース内での各定義の発生頻度は固有頭字語の定義パーセンテージ(Definition Percentage of unique Acronym、DPA)のスコアから推定することが可能である。DPAは、1つの特定の定義が固有の頭字語に対して用いられている回数(#)をその頭字語に対して用いられている全定義数(#)で除算することによって計算される。
Figure 2006503351
1つの態様では、頭字語の曖昧さを取り除くために、本発明のシステムは頭字語分解プログラムコードを導入する。このコードは、頭字語定義の対が開発されたことを識別する自動式で、正確で拡張可能な(scalable)方法を提供するのが好ましい。たとえば、頭字語分解ジェネラルヒューリスティック(Acronym Resolving General Heuristic「ARGH」)ソフトウエア内に包含されているようなプログラムを用いる(「包括的頭字語定義辞書の自動的構築に向けての、医学分野における情報の2000の方法」というWren、J及びGarner、Hらによるテキスト内頭字語定義パターンの識別のヒューリスティック。参照部分と関連部分をここに参照として取り込む。)。
頭字語分解プログラムによって、本発明によるシステムは、テキスト内の著者によって定義された(author-defined)頭字語を分解することが可能である。1つの態様では、本発明のシステムによって実行可能なこの頭字語分解プログラムは、複数の頭字語定義を含むことが可能である。この頭字語分解プログラムは、頭字語と定義が交番する相対的頻度と、固有の頭字語/定義対のスペリング、フレージング及びハイフォネーションの異形を識別できるものが好ましい。ヒューリスティックの集合は、頭字語/定義対の境界を正確に突き止めて識別し、また、ソースレコードのサブ集合の正確さと想起性を純化する。このようなサブ集合(トレーニングセットと呼ばれる)は、次第にそのサイズを増大させ、次いで、ヒューリスティックによって再評価されて、拡張性(scalability)が保証されるようになる。本発明のシステムの頭字語分解コンポーネントは、特定のソースに対して調整されて、正確さを向上させる。
1つの態様では、本発明のシステムの頭字語分解プログラムはオンライン頭字語と略語定義データベースとは異なって、手動によるコンパイルとキュレーション(curation)とを必要としない。本発明のシステムの頭字語分解コンポーネントは範囲が狭いというのではなく、他のもののようにあまりに多くの異なったソースを含むのではなく、通常、特定のソース(たとえば、生物医学ソース)に合わせてあるのが好ましい。加えて、本発明のシステムは、どの頭字語を分解する必要があるかを「判断」しなければならないため、本発明による頭字語分解システムは、テキスト内で未だ関係が確立されていない頭字語が発生するたびに、主要な意味が90%未満のすでに認識済みの定義から成っているORD中の頭字語を更に分解するためにフラグ付けする。
他の自動式方法/プログラムは、頭字語がどのようなものであるべきかを事前定義し、次に、その認識のルールを記述する。たとえば、他のプログラムでは、頭字語はアルファベット文字で始まり、指定された文字長(たとえば、3〜6文字長など)であることを必要とする。このようなプログラムは一般的に事前定義されたルールの集合の精度と想起性とを測定する。本発明によるシステムは、できるだけ多くの頭字語を識別する頭字語分解プログラムと、擬陽性の量を軽減するヒューリスティックを実行するのが好ましい。本発明による頭字語分解プログラムを数回使用した後、FPとFNのレートを追跡すると、そのシステムはさらに純化され、また、1千2百万を超える要約を持つMDELINEのような極めて大きいソースで用いることが可能である。
本発明のシステムによって実行される頭字語分解プログラムは、頭字語/定義対のパターンを事前定義しない。1つの態様では、このプログラムは最初に、テキスト全体を右から左に移動して、頭字語内で発見された連続する文字を頭字語/定義リスト中の定義内の文字と整合させ、次に、ヒューリスティック集合を用いて、有効なパターンマッチと無効であるパターンマッチとを区別する。また、好ましくは、本発明の頭字語分解プログラムは、定義と頭字語の長さに対して非常に緩やかな長さ制限(たとえば、最大で約255文字)を課し、マッチングするパターンでスキップされる「ノイズ・ワード」のリストを用いる代わりに、プログラムは単に、限られた数のマッチしない中間言語を許容する(たとえば、「ラット」は、それが「スプレイグ・ドーリーラット(Sprague-Dawley rats:SD)」として用いられる場合はスキップされる)。
表3に、MEDLINEなどの科学技術のソース内で頭字語がどのようにして構築されるかを示す例を解説する。ここで、100の要約から成るサンプルを検査し、いくつかの頭字語と略語が識別された。これらは、用語(Term)として識別されたものである。次に、これらの用語は、1つ又は2つの主要なタイプ、すなわち、頭字語のようなカテゴリ(タイプI)と略語のようなカテゴリ(タイプII)に分類された。各タイプはまた、サブ集合として定義されるいくつかの異形を含んでいた。たとえば、タイプIIaは、不連続で定義レターを用いることから略語構築の標準的方法から逸脱している。表3はまた、各タイプの相対的な頻度を示している。
Figure 2006503351
1つの態様では、本発明の頭字語分解プログラムは、対応する定義から、頭字語を語や句のなんらかの略短縮形と定義していて、本来純粋な記号としては定義していない。カリウム(K)と銀(Ag)とは、純粋な記号表示の例であるが、語を表すために用いられている記号はその単語自体に由来するものではない。代表的な語と参照記号との組み合わせから生成された頭字語は有効な頭字語としてはカウントされない(たとえば、トリヨードチロニン(triiodothyronine[T3])。定義と頭字語もまた、その文字長は255文字を超えない。くわえて、システマティックな精度のレート(真陽性/[真陽性+擬陽性])、システマティックな想起性(真陽性/[真陽性+擬陽性])及び識別イベント毎の(per-identification-event)精度と想起性のレートが決定される。
「システマティックレート」とは、データベースのエントリのことであり、ソース(以降「文献」)中の集合から得られたコンパイルされた頭字語/定義パターンがどれほど正確で包含的であるかを反映している。識別イベント毎の(per-identification-event)レートとは、テキスト内の頭字語/定義パターンのインスタンスを認識するシステムの能力のことである。この両者は異なるが、それは、システムが、テキスト処理において用語を自動的に認識するのに適切であるが、より多くの文献を処理するに連れてエラーがデータベース中に累積するため自動的な構築には不十分である、比較的小規模な文献集合に於ける識別イベント毎の正確度が98%というめざましいレートを有することができるからである。
擬陽性と考えられるエントリは、頭字語の定義とは無関係な語を含むものである。たとえば、頭字語「IL−2」に対する「インターロイキン−2」の定義は、擬陽性エラーと考えられる。このエントリを除外したヒューリスティックを付加し、それがIL−2の定義として「インターロイキン−2(interleukin-2)」を含む唯一のものであるとした場合、この除外によってシステマティックな想起性が影響される。しかしながら、ヒューリスティックがこのエントリを除外するが、IL−2に対する有効な定義を含む他のエントリは除外しなかった場合、単に識別イベント毎の想起性が低くなるだけである。IL−2の「インターロイキン−2 遺伝子(interleukin-2 gene)」などの定義はエラーとはみなされることはない、それは、たとえ「遺伝子」という語が頭字語内の如何なる記号でも表せないとしても、それは、IL−2が何であるかという説明と直接的に関与しており、また、定義的な異形であると考えられるからである。最終的に、ソフトウエア識別エラーに起因するエントリだけがFPとしてカウントされる。たとえば、IL−2に対する「インターロイキン−2(interleukine-2)」という定義はスペルエラーである可能性が高いが、また、有効な異形でありえる(たとえば、“armor"対“armour")。このようなスペルの異形は、本発明によるステムでは許容される。
本発明の1つの態様による頭字語分解プログラムで用いられるヒューリスティックの集合を表4と5に要約する。表4は頭字語/定義対を突き止めるために用いられるヒューリスティックとその境界を示している。この表に示す態様に於いては、頭字語/定義パターンを識別するために、ヒューリスティックの集合が累積的にレコードのバッチ(この場合、MEDLINEのタイトルと要約)に加算された。データセットのサイズが増すに連れて、より多くの異形が、頭字語/定義パターンが構築された様式で観察され、全体的な精度を増すために新たなヒューリスティックを追加する必要があった。追加のルールに対する擬陰性は、どのくらいの量の有効な追加エントリがデータベースから除外されるのかということで報告される。
Figure 2006503351
表5に、大規模ソース、すなわち、百万を越えるデータ集合、たとえば、レコードを持つソースでのエラーレートを減少させるために開発されたヒューリスティックを示す。表4に示すような頭字語/定義パターンを識別する基本的ヒューリスティックは小規模データセットには良好に作用するが、これらのパターンを構築する際の可変性はついには、分析されるテキストの量が多くなるに連れて、システマティック精度(正確なエントリの数(#)/エントリの合計(#))を低下させる。表5の場合、153,616を超える数の固有の頭字語/定義パターンが、1,000,000のMEDLINEレコード内で認識された。これら固有の頭字語/定義パターンの内の約133,031が有効なエントリであることが分かった。
Figure 2006503351
表5はまた、XLMフォーマットで国立医学図書館(NLM)から得た全ての記録を処理した結果を示し、2002年2月にさかのぼって合計で12,037,763のレコード(サイズで37.3ギガバイト)を表している。合計で6,418,919の要約から、本発明による頭字語処理モジュールは4,562,567の頭字語/定義パターンを識別し、その内の98.8%がフォーマット定義(頭字語)として、それ以外の1.2%がフォーマット頭字語(定義)として発見された。これらのパターンから、737,330のレコードを持つデータベースが作成され、174,940の固有の頭字語/略語(以降「頭字語」)と、638,976の固有な定義とが含まれている。この固有の頭字語の内、63,440(36%)が2つ又はそれ以上の定義と関連しており、62,974の定義(10%)が2つ又はそれ以上の頭字語を関連していた。
データベースエントリ毎の全体的精度を推定するにあたって、500のレコードから成る3つのランダムなサブ集合がランダムなレコードID番号を作成することによって選ばれた。各サブ集合で、19、15又は18のFPエラーを識別した。したがって、全体的なシステマティック精度レートは、1エントリ当たり96.5±0.4%である。除外された固有の頭字語/定義パターンの数を観察すると、システマティック想起性レートは92.8%であると推定された。この推定値の正確度を検証するために、100個のランダムな要約(上記の集合とは異なる)から成る更なる3つの集合を、非主題的なキーワード「決定された(determined)」、「未満(below)」及び「集合(set)」を用いてPubMedを探索することによって収集した。集合毎にタイトル及び要約中の頭字語の数は、何れの様式で定義されているものであっても手動で測定され、対応する頭字語/定義対の存在も同様に測定された。識別された/既存の頭字語/定義対の比は、各集合毎にそれぞれ139/152(91.4%)、101/105(96.1%)及び86/94(91.5%)であり、全体的なレートは93.0±2.7%であった。
MEDLINE内で発見された頭字語/定義パターン毎に頻度統計がコンパイルされ、この統計を、オンラインインタフェースで用いて、頭字語又は定義をその相対的な発生量によってソーティングした。頻度統計を用いることによって、ユーザは、より一般的又はさらなる情報の非存在下で示されることが多い頭字語/定義を迅速に識別することが可能である。頻度ランキングはまた、好ましい又は「標準的」なスペル、ハイフォネーション又は句切り法の異形を識別するために用いられる。各頭字語又は定義の最も早期の発生の日付もまた、(履歴上の観点、数量及び異形の増加に関する分析用の)データベース中に含まれていた。
図16A及び16Bは、オブジェクト及び関係の分布を示す。データベース中のオブジェクトの比較的小さなフラクションのみが直接的に関係しており、一方、関係の大部分は暗示的である(図16A)。実際、ほとんどのオブジェクトは、直接的に又は暗示的にデータベース中の他のオブジェクトと関係している。内在するこれらの特質は、暗示的な関連性をスコア化し、その潜在的な関与性をランク付けする方法の必要性を強調している。オリジナルのテキスト内に定義が不在であっても、頭字語は意図する定義と明確な関連性を持つということはあまりない。この関連性の故に、所与の頭字語が1つの特定的な定義に、又は逆に、定義が頭字語にどれ程関連している可能性があるかを知ることが重要である。この関連性を形成するために、固有の頭字語の定義パーセンテージ(DPA)と固有の定義の頭字語パーセンテージ(APD)とが、明確な定義の非存在下で、特定の頭字語が特定の定義と関連している尤度を推定することによって計算される。
表6に、多くの代替の定義を持つ頭字語の例を、データベース中で2つの最もポピュラーな定義及びそれらのDPAスコアを挙げて示す。CTなどの一部の頭字語は1つの定義(又はその異形)と主に関連しているが、その一方では、PAなどの他の頭字語はそうではない。その曖昧さが、表6に示されるように、定義から頭字語を生じる。MEDLINE内では、多くの頭字語が多くのさまざまな定義を有している(多義語)。表6は、10個のもっとも曖昧な頭字語を含んでいるが、その多くが、それを表すレターの組み合わせ数が最少である。DPAのスコアが、定義非存在下で頭字語が(検査されたレコードの内で)定義と具体的に関連している尤度の定量的な推定値を与える。
Figure 2006503351
表6に、ソース内の固有の定義に対して複数の頭字語が存在しえることを示す。定義と固有に関連する頭字語に於いて異なった種類の曖昧さを加えることによって、頭字語はさまざまな方法で定義から形成可能である。表7に、最大数の頭字語及び/又は略語を持つ10個の定義をそのAPDスコアと共に示し、固有の定義を表すのに特定の頭字語をどのくらい頻繁に用いるかの推定値を提供する。APDスコアは、他の定義を表す頭字語の曖昧さを考慮していないことに注意されたい。たとえば、BGはベータグルクロニダーゼとしては40回、血糖としては199回定義された。
Figure 2006503351
DPAスコア。DPAスコアは、頭字語が(定義の非存在下で)どれほど曖昧であるかを推定するのに有用である。しかしながら、DPAスコアは、定義が多様なスペル、ハイフォネーションパターン又は句切り法を有する場合には限られたものとなる。たとえば、“JNK"は1つのデータベースの中に77個の異なった定義があるが、その全てが「c−Jun N末端キナーゼ」という定義の異形である。この頭字語の場合、ほとんどの通常の定義に対してDPAスコアが41.6%ということは、JNKは代替の定義を、たとえ持っていなくても、有するという印象を与える。この問題に対する部分的解決法として、「ステミングされた(stemmed)」バージョンの頭字語分解データベースが作成された。これによって、複数形を表す語尾、スペース、句読点が除かれた。ステミングによって、固有の定義の数を540,821(オリジナルのサイズの85%)に減少させたが、二番目に一般的な定義が「c−Jun NH2末端キナーゼ」であるJNKなどの一部のエントリの場合には、固有の定義の数を減少させなかった。次に、定義をアライメントし、類似性スコアを比較するルーチンが開発されたが、これは、一般的に、有用であることが分かった(表8を参照)。しかしながら、このルーチンは、些細な変動が定義の意味にとって決定的である(表9を参照)条件を区別できなかった。それでも、このルーチンは概念的にはその意味論的変形体から得られる同一の定義とマッチする。このルーチンによって、用語がその長さの所与のパーセンテージに渡って同一であっても、テキストの1つの隣接するブロック中に相違が存在するか判定することが可能である。したがって、どの用語の意味が同じであるか推定することが可能となる。
Figure 2006503351
Figure 2006503351
テキストの要件と情報価値のない語の選別・除去
テキストを直接比較する場合、テキスト語の大文字化パターンは重要である。たとえば、科学技術データベースでは、全ての遺伝子名が大文字化されるわけではない(たとえば、alpha−2−microglobulin)が、そのテキスト語が文の始まりにある場合は、強制的に大文字にしなければならない。更に、大文字化パターンのなかには、データベースで与えられるオブジェクトとテキスト中のオブジェクトで一貫性がないものがある。それ故、本発明によるシステムの1つの態様に於いては、全ての語彙の比較を全て小文字で行う。
図10に示すのは、一般的な語とマッチする5つの遺伝子名と、PubMedクエリーからそのエントリがほとんど返された遺伝子である。この5つの遺伝子の語は一般用語と同じスペルを共有する。テキストを走査している間、このタイプのエラーは大文字化パターンをチェックすることによって補正される。
Figure 2006503351
ある語内の大文字化パターンが問題であるかどうかを判定するため、メリアム・ウエブスター(MW)の辞書をプロジェクト・グーテンベルグから取り込んだ。どのようなテキスト語ソース(たとえば、雑誌Cosmopolitan)でも使えるが、電子形態で利用可能なソースは有用である。MW辞書からのエントリとマッチするORD中の語はフラグ付けされ、これで、その大文字化パターンは、テキスト中で識別されると、ORD中のそれに照らし合わせてチェックされる。それでも本発明の方法は、冗長性/不規則性のインスタンスをまだ少しは形成する(表11)。一般に、本方法は、「一般の」語(MW辞書によってそのように定義されている)と同一である用語の数は表12に示すようにソースによって変動することを示している。
Figure 2006503351
Figure 2006503351
MW辞書内で発見された150,922の語のすべてが、あるデータベース中に取り込まれて、表12で用いられたソース中の単一語エントリの各々と比較された。この比較を実行することによって、有効と考えられるかどうかをチェックする大文字化を必要とするエントリと、大文字化とは無関係に一般語と混同される確率が高いエントリとを、発見することが可能である。
用語の不一致と識別
前に説明したように、多くの用語が、ソース内で及びソース間でさまざまなスペルを有している。更に、他の用語の頭字語や略語としても認識/使用されている、公式の略語や記号を割り当てられている用語もある。たとえば、ヒト遺伝子ノーメンクラチュア委員会(HGNC)は、公式の名称を全ての遺伝子に割り当てて、これで、記号の重複を避けるようにしているが、それでも、「記号」の多くが1つ又は複数のレコード中に同義語を有しているか、又は、データベースで使用/記入されている他の一般的な略語、記号、及び頭字語と同義である(表13を参照)。
Figure 2006503351
また、記号(たとえば、略語、頭字語、公式名称)が時間が経つに連れて変化又は進化するのは一般的であるが、このような進化する割には、古い記録は「正しく」更新されることはまれである。これは、用語を正しく認識する際に問題となりかねない。表14に示すのは、MEDLINE内で観察される特定の「記号」が特定の定義と関連する回数である。TNFR2などの頭字語の場合、ネスティングされた頭字語(たとえば、TNF)を、比較してその二つの定義は等しいかどうか判定する前に、その全ての定義に照らし合わせることによって、部分的には重複に対処できる。「TNFレセプタータイプ2」という定義の場合のように2つの用語がそれでも等しくなければ、完全な解決ではないが、すでに考察したように異なった定義を「アライメントする(align)」方法がある。
Figure 2006503351
ナレッジのソースとしてMEDLINEを用いる分析
1つの例では、本発明によるシステムを用いて、MEDLINEから得た12,037,763のテキストレコード(以降「ソース」という、レコードは1967年〜2002年1月の日付のものである)を処理して、データベース中のオブジェクト間の3,482,204の固有の関係からなるネットワークを作成した。このデータベース中のオブジェクトの約2/3が正確に文字通りに整合し、このデータベース内で33,539(同義語を含めれば合計で85,234の用語)の固有オブジェクトの内の22,482に対して少なくとも1つの関係を識別した。
オブジェクト識別の基礎としてのエントリ
1つの態様では、本発明のシステムの想起性レートが、MEDLINEから選抜されたレコードの集合(すなわち、総説)から推定された。少なくとも2つのMEDLINEレコード(総説)が過去3年以内のオブジェクトに関するものである本発明のシステムの全オブジェクトデータベースから、それぞれ、各オブジェクトタイプの1つを代表する4つのオブジェクトがランダムに選ばれた。次に、2〜3つの総説レコードの集合が選択され、そこで言及される、オリジナルのクエリーオブジェクトに重要(non-trivial)な関係を有するその他の全てのオブジェクトのリストがコンパイルされた。中央データベース中のそれらと同じタイプのオブジェクトのみが、カウントされた(たとえば、遺伝子、疾病、表現型及び小分子)。CTLA−4(遺伝子)、虚弱Xシンドローム(疾病)、悪液質(カヘキシー)(臨床表現型)及びダイノルフィン(小分子)の総説レコードが選択された。次に、各レコード集合からのリストを、MEDLINEの全てを処理した後で本発明のシステムによって識別された関係と比較した。
表15に示すように、全システムデータベース内に含まれるオブジェクトは、上記の選択されたレコード内で発見されたそのタイプのオブジェクトの合計の78%(141/181)という推定値を表している。ここで、MEDLINEレコード内の関係は、選択されたレコード中のオブジェクト間の関連性を有する関係と比較される。文献中に言及されているがデータベース中には発見されない40個のオブジェクトの内の2個は疾病と表現型、7個が遺伝子、22個が小分子であった。2個の疾病の名称(グレーブス眼症と回帰性軽減脳脊髄炎)及び9個の表現型はOMIMに言及されていなかった。表現型の内の3つは、OMIMとMEDLINE間の意味論的相違(すなわち、"rocking"対"body-rocking"、"greater interocular distance"対"increased interocular distacnce"及び"fetal akinesia"対"akinesia")の結果であることが分かった。小分子というカテゴリの場合、MEDLINE中に言及されている多くの化学薬品と薬物(たとえば、DAMGO、DADLE、イソプレナリン)がそのMeSHツリーデータベース中に発見されなかったことは興味深いことである。
Figure 2006503351
さらに分析すると、中央クエリーオブジェクトの内の1つに関連しているはずのMEDLINEレコード中で引用されている141個のデータベースオブジェクトの内の17個が、クエリーオブジェクトに関連しているMEDLINEのタイトルと要約のどれにも言及されていなかったことが明らかになった。この内、9つが、スペル/句切り法の相違のため、1つが曖昧な頭字語としてフラグ付けされておりレコード(PKI)中に定義されていなかったため、1つが総説レコードがMEDLINE要約に用いられていない名称(NFAT)を用いていたために関連づけられていなかった。残る6つの無関係のオブジェクトが、総説レコードのタイトル/要約中に言及されていない関係を表していた。MEDLINE(すなわち、タイトルと要約)に言及されている138の関連性を有する関係から、本発明の1態様によるシステムはその内の127を識別し、テキスト入力(textual)に於いてデータベースオブジェクトの理論的な発生を識別するという点で92%という想起性レートを有することを証明した。
MEDLINE内のオブジェクトタイプ間の価値のある関係を識別するという点で、本発明のシステムは、関連性を有する関係であると考えられるもの推定値を78%(141/181)と認識し、(ドメイン内の関連性を有する関係を識別する)想起性レートの推定値は70%(127/181)であった。
FN(すなわち、テキスト内のオブジェクトの識別の失敗)は一般的に、システマティクエラーであることが分かった(たとえば、MeSHエントリ5,8,11,14,17−Eicosapentaenoic Acid はほとんど常に、MEDLINEでは、eicosapentaenoic acid の形で扱われていう様な)。失敗のレートは変動するが、たとえば、JNKは81の異なった様式でスペリングされていたが、それには、「c-Jun末端キナーゼ」(605回)、「c-JunNH2末端キナーゼ」(154回)、「c-Junアミノ末端キナーゼ」(62回)が含まれていた。
スコア化
スコア化のメカニズムは、ネットワーク上の関係の統計的特性に基づいて開発されてきた。図示するように、オブジェクト毎に識別された関係の数の前に、分布が指数関数的に減少し(図16A)、ソース内のオブジェクト用語の分布が非常に不均衡であることを示している。MEDLINEソースを例として用いると、ナトリウムは、最もふんだんに言及されるオブジェクトであることが分かった。それは、8,868の他のオブジェクト(識別された全てのオブジェクトの−40%)を持つ同じ要約中に少なくとも一回は発見された。これを関係のネットワークとして用いて、各オブジェクトに直接接続する数、対、完全に間接的に(暗示的な)接続するの数を描出することが可能である(図16B)。この描出は、直接的関係の数が増すに連れて、暗示的関係の数が、ネットワーク中のノードの合計である理論的最大値に急速に近づくことを示している。比較的少ない数の直接的関係を持つオブジェクトでさえ、ネットワーク中で圧倒的多数のオブジェクトに暗示的に関連づけられている。この高い暗示的関連性は、一つには、一部のオブジェクトがナトリウムのような極端にふんだんな用語と関連していることによるが、それはまた、暗示的関係が事実、如何に些細(trivial)であるかを示している。
したがって、潜在的な値によって新規な関係を識別する際の基本的な課題は、関与性と各暗示的関係に関与性を割り当てることにある。さらには、本発明のシステムは、ネットワーク及び接続プロパティの状況に於いて(例外性の尺度として)共有関係の関与性を確実にすることが可能でなければならない。
2つのオブジェクト間の直接的な関係の場合、強度スコアを、エラーレートと同時発生の頻度との推定値に基づいて各関係に割り当てる直接的な方法が存在する。同時発生がより頻繁に起きる用語は、有効性の高い関係を表している場合が多く、したがって、オブジェクト−関係には、観察された同時言及の数とタイプ(たとえば、要約、対、文で)とそれに対応するエラーレートとに基づいてスコアが割り当てられる。
グラフ理論に基づいて適応された用語法を用いると、オブジェクトは「ノード」、関係(同時引用又は同時発生)は「接続」みなされ、また、ノード間の「エッジ」としても知られている。暗示的に関連しているノード(C)はクエリーノード(A)とはなんら直接的関係を有しないが、Aに対して同時に接続している1つ又はそれ以上の中間ノード(B)には接続しているノードと定義される。暗示的に関連しているノードの潜在的重要度を評価するために、クエリーノードAと暗示的ノードCとによって共有されているiノードの集合(Bi)は、ランダムネットワークモデルと比較される。所定のノードA及びAと関連する文献は集合Bi中の全てのノードと関連しているので、偶然発生しえるBiとC間の接続の数が決まる。たとえば、Cが1000個のノードから成るネットワーク中の全てのノードに関連しており、また、Aがこのネットワーク内で100個の接続を有していて、その接続の全てがCによって共有されていれば、これは予測されることであり、したがってごく一般的なことである。このように、BiとC間での観察された接続の数(Obs)を偶然発生すると予測される接続の数(Exp)で除算すると、共有接続の統計的重要度を反映する値が与えられる。
この値によって、ある接続集合の潜在的関与性の推定値を決定することが可能である。質問。たとえば、疾病(A)を薬品(C)にリンクする接続の集合が、真偽のほどはさておき、「ナトリウム」や「症状」などの極めて一般的なノードを包含すると、このようなタイプの接続は十分曖昧であって、AとCがこれらの中間物を介して興味深い特定の関連性をどのように有するかを科学者が判断する際にほとんど役に立たない。この共有関連性が、文献中ではそれほど頻繁に言及されないが、具体的なトランスポータや遺伝子を伴う場合、(C)の具体的な作用がどのようにして(A)を発生させるかを判断するのが容易になる。
AとB間の関係がエラーである確率は、この2つのオブジェクトが同時言及される回数nの関数として表され、関係確立のため用いられる同時言及測定基準と関連するランダムエラーレートrは、次式で表される:
Figure 2006503351
したがって、関係が有効である確率は次式で書くことが可能である:
Figure 2006503351
関係の強度は、それが観察された回数と、各観察がエラーである全確率の関数としてみることが可能である。互いに異なった2つの関係測定基準、すなわち、文の同時言及度(C)と要約の同時言及度(C)が計算されるため、関連性のスコア(S)の全体強度はそれぞれその個々のエラーレートr(17%FP)とr(42%FP)とに基づいて割り当てられ、これで、次の式となる:
Figure 2006503351
暗示的な関係の場合、それが有効な関係を表す確率と相互関連する明瞭な統計的パラメータは存在しないが、暗示的関係(A−B−C)が有効である確率はそれらがリンク(A−B又はB−C)される2つのそれぞれの関係の最低の確率よりは高くはないと推測できる。したがって、記号:
(記1)
Figure 2006503351
が2つのオブジェクト間に無指向性の関係が存在すると定義される場合、それは次式のように推定される:
Figure 2006503351
関係から成る集合と暗示的関係から成る集合にコントロールを供給して、このようなオブジェクトのグループ化が意味あるものであるかどうかを確認することが重要である。一般的なオブジェクト「癌」で観察されている多くの共有関係などの一部の極めて暗示的な関係は意味がないと証明することは困難であるとはいえ、例外性の尺度は、各オブジェクトがネットワーク内に有する関係の合計数に基づいて、関係に対して割り当てられる。多くのオブジェクトが、図16Aに示すように同じ接続性でネットワーク上でランダムに接続しているものと仮定すると、何れかの2つのオブジェクトが暗示的に関係しており、どれくらいの中間関係をオブジェクトが共有すると予測されるかという可能性が計算可能である。ネットワーク中の2つのオブジェクトAとBが互いに関連している確率は、分布がランダムであると仮定し、各オブジェクトがそれぞれK個のオブジェクトとK個のオブジェクトの合計に関連することが知られていることを考えると、N個のノードの合計を含むネットワーク中では、次の公式で与えられる:
Figure 2006503351
個々の関係の確率を合計すると、この式はさらに拡張されて、集合B中のn個のオブジェクトが別のオブジェクトAと関連する予想回数が次の等式で推定される:
Figure 2006503351
公式(5)が2つのオブジェクトが関連している確率を予測する能力は、ネットワークがランダムに接続されていると仮定して、ランダムな数の関係(1〜10,000)を10,000個のノードからなるネットワーク内の2つのオブジェクトに割り当て、これら関係の内の1つがこの2つのオブジェクトに接続されているかどうか判定することによって確認された。これを10,000回繰り返して実行して、関係の数の期待値と比較された。その結果、観察/期待比は集合サイズが増加するに連れて1.0に収束し、公式(5)は正確にこのタイプのネットワークにおける動作を予測していたのであった。これを、各々がネットワーク内の少なくとも1つの関係を有する2つのオブジェクトをランダムに選び出して、本発明のシステムの文献から引き出したネットワークに対して10,000回だけ繰り返すと、観察関係、対、期待関係の比は0.40であると判定された。比が1未満であれば、接続性がランダムでないネットワークと矛盾しない。
公式(6)が関連のグループを定量的に評価する際に助けとなることを立証するために、このデータベースからランダムに作成されたオブジェクトの集合を、(ゲノムオントロジーデータベースから具体的に定義されたオントロジーのカテゴリの遺伝子を用いて得られた)共通のエレメントを共有するものと期待されるオブジェクトの集合と比較した。公式(6)を用いてオブジェクト間の最も頻繁に共有されている10の関係に対する観察/期待比の平均値を計算することによって、この比は、図17に示されるように、ランダムな集合の場合より主題的な集合又はクラスタの場合のほうが一貫して高かった。
2つのオブジェクトの関連性をその共有関係によって推定する方法
2つのオブジェクトの関連性をその共有関係によって推定する方法
1つの態様では、公式(6)を用いて、ネットワーク内で2つのオブジェクトの各々の相対的な発生量を考慮して、暗示的な関係がどれほど例外的であるかを推定する。このスコア法によって、関係又は特性が潜在的に異質であるオブジェクトの集合によって共有される確率を評価する。暗示的な関係を評価する場合、たとえばAとC間で特定の関係がどれほど関連性を有しているかを判定することがしばしば必要である。本発明によるシステムによって、関連性を主観的な品質とすることが可能である。したがって、AとC間で関係がどれほど重要であるかは、分析、条件、リサーチなどによって異なる。互いに関連していることが周知である関係の定量的で統計的な特性(プロパティ)を評価することによって、暗示的関係を有していると思われる同じ特性(プロパティ)のオブジェクトと比較することが可能である。
多くの特性(プロパティ)の間で、2つのオブジェクト間の関係強度が強いほど、図18Aに示すようにこれらのオブジェクトはより多くの関係を共有する傾向があり、また図18Bに示すようにこれらの共有関係は強力になる傾向がある。その結果、2つのオブジェクトが共有する関係が多くなり、これらの共有関係が強力になるほど、この2つのオブジェクトが関連する尤度が高くなる。2つのオブジェクトがどのように関連しているかの定量的推定値は、オーバラップする関係のパーセンテージを計算することによって誘導することが可能である。
本発明のシステムは、どれほどの比率で重要な関係が共有されているかを推定することが可能である。オブジェクトAが別のオブジェクトCに対して多くの中間物Bによって暗示的に関係している場合、AとC間の関係の確立は、これらが弱い関係より強い関係の集合を共有する方が大きくなると推測できる。共有されている関係の強度の合計を全ての関係の強度の合計で除算することによって、どれほどの比率で重要な関係が共有されているかを推定される。曲線下面積を関係の強度合計の積分値として計算して、強度の合計数値すなわちベクトルを出すことが可能である。A又はCが共有する関係の強度合計数値を計算して、部分的にこれら関係の指向性を反映することが可能である。たとえば、心臓肥大の進展は、本態性高血圧の存在と高度に相互関連している。心臓肥大との共有関係の多くが、本態性高血圧の原因であることが知られている(たとえば、遺伝子と表現型)。しかしながら、本態性高血圧は、糖尿病、脳卒中及び肥満症などのその他の人間の条件(human condition)と関連している。心臓肥大との共有関係の強度は相応して低い。
この指数関数的重み付け方式の欠点は、その多くが一般的にすでに理解されているか又は予測されていて、したがって新規ではない曲腺の左端部分を含む少ない関係に高い優先度を与えることである。すでに述べたように、同時発生の高頻度は、一部には、どれほど長期にわたって関係が知られているかの関数である。新しい重要な関係は、高頻度の同時発生を累積する十分な時間がなったかかもしれない。これを克服するために、曲線をその強度によって線形の関係ランク付けに変換して、因子としての時間の相対的重要度を消滅させることなく減少させる。例として、生物的製剤カルシニューリン(calcineurin)は、心臓肥大の進展に繋がりかねない細胞のシグナル変換に貢献する比較的新しい重要な因子である。指数関数的重み付け方式では、カルシニューリンの曲線下面積に対する相対的な貢献度は[X]である。線形ランク付けスケールを用いると、その相対的貢献度は上昇して[Y]になる。
多くの追加の因子を用いて関係をランク付けする。たとえば、結果をランク付けする追加の用語には、オブジェクトをリンクした情報のインパクト因子又は重要度(たとえば、科学記事からの要約中でのオブジェクト間の接続を、Jounal of Irreproducible Resultsからの記事のものより高く重み付けする)、記事が公開された日付であって、オブジェクトを結合した最近の記事を優先するもの、関係の強度であって、オブジェクトAがBにリンクされ、Bが次にCにリンクされ、各リンクが非常に強い場合は、A−B−D(ここで、B−Dは弱い)間の結合性より高くランク付けされるといった、強度がある。強度は、発生数と発生の期待数とに基づいている。更なる他の因子には、作品の重要度をランク付けする方法としての著者の信頼性又は著者が属している機関;MEDLINE要約と本などの文献といった2つの別の集合に顕れることによって価値付けされた結合性があるが、これらに限定はされない。くわえて、ランクは、ネットワーク(文献データベース)中のいずれかのオブジェクトとその他のオブジェクト間の接続の数に正規化されたオブジェクト間の接続の数に基づいている。なぜならば、それは、重要な、そして恐らく、オブジェクト(単語)がネットワーク(文献)中に顕れる回数より重要な接続であるからである。今回の引用例では、本発明のシステムは、Bが他の全てのオブジェクトに接続される回数に正規化された、オブジェクトBへ又はBからの接続が観察された数に基づいてランク付けを計算する。たとえば、「癌」というオブジェクトはすべてのMEDLINE要約の20%に表われ、また、これを用いると、オブジェクトの用途に基づいてO/E比を計算することが可能であるが、それは、MEDLINE中の全てのさまざまなオブジェクトの27%に接続されており、したがって、接続の数に基づいたO/E比を作成することが可能である。もちろん、上記の項目#10での場合のように、これらの後続の項目は全て、これも含めて含めて、適切に重み付けされたこれら全てのさまざまな判断基準からなる代数的ランク付け値の基礎の一部となるものを形成することが可能である。
1つの態様では、関係は、本発明のシステムによって実行されるファジー集合プログラムによって識別され、ランク付けされる。古典的には、集合はそのメンバーによって定義される。あるオブジェクトは集合に対するメンバーシップ度(μ)を有するが、これは1に等しい(μ=1)、すなわちこの集合のメンバーであるか、又は、ゼロに等しい(μ=0)、すなわちこの集合のメンバーではない。ファジー集合理論では、いかなるオブジェクトもある程度はある集合のメンバーである(メンバーシップ度はゼロと1の間(すなわち、0≦μ≦1))と認識される、すなわち、ファジー集合理論では、ある集合でのメンバーシップは常に明瞭に定義されるとは限らない。
複数のナレッジドメインを含むデータソースを処理することによって、一時的な関係の包括的ネットワークが作成され、これで、オブジェクト集合の関係性をそれらが共有する関係に基づいて評価することが可能となる。「結束性」の尺度をある集合に割り当てることによって、研究者は、実験的なグループ化には(グループ化されたオブジェクトは文献中で適切に表されているものと仮定して)目的性があると推論することが可能となる。結束性は、ある集合の観察/期待スコアの平均値がランダムな平均値よりどれほど高いかによって決まる。あるオブジェクト集合が共有する関係を分析するために用いられると、一般的な「テーマ」(たとえば、癌、アポトーシス、糖尿病)をリスト内の統計的に例外的なグループ付け(たとえば、遺伝子グループの活動に影響する薬物)を伴ってに識別することが可能である。さらに、それによって、集合中の「行方不明なメンバー」を、グループ全体に対するその関係度によって識別する方法が提供される。
1つの態様では、本発明のシステムは、そのスコア化機能を実行して、マイクロアレイデータを評価する。たとえば、本発明のシステムは、転写応答群の集合が文書化された関係を持つメンバーを含んでいるかどうかを確認する方法となる。このようにして、研究者は、実験が特定の応答を測定したかどうかを判断することが可能であり、これで、転写応答があまりストリンジェントではない条件下でのハイブリダイゼーションの結果であるか又はクロスハイブリダイゼーションなどのエラーの結果であるかを認識する可能性が与えられる。重要なことは、本発明のシステムは、識別されランク付けされるマイクロアレイ実験から得られた非遺伝因子(たとえば、表現型、疾病、代謝体及び化合物)を関係付ける方法となる。
信憑性のスコア
一部のインスタンスでは、関係の強度はその確実性ほどには重要ではない。たとえば、2つのオブジェクトが、特定の生物学的プロセス(たとえば、急性期免疫応答、細胞分裂、微小管アセンブリなど)に対して連帯責任を持つオブジェクトに対する関係のサブ集合を共有している場合、このような関係の相対的強度は必ずしも、これらの関係が共有されることほどには重要ではない。このような状況下では、同時言及が実際の関係を表しているかどうかを評価することが好ましい。1つの同時言及がFPエラーである可能性が50%であると仮定すると、信憑性のスコアを用いて、2つの同時言及が双方ともエラーである可能性は50%・50%=25%すなわち0.25である。任意の関係の信憑性スコアは、一般に、同時言及の測定された最も低いFPレートから1の範囲である。共有関係をその集積された信憑性のスコアで表したものがプロットされる。
システムロジック:メタ関係、意味論的解析、情報抽出
研究対象の項目を検索する(たとえば、PubMedを用いて実行される検索など)標準的なクエリーベースのアプローチにおいては、関連性のない結果がしばしば得られることがある。それを介してユーザがPubMedと対話するグラフィカルユーザインタフェースは簡単で直感的であるとはいえ、利用可能な情報量が多くなるほど、所定の項目を発見するのが困難となる。
たとえば、マグネシウムのレベルを増加させる現象に興味を持った研究者は、「マグネシウム」と「増加する」という語又はそれらの異形の語を用いて探索する。句ベースで探索することによって、接続的用語、たとえば、「マグネシウムレベルを増加する」を用いることが可能である。しかしながら、接続的用語は多くの並べ替え、たとえば、「マグネシウム密度を増加させることが分かった」や「マグネシウムの細胞内レベルの増加が観察された」、「マグネシウムレベルの増加が実証された」などがある。標準のクエリーベースの方法では、検索対象となる項目を探索するブール代数アプローチを用いる。しかしながら、このようなクエリーは、不慮の事態が連鎖することにその限界があって、「マグネシウム」と「増加する」に対してブール代数探索を実行すると、解釈が困難な結果が返ってくる。たとえば、この帰ってきた結果がマグネシウムの増加の影響についてであるのか、何がマグネシウムを増加させるのか、どのようにしてマグネシウムが増加したのか、なにがマグネシウムの増加に影響したのかなどが不明瞭である。さらに、この結果は、「・・・は細胞内でのマグネシウムの欠乏や細胞内カルシウムの増加を引き起こしかねない」などの選択された探索語に適合する句を含む多くの擬陽性を含む可能性が高い。また、「増加している」や「増加した」のような語根の異形が除外されていないことを確認したいので、"increas*"のようなワイルドカードを用いることも可能である。ワイルドカードは、探索をより包括的なものとする助けとなるが、また、擬陽性の数を急速に増加させる。それより悪いことには、[Mg2+]と「上昇」、「上がる」と「・・・のより高いレベル」などの同じ現象を記述する同義語は、探索には含まれないということである。
一部のソースでは、情報のカテゴリ化のための制御されたボキャブラリに対して語をマッピングする方法を提供することによって色々なバリエーションを試みた。MEDLINEはMeSH(医学主題見出し)を用いて、語や句を主題(主題見出し)の探索にマッピングするが、これで、探索に同義語を含むようになっており、また、調査に関与する一般的に用いられるキーワードがタイトルや要約に含まれない文書を発見することを可能としている。MeSHによって、後や句を主題(主題の見出し)の探索に対してマッピングすることが可能となる。生物医学に関与する同義語のすべてがマッピングされていなくても、MeSHは通常は、個別の主題に対して情報を探索する際には語を非常に良好に用いており、さらにサブ題目の選択も可能としている。しかしながら、MeSHは主として名詞に限られており、したがって、名詞が有しているかもしれない相互作用に関しては探索を許容していない。それはまた、文脈又は所定の項目とその他の項目の間にある関係を解明する効果的な方法も提供しない。表16に、MEDLINE探索で帰ってきた結果のキーワードの変化を示す。
Figure 2006503351
信じられないほどのデータと情報がこのような探索で利用可能となるが、皮肉なことには、関連情報を発見するのが難しくなる。科学者は、このタスクを支援するためにさまざまなショートカットを用いて、彼らが読むジャーナルの範囲を焦点また高品質だと思うものに絞って、関連する情報が公開されるようにしたり、また、全国会議に出席して、同僚やその分野における現在の研究に触れるようにしている。これはある程度までは効果的であるが、これら二つの方法は単に情報の包括や選別をする人々に依存しているだけである。また、不運なことに、このような戦略は人々に情報を与える助けにはなるが、ナレッジの最前線に立たせるものではない。他に何も手立てがないとすれば、あまりに多くの擬陽性の結果があるからには、所定の事象に関する文献を探索する、より効率的な方法が必要であることは明らかである。
擬陽性の結果の数を減少させるために、本発明によるシステムは、あるデータソース(たとえば、テキスト及び/又はデータ)に関連する入力を受信してオブジェクトという形態で出力する推論抽出(IE)エンジンを提供する。次に、本発明のシステムは、出力中にパターン(たとえば、要約中で同時発生するオブジェクト;文中で同時発生するオブジェクト)があるかどうか判定して、オブジェクト間の関係を判断して、主題のクラスタを識別する。本明細書で用いられる「主題のクラスタ」又は「主題の集合」という用語は、交換可能なものとして用いられているが、これは、所定の情報(データ)の(用語、句、カテゴリとしての)グループ分けのことである。主題のクラスタ中でオブジェクトが同時発生すると、これらは関係している可能性がある。主題の単位はまたソースによって定義されたグルーピングであるが、この場合、各ソースは異なったグループ分けを有していてもよい。たとえば、(ソースとしての)MEDLINEでは、主題のクラスタは要約である。他のソースでは、主題のクラスタはパラグラフ、ページ、スプレッドシートであるが、この場合、グループ分けは数値、テキスト、記号によるグループ分け又はその何れかの組み合わせでもよい。
くわえて、本発明のシステムは他の接続と帰納/演繹ロジックを用いて、他の類似のオブジェクト間にも類似の関係集合があるとして、どのような種類の特性や動作をあるオブジェクトが有するはずであるかを推定する。1つの態様では、本発明のシステムは、同時引用に基づいて、本来単方向性である関係を確立する。別の態様では、本発明のシステムは、このような関係の性質が未知である場合にさまざまなタイプの分析、たとえば、拮抗的又は補完的現象を探索するなどを遂行して、この関係の性質を識別することを可能としている。このIEエンジンのルール決定機能を用いて、関係のカタログ化、たとえば、以下にさらに説明するようなメタ関係の定義を実施する。
メタ関係
オブジェクトは、それが語であれ句であれ多くの同義語を有するが、これによって、「多対一(many-to-one)」マッピングが可能となる。同様に、作用、反応、変化、変動又はオブジェクトが他のオブジェクトと有しえる他のなんらかの関係の記述を、多くのさまざまな様式で記すことが可能となる。関係の同義語を決定するだけでは十分でないが、それは、所定の事象の、さまざまな同義語によって表される一般的な関係やカテゴリであるからである。このような一般的な関係又はカテゴリによるクラスタ化には、本明細書に「メタ関係」と言及されているさまざまな相互作用が含まれる。
たとえば、2つのタンパク質の相互作用に関して観察して、その結果を、「会合する(associate)」、「分離する(dissociate)」、「付着する(adhere)」又は「結合する(bind)」などの用語を用いて記述することが可能である。「会合する(associate)」は「結合する(bind)」とは微妙に異なった意味を有するが、相互作用を、各個別の見出しではなく「物理的会合(physical association)」などの一般的な用語としてカタログ化してもまったく不正確というわけではない。このようなカテゴリ別のクラスタ化の例はNCIのMedMinerに見受けられるが、これは、探索用キーワードを含む文を一般的なカテゴリにグループ化しようとするものであるが、より正確な比較には、NIHのUMLSシステムが「意味論的関係」と呼び、また、同様に多くの用語を包括しているものがある。
1つの態様では、本発明のシステムは基本的な4つのタイプのメタ関係、すなわち、陽性効果(増加)、陰性効果(減少)、物理的関連及び論理的関連を識別する。このような関係を示すキーワードの語根のリストを以下の表17に示すが、この表はこれらの単語やその語根の異形がMEDLINE中に現れる頻度を示している。単語のスペルの異形(たとえば、release対releasor、disassociate対dissociate)は一つ一つチェックされているが含まれることはなく、それはこれらの用途が少ない(一般的には2%未満)からである。
Figure 2006503351
これら具体的なメタ関係はエンドユーティリティ目的で選ばれており、すなわち、所定のオブジェクトを定義するだけではなく、これらを特徴付けるために選ばれている。一般的関連性及びカテゴリ化はさまざまな目的に役に立つが、本発明のシステムは、語形を変化させることによって補完的な現象と拮抗的な現象とを、定性的ではなく定量的に探索できるようになる。疾病の表現型と、他のどの現象が類似の表現型と反対の表現型の発生に寄与しているかわかれば、疾病の原因を判定したり、潜在的な療法を探索したりするのに助けとなりえる。
たとえば、病状によっては、アルコール脱水素酵素(ADH)が減少する。この定量的表現型は本発明のシステムにとっては興味深いものであるが、それは、この症状を治療する方法では、ADHのレベルを上げるからである。同じ病状が肝臓毒性という別の表現型を有するが、毒性の反対は、「回復」、「再生」又は「成長」のような対立する語が考えられはするが、定義するのが難しい。毒性は比較的一般的な用語であり、現象を記述する際には定性的であり、また、何が拮抗的であり何が補完的であるかを定義するのが難しい。しかしながら、誰かが、原因不明の肝臓毒性をわずらっている患者を扱っているかどうかを理解することははリンクとして有用である。
定量的関係とは、「増加する」、「上方調整する」又は「・・・のレベルを上昇させる」などの動詞と動詞句を用いてあらわされる関係のことである。定性的関係とは、定量的に測定されるが、特徴が「もっと」とか「それ以下」とかより広い用語で表される関係のことである。これらの関係は、「肥大性」、「発育不全」、「巨大脳髄症」などの形容詞や名詞を用いて示される。1つの好ましい態様では、推論抽出エンジンは、本発明のシステム中でさらなる言語学的能力を含んでおり、これで、生物医学分野では一般的(たとえば、「増加する」、「結合する」、「調整する」など)であるような現行のオブジェクトをリンクする用語(たとえば、動詞、副詞、形容詞など)や否定する用語(たとえば、「・・・・しない」とか「・・・でない」とか「逆に」など)に対する関係分析を含んでいる。
図26に示すように、1つの態様では、本発明のシステムの推論抽出エンジンは、オブジェクトテーブル("tblObjectSynonyms")中にメタオブジェクトをカタログ化するために要約(たとえば、MEDLINEや他のソースから得られたもの)からの文を走査する。次に、テキストを、可能な関係を示すメタ関係キーワードがないかどうか走査する。関係が発見されたら、本発明のシステムはオブジェクトがないかどうか文を走査する。2つ未満のオブジェクトが発見されたら、次の文を走査する。ある関係と2つのオブジェクトが発見されたら、本発明のシステムは文を文法パーサーに、次にIEルール判定集合に送って、この関係を適切にカタログ化しようとする。良好なマッチング見出されれば、それは本発明のシステムのデータベース中にストアされる。
関係:AをBにリンクする
オブジェクト間の関係はメタ関係としてストアされるが、同じタイプの関係が、以下の表に示すように、文献中で文法的に様々な語形で用いられている。本発明によるシステムは、このような関係(すなわち、「inhibit」が「decrease」というメタ関係に対応すると判断する)、また、そのオブジェクト(「wnt」「the quaternary complex」)をデータソースから抽出することができるのが好ましい。以下の表に、「wntシグナリングが四次複合体のキナーゼ活性を何らかの形で抑制する…」という概念を表現するさまざまな文法的構成を示す。
Figure 2006503351
メタ関係中に含まれる用語と句は、必要に応じて追加したり修正したりすることが可能である。一部のメタ関係の例とそれらがどのように用いられるかを表19に示す。
Figure 2006503351
オブジェクト−関係データベース
本発明のシステムによって用いられるオブジェクト−関係データベース(ORD)はその機能の中核をなすものである。テーブルとクエリーの構成とレイアウトを表20に示す。
Figure 2006503351
オブジェクト−関係データベースは、本発明のシステムに入力するデータソースとまさに同じほど動的である。1つの態様では、本発明のシステムは、本発明のシステムと連通しているグラフィカルユーザインタフェースに制御部品(たとえば、ボタンやドロップダウンメニューなど)を装備しており、これで、ユーザは、データソースから得たテキストから誘導されたシステムデータベース中のオブジェクトを閲覧することが可能である。たとえば、ユーザは、データソースからの表示テキストをグラフィカルユーザインタフェース上で閲覧し、このテキストのある部分(たとえば、句や要約)を強調し、ボタンなどの制御部品をクリックし、これで、本発明のシステムに、句の中の1つ又はそれ以上の語がシステムデータベース中でオブジェクトとしてストアされているか表示させる。新たなオブジェクトをシステムデータベース(たとえば、以下にさらに説明するオブジェクト関係データベースなど)中に含むことが可能である。これで、ユーザが、文献を走査して新しいオブジェクトを識別してフラグ付けし、これらをコンパイルしてオブジェクトリストに付け加えて、接続を評価するために用いられるネットワークを次にコンパイルする助けとなる。
意味論的分析と情報の抽出
1つ又はそれ以上の語を持つレコードや要約などのテキスト情報は入力されて解析される。適切なパーサーは、dparser、Essens、Gray、opars、ipars、lfg、Olex、Parsec、SPARK Scanning、Parsing and Rewriting Kit、T−Gen T−Gen−The Parser Generator for Visualworks ftp a SmallTalkパーサージェネレータ、解析ツリーのための次世代探索エンジンTGrep2等を含むが、これらに限定されるものではない。
レコードが文を含む場合、これらのレコードは文毎に解析されて、メタオブジェクトやメタ関係がないかどうかチェックする。本発明のシステムが実行する情報抽出(IE)のステップのフローチャートを以下の図14で示す。IEはまた、非テキストデータ又は構造化データである情報の解析を含む。たとえば、IEでは、化学的物質や生物学的物質(核酸プローブ、オリゴククレオチド、タンパク質、ポリペプチド、有機もしくは無機の分子/化合物等)を含む高密度アレイが走査される。従来のフォトリソグラフ法を用いて製造されるような65,000パーセルを超える情報を含むアレイ(すなわち、プローブ、分子、薬品など)が用いられる。より従来的な技法又は化学反応も用いられて、分子や化学薬品を基質の表面に付着させるが、これは、基質の性質、付着される分子/薬品及び化学的付着及び合成の当業者には周知であるその他の因子によって異なる。生物学的アレイを、遺伝子の分析、選別、診断などに用いる。一部のアレイは少なくとも約20ミクロンという極端に小さいサイズのものもある。
一例としては、基質の表面に核酸が形成されると、IE用のデータのソースが提供される。統計的に関連する発現分析を、全てのクエリーオープンリーディングフレームを配列類似性がないかどうか探索したり、又は、cDNA配列ライブラリとタグが付けられた発現済み配列に照らし合わせて遺伝子配列を探索したりすることによって実行することが可能である。米国国立衛生研究所・米国国立癌研究所(NIH−NCI)との遺伝子ネットワーク研究プロジェクトがあり、本発明のシステムを用いるのに特に適したものである。
本発明のシステムは、いずれかの研究分野で現在識別されている問題に対する1つ又はそれ以上の新規な効果又は将来的な解決策を識別するツールを提供する。本発明のシステムを用いると、オブジェクト間の1つ又はそれ以上の未知の関係をコストパフォーマンス良く識別することが可能となる。以下の実施例1でさらに説明するように、本発明のシステムは、クロルプロマジンというよく知られているの薬剤に対する新規な治療応用、すなわち、深刻で衰弱させる結果となる疾病である心臓肥大の治療用の治療剤としてのその用途を同定した。本発明のシステムはまた、インシュリン非依存性糖尿病(NIDDM)の潜在的因果関係の根元をとりわけ発症が後天的なものであると同定した。
1つの態様では、本発明のシステムは自動スクリーニングシステムに接続されている。本発明のシステムを用いてNIDDMに関連する遺伝子の文献を走査すると、標的の遺伝子はメチル化のスクリーニングを行うことによって同定される。本発明のシステムは、標的の配列を探索してダウンロードし、たとえば、スクリーニング用のアレイのプローブとして機能するオリゴヌクレオチドを設計する。次に、このスクリーニング用のアレイをたとえば、ディジタル光化学さらには厄介なフォトリソグラフィーによるDNAオンチップ法を用いてアセンブルして、スクリーニング、診断及び罹患の危険性のある又は羅患しているNIDDM患者のメチル化状況の追跡に用いる。1つの態様では、アレイの設計はオンラインの注文書と結びついており、それで、本発明のシステムと対話しているユーザは、適切な配列を備えたアレイの製造を注文することが可能である。グラフィカルユーザインタフェースは、このアレイの画像を表示することができる。1つの態様では、カーソルをアレイ上の特別な座標集合に移動させると、本発明のシステムは、その座標(例えば、ヌクレオチド配列、遺伝子名、既知の発現プロファイル及び機能等を)に位置するプローブに関する情報を表示することが可能である。
(実施例)
本発明を以下の実施例を参照して更に説明するものである。以下の記載は例示のみであり、詳細の変更は本発明の範囲に包含されるものである。
システムの検証:心臓肥大を治療する薬剤
症状の多くが公知であり、またその相関性が十分確立されている、心臓肥大の新規かつ有用な暗示的関係を識別するシステムの能力を、ソースとしてMEDLINEを使用して実践した。分析の目標は、心臓肥大に暗示的に関係付けられる以前には関係付けがなされていなかった化合物を同定し、またその潜在的な治療上の利点を同定することである。
システムによる新規な相関性の発見
心臓肥大は心臓の細胞のサイズが拡大し、ついには血液を送る心臓の能力が低下する機序である。この症状は「心臓肥大」という語句を含むMEDLINE中の3,654を超える文献により証明されるように、広範に研究されている。文献からは、本発明によるシステムは少なくとも約2,102のオブジェクト及び心臓肥大に暗示的に関係する少なくとも約19,718の固有のオブジェクトを識別しており、1,842,599の異なるパスが使用されていた。システムのスコア化スキームを用いて、心臓肥大に暗示的に関係付けられた小分子(例えば薬品、代謝産物および化合物)のランク付けされたリストがコンパイルされており、うち20個は表21に示すとおりである。スコア化とは各々の関係が有効である確率、各オブジェクトがネットワーク中に比較的豊富である場合に、それが有すると推定される関係の数、及び、各接続関係の暗示的強度の合成関数である。心臓肥大と暗示的に関係するオブジェクトとの間の共有された関係の数を固有のパスに示す。これらの固有のパスのうちいくつが有効な関係を示すかの統計学的推定をクオリティ評価(Quality Estimate)として提示する。ネットワーク内の各暗示的オブジェクトの頻度は関連数(Number of relationships(Number of Rel))であり、各オブジェクトの相対的頻度において偶然起こると推定される関係の数を「期待(Expect)」と示す。
Figure 2006503351
ランク付けされたリストから、1分子のクロルプロマジンをその後の分析に用いた。クロルプロマジンは抗精神病薬および抗嘔吐剤として主に使用されている脂肪族のフェノチアジン化合物である。これは数種の分子標的に対して多くの生理学的効果を示す。公知の機能の一つは、α−アドレナリンブロッカーとしての機能である。本発明のシステムを用いることで、未知の関連、即ち、クロルプロマジンがアゴニストとしてのαアドレナリン受容体の過剰刺激を介した肥大の機序、および、αアドレナリン拮抗剤によりブロックされることのできる効果に関わっていることを発見した。従って、本発明のシステムはクロルプロマジンと心臓肥大との間に関係があるという、これまで未知であった関連を顕在化したのである。
MEDLINEを通した直接の検索は2つのオブジェクト間の直接の関係は確立していなかったことを示したため、分析は新規であることが確認された。
システムの新規な発見の検証
クロルプロマジンと心臓肥大の間の該当する関係の検証は既知のβアドレナリンアゴニスト(肥大を誘導するものとしても知られている)であるイソプロテレノールを、イソプロテレノール+クロルプロマジンと比較したマウスにおける一連の実験室での研究を通して行った。
要約すると、試験には浸透圧マイクロ注入ポンプを装着したマウス8匹の2群を使用した。1群では20mg/kg/日イソプロテレノールの連続投与を行い、もう一方では20mg/kg/日イソプロテレノール+10mg/kg/日クロルプロマジンを投与した。給餌挙動の変化を最小限にするためにクロルプロマジンは高用量ではなく低用量を用いた。更に、これにより、クロルプロマジンと麻酔薬であるアベルチン(トリブロモエタノール)の間の副作用も低減した。投与前および注入開始後7日に心エコー図を撮った。マウスを屠殺し、心臓を計量した。
図19および22は試験の結果を総括したものである。一般的に、心臓肥大(心エコー図により評価)はクロルプロマジン+イソプロテレノールを投与したマウスでは低減した。図19はクロルプロマジンが心臓肥大の発症からマウスを防御したことを示している。心エコー図を用いて治療過程を通じた数種の異なる心臓の構造の重量および厚みの変化を推定した。図19については、マウス10匹にイソプロテレノール(ISO)を投与し、8匹にイソプロテレノールおよびクロルプロマジン(CPZ+ISO)を投与し、ここでLVW=左心室重量(CPZ+ISO11±27%、ISO51±43%、p<0.02);LVMI=左心室容積指数(CPZ+ISO11±28%、ISO50±52%、P<0.04);PWT=後壁厚み(CPZ+ISO16±16%、ISO36±27%、P<0.05)、IVSWT=心室内隔壁厚み(CPZ+ISO19±18%、ISO31±20%、P<0.12)である。
Figure 2006503351
システムを用いてコンピュータで発見できた別の治療薬には、ロフェコキシブ、ナプロキセン、プロスタグランジン、メラトニン、ナロキソンおよびナルトレキソンが包含された。治療薬としてのナロキソンの有用性は上記した心臓肥大のマウスモデルにおける薬剤の効果を測定することにより検証した。同様の薬理学的効果により、ナルトレキソンはまたインビボで同様に有効であり、その好都合な薬物動態特性(例えばより長い半減期)のためにより優れた薬剤であると考えられる。
本発明のシステムは更に別の症状の心筋症の治療に関して他候補を同定した。この症状の治療薬として以前には同定されていなかった薬剤候補のリストから、本発明のシステムは、まず最初に心臓疾患に対する直接または間接の薬理学的リンクに基づいて選択(薬剤を筋細胞保護剤として前もって同定するといった)をして、心筋症に対して考えられる効果でもって薬剤候補をランク付けすることができる。この分析の結果は後に記載するが、そこではランクキング「5」が最高スコアであり、薬剤がインビボの試験で良好な結果を収める可能性が高いことを示す。3以上のランキングのものを用いて心筋症の治療のための薬剤候補としての化合物を同定した。
トリヨードチロニン(T3):3
T3およびチロキシン(T4)は活性甲状腺ホルモンを構成する。甲状腺ホルモン、特にT3は心筋細胞の原形質膜のイオン輸送を促進することが明らかにされている。臨床試験は、心筋症患者における甲状腺機能低下症およびT3低下症候群の予期しない高リスクを示す。T3は潜在的に有利な心臓血管効果を有するにもかかわらず、心筋症集団におけるこの薬効を評価した研究は極めて少ない。今日まで、心筋症患者におけるT3の積極的な臨床検討は行われておらず、T3は興味深いが未だあまり試験の対象とはなっていない。
クロニジン:4
交感神経系(SNS)は血圧および心臓機能の調節において重要な役割を果たす。交感神経様効果の薬剤の効果はαおよびβサブタイプを含むアドレナリン受容体を介して媒介される。クロニジンはα2アドレナリン受容体アゴニストである。その交感神経抑制機能を発揮しながら中枢の交感神経ニューロンに作用し、これによりノルエピネフリンの放出および交感神経活性を低減し、交感神経の緊張を全体的に低下させる。βアドレナリン受容体ブロッカーは、現在は拡張型および肥大型心筋症を治療するために用いられているが、αブロッカーの使用は以前には研究されていない。クロニジンは抗高血圧SNS抑制剤として35年前に導入され、最近になってやっと他の治療方法において検討されている。例えばクロニジンは心筋虚血およびうっ血性心疾患の治療において有望である。クロニジンと他のアドレナリン受容体剤との間の相違はその中枢神経系作用部位であり、これが潜在的により広範な使用をもたらすやもしれない。
エストロゲン:3
心臓血管疾患は顕著な性差を示す。エストロゲンは心疾患の発症において重要な役割を果たし、疾患の進行を調節することができる。エストロゲンの有利な影響における焦点は、血管系から心筋へと徐々に移行している。心筋における機能的エストロゲン受容体の存在が明らかにされている。左心室肥大(LVH)のげっ歯類モデルにおいて、エストロゲン置換により左右両心室の肥大の発症が減衰する。エストロゲンはまた心筋虚血において広範な心筋保護をもたらすために使用されている。用量の範囲はエストロゲンについては極めて厳密である。異なる用量は非常に異なった効果をもたらす。例えば、一日当たり0.625mgエストロゲンは更年期以降の使用を意図し、一日当たり20〜35ugは経口避妊薬用である。
タモキシフェン:3
タモキシフェンはエストロゲン受容体を活性化する臨床使用における化合物の1つである。心臓血管系に対してエストロゲン様の効果を有する。
コルヒチン:3
コルヒチンは強力で迅速な好中球の抑制剤であり、炎症性の白血球増多症を低減し、虚血後の心筋の好中球蓄積を防止し、心筋を保護する。コルヒチンの心臓血管に対する効果に対する研究は殆ど行われていないが、一部では陽性効果(心臓肥大の発症を減衰する)を示している。
ブラジキニン:4
ブラジキニンは新規で有望な心筋細胞保護物質である。カリクレイン−キニン系は血圧調節系の1つである。カリクレイン−キニン系の重要な薬剤として、ブラジキニンは長年公知な冠動脈拡張および血管症以外にも効果を有する。最近の研究においては、ブラジキニンは心筋細胞の虚血耐容性を増強することがわかった。虚血は拡張型心筋症の主要な原因の1つであり、心筋虚血は拡張型および肥大性の心筋症の両方において極めて共通しているため、ブラジキニンは心臓肥大の治療のための薬剤候補である。
オマパトリラット:4
ブラジキニンは数種の酵素、特にアンジオテンシン変換酵素(ACE)および中性エンドペプチダーゼ(NEP)により効率的および急速に分解される。従って、オマパトリラットはACEおよびNEPに対する二重阻害を示す新規化合物として理論的にはブラジキニンと同様の効果を有する。オマパトリラットは慢性心障害のために暫定的に臨床使用されている。
アプスタチン:4
ACEおよびNEPはブラジキニンの異化において主要な役割を果たしていると考えられるが、最近の報告では、アミノペプチダーゼPが内因性のブラジキニンのターンオーバーに寄与していることが示唆されている。アミノペプチダーゼ抑制剤のアスプタチンはもう1つの心筋保護剤の候補である。
COX−2選択的阻害剤(セレコキシブ):3
この化合物の心臓血管に対する効果は興味深い。一方で薬剤の使用は血管の損傷およびアテローム性血栓症に対する炎症の寄与を低減する。他方で、血管拡張型および抗凝集性のプロスタサイクリンの生産を低減することにより、投与は上昇した血圧およびプロトロンビン活性をもたらす場合がある。従って種々の実験の矛盾する結果の全てが意外なことではない。コンピュータによるランキングに基づけば、セレコキシブはインビボの心臓肥大に対するその効果を試験するための薬剤候補である。
5−LOX阻害剤(リコフェロン):4
5−LOX阻害剤は抗血小板、抗白血球および抗炎症特性を有するがCox−1阻害剤の胃の副作用やCox−2阻害剤の血栓の危険を伴わない新規化合物のクラスである。リコフェロンは現在骨関節炎の治療に関する臨床第3相の試験に付されている。
トロンボキサンA2受容体拮抗剤(スルトロバン):3
TXA2は強力な血管収縮剤であり、血小板の凝集および放出の強力な誘導剤である。プロスタグランジンとは血小板の調節に関して逆の機序を有する。トロンボキサン受容体の密度は障害のある心臓では正常心臓と比較して顕著に上昇し、これは、トロンボキサン受容体が治療の有意な標的となることを示唆している。TXA2合成酵素阻害剤またはTXA2受容体抑制剤は心筋症患者にとって有益であると考えられる。
メラトニン:2
メラトニンは松果体の最も有名な生成物である。抗酸化剤として概日リズムに直接影響するという周知の役割のほかに、実際は人体においてより広範な役割を果たす。少なくとも10年間の証拠によれば、メラトニンは心臓血管系に影響する。動脈および心室の受容体の存在が明らかにされている。メラトニンは心筋虚血後の心臓の保護においても寄与している。メラトニンは現在は薬剤とは考えられておらず、その理由は、一部にはメラトニンの安全性、副作用、薬剤相互作用および長期の作用に関して殆ど研究されていないためである。
以下の候補化合物を更に本発明のシステムを用いて同定した。
モルヒネ:
モルヒネはオピオイドペプチドであり、重要な心臓血管に対する効果を示すことができる。特定のオピオイド受容体の活性化により実験動物において梗塞サイズを低減し、単離された心筋における細胞死を低減する強力な心臓保護効果がもたらされた。薬剤は短期間および緊急時の使用に限定されている。
ナロキソン:
ナロキセンはオピオイド拮抗剤である。通常の状況下においては、オピオイドが前もって投与されていない限り殆ど効果をもたらさない。しかしながら、内因性のオピオイド系が例えば心筋梗塞または拡張型心筋症の場合のように特定の形態のストレスにより活性化されると、ナロキソンはオピオイド系の心臓保護効果を抑制する場合がある。これは疾患に対して陰性の影響を有する。上記した通り、コンピュータで予測されたナロキソンの陽性効果はインビボで検証されている。
ワーファリン/ヘパリン:
両薬剤は活性化凝集因子を抑制し、従って、抗凝固効果を有する。心筋症患者は血栓塞栓の危険性を有しているため、ワーファリンおよびヘパラリンは卒中および末梢塞栓形成の予防において使用する薬剤候補である。両薬剤とも、拡張型心筋症、特に心房細動を伴うものの管理のために有用であると報告されている。
コルチゾール:
コルチゾールはヒトの主要なグルココルチコイドである。コルチコステロイドの効果は多く、広範にわたっている。心臓血管系においては、コルチゾールの強力な効果は高血圧および高血圧性心筋症の誘導であるが、根本となる機序は不明である。コルチゾールは抗炎症および免疫抑制剤であり、これは心筋症に二次的に起こるリンパ球浸潤を抑制することができる。しかしながら、コルチコステロイドの現在の臨床使用の多くは、薬剤が作用する機序の詳細な理解ではなく、むしろ実証的なアプローチに基づいている。コルチゾールは以前は拡張型心筋症の治療のために提案されていた。治療は臨床的に重要な作用を有さないようであり、顕著な合併症を伴うと考えられた。日常的に臨床で使用することは今では推奨されないが、その目下の用途については、推奨されていないが、新しい薬効および新しい用法についてはこの化合物を再び使用することができるであろう。
接続性の評価:間接的接続性およびβカテニン
間接的接続性
本発明のシステムのために設計されたもう一つのタスクは、オブジェクト間の直接で関与性のある関係が、何モデム日(modem day)に一回の割合で間接的関係にあったかを示すことである。ナレッジが発見される2つの基本的な方法、即ち(1)新規な発見によるか、または(2)従来のナレッジに依存するかである。重要な点は、新規な発見は偶然得られたかもしれないし、又は、ランダムなアプローチを系統的に試験して、それ以外に予測される余地のない関連性に至って得られたものであるかもしれないということである。同様に、従来のナレッジは明示的な仮設(例えば、AとCは相互作用する)又は暗示的な仮説(例えば、特定の性質/特性を有する標的が、全候補を試験することによって発見される拮抗剤候補とみられる数種の薬剤と相互作用するといった)をもたらす場合がある。
歴史的にはナレッジ的な発見は双方の種類の発見よりなるものであった。ナレッジに基づいた理由付けにより達成される発見は、あるオブジェクトが他のオブジェクトに対して有する関係をカタログ化することにより測定できる。ある所定の時点において、あるオブジェクトは他のオブジェクトと多数の直接的関係を有すると同時に他の潜在的オブジェクトと多くの間接的関係を有するはずである。間接的関係の一部が直接的関係として発見されることが疑われる場合、次のステップはどれだけ多くの歴史的に間接的な接続が最終的に直接的となったかを測定し、推定することである。
一例として、1995年にA(遺伝子)がB(疾患)に関係あることが発見されたと仮定する。この時点において、BはC(表現型)と関係することがわかっていた。ここで関係の性質に応じてAとCとの間の連結性を合理的に推量することができる。恐らくは表現型はAが直接または間接的に関係している他の疾患において観察される。即ち、A−Cの接続性は自明であり、更に分析または研究を行うことにより確認されるかもしれない。一方、関係は自明ではない場合もある(例えば、関係はその時点で適切ではないと考えられる)。システムが注目するのはこの点である。
システムは以下に記載するとおり、別の分析による試験に付した。
少なくとも約1270のアブストラクト群をMEDLINEソースから「beta−catenin(βカテニン)」というキーワードを用いてダウンロードした。βカテニンは哺乳類の上皮における接着結合部の形成に関与する蛋白であり、その遺伝子はヒト染色体3p21、即ち腫瘍発生への数種のリンクを有する領域に位置している。この分析に関し、オブジェクトはnであり、nに直接関連するオブジェクトはn+1である。n+1オブジェクトに直接関連するがnではないオブジェクトは暗示的に関連しており、n+2と称される。図20Aは接続の総数がどのように指数的に経時増加するかを示しており;図20Bは今日観察されている直接接続を有するどのくらいの数のオブジェクトが以前には恐らくは中間体(異なる中間体の数は示されていない)を介して、単に間接的に接続されていたかを示している。一部の接続は擬似性であるため、下流の接続性を確立するために必要とされる観察の最少数は1〜3であった。nとn+1との間の接続性の最少数は、新しい発見への感度を増大させ、確立する下流の接続性を発見するために1に維持した。最少観察基準が緩和されるに従いオブジェクトの総数は上昇する。いくつの未発見の暗示的接続性がより以前に存在していたかを評価するために現在の直接接続性を使用することにより、グラフは必然的に今日に近接するにつれてゼロ値に低下する。
試験セット分析を行うデータ(たとえば、文献)のセットはPrimary Domain Analysis(PDA)と命名する。PDAは1つのキーワード型の主題(一般的にはテキスト)に集中させ;PDAを使用する場合は、全ての間接的で未発見の関連はそのデータセットからのみ誘導される。何れのキーワードも一般的には3種の一般的カテゴリ、即ち、(a)データまたはレコードの一次的なアスペクト/オブジェクトである;(b)データまたはレコードの二次的な検討事項である;および/または(c)データまたはレコードに対して無視できる関係を有する、に属する。図20Aおよび20Bに示した挙動は、オブジェクトが発見された時点において知られていた接続の数に応じて変化する。間接的接続の数はPDAを超えて検索が行われるにつれて拡大する(例えばPDA外のより大量の従来のナレッジ、情報および/またはデータを組み込むことによって)。図21A〜21Dに示すとおり、モデムデー(modem day)関連の間接的接続のパーセンテージは経時的に低下している。この観察された低下は関連性を示すのに十分な時間が経過していないためであるか、または、最も早期の直接的関係が最強であるためである。図21A〜21Dのグラフはまた、僅か数個の間接的接続を加算することにより総接続数は大きく拡大することも示している。この拡大に次いで、下流の接続を同定するストリンジェンシーを増加させることは、後に直接的であると判明する間接的接続の総数に大きく影響する。
接続の頻度の変化を分析するために、βカテニンに対して最初は間接的関係を有していて、後に直接的に接続されたオブジェクト全てを調べた。オブジェクトにはネットワーク距離n+3を有し1997年より前のデータベース中のものが包含される。システムにより探索されたオブジェクトのリストを、βカテニンへの固有のパスの数および接続性を決定するために必要な最少の観察数(即ち同じ文中のオブジェクトの同時発生)ごとに表23に列挙する。この分析は図21A〜21Dと同様の観察パラメーターの最小の数を使用している。
Figure 2006503351
表23によれば、EGFR(表皮成長因子受容体)は1997年より以前にβカテニンに対して間接的な接続を有していた上位3オブジェクトのうちの1つであることがわかる。接続の連鎖において、Eカドヘリンは1992年にさかのぼってβカテニンと極めて強力な関連(484の同時言及)を有していたことがわかる。βカテニンはまた、アクチン細胞骨格およびEGFRに曝露されると細胞外マトリックスから解離するEカドヘリンとの相互作用を介して、Eカドヘリンとも分子的関連を有している。その結果、間接的βカテニン−EGFR接続を有するネットワーク中の29の固有のパスの各々が、異なる中間性を介してEGFR−Eカドヘリンの関連に渡って分岐している。EGFRとβカテニンが相互に直接関連していることをシステムが最初に明らかにしたのは1997年7月であり、このときEGFRはβカテニンをホスホリル化することがわかった。興味深いことに、これ以前には、レコードはEGFRをEカドヘリンにリンクさせていたが、それはEGFRではなくEGFを介してのものであった。システムは新聞からの情報としてEGF−βカテニンの接続を認識していたが、EGFとEGFRの間の関係は理解していない。システムにより同定されて、ORDにカタログ化されたβカテニンとEGFRとの間の接続は表24に示すとおりである。1997年より前に接続を確立した代名詞照応(pronoun reference)はないことを確認するために、MEDLINEをキーワード「βカテニン」および「EGFR」で検索した。
Figure 2006503351
βカテニンに間接的に関係する第2の接続の最も一般的なオブジェクトは皮膚および粘膜が罹患する希少な水ぶくれを生じる自己免疫疾患である尋常天疱瘡であった(OMIMレコード169610参照)。間接的EGFR接続の様に、中間的接続の大部分が1994年のレコードにより最初に確立されたカドヘリンと尋常天疱瘡の1つの共通の中間性パスを共有していた。本発明のシステムは関係が1998年2月まで確立されなかったことを発見した。1994年の文献はβカテニンと天疱瘡の関係に言及しているが;2つのオブジェクトは同じ文の中に含まれておらず、正規の用語よりはむしろ疾患の略語(OVA)が使用されていた。従って、システムは分析に付された条件想定からは関係を識別しなかった。
システムはまたバナデートとβカテニンとの間の関係も発見している。バナデートは通常はチロシンホスファターゼの阻害剤として種々の生物学的経路において使用されている遷移元素のオキシアニオンの小型分子である。2つのオブジェクトの間の強力な接続性がチロシンとバナデートの間の中間関係を介して発見された。この中間の関係の最初の言及は1995年2月であり、その後も数回行われている。βカテニンとチロシンの間の接続もまた頻繁に、1992年12月という早期に観察されている。しかしなお、バナデートを伴ったβカテニンの最初の言及は1997年10月まではなされなかった。
PTPRUとは蛋白チロシンホスファターゼ受容体U型の頭字語である。HGNCデータベースにおいては、頭字語PTPがPTPRUと同義語として掲載されているが、これは必ずしも正確ではなく、その理由はPTP即ち蛋白チロシンホスファターゼとPTPRUは関連するが明らかに異なるオブジェクトであるからである。従って、システムは実際はβカテニンとPTP、即ちチロシンと共に作用し、バナデートとの以前に確立された中間性関係にある蛋白との間の関係を識別したのである。
βカテニンはwntと強力な関連を有し、そのため、wntに関係する遺伝子がβカテニンと共に言及されることは意外ではない。βカテニンが縮毛遺伝子に対して有する間接的関係はwntおよびwinglessの両方、および、LEF−1、APC、JUPおよびdshのようなそれらに直接関係する遺伝子を通って進行する。βカテニンとwntとの間の接続は1993年10月の文献において早くも言及されている。wntと縮毛の間の接続はより早期より知られていたが、しかし、1996年のアブストラクトの集合において最初に言及されている(レコードには月が記載されておらず、従ってシステムはセイフサイド上で誤作動となるように1月1日で不履行となっている)。
βカテニンと縮毛は1997年8月に最初に言及されたが、C.elegansにおいて試験されたものと同様の遺伝子のリストに関してのみであった。機能的関係が明らかになったのは2者を同時言及した次のアブストラクトが1998年5月に発表されたときである。
本発明のシステムデータベースは持続的に向上させなければならない点が重要である。例えば、実施したばかりのものような分析の後に、データベースから擬似的な関係が取り除かれる場合がある。
システムの検証:糖尿病およびエピジェネシス(後成説)
明らかに、本発明のシステムは、疾患、遺伝子、表現型および化合物(「オブジェクト」と総称する)の名称および同義語を、それらがMEDLINEのタイトルおよびアブストラクトのようなソースに存在すれば、認識することができる。システムはまた、用語の混乱を回避するために頭字語を分解することができる。
別の実施例においては、オブジェクトの関係の包括的ネットワークを構築するためにシステムによりMEDLINEレコード(2002年1月時点で少なくとも約12,063,817レコード)を処理した。次にオブジェクトの集合のうちで共有されている関係を、別な方法で関係していることが知られていない2つのオブジェクト間で共有されている関係も含めて、評価する。これらの暗示的関係を用いて新規な関係を発見する。科学技術においては、例えば新規な関係は疾患の病因、薬剤の作用、新規治療法、診断方法の機序を理解しやすくし、1つ又はそれ以上のオブジェクト、特に疾患の原因と治癒との間の相関的関係をスクリーニングするためのコスト効率的な方法として使用できる。
非インスリン依存性真性糖尿病(NIDDM)は世界中でますます増加している疾患であり、特に米国では1991年〜2000年の間に新しい患者の数が49%も増大した。NIDDMの経済的コストは驚異的であり、1997年には年間980億ドルと推定され、米国だけで人口の6%もが罹患している。NIDDMは主にインスリン抵抗性および高血糖症を特徴とし、グルコース不耐性、高インスリン血症、高コレステロール血症および高脂血症を伴う場合が多い。NIDDMの発症の危険性と相関する多くの要因が発見されているが、因果関係は不明である。NIDDMは最終的には「複合的な」障害と称され、環境の影響と遺伝的背景の間の複合的な相互作用の結果であると考えられている。今日までNDDMの病因と、例えばDNAメチル化状態又はクロマチンの縮合の変化とといったエピジェネティックな(後成説的)変性との関連は報告されていない。
DNAのメチル化は真核生物内の基本的重要現象であり、外来物質から宿主DNAを識別し、DNAのどの鎖が新しく複製されたかを決定し、転写プログラムを不活化できるようにクロマチンの縮合のためのシグナルを与える手段、即ち正常な発達の間で特に重要な体系として作用する。DNAの調節領域におけるメチル化の消失は癌研究における盛んな研究分野であり、多くの遺伝子が特定の腫瘍におけるメチル化の消失により調節不全となることがわかっている。DNAメチル化の消失は化学的に(例えば5−アザ−2'−デオキシシチジンにより)誘導できるが、同じ作用を有するどのような因子が環境中に存在するかは不明である。
本発明のシステムによるNIDDMとの新規な関係の発見
非インスリン依存性真性糖尿病(NIDDM)としても知られているII型糖尿病に暗示的に関係するMEDLINE内のオブジェクトを発見してランク付けするためにシステムを使用した。NIDDMはデータベース中の2つの特定のオブジェクト:「Methylation(メチル化)」および「Chromatin(クロマチン)」と多くの関係を共有していることがわかった(表25)。
Figure 2006503351
表25はNIDDMに暗示的に関係する上位5オブジェクト(遺伝子、疾患、表現型および小分子)を明らかにしている(最上段は照会(クエリー)のための陽性対照)。これらのオブジェクトはNIDDMとの如何なる直接の関連も有することはわかっておらず(MEDLINE内で)、多くの共有された関係のために、暗示的に関連している(図22参照)。各暗示的関係の性質は様々であり、中間的接続性の検討により決定しなければならない。例外は推定された数値であり、文献から引き出されたものとして同じ性質を有する関係のランダムに接続されたネットワークがある場合にいくつの共有された関係が予測されるかを示している。性質はスコアであり、同時発生オブジェクトの頻度に基づいた実際の関係を示す同時言及の数の統計学的推定値である。暗示的関係は、最も共有されている関係により(広範で重要な傾向を発見するために本発明において行ってきたとおり)、所定の集合の関係が如何に例外的であるかにより(観察/推定スコアに基づいて分類(ソート)することによって)、またはその両方(図示せず)により、順位付される。
オブジェクト間の新規な関係を仮定する際に科学者が直面する最初の障壁は共通の関係の認知である。エピジェネティックな修飾とNIDDMの間の新規な関係を仮定する理由が存在していたとすれば、NIDDMに関する24,752文献およびメチル化に関する25,338文献を読解して組織化することにより共有性を同定することが更に必要となる(MEDLINEキーワード照会(クエリー)により決定された2002年7月5日現在の統計値)。情報科学的手法がこのようなスケールのデータの照合には必要であった。
NIDDMに関連するMEDLINE文献の全体を調べることにより、同じジャーナルアブストラクト内の同時出現により、NIDDMが他のオブジェクトに対して有する全ての潜在的関係を発見した。33,534個の固有のオブジェクトから、システムはテキスト内で、合計2,105個がNIDDMに直接関係することを認識できる。次にシステムはこれらの2,105オブジェクトに直接関係する全てのオブジェクトについて、直接関係のリストに既に含まれるものを除外しながらMEDLINEを分析した。得られたリストは暗示的にのみ知られている関係を含んでおり、即ち、2個のオブジェクトの間の関係はMEDLINEのタイトル及びアブストラクトの本体内には発見されなかったことを意味する。次にこれらの暗示的関係をそれらが相互に保有していた共有された関係の数、各関係の相対強度、関係の性質(各関係が有効である統計学的な確率)、及びオブジェクトとそれらが共有する中間体がネットワーク内に比較的豊富である場合に、2つのオブジェクトが一つの関係集合(a set of relationship)を偶然共有する尤度に基づいて、システムにより評価した。
「メチル化」および「NIDDM]の間に共有された1,287個の関係のうち全部が必ずしも因果関係、相関性またはむしろ意味が有るというわけではないが、多くのものが因果関係、相関性および/または意味のあるものであった。総括すれば、エピジェネティックな対照とNIDDMとの間には関係が存在するという証拠が示され、次にエピジェネティックな原因病理とNIDDMの病因に関するより包括的な理論を開発するためにこれを用いた。
NIDDMに於ける共有される関連性
図23に示すとおり、システムはメチル化状態における変化に関連する疾患によっても共有されるNIDDMの発症および病態における多くをの共通の表現型確認した。これらの共有される関係は環境または遺伝子突然変異モデルでは容易に説明されないNIDDMの難解な特性の一部について予測を可能とするものである。例えば、NIDDMは変動性の遅延した発症時期、Xリンク遺伝子の異常発現のようなDNAの低メチル化を介した一部のエピジェネティックな疾患にリンクした表現型、ハンチントン病の発症および腫瘍の発癌性を伴った疾患である。遅発性の疾病の全てがエピジェネティックな変化により誘発されるわけではないが、他のものの殆どは疾患に独特の表現型の異常、例えばアルツハイマー病におけるアミロイド前駆体蛋白またはパーキンソン病におけるレーヴィー体の蓄積を共有している。NIDDMは肥満および進行性グリコシル化最終産物(Advanced Glycosilation End Products:AGE)の存在と高度に相関しているが、何れもその発症の要件や疾患としてそれに独特のものではない。NIDDMはまた、その重篤度においても異なっており、一般的には経時的に上昇する。重篤度の上昇は、プロモーター配列のメチル化の変化が起こっているため、遺伝子発現性がより高く、より攻撃的な表現型となっている一部の腫瘍によって共有されている表現型である。NIDDMの他の興味深い観察結果はNIDDM患者では糖尿病の母方家族歴が高頻度であることが報告されている「母方作用」である。
このような効果は発達の間のDNA配列の新規なメチル化が母方の影響によるものであるかどうかを説明していると考えられる。このタイプの現象は実際、マウスにおいて観察されている。
システムはまたNIDDMの存在または疾病素因に相関するDNAをメチル化する身体の能力の多くの代謝的改変を確認している。例えば、NIDDM患者においてはホモシステイン濃度の上昇が観察されており、死亡率により定義される疾患の上昇した重篤度に相関している。ホモシステインはメチル化反応を司る重要な代謝中間体であり、この血清中濃度の上昇はDNAの低メチル化に相関している。メチオニンからのシステインの合成を強制するイオウ欠乏食餌は個体を生存後期においてII型糖尿病に対して易罹患性とすることが報告されている。メチオニンは新規に合成されたDNAのメチル化のためのメチルドナーであるS−アデノシルメチオニン(SAM)に影響するため、これらの個体は新規なDNAメチル化パターンを確立する能力が損なわれた状態で発達する。メチル化経路における欠損をもたらす遺伝子的要因はまた個体がNIDDMを発症しやすくする。メチレンテトラヒドロフォレート還元酵素(MTHFR)の遺伝子にはよく知られた多形(C677T)があり、これはその効率を低下させ、DNAの全般的低メチル化をもたらす。この突然変異を有する個体もまたNIDDMおよび代謝症候群の他の合併症を発症しやすい。
異常なメチル化パターンは別の形態の糖尿病、即ち一過性新生児真性糖尿病(Transient Neonatal Diabetis Mellitus:TNDM)における糖尿病症候群を誘発することがわかっており、これは遺伝子的刷り込みの結果である。しかしながらTNDMをもたらす同様の刷り込み領域はNIDDMをもたらすことはわかっていない。エピジェネティックな改変がNIDDMの原因であるとすれば、3つの疑問点が当然ながら生じる。第一に、どのような分泌因子がNIDDMの表現型をもたらしているか、第二に、どのような組織型がNIDDMの表現型を誘導する因子の発現をもたらしているか、第三に、どのような環境因子がメチル化の消失およびその結果である分泌因子の調節不全の原因となっているかである。
第1の疑問点に対する解答の導入口は、暗示的に関係するオブジェクトの表25中のシステムのリスト上の、スコアが最も高いオブジェクト、エンドトキシンである。エンドトキシンはNIDDMとの関連や因果関係は知られていないが、肥満およびインスリン抵抗性を誘導することがわかっている。NIDDMとエンドトキシンとの間に共有されている関係の大部分は免疫応答に影響するかそれに関与するオブジェクト、特にサイトカインおよび炎症因子である。プロ炎症性サイトカインの濃度上昇はNIDDM患者において発見されており、肥満と正の相関を有し、TNFαのような一部のものはインスリン抵抗性を誘導することがわかっている。実際、サイトカイン、特にプロ炎症性サイトカインがNIDDM表現型をもたらしているという証拠がますます増加しつつある。例えばNIDDM症状の退行は高用量のアスピリンを用いた炎症経路の破壊により誘導される。NIDDMの治療に使用されていた医薬品であるトログリタゾンもまた抗炎症特性を有することがわかっており、NIDDM表現型を退行させることに成功したNIDDM患者に処方された運動習慣の変化および食餌の変化もまた炎症サイトカインの低減と関連していた。
プロ炎症性性サイトカインがNIDDMの原因となる因子であるという証拠があるため、その起源を同定することは興味深い。B細胞およびT細胞のほかに、脂肪細胞および内皮細胞のみがサイトカインを通常生産することがわかっている他の細胞型である。T細胞内においては、サイトカイン発現はDNAメチル化パターンにより測定され、脱メチル化剤により改変できる。T細胞およびB細胞の何れも、それらがナイーブ型またはメモリ型ではそれほど代謝的に活性ではなく、それらのより活性な分化形態は比較的短命であるため、候補である可能性は低い。しかしながら脂肪細胞は脂質のための主要な容器であり、その大きさや周囲の肥満のような要因に比例してサイトカインを生産する。興味深いことに、ある研究では短鎖脂肪酸(SCFA)が活発に転写される領域の脱メチル化を促進することが明らかにされている。SCFAはまたHDACを抑制することによりクロマチンの構造に影響することができ、ヒストンの過剰アセチル化を起こし、DNAの領域を転写因子がよりアクセスしやすいものとする。SCFAは正常では脂肪細胞中高濃度で存在しないが、貯蔵されている長鎖脂肪酸の正常な代謝副生成物である。脂肪細胞中のSCFA代謝産物の量が多い場合、活動的転写活性と組み合わせられたDNAメチル化の消失が起こりえる環境が与えられ、低メチル化およびその結果としてのNIDDMをもたらすサイトカインまたはサイトカイン様因子の調節不全がもたらされる場合がある。IL−6およびTNF−αの濃度は胃絞扼術の前及び1年後の女性20人において観察されている。個々では、C反応性蛋白(CRP)のような他の肥満マーカーの濃度は低下していたが、IL−6およびTNF−αは低下していなかった。
提案されたモデル内では、NIDDMの病因は脂肪細胞内で起こり、脂肪細胞により通常分泌されるサイトカインおよび/またはサイトカイン様因子のプロモーターの周囲のDNAメチル化の緩徐な消失が関与している。このメチル化の消失は肥満により与えられる条件化では好ましいものであり、転写活性により誘発される。その後のメチル化の消失により、これらの因子の調節不全が起こり、脂肪細胞からのサイトカインの生成の構成的増加が起こる。陰性調節因子はこれらの因子の発現を低下させ、それらが存在する限りではあるが、NIDDM表現型を維持できる。
本発明と共に使用するための総合的な細胞メチル化アッセイの例は、以下の遺伝子(GenBankレファレンスの識別子を含む)の1つ又はそれ以上、即ち、FIZZ?(NM_020415);IL−6(NM_000600);TNF−アルファ(NM_000594);レプチン'NM_000230);IL1−ベータ(NM_000576);IFN−ガンマ(NM_000619);IL−4(NM_000598);PPAR−ガンマ(NM_005037);STAT3(NM_003150);NF−カッパB(NM_003998);IL−8(NM_000584);IKK−ベータ(XM_032491)である。例えばメチル化アレイを用いてこれらの遺伝子の1つ又はそれ以上のメチル化をモニタリングすることにより、メチル化前駆体を1種又はそれ以上を含む栄養補給剤の効果を評価することにより、NIDDMに罹患する危険性のある個体における効果または細胞のエピジェネティックなメチル化パターンの改善が示される。
NIDDMの病因モデル
この新しく提案されたモデルをNIDDMの病因および病原に関する3種の既存のモデル、即ち遺伝子、環境および両方の因子の複合相互作用の範囲において試験する。
遺伝子の研究によって、遺伝が個体のNIDDM発症の危険性を判定する役割を担うということが明らかになってきた。多くの潜在的に影響を受けやすい領域を明らかにするリンケージの研究は、これまでのところ、大規模な集団(コホート)が関係しているにもかかわらず、NIDDMの最も優勢な形態に関与する特定の遺伝子または遺伝子の集合を未だ良好には同定できていない。肥満とNIDDMの間の十分確立された相関もまた、NIDDMの発症に環境上の変数が影響することを示している。しかしながら環境上の変数は原因となるよりも相関している。優勢な理論は、NIDDMの発症が多くの寄与遺伝子が存在する遺伝子的背景に対して作用する1つ又はそれ以上の環境上の変数により起こるというものである。この理論はNIDDMにどの程度易罹患性であるかは、人種のような遺伝子的背景、並びに食餌や運動のような環境上の変数に相関していることを明らかにしている。複合的なモデルではできないがエピジェネティックなモデルでは説明できるNIDDMの性質に関する別の観察がある、即ち、時間依存性及び全身性の記憶である。
環境上の変数が易罹患性の遺伝子的背景上に存在する場合でも、NIDDMの発症はなお時間依存性である。即ち、NIDDMを発症する危険性は年齢と正の相関を有する。このことは感染のようないまだ未知の「トリガー(誘因)」事象を推測すること以外は、複合的疾患モデルにより容易には説明されるものではない。このことが真実であるとしても、発症後のNIDDMの持続性は説明できない。NIDDMは患者により経験されるインスリン抵抗性とグルコース不耐性の水準、即ち、生活様式を大幅に変えることにより前糖尿病の水準まで改変できるといった水準によって診断される。しかしながらNIDDMは退行させることができない。既存のモデルの何れも、身体がその状態を「記憶する」ことができる機序を説明しない。しかしながら遺伝子のメチル化状態は、細胞をその分化した状態とするための比較的持続性のある現象であると考えられる。DNAメチル化の消失が年齢と相関しており、ゲノム内のメチル化部位の数が遺伝により決定され、メチル化の消失が環境上の変数により影響を受けるとすれば、案件のエピジェネティックモデルは重要な検討事項に値するものである。
DNAにおける身体性または遺伝性の突然変異に基づいた機能または活性における変化を想定する突然変異を中心とするモデルとは逆に、エピジェネティックなモデルは遺伝子または遺伝子の集合の調節不全を意味するものである。即ち、このような遺伝子の発現から生じる表現型は他の生理学的条件下では生物学的な意味を有すると考えられる。インスリン抵抗性を誘導する細胞内へのエネルギー流入の防止は、免疫系の役割の範囲内で検討する場合には意味がある。前述したとおり、サイトカインの発現は、特にIL−6、TNF−αおよびIL−1bのようなサイトカインの場合、NIDDMの兆候を誘発する。B細胞の成熟および抗体の産生といった後天的な免疫は時間を要し、その間に、病原体は複製することができる。早期の免疫応答として一部には循環血流中にプロ炎症性サイトカインの量が増えることが挙げられる。これらの早期応答物質の1つの役割は、グルコースのようなリソースが細胞内へ流入するのを阻止して、侵入してきた病原体にそれらを利用させないようにするためであると考えれば意味を成す。脂肪細胞はエネルギーの大量貯蔵物を含んでいるため、侵入してくる病原体にとって理想的な標的であり、感染と戦うために他の体細胞と較べてより活発な役割を果たさなければならなくなっている。
最後に、この理論は、正確であるとすれば、患者におけるNIDDMに至るエピジェネティックな進行の現在のレベルを診断し、突然変異中心のモデルでは容易に得ることができなかったNIDDMの治癒のための希望を与えるものである。どのようにして領域特異的メチル化が再導入されて領域に作用するかは不明であるが、新たなメチル化は発症の通常の過程であるため、その機序が既に定着しているのは当然である。
シルデナフィル(VIAGRA(登録商標))の新しい治療への適用を同定するためのシステムの使用
本発明のシステムを用いて、シルデナフィル(VIAGRA(登録商標))との関係分析を実施した。1つの実施形態においては、分析によりシルデナフィルに関する約1000個の電子的に入手可能なMEDLINE要約の間の関係が発見された。更にまた、オブジェクト(例えば他の化学物質、遺伝子、薬品、表現型および/または疾患)との関係に基づいた薬品の新しい用途をスコア化し、評価した。最も高スコアの50個の関係のみを検討し、システムは薬剤の数種の潜在的な代替用途を発見した。予測されたとおり、最高スコアの関係は抗高血圧剤とのものであり、既に提案されている関係であった。
喘息との関係(278個の共有された関係)
システムの上位20件のシルデナフィルとの同定された関係のうち、数件は喘息および症状の治療に使用される2個の化合物(即ちエピネフリンおよびテオフィリン)とのものであった。興味深いことに、cGMP−5は肺と陰茎の組織の両方において豊富に存在する酵素である。更にまた、1つの観察結果は、慢性閉塞性肺疾患(COPD)を有しシルデナフィルを服用している患者における呼吸の改善であった。システムは血管拡張剤としてシルデナフィルが肺胞の収縮に関連する症状を低減するという潜在的関係を発見している。他の証拠(例えば肺組織中の標的酵素PDE5の優勢性)はこの発見された関係および薬剤の別の治療用途を裏付けている(そして薬効は確認されなかったが、個々の患者における特定の生理学的状態の存在は多剤の使用を排除し、その際、シルデナフィルが好ましい治療法となる得る)。
アテローム性動脈硬化症との関係(268個の共有された関係)
システムはまたアテローム性動脈硬化症との潜在的関係も同定している。ここでは、シルデナフィルに誘導された血管の変化とアテローム性動脈硬化症危険因子に対するその潜在的治療用途との間の数個の関係が存在する。1つの危険因子は高血圧である。シルデナフィルの長期投与は現実的ではないが、これは一時的に高血圧を軽減(例えば末梢血管への血流を増大させる)し、ひいてはアテローム性動脈硬化症に関連する危険因子を軽減する。
偏頭痛との関係(216個の共有された関係)
シルデナフィルと偏頭痛との関係はそれほど明確ではない。選択的血管収縮特性を有する数種の薬剤、例えばトリプタン(例えば5−HT1b受容体を介したスマトリプタン)は偏頭痛の治療に使用されているが;他の抗偏頭痛剤は血管収縮を介して作用しない(血管収縮は相関または因果関係による)。頭痛はシルデナフィル(および他の血管拡張剤)の頻発する副作用であるが、偏頭痛(独特で特殊な頭痛の形態)は薬剤の頻発する副作用には一般的に分類されていない。シルデナフィルの降圧効果が実際は偏頭痛の基となる未知の機序と対抗している可能性がある。システムは難治性の偏頭痛と共存する高血圧との間の候補関係を発見している。
痙攣との関係(220個の共有された関係)
システムはシルデナフィルと痙攣との間の一般的関係を発見している(痙攣の種々の臨床型、例えば平滑筋、骨格筋または心筋におけるもの、または、微小または巨大血管系のものを識別するフィルターは使用しなかった)。同様に、シルデナフィルと同定された筋肉群の突然局所収縮との間には関係があった。興味深いことに、シルデナフィルは元来は心臓への血流の増大により冠動脈狭心症の治療に関して評価されていた。分析によりシルデナフィルの痙攣制御としての効果の仮説が生じた。以前の仮説は薬剤が血流を制限(傷害、虚血または痙攣を介する)することにより狭心症に影響するというものであった。
即ち本発明のシステムは研究に焦点を置き、オブジェクトの複数の以前は知られていない用途を同定するための技術的および財政的なリソースのより効率的な使用を提供するものである。これはまた以前は知られていなかったオブジェクトが相互作用する潜在的機序を同定する場合がある。
本発明のシステムによる分析は中間性の(共有された)関係の数を変動することによりシルデナフィルに関係付けられた多くのオブジェクトを創生した。関係は直接の強度のスコアとして識別された。図24は同定された純粋に暗示的な(直接の強度のスコアではない)関係を総括するものであり、従ってグラフ中では小さなバーで表されるか又はバーとして表示されない。既知の関係はシステムが相関性を有する関係を同定したという信頼性の尺度、および、それがどのようなオブジェクトをMEDLINEのようなソース内で認識することができるかに関する考えをユーザーに与えるために記載した。実際の文献の強度との共有された関係の分析からシステムが引き出すスコアの相関は、スコアリングマトリックスから取り出し、スコアリンググラフに掲載し、プロットした。図24に示すとおり、最も強力な既知の関係(勃起不全は左側のスケール外)は共有された関係のみを用いてシステムが帰属させるスコアと相関する。ギャップは暗示的関係の存在を示す。システムにより作成された最終アウトプット、「Shared Relationship(共有された関係)」は上記したオブジェクトにシルデナフィルを関連づける多くの関係リストを含んでいる。病的状態の治療に有用な薬剤のようなオブジェクト間の別の共有された暗示的な関係は図25に示す。図25は数種のクエリーオブジェクトに関する以前は関係のなかった多くの新規な暗示的関係を識別している。クエリーオブジェクトには、ヒトにおける1つ又はそれ以上の病的状態の治療のために適応症に対して当局が許可した薬剤が包含される。薬剤にはアレンドロネート、アトロバスタチン、セレコキシブ、フィナステリド、フルオキセチン、ゲムシタイン、インジナビル、ロサルチン、オラザピン、オメプラゾール、ピオグリタゾン、ロフェコキシブ、セルトラリン、シンビスタチンおよびチロフィバンが含まれる。図25は本発明のシステムがこれらの薬剤の新しい用途を容易に発見し、これにより新しい適応症とその使用を確立したことを示している。
オブジェクトのグループの結束性分析の一例としての乳癌に関連する遺伝子の同定
乳癌マイクロアレイから得た遺伝子の群を入手し、本発明のシステムにより処理してどの生物医学的オブジェクトを遺伝子が共有しているかを調べた。この種の分析はどのような共通のテーマまたは要素が遺伝子の集合内に存在するかを発見する際に役立ち、結束性分析とも本発明者等が称している特に例外的であるものに注目させるものである。この集合においては、クオリティスコア(Quality Score)(各特定の観察に関する全体的な統計学的誤差の比率を掛け合わせた、オブジェクトが集合のメンバーに関係するとみなされた回数)に基づいてソートし、システムはアクチン・リモデリングおよび転写プログラムの開始に関与するものとしてこれらの遺伝子の多くを同定した。図27を参照されたい。更にまた、遺伝子の一部は反復的配列を有しており、多形の可能性およびオルタナティブスプライシング部位を示唆しており、そのうち、異なるスプライス型が乳癌と因果関係が有るか、相関していると考えられる。リストの一部の項目の相関性は自明ではなく、例えばメチオニンは共通のアミノ酸とは擬似的な関連を有すると考えられるが、転移性の乳癌の腫瘍はこのアミノ酸に高度に依存性であり、その枯渇は腫瘍特異的な成長停止をもたらす(PMID97194776)。これらの遺伝子の一部はメチオニン代謝/分布に関与しており、従って標的となる薬剤候補である。
リストを観察/期待比により再ソートした場合、システムは文献における相対的豊富度よりもはるかに高い比率で遺伝子リストに関連する多くの遺伝子を同定し、相関性の高い関連であることを示唆している。例えばERBB4および3は正常および形質転換細胞の成長/分化において機能し、表皮成長因子受容体(EGFR)ファミリーのメンバーである膜貫通チロシンキナーゼである。これらの遺伝子の多くがERBB3/4に関連しているとすれば、これはそれらが乳房組織の癌原性の形質転換においても役割を果たしていることを高度に示唆している。この役割は非転写性であり、これは、この水準の分析ではマイクロアレイ分析で検出できないものである。しかしながら、マイクロアレイのデータは他のデータソース(例えばMedline)から得たデータと組み合わせることにより、別の機能的関係を同定することができる。
説明のための実施態様を参照として用いて本発明は記載されてきたが、当該記載は発明を制限することを意図するものではない。説明のための実施態様並びに本発明の他の実施態様におけるの種々の変更および組み合わせは明細書の記載を参照することにより当業者には明らかなものである。従って添付する請求項はこのような変更または実施態様の何れも包含するものとする。
本発明の特徴と長所をより完全に理解するために、上述の発明の詳細な説明と共に図面を以下に添付するものである。
Genbank中にリストアップされているヌクレオチド配列データの指数関数的な増加を示す図である。 3次元構造データベースPDBのデータの指数関数的な増加を示す図である。 Swissprotのタンパク質データの指数関数的な増加を示す図である。 Online Mendelian Inheritance in Manに登録されているヒト遺伝子及び遺伝障害のデータの指数関数的な増加を示す図である。 MEDLINE中にリストアップされている本発明に基づく記事のデータの指数関数的な増加を示す図である。 何れか一方を独立に検討したのでは明らかにならない、何か共通するものをもつ集合(たとえば、AとC)を示す図である。 (A)2つの概念(AとC)が、中間物B以外には支持する証拠なしで、互いに関係しているものと仮定され、また、(B)概念Aに対する新たな関連性を発見しようとすると、関係する事項Bを介して探索することになり、その後で、最初の探索Aでは見つけられなかった項目Cを介して探索が実行される、関係しているが相互に作用しない(非相互作用的な)ソース(たとえば、文献)を用いて探索するアプローチを示す図である。 キーワードと要約との間の関係を示す図である。 一般的なシステムロジックを解説する図である 本発明の1つの態様によるシステムの重要な構成部品を解説するフローチャートである。 本発明の1つの態様によるシステムがデータベースオブジェクトをコンパイルする1つの実施形態を示すフローチャートである。 本発明の1つの態様によるシステムがどのようにして、曖昧な頭字語に最初にフラグ付けすることによってデータベースオブジェクトを純化するかを示すフローチャートである。 本発明の1つの態様によるシステムが、オブジェクトの同時発生がないかソースを走査して冗長度を軽減し、また、関係を作成する1つの実施形態を示すフローチャートである。 本発明の1つの態様によるシステムがどのようにして、各オブジェクトに固有な数値ID(長い整数)を割り当てて、最も低いIDで非方向性関係をストアすることによって1つ又はそれ以上の関係を作成するかを示すフローチャートである。 1つの実施形態によるシステムがどのようにして、ユーザが分析目的で1つ又はそれ以上のオブジェクトリストを入力した後で、共有関係を識別するかを示すフローチャートである。 本発明のシステムがどのようにして、入力された情報から暗示的な関係を識別するかを示すフローチャートである。 共有された暗示的関係をどのようにして識別するかを示すフローチャートである。 本発明の1つの態様によるシステムの動作を示すフローチャートである。 フルオキセチン(Prozac(登録商標))の上から6,000の暗示的な関係をスコアで示すグラフである。 本発明における、データベース中の各オブジェクトが有する関係の数の分布を示す図である。 本発明における、データベース中の各オブジェクトが有する暗示的な関係と直接的な関係の分布を示す図である。 図17は、ランダムな集合と主題の集合との間でもっとも高度に関係する10のオブジェクトの観察対期待比の平均値の比較を示す図であり、ここで、ランダム集合に対してn=10であり、主題の集合に対してはnは変化するが少なくとも5である。 関係の強度と相互関連している関係オブジェクトとの統計的特性を示す図であり、ここで、20,000の関係オブジェクトが関係データベースからランダムに選ばれて、それが共有する全ての既知の関係の平均パーセンテージについて分析されている。 関係の強度と相互関連している関係オブジェクトとの統計的特性を示す図であり、ここで、20,000の関係オブジェクトが関係データベースからランダムに選ばれて、それが共有する関係の平均強度について分析されている。 心臓肥大の発症に対するクロルプロマジンの防護効果を示す図であり、ここで、心エコー図を用いて、治療(処置)の過程で互いに異なったいくつかの心臓構造物の重量と厚さの変化を推定した。 遺伝子ベータカテニンに関連するオブジェクトと、有効であると考えられる接続に対する観察の回数の最小数を可変させる効果とを示す図であり、時間に対して指数関数的に成長する接続の合計である。 遺伝子ベータカテニンに関連するオブジェクトと、有効であると考えられる接続に対する観察の回数の最小数を可変させる効果とを示す図であり、どれほど多くのオブジェクトが、任意の時点で暗示的にベータカテニンに関連していることが知られていたかを過去にさかのぼって見るものである。 時間に対するベータカテニンと暗示的に関連するオブジェクトの合計を示すグラフであり、「ベータカテニン」というキーワードでMEDLINEを探索することによって得られた1,270の要約のみ(1992〜2002年)を用いた一次的ドメイン分析を示すものである。 時間に対するベータカテニンと暗示的に関連するオブジェクトの合計を示すグラフであり、ベータカテニンに密接に関係するオブジェクトであるwntを伴う1,970のレコード(1989〜2002年)の追加である。 時間に対するベータカテニンと暗示的に関連するオブジェクトの合計を示すグラフであり、Wingless、アルファカテニン、アルマジロ、Nカドヘリン、Eカドヘリン、プラコグロビン、ウボモルビン及びp120というオブジェクトを含むベータカテニンと直接に関連する4,028の早期の(1993年以前)レコードをさらに追加するものである。 時間に対するベータカテニンと暗示的に関連するオブジェクトの合計を示すグラフであり、MeSHドメイン探索「マグネシウム」とキーワード「増加」から得られる9,490のレコードをさらに追加するものである。 本発明の1つの態様によるシステムによって実行されるナレッジ発見方法を示す。本発明のシステムは、NIDDM(黒色のノード)などの一次対象オブジェクトから始めて、直接的に既知である関係を表すMEDLINE内で観察される他のオブジェクト(灰色のノード)との全ての同時引用と同時発生とを識別する。次に、本発明のシステムは、これらのノードを全て、それが、一次オブジェクトと関係していることがわかっていない他の(白色のノード)オブジェクトとどのような関係にあるか検討し、暗示的に関係しているオブジェクトを識別する。一次オブジェクトと多くの関係を共有する暗示的に関係しているオブジェクト(たとえば、トップから3番目のノード)はさらに分析されるべき主要な候補と考えられる。 本発明によって、メチル化とNIDDM間の重要な共有関係を示すが、ここで二者間で合計で1,287の同時引用されたオブジェクトが識別され、その内、推定で959のオブジェクトが重要度のある(non-trivial nature)実際的な関係を表している。 シルデナフィル(Viagra(登録商標))に対する直接的な関係と暗示的な関係と本発明の1つの態様によるシステムによって決定されたスコアとの相関関係を示すグラフである。 オブジェクトクエリーと、その暗示的な関係、スコア及び他の分析を含む関係との表であり、ここで、略式に示されているものは次の通りである:「クエリーオブジェクト」とは暗示的な関係に関して問い合わされているオブジェクトのことであり、「共有関係」とはクエリーオブジェクトが暗示的オブジェクトと共有している関係の数のことであり、「暗示的な関係」とは共有されている中間的関係の集合を通じてクエリーオブジェクトと暗示的に関係しているオブジェクトのことであり、「タイプ」とはオブジェクトのタイプ(薬物、化合物、遺伝子、表現型など)のタイプのことであり、「品質」とは各々の関係が真実である全体的な統計確率に基づいて真実であると推定される共有関係の数のことであり、「AB_int_str」とはAとB間でマッチする関係の曲線下面積(AUC)で計算された統合強度のことである[すなわち、Aの持つ関係の全てのことであり、Bとマッチする関係の(全体の%としての)総合強度であり、全ての関係が完全にマッチすれば、強度は1であり、整合する関係の多くが弱ければ、この数値は小さくなる]、「BC_int_str」とはC及びBと同じであり、「Inp_int_str」とはAとBを接続する関係の内の最も弱い関係(暗示的強度)のことである、「Imp_Int_Ver」とは信憑性のスコアの曲線下面積のことであり、関係の重要度という点ではなく、真実である尤度の推定値という点での関係を測定する方法である、[Direct_Str]「直接強度」とは直接的な強度であって、MEDLINE内で見受けられる同時発生の数の関数であり、暗示的であればこれはブランクである、「期待」とはAの可能性とCの可能性間で我々がどれほど多くの関係を期待するかを示すものであり、「Obs/Exp」とは、スコア化に対するキーであり、品質の推定値を期待値で除算したものであり、「スコア」とは品質/期待値のことである。 本発明によるシステムで実行される情報抽出(IE)ステップを解説するフローチャートである。 図27−1から27−45は本発明の1つの態様によるシステムを用いるマイクロアレイ分析によって識別された関係を示す図である。

Claims (153)

  1. 1つ又はそれ以上の情報ドメインを含むデータソース、
    1つ又はそれ以上の情報ドメインからのオブジェクトを含むオブジェクト−関係データベース、及び
    2つ又はそれ以上の統合されたオブジェクトが識別され、検索され、グループ化され、ランク付けされ、フィルタリングされ、数値評価されるナレッジ発見エンジン、を備える
    1つ又はそれ以上のデータソースからデータをマイニングするシステム。
  2. 前記ソースが文字情報(textual information)を含む1つ又はそれ以上のデータベースである、請求項1に記載のシステム。
  3. 前記ソースが数値情報を含む1つ又はそれ以上のデータベースである、請求項1に記載のシステム。
  4. 前記2つ又はそれ以上のオブジェクト間の関係が直接的又は間接的であると識別される、請求項1に記載のシステム。
  5. 前記2つ又はそれ以上の統合されたオブジェクト間の関係が、直接的オブジェクト及び間接的オブジェクト間の関係の相対的強度に基づいてランク付けされる、請求項4に記載のシステム。
  6. 前記関係が、陽性(positive)、陰性(negative)、物理的及び論理的な関連性から成る群より選択されるカテゴリに設定される、請求項1に記載のシステム。
  7. 前記情報ドメインが、テキスト、記号、数値及びそれらの組み合わせを情報とするデータのパーセルを含む、請求項1に記載のシステム。
  8. 前記システムが少なくとも部分的に自動化されている、請求項1に記載のシステム。
  9. 前記ナレッジ発見エンジンが、語彙的処理によって2つ又はそれ以上の統合オブジェクトをフィルタリングする、請求項1に記載のシステム。
  10. 前記オブジェクト−関係データベース(ORD)が:
    1つ又はそれ以上のデータソースオブジェクトをコンパイルするステップ、
    前記データベースオブジェクトの同義語を追加するステップ、及び
    前記1つ又はそれ以上のデータソース中の情報をオブジェクト−関係データベース中にグループ化するステップ、を含む
    方法を用いて作成される、請求項1に記載のシステム。
  11. データソースからの語彙的異形のデータベースをさらに含む、請求項10に記載のシステム。
  12. 前記システムが、同義語を追加するために、前記語彙的異形のデータベースで前記オブジェクト−関係データベースを走査するプログラムをさらに含む、請求項11に記載のシステム。
  13. 前記システムが、前記オブジェクト−関係データベースにエラーがないかどうかチェックするプログラムを含む、請求項12に記載のシステム。
  14. 前記ORD作成方法が、各データベースに、固有の数値IDを割り当てて、最初に最も低いIDで非方向性関係をストアすることによって、処理効率を向上させるステップをさらに含む、請求項10に記載のシステム。
  15. 非構造化テキスト、構造化データ、リスト、表、句、パラグラフ、要約、プログラム、マニュアル、教科書、参考書、学術論文、実験ノート、手紙、メモ、eメール、目次、指標、雑誌、記事、科学文献、特許、特許出願、国際出願、Webページ、スプレッドシート、URL、又は関係データベース、及びこれらの組み合わせからオブジェクトが検索される、請求項1に記載のシステム。
  16. 前記オブジェクトが、遺伝子、タンパク質、化合物、小分子、薬物、疾病、臨床的表現型並びに、ChemID、MeSH、FDA、locuslink、GDB、HGNC、MeSH、Medline、Snowmed及びOMIMから成る群より選択される他の識別子、から成る群より選択される、請求項15に記載のシステム。
  17. 前記ORD作成方法が、一般語を選別・除去するステップをさらに含む請求項10に記載のシステム。
  18. 前記ORD作成方法が、語データベースをアクセスすることによって語の大文字化とパターンとを識別するステップをさらに含む請求項10に記載のシステム。
  19. 前記語彙的異形を構築するステップが、同義語データベースを用いるステップをさらに含む、請求項11に記載のシステム。
  20. 前記語彙的異形を構築するステップが、同義語分解アルゴリズムを用いるステップをさらに含む、請求項10に記載のシステム。
  21. 1つ又はそれ以上のオブジェクトを表示するグラフィカルユーザインタフェースをさらに含む、請求項1に記載のシステム。
  22. 前記インタフェースが制御部品を備え、この部品をクリックすると、前記ソースデータの文脈から誘導された統合オブジェクトを表示することが可能である、請求項21に記載のシステム。
  23. 前記オブジェクト−関係データベースの一部が:
    前記データソースからテキストのブロックを入力するステップ、
    前記ソースから情報を抽出して、レコード(記録)を作成するステップ、及び
    前記オブジェクト−関係データベース中の句と前記レコード中の語がマッチするように1つ又はそれ以上のアレイを作成するステップ、を含む
    方法を用いて構築される、請求項1に記載のシステム。
  24. 前記方法が、頭字語を分解するステップをさらに含む、請求項23に記載のシステム。
  25. 前記方法が、前記レコードを解析して文とし、各文を解析して語とするステップをさらに含む、請求項23又は24に記載のシステム。
  26. 前記情報がタイトル、要約、日付及びPMIDのフィールドを含む、請求項23に記載のシステム。
  27. 前記テキストのブロックが、リスト、表、句、パラグラフ、要約、プログラム、マニュアル、教科書、参考書、実験ノート、レター、メモ、eメール、目次、雑誌、記事、科学文献、特許、特許出願、国際出願、Webページ、スプレッドシート、URLもしくは関係データベース及びこれらの組み合わせからなる群より選択される、請求項22に記載のシステム。
  28. 前記テキストのブロックがPhysician’s Desk Reference(米国医師の処方医薬品情報事典)から選択される、請求項27に記載のシステム。
  29. 前記テキストのブロックには、前記情報のソースが、選択されたインパクトの判断基準による他の同様のソースよりも高いインパクトを有するものと考えられる場合に、より高い値が与えられる、請求項23に記載のシステム。
  30. 1つ又はそれ以上の情報ドメインを含むデータソースから形成された(generated)オブジェクト−関係データベース、及び
    データソース中のオブジェクト間の関係を識別するナレッジ発見エンジンであり、前記ナレッジ発見エンジンは前記データソース内のオブジェクトの1つ又はそれ以上の同時発生を識別して、前記オブジェクト間の暗示的関係を識別する、前記ナレッジ発見エンジン、を含む
    オブジェクトを関係付けるシステム。
  31. 前記ナレッジ発見エンジンが包括的な関係ネットワークを形成する(generate)請求項30に記載のシステム。
  32. 前記ナレッジ発見ネットワークが部分的な関係ネットワークを形成する請求項31に記載のシステム。
  33. 前記識別された関係がシステムデータベース中にストアされ、また、前記システムが、ユーザに前記暗示的関係に関する情報にアクセスすることを可能とするクエリーモジュールをさらに含む、請求項30に記載のシステム。
  34. 前記ナレッジ発見エンジンが、1つ又はそれ以上の統計的に境界付けされたネットワークモデルを用いて関係を評価する、請求項30に記載のシステム。
  35. 薬物に関連する情報を含む1つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベース、及び
    前記薬物のデータソース中の意味ある関係を認識するナレッジ発見エンジン、を含み、前記ナレッジ発見エンジンは、前記データソース内のオブジェクトの1つ又はそれ以上の同時発生と前記薬物とを識別し、前記オブジェクト−関係データベース中のオブジェクト間の関係と前記薬物の包括的ネットワークを形成し、少なくとも1つの関係が前記薬物の新しい指示(indication)を識別する、
    薬物の新しい指示を識別するシステム。
  36. 前記ナレッジ発見エンジンが、1つ又はそれ以上の統計的に境界付けされたネットワークモデルを用いて関係を評価する、請求項35に記載のシステム。
  37. 前記システムが、共有された暗示的関係を結果データベース中にさらにストアする、請求項35に記載のシステム。
  38. 薬物に関連する情報を含む1つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベース、及び
    前記オブジェクト関係データベース中の意味ある関係を認識するナレッジ発見エンジンとを含み、前記ナレッジ発見エンジンは、前記データソース内のオブジェクトの1つ又はそれ以上の同時発生と前記薬物とを識別し、オブジェクトと薬物の間に共有された暗示的関係を識別し、また、前記1つ又はそれ以上の関係が前記薬物の1つ又はそれ以上の禁忌及び/又は副作用を示す尤度を識別する、
    薬物の禁忌及び/又は副作用を識別するシステム。
  39. 前記ナレッジ発見エンジンが、前記データソース中のデータと前記薬物間の関係の包括的ネットワークを形成して、1つ又はそれ以上の統計的に境界付けされたネットワークモデルによって評価された前記共有された暗示的関係をストアする、請求項38に記載のシステム。
  40. 少なくとも2つ薬物に関連する情報を含む1つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベース、及び
    前記オブジェクト関係データベース中の意味ある関係を認識するナレッジ発見エンジンとを含み、前記ナレッジ発見エンジンは、前記データソース内のオブジェクトの1つ又はそれ以上の同時発生と薬物とを識別し、オブジェクトと薬物の間に共有された暗示的関係を識別し、また、前記1つ又はそれ以上のオブジェクトの前記少なくとも2つの薬物、2つの遺伝子又は薬物と遺伝子、すなわち、他の値関係でもありえるが、との同時発生が前記少なくとも2つの薬物間の相互作用を示す尤度を識別する、
    少なくとも2つの薬物間の相互作用を識別するシステム。
  41. 前記ナレッジ発見エンジンが、前記データソース中の関係と前記薬物との包括的ネットワークを形成して、1つ又はそれ以上の統計的に境界付けされたネットワークモデルによって評価された前記共有された暗示的関係をストアする、請求項40に記載のシステム。
  42. 疾病及び化合物又は生体分子に関連する情報を含む1つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベース、及び
    前記疾病のデータベース中の意味ある関係を認識するナレッジ発見エンジン、を含み、前記ナレッジ発見エンジンは、前記データソース内でのオブジェクト、すなわち前記疾病及び/又は化合物又は生体分子の1つ又はそれ以上の同時発生を識別し、また、前記化合物又は生体分子と前記疾病間の共有された暗示的関係を識別する、
    化合物又は生体分子と疾病間との関係を識別するシステム。
  43. 前記ナレッジ発見エンジンが、前記オブジェクト−関係データベース中のデータと前記疾病との間の関係の包括的ネットワークを形成し、1つ又はそれ以上の統計的に境界付けされたネットワークモデルによって評価された前記共有された暗示的関係をストアする、請求項42に記載のシステム。
  44. 前記生体分子が核酸又はタンパク質である、請求項42に記載のシステム。
  45. 印刷された情報を走査して、前記印刷された情報からデータソースを形成するスキャナを含む走査モジュールをさらに含む、請求項1、30、35、38、40又は42に記載のシステム。
  46. 前記システムが前記ナレッジエンジンの機能を実行するプロセッサを含む、請求項1、30、35、38、40又は42に記載のシステム。
  47. 前記オブジェクト−関係データベースをストアするコンピュータ読み取り可能媒体をさらに含む、請求項46に記載のシステム。
  48. 前記システムの少なくとも2つの機能が、前記ネットワークに接続可能なサーバと少なくとも1つのクライアントコンピュータに分散されるクライアント/サーバアーキテクチャをさらに含む、請求項47に記載のシステム。
  49. 前記システムが1つ又はそれ以上のデータソースにアクセスするプログラムを含む、請求項48に記載のシステム。
  50. 前記オブジェクト関係データベースが動的であり、また、前記1つ又はそれ以上のデータソースからの新しいオブジェクトを前記データベースに追加する、請求項48に記載のシステム。
  51. 前記システムが、新しいオブジェクトが前記1つ又はそれ以上のデータソースから追加されたときにオブジェクトネットワークを再計算する、請求項50に記載のシステム。
  52. 前記システムが、再計算結果を監視するエンジンをさらに含み、また、前記システムがオブジェクト間の関係を再評価する、請求項51に記載のシステム。
  53. 前記データベースが前記少なくとも1つのクライアントコンピュータにダウンロード可能である、請求項48に記載のシステム。
  54. 前記データベース(ネットワーク)が前記サーバコンピュータのメモリ中にストアされ、また、前記少なくとも1つのクライアントが前記データベースに対して前記サーバと通信することによってアクセスすることが可能である、請求項48に記載のシステム。
  55. 前記システムが結果と分析のデータベースをさらに含み、前記結果と分析のデータベースがオブジェクトの関係に関するクエリー(問い合わせ)と前記クエリーの結果とに関連する情報を含む、請求項1、30、35、38、40又は42に記載のシステム。
  56. 前記結果と分析のデータベースが、前記結果の解釈に関連する情報を含むレコード(記録)をさらに含む、請求項55に記載のシステム。
  57. 前記結果と分析のデータベースが、前記結果を確認するデータをさらに含む、請求項55に記載のシステム。
  58. 前記システムが、関係をランク付けする命令を含むコンピュータコードを実行するアプリケーションプログラムをさらに含む、請求項1、30、35、38、40又は42に記載のシステム。
  59. 前記コンピュータコードが、個々のランク付け因子の線形又は非線形のグルーピングをシステムプロセッサに形成させる命令を含む、請求項58に記載のシステム。
  60. 各個々のランク付け因子が各項目を重み付けする係数と関連する、請求項59に記載のシステム。
  61. 重みが、次の因子、すなわち、前記データソースのソースと、前記データソースが公開された日付と、オブジェクトの同時発生期待頻度に対するオブジェクトの同時発生観察頻度の比と、前記データソースと関連する著者の名称と、前記データソースと関連する機関の名称と、別のデータソース中でのオブジェクトの同時発生頻度との内の1つ又はそれ以上によって決定される、請求項60に記載のシステム。
  62. データソースを得る又はこれにアクセスするステップ、
    前記データソースデータからのオブジェクトを含むオブジェクト−関係データベースを形成するステップ、及び
    前記オブジェクト−関係データベース中の直接的関係と暗示的関係との強度を識別するステップを含む、1つ又はそれ以上のナレッジドメインを含む、データソースからデータをマイニングする方法。
  63. 前記データソースソース中のデータを前記データソース中のオブジェクトの同時発生がないかどうか探索し、前記データソースからオブジェクトを検索して、前記同時発生に基づいて前記オブジェクト−関係データベース中にストアするようにする、請求項62に記載の方法。
  64. 前記データが、非構造化テキスト、構造化データ、リスト、表、句、パラグラフ、要約、プログラム、マニュアル、教科書、参考書、学術論文、実験ノート、レター、メモ、eメール、目次、指標、雑誌、記事、科学文献、特許、特許出願、国際出願、Webページ、スプレッドシート、URLもしくは関係データベース及びこれらの組み合わせからなる群より選択される、請求項61に記載の方法。
  65. 関係がその強度によってランク付けされる、請求項63に記載の方法。
  66. 強度が、次の因子、すなわち、前記データソースのソースと、前記データソースが公開された日付と、オブジェクトの同時発生期待頻度に対するオブジェクトの同時発生観察頻度の比と、前記データソースと関連する著者の名称と、前記データソースと関連する機関の名称と、別のデータソース中でのオブジェクトの同時発生頻度との内の1つ又はそれ以上によって決定される、請求項63に記載の方法。
  67. 1つ又はそれ以上のデータソースを含むデータソースから形成されたオブジェクト−関係データベースを形成する又は前記オブジェクト−関係データベースにアクセスするステップ、
    オブジェクト間の暗示的関係を、ナレッジ発見エンジンを用いて識別するステップ、及び
    前記関係の強度を判定するステップを含む、
    オブジェクトを関係付ける方法。
  68. 前記データソース内のオブジェクトの同時発生頻度が判定される、請求項61に記載の方法。
  69. 前記ナレッジ発見エンジンが、暗示的関係を識別するために関係の包括的ネットワークを形成する、請求項61に記載の方法。
  70. 前記関係の強度が1つ又はそれ以上の統計的に境界付けされたネットワークモデルを用いて評価される、請求項67に記載の方法。
  71. 薬物に関連する情報を含むデータソースから形成されたオブジェクト−関係データベースを得る又はこれにアクセスするステップ、及び
    前記データソースからのオブジェクトの1つ又はそれ以上の同時発生を識別し、前記オブジェクト−関係データベース中のオブジェクト間の関係と前記薬物との包括的ネットワークを形成して、前記オブジェクトと前記薬物間の暗示的関係を識別することによって、意味ある関係を認識するナレッジ発見エンジンで前記オブジェクト−関係データベース中の情報の処理し、少なくとも1つの関係が前記薬物の新しい指示を識別するステップ、を含む
    薬物の新しい指示を識別する方法。
  72. 1つ又はそれ以上の統計的に境界付けされたネットワークモデルによって評価された共有関係をストアするステップをさらに含む、請求項71に記載の方法。
  73. 薬物に関連する情報を含む1つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベースを得る又はこれにアクセスするステップ、及び
    前記オブジェクト−関係データベース中の情報を、前記オブジェクト−関係データベース中の意味ある関係を認識するナレッジ発見エンジンで処理するステップ、とを含み、前記ナレッジ発見エンジンはデータソース内のオブジェクトの1つ又はそれ以上の同時発生と薬物とを識別し、オブジェクトと前記薬物間の共有された暗示的関係を識別し、また、前記1つ又はそれ以上の関係が前記薬物の1つ又はそれ以上の禁忌及び/又は副作用を示す尤度を識別する、
    薬物の禁忌又は副作用を識別する方法。
  74. 少なくとも2つの薬物に関連する情報を含む1つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベースを得る又はこれにアクセスするステップ、及び
    前記オブジェクト−関係データベース中の情報を、前記オブジェクト−関係データベース中の意味ある関係を認識するナレッジ発見エンジンで処理するステップ、とを含み、前記ナレッジ発見エンジンは前記データソース内のオブジェクトの1つ又はそれ以上の同時発生と薬物とを識別し、オブジェクトと前記薬物間の共有された暗示的関係を識別し、また、前記1つ又はそれ以上のオブジェクトと前記少なくとも2つの薬物との同時発生が、前記2つ又はそれ以上の薬物間の相互作用を示す尤度を識別する、
    少なくとも2つの薬物間の相互作用を識別する方法。
  75. 1つ又はそれ以上の情報ドメインを含むデータソースから形成されたオブジェクト−関係データベースを得るステップ、及び
    前記オブジェクト−関係データベース中の情報をナレッジ発見エンジンで処理するステップとを含み、前記ナレッジ発見エンジンは、前記データソース内でのオブジェクト、疾病及び/又は化合物又は生体分子の1つ又はそれ以上の同時発生を識別し、化合物又は生体分子と疾病間の共有された暗示的関係を識別する、
    化合物又は生体分子と疾病との間の関係を識別する方法。
  76. 1つ又はそれ以上のデータソースから1つ又はそれ以上のオブジェクトをコンパイルするステップ、
    前記1つ又はそれ以上のデータソース中の情報をオブジェクト−関係データベース中にグループ化するステップ、
    1つ又はそれ以上のデータソースから語彙的異形のデータベースを構築するステップ、
    前記語彙的異形のデータベースを前記オブジェクト−関係データベース中のオブジェクトと比較するステップ、
    前記語彙的異形データベースで前記オブジェクト−関係データベースを走査して、同義語を追加するステップ、
    各オブジェクトに固有の数値IDを割り当てて、非方向性関係を最初に最も低いIDでストアするステップ、及び
    前記オブジェクト−関係データベースをエラーがないかどうかチェックするステップ、を含む
    オブジェクト−関係データベース(ORD)を作成する方法。
  77. データベースオブジェクトをコンパイルするために用いられるデータソースが、化合物、小分子、疾病、表現型、遺伝子、タンパク質、臨床データ、薬物、ChemIDからの識別子、MeSHからの識別子、FDAからの識別子、locuslinkからの識別子、GDBからの識別子、HGNCからの識別子、MeSHからの識別子、OMIMからの識別子から成る群より選択される、請求項76に記載の方法。
  78. データベースオブジェクトをコンパイルするデータソースが、リスト、表、句、パラグラフ、要約、プログラム、マニュアル、教科書、参考書、実験ノート、レター、メモ、eメール、目次、雑誌、記事、科学文献、特許、特許出願、国際出願、Webページ、スプレッドシート、URLもしくは関係データベース及びこれらの組み合わせを含む、請求項76に記載の方法。
  79. 1つ又はそれ以上のデータソース又は1つ又はそれ以上のデータソースの部分を走査して、新しいオブジェクトを抽出する、請求項76に記載の方法。
  80. 前記抽出ステップが、1つ又はそれ以上のデータソース又はその部分からデータの文脈中のオブジェクトを選択して、前記オブジェクトが前記オブジェクト−関係データベース中に含まれているか判定するステップを含む、請求項76に記載の方法。
  81. オブジェクトが含まれていなかった場合、それは前記オブジェクト−関係データベース中にストアされる、請求項80に記載の方法。
  82. オブジェクトが前記オブジェクト−関係データベース中に含まれているかどうかに関する情報が、グラフィカルユーザインタフェースに表示される、請求項80に記載の方法。
  83. 前記走査され選択されたデータもまた前記グラフィカルユーザインタフェース上に表示される、請求項82に記載の方法。
  84. 前記オブジェクト関係データベース中のオブジェクトがテキスト、数字又は記号である、請求項76に記載の方法。
  85. 語データベースを用いて前記オブジェクト関係データベースをフィルタリングして、曖昧な頭字語を除去するステップをさらに含む、請求項76に記載の方法。
  86. 同義語データベースを用いて語彙的異形を識別するステップをさらに含む、請求項76に記載の方法。
  87. 頭字語分解アルゴリズムを用いて語彙的異形を識別するステップをさらに含む、請求項76又は85に記載の方法。
  88. 前記意データベース中のデータのソースからのテキストの文脈中のオブジェクトを提供するステップをさらに含む請求項76に記載の方法。
  89. 前記データソース中の冗長度を減少させるステップをさらに含む、請求項76に記載の方法。
  90. 前記冗長度を減少させる方法が:
    ソースからテキストのブロックを入力するステップ、
    前記ソースから情報を抽出して、レコード(記録)を作成するステップ、
    前記レコードを解析して文とし、各文を解析して語とするステップ、
    前記オブジェクト−関係データベース中の句と語がマッチするように1つ又はそれ以上のアレイを作成するステップ、
    頭字語にフラグ付けするステップ、及び
    前記頭字語を前記語彙的異形データベースにストアするステップとを含む、
    請求項89に記載の方法。
  91. データソースから1つ又はそれ以上の主題のクラスタを識別するステップ、
    1つ又はそれ以上の主題のクラスタからオブジェクトのデータベースをコンパイルするステップ、
    前記オブジェクトのデータベースを純化して冗長度を減少させるステップ、
    前記データソースからの主題の集合を、同時発生するオブジェクトがないか走査するステップ、
    同時発生オブジェクトを関係として識別するステップ、
    前記識別された関係を分析して、1つ又はそれ以上のオブジェクトに対する統計的関与度を求めるステップ、
    1つ又はそれ以上の関係データベースを作成するステップ、及び
    前記関係と前記関係データベースをストアするステップを含む、
    新規な相互関連関係を識別する方法。
  92. 前記オブジェクトのデータベースをコンパイルするステップが:
    一緒にグループ化される所定のフィールドを作成するステップ、
    類似の情報グループを収容するデータベースを識別するステップ、
    データベースエントリを事前定義されたフォーマットに前処理するステップ、
    前記エントリを分解するステップ、及び
    エラーがあるかどうかチェックして、事前選択された判断基準に基づいて興味のないエントリを除去するステップ、をさらに含む
    請求項91に記載の方法。
  93. 前記オブジェクトのデータベースを純化するステップが、語彙的異形の語データベースを用いて曖昧な頭字語にフラグ付けするステップをさらに含む、請求項91に記載の方法。
  94. 前記オブジェクトのデータベースを純化するステップが、同時発生オブジェクトがないかソースを走査して、冗長度を軽減させて関係を作成するステップをさらに含み:
    前記ソースからテキストのブロックを入力するステップ、
    前記テキストブロックからデータを抽出するステップ、
    前記データを解析して文とするステップ、
    各文を解析して語とするステップ、
    前記語を1つ又はそれ以上のアレイ中に入れるステップ、
    どのアレイからの語ともマッチするように前記オブジェクトデータベースをマッチさせるステップ、及び
    前記オブジェクトデータベースと前記アレイからの語とがマッチするか判定するステップ、を含む
    請求項91に記載の方法。
  95. 前記関係データベース内の関係を識別するステップが:
    各オブジェクトに固有の数値IDを割り当てるステップ、及び
    最初に最も低いIDで非方向性関係をストアするステップ を含む、
    請求項94に記載の方法。
  96. 前記関係データベース内の関係を識別するステップが:
    ユーザが1つ又はそれ以上のオブジェクトリストを分析目的で入力した後で共有関係を識別するステップ、
    オブジェクト毎に前記1つ又はそれ以上のリストからの全ての関係を1つのリストにコンパイルするステップ、
    関係するオブジェクトを頻度でカウントするステップ、及び
    期待値を計算するステップを含む、
    請求項94に記載の方法。
  97. 可能な全接続のx%未満又は観察/期待比のy%未満の共有オブジェクトを除外するステップ、
    共有関係毎に暗示的に関係しているオブジェクトを識別するステップ、及び
    暗示的に関係しているオブジェクトに、直接的な観察/期待比に前記暗示的オブジェクトに至る固有経路の数を乗算することによってスコア化するステップをさらに含む、
    請求項85に記載の方法。
  98. 前記ユーザが前記可能な接続の合計のx%を可変させて、前記暗示的関係のスコアを可変させる、請求項97に記載の方法。
  99. 前記ユーザが前記観察/期待比のy%を可変させて、前記暗示的関係のスコアを可変させる、請求項97に記載の方法。
  100. 前記相互関連関係は、薬物、化合物、小分子、表現型、疾病、遺伝子、遺伝子型及びこれらの組み合わせの間の関係である、請求項97に記載の方法。
  101. 1つ又はそれ以上の第1、第2及び第3のオブジェクト間の関連強度ベクトルを計算するステップ、
    前記第1、第2及び第3のオブジェクトの1つ又はそれ以上のオブジェクトに対するソースインパクトのスコアのデータソースからソースインパクトのスコアを得るステップ、及び
    前記強度ベクトルに、前記第1、第2及び第3のオブジェクトの1つ又はそれ以上のオブジェクトのソースインパクトスコアを乗算するステップ、を含む
    1つ又はそれ以上のオブジェクト間の直接的関係を評価する方法。
  102. 前記ソースインパクトのスコアが、前記1つ又はそれ以上のオブジェクトがそれから得られた出版物に基づいている、請求項101に記載の方法。
  103. 前記ソースインパクトのスコアが、前記1つ又はそれ以上のオブジェクトのソースが他のソースによって引用された回数に基づいている、請求項101に記載の方法。
  104. 前記ソースインパクトのスコアが、前記1つ又はそれ以上のオブジェクトのソースが学術論文によって引用された回数に基づいている、請求項101に記載の方法。
  105. 前記ソースインパクトのスコアが、前記1つ又はそれ以上のオブジェクトのソースが1つ又はそれ以上の教科書中で引用された回数に基づいている、請求項101に記載の方法。
  106. 前記ソースインパクトのスコアが、前記1つ又はそれ以上のオブジェクトが総説中で引用された回数に基づいている、請求項101に記載の方法。
  107. 前記ソースインパクトのスコアが、その重要度と関与度の推定値に基づいている、請求項101に記載の方法。
  108. 前記ソースインパクトのスコアはその値として、前記1つ又はそれ以上のオブジェクトのソースがピアレビュージャーナルで刊行された回数に基づいたスコアを与えられる、請求項101に記載の方法。
  109. インパクトのスコアが高ければ重要度と関与度も高いことを含意する、請求項101に記載の方法。
  110. 1つ又はそれ以上の情報ドメインを含むデータのソースを含むようになっているコードセグメント、
    オブジェクト−関係データベースを維持するようになっているコードセグメント、及び
    2つ又はそれ以上のオブジェクト間で関係が探索され、グループ化され、ランク付けされ、フィルタリングされ、検索されるナレッジ発見エンジンを含むようになっているコードセグメント、を含む
    情報ドメインにアクセスするコンピュータ読み取り可能媒体上に実現されたコンピュータプログラム。
  111. 1つ又はそれ以上のデータベースオブジェクトをコンパイルするようになっているコードセグメント、
    前記1つ又はそれ以上のデータベースオブジェクト中の情報をオブジェクト−関係データベース中にグループ化するようになっているコードセグメント、
    1つ又はそれ以上のデータベースから語彙的異形のデータベースを構築するようになっているコードセグメント、
    前記語彙的異形のデータベースで前記オブジェクト−関係データベースを走査して、同義語を追加するようになっているコードセグメント、及び
    各オブジェクトに固有の数値IDを割り当てて、最初に最も低いIDで非方向性関係をストアするようになっているコードセグメント、及び
    前記オブジェクト−関係データベースをエラーがないかどうかチェックするようになっているコードセグメント、を含む
    オブジェクト−関係データベース(ORD)を作成するコンピュータ読み取り可能媒体上に実現されるコンピュータプログラム。
  112. 1つ又はそれ以上の情報ドメインを含むデータのソースにアクセスするステップ、
    前記情報ドメインをオブジェクト−関係データベース中にコンパイルして、前記1つ又はそれ以上の情報ドメインからのオブジェクトを統合するステップ、及び
    2つ又はそれ以上の統合オブジェクト間の関係が識別され、検索され、グループ化され、ランク付けされ、フィルタリングされ、数値評価される、ナレッジ発見エンジンを用いるステップ、を含む
    方法によって形成される
    新しい薬物療法のための複数の候補化合物を含むデータ構造。
  113. 1つ又はそれ以上の情報データベースを含むデータソースから生成されたオブジェクト−関係データベースを得るステップ、並びに
    データソースからの意味ある関係を識別するために、ナレッジ発見エンジンを用いて1つ又はそれ以上のオブジェクトを処理するステップであり、そのステップが、
    データソースからのオブジェクトの1つ又はそれ以上の同時発生を識別して、関係の包括的ネットワークを生成するステップ、及び
    1つ又はそれ以上の統計的境界付けされたネットワークモデルによって評価された共有関係をストアし、共有関係上で問い合わせ(クエリー)が行われ、関係の包括的ネットワークから新規の関係を識別するステップ、を含む方法によって生成された
    評価のための複数の候補化合物を含むデータ構造。
  114. 化合物に関連する情報を含む1つ又はそれ以上の情報ドメインを含むデータソースから生成されたオブジェクト−関係データベースを得るステップ、及び
    データベース中でのオブジェクトの1つ又はそれ以上の同時発生を識別することによって薬物と1つ又はそれ以上のオブジェクト間の意味ある関係を認識するナレッジ発見エンジンを用いて前記データソース中の情報を処理し、関係の包括的ネットワークを生成し、1つ又はそれ以上の統計的境界付けされたネットワークモデルによって評価された共有関係をストアするステップ、を含む
    化合物の以前には未確認の用途を識別するシステム。
  115. 心臓肥大の治療を必要とする患者を識別するステップ、及び
    心臓肥大という用語を含むとクエリーを用いて、請求項1に記載のシステムを用いて識別された化合物の薬学的に効果のある分量を前記患者に提供するステップを含む、
    心臓肥大を治療する方法。
  116. クロルプロマジンの薬学的に効果のある分量を、治療を必要とする患者に提供するステップを含む、心臓肥大を治療する方法。
  117. クロルプロマジンの薬学的に効果のある分量を、治療を必要とする患者に提供するステップを含む、心臓肥大を治療する方法。
  118. ナロキソン、ナルトレキソン、トリオドシロニン、クロニジン、エストロゲン、タモキシフェン、コルヒチン、ブラジキニン、オマパトリラート(Omapatrilat)、アプスタチン(Apstatin)、COX−2選択性抑制剤、5−LOX抑制剤、トロンボキサンA2レセプター拮抗薬、メラトニン、モルフィネ、ワルファリン/ヘパリン、コルチゾール及びメチオニンから成る群より選択される化合物から(組み合わせ療法で用いられる化合物のグループに対する別の請求項を構成する)の薬学的に効果のある分量を、治療を必要としている患者に与えるステップを含む、心臓肥大を治療する方法。
  119. NIDDMの治療を必要とする患者を識別するステップ、及び
    請求項1に記載のシステムを用いて識別された化合物の薬学的に効果的な分量を前記患者に与えるステップを含む、
    インシュリン非依存性糖尿病(NIDDM)を治療する方法。
  120. NIDDMの治療を必要とする患者に、細胞核酸のメチル化を促進する化合物の薬学的に効果的な分量を投与するステップを含む、インシュリン非依存性糖尿病(NIDDM)を治療する方法。
  121. NIDDMの治療を必要とする患者に、DNAメチル化前駆体の薬学的に効果的な分量を投与するステップを含む、インシュリン非依存性糖尿病(NIDDM)を治療する方法。
  122. DNAメチル化のレベルを正常化する効果のある分量の1つ又はそれ以上のDNAメチル化前駆体を含む、インシュリン非依存性糖尿病(NIDDM)の危険がある個人用の栄養補給剤。
  123. 偏頭痛治療を必要とする患者を識別して、前記患者にシルデナフィルの薬学的に効果のある分量を与えるステップを含む偏頭痛治療方法。
  124. 筋肉痙攣治療を必要とする患者を識別するステップ、及び
    前記患者にシルデナフィルの薬学的に効果のある分量を与えるステップを含む、
    筋肉痙攣を治療する方法。
  125. オブジェクト関係データベースが、核酸、タンパク質配列又はこのような配列の識別子であるオブジェクトを含む請求項1に記載のシステム、及び
    オブジェクト間の関係に基づいて核酸配列と、核酸及び/又はタンパク質配列及び/又はこのような配列の識別子に対応する遺伝子とを、ナレッジエンジンを用いて選択して、DNAオンチップアセンブリ装置に対して、前記選択された核酸配列をソリッドサポート上で固定化する命令を与えるオリゴヌクレオチド選択モジュール、を含む
    自動的選別システム。
  126. 前記命令が前記システムのユーザを介して前記装置に提供される、請求項124に記載のシステム。
  127. 前記核酸配列がNIDDMと相互関連性を有するものと前記システムによって識別された、請求項124に記載のシステム。
  128. 情報ドメイン中の1つ又はそれ以上の主題の集合内のオブジェクトの1つ又はそれ以上の同時発生を識別するステップ、及び
    前記オブジェクトの1つ又はそれ以上の同時発生が1つ又はそれ以上の主題の集合内の意味ある関係を表している確率を評価するステップと;
    を含む、請求項1に記載のシステムを用いて識別された各関係に重要度を数値的に割り当てる方法。
  129. 前記重要度が、2つのオブジェクトが前記情報ドメイン中の主題の集合内で同時言及される回数の関数である、請求項127に記載の方法。
  130. 前記重要度が、2つのオブジェクト間の文字情報距離の関数である、請求項127に記載の方法。
  131. 前記重要度が前記主題の集合の外部尺度であり、前記外部尺度が重要度、関与度及び品質から成る群より選択される、請求項127に記載の方法。
  132. 前記重要度が、時間の経過による1つ又はそれ以上の同時発生パターンの評価を含む、請求項127に記載の方法。
  133. 自然言語処理エンジンを用いて、オブジェクトの1つ又はそれ以上の同時発生を識別する、請求項127に記載の方法。
  134. 前記主題の集合内の文脈情報を用いて重要度を割り当てる、請求項127に記載の方法。
  135. 前記テキストの主題の単位内の文脈情報を用いて関係に性質を割り当てる、請求項133に記載の方法。
  136. 重要度が信憑性である、請求項127に記載の方法。
  137. 1つ又はそれ以上のクエリーオブジェクトに直接的に関係している1つ又はそれ以上のオブジェクトを直接関係しているオブジェクトの集合として識別するステップ、
    前記の直接関係しているオブジェクトの集合に関係している1つ又はそれ以上のオブジェクトを暗示的に関係しているオブジェクトの集合として識別するステップ、及び
    暗示的に関係している各オブジェクトを定量的に評価して、それが前記クエリーオブジェクトと意味ある関係を共有する確率を、重要度スコアと信憑性スコアを誘導することによって決定するステップ、を含む
    暗示的関係を識別する方法。
  138. 定量的評価が、統計的に類似の関係が偶然観察される確率をさらに含む、請求項136に記載の方法。
  139. 次の式(6):
    Figure 2006503351
    が用いられる、請求項136に記載の方法。
  140. オブジェクトの集合を列挙するステップ、
    前記集合に関係しているすべての新しいオブジェクトをデータソースから識別するステップ、及び
    前記新しいオブジェクトが前記集合に関係している統計的有意性を定量的に評価するステップ、を含む
    複数のオブジェクトを含む集合中の1つ又はそれ以上のオブジェクトによって共有される関係を識別する方法。
  141. 他のオブジェクトを前記集合にリンクするオブジェクトが識別され、前記集合に対して共通な1つ又はそれ以上の関係を識別するために用いられる、請求項139に記載の方法。
  142. 前記集合中の1つ又はそれ以上の主題のグルーピングが識別されて、ランダムグルーピングとはその結束性に基づいて区別される、請求項139に記載の方法。
  143. 前記統計的優位性が選択された値を満たせば、前記新しいオブジェクトが前記集合に追加される、請求項139に記載の方法。
  144. 少なくとも1つのオブジェクトが、マイクロアレイ上に配列された生体分子、アレイに結合する生体分子、遺伝子、生体分子の発現値、表現型、疾病、小分子、化合物、代謝体、薬物、治療剤、候補遺伝子、発現された配列及びこれらの組み合わせに対応する、請求項139に記載の方法。
  145. 前記発現値が0又は1であり、0は発現されていなくて1は発現されていることを示す、請求項143に記載の方法。
  146. 前記発現値が発現の定量的尺度を含む、請求項143に記載の方法。
  147. 前記集合が発現値を含むオブジェクトを含み、前記新しいオブジェクトが発現値を含む、請求項143に記載の方法。
  148. 前記新しいオブジェクトの発現値を評価して、前記集合の既知のオブジェクトに対するその関係を判定する、請求項146に記載の方法。
  149. 前記新しいオブジェクトが前記集合と意味ある関係を共有する確率の定量的評価が、重要度スコアと信憑性スコアを誘導することによって判定される、請求項139に記載の方法。
  150. 定量的評価が、統計的に類似の関係が偶然観察されえる確率をさらに含む、請求項139に記載の方法。
  151. 図25に記載されているような暗示的関係を含むデータ構造。
  152. 請求項1、30、35、38、40又は42及び124の何れかに記載のシステムの機能を実行するプログラムコードを含むコンピュータ読み取り可能媒体上にストアされるコンピュータプロクラムプロダクツ。
  153. 前記薬物がシルデナフィルである、請求項71に記載の方法。
JP2004537843A 2002-09-20 2003-09-19 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法 Pending JP2006503351A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US41239802P 2002-09-20 2002-09-20
PCT/US2003/029042 WO2004027706A1 (en) 2002-09-20 2003-09-19 Computer program products, systems and methods for information discovery and relational analyses

Publications (2)

Publication Number Publication Date
JP2006503351A true JP2006503351A (ja) 2006-01-26
JP2006503351A5 JP2006503351A5 (ja) 2006-11-09

Family

ID=32030859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004537843A Pending JP2006503351A (ja) 2002-09-20 2003-09-19 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法

Country Status (7)

Country Link
US (1) US20040093331A1 (ja)
EP (1) EP1547009A1 (ja)
JP (1) JP2006503351A (ja)
CN (1) CN1701343A (ja)
AU (1) AU2003270678A1 (ja)
CA (1) CA2499513A1 (ja)
WO (1) WO2004027706A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193399A (ja) * 2006-01-17 2007-08-02 Konica Minolta Medical & Graphic Inc 情報提示システム、及びプログラム
WO2016006042A1 (ja) * 2014-07-08 2016-01-14 株式会社Ubic データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
JP2016521398A (ja) * 2013-03-15 2016-07-21 ベウラワークス,エルエルシー. ナリッジ取込および発見システム
JP2016139226A (ja) * 2015-01-27 2016-08-04 株式会社日立製作所 情報処理装置、情報処理システム、情報処理プログラム
JP6088091B1 (ja) * 2016-05-20 2017-03-01 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
JP2019530477A (ja) * 2016-09-26 2019-10-24 プレシジョン・メディスン・ホールディングス・プロプライエタリー・リミテッド 精神分裂病および分裂情動性精神病の診断、予後、および処置
KR20210012606A (ko) * 2019-07-26 2021-02-03 주식회사 꿀비 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체

Families Citing this family (245)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7054758B2 (en) * 2001-01-30 2006-05-30 Sciona Limited Computer-assisted means for assessing lifestyle risk factors
US7043415B1 (en) * 2001-01-31 2006-05-09 Pharsight Corporation Interactive graphical environment for drug model generation
US7155668B2 (en) 2001-04-19 2006-12-26 International Business Machines Corporation Method and system for identifying relationships between text documents and structured variables pertaining to the text documents
KR100636909B1 (ko) * 2002-11-14 2006-10-19 엘지전자 주식회사 확장성 표기 언어 기반의 전자문서 버전 매김 및 버전을이용한 갱신 문서 제공 방법
WO2004057646A2 (en) * 2002-12-20 2004-07-08 Koninklijke Philips Electronics N.V. Halogen incandescent lamp
US20040267566A1 (en) * 2003-01-10 2004-12-30 Badgett Robert Gwathmey Computer-based clinical knowledge system
US7941453B1 (en) 2003-05-09 2011-05-10 Vignette Software Llc Method and system for deployment of content using proxy objects
US8538704B2 (en) * 2003-10-06 2013-09-17 Cerner Innovation, Inc. Computerized method and system for inferring genetic findings for a patient
US8639520B2 (en) * 2003-10-06 2014-01-28 Cerner Innovations, Inc. System and method for creating a visualization indicating relationships and relevance to an entity
US20050079511A1 (en) * 2003-10-14 2005-04-14 Pharsight Corporation Drug model explorer
US7359898B1 (en) * 2004-02-26 2008-04-15 Yahoo! Inc. Scoring mechanism selection along multiple dimensions
US7870039B1 (en) 2004-02-27 2011-01-11 Yahoo! Inc. Automatic product categorization
JP2005352878A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 文書検索システム、検索サーバ、及び検索クライアント
US7809536B1 (en) * 2004-09-30 2010-10-05 Motive, Inc. Model-building interface
JP4312143B2 (ja) * 2004-10-29 2009-08-12 富士通株式会社 ルール発見プログラム、ルール発見方法およびルール発見装置
US9015263B2 (en) 2004-10-29 2015-04-21 Go Daddy Operating Company, LLC Domain name searching with reputation rating
US20060095469A1 (en) * 2004-11-01 2006-05-04 Willy Jeffrey H System and method for facilitating peer review of a deliverable
US7440967B2 (en) * 2004-11-10 2008-10-21 Xerox Corporation System and method for transforming legacy documents into XML documents
JP4583911B2 (ja) * 2004-12-22 2010-11-17 株式会社日立製作所 薬品の安全性確認支援方法、安全性確認支援システム、およびプログラム
EP1684192A1 (en) * 2005-01-25 2006-07-26 Ontoprise GmbH Integration platform for heterogeneous information sources
ATE510259T1 (de) * 2005-01-31 2011-06-15 Ontoprise Gmbh Abbilden von web-diensten auf ontologien
JP4321466B2 (ja) * 2005-03-18 2009-08-26 コニカミノルタビジネステクノロジーズ株式会社 文書管理装置及び文書管理プログラム
JP2008537821A (ja) * 2005-03-31 2008-09-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 生体分子及び疾患の間の関係に関する証拠を収集するシステム及び方法
US20060230019A1 (en) * 2005-04-08 2006-10-12 International Business Machines Corporation System and method to optimize database access by synchronizing state based on data access patterns
US9792351B2 (en) * 2005-06-10 2017-10-17 International Business Machines Corporation Tolerant and extensible discovery of relationships in data using structural information and data analysis
US7587395B2 (en) * 2005-07-27 2009-09-08 John Harney System and method for providing profile matching with an unstructured document
US20080261820A1 (en) * 2005-08-01 2008-10-23 Mount Sinai School Of Medicine Of New York University Methods to Analyze Biological Networks
WO2007028134A2 (en) * 2005-09-02 2007-03-08 Metallect Corporation System and method for integrating and adopting a service-oriented architecture
US20070067320A1 (en) * 2005-09-20 2007-03-22 International Business Machines Corporation Detecting relationships in unstructured text
US7562074B2 (en) * 2005-09-28 2009-07-14 Epacris Inc. Search engine determining results based on probabilistic scoring of relevance
US7792814B2 (en) * 2005-09-30 2010-09-07 Sap, Ag Apparatus and method for parsing unstructured data
US9495349B2 (en) 2005-11-17 2016-11-15 International Business Machines Corporation System and method for using text analytics to identify a set of related documents from a source document
US10042980B2 (en) 2005-11-17 2018-08-07 Gearbox Llc Providing assistance related to health
US20070112833A1 (en) * 2005-11-17 2007-05-17 International Business Machines Corporation System and method for annotating patents with MeSH data
US20070214129A1 (en) * 2006-03-01 2007-09-13 Oracle International Corporation Flexible Authorization Model for Secure Search
US8868540B2 (en) * 2006-03-01 2014-10-21 Oracle International Corporation Method for suggesting web links and alternate terms for matching search queries
US8433712B2 (en) * 2006-03-01 2013-04-30 Oracle International Corporation Link analysis for enterprise environment
US7941419B2 (en) * 2006-03-01 2011-05-10 Oracle International Corporation Suggested content with attribute parameterization
US8332430B2 (en) * 2006-03-01 2012-12-11 Oracle International Corporation Secure search performance improvement
US8027982B2 (en) * 2006-03-01 2011-09-27 Oracle International Corporation Self-service sources for secure search
US8214394B2 (en) 2006-03-01 2012-07-03 Oracle International Corporation Propagating user identities in a secure federated search system
US8707451B2 (en) 2006-03-01 2014-04-22 Oracle International Corporation Search hit URL modification for secure application integration
US8005816B2 (en) * 2006-03-01 2011-08-23 Oracle International Corporation Auto generation of suggested links in a search system
US9177124B2 (en) 2006-03-01 2015-11-03 Oracle International Corporation Flexible authentication framework
US8875249B2 (en) * 2006-03-01 2014-10-28 Oracle International Corporation Minimum lifespan credentials for crawling data repositories
US7809733B2 (en) * 2006-03-02 2010-10-05 Oracle International Corp. Effort based relevance
US7885859B2 (en) * 2006-03-10 2011-02-08 Yahoo! Inc. Assigning into one set of categories information that has been assigned to other sets of categories
JP5028847B2 (ja) * 2006-04-21 2012-09-19 富士通株式会社 遺伝子間相互作用ネットワーク分析支援プログラム、該プログラムを記録した記録媒体、遺伝子間相互作用ネットワーク分析支援方法、および、遺伝子間相互作用ネットワーク分析支援装置
WO2007126088A1 (ja) 2006-04-28 2007-11-08 Riken バイオアイテム検索装置、バイオアイテム検索端末装置、バイオアイテム検索方法、および、プログラム
WO2007133506A2 (en) * 2006-05-09 2007-11-22 University Of Louisville Research Foundation , Inc. Personalized medicine management software
JP4992297B2 (ja) * 2006-05-30 2012-08-08 コニカミノルタエムジー株式会社 データベースシステム、およびプログラム
US20080075017A1 (en) * 2006-09-21 2008-03-27 Stephen Patrick Kramer System and Method for Analyzing Dynamics of Communications in a Network
US10095836B2 (en) * 2006-09-29 2018-10-09 Gearbox Llc Computational systems for biomedical data
US10068303B2 (en) 2006-09-29 2018-09-04 Gearbox Llc Computational systems for biomedical data
US20080109484A1 (en) * 2006-09-29 2008-05-08 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US10546652B2 (en) 2006-09-29 2020-01-28 Gearbox Llc Computational systems for biomedical data
US20080082584A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US20080091730A1 (en) * 2006-09-29 2008-04-17 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Computational systems for biomedical data
US7853626B2 (en) 2006-09-29 2010-12-14 The Invention Science Fund I, Llc Computational systems for biomedical data
US10503872B2 (en) * 2006-09-29 2019-12-10 Gearbox Llc Computational systems for biomedical data
US20080082359A1 (en) * 2006-09-29 2008-04-03 Searete Llc, A Limited Liability Corporation Of State Of Delaware Computational systems for biomedical data
US8122073B2 (en) * 2006-09-29 2012-02-21 The Invention Science Fund I Computational systems for biomedical data
WO2008056570A1 (fr) * 2006-11-09 2008-05-15 Panasonic Corporation Dispositif de recherche de contenu
US7657513B2 (en) * 2006-12-01 2010-02-02 Microsoft Corporation Adaptive help system and user interface
US20080133476A1 (en) * 2006-12-05 2008-06-05 Ivo Welch Automated peer performance measurement system for academic citation databases
CA2679094A1 (en) * 2007-02-23 2008-08-28 1698413 Ontario Inc. System and method for delivering content and advertisements
US8112402B2 (en) * 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US20080228698A1 (en) * 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
US8538743B2 (en) * 2007-03-21 2013-09-17 Nuance Communications, Inc. Disambiguating text that is to be converted to speech using configurable lexeme based rules
CN101681353A (zh) * 2007-03-30 2010-03-24 纽科股份有限公司 用于知识导航和发现的数据结构、系统和方法
US20080281819A1 (en) * 2007-05-10 2008-11-13 The Research Foundation Of State University Of New York Non-random control data set generation for facilitating genomic data processing
US8275681B2 (en) 2007-06-12 2012-09-25 Media Forum, Inc. Desktop extension for readily-sharable and accessible media playlist and media
US7996392B2 (en) 2007-06-27 2011-08-09 Oracle International Corporation Changing ranking algorithms based on customer settings
US8316007B2 (en) * 2007-06-28 2012-11-20 Oracle International Corporation Automatically finding acronyms and synonyms in a corpus
US20090019032A1 (en) * 2007-07-13 2009-01-15 Siemens Aktiengesellschaft Method and a system for semantic relation extraction
US20090043752A1 (en) 2007-08-08 2009-02-12 Expanse Networks, Inc. Predicting Side Effect Attributes
US8086620B2 (en) * 2007-09-12 2011-12-27 Ebay Inc. Inference of query relationships
US8881040B2 (en) 2008-08-28 2014-11-04 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US9529974B2 (en) 2008-02-25 2016-12-27 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US9489495B2 (en) * 2008-02-25 2016-11-08 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US9746985B1 (en) 2008-02-25 2017-08-29 Georgetown University System and method for detecting, collecting, analyzing, and communicating event-related information
US8199982B2 (en) 2008-06-18 2012-06-12 International Business Machines Corporation Mapping of literature onto regions of interest on neurological images
KR20110027729A (ko) * 2008-06-24 2011-03-16 샤론 벨렌손 특허 문헌에 적용 가능한 검색 엔진 및 그 방법
US8548823B2 (en) * 2008-07-08 2013-10-01 International Business Machines Corporation Automatically determining ideal treatment plans for complex neuropsychiatric conditions
US9198612B2 (en) 2008-07-08 2015-12-01 International Business Machines Corporation Determination of neuropsychiatric therapy mechanisms of action
US20100076950A1 (en) * 2008-09-10 2010-03-25 Expanse Networks, Inc. Masked Data Service Selection
US8200509B2 (en) * 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US7917438B2 (en) * 2008-09-10 2011-03-29 Expanse Networks, Inc. System for secure mobile healthcare selection
US20100063830A1 (en) * 2008-09-10 2010-03-11 Expanse Networks, Inc. Masked Data Provider Selection
JP5535230B2 (ja) * 2008-10-23 2014-07-02 アビニシオ テクノロジー エルエルシー ファジーなデータ操作
US9141628B1 (en) * 2008-11-07 2015-09-22 Cloudlock, Inc. Relationship model for modeling relationships between equivalent objects accessible over a network
WO2010080641A1 (en) * 2008-12-18 2010-07-15 Ihc Intellectual Asset Management, Llc Probabilistic natural language processing using a likelihood vector
US8150813B2 (en) * 2008-12-18 2012-04-03 International Business Machines Corporation Using relationships in candidate discovery
US8656266B2 (en) * 2008-12-18 2014-02-18 Google Inc. Identifying comments to show in connection with a document
US8386519B2 (en) 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US20100169313A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Pangenetic Web Item Feedback System
US8108406B2 (en) 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US20100169262A1 (en) * 2008-12-30 2010-07-01 Expanse Networks, Inc. Mobile Device for Pangenetic Web
US8255403B2 (en) * 2008-12-30 2012-08-28 Expanse Networks, Inc. Pangenetic web satisfaction prediction system
WO2010077336A1 (en) 2008-12-31 2010-07-08 23Andme, Inc. Finding relatives in a database
US8504374B2 (en) * 2009-02-02 2013-08-06 Jerry Lee Potter Method for recognizing and interpreting patterns in noisy data sequences
WO2010124029A2 (en) * 2009-04-22 2010-10-28 The Rand Corporation Systems and methods for emerging litigation risk identification
CN101876981B (zh) * 2009-04-29 2015-09-23 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
US20120158400A1 (en) * 2009-05-14 2012-06-21 Martin Schmidt Methods and systems for knowledge discovery
EP2665002A3 (en) * 2009-06-19 2014-04-02 Blekko, Inc. A method of counting unique items in a database system
US20110010244A1 (en) * 2009-07-10 2011-01-13 Microsoft Corporation Sponsored application launcher suggestions
US10089391B2 (en) * 2009-07-29 2018-10-02 Herbminers Informatics Limited Ontological information retrieval system
US20110087650A1 (en) * 2009-10-06 2011-04-14 Johnson Controls Technology Company Creation and use of causal relationship models in building management systems and applications
US9475359B2 (en) * 2009-10-06 2016-10-25 Johnson Controls Technology Company Systems and methods for displaying a hierarchical set of building management system information
US8655830B2 (en) * 2009-10-06 2014-02-18 Johnson Controls Technology Company Systems and methods for reporting a cause of an event or equipment state using causal relationship models in a building management system
US11132748B2 (en) * 2009-12-01 2021-09-28 Refinitiv Us Organization Llc Method and apparatus for risk mining
US8793208B2 (en) * 2009-12-17 2014-07-29 International Business Machines Corporation Identifying common data objects representing solutions to a problem in different disciplines
US8706728B2 (en) * 2010-02-19 2014-04-22 Go Daddy Operating Company, LLC Calculating reliability scores from word splitting
US8515969B2 (en) * 2010-02-19 2013-08-20 Go Daddy Operating Company, LLC Splitting a character string into keyword strings
US8909558B1 (en) 2010-02-19 2014-12-09 Go Daddy Operating Company, LLC Appraising a domain name using keyword monetary value data
US9058393B1 (en) 2010-02-19 2015-06-16 Go Daddy Operating Company, LLC Tools for appraising a domain name using keyword monetary value data
CN101782396B (zh) * 2010-03-05 2011-12-28 中国软件与技术服务股份有限公司 一种导航方法及导航系统
US20110238681A1 (en) * 2010-03-24 2011-09-29 Krishnan Basker S Apparatus and Method for Storing, Searching and Retrieving an Object From a Document Repository Using Word Search and Visual Image
US10956475B2 (en) 2010-04-06 2021-03-23 Imagescan, Inc. Visual presentation of search results
WO2011139864A2 (en) * 2010-04-28 2011-11-10 Diomics Corporation Methods and systems for predictive design of structures based on organic models
WO2011137302A1 (en) * 2010-04-29 2011-11-03 The General Hospital Corporation Methods for identifying aberrantly regulated intracellular signaling pathways in cancer cells
US8682921B2 (en) 2010-07-07 2014-03-25 Johnson Controls Technology Company Query engine for building management systems
US8516016B2 (en) 2010-07-07 2013-08-20 Johnson Controls Technology Company Systems and methods for facilitating communication between a plurality of building automation subsystems
CN102411572B (zh) * 2010-09-21 2014-11-05 重庆诺京生物信息技术有限公司 生物分子数据的高效共享方法
CN103477318B (zh) * 2010-11-25 2019-01-29 便携基因组公司 基因组数据在电子装置上的组织、可视化及利用
CN102541912A (zh) * 2010-12-17 2012-07-04 北大方正集团有限公司 一种网络文章传播影响力的评价系统及方法
US8463827B2 (en) * 2011-01-04 2013-06-11 Yahoo! Inc. Mining global email folders for identifying auto-folder tags
US9317567B1 (en) * 2011-02-16 2016-04-19 Hrl Laboratories, Llc System and method of computational social network development environment for human intelligence
US8478711B2 (en) 2011-02-18 2013-07-02 Larus Technologies Corporation System and method for data fusion with adaptive learning
US20120239415A1 (en) * 2011-02-21 2012-09-20 Nitin Agrawal Heuristically resolving content items in an extensible content management system
US11321099B2 (en) 2011-02-21 2022-05-03 Vvc Holding Llc Architecture for a content driven clinical information system
US9262719B2 (en) 2011-03-22 2016-02-16 Patrick Soon-Shiong Reasoning engines
US9002926B2 (en) 2011-04-22 2015-04-07 Go Daddy Operating Company, LLC Methods for suggesting domain names from a geographic location data
US20140055400A1 (en) 2011-05-23 2014-02-27 Haworth, Inc. Digital workspace ergonomics apparatuses, methods and systems
US9348941B2 (en) 2011-06-16 2016-05-24 Microsoft Technology Licensing, Llc Specification of database table relationships for calculation
US10445371B2 (en) 2011-06-23 2019-10-15 FullContact, Inc. Relationship graph
US20120330869A1 (en) * 2011-06-25 2012-12-27 Jayson Theordore Durham Mental Model Elicitation Device (MMED) Methods and Apparatus
US8849828B2 (en) * 2011-09-30 2014-09-30 International Business Machines Corporation Refinement and calibration mechanism for improving classification of information assets
US9772999B2 (en) 2011-10-24 2017-09-26 Imagescan, Inc. Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition
US11010432B2 (en) 2011-10-24 2021-05-18 Imagescan, Inc. Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition
US10467273B2 (en) 2011-10-24 2019-11-05 Image Scan, Inc. Apparatus and method for displaying search results using cognitive pattern recognition in locating documents and information within
CN104094266A (zh) * 2011-11-07 2014-10-08 独创系统公司 用于识别原因性基因组变体的方法和系统
US9459600B2 (en) 2011-11-10 2016-10-04 Tennessee Valley Authority Method and automation system for processing information extractable from an engineering drawing file using information modeling and correlations to generate output data
WO2013082177A1 (en) * 2011-11-28 2013-06-06 Relay Technology Management Inc. Pharmaceutical/life science technology evaluation and scoring
CN102567473A (zh) * 2011-12-14 2012-07-11 鸿富锦精密工业(深圳)有限公司 网络信息检索系统及检索方法
US8747115B2 (en) 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
CA2873902A1 (en) * 2012-05-18 2013-11-21 Georgetown University Methods and systems for populating and searching a drug informatics database
US9069963B2 (en) * 2012-07-05 2015-06-30 Raytheon Bbn Technologies Corp. Statistical inspection systems and methods for components and component relationships
US8539001B1 (en) 2012-08-20 2013-09-17 International Business Machines Corporation Determining the value of an association between ontologies
CN102841186B (zh) * 2012-08-28 2015-01-21 中国科学院自动化研究所 基于通路模式挖掘的中药活性成分预测方法
US9254095B2 (en) 2012-11-08 2016-02-09 Alivecor Electrocardiogram signal detection
US11861561B2 (en) 2013-02-04 2024-01-02 Haworth, Inc. Collaboration system including a spatial event map
US10304037B2 (en) 2013-02-04 2019-05-28 Haworth, Inc. Collaboration system including a spatial event map
AU2014219089B2 (en) 2013-02-25 2019-02-14 Nant Holdings Ip, Llc Link association analysis systems and methods
WO2014145927A1 (en) 2013-03-15 2014-09-18 Alivecor, Inc. Systems and methods for processing and analyzing medical data
US9378065B2 (en) * 2013-03-15 2016-06-28 Advanced Elemental Technologies, Inc. Purposeful computing
US10095727B2 (en) * 2013-04-29 2018-10-09 Siemens Aktiengesellschaft Data unification device and method for unifying unstructured data objects and structured data objects into unified semantic objects
JP6373977B2 (ja) * 2013-05-23 2018-08-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Dna配列の高速かつ安全な検索
US9247911B2 (en) 2013-07-10 2016-02-02 Alivecor, Inc. Devices and methods for real-time denoising of electrocardiograms
US10157353B2 (en) * 2013-09-12 2018-12-18 Acxiom Corporation Name variant extraction from individual handle identifiers
US9311300B2 (en) 2013-09-13 2016-04-12 International Business Machines Corporation Using natural language processing (NLP) to create subject matter synonyms from definitions
WO2015054234A1 (en) * 2013-10-07 2015-04-16 The University Of Chicago Genomic prescribing system and methods
US9715694B2 (en) 2013-10-10 2017-07-25 Go Daddy Operating Company, LLC System and method for website personalization from survey data
US9684918B2 (en) 2013-10-10 2017-06-20 Go Daddy Operating Company, LLC System and method for candidate domain name generation
US9141676B2 (en) 2013-12-02 2015-09-22 Rakuten Usa, Inc. Systems and methods of modeling object networks
US10242090B1 (en) 2014-03-06 2019-03-26 The United States Of America As Represented By The Director, National Security Agency Method and device for measuring relevancy of a document to a keyword(s)
US9754020B1 (en) * 2014-03-06 2017-09-05 National Security Agency Method and device for measuring word pair relevancy
US20150269345A1 (en) * 2014-03-19 2015-09-24 International Business Machines Corporation Environmental risk factor relevancy
US10114808B2 (en) * 2014-05-07 2018-10-30 International Business Machines Corporation Conflict resolution of originally paper based data entry
US9313327B2 (en) 2014-05-12 2016-04-12 Google Technology Holdings LLC Method and apparatus for managing contact information
US20160063644A1 (en) * 2014-08-29 2016-03-03 Hrb Innovations, Inc. Computer program, method, and system for detecting fraudulently filed tax returns
WO2016040725A1 (en) * 2014-09-11 2016-03-17 Berg Llc Bayesian causal relationship network models for healthcare diagnosis and treatment based on patient data
US9953105B1 (en) 2014-10-01 2018-04-24 Go Daddy Operating Company, LLC System and method for creating subdomains or directories for a domain name
US9785663B2 (en) 2014-11-14 2017-10-10 Go Daddy Operating Company, LLC Verifying a correspondence address for a registrant
US9779125B2 (en) 2014-11-14 2017-10-03 Go Daddy Operating Company, LLC Ensuring accurate domain name contact information
US11088834B2 (en) * 2015-04-28 2021-08-10 Palo Alto Research Center Incorporated System for privacy-preserving monetization of big data and method for using the same
US20160328098A1 (en) 2015-05-06 2016-11-10 Haworth, Inc. Virtual workspace viewport location markers in collaboration systems
US10783127B2 (en) * 2015-06-17 2020-09-22 Disney Enterprises Inc. Componentized data storage
JP6144314B2 (ja) * 2015-10-30 2017-06-07 株式会社Ubic データ分類システム,方法,プログラムおよびその記録媒体
US20180344239A1 (en) * 2015-11-13 2018-12-06 Segterra, Inc. Managing Evidence-Based Rules
US9959504B2 (en) * 2015-12-02 2018-05-01 International Business Machines Corporation Significance of relationships discovered in a corpus
US20170193179A1 (en) * 2015-12-31 2017-07-06 Clear Pharma, Inc. Graphical user interface (gui) for accessing linked communication networks and devices
US10599993B2 (en) 2016-01-22 2020-03-24 International Business Machines Corporation Discovery of implicit relational knowledge by mining relational paths in structured data
CN105868296B (zh) * 2016-03-24 2019-02-05 银江股份有限公司 一种基于快速剪枝策略的高效用序列模式的用药ddd值数据分析方法
US10866992B2 (en) * 2016-05-14 2020-12-15 Gratiana Denisa Pol System and methods for identifying, aggregating, and visualizing tested variables and causal relationships from scientific research
US11151653B1 (en) 2016-06-16 2021-10-19 Decision Resources, Inc. Method and system for managing data
US10521436B2 (en) * 2016-07-11 2019-12-31 Baidu Usa Llc Systems and methods for data and information source reliability estimation
US11194860B2 (en) 2016-07-11 2021-12-07 Baidu Usa Llc Question generation systems and methods for automating diagnosis
CN106228000A (zh) * 2016-07-18 2016-12-14 北京千安哲信息技术有限公司 过度医疗检测系统及方法
US10650318B2 (en) 2016-07-20 2020-05-12 Baidu Usa Llc Systems and methods of determining sufficient causes from multiple outcomes
EP3519011A4 (en) 2016-09-27 2020-05-20 Bigfoot Biomedical, Inc. SYSTEMS, DEVICES AND METHODS FOR MEDICATION INJECTION AND DISEASE MANAGEMENT
EP4075438B1 (en) * 2016-10-11 2023-12-13 Genomsys SA Efficient data structures for bioinformatics information representation
US10620790B2 (en) * 2016-11-08 2020-04-14 Microsoft Technology Licensing, Llc Insight objects as portable user application objects
US10885451B2 (en) 2016-12-07 2021-01-05 Wipro Limited Methods and systems for identifying and projecting recurrent event patterns in information technology infrastructure
CA3037432A1 (en) 2016-12-12 2018-06-21 Bigfoot Biomedical, Inc. Alarms and alerts for medication delivery devices and related systems and methods
USD836769S1 (en) 2016-12-12 2018-12-25 Bigfoot Biomedical, Inc. Insulin delivery controller
US10706113B2 (en) 2017-01-06 2020-07-07 Microsoft Technology Licensing, Llc Domain review system for identifying entity relationships and corresponding insights
US10545658B2 (en) * 2017-04-25 2020-01-28 Haworth, Inc. Object processing and selection gestures for forming relationships among objects in a collaboration system
EP3622424A1 (en) * 2017-05-12 2020-03-18 Laboratory Corporation of America Holdings Systems and methods for biomarker identificaton
USD839294S1 (en) 2017-06-16 2019-01-29 Bigfoot Biomedical, Inc. Display screen with graphical user interface for closed-loop medication delivery
WO2019014594A1 (en) 2017-07-13 2019-01-17 Desborough Lane MULTI-SCALE DISPLAY OF GLYCEMIA INFORMATION
CN110019826B (zh) * 2017-07-27 2023-02-28 北大医疗信息技术有限公司 医疗知识图谱的构建方法、构建装置、设备和存储介质
CN108415922B (zh) * 2017-09-30 2021-10-22 平安科技(深圳)有限公司 数据库修改方法及应用服务器
US20190114325A1 (en) * 2017-10-13 2019-04-18 United Arab Emirates University Method of facet-based searching of databases
US11934637B2 (en) 2017-10-23 2024-03-19 Haworth, Inc. Collaboration system including markers identifying multiple canvases in multiple shared virtual workspaces
US12019850B2 (en) 2017-10-23 2024-06-25 Haworth, Inc. Collaboration system including markers identifying multiple canvases in multiple shared virtual workspaces
US11126325B2 (en) 2017-10-23 2021-09-21 Haworth, Inc. Virtual workspace including shared viewport markers in a collaboration system
CN108171255A (zh) * 2017-11-22 2018-06-15 广东数相智能科技有限公司 基于图像识别的图片联想强度评分方法及装置
US10987464B2 (en) 2017-12-12 2021-04-27 Bigfoot Biomedical, Inc. Pen cap for insulin injection pens and associated methods and systems
US11197964B2 (en) 2017-12-12 2021-12-14 Bigfoot Biomedical, Inc. Pen cap for medication injection pen having temperature sensor
US11083852B2 (en) 2017-12-12 2021-08-10 Bigfoot Biomedical, Inc. Insulin injection assistance systems, methods, and devices
CA3084378A1 (en) 2017-12-12 2019-06-20 Bigfoot Biomedical, Inc. Therapy management systems, methods, and devices
US11077243B2 (en) 2017-12-12 2021-08-03 Bigfoot Biomedical, Inc. Devices, systems, and methods for estimating active medication from injections
US11464459B2 (en) 2017-12-12 2022-10-11 Bigfoot Biomedical, Inc. User interface for diabetes management systems including flash glucose monitor
US11116899B2 (en) 2017-12-12 2021-09-14 Bigfoot Biomedical, Inc. User interface for diabetes management systems and devices
US11157523B2 (en) * 2017-12-15 2021-10-26 International Business Machines Corporation Structured data correlation from internal and external knowledge bases
EP3550568B1 (en) * 2018-04-07 2023-07-05 Tata Consultancy Services Limited Graph convolution based gene prioritization on heterogeneous networks
US11354711B2 (en) * 2018-04-30 2022-06-07 Innoplexus Ag System and method for assessing valuation of document
US10937068B2 (en) * 2018-04-30 2021-03-02 Innoplexus Ag Assessment of documents related to drug discovery
CN109165159B (zh) * 2018-08-10 2021-10-01 北京理工大学 一种基于程序频谱的多缺陷定位方法
CN109766329B (zh) * 2018-12-29 2022-10-25 湖南网数科技有限公司 一种支持交换共享的临床数据单元生成方法和装置
WO2020176517A1 (en) 2019-02-25 2020-09-03 Haworth, Inc. Gesture based workflows in a collaboration system
US11645295B2 (en) 2019-03-26 2023-05-09 Imagescan, Inc. Pattern search box
AU2020266572A1 (en) * 2019-04-30 2021-12-09 Pear Therapeutics (Us), Inc. System and methods for clinical curation of crowdsourced data
CN110245184B (zh) * 2019-05-13 2022-04-12 中国邮政集团公司广东省分公司 一种基于tagSQL的数据处理方法、系统及装置
CN110289068A (zh) * 2019-06-20 2019-09-27 北京百度网讯科技有限公司 药品推荐方法及设备
US11093690B1 (en) * 2019-07-22 2021-08-17 Palantir Technologies Inc. Synchronization and tagging of image and text data
CN111090454B (zh) * 2019-11-25 2021-03-23 广州极点三维信息科技有限公司 一种基于odb的自动化处理方法、装置和设备
US20210304142A1 (en) * 2020-03-31 2021-09-30 Atlassian Pty Ltd. End-user feedback reporting framework for collaborative software development environments
US11750672B2 (en) 2020-05-07 2023-09-05 Haworth, Inc. Digital workspace sharing over one or more display clients in proximity of a main client
CN112185583B (zh) * 2020-10-14 2022-05-31 天津之以科技有限公司 一种基于贝叶斯网络的数据挖掘检疫方法
US20220156299A1 (en) * 2020-11-13 2022-05-19 International Business Machines Corporation Discovering objects in an ontology database
US20220171773A1 (en) * 2020-12-01 2022-06-02 International Business Machines Corporation Optimizing expansion of user query input in natural language processing applications
CN112463945B (zh) * 2021-02-02 2021-04-23 贝壳找房(北京)科技有限公司 会话语境划分方法与系统、交互方法与交互系统
CN113742498B (zh) * 2021-09-24 2024-04-09 国务院国有资产监督管理委员会研究中心 一种知识图谱的构建更新方法
US20230117402A1 (en) * 2021-10-18 2023-04-20 Perion Network Ltd Systems and methods of request grouping
CN114022888B (zh) * 2022-01-06 2022-04-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
CN114417158A (zh) * 2022-01-18 2022-04-29 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及计算机可读存储介质
CN116167089B (zh) * 2023-04-20 2023-07-14 恒辉信达技术有限公司 高安全性数据库
CN116451785B (zh) * 2023-06-16 2023-09-01 安徽思高智能科技有限公司 一种面向操作关系的rpa知识图谱构建与操作推荐方法
CN116627393B (zh) * 2023-07-26 2023-10-03 北京十六进制科技有限公司 一种基于关系的聚合建模方法、设备及介质
CN116864036A (zh) * 2023-08-02 2023-10-10 山东政法学院 一种基于人工智能的化合物库构建方法
CN117077625B (zh) * 2023-08-15 2024-05-14 普蕊斯(上海)医药科技开发股份有限公司 一种不良事件等级判定方法、电子设备和存储介质
CN117236796B (zh) * 2023-11-13 2024-02-02 天津市城市规划设计研究总院有限公司 一种基于cs-topsis算法的医院后勤运维评价方法及系统
CN117391543B (zh) * 2023-12-07 2024-03-15 武汉理工大学 一种轨迹数据生成的海上航路网络质量评价方法及系统

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5317677A (en) * 1992-04-16 1994-05-31 Hughes Aircraft Company Matching technique for context sensitive rule application
US5535325A (en) * 1994-12-19 1996-07-09 International Business Machines Corporation Method and apparatus for automatically generating database definitions of indirect facts from entity-relationship diagrams
US5764799A (en) * 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
US6484168B1 (en) * 1996-09-13 2002-11-19 Battelle Memorial Institute System for information discovery
US5875446A (en) * 1997-02-24 1999-02-23 International Business Machines Corporation System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships
US5933818A (en) * 1997-06-02 1999-08-03 Electronic Data Systems Corporation Autonomous knowledge discovery system and method
JP3004254B2 (ja) * 1998-06-12 2000-01-31 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
US6269364B1 (en) * 1998-09-25 2001-07-31 Intel Corporation Method and apparatus to automatically test and modify a searchable knowledge base
US6654736B1 (en) * 1998-11-09 2003-11-25 The United States Of America As Represented By The Secretary Of The Army Chemical information systems
US6466929B1 (en) * 1998-11-13 2002-10-15 University Of Delaware System for discovering implicit relationships in data and a method of using the same
US6327593B1 (en) * 1998-12-23 2001-12-04 Unisys Corporation Automated system and method for capturing and managing user knowledge within a search system
US6472154B1 (en) * 1999-12-31 2002-10-29 Board Of Regents, The University Of Texas System Polymorphic repeats in human genes
US6542902B2 (en) * 2000-03-24 2003-04-01 Bridge Medical, Inc. Method and apparatus for displaying medication information
US6643646B2 (en) * 2001-03-01 2003-11-04 Hitachi, Ltd. Analysis of massive data accumulations using patient rule induction method and on-line analytical processing
US20030186243A1 (en) * 2002-03-26 2003-10-02 Adamic Lada A. Apparatus and method for finding genes associated with diseases

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007193399A (ja) * 2006-01-17 2007-08-02 Konica Minolta Medical & Graphic Inc 情報提示システム、及びプログラム
JP2016521398A (ja) * 2013-03-15 2016-07-21 ベウラワークス,エルエルシー. ナリッジ取込および発見システム
JP2019032875A (ja) * 2013-03-15 2019-02-28 ベウラワークス,エルエルシー. データ取り込みおよび該データへのユーザアクセス促進システムおよび方法
JP2021064392A (ja) * 2013-03-15 2021-04-22 ベウラワークス,エルエルシー. データ取り込みおよび該データへのユーザアクセス促進システムおよび方法
JP7086166B2 (ja) 2013-03-15 2022-06-17 ベウラワークス,エルエルシー. データ取り込みおよび該データへのユーザアクセス促進システムおよび方法
WO2016006042A1 (ja) * 2014-07-08 2016-01-14 株式会社Ubic データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
JP2016139226A (ja) * 2015-01-27 2016-08-04 株式会社日立製作所 情報処理装置、情報処理システム、情報処理プログラム
JP6088091B1 (ja) * 2016-05-20 2017-03-01 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
JP2017208015A (ja) * 2016-05-20 2017-11-24 ヤフー株式会社 更新装置、更新方法、及び更新プログラム
JP2019530477A (ja) * 2016-09-26 2019-10-24 プレシジョン・メディスン・ホールディングス・プロプライエタリー・リミテッド 精神分裂病および分裂情動性精神病の診断、予後、および処置
KR20210012606A (ko) * 2019-07-26 2021-02-03 주식회사 꿀비 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체
KR102518895B1 (ko) * 2019-07-26 2023-04-12 주식회사 꿀비 바이오 정보 분석 방법 및 이를 수행하기 위한 프로그램을 저장하는 저장 매체

Also Published As

Publication number Publication date
AU2003270678A1 (en) 2004-04-08
EP1547009A1 (en) 2005-06-29
WO2004027706A1 (en) 2004-04-01
CA2499513A1 (en) 2004-04-01
CN1701343A (zh) 2005-11-23
US20040093331A1 (en) 2004-05-13

Similar Documents

Publication Publication Date Title
JP2006503351A (ja) 情報の発見と関係分析のためのコンピュータプログラム製品、システム及び方法
Krallinger et al. The Protein-Protein Interaction tasks of BioCreative III: classification/ranking of articles and linking bio-ontology concepts to full text
Donaldson et al. PreBIND and Textomy–mining the biomedical literature for protein-protein interactions using a support vector machine
Yandell et al. Genomics and natural language processing
US20110055192A1 (en) Full text query and search systems and method of use
Hettne et al. The implicitome: a resource for rationalizing gene-disease associations
Rodriguez-Esteban et al. Text mining patents for biomedical knowledge
Zaslavsky et al. Discovering and summarizing relationships between chemicals, genes, proteins, and diseases in PubChem
Milward et al. Ontology‐based interactive information extraction from scientific abstracts
Hawkins et al. Systematic tissue annotations of genomics samples by modeling unstructured metadata
Bouadjenek et al. Multi-field query expansion is effective for biomedical dataset retrieval
Guan A study of the use of keyword and keyphrase extraction techniques for answering biomedical questions
Hu et al. Integrating various resources for gene name normalization
Taha et al. Predicting the functions of a protein from its ability to associate with other molecules
Song et al. Application of public knowledge discovery tool (PKDE4J) to represent biomedical scientific knowledge
Nadkarni An introduction to information retrieval: applications in genomics
Galvez et al. A dictionary‐based approach to normalizing gene names in one domain of knowledge from the biomedical literature
Leaman et al. Chemical identification and indexing in full-text articles: an overview of the NLM-Chem track at BioCreative VII
Krallinger et al. Text Mining and Protein Annotations The Construction and Use of Protein Description Sentences
Thompson et al. Extracting gene-disease relations from text to support biomarker discovery
McDonald et al. An automated procedure to identify biomedical articles that contain cancer‐associated gene variants
Tanabe et al. SemCat: semantically categorized entities for genomics
Wren The IRIDESCENT System: An Automated Data-Mining Method to Identify, Evaluate, and Analyze Sets of Relationships Within Textual Databases
Abed et al. A Review of Towered Big-Data Service Model for Biomedical Text-Mining Databases
Clegg et al. Text mining

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060919

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100309