JP2020502697A - キュレーションされた遺伝子ライブラリおよびネットワークベースのデータ構造を用いる表現型/疾患特異的遺伝子のランク付け方法 - Google Patents

キュレーションされた遺伝子ライブラリおよびネットワークベースのデータ構造を用いる表現型/疾患特異的遺伝子のランク付け方法 Download PDF

Info

Publication number
JP2020502697A
JP2020502697A JP2019539731A JP2019539731A JP2020502697A JP 2020502697 A JP2020502697 A JP 2020502697A JP 2019539731 A JP2019539731 A JP 2019539731A JP 2019539731 A JP2019539731 A JP 2019539731A JP 2020502697 A JP2020502697 A JP 2020502697A
Authority
JP
Japan
Prior art keywords
genes
gene
score
experimental
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2019539731A
Other languages
English (en)
Inventor
マーク ユング
マーク ユング
サム ウン
サム ウン
ジョセフ アール. ディレーニー
ジョセフ アール. ディレーニー
Original Assignee
イルミナ インコーポレイテッド
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド, イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2020502697A publication Critical patent/JP2020502697A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、ハイスループットな生物学的および化学的アッセイのプラットフォームから大規模データを取り込み、統合し、編成し、ナビゲートし、該データにクエリを実行するための方法、システム、および装置に関する。本発明は、種々の生物学的および化学的アッセイ、データタイプ、ならびに生物からの多数の試験および実験にわたってリサーチクエリを実行するための効率性の高いメタ解析インフラストラクチャ、ならびにそのようなインフラストラクチャを構築し、それに追加するためのシステムを提供する。様々な態様にしたがって、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するための方法、システム、およびインタフェースを提供する。

Description

関連出願の相互参照
本出願は、35U.S.C.§119(e)の下、あらゆる趣旨に関して全体として参照により本明細書に組み入れられる、2016年10月3日に出願されたPHENOTYPE/DISEASE SPECIFIC GENE RANKING USING CURATED, GENE LIBRARY AND NETWORK BASED DATA STRUCTURESと題する米国特許仮出願第62/403,206号への恩典を主張する。
背景
本開示は概して、生物学的、化学的、および医学的情報を記憶および検索する方法、システム、および装置に関する。これらの分野における研究は、ラボラトリーベンチからコンピュータベースの方法へとますます移行している。公的ソース、例えばNCBI(National Center for Biotechnology Information)が、遺伝子データおよび分子データを含むデータベースを提供している。これらのソースおよび私的ソースの間で、様々なアッセイプラットフォーム、生物、データタイプなどからの莫大な量のデータが研究者に利用可能である。広まる生物医学的情報の量が増すにつれ、研究者は、新たな情報を速やかに吸収し、その情報を種々のプラットフォーム、生物などにわたる既存の情報と統合するための高速かつ効率的なツールを必要とする。研究者はまた、多様なタイプの情報の中を速やかにナビゲートし、それらを解析するためのツールを必要とする。
個人別の治療の選択肢を進歩させる、または既存の薬物が有効になるために新たな疾患を同定するために、潜在的バイオマーカーをスクリーニングする薬学的および臨床的必要性が増している。癌および複雑な疾患において疾患特異的遺伝子を同定することは困難であり、時間を要する。複雑な疾患は通常、様々な生物学的経路を介して複雑な遺伝要因によって影響されるいくつかの関連する疾患表現型を特徴とする。これらの経路は、互いに重なり合い、作用し合って、より複雑なネットワークを形成する可能性が高い。従来の経路ベースの遺伝子ランク付けは、様々な状況において限られた価値しか提供することができない。これらの表現型と関連性がある遺伝子の同定は、発症の機構を包括的に理解するのに役立つ。
これに関連して、解決すべき課題は、所与の表現型または他の生物学的、化学的、および医学的概念と最も密接な関連性がある遺伝子を同定することである。例えば、ある表現型(例えば前立腺癌)を与えられて、任意のサイズの遺伝子パネルを同定することできるか?従来の手法を用いると、疾患を与えられて、様々なソース(例えば、定期刊行物、オンラインデータベース、実験データ、直接の論議および意見交換)を何ヶ月にもわたってレビューおよび解析することによって、遺伝子セットが導かれ得る。このプロセスは何ヶ月も要することがある。
本開示の様々な態様は、関心対象の表現型または他の生物学的、化学的もしくは薬学的概念を与えられて、最も重要な遺伝子を同定するための技術を提供する。キュレーションされた遺伝子調節データ(例えば、RNA発現、タンパク質発現、DNAメチル化、転写因子活性、およびゲノムワイド関連解析における関連性のレベル)を含む大きなデータベース、ならびに一方では遺伝子調節データと他方では遺伝子セットデータおよびインタラクトームデータとの間の包括的な相互関係に基づく。
概要
本発明は、ハイスループットな生物学的および化学的アッセイのプラットフォームから大規模データを取り込み、統合し、編成し、ナビゲートし、該データにクエリを実行する方法、システム、および装置に関する。本発明は、種々の生物学的および化学的アッセイ、データタイプおよび生物から多数の試験および実験にわたってリサーチクエリを実行するための効率性の高いメタ解析インフラストラクチャ、ならびにそのようなインフラストラクチャを構築し、それに追加するためのシステムを提供する。本発明の態様は、実験データ、特徴ならびに構造および/または機能によって関連付けられるデータのグループをオントロジーまたはタキソノミー中の化学的、医学的および/または生物学的用語と関連させる方法、システム、およびインタフェースを提供する。本発明の態様はまた、データソース情報によってデータをフィルタ処理して、大量のデータの中の動的ナビゲーションを可能にして、特定のクエリと最も関連性がある結果を見いだす方法、システム、およびインタフェースを提供する。
1つまたは複数のコンピュータのシステムが、動作中、システムに特定の動作または行為を実行させる、システムにインストールされたソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせを有するおかげで、特定の動作または行為を実行するように構成されることができる。1つまたは複数のコンピュータプログラムは、データ処理装置によって実行されると、(a)1つまたは複数のプロセッサにより、データベースから複数の遺伝子セットを選択する動作(複数の遺伝子セットの各遺伝子セットは、複数の遺伝子および該複数の遺伝子と関連性がある複数の実験値を含み、複数の実験値は、少なくとも1つの実験において関心対象の生物学的、化学的、または医学的概念と相互関係がある);(b)各遺伝子セットについて、1つまたは複数のプロセッサにより、該複数の遺伝子の中の第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコアを、該第一の1つまたは複数の遺伝子の1つまたは複数の実験値を用いて決定する動作;(c)各遺伝子セットについて、1つまたは複数のプロセッサにより、該複数の遺伝子の中の第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係に少なくとも部分的に基づいて決定する動作(該複数の遺伝子セットとは別の、データベース中の他の遺伝子セットにおける、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係が示される);(d)1つまたは複数のプロセッサにより、(b)で決定された第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコア、および(c)で決定された第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、第一および第二の1つまたは複数の遺伝子についてのサマリースコアを得る動作(各サマリースコアは複数の遺伝子セットにわたって集計される);ならびに(e)1つまたは複数のプロセッサにより、第一および第二の1つまたは複数の遺伝子についてのサマリースコアを用いて、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定する動作を含む動作を装置に実行させる命令を含むおかげで、特定の動作または行為を実行するように構成されることができる。
実施態様は、以下の特徴の1つまたは複数を含み得る。いくつかの実施態様において、(c)は、複数の遺伝子セットの各遺伝子セットについて、(i)データベースから第二の複数の遺伝子セットを同定することを含み、第二の複数の遺伝子セットの各遺伝子セットは、第二の複数の遺伝子およびその第二の複数の遺伝子と関連性がある第二の複数の実験値を含み、第二の複数の実験値は、第一の1つまたは複数の遺伝子の中の第一の遺伝子と相互関係がある。方法はまた、(ii)第二の複数の遺伝子セットにわたる実験値を集計して、第一の1つまたは複数の遺伝子の中の第一の遺伝子についての集計された値のベクトルを得る工程を含み得る。方法はまた、(iii)(i)および(ii)を第一の1つまたは複数の遺伝子の中の1つまたは複数の他の遺伝子に適用し、それにより、第一の1つまたは複数の遺伝子の中の1つまたは複数の他の遺伝子についての実験値の1つまたは複数のベクトルを得る工程を含み得る。方法はまた、(iv)第一の1つまたは複数の遺伝子の中の第一の遺伝子および1つまたは複数の他の遺伝子についての集計された値のベクトルを集計し、それにより、第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを含む1つの圧縮されたベクトルを得る工程を含み得る。
同じく提供されるものは、第一の1つまたは複数の遺伝子の中の特定の遺伝子についての(iv)の集計されたベクトルそれぞれがその特定の遺伝子の実験値に比例して重み付けされる、方法である。第一の1つまたは複数の遺伝子の中の特定の遺伝子についての(iv)の集計されたベクトルそれぞれが、その特定の遺伝子について同定された第二の複数の遺伝子セットの遺伝子セットの数に比例して重み付けされる、方法。
いくつかの実施態様は、(d)の前に、第三の1つまたは複数の遺伝子についての1つまたは複数の遺伝子グループスコアを決定する工程をさらに含む方法を提供する。いくつかの実施態様は、特定の遺伝子についての各遺伝子グループスコアが、(i)グループラベルに関連する遺伝子のグループをそれぞれが含む1つまたは複数の遺伝子グループの遺伝子メンバー構成(遺伝子のグループはその特定の遺伝子を含む)、および(ii)第一の1つまたは複数の遺伝子の1つまたは複数の実験値のうちの少なくともいくつかを用いて決定される、方法を提供する。
いくつかの実施態様は、(d)が、第三の1つまたは複数の遺伝子のうちの少なくともいくつかについての遺伝子グループスコア、ならびに(b)で決定された第一の1つまたは複数の遺伝子についての1つまたは複数の実験スコア、および(c)で決定された第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコスコアに少なくとも部分的に基づいて、第一および第二の1つまたは複数の遺伝子についてのサマリースコアを得ることを含む、方法を提供する。
いくつかの実施態様は、第三の1つまたは複数の遺伝子についての1つまたは複数の遺伝子グループスコアを決定する工程が、第三の1つまたは複数の遺伝子の中の特定の遺伝子について、その特定の遺伝子をそれぞれが含む1つまたは複数の遺伝子グループを同定することを含む、方法を提供する。方法はまた、各遺伝子グループについて、遺伝子グループのメンバーであって第一の1つまたは複数の遺伝子の中にあるメンバーの割合を決定する工程を含み得る。方法はまた、各遺伝子グループについて、遺伝子グループのメンバーである、第一の1つまたは複数の遺伝子のうちの少なくともいくつかの、1つまたは複数の実験値を集計し、それにより、その遺伝子グループの合計実験値を得る工程を含み得る。方法はまた、第三の1つまたは複数の遺伝子の中の特定の遺伝子について、第一の1つまたは複数の遺伝子の中にある、遺伝子グループのメンバーの割合と、その遺伝子グループについての合計実験値とを用いて遺伝子グループスコアを決定する工程を含み得る。
いくつかの実施態様は、遺伝子グループのメンバーであって第一の1つまたは複数の遺伝子の中にあるメンバーの割合と、その遺伝子グループについての合計実験値とを用いて遺伝子グループスコアを決定する工程が、各遺伝子グループについて、メンバーの割合と合計実験値との積を得て、それにより、1つまたは複数の遺伝子グループについての1つまたは複数の積を得ることを含む、方法を提供する。方法はまた、1つまたは複数の遺伝子グループにわたって1つまたは複数の積を合計し、それにより、積和を得る工程を含み得る。方法はまた、第三の1つまたは複数の遺伝子の中の特定の遺伝子について、積和に基づいて遺伝子グループスコアを決定する工程を含み得る。
いくつかの実施態様は、グループラベルに関連する複数の遺伝子が遺伝子セットライブラリ中の遺伝子を含む、方法を提供する。
いくつかの実施態様において、遺伝子セットライブラリ中の遺伝子は遺伝子オントロジー中の遺伝子を含む。いくつかの実施態様において、グループラベルは、状態、属性、疾患、表現型、症候群、形質、生物学的機能、生物学的経路、細胞、生物、生物学的機能、化合物、治療などを示す。
いくつかの実施態様において、方法は、(d)の前に、それぞれ第四の1つまたは複数の遺伝子についてのインタラクトームスコアを決定する工程をさらに含む。いくつかの実施態様において、特定の遺伝子についての各インタラクトームスコアは、(i)その特定の遺伝子と、遺伝子のネットワーク中でその特定の遺伝子に接続された他の遺伝子との間のつながり、および(ii)第一の1つまたは複数の遺伝子の1つまたは複数の実験値のうちの少なくともいくつかを用いて決定される。いくつかの態様において、(d)は、第四の1つまたは複数の遺伝子のうちの少なくともいくつかについてのインタラクトームスコア、ならびに(b)で決定された第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコア、および(c)で決定された第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、少なくとも第一の1つまたは複数の遺伝子および第二の1つまたは複数の遺伝子についてのサマリースコアを得ることを含む。いくつかの実施態様において、遺伝子のネットワークは、遺伝子、タンパク質、および/またはリン脂質の間の相互作用および関係に基づく。
いくつかの実施態様において、それぞれ第四の1つまたは複数の遺伝子のインタラクトームスコアを決定する工程は、遺伝子のネットワークを提供すること(ネットワーク中の遺伝子の各ペアはエッジによって接続され、ネットワークの遺伝子は、第一の1つまたは複数の遺伝子および/または第二の1つまたは複数の遺伝子のうちの少なくともいくつかを含む第四の1つまたは複数の遺伝子を含む);第四の1つまたは複数の各遺伝子について、2つの隣接する遺伝子を接続する接続エッジの数によって計測される、特定の遺伝子からの接続距離に基づいて、接続された遺伝子の近傍を画定すること;ならびに第四の1つまたは複数の遺伝子の各遺伝子について、(i)特定の遺伝子と、近傍中の1つまたは複数の他の遺伝子との間の1つまたは複数の接続距離、および(ii)近傍中の1つまたは複数の他の遺伝子の、実験データに基づくサマリースコアを用いて、インタラクトームスコアを計算することを含む。
いくつかの実施態様において、インタラクトームスコアは、複数の分数の和に比例するものとして計算され、各分数は、近傍中の別の遺伝子についてのサマリースコアを、特定の遺伝子と、近傍中の他の遺伝子との間の接続距離で割ったものである。
いくつかの実施態様において、それぞれ第四の1つまたは複数の遺伝子のインタラクトームスコアを決定する工程は、遺伝子のネットワークを提供すること(ネットワークの遺伝子は、第一の閾値よりも高い、実験データに基づくサマリースコアを有し、遺伝子の各ペアはエッジによって接続され、ネットワークの遺伝子は、第一の1つまたは複数の遺伝子および/または第二の1つまたは複数の遺伝子のうちの少なくともいくつかを含む第四の1つまたは複数の遺伝子を含む);各エッジについて、少なくとも1つのインタラクトーム知識ベース中の2つの遺伝子についての接続データに基づいて、2つの遺伝子を接続するエッジに重みを割り当てること;およびネットワーク中の各遺伝子について、(i)特定の遺伝子とその特定の遺伝子に接続されたすべての遺伝子との間のエッジの重み、および(ii)特定の遺伝子に接続されたすべての遺伝子についてのサマリースコアを用いて、インタラクトームスコアを計算することを含む。
いくつかの実施態様において、インタラクトームスコアを計算する工程は、インタラクトームスコアを、Ni':
Ni'=Ni+Σ((Ni+Nn)*エッジの重みn)
(式中、Niは、特定の遺伝子iのサマリースコアであり、Nnは、当該特定の遺伝子に接続された遺伝子nのサマリースコアであり、エッジの重みnは、特定の遺伝子iと遺伝子nとを接続するエッジの重みである)
として計算することを含む。
いくつかの実施態様において、インタラクトームスコアを計算する工程はさらに、第二の閾値よりも小さいNi'を第一パス辞書に保存すること;および第一パス辞書中のすべての遺伝子について計算を繰り返し、それにより、インタラクトームスコアを更新することを含む。いくつかの実施態様において、インタラクトームスコアを計算する工程はさらに、1つまたは複数のパスに関して計算を繰り返すことを含む。
いくつかの実施態様において、(a)の複数の実験遺伝子セットを選択する工程は、実験遺伝子セットと関連性があるバイオタグに割り当てられた、遺伝子セットの重要性のレベルを示すバイオタグスコアに基づいて実験遺伝子セットを選択することを含む。いくつかの実施態様において、バイオタグは、バイオソース、バイオデザイン、組織、疾患、化合物、遺伝子、遺伝子モード、バイオグループ、およびそれらの任意の組み合わせからなる群より選択されるカテゴリーごとに編成されている。
いくつかの実施態様において、方法はさらに、バイオタグに基づいて遺伝子セットおよび/または遺伝子グループのスコアリングを実行する工程を含む。
いくつかの実施態様において、複数の実験値は変異体または遺伝子に関連するデータを含み、データ値から1つまたは複数の遺伝子への特定の関係を導出することができる。いくつかの態様において、複数の実験値は複数の遺伝子摂動値を含む。いくつかの実施態様において、複数の実験値は、RNA発現、タンパク質発現、DNAメチル化、転写因子活性、および/またはゲノムワイド関連解析における関連性、のレベルを示す。
いくつかの実施態様において、関心対象の生物学的、化学的、または医学的概念は表現型を含む。いくつかの実施態様において、表現型は疾患関連表現型を含む。
いくつかの実施態様において、特定の遺伝子の各サマリースコアは、複数の遺伝子セットにわたる実験スコアおよびインシリコスコアの線形結合として計算される。
いくつかの実施態様において、(d)は、実験遺伝子スコアおよびインシリコ遺伝子スコアを入力として受け、サマリースコアを出力として提供するモデルを提供すること;ならびにそのモデルを1つまたは複数の実験遺伝子スコアおよび1つまたは複数のインシリコ遺伝子スコアに適用して、第一の1つまたは複数の遺伝子および第二の1つまたは複数の遺伝子についてのサマリースコアを得ることを含む。
いくつかの実施態様において、方法はさらに、目的関数を最適化することによってモデルを訓練する工程を含む。いくつかの実施態様において、モデルを訓練する工程は、ブートストラップ技術をブートストラップサンプルに適用することを含む。いくつかの実施態様において、目的関数は、ブートストラップ後の少なくとも1つのサマリースコア分布に関連する。いくつかの実施態様において、目的関数の最適化は、訓練セットと検証セットとの間のサマリースコアの差を最小化することを含む。いくつかの実施態様において、目的関数の最適化は、複数の遺伝子セットから得られるサマリースコア分布と、ランダムな遺伝子セットから得られるサマリースコア分布との間の隔たりを最大化することを含む。
いくつかの実施態様において、サマリースコアはランク付けされて所定のサイズのバケットに入れられ、バケットにペナルティスコアが割り当てられ、ペナルティスコアは、より高ランクのサマリースコアを優遇する。いくつかの態様において、目的関数は最高ランクのサマリースコアのみに基づく。
いくつかの実施態様において、モデルを訓練する工程は、目的関数を教師なし機械学習法で用いてモデルのパラメータを学習させることを含む。
いくつかの実施態様において、モデルは、
F(θ)=k1*c1+k2*c2+...+kn*cn
(式中、θはモデルのパラメータであり、ciはモデルのコンポーネントであり、kiはコンポーネントに関する重み係数である)
の形を有する。
いくつかの実施態様において、方法はさらに、実験データタイプのサンプル重みに基づいてモデルのコンポーネントの1つまたは複数をサブコンポーネントへと分割する工程を含む。
いくつかの実施態様において、第一および第二の1つまたは複数の遺伝子についてのサマリースコアは、1つまたは複数のランダムな遺伝子セット中の第一および第二の1つまたは複数の遺伝子の実験値が関心対象の生物学的、化学的、または医学的概念と相互関係がある可能性がいかに高いかに基づいてペナルティを科される。いくつかの態様において、特定の遺伝子の各サマリースコアは、ランク積のp値に反比例するペナルティ値によってペナルティを科され、ランク積は、1つまたは複数のランダムな遺伝子セットにわたる特定の遺伝子のランクの積を含む。
いくつかの実施態様において、第一の1つまたは複数の遺伝子は第二の1つまたは複数の遺伝子と同一ではない。
いくつかの実施態様において、サマリースコアは正規化される。
いくつかの実施態様において、データベースは複数のサブデータベースを含む。
いくつかの実施態様において、(b)における第一の1つまたは複数の遺伝子の1つまたは複数の実験値は基準を満たす。
いくつかの実施態様において、各サマリースコアは特異値の線形結合によって集計される。いくつかの実施態様において、線形結合は平方和を含む。
1つの一般的な局面は、プログラムコードを記憶する非一時的な機械可読媒体を含むコンピュータプログラム製品であって、該プログラムコードがコンピュータシステムの1つまたは複数のプロセッサによって実行されると、コンピュータシステムによって、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するための方法が実行され、該プログラムコードが、(a)データベースから複数の遺伝子セットを選択するためのコードを含む(複数の遺伝子セットの各遺伝子セットは、複数の遺伝子および複数の遺伝子と関連性がある複数の実験値を含み、複数の実験値は、少なくとも1つの実験において関心対象の生物学的、化学的、または医学的概念と相互関係がある)コンピュータプログラム製品を含む。プログラムコードはまた、(b)各遺伝子セットについて、該複数の遺伝子の中の第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコアを、該第一の1つまたは複数の遺伝子の1つまたは複数の実験値を用いて決定するためのコードを含む。プログラムコードはまた、(c)各遺伝子セットについて、該複数の遺伝子の中の第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係に少なくとも部分的に基づいて決定するためのコードを含む(該複数の遺伝子セットのとは別の、データベース中の他の遺伝子セットにおける、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係が示される)。プログラムコードはまた、(d)(b)で決定された第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコア、および(c)で決定された第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、第一および第二の1つまたは複数の遺伝子についてのサマリースコアを得るためのコードを含む(各サマリースコアは複数の遺伝子セットにわたって集計される)。プログラムコードはまた、(e)第一および第二の1つまたは複数の遺伝子についてのサマリースコアを用いて、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するためのコードを含む。
別の一般的な局面は、1つまたは複数のプロセッサを含むコンピュータシステムを含む。当該コンピュータシステムは、システムメモリ;およびコンピュータ実行可能な命令を記憶している1つまたは複数のコンピュータ可読記憶媒体も含み、当該コンピュータ実行可能な命令が1つまたは複数のプロセッサによって実行されると、コンピュータシステムによって、(a)1つまたは複数のプロセッサにより、データベースから複数の遺伝子セットを選択する工程(複数の遺伝子セットの各遺伝子セットは、複数の遺伝子および複数の遺伝子と関連性がある複数の実験値を含み、複数の実験値は、少なくとも1つの実験において関心対象の生物学的、化学的、または医学的概念と相互関係がある);(b)各遺伝子セットについて、1つまたは複数のプロセッサにより、複数の遺伝子の中の第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコアを、該第一の1つまたは複数の遺伝子の1つまたは複数の実験値を用いて決定する工程;(c)各遺伝子セットについて、1つまたは複数のプロセッサにより、該複数の遺伝子の中の第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係に少なくとも部分的に基づいて決定する工程(該複数の遺伝子セットとは別の、データベース中の他の遺伝子セットにおける、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係が示される);(d)1つまたは複数のプロセッサにより、(b)で決定された第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコア、および(c)で決定された第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、第一および第二の1つまたは複数の遺伝子についてのサマリースコアを得る工程(各サマリースコアは複数の遺伝子セットにわたって集計される);ならびに(e)1つまたは複数のプロセッサにより、第一および第二の1つまたは複数の遺伝子についてのサマリースコアを用いて、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定する工程を含む、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するための方法が実行される。
本発明の態様は、実験データ、特徴ならびに構造および/または機能によって関連付けられるデータのグループをオントロジーまたはタキソノミー中の化学的、医学的および/または生物学的用語と関連させる方法を提供する。特定の態様において、記載される方法によって解析されるデータは一般的にノイズを含み、不完全である。方法は、予測を実行するためにノイズのある遺伝子をフィルタ処理する。同じく提供されるものは、データベース中の様々なタイプのデータ(特徴、特徴セット、特徴グループおよびタグまたは概念を含む)のクエリを実行して、そのクエリに応答して、データベース中の最も関連性がある、または有意な遺伝子のリストを生成する方法である。
上記方法のいずれかを実行するためのコンピュータプログラム製品およびコンピュータシステムが提供される。本発明のこれらおよび他の局面は、以下、図面を参照しながらさらに詳細に説明される。
本発明の様々な態様の、サイエンス情報の知識ベース中の様々な要素を表す図である。 本発明の様々な態様の、オントロジーを表す概略図である。 特定の態様の、特徴と最も関連性がある概念を決定する方法のいくつかの動作を示すプロセス流れ図である。 特定の態様の、特徴セットと最も関連性がある概念を決定する方法のいくつかの動作を示すプロセス流れ図である。 特定の態様の、特徴グループと最も関連性がある概念を決定する方法のいくつかの動作を示すプロセス流れ図である。 実験遺伝子データ、インシリコ遺伝子データ、および知識ベースの遺伝子データを用いて遺伝子についてのサマリースコアを得る実施態様を概略的に示す。 いくつかの態様の、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するためのプロセスを示す。 教師なし学習によって訓練されたモデルを用いてサマリースコアを得るプロセスを示す。 目的関数の最適化を説明するためのデータを示す。 いくつかの実施態様の、遺伝子のランクを得るための概略データを示す。 実験遺伝子セットデータからインシリコスコアを得るプロセスを示す。 表現型P1と相互関係がある遺伝子セットS1についての例示的なデータを示す。 いくつかの実施態様の、遺伝子グループスコアを得ることができるプロセスを示す。 遺伝子セットS1〜S3の遺伝子および遺伝子グループの遺伝子の説明図を示す。 実験遺伝子セットG1〜G3の中にある遺伝子グループのメンバーIiについての実験値を示す。 いくつかの実施態様の、インタラクトームスコアを計算するプロセスを示す。 遺伝子のネットワークに関してインタラクトームデータを得る方法を説明する図を示す。 インタラクトームデータおよび実験データを用いてインタラクトームスコアを得るための別の実施態様としてのプロセスを示す。 遺伝子のネットワークおよびプロセスを実行するインタラクトームスコアを得るためのアルゴリズムを示す。 本明細書に記載される方法および装置とで用いることができるコンピュータシステムの図表示である。 図21Aおよび図21Bは、ランダムな遺伝子セットと表現型に特異的である遺伝子セットとで、表現型と相互関係がある遺伝子についてのサマリースコアを示すデータを示す。また、ブートストラップの効果を示す。 図21Aの説明を参照。
詳細な説明
緒言および関連する用語
本開示の実施態様は様々な用途を有し、それは例えば、精密医療(precision medicine)において患者のデータを表現型由来の遺伝子ランキングと照合することによるものであり、また、薬物スクリーニングにおいて薬物の組み合わせについて遺伝子ランキングリストを最適化することによるものである。
いくつかの実施態様において、本開示は、DNA発現データのパワーを利用して、特定の概念に高い値および関連性を有する候補遺伝子の正確かつ堅実な予測を行う、疾患、表現型および他の生物学的、化学的、または医学的概念のための遺伝子ランク付け技術を提供する。いくつかの実施態様は、相互関係実験相互関係データコンテンツ総計として発展する、関心対象の疾患または治療との関連を同定することができる。いくつかの実施態様は、疾患特異的RNA、DNAまたはエピジェネティックパネルをオンザフライで提供することができ、それが、新たなバイオマーカーを発見する可能性を高めることができる。新たなデータが相互関係データベースに組み込まれると、新たな改良された解析を実行し得る。いくつかの実施態様は、データベースに由来する薬物摂動データの力を強化して、関心対象の疾患と相互関係がある薬物または化合物の組み合わせを見いだすことができる。
いくつかの実施態様において、方法およびシステムは、RNAベースの発現試験のために、データが階層フレームワークで埋め込まれているキュレーションされたデータベース中のビッグデータを利用する。基礎にあるデータベースは時間とともに有機的に成長して、有効範囲の幅および深さを拡大することができる。いくつかの実施態様は、解析が最も貴重かつ関連性があるデータに集中することを保証する、例えばバイオデザインおよびバイオソースに基づくバイオタグ付けを含む。様々な実施態様が、他のRNA発現解析ツールでは存在しない疾患特異的遺伝子を同定するための方法およびシステムを提供する。
いくつかの実施態様において、表現型特異的遺伝子ランク付けまたは概念特異的遺伝子ランク付けの課題は、本明細書においてはポリオミックスまたはマルチオミックスデータと呼ばれる、RNA発現、形質関連遺伝子変異、DNAメチル化、および他の遺伝子関連データ構造を含むキュレーションされたデータタイプを用いることによって解決される。そのうえ、関連性がある遺伝子を同定するために、知識ベースの情報、例えばオントロジーベースの情報およびネットワークベースの情報、例えばタンパク質間相互作用が用いられる。いくつかの実施態様においては、上記複数の情報ソースからサマリースコアを得るために、教師なし機械学習フレームワークが実行される。いくつかの実施態様においては、よりロバストなランク付け構造を生成するためにブートストラップ法が用いられる。いくつかの実施態様においては、全遺伝子ランク評価の代わりに、ランダムにエンリッチメントされた摂動シグナルをフィルタ処理して除くことができる最高位スコア評価が適用される。いくつかの実施態様において、これは、シャッフルされた遺伝子セットに対して確率論的ランク積スコアを用いることによって達成される。加えて、いくつかの実施態様においては、キュレーションされたデータベース中の所与の表現型または概念に関連する各キュレーション試験に関して最適な遺伝子セットを同定するために、バイオタグ優先順位付け法が用いられる。
いくつかの実施態様においては、実験データベースのサマリースコアがグラフモデルまたはネットワークモデルと組み合わせて用いられる。いくつかの態様においては、遺伝子ネットワークの接続エッジが、外部知識ベース、例えばタンパク質間相互作用(PPI)または遺伝子セットライブラリによって画定される。
いくつか実施の態様においては、教師なし機械学習技術により、例えば、テストデータと検証データとの間のサマリースコアの差を最小化することにより、および/または概念特異的遺伝子スコアとランダムに生成された遺伝子スコアとの間の差を最大化することにより、上記手法を組み込むモデルのパラメータが最適化される。
従来の手法は、キュレーションされていないデータ構造および/またはOnline Mendelian Inheritance in Man(OMIM)などのデータソースに由来する種遺伝子を用いる。また、キュレーションされていないデータを用いる従来の方法は、バイオタグに基づく遺伝子優先順位付けを考慮していない。
インタラクトームデータとは、2つの遺伝子の状態を関連付けるデータをいう。2つの遺伝子の関連は、2つの遺伝子の間の統計的相互関係ならびに他のデータソースおよび試験に基づき得る。2つの遺伝子の間の相互作用または関係は、それらの機能、構造、生物学的経路、転写因子、プロモータおよび他の要因に関連し得る。様々な態様において、インタラクトームデータは、接触されたノードのネットワークおよびノード間のつながりを形成するための基礎を提供する(ノードは遺伝子を示す)。従来の遺伝子ネットワークは、ときに、アーチファクトから生じ得る高度に接続されたノードを含む。換言するならば、遺伝子は、ネットワーク中で互いと接続され得、その接続は、関心対象の生物学的または化学的概念、例えば疾患の基礎を成さない。多くの従来のネットワークベースの遺伝子試験においては、ネットワークを発生させるために種遺伝子が必要である。ネットワークは、限られた実験データを含む。また、ネットワークの基礎にある情報およびデータは多くの場合、厳格で、柔軟性に欠ける。
本開示の様々な実施態様は、疾患、表現型、症候群、形質、生物学的機能、生物学的経路、化合物、治療、医学的状態および他の生物学的、化学的、および医学的概念であり得る、関心対象の概念と高い相互関係がある遺伝子を同定するための方法を提供する。方法は、関心対象の概念と相互関係がある、またはそれによって調節される遺伝子の実験データを用いる。方法はまた、遺伝子および遺伝子セットの間の相互関係に基づくインシリコデータを用いる。いくつかの実施態様において、方法はまた、実験遺伝子データおよびインシリコ遺伝子データに加えて、知識ベースのデータを用いる。
本発明は、ハイスループットな生物学的および化学的アッセイのプラットフォームから大規模データを取り込み、統合し、編成し、ナビゲートし、該データにクエリを実行する方法、システム、および装置に関する。本発明は、種々の生物学的および化学的アッセイ、データタイプおよび生物から多数の試験および実験にわたってリサーチクエリを実行するための効率性の高いメタ解析インフラストラクチャ、ならびにそのようなインフラストラクチャを構築し、それに追加するためのシステムを提供する。
以下の記載の大部分は、生物学的実験および試験からのデータを統合し、その利用を可能にするシステム、方法、および装置に関して提示されるが、本発明は決してそのように限定されない。例えば、本発明は化学的および臨床データをカバーする。以下の詳細な説明においては、本発明の完全な理解を提供するために、数多くの具体的な詳細が記載される。しかし、本発明は、本明細書に提示される具体的な詳細のいくつかに限定されることなく実施され得ることが明らかであろう。
以下の用語が本明細書を通して用いられる。詳細な説明は、本明細書の理解を支援するために提供されるが、必ずしも本発明の範囲を限定しない。
概念なる用語は、本明細書において、遺伝子または遺伝子関連データと相互関係があることができる生物学的、化学的、および医学的概念を指すために用いられる。「概念」は、疾患、表現型、症候群、形質、生物学的機能、生物学的経路、細胞、生物、生物学的機能、化合物、治療、医学的状態、ならびに他の生物学的、化学的、および医学的概念を指す。
タグ - タグは、特徴セットに関する記述情報をその特徴セットと関連させる。これは、クエリが特定のタグを指定または暗示するとき、結果として特徴セットが同定されることを可能にする。多くの場合、臨床パラメータがタグとして用いられる。タグカテゴリーの例は、腫瘍病期、患者年齢、サンプル表現型特徴、および組織タイプを含む。特定の態様において、タグとして概念が用いられることもあるため、タグは概念とも呼ばれ得る。
バイオタグとは、生物学的特徴と関連性があるタグである。バイオタグの様々なカテゴリーおよび例が以下でさらに提供される。
データベース - データベースとは、編成されたデータの集合体である。いくつかの実施態様において、データベースは、特定の対象区域、例えば遺伝子セット理論または遺伝子インタラクトームに関連するデータを含む。そのようなデータベースは知識ベースとも呼ばれる。例えば、データベースは、クエリを解析し、それに応答するために用いられるデータの集合体を指し得る。特定の態様において、データベースは、1つまたは複数の特徴セット、特徴グループ、および特徴セットを特定の階層またはディレクトリ(例えば、試験およびプロジェクトの階層)に編成するためのメタデータを含む。加えて、知識ベースは、特徴セットを互いとおよび特徴グループと相互に関係付ける情報、遺伝子または他の特徴のためのグローバル一意用語またはグローバル一意識別子のリスト、例えば種々のプラットフォーム(例えばAffymetrixヒトHG_U133Aチップ)上で計測された特徴のリスト、種々の生物中の特徴の総数、それらの対応する転写物、タンパク質産物およびそれらの関係を含み得る。知識ベースはまた、一般的に、種々の組織、疾患状態、化合物タイプ、表現型、細胞およびそれらの関係のためのすべてのタグ(キーワード)のリストを含むタキソノミーを含む。例えば、タキソノミーは、癌と肝臓癌との関係を定義し、また、これらのグループそれぞれと関連性があるキーワードを含む(例えば、キーワード「新生物」は「癌」と同じ意味を有する)。また、データベースは、その特定のコンテンツに起因して知識ベースとも呼ばれる。
相互関係は、2つの変数または概念の間に依存関係がある広いクラスの統計的関係のうちのいずれかである。相互関係は、線形関係または因果関係である必要はない。相互関係は、2つのランダムな変数または2つのデータセットの間の任意の統計的関係をいい、因果関係的であるかどうかを問わない。
一例として、知識ベースに入力された新たな特徴セットは、知識ベース中に既にある他のすべての(または少なくとも多くの)特徴セットと相互に関係付けられる。相互関係は、照合する遺伝子についてのランクまたは他の情報を比較し、新たな特徴セットと考慮中の特徴セットとを特徴ごとに比較する。1つの態様においては、(特徴セットを相互に関係付けるために)ランクに基づく実行アルゴリズムが用いられる。2つの特徴セットを相互に関係付けた結果が「スコア」である。スコアは、知識ベースに記憶され、遺伝子、臨床パラメータ、薬物治療などに関するクエリに応えるときに用いられる。
相互関係はまた、新たな特徴セットを知識ベース中のすべての特徴グループと相互に関係付けるために用いられる。例えば、「増殖」遺伝子を表す特徴グループが薬物応答を表す特徴セットと相互に関係付けられる場合があり、それがひいては、薬効と増殖遺伝子とが相互に関係付けられることを可能にする。
インタラクトームなる用語は、特定の細胞中の分子相互作用の全セットを指すために用いられる。この用語は、具体的には、分子間の物理的相互作用(例えば、タンパク質間相互作用PPIとも知られる、タンパク質間の物理的相互作用)を指すが、遺伝子間の間接的相互作用のセットをいうこともできる。
インタラクトームデータとは、2つの遺伝子の状態を関連付けるデータをいう。2つの遺伝子の関連は、2つの遺伝子の間の統計的相互関係ならびに他のデータソースおよび試験に基づき得る。2つの遺伝子間の相互作用または関係は、それらの機能、構造、生物学的経路、転写因子、プロモータ、および他の因子に関連し得る。
生データ - これは、1つまたは複数のサンプルについての情報を提供する1つまたは複数の実験からのデータである。一般的に、生データは、本発明のデータベースおよびシステムにおいて用いるのに適する程度までは処理されていない。その後の操作によって、生データは、そのようなデータベースおよびシステムにおいて用いるのに適した1つまたは複数の「特徴セット」の形態に変換される。生データを特徴セットに変換するプロセスはキュレーションと呼ばれることもある。多くの場合、データはデータベースにおいてタグ付けされ、タグ付けもキュレーションと呼ばれる。
本明細書に提示される例の多くは、刺激が組織または細胞培養物などの生物学的サンプルに作用する生物学的実験に関する。多くの場合、生物学的実験は、関連する臨床パラメータ、例えば腫瘍病期、患者病歴などを有する。しかし、本発明は、生物学的サンプルに限定されず、例えば、非生物学的サンプル、例えば化合物、様々なタイプの合成および天然材料など、ならびに様々なタイプのアッセイ(例えば癌細胞株進行)に対するそれらの効果に関する実験を含み得る。
生物学的サンプルで作業するのか非生物学的サンプルで作業するのかに関わりなく、テストデータを生成するために、サンプルは1つまたは複数の刺激または処置に暴露され得る。また、対照データを生成し得る。刺激は、計画される特定の試験に適切なものが選択される。用いられ得る刺激の例は、特定の物質または組成物、放射線(すべての種類の電磁および粒子放射線を含む)、力(機械力(例えば重力)、電力、磁力および核力を含む)、フィールド、熱エネルギーなどへの暴露である。刺激として用いられ得る物質の一般的な例は、有機および無機化合物、生物学的物質、例えば核酸、炭水化物、タンパク質およびペプチド、脂質、様々な感染性物質、前記の混合物などを含む。刺激の他の一般的な例は、非周囲温度、非周囲圧、音響エネルギー、すべての周波数の電磁放射線、特定の物質の欠如(例えば虚血の場合などの酸素の欠乏)、時間的要因などを含む。示唆されるように、本発明の関連して特に重要なクラスの刺激は、治療物質(治療効果を有することが疑われるが、その性質を有することがまだ証明されていない作用物質を含む)への暴露である。多くの場合、治療物質は、薬物もしくは薬物候補などの化合物または環境中に存在する化合物である。化合物の生物学的影響は、遺伝子発現のレベルまたは表現型特徴などの特徴における変化として現れる。
示唆されるように、生データは、関連性がある情報が実験から生成される「特徴」を含むであろう。多くの例において、特徴は、特定の刺激に暴露された特定の組織または細胞サンプルからの遺伝子または遺伝情報である。
典型的な生物学的実験は、特定の細胞タイプまたは組織タイプと関連性がある遺伝子または他の特徴に関する発現または他の情報を決定する。実験情報が生データで収集され得る他のタイプの遺伝的特徴は、SNPパターン(例えばハプロタイプブロック)、遺伝子の一部(例えばエキソン/イントロンまたは調節モチーフ)、複数の遺伝子にわたる染色体のゲノムの領域などを含む。他のタイプの生物学的特徴は、表現型特徴、例えば細胞および細胞オルガネラ、例えば核、ゴルジなどの形態を含む。化学的特徴のタイプは化合物、代謝物などを含む。
生データは、様々な種類のプラットフォーム(例えば、遺伝子マイクロアレイ、SNPマイクロアレイ、およびタンパク質マイクロアレイを含む数多くのマイクロアレイシステム、細胞数測定システム、ハイスループットスクリーニング(「HTS」)プラットフォームなどのうちのいずれか)を用いて、様々なタイプの実験のうちの任意のものから生成され得る。また、例えば、特定の生物の特定の細胞タイプにおける複数の遺伝子の発現を決定するための実験には、オリゴヌクレオチドマイクロアレイが用いられる。別の例では、サンプル中のタンパク質の存在量を決定するために質量分析法が用いられる。
特徴セット - これは、1つまたは複数のサンプルについての1つまたは複数の実験から得られた「生データ」に由来するデータセットを指す。特徴セットは、1つまたは複数の特徴(一般的には複数の特徴)およびそれらの特徴に対する実験の影響に関する関連情報を含む。いくつかの時点で、特徴セットの特徴は、実験における刺激または処置に対する応答の相対的レベルに基づいて、または異なる表現型の間の変化の大きさおよび方向ならびに異なる表現型状態(例えば、腫瘍進行期と腫瘍早期)を区別する能力に基づいて、(少なくとも一時的に)ランク付けされ得る。
例えば記憶および計算効率の理由から、特徴セットは、生データに含まれる特徴または応答のサブセットのみについての情報を含んでもよい。示されるように、キュレーションなどのプロセスが生データを特徴セットに変換する。
典型的には、特徴セットは、特定の質問または問題(例えば、特定の化合物が特定の経路においてタンパク質と相互作用するか)と関連性がある生データに関する。生データおよび試験に依存して、特徴セットは単一の生物の単一の細胞タイプに限定され得る。「ディレクトリ」の観点から、特徴セットは「試験」に属する。換言するならば、1つの試験が1つまたは複数の特徴セットを含み得る。
多くの態様において、特徴セットは「バイオセット」または「化学的セット(chemset)」のうちのいずれかである。バイオセットは一般的に、特定の刺激または処置の生物学的影響についての情報を提供するデータを含む。バイオセットの特徴は、一般的には、上記のような遺伝または表現型情報の単位である。これらは、刺激に対する応答の相対的レベル(例えば、発現における上方制御または下方制御の程度)に基づいて、または異なる表現型の間の変化の大きさおよび方向ならびに異なる表現型状態(例えば、腫瘍進行期と腫瘍早期)を区別する能力に基づいて、ランク付けされる。
遺伝子および遺伝子に関連するデータを含む特徴セットが遺伝子セットである。この意味において、遺伝子セットはある種のバイオセットでもある。
化学的セットは典型的には、化合物のパネルおよびそれらが生物学的サンプルなどのサンプルとどのように相互作用するかについてのデータを含む。化学的セットの特徴は一般的に、個々の化合物または特定の化合物の濃度である。これらの特徴についての関連情報は、EC50値、IC50値などであり得る。
特徴セットは典型的には、1つまたは複数の特徴の識別情報に加えて、各特徴についての統計情報およびおそらくは各特徴についての俗称または他の情報を含む。特徴セットは、各特徴についてのさらに他の情報、例えば主要な特徴の関連する記述、ユーザベースの注釈などを含み得る。統計情報は、(データキュレーション段階からの)特徴についてのデータのp値、「変化倍率」データなどを含み得る。変化倍率は、テスト実験または対照実験において発現が増加または減少する乗数(倍)を示す(例えば、治療に応答して特定の遺伝子の発現が「4倍」増加したこと)。特徴セットはまた、変化の指標ではなく「正常状態」を表す特徴を含んでもよい。例えば、特徴セットは、大多数のヒト組織にわたって「正常かつ均一な」発現レベルを有する遺伝子のセットを含み得る。この場合、特徴セットは必ずしも変化を示すわけではなく、むしろ変化が無いことを示すであろう。
特定の態様において、ランクは、少なくとも一時的には、各特徴に基づく。これは、単に、特徴セット中の特徴のグループ内の相対的応答の尺度であり得る。一例として、ランクは、対照実験の特徴とテスト実験の特徴との間の発現における相対的な差(上方または下方制御)の尺度であり得る。特定の態様において、ランクは特徴応答の絶対値から独立している。したがって、例えば、1つの特徴セットは、応答における1.5倍の増加を有するランキング2位の特徴を有し得、一方、異なる特徴セットは、異なる刺激に対して5倍の増加を有するランキング10位の同じ特徴を有する。
有向特徴セット - 有向特徴セットとは、対照に対する特徴における変化の方向についての情報を含む特徴セットである。例えば、双方向性特徴セットは、対照に応答して、どの特徴が上方制御され、どの特徴が下方制御されるかについての情報を含む。双方向性特徴セットの一例が、正常状態と比較して特定の疾患状態で、または未処置と比較して処置サンプル中で上方および下方制御される遺伝子についての情報を含む遺伝子発現プロファイルである。本明細書において用いられる用語「上方制御」および「下方制御」ならびに類似の用語は、遺伝子またはタンパク質発現に限定されず、特徴の任意の差次的な影響または応答を含む。例は、化合物の生物学的影響または遺伝子発現のレベルまたは表現型特徴などの特徴における変化として現れる他の刺激を含むが、これらに限定されない。
無向特徴セットは、その特徴の変化の方向を示さない特徴を含む。これは、遺伝子発現およびある種の生物学的応答が計測される種々の生物学的計測を含む。例えば、無向特徴セットは、刺激に応答して変化する遺伝子を含み得るが、その変化の方向(上方または下方)を示さない。無向特徴セットは、上方制御された特徴のみ、下方制御された特徴のみ、または上方制御された特徴および下方制御された特徴の両方を含み得るが、変化の方向を示すことはなく、したがって、すべての特徴は変化の大きさのみに基づいて考慮される。
特徴グループ - これは、互いに関連する特徴(例えば遺伝子)のグループを指す。一例として、特徴グループのメンバーはすべて、特定の細胞における同じタンパク質経路に属してもよいし、共通の機能または共通の構造的特徴を共有してもよい。特徴グループはまた、化合物を、それらの作用機序またはそれらの構造的/結合的特徴に基づいて分類し得る。
インデックスセット - インデックスセットとは、特徴識別子およびマッピング識別子を含有する知識ベース中のセットであり、インポートされた特徴セットのすべての特徴を、知識ベース中に既にある特徴セットおよび特徴グループにマッピングするために用いられる。例えば、インデックスセットは、数十万のマッピング識別子を指し示す数百万の特徴識別子を含有し得る。各マッピング識別子(場合によっては、アドレスとも呼ばれる)は、固有の特徴、例えばマウスゲノム中の固有の遺伝子を表す。特定の態様において、インデックスセットは、固有の識別子またはアドレスへのポインタをそれぞれが有する、多様なタイプの特徴識別子(例えば、遺伝子、遺伝領域など)を含有し得る。インデックスセットは、新たな知識が取得されるときに追加または変更され得る。
キュレーション - キュレーションとは、生データを1つまたは複数の特徴セット(または特徴グループ)に変換するプロセスである。場合によっては、これは、実験からの生データに含まれるデータの量を大幅に減らす。これは、有意性を有しない特徴についてのデータを除去する。特定の態様において、これは、対照実験とテスト実験との間で発現が有意には増大または減少しない特徴が特徴セットに含まれないことを意味する。キュレーションのプロセスはそのような特徴を同定し、それらを生データから除去する。キュレーションプロセスはまた、特徴セットを定義するために用いられる生データ中の関連性がある臨床質問を同定する。キュレーションはまた、特徴セットを、知識ベースにおいて用いるのに適切な標準化フォーマットで提供する。
データインポート - データインポートとは、特徴セットおよび特徴グループをシステム中の知識ベースまたは他のリポジトリに取り込むプロセスであり、知識ベースを構築する中で重要な操作である。ユーザインターフェースが、ユーザが実験、特定の試験および/またはプロジェクトとのその関連ならびに実験プラットフォーム(例えばAffymetrix遺伝子チップ)を指定し、データをタグ付けするための主要な概念を同定することを可能にすることにより、データ入力を容易にし得る。特定の態様において、データインポートはまた、インポートされたデータをシステム中に既にあるデータにマッピングするだけでなく、データをタグ付けする自動化操作を含む。その後の「前処理」(インポート後の)が、インポートされたデータ(例えば、インポートされた特徴セットおよび/または特徴グループ)を他の特徴セットおよび特徴グループに相互に関係付けする。
前処理 - 前処理は、特徴セットを操作して、知識ベース中の特徴セットのペア間の統計的関係を同定し、記憶することを含む。前処理はまた、知識ベース中の特徴セットと特徴グループとの間の統計的関係を同定し、記憶することを含み得る。特定の態様において、前処理は、新たにインポートされた特徴セットを知識ベース中の他の特徴セットおよび特徴グループに対して相互に関係付けることを含む。本発明はこのレベルの完全な相互関係に限定されないが、一般的に、統計的関係は、種々の特徴セットのすべてのペアおよび特徴セットと特徴グループとのすべての組み合わせに関して事前に計算され、記憶される。
1つの態様において、統計的相互関係は、ランクに基づくエンリッチメント統計を用いることにより実施される。例えば、特定の態様においては、正確確率検定を用いるランクに基づく繰り返しアルゴリズムが用いられるが、特徴セット間の重なり合いの大きさなど、他のタイプの関係が用いられてもよい。また、当技術分野において公知の他の相互に関係付ける方法を用いてもよい。
一例として、知識ベースに入力された新たな特徴セットは、知識ベース中に既にあるその他すべての(または少なくとも多くの)特徴セットと相互に関連付けられる。相互関係は、照合する遺伝子についてのランクまたは他の情報を比較することにより、新たな特徴セットと考慮中の特徴セットとを特徴ごとに比較する。1つの態様においては、特徴セットを相互に関係付けるために、ランクに基づく繰り返しアルゴリズムが用いられる。2つの特徴セットを相互に関係付けた結果が「スコア」である。スコアは、知識ベースに記憶され、クエリに応えるときに用いられる。
試験/プロジェクト/ライブラリ - これは、特定の態様において用いられ得るデータコンテナ(ディレクトリのような)の階層である。試験は、集中的な実験(例えば、特定の心臓血管標的に関連する実験)のセットで得られた1つまたは複数の特徴セットを含み得る。プロジェクトは、1つまたは複数の試験(例えば、社内の心臓血管エフォート全体)を含む。ライブラリは、知識ベース中の全プロジェクトの集合体である。エンドユーザは、様々なレベルの階層の間の境界を画定する柔軟性を有する。
マッピング - マッピングは、特徴セット中の特徴(例えば遺伝子)を取り、それを知識ベース中のグローバル一意マッピング識別子にマッピングする。例えば、2つの異なる特徴セットを生成するために用いられた実験データの2つのセットが、同じ遺伝子について異なる名称を用いる場合がある。本明細書において、多くの場合、知識ベースは、インデックスセット中のグローバル一意マッピング識別子の網羅的リストを含む。マッピングは、特徴についての知識ベースのグローバル一意マッピング識別子を用いて、異なる特徴名またはIDの間のつながりを明らかにする。特定の態様において、特徴は、複数のグローバル一意マッピング識別子にマッピングされ得る。一例において、遺伝子はまた、特定の遺伝領域のためのグローバル一意マッピング識別子にマッピングされてもよい。マッピングは、多様なタイプの情報(すなわち、種々のプラットフォーム、データタイプ、および生物からの種々の特徴)が互いに関連付けられることを可能にする。マッピングする方法は数多くあり、そのうちのいくつかを以下に詳述する。1つの方法は、遺伝子のグローバル一意名の別名の検索を含む。別の方法は、遺伝子配列の空間的重なり合いを含む。例えば、特徴セット中の特徴のゲノムまたは染色体座標が、知識ベースのインデックスセット中のマッピングされた特徴の座標と重なり合う場合がある。別のタイプのマッピングは、インデックスセット中の遺伝子への、特徴セット中の遺伝子の間接的マッピングを含む。例えば、実験における遺伝子が知識ベース中の調節配列と座標において重なり合う場合がある。他方で、その制御配列は特定の遺伝子を調節する。したがって、間接的マッピングにより、実験配列は知識ベース中のその遺伝子に間接的にマッピングされる。さらに別の形態の間接的マッピングは、特徴セット中の考慮中の実験遺伝子へのインデックスセット中の遺伝子の近接を決定することを含む。例えば、実験特徴座標は知識ベース遺伝子から100塩基対の範囲内であり得、それにより、その遺伝子にマッピングされ得る。
知識ベース
図1は、本発明の様々な態様の、サイエンス情報の知識ベース中の様々な要素を表す図を示す。これらの要素のいくつかの生成またはそれらへの追加の例(例えば、特徴セットおよび特徴セットスコアリングテーブル)が、先に参照した米国特許出願第11/641,539号(米国特許出願公開第20070162411号として公開)で論じられている。知識ベースはまた、他の要素、例えば、データインポートプロセス中に特徴をマッピングするために用いられるインデックスセットを含み得る。図1中、要素104は、知識ベース中のすべての特徴セットを示す。米国特許出願公開第20070162411号に記載されるように、データインポートののち、特徴セットは一般的に、少なくとも特徴セット名および特徴テーブルを含む。特徴テーブルは特徴のリストを含み、各特徴は通常、インポートされたIDおよび/または特徴識別子によって識別される。各特徴は、特徴セット中の正規化されたランクおよびマッピング識別子を有する。マッピング識別子およびランクは、例えば米国特許出願公開第20070162411号に記載されるように、インポートプロセス中に決定され、その後、特徴セット間および特徴セットと特徴グループとの間で相互関係スコアを生成するために用いられ得る。特徴テーブルはまた、一般的に、各特徴と関連性がある統計値、例えばp値および/または倍率変化を含む。これらの統計値のうちの1つまたは複数を用いて、各特徴のランクを計算することができる。特定の態様において、ランクは正規化されてもよい。特徴セットはまた、関連する試験名および/またはタグのリストを含んでもよい。特徴セットは、公的または内部のソースから取得されたデータから生成され得る。
要素106は、知識ベース中のすべての特徴グループを示す。特徴グループは、特徴グループ名および互いに関連する特徴(例えば遺伝子)のリストを含む。特徴グループは一般的に、概して公的ソースからの明確に定義された特徴のセット、例えば、カノニカルなシグナル伝達経路、タンパク質ファミリーなどを表す。特徴セットとは異なり、特徴グループは一般的に関連の統計値またはランクを有しない。特徴セットはまた、関連する試験名および/またはタグのリストを含んでもよい。
要素108は、各特徴セットと他の各特徴セットとの間および各特徴セットと各特徴グループとの相互関係の尺度を含むスコアリングテーブルを示す。図中、FS1−FS2は、特徴セット1と特徴セット2との相互関係の尺度であり、FS1−FG1は、特徴セット1と特徴グループ1との相互関係の尺度である、などである。特定の態様において、尺度は、p値またはp値から導出されるランクスコアである。
要素110は、種々の組織、疾患状態、化合物タイプ、表現型、細胞および他の標準的な生物学的、化学的、または医学的概念ならびにそれらの関係のためのタグまたは科学用語を含むタキソノミーまたはオントロジーである。概略的に図中に示すように、タグは一般的に階層構造に編成されている。そのような構造の一例が、各クラスにおける疾患/疾患のクラス/特定の疾患である。知識ベースはまた、各タグと関連性があるすべての特徴セットおよび特徴グループのリストを含み得る。階層構造におけるタグならびにカテゴリーおよびサブカテゴリーは、概念と呼ばれ得るものに配置されている。オントロジーを表す概略図が図2に示されている。図2中、構造の各ノードが医学的、化学的または生物学的概念を表す。ノード202は最上位カテゴリーを表し、他のノードによって示される子またはサブカテゴリーがツリーを下り、ノード208によって示されるような最下位概念に達する。このようにして、科学的概念がカテゴリー分類される。例えば、ステージII乳癌のカテゴリー分類は、疾患/増殖性疾患/癌/乳癌/ステージII乳癌となり得る(疾患が最上位カテゴリー)。これらのそれぞれ―疾患、増殖性疾患、癌、乳癌およびステージII乳癌―が、データベース中の他の情報をタグ付けするために用いられ得る医学的概念である。タキソノミーは、Medical Subject Headings(MeSH)タキソノミー、Snomed、FMA(Foundation Model of Anatomy)、PubChem Features、私的に構築されたタキソノミーまたはこれらの何らかの組み合わせなどの、公的に利用可能なタキソノミーであり得る。最上位カテゴリーの例は、疾患、組織/臓器、治療、遺伝子改変および特徴グループを含む。
要素112は、各概念の関連性または各概念とデータベース中の他の情報、例えば特徴、特徴セットおよび特徴グループとの相互関係を示すスコアを含む概念スコアリングテーブルである。図1に示す態様においては、タキソノミー中の各概念と各特徴との関連性を示すスコアが114に示され、タキソノミー中の各概念と各特徴セットとの関連性を示すスコアが116に示され、タキソノミー中の各概念と各特徴グループとの関連性を示すスコアが118に示されている(図1に示される他の要素と同じく、概念スコアリングの編成構造は一例であり、スコアリングを記憶または提示するための他の構造が用いられてもよい)。図中、F1−C1は、概念1と特徴1との関連性の尺度であり、FS1−C1は、概念1と特徴セット1との関連性の尺度であり、FG1−C1は、概念1と特徴グループ1との関連性の尺度である、などである。特定の態様において、概念スコアリングテーブルは、少なくともいくつかの概念と、すべてまたは複数の他の概念のそれぞれとの関連性または相互関係についての情報を含む。
以下でさらに説明するように、スコアは、知識ベースへのユーザクエリに用いるために記憶される。概念スコアリングが、知識ベースにクエリを実行する科学者が関心対象のクエリと最も関連性がある条件をフィルタ処理して除くことを可能にする。ユーザは、関心対象のクエリと関連性がある上位の疾患状態、組織、治療およびその他の実体を速やかに同定することができる。また、以下に説明するように、概念スコアリングは、ユーザが概念にクエリを実行して、その概念と最も関連性がある特徴、特徴セット、および特徴グループを見いだすことを可能にする。
概して、概念スコアリングは、i)考慮中の概念を有するすべての特徴セットを同定すること、およびii)同定された特徴セット内の特徴の正規化されたランクまたは同定された特徴セットと他の特徴セットまたは特徴グループとの事前に計算された相互関係スコアを用いて、考慮中の概念と知識ベース中の各特徴、特徴セットおよび特徴グループとの関連性を示すスコアを決定することを含む。そして、その概念スコアを用いて、特定の特徴、特徴セットまたは特徴グループと最も関連性がある概念を速やかに同定することができる。特定の態様においては、スコアを決定する前に、比較的関連性のない特徴セットが除去される。例えば、細胞株において実施された実験は、その細胞株に関して元々の疾患組織ソースとはほとんど関係ないといえる。したがって、特定の態様において、疾患概念についてのスコアを計算するとき、この細胞株に対して実施された実験に関連する特徴セットは除外され得る。
概念スコアリング
図3〜5は、特定の態様に従って、特徴(図3)、特徴セット(図4)および特徴グループ(図5)と最も関連性がある概念を決定する方法の動作を示すプロセス流れ図である。これらの方法は、例えば、図1に示されるような概念スコアリングテーブルまたは概念スコアを記憶するための何らかの他の形式にデータを加えるために用いられ得る。以下に説明するように、記憶されたスコアは、特徴、特徴セットまたは特徴グループに関するユーザクエリに対する応答のために用いられ得る。図3〜5は、すべての知識ベースが、知識ベース中の各特徴、特徴セットおよび特徴グループと最も関連性がある概念についての情報を含むよう、ユーザクエリの前に概念スコアリングが実行されるものとして説明するが、スコアリングは、1つまたは複数の特徴、特徴セットまたは特徴グループを同定するユーザクエリに応答してオンザフライで実施されてもよいことが明らかである。ひとたび決定されるならば、この情報は、図1に示すように、その特徴を含む将来のクエリに応答するときなどに用いるために記憶されてもよいし、捨てられてもよい。
図3は、特定の態様に従って、個々の特徴、例えば遺伝子、化合物などとの概念の関連性を決定する方法を示す。図示するように、プロセスは、システムがタキソノミー中の「次の」概念を同定する動作301で始まる。一般的に、プロセスは、タキソノミー中の各概念を考慮する。次に、プロセスは、知識ベース中で「次の」特徴を同定する。ブロック303を参照すること。プロセスは一般的に、知識ベースの各特徴を考慮する。プロセスは一般的に、概念と特徴との可能な各ペアに関してスコアを決定し、図3における2つのループによって示されるように、すべての可能な組み合わせに対して繰り返す。当該繰り返しのための概念および特徴をセットしたのち、プロセスは次に、1)現行の概念または2)その子概念でタグ付けされたすべての特徴セットを同定する。したがって、例えば図2を参照すると、ノード206で示された概念が考慮中であるならば、この概念および/またはその子ノード208a、208bおよび208cで示された概念の1つまたは複数でタグ付けされたすべての特徴セットが同定される。特定の例において、概念「ステージII乳癌」だけでタグ付けされた特徴セットは、概念「ステージII乳癌」およびその親概念「乳癌」に関して同定されるであろう。
以下でさらに説明するように、同定された特徴セットは、概念との関連性が低い特徴セットまたは結果を偏らせるであろう特徴セットを除去する(または、特定の態様においては、再び重み付けする)ためにフィルタ処理される。同定された特徴セットをフィルタ処理したのち、フィルタ処理された特徴セット、すなわち関連性が低い特徴セットを除去したのち残る特徴セットのそれぞれについて、現行の特徴の正規化ランクを得る。ブロック309を参照すること。米国特許出願公開第20070162411号に記載されているように、特徴セット中の特徴は一般的に、特徴セットと関連性がある実験中の特徴に対する、またはそれによる相対的効果に基づいてランク付けされる。例えば、特徴セット104がその特徴のランク付けを含む図1の概略図を参照すること。特定の態様において、正規化ランク付けを得ることは、フィルタ処理された特徴セットのそれぞれ中の特徴のランクを同定する、検索する、または受けることを含む。したがって、例えば、所与の特徴Fnおよび所与の概念Cmの場合、Cmおよび/またはその子概念のうちの少なくとも1つでタグ付けされた25個の特徴セットがあり得る。これら25個の特徴セットのうちの10個がFnを含み得る。特徴セットのそれぞれにおけるFnの正規化ランク、例えば、第一のフィルタ処理された特徴セットの中の20個の特徴のうち正規化ランク1位、第二のフィルタ処理された特徴セットの中には存在しない、第三のフィルタ処理された特徴セットの中の8個の特徴のうち正規化ランク4位などを示す、1/20、無効、4/8などが得られる(これらは正規化ランクの単なる例である)。ランクは、特徴セットサイズ、その特徴セットに関する計測プラットフォーム上の特徴の数および任意の他の関連性がある基準を含むいくつかの基準を用いて正規化され得る。正規化ランクの使用は、特徴セットの相対的サイズおよび他の差に関わらず、1つの特徴セット中の特徴の有意性を別の特徴セット中のその特徴の有意性と比較することを可能にする)。これらのスコアが得られたのち、概念と特徴との関連性を示す総合スコアFn−Cmが得られる。ブロック311を参照すること。特定の態様において、最終的な特徴−概念スコアの計算に用いられる基準は、以下の属性:「包含」基準に合格する、その概念でタグ付けされた各特徴セット中のその特徴の正規化ランク、「包含」基準に合格する、この特徴を含む特徴セットの総数およびその概念でタグ付けされた特徴セットの総数を含む。
次いで、総合スコアFn−Cmが、例えば図1に示すような概念スコアリングテーブルに記憶される。すべての特徴に対する繰り返しは、決定ブロック313に示すように制御され、すべての概念に対する繰り返しは、決定ブロック315に示すように制御される。見てとれるように、図3に示す方法において、いずれの繰り返しも内側または外側のループをたどることができる。図3に示す方法は、タキソノミー中の概念と知識ベース中の特徴とのすべての可能な組み合わせに対して繰り返すが、他の態様においては、概念スコアが計算される特徴および/またはタキソノミー概念のサブセットだけがあってもよい。
図4は、特定の態様に従って、特徴セットとの概念の関連性を決定する方法を示す。特徴概念スコアリングと同様に、プロセスは、システムがタキソノミー中の「次の」概念を同定する動作401で始まる。また、動作403で、「次の」特徴セットが同定される。プロセスは一般的に、すべての可能な特徴セット−概念ペアをスコアリングする。現行の概念(および/またはその子)でタグ付けされた特徴セットが、図3を参照して上述したように同定され、フィルタ処理される。ブロック405および407を参照すること。現行の特徴セット(すなわち、動作403で同定された特徴セット)と、タグ付けされ、フィルタ処理された特徴セットのそれぞれとの相互関係を示すスコアが得られる。ブロック409を参照すること。多くの態様において、これらのスコアは、米国特許出願公開第20070162411号に記載されるように計算された相互関係スコアである。多くの態様において、それらは、相互関係行列またはテーブルスコアリング、例えば図1に示すテーブル106から得られる。動作409で得られた相互関係スコアに基づいて、現行の概念と現行の特徴セットとの関連性を示す総合スコアFSn−Cmが計算される。特定の態様において、最終的な特徴セット−概念スコアの計算に用いられる基準は、以下の属性:試験される特徴セットと、「包含」基準に合格する所与の概念でタグ付けされた各特徴セットとの相互関係スコア、「包含」基準に合格する、関心対象の特徴セットとで非ゼロ相互関係を提供する特徴セットの総数およびその概念でタグ付けされた特徴セットの総数を含む。次いで、総合スコアは、ユーザクエリに応答するときに用いるのに備えて記憶され得る。特徴セットおよび概念繰り返しは決定ブロック413および415によって制御される。
図5は、本発明の特定の態様に従って、特徴グループとの概念の関連性を決定する方法を示す。方法は、図4に示す特徴セットの場合の概念スコアリングを模倣するが、特徴セットではなく特徴グループに対して繰り返される。ブロック501〜515を参照すること。現行の特徴グループとフィルタ処理された特徴セットとの相互関係を示すスコアを、図1に示すような相互関係行列またはスコアリングテーブルから得ることができる。
特徴、特徴セット、および特徴グループに関する概念スコアリングはすべて、各概念について、概念でタグ付けされている特徴セットを同定し、それらの特徴セットをフィルタ処理して、概念との関連性が低い特定の特徴セットまたは結果を偏らせるおそれのある特定の特徴セットを除去することを含む。これらの動作は、各概念に関して実行され得、その後、所望の特徴、特徴セットおよび/または特徴グループスコアリングが、ブロック309および311、409および411ならびに509および511に示すように実行される。
上記のように、特定の態様において、方法は、特定の概念でタグ付けされている特徴セットをフィルタ処理して特定の特徴セットを除外する工程を含む。例えば、肝臓などの臓器に関連する概念の場合、肝炎でタグ付けされた特徴セットを除外し、健康または正常な肝組織に関連する特徴セットだけを含めることが望ましいといえる。様々な態様にしたがって、特徴セットは、以下の1つまたは複数に基づいてフィルタ処理され得る。
特定のタキソノミー中のタグを有する特徴セットの除外(例えば、疾患でタグ付けされたすべての特徴セットを、臓器または組織の概念スコアに寄与しないよう、除外する)。
所与のタキソノミー中の特定のブランチ中のタグまたはタグの特定の組み合わせを有する特徴セットの除外。
カテゴリー分類論理からの特定のカテゴリーの除外(例えば、カテゴリー分類が概括的すぎるため)。例えば、「疾患」などの概念は特に有用ではない。結果に示されるべきではないそのような概念の「ブラックリスト」を生成し、カテゴリーをフィルタ処理して除くために用いてもよい。
上記のように、特定の態様において、上位カテゴリーは、疾患、治療、および組織/臓器のすべてまたはいくつかを含む。個々の特徴セットは、これらのカテゴリーのいずれかまたはすべてからのタグを有し得る。一例として、以下のタグの組み合わせを有する特徴セットを以下の論理にしたがってフィルタ処理し得る。
Figure 2020502697
上記の論理は、「疾患」または「治療」のいずれかにカテゴリー分類されたタグを有する特徴セットを、組織/臓器の概念スコアに寄与しないよう、除外する。上述したように、これは、これらの臓器の疾患および/または治療に関連する特徴セットが概念スコアに寄与しないようにするためである。
決定論理は、考慮中の実験データ/モデルのタイプに基づき得る。上記のように、細胞株において実施された実験は、その細胞株に関して元々の疾患組織ソースとほとんど関係ないといえる。したがって、元々の疾患概念でタグ付けされた細胞株特徴セットは、その疾患の概念スコアに寄与することを許されるならば、その疾患とは無関係の効果によって統計値を偏らせるおそれがある。例えば、様々なタイプの化合物で処置されたMCF7乳癌細胞と関連性がある数百のバイオセット(特徴セット)があるならば、これらをフィルタ処理して除かないと、概念「乳癌」に関してスコアが計算されるとき、有意な「偏り」が生じる。この場合、特定の疾患概念がスコアリングされるとき、特徴セットをフィルタ処理することは、タキソノミーの特定のブランチを除外することを要することがある。
データタイプ
本明細書に記載される方法、計算システム、およびユーザインターフェースは、多種多様な生データソースおよびプラットフォームとで用いられ得る。例えば、RNAおよびmiRNA発現、SNP遺伝子型決定、タンパク質発現、タンパク質−DNA相互作用およびメチル化データならびに染色体領域の増幅/欠失プラットフォームをはじめとするマイクロアレイプラットフォームが、本明細書に記載される方法において用いられ得る。マイクロアレイは概して、分析対象溶液をアッセイするための、基質への固定、ナノウェル中の限局化などによって配列されたDNAオリゴヌクレオチド、miRNA、タンパク質、化合物などを含む何百または何千もの種々の捕捉物質を含む。プラットフォームは、DNAオリゴヌクレオチド、miRNA(MMChip)、抗体、ペプチド、アプタマー、脂質、抗体およびタンパク質を含む細胞相互作用物質、化合物、組織などのアレイを含む。生データソースのさらなる例は、定量ポリメラーゼ連鎖反応(QPCR)遺伝子発現プラットフォーム、同定された新規な遺伝的変異体、染色体異常(増幅/欠失)を検出するコピー数多型(CNV)検出プラットフォーム、および全ゲノム配列決定を含む。QPCRプラットフォームは一般的に、ヌクレオチド鋳型、ポリメラーゼおよび他の試薬をサイクリングさせてDNAまたはRNAを増幅したのち、それを定量するサーモサイクラを含む。コピー数多型は、蛍光インサイチューハイブリダイゼーション、比較ゲノムハイブリダイゼーション、アレイ比較ゲノムハイブリダイゼーションおよび大規模SNP遺伝子型決定をはじめとする技術によって見いだすことができる。例えば、蛍光プローブおよび蛍光顕微鏡を用いて、染色体上の特定のDNA配列の存在または非存在を検出し得る。
特定の態様においては、細胞に対する化合物効果のスクリーニング、動物組織に対する化合物効果のスクリーニングおよび化合物とDNAとタンパク質との間の相互作用のスクリーニングを含むハイコンテントおよびハイスループット化合物スクリーニングデータが、本明細書に記載される方法およびシステムに従って用いられる。ハイスループットスクリーニングは、ロボット、液体取り扱い装置および自動化プロセスを用いて、何百万もの生化学的、遺伝的または薬理学的テストを実施する。特定のHTSスクリーニングにおいては、マイクロタイタープレート上のウェル中の化合物が、タンパク質、細胞または胚などの分析対象物で満たされる。インキュベーション期間ののち、プレートウェルにわたって計測を実施して、分析対象物に対する化合物の差次的な影響を測定する。そして、得られた計測値を、知識ベースへのインポートおよびその中で用いるために、特徴セットへと形成してもよい。ハイコンテントスクリーニングは、自動化デジタル顕微鏡をフローサイトメータおよびコンピューターシステムと合わせて用いて、画像情報を取得し、それを分析し得る。
本明細書に記載される方法、計算システム、およびユーザインターフェースは、多様な試験、薬物開発、前臨床および臨床試験用途に用いられ得る。例えば、疾患などの概念のクエリを実行することにより、非常に関連性がある遺伝子および生物学的経路が表示され得る。そのような遺伝子または経路が他方で化合物に対するクエリを実施されて、可能性のある薬物治療候補が見いだされ得る。本明細書に記載される方法およびシステムなしに、これらの試験経路は利用不可能である。また、さらに多くの複雑な進行または接続が可能にされる。そのような用途の非限定的な例は、疾患に関連する遺伝子、疾患に関連する経路、および疾患に関連する環境効果を同定する用途、発症および疾病進行の機構を理解する用途、種の多様性および種間の比較を試験する用途、新規な薬物標的を同定する用途、疾病および治療応答バイオマーカーを同定する用途、既存の化合物ための代替の適応症を同定する用途、薬物毒性を予測する用途、薬物の作用機序を同定する用途ならびに染色体領域の増幅または欠失を同定する用途を含む。
本明細書に記載される方法およびシステムによって可能にされる前臨床および臨床試験のさらなる例は、患者の薬物応答および薬物代謝を予測する吸収、分布、代謝および排泄(ADME)、疾患カテゴリーへの患者層別化、例えば、患者の病期のより正確な患者層別化、早期疾患検出および予防医学を可能にするための早期疾患バイオマーカーの同定ならびに疾患の可能性、薬物応答または他の表現型を推定するための患者の遺伝子プロファイルの使用を含む。例えば、特定の態様において、臨床医は、遺伝子プロファイル情報を得るためにマイクロアレイを用いる。遺伝子プロファイル情報は、特徴セットとして知識ベース中にインポートされ得る。方法およびシステムはさらに、その特徴セットを知識ベース中の他の知識すべてと即座に相互に関係付けること、および上記のように関連性がある概念に関してクエリを実行することを含む。その後、クエリ結果は、同じく上記のようにナビゲートおよび拡張されてもよい。
マルチコンポーネントフレームワーク
図6は、実験遺伝子データ(602)、インシリコ遺伝子データ(604)、および知識ベースの遺伝子データ(606)を用いて遺伝子についてのサマリースコアを得る実施態様を概略的に示す。サマリースコアは、表現型などの関心対象の概念と相互関係がある、または関連性がある遺伝子を同定するために遺伝子をランク付けするために用いられ得る。
いくつかの実施態様において、実験遺伝子データ602はデータベースからの遺伝子セットを含み、複数の遺伝子セットの各遺伝子セットは複数の遺伝子および複数の遺伝子と関連性がある複数の実験値を含む。複数の実験値は、関心対象の生物学的、化学的、または医学的概念によって影響される、またはそれと相互関係がある。いくつかの実施態様においては、実験遺伝子データ602からインシリコ遺伝子データ604が得られる。いくつかの実施態様においては、さらなるデータベースまたは実験遺伝子データを有するデータベースとは別個の外部データベースから知識ベースの遺伝子データが得られる。いくつかの実施態様において、知識ベースの遺伝子データは、実験遺伝子データと同じデータベースに記憶されてもよい。いくつかの実施態様において、知識ベースの遺伝子データは遺伝子セットデータを含む。いくつかの実施態様において、知識ベースの遺伝子データ606は遺伝子ネットワークデータを含む。いくつかの実施態様において、知識ベースの遺伝子データは遺伝子グループデータを含む。遺伝子グループは、生物学的経路、細胞周期、細胞機能、細胞タイプ、生物学的活性、共通の調節、転写因子などの様々な機構を介して互いに関連している複数の遺伝子を含む。
図10は、図6に示す3つのタイプのデータについての例示的なデータを含む表を示す。13個の仮想遺伝子についてのデータが表に示されている。表の各行が遺伝子についてのデータを示す。左上のセルP1は、データが表現型P1と相互関係があることを示す。見出しS1〜S3を有する3つの列は、実験データである、3つの遺伝子セットS1、S2、およびS3についてのデータを示す。見出しS1*、S2*、およびS3*を有する3つの列は、それぞれ遺伝子セットS1、S2、およびS3からの実験遺伝子データから導出されたインシリコ遺伝子データを示す。見出しPPIを有する列は、タンパク質間相互作用(PPI)ネットワークから得られたインタラクトームデータを表し、PPIデータは知識ベースのデータ形態である。
別のタイプの知識ベースのデータが、遺伝子オントロジー(GO)データを遺伝子グループデータの形態として示すものとして、見出しGOを有する列に示されている。基準を上回る値を有する遺伝子セットS1、S2、およびS3についての実験データが、ボックス1002の中に図示されている。遺伝子1〜9についてのボックス1002の中の実験データを有する遺伝子以外のいくつかの遺伝子について、実験データに基づく遺伝子セットについてのインシリコデータS1*、S2*、およびS3*が得られることは注目に値する。すなわち、遺伝子10〜13についてのデータが得られ、ボックス1004の中に図示されている。知識ベースのデータが実験データと組み合わされて表中のデータを提供している。
知識ベースのデータに関しても同様に、それらの遺伝子についての実験データが存在しないか、または基準を満たさないとしても、遺伝子10、12、および13についてのデータが得られる。実験、インシリコ、および知識ベースのデータを組み合わせた結果として、遺伝子についてのサマリースコアを得ることができる。サマリースコアは、実験データより多くの情報を考慮に入れるため、関心対象の表現型と関連性がある遺伝子についての情報をよりよく取り込むことができる。
一番右の列は、13の遺伝子についてのサマリースコアのランクを示す。遺伝子10は、表中に実験スコアを有しないが、そのインシリコスコアおよび知識ベーススコアに起因して、ランク9を有する。いくつかの実施態様は、実験データ、インシリコデータおよび知識ベースのデータに対応する3つのコンポーネントを含む。このモデルはまた、3つのコンポーネントに対応する様々なパラメータならびに関心対象の概念についての遺伝子ランクのより一貫した、より有効な予測を提供するようにモデルを修正する他のパラメータを含む。いくつかの実施態様においては、3つのコンポーネントフレームワークを反映するモデルのパラメータを選択するために、教師なし機械学習が用いられる。3つのコンポーネントフレームワークおよびフレームワークを反映するモデルを訓練するための機械学習技術は以下でさらに記載される。
図7は、いくつかの実施態様にしたがって、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するためのプロセスを示す。プロセス700は、データベースから複数の遺伝子セットを選択することを含み、複数の遺伝子セットの各遺伝子セットは、複数の遺伝子および遺伝子と関連性がある複数の実験値を含む。複数の実験値は、関心対象の生物学的または化学的概念と相互関係がある。いくつかの実施態様において、複数の遺伝子セットは生物学的、化学的、または医学的概念によってタグ付けされている。いくつかの実施態様において、複数の遺伝子セットは、生物学的、化学的、または医学的概念によって影響されている。いくつかの実施態様において、遺伝子セットは、多くの場合、単一の試験のための単一のサンプルに関連している。しかし、いくつかの実施態様において、実験遺伝子値はまた、種々のサンプルまたは試験から得られてもよい。いくつかの実施態様において、試験は、遺伝子発現レベルを正常状態と疾患状態との間で比較し得る。いくつかの実施態様において、例えば、遺伝子セットは、疾患のための遺伝子についてのデータまたは治療ありの疾患サンプルおよび治療なしの疾患サンプルからの遺伝子についてのデータを含み得る。
プロセス700はまた、複数の遺伝子からの第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコアを、該第一の1つまたは複数の遺伝子の実験値を用いて決定することを含む。図10は、いくつかの実施態様にしたがって遺伝子ランクを得るための概略データを示す。図10中の例を用いると、3つの遺伝子セットS1、S2、S3を選択し、3つの遺伝子についての遺伝子スコアを、ボックス1002中の遺伝子1〜9の実験値を用いて決定する。いくつかの実施態様において、実験値は基準、例えば下限閾値10(100のうち)を満たす。いくつかの実施態様において、実験遺伝子スコアは、最高スコアが上限100を有するよう、正規化される。
図7に戻ると、プロセス700はまた、複数の遺伝子の中の第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを、少なくとも、第一の1つまたは複数の遺伝子と第二の1つまたは複数の遺伝子との相互関係に基づいて決定することを含む。ブロック706を参照すること。いくつかの実施態様において、1つまたは複数のインシリコ遺伝子スコアは、図11に示すプロセスによって得ることができる。
プロセス700はまた、704で得られた第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコアおよび706で得られた第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、第一および第二の1つまたは複数の遺伝子についてのサマリースコアを得ることを含む。ブロック708を参照すること。いくつかの実施態様において、サマリースコアは、複数の遺伝子セットにわたる遺伝子スコアの線形集計によって得ることができる。いくつかの実施態様において、実験遺伝子スコアとインシリコ遺伝子スコアとは差次的に重み付けされる。いくつかの実施態様において、サマリースコアは、遺伝子についての実験スコアおよびインシリコスコアを入力として受け、遺伝子についてのサマリースコアを出力として提供するモデルを用いて得られる。いくつかの実施態様においては、図8に示すプロセス800を用いてサマリースコアを得ることができる。
プロセス700はさらに、サマリースコアを用いて、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定することを含む。ブロック710を参照すること。いくつかの実施態様において、サマリースコアは正規化され得る。いくつかの実施態様において、サマリースコアを用いて遺伝子をランク付けし得、高ランクの遺伝子が遺伝子パネルへの候補を提供し得る。いくつかの実施態様においては、表現型に関して同定された遺伝子を用いて、例えば2つの表現型が属種関係を有するとき、関連する表現型に関する遺伝子を得るプロセスにそれを知らせ得る。いくつかの実施態様においては、2つの関連する表現型に関して選択された遺伝子を比較して、例えば2つの表現型に共通の基礎にある機構を同定する高次情報を提供し得る。
図8は、教師なし学習によって訓練されたモデルを用いてサマリースコアを得るプロセス(800)を示す。プロセス800は、実験スコアおよびインシリコスコアを入力として受けるモデルを提供することを含む。このモデルはまた、テストされる遺伝子についてのサマリースコアを出力として提供する。ブロック802を参照すること。プロセス800はさらに、データベースのデータを訓練セットと検証セットとに分割することを含む。ブロック804を参照すること。次いで、プロセス800は、訓練セットについてのサマリースコアおよび検証セットについてのサマリースコアを得ることを含む。ブロック806を参照すること。プロセス800はさらに、教師なし学習技法を用いて、目的関数を最適化することによってモデルを訓練することを含む。いくつかの実施態様において、目的関数を最適化することは、訓練セットについてのサマリースコアと検証セットについてのサマリースコアとの間の差を最小化することを含む。いくつかの実施態様において、プロセス800はさらに、訓練されたモデルを、1つまたは複数のインシリコ遺伝子スコアにおいて1つまたは複数の実験遺伝子スコアに適用して、第一の1つまたは複数の遺伝子および第二の1つまたは複数の遺伝子についてのサマリースコアを得ることを含む。
いくつかの実施態様において、サマリースコアは正規化される。いくつかの実施態様において、各サマリースコアは特異値の線形結合によって集計される。いくつかの実施態様において、線形結合は平方和を含む。いくつかの実施態様において、第一の1つまたは複数の遺伝子は第二の1つまたは複数の遺伝子と同一ではない。
いくつかの実施態様において、モデルは、
F(θ)=k1*c1+k2*c2+...+kn*cn
(式中、θはモデルのパラメータであり、ciはモデルのコンポーネントであり、kiはコンポーネントに関する重み係数である)
の形を有する。
いくつかの実施態様において、方法はさらに、実験データタイプのサンプル重みに基づいてモデルのコンポーネントの1つまたは複数をサブコンポーネントへと分割することを含む。例えば、実験データは、RNA発現データ、DNAメチル化データおよびSNPデータをコンポーネントC1として含むことができる。モデルは、K1の重みを3つの実験タイプに分配して、例えば0.7をRNA発現データに提供し、0.2をDNAメチル化データに提供し、0.1をSNPデータに提供することができる。
いくつかの実施態様において、目的関数を最適化することは、訓練セットについてのサマリースコアと検証セットについてのサマリースコアとの間の差を最小化することを含む。いくつかの実施態様において、目的関数を最適化することにおいて、サマリースコアはランクキングされ、所定のサイズのバケットに入れられる。ペナルティスコアがバケットに割り当てられ、ペナルティスコアはより高ランクのサマリースコアを優遇する。図9は、目的関数を最適化することを説明するためのデータを示す。一番左の列は、テストデータセットについてのサマリースコアに基づいてテストデータセットから得られた20の遺伝子のランクを示す。左から二番目の列はランク遺伝子についてのサマリースコアを示す。左から三番目の列は検証セットについてのサマリースコアのデータを示す。いくつかの実施態様において、目的関数は、テストセットと検証セットとの間のスコア差を最小化する。例えば、目的関数を最適化するとき、二乗平均平方根差を最小化することができる。
いくつかの実施態様において、サマリースコアは特定のサイズのバケットに入れられる。図9に示すように、バケット#1は、ペナルティ重み1を割り当てられるランキング1〜5の遺伝子を含む。ペナルティ重みは遺伝子サマリースコアを掛けられる。したがって、ランキング1〜5の遺伝子はペナルティを科されない。ランキング6〜10である遺伝子は、バケット#2に入れられ、ペナルティスコア0.95を割り当てられる。ランキング11〜15の遺伝子は、バケット#3に割り当てられ、ペナルティスコア0.9を割り当てられる。最後に、ランキング16〜20の遺伝子は、バケット#4に入れられ、ペナルティスコア0.85を割り当てられる。したがって、ブロック808の最適化プロセスにおいて、より高ランクの遺伝子はペナルティが小さいか、またはより大きく重み付けされる。いくつかの実施態様において、目的関数は最高ランクのサマリースコアのみに基づき、より低ランクの遺伝子はペナルティスコア0を有する。
いくつかの実施態様において、より粗い比較の場合には、個々の遺伝子ランクの代わりに、バケットの順序数のランク差を目的関数として用いてもよく、これは、いくつかの実施態様においてノイズを平滑化し得る。
いくつかの実施態様においては、モデルの予測力を評価するために、種々のバケットサイズをモデルに適用し得る。小さいバケットサイズでもモデルが良好に機能するならば、それは、そのモデルが優れた予測力を有することを示す。
いくつかの実施態様において、方法は、目的関数を最適化することによってモデルを訓練する工程を含む。いくつかの実施態様において、モデルを訓練する工程は、ブートストラップ技術をブートストラップサンプルに適用する工程を含む。いくつかの実施態様において、目的関数は、ブートストラップ後の少なくとも1つのサマリースコア分布に関連する。いくつかの実施態様において、目的関数を最適化することは、概念特異的遺伝子セットから得られるサマリースコア分布と、ランダムな遺伝子セットから得られるサマリースコア分布との間の隔たりを最大化することを含む。
バイオタグベースの遺伝子セット優先順位付け
いくつかの実施態様において、種々の試験は種々の量および性質の遺伝子セットを含む。いくつかの実施態様は、試験から適切な遺伝子セットを選択するための機構を提供する。例えば、第一の試験は、摂動データの30の遺伝子セットを有する。第二の試験は、摂動患者データの3つの遺伝子セットを有する。第三の試験は、疾患の3つの種々の疾患薬物治療を有する。第四の試験は、同じ化合物の20の種々の濃度からのデータを含む。本開示のいくつかの実施態様は、種々の試験が遺伝子の総合スコアに類似の影響を有するように試験から遺伝子セットを選択するための機構を提供する。いくつかの実施態様は、試験の優先順位バイオタグを用いて問題を解決する。いくつかの実施態様において、遺伝子セットデータは、遺伝子セット中のデータの性質および本質を示すために、種々のバイオタグでタグ付けされる。そして、種々の重みがバイオタグに割り当てられる。すべての遺伝子セットにおいて各複合バイオテックスコアiを提供することができる。
遺伝子が2つ以上のタグと関連しているならば、複合バイオタグスコアをバイオタグから得てもよい。バイオタグカテゴリーは、組織タイプ、バイオデザイン、グループ別、バイオソース、化合物、遺伝子モードなどを含むが、これらに限定されない。種々のカテゴリーにおけるタグの例を以下に提供する。
バイオソース:サンプルを得た方法を説明するために必要。ATCC、HPA、Tumorscape、DSMZ、hESCreg、ISCR、JCRB、CellBank Australia、COSMIC、NIH Human Embryonic Stem Cell Registry、RIKEN BRCなどのリソースから集められた細胞株を含む。
バイオデザイン:比較の性質を説明するために必要である。バイオセット中の駆動差を最も説明するバイオデザインをタグ付けする。
組織:特定の臓器/組織/細胞タイプを定義するために必要である。組織オントロジーはMeSHから得られる。
疾患:サンプルが疾患状態に該当する場合のみ、割り当てられる。疾患オントロジーはSNOMED CTから得られる。
化合物:サンプルが化合物によって影響された。化合物オントロジーはMeSHから得られる。
遺伝子:サンプル中の遺伝子が、実験グループ間(例えばER−乳癌とER+乳癌との間)の主要な分化マーカーとして改変されたか、または役立てられた。ソースは、NCBIのEntrez Gene、UnigeneおよびGenBank、EMBL-EBI Ensemblなどを含む。
遺伝子モード:遺伝子改変を説明する。特定の遺伝子に関連しないならば、遺伝子モードを割り当てることはできない。
バイオグループ:上記の他の語彙が関連性がある用語を提供しないとき、タグとして用いられる。バイオグループは、MSigDB、GO、EMBL-EBI InterPro、PMAP、TargetScanなどのリソースから得られる。
Figure 2020502697
Figure 2020502697
Figure 2020502697
いくつかの実施態様において、遺伝子セットは、遺伝子セットと関連性がある1つまたは複数のバイオタグに基づいて選択される。いくつかの実施態様において、最高のバイオタグスコアを有する遺伝子セットが解析に選択され、選択されない遺伝子は下流の解析から除外される。いくつかの実施態様において、試験中の遺伝子の数が第一の基準未満であるならば、その試験は除外される。いくつかの実施態様において、バイオタグスコアの点で最高ランクの遺伝子が選択され、選択される遺伝子セットの数は第二の基準を超えない。
いくつかの実施態様において、バイオタグは、遺伝子セットをフィルタ処理し、除外するために用いられる。例えば、遺伝子セットのバイオタグは、遺伝子セットが、関心対象の表現型と関連性がある特定の遺伝子のノックダウンでタグ付けされていることを示し得る。遺伝子セット中の遺伝子の実験値は、関心対象の遺伝子型よりもむしろノックダウン遺伝子によって調節される可能性が高い。したがって、この情報を与えられると、いくつかの実施態様において、その遺伝子セットは解析から除外されて、ノックダウン遺伝子からの複合効果が回避される。
インシリコ遺伝子スコア
本開示の実施態様は、実験遺伝子スコアからインシリコ遺伝子スコアを得る方法およびシステムを提供する。様々な実施態様において、同定されたインシリコデータは、実験データと相互関係があるが、完全にパラレルではない。
図11は、実験遺伝子セットデータからインシリコスコアを得るプロセス1100を示す。再び図10の例示的なデータを参照すると、実験遺伝子セットS1に関してインシリコ遺伝子セットデータS1*が得られる。同様に、他の経験的実験遺伝子セットそれぞれに関してインシリコ遺伝子セットデータを得ることができる。図11中、プロセス1100は、特定の遺伝子セット(例えば図10中のS1)に関し、データベースから第二の複数の遺伝子セットを同定することを含み、第二の複数の遺伝子セットの各遺伝子セットは、第二の複数の遺伝子および第二の複数の遺伝子と関連性がある第二の複数の実験値を含む。第二の複数の実験値は、第一の1つまたは複数の遺伝子(例えば、図10中のS1の遺伝子1、遺伝子3および遺伝子6)の中の第一の遺伝子(例えば、図10中の遺伝子1)と関連性がある。
いくつかの実施態様において、プロセス1100は、第二の複数の遺伝子にわたる実験値を集計して、第一の遺伝子についての集計された値のベクトルを得ることを含む。次いで、プロセス1100は、現行の遺伝子セットに関してさらなる遺伝子を考慮する必要があるかどうかを見るためにチェックする。その必要がある場合、工程1102に戻って、データベースから別の複数の遺伝子セットを同定して、その遺伝子についての集計された値のベクトルを得る。インシリコスコアに関してさらなる遺伝子を考慮する必要がないならば、いくつかの実施態様において、遺伝子についての集計されたベクトルを重み付けする。ブロック1110を参照すること。次いで、プロセス1100は、実験値の重み付きベクトルを集計して、第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを含む圧縮されたベクトルを得る。
図12は、表現型P1と相互関係がある遺伝子セットS1についての例示的なデータを示す。ブロック201を参照すること。図12はまた、1202の遺伝子セットS1の実験データからインシリコデータを得る方法を示す。いくつかの実施態様において、最高実験スコア92を有する第一の遺伝子である遺伝子1が選択されて、ボックス1204中のデータのn行列を生成する。行列1204は、遺伝子1と相互関係があると同定されている遺伝子セットを含む。換言するならば、遺伝子セットS04〜S07中の遺伝子の1つまたは複数の実験値が遺伝子1と相互関係がある。同様に、遺伝子3に関して遺伝子セットが同定されて、ボックス1206中の行列データを提供する。ここでもまた、遺伝子セットS08〜S10が遺伝子3と相互関係がある。同様に、遺伝子セットS11〜S15が選択または同定される。ブロック1208を参照すること。行列1204、1206、および1208それぞれについて、行列中の遺伝子セットにわたる遺伝子の実験値を集計し、同定された遺伝子セットにわたる特定の遺伝子と他の遺伝子との相互関係を示す、遺伝子スコアの集計されたベクトルを得る。
いくつかの実施態様において、実験遺伝子スコアは線形集計によって集計される。いくつかの実施態様において、集計された遺伝子は実験スコアの二乗平均平方根を含む。次いで、3つの遺伝子の集計されたベクトルをさらに行列1210に集計して圧縮されたベクトルS1*を提供する。得られたS1*ベクトルは、他の遺伝子セットにおける他の遺伝子と遺伝子セットS1における3つの遺伝子との相互関係を反映する。いくつかの実施態様においては、集計されたベクトルである遺伝子1のRMS、遺伝子3のRMS、および遺伝子6のRMSをそれぞれ、遺伝子セットS1中の対応する遺伝子の実験値に比例して重み付けする。換言するならば、行列1210中の遺伝子1、遺伝子3、および遺伝子6に関する重みを、92、63、および32に比例して重み付けする。
いくつかの実施態様において、特定の遺伝子についての集計されたベクトルのそれぞれは、その特定の遺伝子について同定された第二の複数の遺伝子セットの遺伝子セットの数に比例して重み付けされる。換言するならば、行列1204は4つの遺伝子セットを有し、行列1206は3つの遺伝子セットを有し、行列1208は5つの遺伝子セットを有するため、行列1210中の3つの遺伝子は、4、3および5に比例して重み付けされる。いくつかの実施態様において、行列1210中のS1についての遺伝子スコアは0〜1の範囲に正規化されることができ、これを、行列1210中のベクトルのための重み係数として用いることができる。
上記方法を用いて得られたインシリコ遺伝子スコアおよび実験遺伝子スコアを用いると、データを上記モデルに提供して、第一および第二の1つまたは複数の遺伝子についてのサマリースコアを決定することができる。多くの遺伝子間で相互関係が強いならば、インシリコ遺伝子スコアに関連するモデル項は大きくなる。逆に、遺伝子間の相互関係が小さいならば、インシリコ遺伝子スコア項は小さくなる。後者の場合、いくつかの実施態様においては、インシリコ遺伝子スコアを得るために、実験遺伝子セット中のより少数の遺伝子を処理するだけでよい。
遺伝子グループデータ
いくつかの実施態様においては、関心対象の概念と関連性がある遺伝子をランク付けするためのサマリースコアを決定するために、遺伝子セット理論データを実験遺伝子データと相乗的に組み合わせ得る。いくつかの実施態様においては、実験遺伝子スコアおよびインシリコ遺伝子スコアに加えて遺伝子グループスコアが計算される。
いくつかの実施態様において、方法は、第三の1つまたは複数の遺伝子についての1つまたは複数の遺伝子グループスコアを決定する工程を含む。いくつかの実施態様において、方法は、第三の1つまたは複数の遺伝子のうちの少なくともいくつかについての遺伝子グループスコア、ならびに(b)で決定された第一の1つまたは複数の遺伝子についての1つまたは複数の実験スコア、および(c)で決定された第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコスコアに少なくとも部分的に基づいて、第一および第二の1つまたは複数の遺伝子についてのサマリースコアを得る工程を含む。いくつかの実施態様において、ラベルに関連する複数の遺伝子は遺伝子セットライブラリ中の遺伝子を含む。いくつかの態様において、遺伝子セットライブラリ中の遺伝子は遺伝子オントロジー中の遺伝子を含む。
図13は、いくつかの実施態様にしたがって、遺伝子グループスコアを得ることができるプロセスを示す。プロセス1300は、遺伝子スコアが計算されるべき特定の遺伝子を含む遺伝子グループを同定することを含む。ブロック1302を参照すること。
図14に示すデータは、図13中のプロセス1300の説明を支援するために用いられる。プロセス1300の範囲を図14の例に限定することを意図したものではない。図14は、遺伝子セットS1〜S3の遺伝子および遺伝子グループの遺伝子の説明図を示す。図はまた、データから遺伝子グループスコアを得る方法を説明する。セット1406は遺伝子セットS1〜S3からの遺伝子を含む。遺伝子グループスコアが計算されるべき関心対象のその遺伝子はG1(1402)である。セット1404は遺伝子グループiを示す。セット1406とセット1404との共通部分が1408(Ii)である。
図13のプロセス1300の工程1302は、特定の遺伝子(Gk)を含む遺伝子グループ(グループi)を同定する。式1410を参照すること。プロセス1300はさらに、実験遺伝子セット(S1〜S3)の中にある遺伝子グループのメンバー(Ii)を同定することを含む。ブロック1304および式1412を参照すること。いくつかの実施態様において、遺伝子グループ中の遺伝子は遺伝子セットライブラリ中の遺伝子を含む。いくつかの実施態様において、遺伝子セットライブラリ中の遺伝子は遺伝子オントロジー中の遺伝子を含む。いくつかの実施態様において、遺伝子グループのラベルは、生物学的機能、生物学的経路、共通の特徴などを示す。
プロセス300はさらに、遺伝子グループ(図14のグループi)のメンバーであって実験遺伝子セット(図14のG1〜G3)の中にあるメンバーの割合(例えば図14におけるPi)を決定することを含む。ブロックを参照すること。式1414を参照すること。プロセス1300はさらに、遺伝子グループのメンバーであって実験遺伝子セットの中にあるメンバー(図14のIi)の実験値を集計し、それにより、遺伝子グループについての合計実験値(Qi)を得ることを含む。ブロック1308および式1416を参照すること。
図15は、遺伝子グループのメンバーであって実験遺伝子セット(G1〜G3)の中にあるメンバーIiについての実験値を示し、これは、図15中のボックス1002に囲まれた網掛けされたセルとして示されている。ここで、共通部分Ii中のメンバーはG1、G3、G7、G8、およびG11を含む。したがって、遺伝子セットS1、S2、およびS3中の、強調されている上記遺伝子の対応する実験値を合計して、遺伝子グループの合計実験値(Si)を提供する。
プロセス1300はさらに、遺伝子グループ(グループi)についての%値(Pi)と合計実験値(Qi)とを掛け合わすことを含む。図14の式1418および図13のブロック1310を参照すること。プロセス1300はさらに、その遺伝子を含むさらなる遺伝子グループがあるかどうかを決定することを含む。ブロック1312を参照すること。ある場合、プロセスはブロック1302に戻る。ない場合、プロセス1300は、ブロック1314に進んですべての遺伝子グループについての積を集計し、それにより、その遺伝子についてのサマリースコア(Tk)を
Figure 2020502697
として得る。
インタラクトームデータ
いくつかの実施態様においては、遺伝子についてのサマリースコアを決定するために、インタラクトームデータがプロセシングフレームワークに統合される。
いくつかの実施態様において、方法はさらに、第四の1つまたは複数の遺伝子それぞれについてのインタラクトームスコアを決定する工程を含む。いくつかの実施態様において、特定の遺伝子についての各インタラクトームスコアは、(1)特定の遺伝子と、遺伝子ネットワーク中でその特定の遺伝子に接続された他の遺伝子との間のつながり、および(2)第一の1つまたは複数の遺伝子の1つまたは複数の実験値の少なくともいくつかを用いて決定される。いくつかの態様において、方法は、第四の1つまたは複数の遺伝子のうちの少なくともいくつかについてのインタラクトームスコア、ならびに(b)で決定された第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコア、および(c)で決定された第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、少なくとも第一の1つまたは複数の遺伝子および第二の1つまたは複数の遺伝子についてのサマリースコアを得る工程を含む。いくつかの実施態様において、遺伝子のネットワークは、遺伝子、タンパク質およびリン脂質の間の相互作用および/または関連に基づく。
本開示のいくつかの実施態様は、知識ベースのデータおよび実験データを用いてインタラクトームスコアを計算する方法を提供する。図16は、いくつかの実施態様にしたがって、インタラクトームスコアを計算するプロセスを示す。プロセス1600は、第一の1つまたは複数の遺伝子および/または第二の1つまたは複数の遺伝子のうちの少なくともいくつかを含む遺伝子のネットワークを提供することを含む。第一の1つまたは複数の遺伝子は実験遺伝子データに関連し、第二の1つまたは複数の遺伝子はインシリコ遺伝子データに関連する。ネットワーク中の遺伝子の各ペアはエッジによって接続されている。ネットワークの遺伝子は第四の1つまたは複数の遺伝子を含む。
図17は、遺伝子G1〜G13を含む遺伝子のネットワーク1702についてインタラクトームデータを得る方法を説明する図を示す。ネットワーク1702は、工程1602で提供されることができるネットワークの一例である。プロセス1600はさらに、接続エッジの数によって計測される、特定の遺伝子からの接続距離に基づいて、その特定の遺伝子についての接続された遺伝子の近傍を画定することを含む。ブロック1604を参照すること。近傍1704は、1604で画定された近傍の一例である。近傍1704は、遺伝子G1から接続エッジ2つ以下の接続距離を有する遺伝子を含む。
プロセス1600はさらに、特定の遺伝子(G1)と、近傍中の1つまたは複数の他の遺伝子との間の1つまたは複数の接続距離を決定することを含む。ブロック1608を参照すること。プロセス1600はさらに、(i)1つまたは複数の接続距離、および(ii)近傍中の1つまたは複数の他の遺伝子の、実験データに基づくサマリースコアを用いて、インタラクトームスコアを計算することを含む。
いくつかの実施態様において、インタラクトームスコアは、複数の分数の合計に比例するように計算され、各分数は、近傍中の別の遺伝子についてのサマリースコアを、特定の遺伝子と、近傍中の当該別の遺伝子との間の接続距離で割ったものである。いくつかの実施態様において、遺伝子Gkについてのインタラクトームスコアは、
インタラクトーム_Gk〜Σ(SGi/dGi
(式中、Gi∩Nであり、dGiは、GiからGkまでの距離であり、SGiは、Giについての実験ベースのサマリースコアである)のとおりに推定される。
いくつかの代替実施態様において、インタラクトームスコアは、プロセス1800を用いて決定され得る。図18は、インタラクトームデータおよび実験データを用いてインタラクトームスコアを得るための代替実施態様としてのプロセス1800を示す。プロセス1800は、第一の1つまたは複数の遺伝子および/または第二の1つまたは複数の遺伝子のうちの少なくともいくつかを含む遺伝子のネットワークを提供することを含む。ネットワーク中の遺伝子は、第一の閾値を上回るサマリースコアを有する。ブロック1802を参照すること。
図19は、遺伝子のネットワークおよびプロセス1800を実行するインタラクトームスコアを得るためのアルゴリズムを示す。
プロセス1800はさらに、少なくとも1つのインタラクトーム知識ベース中の2つの遺伝子についての接続データに基づいて、2つの遺伝子を接続する各エッジに重みを割り当てることを含む。いくつかの実施態様において、エッジの重みは、インタラクトーム知識ベース中の接続の数に比例する。いくつかの実施態様において、重みは、インタラクトーム知識ベースにしたがって、2つの遺伝子の接続の他の定量尺度に比例する。ブロック1804を参照すること。
プロセス1800はさらに、ネットワーク中の各遺伝子に関し、(i)特定の遺伝子とその特定の遺伝子に接続された他の遺伝子との間のエッジの重み、および(ii)特定の遺伝子に接続されたすべての遺伝子についてのサマリースコアを用いて、インタラクトームスコアを計算することを含む。ブロック1806を参照すること。いくつかの実施態様において、インタラクトームスコアは、
S'Gi〜SGi+Σ((SGi+SGn)*EdgeWeightn
(式中、S'Giは、遺伝子Giについてのインタラクトームスコアであり、SGiは、遺伝子Giについてのサマリースコアであり、SGnは、Giに直接的に接続した遺伝子Gnについてのサマリースコアであり、EdgeWeightnは、知識ベースのデータに基づいてGiとGnとを接続するエッジに割り当てられた重みである)のとおりに計算される。
プロセス1800はさらに、第二の閾値よりも小さいインタラクトームスコアを第一パス辞書中に保存することを含む。ブロック1808を参照すること。次いで、プロセス1800は、第一パス辞書中のすべての遺伝子についてインタラクトームスコアの計算を繰り返すことにより、インタラクトームスコアを更新することに進む。1810を参照すること。プロセス1800はさらに、辞書のさらなるパスに関して繰り返すかどうかを決定することを含む。ブロック8012を参照すること。繰り返す場合、プロセスはブロック1808に戻り、閾値よりも小さいインタラクトームスコアを第二パス辞書中に保存したのち、第二パス辞書中のすべての遺伝子についてのインタラクトームスコアの計算を繰り返すことにより、インタラクトームスコアを更新する。プロセスが、ネットワークについてのインタラクトームスコアをさらに拡大しないことを決定する場合、プロセスは1814で終了する。1800のプロセスは、高い比較的高い実験値および強い接続を有する遺伝子についてのインタラクトームスコアを計算することによって始まる。プロセスは、閾値に達するまで下に進み、それにより、実験データが割り当てられていないノートにもアクセスする。その後、プロセスは、より高い実験重み値を有する他のノードに対する相互作用により、ネットワーク強度を再評価する。
ランダムな遺伝子中の遺伝子の減衰
特定の遺伝子が様々な表現型とランダムまたは非特異的に関連することが認められている。これらの遺伝子は、特定の状況においてはランダムなバックグラウンド遺伝子と見なされ得る。したがって、表現型または他の関心対象の概念と関連性がある重要な遺伝子をより効果的に同定するために、これらランダムなバックグラウンド遺伝子の効果を抑制することが望ましい。例えば、一部のサイトカインは、癌細胞への応答として癌と高い相互関係を有する傾向にあるが、癌の原因を理解するためのそれらの価値は限られるといえる。
ランダムな遺伝子セットが真にランダムであるならば、遺伝子セットの遺伝子と関心対象の表現型との間に規則性または相互関係がほとんどないはずである。逆に、遺伝子が表現型と有意な相互関係を有するならば、遺伝子セットのランダムさに関係なく、関心対象の概念とのその相互関係は、基礎にある機構を理解するのに意義があるとはいえない。
いくつかの実施態様において、ランダムな遺伝子セットはデータベースからサンプル抽出される。ランダムな遺伝子セットからの遺伝子のランクリストを得ることができる。次いで、いくつかの実施態様は、ランダムな遺伝子セット中の遺伝子のランクの積を得る。ランク積は、1つまたは複数のランダムな遺伝子セットにわたる特定の遺伝子のランクの積を含む。ランクは、特定の遺伝子と、関心対象の生物学的、化学的、または医学的概念との相互関係に基づく。
いくつかの実施態様において、この方法はまた、遺伝子またはセットが表現型と相互関係がない場合にランク積値を偶然に得る確率を示す、ランク積のp値を計算する工程を含む。いくつかの実施態様において、方法はさらに、p値に基づいて遺伝子の遺伝子スコアに減衰重みを適用する工程を含む。
いくつかの実施態様において、第一および第二の1つまたは複数の遺伝子についてのサマリースコアは、1つまたは複数のランダムな遺伝子セット中の第一および第二の1つまたは複数の遺伝子の実験値が関心対象の生物学的、化学的、または医学的概念と相互関係がある可能性に基づいてペナルティを科される。いくつかの実施態様において、特定の遺伝子の各サマリースコアは、ランク積のp値に反比例するペナルティ値によってペナルティを科される。例えば、減衰重みεは、ε〜p-1またはε〜log(abs(p-1))と定義することができる。
コンピュータシステム
明らかであるように、本発明の特定の態様は、1つまたは複数のコンピュータシステムに記憶された、またはそれを介して転送される命令および/またはデータの制御下で働くプロセスを用いる。特定の態様はまた、これらの動作を実行するための装置に関する。この装置は、要求される目的のために特別に設計および/または構築されてもよいし、コンピュータに記憶された、または別のやり方で利用可能にされる1つまたは複数のコンピュータプログラムおよび/またはデータ構造によって選択的に構成された汎用コンピュータであってもよい。本明細書に提示されるプロセスは本質的に、いかなる特定のコンピュータまたは他の装置にも関連しない。特に、本明細書における教示に従って書かれたプログラムとともに様々な汎用機を用いてもよいし、必要な方法工程を実行するためのより専用化された装置を構築することがより簡便である場合もある。これら多様な機械のための具体的な構造が以下に示され、記載される。
加えて、特定の態様は、少なくとも以下のタスクと関連性がある様々なコンピュータ実行動作を実行するためのプログラム命令および/またはデータ(データ構造を含む)を含むコンピュータ可読媒体またはコンピュータプログラム製品に関する:(1)計装、データベース(私的または公的、(例えばNCBI)、および他のソース)から生データを得るタスク、(2)特徴セットを提供するために生データをキュレーションするタスク、(3)特徴セットおよび他のデータをリポジトリ、例えばデータベースまたは知識ベースにインポートするタスク、(4)インポートされたデータからの特徴をインデックス中の所定の特徴レファレンスへマッピングするタスク、(5)所定の特徴インデックスを生成するタスク、(6)特徴セットと特徴セットとの間および特徴セットと特徴グループとの間の相互関係または他のスコアリングを生成するタスク、(7)特徴グループを生成するタスク、(8)特徴、特徴セットおよび特徴グループと関連性がある概念スコアまたは他の概念の尺度を生成するタスク、(9)概念と関連性があるあらゆる特徴、特徴セットおよび特徴グループの概念に割り当てられる権限レベルを決定するタスク、(10)データソース、生物、権限レベルまたは他のカテゴリーによってフィルタ処理するタスク、(11)ユーザからのクエリ(任意で、クエリ入力コンテンツおよび/または検索制限のクエリフィールドを含む)を受けるタスク、(12)特徴、特徴グループ、特徴セット、試験、概念、タキソノミーグループなどを用いてクエリを実行するタスク、および(13)クエリ結果をユーザに提示する(任意で、ユーザが、関連コンテンツを介してナビゲートし、関連クエリを実行することを許すやり方で)タスク。本発明はまた、これらのタスクのいずれかまたはすべてを実行するための命令を実行する計算装置に関する。本発明はまた、そのようなタスクを実行するための命令とコード化されたコンピュータ可読媒体を含む計算装置に関する。
さらに、本発明は、コンピュータ可読媒体に記憶された有用なデータ構造に関する。そのようなデータ構造は、例えば、特徴セット、特徴グループ、タキソノミー階層、特徴インデックス、スコアテーブルおよび本明細書に提示されている他の論理データグループのいずれかを含む。特定の態様はまた、本明細書に記載されるように生成された結果(例えばクエリ結果)またはデータ構造のいずれかを記憶するための機能(例えばコードおよびプロセス)を提供する。そのような結果またはデータ構造は一般的に、少なくとも一時的に、以下の記載に提示されるものなどのコンピュータ可読媒体に記憶される。結果またはデータ構造はまた、表示、印刷などの様々なやり方のいずれかで出力されてもよい。
本発明に従ってユーザとインターフェースするのに適したディスプレイの例は、陰極線管ディスプレイ、液晶ディスプレイ、プラズマディスプレイ、タッチスクリーンディスプレイ、ビデオプロジェクションディスプレイ、発光ダイオードおよび有機発光ダイオードディスプレイ、表面伝導型電子放出ディスプレイなどを含むが、それらに限定されない。プリンタの例は、トナーベースのプリンタ、液体インクジェットプリンタ、固体インクプリンタ、昇華型プリンタならびにインクレスプリンタ、例えばサーマルプリンタを含む。印刷は、紙または透明フィルムなどの有形の媒体に対する印刷であり得る。
本発明のコンピュータプログラム製品および計算装置と共に用いるのに適した有形のコンピュータ可読媒体の例は、磁気媒体、例えばハードディスク、フロッピーディスクおよび磁気テープ;光学媒体、例えばCD-ROMディスク;磁気光媒体;半導体メモリ装置(例えばフラッシュメモリ)およびプログラム命令を記憶し、実行するように特別に構成されたハードウェア装置、例えば読み取り専用メモリ装置(ROM)およびランダムアクセスメモリ(RAM)、場合によっては特定用途向け集積回路(ASIC)、プログラマブル論理装置(PLD)ならびにコンピュータ読み取り可能命令を送るための信号伝送媒体、例えばローカルエリアネットワーク、ワイドエリアネットワークおよびインタネットを含むが、それらに限定されない。本明細書において提供されるデータおよびプログラム命令はまた、搬送波または他の輸送媒体(電子的または光伝導経路を含む)上で具現化され得る。本発明のデータおよびプログラム命令はまた、搬送波または他の輸送媒体(例えば光回線、電線および/または放送波)上で具現化され得る。
プログラム命令の例は、低レベルコード、例えばコンパイラによって生成されたもの、およびインタプリタを用いてコンピュータによって実行され得る高レベルコードを含む。さらに、プログラム命令は、機械コード、ソースコードおよび/またはコンピューティング機の動作を直接的または間接的に制御する任意の他のコードであり得る。コードは、入力、出力、計算、条件、分岐、繰り返しループなどを指定し得る。
図9は、適切に構成または設計されたとき、特定の態様にしたがって計算装置として働くことができる一般的なコンピュータシステムを簡単なブロック形式で示す。コンピュータシステム2000は、一次記憶装置2006(一般的にはランダムアクセスメモリまたはRAM)、一次記憶装置2004(一般的には読み取り専用メモリまたはROM)を含む記憶装置に結合されている任意の数のプロセッサ2002(中央処理装置またはCPUとも呼ばれる)を含む。CPU2002は、マイクロコントローラおよびマイクロプロセッサを含む様々なタイプ、例えばプログラマブル装置(例えばCPLDおよびFPGA)および非プログラマブル装置、例えばゲートアレイASICまたは汎用マイクロプロセッサであり得る。図示される態様において、一次記憶装置2004は、データおよび命令を一方向にCPUに転送するように働き、一次記憶装置2006は一般的に、データおよび命令を双方向に転送するために用いられる。これらの一次記憶装置はいずれも、任意の適当なコンピュータ可読媒体、例えば上記のものを含み得る。また、大容量記憶装置2008が、一次記憶装置2006に双方向に結合され、さらなるデータ記憶容量を提供し、上記コンピュータ可読媒体のいずれかを含み得る。大容量記憶装置2008は、プログラム、データなどを記憶するために用いられ得、一般的にはハードディスクなどの二次記憶媒体である。多くの場合、そのようなプログラム、データなどは、CPU2002上での実行のために一次メモリ2006に一時的にコピーされる。大容量記憶装置2008内に保持された情報は、適切な場合、一次記憶装置2004の一部として標準的に組み込まれてもよいことが理解されよう。また、CD-ROM2014などの特定の大容量記憶装置がデータを一方向にCPUまたは一次記憶装置に送ってもよい。
CPU2002はまた、1つまたは複数の入出力装置、例えばビデオモニタ、トラックボール、マウス、キーボード、マイク、タッチセンサ式ディスプレイ、トランスデューサカードリーダ、磁気または紙テープリーダ、タブレット、スタイラス、音声または手書き文字認識周辺機器、USBポートまたは他の周知の入力装置、例えばもちろん他のコンピュータに接続するインタフェース2010に結合される。最後に、CPU2002は、任意で、2012で概して示すように、外部接続を用いて、外部装置、例えばデータベースまたはコンピュータもしくは電気通信ネットワークに結合されてもよい。このような接続により、CPUは、本明細書に記載される方法工程を実行する過程で、ネットワークから情報を受け得る、またはネットワークに情報を出力し得ると考えられる。
1つの態様において、コンピュータシステム900などのシステムは、本明細書に記載されるタスクのいくつかまたはすべてを実行することができるデータインポート、データ相互関係およびクエリシステムとして用いられる。システム900はまた、知識ベースと関連性がありかつクエリを行う様々な他のツール(例えばデータ取り込みツール)として働き得る。データファイルを含む情報およびプログラムが、研究者によるアクセスまたはダウンロードのために、ネットワーク接続2012を介して提供されることができる。あるいはまた、そのような情報、プログラムおよびファイルは、記憶装置上で研究者に提供されることもできる。
特定の態様において、コンピュータシステム900は、サンプルからデータを取り込むデータ取得システム、例えばマイクロアレイまたはハイスループットスクリーニングシステムに直接的に結合されている。そのようなシステムからのデータは、システム900による解析のためにインターフェース2010を介して提供される。あるいはまた、システム900によって処理されるデータは、データ記憶ソース、例えば関連性があるデータのデータベースまたは他のリポジトリから提供される。ひとたび装置900に入るならば、一次記憶装置2006または大容量記憶装置2008などのメモリ装置が関連性があるデータを少なくとも一時的に緩衝記憶または記憶する。メモリはまた、特徴セットをインポートすること、特徴セットを互いおよび特徴グループと相互に関係付けること、クエリを生成し、実行することなどを含む、データをインポート、解析および提示するための様々なルーチンおよび/またはプログラムを記憶し得る。
特定の態様において、ユーザ端末は、任意のタイプのコンピュータ(例えばデスクトップ、ラップトップ、タブレットなど)、メディアコンピューティングプラットフォーム(例えばケーブル、衛星セットトップボックス、デジタルビデオレコーダなど)、ハンドヘルド型コンピューティング装置(例えばPDA、電子メールクライアントなど)、携帯電話または任意の他のタイプのコンピューティングもしくは通信プラットフォームを含み得る。ユーザ端末と通信するサーバシステムは、サーバ装置または分散型サーバ装置を含み得、メインフレームコンピュータ、ミニコンピュータ、スーパーコンピュータ、パーソナルコンピュータまたはそれらの組み合わせを含み得る。また、本発明の範囲を逸脱することなく、複数のサーバシステムを用い得る。ユーザ端末およびサーバシステムは、ネットワークを介して互いと通信し得る。本発明の範囲を限定することなく、ネットワークは、例えば、有線ネットワーク、例えばLAN(ローカルエリアネットワーク)、WAN(ワイドエリアネットワーク)、MAN(メトロポリタンエリアネットワーク)、ISDN(統合デジタルサービス通信網)など、および無線ネットワーク、例えば無線LAN、CDMA、Bluetoothおよび衛星通信ネットワークなどを含み得る。
実施例1
実施例1は、ランダムな遺伝子セットと表現型に特異的である遺伝子セットとの間で、表現型と相互関係がある遺伝子の効果を調査する。また、ブートストラップの効果を調査する。
ランダムな遺伝子セットを含むグループの場合、複数のランダムな遺伝子セットのランダムなセットをデータベースからランダムに選択し、ランダムなスコアセット中の遺伝子についてのサマリースコアを得る。ランダムな遺伝子セットの結果が図21Aの2102、2106、2012、および2016に示されている。2102における結果は、ブートストラップなしで10個のランダムな遺伝子セットから得られたものである。2106における結果は、ブートストラップを用いて10個のランダムな遺伝子セットから得られたものである。2112における結果は、ブートストラップなしで50個のランダムな遺伝子セットから得られたものである。2016における結果は、ブートストラップを用いて50個のランダムな遺伝子セットから得られたものである。
表現型特異的遺伝子セットの結果が、2104、2108、2114、および2118に示されている。2104における結果は、ブートストラップなしで10個の表現型特異的遺伝子セットから得られたものである。2108における結果は、ブートストラップを用いて10個の表現型特異的遺伝子セットからのデータから得られたものである。2114における結果は、ブートストラップなしで50個の表現型特異的遺伝子セットのデータから得られたものであり、2118における結果は、ブートストラップを用いて50の表現型特異的遺伝子セットから得られたものである。図21Aから明らかであるように、サンプルのサイズが大きくなるにつれ、訓練セットと検証セットとの間のサマリースコアの差は増大する。そのうえ、ブートストラップは、一方では2112と2114との間の差および他方では2116と2118との間の差に見られるように、サマリースコア差の有意な改善を提供する。さらに、表現型特異的遺伝子セットはより低いサマリースコア差を有し、スコアが上記プロセスにしたがって遺伝子型特異的遺伝子セットに基づく場合のモデル信頼性の改善を示す。
データは、ランダムな遺伝子セット中のいくつかの遺伝子の影響を除くことがおそらくは有益であることを示唆する。図21Bはこの仮説を裏付けるように見える。図21Bは、上記いくつかの実施態様にしたがってサマリースコアが修正された後のデータを示す。この実施態様において、遺伝子についてのサマリースコアは、ランダムな遺伝子セット中の遺伝子のランク積のpスコアに基づいてペナルティを科されるかまたは減衰され、ペナルティはピース(piece)スコアと逆相関する。ここのデータは、遺伝子の数が増すにつれ、サマリースコア差が減衰なしの場合よりも急速に減少することを示す。
実施例2:既存技術に対する改善
本明細書に開示される方法およびシステムは、実験遺伝子データ、インシリコ遺伝子データおよび/または知識ベースのデータを用いて関心対象の概念に関して遺伝子を同定する処理フレームワークを提供する。フレームワークのコンポーネントはさらに、上記の重大な新規の特徴を含む。この実施例は、本開示の実施態様からの結果を、マルチオミックスもしくはポリオミックスデータまたは上記他の新規な特徴を含まない従来の方法と比較する。
第一に、同じセットの実験データを従来の方法およびいくつかの実施態様による方法に提供して、結腸癌と潜在的に関連性がある遺伝子を同定する。この比較は、結果が2つの方法の間で同一ではないものの、以下の表に示す従来の方法によって同定された上位46の遺伝子が、いくつかの実施態様の方法によって同定された上位2%の遺伝子と概ね一致することを示す。
Figure 2020502697
Figure 2020502697
第二に、実験データを従来の方法およびいくつかの実施態様の方法に提供して、自閉症と潜在的に関連性がある遺伝子を同定する。この比較は、いくつかの実施態様の方法によって同定された上位100の遺伝子中の多くの遺伝子が、従来の方法によって同定されない多くの遺伝子を含むことを示す。以下の表は、本方法によって同定された上位100の遺伝子を含む。
Figure 2020502697
Figure 2020502697
Figure 2020502697
上記同定された遺伝子のうち、多くは従来の方法によって同定されない。より重要なことに、文献調査が、これらの遺伝子と自閉症との関連を裏付ける経験的証拠があることを確認した。例えば、自閉症とのNOTCH2の関連を確認するShi et al., Molecular Autism 2013, 4:8;自閉症とのFOXP1の関連を確認するBacon et al., Molecular Psychiatry (2015), 632-639および自閉症とのSLC7A3の関連を確認するNava et al., Amino Acids (2015) 47:2647-2658を参照すること。
理解を明確にするために前記発明はいくぶん詳細に説明されたが、発明の範囲内で特定の変更および修正を加え得ることが明らかであろう。本発明のプロセスおよびデータベースを実現する代替法が数多くあることが留意されるべきである。したがって、本態様は、例示的であり、限定的ではないと見なされるべきであり、本発明は、本明細書に記される詳細に限定されない。

Claims (52)

1つまたは複数のプロセッサおよびシステムメモリを含むコンピュータシステムにおいて実行される、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するための方法であって、
(a)該1つまたは複数のプロセッサにより、データベースから複数の遺伝子セットを選択する工程であって、該複数の遺伝子セットの各遺伝子セットが、複数の遺伝子および該複数の遺伝子と関連性がある複数の実験値を含み、該複数の実験値が、少なくとも1つの実験において関心対象の生物学的、化学的、または医学的概念と相互関係がある、工程;
(b)各遺伝子セットについて、該1つまたは複数のプロセッサにより、該複数の遺伝子の中の第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコアを、該第一の1つまたは複数の遺伝子の1つまたは複数の実験値を用いて決定する工程;
(c)各遺伝子セットについて、該1つまたは複数のプロセッサにより、該複数の遺伝子の中の第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係に少なくとも部分的に基づいて決定する工程であって、該複数の遺伝子セットとは別の、該データベース中の他の遺伝子セットにおける、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係が示される、工程;
(d)該1つまたは複数のプロセッサにより、(b)で決定された該第一の1つまたは複数の遺伝子についての該1つまたは複数の実験遺伝子スコア、および(c)で決定された該第二の1つまたは複数の遺伝子についての該1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、該第一および第二の1つまたは複数の遺伝子についてのサマリースコアを得る工程であって、各サマリースコアが該複数の遺伝子セットにわたって集計される、工程;ならびに
(e)該1つまたは複数のプロセッサにより、該第一および第二の1つまたは複数の遺伝子の該サマリースコアを用いて、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定する工程
を含む、前記方法。
(c)が、前記複数の遺伝子セットの各遺伝子セットについて、
(i)前記データベースから第二の複数の遺伝子セットを同定する工程であって、該第二の複数の遺伝子セットの各遺伝子セットが、第二の複数の遺伝子および該第二の複数の遺伝子と関連性がある第二の複数の実験値を含み、該第二の複数の実験値が、前記第一の1つまたは複数の遺伝子の中の第一の遺伝子と相互関係がある、工程;
(ii)該第二の複数の遺伝子セットにわたる実験値を集計して、該第一の1つまたは複数の遺伝子の中の該第一の遺伝子についての集計された値のベクトルを得る工程;
(iii)(i)および(ii)を該第一の1つまたは複数の遺伝子の中の1つまたは複数の他の遺伝子に適用し、それにより、該第一の1つまたは複数の遺伝子の中の該1つまたは複数の他の遺伝子についての実験値の1つまたは複数のベクトルを得る工程;ならびに
(iv)該第一の1つまたは複数の遺伝子の中の該第一の遺伝子および該1つまたは複数の他の遺伝子についての集計された値のベクトルを集計し、それにより、該第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを含む1つの圧縮されたベクトルを得る工程
を含む、請求項1記載の方法。
前記第一の1つまたは複数の遺伝子の中の特定の遺伝子についての(iv)の集計されたベクトルのそれぞれが、該特定の遺伝子の実験値に比例して重み付けされる、請求項2記載の方法。
前記第一の1つまたは複数の遺伝子の中の特定の遺伝子についての(iv)の集計されたベクトルのそれぞれが、該特定の遺伝子について同定された前記第二の複数の遺伝子セットの遺伝子セットの数に比例して重み付けされる、請求項2記載の方法。
(d)の前に、第三の1つまたは複数の遺伝子についての1つまたは複数の遺伝子グループスコアを決定する工程をさらに含む、前記請求項のいずれか一項記載の方法。
特定の遺伝子についての各遺伝子グループスコアが、
(i)グループラベルに関連する遺伝子のグループをそれぞれが含む1つまたは複数の遺伝子グループの遺伝子メンバー構成であって、該遺伝子のグループが該特定の遺伝子を含む、遺伝子メンバー構成;および
(ii)前記第一の1つまたは複数の遺伝子の1つまたは複数の実験値のうちの少なくともいくつか
を用いて決定される、請求項5記載の方法。
(d)が、前記第一および第二の1つまたは複数の遺伝子についてのサマリースコアを、前記第三の1つまたは複数の遺伝子のうちの少なくともいくつかについての遺伝子グループスコア、ならびに(b)で決定された該第一の1つまたは複数の遺伝子についての1つまたは複数の実験スコア、および(c)で決定された該第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコスコアに少なくとも部分的に基づいて得ることを含む、請求項6記載の方法。
前記第三の1つまたは複数の遺伝子についての前記1つまたは複数の遺伝子グループスコアを決定する工程が、
該第三の1つまたは複数の遺伝子の中の特定の遺伝子について、該特定の遺伝子をそれぞれが含む1つまたは複数の遺伝子グループを同定すること;
各遺伝子グループについて、該遺伝子グループのメンバーであって前記第一の1つまたは複数の遺伝子の中にあるメンバーの割合を決定すること;
各遺伝子グループについて、該遺伝子グループのメンバーである、該第一の1つまたは複数の遺伝子のうちの少なくともいくつか、の1つまたは複数の実験値を集計し、それにより、該遺伝子グループの合計実験値を得ること;ならびに
該第三の1つまたは複数の遺伝子の中の該特定の遺伝子について、該遺伝子グループのメンバーであって該第一の1つまたは複数の遺伝子の中にあるメンバーの割合と、該遺伝子グループについての該合計実験値とを用いて、遺伝子グループスコアを決定すること
を含む、請求項7記載の方法。
前記遺伝子グループのメンバーであって前記第一の1つまたは複数の遺伝子の中にあるメンバーの割合と、該遺伝子グループについての合計実験値とを用いて、前記遺伝子グループスコアを決定することが、
各遺伝子グループについて、該メンバーの割合と該合計実験値との積を得て、それにより、前記1つまたは複数の遺伝子グループについての1つまたは複数の積を得ること;
該1つまたは複数の遺伝子グループにわたって該1つまたは複数の積を合計し、それにより、積和を得ること;および
前記第三の1つまたは複数の遺伝子の中の前記特定の遺伝子について、該積和に基づいて遺伝子グループスコアを決定すること
を含む、請求項8記載の方法。
前記グループラベルに関連する複数の遺伝子が、遺伝子セットライブラリ中の遺伝子を含む、請求項6記載の方法。
遺伝子セットライブラリ中の前記遺伝子が、遺伝子オントロジー中の遺伝子を含む、請求項10記載の方法。
前記グループラベルが、状態、属性、疾患、表現型、症候群、形質、生物学的機能、生物学的経路、細胞、生物、生物学的機能、化合物、治療、またはそれらの任意の組み合わせを示す、請求項6記載の方法。
(d)の前に、それぞれ第四の1つまたは複数の遺伝子についてのインタラクトームスコアを決定する工程をさらに含む、前記請求項のいずれか一項記載の方法。
特定の遺伝子についての各インタラクトームスコアが、
(i)該特定の遺伝子と、遺伝子のネットワーク中で該特定の遺伝子に接続された他の遺伝子との間のつながり;および(ii)前記第一の1つまたは複数の遺伝子の1つまたは複数の実験値のうちの少なくともいくつか
を用いて決定される、請求項0記載の方法。
(d)が、前記第四の1つまたは複数の遺伝子のうちの少なくともいくつかについてのインタラクトームスコア、ならびに(b)で決定された前記第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコア、および(c)で決定された前記第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、少なくとも該第一の1つまたは複数の遺伝子および該第二の1つまたは複数の遺伝子についてのサマリースコアを得ることを含む、請求項14記載の方法。
前記遺伝子のネットワークが、遺伝子、タンパク質、および/またはリン脂質の間の相互作用および関係に基づく、請求項14記載の方法。
それぞれ前記第四の1つまたは複数の遺伝子についてのインタラクトームスコアを決定する工程が、
遺伝子のネットワークを提供することであって、該ネットワーク中の遺伝子の各ペアがエッジによって接続され、該ネットワークの該遺伝子が、前記第一の1つまたは複数の遺伝子および/または前記第二の1つまたは複数の遺伝子のうちの少なくともいくつかを含む該第四の1つまたは複数の遺伝子を含む、提供すること;
該第四の1つまたは複数の各遺伝子について、2つの隣接する遺伝子を接続する接続エッジの数によって計測される、特定の遺伝子からの接続距離に基づいて、接続された遺伝子の近傍を画定すること;ならびに
該第四の1つまたは複数の遺伝子の各遺伝子について、(i)該特定の遺伝子と、該近傍中の1つまたは複数の他の遺伝子との間の1つまたは複数の接続距離、および(ii)該近傍中の該1つまたは複数の他の遺伝子の、実験データに基づくサマリースコアを用いて、インタラクトームスコアを計算すること
を含む、請求項14記載の方法。
前記インタラクトームスコアが、複数の分数の和に比例するものとして計算され、各分数が、前記近傍中の別の遺伝子のサマリースコアを、前記特定の遺伝子と該近傍中の該別の遺伝子との間の接続距離で割ったものである、請求項17記載の方法。
それぞれ第四の1つまたは複数の遺伝子についてのインタラクトームスコアを決定する工程が、
遺伝子のネットワークを提供することであって、該ネットワーク中の該遺伝子が、第一の閾値よりも高い、実験データに基づくサマリースコアを有し、遺伝子の各ペアがエッジによって接続され、該ネットワークの該遺伝子が、前記第一の1つまたは複数の遺伝子および/または前記第二の1つまたは複数の遺伝子のうちの少なくともいくつかを含む該第四の1つまたは複数の遺伝子を含む、提供すること;
各エッジについて、少なくとも1つのインタラクトーム知識ベース中の2つの遺伝子についての接続データに基づいて、該2つの遺伝子を接続する該エッジに重みを割り当てること;ならびに
該ネットワーク中の各遺伝子について、(i)特定の遺伝子と、該特定の遺伝子に接続されたすべての遺伝子との間のエッジの重み、および(ii)該特定の遺伝子に接続されたすべての遺伝子のサマリースコアを用いて、インタラクトームスコアを計算すること
を含む、請求項14記載の方法。
前記インタラクトームスコアを計算することが、該インタラクトームスコアを、Ni':
Ni'=Ni+Σ((Ni+Nn)*エッジの重みn)
として計算することを含み、式中、Niは、特定の遺伝子iのサマリースコアであり、Nnは、該特定の遺伝子に接続された遺伝子nのサマリースコアであり、エッジの重みnは、該特定の遺伝子iと該遺伝子nとを接続するエッジの重みである、請求項19記載の方法。
前記インタラクトームスコアを計算することが、
第二の閾値よりも小さいNi'を第一パス辞書中に保存すること;および
該第一パス辞書中のすべての遺伝子について請求項20記載の計算を繰り返し、それにより、該インタラクトームスコアを更新すること
をさらに含む、請求項20記載の方法。
インタラクトームスコアを計算することが、1つまたは複数のパスに関して請求項21に記載の動作を繰り返すことをさらに含む、請求項21記載の方法。
(a)の複数の実験遺伝子セットを選択する工程が、該実験遺伝子セットと関連性があるバイオタグに割り当てられたバイオタグスコアに基づいて実験遺伝子セットを選択することを含み、該バイオタグスコアが遺伝子セットの重要性のレベルを示す、前記請求項のいずれか一項記載の方法。
前記バイオタグが、バイオソース、バイオデザイン、組織、疾患、化合物、遺伝子、遺伝子モード、バイオグループ、およびそれらの任意の組み合わせからなる群より選択されるカテゴリーごとに編成されている、請求項23記載の方法。
バイオタグに基づいて遺伝子セットおよび/または遺伝子グループのスコアリングを実行する工程をさらに含む、請求項24記載の方法。
前記複数の実験値が変異体または遺伝子に関連するデータを含み、データの値から1つまたは複数の遺伝子への特定の関係を導出することができる、前記請求項のいずれか一項記載の方法。
前記複数の実験値が、複数の遺伝子摂動値を含む、請求項26記載の方法。
前記複数の実験値が、RNA発現、タンパク質発現、DNAメチル化、転写因子活性、および/またはゲノムワイド関連解析における関連性のレベルを示す、請求項26記載の方法。
前記関心対象の生物学的、化学的、または医学的概念が、表現型を含む、前記請求項のいずれか一項記載の方法。
前記表現型が疾患関連表現型を含む、請求項29記載の方法。
特定の遺伝子の各サマリースコアが、前記複数の遺伝子セットにわたる実験スコアおよびインシリコスコアの線形結合として計算される、前記請求項のいずれか一項記載の方法。
(d)が、
実験遺伝子スコアおよびインシリコ遺伝子スコアを入力として受けてサマリースコアを出力として提供するモデルを提供すること;ならびに
該モデルを前記1つまたは複数の実験遺伝子スコアおよび前記1つまたは複数のインシリコ遺伝子スコアに適用して、前記第一の1つまたは複数の遺伝子および前記第二の1つまたは複数の遺伝子についてのサマリースコアを得ること
を含む、前記請求項のいずれか一項記載の方法。
目的関数を最適化することによって前記モデルを訓練する工程をさらに含む、請求項32記載の方法。
前記モデルを訓練する工程が、ブートストラップ技術をブートストラップサンプルに適用することを含む、請求項33記載の方法。
前記目的関数が、ブートストラップ後の少なくとも1つのサマリースコア分布に関連する、請求項34記載の方法。
前記目的関数の最適化が、訓練セットと検証セットとの間のサマリースコアの差を最小化することを含む、請求項33記載の方法。
前記目的関数の最適化が、前記複数の遺伝子セットから得られるサマリースコア分布と、ランダムな遺伝子セットから得られるサマリースコア分布との間の隔たりを最大化することを含む、請求項33記載の方法。
サマリースコアが、ランク付けされて所定のサイズのバケットに入れられ、該バケットにペナルティスコアが割り当てられ、該ペナルティスコアが、より高ランクのサマリースコアを優遇する、請求項33記載の方法。
前記目的関数が、最高ランクのサマリースコアのみに基づく、請求項38記載の方法。
前記モデルを訓練する工程が、前記目的関数を教師なし機械学習法で用いて該モデルのパラメータを学習させることを含む、請求項33記載の方法。
前記モデルが、
F(θ)=k1*c1+k2*c2+...+kn*cn
の形を有し、式中、θは該モデルのパラメータであり、ciは該モデルのコンポーネントであり、kiは該コンポーネントの重み係数である、請求項40記載の方法。
実験データタイプのサンプル重みに基づいて前記モデルの前記コンポーネントのうちの1つまたは複数をサブコンポーネントへと分割する工程をさらに含む、請求項41記載の方法。
前記第一および第二の1つまたは複数の遺伝子のサマリースコアが、1つまたは複数のランダムな遺伝子セット中の該第一および第二の1つまたは複数の遺伝子の実験値が前記関心対象の生物学的、化学的、または医学的概念と相互関係がある可能性がいかに高いかに基づいてペナルティを科される、前記請求項のいずれか一項記載の方法。
特定の遺伝子の各サマリースコアが、ランク積のp値に反比例するペナルティ値によってペナルティを科され、該ランク積が、前記1つまたは複数のランダムな遺伝子セットにわたる該特定の遺伝子のランクの積を含む、請求項43記載の方法。
前記第一の1つまたは複数の遺伝子が、前記第二の1つまたは複数の遺伝子と同一ではない、前記請求項のいずれか一項記載の方法。
前記サマリースコアが正規化される、前記請求項のいずれか一項記載の方法。
前記データベースが複数のサブデータベースを含む、前記請求項のいずれか一項記載の方法。
(b)における前記第一の1つまたは複数の遺伝子の1つまたは複数の実験値が基準を満たす、前記請求項のいずれか一項記載の方法。
各サマリースコアが特異値の線形結合によって集計される、前記請求項のいずれか一項記載の方法。
前記線形結合が二乗和を含む、請求項49記載の方法。
プログラムコードを記憶する非一時的な機械可読媒体を含むコンピュータプログラム製品であって、該プログラムコードがコンピュータシステムの1つまたは複数のプロセッサによって実行されると、該コンピュータシステムによって、該関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するための方法が実行され、該プログラムコードが、
(a)データベースから複数の遺伝子セットを選択するためのコードであって、該複数の遺伝子セットの各遺伝子セットが、複数の遺伝子および該複数の遺伝子と関連性がある複数の実験値を含み、該複数の実験値が、少なくとも1つの実験において関心対象の生物学的、化学的、または医学的概念と相互関係がある、コード;
(b)各遺伝子セットについて、該複数の遺伝子の中の第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコアを、該第一の1つまたは複数の遺伝子の1つまたは複数の実験値を用いて決定するためのコード;
(c)各遺伝子セットについて、該複数の遺伝子の中の第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係に少なくとも部分的に基づいて決定するためのコードであって、該複数の遺伝子セットとは別の、該データベース中の他の遺伝子セットにおける、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係が示される、コード;
(d)(b)で決定された該第一の1つまたは複数の遺伝子についての該1つまたは複数の実験遺伝子スコア、および(c)で決定された該第二の1つまたは複数の遺伝子についての該1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、該第一および第二の1つまたは複数の遺伝子についてのサマリースコアを得るためのコードであって、各サマリースコアが該複数の遺伝子セットにわたって集計される、コード;ならびに
(e)該第一および第二の1つまたは複数の遺伝子の該サマリースコアを用いて、該関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するためのコード
を含む、前記コンピュータプログラム製品。
1つまたは複数のプロセッサ;
システムメモリ;および
コンピュータ実行可能な命令を記憶している1つまたは複数のコンピュータ可読記憶媒体
を含むコンピュータシステムであって、該コンピュータ実行可能な命令が該1つまたは複数のプロセッサによって実行されると、該コンピュータシステムによって、関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定するための方法が実行され、該方法が、
(a)該1つまたは複数のプロセッサにより、データベースから複数の遺伝子セットを選択する工程であって、該複数の遺伝子セットの各遺伝子セットが、複数の遺伝子および該複数の遺伝子と関連性がある複数の実験値を含み、該複数の実験値が、少なくとも1つの実験において該関心対象の生物学的、化学的、または医学的概念と相互関係がある、工程;
(b)各遺伝子セットについて、該1つまたは複数のプロセッサにより、該複数の遺伝子の中の第一の1つまたは複数の遺伝子についての1つまたは複数の実験遺伝子スコアを、該第一の1つまたは複数の遺伝子の1つまたは複数の実験値を用いて決定する工程;
(c)各遺伝子セットについて、該1つまたは複数のプロセッサにより、該複数の遺伝子の中の第二の1つまたは複数の遺伝子についての1つまたは複数のインシリコ遺伝子スコアを、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係に少なくとも部分的に基づいて決定する工程であって、該複数の遺伝子セットとは別の、該データベース中の他の遺伝子セットにおける、該第一の1つまたは複数の遺伝子と該第二の1つまたは複数の遺伝子との相互関係が示される、工程;
(d)該1つまたは複数のプロセッサにより、(b)で決定された該第一の1つまたは複数の遺伝子についての該1つまたは複数の実験遺伝子スコア、および(c)で決定された該第二の1つまたは複数の遺伝子についての該1つまたは複数のインシリコ遺伝子スコアに少なくとも部分的に基づいて、該第一および第二の1つまたは複数の遺伝子についてのサマリースコアを得る工程であって、各サマリースコアが該複数の遺伝子セットにわたって集計される、工程;ならびに
(e)該1つまたは複数のプロセッサにより、該第一および第二の1つまたは複数の遺伝子の該サマリースコアを用いて、該関心対象の生物学的、化学的、または医学的概念と潜在的に関連性がある遺伝子を同定する工程
を含む、前記コンピュータシステム。
JP2019539731A 2016-10-03 2017-10-03 キュレーションされた遺伝子ライブラリおよびネットワークベースのデータ構造を用いる表現型/疾患特異的遺伝子のランク付け方法 Withdrawn JP2020502697A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662403206P 2016-10-03 2016-10-03
US62/403,206 2016-10-03
PCT/US2017/054977 WO2018067595A1 (en) 2016-10-03 2017-10-03 Phenotype/disease specific gene ranking using curated, gene library and network based data structures

Publications (1)

Publication Number Publication Date
JP2020502697A true JP2020502697A (ja) 2020-01-23

Family

ID=60117816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019539731A Withdrawn JP2020502697A (ja) 2016-10-03 2017-10-03 キュレーションされた遺伝子ライブラリおよびネットワークベースのデータ構造を用いる表現型/疾患特異的遺伝子のランク付け方法

Country Status (11)

Country Link
US (1) US10810213B2 (ja)
EP (1) EP3520006B1 (ja)
JP (1) JP2020502697A (ja)
KR (1) KR20190077372A (ja)
CN (1) CN109906486B (ja)
AU (2) AU2017338775B2 (ja)
CA (1) CA3039201A1 (ja)
MX (1) MX2019003765A (ja)
RU (1) RU2019110756A (ja)
SG (1) SG11201902925PA (ja)
WO (1) WO2018067595A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110016499B (zh) 2011-04-15 2023-11-14 约翰·霍普金斯大学 安全测序系统
ES2701742T3 (es) 2012-10-29 2019-02-25 Univ Johns Hopkins Prueba de Papanicolaou para cánceres de ovario y de endometrio
WO2017027653A1 (en) 2015-08-11 2017-02-16 The Johns Hopkins University Assaying ovarian cyst fluid
US11948662B2 (en) * 2017-02-17 2024-04-02 The Regents Of The University Of California Metabolite, annotation, and gene integration system and method
WO2019067092A1 (en) 2017-08-07 2019-04-04 The Johns Hopkins University METHODS AND SUBSTANCES FOR THE EVALUATION AND TREATMENT OF CANCER
EP3550568B8 (en) * 2018-04-07 2024-08-14 Tata Consultancy Services Limited Graph convolution based gene prioritization on heterogeneous networks
US11354591B2 (en) 2018-10-11 2022-06-07 International Business Machines Corporation Identifying gene signatures and corresponding biological pathways based on an automatically curated genomic database
WO2020077352A1 (en) * 2018-10-12 2020-04-16 Human Longevity, Inc. Multi-omic search engine for integrative analysis of cancer genomic and clinical data
KR102230156B1 (ko) * 2018-10-15 2021-03-19 연세대학교 산학협력단 네트워크 기반의 유전자 세트 증강 분석 방법을 이용한 약물 재창출 방법
CN109684286B (zh) * 2018-12-28 2021-10-22 中国科学院苏州生物医学工程技术研究所 数字期刊实验数据共享方法及系统、存储介质、电子设备
WO2020242975A1 (en) * 2019-05-24 2020-12-03 Northeastern University Chemical-disease perturbation ranking
CN110310708A (zh) * 2019-06-18 2019-10-08 广东省生态环境技术研究所 一种构建异化砷还原酶蛋白数据库的方法
CN110364266A (zh) * 2019-06-28 2019-10-22 深圳裕策生物科技有限公司 用于指导临床肿瘤个体化用药的数据库及其构建方法和装置
US20220319656A1 (en) * 2019-08-20 2022-10-06 Technion Research & Development Foundation Automated literature meta analysis using hypothesis generators and automated search
CN110797080A (zh) * 2019-10-18 2020-02-14 湖南大学 基于跨物种迁移学习预测合成致死基因
CN110729022B (zh) * 2019-10-24 2023-06-23 江西中烟工业有限责任公司 一种被动吸烟大鼠早期肝损伤模型建立方法及相关基因筛选方法
CN111028883B (zh) * 2019-11-20 2023-07-18 广州达美智能科技有限公司 基于布尔代数的基因处理方法、装置及可读存储介质
EP3855114A1 (en) * 2020-01-22 2021-07-28 Siemens Gamesa Renewable Energy A/S A method and an apparatus for computer-implemented analyzing of a road transport route
CN111540405B (zh) * 2020-04-29 2023-07-07 新疆大学 一种基于快速网络嵌入的疾病基因预测方法
JP7402140B2 (ja) * 2020-09-23 2023-12-20 株式会社日立製作所 登録装置、登録方法、および登録プログラム
CN112802546B (zh) * 2020-12-29 2024-05-03 中国人民解放军军事科学院军事医学研究院 一种生物状态表征方法、装置、设备及存储介质
TWI755261B (zh) * 2021-01-25 2022-02-11 沐恩生醫光電股份有限公司 基因評估裝置以及方法
US11823440B2 (en) 2021-08-19 2023-11-21 Rehrig Pacific Company Imaging system with unsupervised learning
CN115240772B (zh) * 2022-08-22 2023-08-22 南京医科大学 一种基于图神经网络的解析单细胞通路活性的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009520278A (ja) 2005-12-16 2009-05-21 ネクストバイオ 科学情報知識管理のためのシステムおよび方法
US9183349B2 (en) * 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US8364665B2 (en) 2005-12-16 2013-01-29 Nextbio Directional expression-based scientific information knowledge management
CN101989297A (zh) * 2009-07-30 2011-03-23 陈越 用于计算机上的疾病基因相关药物发掘系统
CN102855398B (zh) 2012-08-28 2016-03-02 中国科学院自动化研究所 基于多源信息融合的疾病潜在关联基因的获取方法
US10072296B2 (en) * 2016-09-19 2018-09-11 The Charlotte Mecklenburg Hospital Authority Compositions and methods for sjögren's syndrome

Also Published As

Publication number Publication date
AU2022268283B2 (en) 2024-03-28
WO2018067595A1 (en) 2018-04-12
SG11201902925PA (en) 2019-05-30
EP3520006B1 (en) 2023-11-29
CN109906486B (zh) 2023-07-14
AU2022268283A1 (en) 2022-12-15
AU2017338775A1 (en) 2019-05-02
CN109906486A (zh) 2019-06-18
KR20190077372A (ko) 2019-07-03
MX2019003765A (es) 2019-09-26
US20180095969A1 (en) 2018-04-05
EP3520006A1 (en) 2019-08-07
AU2017338775B2 (en) 2022-08-11
US10810213B2 (en) 2020-10-20
CA3039201A1 (en) 2018-04-12
RU2019110756A (ru) 2020-11-06

Similar Documents

Publication Publication Date Title
AU2022268283B2 (en) Phenotype/disease specific gene ranking using curated, gene library and network based data structures
Su et al. iLoc-lncRNA: predict the subcellular location of lncRNAs by incorporating octamer composition into general PseKNC
US9141913B2 (en) Categorization and filtering of scientific data
Zhang et al. SCINA: a semi-supervised subtyping algorithm of single cells and bulk samples
US10127353B2 (en) Method and systems for querying sequence-centric scientific information
Langfelder et al. When is hub gene selection better than standard meta-analysis?
US8275737B2 (en) System and method for scientific information knowledge management
US8364665B2 (en) Directional expression-based scientific information knowledge management
Taslaman et al. A framework for regularized non-negative matrix factorization, with application to the analysis of gene expression data
Petereit et al. petal: Co-expression network modelling in R
Angel et al. A simple, scalable approach to building a cross-platform transcriptome atlas
Ickstadt et al. Toward integrative Bayesian analysis in molecular biology
WO2009039425A1 (en) Directional expression-based scientific information knowledge management
Wang et al. Automated single-cell omics end-to-end framework with data-driven batch inference
Linkowski et al. Gene sets analysis using network patterns
Jha et al. Qualitative assessment of functional module detectors on microarray and RNASeq data
Majhi et al. Artificial Intelligence in Bioinformatics
Huang et al. GENVISAGE: Rapid Identification of Discriminative and Explainable Feature Pairs for Genomic Analysis
Sarangdhar et al. Network analyses of biomedical and genomic big data
Stamm Gene set enrichment and projection: A computational tool for knowledge discovery in transcriptomes
Kurdi et al. Evaluation patterns and algorithm for cancer identifications using dynamic clustering
Kamburov More complete and more accurate interactomes for elucidating the mechanisms of complex diseases

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190508

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200929

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20201030