JP2022544604A - がん検体において細胞経路調節不全を検出するためのシステム及び方法 - Google Patents

がん検体において細胞経路調節不全を検出するためのシステム及び方法 Download PDF

Info

Publication number
JP2022544604A
JP2022544604A JP2022509680A JP2022509680A JP2022544604A JP 2022544604 A JP2022544604 A JP 2022544604A JP 2022509680 A JP2022509680 A JP 2022509680A JP 2022509680 A JP2022509680 A JP 2022509680A JP 2022544604 A JP2022544604 A JP 2022544604A
Authority
JP
Japan
Prior art keywords
pathway
disruption
data
gene
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022509680A
Other languages
English (en)
Other versions
JPWO2021034712A5 (ja
Inventor
ナイキ・ティー・ビュービアー
ヘイリー・ビー・レフコフスキー
リー・エフ・ランガー
ジョシュア・エスケー・ベル
キャサリン・イガルトゥア
ジョシュア・ドルーズ
Original Assignee
テンパス・ラボズ・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンパス・ラボズ・インコーポレイテッド filed Critical テンパス・ラボズ・インコーポレイテッド
Publication of JP2022544604A publication Critical patent/JP2022544604A/ja
Publication of JPWO2021034712A5 publication Critical patent/JPWO2021034712A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

RNA発現レベルの情報の使用を含む、細胞経路破壊を決定するのに有用なシステム、方法、及び組成物が、本明細書に開示される。この決定される破壊のレベルは、経路活性を変化させる遺伝子バリアントの特定において、これらのバリアントを疾患状態及び疾患の進行と相関させること、並びに有効である可能性が最も高い治療薬及び回避すべき治療薬を特定することを補助し得る。

Description

関連出願の相互参照
本出願は、2019年8月16日に出願された米国出願第62/888,163号、2019年9月23日に出願された米国出願第62/904,300号、及び2020年3月6日に出願された米国出願第62/986,201号の利益を主張し、これらの内容は、参照によりその全体が本明細書に組み込まれる。
腫瘍発生及び腫瘍維持は、大部分が、腫瘍遺伝子及び/又はそれらのシグナル伝達経路の破壊によって作動されると考えられている。そのような腫瘍遺伝子及びそれらの関連経路の十分に研究されている例としては、受容体チロシンキナーゼ(RTK)/Ras及びホスホイノシチド3-キナーゼ(PI3K)経路が挙げられる。多数の異なる経路が、ある特定のタイプのがんと相関付けられており、実際、これらの経路の遺伝子における変異は、ある特定のがんの作動因子として特定されている。したがって、これらの作動因子である遺伝子及びそれらの遺伝子産物は、薬物開発の取り組みの重要な標的であり、そのような取り組みにより、ある特定の患者に、生命を救い寿命を延長させる多くの治療選択肢がもたらされた。
しかしながら、全てのがんが、公知の遺伝子変異又は公知の経路と関連付けられているわけではない。例えば、DNA分析により、腫瘍発生シグナル伝達経路内の意義不明のバリアント(VUS)を検出する場合がある。意義不明のバリアント(VUS)は、機能的帰結が不明の改変であり、良性のパッセンジャー変異(細胞活性に対してほとんど若しくは全く作用を有さない)を表し得るか、又は病原性(例えば、新規な特徴付けされていない、疾患の原因となる変異)であり得る。いくつかの事例において、バリアントに関する情報がないが、これは、バリアントが珍しいものであるか、又は研究が困難であるためである。これらのバリアントは、臨床的意義を有する場合も有さない場合もあり、DNA分析単独では区別を行うことができない。したがって、経路と相互作用するか又はそれに影響を及ぼすことが知られている遺伝子におけるいくつかの変異は、経路の活性を変化させず、DNA分析は、偽陽性をもたらす場合がある、すなわち、標的化療法に応答しないであろう患者が、DNA分析によって誤って応答者として特定される場合がある。
米国特許仮出願第62/855,750号
したがって、DNAバリアント以外の情報を使用して経路破壊を検出することの必要性が、当該技術分野に存在している。
RNA発現レベルの情報の使用を含む、細胞経路破壊を決定するのに有用なシステム、方法、及び組成物が、本明細書に開示される。例としてであり限定するものではなく、この決定される破壊のレベルは、(1)経路活性を改変する遺伝子バリアントの特定を補助し、(2)特定されたバリアントを疾患状態及び疾患の進行と相関付け、(3)有効である可能性が最も高い治療薬及び回避すべき治療薬を特定するために使用することができる。
一部の実施形態では、対象サンプルからトランスクリプトームデータを調製する方法が、提供される。一部の実施形態では、方法は、対象サンプルからRNAを抽出する工程と、トランスクリプトームデータを得るために抽出されたRNAの配列を得る工程と、トランスクリプトームデータの少なくとも一部分を、少なくとも1つの訓練された経路破壊エンジンに提供する工程と、少なくとも1つの訓練された経路破壊エンジンを使用して、トランスクリプトームデータの一部分を分析する工程とを含む。
一部の実施形態では、患者サンプルについて、細胞経路における調節不全を検出するためのコンピュータ実装方法が、提供される。一部の実施形態では、方法は、陽性対照サンプル及び陰性対照サンプルを含む訓練データセットを使用して、1つ又は複数の経路破壊エンジンを訓練する工程を含む。一部の実施形態では、訓練データセットは、陽性対照遺伝子データ及び陰性対照遺伝子データを含む。一部の実施形態では、それぞれの陽性対照サンプルの遺伝子データは、細胞経路内に含まれる少なくとも1つの遺伝子における少なくとも1つの検出可能な病原性又は病原性である可能性が高いバリアントを含み、それぞれの陰性対照サンプルの遺伝子データは、細胞経路内に含まれるいずれの遺伝子においても検出可能なバリアントを含まないが、良性であることが公知のバリアントは除く。一部の実施形態では、1つ又は複数の訓練された経路破壊エンジンは、1つ又は複数の機械学習モデル又はニューラルネットワークを含む。一部の実施形態では、患者サンプルと関連する遺伝子データが、受信される。一部の実施形態では、遺伝子データは、トランスクリプトームデータを含む。一部の実施形態では、遺伝子データの一部分は、1つ又は複数の訓練された経路破壊エンジンのうちの少なくとも1つに提供される。一部の実施形態では、1つ又は複数の訓練された経路破壊エンジンのうちの少なくとも1つから、細胞経路における細胞経路調節不全を示す少なくとも1つの経路破壊スコアが、受信される。一部の実施形態では、少なくとも1つの経路破壊スコアに基づいて、経路破壊レポートが生成される。
シグナル伝達経路の例を示す。 カスタム経路を示す。 本明細書に開示されるシステム及び方法の例示的な概念を示す概略図である。 本明細書に開示されるシステム及び方法の別の例示的な概念を示す概略図である。 少なくとも1つの組織検体の経路破壊状態を決定し得るシステムの概略図を示す。 このシステムで使用され得るデバイスの概略例である。 図3A及び図3Bのシステムの一部の実施形態で使用され得るハードウェアの例を示す。 経路エンジンを訓練するために使用され得るデータ入力からの例示的なデータの提示を示す。 経路エンジンを訓練し得るプロセスの例を示す。 経路エンジンを訓練するためのアルファパラメータ値を選択し得るプロセスを示す。 オプションの試験のために追加の試験トランスクリプトームを使用して経路エンジンを試験し得るプロセスを示す。 経路エンジンによって生成された経路破壊スコア(「経路調節不全スコア」という用語と交換可能に使用される)を分析するために使用されるウィルコクソン順位和検定の結果の例を示す。 経路エンジンによって生成された経路破壊スコアを分析するために使用されるウィルコクソン順位和検定の別の例示的な結果を示す。 訓練された経路エンジンを生物学的に検証し得る例示的なプロセスを示す。 訓練された経路エンジンを直交的に検証し得るプロセスを示す。 モデルを訓練するための例示的なプロセスを示す。 モデルを訓練するための訓練データを選択し得るプロセスを示す。 多数のモジュールを有するRTK-RAS及びPI3K経路の例示的なモデルを示す。 AKTモジュールにおける意義不明のバリアント(VUS)を示す。 TSC1モジュールに病原性変異がある経路を示す。 PTENモジュールに病原性変異がある経路を示す。 RTK-RAS及びPI3K経路に含まれる各モジュールに対して遺伝子が接続され得ることを示す。 EGFRにおける体細胞病原性変異及びホールドアウトセット上の野生型コホートのEGFR経路調節不全スコアの分布を示す。 TORモデルを使用して生成されたスコアを示す。 ガウシアン・カーネル密度推定を使用して生成された確率分布を示す。 コホートの分布を示す。 経路の調節不全スコアを示す。 図6Rの経路、及び病原性変異をTSC1モジュールで示す。 図6Aの経路、及び病原性変異をPTENモジュールで示す。 PIK3C調節不全スコア並びにEGFR及びPTENにおける病原性変異を伴う、経路の一部分を示す。 RAS経路に接続するNF1遺伝子を示す。 AKTモジュールに対する遺伝子を個別に示す。 RASモジュールに対する遺伝子を個別に示す。 VUSデータに基づいて生成され得る例示的なデータフレームを示す。 全てのグローバル調節不全スコアの例示的なヒストグラムを示す。 考えられる全てのメタ経路に対して1より大きいコホートを有したNF1の変異の結果を示す。 考えられる全てのメタ経路に対して1より大きいコホートを有したNF1の別の変異の結果を示す。 訓練された経路エンジンを使用して経路破壊スコアを生成し得る例示的なプロセスを示す。 目的のがんの円グラフを示す。 変異状態によって図8Aのがんタイプをサブセットにする円グラフを示す。 群間で差次的に発現される遺伝子(DEG)の様々なグラフを示す。 ロジスティック回帰モデルの検証結果を示す。 外部データセットを使用した検証結果の例を示す。 タンパク質活性化データを使用した生物学的検証結果の例を示す。 図10A~図10Iは、図7のプロセスを使用して生成された経路破壊レポートの例を集合的に示す。 図11A~図11Eは、図7のプロセスを使用して生成された経路破壊レポートの例を集合的に示す。 図12Aは、複数の経路エンジンによって分析されている患者のトランスクリプトームの結果を示す。 複数の経路エンジンによって分析されている患者トランスクリプトームのより多くの結果を示す。 複数の経路エンジンによって分析されている患者トランスクリプトームの更なる結果を示す。 複数の経路エンジンによって分析されている患者トランスクリプトームの更に別の結果を示す。 複数の経路エンジンによって分析されている患者トランスクリプトームの追加の結果を示す。 複数の経路エンジンによって分析されている患者トランスクリプトームの追加の結果を示す。 知識を製品に変換する際の医薬品開発会社の専門知識と臨床及び分子データ及びデータサイエンスリソースとの統合を示す概略図である。 システム及び方法を使用してLUAD患者のコホートからのトランスクリプトームを分析する実施例である。 DEG及び経路スコアを使用する次元削減を通じて、陽性対照を陰性対照から分離する代替方法の能力を試験する実施例である。 DEG及び経路スコアを使用する次元削減を通じて、陽性対照を陰性対照から分離する代替方法の能力を試験する実施例である。 本明細書に開示されるシステム及び方法が、目的の経路について陰性対照と陽性対照との間を区別し得ることを集合的に示す。 本明細書に開示されるシステム及び方法が、目的の経路について陰性対照と陽性対照との間を区別し得ることを集合的に示す。 本明細書に開示されるシステム及び方法が、RAS経路の陰性対照と陽性対照との間を区別し得ることを示す、曲線下面積(AUC)及び予測性能グラフを示す。 本明細書に開示されるシステム及び方法が、RAS経路の陰性対照と陽性対照との間を区別し得ることを示す、曲線下面積(AUC)及び予測性能グラフを示す。 図17C及び図17Dは、本明細書に開示されるシステム及び方法が、PI3K経路の陰性対照と陽性対照との間を区別し得ることを示す、AUC及び予測性能グラフを示す。 他の変異群が期待されるモデル出力を呈することを示す性能グラフである。 TCGA肺腺癌コホートにおけるKRAS変異対RAS経路WTモデルを検証した結果を示す性能グラフである。 TCGA肺腺癌コホートにおけるSTK11変異対PI3K経路WTモデルを検証した結果を示す性能グラフである。 このシステム及び方法によって生成された経路破壊スコアと、リン酸化された(すなわち、活性化された)MEK1のタンパク質発現レベルとの間の関係を示すグラフである。 このシステム及び方法によって生成された経路破壊スコアと、リン酸化されたAMPKのタンパク質発現レベルとの間の関係を示すグラフである。 このシステム及び方法が、特定の治療に対する応答者の群と非応答者の群との間を区別し得ることを示すグラフである。 図7のプロセスによって生成された例示的な経路破壊レポートを示す。 図7のプロセスによって生成された別の例示的な経路破壊レポートを示す。 図7のプロセスによって生成された更に別の例示的な経路破壊レポートを示す。 図7のプロセスによって生成された更なる例示的な経路破壊レポートを示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 抗腫瘍薬を列挙した表を示し、薬物の名称、作用部位/腫瘍の種類、薬物の分類、及び一般的な作用機序を示す。 FDAが承認した抗腫瘍薬の一覧表を示しており、薬の名称、作用部位/腫瘍の種類、薬物の分類、及びその薬の影響を受ける少なくとも1つの経路を示す。 FDAが承認した抗腫瘍薬の一覧表を示しており、薬の名称、作用部位/腫瘍の種類、薬物の分類、及びその薬の影響を受ける少なくとも1つの経路を示す。 FDAが承認した抗腫瘍薬の一覧表を示しており、薬の名称、作用部位/腫瘍の種類、薬物の分類、及びその薬の影響を受ける少なくとも1つの経路を示す。 FDAが承認した抗腫瘍薬の一覧表を示しており、薬の名称、作用部位/腫瘍の種類、薬物の分類、及びその薬の影響を受ける少なくとも1つの経路を示す。 FDAが承認した抗腫瘍薬の一覧表を示しており、薬の名称、作用部位/腫瘍の種類、薬物の分類、及びその薬の影響を受ける少なくとも1つの経路を示す。 FDAが承認した抗腫瘍薬の一覧表を示しており、薬の名称、作用部位/腫瘍の種類、薬物の分類、及びその薬の影響を受ける少なくとも1つの経路を示す。 免疫療法レジメンの6か月後の疾患のSTK11破壊スコア(Y軸)及び進行又は進行なし(X軸)を示すバイオリン図を示す。 PD-1阻害剤で処置されたSTK11/LKB1変異の有無における、KRAS変異肺腺癌患者の全生存%(Y軸)対時間(X軸)を示すグラフである(Skoulidisら、Cancer Discov.2018 DOI:10.1158/2159-8290.CD-18-0099、図2B、右パネル)。 PI3K及びRTK/RAS経路の構成モジュールの破壊スコアに基づく527人の患者の2次元クラスタリングを示すグラフである。
ここで、本開示の種々の態様は図面を参照して説明され、同様の参照番号はいくつかの図全体を通して類似の要素に対応する。しかしながら、図面及びそれに関連する本明細書の以下の詳細な説明は、特許請求される主題を開示される特定の形態に限定することを意図するものではないことは理解されるべきである。むしろ、その意図は、特許請求される主題の趣旨及び範囲内に含まれる全ての修飾、等価物、及び代替物を網羅することである。
以下の詳細な説明において、本明細書の一部を形成し、本開示を実施することができる特定の実施形態が例示として示される添付の図面が参照される。これらの実施形態は、当業者が本開示を実施することができるように十分に詳細に説明されている。しかしながら、本開示の実施形態の例を示しているが、詳細な説明及び特定の実施例は、例示としてのみ与えられ、限定としてではないことが理解されるべきである。本開示から、本開示の範囲内の種々の置換、修飾、追加の再配置、又はそれらの組合せを行うことができ、それらは当業者に明らかになるであろう。
一般的な慣行に従って、図面に例示される種々の特徴は、縮尺通りに描かれていない場合がある。本明細書に提示される図面は、任意の特定の方法、デバイス、又はシステムの実際の図であることを意図するものではなく、本開示の種々の実施形態を説明するために利用される単に理想化された表現にすぎない。したがって、種々の特徴の寸法は明確さのために任意に拡張又は縮小されている場合がある。更に、図面の一部は、明確さのために簡略化されている場合がある。したがって、図面は、所与の装置(例えば、デバイス)又は方法の構成要素の全てを示していない場合がある。更に、同様の参照番号は、本明細書及び図面全体を通して同様の特徴を示すために使用され得る。
本明細書に記載されている情報及び信号は、様々な異なる技術及び技法のいずれかを使用して表されている場合がある。例えば、上記の説明全体を通して参照され得るデータ、指示、命令、情報、信号、ビット、記号、及びチップは、電圧、電流、電磁波、磁場若しくは磁性粒子、光学場若しくは光学粒子、又はそれらの任意の組合せによって表されている場合がある。一部の図面は、提示及び説明の明確さのために信号を単一の信号として例示している場合がある。信号は信号のバスを表している場合があり、バスは様々なビット幅を有することができ、本開示は、単一データ信号を含む任意の数のデータ信号で実装され得ることは当業者によって理解される。
本明細書に開示される実施形態に関連して説明されている種々の例示的な論理ブロック、モジュール、回路、及びアルゴリズム動作は、電子ハードウェア、コンピュータソフトウェア、又は両方の組合せとして実装されている場合がある。ハードウェア及びソフトウェアのこの互換性を明確に例示するために、種々の例示的な構成要素、ブロック、モジュール、回路及び動作が、一般にそれらの機能性の観点から説明されている。このような機能性が、ハードウェア又はソフトウェアとして実装されているかどうかは、システム全体に課される特定のアプリケーション及び設計上の制約に依存する。当業者は、各特定のアプリケーションについて様々な方法で説明された機能性を実装することができるが、そのような実装の決定は、本明細書に記載される本開示の実施形態の範囲からの逸脱を引き起こすと解釈されるべきではない。
更に、実施形態は、フローチャート、流れ図、構造図、又はブロック図として示されるプロセスの観点から説明されている場合があることに留意されたい。フローチャートは連続プロセスとして作動可能な動作を説明している場合があるが、これらの動作の多くは、別の順序で、並行して、又は実質的に同時に実施されてもよい。更に、動作の順序は再配置されてもよい。プロセスは、方法、機能、手順、サブルーチン、サブプログラム等に対応することができる。更に、本明細書に開示される方法は、ハードウェア、ソフトウェア、又はその両方に実装され得る。ソフトウェアに実装される場合、機能は、コンピュータ可読媒体上に1つ又は複数の指示又はコードとして保存又は送信され得る。コンピュータ可読媒体は、コンピュータ記憶媒体及びある場所から別の場所へコンピュータプログラムの送信を容易にする任意の媒体を含む通信媒体の両方を含む。
「第1」、「第2」等の指定を使用する本明細書での要素へのいずれかの言及は、そのような制限が明示的に述べられていない限り、これらの要素の量又は順序を限定するものではないことが理解されるべきである。むしろ、これらの指定は、2つ以上の要素又は要素の例を区別する簡便な方法として本明細書で使用され得る。したがって、第1及び第2の要素への言及は、2つのみの要素がそこで利用され得ること、又は第1の要素が何らかの方法で第2の要素に先行しなければならないことを意味するものではない。また、特に明記しない限り、要素のセットは1つ又は複数の要素を含み得る。
本明細書で使用される場合、「構成要素」、「システム」等の用語は、ハードウェア、ハードウェアとソフトウェアの組合せ、ソフトウェア、又は実行中のソフトウェアのいずれかであるコンピュータ関連実体を指すことを意図する。例えば、構成要素は、限定されないが、プロセッサで実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、実行スレッド、プログラム、及び/又はコンピュータであり得る。例として、コンピュータで実行されるアプリケーション及びコンピュータの両方は構成要素であり得る。1つ又は複数の構成要素は、プロセッサ及び/又は実行スレッド内に存在することができ、構成要素は、1つのコンピュータ上にローカライズされてもよく、及び/又は2つ以上のコンピュータ若しくはプロセッサの間で分散されてもよい。
「例示的」という用語は、本明細書において、例、実例、又は例示として役立つことを意味するために使用される。「例示的」として本明細書に記載されている任意の態様又は設計は、必ずしも他の態様又は設計よりも好ましい又は有利であると解釈されるべきではない。
更に、開示される主題は、本明細書に詳述される態様を実装するためのコンピュータ又はプロセッサベースのデバイスを制御するためのソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組合せを作成するための標準的なプログラミング及び/又はエンジニアリング技法を使用するシステム、方法、装置、又は製造品として実装され得る。本明細書で使用される場合、「製造品」(又は代替的に「コンピュータプログラム製品」)という用語は、任意のコンピュータ可読デバイス、キャリア、又は媒体からアクセス可能なコンピュータプログラムを包含することを意図する。例えば、コンピュータ可読媒体は、限定されないが、磁気記憶デバイス(例えば、ハードディスク、フロッピーディスク、磁気ストリップ等)、光ディスク(例えば、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)等)、スマートカード、及びフラッシュメモリデバイス(例えば、カード、スティック)を含むことができる。
更に、搬送波が、電子メールを送信及び受信する際、又はインターネット若しくはローカルエリアネットワーク(LAN)等のネットワークにアクセスする際に使用されるもの等のコンピュータ可読電子データを伝送するために利用され得ることは理解されるべきである。もちろん、当業者は、特許請求される主題の範囲又は趣旨から逸脱せずにこの構成に対して多くの変更を行うことができることを認識する。
「ポリヌクレオチド」、「核酸」及び「核酸分子」という用語は、交換可能に使用され、1つのヌクレオチドのペントースの3'位が、次のペントースの5'位にホスホジエステル基によって結合される、ヌクレオチド(すなわち、RNAについてはリボヌクレオチオド及びDNAについてはデオキシリボヌクレオチド)の共有結合的に連結された配列を指し、限定されないが、RNA、DNA及びcfDNA分子を含む核酸の任意の形態の配列を含む。これらの用語はまた、相補的DNA(cDNA)を指し、これは、酵素である逆転写酵素によって触媒される反応において一本鎖RNA(例えば、メッセンジャーRNA(mRNA)又はマイクロRNA(miRNA))鋳型から合成されたDNAである。「ポリヌクレオチド」という用語は、限定されないが、一本鎖及び二本鎖ポリヌクレオチドを含む。
本明細書で使用される場合、「タンパク質」及び「ポリペプチド」という用語は、隣接する残基のアルファ-アミノ基とカルボキシ基との間のペプチド結合によって他方に接続される一連のアミノ酸残基を指定するために本明細において交換可能に使用される。
「タンパク質」及び「ポリペプチド」という用語は、修飾アミノ酸(例えば、リン酸化、糖化、グリコシル化等)及びアミノ酸類似体を含む、タンパク質アミノ酸のポリマーを指す。「タンパク質」及び「ポリペプチド」は、多くの場合、比較的大きなポリペプチドに関して使用され、一方、「ペプチド」という用語は、多くの場合、小さなポリペプチドに関して使用されるが、当該技術分野においてこれらの用語の使用は重複する。例示的なポリペプチド又はタンパク質には、遺伝子産物、天然に存在するタンパク質、ホモログ、オルソログ、パラログ、断片及び他の等価物、前述のバリアント、断片、及び類似体が含まれる。
本明細書で使用される場合、「染色体」という用語は、遺伝子の形態で遺伝情報を保有する、ほとんどの生細胞の核に見出される核酸及びタンパク質の構造(すなわち、クロマチン)を指す。従来の国際的に認められたヒトゲノム染色体番号付けシステムが本明細書で利用される。
本明細書で使用される場合、「遺伝子」という用語は、ポリペプチド又は機能的RNA分子のいずれかである遺伝子産物をコードする核酸配列を指す。「遺伝子」という用語は、本明細書では広範に解釈されるべきであり、遺伝子のゲノムDNA形態(すなわち、特定の染色体の特定の部分)、並びにそれから産生された遺伝子のmRNA及びcDNA形態の両方を包含する。遺伝子発現の間、ゲノムDNAはRNAに転写され、これはすぐに機能し得るか、又は機能を実行するポリペプチドに翻訳され得る。コード領域(すなわち、遺伝子産物をコードする配列)に加えて、遺伝子は「非コード領域」を含む。非コード領域は、コード領域に直接隣接してもよいか(例えば、コード領域に隣接する5'及び3'非コード領域)、又はコード領域から離れていてもよい(例えば、数キロベース上流又は下流)。「イントロン」(すなわち、翻訳前にRNAスプライシングによって除去される領域)及び翻訳調節エレメント(例えば、リボソーム結合部位、ターミネーター、並びに開始及び終止コドン)を含む、一部の非コード領域はRNAに転写されるが、翻訳されない。必須転写調節領域を含む、他の非コード領域は転写されない。遺伝子は、動員するタンパク質(すなわち、転写因子)によって認識され、結合され、RNAポリメラーゼ結合に役立ち、転写を開始する配列である、「プロモーター」を必要とする。遺伝子は1つより多いプロモーターを有することができ、その結果、5'末端までの距離が異なるメッセンジャーRNA(mRNA)が生じる。本明細書で使用される場合、遺伝子はまた、プロモーターの近くでループすることができる、より遠位に位置する転写調節エレメント(すなわち、「エンハンサー」及び「サイレンサー」)を含むことができ、タンパク質(すなわち、「転写因子」)が転写に影響を及ぼすためにこれらの遠位の調節部位に結合することを可能にする。例えば、「エンハンサー」は、RNAポリメラーゼを動員するか、又は転写を開始するのに役立つ活性化タンパク質を結合することによって転写を増加させる。反対に、「サイレンサー」は、DNAをRNAポリメラーゼに接近しにくくするか、又はそうでなければ転写を阻害するリプレッサータンパク質に結合する。遺伝子はまた、プロモーターを不適切な調節から保護する「インスレーター」エレメントを含むことができ
る。インスレーターは、エンハンサー若しくはサイレンサーとの相互作用を遮断すること、又は凝縮クロマチンの拡散を阻止する障壁として作用することのいずれかによって機能することができる。エンハンサー及びサイレンサーは一般に遺伝子自体の一部とはみなされないが(単一のエンハンサー又はサイレンサーが同義遺伝子の発現を調節することができると仮定した場合)、本明細書で使用される場合、遺伝子という用語は、その発現に影響を及ぼすそれらの遠位エレメントを包含する。
本明細書で使用される場合、「プロモーター」という用語は、コード配列又は機能的RNAの発現を制御することができるDNA配列を指す。一般に、コード配列は、プロモーター配列に対して3'に位置する。プロモーターは、それらの全体が天然遺伝子に由来してもよいか、又は天然に見出される異なるプロモーターに由来する異なるエレメントから構成されてもよいか、又は更に合成DNAセグメントを含んでもよい。異なるプロモーターが、異なる組織若しくは細胞型において、又は発生の異なる段階で、又は異なる環境条件に応答して遺伝子の発現を誘導することができることは当業者によって理解される。ほとんどの場合にほとんどの細胞型において遺伝子を発現させる人工プロモーターは一般に「構成的プロモーター」と称される。ほとんどの細胞型において遺伝子の選択的発現を可能にする人工プロモーターは、「誘導性プロモーター」と称される。
「遺伝子アナライザー」は、生物検体に存在する核酸分子(すなわち、DNA、RNA、cDNA)の特性(例えば、配列)を決定するためのデバイス、システム、及び/又は方法を意味する。「遺伝子アナライザー」はまた、例えば、バイサルファイトシーケンシング、クロマチン免疫沈降、それに続くシーケンシング、シーケンシングを使用したトランスポザーゼ到達可能クロマチンのアッセイ(ATAC-seq)、又は3Cベースの技法を含む方法を利用することによって核酸分子のエピジェネティックな特徴を特性付けるために使用され得る。
「遺伝子配列」及び「配列」という用語は、本明細書において、DNA、RNA又はcDNA分子に存在する一連のヌクレオチドを指すために使用される。本発明の文脈において、配列は、生物検体に存在する核酸をシーケンシングすることによって決定される。
「リード」という用語は、例えば、染色体、ゲノム領域、又は遺伝子とアラインすることによって、より大きな配列又は領域を特定するために使用することができる十分な長さ(例えば、少なくとも約30bp)のDNA配列を指す。
本明細書で使用される場合、「参照ゲノム」という用語は、部分的であるか、完全であるかにかかわらず、対象から特定された配列を参照するために使用され得る任意の生物又はウイルスの任意の特定の既知のゲノム配列を指す。www.ncbi.nlm.nih.govにおけるNational Center for Biotechnology Informationによって多くの参照ゲノムは提供される。「ゲノム」は、核酸配列において発現された、生物又はウイルスの完全な遺伝情報を指す。
本明細書で使用される場合、「アラインされた」、「アラインメント」、又は「アラインすること」という用語は、類似性の領域を特定するために使用されるプロセスを指す。本発明の文脈において、アラインメントは、これらの配列におけるそれらのヌクレオチドの順序に基づいて参照ゲノムにおける位置と配列を一致させることを指す。アラインメントは、手動で実行されてもよいか、又は例えば、Illumina Genomics Analysisパイプラインの一部として配布されているヌクレオチドデータの効率的な局所アラインメント(Efficient Local Alignment of Nucleotide Data)(ELAND)コンピュータプログラムを使用するコンピュータアルゴリズムによって実行されてもよい。アラインメントは、100%の配列一致又は100%未満の一致(完全ではない一致)のいずれかを指すことができる。
「ライブラリー」及び「シーケンシングライブラリー」という用語は、アダプターが結合したDNA断片のプールを指すために本明細書で使用される。アダプターは一般に、特定のシーケンシングプラットフォーム、例えばフローセル(Illumina)又はビーズ(Ion Torrent)の表面と相互作用して、シーケンシング反応を容易にするように設計される。
「標的化パネル」及び「標的化遺伝子シーケンシングパネル」という用語は、本明細書において、特定の疾患又は表現型との関連性が知られているか、又はそれらとの関連性が疑わしい遺伝子又は遺伝子領域の選択セットを指すために交換可能に使用される。標的化パネルをシーケンシングすることにより、全ゲノムシーケンシング等の広範なアプローチと比較して、より小さな、より扱いやすいデータセットを生じるので、標的化パネルは、所与のサンプル中の特定の変異のセットを検出するための有用なツールである。
「シーケンシングプローブ」又は「シーケンシングプライマー」という用語は、本明細書において、核酸(すなわち、cDNA又はDNA)を配列決定するために使用される短いオリゴヌクレオチドを指すために使用される。シーケンシングプローブは、核酸内の標的配列とハイブリダイズすることができるか、又はそれは、非特異的増幅及びシーケンシングを可能にするために核酸に結合しているアダプター配列とハイブリダイズすることができる。
「RNAリードカウント」という用語は、本明細書において、遺伝子アナライザーから生成されたシーケンシングリードの数を指すために使用される。「RNAリードカウント」という用語は、多くの場合、所与の特徴(例えば、遺伝子又は染色体)と重複するリードの数を指すために使用される。
「バイオインフォマティクスパイプライン」という用語は、本明細書において、生物検体から得られた次世代シーケンシング結果に関するバイオインフォマティクスレポートをインスタンス化するためのパイプラインの一連の処理段階を意味するために使用される。例えば、本発明の文脈において、パイプラインの目標は、患者のゲノムに存在するバリアントを特定することであり得る。
「遺伝子プロファイル」という用語は、本明細書において、個体又は特定の型の組織における特定の遺伝子に関する情報を指すために使用される。この情報には、遺伝的変動(例えば、一塩基多型)、遺伝子発現データ、他の遺伝的特性、又は例えば、次世代シーケンシングデータの分析によって決定されるエピジェネティックな特性(例えば、DNAメチル化パターン)が含まれ得る。
「バリアント」という用語は、本明細書において、参照ゲノム又は参照遺伝子プロファイルと比較した、遺伝子配列又は遺伝子プロファイルの差異を意味するために使用される。
「発現レベル」という用語は、本明細書において、特定のRNA又はタンパク質分子のコピーの数を示すために使用され、これは、遺伝子又は他の遺伝子調節領域(例えば、長い非コードRNA、エンハンサー)によって生成された標準的な方法(例えば、100万当たりのカウント、10を底とする生リードカウントの対数の実測)を使用して正規化されていても、されていなくてもよく、これは、染色体位置又は他の遺伝子マッピング指標によって定義され得る。
「遺伝子産物」という用語は、本明細書において、遺伝子又は他の遺伝子調節領域(すなわち、転写、翻訳、翻訳後修飾等)の発現によって生成されたタンパク質又はRNA分子を意味するために使用される。
本明細書で使用される場合、「生物検体」、「患者サンプル」、及び「サンプル」という用語は、患者から採取された検体を指す。このようなサンプルには、限定されないが、腫瘍、生検、腫瘍オルガノイド、他の組織、及び体液が含まれる。好適な体液には、例えば、血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、唾液等が含まれる。サンプルは、例えば、生検、スワブ、又は塗抹検体によって採取され得る。
「抽出された」、「回収された」、「単離された」、及び「分離された」という用語は、天然に会合され、天然に見出される少なくとも1つの成分から除去された化合物(例えば、タンパク質、細胞、核酸又はアミノ酸)を指す。
核酸と併せて本明細書で使用される場合、「富化された」又は「富化」という用語は、サンプル中の1つ又は複数の核酸種の量を増強するプロセスを指す。例示的な富化方法は、化学的及び/又は機械的手段、並びにサンプル中に含まれる核酸を増幅させることを含むことができる。富化は、配列特異的であっても、配列非特異的(すなわち、サンプル中に存在する核酸のいずれかを含む)であってもよい。
本明細書で使用される場合、「がん」は、例えば、リンパ系及び/又は血流等を介して、ヒト若しくは動物の身体又はそれらの一部を通して浸潤性増殖及び転移が可能なものを含む、広範囲の良性又は悪性腫瘍のいずれか1つ又は複数を意味すると解釈されるものとする。本明細書で使用される場合、「腫瘍」という用語は、良性及び悪性の両方の腫瘍並びに充実性増殖を含む。典型的ながんには、限定されないが、癌腫、リンパ腫、又は肉腫、例えば、卵巣がん、結腸がん、乳がん、膵がん、肺がん、前立腺がん、尿路がん、子宮がん、急性リンパ性白血病、ホジキン病、肺小細胞癌、黒色腫、神経芽細胞腫、神経膠腫、及びヒトの軟部組織肉腫等が含まれる。
本発明の文脈において、「バイオマーカー」という用語は、目的の特性、例えば、対象におけるがん若しくはがんに対する感受性の存在、がんが、あるサブタイプであるか、別のサブタイプであるかの尤度、患者が、特定の治療若しくは治療のクラスに対して応答するか、しないかの確率、治療若しくは治療のクラスに対して期待される肯定的な応答の程度(例えば、生存率及び/又は無増悪生存率)、患者が治療に応答するかどうか、又はがんが進行しているか、若しくはその発生部位を超えて進行している(すなわち、転移している)尤度を示すか、又はそれらと相関する任意の遺伝子バリアント又は分子を意味すると解釈されるものとする。
本明細書で使用される場合、「細胞経路」、「シグナル伝達経路」、又は「経路」という用語は、細胞の基礎活性を支配し、複数の細胞の作用を調整する伝達プロセスを指す。経路は、細胞機能(例えば、細胞分裂、細胞死)を制御する分子間の生化学的反応を含む。細胞経路は、例えば、細胞によるシグナル伝達分子の合成及び放出、標的細胞へのシグナルの輸送、特定の受容体へのシグナル伝達分子の結合、受容体活性化、並びにシグナル伝達経路の開始を含む、このようなプロセスに関与する一連の分子事象の全体を含む。
本明細書で使用される場合、「細胞経路調節不全」、「シグナル伝達経路調節不全」、「経路調節不全」という用語は、細胞経路の調節の異常又は機能障害を指す。調節不全(本明細書において破壊という用語と交換可能に使用される)は、限定されないが、転写、RNAスプライシング、RNA輸送、翻訳、及びタンパク質の翻訳後修飾の間を含む、遺伝子発現プロセスにおけるいずれかの段階で発生し得る。遺伝子発現の調節により、細胞に存在する所与の遺伝子産物(すなわち、タンパク質又はncRNA)のタイミング、位置、及び量が制御される。したがって、細胞経路調節不全は、遺伝子の過剰発現又は過少発現、及びタンパク質機能又は安定性の変化を含み得る。一部の場合、変異、遺伝子融合、又はDNAコピー数の変化、メチル化状態等の遺伝的変動は、細胞調節不全の一因となる。がんは、それらの遺伝子変異プロファイルに関して異種であるが、多くのがんは、分子シグナル伝達経路の異常な活性化又は抑制によって発生し、維持される。例えば、RAS/受容体チロシンキナーゼ(RTK)及びPI3K経路は、破壊されると、未制御の細胞(及び腫瘍)成長を促す可能性があり、多くの場合、がんにおいて影響を受ける。一部の場合、調節不全経路は、がんを抑制しようとする特定の化学療法の標的となり得る。
「処置」、「処置する」等の用語は、本明細書において、概して、所望の薬理学的及び/又は生理学的効果を得ることを意味するために使用される。効果は、疾患若しくはその症状を完全に若しくは部分的に予防するという点で予防的であってもよく、並びに/又は疾患及び/若しくは疾患に起因する有害事象の部分的若しくは完全な治癒という点で治療的であってもよい。本明細書で使用される場合、「処置」は、哺乳動物における疾患のあらゆる処置を網羅し、(a)疾患にかかりやすい傾向があり得るが、疾患を有するとまだ診断されていない対象において疾患が発生するのを防ぐこと、(b)疾患を阻止すること、すなわち、その発生を停止させること、又は(c)疾患を軽減すること、すなわち、疾患の退行を引き起こすことを含む。治療剤は、疾患又は傷害の発症の前、間又は後に投与されてもよい。処置が患者の望ましくない臨床症状を安定化又は低減させる場合、進行中の疾患の処置が特に関心がある。対象の治療は、望ましくは、疾患の症候性段階の間、及び一部の場合、疾患の症候性段階の後に投与される。
「有効量」という用語は、本開示の様式で使用された場合に合理的なベネフィット/リスク比に見合った、過度の有害な副作用(毒性、炎症、及びアレルギー反応等)を生じずに検出可能な治療効果を示すのに十分である活性剤の量を指す。患者についての有効量は、患者の種類、患者の体格及び健康、処置される状態の性質及び重症度、投与方法、処置時間、併用療法の性質(もしあれば)、利用される特定の製剤等に依存する。したがって、前もって正確な有効量を特定することはできない。しかしながら、所与の状況に対する有効量は、当該技術分野における知識及び本明細書に提供される情報に基づいて日常的な実験を使用して当業者によって決定することができる。最適な投薬レジメンは、過度の実験をすることなく当業者によって決定することができる。
本明細書で使用される場合、「参照配列」、「参照アセンブリ」、又は「参照ゲノム」という用語は、ある種の1つの理想化された個体の生物における遺伝子セットの代表的な例としてアセンブルされた、DNAシーケンシングを使用して作成された1つ又は複数の核酸データベースを指す。「参照トランスクリプトーム」は、RNAシーケンシングを使用して作成され、ある種の1つの理想化された個体の生物における発現された配列のセットを反映するデータベースとして同様に定義される。それらは、複数の個々のドナー由来のDNAのシーケンシングからアセンブルされるので、参照ゲノムは、任意の単一の個体の生物の遺伝子セットを正確に表さない。最も一般的に使用されるヒト参照ゲノムは13人の匿名のボランティアに由来するので、各ドナー由来の異なるDNA配列の半数体モザイクを提供する。最も一般的に使用されるヒト参照ゲノムは、アップデートが1~4年毎にリリースされるゲノム参照コンソーシアムからのGRCh37及びGRCh38である。参照ゲノムについての一般的な使用は、DNAseq及びRNAseqから得られた転写産物をマッピングすることである。参照トランスクリプトームに関して、転写は非常に動的であり、組織型、発生段階、環境条件、及び疾患状態によって異なるので、参照トランスクリプトームは全ての時点での遺伝子発現を反映するのではなく、ある生物又は種における可能な転写産物の全セットを反映する。一般的に使用される参照トランスクリプトームには、RefSeq及びEnsemblが含まれ、これらはそれら自体が複数の独立したシーケンシングプロジェクトを統合したものである。RNAがシーケンシングされ、参照ゲノムとアラインされると、このようなデータベースを使用してリードが特定の遺伝子に割り当てられる。一部の実施形態では、1つ又は複数の参照ゲノムは、野生型及び変異体の配列を定義するために使用される。本明細書で開示される実施形態では、単一の参照ゲノム及び/又は単一の参照トランスクリプトームは、モデルを構築する文脈において野生型及び変異体の配列を定義するために使用される。しかしながら、複数の参照ゲノム若しくは複数の参照トランスクリプトーム、又はアップデートされた参照データベースが使用される実施形態が想定される。
図1Aは細胞経路の例を示す(Sanchez-Vegaら、2018、Cell.173:321~337頁を参照のこと)。この例は、以下:RTK/RAS、Nrf2、TGFbeta、PI3K、p53、Wnt、Myc、Cell cycle、Hippo、及びNotch経路を含む、The Cancer Genome Atlas(TCGA)でキュレートされた経路を示す。各経路はボックスによって囲まれ、各経路の要素はボックス内にラベル付けされた長方形として示される。経路要素間の種々の相互作用(活性化、阻害等を含む)は、矢印又は線で示される。
図1Bはカスタム経路を示す。示した例では、カスタム経路は、PI3K経路遺伝子リスト及びRAS経路遺伝子リストの色分けされたサブセットである。カラーコードは経路の異なる機能成分を示し、カラーグループ内の任意の遺伝子の変異は、同じカラーグループ内の別の遺伝子の変異と同じ影響を経路機能に及ぼすと予測され得ることを意味する。この例では、第1のグループは、PI3KR(PI3KR1/PI3KR2)を含む左側の列であり、第2のグループは、ERBB2、PI3K(PIK3CA/PIK3CB)、AKT(AKT1/AKT2/AKT3)、及びMTORを含む中央の列であり、第3のグループは、EGFR、RAS(KRAS/NRAS/HRAS)、RAF(RAF1/BRAF/ARAF)、MEK(MAP2K1/MAP2K2)、及びERK(MAPK3/MAPK1)を含む右側の列である。示した例では、PTENからPI3Kまでの「T」字形の線は、PTENがPI3Kを阻害することを示し、矢印は活性化を示す(例えば、EGFRはRAS及びPI3Kの両方を活性化する)。
がんを引き起こす経路のいくつかは十分に特徴付けられており、破壊の多くの例は、わずかな「ドライバー」遺伝子、例えば、RAS/RTK経路におけるKRAS及びPI3K経路におけるSTK11の変異に起因し得る。しかしながら、ドライバー遺伝子の変異が存在しないが、それでも1つ又は複数の経路が、転写及び/又はタンパク質レベルで破壊の兆候を示す数多くの事例が存在する。このような場合、DNA分析(一塩基多型、挿入/欠失[インデル]、及びコピー数バリアントを含む)だけでは、経路破壊を特定することができず、経路を標的とする治療法を使用する機会の損失につながる。DNAを分析することに限定されない経路破壊の測定により、これらの治療に応答し得る更なる患者の特定が可能になり得る。
システム/方法の使用
図2Aは、本明細書に開示されるシステム及び方法の例示的な概念を示す概略図である。
一例では、システム及び方法はRNAデータを分析して、少なくとも1つの細胞経路についてのがん検体の経路破壊状態を決定する。図2Aでは、検体について分析した細胞経路は、RAS、PI3K、WNT、SHH、及びNOTCH経路である。各経路は、種々の色を有する活性化の範囲のバー、及び経路の活性のレベルを示す黒色のバーを有する。青色又は紫色の領域における、更に左側に位置する黒色のバーは、破壊のない経路を示す。緑色の領域における、更に真ん中付近に位置する黒色のバーは、中程度の破壊を有する経路を示す。赤色の領域における、更に右側に位置する黒色のバーは、高度に破壊されている経路を示す。この例では、RAS経路は高度に破壊され、PI3K、WNT、及びSHH経路は破壊されておらず、NOTCH経路は中程度に破壊されている。
経路破壊のバーから図2Aの右側部分を指している3つの青色の矢印は、経路破壊分析の結果についての下流での使用を示す。上部において、遺伝子バリアント又は変異(特に意義不明のバリアント)が、がんを引き起こすバリアントである病原性バリアントとして適格であるか、又は疾患にほとんど若しくは全く影響を与えないバリアントである良性バリアントである可能性が高いかどうかを決定するのに役立つように経路破壊分析の結果を使用することができる。真ん中では、この結果により、がん検体が得られる患者又はオルガノイドと適合する治療を決定することができる。例えば、経路が破壊された場合、(例えば、経路におけるタンパク質及び/又は遺伝子を標的とすることによって)経路を標的とする治療を適合させることができる。下部において、円グラフは、遺伝子名で分類されている、所与の遺伝子のバリアントに関連するがん症例の一部分の例である。この例では、調節不全経路を有し得るがん検体のおよそ24%は、その経路に関連する遺伝子において標準的なドライバー変異が全く検出されていない。
一部の実施形態では、システム及び方法は、潜在的な経路破壊を評価するためにDNA変異データではなく、又はそれに加えてRNAを分析する。一部の場合、経路破壊の変異の原因は不明である(例えば、RAS経路破壊の機構は肺腺癌症例の24%もの数で不明である)。しかしながら、経路破壊は、DNAの証拠の存在にかかわらず、本明細書に開示されるシステム及び方法によって捕捉されるRNAシグネチャーを有し得る。
当然の結果として、DNAの証拠は、実際に存在しない場合に経路破壊を示唆する可能性がある。本明細書に開示されるシステム及び方法は、これらの潜在的な誤検知を正確に分類するためのより強力な能力を有する。
種々の実施形態では、システム及び方法は、ゲノム変化及び分子特徴を集約された既知の経路プロファイルに特徴付け、それらの関係を、患者、細胞株、及び/又は腫瘍オルガノイドからの処置応答データに結び付ける。種々の実施形態では、システム及び方法は、複数の分子及びゲノムプロファイルをがんシグナル伝達経路に統合して、検出されたゲノム変化及び単一遺伝子レベルでのRNA発現レベルによって患者の腫瘍を特徴付ける代わりに、処置応答及び疾患転帰とのそれらの関係についての洞察を明らかにする。
種々の実施形態では、システム及び方法はまた、遺伝子のより小さなサブセットと比較して、遺伝子セット全体(約18,000個の遺伝子又はそれ以上)からのデータを分析する。これにより、システム及び方法は、標準的な経路遺伝子及びキュレートされた遺伝子リストを除いて経路破壊の潜在的な原因を検索する能力を可能にするという点で、単一サンプル遺伝子セット富化分析(ssGSEA、Barbieら、2010、Nature.462(7269):108~112頁を参照のこと)等の、アウトオブザボックス法よりもはるかに柔軟になる。
一部の実施形態では、システム及び方法は、臨床及びDNAバリアントデータ又はメチル化状態とともにトランスクリプトームを利用して、個々の遺伝子発現レベル(例えば、非がん検体と比較してがん検体において過剰又は過少発現される遺伝子のリスト)又は病原性バリアントとして現在検出され並びに/若しくは医師及び患者に報告されているDNAバリアントによって検出することができない標的可能な経路破壊事象を検出する。トランスクリプトームは、全エクソームRNA-seqによって捕捉することができ、経路に関連する遺伝子の発現レベルに限定されない。これは特に、調節不全が、経路の下流の遺伝子又は経路に関連することが知られていない遺伝子によって引き起こされる場合に関係がある。臨床データは、患者又はオルガノイドが受けている治療、及びこれらの治療に対する患者又はオルガノイドの応答(例えば、患者又はオルガノイドにおけるがん細胞の成長速度が治療に対する曝露後に遅くなった場合)に関連する場合がある。メチル化状態は、経路に関連する遺伝子及び/又はプロモーターのメチル化に関連する場合がある。
一部の実施形態では、本明細書に開示されるシステム及び方法は、経路調節不全を検出する際のDNA分析の制限を回避する。システム及び方法は、がん患者における経路破壊を特定するために直交するトランスクリプトームアプローチを含むことができる。システム及び方法は、標準的な経路変異がないにもかかわらず、いくつかの検証試験に通り、標的化治療に応答し得る患者を特定する、発がん性シグナル伝達経路破壊の高感度のトランスクリプトームモデルを含むことができる。ある特定の実施形態では、システム及び方法は、治療に応答する可能性があるが、その応答者の状態を標準的なDNAベースの診断によって検出することができない、隠れた応答者を特定するための機械学習アプローチを含むことができる。
ある特定の実施形態では、システム及び方法は、ヒトがんにおけるトランスクリプトミクスを通じた経路破壊の特定を含む。
一部の実施形態では、システム及び方法は、トランスクリプトームのデータのみに基づいて経路破壊スコアを生成し、破壊の基本的な機構のDNAベースの理解に依存しない経路破壊の直交指標を提供する。十分なサンプルサイズがあれば、同じシステム及び方法を使用して、任意の経路及び任意のがんの種類についての経路破壊のモデルを生成することができる。
図2Bは、本明細書に開示されるシステム及び方法の別の例示的な概念を示す概略図である。
一部の実施形態では、システム及び方法は、1つ又は複数の経路破壊モデル、及びそれらの経路破壊モデルによって生じた結果を含む。経路破壊モデルについての訓練データはトランスクリプトームのデータを含み、更にゲノムデータを含むことができる。モデル結果が生物学的状態をどのように反映するかを決定するための訓練データ及び/又は生物学的検証データは、患者又は腫瘍オルガノイドにおいてがんの成長を遅延させる治療の任意の証拠を含む、構造化された臨床又はオルガノイドデータ、及び目的の遺伝子セット又は経路における任意の遺伝子又は遺伝子産物を標的とする治療のリストを含む、治療決定エンジンからの情報を更に含むことができる。
一例では、経路破壊モデルはRAS経路破壊モデル及びPI3K経路破壊モデルを含み、それらの各々は、肺腺癌患者からのトランスクリプトーム及びゲノムのデータを使用して開発され、公的及び私的データセットの両方で広範囲にわたって検証された(左から2番目の列)。この例では、RASモデルは、RAS経路の2つの隣接する分子であるKRAS及びBRAFに変異を有する患者についての同様に強力な破壊スコアを割り当てる。同様にPI3K破壊モデルについて強力な結果が達成された(右から2番目の列)。これらの結果は、これらのモデルによって生成された破壊スコアが、生物学的経路に対する遺伝的変動の影響を定量的に推定することができることを示す。
この例では、両方のモデルは、経路破壊に予期しない影響を与える候補標的遺伝子又は変異を特定する。例えば、本明細書に開示されるシステム及び方法は、所与の経路に破壊を引き起こすことが知られている変異を有しない、いくつかの検体からトランスクリプトームを分析し、これらの検体の各々において経路が破壊されることを予測することができる。次いで、検体を分析して、共通の変異又は変異遺伝子を有するかどうかを決定し、その経路に破壊を引き起こすことが知られている変異又は遺伝子がなくても、標的変異又は標的遺伝子と共通の変異又は遺伝子を特定することができる。この分析により、経路のメンバーと相互作用することが知られているタンパク質を産生する遺伝子に優先順位を付けることができる。これらのタンパク質間相互作用は経路データベース300にリストアップすることができる(図3Aを参照のこと)。
モデルは、経路変異を有しないにもかかわらず多くの患者(経路正常又は野生型)が高い破壊スコア(赤色、青色、及び紫色の点)を有することを示す。これらの「隠れた応答者」は、これらの経路を標的とするために通常使用される治療から恩恵を受ける可能性があり、これらのモデル結果はバイオマーカー及び標的発見のための更なる機会を提供する。これらの標的遺伝子にバリアントがある検体を有する患者は、これらの治療の1つと適合する可能性がある。
一例では、モデル結果の臨床的妥当性を検証するために、患者の臨床記録又は腫瘍オルガノイド成長実験からのデータを、治療応答と経路モデルによって特定された標的遺伝子又はバリアントとの間の関連性について分析することができる。治療が、患者又は腫瘍オルガノイドにおけるがん細胞の成長を遅延させることができるという証拠が存在し、患者及びオルガノイドがん細胞が標的遺伝子にバリアントを有する場合、治療決定エンジンは、標的遺伝子が修飾する治療及び経路について登録してアップデートされ得る。特定された標的遺伝子についてのオルガノイド治療応答データが存在しない場合、オルガノイドは、特定された標的遺伝子又は変異を有するように遺伝子操作されてもよく、それらの成長速度は経路ターゲティング治療に対する曝露後に観察されてもよい。
一部の実施形態では、がん患者は肺腺癌(LUAD)を有する。一部の実施形態では、がん患者は、乳がん、結腸がん、又は前立腺がんを有する。一部の実施形態では、がん患者はいずれかのがんの種類を有する。一部の実施形態では、システム及び方法は、遺伝子発現データ、がんの種類にわたるPI3K及びRTK/RAS経路についてのDNA変異プロファイル及び免疫プロファイル、並びに臨床応答及び転帰データに対する試験予測を特徴付けることによって目的の臨床的に関連する経路を改善する。システム及び方法は、このアプローチを、治療ターゲティングに対する関連性に基づいて優先順位が付けられた他のネットワーク/経路に拡張することができる。一部の実施形態では、システム及び方法は、アルゴリズム検証及び遡及的分析を含むことができる。
一部の実施形態では、本明細書に開示されるシステム及び方法は、データベースからの正規化されたトランスクリプトームのデータ並びにアルゴリズム及び分子経路遺伝子セットと組み合わせて同じトランスクリプトームのデータを用いて生成された経路スコアを使用する二項ロジスティック回帰モデルを含む。一例では、分子経路遺伝子セットはキュレートされる。モデルの出力は、サンプルのトランスクリプトームが経路破壊と一致している程度を示す単数であってもよい。
一部の実施形態では、システム及び方法は、処置応答及び疾患の転帰を予測する統合的なマルチオミック(multi-omic)経路シグネチャーを発見する。これらのマルチオミック経路シグネチャーは、患者及び/又は検体に関連するデータ(例えば、臨床、応答転帰、DNA変異、RNA遺伝子発現等を含むデータタイプ)の特性を含むことができる。機械学習モデルを使用して、疾患に関連する遺伝子及びタンパク質ネットワーク/経路の文脈において、これらのデータタイプ等を分析することができる。応答転帰データは、100個を超える異なるがん薬物を含む、種々の治療に対する曝露後の患者又はオルガノイドの生存率及び無憎悪生存率に関する情報を含むことができる。
種々の実施形態では、システム及び方法は、DNA変化、融合、及びRNA-seq遺伝子発現データ及び画像化(組織病理学的及び放射線学的画像を含む)における新規の相関経路/ネットワークを見つけることによって処置応答に関連する分子パターンを発見するために使用され得る。
分子プロファイリング結果からの相関de novoパターンを特定するために、システム及び方法は、疾患に関連する相関遺伝子及びタンパク質ネットワークを定義するために統合的な‘オミック予測モデリングアプローチ(相互情報、ベイジアンネットワーク、ニューラルネットワーク、並びに他の統計的及び機械学習方法)を含むことができる。新規の疾患に関連するネットワークは、臨床記録から得られたデータを含む、治療及び転帰データとの関連性について試験され得る。統計的に有意な関連性は、腫瘍治療応答又は患者生存メトリックとの関連性の感度及びリコールを試験する焦点を合わせたデータセットを用いて検証され得る。
種々の実施形態では、本明細書に開示されるシステム及び方法は、経路破壊の人工知能モデルを含む。システム及び方法はバイオマーカーの発見のために使用することができ、これは、経路破壊及びがんに対する遺伝子及び/又はバリアントの影響を予測するためのモデルによって特定された遺伝子及び/又はバリアントのin silico評価を含むことができる。
システム及び方法は、新規及び/又は既知のバイオマーカー(例えば、遺伝子及び/又はバリアント)の注釈、特に、私的及び/又は公的データベースの使用を含むことができる、実行可能な薬物標的としての各バイオマーカーの起こりそうな状態を含むことができる。例えば、データベースは、バイオマーカーとの観察された薬物相互作用の記述、薬物に対する患者応答と患者において観察されたバイオマーカーとの間の関連性、並びに/又はタンパク質構造及び遺伝子産物のタンパク質構造に対するバイオマーカーの影響を含むことができる。これらのデータベースには、薬物標的を特定し、疾患と薬物標的との間の関連性に優先順位を付けるための情報;ヒトの疾患と、遺伝子、バリアント、薬物及び/又は薬物標的との間の関連性;薬物及びそれらの標的に関連する情報(薬物と薬物標的との間の相互作用を含む);遺伝子と薬物との間の相互作用(薬物に対する標的としての遺伝子の状態を含む);治療用タンパク質及び核酸標的及び関連する標的化疾患(例えば、がんの種類)に関連する情報;薬物、薬物標的、及び分子に関連する情報;創薬可能な(例えば、薬物によって標的化され得る)ゲノムの部分に関する情報;並びに化学物質、遺伝子産物、表現型、疾患、及び環境曝露の間の関連性が含まれ得る。薬物標的は、薬物によって影響を受ける遺伝子又はタンパク質であり得る(例えば、薬物は、薬物標的の活性又は機能を変化させ、阻害し、又は活性化することができる)。これらのデータベースは、公開された調査研究に基づく情報を含むことができる。公開データベースの例には、DrugBank(drugbank.caを参照のこと)、ChEMBL(ebi.ac.uk/chemblを参照のこと)、DGIdb(dgidb.org)、TTD(db.idrblab.org/ttd/を参照のこと)、DisGeNET(disgenet.orgを参照のこと)、DTC(drugtargetcommons.fimm.fiを参照のこと)、Open Targets(opentargets.orgを参照のこと)、PHAROS(pharos.nih.govを参照のこと)、CTD(http://ctdbase.org/を参照のこと)、ADReCS-Target(bioinf.xmu.edu.cnを参照のこと)等が含まれ(これらのデータベースの更なる記述については、Paananen and Fortino、Briefings in Bioinformatics (2019);doi:10.1093/bib/bbz122も参照のこと)、図26及び図27も参照のこと。
システム及び方法は、遺伝子操作及び/又は薬物スクリーニングによってオルガノイドにおける候補標的バイオマーカーのin vitro検証を含むことができる。例えば、遺伝子操作(例えば、CRISPR及び/又は他の遺伝子編集ツールの使用)を使用して、候補バイオマーカーを有するオルガノイドを設計することができ、薬物スクリーニングを使用して、どの治療が、候補バイオマーカーを有するオルガノイドの成長を遅延させることができるかを決定することができる。
本明細書に開示されるシステム及び方法は、対象の処置を導くために使用することができる。例として、本明細書に開示されるシステム及び方法に従って対象サンプルを分析することができ、推奨される治療/処置レジメンをシステムによって提供することができる。一部の実施形態では、方法は、推奨される治療/処置レジメンに従って対象を処置することを含む。一部の実施形態では、推奨される処置は、図26又は図27に記載した化合物の1つ又は複数の有効量を対象に投与することを含む。
発がん性シグナル伝達経路は複数のタンパク質から構成され、それは、多くの場合、それらのタンパク質の配列又は機能、それらの臨床的標的可能性、及びそれらの破壊の影響に関してタンパク質の類似性に基づいて経路をモジュールに細分するのに有用である。例えば、RTK/RAS親経路のRASモジュールは、KRAS、NRAS、及びHRASから構成される。これらの遺伝子の変異は異なるがんにおいて異なる割合で存在し、KRAS変異が、肺腺癌、黒色腫のNRAS、及び黒色腫のHRASにおいて最も一般的である。しかしながら、それらは、非常に類似した配列を有し、無秩序な成長を引き起こす同じドメインにおける変異を特徴とし、破壊されると、同じ下流の臨床的に標的可能なエフェクターの活性化をもたらす。RTK/RAS経路破壊をモデル化する目的のために、これらのタンパク質をモジュールにグループ化することは、生物学的及び臨床的観点から論理的であり、これらの遺伝子に変異を有する患者の組合せを陽性対照群にすることを許可することによってモデルジェネレーターに強度を追加することになる。
モジュールにグループ化するための別の理論的根拠は、PTEN、PIK3R1、及びPIK3R2からなる、PI3K経路におけるPTENモジュールに関する等のタンパク質の機能的効果にのみ基づき得る。これらのタンパク質の各々は、構造的に類似していないが、PI3Kシグナル伝達の抑制に関与しており、処置の指針を提供する可能性がある。例えば、破壊がこのモジュールにおいて検出される場合、臨床医は、機能しない抑制性PTENモジュールの影響を遮断するためにPI3K阻害剤で処置することを考慮することができる。
図12A~図12Eは、RTK/RAS及びPI3K経路についてのいくつかのこのようなモジュールを示し、これらの各々は、上記の要因を念頭に置いて構築された。他の発がん性シグナル伝達経路は、異なる関連するモジュールを有する。考慮された経路、新たな処置の推奨、及び/又は破壊モデルの特定の目標に関する更なる調査結果により、モジュールを再設計することが必要になる場合があることに留意することも重要である。したがって、RTK/RAS及びPI3K経路について示されているモジュールは、この方法で使用することができる可能性のあるモジュールの全体を意図するものではなく、例示するものでもない。
システム及び方法
図3Aは、少なくとも1つの組織検体についての経路破壊状態を決定することができるシステム10の概略図を示す。システム10は、1つ又は複数のデータ入力100、1つ又は複数の経路エンジン200、経路データベース300、ラベル付けされた腫瘍サンプルデータベース400、薬物経路相互作用データベース500、治療応答データベース600、臨床試験データベース700、及び患者報告ジェネレーター800を含むことができる。
経路エンジン200は、通信ネットワーク20を通じて、経路データベース300、ラベル付けされた腫瘍サンプルデータベース400、薬物経路相互作用データベース500、治療応答データベース600、臨床試験データベース700、及び患者報告ジェネレーター800と通信することができる。1つ又は複数の経路エンジン200は、データ入力100を受信し、1つ又は複数の経路破壊スコアを出力することができる。経路エンジン200は、以下に詳細に記載される1つ又は複数のデバイスに格納され得る。
データ入力100は、トランスクリプトーム値セット及び1つ又は複数の調節不全指標を含むことができる(図4に記載される)。データ入力100は、DNAバリアントデータ、メチル化データ、がんの種類、及び/又はプロテオミクスデータを更に含むことができる。
1つ又は複数の経路エンジン200の各々は、組織検体に関連する経路が破壊状態を有する尤度を決定するためにデータ入力100からのデータのセットで訓練され得る。システム10は、1個、10個、100個、又はそれ以上の経路エンジン200を含むことができる。この文書では、ラベル「200n」は、1つ又は複数の経路エンジン200のうちの1つにおける一般的な経路エンジンを指すことを意図する。
種々の実施形態では、経路エンジン200nは、RNAデータに基づいて経路破壊状態を予測する。種々の実施形態では、経路エンジン200nは予測モデルを含む。種々の実施形態では、経路エンジン200nは、サポートベクターマシン、ランダムフォレスト、及び/又はk近傍モデルを含む。一部の実施形態では、経路エンジン200nはロジスティック回帰モデルを含む。
一部の実施形態では、各経路エンジン200nは、特定のがんの種類を有する検体についての経路破壊を予測することができる。種々の実施形態では、各経路エンジン200nは、目的の単一経路、目的の経路の組合せ、又は目的のいくつかの個々の経路についての経路破壊を予測することができる。
種々の実施形態では、各経路エンジン200nは、目的の単一経路についての経路破壊を予測することができる。目的の経路は、経路データベース300に含まれる細胞経路であってもよい。目的の経路は、TCGAにより定義される経路又はカスタム遺伝子セット又は遺伝子リストであってもよい。例えば、目的の経路には、RAS/RTK、PI3K及び/又はWNT経路が含まれ得る。一部の実施形態では、経路は、標的化治療に対する既知の調節応答を伴う発がん性ネットワーク/経路を含む。
一例では、経路エンジン200nは、肺腺癌を有する患者及び/又は検体におけるRTK-RAS/PI3K経路(例えば、図1Bを参照のこと)についての経路破壊を予測することができる。一例では、経路エンジン200nは、大腸がんを有する患者及び/又は検体におけるWNT経路についての経路破壊を予測することができる。一例では、経路エンジン200nは、乳がんを有する患者及び/又は検体におけるPI3K経路についての経路破壊を予測することができる。一例では、経路エンジン200nは、血管内皮増殖因子(VEGF)経路についての経路破壊を予測することができる。
一部の実施形態では、目的の1つ又は複数の経路は、各検体について検査され得る。例えば、治療が、検体が1つ又は複数の経路において調節不全を有する患者にとって有効であり得るかどうかを決定するために、特に少なくとも1つの経路が活性化され、少なくとも1つの経路が抑制されている場合、複数の経路の調節不全及び/又は相互作用する複数の経路の全体的な調節不全をスコア付けすることが有用であり得る。これは、1つより多い訓練された経路エンジン200a、200b、...、200nを使用して、各検体に関連する入力データを分析することを含むことができる。
経路データベース300は、遺伝子又はタンパク質ネットワークの記述及び/又はリスト、例えば、生体細胞の活動の間に相互作用する遺伝子及び/又はタンパク質のセットを含むことができる。遺伝子-遺伝子、タンパク質-タンパク質、及び遺伝子-タンパク質の相互作用は、ある遺伝子又はタンパク質が、別の遺伝子又はタンパク質の活性、発現レベル、又は状態を阻害、活性化、又は変化させることを含むことができる。
一部の実施形態では、経路は、MSigDB(GSEA)、又はTCGA経路がキュレートされたリストによって定義される遺伝子リストである。一部の実施形態では、目的の経路はカスタム遺伝子リストである。目的の経路遺伝子リストは、病理学者又は他の専門家のチームと共同して選択することができる。
ラベル付けされた腫瘍サンプルデータベース400は、1つ又は複数の経路の各々について既知の経路破壊状態(例えば、破壊された又は破壊されていない)を有する生物検体に関連するデータを含むことができる。経路破壊状態は、検体中に検出され、経路に関連する遺伝子に位置するDNAバリアントに基づき得る。データ入力100は、ラベル付けされた腫瘍サンプルデータベース400に格納され得る。
薬物-経路相互作用データベース500は、治療及び遺伝子、遺伝子産物、並びに/又は治療が標的とする経路の間の関連性を示すデータ入力を含むことができる。
治療応答データベース600における入力は、患者又は腫瘍オルガノイド由来の検体中のがんの成長を遅延させる治療の観察された例、並びに検体中で検出される遺伝子バリアント及び/又は破壊された経路の関連リストを含む、検体の種々の特性を含むことができる。
臨床試験データベース700は、臨床試験のリスト及び各臨床試験についての情報を含むことができる。臨床試験情報は、試験名、除外及び/又は組み入れ基準、登録情報、連絡先情報、施設名、場所、介入(例えば、治療、薬物、処置)、臨床試験日(例えば、開始日及び完了日)、並びに他の情報(例えば、clinicaltrials.govウェブサイトに記載され得る任意の情報)を含むことができる。
患者報告ジェネレーター800は、経路エンジン200、薬物-経路相互作用データベース500、治療応答データベース600、及び臨床試験データベース700からのデータを受信することができる。患者報告ジェネレーター800は、1つの検体及び/又は複数の検体に関して経路エンジン200nによって決定された経路破壊状態を、患者、患者の医師、医療専門家、研究者等に提示するためのレポートを生成することができる。
患者報告ジェネレーター800は、実行される経路破壊スコア及び/又は経路破壊レポートを生成するための1つ又は複数のプロセスを含むことができ、及び/又は引き起こすことができる。特に、患者報告ジェネレーター800は、実行されるプロセス502、602、630、650、660、670、750、702を含むことができ、及び/又は引き起こすことができる。プロセス502、602、630、650、660、670、750、702は以下に記載される。
患者データストア(例えば、ラベル付けされた腫瘍サンプルデータベース400)は、システム内にあらゆる患者(又は腫瘍オルガノイド)に利用可能な特徴の収集物を含むことができる1つ又は複数の特徴モジュールを含むことができる。これらの特徴(例えば、データ入力100)を使用して、システム内に人工知能分類子(例えば、経路エンジン200n)を生成することができる。全ての患者にわたる特徴の範囲は情報的に高密度であるが、患者の特徴のセットは、全ての患者にわたる全ての特徴の集合的な特徴の範囲の全体にわたってまばらに存在していてもよい。例えば、全ての患者にわたる特徴の範囲は数万の特徴に拡張する場合があるが、患者の固有の特徴のセットは、その患者に利用可能な記録に基づいて数百又は数千の集合的な特徴の範囲のサブセットのみを含むことができる。
特徴の収集物(例えば、データ入力100)は、患者の健康記録内で利用可能な多様なセットのフィールドを含むことができる。臨床情報は、医師、看護師、又は他の医療専門家若しくは代表者によって電子医療記録(EMR)又は電子健康記録(EHR)に入力されているフィールドに基づき得る。他の臨床情報は、遺伝子シーケンシングレポートからの分子フィールド等の、他のソースからキュレートされ得る。シーケンシングは次世代シーケンシング(NGS)を含むことができ、患者の体細胞及び/又は正常なゲノムのシーケンシングのロングリード、ショートリード、又は他の形態であってもよい。更なる特徴モデルにおける特徴の包括的な収集物は、診断、処置レジメンに対する応答、遺伝子プロファイル、臨床及び表現型の特性、並びに/又は他の医学的、地理学的、人口統計学的、臨床的、分子的、若しくは遺伝的特徴を含むことができる医療の様々なフィールドにわたって一緒に様々な特徴を組み合わせることができる。例えば、特徴のサブセットは、RNA特徴モジュール又はDNA特徴モジュールシーケンシングに由来する特徴等の分子データ特徴を含むことができる。
特徴の別のサブセットであり、画像化特徴モジュールからの画像化特徴は、検体のレビューによって、例えば、染色されたH&E又はIHCスライドのレビュー等の病理学者のレビューによって特定された特徴を含むことができる。別の例として、特徴のサブセットは、このような特徴のセットの個々及び組み合わせた結果の分析から得られた派生物の特徴を含むことができる。DNA及びRNAシーケンシングに由来する特徴は、シーケンシングされた組織に存在するバリアント科学モジュールからの遺伝子バリアントを含むことができる。遺伝子バリアントの更なる分析は、単一又は複数のヌクレオチド多型を特定する工程、変動が挿入又は欠失事象であるかどうかを特定する工程、機能の喪失又は獲得を特定する工程、融合を特定する工程、コピー数変動を計算する工程、マイクロサテライト不安定性を計算する工程、腫瘍変異量(TMB)、又はDNA及びRNA内の他の構造的変動を計算する工程等の更なる工程を含むことができる。H&E染色又はIHC染色についてのスライドの分析により、腫瘍浸潤、プログラム死リガンド1(PD-L1)状況、ヒト白血球抗原(HLA)状況、又は他の免疫学的特徴等の特徴が明らかになり得る。
構造化され、キュレートされ、又は電子医療若しくは健康記録から得られた特徴は、診断、症状、治療、転帰、患者の人口統計、例えば、患者の名前、生年月日、性別、民族性、死亡年月日、住所、喫煙状況、がん、病気、疾患、糖尿病、うつ病、他の身体的又は精神的病気についての診断日、個人の病歴、家族歴、臨床診断、例えば、初期診断日、転移診断日、がん進行度分類、腫瘍特性付け、原発組織、処置及び転帰、例えば、治療方針、治療群、臨床試験、処方又は服用される医薬、手術、放射線療法、画像化、有害事象、関連する転帰、遺伝子検査及び検査情報、例えば、性能スコア、臨床検査、病理結果、予後指標、遺伝子検査日、使用した検査提供者、使用した検査方法、例えば、遺伝子シーケンシング方法又は遺伝子パネル、遺伝子結果、例えば、含まれる遺伝子、バリアント、発現レベル/状況、又は上記のいずれかに対応する日付等の臨床特徴を含むことができる。
特徴は、プロテオミクス、トランスクリプトミクス、エピゲノミクス、メタボロミクス、マイクロバイオミクス、及び他のマルチオミックフィールドを含む、更なる医療又は研究に基づくオミクスフィールドからの情報から得られてもよい。オルガノイドモデリング検査から得られた特徴は、各オルガノイドに密接に関係しているDNA及びRNAシーケンシング情報、並びにそれらのオルガノイドに適用された処置からの結果を含むことができる。画像化データから得られた特徴は、染色されたスライド、腫瘍のサイズ、変化の期間の間の処置を含む経時的な腫瘍サイズの差、及びPDL1状況、HLA状況、又は画像化データからの他の特性を分類するための機械学習アプローチに関連するレポートを更に含むことができる。他の特徴は、任意の新しい特徴及び/又は上記に列挙された特徴の組合せに少なくとも部分的に基づく他の機械学習アプローチからの更なる派生物の特徴のセットを含むことができる。例えば、画像化結果は、RNA発現から導出されたMSI計算と組み合わせて、追加の更なる画像化特徴を決定することを必要とし得る。別の例では、機械学習モデルは、患者のがんが、特定の器官又は任意の他の器官に転移する尤度を導くことができる。医療情報から抽出され得る他の特徴も使用されてもよい。何千もの特徴が存在し、上記の特徴の種類のリストは、単なる代表的なものであり、完全な特徴のリストであると解釈されるべきではない。
変更モジュールは、特徴の収集物から非特定化された患者の特徴に関連する変更特徴を生成する、1つ又は複数のマイクロサービス、サーバー、スクリプト、又は他の実行可能なアルゴリズムであってもよい。変更モジュールは、特徴の収集物から入力を取得することができ、格納のための変更を提供することができる。例示的な変更モジュールは、変更モジュールの収集物として以下の変更のうちの1つ又は複数を含むことができる。
IHC(免疫組織化学)モジュールは、生体組織内の抗原に特異的に結合する抗体の原理を利用することによって組織切片の細胞内の抗原(タンパク質)を特定することができる。IHC染色は、がん性腫瘍に見出されるもの等の異常細胞の診断において広範に使用されている。特定の分子マーカーは、増殖又は細胞死(アポトーシス)等の特定の細胞的事象に特徴的である。IHCはまた、生体組織の異なる部分におけるバイオマーカー及び差次的に発現されたタンパク質の分布及び局在を理解するための基礎研究に広範に使用されている。抗体-抗原相互作用の視覚化は、いくつかの方法で達成することができる。最も一般的な例では、抗体は、免疫ペルオキシダーゼ染色において発色反応を触媒することができるペルオキシダーゼ等の酵素にコンジュゲートされる。或いは、抗体はまた、免疫蛍光法においてフルオレセイン又はローダミン等のフルオロフォアにタグ付けされてもよい。RNA発現データ、H&Eスライド画像化データ、又は他のデータからの近似値が生成されてもよい。
治療モジュールは、成長し、発育するのを助けるがん細胞(又はそれらの近くの他の細胞)の差異、及びそれらの差異を「標的とする」薬物を特定することができる(例えば、例示的な薬物及びそれらの標的については図26及び図27を参照のこと)。これらの薬物による処置は、標的化治療と呼ばれる。例えば、多くの標的化薬物は、ほとんどの健康な細胞に影響を与えないが、正常で健康な細胞とは異なるものにする内部の「プログラミング」によりがん細胞の死を招く。標的化薬物は、正常な細胞に影響を与えずに、がん細胞を急速に成長させ、分裂するように伝える化学シグナルを遮断若しくは停止させ、がん細胞が死ぬようにがん細胞内のタンパク質を変化させ、がん細胞へ供給する新たな血管を作製することを止め、がん細胞を死滅させるように患者の免疫系を誘発し、又はがん細胞を死滅させるために毒素をがん細胞に運ぶことができる。一部の標的化薬物は、他のものより「標的化」されている。がん細胞の単一の変化のみを標的とすることができるものもあれば、いくつかの異なる変化に影響を与えることができるものもある。患者の身体ががん細胞と闘う手段を増強するものもある。このことは、これらの薬物が作用する場所及びそれらが引き起こす副作用に影響を与える可能性がある。標的化治療の適合は、患者の治療標的を特定すること、及び治療が効果的であり得る患者を特定することができる任意の他の組み入れ基準又は除外基準を満たすことを含むことができる。
試験モジュールは、患者の特徴を臨床試験に適合させることによって特定の特性を有するがんを処置するための仮説を特定し、試験することができる。これらの試験は、患者を登録するために適合されなければならない組み入れ及び除外基準を有し、刊行物、試験レポート、又は他の文書から取り入れられ、構造化され得る。
増幅モジュールは、他の遺伝子と不均衡に数(例えば、検体に存在する遺伝子産物の数)が増加している遺伝子を特定することができる。増幅により、数が増加した遺伝子が休眠状態になるか、過活動になるか、又は別の予期しない形式で動作する場合がある。増幅は、遺伝子レベル、バリアントレベル、RNA転写産物若しくは発現レベル、又は更にタンパク質レベルで検出され得る。検出は、全ての異なる検出機構又はレベルにわたって実施され、互いに対して検証され得る。
アイソフォームモジュールは、1つより多いmRNAタイプ(アイソフォーム)が、エクソン及びイントロンの異なる組合せによって同じ遺伝子の転写産物から生成される生物学的プロセスである、選択的スプライシング(AS)を特定することができる。大規模なゲノミクス研究により、哺乳動物遺伝子の30~60%が選択的スプライシングされていると推定される。遺伝子の選択的スプライシングの可能なパターンは非常に複雑である可能性があり、遺伝子内のイントロンの数が増加するにつれて複雑性が急速に増加する。in silicoでの選択的スプライシング予測では、ゲノム配列に対するmRNA配列の検索を通じてゲノム遺伝子座を特定し、ゲノム遺伝子座の配列を抽出し、最大で20kbまで両端に配列を伸長し、ゲノム配列を検索し(反復配列はマスクされている)、スプライシング対を抽出し(GT-AGコンセンサスを有する又はギャップの両端にアラインされた2つより多い発現された配列タグを有するアラインメントギャップの2つの境界)、それらの座標に従ってスプライシング対をアセンブルし、遺伝子境界を決定し(スプライシング対予測はこの時点まで生成される)、mRNA配列をゲノム鋳型にアラインすることによって予測された遺伝子構造を生成し、スプライシング対予測と遺伝子構造予測を比較して選択的スプライシングアイソフォームを見出すことによってアラインされた配列の大部分を共有するmRNAのセット内に大きな挿入又は欠失を見出すことができる。
SNP(一塩基多型)モジュールは、ゲノム内の特定の位置に発生する単一ヌクレオチドの置換を特定することができ、各変動は集団内にかなりの程度(例えば、>1%)で存在する。例えば、ヒトゲノムの特定の塩基位置、又は遺伝子座では、Cヌクレオチドはほとんどの個体に現れ得るが、少数の個体では、位置はAで占められる。これは、この特定の位置においてSNPが存在することを意味し、2つの可能なヌクレオチド変動である、C又はAは、この位置についての対立遺伝子であるといわれている。SNPは、広範な疾患に対するヒト感受性の違いが根底にある(例えば、鎌状赤血球貧血、β-サラセミア及び嚢胞性線維症はSNPに起因する)。病気の重症度及び身体が処置に応答する方法も遺伝的変動の現れである。例えば、APOE(アポリポタンパク質E)遺伝子の単一塩基変異は、アルツハイマー病のより低いリスクに関連する。一塩基バリアント(SNV)は、頻度の制限のない単一ヌクレオチドの変動であり、体細胞で発生し得る。体細胞一塩基変動(例えば、がんによって引き起こされる)は、一塩基変更と呼ばれることもある。MNP(多塩基多型)モジュールは、ゲノム内の特定の位置での連続ヌクレオチドの置換を特定することができる。
インデルモジュールは、小さな遺伝的変動に分類される生物のゲノム内の塩基の挿入又は欠失を特定することができる。インデルは、通常、長さが1~10000塩基対であるが、マイクロインデルは、1~50ヌクレオチドの正味の変化をもたらすインデルと定義される。インデルはSNP又は点変異と対比され得る。インデルは、配列からヌクレオチドを挿入及び/又は欠失するが、点変異は、DNAの全体の数を変化させずにヌクレオチドの1つを置き換える置換の形態である。挿入及び/又は欠失であるインデルは、特に系統発生的研究において、自然集団の遺伝子マーカーとして使用することができる。インデルの頻度は、ホモポリマー及びマイクロサテライトを含む、反復性が高い領域の近くを除いて、一塩基多型(SNP)のものより顕著に低くなる傾向がある。
MSI(マイクロサテライト不安定性)モジュールは、DNAミスマッチ修復(MMR)の障害に起因する遺伝的超変異性(変異に対する素因)を特定することができる。MSIの存在は、MMRが正常に機能していないという表現型の証拠を表す。MMRは、単一塩基ミスマッチ又は短い挿入及び欠失等の、DNA複製の間に自然に発生するエラーを修正する。MMRに関与するタンパク質は、DNAのミスマッチ部分に結合し、エラーを切り取り、正確な配列をその適所に挿入する複合体を形成することによってポリメラーゼエラーを修正する。MMRが異常に機能している細胞は、DNA複製の間に発生するエラーを修正することができず、これにより、その細胞はそれらのDNAにエラーを蓄積する。これにより、新規マイクロサテライト断片が作製される。ポリメラーゼ連鎖反応ベースのアッセイにより、これらの新規マイクロサテライトが明らかになり、MSIの存在についての証拠を提供することができる。マイクロサテライトはDNAの反復配列である。これらの配列は、長さが1~6塩基対の反復単位から構成され得る。これらのマイクロサテライトの長さは、ヒトによって大きく異なり、個々のDNA「フィンガープリント」の一因となるが、各個体は一定の長さのマイクロサテライトを有する。ヒトにおいて最も一般的なマイクロサテライトは、ヌクレオチドC及びAのジヌクレオチド反復であり、これは、ゲノム全体で数万回発生する。マイクロサテライトはまた、単純反復配列(SSR)としても知られている。
TMB(腫瘍変異量)モジュールは、腫瘍細胞によって保有され変異の尺度を特定することができ、がん免疫(I-O)療法に対する応答とのその関連性を評価するために研究されている予測バイオマーカーである。TMBが高い腫瘍細胞は、より多くの新生抗原を有する可能性があり、腫瘍微小環境及び周辺において抗がんT細胞の関連した増加を伴う。これらの新生抗原は、抗腫瘍応答を誘発する、T細胞によって認識され得る。TMBは、黒色腫、肺がん及び膀胱がんを含む、異なるがんにわたる免疫療法に対する潜在的な応答を予測するのに役立ち得る定量的マーカーとしてつい最近出現した。TMBは、腫瘍ゲノムのコード領域当たりの変異の総数と定義される。重要なことに、TMBは一貫して再現性がある。これは、標的化若しくは免疫療法の選択又は臨床試験の登録等の、処置の決定をより良く知らせるために使用することができる定量的尺度を提供する。
CNV(コピー数変動)モジュールは、特に、遺伝子、遺伝子の部分、又は遺伝子によって定義されていないゲノムの他の部分のコピー数、及び遺伝子、バリアント、対立遺伝子、又はヌクレオチド配列の分析からのいずれかのその後の関係において、正常なゲノムからのずれを特定することができる。CNVは、構造的変動が、ヌクレオチド、又は塩基対の部分において発生し得る現象であり、これには、反復、欠失、又は反転が含まれる。
融合モジュールは、2つの以前は別個の遺伝子から形成されたハイブリッド遺伝子を特定することができる。これは、転座、中間部欠失、又は染色体逆位の結果として発生し得る。遺伝子融合は、腫瘍形成において重要な役割を果たし得る。融合遺伝子は非融合遺伝子よりはるかに多くの活性異常タンパク質を産生し得るので、融合遺伝子は腫瘍形成の一因となり得る。多くの場合、融合遺伝子は、がんを引き起こすがん遺伝子であり、これらには、BCR-ABL、TEL-AML1(t(12;21)であるALL)、AML1-ETO(t(8;21)であるM2 AML)、及び多くの場合、前立腺がんにおいて発生する、21番染色体に中間部欠失を伴うTMPRSS2-ERGが含まれる。TMPRSS2-ERGの場合、アンドロゲン受容体(AR)シグナル伝達を破壊し、発がん性ETS転写因子によりAR発現を阻害することによって、融合産物は前立腺がんを調節する。ほとんどの融合遺伝子は、血液がん、肉腫、及び前立腺がんから見出されている。BCAM-AKT2は、高異型度漿液性卵巣がんに特異的で固有の融合遺伝子である。発がん性融合遺伝子は、新しい又は2つの融合パートナーとは異なる機能を有する遺伝子産物をもたらす場合がある。或いは、がん原遺伝子は強力なプロモーターに融合され、それによって発がん機能が、上流の融合パートナーの強力なプロモーターによって引き起こされる上方制御によって機能するように設定される。後者はリンパ腫において一般的であり、がん遺伝子は免疫グロブリン遺伝子のプロモーターに並列される。発がん性融合転写産物はまた、トランススプライシング又はリードスルー事象によっても引き起こされる可能性がある。染色体転座は新生物形成においてこのような重要な役割を果たしているので、がんにおける染色体異常及び遺伝子融合の専門データベースが作成された。このデータベースは、がんにおける染色体異常及び遺伝子融合のマイテルマンデータベース(Mitelman Database of Chromosome Aberrations and Gene Fusions in Cancer)と呼ばれている。
VUS(意義不明のバリアント)モジュールは、患者(特に患者のがん検体)のゲノムにおいて検出されるが、検出時に病原性又は良性として分類することができないバリアントを特定することができる。VUSは、良性又は病原性として分類され得るかどうかを特定するために刊行物からカタログ化され得る。
DNA修復経路モジュール(例えば、経路エンジン200n)は、がん細胞が、それらの悪性表現型の一因となるゲノム変化を蓄積することを可能にするDNA修復経路の欠陥を特定することができる。がん性腫瘍は、がん細胞において不活性化される分離されたDNA修復経路をもたらす遺伝毒性ストレスによって誘発される損傷に耐えるために残存するDNA修復能力に依存する。DNA修復経路は、一般に、別の細胞周期段階において異なる種類の病変に対処する相互に排他的な機構単位と考えられる。しかしながら、最近の前臨床研究により、複数の従来のDNA修復経路に関与する多機能DNA修復ハブが、がんにおいて頻繁に変化するという強力な証拠が提供されている。影響を受ける可能性がある経路を特定することは、重要な患者の処置の考慮につながり得る。
生カウントモジュールは、シーケンシングデータから検出されるバリアントのカウントを特定することができる。DNAの場合、これは、遺伝子の特定のバリアントに対応するシーケンシングからのリードの数であり得る。RNAの場合、これは、シーケンシングからの遺伝子発現カウント又はトランスクリプトームカウントであり得る。
構造バリアント分類は、特徴の収集物からの特徴、変更モジュールからの変更、及び1つ又は複数の分類モジュールからのそれ自体内からの他の分類を評価することを含むことができる。構造バリアント分類は、格納された分類ストレージに分類を提供することができる。例示的な分類モジュールは、以下のようにCNVの分類を含むことができ、「報告可能」は、CNVが、腫瘍がんの特性、疾患状態、又は薬理ゲノミクスに影響を与えるものとして1つ又は複数の参照データベースにおいて特定されたことを意味することができ、「報告不可能」は、CNVが、このように特定されていないことを意味することができ、「矛盾する証拠」は、CNVが、「報告可能」及び「報告不可能」を示唆する両方の証拠を有することを意味することができる。更に、治療関連の分類は、CNVの検出(又は非検出)によって影響を受け得る治療について触れている任意の参照データセットから同様に確認される。他の分類には、機械学習アルゴリズム、ニューラルネットワーク、回帰技法、グラフ技法、帰納的推論アプローチ、又はモジュール内の他の人工知能評価のアプリケーションが含まれ得る。臨床試験についての分類子は、重要又は報告可能と特定された変更モジュールから特定されたバリアントの評価、組み入れ及び除外基準を特定するのに利用可能な全ての臨床試験の評価、患者のバリアント及び他の情報を組み入れ及び除外基準にマッピングすること、並びに臨床試験を、患者に適用可能又は患者に適用不可能として分類することを含むことができる。治療、機能喪失、機能獲得、診断、マイクロサテライト不安定性、腫瘍変異量、インデル、SNP、MNP、融合、及び変更モジュールの結果に基づいて分類され得る他の変更に対して同様の分類を実施することができる。
特徴収集物、変更モジュール、構造バリアント及び特徴ストアの各々は、データバスに通信可能に接続されて、処理及び/又は格納のために各モジュール間でデータを転送することができる。一部の実施形態では、特徴収集物、変更モジュール、構造バリアント及び特徴ストアの各々は、データバスを共有せずに独立した通信のために互いに通信可能に接続され得る。
上記の特徴及び列挙されたモジュールに加えて、特徴モジュールは、サブモジュール又はスタンドアローンモジュールとしてそれらのそれぞれのモジュール内に以下のモジュールのうちの1つ又は複数を更に含むことができる。
生殖細胞系列/体細胞DNA特徴モジュールは、患者又は患者の腫瘍のDNAに由来する情報に関連する特徴収集物を含むことができる。これらの特徴には、FASTQ、BAM、VCFに格納されたもの等の生のシーケンシング結果、又は当該技術分野において知られている他のシーケンシングファイルタイプ、遺伝子、変異、バリアントコール、及びバリアントの特性が含まれ得る。患者の正常なサンプルからのゲノム情報は生殖細胞系列として格納されてもよく、患者の腫瘍サンプルからのゲノム情報は体細胞として格納されてもよい。
RNA特徴モジュールは、トランスクリプトーム情報等の患者のRNAに由来する情報に関連する特徴収集物を含むことができる。これらの特徴には、生のシーケンシング結果、トランスクリプトーム発現、遺伝子、変異、バリアントコール、及びバリアントの特性が含まれ得る。
メタデータモジュールは、ヒトゲノム、タンパク質構造及びタンパク質構造に基づくエネルギー安定性の変化等のそれらの効果に関連する特徴収集物を含むことができる。
臨床モジュールは、患者の臨床記録及び患者の家族のメンバーからの記録から得られた情報に関連する特徴収集物を含むことができる。これらは、構造化されていない臨床文書、EMR、EHR、又は患者病歴の他の情報源から抽出され得る。情報には、患者の症状、診断、処置、医薬、治療、ホスピス、処置に対する応答、臨床試験結果、医療歴、各々の地理的な位置、人口統計、又は患者の医療記録に見出され得る患者の他の特徴が含まれ得る。処置、医薬、治療等に関する情報は、推奨若しくは処方として、及び/又はこのような処置、医薬、治療等が投与又は服用されたことの確認として取り込まれ得る。
画像化モジュールは、患者の画像化記録から得られた情報に関連する特徴収集物を含むことができる。画像化記録には、H&Eスライド、IHCスライド、放射線画像、種々の病気及び疾患の診断及び処置の過程の間に医師が指図し得る他の医療画像が含まれ得る。これらの特徴には、TMB、倍数性、純度、核-細胞質比、大核、細胞状態の変化、生物学的経路破壊、ホルモン受容体の変化、免疫細胞浸潤、MMR、MSI、PDL1、CD3、FOXP3、HRD、PTEN、PIK3CAの免疫バイオマーカー、コラーゲン又は間質の組成、外観、密度、又は特性、腫瘍簇出、サイズ、悪性度、転移、免疫状態、クロマチン形態、及び予後予測のための細胞、組織、又は腫瘍の他の特性が含まれ得る。
オミクスからのエピゲノムモジュール等のエピゲノムモジュールは、DNA配列の変化ではなく、遺伝子発現を調節するDNA修飾に由来する情報に関連する特徴収集物を含むことができる。これらの修飾は、患者が何を呼吸し得るか、食べ得るか、又は飲み得るかに基づく環境要因の結果であることが多い。これらの特徴には、DNAメチル化、ヒストン修飾、又は遺伝子内のヌクレオチドの配列を変更することなく遺伝子を不活性化するか、又は遺伝子機能への変化を引き起こす他の要因が含まれ得る。
オミクスからのマイクロバイオームモジュール等のマイクロバイオームモジュールは、患者のウイルス及び細菌から得られた情報に関連する特徴収集物を含むことができる。これらの特徴には、ある特定の病気の処置及び診断に影響を及ぼし得るウイルス感染、並びに患者によって摂取された医薬の有効性に影響を及ぼし得る患者の胃腸管内に存在する細菌が含まれ得る。
オミクスからのプロテオームモジュール等のプロテオームモジュールは、患者内で産生されるタンパク質から得られた情報に関連する特徴収集物を含むことができる。これらの特徴には、タンパク質の組成、構造、及び活性、タンパク質がいつ、どこで発現されるか、タンパク質の産生率、分解率、及び定常状態の存在量、タンパク質がどのように修飾されるか、例えば、リン酸化等の翻訳後修飾、細胞内コンパートメント間のタンパク質の移動、代謝経路へのタンパク質の関与、タンパク質が互いにどのように相互作用するか、又はリン酸化、ユビキチン化、メチル化、アセチル化、グリコシル化、酸化、若しくはニトロシル化等の、RNAから翻訳された後のタンパク質の修飾が含まれ得る。
オミクスの全ての異なる分野に関連する特徴収集物等の更なるオミクスモジュールもまた、オミクスに含まれてもよく、これには、遺伝子プロファイルに関連する認知プロセスの変化の研究を含む特徴の収集物である、認知ゲノミクス、異なる生物学的種又は株にわたるゲノム構造及び機能の関係の研究を含む特徴の収集物である、比較ゲノミクス、トランスクリプトームを含む遺伝子及びタンパク質の機能及び相互作用の研究を含む特徴の収集物である、機能ゲノミクス、遺伝子-遺伝子、タンパク質-タンパク質、又はタンパク質-リガンドの相互作用の大規模分析に関係する研究を含む特徴の収集物である、インタラクトミクス、環境サンプルから直接回収された遺伝物質等のメタゲノムの研究を含む特徴の収集物である、メタゲノミクス、神経系の発達及び機能への遺伝的影響の研究を含む特徴の収集物である、ニューロゲノミクス、所与の種内に見られる遺伝子ファミリーの収集物全体の研究を含む特徴の収集物である、パンゲノミクス、遺伝子型が判明した後に、個人の遺伝子型が公開されている文献と比較されて、形質発現の尤度及び疾患リスクを決定し、オーダーメイド医療の提案を強化することができるように、個人のゲノムのシーケンシング及び分析に関するゲノミクスの研究を含む特徴の収集物である、パーソナルゲノミクス、タンパク質及びRNAバインダー、代替DNA構造、並びにDNA上の化学修飾を含む、ゲノムの構造をサポートすることの研究を含む特徴の収集物である、エピゲノミクス、複雑な動的生物系として細胞核を形成する一揃えのゲノム成分の研究を含む特徴の収集物である、ヌクレオミクス、患者によって産生された任意の特定の脂質のセットになされる修飾を含む、細胞脂質の研究を含む特徴の収集物である、リピドミクス、患者によって産生された任意の特定のタンパク質のセットになされる修飾を含む、タンパク質の研究を含む特徴の収集物である、プロテオミクス、免疫応答に関与する大きなセットのタンパク質の研究を含む特徴の収集物である、イムノプロテオミクス、タンパク質発現研究のためのプロテオミクス質量分析データの使用を含む食事の栄養成分及び非栄養成分の分子標的を特定することに関する研究を含む特徴の収集物である、ニュートリプロテオミクス、遺伝子注釈を特定するデータを含むプロテオミクスとゲノミクスとの交わりにおける生物学的研究の研究を含む、特徴の収集物である、プロテオゲノミクス、モデリングアプローチの組合せを使用する所与のゲノムによってコードされる全てのタンパク質の3次元構造の研究を含む特徴の収集物である、構造ゲノミクス、糖質及び炭水化物並びに患者におけるそれらの効果の研究を含む特徴の収集物である、グリコミクス、消費者の幸福、健康、及び知識を改善するための技術の応用及び統合を通じての食品と栄養領域との間の交わりの研究を含む特徴の収集物である、フードミクス、細胞内で産生されるmRNA、rRNA、tRNA、及び他の非コードRNAを含む、RNA分子の研究を含む特徴の収集物である、トランスクリプトミクス、代謝産物を伴う化学プロセス、又は特定の細胞プロセスが後に残す固有の化学フィンガープリント、及びそれらの小分子代謝物プロファイルの研究を含む特徴の収集物である、メタボロミクス、病態生理学的刺激又は遺伝子修飾に対する細胞の動的マルチパラメトリック代謝応答の定量的測定の研究を含む特徴の収集物である、メタボノミクス、影響を受けやすいサブグループとの関連を有する食事と健康との間の相互作用における遺伝的変動の研究を含む特徴の収集物である、ニュートリゲネティクス、遺伝子プロファイルに関連する認知プロセスの変化の研究を含む特徴の収集物である、認知ゲノミクス、ヒトゲノム内の変動の総和が薬物に及ぼす効果の研究を含む特徴の収集物である、ファーマコゲノミクス、ヒトマイクロバイオーム内の変動が薬物に及ぼす効果の研究を含む特徴の収集物である、ファーマコマイクロバイオミクス、毒性物質に応答する生物の特定の細胞又は組織内の遺伝子及びタンパク質の活性の研究を含む特徴の収集物である、トキシコゲノミクス、ミトコンドリアタンパク質が相互作用するプロセスの研究を含む特徴の収集物である、ミトインタラクトーム、ゲノミクス及びプロテオミクスという強力なツールを適用して正常な挙動の生体基質及びそれ自体が行動障害として現れる脳の疾患についての理解を深めるプロセスの研究を含む、特徴の収集物である、サイコゲノミクスであって、サイコゲノミクスを薬物依存症の研究に適用して、これらの障害に対するより効果的な処置並びに客観的診断ツール、予防対策、及び治療法を開発することを含む、サイコゲノミクス、ヒト生物学及び病状を理解するためのモデルシステムとして幹細胞を確立する幹細胞生物学の研究を含む特徴の収集物である、幹細胞ゲノミクス、脳内の神経連絡の研究を含む特徴の収集物である、コネクトミクス、消化管内に生息する微生物群のゲノムの研究を含む特徴の収集物である、ミクロバイオミクス、定量細胞分析の研究並びに生体画像化法及びバイオインフォマティクスを使用する研究を含む特徴の収集物である、セロミクス、画像化質量分析データから高空間分解能で組織又は細胞生化学を理解するためのトモグラフィー及びオミクス法の研究を含む特徴の収集物である、トモミクス、患者の行動のハイスループット機械測定の研究を含む特徴の収集物である、エソミクス、並びにゲノミクスの原理に着想を得たビデオ分析パラダイムの研究を含む特徴の収集物であり、連続画像シーケンス、又はビデオは、患者の洞察を明らかにする変異の時間経過にわたって展開する単一画像の捕捉として解釈され得る、ビデオミクスが含まれる。
特徴の十分にロバストな収集物は、上記に開示されている特徴の全てを含むことができるが、利用可能な特徴に基づくモデル及び予測は、網羅的な特徴セットよりかなり制限されている特徴の選択から訓練されたモデルを含むことができる。そのような制約された特徴セットは、わずか数十から数百の特徴を含むことができる。例えば、モデルの制約された特徴セットは、患者の腫瘍のシーケンシングのゲノム結果、ゲノム結果に基づく派生特徴、患者の腫瘍発生源、診断時の患者の年齢、患者の性別及び人種、並びに患者が定期検診中に医師に示した症状を含むことができる。
特徴ストアは、任意の特徴、変化、又は患者の特徴若しくはそれらの特徴の変化から導出される計算された出力から選択することによって、機械学習及びアナリティクスを適用することで患者の特徴セットを増強することができる。このような特徴ストアは、特徴モジュールにおいて見出された元の特徴から新しい特徴を生成することができるか、又は特徴に基づいて重要な洞察若しくは分析を特定して格納することができる。特徴の選択は、生成されるべき変化又は計算に基づいてもよく、ゲノムの一塩基若しくは多塩基多型の挿入若しくは欠失、腫瘍変異量、マイクロサテライト不安定性、コピー数変動、融合の計算、又は他のそのような計算を含むことができる。将来の変化又は計算を知らせることができる生成される変化又は計算の例示的な出力には、肺がん及びEGFRにおけるバリアント、非小細胞肺がんの約10%及び非喫煙者の肺がんの約50%で変異している上皮増殖因子受容体遺伝子の所見を含む。以前に分類されたバリアントは、患者のゲノム内で特定され得るが、これは新規バリアントの分類を知らせることができるか、又は疾患の更なるリスクを示すことができる。例示的なアプローチは、EGFRと相互作用し、がんに関連する証拠付近又はその証拠を有する領域を特定するためにバリアント及びそれらのそれぞれの分類の富化を含むことができる。この領域に局在化される患者のシーケンシングから検出されたいずれかの新規のバリアント又はこの領域との相互作用は患者のリスクを増加させる。このような変化検出に利用され得る特徴は、EGFRの構造及びその中のバリアントの分類を含む。富化に焦点を当てたモデルは、そのようなバリアントを分離することができる。
上記の参照モデルは、人工知能エンジンとして実装されてもよく、勾配ブースティングモデル、ランダムフォレストモデル、ニューラルネットワーク(NN)、回帰モデル、ナイーブベイズモデル、又は機械学習アルゴリズム(MLA)を含むことができる。MLA又はNNは、訓練データセットから訓練され得る。例示的な予測プロファイルでは、訓練データセットには、EHRからキュレートされたもの、又は遺伝子シーケンシングレポート等の、患者の画像化、病理、臨床、及び/又は分子レポート並びに詳細が含まれ得る。MLAには、線形回帰、ロジスティック回帰、決定木、分類及び回帰木、ナイーブベイズ、最近傍クラスタリングを使用する教師ありアルゴリズム(データセット内の特徴/分類が注釈されているアルゴリズム等)、アプリオリ、平均クラスタリング、主成分分析、ランダムフォレスト、適応型ブースティングを使用する教師なしアルゴリズム(データセット内の特徴/分類が注釈されていないアルゴリズム等)、並びに生成アプローチ(ガウス分布の混合、多項分布の混合、隠れマルコフモデル等)、低密度分離、グラフベースのアプローチ(最小カット、調和関数、多様体正則化等)、発見的アプローチ、又はサポートベクターマシンを使用する半教師ありアルゴリズム(データセット内の不完全な数の特徴/分類が注釈されているアルゴリズム等)が含まれる。NNには、条件付き確率場、畳み込みニューラルネットワーク、注意ベースニューラルネットワーク、ディープラーニング、長短期記憶ネットワーク、又は他のニューラルモデルが含まれ、訓練データセットには、複数の腫瘍サンプル、各サンプルに対するRNA発現データ、及び各サンプルに対する画像化データをカバーする病理レポートが含まれる。MLA及びニューラルネットワークは、機械学習の異なるアプローチを特定するが、この用語は、本明細書では交換可能に使用され得る。したがって、特に明記しない限り、MLAの言及は対応するNNを含むことができるか、又はNNの言及は対応するMLAを含むことができる。訓練は、データセットを提供すること、患者の記録に出現するときにこれらの特質にラベル付けすること、及び新しい入力に基づき予測するか又は分類するようにMLAを訓練することを含むことができる。人工NNは、効率的な計算モデルであり、人工知能の難しい問題を解くことに強
みがあることを示している。それらが普遍的近似器であることも示されている(適切なパラメータを与えたときに広範な関数を表現することができる)。MLAの中には、重要な特徴を特定し、それらに対する係数、又は重みを特定することができるものもある。係数は、特徴の出現頻度と掛け合わされてスコアを生成することができ、1つ又は複数の特徴のスコアが閾値を超えたときに、MLAによっていくつかの分類が予測され得る。係数スキーマは、ルールベーススキーマと組み合わされて、複数の特徴に基づく予測等の、より複雑な予測を生成することができる。例えば、異なる分類にわたって10個の重要な特徴が識別され得る。係数のリストは、重要な特徴に対して存在することができ、ルールセットは、分類に対して存在することができる。ルールセットは、特徴の出現数、特徴のスケーリングされた重み、又は当業者に知られているロジックでコードされた特徴の他の定性的及び定量的な評価に基づくことができる。他のMLAでは、特徴は、二分木構造で編成されてもよい。例えば、大部分の分類を区別する重要な特徴は、二分木のルートとして、また木における後続の各枝として、木の終端ノードに到達することに基づき分類が与えられ得るまで、存在することができる。例えば、二分木は、第1の特徴を検定するルートノードを有することができる。この特徴の出現又は非出現は、存在していなければならず(二分決定)、ロジックは、分類される項目に対して真である枝をトラバースすることができる。追加のルールは、閾値、範囲、又は他の定性的及び定量的検定に基づくことができる。訓練データセットが多数の知られている値又は注釈を有するときに教師ありの方法は有用であるが、EMR/EHRドキュメントの性質上、多数の注釈が与えられていない場合もある。大量のラベル付けされていないデータを探索するときに、教師なしの方法はデータセット内のインスタンスのビン分割/バケット化に対して有益である。上記のモデルの単一のインスタンス、又は2つ若しくはそれ以上のそのようなインスタンスは組み合わせることで、本明細書において、モデル、人工知能、ニューラルネットワーク、又は機械学習アルゴリズムの目的のためにモデルを構成することができる。
ここで図3A及び図3Bを参照すると、システム10に使用され得るデバイスの概略的な例が示される。経路エンジンは、システム10に含まれ得るコンピューティングデバイス210に含まれ得る。コンピューティングデバイス210は、通信ネットワーク20を通じて、経路データベース300、ラベル付けされた腫瘍サンプルデータベース400、薬物経路相互作用データベース500、治療応答データベース600、臨床試験データベース700、及び患者報告ジェネレーター800と通信(例えば、有線通信、無線通信)することができる。患者報告ジェネレーター800は、システム内及び/又はコンピューティングデバイス210上に含まれ得る二次コンピューティングデバイス250に含まれ得る。コンピューティングデバイス210は、二次通信デバイス250と通信することができる。コンピューティングデバイス210及び/又は二次コンピューティングデバイス250はまた、通信ネットワーク20を通じて、システム10に含まれ得るディスプレイ290と通信することができる。
通信ネットワーク20は、コンピューティングデバイス210と二次コンピューティングデバイス250との間の通信を容易にすることができる。一部の実施形態では、通信ネットワーク20は、任意の好適な通信ネットワーク又は通信ネットワークの組合せであってもよい。例えば、通信ネットワーク20には、Wi-Fiネットワーク(1つ又は複数の無線ルーター、1つ又は複数のスイッチ等を含むことができる)、ピア・ツー・ピアネットワーク(例えば、Bluetoothネットワーク)、セルラーネットワーク(例えば、CDMA、GSM、LTE、LTE Advanced、WiMAX等の任意の好適な規格に準拠する、3Gネットワーク、4Gネットワーク、5Gネットワーク等)、有線ネットワーク等が含まれ得る。一部の実施形態では、通信ネットワーク20は、ローカルエリアネットワーク、ワイドエリアネットワーク、パブリックネットワーク(例えば、インターネット)、プライベート又はセミプライベートネットワーク(例えば、企業又は大学のイントラネット)、ネットワークの任意の他の好適なタイプ、ネットワークの任意の好適な組合せであってもよい。図3A及び図3Bに示される通信リンクは、各々、有線リンク、光ファイバーリンク、Wi-Fiリンク、Bluetoothリンク、セルラーリンク等の、任意の好適な通信リンク又は通信リンクの組合せであってもよい。
図3Cは、システム10の一部の実施形態で使用され得るハードウェアの例を示す。コンピューティングデバイス210は、プロセッサ214、ディスプレイ216、入力218、通信システム220、及びメモリ222を含むことができる。プロセッサ214は、以下に記載されるプロセスを含むことができる、プログラムを実行することができる、中央処理装置(「CPU」)、グラフィックス処理装置(「GPU」)等の、任意の好適なハードウェアプロセッサ又はプロセッサの組合せであってもよい。
一部の実施形態では、ディスプレイ216は、グラフィカルユーザーインターフェースを提示することができる。一部の実施形態では、ディスプレイ216は、コンピュータモニター、タッチスクリーン、テレビ等の、任意の好適なディスプレイデバイスを使用して実装され得る。一部の実施形態では、コンピューティングデバイス210の入力218は、インジケータ、センサ、作動可能ボタン、キーボード、マウス、グラフィカルユーザーインターフェース、タッチスクリーンディスプレイ等を含むことができる。
一部の実施形態では、通信システム220は、任意の好適な通信ネットワークを通じて他のシステムと通信するための任意の好適なハードウェア、ファームウェア、及び/又はソフトウェアを含むことができる。例えば、通信システム220は、1つ若しくは複数のトランシーバ、1つ若しくは複数の通信チップ及び/又はチップセット等を含むことができる。より具体的な例では、通信システム220は、同軸接続、光ファイバー接続、Ethernet接続、USB接続、Wi-Fi接続、Bluetooth接続、セルラー接続等を確立するために使用され得るハードウェア、ファームウェア、及び/又はソフトウェアを含むことができる。一部の実施形態では、通信システム220は、コンピューティングデバイス210が、二次コンピューティングデバイス250と通信することを可能にする。
一部の実施形態では、メモリ222は、例えば、ディスプレイ216を使用してコンテンツを提示し、通信システム220を通じて二次コンピューティングデバイス250と通信等するためにプロセッサ214によって使用され得る、指示、値等を格納するために使用され得る任意の好適な1つ又は複数のストレージデバイスを含むことができる。メモリ222は、任意の好適な揮発性メモリ、不揮発性メモリ、ストレージ、又はそれらの任意の好適な組合せを含むことができる。例えば、メモリ222は、RAM、ROM、EEPROM、1つ又は複数のフラッシュドライブ、1つ又は複数のハードディスク、1つ又は複数のソリッドステートドライブ、1つ又は複数の光学ドライブ等を含むことができる。一部の実施形態では、メモリ222は、コンピューティングデバイス210(又は二次コンピューティングデバイス250)の動作を制御するためのコンピュータプログラムをその中にコードすることができる。そのような実施形態では、プロセッサ214は、コンピュータプログラムの少なくとも一部分を実行して、コンテンツ(例えば、ユーザーインターフェース、画像、グラフィックス、テーブル、レポート等)を提示し、二次コンピューティングデバイス250からコンテンツを受信し、二次コンピューティングデバイス250へ情報を送信すること等ができる。
二次コンピューティングデバイス250は、プロセッサ254、ディスプレイ256、入力258、通信システム260、及びメモリ262を含むことができる。プロセッサ254は、中央処理装置(「CPU」)、グラフィックス処理装置(「GPU」)等の、任意の好適なハードウェアプロセッサ又はプロセッサの組合せであってもよく、それらは、以下に記載されるプロセスを含むことができる、プログラムを実行することができる。
一部の実施形態では、ディスプレイ256は、グラフィカルユーザーインターフェースを提示することができる。一部の実施形態では、ディスプレイ256は、コンピュータモニター、タッチスクリーン、テレビ等の、任意の好適なディスプレイデバイスを使用して実装され得る。一部の実施形態では、二次コンピューティングデバイス250の入力258は、インジケータ、センサ、作動可能ボタン、キーボード、マウス、グラフィカルユーザーインターフェース、タッチスクリーンディスプレイ等を含むことができる。
一部の実施形態では、通信システム260は、任意の好適な通信ネットワークを通じて他のシステムと通信するための任意の好適なハードウェア、ファームウェア、及び/又はソフトウェアを含むことができる。例えば、通信システム260は、1つ若しくは複数のトランシーバ、1つ若しくは複数の通信チップ及び/又はチップセット等を含むことができる。より具体的な例では、通信システム260は、同軸接続、光ファイバー接続、Ethernet接続、USB接続、Wi-Fi接続、Bluetooth接続、セルラー接続等を確立するために使用され得るハードウェア、ファームウェア、及び/又はソフトウェアを含むことができる。一部の実施形態では、通信システム260は、二次コンピューティングデバイス250が、コンピューティングデバイス210と通信することを可能にする。
一部の実施形態では、メモリ262は、例えば、ディスプレイ256を使用してコンテンツを提示し、通信システム260を通じてコンピューティングデバイス210と通信等するためにプロセッサ254によって使用され得る、指示、値等を格納するために使用され得る任意の好適な1つ又は複数のストレージデバイスを含むことができる。メモリ262は、任意の好適な揮発性メモリ、不揮発性メモリ、ストレージ、又はそれらの任意の好適な組合せを含むことができる。例えば、メモリ262は、RAM、ROM、EEPROM、1つ又は複数のフラッシュドライブ、1つ又は複数のハードディスク、1つ又は複数のソリッドステートドライブ、1つ又は複数の光学ドライブ等を含むことができる。一部の実施形態では、メモリ262は、二次コンピューティングデバイス250(又はコンピューティングデバイス210)の動作を制御するためのコンピュータプログラムをその中にコードすることができる。そのような実施形態では、プロセッサ254は、コンピュータプログラムの少なくとも一部分を実行して、コンテンツ(例えば、ユーザーインターフェース、画像、グラフィックス、テーブル、レポート等)を提示し、コンピューティングデバイス210からコンテンツを受信し、コンピューティングデバイス210へ情報を送信すること等ができる。ディスプレイ290は、コンピュータディスプレイ、テレビモニター、プロジェクター、又は他の好適なディスプレイであってもよい。
開示されたシステム及び方法のための例示的な訓練データ
図4は、経路エンジン200nを訓練するために使用され得るデータ入力100からの例示的なデータの表現を示す。具体的には、図4は、いくつかのトランスクリプトーム値を含むことができるデータセット410を示す。各トランスクリプトーム値のセット(例えば、411のトランスクリプトーム値1、412のトランスクリプトーム値2、...413のトランスクリプトーム値N)は、単一の組織検体と関連付けられ得る。各トランスクリプトーム値411~413は、遺伝子の全ての可能なRNA産物の発現レベルに対応する生のカウント又は正規化されたカウントを表すことができる。各トランスクリプトーム値411~413は単一の検体と関連付けられ得る。データセット410はまた、各検体及びトランスクリプトーム値のセットに関連付けられた1つ又は複数の経路ラベルも含むことができる。例えば、第1の検体は、第1の経路ラベル414、第2の経路ラベル415、及び第3の経路ラベル416と関連付けられ得る。各経路ラベルは、経路(例えば、経路データベース300に含まれる経路)と関連付けられ得る。各経路ラベルは、検体と関連付けられたDNAデータセットにおいて検出された経路変化と関連付けられた「陽性対照」又は「陰性対照」であってもよい。各検体と関連付けられたトランスクリプトーム値及び経路ラベルは、以下に記載されるように1つ又は複数の機械学習モデルを訓練するために訓練データとして使用することができる。
例えば、各トランスクリプトーム値のセットは、RNA-seq又は他のシーケンシング方法を使用して各対応する組織検体をシーケンシングすることによって生成することができる。シーケンシングは、全エクソームシーケンシング又は標的化されたパネルシーケンシングであってもよく、次世代シーケンシングであってもよい。データセット410におけるトランスクリプトーム値のセットは、各列が遺伝子であり、各行が検体であるテーブルに格納することができ、セルの値は検体-遺伝子対についての発現レベルの値を反映する。生の発現レベルの値は、0~1000万超の範囲であり得る。遺伝子を表す列は、組み合わされたその遺伝子の全ての可能なRNA産物(例えば、全ての可能な転写産物、スプライスバリアント、又はアイソフォーム)、又は遺伝子のRNA産物のサブセットの発現レベルを表すことができる。種々の実施形態では、組織サンプルは、ヒト患者又は腫瘍オルガノイド由来の生検又は血液サンプルである。
種々の実施形態では、システム及び方法による使用前に、バルク検体(例えば、2つ以上の組織型を有する検体)からのトランスクリプトーム値のセットは、デコンボリューションされて、生検組織部位を含む交絡因子を除去している。一例では、デコンボリューションは、2018年12月31日に出願された米国仮特許出願第62/786,756号及び2019年12月6日に出願された米国仮特許出願第62/944,995号に開示されているシステム及び方法に従って実施され、それらの両方は本明細書に参照により組み込まれる。
種々の実施形態では、システム及び方法は、既知の技術的及び生物学的共変量を検出し、それらを経路破壊スコアの計算に組み込むための更なるストラテジーを含む。システム及び方法は、経路破壊スコアを計算するときに組織部位及び腫瘍純度の影響を考慮することができる。
種々の実施形態では、トランスクリプトーム値のセットの値は正規化され得る。正規化されたトランスクリプトーム値は0~8の範囲であり得る。一例では、正規化方法は、本明細書に参照により組み込まれる、米国特許出願第16/581,706号、及びUSPCT19/52801(それぞれ9/24/2019、及び9/24/2019に出願)に開示されるシステム及び方法に従って行われる。
DNAバリアントデータセットはまた、データセット410内の各トランスクリプトーム値のセットに関連付けられ得る(図4に示さず)。一例では、各DNAデータセットは、DNA-seq又は他のシーケンシング方法を使用して対応する組織検体をシーケンシングすることによって生成され得る。シーケンシングは、全エクソームシーケンシング又は標的化されたパネルシーケンシングであってもよく、次世代シーケンシングであってもよい。別の例では、DNAデータセットは、マイクロアレイ又はSNPアレイによって得られる。
一例では、DNAデータセットは経路変異データを含む。経路変異データは、DNAデータセットの遺伝子バリアント、特に目的の細胞経路に関連する遺伝子及び/又はプロモーターの遺伝子バリアントを記述するデータを含むことができる。一例では、目的の細胞経路は、TCGAコンソーシアムによって定義された発がん性シグナル伝達経路のうちの1つである。別の例では、目的の細胞経路は、カスタム遺伝子セット又は遺伝子のリストである。一例では、DNAデータセットは、バリアントコールフォーマット(VCF)ファイルとして格納される。別の例では、DNAデータセットは、遺伝子バリアントのリストである。種々の実施形態では、DNAデータセットのサブセット(例えば、目的の細胞経路に関連するデータ)又は全DNAデータセットは、経路エンジン200nを訓練するための特徴として使用され得る。遺伝子バリアントは、一塩基多型、融合、挿入欠失、コピー数変動等を含む、任意のクラスのバリアントを含むことができる。
データセット410の各トランスクリプトーム値のセットは、トランスクリプトーム値のセットが導出される検体に関する情報を反映する1つ又は複数のデータ要素に関連付けられ得る。図4に示されるように、各トランスクリプトーム値は、検体ID、がんの種類、及び1つ又は複数の調節不全指標に関連付けられる。調節不全指標のいずれか又は全ては、経路エンジン200nを訓練するための特徴として使用され得る。各調節不全指標は、目的の1つ又は複数の経路に関連付けられ得る。トランスクリプトーム値のセットが、がんの種類に関連付けられていない場合、又は関連付けられたがんの種類が不正確である可能性が高い場合、がんの種類は、例えば、トランスクリプトームに関連付けられた病理組織学的スライドを分析することによって、又はトランスクリプトーム及び任意の関連付けられたデータを分析することによってトランスクリプトームについて決定され得る。2019年5月31日に出願された、Systems and Methods for Multi-label Cancer Classificationと題された米国仮特許出願第62/855,750号に記載されている一例が参照により本明細書に組み込まれる。関連付けられたがんの種類がないか、又は不正確である可能性がある関連付けられたがんの種類があるトランスクリプトームの一例は、未知の腫瘍発生源、転移性腫瘍、又は不正確にラベル付けされたがんサンプルに関連付けられたトランスクリプトームである。
一例では、データセット410は、経路エンジン200nを訓練するためのデータセット410のサブセットを生成するためにフィルタ処理することができ、がんの種類及び/又は目的の経路に基づいてフィルタ処理することができる。例えば、経路エンジン200nが、がんの種類(例えば、肺がん)に特異的であるように設計される場合、異なるがんの種類に関連する行は、DEGの選択及び訓練の前にデータセット410から除去され得る(図5と併せて記載される)。別の例として、経路エンジン200nが目的の経路に特異的である場合、異なる経路に関連付けられた調節不全指標は、DEGを選択し、経路エンジン200nを訓練する前にデータセット410から除去され得る。モデルを訓練するために選択される各トランスクリプトーム値のセット及び関連付けられた調節不全指標は、特徴ベクトルに変換される。
一部の実施形態では、経路エンジン200nを訓練するために使用されるデータセット410のデータは、30を超えるトランスクリプトーム値のセットを含む。一部の実施形態では、経路エンジン200nを訓練するために使用されるデータセット410のデータは、900を超えるトランスクリプトーム値のセットを含む。一部の実施形態では、経路エンジン200nを訓練するために使用されるデータセット410のデータは、10,000を超えるトランスクリプトーム値のセットを含む。
一例では、経路エンジン200nを訓練するために使用されるデータセット410のデータは、転写の不均一性を最小化するために原発腫瘍検体又は単一の組織型と関連付けられ得るが、これは正確な経路エンジンを生成するために必要ではない。
調節不全指標の1つの種類は、図4に示されるように、経路ラベルであり得る。例えば、経路ラベルは、「陽性対照」又は「陰性対照」であり得る。経路ラベルは、検体に関連付けられたDNAデータセットの任意の検出された経路変化に基づいて選択され得る。一例では、DNAデータセットが、目的の細胞経路に関連する1つ又は複数の遺伝子及び/又はプロモーターに遺伝子バリアントを含む場合、対応するトランスクリプトーム値のセットには、その細胞経路についての経路ラベル陽性対照が割り当てられ、一方、目的の細胞経路に関連する遺伝子及び/若しくはプロモーターに遺伝子バリアントを含まないか、又は一部の実施形態では、バリアント若しくは良性バリアントを含まないDNAデータセットに関連付けられたトランスクリプトーム値のセットには、ラベル陰性対照が割り当てられる。
別の例では、DNAデータセットが、目的の細胞経路に関連する遺伝子及び/又はプロモーターに病原性バリアントを含む場合であって、病原性は、バリアントが、がん(又は目的の他の疾患状態)の進行の一因となることが知られていることを意味している場合にのみ、対応するトランスクリプトーム値のセットには、その細胞経路について経路ラベル陽性対照が割り当てられ、一方、目的の細胞経路に関連する遺伝子及び/若しくはプロモーターに遺伝子バリアントを含まないか、又は良性バリアントを含まないDNAデータセットに関連付けられたトランスクリプトーム値のセットには、ラベル陰性対照が割り当てられる。
更に別の例では、陰性対照トランスクリプトーム値のセットは、経路内の全ての遺伝子について野生型であり、全ての陽性対照トランスクリプトーム値のセットは、経路内の遺伝子の1つ若しくは複数の遺伝子バリアント又は細胞経路内の遺伝子の1つのクラスの1つ若しくは複数の遺伝子に関連付けられ(例えば、遺伝子クラス又はモジュールは、全てRAS遺伝子-KRAS、NRAS、HRAS等、全てRAF遺伝子-RAF1、ARAF、BRAF等、全てPI3K遺伝子-PIKCA、PIKCB等であってもよい)、一例では、遺伝子バリアントは全て病原性である。例えば、既知の経路調節不全(例えば、RAS/RTK経路についてKRAS G12V変異)を有する患者のトランスクリプトーム値のセットは、「陽性対照」とみなされ、経路に関連付けられた全ての遺伝子及びプロモーターについて野生型(WT)である患者のトランスクリプトーム値のセットは、「陰性対照」とみなされる。
一例では、陰性対照は、どの経路遺伝子にもバリアント(コピー数バリアント及び意義不明のバリアントを含む)を有しない。一例では、経路遺伝子又はプロモーターに意義不明のバリアントを有する全てのトランスクリプトームは、訓練データから除外される。別の例では、DNAデータセットが、目的の細胞経路に関連する遺伝子及び/又はプロモーターに病原性バリアントを含む場合であって、病原性は、バリアントが、がんの進行の一因となることが知られていることを意味している場合にのみ、対応するトランスクリプトーム値のセットには、その細胞経路について経路ラベル陽性対照が割り当てられ、一方、目的の細胞経路に関連する遺伝子及び/若しくはプロモーターに遺伝子バリアントを含まないか、又は良性バリアントを含まないDNAデータセットに関連付けられたトランスクリプトーム値のセットには、ラベル陰性対照が割り当てられる。
更に別の例では、陰性対照トランスクリプトーム値のセットは、経路内の全ての遺伝子について野生型であり、全ての陽性対照トランスクリプトーム値のセットは、経路内の遺伝子のサブセットの遺伝子バリアント又は細胞経路内の遺伝子の1つのクラスのみに関連付けられ(例えば、遺伝子クラスは、全てRAS遺伝子-KRAS、NRAS、HRAS等、全てRAF遺伝子-RAF1、ARAF、BRAF等、全てPI3K遺伝子-PIKCA、PIKCB等であってもよい)、一例では、遺伝子バリアントは全て病原性である。例えば、既知の経路調節不全(例えば、RAS/RTK経路についてKRAS G12V変異)を有する患者のトランスクリプトーム値のセットは、「陽性対照」とみなされ、経路に関連付けられた全ての遺伝子及びプロモーターについて野生型(WT)である患者のトランスクリプトーム値のセットは、「陰性対照」とみなされる。
一例では、陰性対照は、どの経路遺伝子にもバリアント(コピー数バリアント及び意義不明のバリアントを含む)を有しない。一例では、経路遺伝子又はプロモーターに意義不明のバリアントを有する全てのトランスクリプトームは、訓練データから除外される。陽性及び陰性対照選択の非限定的な例は、以下に提供される。
経路、多重遺伝子モジュール、及び単一遺伝子モジュールについての例示的な陽性及び陰性対照選択
経路
ここで図4及び図12を参照すると、一部の実施形態では、検体は、経路内の調節不全を検出するためのモデルを訓練するために「陽性対照」又は「陰性対照」としてラベル付けされ得る。経路は、十分に特徴付けられた経路であり得るか、又はカスタム経路であり得る。調節不全は、疾患、状態(例えば、がん)等をもたらす可能性があり、一部の実施形態では、核酸バリアントによって引き起こされる調節不全の程度は、経路内のバリアント又はバリアントのセットを、「良性」、「良性の可能性が高い」、「矛盾する証拠」、「病原性の可能性が高い」、「病原性」、「意義不明」、及び「不明」と分類することによって示され得る。一部の実施形態では、検体が、「病原性」である、すなわち、がん等の疾患又は状態に関連付けられる核酸バリアント又はバリアントのセット(例えば、DNA変異)を有する場合、検体は陽性対照としてラベル付けされ得るのみである。このようなバリアントは生殖細胞系列又は体細胞であってもよい。例として、図12に例示されるようにRTK-RAS経路内の調節不全を検出するためのモデルを訓練するために、検体が、RTK-RAS経路内の経路モジュールに含まれる少なくとも1つの遺伝子の病原性核酸バリアントを含む場合にのみ、検体は陽性対照としてラベル付けされる。例えば、図12に示されるように、RTK-RAS経路1200は、RASモジュール1210、RAFモジュール1215、EGFRモジュール1205、PTENモジュール1220、ERBB2モジュール1225、PI3Kモジュール1230、AKTモジュール1235、TORモジュール1240、MEKモジュール1245、及びERKモジュール1250を含む。したがって、一部の実施形態では、これらのモジュールの1つ又は複数のうちの1つ又は複数の遺伝子に病原性核酸変異を含む検体のみが、モデルの陽性対照としてラベル付けされる。例示として、RAS及びRAFモジュールに関して、KRAS、NRAS、HRAS、RAF1、BRAF、及び/又はARAF遺伝子のうちの1つ又は複数に1つ又は複数の病原性変異を含む検体のみが、陽性対照としてラベル付けされる。
一部の実施形態では、検体が、経路内に含まれる1つ又は複数の遺伝子に少なくとも1つの病原性核酸バリアントを有する場合、検体は陽性対照として分類され得るのみである。一部の実施形態では、検体が、経路に少なくとも1つの病原性バリアント及び/又は病原性の可能性が高い核酸バリアントを有する場合、検体は陽性対照として分類され得るのみである。更に又は代替として、一部の実施形態では、経路内の1つ又は複数の遺伝子のRNA発現レベルが異常であり、そのような異常な発現レベルが病原性である(すなわち、疾患又は状態、例えば、がんに関連する)場合、検体は陽性対照として分類され得る。
一部の実施形態では、検体が、経路に含まれるいずれの遺伝子にいずれの種類の核酸バリアントも有しない場合、検体は陰性対照としてラベル付けされ得るのみである。一部の実施形態では、検体が、生殖細胞系列サンプルのみの経路内の1つ又は複数の遺伝子にバリアントを有しない場合、又は良性若しくは良性の可能性が高い核酸バリアントのみを有する場合、検体は陰性対照としてラベル付けされ得るのみである。すなわち、陰性対照として適格であるためには、経路の1つ又は複数の遺伝子に存在する良性又は良性の可能性が高い変異が、生殖細胞系列である場合のみに認められ、良性又は良性の可能性が高い変異が非生殖細胞系列サンプルに存在する場合、検体は陰性対照として不適格である。他の実施形態では、検体が、経路内の1つ又は複数の遺伝子にバリアントを含まない場合、又は良性若しくは良性の可能性が高いバリアントのみを含む場合、検体は陰性対照としてラベル付けされ得るのみである。例えば、RTK-RAS経路1200内の調節不全を検出するためのモデルを訓練するために、検体が、経路の列挙されたモジュールの遺伝子に変異を有しない場合にのみ、検体は陰性対照としてラベル付けされ得る。他の実施形態では、検体が、列挙されたモジュールの1つ又は複数の遺伝子に変異を有しないか、又は良性若しくは良性の可能性が高い生殖細胞系列変異を有する場合にのみ、検体は陰性対照としてラベル付けされ得る。例えば、図12に示されるように、RTK-RAS経路1200は、RASモジュール1210、RAFモジュール1215、EGFRモジュール1205、PTENモジュール1220、ERBB2モジュール1225、PI3Kモジュール1230、AKTモジュール1235、TORモジュール1240、MEKモジュール1245、及びERKモジュール1250を含む。RASモジュールは、KRAS、NRAS、及びHRAS遺伝子を含み、RAFモジュールは、RAF1、BRAF、及びARAF遺伝子を含む。したがって、一実施形態では、RASモジュールについての陰性対照は、KRAS、NRAS及びHRSA遺伝子のいずれにも変異を有しない検体を含み、RAFモジュールについての陰性対照は、RAF1、BRAF及びARAF遺伝子のいずれにも変異を有しない検体を含む。経路内の他のモジュールについても同様である。更に又は代替的に、一部の実施形態では、RASモジュールについての陰性対照は、KRAS、NRAS及びHRSA遺伝子のいずれにも変異を有しないか、又はKRAS、NRAS及びHRAS遺伝子に良性若しくは良性の可能性が高い生殖細胞系列変異のみを有する検体を含み、RAFモジュールについての陰性対照は、RAF1、BRAF及びARAF遺伝子のいずれにも変異を有しないか、又はRAF1、BRAF及びARAF遺伝子に良性若しくは良性の可能性が高い生殖細胞系列変異のみを有する検体を含む。経路内の他のモジュールについても同様である。更に又は代替的に、一部の実施形態では、経路内の全ての遺伝子のRNA発現レベルが野生型である場合、検体は陰性対照と分類され得る。
一部の実施形態では、陽性対照又は陰性対照と分類することができない検体は、訓練データから除外される。
多重遺伝子モジュール
一部の実施形態では、検体は、モジュール内の調節不全を検出するためのモデルを訓練するために「陽性対照」又は「陰性対照」としてラベル付けされ得る(例えば、1つ又は複数の選択された遺伝子のグループ化)。したがって、モデルは、モジュールと関連付けられ得る。一部の実施形態では、モジュールは、単一経路の分岐、経路内の遺伝子のサブセット、異なる経路からの遺伝子の収集物、又は遺伝子の他の好適なグループ化から選択される同義遺伝子を含むことができる。したがって、経路は、十分に特徴付けられた経路であってもよいか、又はカスタム経路であってもよい。調節不全は、疾患、状態等をもたらす可能性があり、一部の実施形態では、核酸バリアントによって引き起こされる調節不全の程度は、モジュール内のバリアント又はバリアントのセットを、「良性」、「良性の可能性が高い」、「矛盾する証拠」、「病原性の可能性が高い」、「病原性」、「意義不明」、及び「不明」と分類することによって示され得る。
一部の実施形態では、検体が、「病原性」である、すなわち、がん等の疾患又は状態と関連する、核酸バリアント又はバリアントのセット(例えば、DNA変異)を有する場合、検体は陽性対照としてラベル付けされるのみであり得る。限定ではないが、例として、モデルは、RASモジュール1210内の調節不全を検出するために訓練され得る。核酸バリアントは、生殖細胞系列又は体細胞であってもよい。一部の実施形態では、モジュール内の調節不全を検出するために訓練される経路エンジン又はモデルに関して、検体が、モジュールに含まれる少なくとも1つの遺伝子に核酸バリアントを含む場合にのみ、検体は陽性対照としてラベル付けされ得る。例えば、RASモジュール1210内の調節不全を検出するために訓練されるモデルに関して、RASモジュール1210のKRAS、NRAS、及び/又はHRAS遺伝子のうちの1つ又は複数に病原性核酸バリアントを含む検体のみが、陽性対照としてラベル付けされ得る。
一部の実施形態では、検体が、モデルに関連付けられたモジュールに含まれる少なくとも1つの病原性核酸バリアントを有する場合、検体は陽性対照として分類され得るのみである。更に又は代替として、一部の実施形態では、検体が、モジュールに関連付けられたモジュールに少なくとも1つの病原性核酸バリアント及び/又は病原性の可能性が高い核酸バリアントを有する場合、検体は陽性対照として分類され得るのみである。更に又は代替として、一部の実施形態では、モジュール内の1つ又は複数の遺伝子のRNA発現レベルが異常であり、このような異常な発現レベルが病原性である(すなわち、疾患又は状態に関連する)場合、検体は陽性対照として分類され得る。
一部の実施形態では、検体が、モデルに関連付けられたモジュールに含まれるいずれの遺伝子のいずれの種類の核酸変異も有しない場合、検体は陰性対照としてラベル付けされ得るのみである。例えば、RASモジュール1210内の調節不全を検出するためのモデルを訓練するために、検体が、RASモジュール1210のKRAS、NRAS、及びHRAS遺伝子に変異を有しない場合にのみ、検体は陰性対照サンプルとしてラベル付けされ得る。
一部の実施形態では、検体が、モデルに関連付けられたモジュール又はモジュールを含む経路全体に含まれる任意の他のモジュールに含まれるいずれの遺伝子のいずれの種類の核酸バリアントも有しない場合、検体は陰性対照としてラベル付けされ得るのみである。例えば、RASモジュール1210内の調節不全を検出するために訓練されるモデルに関して、一部の実施形態では、検体が、RASモジュール1210に含まれるKRAS、NRAS、及びHRAS遺伝子に変異を有しない場合、同様にRTK-RAS経路1200に含まれる他のモジュールに含まれるいずれの遺伝子にも変異を有しない場合にのみ、検体は陰性対照サンプルとしてラベル付けされ得る。
更に又は代替として、陰性対照は、モジュール内の1つ又は複数の遺伝子に変異を含まないか、又は良性若しくは良性の可能性が高い生殖細胞系列変異のみを含む。更に又は代替として、一部の実施形態では、陰性対照は、モジュール内の1つ若しくは複数の遺伝子、及び/又は目的の経路に含まれる他のモジュールの1つ若しくは複数の遺伝子にバリアントを含まないか、又は良性若しくは良性の可能性が高い生殖細胞系列バリアントのみを含む。
例えば、RASモジュール1210内の調節不全を検出するために訓練されるモデルに関して、一部の実施形態では、検体が、RASモジュール1210に含まれるKRAS、NRAS、及びHRAS遺伝子に変異を有しないか、又は良性若しくは良性の可能性が高い生殖細胞系列変異のみを有する場合にのみ、検体は陰性対照サンプルとしてラベル付けすることができ、一部の実施形態では、追加は、RTK-RAS経路1200に含まれる他のモジュールに含まれる他の遺伝子に変異を有しないか、又は良性若しくは良性の可能性が高い変異のみを有する。
更に又は代替として、一部の実施形態では、モジュール内の全ての遺伝子のRNA発現レベルが野生型である場合、及び/又は目的の経路(例えば、モジュールを含む経路)の全てのモジュール内の遺伝子の全ての発現レベルが、野生型である場合にのみ、検体は陰性対照として分類され得る。
一部の実施形態では、陽性対照又は陰性対照として分類することができない検体は、訓練データから除外され得る。
単一遺伝子モジュール
一部の実施形態では、検体は、単一遺伝子を含むモジュール内の調節不全を検出するためのモデルを訓練するために「陽性対照」又は「陰性対照」としてラベル付けされ得る。したがって、モデルはモジュールと関連付けられ得る。一部の実施形態では、遺伝子はモジュールと称されることがある。モジュールは、経路モジュール(例えば、RASモジュール1210)に含まれる遺伝子を含むことができる。例えば、モジュールはKRAS遺伝子を含むことができる。一部の実施形態では、経路モジュールに含まれる各遺伝子は、モジュール(例えば、KRAS遺伝子)の調節不全を検出するために訓練されるモデルと関連付けられ得る。
一部の実施形態では、調節不全は、疾患、状態等をもたらす可能性があり、一部の実施形態では、調節不全の程度は、「良性」、「良性の可能性が高い」、「矛盾する証拠」、「病原性の可能性が高い」、「病原性」、「意義不明」、及び「不明」としてモジュール内の核酸バリアント又はバリアントのセットを分類することによって示すことができる。一部の実施形態では、検体が、モジュール(例えば、KRAS遺伝子)の調節不全に関連付けられた病原性核酸バリアント又はバリアントのセット(例えば、DNA変異)を有する場合、検体は陽性対照としてラベル付けされ得るのみである。核酸バリアントは、生殖細胞系列又は体細胞であってもよい。一部の実施形態では、単一遺伝子を有するモジュール内の調節不全を検出するために訓練されるモデルに関して、検体が遺伝子に病原性核酸バリアントを含む場合にのみ、検体は陽性対照サンプルとしてラベル付けされ得る。例えば、KRAS遺伝子内の調節不全を検出するために訓練されるモデルに関して、KRAS遺伝子に少なくとも1つの病原性核酸バリアントを含む検体のみが、陽性対照としてラベル付けされ得る。
一部の実施形態では、検体が、モジュールに含まれる遺伝子に含まれるDNAに少なくとも1つの病原性バリアントを有する場合、検体は、変異を有することが決定され、陽性対照として分類され得るのみである。一部の実施形態では、検体が、モジュールに含まれる遺伝子に含まれるDNAに少なくとも1つの病原性バリアント及び/又は病原性の可能性が高いバリアントを有する場合、検体は、変異を有することが決定され、陽性対照として分類され得るのみである。更に又は代替として、一部の実施形態では、モジュール内の遺伝子のRNA発現レベルが異常であり、このような異常な発現レベルが病原性(すなわち、疾患又は状態に関連する)である場合、検体は陽性対照として分類され得る。
一部の実施形態では、検体が、モデルに関連付けられた遺伝子にいずれの種類の核酸バリアントも有しない場合、検体は陰性対照としてラベル付けされ得るのみである。更に又は代替として、一部の実施形態では、検体が、モジュールに関連付けられた遺伝子に変異を有しないか、又は良性若しくは良性の可能性が高い生殖細胞系列変異のみを有する場合、検体は陰性対照としてラベル付けされ得るのみである。一部の実施形態では、検体が、モデルに関連付けられた遺伝子にいずれの種類の核酸バリアントも有しないか、又はモデルに関連付けられた良性バリアント若しくは良性の可能性が高い生殖細胞系列バリアントのみ、及び遺伝子を含む経路全体内の遺伝子に良性若しくは生殖細胞系列バリアントのみを有する場合、検体は陰性対照としてラベル付けされ得るのみである。例えば、KRAS遺伝子の調節不全を検出するように訓練されたモデルに関して、検体がKRAS遺伝子に変異を有しない場合にのみ、検体は陰性対照サンプルとしてラベル付けされ得る。一部の実施形態では、陰性対照は、RASモジュール1210に含まれるKRAS、NRAS、及びHRAS遺伝子に変異を有さず、RTK-RAS経路1200に含まれる他のモジュールの遺伝子に良性若しくは良性の可能性が高い生殖細胞系列バリアントのみを有するか、又はRTK-RAS経路1200に含まれる他のモジュールの遺伝子にいずれの種類のバリアントも有しない検体を含む。
一部の実施形態では、検体が、モデルに関連付けられた遺伝子又は遺伝子を含む経路全体に含まれるいずれの他の遺伝子にいずれの種類の核酸バリアントも有しない場合、検体は陰性対照としてラベル付けされ得るのみである。例えば、KRAS遺伝子内の調節不全を検出するように訓練されたモデルに関して、検体が、RASモジュール1210に含まれるKRAS、NRAS、及び/又はHRAS遺伝子に変異を有しない場合、同様に、RTK-RAS経路1200に含まれる他のモジュールに含まれるいずれの遺伝子にも変異を有しない場合にのみ、検体は陰性対照サンプルとしてラベル付けされ得る。更に又は代替として、一部の実施形態では、モジュール内の遺伝子のRNA発現レベルが野生型である場合にのみ、及び/又は単一遺伝子モジュールを含むモジュール内の遺伝子の全ての発現レベルが野生型である場合にのみ、及び/又は目的の経路(例えば、単一遺伝子モジュールを含む経路)のモジュールの全ての遺伝子の全てのRNA発現レベルが野生型である場合、検体は陰性対照として分類され得る。
一部の実施形態では、陽性対照又は陰性対照として分類することができない検体は、訓練データから除外され得る。
経路又はモジュール内の調節不全を特定するためのモデルを訓練するための陰性対照サンプルとして、経路、多重遺伝子モジュール、又は単一遺伝子モジュールに核酸バリアントを有しない検体のみを使用すると、他の技法と比較してモデルの性能を向上させることができる。経路内の他のモジュールに核酸バリアントを含む陰性にラベル付けされたサンプルからトランスクリプトームデータで訓練されたモデルの識別能(例えば、調節不全モジュール及び非調節不全モジュールを正確に特定する能力)は、モジュール内の変異が、モデルに関連付けられたモジュール内のいずれかの調節不全の効果を弱め得るので低下し得る。例えば、陰性サンプルは、RNA発現レベルに対して調節不全の効果を示すことができる陽性サンプルと比較してRNA発現レベルのベースラインを提供することができる。陰性サンプルが、モデルに関連付けられたモジュール以外のモジュールにDNAバリアントを有する場合、ベースラインデータのRNA発現レベルは、陽性サンプルのRNA発現レベルに対する調節不全の効果を弱める場合があり、及び/又は不明瞭にする場合がある。言い換えれば、モデルに関連付けられたモジュール(例えば、RASモジュール1210)及び経路内の他のモジュールの両方にDNAバリアントを含まない陰性にラベル付けされたサンプルからトランスクリプトームデータで訓練されたモデルは、より正確に調節不全又は非調節不全としてモジュールを良好に分類することができる。なぜならモデルは、他の経路モジュールの効果を弱めることなくモジュール内の変異の正確な効果をより明確に認識することができるからである。
特に、上記の基準によって病原性又は病原性の可能性が高いと分類された一部の変異は、訓練の間に見出される更なる情報に基づいて、最終的に病原性又は病原性の可能性が高いとみなされない場合がある。例えば、病原性又は病原性の可能性が高いという分類のために、RTK/RAS経路内のモジュールについての破壊スコアを決定する場合、変異FGFR2 c.1990-106A>Gを有するサンプルは、通常、陰性サンプルセットに割り当てられない。しかしながら、モデルの生成では、正常な集団のかなりの割合が、このバリアントを保有し、良性である可能性が非常に高いことが明らかになった。このような変異はモデル訓練の間に特定され、陽性及び陰性サンプルのセットを生成するときにこれらの変異を無視するための更なるステップが含まれる。
別の種類の調節不全指標は、遺伝子セット富化分析結果であり得る。一部の例では、データセット410の「陽性対照」トランスクリプトーム値のセット及び「陰性対照」トランスクリプトーム値のセットは、類似している場合がある。これらの例では、経路エンジン200nが、「陽性対照」トランスクリプトーム値のセットを、「陰性対照」トランスクリプトーム値のセットと良好に区別するのに役立つようにするために、1つ又は複数の遺伝子セット富化分析スコアが、各トランスクリプトーム値に関連付けられ、経路エンジン200n訓練の間の特徴として使用され得る。例えば、データセット410の各トランスクリプトーム値は、遺伝子セット富化分析(GSEA)又は単一サンプルGSEA(ssGSEA)スコア(図4に示さず)等の、1つ又は複数のこのような遺伝子セット富化分析スコアに関連付けられ得る。一例では、ssGSEAは経路分析の分野における標準的なツールである(Barbieら、2010、Nature.462(7269):108~112頁を参照のこと)。
複数のssGSEAスコアは、データセット410の各トランスクリプトーム値のセットに関連付けられ得る。一例では、各ssGSEAスコアは、データセット410の個々の調節不全指標である。各ssGSEA経路スコアは目的の1つ又は複数の経路に関連付けられ得る。ssGSEAスコアが導出される遺伝子セットの選択は、経路エンジン200nが訓練されている経路に依存し得る。例えば、経路エンジン200nが、RAS経路についての経路破壊スコアを生成するために訓練される場合、43個のKRAS関連経路を含む、任意の関連経路についてのssGSEAスコアが、最も関連するssGSEAスコアであり得る。
一例では、関連経路は、陽性対照検体を定義するために使用される遺伝子に変異を有する検体において調節不全であることが知られている任意の経路であり得る。例えば、RAS/RTK経路に関して、KRAS変異が陽性対照検体を定義するために使用されるため、文字列「KRAS」を含む名前で全ての経路に対してスコアが生成される。
別の種類の調節不全指標は、トランスクリプトーム値のセットに関連付けられた検体のメチル化状態であり得る。メチル化状態は、経路に関連付けられた遺伝子及び/又はプロモーターのメチル化を分析することによって決定され得る。
種々の実施形態では、データセット410の行のサブセットは経路エンジン200nを訓練するために使用され、経路エンジン200nを訓練するために使用されないデータセット410の残りの行は、経路エンジン200nを試験するために使用される。
タンパク質発現レベルのデータセットはまた、データセット410の各トランスクリプトーム値のセットに関連付けられ得る(図4に示さず)。一例では、各タンパク質発現レベルのデータセットは、プロテオーム方法を含む、検体中のタンパク質量を測定するために知られている任意の方法によって生成され得る。
種々の実施形態では、データセット410のトランスクリプトーム値のセットは、更に画像化データと関連付けられ得る。画像化データには、トランスクリプトーム値のセットに関連付けられた検体から生成された組織病理学的及び放射線学的画像、これらの画像から抽出された特徴、並びにこれらの画像の手動又は自動分析によって開発された任意の注釈又は情報が含まれ得る。
種々の実施形態では、データセット410は、がんゲノムアトラス(TCGA)コンソーシアムからのデータを含む。
種々の実施形態では、各トランスクリプトーム値のセットは、RNAシーケンシングデータを生成するためにRNA全エクソーム次世代シーケンシング(NGS)により患者又は腫瘍オルガノイドサンプルを処理することによって生成することができ、RNAシーケンシングデータは、各サンプルについてRNA-seq発現プロファイルを生成するためにバイオインフォマティクスパイプラインによって処理することができる。患者サンプルは、がん細胞を含む組織サンプル又は血液サンプルであり得る。
より詳細には、RNAは、市販の試薬、例えば、プロテイナーゼK、TURBO DNase-I、及び/又はRNAクリーンXPビーズを使用して血液サンプル又は組織切片から単離され得る。単離されたRNAは、蛍光色素及び蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、又はフィルタ蛍光光度計の使用を含む、RNA分子の濃度及び/又は量を決定するために品質管理プロトコルに供され得る。
cDNAライブラリーは、単離されたRNAから調製され、精製され、市販の試薬、例えば、Roche KAPA Hyper Beadsを使用してcDNA分子サイズ選択のために選択され得る。別の例では、New England Biolabs(NEB)キットが使用され得る。cDNAライブラリーの調製は、cDNA分子へのアダプターのライゲーションを含むことができる。例えば、Roche SeqCapデュアルエンドアダプターを含むUDIアダプター、又はUMIアダプター(例えば、完全長又はスタビー型(stubby)Yアダプター)が、cDNA分子にライゲーションされ得る。アダプターにおけるヌクレオチド配列は、異なるサンプルについて得られたシーケンシングデータを区別するためにサンプルに特異的であり得る。この例では、アダプターは、それらが由来するサンプルに従ってcDNA分子を特定するため、並びに/又は次世代シーケンシング反応及び/若しくは下流のバイオインフォマティクス処理を容易にするためのバーコードとして機能し得る核酸分子である。
cDNAライブラリーは、試薬、例えば、Axygen MAG PCRクリーンアップビーズを使用して増幅され、精製され得る。次いでcDNA分子の濃度及び/又は量は、蛍光色素及び蛍光マイクロプレートリーダー、標準液な分光蛍光光度計、又はフィルタ蛍光光度計を使用して定量され得る。
cDNAライブラリーは、プールされ、試薬、例えば、Human COT-1及び/又はIDT xGen Universal Blockersで処理されて、オフターゲット捕捉を低減させることができ、その後、vacufuge内で乾燥される。次いでプールを、ハイブリダイゼーションミックス、例えば、IDT xGen Lockdown中に再懸濁することができ、プローブを、各プール、例えば、IDT xGen Exome Research Panel v1.0プローブ、IDT xGen Exome Research Panel v2.0プローブ、他のIDTプローブパネル、Rocheプローブパネル、又は他のプローブに加えることができる。プールは、インキュベーター、PCR機械、水浴、又は他の温度調節デバイスでインキュベートすることができ、プローブをハイブリダイズすることができる。次いでプールは、ストレプトアビジンでコーティングされたビーズ、又はハイブリダイズしたcDNAプローブ分子、特に、ヒトゲノムのエクソンを表すcDNA分子を捕捉するための別の手段で処理され得る。一部の実施形態では、ポリA捕捉が使用され得る。プールは、市販の試薬、例えば、それぞれ、KAPA HiFi Library Amplificationキット及びAxygen MAG PCRクリーンアップビーズを使用してもう一度増幅され、精製され得る。
cDNAライブラリーを分析して、例えば、蛍光色素(例えば、PicoGreenプール定量化)及び蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、又はフィルタ蛍光光度計を使用することによってcDNA分子の濃度又は量を決定することができる。また、cDNAライブラリーを分析して、cDNA分子の断片サイズを決定することができ、これは、ゲル電気泳動技法によって行うことができ、LabChip GX Touch等のデバイスの使用を含むことができる。プールは、キット(例えば、Illumina Paired-end Cluster Kits with PhiX-spike in)を使用してクラスター増幅することができる。一例では、cDNAライブラリー調製及び/又は全エクソーム捕捉ステップは、液体処理ロボット(例えば、SciClone NGSx)を使用して、自動システムで実施することができる。
増幅は、デバイス、例えば、Illumina C-Bot2で実施することができ、増幅された標的捕捉cDNAライブラリーを含有する得られたフローセルは、次世代シーケンサー、例えば、Illumina HiSeq 4000又はIllumina NovaSeq 6000で、ユーザーによって選択される固有のオンターゲット深度、例えば、300x、400x、500x、10,000x等までシーケンシングすることができる。次世代シーケンサーは、患者サンプルごとにFASTQファイルを生成することができる。
各FASTQファイルは、ペアエンド又はシングルリードであり得るリードを含み、ショートリード又はロングリードであってもよく、各リードは、ライブラリー調製の間に単離されたmRNA分子から生成されたcDNA分子に含まれるヌクレオチド配列を検出するためのシーケンサーを使用することによって推定される、患者サンプルから単離されたmRNA分子のヌクレオチドの1つの検出された配列を示す。FASTQファイルの各リードはまた、品質評価に関連付けられる。品質評価は、関連するリードに影響を与えるシーケンシング手順の間にエラーが発生した尤度を反映することができる。アダプターは、シーケンサーフローセル上のアンカーオリゴヌクレオチド分子へのcDNA分子の結合を容易にすることができ、シーケンシング反応のための開始点を提供することによってシーケンシングプロセスについてのシードとして役立つことができる。2つ以上の患者サンプルが同じシーケンサーフローセル上で同時に処理される場合、複数の患者サンプルからのリードは、最初は同じFASTQファイルに含まれてもよく、次いで患者ごとに別個のFASTQファイルに分割されてもよい。各患者サンプルのために使用されるアダプターの配列の相違は、各リードを正確な患者サンプルに関連付けて、それを正確なFASTQファイルに配置することを容易にするためのバーコードの目的に役立ち得る。
各FASTQファイルは、バイオインフォマティクスパイプラインによって処理され得る。種々の実施形態では、バイオインフォマティクスパイプラインはFASTQデータをフィルタ処理することができる。FASTQデータをフィルタ処理することは、シーケンサーエラーを修正すること、及び低品質の配列又は塩基、アダプター配列、夾雑物、キメラリード、過剰表現された配列、ライブラリー調製、増幅、又は捕捉によって引き起こされるバイアス、及び他のエラーを除去(トリミング)することを含むことができる。エラーを有する可能性が高いリード全体、個々のヌクレオチド、又は複数のヌクレオチドは、FASTQファイルのリードに関連付けられた品質評価、シーケンサーの既知のエラー率、及び/又はリードの各ヌクレオチドと、参照ゲノム内の同じ位置にアラインされている他のリードの1つ又は複数のヌクレオチドとの比較に基づいて破棄することができる。フィルタ処理は、種々のソフトウェアツールによって部分的又は全体的に行うことができる。FASTQファイルは、例えば、AfterQC、Kraken、RNA-SeQC、FastQC、(Illumina、BaseSpace Labs又はhttps://www.illumina.com/products/by-type/informatics-products/basespace-sequence-hub/apps/fastqc.htmlを参照のこと)、又は別の同様のソフトウェアプログラム等のシーケンシングデータQCソフトウェアによって品質管理及びリードの迅速評価のために分析され得る。ペアエンドリードに関して、リードは融合され得る。
各FASTQファイルに関して、ファイル内の各リードを、リード内のヌクレオチド配列と最適に一致する配列を有する参照ゲノム内の位置にアラインすることができる。リードをアラインするように設計された多くのソフトウェアプログラム、例えば、Smith-Watermanアルゴリズムを使用するプログラムである、Bowtie、Burrows Wheeler Aligner(BWA)等が存在する。各リード内のヌクレオチド配列を、参照ゲノム内のヌクレオチド配列の部分と比較して、リード内の配列に対応する可能性が最も高い参照ゲノム配列の部分を決定することによって参照ゲノム(例えば、GRCh38、hg38、GRCh37、ゲノム参照コンソーシアムによって開発された他の参照ゲノム等)を使用してアラインメントを指示することができる。アラインメントは、RNAスプライス部位を考慮に入れることができる。アラインメントはSAMファイルを生成することができ、これは、参照ゲノム内の各リードの開始及び終了の位置、並びに参照ゲノム内の各ヌクレオチドのカバレッジ(リードの数)を格納する。SAMファイルはBAMファイルに変換することができ、BAMファイルはソートすることができ、重複したリードに削除のマークを付けることができる。
一例では、kallistoソフトウェアをアラインメント及びRNAリード定量化のために使用することができる(Nicolas L Bray、Harold Pimentel、Pall Melsted及びLior Pachter、Near-optimal probabilistic RNA-seq quantification、Nature Biotechnology 34、525~527頁(2016)、doi:10.1038/nbt.3519を参照のこと)。代替の実施形態では、RNAリード定量化は、別のソフトウェア、例えば、Sailfish又はSalmon(Rob Patro、Stephen M. Mount、及びCarl Kingsford (2014) Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms. Nature Biotechnology (doi:10.1038/nbt.2862)又はPatro, R.、Duggal, G.、Love, M. I.、Irizarry, R. A.、及びKingsford, C. (2017). Salmon provides fast and bias-aware quantification of transcript expression. Nature Methodsを参照のこと)を使用して行うことができる。これらのRNA-seq定量化法はアラインメントを必要としなくてもよい。RNA-seqデータの正規化、定量分析、及び差次的発現分析のために使用することができる多くのソフトウェアパッケージが存在する。
各遺伝子に関して、所与の遺伝子についての生のRNAリードカウントを計算することができる。生のリードカウントは、各サンプルについて表形式のファイルに保存することができ、列は遺伝子を表し、各登録はその遺伝子についての生のRNAリードカウントを表す。一例では、kallistoアラインメントソフトウェアは、リードが遺伝子にアラインする各リードに関して、確率の合計として生のRNAリードカウントを計算する。したがって、生のカウントはこの例では整数ではない。
次いで生のRNAリードカウントを正規化して、例えば、完全分位正規化を使用してGC含量及び遺伝子長を補正し、例えば、サイズファクター法を使用してシーケンシング深度を調整することができる。一例では、RNAリードカウント正規化は、Methods of Normalizing and Correcting RNA Expression Dataと題され、2019年9月24日に出願された米国特許出願第16/581,706号又はPCT19/52801に開示されている方法に従って行われる。正規化の理論的根拠は、シーケンサー内の各cDNA分子のコピーの数が、患者サンプル中のmRNA分子の分布を反映することができないことである。例えば、ライブラリー調製、増幅、及び捕捉工程の間、mRNA分子の特定の部分が、ランダムヘキサマー、増幅(PCR富化)、rRNA枯渇、並びに各核酸分子のGC含量、リード長、遺伝子長、及び配列の他の特性に起因し得るシーケンシングの間に生じるプローブ結合及びエラーによって引き起こされる逆転写をプライミングする種々の態様の間に発生するアーチファクトのために過剰表現又は過少表現される場合がある。各遺伝子についての各生のRNAリードカウントを調整して、NGSシーケンシングプロトコルのいずれかのバイアス又はアーチファクトによって引き起こされる過剰表現又は過少表現を排除又は低減させることができる。正規化されたRNAリードカウントは、各サンプルについての表形式のファイルに保存することができ、列は遺伝子を表し、各登録は、その遺伝子についての正規化されたRNAリードカウントを表す(RNA調製方法の追加の説明については実施例9も参照のこと)。
トランスクリプトーム値のセットは、上記のように、正規化されたRNAリードカウント又は生のRNAリードカウントのいずれかを指すことがある。
図5は、経路エンジン200nを訓練することができるプロセス502の例を示す。プロセス502は、1つ若しくは複数のメモリ又は他の非一時的なコンピュータ可読媒体上にコンピュータ可読命令として実装され、1つ又は複数のメモリ又は媒体と通信する1つ又は複数のプロセスによって実行され得る。一部の実施形態では、プロセス502は、メモリ222及び/又はメモリ262上にコンピュータ可読命令として実装され、プロセッサ214及び/又はプロセッサ254によって実行され得る。
505において、プロセス502は、経路データベース300等の複数の経路から経路を選択することができる。例えば、選択される経路はRTK/RAS経路であり得る。一部の実施形態では、プロセス502は、ユーザーからの入力に基づいて経路を選択することができる。
訓練データの選択
510において、プロセス502は、トランスクリプトームデータを含む訓練データセットを受信し得る。例えば、プロセス502は、データセット410を受信し得る。プロセスは、訓練データに基づいて、経路エンジン200nを訓練するための特徴ベクトル行列を生成し得る。訓練データセットは、DNAバリアントデータ、メチル化データ、がんタイプ、及び/又はプロテオミクスデータを含むデータ入力100のうちのいずれかを含み得る。メチル化データは、陽性/陰性対照として形式決定され得る。
512において、プロセス502は、訓練データセットに基づいて、特徴ベクトルを生成し得る。プロセス502は、がんタイプ若しくはサブタイプによって、ステージ分類によって、又は他の遺伝子型若しくは表現型フィルタによって(例えば、所与の検体がどのがんタイプと関連するかによって)、訓練データセットをフィルタリングし得る。一部の実施形態では、プロセス502は、複数のがんタイプと関連付けられた検体に基づいて、特徴ベクトルを生成し得る。例えば、第1の検体は、肺がんと関連付けられ得、第2の検体は、乳がんと関連付けられ得る。プロセス502は、フィルタリングされているか又はフィルタリングされていないデータセットに基づいて、訓練のための特徴ベクトル行列を生成し得る。それぞれの特徴ベクトルは、任意のトランスクリプトームデータ、DNAデータ、及びそれぞれの検体と関連する経路ラベルの少なくとも一部分(例えば、データセット410の行の少なくとも一部分)を含み得る。例えば、特徴ベクトルは、トランスクリプトームデータ及び単一の経路ラベルを含み得る。トランスクリプトームは、1つ又は複数の遺伝子と関連する1つ又は複数の発現レベルを含み得る。プロセス502は、訓練された経路エンジン200nを試験するために訓練データセットの一部分を確保し得る。1つの例において、特徴ベクトル行列の10%が、確保されていてもよい。別の例において、特徴ベクトル行列の20%が、確保されていてもよい。
経路ラベルは、図4に記載されるように、トランスクリプトームと関連するDNA変異データに基づいて、事前決定されていてもよい。例えば、経路内の任意の遺伝子(例えば、RTK/RAS経路内のEGFR、又はRTK/RAS経路内の任意の他の遺伝子)と関連するDNAデータが、そのトランスクリプトームと関連する検体がそれらの遺伝子のうちの1つに遺伝子バリアントを含むことを反映する場合、そのトランスクリプトームから生成された対応する特徴ベクトルは、陽性対照経路ラベルを含み得る。
一部の実施形態では、512において、プロセス502は、それぞれの特徴ベクトルについて、1つ又は複数の経路ラベルを生成し得る。このようにして、プロセス502は、それぞれの検体と関連するトランスクリプトームデータ及び生のDNAデータを受信し、特徴ベクトルについて、経路ラベルを生成し得る。しかしながら、訓練データセットは、それぞれの検体について1つ又は複数の経路ラベルを含み得ることを理解されたい。調節不全インジケータ等の経路ラベルを有するそれぞれの検体は、図4に記載されている。調節不全インジケータの例としては、陽性対照又は陰性対照が挙げられる。
プロセス502は、トランスクリプトームが、505で選択された経路内の列挙されている遺伝子又は遺伝子のサブセットにDNA変異を有する場合に、そのトランスクリプトームを陽性対照としてラベル付けし得る。例えば、RTK/RAS経路は、図1Aに示されるように、とりわけ、遺伝子EGFR、ERBB2、ERBB3、ERBB4、MET、及びPDGFRAを含む。EGFR遺伝子が、例えば、DNAデータセットにおいて、変異ステータスを反映している場合、トランスクリプトームは、陽性対照としてラベル付けされ得る。変異型ステータスを有するRTK/RAS経路内の他の遺伝子についても、同じことが当てはまる。別の例において、トランスクリプトームは、経路内の特定のクラスの遺伝子又は部分、例えば、RAS遺伝子においてのみDNA改変を有する場合に、陽性対照としてラベル付けされ得る。これらの例では、選択された遺伝子において病原性変異を有するトランスクリプトームのみが、陽性対照であり得る。
トランスクリプトームは、505で選択された経路内の全ての遺伝子が、野生型と考えられる(例えば、コピー数改変及び全ての他のクラスのDNAバリアントを含み得る、遺伝子と関連するDNAバリアントが存在しないか、又は遺伝子と関連する病原性DNAバリアントが存在しない)場合に、陰性対照としてラベル付けされ得る。
平均発現レベルを決定するための陽性訓練データの群分け、及び平均発現レベルを決定するための陰性訓練データの群分け、並びに類似性メトリックの計算
515において、プロセス502は、訓練データセット内に含まれるトランスクリプトームに含まれるそれぞれの遺伝子について、類似性メトリックを決定し得る。トランスクリプトーム内のそれぞれの遺伝子について、プロセス502は、訓練データセット内の陽性対照群と関連する発現レベル(例えば、陽性経路ラベル値)を、陰性対照群と関連する発現レベル(例えば、陰性経路ラベル値)と比較して、類似性メトリックを計算し得る。比較は、トランスクリプトーム内のそれぞれの遺伝子について行われ得る。2つの群の間で統計学的に異なる発現レベルを有する遺伝子は、差次的に発現される遺伝子(DEG)と表記される。
Table 1(表1)は、陽性対照サンプル群及び陰性対照サンプル群の例示的な情報を示す。この例において、類似性メトリックは、2つの群の間で遺伝子発現レベルについて計算された倍数変化である。倍数変化は、陽性対照群における遺伝子発現レベルの平均を、陰性対照群における遺伝子発現レベルの平均で除し、底を2とするその商の対数をとることによって計算される。
Figure 2022544604000002
一部の実施形態では、発現レベルの比較は、Rソフトウェア環境における公的に入手可能なパッケージであるedgeRを使用して計算することができる。(https://bioconductor.org/packages/release/bioc/html/edgeR.htmlを参照されたい)
類似性メトリックを閾値と比較して、遺伝子の差次的発現を決定する
517において、プロセス502は、トランスクリプトーム内のそれぞれの遺伝子について、遺伝子が差次的に発現されるかどうかを決定し得る。プロセス502は、それぞれの遺伝子について、底を2とする515で計算された商の対数の絶対値を、閾値と比較し得る。プロセス502は、類似性メトリックが、閾値よりも低いか、それよりも高いか、又はそれと同等であるかに基づいて、遺伝子を、差次的に発現される遺伝子(DEG)と表記し得る。一部の実施形態では、プロセスは、類似性メトリックの絶対値が、閾値、例えば、0.322(倍数差1.25に対応する)、0.585(倍数差1.5に対応する)、又は1.0(倍数差2に対応する)よりも高いかどうかを決定し得る。類似性メトリックの絶対値が、ある遺伝子について、閾値よりも高い場合、プロセス502は、その遺伝子を差次的に発現される(すなわち、DEG)と表記し得る。訓練データセット内のDEGの数は、経路タイプ、閾値、及び/又は訓練データセットに応じて変動し得る。1つの例において、およそ1,000個のDEGが、選択される。
一部の実施形態では、プロセス502は、edgeRを実行して、それぞれの遺伝子について、倍数変化及び偽発見率を計算して、DEGを特定することを含み得る。edgeRによって特定された全てのDEGは、訓練DEGとして選択され得る。別の例において、高信頼性DEGのみが、訓練DEGとして選択される。1つの例において、DEGは、倍数変化の絶対値が1.25を上回り、偽発見率(FDR)が0.05を下回る場合に、高信頼性であると決定される。別の例において、ストリンジェンシーを増加し、DEGは、倍数変化の絶対値が2以上であり、FDRが0.01を下回る場合に、高信頼性であると決定される。
注目すべきことに、DEGは、調節不全を検出するように訓練されたモデルと関連する遺伝子のうちの1つ又は複数を含み得る。例えば、RASモジュール1210において調節不全を検出するように訓練されたモデルについて、関連するDEGには、KRAS遺伝子、NRAS遺伝子、及び/又はHRAS遺伝子が含まれ得る。他の技法は、モデルと関連する遺伝子をDEGとしての検討から除去し得るが、一部の実施形態では、プロセス502は、遺伝子がDEGでない場合に、訓練に使用されたモデルと関連する遺伝子だけを除去することができる。モデルと関連する遺伝子がDEGとして選択されることを許容することにより、これらの遺伝子が陽性対照として作用することを許容することができ、モデルと関連する遺伝子をDEGとしての検討から除去する他の技法と比較して、モデルをより良好に訓練することができる。
訓練データ内のそれぞれのトランスクリプトームについて、特徴ベクトルを作成する
519において、プロセス502は、特徴ベクトルに含まれるそれぞれのトランスクリプトームから、DEGではない全ての遺伝子を除去し得る。それぞれのトランスクリプトームは、DEGのみを含み得る。例えば、Table 1(表1)に示されるように、KRAS及びMUC2は、DEGであると決定され得、一方で、EGFR、ERBB2、ERBB3、及びMETは、DEGではないと決定され得る。この例において、プロセス502は、EGFR、ERBB2、ERBB3、及びMET遺伝子の発現レベルを、それぞれのトランスクリプトームから除去し得、一方で、KRAS及びMUC2遺伝子の発現レベルは保持し得る。
Table 2(表2)は、例示的な特徴ベクトル行列を示す。示されるように、特徴ベクトルは、トランスクリプトーム内に含まれるいくつかの遺伝子と関連するいくつかの発現レベル、並びに1又はゼロであり得る経路対照値を含み得る。発現レベルは、生のレベルであってもよく、又は正規化されたレベルであってもよい。一部の実施形態では、特徴ベクトルはまた、DNAバリアントデータ、メチル化データ、がんタイプデータ、及び/又はプロテオミクスデータも含み得る。メチル化データは、二値様式、例えば、1(陽性、すなわち、メチル化)、又は0(陰性、すなわち、非メチル化)の形式であってもよい。
Figure 2022544604000003
Table 2B(表3)に示される代替的な実施形態では、それぞれの遺伝子のRNA発現値を、それらの対応する対立遺伝子に割り当てる。これを達成するための1つの手段は、それぞれの変異のバリアント対立遺伝子画分(VAF)をプロキシとして使用することである。例えば、バリアント対立遺伝子画分が50%である場合、そのバリアントは、1つの対立遺伝子のみに存在する可能性が高い。VAFが75%である場合、関連するバリアントは、両方の対立遺伝子に存在する可能性が高いが、サンプルは、25%の正常な非がん性組織を含んでおり、それはバリアントを有していなかった。これは、VAFをモデルに組み込むための1つの方法である。代替的な方法(示されない)は、VAFを訓練データに含めることであろうが、その場合、それぞれのVAFは、バリアントと関連付けられ、更に、そのバリアントと関連するRNAについて計算したRNA発現レベルと関連付けられる。
Figure 2022544604000004
520において、プロセス502は、訓練特徴ベクトルに基づいて、経路エンジン200nを訓練し得る。1つの例において、それぞれの特徴ベクトルのエントリは、訓練データエレメントにおけるDEGの遺伝子発現値、又は陽性若しくは陰性対照ラベルを表し得る。特徴ベクトルはまた、トランスクリプトーム値セットと関連する調節不全インジケータも含み得る。
一部の実施形態では、経路エンジン200nは、回帰モデルを含み得る。一部の実施形態では、回帰モデルは、所定のアルファパラメータ値に基づいて訓練することができる。一部の実施形態では、回帰モデルは、ロジスティック回帰モデルであり得る。一部の実施形態では、回帰モデルは、線形回帰モデル、例えば、正則化線形回帰モデルであり得る。一部の実施形態では、回帰モデルは、エラスティックネット正則化技法を使用して訓練することができ、エラスティックネットモデルと称され得る。一部の実施形態では、経路破壊スコアが使用され得る、経路が破壊されている確率は、以下の式に従って計算することができ、
Figure 2022544604000005
式中、pは、陽性クラス(すなわち、経路における破壊)の確率であり、β0...βnは、学習された加重であり、x1...xnは、独立変数である。独立変数は、以下に記載されるとおりの特徴ベクトルを含み得る。
回帰モデルは、アルファパラメータ値を使用して訓練することができる。アルファパラメータは、(例えば、訓練データに含まれる)誤分類サンプルについて、回帰モデルを罰則する(したがって、訓練する)ために使用することができる。アルファパラメータ値は、ゼロを含めずにゼロから、最大で1を含めて1までの範囲であり得る。アルファパラメータ値は、以下に詳述されるプロセスを使用して決定することができる。一部の実施形態では、プロセス502は、好ましいアルファパラメータ値を示すユーザー入力を受信し、好ましいアルファパラメータ値に基づいて、ロジスティック回帰モデルを訓練し得る。
一部の実施形態では、回帰モデルは、アルファパラメータ及び少なくとも1つの他のパラメータを使用して訓練することができる。例えば、一部の実施形態では、回帰モデルは、アルファ比に加えて、L1比を使用して訓練することができる。ある特定のモデル、例えば、エラスティックネットモデルについて、L1比により、モデルを訓練するために使用される正則化のタイプが決定され得る。L1比は、アルファ値に類似のプロセスを使用して、例えば、アルファ値に加えて異なるL1値を有する複数のモデルの性能を比較することによって、決定することができる。
一部の実施形態では、使用されるモデルは、SciKit-Learnからのエラスティックネット線形モデルであり得る。これらの実施形態では、モデルは、以下の目的関数を使用して訓練することができ、
Figure 2022544604000006
式中、wは、モデルの加重であり、aは、アルファパラメータであり、l1ratioは、L1比である。アルファパラメータは、ある点を誤分類することに関するモデルに対する罰則として使用され得、L1比は、リッジ回帰(L1比=0)及びLASSO(L1比=1)に対するエラスティックネットの類似性を決定し得る。式(2)のピークは、座標降下法を使用して見出すことができる。
アルファパラメータa及びL1比l1の2つのパラメータの値は、以下に記載されるように、グリッドサーチを10又は15分割交差検証とともに使用して、決定することができる。
それぞれの特徴ベクトルに含まれるDEGの数及び/又は特徴ベクトルの数は、アルファパラメータとは逆に変動するであろう。例えば、DEG及び/又は特徴ベクトルの数が大きい場合(例えば、2,000個のDEG及び10,000個の特徴ベクトル)、アルファパラメータ値は、0.1となり得る。別の例として、DEG及び/又は特徴ベクトルの数が小さい場合(例えば、20個のDEG及び2,000個の特徴ベクトル)、アルファパラメータ値は、0.5となり得る。アルファパラメータ値は、エラスティックネット正則化等の正則化の方法において使用され得る。一部の実施形態では、プロセス502は、アルファパラメータ値を0.2に設定し得る。一部の実施形態では、プロセス502は、以下に記載されるプロセス602等の別のプロセスから、アルファパラメータ値を受信し得る。
522において、プロセス502は、訓練された経路エンジン200nを、出力させ得る。一部の実施形態では、522において、プロセス502は、訓練された経路エンジン200nを、メモリ(例えば、メモリ222及び/又はメモリ262)に保存させ得る。メモリは、コンピューティングデバイス210に含まれ得る。
一部の実施形態では、プロセス502は、DEGと関連するトランスクリプトームデータのみを含む訓練データを受信し得る。換言すると、工程515、517、及び519の部分は、すでに実行されて、非DEGがトランスクリプトームデータから除去されている。これらの実施形態では、プロセスは、工程512の後に工程520へと進み得る。
図6A、6B、6C、6D、6E、及び6Fは、経路エンジン200nの性能を試験及び改善するための例示的な方法に関する。
図6Aは、経路エンジン、例えば、経路エンジン200nを訓練するためのアルファパラメータ値を選択することができる例示的なプロセス602を示す。プロセス602は、1つ又は複数のメモリ又は他の非一過性コンピュータ可読媒体上のコンピュータ可読命令として実装され得、1つ又は複数のメモリ又は他の媒体と通信する1つ又は複数のプロセッサによって実行され得る。一部の実施形態では、プロセス602は、メモリ222及び/又はメモリ262上のコンピュータ可読命令として実装され得、プロセッサ214及び/又はプロセッサ254によって実行され得る。図5、並びに図6Aの両方を参照して、610において、プロセス602は、経路エンジンを訓練し、訓練された経路エンジンの性能を決定することができる。経路エンジンは、上述のプロセス502を使用して訓練されている経路エンジン200nであってもよい。経路エンジンは、経路エンジンの性能を評価するために、訓練データには含まれていなかった(例えば、工程510において記載されるように試験のために確保されていた)トランスクリプトームで試験され得る。
一部の実施形態では、プロセス602は、訓練された経路エンジンを使用して、それぞれの確保されていた試験トランスクリプトームについて経路破壊スコアを生成することによって(図7を参照されたい)、訓練された経路エンジンの性能を決定することができる。プロセス602は、確保されていた特徴ベクトルを訓練された経路エンジンに提供し、訓練された経路エンジンから生成された経路破壊スコアを受信し得る。プロセス602は、生成された経路破壊スコアを、トランスクリプトームと関連する調節不全インジケータと比較して(図4に記載される)、経路エンジン200nが、試験トランスクリプトームについて経路の破壊ステータスを正確に予測したかどうかを決定し、性能メトリックを計算することができる。1つの例において、性能メトリックの計算は、受信者動作特性(ROC)曲線を生成し、曲線下面積(AUC)を計算することを含む。別の例において、性能メトリックの計算は、ウィルコクソンの順位和検定を行うことを含む(図6Bを参照されたい)。
例えば、プロセス602は、経路エンジンを使用して経路破壊スコアを生成し、経路破壊スコアを閾値と比較して、定性的経路破壊スコアを決定し得る。1つの例において、閾値は、例えば、確保しておいたトランスクリプトーム訓練データを使用して、曲線下面積(AUC)を最大化する閾値を選択することによって、選択することができる。別の例において、閾値は、適合率(真陽性)/(真陽性+偽陽性)及び再現率(真陽性)/(真陽性+偽陰性)の調和平均として定義される統計学的尺度であるF1スコアを最大化する閾値を選択することによって、選択することができる。1つの例において、陰性対照群について返却されるスコアの分布が、経路エンジンにとって不規則である場合、外れ値は、最大F1スコアが決定される前に除去され得る。他の実施形態では、群サイズの不均衡又は1つの成功のメトリックが別のものよりも(例えば、適合率が再現率よりも)重要であることに起因して、a)ヨーデンのJ統計(特異度+感度-1)、b)精度(真陽性+真陰性)/(サンプルの総数)、c)適合率、又はd)再現率を含む、別のメトリックを最大化する閾値が望ましい場合がある。
610において、プロセス602は、いくつかの異なるアルファパラメータ値を使用して、複数の経路エンジンを訓練し得る。プロセス602は、次いで、訓練された経路エンジンのそれぞれに試験データを提供し、それぞれの訓練された経路エンジンの性能を比較し得る。1つの例において、プロセス502において経路エンジンを訓練するために使用されるロジスティック回帰パラメータアルファは、変動し得る(例えば、0.05刻みで0.1から1まで)。プロセス602は、それぞれの訓練された経路エンジンのAUC、ウィルコクソンの順位和検定、ヨーデンのJ統計(特異度+感度-1)、精度(真陽性+真陰性)/(サンプルの総数)、適合率、又は再現率のうちのいずれかを計算することによって、それぞれの訓練された経路エンジンの性能を決定することができる。
1つの例において、610において、プロセス602は、経路エンジンの任意選択の交差検証を行い得る。交差検証の可能性のある目標は、経路エンジンが、データを「過剰適合」していない(例えば、訓練データセットの一般化可能ではない特定の態様を学習していない)ことを確実にすることであり得る。
交差検証の1つの例において、610で訓練されたそれぞれの経路エンジンについて、試験されている経路エンジンを、工程510において選択されたデータの異なる部分で訓練してもよく、データの残りは、工程610における試験のために確保される。例えば、工程510において選択されたデータセットを、等しい数のトランスクリプトームを有する複数の部分に分割してもよく、1つの部分が、610において訓練されるそれぞれの経路エンジンのための確保された試験トランスクリプトームセットとなり得、残りのトランスクリプトームは、図5と併せて上記で説明したように、経路エンジンを訓練するために使用される。
1つの例において、それぞれの部分は、データセットの10%であり、工程610は、それぞれの部分が、工程610において訓練される1つの経路エンジンのための確保された試験トランスクリプトームとしての機能を果たすように、10回反復され、これは、10分割交差検証と称される。この例において、経路エンジンは、保留されている10%のサンプル(分割外(out-of-fold)に対して実行され、AUCは、これらの保留されているサンプルについて計算される。それぞれの保留(確保)されているトランスクリプトームについての経路エンジン200nの出力が保存され、この試験セットに対して特異的なAUCも同様に保存される。このプロセスは、10回の分割外セットが重複も交差もしない様式で、10回反復される。すなわち、工程510で選択された全データセット内のそれぞれのトランスクリプトームは、保留されている10%の試験セット内に1回だけ含まれ、それと関連する経路エンジン出力を1つだけ有する。10個の保留されている試験セットのそれぞれの出力及びAUCを収集し、陽性又は陰性対照セットのいずれかにおけるそれらの公知のステータスと併せて、最終的なROCが生成され、これは分割外データセットの出力を反映するため、分割外ROCと称される。
代替的な実施形態では、80/20の分割で5分割交差検証を行ってもよい。この例において、510で選択されたデータセット内のトランスクリプトームは、5つの等しい部分に分割され、工程610で訓練される5つの経路エンジンのそれぞれについて、これらの部分のうちの1つ(データセットの20%)が、データセット内のトランスクリプトームの残り80%で訓練されている経路エンジンを試験するために使用される。
別の例において、経路エンジンは、それぞれの訓練データセットによって生成されるそれぞれのAUCが、同じアルファパラメータ値と関連するように、訓練のそれぞれの事例について、同じアルファパラメータ値を使用して、上述のように、データのそれぞれのサブセットで訓練され、残りの部分で試験される。
一部の実施形態では、610において、プロセス602は、類似の患者のコホートを、訓練セットt1及びホールドアウトセットh1に分割し得る。プロセス602は、訓練セットt1を、訓練セットt2及びホールドアウトセットh2に分割し得る。プロセス602は、訓練セットt2において差次的に発現される遺伝子を決定し得、交差検証を実行して、最終アルファパラメータ値及び最終L1パラメータ値を決定し得る。最終アルファパラメータ値及び最終L1パラメータ値は、最も良好な交差検証結果と関連するアルファパラメータ値及びL1パラメータ値であり得る。プロセス602は、最終アルファパラメータ値及び最終L1パラメータ値を使用して、訓練セットt2で最終モデルを訓練し得る。プロセス602は、最終モデルをホールドアウトセットh2に適用して、患者を調節不全/非調節不全として分類する最終閾値を選択し得る。プロセス602は、閾値を上回る破壊(例えば、真陽性)スコアを有する患者の数が最大となる、かつ/又は閾値を下回る破壊(例えば、真陰性)スコアを有さない患者の数が最大となるような閾値を選択することによって、最終閾値を決定し得る。一部の実施形態では、プロセス602は、正しい分類の数が最大となる、かつ/又は誤った分類の数が最小となる閾値を決定することによって、最終閾値を決定し得る。最終モデル及び最終閾値を検証するために、プロセス602は、次いで、最終モデル及び最終閾値をホールドアウトセットh1に適用し、最終モデル及び最終閾値のAUCを計算し得る。
615において、プロセス602は、610において決定された性能に基づいて、最終アルファパラメータ値を決定し得る。上述のように、プロセス602は、異なるアルファパラメータ値を使用して訓練されたいくつかの経路エンジンについて、性能メトリックを決定していてもよい。所与のアルファパラメータについて、1つを上回る性能メトリックが存在してもよい。一部の実施形態では、性能メトリックは、AUCであり得る。これらの実施形態では、プロセス602は、最も大きいAUCと関連するアルファパラメータ値を、最終アルファパラメータ値として選択し得る。他の実施形態では、他の性能メトリックとしては、それぞれの訓練された経路エンジンのウィルコクソンの順位和検定、ヨーデンのJ統計(特異度+感度-1)、精度(真陽性+真陰性)/(サンプルの総数)、適合率、又は再現率を挙げることができる。これらの実施形態では、プロセス602は、選択された性能メトリックのピーク値と関連するアルファパラメータ値を選択してもよく、プロセス602は、最も高い精度値と関連するアルファパラメータ値を選択してもよい。
610において訓練された複数の経路エンジンから得られるAUCを比較して、異なる訓練データサブセットによって引き起こされるアルファ値の分散及び/又は経路エンジンの性能に対するそれぞれのアルファパラメータ値の作用を分析してもよい。これらの分析は、最終アルファパラメータ値の選択を容易にし得る。
1つの例において、プロセス602は、AUCの標準偏差を計算し得る。1つの例において、標準偏差は、同じアルファパラメータ値と関連する複数のAUCについて計算され得る。別の例において、標準偏差は、複数のアルファパラメータ値と関連するAUCについて計算され得る。
一部の実施形態では、プロセス602は、最終アルファ値及び最終L1値を決定し得る。プロセス602は、610において訓練された最も高いAUC又は他の好適な性能メトリック(例えば、ウィルコクソンの順位和検定、精度等)を有するモデルと関連するアルファ値及びL1値である、最終アルファ値及び最終L1値を決定し得る。
620において、プロセス602は、経路エンジンを再訓練するかどうかを決定し得る。プロセス602は、615の結果に基づいて、経路エンジンを再訓練するかどうかを決定し得る。プロセス602は、選択した最終アルファパラメータ値及び関連する経路エンジンの性能メトリックを所定の閾値と比較し、訓練された経路エンジンが閾値を満たすかどうかを決定し得る。1つの例において、低い標準偏差(≒0.03以下)及び高いAUC(≒0.80以上)が、一般的に、精密モデルの特徴である。プロセス602は、訓練された経路エンジンの標準偏差が、所定の標準偏差閾値(例えば、0.03)よりも低いかどうか、及び訓練された経路エンジンのAUCが、所定のAUC閾値(例えば、0.80)よりも高いかどうかを決定し得る。プロセス602が、訓練された経路エンジンの標準偏差が所定の標準偏差閾値よりも低いこと、及び訓練された経路エンジンのAUCがAUCの所定の閾値よりも高いことを決定すると、プロセス602は、経路エンジンを再訓練する必要がないと決定し得る。プロセス602が、訓練された経路エンジンの標準偏差が所定の標準偏差閾値よりも低くないか、又は訓練された経路エンジンのAUCがAUCの所定の閾値よりも高くないことを決定すると、プロセス602は、経路エンジンを再訓練する必要があると決定し得る。1つの例において、経路エンジンを再訓練する必要がある場合、プロセス602は、経路エンジンを、もともとの訓練データに加えて、もともとの訓練データには存在していなかった追加の特徴を用いて再訓練し得る。例えば、追加の特徴としては、ssGSEAスコア、又は図4に記載されるような他の調節不全ラベルを挙げることができる。
プロセス602が、経路エンジンを再訓練する必要がある(すなわち、620において「はい」)と決定した場合、プロセス602は、610に戻り得る。プロセス602が、経路エンジンを再訓練する必要がない(すなわち、620において「いいえ」)と決定した場合、プロセス602は、625に進み得る。
625において、プロセス602は、最終アルファパラメータ値と関連する訓練された経路エンジンを出力させ得る。プロセス602は、すでに生成されている訓練された経路エンジンを出力させるか、又は訓練データ及び最終アルファパラメータ値の全てを使用して新しい経路エンジンを訓練し、新しい経路エンジンを出力させてもよい。プロセス625は、訓練された経路エンジンを、メモリ(例えば、メモリ222及び/又はメモリ262)に保存させ得る。メモリは、コンピューティングデバイス210に含まれ得る。
ここで、図5、並びに図6Bを参照すると、任意選択の試験のために追加の試験トランスクリプトームを使用して経路エンジンを試験することができる例示的なプロセス630が、示されている。プロセス630は、1つ又は複数のメモリ又は他の非一過性コンピュータ可読媒体上のコンピュータ可読命令として実装され得、1つ又は複数のメモリ又は媒体と通信する1つ又は複数のプロセッサによって実行され得る。一部の実施形態では、プロセス630は、メモリ222及び/又はメモリ262上のコンピュータ可読命令として実装され得、プロセッサ214及び/又はプロセッサ254によって実行され得る。
639において、プロセス630は、訓練された経路エンジン、例えば、経路エンジン200nを受信し得る。経路エンジンは、図5における方法502を使用して訓練され得る。
640において、プロセス630は、任意選択の試験のために追加の試験トランスクリプトームを受信し得る。
641において、プロセス630は、それぞれの追加の試験トランスクリプトームを、経路エンジン、例えば、経路エンジン200nに提供し得る。642において、プロセス630は、経路エンジンから、それぞれの追加の試験トランスクリプトームについて経路破壊スコアを受信し得る。経路エンジンは、それぞれの追加の試験トランスクリプトームについて経路破壊スコアを生成し、出力し得る。
644において、プロセス630は、それぞれの追加の試験トランスクリプトームを、追加の試験トランスクリプトームのDNA変異データに基づいて、陽性又は陰性対照ラベルのいずれかと関連付け得る。工程644には、工程512の少なくとも一部分が含まれ得る。
646において、プロセス630は、所定の性能メトリックを使用して、陽性対照トランスクリプトームについて生成された経路破壊スコアを、陰性対照トランスクリプトームについて生成された経路破壊スコアと比較し得る。一部の実施形態では、プロセス630は、AUCを使用して、陽性対照トランスクリプトームについて生成された経路破壊スコアを、陰性対照トランスクリプトームについて生成された経路破壊スコアと比較し得る。プロセス630は、経路エンジンに含まれるモデルと関連する閾値を使用して、経路破壊スコアのAUCを計算し得る。一部の実施形態では、プロセス630は、ウィルコクソンの順位和検定を使用して、陽性対照トランスクリプトームについて生成された経路破壊スコアを、陰性対照トランスクリプトームについて生成された経路破壊スコアと比較し得る。これらの群におけるスコアを、訓練データと同じ方向で比較した場合(例えば、追加の試験データセットにおける大きなスコアは、試験データセットにおける大きなスコアと同じ群と関連することを示す)の有意差(例えば、p<0.01)は、システム及び方法が、ロバストであり、もともとの試験データセット外の検体を正確に分析するように一般化可能であることの根拠となり得る。
648において、プロセス630は、ウィルコクソンの順位和検定の結果を出力させ得る。プロセス630は、ウィルコクソンの順位和検定の結果を、ユーザーに提示するために、ディスプレイ(例えば、ディスプレイ290、ディスプレイ256、及び/又はディスプレイ216)に出力させ得る。プロセス630は、経路エンジンがロバストであり、もともとの試験データセット外の検体を正確に分析するように一般化可能であるかどうかを決定し得る。
図6C及び6Dは、経路エンジンによって生成された経路破壊スコアを分析するために使用したウィルコクソンの順位和検定の例示的な結果を示す。図6C及び6Dにおいて、経路エンジンは、RAS遺伝子群(図6C)又はERBB2遺伝子群(図6D)のいずれかをスコア付けするように設計されていた。この例において、RAS遺伝子群は、KRAS、NRAS、及びHRAS遺伝子を含み、ERBB2遺伝子群は、ERBB2遺伝子のみを含む。
図6C及び6Dにおいて、それぞれのトランスクリプトームは、野生型(WT)(左)又は陽性対照(右)群に割り当てられており、経路エンジン200nを使用して、経路破壊スコアが生成されている(図7に示される)。y軸は、それぞれのトランスクリプトームと関連するそれぞれの経路破壊スコアの数値を示す。x軸は、図6CにおいてはRAS経路又は図6DにおいてはERBB2経路のいずれかにおける全ての遺伝子について、それぞれのトランスクリプトームと関連するWT又は変異ステータスを示す。水平方向の破線は、閾値(図6Cにおいては0.85、及び図6Dにおいては0.55)を示す。閾値を上回る経路破壊スコア値を有するトランスクリプトームは、経路破壊と関連していると考えられる。
図6B、並びに図6C及び6Dを参照すると、図6C及び6Dに示される結果は、方法630において工程646で決定され、工程648で出力され得る。
この例において、図6C及び6Dにおける囲みは、経路エンジン200nの出力が破壊の閾値(破線)を上回るWT患者である潜在的な「隠れた応答者」を概略的に示す。
ここで、図5、並びに図6Eを参照すると、訓練された経路エンジンを生物学的に検証することができる例示的なプロセス650が、示されている。生物学的検証は、任意選択であり得る。プロセス650は、1つ又は複数のメモリ又は他の非一過性コンピュータ可読媒体上のコンピュータ可読命令として実装され得、1つ又は複数のメモリ又は媒体と通信する1つ又は複数のプロセッサによって実行され得る。一部の実施形態では、プロセス650は、メモリ222及び/又はメモリ262上のコンピュータ可読命令として実装され得、プロセッサ214及び/又はプロセッサ254によって実行され得る。
652において、プロセス650は、訓練された経路エンジンを受信し得る。経路エンジンは、経路エンジン200nであり得る。経路エンジンは、図5における方法502を使用して訓練され得る。
654において、プロセス650は、経路エンジンを生物学的に検証し得る。例えば、プロセス650は、経路エンジンによって生成された経路破壊スコアと、試験データセット及び/又は関連するタンパク質データを有する追加の試験データセット内のトランスクリプトーム値セットによって表されるそれぞれの検体のタンパク質データとの間の相関性の程度を決定し得る。プロセス650は、それぞれの検体のタンパク質データをx軸にプロットし、出力される経路エンジンによって生成された経路破壊スコアをy軸にプロットし得る。プロセス650は、プロットされたデータを使用して、R2値及び関連するp値を計算し得る。タンパク質データは、タンパク質発現レベル(サンプルにおいて検出されるタンパク質の量)及び/又はタンパク質活性化レベルという尺度を含み得る。例えば、タンパク質活性化レベルは、サンプル中の活性化されたタンパク質の総量、又は活性化された形態で存在すると決定された1つ若しくは複数のタンパク質の部分が含まれ得、ここで、タンパク質の活性化形態の1つの例は、リン酸化されたタンパク質である。
1つの例において、強い相関(例えば、0.2を上回るR2値及び/又は1e-5を下回るp値)は、経路エンジンの結果が、生物学的に意味のあるものであり、タンパク質発現又は活性化レベルに影響を及ぼす経路の調節不全を反映していることを示し得る。検体のタンパク質発現又は活性化レベルは、経路エンジンを使用して、検体の経路破壊スコアを生成し、654において決定された相関に基づいて、経路破壊スコアをタンパク質レベルに変換することによって、予測することができる。
656において、プロセス650は、検証データを出力させ得る。プロセス650は、654で生成されたプロット、R2値、及び/又は関連するp値を、ディスプレイ(例えば、ディスプレイ290、ディスプレイ256、及び/又はディスプレイ216)に出力させ得る。ユーザーは、次いで、プロット、R2値、及び/又は関連するp値を確認して、経路エンジンが生物学的に検証されたかどうかを検証することができる。
ここで、図5、並びに図6Fを参照すると、訓練された経路エンジンを直交的に検証することができる例示的なプロセス660が、示されている。直交的検証は、任意選択であり得る。プロセス660は、1つ又は複数のメモリ又は他の非一過性コンピュータ可読媒体上のコンピュータ可読命令として実装され得、1つ又は複数のメモリ又は媒体と通信する1つ又は複数のプロセッサによって実行され得る。一部の実施形態では、プロセス660は、メモリ222及び/又はメモリ262上のコンピュータ可読命令として実装され得、プロセッサ214及び/又はプロセッサ254によって実行され得る。
662において、プロセス660は、訓練された経路エンジン、例えば、経路エンジン200nを受信し得る。経路エンジンは、図5における方法502を使用して訓練され得る。
664において、プロセス660は、訓練された経路エンジンを直交的に検証し得る。プロセス660は、経路エンジンによって生成された経路破壊スコアと、トランスクリプトームセット内のそれぞれのトランスクリプトームの公知の経路分析方法の出力との間の相関を決定することによって、訓練された経路エンジンを直交的に検証し得る。公知の経路分析方法としては、遺伝子セット富化分析(GSEA)、遺伝子セット変動分析(GSVA)、単一サンプルGSEA(ssGSEA)、及び/又は他の経路分析方法を挙げることができる。
666において、プロセス660は、664で生成された任意のデータを出力させ得る。例えば、プロセス660は、経路エンジンによって生成された経路破壊スコアと、トランスクリプトームセット内のそれぞれのトランスクリプトームの公知の経路分析方法の出力との間の相関を、出力させ得る。プロセス660は、データを、ディスプレイ(例えば、ディスプレイ290、ディスプレイ256、及び/又はディスプレイ216)に出力させ得る。ユーザーは、次いで、出力されたデータを確認して、経路エンジンが直交的に検証されたかどうかを検証することができる。
ここで、図6Gを参照すると、モデルを訓練するための例示的なプロセス670が、示されている。プロセス670は、経路内のモジュールにおいて破壊を認識するようにモデルを訓練し得る。モジュールは、1つ又は複数の遺伝子を含み得る。例えば、図12Aに示されるように、RTK-RAS経路1200とも称され得るRTK/RAS-PI3K-EGFR経路は、EGFRモジュール1205、RASモジュール1210、RAFモジュール1215、MEKモジュール1245、ERKモジュール1250、PTENモジュール1220、ERBB2モジュール1225、PI3Kモジュール1230、AKTモジュール1235、及びTORモジュール1240のうちの1つ又は複数を含み得る。EGFRモジュール1205は、EGFR遺伝子を含み得る。RASモジュール1210は、KRAS遺伝子、NRAS遺伝子、及びHRAS遺伝子を含み得る。RAFモジュール1215は、RAF1遺伝子、BRAF遺伝子、及びARAF遺伝子を含み得る。RTK-RAS経路については、プロセス670は、EGFRモジュール1205と関連付けられたモデル、RASモジュール1210と関連付けられたモデル、及びRAFモジュール1215と関連付けられたモデルを訓練するために使用され得る。
プロセス670は、回帰モデル、例えば、線形回帰モデルを訓練することができる。線形回帰モデルは、エラスティックネット線形回帰モデルであり得る。モデルは、経路エンジン、例えば、経路エンジン200nに含まれ得る。一部の実施形態では、モデルは、がんのタイプ、例えば、肺がん、乳がん等と関連付けられ得る。一部の実施形態では、モデルは、複数のがんタイプと関連付けられてもよい。この方式で、モデルは、がんタイプがわからないながらも、経路における調節不全を検出することができる。プロセス670は、1つ又は複数のメモリ又は他の非一過性コンピュータ可読媒体上のコンピュータ可読命令として実装され得、1つ又は複数のメモリ又は媒体と通信する1つ又は複数のプロセッサによって実行され得る。一部の実施形態では、プロセス670は、メモリ222及び/又はメモリ262上のコンピュータ可読命令として実装され得、プロセッサ214及び/又はプロセッサ254によって実行され得る。
672において、プロセス670は、いくつかの陽性ラベルサンプル及びいくつかの陰性ラベルサンプルを受信し得る。それぞれのサンプルは、患者と関連する組織サンプルに基づいて生成されたトランスクリプトームデータを含み得る。陽性ラベルサンプル及び陰性ラベルサンプルは、特定の経路モジュール(例えば、RASモジュール1210)と関連し得る。経路モジュールについて、病原的に改変されたサンプルとも称される陽性ラベルサンプルは、モジュール内の遺伝子のうちの少なくとも1つにおいて、少なくとも1つの病原性バリアント、及び/又は一部の実施形態では少なくとも1つの病原性である可能性が高いバリアントを有するサンプルであり得る。陰性ラベルサンプルは、経路全体でいずれの遺伝子にも(すなわち、TCGAによって定義される経路全体でいずれのモジュール内のいずれの遺伝子にも)、体細胞バリアントも、病原性(又は病原性である可能性が高い)バリアントも、意義不明のバリアントも有さないサンプルであり得る。例えば、RASモジュール1210で訓練したモデルについて、陽性コホートは、KRAS、HRAS、又はNRAS遺伝子のうちの少なくとも1つに変異を有するサンプルとなり、陰性コホートは、RTK-RAS経路全体でいずれの遺伝子においても体細胞変異も、病原性(又は病原性である可能性が高い)変異も、意義不明のバリアントの変異も有さないサンプルとなるであろう。
674において、プロセス670は、672で受信したサンプルに基づいて、訓練セット及びホールドアウトセットを決定し得る。プロセス670は、訓練セットとして使用するために、所定の割合の陽性ラベルサンプル及び陰性ラベルサンプルの両方をランダムに選択し得る。残りの陽性ラベルサンプル及び陰性ラベルサンプルは、ホールドアウトセットとして使用され得る。一部の実施形態では、プロセス670は、訓練セットとして使用するために、陽性ラベルサンプル及び陰性ラベルサンプルの約80%を選択し得る。他の実施形態では、プロセス670は、訓練セットとして使用するために、陽性ラベルサンプル及び陰性ラベルサンプルの約90%を選択し得る。訓練セットは、モデルを訓練するために使用され得、ホールドアウトセットは、モデルを評価するために使用され得る。
676において、プロセス670は、モデルを訓練するためのセット、及び訓練セットに基づいてモデルと関連する閾値を決定するためのセットを決定し得る。訓練のためのセットは、ハイパーパラメータセットと称され、閾値を決定するためのセットは、閾値セットと称されるであろう。プロセス670は、ハイパーパラメータセットとして使用するために、所定の割合の、訓練セットに含まれる陽性ラベルサンプル及び陰性ラベルサンプルの両方をランダムに選択し得る。残りの陽性ラベルサンプル及び陰性ラベルサンプルは、閾値セットとして使用され得る。一部の実施形態では、プロセス670は、ハイパーパラメータセットとして使用するために、訓練セット内の陽性ラベルサンプル及び陰性ラベルサンプルの約80%を選択し得る。他の実施形態では、プロセス670は、ハイパーパラメータセットとして使用するために、訓練セット内の陽性ラベルサンプル及び陰性ラベルサンプルの約90%を選択し得る。一部の実施形態では、プロセス670は、訓練セットを分割し得、陽性ラベルサンプル及び陰性ラベルサンプルの約80%を訓練セットとして選択し得、陽性ラベルサンプル及び陰性ラベルサンプルの10%ずつの2つのサブセットは、1つをAUCを最大にする閾値を決定するために使用し、1つをモデル及び選択された閾値を検証するために使用する。一部の実施形態では、3つ全てのセットは、均等な割合の陽性及び陰性サンプルを含むように選択される。ハイパーパラメータセットは、ある特定のパラメータ、例えば、アルファパラメータ(例えば、上述の式(2)におけるa)及びL1パラメータ(例えば、上述の式(2)におけるl1ratio)の最終値を決定し得る。一部の実施形態では、閾値セットは、モデルを評価するために使用され得る。
678において、プロセス670は、差次的に発現される遺伝子(DEG)を決定し得る。プロセスは、ハイパーパラメータセットに含まれるそれぞれのサンプルに基づいて、DEGを決定し得る。プロセス670は、トランスクリプトームデータに含まれるそれぞれの遺伝子について、陽性ラベルサンプルと陰性ラベルサンプルとの間の差次的メトリックを計算し得る。プロセス670は、それぞれの遺伝子について計算された差次的メトリックを所定の閾値と比較し、差次的メトリックが閾値を下回る場合に(又は一部の実施形態では、閾値を上回る場合に)遺伝子を保持し得る。一部の実施形態では、プロセス670は、トランスクリプトームデータに含まれるそれぞれの遺伝子について、陽性ラベルサンプルと陰性ラベルサンプルとの間で、t検定を使用して、差次的に発現される遺伝子を決定し得る。プロセス670は、t検定を使用して生成されたP値を、ベンジャミン-ホッホバーグ偽発見率(FDR)に補正し得る。プロセス670は、ベンジャミン-ホッホバーグFDRが所定の閾値、例えば、0.05を下回る遺伝子を、モデリングのため及びDEGとして使用するために保持し得る。P値又はFDRのいずれかを、類似性メトリックとして使用してもよい。
680において、プロセス670は、モデルのための最終訓練パラメータを決定し得る。実施形態では、モデルがエラスティックネット線形モデルである場合、プロセス670は、上述の式(2)を使用して、最終訓練パラメータを決定し得る。プロセス670は、座標降下法を使用して、式(2)のピークを決定し得る。プロセス670は、ハイパーパラメータセットに対して10又は15分割交差検証とともにグリッドサーチを使用して、アルファ及びL1比パラメータを決定し得る。一部の実施形態では、試験されるパラメータ値には、範囲[0.1、0.5、1、2、5、10]内のアルファ値及び範囲[0、0.05、0.1、0.2、0.4、0.6、0.8、1]内のL1比の値が含まれ得る。プロセス670は、交差検証から最も高い平均AUCを有するアルファ及びL1比パラメータのセットを、最終アルファ及びL1比パラメータに選択し得る。
682において、プロセス670は、最終訓練パラメータを使用して、最終モデルを訓練し得る。一部の実施形態では、プロセス670は、最終アルファ及びL1比パラメータを使用して、最終エラスティックネット線形モデルを訓練し得る。プロセス670は、次いで、並行して684及び688に進み得る。
684において、プロセス670は、最終モデルの確率分布を見出すために、閾値セットのモデルスコアを計算し得る。モデルの出力は、患者を、調節不全又は非調節不全として直接的に分類するものではない。例えば、閾値セット(モデルを訓練するために使用されていない)における調節不全及び非調節不全の患者の出力分布は、図6Cに示されるように図で示され得る。分布は、閾値セット内の陽性ラベルサンプル及び陰性ラベルサンプルについてモデルによって出力されたスコアを表し得る。
686において、プロセス670は、分布に基づいて最終閾値を決定し得る。プロセス670は、分布に対してAUCを最大化することによって閾値を決定し得る。図6Cにおいて、閾値649は、約0.85である。プロセス670は、モデルを訓練するために使用されておらず、かつ真のホールドアウトセットではないセットに基づいて閾値を決定し得、これにより、プロセス670が、ホールドアウトセットでの分布がどうであるかを概算し、閾値が真のホールドアウトセットを使用して決定された場合と比較して性能を改善するために適切な閾値を選択することが可能となる。
688において、プロセス670は、最終モデルを使用して、ホールドアウトセットについて計算されたモデルスコアを使用して、ホールドアウトセットのモデルスコアを計算し得る。プロセス670はまた、確率分布(例えば、684で生成されるものと同じタイプの確率分布)を生成し得る。
690において、プロセス670は、最終閾値に基づいて、ホールドアウトセットに含まれる患者を、調節不全又は非調節不全として分類し得る。プロセス670は、分布に対するAUCを計算し得る。AUCは、最終閾値を上回る患者が、調節不全として予測され、最終閾値を下回る患者が、非調節不全として予測される場合、モデルの感度及び特異度の平均であり得る。AUCはまた、ホールドアウトセットがモデルを訓練するために使用されていなかったため、一般的な集団における最終モデルの全体的な性能も示し得る。
692において、プロセス670は、690で計算されたAUCを使用して、最終モデルの性能を決定し得る。プロセス670は、AUCを、所定の標的AUCと比較し得、AUCが標的AUCを下回る場合に、モデルを再訓練することを決定し得る。プロセス670は、ヒトである実施者が最終モデルの性能を分析及び/又は評価するために、AUCを(例えば、ディスプレイ290に)表示させ得る。
ここで、図6Hを参照すると、モデル訓練プロセス、例えば、図6Gにおけるプロセス670を使用して、モデル(例えば、線形回帰モデル)を訓練するための訓練データを選択することができるプロセス750が、示されている。より具体的には、プロセス750は、サンプルが、陽性ラベルサンプルの群(例えば、コホート)に割り当てられるべきであるか、陰性ラベルサンプルの群に割り当てられるべきであるか、又はモジュール(例えば、図12AにおけるEGFRモジュール1205)若しくは経路全体(例えば、図12AにおけるRTK-RAS経路1200全体)のいずれかと関連付けられたモデルを訓練するために使用されるサンプルから除外されるべきであるかを決定し得る。サンプルは、RNAデータ、DNAデータ、がんタイプ、品質評価、及び腫瘍に由来する組織サンプルと関連する他の臨床的に関連性のあるデータを含み得る。モデルは、所定のがんタイプと関連付けられ得る。
一部の実施形態では、モデルは、経路(例えば、RTK-RAS経路1200)と関連付けられ得る。一部の実施形態では、モデルは、経路内に含まれるモジュール(例えば、RTK-RAS経路1200内に含まれるRASモジュール1210)と関連付けられ得る。一部の実施形態では、モデルは、経路内に含まれる単一の遺伝子(例えば、RTK-RAS経路1200内に含まれるKRAS遺伝子)を含むモジュールと関連付けられ得る。一部の実施形態では、遺伝子を含むモジュールは、複数の遺伝子を有してもよい。
752において、プロセス750は、患者と関連するサンプルを受信し得る。サンプルは、データベースに含まれ得る。それぞれのサンプルは、RNAデータ、DNAデータ、がんタイプ、メチル化ステータス、タンパク質データ、ssGSEAデータ、及び/又は腫瘍に由来する組織サンプルと関連する他の臨床的に関連性のあるデータを含み得る。開始するために、プロセス750は、全てのサンプルを1つのサンプル群内に入れ得る。プロセス750は、続いて、サンプル群から、不適格サンプルを除去し得、並びに群内に含まれるサンプルを、陽性対照(例えば、調節不全を示す)又は陰性対照(例えば、非調節不全を示す)としてラベル付けし得る。一部の実施形態では、RNAデータは、19,000個を上回る遺伝子の発現値を含み得る。
それぞれのサンプルは、組織サンプルを、標的化パネル又は全ゲノムDNAシーケンシングに供することによって生成され得る。それぞれのサンプルは、検出されたバリアント、バリアント対立遺伝子画分(VAF)、及びサンプル内のそれぞれの遺伝子のコピー数の対数オッズ比(LOR)の完全なリストを含み得る。サンプルの検出されたバリアントのリストは、単一ヌクレオチド変動(SNV)及び挿入/欠失(インデル)を含み得る。サンプルは、検出されたバリアントのリスト内のそれぞれのバリアントに関する「良性」、「良性である可能性が高い」、「矛盾する根拠」、「病原性である可能性が高い」、「病原性」、「意義不明」、又は「不明」という病原性分類を含み得る。所与のバリアントがどのカテゴリーに入るかの決定は、American College of Medical Genetics and Genomics(ACMG)によって記載される基準に基づいて行うことができる。集団内でのバリアントの頻度、直接的な臨床根拠、並びに遺伝子発現及び/又は翻訳されるタンパク質の機能に対するバリアントの予測される作用を含む、複数の根拠レベルが、考慮され得る。これらの根拠レベルが組み込まれて、最終的なカテゴリー決定が生成される。バリアント病原性に関する追加の限定的な基準は、DNAバリアントデータベースを使用して生成され得る。サンプルは、バリアントが腫瘍を起源とする可能性が高い(「体細胞」)か、又は出生の時点で患者に存在していた(「生殖細胞系列」)かを示す、それぞれのバリアントの分類を含み得る。VAFは、腫瘍に隣接する正常な組織に存在する遺伝子のバージョンと比較した、組織サンプルに存在する対立遺伝子の比率の尺度であり得る。それぞれの遺伝子のコピー数の対数オッズ比が、プロセス750によって使用されて、遺伝子が増幅されているか欠失しているかの決定が行われ得る。例えば、0のLORは、遺伝子のコピー数が正常(すなわち、2)であることを示し得、2を上回るLORは、増幅の強力な可能性を示し得、-2を下回るLORは、欠失の強力な可能性を示し得る。
コピー数変動を使用して、サンプルの病原性を決定することができる。参照データベースは、増幅又は欠失が、その遺伝子が病原性であることを示すかどうかに関するデータを含み得る。例えば、ERBB2の増幅(すなわち、コピー数の増加)は、病原性と考えられるが、一方で欠失(すなわち、コピー数の減少)は、そうではない。逆のことが、遺伝子PTENに当てはまる。これらの病原性コピー数変化のみが、サンプルが経路破壊モデルを生成するために使用されるかどうか及びどのように使用されるかを決定する場合に、考慮される。
所与のサンプルが、遺伝子に増幅又は欠失を有するかどうかは、そのコピー数の対数オッズ比(CNLOR)が、考慮されるコホート内の全てのサンプルについて、その遺伝子のCNLORの分布内でどこに入るかに基づく。具体的には、遺伝子は、そのCNLORが、考慮されるがんコホート内の全てのサンプルの平均CNLORよりも2.0標準偏差を上回って高い場合、増幅されていると考えられ、遺伝子は、そのCNLORが、平均CNLORよりも2.0標準偏差を下回って低い場合、欠失していると考えられる。例えば、ERBB2の平均CNLORは、特定のがんタイプについては0であり得、標準偏差は1.2であり得る。サンプルは、そのERBB2 CNLORが、0+(2.0×1.2)=2.4を上回る場合、ERBB2増幅を有すると考えられる。或いは、あるがんは、TP53の平均CNLORが-0.1であり得、標準偏差は0.8であり得る。サンプルは、そのTP53 CNLORが、-0.1-(2.0×0.8)=-1.7を下回る場合、TP53欠失を有すると考えられる。
754において、プロセス750は、モデルと同じがんタイプと関連付けられていない、サンプル群内の任意のサンプルを除去し得る。例えば、プロセス750は、モデルが肺腺癌と関連付けられている場合、扁平上皮の診断を有する肺がんサンプルを、サンプル群から除去し得る。
756において、プロセス750は、サンプルを、陽性サンプル又は陰性サンプルとしてラベル付けし得、かつ/又はサンプル内のそれぞれの遺伝子のバリアント、VAF、及びコピー数のLORに基づいて、サンプル群からサンプルを除去し得る。一部の実施形態では、プロセス750は、上記の「例示的な陽性及び陰性対照選択」の節に記載される基準を使用して、陽性対照及び陰性対照を決定し得る。
一部の実施形態では、経路(例えば、RTK-RAS経路1200)における調節不全を検出するように訓練されたモデルについて、サンプルが、その経路内に含まれる経路モジュール内に含まれる遺伝子のうちの少なくとも1つのDNAにおいて、生殖細胞系列か体細胞かのいずれかの変異を含む場合にのみ、そのサンプルは陽性対照サンプルとしてラベル付けされ得る。一部の実施形態では、サンプルが、経路内に含まれるいずれの遺伝子においても、いずれのタイプのDNA変異も有さない場合、及び/又は経路内の任意の遺伝子に良性若しくは良性である可能性が高い生殖細胞系列バリアントのみを含む場合にだけ、そのサンプルは陰性対照としてラベル付けされ得る。
一部の実施形態では、経路モジュールにおける調節不全を検出するように訓練されたモデルについて、サンプルが、経路モジュール内に含まれる少なくとも1つの遺伝子のDNAにおいて、生殖細胞系列か体細胞かのいずれかの変異を含む場合にのみ、そのサンプルは陽性対照サンプルとしてラベル付けされ得る。一部の実施形態では、サンプルが、そのモデルと関連するモジュール内に含まれるいずれの遺伝子においても、いずれのタイプのDNA変異も有さない場合にのみ、そのサンプルは陰性対照としてラベル付けされ得る。加えて、一部の実施形態では、陰性対照は、モジュールを含む経路全体において1つ又は複数の遺伝子に良性又は良性である可能性が高い生殖細胞系列バリアントのみを含み得る。
一部の実施形態では、経路モジュール(例えば、RASモジュール1210)内に含まれる単一の遺伝子における調節不全を検出するように訓練されたモデルについて、サンプルが、その遺伝子のDNAに変異を含む場合にのみ、そのサンプルは陽性対照サンプルとしてラベル付けされ得る。一部の実施形態では、サンプルが、そのモデルと関連する遺伝子において、いずれのタイプのDNA変異も有さない場合、及び/又はその遺伝子を含む全経路内の遺伝子において良性若しくは良性である可能性が高い生殖細胞系列バリアントのみを含む場合にだけ、そのサンプルは陰性対照としてラベル付けされ得る。
プロセス750は、どのサンプルを分析に含めるかを決定する際に、モデルが訓練されている経路又はモデルが訓練されているモジュールを含む経路に関する遺伝子データのみを使用し得る。例えば、RTK/RAS経路内のRAFモジュールのモデルの訓練データが生成されている場合、二次的であるが接続されていない腫瘍経路(例えば、WNT経路)内の遺伝子バリアントは、サンプルを陽性若しくは陰性対照群に含めるか、又は分析から除外するかの決定において考慮されない。更に、親RTK/RAS経路内の他のモジュール、例えば、HRAS、NRAS、及びKRASを含むRASモジュールにおける変異は、サンプルを、陽性対照群RAFに含めるかどうかに影響を及ぼさず、モジュール内の病原性変異のみが、この決定についてプロセス750によって考慮される。例えば、BRAF及びKRASの両方に病原性変異(上述のように、遺伝子に応じてコピー数の増幅又は欠失)を有するサンプルは、RAS又はRAFのいずれかのサブモジュールの破壊モデルを生成する際、陽性対照として含まれるであろう。加えて、プロセス750は、少なくとも5パーセント(すなわち、5%を上回る)VAFを有するサンプルにおいてのみバリアントを考慮し得、これは、経路に対して破壊的作用を有する任意のバリアントが、その作用が検出可能となるのに十分な程度に存在することを確実にするのを補助し得る。
一部の実施形態では、プロセス750が、サンプルを陽性サンプルとしてラベル付けするためには、サンプルは、モデルがモジュールについて訓練されている場合にはモジュール内の任意の遺伝子において、又はモデルが訓練されている経路内の任意の遺伝子において、検出された病原性又は病原性である可能性が高いバリアントを有する必要があり、これは、バリアントが体細胞であるか生殖細胞系列であるかは問わない。換言すると、プロセス750は、サンプルが、モデルが訓練されている経路又はモデルが訓練されているモジュールに体細胞及び/若しくは生殖細胞系列バリアントを有する場合にのみ、サンプルを陽性としてラベル付けする。
一部の実施形態では、プロセス750がサンプルを陰性サンプルとしてラベル付けするためには、サンプルは、経路内のいずれの遺伝子においても、いずれのタイプの検出された体細胞変異も有さないべきであり(モデルが経路について訓練されているか又はモジュールについて訓練されているかに関係なく)、経路内に良性又は良性である可能性が高い生殖細胞系列バリアントのみを有するはずである。一部の実施形態では、モジュールは、EGFR及びERBB2モジュール等、複数の経路と相互作用し得る。そのような事例において、サンプルは、そのモジュール内のいずれの遺伝子においても、陰性サンプルとしてラベル付けされる体細胞変異を有さないはずである。これらの基準は、破壊ステータスを確信的に評価することができるサンプルのみが、モデル生成に含まれるのを確実にするのに役立ち得る。裾の重い経路破壊分布内の患者に基づくモデリングは、患者の経路破壊に対するVUSの作用を定量化することができる解釈可能な連続スコアをもたらす。
一部の実施形態では、プロセス750は、所定の閾値を下回る品質評価を含む任意のサンプルを除去し得る。品質評価は、シーケンシング手順中に生じたエラーが関連するリードに影響を及ぼした尤度を反映し得る。例として、閾値は、少なすぎるリード、低いリード品質、リード重複率が高すぎること、DNA混入の存在、他のサンプルとの混入、病原体混入、及びゲノムアセンブリに対するリードアラインメント不良等であるがこれらに限定されない、低いか又は信頼できないサンプル品質をもたらし得る1つ又は複数の基準を評価することによって、得ることができる。
プロセス750は、陽性ラベルも陰性ラベルも付けられていない任意のサンプルを、サンプル群から除去し得る。例えば、プロセス750は、モデルが訓練されているモジュール外の病原性変異を有するサンプルを除去し得る。
一部の実施形態では、プロセス750は、十分な数の陽性対照及び陰性対照がない場合には、終了し得る。一部の実施形態では、プロセスは、少なくとも16個の陽性対照サンプルがなく、少なくとも5パーセントの陰性対照に対する陰性対照の比率がない場合には、終了し得る。この様式で、プロセス750は、モデルが、好適なデータが利用可能である場合にのみ訓練されることを確実にし得る。
758において、プロセス750は、モデルの訓練に使用するための訓練データを出力し得る。訓練データは、サンプル群に含まれる陽性ラベルサンプル及び陰性ラベルサンプルを含み得る。プロセス750は、データベース(例えば、図3におけるラベル付けされた腫瘍サンプルデータベース400)又は図6Gにおけるプロセス690等のプロセスに、訓練データを出力し得る。
個々のサンプルを分類するための例が、以下のTable 3~7(表4~8)に提示されている。これらの例は、サンプルをモデル生成に含めるかどうか及びどのように含めるかに関して、プロセス750と関連して上述された適用可能な基準を使用して、決定がどのように行われるかを例示することを意味するものである。
Table 3(表4)の例は、ERBB2サブモジュールに含めることが考慮されるサンプルについてのものである。サンプルは、ERBB2遺伝子における増幅を含み、これは、それを陽性対照として含めるのに十分である。サンプルは、他のバリアントを有するが、これらは、モジュールレベルの変異だけがこの決定に関して考慮されることを踏まえると、このサンプルを陽性対照群から除外するものではない。
Figure 2022544604000007
Figure 2022544604000008
Table 4(表5)の例は、RTK/RAS親経路のRAFサブモジュールに含めることが考慮されるサンプルについてのものである。患者は、RAFモジュールにおいて病原性又は病原性である可能性が高い変異を有さず、そのため、陽性対照群に含めることができない。患者は、KRASにおいて病原性変異を有し、これは、RAFモジュールの親経路であるRTK/RAS経路にある。したがって、この患者は、陰性対照群に含めることができず、全てモデル生成から除外される。この患者は、しかしながら、RASサブモジュール破壊のモデルについては、陽性対照として含めることができるであろう。
Figure 2022544604000009
Table 5(表6)の例は、RTK/RAS親経路のRAFサブモジュールに含めることが考慮される別のサンプルについてのものである。この患者は、BRAFにおいて病原性変異を有し、これは、RAFモジュールのメンバーであり、そのため、陽性対照群に含めることができる。
Figure 2022544604000010
Figure 2022544604000011
Table 6(表7)の例は、PI3K経路のTORサブモジュールに含めることが考慮されるサンプルについてのものである。このサンプルは、RICTORにおいて増幅を有し、これは、TORモジュールのメンバーであり、そのため、陽性対照群に含めることができる。サンプルはまた、AKT3の増幅も有するが、これは、モジュールレベルの変異だけがこの決定に関して考慮されることを踏まえると、このサンプルを陽性対照群から除外するものではない。
Figure 2022544604000012
Figure 2022544604000013
Table 7(表8)の例は、PI3K経路のPTENサブモジュールに含めることが考慮されるサンプルについてのものである。このサンプルは、PTENにおいて良性生殖細胞系列変異を有し、これは、陽性対照として含めるのにも、陰性対照サンプルとして除外するのにも不十分である。このサンプルは、したがって、PTENモジュール破壊モデル生成の陰性対照であろう。
Figure 2022544604000014
Figure 2022544604000015
意義不明のバリアントの分類
意義不明のバリアント(VUS)は、がん作動性である(病原性である)か、そうではない(良性である)かが不明である変異である。ある特定のデータベースは、数千個のVUSを有し得る。バリアントの病原性分類に根拠を提供するために、トランスクリプトームに対するVUSの作用を特徴付けることが望ましい。
図6Iは、いくつかのモジュールを有するRTK-RAS及びPI3K経路760の例示的なモデルを示す。上述のように、それぞれのモジュールは、経路を考慮してモジュールの病原性調節不全を特定するように訓練されたモデルと関連付けられ得る。VUSが、経路モジュールのうちの1つにおいて調節不全を引き起こす場合(その場合は病原性として分類されるべきである)、モジュールと関連付けられたモデルの組合せシグナルにより、そのVUSを有する患者を、調節不全に対応するスコアを有するとして特定することができる。組合せシグナルは、メタ経路スコアと称され得る。
上記のアプローチは、病原性変異が、それを含む経路モジュール及び/又はそのモジュールの下流の経路の調節不全を引き起こす直接的な転写機序又は転写後機序を有するという想定に依存する。例えば、図6Jに示されるように、病原性として分類されるべきAKT内のVUSは、これらのモジュールにおいて破壊を引き起こすであろう(数字は、モジュールのそれぞれにおいてそのVUSを有する患者の例示的な調節不全スコアである)。
起源となるモジュール及びその下流の全てのモジュールの両方を考慮したグローバル調節不全スコアを、VUSの作用を分析するために計算することができる。更に、病原性変異は、起源となるモジュールに近いモジュールにおいて、遠いものよりも多くの調節不全を引き起こし得、これを、グローバル調節不全スコアを計算する際に考慮することができる。
可能性のある交絡因子
VUS分類スコアは、VUSと同じ遺伝子における他の体細胞、病原性、又はVUS変異によって交絡され得る。VUSと同じ遺伝子(他のVUSを含む)のにおいて他の病原性である可能性のある変異が存在する場合、これらにより、計算された経路調節不全を説明することができる。VUS分類スコアもまた、VUSを有する経路と連結する任意の遺伝子における病原性変異によって交絡され得る。病原性変異を有し、起源となるモジュールの下流にある任意の経路モジュールは、そのような病原性変異を有する患者がそのモデルを訓練するために使用されているため、VUSの病原性に関係なく、高い調節不全スコアを有するはずである。グローバル調節不全メタ経路スコアは、起源となるモジュールの下流のモジュールを考慮するため、これらの患者をそのまま含めることは、グローバル調節不全スコアを誤ってつり上げることになるであろう。図6Kに見られるように、TSC1モジュールは、AKTにおけるVUSの病原性に関係なく、高い調節不全スコアを有することが予測されるであろう。
その上流の別のモジュールにおいて病原性変異を有するモジュールもまた、VUSの病原性に関係なく、高い調節不全スコアを有することが予測され、ここでも、これらの患者を含めることは、グローバル調節不全スコアを誤ってつり上げることになるであろう。図6Lに示されるように、PTEN病原性変異は、AKT、TSC1等がPTENの下流であるため、それらにおいて高い調節不全スコアをもたらすであろう。
上流の別のモジュールにおける病原性変異を有する患者は、分析から除外され得る。しかしながら、一部の分類器、例えば、線形モデルを含む分類器は、経路内の他の遺伝子における変異ステータスを共変量として含めるのを許容し得ることで、サンプルサイズ及び分析力を増加させながら、メタ経路スコアに対する他の遺伝子変異作用の寄与を考慮することができる。
事前に定義された経路外の遺伝子における変異が、目的の経路に対して作用を有する場合がある。経路外の遺伝子におけるVUSを分類するために、GENEが、経路内のそれぞれのモジュールに接続されていると想定する。例えば、GENE 762は、図6Mに示されるRTK-RAS及びPI3K経路760内に含まれるそれぞれのモジュールに接続され得る。
追加のGENEと経路内のそれぞれのモジュールとの間のそれぞれの接続について、グローバル調節不全スコアは、GENEが実際に経路に接続されているように計算することができる。GENEは、経路において最も高いグローバル調節不全スコアをもたらすモジュール接続で経路に接続されていると想定することができ、そのため、VUSが公知の病原性バリアントと類似のシグナルを有するかどうかを評価することができる。
図6Nは、ホールドアウトセットでのEGFRにおける体細胞病原性変異及び野生型コホートについて、EGFR経路調節不全スコアの分布を示す。AUC閾値764が、病原性とWTとの間で患者を十分に分離するとしても、依然として、高いEGFRスコアを有するWT患者及び低いスコアを有する病原性患者が存在する。VUSが病原性であっても、それが信頼できるほど閾値よりも高くならない場合がある(又は逆も同様)。VUSを、その全ての事例を個別に確認することによって分析するのではなく、そのVUSを有する患者の経路モジュール調節不全スコアを使用して確率分布を構築し、次いで、その分布を、対応する病原性及びWT分布と比較することができる。変異が病原性である場合、その確率分布は、病原性コホート分布のようになり、経路の調節不全をもたらさない場合、WT分布のようになるであろう。
例えば、VUSは、TORモデルを使用して、図6Oに示されるスコアをもたらし得る。スコアは、図6Pに示されるように、ガウスカーネル密度推定を使用して、確率分布に変換することができる。ガウスカーネル密度推定は、それぞれのデータ点においてガウス曲線を構築し、次いで、ガウス曲線を足し合わせて、最終的な結果を得る。最終的な分布は、データ点が最も密集している点において最も高くなることに留意されたい。
ガウスKDEはまた、いくつかの望ましい平滑化特性ももたらす。例えば、確率分布を、ゼロではなく、図6Pに示される例については0.55~0.6にするが、その区間にはデータ点はない。加えて、ガウスKDEは、それぞれのデータ点について、ガウスノイズモデルをモデリングすることができ、これによりロバスト性が向上し得る。ガウスはまた、全ての確率分布の面積が1であるため、VUSのサンプルサイズの違いについても正規化することができる。
TORモジュール経路スコアにおけるこのVUSの病原性を定量化するために、カルバック-ライブラーダイバージェンスを使用して、分布を、TOR病原性分布及びTOR WT分布と比較してもよい。一般に、KLDは、2つの確率分布間の差を測定する。したがって、VUS分布が、WTよりも病原性分布に類似である場合、VUS分布と病原性との間のダイバージェンスは、VUSとWTとの間のダイバージェンスよりも小さくなるであろう。比KLDratio=
Figure 2022544604000016
を計算し、次いで、0から1の間で、DS=
Figure 2022544604000017
を使用して正規化することができる。正規化DSは、確率のように作用するいくつかの望ましい特性を有する。VUS分布が、病原性及びWTに等しく類似である場合、正規化された値は、p=0.5となり、正規化値は、「対称」、すなわち、p及び1-pの値が、それぞれ、WT及び病原性分布に対して等しい類似性を表す。
しかしながら、カルバックライブラーダイバージェンスをこのように利用することは、一方の分布が他方よりも広がっている場合、例えば、図6Qの場合には機能しない可能性がある。
上述のKLD法を使用することにより、VUS分布が病原性分布の中央に非常に類似している場合であっても、VUS分布は、病原性よりもWTに類似である(p<0.5)ことを示す。これを修正するために、VUS分布をWT及び病原性と直接的に比較するのではなく、VUS分布を、別個にWT及び病原性分布に加え、次いで、新しい分布とそれぞれのもともとの分布との間のダイバージェンスを、測定することができ、これにより、他の分布に加えた場合にVUS分布が引き起こす乱れを測定することができる。VUS分布による病原性分布の乱れが、WTの乱れよりも少ない場合(すなわち、より類似である場合)、最終的な結果(前と同様に比をとり、正規化したもの)は、0.5よりも大きい値となるであろう。この例の値は、ここで、p=0.62となる。
病原性及びWTについて参照分布を構築する際、モデルを訓練するために使用されていないデータのみを使用すべきである。訓練データを使用して参照分布を作製すると、参照分布をそれぞれの極値へと歪めることになるであろう。
それぞれの経路モデルに対するVUSの作用を試験するための一般化されたアプローチは、発現QTL研究と同様に、それぞれの個体を線形モデルに含め、それぞれの経路モジュールスコアに対するそれぞれのVUS変異の作用を試験することができる。この単一バリアントの作用は、次いで、目的とされるそれぞれの経路モジュールにわたって、メタ分析され得る。共変量を使用して、経路に対する、検出された他の病原性である可能性のある変異の作用を制御することができる。どのモジュールをメタ分析するかの選択は、公知の経路遺伝子リストを踏まえて事前に定義されてもよく、又はRNAデータから特定されてもよい(例えば、ネットワークグラフ)。
単純さのために、上述のグラフが完全に正確である、すなわち、それが経路モジュール間の全ての相互作用、かつ全ての真の相互作用のみを表すと想定する。これは、経路モジュール内のVUSは、そのモジュール、及び可能性としてその下流の経路モジュールに影響を及ぼす(それにしか影響を及ぼさない)ことを表す。例えば、AKTにおいて病原性変異が存在する場合、これは、AKT、TSC1、TSC2、RHEB、TOR、及びSTK11において調節不全を引き起こすはずである。更に、調節不全の量は、経路モジュール内でAKTに近いほど高くなるはずであり、そのため、これらの経路のそれぞれにおける調節不全は、その同じ順序で順位付けられる可能性が最も高い。
この想定に基づくと、経路に対する調節不全のグローバル作用を定量するメトリックを、計算することができる。例えば、AKTにおいてVUSが存在すると想定する。vを、VUSが存在する経路モジュールと定義し、Mを、v∪vの下流の経路モジュール、すなわち、VUSを有する経路モジュール及びその下流の全ての経路モジュールと定義する。すると、M={AKT, TSC1, TSC2, RHEB, TOR, STK11}となる。Mにおけるそれぞれの経路モジュールモデルmは、0から1で増減し、上述の節においてカルバックライブラーダイバージェンスを使用して定義された、特定の調節不全スコアDSmと関連付けられることに留意されたい。調節不全のグローバル作用を定量化するために使用することができる1つのメトリックは、Σm∈M DSmである。これは、Mにおける全てのメタ経路の調節不全スコアの合計である。
病原性変異は、vに最も近い経路モジュールに対して、遠いものよりも影響を及ぼすはずであり、いずれの他の経路モジュールよりもvに影響を及ぼすであろうという事実を考慮すると、距離関数:
d(m,v)=1+(mと、VUSを含む経路モジュールとの間の最も短い距離)が導入される。
本発明者らの例では(v=AKTの場合)、d(AKT, v)=1、d(TSC1/2, v)=2、d(RHEB, v)=3等となる。調節不全スコアをvに対する近さに応じて重み付けするためには、加重スコアTv=
Figure 2022544604000018
となる。Tvを使用して、Mにおける経路モジュールの調節不全スコアの加重合計を生成することができ、ここで、追加の経路モジュールがmから遠いほど、メトリック内でそれが持つ重みは小さくなる。ここで定義されたこの加重合計のアプローチは、経路内でそれぞれの接続に沿った移動が、等しい重みを有することを想定している。このアプローチの拡張には、経路に沿った重みを学習し、重みがそれらの実際のサイズを考慮して増減されるように、経路に沿ってモデルスコアを組み合わせる方法が含まれ得る。
Tvは、Mにおける経路モデルの数に関して正規化しない場合がある。例えば、経路は、RASに1つのVUS及びRAFに1つのVUS、の2つのVUSを有する場合がある。その場合、TRAS=
Figure 2022544604000019
となる。TRASがその合計に2つの項を有し、TRAFが、1つの項を有するという事実により、不当なことに、TRASがTRAFよりも大きくなってしまう。これを修正するために、Tvは、Tvを、とり得る最大の値(すなわち、Mにおける全てのmについて、DSm=1)で除すことによって正規化することができ、これは、値
Figure 2022544604000020
となる。
グローバル調節不全スコアを計算するために使用することができる最終メトリックは、
Gv=
Figure 2022544604000021
となる。
例:AKTにおけるVUS
考慮されているVUSが、AKT内にあり、AKT及びその下流経路が、図6Rに示される調節不全スコアを有すると想定する。そうすると、
Gv=
Figure 2022544604000022
Gv=
Figure 2022544604000023
となる。
VUSコホートの選択
任意のVUSについて、その病原性を測定するために使用されるコホートに選択される患者は、VUSシグナルを可能な限り明確にするために、2つの特徴を満たす必要がある:
1)VUSの遺伝子においていずれの他の体細胞変異も、病原性変異も、VUS変異も有さないこと、及び
2)VUSを含む問題の経路モジュールにつながる経路モジュールのいずれにおいても、いずれの病原性変異も有さないこと。
第1の特性について、患者が同じ遺伝子において別の体細胞、病原性、又はVUS変異を有する場合、下流経路モジュールにおける任意の破壊は、目的とされるVUSではなく、その変異に起因する可能性がある。
第2の特性については、経路モジュールが上述のAKTの例でのVUSにおけるものと同じスコアを有するが、TSC1が図6Sに示されるような病原性変異を有していた場合、ここでの高いTSC1スコアは、TSC1モデルがTSC1に病原性変異を有する患者について高いスコアを有するように訓練されているため、AKTにおけるVUSではなく病原性変異の存在に起因する可能性が高くなり、したがって、破壊スコアに交絡が生じる。
別の例として、図6Tに示されるように、AKTの上流、例えば、PTENに病原性変異が存在すると想定する。すると、AKTにおける調節不全及びその下流経路モジュールスコアは、AKTにおけるVUSではなくPTENにおける病原性変異に起因することが可能である。ここでも、結果に交絡が生じる。
目的とされるVUSのためのコホート内の患者は、目的とされるVUSを含む経路モジュールの上流又は下流のいずれの経路モジュールにも病原性変異を有してはならない。しかしながら、このフィルタは、依然として十分にストリンジェントではない。例えば、ERBB2におけるVUSを検討していると想定する。現在の規則を踏まえると、ERBB2の上流及び下流のメタ経路に病原性変異を有さない患者が選択されることになる。ここで、PIK3C調節不全スコアが高く、図6Uに示されるように、EGFR及びPTENにも病原性変異が存在するとする。高いPIK3Cスコアは、EGFR及びPTENにおける病原性変異によって引き起こされている可能性がある。したがって、目的とされるVUSを含む経路モジュールの下流にある任意の経路モジュールの上流にある任意の経路モジュールにおいて病原性変異を有する患者を除外することも必要である。
まとめると、ある経路内の遺伝子におけるVUSの病原性を決定する方法は、そのVUSと同じ遺伝子において他の体細胞変異も、病原性変異も、VUS変異も有さず、更に、そのVUSを含む経路モジュールの上流のいずれの経路モジュールにも、そのVUSを含む経路の下流にあるいずれの経路モジュールの上流のいずれの経路モジュールにも、病原性変異を有さない、患者セットを見出し、VUSを含む経路モジュール及びその下流を含む経路モジュールモデルのそれぞれについて、VUSコホートの確率分布を生成し、カルバック-ライブラーダイバージェンスを使用して、それぞれのモデルについて、VUSコホート分布と病原性分布との類似性及びVUSとWT分布との類似性の間の比を計算し、VUSを含むモジュール及びその下流のモジュールの加重平均をとることによりグローバル調節不全スコアGvを計算することを含み得る。
VUS病原性決定を、経路外の遺伝子まで拡張するための技法を、ここに提示する。上述の方法は、経路への接続が公知であるが、それらに関して訓練されたモデルを有さない遺伝子、例えば、図6Vに示されるRAS経路に接続しているNF1に、拡張することができる。
全遺伝子法と称され得る、訓練されたモデルを有さない遺伝子におけるVUSを分類するための方法は、訓練されたモデルを有さない遺伝子(例えば、NF1)において他の体細胞変異も、病原性変異も、VUS変異も有さず、更に、上流にも下流にも(例えば、EGFRにも、RASにも、RAFにも)病原性変異を有さない、患者を見出し、下流モジュール(例えば、RAS及びRAF)についてこのコホートの調節不全スコアを計算し、下流モジュールに関するこのコホートの調節不全スコア(例えば、RAS及びRAF調節不全スコア)を合わせることによりグローバル調節不全スコアGvを計算することを含み得る。
注目すべきことに、遺伝子が経路に接続される様式が、このプロセスのあらゆる部分にとって極めて重要である。VUSを適切に評価するために、患者が病原性変異を有してはならないメタ経路はどれかを把握すること、調節不全スコアを計算するメタ経路はどれか把握すること、及びグローバル調節不全スコアを計算するためにどのように調節不全スコアを重み付けするかを把握することを含め、いくつかのメトリックを把握している必要がある。これは、経路への接続が不明な遺伝子については、把握することが不可能である。
経路への接続が不明である遺伝子GENEにおけるVUSに関する上記の問題を解決するために、GENE(例えば、図6MにおけるGENE 762)がそれぞれの経路モジュールに直接的に接続されていると想定することによって、GENEに関する全ての可能性のあるグローバル調節不全スコアを計算することができる。
1つのイテレーションにおいて、GENEは、図6Wに示されるように、AKTに接続されていると想定する。
GENEにおけるVUSのグローバル調節不全スコアは、RASに接続されているNF1について計算したのと全く同じ方式で、計算することができる。まず、GENEにおいて他の体細胞変異も、病原性変異も、VUS変異も有さず、更に、{EGFR, ERBB2, PTEN, PIK3C, AKT, TSC1/2, RHEB, TOR, STK11}に病原性変異を有さない患者から構成されるコホートを、生成する。次に、調節不全スコアを、{AKT, TSC1/2, RHEB, TOR, STK11}について計算することができる。最後に、GENEからのそれぞれのモジュールの距離を使用して、{AKT, TSC1/2, RHEB, TOR, STK11}の調節不全スコアを重み付けすることによって、グローバル調節不全スコアを計算することができる。
別のイテレーションにおいて、GENEは、図6Xに示されるように、RASに接続されていると想定する。この場合にグローバル調節不全スコアを見出すための工程は、GENEにおいて他の体細胞変異も、病原性変異も、VUS変異も有さず、更に、{EGFR, RAS, RAF}に病原性変異を有さない患者から構成されるコホートを生成し、{RAS, RAF}の調節不全スコアを計算し、GENEからのそれらの距離を使用して、{RAS, RAF}の調節不全スコアを重み付けすることによってグローバル調節不全スコアを計算することを含み得る。
図6Yは、上述の方法を使用して生成することができる例示的なデータフレームを示す。
全遺伝子分析の結果を分析する
図6Zは、全ての遺伝子を分析した(VUSについて5を上回るコホートをフィルタリングした)後のグローバル調節不全スコアの例示的なヒストグラムを示す。潜在的な病原性である可能性が高いVUSの閾値766が、0.25の破壊スコア値において示されている。
方法の有効性を試験するために、上述の全遺伝子法を使用して、公知のNF1病原性変異について、破壊スコアを計算した。NF1がRAS経路モジュールに接続されていることを踏まえると、これらの変異をRTK_RAS経路に接続されているとして試験した場合、PI3K経路に接続されているとして試験した場合よりも高いグローバル調節不全スコアが得られると予測される。NF1における2つの変異だけが、全ての可能性のあるメタ経路について1を上回るコホートを有し、それらの結果は、それぞれ、図6AA及び6BBに示されている。
これらのNF1変異は、RTK_RASにおける経路モジュールに接続されているとして試験した場合に、PI3Kの場合よりも高いグローバル調節不全スコアをもたらし、この方法が予測したとおりに機能していることが示唆される。NF1について最も高い破壊スコアを有する試験であっても、LOFは、全遺伝子の試験を確認して得られた提示されたp=0.25カットオフよりも低くなること、及びNF1がPI3K経路に接続されている場合であっても、NF1 c.3198-2A>Gの破壊スコアの多くは、p=0.25カットオフよりも高くなることに留意することが重要である。これは、VUS分類が、変異ごとのレベル並びにグローバルレベルで行われるべきであることを示唆し得る。
図7は、訓練された経路エンジンを使用して、経路破壊スコアを生成することができる例示的なプロセス702を示す。プロセス702は、1つ又は複数のメモリ又は他の非一過性コンピュータ可読媒体上のコンピュータ可読命令として実装され得、1つ又は複数のメモリ又は媒体と通信する1つ又は複数のプロセッサによって実行され得る。一部の実施形態では、プロセス702は、メモリ222及び/又はメモリ262上のコンピュータ可読命令として実装され得、プロセッサ214及び/又はプロセッサ254によって実行され得る。
705において、プロセス702は、トランスクリプトームデータを受信し得る。トランスクリプトームデータは、1つ又は複数の1つのトランスクリプトーム値セットを含み得る。1つの例において、それぞれのトランスクリプトーム値セットは、それぞれの列が遺伝子を表し、その遺伝子と関連する正規化された発現値を含む、表形式を有するファイルであり得る。別の例において、トランスクリプトーム値セットは、それぞれの列が遺伝子を表し、その遺伝子と関連する生の発現値(例えば、次世代シーケンサー又は他の遺伝子分析装置によって検出されたリード数又はコピー)を含む、表形式を有するファイルであってもよい。トランスクリプトーム値セットは、検体及び/又は患者と関連付けられていてもよい。
トランスクリプトームは、関連するがんタイプを有し得、それによって、どの経路エンジンをトランスクリプトームの経路破壊スコアを生成するために使用するかが決定され得る。例えば、トランスクリプトームと同じがんタイプと関連付けられた1つ又は複数の経路エンジンが、選択され得る。トランスクリプトームが、関連するがんタイプを有さないか、又は関連するがんタイプが誤っている場合、トランスクリプトームのがんタイプを、例えば、トランスクリプトームと関連する組織病理学スライドを分析することによって、又は例えば2019年5月31日に出願されたSystems and Methods for Multi-label Cancer Classificationと題され参照により本明細書に組み込まれる米国特許仮出願第62/855,750号に記載されるように、トランスクリプトーム及び任意の関連するデータを分析することによって、決定することができる。関連するがんタイプを有さないか、又は正確ではない可能性がある関連するがんタイプを有するトランスクリプトームの1つの例は、起源が不明の腫瘍、転移性腫瘍、又は誤ってラベル付けされたがんサンプルと関連するトランスクリプトームである。
トランスクリプトームデータに加えて、プロセス702は、DNAバリアントデータ、メチル化データ、がんタイプ、及び/又はプロテオミクスデータを含む、補助的なデータを受信し得る。705において受信されるデータの全ては、上述のデータ入力100に含まれ得る。
708において、プロセス702は、トランスクリプトームデータを、1つ又は複数の訓練された経路エンジンに提供し得る。経路エンジンは、コンピューティングデバイス210に含まれてもよく、訓練された経路エンジンを含み得る。705で受信されたデータのタイプに基づいて、プロセス702は、トランスクリプトームデータを、任意の補助的なデータとともに、どの経路エンジンに提供するかを決定し得る。トランスクリプトームデータは、1つ又は複数の関連するがんタイプを有し得る。
プロセス702は、トランスクリプトームデータを、がんタイプと関連し得る経路と関連付けられた任意の経路エンジンに提供し得る。一部の経路エンジンは、トランスクリプトームデータのみを許容するように構成され得、一方で他の経路エンジンは、DNAバリアントデータ、メチル化データ、がんタイプ、及び/又はプロテオミクスデータを含む、補助的なデータも許容し得る。プロセス702は、トランスクリプトームデータのみを、ある特定の経路エンジンに提供し得、トランスクリプトームデータ及び補助的なデータ(例えば、DNAバリアントデータ)を他の経路エンジンに提供し得る。プロセス702は、可能な限り多くの関連する経路エンジンに該当するデータを提供し得る。訓練された経路エンジンは、同じ入力を受け入れるが、異なる訓練データセットで訓練されたエンジンを含み得る。
710において、プロセス702は、1つ又は複数の訓練された経路エンジンから、1つ又は複数の経路破壊スコアを受信し得る。それぞれの訓練された経路エンジンは、それぞれのトランスクリプトーム値セット(及び任意の補助的なデータ)について、経路破壊スコアを生成し得る。経路破壊スコアは、数値、段階的スコア出力、及び/又は定性的リードアウトであり得る。
訓練された経路エンジンは、トランスクリプトーム値のセットの各DEGについての発現レベルを、陽性対照のそのDEGについて予想される発現レベルの範囲及び陰性対照のそのDEGについて予想される発現レベルの範囲と同時に比較することによって経路破壊スコアを生成することができる。経路破壊スコアは、トランスクリプトーム値のセットが、調節不全陽性対照のトランスクリプトーム値のセットと、野生型陰性対照のトランスクリプトーム値のセットと類似している程度を反映することができる。
種々の実施形態では、システム及び方法は、経路破壊の程度を予測する段階的なスコア出力(例えば、マイナス2から2の範囲、又はゼロから1の範囲の数値)を生成する。このような実施形態では、統計的閾値を生成して、経路破壊の定性的リードアウト(例えば、破壊された若しくは破壊されていない、又は重度に破壊された、軽度に破壊された、破壊されていない、等の更なるクラス)を生成することができる。この定性的リードアウトは、経路破壊の臨床医に親切な指標(例えば、「高」、「中」、「低」)であり得る。一例では、定性的リードアウトは、段階的なスコア出力を閾値と比較することによって決定され得る。例えば、0以下の全ての段階的なスコア出力は破壊されていないとしてラベル付けされてもよく、0以上の全ての段階的なスコア出力は破壊されているとしてラベル付けされてもよい。この例では、0は選択されたカットオフ閾値になる。一例では、閾値は、上記のように、F1スコアを最大化する閾値を選択することによって選択され得る。一例では、経路エンジンは、ゼロから1までの範囲を含めた、正規化された経路破壊スコアを出力することができる。「高」経路破壊スコアは、少なくとも0.8の経路破壊スコアを含むことができ、「中」経路破壊スコアは、少なくとも0.6の経路破壊スコアを含むことができ、0.6未満の全ての経路破壊スコアは、「低」とみなすことができる。
訓練された経路エンジンは、訓練された経路エンジンに関連付けられた経路に含まれる各モジュールについてのスコアを出力することができる。訓練された経路エンジンは、経路内の各モジュールについて訓練されたモデル(例えば、訓練された線形回帰モデル)を含むことができる。各モジュールについてのスコアは、関連するモジュールにおいて調節不全を示すことができる。プロセス702は、モデルによって生成された各スコアを、上記のように定性的スコア(例えば、「高」、「中」、「低」)に等級付けすることができる。
経路破壊スコアは、検体のより多くの集団における経路破壊スコアの分析のためにデータセットに追加されてもよい。経路破壊スコアを使用して、他の生成された経路破壊スコアに関連付けられた臨床データ及び/又は治療応答データに基づいて特定の処置応答を予測する際の信頼度を決定することができる。例えば、プロセス702は、検体の群の各検体について、経路エンジンによって生成された経路破壊スコアと、検体に関連付けられた臨床データ及び/又は治療応答データとを比較することができる。経路破壊スコアは、患者の転帰/処置応答を予測するためのモデルの開発に使用され得る。
経路破壊スコアを使用して、経路についての破壊状態を予測する本明細書に開示されるシステム及び方法によって生成された経路破壊スコアと、特に病原性バリアントが検体に検出されなかった場合の検体で検出された意義不明のバリアント(VUS)との間の観察された相関に基づいてVUSを分類することができる。プロセス710は、上記の式(3)を使用してグローバル調節不全スコアを決定することを含むことができる。プロセス710は、グローバル調節不全スコアを生成するために上記の全ての遺伝子方法を実施することを含むことができる。
相関観察は、臨床的に重要であるか否かにかかわらず(すなわち、全てVUS)、患者で検出された全てのバリアントを含み得る検体に関連付けられたバリアント細胞のデータベースを利用することができる。
経路破壊スコアを使用して、本明細書に開示されるシステム及び方法によって推定される経路破壊スコアと、臨床応答データ、特に治療に対する患者又はオルガノイドの応答に関連付けられたデータとの間の観察された相関に基づいて、検体についての治療の適合をランク付けすることができる。一例では、システム及び方法は、いくつかの共変量を考慮して、最初に経路破壊スコアを処置応答と強力に相関させる。
715において、プロセス702はメタ経路描写を生成することができる。例示的なメタ経路描写は、図12Aから図12Eに示され、下記に記載される。メタ経路描写は、経路破壊スコア及び/又は補足データに基づいて色分けされ得るか、又はそうでなければ陰影を付けられ得る1つ又は複数の経路を含むことができる。
718において、プロセス702は、メタ経路描写をディスプレイ(例えば、ディスプレイ290、ディスプレイ256、及び/又はディスプレイ216)及び/又はメモリ(例えば、メモリ222及び/又はメモリ262)に出力させることができる。
720において、プロセス702は、複数の経路破壊スコア出力に基づいて任意選択のアンサンブル経路破壊スコアを生成することができる。アンサンブルモデルは、共通の経路に関連付けられ、同じ差次的発現遺伝子を受け入れるが、異なるセットの訓練データで訓練された少なくとも2つの訓練された経路エンジンから経路破壊スコア出力を受信することができる。プロセス702は、経路破壊スコア出力を任意選択のアンサンブルモデルに提供することができる。アンサンブルモデルは、加重スコアを合計することによって経路破壊スコアをアンサンブル経路スコアに変換することができ、加重は、経路破壊スコア及び臨床応答データ、がんの病期の状況、コンセンサス分子サブタイプ(CMS)分類等を含む、がんの特性に関連するデータのタイプを用いてアンサンブルモデルを訓練することによって決定される。アンサンブル経路スコアは、全体的な細胞状態及び/又はモデルを訓練するために使用される少なくとも2つの遺伝子セット間の生物学的相互作用を反映することができる。プロセス702は、アンサンブルモデルからアンサンブル経路破壊スコアを受信することができる。
アンサンブル経路破壊スコアは、検体のより多くの集団における経路破壊スコアの分析のためにデータセットに追加されてもよい。アンサンブル経路破壊スコアを使用して、例えば、検体の群の各検体について、経路エンジン200nによって生成されたアンサンブル経路破壊スコアと、検体に関連付けられた臨床データ及び/又は治療応答データとを比較することによって、システム及び方法によって生成されたアンサンブル経路破壊スコアに関連付けられた臨床データ及び/又は治療応答データに基づいて特定の処置応答を予測する際の信頼度を決定することができる。アンサンブル経路破壊スコアは、患者の転帰/処置応答を予測するためのモデルの開発に使用され得る。
アンサンブル経路破壊スコアを使用して、経路についての破壊状態を予測する本明細書に開示されるシステム及び方法によって生成されたアンサンブル経路破壊スコアと、特に病原性バリアントが検体に検出されなかった場合の検体で検出された意義不明のバリアント(VUS)との間の観察された相関に基づいてVUSを分類することができる。
相関観察は、臨床的に重要であるか否かにかかわらず(すなわち、全てVUS)、患者で検出された全てのバリアントを含み得る検体に関連付けられたバリアント細胞のデータベースを利用することができる。
725において、プロセス702は、アンサンブル経路破壊スコアをディスプレイ(例えば、ディスプレイ290、ディスプレイ256、及び/又はディスプレイ216)及び/又はメモリ(例えば、メモリ222及び/又はメモリ262)に出力させることができる。アンサンブル経路破壊スコアを使用して、本明細書に開示されるシステム及び方法によって推定される経路破壊スコアと、臨床応答データ、特に治療に対する患者又はオルガノイドの応答に関連付けられたデータとの間の観察された相関に基づいて、検体についての治療の適合をランク付けすることができる。一例では、システム及び方法は、いくつかの共変量を考慮して、最初にアンサンブル経路破壊スコアを処置応答と強力に相関させる。
730において、プロセス702は、710において受信された任意の経路破壊スコアに基づいて経路破壊レポートを生成することができる。プロセス702は、715において生成されたメタ経路描写データ及び/又は720において生成された任意のアンサンブル経路破壊スコアに更に基づいて経路破壊レポートを生成することができる。経路破壊レポートは、トランスクリプトーム値のセットに関連付けられた患者検体又はオルガノイドについて生成された経路破壊スコア及び/又はアンサンブル経路破壊スコアを含む、710及び/又は720から結果を通信することができる。一例では、レポートは、1つ若しくは複数の経路破壊スコア及び/又は経路スコアの関係を含むことができる(例えば、以下に記載される図10A~図10H、図11A~図11D、図12A~図12E、図22、図23、図24、及び図25に示される)。例えば、経路破壊スコアが-0.5及び-0.5(経路の2つの治療可能なアーム又はブランチのそれぞれについての1つのスコア)である場合、経路の各アームについてのスコアを報告することは、経路全体についての-1のアンサンブル経路スコアよりも有益であり得る。
経路レポートはまた、特に活性化又は抑制されていると報告される目的の経路を標的とする薬物に対する、元の検体におけるがん細胞の薬物感受性の尤度、及び予測される患者の生存率及び/又は無憎悪生存率を含む予後を含むことができる。経路レポートは、目的の細胞経路若しくは遺伝子セット、及び/又はメタ経路の概略図又は描写を含むことができる(図10A~図10H、図11A~図11D、及び/又は図12A~図12Eを参照のこと)。経路レポートは、特に、目的の経路及び/又は目的の経路を標的とする治療に関連する参考文献の引用を含むことができる。経路スコア及び/又はアンサンブル経路スコアの数値は、どの治療及び/又は臨床試験が、検体と適合し、経路破壊レポートに提示されるかを決定することができる。
レポートは、デジタル(例えば、PDF又はJPG等のデジタルファイルとして利用可能、又はポータル若しくはウェブサイト等のユーザーインターフェースを介してアクセス可能)であってもよいか、又はハードコピー(例えば、紙に印刷)であってもよい。
一例では、RNAシーケンシングを受ける集団における各患者の検体に関して、それらの正規化されたRNAデータ、及び該当する場合、関連経路についてのssGSEAスコアは、少なくとも1つの経路エンジンに供され、上記のように経路破壊についてのスコアが得られる。患者は、がんが、いずれかの活性化された、又は抑制された細胞経路を有するかどうかという指標をレポートで受け取ることができ、そうであれば、患者は、特定の治療又は臨床試験、特に、活性化された、又は抑制された経路に関連する組み入れ基準を有する試験と適合され得る。
一部の実施形態では、経路破壊レポートは、その経路に測定可能な変異がない場合でさえも、経路破壊スコアによって示される経路破壊を引き起こし得る経路内の遺伝子に関する情報を含み得る。例えば、図11Aは、PI3K経路の経路破壊レポートに含まれ得る経路グラフィックを示す。PI3K経路に病原性変異があることは検出されなかったが、経路エンジンによって高い経路破壊スコアが生成され(例えば、工程708及び710で)、経路破壊を示している。高い経路破壊スコア(例えば、0から1までの正規化された経路破壊スコアを出力する経路エンジンから0.85という経路破壊スコア)を引き起こす変異は不明であり得るが、経路破壊のレベルは、この経路破壊スコアによって推測され得る。この実施例では、CRTC2を標的とするように設計された治療法が適合され得る。レポートは、CRTC2遺伝子がその経路内で循環するか、CRTC2遺伝子をカラーコードするか、そうでなければCRTC2遺伝子が標的され得ることを視覚的に示すことにより、CRTC2遺伝子が標的となり得ることを示し得る。経路破壊レポートには、CRTC2遺伝子を標的とするために使用され得る1つ又は複数の治療法に関する情報又は情報へのリンク(例えば、NIGウェブページへのURLリンク)が含まれてもよい。経路破壊レポートには、治験の包含及び/又は除外基準に基づいて照合適合され得る臨床試験に関する情報又は情報へのリンクを含んでもよい。現在、臨床試験では、登録のために患者で検出されたPI3K経路の病原性DNA変異が必要になる場合があるが、経路エンジンによって生成された経路破壊スコアに基づいて、臨床試験を患者に適合させてもよいと考えられる。
特定の経路は、複数の標的化可能な遺伝子又はモジュールを有し得る。例えば、図22は、MAPK経路のサブセットを含む経路破壊レポートの例を示す。経路破壊レポートには、MAPK経路のどこで患者を処置できるかについての情報を含み得る。患者は、1つ又は複数の経路エンジンを使用してMAPK経路の経路破壊スコアが高いと判断された場合がある。プロセス702は、患者を処置するために使用され得る1つ又は複数の治療法を決定し得る。経路破壊レポートには、MAPK経路の1つ又は複数の遺伝子及び/又はモジュールを標的とするために使用され得る1つ又は複数の処置を含み得る。更に、この処置は、この経路で検出された任意の変異(例えば、この経路でのDNA変異)に基づいて、及び患者が受けた任意の治療を含む処置履歴のような患者に関する情報に基づいて、潜在的に多かれ少なかれ効果的であると(例えば、視覚的に)マークされ得る。
図22に示されるように、患者は、RASモジュールに検出可能な変異を有し得る(KRAS変異によって例示される)。特定の治療法を使用してRASモジュールを処置してもよいが、この治療は承認されない場合があり(例えば、FDAが承認)、したがって、治験中でない限り処置として使用はできない。更に、RASモジュールより上のモジュールに適用される治療法は、RASモジュールレベルで変異を処置しない場合がある。RASモジュールの下で行われる他の処置は、処置が実験的であるか、及び/又は患者が肯定的な結果なしにすでに処置を受けているので、潜在的に効果が低いか、使用可能性が低い場合がある。したがって、EGFR及びRASモジュールの潜在的な処置は、他の処置とは異なる色でマークされてもよいし、又は異なる陰影を有してもよく、さもなければ、潜在的に効果が低いか又は使用できない処置として特定され得る。プロセス702は、例えば、既知の変異を有するモジュールの下流のモジュール、この実施例ではRASモジュールに対して承認された処置を決定することによって、患者にとってより効果的であり得る1つ又は複数の処置を決定し得る。
更に、プロセス702は、既知の変異を有するモジュールの下流のモジュールに適用可能な、どの処置が同様の患者に有効であったかに基づいて、より多くの処置を決定し得る。より具体的には、プロセスは、トランスクリプトームデータ、任意の補足データ、例としては、DNAバリアントデータ、メチル化データ、がんタイプ、及び/若しくは工程705で受信したプロテオミクスデータ、並びに/又は患者のために生成された任意の経路破壊スコアを、同様の患者についてのデータと比較し得る。プロセス702は、上記のデータベース500、600、700等の1つ又は複数のデータベースから類似の患者に関するデータを受信し得る。プロセス702は、710で受信された1つ又は複数の経路破壊スコア、トランスクリプトームデータ、及び/又は工程705で受信された任意の補足データを、多くの検体からの結果のデータベースと比較し得る。
プロセス702は、患者の経路破壊スコアのどれが他の検体セットにおける経路破壊を示すと識別された閾値より上/下であるか、又はどのスコアが他の検体セットのスコアの分位数(例えば、上位5分位)におさまるかを識別することによって、生成された経路スコアに基づいて患者に最も類似する検体群を識別し得る。プロセス702は、どの検体が、次元削減アルゴリズム(例えば、均一多様体近似及び射影(UMAP)又は主成分分析(PCA))に供され、二次元デカルトグリッド上にプロットされたときに、患者とクラスターになるトランスクリプトソームデータを有するかを決定し得る。プロセス702はまた、患者に関連する補足データを検体に関連する補足データと比較し得る。プロセス702は、患者の補足データの所定の閾値内の補足データを有する検体がその患者に類似していることを決定し得る。
一部の実施形態では、プロセス702は、「患者コホートの応答、進行及び生存を予測及び分析するための方法及びプロセス(A Method and Process for Predicting and Analyzing Patient Cohort Response, Progression and Survival)」と題され、2018年12月31日に出願された米国仮特許出願第62/786,739号の方法及びシステムの一部分を含み得る。工程730で、プロセス702は、工程705で受信されたデータを、米国特許出願第62/786,739号に開示されている結果のデータベース内のデータと比較し得る。
プロセス702が患者に類似する検体を決定した後、プロセス702は、どの処置が検体において最大の正の効果を有したかを決定し、経路破壊レポートに処置を含め得る。一部の実施形態では、プロセス702は、治療応答データベース600からの情報に基づいて、どの処置が最も効果的であったかを決定し得る。
なお図7を参照すれば、735において、プロセス702は、経路破壊レポートをディスプレイ又はメモリのうちの少なくとも1つに出力させ得る。例えば、プロセス702は、経路破壊レポートを、ユーザーが見るためにディスプレイ(例えば、ディスプレイ290、ディスプレイ256、及び/又はディスプレイ216)に出力させ得る。したがって、プロセス702は、経路破壊レポートを表示させ得る。別の例として、プロセス702は、経路破壊レポートを、記憶のためにメモリ(例えば、メモリ222及び/又はメモリ262)に出力させ得る。一部の実施形態では、735で、プロセス735は、経路破壊レポートを印刷させ得る。プロセス702は、特に処置の決定及び臨床試験又は実験の設計を導くために、経路破壊レポートを医師、医療専門家、患者、製薬設計者若しくは製造業者、又はオルガノイド培養実験室に送達させ得る。
上記のこれらのシステム及び方法(例えば、システム10及び/又はプロセス502、602、630、650、660、670、750、及び/又は702)は、経路が活性化又は抑制されたより多くの患者を検出し得、それらをおそらく有益な治療法及び臨床試験に適合させ得る。上記の患者レポートジェネレーター800は、多数のプロセス502、602、630、650、660、670、750、及び/又は702を含むか、及び/又は実行させ得る。
臨床医は、DNA変異プロファイルを超えた分子的証拠に基づいて、より多くの情報に基づいた処置の選択を行うことができることにより、これらのシステム及び方法から利益を得る場合がある。患者はまた、これらのシステム及び方法によって提供される複数の直交直線の証拠に基づいて選択された治療に応答する可能性が高いという点で利益を得る場合もある。製薬会社はまた、このシステムと方法を使用して、関連する臨床試験に含めるために特定の経路破壊状態の患者を選択できることによって利益を得る場合がある。
このシステム及び方法は、洞察、合致した治療法、並びに/又は臨床及び/若しくは経路破壊レポートにおける適合された臨床試験、並びに発がん性の経路/ネットワークの文脈によって実証及び推進された臨床的に実行可能な分子証拠の基礎となる科学的根拠を提供するのに役立ち得る。経路情報は、統合されたオミック及びイメージングデータを治療及び結果に関連付けるための統計モデルの「プライア(prior)」及び/又はフィーチャー(feature)としても機能し得る。
このシステム及び方法は、経路(治療を標的とする経路を含む)の新規バイオマーカー、診断シグネチャー、及び/又は予後シグネチャーの発見を促進し得、レポートにおいて治療と適合する能力を高める。
様々な実施形態では、このシステム及び方法は、検体に由来するか、及び/又はそうでなければ検体に関連する一連の遺伝子データを受信し、一連の遺伝子データを分析して、目的の細胞経路の調節不全の尤度(経路破壊スコア)を推定する工程を含む、検体における細胞経路調節不全を検出する方法を含む。
目的の経路は、任意の遺伝子セットであり得る。遺伝子のセットは、細胞経路を表し得る。遺伝子のセットは、細胞活動中に細胞内で互いに相互作用する遺伝子産物を有し得る。目的の経路は、明確に定義された細胞経路(例えば、RAS/RTK又はPI3K経路)であってもよい。目的の経路は、TCGAでキュレートされた経路であり得る。
一連の遺伝子データの分析は、遺伝子データの少なくとも一部分を1つ又は複数の経路調節不全エンジンに提供すること、及び細胞経路における調節不全の尤度を反映する各経路調節不全エンジンからの結果を受信することを含み得る。経路調節不全エンジンは、訓練RNAデータセットを含む訓練データのセットによって訓練され得、そのそれぞれは、少なくとも1つの調節不全指標に関連付けられている。各経路調節不全エンジンは、1つの細胞経路に特異的であり得、経路調節不全エンジンを訓練するために使用される調節不全指標は、細胞経路に関連し得る。
遺伝子データは、RNAデータを含み、更にDNAデータ及びタンパク質データを含んでもよい。
検体は、ヒト患者からのがん検体又はオルガノイド(例えば、ヒトがん検体に由来するオルガノイド)であり得る。
調節不全の尤度は、数値又は定性的ラベルであり得る。この方法は、調節不全の尤度を閾値と比較して、検体の定性的ラベルを決定することを更に含み得る。
この方法は、多くの調節不全の尤度(例えば、目的の多くの細胞経路のそれぞれに1つ)を推定すること、及び調節不全の尤度を組み合わせて全体的な経路破壊スコアを計算するか、又は各経路破壊スコアを報告すること、及び場合によっては経路破壊スコア(例えば、各経路破壊スコアに関連する経路又は経路部分間の生物学的相互作用を報告することによる)の間の関係を報告することを更に含んでもよい。
この方法は、調節不全の尤度のラベル又は値を、タンパク質発現レベルと関連付けること、及び検体のタンパク質発現レベルを予測することを更に含み得る。
この方法は、遺伝子データのセットにおいて意義不明であるバリアントを検出すること、及びそのバリアントが病原性であることを調節不全の尤度に基づいて決定することを更に含み得る。
これらのシステム及び方法は、調節不全の尤度を受信し、検体が由来する患者に対して、調節不全の尤度に基づいて処置を処方する工程を含む、処置を処方する方法を含み得る。
これらのシステム及び方法は、オルガノイドの調節不全の尤度を受信する工程、及びこの調節不全の尤度に基づいて処置への曝露後にこのオルガノイドをモニタリングすることを提案する工程を含む、オルガノイドの処置応答を試験する実験を設計する方法を含み得る。
これらのシステム及び方法は、患者から検体の調節不全の尤度を受信し、その調節不全の尤度に基づいて少なくとも1つの臨床試験を適合させる工程を含む、患者を臨床試験に適合させる方法を含み得る。この方法は、適合する臨床試験のリストを患者又は患者の世話をする医療専門家に報告する工程を更に含み得る。
これらのシステム及び方法は、調節不全の尤度及び少なくとも1つの処置に対する応答の関連について臨床データを分析する工程、及び少なくとも1つの処置に対する応答の研究を、調節不全の尤度を有する複数の患者のそれぞれにおいて示唆するという工程を含む、臨床試験を設計する方法を含み得る。
これらのシステム及び方法は、一連の遺伝子データを受信し、上記のように細胞経路の調節不全を検出する医療機器を含み得る。一例では、この医療機器は、遺伝子分析システム及び/又は実験室で開発された試験を含み得る。
これらのシステム及び方法は、一連の遺伝子データを生成し、上記のように細胞経路の調節不全を検出する工程を含む、がん検体をシーケンシングする方法を含み得る。
これらのシステム及び方法は、一連の遺伝子データを受信し、上記のように細胞経路の調節不全を検出するクラウドベースの情報処理システムを含み得る。
図8A~図8Dは、RNAデータに基づいて経路破壊状態を分析するために使用され得る特定の方法の例示的なフローチャートを集合的に表示する。
図8Aは、目的のがんの円グラフを示す。一例では、特定のがんタイプを有する患者を選択し(図8A、円グラフの1つの領域)、例えば、がんゲノムアトラス(The Cancer Genome Atlas)(TCGA)コンソーシアムによって定義される発がん性シグナル伝達経路を使用して、目的の経路に関連する全ての変異データを取得する。変異データを用いて、既知の経路破壊を伴う患者(例えば、RAS/RTK経路のKRAS G12V変異、「陽性対照」とみなされる)及びこの経路の全てのメンバーの野生型(WT)である患者(「陰性対照」)のセットを規定する。図8Bは、選択したがんの種類を変異状態ごとにサブセット化する円グラフを示す。
図8Cは、Rソフトウェア環境で公的に利用可能なパッケージである、エッジRで決定し得る、群間の差次的発現遺伝子(DEG)の様々なグラフを示す。該当する場合、単一サンプル遺伝子セット富化分析(ssGSEA)経路スコアが、関連する全ての経路の全てのサンプルに対して生成される。(図8C)。
図8Dは、上記のプロセス502に従って訓練されたロジスティック回帰モデルの検証結果を示す。経路エンジン200nの相互検証は、上記のプロセス602に従って実行される。
最終的なアルファパラメータ値が決定されると、この最終的なアルファパラメータ値を使用し、全てのサンプルを用いて、最終的な経路エンジン(例えば、経路エンジン200n)を訓練し得る。
図9A及び9Bは、それぞれ図6B及び6Eに記載されるように、オプションの経路エンジン200n検証工程においてシステム及び方法を試験するために使用され得る、特定の方法の出力例を集合的に表示する。
一部の実施形態では、システム及び方法が生物学的妥当性を有すること、並びに予測性能が訓練データセットの特定の特徴に依存しないことを保証するために、経路エンジン200nを、公的に利用可能な外部TCGAデータを使用して検証する。
検証の最初の工程では、プロセス602で説明されているように、訓練データで行われたとおり、目的のがんタイプのTCGA RNA変異データを収集し、陽性及び陰性対照サンプルにサブセット化し得る。
図9Aは、外部データセットを使用した検証結果の例を示す。全てのサンプルを、訓練された経路エンジン200nにかけて、陽性対照と陰性対照の出力を比較する。訓練データと同じ方向でこれらの群に関連付けられたスコア間の有意差は、経路エンジン200nの堅牢性及び一般化可能性の証拠である(図9A)。
図9Bは、タンパク質活性化データを使用した生物学的検証結果の例を示す。転写レベルでは検出可能であるが、経路の破壊/破壊のグラウンドトゥルースは、経路のエフェクターのタンパク質の状態、すなわち、これらのタンパク質のレベル及び/又はリン酸化状態によって示されるそれらの活性化として定義され得る。例えば、RAS/RTKの活性化は、リン酸化された下流エフェクターキナーゼMEK、MAPK1、MAP2K2等のレベルによって定量され得る。経路エンジン200nの出力とタンパク質活性化の測定値との間の相関の程度は、654に記載されているように、TCGA患者について決定され、経路エンジン200nが生物学的に意味があることを示す強い相関がある(図9B)。
本明細書に記載されるように、一部の実施形態は、上記のような、遺伝子、画像、及び臨床情報等の患者情報に基づいて、医師に対して、臨床試験への適合を含む診断及び/又は処置データを作成及び提示するための方法及びシステムに関する。一部の実施形態では、医師に提供されるデータは、デジタル又はハードコピーで提示されるレポート文書の形式であってもよい。一部の実施形態では、レポートは、限定するものではないが、該当の診断及び/又は処置経路の理解しやすい様式化された視覚的描写、任意の関連する臨床試験の識別子等の情報、臨床試験又は特定の治療法若しくは治療法の組合せの施行のための適格性基準、並びに任意の特定された治療法に関連する追加情報を提供する治療法セクションを含む。
図10A~図10Iは、図7の730で生成された経路破壊レポートの例を、特にMAPK(RAS)経路について、まとめて示す。記載された実施形態の有用性の一態様は、特定の患者のがん状態に対する処置選択肢を医師に伝達する可能性に由来する。すなわち、所与のがん状態について、経路中の1つ又は複数の要素を標的とする(すなわち、その経路に生物学的効果を及ぼす)様々な効果的又は潜在的に効果的な処置(療法)があり得る。例えば、KRAS機能獲得型変異の様々な処置選択肢は、ERKモジュール(例えば、ERK阻害剤)、MEKモジュール(例えば、MEK阻害剤)、RAFモジュール(例えば、RAF阻害剤)等を標的とする。したがって、特定の変異又は病原体(診断経路に示される場合がある)の場合でも、様々な処置選択肢があり、レポートには、様々な効果的又は潜在的に有効な処置の描写が含まれ得る。
図10Aは、RAS経路において検出された病原性変異を有さないが、経路エンジン200nによって生成された高い経路破壊スコアを有する隠れた応答者について生成された経路破壊レポートの例を示す。高い経路破壊スコアを引き起こす変異は不明である場合もあるが、経路破壊のレベルは、経路破壊スコアによって推測され推論され得る。MEK又はERKを阻害する治療法は、この患者に適合させることができる。臨床試験は、その試験の包含基準及び/又は除外基準に基づいて適合することができる。現在、臨床試験では、登録のために患者で検出された病原性DNA変異が必要になる場合があるが、将来的には、経路エンジン200nによって生成された経路破壊スコアに基づいて、臨床試験を患者と適合させてもよい。一部の実施形態では、例えば、図10Iに示されるように、適格性基準がこのレポートに追加される。各処置は、その治療の有効性に関連するか、及び/又は臨床試験の場合はその試験への参加に関連する適格性基準を有し得る。適格性基準には、がんの診断(例えば、がんの種類、がんの病期、変異の種類、他の変異の有無)、患者の地理的位置、患者の年齢、他の健康状態等が含まれてもよい。適格性基準は、各処置経路及び/又は診断経路に関連する各変異若しくは病原体に関連するメタデータとして、データベースに格納され得る。限定ではなく例として、図10Bに示されるレポートの適格性基準は、以下のようになり得る。
適格性基準:
a.診断:膵臓腺癌;
b.KRASの機能獲得変異;
c.臨床試験NCT03051035は患者の報告と合致している。
d.TP53又はSMAD4以外に実行可能な変異は存在しない。
様々な実施形態では、図10Bに提供される例のように、これらの経路レポートは、膵臓腺癌、KRAS機能獲得変異、及びTP53又はSMAD4以外の他の実行可能な変異等のがんを有する患者に対して生成され得る。BRAF、MEK、及び/又はERKを標的とした治療法の臨床試験は、患者の報告と適合され得る。
図11A~図11Eは、図7の730で生成された経路破壊レポートの例を、特にPI3K経路についてまとめて示す。
図11Aは、PI3K経路において検出された病原性変異を有さないが、経路エンジン200nによって生成された高い経路破壊スコアを有する隠れた応答者について生成された経路破壊レポートの例を示す。高い経路破壊スコアを引き起こす変異は不明であり得るが、経路破壊のレベルは、経路破壊スコアによって推測され得る。この実施例では、CRTC2を標的とするように設計された治療法を適合させ得る。PD-L1阻害剤が、STK11変異を有する患者には効果が低い可能性があることを示す研究に起因して、この実施例ではPD-L1阻害剤は、禁忌となり得る。臨床試験は、その試験の包含基準及び/又は除外基準に基づいて適合され得る。現在、臨床試験では、登録のために患者で検出されたPI3K経路の病原性DNA変異が必要になる場合があるが、経路エンジン200nによって生成された経路破壊スコアに基づいて、臨床試験を患者に適合させ得ると考えられる。
図11B及び11Cにおいて、経路レポートを受信している患者は、HER2陽性であり得る (例えば、HER2状態は、FISH、IHC、又はNGSによって決定され得る)。
図11Dにおいて、患者のHER2状態は不明であり得る。
様々な実施形態では、これらの経路レポートは、乳がん及びPI3K機能獲得変異を有する患者について生成され得る。PIK3CA、AKT、及び/又はmTORを標的とした治療法の臨床試験は、患者レポートと適合され得る。
一部の実施形態では、治療セクションを任意の報告に追加してもよい。そのような情報は、例えば、経路図で提供される任意の治療情報を強化するために、又は一般に病状に関連する追加の治療情報を追加するために含まれ得る(例えば、図11Eを参照のこと)。
図12A、12B、12C、12D、12E及び12Fは、本明細書に開示されるシステム及び方法を使用した、患者のトランスクリプトームのメタ経路分析の結果をまとめて示す(実施例6を参照のこと)
図12A、12B、12C、12D、12E及び12Fはそれぞれ、細胞経路を示しており、経路内のタンパク質の群は多角形で表されている。矢印は、あるタンパク質群が別のタンパク質群によって活性化されることを示しており、「T」字型の線は、あるタンパク質が別のタンパク質によって阻害されることを示す。
経路内の各多角形は、あるクラスの遺伝子(例えば、KRAS、NRAS、及びHRASを含むRAS遺伝子)を示す。この分析では、経路エンジンが各遺伝子群に対して訓練された(プロセス502で説明されているように、それぞれが図14A~図14Fのそれぞれで多角形で表され、全ての陽性対照が、その多角形に関連する遺伝子クラス遺伝子内の遺伝子に少なくとも1つの変異を有し、及び全ての陰性対照は、経路内の全ての遺伝子に対して野生型であった。次に、訓練された各経路エンジン200を使用して、1人の患者に関連するトランスクリプトームを分析し、図7に記載されるように経路活性スコアを生成した。
多角形が青に色分けされている場合、その多角形に関連付けられた経路エンジン200は、中断がないことを示す経路活性スコアを生成した。白の場合、その多角形に関連付けられた経路エンジン200は、経路が破壊され得ることを示す中間経路破壊スコアを生成した。赤の場合、その多角形に関連付けられた経路エンジン200は、その経路が中断されたことを示す経路破壊スコアを生成した。
別の例では、多角形を色分けする代わりに、又はそれに加えて、各数値の経路破壊スコアを、各多角形の近く又は内部で画像に追加し得る。
多角形が灰色に色分けされている場合、訓練用の陽性対照トランスクリプトーム値セットが少なすぎ、経路エンジン200がその多角形用に訓練されていなかったことを意味する。一例では、経路エンジン200nを訓練するために、少なくとも30の陽性対照トランスクリプトーム値セットが望ましいであろう。
これらの実施例では、RTK/RAS-PI3K-EGFR経路が示されている。図12A、図12B、図12C、図12D、図12E及び図12Fに示されるRTK/RAS-PI3K-EGFR経路の描写は、経路破壊レポートに含まれ得、そして医師が患者に処方するための治療法を決定するのを支援し得る。一部の実施形態では、このレポートは治療の推奨を含む。
各経路には、多数のモジュールを含んでもよい。各モジュールは、経路エンジンに含まれてもよい訓練されたモデル(例えば、図6Gのプロセス670を使用して訓練された線形モデル)に関連付けられ得る。このモジュールは、モジュールでの調節不全又は非調節不全のレベルを示す色及び/又はパターンでマークされ得る。以下の例では、関連する訓練済みモデルを使用して、赤いモジュールが調節不全の兆候を示すように決定されている。青いモジュールは、関連する訓練されたモデルを使用して、非調節不全の兆候を示すと判断された。赤又は青の暗さは、そのモジュールがそれぞれどの程度調節不全又は非調節不全であるかに対応し得る。白は中立レベルの調節不全を表し得る。
図12Aに示されるように、経路エンジン200によって分析されている患者トランスクリプトームは、経路内の遺伝子のいずれにも変異が検出されていない(患者は野生型、陰性対照である)。予想通り、経路エンジン200によって生成された経路破壊スコアのいずれも、経路破壊があることを示していない。
図12Bでは、患者はKRAS変異を有し、RAF変異を有さなかったが、このシステム及び方法は、KRAS変異がRAFクラスのタンパク質において上昇した活性を引き起こすことを予測した。この実施例では、RASを標的とする承認された治療法がないため、患者はMEK又はERKを標的とする治療法と適合される。承認されたRAS標的化療法又はRAS標的化療法の臨床試験は、存在する場合は適合され得る。一例では、治療法は、規制当局、例えば、連邦医薬品局(FDA)によって承認されている(例えば、ビニメチニブ及びコビメチニブを例示的なFDA承認のMEK阻害剤として列挙している図27を参照)。一部の実施形態では、患者は推奨される治療法で処置される。
図12Cでは、患者は、PI3K経路にPIK3CA増幅及びAKT2増幅を有するが、RTK/RAS経路に明らかな破壊はない。AKT2はPI3K経路の更に下流にあるので、患者はAKTを標的とする治療法と適合し得る。
図12Dでは、患者はEGFR変異を有する。患者にRAS又はRAF変異がない場合でも、患者はRAS及びRAF活性が上昇していると予測される。したがって、この患者はEGFR標的療法に期待通りに応答しない場合があるが、MEK又はERK阻害剤で処置される場合がある。
図12Eでは、患者は病原性のKRAS変異、及び下流経路のメンバーの逆説的な活性化につながる不活性化BRAF変異を有する。MEK/ERK阻害剤を用いた治療法及び/又は臨床試験は、この患者に適合し得る。
図12Fでは、患者は、病原性EGFR変異及びEGFR増幅を有し、EGFR、RAS、及びRAFサブモジュールにおける破壊の証拠を伴う。EGFR、MEK、及びBRAFという阻害剤を組み合わせた三重療法及び/又は臨床試験が適合する場合がある。
図13は、臨床及び分子データ及びデータサイエンスリソースと、知識を製品に変換する際の薬品開発会社の専門知識との統合を示す概略図であり、このシステム及び方法を使用して創薬及び転用を加速する機会を示す。例えば、この文脈における知識は、左の列によって表される、本明細書に開示されるシステム及び方法によってインビトロで(例えば、腫瘍オルガノイド又は細胞株において)同定及び/又は試験される標的遺伝子又は変異を含み得る。例えば、知識を製品に変換する方法には、標的遺伝子産物の阻害効果について化合物をスクリーニングする工程、動物実験で薬効及び安全性を試験する工程、ヒト患者を対象に臨床試験を実施する工程、及び/又は薬の開発若しくは転用に使用される追加の方法(中央及び右の列で表される)が含まれてもよい。
例示的な実施形態
本明細書に記載されるシステム及び方法のいくつかの非限定的な例示的な実施形態が、以下に記載される。
実施形態1. 第1の実施形態では、検体において細胞経路調節不全を検出する方法であって、検体と関連するデータセット、一部の実施形態では、RNAデータを含む遺伝子データセットを受信する工程と、データセット又は遺伝子データセットを分析して、目的とされる少なくとも1つの細胞経路について、経路破壊スコアを推定する工程とを含む、方法。
実施形態2. 経路調節不全エンジンが、第1の複数の訓練RNAデータを含む訓練データセットを使用して訓練されており、第1の複数の訓練データ内のそれぞれの訓練RNAデータが、細胞経路と関連する調節不全インジケータと関連付けられている、実施形態2に記載の方法。
実施形態3. 経路破壊スコアを閾値と比較して、検体の定性的ラベルを決定する工程を更に含み、経路破壊スコアが、数値である、実施形態1に記載の方法。
実施形態4. 第1の細胞経路について、第1の経路破壊スコアを推定する工程と、第2の細胞経路について、第2の経路破壊スコアを推定する工程と、第1の経路破壊スコア及び第2の経路破壊スコアを報告する工程とを更に含む、実施形態1に記載の方法。
実施形態5. 経路内に含まれる第1のモジュールについて、第1の破壊スコアを推定する工程と、経路内に含まれる第2のモジュールについて、第2の破壊スコアを推定する工程と、第1の破壊スコア及び第2の破壊スコアを報告する工程とを更に含む、実施形態1に記載の方法。
実施形態6. 少なくとも1つの細胞経路が、RAS/RTK経路である、実施形態1に記載の方法。
実施形態7. 少なくとも1つの細胞経路が、PI3K経路である、実施形態1に記載の方法。
実施形態8. 少なくとも1つの細胞経路が、TCGAでキュレートされた経路である、実施形態1に記載の方法。
実施形態9. 遺伝子データセットが、RNAデータを含む、実施形態1に記載の方法。
実施形態10. 遺伝子データセットが、DNAデータを含む、実施形態1に記載の方法。
実施形態11. データセットが、タンパク質データを含む、実施形態1に記載の方法。
実施形態12. 検体が、ヒト患者から得られたがん検体である、実施形態1に記載の方法。
実施形態13. 検体が、オルガノイドである、実施形態1に記載の方法。
実施形態14. 検体が、ヒトがん検体に由来するオルガノイドである、実施形態1に記載の方法。
実施形態15. 少なくとも1つの経路破壊スコアを、タンパク質レベルと関連付ける工程と、検体のタンパク質レベルを予測する工程とを更に含む、実施形態1に記載の方法。
実施形態16. 遺伝子データセットにおいて、意義不明のバリアントを検出する工程と、経路破壊スコアに基づいて、そのバリアントが病原性である尤度を決定する工程とを更に含む、実施形態1に記載の方法。
実施形態17. 処置を処方する方法であって、実施形態1に記載の方法に従って、細胞経路調節不全検出の結果を受信する工程と、経路破壊スコアに基づいて、検体の起源である患者に、処置を推薦する工程とを含む、方法。
実施形態18. オルガノイドにおいて処置応答を試験するための実験を設計する方法であって、実施形態1に記載の方法に従って、細胞経路調節不全検出の結果を受信する工程であって、検体が、オルガノイドに由来する、工程と、経路破壊スコアに基づいて、処置への曝露後にオルガノイドをモニタリングすることを提案する工程とを含む、方法。
実施形態19. 患者に臨床試験を適合させる方法であって、請求項1に記載の方法に従って、細胞経路調節不全検出の結果を受信する工程と、経路破壊スコアに基づいて、少なくとも1つの臨床試験を適合させる工程とを含む、方法。
実施形態20. 適合した臨床試験のリストを、患者に報告する工程を更に含む、実施形態20に記載の方法。
実施形態21. 適合した臨床試験のリストを、患者を担当している医療従事者に報告する工程を更に含む、実施形態20に記載の方法。
実施形態22. 臨床試験を設計する方法であって、少なくとも1つの処置に対する応答及び実施形態1に従って生成された経路破壊スコアの範囲の関連性について臨床データを分析する工程と、範囲内の経路破壊スコアを有する複数の患者のそれぞれにおいて、少なくとも1つの処置に対する応答の研究を提案する工程とを含む、方法。
実施形態23. 遺伝子データセットを受信し、実施形態1に記載の方法に従って細胞経路調節不全を検出する、医療用デバイス。
実施形態24. 遺伝子分析装置システムである、実施形態24に記載の医療用デバイス。
実施形態25. 研究室で開発された試験である、実施形態24に記載の医療用デバイス。
実施形態26. がん検体をシーケンシングする方法であって、遺伝子データセットを生成する工程と、実施形態1に記載の方法に従って、細胞経路調節不全を検出する工程とを含む、方法。
実施形態27. 遺伝子データセットを受信し、実施形態1に記載の方法に従って細胞経路調節不全を検出する、クラウドに基づく情報処理システム。
実施形態28. 遺伝子データセットを受信し、実施形態1に記載の方法に従って細胞経路調節不全を検出する、クラウドに基づく情報処理システム。
実施形態29. デジタル及び研究室での健康管理プラットフォームとともに実行される、実施形態1に記載の方法。
実施形態30. バイオインフォマティクスパイプラインの処理の完了後に実行される、実施形態1に記載の方法。
実施形態31. 1つ又は複数のマイクロサービスにおいて実行される、実施形態1に記載の方法。
実施形態32. バイオインフォマティクスエンジンのサブサービスとして、1つ又は複数のマイクロサービスにおいて実行される、実施形態1に記載の方法。
実施形態33. バリアント特徴付けエンジンのサブサービスとして、1つ又は複数のマイクロサービスにおいて実行される、実施形態1に記載の方法。
実施形態34. 方法の結果を、バリアントコーリングエンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態35. 方法の結果を、洞察エンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態36. 方法の結果を、起源不明の腫瘍エンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態37. 方法の結果を、PD-L1ステータスエンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態38. 方法の結果を、相同組換え欠損エンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態39. 方法の結果を、細胞経路破壊レポートエンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態40. 方法の結果を、ヒト白血球抗原(HLA)ホモ接合性喪失(LOH)エンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態41. 方法の結果を、腫瘍変異量エンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態42. 方法の結果を、マイクロサテライト不安定性エンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態43. 方法の結果を、免疫浸潤エンジンに送信する工程を更に含む、実施形態1に記載の方法。
実施形態44. 検体について細胞経路における調節不全を検出するための方法であって、検体と関連する遺伝子データを受信する工程であって、遺伝子データがトランスクリプトームデータを含む、工程と、トランスクリプトームデータの一部分を、少なくとも1つの訓練された経路破壊エンジンに提供する工程と、少なくとも1つの訓練された経路破壊エンジンから、細胞経路における細胞経路調節不全を示す少なくとも1つの経路破壊スコアを受信する工程と、少なくとも1つの経路破壊スコアに基づいて、経路破壊レポートを生成する工程と、経路破壊レポートを、ディスプレイ又はメモリのうちの少なくとも1つに出力させる工程と、を含む、方法。
実施形態45. 少なくとも1つの訓練された破壊エンジンが、トランスクリプトームデータに基づいてモデルスコアを出力するように構成されるモデルを含み、少なくとも1つの訓練された破壊エンジンが、モデルスコア及び所定の閾値に基づいて少なくとも1つの経路スコアを決定するように構成される、実施形態44に記載の方法。
実施形態46. 閾値が、モデルを使用して調節不全訓練データに基づいて生成された第1の確率分布及びモデルを使用して非調節不全訓練データに基づいて生成された第2の確率分布に基づいて計算される曲線下面積に基づいて決定される、実施形態45に記載の方法、
実施形態47. 所定の閾値を下回るモデルスコアが、非調節不全を示し、所定の閾値を上回るモデルスコアが、調節不全を示す、実施形態45に記載の方法。
実施形態48. 少なくとも1つの訓練された経路破壊エンジンが、いくつかの訓練されたモデルを含み、訓練されたモデルのそれぞれが、細胞経路内に含まれる異なる遺伝子モジュールと関連するモデルスコアを出力するように構成される、実施形態44に記載の方法。
実施形態49. 訓練されたモデルのそれぞれが、線形回帰モデルである、実施形態48に記載の方法。
実施形態50. 訓練されたモデルのそれぞれによって出力されるモデルスコアに基づいて、グローバル調節不全スコアを計算する工程を更に含む、実施形態48に記載の方法。
実施形態51. 意義不明のバリアント(VUS)を含むモジュールと関連する破壊スコア及びVUSを含むモジュールの下流の少なくとも1つのモジュールと関連する少なくとも1つの破壊スコアの加重平均に基づいて、グローバル調節不全スコアを計算する工程を更に含む、実施形態44に記載の方法。
実施形態52. 経路内のモジュールと関連する陽性ラベルサンプルと陰性ラベルサンプルとの間でいくつかの差次的メトリックを計算する工程であって、それぞれの差次的メトリックが、トランスクリプトームデータに含まれる遺伝子と関連している、工程と、トランスクリプトームデータに含まれるそれぞれの遺伝子について、差次的メトリック及び所定の閾値に基づいて、差次的に発現される遺伝子セットを決定する工程であって、少なくとも1つの訓練された経路破壊エンジンに提供されるトランスクリプトームデータの一部分が、差次的に発現される遺伝子と関連している、工程とを更に含む、実施形態44に記載の方法。
実施形態53. 少なくとも1つの訓練された経路破壊エンジンに提供されるトランスクリプトームデータの一部分が、差次的に発現される遺伝子の遺伝子発現レベルのみを含む、実施形態52に記載の方法。
実施形態54. 差次的メトリックが、ベンジャミン-ホッホバーグ偽発見率を含む、実施形態52に記載の方法。
実施形態55. 少なくとも1つの訓練された経路破壊エンジンが、経路内のモジュールと関連付けられかつトランスクリプトームデータの一部分を受信し、モデルスコアを出力するように構成されるモデルを含み、少なくとも1つの経路エンジンが、モデルスコアが閾値を上回るかどうかを決定し、モデルスコアが閾値を上回るという決定に応じて、モジュールが破壊されているという指標を出力するように構成される、実施形態44に記載の方法。
実施形態56. 閾値が、モデルを使用して生成された調節不全患者の確率分布及びモデルを使用して生成された非調節不全患者の確率分布に基づいて計算される曲線下面積に基づいて、事前に決定される、実施形態55に記載の方法。
実施形態57. 少なくとも1つの訓練された経路破壊エンジンが、経路内のモジュールと関連付けられたモデルを含み、モジュールが、遺伝子群を含み、モジュールが、トランスクリプトームデータの一部分を受信し、モデルスコアを出力するように構成され、モジュールが、遺伝子群内に含まれる少なくとも1つの遺伝子と関連するトランスクリプトームデータを受信するように構成される、実施形態44に記載の方法。
実施形態58. 少なくとも1つの訓練された経路破壊エンジンに、DNAデータ又はタンパク質データのうちの少なくとも1つを提供する工程を更に含み、少なくとも1つの経路破壊スコアが、DNAデータ又はタンパク質データのうちの少なくとも1つに基づいて生成される、実施形態44に記載の方法。
実施形態59. 経路破壊レポートが、少なくとも1つの経路破壊スコアと関連する情報を含み、情報が、原因となる可能性のある変異、意義不明のバリアント、細胞経路内に含まれる経路モジュールについて推奨される治療法、又は参考医療文献のうちの少なくとも1つを含む、実施形態44に記載の方法。
実施形態60. 推奨される治療法が、順位付け様式で提示される、実施形態59に記載の方法。
実施形態61. 少なくとも1つの経路破壊スコアを、少なくとも1つの閾値と比較して、検体の定性的ラベルを決定する工程を更に含み、経路破壊スコアが、数値である、実施形態44に記載の方法。
実施形態62. 第1の細胞経路について、第1の経路破壊スコアを推定する工程と、第2の細胞経路について、第2の経路破壊スコアを推定する工程と、第1の経路破壊スコア及び第2の経路破壊スコアを報告する工程とを更に含む、実施形態44に記載の方法。
実施形態63. 経路内に含まれる第1のモジュールについて、第1の破壊スコアを推定する工程と、経路内に含まれる第2のモジュールについて、第2の破壊スコアを推定する工程と、第1の破壊スコア及び第2の破壊スコアを報告する工程とを更に含む、実施形態44に記載の方法。
実施形態64. 細胞経路が、RAS/RTK経路である、実施形態44に記載の方法。
実施形態65. 細胞経路が、PI3K経路である、実施形態44に記載の方法。
実施形態66. 細胞経路が、TCGAでキュレートされた経路である、実施形態44に記載の方法。
実施形態67. トランスクリプトームデータが、RNA発現レベルデータを含む、実施形態44に記載の方法。
実施形態68. 遺伝子データが、DNAデータを更に含む、実施形態44に記載の方法
実施形態69. 遺伝子データが、タンパク質データを更に含む、実施形態44に記載の方法。
実施形態70. 検体が、ヒト患者から得られたがん検体である、実施形態44に記載の方法。
実施形態71. 検体が、オルガノイドである、実施形態44に記載の方法。
実施形態72. 検体が、ヒトがん検体に由来するオルガノイドである、実施形態44に記載の方法。
実施形態73. 少なくとも1つの経路破壊スコアを、タンパク質レベルと関連付ける工程と、検体のタンパク質レベルを予測する工程とを更に含む、実施形態44に記載の方法。
実施形態74. 遺伝子データセットにおいて、意義不明のバリアントを検出する工程と、経路破壊スコアに基づいて、そのバリアントが病原性である尤度を決定する工程とを更に含む、実施形態44に記載の方法。
実施形態75. 経路破壊レポートを受信する工程と、経路破壊スコアに基づいて、検体と関連する患者の処置を決定する工程とを更に含む、実施形態44に記載の方法。
実施形態76. 検体が、オルガノイドに由来し、経路破壊レポートを受信する工程と、経路破壊スコアに基づいて、処置への曝露後にオルガノイドをモニタリングする提案を出力する工程とを更に含む、実施形態44に記載の方法。
実施形態77. 経路破壊レポートを受信する工程と、経路破壊スコアに基づいて、検体と関連する患者に、少なくとも1つの臨床試験を適合させる工程とを更に含む、実施形態44に記載の方法。
実施形態78. 適合した臨床試験のリストを、患者に報告する工程を更に含む、実施形態77に記載の方法。
実施形態79. 適合した臨床試験のリストを、患者を担当している医療従事者に報告する工程を更に含む、実施形態77に記載の方法。
実施形態80. 少なくとも1つの処置に対する応答及び少なくとも1つの経路破壊スコアの関連性について臨床データを分析する工程と、範囲内の経路破壊スコアを有する複数の患者のそれぞれにおいて、少なくとも1つの処置に対する応答の研究を提案する工程とを更に含む、実施形態44に記載の方法。
実施形態81. 請求項44に記載の方法を実行するように構成される、医療用デバイス。
実施形態82. 遺伝子分析装置システムである、実施形態81に記載の医療用デバイス。
実施形態83. 研究室で開発された試験である、実施形態81に記載の医療用デバイス。
実施形態84. 遺伝子データを生成する工程を更に含む、実施形態44に記載の方法。
実施形態85. 実施形態44に記載の方法を実行するように構成される、クラウドに基づく情報処理システム。
実施形態86. デジタル及び研究室での健康管理プラットフォームとともに実行される、実施形態44に記載の方法。
実施形態87. バイオインフォマティクスパイプラインの処理の完了後に実行される、実施形態44に記載の方法。
実施形態88. 1つ又は複数のマイクロサービスにおいて実行される、実施形態44に記載の方法。
実施形態89. バイオインフォマティクスエンジンのサブサービスとして、1つ又は複数のマイクロサービスにおいて実行される、実施形態44に記載の方法。
実施形態90. バリアント特徴付けエンジンのサブサービスとして、1つ又は複数のマイクロサービスにおいて実行される、実施形態44に記載の方法。
実施形態91. 方法の結果を、バリアントコーリングエンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態92. 方法の結果を、洞察エンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態93. 方法の結果を、起源不明の腫瘍エンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態94. 方法の結果を、PD-L1ステータスエンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態95. 方法の結果を、相同組換え欠損エンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態96. 方法の結果を、細胞経路破壊レポートエンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態97. 方法の結果を、ヒト白血球抗原(HLA)ホモ接合性喪失(LOH)エンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態98. 方法の結果を、腫瘍変異量エンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態99. 方法の結果を、マイクロサテライト不安定性エンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態100. 方法の結果を、免疫浸潤エンジンに送信する工程を更に含む、実施形態44に記載の方法。
実施形態101. 複数のモジュールを含む経路における調節不全を検出するための方法であって、組織検体と関連するトランスクリプトームデータを受信する工程と、トランスクリプトームデータの第1の部分を、経路内に含まれる第1のモジュールと関連付けられた訓練されたモデルを含む第1の訓練された経路破壊エンジンに提供する工程と、第1の訓練された経路破壊エンジンから、第1の経路調節不全スコアを受信する工程と、トランスクリプトームデータの第2の部分を、経路内に含まれる第2のモジュールと関連付けられた訓練されたモデルを含む第2の訓練された経路破壊エンジンに提供する工程と、第2の訓練された経路破壊エンジンから、第2の経路調節不全スコアを受信する工程と、経路、第1の経路調節不全スコア、及び第2の経路調節不全スコアに基づいて、メタ経路描写を生成する工程と、メタ経路描写を、医療従事者に提示させる工程とを含む、方法。
実施形態102. 少なくとも1つのプロセッサ及び少なくとも1つのメモリを含む、細胞経路調節不全分析システムであって、検体と関連するデータ、一部の実施形態では、トランスクリプトームデータを含む遺伝子データのセットを受信し、データセット又はトランスクリプトームデータの一部分を、少なくとも1つの訓練された経路破壊エンジンに提供し、少なくとも1つの訓練された経路破壊エンジンから、細胞経路における細胞経路調節不全を示す少なくとも1つの経路破壊スコアを受信し、少なくとも1つの経路破壊スコアに基づいて、経路破壊レポートを生成し、経路破壊レポートを、ディスプレイ又はメモリのうちの少なくとも1つに出力させるように構成される、システム。
実施形態103. 少なくとも1つの訓練された破壊エンジンが、トランスクリプトームデータに基づいてモデルスコアを出力するように構成されるモデルを含み、少なくとも1つの訓練された破壊エンジンが、モデルスコア及び所定の閾値に基づいて少なくとも1つの経路スコアを決定するように構成される、実施形態102に記載のシステム。
実施形態104. 閾値が、モデルを使用して調節不全訓練データに基づいて生成された第1の確率分布及びモデルを使用して非調節不全訓練データに基づいて生成された第2の確率分布に基づいて計算される曲線下面積に基づいて決定される、実施形態103に記載のシステム。
実施形態105. 所定の閾値を下回るモデルスコアが、非調節不全を示し、所定の閾値を上回るモデルスコアが、調節不全を示す、実施形態103に記載のシステム。
実施形態106. 少なくとも1つの訓練された経路破壊エンジンが、いくつかの訓練されたモデルを含み、訓練されたモデルのそれぞれが、細胞経路内に含まれる異なる遺伝子モジュールと関連するモデルスコアを出力するように構成される、実施形態102に記載のシステム。
実施形態107. 訓練されたモデルのそれぞれが、線形回帰モデルである、実施形態106に記載のシステム。
実施形態108. 更に、訓練されたモデルのそれぞれによって出力されるモデルスコアに基づいて、グローバル調節不全スコアを計算するように構成される、実施形態106に記載のシステム。
実施形態109. 更に、VUSを含むモジュールと関連する破壊スコア及びVUSを含むモジュールの下流の少なくとも1つのモジュールと関連する少なくとも1つの破壊スコアの加重平均に基づいて、グローバル調節不全スコアを計算するように構成される、実施形態102に記載のシステム。
実施形態110. 更に、経路内のモジュールと関連する陽性ラベルサンプルと陰性ラベルサンプルとの間でいくつかの差次的メトリックを計算し、それぞれの差次的メトリックが、トランスクリプトームデータに含まれる遺伝子と関連しており、トランスクリプトームデータに含まれるそれぞれの遺伝子について、差次的メトリック及び所定の閾値に基づいて、差次的に発現される遺伝子セットを決定し、少なくとも1つの訓練された経路破壊エンジンに提供されるトランスクリプトームデータの一部分が、差次的に発現される遺伝子と関連しているように構成される、実施形態102に記載のシステム。
実施形態111. 少なくとも1つの訓練された経路破壊エンジンに提供されるトランスクリプトームデータの一部分が、差次的に発現される遺伝子の遺伝子発現レベルのみを含む、実施形態110に記載のシステム。
実施形態112. 差次的メトリックが、ベンジャミン-ホッホバーグ偽発見率を含む、実施形態110に記載のシステム。
実施形態113. 少なくとも1つの訓練された経路破壊エンジンが、経路内のモジュールと関連付けられかつトランスクリプトームデータの一部分を受信し、モデルスコアを出力するように構成されるモデルを含み、少なくとも1つの経路エンジンが、モデルスコアが閾値を上回るかどうかを決定し、モデルスコアが閾値を上回るという決定に応じて、モジュールが破壊されているという指標を出力するように構成される、実施形態102に記載のシステム。
実施形態114. 閾値が、モデルを使用して生成された調節不全患者の確率分布及びモデルを使用して生成された非調節不全患者の確率分布に基づいて計算される曲線下面積に基づいて、事前に決定される、実施形態113に記載のシステム。
実施形態115. 少なくとも1つの訓練された経路破壊エンジンが、経路内のモジュールと関連付けられたモデルを含み、モジュールが、遺伝子群を含み、モジュールが、トランスクリプトームデータの一部分を受信し、モデルスコアを出力するように構成され、モジュールが、遺伝子群内に含まれる少なくとも1つの遺伝子と関連するトランスクリプトームデータを受信するように構成される、実施形態102に記載のシステム。
実施形態116. 更に、少なくとも1つの訓練された経路破壊エンジンに、DNAデータ又はタンパク質データのうちの少なくとも1つを提供するように構成され、少なくとも1つの経路破壊スコアが、DNAデータ又はタンパク質データのうちの少なくとも1つに基づいて生成される、実施形態102に記載のシステム。
実施形態117. 更に、少なくとも1つの経路破壊スコアを、少なくとも1つの閾値と比較して、検体の定性的ラベルを決定するように構成され、経路破壊スコアが、数値である、実施形態102に記載のシステム。
実施形態118. 更に、第1の細胞経路について、第1の経路破壊スコアを推定し、第2の細胞経路について、第2の経路破壊スコアを推定し、第1の経路破壊スコア及び第2の経路破壊スコアを報告するように構成される、実施形態102に記載のシステム。
実施形態119. 更に、経路内に含まれる第1のモジュールについて、第1の破壊スコアを推定し、経路内に含まれる第2のモジュールについて、第2の破壊スコアを推定し、第1の破壊スコア及び第2の破壊スコアを報告するように構成される、実施形態102に記載のシステム。
実施形態120. 細胞経路が、RAS/RTK経路である、実施形態102に記載のシステム。
実施形態121. 細胞経路が、PI3K経路である、実施形態102に記載のシステム。
実施形態122. 細胞経路が、TCGAでキュレートされた経路である、実施形態102に記載のシステム。
実施形態123. トランスクリプトームデータが、RNAデータを含む、実施形態102に記載のシステム。
実施形態124. 遺伝子データが、DNAデータを更に含む、実施形態102に記載のシステム。
実施形態125. データセットが、タンパク質データを更に含む、実施形態102に記載のシステム。
実施形態126. 検体が、ヒト患者から得られたがん検体である、実施形態102に記載のシステム。
実施形態127. 検体が、オルガノイドである、実施形態102に記載のシステム。
実施形態128. 検体が、ヒトがん検体に由来するオルガノイドである、実施形態102に記載のシステム。
実施形態129. 更に、少なくとも1つの経路破壊スコアを、タンパク質レベルと関連付け、検体のタンパク質レベルを予測するように構成される、実施形態102に記載のシステム。
実施形態130. 更に、遺伝子データセットにおいて、意義不明のバリアントを検出し、経路破壊スコアに基づいて、そのバリアントが病原性である尤度を決定するように構成される、実施形態102に記載のシステム。
実施形態131. 更に、経路破壊レポートを受信し、経路破壊スコアに基づいて、検体と関連する患者の処置を決定するように構成される、実施形態102に記載のシステム。
実施形態132. 検体が、オルガノイドに由来し、システムが、更に、経路破壊レポートを受信し、経路破壊スコアに基づいて、処置への曝露後にオルガノイドをモニタリングする提案を出力するように構成される、実施形態102に記載のシステム。
実施形態133. 更に、経路破壊レポートを受信し、経路破壊スコアに基づいて、検体と関連する患者に、少なくとも1つの臨床試験を適合させるように構成される、実施形態102に記載のシステム。
実施形態134. 更に、適合した臨床試験のリストを、患者に報告するように構成される、実施形態102に記載のシステム。
実施形態135. 更に、適合した臨床試験のリストを、患者を担当している医療従事者に報告するように構成される、実施形態102に記載のシステム。
実施形態136. 更に、少なくとも1つの処置に対する応答及び少なくとも1つの経路破壊スコアの関連性について臨床データを分析し、範囲内の経路破壊スコアを有する複数の患者のそれぞれにおいて、少なくとも1つの処置に対する応答の研究を提案するように構成される、実施形態102に記載のシステム。
実施形態137. 遺伝子分析装置サブシステムを含む、実施形態102に記載のシステム。
実施形態138. 更に、遺伝子データを生成するように構成される、実施形態102に記載のシステム。
実施形態139. クラウドに基づくコンピューティングシステムによって実装される、実施形態102に記載のシステム。
実施形態140. 更に、1つ又は複数のマイクロサービスを実行するように構成される、実施形態102に記載のシステム。
実施形態141. 更に、経路破壊レポートを、バリアントコーリングエンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態142. 更に、経路破壊レポートを、洞察エンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態143. 更に、経路破壊レポートを、起源不明の腫瘍エンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態144. 更に、経路破壊レポートを、PD-L1ステータスエンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態145. 更に、経路破壊レポートを、相同組換え欠損エンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態146. 更に、経路破壊レポートを、細胞経路破壊レポートエンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態147. 更に、経路破壊レポートを、ヒト白血球抗原ホモ接合性喪失エンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態148. 更に、経路破壊レポートを、腫瘍変異量エンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態149. 更に、経路破壊レポートを、マイクロサテライト不安定性エンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態150. 更に、経路破壊レポートを、免疫浸潤エンジンに送信するように構成される、実施形態102に記載のシステム。
実施形態151. 経路破壊レポートが、少なくとも1つの経路破壊スコアと関連する情報を含み、情報が、原因となる可能性のある変異、意義不明のバリアント、細胞経路内に含まれる経路モジュールについて推奨される治療法、又は参考医療文献のうちの少なくとも1つを含む、実施形態102に記載のシステム。
実施形態152. 推奨される治療法が、順位付け様式で提示される、実施形態151に記載のシステム。
実施形態153. 患者を処置する工程を更に含む、実施形態18に記載の方法。
実施形態154. 患者を処置する工程を更に含む、実施形態75に記載の方法。
実施形態155. がんの部位から取得された生検を受け取る工程と、生検から取り出された核酸サンプルをシーケンシングして、核酸サンプルの配列情報を得る工程と、配列情報から、変異又は病原体を特定する工程と、変異又は病原体と関連する1つ又は複数の経路を決定する工程と、シーケンシングレポートへの包含について、1つ又は複数の経路のうちの少なくとも1つを選択する工程と、シーケンシングレポートにおいて、包含について選択された1つ又は複数の経路の様式化された視覚的描写を表示する工程とを含む、方法。
実施形態156. 包含について選択された経路のそれぞれの様式化された視覚的描写が、経路における方向に沿った一連のエレメントを含む、実施形態155に記載の方法。
実施形態157. 包含について選択された経路のそれぞれの様式化された視覚的描写が、変異又は病原体を表す強調されたエレメントを含む、実施形態155又は156に記載の方法。
実施形態158. 包含について選択された経路のうちの少なくとも1つの様式化された視覚的描写が、経路に対して生物学的作用を発揮する治療法を含む、実施形態155~158のいずれか1つに記載の方法。
実施形態159. 経路のうちの少なくとも1つに対して生物学的作用を発揮する治療法が、変異と関連して描写される、実施形態4に記載の方法。
実施形態160. 経路のうちの少なくとも1つの様式化された視覚的描写が、変異又は病原体ががんを引き起こす機序を描写する診断情報を提示する、実施形態155~159のいずれか1つに記載の方法。
実施形態161. 変異又は病原体と関連する1つ又は複数の経路のそれぞれについて、経路に対して生物学的作用を発揮する治療法が利用可能であるかどうか決定する工程を更に含み、シーケンシングレポートへの包含について、1つ又は複数の経路のうちの少なくとも1つを選択する工程が、1つ又は複数の経路のそれぞれについて、経路に対して生物学的作用を発揮する治療法が利用可能である場合にはその経路を選択し、経路に対して生物学的作用を発揮する治療法が利用可能でない場合にはシーケンシングレポートへの包含についてその経路を選択解除することを含む、実施形態155~160のいずれか1つに記載の方法。
実施形態162. 変異又は病原体と関連する1つ又は複数の経路のそれぞれについて、経路に対して生物学的作用を発揮する治療法が利用可能であるかどうか決定する工程と、それぞれの利用可能な治療法について、適格性基準セットを決定する工程とを更に含み、シーケンシングレポートへの包含について、1つ又は複数の経路のうちの少なくとも1つを選択する工程が、1つ又は複数の経路のそれぞれについて、(i)(a)経路に対して生物学的作用を発揮する治療法が利用可能であり、(b)生検を採取した患者が基準を満たしている場合には、その経路を選択し、(ii)(a)経路に対して生物学的作用を発揮する治療法が利用可能でないか、又は(b)生検を採取した患者が治療法の適格性基準を満たしていない場合には、シーケンシングレポートへの包含について、その経路を選択解除することを含む、実施形態155~160のいずれか1つに記載の方法。
実施形態163. 変異と関連する1つ又は複数の経路を決定する工程が、複数の経路を決定することを含み、更に、シーケンシングレポートへの包含について、1つ又は複数の経路のうちの少なくとも1つを選択する工程が、シーケンシングレポートへの包含について、複数の経路を選択することを含む、実施形態155~160のいずれか1つに記載の方法。
実施形態164. 変異又は病原体と関連する1つ又は複数の経路を決定する工程が、経路-変異又は経路-病原体の関連性を記憶しているデータベースに問い合わせることを含む、実施形態155~163のいずれか1つに記載の方法。
実施形態165. 核酸サンプルをシーケンシングする工程が、ショートリードNGSを実行することを含む、実施形態155~164のいずれか1つに記載の方法。
実施形態166. 核酸サンプルをシーケンシングする工程が、ロングリードNGSを実行することを含む、実施形態155~165のいずれか1つに記載の方法。
実施形態167. 核酸サンプルをシーケンシングする工程が、サンガーシーケンシングを実行することを含む、実施形態155~164のいずれか1つに記載の方法。
実施形態168. 配列情報から、核酸サンプルに存在する変異を特定する工程が、核酸サンプルに存在するコピー数バリアントを特定することを含む、実施形態155~167のいずれか1つに記載の方法。
実施形態169. 配列情報から、核酸サンプルに存在する変異を特定する工程が、核酸サンプルに存在する単一ヌクレオチドバリアントを特定することを含む、実施形態155~168のいずれか1つに記載の方法。
実施形態170. 配列情報から、核酸サンプルに存在する変異を特定する工程が、核酸サンプルに存在するインデルを特定することを含む、実施形態15~169のいずれか1つに記載の方法。
実施形態171. 核酸サンプルをシーケンシングする工程が、RNAサンプルをシーケンシングすることを含む、実施形態155~170のいずれか1つに記載の方法。
実施形態172. 核酸サンプルをシーケンシングする工程が、DNAサンプルをシーケンシングすることを含む、実施形態155~170のいずれか1つに記載の方法。
実施形態173. 様式化された視覚的描写が、治療法の指標を含み、治療法が、特定された変異の下流の治療標的エレメントと関連している、実施形態155~172のいずれか1つに記載の方法。
実施形態174. 治療法の指標が、治療標的エレメントと関連して図で描写される、実施形態173に記載の方法。
実施形態175. 治療法が、臨床試験と関連している、実施形態173又は実施形態174のいずれかに記載の方法。
実施形態176. 治療法が、承認されている治療剤の適応外の使用を含む、実施形態173~175のいずれか1つに記載の方法。
実施形態177. 治療法が、承認されている治療剤の使用を含む、実施形態173~175のいずれか1つに記載の方法。
実施形態178. 治療法が、経路のシグナル伝達を阻害する、実施形態173~177のいずれか1つに記載の方法。
実施形態179. 治療法が、免疫療法を含む、実施形態173~178のいずれか1つに記載の方法。
実施形態180. 様式化された視覚的描写が、非治療法の指標を含み、非治療法が、特定された変異の上流の対応する治療標的エレメントと関連している、実施形態155~179のいずれか1つに記載の方法。
実施形態181. 非治療法の指標が、対応する治療標的エレメントと関連して図で描写され、図による描写が、治療法を使用すべきでないことを示す、実施形態180に記載の方法。
実施形態182. 1つ又は複数の経路が、Ras/Raf/MAPK経路の全て又は一部を含む、実施形態155~181のいずれか1つに記載の方法。
実施形態183. 1つ又は複数の経路が、PI3K/AKT/mTOR経路の全て又は一部を含む、実施形態155~181のいずれか1つに記載の方法。
実施形態184. 1つ又は複数の経路が、Wnt経路の全て又は一部を含む、実施形態155~181のいずれか1つに記載の方法。
実施形態185. 1つ又は複数の経路が、JAK/STAT経路の全て又は一部を含む、実施形態155~181のいずれか1つに記載の方法。
実施形態186. 1つ又は複数の経路が、Notch経路の全て又は一部を含む、実施形態155~181のいずれか1つに記載の方法。
実施形態187. 1つ又は複数の経路が、Hedgehog経路の全て又は一部を含む、実施形態155~181のいずれか1つに記載の方法。
実施形態188. 変異が、KRAS変異である、実施形態155~183のいずれか1つに記載の方法。
実施形態189. 変異が、PIK3CA変異である、実施形態155~183のいずれか1つに記載の方法。
実施形態190. 変異が、BRAF変異である、実施形態155~183のいずれか1つに記載の方法。
実施形態191. 変異が、MEK変異である、実施形態155~183のいずれか1つに記載の方法。
実施形態192. 変異が、ERK変異である、実施形態155~183のいずれか1つに記載の方法。
実施形態193. 包含について選択された1つ又は複数の経路のうちの少なくとも1つと関連する治療法の適格性基準を表示する工程を更に含む、実施形態155~192のいずれか1つに記載の方法。
実施形態194. がんの部位から取得された生検を受け取る工程が、膵臓腫瘍の生検を受け取ることを含み、1つ又は複数の経路が、膵臓がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態195. がんの部位から取得された生検を受け取る工程が、肺腫瘍の生検を受け取ることを含み、1つ又は複数の経路が、肺がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態196. がんの部位から取得された生検を受け取る工程が、脳腫瘍の生検を受け取ることを含み、1つ又は複数の経路が、脳がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態197. がんの部位から取得された生検を受け取る工程が、骨腫瘍の生検を受け取ることを含み、1つ又は複数の経路が、骨がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態198. がんの部位から取得された生検を受け取る工程が、皮膚腫瘍の生検を受け取ることを含み、1つ又は複数の経路が、皮膚がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態199. がんの部位から取得された生検を受け取る工程が、乳房腫瘍の生検を受け取ることを含み、1つ又は複数の経路が、乳がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態200. がんの部位から取得された生検を受け取る工程が、前立腺腫瘍の生検を受け取ることを含み、1つ又は複数の経路が、前立腺がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態201. がんの部位から取得された生検を受け取る工程が、腎臓腫瘍の生検を受け取ることを含み、1つ又は複数の経路が、腎臓がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態202. がんの部位から取得された生検を受け取る工程が、膀胱腫瘍の生検を受け取ることを含み、1つ又は複数の経路が、膀胱がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態203. がんの部位から取得された生検を受け取る工程が、血液サンプルを受け取ることを含み、1つ又は複数の経路が、血液がんと関連している、実施形態155~193のいずれか1つに記載の方法。
実施形態204. 1つ又は複数の経路の様式化された視覚的描写を表示する工程が、様式化された視覚的描写のそれぞれについて、上流から下流の順序で、複数の遺伝子を表示すること、その順序で、隣接する遺伝子間に矢印を表示すること、及び下流の遺伝子が細胞成長及び増殖と相互作用する場所の指標を表示することを含む、実施形態155~203のいずれか1つに記載の方法。
実施形態205. シーケンシングレポートにおいて、包含について選択された1つ又は複数の経路のそれぞれについて、経路説明を表示することを更に含む、実施形態155~204のいずれか1つに記載の方法。
実施形態206. 経路説明が、変異及びがんのタイプに対する変異の作用に関する説明を含む、実施形態205に記載の方法。
実施形態207. 経路説明が、臨床試験に関する説明を含み、臨床試験に関する説明が、臨床試験番号、治療剤、治療剤の作用、治療剤が作用する経路内の標的エレメント、臨床試験の適格性基準、がんのタイプに対する変異又は病原体の作用、変異又は病原体ががんを引き起こす機序からなる群のうちの1つ又は複数を含む、実施形態205又は206のいずれかに記載の方法。
実施形態208. 変異又は病原体を特定する工程が、変異を特定することを含み、1つ又は複数の経路が、変異と関連する1つ又は複数の経路を含み、1つ又は複数の経路が、変異が機能増加変異と関連するか又は機能喪失変異と関連するかを示す、実施形態155~207のいずれか1つに記載の方法。
実施形態209. 変異又は病原体を特定する工程が、病原体を特定することを含み、1つ又は複数の経路を表示する工程が、病原体に媒介される腫瘍発生を描写する1つ又は複数の経路を表示することを含む、実施形態155~207のいずれか1つに記載の方法。
実施形態210. 更に、1つ又は複数の経路を表示する工程が、1つ又は複数の経路のエレメントと関連して、1つ又は複数の経路に対して生物学的作用を発揮する治療法を表示することを含む、実施形態209に記載の方法。
実施形態211. 更に、1つ又は複数の経路を表示する工程が、病原体又は経路と関連する1つ又は複数のがんタイプの指標を表示することを含む、実施形態209又は210のいずれかに記載の方法。
(実施例1)
経路RAS/RTK及び経路PI3Kのモジュール構築
前に考察したように(例えば、段落151を参照のこと)、経路は、それらの個々のタンパク質ではなくモジュールに細分されることが有用な場合が多く、このモジュールは、関連する類似性、例えば、配列類似性;経路活性への影響という観点での機能;及び/又は経路内のレベル/位置を有するタンパク質を含み、すなわち、このタンパク質は同じ上流タンパク質からシグナルを受信し、それらのシグナルを同じ下流タンパク質に伝達する。これらの特性のいくつかは関連している。例えば、類似のアミノ酸配列を有するタンパク質は、経路内で類似の機能及び類似のレベルを有する場合が多い。経路エンジンを構築する目的で、モジュールのセットによって定義されるタンパク質の全セットは、文献で定義されている経路全体を含まない場合があり、多くの場合、数十のタンパク質で構成される場合がある。むしろ、以下:a)既存の又は実験的な治療剤によって直接標的可能であるタンパク質;b)特定のがんの種類又は目的のサブタイプで一般的に変異又はその他の方法で破壊されているタンパク質;c)変異又はその他の方法で破壊された場合、特定の治療法又は治療法のクラスに感受性又は抵抗性を与えるタンパク質;d)変異又はその他の方法で破壊された場合、無増悪生存期間、全生存期間、又は転移リスクへの影響を含む、予後の重要性を付与するタンパク質;或いはe)これらの要因の組合せ、等のタンパク質を含むモジュール等、臨床的に関連性のあるモジュールのみが含まれる。これは、モジュールの生成に情報を与え得る臨床変数の網羅的なリストとみなされるべきではない。本明細書に記載されている両方の経路(RTK/RAS及びPI3K)のモジュールの場合、構成タンパク質は、doi:10.1016/j.cell.2018.03.035で提供されているようなキュレートされた経路定義と組み合わせて、上記の要因によって駆動された(図1Aに示されている)。
RTK/RAS経路(例えば、図1A;図12Aを参照のこと)
RTK/RAS経路のこの実施例では、上記の基準に基づいて、RAS、RAF、及びMEKモジュールという3つのモジュールを構築した。RASタンパク質ファミリーは、KRAS、NRAS、及びHRASの3つのメンバーで構成されている。これらは非常に類似した強力な成長促進タンパク質であり、肺腺癌を含むいくつかのがんで変異している。KRASは、この種類のがんで最も一般的に変異しているタンパク質であり、この遺伝子の変異は、処置の選択にとって重要な意味を有する。例えば、KRAS G12C変異を有する患者は、標的療法で処置され得る。RAFモジュールはまた、上流のRASタンパク質からのシグナル伝達を統合する、構造的に類似した3つのタンパク質、すなわちARAF、BRAF、及びCRAF/RAF1で構成されている。a)最も一般的なBRAF変異(V600E)は精密治療によって標的化可能であり、b)変異したRAFタンパク質を伴うがんは、RTK/RAS経路でより高い標的を示す治療に応答する可能性が低い場合があることを考慮すると、RAFタンパク質変異も処置に重要な関連性がある(例えば、KRAS又はEGFRを標的とした治療法)。RTK/RAS経路から選択された第3及び第4のモジュールは、MEK(MAP2K1)及びERK(MAPK1、MAPK3)モジュールである。これらのタンパク質は、上流のRAS及びRAFモジュールからのシグナル伝達を統合し、肺腺癌におけるこのタンパク質ファミリーの最も一般的に変異したメンバーである。更に、このモジュールのタンパク質を阻害する複数の標的療法がある。
PI3K経路(例えば、図1A及び12Aを参照のこと)
この実施例では、PI3K経路は、本明細書では、PIK3C、PTEN、AKT、及びTORの4つのモジュールで構成されている。これらの最初のものは、PIK3CAとPIK3CBで構成されており、これは、PI3K複合体の触媒サブユニットであるタンパク質p110の2つのバージョンであり、これは、PI3Kシグナル伝達の中心的なメディエーターである。PIK3CAは、肺腺癌でより一般的に変異しており、FDA承認の標的療法もある(doi:10.18632/oncotarget.2834)。PTENモジュールは、PIK3C活性を負に調節するタンパク質、すなわちPTEN、PIK3R1、PIK3R2、及びPIK3R3で構成されている。したがって、これらのタンパク質の喪失は、がんの増殖を促進し得る。これらの遺伝子の変異に対する標的療法はないが、これらの阻害剤の1つの機能の喪失は、PIK3CA/Bの活性化変異とは異なる(しかし類似した)効果を有することが期待され得、別々のモジュールの阻害剤及び活性化因子を誘導するための論理的根拠である。活性化因子/阻害剤破壊の転写効果の間の相違は、a)異なる機能を媒介する別々の経路を介してシグナル伝達するPTENモジュールタンパク質、及び/又はb)他のタンパク質若しくは複合体によって負に調節されているPIK3CA/Bに起因し得る。第3及び第4のPI3Kモジュールは、AKT(AKT1、AKT2、AKT3)及びTOR(MTOR、RICTOR、RPTOR)である。これらのモジュールのタンパク質は、PI3Kシグナル伝達を媒介する役割を果たし、したがって成長を促進する。いずれかのモジュールの活動を阻害し得る標的療法があるので、これらは個別のモジュールとして含まれている。
追加の考慮事項
モデル訓練の過程で、モジュールの変更又は新しいモジュールの追加を必要とする分野での進歩があるかもしれない。例えば、PI3K活性の別の正の調節因子であるタンパク質RHEBの過剰発現は、目的のがんで共通しており、標的阻害剤を有することが発見される場合がある。次に、RHEBを含む新しいモジュールが経路に含まれ、破壊モデルが破壊を検出するように訓練される。
EGFR及びERBB2は、RTK/RAS又はPI3K経路の一部であると先験的にみなされないという点で、他のモジュールとは異なって扱われる。この理由は、これらのタンパク質が両方の経路を同時に通過するためである。どのタンパク質が各経路の一部であるかを決定することは、いくつかの理由で重要であるが、この文脈での関連性は、モジュールの破壊が、破壊されたモジュールを有するサンプル(陽性サンプル)の転写出力と経路メンバーの変異がないサンプル(陰性サンプル)とを比較することによって決定されるということである。EGFR及びERBB2は両方の経路に供給されるため、これらのタンパク質の破壊スコアを生成する場合、RAS/RTK又はPI3K経路の変異がないものとして陰性サンプルを指定することは適切ではない。2つの選択肢が残っており、最初の選択肢は陰性サンプルにはいずれの経路にも変異がないことを必要とし、第2の選択肢は、EGFR及びERBB2を独立して処理し、陰性サンプルにこれらの遺伝子のみに変異がないことを必要とする。最初の選択肢は除外される。なぜなら、サンプルの大部分にRTK/RAS又はPI3K経路の変異があり、どちらの経路にも変異がないサンプルの数は、陰性対照群として役立つには不十分であるためである。したがって、第2の選択肢を選択する。例えば、EGFR破壊モデルは、病原性/病原性の可能性のあるEGFR変異を含むサンプルを陽性サンプルとして使用し、EGFR変異を含まないサンプルを陰性サンプルとして使用して訓練される。EGFR及びERBB2は、それぞれがその機能を阻害する別個の標的療法を持っているので、それ自体が別々に考慮される。重要なことに、他のモジュールの破壊スコアが生成されている場合、EGFR及びERBB2は、RTK/RAS及びPI3K経路とは異なるモジュールとみなされるが、破壊が両方の経路の破壊にいくつかの点で類似している転写効果をもたらす可能性があるので、EGFR及び/又はERBB2に変異があるサンプルは、陰性サンプル群では許容されない。したがって、EGFR及び/又はERBB2と同様の多様なシグナル伝達活性を有する遺伝子を含む他の経路は、モデルの開発及び訓練において同様に対処され得る。
(実施例2)
1,500を超える固形腫瘍のコホートにおけるKRAS及びPI3K経路の調節不全の調査
肺腺癌の1,500人を超える患者のコホートで、ロジスティック回帰分析をエクソーム捕捉RNA-seq発現プロファイルで実行し、実施例1で説明した経路モジュールを使用して、破壊されたKRAS及びPI3Kシグナル伝達のトランスクリプトミクス特性を特定した。
この実施例では、患者サンプルを、RNA全エクソームショートリード次世代シーケンシング(NGS)で処理して、RNAシーケンシングデータを生成し、このRNAシーケンシングデータをバイオインフォマティクスパイプラインで処理して、各患者のサンプルに関してRNA-seq発現プロファイルを作成した。
具体的には、固形腫瘍の全核酸(DNA及びRNA)を、マクロ解剖されたFFPE組織切片から抽出し、プロテイナーゼKで消化してタンパク質を除去した。TURBO DNase-Iによって全核酸からRNAを精製してDNAを除去した後、RNA cleanXPビーズを使用して反応をクリーンアップして酵素タンパク質を除去した。単離されたRNAを、RiboGreen蛍光色素を使用した品質管理プロトコルに供して、RNA分子の濃度を決定した。
ライブラリー調製は、マグネシウムの存在下で100ngのRNAを平均サイズ200bpに熱断片化したKAPAハイパープレップキットを使用して実施した。次に、ライブラリーをcDNAに逆転写し、Roche SeqCapデュアルエンドアダプターをcDNAにライゲーションした。次に、cDNAライブラリーを精製し、KAPAハイパービーズを使用するサイズ選択に供した。次に、ライブラリーを10サイクル、PCR増幅し、Axygen MAG PCRクリーンアップビーズを使用して精製した。品質管理は、cDNAライブラリー濃度を決定するためにPicoGreen蛍光キットを使用して実行した。次に、cDNAライブラリーを6プレックスハイブリダイゼーション反応にプールした。各プールは、HumanCOT-1及びIDTxGenユニバーサルブロッカーで処理で処理した後に、真空遠心(vacufuge)で乾燥した。次に、RNAプールをIDT xGen Lockdownハイブリダイゼーションミックスに再懸濁し、IDT xGen Exome Research Panelv1.0プローブを各プールに追加した。プールをインキュベートして、プローブがハイブリダイズできるようにした。次に、プールを、ストレプトアビジンでコーティングされたビーズと混合して、cDNAのハイブリダイズした分子を捕捉した。KAPA HiFi LibraryAmplificationキット及びAxygenMAG PCRクリーンアップビーズをそれぞれ使用して、プールをもう一度増幅及び精製した。プール断片サイズを評価するために、PicoGreenプールの定量化及びLabChip GXTouchを含む最終的な品質管理工程を実行した。プールは、Illumina社のC-Bot2にPhiXスパイクを備えたイルミナペアエンドクラスターキット(Illumina社 Paired-end Cluster Kits)を使用してクラスター増幅し、増幅された標的捕捉cDNAライブラリーを含む得られたフローセルを、Illumina社のHiSeq4000で500×という平均の固有のオンターゲット深度までシーケンシングして、FASTQファイルを作成した。
この実施例では、cDNAライブラリーの調製は、液体処理ロボット(SciClone NGSx)を使用して自動システムで実行した。
各FASTQファイルにはペアエンドリードが含まれており、それぞれが品質評価に関連付けられていた。各FASTQファイルのリードは、バイオインフォマティクスパイプラインによって処理した。FASTQファイルは、品質管理及びリードの迅速な評価のためにFASTQCを使用して分析した。FASTQファイルごとに、ファイル内の各リードは、kallistoアラインメントソフトウェアを使用して参照ゲノム(GRch37)にアラインした。このアラインメントによりSAMファイルが生成され、各SAMファイルがBAMに変換され、BAMファイルがソートされ、重複が削除対象としてマークされた。
各遺伝子について、所与の遺伝子の生のRNAリードカウントを、各リードについて、リードが遺伝子にアラインする確率の合計として、kallistoアラインメントソフトウェアによって計算した。したがって、この実施例では、生のカウントは整数ではない。生のリードカウントは、各患者の表形式のファイルに保存し、列は遺伝子を表し、各エントリは、その遺伝子の生のRNAリードカウントを表していた。
次に、生のRNAリードカウントを正規化して、完全分位正規化を使用してGC含量と遺伝子長を補正し、サイズファクター法を介してシーケンシング深度を調整した。正規化されたRNAリードカウントは、各患者の表形式のファイルに保存し、列は遺伝子を表し、各エントリはその遺伝子の生のRNAリードカウントを表した。訓練では、陽性の症例は、それぞれ病原性のKRAS又はSTK11変異を有する患者として定義され、陰性の症例は考慮される経路に病原性又は潜在的に病原性の変異がない患者として定義された。(図14を参照のこと)
この実施例では、病原性、潜在的に病原性、及び他の変異の間の区別は、ヌクレオチドレベルでの変異(例えば、単一ヌクレオチド変動(SNV)、挿入/欠失(インデル))及び遺伝子レベルでの変異(すなわち、遺伝子コピー数変動(CNVS))について別々に作製される。SNV/インデルの場合、分類は主にAmerican College of Medical Genetics and Genomics(ACMG)によって定められた基準を使用して行われる。これらの基準では、集団におけるバリアントの頻度、直接的な臨床的証拠、並びに翻訳されたタンパク質の遺伝子発現及び/又は機能に対するバリアントの予想される効果を含む、バリアントの病原性のレベルに関する複数のレベルの証拠が、「病原性」から「良性」までの範囲の最終決定を生成するために統合された。SNV/インデル病原性の追加の限定された基準は、独自のDNAバリアントデータベースを使用して生成された。CNVの場合、病原性の決定は、病原性データベースの情報に基づく場合がある。例えば、病原性データベースには、特定のバリアントがFDA承認の治療法の対象となり得るか否か等、様々な要因に基づく病原性情報が含まれ得る。
RAS(KRAS、HRAS、NRAS)及びPI3K(PIK3CA及びPIKCB)の両方の破壊の最終モデル(経路エンジン)は、統計的に強力であり、AUCは約0.84以上であった。一例では、AUCは0.90であった。更に、両方のモデルは、外部データセットを使用して検証され、出力は関連するタンパク質発現データと相関していた。特に、両方のモデルで、経路の野生型として定義された患者の10%超が、経路破壊の選択されたカットオフ閾値よりも高いスコアであり、これによって、これらの患者が、DNA分析だけでは検出されない経路破壊を有する隠れた応答者であり得ることが示唆されている。
各モデルのカットオフ閾値は、適合率(真陽性)/(真陽性+偽陽性)及び再現率(真陽性)/(真陽性+偽陰性)の調和平均として定義される統計的尺度であるF1スコアを最大化する値を選択することによって選択された。PI3K破壊モデルの場合、陰性対照群に対して返されるスコアの不規則な分布に起因して、最大F1スコアが決定される前に最初に外れ値を削除する必要があった。他の実施形態では、群のサイズの不均衡又はある首尾よいメトリックが別のメトリックよりも重要であることに起因して(例えば、再現率よりも適合率)、a)YoudenのJ統計(特異度+感度-1)、b)精度(真陽性+真陰性)/(サンプルの総数)、c)適合率、又はd)再現率のような別のメトリックを最大化する閾値が望ましい場合がある。
予備分析は、これらの患者の多くが、考慮された経路と接線方向に相互作用する遺伝子に意義不明のバリアントを保持していることを示す。これは、モデルの出力が真の経路の破壊を反映していることの更なる証拠を提供し、意義不明なこれらのバリアント及び追加の分析によって明らかにされる他のバリアントが、本明細書に開示されたシステム及び方法を使用して発見された、新規標的遺伝子の新規標的変異であり得ることを示す。結論として、高感度のトランスクリプトミクスモデルを、標準的な経路の変異がない場合に発がん性シグナル伝達を検出し、標的治療に応答し得る追加の患者を特定するために開発する。
(実施例3)
肺腺癌と診断された対象における経路調節不全の同定-RAS/RTK経路
一例では、がん検体は、肺腺癌がんを有する患者から収集された。検体は上記の実施例2で説明したように処理した。要するに、がん検体を全エクソームRNA-seqによって処理して、マッピングされたRNAリードを含むBAMファイルを生成し、バイオインフォマティクスパイプラインによって分析してRNA分子の生のカウント及び正規化されたカウントを、各遺伝子について決定して、数値のコレクションを含むトランスクリプトーム値セットを生成し、ここで各数値は遺伝子に関連付けられ、その遺伝子にアラインされた検出されたリードカウントの正規化された数を表しており、その遺伝子の発現レベルとしても記述した。データセットには、約19,000個の異なる遺伝子の発現レベルを含んでいた。
トランスクリプトーム値セットは、経路エンジン200nによって、710に記載されているように分析した(520に記載されているように訓練され、陽性対照及び陰性対照は、RAS/RTK経路遺伝子における遺伝的バリアントの有無に基づいて決定され、この実施例では、以下のモジュール:EGFRモジュール、RASモジュール、RAFモジュール、MEKモジュール、ERKモジュールの遺伝子を含む、例えば、図12Aを参照のこと)。RAS/RTK経路エンジンは2.0のスコアを生成し、RAS/RTK経路の調節不全の可能性を示す。
RAS/RTK経路のスコア及び予測される調節不全状態を含む経路破壊レポートが生成された。経路破壊レポートには更に、一致した治療法であるトラメチニブ及びダブラフェニブ、並びに以下の適合した臨床試験が含まれていた:NCT03543306、V600E BRAF変異を有する非小細胞肺がん患者におけるダブラフェニブ及びトラメチニブ、並びに患者のスコアをデータベース内の患者スコアのコレクションと比較するヒストグラム(Dabrafenib and Trametinib in Patients With Non-small Cell Lung Cancer Harboring V600E BRAF Mutation, and histograms comparing the patient's score to a collection of patient scores in a database)。また、調節不全を促進する原因であると考えられるバリアントのリストも含まれていた。調節不全を引き起こすバリアントの例としては、KRASの機能獲得変異が含まれ得る(図10Bから図10Hを参照のこと)。
(実施例4)
起源不明の腫瘍サンプルにおける経路調節不全を特定する-RAS/RTK経路
一例では、がん検体は、起源不明の腫瘍を有する患者から収集した。この検体は上記の実施例2で説明したように処理した。要するに、がん検体を全エクソームRNA-seqによって処理して、マッピングされたRNAリードを含むBAMファイルを生成し、バイオインフォマティクスパイプラインによって分析してRNA分子の生のカウント及び正規化されたカウントを各遺伝子について決定し、数値のコレクションを含むトランスクリプトーム値セットを生成し、ここで各数値は遺伝子に関連付けられ、その遺伝子にアラインされた検出されたリードカウントの正規化された数を表し、その遺伝子の発現レベルとしても記述される。このデータセットには、約19,000個の異なる遺伝子の発現レベルが含まれていた。
トランスクリプトーム値セットを分析して、米国仮特許出願第62/855,750号に記載のがんの種類に割り当て、及びトランスクリプトームの最も可能性の高いがんの種類は、肺腺癌であると決定された。
トランスクリプトーム値セットは、肺がん特異的経路エンジン200nによって710に記載されているように分析した(520に記載されているように訓練され、全ての訓練データトランスクリプトームは肺がんに関連付けられており、陽性対照及び陰性対照は、この実施例では、以下のモジュールの遺伝子を含む、RAS/RTK経路遺伝子における遺伝子バリアントの有無に基づいて決定した:EGFRモジュール、RASモジュール、RAFモジュール、MEKモジュール、ERKモジュール、例えば、図12Aを参照のこと)。RAS/RTK経路エンジンは、2.2のスコアを生成し、RAS/RTK経路の調節不全を強く示しているが、患者のDNAに原因となる変異は検出されなかった。
RAS/RTK経路のスコア及び予測される調節不全状態、並びに破壊の原因が不明であることを示す情報を含む経路破壊レポートが生成された。破壊を示す経路上のポイントが示され、提案された治療法と同様に、このポイントの下流の潜在的な標的が示された。患者のスコアをデータベース内の患者のスコアのコレクションと比較するヒストグラムも提供される(図10Aを参照のこと)。
(実施例5)
肺腺癌と診断された対象の経路調節不全を特定する-PIK3経路
一例では、がん検体は、肺腺癌のがんを有する患者から収集された。この検体は実施例2で上記したとおり処理した。要するに、がん検体は全エクソームRNA-seqによって処理して、マッピングされたRNAリードを含むBAMファイルを作成し、これをバイオインフォマティクスパイプラインによって分析してRNA分子の生のカウント及び正規化されたカウントを各々の各遺伝子について決定し、数値のコレクションを含むトランスクリプトーム値セットを生成し、ここで各数値は遺伝子に関連付けられ、その遺伝子の正規化されたカウント数を表しており、その遺伝子の発現レベルとしても記述される。データセットには、約19,000個の異なる遺伝子の発現レベルを含んでいた。
トランスクリプトーム値セットは、経路エンジン200nによって710に記載されるように分析された(520に記載されるように訓練され、陽性対照及び陰性対照は、PI3K経路遺伝子における遺伝子バリアントの有無に基づいて決定され、この実施例では、次のモジュールの遺伝子を含む:ERBB2、PI3K、PTEN、AKT、及びTOR、例えば図12Aを参照のこと)。PI3K経路エンジンは0.5のスコアを生成し、PI3K経路の調節不全の可能性を示している。
経路破壊レポートは、STK11変異がんの有効性が低下していることが示されているPDL1阻害剤の使用を更に推奨した。現在、STK11変異を有する患者に特定の適合した治療法はないが、次の適合した臨床試験が推奨された:NCT02664935、全国肺マトリックス試験:非小細胞肺がんにおける多剤第II相試験(National Lung Matrix Trial: Multi-drug Phase II Trial in Non-Small Cell Lung Cancer)。また、患者のスコアをデータベース内の患者のスコアのコレクションと比較するヒストグラム、及び調節不全を促進すると考えられるバリアントも含まれていた。調節不全を引き起こすバリアントの例としては、PIK3CAの機能獲得変異が含まれ得る(図11B~図11Dを参照のこと)。
(実施例6)
原因不明の腫瘍サンプルにおける経路調節不全の特定-PI3K経路
一例では、がん検体は、肺腺癌がんを有する患者から収集された。検体は上記の例2で説明したように処理した。要するに、がん検体を全エクソームRNA-seqによって処理して、マッピングされたRNAリードを含むBAMファイルを作成し、これをバイオインフォマティクスパイプラインによって分析してRNA分子の生のカウント及び正規化されたカウントを、各遺伝子について決定し、数値のコレクションを含むトランスクリプトーム値セットを生成し、ここで各数値は遺伝子に関連付けられ、その遺伝子の正規化されたカウント数を表しており、その遺伝子の発現レベルとしても記述される。このデータセットには、約19,000個の異なる遺伝子の発現レベルが含まれていた。
トランスクリプトーム値セットは、経路エンジン200nによって710に記載されているように分析された(520に記載されているように訓練され、PI3K経路遺伝子の遺伝子バリアントの有無に基づいて陽性対照及び陰性対照が決定され、これには、例えば、次のモジュールの遺伝子を含む:ERBB2、PI3K、PTEN、AKT、及びTOR、例えば図12Aを参照のこと)。PI3K経路エンジンは1.0というスコアを生成し、PI3K経路の調節不全を強く示す。
患者のDNAに原因となる変異は検出されなかったが、経路破壊スコアはSTK11変異がんでの有効性が低下することが示されているせいで、経路破壊レポートはそれにもかかわらず、PDL1阻害剤の使用を推奨しなかった。また、患者のスコアをデータベース内の患者のスコアのコレクションと比較するヒストグラムも含まれていた。調節不全を促進する原因であると考えられる病原性バリアントは検出されなかった(図11Aを参照のこと)。
(実施例7)
STK11破壊スコアは6か月での免疫療法への応答を予測する
処置の選択を導くことに加えて、本明細書に開示される方法はまた、処置応答、生存、又は他の転帰のパラメータを予測するのにも有用である。この実施例では、114人の肺がん患者からの生検サンプルを分析した。全ての患者がPD-L1阻害剤免疫療法を受けていた。STK11変異は、このクラスの薬剤には禁忌であることが公知である。
変異の状態に関係なく、STK11破壊スコアは応答と相関すると本発明者らは、仮定した。したがって、全てのサンプルをSTK11破壊モデルで分析し、スコアは6か月の応答データを有する患者の進行によってプロットした。
図28に示すように、進行のある患者はスコアが高く、色付きのドットは個々のサンプルを示し、黄色のドットは病原性STK11変異のある患者を表し、赤いドットは病原性STK11変異のない患者を表している。変異のない患者のみを考慮した場合でも違いは維持され(赤いドットのみ、p=0.042)、このスコアがトランスクリプトームベースのスコアのみから関連する処置を捕捉していることを示す。
図29(Skoulidisら、Cancer Discov.2018 DOI:10.1158/2159-8290.CD-18-0099、図2B、右パネルを参照のこと)は、この傾向が以下の文献と一致していることを示す;KRASとSTK11の両方の変異を有する患者は、KRAS変異のみを有する患者よりもPD-L1阻害に対する応答が不十分である(patients harboring both KRAS and STK11 mutations respond more poorly to PD-L1 inhibition than patients with a KRAS mutation alone)。KL群には、KRAS及びSTK11の両方の変異を有する対象が含まれる。
(実施例8)
EGFR破壊スコアは、阻害剤療法の恩恵を受け得る追加の患者を特定する
この実施例では、処置データを有する527人の肺がん対象由来の生検サンプルを、メタ経路アプローチを使用して分析した(例えば、以下の実施例8を参照のこと)。図30は、RTK/RAS及びPI3K経路のメタ経路スコアを使用して作成されたコホートのUMAPを示す。色はEGFR破壊の程度によって決定され、緑と黄色は高い破壊を示し、右側にクラスターがある。これらの明るい色は、EGFR変異の状態とよく相関しており、三角形は病原性EGFR変異を有する患者を表している。高いEGFR破壊スコアと、大きな記号で表されるEGFR阻害剤を投与された患者との間にも強い相関関係がある。スコアが高く(上位5分位として定義)、変異がなく、阻害剤を投与されなかった患者は、赤い点で示される。これらの患者は、阻害剤処置の恩恵を受ける可能性のある集団であり、集団の4%を占めている。すなわち、患者の4%が潜在的な隠れた応答者である。これらの患者は、EGFR経路の破壊が高いが、既知の病原性EGFR変異がないので、EGFR阻害剤療法で処置しなかった。コホートの17%が阻害剤を投与された;したがって、この処置の恩恵を受ける可能性のある患者の追加の4%は、有意な増加を反映している。
(実施例9)
例示的なメタ経路アセンブリ及びサンプル分析
実施例8は、RTK/RAS-PI3K-EGFR経路のための複数の経路エンジン200nを含むシステムを開示しており、これは、RTK-RAS経路1200とも呼ばれてもよい。例えばこのシステムによって生成されたレポート図12A~図12F、図23、図24、及び図25を参照のこと。各経路エンジンは、RTK/RAS-PI3K-EGFR経路の1つの遺伝子クラス及び/又はRTK-RAS経路1200に含まれるモジュールに関連して訓練される(図5で説明されるとおり)。例えば、各経路エンジンは、図5のプロセス502を用いて訓練されたモデル(例えば、線形回帰モデル)を備えてもよい。EGFRモジュール1205は、EGFR遺伝子クラスの遺伝子を含んでもよい。RASモジュール1210は、RAS遺伝子クラスの遺伝子を含んでもよい。RAFモジュール1215は、RAF遺伝子クラスの遺伝子を含んでもよい。PTENモジュール1220は、PTEN遺伝子クラスの遺伝子を含んでもよい。ERBB2モジュール1225は、ERBB2遺伝子クラスの遺伝子を含んでもよい。PI3Kモジュール1230は、PI3K遺伝子クラスの遺伝子を含んでもよい。AKTモジュール1235は、AKT遺伝子クラスの遺伝子を含んでもよい。TORモジュール1240は、TOR遺伝子クラスの遺伝子を含んでもよい。MEKモジュール1245は、MEK遺伝子クラスの遺伝子を含んでもよい。ERKモジュール1250は、ERK遺伝子クラスの遺伝子を含んでもよい。
各経路エンジンは、多数の陽性対照及び多数の陰性対照で訓練され得る。実施例8では、各陽性対照は、遺伝子クラス(例えば、RAS遺伝子クラス)の調節不全に関連するDNA変異(例えば、病原性バリアント)及び/又は経路エンジンに関連するモジュール(例えば、RASモジュール1210)を含んでもよい。DNA変異は、生殖細胞系列であっても、又は体細胞であってもよい。例えば、最初の経路エンジンを訓練するために使用される陽性対照には、PTEN遺伝子クラスの遺伝子(PTEN、PIK3R1、PIK3R2、及びPIK3R3を含む)の少なくとも1つに変異を有し;第2の経路エンジンを訓練するために使用される陽性対照は、ERBB2遺伝子クラスの遺伝子(ERBB2を含む)の少なくとも1つに変異を有し;第3の経路エンジンを訓練するために使用される陽性対照は、PI3K遺伝子クラスの遺伝子(PIK3CA及びPIK3CBを含む)の少なくとも1つに変異を有し;第4の経路エンジンを訓練するために使用される陽性対照は、AKT遺伝子クラスの遺伝子(AKT、AKT2、及びAKT3を含む)の少なくとも1つに変異を有し;第5の経路エンジンを訓練するために使用される陽性対照は、TOR遺伝子クラスの遺伝子(RICTOR、RPTOR、及びMTORを含む)の少なくとも1つに変異を有し;第6の経路エンジンを訓練するために使用される陽性対照は、EGFR遺伝子クラスの遺伝子(EGFRを含む)の少なくとも1つに変異を有する;第7の経路エンジンを訓練するために使用される陽性対照は、RAS遺伝子クラスの遺伝子(KRAS、NRAS、及びHRASを含む)の少なくとも1つに変異を有する;第8の経路エンジンを訓練するために使用される陽性対照は、RAF遺伝子クラスの遺伝子(RAF1、BRAF、及びARAFを含む)の少なくとも1つに変異を有する;第9の経路エンジンを訓練するために使用される陽性対照は、MEK遺伝子クラスの遺伝子(MAP2K1を含む)の少なくとも1つに変異を有する。第10の経路エンジンを訓練するために使用される陽性対照は、ERK遺伝子クラスの遺伝子(MAPK3、MAPK1を含む)の少なくとも1つに変異を有する。
経路エンジンを訓練するために使用される各陰性対照は、経路エンジンに関連するモジュール又はそのモジュールを含む経路全体に含まれるいかなる他のモジュールに含まれるいかなる遺伝子にも、いかなるタイプのDNA変異も含まない。例えば、RASクラス及び/又はRASモジュール1210の調節不全を検出するように訓練された経路エンジンの場合、各陰性対照は、RASモジュール1210に含まれるKRAS、NRAS、及び/又はHRAS遺伝子に変異を含まず、同様にRTK-RAS経路1200に含まれるあらゆる他のモジュールに含まれるいずれの遺伝子にも変異は含まない(例えば、この経路に含まれる遺伝子には、良性及び/又は同様に良性の生殖細胞系列バリアントのみが含まれ得る)。例えば、第1の経路エンジン、第2の経路エンジン、第3の経路エンジン、第4の経路エンジン、第5の経路エンジン、第6の経路エンジン、第7の経路エンジン、第8の経路エンジン、第9の経路エンジン、及び第10の経路エンジンのそれぞれを訓練するために使用される陰性対照には、PTEN遺伝子クラス、ERBB2遺伝子クラス、PI3K遺伝子クラス、AKT遺伝子クラス、TOR遺伝子クラス、EGFR遺伝子クラス、RAS遺伝子クラス、RAF遺伝子クラス、MEK遺伝子クラス、及びERK遺伝子クラスに含まれるいずれの遺伝子にも、いかなる種類の変異も含まれていない(例えば、病原性バリアント、おそらく病原性バリアント、起源不明のバリアント等)。
図14は、システム及び方法を使用してLUAD患者のコホートからのトランスクリプトームを分析する実施例である。この実施例では、このシステム及び方法は、KRAS又はSTK11変異のいずれかを有する患者等、既知の活性化を有する患者を、経路が活性ではないというある程度の確信がある患者、例えば、目的の経路に関連することが公知の全ての遺伝子の野生型コピーを有する患者と区別する。
この実施例では、経路活性の測定値が両方の群に対して生成され、統計的測定、例えば、高いAUC値によって示されるように、群の経路活性測定値は有意に分離されている。
図15A及び15Bは、DEG及び経路スコアを使用する次元削減を通じて、陽性対照を陰性対照から分離する代替方法の能力を試験する実施例である。
図15Aでは、主成分分析(PCA)及び/又は均一多様体近似及び射影(Uniform Manifold Approximation and Projection)(UMAP)を含む次元削減は、陽性対照(赤い円で示されている、KRAS又はSTK11変異を有する検体)と陰性対照(青い円で示されている、野生型RAS又はPI3K経路を有する検体)との間を区別するために普遍的に適用可能ではなく、この実施例では十分に異なるPCA/UMAPクラスターを形成しない。
図15Bでは、標準のssGSEA法を含む追加の代替法では、陽性対照(赤)と陰性対照(青)との間を十分に区別できなかった。考えられる理由の1つは、これらの方法が比較的小さな遺伝子セットに依存しており、破壊の転写効果がより多様で豊富になり、2つの群間を区別するために大きな遺伝子セットの分析を必要とし得るということである。
結論として、これらの古い方法は、陽性対照と陰性対照との間を区別し、経路破壊スコアを計算するためのモデルを訓練するために十分ではない場合がある。
図16A及び図16Bは、本明細書に開示されるシステム及び方法が、目的の経路について陰性対照と陽性対照との間を区別し得ることを集合的に示す。
520に従って訓練されたロジスティック回帰モデルは、DEGを使用して、KRAS(図17A~図17B)又はSTK11(図17C~図17D)変異キャリアを、経路WT群から分離する。WT群は、TCGAで定義された経路(RAS又はPI3K)に変異がない検体の群である。
この実施例では、610で説明されているように、各インフォールドに対して定義されたDEGを使用して10倍の相互検証を実行した。
この実施例では、最終モデルは、考慮された全てのサンプルを使用して決定されたDEGで訓練された。
図17A及び図17Aは、本明細書に開示されるシステム及び方法が、RAS経路の陰性対照と陽性対照との間を区別し得ることを示す、AUC及び予測性能グラフを示す。
図17C及び図17Dは、本明細書に開示されるシステム及び方法が、PI3K経路の陰性対照と陽性対照との間を区別し得ることを示す、AUC及び予測性能グラフを示す。
図18は、他の変異群が期待されるモデル出力を示すことを示す性能グラフである。このバイオリン図は、x軸に示されている遺伝子に変異があるか、又は変異がない(WT)検体について、本明細書に開示されているシステム及び方法によって生成された経路破壊スコア(y軸)を示す。この実施例では、このシステム及び方法は、WT検体とKRAS変異検体との間、又はWTとBRAF変異との間を区別し得る。
図19A及び19Bは、KRAS変異陽性対照又はSTK11変異陽性対照のいずれかによって訓練されたモデル及び陰性対照としての対応する経路WT検体について、TCGA肺腺癌コホートで検証されたシステム及び方法をまとめて示す。
図19Aは、TCGA肺腺癌コホートにおけるKRAS変異対RAS経路WTモデルを検証した結果を示す性能グラフである。この実施例では、野生型(WT)検体には、TCGAで定義されたRAS経路遺伝子に変異は検出されていない。
図19Bは、TCGA肺腺癌コホートにおけるSTK11変異対PI3K経路WTモデルを検証した結果を示す性能グラフである。この実施例では、野生型(WT)検体には、TCGAで定義されたPI3K経路遺伝子に変異は検出されていない。
図20A及び20Bは、このシステム及び方法によって生成された経路破壊スコアが、タンパク質発現レベルと相関し、したがって予測することを集合的に示す。
図20Aは、このシステム及び方法によって生成された経路破壊スコアと、リン酸化された(すなわち、活性化された)MEK1のタンパク質発現レベルとの間の関係を示すグラフである。
図20Bは、このシステム及び方法によって生成された経路破壊スコアと、リン酸化されたAMPKのタンパク質発現レベルとの間の関係を示すグラフである。
図21は、このシステム及び方法が、特定の治療に対する応答者の群と非応答者との群との間を区別し得ることを示すグラフである。この実施例では、このバイオリン図は、機能獲得KRAS変異を有するNSCLC患者のコホートの例で、検体についてこのシステム及び方法によって生成されたKRASスコア(y軸)、並びに検体に関連する処置応答データを示す。この実施例では、「無応答」とは、患者又はオルガノイドが処置を行っても進行性疾患を示したことを示す臨床データによって定義され、「応答」とは任意の他の転帰によって定義される。一例では、この処置は、患者のがん検体におけるKRAS又は関連するバリアントの存在に基づいて患者に処方されるであろう任意の処置である。一例では、処置は、FDA及び/又はNCCNガイドライン(例えば、図26及び27を参照)に従って処方され得、一部の実施形態では、患者は、医師によって処置される。
図22は、730で生成された例示的な経路破壊レポートを示す。この経路破壊レポートは、MAPK経路のサブセット、並びに潜在的な処置方法に関する情報を含んでもよい。処置方法は、FDA等の特定の組織によって承認されている場合もあるし、されていない場合もある。未承認の処置は、臨床試験を通じて利用されてもよい。例えば、セルメチニブ、ベムラフェニブ、及びエルロチニブは現在FDAが承認した治療薬であり(例えば、図26を参照)、AMG-510及びウリセルチニブは承認されていないが、臨床試験中である。
図23は、730で生成された別の例示的な経路破壊レポートを示す。この経路破壊レポートは、ERBB2モジュール及びPTENモジュール等のRAS及びPI3K経路のサブセット又はモジュールを含み得るメタ経路を含んでもよい。図23では、モジュール及び/又はサブモジュールのいずれも検出可能な変異を有していない場合がある。
図24は、730で生成された更に別の例示的な経路破壊レポートを示す。この経路破壊レポートは、図23に示されるメタ経路、並びに、この特定のサンプルで変異している遺伝子の詳細を含む表も含み得る。特に、検出可能な変異を有する遺伝子は、「増幅」を有するものとして表にマークされ得、経路スコアに基づいて破壊を示すサブモジュールは、破壊が発生するメタ経路で位置を示すために色(例えば、赤)でメタ経路にマークされ得る。図24において、RICTOR遺伝子、EMSY遺伝子、及びPAK1遺伝子には検出可能な変異を有する。
図25は、730で生成された更なる例示的な経路破壊レポートを示す。この経路破壊レポートは、図23に示されるメタ経路、並びに図24と同様に表を含んでもよい。図25では、KRAS遺伝子のみがメタ経路に関連する検出可能な変異(この実施例では機能獲得変異)を有する。
上記の方法及びシステムは、一般に医療及び研究を標的とするデジタル及び実験室のヘルスケアプラットフォームと組み合わせて、又はその一部として利用してもよい。そのようなプラットフォームと組み合わせて、上記の方法及びシステムの多くの使用が可能であることを理解されたい。そのようなプラットフォームの一例は、「データベースのがん研究並びに処置システム及び方法(Data Based Cancer Research and Treatment Systems and Methods)」と題され、2019年10月18日に出願された米国特許出願第16/657,804号に記載されており、これは参照により、及び全ての目的のためにその全体が、本明細書に組み込まれる。
例えば、上記の方法及びシステムの1つ又は複数の実施形態の実装は、経路破壊検出をサポートするデジタル及び実験室ヘルスケアプラットフォームを構成するマイクロサービスを含み得る。実施形態は、経路破壊検出を実行及び送達するための単一のマイクロサービスを含んでもよいし、又はそれぞれが上記の実施形態の1つ又は複数を一緒に実装する特定の役割を有する複数のマイクロサービスを含んでもよい。一例では、第1のマイクロサービスは、経路エンジンを訓練するために訓練データを第2のマイクロサービスに送達するために、訓練データ生成(差次的に発現される遺伝子の選択を含み得る)を実行し得る。同様に、第2のマイクロサービスは、上記のある実施形態による、訓練された経路エンジンを提供するために経路エンジン訓練を実行し得る。第3のマイクロサービスは、第2のマイクロサービスから訓練済みの経路エンジンを受信し、経路の中断の検出を実行し得る。
上記の実施形態が、デジタル及び実験室ヘルスケアプラットフォームとともに、又はその一部として1つ又は複数のマイクロサービスで実行される場合、そのようなマイクロサービスの1つ又は複数は、上記の実施形態を具体例で説明するために必要な時間及び適切な順序で、必要に応じて一連のイベントを調整する注文管理システムの一部であり得る。マイクロサービスベースの注文管理システムは、例えば、参照により、及びその全体があらゆる目的のために本明細書に組み込まれる、2019年7月12日に出願された、「適応注文履行及び追跡方法及びシステム(Adaptive Order Fulfillment and Tracking Methods and Systems)」と題された米国仮特許出願第62/873,693号において、開示されている。
例えば、上記の第1及び第2のマイクロサービスを継続して、注文管理システムは、経路破壊検出の注文が受信され、処理の準備ができていることを第1のマイクロサービスに通知し得る。一旦、経路破壊検出の送達が第2のマイクロサービスに対して準備ができると、最初のマイクロサービスが実行され、注文管理システムに通知される。更に、注文管理システムは、第1のマイクロサービスが完了したことを含む、第2のマイクロサービスの実行パラメータ(前提条件)が満たされていることを特定し、上記のある実施形態に従って、経路破壊の検出の注文を処理し続け得ることを第2のマイクロサービスに通知し得る。
デジタル及び実験室のヘルスケアプラットフォームが遺伝子分析システムを更に含む場合、遺伝子分析システムは、標的化されたパネル及び/又はシーケンシングプローブを含み得る。標的されるパネルの例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「統合ゲノムプロファイリングを使用してがん患者の臨床選択肢を拡大するためのシステム及び方法(System and Method for Expanding Clinical Options for Cancer Patients using Integrated Genomic Profiling)」と題された米国仮特許出願第62/902,950号に開示される。一例では、標的化されたパネルは、上記のある実施形態による経路破壊検出のための次世代シーケンシング結果の送達を可能にし得る。次世代シーケンシングプローブの設計の例は、例えば、参照により、及びその全体が全ての目的のために本明細書に組み込まれる、「次世代シーケンシング均一プローブ設計のためのシステム及び方法(Systems and Methods for Next Generation Sequencing Uniform Probe Design)」と題され、19年10月21日に出願された、米国仮特許出願第62/924,073号に開示される。
デジタル及び実験室ヘルスケアプラットフォームがバイオインフォマティクスパイプラインを更に含む場合、上記の方法及びシステムは、バイオインフォマティクスパイプラインで利用されるシステム及び方法の完了又は実質的な完了後に利用され得る。一例として、バイオインフォマティクスパイプラインは、次世代の遺伝子シーケンシング結果を受信し、参照ゲノムにアラインされたDNA及び/又はRNAリードカウントを反映する1つ又は複数のBAMファイル等の一連のバイナリファイルを戻し得る。上記の方法及びシステムは、例えば、DNA及び/又はRNAのリードカウントを取り込み、結果として経路破壊検出を生成するために利用され得る。
デジタル及び実験室ヘルスケアプラットフォームが更にRNAデータ正規化群を含む場合、任意のRNAリードカウントは、上記のように実施形態を処理する前に正規化され得る。RNAデータ正規化群の例は、例えば、「RNA発現データを正規化及び修正する方法(Methods of Normalizing and Correcting RNA Expression Data)」と題され、19年9月24日に出願された米国特許出願第16/581,706号に開示されている。
デジタル及び実験室ヘルスケアプラットフォームが遺伝子データデコンボリューターを更に含む場合、デコンボリューションのための任意のシステム及び方法を利用して、2つ以上の生物学的成分を有する検体に関連する遺伝子データを分析して、各成分の遺伝子データへの寄与を決定するか、及び/又はそれが精製された場合にどの遺伝子データが検体の任意の構成要素に関連付けられるかを決定し得る。遺伝子データデコンボリューターの例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれている、両方とも「転移性組織サンプルのトランスクリプトームデコンボリューション(Transcriptome Deconvolution of Metastatic Tissue Samples)」と題され、19年12月31日に出願された米国特許出願第16/732,229号及びPCT19/69161号、「診断及び処置のための細胞型RNAプロファイルの計算(Calculating Cell-type RNA Profiles for Diagnosis and Treatment)」と題され、19年10月21日に出願された米国仮特許出願第62/924,054号、並びに「大規模データセット(2つ以上の組織タイプを有する検体のトランスクリプトームを含む)のためのバルクRNAトランスクリプトームの迅速なデコンボリューション(Rapid Deconvolution of Bulk RNA Transcriptomes for Large Data Sets (Including Transcriptomes of Specimens Having Two or More Tissue Types))」と題され、19年12月6日に出願された米国仮特許出願第62/944,995号に開示されている。
デジタル及び実験室のヘルスケアプラットフォームに自動化されたRNA発現コーラーが更に含まれる場合、RNA発現レベルは、分析用の複数のRNA発現データセットを準備して、同じ方法、装備、及び/又は試薬を使用して生成されていないためにデータセットに違いがある場合に発生するアーティファクトを回避するために行われることが多い、参照発現レベルに対する値として表現されるように調整され得る。自動化されたRNA発現コーラーの例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれている、「がん予測パイプラインにおけるRNA発現コールを自動化するためのシステム及び方法(Systems and Methods for Automating RNA Expression Calls in a Cancer Prediction Pipeline)」と題され、19年12月4日に出願された特許出願第62/943,712号に開示されている。
デジタル及び実験室ヘルスケアプラットフォームは、患者及び/又は検体に関連する遺伝的及び/又は臨床データに基づく場合がある病状に関連する情報、特性、又は決定を送達するための1つ又は複数の洞察エンジンを更に含み得る。例示的な洞察エンジンには、起源不明の腫瘍エンジン、ヒト白血球抗原(HLA)ホモ接合性喪失(LOH)エンジン、腫瘍変異量エンジン、PD-L1状態エンジン、相同組換え欠損エンジン、細胞経路破壊レポートエンジン、免疫浸潤エンジン、マイクロサテライト不安定性エンジン、病原体感染状態エンジン等が挙げられ得る。起源不明の腫瘍エンジンの例は、例えば、参照により、及びその全ての目的のためにその全体が本明細書に組み込まれる「マルチラベルがん分類のためのシステム及び方法(Systems and Methods for Multi-Label Cancer Classification)」と題され、19年5月31日に出願された米国仮特許出願第62/855,750号に開示されている。HLA LOHエンジンの例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる「ヘテロ接合性のヒト白血球抗原喪失の検出(Detection of Human Leukocyte Antigen Loss of Heterozygosity)」と題され、19年8月20日に出願された米国仮特許出願第62/889,510号に開示される。腫瘍変異量(TMB)エンジンの例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる「標的パネルシーケンシングのための腫瘍量方法論の評価(Assessment of Tumor Burden Methodologies for Targeted Panel Sequencing)」と題され、19年2月12日に出願された米国仮特許出願第62/804,458号に開示される。PD-L1状態エンジンの例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「RNA発現データ及び他の患者データを使用してがん細胞サンプルのPD-L1状態を予測するための汎がんモデル(A Pan-Cancer Model to Predict The PD-L1 Status of a Cancer Cell Sample Using RNA Expression Data and Other Patient Data)」と題され、19年5月30日に出願された、米国仮特許出願第62/854,400号に開示される。PD-L1状態エンジンの追加の例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「H&Eスライド画像を使用したPD-L1予測(PD-L1 Prediction Using H&E Slide Images)」と題され、19年3月26日に出願された米国仮特許出願第62/824,039号に開示されている。相同組換え欠損エンジンの例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「相同組換え欠損を予測するための統合的機械学習フレームワーク(An Integrative Machine-Learning Framework to Predict Homologous Recombination Deficiency)」と題され、19年2月12日に出願された、米国仮特許出願第62/804,730号に開示されている。細胞経路破壊レポートエンジンの例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「細胞経路レポート(Cellular Pathway Report)」と題され、19年8月16日に出願された米国仮特許出願第62/888,163号に開示される。免疫浸潤エンジンの例は、例えば、参照により、及びその全体が全ての目的のために本明細書に組み込まれる「統合されたRNA発現及び画像化機能に基づく免疫浸潤を予測するためのマルチモーダルアプローチ(A Multi-Modal Approach to Predicting Immune Infiltration Based on Integrated RNA Expression and Imaging Features)」と題された米国特許出願第16/533,676号に開示されている。免疫浸潤エンジンの追加の例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「免疫学的に活性な腫瘍微小環境を有する患者の同定のためのRNA免疫系の包括的評価(Comprehensive Evaluation of RNA Immune System for the Identification of Patients with an Immunologically Active Tumor Microenvironment)」と題され、19年2月12日に出願された米国特許出願第62/804,509号に開示されている。MSIエンジンの例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「マイクロサテライト不安定性決定システム及び関連する方法(Microsatellite Instability Determination System and Related Methods)」と題され、19年10月15日に出願された米国特許出願番号16/653,868号に開示される。MSIエンジンの追加の例は、例えば、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「液体生検を使用してがんのマイクロサテライト不安定性を検出するためのシステム及び方法(Systems and Methods for Detecting Microsatellite Instability of a Cancer Using a Liquid Biopsy)」と題され、19年11月6日に出願された米国仮特許出願第62/931,600号に開示されている。
デジタル及び実験室のヘルスケアプラットフォームにレポート生成エンジンが更に含まれている場合、上記の方法及びシステムを利用して、患者の遺伝子プロファイルの要約レポートと、医師に提示するための1つ又は複数の洞察エンジンの結果を作成してもよい。例えば、このレポートは、シーケンシングされた検体が、第1の臓器、第2の臓器、第3の臓器等からの腫瘍又は正常組織をどの程度含んでいたかについての情報を医師に提供し得る。例えば、このレポートは、検体内の組織タイプ、腫瘍、又は臓器のそれぞれの遺伝的プロファイルを提供し得る。遺伝子プロファイルは、組織タイプ、腫瘍、又は臓器に存在する遺伝子配列を表す場合があり、バリアント、発現レベル、遺伝子産物に関する情報、又は組織、腫瘍、若しくは臓器の遺伝子分析から導き出され得る他の情報を含む場合がある。このレポートには、遺伝子プロファイル又は洞察エンジンの知見及び要約の一部分又は全てに基づいて適合された治療法及び/又は臨床試験が含まれてもよい。例えば、治療法は、参照により、及びその全体が全ての目的のために本明細書に組み込まれる、「ゲノムバイオマーカーマッチングに加えて病歴を通じて得られた治療提案の改善(Therapeutic Suggestion Improvements Gained Through Genomic Biomarker Matching Plus Clinical History)」と題され、2019年2月12日に出願された米国仮特許出願第62/804,724号に開示されているシステム及び方法に従って適合させられ得る。例えば、この臨床試験は、参照により、及びその全体が全ての目的のために本明細書に組み込まれる、「臨床試験評価のシステム及び方法(Systems and Methods of Clinical Trial Evaluation)」と題され、2019年5月31日に出願された、米国仮特許出願第62/855,913号に開示されたシステム及び方法に従って適合され得る。
このレポートには、結果と多くの検体由来の結果のデータベースとの比較が含まれ得る。結果を結果のデータベースと比較するための方法及びシステムの例は、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「患者コホートの応答、進行及び生存を予測及び分析するための方法及びプロセス(A Method and Process for Predicting and Analyzing Patient Cohort Response, Progression and Survival)」と題され、18年12月31日に出願された米国仮特許出願第62/786,739号に開示されている。この情報は、追加の検体由来の同様の情報及び/又は臨床応答情報と組み合わせて、バイオマーカーを発見するか、又は臨床試験を設計するために使用され得る場合もある。
デジタル及び実験室ヘルスケアプラットフォームが、プラットフォームに関連して開発されたオルガノイドへの本明細書の1つ又は複数の実施形態の適用を更に含む場合、この方法及びシステムを使用して、オルガノイドに由来する遺伝子シーケンシングデータを更に評価して、シーケンスされたオルガノイドが第1の細胞型、第2の細胞型、第3の細胞型等を含む程度に関する情報を提供し得る。例えば、レポートは、検体内の各細胞タイプの遺伝的プロファイルを提供し得る。遺伝子プロファイルは、所与の細胞型に存在する遺伝子配列を表す場合があり、バリアント、発現レベル、遺伝子産物に関する情報、又は細胞の遺伝子分析に由来し得る他の情報を含む場合がある。このレポートには、デコンボリューションされた情報の一部分又は全てに基づいて適合された治療法が含まれてもよい。これらの治療法は、オルガノイド、そのオルガノイドの派生物、及び/又は同様のオルガノイドで試験して、それらの治療法に対するオルガノイドの感受性を決定し得る。例えば、オルガノイドは、参照により、及び全ての目的のためにその全体が本明細書に組み込まれる、「腫瘍オルガノイド培養組成物、システム、及び方法(Tumor Organoid Culture Compositions, Systems, and Methods)」と題され、2019年11月22日に出願された、米国特許出願第16/693,117号;「治療感度を予測するためのシステム及び方法(Systems and Methods for Predicting Therapeutic Sensitivity)」と題され、2019年10月22日に出願された特許出願第62/924,621号;及び「大規模表現型オルガノイド分析(Large Scale Phenotypic Organoid Analysis)」と題され、2019年12月5日に出願された米国特許出願第62/944,292号に開示されたシステム及び方法に従って培養及び試験され得る。
デジタル及び実験室医療プラットフォームが、医療機器又は一般に医療及び研究を対象とする実験室開発試験と組み合わせて、又はその一部として、上記の1つ又は複数の適用を更に含む場合、そのような実験室開発試験又は、医療機器の結果は、人工知能を使用して強化及び個人向けに変えられる場合がある。実験室で開発された試験の例、特に人工知能によって強化され得る試験の例は、例えば、参照により、及び全ての目的のためにその全体が組み込まれる、「標準化された実験室診断試験に対する人工知能支援精密医学の強化(Artificial Intelligence Assisted Precision Medicine Enhancements to Standardized Laboratory Diagnostic Testing)」と題され、19年10月22日に出願された、米国仮特許出願第62/924,515号に開示されている。
(実施例9)
例示的なRNAサンプル調製
1.RNA抽出
細胞によって産生されるRNA転写物の完全なセット(すなわち、トランスクリプトーム)の研究であるトランスクリプトーム分析は、病状及び疾患の進行と相関する遺伝的バリアントを同定するための有望な手段を提供する。例えば、がんに関連する遺伝的バリアントを特定するために、がん細胞を含む患者から収集されたサンプルに対してトランスクリプトーム分析を実行し得る。適切な患者サンプルとしては、組織サンプル、腫瘍(例えば、固形腫瘍)、生検、及び体液(例えば、血液、血清、血漿、喀痰、洗浄液、脳脊髄液、尿、精液、汗、涙、唾液)が挙げられる。或いは、トランスクリプトーム分析は、ヒトのがん検体から生成されたオルガノイド(すなわち、「腫瘍オルガノイド」)に対して実行され得る。
RNAシーケンシング(RNA-seq)は、RNAを含む任意の患者サンプルで実行され得るが、当業者は、シーケンシングプロトコルが使用中の特定のサンプルに合わせて調整されるべきであることを理解する。例えば、RNAは、組織学用に処理された組織サンプル(例えば、ホルマリン固定、パラフィン包埋(FFPE)組織切片)で高度に分解される傾向がある。したがって、研究者は、RNA-seqプロトコルのいくつかの重要な工程を変更して、シーケンシングアーティファクトを軽減する(例えば、BMC Medical Genomics 12、195(2019)を参照のこと)。
今日、トランスクリプトーム分析は主に、次世代シーケンサーを使用してサンプル中のRNA転写物を検出するハイスループットRNAシーケンシング(RNA-Seq)を使用して実行される。RNA-seqを実行する最初の工程は、サンプルからRNAを抽出することである。
A.細胞溶解
サンプルからRNAを抽出する最初の工程は、多くの場合、そのサンプルに存在する細胞を溶解することである。細胞を溶解するために、いくつかの物理的破壊方法が一般的に使用され、これには、例えば、機械的破壊(例えば、ブレンダー又は組織ホモジナイザーを使用)、液体均質化(例えば、ダウンス又はフレンチプレスを使用)、高周波音波(例えば、超音波処理装置を使用)、凍結/解凍サイクル、加熱、手動粉砕(例えば、乳鉢及び乳棒を使用)、及びビードビーティング(例えば、BioSpecのMini-beadbeater-96を使用)が挙げられる。細胞はまた、その多くは市販されている界面活性剤を含む試薬を使用して一般的に溶解される(例えば、QIAGEN社のQIAzol Lysis Reagent、PromegaのFastBreak(商標)Cell Lysis Reagent)。多くの場合、物理的破壊法は、例えば、溶解の効率を高める界面活性剤又はプロテアーゼ(例えば、プロテイナーゼK)等の溶解試薬を含む「均質化緩衝液」で行われる。モジナイゼーション緩衝液には、RNAを分解から保護するための消泡剤及び/又はRNase阻害剤も含まれ得る。当業者は、異なる組織から可能な限り最高の収量を得るために、異なる細胞溶解技術が必要とされ得ることを理解する。放出されたRNAの分解を最小限に抑え、核クロマチンの放出を回避する技術が好ましい。
B.RNAの単離
細胞が溶解された後、RNAを他の細胞成分から分離して、RNAが富化されたサンプルを生成し得る。全RNAは通常、グアニジニウムチオシアネート-フェノール-クロロホルム抽出物(例えば、TRIzolを使用)を使用するか、又はトリクロロ酢酸/アセトン沈殿とそれに続くフェノール抽出を行うことによって単離される。ただし、RNAを抽出するための市販のカラムベースのシステムも多数ある(例えば、Invitrogen社のPureLink RNA MiniKit及びZymo ResearchのDirect-zol Miniprepキット)。
理想的には、RNAサンプルにはDNA及び酵素による汚染がほとんど含まれていない。この目的のために、単離又はRNA富化方法は、DNAを除去する薬剤(例えば、TURBO DNase-I)、及び/又はサンプルから酵素タンパク質を除去する薬剤(例えば、Beckman CoulterのAgencourt(登録商標)RNAClean(登録商標)XPビーズ)を利用し得る。
場合によっては、全トランスクリプトームシーケンシングを使用して、メッセンジャーRNA(mRNA)及び全ての非コードRNAを含む、細胞内に存在する全ての転写物を分析する。トランスクリプトーム全体を見ることによって、研究者はエクソン及びイントロンをマッピングし、スプライシングバリアントを特定し得る。特に、ほとんどの全転写ライブラリー調製プロトコルには、リボソームRNA(rRNA)を除去する工程が含まれ、そうでなければ、シーケンシングリードの大部分を占め、研究者に関連性の高い情報を提供しない。rRNAの枯渇は、通常、キット、例えば、Illumina社のRibo-Zero Plus rRNA枯渇キット及びZymoのSeq RiboFree Total RNA Library Kitを使用して達成される。
その他の場合、より標的を絞ったRNA-Seqプロトコルを使用して、特定のタイプのRNAを調べる。例えば、mRNA-seqは一般的に、トランスクリプトーム全体の1~2%しか占めていないゲノムの「コーディング」部分を選択的に研究するために使用される。mRNAのサンプルを富化すると、コーディング遺伝子で達成されるシーケンス深度が増加し、まれな転写産物及びバリアントの同定が可能になる。ポリアデニル化されたmRNAは、オリゴdTビーズ(Invitrogen社のDynabeads(商標)等)を使用するために一般的に富化されている。この富化工程は、単離された総RNA又は粗細胞溶解液のいずれでも実行され得る。
マイクロRNA(miRNA)及び低分子干渉RNA(siRNA)の分析のために、標的化アプローチも開発されている。これらのRNAは通常、低分子RNAを効率的に回収するように設計されたキット(例えば、Invitrogen社のmirVana(商標)miRNA分離キット)を使用して単離される。
2.ライブラリーの調製
RNAがサンプルから抽出された後、次の主要な工程は、RNAを次世代シーケンシング(NGS)に適した形に変換することである。一連の工程を通じて、RNAは「シーケンシングライブラリー」として公知のDNA断片のコレクションに変換される。ライブラリーがシーケンシングされた後、結果として得られるシーケンシングの「リード」を、分析された細胞の発現プロファイルを決定するために、参照ゲノム又はトランスクリプトームにアラインする。
場合によっては、ライブラリーの準備を自動化して、サンプルスループットを向上させ、エラーを最小限に抑え、ハンズオン時間を短縮してもよい。完全に自動化されたライブラリー調製は、例えば、液体処理ロボット(例えば、PerkinElmerのSciClone(登録商標)NGSx)を使用して実行され得る。
A.逆転写
シーケンシングのために、RNAは、逆転写(RT)を使用して、より安定した二本鎖相補的DNA(cDNA)に転換又は変換される。場合によっては、RNAを単離する前に、サンプル溶解液に対して直接逆転写を行う。その他の場合、逆転写は単離されたRNAで行われる。
逆転写は、RNA鋳型及びRNAの3'末端に相補的な短いプライマーを使用してcDNAの相補鎖を合成する酵素である逆転写酵素によって触媒される。次に、このcDNAの最初の鎖は、これをPCRにかけるか、又はDNAポリメラーゼI及びDNAリガーゼの組合せを使用することによって、二本鎖にされる。後者の方法では、RNase(例えば、RNase H)をRNA鎖を消化するために一般的に使用して、最初のcDNA鎖が第2のcDNA鎖の合成のための鋳型として機能することを可能にする。
多くの逆転写酵素が市販されており、これには、トリ骨髄芽球症ウイルス(AMV)逆転写酵素(例えば、ニューイングランドバイオラボ(New England Biolabs)のAMV逆転写酵素)及びモロニーマウス白血病ウイルス(M-MuLV、MMLV)逆転写酵素(例えば、ClontechのSMARTscribe(商標)、Life TechnologiesのSuperScriptII(商標)、及びThermo ScientificのMaxima H Minus(商標)が挙げられる。特に、利用可能な逆転写酵素の多くは、熱安定性又は効率を改善するように設計されている(例えば、3'→5'エキソヌクレアーゼ活性を排除するか、RNase H活性を低下させることによって)。
新しい鎖の合成の開始点として機能するプライマーは、ランダムプライマー(すなわち、任意のRNAのRT用)であっても、オリゴdTプライマー(すなわち、mRNAのRT用)であっても、又は遺伝子特異的プライマー(すなわち、特定の標的RNAのRT用)であってもよい。
逆転写に続いて、エキソヌクレアーゼ(例えば、エキソヌクレアーゼI)をサンプルに添加して、反応から残っているプライマーを分解し、それらがその後の増幅工程に干渉するのを防ぎ得る。
B.断片化及びサイズの選択
ほとんどのシーケンシング技術は長いDNA鎖を容易に分析できないため、DNAは通常、シーケンシングの前に均一なサイズの断片に断片化される。最適な断片長は、使用するサンプルタイプ及びシーケンシングプラットフォームの両方に依存する。例えば、全ゲノムシーケンシングは通常、長さが約350 bpのDNA断片で最適に機能するが、ハイブリダイゼーション捕捉を使用した標的化シーケンシング(セクション2Gを参照)は、長さが約200bpのDNA断片で最適に機能する。
場合によっては、断片化は逆転写の後に(すなわち、cDNA上で)実行される。DNAを断片化するための適切な方法としては、物理的方法(例えば、超音波処理、音響、噴霧、遠心力、針、又は流体力学を使用)、酵素的方法(例えば、New England BioLabsのNEBNext dsDNA Fragmentaseを使用)、及びタグ付け(例えば、Illumina社のNextera(商標)システムを使用)が挙げられる。
その他の場合、断片化は逆転写の前に実行される(すなわち、RNA上で)。DNAに適した断片化方法に加えて、RNAは熱及びマグネシウムを使用して断片化してもよい(例えば、Roche社のKAPA Hyper Prep Kitを使用)。
サイズ選択工程は、その後、最適な長さ又は長さの範囲の断片のためにライブラリーを富化するように実行され得る。従来、サイズの選択は、アガロースゲル電気泳動を使用して異なるサイズの断片を分離すること、所望のサイズの断片を切り出すこと、及びゲル抽出を実行することによって達成した(例えば、QiagenのMinElute Gel ExtractionKit(商標)を使用)。ただし、サイズの選択は現在、磁気ビーズベースのシステム(例えば、Beckman CoulterのAMPureXP(商標)、PromegaのProNex(登録商標)サイズ選択精製システム(Size-Selective Purification System))を使用して一般的に達成される。
C.アダプターライゲーション
シーケンシングの前に、cDNA断片をシーケンシングアダプターに連結する。シーケンシングアダプターは、短いDNAオリゴヌクレオチドであって、(1)シーケンシング反応中にcDNA断片を増幅するために必要な配列、及び(2)NGSプラットフォーム(例えば、Illumina社フローセル又はIon Torrentビーズの表面)と相互作用する配列、を含む短いDNAオリゴヌクレオチドである。したがって、アダプターは、使用するシーケンシングプラットフォームに基づいて選択する必要がある。
複数のサンプルからのライブラリーは、通常、1回のシーケンシング実行でプール及び分析される(セクション2Fを参照)。プールされたサンプル内の各cDNAのソースを追跡するために、各ライブラリーのcDNA断片にライゲーションされるアダプターには、固有の分子バーコード(又は複数のバーコードの組合せ)が含まれている。シーケンシング反応中に、シーケンサーは、cDNAの生物学的塩基配列に加えてこのバーコード配列を読み取る。次に、バーコードを使用して、データ分析中に各cDNAをその起源のサンプルに割り当てるが、これは「逆多重化(demultiplexing)」と呼ばれるプロセスである。
シーケンシング反応に使用されるインデックス付け戦略は、プールされたサンプルの数及び所望の精度のレベルに基づいて選択する必要がある。例えば、cDNA断片の両端に一意の識別子が追加される一意のデュアルインデックスを、ライブラリーが高精度で逆多重化されることを保証するために一般的に使用する。アダプターには、固有の分子識別子(UMI)、多くの場合縮退塩基を含む短い配列が含まれる場合があり、所定のサンプルライブラリー内の各分子に固有のバーコードが組み込まれる。UMIは、ライブラリーの調製、標的の富化、又はシーケンシング中に導入されたエラーから真のバリアントを区別できるようにすることによって、偽陽性のバリアントコールの割合を減らし、バリアント検出の感度を高める。例えば、Roche社のSeqCapデュアルエンドアダプター、IDTのxGenデュアルインデックスUMIアダプター、及びIllumina社のTruSeq UDインデックス等、多くのインデックス配列及びアダプターセットが市販されている。
D.増幅
一部のシーケンシングアプリケーションでは必要ない場合もあるが、ライブラリー調製には通常、シーケンシング能力のあるDNA断片(すなわち、アダプターがライゲーションされた末端を有する断片)を富化し、下流の処理のために十分な量のライブラリー材料を生成するための少なくとも1つの増幅工程が含まれる。増幅は、標準的なポリメラーゼ連鎖反応(PCR)技術を使用して実行され得る。ただし、可能であれば、増幅バイアスを最小限に抑え、シーケンシングアーティファクトの導入を制限するように注意しなければならない。これは、適切な酵素及びプロトコルパラメータを選択することで達成される。この目的のために、いくつかの企業が忠実度の高いDNAポリメラーゼ(例えば、Roche社のKAPA HiFi DNAポリメラーゼ)を提供しており、より正確なシーケンシングデータを生成することが示されている。多くの場合、これらのDNAポリメラーゼは、PCRマスターミックス(例えば、New England BioLabsのNEBNext(登録商標)High-Fidelity 2X PCRマスターミックス)の一部として、又はキット(例えば、Roche社のKAPA HiFi Library Amplificationキット)の一部として購入される。
当業者は、高度に最適化されたPCRプロトコルが使用される場合でさえ、PCR条件が各シーケンシング実験のために微調整されなければならないことを理解する。例えば、ライブラリー内のDNAの初期濃度、及び使用するシーケンサーの入力要件に応じて、ライブラリーを4~14サイクルのPCRにかけることが望ましい場合がある。
場合によっては、ライブラリー調製プロトコルには、複数回のライブラリー増幅が含まれる。例えば、場合によっては、ライブラリーがプールされた後に、追加の増幅回とそれに続くPCRクリーンアップを実行する。
E.クリーンアップ
PCRに続いて、増幅されたDNAは通常、反応から残っている酵素、ヌクレオチド、プライマー、及び緩衝液成分を除去するために精製される。精製は通常、フェノール-クロロホルム抽出とそれに続くエタノール沈殿を使用するか、又はカオトロピック塩の存在下でDNAが選択的に結合するシリカマトリックスを含むスピンカラムを使用して達成される。例えば、Qiagen社(例えば、MinElute PCR Purification Kit)、Zymo Research(商標)(DNA Clean&Concentrator(商標)-5)、Invitrogen社(例えば、PureLink(商標)PCR Purification Kit)のキットを含む、多くのカラムベースのPCRクリーンアップキットが市販されている。或いは、常磁性ビーズ(例えば、Axygen(商標)AxyPrepMag(商標)PCRクリーンアップキット等)を使用して精製を達成してもよい。
F.プールすること
シーケンシングを費用効果の高いものに保つために、研究者は多くの場合、それぞれが一意のバーコード(セクション2Cを参照)を有する複数のライブラリーを一緒にプールして、1回の実行でシーケンシングする。使用するシーケンサーと所望のシーケンス深度によって、プールされるサンプルの数が決まる。例えば、一部のアプリケーションでは、12未満のライブラリーをプールしてシーケンス深度を増やすことが有利であるが、他のアプリケーションでは、100を超えるライブラリーをプールすることが賢明であり得る。
重要なことに、複数のライブラリーが1回の実行でシーケンシングされる場合、シーケンシングカバレッジが各ライブラリーでほぼ等しくなるように注意する必要がある。この目的のために、(モル濃度に基づいて)等量の各ライブラリーをプールする必要がある。更に、プールされたライブラリーの総モル濃度は、シーケンサーと互換性がなければならない。したがって、ライブラリー内のDNAを正確に定量化し(例えば、セクション2Iで考察した方法を使用して)、ライブラリーをプールする前に必要な計算を実行することが重要である。場合によっては、適切な総モル濃度を達成するために、例えば、真空遠心(vacufuge)を使用して、プールされたライブラリーを濃縮する必要があり得る。
G.富化
一部のアプリケーションでは、サンプルのトランスクリプトーム全体をシーケンシングする必要はない。代わりに、「標的化シーケンシング」を使用して、選択した遺伝子セット又は特定のゲノムエレメントを研究してもよい。標的配列が富化されたライブラリーは、通常、ハイブリダイゼーションベースの方法(すなわち、ハイブリダイゼーション捕捉ベースの標的富化)を使用して調製される。ハイブリダイゼーションは、固体表面(マイクロアレイ)又は溶液のいずれで実行されてもよい。溶液ベースの方法では、目的の遺伝子又はゲノムエレメントと特異的にハイブリダイズするビオチン化オリゴヌクレオチドプローブのプールをライブラリーに追加する。次に、ストレプトアビジンでコーティングされた磁気ビーズを使用してプローブを捕捉及び精製し、これらのプローブにハイブリダイズした配列を、その後増幅及びシーケンシングする。IDT(例えば、xGen Exome Research Panel v1.0プローブ)及びRoche社のプローブパネル(例えば、SeqCap(登録商標)プローブ)等、ライブラリーを強化するための多くのプローブパネルが市販されている。重要なことに、利用可能な多くのプローブパネルをカスタマイズし得、研究者が特定のアプリケーションに正確に合わされる捕捉プローブのセットを設計することを可能にする。更に、標的の富化を容易にする多くのキット(例えば、Roche社のSeqCap EZ MedExome Target Enrichment Kit)及びハイブリダイゼーションミックス(例えば、IDTのxGen Lockdown)が購入可能である。
場合によっては、ターゲット富化を実行する前に、オフターゲット捕捉を減らす試薬でライブラリーを処理することが有利であり得る。例えば、ライブラリーは通常、アダプター配列(例えば、xGen Blocking Oligos)又は反復配列(例えば、ヒトCot DNA)に結合するオリゴヌクレオチドで処理して、捕捉プローブへの非特異的結合を減らす。
H.スパイクイン対照
異なる実験条件の細胞は同じ量のRNAを生成しないので、研究者らはシーケンシングデータを正規化して、実験条件全体の変化を正確に特定する必要がある。異なる実験条件間で転写にグローバルな変化がある場合、正規化は特に重要である。したがって、研究者は通常、正規化のためにシーケンシングライブラリーに「スパイクイン対照」を追加する。スパイクイン対照は、実験細胞に既知の比率で追加されるDNA配列を構成する。対照のDNAは、データ分析中に実験用cDNAと容易に区別される任意のDNAであってもよい。例えば、対照ライブラリーは、一般に、合成DNA又は目的の生物以外の生物からのDNAを含む(例えば、PhiXスパイクイン対照が、ヒト由来のライブラリーに加えられてもよい)。
I.品質評価
シーケンシングの前に、ライブラリーを評価して、有用なシーケンシング結果を生成するのに十分な量及び質のDNAが含まれていることを確認しなければならない。ライブラリーの濃度がシーケンサーにロードするのに十分であることを確認するには、DNAを定量化する必要がある。DNA定量の一般的に使用される方法としては、ゲル電気泳動、UV分光光度法(例えば、NanoDrop(登録商標))、蛍光法(例えば、Qubit(商標)、Picofluor(商標))、リアルタイムPCR(定量的PCRとしても公知)、又は液滴デジタルエマルジョンPCR(ddPCR)が挙げられる。DNAの定量は、染料及び染色剤の使用によって支援されることが多く、その豊富な品揃えが市販されている(例えば、臭化エチジウム、SYBR Green、RiboGreen(登録商標))。特に、NGSの推奨入力範囲が非常に狭いことを考えると、最終ライブラリーの濃度が適切であることを確認するために、非常に正確な定量方法を使用することが望ましい。
更に、断片の長さがシーケンシングに適していることを確認するために、最終ライブラリーの断片サイズ分布を評価する必要がある。従来、断片サイズの分布は、アガロースゲルでサンプルを泳動することによって決定された。ただし、サンプル入力の必要が少ない、より高度なキャピラリー電気泳動方法(例えば、全てAgilent社のBioanalyzer(登録商標)、TapeStation(登録商標)、Fragment Analyzer(商標))が現在ではより一般的に使用されている。便利なことに、これらの方法は、断片サイズ及びDNAの濃度の両方を分析するために使用され得る。
J.クローン増幅
ライブラリーをシーケンシングするために、それはデバイス、典型的にはフローセル(Illumina社)又はチップ(Ion Torrent)に適用され、そこでシーケンシング化学が起こる。これらのデバイスは、アダプター配列に相補的な短いオリゴヌクレオチドで装飾されており、ライブラリー内のcDNAをデバイスに付着させることを可能にする。シーケンシングの前に、cDNAはクローン増幅(例えば、クラスター生成(Illumina社)又はマイクロエマルジョンPCR(Ion Torrent))に供され、デバイスの表面に各cDNAの多数のコピーのクラスターが生成され、それによってシーケンシング反応中に各cDNAによって生成されるシグナルが増幅される。多くの場合、クローン増幅は、市販のキット(例えば、Illumina社のPaired-end Cluster Kit)を使用して実行される。クローン増幅に続いて、ライブラリーはシーケンシングの準備ができている。
2.差次的遺伝子発現分析
RNA-seqデータの主な用途の1つは、2つ以上の実験群間で差次的に発現する遺伝子を特定することである。例えば、RNAシーケンスデータを使用して、健康な個人と比較してがん患者で有意に高いか又は低いレベルで発現される遺伝子を特定し得る。これは、統計分析を実行して、様々な実験群間で各遺伝子の正規化されたリードカウントを比較することによって達成される。この分析の目的は、リードカウントで観察された相違が有意であるか否か、すなわち、自然なランダム変動に起因して予想されるものよりも大きいか否かを判断することである。
分析のために生のシーケンシングデータを準備するために、いくつかのデータ処理工程を実行しなければならない。シーケンスデータは通常、FASTQ形式で提供され、各シーケンシングリードは品質スコアに関連付けられる。まず、そのデータを処理して、アダプターシーケンス及び複雑性の低いリード等のシーケンシングアーティファクトを削除する。シーケンシングエラーは、リード品質スコアに基づいて識別され、削除又は修正される。TagDust、SeqTrim、Quake等の公開されているツールを使用して、これらの「データグルーミング」工程を実行してもよい。
データ処理の次の段階の間、アラインメントツールを使用してリードを参照ゲノムにアラインする。この工程には、例えば、kallisto、TopHat、Cufflinks、及びScriptureを含むいくつかの公的に入手可能なツールを使用してもよい(これら及びその他のアラインメントツールは当該技術分野で周知であり、すぐに利用できる)。これらのプログラムを使用して、転写産物を再構築し、バリアントを特定し、各転写産物及び遺伝子の発現レベルを定量し得る。
リードがアラインされ、定量化された後、差次的発現分析を実行し得る。差次的発現分析に一般的に使用される統計的方法としては、負の二項分布に基づく方法(例えば、edgeR及びDESeq)、並びに負の二項モデルに基づくベイズ的アプローチ(例えば、baySeq及びEBSeq)が挙げられる。
上記の例は例示的なものであり、デジタル及び実験室のヘルスケアプラットフォームと組み合わせた本明細書に記載のシステム及び方法の使用を制限するものではないことを理解されたい。
参照文献に組み込まれた出願
以下の米国特許出願のそれぞれは、参照によりその全体が本明細書に組み込まれる。
(1)18年12月31日出願、米国仮特許出願第62/786,739号;
(2)19年2月12日出願、米国仮特許出願第62/804,458号;
(3)19年2月12日出願、米国仮特許出願第62/804,509号;
(4)19年2月12日出願、米国仮特許出願第62/804,724号;
(5)19年2月12日出願、米国仮特許出願第62/804,730号;
(6)19年3月26日出願、米国仮特許出願第62/824,039号;
(7)19年5月30日出願、米国仮特許出願第62/854,400号;
(8)19年5月31日出願、米国仮特許出願第62/855,913号;
(9)19年5月31日出願、米国仮特許出願第62/855,750号;
(10)19年7月12日出願、米国仮特許出願第62/873,693号;
(11)19年8月16日出願、米国仮特許出願第62/888,163号;
(12)19年8月20日出願、米国仮特許出願第62/889,510号;
(13)19年9月19日出願、米国仮特許出願第62/902,950号;
(14)19年10月21日出願、米国仮特許出願第62/924,054号;
(15)19年10月21日出願、米国仮特許出願第62/924,073号;
(16)19年10月22日出願、米国仮特許出願第62/924,515号;
(17)19年10月22日出願、米国仮特許出願第62/924,621号;
(18)19年11月6日出願、米国仮特許出願第62/931,600号;
(19)19年12月4日出願、米国仮特許出願第62/943,712号;
(20)19年12月5日出願、米国仮特許出願第62/944,292号;
(21)19年12月6日出願、米国仮特許出願第62/944,995号;
(22)19年12月31日出願、米国仮特許出願第62/786,756号;
(23)19年8月6日出願、米国特許出願第16/533,676号;
(24)19年9月24日出願、米国特許出願第16/581,706号;
(25)19年10月15日出願、米国特許出願第16/653,868号;
(26)19年10月18日出願、米国特許出願第16/657,804号;
(27)19年11月22日出願、米国特許出願第16/693,117号;
(28)19年12月31日出願、米国特許出願第16/732,229号;
(29)19年9月24日出願、米国PCT出願PCT/US2019/52801;
(30)19年12月31日出願、米国PCT出願PCT/US2019/69161;
10 システム
20 通信ネットワーク
100 データ入力
200n 経路エンジン
210 コンピューティングデバイス
214 プロセッサ
216 ディスプレイ
218 入力
220 通信システム
222 メモリ
250 二次コンピューティングデバイス、二次通信デバイス
254 プロセッサ
256 ディスプレイ
258 入力
260 通信システム
262 メモリ
290 ディスプレイ
300 経路データベース
400 腫瘍サンプルデータベース
410 データセット
411~413 トランスクリプトーム値
414 第1の経路ラベル
415 第2の経路ラベル
416 第3の経路ラベル
500 薬物経路相互作用データベース
600 治療応答データベース
700 臨床試験データベース
800 患者報告ジェネレーター

Claims (30)

  1. 患者サンプルから、サンプルにおいて細胞経路における調節不全を検出するために、トランスクリプトームデータを調製するための方法であって、
    a.サンプルからRNAを抽出する工程と、
    b.(a)の抽出したRNAを使用して、cDNAサンプルを作製するための鋳型として、二本鎖cDNAを生成する工程と、
    c.(b)のcDNAサンプルから、
    1)cDNAサンプルの二本鎖cDNAを断片化し、
    2)長さが約200塩基対~約400塩基対の断片をサイズ選択して、cDNA画分を得る
    ことによって、cDNA画分を得る工程と、
    d.cDNA画分中に存在するcDNA断片をシーケンシングして、トランスクリプトームデータを生成する工程と、
    トランスクリプトームデータの少なくとも一部分を、少なくとも1つの訓練された経路破壊エンジンに提供する工程と、
    少なくとも1つの訓練された経路破壊エンジンを使用して、トランスクリプトームデータの一部分を分析する工程と
    を含む、方法。
  2. 少なくとも1つの訓練された経路破壊エンジンが、複数の陽性対照検体及び複数の陰性対照検体を含む訓練データに基づいて訓練されており、
    それぞれの陽性対照検体が、遺伝子データを含み、陽性対照遺伝子データが、細胞経路内に含まれる少なくとも1つの遺伝子において少なくとも1つの検出可能な病原性バリアントを含み、
    それぞれの陰性対照検体が、遺伝子データを含み、陰性対照遺伝子データが、細胞経路内に含まれるいずれの遺伝子においても検出可能なバリアントを含まない、
    請求項1に記載の方法。
  3. 少なくとも1つの訓練された経路破壊エンジンが、複数の陽性対照検体及び複数の陰性対照検体を含む訓練データに基づいて訓練されており、方法が、
    陽性対照検体と陰性対照検体との間の複数の差次的メトリックを計算する工程であって、それぞれの差次的メトリックが、細胞経路内に含まれる少なくとも1つの遺伝子と関連している、工程と、
    トランスクリプトームデータについて、差次的メトリック及び所定の閾値に基づいて、差次的に発現される遺伝子を決定する工程と
    を更に含む、請求項1に記載の方法。
  4. 陽性対照遺伝子データ及び陰性対照遺伝子データの少なくとも一部分が、DNAデータを含む、請求項2に記載の方法。
  5. 陽性対照遺伝子データ及び陰性対照遺伝子データの少なくとも一部分が、RNAデータを含む、請求項2に記載の方法。
  6. RNAデータが、トランスクリプトームデータを含む、請求項5に記載の方法。
  7. 検出可能な病原性バリアントが、RNA発現レベルを含む、請求項5に記載の方法。
  8. 陰性対照RNAトランスクリプトームデータが、発現されるRNAについて、1つ又は複数の野生型サンプルと比較して、発現レベルに検出可能な変動を含まない、請求項5に記載の方法。
  9. 分析する工程が、
    少なくとも1つの訓練された経路破壊エンジンから、細胞経路における細胞経路調節不全を示す少なくとも1つの経路破壊スコアを受信すること、
    少なくとも1つの経路破壊スコアに基づいて、経路破壊レポートを生成すること、及び
    経路破壊レポートを、ディスプレイ又はメモリのうちの少なくとも1つに出力させること
    を含む、請求項1に記載の方法。
  10. 経路破壊レポートが、少なくとも1つの経路破壊スコアと関連する情報を含み、情報が、a)原因となる可能性のある変異、b)意義不明の1つ又は複数のバリアントの特定、c)1つ又は複数の推奨される治療法、d)経路破壊スコアに基づいて、処置への曝露後にオルガノイドをモニタリングする提案、e)経路破壊スコアに基づいて、検体と関連する患者に、少なくとも1つの臨床試験を適合させること、及びd)参照医学文献のうちの少なくとも1つを含む、請求項9に記載の方法。
  11. 分析する工程が、
    第1の訓練された経路破壊エンジンから、細胞経路における細胞経路調節不全を示す第1の経路破壊スコアを受信すること、
    第2の訓練された経路破壊エンジンから、細胞経路における細胞経路調節不全を示す第2の経路破壊スコアを受信すること、
    細胞経路、第1の経路破壊スコア、及び第2の経路破壊スコアに基づいて、メタ経路描写を生成すること、並びに
    メタ経路描写をディスプレイに出力させること
    を含む、請求項1に記載の方法。
  12. 少なくとも1つの訓練された経路破壊エンジンが、モデルスコアを出力するように構成される訓練されたモデルを含み、所定の閾値を下回るモデルスコアが、非調節不全を示し、所定の閾値を上回るモデルスコアが、調節不全を示す、請求項1に記載の方法。
  13. 少なくとも1つの訓練された経路破壊エンジンが、複数の訓練されたモデルを含み、それぞれの訓練されたモデルが、細胞経路内に含まれる異なる遺伝子モジュールと関連するモデルスコアを出力するように構成される、請求項1に記載の方法。
  14. 訓練されたモデルのそれぞれによって出力されるモデルスコアに基づいて、グローバル調節不全スコアを計算する工程
    を更に含む、請求項13に記載の方法。
  15. 1つ又は複数の訓練された経路破壊エンジンが、1つ又は複数の機械学習モデル又はニューラルネットワークを含み、
    1つ又は複数の機械学習モデルのうちの少なくとも1つが、線形回帰を使用する機械学習アルゴリズムを含む、請求項1に記載の方法。
  16. 細胞経路が、1~5個の遺伝子、6~10個の遺伝子、10~20個の遺伝子、又は20~100個の遺伝子を含む、請求項1に記載の方法。
  17. 分析する工程が、
    細胞経路内に含まれるいくつかのモジュール、及び細胞経路内に含まれるモジュールのうちの少なくとも1つにおける調節不全の指標を含む、細胞経路の様式化された描写を含む経路破壊レポートを生成すること、並びに
    経路破壊レポートを、ディスプレイ又はメモリのうちの少なくとも1つに出力させること
    を含む、請求項1に記載の方法。
  18. 細胞経路が、RAS/RTK経路、TCGAでキュレートされた経路、カスタム経路、又はPI3K経路である、請求項1に記載の方法。
  19. 患者サンプルについて、細胞経路における調節不全を検出するためのコンピュータ実装方法であって、
    陽性対照遺伝子データ及び陰性対照遺伝子データを含む訓練データセットを使用して、1つ又は複数の経路破壊エンジンを訓練する工程であって、
    陽性対照遺伝子データが、細胞経路内に含まれる少なくとも1つの遺伝子において少なくとも1つの検出可能な病原性バリアントを含み、陰性対照遺伝子データが、細胞経路内に含まれるいずれの遺伝子においても検出可能なバリアントを含まず、
    1つ又は複数の訓練された経路破壊エンジンが、1つ又は複数の機械学習モデル又はニューラルネットワークを含む、工程と、
    患者サンプルと関連する遺伝子データを受信する工程であって、遺伝子データが、トランスクリプトームデータを含む、工程と、
    トランスクリプトームデータの一部分を、1つ又は複数の訓練された経路破壊エンジンのうちの少なくとも1つに提供する工程と、
    1つ又は複数の訓練された経路破壊エンジンのうちの少なくとも1つから、細胞経路における細胞経路調節不全を示す少なくとも1つの経路破壊スコアを受信する工程と、
    少なくとも1つの経路破壊スコアに基づいて、経路破壊レポートを生成する工程と
    を含む、方法。
  20. 訓練データが、DNAデータを含む、請求項19に記載の方法。
  21. 訓練データが、RNA発現レベルを含むRNAデータを含む、請求項19に記載の方法。
  22. 経路破壊レポートを生成する工程が、細胞経路の様式化された描写を含み、様式化された描写が、細胞経路内に含まれるいくつかのモジュール、及び細胞経路内に含まれるモジュールのうちの少なくとも1つにおける調節不全の指標を含み、方法が、
    経路破壊レポートを、ディスプレイ又はメモリのうちの少なくとも1つに出力させる工程
    を更に含む、請求項19に記載の方法。
  23. 1つ又は複数の機械学習モデルのうちの少なくとも1つが、線形回帰を使用する機械学習アルゴリズムを含む、請求項19に記載の方法。
  24. 経路破壊レポートが、少なくとも1つの経路破壊スコアと関連する情報を含み、情報が、a)原因となる可能性のある変異、b)意義不明の1つ又は複数のバリアントの特定、c)1つ又は複数の推奨される治療法、d)経路破壊スコアに基づいて、処置への曝露後にオルガノイドをモニタリングする提案、e)経路破壊スコアに基づいて、検体と関連する患者に、少なくとも1つの臨床試験を適合させること、及びd)参照医学文献のうちの少なくとも1つを含む、請求項19に記載の方法。
  25. 遺伝子データにおいて意義不明であるバリアントを検出する工程と、
    経路破壊スコアに基づいて、バリアントが病原性である尤度を決定する工程と
    を更に含む、請求項19に記載の方法。
  26. 受信する工程が、
    第1の訓練された経路破壊エンジンから、細胞経路における細胞経路調節不全を示す第1の経路破壊スコアを受信すること、
    第2の訓練された経路破壊エンジンから、細胞経路における細胞経路調節不全を示す第2の経路破壊スコアを受信すること、
    細胞経路、第1の経路破壊スコア、及び第2の経路破壊スコアに基づいて、メタ経路描写を生成すること、並びに
    メタ経路描写をディスプレイに出力させること
    を含む、請求項19に記載の方法。
  27. 少なくとも1つの訓練された経路破壊エンジンが、モデルスコアを出力するように構成されるモデルを含み、所定の閾値を下回るモデルスコアが、非調節不全を示し、所定の閾値を上回るモデルスコアが、調節不全を示す、請求項19に記載の方法。
  28. 少なくとも1つの訓練された経路破壊エンジンが、複数の訓練されたモデルを含み、それぞれの訓練されたモデルが、細胞経路内に含まれる異なる遺伝子モジュールと関連するモデルスコアを出力するように構成される、請求項27に記載の方法。
  29. 訓練されたモデルのそれぞれによって出力されるモデルスコアに基づいて、グローバル調節不全スコアを計算する工程
    を更に含む、請求項28に記載の方法。
  30. 経路が、TCGAでキュレートされた経路を含む、請求項19に記載の方法。
JP2022509680A 2019-08-16 2020-08-14 がん検体において細胞経路調節不全を検出するためのシステム及び方法 Pending JP2022544604A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962888163P 2019-08-16 2019-08-16
US62/888,163 2019-08-16
US201962904300P 2019-09-23 2019-09-23
US62/904,300 2019-09-23
US202062986201P 2020-03-06 2020-03-06
US62/986,201 2020-03-06
PCT/US2020/046513 WO2021034712A1 (en) 2019-08-16 2020-08-14 Systems and methods for detecting cellular pathway dysregulation in cancer specimens

Publications (2)

Publication Number Publication Date
JP2022544604A true JP2022544604A (ja) 2022-10-19
JPWO2021034712A5 JPWO2021034712A5 (ja) 2023-08-18

Family

ID=74646007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022509680A Pending JP2022544604A (ja) 2019-08-16 2020-08-14 がん検体において細胞経路調節不全を検出するためのシステム及び方法

Country Status (6)

Country Link
US (2) US11367508B2 (ja)
EP (1) EP4013866A4 (ja)
JP (1) JP2022544604A (ja)
AU (1) AU2020334901A1 (ja)
CA (1) CA3148023A1 (ja)
WO (2) WO2021034712A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11367508B2 (en) * 2019-08-16 2022-06-21 Tempus Labs, Inc. Systems and methods for detecting cellular pathway dysregulation in cancer specimens
US11373760B2 (en) * 2019-10-12 2022-06-28 International Business Machines Corporation False detection rate control with null-hypothesis
US11645555B2 (en) 2019-10-12 2023-05-09 International Business Machines Corporation Feature selection using Sobolev Independence Criterion
EP4139477A4 (en) 2020-04-21 2024-05-22 Tempus AI, Inc. TCR/BCR PROFILING
US11613783B2 (en) 2020-12-31 2023-03-28 Tempus Labs, Inc. Systems and methods for detecting multi-molecule biomarkers
CA3204451A1 (en) 2021-01-07 2022-07-14 Francisco M. De La Vega Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
US11481235B2 (en) * 2021-01-11 2022-10-25 Evicore Healthcare MSI, LLC Database framework model transformation for pathway identification
WO2022159774A2 (en) 2021-01-21 2022-07-28 Tempus Labs, Inc. METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING
CN113421613B (zh) * 2021-06-08 2024-06-18 吴安华 一种基于铁死亡水平评价胶质母细胞瘤患者免疫治疗反应性的系统及分析方法
AU2022366767A1 (en) 2021-10-11 2024-05-02 Tempus Ai, Inc. Methods and systems for detecting alternative splicing in sequencing data
WO2023086474A1 (en) * 2021-11-10 2023-05-19 Albert Einstein College Of Medicine Method for measuring somatic dna mutation and dna damage profiles and a diagnostic kit suitable therefore
WO2023091316A1 (en) 2021-11-19 2023-05-25 Tempus Labs, Inc. Methods and systems for accurate genotyping of repeat polymorphisms
WO2023100181A1 (en) * 2021-12-01 2023-06-08 Hadasit Medical Research Services And Development Ltd. Machine learning prediction of genetic mutations impact
EP4239647A1 (en) 2022-03-03 2023-09-06 Tempus Labs, Inc. Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery
WO2023168049A2 (en) * 2022-03-04 2023-09-07 Bostongene Corporation Cytokine gene expression signatures
CN115273966B (zh) * 2022-08-29 2023-03-31 西安交通大学 谱系树中可变剪接模式和染色质状态动态变化的分析方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090299646A1 (en) * 2004-07-30 2009-12-03 Soheil Shams System and method for biological pathway perturbation analysis
EP2419540B1 (en) * 2009-04-18 2017-05-17 Merck Sharp & Dohme Corp. Methods and gene expression signature for assessing ras pathway activity
EP2549399A1 (en) * 2011-07-19 2013-01-23 Koninklijke Philips Electronics N.V. Assessment of Wnt pathway activity using probabilistic modeling of target gene expression
CA2879359A1 (en) * 2012-07-26 2014-01-30 The Regents Of The University Of California Screening, diagnosis and prognosis of autism and other developmental disorders
US20160186262A1 (en) * 2013-01-23 2016-06-30 Reproductive Genetics And Technology Solutions, Llc Compositions and methods for genetic analysis of embryos
CA2923672A1 (en) 2013-11-22 2015-02-28 Dignity Health Diagnosing idh1 related subgroups and treatment of cancer
KR101785795B1 (ko) 2015-10-30 2017-10-13 가톨릭대학교 산학협력단 두경부암 예후 예측용 바이오마커 마이크로 rna
US10340031B2 (en) 2017-06-13 2019-07-02 Bostongene Corporation Systems and methods for identifying cancer treatments from normalized biomarker scores
EP3833777A4 (en) 2018-08-06 2022-05-04 Tempus Labs, Inc. MULTIMODAL APPROACH TO PREDICTION OF IMMUNE INFILTRATION BASED ON INTEGRATED RNA EXPRESSION AND IMAGING CHARACTERISTICS
WO2020068880A1 (en) 2018-09-24 2020-04-02 Tempus Labs, Inc. Methods of normalizing and correcting rna expression data
US20200118644A1 (en) 2018-10-15 2020-04-16 Tempus Labs, Inc. Microsatellite instability determination system and related methods
SG11202104882WA (en) * 2018-11-15 2021-06-29 Ampel Biosolutions Llc Machine learning disease prediction and treatment prioritization
WO2020142563A1 (en) 2018-12-31 2020-07-09 Tempus Labs, Inc. Transcriptome deconvolution of metastatic tissue samples
WO2020210487A1 (en) * 2019-04-12 2020-10-15 Cipher Genetics Inc. Systems and methods for nutrigenomics and nutrigenetic analysis
US11367508B2 (en) * 2019-08-16 2022-06-21 Tempus Labs, Inc. Systems and methods for detecting cellular pathway dysregulation in cancer specimens

Also Published As

Publication number Publication date
WO2021034712A1 (en) 2021-02-25
US20220351805A1 (en) 2022-11-03
US20210057042A1 (en) 2021-02-25
AU2020334901A1 (en) 2022-03-24
EP4013866A4 (en) 2023-08-30
WO2023224709A1 (en) 2023-11-23
US11367508B2 (en) 2022-06-21
CA3148023A1 (en) 2021-02-25
EP4013866A1 (en) 2022-06-22

Similar Documents

Publication Publication Date Title
US11367508B2 (en) Systems and methods for detecting cellular pathway dysregulation in cancer specimens
JP7368483B2 (ja) 相同組換え欠損を推定するための統合された機械学習フレームワーク
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
JP2022532897A (ja) マルチラベルがん分類のためのシステムおよび方法
US20210272695A1 (en) Systems and methods for using sequencing data for pathogen detection
Willsey et al. Coexpression networks implicate human midfetal deep cortical projection neurons in the pathogenesis of autism
US20200395097A1 (en) Pan-cancer model to predict the pd-l1 status of a cancer cell sample using rna expression data and other patient data
US20200232046A1 (en) Genomic sequencing classifier
AU2016293025A1 (en) System and methodology for the analysis of genomic data obtained from a subject
CA3167253A1 (en) Methods and systems for a liquid biopsy assay
CN114026646A (zh) 用于评估肿瘤分数的系统和方法
Viljoen et al. Quality assessment and data handling methods for Affymetrix Gene 1.0 ST arrays with variable RNA integrity
JP2024057050A (ja) 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング
WO2022212590A1 (en) Systems and methods for multi-analyte detection of cancer
US20210358571A1 (en) Systems and methods for predicting pathogenic status of fusion candidates detected in next generation sequencing data
WO2023107869A1 (en) Methods and systems for highlighting clinical information in diagnostic reports
Singh et al. Common miRNAs, candidate genes and their interaction network across four subtypes of epithelial ovarian cancer
US20230253070A1 (en) Systems and Methods for Detecting Cellular Pathway Dysregulation in Cancer Specimens
Singer et al. The burden of splice-disrupting variants in inherited heart disease and unexplained sudden cardiac death
Wang et al. Terminal modifications independent cell-free RNA sequencing enables sensitive early cancer detection and classification

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230809

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230809